CN107358121B - 一种脱敏数据集的数据融合方法及装置 - Google Patents

一种脱敏数据集的数据融合方法及装置 Download PDF

Info

Publication number
CN107358121B
CN107358121B CN201710566233.1A CN201710566233A CN107358121B CN 107358121 B CN107358121 B CN 107358121B CN 201710566233 A CN201710566233 A CN 201710566233A CN 107358121 B CN107358121 B CN 107358121B
Authority
CN
China
Prior art keywords
data set
confluent
desensitization data
result
desensitization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710566233.1A
Other languages
English (en)
Other versions
CN107358121A (zh
Inventor
张�诚
易岚
陈宇新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
张�诚
易岚
陈宇新
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 张�诚, 易岚, 陈宇新 filed Critical 张�诚
Priority to CN201710566233.1A priority Critical patent/CN107358121B/zh
Publication of CN107358121A publication Critical patent/CN107358121A/zh
Application granted granted Critical
Publication of CN107358121B publication Critical patent/CN107358121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6209Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • G06Q10/06375Prediction of business process outcome or impact based on a proposed change
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Medical Informatics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种脱敏数据集的数据融合方法及装置,涉及数据处理和分析技术领域。所述方法包括:对第一脱敏数据集和第二脱敏数据集分别进行预融合得到对应的第一预融合结果和第二预融合结果;根据第二预融合结果对第一脱敏数据集计算第一联合概率相关值,根据第一预融合结果对第二脱敏数据集计算第二联合概率相关值;对第一联合概率相关值和第二联合概率相关值交叉融合得到第一交叉融合结果和第二交叉融合结果;根据第二预融合结果和第一交叉融合结果进行自融合得到第一脱敏数据集的融合数据记录,根据第一预融合结果和第二交叉融合结果进行自融合得到第二脱敏数据集的融合数据记录。本发明中的技术方案,实现了对不同脱敏数据集的数据融合。

Description

一种脱敏数据集的数据融合方法及装置
技术领域
本发明涉及数据处理和分析技术领域,尤其涉及一种脱敏数据集的数据融合方法及装置。
背景技术
对于多数商业实体来说,合理的对消费者的个体识别信息(例如身份证号、手机号、真实姓名和住所等)进行分析和融合,能够更有效的预测消费者的偏好,进而为消费者提供增值服务;而出于法律、隐私保护、商业利益等多方面的因素,要求商业实体需要对其收集到的消费者的个体识别信息加密或者脱敏后才能在外部环境中使用,该脱敏后的消费者的个体识别信息我们称之为“脱敏数据集”,即要求商业实体需要对“脱敏数据集”进行分析和融合;然而,现有技术中,对数据集的融合都是基于非脱敏数据集进行的,并且存在较大的泄露个人隐私的风险。
例如,当同一公司内部或者两家公司采用不同加密、匿名或虚拟编码方法对各自消费者个人识别信息进行处理后,公司的消费者个人数据将因为缺少一致的唯一识别信息而无法融合和分析。实际需求场合包括但不限于以下:1.同一家实体消费场所(如大卖场、超市)拥有用户在场所内的匿名消费数据(通常以小票形式保留),需要准确找出重复消费者,为其提供更好的服务;2.两家互联网公司需要合法地进行网络消费者个体数据交换,从而更好地预测消费者偏好和行为,为消费者提供增值服务;3.城市商圈里两个商场和商铺需要合法地交换顾客的购买信息,从而更好了解顾客需求,提供推荐和增值服务。
如果能解决以上脱敏数据集的融合处理问题,对隐私保护、商业应用创新和数据交易具有非常重大的现实意义。而对于两套脱敏数据集的融合,现有技术中一直没有有效的技术手段。到目前为止,实际操作中的数据融合工作,只能基于非脱敏数据集进行,或配合一定商业途径完成:1.企业通过并购,将另一家企业的数据变为企业内部数据,然后基于用户识别信息的匹配进行融合。这种方式的商业代价很大,可操作性较差。2.两家企业间直接借助各自拥有的消费者个体有效识别信息作为主键,实现非脱敏数据的直接融合。这种方式存在较大的泄露个人隐私的技术风险和法律风险。3.两家企业分别将自己拥有的包含消费者个体有效识别信息的个人数据交由第三方代理商,由第三方代理商完成非脱敏数据的融合,然后将合并后的数据分别返还给各自企业。这种方法使得企业和第三方平台都存在较大的泄漏个人隐私的技术风险和法律风险。
总的来说,已有方法只能基于非脱敏数据集进行融合,现有技术中没有针对脱敏数据集的融合技术,如何有效的对脱敏数据集进行融合,以便于为消费者提供增值服务,对于很多商业实体来说是急需解决的问题。
发明内容
本发明的目的是通过以下技术方案实现的。
一方面,本发明提供了一种脱敏数据集的数据融合方法,包括:
步骤S1:对第一脱敏数据集和第二脱敏数据集分别进行预融合得到对应的第一预融合结果和第二预融合结果;
步骤S2:根据所述第二预融合结果对所述第一脱敏数据集进行融合预测并计算出第一联合概率相关值,根据所述第一预融合结果对所述第二脱敏数据集进行融合预测并计算出第二联合概率相关值;
步骤S3:结合所述第一预融合结果和所述第二预融合结果,对所述第一联合概率相关值和所述第二联合概率相关值进行交叉融合得到第一交叉融合结果和第二交叉融合结果;
步骤S4:根据所述第二预融合结果和所述第一交叉融合结果进行自融合得到所述第一脱敏数据集的融合数据记录,根据所述第一预融合结果和所述第二交叉融合结果进行自融合得到所述第二脱敏数据集的融合数据记录。
可选地,所述第一脱敏数据集的特有变量是a,所述第二脱敏数据集的特有变量是b,所述步骤S1具体包括:
计算所述第一脱敏数据集的特征值:
其中,0≤ta≤1;
构建所述第一脱敏数据集的数据分布模型Pa(X),包括:
在所述第一脱敏数据集中,以X为自变量、a为因变量,选用合适的预测模型,通过机器学习训练出0≤Pa(X)≤1,并得到对于给定的共有变量集X的值x, P(a=1|x)=Pa(x);所述预测模型,包括逻辑回归模型、线性回归模型、决策树、随机森林、神经网络;
计算所述第二脱敏数据集的特征值:
其中,0≤tb≤1;
构建所述第二脱敏数据集的数据分布模型Pb(X),包括:
在所述第二脱敏数据集中,以X为自变量、b为因变量,选用合适的预测模型,通过机器学习训练出0≤Pb(X)≤1,并得到对于给定的共有变量集X的值x, P(b=1|x)=Pb(x);所述预测模型,包括逻辑回归模型、线性回归模型、决策树、随机森林、神经网络;
将所述第一脱敏数据集的特征值ta、所述第一脱敏数据集的数据分布模型Pa(X)、所述第一脱敏数据集中数据记录的数量Na作为第一预融合结果;
将所述第二脱敏数据集的特征值tb、所述第二脱敏数据集的数据分布模型Pb(X)、所述第二脱敏数据集中数据记录的数量Nb作为第二预融合结果。
可选地,所述步骤S2,具体包括:
根据所述第二预融合结果中含有的第二脱敏数据集的数据分布模型Pb(X),对所述第一脱敏数据集进行融合预测并计算出第一联合概率相关值:
根据所述第一预融合结果中含有的第一脱敏数据集的数据分布模型Pa(X),对所述第二脱敏数据集进行融合预测并计算出第二联合概率相关值:
可选地,所述步骤S3,具体包括:
根据所述第一联合概率相关值、所述第二联合概率相关值、所述第一预融合结果中含有的第一脱敏数据集中数据记录的数量Na、所述第二预融合结果中含有的第二脱敏数据集中数据记录的数量Nb计算联合分布概率:
根据所述联合分布概率、所述第一预融合结果中含有的第一脱敏数据集的特征值ta、所述第二预融合结果中含有的第二脱敏数据集的特征值tb计算条件概率:
将所述条件概率β11和β10作为第一交叉融合结果;
将所述条件概率α11和α10作为第二交叉融合结果。
可选地,所述步骤S4,具体包括:
根据所述第二预融合结果中含有的第二脱敏数据集的特征值tb得到阈值函数 fb(x):
根据所述第一交叉融合结果中含有的条件概率β11和β10,及所述阈值函数fb(x),回归所述第一脱敏数据集中任意一条融合数据记录的值:其中, i=1,2,...,Na
根据所述第一预融合结果中含有的第一脱敏数据集的特征值ta 得到阈值函数 fa(x):
根据所述第二交叉融合结果中含有的条件概率α11和α10,及所述阈值函数fa(x),回归所述第二脱敏数据集的任意一条融合数据记录的值:其中, j=1,2,...,Nb
另一方面,本发明提供一种脱敏数据集的数据融合装置,包括:
预融合模块,用于对第一脱敏数据集和第二脱敏数据集分别进行预融合得到对应的第一预融合结果和第二预融合结果;
融合预测模块,用于根据所述预融合模块得到的第二预融合结果对所述第一脱敏数据集进行融合预测并计算出第一联合概率相关值,根据所述预融合模块得到的第一预融合结果对所述第二脱敏数据集进行融合预测并计算出第二联合概率相关值;
交叉融合模块,用于结合所述预融合模块得到的第一预融合结果和第二预融合结果,对所述融合预测模块得到的第一联合概率相关值和第二联合概率相关值进行交叉融合得到第一交叉融合结果和第二交叉融合结果;
自融合模块,用于根据所述预融合模块得到的第二预融合结果和所述交叉融合模块得到的第一交叉融合结果进行自融合得到所述第一脱敏数据集的融合数据记录,根据所述预融合模块得到的第一预融合结果和所述交叉融合模块得到的第二交叉融合结果进行自融合得到所述第二脱敏数据集的融合数据记录。
可选地,所述第一脱敏数据集的特有变量是a,所述第二脱敏数据集的特有变量是b,所述预融合模块,包括:第一计算单元、第二计算单元、第一构建单元、第二构建单元、第一作为单元和第二作为单元;
所述第一计算单元,用于计算所述第一脱敏数据集的特征值:
其中,0≤ta≤1;
所述第一构建单元,用于构建所述第一脱敏数据集的数据分布模型Pa(X),包括:
在所述第一脱敏数据集中,以X为自变量、a为因变量,选用合适的预测模型,通过机器学习训练出0≤Pa(X)≤1,并得到对于给定的共有变量集X的值x, P(a=1|x)=Pa(x);所述预测模型,包括逻辑回归模型、线性回归模型、决策树、随机森林、神经网络;
所述第二计算单元,用于计算所述第二脱敏数据集的特征值:
其中,0≤tb≤1;
所述第二构建单元,用于构建所述第二脱敏数据集的数据分布模型Pb(X),包括:
在所述第二脱敏数据集中,以X为自变量、b为因变量,选用合适的预测模型,通过机器学习训练出0≤Pb(X)≤1,并得到对于给定的共有变量集X的值x, P(b=1|x)=Pb(x);所述预测模型,包括逻辑回归模型、线性回归模型、决策树、随机森林、神经网络;
所述第一作为单元,用于将所述第一计算单元计算的第一脱敏数据集的特征值ta、所述第一构建单元构建的第一脱敏数据集的数据分布模型Pa(X)、所述第一脱敏数据集中数据记录的数量Na作为第一预融合结果;
所述第二作为单元,用于将所述第二计算单元计算的第二脱敏数据集的特征值tb、所述第二构建单元构建的第二脱敏数据集的数据分布模型Pb(X)、所述第二脱敏数据集中数据记录的数量Nb作为第二预融合结果。
可选地,所述融合预测模块,包括:第一融合预测单元和第二融合预测单元;
所述第一融合预测单元,用于根据所述预融合模块得到的第二预融合结果中含有的第二脱敏数据集的数据分布模型Pb(X),对所述第一脱敏数据集进行融合预测并计算出第一联合概率相关值:
所述第二融合预测单元,用于根据所述预融合模块得到的第一预融合结果中含有的第一脱敏数据集的数据分布模型Pa(X),对所述第二脱敏数据集进行融合预测并计算出第二联合概率相关值:
可选地,所述交叉融合模块,包括:第三计算单元、第四计算单元、第三作为单元和第四作为单元;
所述第三计算单元,用于根据所述第一联合概率相关值、所述第二联合概率相关值、所述第一预融合结果中含有的第一脱敏数据集中数据记录的数量Na、所述第二预融合结果中含有的第二脱敏数据集中数据记录的数量Nb计算联合分布概率:
所述第四计算单元,用于根据所述联合分布概率、所述第一预融合结果中含有的第一脱敏数据集的特征值ta、所述第二预融合结果中含有的第二脱敏数据集的特征值tb计算条件概率:
所述第三作为单元,用于将所述第四计算单元计算的条件概率β11和β10作为第一交叉融合结果;
所述第四作为单元,用于将所述第四计算单元计算的条件概率α11和α10作为第二交叉融合结果。
可选地,所述自融合模块,包括:第一自融合单元和第二自融合单元;
所述第一自融合单元,用于根据所述预融合模块得到的第二预融合结果中含有的第二脱敏数据集的特征值tb得到阈值函数fb(x):
根据所述交叉融合模块得到的第一交叉融合结果中含有的条件概率β11和β10,及所述阈值函数fb(x),回归所述第一脱敏数据集中任意一条融合数据记录的值:其中, i=1,2,...,Na
所述第二自融合单元,用于根据所述预融合模块得到的第一预融合结果中含有的第一脱敏数据集的特征值ta得到阈值函数fa(x):
根据所述交叉融合模块得到的第二交叉融合结果中含有的条件概率α11和α10,及所述阈值函数fa(x),回归所述第二脱敏数据集的任意一条融合数据记录的值:其中, j=1,2,...,Nb
本发明的核心思路是在以脱敏数据集内其他各类属性、行为等非脱敏信息为依据,为每一条脱敏数据构建最小误差最大统计效力的匹配池,并完成脱敏后个人识别信息的算法匹配,在不识别隐私信息的基础上实现不同脱敏数据集的融合,并通过算法保证数据融合后的预测和分析模型拟合优度和预测准确率与使用非脱敏个体识别信息匹配后的数据进行的分析和预测效果一致。从而找出重复消费者或了解消费者在不同场景下的行为特征,其结果可以进一步指导推荐、广告以及更多其他的公司市场策略。
本发明的优点在于:能够在不识别消费者隐私信息的基础上实现不同脱敏数据集的融合;并且在融合过程中,无需借助唯一识别信息(通常为敏感信息)做匹配,可以实现隔离/暗离处理,甚至无需外传原始数据记录,不仅保障了消费者的个体识别信息的安全,而且能够有效的了解消费者在不同场景下的行为特征,进而为消费者提供增值服务,也为商业实体自身提供市场导向。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
附图1为根据本发明实施方式的一种脱敏数据集的数据融合方法中数据传递的示意图;
附图2为根据本发明实施方式的一种脱敏数据集的数据融合方法流程图;
附图3为根据本发明实施方式的一种脱敏数据集的数据融合方法中数据传递的示意图;
附图4为根据本发明实施方式的一种脱敏数据集的数据融合装置框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明的方法是基于变量的概率分布推断技术,即给定两套独立的数据集,根据共有变量估计出两套数据的联合概率分布,然后基于估计的概率分布去预测数据集本身没有的变量在其他共有变量存在情况下发生的概率;由此提出一个高效可行的脱敏数据集的融合技术方案。
本发明的技术方案优先考虑脱敏后的数据集,即数据中的用户识别信息(如身份证、护照、驾驶证、手机号、手机IMEI信息、真实姓名和住所、驾驶车架号等) 已被加密、匿名或虚拟编码,不再具有识别价值,故为方便起见,也不在数据集里体现。本发明的技术方案同样适用于非脱敏数据的融合,只需要忽略数据中的用户识别信息,然后直接采用本方案后续说明的步骤和算法即可。
具体地,现将商业实体A和商业实体B分别拥有的脱敏数据集记为Da和Db, Da和Db分别如下:
Da=(Xi,ai),i=1,2,...,Na
Db=(Xj,bj),j=1,2,...,Nb
其中,Xi,ai和Xj,bj分别为Da和Db中的任意一条数据记录,Na和Nb分别为Da和Db所含有的数据记录的数量,X代表两个脱敏数据集中的共有变量,a和b是相应脱敏数据集中的特有变量,且a≠b;为简单起见,这里a和b的取值均为0或者1,其含义表示消费者有没有购买或者有没有选择a或者b。
融合Da和Db,为商业实体A和商业实体B分别形成新的虚拟数据集为:
D′a=(Xi,ai,b’i),i=1,2,...,Na
D′b=(Xj,a’j,bj),j=1,2,...,Nb
其中,经融合而虚拟出的b’i和a′j,其取值为0或者1,可以用来指导推荐、广告以及更多其他的公司市场策略。
为便于介绍技术方案,首先引入两个函数。假设数据Da中a值为1的比例显然0≤ta≤1;对任意概率值0≤x≤1,有阈值函数:
同样的,假设数据集Db中b值为1的比例有阈值函数:
同时,本方案可以以第三方平台介入的形式,分别帮助商业实体A和B在不泄漏其各自拥有的脱敏数据集Da和Db中原始数据记录的基础上,使其各自获得融合后的虚拟数据集D′a和D′b,从而实现融合的目的。其中,融合过程中发生的操作和数据的传递,如图1所示,我们可以看到脱敏数据集中的原始数据记录没有被拷贝或搬移,且真正发生的数据传输量为O(Dim(X)),远小于脱敏数据集中含有的数据记录数量,即O(length(Da)+length(Db))。
进一步地,该技术方案根据下列公式计算联合分布:
因此,我们可以计算得到四个联合分布的值:
p11=P(a=1,b=1|Da+b)
p10=P(a=1,b=0|Da+b)
p01=P(a=0,b=1|Da+b)
p00=P(a=0,b=0|Da+b)
结合前面定义的Da中a=1的比例ta,和Db中b=1的比例tb,可计算条件概率:
同样也可计算得到如下条件概率:
在数据Da中,利用以上条件概率和模型Pb(X),以及之前定义的阈值函数fb(x),为任意一条融合数据记录Xi,ai预测(回归)出一个虚拟的b值,即:
因此,可得融合后的虚拟数据集:
D′a=(Xi,ai,b′i),i=1,2,...,Na
同样,在数据Db中,利用以上条件概率和模型Pa(X),以及之前定义的阈值函数fa(x),为任意一条融合数据记录Xj,bj预测(回归)出一个虚拟的a值,即:
可得融合后的虚拟数据集:
D′b=(Xj,a′j,bj),j=1,2,...,Nb
D′a和D′b为所求融合结果,融合完成。
本发明中,方便起见,令Da上算得的同理可以得到sa10、sa01、sb11、 sb10、sb01。显然,可进一步得到同理可以得到p10和p01
另外,定义:
结合上述定义,在实施例一中将脱敏数据集的融合过程进行进一步详述。
需要指出地,通过该方法得到的融合结果,其准确率接近借助唯一识别信息做匹配后的预测结果,并且接近程度取决于脱敏数据集具体的标签及特性;对于融合结果,同样取决于两套数据集各自的特性,一旦其中任意一套或者两套改变,融合结果也将改变,而基于其他数据集的情况使用该融合结果也都有错误的风险;因而,本发明中的方法也降低了对融合后的数据集的滥用风险。
实施例一
根据本发明的实施方式,提出一种脱敏数据集的数据融合方法,如图2和图3 所示,包括:
步骤101:对第一脱敏数据集和第二脱敏数据集分别进行预融合得到对应的第一预融合结果和第二预融合结果;
步骤102:根据第二预融合结果对第一脱敏数据集进行融合预测并计算出第一联合概率相关值,根据第一预融合结果对第二脱敏数据集进行融合预测并计算出第二联合概率相关值;
步骤103:结合第一预融合结果和第二预融合结果,对第一联合概率相关值和第二联合概率相关值进行交叉融合得到第一交叉融合结果和第二交叉融合结果;
步骤104:根据第二预融合结果和第一交叉融合结果进行自融合得到第一脱敏数据集的融合数据记录,根据第一预融合结果和第二交叉融合结果进行自融合得到第二脱敏数据集的融合数据记录。
根据本发明的实施方式,第一脱敏数据集的特有变量为a,第二脱敏数据集的特有变量为b,步骤101具体包括:
计算第一脱敏数据集的特征值:
其中,0≤ta≤1;
构建第一脱敏数据集的数据分布模型Pa(X),包括:
在第一脱敏数据集中,以X为自变量(观测值)、a为因变量(目标值),选用合适的预测(回归)模型,通过机器学习训练出0≤Pa(X)≤1,并得到对于给定的共有变量集X的值x,P(a=1|x)=Pa(x);其中,预测(回归)模型包括但不限于逻辑回归模型、线性回归模型、决策树、随机森林、神经网络;
计算第二脱敏数据集的特征值:
其中,0≤tb≤1;
构建第二脱敏数据集的数据分布模型Pb(X):
在第二脱敏数据集中,以X为自变量(观测值)、b为因变量(目标值),选用合适的预测(回归)模型,通过机器学习训练出0≤Pb(X)≤1,并得到对于给定的共有变量集X的值x,P(b=1|x) = Pb(x);其中,预测(回归)模型包括但不限于逻辑回归模型、线性回归模型、决策树、随机森林、神经网络;
将第一脱敏数据集的特征值ta、第一脱敏数据集的数据分布模型Pa(X)、第一脱敏数据集中数据记录的数量Na作为第一预融合结果;
将第二脱敏数据集的特征值tb、第二脱敏数据集的数据分布模型Pb(X)、第二脱敏数据集中数据记录的数量Nb作为第二预融合结果。
根据本发明的实施方式,步骤102,具体包括:
根据第二预融合结果中含有的第二脱敏数据集的数据分布模型Pb(X),对第一脱敏数据集进行融合预测并计算出第一联合概率相关值:
根据第一预融合结果中含有的第一脱敏数据集的数据分布模型Pa(X),对第二脱敏数据集进行融合预测并计算出第二联合概率相关值:
根据本发明的实施方式,步骤103,具体包括:
根据第一联合概率相关值、第二联合概率相关值、第一预融合结果中含有的第一脱敏数据集中数据记录的数量Na、第二预融合结果中含有的第二脱敏数据集中数据记录的数量Nb计算联合分布概率:
根据联合分布概率、第一预融合结果中含有的第一脱敏数据集的特征值ta、第二预融合结果中含有的第二脱敏数据集的特征值tb计算条件概率:
将条件概率β11和β10作为第一交叉融合结果;
将条件概率α11和α10作为第二交叉融合结果。
在本实施例中,步骤104,具体包括:
根据第二预融合结果中含有的第二脱敏数据集的特征值tb得到阈值函数fb(x):
根据第一交叉融合结果中含有的条件概率β11和β10,及阈值函数fb(x),回归第一脱敏数据集中任意一条融合数据记录的值:其中, i=1,2,...,Na
根据第一预融合结果中含有的第一脱敏数据集的特征值ta得到阈值函数fa(x):
根据第二交叉融合结果中含有的条件概率α11和α10,及阈值函数fa(x),回归第二脱敏数据集的任意一条融合数据记录的值:其中, j=1,2,...,Nb
进一步地,本实施例中的方法还适用于多个脱敏数据集的融合,在对多个脱敏数据集进行融合时,重复执行以下步骤H,直至所述多个脱敏数据集中的任意两个脱敏数据集均融合完成:
步骤H:从多个脱敏数据集中任意选择两个脱敏数据集,将其中一个作为第一脱敏数据集,将另一个作为第二脱敏数据集,对选择的两个脱敏数据集执行步骤101 至步骤104中的操作。
可选地,步骤101具体为:第一商业实体和第二商业实体分别对自身拥有的第一脱敏数据集和第二脱敏数据集进行预融合得到对应的第一预融合结果和第二预融合操作结果并分别发送给第三方平台;
对应地,步骤102之前,还包括:第三方平台将接收到的第二预融合结果中含有的第二脱敏数据集的特征值tb和第二脱敏数据集的数据分布模型Pb(X)发送给第一商业实体,将接收到的第一预融合结果中含有的第一脱敏数据集的特征值ta和第一脱敏数据集的数据分布模型Pa(X)发送给第二商业实体;
对应地,步骤102具体为:第一商业实体根据接收到的第二脱敏数据集的数据分布模型Pb(X)对第一脱敏数据集进行融合预测并计算出第一联合概率相关值并发送给第三方平台,第二商业实体根据接收到的第一脱敏数据集的数据分布模型Pa(X) 对第二脱敏数据集进行融合预测并计算出第二联合概率相关值并发送给第三方平台;
对应地,步骤103具体为:第三方平台结合已接收到的第一预融合结果和第二预融合结果,对接收到的第一联合概率相关值和第二联合概率相关值进行交叉融合得到第一交叉融合结果和第二交叉融合结果,并对应返回给第一商业实体和第二商业实体;
对应地,步骤104具体为:第一商业实体根据接收到的第二脱敏数据集的特征值tb和第一交叉融合结果进行自融合得到第一脱敏数据集的融合数据记录,第二商业实体根据接收到的第一脱敏数据集的特征值ta和第二交叉融合结果进行自融合得到第二脱敏数据集的融合数据记录。
其中,第一商业实体和第二商业实体分别对自身拥有的第一脱敏数据集和第二脱敏数据集进行预融合及融合预测操作,并将操作结果发送给第三方平台,保障了融合过程中脱敏数据集中的原始数据记录不外泄,即保障了消费者的个人信息不外泄,保障了脱敏数据集中的数据记录的安全。
可选地,在本实施例中,当商业实体与第三方平台建立信任关系时,还可以为:第一商业实体和第二商业实体分别将自身拥有的第一脱敏数据集和第二脱敏数据集发送给第三方平台,第三方平台对接收到的第一脱敏数据集和第二脱敏数据集执行步骤101至步骤104中的操作,并将得到的融合数据记录分别返回给对应的第一商业实体和第二商业实体;
该方式中,由于商业实体与第三方平台建立了信任关系,故能够在很大程度上保证脱敏数据集中数据记录的安全,即保证消费者的个人信息的安全,并且为商业实体节约了时间成本。
可选地,在本实施例中,当商业实体之间建立信任关系时,还可以为:商业实体之间交换各自拥有的脱敏数据集,并按照上述方法对脱敏数据集进行融合。
更进一步地,在本实施例中,如将第一脱敏数据集记为Da,将第二脱敏数据集记为Db,经过上述融合之后,得到融合后的第一脱敏数据集和融合后的第二脱敏数据集分别为:
D′a=(Xi,ai,b′i),i=1,2,...,Na
D'b=(Xj,a′j,bj),j=1,2,...,Nb
其中,经融合而得到的b’i和a’j,其取值为0或者1,可以用来指导推荐、广告以及更多其他的公司市场策略。
本发明中,对于商业实体而言,在保障了脱敏数据集中数据记录的安全的前提下,能够根据各脱敏数据集的特征值和数据的分布特征,并结合条件概率和联合分布概率来融合各脱敏数据集,进而了解消费者在不同场景下的行为特征,为消费者提供增值服务,也为商业实体自身提供市场导向。
实施例二
根据本发明的实施方式,提供一种脱敏数据集的数据融合装置,如图4所示,包括:
预融合模块201,用于对第一脱敏数据集和第二脱敏数据集分别进行预融合得到对应的第一预融合结果和第二预融合结果;
融合预测模块202,用于根据预融合模块201得到的第二预融合结果对第一脱敏数据集进行融合预测并计算出第一联合概率相关值,根据预融合模块201得到的第一预融合结果对第二脱敏数据集进行融合预测并计算出第二联合概率相关值;
交叉融合模块203,用于结合预融合模块201得到的第一预融合结果和第二预融合结果,对融合预测模块202得到的第一联合概率相关值和第二联合概率相关值进行交叉融合得到第一交叉融合结果和第二交叉融合结果;
自融合模块204,用于根据预融合模块201得到的第二预融合结果和交叉融合模块203得到的第一交叉融合结果进行自融合得到第一脱敏数据集的融合数据记录,根据预融合模块201得到的第一预融合结果和交叉融合模块得到的第二交叉融合结果进行自融合得到第二脱敏数据集的融合数据记录。
根据本发明的实施方式,第一脱敏数据集的特有变量是a,第二脱敏数据集的特有变量是b,预融合模块201,包括:第一计算单元、第二计算单元、第一构建单元、第二构建单元、第一作为单元和第二作为单元;
其中,第一计算单元,用于计算第一脱敏数据集的各特征值:
其中,0≤ta≤1;
第一构建单元,用于构建第一脱敏数据集的数据分布模型Pa(X),包括:
在第一脱敏数据集中,以X为自变量(观测值)、a为因变量(目标值),选用合适的预测(回归)模型,通过机器学习训练出0≤Pa(X)≤1,并得到对于给定的共有变量集X的值x,P(a=1|x)=Pa(x);其中,预测(回归)模型包括但不限于逻辑回归模型、线性回归模型、决策树、随机森林、神经网络;
第二计算单元,用于计算第二脱敏数据集的各特征值:
其中,0≤tb≤1;
第二构建单元,用于构建第二脱敏数据集的数据分布模型Pb(X),包括:
在第二脱敏数据集中,以X为自变量(观测值)、b为因变量(目标值),选用合适的预测(回归)模型,通过机器学习训练出0≤Pb(X)≤1,并得到对于给定的共有变量集X的值x,P(b=1|x)=Pb(x);其中,预测(回归)模型包括但不限于逻辑回归模型、线性回归模型、决策树、随机森林、神经网络;
第一作为单元,用于将第一计算单元计算的第一脱敏数据集的特征值ta、第一构建单元构建的第一脱敏数据集的数据分布模型Pa(X)、第一脱敏数据集中数据记录的数量Na作为第一预融合结果;
第二作为单元,用于将第二计算单元计算的第二脱敏数据集的特征值tb、第二构建单元构建的第二脱敏数据集的数据分布模型Pb(X)、第二脱敏数据集中数据记录的数量Nb作为第二预融合结果。
根据本发明的实施方式,融合预测模块202,包括:第一融合预测单元和第二融合预测单元;
其中,第一融合预测单元,用于根据预融合模块201得到的第二预融合结果中含有的第二脱敏数据集的数据分布模型Pb(X),对第一脱敏数据集进行融合预测并计算出第一联合概率相关值:
第二融合预测单元,用于根据预融合模块201得到的第一预融合结果中含有的第一脱敏数据集的数据分布模型Pa(X),对第二脱敏数据集进行融合预测并计算出第二联合概率相关值:
根据本发明的实施方式,交叉融合模块203,包括:第三计算单元、第四计算单元、第三作为单元和第四作为单元;
其中,第三计算单元,用于根据第一联合概率相关值、第二联合概率相关值、第一预融合结果中含有的第一脱敏数据集中数据记录的数量Na、第二预融合结果中含有的第二脱敏数据集中数据记录的数量Nb计算联合分布概率:
第四计算单元,用于根据联合分布概率、第一预融合结果中含有的第一脱敏数据集的特征值ta、第二预融合结果中含有的第二脱敏数据集的特征值tb计算条件概率:
第三作为单元,用于将第四计算单元计算的条件概率β11和β10作为第一交叉融合结果;
第四作为单元,用于将第四计算单元计算的条件概率α11和α10作为第二交叉融合结果。
根据本发明的实施方式,自融合模块204,包括:第一自融合单元和第二自融合单元;
其中,第一自融合单元,用于根据预融合模块201得到的第二预融合结果中含有的第二脱敏数据集的特征值tb得到阈值函数fb(x):
根据交叉融合模块203得到的第一交叉融合结果中含有的条件概率β11和β10,及阈值函数fb(x),回归第一脱敏数据集中任意一条融合数据记录的值: 其中,i=1,2,...,Na
第二自融合单元,用于根据预融合模块201得到的第一预融合结果中含有的第一脱敏数据集的特征值ta得到阈值函数fa(x):
根据交叉融合模块202得到的第二交叉融合结果中含有的条件概率α11和α10,及阈值函数fa(x),回归第二脱敏数据集的任意一条融合数据记录的值: 其中,j=1,2,...,Nb
本发明中的技术方案,适用于个人信息脱敏、加密、匿名之后,没有主键可见直接连接的脱敏数据集,并且在不识别消费者隐私信息的基础上实现了不同脱敏数据集的融合;在融合过程中,无需借助唯一识别信息(通常为敏感信息)做匹配,且可以隔离/暗离处理,甚至无需外传原始数据记录,保障了消费者的隐私信息的安全。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种脱敏数据集的数据融合方法,其特征在于,包括:
步骤S1:对第一脱敏数据集和第二脱敏数据集分别进行预融合得到对应的第一预融合结果和第二预融合结果;
步骤S2:根据所述第二预融合结果对所述第一脱敏数据集进行融合预测并计算出第一联合概率相关值,根据所述第一预融合结果对所述第二脱敏数据集进行融合预测并计算出第二联合概率相关值;
步骤S3:结合所述第一预融合结果和所述第二预融合结果,对所述第一联合概率相关值和所述第二联合概率相关值进行交叉融合得到第一交叉融合结果和第二交叉融合结果;
步骤S4:根据所述第二预融合结果和所述第一交叉融合结果进行自融合得到所述第一脱敏数据集的融合数据记录,根据所述第一预融合结果和所述第二交叉融合结果进行自融合得到所述第二脱敏数据集的融合数据记录。
2.根据权利要求1所述的方法,其特征在于,所述第一脱敏数据集的特有变量是a,所述第二脱敏数据集的特有变量是b,所述步骤S1具体包括:
计算所述第一脱敏数据集的特征值:
其中,Da为第一脱敏数据集,Na为第一脱敏数据集Da中数据记录的数量,1≤i≤Na,ai为第一脱敏数据集Da中的第i个特有变量,0≤ta≤1;
构建所述第一脱敏数据集的数据分布模型Pa(X),包括:
在所述第一脱敏数据集中,以X为自变量、a为因变量,选用合适的预测模型,通过机器学习训练出0≤Pa(X)≤1,并得到对于给定的共有变量集X的值x,P(a=1|x)=Pa(x);所述预测模型,包括逻辑回归模型、线性回归模型、决策树、随机森林、神经网络;
计算所述第二脱敏数据集的特征值:
其中,Db为第二脱敏数据集,Nb为第二脱敏数据集Db中数据记录的数量,1≤j≤Nb,bj为第二脱敏数据集Db中的第j个特有变量,0≤tb≤1;
构建所述第二脱敏数据集的数据分布模型Pb(X),包括:
在所述第二脱敏数据集中,以X为自变量、b为因变量,选用合适的预测模型,通过机器学习训练出0≤Pb(X)≤1,并得到对于给定的共有变量集X的值x,P(b=1|x)=Pb(x);所述预测模型,包括逻辑回归模型、线性回归模型、决策树、随机森林、神经网络;
将所述第一脱敏数据集的特征值ta、所述第一脱敏数据集的数据分布模型Pa(X)、所述第一脱敏数据集中数据记录的数量Na作为第一预融合结果;
将所述第二脱敏数据集的特征值tb、所述第二脱敏数据集的数据分布模型Pb(X)、所述第二脱敏数据集中数据记录的数量Nb作为第二预融合结果。
3.根据权利要求2所述的方法,其特征在于,所述步骤S2,具体包括:
根据所述第二预融合结果中含有的第二脱敏数据集的数据分布模型Pb(X),对所述第一脱敏数据集进行融合预测并计算出第一联合概率相关值:
根据所述第一预融合结果中含有的第一脱敏数据集的数据分布模型Pa(X),对所述第二脱敏数据集进行融合预测并计算出第二联合概率相关值:
4.根据权利要求3所述的方法,其特征在于,所述步骤S3,具体包括:
根据所述第一联合概率相关值、所述第二联合概率相关值、所述第一预融合结果中含有的第一脱敏数据集中数据记录的数量Na、所述第二预融合结果中含有的第二脱敏数据集中数据记录的数量Nb计算联合分布概率:
根据所述联合分布概率、所述第一预融合结果中含有的第一脱敏数据集的特征值ta、所述第二预融合结果中含有的第二脱敏数据集的特征值tb计算条件概率:
将所述条件概率β11和β10作为第一交叉融合结果;
将所述条件概率α11和α10作为第二交叉融合结果。
5.根据权利要求4所述的方法,其特征在于,所述步骤S4,具体包括:
根据所述第二预融合结果中含有的第二脱敏数据集的特征值tb得到阈值函数fb(x):
根据所述第一交叉融合结果中含有的条件概率β11和β10,及所述阈值函数fb(x),回归所述第一脱敏数据集中任意一条融合数据记录的值: 其中,Xi为第一脱敏数据集Da中含有的与第二脱敏数据集Db的第i个共有变量,i=1,2,...,Na
根据所述第一预融合结果中含有的第一脱敏数据集的特征值ta得到阈值函数fa(x):
根据所述第二交叉融合结果中含有的条件概率α11和α10,及所述阈值函数fa(x),回归所述第二脱敏数据集的任意一条融合数据记录的值: 其中,Xj为第二脱敏数据集Db中含有的与第一脱敏数据集Da的第j个共有变量,j=1,2,...,Nb
6.一种脱敏数据集的数据融合装置,其特征在于,包括:
预融合模块,用于对第一脱敏数据集和第二脱敏数据集分别进行预融合得到对应的第一预融合结果和第二预融合结果;
融合预测模块,用于根据所述预融合模块得到的第二预融合结果对所述第一脱敏数据集进行融合预测并计算出第一联合概率相关值,根据所述预融合模块得到的第一预融合结果对所述第二脱敏数据集进行融合预测并计算出第二联合概率相关值;
交叉融合模块,用于结合所述预融合模块得到的第一预融合结果和第二预融合结果,对所述融合预测模块得到的第一联合概率相关值和第二联合概率相关值进行交叉融合得到第一交叉融合结果和第二交叉融合结果;
自融合模块,用于根据所述预融合模块得到的第二预融合结果和所述交叉融合模块得到的第一交叉融合结果进行自融合得到所述第一脱敏数据集的融合数据记录,根据所述预融合模块得到的第一预融合结果和所述交叉融合模块得到的第二交叉融合结果进行自融合得到所述第二脱敏数据集的融合数据记录。
7.根据权利要求6所述的装置,其特征在于,所述第一脱敏数据集的特有变量是a,所述第二脱敏数据集的特有变量是b,所述预融合模块,包括:第一计算单元、第二计算单元、第一构建单元、第二构建单元、第一作为单元和第二作为单元;
所述第一计算单元,用于计算所述第一脱敏数据集的特征值:
其中,Da为第一脱敏数据集,Na为第一脱敏数据集Da中数据记录的数量,1≤i≤Na,ai为第一脱敏数据集Da中的第i个特有变量,0≤ta≤1;
所述第一构建单元,用于构建所述第一脱敏数据集的数据分布模型Pa(X),包括:
在所述第一脱敏数据集中,以X为自变量、a为因变量,选用合适的预测模型,通过机器学习训练出0≤Pa(X)≤1,并得到对于给定的共有变量集X的值x,P(a=1|x)=Pa(x);所述预测模型,包括逻辑回归模型、线性回归模型、决策树、随机森林、神经网络;
所述第二计算单元,用于计算所述第二脱敏数据集的特征值:
其中,Db为第二脱敏数据集,Nb为第二脱敏数据集Db中数据记录的数量,1≤j≤Nb,bj为第二脱敏数据集Db中的第j个特有变量,0≤tb≤1;
所述第二构建单元,用于构建所述第二脱敏数据集的数据分布模型Pb(X),包括:
在所述第二脱敏数据集中,以X为自变量、b为因变量,选用合适的预测模型,通过机器学习训练出0≤Pb(X)≤1,并得到对于给定的共有变量集X的值x,P(b=1|x)=Pb(x);所述预测模型,包括逻辑回归模型、线性回归模型、决策树、随机森林、神经网络;
所述第一作为单元,用于将所述第一计算单元计算的第一脱敏数据集的特征值ta、所述第一构建单元构建的第一脱敏数据集的数据分布模型Pa(X)、所述第一脱敏数据集中数据记录的数量Na作为第一预融合结果;
所述第二作为单元,用于将所述第二计算单元计算的第二脱敏数据集的特征值tb、所述第二构建单元构建的第二脱敏数据集的数据分布模型Pb(X)、所述第二脱敏数据集中数据记录的数量Nb作为第二预融合结果。
8.根据权利要求7所述的装置,其特征在于,所述融合预测模块,包括:第一融合预测单元和第二融合预测单元;
所述第一融合预测单元,用于根据所述预融合模块得到的第二预融合结果中含有的第二脱敏数据集的数据分布模型Pb(X),对所述第一脱敏数据集进行融合预测并计算出第一联合概率相关值:
所述第二融合预测单元,用于根据所述预融合模块得到的第一预融合结果中含有的第一脱敏数据集的数据分布模型Pa(X),对所述第二脱敏数据集进行融合预测并计算出第二联合概率相关值:
9.根据权利要求8所述的装置,其特征在于,所述交叉融合模块,包括:第三计算单元、第四计算单元、第三作为单元和第四作为单元;
所述第三计算单元,用于根据所述第一联合概率相关值、所述第二联合概率相关值、所述第一预融合结果中含有的第一脱敏数据集中数据记录的数量Na、所述第二预融合结果中含有的第二脱敏数据集中数据记录的数量Nb计算联合分布概率:
所述第四计算单元,用于根据所述联合分布概率、所述第一预融合结果中含有的第一脱敏数据集的特征值ta、所述第二预融合结果中含有的第二脱敏数据集的特征值tb计算条件概率:
所述第三作为单元,用于将所述第四计算单元计算的条件概率β11和β10作为第一交叉融合结果;
所述第四作为单元,用于将所述第四计算单元计算的条件概率α11和α10作为第二交叉融合结果。
10.根据权利要求9所述的装置,其特征在于,所述自融合模块,包括:第一自融合单元和第二自融合单元;
所述第一自融合单元,用于根据所述预融合模块得到的第二预融合结果中含有的第二脱敏数据集的特征值tb得到阈值函数fb(x):
根据所述交叉融合模块得到的第一交叉融合结果中含有的条件概率β11和β10,及所述阈值函数fb(x),回归所述第一脱敏数据集中任意一条融合数据记录的值:其中,Xi为第一脱敏数据集Da中含有的与第二脱敏数据集Db的第i个共有变量,i=1,2,...,Na
所述第二自融合单元,用于根据所述预融合模块得到的第一预融合结果中含有的第一脱敏数据集的特征值ta得到阈值函数fa(x):
根据所述交叉融合模块得到的第二交叉融合结果中含有的条件概率α11和α10,及所述阈值函数fa(x),回归所述第二脱敏数据集的任意一条融合数据记录的值:其中,Xj为第二脱敏数据集Db中含有的与第一脱敏数据集Da的第j个共有变量,j=1,2,...,Nb
CN201710566233.1A 2017-07-12 2017-07-12 一种脱敏数据集的数据融合方法及装置 Active CN107358121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710566233.1A CN107358121B (zh) 2017-07-12 2017-07-12 一种脱敏数据集的数据融合方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710566233.1A CN107358121B (zh) 2017-07-12 2017-07-12 一种脱敏数据集的数据融合方法及装置

Publications (2)

Publication Number Publication Date
CN107358121A CN107358121A (zh) 2017-11-17
CN107358121B true CN107358121B (zh) 2018-10-02

Family

ID=60293328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710566233.1A Active CN107358121B (zh) 2017-07-12 2017-07-12 一种脱敏数据集的数据融合方法及装置

Country Status (1)

Country Link
CN (1) CN107358121B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549620B (zh) * 2018-03-07 2021-10-15 广东省科学院生态环境与土壤研究所 一种土壤重金属生物有效性的估计方法、系统和装置
CN109063507A (zh) * 2018-07-13 2018-12-21 上海派兰数据科技有限公司 一种用于医院信息系统分析的通用设计模型
CN110990859B (zh) * 2018-09-28 2021-02-26 第四范式(北京)技术有限公司 在数据隐私保护下执行机器学习的方法和系统
CN109697454B (zh) * 2018-11-06 2020-10-16 邓皓文 一种基于隐私保护的跨设备个体识别方法及装置
CN109740359B (zh) * 2018-12-28 2021-02-09 上海点融信息科技有限责任公司 用于数据脱敏的方法、装置及存储介质
CN111143880B (zh) * 2019-12-27 2022-06-07 中电长城网际系统应用有限公司 数据处理方法和装置、电子设备、可读介质
CN111079198A (zh) * 2020-03-10 2020-04-28 广州电力交易中心有限责任公司 一种基于电力交易的数据发布方法及系统
CN112182657B (zh) * 2020-10-26 2022-06-28 天津市城市规划设计研究总院有限公司 城市规划中大数据的脱敏方法
CN114630314B (zh) * 2020-12-10 2023-09-05 中移(苏州)软件技术有限公司 终端信息库的更新方法、装置、设备及存储介质
CN115130623B (zh) * 2022-09-01 2022-11-25 浪潮通信信息系统有限公司 数据融合方法、装置、电子设备及存储介质
CN115983636B (zh) * 2022-12-26 2023-11-17 深圳市中政汇智管理咨询有限公司 风险评估方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7797341B2 (en) * 2007-04-30 2010-09-14 Hewlett-Packard Development Company, L.P. Desensitizing database information
CN106529329A (zh) * 2016-10-11 2017-03-22 中国电子科技网络信息安全有限公司 一种用于大数据的脱敏系统及脱敏方法
CN106599322A (zh) * 2017-01-03 2017-04-26 北京网智天元科技股份有限公司 数据脱敏的方法及设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7222126B2 (en) * 2002-07-30 2007-05-22 Abel Wolman Geometrization for pattern recognition, data analysis, data merging, and multiple criteria decision making
US20050021488A1 (en) * 2003-07-21 2005-01-27 Rakesh Agrawal Mining association rules over privacy preserving data
FR2919407B1 (fr) * 2007-07-27 2009-11-20 Thales Sa Procede, dispositif et systeme pour la fusion d'informations provenant de plusieurs capteurs.
CN106295392A (zh) * 2015-06-24 2017-01-04 阿里巴巴集团控股有限公司 数据脱敏处理方法和装置
CN106443622B (zh) * 2016-09-13 2018-12-07 哈尔滨工程大学 一种基于改进联合概率数据关联的分布式目标跟踪方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7797341B2 (en) * 2007-04-30 2010-09-14 Hewlett-Packard Development Company, L.P. Desensitizing database information
CN106529329A (zh) * 2016-10-11 2017-03-22 中国电子科技网络信息安全有限公司 一种用于大数据的脱敏系统及脱敏方法
CN106599322A (zh) * 2017-01-03 2017-04-26 北京网智天元科技股份有限公司 数据脱敏的方法及设备

Also Published As

Publication number Publication date
CN107358121A (zh) 2017-11-17

Similar Documents

Publication Publication Date Title
CN107358121B (zh) 一种脱敏数据集的数据融合方法及装置
Hidayat The Influence Of Mix Marketing On Decisions For Use Of Online Transportation Towards Global Competition
Han et al. Social commerce: A systematic review and data synthesis
Kandiah et al. Reinventing value: The new business ecosystem
Bhat et al. A review paper on e-commerce
Salvatori et al. Social commerce: A literature review
Mihale-Wilson et al. About user preferences and willingness to pay for a secure and privacy protective ubiquitous personal assistant
KR20010031840A (ko) 익명성 쇼핑 및 익명성 밴더 운송자를 갖는 전자 상거래
Elwalda et al. The influence of online customer reviews on purchase intention: the role of non-numerical factors
CA2682997A1 (en) A system and device for social shopping on-line
CN112200382B (zh) 一种风险预测模型的训练方法和装置
Malthouse et al. Beyond reciprocal: the role of platforms in diffusing data value across multiple stakeholders
CN112465627A (zh) 基于区块链和机器学习的金融借贷审核方法及系统
Sloan et al. When is an algorithm transparent? Predictive analytics, privacy, and public policy
Beyari The role of trust and its impacts on consumer satisfaction in the context of social commerce
Rizi et al. Factors Affecting Trust and Interest in Transactions By Indonesian MSME Sellers In E-Commerce
Pinto Understanding the barriers to online shopping among Indian consumers
Shankar et al. Online trust and E-business strategy: concepts, implications, and future directions
Mogaji et al. Attitudes towards brands and advertisements: Qualitative and thematic analysis of social media data
Tseng et al. The influence of intention to use the mobile banking-the privacy mechanism perspective
CN117094773A (zh) 基于区块链隐私计算的在线迁移学习方法及系统
Singh et al. Identifying consumer resistance of mobile payment during COVID-19: An interpretive structural modeling (ISM) approach
He et al. Intent-based recommendation for B2C e-commerce platforms
Gao Big Data analysis on E-commerce platform
Vasilopoulos et al. The Promise and Peril of Big Data in Driving Consumer Engagement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210817

Address after: 200433 No. 220, Handan Road, Shanghai, Yangpu District

Patentee after: FUDAN University

Patentee after: Yi Lan

Patentee after: Chen Yuxin

Address before: 200433 Room 101, No. 26, Lane 999, Zhenghe Road, Yangpu District, Shanghai

Patentee before: Zhang Cheng

Patentee before: Yi Lan

Patentee before: Chen Yuxin

TR01 Transfer of patent right