CN107358121B

CN107358121B - 一种脱敏数据集的数据融合方法及装置

Info

Publication number: CN107358121B
Application number: CN201710566233.1A
Authority: CN
Inventors: 张�诚; 易岚; 陈宇新
Original assignee: 张�诚; 易岚; 陈宇新
Current assignee: Fudan University
Priority date: 2017-07-12
Filing date: 2017-07-12
Publication date: 2018-10-02
Anticipated expiration: 2037-07-12
Also published as: CN107358121A

Abstract

本发明公开了一种脱敏数据集的数据融合方法及装置，涉及数据处理和分析技术领域。所述方法包括：对第一脱敏数据集和第二脱敏数据集分别进行预融合得到对应的第一预融合结果和第二预融合结果；根据第二预融合结果对第一脱敏数据集计算第一联合概率相关值，根据第一预融合结果对第二脱敏数据集计算第二联合概率相关值；对第一联合概率相关值和第二联合概率相关值交叉融合得到第一交叉融合结果和第二交叉融合结果；根据第二预融合结果和第一交叉融合结果进行自融合得到第一脱敏数据集的融合数据记录，根据第一预融合结果和第二交叉融合结果进行自融合得到第二脱敏数据集的融合数据记录。本发明中的技术方案，实现了对不同脱敏数据集的数据融合。

Description

一种脱敏数据集的数据融合方法及装置

技术领域

本发明涉及数据处理和分析技术领域，尤其涉及一种脱敏数据集的数据融合方法及装置。

背景技术

对于多数商业实体来说，合理的对消费者的个体识别信息(例如身份证号、手机号、真实姓名和住所等)进行分析和融合，能够更有效的预测消费者的偏好，进而为消费者提供增值服务；而出于法律、隐私保护、商业利益等多方面的因素，要求商业实体需要对其收集到的消费者的个体识别信息加密或者脱敏后才能在外部环境中使用，该脱敏后的消费者的个体识别信息我们称之为“脱敏数据集”，即要求商业实体需要对“脱敏数据集”进行分析和融合；然而，现有技术中，对数据集的融合都是基于非脱敏数据集进行的，并且存在较大的泄露个人隐私的风险。

例如，当同一公司内部或者两家公司采用不同加密、匿名或虚拟编码方法对各自消费者个人识别信息进行处理后，公司的消费者个人数据将因为缺少一致的唯一识别信息而无法融合和分析。实际需求场合包括但不限于以下：1.同一家实体消费场所(如大卖场、超市)拥有用户在场所内的匿名消费数据(通常以小票形式保留)，需要准确找出重复消费者，为其提供更好的服务；2.两家互联网公司需要合法地进行网络消费者个体数据交换，从而更好地预测消费者偏好和行为，为消费者提供增值服务；3.城市商圈里两个商场和商铺需要合法地交换顾客的购买信息，从而更好了解顾客需求，提供推荐和增值服务。

如果能解决以上脱敏数据集的融合处理问题，对隐私保护、商业应用创新和数据交易具有非常重大的现实意义。而对于两套脱敏数据集的融合，现有技术中一直没有有效的技术手段。到目前为止，实际操作中的数据融合工作，只能基于非脱敏数据集进行，或配合一定商业途径完成：1.企业通过并购，将另一家企业的数据变为企业内部数据，然后基于用户识别信息的匹配进行融合。这种方式的商业代价很大，可操作性较差。2.两家企业间直接借助各自拥有的消费者个体有效识别信息作为主键，实现非脱敏数据的直接融合。这种方式存在较大的泄露个人隐私的技术风险和法律风险。3.两家企业分别将自己拥有的包含消费者个体有效识别信息的个人数据交由第三方代理商，由第三方代理商完成非脱敏数据的融合，然后将合并后的数据分别返还给各自企业。这种方法使得企业和第三方平台都存在较大的泄漏个人隐私的技术风险和法律风险。

总的来说，已有方法只能基于非脱敏数据集进行融合，现有技术中没有针对脱敏数据集的融合技术，如何有效的对脱敏数据集进行融合，以便于为消费者提供增值服务，对于很多商业实体来说是急需解决的问题。

发明内容

本发明的目的是通过以下技术方案实现的。

一方面，本发明提供了一种脱敏数据集的数据融合方法，包括：

步骤S1：对第一脱敏数据集和第二脱敏数据集分别进行预融合得到对应的第一预融合结果和第二预融合结果；

步骤S2：根据所述第二预融合结果对所述第一脱敏数据集进行融合预测并计算出第一联合概率相关值，根据所述第一预融合结果对所述第二脱敏数据集进行融合预测并计算出第二联合概率相关值；

步骤S3：结合所述第一预融合结果和所述第二预融合结果，对所述第一联合概率相关值和所述第二联合概率相关值进行交叉融合得到第一交叉融合结果和第二交叉融合结果；

步骤S4：根据所述第二预融合结果和所述第一交叉融合结果进行自融合得到所述第一脱敏数据集的融合数据记录，根据所述第一预融合结果和所述第二交叉融合结果进行自融合得到所述第二脱敏数据集的融合数据记录。

可选地，所述第一脱敏数据集的特有变量是a，所述第二脱敏数据集的特有变量是b，所述步骤S1具体包括：

计算所述第一脱敏数据集的特征值：

其中，0≤t_a≤1；

构建所述第一脱敏数据集的数据分布模型P_a(X)，包括：

在所述第一脱敏数据集中，以X为自变量、a为因变量，选用合适的预测模型，通过机器学习训练出0≤P_a(X)≤1，并得到对于给定的共有变量集X的值x， P(a＝1|x)＝P_a(x)；所述预测模型，包括逻辑回归模型、线性回归模型、决策树、随机森林、神经网络；

计算所述第二脱敏数据集的特征值：

其中，0≤t_b≤1；

构建所述第二脱敏数据集的数据分布模型P_b(X)，包括：

在所述第二脱敏数据集中，以X为自变量、b为因变量，选用合适的预测模型，通过机器学习训练出0≤P_b(X)≤1，并得到对于给定的共有变量集X的值x， P(b＝1|x)＝P_b(x)；所述预测模型，包括逻辑回归模型、线性回归模型、决策树、随机森林、神经网络；

将所述第一脱敏数据集的特征值t_a、所述第一脱敏数据集的数据分布模型P_a(X)、所述第一脱敏数据集中数据记录的数量N_a作为第一预融合结果；

将所述第二脱敏数据集的特征值t_b、所述第二脱敏数据集的数据分布模型P_b(X)、所述第二脱敏数据集中数据记录的数量N_b作为第二预融合结果。

可选地，所述步骤S2，具体包括：

根据所述第二预融合结果中含有的第二脱敏数据集的数据分布模型P_b(X)，对所述第一脱敏数据集进行融合预测并计算出第一联合概率相关值：

根据所述第一预融合结果中含有的第一脱敏数据集的数据分布模型P_a(X)，对所述第二脱敏数据集进行融合预测并计算出第二联合概率相关值：

可选地，所述步骤S3，具体包括：

根据所述第一联合概率相关值、所述第二联合概率相关值、所述第一预融合结果中含有的第一脱敏数据集中数据记录的数量N_a、所述第二预融合结果中含有的第二脱敏数据集中数据记录的数量N_b计算联合分布概率：

根据所述联合分布概率、所述第一预融合结果中含有的第一脱敏数据集的特征值t_a、所述第二预融合结果中含有的第二脱敏数据集的特征值t_b计算条件概率：

将所述条件概率β₁₁和β₁₀作为第一交叉融合结果；

将所述条件概率α₁₁和α₁₀作为第二交叉融合结果。

可选地，所述步骤S4，具体包括：

根据所述第二预融合结果中含有的第二脱敏数据集的特征值t_b得到阈值函数 f_b(x)：

根据所述第一交叉融合结果中含有的条件概率β₁₁和β₁₀，及所述阈值函数f_b(x)，回归所述第一脱敏数据集中任意一条融合数据记录的值：其中， i＝1，2，...，N_a；

根据所述第一预融合结果中含有的第一脱敏数据集的特征值t_a 得到阈值函数 f_a(x)：

根据所述第二交叉融合结果中含有的条件概率α₁₁和α₁₀，及所述阈值函数f_a(x)，回归所述第二脱敏数据集的任意一条融合数据记录的值：其中， j＝1，2，...，N_b。

另一方面，本发明提供一种脱敏数据集的数据融合装置，包括：

预融合模块，用于对第一脱敏数据集和第二脱敏数据集分别进行预融合得到对应的第一预融合结果和第二预融合结果；

融合预测模块，用于根据所述预融合模块得到的第二预融合结果对所述第一脱敏数据集进行融合预测并计算出第一联合概率相关值，根据所述预融合模块得到的第一预融合结果对所述第二脱敏数据集进行融合预测并计算出第二联合概率相关值；

交叉融合模块，用于结合所述预融合模块得到的第一预融合结果和第二预融合结果，对所述融合预测模块得到的第一联合概率相关值和第二联合概率相关值进行交叉融合得到第一交叉融合结果和第二交叉融合结果；

自融合模块，用于根据所述预融合模块得到的第二预融合结果和所述交叉融合模块得到的第一交叉融合结果进行自融合得到所述第一脱敏数据集的融合数据记录，根据所述预融合模块得到的第一预融合结果和所述交叉融合模块得到的第二交叉融合结果进行自融合得到所述第二脱敏数据集的融合数据记录。

可选地，所述第一脱敏数据集的特有变量是a，所述第二脱敏数据集的特有变量是b，所述预融合模块，包括：第一计算单元、第二计算单元、第一构建单元、第二构建单元、第一作为单元和第二作为单元；

所述第一计算单元，用于计算所述第一脱敏数据集的特征值：

其中，0≤t_a≤1；

所述第一构建单元，用于构建所述第一脱敏数据集的数据分布模型P_a(X)，包括：

所述第二计算单元，用于计算所述第二脱敏数据集的特征值：

其中，0≤t_b≤1；

所述第二构建单元，用于构建所述第二脱敏数据集的数据分布模型P_b(X)，包括：

所述第一作为单元，用于将所述第一计算单元计算的第一脱敏数据集的特征值t_a、所述第一构建单元构建的第一脱敏数据集的数据分布模型P_a(X)、所述第一脱敏数据集中数据记录的数量N_a作为第一预融合结果；

所述第二作为单元，用于将所述第二计算单元计算的第二脱敏数据集的特征值t_b、所述第二构建单元构建的第二脱敏数据集的数据分布模型P_b(X)、所述第二脱敏数据集中数据记录的数量N_b作为第二预融合结果。

可选地，所述融合预测模块，包括：第一融合预测单元和第二融合预测单元；

所述第一融合预测单元，用于根据所述预融合模块得到的第二预融合结果中含有的第二脱敏数据集的数据分布模型P_b(X)，对所述第一脱敏数据集进行融合预测并计算出第一联合概率相关值：

所述第二融合预测单元，用于根据所述预融合模块得到的第一预融合结果中含有的第一脱敏数据集的数据分布模型P_a(X)，对所述第二脱敏数据集进行融合预测并计算出第二联合概率相关值：

可选地，所述交叉融合模块，包括：第三计算单元、第四计算单元、第三作为单元和第四作为单元；

所述第三计算单元，用于根据所述第一联合概率相关值、所述第二联合概率相关值、所述第一预融合结果中含有的第一脱敏数据集中数据记录的数量N_a、所述第二预融合结果中含有的第二脱敏数据集中数据记录的数量N_b计算联合分布概率：

所述第四计算单元，用于根据所述联合分布概率、所述第一预融合结果中含有的第一脱敏数据集的特征值t_a、所述第二预融合结果中含有的第二脱敏数据集的特征值t_b计算条件概率：

所述第三作为单元，用于将所述第四计算单元计算的条件概率β₁₁和β₁₀作为第一交叉融合结果；

所述第四作为单元，用于将所述第四计算单元计算的条件概率α₁₁和α₁₀作为第二交叉融合结果。

可选地，所述自融合模块，包括：第一自融合单元和第二自融合单元；

所述第一自融合单元，用于根据所述预融合模块得到的第二预融合结果中含有的第二脱敏数据集的特征值t_b得到阈值函数f_b(x)：

根据所述交叉融合模块得到的第一交叉融合结果中含有的条件概率β₁₁和β₁₀，及所述阈值函数f_b(x)，回归所述第一脱敏数据集中任意一条融合数据记录的值：其中， i＝1，2，...，N_a；

所述第二自融合单元，用于根据所述预融合模块得到的第一预融合结果中含有的第一脱敏数据集的特征值t_a得到阈值函数f_a(x)：

根据所述交叉融合模块得到的第二交叉融合结果中含有的条件概率α₁₁和α₁₀，及所述阈值函数f_a(x)，回归所述第二脱敏数据集的任意一条融合数据记录的值：其中， j＝1，2，...，N_b。

本发明的核心思路是在以脱敏数据集内其他各类属性、行为等非脱敏信息为依据，为每一条脱敏数据构建最小误差最大统计效力的匹配池，并完成脱敏后个人识别信息的算法匹配，在不识别隐私信息的基础上实现不同脱敏数据集的融合，并通过算法保证数据融合后的预测和分析模型拟合优度和预测准确率与使用非脱敏个体识别信息匹配后的数据进行的分析和预测效果一致。从而找出重复消费者或了解消费者在不同场景下的行为特征，其结果可以进一步指导推荐、广告以及更多其他的公司市场策略。

本发明的优点在于：能够在不识别消费者隐私信息的基础上实现不同脱敏数据集的融合；并且在融合过程中，无需借助唯一识别信息(通常为敏感信息)做匹配，可以实现隔离/暗离处理，甚至无需外传原始数据记录，不仅保障了消费者的个体识别信息的安全，而且能够有效的了解消费者在不同场景下的行为特征，进而为消费者提供增值服务，也为商业实体自身提供市场导向。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

附图1为根据本发明实施方式的一种脱敏数据集的数据融合方法中数据传递的示意图；

附图2为根据本发明实施方式的一种脱敏数据集的数据融合方法流程图；

附图3为根据本发明实施方式的一种脱敏数据集的数据融合方法中数据传递的示意图；

附图4为根据本发明实施方式的一种脱敏数据集的数据融合装置框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明的方法是基于变量的概率分布推断技术，即给定两套独立的数据集，根据共有变量估计出两套数据的联合概率分布，然后基于估计的概率分布去预测数据集本身没有的变量在其他共有变量存在情况下发生的概率；由此提出一个高效可行的脱敏数据集的融合技术方案。

本发明的技术方案优先考虑脱敏后的数据集，即数据中的用户识别信息(如身份证、护照、驾驶证、手机号、手机IMEI信息、真实姓名和住所、驾驶车架号等) 已被加密、匿名或虚拟编码，不再具有识别价值，故为方便起见，也不在数据集里体现。本发明的技术方案同样适用于非脱敏数据的融合，只需要忽略数据中的用户识别信息，然后直接采用本方案后续说明的步骤和算法即可。

具体地，现将商业实体A和商业实体B分别拥有的脱敏数据集记为D_a和D_b， D_a和D_b分别如下：

D_a＝(X_i，a_i)，i＝1，2，...，N_a

D_b＝(X_j，b_j)，j＝1，2，...，N_b

其中，X_i，a_i和X_j，b_j分别为D_a和D_b中的任意一条数据记录，N_a和N_b分别为D_a和D_b所含有的数据记录的数量，X代表两个脱敏数据集中的共有变量，a和b是相应脱敏数据集中的特有变量，且a≠b；为简单起见，这里a和b的取值均为0或者1，其含义表示消费者有没有购买或者有没有选择a或者b。

融合D_a和D_b，为商业实体A和商业实体B分别形成新的虚拟数据集为：

D′_a＝(X_i，a_i，b’_i)，i＝1，2，...，N_a

D′_b＝(X_j，a’_j，b_j)，j＝1，2，...，N_b

其中，经融合而虚拟出的b’_i和a′_j，其取值为0或者1，可以用来指导推荐、广告以及更多其他的公司市场策略。

为便于介绍技术方案，首先引入两个函数。假设数据D_a中a值为1的比例显然0≤t_a≤1；对任意概率值0≤x≤1，有阈值函数：

同样的，假设数据集D_b中b值为1的比例有阈值函数：

同时，本方案可以以第三方平台介入的形式，分别帮助商业实体A和B在不泄漏其各自拥有的脱敏数据集D_a和D_b中原始数据记录的基础上，使其各自获得融合后的虚拟数据集D′_a和D′_b，从而实现融合的目的。其中，融合过程中发生的操作和数据的传递，如图1所示，我们可以看到脱敏数据集中的原始数据记录没有被拷贝或搬移，且真正发生的数据传输量为O(Dim(X))，远小于脱敏数据集中含有的数据记录数量，即O(length(D_a)+length(D_b))。

进一步地，该技术方案根据下列公式计算联合分布：

因此，我们可以计算得到四个联合分布的值：

p₁₁＝P(a＝1，b＝1|D_a+b)

p₁₀＝P(a＝1，b＝0|D_a+b)

p₀₁＝P(a＝0，b＝1|D_a+b)

p₀₀＝P(a＝0，b＝0|D_a+b)

结合前面定义的D_a中a＝1的比例t_a，和D_b中b＝1的比例t_b，可计算条件概率：

同样也可计算得到如下条件概率：

在数据D_a中，利用以上条件概率和模型P_b(X)，以及之前定义的阈值函数f_b(x)，为任意一条融合数据记录X_i，a_i预测(回归)出一个虚拟的b值，即：

因此，可得融合后的虚拟数据集：

D′_a＝(X_i，a_i，b′_i)，i＝1，2，...，N_a

同样，在数据D_b中，利用以上条件概率和模型P_a(X)，以及之前定义的阈值函数f_a(x)，为任意一条融合数据记录X_j，b_j预测(回归)出一个虚拟的a值，即：

可得融合后的虚拟数据集：

D′_b＝(X_j，a′_j，b_j)，j＝1，2，...，N_b

D′_a和D′_b为所求融合结果，融合完成。

本发明中，方便起见，令D_a上算得的同理可以得到sa₁₀、sa₀₁、sb₁₁、 sb₁₀、sb₀₁。显然，可进一步得到同理可以得到p₁₀和p₀₁。

另外，定义：

结合上述定义，在实施例一中将脱敏数据集的融合过程进行进一步详述。

需要指出地，通过该方法得到的融合结果，其准确率接近借助唯一识别信息做匹配后的预测结果，并且接近程度取决于脱敏数据集具体的标签及特性；对于融合结果，同样取决于两套数据集各自的特性，一旦其中任意一套或者两套改变，融合结果也将改变，而基于其他数据集的情况使用该融合结果也都有错误的风险；因而，本发明中的方法也降低了对融合后的数据集的滥用风险。

实施例一

根据本发明的实施方式，提出一种脱敏数据集的数据融合方法，如图2和图3 所示，包括：

步骤101：对第一脱敏数据集和第二脱敏数据集分别进行预融合得到对应的第一预融合结果和第二预融合结果；

步骤102：根据第二预融合结果对第一脱敏数据集进行融合预测并计算出第一联合概率相关值，根据第一预融合结果对第二脱敏数据集进行融合预测并计算出第二联合概率相关值；

步骤103：结合第一预融合结果和第二预融合结果，对第一联合概率相关值和第二联合概率相关值进行交叉融合得到第一交叉融合结果和第二交叉融合结果；

步骤104：根据第二预融合结果和第一交叉融合结果进行自融合得到第一脱敏数据集的融合数据记录，根据第一预融合结果和第二交叉融合结果进行自融合得到第二脱敏数据集的融合数据记录。

根据本发明的实施方式，第一脱敏数据集的特有变量为a，第二脱敏数据集的特有变量为b，步骤101具体包括：

计算第一脱敏数据集的特征值：

其中，0≤t_a≤1；

构建第一脱敏数据集的数据分布模型P_a(X)，包括：

在第一脱敏数据集中，以X为自变量(观测值)、a为因变量(目标值)，选用合适的预测(回归)模型，通过机器学习训练出0≤P_a(X)≤1，并得到对于给定的共有变量集X的值x，P(a＝1|x)＝P_a(x)；其中，预测(回归)模型包括但不限于逻辑回归模型、线性回归模型、决策树、随机森林、神经网络；

计算第二脱敏数据集的特征值：

其中，0≤t_b≤1；

构建第二脱敏数据集的数据分布模型P_b(X)：

在第二脱敏数据集中，以X为自变量(观测值)、b为因变量(目标值)，选用合适的预测(回归)模型，通过机器学习训练出0≤P_b(X)≤1，并得到对于给定的共有变量集X的值x，P(b＝1|x) ＝ P_b(x)；其中，预测(回归)模型包括但不限于逻辑回归模型、线性回归模型、决策树、随机森林、神经网络；

将第一脱敏数据集的特征值t_a、第一脱敏数据集的数据分布模型P_a(X)、第一脱敏数据集中数据记录的数量N_a作为第一预融合结果；

将第二脱敏数据集的特征值t_b、第二脱敏数据集的数据分布模型P_b(X)、第二脱敏数据集中数据记录的数量N_b作为第二预融合结果。

根据本发明的实施方式，步骤102，具体包括：

根据第二预融合结果中含有的第二脱敏数据集的数据分布模型P_b(X)，对第一脱敏数据集进行融合预测并计算出第一联合概率相关值：

根据第一预融合结果中含有的第一脱敏数据集的数据分布模型P_a(X)，对第二脱敏数据集进行融合预测并计算出第二联合概率相关值：

根据本发明的实施方式，步骤103，具体包括：

根据第一联合概率相关值、第二联合概率相关值、第一预融合结果中含有的第一脱敏数据集中数据记录的数量N_a、第二预融合结果中含有的第二脱敏数据集中数据记录的数量N_b计算联合分布概率：

根据联合分布概率、第一预融合结果中含有的第一脱敏数据集的特征值t_a、第二预融合结果中含有的第二脱敏数据集的特征值t_b计算条件概率：

将条件概率β₁₁和β₁₀作为第一交叉融合结果；

将条件概率α₁₁和α₁₀作为第二交叉融合结果。

在本实施例中，步骤104，具体包括：

根据第二预融合结果中含有的第二脱敏数据集的特征值t_b得到阈值函数f_b(x)：

根据第一交叉融合结果中含有的条件概率β₁₁和β₁₀，及阈值函数f_b(x)，回归第一脱敏数据集中任意一条融合数据记录的值：其中， i＝1，2，...，N_a；

根据第一预融合结果中含有的第一脱敏数据集的特征值t_a得到阈值函数f_a(x)：

根据第二交叉融合结果中含有的条件概率α₁₁和α₁₀，及阈值函数f_a(x)，回归第二脱敏数据集的任意一条融合数据记录的值：其中， j＝1，2，...，N_b。

进一步地，本实施例中的方法还适用于多个脱敏数据集的融合，在对多个脱敏数据集进行融合时，重复执行以下步骤H，直至所述多个脱敏数据集中的任意两个脱敏数据集均融合完成：

步骤H：从多个脱敏数据集中任意选择两个脱敏数据集，将其中一个作为第一脱敏数据集，将另一个作为第二脱敏数据集，对选择的两个脱敏数据集执行步骤101 至步骤104中的操作。

可选地，步骤101具体为：第一商业实体和第二商业实体分别对自身拥有的第一脱敏数据集和第二脱敏数据集进行预融合得到对应的第一预融合结果和第二预融合操作结果并分别发送给第三方平台；

对应地，步骤102之前，还包括：第三方平台将接收到的第二预融合结果中含有的第二脱敏数据集的特征值t_b和第二脱敏数据集的数据分布模型P_b(X)发送给第一商业实体，将接收到的第一预融合结果中含有的第一脱敏数据集的特征值t_a和第一脱敏数据集的数据分布模型P_a(X)发送给第二商业实体；

对应地，步骤102具体为：第一商业实体根据接收到的第二脱敏数据集的数据分布模型P_b(X)对第一脱敏数据集进行融合预测并计算出第一联合概率相关值并发送给第三方平台，第二商业实体根据接收到的第一脱敏数据集的数据分布模型P_a(X) 对第二脱敏数据集进行融合预测并计算出第二联合概率相关值并发送给第三方平台；

对应地，步骤103具体为：第三方平台结合已接收到的第一预融合结果和第二预融合结果，对接收到的第一联合概率相关值和第二联合概率相关值进行交叉融合得到第一交叉融合结果和第二交叉融合结果，并对应返回给第一商业实体和第二商业实体；

对应地，步骤104具体为：第一商业实体根据接收到的第二脱敏数据集的特征值t_b和第一交叉融合结果进行自融合得到第一脱敏数据集的融合数据记录，第二商业实体根据接收到的第一脱敏数据集的特征值t_a和第二交叉融合结果进行自融合得到第二脱敏数据集的融合数据记录。

其中，第一商业实体和第二商业实体分别对自身拥有的第一脱敏数据集和第二脱敏数据集进行预融合及融合预测操作，并将操作结果发送给第三方平台，保障了融合过程中脱敏数据集中的原始数据记录不外泄，即保障了消费者的个人信息不外泄，保障了脱敏数据集中的数据记录的安全。

可选地，在本实施例中，当商业实体与第三方平台建立信任关系时，还可以为：第一商业实体和第二商业实体分别将自身拥有的第一脱敏数据集和第二脱敏数据集发送给第三方平台，第三方平台对接收到的第一脱敏数据集和第二脱敏数据集执行步骤101至步骤104中的操作，并将得到的融合数据记录分别返回给对应的第一商业实体和第二商业实体；

该方式中，由于商业实体与第三方平台建立了信任关系，故能够在很大程度上保证脱敏数据集中数据记录的安全，即保证消费者的个人信息的安全，并且为商业实体节约了时间成本。

可选地，在本实施例中，当商业实体之间建立信任关系时，还可以为：商业实体之间交换各自拥有的脱敏数据集，并按照上述方法对脱敏数据集进行融合。

更进一步地，在本实施例中，如将第一脱敏数据集记为D_a，将第二脱敏数据集记为D_b，经过上述融合之后，得到融合后的第一脱敏数据集和融合后的第二脱敏数据集分别为：

D′_a＝(X_i，a_i，b′_i)，i＝1，2，...，N_a；

D＇_b＝(X_j，a′_j，b_j)，j＝1，2，...，N_b。

其中，经融合而得到的b’_i和a’_j，其取值为0或者1，可以用来指导推荐、广告以及更多其他的公司市场策略。

本发明中，对于商业实体而言，在保障了脱敏数据集中数据记录的安全的前提下，能够根据各脱敏数据集的特征值和数据的分布特征，并结合条件概率和联合分布概率来融合各脱敏数据集，进而了解消费者在不同场景下的行为特征，为消费者提供增值服务，也为商业实体自身提供市场导向。

实施例二

根据本发明的实施方式，提供一种脱敏数据集的数据融合装置，如图4所示，包括：

预融合模块201，用于对第一脱敏数据集和第二脱敏数据集分别进行预融合得到对应的第一预融合结果和第二预融合结果；

融合预测模块202，用于根据预融合模块201得到的第二预融合结果对第一脱敏数据集进行融合预测并计算出第一联合概率相关值，根据预融合模块201得到的第一预融合结果对第二脱敏数据集进行融合预测并计算出第二联合概率相关值；

交叉融合模块203，用于结合预融合模块201得到的第一预融合结果和第二预融合结果，对融合预测模块202得到的第一联合概率相关值和第二联合概率相关值进行交叉融合得到第一交叉融合结果和第二交叉融合结果；

自融合模块204，用于根据预融合模块201得到的第二预融合结果和交叉融合模块203得到的第一交叉融合结果进行自融合得到第一脱敏数据集的融合数据记录，根据预融合模块201得到的第一预融合结果和交叉融合模块得到的第二交叉融合结果进行自融合得到第二脱敏数据集的融合数据记录。

根据本发明的实施方式，第一脱敏数据集的特有变量是a，第二脱敏数据集的特有变量是b，预融合模块201，包括：第一计算单元、第二计算单元、第一构建单元、第二构建单元、第一作为单元和第二作为单元；

其中，第一计算单元，用于计算第一脱敏数据集的各特征值：

其中，0≤t_a≤1；

第一构建单元，用于构建第一脱敏数据集的数据分布模型P_a(X)，包括：

第二计算单元，用于计算第二脱敏数据集的各特征值：

其中，0≤t_b≤1；

第二构建单元，用于构建第二脱敏数据集的数据分布模型P_b(X)，包括：

在第二脱敏数据集中，以X为自变量(观测值)、b为因变量(目标值)，选用合适的预测(回归)模型，通过机器学习训练出0≤P_b(X)≤1，并得到对于给定的共有变量集X的值x，P(b＝1|x)＝P_b(x)；其中，预测(回归)模型包括但不限于逻辑回归模型、线性回归模型、决策树、随机森林、神经网络；

第一作为单元，用于将第一计算单元计算的第一脱敏数据集的特征值t_a、第一构建单元构建的第一脱敏数据集的数据分布模型P_a(X)、第一脱敏数据集中数据记录的数量N_a作为第一预融合结果；

第二作为单元，用于将第二计算单元计算的第二脱敏数据集的特征值t_b、第二构建单元构建的第二脱敏数据集的数据分布模型P_b(X)、第二脱敏数据集中数据记录的数量N_b作为第二预融合结果。

根据本发明的实施方式，融合预测模块202，包括：第一融合预测单元和第二融合预测单元；

其中，第一融合预测单元，用于根据预融合模块201得到的第二预融合结果中含有的第二脱敏数据集的数据分布模型P_b(X)，对第一脱敏数据集进行融合预测并计算出第一联合概率相关值：

第二融合预测单元，用于根据预融合模块201得到的第一预融合结果中含有的第一脱敏数据集的数据分布模型P_a(X)，对第二脱敏数据集进行融合预测并计算出第二联合概率相关值：

根据本发明的实施方式，交叉融合模块203，包括：第三计算单元、第四计算单元、第三作为单元和第四作为单元；

其中，第三计算单元，用于根据第一联合概率相关值、第二联合概率相关值、第一预融合结果中含有的第一脱敏数据集中数据记录的数量N_a、第二预融合结果中含有的第二脱敏数据集中数据记录的数量N_b计算联合分布概率：

第四计算单元，用于根据联合分布概率、第一预融合结果中含有的第一脱敏数据集的特征值t_a、第二预融合结果中含有的第二脱敏数据集的特征值t_b计算条件概率：

第三作为单元，用于将第四计算单元计算的条件概率β₁₁和β₁₀作为第一交叉融合结果；

第四作为单元，用于将第四计算单元计算的条件概率α₁₁和α₁₀作为第二交叉融合结果。

根据本发明的实施方式，自融合模块204，包括：第一自融合单元和第二自融合单元；

其中，第一自融合单元，用于根据预融合模块201得到的第二预融合结果中含有的第二脱敏数据集的特征值t_b得到阈值函数f_b(x)：

根据交叉融合模块203得到的第一交叉融合结果中含有的条件概率β₁₁和β₁₀，及阈值函数f_b(x)，回归第一脱敏数据集中任意一条融合数据记录的值：其中，i＝1，2，...，N_a；

第二自融合单元，用于根据预融合模块201得到的第一预融合结果中含有的第一脱敏数据集的特征值t_a得到阈值函数f_a(x)：

根据交叉融合模块202得到的第二交叉融合结果中含有的条件概率α₁₁和α₁₀，及阈值函数f_a(x)，回归第二脱敏数据集的任意一条融合数据记录的值：其中，j＝1，2，...，N_b。

本发明中的技术方案，适用于个人信息脱敏、加密、匿名之后，没有主键可见直接连接的脱敏数据集，并且在不识别消费者隐私信息的基础上实现了不同脱敏数据集的融合；在融合过程中，无需借助唯一识别信息(通常为敏感信息)做匹配，且可以隔离/暗离处理，甚至无需外传原始数据记录，保障了消费者的隐私信息的安全。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种脱敏数据集的数据融合方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一脱敏数据集的特有变量是a，所述第二脱敏数据集的特有变量是b，所述步骤S1具体包括：

计算所述第一脱敏数据集的特征值：

其中，D_a为第一脱敏数据集，N_a为第一脱敏数据集D_a中数据记录的数量，1≤i≤N_a，a_i为第一脱敏数据集D_a中的第i个特有变量，0≤t_a≤1；

构建所述第一脱敏数据集的数据分布模型P_a(X)，包括：

在所述第一脱敏数据集中，以X为自变量、a为因变量，选用合适的预测模型，通过机器学习训练出0≤P_a(X)≤1，并得到对于给定的共有变量集X的值x，P(a＝1|x)＝P_a(x)；所述预测模型，包括逻辑回归模型、线性回归模型、决策树、随机森林、神经网络；

计算所述第二脱敏数据集的特征值：

其中，D_b为第二脱敏数据集，N_b为第二脱敏数据集D_b中数据记录的数量，1≤j≤N_b，b_j为第二脱敏数据集D_b中的第j个特有变量，0≤t_b≤1；

构建所述第二脱敏数据集的数据分布模型P_b(X)，包括：

在所述第二脱敏数据集中，以X为自变量、b为因变量，选用合适的预测模型，通过机器学习训练出0≤P_b(X)≤1，并得到对于给定的共有变量集X的值x，P(b＝1|x)＝P_b(x)；所述预测模型，包括逻辑回归模型、线性回归模型、决策树、随机森林、神经网络；

3.根据权利要求2所述的方法，其特征在于，所述步骤S2，具体包括：

4.根据权利要求3所述的方法，其特征在于，所述步骤S3，具体包括：

将所述条件概率β₁₁和β₁₀作为第一交叉融合结果；

将所述条件概率α₁₁和α₁₀作为第二交叉融合结果。

5.根据权利要求4所述的方法，其特征在于，所述步骤S4，具体包括：

根据所述第二预融合结果中含有的第二脱敏数据集的特征值t_b得到阈值函数f_b(x)：

根据所述第一交叉融合结果中含有的条件概率β₁₁和β₁₀，及所述阈值函数f_b(x)，回归所述第一脱敏数据集中任意一条融合数据记录的值：其中，X_i为第一脱敏数据集D_a中含有的与第二脱敏数据集D_b的第i个共有变量，i＝1，2，...，N_a；

根据所述第一预融合结果中含有的第一脱敏数据集的特征值t_a得到阈值函数f_a(x)：

根据所述第二交叉融合结果中含有的条件概率α₁₁和α₁₀，及所述阈值函数f_a(x)，回归所述第二脱敏数据集的任意一条融合数据记录的值：其中，X_j为第二脱敏数据集D_b中含有的与第一脱敏数据集D_a的第j个共有变量，j＝1，2，...，N_b 。

6.一种脱敏数据集的数据融合装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述第一脱敏数据集的特有变量是a，所述第二脱敏数据集的特有变量是b，所述预融合模块，包括：第一计算单元、第二计算单元、第一构建单元、第二构建单元、第一作为单元和第二作为单元；

8.根据权利要求7所述的装置，其特征在于，所述融合预测模块，包括：第一融合预测单元和第二融合预测单元；

9.根据权利要求8所述的装置，其特征在于，所述交叉融合模块，包括：第三计算单元、第四计算单元、第三作为单元和第四作为单元；

10.根据权利要求9所述的装置，其特征在于，所述自融合模块，包括：第一自融合单元和第二自融合单元；

根据所述交叉融合模块得到的第一交叉融合结果中含有的条件概率β₁₁和β₁₀，及所述阈值函数f_b(x)，回归所述第一脱敏数据集中任意一条融合数据记录的值：其中，X_i为第一脱敏数据集Da中含有的与第二脱敏数据集D_b的第i个共有变量，i＝1，2，...，N_a；

根据所述交叉融合模块得到的第二交叉融合结果中含有的条件概率α₁₁和α₁₀，及所述阈值函数f_a(x)，回归所述第二脱敏数据集的任意一条融合数据记录的值：其中，X_j为第二脱敏数据集D_b中含有的与第一脱敏数据集D_a的第j个共有变量，j＝1，2，...，N_b。