CN115640509A

CN115640509A - 一种联邦隐私计算中的数据相关性计算方法及系统

Info

Publication number: CN115640509A
Application number: CN202211670318.1A
Authority: CN
Inventors: 田�健; 薛瑞东
Original assignee: Beijing Rongshulianzhi Technology Co ltd
Current assignee: Beijing Rongshulianzhi Technology Co ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-01-24

Abstract

本发明实施例提供一种联邦隐私计算中的数据相关性计算方法及系统，涉及隐私计算领域，该方法包括：第一方生成密钥对：公钥和私钥，将公钥发送给第二方；针对第二方所具有的每个变量，第二方将各变量对应的第二原始数据进行数学变换，得到每个变量对应的第二变换数据，将第二变换数据采用公钥进行加密，得到加密的第二变换数据；第一方采用私钥对加密的第二变换数据进行解密，得到第二变换数据；第一方具有与第二方的变量具有相关性的变量，相关性的变量对应第一原始数据，对第二变换数据和第一原始数据进行相关性计算，保留第二变换数据和第一原始数据内具有相关性的数据。成功去除可信第三方，从节点的部署、安全性等极大降低产品的使用成本。

Description

一种联邦隐私计算中的数据相关性计算方法及系统

技术领域

本发明涉及隐私计算领域，具体涉及一种联邦隐私计算中的数据相关性计算方法及系统。

背景技术

在纵向联邦学习的机器模型训练前，需要对数据进行预处理，具体为对样本的特征数据进行筛选，以及特征数据的离散化，以便之后能够训练出更好的机器学习模型。通常为了保护纵向各参与方的数据隐私，需要联合起来计算这些特征的相关性，再根据相关性进行特征选择。为了保证数据各方的数据隐私，各参与方一般不能直接传输原始数据，通常采用需要第三方进行相关性计算。参与方需要与第三方进行多次通信，会在极大程度上降低数据的传输效率和计算效率。如果存在第三方节点，此第三方节点涉及到第三方的安全性以及数据隐私性问题，这往往会提高部署以及运算的成本。

发明内容

本发明实施例提供一种联邦隐私计算中的数据相关性计算方法及系统，解决了参与方需要与第三方进行多次通信，会在极大程度上降低数据的传输效率和计算效率的技术问题。

为达上述目的，第一方面，本发明实施例提供一种联邦隐私计算中的数据相关性计算方法，包括：

在联邦计算两方所具有的数据相关性之前，第一方生成密钥对，所述密钥对包括公钥和私钥，将所述公钥发送给第二方；

针对第二方所具有的每个变量，所述第二方将每个变量对应的第二原始数据进行数学变换，得到每个变量对应的第二变换数据，将所述第二变换数据采用所述公钥进行加密，得到加密的第二变换数据，并且将所述加密的第二变换数据发送给第一方；

所述第一方采用私钥对加密的第二变换数据进行解密，得到第二变换数据；

所述第一方具有与所述第二方的变量具有相关性的变量，所述相关性的变量对应第一原始数据，所述第一方对所述第二变换数据和所述第一原始数据进行相关性计算，保留所述第二变换数据和所述第一原始数据内具有相关性的数据。

第二方面，本发明实施例还提供一种联邦隐私计算中的数据相关性计算系统，包括第一方和第二方，所述第一方和所述第二方分别具有不同的变量，且所述第一方具有的变量与所述第二方的变量具有相关性；所述第一方的各变量分别对应有第一原始数据，所述第二方的各变量分别对应有第二原始数据；所述第一方包括密钥对生成单元、解密单元和相关性计算单元；第二方包括数据变换单元，其中：

所述密钥对生成单元，用于在联邦计算两方所具有的数据相关性之前，生成密钥对，所述密钥对包括公钥和私钥，将所述公钥发送给所述数据变换单元；

所述数据变换单元，针对所具有的每个变量，将每个变量对应的第二原始数据进行数学变换，得到每个变量的第二变换数据，将所述第二变换数据采用所述公钥进行加密，得到加密的第二变换数据；并且将所述加密的第二变换数据发送给所述解密单元；

所述解密单元，采用私钥对所述加密的第二变换数据进行解密，得到所述第二变换数据；

所述相关性计算单元，用于对所述第二变换数据和所述第一原始数据进行相关性计算，保留所述第二变换数据和所述第一原始数据内具有相关性的数据。

第三方面，本发明实施例还提供一种联邦隐私计算中的数据相关性计算系统，包括第一计算设备和第二计算设备，所述第一计算设备和所述第二计算设备分别具有不同的变量，且所述第一计算设备具有的变量与所述第二计算设备的变量具有相关性；其中：

所述第一计算设备，用于在联邦计算两方所具有的数据相关性之前，生成密钥对，所述密钥对包括公钥和私钥，将所述公钥发送给所述第二计算设备；且本第一计算设备具有与所述第二计算设备的变量具有相关性的变量，所述相关性的变量对应第一原始数据；

所述第二计算设备，用于在联邦计算两方所具有的数据相关性之前，针对所具有的每个变量，将每个变量对应的第二原始数据进行数学变换，得到每个变量对应的第二变换数据，将所述第二变换数据采用所述公钥进行加密，得到加密的第二变换数据，并且将所述加密的第二变换数据发送给所述第一计算设备；

所述第一计算设备，还用于在接收到所述第二计算设备发送的所述加密的第二变换数据后，采用私钥对所述加密的第二变换数据进行解密，得到第二变换数据；

对所述第二变换数据和所述第一原始数据进行相关性计算，保留所述第二变换数据和所述第一原始数据内具有相关性的数据。

上述技术方案具有如下有益效果：第二方对其所具有的各变量的第二原始数据进行变换得到第二变换数据，并采用第一方生成的公钥对第二变换数据进行加密后发送给第一方，第一方具有与第二方的变量具有相关性的变量，相关性的变量对应第一原始数据，所述第一方对所述第二变换数据和所述第一原始数据进行相关性计算，保留所述第二变换数据和所述第一原始数据内具有相关性的数据。从而成功去除可信第三方，避免了第三方潜在的串谋风险所引起的安全性隐患、第三方所增加的交互次数增加的传输成本；从节点的部署、安全性、复杂性以及通信上均极大降低产品的使用成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种联邦隐私计算中的数据相关性计算方法的流程图；

图2是本发明实施例的图1中步骤S102的具体流程图；

图3是本发明实施例的一种联邦隐私计算中的数据相关性计算系统的结构图；

图4是本发明实施例的另一种联邦隐私计算中的数据相关性计算系统的结构图；

图5是本发明实施例的隐私计算的相关性计算的工作流引擎的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，结合本发明的实施例，提供一种联邦隐私计算中的数据相关性计算方法，包括：

S101：在联邦计算两方所具有的数据相关性之前，第一方生成密钥对，密钥对包括公钥和私钥，将公钥发送给第二方；

S102：针对第二方所具有的每个变量，第二方将每个变量对应的第二原始数据进行数学变换，得到每个变量对应的第二变换数据，将第二变换数据采用公钥进行加密，得到加密的第二变换数据，并且将加密的第二变换数据发送给第一方；

S103：第一方采用私钥对加密的第二变换数据进行解密，得到第二变换数据；

S104：第一方具有与第二方的变量具有相关性的变量，相关性的变量对应第一原始数据，第一方对第二变换数据和第一原始数据进行相关性计算，保留第二变换数据和第一原始数据内具有相关性的数据。

优选地，如图2所示，步骤S102中，第二方将每个变量对应的第二原始数据进行数学变换，得到每个变量的第二变换数据，具体包括由所述第二方执行的如下步骤：

S1021：对每个变量对应的第二原始数据按抽样量进行抽样，得到对应的样本；其中，样本的抽样量为第一预设比例和第一预设数量中的较大者；

S1022：设置原始随机数区间；

S1023：针对每个变量的样本，分别生成属于原始随机数区间内的任一随机数，将生成的任一随机数的倒数作为第一随机数，将第一随机数的相反数作为第二随机数，将第一随机数和第二随机数分别作为区间边界值构成第一随机数区间，自第一随机数区间内分别选择任一随机数分别作为每个变量对应的变换随机数，将每个变量的每个样本与对应的变换随机数之积与样本之和作为样本变换值，将所有样本变换值作为非缺失样本形成第二变换数据；其中，样本变换值在第二变换数据内的位置、样本变换值对应的样本在所述第二原始数据内的位置相同。

优选地，在将每个变量的每个样本与对应的变换随机数之积与样本之和作为样本变换值之后，将所有样本变换值作为非缺失样本形成第二变换数据之前，还包括：

S1024：针对每个变量，判断每个样本变换值的最大值与最小值之差是否不小于预设差值；

S1025：若样本变换值的最大值与最小值之差大于预设差值，则对该变量的样本变换值进行归一化处理，将该变量的样本变换值压缩在[0，1]之间。

优选地，在第一方对第二变换数据和第一原始数据进行相关性计算之前，还包括由所述第一方执行的如下步骤：

S1026：针对每个变量，自第二变换数据中找出非缺失样本，自第一原始数据内找出与非缺失样本的位置对齐的数据，然后将对齐的数据进行相关性计算。

优选地，第一方生成密钥对，具体包括：

第一方采用同态加密或者高级加密标准Advanced Encryption Standard（缩写AES）生成密钥对。

如图3所示，结合本发明的实施例，提供一种联邦隐私计算中的数据相关性计算系统，包括第一方和第二方，第一方和第二方分别具有不同的变量，且第一方具有的变量与第二方的变量具有相关性；第一方的各变量分别对应有第一原始数据，第二方的各变量分别对应有第二原始数据；第一方包括密钥对生成单元21、解密单元23和相关性计算单元24；第二方包括数据变换单元22，其中：

密钥对生成单元21，用于在联邦计算两方所具有的数据相关性之前，生成密钥对，密钥对包括公钥和私钥，将公钥发送给数据变换单元；

数据变换单元22，用于针对所具有的每个变量，将每个变量对应的第二原始数据进行数学变换，得到每个变量的第二变换数据，将第二变换数据采用公钥进行加密，得到加密的第二变换数据；并且将加密的第二变换数据发送给解密单元；

解密单元23，用于采用私钥对加密的第二变换数据进行解密，得到第二变换数据；

相关性计算单元24，用于对第二变换数据和第一原始数据进行相关性计算，保留第二变换数据和第一原始数据内具有相关性的数据。

优选地，如图4所示，数据变换单元22，包括：

抽样子单元221，用于对第二方的每个变量对应的第二原始数据按抽样量进行抽样，得到对应的样本；其中，样本的抽样量为第一预设比例和第一预设数量中的较大者；

随机数生成子单元222，用于设置原始随机数区间；针对每个变量的样本，分别生成属于随机数区间内的任一随机数，将生成的任一随机数的倒数作为第一随机数，将第一随机数的相反数作为第二随机数，将第一随机数和第二随机数分别作为区间边界值构成第二随机数区间，自第二随机数区间内分别选择任一随机数分别作为每个变量对应的变换随机数；

数据变化子单元223，用于将每个变量的每个样本与对应的变换随机数之积与样本之和作为样本变换值，将所有样本变换值作为非缺失样本形成第二变换数据；其中，样本变换值在第二变换数据内的位置、样本变换值对应的样本在第二原始数据内的位置相同。

优选地，数据变换单元22还包括归一化子单元224，归一化子单元具体224用于：

在将每个变量的每个样本与对应的变换随机数之积与样本之和作为样本变换值之后，将所有样本变换值作为非缺失样本形成第二变换数据之前，针对每个变量，判断每个样本变换值的最大值与最小值之差是否不小于预设差值；

若样本变换值的最大值与最小值之差大于预设差值，则对该变量的样本变换值进行归一化处理，将该变量的样本变换值压缩在[0，1]之间；

将该变量的压缩后的样本变换值作为非缺失样本插入回到第二原始数据内的相应位置，得到各变量的第二变换数据。

优选地，如图4所示，第一方还包括：

对齐单元25，用于在对第二变换数据和第一原始数据进行相关性计算之前，针对每个变量，自第二变换数据中找出非缺失样本，自变第一原始数据内找出与非缺失样本的位置对齐的数据，然后将对齐的数据进行相关性计算。

优选地，密钥对生成单元21，具体用于：

采用同态加密或者高级加密标准AES生成密钥对。

本发明实施例还提供一种联邦隐私计算中的数据相关性计算系统，包括第一计算设备和第二计算设备，所述第一计算设备和所述第二计算设备分别具有不同的变量，且所述第一计算设备具有的变量与所述第二计算设备的变量具有相关性；其中：

优选地，所述第二计算设备，具体用于：

针对所具有的每个变量，对每个变量对应的所述第二原始数据按抽样量进行抽样，得到对应的样本；其中，样本的抽样量为第一预设比例和第一预设数量中的较大者；

设置原始随机数区间；针对每个变量的样本，分别生成属于随机数区间内的任一随机数，将生成的所述任一随机数的倒数作为第一随机数，将所述第一随机数的相反数作为第二随机数，将所述第一随机数和所述第二随机数分别作为区间边界值构成第一随机数区间，自所述第一随机数区间内分别选择任一随机数分别作为每个变量对应的变换随机数；

将每个变量的每个样本与对应的变换随机数之积与所述样本之和作为样本变换值，将所有所述样本变换值作为非缺失样本形成第二变换数据；其中，所述样本变换值在所述第二变换数据内的位置、所述样本变换值对应的样本在所述第二原始数据内的位置相同。

优选地，所述第二计算设备，具体用于：

在所述将每个变量的每个样本与对应的变换随机数之积与所述样本之和作为样本变换值之后，将所有所述样本变换值作为非缺失样本形成第二变换数据之前，针对每个变量，判断每个样本变换值的最大值与最小值之差是否不小于预设差值；

若样本变换值的最大值与最小值之差大于预设差值，则对该变量的样本变换值进行归一化处理，将该变量的样本变换值压缩在[0，1]之间。

优选地，所述第一计算设备，还用于：

在对所述第二变换数据和所述第一原始数据进行相关性计算之前，针对每个变量，自第二变换数据中找出所述非缺失样本，自所述第一原始数据内找出与所述非缺失样本的位置对齐的数据，然后将对齐的数据进行相关性计算。

优选地，所述第一计算设备，具体用于：

采用同态加密或者高级加密标准AES生成密钥对。

下面结合具体的应用实例对本发明实施例上述技术方案进行详细说明，实施过程中没有介绍到的技术细节，可以参考前文的相关描述。

本发明实施例的一种联邦隐私计算中的数据相关性计算方法及系统，用于联邦隐私计算中高效的交叉相关性计算，旨在解决在纵向联邦学习特征筛选下，存在的特征相关性计算时的数据传输效率和计算效率低，以及安全性较低等问题。其中，联邦机器学习为隐私计算在机器学习领域的应用，是指在不泄露各方隐私数据的情况下，能够融合多方的数据，通过机器学习算法训练模型，进行预测。

如图5所示，联邦学习中特征相关性计算步骤如下：

S1、在两方机构下原始变量的值是不能直接传输计算相关性，所以要对其中一方机构的变量进行数学变换。以机构A（第一方），机构B（第二方）举例说明，机构A生成密钥对，所述密钥对包括公钥和私钥，将公钥发送给机构B；

S2、机构B接收公钥；

S3、机构B对每个变量对应的第二原始数据按抽样量进行抽样，样本的抽样量为第一预设比例、和第一预设数量中的较大者；每个变量的每个样本与对应的变换随机数之积与所述样本之和作为样本的变换值；若样本的变换值的最大值与最小值之差大于预设差值，则对该变量的样本变换值进行归一化处理，将该变量的样本变换值压缩在[0，1]之间；采用公钥对第二变换数据进行加密。具体如下：

S3.1、机构B先对自己所持有的每个X变量对应的多个变量值（即第二原始数据）进行单独抽样，自每个X变量所具有的多个变量值内分别抽样，样本量为第一预设比例例如25%个变量值和第一预设数量例如1000个变量值中的较大者；

S3.2、机构B对抽样的变量进行如下数学处理：

S3.2.1、通过差分隐私对机构B的变量抽样进行处理，所述差分隐私（也称为差分隐私保护）通过加入噪声实现，参数代表隐私保护强度，该参数的分配对保护隐私信息安全起到关键作用，噪声过小会影响隐私保护的强度，噪声过大则会影响数据的可用性，从而会使数据失真，因此，差分隐私保护的研究需要在保证数据可用性的前提下，合理分配隐私预算，提高隐私保护强度。本发明实施例的差分隐私处理方法具体包括：设定随机数区间[8,16]，对每个变量进行数学变换时，单独生成一个[8, 16]之间的随机数，记为r，对该变量的变量值（变量值形成一个数组）重新计算，重新定该变量，重新定义为变量：(

），即：该变量样本的变换值 = 该变量的样本值+该变量的样本值*在[-1/r, 1/r]的一个随机数，随机数区间可配置，有明确的控制范围。

S3.2.2、针对每个变量进行数学变换后，该变量抽样样本形成了一个新数组，当新数组内的最大值与最小值之差大于预设之差时，则认为该变量的新数组的最大值和最小值不相等，如果新变量值的最大值和最小值不相等，则对该变量值做一次归一化，把抽样的所有新变量值均压缩在[0，1]之间。

将所有样本变换值作为非缺失样本形成第二变换数据；其中，样本变换值在第二变换数据内的位置、样本变换值对应的样本在第二原始数据内的位置相同。

线性归一化也称min-max标准化或者离差标准化，其是对抽样的所有新变量值的线性变换，使得结果值映射到[0，1]之间，转换函数如下：

其中，

表示新变量值，

表示新变量值的最大值，

表示新变量值的最小值不相等，

表示对

归一化后的值。

S3.3、机构B对所有的变量进行数学变换后，对所有的变量对应的数据以同态加密（CKKS，支持浮点向量在密文空间的加减乘运算并保持同态, 支持浮点向量在密文空间的加减乘运算并保持同态）或者AES等加密方式进行加密，将加密过后的数据发送到机构A处。

S4、机构A对加密的第二变换数据进行解密；自第一原始数据内找出与非缺失样本的位置对齐的数据，然后将对齐的数据进行相关性计算。具体如下：

机构A解密经过数学变换后的数据，将机构B的变量的

与机构A的变量Y对应的第一原始数据对齐，然后对数据集中的每个变量计算相关性。其中，计算之前，剔除机构B的缺失值，保留该变量的

（为机构B的变量的非缺失的样本），选择对应的样本id，自机构A的变量对应的第一原始数据中获取样本，使得两个机构的样本对齐，然后根据相关性系数计算公式进行相关性计算，得到

和Y的相关性系数。能够在不暴露各方的任何隐私数据的前提下计算出机构A的变量的第一原始数据和机构B的相关性变量的第二原始数据之间的相关性系数。联邦学习中特征相关性系数计算公式如下：

是机构B的变量值，

是机构A的变量值，

表示两个变量的协方差，

表示机构B的变量标准差，

表示机构A的变量的标准差；

表示变量值

构成的向量；

表示变量值

构成的向量，

表示变量值

的平均值，

表示变量值

的平均值，E表示期望。

另外，采用本发明的相关性计算方法对测试数据集进行计算，得到的相关性与真实的相关性的差别非常小，平均值误差是0.02，最大误差0.08。

本发明实施例所取得的有益效果如下：

1、本发明实施例去除可信第三方，避免了第三方潜在的串谋风险所引起的安全性隐患，以及避免了第三方增加交互次数而增加的传输成本等，从节点的部署，安全性，复杂性，以及在通信上极大降低了产品的使用成本。

2、在上千万的数据量下，这样的计算量是非常大的，本发明实施例通过使用现有随机抽样、差分隐私、归一化等技术使得计算量如此巨大时，通信少，所以变向提高了传输速度和计算效率。

3、本发明实施例对每个变量进行随机抽样，极大保护了变量的安全性，而且在不降低计算准确性的前提下，计算效率高和传输量也快。随机数有明确控制的范围，对原始数据进行混淆极大程度保护了原始值。采用对变量的抽样数据进行归一化处理，提高隐私保护强度。数据传输过程中使用加密进行传输，增加了传输过程中安全性的保障。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

为使本领域内的任何技术人员能够实现或者使用本发明，上面对所公开实施例进行了描述。对于本领域技术人员来说；这些实施例的各种修改方式都是显而易见的，并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此，本公开并不限于本文给出的实施例，而是与本申请公开的原理和新颖性特征的最广范围相一致。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块（illustrative logical block），单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性（interchangeability），上述的各种说明性部件（illustrative components），单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块，或单元都可以通过通用处理器，数字信号处理器，专用集成电路（ASIC），现场可编程门阵列或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线（DSL）或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片（disk）和磁盘（disc）包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种联邦隐私计算中的数据相关性计算方法，其特征在于，包括：

针对第二方所具有的每个变量，所述第二方将每个变量对应的第二原始数据进行数学变换，得到每个变量对应的第二变换数据，将所述第二变换数据采用所述公钥进行加密，得到加密的第二变换数据，并且将所述加密的第二变换数据发送给所述第一方；

2.根据权利要求1所述的联邦隐私计算中的数据相关性计算方法，其特征在于，所述第二方将每个变量对应的第二原始数据进行数学变换，得到每个变量对应的第二变换数据，具体包括由所述第二方执行的如下步骤：

对每个变量对应的第二原始数据按抽样量进行抽样，得到对应的样本；其中，样本的抽样量为第一预设比例和第一预设数量中的较大者；

设置原始随机数区间；

针对每个变量的样本，分别生成属于原始随机数区间内的任一随机数，将生成的所述任一随机数的倒数作为第一随机数，将所述第一随机数的相反数作为第二随机数，将所述第一随机数和所述第二随机数分别作为区间边界值构成第一随机数区间，自所述第一随机数区间内分别选择任一随机数分别作为每个变量对应的变换随机数，将每个变量的每个样本与对应的变换随机数之积与所述样本之和作为样本变换值，将所有所述样本变换值作为非缺失样本形成第二变换数据；其中，所述样本变换值在所述第二变换数据内的位置、所述样本变换值对应的样本在所述第二原始数据内的位置相同。

3.根据权利要求2所述的联邦隐私计算中的数据相关性计算方法，其特征在于，在所述将每个变量的每个样本与对应的变换随机数之积与所述样本之和作为样本变换值之后，将所有所述样本变换值作为非缺失样本形成第二变换数据之前，还包括由所述第二方执行的如下步骤：

针对每个变量，判断每个样本变换值的最大值与最小值之差是否不小于预设差值；

4.根据权利要求2所述的联邦隐私计算中的数据相关性计算方法，其特征在于，在所述第一方对所述第二变换数据和所述第一原始数据进行相关性计算之前，还包括由所述第一方执行的如下步骤：

针对每个变量，自第二变换数据中找出所述非缺失样本，自所述第一原始数据内找出与所述非缺失样本的位置对齐的数据，然后将对齐的数据进行相关性计算。

5.根据权利要求1所述的联邦隐私计算中的数据相关性计算方法，其特征在于，所述第一方生成密钥对，具体包括：

所述第一方采用同态加密或者高级加密标准AES生成密钥对。

6.一种联邦隐私计算中的数据相关性计算系统，其特征在于，包括第一方和第二方，所述第一方和所述第二方分别具有不同的变量，且所述第一方具有的变量与所述第二方的变量具有相关性；所述第一方的各变量分别对应有第一原始数据，所述第二方的各变量分别对应有第二原始数据；所述第一方包括密钥对生成单元、解密单元和相关性计算单元；所述第二方包括数据变换单元，其中：

所述数据变换单元，用于针对所具有的每个变量，将每个变量对应的第二原始数据进行数学变换，得到每个变量的第二变换数据，将所述第二变换数据采用所述公钥进行加密，得到加密的第二变换数据；并且将所述加密的第二变换数据发送给所述解密单元；

所述解密单元，用于采用所述私钥对所述加密的第二变换数据进行解密，得到所述第二变换数据；

7.根据权利要求6所述的联邦隐私计算中的数据相关性计算系统，其特征在于，所述数据变换单元，包括：

抽样子单元，用于对所述第二方的每个变量对应的所述第二原始数据按抽样量进行抽样，得到对应的样本；其中，样本的抽样量为第一预设比例和第一预设数量中的较大者；

随机数生成子单元，用于设置原始随机数区间；针对每个变量的样本，分别生成属于随机数区间内的任一随机数，将生成的所述任一随机数的倒数作为第一随机数，将所述第一随机数的相反数作为第二随机数，将所述第一随机数和所述第二随机数分别作为区间边界值构成第一随机数区间，自所述第一随机数区间内分别选择任一随机数分别作为每个变量对应的变换随机数；

数据变化子单元，用于将每个变量的每个样本与对应的变换随机数之积与所述样本之和作为样本变换值，将所有所述样本变换值作为非缺失样本形成第二变换数据；其中，所述样本变换值在所述第二变换数据内的位置、所述样本变换值对应的样本在所述第二原始数据内的位置相同。

8.根据权利要求7所述的联邦隐私计算中的数据相关性计算系统，其特征在于，所述数据变换单元还包括归一化子单元，所述归一化子单元具体用于：

9.根据权利要求7所述的联邦隐私计算中的数据相关性计算系统，其特征在于，所述第一方还包括：

对齐单元，用于在对所述第二变换数据和所述第一原始数据进行相关性计算之前，针对每个变量，自第二变换数据中找出所述非缺失样本，自所述第一原始数据内找出与所述非缺失样本的位置对齐的数据，然后将对齐的数据进行相关性计算。

10.根据权利要求6所述的联邦隐私计算中的数据相关性计算系统，其特征在于，所述密钥对生成单元，具体用于：

采用同态加密或者高级加密标准AES生成密钥对。

11.一种联邦隐私计算中的数据相关性计算系统，其特征在于，包括第一计算设备和第二计算设备，所述第一计算设备和所述第二计算设备分别具有不同的变量，且所述第一计算设备具有的变量与所述第二计算设备的变量具有相关性；其中：

所述第一计算设备，用于在联邦计算两方所具有的数据相关性之前，生成密钥对，所述密钥对包括公钥和私钥，将所述公钥发送给所述第二计算设备；且所述第一计算设备具有与所述第二计算设备的变量具有相关性的变量，所述相关性的变量对应第一原始数据；

所述第一计算设备，还用于在接收到所述第二计算设备发送的所述加密的第二变换数据后，采用私钥对所述加密的第二变换数据进行解密，得到第二变换数据；对所述第二变换数据和所述第一原始数据进行相关性计算，保留所述第二变换数据和所述第一原始数据内具有相关性的数据。

12.根据权利要求11所述的联邦隐私计算中的数据相关性计算系统，其特征在于，所述第二计算设备，具体用于：

13.根据权利要求12所述的联邦隐私计算中的数据相关性计算系统，其特征在于，所述第二计算设备，具体用于：

14.根据权利要求12所述的联邦隐私计算中的数据相关性计算系统，其特征在于，所述第一计算设备，还用于：

15.根据权利要求11所述的联邦隐私计算中的数据相关性计算系统，其特征在于，所述第一计算设备，具体用于：

采用同态加密或者高级加密标准AES生成密钥对。