CN114996749A

CN114996749A - 一种用于联邦学习的特征过滤方法

Info

Publication number: CN114996749A
Application number: CN202210939220.5A
Authority: CN
Inventors: 朱振超; 任江哲; 李陆沁; 徐时峰; 裴阳
Original assignee: Lanxiang Zhilian Hangzhou Technology Co ltd
Current assignee: Lanxiang Zhilian Hangzhou Technology Co ltd
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2022-09-02
Anticipated expiration: 2042-08-05
Also published as: CN114996749B

Abstract

本发明公开了一种用于联邦学习的特征过滤方法。它包括以下步骤：发起方将数据集X中的数据特征转换为数据特征标准化值，得到矩阵A，参与方对数据集Y做同样处理，得到矩阵B；发起方将矩阵A进行转置得到转置矩阵A^T，全同态加密算法生成公钥和私钥，将转置矩阵A^T加密后发送给参与方；参与方根据加密矩阵enc(A^T)与矩阵B计算出加密的结果矩阵enc(Z)发送给发起方；发起方对加密的结果矩阵enc(Z)进行解密，并计算出相关系数矩阵F，根据相关系数矩阵F判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性，通知参与方将数据集Y中高相关性的数据特征列过滤掉。本发明无需第三方参与就能进行特征过滤，且保护了双方的数据隐私。

Description

一种用于联邦学习的特征过滤方法

技术领域

本发明涉及数据特征过滤技术领域，尤其涉及一种用于联邦学习的特征过滤方法。

背景技术

联邦学习的目标是在保证数据隐私安全及合法合规的基础上，实现共同建模，提升AI模型的效果，联邦学习本质上是一种分布式机器学习技术，或机器学习框架，常用于金融风控场景。在联邦建模前，各参与方需要将用于联邦建模的特征进行筛选过滤，否则会增加模型的噪声，建模效果较差。

在目前联邦学习框架下，特征过滤通常采用特征重要性、分箱后的iv值或相关系数进行过滤。现有的相关系数计算需要由三方（数据应用方，数据提供方，辅助计算节点）合作才能完成。负责辅助计算的节点通常要求是可信的中立的第三方机构，对于机构之间计算，这种可信的中立的第三方是很难保证的。其次，这种有第三方的架构对辅助节点的IO能力提出了很高的要求，所有参与方的部分数据均需传输到辅助计算节点上，对辅助计算节点而言这无疑是十分消耗资源的。

发明内容

本发明为了解决上述技术问题，提供了一种用于联邦学习的特征过滤方法，其可以在没有第三方参与的情况下进行特征过滤，且发起方、参与方都不会泄漏各自的特征数据，保护了双方的数据隐私，计算效率高，过滤精度高。

为了解决上述问题，本发明采用以下技术方案予以实现：

本发明的一种用于联邦学习的特征过滤方法，发起方持有数据集X，参与方持有数据集Y，数据集X与数据集Y样本对齐，数据集X包括若干个数据特征列，数据集Y包括若干个数据特征列，每个数据特征列都包含有n个数据特征值，包括以下步骤：

S1：发起方将数据集X中的每个数据特征列内的数据特征值转换为对应的数据特征等级值，参与方将数据集Y中的每个数据特征列内的数据特征值转换为对应的数据特征等级值；

S2：发起方将数据集X中的数据特征列内的数据特征等级值转换为对应的数据特征标准化值，得到由数据特征列构成的矩阵A；

参与方将数据集Y中的数据特征列内的数据特征等级值转换为对应的数据特征标准化值，得到由数据特征列构成的矩阵B；

S3：发起方将矩阵A进行转置，得到转置矩阵A^T；

S4：发起方采用全同态加密算法生成公钥和私钥，使用公钥对转置矩阵A^T进行加密，得到加密矩阵enc(A^T)，发起方将加密矩阵enc(A^T)发送给参与方；

S5：参与方将加密矩阵enc(A^T)与矩阵B做乘法运算得到加密的结果矩阵enc(Z)，并将加密的结果矩阵enc(Z)发送给发起方；

S6：发起方使用私钥对加密的结果矩阵enc(Z)进行解密，得到明文的结果矩阵Z，将结果矩阵Z除以n，得到相关系数矩阵F；

S7：发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性，通知参与方将数据集Y中高相关性的数据特征列过滤掉。

在本方案中，发起方、参与方先将各自持有的数据特征值转换为数据特征等级值，再转换为数据特征标准化值，这样发起方、参与方的每个数据特征列都由n个数据特征标准化值组成，从而构成了矩阵A、矩阵B。

发起方将矩阵A转置后再用公钥进行加密发送到参与方，参与方将加密矩阵enc(A^T)与矩阵B做乘法运算得到加密的结果矩阵enc(Z)，发起方使用私钥对加密的结果矩阵enc(Z)进行解密，得到明文的结果矩阵Z，由于发起方是采用全同态加密算法生成的公钥和私钥，所以结果矩阵Z实质上就是转置矩阵A^T与矩阵B的乘积，但是经过本方案的计算，发起方、参与方都无法获取或推导出对方的数据特征值，保护了双方的数据安全。最后将结果矩阵Z中的每个数据除以n，得到相关系数矩阵F，相关系数矩阵F中的每个数据就反应了数据集Y中对应的数据特征列与数据集X中对应的数据特征列的相关性，发起方通知参与方将数据集Y中高相关性的数据特征列过滤掉。

本方案先将数据特征列内的数据特征值转换为数据特征等级值，再转换为数据特征标准化值，提高了后续计算的效率，在通信传输时，整体的通信量会更低，在面对数据特征列内的数据特征值为非连续数据、非正态分布数据、非线性关系数据时，本方案能够更准备的计算出数据特征列之间的相关性，提高了过滤的精确度。

作为优选，所述发起方与参与方采用隐私集合求交算法得到样本对齐的数据集X与数据集Y。

作为优选，所述步骤S1中将某个数据特征列内的数据特征值转换为对应的数据特征等级值的方法如下：

将该数据特征列内的数据特征值做降序排序，每个数据特征值都有对应的排序序号，如果某个数据特征值在该数据特征列内只有1个，则该数据特征值对应的数据特征等级值为该数据特征值对应的排序序号；如果某个数据特征值在该数据特征列内共有a个，a≥2，则这a个数据特征值对应的数据特征等级值都为这a个数据特征值对应的排序序号的均值。

作为优选，所述数据集X存储在哈希表MA中，所述数据集Y存储在哈希表MB中。引入哈希表存储的数据结构，能够提高后续数据处理效率。

作为优选，所述步骤S2的具体步骤如下：

发起方计算数据集X中的每个数据特征列的所有数据特征等级值的标准差σ，如果某个数据特征列的标准差σ为0，则将该数据特征列过滤掉，将标准差σ大于0的数据特征列进行标准化处理，将这些数据特征列的数据特征等级值转换为对应的数据特征标准化值，这些数据特征列构成矩阵A；

参与方计算数据集Y中的每个数据特征列的所有数据特征等级值的标准差σ，如果某个数据特征列的标准差σ为0，则将该数据特征列过滤掉，将标准差σ大于0的数据特征列进行标准化处理，将这些数据特征列的数据特征等级值转换为对应的数据特征标准化值，这些数据特征列构成矩阵B。

预先将标准差σ为0的数据特征列过滤掉，提高过滤效率。

作为优选，所述步骤S2中将某个数据特征列的第i个数据特征等级值转换为对应的数据特征标准化值的方法如下，1≤i≤n：

计算该数据特征列的所有数据特征等级值的均值

和标准差σ，

计算出第i个数据特征等级值对应的数据特征标准化值，公式如下：

，

其中，W_i表示第i个数据特征等级值对应的数据特征标准化值，V_i表示第i个数据特征等级值。

作为优选，所述步骤S7中所述发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性的方法如下：

将相关系数矩阵F中的每个数据与阈值E进行比较，如果某个数据≥E，则表示该数据对应的数据集Y中的数据特征列与该数据对应的数据集X中的数据特征列具有高相关性，如果某个数据＜E，则表示该数据对应的数据集Y中的数据特征列与该数据对应的数据集X中的数据特征列不具有高相关性。

所述步骤S1执行之前先执行如下步骤：

发起方查询数据集X中的每个数据特征列内是否有空值，如果某个数据特征列内有空值，则计算该数据特征列的均值，该数据特征列内的所有空值都用计算出的均值填充；

参与方查询数据集Y中的每个数据特征列内是否有空值，如果某个数据特征列内有空值，则计算该数据特征列的均值，该数据特征列内的所有空值都用计算出的均值填充。

本发明的有益效果是：（1）可以在没有第三方参与的情况下进行特征过滤，且发起方、参与方都不会泄漏各自的特征数据，保护了双方的数据隐私，避免数据泄露。（2）将数据特征列内的数据特征值转换为数据特征标准化值，提高了后续计算的效率，在通信传输时，整体的通信量会更低，在面对数据特征列内的数据特征值为非连续数据、非正态分布数据、非线性关系数据时，本方案能够更准备的计算出数据特征列之间的相关性，提高了过滤的精确度。

附图说明

图1是实施例1的流程图；

图2是实施例1中举例说明的数据集X的数据表；

图3是实施例1中举例说明的数据集Y的数据表。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例1：本实施例的一种用于联邦学习的特征过滤方法，发起方持有数据集X，参与方持有数据集Y，数据集X与数据集Y样本对齐，数据集X包括若干个数据特征列，数据集Y包括若干个数据特征列，每个数据特征列都包含有n个数据特征值，如图1所示，包括以下步骤：

S1：发起方查询数据集X中的每个数据特征列内是否有空值，如果某个数据特征列内有空值，则计算该数据特征列的均值，该数据特征列内的所有空值都用计算出的均值填充；

参与方查询数据集Y中的每个数据特征列内是否有空值，如果某个数据特征列内有空值，则计算该数据特征列的均值，该数据特征列内的所有空值都用计算出的均值填充；

发起方将数据集X中的每个数据特征列内的数据特征值转换为对应的数据特征等级值，参与方将数据集Y中的每个数据特征列内的数据特征值转换为对应的数据特征等级值；

S2：发起方将数据集X中的每个数据特征列内的数据特征等级值进行标准化处理，将每个数据特征列内的数据特征等级值转换为对应的数据特征标准化值，数据集X中的所有数据特征列构成矩阵A；

参与方将数据集Y中的每个数据特征列内的数据特征等级值进行标准化处理，将每个数据特征列内的数据特征等级值转换为对应的数据特征标准化值，数据集Y中的所有数据特征列构成矩阵B

将某个数据特征列的第i个数据特征等级值转换为对应的数据特征标准化值的方法如下，1≤i≤n：

计算该数据特征列的所有数据特征等级值的均值

和标准差σ，

，

其中，W_i表示第i个数据特征等级值对应的数据特征标准化值，V_i表示第i个数据特征等级值；

S3：发起方将矩阵A进行转置，得到转置矩阵A^T；

S4：发起方采用全同态加密算法生成公钥和私钥，使用公钥对转置矩阵A^T进行加密，得到加密矩阵enc(A^T)，发起方将公钥和加密矩阵enc(A^T)发送给参与方；

S6：发起方使用私钥对加密的结果矩阵enc(Z)进行解密，得到明文的结果矩阵Z，将结果矩阵Z中的每个数据除以n，得到相关系数矩阵F；

S7：发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性，通知参与方将数据集Y中高相关性的数据特征列过滤掉；

发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性的方法如下：

在本方案中，发起方与参与方采用隐私集合求交算法得到样本对齐的数据集X与数据集Y。数据集X存储在哈希表MA中，所述数据集Y存储在哈希表MB中，引入哈希表存储的数据结构，能够提高后续数据处理效率。

发起方持有数据集X，参与方持有数据集Y，数据集X中有若干个数据特征列，数据集Y中有若干个数据特征列，每个数据特征列内的n个数据特征值都是同一种数据特征，不同的数据特征列为不同的数据特征，例如：数据集X包括3个数据特征列，分别为身高数据特征列、体重数据特征列、月消费金额数据特征列，身高数据特征列由n个用户样本的身高数据组成。

发起方、参与方先将各自持有的数据特征转换为数据特征等级值，再转换为数据特征标准化值，这样发起方、参与方的每个数据特征列都由n个数据特征标准化值组成，从而构成了矩阵A、矩阵B。

发起方将矩阵A转置后再用公钥进行加密发送到参与方，参与方将加密矩阵enc(A^T)与矩阵B做乘法运算得到加密的结果矩阵enc(Z)，发起方使用私钥对加密的结果矩阵enc(Z)进行解密，得到明文的结果矩阵Z，由于发起方是采用全同态加密算法生成的公钥和私钥，所以结果矩阵Z实质上就是转置矩阵A^T与矩阵B的乘积，但是经过本方案的计算，发起方、参与方都无法获取或推导出对方的特征数据，保护了双方的数据安全。最后将结果矩阵Z中的每个数据除以n，得到相关系数矩阵F，相关系数矩阵F中的每个数据就反应了数据集Y中对应的数据特征列与数据集X中对应的数据特征列的相关性，发起方通知参与方将数据集Y中具有高相关性的数据特征列过滤掉。

假设数据集X包括p个数据特征列，分别为x(1)、x(2)、……x(p)，数据特征列x(1)、 x(2)、……x(p)内的数据特征值转换为数据特征标准化值后，得到矩阵A=[x(1)、x(2)、…… x(p)]。数据集Y包括q个数据特征列，分别为y(1)、y(2)、……y(q)，同理，得到矩阵B=[y(1)、 y(2)、……y(q)]。最后计算出的相关系数矩阵F为

，F_jk表示数据特征列x(j)与数据特征列y(k)的相关系数，1≤j≤p，1≤k≤q；

设定阈值E=0.8，如果F_jk＜0.8，表示数据特征列x(j)与数据特征列y(k)不具有高相关性，数据特征列y(k)保留；如果F_jk≥0.8，表示数据特征列x(j)与数据特征列y(k)具有高相关性，发起方通知参与方将数据特征列y(k)过滤掉。

将某个数据特征列内的数据特征值转换为对应的数据特征等级值的方法如下：

例如：数据特征列由1、2、2、3、4组成，先进行降序排序为4、3、2、2、1，对应的排序序号分别为1、2、3、4、5，由于数据特征值4只有1个，则数据特征值4对应的等级值为其排序序号1，由于数据特征值2有2个，则这2个数据特征值2对应的等级值都为(3+4)/2=3.5。

举例说明：

发起方持有的数据集X，数据集X包括3个数据特征列，分别为x(1)、x(2)、x(3)，如图2所示，参与方持有的数据集Y，数据集Y包括2个数据特征列，分别为y(1)、y(2)，如图3所示，数据集X与数据集Y样本对齐，每个数据特征列都包含有3个数据特征值。

将x(1)、x(2)、x(3)、y(1)、y(2)中的数据特征值用数据特征等级值替换，得到x(1)=[3、2、1]，x(2)=[3、1、2]，x(3)=[1.5、1.5、3]，y(1)=[3、2、1]，y(2)=[1、3、2]。

再将x(1)、x(2)、x(3)、y(1)、y(2)中的数据特征等级值用数据特征标准化值替换，得到矩阵A、矩阵B，

，

，

将矩阵A进行转置，得到转置矩阵A^T，

，

发起方采用全同态加密算法生成公钥和私钥，使用公钥对转置矩阵A^T进行加密，得到加密矩阵enc(A^T)，将加密矩阵enc(A^T)发送给参与方，参与方将加密矩阵enc(A^T)与矩阵B做乘法运算得到加密的结果矩阵enc(Z)，并将加密的结果矩阵enc(Z)发送给发起方，发起方使用私钥对加密的结果矩阵enc(Z)进行解密，得到明文的结果矩阵Z，

，

实质上就是发起方、参与方在密文状态下完成了转置矩阵A^T与矩阵B相乘，使发起方得到明文的结果矩阵Z。

将结果矩阵Z除以3，得到相关系数矩阵F，

，

x(1)与y(1)的相关系数为F₁₁=1，x(1)与y(2)的相关系数为F₁₂=-0.5，x(2)与y(1)的相关系数为F₂₁=0.5，x(2)与y(2)的相关系数为F₂₂=1，x(3)与y(1)的相关系数为F₃₁=-0.866026，x(3)与y(2)的相关系数为F₃₂=0，设定阈值E=0.8，所以x(1)与y(1)具有高相关性，x(2)与y(2) 具有高相关性，发起方通知参与方将数据特征列y(1)、y(2)都过滤掉。

实施例2：本实施例的一种用于联邦学习的特征过滤方法，发起方持有数据集X，参与方持有数据集Y，数据集X与数据集Y样本对齐，数据集X包括若干个数据特征列，数据集Y包括若干个数据特征列，每个数据特征列都包含有n个数据特征值，包括以下步骤：

发起方将数据集X中的每个数据特征列内的数据特征转换为对应的数据特征等级值，参与方将数据集Y中的每个数据特征列内的数据特征转换为对应的数据特征等级值；

将该数据特征列内的数据特征值做降序排序，每个数据特征值都有对应的排序序号，如果某个数据特征值在该数据特征列内只有1个，则该数据特征值对应的数据特征等级值为该数据特征值对应的排序序号；如果某个数据特征值在该数据特征列内共有a个，a≥2，则这a个数据特征值对应的数据特征等级值都为这a个数据特征值对应的排序序号的均值；

S2：发起方计算数据集X中的每个数据特征列的所有数据特征等级值的标准差σ，如果某个数据特征列的标准差σ为0，则将该数据特征列过滤掉，将标准差σ大于0的数据特征列进行标准化处理，将这些数据特征列的数据特征等级值转换为对应的数据特征标准化值，这些数据特征列构成矩阵A；

参与方计算数据集Y中的每个数据特征列的所有数据特征等级值的标准差σ，如果某个数据特征列的标准差σ为0，则将该数据特征列过滤掉，将标准差σ大于0的数据特征列进行标准化处理，将这些数据特征列的数据特征等级值转换为对应的数据特征标准化值，这些数据特征列构成矩阵B；

将某个数据特征列的第i个数据特征等级值转换为对应的数据特征标准化值的方法如下：

计算该数据特征列的所有数据特征等级值的均值

，

，

其中，W_i表示第i个数据特征等级值对应的数据特征标准化值，V_i表示第i个数据特征等级值，1≤i≤n；

S3：发起方将矩阵A进行转置，得到转置矩阵A^T；

本实施例与实施例1的区别之处在于步骤S2处，发起方、参与方都预先计算了各自持有的每个数据特征列的标准差σ，各自预先将标准差σ为0的数据特征列过滤掉，提高过滤效率。

Claims

1.一种用于联邦学习的特征过滤方法，发起方持有数据集X，参与方持有数据集Y，数据集X与数据集Y样本对齐，数据集X包括若干个数据特征列，数据集Y包括若干个数据特征列，每个数据特征列都包含有n个数据特征值，其特征在于，包括以下步骤：

S3：发起方将矩阵A进行转置，得到转置矩阵A^T；

2.根据权利要求1所述的一种用于联邦学习的特征过滤方法，其特征在于，所述发起方与参与方采用隐私集合求交算法得到样本对齐的数据集X与数据集Y。

3.根据权利要求1所述的一种用于联邦学习的特征过滤方法，其特征在于，所述步骤S1中将某个数据特征列内的数据特征值转换为对应的数据特征等级值的方法如下：

4.根据权利要求3所述的一种用于联邦学习的特征过滤方法，其特征在于，所述数据集X存储在哈希表MA中，所述数据集Y存储在哈希表MB中。

5.根据权利要求1所述的一种用于联邦学习的特征过滤方法，其特征在于，所述步骤S2的具体步骤如下：

6.根据权利要求1或2或3或4或5所述的一种用于联邦学习的特征过滤方法，其特征在于，所述步骤S2中将某个数据特征列的第i个数据特征等级值转换为对应的数据特征标准化值的方法如下，1≤i≤n：

计算该数据特征列的所有数据特征等级值的均值

和标准差σ，

，

7.根据权利要求1或2或3或4或5所述的一种用于联邦学习的特征过滤方法，其特征在于，所述步骤S7中所述发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性的方法如下：

8.根据权利要求1或2或3或4或5所述的一种用于联邦学习的特征过滤方法，其特征在于，所述步骤S1执行之前先执行如下步骤：