CN114996749B - 一种用于联邦学习的特征过滤方法 - Google Patents
一种用于联邦学习的特征过滤方法 Download PDFInfo
- Publication number
- CN114996749B CN114996749B CN202210939220.5A CN202210939220A CN114996749B CN 114996749 B CN114996749 B CN 114996749B CN 202210939220 A CN202210939220 A CN 202210939220A CN 114996749 B CN114996749 B CN 114996749B
- Authority
- CN
- China
- Prior art keywords
- data
- data characteristic
- matrix
- column
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2211/00—Indexing scheme relating to details of data-processing equipment not covered by groups G06F3/00 - G06F13/00
- G06F2211/007—Encryption, En-/decode, En-/decipher, En-/decypher, Scramble, (De-)compress
- G06F2211/008—Public Key, Asymmetric Key, Asymmetric Encryption
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种用于联邦学习的特征过滤方法。它包括以下步骤:发起方将数据集X中的数据特征转换为数据特征标准化值,得到矩阵A,参与方对数据集Y做同样处理,得到矩阵B;发起方将矩阵A进行转置得到转置矩阵AT,全同态加密算法生成公钥和私钥,将转置矩阵AT加密后发送给参与方;参与方根据加密矩阵enc(AT)与矩阵B计算出加密的结果矩阵enc(Z)发送给发起方;发起方对加密的结果矩阵enc(Z)进行解密,并计算出相关系数矩阵F,根据相关系数矩阵F判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性,通知参与方将数据集Y中高相关性的数据特征列过滤掉。本发明无需第三方参与就能进行特征过滤,且保护了双方的数据隐私。
Description
技术领域
本发明涉及数据特征过滤技术领域,尤其涉及一种用于联邦学习的特征过滤方法。
背景技术
联邦学习的目标是在保证数据隐私安全及合法合规的基础上,实现共同建模,提升AI模型的效果,联邦学习本质上是一种分布式机器学习技术,或机器学习框架,常用于金融风控场景。在联邦建模前,各参与方需要将用于联邦建模的特征进行筛选过滤,否则会增加模型的噪声,建模效果较差。
在目前联邦学习框架下,特征过滤通常采用特征重要性、分箱后的iv值或相关系数进行过滤。现有的相关系数计算需要由三方(数据应用方,数据提供方,辅助计算节点)合作才能完成。负责辅助计算的节点通常要求是可信的中立的第三方机构,对于机构之间计算,这种可信的中立的第三方是很难保证的。其次,这种有第三方的架构对辅助节点的IO能力提出了很高的要求,所有参与方的部分数据均需传输到辅助计算节点上,对辅助计算节点而言这无疑是十分消耗资源的。
发明内容
本发明为了解决上述技术问题,提供了一种用于联邦学习的特征过滤方法,其可以在没有第三方参与的情况下进行特征过滤,且发起方、参与方都不会泄漏各自的特征数据,保护了双方的数据隐私,计算效率高,过滤精度高。
为了解决上述问题,本发明采用以下技术方案予以实现:
本发明的一种用于联邦学习的特征过滤方法,发起方持有数据集X,参与方持有数据集Y,数据集X与数据集Y样本对齐,数据集X包括若干个数据特征列,数据集Y包括若干个数据特征列,每个数据特征列都包含有n个数据特征值,包括以下步骤:
S1:发起方将数据集X中的每个数据特征列内的数据特征值转换为对应的数据特征等级值,参与方将数据集Y中的每个数据特征列内的数据特征值转换为对应的数据特征等级值;
S2:发起方将数据集X中的数据特征列内的数据特征等级值转换为对应的数据特征标准化值,得到由数据特征列构成的矩阵A;
参与方将数据集Y中的数据特征列内的数据特征等级值转换为对应的数据特征标准化值,得到由数据特征列构成的矩阵B;
S3:发起方将矩阵A进行转置,得到转置矩阵AT;
S4:发起方采用全同态加密算法生成公钥和私钥,使用公钥对转置矩阵AT进行加密,得到加密矩阵enc(AT),发起方将加密矩阵enc(AT)发送给参与方;
S5:参与方将加密矩阵enc(AT)与矩阵B做乘法运算得到加密的结果矩阵enc(Z),并将加密的结果矩阵enc(Z)发送给发起方;
S6:发起方使用私钥对加密的结果矩阵enc(Z)进行解密,得到明文的结果矩阵Z,将结果矩阵Z除以n,得到相关系数矩阵F;
S7:发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性,通知参与方将数据集Y中高相关性的数据特征列过滤掉。
在本方案中,发起方、参与方先将各自持有的数据特征值转换为数据特征等级值,再转换为数据特征标准化值,这样发起方、参与方的每个数据特征列都由n个数据特征标准化值组成,从而构成了矩阵A、矩阵B。
发起方将矩阵A转置后再用公钥进行加密发送到参与方,参与方将加密矩阵enc(AT)与矩阵B做乘法运算得到加密的结果矩阵enc(Z),发起方使用私钥对加密的结果矩阵enc(Z)进行解密,得到明文的结果矩阵Z,由于发起方是采用全同态加密算法生成的公钥和私钥,所以结果矩阵Z实质上就是转置矩阵AT与矩阵B的乘积,但是经过本方案的计算,发起方、参与方都无法获取或推导出对方的数据特征值,保护了双方的数据安全。最后将结果矩阵Z中的每个数据除以n,得到相关系数矩阵F,相关系数矩阵F中的每个数据就反应了数据集Y中对应的数据特征列与数据集X中对应的数据特征列的相关性,发起方通知参与方将数据集Y中高相关性的数据特征列过滤掉。
本方案先将数据特征列内的数据特征值转换为数据特征等级值,再转换为数据特征标准化值,提高了后续计算的效率,在通信传输时,整体的通信量会更低,在面对数据特征列内的数据特征值为非连续数据、非正态分布数据、非线性关系数据时,本方案能够更准确的计算出数据特征列之间的相关性,提高了过滤的精确度。
作为优选,所述发起方与参与方采用隐私集合求交算法得到样本对齐的数据集X与数据集Y。
作为优选,所述步骤S1中将某个数据特征列内的数据特征值转换为对应的数据特征等级值的方法如下:
将该数据特征列内的数据特征值做降序排序,每个数据特征值都有对应的排序序号,如果某个数据特征值在该数据特征列内只有1个,则该数据特征值对应的数据特征等级值为该数据特征值对应的排序序号;如果某个数据特征值在该数据特征列内共有a个,a≥2,则这a个数据特征值对应的数据特征等级值都为这a个数据特征值对应的排序序号的均值。
作为优选,所述数据集X存储在哈希表MA中,所述数据集Y存储在哈希表MB中。引入哈希表存储的数据结构,能够提高后续数据处理效率。
作为优选,所述步骤S2的具体步骤如下:
发起方计算数据集X中的每个数据特征列的所有数据特征等级值的标准差σ,如果某个数据特征列的标准差σ为0,则将该数据特征列过滤掉,将标准差σ大于0的数据特征列进行标准化处理,将这些数据特征列的数据特征等级值转换为对应的数据特征标准化值,这些数据特征列构成矩阵A;
参与方计算数据集Y中的每个数据特征列的所有数据特征等级值的标准差σ,如果某个数据特征列的标准差σ为0,则将该数据特征列过滤掉,将标准差σ大于0的数据特征列进行标准化处理,将这些数据特征列的数据特征等级值转换为对应的数据特征标准化值,这些数据特征列构成矩阵B。
预先将标准差σ为0的数据特征列过滤掉,提高过滤效率。
作为优选,所述步骤S2中将某个数据特征列的第i个数据特征等级值转换为对应的数据特征标准化值的方法如下,1≤i≤n:
计算出第i个数据特征等级值对应的数据特征标准化值,公式如下:
其中,Wi表示第i个数据特征等级值对应的数据特征标准化值,Vi表示第i个数据特征等级值。
作为优选,所述步骤S7中所述发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性的方法如下:
将相关系数矩阵F中的每个数据与阈值E进行比较,如果某个数据≥E,则表示该数据对应的数据集Y中的数据特征列与该数据对应的数据集X中的数据特征列具有高相关性,如果某个数据<E,则表示该数据对应的数据集Y中的数据特征列与该数据对应的数据集X中的数据特征列不具有高相关性。
所述步骤S1执行之前先执行如下步骤:
发起方查询数据集X中的每个数据特征列内是否有空值,如果某个数据特征列内有空值,则计算该数据特征列的均值,该数据特征列内的所有空值都用计算出的均值填充;
参与方查询数据集Y中的每个数据特征列内是否有空值,如果某个数据特征列内有空值,则计算该数据特征列的均值,该数据特征列内的所有空值都用计算出的均值填充。
本发明的有益效果是:(1)可以在没有第三方参与的情况下进行特征过滤,且发起方、参与方都不会泄漏各自的特征数据,保护了双方的数据隐私,避免数据泄露。(2)将数据特征列内的数据特征值转换为数据特征标准化值,提高了后续计算的效率,在通信传输时,整体的通信量会更低,在面对数据特征列内的数据特征值为非连续数据、非正态分布数据、非线性关系数据时,本方案能够更准确的计算出数据特征列之间的相关性,提高了过滤的精确度。
附图说明
图1是实施例1的流程图;
图2是实施例1中举例说明的数据集X的数据表;
图3是实施例1中举例说明的数据集Y的数据表。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例1:本实施例的一种用于联邦学习的特征过滤方法,发起方持有数据集X,参与方持有数据集Y,数据集X与数据集Y样本对齐,数据集X包括若干个数据特征列,数据集Y包括若干个数据特征列,每个数据特征列都包含有n个数据特征值,如图1所示,包括以下步骤:
S1:发起方查询数据集X中的每个数据特征列内是否有空值,如果某个数据特征列内有空值,则计算该数据特征列的均值,该数据特征列内的所有空值都用计算出的均值填充;
参与方查询数据集Y中的每个数据特征列内是否有空值,如果某个数据特征列内有空值,则计算该数据特征列的均值,该数据特征列内的所有空值都用计算出的均值填充;
发起方将数据集X中的每个数据特征列内的数据特征值转换为对应的数据特征等级值,参与方将数据集Y中的每个数据特征列内的数据特征值转换为对应的数据特征等级值;
S2:发起方将数据集X中的每个数据特征列内的数据特征等级值进行标准化处理,将每个数据特征列内的数据特征等级值转换为对应的数据特征标准化值,数据集X中的所有数据特征列构成矩阵A;
参与方将数据集Y中的每个数据特征列内的数据特征等级值进行标准化处理,将每个数据特征列内的数据特征等级值转换为对应的数据特征标准化值,数据集Y中的所有数据特征列构成矩阵B
将某个数据特征列的第i个数据特征等级值转换为对应的数据特征标准化值的方法如下,1≤i≤n:
计算出第i个数据特征等级值对应的数据特征标准化值,公式如下:
其中,Wi表示第i个数据特征等级值对应的数据特征标准化值,Vi表示第i个数据特征等级值;
S3:发起方将矩阵A进行转置,得到转置矩阵AT;
S4:发起方采用全同态加密算法生成公钥和私钥,使用公钥对转置矩阵AT进行加密,得到加密矩阵enc(AT),发起方将公钥和加密矩阵enc(AT)发送给参与方;
S5:参与方将加密矩阵enc(AT)与矩阵B做乘法运算得到加密的结果矩阵enc(Z),并将加密的结果矩阵enc(Z)发送给发起方;
S6:发起方使用私钥对加密的结果矩阵enc(Z)进行解密,得到明文的结果矩阵Z,将结果矩阵Z中的每个数据除以n,得到相关系数矩阵F;
S7:发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性,通知参与方将数据集Y中高相关性的数据特征列过滤掉;
发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性的方法如下:
将相关系数矩阵F中的每个数据与阈值E进行比较,如果某个数据≥E,则表示该数据对应的数据集Y中的数据特征列与该数据对应的数据集X中的数据特征列具有高相关性,如果某个数据<E,则表示该数据对应的数据集Y中的数据特征列与该数据对应的数据集X中的数据特征列不具有高相关性。
在本方案中,发起方与参与方采用隐私集合求交算法得到样本对齐的数据集X与数据集Y。数据集X存储在哈希表MA中,所述数据集Y存储在哈希表MB中,引入哈希表存储的数据结构,能够提高后续数据处理效率。
发起方持有数据集X,参与方持有数据集Y,数据集X中有若干个数据特征列,数据集Y中有若干个数据特征列,每个数据特征列内的n个数据特征值都是同一种数据特征,不同的数据特征列为不同的数据特征,例如:数据集X包括3个数据特征列,分别为身高数据特征列、体重数据特征列、月消费金额数据特征列,身高数据特征列由n个用户样本的身高数据组成。
发起方、参与方先将各自持有的数据特征转换为数据特征等级值,再转换为数据特征标准化值,这样发起方、参与方的每个数据特征列都由n个数据特征标准化值组成,从而构成了矩阵A、矩阵B。
发起方将矩阵A转置后再用公钥进行加密发送到参与方,参与方将加密矩阵enc(AT)与矩阵B做乘法运算得到加密的结果矩阵enc(Z),发起方使用私钥对加密的结果矩阵enc(Z)进行解密,得到明文的结果矩阵Z,由于发起方是采用全同态加密算法生成的公钥和私钥,所以结果矩阵Z实质上就是转置矩阵AT与矩阵B的乘积,但是经过本方案的计算,发起方、参与方都无法获取或推导出对方的特征数据,保护了双方的数据安全。最后将结果矩阵Z中的每个数据除以n,得到相关系数矩阵F,相关系数矩阵F中的每个数据就反应了数据集Y中对应的数据特征列与数据集X中对应的数据特征列的相关性,发起方通知参与方将数据集Y中具有高相关性的数据特征列过滤掉。
本方案先将数据特征列内的数据特征值转换为数据特征等级值,再转换为数据特征标准化值,提高了后续计算的效率,在通信传输时,整体的通信量会更低,在面对数据特征列内的数据特征值为非连续数据、非正态分布数据、非线性关系数据时,本方案能够更准确的计算出数据特征列之间的相关性,提高了过滤的精确度。
假设数据集X包括p个数据特征列,分别为x(1)、x(2)、……x(p),数据特征列x(1)、x(2)、……x(p)内的数据特征值转换为数据特征标准化值后,得到矩阵A=[x(1)、x(2)、……x(p)]。数据集Y包括q个数据特征列,分别为y(1)、y(2)、……y(q),同理,得到矩阵B=[y(1)、y(2)、……y(q)]。最后计算出的相关系数矩阵F为,Fjk表示数据特征列x(j)与数据特征列y(k)的相关系数,1≤j≤p,1≤k≤q;
设定阈值E=0.8,如果Fjk<0.8,表示数据特征列x(j)与数据特征列y(k)不具有高相关性,数据特征列y(k)保留;如果Fjk≥0.8,表示数据特征列x(j)与数据特征列y(k)具有高相关性,发起方通知参与方将数据特征列y(k)过滤掉。
将某个数据特征列内的数据特征值转换为对应的数据特征等级值的方法如下:
将该数据特征列内的数据特征值做降序排序,每个数据特征值都有对应的排序序号,如果某个数据特征值在该数据特征列内只有1个,则该数据特征值对应的数据特征等级值为该数据特征值对应的排序序号;如果某个数据特征值在该数据特征列内共有a个,a≥2,则这a个数据特征值对应的数据特征等级值都为这a个数据特征值对应的排序序号的均值。
例如:数据特征列由1、2、2、3、4组成,先进行降序排序为4、3、2、2、1,对应的排序序号分别为1、2、3、4、5,由于数据特征值4只有1个,则数据特征值4对应的等级值为其排序序号1,由于数据特征值2有2个,则这2个数据特征值2对应的等级值都为(3+4)/2=3.5。
举例说明:
发起方持有的数据集X,数据集X包括3个数据特征列,分别为x(1)、x(2)、x(3),如图2所示,参与方持有的数据集Y,数据集Y包括2个数据特征列,分别为y(1)、y(2),如图3所示,数据集X与数据集Y样本对齐,每个数据特征列都包含有3个数据特征值。
将x(1)、x(2)、x(3)、y(1)、y(2)中的数据特征值用数据特征等级值替换,得到x(1)=[3、2、1],x(2)=[3、1、2],x(3)=[1.5、1.5、3],y(1)=[3、2、1],y(2)=[1、3、2]。
再将x(1)、x(2)、x(3)、y(1)、y(2)中的数据特征等级值用数据特征标准化值替换,得到矩阵A、矩阵B,
将矩阵A进行转置,得到转置矩阵AT,
发起方采用全同态加密算法生成公钥和私钥,使用公钥对转置矩阵AT进行加密,得到加密矩阵enc(AT),将加密矩阵enc(AT)发送给参与方,参与方将加密矩阵enc(AT)与矩阵B做乘法运算得到加密的结果矩阵enc(Z),并将加密的结果矩阵enc(Z)发送给发起方,发起方使用私钥对加密的结果矩阵enc(Z)进行解密,得到明文的结果矩阵Z,
实质上就是发起方、参与方在密文状态下完成了转置矩阵AT与矩阵B相乘,使发起方得到明文的结果矩阵Z。
将结果矩阵Z除以3,得到相关系数矩阵F,
x(1)与y(1)的相关系数为F11=1,x(1)与y(2)的相关系数为F12=-0.5,x(2)与y(1)的相关系数为F21=0.5,x(2)与y(2)的相关系数为F22=1,x(3)与y(1)的相关系数为F31=-0.866026,x(3)与y(2)的相关系数为F32=0,设定阈值E=0.8,所以x(1)与y(1)具有高相关性,x(2)与y(2) 具有高相关性,发起方通知参与方将数据特征列y(1)、y(2)都过滤掉。
实施例2:本实施例的一种用于联邦学习的特征过滤方法,发起方持有数据集X,参与方持有数据集Y,数据集X与数据集Y样本对齐,数据集X包括若干个数据特征列,数据集Y包括若干个数据特征列,每个数据特征列都包含有n个数据特征值,包括以下步骤:
S1:发起方查询数据集X中的每个数据特征列内是否有空值,如果某个数据特征列内有空值,则计算该数据特征列的均值,该数据特征列内的所有空值都用计算出的均值填充;
参与方查询数据集Y中的每个数据特征列内是否有空值,如果某个数据特征列内有空值,则计算该数据特征列的均值,该数据特征列内的所有空值都用计算出的均值填充;
发起方将数据集X中的每个数据特征列内的数据特征转换为对应的数据特征等级值,参与方将数据集Y中的每个数据特征列内的数据特征转换为对应的数据特征等级值;
将某个数据特征列内的数据特征值转换为对应的数据特征等级值的方法如下:
将该数据特征列内的数据特征值做降序排序,每个数据特征值都有对应的排序序号,如果某个数据特征值在该数据特征列内只有1个,则该数据特征值对应的数据特征等级值为该数据特征值对应的排序序号;如果某个数据特征值在该数据特征列内共有a个,a≥2,则这a个数据特征值对应的数据特征等级值都为这a个数据特征值对应的排序序号的均值;
S2:发起方计算数据集X中的每个数据特征列的所有数据特征等级值的标准差σ,如果某个数据特征列的标准差σ为0,则将该数据特征列过滤掉,将标准差σ大于0的数据特征列进行标准化处理,将这些数据特征列的数据特征等级值转换为对应的数据特征标准化值,这些数据特征列构成矩阵A;
参与方计算数据集Y中的每个数据特征列的所有数据特征等级值的标准差σ,如果某个数据特征列的标准差σ为0,则将该数据特征列过滤掉,将标准差σ大于0的数据特征列进行标准化处理,将这些数据特征列的数据特征等级值转换为对应的数据特征标准化值,这些数据特征列构成矩阵B;
将某个数据特征列的第i个数据特征等级值转换为对应的数据特征标准化值的方法如下:
计算出第i个数据特征等级值对应的数据特征标准化值,公式如下:
其中,Wi表示第i个数据特征等级值对应的数据特征标准化值,Vi表示第i个数据特征等级值,1≤i≤n;
S3:发起方将矩阵A进行转置,得到转置矩阵AT;
S4:发起方采用全同态加密算法生成公钥和私钥,使用公钥对转置矩阵AT进行加密,得到加密矩阵enc(AT),发起方将公钥和加密矩阵enc(AT)发送给参与方;
S5:参与方将加密矩阵enc(AT)与矩阵B做乘法运算得到加密的结果矩阵enc(Z),并将加密的结果矩阵enc(Z)发送给发起方;
S6:发起方使用私钥对加密的结果矩阵enc(Z)进行解密,得到明文的结果矩阵Z,将结果矩阵Z中的每个数据除以n,得到相关系数矩阵F;
S7:发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性,通知参与方将数据集Y中高相关性的数据特征列过滤掉;
发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性的方法如下:
将相关系数矩阵F中的每个数据与阈值E进行比较,如果某个数据≥E,则表示该数据对应的数据集Y中的数据特征列与该数据对应的数据集X中的数据特征列具有高相关性,如果某个数据<E,则表示该数据对应的数据集Y中的数据特征列与该数据对应的数据集X中的数据特征列不具有高相关性。
本实施例与实施例1的区别之处在于步骤S2处,发起方、参与方都预先计算了各自持有的每个数据特征列的标准差σ,各自预先将标准差σ为0的数据特征列过滤掉,提高过滤效率。
Claims (6)
1.一种用于联邦学习的特征过滤方法,发起方持有数据集X,参与方持有数据集Y,数据集X与数据集Y样本对齐,数据集X包括若干个数据特征列,数据集Y包括若干个数据特征列,每个数据特征列都包含有n个数据特征值,其特征在于,包括以下步骤:
S1:发起方将数据集X中的每个数据特征列内的数据特征值转换为对应的数据特征等级值,参与方将数据集Y中的每个数据特征列内的数据特征值转换为对应的数据特征等级值;
S2:发起方将数据集X中的数据特征列内的数据特征等级值转换为对应的数据特征标准化值,得到由数据特征列构成的矩阵A;
参与方将数据集Y中的数据特征列内的数据特征等级值转换为对应的数据特征标准化值,得到由数据特征列构成的矩阵B;
S3:发起方将矩阵A进行转置,得到转置矩阵AT;
S4:发起方采用全同态加密算法生成公钥和私钥,使用公钥对转置矩阵AT进行加密,得到加密矩阵enc(AT),发起方将加密矩阵enc(AT)发送给参与方;
S5:参与方将加密矩阵enc(AT)与矩阵B做乘法运算得到加密的结果矩阵enc(Z),并将加密的结果矩阵enc(Z)发送给发起方;
S6:发起方使用私钥对加密的结果矩阵enc(Z)进行解密,得到明文的结果矩阵Z,将结果矩阵Z除以n,得到相关系数矩阵F;
S7:发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性,通知参与方将数据集Y中高相关性的数据特征列过滤掉;
所述步骤S1中将某个数据特征列内的数据特征值转换为对应的数据特征等级值的方法如下:
将该数据特征列内的数据特征值做降序排序,每个数据特征值都有对应的排序序号,如果某个数据特征值在该数据特征列内只有1个,则该数据特征值对应的数据特征等级值为该数据特征值对应的排序序号;如果某个数据特征值在该数据特征列内共有a个,a≥2,则这a个数据特征值对应的数据特征等级值都为这a个数据特征值对应的排序序号的均值;
所述步骤S7中所述发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性的方法如下:
将相关系数矩阵F中的每个数据与阈值E进行比较,如果某个数据≥E,则表示该数据对应的数据集Y中的数据特征列与该数据对应的数据集X中的数据特征列具有高相关性,如果某个数据<E,则表示该数据对应的数据集Y中的数据特征列与该数据对应的数据集X中的数据特征列不具有高相关性。
2.根据权利要求1所述的一种用于联邦学习的特征过滤方法,其特征在于,所述发起方与参与方采用隐私集合求交算法得到样本对齐的数据集X与数据集Y。
3.根据权利要求1所述的一种用于联邦学习的特征过滤方法,其特征在于,所述数据集X存储在哈希表MA中,所述数据集Y存储在哈希表MB中。
4.根据权利要求1所述的一种用于联邦学习的特征过滤方法,其特征在于,所述步骤S2的具体步骤如下:
发起方计算数据集X中的每个数据特征列的所有数据特征等级值的标准差σ,如果某个数据特征列的标准差σ为0,则将该数据特征列过滤掉,将标准差σ大于0的数据特征列进行标准化处理,将这些数据特征列的数据特征等级值转换为对应的数据特征标准化值,这些数据特征列构成矩阵A;
参与方计算数据集Y中的每个数据特征列的所有数据特征等级值的标准差σ,如果某个数据特征列的标准差σ为0,则将该数据特征列过滤掉,将标准差σ大于0的数据特征列进行标准化处理,将这些数据特征列的数据特征等级值转换为对应的数据特征标准化值,这些数据特征列构成矩阵B。
6.根据权利要求1或2或3或4所述的一种用于联邦学习的特征过滤方法,其特征在于,所述步骤S1执行之前先执行如下步骤:
发起方查询数据集X中的每个数据特征列内是否有空值,如果某个数据特征列内有空值,则计算该数据特征列的均值,该数据特征列内的所有空值都用计算出的均值填充;
参与方查询数据集Y中的每个数据特征列内是否有空值,如果某个数据特征列内有空值,则计算该数据特征列的均值,该数据特征列内的所有空值都用计算出的均值填充。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210939220.5A CN114996749B (zh) | 2022-08-05 | 2022-08-05 | 一种用于联邦学习的特征过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210939220.5A CN114996749B (zh) | 2022-08-05 | 2022-08-05 | 一种用于联邦学习的特征过滤方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114996749A CN114996749A (zh) | 2022-09-02 |
CN114996749B true CN114996749B (zh) | 2022-11-25 |
Family
ID=83023278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210939220.5A Active CN114996749B (zh) | 2022-08-05 | 2022-08-05 | 一种用于联邦学习的特征过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114996749B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115545216B (zh) * | 2022-10-19 | 2023-06-30 | 上海零数众合信息科技有限公司 | 一种业务指标预测方法、装置、设备和存储介质 |
CN115640509A (zh) * | 2022-12-26 | 2023-01-24 | 北京融数联智科技有限公司 | 一种联邦隐私计算中的数据相关性计算方法及系统 |
CN118333186B (zh) * | 2024-06-13 | 2024-08-13 | 蓝象智联(杭州)科技有限公司 | 基于联邦树模型的预测系统、方法及联邦树模型建模方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991552A (zh) * | 2019-12-12 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 基于联邦学习的孤立森林模型构建和预测方法和装置 |
CN111079164A (zh) * | 2019-12-18 | 2020-04-28 | 深圳前海微众银行股份有限公司 | 特征相关性计算方法、装置、设备及计算机可读存储介质 |
CN112001452A (zh) * | 2020-08-27 | 2020-11-27 | 深圳前海微众银行股份有限公司 | 特征选择方法、装置、设备及可读存储介质 |
CN113095514A (zh) * | 2021-04-26 | 2021-07-09 | 深圳前海微众银行股份有限公司 | 数据处理方法、装置、设备、存储介质及程序产品 |
CN113807415A (zh) * | 2021-08-30 | 2021-12-17 | 中国再保险(集团)股份有限公司 | 联邦特征选择方法、装置、计算机设备和存储介质 |
CN114553395A (zh) * | 2022-04-24 | 2022-05-27 | 蓝象智联(杭州)科技有限公司 | 一种风控场景下的纵向联邦特征衍生方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508199B (zh) * | 2020-11-30 | 2024-07-02 | 同盾控股有限公司 | 针对跨特征联邦学习的特征选择方法、装置及相关设备 |
CN114492605A (zh) * | 2022-01-12 | 2022-05-13 | 杭州博盾习言科技有限公司 | 联邦学习特征选择方法、装置、系统以及电子设备 |
-
2022
- 2022-08-05 CN CN202210939220.5A patent/CN114996749B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991552A (zh) * | 2019-12-12 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 基于联邦学习的孤立森林模型构建和预测方法和装置 |
WO2021114821A1 (zh) * | 2019-12-12 | 2021-06-17 | 支付宝(杭州)信息技术有限公司 | 基于联邦学习的孤立森林模型构建和预测方法和装置 |
CN111079164A (zh) * | 2019-12-18 | 2020-04-28 | 深圳前海微众银行股份有限公司 | 特征相关性计算方法、装置、设备及计算机可读存储介质 |
CN112001452A (zh) * | 2020-08-27 | 2020-11-27 | 深圳前海微众银行股份有限公司 | 特征选择方法、装置、设备及可读存储介质 |
CN113095514A (zh) * | 2021-04-26 | 2021-07-09 | 深圳前海微众银行股份有限公司 | 数据处理方法、装置、设备、存储介质及程序产品 |
CN113807415A (zh) * | 2021-08-30 | 2021-12-17 | 中国再保险(集团)股份有限公司 | 联邦特征选择方法、装置、计算机设备和存储介质 |
CN114553395A (zh) * | 2022-04-24 | 2022-05-27 | 蓝象智联(杭州)科技有限公司 | 一种风控场景下的纵向联邦特征衍生方法 |
Non-Patent Citations (4)
Title |
---|
Correlated Differential Privacy: Feature Selection in Machine Learning;Tao Zhang等;《IEEE Transactions on Industrial Informatics》;20190822;第16卷(第3期);第2115-2124页 * |
Generalized Embedding Regression: A Framework for Supervised Feature Extraction;Jianglin Lu等;《 IEEE Transactions on Neural Networks and Learning Systems》;20201104;第33卷(第1期);第185-199页 * |
大数据环境中非交互式查询差分隐私保护模型;许斌等;《计算机工程与应用》;20200731(第07期);全文 * |
面向隐私保护联邦学习的医学影像目标检测算法;王生生等;《计算机辅助设计与图形学学报》;20211031;第1553-1562页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114996749A (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114996749B (zh) | 一种用于联邦学习的特征过滤方法 | |
US20230087864A1 (en) | Secure multi-party computation method and apparatus, device, and storage medium | |
Bigdeli et al. | A novel image encryption/decryption scheme based on chaotic neural networks | |
CN109104544B (zh) | 一种基于复杂网络同步的混沌图像加密方法 | |
CN114817958B (zh) | 一种基于联邦学习的模型训练方法、装置、设备及介质 | |
Gabr et al. | Image encryption through ca, chaos and lucas sequence based s-box | |
CN113518092A (zh) | 实现多方隐私的集合交集方法 | |
CN110445797B (zh) | 一种具有隐私保护的两方多维数据比较方法和系统 | |
JP2022516381A (ja) | より効率的なポスト量子署名 | |
CN114386089A (zh) | 一种基于多方条件检索的隐私集合求交方法 | |
CN105933101B (zh) | 一种基于参数高次偏移的全同态加密公钥压缩方法 | |
CN114553395B (zh) | 一种风控场景下的纵向联邦特征衍生方法 | |
CN115442050A (zh) | 一种基于sm9算法的隐私保护的联邦学习方法 | |
Ganeshkumar et al. | A new one round video encryption scheme based on 1D chaotic maps | |
CN115842627A (zh) | 基于安全多方计算的决策树评估方法、装置、设备及介质 | |
CN116167088A (zh) | 一种两方联邦学习中进行隐私保护的方法、系统及终端 | |
CN118133985A (zh) | 任务处理方法、装置、系统及介质 | |
CN107425972B (zh) | 一种格上基于身份的分级加密方法 | |
Reyad et al. | Image pixel permutation operation based on elliptic curve cryptography | |
WO2021156005A1 (de) | Schlüsselgenerierung und pace mit sicherung gegen seitenkanalangriffe | |
CN110222092B (zh) | 一种基于差分隐私保护技术的多方统计查询方法 | |
Masmoudi et al. | A new image cryptosystem based on chaotic map and continued fractions | |
Zhang et al. | Improving the leakage rate of ciphertext-policy attribute-based encryption for cloud computing | |
CN109543451B (zh) | 一种基于模分量同态的隐私保护处理方法 | |
CN111859440A (zh) | 基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |