CN114996749B - 一种用于联邦学习的特征过滤方法 - Google Patents

一种用于联邦学习的特征过滤方法 Download PDF

Info

Publication number
CN114996749B
CN114996749B CN202210939220.5A CN202210939220A CN114996749B CN 114996749 B CN114996749 B CN 114996749B CN 202210939220 A CN202210939220 A CN 202210939220A CN 114996749 B CN114996749 B CN 114996749B
Authority
CN
China
Prior art keywords
data
data characteristic
matrix
column
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210939220.5A
Other languages
English (en)
Other versions
CN114996749A (zh
Inventor
朱振超
任江哲
李陆沁
徐时峰
裴阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lanxiang Zhilian Hangzhou Technology Co ltd
Original Assignee
Lanxiang Zhilian Hangzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lanxiang Zhilian Hangzhou Technology Co ltd filed Critical Lanxiang Zhilian Hangzhou Technology Co ltd
Priority to CN202210939220.5A priority Critical patent/CN114996749B/zh
Publication of CN114996749A publication Critical patent/CN114996749A/zh
Application granted granted Critical
Publication of CN114996749B publication Critical patent/CN114996749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2211/00Indexing scheme relating to details of data-processing equipment not covered by groups G06F3/00 - G06F13/00
    • G06F2211/007Encryption, En-/decode, En-/decipher, En-/decypher, Scramble, (De-)compress
    • G06F2211/008Public Key, Asymmetric Key, Asymmetric Encryption

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种用于联邦学习的特征过滤方法。它包括以下步骤:发起方将数据集X中的数据特征转换为数据特征标准化值,得到矩阵A,参与方对数据集Y做同样处理,得到矩阵B;发起方将矩阵A进行转置得到转置矩阵AT,全同态加密算法生成公钥和私钥,将转置矩阵AT加密后发送给参与方;参与方根据加密矩阵enc(AT)与矩阵B计算出加密的结果矩阵enc(Z)发送给发起方;发起方对加密的结果矩阵enc(Z)进行解密,并计算出相关系数矩阵F,根据相关系数矩阵F判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性,通知参与方将数据集Y中高相关性的数据特征列过滤掉。本发明无需第三方参与就能进行特征过滤,且保护了双方的数据隐私。

Description

一种用于联邦学习的特征过滤方法
技术领域
本发明涉及数据特征过滤技术领域,尤其涉及一种用于联邦学习的特征过滤方法。
背景技术
联邦学习的目标是在保证数据隐私安全及合法合规的基础上,实现共同建模,提升AI模型的效果,联邦学习本质上是一种分布式机器学习技术,或机器学习框架,常用于金融风控场景。在联邦建模前,各参与方需要将用于联邦建模的特征进行筛选过滤,否则会增加模型的噪声,建模效果较差。
在目前联邦学习框架下,特征过滤通常采用特征重要性、分箱后的iv值或相关系数进行过滤。现有的相关系数计算需要由三方(数据应用方,数据提供方,辅助计算节点)合作才能完成。负责辅助计算的节点通常要求是可信的中立的第三方机构,对于机构之间计算,这种可信的中立的第三方是很难保证的。其次,这种有第三方的架构对辅助节点的IO能力提出了很高的要求,所有参与方的部分数据均需传输到辅助计算节点上,对辅助计算节点而言这无疑是十分消耗资源的。
发明内容
本发明为了解决上述技术问题,提供了一种用于联邦学习的特征过滤方法,其可以在没有第三方参与的情况下进行特征过滤,且发起方、参与方都不会泄漏各自的特征数据,保护了双方的数据隐私,计算效率高,过滤精度高。
为了解决上述问题,本发明采用以下技术方案予以实现:
本发明的一种用于联邦学习的特征过滤方法,发起方持有数据集X,参与方持有数据集Y,数据集X与数据集Y样本对齐,数据集X包括若干个数据特征列,数据集Y包括若干个数据特征列,每个数据特征列都包含有n个数据特征值,包括以下步骤:
S1:发起方将数据集X中的每个数据特征列内的数据特征值转换为对应的数据特征等级值,参与方将数据集Y中的每个数据特征列内的数据特征值转换为对应的数据特征等级值;
S2:发起方将数据集X中的数据特征列内的数据特征等级值转换为对应的数据特征标准化值,得到由数据特征列构成的矩阵A;
参与方将数据集Y中的数据特征列内的数据特征等级值转换为对应的数据特征标准化值,得到由数据特征列构成的矩阵B;
S3:发起方将矩阵A进行转置,得到转置矩阵AT
S4:发起方采用全同态加密算法生成公钥和私钥,使用公钥对转置矩阵AT进行加密,得到加密矩阵enc(AT),发起方将加密矩阵enc(AT)发送给参与方;
S5:参与方将加密矩阵enc(AT)与矩阵B做乘法运算得到加密的结果矩阵enc(Z),并将加密的结果矩阵enc(Z)发送给发起方;
S6:发起方使用私钥对加密的结果矩阵enc(Z)进行解密,得到明文的结果矩阵Z,将结果矩阵Z除以n,得到相关系数矩阵F;
S7:发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性,通知参与方将数据集Y中高相关性的数据特征列过滤掉。
在本方案中,发起方、参与方先将各自持有的数据特征值转换为数据特征等级值,再转换为数据特征标准化值,这样发起方、参与方的每个数据特征列都由n个数据特征标准化值组成,从而构成了矩阵A、矩阵B。
发起方将矩阵A转置后再用公钥进行加密发送到参与方,参与方将加密矩阵enc(AT)与矩阵B做乘法运算得到加密的结果矩阵enc(Z),发起方使用私钥对加密的结果矩阵enc(Z)进行解密,得到明文的结果矩阵Z,由于发起方是采用全同态加密算法生成的公钥和私钥,所以结果矩阵Z实质上就是转置矩阵AT与矩阵B的乘积,但是经过本方案的计算,发起方、参与方都无法获取或推导出对方的数据特征值,保护了双方的数据安全。最后将结果矩阵Z中的每个数据除以n,得到相关系数矩阵F,相关系数矩阵F中的每个数据就反应了数据集Y中对应的数据特征列与数据集X中对应的数据特征列的相关性,发起方通知参与方将数据集Y中高相关性的数据特征列过滤掉。
本方案先将数据特征列内的数据特征值转换为数据特征等级值,再转换为数据特征标准化值,提高了后续计算的效率,在通信传输时,整体的通信量会更低,在面对数据特征列内的数据特征值为非连续数据、非正态分布数据、非线性关系数据时,本方案能够更准确的计算出数据特征列之间的相关性,提高了过滤的精确度。
作为优选,所述发起方与参与方采用隐私集合求交算法得到样本对齐的数据集X与数据集Y。
作为优选,所述步骤S1中将某个数据特征列内的数据特征值转换为对应的数据特征等级值的方法如下:
将该数据特征列内的数据特征值做降序排序,每个数据特征值都有对应的排序序号,如果某个数据特征值在该数据特征列内只有1个,则该数据特征值对应的数据特征等级值为该数据特征值对应的排序序号;如果某个数据特征值在该数据特征列内共有a个,a≥2,则这a个数据特征值对应的数据特征等级值都为这a个数据特征值对应的排序序号的均值。
作为优选,所述数据集X存储在哈希表MA中,所述数据集Y存储在哈希表MB中。引入哈希表存储的数据结构,能够提高后续数据处理效率。
作为优选,所述步骤S2的具体步骤如下:
发起方计算数据集X中的每个数据特征列的所有数据特征等级值的标准差σ,如果某个数据特征列的标准差σ为0,则将该数据特征列过滤掉,将标准差σ大于0的数据特征列进行标准化处理,将这些数据特征列的数据特征等级值转换为对应的数据特征标准化值,这些数据特征列构成矩阵A;
参与方计算数据集Y中的每个数据特征列的所有数据特征等级值的标准差σ,如果某个数据特征列的标准差σ为0,则将该数据特征列过滤掉,将标准差σ大于0的数据特征列进行标准化处理,将这些数据特征列的数据特征等级值转换为对应的数据特征标准化值,这些数据特征列构成矩阵B。
预先将标准差σ为0的数据特征列过滤掉,提高过滤效率。
作为优选,所述步骤S2中将某个数据特征列的第i个数据特征等级值转换为对应的数据特征标准化值的方法如下,1≤i≤n:
计算该数据特征列的所有数据特征等级值的均值
Figure 820690DEST_PATH_IMAGE001
和标准差σ,
计算出第i个数据特征等级值对应的数据特征标准化值,公式如下:
Figure 100002_DEST_PATH_IMAGE002
其中,Wi表示第i个数据特征等级值对应的数据特征标准化值,Vi表示第i个数据特征等级值。
作为优选,所述步骤S7中所述发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性的方法如下:
将相关系数矩阵F中的每个数据与阈值E进行比较,如果某个数据≥E,则表示该数据对应的数据集Y中的数据特征列与该数据对应的数据集X中的数据特征列具有高相关性,如果某个数据<E,则表示该数据对应的数据集Y中的数据特征列与该数据对应的数据集X中的数据特征列不具有高相关性。
所述步骤S1执行之前先执行如下步骤:
发起方查询数据集X中的每个数据特征列内是否有空值,如果某个数据特征列内有空值,则计算该数据特征列的均值,该数据特征列内的所有空值都用计算出的均值填充;
参与方查询数据集Y中的每个数据特征列内是否有空值,如果某个数据特征列内有空值,则计算该数据特征列的均值,该数据特征列内的所有空值都用计算出的均值填充。
本发明的有益效果是:(1)可以在没有第三方参与的情况下进行特征过滤,且发起方、参与方都不会泄漏各自的特征数据,保护了双方的数据隐私,避免数据泄露。(2)将数据特征列内的数据特征值转换为数据特征标准化值,提高了后续计算的效率,在通信传输时,整体的通信量会更低,在面对数据特征列内的数据特征值为非连续数据、非正态分布数据、非线性关系数据时,本方案能够更准确的计算出数据特征列之间的相关性,提高了过滤的精确度。
附图说明
图1是实施例1的流程图;
图2是实施例1中举例说明的数据集X的数据表;
图3是实施例1中举例说明的数据集Y的数据表。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例1:本实施例的一种用于联邦学习的特征过滤方法,发起方持有数据集X,参与方持有数据集Y,数据集X与数据集Y样本对齐,数据集X包括若干个数据特征列,数据集Y包括若干个数据特征列,每个数据特征列都包含有n个数据特征值,如图1所示,包括以下步骤:
S1:发起方查询数据集X中的每个数据特征列内是否有空值,如果某个数据特征列内有空值,则计算该数据特征列的均值,该数据特征列内的所有空值都用计算出的均值填充;
参与方查询数据集Y中的每个数据特征列内是否有空值,如果某个数据特征列内有空值,则计算该数据特征列的均值,该数据特征列内的所有空值都用计算出的均值填充;
发起方将数据集X中的每个数据特征列内的数据特征值转换为对应的数据特征等级值,参与方将数据集Y中的每个数据特征列内的数据特征值转换为对应的数据特征等级值;
S2:发起方将数据集X中的每个数据特征列内的数据特征等级值进行标准化处理,将每个数据特征列内的数据特征等级值转换为对应的数据特征标准化值,数据集X中的所有数据特征列构成矩阵A;
参与方将数据集Y中的每个数据特征列内的数据特征等级值进行标准化处理,将每个数据特征列内的数据特征等级值转换为对应的数据特征标准化值,数据集Y中的所有数据特征列构成矩阵B
将某个数据特征列的第i个数据特征等级值转换为对应的数据特征标准化值的方法如下,1≤i≤n:
计算该数据特征列的所有数据特征等级值的均值
Figure 800148DEST_PATH_IMAGE001
和标准差σ,
计算出第i个数据特征等级值对应的数据特征标准化值,公式如下:
Figure 111043DEST_PATH_IMAGE002
其中,Wi表示第i个数据特征等级值对应的数据特征标准化值,Vi表示第i个数据特征等级值;
S3:发起方将矩阵A进行转置,得到转置矩阵AT
S4:发起方采用全同态加密算法生成公钥和私钥,使用公钥对转置矩阵AT进行加密,得到加密矩阵enc(AT),发起方将公钥和加密矩阵enc(AT)发送给参与方;
S5:参与方将加密矩阵enc(AT)与矩阵B做乘法运算得到加密的结果矩阵enc(Z),并将加密的结果矩阵enc(Z)发送给发起方;
S6:发起方使用私钥对加密的结果矩阵enc(Z)进行解密,得到明文的结果矩阵Z,将结果矩阵Z中的每个数据除以n,得到相关系数矩阵F;
S7:发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性,通知参与方将数据集Y中高相关性的数据特征列过滤掉;
发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性的方法如下:
将相关系数矩阵F中的每个数据与阈值E进行比较,如果某个数据≥E,则表示该数据对应的数据集Y中的数据特征列与该数据对应的数据集X中的数据特征列具有高相关性,如果某个数据<E,则表示该数据对应的数据集Y中的数据特征列与该数据对应的数据集X中的数据特征列不具有高相关性。
在本方案中,发起方与参与方采用隐私集合求交算法得到样本对齐的数据集X与数据集Y。数据集X存储在哈希表MA中,所述数据集Y存储在哈希表MB中,引入哈希表存储的数据结构,能够提高后续数据处理效率。
发起方持有数据集X,参与方持有数据集Y,数据集X中有若干个数据特征列,数据集Y中有若干个数据特征列,每个数据特征列内的n个数据特征值都是同一种数据特征,不同的数据特征列为不同的数据特征,例如:数据集X包括3个数据特征列,分别为身高数据特征列、体重数据特征列、月消费金额数据特征列,身高数据特征列由n个用户样本的身高数据组成。
发起方、参与方先将各自持有的数据特征转换为数据特征等级值,再转换为数据特征标准化值,这样发起方、参与方的每个数据特征列都由n个数据特征标准化值组成,从而构成了矩阵A、矩阵B。
发起方将矩阵A转置后再用公钥进行加密发送到参与方,参与方将加密矩阵enc(AT)与矩阵B做乘法运算得到加密的结果矩阵enc(Z),发起方使用私钥对加密的结果矩阵enc(Z)进行解密,得到明文的结果矩阵Z,由于发起方是采用全同态加密算法生成的公钥和私钥,所以结果矩阵Z实质上就是转置矩阵AT与矩阵B的乘积,但是经过本方案的计算,发起方、参与方都无法获取或推导出对方的特征数据,保护了双方的数据安全。最后将结果矩阵Z中的每个数据除以n,得到相关系数矩阵F,相关系数矩阵F中的每个数据就反应了数据集Y中对应的数据特征列与数据集X中对应的数据特征列的相关性,发起方通知参与方将数据集Y中具有高相关性的数据特征列过滤掉。
本方案先将数据特征列内的数据特征值转换为数据特征等级值,再转换为数据特征标准化值,提高了后续计算的效率,在通信传输时,整体的通信量会更低,在面对数据特征列内的数据特征值为非连续数据、非正态分布数据、非线性关系数据时,本方案能够更准确的计算出数据特征列之间的相关性,提高了过滤的精确度。
假设数据集X包括p个数据特征列,分别为x(1)、x(2)、……x(p),数据特征列x(1)、x(2)、……x(p)内的数据特征值转换为数据特征标准化值后,得到矩阵A=[x(1)、x(2)、……x(p)]。数据集Y包括q个数据特征列,分别为y(1)、y(2)、……y(q),同理,得到矩阵B=[y(1)、y(2)、……y(q)]。最后计算出的相关系数矩阵F为
Figure DEST_PATH_IMAGE003
,Fjk表示数据特征列x(j)与数据特征列y(k)的相关系数,1≤j≤p,1≤k≤q;
设定阈值E=0.8,如果Fjk<0.8,表示数据特征列x(j)与数据特征列y(k)不具有高相关性,数据特征列y(k)保留;如果Fjk≥0.8,表示数据特征列x(j)与数据特征列y(k)具有高相关性,发起方通知参与方将数据特征列y(k)过滤掉。
将某个数据特征列内的数据特征值转换为对应的数据特征等级值的方法如下:
将该数据特征列内的数据特征值做降序排序,每个数据特征值都有对应的排序序号,如果某个数据特征值在该数据特征列内只有1个,则该数据特征值对应的数据特征等级值为该数据特征值对应的排序序号;如果某个数据特征值在该数据特征列内共有a个,a≥2,则这a个数据特征值对应的数据特征等级值都为这a个数据特征值对应的排序序号的均值。
例如:数据特征列由1、2、2、3、4组成,先进行降序排序为4、3、2、2、1,对应的排序序号分别为1、2、3、4、5,由于数据特征值4只有1个,则数据特征值4对应的等级值为其排序序号1,由于数据特征值2有2个,则这2个数据特征值2对应的等级值都为(3+4)/2=3.5。
举例说明:
发起方持有的数据集X,数据集X包括3个数据特征列,分别为x(1)、x(2)、x(3),如图2所示,参与方持有的数据集Y,数据集Y包括2个数据特征列,分别为y(1)、y(2),如图3所示,数据集X与数据集Y样本对齐,每个数据特征列都包含有3个数据特征值。
将x(1)、x(2)、x(3)、y(1)、y(2)中的数据特征值用数据特征等级值替换,得到x(1)=[3、2、1],x(2)=[3、1、2],x(3)=[1.5、1.5、3],y(1)=[3、2、1],y(2)=[1、3、2]。
再将x(1)、x(2)、x(3)、y(1)、y(2)中的数据特征等级值用数据特征标准化值替换,得到矩阵A、矩阵B,
Figure 100002_DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
将矩阵A进行转置,得到转置矩阵AT
Figure DEST_PATH_IMAGE006
发起方采用全同态加密算法生成公钥和私钥,使用公钥对转置矩阵AT进行加密,得到加密矩阵enc(AT),将加密矩阵enc(AT)发送给参与方,参与方将加密矩阵enc(AT)与矩阵B做乘法运算得到加密的结果矩阵enc(Z),并将加密的结果矩阵enc(Z)发送给发起方,发起方使用私钥对加密的结果矩阵enc(Z)进行解密,得到明文的结果矩阵Z,
Figure DEST_PATH_IMAGE007
实质上就是发起方、参与方在密文状态下完成了转置矩阵AT与矩阵B相乘,使发起方得到明文的结果矩阵Z。
将结果矩阵Z除以3,得到相关系数矩阵F,
Figure DEST_PATH_IMAGE008
x(1)与y(1)的相关系数为F11=1,x(1)与y(2)的相关系数为F12=-0.5,x(2)与y(1)的相关系数为F21=0.5,x(2)与y(2)的相关系数为F22=1,x(3)与y(1)的相关系数为F31=-0.866026,x(3)与y(2)的相关系数为F32=0,设定阈值E=0.8,所以x(1)与y(1)具有高相关性,x(2)与y(2) 具有高相关性,发起方通知参与方将数据特征列y(1)、y(2)都过滤掉。
实施例2:本实施例的一种用于联邦学习的特征过滤方法,发起方持有数据集X,参与方持有数据集Y,数据集X与数据集Y样本对齐,数据集X包括若干个数据特征列,数据集Y包括若干个数据特征列,每个数据特征列都包含有n个数据特征值,包括以下步骤:
S1:发起方查询数据集X中的每个数据特征列内是否有空值,如果某个数据特征列内有空值,则计算该数据特征列的均值,该数据特征列内的所有空值都用计算出的均值填充;
参与方查询数据集Y中的每个数据特征列内是否有空值,如果某个数据特征列内有空值,则计算该数据特征列的均值,该数据特征列内的所有空值都用计算出的均值填充;
发起方将数据集X中的每个数据特征列内的数据特征转换为对应的数据特征等级值,参与方将数据集Y中的每个数据特征列内的数据特征转换为对应的数据特征等级值;
将某个数据特征列内的数据特征值转换为对应的数据特征等级值的方法如下:
将该数据特征列内的数据特征值做降序排序,每个数据特征值都有对应的排序序号,如果某个数据特征值在该数据特征列内只有1个,则该数据特征值对应的数据特征等级值为该数据特征值对应的排序序号;如果某个数据特征值在该数据特征列内共有a个,a≥2,则这a个数据特征值对应的数据特征等级值都为这a个数据特征值对应的排序序号的均值;
S2:发起方计算数据集X中的每个数据特征列的所有数据特征等级值的标准差σ,如果某个数据特征列的标准差σ为0,则将该数据特征列过滤掉,将标准差σ大于0的数据特征列进行标准化处理,将这些数据特征列的数据特征等级值转换为对应的数据特征标准化值,这些数据特征列构成矩阵A;
参与方计算数据集Y中的每个数据特征列的所有数据特征等级值的标准差σ,如果某个数据特征列的标准差σ为0,则将该数据特征列过滤掉,将标准差σ大于0的数据特征列进行标准化处理,将这些数据特征列的数据特征等级值转换为对应的数据特征标准化值,这些数据特征列构成矩阵B;
将某个数据特征列的第i个数据特征等级值转换为对应的数据特征标准化值的方法如下:
计算该数据特征列的所有数据特征等级值的均值
Figure 188809DEST_PATH_IMAGE001
计算出第i个数据特征等级值对应的数据特征标准化值,公式如下:
Figure 268760DEST_PATH_IMAGE002
其中,Wi表示第i个数据特征等级值对应的数据特征标准化值,Vi表示第i个数据特征等级值,1≤i≤n;
S3:发起方将矩阵A进行转置,得到转置矩阵AT
S4:发起方采用全同态加密算法生成公钥和私钥,使用公钥对转置矩阵AT进行加密,得到加密矩阵enc(AT),发起方将公钥和加密矩阵enc(AT)发送给参与方;
S5:参与方将加密矩阵enc(AT)与矩阵B做乘法运算得到加密的结果矩阵enc(Z),并将加密的结果矩阵enc(Z)发送给发起方;
S6:发起方使用私钥对加密的结果矩阵enc(Z)进行解密,得到明文的结果矩阵Z,将结果矩阵Z中的每个数据除以n,得到相关系数矩阵F;
S7:发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性,通知参与方将数据集Y中高相关性的数据特征列过滤掉;
发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性的方法如下:
将相关系数矩阵F中的每个数据与阈值E进行比较,如果某个数据≥E,则表示该数据对应的数据集Y中的数据特征列与该数据对应的数据集X中的数据特征列具有高相关性,如果某个数据<E,则表示该数据对应的数据集Y中的数据特征列与该数据对应的数据集X中的数据特征列不具有高相关性。
本实施例与实施例1的区别之处在于步骤S2处,发起方、参与方都预先计算了各自持有的每个数据特征列的标准差σ,各自预先将标准差σ为0的数据特征列过滤掉,提高过滤效率。

Claims (6)

1.一种用于联邦学习的特征过滤方法,发起方持有数据集X,参与方持有数据集Y,数据集X与数据集Y样本对齐,数据集X包括若干个数据特征列,数据集Y包括若干个数据特征列,每个数据特征列都包含有n个数据特征值,其特征在于,包括以下步骤:
S1:发起方将数据集X中的每个数据特征列内的数据特征值转换为对应的数据特征等级值,参与方将数据集Y中的每个数据特征列内的数据特征值转换为对应的数据特征等级值;
S2:发起方将数据集X中的数据特征列内的数据特征等级值转换为对应的数据特征标准化值,得到由数据特征列构成的矩阵A;
参与方将数据集Y中的数据特征列内的数据特征等级值转换为对应的数据特征标准化值,得到由数据特征列构成的矩阵B;
S3:发起方将矩阵A进行转置,得到转置矩阵AT
S4:发起方采用全同态加密算法生成公钥和私钥,使用公钥对转置矩阵AT进行加密,得到加密矩阵enc(AT),发起方将加密矩阵enc(AT)发送给参与方;
S5:参与方将加密矩阵enc(AT)与矩阵B做乘法运算得到加密的结果矩阵enc(Z),并将加密的结果矩阵enc(Z)发送给发起方;
S6:发起方使用私钥对加密的结果矩阵enc(Z)进行解密,得到明文的结果矩阵Z,将结果矩阵Z除以n,得到相关系数矩阵F;
S7:发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性,通知参与方将数据集Y中高相关性的数据特征列过滤掉;
所述步骤S1中将某个数据特征列内的数据特征值转换为对应的数据特征等级值的方法如下:
将该数据特征列内的数据特征值做降序排序,每个数据特征值都有对应的排序序号,如果某个数据特征值在该数据特征列内只有1个,则该数据特征值对应的数据特征等级值为该数据特征值对应的排序序号;如果某个数据特征值在该数据特征列内共有a个,a≥2,则这a个数据特征值对应的数据特征等级值都为这a个数据特征值对应的排序序号的均值;
所述步骤S7中所述发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性的方法如下:
将相关系数矩阵F中的每个数据与阈值E进行比较,如果某个数据≥E,则表示该数据对应的数据集Y中的数据特征列与该数据对应的数据集X中的数据特征列具有高相关性,如果某个数据<E,则表示该数据对应的数据集Y中的数据特征列与该数据对应的数据集X中的数据特征列不具有高相关性。
2.根据权利要求1所述的一种用于联邦学习的特征过滤方法,其特征在于,所述发起方与参与方采用隐私集合求交算法得到样本对齐的数据集X与数据集Y。
3.根据权利要求1所述的一种用于联邦学习的特征过滤方法,其特征在于,所述数据集X存储在哈希表MA中,所述数据集Y存储在哈希表MB中。
4.根据权利要求1所述的一种用于联邦学习的特征过滤方法,其特征在于,所述步骤S2的具体步骤如下:
发起方计算数据集X中的每个数据特征列的所有数据特征等级值的标准差σ,如果某个数据特征列的标准差σ为0,则将该数据特征列过滤掉,将标准差σ大于0的数据特征列进行标准化处理,将这些数据特征列的数据特征等级值转换为对应的数据特征标准化值,这些数据特征列构成矩阵A;
参与方计算数据集Y中的每个数据特征列的所有数据特征等级值的标准差σ,如果某个数据特征列的标准差σ为0,则将该数据特征列过滤掉,将标准差σ大于0的数据特征列进行标准化处理,将这些数据特征列的数据特征等级值转换为对应的数据特征标准化值,这些数据特征列构成矩阵B。
5.根据权利要求1或2或3或4所述的一种用于联邦学习的特征过滤方法,其特征在于,所述步骤S2中将某个数据特征列的第i个数据特征等级值转换为对应的数据特征标准化值的方法如下,1≤i≤n:
计算该数据特征列的所有数据特征等级值的均值
Figure DEST_PATH_IMAGE002
和标准差σ,
计算出第i个数据特征等级值对应的数据特征标准化值,公式如下:
Figure DEST_PATH_IMAGE004
其中,Wi表示第i个数据特征等级值对应的数据特征标准化值,Vi表示第i个数据特征等级值。
6.根据权利要求1或2或3或4所述的一种用于联邦学习的特征过滤方法,其特征在于,所述步骤S1执行之前先执行如下步骤:
发起方查询数据集X中的每个数据特征列内是否有空值,如果某个数据特征列内有空值,则计算该数据特征列的均值,该数据特征列内的所有空值都用计算出的均值填充;
参与方查询数据集Y中的每个数据特征列内是否有空值,如果某个数据特征列内有空值,则计算该数据特征列的均值,该数据特征列内的所有空值都用计算出的均值填充。
CN202210939220.5A 2022-08-05 2022-08-05 一种用于联邦学习的特征过滤方法 Active CN114996749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210939220.5A CN114996749B (zh) 2022-08-05 2022-08-05 一种用于联邦学习的特征过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210939220.5A CN114996749B (zh) 2022-08-05 2022-08-05 一种用于联邦学习的特征过滤方法

Publications (2)

Publication Number Publication Date
CN114996749A CN114996749A (zh) 2022-09-02
CN114996749B true CN114996749B (zh) 2022-11-25

Family

ID=83023278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210939220.5A Active CN114996749B (zh) 2022-08-05 2022-08-05 一种用于联邦学习的特征过滤方法

Country Status (1)

Country Link
CN (1) CN114996749B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115545216B (zh) * 2022-10-19 2023-06-30 上海零数众合信息科技有限公司 一种业务指标预测方法、装置、设备和存储介质
CN115640509A (zh) * 2022-12-26 2023-01-24 北京融数联智科技有限公司 一种联邦隐私计算中的数据相关性计算方法及系统
CN118333186B (zh) * 2024-06-13 2024-08-13 蓝象智联(杭州)科技有限公司 基于联邦树模型的预测系统、方法及联邦树模型建模方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991552A (zh) * 2019-12-12 2020-04-10 支付宝(杭州)信息技术有限公司 基于联邦学习的孤立森林模型构建和预测方法和装置
CN111079164A (zh) * 2019-12-18 2020-04-28 深圳前海微众银行股份有限公司 特征相关性计算方法、装置、设备及计算机可读存储介质
CN112001452A (zh) * 2020-08-27 2020-11-27 深圳前海微众银行股份有限公司 特征选择方法、装置、设备及可读存储介质
CN113095514A (zh) * 2021-04-26 2021-07-09 深圳前海微众银行股份有限公司 数据处理方法、装置、设备、存储介质及程序产品
CN113807415A (zh) * 2021-08-30 2021-12-17 中国再保险(集团)股份有限公司 联邦特征选择方法、装置、计算机设备和存储介质
CN114553395A (zh) * 2022-04-24 2022-05-27 蓝象智联(杭州)科技有限公司 一种风控场景下的纵向联邦特征衍生方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508199B (zh) * 2020-11-30 2024-07-02 同盾控股有限公司 针对跨特征联邦学习的特征选择方法、装置及相关设备
CN114492605A (zh) * 2022-01-12 2022-05-13 杭州博盾习言科技有限公司 联邦学习特征选择方法、装置、系统以及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991552A (zh) * 2019-12-12 2020-04-10 支付宝(杭州)信息技术有限公司 基于联邦学习的孤立森林模型构建和预测方法和装置
WO2021114821A1 (zh) * 2019-12-12 2021-06-17 支付宝(杭州)信息技术有限公司 基于联邦学习的孤立森林模型构建和预测方法和装置
CN111079164A (zh) * 2019-12-18 2020-04-28 深圳前海微众银行股份有限公司 特征相关性计算方法、装置、设备及计算机可读存储介质
CN112001452A (zh) * 2020-08-27 2020-11-27 深圳前海微众银行股份有限公司 特征选择方法、装置、设备及可读存储介质
CN113095514A (zh) * 2021-04-26 2021-07-09 深圳前海微众银行股份有限公司 数据处理方法、装置、设备、存储介质及程序产品
CN113807415A (zh) * 2021-08-30 2021-12-17 中国再保险(集团)股份有限公司 联邦特征选择方法、装置、计算机设备和存储介质
CN114553395A (zh) * 2022-04-24 2022-05-27 蓝象智联(杭州)科技有限公司 一种风控场景下的纵向联邦特征衍生方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Correlated Differential Privacy: Feature Selection in Machine Learning;Tao Zhang等;《IEEE Transactions on Industrial Informatics》;20190822;第16卷(第3期);第2115-2124页 *
Generalized Embedding Regression: A Framework for Supervised Feature Extraction;Jianglin Lu等;《 IEEE Transactions on Neural Networks and Learning Systems》;20201104;第33卷(第1期);第185-199页 *
大数据环境中非交互式查询差分隐私保护模型;许斌等;《计算机工程与应用》;20200731(第07期);全文 *
面向隐私保护联邦学习的医学影像目标检测算法;王生生等;《计算机辅助设计与图形学学报》;20211031;第1553-1562页 *

Also Published As

Publication number Publication date
CN114996749A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN114996749B (zh) 一种用于联邦学习的特征过滤方法
US20230087864A1 (en) Secure multi-party computation method and apparatus, device, and storage medium
Bigdeli et al. A novel image encryption/decryption scheme based on chaotic neural networks
CN109104544B (zh) 一种基于复杂网络同步的混沌图像加密方法
CN114817958B (zh) 一种基于联邦学习的模型训练方法、装置、设备及介质
Gabr et al. Image encryption through ca, chaos and lucas sequence based s-box
CN113518092A (zh) 实现多方隐私的集合交集方法
CN110445797B (zh) 一种具有隐私保护的两方多维数据比较方法和系统
JP2022516381A (ja) より効率的なポスト量子署名
CN114386089A (zh) 一种基于多方条件检索的隐私集合求交方法
CN105933101B (zh) 一种基于参数高次偏移的全同态加密公钥压缩方法
CN114553395B (zh) 一种风控场景下的纵向联邦特征衍生方法
CN115442050A (zh) 一种基于sm9算法的隐私保护的联邦学习方法
Ganeshkumar et al. A new one round video encryption scheme based on 1D chaotic maps
CN115842627A (zh) 基于安全多方计算的决策树评估方法、装置、设备及介质
CN116167088A (zh) 一种两方联邦学习中进行隐私保护的方法、系统及终端
CN118133985A (zh) 任务处理方法、装置、系统及介质
CN107425972B (zh) 一种格上基于身份的分级加密方法
Reyad et al. Image pixel permutation operation based on elliptic curve cryptography
WO2021156005A1 (de) Schlüsselgenerierung und pace mit sicherung gegen seitenkanalangriffe
CN110222092B (zh) 一种基于差分隐私保护技术的多方统计查询方法
Masmoudi et al. A new image cryptosystem based on chaotic map and continued fractions
Zhang et al. Improving the leakage rate of ciphertext-policy attribute-based encryption for cloud computing
CN109543451B (zh) 一种基于模分量同态的隐私保护处理方法
CN111859440A (zh) 基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant