CN110443378B - 联邦学习中特征相关性分析方法、装置及可读存储介质 - Google Patents

联邦学习中特征相关性分析方法、装置及可读存储介质 Download PDF

Info

Publication number
CN110443378B
CN110443378B CN201910719769.1A CN201910719769A CN110443378B CN 110443378 B CN110443378 B CN 110443378B CN 201910719769 A CN201910719769 A CN 201910719769A CN 110443378 B CN110443378 B CN 110443378B
Authority
CN
China
Prior art keywords
row
target
feature
sample
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910719769.1A
Other languages
English (en)
Other versions
CN110443378A (zh
Inventor
谭明超
范涛
马国强
郑会钿
陈天健
杨强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201910719769.1A priority Critical patent/CN110443378B/zh
Publication of CN110443378A publication Critical patent/CN110443378A/zh
Priority to PCT/CN2019/119231 priority patent/WO2021022717A1/zh
Application granted granted Critical
Publication of CN110443378B publication Critical patent/CN110443378B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种联邦学习中特征相关性分析方法、装置及可读存储介质,该方法包括:在接收到纵向场景的计算指令时,在第二方,从第二方第二样本的各列第二特征向量和一列标签向量中确定各列目标第二特征向量及一列目标标签向量,从第一方第一样本的各列第一加密特征向量中确定各列目标第一加密特征向量,确定每列目标第二特征向量中每一目标第二特征向量和一列目标标签向量中每一目标标签向量,与每列目标第一加密特征向量中对应的每一目标第一加密特征向量的目标内积发送至第一方;在第一方根据各组目标内积确定第一方样本中每列特征,分别与第二方样本中每列特征和一列标签的相关性系数。本发明实现了联邦学习纵向场景中的特征相关性分析。

Description

联邦学习中特征相关性分析方法、装置及可读存储介质
技术领域
本发明涉及机器学习领域,尤其涉及联邦学习中特征相关性分析方法、装置及可读存储介质。
背景技术
联邦学习(Federated Learning)是一种新兴的人工智能基础技术,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。
若各参与方在联合建模前,未对各方用于建模的特征进行相关性筛选,将会增加模型的噪声,建模效果较差。然而,根据调研发现,目前工业界还没有相关的技术应用。因此,如何分析联邦学习中的特征相关性是目前亟待解决的问题。
发明内容
本发明的主要目的在于提供一种联邦学习中特征相关性分析方法、装置及可读存储介质,旨在实现联邦学习中的特征相关性分析。
为实现上述目的,本发明提供一种联邦学习中特征相关性分析方法,所述方法包括以下步骤:
在接收到纵向场景的特征相关性计算指令时,在第二方,分别从第二方第二样本中的各列第二特征向量和一列标签向量中,确定各列目标第二特征向量及其对应的一列目标标签向量;以及,
基于各列目标第二特征向量,从第一方第一样本中的各列第一加密特征向量中,确定各列目标第一加密特征向量,其中,所述第一样本和所述第二样本具有相同的用户维度;以及,
分别确定每列目标第二特征向量中每一目标第二特征向量和一列目标标签向量中每一目标标签向量,与每列目标第一加密特征向量中对应的每一目标第一加密特征向量的目标内积,得到各组目标内积,将各组目标内积发送至第一方;
在第一方,根据各组目标内积,确定第一方样本中每列第一特征,分别与第二方样本中每列第二特征和一列标签之间的相关性系数。
可选地,所述在第二方,分别从第二方第二样本中的各列第二特征向量和一列标签向量中,确定各列目标第二特征向量及其对应的一列目标标签向量的步骤之前,包括:
在第一方,对第一方样本中的每列第一特征进行归一化处理,得到由各列第一特征向量组成的第一样本,并对各列第一特征向量进行加密,得到各列第一加密特征向量,将各列第一加密特征向量发送至第二方;以及,
在第二方,对第二方样本中的每列第二特征和一列标签进行归一化处理,得到由各列第二特征向量和一列标签向量组成的第二样本。
可选地,所述在联邦第二方,分别从第二方第二样本中的各列第二特征向量和一列标签向量中,确定各列目标第二特征向量及其对应的一列目标标签向量的步骤包括:
在第二方,打乱每列第一加密特征向量中各第一加密特征向量的排列顺序;以及,
建立打乱排列顺序前、后的每列第一加密特征向量,分别与每列第二特征向量和一列标签向量在列维度上的对应关系;以及,
从每列第二特征向量中抽取若干第二特征向量,得到各列目标第二特征向量,并从一列标签向量中抽取各列目标第二特征向量对应的标签向量得到一列目标标签向量;
所述基于各列目标第二特征向量,从第一方第一样本中的各列第一加密特征向量中,确定各列目标第一加密特征向量,其中,所述第一样本和所述第二样本具有相同的用户维度的步骤包括:
根据所述对应关系,从打乱排列顺序后的每列第一加密特征向量中,查找各列目标第二特征向量对应的第一加密特征向量,得到各列目标第一加密特征向量。
可选地,所述分别确定每列目标第二特征向量中每一目标第二特征向量和一列目标标签向量中每一目标标签向量,与每列目标第一加密特征向量中对应的每一目标第一加密特征向量的目标内积,得到各组目标内积,将各组目标内积发送至第一方的步骤包括:
分别计算每列目标第二特征向量中每一目标第二特征向量和一列目标标签向量中每一目标标签向量,与每列目标第一加密特征向量中对应的每一目标第一加密特征向量的内积,得到各组内积;
对各组内积添加白噪声,得到各组目标内积。
可选地,所述在第一方,根据各组目标内积,确定第一方样本中每列第一特征,分别与第二方样本中每列第二特征和一列标签之间的相关性系数的步骤包括:
在第一方,对每组目标内积进行解密;
对解密后的每组目标内积求均值,得到第一方样本中每列第一特征,分别与第二方样本中每列第二特征和一列标签之间的相关性系数。
可选地,所述在第一方,根据各组目标内积,确定第一方样本中每列第一特征,分别与第二方样本中每列第二特征和一列标签之间的相关性系数的步骤之后,包括:
将第一方样本的各列第一特征中,与第二方样本中的每列第二特征的相关性系数、与第二方样本中一列标签的相关性系数高于预设阈值的目标列特征发送至第二方。
此外,为实现上述目的,本发明提供一种联邦学习中特征相关性分析方法,所述方法包括:
在接收到横向场景的特征相关性计算指令时,在第一方,计算第一方第一样本中每两列第一特征向量的加密内积,得到各组加密内积,并将各组加密内积发送至第二方;
在第二方,计算第二方第二样本中每两相同列第二特征向量的内积,其中,所述第一样本和所述第二样本具有相同的特征维度;以及,
对每组加密内积和第二方计算的对应组内积做加法运算,得到各组运算结果,将各组运算结果发送至第一方;
在第一方,根据各组运算结果,确定第一方样本中每两列第一特征,与第二方样本中每两相同列第二特征之间的相关性系数。
可选地,所述在第一方,根据各组运算结果,确定第一方样本中每两列第一特征,与第二方样本中每两相同列第二特征的相关性系数的步骤包括:
在第一方,对各组运算结果进行解密;
对解密后的每组运算结果求均值,得到第一方样本中每两列第一特征,与第二方样本中每两相同列第二特征的相关性系数。
此外,为实现上述目的,本发明还提供一种联邦学习中特征相关性分析装置,所述联邦学习中特征相关性分析装置包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的联邦学习中特征相关性分析程序,其中所述联邦学习中特征相关性分析程序被所述处理器执行时,实现如上所述的联邦学习中特征相关性分析方法的步骤。
此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有联邦学习中特征相关性分析程序,所述联邦学习中特征相关性分析程序被处理器执行时实现如如上所述的联邦学习中特征相关性分析方法的步骤。
本发明提供一种联邦学习中特征相关性分析方法、装置及可读存储介质,在接收到纵向场景的特征相关性计算指令时,在第二方,分别从第二方第二样本中的各列第二特征向量和一列标签向量中,确定各列目标第二特征向量及其对应的一列目标标签向量;以及,基于各列目标第二特征向量,从第一方第一样本中的各列第一加密特征向量中,确定各列目标第一加密特征向量,其中,所述第一样本和所述第二样本具有相同的用户维度;以及,分别确定每列目标第二特征向量中每一目标第二特征向量和一列目标标签向量中每一目标标签向量,与每列目标第一加密特征向量中对应的每一目标第一加密特征向量的目标内积,得到各组目标内积,将各组目标内积发送至第一方;在第一方,根据各组目标内积,确定第一方样本中每列第一特征,分别与第二方样本中每列第二特征和一列标签之间的相关性系数。本发明通过上述方式,在保障联邦双方各自数据安全的前提下,在联邦双方,对用于建模的特征相关性进行联合运算,实现了联邦学习纵向场景中的特征相关性分析。
附图说明
图1是本发明实施例方案涉及的联邦学习中特征相关性分析装置的硬件结构示意图;
图2为本发明联邦学习中特征相关性分析方法第一实施例的流程示意图;
图3为本发明联邦学习中特征相关性分析方法第二实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:在第二方,分别从第二方第二样本中的各列第二特征向量和一列标签向量中,确定各列目标第二特征向量及其对应的一列目标标签向量;以及,基于各列目标第二特征向量,从第一方第一样本中的各列第一加密特征向量中,确定各列目标第一加密特征向量,其中,所述第一样本和所述第二样本具有相同的用户维度;以及,分别确定每列目标第二特征向量中每一目标第二特征向量和一列目标标签向量中每一目标标签向量,与每列目标第一加密特征向量中对应的每一目标第一加密特征向量的目标内积,得到各组目标内积,将各组目标内积发送至第一方;在第一方,根据各组目标内积,确定第一方样本中每列第一特征,分别与第二方样本中每列第二特征和一列标签之间的相关性系数。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例涉及的联邦学习中特征相关性分析方法可以由联邦学习中特征相关性分析装置实现。
参照图1,图1为本发明实施例方案中涉及的联邦学习中特征相关性分析装置的硬件结构示意图。本发明实施例中,联邦学习中特征相关性分析装置可以包括处理器1001(例如中央处理器Central Processing Unit、CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口);存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图1中示出的硬件结构并不构成对本发明的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种可读存储介质的存储器1005可以包括操作系统、网络通信模块以及联邦学习中特征相关性分析程序。在图1中,处理器1001可以调用存储器1005中存储的联邦学习中特征相关性分析程序,并执行本发明实施例提供的联邦学习中特征相关性分析方法。
本发明实施例提供了一种联邦学习中特征相关性分析方法。
参照图2,图2为本发明联邦学习中特征相关性分析方法第一实施例的流程示意图。
本实施例中,该联邦学习中特征相关性分析方法由联邦学习中特征相关性分析装置实现,该联邦学习中特征相关性分析方法包括以下步骤:
步骤S10,在接收到纵向场景的特征相关性计算指令时,在第二方,分别从第二方第二样本中的各列第二特征向量和一列标签向量中,确定各列目标第二特征向量及其对应的一列目标标签向量;以及,
步骤S20,基于各列目标第二特征向量,从第一方第一样本中的各列第一加密特征向量中,确定各列目标第一加密特征向量,其中,所述第一样本和所述第二样本具有相同的用户维度;以及,
步骤S30,分别确定每列目标第二特征向量中每一目标第二特征向量和一列目标标签向量中每一目标标签向量,与每列目标第一加密特征向量中对应的每一目标第一加密特征向量的目标内积,得到各组目标内积,将各组目标内积发送至第一方;
步骤S40,在第一方,根据各组目标内积,确定第一方样本中每列第一特征,分别与第二方样本中每列第二特征和一列标签之间的相关性系数。
本实施例首先介绍相关系数,相关系数是用来度量两个变量之间线性相关程度的量,比较常用的是皮尔森pearson系数,Pearson系数的公式如下:
其中x和y分别是两个变量,cov(x,y)表示两个变量的协方差,σx和σy分别表示两个变量的标准差。
由上述式子可推知,Pearson系数可以由两个变量归一化后的内积再求均值得出。本实施例据此,在保障联邦双方各自数据安全的前提下,在联邦双方,对用于建模的特征的相关性进行联合计算。
以下详细介绍本实施例实现联邦学习中特征相关性分析的具体步骤:
步骤S10,在接收到纵向场景的特征相关性计算指令时,在第二方,分别从第二方第二样本中的各列第二特征向量和一列标签向量中,确定各列目标第二特征向量及其对应的一列目标标签向量;以及,
步骤S20,基于各列目标第二特征向量,从第一方第一样本中的各列第一加密特征向量中,确定各列目标第一加密特征向量,其中,所述第一样本和所述第二样本具有相同的用户维度;
在本实施中,联邦学习中特征相关性分析装置具体可以是联合计算装置,联邦双方均部署有联合计算装置,联邦双方均可以为单个服务器或服务器集群。
本实施例为纵向场景的特征相关性计算。在纵向场景中,联邦第一方的样本和第二方的样本具有相同的用户维度、不同的特征维度。联邦第一方的样本包含各个用户的多个特征,联邦第二方的样本包含相同用户的多个不同特征和每个用户的标签。
在本实施例中,所述在第二方,分别从第二方第二样本中的各列第二特征向量和一列标签向量中,确定各列目标第二特征向量及其对应的一列目标标签向量的步骤之前,包括:
a、在第一方,对第一方样本中的每列第一特征进行归一化处理,得到由各列第一特征向量组成的第一样本,并对各列第一特征向量进行加密,得到各列第一加密特征向量,将各列第一加密特征向量发送至第二方;以及,
b、在第二方,对第二方样本中的每列第二特征和一列标签进行归一化处理,得到由各列第二特征向量和一列标签向量组成的第二样本。
即,在第一方,对第一方样本的每列第一特征中的每个第一特征进行归一化处理(若第一方为集群,则采用分布式方式进行归一化处理),得到由各列第一特征向量组成的第一样本,第一样本示例如下(以A表示联邦第一方):
即,A方的第一样本中包含列和/>列第一特征向量。
进一步地,为防止第二方获得第一方的数据,采用预设加密算法对各列第一特征向量进行加密,得到各列第一加密特征向量然后将各列第一加密特征向量发送至第二方,其中,该预设加密算法可选为同态加密算法,具体加密过程可参照现有技术,此处不再赘述。
同时,在第二方,对第二方样本中的每列第二特征和一列标签进行归一化处理(若第二方为集群,则采用分布式方式进行归一化处理),得到由各列第二特征向量和一列标签向量组成的第二样本,第二样本示例如下(以B表示联邦第一方):
即,B方的第二样本中包含列和/>列第二特征向量和一列标签向量Y。
那么,在接收到纵向场景的特征相关性计算指令时,在第二方,从第二样本中的各列第二特征向量一列标签向量中,确定各列目标第二特征向量及其对应的一列目标标签向量。
之后,基于各列目标第二特征向量,从第一方的第一样本中的各列第一加密特征向量中,确定各列目标第一加密特征向量。
作为一种实施方式,步骤S10包括:
c、在第二方,打乱每列第一加密特征向量中各第一加密特征向量的排列顺序;以及,
d、建立打乱排列顺序前、后的每列第一加密特征向量,分别与每列第二特征向量和一列标签向量在列维度上的对应关系;以及,
e、从每列第二特征向量中抽取若干第二特征向量,得到各列目标第二特征向量,并从一列标签向量中抽取各列目标第二特征向量对应的标签向量得到一列目标标签向量;
步骤S20包括:
f、根据所述对应关系,从打乱排列顺序后的每列第一加密特征向量中,查找各列目标第二特征向量对应的第一加密特征向量,得到各列目标第一加密特征向量。
即,在第二方,在列维度上,对每列第一加密特征向量做shuffle处理,也就是打乱每列第一加密特征向量中各第一加密特征向量的排列顺序,如此,第一方也就无法通过获取各列第二特征向量/>然后建立shuffle处理前和shuffle处理后的每列第一加密特征向量,分别与每列第二特征向量和一列标签向量在列维度上(也就是用户维度上)的对应关系,例如,建立A方U1的/>和/>与B方U1的/>和Y1的对应关系。
为防止第一方通过构建特殊数据的方式获取第二方的数据值,在第二方,对第二方的数据进行抽样,抽取的数据用于计算相关性,即,从每列第二特征向量中抽取若干第二特征向量得到各列目标第二特征向量,并从一列标签向量中抽取各列目标第二特征向量对应的标签向量得到一列目标标签向量,然后根据前述建立的对应关系,从打乱排列顺序后的每列第一加密特征向量中,查找各列目标第二特征向量对应的第一加密特征向量,得到各列目标第一加密特征向量。之后,便可依据pearson系数,对各列目标第一加密特征向量与各列目标第二特征向量、对各列目标第一加密特征向量与一列目标标签向量进行相关性计算,得到第一方样本中每列第一特征,分别与第二方样本中每列第二特征和一列标签之间的相关性系数。
步骤S30,分别确定每列目标第二特征向量中每一目标第二特征向量和一列目标标签向量中每一目标标签向量,与每列目标第一加密特征向量中对应的每一目标第一加密特征向量的目标内积,得到各组目标内积,将各组目标内积发送至第一方;
具体地,分别确定每列目标第二特征向量中每一目标第二特征向量和每一目标标签向量中每一目标标签向量,与每列目标第一加密特征向量中对应的每一目标第一加密特征向量的目标内积,得到各组目标内积。
作为一种实施方式,步骤S30包括:
g,分别计算每列目标第二特征向量中每一目标第二特征向量和一列目标标签向量中每一目标标签向量,与每列目标第一加密特征向量中对应的每一目标第一加密特征向量的内积,得到各组内积;
h,对各组内积添加白噪声,得到各组目标内积。
即,分别计算每列目标第二特征向量中每一目标第二特征向量和一列目标标签向量中每一目标标签向量,与每列目标第一加密特征向量中对应的每一目标第一加密特征向量的内积,得到各组内积。比如,若各列目标第一加密特征向量、各列目标第二特征向量和一列目标标签向量如下,
各列目标第一加密特征向量:
各列目标第二特征向量和一列目标标签向量:
则,分别计算列、/>列、Y列与/>列的内积,得到三组内积
再分别计算列、Y列与/>列的内积,得到三组内积/>
为防止第一方通过构建特殊数据的方式获取第二方的数据值,在第二方,对计算得到的每组内积加上较小的白噪声,得到各组目标内积。之后,将各组目标内积发送至第一方。
步骤40,在第一方,根据各组目标内积,确定第一方样本中每列第一特征,分别与第二方样本中每列第二特征和一列标签之间的相关性系数。
之后,在第一方,根据各组目标内积,确定第一方第一样本中的各列第一特征向量,分别与第二方第二样本中的各列第二特征向量和一列标签向量的相关性系数,作为第一方样本中每列第一特征,分别与第二方样本中每列第二特征和一列标签之间的相关性系数。
作为一种实施方式,步骤S30包括:
i,在第一方,对每组目标内积进行解密;
j,对解密后的每组目标内积求均值,得到第一方样本中每列第一特征,分别与第二方样本中每列第二特征和一列标签之间的相关性系数。
由于每组目标内积是基于目标第一加密特征向量得到的,因此在第一方,先采用对应的解密算法对每组目标内积进行解密,再对解密后的每组目标内积求均值,即可得到第一方第一样本中的各列第一特征向量,分别与第二方第二样本中的各列第二特征向量和一列标签向量的相关性系数,作为第一方样本中每列第一特征,分别与第二方样本中每列第二特征和一列标签之间的相关性系数。
如此,本实施例在保障联邦双方各自数据安全的前提下,实现了联邦双方对双方特征的相关性分析。
进一步地,步骤S30之后,还包括:
将第一方样本的各列第一特征中,与第二方样本中的每列第二特征的相关性系数、与第二方样本中一列标签的相关性系数高于预设阈值的目标列特征发送至第二方。
即,本实施例联邦学习中特征相关性分析装置中预先设置有相关性系数阈值,对于第一方样本各列特征中,与第二方样本中每列特征的相关性系数、与第二方样本中一列特征的标签的相关性系数高于预设阈值的目标列特征,说明其与第二样本在用户维度上的对应列特征具有较高的相关性,由于利用相关性过高的特征联合建模将增加模型的噪声,建模效果较差,因此,将目标列特征发送至第二方,以供第二方将第二样本中与目标列特征在用户维度上的对应列特征进行删除,仅采用第二样本中的剩余特征联合建模,将大大提升建模的效果。
本实施例在接收到纵向场景的特征相关性计算指令时,在第二方,分别从第二方第二样本中的各列第二特征向量和一列标签向量中,确定各列目标第二特征向量及其对应的一列目标标签向量;以及,基于各列目标第二特征向量,从第一方第一样本中的各列第一加密特征向量中,确定各列目标第一加密特征向量,其中,所述第一样本和所述第二样本具有相同的用户维度;以及,分别确定每列目标第二特征向量中每一目标第二特征向量和一列目标标签向量中每一目标标签向量,与每列目标第一加密特征向量中对应的每一目标第一加密特征向量的目标内积,得到各组目标内积,将各组目标内积发送至第一方;在第一方,根据各组目标内积,确定第一方样本中每列第一特征,分别与第二方样本中每列第二特征和一列标签之间的相关性系数。本实施例通过上述方式,在保障联邦双方各自数据安全的前提下,在联邦双方,对用于建模的特征相关性进行联合运算,实现了联邦学习纵向场景中的特征相关性分析。
进一步地,基于上述第一实施例,提出了本发明联邦学习中特征相关性分析方法的第二实施例,与第一实施例的区别在于,所述方法包括以下步骤:
步骤S50,在接收到横向场景的特征相关性计算指令时,在第一方,计算第一方第一样本中每两列第一特征向量的加密内积,得到各组加密内积,并将各组加密内积发送至第二方;
步骤S60,在第二方,计算第二方第二样本中每两相同列第二特征向量的内积,其中,所述第一样本和所述第二样本具有相同的特征维度;以及,
步骤S70,对每组加密内积和第二方计算的对应组内积做加法运算,得到各组运算结果,将各组运算结果发送至第一方;
步骤S80,在第一方,根据各组运算结果,确定第一方样本中每两列第一特征,与第二方样本中每两相同列第二特征之间的相关性系数。
本实施例为横向场景的特征相关性计算。在横向场景中,联邦第一方的样本和第二方的样本具有相同的特征维度、不同的用户维度。联邦第一方的样本包含各个用户的多个特征,联邦第二方的样本包含不同用户的多个相同特征。
在本实施例中,所述在联邦第一方,计算第一方第一样本中每两列第一特征向量的加密内积,得到各组加密内积,并将各组加密内积发送至第二方的步骤之前,还需在第一方,对第一方样本的每列第一特征中的每个第一特征进行归一化处理(若第一方为集群,则采用分布式方式进行归一化处理),得到由各列第一特征向量组成的第一样本,第一样本示例如下(以A表示联邦第一方):
同时,在第二方,对第二方样本中的每列第二特征进行归一化处理(若第二方为集群,则采用分布式方式进行归一化处理),得到由各列第二特征向量组成的第二样本,第二样本示例如下(以B表示联邦第一方):
那么,在接收到横向场景的特征相关性计算指令时,首先在联邦第一方,计算第一方第一样本中每两列第一特征向量的内积,考虑到第一方数据的隐私性,采用预设加密算法对计算的各组内积进行加密,得到各组加密内积,并将各组加密内积发送至第二方,其中,该预设加密算法可选为同态加密算法,具体加密过程可参照现有技术,此处不作限定。例如,以上述A方示例为例,则分别计算列与/>列的加密内积,得到一组加密内积
在第二方,计算第二方第二样本中每两相同列第二特征向量的内积,对每组加密内积和第二方计算的对应组内积做加法运算,得到各组运算结果,将各组运算结果发送至第一方,以上述B方示例为例,则分别计算列与/>列的加密内积,得到一组加密内积
然后对每组加密内积和第二方计算的对应组内积做加法运算,得到各组运算结果,将各组运算结果发送至第一方。例如,继续以上述示例为例,分别对和/>和/>做加法运算,得到一组运算结果/>
然后在第一方,根据各组运算结果,确定第一方样本中每两列第一特征,与第二方样本中每两相同列第二特征之间的相关性系数。
作为一种实施方式,步骤S80包括:
在第一方,对各组运算结果进行解密;
对解密后的每组运算结果求均值,得到第一方样本中每两列第一特征,与第二方样本中每两相同列第二特征的相关性系数。
即,在第一方,先采用对应的解密算法对各组运算结果进行解密,再对解密后的对解密后的每组运算结果求均值,即可得到第一方第一样本中每两列第一特征向量,分别与第二方第二样本中每两相同列第二特征向量的相关性系数,作为第一方样本中每两列特征,与第二方样本中每两相同列特征的相关性系数。
如此,本实施例在保障联邦双方各自数据安全的前提下,实现了联邦学习横向场景中的特征相关性分析。
此外,本发明实施例还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有联邦学习中特征相关性分析程序,其中所述联邦学习中特征相关性分析程序被处理器执行时,实现如上述的联邦学习中特征相关性分析方法的步骤。
其中,联邦学习中特征相关性分析程序被执行时所实现的方法可参照本发明联邦学习中特征相关性分析方法的各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种联邦学习中特征相关性分析方法,应用于联合计算设备,所述联合计算设备与参与联邦学习的第一服务器和第二服务器通信连接,其特征在于,所述方法包括以下步骤:
在接收到纵向场景的特征相关性计算指令时,在第二服务器,分别从第二服务器第二样本中的各列第二特征向量和一列标签向量中,确定各列目标第二特征向量及其对应的一列目标标签向量;以及,
基于各列目标第二特征向量,从第一服务器第一样本中的各列第一加密特征向量中,确定各列目标第一加密特征向量,其中,所述第一样本和所述第二样本具有相同的用户维度;以及,
分别确定每列目标第二特征向量中每一目标第二特征向量和一列目标标签向量中每一目标标签向量,与每列目标第一加密特征向量中对应的每一目标第一加密特征向量的目标内积,得到各组目标内积,将各组目标内积发送至第一服务器;
在第一服务器,根据各组目标内积,确定第一服务器样本中每列第一特征,分别与第二服务器样本中每列第二特征和一列标签之间的相关性系数;
其中,所述第一样本包括但不限于手机号、购买次数和违章次数,所述第二样本包括但不限于手机号、年龄、收入和是否逾期,或,所述第一样本包括但不限于设备号、购买次数和违章次数,所述第二样本包括但不限于设备号、年龄、收入和是否逾期;
所述在第二服务器,分别从第二服务器第二样本中的各列第二特征向量和一列标签向量中,确定各列目标第二特征向量及其对应的一列目标标签向量的步骤包括:
在第二服务器,打乱每列第一加密特征向量中各第一加密特征向量的排列顺序;以及,
建立打乱排列顺序前、后的每列第一加密特征向量,分别与每列第二特征向量和一列标签向量在列维度上的对应关系;以及,
从每列第二特征向量中抽取若干第二特征向量,得到各列目标第二特征向量,并从一列标签向量中抽取各列目标第二特征向量对应的标签向量得到一列目标标签向量;
所述基于各列目标第二特征向量,从第一服务器第一样本中的各列第一加密特征向量中,确定各列目标第一加密特征向量,其中,所述第一样本和所述第二样本具有相同的用户维度的步骤包括:
根据所述对应关系,从打乱排列顺序后的每列第一加密特征向量中,查找各列目标第二特征向量对应的第一加密特征向量,得到各列目标第一加密特征向量。
2.如权利要求1所述的联邦学习中特征相关性分析方法,其特征在于,所述在第二服务器,分别从第二服务器第二样本中的各列第二特征向量和一列标签向量中,确定各列目标第二特征向量及其对应的一列目标标签向量的步骤之前,包括:
在第一服务器,对第一服务器样本中的每列第一特征进行归一化处理,得到由各列第一特征向量组成的第一样本,并对各列第一特征向量进行加密,得到各列第一加密特征向量,将各列第一加密特征向量发送至第二服务器;以及,
在第二服务器,对第二服务器样本中的每列第二特征和一列标签进行归一化处理,得到由各列第二特征向量和一列标签向量组成的第二样本。
3.如权利要求1所述的联邦学习中特征相关性分析方法,其特征在于,所述分别确定每列目标第二特征向量中每一目标第二特征向量和一列目标标签向量中每一目标标签向量,与每列目标第一加密特征向量中对应的每一目标第一加密特征向量的目标内积,得到各组目标内积,将各组目标内积发送至第一服务器的步骤包括:
分别计算每列目标第二特征向量中每一目标第二特征向量和一列目标标签向量中每一目标标签向量,与每列目标第一加密特征向量中对应的每一目标第一加密特征向量的内积,得到各组内积;
对各组内积添加白噪声,得到各组目标内积。
4.如权利要求3所述的联邦学习中特征相关性分析方法,其特征在于,所述在第一服务器,根据各组目标内积,确定第一服务器样本中每列第一特征,分别与第二服务器样本中每列第二特征和一列标签之间的相关性系数的步骤包括:
在第一服务器,对每组目标内积进行解密;
对解密后的每组目标内积求均值,得到第一服务器样本中每列第一特征,分别与第二服务器样本中每列第二特征和一列标签之间的相关性系数。
5.如权利要求4所述的联邦学习中特征相关性分析方法,其特征在于,所述在第一服务器,根据各组目标内积,确定第一服务器样本中每列第一特征,分别与第二服务器样本中每列第二特征和一列标签之间的相关性系数的步骤之后,包括:
将第一服务器样本的各列第一特征中,与第二服务器样本中的每列第二特征的相关性系数、与第二服务器样本中一列标签的相关性系数高于预设阈值的目标列特征发送至第二服务器。
6.一种联邦学习中特征相关性分析装置,其特征在于,所述联邦学习中特征相关性分析装置包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的联邦学习中特征相关性分析程序,其中所述联邦学习中特征相关性分析程序被所述处理器执行时,实现如权利要求1至5中任一项所述的联邦学习中特征相关性分析方法的步骤。
7.一种可读存储介质,其特征在于,所述可读存储介质上存储有联邦学习中特征相关性分析程序,所述联邦学习中特征相关性分析程序被处理器执行时实现如权利要求1至5中任一项所述的联邦学习中特征相关性分析方法的步骤。
CN201910719769.1A 2019-08-02 2019-08-02 联邦学习中特征相关性分析方法、装置及可读存储介质 Active CN110443378B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910719769.1A CN110443378B (zh) 2019-08-02 2019-08-02 联邦学习中特征相关性分析方法、装置及可读存储介质
PCT/CN2019/119231 WO2021022717A1 (zh) 2019-08-02 2019-11-18 联邦学习中特征相关性分析方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910719769.1A CN110443378B (zh) 2019-08-02 2019-08-02 联邦学习中特征相关性分析方法、装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN110443378A CN110443378A (zh) 2019-11-12
CN110443378B true CN110443378B (zh) 2023-11-03

Family

ID=68433323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910719769.1A Active CN110443378B (zh) 2019-08-02 2019-08-02 联邦学习中特征相关性分析方法、装置及可读存储介质

Country Status (2)

Country Link
CN (1) CN110443378B (zh)
WO (1) WO2021022717A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443378B (zh) * 2019-08-02 2023-11-03 深圳前海微众银行股份有限公司 联邦学习中特征相关性分析方法、装置及可读存储介质
CN111177249B (zh) * 2019-12-10 2022-05-17 浙江大学 一种基于联邦学习思想的多数据源数据可视化方法和装置
CN111079164B (zh) * 2019-12-18 2021-09-07 深圳前海微众银行股份有限公司 特征相关性计算方法、装置、设备及计算机可读存储介质
CN110968886B (zh) * 2019-12-20 2022-12-02 支付宝(杭州)信息技术有限公司 机器学习模型的训练样本的筛选方法及其系统
CN111160572B (zh) * 2020-04-01 2020-07-17 支付宝(杭州)信息技术有限公司 一种基于多标签的联邦学习方法、装置和系统
CN111753319B (zh) * 2020-06-22 2021-06-25 上海富数科技有限公司 基于联邦学习实现数据探索性分析处理的方法
CN112001452B (zh) * 2020-08-27 2021-08-27 深圳前海微众银行股份有限公司 特征选择方法、装置、设备及可读存储介质
CN112396189B (zh) * 2020-11-27 2023-09-01 中国银联股份有限公司 一种多方构建联邦学习模型的方法及装置
CN113239391B (zh) * 2021-07-13 2023-01-10 深圳市洞见智慧科技有限公司 一种无第三方的逻辑回归联邦学习模型训练系统及方法
CN113627086B (zh) * 2021-08-21 2024-03-26 深圳前海微众银行股份有限公司 横向联邦学习建模优化方法、设备、介质及程序产品
CN117034000B (zh) * 2023-03-22 2024-06-25 浙江明日数据智能有限公司 纵向联邦学习的建模方法、装置、存储介质以及电子设备
CN118427583B (zh) * 2024-06-28 2024-09-03 蓝象智联(杭州)科技有限公司 一种用于联邦学习的特征分箱方法及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165683A (zh) * 2018-08-10 2019-01-08 深圳前海微众银行股份有限公司 基于联邦训练的样本预测方法、装置及存储介质
CN109299728A (zh) * 2018-08-10 2019-02-01 深圳前海微众银行股份有限公司 联邦学习方法、系统及可读存储介质
CN110008696A (zh) * 2019-03-29 2019-07-12 武汉大学 一种面向深度联邦学习的用户数据重建攻击方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8126826B2 (en) * 2007-09-21 2012-02-28 Noblis, Inc. Method and system for active learning screening process with dynamic information modeling
CN102694824B (zh) * 2011-03-22 2015-03-11 中国移动通信集团公司 一种用户数据存储系统及其数据访问方法
US20180089587A1 (en) * 2016-09-26 2018-03-29 Google Inc. Systems and Methods for Communication Efficient Distributed Mean Estimation
CN107256411A (zh) * 2017-05-27 2017-10-17 南京师范大学 特征选择和标记相关性联合学习的多标记数据分类方法
US11823067B2 (en) * 2017-06-27 2023-11-21 Hcl Technologies Limited System and method for tuning and deploying an analytical model over a target eco-system
CN109657055A (zh) * 2018-11-09 2019-04-19 中山大学 基于层次混合网络的标题党文章检测方法及联邦学习策略
CN110443378B (zh) * 2019-08-02 2023-11-03 深圳前海微众银行股份有限公司 联邦学习中特征相关性分析方法、装置及可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165683A (zh) * 2018-08-10 2019-01-08 深圳前海微众银行股份有限公司 基于联邦训练的样本预测方法、装置及存储介质
CN109299728A (zh) * 2018-08-10 2019-02-01 深圳前海微众银行股份有限公司 联邦学习方法、系统及可读存储介质
CN110008696A (zh) * 2019-03-29 2019-07-12 武汉大学 一种面向深度联邦学习的用户数据重建攻击方法

Also Published As

Publication number Publication date
WO2021022717A1 (zh) 2021-02-11
CN110443378A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN110443378B (zh) 联邦学习中特征相关性分析方法、装置及可读存储介质
CN109886417B (zh) 基于联邦学习的模型参数训练方法、装置、设备及介质
CN111159773B (zh) 保护数据隐私的图片分类方法及装置
WO2018151552A1 (en) Apparatus and method for generating ciphertext data with maintained structure for analytics capability
JP7095140B2 (ja) 特徴抽出に基くマルチモデルトレーニング方法及び装置、電子機器と媒体
CN111340247B (zh) 纵向联邦学习系统优化方法、设备及可读存储介质
CN108521326B (zh) 一种基于向量同态加密的隐私保护的线性svm模型训练方法
CN111428887B (zh) 一种基于多个计算节点的模型训练控制方法、装置及系统
CN110807528A (zh) 特征相关性计算方法、设备及计算机可读存储介质
CN104601596A (zh) 一种分类数据挖掘系统中数据隐私保护方法
CN112199706B (zh) 基于多方安全计算的树模型的训练方法和业务预测方法
US20240119714A1 (en) Image recognition model training method and apparatus
CN111079164B (zh) 特征相关性计算方法、装置、设备及计算机可读存储介质
CN111191267A (zh) 一种模型数据的处理方法、装置及设备
CN113946858B (zh) 一种基于数据隐私计算的身份安全认证方法及系统
CN111523679A (zh) 特征分箱方法、设备及可读存储介质
CN111490995A (zh) 保护隐私的模型训练方法和装置、数据处理方法、服务器
CN112380404B (zh) 数据过滤方法、装置及系统
He et al. Cryptoeyes: Privacy preserving classification over encrypted images
CN112597379A (zh) 数据识别方法、装置和存储介质及电子装置
CN116956350A (zh) 人脸认证方法、装置、终端设备以及存储介质
CN111416702A (zh) 数据传输方法及数据传输系统、计算机可读存储介质
KR20150115762A (ko) 호기심 많은 추천자로부터의 프라이버시 보호
CN111984932B (zh) 两方数据分组统计方法、装置及系统
CN114943073B (zh) 加密流量的通用对称加密协议脱壳方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant