CN112836767A - 联邦建模方法、装置、设备、存储介质及程序产品 - Google Patents

联邦建模方法、装置、设备、存储介质及程序产品 Download PDF

Info

Publication number
CN112836767A
CN112836767A CN202110239086.3A CN202110239086A CN112836767A CN 112836767 A CN112836767 A CN 112836767A CN 202110239086 A CN202110239086 A CN 202110239086A CN 112836767 A CN112836767 A CN 112836767A
Authority
CN
China
Prior art keywords
local
data
feature
feature matrix
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110239086.3A
Other languages
English (en)
Inventor
张天豫
徐昊天
范力欣
吴锦和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202110239086.3A priority Critical patent/CN112836767A/zh
Publication of CN112836767A publication Critical patent/CN112836767A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种联邦建模方法、装置、设备、存储介质及程序产品,该方法包括:本地特征矩阵中存在特征缺失,则构建标准特征矩阵;基于标准特征矩阵对本地特征矩阵进行特征填充,以获得目标特征矩阵;基于目标特征矩阵,通过执行预设纵向联邦流程对预设待训练本地模型进行迭代训练,得到目标联邦模型,本发明利用标准特征矩阵对特征缺失的本地特征矩阵进行特征填充,克服了现有技术中在特征缺失时进行缺失特征处理后数据量减少或填充值与实际值偏差过大而导致联邦建模效果不好的技术问题,利用特征数据本身进行特征填充的数据更贴合真实情况,由此可获得效果更好的联邦模型,进而提高了待预测用户的操作行为的预测结果的准确率。

Description

联邦建模方法、装置、设备、存储介质及程序产品
技术领域
本发明涉及联邦学习技术领域,尤其涉及一种联邦建模方法、装置、设备、存储介质及程序产品。
背景技术
当前,在很多场景下都涉及对用户操作行为进行预测,例如,服务平台通常会根据用户的产品浏览数据及历史产品下单数据等预测用户的消费行为等进而向用户进行商品的推荐或推送,或音乐平台根据用户的历史歌单等预测用户的歌单搜索行为等进而向用户进行歌单的推荐或推送,相应地,服务平台通常利用机器学习模型来预测用户操作行为。
目前为了保障用户数据隐私,多数通过使用联邦学习模型来预测用户操作行为,然而目前纵向联邦学习场景中有时需要联邦的另一方会存在较多的特征缺失数据的情况,因此由于部分数据缺少特征导致联邦建模过程无法完成,目前现有技术中大多采用直接剔除特征矩阵中缺失值很多的行或列,或者采用建立一个统计模型或者回归模型,然后预测缺失的值,然而采用直接剔除方法会造成特征数据量减少,而基于模型预测的方法过于复杂,且若模型的精度不高时,可能会导致预测值与实际值偏差过大,进而导致最终构建的联邦模型效果不好,从而造成预测结果不准确的技术问题。
发明内容
本发明提供一种联邦建模方法、装置、设备、存储介质及程序产品,旨在解决目前现有技术中进行纵向联邦学习时在特征缺失时进行缺失特征处理后数据量减少或填充值与实际值偏差过大而导致联邦建模效果不好,从而造成预测结果不准确的技术问题的技术问题。
为实现上述目的,本发明提供一种联邦建模方法,应用于纵向联邦中的参与方,所述联邦建模方法包括:
获取本地数据,并根据所述本地数据构建本地特征矩阵;
若所述本地特征矩阵中存在特征缺失,则构建标准特征矩阵,其中,所述标准特征矩阵由完整的特征数据构成;
基于所述标准特征矩阵对所述本地特征矩阵进行特征填充,以获得目标特征矩阵;
基于所述目标特征矩阵,通过执行预设纵向联邦流程对预设待训练本地模型进行迭代训练,得到满足预设性能要求的目标联邦模型,并通过所述目标联邦模型获取待预测用户的操作行为。
优选地,所述基于所述标准特征矩阵对所述本地特征矩阵进行特征填充,以获得目标特征矩阵的步骤包括:
计算所述本地特征矩阵与标准特征矩阵之间的矩阵误差;
基于所述矩阵误差对所述本地特征矩阵进行特征填充,以获得目标特征矩阵。
优选地,所述基于所述矩阵误差对所述本地特征矩阵进行特征填充,以获得目标特征矩阵的步骤包括:
通过梯度下降的方式更新所述本地特征矩阵的缺失特征,直至所述矩阵误差的范数收敛或达到预设迭代轮次,以获得目标特征矩阵。
优选地,所述通过梯度下降的方式更新所述本地特征矩阵的参数的步骤包括:
将所述本地特征矩阵分解成第一子特征矩阵与第二子特征矩阵;
确定所述第一子特征矩阵对应第一梯度及所述第二子特征矩阵对应第二梯度,并基于所述第一梯度及所述第二梯度的负梯度方向更新所述本地特征矩阵的缺失特征。
优选地,所述获取本地数据,并根据所述本地数据构建本地特征矩阵的步骤包括:
获取本地数据,其中,所述本地数据中包括本地样本id数据及各本地样本id数据对应的本地样本特征数据;
将所述本地样本id数据发送至预设协调方,以供所述预设协调方联合其他参与方确定共用样本id数据,并反馈所述共用样本id数据;
基于所述共用样本id数据更新本地样本特征数据,以获取共用样本id数据对应的本地样本特征数据;
基于所述共用样本id数据及所述共用样本id数据对应的本地样本特征数据构建本地特征矩阵。
优选地,所述将所述本地样本id数据发送至预设协调方,以供所述预设协调方联合其他参与方确定共用样本id数据的步骤包括:
根据预设协调方下发的公钥将所述本地样本id数据加密发送至预设协调方,以供所述预设协调方基于所述公钥匹配的私钥,对所述本地样本id数据解密,并联合其他参与方确定共用样本id数据。
优选地,所述本地特征矩阵中存在特征缺失的判定步骤包括:
调用预设特征矩阵处理函数对所述本地特征矩阵进行处理,以获得表征所述本地特征矩阵的特征缺失结果的表格,其中,所述表格中的变量由0和1组成,所述0表示未缺失特征数据,1表示缺失特征数据;
若所述表格中的变量1的数量超出预设数量阈值,则判定所述本地特征矩阵中存在特征缺失。
此外,为实现上述目的,本发明还提供一种联邦建模装置,所述联邦建模装置包括:
获取模块,用于获取本地数据,并根据所述本地数据构建本地特征矩阵;
构建模块,用于若所述本地特征矩阵中存在特征缺失,则构建标准特征矩阵,其中,所述标准特征矩阵由完整的特征数据构成;
填充模块,用于基于所述标准特征矩阵对所述本地特征矩阵进行特征填充,以获得目标特征矩阵;
训练模块,用于基于所述目标特征矩阵,通过执行预设纵向联邦流程对预设待训练本地模型进行迭代训练,得到满足预设性能要求的目标联邦模型,并通过所述目标联邦模型获取待预测用户的操作行为。
此外,为实现上述目的,本发明还提供一种联邦建模设备,所述联邦建模设备包括处理器,存储器以及存储在所述存储器中的联邦建模程序,所述联邦建模程序被所述处理器运行时,实现如上所述的联邦建模方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机存储介质,所述计算机存储介质上存储有联邦建模程序,所述联邦建模程序被处理器运行时实现如上所述联邦建模方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器运行时实现如上所述联邦建模方法的步骤。
相比现有技术,本发明提供了一种联邦建模方法,通过获取本地数据,并根据所述本地数据构建本地特征矩阵;若所述本地特征矩阵中存在特征缺失,则构建标准特征矩阵,其中,所述标准特征矩阵由完整的特征数据构成;基于所述标准特征矩阵对所述本地特征矩阵进行特征填充,以获得目标特征矩阵;基于所述目标特征矩阵,通过执行预设纵向联邦流程对预设待训练本地模型进行迭代训练,得到满足预设性能要求的目标联邦模型,并通过所述目标联邦模型获取待预测用户的操作行为,由此,与现有技术中采用直接剔除特征缺失数据或者预测特征缺失数据来完成联邦建模的方法相比,本发明采用利用标准特征矩阵对特征缺失的本地特征矩阵进行特征填充来完成联邦建模,克服了现有技术中在特征缺失时进行缺失特征处理后数据量减少或填充值与实际值偏差过大而导致最终构建的联邦模型效果不好的技术问题,且利用特征数据本身进行特征填充的数据更贴合真实情况,由此可获得效果更好的联邦模型,进而提高了待预测用户的操作行为的预测结果的准确率。
附图说明
图1是本发明各实施例涉及的联邦建模设备的硬件结构示意图;
图2是本发明联邦建模方法第一实施例的流程示意图;
图3是本发明联邦建模方法第二实施例的流程示意图;
图4是本发明联邦建模装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例主要涉及的联邦建模设备是指能够实现网络连接的网络连接设备,所述联邦建模设备可以是服务器、云平台等。
参照图1,图1是本发明各实施例涉及的联邦建模设备的硬件结构示意图。本发明实施例中,联邦建模设备可以包括处理器1001(例如中央处理器Central ProcessingUnit、CPU),通信总线1002,输入端口1003,输出端口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;输入端口1003用于数据输入;输出端口1004用于数据输出,存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图1中示出的硬件结构并不构成对本发明的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种可读存储介质的存储器1005可以包括操作系统、网络通信模块、应用程序模块以及联邦建模程序。在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001可以调用存储器1005中存储的联邦建模程序,并执行如下操作:
获取本地数据,并根据所述本地数据构建本地特征矩阵;
若所述本地特征矩阵中存在特征缺失,则构建标准特征矩阵,其中,所述标准特征矩阵由完整的特征数据构成;
基于所述标准特征矩阵对所述本地特征矩阵进行特征填充,以获得目标特征矩阵;
基于所述目标特征矩阵,通过执行预设纵向联邦流程对预设待训练本地模型进行迭代训练,得到满足预设性能要求的目标联邦模型,并通过所述目标联邦模型获取待预测用户的操作行为。
进一步地,处理器1001还可以用于调用存储器1005中存储的联邦建模程序,并执行以下步骤:
计算所述本地特征矩阵与标准特征矩阵之间的矩阵误差;
基于所述矩阵误差对所述本地特征矩阵进行特征填充,以获得目标特征矩阵。
进一步地,处理器1001还可以用于调用存储器1005中存储的联邦建模程序,并执行以下步骤:
通过梯度下降的方式更新所述本地特征矩阵的缺失特征,直至所述矩阵误差的范数收敛或达到预设迭代轮次,以获得目标特征矩阵。
进一步地,处理器1001还可以用于调用存储器1005中存储的联邦建模程序,并执行以下步骤:
将所述本地特征矩阵分解成第一子特征矩阵与第二子特征矩阵;
确定所述第一子特征矩阵对应第一梯度及所述第二子特征矩阵对应第二梯度,并基于所述第一梯度及所述第二梯度的负梯度方向更新所述本地特征矩阵的缺失特征。
进一步地,处理器1001还可以用于调用存储器1005中存储的联邦建模程序,并执行以下步骤:
获取本地数据,其中,所述本地数据中包括本地样本id数据及各本地样本id数据对应的本地样本特征数据;
将所述本地样本id数据发送至预设协调方,以供所述预设协调方联合其他参与方确定共用样本id数据,并反馈所述共用样本id数据;
基于所述共用样本id数据更新本地样本特征数据,以获取共用样本id数据对应的本地样本特征数据;
基于所述共用样本id数据及所述共用样本id数据对应的本地样本特征数据构建本地特征矩阵。
进一步地,处理器1001还可以用于调用存储器1005中存储的联邦建模程序,并执行以下步骤:
根据预设协调方下发的公钥将所述本地样本id数据加密发送至预设协调方,以供所述预设协调方基于所述公钥匹配的私钥,对所述本地样本id数据解密,并联合其他参与方确定共用样本id数据。
进一步地,处理器1001还可以用于调用存储器1005中存储的联邦建模程序,并执行以下步骤:
调用预设特征矩阵处理函数对所述本地特征矩阵进行处理,以获得表征所述本地特征矩阵的特征缺失结果的表格,其中,所述表格中的变量由0和1组成,所述0表示未缺失特征数据,1表示缺失特征数据;
若所述表格中的变量1的数量超出预设数量阈值,则判定所述本地特征矩阵中存在特征缺失。
基于图1所示的硬件结构,本发明第一实施例提供了一种联邦建模方法。
参照图2,图2为本发明联邦建模方法第一实施例的流程示意图。
本发明实施例提供了联邦建模方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。具体地,本实施例联邦建模方法包括:
步骤S10:获取本地数据,并根据所述本地数据构建本地特征矩阵;
需要说明的是,目前纵向联邦学习场景中有时需要联邦的另一方存在较多的特征缺失数据,因此由于部分数据缺少特征导致联邦建模过程无法完成,目前现有技术中大多采用直接剔除特征矩阵中缺失值很多的行或列,或者采用建立一个统计模型或者回归模型,然后预测缺失的值,然而采用直接剔除方法会造成特征数据量减少,而基于模型预测的方法过于复杂,且若模型的精度不高时,可能会导致预测值与实际值偏差过大,进而导致最终构建的联邦模型效果不好,因此,本实施例中,为了解决上述问题,提出了一种联邦建模方法。
容易理解的,上述本地数据问本发明提出的联邦建模方法应用的纵向联邦中的参与方端的数据,例如,参与纵向联邦学习的医院方a的医生数量、医生资质、医疗设备数量、医疗设备标准、病患的病症信息、诊疗信息和治愈信息等医院中的医疗数据,或者参与纵向联邦学习的影院方a的电影的类型信息、消费者信息、消费者对电影的评分信息等。
进一步地,获取本地数据之后,需对本地数据进行预处理,例如当用户基于语音形式或文字形式间接输出对一场电影的观后感,而没有直接输出具体的评分分值时,需要将其转换成能用于联邦建模的具体评分分值数据,例如利用NLP手段及文字情感分析等手段将基于语音形式或文字形式间接输出的观后感转化为具体的评分分值,或者当本地数据中存在重复数据时,删除重复数据等。
此外,应当理解的是,在纵向联邦学习过程中,由于各个参与方之间的参与者样本id重叠较多,而数据特征重叠较少,因此在获取本地数据之后,需要与当前参与纵向联邦学习的其他参与方确定共同样本id后,在根据本地数据构建共同样本id对应的本地特征矩阵。
此外,为了便于理解,本实施例给出一种获取本地数据,并根据所述本地数据构建本地特征矩阵的具体实现方案,具体如下:
获取本地数据,其中,所述本地数据中包括本地样本id数据及各本地样本id数据对应的本地样本特征数据;
将所述本地样本id数据发送至预设协调方,以供所述预设协调方联合其他参与方确定共用样本id数据,并反馈所述共用样本id数据;
基于所述共用样本id数据更新本地样本特征数据,以获取共用样本id数据对应的本地样本特征数据;
基于所述共用样本id数据及所述共用样本id数据对应的本地样本特征数据构建本地特征矩阵。
具体而言,本实施例中,预设协调方可以是当前参与纵向联邦学习中发送联邦请求的参与方,还可以是第三方服务器等,本实施例对此不作限制,具体地,在参与方a获取本地样本id数据及各本地样本id数据对应的本地样本特征数据之后,将本地样本id数据发送至预设协调方,其中,预设协调方在接收到该参与方发送的本地样本id数据之后,可选地,获取其他参与方发送的其他各本地样本id数据,并对上述这些本地样本id数据进行求交处理,以确定共用样本id数据,或者预设协调方在接收到该参与方发送的本地样本id数据之后,发送携带有该本地样本id数据的求交请求至其他各参与方,以供其他各参与方在安全联邦网络中进行样本求交处理,进而获得共用样本id数据,并将该共用样本id数据反馈至预设协调方,以通过预设协调方将共用样本id数据反馈至参与方a。
此外,在一些实施例中,为了提高彼此之间的数据安全性,给出一种将所述本地样本id数据发送至预设协调方,以供所述预设协调方联合其他参与方确定共用样本id数据的具体实现方案,具体如下:
根据预设协调方下发的公钥将所述本地样本id数据加密发送至预设协调方,以供所述预设协调方基于所述公钥匹配的私钥,对所述本地样本id数据解密,并联合其他参与方确定共用样本id数据。
该步骤中,需要说明的是,上述公钥及私钥可为预设协调方生成或当前参与联邦学习中的任意一参与方生成的,还可由管理当前纵向联邦学习的第三方系统生成,例如第三方系统产生一个公钥pk和私钥sk,将公钥pk作为预设公钥,并将私钥sk作为与预设公钥匹配的私钥。将公钥pk发送到各参与方,并将私钥sk发送到预设协调方,因此在参与方a获取本地样本id数据及各本地样本id数据对应的本地样本特征数据之后,将本地样本id数据基于公钥一并加密发送至预设协调方,其中,预设协调方基于该公钥匹配的私钥,对本地样本id数据解密,并联合其他参与方确定共用样本id数据。
此外,在一些实施例中,还可基于SM2椭圆曲线公钥密码算法确定多个参与方对应的目标椭圆曲线,并从目标椭圆曲线上随机选取一个目标生成元G,接着各参与设备选定各自的公钥gi,进而计算出私钥μ=∑gi/G*,并将私钥μ发送至预设协调方,以进行数据加密解密。
步骤S20:若所述本地特征矩阵中存在特征缺失,则构建标准特征矩阵,其中,所述标准特征矩阵由完整的特征数据构成;
该步骤中,当检测出本地特征矩阵中存在空缺元素时,或者矩阵中的元素与其他相邻元素之间的值差异过大时,判定本地特征矩阵中存在特征缺失,则在本地特征矩阵中存在特征缺失时,可选地,从数据库中获取未缺失特征的数据,并构建相应的标准特征矩阵,应当理解地,标准特征矩阵中的特征数据与本地特征矩阵的特征数据不同,且标准特征矩阵的矩阵行与矩阵列与本地特征矩阵的矩阵行与矩阵列一致,由此可利用标准特征矩阵对本地特征矩阵进行特征填充。
此外,为了便于理解,本实施例给出一种获取本地数据,并本地特征矩阵中存在特征缺失的判定步骤的具体实现方案,具体如下:
调用预设特征矩阵处理函数对所述本地特征矩阵进行处理,以获得表征所述本地特征矩阵的特征缺失结果的表格,其中,所述表格中的变量由0和1组成,所述0表示未缺失特征数据,1表示缺失特征数据;
若所述表格中的变量1的数量超出预设数量阈值,则判定所述本地特征矩阵中存在特征缺失。
本实施例中,上述预设特征矩阵处理函数指代可解析出本地特征矩阵中的缺失特征情况的函数,例如采用调用md.pattern函数解析本地特征矩阵中的缺失特征情况,具体地,调用md.pattern函数遍历矩阵中的各元素,当各元素对应位置处存在特征数据时,输出相应的元素0,当各元素对应位置处不存在特征数据时,输出相应的元素1,由此获得由元素1及元素0组成的表格。
具体而言,预设数量阈值为根据多次联邦学习后得出的对联邦学习结果存在影响的某一特定值,本实施例中,在获得由元素1及元素0组成的表格之后,接着判断表格中的变量0的数量是否超出预设数量阈值,当超出该预设数量阈值时,表明当前本地数据无法完成联邦建模过程,因此判定本地特征矩阵中存在特征缺失,即需要对本地特征矩阵进行特征填充。
步骤S30:基于所述标准特征矩阵对所述本地特征矩阵进行特征填充,以获得目标特征矩阵;
步骤S40:基于所述目标特征矩阵,通过执行预设纵向联邦流程对预设待训练本地模型进行迭代训练,得到满足预设性能要求的目标联邦模型,并通过所述目标联邦模型获取待预测用户的操作行为。
具体而言,本实施例中,基于梯度下降的方法利用标准特征矩阵对本地特征矩阵进行特征填充,来获得目标特征矩阵,例如,计算出本地特征矩阵中缺失特征与标准特征矩阵中对应位置处的未缺失特征之间的损失函数,接着通过梯度下降的方法更新本地特征矩阵中的缺失特征,直至损失函数收敛或者达到预设迭代轮次,由此获得贴合真实情况的目标特征矩阵,进而利用目标特征矩阵执行预设纵向联邦流程对预设待训练本地模型进行迭代训练,得到满足预设性能要求的目标联邦模型,其中,需要说明的是本实施例中的预设纵向联邦流程及预设待训练本地模型均为用户自定义设置的联邦流程和本地模型,例如基于目标特征矩阵,对所述预设待训练预测模型进行迭代训练,以迭代训练更新预设待训练预测模型的模型变量,直至达到预设迭代次数或者收敛条件,以得到满足预设性能要求的目标联邦模型,其中,预设性能要求包括预设性能指数要求,例如联邦模型的准确度、灵敏度、召回率、基尼系数、增益等可表征联邦模型好坏的指数,即可通过检测联邦模型是否达到上述预设性能指数要求来确定联邦模型好坏,此外预设性能要求还可包括预设参与方数量要求及预设性能提升程度等,容易理解地,当参与联邦聚合该联邦模型的参与方数量过少时,表明该数据特征较少,因此会导致最终获得的联邦模型效果不好,而上述性能提升程度指代联邦模型与本地模型之间的性能指数差异,例如联邦模型与本地模型之间的灵敏度差异,可以理解地,当联邦模型与本地模型之间的灵敏度差异过小时,则表明联邦模型与本地模型之间基本相同,因此该联邦模型未达到参与联邦训练的目地。
此外应当理解地,本实施例中是利用标准特征矩阵对本地数据对应的本地特征矩阵进行特征填充,因此相比于现有技术中采用直接剔除特征矩阵中缺失值很多的行或列,或者采用建立一个统计模型或者回归模型,然后预测缺失的值而导致特征数据量减少或由于模型精度不高导致预测值与实际值偏差过大,进而导致最终构建的联邦模型效果不好的技术问题,本实施例中通过利用特征数据本身进行特征填充的数据更贴合真实情况,由此可获得效果更好的联邦模型,因此在通过目标联邦模型获取待预测用户的操作行为时,也进一步提高了待预测用户的操作行为的预测结果的准确率。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限制,本领域的技术人员在实际应用中可以基于需要进行设置,此处不再一一列举。
相较于现有的采用直接剔除特征缺失数据或者预测特征缺失数据来完成联邦建模的方法相比,本实施例中通过获取本地数据,并根据所述本地数据构建本地特征矩阵;若所述本地特征矩阵中存在特征缺失,则构建标准特征矩阵,其中,所述标准特征矩阵由完整的特征数据构成;基于所述标准特征矩阵对所述本地特征矩阵进行特征填充,以获得目标特征矩阵;基于所述目标特征矩阵,通过执行预设纵向联邦流程对预设待训练本地模型进行迭代训练,得到目标联邦模型,克服了现有技术中在特征缺失时进行缺失特征处理后数据量减少或填充值与实际值偏差过大而导致最终构建的联邦模型效果不好的技术问题,且利用特征数据本身进行特征填充的数据更贴合真实情况,由此可获得效果更好的联邦模型。
进一步地,基于本发明联邦建模方法的第一实施例,提出本发明联邦建模方法第二实施例。
参照图3,图3为本发明联邦建模方法第二实施例的流程示意图;
所述联邦建模方法第二实施例与所述联邦建模方法第一实施例的区别在于,基于所述标准特征矩阵对所述本地特征矩阵进行特征填充,以获得目标特征矩阵的步骤包括:
步骤S301:计算所述本地特征矩阵与标准特征矩阵之间的矩阵误差;
步骤S302:基于所述矩阵误差对所述本地特征矩阵进行特征填充,以获得目标特征矩阵。
具体而言,本实施例中,矩阵误差的计算公式为:J=||X-X’||2 F,其中,X为标准特征矩阵,X’为本地特征矩阵,F表示弗罗贝尼乌斯范数,容易理解地,当使这两个矩阵之差的范数最小时,即可让本地特征矩阵更加接近标准特征矩阵,其填充的特征数据也更符合数据集的特征,因此本实施例中,利用矩阵误差对本地特征矩阵进行特征填充,以获得更符合数据集的特征的目标特征矩阵。
为了便于理解,本实施例给出一种基于所述矩阵误差对所述本地特征矩阵进行特征填充,以获得目标特征矩阵的具体实现方案,具体如下:
通过梯度下降的方式更新所述本地特征矩阵的缺失特征,直至所述矩阵误差的范数收敛或达到预设迭代轮次,以获得目标特征矩阵。
该步骤中,通过梯度下降的方式更新本地特征矩阵的缺失特征,直至矩阵误差的范数收敛或达到预设迭代轮次。
具体地,将所述本地特征矩阵分解成第一子特征矩阵与第二子特征矩阵;
确定所述第一子特征矩阵对应第一梯度及所述第二子特征矩阵对应第二梯度,并基于所述第一梯度及所述第二梯度的负梯度方向更新所述本地特征矩阵的缺失特征。
本实施例中,对本地特征矩阵X’进行降维处理,将本地特征矩阵X’分解成第一子特征矩阵U与第二子特征矩阵V,具体地,通过引入一参数l将本地特征矩阵X’(i,j)分解成第一子特征矩阵U(i,l)与第二子特征矩阵V(j,l),因此
Figure BDA0002960342280000121
接着确定出第一子特征矩阵U(i,l)对应第一梯度与第二子特征矩阵V(j,l)对应第二梯度,具体地,
第一梯度为
Figure BDA0002960342280000122
第一梯度为
Figure BDA0002960342280000123
在确定出第一子特征矩阵U(i,l)对应第一梯度与第二子特征矩阵V(j,l)对应第二梯度之后,通过基于第一梯度与第二梯度的负梯度方向更新第一子特征矩阵U(i,l)中缺失的i与第二子特征矩阵V(j,l)中缺失的j,直至矩阵误差的范数收敛或达到预设迭代轮次,由此通过利用标准特征矩阵中的特征数据本身对本地特征矩阵中缺失的i及j进行填充,使得填充的特征数据i及j更贴合真实情况,进而获得效果更好的联邦模型。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限制,本领域的技术人员在实际应用中可以基于需要进行设置,此处不再一一列举。
相较于现有的采用直接剔除特征缺失数据或者预测特征缺失数据来完成联邦建模的方法相比,本实施例通过计算本地特征矩阵与标准特征矩阵之间的矩阵误差;基于矩阵误差对本地特征矩阵进行特征填充,以获得目标特征矩阵,利用特征数据本身进行特征填充的数据更贴合真实情况,由此可获得效果更好的联邦模型。
此外,本实施例还提供一种联邦建模装置。参照图4,图4为本发明联邦建模装置第一实施例的功能模块示意图。
本实施例中,所述联邦建模装置为虚拟装置,存储于图1所示的联邦建模设备的存储器1005中,以实现联邦建模程序的所有功能:用于获取本地数据,并根据所述本地数据构建本地特征矩阵;用于若所述本地特征矩阵中存在特征缺失,则构建标准特征矩阵,其中,所述标准特征矩阵由完整的特征数据构成;用于基于所述标准特征矩阵对所述本地特征矩阵进行特征填充,以获得目标特征矩阵;用于基于所述目标特征矩阵,通过执行预设纵向联邦流程对预设待训练本地模型进行迭代训练,得到目标联邦模型。
具体地,参照图4,所述联邦建模装置包括:
获取模块10,用于获取本地数据,并根据所述本地数据构建本地特征矩阵;
构建模块20,用于若所述本地特征矩阵中存在特征缺失,则构建标准特征矩阵,其中,所述标准特征矩阵由完整的特征数据构成;
填充模块30,用于基于所述标准特征矩阵对所述本地特征矩阵进行特征填充,以获得目标特征矩阵;
训练模块40,用于基于所述目标特征矩阵,通过执行预设纵向联邦流程对预设待训练本地模型进行迭代训练,得到目标联邦模型。
本实施例提供的联邦建模装置,通过获取本地数据,并根据所述本地数据构建本地特征矩阵;若所述本地特征矩阵中存在特征缺失,则构建标准特征矩阵,其中,所述标准特征矩阵由完整的特征数据构成;基于所述标准特征矩阵对所述本地特征矩阵进行特征填充,以获得目标特征矩阵;基于所述目标特征矩阵,通过执行预设纵向联邦流程对预设待训练本地模型进行迭代训练,得到目标联邦模型,由此,与现有技术中采用直接剔除特征缺失数据或者预测特征缺失数据来完成联邦建模的方法相比,本发明采用利用标准特征矩阵对特征缺失的本地特征矩阵进行特征填充来完成联邦建模,克服了现有技术中在特征缺失时进行缺失特征处理后数据量减少或填充值与实际值偏差过大而导致最终构建的联邦模型效果不好的技术问题,且利用特征数据本身进行特征填充的数据更贴合真实情况,由此可获得效果更好的联邦模型。
此外,本发明实施例还提供一种计算机存储介质,所述计算机存储介质上存储有联邦建模程序,所述联邦建模程序被处理器运行时实现如上所述联邦建模方法的步骤,此处不再赘述。
此外,本发明实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器运行时实现如上所述联邦建模方法的步骤,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备执行本发明各个实施例所述的方法。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (11)

1.一种联邦建模方法,其特征在于,应用于纵向联邦中的参与方,所述联邦建模方法包括:
获取本地数据,并根据所述本地数据构建本地特征矩阵;
若所述本地特征矩阵中存在特征缺失,则构建标准特征矩阵,其中,所述标准特征矩阵由完整的特征数据构成;
基于所述标准特征矩阵对所述本地特征矩阵进行特征填充,以获得目标特征矩阵;
基于所述目标特征矩阵,通过执行预设纵向联邦流程对预设待训练本地模型进行迭代训练,得到满足预设性能要求的目标联邦模型,并通过所述目标联邦模型获取待预测用户的操作行为。
2.根据权利要求1所述的联邦建模方法,其特征在于,所述基于所述标准特征矩阵对所述本地特征矩阵进行特征填充,以获得目标特征矩阵的步骤包括:
计算所述本地特征矩阵与标准特征矩阵之间的矩阵误差;
基于所述矩阵误差对所述本地特征矩阵进行特征填充,以获得目标特征矩阵。
3.根据权利要求2所述的联邦建模方法,其特征在于,所述基于所述矩阵误差对所述本地特征矩阵进行特征填充,以获得目标特征矩阵的步骤包括:
通过梯度下降的方式更新所述本地特征矩阵的缺失特征,直至所述矩阵误差的范数收敛或达到预设迭代轮次,以获得目标特征矩阵。
4.根据权利要求3所述的联邦建模方法,其特征在于,所述通过梯度下降的方式更新所述本地特征矩阵的缺失特征的步骤包括:
将所述本地特征矩阵分解成第一子特征矩阵与第二子特征矩阵;
确定所述第一子特征矩阵对应第一梯度及所述第二子特征矩阵对应第二梯度,并基于所述第一梯度及所述第二梯度的负梯度方向更新所述本地特征矩阵的缺失特征。
5.根据权利要求1所述的联邦建模方法,其特征在于,所述获取本地数据,并根据所述本地数据构建本地特征矩阵的步骤包括:
获取本地数据,其中,所述本地数据中包括本地样本id数据及各本地样本id数据对应的本地样本特征数据;
将所述本地样本id数据发送至预设协调方,以供所述预设协调方联合其他参与方确定共用样本id数据,并反馈所述共用样本id数据;
基于所述共用样本id数据更新本地样本特征数据,以获取共用样本id数据对应的本地样本特征数据;
基于所述共用样本id数据及所述共用样本id数据对应的本地样本特征数据构建本地特征矩阵。
6.根据权利要求5所述的联邦建模方法,其特征在于,所述将所述本地样本id数据发送至预设协调方,以供所述预设协调方联合其他参与方确定共用样本id数据的步骤包括:
根据预设协调方下发的公钥将所述本地样本id数据加密发送至预设协调方,以供所述预设协调方基于所述公钥匹配的私钥,对所述本地样本id数据解密,并联合其他参与方确定共用样本id数据。
7.根据权利要求1至6任一项所述的联邦建模方法,其特征在于,所述本地特征矩阵中存在特征缺失的判定步骤包括:
调用预设特征矩阵处理函数对所述本地特征矩阵进行处理,以获得表征所述本地特征矩阵的特征缺失结果的表格,其中,所述表格中的变量由0和1组成,所述0表示未缺失特征数据,1表示缺失特征数据;
若所述表格中的变量1的数量超出预设数量阈值,则判定所述本地特征矩阵中存在特征缺失。
8.一种联邦建模装置,其特征在于,所述联邦建模装置包括:
获取模块,用于获取本地数据,并根据所述本地数据构建本地特征矩阵;
构建模块,用于若所述本地特征矩阵中存在特征缺失,则构建标准特征矩阵,其中,所述标准特征矩阵由完整的特征数据构成;
填充模块,用于基于所述标准特征矩阵对所述本地特征矩阵进行特征填充,以获得目标特征矩阵;
训练模块,用于基于所述目标特征矩阵,通过执行预设纵向联邦流程对预设待训练本地模型进行迭代训练,得到满足预设性能要求的目标联邦模型,并通过所述目标联邦模型获取待预测用户的操作行为。
9.一种联邦建模设备,其特征在于,所述联邦建模设备包括处理器,存储器以及存储在所述存储器中的联邦建模程序,所述联邦建模程序被所述处理器运行时,实现如权利要求1-7中任一项所述的联邦建模方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有联邦建模程序,所述联邦建模程序被处理器运行时实现如权利要求1-7中任一项所述联邦建模方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器运行时实现如权利要求1-7中任一项所述联邦建模方法的步骤。
CN202110239086.3A 2021-03-03 2021-03-03 联邦建模方法、装置、设备、存储介质及程序产品 Pending CN112836767A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110239086.3A CN112836767A (zh) 2021-03-03 2021-03-03 联邦建模方法、装置、设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110239086.3A CN112836767A (zh) 2021-03-03 2021-03-03 联邦建模方法、装置、设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN112836767A true CN112836767A (zh) 2021-05-25

Family

ID=75934524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110239086.3A Pending CN112836767A (zh) 2021-03-03 2021-03-03 联邦建模方法、装置、设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN112836767A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807415A (zh) * 2021-08-30 2021-12-17 中国再保险(集团)股份有限公司 联邦特征选择方法、装置、计算机设备和存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492420A (zh) * 2018-12-28 2019-03-19 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、终端、系统及介质
CN109635462A (zh) * 2018-12-17 2019-04-16 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、装置、设备及介质
CN110288094A (zh) * 2019-06-10 2019-09-27 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法及装置
CN110633805A (zh) * 2019-09-26 2019-12-31 深圳前海微众银行股份有限公司 纵向联邦学习系统优化方法、装置、设备及可读存储介质
US10546240B1 (en) * 2018-09-13 2020-01-28 Diveplane Corporation Feature and case importance and confidence for imputation in computer-based reasoning systems
US20200042893A1 (en) * 2017-05-18 2020-02-06 Sas Institute Inc. Analytic system based on multiple task learning with incomplete data
CN110942154A (zh) * 2019-11-22 2020-03-31 深圳前海微众银行股份有限公司 基于联邦学习的数据处理方法、装置、设备及存储介质
CN111445030A (zh) * 2020-03-30 2020-07-24 深圳前海微众银行股份有限公司 基于逐步回归法的联邦建模方法、设备和可读存储介质
US10733515B1 (en) * 2017-02-21 2020-08-04 Amazon Technologies, Inc. Imputing missing values in machine learning models
CN111724174A (zh) * 2020-06-19 2020-09-29 安徽迪科数金科技有限公司 一种应用Xgboost建模的市民信用积分评估方法
CN111797996A (zh) * 2020-07-08 2020-10-20 深圳前海微众银行股份有限公司 样本补全方法、装置、设备及可读存储介质
CN111860868A (zh) * 2020-07-27 2020-10-30 深圳前海微众银行股份有限公司 训练样本构建方法、装置、设备及计算机可读存储介质
CN112052960A (zh) * 2020-09-07 2020-12-08 深圳前海微众银行股份有限公司 纵向联邦建模方法、装置、设备及计算机可读存储介质
CN112085159A (zh) * 2020-07-24 2020-12-15 西安电子科技大学 一种用户标签数据预测系统、方法、装置及电子设备
CN112215238A (zh) * 2020-10-29 2021-01-12 支付宝(杭州)信息技术有限公司 一种通用特征提取模型构建方法、系统及装置
CN112231309A (zh) * 2020-10-14 2021-01-15 深圳前海微众银行股份有限公司 纵向联邦数据统计的去重方法、装置、终端设备及介质

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10733515B1 (en) * 2017-02-21 2020-08-04 Amazon Technologies, Inc. Imputing missing values in machine learning models
US20200042893A1 (en) * 2017-05-18 2020-02-06 Sas Institute Inc. Analytic system based on multiple task learning with incomplete data
US10546240B1 (en) * 2018-09-13 2020-01-28 Diveplane Corporation Feature and case importance and confidence for imputation in computer-based reasoning systems
CN109635462A (zh) * 2018-12-17 2019-04-16 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、装置、设备及介质
CN109492420A (zh) * 2018-12-28 2019-03-19 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、终端、系统及介质
CN110288094A (zh) * 2019-06-10 2019-09-27 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法及装置
CN110633805A (zh) * 2019-09-26 2019-12-31 深圳前海微众银行股份有限公司 纵向联邦学习系统优化方法、装置、设备及可读存储介质
CN110942154A (zh) * 2019-11-22 2020-03-31 深圳前海微众银行股份有限公司 基于联邦学习的数据处理方法、装置、设备及存储介质
CN111445030A (zh) * 2020-03-30 2020-07-24 深圳前海微众银行股份有限公司 基于逐步回归法的联邦建模方法、设备和可读存储介质
CN111724174A (zh) * 2020-06-19 2020-09-29 安徽迪科数金科技有限公司 一种应用Xgboost建模的市民信用积分评估方法
CN111797996A (zh) * 2020-07-08 2020-10-20 深圳前海微众银行股份有限公司 样本补全方法、装置、设备及可读存储介质
CN112085159A (zh) * 2020-07-24 2020-12-15 西安电子科技大学 一种用户标签数据预测系统、方法、装置及电子设备
CN111860868A (zh) * 2020-07-27 2020-10-30 深圳前海微众银行股份有限公司 训练样本构建方法、装置、设备及计算机可读存储介质
CN112052960A (zh) * 2020-09-07 2020-12-08 深圳前海微众银行股份有限公司 纵向联邦建模方法、装置、设备及计算机可读存储介质
CN112231309A (zh) * 2020-10-14 2021-01-15 深圳前海微众银行股份有限公司 纵向联邦数据统计的去重方法、装置、终端设备及介质
CN112215238A (zh) * 2020-10-29 2021-01-12 支付宝(杭州)信息技术有限公司 一种通用特征提取模型构建方法、系统及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CONSTANCE BEGUIER等: "Differentially Private Federated Learning for Cancer Prediction", 《ARXIV》, 8 January 2021 (2021-01-08), pages 1 - 6 *
CRISTIANO GARCIA等: "Incremental Missing-Data Imputation for Evolving Fuzzy Granular Prediction", 《IEEE TRANSACTIONS ON FUZZY SYSTEMS》, vol. 28, no. 10, 31 October 2020 (2020-10-31), pages 2348 - 2362, XP011813447, DOI: 10.1109/TFUZZ.2019.2935688 *
李东城: "分布式环境中一种带有隐私保护的矩阵分解推荐方法", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2021, no. 1, 15 January 2021 (2021-01-15), pages 138 - 114 *
胡尧: "基于改进联邦学习的时序数据趋势跟踪及应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2021, no. 1, 15 January 2021 (2021-01-15), pages 138 - 647 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807415A (zh) * 2021-08-30 2021-12-17 中国再保险(集团)股份有限公司 联邦特征选择方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
US20210409191A1 (en) Secure Machine Learning Analytics Using Homomorphic Encryption
CN109284313B (zh) 基于半监督学习的联邦建模方法、设备及可读存储介质
WO2021092980A1 (zh) 纵向联邦学习优化方法、装置、设备及存储介质
CN113159327B (zh) 基于联邦学习系统的模型训练方法、装置、电子设备
US20230039182A1 (en) Method, apparatus, computer device, storage medium, and program product for processing data
WO2021092977A1 (zh) 纵向联邦学习优化方法、装置、设备及存储介质
CN109214543B (zh) 数据处理方法及装置
CN111340247A (zh) 纵向联邦学习系统优化方法、设备及可读存储介质
CN110110509A (zh) 权限管理方法及相关产品
CN111325352B (zh) 基于纵向联邦学习的模型更新方法、装置、设备及介质
EP4202768A1 (en) Machine learning model training method and related device
CN111553744A (zh) 联邦产品推荐方法、装置、设备及计算机存储介质
CN112231309B (zh) 纵向联邦数据统计的去重方法、装置、终端设备及介质
CN110750520A (zh) 特征数据处理方法、装置、设备及可读存储介质
CN111368196A (zh) 模型参数的更新方法、装置、设备及可读存储介质
CN113268336A (zh) 一种服务的获取方法、装置、设备以及可读介质
CN114417364A (zh) 一种数据加密方法、联邦建模方法、装置及计算机设备
US20180300289A1 (en) Information Determining Method and Apparatus
CN112836767A (zh) 联邦建模方法、装置、设备、存储介质及程序产品
CN109598289B (zh) 跨平台的数据处理方法、装置、设备及可读存储介质
CN111177740A (zh) 数据混淆处理方法、系统及计算机可读介质
CN112801307B (zh) 基于区块链的联邦学习方法、装置和计算机设备
US10037417B1 (en) Transformation of network activity data for user identification
CN112949866A (zh) 泊松回归模型的训练方法、装置、电子设备及存储介质
CN112016698A (zh) 因子分解机模型构建方法、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination