CN110751294A - 联合多方特征数据的模型预测方法、装置、设备及介质 - Google Patents
联合多方特征数据的模型预测方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN110751294A CN110751294A CN201911050891.0A CN201911050891A CN110751294A CN 110751294 A CN110751294 A CN 110751294A CN 201911050891 A CN201911050891 A CN 201911050891A CN 110751294 A CN110751294 A CN 110751294A
- Authority
- CN
- China
- Prior art keywords
- data
- party
- local
- model
- model prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Operations Research (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种联合多方特征数据的模型预测方法、装置、终端设备及计算机可读存储介质,通过获取所述需求方发起的模型预测任务,并确定处理所述模型预测任务所需的多方特征数据;联合需求方和多方特征数据对应的各数据提供方进行线性回归计算,得到需求方和各数据提供方各自的本地计算结果;计算各本地计算结果的范数之和,并在检测到范数之和小于范数阈值时,对各本地计算结果进行优化处理;将优化处理后的本地计算结果反馈至需求方和各数据提供方,以供需求方和各数据提供方进行本地模型参数更新。本发明在确保需求方与多个数据提供方相互之间不泄露各自特征信息的前提下建立模型,并进行有效的模型预测。
Description
技术领域
本发明涉及Fintech(金融科技)技术领域,尤其涉及一种联合多方特征数据的模型预测方法、装置、终端设备及计算机可读存储介质。
背景技术
线性回归模型作为一种基础模型已经在各种场景下得到了广泛的运用。在三方(协调方、需求方和数据提供方)纵向联邦学习的场景中,需求方和数据提供方需要在不泄露各自标签信息和特征信息的前提下进行建模和模型预测。
然而,当存在一个需求方和多个数据提供方时,现有的线性回归模型在训练预测过程中,为确保需求方和各数据提供方相互之间不泄露特征信息,不允许需求方和多个数据提供方之间互传特征信息,从而无法联合需求方和各数据提供方建立线性回归模型进行有效的模型预测。
发明内容
本发明的主要目的在于提供一种联合多方特征数据的模型预测方法、装置、终端设备及计算机可读存储介质,旨在解决如何联合需求方和各数据提供方在不互相泄露特征数据前提下,建立线性回归模型进行有效的模型预测的技术问题。
为实现上述目的,本发明提供一种联合多方特征数据的模型预测方法,所述联合多方特征数据的模型预测方法应用于协调方,所述协调方与需求方和各数据提供方通信连接,所述需求方与各所述数据提供方通信连接,所述联合多方特征数据的模型预测方法,包括:
获取所述需求方发起的模型预测任务,并确定处理所述模型预测任务所需的多方特征数据;
联合所述需求方和多方所述特征数据对应的各数据提供方进行线性回归计算,得到所述需求方和各所述数据提供方各自的本地计算结果;
计算各所述本地计算结果的范数之和,并在检测到所述范数之和小于范数阈值时,对各所述本地计算结果进行优化处理;
将优化处理后的本地计算结果反馈至所述需求方和各所述数据提供方,以供所述需求方和各所述数据提供方进行本地模型参数更新。
进一步地,所述确定处理所述模型预测任务所需的多方特征数据的步骤,包括:
所述协调方提取所述模型预测任务所携带的数据标签;
解析识别所述数据标签的标签信息,根据所述标签信息确定处理所述模型预测任务所需的多方特征数据。
进一步地,在所述确定处理所述模型预测任务所需的多方特征数据的步骤之后,包括:
所述协调方向所述需求方和各所述数据提供方发送公共秘钥,以供所述需求方和各所述数据提供方在进行线性回归计算时进行数据的加密交互。
进一步地,所述联合多方所述特征数据进行计算以得到各本地计算结果的步骤,包括:
所述协调方联合所述需求方和各所述数据提供方初始化本地模型并计算各自的本地中间预测值,其中,所述本地模型至少包括线性回归模型;
协调所述需求方和各所述数据提供方依据所述公共秘钥,对各自的所述本地中间预测值进行加密交互,以计算得出各自线性回归模型的本地计算结果。
进一步地,在所述协调方联合所述需求方和各所述数据提供方初始化本地模型并计算各自的本地中间预测值的步骤之前,还包括:
所述协调方在所述线性回归模型的每一轮训练计算中,协调所述需求方将预设数据量分发至各所述数据提供方,以供各所述数据提供方按照所述预设数据量提供各自的特征数据。
进一步地,所述计算各所述本地计算结果的范数之和的步骤,包括:
所述协调方提取所述需求方和各所述数据提供方各自的本地计算结果;
读取预设私有秘钥对各所述本地计算结果进行解密,并叠加计算解密后的各本地计算结果的范数之和。
进一步地,所述将优化处理后的本地计算结果反馈至所述需求方和各所述数据提供方,以供所述需求方和各所述数据提供方进行本地模型参数更新的步骤,包括:
所述协调方将经过优化处理后的本地计算结果,封装至用以通知所述需求方和各所述数据提供方模型收敛的通知消息中,以供所述需求方和各所述数据提供方依据所述通知消息,提取经过优化处理后的本地计算结果进行本地模型参数更新。
此外,为实现上述目的,本发明还提供一种联合多方特征数据的模型预测装置,所述联合多方特征数据的模型预测装置应用于协调方,所述协调方与需求方和各数据提供方通信连接,所述需求方与各所述数据提供方通信连接,所述联合多方特征数据的模型预测装置,包括:
获取模块,用于获取所述需求方发起的模型预测任务,并确定处理所述模型预测任务所需的多方特征数据;
联合模块,用于联合所述需求方和多方所述特征数据对应的各数据提供方进行线性回归计算,得到所述需求方和各所述数据提供方各自的本地计算结果;
优化模块,用于计算各所述本地计算结果的范数之和,并在检测到所述范数之和小于范数阈值时,对各所述本地计算结果进行优化处理;
更新模块,用于将优化处理后的本地计算结果反馈至所述需求方和各所述数据提供方,以供所述需求方和各所述数据提供方进行本地模型参数更新。
本发明还提供一种终端设备,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的联合多方特征数据的模型预测程序,所述联合多方特征数据的模型预测程序被所述处理器执行时实现如上述中的联合多方特征数据的模型预测方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的联合多方特征数据的模型预测方法的步骤。
本发明提出的联合多方特征数据的模型预测方法、装置、终端设备以及计算机可读存储介质,应用于协调方,协调方与需求方和各数据提供方通信连接,需求方与各数据提供方通信连接,通过获取所述需求方发起的模型预测任务,并确定处理所述模型预测任务所需的多方特征数据;联合所述需求方和多方所述特征数据对应的各数据提供方进行线性回归计算,得到所述需求方和各所述数据提供方各自的本地计算结果;计算各所述本地计算结果的范数之和,并在检测到所述范数之和小于范数阈值时,对各所述本地计算结果进行优化处理;将优化处理后的本地计算结果反馈至所述需求方和各所述数据提供方,以供所述需求方和各所述数据提供方进行本地模型参数更新。本发明由协调方联合需求方和多个数据提供方建立线性回归模型并进行模型预测,由协调方获取需求方所发出的模型预测任务,确定由各数据提供方提供多方特征数据,并联合需求方和各数据提供方根据该多方特征数据在各自的本地模型上进行模型训练计算,从而得到各自的本地计算结果,基于叠加计算各个本地计算结果的范数之和,并在检测到范数之和小于预设范数阈值从而判断到模型收敛时,由协调方对各本地计算结果进行最后的优化处理,并将经过优化处理后的本地计算结果反馈至需求方和各数据提供方,以供需求方和各数据提供方基于该优化处理后的本地计算结果进行本地模型参数更新,从而完成当前模型预测任务。本发明通过协调者基于梯度范数联合需求方与各数据提供方建立模型,无需求方和数据提供方互传数据,实现了在确保标签提供需求方与各数据提供方相互之间不泄露各自特征信息的前提下完成模型预测任务预测,促进了业界针对存在一个需求方和多个数据提供方的众多应用场景建立有效机器学习模型的发展。
附图说明
图1是本发明实施例方案涉及的硬件运行的结构示意图;
图2是本发明一种联合多方特征数据的模型预测方法第一实施例的流程示意图;
图3是本发明一种联合多方特征数据的模型预测方法一实施例的应用场景示意图;
图4是本发明一种联合多方特征数据的模型预测装置的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的结构示意图。
需要说明的是,图1即可为终端设备的硬件运行环境的结构示意图。本发明实施例终端设备可以是PC,便携计算机等终端设备。
如图1所示,该终端设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端设备结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及分布式任务的处理程序。其中,操作系统是管理和控制样本终端设备硬件和软件资源的程序,支持分布式任务的处理程序以及其它软件或程序的运行。
在图1所示的终端设备中,用户接口1003主要用于与各个终端进行数据通信;网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;而处理器1001可以用于调用存储器1005中存储的联合多方特征数据的模型预测程序,并执行以下操作:
获取所述需求方发起的模型预测任务,并确定处理所述模型预测任务所需的多方特征数据;
联合所述需求方和多方所述特征数据对应的各数据提供方进行线性回归计算,得到所述需求方和各所述数据提供方各自的本地计算结果;
计算各所述本地计算结果的范数之和,并在检测到所述范数之和小于范数阈值时,对各所述本地计算结果进行优化处理;
将优化处理后的本地计算结果反馈至所述需求方和各所述数据提供方,以供所述需求方和各所述数据提供方进行本地模型参数更新。
进一步地,处理器1001可以调用存储器1005中存储的联合多方特征数据的模型预测程序,还执行以下操作:
所述协调方提取所述模型预测任务所携带的数据标签;
解析识别所述数据标签的标签信息,根据所述标签信息确定处理所述模型预测任务所需的多方特征数据。
进一步地,处理器1001可以调用存储器1005中存储的联合多方特征数据的模型预测程序,在确定处理所述模型预测任务所需的多方特征数据之后,还执行以下操作:
所述协调方向所述需求方和各所述数据提供方发送公共秘钥,以供所述需求方和各所述数据提供方在进行线性回归计算时进行数据的加密交互。
进一步地,处理器1001可以调用存储器1005中存储的联合多方特征数据的模型预测程序,还执行以下操作:
所述协调方联合所述需求方和各所述数据提供方初始化本地模型并计算各自的本地中间预测值,其中,所述本地模型至少包括线性回归模型;
协调所述需求方和各所述数据提供方依据所述公共秘钥,对各自的所述本地中间预测值进行加密交互,以计算得出各自线性回归模型的本地计算结果。
进一步地,处理器1001可以调用存储器1005中存储的联合多方特征数据的模型预测程序,在执行所述协调方联合所述需求方和各所述数据提供方初始化本地模型并计算各自的本地中间预测值之前,还执行以下操作:
所述协调方在所述线性回归模型的每一轮训练计算中,协调所述需求方将预设数据量分发至各所述数据提供方,以供各所述数据提供方按照所述预设数据量提供各自的特征数据。
进一步地,处理器1001可以调用存储器1005中存储的联合多方特征数据的模型预测程序,还执行以下操作:
所述协调方提取所述需求方和各所述数据提供方各自的本地计算结果;
读取预设私有秘钥对各所述本地计算结果进行解密,并叠加计算解密后的各本地计算结果的范数之和。
进一步地,处理器1001可以调用存储器1005中存储的联合多方特征数据的模型预测程序,还执行以下操作:
所述协调方将经过优化处理后的本地计算结果,封装至用以通知所述需求方和各所述数据提供方模型收敛的通知消息中,以供所述需求方和各所述数据提供方依据所述通知消息,提取经过优化处理后的本地计算结果进行本地模型参数更新。
基于上述的结构,提出本发明联合多方特征数据的模型预测方法的各个实施例。
请参照图2,图2为本发明联合多方特征数据的模型预测方法第一实施例的流程示意图。
本发明实施例提供了联合多方特征数据的模型预测方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明实施例联合多方特征数据的模型预测方法应用于上述终端设备,本发明实施例终端设备可以是PC,便携计算机等终端设备,在此不做具体限制。
本实施例联合多方特征数据的模型预测方法应用于同时拥有多个数据提供方的纵向联邦学习系统中,并具体应用于该纵向联邦学习系统的协调方,在该纵向联邦学习系统中,协调方与需求方和各数据提供方通信连接,需求方与各数据提供方通信连接,本实施例联合多方特征数据的模型预测方法,包括:
步骤S100,获取所述需求方发起的模型预测任务,并确定处理所述模型预测任务所需的多方特征数据。
在由协调方、拥有标签数据的需求方以及多个拥有特征数据的数据提供方所组建形成的纵向联邦学习系统中,在检测到需求方发出需要进行模型预测得到预测结果的模型预测任务时,由协调方获取该模型预测任务,并基于该模型预测任务在各数据提供方所拥有的特征数据中,确定处理当前模型预测任务所需要的多方特征数据。
进一步地,步骤S100中,确定处理所述模型预测任务所需的多方特征数据的步骤,包括:
步骤S101,所述协调方提取所述模型预测任务所携带的数据标签。
在协调方获取到需求方发出需要进行模型预测得到预测结果的模型预测任务之后,从该模型预测任务中提取出需求方针对本次模型预测所指定特征数据的数据标签。
步骤S102,解析识别所述数据标签的标签信息,根据所述标签信息确定处理所述模型预测任务所需的多方特征数据。
在协调方提取出需求方所发出模型预测任务中携带的数据标签之后,进一步对该数据标签进行解析识别以得到该数据标签的标签信息,从而基于该标签信息从当前纵向联邦学习系统的多个数据提供方所拥有的特征数据中,确定对当前需求方所发出模型预测任务进行处理以得到模型预测结果所需要使用到的多方特征数据。
进一步地,在,另一个实施例中,在步骤S100,确定处理所述模型预测任务所需的多方特征数据的步骤之后,本发明联合多方特征数据的模型预测方法,还包括:
步骤A,所述协调方向所述需求方和各所述数据提供方发送公共秘钥,以供所述需求方和各所述数据提供方在进行线性回归计算时进行数据的加密交互。
在如图3所示的应用场景中,当由协调方、拥有标签数据的需求方以及多个拥有特征数据的数据提供方所组建形成的纵向联邦学习系统中,在协调方获取到需求方发出需要进行模型预测得到预测结果的模型预测任务,并基于该模型预测任务在各数据提供方所拥有的特征数据中,确定处理当前模型预测任务所需要的多方特征数据之后,向当前模型预测任务的需求方(即需求方)和确定的多方特征数据各自的数据提供方(即数据提供方)分别发送相同的公共秘钥,以供需求方和各个数据提供方在进行本地模型训练计算过程中,对计算需要交互使用的中间结果进行同态加密,从而避免需求方和各个数据提供方相互之间泄露各自的特征数据。
步骤S200,联合所述需求方和多方所述特征数据对应的各数据提供方进行线性回归计算,得到所述需求方和各所述数据提供方各自的本地计算结果。
在由协调方、拥有标签数据的需求方以及多个拥有特征数据的数据提供方所组建形成的纵向联邦学习系统中,由协调方控制联合需求方和各个数据提供方基于已经确定的处理需求方所发出模型预测任务所需的多方特征数据,在各自本地的线性回归模型中进行本地线性回归模型训练计算,从而计算得出各自本地线性回归模型的本地计算结果。
进一步地,步骤S200,包括:
步骤S201,所述协调方联合所述需求方和各所述数据提供方初始化本地模型并计算各自的本地中间预测值。
由协调方联合控制当前纵向联邦学习系统中的需求方和各个数据提供方,各自独立的对各自本地的线性回归模型进行模型初始化操作,并在完成初始化本地模型之后,随即开始调用协调者已经确定的对需求方所发出模型预测任务进行处理所需的多方特征数据,训练计算各自线性回归模型的本地中间预测值。
步骤S202,协调所述需求方和各所述数据提供方依据所述公共秘钥,对各自的所述本地中间预测值进行加密交互,以计算得出各自线性回归模型的本地计算结果。
在如图3所示的应用场景中,当需求方和各个数据提供方基于训练计算本地计算结果需要,而将各自训练计算得到的各自线性回归模型的本地中间预测值进行交互使用时,由协调方控制需求方和各个数据提供方运用预先分发至需求方和各个数据提供方的公共秘钥采用同态加密的方式,对各本地中间预测值进行加密,然后将加密后的本地中间预测值交互进行发送,如此,得以避免需求方和各个数据提供方相互之间泄露各自的特征数据,确保了需求方和各数据提供方相互之间的信息数据保密性。
进一步地,在另一个实施例中,在步骤S201,所述协调方联合所述需求方和各所述数据提供方初始化本地模型并计算各自的本地中间预测值之前,本发明联合多方特征数据的模型预测方法,还包括:
步骤B,所述协调方在所述线性回归模型的每一轮训练计算中,协调所述需求方将预设数据量分发至各所述数据提供方,以供各所述数据提供方按照所述预设数据量提供各自的特征数据。
在由协调方、拥有标签数据的需求方以及多个拥有特征数据的数据提供方所组建形成的纵向联邦学习系统中,当协调方控制联合需求方和各个数据提供方基于已经确定的处理需求方所发出模型预测任务所需的多方特征数据,在各自本地的线性回归模型中进行本地训练计算的过程中,有协调者控制需求方户或者由需求方自主在线性回归模型的每一轮本地训练开始前,向当前纵向联邦学习系统中的协调方和各个数据提供方统一发送线性回归模型当前轮次进行训练计算的数据量,从而便于协调者统计处理当前模型预测任务所需线性回归模型进行本地模型训练的最大轮数,以及,拥有特征数据的数据提供方得以基于需求方发送的当前轮次线性回归模型进行训练计算的数据量,从各自所拥有的特征中提取出与该数据量等量大小的特征数据进行本轮模型的训练计算。
步骤S300,计算各所述本地计算结果的范数之和,并在检测到所述范数之和小于范数阈值时,对各所述本地计算结果进行优化处理。
在由协调方控制联合需求方和各个数据提供方基于已经确定的处理需求方所发出模型预测任务所需的多方特征数据,在各自本地的线性回归模型中进行本地线性回归模型训练计算,从而计算得出各自本地线性回归模型的本地计算结果的同时,叠加计算需求方和各数据提供方各自本地线性回归模型的本地计算结果的范数之和,并在检测到当前一轮线性回归模型训练计算得到的本地计算结果的范数之和小于预先由模型预测任务的需求方设置的梯度范数阈值时,判断当前线性回归模型已经收敛,则随即对当前轮线性回归模型训练计算得到的各本地计算结果解密并乘以更新步长以进行优化处理。
进一步地,步骤S300中,计算各所述本地计算结果的范数之和的步骤,包括:
步骤S301,所述协调方提取所述需求方和各所述数据提供方各自的本地计算结果;
步骤S302,读取预设私有秘钥对各所述本地计算结果进行解密,并叠加计算解密后的各本地计算结果的范数之和。
在由协调方、拥有标签数据的需求方以及多个拥有特征数据的数据提供方所组建形成的纵向联邦学习系统中,在协调方接收到每一轮线性回归模型训练计算的各本地计算结果(即本地梯度)之后,调用与预先发送给需求方和各个数据提供方的公共秘钥向对应的唯一私有秘钥对加密的本地梯度进行解密,并叠加解密后需求方的本地梯度和多个数据提供方各自的本地梯度以计算梯度范数之和。
步骤S400,将优化处理后的本地计算结果反馈至所述需求方和各所述数据提供方,以供所述需求方和各所述数据提供方进行本地模型参数更新。
进一步地,步骤S400,包括:
步骤S401,所述协调方将经过优化处理后的本地计算结果,封装至用以通知所述需求方和各所述数据提供方模型收敛的通知消息中,以供所述需求方和各所述数据提供方依据所述通知消息,提取经过优化处理后的本地计算结果进行本地模型参数更新。
协调方在根据比较每一轮各本地计算结果(包括需求方和各个数据提供方各自的本地梯度)之和是否小于预先由模型预测任务的需求方设置的梯度范数阈值,来判断确定当前线性回归模型是否已经收敛,并在判断到当前现行回归模型收敛(即各本地计算结果之和小于该梯度范数阈值)时,将经过优化处理后的本地计算结果封装在用以通知需求方和各数据提供方当前线性回归模型已收敛的通知消息当中,从而协调控制需求方和各个数据提供方基于该通知消息,提取出经过优化处理后的本地计算结果对各自的本地线性回归模型进行本地模型参数更新,即完成对当前需求方所发起模型预测任务进行预测。
进一步地,在另一个实施例中,协调方还可以在检测到当前进行线性回归模型的模型训练轮次,已经到达预先根据需求方所确定每次训练计算的数据量大小计算的最大训练轮次时,协调控制需求方(即模型预测任务的需求方)和各个数据提供方,立即开始对各自的本地模型进行模型参数更新。
在本实施例中,通过在由协调方、拥有标签数据的需求方以及多个拥有特征数据的数据提供方所组建形成的纵向联邦学习系统中,在检测到需求方发出需要进行模型预测得到预测结果的模型预测任务时,由协调方获取该模型预测任务,并基于该模型预测任务在各数据提供方所拥有的特征数据中,确定处理当前模型预测任务所需要的多方特征数据,在由协调方、拥有标签数据的需求方以及多个拥有特征数据的数据提供方所组建形成的纵向联邦学习系统中,由协调方控制联合需求方和各个数据提供方基于已经确定的处理需求方所发出模型预测任务所需的多方特征数据,在各自本地的线性回归模型中进行本地线性回归模型训练计算,从而计算得出各自本地线性回归模型的本地计算结果,叠加计算需求方和各数据提供方各自本地线性回归模型的本地计算结果的范数之和,并在检测到当前一轮线性回归模型训练计算得到的本地计算结果的范数之和小于预先由模型预测任务的需求方设置的梯度范数阈值时,判断当前线性回归模型已经收敛,则随即对当前轮线性回归模型训练计算得到的各本地计算结果解密并乘以更新步长以进行优化处理,将经过优化处理后的本地计算结果封装在用以通知需求方和各数据提供方当前线性回归模型已收敛的通知消息当中,从而协调控制需求方和各个数据提供方基于该通知消息,提取出经过优化处理后的本地计算结果对各自的本地线性回归模型进行本地模型参数更新,即完成对当前需求方所发起模型预测任务进行预测。
实现了,在确保了需求方与各数据提供方相互之间不泄露各自特征信息的前提下建立模型,并进行有效的模型预测,促进了业界针对存在一个需求方和多个数据提供方的众多应用场景建立有效机器学习模型的发展。
进一步地,基于上述联合多方特征数据的模型预测方法第一实施例,提出本发明联合多方特征数据的模型预测方法的与优选实施例。
在本发明联合多方特征数据的模型预测方法的优选实施例中,定义由协调方A(arbiter)、需求方(需求方)G(guest)和多个数据提供方H(host)联合组建成纵向的联邦学习系统,并定义:
Hj:表示多个H侧其中的某一个数据提供方;WG:表示G侧模型参数;WHj:表示Hj侧模型参数;
xG:表示G侧样本特征;xHj:表示Hj侧样本特征,y:表示标签数据,由需求方的需求方G提供;
前提设置:各个Hj侧和G侧通过加密ID交集完成共同样本筛选,以下训练环节中默认每次使用id值相同,所有Hj同时参与训练,与G侧进行本地中间计算结果(WG xG和WHj xHj)的交互。
步骤1:在检测到G侧发出模型预测任务时,由A侧生成公共秘钥并传输给各Hj侧、G侧;
步骤2:G方决定每轮内每次训练数据量并发送给各Hj侧、G侧;
步骤3:各Hj侧、G侧分别初始化本地模型并计算本地中间计算结果WG xG和WHj xHj;
步骤4:各Hj侧对己方的中间计算结果WHj xHj利用同态加密技术加密(使用公共秘钥)生成各[[WHj xHj]]并将其发送给G侧;
步骤5:G侧结合各Hj侧发送的中间计算结果[[WHj xHj]]计算加密残差值[[di]],G侧向所有Hj侧发送[[di]](各Hj侧、G侧因只拥有公共秘钥均无法解密此值);
步骤6:各Hj侧、G侧利用自有中间计算结果和加密残差值分别计算加密的本地梯度并发送给A侧;
步骤7:A侧利用私有秘钥解密本地梯度并进行优化处理(如乘以更新步长等),然后将经过优化处理得到的模型预测值分别发送给G侧和各个Hj侧,且A侧根据梯度范数决定是否收敛并通知G方、所有Hj侧,即在当前线性回归模型每轮训练末尾,计算所有G侧与Hj侧梯度范数之和,并与梯度范数阀值TOL比较,如果范数和小于阀值,则判断模型收敛,如果范数和大于或等于阀值,则模型未收敛,进入下一轮训练;
步骤8:各Hj侧、G侧在收到A方下发的模型收敛通知更新本地模型参数,重复步骤3至步骤8,直到各个Hj侧所提供的全部特征数据均被使用,重复步骤2至步骤8,直到当前线性回归模型收敛或到达最大模型训练轮数。
在本实施例中,通过步骤1至8,各个Hj侧和G侧各自独立的训练部分线性回归模型参数,并在整个过程中各Hj侧和G侧双方互相没有泄露自有数据和模型参数信息,同时A侧也不能得知各个Hj侧和G侧的数据信息,如此,实现了在确保了G侧与各Hj侧相互之间不泄露各自特征信息的前提下建立模型,并进行有效的模型预测,促进了业界针对存在一个需求方和多个数据提供方的众多应用场景建立有效机器学习模型的发展。
此外,请参照图4,本发明实施例还提出一种联合多方特征数据的模型预测装置,本发明联合多方特征数据的模型预测装置应用于协调方,协调方与需求方和各数据提供方通信连接,需求方与各数据提供方通信连接,本发明联合多方特征数据的模型预测装置,包括:
获取模块,用于获取模型预测任务,并确定处理所述模型预测任务所需的多方特征数据;
联合模块,用于联合多方所述特征数据进行计算以得到各本地计算结果,并计算各所述本地计算结果的范数之和;
获取模块,用于获取所述需求方发起的模型预测任务,并确定处理所述模型预测任务所需的多方特征数据;
联合模块,用于联合所述需求方和多方所述特征数据对应的各数据提供方进行线性回归计算,得到所述需求方和各所述数据提供方各自的本地计算结果;
优化模块,用于计算各所述本地计算结果的范数之和,并在检测到所述范数之和小于范数阈值时,对各所述本地计算结果进行优化处理;
更新模块,用于将优化处理后的本地计算结果反馈至所述需求方和各所述数据提供方,以供所述需求方和各所述数据提供方进行本地模型参数更新。
优选地,获取模块,包括:
第一提取单元,用于所述协调方提取所述模型预测任务所携带的数据标签;
解析单元,用于解析识别所述数据标签的标签信息,根据所述标签信息确定处理所述模型预测任务所需的多方特征数据。
优选地,本发明联合多方特征数据的模型预测装置,还包括:
秘钥分发模块,用于所述协调方向所述需求方和各所述数据提供方发送公共秘钥,以供所述需求方和各所述数据提供方在进行线性回归计算时进行数据的加密交互。
优选地,联合模块,包括:
第一联合计算单元,用于所述协调方联合所述需求方和各所述数据提供方初始化本地模型并计算各自的本地中间预测值,其中,所述本地模型至少包括线性回归模型;
协调单元,用于协调所述需求方和各所述数据提供方依据所述公共秘钥,对各自的所述本地中间预测值进行加密交互,以计算得出各自线性回归模型的本地计算结果。
优选地,联合模块,还包括:
第一协调单元,用于所述协调方在所述线性回归模型的每一轮训练计算中,协调所述需求方将预设数据量分发至各所述数据提供方,以供各所述数据提供方按照所述预设数据量提供各自的特征数据。
优选地,优化模块,包括:
第二提取单元,用于所述协调方提取所述需求方和各所述数据提供方各自的本地计算结果;
叠加计算单元,用于读取预设私有秘钥对各所述本地计算结果进行解密,并叠加计算解密后的各本地计算结果的范数之和。
优选地,更新模块,包括:
第二协调单元,用于所述协调方将经过优化处理后的本地计算结果,封装至用以通知所述需求方和各所述数据提供方模型收敛的通知消息中,以供所述需求方和各所述数据提供方依据所述通知消息,提取经过优化处理后的本地计算结果进行本地模型参数更新。
其中,联合多方特征数据的模型预测装置的各个功能模块实现的步骤可参照本发明终端人脸解锁的启动控制方法的各个实施例,此处不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,应用于计算机,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质上存储有联合多方特征数据的模型预测程序,所述联合多方特征数据的模型预测程序被处理器执行时实现如上所述的联合多方特征数据的模型预测方法的步骤。
其中,在所述处理器上运行的联合多方特征数据的模型预测程序被执行时所实现的步骤可参照本发明联合多方特征数据的模型预测方法的各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种联合多方特征数据的模型预测方法,其特征在于,所述联合多方特征数据的模型预测方法应用于协调方,所述联合多方特征数据的模型预测方法,包括:
获取需求方发起的模型预测任务,并确定处理所述模型预测任务所需的多方特征数据;
联合所述需求方和多方所述特征数据对应的各数据提供方进行线性回归计算,得到所述需求方和各所述数据提供方各自的本地计算结果;
计算各所述本地计算结果的范数之和,并在检测到所述范数之和小于预设范数阈值时,对各所述本地计算结果进行优化处理;
将优化处理后的本地计算结果反馈至所述需求方和各所述数据提供方,以供所述需求方和各所述数据提供方进行本地模型参数更新,以完成对所述模型预测任务进行预测。
2.如权利要求1所述的联合多方特征数据的模型预测方法,其特征在于,所述确定处理所述模型预测任务所需的多方特征数据的步骤,包括:
提取所述模型预测任务所携带的数据标签;
解析识别所述数据标签的标签信息,根据所述标签信息确定处理所述模型预测任务所需的多方特征数据。
3.如权利要求1所述的联合多方特征数据的模型预测方法,其特征在于,在联合所述需求方和多方所述特征数据对应的各数据提供方进行线性回归计算之前,还包括:
向所述需求方和各所述数据提供方发送公共秘钥,以供所述需求方和各所述数据提供方在进行线性回归计算时进行数据的加密交互。
4.如权利要求3所述的联合多方特征数据的模型预测方法,其特征在于,所述联合所述需求方和多方所述特征数据对应的各数据提供方进行线性回归计算,得到所述需求方和各所述数据提供方各自的本地计算结果的步骤,包括:
所述协调方联合所述需求方和各所述数据提供方初始化本地模型并计算各自的本地中间预测值,其中,所述本地模型至少包括线性回归模型;
协调所述需求方和各所述数据提供方依据所述公共秘钥,对各自的所述本地中间预测值进行加密交互,以计算得出各自线性回归模型的本地计算结果。
5.如权利要求4所述的联合多方特征数据的模型预测方法,其特征在于,在所述协调方联合所述需求方和各所述数据提供方初始化本地模型并计算各自的本地中间预测值的步骤之前,还包括:
所述协调方在所述线性回归模型的每一轮训练计算中,协调所述需求方将预设数据量分发至各所述数据提供方,以供各所述数据提供方按照所述预设数据量提供各自的特征数据。
6.如权利要求1所述的联合多方特征数据的模型预测方法,其特征在于,所述计算各所述本地计算结果的范数之和的步骤,包括:
所述协调方提取所述需求方和各所述数据提供方各自的本地计算结果;
读取预设私有秘钥对各所述本地计算结果进行解密,并叠加计算解密后的各本地计算结果的范数之和。
7.如权利要求1所述的联合多方特征数据的模型预测方法,其特征在于,所述将优化处理后的本地计算结果反馈至所述需求方和各所述数据提供方,以供所述需求方和各所述数据提供方进行本地模型参数更新的步骤,包括:
所述协调方将经过优化处理后的本地计算结果,封装至用以通知所述需求方和各所述数据提供方模型收敛的通知消息中,以供所述需求方和各所述数据提供方依据所述通知消息,提取经过优化处理后的本地计算结果进行本地模型参数更新。
8.一种联合多方特征数据的模型预测装置,其特征在于,所述联合多方特征数据的模型预测装置应用于协调方,所述协调方与需求方和各数据提供方通信连接,所述需求方与各所述数据提供方通信连接,所述联合多方特征数据的模型预测装置,包括:
获取模块,用于获取所述需求方发起的模型预测任务,并确定处理所述模型预测任务所需的多方特征数据;
联合模块,用于联合所述需求方和多方所述特征数据对应的各数据提供方进行线性回归计算,得到所述需求方和各所述数据提供方各自的本地计算结果;
优化模块,用于计算各所述本地计算结果的范数之和,并在检测到所述范数之和小于范数阈值时,对各所述本地计算结果进行优化处理;
更新模块,用于将优化处理后的本地计算结果反馈至所述需求方和各所述数据提供方,以供所述需求方和各所述数据提供方进行本地模型参数更新。
9.一种终端设备,其特征在于,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的联合多方特征数据的模型预测程序,所述联合多方特征数据的模型预测程序被所述处理器执行时实现如权利要求1至7中任一项所述的联合多方特征数据的模型预测方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的联合多方特征数据的模型预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911050891.0A CN110751294A (zh) | 2019-10-31 | 2019-10-31 | 联合多方特征数据的模型预测方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911050891.0A CN110751294A (zh) | 2019-10-31 | 2019-10-31 | 联合多方特征数据的模型预测方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110751294A true CN110751294A (zh) | 2020-02-04 |
Family
ID=69281483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911050891.0A Pending CN110751294A (zh) | 2019-10-31 | 2019-10-31 | 联合多方特征数据的模型预测方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110751294A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310932A (zh) * | 2020-02-10 | 2020-06-19 | 深圳前海微众银行股份有限公司 | 横向联邦学习系统优化方法、装置、设备及可读存储介质 |
CN111310204A (zh) * | 2020-02-10 | 2020-06-19 | 北京百度网讯科技有限公司 | 数据处理的方法及装置 |
CN111325557A (zh) * | 2020-02-25 | 2020-06-23 | 支付宝(杭州)信息技术有限公司 | 一种商户风险的检测方法、装置及设备 |
CN111353167A (zh) * | 2020-02-26 | 2020-06-30 | 深圳前海微众银行股份有限公司 | 基于多提供方的数据判别方法、装置、设备及存储介质 |
CN111476403A (zh) * | 2020-03-17 | 2020-07-31 | 华为技术有限公司 | 预测模型构建方法和相关装置 |
CN112231746A (zh) * | 2020-09-10 | 2021-01-15 | 杭州锘崴信息科技有限公司 | 联合数据分析方法、装置、系统及计算机可读存储介质 |
CN112668748A (zh) * | 2020-09-16 | 2021-04-16 | 华控清交信息科技(北京)有限公司 | 一种预测方法、装置和电子设备 |
CN112766514A (zh) * | 2021-01-22 | 2021-05-07 | 支付宝(杭州)信息技术有限公司 | 一种联合训练机器学习模型的方法、系统及装置 |
CN112818374A (zh) * | 2021-03-02 | 2021-05-18 | 深圳前海微众银行股份有限公司 | 一种模型的联合训练方法、设备、存储介质及程序产品 |
WO2021189926A1 (zh) * | 2020-03-27 | 2021-09-30 | 支付宝(杭州)信息技术有限公司 | 业务模型训练方法、装置、系统及电子设备 |
-
2019
- 2019-10-31 CN CN201911050891.0A patent/CN110751294A/zh active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310932A (zh) * | 2020-02-10 | 2020-06-19 | 深圳前海微众银行股份有限公司 | 横向联邦学习系统优化方法、装置、设备及可读存储介质 |
CN111310204A (zh) * | 2020-02-10 | 2020-06-19 | 北京百度网讯科技有限公司 | 数据处理的方法及装置 |
CN111310204B (zh) * | 2020-02-10 | 2022-06-14 | 北京百度网讯科技有限公司 | 数据处理的方法及装置 |
CN111325557A (zh) * | 2020-02-25 | 2020-06-23 | 支付宝(杭州)信息技术有限公司 | 一种商户风险的检测方法、装置及设备 |
CN111353167A (zh) * | 2020-02-26 | 2020-06-30 | 深圳前海微众银行股份有限公司 | 基于多提供方的数据判别方法、装置、设备及存储介质 |
CN111476403A (zh) * | 2020-03-17 | 2020-07-31 | 华为技术有限公司 | 预测模型构建方法和相关装置 |
WO2021189926A1 (zh) * | 2020-03-27 | 2021-09-30 | 支付宝(杭州)信息技术有限公司 | 业务模型训练方法、装置、系统及电子设备 |
CN112231746A (zh) * | 2020-09-10 | 2021-01-15 | 杭州锘崴信息科技有限公司 | 联合数据分析方法、装置、系统及计算机可读存储介质 |
CN112231746B (zh) * | 2020-09-10 | 2024-02-02 | 杭州锘崴信息科技有限公司 | 联合数据分析方法、装置、系统及计算机可读存储介质 |
CN112668748A (zh) * | 2020-09-16 | 2021-04-16 | 华控清交信息科技(北京)有限公司 | 一种预测方法、装置和电子设备 |
CN112668748B (zh) * | 2020-09-16 | 2024-05-10 | 华控清交信息科技(北京)有限公司 | 一种预测方法、装置和电子设备 |
CN112766514A (zh) * | 2021-01-22 | 2021-05-07 | 支付宝(杭州)信息技术有限公司 | 一种联合训练机器学习模型的方法、系统及装置 |
CN112766514B (zh) * | 2021-01-22 | 2021-12-24 | 支付宝(杭州)信息技术有限公司 | 一种联合训练机器学习模型的方法、系统及装置 |
CN112818374A (zh) * | 2021-03-02 | 2021-05-18 | 深圳前海微众银行股份有限公司 | 一种模型的联合训练方法、设备、存储介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751294A (zh) | 联合多方特征数据的模型预测方法、装置、设备及介质 | |
CN109284313B (zh) | 基于半监督学习的联邦建模方法、设备及可读存储介质 | |
CN109165725B (zh) | 基于迁移学习的神经网络联邦建模方法、设备及存储介质 | |
CN109255444B (zh) | 基于迁移学习的联邦建模方法、设备及可读存储介质 | |
CN110263936B (zh) | 横向联邦学习方法、装置、设备及计算机存储介质 | |
EP3848838A1 (en) | Model parameter acquisition method and system based on federated learning, and readable storage medium | |
CN110633806A (zh) | 纵向联邦学习系统优化方法、装置、设备及可读存储介质 | |
CN113627085B (zh) | 横向联邦学习建模优化方法、设备、介质 | |
CN103312801A (zh) | 应用装置、应用装置之间数据交互的方法、系统和服务器 | |
CN112052960A (zh) | 纵向联邦建模方法、装置、设备及计算机可读存储介质 | |
CN107807841B (zh) | 服务器模拟方法、装置、设备及可读存储介质 | |
CN110688419A (zh) | 一种联邦建模系统和联邦建模方法 | |
CN112954050B (zh) | 分布式管理方法及装置、管理设备和计算机存储介质 | |
EP4086770A1 (en) | Method and apparatus for generating prediction information, electronic device, and computer-readable medium | |
CN112785002A (zh) | 模型构建优化方法、设备、介质及计算机程序产品 | |
CN113222180A (zh) | 联邦学习建模优化方法、设备、介质及计算机程序产品 | |
CN114168293A (zh) | 混合架构系统及基于数据传输耗时的任务调度方法 | |
CN114168295A (zh) | 混合架构系统及基于历史任务效果的任务调度方法 | |
CN116257427A (zh) | 联邦学习任务的异构测试方法、系统、设备及存储介质 | |
EP4030373A1 (en) | Object comparison method, and device | |
CN111652382B (zh) | 基于区块链的数据处理方法、装置、设备及存储介质 | |
CN108022079A (zh) | 服务资源的共享方法、装置及计算机可读存储介质 | |
CN112416912A (zh) | 纵向联邦数据统计的去重方法、装置、终端设备及介质 | |
CN111310047A (zh) | 基于fm模型的信息推荐方法、装置、设备及存储介质 | |
CN111368314A (zh) | 基于交叉特征的建模、预测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |