CN113239391A - 一种无第三方的逻辑回归联邦学习模型训练系统及方法 - Google Patents

一种无第三方的逻辑回归联邦学习模型训练系统及方法 Download PDF

Info

Publication number
CN113239391A
CN113239391A CN202110787566.3A CN202110787566A CN113239391A CN 113239391 A CN113239391 A CN 113239391A CN 202110787566 A CN202110787566 A CN 202110787566A CN 113239391 A CN113239391 A CN 113239391A
Authority
CN
China
Prior art keywords
gradient
inner product
encryption
model
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110787566.3A
Other languages
English (en)
Other versions
CN113239391B (zh
Inventor
赵迪
王湾湾
何浩
姚明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Dongjian Intelligent Technology Co ltd
Original Assignee
Shenzhen Dongjian Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Dongjian Intelligent Technology Co ltd filed Critical Shenzhen Dongjian Intelligent Technology Co ltd
Priority to CN202110787566.3A priority Critical patent/CN113239391B/zh
Publication of CN113239391A publication Critical patent/CN113239391A/zh
Application granted granted Critical
Publication of CN113239391B publication Critical patent/CN113239391B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0816Key establishment, i.e. cryptographic processes or cryptographic protocols whereby a shared secret becomes available to two or more parties, for subsequent use
    • H04L9/0819Key transport or distribution, i.e. key establishment techniques where one party creates or otherwise obtains a secret value, and securely transfers it to the other(s)
    • H04L9/0825Key transport or distribution, i.e. key establishment techniques where one party creates or otherwise obtains a secret value, and securely transfers it to the other(s) using asymmetric-key encryption or public key infrastructure [PKI], e.g. key signature or public key certificates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Bioethics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Storage Device Security (AREA)

Abstract

本发明实施例提供了一种无第三方的逻辑回归联邦学习模型训练系统及方法,涉及数据处理技术领域,上述系统包括第一设备与第二设备。第一设备生成公钥与私钥;计算第一内积,向第二设备发送公钥与第一加密内积。第二设备计算第二内积,并对第二内积进行加密;计算加密前向梯度与针对第二模型的第二加密梯度;向第一设备发送加密前向梯度、添加掩码的第二加密梯度。第一设备对加密前向梯度、第二加密梯度进行解密,向第二设备发送第二梯度;计算第一梯度;根据第一梯度对第一模型参数进行调整。第二设备对第二模型参数进行调整。应用本发明实施例提供的方案可以在不存在可信第三方设备的情况下,保证样本数据安全性的同时完成模型训练的过程。

Description

一种无第三方的逻辑回归联邦学习模型训练系统及方法
技术领域
本发明涉及数据处理技术领域,特别是涉及一种无第三方的逻辑回归联邦学习模型训练系统及方法。
背景技术
随着网络技术的发展,网络能够提供的用户、车辆、视频等对象的数据越来越多,因此,在不同的应用场景下需要结合对象的特征数据,对对象的数据进行数据处理,获得数据处理结果。例如,结合对象的特征数据实现对象分类、结合对象的特征数据实现对象数据预测等。
现有技术中可以采用神经网络模型进行数据处理,因此需要预先采用样本对象的样本数据对神经网络模型进行训练。然而同一样本对象的不同样本数据可能分别存储在不同场景的不同服务器中。例如,在上述样本对象为用户的情况下,与用户信用相关的信用卡使用信息、消费购物信息、手机通话信息等样本数据分别存储在银行的银行服务器、电商平台的电商服务器、通讯公司的通讯服务器中。因此,当需要依据同一样本对象的不同样本数据进行模型训练时,各个服务器之间需要进行样本数据的交互。为了保证样本数据交互的过程中样本数据的安全性,现有技术中可以选择一个除存储有样本数据的各服务器之外的、各服务器均信任的可信第三方设备,可信第三方设备可以生成模型训练过程中加密解密数据时使用的公钥和私钥,并协调模型训练过程。然而,在部分应用场景中可能不存在各服务器均信任的可信第三方设备,因此难以在保证样本数据的安全性的情况下,完成模型训练的过程。
发明内容
本发明实施例的目的在于提供一种无第三方的逻辑回归联邦学习模型训练系统及方法,以在不存在可信第三方设备的情况下,保证样本数据安全性的同时完成模型训练的过程。具体技术方案如下:
第一方面,本发明实施例提供了一种无第三方的逻辑回归联邦学习模型训练系统,所述系统包括:第一设备与第二设备,其中,针对每一样本对象,所述第一设备与第二设备中分别存储有该样本对象的部分样本数据,第二设备中存储有样本对象的样本标签;
所述第一设备,用于生成公钥与私钥;基于自身存储的第一样本数据与自身配置的第一模型的第一模型参数,计算第一内积,并使用所述公钥对所述第一内积进行加密,得到第一加密内积;向所述第二设备发送所述公钥与第一加密内积;
所述第二设备,用于基于自身存储的第二样本数据与自身配置的第二模型的第二模型参数,计算第二内积,并使用所述公钥对所述第二内积进行加密,得到第二加密内积;根据所述第一加密内积、第二加密内积与样本标签,计算加密前向梯度;根据所述加密前向梯度与第二样本数据,计算针对所述第二模型的第二加密梯度;在所述第二加密梯度中添加掩码,向所述第一设备发送所述加密前向梯度、添加掩码的第二加密梯度;
所述第一设备,用于基于所述私钥,分别对所述加密前向梯度、第二加密梯度进行解密,得到前向梯度与第二梯度;向所述第二设备发送所述第二梯度;根据所述前向梯度与第一样本数据,计算针对所述第一模型的第一梯度;根据所述第一梯度对所述第一模型参数进行调整;直至满足预设的第一训练终止条件,则将调整后的第一模型参数确定为经过训练的第一模型的模型参数;
所述第二设备,用于去除第二梯度中添加的掩码,基于去除掩码后的第二梯度,对所述第二模型参数进行调整;直至满足预设的第二训练终止条件,则将调整后的第二模型参数确定为经过训练的第二模型的模型参数。
第二方面,本发明实施例提供了一种无第三方的逻辑回归联邦学习模型训练方法,应用于第一设备,针对每一样本对象,所述第一设备存储有该样本对象的部分样本数据,所述方法包括:
生成公钥与私钥;
基于自身存储的第一样本数据与自身配置的第一模型的第一模型参数,计算第一内积,并使用所述公钥对所述第一内积进行加密,得到第一加密内积;
向第二设备发送所述公钥与第一加密内积,以使得所述第二设备基于所述公钥、第一加密内积,获得加密前向梯度与添加掩码的第二加密梯度,其中,针对每一样本对象,所述第二设备中存储有该样本对象的部分样本数据,并存储有样本对象的样本标签;
接收所述第二设备发送的加密前向梯度、第二加密梯度;
基于所述私钥,分别对所述加密前向梯度、第二加密梯度进行解密,得到前向梯度与第二梯度;
向所述第二设备发送所述第二梯度;
根据所述前向梯度与第一样本数据,计算针对所述第一模型的第一梯度;
根据所述第一梯度对所述第一模型参数进行调整;
直至满足预设的第一训练终止条件,则将调整后的第一模型参数确定为经过训练的第一模型的模型参数。
第三方面,本发明实施例提供了一种无第三方的逻辑回归联邦学习模型训练方法,应用于第二设备,针对每一样本对象,所述第二设备存储有该样本对象的部分样本数据,且所述第二设备存储有样本对象的样本标签,所述方法包括:
接收第一设备发送的公钥与所述第一设备计算得到的第一加密内积,其中,针对每一样本对象,所述第一设备存储有该样本对象的部分样本数据,所述第一设备存储有私钥;
基于自身存储的第二样本数据与自身配置的第二模型的第二模型参数,计算第二内积,并使用所述公钥对所述第二内积进行加密,得到第二加密内积;
根据所述第一加密内积、第二加密内积与样本标签,计算加密前向梯度;
根据所述加密前向梯度与第二样本数据,计算针对所述第二模型的第二加密梯度;
在所述第二加密梯度中添加掩码,向所述第一设备发送所述加密前向梯度、添加掩码的第二加密梯度;
接收所述第一设备发送的、基于所述私钥对第二加密梯度进行解密得到的添加有掩码的第二梯度;
去除第二梯度中添加的掩码,基于去除掩码后的第二梯度,对所述第二模型参数进行调整;
直至满足预设的第二训练终止条件,则将调整后的第二模型参数确定为经过训练的第二模型的模型参数。
第四方面,本发明实施例提供了一种无第三方的逻辑回归联邦学习模型训练方法,应用于第三设备,针对每一样本对象,所述第三设备中存储有该样本对象的部分样本数据,所述方法包括:
接收第一设备发送的公钥,其中,针对每一样本对象,所述第一设备中存储有该样本对象的部分样本数据,且所述第一设备中存储有私钥;
基于自身存储的第三样本数据与自身配置的第三模型的第三模型参数,计算第三内积,并使用所述公钥对所述第三内积进行加密,得到第三加密内积;
向第二设备发送所述第三加密内积,其中,针对每一样本对象,所述第二设备中存储有该样本对象的部分样本数据,且所述第二设备中存储有样本标签;
获得针对第三模型的第三梯度,基于所述第三梯度,对所述第三模型参数进行调整;
直至满足预设的第三训练终止条件,则将调整后的第三模型参数确定为经过训练的第三模型的模型参数。
第五方面,本发明实施例提供了一种无第三方的逻辑回归联邦学习模型训练装置,应用于第一设备,针对每一样本对象,所述第一设备存储有该样本对象的部分样本数据,所述装置包括:
公私钥生成模块,用于生成公钥与私钥;
第一内积获得模块,用于基于自身存储的第一样本数据与自身配置的第一模型的第一模型参数,计算第一内积,并使用所述公钥对所述第一内积进行加密,得到第一加密内积;
第二梯度获得模块,用于向第二设备发送所述公钥与第一加密内积,以使得所述第二设备基于所述公钥、第一加密内积,获得加密前向梯度与添加掩码的第二加密梯度,其中,针对每一样本对象,所述第二设备中存储有该样本对象的部分样本数据,并存储有样本对象的样本标签;
第二梯度接收模块,用于接收所述第二设备发送的加密前向梯度、第二加密梯度;
解密模块,用于基于所述私钥,分别对所述加密前向梯度、第二加密梯度进行解密,得到前向梯度与第二梯度;
第二梯度发送模块,用于向所述第二设备发送所述第二梯度;
第一梯度计算模块,用于根据所述前向梯度与第一样本数据,计算针对所述第一模型的第一梯度;
第一参数调整模块,用于根据所述第一梯度对所述第一模型参数进行调整;
第一参数确定模块,用于直至满足预设的第一训练终止条件,则将调整后的第一模型参数确定为经过训练的第一模型的模型参数。
第六方面,本发明实施例提供了一种无第三方的逻辑回归联邦学习模型训练装置,应用于第二设备,针对每一样本对象,所述第二设备存储有该样本对象的部分样本数据,且所述第二设备存储有样本对象的样本标签,所述装置包括:
第一内积接收模块,用于接收第一设备发送的公钥与所述第一设备计算得到的第一加密内积,其中,针对每一样本对象,所述第一设备存储有该样本对象的部分样本数据,所述第一设备存储有私钥;
第二内积计算模块,用于基于自身存储的第二样本数据与自身配置的第二模型的第二模型参数,计算第二内积,并使用所述公钥对所述第二内积进行加密,得到第二加密内积;
前向梯度计算模块,用于根据所述第一加密内积、第二加密内积与样本标签,计算加密前向梯度;
第二梯度计算模块,用于根据所述加密前向梯度与第二样本数据,计算针对所述第二模型的第二加密梯度;
掩码添加模块,用于在所述第二加密梯度中添加掩码,向所述第一设备发送所述加密前向梯度、添加掩码的第二加密梯度;
解密梯度接收模块,用于接收所述第一设备发送的、基于所述私钥对第二加密梯度进行解密得到的添加有掩码的第二梯度;
掩码去除模块,用于去除第二梯度中添加的掩码,基于去除掩码后的第二梯度,对所述第二模型参数进行调整;
第二参数确定模块,用于直至满足预设的第二训练终止条件,则将调整后的第二模型参数确定为经过训练的第二模型的模型参数。
第七方面,本发明实施例提供了一种无第三方的逻辑回归联邦学习模型训练装置,应用于第三设备,针对每一样本对象,所述第三设备中存储有该样本对象的部分样本数据,所述装置包括:
公钥接收模块,用于接收第一设备发送的公钥,其中,针对每一样本对象,所述第一设备中存储有该样本对象的部分样本数据,且所述第一设备中存储有私钥;
第三内积计算模块,用于基于自身存储的第三样本数据与自身配置的第三模型的第三模型参数,计算第三内积,并使用所述公钥对所述第三内积进行加密,得到第三加密内积;
第三内积发送模块,用于向第二设备发送所述第三加密内积,其中,针对每一样本对象,所述第二设备中存储有该样本对象的部分样本数据,且所述第二设备中存储有样本标签;
第三梯度获得模块,用于获得针对第三模型的第三梯度,基于所述第三梯度,对所述第三模型参数进行调整;
第三参数确定模块,用于直至满足预设的第三训练终止条件,则将调整后的第三模型参数确定为经过训练的第三模型的模型参数。
第八方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第二方面、第三方面或第四方面任一所述的方法步骤。
第九方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第二方面、第三方面或第四方面任一所述的方法步骤。
第十方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第二方面、第三方面或第四方面任一所述的方法步骤。
本发明实施例有益效果:
本发明实施例提供了一种无第三方的逻辑回归联邦学习模型训练系统,上述系统包括第一设备与第二设备,第一设备与第二设备中分别存储有样本对象的部分样本数据,并且第二设备中存储有样本标签。第一设备生成公钥与私钥,并基于第一样本数据与第一模型参数计算第一内积,并使用公钥对第一内积进行加密,得到第一加密内积,并向第二设备发送公钥与第一加密内积。第二设备基于第二样本数据与第二模型参数计算第二内积,并使用公钥对第二内积进行加密,得到第二加密内积。第二设备根据第一加密内积、第二加密内积与样本标签计算加密前向密度。并且根据加密前向梯度与第二样本数据,计算针对第二模型的第二加密梯度,并在第二加密梯度添加掩码,向第一设备发送加密前向梯度与添加密码的第二加密梯度。第一设备基于是要对加密前向梯度与第二加密梯度进行解密,并向第二设备发送第二梯度。并且根据前向梯度与第一样本数据计算针对第一模型的第一梯度,根据第一梯度对第一模型参数进行调整,直至完成模型训练。第二设备去除第二梯度中添加的掩码,并基于去除掩码后的第二梯度对第二模型参数进行调整,直至完成模型训练。
由以上可见,第一设备在基于第一样本数据计算得到第一内积后,对第一内积进行加密,并向第二设备发送经过加密的第一加密内积。第二设备中不存在私钥,因此难以对第一加密内积进行解密,也就难以得到第一内积,进而难以得到计算得到第一内积时使用的第一样本数据。所以第一设备中存储的第一样本数据不会暴露给第二设备,第一样本数据的安全性较高。
另外,第二设备在基于第二样本数据计算得到第二加密梯度之后,先在第二加密梯度中添加掩码,再向第一设备发送添加掩码的第二加密梯度。第一设备虽然可以通过私钥对第二加密梯度进行解密得到第二梯度,但由于第二加密梯度中添加有掩码,因此计算得到的第二梯度中包含掩码,第一设备难以根据添加有掩码的第二梯度计算得到第二样本数据。所以第二设备中存储的第二样本数据不会暴露给第一设备,第二样本数据的安全性同样较高。由此可见,模型训练过程中并不需要存储有样本数据的第一设备和第二设备之外的可信第三方设备,并可以在保证第一样本数据与第二样本数据的安全性的情况下,完成模型训练的过程。并且由于现有技术中可信第三方设备可以获取到训练过程中计算得到的中间数据的明文,若上述可信第三方设备与记录有样本数据的任意一方串通,便可能根据上述中间数据与串通方记录的样本数据推导出其他设备记录的样本数据,导致其他设备的样本数据泄露。但本方案中不存在上述可信第三方设备,因此可以避免其他设备的样本数据泄露。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的第一种无第三方的逻辑回归联邦学习模型训练系统的结构示意图;
图2为本发明实施例提供的第一种无第三方的逻辑回归联邦学习模型训练方法的流程示意图;
图3为本发明实施例提供的第二种无第三方的逻辑回归联邦学习模型训练方法的流程示意图;
图4为本发明实施例提供的第二种无第三方的逻辑回归联邦学习模型训练系统的结构示意图;
图5为本发明实施例提供的第三种无第三方的逻辑回归联邦学习模型训练方法的流程示意图;
图6为本发明实施例提供的第四种无第三方的逻辑回归联邦学习模型训练方法的流程示意图;
图7为本发明实施例提供的第五种无第三方的逻辑回归联邦学习模型训练方法的流程示意图;
图8为本发明实施例提供的第六种无第三方的逻辑回归联邦学习模型训练方法的流程示意图;
图9为本发明实施例提供的第七种无第三方的逻辑回归联邦学习模型训练方法的流程示意图;
图10为本发明实施例提供的第八种无第三方的逻辑回归联邦学习模型训练方法的流程示意图;
图11为本发明实施例提供的第一种无第三方的逻辑回归联邦学习模型训练装置的结构示意图;
图12为本发明实施例提供的第二种无第三方的逻辑回归联邦学习模型训练装置的结构示意图;
图13为本发明实施例提供的第三种无第三方的逻辑回归联邦学习模型训练装置的结构示意图;
图14为本发明实施例提供的第一种电子设备的结构示意图;
图15为本发明实施例提供的第二种电子设备的结构示意图;
图16为本发明实施例提供的第三种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本申请所获得的所有其他实施例,都属于本发明保护的范围。
由于现有技术中模型训练的过程中样本数据存在泄露的风险,样本数据的安全性较低,为解决这一问题,本发明实施例提供了一种无第三方的逻辑回归联邦学习模型训练系统及方法。
本发明的一个实施例中,提供了一种无第三方的逻辑回归联邦学习模型训练系统,上述系统包括:第一设备与第二设备。其中,针对每一样本对象,上述第一设备与第二设备中分别存储有该样本对象的部分样本数据,第二设备中存储有样本对象的样本标签。
上述第一设备,用于生成公钥与私钥;基于自身存储的第一样本数据与自身配置的第一模型的第一模型参数,计算第一内积,并使用上述公钥对上述第一内积进行加密,得到第一加密内积;向上述第二设备发送所述公钥与第一加密内积;
上述第二设备,用于基于自身存储的第二样本数据与自身配置的第二模型的第二模型参数,计算第二内积,并使用上述公钥对上述第二内积进行加密,得到第二加密内积;根据上述第一加密内积、第二加密内积与样本标签,计算加密前向梯度;根据上述加密前向梯度与第二样本数据,计算针对上述第二模型的第二加密梯度;在上述第二加密梯度中添加掩码,向上述第一设备发送所述加密前向梯度、添加掩码的第二加密梯度;
上述第一设备,用于基于上述私钥,分别对上述加密前向梯度、第二加密梯度进行解密,得到前向梯度与第二梯度;向上述第二设备发送上述第二梯度;根据上述前向梯度与第一样本数据,计算针对上述第一模型的第一梯度;根据上述第一梯度对上述第一模型参数进行调整;直至满足预设的第一训练终止条件,则将调整后的第一模型参数确定为经过训练的第一模型的模型参数;
上述第二设备,用于去除第二梯度中添加的掩码,基于去除掩码后的第二梯度,对上述第二模型参数进行调整;直至满足预设的第二训练终止条件,则将调整后的第二模型参数确定为经过训练的第二模型的模型参数。
由以上可见,第一设备在基于第一样本数据计算得到第一内积后,对第一内积进行加密,并向第二设备发送经过加密的第一加密内积。第二设备中不存在私钥,因此难以对第一加密内积进行解密,也就难以得到第一内积,进而难以得到计算得到第一内积时使用的第一样本数据。所以第一设备中存储的第一样本数据不会暴露给第二设备,第一样本数据的安全性较高。
另外,第二设备在基于第二样本数据计算得到第二加密梯度之后,先在第二加密梯度中添加掩码,再向第一设备发送添加掩码的第二加密梯度。第一设备虽然可以通过私钥对第二加密梯度进行解密得到第二梯度,但由于第二加密梯度中添加有掩码,因此计算得到的第二梯度中包含掩码,第一设备难以根据添加有掩码的第二梯度计算得到第二样本数据。所以第二设备中存储的第二样本数据不会暴露给第一设备,第二样本数据的安全性同样较高。由此可见,模型训练过程中并不需要存储有样本数据的第一设备和第二设备之外的可信第三方设备,并可以在保证第一样本数据与第二样本数据的安全性的情况下,完成模型训练的过程。并且由于现有技术中可信第三方设备可以获取到训练过程中计算得到的中间数据的明文,若上述可信第三方设备与记录有样本数据的任意一方串通,便可能根据上述中间数据与串通方记录的样本数据推导出其他设备记录的样本数据,导致其他设备的样本数据泄露。但本方案中不存在上述可信第三方设备,因此可以避免其他设备的样本数据泄露。
参见图1,为本发明实施例提供的第一种无第三方的逻辑回归联邦学习模型训练系统的结构示意图,上述系统包括:第一设备101与第二设备102。
其中,针对每一样本对象,上述第一设备与第二设备中分别存储有该样本对象的部分样本数据,第二设备中存储有样本对象的样本标签。
例如,上述样本对象可以为用于,上述第一设备可以为银行服务器,第二设备可以为电商网站服务器,则银行服务器存储的样本数据可以为用户存款数据、用户信用数据等,上述电商网站服务器存储的样本数据可以为用户购物数据,用户消费数据等。
具体的,第一设备与第二设备存储的样本数据中可以存在相同数据类型的数据,例如,第一设备与第二设备均存储有数据类型为用户消费类型的数据等,但在进行模型训练的过程中,第一设备所使用的第一样本数据与第二设备使用的第二样本数据的数据类型不同。
另外,上述模型训练系统所训练的模型为逻辑回归模型,可以用于数据分类,具体的可以为二分类模型,如上述模型可以用于按照对象数据将用户分类为守信用户与不守信用户等。则上述样本对象的样本标签可以为样本对象所属的对象类别,在上述模型为二分类模型的情况下,上述样本标签的取值可以分别为1与-1,分别表示样本对象所属的两种对象类别。
参见图2,为本发明实施例提供的第一种无第三方的逻辑回归联邦学习模型训练方法的流程示意图。上述方法包括以下步骤S201-S214。
S201:上述第一设备101生成公钥与私钥。
本发明的一个实施例中,上述公钥用于对数据进行加密,私钥用于对采用上述公钥加密的数据进行解密。
具体的,上述公钥可以为用于对数据进行同态加密的公钥,对经过同态加密得到的数据进行运算之后得到的数据依旧为加密数据,并且对运算得到的加密数据进行解密之后得到的解密数据,与对同态加密前的明文数据进行相同运算得到的数据相同。
其中,上述公钥可以为用于对数据进行paillier半同态加密的公钥。
S202:上述第一设备101基于自身存储的第一样本数据与自身配置的第一模型的第一模型参数,计算第一内积,并使用上述公钥对上述第一内积进行加密,得到第一加密内积。
本发明的一个实施例中,第一模型的每一第一模型参数分别与一个第一样本数据的数据类型相对应,针对每一数据类型的第一样本数据,可以采用针对该数据类型的第一模型参数分别与各个样本对象的第一样本数据计算内积,得到各个样本对象的第一子内积,将计算得到的各个第一子内积分别作为第一内积的各个元素,得到向量形式的第一内积。
具体的,对于不同数据类型,所得到的以向量表示的第一内积中同一位置的第一子内积对应同一样本对象。
本发明的一个实施例中,可以分别计算得到各个第一子内积,再对第一自内积进行加密,得到第一加密子内积,再由第一加密子内积组合得到第一加密内积。
具体的,可以按照以下公式计算得到第一加密内积:
Figure 149795DEST_PATH_IMAGE001
其中,上述wA为针对数据类型A的第一模型参数,xAi为第i个样本对象的数据类型A的第一样本数据,[[ ]]表示采用上述公钥对数据进行加密,vAi为针对第i个样本对象的第一数据类型A的第一子内积,[[vAi]]为针对第i个样本对象的第一数据类型A的第一加密子内积。
S203:上述第一设备101向上述第二设备102发送上述公钥与第一加密内积。
具体的,由于所发送的数据为进过加密的第一加密内积,因此若在传输过程中发生数据泄露的问题,在大多数情况下获得第一加密内积的设备也难以获得第一加密内积对应的明文。并且由于第一设备101没有将私钥发送给第二设备102,因此第二设备102难以对第一加密内积进行解密,也就难以得到明文形式的第一内积。
S204:上述第二设备102基于自身存储的第二样本数据与自身配置的第二模型的第二模型参数,计算第二内积,并使用上述公钥对上述第二内积进行加密,得到第二加密内积。
具体的,第二设备执行步骤S204的方式与第一设备执行步骤S202的方式相似,区别仅为第一样本数据更换为第二样本数据,第一模型参数更换为第二模型参数。同样可以先使用各个样本对象对应的第二样本数据与第二模型参数计算该样本对象的第二子内积,再对第二子内积进行加密得到第二加密子内积,并将第二加密子内积组合得到以向量表示的第二加密内积。
本发明的一个实施例中,可以按照以下公式计算得到第二加密子内积:
Figure 917769DEST_PATH_IMAGE002
其中,上述wB为针对数据类型B的第二模型参数,xBi为针对第i个样本对象的数据类型B的第二样本数据,[[ ]]表示采用上述公钥对数据进行加密,vBi为针对第i个样本对象的数据类型B的第二子内积,[[vBi]]为针对第i个样本对象的数据类型B的第二加密子内积。
具体的,在上述第一加密内积与第二加密内积均采用向量的形式表示的情况下,第一加密内积与第二加密内积同一位置处的元素对应同一样本对象。
另外,上述第二样本对象与第一样本对象对应的数据类型不同,上述第二模型与第一模型不同,第二模型的每一第二模型参数分别与一个第二样本数据的数据类型相对应。
S205:上述第二设备102根据上述第一加密内积、第二加密内积与样本标签,计算加密前向梯度。
具体的,由于第一加密内积与第二加密内积均为加密之后的数据,因此基于第一加密内积与第二加密内积计算得到的前向梯度为加密后的加密前向梯度。
其中,上述前向梯度为:用于表示第一模型的第一模型参数与第二模型的第二模型参数总体的调整方向的参数。
本发明的一个实施例中,可以按照以下公式计算得到加密前向梯度:
Figure 610918DEST_PATH_IMAGE003
其中,上述[[g]]为加密前向梯度,[[vA]]为针对数据类型A的第一加密内积,[[vB]]为针对数据类型B的第二加密内积,y为样本标签。
具体的,上述样本标签可以以向量的形式表示,向量的每一元素分别为一个样本对象的样本标签,上述以向量的形式表示的第一加密内积、第二加密内积与样本标签中同一位置的元素对应同一样本对象。
另外,上述公式中仅包含针对数据类型A与针对数据类型B的加密内积,若第一设备101与第二设备102计算得到其他数据类型的加密内积,则在计算得到加密前向梯度的过程中,可以将计算得到的加密内积乘以1/4之后累加到上述公式中,用于计算得到加密前向梯度。
S206:上述第二设备102根据上述加密前向梯度与第二样本数据,计算针对上述第二模型的第二加密梯度。
具体的,前向梯度可以表示第一模型的第一模型参数与第二模型的第二模型参数总体的调整方向的参数,再在前向梯度的基础上,基于第二样本数据可以计算得到表示第二模型的第二模型参数的调整方向的第二加密梯度。
并且,可以分别计算得到针对不同数据类型的第二加密梯度,用于对针对该数据类型的第二模型参数进行调整。
另外,由于上述加密前向梯度为经过加密的数据,因此基于加密前向梯度可以计算得到经过加密的第二加密梯度。
本发明的一个实施例中可以按照以下公式计算得到第二加密梯度:
Figure 265890DEST_PATH_IMAGE004
其中,上述[[gB]]为针对数据类型B的第二加密梯度,[[g]]为加密前向梯度,xB为以向量表示的数据类型B的第二样本数据。
S207:上述第二设备102在上述第二加密梯度中添加掩码,向上述第一设备101发送上述加密前向梯度、添加掩码的第二加密梯度。
具体的,可以生成随机掩码,并在上述第二加密梯度的基础上加上上述随机掩码得到添加掩码的第二加密梯度。
另外, 可以采用上述公钥对上述随机掩码进行加密,得到加密掩码,再在上述第二加密梯度的基础上加上加密掩码,得到添加掩码的第二加密梯度。
并且,由于针对不同数据类型,上述第二加密梯度不同,在针对不同数据类型的第二加密梯度中添加的掩码可以相同,也可以不同。
本发明的一个实施例中,可以按照以下公式计算得到添加掩码的第二加密梯度:
Figure 19083DEST_PATH_IMAGE005
其中,[[gB]]'为针对数据类型B的添加掩码的第二加密梯度,[[gB]]为针对数据类型B的第二加密梯度,RB为针对数据类型B的掩码,[[RB]]为经过加密的针对数据类型B的加密掩码。
S208:上述第一设备101基于上述私钥,分别对上述加密前向梯度、第二加密梯度进行解密,得到前向梯度与第二梯度。
具体的,由于上述加密前向梯度是基于第一样本数据、第一模型参数、第二样本数据、第二模型参数与样本标签共同计算得到的,但由于第一设备101仅存储有第一样本数据与第一模型参数,因此第一设备101即使对加密前向梯度进行解密得到前向梯度的明文,也无法推导出第二样本数据的明文,因此第二设备102存储的第二样本数据难以被泄露给第一设备101。
另外,由于第二加密梯度是由第二设备102添加掩码后得到的第二加密梯度,因此即使第一设备101对第二加密梯度进行解密,由于第一设备101不确定第二设备102添加的掩码因此难以得到第二梯度的明文,所以第二设备102存储的第二样本数据难以被泄露给第一设备101。
S209:上述第一设备101向上述第二设备102发送上述第二梯度。
S210:上述第一设备101根据上述前向梯度与第一样本数据,计算针对上述第一模型的第一梯度。
具体的,第一设备101计算第一梯度的方式与第二设备102计算第二加密梯度的方式相似。由于上述前向梯度与第一样本数据均为未加密的数据,因此计算得到的第一梯度同样为未加密的数据。
本发明的一个实施例中,可以按照以下公式计算得到第一梯度:
Figure 166030DEST_PATH_IMAGE006
其中,上述gA为针对数据类型A的第一梯度,g为前向梯度,xA为以向量表示的数据类型A的第一样本数据。
S211:上述第一设备101根据上述第一梯度对上述第一模型参数进行调整。
本发明的一个实施例中,可以基于学习率与第一梯度对上述第一模型参数进行调整,上述学习率可以为预设值,也可以第二设备102发送给第一设备101的值。
其中,上述学习率可以是上述第二设备102向第一设备101发送的超参数中携带的,上述超参数为用于指示进行模型训练的参数,例如,上述超参数中还可以包含每一轮模型训练所需的第一样本数据的数据量、所使用的第一样本数据的数据类型等。
具体的,针对每一数据类型对应的第一模型参数,可以采用针对该数据类型的第一梯度对该第一模型参数进行调整。
可以按照以下公式对上述第一模型参数进行调整:
Figure 538237DEST_PATH_IMAGE007
其中,上述wA为针对数据类型A的第一模型参数,α为上述学习率,gA为针对数据类型A的第一梯度,wA'为调整后的针对数据类型A的第一模型参数。
S212:上述第一设备101直至满足预设的第一训练终止条件,则将调整后的第一模型参数确定为经过训练的第一模型的模型参数。
具体的,在上述第一设备101调整第一模型参数之后,还可以采用未用于进行模型训练的样本对象的第一样本数据,进行下一轮模型训练,继续对第一模型参数进行调整,直至满足预设的第一训练终止条件。
上述第一训练终止条件可以为调整第一模型参数的次数达到第一预设次数。也可以为所有第一样本数据均被用于进行过模型训练。还可以为第一模型与第二模型的损失满足预设要求。
具体的,可以通过图3所示的步骤S215-S220判断损失是否满足预设要求,从而确定是否满足第一训练终止条件,在此暂不详述。
S213:上述第二设备102去除第二梯度中添加的掩码,基于去除掩码后的第二梯度,对上述第二模型参数进行调整。
具体的,对于针对不同数据类型的第二梯度,可以分别去除该第二梯度的掩码,得到去除掩码后的第二梯度。
可以按照以下公式对上述第二模型参数进行调整:
Figure 454240DEST_PATH_IMAGE008
其中,上述wB为针对数据类型B的第二模型参数,α为上述学习率,gB为针对数据类型B的第一梯度,wB'为调整后的针对数据类型B的第一模型参数。
具体的,上述第一设备101使用的学习率与第二设备102使用的学习率可以相同也可以不同。第一设备101使用的学习率可以是在通过本发明实施例进行模型训练之前第二设备102发送的。
S214:上述第二设备102直至满足预设的第二训练终止条件,则将调整后的第二模型参数确定为经过训练的第二模型的模型参数。
具体的,在上述第二设备调整第二模型参数之后,还可以采用未用于进行模型训练的样本对象的第二样本数据,进行下一轮模型训练,继续对第二模型参数进行调整,直至满足预设的第二训练终止条件。
上述第二训练终止条件可以为调整第二模型参数的次数达到第二预设次数。也可以为所有第二样本数据均被用于进行过模型训练。还可以为第一模型与第二模型的损失满足预设要求。
其中,上述第二预设次数与第一设备101的第一预设次数相同,使得上述第一设备101与第二设备102进行模型训练的次数保持同步。
另外,可以通过图3所示的步骤S215-S220判断是否满足损失满足预设要求,进而确定是否满足第一训练终止条件,在此暂不详述。
由以上可见,第一设备在基于第一样本数据计算得到第一内积后,对第一内积进行加密,并向第二设备发送经过加密的第一加密内积。第二设备中不存在私钥,因此难以对第一加密内积进行解密,也就难以得到第一内积,进而难以得到计算得到第一内积时使用的第一样本数据。所以第一设备中存储的第一样本数据不会暴露给第二设备,第一样本数据的安全性较高。
另外,第二设备在基于第二样本数据计算得到第二加密梯度之后,先在第二加密梯度中添加掩码,再向第一设备发送添加掩码的第二加密梯度。第一设备虽然可以通过私钥对第二加密梯度进行解密得到第二梯度,但由于第二加密梯度中添加有掩码,因此计算得到的第二梯度中包含掩码,第二设备难以根据添加有掩码的第二梯度计算得到第二样本数据。所以第二设备中存储的第二样本数据不会暴露给第一设备,第二样本数据的安全性同样较高。由此可见,模型训练过程中并不需要存储有样本数据的第一设备和第二设备之外的可信第三方设备,并可以在保证第一样本数据与第二样本数据的安全性的情况下,完成模型训练的过程。并且由于现有技术中可信第三方设备可以获取到训练过程中计算得到的中间数据的明文,若上述可信第三方设备与记录有样本数据的任意一方串通,便可能根据上述中间数据与串通方记录的样本数据推导出其他设备记录的样本数据,导致其他设备的样本数据泄露。但本方案中不存在上述可信第三方设备,因此可以避免其他设备的样本数据泄露。
参见图3,为本发明实施例提供的第二种无第三方的逻辑回归联邦学习模型训练方法的流程示意图,与前述图2所示的实施例相比,上述方法还包括以下步骤S215-S220。
S215:上述第二设备102根据上述第一加密内积、第二加密内积与样本标签,计算加密的损失参数组。
其中,上述损失参数组中包含的各个元素分别为:与不同样本对象相对应的、用于计算上述第一模型与第二模型的模型损失的参数。
具体的,上述损失参数组可以以向量的形式表示,损失参数组中的各个元素为向量中的各个元素。上述损失参数组中的元素是计算模型损失的过程中使用的一个变量,由于上述损失参数组中的元素是基于第一设备的第一加密内积、第二设备的第二加密内积共同计算得到的,因此上述损失参数组中的元素可以反映第一模型与第二模型的损失。
并且,计算得到损失参数组时使用的是第一加密内积与第二加密内积,因此计算得到的损失参数组为加密的损失参数组。
本发明的一个实施例中,可以按照以下公式计算得到上述损失参数组中的元素:
Figure 237388DEST_PATH_IMAGE009
其中,[[yiwx]]为损失参数组中针对第i个样本对象的加密的元素,yi为第i个样本对象的样本标签,[[vA]]为针对数据类型A的第一加密内积,[[vB]]为针对数据类型B的第二加密内积。
另外,若在进行模型训练的过程中采用了其他数据类型的样本数据,则可以将各个数据类型对应的加密内积求和,并乘以样本标签得到加密的损失参数组。
并且,由于计算得到加密前向梯度与计算加密的损失参数组时使用的数据相同,因此计算上述加密前向梯度的过程与计算加密的损失参数组的过程可以先后进行。
S216:上述第二设备102向上述第一设备101发送改变元素排列顺序之后的、加密的损失参数组。
具体的,若上述加密前向梯度与加密的损失参数组是先后计算得到的,则可以向第一设备101共同发送加密的损失参数组、第二加密梯度与加密前向梯度。
另外,在计算得到上述损失参数组之后可以随机改变损失参数组中元素的排列顺序。
S217:上述第一设备101基于上述私钥,对上述加密的损失参数组进行解密,得到损失参数组。
具体的,由于上述加密的损失参数组是基于第一加密内积、第二加密内积与样本标签共同计算得到的,第二加密内积是基于第二模型参数与第二样本数据计算得到的,由于上述第一设备101既不存储有样本标签也不存储有第二模型参数,因此即使第一设备101得到明文形式的损失参数组,基于欠定方程组性质,第一设备101无法推导出明文形式的第二样本数据,因此第二样本数据不会泄露给第一设备101。
S218:上述第一设备101根据上述损失参数组中包含的元素,计算模型训练的损失,若上述损失满足预设要求,则确定满足上述第一训练终止条件。
本发明的一个实施例中,可以按照以下公式计算得到上述损失:
Figure 871632DEST_PATH_IMAGE010
其中,上述loss为上述损失,n为样本对象的总数,i为样本对象的编号,yiwx为解密后的损失参数组中针对第i个样本对象的元素。
具体的,由于第二设备发送给第一设备的加密的损失参数组中的元素的顺序发生改变,因此与步骤S215所示的公式相比,步骤S218所示的公式中同一参数i对应的样本对象可能不同。
具体的,若上述损失低于预设损失,则可以认为上述损失满足预设要求,则满足上述第一训练终止条件。
S219:上述第一设备101向上述第二设备102发送训练终止指令。
S220:上述第二设备102若接收到上述第一设备101发送的训练终止指令,则确定满足上述第二训练终止条件。
具体的,若上述第二设备102接收到上述第一设备101发送的训练终止指令,则可以确定上述损失满足预设要求,上述第一模型与第二模型训练结束,因此可以认为满足第二训练终止条件,可以结束上述流程。
由以上可见,上述损失参数组是存储有样本标签的第二设备计算得到的,第二设备将计算得到的加密的损失参数组发送给第一设备,第一设备对加密的损失参数组进行解密,得到损失参数组,基于损失参数组可以计算得到损失,从而可以确定是否能够结束模型训练的过程。并且,损失参数组是基于第一加密内积、第二加密内积与样本标签共同计算得到的,第二加密内积又是基于第二模型参数与第二样本数据计算得到的,上述第一设备既不存储有样本标签,也不存储有第二模型参数,因此即使第一设备能够得到明文形式的损失参数,基于欠定方程组性质,第一设备无法推导出明文形式的第二样本数据,因此第二样本数据不会泄露给第一设备。另外,第二设备在向第一设备发送加密的损失参数组之前对损失参数组中元素的顺序进行了调整,第一设备无法确定损失参数组中各个元素对应哪一样本对象,进一步提高了样本对象的安全程度。因此样本数据在计算损失的过程中安全程度同样较高。
参见图4,为本发明实施例提供的第二种无第三方的逻辑回归联邦学习模型训练系统的结构示意图,与前述图1所示的实施例相比,上述系统还包括至少一个第三设备103。
其中,针对每一样本对象,上述第三设备103中存储有该样本对象的部分样本数据。具体的,上述第三设备103中存储的样本数据与第一设备101、第二设备102中存储的样本数据中可以存在相同的数据。第三设备103用于进行模型训练的第三样本数据与第一样本数据不同,且第三样本数据与第二样本数据不同。
参见图5,为本发明实施例提供的第三种无第三方的逻辑回归联邦学习模型训练方法的流程示意图。与前述图2所示的实施例相比,上述方法还包含以下步骤S221-S223。
S221:上述第一设备101向上述第三设备103发送上述公钥。
S222:上述第三设备103基于自身存储的第三样本数据与自身配置的第三模型的第三模型参数,计算第三内积,并使用上述公钥对上述第三内积进行加密,得到第三加密内积。
其中,第三模型的每一第三模型参数分别与一个第三样本数据的数据类型相对应,针对每一数据种类,可以使用该数据类型的第三样本数据与该针对该数据类型的第三模型参数进行计算,得到针对该数据类型的第三加密内积。上述第三模型与第一模型、第二模型均不相同。
另外,每一数据类型的第三样本数据可以以向量的形式表示,上述向量中的每一元素分别为一个样本对象的第三样本数据,与以向量的形式表示的第一样本数据、第二样本数据相比,在向量的同一位置,三个向量中分别存储同一样本对象的第一样本数据、第二样本数据和第三样本数据。
本发明的一个实施例中,上述步骤S222与前述步骤S204相似,本发明实施例对此不再赘述。
S223:上述第三设备103向上述第二设备102发送上述第三加密内积。
与前述图2所示的实施例相比,上述步骤S205可以通过以下步骤S205A实现。
S205A:上述第二设备102根据上述第一加密内积、第二加密内积、第三加密内积与样本标签,计算加密前向梯度。
具体的,可以分别针对不同数据类型的第一加密内积、第二加密内积、第三加密内积,共同计算上述加密前向梯度。
其中,参见上述步骤S205所示的公式,可以对针对不同数据类型的第一加密内积、第二加密内积、第三加密内积分别乘以
Figure 172163DEST_PATH_IMAGE011
,得到乘积之后计算得到乘积之和。并对样本标签乘以
Figure 316575DEST_PATH_IMAGE012
并采用上述公钥进行加密,得到加密数据。将乘积之和减去加密数据,得到加密前向梯度。
另外,与前述图2所示的实施例相比,上述方法还包括以下步骤S224-S225。
S224:上述第三设备103获得针对上述第三模型的第三梯度,基于上述第三梯度,对上述第三模型参数进行调整。
具体的,上述步骤S224可以通过下述图6所示的步骤S224A-S224F实现,也可以通过下述图7所示的步骤S224G-S224H实现,本发明实施例对此暂不详述。
另外,可以计算得到针对不同数据种类的第三梯度,并基于针对该数据种类的第三梯度对针对该数据种类的第三模型参数进行调整。
具体的,对上述第三模型参数进行调整的方法与前述步骤S211相似,本发明实施例对此不再赘述。
S225:上述第三设备103直至满足预设的第三训练终止条件,则将调整后的第三模型参数确定为经过训练的第三模型的模型参数。
具体的,在上述第三设备103调整第三模型参数之后,还可以采用未用于进行模型训练的样本对象的第三样本数据,进行下一轮模型训练,继续对第三模型参数进行调整,直至满足预设的第三训练终止条件。
上述第三训练终止条件可以为调整第三模型参数的次数达到第三预设次数。也可以为所有第三样本数据均被用于进行过模型训练。还可以为第一模型、第二模型与第三模型的损失满足预设要求。
本发明的一个实施例中,可以通过图3所示的步骤S215-S220判断是否满足损失满足预设要求的第三训练终止条件。具体的,上述第二设备102可以基于第一加密内积、第二加密内积、第三加密内积与样本标签计算加密的损失参数组,并将改变元素排列顺序之后的、加密的损失参数组发送给第一设备101,第一设备101可以基于损失参数组中的元素计算损失,并判断损失是否满足预设要求。本发明实施例对此不再赘述。
由以上可见,本发明实施例提供的方案支持第一设备、第二设备以及至少一个第三设备共同进行模型训练,也就是本发明实施例支持两个以上的设备共同进行模型训练。并且,若出现其他存储有样本数据的设备,可以将上述设备作为第三设备加入上述模型训练系统中,共同进行模型训练,上述模型训练系统是一个支持多设备共同进行模型训练的可拓展系统。另外,在上述过程中,第三设备将经过加密的第三加密内积发送给第二设备,由第二设备继续进行模型训练的过程,由于第二设备不包含私钥,因此第二设备难以对第三加密内积进行解密,也就难以获得第三样本数据的明文,第三样本数据的安全性较高。
参见图6,为本发明实施例提供的第四种无第三方的逻辑回归联邦学习模型训练方法的流程示意图,与前述图5所示的实施例相比,上述步骤S224可以通过以下步骤S224A-S224F实现。
S224A:上述第二设备102向上述第三设备103发送上述加密前向梯度。
S224B:上述第三设备103基于上述加密前向梯度与第三样本数据,计算针对上述第三设备103的第三加密梯度。
S224C:上述第三设备103在上述第三加密梯度中添加掩码,向上述第一设备101发送添加掩码的第三加密梯度。
具体的,上述步骤S224B与S224C与前述步骤S206-S207相似,本发明实施例对此不再赘述。
S224D:上述第一设备101基于上述私钥,对上述第三加密梯度进行解密,得到第三梯度。
由于上述第三加密梯度中添加有掩码,因此上述第一设备101对第三加密梯度进行解密得到的第三梯度中包含掩码,第一设备101难以得知第三设备103添加的掩码,所以第一设备101难以获得不包含掩码的第三梯度的明文,也就难以根据不包含掩码的第三梯度推导出第三样本数据的明文。
S224E:上述第一设备101向上述第三设备103发送上述第三梯度。
S224F:上述第三设备103去除第三梯度中添加的掩码,得到去除掩码后的第三梯度,基于上述第三梯度,对上述第三模型参数进行调整。
由以上可见,由于第三设备向第一设备发送的第三加密梯度中添加有掩码,因此上述第一设备对第三加密梯度进行解密得到的第三梯度中包含掩码,第一设备难以获得不包含掩码的第三梯度的明文,也就难以根据不包含掩码的第三梯度推导出第三样本数据的明文。因此第三样本数据泄露给第一设备的概率较低,第三样本数据的安全性较高。并且通过本发明实施例提供的方案,第三设备能够得到第三梯度。
另外,上述第一设备101与第三设备103均是不存储有样本标签的设备,上述第一设备101与第三设备103均可以被称为数据提供端。由于在数据量相同的情况下,对加密后的数据进行处理所需要的计算资源比对未加密的数据进行处理所需要的计算资源多,由于第一设备101进行数据处理的过程中处理的是未经加密的数据,因此为了节省计算资源,提高计算效率,可以将存储的样本数据维度最高,即存储的样本数据对应的数据种类最多的数据提供端作为第一设备101,从而可以在整体上提高模型训练的过程中数据处理的效率。
参见图7,为本发明实施例提供的第五种无第三方的逻辑回归联邦学习模型训练方法的流程示意图,与前述图5所示的实施例相比,上述步骤S224可以通过以下步骤S224G-步骤S224H实现。
S224G:上述第一设备101向上述第三设备103发送经过解密的前向梯度。
具体的,由于前向梯度是基于第一样本数据、第二样本数据、第三样本数据与样本标签共同计算得到的,第三设备103中不存储有样本标签,因此仅基于自身存储的第三样本数据,第三设备103无法推导出第一样本数据与第二样本数据的具体取值,因此第一样本数据和第二样本数据不会泄露给第三设备。
S224H:上述第三设备103基于上述前向梯度与上述第三样本数据,计算针对上述第三设备103的第三梯度,基于上述第三梯度,对上述第三模型参数进行调整。
本发明的一个实施例中,上述步骤S224H与前述步骤S210相似,本发明实施例对此不再赘述。
由以上可见,由于第三设备中不存储有样本标签,因此即使第一设备将解密后的前向梯度放给第三设备,第三设备仅基于自身存储的第三样本数据,也无法推导出第一样本数据与第二样本数据的具体取值,因此第一样本数据和第二样本数据不会泄露给第三设备,第一样本数据与第二样本数据的安全性较高。并且通过本发明实施例提供的方案,第三设备能够获得第三梯度。
与前述无第三方的逻辑回归联邦学习模型训练系统相对应,本发明实施例还提供了一种应用于第一设备的无第三方的逻辑回归联邦学习模型训练方法。
参见图8,为本发明实施例提供的第六种无第三方的逻辑回归联邦学习模型训练方法的流程示意图,应用于第一设备,针对每一样本对象,上述第一设备存储有该样本对象的部分样本数据,上述方法包括以下步骤S801-S809。
S801:生成公钥与私钥。
S802:基于自身存储的第一样本数据与自身配置的第一模型的第一模型参数,计算第一内积,并使用上述公钥对上述第一内积进行加密,得到第一加密内积。
S803:向第二设备发送上述公钥与第一加密内积,以使得上述第二设备基于上述公钥、第一加密内积,获得加密前向梯度与添加掩码的第二加密梯度。
其中,针对每一样本对象,上述第二设备中存储有该样本对象的部分样本数据,并存储有样本对象的样本标签。
S804:接收上述第二设备发送的加密前向梯度、第二加密梯度。
S805:基于上述私钥,分别对上述加密前向梯度、第二加密梯度进行解密,得到前向梯度与第二梯度。
S806:向上述第二设备发送上述第二梯度。
S807:根据上述前向梯度与第一样本数据,计算针对上述第一模型的第一梯度。
S808:根据上述第一梯度对上述第一模型参数进行调整。
若满足预设的第一训练终止条件,则执行步骤S809,否则需要继续进行模型训练,返回执行步骤S802。
S809:将调整后的第一模型参数确定为经过训练的第一模型的模型参数。
上述应用于第一设备的无第三方的逻辑回归联邦学习模型训练方法与前述无第三方的逻辑回归联邦学习模型训练系统中第一设备执行的步骤相同,本发明实施例对此不再赘述。
由以上可见,第一设备在基于第一样本数据计算得到第一内积后,对第一内积进行加密,并向第二设备发送经过加密的第一加密内积。第二设备中不存在私钥,因此难以对第一加密内积进行解密,也就难以得到第一内积,进而难以得到计算得到第一内积时使用的第一样本数据。所以第一设备中存储的第一样本数据不会暴露给第二设备,第一样本数据的安全性较高。
另外,第二设备向第一设备发送的第二加密梯度添加有掩码。第一设备虽然可以通过私钥对第二加密梯度进行解密得到第二梯度,但由于第二加密梯度中添加有掩码,因此计算得到的第二梯度中包含掩码,第一设备难以根据添加有掩码的第二梯度计算得到第二样本数据。所以第二设备中存储的第二样本数据不会暴露给第一设备,第二样本数据的安全性同样较高。由此可见,模型训练过程中并不需要存储有样本数据的第一设备和第二设备之外的可信第三方设备,并可以在保证第一样本数据与第二样本数据的安全性的情况下,完成模型训练的过程。并且由于现有技术中可信第三方设备可以获取到训练过程中计算得到的中间数据的明文,若上述可信第三方设备与记录有样本数据的任意一方串通,便可能根据上述中间数据与串通方记录的样本数据推导出其他设备记录的样本数据,导致其他设备的样本数据泄露。但本方案中不存在上述可信第三方设备,因此可以避免其他设备的样本数据泄露。
与前述无第三方的逻辑回归联邦学习模型训练系统相对应,本发明实施例还提供了一种应用于第二设备的无第三方的逻辑回归联邦学习模型训练方法。
参见图9,为本发明实施例提供的第七种无第三方的逻辑回归联邦学习模型训练方法的流程示意图,应用于第二设备,针对每一样本对象,所述第二设备存储有该样本对象的部分样本数据,且所述第二设备存储有样本对象的样本标签,上述方法包括以下步骤S901-S908。
S901:接收第一设备发送的公钥与上述第一设备计算得到的第一加密内积。
其中,针对每一样本对象,上述第一设备存储有该样本对象的部分样本数据,上述第一设备存储有私钥。
S902:基于自身存储的第二样本数据与自身配置的第二模型的第二模型参数,计算第二内积,并使用上述公钥对上述第二内积进行加密,得到第二加密内积。
S903:根据上述第一加密内积、第二加密内积与样本标签,计算加密前向梯度。
S904:根据上述加密前向梯度与第二样本数据,计算针对上述第二模型的第二加密梯度。
S905:在上述第二加密梯度中添加掩码,向上述第一设备发送上述加密前向梯度、添加掩码的第二加密梯度。
S906:接收上述第一设备发送的、基于上述私钥对第二加密梯度进行解密得到的添加有掩码的第二梯度。
S907:去除第二梯度中添加的掩码,基于去除掩码后的第二梯度,对上述第二模型参数进行调整。
若满足预设的第二训练终止条件,则执行步骤S908,否则需要继续进行模型训练,返回执行步骤S901。
S908:将调整后的第二模型参数确定为经过训练的第二模型的模型参数。
上述应用于第二设备的无第三方的逻辑回归联邦学习模型训练方法与前述无第三方的逻辑回归联邦学习模型训练系统中第二设备执行的步骤相同,本发明实施例对此不再赘述。
由以上可见,第二设备在基于第二样本数据计算得到第二加密梯度之后,先在第二加密梯度中添加掩码,再向第一设备发送添加掩码的第二加密梯度。第一设备虽然可以通过私钥对第二加密梯度进行解密得到第二梯度,但由于第二加密梯度中添加有掩码,因此计算得到的第二梯度中包含掩码,第一设备难以根据添加有掩码的第二梯度计算得到第二样本数据。所以第二设备中存储的第二样本数据不会暴露给第一设备,第二样本数据的安全性同样较高。
另外,第一设备向第二设备发送的第一加密内积经过加密。第二设备中不存在私钥,因此难以对第一加密内积进行解密,也就难以得到第一内积,进而难以得到计算得到第一内积时使用的第一样本数据。所以第一设备中存储的第一样本数据不会暴露给第二设备,第一样本数据的安全性较高。由此可见,模型训练过程中并不需要存储有样本数据的第一设备和第二设备之外的可信第三方设备,并可以在保证第一样本数据与第二样本数据的安全性的情况下,完成模型训练的过程。由于现有技术中可信第三方设备可以获取到训练过程中计算得到的中间数据的明文,若上述可信第三方设备与记录有样本数据的任意一方串通,便可能根据上述中间数据与串通方记录的样本数据推导出其他设备记录的样本数据,导致其他设备的样本数据泄露。但本方案中不存在上述可信第三方设备,因此可以避免其他设备的样本数据泄露。
与前述无第三方的逻辑回归联邦学习模型训练系统相对应,本发明实施例还提供了一种应用于第三设备的无第三方的逻辑回归联邦学习模型训练方法。
参见图10,为本发明实施例提供的第八种无第三方的逻辑回归联邦学习模型训练方法的流程示意图,应用于第三设备,针对每一样本对象,所述第三设备中存储有该样本对象的部分样本数据,上述方法包括以下步骤S1001-S1005。
S1001:接收第一设备发送的公钥。
其中,针对每一样本对象,上述第一设备中存储有该样本对象的部分样本数据,且上述第一设备中存储有私钥。
S1002:基于自身存储的第三样本数据与自身配置的第三模型的第三模型参数,计算第三内积,并使用上述公钥对上述第三内积进行加密,得到第三加密内积。
S1003:向第二设备发送上述第三加密内积。
其中,针对每一样本对象,上述第二设备中存储有该样本对象的部分样本数据,且上述第二设备中存储有样本标签。
S1004:获得针对第三模型的第三梯度,基于上述第三梯度,对上述第三模型参数进行调整。
若满足预设的第三训练终止条件,则可以执行步骤S1005,否则,需要继续进行模型训练,返回执行步骤S1002。
S1005:将调整后的第三模型参数确定为经过训练的第三模型的模型参数。
上述应用于第三设备的无第三方的逻辑回归联邦学习模型训练方法与前述无第三方的逻辑回归联邦学习模型训练系统中第三设备执行的步骤相同,本发明实施例对此不再赘述。
由以上可见,本发明实施例提供的方案支持第一设备、第二设备以及至少一个第三设备共同进行模型训练,也就是本发明实施例支持两个以上的设备共同进行模型训练。并且,若出现其他存储有样本数据的设备,可以将上述设备作为第三设备加入上述模型训练系统中,共同进行模型训练,上述模型训练系统是一个支持多设备共同进行模型训练的可拓展系统。另外,在上述过程中,第三设备将经过加密的第三加密内积发送给第二设备,由第二设备继续进行模型训练的过程,由于第二设备不包含私钥,因此第二设备难以对第三加密内积进行解密,也就难以获得第三样本数据的明文,第三样本数据的安全性较高。
与前述无第三方的逻辑回归联邦学习模型训练系统相对应,本发明实施例还提供了一种应用于第一设备的无第三方的逻辑回归联邦学习模型训练装置。
参见图11,为本发明实施例提供的第一种无第三方的逻辑回归联邦学习模型训练装置的结构示意图。应用于第一设备,针对每一样本对象,上述第一设备存储有该样本对象的部分样本数据,上述装置包括:
公私钥生成模块1101,用于生成公钥与私钥;
第一内积获得模块1102,用于基于自身存储的第一样本数据与自身配置的第一模型的第一模型参数,计算第一内积,并使用所述公钥对所述第一内积进行加密,得到第一加密内积;
第二梯度获得模块1103,用于向第二设备发送所述公钥与第一加密内积,以使得所述第二设备基于所述公钥、第一加密内积,获得加密前向梯度与添加掩码的第二加密梯度,其中,针对每一样本对象,所述第二设备中存储有该样本对象的部分样本数据,并存储有样本对象的样本标签;
第二梯度接收模块1104,用于接收所述第二设备发送的加密前向梯度、第二加密梯度;
解密模块1105,用于基于所述私钥,分别对所述加密前向梯度、第二加密梯度进行解密,得到前向梯度与第二梯度;
第二梯度发送模块1106,用于向所述第二设备发送所述第二梯度;
第一梯度计算模块1107,用于根据所述前向梯度与第一样本数据,计算针对所述第一模型的第一梯度;
第一参数调整模块1108,用于根据所述第一梯度对所述第一模型参数进行调整;
第一参数确定模块1109,用于直至满足预设的第一训练终止条件,则将调整后的第一模型参数确定为经过训练的第一模型的模型参数。
由以上可见,第一设备在基于第一样本数据计算得到第一内积后,对第一内积进行加密,并向第二设备发送经过加密的第一加密内积。第二设备中不存在私钥,因此难以对第一加密内积进行解密,也就难以得到第一内积,进而难以得到计算得到第一内积时使用的第一样本数据。所以第一设备中存储的第一样本数据不会暴露给第二设备,第一样本数据的安全性较高。
另外,第二设备向第一设备发送的第二加密梯度添加有掩码。第一设备虽然可以通过私钥对第二加密梯度进行解密得到第二梯度,但由于第二加密梯度中添加有掩码,因此计算得到的第二梯度中包含掩码,第一设备难以根据添加有掩码的第二梯度计算得到第二样本数据。所以第二设备中存储的第二样本数据不会暴露给第一设备,第二样本数据的安全性同样较高。由此可见,模型训练过程中并不需要存储有样本数据的第一设备和第二设备之外的可信第三方设备,并可以在保证第一样本数据与第二样本数据的安全性的情况下,完成模型训练的过程。由于现有技术中可信第三方设备可以获取到训练过程中计算得到的中间数据的明文,若上述可信第三方设备与记录有样本数据的任意一方串通,便可能根据上述中间数据与串通方记录的样本数据推导出其他设备记录的样本数据,导致其他设备的样本数据泄露。但本方案中不存在上述可信第三方设备,因此可以避免其他设备的样本数据泄露。
与前述无第三方的逻辑回归联邦学习模型训练系统相对应,本发明实施例还提供了一种应用于第二设备的无第三方的逻辑回归联邦学习模型训练装置。
参见图12,为本发明实施例提供的第二种无第三方的逻辑回归联邦学习模型训练装置的结构示意图。应用于第二设备,针对每一样本对象,所述第二设备存储有该样本对象的部分样本数据,且所述第二设备存储有样本对象的样本标签,所述装置包括:
第一内积接收模块1201,用于接收第一设备发送的公钥与所述第一设备计算得到的第一加密内积,其中,针对每一样本对象,所述第一设备存储有该样本对象的部分样本数据,所述第一设备存储有私钥;
第二内积计算模块1202,用于基于自身存储的第二样本数据与自身配置的第二模型的第二模型参数,计算第二内积,并使用所述公钥对所述第二内积进行加密,得到第二加密内积;
前向梯度计算模块1203,用于根据所述第一加密内积、第二加密内积与样本标签,计算加密前向梯度;
第二梯度计算模块1204,用于根据所述加密前向梯度与第二样本数据,计算针对所述第二模型的第二加密梯度;
掩码添加模块1205,用于在所述第二加密梯度中添加掩码,向所述第一设备发送所述加密前向梯度、添加掩码的第二加密梯度;
解密梯度接收模块1206,用于接收所述第一设备发送的、基于所述私钥对第二加密梯度进行解密得到的添加有掩码的第二梯度;
掩码去除模块1207,用于去除第二梯度中添加的掩码,基于去除掩码后的第二梯度,对所述第二模型参数进行调整;
第二参数确定模块1208,用于直至满足预设的第二训练终止条件,则将调整后的第二模型参数确定为经过训练的第二模型的模型参数。
由以上可见,第二设备在基于第二样本数据计算得到第二加密梯度之后,先在第二加密梯度中添加掩码,再向第一设备发送添加掩码的第二加密梯度。第一设备虽然可以通过私钥对第二加密梯度进行解密得到第二梯度,但由于第二加密梯度中添加有掩码,因此计算得到的第二梯度中包含掩码,第一设备难以根据添加有掩码的第二梯度计算得到第二样本数据。所以第二设备中存储的第二样本数据不会暴露给第一设备,第二样本数据的安全性同样较高。
另外,第一设备向第二设备发送的第一加密内积经过加密。第二设备中不存在私钥,因此难以对第一加密内积进行解密,也就难以得到第一内积,进而难以得到计算得到第一内积时使用的第一样本数据。所以第一设备中存储的第一样本数据不会暴露给第二设备,第一样本数据的安全性较高。由此可见,模型训练过程中并不需要存储有样本数据的第一设备和第二设备之外的可信第三方设备,并可以在保证第一样本数据与第二样本数据的安全性的情况下,完成模型训练的过程。由于现有技术中可信第三方设备可以获取到训练过程中计算得到的中间数据的明文,若上述可信第三方设备与记录有样本数据的任意一方串通,便可能根据上述中间数据与串通方记录的样本数据推导出其他设备记录的样本数据,导致其他设备的样本数据泄露。但本方案中不存在上述可信第三方设备,因此可以避免其他设备的样本数据泄露。
与前述无第三方的逻辑回归联邦学习模型训练系统相对应,本发明实施例还提供了一种应用于第三设备的无第三方的逻辑回归联邦学习模型训练装置。
参见图13,为本发明实施例提供的第三种无第三方的逻辑回归联邦学习模型训练装置的结构示意图。应用于第三设备,针对每一样本对象,所述第三设备中存储有该样本对象的部分样本数据,所述装置包括:
公钥接收模块1301,用于接收第一设备发送的公钥,其中,针对每一样本对象,所述第一设备中存储有该样本对象的部分样本数据,且所述第一设备中存储有私钥;
第三内积计算模块1302,用于基于自身存储的第三样本数据与自身配置的第三模型的第三模型参数,计算第三内积,并使用所述公钥对所述第三内积进行加密,得到第三加密内积;
第三内积发送模块1303,用于向第二设备发送所述第三加密内积,其中,针对每一样本对象,所述第二设备中存储有该样本对象的部分样本数据,且所述第二设备中存储有样本标签;
第三梯度获得模块1304,用于获得针对第三模型的第三梯度,基于所述第三梯度,对所述第三模型参数进行调整;
第三参数确定模块1305,用于直至满足预设的第三训练终止条件,则将调整后的第三模型参数确定为经过训练的第三模型的模型参数。
由以上可见,本发明实施例提供的方案支持第一设备、第二设备以及至少一个第三设备共同进行模型训练,也就是本发明实施例支持两个以上的设备共同进行模型训练。并且,若出现其他存储有样本数据的设备,可以将上述设备作为第三设备加入上述模型训练系统中,共同进行模型训练,上述模型训练系统是一个支持多设备共同进行模型训练的可拓展系统。另外,在上述过程中,第三设备将经过加密的第三加密内积发送给第二设备,由第二设备继续进行模型训练的过程,由于第二设备不包含私钥,因此第二设备难以对第三加密内积进行解密,也就难以获得第三样本数据的明文,第三样本数据的安全性较高。
本发明实施例还提供了第一种电子设备,作为第一设备,如图14所示,包括处理器1401、通信接口1402、存储器1403和通信总线1404,其中,处理器1401,通信接口1402,存储器1403通过通信总线1404完成相互间的通信,
存储器1403,用于存放计算机程序;
处理器1401,用于执行存储器1403上所存放的程序时,实现应用于第一设备的无第三方的逻辑回归联邦学习模型训练方法任意所述的方法步骤。
应用本发明实施例提供的第一设备进行模型训练时,第一设备在基于第一样本数据计算得到第一内积后,对第一内积进行加密,并向第二设备发送经过加密的第一加密内积。第二设备中不存在私钥,因此难以对第一加密内积进行解密,也就难以得到第一内积,进而难以得到计算得到第一内积时使用的第一样本数据。所以第一设备中存储的第一样本数据不会暴露给第二设备,第一样本数据的安全性较高。
另外,第二设备向第一设备发送的第二加密梯度添加有掩码。第一设备虽然可以通过私钥对第二加密梯度进行解密得到第二梯度,但由于第二加密梯度中添加有掩码,因此计算得到的第二梯度中包含掩码,第一设备难以根据添加有掩码的第二梯度计算得到第二样本数据。所以第二设备中存储的第二样本数据不会暴露给第一设备,第二样本数据的安全性同样较高。由此可见,模型训练过程中并不需要存储有样本数据的第一设备和第二设备之外的可信第三方设备,并可以在保证第一样本数据与第二样本数据的安全性的情况下,完成模型训练的过程。由于现有技术中可信第三方设备可以获取到训练过程中计算得到的中间数据的明文,若上述可信第三方设备与记录有样本数据的任意一方串通,便可能根据上述中间数据与串通方记录的样本数据推导出其他设备记录的样本数据,导致其他设备的样本数据泄露。但本方案中不存在上述可信第三方设备,因此可以避免其他设备的样本数据泄露。
本发明实施例还提供了一种电子设备,作为第二设备,如图15所示,包括处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信,
存储器1503,用于存放计算机程序;
处理器1501,用于执行存储器1503上所存放的程序时,实现应用于第二设备的无第三方的逻辑回归联邦学习模型训练方法任意所述的方法步骤。
应用本发明实施例提供的第二设备进行模型训练时,第二设备在基于第二样本数据计算得到第二加密梯度之后,先在第二加密梯度中添加掩码,再向第一设备发送添加掩码的第二加密梯度。第一设备虽然可以通过私钥对第二加密梯度进行解密得到第二梯度,但由于第二加密梯度中添加有掩码,因此计算得到的第二梯度中包含掩码,第一设备难以根据添加有掩码的第二梯度计算得到第二样本数据。所以第二设备中存储的第二样本数据不会暴露给第一设备,第二样本数据的安全性同样较高。
另外,第一设备向第二设备发送的第一加密内积经过加密。第二设备中不存在私钥,因此难以对第一加密内积进行解密,也就难以得到第一内积,进而难以得到计算得到第一内积时使用的第一样本数据。所以第一设备中存储的第一样本数据不会暴露给第二设备,第一样本数据的安全性较高。由此可见,模型训练过程中并不需要存储有样本数据的第一设备和第二设备之外的可信第三方设备,并可以在保证第一样本数据与第二样本数据的安全性的情况下,完成模型训练的过程。由于现有技术中可信第三方设备可以获取到训练过程中计算得到的中间数据的明文,若上述可信第三方设备与记录有样本数据的任意一方串通,便可能根据上述中间数据与串通方记录的样本数据推导出其他设备记录的样本数据,导致其他设备的样本数据泄露。但本方案中不存在上述可信第三方设备,因此可以避免其他设备的样本数据泄露。
本发明实施例还提供了一种电子设备,作为第三设备,如图16所示,包括处理器1601、通信接口1602、存储器1603和通信总线1604,其中,处理器1601,通信接口1602,存储器1603通过通信总线1604完成相互间的通信,
存储器1603,用于存放计算机程序;
处理器1601,用于执行存储器1603上所存放的程序时,实现应用于第三设备的无第三方的逻辑回归联邦学习模型训练方法任意所述的方法步骤。
应用本发明实施例提供的第三设备进行模型训练时,本发明实施例提供的方案支持第一设备、第二设备以及至少一个第三设备共同进行模型训练,也就是本发明实施例支持两个以上的设备共同进行模型训练。并且,若出现其他存储有样本数据的设备,可以将上述设备作为第三设备加入上述模型训练系统中,共同进行模型训练,上述模型训练系统是一个支持多设备共同进行模型训练的可拓展系统。另外,在上述过程中,第三设备将经过加密的第三加密内积发送给第二设备,由第二设备继续进行模型训练的过程,由于第二设备不包含私钥,因此第二设备难以对第三加密内积进行解密,也就难以获得第三样本数据的明文,第三样本数据的安全性较高。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述应用于第一设备的无第三方的逻辑回归联邦学习模型训练方法任一所述的方法步骤。
应用本发明实施例提供的计算机可读存储介质中存储的计算机程序进行针对第一设备的模型训练时,第一设备在基于第一样本数据计算得到第一内积后,对第一内积进行加密,并向第二设备发送经过加密的第一加密内积。第二设备中不存在私钥,因此难以对第一加密内积进行解密,也就难以得到第一内积,进而难以得到计算得到第一内积时使用的第一样本数据。所以第一设备中存储的第一样本数据不会暴露给第二设备,第一样本数据的安全性较高。
另外,第二设备向第一设备发送的第二加密梯度添加有掩码。第一设备虽然可以通过私钥对第二加密梯度进行解密得到第二梯度,但由于第二加密梯度中添加有掩码,因此计算得到的第二梯度中包含掩码,第一设备难以根据添加有掩码的第二梯度计算得到第二样本数据。所以第二设备中存储的第二样本数据不会暴露给第一设备,第二样本数据的安全性同样较高。由此可见,模型训练过程中并不需要存储有样本数据的第一设备和第二设备之外的可信第三方设备,并可以在保证第一样本数据与第二样本数据的安全性的情况下,完成模型训练的过程。并且由于现有技术中可信第三方设备可以获取到训练过程中计算得到的中间数据的明文,若上述可信第三方设备与记录有样本数据的任意一方串通,便可能根据上述中间数据与串通方记录的样本数据推导出其他设备记录的样本数据,导致其他设备的样本数据泄露。但本方案中不存在上述可信第三方设备,因此可以避免其他设备的样本数据泄露。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述应用于第二设备的无第三方的逻辑回归联邦学习模型训练方法任一所述的方法步骤。
应用本发明实施例提供的计算机可读存储介质中存储的计算机程序进行针对第二设备的模型训练时,第二设备在基于第二样本数据计算得到第二加密梯度之后,先在第二加密梯度中添加掩码,再向第一设备发送添加掩码的第二加密梯度。第一设备虽然可以通过私钥对第二加密梯度进行解密得到第二梯度,但由于第二加密梯度中添加有掩码,因此计算得到的第二梯度中包含掩码,第一设备难以根据添加有掩码的第二梯度计算得到第二样本数据。所以第二设备中存储的第二样本数据不会暴露给第一设备,第二样本数据的安全性同样较高。
另外,第一设备向第二设备发送的第一加密内积经过加密。第二设备中不存在私钥,因此难以对第一加密内积进行解密,也就难以得到第一内积,进而难以得到计算得到第一内积时使用的第一样本数据。所以第一设备中存储的第一样本数据不会暴露给第二设备,第一样本数据的安全性较高。由此可见,模型训练过程中并不需要存储有样本数据的第一设备和第二设备之外的可信第三方设备,并可以在保证第一样本数据与第二样本数据的安全性的情况下,完成模型训练的过程。并且由于现有技术中可信第三方设备可以获取到训练过程中计算得到的中间数据的明文,若上述可信第三方设备与记录有样本数据的任意一方串通,便可能根据上述中间数据与串通方记录的样本数据推导出其他设备记录的样本数据,导致其他设备的样本数据泄露。但本方案中不存在上述可信第三方设备,因此可以避免其他设备的样本数据泄露。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述应用于第三设备的无第三方的逻辑回归联邦学习模型训练方法任一所述的方法步骤。
应用本发明实施例提供的计算机可读存储介质中存储的计算机程序进行针对第三设备的模型训练时,本发明实施例提供的方案支持第一设备、第二设备以及至少一个第三设备共同进行模型训练,也就是本发明实施例支持两个以上的设备共同进行模型训练。并且,若出现其他存储有样本数据的设备,可以将上述设备作为第三设备加入上述模型训练系统中,共同进行模型训练,上述模型训练系统是一个支持多设备共同进行模型训练的可拓展系统。另外,在上述过程中,第三设备将经过加密的第三加密内积发送给第二设备,由第二设备继续进行模型训练的过程,由于第二设备不包含私钥,因此第二设备难以对第三加密内积进行解密,也就难以获得第三样本数据的明文,第三样本数据的安全性较高。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中应用于第一设备的无第三方的逻辑回归联邦学习模型训练方法任一所述的方法步骤。
应用本发明实施例提供的计算机程序产品进行针对第一设备的模型训练时,第一设备在基于第一样本数据计算得到第一内积后,对第一内积进行加密,并向第二设备发送经过加密的第一加密内积。第二设备中不存在私钥,因此难以对第一加密内积进行解密,也就难以得到第一内积,进而难以得到计算得到第一内积时使用的第一样本数据。所以第一设备中存储的第一样本数据不会暴露给第二设备,第一样本数据的安全性较高。
另外,第二设备向第一设备发送的第二加密梯度添加有掩码。第一设备虽然可以通过私钥对第二加密梯度进行解密得到第二梯度,但由于第二加密梯度中添加有掩码,因此计算得到的第二梯度中包含掩码,第一设备难以根据添加有掩码的第二梯度计算得到第二样本数据。所以第二设备中存储的第二样本数据不会暴露给第一设备,第二样本数据的安全性同样较高。由此可见,模型训练过程中并不需要存储有样本数据的第一设备和第二设备之外的可信第三方设备,并可以在保证第一样本数据与第二样本数据的安全性的情况下,完成模型训练的过程。并且由于现有技术中可信第三方设备可以获取到训练过程中计算得到的中间数据的明文,若上述可信第三方设备与记录有样本数据的任意一方串通,便可能根据上述中间数据与串通方记录的样本数据推导出其他设备记录的样本数据,导致其他设备的样本数据泄露。但本方案中不存在上述可信第三方设备,因此可以避免其他设备的样本数据泄露。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中应用于第二设备的无第三方的逻辑回归联邦学习模型训练方法任一所述的方法步骤。
应用本发明实施例提供的计算机程序产品进行针对第二设备的模型训练时,第二设备在基于第二样本数据计算得到第二加密梯度之后,先在第二加密梯度中添加掩码,再向第一设备发送添加掩码的第二加密梯度。第一设备虽然可以通过私钥对第二加密梯度进行解密得到第二梯度,但由于第二加密梯度中添加有掩码,因此计算得到的第二梯度中包含掩码,第一设备难以根据添加有掩码的第二梯度计算得到第二样本数据。所以第二设备中存储的第二样本数据不会暴露给第一设备,第二样本数据的安全性同样较高。
另外,第一设备向第二设备发送的第一加密内积经过加密。第二设备中不存在私钥,因此难以对第一加密内积进行解密,也就难以得到第一内积,进而难以得到计算得到第一内积时使用的第一样本数据。所以第一设备中存储的第一样本数据不会暴露给第二设备,第一样本数据的安全性较高。由此可见,模型训练过程中并不需要存储有样本数据的第一设备和第二设备之外的可信第三方设备,并可以在保证第一样本数据与第二样本数据的安全性的情况下,完成模型训练的过程。并且由于现有技术中可信第三方设备可以获取到训练过程中计算得到的中间数据的明文,若上述可信第三方设备与记录有样本数据的任意一方串通,便可能根据上述中间数据与串通方记录的样本数据推导出其他设备记录的样本数据,导致其他设备的样本数据泄露。但本方案中不存在上述可信第三方设备,因此可以避免其他设备的样本数据泄露。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中应用于第三设备的无第三方的逻辑回归联邦学习模型训练方法任一所述的方法步骤。
应用本发明实施例提供的计算机程序产品进行针对第三设备的模型训练时,本发明实施例提供的方案支持第一设备、第二设备以及至少一个第三设备共同进行模型训练,也就是本发明实施例支持两个以上的设备共同进行模型训练。并且,若出现其他存储有样本数据的设备,可以将上述设备作为第三设备加入上述模型训练系统中,共同进行模型训练,上述模型训练系统是一个支持多设备共同进行模型训练的可拓展系统。另外,在上述过程中,第三设备将经过加密的第三加密内积发送给第二设备,由第二设备继续进行模型训练的过程,由于第二设备不包含私钥,因此第二设备难以对第三加密内积进行解密,也就难以获得第三样本数据的明文,第三样本数据的安全性较高。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk (SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于方法、装置、电子设备、存储介质与计算机程序产品而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (15)

1.一种无第三方的逻辑回归联邦学习模型训练系统,其特征在于,所述系统包括:第一设备与第二设备,其中,针对每一样本对象,所述第一设备与第二设备中分别存储有该样本对象的部分样本数据,第二设备中存储有样本对象的样本标签;
所述第一设备,用于生成公钥与私钥;基于自身存储的第一样本数据与自身配置的第一模型的第一模型参数,计算第一内积,并使用所述公钥对所述第一内积进行加密,得到第一加密内积;向所述第二设备发送所述公钥与第一加密内积;
所述第二设备,用于基于自身存储的第二样本数据与自身配置的第二模型的第二模型参数,计算第二内积,并使用所述公钥对所述第二内积进行加密,得到第二加密内积;根据所述第一加密内积、第二加密内积与样本标签,计算加密前向梯度;根据所述加密前向梯度与第二样本数据,计算针对所述第二模型的第二加密梯度;在所述第二加密梯度中添加掩码,向所述第一设备发送所述加密前向梯度、添加掩码的第二加密梯度;
所述第一设备,用于基于所述私钥,分别对所述加密前向梯度、第二加密梯度进行解密,得到前向梯度与第二梯度;向所述第二设备发送所述第二梯度;根据所述前向梯度与第一样本数据,计算针对所述第一模型的第一梯度;根据所述第一梯度对所述第一模型参数进行调整;直至满足预设的第一训练终止条件,则将调整后的第一模型参数确定为经过训练的第一模型的模型参数;
所述第二设备,用于去除第二梯度中添加的掩码,基于去除掩码后的第二梯度,对所述第二模型参数进行调整;直至满足预设的第二训练终止条件,则将调整后的第二模型参数确定为经过训练的第二模型的模型参数。
2.根据权利要求1所述的系统,其特征在于,
所述第二设备,还用于根据所述第一加密内积、第二加密内积与样本标签,计算加密的损失参数组,向所述第一设备发送改变元素排列顺序之后的、加密的损失参数组,其中,所述损失参数组中包含的各个元素分别为:与不同样本对象相对应的、用于计算所述第一模型与第二模型的模型损失的参数;
所述第一设备,还用于基于所述私钥,对所述加密的损失参数组进行解密,得到损失参数组;根据所述损失参数组中包含的元素,计算模型训练的损失,若所述损失满足预设要求,则确定满足所述第一训练终止条件,并向所述第二设备发送训练终止指令;
所述第二设备,还用于若接收到所述第一设备发送的训练终止指令,则确定满足所述第二训练终止条件。
3.根据权利要求1或2所述的系统,其特征在于,所述系统还包括:至少一个第三设备,其中,针对每一样本对象,所述第三设备中存储有该样本对象的部分样本数据;
所述第一设备,还用于向所述第三设备发送所述公钥;
所述第三设备,用于基于自身存储的第三样本数据与自身配置的第三模型的第三模型参数,计算第三内积,并使用所述公钥对所述第三内积进行加密,得到第三加密内积;向所述第二设备发送所述第三加密内积;
所述第二设备,具体用于根据所述第一加密内积、第二加密内积、第三加密内积与样本标签,计算加密前向梯度;
所述第三设备,还用于获得针对所述第三模型的第三梯度,基于所述第三梯度,对所述第三模型参数进行调整;直至满足预设的第三训练终止条件,则将调整后的第三模型参数确定为经过训练的第三模型的模型参数。
4.根据权利要求3所述的系统,其特征在于,
所述第二设备,还用于向所述第三设备发送所述加密前向梯度;
所述第三设备,具体用于基于所述加密前向梯度与第三样本数据,计算针对所述第三设备的第三加密梯度;在所述第三加密梯度中添加掩码,向所述第一设备发送添加掩码的第三加密梯度;
所述第一设备,还用于基于所述私钥,对所述第三加密梯度进行解密,得到第三梯度;向所述第三设备发送所述第三梯度;
所述第三设备,具体用于去除第三梯度中添加的掩码,得到去除掩码后的第三梯度。
5.根据权利要求3所述的系统,其特征在于,
所述第一设备,还用于向所述第三设备发送经过解密的前向梯度;
所述第三设备,具体用于基于所述前向梯度与所述第三样本数据,计算针对所述第三设备的第三梯度。
6.根据权利要求1或2所述的系统,其特征在于,
所述第二设备,还用于向所述第一设备发送超参数,其中,所述超参数中包含模型训练的学习率;
所述第一设备,具体用于根据所述第一梯度与所述学习率,对所述第一模型参数进行调整;
所述第二设备,具体用于根据所述第二梯度与所述学习率,对所述第二模型参数进行调整。
7.根据权利要求1或2所述的系统,其特征在于,
所述第一设备,具体用于使用所述公钥对所述第一内积进行同态加密;
所述第二设备,具体用于使用所述公钥对所述第二内积进行同态加密。
8.一种无第三方的逻辑回归联邦学习模型训练方法,其特征在于,应用于第一设备,针对每一样本对象,所述第一设备存储有该样本对象的部分样本数据,所述方法包括:
生成公钥与私钥;
基于自身存储的第一样本数据与自身配置的第一模型的第一模型参数,计算第一内积,并使用所述公钥对所述第一内积进行加密,得到第一加密内积;
向第二设备发送所述公钥与第一加密内积,以使得所述第二设备基于所述公钥、第一加密内积,获得加密前向梯度与添加掩码的第二加密梯度,其中,针对每一样本对象,所述第二设备中存储有该样本对象的部分样本数据,并存储有样本对象的样本标签;
接收所述第二设备发送的加密前向梯度、第二加密梯度;
基于所述私钥,分别对所述加密前向梯度、第二加密梯度进行解密,得到前向梯度与第二梯度;
向所述第二设备发送所述第二梯度;
根据所述前向梯度与第一样本数据,计算针对所述第一模型的第一梯度;
根据所述第一梯度对所述第一模型参数进行调整;
直至满足预设的第一训练终止条件,则将调整后的第一模型参数确定为经过训练的第一模型的模型参数。
9.一种无第三方的逻辑回归联邦学习模型训练方法,其特征在于,应用于第二设备,针对每一样本对象,所述第二设备存储有该样本对象的部分样本数据,且所述第二设备存储有样本对象的样本标签,所述方法包括:
接收第一设备发送的公钥与所述第一设备计算得到的第一加密内积,其中,针对每一样本对象,所述第一设备存储有该样本对象的部分样本数据,所述第一设备存储有私钥;
基于自身存储的第二样本数据与自身配置的第二模型的第二模型参数,计算第二内积,并使用所述公钥对所述第二内积进行加密,得到第二加密内积;
根据所述第一加密内积、第二加密内积与样本标签,计算加密前向梯度;
根据所述加密前向梯度与第二样本数据,计算针对所述第二模型的第二加密梯度;
在所述第二加密梯度中添加掩码,向所述第一设备发送所述加密前向梯度、添加掩码的第二加密梯度;
接收所述第一设备发送的、基于所述私钥对第二加密梯度进行解密得到的添加有掩码的第二梯度;
去除第二梯度中添加的掩码,基于去除掩码后的第二梯度,对所述第二模型参数进行调整;
直至满足预设的第二训练终止条件,则将调整后的第二模型参数确定为经过训练的第二模型的模型参数。
10.一种无第三方的逻辑回归联邦学习模型训练方法,其特征在于,应用于第三设备,针对每一样本对象,所述第三设备中存储有该样本对象的部分样本数据,所述方法包括:
接收第一设备发送的公钥,其中,针对每一样本对象,所述第一设备中存储有该样本对象的部分样本数据,且所述第一设备中存储有私钥;
基于自身存储的第三样本数据与自身配置的第三模型的第三模型参数,计算第三内积,并使用所述公钥对所述第三内积进行加密,得到第三加密内积;
向第二设备发送所述第三加密内积,其中,针对每一样本对象,所述第二设备中存储有该样本对象的部分样本数据,且所述第二设备中存储有样本标签;
获得针对第三模型的第三梯度,基于所述第三梯度,对所述第三模型参数进行调整;
直至满足预设的第三训练终止条件,则将调整后的第三模型参数确定为经过训练的第三模型的模型参数。
11.一种无第三方的逻辑回归联邦学习模型训练装置,其特征在于,应用于第一设备,针对每一样本对象,所述第一设备存储有该样本对象的部分样本数据,所述装置包括:
公私钥生成模块,用于生成公钥与私钥;
第一内积获得模块,用于基于自身存储的第一样本数据与自身配置的第一模型的第一模型参数,计算第一内积,并使用所述公钥对所述第一内积进行加密,得到第一加密内积;
第二梯度获得模块,用于向第二设备发送所述公钥与第一加密内积,以使得所述第二设备基于所述公钥、第一加密内积,获得加密前向梯度与添加掩码的第二加密梯度,其中,针对每一样本对象,所述第二设备中存储有该样本对象的部分样本数据,并存储有样本对象的样本标签;
第二梯度接收模块,用于接收所述第二设备发送的加密前向梯度、第二加密梯度;
解密模块,用于基于所述私钥,分别对所述加密前向梯度、第二加密梯度进行解密,得到前向梯度与第二梯度;
第二梯度发送模块,用于向所述第二设备发送所述第二梯度;
第一梯度计算模块,用于根据所述前向梯度与第一样本数据,计算针对所述第一模型的第一梯度;
第一参数调整模块,用于根据所述第一梯度对所述第一模型参数进行调整;
第一参数确定模块,用于直至满足预设的第一训练终止条件,则将调整后的第一模型参数确定为经过训练的第一模型的模型参数。
12.一种无第三方的逻辑回归联邦学习模型训练装置,其特征在于,应用于第二设备,针对每一样本对象,所述第二设备存储有该样本对象的部分样本数据,且所述第二设备存储有样本对象的样本标签,所述装置包括:
第一内积接收模块,用于接收第一设备发送的公钥与所述第一设备计算得到的第一加密内积,其中,针对每一样本对象,所述第一设备存储有该样本对象的部分样本数据,所述第一设备存储有私钥;
第二内积计算模块,用于基于自身存储的第二样本数据与自身配置的第二模型的第二模型参数,计算第二内积,并使用所述公钥对所述第二内积进行加密,得到第二加密内积;
前向梯度计算模块,用于根据所述第一加密内积、第二加密内积与样本标签,计算加密前向梯度;
第二梯度计算模块,用于根据所述加密前向梯度与第二样本数据,计算针对所述第二模型的第二加密梯度;
掩码添加模块,用于在所述第二加密梯度中添加掩码,向所述第一设备发送所述加密前向梯度、添加掩码的第二加密梯度;
解密梯度接收模块,用于接收所述第一设备发送的、基于所述私钥对第二加密梯度进行解密得到的添加有掩码的第二梯度;
掩码去除模块,用于去除第二梯度中添加的掩码,基于去除掩码后的第二梯度,对所述第二模型参数进行调整;
第二参数确定模块,用于直至满足预设的第二训练终止条件,则将调整后的第二模型参数确定为经过训练的第二模型的模型参数。
13.一种无第三方的逻辑回归联邦学习模型训练装置,其特征在于,应用于第三设备,针对每一样本对象,所述第三设备中存储有该样本对象的部分样本数据,所述装置包括:
公钥接收模块,用于接收第一设备发送的公钥,其中,针对每一样本对象,所述第一设备中存储有该样本对象的部分样本数据,且所述第一设备中存储有私钥;
第三内积计算模块,用于基于自身存储的第三样本数据与自身配置的第三模型的第三模型参数,计算第三内积,并使用所述公钥对所述第三内积进行加密,得到第三加密内积;
第三内积发送模块,用于向第二设备发送所述第三加密内积,其中,针对每一样本对象,所述第二设备中存储有该样本对象的部分样本数据,且所述第二设备中存储有样本标签;
第三梯度获得模块,用于获得针对第三模型的第三梯度,基于所述第三梯度,对所述第三模型参数进行调整;
第三参数确定模块,用于直至满足预设的第三训练终止条件,则将调整后的第三模型参数确定为经过训练的第三模型的模型参数。
14.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求8、9或10任一所述的方法步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求8、9或10任一所述的方法步骤。
CN202110787566.3A 2021-07-13 2021-07-13 一种无第三方的逻辑回归联邦学习模型训练系统及方法 Active CN113239391B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110787566.3A CN113239391B (zh) 2021-07-13 2021-07-13 一种无第三方的逻辑回归联邦学习模型训练系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110787566.3A CN113239391B (zh) 2021-07-13 2021-07-13 一种无第三方的逻辑回归联邦学习模型训练系统及方法

Publications (2)

Publication Number Publication Date
CN113239391A true CN113239391A (zh) 2021-08-10
CN113239391B CN113239391B (zh) 2023-01-10

Family

ID=77135379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110787566.3A Active CN113239391B (zh) 2021-07-13 2021-07-13 一种无第三方的逻辑回归联邦学习模型训练系统及方法

Country Status (1)

Country Link
CN (1) CN113239391B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516256A (zh) * 2021-09-14 2021-10-19 深圳市洞见智慧科技有限公司 基于秘密共享、同态加密的无第三方联邦学习方法及系统
CN114221811A (zh) * 2021-12-15 2022-03-22 建信金融科技有限责任公司 模型建立方法、装置、设备及计算机存储介质
CN115580496A (zh) * 2022-12-09 2023-01-06 北京融数联智科技有限公司 无需第三方的隐私计算下逻辑回归训练方法、系统及装置
CN117034000A (zh) * 2023-03-22 2023-11-10 浙江明日数据智能有限公司 纵向联邦学习的建模方法、装置、存储介质以及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635462A (zh) * 2018-12-17 2019-04-16 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、装置、设备及介质
CN109886417A (zh) * 2019-03-01 2019-06-14 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、装置、设备及介质
CN111177768A (zh) * 2020-04-10 2020-05-19 支付宝(杭州)信息技术有限公司 保护数据隐私的双方联合训练业务预测模型的方法和装置
CN111931216A (zh) * 2020-09-16 2020-11-13 支付宝(杭州)信息技术有限公司 一种基于隐私保护的方式获取联合训练模型的方法及系统
US20210004718A1 (en) * 2019-07-03 2021-01-07 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for training a model based on federated learning
CN112288100A (zh) * 2020-12-29 2021-01-29 支付宝(杭州)信息技术有限公司 一种基于联邦学习进行模型参数更新的方法、系统及装置
WO2021022717A1 (zh) * 2019-08-02 2021-02-11 深圳前海微众银行股份有限公司 联邦学习中特征相关性分析方法、装置及可读存储介质
CN112906912A (zh) * 2021-04-01 2021-06-04 深圳市洞见智慧科技有限公司 纵向联邦学习中无可信第三方的回归模型训练方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635462A (zh) * 2018-12-17 2019-04-16 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、装置、设备及介质
CN109886417A (zh) * 2019-03-01 2019-06-14 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、装置、设备及介质
US20210004718A1 (en) * 2019-07-03 2021-01-07 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for training a model based on federated learning
WO2021022717A1 (zh) * 2019-08-02 2021-02-11 深圳前海微众银行股份有限公司 联邦学习中特征相关性分析方法、装置及可读存储介质
CN111177768A (zh) * 2020-04-10 2020-05-19 支付宝(杭州)信息技术有限公司 保护数据隐私的双方联合训练业务预测模型的方法和装置
CN111931216A (zh) * 2020-09-16 2020-11-13 支付宝(杭州)信息技术有限公司 一种基于隐私保护的方式获取联合训练模型的方法及系统
CN112288100A (zh) * 2020-12-29 2021-01-29 支付宝(杭州)信息技术有限公司 一种基于联邦学习进行模型参数更新的方法、系统及装置
CN112906912A (zh) * 2021-04-01 2021-06-04 深圳市洞见智慧科技有限公司 纵向联邦学习中无可信第三方的回归模型训练方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHENGWEN YANG 等: "Parallel Distributed Logistic Regression for Vertical Federated Learning without Third-Party Coordinator", 《ARXIV》 *
李启飞: "面向隐私保护的多方联合学习方法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516256A (zh) * 2021-09-14 2021-10-19 深圳市洞见智慧科技有限公司 基于秘密共享、同态加密的无第三方联邦学习方法及系统
CN113516256B (zh) * 2021-09-14 2021-12-03 深圳市洞见智慧科技有限公司 基于秘密共享、同态加密的无第三方联邦学习方法及系统
CN114221811A (zh) * 2021-12-15 2022-03-22 建信金融科技有限责任公司 模型建立方法、装置、设备及计算机存储介质
CN114221811B (zh) * 2021-12-15 2023-05-26 建信金融科技有限责任公司 模型建立方法、装置、设备及计算机存储介质
CN115580496A (zh) * 2022-12-09 2023-01-06 北京融数联智科技有限公司 无需第三方的隐私计算下逻辑回归训练方法、系统及装置
CN115580496B (zh) * 2022-12-09 2023-03-28 北京融数联智科技有限公司 无需第三方的隐私计算下逻辑回归训练方法、系统及装置
CN117034000A (zh) * 2023-03-22 2023-11-10 浙江明日数据智能有限公司 纵向联邦学习的建模方法、装置、存储介质以及电子设备

Also Published As

Publication number Publication date
CN113239391B (zh) 2023-01-10

Similar Documents

Publication Publication Date Title
CN113239391B (zh) 一种无第三方的逻辑回归联邦学习模型训练系统及方法
US20240113858A1 (en) Systems and Methods for Performing Secure Machine Learning Analytics Using Homomorphic Encryption
CN110457912B (zh) 数据处理方法、装置和电子设备
CN111723404B (zh) 联合训练业务模型的方法及装置
CN111125727B (zh) 混淆电路生成方法、预测结果确定方法、装置和电子设备
CN111428887B (zh) 一种基于多个计算节点的模型训练控制方法、装置及系统
CN110427969B (zh) 数据处理方法、装置和电子设备
CN114696990B (zh) 基于全同态加密的多方计算方法、系统及相关设备
CN114936650A (zh) 基于隐私保护的联合训练业务模型的方法及装置
CN112805769B (zh) 秘密s型函数计算系统、装置、方法及记录介质
CN114491590A (zh) 基于联邦因子分解机的同态加密方法、系统、设备及存储介质
CN113711247A (zh) 一种机器学习模型的数据处理方法、装置及系统
CN116561787A (zh) 视觉图像分类模型的训练方法、装置及电子设备
CN113792890B (zh) 一种基于联邦学习的模型训练方法及相关设备
CN110874481B (zh) 一种基于gbdt模型的预测方法和装置
CN115952529B (zh) 一种用户数据处理方法、计算设备及存储介质
CN116094686B (zh) 用于量子卷积计算的同态加密方法、系统、设备及终端
CN117349685A (zh) 一种通信数据的聚类方法、系统、终端及介质
US10650083B2 (en) Information processing device, information processing system, and information processing method to determine correlation of data
Liu et al. Efficient and Privacy-Preserving Logistic Regression Scheme based on Leveled Fully Homomorphic Encryption
CN115085897A (zh) 用于保护隐私的数据处理方法、装置和计算机设备
Nita et al. Advances to Homomorphic and Searchable Encryption
Liu et al. Membership inference defense in distributed federated learning based on gradient differential privacy and trust domain division mechanisms
An et al. Efficient and Privacy‐Preserving Outsourcing of 2D‐DCT and 2D‐IDCT
CN113378198B (zh) 一种保护用户标识的模型的联邦训练系统、方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant