CN115580496B - 无需第三方的隐私计算下逻辑回归训练方法、系统及装置 - Google Patents

无需第三方的隐私计算下逻辑回归训练方法、系统及装置 Download PDF

Info

Publication number
CN115580496B
CN115580496B CN202211576431.3A CN202211576431A CN115580496B CN 115580496 B CN115580496 B CN 115580496B CN 202211576431 A CN202211576431 A CN 202211576431A CN 115580496 B CN115580496 B CN 115580496B
Authority
CN
China
Prior art keywords
ciphertext
plaintext
data
encrypted data
salted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211576431.3A
Other languages
English (en)
Other versions
CN115580496A (zh
Inventor
田�健
南文捷
薛瑞东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Rongshulianzhi Technology Co ltd
Original Assignee
Beijing Rongshulianzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Rongshulianzhi Technology Co ltd filed Critical Beijing Rongshulianzhi Technology Co ltd
Priority to CN202211576431.3A priority Critical patent/CN115580496B/zh
Publication of CN115580496A publication Critical patent/CN115580496A/zh
Application granted granted Critical
Publication of CN115580496B publication Critical patent/CN115580496B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • H04L63/0442Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload wherein the sending and receiving network entities apply asymmetric encryption, i.e. different keys for encryption and decryption
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种无需第三方的隐私计算下逻辑回归训练方法、系统及装置,由发起方执行,获取第一公私钥对、标签和第一明文数据,第一公私钥对包括第一公钥和第一私钥;基于第一公钥对标签和第一明文数据进行加密得到标签加密数据和第一加密数据,将标签加密数据和第一加密数据发送至协同方,获取协同方发送的第二加密数据;基于第一明文数据、第二加密数据以及标签计算得到第一梯度密文;基于第一梯度密文和随机生成的第一随机数得到第一加盐密文,将第一加盐密文发送至协同方;获取协同方基于第一加盐密文反馈的第一加盐明文;基于第一加盐明文和第一随机数得到第一梯度信息;基于第一梯度信息更新预设的第一隐私计算模型的第一系数。

Description

无需第三方的隐私计算下逻辑回归训练方法、系统及装置
技术领域
本发明涉及隐私计算技术领域,具体涉及一种无需第三方的隐私计算下逻辑回归训练方法、系统及装置。
背景技术
在当前“人工智能”、“数据科技”的年代,数据作为最重要的生产要素之一有着大量的流通与融合的需要。当多家机构展开数据合作时,需要将各方的明文数据归集在一处(可以统一归集在其中的某一家机构,也可以归集在某个独立的第三方平台),之后再进行中心化的数量化建模或分析工作。数据有着开放与融合的需要,但是,各个机构对于自身商业数据保护的需要也都使得机构明文数据“出库”这样的操作越来越不可行。为了解决数据流通与数据安全保护这一对矛盾,隐私计算技术得到了空前的关注。
隐私计算全称是“保护数据隐私的计算”,或“隐私保护计算”(PrivacyPreserving Computation),是指在多个参与方进行联合计算的时候,在保证各方数据安全与隐私不泄露的前提下,实现计算与数据价值挖掘的技术体系。隐私计算并不是一种单一的技术,它是一套包含人工智能、分布式计算、密码与安全、数据科学等众多领域交叉融合的跨学科技术体系。隐私计算能够在各方明文数据无需出库的情况下,完成各方数据的融合计算、联合建模的等数据应用,在满足数据隐私安全的基础上,实现数据“价值”和“知识”的流动与共享,真正做到“数据可用不可见”。
目前隐私计算领域在应用层面最受广泛关注的领域是联邦学习和基于MPC的机器学习方法,而在众多的机器学习算法中,一个基础、稳定,并且可以称为是更复杂的机器学习算法中的一个基本组件的算法就是逻辑回归(Logistic Regression)。逻辑回归主要用于二元分类,同时可以拓展到多分类乃至是回归问题,在实际应用场景上分布也非常广泛。具有很强的可解释性和稳定性。而其作为神经网络的基本组成,在研究方面很具意义。大多数实际落地的隐私计算产品、学术论文等都是从逻辑回归的实现开始的。
在联邦学习框架下,双方进行逻辑回归算法的训练和部署使用是存在很高的技术门槛的,因为双方需要在保护各自本地数据的情况下进行多次逻辑回归的梯度计算乃至于多次迭代操作等。为了使得双方能够顺利的进行运算的同时还能保证数据不泄露,很多的基于联邦学习的逻辑回归算法会选择引入一个“可信第三方”的计算节点,该节点会接受双方部分的中间计算结果,然后进行运算后返回给双方。在这个过程中,“可信第三方”一般直接接触到的数据都是进行过中间加工的,不同的选择也会使得“可信第三方”能够看到的数据、信息量是有限的。
在联邦学习的框架下,需要用到各方的共同数据,“可信第三方”其实需要解密得到各方的数据已完成对该模型的更新计算,这种方法会暴露一部分中间步骤和信息,不是非常安全。而同时也有一部分算法,虽然没有“可信第三方”,但是并不能很好的保护到中间的步骤和数据,比如说有的算法选择将Z值直接以明文的形式传输等等。
同时有一些去除第三方的基于联邦学习的逻辑回归手段,利用同态加密、加盐等方式来保证中间步骤、中间交互数据的安全性,但是往往双方进行逻辑回归时的计算是不对称的,即发起方(拥有Y标签的一方)会比另一方有更多的计算步骤。
虽然第三方的存在会极大的降低联邦学习下逻辑回归算法的设计难度和实施难度,但就从实际的考量上来说,并不是很好的方法,无论是存在的安全性隐患还是不确定的计算中心、网络传输延迟等等,而不保护中间计算步骤的两方模型的安全性则是很难得到保障。不对称的两方模型虽然能解决上面提到的问题,但是却不能够合理的分配计算资源,同时存在潜在的风险隐患。
发明内容
因此,本发明要解决的技术问题在于克服现有的无需第三方的隐私计算下逻辑回归训练方法中数据存在安全风险的缺陷,从而提供一种无需第三方的隐私计算下逻辑回归训练方法方法、系统及装置。
根据第一方面,本发明实施例公开了一种无需第三方的隐私计算下逻辑回归训练方法,由发起方执行,方法包括:
获取第一公私钥对、标签和第一明文数据,第一公私钥对包括第一公钥和第一私钥;
基于第一公钥对标签进行加密,得到标签加密数据,基于第一公钥对第一明文数据进行加密得到第一加密数据,将标签加密数据和第一加密数据发送至协同方,并获取协同方发送的第二加密数据,第二加密数据为协同方基于预设的第二公钥对协同方的第二明文数据进行加密得到的;
基于第一明文数据、第二加密数据以及标签计算得到第一梯度密文;
基于第一梯度密文和随机生成的第一随机数得到第一加盐密文,并将第一加盐密文发送至协同方;
获取协同方基于第一加盐密文反馈的第一加盐明文,第一加盐明文是协同方根据第二私钥对第一加盐密文解密得到;
基于第一加盐明文和第一随机数得到第一梯度信息;
基于第一梯度信息更新预设的第一隐私计算模型的第一系数。
可选地,方法还包括:
基于更新后的第一系数和第一明文数据,重复执行基于第一公钥对标签进行加密,得到标签加密数据,基于第一公钥对第一明文数据进行加密得到第一加密数据,将标签加密数据和第一加密数据发送至协同方,并获取协同方发送的第二加密数据的步骤至基于第一加盐明文和第一随机数得到第一梯度信息的步骤,直至第一梯度信息达到第一预设阈值,得到训练好的第一隐私计算模型。
可选地,基于第一明文数据、第二加密数据以及标签计算得到第一梯度密文,具体包括:
基于第一明文数据和第二加密数据得到第一总样本Z值;
基于第一总样本Z值进行多项式拟合得到第一预测值密文;
基于第一预测值密文和标签计算得到第一梯度密文。
可选地,基于第一预测值密文和标签计算得到第一梯度密文,包括:
基于第一预测值密文和标签计算相应的第一前向密文;
基于第一前向密文和第一明文数据的样本数据得到第一梯度密文。
根据第二方面,本发明实施例公开了一种无需第三方的隐私计算下逻辑回归训练方法,由协同方执行,方法包括:
获取第二公私钥对和第二明文数据,第二公私钥对包括第二公钥和第二私钥;
基于第二公钥对第二明文数据进行加密,得到第二加密数据,将第二加密数据发送至发起方,并获取发起方发送的标签加密数据和第一加密数据;
基于第二明文数据、第一加密数据以及标签加密数据计算得到第二梯度密文;
基于第二梯度密文和随机生成的第二随机数得到第二加盐密文,并将第二加盐密文发送至发起方;
获取发起方基于第二加盐密文反馈的第二加盐明文,第二加盐明文是发起方根据第一私钥对第二加盐密文解密得到;
基于第二加盐明文和第二随机数得到第二梯度信息;
基于第二梯度信息更新预设的第一隐私计算模型的第二系数。
可选地,方法还包括:
基于第二系数和第二明文数据,重复执行基于第二公钥对第二明文数据进行加密,得到第二加密数据,将第二加密数据发送至发起方,并获取发起方发送的标签加密数据和第一加密数据的步骤至基于第二加盐明文和第二随机数得到第二梯度信息的步骤,直至第二梯度信息达到的第二预设阈值,得到训练好的第一隐私计算模型。
可选地,基于第二明文数据、第一加密数据以及标签加密数据计算得到第二梯度密文,具体包括:
基于第二明文数据和第一加密数据得到第二总样本Z值;
基于第二总样本Z值和多项式拟合得到第二预测值密文;
基于第二预测值密文和标签加密数据计算得到第二梯度密文。
可选地,基于第二预测值密文和标签加密数据计算得到第二梯度密文,包括:
基于第二预测值密文和标签加密数据计算相应的第二前向密文;
基于第二前向密文和第二明文数据的样本数据得到第二梯度密文。
根据第三方面,本发明实施例公开了一种无需第三方的隐私计算下逻辑回归训练系统,该系统包括发起方和协同方,其中,
发起方,用于获取第一公私钥对、标签和第一明文数据,第一公私钥对包括第一公钥和第一私钥;基于第一公钥对标签进行加密,得到标签加密数据,基于第一公钥对第一明文数据进行加密得到第一加密数据,将标签加密数据和第一加密数据发送至协同方;
协同方,用于获取第二公私钥对和第二明文数据,第二公私钥对包括第二公钥和第二私钥,基于第二公钥对第二明文数据进行加密,得到第二加密数据,将第二加密数据发送至发起方;
发起方,用于获取协同方发送的第二加密数据,基于第一明文数据、第二加密数据以及标签计算得到第一梯度密文;基于第一梯度密文和随机生成的第一随机数得到第一加盐密文,并将第一加盐密文发送至协同方;
协同方,用于获取发起方发送的标签加密数据和第一加密数据,基于第二明文数据、第一加密数据以及标签加密数据计算得到第二梯度密文;基于第二梯度密文和随机生成的第二随机数得到第二加盐密文,并将第二加盐密文发送至发起方;
发起方,用于获取协同方发送的第二加盐密文,基于第一私钥对第二加盐密文进行解密,得到第二加盐明文,并将第二加盐明文发送至协同方;
协同方,用于获取发起方发送的第一加盐密文,并基于第二私钥对第一加盐密文进行解密,得到第一加盐明文,并将第一加盐明文发送至发起方;
发起方,用于获取协同方发送第一加盐明文,基于第一加盐明文和第一随机数得到第一梯度信息;基于第一梯度信息更新预设的第一隐私计算模型的第一系数;
协同方,用于获取发起方发送的第二加盐明文,基于第二加盐明文和第二随机数得到第二梯度信息;基于第二梯度信息更新预设的第一隐私计算模型的第二系数。
根据第四方面,本发明实施例还公开了一种无需第三方的隐私计算下逻辑回归训练装置,装置包括:
第一获取模块,用于获取第一公私钥对、标签和第一明文数据,第一公私钥对包括第一公钥和第一私钥;
第一加密模块,用于基于第一公钥对标签进行加密,得到标签加密数据,基于第一公钥对第一明文数据进行加密得到第一加密数据,将标签加密数据和第一加密数据发送至协同方,并获取协同方发送的第二加密数据,第二加密数据为协同方基于预设的第二公钥对协同方的第二明文数据进行加密得到的;
第一梯度密文模块,用于基于第一明文数据、第二加密数据以及标签计算得到第一梯度密文;
第一加盐模块,用于基于第一梯度密文和随机生成的第一随机数得到第一加盐密文,并将第一加盐密文发送至协同方;
第一加盐明文获取模块,用于获取协同方基于第一加盐密文反馈的第一加盐明文,第一加盐明文是协同方根据第二私钥对第一加盐密文解密得到;
第一梯度信息获取模块,用于基于第一加盐明文和第一随机数得到第一梯度信息;
第一更新模块,用于基于第一梯度信息更新预设的第一隐私计算模型的第一系数。
根据第五方面,本发明实施例还公开了一种无需第三方的隐私计算下逻辑回归训练装置,装置包括:
第二获取模块,用于获取第二公私钥对和第二明文数据,第二公私钥对包括第二公钥和第二私钥;
第二加密模块,用于基于第二公钥对第二明文数据进行加密,得到第二加密数据,将第二加密数据发送至发起方,并获取发起方发送的标签加密数据和第一加密数据;
第二梯度密文模块,用于基于第二明文数据、第一加密数据以及标签加密数据计算得到第二梯度密文;
第二加盐模块,用于基于第二梯度密文和随机生成的第二随机数得到第二加盐密文,并将第二加盐密文发送至发起方;
第二加盐明文获取模块,用于获取发起方基于第二加盐密文反馈的第二加盐明文,第二加盐明文是发起方根据第一私钥对第二加盐密文解密得到;
第二梯度信息获取模块,用于基于第二加盐明文和第二随机数得到第二梯度信息;
第二更新模块,用于基于第二梯度信息更新预设的第一隐私计算模型的第二系数。
根据第六方面,本发明实施例还公开了一种计算机设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器执行如第一方面或第一方面任一可选实施方式的无需第三方的隐私计算下逻辑回归训练方法的步骤。
根据第七方面,本发明实施方式还公开了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式的无需第三方的隐私计算下逻辑回归训练方法的步骤。
本发明技术方案,具有如下优点:
本发明提供的无需第三方的隐私计算下逻辑回归训练方法、系统及装置,该方法由发起方执行,包括,获取第一公私钥对、标签和第一明文数据,其中第一公私钥对包括第一公钥和第一私钥,根据第一公钥对标签和第一明文数据进行加密得到标签加密数据和第一加密数据,由于与第一公钥对应的第一私钥只有发起方知道,因此对标签和第一明文数据进行加密可以确保发起方数据的安全;进一步地,获取协同方根据预设的第二公钥对协同方的第二明文数据进行加密得到第二加密数据,在获取到第二加密数据后可以与第一明文数据共同计算得到总样本值,并可以在后续根据总样本值和对应的标签得到用于更新第一隐私计算模型的第一梯度密文;由于此刻的第一梯度密文是经过协同方加密的,因此要得到不加密的第一梯度信息则需要经过协同方解密才可以,同时为确保发起方数据的安全性,需要根据第一梯度密文和随机生成的第一随机数得到第一加盐密文,并将第一加盐密文发送至协同方进行解密后,获取协同方根据第二私钥对第一加盐密文解密得到的第一加盐明文;这时就可以根据第一随机数和第一加盐明文得到第一梯度信息,并根据第一梯度信息更新预设的第一隐私计算模型的第一系数。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中无需第三方的隐私计算下逻辑回归训练系统的一个具体实施例示意图;
图2为本发明实施例中无需第三方的隐私计算下逻辑回归训练系统的一个具体实施例流程图;
图3为本发明实施例中无需第三方的隐私计算下逻辑回归训练系统的一个具体示例的流程图;
图4为本发明实施例中无需第三方的隐私计算下逻辑回归训练系统的一个具体示例的流程图;
图5为本发明实施例中无需第三方的隐私计算下逻辑回归训练方法的一个具体示例的流程图;
图6为本发明实施例中无需第三方的隐私计算下逻辑回归训练方法的一个具体示例的流程图;
图7为本发明实施例中无需第三方的隐私计算下逻辑回归训练装置的一个具体示例的原理框图;
图8为本发明实施例中无需第三方的隐私计算下逻辑回归训练装置的一个具体示例的原理框图;
图9为本发明实施例中计算机设备的一个具体示例图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
在上述背景技术中提到,在联邦学习框架中,需要用到各方的共同数据,例如在逻辑回归中,有两个最为重要的计算,首先是sigmoid函数的计算,在计算sigmoid函数的过程中,需要用到双方共同的数据,公式如下
Figure 956205DEST_PATH_IMAGE001
其中Z的计算需要用到两方共同的数据,拥有可信第三方的联邦学习下会选择:拥有Y标签和部分数据的A方先计算自己的Z值发给可信第三方,然后另一方计算Z值之后也发给可信第三方,然后第三方进行上述函数的计算后,把结果同态加密后发送给拥有Y标签的一方;
接着就是逻辑回归中第二个非常重要的计算,即梯度的计算,梯度的计算公式是:
Figure 180513DEST_PATH_IMAGE002
由于这一个步骤中,先要利用到Y标签,所以第三方需要将上面计算出的sigmoid函数值发送给拥有Y标签的一方,这时拥有Y标签的一方计算完
Figure 179693DEST_PATH_IMAGE003
之后,将结果以同态加密的形式发送给另外一方,然后进行来步骤的计算,最后双方更新梯度后,重新进行上述的步骤,直至最后得到梯度满足要求。
可以看到,为了计算sigmoid函数,作为一个非线性函数,“可信第三方”其实需要解密中间的步骤,获取Z值才可以进行计算,这种计算的方法会暴露一部分中间步骤和信息,不是非常安全。而同时也有一部分算法,虽然没有“可信第三方”,但是并不能很好的保护到中间的步骤和数据,比如说有的算法选择将Z值直接以明文的形式传输等等。
同时“可信第三方”也存在如下缺点:
第一,“可信第三方”往往是一个机构,包含大量的个体等,即使机构本身没有串谋的企图,但是个人或者一些组织的安全性是很难得到保证的。
第二,对“可信第三方”来说,通讯、传输、计算的耗费是非常大的,因为可以预期的是,并不是任意一个互联网组织、企业拥有“可信第三方”这种可以接触到其他公司数据方的公信力,所以市场上的数据方可能会远远多于“可信第三方”的数量。而根据数据量、数据变量规模、数据用途的不同,逻辑回归算法的算力、传输消耗也各不相同,这意味着“可信第三方”需要具有非常大的计算资源和极高的带宽,而这些带来的都是数据方成本的大幅度提升。同时,很多数据方的分布可能是比较近的,比如说一家A省的银行,可能更想和同省、同市的数据方进行建模,如果这时候“可信第三方”分布非常远,这会极大的增加计算的延迟性。
第三,很多数据公司的数据是难以直接出库使用的,如果把一些明文数据,哪怕是经过混淆过的明文数据暴露给“可信第三方”,在法律法规或者是公司规定上也是不一定能完全满足的。
第四,对两方的方案来说,虽然看似Z值不暴露太多的信息,但是对于其暴露多少信息没有很多的度量方式,刚刚也提及了明文数据在一些公司或者一些条款下即使是经过处理过的,也难以直接出本地的数据库。同时,现在密码学技术中已经有很多的方法能从梯度本身来还原一部分信息,比如说正例标签的比例等等,而这些内容可能恰恰就是拥有Y标签一方的核心数据。
第五,需要指出的是,另一部分基于联邦学习的去第三方的两方逻辑回归,虽然既能有效的保护好中间的信息,也可以去除第三方,但是计算往往是不对称的。计算不对称首先会导致的问题是,计算资源的合理分配,如果双方在延迟比较高、传输速度比较慢的公网环境下进行合作,则计算步骤多的一方,需要花费大量的时间进行运算,然后将计算的结果传输给另一方,这会导致另一方的计算资源处于长期的空闲期,拖慢整体的计算流程。其次会导致的一个重要的问题是,可能会泄露信息,假设A、B进行合作,A、B中间存在一个窃听者C,C并不能从截获的信息中获取明文,但是其可以获取的信息是,如果A发送了很多的计算数据,B发送了很少的数据,则C可以明确现在是A作为发起方进行训练,而A可能不想让除了B之外的机构、个人获取这样的信息。
综上来说,虽然第三方的存在会极大的降低联邦学习下逻辑回归算法的设计难度和实施难度,但就从实际的考量上来说,并不是很好的方法,无论是存在的安全性隐患还是不确定的计算中心、网络传输延迟等等,而不保护中间计算步骤的两方模型的安全性则是很难得到保障。不对称的两方模型虽然能解决上面提到的问题,但是却不能够合理的分配计算资源,同时存在潜在的风险隐患。
如图1所示,为本发明实施例一个具体实施例的应用场景图,可以应用于本发明实施例公开的一种无需第三方的隐私计算下逻辑回归训练方法中,如图1所示,系统包括发起方和协同方,当此系统应用于金融场景中时,发起方可以是银行等金融机构,发起方中含有类似于信贷的标签等信息,协同方可以是电商平台等,协同方中包含有用户的消费数据,发起方和协同方之间存在数据的交集,银行可以利用电商的数据进行信贷风险预测,但双方之间不能进行数据共享。本发明实施例对上述系统的应用场景不做限定,本申请实施例可以根据实际情况确定。
图2为根据本发明的一个具体实施例用于上述协同方和发起方之间,共同构建隐私计算模型过程的流程示意图,可以应用于如图1所示的隐私计算的模型更新系统中,在该系统中进行数据交互的过程主要包括:
步骤201,发起方,用于获取第一公私钥对、标签和第一明文数据,第一公私钥对包括第一公钥和第一私钥;基于第一公钥对标签进行加密,得到标签加密数据,基于第一公钥对第一明文数据进行加密得到第一加密数据,将标签加密数据和第一加密数据发送至协同方。
示例性地,第一公私钥对是由发起方自行生成的,生成公私钥对的实现方式本领域技术人员可以根据实际情况确定,本发明实施例并不做限定。以上述系统中的介绍的为例,标签可以是银行系统中用户信贷指标;第一明文数据可以是银行系统中用户的储值、流水以及流水类型等数据对应的在联邦学习中的Z值,当然本申请实施例对标签、第一明文数据的数据类型和数量不做限定,本领域技术人员可以根据实际情况进行设定。
利用第一公钥对第一明文数据和标签进行加密后,将加密后的数据发送至协同方。经过第一公钥加密后的标签和第一明文数据在发送至协同方的传输过程中,以及在协同方的数据处理过程中都可以确保标签以及第一明文数据的安全性。
后续发起方的第一公钥和第一私钥分别用
Figure 464044DEST_PATH_IMAGE004
Figure 63522DEST_PATH_IMAGE005
进行表示;Y表示标签,
Figure 763624DEST_PATH_IMAGE006
表示第一明文数据;
Figure 945207DEST_PATH_IMAGE007
表示第一加密数据,
Figure 587410DEST_PATH_IMAGE008
表示标签加密数据,A表示发起方。
步骤202,协同方,用于获取第二公私钥对和第二明文数据,第二公私钥对包括第二公钥和第二私钥,基于第二公钥对第二明文数据进行加密,得到第二加密数据,将第二加密数据发送至发起方。
示例性地,第二公私钥对是由协同方自行生成的,生成公私钥对的实现方式本领域技术人员可以根据实际情况确定,本发明实施例并不做限定。以上述系统中的介绍的为例第二明文数据为电商平台中用户的消费数据,具体的可以是消费类型、时间金额等等,这些数据对应的在联邦学习中的Z值,当然本申请实施例对第二明文数据的数据类型和数量不做限定,本领域技术人员可以根据实际情况进行设定。
利用第二公钥对第二明文数据和标签进行加密后,将加密后的数据发送至发起方。经过第二公钥加密后的第二明文数据在发送至发起方的传输过程中,以及在发起方的数据处理过程中都可以确保第二明文数据的安全性。
为方便描述,后续发起方的第二公钥和第二私钥分别用
Figure 487233DEST_PATH_IMAGE009
Figure 991026DEST_PATH_IMAGE010
进行表示;
Figure 292695DEST_PATH_IMAGE011
表示第二明文数据;
Figure 840220DEST_PATH_IMAGE012
表示第二加密数据,B表示协同方。
步骤203,发起方,用于获取协同方发送的第二加密数据,基于第一明文数据、第二加密数据以及标签计算得到第一梯度密文;基于第一梯度密文和随机生成的第一随机数得到第一加盐密文,并将第一加盐密文发送至协同方。
示例性地,发起方获取协同方发送的协同方的第二加密数据,根据第二加密数据和第一明文数据以及标签经过计算可以得到对应的第一梯度密文,其中具体过程如图3所示,可以包括如下步骤:
步骤2031,基于第一明文数据和第二加密数据得到第一总样本Z值。
步骤2032,基于第一总样本Z值进行多项式拟合得到第一预测值密文。
步骤2033,基于第一预测值密文和标签计算得到第一梯度密文。
示例性地,在获取到第二加密数据之后,可以和已有的第一明文数据共同构成第一总样本Z值,这里的第一总样本Z值
Figure 165022DEST_PATH_IMAGE013
,在得到第一总样本Z值之后,通过多项式拟合得到第一预测值密文
Figure 721774DEST_PATH_IMAGE014
进一步地,根据第一预测密文得到发起方的第一梯度密文,其中步骤2033可以通过以下步骤得到:基于第一预测值密文和标签计算相应的第一前向密文;基于第一前向密文和第一明文数据的样本数据得到第一梯度密文。
具体地,根据第一预测值密文和标签得到第一前向梯度密文
Figure 612369DEST_PATH_IMAGE015
,最后根据第一明文数据对应的样本数据计算得到第一梯度密文
Figure 347107DEST_PATH_IMAGE016
,其中
Figure 955943DEST_PATH_IMAGE017
为第一明文数据的样本数据矩阵,m为样本数据的个数。
在获取了第一梯度密文之后,由于第一梯度密文是经过协同方加密后的,不能直接使用,因此需要协同方协助完成对第一梯度密文的解密,而在进行解密的过程中又需要对发起方的数据进行保密,因此在第一梯度密文中添加只有发起方知道的随机数RA进行“加盐”操作,这样即使协同方解密后,也不能得到发起方这边正确的明文数据。其中第一加盐密文为
Figure 316386DEST_PATH_IMAGE018
步骤204,协同方,用于获取发起方发送的标签加密数据和第一加密数据,基于第二明文数据、第一加密数据以及标签加密数据计算得到第二梯度密文;基于第二梯度密文和随机生成的第二随机数得到第二加盐密文,并将第二加盐密文发送至发起方。
示例性地,协同方获取发起方发送的发起方的第一加密数据,根据第一加密数据和第二明文数据经过计算可以得到对应的第二梯度密文,其中具体过程如图4所示,可以包括如下步骤:
步骤2041,基于第二明文数据和第一加密数据得到第二总样本Z值。
步骤2042,基于第二总样本Z值和多项式拟合得到第二预测值密文。
步骤2043,基于第二预测值密文和标签加密数据计算得到第二梯度密文。
示例性地,在获取到标签加密数据和第一加密数据之后,可以和已有的第二明文数据共同构成第二总样本Z值,这里的第二总样本Z值
Figure 264751DEST_PATH_IMAGE019
,在得到第二总样本Z值之后,通过多项式拟合得到第一预测值密文
Figure 232707DEST_PATH_IMAGE020
进一步地,根据第二预测密文得到协同方的第二梯度密文,其中步骤2043可以通过以下步骤得到:基于第二预测值密文和标签加密数据计算相应的第二前向密文;基于第二前向密文和第二明文数据的样本数据得到第二梯度密文。
具体地,根据第二预测值密文和标签加密数据得到第二前向梯度密文
Figure 515789DEST_PATH_IMAGE021
,最后根据第二明文数据对应的样本数据计算得到第二梯度密文
Figure 227393DEST_PATH_IMAGE022
,其中
Figure 30264DEST_PATH_IMAGE023
为第二明文数据的样本数据矩阵,m为样本数据的个数。
在获取了第二梯度密文之后,由于第二梯度密文是经过发起方加密后的,是不能直接使用的,因此需要发起方协助完成对第二梯度密文的解密,同时在进行解密的过程中又需要对协同方的数据进行保密,因此在第二梯度密文中添加只有协同方知道的随机数R B 进行“加盐”操作,这样即使发起方解密后,也不能得到协同方这边正确的明文数据。其中第二加盐密文为
Figure 667657DEST_PATH_IMAGE024
步骤205,发起方,用于获取协同方发送的第二加盐密文,基于第一私钥对第二加盐密文进行解密,得到第二加盐明文,并将第二加盐明文发送至协同方。
示例性地,获取协同方发送的第二加盐密文
Figure 438036DEST_PATH_IMAGE025
,并根据第一私钥对第二加盐密文进行解密,得到第二加盐明文
Figure 687751DEST_PATH_IMAGE026
,将第二加盐明文发送至协同方,以便后续协同方根据第二加盐明文得到对应的第二梯度信息。
步骤206,协同方,用于获取发起方发送的第一加盐密文,并基于第二私钥对第一加盐密文进行解密,得到第一加盐明文,并将第一加盐明文发送至发起方。
示例性地,获取发起方发送的第一加盐密文
Figure 673025DEST_PATH_IMAGE027
,并根据第二私钥对第一加盐密文进行加密,得到第一加盐明文
Figure 920467DEST_PATH_IMAGE028
,由于
Figure 991191DEST_PATH_IMAGE029
,而R A 只有发起方知道,所以协同方无法得到
Figure 44597DEST_PATH_IMAGE030
,也就是发起方的梯度信息。将第一加盐明文发送至发起方,以便后续发起方根据第一加盐明文得到对应的第一梯度信息。
步骤207,发起方,用于获取协同方发送第一加盐明文,基于第一加盐明文和第一随机数得到第一梯度信息;基于第一梯度信息更新预设的第一隐私计算模型的第一系数。
示例性地,在获取到协同方发送的第一加盐明文之后,去除第一加盐明文中的第一随机数即可得到第一梯度信息,从而可以根据第一梯度信息来更新对应的第一隐私计算模型的第一系数。
步骤208,协同方,用于获取发起方发送的第二加盐明文,基于第二加盐明文和第二随机数得到第二梯度信息;基于第二梯度信息更新预设的第一隐私计算模型的第二系数。
示例性地,在获取到发起方发送的第二加盐明文之后,去除第二加盐明文中的第二随机数即可得到第二梯度信息,从而可以根据第二梯度信息来更新对应的第一隐私计算模型的第二系数。
在上述实施例的基础上,本申请还公开了另一种无需第三方的隐私计算下逻辑回归训练系统,当第一梯度信息不满足对第一隐私计算模型的要求时,需要根据更新后的第一系数和第一明文数据,重复执行基于第一公钥对标签进行加密,得到标签加密数据,基于第一公钥对第一明文数据进行加密得到第一加密数据,将标签加密数据和第一加密数据发送至协同方,并获取协同方发送的第二加密数据的步骤至基于第一加盐明文和第一随机数得到第一梯度信息的步骤,直至第一梯度信息达到第一预设阈值,得到训练好的第一隐私计算模型。
上述不论是协同方还是发起方中涉及的第一隐私计算模型是同一个模型,属于用协同方和发起方两方的数据来共同更新一个模型,在这个过程中确保两方数据的安全性。有关于同态加密的方法包括但不限于CKKS(同态加密算法)或paillier等算法。
上述系统中的无需第三方的隐私计算下逻辑回归训练系统,首先对存在第三方的方案进行了极大的改善,利用了可交换的同态加密手段和加盐的方式,成功去除了“可信第三方”的要求。由于不需要“可信第三方”,所以第三方带来的种种问题成功被规避了,比如说,第三方潜在的串谋风险所引起的安全性隐患。
同时由于参与计算的两方都是实际拥有数据的两方,所以更好估计实施计算所需要的花费,双方可以根据对应数据的规模、变量个数等来设置一个比较合理的本地计算算力、网络带宽,既不会出现算力浪费的情况,也不会存在很高的延迟。
而在同态加密、加盐的方式下,所有的数据在出库的时候都是通过加密的方法,因为加盐的本质也是一种加密方式,而且其安全性非常高,因为加盐的随机数只用一次就会丢弃掉,所以在不猜到随机数的情况下,明文的情况是没有办法判断的。所以在理论的安全性角度来说,是有非常大的提升的。
对于之前提到的不用第三方但是暴露中间步骤的两方算法方案来说,本方案在安全性上的提升是非常明显的,而且无论是同态加密还是加盐的方式,其安全性是可以拓展的,这意味着如果在某些需要非常高的安全性的场景下,可以通过增加随机数的大小范围,同态加密密钥的长度来使得安全性达到要求的标准,这样的设定使得应用场景更加灵活,如果对于安全性要求不高的场景,也可以使用简单加盐的方式来提升运算速度同时减小传输量。实现安全性和计算速度、时间、带宽等物理资源的权衡,更好的满足不同场景的需求。
针对现有技术中不对称的方案,本方案优化了协同方和发起方的交互流程和计算步骤,使得双方的计算从交互上是完全对称的,唯一不对称的是使用Y标签的时候,为了使得交互对称,在初始的时候增加了发起方发送假数据加密值的过程,在外部窃听者的眼中,这个操作与发送Y标签的加密值操作是完全对称的。
而在计算流程中,除了初始的计算流程之外,还有发起方虽然根据标签加密数据来做加法,但是同态加密的加法速度非常快,远远快于交互、乘法或者其他操作,所以带来的不对称的计算量是非常小的,也能极大的改善双方计算不对称的情况。
本发明提供的无需第三方的隐私计算下逻辑回归训练系统,获取第一公私钥对、标签和第一明文数据,其中第一公私钥对包括第一公钥和第一私钥,根据第一公钥对标签和第一明文数据进行加密得到标签加密数据和第一加密数据,由于与第一公钥对应的第一私钥只有发起方知道,因此对标签和第一明文数据进行加密可以确保发起方数据的安全;进一步地,获取协同方根据预设的第二公钥对协同方的第二明文数据进行加密的第二加密数据,在获取到第二加密数据后可以与第一明文数据共同计算得到总样本值,并可以在后续根据总样本值和对应的标签得到用于更新第一隐私计算模型的第一梯度密文;由于此刻的第一梯度密文是经过协同方加密的,因此要得到不加密的第一梯度信息则需要经过协同方解密才可以,同时为确保发起方数据的安全性,需要根据第一梯度密文和随机生成的第一随机数得到第一加盐密文,并将第一加盐密文发送至协同方进行解密后,获取协同方根据第二私钥对第一加盐密文解密得到的第一加盐明文;这时就可以根据随机数和第一加盐明文得到第一梯度信息,并根据第一梯度信息更新预设的第一隐私计算模型的第一系数。
本发明实施例还公开了一种无需第三方的隐私计算下逻辑回归训练方法,如图5所示,由发起方执行,方法包括:
步骤501,获取第一公私钥对、标签和第一明文数据,第一公私钥对包括第一公钥和第一私钥;
步骤502,基于第一公钥对标签进行加密,得到标签加密数据,基于第一公钥对第一明文数据进行加密得到第一加密数据,将标签加密数据和第一加密数据发送至协同方,并获取协同方发送的第二加密数据,第二加密数据为协同方基于预设的第二公钥对协同方的第二明文数据进行加密得到的;
步骤503,基于第一明文数据、第二加密数据以及标签计算得到第一梯度密文;
步骤504,基于第一梯度密文和随机生成的第一随机数得到第一加盐密文,并将第一加盐密文发送至协同方;
步骤505,获取协同方基于第一加盐密文反馈的第一加盐明文,第一加盐明文是协同方根据第二私钥对第一加盐密文解密得到;
步骤506,基于第一加盐明文和第一随机数得到第一梯度信息;
步骤507,基于第一梯度信息更新预设的第一隐私计算模型的第一系数。
作为本发明的一个可选实施方式,方法还包括:
基于更新后的第一系数和第一明文数据,重复执行基于第一公钥对标签进行加密,得到标签加密数据,基于第一公钥对第一明文数据进行加密得到第一加密数据,将标签加密数据和第一加密数据发送至协同方,并获取协同方发送的第二加密数据的步骤至基于第一加盐明文和第一随机数得到第一梯度信息的步骤,直至第一梯度信息达到第一预设阈值,得到训练好的第一隐私计算模型。
作为本发明的一个可选实施方式,基于第一明文数据、第二加密数据以及标签计算得到第一梯度密文,具体包括:
基于第一明文数据和第二加密数据得到第一总样本Z值;
基于第一总样本Z值进行多项式拟合得到第一预测值密文;
基于第一预测值密文和标签计算得到第一梯度密文。
作为本发明的一个可选实施方式,基于第一预测值密文和标签计算得到第一梯度密文,包括:
基于第一预测值密文和标签计算相应的第一前向密文;
基于第一前向密文和第一明文数据的样本数据得到第一梯度密文。
本发明实施例提供的无需第三方的隐私计算下逻辑回归训练各步骤所执行的方式均已在上述任一方法实施例中做了详细的描述,因此这里不再赘述。
通过实施本方法,获取第一公私钥对、标签和第一明文数据,其中第一公私钥对包括第一公钥和第一私钥,根据第一公钥对标签和第一明文数据进行加密得到标签加密数据和第一加密数据,由于与第一公钥对应的第一私钥只有发起方知道,因此对标签和第一明文数据进行加密可以确保发起方数据的安全;进一步地,获取协同方根据预设的第二公钥对协同方的第二明文数据进行加密的第二加密数据,在获取到第二加密数据后可以与第一明文数据共同计算得到总样本值,并可以在后续根据总样本值和对应的标签得到用于更新第一隐私计算模型的第一梯度密文;由于此刻的第一梯度密文是经过协同方加密的,因此要得到不加密的第一梯度信息则需要经过协同方解密才可以,同时为确保发起方数据的安全性,需要根据第一梯度密文和随机生成的第一随机数得到第一加盐密文,并将第一加盐密文发送至协同方进行解密后,获取协同方根据第二私钥对第一加盐密文解密得到的第一加盐明文;这时就可以根据随机数和第一加盐明文得到第一梯度信息,并根据第一梯度信息更新预设的第一隐私计算模型的第一系数。
本发明实施例还公开了一种无需第三方的隐私计算下逻辑回归训练方法,如图6所示,由协同方执行,方法包括:
步骤601,获取第二公私钥对和第二明文数据,第二公私钥对包括第二公钥和第二私钥;
步骤602,基于第二公钥对第二明文数据进行加密,得到第二加密数据,将第二加密数据发送至发起方,并获取发起方发送的标签加密数据和第一加密数据;
步骤603,基于第二明文数据、第一加密数据以及标签加密数据计算得到第二梯度密文;
步骤604,基于第二梯度密文和随机生成的第二随机数得到第二加盐密文,并将第二加盐密文发送至发起方;
步骤605,获取发起方基于第二加盐密文反馈的第二加盐明文,第二加盐明文是发起方根据第一私钥对第二加盐密文解密得到;
步骤606,基于第二加盐明文和第二随机数得到第二梯度信息;
步骤607,基于第二梯度信息更新预设的第一隐私计算模型的第二系数。
作为本发明一个可选的实施方式,方法还包括:
基于第二系数和第二明文数据,重复执行基于第二公钥对第二明文数据进行加密,得到第二加密数据,将第二加密数据发送至发起方,并获取发起方发送的标签加密数据和第一加密数据的步骤至基于第二加盐明文和第二随机数得到第二梯度信息的步骤,直至第二梯度信息达到的第二预设阈值,得到训练好的第一隐私计算模型。
作为本发明一个可选的实施方式,基于第二明文数据、第一加密数据以及标签加密数据计算得到第二梯度密文,具体包括:
基于第二明文数据和第一加密数据得到第二总样本Z值;
基于第二总样本Z值和多项式拟合得到第二预测值密文;
基于第二预测值密文和标签加密数据计算得到第二梯度密文。
作为本发明一个可选的实施方式,基于第二预测值密文和标签加密数据计算得到第二梯度密文,包括:
基于第二预测值密文和标签加密数据计算相应的第二前向密文;
基于第二前向密文和第二明文数据的样本数据得到第二梯度密文。
本发明实施例提供的无需第三方的隐私计算下逻辑回归训练各步骤所执行的方式均已在上述任一方法实施例中做了详细的描述,因此这里不再赘述。
通过实施本方法,获取第二公私钥对和第二明文数据,其中第一公私钥对包括第二公钥和第二私钥,根据第二公钥对第二明文数据进行加密得到第二加密数据,由于与第二公钥对应的第二私钥只有协同方知道,因此对第二明文数据进行加密可以确保协同方数据的安全;进一步地,获取发起方根据预设的第一公钥对发起方的第一明文数据进行加密的第一加密数据,在获取到第一加密数据后可以与第二明文数据共同计算得到总样本值,并可以在后续根据总样本值得到用于更新第一隐私计算模型的第二梯度密文;由于此刻的第二梯度密文是经过发起方加密的,因此要得到不加密的第二梯度信息则需要经过发起方解密才可以,同时为确保协同方数据的安全性,需要根据第二梯度密文和随机生成的第二随机数得到第二加盐密文,并将第二加盐密文发送至发起方进行解密后,获取发起方根据第一私钥对第二加盐密文解密得到的第二加盐明文;这时就可以根据第二随机数和第二加盐明文得到第二梯度信息,并根据第二梯度信息更新预设的第一隐私计算模型的二系数。
本发明实施例还公开了一种无需第三方的隐私计算下逻辑回归训练装置,如图7所示,该装置包括:
第一获取模块701,用于获取第一公私钥对、标签和第一明文数据,第一公私钥对包括第一公钥和第一私钥;
第一加密模块702,用于基于第一公钥对标签进行加密,得到标签加密数据,基于第一公钥对第一明文数据进行加密得到第一加密数据,将标签加密数据和第一加密数据发送至协同方,并获取协同方发送的第二加密数据,第二加密数据为协同方基于预设的第二公钥对协同方的第二明文数据进行加密得到的;
第一梯度密文模块703,用于基于第一明文数据、第二加密数据以及标签计算得到第一梯度密文;
第一加盐模块704,用于基于第一梯度密文和随机生成的第一随机数得到第一加盐密文,并将第一加盐密文发送至协同方;
第一加盐明文获取模块705,用于获取协同方基于第一加盐密文反馈的第一加盐明文,第一加盐明文是协同方根据第二私钥对第一加盐密文解密得到;
第一梯度信息获取模块706,用于基于第一加盐明文和第一随机数得到第一梯度信息;
第一更新模块707,用于基于第一梯度信息更新预设的第一隐私计算模型的第一系数。
作为本发明一个可选实施方式,装置还用于:
基于更新后的第一系数和第一明文数据,重复执行基于第一公钥对标签进行加密,得到标签加密数据,基于第一公钥对第一明文数据进行加密得到第一加密数据,将标签加密数据和第一加密数据发送至协同方,并获取协同方发送的第二加密数据的步骤至基于第一加盐明文和第一随机数得到第一梯度信息的步骤,直至第一梯度信息达到第一预设阈值,得到训练好的第一隐私计算模型。
作为本发明一个可选实施方式,第一梯度密文模块,具体用于:
基于第一明文数据和第二加密数据得到第一总样本Z值;
基于第一总样本Z值进行多项式拟合得到第一预测值密文;
基于第一预测值密文和标签计算得到第一梯度密文。
作为本发明一个可选实施方式,第一梯度密文模块还用于:基于第一预测值密文和标签计算相应的第一前向密文;基于第一前向密文和第一明文数据的样本数据得到第一梯度密文。
本发明实施例提供的无需第三方的隐私计算下逻辑回归训练各部件的功能均已在上述任一方法实施例中做了详细的描述,因此这里不再赘述。
通过执行此装置,获取第一公私钥对、标签和第一明文数据,其中第一公私钥对包括第一公钥和第一私钥,根据第一公钥对标签和第一明文数据进行加密得到标签加密数据和第一加密数据,由于与第一公钥对应的第一私钥只有发起方知道,因此对标签和第一明文数据进行加密可以确保发起方数据的安全;进一步地,获取协同方根据预设的第二公钥对协同方的第二明文数据进行加密的第二加密数据,在获取到第二加密数据后可以与第一明文数据共同计算得到总样本值,并可以在后续根据总样本值和对应的标签得到用于更新第一隐私计算模型的第一梯度密文;由于此刻的第一梯度密文是经过协同方加密的,因此要得到不加密的第一梯度信息则需要经过协同方解密才可以,同时为确保发起方数据的安全性,需要根据第一梯度密文和随机生成的第一随机数得到第一加盐密文,并将第一加盐密文发送至协同方进行解密后,获取协同方根据第二私钥对第一加盐密文解密得到的第一加盐明文;这时就可以根据随机数和第一加盐明文得到第一梯度信息,并根据第一梯度信息更新预设的第一隐私计算模型的第一系数。
本发明实施例还公开了一种无需第三方的隐私计算下逻辑回归训练装置,如图8所示,该装置包括:
第二获取模块801,用于获取第二公私钥对和第二明文数据,第二公私钥对包括第二公钥和第二私钥;
第二加密模块802,用于基于第二公钥对第二明文数据进行加密,得到第二加密数据,将第二加密数据发送至发起方,并获取发起方发送的标签加密数据和第一加密数据;
第二梯度密文模块803,用于基于第二明文数据、第一加密数据以及标签加密数据计算得到第二梯度密文;
第二加盐模块804,用于基于第二梯度密文和随机生成的第二随机数得到第二加盐密文,并将第二加盐密文发送至发起方;
第二加盐明文获取模块805,用于获取发起方基于第二加盐密文反馈的第二加盐明文,第二加盐明文是发起方根据第一私钥对第二加盐密文解密得到;
第二梯度信息获取模块806,用于基于第二加盐明文和第二随机数得到第二梯度信息;
第二更新模块807,用于基于第二梯度信息更新预设的第一隐私计算模型的第二系数。
作为本发明一个可选实施方式,装置还用于:
基于第二系数和第二明文数据,重复执行基于第二公钥对第二明文数据进行加密,得到第二加密数据,将第二加密数据发送至发起方,并获取发起方发送的标签加密数据和第一加密数据的步骤至基于第二加盐明文和第二随机数得到第二梯度信息的步骤,直至第二梯度信息达到的第二预设阈值,得到训练好的第一隐私计算模型。
作为本发明一个可选实施方式,第二梯度密文模块,具体用于:
基于第二明文数据和第一加密数据得到第二总样本Z值;
基于第二总样本Z值和多项式拟合得到第二预测值密文;
基于第二预测值密文和标签加密数据计算得到第二梯度密文。
作为本发明一个可选实施方式,第二梯度密文模块,具体还用于:基于第二预测值密文和标签加密数据计算相应的第二前向密文;基于第二前向密文和第二明文数据的样本数据得到第二梯度密文。
本发明实施例提供的无需第三方的隐私计算下逻辑回归训练各部件的功能均已在上述任一方法实施例中做了详细的描述,因此这里不再赘述。
通过执行此装置,获取第二公私钥对和第二明文数据,其中第一公私钥对包括第二公钥和第二私钥,根据第二公钥对第二明文数据进行加密得到第二加密数据,由于与第二公钥对应的第二私钥只有协同方知道,因此对第二明文数据进行加密可以确保协同方数据的安全;进一步地,获取发起方根据预设的第一公钥对发起方的第一明文数据进行加密的第一加密数据,在获取到第一加密数据后可以与第二明文数据共同计算得到总样本值,并可以在后续根据总样本值得到用于更新第一隐私计算模型的第二梯度密文;由于此刻的第二梯度密文是经过发起方加密的,因此要得到不加密的第二梯度信息则需要经过发起方解密才可以,同时为确保协同方数据的安全性,需要根据第二梯度密文和随机生成的第二随机数得到第二加盐密文,并将第二加盐密文发送至发起方进行解密后,获取发起方根据第一私钥对第二加盐密文解密得到的第二加盐明文;这时就可以根据第二随机数和第二加盐明文得到第二梯度信息,并根据第二梯度信息更新预设的第一隐私计算模型的二系数。
本发明实施例还提供了一种计算机设备,如图9所示,该计算机设备可以包括处理器901和存储器902,其中处理器901和存储器902可以通过总线或者其他方式连接,图9中以通过总线连接为例。
处理器901可以为中央处理器(Central Processing Unit,CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器902作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的无需第三方的隐私计算下逻辑回归训练方法对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的无需第三方的隐私计算下逻辑回归训练方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器901所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器902中,当被所述处理器901执行时,执行如图5或图6所示实施例中的无需第三方的隐私计算下逻辑回归训练方法。
上述计算机设备具体细节可以对应参阅图5或图6所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (11)

1.一种无需第三方的隐私计算下逻辑回归训练方法,其特征在于,由发起方执行,所述方法包括:
获取第一公私钥对、标签和第一明文数据,所述第一公私钥对包括第一公钥和第一私钥;
基于所述第一公钥对所述标签进行加密,得到标签加密数据,基于所述第一公钥对所述第一明文数据进行加密得到第一加密数据,将所述标签加密数据和第一加密数据发送至协同方,并获取所述协同方发送的第二加密数据,所述第二加密数据为所述协同方基于预设的第二公钥对所述协同方的第二明文数据进行加密得到的;
基于所述第一明文数据、第二加密数据以及所述标签计算得到第一梯度密文;
基于所述第一梯度密文和随机生成的第一随机数得到第一加盐密文,并将所述第一加盐密文发送至所述协同方;
获取所述协同方基于所述第一加盐密文反馈的第一加盐明文,所述第一加盐明文是所述协同方根据第二私钥对所述第一加盐密文解密得到;
基于所述第一加盐明文和第一随机数得到第一梯度信息;
基于所述第一梯度信息更新预设的第一隐私计算模型的第一系数;
所述基于所述第一明文数据、第二加密数据以及所述标签计算得到第一梯度密文,具体包括:
基于所述第一明文数据和第二加密数据得到第一总样本Z值;
基于所述第一总样本Z值进行多项式拟合得到第一预测值密文;
基于所述第一预测值密文和标签计算得到第一梯度密文。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于更新后的第一系数和第一明文数据,重复执行所述基于所述第一公钥对所述标签进行加密,得到标签加密数据,基于所述第一公钥对所述第一明文数据进行加密得到第一加密数据,将所述标签加密数据和第一加密数据发送至协同方,并获取所述协同方发送的第二加密数据的步骤至所述基于所述第一加盐明文和第一随机数得到第一梯度信息的步骤,直至所述第一梯度信息达到第一预设阈值,得到训练好的第一隐私计算模型。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一预测值密文和标签计算得到第一梯度密文,包括:
基于所述第一预测值密文和标签计算相应的第一前向密文;
基于所述第一前向密文和第一明文数据的样本数据得到第一梯度密文。
4.一种无需第三方的隐私计算下逻辑回归训练方法,其特征在于,由协同方执行,所述方法包括:
获取第二公私钥对和第二明文数据,所述第二公私钥对包括第二公钥和第二私钥;
基于所述第二公钥对所述第二明文数据进行加密,得到第二加密数据,将所述第二加密数据发送至发起方,并获取所述发起方发送的标签加密数据和第一加密数据;
基于所述第二明文数据、所述第一加密数据以及所述标签加密数据计算得到第二梯度密文;
基于所述第二梯度密文和随机生成的第二随机数得到第二加盐密文,并将所述第二加盐密文发送至所述发起方;
获取所述发起方基于所述第二加盐密文反馈的第二加盐明文,所述第二加盐明文是所述发起方根据第一私钥对所述第二加盐密文解密得到;
基于所述第二加盐明文和第二随机数得到第二梯度信息;
基于所述第二梯度信息更新预设的第一隐私计算模型的第二系数;
所述基于所述第二明文数据、所述第一加密数据以及所述标签加密数据计算得到第二梯度密文,具体包括:
基于所述第二明文数据和第一加密数据得到第二总样本Z值;
基于所述第二总样本Z值和多项式拟合得到第二预测值密文;
基于所述第二预测值密文和标签加密数据计算得到第二梯度密文。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
基于所述第二系数和第二明文数据,重复执行所述基于所述第二公钥对所述第二明文数据进行加密,得到第二加密数据,将所述第二加密数据发送至发起方,并获取所述发起方发送的标签加密数据和第一加密数据的步骤至所述基于所述第二加盐明文和第二随机数得到第二梯度信息的步骤,直至所述第二梯度信息达到的第二预设阈值,得到训练好的第一隐私计算模型。
6.根据权利要求4所述的方法,其特征在于,所述基于所述第二预测值密文和标签加密数据计算得到第二梯度密文,包括:
基于所述第二预测值密文和标签加密数据计算相应的第二前向密文;
基于所述第二前向密文和第二明文数据的样本数据得到第二梯度密文。
7.一种无需第三方的隐私计算下逻辑回归训练系统,其特征在于,所述系统包括发起方和协同方,其中,
所述发起方,用于获取第一公私钥对、标签和第一明文数据,所述第一公私钥对包括第一公钥和第一私钥;基于所述第一公钥对所述标签进行加密,得到标签加密数据,基于所述第一公钥对所述第一明文数据进行加密得到第一加密数据,将所述标签加密数据和第一加密数据发送至所述协同方;
所述协同方,用于获取第二公私钥对和第二明文数据,所述第二公私钥对包括第二公钥和第二私钥,基于所述第二公钥对所述第二明文数据进行加密,得到第二加密数据,将所述第二加密数据发送至所述发起方;
所述发起方,用于获取所述协同方发送的第二加密数据,基于所述第一明文数据、第二加密数据以及所述标签计算得到第一梯度密文;基于所述第一梯度密文和随机生成的第一随机数得到第一加盐密文,并将所述第一加盐密文发送至所述协同方;
其中所述发起方中所述基于所述第一明文数据、第二加密数据以及所述标签计算得到第一梯度密文,具体包括:
基于所述第一明文数据和第二加密数据得到第一总样本Z值;
基于所述第一总样本Z值进行多项式拟合得到第一预测值密文;
基于所述第一预测值密文和标签计算得到第一梯度密文;
所述协同方,用于获取所述发起方发送的标签加密数据和第一加密数据,基于所述第二明文数据、所述第一加密数据以及所述标签加密数据计算得到第二梯度密文;基于所述第二梯度密文和随机生成的第二随机数得到第二加盐密文,并将所述第二加盐密文发送至所述发起方;
其中所述协同方中,所述基于所述第二明文数据、所述第一加密数据以及所述标签加密数据计算得到第二梯度密文,具体包括:
基于所述第二明文数据和第一加密数据得到第二总样本Z值;
基于所述第二总样本Z值和多项式拟合得到第二预测值密文;
基于所述第二预测值密文和标签加密数据计算得到第二梯度密文;
所述发起方,用于获取所述协同方发送的第二加盐密文,基于所述第一私钥对所述第二加盐密文进行解密,得到第二加盐明文,并将所述第二加盐明文发送至所述协同方;
所述协同方,用于获取所述发起方发送的第一加盐密文,并基于所述第二私钥对所述第一加盐密文进行解密,得到第一加盐明文,并将所述第一加盐明文发送至所述发起方;
所述发起方,用于获取所述协同方发送第一加盐明文,基于所述第一加盐明文和第一随机数得到第一梯度信息;基于所述第一梯度信息更新预设的第一隐私计算模型的第一系数;
所述协同方,用于获取所述发起方发送的第二加盐明文,基于所述第二加盐明文和所述第二随机数得到第二梯度信息;基于所述第二梯度信息更新预设的第一隐私计算模型的第二系数。
8.一种无需第三方的隐私计算下逻辑回归训练装置,其特征在于,包括:
第一获取模块,用于获取第一公私钥对、标签和第一明文数据,所述第一公私钥对包括第一公钥和第一私钥;
第一加密模块,用于基于所述第一公钥对所述标签进行加密,得到标签加密数据,基于所述第一公钥对所述第一明文数据进行加密得到第一加密数据,将所述标签加密数据和第一加密数据发送至协同方,并获取所述协同方发送的第二加密数据,所述第二加密数据为所述协同方基于预设的第二公钥对所述协同方的第二明文数据进行加密得到的;
第一梯度密文模块,用于基于所述第一明文数据、第二加密数据以及所述标签计算得到第一梯度密文;
第一加盐模块,用于基于所述第一梯度密文和随机生成的第一随机数得到第一加盐密文,并将所述第一加盐密文发送至所述协同方;
第一加盐明文获取模块,用于获取所述协同方基于所述第一加盐密文反馈的第一加盐明文,所述第一加盐明文是所述协同方根据第二私钥对所述第一加盐密文解密得到;
第一梯度信息获取模块,用于基于所述第一加盐明文和第一随机数得到第一梯度信息;
第一更新模块,用于基于所述第一梯度信息更新预设的第一隐私计算模型的第一系数;
所述第一梯度密文模块具体用于:基于所述第一明文数据和第二加密数据得到第一总样本Z值;基于所述第一总样本Z值进行多项式拟合得到第一预测值密文;基于所述第一预测值密文和标签计算得到第一梯度密文。
9.一种无需第三方的隐私计算下逻辑回归训练装置,其特征在于,包括:
第二获取模块,用于获取第二公私钥对和第二明文数据,所述第二公私钥对包括第二公钥和第二私钥;
第二加密模块,用于基于所述第二公钥对所述第二明文数据进行加密,得到第二加密数据,将所述第二加密数据发送至发起方,并获取所述发起方发送的标签加密数据和第一加密数据;
第二梯度密文模块,用于基于所述第二明文数据、所述第一加密数据以及所述标签加密数据计算得到第二梯度密文;
第二加盐模块,用于基于所述第二梯度密文和随机生成的第二随机数得到第二加盐密文,并将所述第二加盐密文发送至所述发起方;
第二加盐明文获取模块,用于获取所述发起方基于所述第二加盐密文反馈的第二加盐明文,所述第二加盐明文是所述发起方根据第一私钥对所述第二加盐密文解密得到;
第二梯度信息获取模块,用于基于所述第二加盐明文和第二随机数得到第二梯度信息;
第二更新模块,用于基于所述第二梯度信息更新预设的第一隐私计算模型的第二系数;
所述第二梯度密文模块具体用于,基于所述第二明文数据和第一加密数据得到第二总样本Z值;基于所述第二总样本Z值和多项式拟合得到第二预测值密文;基于所述第二预测值密文和标签加密数据计算得到第二梯度密文。
10.一种计算机设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-6任一所述的无需第三方的隐私计算下逻辑回归训练方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6任一所述的无需第三方的隐私计算下逻辑回归训练方法的步骤。
CN202211576431.3A 2022-12-09 2022-12-09 无需第三方的隐私计算下逻辑回归训练方法、系统及装置 Active CN115580496B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211576431.3A CN115580496B (zh) 2022-12-09 2022-12-09 无需第三方的隐私计算下逻辑回归训练方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211576431.3A CN115580496B (zh) 2022-12-09 2022-12-09 无需第三方的隐私计算下逻辑回归训练方法、系统及装置

Publications (2)

Publication Number Publication Date
CN115580496A CN115580496A (zh) 2023-01-06
CN115580496B true CN115580496B (zh) 2023-03-28

Family

ID=84590735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211576431.3A Active CN115580496B (zh) 2022-12-09 2022-12-09 无需第三方的隐私计算下逻辑回归训练方法、系统及装置

Country Status (1)

Country Link
CN (1) CN115580496B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906912A (zh) * 2021-04-01 2021-06-04 深圳市洞见智慧科技有限公司 纵向联邦学习中无可信第三方的回归模型训练方法及系统
CN113239391A (zh) * 2021-07-13 2021-08-10 深圳市洞见智慧科技有限公司 一种无第三方的逻辑回归联邦学习模型训练系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12093798B2 (en) * 2020-10-05 2024-09-17 Docusign, Inc. Distributed model generation via indirect private data access
CN113095510B (zh) * 2021-04-14 2024-03-01 深圳前海微众银行股份有限公司 一种基于区块链的联邦学习方法及装置
CN115021985B (zh) * 2022-05-23 2023-06-16 北京融数联智科技有限公司 一种无需第三方参与的逻辑回归模型训练方法及系统
CN115130121A (zh) * 2022-06-09 2022-09-30 北京融数联智科技有限公司 一种去第三方的隐私计算下纵向逻辑回归模型训练方法
CN115409095B (zh) * 2022-08-17 2023-04-07 北京融数联智科技有限公司 多方泊松回归隐私计算模型训练方法、装置和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906912A (zh) * 2021-04-01 2021-06-04 深圳市洞见智慧科技有限公司 纵向联邦学习中无可信第三方的回归模型训练方法及系统
CN113239391A (zh) * 2021-07-13 2021-08-10 深圳市洞见智慧科技有限公司 一种无第三方的逻辑回归联邦学习模型训练系统及方法

Also Published As

Publication number Publication date
CN115580496A (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
CN110399742B (zh) 一种联邦迁移学习模型的训练、预测方法及装置
CN111259443B (zh) 一种基于psi技术保护联邦学习预测阶段隐私的方法
CN110189192B (zh) 一种信息推荐模型的生成方法及装置
US20230108682A1 (en) Data processing method and apparatus, device, and computer-readable storage medium
CN113516256B (zh) 基于秘密共享、同态加密的无第三方联邦学习方法及系统
JP2020515087A5 (zh)
CN112380578A (zh) 一种基于区块链和可信执行环境的边缘计算框架
CN108809652A (zh) 一种基于秘密共享的区块链加密账本
CN111428887B (zh) 一种基于多个计算节点的模型训练控制方法、装置及系统
US11410081B2 (en) Machine learning with differently masked data in secure multi-party computing
JP2016512611A (ja) プライバシー保護リッジ回帰
CN108712409B (zh) 一种基于私有区块链的电子账单交易系统
TWI597960B (zh) 金鑰分裂技術
CN112818369B (zh) 一种联合建模方法及装置
CN111104968B (zh) 一种基于区块链的安全svm训练方法
CN112101531B (zh) 基于隐私保护的神经网络模型训练方法、装置及系统
CN113221153B (zh) 图神经网络训练方法、装置、计算设备及存储介质
CN116502732B (zh) 基于可信执行环境的联邦学习方法以及系统
JP2024510658A (ja) マルチソースデータのデータ処理方法、装置、電子機器、及び記憶媒体
CN115130121A (zh) 一种去第三方的隐私计算下纵向逻辑回归模型训练方法
CN114301677A (zh) 秘钥协商方法、装置、电子设备及存储介质
CN111737756B (zh) 经由两个数据拥有方进行的xgb模型预测方法、装置及系统
CN112819058B (zh) 一种具有隐私保护属性的分布式随机森林评估系统与方法
US11436351B1 (en) Homomorphic encryption of secure data
CN112948883A (zh) 保护隐私数据的多方联合建模的方法、装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant