CN110084063B

CN110084063B - 一种保护隐私数据的梯度下降计算方法

Info

Publication number: CN110084063B
Application number: CN201910329267.8A
Authority: CN
Inventors: 张兰; 李向阳; 刘建东
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2022-07-15
Anticipated expiration: 2039-04-23
Also published as: CN110084063A

Abstract

本发明公开了一种保护隐私数据的梯度下降计算方法，该方法用于包括一个或多个数据提供方、一个解密服务提供方和一个计算资源提供方的机器学习的对梯度函数计算中，适用于利用与sigmoid函数轮廓相近的多项式函数对该sigmoid函数进行拟合计算或利用与sigmoid函数轮廓相近的分段函数对该sigmoid函数拟合计算，包括：同态加密密钥生成与分发、训练参数协商、数据加密及汇总和梯度下降过程各步骤。该方法精度较高，计算过程中数据处理造成的精度损失处在可控范围；安全性高，计算过程中输入及中间数据均能保证满足语义安全的要求；灵活性好，能实现两个或多个参与者参与计算；扩展性好，能从原始的梯度下降扩展到牛顿方法或批量梯度下降。

Description

一种保护隐私数据的梯度下降计算方法

技术领域

本发明涉及机器学习的隐私保护领域，尤其涉及一种机器学习中的保护隐私数据的梯度下降计算方法。

背景技术

现代社会，机器学习技术被越来越广泛地应用于各个领域，如医疗、商业、教育以及公共安全。但是，在机器学习过程中涉及大量隐私数据，尤其是在这些数据分属于不同的数据提供者的场景下，存在着一系列的隐私泄露的威胁，因此，具有隐私保护的机器学习算法一直是学术界的一个研究热点。其中，梯度下降算法是机器学习领域中的一种重要优化方法，其被广泛用于多种机器学习算法的训练过程中，包括逻辑回归、矩阵分解以及神经网络等算法。保护隐私的梯度下降算法的研究对具有隐私保护的机器学习算法的设计具有重要的意义。

对于要实现在梯度下降算法中保护隐私数据，现有大都采用一些安全性较低的线性加密或差分隐私方法设计出具有一定隐私保护的方案，但是这些方案很难确保所有的隐私数据不会被泄露。还有一些方案使用全同态加密方案对原始数据进行加密，同时保证了数据的保密性与计算能力，但是现阶段全同态加密算法的效率较低，限制了这些方案的实际应用。

发明内容

基于现有技术所存在的问题，本发明的目的是提供一种保护隐私数据的梯度下降计算方法，能让多方的机器学习参与者在保护各自隐私数据不被泄露的情况下，完成基于梯度下降进行优化机器学习的训练过程。

本发明的目的是通过以下技术方案实现的：

本发明实施方式提供一种保护隐私的梯度下降计算方法，该计算方法用于包括一个或多个数据提供方、一个解密服务提供方和一个计算资源提供方的机器学习中的对梯度函数计算过程中，对梯度函数计算过程中的sigmoid函数拟合是：利用与sigmoid函数轮廓相近的多项式函数对该sigmoid函数进行拟合计算，则处理步骤包括：

步骤11，同态加密密钥生成与分发：由CA机构或解密服务提供方直接生成同态加密的公私钥对，解密服务提供方保留私钥，将公钥发送给各个数据提供方与计算资源提供方；

步骤12，训练参数协商：计算资源提供方与解密服务提供方协商训练参数，各方同时协商一个与sigmoid函数轮廓近似的多项式函数及其相关参数；

步骤13，数据加密及汇总：各个数据提供方使用所述步骤11中得到的公钥利用同态加密将各自拥有的原始数据或经过初步处理的数据加密后得到密文数据，各个数据提供方将所述密文数据通过安全的信道发送给计算资源提供方；

步骤14，梯度下降过程：计算资源提供方初始化一随机的权重值；之后利用所述步骤13得到的所述密文数据计算预定义的多项式函数，利用计算出的多项式函数计算出梯度值，利用梯度值更新所述权重值；重复上述过程直至迭代次数达到预定义的迭代次数上限值或代入权重值后计算出的误差函数小于预定义的门限；最后输出处理结果为明文的权重值。

本发明实施方式还提供一种保护隐私的梯度下降计算方法，该计算方法用于包括一个或多个数据提供方、一个解密服务提供方和一个计算资源提供方的机器学习中的对梯度函数计算过程中，对梯度函数计算过程中的sigmoid函数拟合是利用与sigmoid函数轮廓相近的分段函数对该sigmoid函数进行拟合计算，则处理步骤包括：

步骤21，同态加密密钥生成与分发：由CA机构或解密服务提供方直接生成同态加密的公私钥对，解密服务提供方保留私钥，将公钥发送给各个数据提供方与计算资源提供方；

步骤22，训练参数协商：计算资源提供方与解密服务提供方协商训练参数，各方同时协商一个与sigmoid函数轮廓近似的分段函数及其相关参数；

步骤23，数据加密及汇总：各个数据提供方使用所述步骤21中得到的公钥将各自拥有的原始数据或经过初步处理的数据加密后得到密文数据，各个数据提供方将所述密文数据通过安全的信道发送给计算资源提供方；

步骤24，梯度下降过程：计算资源提供方初始化一随机的权重值；之后利用所述步骤23得到的所述密文数据计算预定义的分段函数，利用计算出的分段函数计算出梯度值，利用梯度值更新所述权重值；重复上述过程直至迭代次数达到预定义的迭代次数上限值或代入权重值后计算出的误差函数小于预定义的门限；最后输出处理结果明文的权重值。

由上述本发明提供的技术方案可以看出，本发明实施例提供的保护隐私数据的梯度下降计算方法，其有益效果为：

通过使用同态加密及安全多方计算，使得计算过程中，输入及中间数据均可保证满足语义安全的要求，使数据处理造成的精度损失处在可控的范围，精度较高；该方法安全性高，灵活性好，可以实现两个或多个参与者参与计算；扩展性好，可以从原始的梯度下降扩展到牛顿方法或批量梯度下降。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的保护隐私数据的梯度下降计算方法流程图。

具体实施方式

下面结合本发明的具体内容，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

本发明实施例提供一种保护隐私的梯度下降计算方法，具有隐私保护的梯度下降算法，通过使用同态加密及安全多方计算等技术，在不泄露任何用户隐私数据的情况下完成梯度下降的计算过程，该计算方法用于包括一个或多个数据提供方、一个解密服务提供方和一个计算资源提供方的机器学习的对梯度函数计算过程中，对梯度函数计算过程中的sigmoid函数拟合是：利用与sigmoid函数轮廓相近的多项式函数对该sigmoid函数进行拟合计算，则处理步骤包括(参见图1)：

步骤12，训练参数协商：计算资源提供方与解密服务提供方协商训练参数，各方同时协商一个与sigmoid函数轮廓近似的多项式函数(如，sigmoid函数的2次或更高次泰勒展开式)及其相关参数；

上述方法的步骤12中，计算资源提供方与解密服务提供方协商训练参数包括：

梯度下降的步长和迭代次数。

上述方法的步骤14中，利用所述步骤13得到的所述密文数据计算预定义的多项式函数为：

所述计算资源提供方计算在计算与密文数据对应的多项式函数时，若密文数据加密所用的同态加密算法支持密文数据的乘法运算，则直接用该同态加密算法的乘法特性对该多项式函数进行乘法计算；否则，所述计算资源提供方对该项密文数据进行保密性处理后将其发送给解密服务提供方，由所述解密服务提供方使用私钥完成解密后，在解密的数据上进行相应计算，再使用公钥加密后发送给所述计算资源提供方，计算资源提供方利用同态加密算法的同态特性去除之前对密文数据进行的保密性处理，得到该多项式函数的各项；

对得到的所述多项式的各项进行累加，若密文数据加密所用的同态加密算法支持密文数据的加法运算，则直接用该同态加密算法的加法特性对各项进行累加计算；否则，所述计算资源提供方对该密文数据进行保密性处理后将其发送给解密服务提供方，由所述解密服务提供方使用私钥完成解密后，在解密的数据上进行相应计算，再使用公钥加密后发送给所述计算资源提供方，计算资源提供方利用同态加密算法的同态特性去除之前对密文数据进行的保密性处理，得到该多项式函数的值。

本发明实施例还提供一种保护隐私的梯度下降计算方法，该计算方法用于包括一个或多个数据提供方、一个解密服务提供方和一个计算资源提供方的机器学习的对梯度函数计算过程中，对梯度函数计算过程中的sigmoid函数拟合是利用与sigmoid函数轮廓相近的分段函数对该sigmoid函数进行拟合计算，则处理步骤包括(参见图1)：

上述方法的步骤22中，计算资源提供方与解密服务提供方协商训练参数包括：

梯度下降的步长和迭代次数。

上述方法的步骤24中，利用所述步骤23得到的所述密文数据计算预定义的分段函数为：

所述计算资源提供方计算该密文数据对应的分段函数时，使用选定的安全多方计算在解密服务提供方的帮助下获得该密文数据所在分段的标识数据；

结合所述标识数据与上一节多项式函数的计算，计算资源提供方即可计算出分段函数值。

下面对本发明实施例具体作进一步地详细描述。

本发明实施例提供一种保护隐私数据的梯度下降计算方法，让多方的机器学习参与者能够在保护其各自隐私数据不被泄露的情况下，完成基于梯度下降进行优化机器学习的训练过程。

本实施例的方法中，对梯度函数计算过程中的sigmoid函数拟合计算方式的不同，分为两种具体处理方式：

其中，第一种处理方式对应于：利用与sigmoid函数轮廓相近的多项式函数对该sigmoid函数进行拟合计算中，适用于存在一个或多个数据提供方，一个解密服务提供方(可以是数据提供方之一)，一个计算资源提供方(可以是数据提供方之一，但需与解密服务提供方不同)的计算场景中，该第一种处理方法包括以下步骤(参见图1)：

步骤11，同态加密密钥生成与分发：由CA机构或解密服务提供方直接生成同态加密方案的公私钥对(pk,vk)，解密服务提供方保留私钥vk，将公钥pk发送给各个数据提供方与计算资源提供方；

步骤12，训练参数协商：计算资源提供者与解密服务提供方协商训练参数，包括梯度下降的步长ε以及迭代次数times等参数，同时，各方还需协商一个与sigmoid函数轮廓近似的多项式函数θ_poly(x)及其相关参数；

步骤13，数据加密及汇总：各个数据提供方使用第一步中得到的公钥将他们各自拥有的原始数据或经过初步处理的数据加密，之后各个数据提供方将密文通过安全的信道发送给计算资源提供方；

步骤14，梯度下降过程：计算资源提供方初始化一随机的权重值w。之后利用上一步得到的密文数据计算预定义的多项式函数θ_poly(x)，由于多项式函数中的计算只涉及乘法与加法，使用一些同态加密算法结合一些与解密服务提供方之间的简单交互操作即可完成计算；之后，利用计算出的θ_poly(x)进一步计算出梯度值，利用梯度值更新权重值W；重复上述过程直至迭代次数达到预定义的迭代次数times上限值，或代入权重值后计算出的误差函数小于一预定义的门限；最后输出训练结果，即明文的权重值W。

上述步骤14中，计算多项式函数中，涉及乘法与加法，使用一些同态加密算法结合一些与解密服务提供方之间的交互操作来完成计算。具体为，使用某种同态加密算法对一条原始数据进行加密，在计算资源提供方计算该数据对应的多项式函数时，对多项式的每一项，会涉及密文的乘法运算，若选择的同态加密算法支持密文的乘法运算，则直接用其特性对该项进行计算，否则，计算资源提供方应对该项密文进行适当的保密性处理后将其发送给解密服务提供方，由其使用私钥完成解密后，在其解密的数据上进行相应计算，再使用公钥加密后发送给计算资源提供方，计算资源提供方此时可利用算法的同态特性去除起初对数据的保密性处理，得到对应的多项式的项；之后，对该多项式的每一项进行累加，若选择的同态加密算法支持密文的加法运算，则直接用其特性对该项进行计算，否则，计算资源提供方应对该项密文进行适当的保密性处理后将其发送给解密服务提供方，由其使用私钥完成解密后，在其解密的数据上进行相应计算，再使用公钥加密后发送给计算资源提供方，计算资源提供方此时可利用算法的同态特性去除起初对数据的保密性处理，得到该多项式值。

第二种处理方式对应于：利用与sigmoid函数轮廓相近的分段函数对其进行拟合计算中，适用于存在一个或多个数据提供方，一个解密服务提供方(可以是数据提供方之一)，一个计算资源提供方(可以是数据提供方之一，但需与解密服务提供方不同)的计算场景中，在该计算场景下，该第二种处理方法包括以下步骤(参见图1)：

步骤21，同态加密密钥生成与分发：由CA机构或解密服务提供方直接生成同态加密方案的公私钥对(pk,vk)，解密服务提供方保留私钥vk，将公钥pk发送给各个数据提供方与计算资源提供方；

步骤22，训练参数协商：计算资源提供者与解密服务提供方协商训练参数，包括梯度下降的步长ε以及迭代次数times等参数，同时，各方还需协商一个与sigmoid函数轮廓近似的分段函数θ_piece(x)及其相关参数；

步骤23，数据加密及汇总：各个数据提供方使用第一步中得到的公钥将他们各自拥有的原始数据或经过初步处理的数据加密，之后各个数据提供方将密文通过安全的信道发送给计算资源提供方；

步骤24，梯度下降过程：计算资源提供方初始化一随机的权重值w，之后利用上一步得到的密文数据计算预定义的分段函数θ_piece(x)，由于分段函数中的分段计算需要涉及比较大小的运算，这一步需要结合安全多方计算技术；之后，利用计算出的θ_piece(x)进一步计算出梯度值，利用梯度值更新权重值w；重复上述过程直至迭代次数达到预定义的迭代上限times，或代入权重值后计算出的误差函数小于一预定义的门限；最后输出训练结果，即明文的权重值W。

上述步骤24中，利用上一步得到的密文数据计算预定义的分段函数θ_piece(x)中，通过比较大小的运算，结合安全多方计算进行处理，来完成计算，且分段函数的每一分段最多为多项式函数、常值函数、线性函数中的一种，涉及乘法与加法运算。具体为，使用选定的同态加密算法(如Paillier，BGN及全同态加密算法)对一条原始数据进行同态加密，在计算资源提供方计算该数据对应的分段函数时，计算资源提供方使用合适的安全多方计算方式(如乱码电路算法)在解密服务提供方的帮助下获得该数据所在分段的标识数据(该标识数据可为一长度与函数分段数相等的密文向量，该向量中，自变量数据所在分段对应位置为1对应的密文，其余分段对应位置为0对应的密文，使用该标识数据，分段函数的计算等价为计算每一分段对应的函数值，再将每个分段值与其对应的标识数据相乘，对相乘后的结果进行累加)，之后，计算资源提供方结合该标识数据对预定义的分段函数θ_piece(x)的每一个分段进行计算(计算方法与上一节多项式函数的计算方法类似，即，用于完成每个分段内的线性或多项式函数的计算以及每个分段函数值与标识数据间的乘法与加法运算)，即能计算出分段函数值。

本发明实施例的计算方法，使得如下应用场景成为现实：多个数据的提供方可以使用同态加密算法加密数据，之后使用安全多方计算等技术在密文上运行基于梯度下降的机器学习训练，最后得到明文的训练结果，这一过程中，数据提供方各自的隐私数据不会被泄露。例如一些医院拥有大量患者的隐私数据，但不具备较强的数据处理能力，他们可以借助本发明的计算方法将患者数据的分析工作外包给数据处理公司，而不必担心隐私数据的泄露；或是一些规模较小的公司在做用户行为分析时，由于其拥有的用户数量及特征数量较少，其分析结果可能不够准确，利用本发明的计算方法，他们可以与一些拥有大量用户及特征的公司合作进行分析，提高精度的同时也不会造成用户隐私数据的泄露。

本发明的计算方法优势体现在精度较高，可进行多次迭代直至误差较小且计算过程中的数据处理造成的精度损失处在可控的范围；安全性高，计算过程中输入及中间数据均可保证满足语义安全的要求；灵活性好，可以实现两个或多个参与者参与计算；扩展性好，可以从原始的梯度下降扩展到牛顿方法或批量梯度下降。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种保护隐私的梯度下降计算方法，其特征在于，该计算方法用于包括一个或多个数据提供方、一个解密服务提供方和一个计算资源提供方的机器学习中的对梯度函数计算过程中，对梯度函数计算过程中的sigmoid函数拟合是：利用与sigmoid函数轮廓相近的多项式函数对该sigmoid函数进行拟合计算，则处理步骤包括：

步骤14，梯度下降过程：计算资源提供方初始化一随机的权重值；之后利用所述步骤13得到的所述密文数据计算预定义的多项式函数，利用计算出的多项式函数计算出梯度值，利用梯度值更新所述权重值；重复上述过程直至迭代次数达到预定义的迭代次数上限值或代入权重值后计算出的误差函数小于预定义的门限；输出处理结果为最后一次更新后的明文的权重值；

所述利用所述步骤13得到的所述密文数据计算预定义的多项式函数为：

所述计算资源提供方在计算与密文数据对应的多项式函数时，若密文数据加密所用的同态加密算法支持密文数据的乘法运算，则直接用该同态加密算法的乘法特性对该多项式函数进行乘法计算；否则，所述计算资源提供方对该项密文数据进行保密性处理后将其发送给解密服务提供方，由所述解密服务提供方使用私钥完成解密后，在解密的数据上进行相应乘法运算，再使用公钥加密后发送给所述计算资源提供方，计算资源提供方利用同态加密算法的同态特性去除之前对密文数据进行的保密性处理，得到该多项式函数的各项；

对得到的所述多项式函数的各项进行累加，若密文数据加密所用的同态加密算法支持密文数据的加法运算，则直接用该同态加密算法的加法特性对各项进行累加计算；否则，所述计算资源提供方对该密文数据进行保密性处理后将其发送给解密服务提供方，由所述解密服务提供方使用私钥完成解密后，在解密的数据上进行相应加法运算，再使用公钥加密后发送给所述计算资源提供方，计算资源提供方利用同态加密算法的同态特性去除之前对密文数据进行的保密性处理，得到该多项式函数的值。

2.根据权利要求1所述的保护隐私的梯度下降计算方法，其特征在于，所述方法的步骤12中，计算资源提供方与解密服务提供方协商训练参数包括：

梯度下降的步长和迭代次数。

3.一种保护隐私的梯度下降计算方法，其特征在于，该计算方法用于包括一个或多个数据提供方、一个解密服务提供方和一个计算资源提供方的机器学习中对梯度函数计算过程中，对梯度函数计算过程中的sigmoid函数拟合是利用与sigmoid函数轮廓相近的分段函数对该sigmoid函数进行拟合计算，则处理步骤包括：

步骤24，梯度下降过程：计算资源提供方初始化一随机的权重值；之后利用所述步骤23得到的所述密文数据计算预定义的分段函数，利用计算出的分段函数计算出梯度值，利用梯度值更新所述权重值；重复上述过程直至迭代次数达到预定义的迭代次数上限值或代入权重值后计算出的误差函数小于预定义的门限；输出处理结果为最后一次更新后的明文的权重值；

所述利用所述步骤23得到的所述密文数据计算预定义的分段函数为：

所述计算资源提供方计算该密文数据对应的分段函数时，使用选定的安全多方计算方式在解密服务提供方的帮助下获得该密文数据所在分段的标识数据；所述在解密服务提供方的帮助下获得该密文数据所在分段的标识数据是指：在解密服务提供方的帮助下进行比较大小的运算获得该密文数据所在分段的标识数据；

结合所述标识数据与对预定义的分段函数θ_piece(x)的每一个分段进行计算，计算出分段函数值；

若分段函数的某一分段为多项式函数，则所述多项式函数为利用所述密文数据计算预定义的多项式函数，该多项式函数为：

4.根据权利要求3所述的保护隐私的梯度下降计算方法，其特征在于，所述方法的步骤22中，计算资源提供方与解密服务提供方协商训练参数包括：

梯度下降的步长和迭代次数。