CN114398662A

CN114398662A - 基于安全多方计算的隐私保护机器学习推理方法及系统

Info

Publication number: CN114398662A
Application number: CN202111489427.9A
Authority: CN
Inventors: 刘雪峰; 程保琨; 雷静; 裴庆祺
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-04-26
Anticipated expiration: 2041-12-07
Also published as: CN114398662B

Abstract

本发明属于数据安全领域及密码学应用技术领域，公开了一种基于安全多方计算的隐私保护机器学习推理方法及系统，所述基于安全多方计算的隐私保护机器学习推理方法，包括：服务提供商对其所提供的机器学习模型进行承诺，生成标签，以保证标签和模型的一对一绑定；利用标签来限定模型，保证用户选取标签后模型不会被改变；在用户开始进行机器学习推理前，利用零知识证明来验证其所选标签是否被改变；最后利用安全计算框架来保证计算过程的安全性。本发明充分利用承诺不可更改以及零知识证明零知识的特性，在整个服务过程中，无可信第三方参与，即不会有第三方统同时掌握双方的数据，从根源上解决第三方不可信的问题。

Description

基于安全多方计算的隐私保护机器学习推理方法及系统

技术领域

本发明属于数据安全领域及密码学应用技术领域，尤其涉及一种基于安全多方计算的隐私保护机器学习推理方法及系统。

背景技术

目前，在信息化时代，生活离不开数据，为了更方便的处理这些数据，利用机器学习处理数据的方法应声而出。机器学习方法是计算机利用已有的数据，得出了某种模型，并利用此模型预测未来的一种方法。其作为主流的数据处理方案，在多个领域发挥着重要的作用。随着机器学习算法的不断推广，机器学习推理准确率的不断提高，成本不断下降，不仅仅是企业，很多个人也想通过机器学习推理来对自身的数据进行处理。但是一个优秀的机器学习模型的产生需要大量的数据和时间，个人或者较小的企业没有能力或者没有必要去产生属于自己的机器学习模型。在这个背景下，各种大数据处理服务的提供商也是逐渐开始扩展自己的业务，开展针对个人或者企业数据进行机器学习推理的服务，用自己的机器学习模型，对用户数据进行预测。用户根据自身需求选取相应的机器学习模型进行推理，得到推理结果。然而，用户数据对用户而言往往不想让他人知晓。对于企业而言，其耗费时间精力收集的数据也不想让其它企业知道；对于个人而言，个人数据中包含着个人的隐私信息，由这些信息可以确定个人的基本信息，包含个人的日常活动以及健康情况等，例如用电信息可以推测个人是否在家，医疗信息可以推测个人是否具有疾病等；同样的，对于服务的提供商而言，因为其耗费巨大代价所获得的模型具有商业价值，因此也会保护模型不被泄露。基于以上两点，需要同时保护用户数据隐私以及服务提供商的模型的安全。为了解决上述的问题，现有技术中存在两种方式解决这个问题：1)对原始的数据添加Pedersen承诺，基于公开可验证的安全计算。2)基于SPDZ的对称可验证性，对原始的数据添加哈希承诺。但是安全多方计算的公开可验证性能较低，哈希电路的高复杂性将会带来大的计算开销。

通过上述分析，现有技术存在的问题及缺陷为：现有技术中安全多方计算的公开可验证性能较低，哈希电路的高复杂性将会带来大的计算开销。

解决以上问题及缺陷的难度为：在于如何用更少量的资源完成安全计算前对双方数据的验证，保证计算过程的可验证性。

解决以上问题及缺陷的意义为：在充分解决上述问题后，可以保护参与方在进行数据推理的过程中双方输入数据的可信性。

发明内容

针对现有技术存在的问题，本发明提供了一种基于安全多方计算的隐私保护机器学习推理方法及系统。

本发明是这样实现的，一种基于安全多方计算的隐私保护机器学习推理方法，所述基于安全多方计算的隐私保护机器学习推理方法，包括：

服务提供商对其所提供的机器学习模型进行承诺，生成标签，以保证标签和模型的一对一绑定；

利用标签来限定模型，保证用户选取标签后模型不会被改变；

在用户开始进行机器学习推理前，利用零知识证明来验证其所选标签是否被改变；最后利用安全计算框架来保证计算过程的安全性。

进一步，所述基于安全多方计算的隐私保护机器学习推理方法，具体包括以下步骤：

步骤一，模型限定阶段，服务提供商利用承诺值限定模型，将承诺值公开作为标签，以标签来限定模型；该步可以保证服务提供商的模型与标签一一对应，保证对应关系不会被更改。

步骤二，输入限定阶段，该模块用于参与双方将参与计算的数据与全局MAC码结合后进行共享，达到锁定输入数据的目的；可以保证所输入的数据不会被恶意篡改，任意一方篡改数据将会导致后续验证的失败

步骤三，零知识证明阶段，利用线性零知识证明方案，在零知识的情况下判断被限定的模型数据与标签所对应的模型数据是否相同；

步骤四，安全计算阶段，利用两方安全计算协议进行机器学习推理。可以保证计算过程的安全性。

进一步，所述模型限定阶段具体过程为：

服务提供商根据其所拥有的数据模型w_k，生成相对应的生成w_k的Pedersen承诺P(w_k)；

服务提供商将P(w_k)作为标签公开，同时公开用于验证的可公开随机数g、h、p；

所述P(w_k)为：

其中，w_k为模型，p为大素数，g、h为有限域Z_P上的本元，r为随机生成的盲因子，P(w_k)为承诺值。

进一步，所述输入限定阶段，具体过程为：

Client随机生成n个素数p_k，n的大小与数据长度b有关(0≤k＜n)，

HElib库中BGV最多支持加密的数据长度为32位，在此进行扩展；

Client将随机生成的素数公开，Server挑选编号为集合为m的任意个素数；Client以p_i为模生成BGV的公私钥对pk_i，sk_i，其中(0≤i＜n且

)；Server以p_j为模生成BGV的公私钥对pk_j，sk_j，其中(0≤j＜n且j∈m)；

Server生成随机数α_s，r_s；Client生成随机数α_c，r_c；Server将自身随机数α_s，r_s以及参与计算的w分别模p_k，得到α_s，k，r_s，k与w_k；Client将自身随机数α_c，r_c分别模p_k得到α_c，k，r_c，k，其中0≤k＜n；

Server与Client分别使用公钥pk_k加密所对应的α_s，k，r_s，k，α_c，k，r_c，k以及w_k；得到C(α_s，k)，C(r_s，k)，C(α_c，k)，C(r_c，k)以及C(w_k)；

Server将编号为j的数据发送给Client；Client将编号为i的数据发送给Server；这样，Server得到C(α_s，i)，C(r_s，i)，C(α_c，i)，C(r_c，i)以及C(w_i)；Client得到C(α_s，i)，C(r_s，i)，C(α_c，i)，C(r_c，i)以及C(w_i)，其中(0≤i＜n且

)，(0≤j＜n且j∈m)；

双方分别在本地进行计算，Server与Client分别使用自身私钥sk_j与sk_i解密所对应的数据；Server解密完成后将数据发送给Client，Client使用中国剩余定理得到Δ+r_s+rc_，并设Δ₂＝Δ+r_s+r_c-r_c，Server端设Δ₁＝-r_s。

进一步，所述双方分别在本地计算，具体为：

C(α_k)＝C(α_s，k)+C(α_c，k)；

C(Δ_k)＝C(α_k·w_k)＝C(α_k)·C(w_k)；

C(Δ_k+r_s，k+r_c，k)＝C(α_k·w_k)+C(r_s，k)+C(r_c，k)；

其中0≤k＜n，并将结果公开。

进一步，所述零知识证明阶段具体过程为：

Server计算

h^R其中R为随机数，Client计算

分别将结果发送给对方，得到g^α和g^Δh^R，双方得到：

由于

若取：a₁＝1，a₂＝p-1，a₃＝0；

满足：1·x₁+(p-1)·x₂+0·x₃＝0modp；

零知识证明方案；

Server生成v_i，满足

Server计算

s_i＝v_i-C·x_i；

其中C＝H(g，g^α，h，y，t)，函数H(x)为哈希函数；将结果发送给Client；

Client判断

以及

是否成立，若结果成立，则进入安全多方计算框架进行进一步计算；

若存在n个w以及w_k，则进行批量验证：

Client生成随机数η_i，判断

是否成立，其中C_j＝H(g，g^α，h，y_j，t_j)，函数H(x)为哈希函数。

进一步，所述安全计算阶段具体过程为：

将参与机器学习推理的双方数据输入到SPDZ框架中，进行安全多方计算。

本发明的另一目的在于提供一种实施所述基于安全多方计算的隐私保护机器学习推理方法的基于安全多方计算的隐私保护机器学习推理系统，所述基于安全多方计算的隐私保护机器学习推理系统包括：

模型限定模块，用于服务提供商对自身模型数据进行承诺并公开承诺值作为标签，即对自身所有模型通过标签进行限定，并将限定后的标签进行公开，标签公开后，由于承诺的安全性，被承诺模型信息将不会被更改；同时，该标签值也将作为数据参与后续的验证过程，即在后续计算过程中服务提供商输入的模型数据将会与该被标签限定的模型数据进行比对；

输入限定模块，用于参与双方将参与计算的数据与全局MAC码Δ结合后生成α，并将α进行共享，达到锁定输入数据的目的，确保在后续计算的过程中数据不会发生变化，全局MAC码Δ为双方共同生成，并由双方共同掌握，任何一方都无法得到全局MAC码Δ的值，任一方更改被锁定的数据将会导致在后续验证过程中值α的恢复出错，导致验证失败；

零知识证明模块，用于零知识证明，利用线性零知识证明方案，在零知识的情况下判断被限定的模型数据与服务提供商提供的模型数据是否相同；

安全计算模块，用于在验证后的安全计算，保障计算过程中双方参与计算的数据的安全；由现有的恶意模型下的安全多方计算模型实现，此处采用SPDZ框架。

本发明的另一目的在于提供一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行所述基于安全多方计算的隐私保护机器学习推理方法包括下列步骤：

本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施所述的基于安全多方计算的隐私保护机器学习推理方法。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明基于承诺值可验证以及零知识证明的思想提供了一种限定模型的机器学习推理方案，充分利用承诺不可更改以及零知识证明零知识的特性，在整个服务过程中，无可信第三方参与，即不会有第三方统同时掌握双方的数据，从根源上解决第三方不可信的问题。本发明基于承诺值可验证以及零知识证明的思想提供了一种限定模型的机器学习推理方案，为了避免服务提供商数据的泄露，对服务提供商所能提供的模型进行了承诺，生成标签，并通过公开标签的方式使得用户可以选择不同的服务，进行安全的机器学习推理，利用同态加密以及SPDZ的思想，来保证双方输入的不可篡改性。同时本发明提供一种基于承诺值可验证以及零知识证明的思想，进而提供了一种限定模型的机器学习推理方案，整个计算过程需要保证双方数据的安全性，因此引入零知识证明来保证服务提供商输入数据的有效性。本发明保证在用户在“机器学习即服务”的过程中，选定服务后，服务提供商只能使用自己公开的服务对应的模型提供服务。即保证服务提供商输入数据的真实性，不可篡改。保护用户的合法权益。

附图说明

图1是本发明实施例提供的基于安全多方计算的隐私保护机器学习推理系统结构示意图；

图1中：1、模型限定模块；2、输入限定模块；3、零知识证明模块；4、安全计算模块。

图2是本发明实施例提供的基于安全多方计算的隐私保护机器学习推理方法流程图。

图3是本发明方法模型限定模块的流程示意图。

图4是本发明方法输入限定模块的流程示意图。

图5是本发明方法零知识证明模块的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于安全多方计算的隐私保护机器学习推理方法及系统，下面结合附图对本发明作详细的描述。

本发明提供的基于安全多方计算的隐私保护机器学习推理系统业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的基于安全多方计算的隐私保护机器学习推理系统仅仅是一个具体实施例而已。

如图1所示，本发明实施例提供的基于安全多方计算的隐私保护机器学习推理系统包括：

模型限定模块1，用于服务提供商对自身模型数据进行承诺并公开承诺值作为标签，即对自身所有模型通过标签进行限定，并将限定后的标签进行公开，标签公开后，由于承诺的安全性，被承诺模型信息将不会被更改。同时，该标签值也将作为数据参与后续的验证过程，即在后续计算过程中服务提供商输入的模型数据将会与该被标签限定的模型数据进行比对。

输入限定模块2，用于参与双方将参与计算的数据与全局MAC码Δ结合后生成α，并将α进行共享，达到锁定输入数据的目的，确保在后续计算的过程中数据不会发生变化，全局MAC码Δ为双方共同生成，并由双方共同掌握，任何一方都无法得到全局MAC码Δ的值，任一方更改被锁定的数据将会导致在后续验证过程中值α的恢复出错，导致验证失败。

零知识证明模块3，用于零知识证明，利用线性零知识证明方案，在零知识的情况下判断被限定的模型数据与服务提供商提供的模型数据是否相同。

安全计算模块4，用于在验证后的安全计算，保障计算过程中双方参与计算的数据的安全；该模块的由现有的恶意模型下的安全多方计算模型实现(此处采用SPDZ框架)。

如图2所示，本发明实施例提供的基于安全多方计算的隐私保护机器学习推理方法，包括：

S101：模型限定阶段，服务提供商利用承诺值限定模型，将承诺值公开作为标签，以标签来限定模型；

S102：输入限定阶段，该模块用于参与双方将参与计算的数据与全局MAC码结合后进行共享，达到锁定输入数据的目的；

S103：零知识证明阶段，利用线性零知识证明方案，在零知识的情况下判断被限定的模型数据与标签所对应的模型数据是否相同；

S104：安全计算阶段，利用两方安全计算协议进行机器学习推理。

如图3所示，本发明实施例提供的模型限定阶段具体过程为：

服务提供商根据其所拥有的数据模型w_k，生成相对应的生成w_k的Pedersen承诺P(w_k)。其中，

w_k为服务商所拥有的机器学习模型，p为大素数，g、h为有限域Z_P上的本元，r为随机生成的盲因子，P(w_k)为承诺值。

服务提供商将P(w_k)作为标签公开，同时公开用于验证的可公开随机数g、h、p。

如图4所示，本发明实施例提供的输入限定阶段，具体过程为：Client随机生成n个素数p_k，n的大小与数据长度b有关(0≤k＜n)，

HElib库中BGV最多支持加密的数据长度为32位，因此在此进行了扩展。Client将随机生成的素数公开，Server挑选编号为集合为m的任意个素数；Client以p_i为模生成BGV的公私钥对pk_i，sk_i，其中(0≤i＜n且

)；Server以p_j为模生成BGV的公私钥对pk_j，sk_j，其中(0≤j＜n且j∈m)。Server生成随机数αs，r_s；Client生成随机数α_c，r_c。Server将自身随机数α_s，r_s以及参与计算的w利用中国剩余定理进行秘密共享，在利用中国剩余定理中的素数为p_k，得到α_s，k，r_s，k与w_k；Client同样将自身随机数α_c，r_c分别利用中国剩余定理模p_k得到α_c，k，r_c，k，其中0≤k＜n。

Server与Client分别使用公钥pkk加密所对应的α_s，k，r_s，k，α_c，k，r_c，k以及w_k。得到C(α_s，k)，C(r_s，k)，C(α_c，k)，C(r_c，k)以及C(w_k)。

Server将编号为j的数据发送给Client；Client将编号为i的数据发送给Server。这样，Server得到C(α_s，i)，C(r_s，i)，C(α_c，i)，C(r_c，i)以及C(w_i)。Client得到C(α_s，i)，C(r_s，i)，C(α_c，i)，C(r_c，i)以及C(w_i)，其中(0≤i＜n且

)，(0≤j＜n且j∈m)。

双方分别在本地计算：

C(α_k)＝C(α_s，k)+C(α_c，k)；

C(Δ_k)＝C(α_k·w_k)＝C(α_k)·C(w_k)；

C(Δ_k+r_s，k+r_c，k)＝C(α_k·w_k)+C(r_s，k)+C(r_c，k)；

其中0≤k＜n，并将结果公开。

Server与Client分别使用自身私钥sk_j与sk_i解密所对应的数据；Server解密完成后将数据发送给Client，Client使用中国剩余定理得到Δ+r_s+r_c，并设Δ₂＝Δ+r_s+r_c-r_c，Server端设Δ₁＝-r_s。

如图5所示，本发明实施例提供的零知识证明阶段具体过程为：

Server计算

h^R其中R为随机数，Client计算

分别将结果发送给对方，得到g^α和g^Δh^R，双方得到：

由于

若取：a₁＝1，a₂＝p一1，a₃＝0；

满足：1·x₁+(p-1)·x₂+0·x₃＝0modp；

满足零知识证明方案。

Server生成v_i，满足

Server计算

s_i＝v_i-C·x_i；

其中C＝H(g，g^α，h，y，t)，函数H(x)为哈希函数；将结果发送给Client。

Client判断

以及

是否成立，若结果成立，则进入安全多方计算框架进行进一步计算。

若存在n个w以及w_k，则可以进行批量验证：

Client生成随机数η_i，判断

本发明实施例提供的安全计算阶段具体过程为：

下面结合具体实施例对本发明的技术效果作详细的描述。

1正确性与安全性

本发明使用Pedersen承诺以及零知识证明来保证安全，即在服务提供商将标签公开后，标签与模型的对应关系不会被改变。在零知识证明中，除了证明结果，用户没有获得任何关于服务提供商模型的信息。

证明：由于以下方法存在，因此可以保证在零知识的情况下进行验证：

P计算承诺值

其中v₁，...，v_l为模q的剩余系

中满足线性关系

的一组随机数。P计算s_i＝v_i-cx_i(i＝1，...，l)并且构造(s₁，...，s_l，t)，其中c＝H(g₁，g₂，…g_l，y，t)，函数H(x)为哈希函数。

-PROOFCHECK(·)→l or0；

V通过验证以下两个等式是否成立来进行零知识证明的验证：

其中c＝H(g₁，g₂，…g_l，y，t)，函数H(x)为哈希函数。若验证通过则输出1；否则输出0。

-BATCHCHECK(·)→lor0；

给出y_j以及(s_j，1，...，S_j，l，t_j)生成随机数η_i，判断：

是否成立，其中c＝H(g₁，g₂，…g_l，y，t)，函数H(x)为哈希函数。

2有效性：在计算成本方面，本发明所使用的方法是有效的。如表1为10000个128bit数据于虚拟机(Ubuntu18.04)上进行实验的结果。

表1为10000个128bit数据于虚拟机(Ubuntu18.04)上进行实验的结果

	计算耗时
		使用Paillier实现	361.7s
使用BGV实现	423.5s
		使用SPDZ中sha256实现	2250s

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于安全多方计算的隐私保护机器学习推理方法，其特征在于，所述基于安全多方计算的隐私保护机器学习推理方法，包括：

在用户开始进行机器学习推理前，利用零知识证明来验证所选标签是否被改变；

最后利用安全计算框架来保证计算过程的安全性。

2.如权利要求1所述基于安全多方计算的隐私保护机器学习推理方法，其特征在于，所述基于安全多方计算的隐私保护机器学习推理方法，具体包括以下步骤：

步骤一，模型限定阶段，服务提供商利用承诺值限定模型，将承诺值公开作为标签，以标签来限定模型；

步骤二，输入限定阶段，该模块用于参与双方将参与计算的数据与全局MAC码结合后进行共享，达到锁定输入数据的目的；

步骤四，安全计算阶段，利用两方安全计算协议进行机器学习推理。

3.如权利要求2所述基于安全多方计算的隐私保护机器学习推理方法，其特征在于，所述模型限定阶段具体过程为：

所述P(w_k)为：

4.如权利要求2所述基于安全多方计算的隐私保护机器学习推理方法，其特征在于，所述输入限定阶段，具体过程为：

HElib库中BGV最多支持加密的数据长度为32位，在此进行扩展；

Client将随机生成的素数公开，Server挑选编号为集合为m的任意个素数；Client以p_i为模生成BGV的公私钥对pk_i，sk_i，其中0≤i＜n且

Server以p_j为模生成BGV的公私钥对pk_j，sk_j，其中0≤j＜n且j∈m；

Server将编号为j的数据发送给Client；Client将编号为i的数据发送给Server；这样，Server得到C(α_s，i)，C(r_s，i)，C(α_c，i)，C(r_c，i)以及C(w_i)；Client得到C(α_s，i)，C(r_s，i)，C(α_c，i)，C(r_c，i)以及C(w_i)，其中0≤i＜n且