CN113077054B

CN113077054B - 基于多密钥密文的岭回归学习方法、系统、介质和设备

Info

Publication number: CN113077054B
Application number: CN202110234350.4A
Authority: CN
Inventors: 赖俊祚; 李燕玲; 王传胜; 孙萌
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2022-11-29
Anticipated expiration: 2041-03-03
Also published as: CN113077054A

Abstract

本发明公开了一种基于多密钥密文的岭回归学习方法、系统、介质和设备，获取数据拥有者上传的密文；接收数据分析者发送的公私钥，接收数据分析者使用密文进行岭回归学习的请求；向数据拥有者发送密文转换的请求以及数据分析者发送的公钥，基于数据拥有者同意情况下接收其所发送的代理密钥；利用代理密钥进行密文转换；进入岭回归学习后，根据密文转换所得到的加密后的密文得到密文矩阵，再针对密文矩阵进行矩阵乘法计算得到矩阵A的密文[A]和向量b的密文[b]，计算出岭回归模型参数w的密文。本发明扩展了加密密钥单一的应用场景，解决了多密钥加密数据造成的密文运算困难问题，实现了安全高效的岭回归学习算法，有效地降低了计算和通信开销。

Description

基于多密钥密文的岭回归学习方法、系统、介质和设备

技术领域

本发明涉及数据安全技术领域，特别涉及一种基于多密钥密文的岭回归学习方法、系统、介质和设备。

背景技术

随着计算机存储能力的提升和复杂计算的发展，近年来的数据量呈指数型增长。这些趋势使数据分析、数据挖掘、机器学习等的发展日新月异。越来越多的研究者着手于数据信息的挖掘工作，通过提取大量数据中的信息，总结规律，观察数据之间的关系，学习预测某种现象的结果，给未来的工作和生活提供便利。其中机器学习算法是当今知识发现的重要算法之一。机器学习算法是从大量数据中进行自动分析，学习得到某种规律，并利用这种规律对未知数据进行预测。在最近几年，机器学习已经广泛地应用于许多领域，例如：医疗诊断、信用风险评估、垃圾邮件分类等。

其中，岭回归是机器学习中的一种非常重要的回归学习算法，在现实生活中具有非常广泛的应用。岭回归算法是根据特征数据和结果值构造一个线性方程，表示特征数据和结果值之间的关系。岭回归可以用来定量地关联特征和结果，以及用于未来预测。岭回归虽然不具备最小二乘法的无偏性，以及在计算过程中可能丢失部分信息，而且结果精确度也有所降低，但是，相较于最小二乘法，岭回归算法更符合实际应用，结果更可靠，对病态数据有更强的拟合能力。因此，称岭回归为一种改良的最小二乘法。

大数据为机器学习的发展带来了机遇，同时也带来了严峻的挑战。在机器学习算法中，需要在丰富的数据样本上进行模型学习运算，才能得到更精确的预测模型。然而，数据源于生活，其中包含了大量的隐私信息。随着云计算的快速发展，隐私保护已经成为社会发展的焦点。因此，在保证数据隐私的前提下进行机器学习，已经是当前机器学习发展的关键问题。研究具有隐私保护的机器学习方法是信息行业的发展趋势，具有重要的理论意义和应用价值。

通常情况下，为了保证用户的隐私安全，用户通常会把加密的数据存储在云服务器上。通过加密可以保证用户的隐私安全，但是对于实现机器学习增加了一定的难度。目前，全同态加密(Full Homomorphic Encryption,FHE)的最新研究成果，已经使在密文上执行任意运算成为可能。但是由于全同态的效率很低，导致该加密方法在实际场景中并不实用。多密钥全同态加密支持不同公钥加密的密文进行运算，但是它的效率同样是其最大的缺点。另外，在解密阶段，需要所有参与加密的用户交互计算共同解密。因此多密钥全同态加密也不实用。

目前，现有技术中提出了一个可扩展的具有隐私保护的线性回归学习方案，这种方案的主要思想是利用安全多方计算实现隐私保护。在这种方案中，用户把数据分成两部分，分别存储在两个不共谋的云服务器上，云服务器利用安全两方计算(2PC)实现线性回归的学习。安全多方计算需要参与者交互实现，因此在计算过程中会产生大量的通信成本，使得它的实用性降低。在现有技术中，还有利用线性同态加密实现具有隐私保护的岭回归学习算法，这种方案要求每个用户先计算A_i、b_i(i表示第i个用户)，然后使用第三方的公钥加密计算结果，并把密文上传到云服务器上，云服务器把密文聚合之后，得到A和b，然后利用加密方案的同态性质，与加密服务提供者进行交互实现安全的岭回归的运算，用户在整个计算过程中承担了很大的工作量，另外用户加密数据时使用的是第三方的公钥，上传到云服务器的数据不再是基于存储的目的，这在实际应用中有一定的局限性。

发明内容

本发明的第一目的在于克服现有技术的缺点与不足，提供一种基于多密钥密文的岭回归学习方法，该方法扩展了以往加密密钥单一的应用场景，解决了多密钥加密数据造成的密文运算困难问题，实现了安全高效的岭回归学习算法，并且有效地降低了计算和通信开销。

本发明的第二目的在于提供一种基于多密钥密文的岭回归学习系统。

本发明的第三目的在于提供一种存储介质。

本发明的第四目的在于提供一种计算设备。

本发明的第一目的通过下述技术方案实现：一种基于多密钥密文的岭回归学习方法，步骤包括：

获取数据拥有者针对数据加密后所上传的密文；

接收数据分析者发送的公私钥，接收数据分析者使用密文进行岭回归学习的请求；

基于密文使用请求，向数据拥有者发送密文转换的请求以及数据分析者发送的公钥，基于数据拥有者同意情况下接收其所发送的代理密钥；其中数据拥有者利用自身的私钥和数据分析者的公钥生成代理密钥；

利用代理密钥进行密文转换，将所有密文转换成同一公钥加密后的密文；

进入岭回归学习后，根据密文转换所得到的加密后的密文得到密文矩阵，再针对密文矩阵进行矩阵乘法计算得到矩阵A的密文[A]和向量b的密文[b]；

根据矩阵A的密文[A]和向量b的密文[b]计算出岭回归模型参数w的密文

优选的，其中从数据拥有者中获取的密文的加密过程如下：

存在m个数据拥有者，数据拥有者k即用户k持有n_k条数据，用矩阵表示为：

其中k＝1,…,m，矩阵中每一行分别代表一条数据，其中每条数据包含一个拥有d个特征值特征向量和特征向量对应的结果值，特征向量对应的结果值为矩阵中每一行的最后一个元素；

1)、首先调用A-AFGH加密方法的密钥生成函数KeyGen(1^κ)生成公私钥对，其中κ为安全参数；选择随机数a_k作为私钥，并计算

作为公钥，其中g是循环群

的生成元，则数据拥有者k的公私钥对为：

sk_k＝a_k；

2)、对于矩阵中的每一个数据项

i＝1，2，…，n_k，j＝1,2，…，d，选择一个随机数

i＝1，2，…，n_k，j＝1,2，…d，并令

调用A-AFGH加密方法的加密函数

选择一个随机数

计算密文

其中Z是循环群

的生成元；该密文只能被持有私钥sk_k＝a_k的数据拥有者k解密；则对于每一个数据项

使用LHE加密后的密文形式为

对于矩阵中的每一个数据项

i＝1，2，…，n_k，选择一个随机数

并令

调用A-AFGH加密方法的加密函数

选择一个随机数

计算密文

则对于每一个数据项

使用LHE加密后的密文形式为

更进一步的，从数据分析者中接收到的公钥的生成过程如下：

数据分析者调用A-AFGH加密方法的密钥生成函数KeyGen(1^κ)生成公私钥对，其中κ为安全参数；用户选择随机数a和a^*作为私钥，并计算g^a和

作为公钥；数据分析者的公私钥对为

sk^*＝a^*，临时公私钥对为：pk＝g^a，sk＝a。

更进一步的，从数据拥有者中获取到的代理密钥的生成过程如下：根据数据分析者发送的临时公钥pk，确定出数据分析者请求使用密文数据；并且将临时公钥pk转发给数据拥有者，获取数据拥有者的授权同意；其中，数据拥有者在同意的情况下，调用A-AFGH加密方法的代理密钥生成函数利用自己的私钥sk_k＝a_k和数据分析者的临时公钥ga＝g^a得到代理密钥

k＝1,…,m；

利用代理密钥进行密文转换，将所有密文转换成同一公钥加密后的密文的具体过程如下：

对于数据拥有者k所上传的密文

利用双线性映射

计算得到密文

对于密文

利用双线性映射

计算得到密文

当数据拥有者1到数据拥有者m^*同意数据分析者使用数据，则获得数据分析者临时公钥pk加密密文的矩阵为：

其中m^*≤m。令

则矩阵的表示方式可简化为：

其中，

其中

令

即

其中

令

即

其中

令

则

其中

令

即

其中

令

即

其中

令

则

…，

以此类推,矩阵中各行元素的对应关系。

更进一步的，进入岭回归学习后，计算得到矩阵A的密文[A]和向量b的密文[b]的具体过程如下：

1)、根据密文转换所得到的加密后的密文

得到矩阵X和向量y的密文为：

得到矩阵H和向量h的密文记为：

2)、计算矩阵乘法，得到密文[A^*]和密文[b^*]：

其中，λ为正则化参数，是一个固定常量，I是一个d×d的单位矩阵，[λI]表示使用数据分析者的公钥pk＝g^a，用A-AFGH加密算法加密矩阵λI的密文形式，

表示密文上的乘法操作，

表示密文上的加法操作；

3)、采用数据分析者发送的临时私钥为sk＝a，对密文转换所得到的加密后的密文中的[h_i,j]和[h_i]进行解密操作:

求解离散对数问题，得到对应的明文信息h_i,j和h_i，即获得矩阵H和向量h；根据矩阵H和向量h计算对应的盲化因子，即对称矩阵H^*和向量h^*：

其中，

至

至

均为矩阵H^*中的元素，

至

均为向量h^*的元素；

使用数据分析者的临时公钥pk＝g^a加密盲化因子对称矩阵H^*和向量h^*，得到对应加密后的密文[H^*]和[h^*]：

其中

r′_i,j为随机数，

i＝1,…,d,j＝1,…d；

r′_i为随机数，

i＝1,…,d；

4)在获取到密文[H^*]和[h^*]之后，利用A-AFGH加密方法的加法同态的性质消去密文[A^*]和密文[b^*]中的盲化因子，得到矩阵A和向量b的密文：

更进一步的，根据矩阵A的密文[A]和向量b的密文[b]计算出岭回归模型参数w的具体步骤如下：

1)、随机选择一个可逆矩阵

和一个向量

其中，

至

至

均为可逆矩阵R^*中的元素，

至

均为向量r^*的元素；

利用A-AFGH加密方法的加法同态的性质，计算

和d＝Ar^*+b的密文，得到对应的用数据分析者的临时公钥pk＝g^a加密的密文结果

和[d]；此外，使用数据分析者的公钥

调用A-AFGH的加密算法加密可逆矩阵R^*和向量r^*，得到密文矩阵

和密文向量

其中

为随机数，

i＝1,…,d,j＝1,…d；

为随机数，

i＝1,…,d。

2)解密

和[d]得到相应的明文信息

和d，根据明文信息

和d计算得到参数

利用A-AFGH加密方法的加法同态的同态性质，计算模型参数

的密文

其中

为数据分析者公钥

加密的密文，模型参数w即为所求的岭回归模型参数。

本发明第二目的通过以下技术方案实现：一种基于多密钥密文的岭回归学习系统，包括服务器、数据拥有者和数据分析者；

所述数据拥有者，用于对其所拥有的数据进行加密，并且将加密后的密文上传到服务器中；用于接收和授权服务器发送的密文转换请求，在同意密文转换请求的情况下，利用自身的私钥和数据分析者的公钥生成代理密钥，并且将计算的代理密钥发送给服务器；

所述数据分析者，用于发送公钥和密文使用请求到服务器，用于接收服务器计算的岭回归模型参数w；

所述服务器，用于执行权利要求1至6中任一项所述的基于多密钥密文的岭回归学习方法。

优选的，所述服务器为云服务器，云服务器包括云服务器CS和云服务器ACS；

其中，数据拥有者对数据进行加密得到密文的过程如下：

作为公钥，其中g是循环群

的生成元，则数据拥有者k的公私钥对为：

sk_k＝a_k；

2)、对于矩阵中的每一个数据项

i＝1，2，…，n_k，j＝1,2，…，d，选择一个随机数数

i＝1，2，…，n_k，j＝1,2，…d，并令

调用A-AFGH加密方法的加密函数

选择一个随机数

计算密文

其中Z是循环群

使用LHE加密后的密文形式为

对于矩阵中的每一个数据项

i＝1，2，…，n_k，选择一个随机数

并令

调用A-AFGH加密方法的加密函数

选择一个随机数

计算密文

则对于每一个数据项

使用LHE加密后的密文形式为

3)、数据拥有者将上述加密得到的密文

上传到云服务器CS中；

其中，数据分析者生成公钥的过程如下：

作为公钥；数据分析者的公私钥对为

sk^*＝a^*，临时公私钥对为：pk＝g^a，sk＝a；

云服务器所获取的代理密钥生成过程如下：数据分析者发送临时公钥pk＝g^a给云服务器CS，请求使用存储在云服务器CS中的密文数据，数据分析者将临时公私钥对pk＝g^a，sk＝a发送给云服务器ACS；云服务器CS将临时公钥pk转发给数据拥有者，获取数据拥有者的授权；

数据拥有者同意云服务器CS使用密文数据，则调用A-AFGH加密方法的代理密钥生成函数利用自己的私钥sk_k＝a_k和数据分析者的公钥pk＝g^a得到代理密钥

数据拥有者把代理密钥pk_k→DA返回给云服务器CS；

其中，进入岭回归学习后，云服务器计算得到矩阵A的密文[A]和向量b的密文[b]的具体过程如下：

1)、云服务器CS根据密文转换所得到的加密后的密文

得到矩阵X和向量y的密文为：

得到矩阵H和向量h的密文记为：

2)、云服务器CS计算矩阵乘法，得到密文[A^*]和密文[b^*]：

表示密文上的乘法操作，

表示密文上的加法操作；

3)、云服务器CS在得到密文[A^*]和密文[b^*]后，将其中的[h_i,j]和[h_i]发送给云服务器ACS，云服务器ACS采用数据分析者发送的临时私钥为sk＝a，对密文转换所得到的加密后的密文中的[h_i,j]和[h_i]进行解密操作:

其中，

至

至

均为矩阵H^*中的元素，

至

均为向量h^*的元素；

使用数据分析者的临时公钥pk＝g^a加密盲化因子对称矩阵H^*和向量h^*，得到对应加密后的密文[H^*]和[h^*]:

其中

r′_i,j为随机数，

i＝1,…,d,j＝1,…d；

r′_i为随机数，

i＝1,…,d。

4)云服务器ACS将获取到密文[H^*]和[h^*]发送给云服务器CS，云服务器CS利用A-AFGH加密方法的加法同态的性质消去密文[A^*]和密文[b^*]中的盲化因子，得到矩阵A和向量b的密文：

1)、云服务器CS随机选择一个可逆矩阵

和一个向量

其中，

至

至

均为可逆矩阵R^*中的元素，

至

均为向量r^*的元素；

云服务器CS利用A-AFGH加密方法的加法同态的性质，计算

和[d]；此外，云服务器CS使用数据分析者的公钥

和密文向量

其中

为随机数，

i＝1,…,d,j＝1,…d；

为随时数，

i＝1,…,d。

最后云服务器CS将临时公钥pk＝g^a加密的密文

和[d]，以及公钥

加密的密文

和

发送给云服务器ACS；

2)云服务器ACS解密

和[d]得到相应的明文信息

和d，根据明文信息

和d计算得到参数

云服务器ACS利用A-AFGH加密方法的加法同态的同态性质，计算模型参数

的密文

其中，

为数据分析者公钥

加密的密文，模型参数w即为所求的岭回归模型参数；

3)云服务器ACS发送模型参数w的密文

给数据分析者。

本发明的第三目的通过以下技术方案实现：一种存储介质，存储有程序，所述程序被处理器执行时，实现本发明第一目的所述的基于多密钥密文的岭回归学习方法。

本发明的第四目的通过以下技术方案实现：一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现本发明第一目的所述的基于多密钥密文的岭回归学习方法。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明基于多密钥密文的岭回归学习方法中，首先密文为数据拥有者各自加密后上传的，只有用户本人可以解密获得明文，从而保证数据隐私，同时也保留了数据的管理权，并且本发明方法中允许训练数据集包含不同公钥加密的密文，扩展了以往加密密钥单一的应用场景，有效解决了多密钥场景下的具有隐私保护的岭回归学习难题。其次，本文利用了数据拥有者生成的代理密钥进行密文转换，将所有密文转换成同一公钥加密后的密文，能够实现密文的高效转换，方便在密文上进行岭回归学习的运算，解决了多密钥加密数据造成的密文运算困难等问题。最后，本发明方法在支持一次乘法的线性同态加密的基础上实现了安全高效的岭回归模型参数的计算，有效地降低了在岭回归学习过程中的通信开销。

(2)本发明基于多密钥密文的岭回归学习方法中，在密文转换阶段，要求在获得数据拥有者即用户的许可之后才可以在保证数据隐私的前提下使用用户的数据，即用户需要计算一个代理密钥，表示允许对自己的数据执行密文转换操作，因此同意参与回归模型训练的用户需要计算一个代理密钥，则每个用户的计算需要执行一次乘法操作和一次指数操作，只需在用户的密文上执行n(d+1)次双线性映射操作，便可以实现密文的转换，因此本发明方法在密文转换阶段很大程度上提高了计算效率。另外，在岭回归学习的过程中，无需数据拥有者参与计算，能够有效减少数据拥有者的工作量；总体来说，本发明方法有效节省了计算的开销。

(3)本发明基于多密钥密文的岭回归学习系统，包括服务器、数据拥有者和数据分析者；其中数据拥有者对其所拥有的数据进行加密，并且将加密后的密文上传到服务器中；数据拥有者利用自身的私钥和数据分析者的公钥生成代理密钥，并且将计算的代理密钥发送给服务器；数据分析者发送公钥和密文使用请求到服务器，用于接收服务器计算的岭回归模型参数w；服务器执行本发明所述的基于多密钥密文的岭回归学习方法。在本发明系统中，服务器具体可以是云服务器，具体包括通过存储和计算服务的云服务器CS以及提供计算服务的云服务器ACS。在本发明系统中，m个数据拥有者即用户上传m个代理密钥，云服务器便可以在本地实现密文的转换，无需服务器之间的交互，因此通信开销仅取决于用户的数量，能够有效减少云服务器之间的通信开销。

附图说明

图1是本发明方法流程图。

图2是本发明系统原理图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

本实施例公开了一种基于多密钥密文的岭回归学习方法，该方法可以在计算设备例如服务器中执行，也可以在云服务器中进行执行，如图1中所示，具体步骤包括：

S1、获取数据拥有者针对数据加密后所上传的密文。

在本实施例中，从数据拥有者中获取的密文的加密过程如下：

其中k＝1,…,m，矩阵中每一行分别代表一条数据，其中每条数据包含一个拥有d个特征值特征向量和特征向量对应的结果值，特征向量对应的结果值为矩阵中每一行的最后一个元素；矩阵中

至

对应为一条数据中的d个特征值特征向量，

为特征向量对应的结果值，以此类推，矩阵中各行元素的含义。

数据拥有者在上传数据之前，为了保证数据的隐私，需要用自己的公钥进行加密，然后将加密后的密文上传到执行本实施方法的服务器或云服务器中。本实施例使用的一种线性同态加密方案(LHE)，该加密机制不仅拥有加法同态的性质，也可以在密文上实现一次性的乘法同态操作。结合代理重加密方案的变体，实现密文转换。该变体方案具有加法同态的性质，记为A-AFGH。数据拥有者k对所持有的上述数据进行加密的过程具体如下：

1)、首先调用A-AFGH加密方法的密钥生成函数KeyGen(1^κ)生成公私钥对，其中κ为安全参数；选择随机数a_k作为私钥sk_k，并计算

作为公钥，其中g是循环群

的生成元，则数据拥有者k的公私钥对为：

sk_k＝a_k；

2)、对于矩阵中的每一个数据项

i＝1，2，…，n_k，j＝1,2，…，d，选择一个随机数

i＝1，2，…，n_k，j＝1,2，…d，并令

调用A-AFGH加密方法的加密函数

选择一个随机数

计算密文

其中Z是循环群

使用LHE加密后的密文形式为

对于矩阵中的每一个数据项

i＝1，2，…，n_k，选择一个随机数

并令

调用A-AFGH加密方法的加密函数

选择一个随机数

计算密文

则对于每一个数据项

使用LHE加密后的密文形式为

其中，

表示用LHE加密方案用公钥pk加密的密文，

表示用A-AFGH加密方案中的Enc₁(pk,·)函数加密的密文，

表示用A-AFGH加密方案中的Enc₂(pk,·)函数加密的密文。用户k把加密后的数据

上传到服务器或云服务器，一方面可以节省本地存储开销，用户用自己的公钥加密，方便用户查询、下载；另一方面服务器或云服务器可以利用这些数据进行岭回归学习算法。

S2、接收数据分析者发送的公私钥，接收数据分析者使用密文进行岭回归学习的请求。在本步骤中，从数据分析者中接收到的公钥的生成过程如下：

作为公钥；数据分析者的公私钥对为

sk^*＝a^*，临时公私钥对为：pk＝g^a，sk＝a。pk为临时公钥，sk为临时私钥。

S3、基于密文使用请求，向数据拥有者发送密文转换的请求以及数据分析者发送的公钥，基于数据拥有者同意情况下接收其所发送的代理密钥；其中数据拥有者利用自身的私钥和数据分析者的公钥生成代理密钥。

在本步骤中，从数据拥有者中获取到的代理密钥的生成过程如下：

根据数据分析者发送的临时公钥pk，确定出数据分析者请求使用密文数据；并且将临时公钥pk转发给数据拥有者，获取数据拥有者的授权同意；其中，数据拥有者在同意的情况下，调用A-AFGH加密方法的代理密钥生成函数利用自己的私钥sk_k＝a_k和数据分析者的临时公钥pk＝g^a得到代理密钥

k＝1,…,m。

S4、利用代理密钥进行密文转换，将所有密文转换成同一公钥加密后的密文。其中，数据分析者请求使用服务器或云服务器上的密文进行岭回归学习，服务器或云服务器则会向数据拥有者发送密文转换的请求，如果数据拥有者同意服务器或云服务器在保证数据安全的条件下使用密文数据，则会发送代理密钥给服务器或云服务器，然后服务器或云服务器利用代理密钥实现密文转换。

在本步骤中，利用代理密钥进行密文转换，将所有密文转换成同一公钥加密后的密文的具体过程如下：

对于数据拥有者k所上传的密文

利用双线性映射

计算得到密文

对于密文

利用双线性映射

计算得到密文

获得使用数据分析者的临时公钥pk加密数据分析者k的数据的密文：

i＝1，2，…，n_k，j＝1,2，…d；

其中，当数据拥有者1至数据拥有者m^*同意数据分析者使用数据，则云服务器获得数据分析者临时公钥pk加密密文的矩阵：

其中m^*≤m。令

则矩阵的表示方式可简化为

其中

其中

令

即

…,

其中

令

即

其中

令

则

…；

其中

令

即

…,

其中

令

即

其中

令

则

…

以此类推,矩阵中各行元素的对应关系。

S5、进入岭回归学习后，根据密文转换所得到的加密后的密文得到密文矩阵，再根据LHE加密方案的性质计算得到矩阵A的密文[A]和向量b的密文[b]。

在岭回归中通过求解方程：

的最小值求得模型参数w。因此，

令

则可通过下式求得模型参数w：

Aw＝b

其中A＝X^TX+λI是一个d×d的方阵，b＝X^Ty是一个d维的列向量。由于X是满秩的，所以A为正定矩阵，因此矩阵A总是可逆的(det(A)>0)。

根据岭回归的学习过程，我们把学习算法分为两个阶段：1)矩阵乘；2)计算岭回归模型参数w。

本步骤中，在进入岭回归学习后，计算得到矩阵A的密文[A]和向量b的密文[b]的具体过程如下：

1)、根据密文转换所得到的加密后的密文

得到矩阵X和向量y的密文为：

得到矩阵H和向量h的密文记为：

2)、计算矩阵乘法，得到密文[A^*]和密文[b^*]：

表示密文上的乘法操作，

表示密文上的加法操作。

3)、采用数据分析者发送的临时私钥为sk＝a，对密文转换所得到的加密后的密文中的[h_i,j]和[_hi]进行解密操作：

求解离散对数问题，得到对应的明文信息h_ij和h_i，即获得矩阵H和向量h；根据矩阵H和向量h计算对应的盲化因子，即对称矩阵H^*和向量h^*：

其中，

至

至

均为矩阵H^*中的元素，

至

均为向量h^*的元素；

其中

r′_i,j为随机数，

i＝1,…,d,j＝1,…d；

r′_i为随机数，

i＝1,…,d。4)在获取到密文[H^*]和[h^*]之后，利用A-AFGH加密方法的加法同态的性质消去密文[A^*]和密文[b^*]中的盲化因子，得到矩阵A和向量A的密文：

S6、根据矩阵A的密文[A]和向量b的密文[b]计算出岭回归模型参数w，具体过程如下：

1)、随机选择一个可逆矩阵

和一个向量

其中，

至

至

均为可逆矩阵R^*中的元素，

至

均为向量r^*的元素；R^*是一个d×d的方阵；

利用A-AFGH加密方法的加法同态的性质，计算密文

和[d]，其中

d＝Ar^*+b。此外，使用数据分析者的公钥

加密可逆矩阵R^*和向量r^*：得到密文矩阵

和密文向量

其中

为随机数，

i＝1,…,d,j＝1,…d；

为随机数，

i＝1,…,d。

2)解密

和[d]得到相应的明文信息

和d，根据明文信息

和d计算得到参数

利用A-AFGH加密方法的加法同态的同态性质，计算模型参数

的密文

其中，

为数据分析者公钥

加密的密文，模型参数w即为所求的岭回归模型参数；由服务器或云服务器将用数据分析者的公钥

加密的模型参数w的密文

发送给数据分析者，自此完成岭回归模型的学习。

上述服务器或云服务器均是指执行本实施例方法的服务器或云服务器。

在本实施例方法学习完成的岭回归模型可以被医院用于预测婴儿体重。医院根据怀孕最后一个月的一些超声波测量结果(例如头围、股骨长等)来预测婴儿出生时的体重。为了避免预测结果出现偏差，通常希望使用不同医院的数据进行岭回归的学习，因此在本实施例中，步骤S1中数据拥有者即对应各医院，数据拥有者所持有的数据即为该医院获取的怀孕最后一个月的一些超声波测量结果，各个不同的医院会使用不同的公钥加密数据，然后上传到服务器或云服务器中。当某个医院会请求使用不同医院的数据进行岭回归学习算法时，该医院即为数据分析者，则服务器或云服务器执行本实施例多密钥密文上的岭回归学习方法，返回学习结果及模型参数w的密文

给该医院，该医院可以根据得到的模型对婴儿体重进行预测。

本实施例方法学习完成的岭回归模型可以被银行用于预测客户的信誉度。银行根据已有客户在日常生活、工作中的行为检测结果(如社会信誉、经济实力，信守合约状况等因素)来预测客户的信誉度。为了达到更准确的预测结果，通常希望使用不同银行的数据进行模型学习，因此在本实施例中，步骤S1中的数据拥有者即对应每一个银行，数据拥有者所持有的数据即为该银行存储的每个客户在日常生活、工作中的行为检测结果，各个不同的银行会使用不同的公钥加密数据，然后上传到服务器或云服务器中。当某个银行请求使用不同银行的数据进行岭回归学习算法时，该银行即为数据分析者，则服务器或云服务器执行本实施例多密钥密文上的岭回归学习方法，返回学习结果及模型参数w的密文

给该银行，该银行可以根据得到的模型对新客户的信誉度进行预测。

本实施例方法学习完成的岭回归模型可以被房地产公司用于房价的预测。房地产公司根据售房记录(如户型，房屋面积，房屋地段等因素)来预测房价。为了达到更精确的预测结果，房地产公司希望根据不同房地产公司的数据进行模型训练，因此在本实施例中，步骤S1中的数据拥有者即为房地产公司，数据拥有者所持有的数据即为该房地产公司存储的售房记录。各个不同的房地产公司会使用不同的公钥加密数据，然后上传到服务器或云服务器中。当某个房地产公司请求使用不用房地产公司的数据进行岭回归学习算法时，该房地产公司即为数据分析者，则服务器或云服务器执行本实施例多密钥密文上的岭回归学习方法，返回学习结果及模型参数w的密文

给该房地产公司，该房地产公司可以根据得到的岭回归模型对未来房价进行预测。

本领域技术人员可以理解，实现本实施例方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，相应的程序可以存储于计算机可读存储介质中。应当注意，尽管在附图中以特定顺序描述了本实施例1的方法操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，描绘的步骤可以改变执行顺序，有些步骤也可以同时执行。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

实施例2

本实施例公开了一种基于多密钥密文的岭回归学习系统，如图2中所示，包括服务器、数据拥有者和数据分析者。其中服务器可以是硬件的计算设备，也可以是云服务器，当为云服务器时，包括用于存储和计算服务的云服务器CS和用于辅助计算服务的云服务器ACS。其中：数据拥有者，对其所拥有的数据进行加密，并且将加密后的密文上传到云服务器中；用于接收和授权云服务器发送的密文转换请求，在同意密文转换请求的情况下，利用自身的私钥和数据分析者的公钥生成代理密钥，并且将计算的代理密钥发送给云服务器。

在本实施例中，数据拥有者对数据进行加密得到密文的过程如下：

其中k＝1,…,m，矩阵中每一行分别代表一条数据，其中每条数据包含一个拥有d个特征值特征向量和特征向量对应的结果值，特征向量对应的结果值为矩阵中每一行的最后一个元素。

作为公钥，其中g是循环群

的生成元，则数据拥有者k的公私钥对为：

sk_k＝a_k；

2)、对于矩阵中的每一个数据项

i＝1，2，…，n_k，j＝1,2，…，d，选择一个随机数

i＝1，2，…，n_k，j＝1,2，…d，并令

调用A-AFGH加密方法的加密函数

选择一个随机数

计算密文

其中Z是循环群

的生成元；该密文只能被持有私钥sk_k＝ax的数据拥有者k解密；则对于每一个数据项

使用LHE加密后的密文形式为

对于矩阵中的每一个数据项

i＝1，2，…，n_k，选择一个随机数

并令

调用A-AFGH加密方法的加密函数

选择一个随机数

计算密文

则对于每一个数据项

使用LHE加密后的密文形式为

3)、数据拥有者将上述加密得到的密文

上传到云服务器CS中。

数据分析者，用于发送公私钥和密文使用请求到云服务器，用于接收云服务器计算的岭回归模型参数w。

在本实施例中，数据分析者生成公私钥的过程如下：数据分析者调用A-AFGH加密方法的密钥生成函数KeyGen(1^κ)生成公私钥对，其中κ为安全参数；用户选择随机数a和a^*作为私钥，并计算g^a和

作为公钥；数据分析者的公私钥对为

sk^*＝a^*，临时公私钥对为：pk＝g^a，sk＝a；

服务器，用于实施例1所示的基于多密钥密文的岭回归学习方法，如下：

获取数据拥有者针对数据加密后所上传的密文；

接收数据分析者发送的公钥，接收数据分析者使用密文进行岭回归学习的请求；

根据矩阵A的密文[A]和向量b的密文[b]计算出岭回归模型参数w的密文。

其中，在本实施例中，当服务器为云服务器时，云服务器所获取的代理密钥生成过程如下：

数据分析者发送临时公钥pk＝g^a给云服务器CS，请求使用存储在云服务器CS中的密文数据，数据分析者将临时公私钥对pk＝g^a，sk＝a发送给云服务器ACS；云服务器CS将临时公钥pk转发给数据拥有者，获取数据拥有者的授权；

数据拥有者把代理密钥pk_k→DA返回给云服务器CS；

其中，云服务器利用代理密钥进行密文转换，将所有密文转换成同一公钥加密后的密文的具体过程如下：

对于数据拥有者k所上传的密文

利用双线性映射

计算得到密文

对于密文

利用双线性映射

计算得到密文

i＝1，2，…，n_k，j＝1,2，…d；

其中m^*≤m。令

n为数据拥有者1至数据拥有者m^*所持有的数据总条数，则矩阵的表示方式可简化为：

其中

其中

令

即

…,

其中

令

即

其中

令

则

…；

其中

令

即

…,

其中

令

即

其中

令

则

…

以此类推，矩阵中各行元素的对应关系。

其中，在进入岭回归学习后，云服务器计算得到矩阵A的密文[A]和向量b的密文[b]的具体过程如下：

1)、云服务器CS根据密文转换所得到的加密后的密文

得到矩阵X和向量y的密文为：

得到矩阵H和向量h的密文记为：

2)、云服务器CS计算矩阵乘法，得到密文[A^*]和密文[b^*]：

表示密文上的乘法操作，

表示密文上的加法操作；

3)、云服务器CS在得到密文[A^*]和密文[b^*]后，将其中的[h_i,j]和[h_i]发送给云服务器ACS，云服务器ACS采用数据分析者发送的临时私钥对为sk＝a，对密文转换所得到的加密后的密文中的[h_i,j]和[h_i]进行解密操作:

求解离散对数问题，得到对应的明文信息h_ij和h_i，即获得矩阵H和向量h。很显然，在h_ij和h_i足够大时，求解离散对数时困难的，但当h_ij和h_i足够小时，例如h_ij和h_i为32比特的数，则可以在有效的时间内解决离散对数问题。虽然在一定条件下可以通过解决离散对数问题求得h_ij和h_i，但是在保证私钥安全的情况下，加密后的

和

仍然是安全的。因此在一定条件下的离散对数求解并不会影响加密方法的安全性。然后，根据矩阵H和向量h计算对应的盲化因子，即对称矩阵H^*和向量h^*：

其中，

至

至

均为矩阵H^*中的元素，

至

均为向量h^*的元素；

其中

r′_i,j是随机数，

i＝1,…,d,j＝1,…d；

r′_i是随机数，

i＝1,…,d。

4)云服务器ACS将获取到密文[H^*]和[h^*]发送给云服务器CS，云服务器CS利用A-AFGH加密方法的加法同态的性质消去密文[A^*]和密文[b^*]中的盲化因子，得到矩阵A和向量b的密文

1)、云服务器CS随机选择一个可逆矩阵

和一个向量

其中，

至

至

均为可逆矩阵R^*中的元素，

至

均为向量r^*的元素；

云服务器CS利用A-AFGH加密方法的加法同态的性质，计算密文

和[d]，其中

d＝Ar^*+b；此外，云服务器CS使用数据分析者的公钥

加密可逆矩阵R^*和向量r^*，得到密文矩阵

和密文向量

其中

是随机数，

i＝1,…,d,j＝1,…d；

是随机数，

i＝1,…,d。最后云服务器CS将临时公钥pk＝g^a加密的密文

和[d]，以及公钥

加密的密文

和

发送给云服务器ACS。

2)云服务器ACS解密

和[d]得到相应的明文信息

和d，根据明文信息

和d计算得到参数

在本实施例中，

和d中添加了云服务器CS选择的随机数R^*和r^*，且云服务器ACS不能解密

加密的密文

和

因此不能获得随机数R^*和r^*的信息，那么云服务器ACS也获取不到关于矩阵A和向量b的任何信息。由此可知，元数据和模型参数是安全的。

的密文

其中

为数据分析者公钥

加密的密文，模型参数w即为所求的岭回归模型参数；

本实施例中，

和d中包含了云服务器CS选择的随机数R^*和r^*，所以为了计算模型参数w，需要把相关盲化因子去除，同时保证元数据和模型参数w的隐私性。

3)云服务器ACS发送模型参数w的密文

给数据分析者。

本实施例基于多密钥密文的岭回归学习系统实现岭回归学习，相比现存的方案相比较，有效地解决了多密钥场景下的具有隐私保护的岭回归学习难题。不仅方便用户检索存储在云服务器上的隐私数据，同时方便用户实行管理权，用户可以决定是否参与机器学习的相关学习运算。除此之外，在岭回归学习过程中，无需数据拥有者参与计算，减少了数据拥有者的工作量。

在密文转换阶段，本实施例比现存的基于BCP加密方案实现密文转换(BCP-TR)方式提高了效率，其对比结果如表1所示：

表1

表1中O是时间复杂度的符号。

在密文转换阶段，本实施例要求在获得数据拥有者即用户的许可之后才可以在保证数据隐私的前提下使用用户的数据，即用户需要计算一个代理密钥，表示允许云服务器对自己的数据执行密文转换操作。因此同意参与回归模型训练的用户需要计算一个代理密钥发送给云服务器，则每个用户的计算需要执行一次乘法操作和一次指数操作。云服务器只需在用户的密文上执行n(d+1)次双线性映射操作，便可以实现密文的转换。从表1中可以看出，本实施例在密文转换阶段需要用户参与计算，但是正是因为该运算保证了用户对数据的管理权。基于BCP-TR方案无需用户参与计算，但云服务器需要执行10n(d+1)次指数运算和17n(d+1)次乘法运算。另外，在用户不知情的情况下，使用用户的数据并不利于实际应用。因此，本实施例系统在密文转换阶段很大程度上提高了计算效率。

本实施例系统中，m个用户即m个数据拥有者上传m个代理密钥，云服务器便可以在本地实现密文的转换，无需服务器之间的交互，因此通信开销仅取决于用户的数量。基于BCP加密机制实现的密文转换需要服务器之间交互计算，期间共需发送2n(d+1)个密文数据。很显然，在密文转换阶段，本实施例有效地减少了云服务器之间的通信开销，与BCP-TR方案相比较具有明显优势。

本实施例系统在各个阶段的计算复杂度如表2所示。根据表2可知，影响实施例效率的参数主要是数据集的大小n和数据的维度d。在数据聚合阶段，第一步和第二步的计算复杂度取决于n和d的大小，而在第三步，计算复杂度只取决于维度d。在计算模型阶段，计算复杂度只依赖于维度d。本实施例的通信开销如表3所示。在数据聚合阶段，由于LHE的乘法同态结果中包含了盲化因子，为了消去密文中的盲化因子，需要云服务器交互计算。在该过程中云服务器CS需要发送n(d+1)个随机数的密文给云服务器ACS。云服务器ACS可以解密得到随机数的明文，并计算得到盲化因子。ACS返回d(d+1)/2+d个盲化因子的密文给云服务器CS。在模型计算阶段，需要ACS在明文上求解矩阵A的逆矩阵，因此，需要CS发送盲化后的矩阵D、向量d和盲化因子R^*和r^*给云服务器ACS，即需要发送2(d²+d)个密文。

表2

表3

当本实施例系统被医院用于预测婴儿体重时，医院根据怀孕最后一个月的一些超声波测量结果(例如头围、股骨长等)来预测婴儿出生时的体重；为了避免预测结果出现偏差，通常希望使用不同医院的数据进行岭回归的学习算法，而不同的医院会使用不同的公钥加密数据存在云服务器上。某个医院会请求使用不用医院的数据进行岭回归学习算法，则云服务器CS和ACS执行多密钥密文上的岭回归学习运算，返回学习结果给该医院。该医院可以根据得到的模型对婴儿体重进行预测。

实施例3

本实施例公开了一种存储介质，存储有程序，所述程序被处理器执行时，实现实施例1所述的基于多密钥密文的岭回归学习方法，如下：

获取数据拥有者针对数据加密后所上传的密文；

各个过程中具体的实施过程和实施例1一致，参见实施例1，此处不再赘述。

在本实施例中，存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、U盘、移动硬盘等介质。

实施例4

本实施例公开了一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现实施例1所述的基于多密钥密文的岭回归学习方法，如下：

获取数据拥有者针对数据加密后所上传的密文；

本实施例中，计算设备可以是服务器、计算机等终端设备。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于多密钥密文的岭回归学习方法，其特征在于，步骤包括：

获取数据拥有者针对数据加密后所上传的密文；

根据矩阵A的密文[A]和向量b的密文[b]计算出岭回归模型参数w的密文；

其中，从数据分析者中接收到的公钥的生成过程如下：

作为公钥；数据分析者的公私钥对为

sk^*＝a^*，临时公私钥对为：pk＝g^a，sk＝a；

从数据拥有者中获取到的代理密钥的生成过程如下：根据数据分析者发送的临时公钥pk，确定出数据分析者请求使用密文数据；并且将临时公钥pk转发给数据拥有者，获取数据拥有者的授权同意；其中，数据拥有者在同意的情况下，调用A-AFGH加密方法的代理密钥生成函数利用自己的私钥sk_k＝a_k和数据分析者的临时公钥pk＝g^a得到代理密钥

对于数据拥有者k所上传的密文

利用双线性映射

计算得到密文

对于密文

利用双线性映射

计算得到密文

其中m^*≤m；令

则矩阵的表示方式可简化为：

其中，

其中

令

即

其中

令

即

其中

令

则

其中

令

即

其中

令

即

其中

令

则

…，

以此类推,可获得矩阵中各行元素的对应关系；

进入岭回归学习后，计算得到矩阵A的密文[A]和向量b的密文[b]的具体过程如下：

1)、根据密文转换所得到的加密后的密文

得到矩阵X和向量y的密文为：

得到矩阵H和向量h的密文记为：

2)、计算矩阵乘法，得到密文[A^*]和密文[b^*]：

表示密文上的乘法操作，

表示密文上的加法操作；

3)、采用数据分析者发送的临时私钥为sk＝a，对密文转换所得到的加密后的密文中的[h_i,j]和[h_i]进行解密操作，

求解离散对数问题，得到对应的明文信息h_i,j和h_i，即获得矩阵H和向量h，其中r_i,j和r_i都是随机数；根据矩阵H和向量h计算对应的盲化因子，即对称矩阵H^*和向量h^*：

其中，

至

至

均为矩阵H^*中的元素，

至

均为向量h^*中的元素；

其中

是随机数，

是随机数，

根据矩阵A的密文[A]和向量b的密文[b]计算出岭回归模型参数w的具体步骤如下：

1)、随机选择一个可逆矩阵

和一个向量

其中，

至

至

均为可逆矩阵R^*中的元素，

至

均为向量r^*中的元素；

利用A-AFGH加密方法的加法同态的性质，计算

和

此外，使用数据分析者的公钥

和密文向量

其中

是随机数，

是随机数，

2)解密

和

得到相应的明文信息

和

根据明文信息

和

计算得到参数

利用A-AFGH加密方法的加法同态的同态性质，计算模型参数

的密文

其中

为数据分析者公钥

加密的密文，

为数据拥有者k对应的参数

模型参数w即为所求的岭回归模型参数。

2.根据权利要求1所述的基于多密钥密文的岭回归学习方法，其特征在于，其中从数据拥有者中获取的密文的加密过程如下：

其中k＝1,…,m，矩阵中每一行分别代表一条数据，其中每条数据包含一个拥有d个特征值的特征向量和特征向量对应的结果值，特征向量对应的结果值为矩阵中每一行的最后一个元素；

作为公钥，其中g是循环群

的生成元，则数据拥有者k的公私钥对为：

sk_k＝a_k；

2)、对于矩阵中的每一个数据项

选择一个随机数

并令

调用A-AFGH加密方法的加密函数

选择一个随机数

计算密文

其中Z是循环群

使用LHE加密后的密文形式为

对于矩阵中的每一个数据项

选择一个随机数

并令

调用A-AFGH加密方法的加密函数

选择一个随机数

计算密文

则对于每一个数据项

使用LHE加密后的密文形式为

。

3.一种基于多密钥密文的岭回归学习系统，其特征在于，包括服务器、数据拥有者和数据分析者；

所述服务器，用于执行权利要求1至2中任一项所述的基于多密钥密文的岭回归学习方法。

4.根据权利要求3所述的基于多密钥密文的岭回归学习系统，其特征在于，所述服务器为云服务器，云服务器包括云服务器CS和云服务器ACS；

其中，数据拥有者对数据进行加密得到密文的过程如下：

作为公钥，其中g是循环群

的生成元，则数据拥有者k的公私钥对为：

sk_k＝a_k；

2)、对于矩阵中的每一个数据项

选择一个随机数

并令

调用A-AFGH加密方法的加密函数

选择一个随机数

计算密文

其中Z是循环群

使用LHE加密后的密文形式为

对于矩阵中的每一个数据项

选择一个随机数

并令

调用A-AFGH加密方法的加密函数

选择一个随机数

计算密文

则对于每一个数据项

使用LHE加密后的密文形式为

3)、数据拥有者将上述加密得到的密文

上传到云服务器CS中；

其中，数据分析者生成公钥的过程如下：

作为公钥；数据分析者的公私钥对为

sk^*＝a^*，临时公私钥对为：pk＝g^a，sk＝a；

数据拥有者把代理密钥pk_k→DA返回给云服务器CS；

1)、云服务器CS根据密文转换所得到的加密后的密文

得到矩阵X和向量y的密文为：

得到矩阵H和向量h的密文记为：

2)、云服务器CS计算矩阵乘法，得到密文[A^*]和密文[b^*]：

表示密文上的乘法操作，

表示密文上的加法操作；

3)、云服务器CS在得到密文[A^*]和密文[b^*]后，将其中的[h_i,j]和[h_i]发送给云服务器ACS，云服务器ACS采用数据分析者发送的临时私钥对为sk＝a，对密文转换所得到的加密后的密文中的[h_i,j]和[h_i]进行解密操作：

其中，

至

至

均为矩阵H^*中的元素，

至

均为向量h^*中的元素；

其中

是随机数，

是随机数，

1)、云服务器CS随机选择一个可逆矩阵

和一个向量

其中，

至

至

均为可逆矩阵R^*中的元素，

至

均为向量r^*中的元素；

云服务器CS利用A-AFGH加密方法的加法同态的性质，计算

和

的密文，得到对应的用数据分析者的临时公钥pk＝g^a加密的密文结果

和

此外，云服务器CS使用数据分析者的公钥

和密文向量

其中

是随机数，

是随机数，

最后云服务器CS将临时公钥pk＝g^a加密的密文

和

以及公钥

加密的密文

和

发送给云服务器ACS；

2)云服务器ACS解密

和

得到相应的明文信息

和

根据明文信息

和

计算得到参数

的密文

其中，

为数据分析者公钥

加密的密文，

为数据拥有者k对应的参数

模型参数w即为所求的岭回归模型参数；

3)云服务器ACS发送模型参数w的密文

给数据分析者。

5.一种计算机可读存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1至2中任一项所述的基于多密钥密文的岭回归学习方法。

6.一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1至2中任一项所述的基于多密钥密文的岭回归学习方法。