CN110190946B

CN110190946B - 一种基于同态加密的隐私保护多机构数据分类方法

Info

Publication number: CN110190946B
Application number: CN201910629833.7A
Authority: CN
Inventors: 李劲松; 陆遥; 周天舒; 李润泽
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2021-09-03
Anticipated expiration: 2039-07-12
Also published as: JP7064682B2; CN110190946A; WO2020233260A1; JP2022508351A

Abstract

本发明公开了一种基于同态加密的隐私保护多机构数据分类方法，首先使用者生成训练数据的筛选条件发送给计算中心；计算中心利用同态加密算法生成加密参数发送给各家数据提供机构；各家数据提供机构对标注有分类标签的本地数据进行筛选，得到训练数据，根据加密参数利用同态加密算法生成各自的公钥和私钥，通过公钥加密训练数据发送给计算中心；计算中心与各家数据提供机构共同执行同态加密下的逻辑回归分析，得到数据分类模型发送给使用者；使用者将待分类数据输入数据分类模型得到分类结果。本发明在实际应用中具有更高的安全性，既有效保护了个人隐私，又避免了数据提供机构可能产生的利益损失，在很大程度上促进了多机构数据分析的开展。

Description

一种基于同态加密的隐私保护多机构数据分类方法

技术领域

本发明属于多机构数据分析技术领域，尤其涉及一种基于同态加密的隐私保护多机构数据分类方法。

背景技术

当前，大多数的数据分析研究都是在单个机构的有限数据集上进行的。然而，这样的做法具有很大的局限性。一方面，针对某些特定研究，单个机构可能无法产生足够多的的支撑数据，例如：针对某种罕见病，单家医疗机构通常无法提供足够的数据；另一方面，由于各种观测技术的发展，产生了越来越多的异质数据，这也对数据挖掘提出了更多的挑战，例如：范德堡大学的科学家Joshua C Denny于2013年的研究表明，在单家医疗机构的电子病历上进行的全基因组关联研究常常会因为数据量的匮乏而无法得到满意的研究结果。因此，多机构的协同研究势在必行。

目前，为了实现多机构的数据分析，不少多机构数据分析方法被提出并付诸实践，例如观察性健康医疗数据科学与信息学联盟(OHDSI)。多机构数据分析方法主要有训练数据筛选、训练数据上传、分析模型建立、获得模型并进行分析四个步骤。为了保护个人隐私，它们通常在数据上传前会对各家机构提供的数据进行敏感信息的去除。

目前提出的多机构数据分析方法仅仅处理了敏感信息，仍然暴露了大量的信息。一方面，通过对这些暴露的信息进行适当处理，能够推导出部分的敏感信息，从而导致个人隐私的泄露。另一方面，数据本身就具有价值，暴露的大量信息可能在未授权的情况下被第三方恶意使用，从而导致数据提供机构的利益损失。这极大程度地妨碍了多机构数据分析的开展。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于同态加密的隐私保护多机构数据分类方法，首先，在数据生成与上传阶段，各家数据提供机构在上传数据之前利用同态加密技术对各自的数据进行加密，避免了任何信息的泄露。其次，在数据分析阶段，计算中心会与各家数据提供机构共同完成分析中间值与分类模型的解密，避免了在运算过程中任何有意义信息的泄露，有效防止了第三方对于数据的恶意使用。

本发明的目的是通过以下技术方案来实现的：一种基于同态加密的隐私保护多机构数据分类方法，该方法包括以下步骤：

(1)使用者生成训练数据的筛选条件，并将筛选条件发送给计算中心；

(2)计算中心接收筛选条件，利用同态加密算法生成加密参数，并将加密参数连同步骤1的筛选条件一同发送给各家数据提供机构；

(3)各家数据提供机构根据筛选条件对标注有分类标签的本地数据进行筛选，得到训练数据；

(4)各家数据提供机构根据加密参数，利用同态加密算法生成各自的公钥和私钥；

(5)各家数据提供机构通过公钥加密训练数据，其中特征变量加密，分类变量不加密，并将加密后的训练数据连同对应公钥一同发送给计算中心；

(6)计算中心接收到各家数据提供机构加密后的训练数据以及对应公钥后，与各家数据提供机构共同执行同态加密下的逻辑回归分析，得到数据分类模型；

(7)计算中心将数据分类模型发送给使用者；

(8)使用者将待分类数据输入数据分类模型，得到分类结果。

进一步地，所述步骤(2)中，利用NTRU同态加密算法生成加密参数；所述加密参数包括：多项式的次数n、大素数q、密钥生成用标准差σ_k、加密噪声用标准差σ_c，加密参数的设置需满足以下条件：

a)n为2的正整数次幂；

b)q＝1mod 2n且

c)σ_k、σ_c均为正数，且σ_k≈2.5σ_c；

d)n＞33.1×log₂(q/σ_k)；

e)

进一步地，所述步骤(4)中，公钥用于数据的加密，私钥用于数据的解密，公钥和私钥生成的具体步骤如下：

(1)根据一元多项式的生成规则

生成多项式f、g；

满足：多项式的次数为n-1；多项式的所有系数均通过平均值为0，标准差为σ_k的离散正态分布采样得到；

f满足：

①f在多项式环

中存在逆元f-¹；

中所有多项式的系数为(-q/2,q/2)中的整数，所有多项式的最高次数为n-1，环的模为多项式xⁿ+1；

②f＝0(mod 2)；

(2)生成公钥pk和私钥sk

pk＝g·f^-1

sk＝f

进一步地，所述步骤(5)中，各家数据提供机构通过公钥加密训练数据的过程如下：

(1)令明文的比特长度L＝-1+log₂q；

(2)对于待加密整数明文μ，要求-q/2＜μ＜q/2；

(3)根据一元多项式的生成规则

生成L个多项式S₁～S_L和L个多项式E₁～E_L；

满足：多项式的次数为n-1；多项式的所有系数均通过平均值为0，标准差为σ_c的离散正态分布采样得到；

(4)生成密文C，密文C包含L个多项式，第i个密文多项式C_i的公式为：

C_i＝μ·2^i-1+S_i·pk+E_i

进一步地，所述步骤(6)中，在执行同态加密下的逻辑回归分析过程中进行数据解密，具体步骤如下：

(1)把密文C的所有多项式分别与私钥sk相乘，得到：

(2)生成μf，具体公式为：

(3)将μf的每一个系数都乘以2再除以私钥sk的对应系数，得到解密结果μ：

其中round为取整函数，(μf)_i为μf的第i项系数，sk_i为私钥的第i项系数。

进一步地，所述步骤(6)中，在执行同态加密下的逻辑回归分析过程中进行同态加法和同态乘法，具体如下：

假设密文C和密文D分别由明文μ₁和明文μ₂加密得到，则分别有密文加法和密文乘法：

ADD(C,D)＝C+D

MULT(C,D)＝BD(C)·D

其中BD(C)为比特分解方程，输入C为包含L个多项式的集合，该方程将C中的所有系数转化为L位的二进制向量表示。

进一步地，所述步骤(6)中，计算中心与各家数据提供机构共同执行同态加密下的逻辑回归分析；假设一共有x家数据提供机构，它们的训练数据分别有z₁～z_x条，且加起来共有z条，一共有y个特征变量，具体步骤如下：

(1)计算中心设置逻辑回归的最大迭代次数iter、学习率a；

(2)计算中心初始化分类模型参数θ₀～θ_y；

(3)计算中心初始化分类模型参数的更新值Δθ₀～Δθ_y＝0；

(4)计算中心分别用各机构的公钥将分类模型参数加密，加密后的模型参数记为Θ₀₁～Θ_0x、……、Θ_y1～Θ_yx；

(5)计算中心对每条密文训练数据C进行如下操作，对于机构i提供的第j条训练数据

(其中

为C_ij的y个特征变量，label_ij为C_ij的分类变量)，计算：

①加权预测值

②密文状态下的梯度下降值

其中同态加密下的sigmoid函数通过多项式y＝-0.0016x³+0.1501x+0.5来进行拟合；

③将

发送至数据提供机构i；

(6)数据提供机构i(i＝1,2,...,x)接收

并初始化噪声求和值

之后对每个

进行如下操作：

①生成一次性噪声error并将其用公钥加密为密文噪声E_ij ^k；

②用加密噪声掩藏ΔΘ_ij ^k，得到ΔΘ’_ij ^k，具体公式为：ΔΘ’_ij ^k＝ΔΘ_ij ^k+E_ij ^k；

③E_i ^k+＝e；

④将

解密为

并将

发送至计算中心；

最后将

发送至计算中心；

(7)计算中心接收

和

对每个

进行如下操作：

①

②进行如下计算，以去除噪声的影响：

③进行分类模型参数的更新：

θ_k+＝Δθ_k,k＝0,1,...,y

(8)若尚未达到迭代次数，则返回步骤(3)；否则，分析结束。

本发明的有益效果是：本发明通过在上传数据之前利用同态加密技术对数据进行加密，避免了任何信息的泄露。本发明在数据分析与获得分析结果阶段，仅仅暴露了无意义的中间结果，避免了在运算过程中任何有意义信息的泄露，有效防止了第三方对于数据的恶意使用。本发明在实际应用中具有更高的安全性，既有效保护了个人隐私，又避免了数据提供机构可能产生的利益损失，在很大程度上促进了多机构数据分析的开展。

附图说明

图1为隐私保护多机构数据分类方法整体框架图；

图2为隐私保护多机构数据分类方法整体流程图；

图3为同态加密下逻辑回归分析具体流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

本发明提供的一种基于同态加密的隐私保护多机构数据分类方法，整体框架如图1所示。方法的参与者包括：多家数据提供机构、计算中心和使用者。方法的整体流程如图2所示，具体包括以下步骤：

(7)计算中心将数据分类模型发送给使用者；

(8)使用者将待分类数据输入数据分类模型，得到分类结果。

a)n为2的正整数次幂；

b)q＝1mod 2n且

c)σ_k、σ_c均为正数，且σ_k≈2.5σ_c；

d)n＞33.1×log₂(q/σ_k)；

e)

同态加密是一种特别的加密方式，它的特别之处在于：对经过同态加密的密文进行处理得到一个输出，将这一输出进行解密，其结果与用同一方法处理未加密的明文得到的输出结果是一样的；利用同态加密技术，能够在不知道数据具体内容的前提下对数据进行处理，在保证数据安全的同时实现了数据的利用；NTRU同态加密算法同时满足加法同态与乘法同态。

(1)根据一元多项式的生成规则

生成多项式f、g，n指定了生成多项式的次数，Z指的是多项式的每一项系数均为整数；

f满足：

①f在多项式环

中存在逆元f-¹；

②f＝0(mod 2)；

(2)生成公钥pk和私钥sk

pk＝g·f^-1

sk＝f

(1)令明文的比特长度L＝-1+log₂q；

(2)对于待加密整数明文μ，要求-q/2＜μ＜q/2；

(3)根据一元多项式的生成规则

生成L个多项式S₁～S_L和L个多项式E₁～E_L；

C_i＝μ·2^i-1+S_i·pk+E_i

(1)把密文C的所有多项式分别与私钥sk相乘，得到：

(2)生成μf，具体公式为：

ADD(C,D)＝C+D

MULT(C,D)＝BD(C)·D

密文加法的同态性证明如下：

ADD(C,D)·sk＝μ₁·BDI(I_L)·f+error₁+μ₂·BDI(I_L)·f+error₂

＝(μ₁+μ₂)·BDI(I_L)·f+error

BDI(I_L)表示从1开始的2的整数幂向量，长度为L，即{1,2,4,...,2^L-1}；

密文乘法的同态性证明如下：

MULT(C,D)·sk＝BD(C)·D·f＝BD(C)·(μ₂·BDI(I_L)+S₂·pk+E₂)·f

＝BD(C)·(μ₂·BDI(I_L)·f+S₂·g+E₂·f)

＝μ₂·C·f+BD(C)·(S₂·g+E₂·f)

＝μ₂·(μ₁·BDI(I_L)·f+S₁·g+E₁·f)+BD(C)·(S₂·g+E₂·f)

＝μ₂·μ₁·BDI(I_L)·f+μ₂·(S₁·g+E₁·f)+BD(C)·(S₂·g+E₂·f)

＝μ₂·μ₁·BDI(I_L)·f+μ₂·error₁+BD(C)·error₂

＝μ₂·μ₁·BDI(I_L)·f+error

进一步地，所述步骤(6)中，计算中心与各家数据提供机构共同执行同态加密下的逻辑回归分析；逻辑回归是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域。逻辑回归的分类变量可以是二分类的，也可以是多分类的，但是二分类的更为常用，也更加容易解释，因此本发明采用二分类的逻辑回归。假设一共有x家数据提供机构，它们的训练数据分别有z₁～z_x条，且加起来共有z条，一共有y个特征变量，同态加密下逻辑回归分析具体流程如图3所示，具体步骤如下：

(1)计算中心设置逻辑回归的最大迭代次数iter、学习率a；

(2)计算中心初始化分类模型参数θ₀～θ_y；

(3)计算中心初始化分类模型参数的更新值Δθ₀～Δθ_y＝0；

(其中

为C_ij的y个特征变量，label_ij为C_ij的分类变量)，计算：

①加权预测值

②密文状态下的梯度下降值

③将

发送至数据提供机构i；

(6)数据提供机构i(i＝1,2,...,x)接收

并初始化噪声求和值

之后对每个

进行如下操作：

①生成一次性噪声error并将其用公钥加密为密文噪声E_ij ^k；

③E_i ^k+＝e；

④将

解密为

并将

发送至计算中心；

最后将

发送至计算中心

(7)计算中心接收

和

对每个

进行如下操作：

①

②进行如下计算，以去除噪声的影响：

③进行分类模型参数的更新：

θ_k+＝Δθ_k,k＝0,1,...,y

(8)若尚未达到迭代次数，则返回步骤(3)；否则，分析结束。

以上仅为本发明的实施实例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，不经过创造性劳动所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。