CN105069286B

CN105069286B - 基于垂直分布隐私数据保护的logistic回归分析系统

Info

Publication number: CN105069286B
Application number: CN201510443551.XA
Authority: CN
Inventors: 熊红凯; 蒋晓谦; 李勇
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2015-07-24
Filing date: 2015-07-24
Publication date: 2019-02-22
Anticipated expiration: 2035-07-24
Also published as: CN105069286A

Abstract

本发明提供一种基于垂直分布隐私数据保护的logistic回归分析系统，包括：隐私数据处理模块、数据挖掘学习模块和分析应用模块，其中：隐私数据处理模块利用线性核函数得到各个垂直分布机构的隐私数据的核训练集，数据挖掘学习模块首先对各个局部核训练集累加得到总体核训练集，然后对总体核训练集进行logistic回归学习，所得的全局模型向量最后在分析应用模块中被用于判断分析。本发明提供数据共享挖掘的同时还保证了垂直分布式的原始隐私数据的安全性，求解全局模型向量的特殊方法也提升了学习求解的效率，本发明采用服务器‑客户的辐射分布式结构具备良好的实用性和扩展性。

Description

基于垂直分布隐私数据保护的logistic回归分析系统

技术领域

本发明涉及一种隐私保护的分布式数据挖掘方案，具体是一种基于垂直分布隐私数据保护的logistic回归分析系统

背景技术

大数据时代的来临对实验科学产生了重大影响。当前，生物医药领域里科学研究的一个重要发展趋势就是数据驱动，即通过对海量数据的研究来探索其中的规律，可以直接提出假设或得出可靠的结论。开源与数据共享已经成为生物学研究重要的驱动力量。但是，大数据隐私问题是不容回避的现实挑战。随着人们对隐私问题特别是基因组隐私(genomic privacy)问题的关注，研究人员对一些重要信息的访问可能会受到限制，例如个人基因组数据。因此如何在保证患者数据共享的同时保证患者的原始数据没有泄漏是急需解决的问题。例如，当医疗机构A想要对某种特定的疾病建立一个预测模型，基于此，A需要来自保险公司B的数据。同时，保险公司B可以通过计算A所持有的电子医疗数据(譬如一些临床的实验测试结果)以提供给顾客更好的服务来获利。但是医疗机构A不能把自己的原始数据发给B，B只能把自己的数据保存在自己的服务器中，因此也不能共享其原始数据给A。在这种情况下，机构A和B可以通过联合数据分析框架来获得各自需要的信息。也就是说，A和B都保持自己的原始数据在本地但是同时他们允许共享各自局部进行分析后的结果。当机构A和机构B的数据是共同病人的不同类型协变量数据时，我们说这种数据是垂直分布式的。

Logistic回归分析是一种常用的机器学习方法，主要用于寻找危险因素、预测和判别。对于垂直分布式的数据，建立一种精确又实用的Logistic回归模型是非常困难的。基于经过对现有技术的文献检索发现，Slavkovic等人在2007年的《IEEE InternationalConference on Data Mining Workshops》(IEEE ICDM Workshops)会议上发表的“‘Secure’logistic regression of horizontally and vertically partitioneddistributed databases”一文中提出了一种方法，它通过一种加密的多机构计算协议(如安全加法和安全矩阵乘积)来累加不同分布机构的信息(如Hessian矩阵中的非对角子块矩阵)，但是这种协议会带来非常大的计算开销，而且当机构数量比较大时不具有良好的适应性。Nardi等人在2012年的《Journal of Privacy and Confidentiality》期刊上发表的“Achieving both valid and secure logistic regression analysis on aggregateddata from different private sources”一文中针对垂直分布式的logistic回归分析提出了一种泛化的模型。这种模型近似logistic回归而且计算复杂度很高，通信代价很大，因此不具备实用性。这些不足促使申请人针对垂直分布式的隐私数据，找到一种高效实用的数据分析方法。

发明内容

本发明针对现有技术的不足，提供了一种基于垂直分布隐私数据保护的logistic回归分析系统，可以提供数据共享挖掘的同时还保证了垂直分布式的原始隐私数据的安全性。

本发明是通过以下技术方案实现的：

本发明所述的基于垂直分布隐私数据保护的logistic回归分析系统，包括：隐私数据处理模块、数据挖掘学习模块和分析应用模块，其中：

所述隐私数据处理模块对垂直分布在各局部的原始隐私数据，利用线性核函数生成对应的核训练集，并将这些局部的核训练集输出到数据挖掘学习模块的输入端；

所述数据挖掘学习模块首先累加各个局部核训练集，得到总体核训练集，然后对总体核训练集进行logistic回归分析得到全局模型向量，并将该全局模型向量输出到分析应用模块的输入端；

所述分析应用模块接收所述数据挖掘学习模块输出的全局模型向量，对待分析的隐私数据进行判断分析。

优选地，所述的隐私数据处理模块中垂直分布式隐私数据，是指存储在不同机构中的相同样本的不同类型的协变量数据。

优选地，所述的数据挖掘学习模块，解决logistic回归的对偶问题，通过该对偶问题的解，即全局模型向量，可计算得到logistic回归主问题的解。

优选地，所述的隐私数据处理模块，通过计算和发送其局部隐私数据的线性核矩阵来实现原始数据的加密和共享。由于点积的结果为单值，而一个病人的数据是由许多协变量所组成，因此只要数据集中有足够多的协变量特征，由所得的单值反求出这些隐私数据是不可能的，即进行了加密保护。

优选地，所述的隐私数据处理模块，通过牛顿-拉弗森方法(Newton-Raphsonmethod)求解logistic回归的对偶问题。

优选地，所述的分析应用模块，通过发送全局模型向量到各个机构，并汇总各机构反馈的局部分析参数，对待分析隐私数据进行判断预测。

本发明中采用的基于垂直分布隐私数据保护的logistic回归分析技术为垂直分布隐私数据的数据挖掘分析提供了进行logistic回归分析的解决方案。本发明隐私数据处理模块所使用的线性核函数可以对各个不同分布机构的原始数据进行加密保护不泄漏，计算快速。总体核训练集等于各部分核训练集的累加的性质，与logistic回归对偶问题相契合，从而实现安全的联合数据分析。

与现有技术相比，本发明具有如下的有益效果：

本发明提供数据共享挖掘的同时，还保证了垂直分布式的原始隐私数据的安全性，求解全局模型向量的方法也提升了学习求解的效率。本发明采用服务器-客户模式的辐射式结构，其中隐私数据、隐私数据处理模块位于各个客户端，数据挖掘学习模块和分析应用模块位于服务器云端，具备良好的安全性、实用性和扩展性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明系统一实施例的结构框图；

图2为垂直分布式隐私数据的示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示，本发明一实施例的结构框图，包括：隐私数据处理模块、数据挖掘学习模块和分析应用模块，其中：隐私数据处理模块对各局部隐私数据，利用线性核函数生成对应的核训练集，并将这些局部的核训练集输出到数据挖掘学习模块的输入端；数据挖掘学习模块首先累加各个局部核训练集，得到总体核训练集，然后对总体核训练集进行学习得到全局模型向量，并将该全局模型向量输出到分析应用模块的输入端；分析应用模块接收所述数据挖掘学习模块输出的全局模型向量，对待分析的隐私数据进行判断分析。

本实施例中，所述的隐私数据处理模块中垂直分布式隐私数据分为两部分情况的样例如图2所示。对于k个机构所组成的垂直分布式隐私数据X＝[X¹|X²|…|X^k]∈R^m×n，每个机构持有自己的数据其中m表示样本(比如病人)的个数，n_i表示第i个机构的样本特征(协变量)的数量，假设所有机构已知共同的二值响应向量Y∈R^m×1，并且数据集是已对齐的(即病人1的数据位于所有的机构中第一行，以此类推)。隐私数据处理模块使用线性核函数Kⁱ＝XⁱXⁱ′对第i个机构的隐私数据进行加密，由于点积的结果为单值，而一个病人的数据是由许多协变量所组成，因此只要数据集中有足够的协变量特征，由所得的单值反求出这些隐私数据是不可能的，即进行了加密保护。

本实施例中，所述的数据挖掘学习模块首先累加各个机构发送过来的核训练集得到总体核训练集然后计算logistic回归的对偶问题：

其中L(α_i)＝-α_ilog(α_i)-(1-α_i)log(1-α_i)，K(i，j)为总体核训练集K的第i行第j列元素，主问题解β∈R^n×1与对偶问题解α∈R^m×1的关系为λ为正规化参数，α_i、α_j分别是指解向量α的第i，j个系数值，y_i、y_j分别是指二值响应向量Y第i，j个系数值，x_i是指第i个样本数据。

目标方程J的一阶导数为：

汉森(Hessian)矩阵H为：

对偶问题(1)的全局最优解是通过牛顿-拉弗森方法迭代求解：

其中α^(s+1)是α^(s)新的估计向量,s为迭代次数，J′(α^(s))和H(α^(s))分别是第s次迭代的目标方程J的一阶导数和汉森矩阵。

本实施例中，所述的分析应用模块在得到全局模型向量α^*后，对垂直分布在这k个机构中的待分析隐私数据样本Z＝[Z¹，…，Z^k]∈R^1×n进行判断分析。首先分析应用模块发送α^*到各个机构，各个机构i通过计算各自的局部分析参数Fⁱ＝λ^-1α^*YZⁱZⁱ，i＝1，…，k，并发送给分析应用模块，其中λ为正规化参数同上述(1),(2),(3)式，Zⁱ为垂直分布在第i个机构中的待分析隐私数据。分析应用模块通过累计计算最后计算作为分析预测的结果，其中exp(·)为指数函数。

实施效果

本实施例中关键参数的设置为：实验所用数据来源于乳腺癌数据集GSE3494，该数据集总共包含了236位病人的基因特征表达数据和临床数据，其中基因特征表达数据来自两个机构，各包含15个协变量特征，分别可表示为X¹∈R^236×15，X²∈R^236×15，临床数据X³∈R²³⁶ ^×10来自第三个机构包含10个协变量特征。三个机构共享二值响应向量Y∈R^236×1，其中y_i＝1(-1)表示死亡(生存),i＝1，…，236.。我们采用10倍交叉验证，取9份用于训练学习，取1份用于测试。取λ＝2，epsilon＝10^-8，经过12次迭代收敛后得到最优解，本实施例系统的曲线下面积(AUC)值为0.940±0.013，H-L c-检验p值为0.709，表现出很好的分类性能和拟合优度。经验证，本实施例得到的解向量α^*所对应的主问题的解β^*与标准的logistic回归在全部获取原始数据训练得到的β的平均平方误差约为10^-7，表明两者基本没有差别。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于垂直分布隐私数据保护的logistic回归分析系统，其特征在于，包括：隐私数据处理模块、数据挖掘学习模块和分析应用模块，其中：

所述隐私数据处理模块对垂直分布在各局部的原始隐私数据，利用线性核函数生成对应的核训练集，并将这些局部的核训练集输出到数据挖掘学习模块的输入端；所述隐私数据处理模块，对于k个机构所组成的垂直分布式隐私数据X＝[X¹|X²|…|X^k]∈R^m×n，每个机构自已的数据i＝1，…，k，其中m表示样本的个数，n_i表示第i个机构的样本特征的数量，假设所有机构已知共同的二值响应向量Y∈R^m×1，并且数据集是已对齐的；隐私数据处理模块使用线性核函数Kⁱ＝XⁱX^i′对第i个机构的隐私数据进行加密；

所述数据挖掘学习模块首先累加各个局部核训练集，得到总体核训练集，然后对总体核训练集进行logistic回归分析得到全局模型向量，并将该全局模型向量输出到分析应用模块的输入端；所述的数据挖掘学习模块首先累加各个机构发送过来的核训练集得到总体核训练集然后计算logistic回归的对偶问题：

其中L(α_i)＝-α_ilog(α_i)-(1-α_i)log(1-α_i)，K(i，j)为总体核训练集K的第i行第j列元素，主问题解β∈R^n×1与对偶问题解α∈R^m×1的关系为λ为正规化参数，α_i、α_j分别是指解向量α的第i，j个系数值，y_i、y_j分别是指二值响应向量Y第i，j个系数值，x_i是指第i个样本数据；

目标方程J的一阶导数为：

汉森矩阵H为：

对偶问题(1)的全局最优解是通过牛顿-拉弗森方法迭代求解：

其中α^(s+1)是α^(s)新的估计向量，s为迭代次数，J′(α^(s))和H(α^(s))分别是第s次迭代的目标方程J的一阶导数和汉森矩阵；

所述分析应用模块接收所述数据挖掘学习模块输出的全局模型向量，对待分析的隐私数据进行判断分析；所述分析应用模块在得到全局模型向量α^*后，对垂直分布在k个机构中的待分析隐私数据样本Z＝[Z¹，…，Z^k]∈R^1×n进行判断分析：首先分析应用模块发送α^*到各个机构，各个机构i通过计算各自的局部分析参数Fⁱ＝λ^-1α^*YZⁱZ^i′，i＝1，…，k，并发送给分析应用模块，其中λ为正规化参数同上述(1)，(2)，(3)式，Zⁱ为垂直分布在第i个机构中的待分析隐私数据；分析应用模块通过累计计算最后计算作为分析预测的结果，其中exp(·)为指数函数。

2.根据权利要求1所述的基于垂直分布隐私数据保护的logistic回归分析系统，其特征是，所述系统采用服务器-客户模式的辐射式结构，其中隐私数据、隐私数据处理模块位于各个客户端，数据挖掘学习模块和分析应用模块位于服务器云端。