CN108111294A

CN108111294A - 一种基于ML-kNN的保护隐私的多标记分类方法

Info

Publication number: CN108111294A
Application number: CN201711325129.XA
Authority: CN
Inventors: 刘洋; 王箭; 朱友文
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2017-12-13
Filing date: 2017-12-13
Publication date: 2018-06-01
Anticipated expiration: 2037-12-13
Also published as: CN108111294B

Abstract

本发明提供一种基于ML‑kNN的保护隐私的多标记分类方法，属于信息安全领域。本发明通过采用同态加密系统和安全点积协议等方法，使得多标记分类服务器可以在对用户的未分类样本进行正确分类的同时，保护用户和服务器双方的隐私信息，保证双方数据的安全。本方法适用于用户和服务器之间相互缺乏信任的环境下的多标记分类查询任务，为本技术领域的进步拓展了空间，具有实用效果。

Description

一种基于ML-kNN的保护隐私的多标记分类方法

技术领域

本发明属于信息安全技术领域，具体涉及一种基于ML-kNN(Multi-Label k-Nearest Neighbor)的保护隐私的多标记分类方法。

背景技术

多标记学习(multi-label learning)是机器学习的一个重要研究领域，在多标记学习中，每一个训练样本都被赋予由一组类别标记组成的标记子集来表示其多种语义信息。而学习的任务为给未见的样本预测出所有相关的类别标记。

针对多标记学习任务，近些年已经发展出了多种解决此类任务的方法。文献[Min-Ling Zhang,Zhi-Hua Zhou,“ML-kNN；A lazy learning approach to multi-labellearning”，2007]提出一种基于k近邻算法改造的多标记学习算法。该算法基本思想是先根据未分类样本的特征信息找出样本的k个最近邻，然后基于这些近邻样本的标记信息，以最大化后验概率的准则来预测其相关标记。但是，该方法并没有考虑保护隐私的问题。如果分类模型和训练数据集是服务器的私有信息，未分类样本是用户的私有信息，则在分类时，服务器需要完全知道未分类样本的特征信息，才能根据特征信息找到样本的k近邻，同时服务器还会知道用户的未分类样本的最终分类结果。这些都不适用于当服务器和用户相互之间不可信环境下的多标记分类任务，将会泄漏双方的隐私信息。因此，该方案的应用范围具有一定的局限性。

下面介绍本专利涉及的背景知识：(1)多标记学习；(2)ML-kNN方案；(3)Paillier同态加密系统；(4)安全计算协议；(5)形式化安全和攻击者模型。

(1)多标记学习

假设用表示样本的特征空间，Y＝{y₁,y₂,…,y_q}表示有q个不同类别组成de标记空间，给定一个包含m个训练样本的多标记训练数据集D＝{(x₁,y₁),(x₂,y₂),…,(x_m,y_m)}，其中x_i＝{x_i1,x_i2,…,x_id}是第i个训练样本，y_i是样本x_i的相关标记集合。为了更加清晰的表述，用向量表示样本x_i的标记向量，其中若样本x_i与标记y_j相关，则y_ij＝+1，否则y_ij＝-1。则多标记学习的目标就是输出一个多标记分类器h，可以用来预测未见样本x_i的相关标记

(2)ML-kNN方案

ML-kNN(Multi-Label k-Nearest Neighbor)是一个基于经典的k近邻算法改造的适应于多标记学习的算法，拥有优异的多标记分类能力。ML-kNN的基本思想是根据样本的k近邻的相关标记分布情况来预测未分类样本的相关标记。给定一个未分类样本，ML-kNN算法先确定在训练数据集中该样本的k个最近邻，然后统计k近邻中的标记集合，再基于统计信息利用最大化后验概率准则来预测未分类样本的标记集合。

假设用表示样本的特征空间，Y＝{y₁,y₂,…,y_q}表示有q个不同类别组成的标记空间，给定一个包含m个训练样本的多标记训练数据集T＝{(x₁,y₁),(x₂,y₂),…,(x_m,y_m)}，其中x_i＝{x_i1,x_i2,…,x_id}是第i个训练样本，y_i是样本x_i的相关标记集合。为了方便，用向量表示样本x_i的标记向量，其中若样本x_i与标记y_j相关，则y_ij＝1，否则y_ij＝0。

用N_x表示样本x在训练数据集中的k个最近邻的集合，ML-kNN计算如下值：

这里的是统计在样本x的k近邻中具体有多少个邻居与标记l相关。

给定一个未分类样本t，为了对其进行分类，即预测其是否与标记l∈Y相关，ML-kNN先通过计算t与训练数据集T中每个样本之间的距离，找出k个最近邻。用表示样本t与标记l相关这一事件，用表示样本t与标记l不相关这一事件，用表示在t的k近邻中有j个邻居与标记l相关这一事件。ML-kNN利用以下最大化后验概率准则来预测样本t是否与标记l相关：

根据贝叶斯法则，上述概率又可以被改写为：

则可以看出为了得到分类结果，需要得到先验概率和后验概率

为此，ML-kNN定义先验概率如下：

其中，s是一个平滑参数，在ML-kNN设置其值为1从而产生拉普拉斯平滑。

再通过计算训练样本数据集中两两样本之间的距离，找到每个训练样本x_i在数据集中的k个最近邻并计算得到

之后ML-kNN定义并计算后验概率如下：

其中，j∈{0,1,…,k}，c(j)统计所有训练样本中共有多少个样本与标记l相关并且c′(j)统计所有训练样本中共有多少个样本与标记l不相关并且

所有的先验概率和后验概率都可以根据训练数据集T提前计算得出。

当需要判断一个样本t是否与标记l∈Y相关时，只需找出样本t在训练数据集T的k个最近邻，得到N_t，进而得到则必将有即可根据的值得到对应的从而得到分类结果。

(3)Paillier同态加密系统

本发明中的方案将使用Paillier同态加密系统对数据进行加密从而达到保护隐私信息的目的，这是一个满足加法同态的公钥加密系统。

Paillier同态加密系统的详细介绍如下：

初始化阶段：随机选取两个大素数p和q，计算n＝pq,λ＝lcm(p-1,q-1)，选取随机数且满足gcd(L(g^λ(mod n²)),n)＝1，则公钥pk＝(n,g)，私钥sk＝(p,q)；其中lcm指最小公倍数，gcd指最大公约数，L(x)＝(x-1)/n。

加密阶段：给定任意明文m∈Z_n，选取一个随机数则其对应的密文为：

c＝E_pk(m)＝g^mrⁿmod n²

解密阶段：给定一个密文则其对应的明文为：

(4)安全点积协议

本发明中的方案需要安全计算向量之间的点积，具体的，假设参与计算的一方Alice拥有向量另一方Bob拥有向量我们需要得到但不希望任何一方得到结果的确切值。为此，本文中将使用一个扩展的保护隐私的安全点积协议(PPSPC)。协议具体内容如下所示。

(5)形式化安全和攻击者模型

本发明考虑半诚实攻击者模型下的安全。在半诚实攻击者模型下的安全性定义如下：

定义：假设f(x,y)是一个目标函数，P是一个计算函数f(x,y)的两方协议，协议的参与方分别是A和B，x和y分别是参与方A和B的私有输入，协议P需要A计算并输出子函数f_A(x,y)的值，同时需要B计算并输出子函数f_B(x,y)的值。用view_A(x,y)和view_B(x,y)分别表示在协议P的执行过程中参与方A和B获得的中间信息，用r_A和r_B表示参与方A和B在协议P的执行过程中产生的随机数，则有：

view_A(x,y)＝(x,r_A,m₁,…,m_t)

view_B(x,y)＝(y,r_B,m₁,…,m_t)

其中m_i表示参与方A和B收到的第i条信息。

用O_A(x,y)和O_B(x,y)分别表示在协议P的执行过程中参与方A和B输出的信息，则当存在概率多项式算法S₁和S₂能够使得下式成立时，称协议P在半诚实攻击者模型下是安全的：

其中表示计算不可区分性。

发明内容

本发明的目的在于解决ML-kNN方法的上述问题，提出一种基于ML-kNN的保护隐私的多标记分类方法，在对未分类样本进行分类时能够保护服务器和用户双方的隐私信息。

为实现上述目的，本发明采用如下技术方案：

一种基于ML-kNN的保护隐私的多标记分类方法，包括如下步骤：

步骤1：服务器根据自己的训练数据集D建立好分类模型，计算出各种k取值情况下的先验概率和后验概率，k表示训练数据集D中的每个样本x_i(i＝1,…,m)的最近邻居的数量；

步骤2：计算未分类样本t与训练数据集D中的每个样本x_i(i＝1,…,m)之间的距离；

步骤3：根据步骤2中得到的距离，找出未分类样本t在训练数据集D中的kNN样本；

步骤4：根据步骤3中得到的kNN样本，统计出针对每个标记l跟该标记相关的近邻数量l∈Y，Y＝{y₁,y₂,…,y_q}表示有q个不同类别组成的标记空间；

步骤5：根据步骤4中得到的计算得到未分类样本t与标记l相关的概率以及未分类样本t与标记s不相关的概率比较和的大小，若则样本t与标记l相关，否则样本t与标记l不相关，从而得到最终的分类结果。

进一步的，步骤2的具体计算过程为：

样本t用d维向量表示t＝(t₁,t₂,…,t_d)，将t扩展为t＝(t₁,t₂,…,t_d,1)；服务器的训练数据集中每个样本x_i用d维向量表示x_i＝(x_i1,x_i2,…,x_id)，将每个样本向量扩展成服务器和用户利用安全点积协议来计算出未分类样本数据t与服务器的训练数据集D中的每个样本之间的距离dist(x_i,t)＝s_i+c_i(i＝1,…,m)，其中s_i只有服务器知道，c_i只有用户知道。

进一步的，步骤3的具体步骤为：

用户利用Paillier同态加密系统生成密钥对(sk,pk)，选取随机整数A，用户加密c_i得到E_pk(Ac_i)(i∈{1,…,m})并发送给服务器，服务器选取随机整数R，加密s_i并与接收到的用户发送的距离密文合并，得到E_pk(A(c_i+s_i)+R)(i∈{1,…,m})并发送给用户；用户解密得到A(c_i+s_i)+R＝A·dist(x_i,t)+R(i∈{1,…,m})并根据解密结果找到未分类样本t在训练数据集D中的kNN。

进一步的，步骤4的具体步骤为：用户构造kNN向量，之后和服务器利用安全点积协议计算出在数据集D中，对于样本t，针对每个标记l，跟该标记相关的近邻数量

其中a_l的值只有服务器知道，b_l的值只有用户知道。

进一步的，步骤5的具体步骤为：

步骤5.1：用户选取一个随机整数C，加密b_l得到E_pk(b_l)并将{C,E_pk(b_l)(l∈Y)}发送给服务器，服务器接收到之后，加密a_l为E_pk(a_l)服务器，构造向量

其中R_i(i∈{0,1,…,k})都是服务器随机选取的随机整数；

步骤5.2：服务器利用随机置换函数π将向量作置换处理，并发送向量给用户；用户接收到之后将向量解密，并生成一个新的向量其中如果则否则

步骤5.3：服务器和用户利用安全点积协议计算如下：

其中表示样本t与标记l不相关的概率，表示样本t与标记l相关的概率，c_l0和c_l1只有服务器知道，d_l0和d_l1只有用户知道；

步骤5.4：服务器将自己拥有的c_l0和c_l1发送给用户，用户计算并比较c_l0+d_l0和c_l1+d_l1的大小：如果c_l0+d_l0>c_l1+d_l1，则样本t与标记l不相关，否则样本t与标记l相关；

步骤5.5：用户得到了最终样本关于标记l的分类结果，并且这个结果只有用户自己知道。

有益效果：本发明可以使得用户得到每个未分类样本的多标记分类结果，同时保证了多标记服务器和用户的私有信息都不会因为该任务的执行而被泄漏。本发明使得多标记分类服务可以在相互缺乏信任的独立方合作展开。由此可见，本发明为本技术领域的进步拓展了空间，具有实用效果。

附图说明

图1为本发明基于ML-kNN的保护隐私的多标记分类方法的流程图。

具体实施方式

以下结合具体实施例对上述方案做进一步说明。应理解，这些实施例是用于说明本发明而不限于限制本发明的范围。实施例中采用的实施条件可以根据具体厂家的条件做进一步调整，未注明的实施条件通常为常规实验中的条件。

本发明中的方案具体分为以下四个步骤：

第一步：安全计算样本之间的距离

先利用安全点积协议来安全计算未分类样本t与训练数据集T中每个样本之间的距离，并且所有的样本都是处于d维特征空间本章中的方案采用的距离为欧式距离，在实际应用中也可根据需要调整为其他距离计算方式。欧式距离的定义如下：

将未分类样本t的特征向量由扩展为并将训练数据集中每个样本x_i的特征向量由扩展为之后可以得到：

因此，若要根据欧式距离找出未分类样本在训练数据集中k近邻，点积的值与真实的欧式距离是成反比的，若则有dist(x_i,t)<dist(x_j,t)，因此可以直接利用点积的值来寻找k近邻。为了方便，在之后的内容中使用dist(x_i,t)表示

样本t与训练数据集中每个样本之间的距离关系必须保证对于服务器和用户都是保密的，为了保护点积的真实值不被服务器和用户双方知道，我们使用安全点积协议来计算其值：

其中s_i将只有服务器知道，c_i将只有用户知道，从而实现了保护服务器和用户双方的隐私信息。

第二步：安全找出样本t的kNN

在第二步，我们需要根据第一步得到的未分类样本t与训练数据集T中训练样本之间的距离关系来找到t在T中的k个最近邻。

用户利用Paillier同态加密系统产生一对密钥(pk,sk)，并随机选取一个整数A，然后加密用户自己拥有的那一部分距离值c_i为E_pk(Ac_i)(i∈{1,…,m})，之后发送{pk,A,E_pk(Ac_i)(i∈{1,…,m})}给服务器；服务器接收到之后，再随机选取一个整数R，将自己拥有的那一部分距离s_i(i∈{1,…,m})加密并与接收到的距离密文合并，得到E_pk(A(c_i+s_i)+R)(i∈{1,…,m})并发送给用户；用户接收之后进行解密操作，得到A(c_i+s_i)+R＝A·dist(x_i,t)+R(i∈{1,…,m})。由于A·dist(x_i,t)+R和dist(x_i,t)成线性关系，因此用户根据A·dist(x_i,t)+R(i∈{1,…,m})的值来找到样本t在T中的k个最近邻，用集合N(t)表示。为了方便，用户构造一个kNN向量其中当样本x_i∈N(t)时，k_ti＝1；否则k_ti＝0。

第三步：安全计算

服务器构建一个矩阵M_m×q，其中若样本x_i与标记y_j相关，则M[ij]＝1，否则M[ij]＝0。

然后服务器和用户利用安全点击协议的值，公式如下：

其中，指的是矩阵M_m×q的第l列，是第二步中得到的kNN向量，最终a_l的值只有服务器知道，b_l的值将只有用户知道。

第四步：安全返还分类结果

最后一步将多标记分类结果安全返还给用户。

服务器构造两个向量和如下：

其中，向量表示的是在不同取值下样本t与标记l不相关的概率，表示的是在不同取值下样本t与标记l相关的概率。

用户选择一个随机整数C，加密用户拥有的那部分的值b_l为E_pk(b_l)，然后发送{C,E_pk(b_l)(l∈Y)}给服务器；服务器接收到之后，加密服务器拥有的那部分的值a_l为E_pk(a_l)，并计算得到向量如下：

其中R_i(i∈{0,1,…,k})都是服务器随机选取的随机整数。

然后服务器利用随机置换函数π将向量作置换处理，并发送向量给用户；用户接收到之后将向量解密，并生成一个新的向量其中如果则否则

之后服务器和用户利用安全点积协议计算如下：

其中表示样本t与标记l不相关的概率，表示样本t与标记l相关的概率，c_l0和c_l1只有服务器知道，d_l0和d_l1将只有用户知道。

服务器将自己拥有的c_l0和c_l1发送给用户，用户计算并比较c_l0+d_l0和c_l1+d_l1的大小：如果c_l0+d_l0>c_l1+d_l1，则样本t与标记l不相关，否则样本t与标记l相关。从而用户得到了最终样本关于标记l的分类结果，并且这个结果只有用户自己知道。

实施例：实验系统配置为Winodows10系统下，Intel I7 2.50GHz CPU和8GB内存的平台；密钥长度为1024bit(受实验平台限制，所使用密钥长度较短，如需提高安全性，可适当增加密钥长度)。

实验数据集为emotions数据集、Yeast gene数据集和scene数据集。其中，emotions数据集包含593个样本，每个样本的信息由72个维度表示，可能相关的标记范围是6个；Yeast gene数据集包含2417个样本，每个样本的信息由103个维度表示，可能相关的标记范围是14个；scene数据集包含2407个样本，每个样本的信息由294个维度表示，每个样本可能相关的标记范围是6个。

实验结果如表1：

表1在三种数据集上本发明对一个样本进行分类所需时间(在不同的k取值下，单位：秒)

	k＝8	k＝9	k＝10	k＝11	k＝12
						emotions	4.38	4.42	4.4	4.42	4.43
Yeast gene	19.15	18.9	19.23	19.21	19.25
						scene	25.28	25.94	26.02	26.03	26.02

实验表明我们的方案能够较快的完成对样本的多标记分类，分类所需时间和样本信息的维度成正比。

下面我们将证明本发明的安全性，即不会泄漏任何一方的隐私信息。

安全性说明：具体来说，整个多标记分类过程分为两个阶段。第一个阶段(即步骤1)是训练阶段，此阶段里服务器提前计算出各种情况下的概率，训练好自己的分类模型，由于此阶段没有用户的参与，所以不会发生隐私信息泄漏问题。

第二个阶段(即步骤2到步骤5)是分类阶段，此阶段里服务器对用户提交的未分类样本进行分类。在步骤2中，由于使用了安全点积协议来计算样本之间的距离，因此服务器和用户都只能知道距离的一部分，不能知道确切的距离关系，因此不会发生隐私泄露的问题；在步骤3中，由于用户使用了公钥加密技术，因此服务器不会知道用户拥有的距离部分，并且由于服务器在加密时使用了随机数，因此用户解密之后不能知道服务器拥有的距离部分，因此不会发生隐私泄漏问题；在步骤4中，同步骤2类似，由于双方使用了安全点击协议来计算c(s)，因此双方都只能知道c(s)的一部分，因此不会发生隐私泄漏问题；在步骤5中，由于服务器加密时添加了随机数，因此用户解密之后也不能知道服务器拥有的c(s)的部分值，也不能知道真正的c(s)值，并且由于双方使用了安全点积协议来计算最终的概率，因此服务器不能知道用户样本的最终分类结果。因此不会发生隐私泄漏问题。

所以，基于同态加密系统和安全点击协议的安全性，本发明的多标记分类过程是安全的，任何参与方的隐私信息都不会发生泄漏。

通过上述实施例的分析可见，本发明具有良好的隐私保护效果。采用本发明后，使得用户能够得到与文献[Min-Ling Zhang,Zhi-Hua Zhou,“ML-kNN：A lazy learningapproach to multi-label learning”，2007]中方法一样准确的检测结果，同时保证了服务器和用户的隐私信息都不会因为该服务的执行而发生泄漏。因此，本发明特别适合于缺乏相互信任的两方合作的多标记分类应用。由此可见，本发明具有实质性技术特点和显著的技术进步，其应用前景非常广阔。

上述实例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人是能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于ML-kNN的保护隐私的多标记分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于ML-kNN的保护隐私的多标记分类方法，其特征在于，步骤2的具体计算过程为：

3.根据权利要求2所述的一种基于ML-kNN的保护隐私的多标记分类方法，其特征在于，步骤3的具体步骤为：

4.根据权利要求1所述的一种基于ML-kNN的保护隐私的多标记分类方法，其特征在于，步骤4的具体步骤为：用户构造kNN向量，之后和服务器利用安全点积协议计算出在数据集D中，对于样本t，针对每个标记l，跟该标记相关的近邻数量

<mrow> <mover> <msub> <mi>C</mi> <mi>t</mi> </msub> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>a</mi> <mi>l</mi> </msub> <mo>+</mo> <msub> <mi>b</mi> <mi>l</mi> </msub> <mo>,</mo> <mi>l</mi> <mo>&Element;</mo> <mi>Y</mi> </mrow>

其中a_l的值只有服务器知道，b_l的值只有用户知道。

5.根据权利要求4所述的一种基于ML-kNN的保护隐私的多标记分类方法，其特征在于，步骤5的具体步骤为：

<mrow> <mover> <msub> <mi>P</mi> <mi>t</mi> </msub> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mrow> <mo>(</mo> <msub> <mi>E</mi> <mrow> <mi>p</mi> <mi>k</mi> </mrow> </msub> <mo>(</mo> <mrow> <mrow> <mo>(</mo> <mrow> <msub> <mi>a</mi> <mi>l</mi> </msub> <mo>+</mo> <msub> <mi>b</mi> <mi>l</mi> </msub> <mo>-</mo> <mn>0</mn> </mrow> <mo>)</mo> </mrow> <msub> <mi>R</mi> <mn>0</mn> </msub> </mrow> <mo>)</mo> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>E</mi> <mrow> <mi>p</mi> <mi>k</mi> </mrow> </msub> <mo>(</mo> <mrow> <mrow> <mo>(</mo> <mrow> <msub> <mi>a</mi> <mi>l</mi> </msub> <mo>+</mo> <msub> <mi>b</mi> <mi>l</mi> </msub> <mo>-</mo> <mi>k</mi> </mrow> <mo>)</mo> </mrow> <msub> <mi>R</mi> <mi>k</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>,</mo> <mi>l</mi> <mo>&Element;</mo> <mi>Y</mi> </mrow>

其中R_i(i∈{0,1,…,k})都是服务器随机选取的随机整数；

步骤5.3：服务器和用户利用安全点积协议计算如下：