CN108111294A - 一种基于ML-kNN的保护隐私的多标记分类方法 - Google Patents
一种基于ML-kNN的保护隐私的多标记分类方法 Download PDFInfo
- Publication number
- CN108111294A CN108111294A CN201711325129.XA CN201711325129A CN108111294A CN 108111294 A CN108111294 A CN 108111294A CN 201711325129 A CN201711325129 A CN 201711325129A CN 108111294 A CN108111294 A CN 108111294A
- Authority
- CN
- China
- Prior art keywords
- sample
- server
- user
- label
- knn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000002372 labelling Methods 0.000 title abstract 4
- 238000012549 training Methods 0.000 claims description 37
- 239000013598 vector Substances 0.000 claims description 36
- 230000002596 correlated effect Effects 0.000 claims description 15
- 239000003550 marker Substances 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 4
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/008—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols involving homomorphic encryption
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/08—Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
- H04L9/0861—Generation of secret information including derivation or calculation of cryptographic keys or passwords
- H04L9/0863—Generation of secret information including derivation or calculation of cryptographic keys or passwords involving passwords or one-time passwords
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/08—Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
- H04L9/0861—Generation of secret information including derivation or calculation of cryptographic keys or passwords
- H04L9/0869—Generation of secret information including derivation or calculation of cryptographic keys or passwords involving random numbers or seeds
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于ML‑kNN的保护隐私的多标记分类方法,属于信息安全领域。本发明通过采用同态加密系统和安全点积协议等方法,使得多标记分类服务器可以在对用户的未分类样本进行正确分类的同时,保护用户和服务器双方的隐私信息,保证双方数据的安全。本方法适用于用户和服务器之间相互缺乏信任的环境下的多标记分类查询任务,为本技术领域的进步拓展了空间,具有实用效果。
Description
技术领域
本发明属于信息安全技术领域,具体涉及一种基于ML-kNN(Multi-Label k-Nearest Neighbor)的保护隐私的多标记分类方法。
背景技术
多标记学习(multi-label learning)是机器学习的一个重要研究领域,在多标记学习中,每一个训练样本都被赋予由一组类别标记组成的标记子集来表示其多种语义信息。而学习的任务为给未见的样本预测出所有相关的类别标记。
针对多标记学习任务,近些年已经发展出了多种解决此类任务的方法。文献[Min-Ling Zhang,Zhi-Hua Zhou,“ML-kNN;A lazy learning approach to multi-labellearning”,2007]提出一种基于k近邻算法改造的多标记学习算法。该算法基本思想是先根据未分类样本的特征信息找出样本的k个最近邻,然后基于这些近邻样本的标记信息,以最大化后验概率的准则来预测其相关标记。但是,该方法并没有考虑保护隐私的问题。如果分类模型和训练数据集是服务器的私有信息,未分类样本是用户的私有信息,则在分类时,服务器需要完全知道未分类样本的特征信息,才能根据特征信息找到样本的k近邻,同时服务器还会知道用户的未分类样本的最终分类结果。这些都不适用于当服务器和用户相互之间不可信环境下的多标记分类任务,将会泄漏双方的隐私信息。因此,该方案的应用范围具有一定的局限性。
下面介绍本专利涉及的背景知识:(1)多标记学习;(2)ML-kNN方案;(3)Paillier同态加密系统;(4)安全计算协议;(5)形式化安全和攻击者模型。
(1)多标记学习
假设用表示样本的特征空间,Y={y1,y2,…,yq}表示有q个不同类别组成de标记空间,给定一个包含m个训练样本的多标记训练数据集D={(x1,y1),(x2,y2),…,(xm,ym)},其中xi={xi1,xi2,…,xid}是第i个训练样本,yi是样本xi的相关标记集合。为了更加清晰的表述,用向量表示样本xi的标记向量,其中若样本xi与标记yj相关,则yij=+1,否则yij=-1。则多标记学习的目标就是输出一个多标记分类器h,可以用来预测未见样本xi的相关标记
(2)ML-kNN方案
ML-kNN(Multi-Label k-Nearest Neighbor)是一个基于经典的k近邻算法改造的适应于多标记学习的算法,拥有优异的多标记分类能力。ML-kNN的基本思想是根据样本的k近邻的相关标记分布情况来预测未分类样本的相关标记。给定一个未分类样本,ML-kNN算法先确定在训练数据集中该样本的k个最近邻,然后统计k近邻中的标记集合,再基于统计信息利用最大化后验概率准则来预测未分类样本的标记集合。
假设用表示样本的特征空间,Y={y1,y2,…,yq}表示有q个不同类别组成的标记空间,给定一个包含m个训练样本的多标记训练数据集T={(x1,y1),(x2,y2),…,(xm,ym)},其中xi={xi1,xi2,…,xid}是第i个训练样本,yi是样本xi的相关标记集合。为了方便,用向量表示样本xi的标记向量,其中若样本xi与标记yj相关,则yij=1,否则yij=0。
用Nx表示样本x在训练数据集中的k个最近邻的集合,ML-kNN计算如下值:
这里的是统计在样本x的k近邻中具体有多少个邻居与标记l相关。
给定一个未分类样本t,为了对其进行分类,即预测其是否与标记l∈Y相关,ML-kNN先通过计算t与训练数据集T中每个样本之间的距离,找出k个最近邻。用表示样本t与标记l相关这一事件,用表示样本t与标记l不相关这一事件,用表示在t的k近邻中有j个邻居与标记l相关这一事件。ML-kNN利用以下最大化后验概率准则来预测样本t是否与标记l相关:
根据贝叶斯法则,上述概率又可以被改写为:
则可以看出为了得到分类结果,需要得到先验概率和后验概率
为此,ML-kNN定义先验概率如下:
其中,s是一个平滑参数,在ML-kNN设置其值为1从而产生拉普拉斯平滑。
再通过计算训练样本数据集中两两样本之间的距离,找到每个训练样本xi在数据集中的k个最近邻并计算得到
之后ML-kNN定义并计算后验概率如下:
其中,j∈{0,1,…,k},c(j)统计所有训练样本中共有多少个样本与标记l相关并且c′(j)统计所有训练样本中共有多少个样本与标记l不相关并且
所有的先验概率和后验概率都可以根据训练数据集T提前计算得出。
当需要判断一个样本t是否与标记l∈Y相关时,只需找出样本t在训练数据集T的k个最近邻,得到Nt,进而得到则必将有即可根据的值得到对应的从而得到分类结果。
(3)Paillier同态加密系统
本发明中的方案将使用Paillier同态加密系统对数据进行加密从而达到保护隐私信息的目的,这是一个满足加法同态的公钥加密系统。
Paillier同态加密系统的详细介绍如下:
初始化阶段:随机选取两个大素数p和q,计算n=pq,λ=lcm(p-1,q-1),选取随机数且满足gcd(L(gλ(mod n2)),n)=1,则公钥pk=(n,g),私钥sk=(p,q);其中lcm指最小公倍数,gcd指最大公约数,L(x)=(x-1)/n。
加密阶段:给定任意明文m∈Zn,选取一个随机数则其对应的密文为:
c=Epk(m)=gmrnmod n2
解密阶段:给定一个密文则其对应的明文为:
(4)安全点积协议
本发明中的方案需要安全计算向量之间的点积,具体的,假设参与计算的一方Alice拥有向量另一方Bob拥有向量我们需要得到但不希望任何一方得到结果的确切值。为此,本文中将使用一个扩展的保护隐私的安全点积协议(PPSPC)。协议具体内容如下所示。
(5)形式化安全和攻击者模型
本发明考虑半诚实攻击者模型下的安全。在半诚实攻击者模型下的安全性定义如下:
定义:假设f(x,y)是一个目标函数,P是一个计算函数f(x,y)的两方协议,协议的参与方分别是A和B,x和y分别是参与方A和B的私有输入,协议P需要A计算并输出子函数fA(x,y)的值,同时需要B计算并输出子函数fB(x,y)的值。用viewA(x,y)和viewB(x,y)分别表示在协议P的执行过程中参与方A和B获得的中间信息,用rA和rB表示参与方A和B在协议P的执行过程中产生的随机数,则有:
viewA(x,y)=(x,rA,m1,…,mt)
viewB(x,y)=(y,rB,m1,…,mt)
其中mi表示参与方A和B收到的第i条信息。
用OA(x,y)和OB(x,y)分别表示在协议P的执行过程中参与方A和B输出的信息,则当存在概率多项式算法S1和S2能够使得下式成立时,称协议P在半诚实攻击者模型下是安全的:
其中表示计算不可区分性。
发明内容
本发明的目的在于解决ML-kNN方法的上述问题,提出一种基于ML-kNN的保护隐私的多标记分类方法,在对未分类样本进行分类时能够保护服务器和用户双方的隐私信息。
为实现上述目的,本发明采用如下技术方案:
一种基于ML-kNN的保护隐私的多标记分类方法,包括如下步骤:
步骤1:服务器根据自己的训练数据集D建立好分类模型,计算出各种k取值情况下的先验概率和后验概率,k表示训练数据集D中的每个样本xi(i=1,…,m)的最近邻居的数量;
步骤2:计算未分类样本t与训练数据集D中的每个样本xi(i=1,…,m)之间的距离;
步骤3:根据步骤2中得到的距离,找出未分类样本t在训练数据集D中的kNN样本;
步骤4:根据步骤3中得到的kNN样本,统计出针对每个标记l跟该标记相关的近邻数量l∈Y,Y={y1,y2,…,yq}表示有q个不同类别组成的标记空间;
步骤5:根据步骤4中得到的计算得到未分类样本t与标记l相关的概率以及未分类样本t与标记s不相关的概率比较和的大小,若 则样本t与标记l相关,否则样本t与标记l不相关,从而得到最终的分类结果。
进一步的,步骤2的具体计算过程为:
样本t用d维向量表示t=(t1,t2,…,td),将t扩展为t=(t1,t2,…,td,1);服务器的训练数据集中每个样本xi用d维向量表示xi=(xi1,xi2,…,xid),将每个样本向量扩展成 服务器和用户利用安全点积协议来计算出未分类样本数据t与服务器的训练数据集D中的每个样本之间的距离dist(xi,t)=si+ci(i=1,…,m),其中si只有服务器知道,ci只有用户知道。
进一步的,步骤3的具体步骤为:
用户利用Paillier同态加密系统生成密钥对(sk,pk),选取随机整数A,用户加密ci得到Epk(Aci)(i∈{1,…,m})并发送给服务器,服务器选取随机整数R,加密si并与接收到的用户发送的距离密文合并,得到Epk(A(ci+si)+R)(i∈{1,…,m})并发送给用户;用户解密得到A(ci+si)+R=A·dist(xi,t)+R(i∈{1,…,m})并根据解密结果找到未分类样本t在训练数据集D中的kNN。
进一步的,步骤4的具体步骤为:用户构造kNN向量,之后和服务器利用安全点积协议计算出在数据集D中,对于样本t,针对每个标记l,跟该标记相关的近邻数量
其中al的值只有服务器知道,bl的值只有用户知道。
进一步的,步骤5的具体步骤为:
步骤5.1:用户选取一个随机整数C,加密bl得到Epk(bl)并将{C,Epk(bl)(l∈Y)}发送给服务器,服务器接收到之后,加密al为Epk(al)服务器,构造向量
其中Ri(i∈{0,1,…,k})都是服务器随机选取的随机整数;
步骤5.2:服务器利用随机置换函数π将向量作置换处理,并发送向量给用户;用户接收到之后将向量解密,并生成一个新的向量其中如果则否则
步骤5.3:服务器和用户利用安全点积协议计算如下:
其中表示样本t与标记l不相关的概率,表示样本t与标记l相关的概率,cl0和cl1只有服务器知道,dl0和dl1只有用户知道;
步骤5.4:服务器将自己拥有的cl0和cl1发送给用户,用户计算并比较cl0+dl0和cl1+dl1的大小:如果cl0+dl0>cl1+dl1,则样本t与标记l不相关,否则样本t与标记l相关;
步骤5.5:用户得到了最终样本关于标记l的分类结果,并且这个结果只有用户自己知道。
有益效果:本发明可以使得用户得到每个未分类样本的多标记分类结果,同时保证了多标记服务器和用户的私有信息都不会因为该任务的执行而被泄漏。本发明使得多标记分类服务可以在相互缺乏信任的独立方合作展开。由此可见,本发明为本技术领域的进步拓展了空间,具有实用效果。
附图说明
图1为本发明基于ML-kNN的保护隐私的多标记分类方法的流程图。
具体实施方式
以下结合具体实施例对上述方案做进一步说明。应理解,这些实施例是用于说明本发明而不限于限制本发明的范围。实施例中采用的实施条件可以根据具体厂家的条件做进一步调整,未注明的实施条件通常为常规实验中的条件。
本发明中的方案具体分为以下四个步骤:
第一步:安全计算样本之间的距离
先利用安全点积协议来安全计算未分类样本t与训练数据集T中每个样本之间的距离,并且所有的样本都是处于d维特征空间本章中的方案采用的距离为欧式距离,在实际应用中也可根据需要调整为其他距离计算方式。欧式距离的定义如下:
将未分类样本t的特征向量由扩展为并将训练数据集中每个样本xi的特征向量由扩展为之后可以得到:
因此,若要根据欧式距离找出未分类样本在训练数据集中k近邻,点积的值与真实的欧式距离是成反比的,若则有dist(xi,t)<dist(xj,t),因此可以直接利用点积的值来寻找k近邻。为了方便,在之后的内容中使用dist(xi,t)表示
样本t与训练数据集中每个样本之间的距离关系必须保证对于服务器和用户都是保密的,为了保护点积的真实值不被服务器和用户双方知道,我们使用安全点积协议来计算其值:
其中si将只有服务器知道,ci将只有用户知道,从而实现了保护服务器和用户双方的隐私信息。
第二步:安全找出样本t的kNN
在第二步,我们需要根据第一步得到的未分类样本t与训练数据集T中训练样本之间的距离关系来找到t在T中的k个最近邻。
用户利用Paillier同态加密系统产生一对密钥(pk,sk),并随机选取一个整数A,然后加密用户自己拥有的那一部分距离值ci为Epk(Aci)(i∈{1,…,m}),之后发送{pk,A,Epk(Aci)(i∈{1,…,m})}给服务器;服务器接收到之后,再随机选取一个整数R,将自己拥有的那一部分距离si(i∈{1,…,m})加密并与接收到的距离密文合并,得到Epk(A(ci+si)+R)(i∈{1,…,m})并发送给用户;用户接收之后进行解密操作,得到A(ci+si)+R=A·dist(xi,t)+R(i∈{1,…,m})。由于A·dist(xi,t)+R和dist(xi,t)成线性关系,因此用户根据A·dist(xi,t)+R(i∈{1,…,m})的值来找到样本t在T中的k个最近邻,用集合N(t)表示。为了方便,用户构造一个kNN向量其中当样本xi∈N(t)时,kti=1;否则kti=0。
第三步:安全计算
服务器构建一个矩阵Mm×q,其中若样本xi与标记yj相关,则M[ij]=1,否则M[ij]=0。
然后服务器和用户利用安全点击协议的值,公式如下:
其中,指的是矩阵Mm×q的第l列,是第二步中得到的kNN向量,最终al的值只有服务器知道,bl的值将只有用户知道。
第四步:安全返还分类结果
最后一步将多标记分类结果安全返还给用户。
服务器构造两个向量和如下:
其中,向量表示的是在不同取值下样本t与标记l不相关的概率,表示的是在不同取值下样本t与标记l相关的概率。
用户选择一个随机整数C,加密用户拥有的那部分的值bl为Epk(bl),然后发送{C,Epk(bl)(l∈Y)}给服务器;服务器接收到之后,加密服务器拥有的那部分的值al为Epk(al),并计算得到向量如下:
其中Ri(i∈{0,1,…,k})都是服务器随机选取的随机整数。
然后服务器利用随机置换函数π将向量作置换处理,并发送向量给用户;用户接收到之后将向量解密,并生成一个新的向量其中如果则否则
之后服务器和用户利用安全点积协议计算如下:
其中表示样本t与标记l不相关的概率,表示样本t与标记l相关的概率,cl0和cl1只有服务器知道,dl0和dl1将只有用户知道。
服务器将自己拥有的cl0和cl1发送给用户,用户计算并比较cl0+dl0和cl1+dl1的大小:如果cl0+dl0>cl1+dl1,则样本t与标记l不相关,否则样本t与标记l相关。从而用户得到了最终样本关于标记l的分类结果,并且这个结果只有用户自己知道。
实施例:实验系统配置为Winodows10系统下,Intel I7 2.50GHz CPU和8GB内存的平台;密钥长度为1024bit(受实验平台限制,所使用密钥长度较短,如需提高安全性,可适当增加密钥长度)。
实验数据集为emotions数据集、Yeast gene数据集和scene数据集。其中,emotions数据集包含593个样本,每个样本的信息由72个维度表示,可能相关的标记范围是6个;Yeast gene数据集包含2417个样本,每个样本的信息由103个维度表示,可能相关的标记范围是14个;scene数据集包含2407个样本,每个样本的信息由294个维度表示,每个样本可能相关的标记范围是6个。
实验结果如表1:
表1在三种数据集上本发明对一个样本进行分类所需时间(在不同的k取值下,单位:秒)
k=8 | k=9 | k=10 | k=11 | k=12 | |
emotions | 4.38 | 4.42 | 4.4 | 4.42 | 4.43 |
Yeast gene | 19.15 | 18.9 | 19.23 | 19.21 | 19.25 |
scene | 25.28 | 25.94 | 26.02 | 26.03 | 26.02 |
实验表明我们的方案能够较快的完成对样本的多标记分类,分类所需时间和样本信息的维度成正比。
下面我们将证明本发明的安全性,即不会泄漏任何一方的隐私信息。
安全性说明:具体来说,整个多标记分类过程分为两个阶段。第一个阶段(即步骤1)是训练阶段,此阶段里服务器提前计算出各种情况下的概率,训练好自己的分类模型,由于此阶段没有用户的参与,所以不会发生隐私信息泄漏问题。
第二个阶段(即步骤2到步骤5)是分类阶段,此阶段里服务器对用户提交的未分类样本进行分类。在步骤2中,由于使用了安全点积协议来计算样本之间的距离,因此服务器和用户都只能知道距离的一部分,不能知道确切的距离关系,因此不会发生隐私泄露的问题;在步骤3中,由于用户使用了公钥加密技术,因此服务器不会知道用户拥有的距离部分,并且由于服务器在加密时使用了随机数,因此用户解密之后不能知道服务器拥有的距离部分,因此不会发生隐私泄漏问题;在步骤4中,同步骤2类似,由于双方使用了安全点击协议来计算c(s),因此双方都只能知道c(s)的一部分,因此不会发生隐私泄漏问题;在步骤5中,由于服务器加密时添加了随机数,因此用户解密之后也不能知道服务器拥有的c(s)的部分值,也不能知道真正的c(s)值,并且由于双方使用了安全点积协议来计算最终的概率,因此服务器不能知道用户样本的最终分类结果。因此不会发生隐私泄漏问题。
所以,基于同态加密系统和安全点击协议的安全性,本发明的多标记分类过程是安全的,任何参与方的隐私信息都不会发生泄漏。
通过上述实施例的分析可见,本发明具有良好的隐私保护效果。采用本发明后,使得用户能够得到与文献[Min-Ling Zhang,Zhi-Hua Zhou,“ML-kNN:A lazy learningapproach to multi-label learning”,2007]中方法一样准确的检测结果,同时保证了服务器和用户的隐私信息都不会因为该服务的执行而发生泄漏。因此,本发明特别适合于缺乏相互信任的两方合作的多标记分类应用。由此可见,本发明具有实质性技术特点和显著的技术进步,其应用前景非常广阔。
上述实例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人是能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种基于ML-kNN的保护隐私的多标记分类方法,其特征在于,包括如下步骤:
步骤1:服务器根据自己的训练数据集D建立好分类模型,计算出各种k取值情况下的先验概率和后验概率,k表示训练数据集D中的每个样本xi(i=1,…,m)的最近邻居的数量;
步骤2:计算未分类样本t与训练数据集D中的每个样本xi(i=1,…,m)之间的距离;
步骤3:根据步骤2中得到的距离,找出未分类样本t在训练数据集D中的kNN样本;
步骤4:根据步骤3中得到的kNN样本,统计出针对每个标记l跟该标记相关的近邻数量l∈Y,Y={y1,y2,…,yq}表示有q个不同类别组成的标记空间;
步骤5:根据步骤4中得到的计算得到未分类样本t与标记l相关的概率以及未分类样本t与标记s不相关的概率比较和的大小,若 则样本t与标记l相关,否则样本t与标记l不相关,从而得到最终的分类结果。
2.根据权利要求1所述的一种基于ML-kNN的保护隐私的多标记分类方法,其特征在于,步骤2的具体计算过程为:
样本t用d维向量表示t=(t1,t2,…,td),将t扩展为t=(t1,t2,…,td,1);服务器的训练数据集中每个样本xi用d维向量表示xi=(xi1,xi2,…,xid),将每个样本向量扩展成 服务器和用户利用安全点积协议来计算出未分类样本数据t与服务器的训练数据集D中的每个样本之间的距离dist(xi,t)=si+ci(i=1,…,m),其中si只有服务器知道,ci只有用户知道。
3.根据权利要求2所述的一种基于ML-kNN的保护隐私的多标记分类方法,其特征在于,步骤3的具体步骤为:
用户利用Paillier同态加密系统生成密钥对(sk,pk),选取随机整数A,用户加密ci得到Epk(Aci)(i∈{1,…,m})并发送给服务器,服务器选取随机整数R,加密si并与接收到的用户发送的距离密文合并,得到Epk(A(ci+si)+R)(i∈{1,…,m})并发送给用户;用户解密得到A(ci+si)+R=A·dist(xi,t)+R(i∈{1,…,m})并根据解密结果找到未分类样本t在训练数据集D中的kNN。
4.根据权利要求1所述的一种基于ML-kNN的保护隐私的多标记分类方法,其特征在于,步骤4的具体步骤为:用户构造kNN向量,之后和服务器利用安全点积协议计算出在数据集D中,对于样本t,针对每个标记l,跟该标记相关的近邻数量
<mrow>
<mover>
<msub>
<mi>C</mi>
<mi>t</mi>
</msub>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msub>
<mi>a</mi>
<mi>l</mi>
</msub>
<mo>+</mo>
<msub>
<mi>b</mi>
<mi>l</mi>
</msub>
<mo>,</mo>
<mi>l</mi>
<mo>&Element;</mo>
<mi>Y</mi>
</mrow>
其中al的值只有服务器知道,bl的值只有用户知道。
5.根据权利要求4所述的一种基于ML-kNN的保护隐私的多标记分类方法,其特征在于,步骤5的具体步骤为:
步骤5.1:用户选取一个随机整数C,加密bl得到Epk(bl)并将{C,Epk(bl)(l∈Y)}发送给服务器,服务器接收到之后,加密al为Epk(al)服务器,构造向量
<mrow>
<mover>
<msub>
<mi>P</mi>
<mi>t</mi>
</msub>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>E</mi>
<mrow>
<mi>p</mi>
<mi>k</mi>
</mrow>
</msub>
<mo>(</mo>
<mrow>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>a</mi>
<mi>l</mi>
</msub>
<mo>+</mo>
<msub>
<mi>b</mi>
<mi>l</mi>
</msub>
<mo>-</mo>
<mn>0</mn>
</mrow>
<mo>)</mo>
</mrow>
<msub>
<mi>R</mi>
<mn>0</mn>
</msub>
</mrow>
<mo>)</mo>
<mo>,</mo>
<mo>...</mo>
<mo>,</mo>
<msub>
<mi>E</mi>
<mrow>
<mi>p</mi>
<mi>k</mi>
</mrow>
</msub>
<mo>(</mo>
<mrow>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>a</mi>
<mi>l</mi>
</msub>
<mo>+</mo>
<msub>
<mi>b</mi>
<mi>l</mi>
</msub>
<mo>-</mo>
<mi>k</mi>
</mrow>
<mo>)</mo>
</mrow>
<msub>
<mi>R</mi>
<mi>k</mi>
</msub>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>,</mo>
<mi>l</mi>
<mo>&Element;</mo>
<mi>Y</mi>
</mrow>
其中Ri(i∈{0,1,…,k})都是服务器随机选取的随机整数;
步骤5.2:服务器利用随机置换函数π将向量作置换处理,并发送向量给用户;用户接收到之后将向量解密,并生成一个新的向量其中如果则否则
步骤5.3:服务器和用户利用安全点积协议计算如下:
其中表示样本t与标记l不相关的概率,表示样本t与标记l相关的概率,cl0和cl1只有服务器知道,dl0和dl1只有用户知道;
步骤5.4:服务器将自己拥有的cl0和cl1发送给用户,用户计算并比较cl0+dl0和cl1+dl1的大小:如果cl0+dl0>cl1+dl1,则样本t与标记l不相关,否则样本t与标记l相关;
步骤5.5:用户得到了最终样本关于标记l的分类结果,并且这个结果只有用户自己知道。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711325129.XA CN108111294B (zh) | 2017-12-13 | 2017-12-13 | 一种基于ML-kNN的保护隐私的多标记分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711325129.XA CN108111294B (zh) | 2017-12-13 | 2017-12-13 | 一种基于ML-kNN的保护隐私的多标记分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108111294A true CN108111294A (zh) | 2018-06-01 |
CN108111294B CN108111294B (zh) | 2021-05-25 |
Family
ID=62215588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711325129.XA Active CN108111294B (zh) | 2017-12-13 | 2017-12-13 | 一种基于ML-kNN的保护隐私的多标记分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108111294B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108833077A (zh) * | 2018-07-02 | 2018-11-16 | 西安电子科技大学 | 基于同态ou密码的外包分类器加解密方法 |
CN109194666A (zh) * | 2018-09-18 | 2019-01-11 | 东北大学 | 一种基于LBS的安全kNN查询方法 |
CN110011784A (zh) * | 2019-04-04 | 2019-07-12 | 东北大学 | 支持隐私保护的knn分类服务系统及方法 |
CN111126623A (zh) * | 2019-12-17 | 2020-05-08 | 支付宝(杭州)信息技术有限公司 | 一种模型更新方法、装置及设备 |
CN112637233A (zh) * | 2020-12-29 | 2021-04-09 | 深圳大学 | 一种基于多用户数据的安全求均值方法 |
CN114465708A (zh) * | 2022-03-17 | 2022-05-10 | 北京绪方科技有限公司 | 隐私数据处理方法及装置、系统、电子设备、存储介质 |
WO2022116508A1 (zh) * | 2020-12-04 | 2022-06-09 | 成都大象分形智能科技有限公司 | 基于获取并识别噪声全景分布模型的信号分析方法及系统 |
CN115276947A (zh) * | 2022-07-13 | 2022-11-01 | 北京绪方科技有限公司 | 隐私数据处理方法、装置、系统及存储介质 |
CN115587139A (zh) * | 2022-11-03 | 2023-01-10 | 国网江苏省电力有限公司营销服务中心 | 一种基于同态加密的分布式隐私保护分类方法及系统 |
EP4137980A1 (en) * | 2021-08-19 | 2023-02-22 | Medidata Solutions, Inc. | System and method for generating a synthetic dataset from an original dataset |
US11977550B1 (en) | 2023-04-12 | 2024-05-07 | Medidata Solutions, Inc. | System and method for generating a synthetic longitudinal dataset from an original dataset |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080021899A1 (en) * | 2006-07-21 | 2008-01-24 | Shmuel Avidan | Method for classifying private data using secure classifiers |
US20140229160A1 (en) * | 2013-02-12 | 2014-08-14 | Xerox Corporation | Bag-of-repeats representation of documents |
CN106886569A (zh) * | 2017-01-13 | 2017-06-23 | 重庆邮电大学 | 一种基于mpi的ml‑knn多标签中文文本分类方法 |
-
2017
- 2017-12-13 CN CN201711325129.XA patent/CN108111294B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080021899A1 (en) * | 2006-07-21 | 2008-01-24 | Shmuel Avidan | Method for classifying private data using secure classifiers |
US20140229160A1 (en) * | 2013-02-12 | 2014-08-14 | Xerox Corporation | Bag-of-repeats representation of documents |
CN106886569A (zh) * | 2017-01-13 | 2017-06-23 | 重庆邮电大学 | 一种基于mpi的ml‑knn多标签中文文本分类方法 |
Non-Patent Citations (3)
Title |
---|
ARTAKAMIRBEKYAN、VLADIMIRESTIVILL-CASTRO: "Privacy-Preserving k-NN for Small and Large Data Sets", 《IEEE》 * |
徐美香: "基于半监督的多标签图像分类技术研究", 《CNKI中国硕士学位论文全文数据库信息科技辑》 * |
黄宏升: "若干安全多方计算应用协议研究", 《CNKI中国硕士学位论文全文数据库信息科技辑》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108833077A (zh) * | 2018-07-02 | 2018-11-16 | 西安电子科技大学 | 基于同态ou密码的外包分类器加解密方法 |
CN109194666A (zh) * | 2018-09-18 | 2019-01-11 | 东北大学 | 一种基于LBS的安全kNN查询方法 |
CN109194666B (zh) * | 2018-09-18 | 2021-06-01 | 东北大学 | 一种基于LBS的安全kNN查询方法 |
CN110011784A (zh) * | 2019-04-04 | 2019-07-12 | 东北大学 | 支持隐私保护的knn分类服务系统及方法 |
CN110011784B (zh) * | 2019-04-04 | 2021-06-08 | 东北大学 | 支持隐私保护的knn分类服务系统及方法 |
CN111126623A (zh) * | 2019-12-17 | 2020-05-08 | 支付宝(杭州)信息技术有限公司 | 一种模型更新方法、装置及设备 |
CN111126623B (zh) * | 2019-12-17 | 2022-04-19 | 支付宝(杭州)信息技术有限公司 | 一种模型更新方法、装置及设备 |
WO2022116508A1 (zh) * | 2020-12-04 | 2022-06-09 | 成都大象分形智能科技有限公司 | 基于获取并识别噪声全景分布模型的信号分析方法及系统 |
CN112637233A (zh) * | 2020-12-29 | 2021-04-09 | 深圳大学 | 一种基于多用户数据的安全求均值方法 |
CN112637233B (zh) * | 2020-12-29 | 2022-12-13 | 深圳大学 | 一种基于多用户数据的安全求均值方法 |
EP4137980A1 (en) * | 2021-08-19 | 2023-02-22 | Medidata Solutions, Inc. | System and method for generating a synthetic dataset from an original dataset |
US11640446B2 (en) | 2021-08-19 | 2023-05-02 | Medidata Solutions, Inc. | System and method for generating a synthetic dataset from an original dataset |
CN114465708A (zh) * | 2022-03-17 | 2022-05-10 | 北京绪方科技有限公司 | 隐私数据处理方法及装置、系统、电子设备、存储介质 |
CN114465708B (zh) * | 2022-03-17 | 2023-07-21 | 北京绪方科技有限公司 | 隐私数据处理方法及装置、系统、电子设备、存储介质 |
CN115276947A (zh) * | 2022-07-13 | 2022-11-01 | 北京绪方科技有限公司 | 隐私数据处理方法、装置、系统及存储介质 |
CN115276947B (zh) * | 2022-07-13 | 2023-08-22 | 北京绪方科技有限公司 | 隐私数据处理方法、装置、系统及存储介质 |
CN115587139A (zh) * | 2022-11-03 | 2023-01-10 | 国网江苏省电力有限公司营销服务中心 | 一种基于同态加密的分布式隐私保护分类方法及系统 |
CN115587139B (zh) * | 2022-11-03 | 2024-03-22 | 国网江苏省电力有限公司营销服务中心 | 一种基于同态加密的分布式隐私保护分类方法及系统 |
US11977550B1 (en) | 2023-04-12 | 2024-05-07 | Medidata Solutions, Inc. | System and method for generating a synthetic longitudinal dataset from an original dataset |
Also Published As
Publication number | Publication date |
---|---|
CN108111294B (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108111294B (zh) | 一种基于ML-kNN的保护隐私的多标记分类方法 | |
Li et al. | Differentially private Naive Bayes learning over multiple data sources | |
Liu et al. | An efficient privacy-preserving outsourced calculation toolkit with multiple keys | |
US9571268B2 (en) | Method and system for homomorphicly randomizing an input | |
Liu et al. | Toward highly secure yet efficient KNN classification scheme on outsourced cloud data | |
Li et al. | Search me if you can: privacy-preserving location query service | |
CN111083631B (zh) | 一种保护位置隐私和查询隐私的高效查询处理方法 | |
Alani | Applications of machine learning in cryptography: a survey | |
CN106790069B (zh) | 基于向量同态加密的隐私保护k-nn分类方法 | |
JP2016080766A (ja) | 暗号処理方法、暗号処理装置、及び暗号処理プログラム | |
Han et al. | Location privacy-preserving distance computation for spatial crowdsourcing | |
Hu et al. | Messages in a concealed bottle: Achieving query content privacy with accurate location-based services | |
Liao et al. | A secure ECC-based RFID authentication scheme using hybrid protocols | |
Parmar et al. | Concealed data aggregation in wireless sensor networks: A comprehensive survey | |
Mohan et al. | Security analysis and modification of classical encryption scheme | |
Shaul et al. | Secure $ k $-ish Nearest Neighbors Classifier | |
US7424114B2 (en) | Method for enhancing security of public key encryption schemas | |
Chen et al. | NIST post-quantum cryptography standardization | |
Zaibi et al. | On dynamic chaotic S-Box | |
Niu et al. | Achieving secure friend discovery in social strength-aware pmsns | |
Peña et al. | Authenticated encryption based on finite automata cryptosystems | |
He et al. | Achieving secure and accurate friend discovery based on friend-of-friend's recommendations | |
Singh et al. | Probabilistic data encryption using elliptic curve cryptography and Arnold transformation | |
Yang et al. | Cloud-assisted privacy-preserving classification for IOT applications | |
Uniyal et al. | An Improvement in Key Domain Maximization Technique by Entropy Maximization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |