CN108154185A - 一种隐私保护的k-means聚类方法 - Google Patents

一种隐私保护的k-means聚类方法 Download PDF

Info

Publication number
CN108154185A
CN108154185A CN201711446923.XA CN201711446923A CN108154185A CN 108154185 A CN108154185 A CN 108154185A CN 201711446923 A CN201711446923 A CN 201711446923A CN 108154185 A CN108154185 A CN 108154185A
Authority
CN
China
Prior art keywords
string
probability
data library
binary
negative data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711446923.XA
Other languages
English (en)
Other versions
CN108154185B (zh
Inventor
赵冬冬
胡小意
向剑文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201711446923.XA priority Critical patent/CN108154185B/zh
Publication of CN108154185A publication Critical patent/CN108154185A/zh
Application granted granted Critical
Publication of CN108154185B publication Critical patent/CN108154185B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于负数据库的隐私保护k‑means聚类算法,包括:将所需要进行聚类的数据库中X的每一条数据转化为二进制串,并通过K‑hidden算法对每一个二进制串生成相应的负数据库;随机生成k个不同的二进制串作为初始聚类中心;对于每一个负数据库计算负数据库到每个聚类中心的欧氏距离,把负数据库划分给欧氏距离最小的聚类中心;对于每一个聚类,重新计算聚类中心;重复迭代直到聚类中心不再发生变化。本发明能够提高已有的基于负数据库的k‑means算法聚类精度,并且所提出的欧氏距离估算方法也可以被用到其他的数据挖掘算法来保护数据隐私。

Description

一种隐私保护的k-means聚类方法
技术领域
本发明属于隐私保护与安全领域,具体涉及利用负数据库保护k-means算法的数据隐私形成的一种隐私保护的k-means聚类方法。
背景技术
随着计算机技术的飞速发展,大量的数据被产生出来,这也使数据挖掘技术得到迅猛的发展。许多的数据挖掘算法被提出来,例如k-means算法,k-nearest neighbor算法等。这些数据挖掘算法在运行的过程中没有保护数据的安全,这可能会使用户的隐私信息被泄露。随着人们对于隐私信息越来越多的重视,进行隐私保护的数据挖掘变得尤为重要。
负数据库(negativedatabase,NDB)是由人工免疫系统启发而来,与传统的数据库不同,负数据库储存不在传统的数据库中的信息。负数据库的具体定义如下:U是一个包含所有l位二进制字符串的全集,DB是一个包含一部分l位二进制字符串的集合,U-DB是DB的补集,一般来说,U-DB所需要的存储空间会远大于DB,所以通过引入通配符“*”来压缩U-DB来得到负数据库(NDB)使NDB所需要的存储空间与DB所需要的存储空间大致相同。一个NDB中的每条记录包含3种元素,“0”,“1”和“*”,其中“*”代表这一位的信息可以为“0”或者为“1”。例如,假设一个数据库(DB)中包含两个3位的二进制字符串000,111,这是,DB的补集U-DB为{100,110,101,010,011,001},通过“*”对U-DB进行压缩我们可以得到NDB:{0*1,*10,10*}。
由于负数据库与SAT公式是等价的,逆转负数据库得到相应的正数据库与求解SAT公式也是等价的,并且求解SAT公式被证明是NP难问题,所以逆转负数据库得到相对应的正数据库也是NP难问题。所以,难以逆转的NDB可以用来保护隐私数据。现有的很多算法都可以生成难以逆转的负数据库,例如1-hidden算法,2-hidden算法,q-hidden算法,p-hidden算法和K-hidden算法。其中,K-hidden算法采用K-1个参数细粒度地控制K种不同类型的记录分布。这使得K-hidden负数据库的安全性(相对于局部搜索策略)可被细粒度的控制。而且,K-hidden负数据库可比p-hidden负数据库和负数据库和q-hidden负数据库更加难解。由K-hidden算法产生的负数据库称为K-NDB,在K-NDB中,每一个字符串有K个确定位,第i种类型的字符串有i位与隐藏串不同。概率参数{p1…pK}控制不同类型的字符串的分布。
与传统的DB一样,负数据库支持一些基本的数据库操作,比如求解交集,删除操作,选择操作,更新操作等。基于这些属性,现有的负数据库在应用方面的研究内容主要包括信息隐藏,负调查,密码负认证等。NDB还支持距离度量,但是把NDB应用于隐私保护的数据挖掘的工作很少。已有的工作已经证明了负数据库可以被用于聚类和分类来保护原始数据的隐私,但是现有的隐私保护聚类算法是基于汉明距离的,对大多数数据库都不适用,并且现有的许多聚类算法都是基于欧氏距离的,因此,提出一个在负数据库上基于欧氏距离的隐私保护聚类算法是很有必要的。
发明内容:
为了解决上述背景技术中提到的问题,本发明提出了一种基于负数据库的隐私保护k-means聚类算法。
为了解决上述技术问题本发明的所采用的技术方案为:
一种隐私保护的k-means聚类方法,其特征在于,包括:
步骤1:将所需要进行聚类的数据库中X的每一条数据xi(xi∈X)转化为长度为m的二进制串,并对每一个二进制串生成相应的负数据库,记为
步骤2:使用random函数随机生成k个长度为m的不同的二进制串作为初始聚类中心;
步骤3:对于每一个负数据库分别计算到每个聚类中心的欧氏距离,把划分给距离其欧氏距离最近的聚类中心,具体包括:
在K-NDB中,每个字符串有K个确定位,i类型的字符串有i(i∈{1...K})位与原始串s不同,pi是生成i类型的字符串的概率,NDBs中有m×r条二进制串,所有确定位的个数为K×m×r,其中与原字符串不同的确定位的个数为所以,对于一个二进制串s和它所对应的负数据库NDBs,NDB中的每一个二进制串与s在每一个确定位上不同的概率为:
定义三个事件:事件A:原字符串s的第i位为‘0’;事件B:原字符串s的第i位为‘1’;事件C:在NDBs中,第i位上有a个‘0’和b个‘1’;根据贝叶斯公式,、得出原字符串在第i位为‘0’的概率(q0),即P(A|C)为:
其中,原字符串s第i位为‘0’和为‘1’的概率相等,即P(A)=P(B)=1/2,并且得到NDB中每一个二进制串与s在某一位不同的概率Pdiff,和每一个二进制串与s在某一位上相同的概率Psame=1-Pdiff,所以可以求出原字符串在第i位为‘0’的概率q0为:
根据上式原字符串s上每一位为1的概率,和s取值的概率,对于两个二进制串s和t,定义s是一个隐藏串,t是一个实时串,计算负数据库NDBs到二进制串t的公式为:
其中,Qi代表s取值为i的概率;
对于每一个根据上述欧氏距离估算公式计算到每一个聚类中心的距离,将其划分给距其最近的聚类中心;
步骤4:对经过步骤3划分结束得到的每一个聚类,重新计算每一个聚类的聚类中心,具体过程是:
计算每一个聚类中每一位上0和1的数目,如果0的个数大于1的个数,则将聚类中心在该位上置为0;如果0的个数小于1的个数,则将聚类中心在该位上置为1,如果0的个数与1的个数相等,则该位上的值保持不变;
步骤5:重复步骤3和步骤4,直到聚类中心不再发生变化。
在上述一种隐私保护的k-means聚类的方法,所述步骤1中对每一个二进制字符串生成负数据库的方法采用K-hidden算法。
因此,本发明具有如下优点:1.本发明所提出的负数据库上的隐私保护k-means聚类算法是基于欧氏距离的,相对于基于汉明距离的隐私保护聚类算法适用范围更广;2.本发明所提出的基于负数据库的隐私保护k-means聚类算法与已有的负数据库上的隐私保护k-means聚类算法相比,可以具有更好的聚类精度。
附图说明
图1为本发明实施例的系统结构示意图。
图2为本发明实施例的方法流程图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述,本实施例的一种基于负数据库的隐私保护k-means聚类的方法包括:
步骤1,将所需要进行聚类的数据库中X的每一条数据转化为二进制串,这里以聚类常用的数据集iris数据集为例,iris数据集中有150个实例,每一个实例包含4个属性,均为浮点数。这里要将浮点数乘以10转化为十进制数,再将十进制数转化为二进制数,由于每一个二进制串的长度要相同,所以将其余位补为0。例如,某一个属性的值为3.5,转化为二进制数是10011,如果这一个属性的最大值的位数是六位,则在前面补0凑齐六位,即转化后的二进制数为010011。
转化完后的每一个实例变成了一个25位的二进制串,每一个属性分别占有7,6,7,5位,通过K-hidden算法对每一个二进制串生成相应的负数据库,记为
步骤2,随机生成k个不同的二进制串作为初始聚类中心。
步骤3:对于每一个负数据库计算负数据库到每个聚类中心的欧氏距离,把负数据库划分给欧氏距离最小的聚类中心。
具体的实施步骤如下:(1)统计数据库上每一位上0和1的个数;(2)计算s第i位上为0和为1的概率qi0,qi1(i∈(1,m));(3)计算s每一种取值的概率,代入隐藏串与实时串之间的欧氏距离公式得到s与t之间的估计欧氏距离。
由于iris数据集中每个实例具有4个属性,所以计算隐藏串和实时串之间的欧氏距离公式为:
其中,m1,m2,m3,m4代表每个属性的字符串长度,所以有m1=7,m2=6,m3=7,m4=5,i代表各个属性可能的取值,对于一个m位的二进制字符串,一共有种可能的取值,分别为Qji是s的第j个属性取值为i的概率,由于我们可以计算出原字符串s每一位上取值为0和为1的概率,所以可以得到s各个取值的概率。例如,s是一个2位的二进制串,则s有四种可能的取值,分别为00,01,10,11,假设求得s第一位为0和为1的概率分别为q10,q11,第二位为0和为1的概率分别为q20,q21,所以s取值为00的概率为Q0=q10×q20,取值为01的概率为Q1=q10×q21,取值为10的概率为Q2=q11×q20,取值为11的概率为Q3=q11×q21。ti为实时串t第i个属性的取值。
步骤4:对于每一个聚类,重新计算聚类中心。计算每一个聚类中每一位上0和1的数目,如果0的个数大于1的个数,则将聚类中心在该位上置为0;如果0的个数小于1的个数,则将聚类中心在该位上置为1,如果0的个数与1的个数相等,则该位上的值保持不变。
步骤5:重复步骤3和步骤4,直到聚类中心不再发生变化。
假设ai(i=1,2,3),ai指原字符串的类别编号与聚类后的类别编号均为i的字符串的个数,所以,这里所采用的计算聚类精度的公式为:
其中n是所有实例的个数,即150。
实验证明,我们提出的隐私保护k-means聚类方法比已有的基于负数据库的隐私保护聚类方法在相同条件下具有更高的聚类精度,并且在特定参数下的聚类精度可以接近传统的k-means算法。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (2)

1.一种隐私保护的k-means聚类方法,其特征在于,包括:
步骤1:将所需要进行聚类的数据库中X的每一条数据xi(xi∈X)转化为长度为m的二进制串,并对每一个二进制串生成相应的负数据库,记为
步骤2:使用random函数随机生成k个长度为m的不同的二进制串作为初始聚类中心;
步骤3:对于每一个负数据库分别计算到每个聚类中心的欧氏距离,把划分给距离其欧氏距离最近的聚类中心,具体包括:
在K-NDB中,每个字符串有K个确定位,i类型的字符串有i(i∈{1...K})位与原始串s不同,pi是生成i类型的字符串的概率,NDBs中有m×r条二进制串,所有确定位的个数为K×m×r,其中与原字符串不同的确定位的个数为所以,对于一个二进制串s和它所对应的负数据库NDBs,NDB中的每一个二进制串与s在每一个确定位上不同的概率为:
定义三个事件:事件A:原字符串s的第i位为‘0’;事件B:原字符串s的第i位为‘1’;事件C:在NDBs中,第i位上有a个‘0’和b个‘1’;根据贝叶斯公式,、得出原字符串在第i位为‘0’的概率(q0),即P(A|C)为:
其中,原字符串s第i位为‘0’和为‘1’的概率相等,即P(A)=P(B)=1/2,并且得到NDB中每一个二进制串与s在某一位不同的概率Pdiff,和每一个二进制串与s在某一位上相同的概率Psame=1-Pdiff,所以可以求出 原字符串在第i位为‘0’的概率q0为:
根据上式原字符串s上每一位为1的概率,和s取值的概率,对于两个二进制串s和t,定义s是一个隐藏串,t是一个实时串,计算负数据库NDBs到二进制串t的公式为:
其中,Qi代表s取值为i的概率;
对于每一个根据上述欧氏距离估算公式计算到每一个聚类中心的距离,将其划分给距其最近的聚类中心;
步骤4:对经过步骤3划分结束得到的每一个聚类,重新计算每一个聚类的聚类中心,具体过程是:
计算每一个聚类中每一位上0和1的数目,如果0的个数大于1的个数,则将聚类中心在该位上置为0;如果0的个数小于1的个数,则将聚类中心在该位上置为1,如果0的个数与1的个数相等,则该位上的值保持不变;
步骤5:重复步骤3和步骤4,直到聚类中心不再发生变化。
2.根据权利要求1所述一种隐私保护的k-means聚类的方法,其特征在于:所述步骤1中对每一个二进制字符串生成负数据库的方法采用K-hidden算法。
CN201711446923.XA 2017-12-27 2017-12-27 一种隐私保护的k-means聚类方法 Active CN108154185B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711446923.XA CN108154185B (zh) 2017-12-27 2017-12-27 一种隐私保护的k-means聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711446923.XA CN108154185B (zh) 2017-12-27 2017-12-27 一种隐私保护的k-means聚类方法

Publications (2)

Publication Number Publication Date
CN108154185A true CN108154185A (zh) 2018-06-12
CN108154185B CN108154185B (zh) 2021-12-17

Family

ID=62462448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711446923.XA Active CN108154185B (zh) 2017-12-27 2017-12-27 一种隐私保护的k-means聚类方法

Country Status (1)

Country Link
CN (1) CN108154185B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163292A (zh) * 2019-05-28 2019-08-23 电子科技大学 基于向量同态加密的隐私保护k-means聚类方法
CN111274571A (zh) * 2020-01-19 2020-06-12 武汉理工大学 局部排序和负数据库相结合的虹膜模板保护方法及系统
CN111326214A (zh) * 2020-01-20 2020-06-23 武汉理工大学 基于负数据库的基因数据上安全的相似患者查询方法及系统
CN112487481A (zh) * 2020-12-09 2021-03-12 重庆邮电大学 一种具有隐私保护的可验证多方k-means联邦学习方法
US20210377098A1 (en) * 2020-05-29 2021-12-02 Accedian Networks Inc. Network performance metrics anomaly detection

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070217676A1 (en) * 2006-03-15 2007-09-20 Kristen Grauman Pyramid match kernel and related techniques
CN105022835A (zh) * 2015-08-14 2015-11-04 武汉大学 一种群智感知大数据公共安全识别方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070217676A1 (en) * 2006-03-15 2007-09-20 Kristen Grauman Pyramid match kernel and related techniques
CN105022835A (zh) * 2015-08-14 2015-11-04 武汉大学 一种群智感知大数据公共安全识别方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163292A (zh) * 2019-05-28 2019-08-23 电子科技大学 基于向量同态加密的隐私保护k-means聚类方法
CN111274571A (zh) * 2020-01-19 2020-06-12 武汉理工大学 局部排序和负数据库相结合的虹膜模板保护方法及系统
CN111274571B (zh) * 2020-01-19 2023-04-18 武汉理工大学 局部排序和负数据库相结合的虹膜模板保护方法及系统
CN111326214A (zh) * 2020-01-20 2020-06-23 武汉理工大学 基于负数据库的基因数据上安全的相似患者查询方法及系统
CN111326214B (zh) * 2020-01-20 2022-07-08 武汉理工大学 基于负数据库的相似患者查询方法及系统
US20210377098A1 (en) * 2020-05-29 2021-12-02 Accedian Networks Inc. Network performance metrics anomaly detection
US11539573B2 (en) * 2020-05-29 2022-12-27 Accedian Networks Inc. Network performance metrics anomaly detection
CN112487481A (zh) * 2020-12-09 2021-03-12 重庆邮电大学 一种具有隐私保护的可验证多方k-means联邦学习方法
CN112487481B (zh) * 2020-12-09 2022-06-10 重庆邮电大学 一种具有隐私保护的可验证多方k-means联邦学习方法

Also Published As

Publication number Publication date
CN108154185B (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN108154185A (zh) 一种隐私保护的k-means聚类方法
CN106021541B (zh) 区分准标识符属性的二次k‑匿名隐私保护算法
Wang et al. Searchable encryption over feature-rich data
US11709948B1 (en) Systems and methods for generation of secure indexes for cryptographically-secure queries
Zhou et al. Preserving privacy in social networks against neighborhood attacks
AU2018253478B2 (en) Testing insecure computing environments using random data sets generated from characterizations of real data sets
CN102460404B (zh) 生成混淆数据
US7167858B2 (en) Identification mapping and translation method
US20100030795A1 (en) Maintaining referential integrity while masking
CN104317823B (zh) 一种利用数据指纹进行数据检测的方法
CN111552849B (zh) 可搜索加密方法、系统、存储介质、车载网、智能电网
Vatsalan et al. Efficient two-party private blocking based on sorted nearest neighborhood clustering
CN110378148B (zh) 一种面向云平台的多域数据隐私保护方法
Zhang et al. Scalable local-recoding anonymization using locality sensitive hashing for big data privacy preservation
Indyk On approximate nearest neighbors under l∞ norm
Chen et al. Perfectly secure and efficient two-party electronic-health-record linkage
Vatsalan et al. Sorted nearest neighborhood clustering for efficient private blocking
Wen et al. Efficient protocols for private record linkage
Wang et al. Utility-oriented k-anonymization on social networks
US11620580B2 (en) Methods and systems for probabilistic filtering of candidate intervention representations
Lee et al. Mining closed patterns in multi-sequence time-series databases
Hu et al. Towards a privacy protection-capable noise fingerprinting for numerically aggregated data
Yao et al. Efficient and privacy-preserving search in multi-source personal health record clouds
Goldberg et al. A probabilistically integrated system for crowd-assisted text labeling and extraction
Bonomi et al. LinkIT: privacy preserving record linkage and integration via transformations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant