CN108154185A

CN108154185A - 一种隐私保护的k-means聚类方法

Info

Publication number: CN108154185A
Application number: CN201711446923.XA
Authority: CN
Inventors: 赵冬冬; 胡小意; 向剑文
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2018-06-12
Anticipated expiration: 2037-12-27
Also published as: CN108154185B

Abstract

本发明涉及一种基于负数据库的隐私保护k‑means聚类算法，包括：将所需要进行聚类的数据库中X的每一条数据转化为二进制串，并通过K‑hidden算法对每一个二进制串生成相应的负数据库；随机生成k个不同的二进制串作为初始聚类中心；对于每一个负数据库计算负数据库到每个聚类中心的欧氏距离，把负数据库划分给欧氏距离最小的聚类中心；对于每一个聚类，重新计算聚类中心；重复迭代直到聚类中心不再发生变化。本发明能够提高已有的基于负数据库的k‑means算法聚类精度，并且所提出的欧氏距离估算方法也可以被用到其他的数据挖掘算法来保护数据隐私。

Description

一种隐私保护的k-means聚类方法

技术领域

本发明属于隐私保护与安全领域，具体涉及利用负数据库保护k-means算法的数据隐私形成的一种隐私保护的k-means聚类方法。

背景技术

随着计算机技术的飞速发展，大量的数据被产生出来，这也使数据挖掘技术得到迅猛的发展。许多的数据挖掘算法被提出来，例如k-means算法，k-nearest neighbor算法等。这些数据挖掘算法在运行的过程中没有保护数据的安全，这可能会使用户的隐私信息被泄露。随着人们对于隐私信息越来越多的重视，进行隐私保护的数据挖掘变得尤为重要。

负数据库(negativedatabase,NDB)是由人工免疫系统启发而来，与传统的数据库不同，负数据库储存不在传统的数据库中的信息。负数据库的具体定义如下：U是一个包含所有l位二进制字符串的全集，DB是一个包含一部分l位二进制字符串的集合，U-DB是DB的补集，一般来说，U-DB所需要的存储空间会远大于DB，所以通过引入通配符“*”来压缩U-DB来得到负数据库(NDB)使NDB所需要的存储空间与DB所需要的存储空间大致相同。一个NDB中的每条记录包含3种元素，“0”，“1”和“*”，其中“*”代表这一位的信息可以为“0”或者为“1”。例如，假设一个数据库(DB)中包含两个3位的二进制字符串000,111，这是，DB的补集U-DB为{100,110,101,010,011,001}，通过“*”对U-DB进行压缩我们可以得到NDB：{0*1,*10,10*}。

由于负数据库与SAT公式是等价的，逆转负数据库得到相应的正数据库与求解SAT公式也是等价的，并且求解SAT公式被证明是NP难问题，所以逆转负数据库得到相对应的正数据库也是NP难问题。所以，难以逆转的NDB可以用来保护隐私数据。现有的很多算法都可以生成难以逆转的负数据库，例如1-hidden算法，2-hidden算法，q-hidden算法，p-hidden算法和K-hidden算法。其中，K-hidden算法采用K-1个参数细粒度地控制K种不同类型的记录分布。这使得K-hidden负数据库的安全性(相对于局部搜索策略)可被细粒度的控制。而且，K-hidden负数据库可比p-hidden负数据库和负数据库和q-hidden负数据库更加难解。由K-hidden算法产生的负数据库称为K-NDB，在K-NDB中，每一个字符串有K个确定位，第i种类型的字符串有i位与隐藏串不同。概率参数{p₁…p_K}控制不同类型的字符串的分布。

与传统的DB一样，负数据库支持一些基本的数据库操作，比如求解交集，删除操作，选择操作，更新操作等。基于这些属性，现有的负数据库在应用方面的研究内容主要包括信息隐藏，负调查，密码负认证等。NDB还支持距离度量，但是把NDB应用于隐私保护的数据挖掘的工作很少。已有的工作已经证明了负数据库可以被用于聚类和分类来保护原始数据的隐私，但是现有的隐私保护聚类算法是基于汉明距离的，对大多数数据库都不适用，并且现有的许多聚类算法都是基于欧氏距离的，因此，提出一个在负数据库上基于欧氏距离的隐私保护聚类算法是很有必要的。

发明内容：

为了解决上述背景技术中提到的问题，本发明提出了一种基于负数据库的隐私保护k-means聚类算法。

为了解决上述技术问题本发明的所采用的技术方案为：

一种隐私保护的k-means聚类方法，其特征在于，包括：

步骤1：将所需要进行聚类的数据库中X的每一条数据x_i(x_i∈X)转化为长度为m的二进制串，并对每一个二进制串生成相应的负数据库，记为

步骤2：使用random函数随机生成k个长度为m的不同的二进制串作为初始聚类中心；

步骤3：对于每一个负数据库分别计算到每个聚类中心的欧氏距离，把划分给距离其欧氏距离最近的聚类中心，具体包括：

在K-NDB中，每个字符串有K个确定位，i类型的字符串有i(i∈{1...K})位与原始串s不同，p_i是生成i类型的字符串的概率，NDBs中有m×r条二进制串，所有确定位的个数为K×m×r，其中与原字符串不同的确定位的个数为所以，对于一个二进制串s和它所对应的负数据库NDBs，NDB中的每一个二进制串与s在每一个确定位上不同的概率为：

定义三个事件：事件A：原字符串s的第i位为‘0’；事件B：原字符串s的第i位为‘1’；事件C：在NDB_s中，第i位上有a个‘0’和b个‘1’；根据贝叶斯公式，、得出原字符串在第i位为‘0’的概率(q₀)，即P(A|C)为：

其中，原字符串s第i位为‘0’和为‘1’的概率相等，即P(A)＝P(B)＝1/2，并且得到NDB中每一个二进制串与s在某一位不同的概率P_diff，和每一个二进制串与s在某一位上相同的概率P_same＝1-P_diff，所以可以求出原字符串在第i位为‘0’的概率q₀为：

根据上式原字符串s上每一位为1的概率，和s取值的概率，对于两个二进制串s和t，定义s是一个隐藏串，t是一个实时串，计算负数据库NDB_s到二进制串t的公式为：

其中，Q_i代表s取值为i的概率；

对于每一个根据上述欧氏距离估算公式计算到每一个聚类中心的距离，将其划分给距其最近的聚类中心；

步骤4：对经过步骤3划分结束得到的每一个聚类，重新计算每一个聚类的聚类中心，具体过程是：

计算每一个聚类中每一位上0和1的数目，如果0的个数大于1的个数，则将聚类中心在该位上置为0；如果0的个数小于1的个数，则将聚类中心在该位上置为1，如果0的个数与1的个数相等，则该位上的值保持不变；

步骤5：重复步骤3和步骤4，直到聚类中心不再发生变化。

在上述一种隐私保护的k-means聚类的方法，所述步骤1中对每一个二进制字符串生成负数据库的方法采用K-hidden算法。

因此，本发明具有如下优点：1.本发明所提出的负数据库上的隐私保护k-means聚类算法是基于欧氏距离的，相对于基于汉明距离的隐私保护聚类算法适用范围更广；2.本发明所提出的基于负数据库的隐私保护k-means聚类算法与已有的负数据库上的隐私保护k-means聚类算法相比，可以具有更好的聚类精度。

附图说明

图1为本发明实施例的系统结构示意图。

图2为本发明实施例的方法流程图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述，本实施例的一种基于负数据库的隐私保护k-means聚类的方法包括：

步骤1，将所需要进行聚类的数据库中X的每一条数据转化为二进制串，这里以聚类常用的数据集iris数据集为例，iris数据集中有150个实例，每一个实例包含4个属性，均为浮点数。这里要将浮点数乘以10转化为十进制数，再将十进制数转化为二进制数，由于每一个二进制串的长度要相同，所以将其余位补为0。例如，某一个属性的值为3.5，转化为二进制数是10011，如果这一个属性的最大值的位数是六位，则在前面补0凑齐六位，即转化后的二进制数为010011。

转化完后的每一个实例变成了一个25位的二进制串，每一个属性分别占有7,6,7,5位，通过K-hidden算法对每一个二进制串生成相应的负数据库，记为

步骤2，随机生成k个不同的二进制串作为初始聚类中心。

步骤3：对于每一个负数据库计算负数据库到每个聚类中心的欧氏距离，把负数据库划分给欧氏距离最小的聚类中心。

具体的实施步骤如下：(1)统计数据库上每一位上0和1的个数；(2)计算s第i位上为0和为1的概率q_i0,q_i1(i∈(1，m))；(3)计算s每一种取值的概率，代入隐藏串与实时串之间的欧氏距离公式得到s与t之间的估计欧氏距离。

由于iris数据集中每个实例具有4个属性，所以计算隐藏串和实时串之间的欧氏距离公式为：

其中，m₁,m₂,m₃,m₄代表每个属性的字符串长度，所以有m₁＝7,m₂＝6,m₃＝7,m₄＝5，i代表各个属性可能的取值，对于一个m位的二进制字符串，一共有种可能的取值，分别为Q_ji是s的第j个属性取值为i的概率，由于我们可以计算出原字符串s每一位上取值为0和为1的概率，所以可以得到s各个取值的概率。例如，s是一个2位的二进制串，则s有四种可能的取值，分别为00,01,10,11，假设求得s第一位为0和为1的概率分别为q₁₀,q₁₁,第二位为0和为1的概率分别为q₂₀,q₂₁，所以s取值为00的概率为Q₀＝q₁₀×q₂₀,取值为01的概率为Q₁＝q₁₀×q₂₁，取值为10的概率为Q₂＝q₁₁×q₂₀，取值为11的概率为Q₃＝q₁₁×q₂₁。t_i为实时串t第i个属性的取值。

步骤4：对于每一个聚类，重新计算聚类中心。计算每一个聚类中每一位上0和1的数目，如果0的个数大于1的个数，则将聚类中心在该位上置为0；如果0的个数小于1的个数，则将聚类中心在该位上置为1，如果0的个数与1的个数相等，则该位上的值保持不变。

步骤5：重复步骤3和步骤4，直到聚类中心不再发生变化。

假设a_i(i＝1，2，3),a_i指原字符串的类别编号与聚类后的类别编号均为i的字符串的个数，所以，这里所采用的计算聚类精度的公式为：

其中n是所有实例的个数，即150。

实验证明，我们提出的隐私保护k-means聚类方法比已有的基于负数据库的隐私保护聚类方法在相同条件下具有更高的聚类精度，并且在特定参数下的聚类精度可以接近传统的k-means算法。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种隐私保护的k-means聚类方法，其特征在于，包括：

其中，Q_i代表s取值为i的概率；

步骤5：重复步骤3和步骤4，直到聚类中心不再发生变化。

2.根据权利要求1所述一种隐私保护的k-means聚类的方法，其特征在于：所述步骤1中对每一个二进制字符串生成负数据库的方法采用K-hidden算法。