CN110334548B

CN110334548B - 一种基于差分隐私的数据异常检测方法

Info

Publication number: CN110334548B
Application number: CN201910640430.2A
Authority: CN
Inventors: 首照宇; 严叶; 吴峥峥; 文乙茹; 赵辉; 张彤; 莫建文; 文辉
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2023-04-07
Anticipated expiration: 2039-07-16
Also published as: CN110334548A

Abstract

本发明公开了一种基于差分隐私的数据异常检测方法，采取先进行聚类再进行异常检测的方法，在prim算法生成的最小生成树中，用差分隐私中的噪声机制对最小生成树中边的权重添加随机噪声，隐藏数据对象间的关联性。同时，该方法使用融合相异度和逆相似数的判决准则检测异常，解决传统的top‑n方法需要预设参数，选取异常数据的不准确性这一缺陷。本发明方法具有更高的鲁棒性和更强的适应性，通过仿真数据集和真实数据集的实验分析表明提出的方法在数据分布不均匀的环境下能有效保证隐私数据的安全性，并提高异常检测的查全率，降低误判率。

Description

一种基于差分隐私的数据异常检测方法

技术领域

本发明涉及数据隐私保护和数据异常检测，尤其涉及一种基于差分隐私保护的数据异常检测方法。

背景技术

在互联网高速发展的背景下，数据的共享成为了当今数据挖掘领域不可避免的一个环节，共享中个人隐私数据的泄露引发了人们的担忧。近年来，个人隐私信息的泄露问题层出不穷，2016年曝出Uber的员工们利用用户信息的管理通道窥探历史记录，跟踪名人们及他们前任们的行踪。2018年8月，华住旗下酒店的1.3亿用户的个人身份信息及隐私开房记录等客户数据被泄露。同日，快递行业巨头顺丰也被曝出有超过3亿条数据疑似流出。2018年9月，Facebook宣布，由于安全系统的漏洞导致该公司网站收到黑客攻击，可能导致近5000万用户信息的泄露。由上述这些事件知晓对个人隐私的保护不仅仅只局限于隐藏数据记录中的敏感属性(如姓名，年龄，地址等)，还需阻止攻击者将特定的属性与个人联系起来，找出他们之间的关联性，从而推测出个人的敏感信息。传统的数据库保护方法例如身份认证，权限控制等只能防止访问者直接获取个人的敏感信息，但是无法预防间接推理获得的个人敏感信息。并且对数据敏感信息的直接处理容易降低数据的可用性，使得隐藏后的数据无法保持原有的一些统计特性。由此可以看出对数据进行保护的同时保留数据的可用性是一个值得深入研究的问题。

现有的隐私保护技术主要分为基于数据失真和基于数据加密的两类，随着对隐私保护技术的深入研究，主流技术有数据扰动、差分隐私、K-匿名，安全多方计算等。

基于数据扰动技术的隐私保护方法，主要是通过几何变换对数据进行隐藏，Chamikara等人提出了一种高效、可伸缩的不可逆扰动算法PABIDOT，通过最优几何变换技术来保护大数据的隐私。基于数据匿名化技术的隐私保护方法，是使用数据泛化和数据压缩来隐藏数据中与背景知识相关的敏感属性,相继提出了一系列k-anonymity的扩展模型如l-diversity、t-closeness、M-invariance等，随后Wong等人提出了m-confidentiality模型以抵制“最小性”攻击。但是数据匿名化技术会因新型攻击模型的出现而需要不断更新完善。基于差分隐私技术的隐私保护方法是不可逆的，通过对查询函数添加随机噪声保护数据隐私。Piao等人提出了一种基于模糊计算的差分隐私保护方法，开发了一种利用MaxDiff直方图进行数据发布的算法，实现了基于fog计算的用户隐私保护功能。基于安全多方计算技术的隐私保护方法是利用密码协议将明文转换成密文，指定输出和辅助信息，保证多个参与方数据传输过程中的安全性。Shai Halevi通过设计一个四轮主动安全多方(两个或更多方)协议来解决依赖于黑盒证明的MPC协议在纯模型中安全性的整数复杂度问题，并带有一个安全的黑盒证明。

针对不同的应用场景和不同的保护目的，使用到的隐私保护方法也千差万别。一般而言，不同的攻击模型对应不一样的隐私保护方法。在数据挖掘领域中，根据攻击者的攻击模式的区别，隐私保护技术主要是用于抵御合谋攻击的安全多方计算和用于抵御背景知识攻击的差分隐私保护。

安全多方计算主要是适用于交互式环境下的多个参与方的数据隐私保护，在多参与方的数据进行交互时，保证任何一方都得不到其他参与方的私有信息属性。在分布式系统中，Shou等人提出了一种基于r域连通的隐私保护异常检测算法，在保护各参与方隐私数据前提下，进行异常检测并提高检测效率。

差分隐私保护是近年来十分热门的一个研究方向，它与其他的隐私保护方法最大的不同在于，它定义了一个极为严格的攻击模型，可以对隐私保护程度进行量化。差分隐私技术通过加噪的方式对数据进行隐私保护，且加入的噪声量与数据集的大小无关，添加很少量的噪声就能达到很高级别的隐私保护。鉴于差分隐私保护技术的优势，Dwork早在2006年就将差分隐私运用到数据挖掘领域，提出了一种基于差分隐私的k-means方法。Yu等人利用r-最近邻域中数据点密度消除异常数据和选取初始聚类中心改进了Dwork的方法，提高了聚类的有效性。王红等针对DP-DBSCAN中参数敏感的问题，提出了采用同方差和异方差两种噪声添加方式的基于OPTICS聚类的差分隐私保护方法。Asif等人利用差分隐私和安全多方计算技术提出了一种用属性值频率判断异常数据，可以在水平和垂直分布条件下用隐私保护方法对数据进行分类的方法，提供了一种端到端的隐私保护模型。

当前，数据挖掘中的差分隐私保护技术主要用在聚类，而异常检测作为数据挖掘领域里一个重要的研究方向，也同样面临着隐私泄露的风险。

发明内容

针对数据异常检测过程中容易遭受来自背景知识的攻击，造成隐私信息泄露的问题，本发明提供了一种基于差分隐私的数据异常检测方法。在prim算法生成的最小生成树中，用差分隐私中的噪声机制对最小生成树中边的权重添加随机噪声，隐藏数据对象间的关联性。同时，该方法使用融合相异度和逆相似数的判决准则检测异常，解决top-n问题，具有更高的鲁棒性和更强的适应性。通过仿真数据集和真实数据集的实验分析表明提出的方法在数据分布不均匀的环境下能有效保证隐私数据的安全性，并提高异常检测的查全率，降低误判率。

实现本发明目的的技术方案是：

一种基于差分隐私的数据异常检测方法，包括如下步骤：

S1对数据进行处理：对数据采集终端得到的数据集D进行处理，去掉数据的类别标签属性和其中一些存在缺省值属性的数据对象；

S2初始化参数k、ε：设定初始化参数，其中k表示数据对象的k个最近相似邻居，ε为差分隐私中噪声机制的参数，用于衡量差分隐私的隐私保护度；

S3获取距离矩阵：假设X_i，X_j是d维数据集D中任意两个数据对象，各维属性表示为X_i＝{x_i1,x_i2,...,x_id}，X_j＝{x_j1,x_j2,...,x_jd}，则用欧式距离计算数据对象X_i，X_j两点的距离dis_ij，对包含N个数据对象X的数据集D，计算所有数据对象间的欧式距离得到距离矩阵，计算公式为：

式中，(x_ik-x_jk)表示X_i和X_j在第k维属性上的差距，由公式可知，欧式距离衡量了数据点在各维上的差距，是d维空间中两个点间的真实距离；

S4建立最小生成树(MST)：将距离矩阵中任意两个数据对象X_i，X_j间的距离当做边(X_i,X_j)的权重，使用普里姆(prim)方法建立最小生成树，保证每次迭代选择权值最小的边对应的点添加到树中，且已有的生成树中的权值和最小；

如果两个数据对象形成的边(X_i,X_j)在最小生成树中是存在的，保留距离矩阵中X_i，X_j两点间的距离，否则为0，得到邻接矩阵A，A中不为0的数值表示最小生成树中对应的边权值；

S5添加随机噪声得到加噪后的最小生成树：考虑到数据的可用性，在邻接矩阵A中表示边权重不为零的数值上添加由Laplace机制的逆分布函数产生的Laplace噪声，隐藏数据对象间的相似程度；

S6计算k相似路径：以任意数据对象p为根节点(源点)，根据邻接矩阵A用prim算法建立最小生成树，则数据对象p的k相似路径是从数据对象p到第k个合并到最小生成树中的点p_k形成的最小生成树路径，p的k相似路径表示为Treepath(p,p_k)；

S7计算任意数据对象p的相异度：Treepath(p,p_k)表示最小生成树中p到p_k的路径，max(Treepath(p,p_k))表示路径中所有边权重的最大值，将这个边的权重值作为数据点p的相异度，相异度可用Do(p)表示，相异度计算公式为：

Do(p)＝max_edge(Treepath(p,p_k))

上述公式能刻画数据对象p在其所处的空间环境中的异常情况，如果相异度越大，说明到其他数据对象的距离越大，离正常的数据对象的越远，数据对象所处的区域的数据点越稀疏，越可能是异常数据；

S8计算逆k相似数：如果一个数据对象q的k相似路径中包含p这个数据对象，则数据对象q是p点的一个逆k相似数，数据集D中所有数据对象的k相似路径中包含p点的数据对象的个数即为点p的逆k相似数，表示为k-RSN(P)，利用数据集中各数据对象的逆k相似数来反应数据对象的异常程度，能有效提高异常检测的精度；

S9聚类：结合S8获取的k相似路径进行粗糙聚类，将所有与k相似路径连通的数据对象标记为同一个类，得到m个类c₁,c₂,...c_m，完成对数据集D的聚类；

S10计算各类的候选异常数据点：对S9聚类后得到的任意类c_i中所包含的所有数据对象的逆k相似数进行升序排列，并计算排序后的相邻两个数据对象逆k相似数的差值w_i，计算公式为：

w_i＝(k-RSN(p_i+1))-(k-RSN(p_i))

式中p_i(i＝1,2,...,n)表示按照逆k相似数升序排列后的第i个数据对象；k-RSN(p_i)表示排序后p_i的逆k相似数，k-RSN(p_i+1)表示与p_i相邻的数据对象p_i+1的逆相似数；

最大的差值w_i对应的p_i的k-RSN(P_i)作为判断候选异常数据的阈值，该类中逆k相似数小于等于阈值的数据对象加入候选异常数据集c₀；

S11计算各类的异常数据点：结合S7和S10计算该类中数据对象相异度Do(p)的均值

将候选异常数据集c₀中相异度小于

的数据对象剔除，筛选得到该类的异常数据对象；

S12重复S10和S11，直到计算完全部类，得到全局的异常数据对象。

S2所述的ε是差分隐私的参数，对于最多存在一条不同记录的数据集D₁和D₂，如果随机算法K在数据集D₁和D₂上的任意输出M∈Range(K)满足公式为：

Pr[K(D₁)∈M]≤exp(ε)×Pr[K(D₂)∈M]

则称算法K满足ε-差分隐私，其中Pr[K(D₁)∈M]、Pr[K(D₂)∈M]分别为输出是K(D₁)和K(D₂)的披露风险；

对于任意在数据集D中的查询函数f，查询结果为f(D),随机函数K通过在f(D)上添加适合的随机噪声进行隐私保护,所以ε-差分隐私保护提供给函数K的响应的计算公式为：

Y＝f(D)+lap(b)

式中，Lap(b)表示laplace噪声，它是差分隐私保护中的一种噪声机制，差分隐私是通过对数据添加随机噪声使得数据失真从而对数据进行隐私保护的，添加的噪声主要是通过噪声机制产生；噪声机制分为拉普拉斯(Laplace)机制和指数机制，Laplace机制主要针对数值型的数据，指数机制针对非数值型的机制，本发明中针对的是数值型的数据，所以使用Laplace机制产生随机噪声。

S5所述的逆分布函数是Laplace噪声的累积分布函数F(x)的反函数，Laplace噪声的累积分布函数F(x)的计算公式为：

式中，u是峰值出现的位置参数，一般取0，b是刻画集中程度的尺度参数，

Δf为查询函数f的敏感度，表示为f(D₁)和f(D₂)之间的1-阶范数距离的最大值，因为两数据集只存在一条不同的记录，所以敏感度为1，ε是衡量隐私保护程度的参数，ε越小表示查询函数的结果相差越大，隐私保护程度越高，隐私泄露的风险越低；反之，隐私泄露的风险越高。

是Lap(b)的概率密度，表示随机变量每个取值的可能性，Lap(b)是一个期望值为0，标准差为

的对称指数分布；差分隐私技术中的laplace机制通过逆分布函数产生laplace噪声，对累积分布函数求逆，得到逆分布函数为：

式中，sgn(x)是一个符号函数，使得分布函数左右对称。差分隐私通过这种方式产生噪声向查询结果添加随机化噪声来进行保护，只需要添加很小的噪声就能获得很高的隐私保护度，且添加的噪声与数据集的大小无关。

本发明基于差分隐私保护的数据异常检测方法，分为2个过程，即数据的隐私保护过程和数据的异常检测过程。数据的隐私保护过程是将数据点间的表露出的关联性进行保护，保证异常检测过程不会泄露数据的敏感属性，同时又要保留数据的可用性方便后续进行异常检测；数据的异常检测过程是为了从复杂的数据环境中发现那些不同于绝大部分正常行为的少量数据对象，为用户分析和理解数据提供支撑。

为了提高异常检测的准确率，本发明采取先进行聚类再进行异常检测的方法，基于最小生成树的k相似路径能够很好的刻画出数据点间的关联性，差分隐私的噪声添加方式隐藏数据对象间唯一显现出的关联性，这种添加噪声的方式是隐私保护部分的核心，在数据的安全性和数据的可用性之间达到一个平衡，数据间的关系模糊不可分，对数据的隐私属性进行有效保护，并保留了数据间的某些统计特性，维持数据在异常检测中的可用性；逆k相似数是本发明方法中新引进的用于确定异常数据的一个参数，结合相异度进行双重验证能准确的检测出异常数据点，不仅提高了异常检测的准确率，还弥补了传统的top-n方法需要预设参数，选取异常数据的不准确性这一缺陷，增强了本发明的自适应能力。

本发明方法使用了差分隐私技术，保证数据安全性的同时保持了数据的可用性，相异度和逆k相似数的结合的异常检测模型有效的提高了数据异常检测的准确率和误判率，无需人为干预，具有更好的普遍性。

附图说明

图1为实施例中方法流程示意图；

图2为实施例中拉普拉斯噪声函数的分布示意图；

图3为实施例中k相似路径示意图；

图4为实施例中数据集1未加差分隐私保护前的异常检测检测出的异常点标识示意图；

图5为实施例中数据集1加入差分隐私保护后的异常检测检测出的异常点标识示意图；

图6为实施例中数据集2未加差分隐私保护前的异常检测检测出的异常点标识示意图；

图7为实施例中数据集2加入差分隐私保护后的异常检测检测出的异常点标识示意图；

图8为实施例中随着隐私保护度的改变，异常检测准确率和误检率变化的示意图。

具体实施方式

下面结合附图和实施例对本发明内容作进一步阐述，但不是对本发明的限定。

参照图1，一种基于差分隐私的数据异常检测方法，包括如下步骤：

S1对数据进行处理：对UCI机器学习数据库中的真实数据集作处理，真实的数据已经被打上了类别标签和存在某些属性缺失的情况，去掉了数据的类别标签为了验证本发明的方法能够有效的检测出异常数据，同时，去掉了存在缺失属性的数据对象。

S2初始化参数k、ε：设定初始化参数，其中k表示为数据对象的k个最近相似邻居，ε为差分隐私的隐私保护系数。

S3获取距离矩阵：若X_i，X_j为数据集D中的两个数据对象，数据对象的d维属性可以表示为X_i＝{x_i1,x_i2,...,x_id}，则X_i，X_j两个点间的距离dis_ij可用欧式距离公式计算，则包含N个数据对象X的数据集D，计算两两数据对象间的欧式距离得到距离矩阵；

计算公式为：

式中，(x_ik-x_jk)表示X_i和X_j在第k维属性上的差距，欧式距离衡量了两个向量在每个维度上的差距，度量了m维空间中两个点之间的真实距离。

S4建立最小生成树(MST)：将距离矩阵中任意两个数据对象之间的距离当做边(X_i,X_j)的权重，用普里姆(prim)方法建立最小生成树MST，选择数据集X中的任意一数据对象p作为根节点，在余下的数据对象中寻找另一数据对象q，使得q到最小生成树中存在的任意点的权值最小且与已有的树中离它最近的边进行连接不会形成回路，此时将点q也加入到树中；以此类推，直到数据集中所有的点全部被加入到树中，一共有n个顶点，则最小生成树就有n-1条边，每往树中添加一个点，就意味着找到一条最小生成树的边，若此时树中的n-1条边的权值之和最小，表明对数据集D的最小生成树的构建完成；

如果两个数据对象形成的边(X_i,X_j)在最小生成树中是存在的，保留距离矩阵中X_i，X_j两个数据对象间的距离，否则距离变为0，得到邻接矩阵A，A中不为0的数据值表示最小生成树中对应的边权值，得到邻接矩阵是为了便于噪声的添加以及后续计算k相似路径。

S5添加合适的随机噪声得到加噪后的最小生成树：在对数据进行隐私保护的同时需要保留数据的可用性，便于数据后续的异常检测。差分隐私通过对数据添加随机噪声使得数据失真从而对数据进行保护，但是在异常检测中异常数据对噪声非常敏感，直接对数据的属性添加噪声容易使得数据失真严重，可用性降低，数据对象失去价值。因此，考虑到数据的可用性，在邻接矩阵A中表示边权重不为零的数值上添加Laplace噪声，隐藏数据对象间的相似程度，从而满足差分隐私保护；

差分隐私保护技术假设数据库拥有者根据问题查询得出结果f(D),随机函数通过在f(D)上添加适合的随机噪声进行隐私保护,添加噪声后的Y后返还给攻击者，攻击者根据得到的f(D)+Y无法推断出准确的查询结果；我们对数据添加的噪声，每个Y都是满足拉普拉斯(laplace)分布的随机噪声，因此，对于攻击者来说，无法准确的推断出准确的值。从图2可知，laplace分布中的表示中心峰值出现位置的参数μ没有对攻击者产生影响，而表示laplace分布集中程度的参数b衡量了攻击了难易程度。当b的值越大，拉普拉斯的函数值相越接近均匀分布，数据落在[μ-L,μ+L]的概率随着b的增大而减少，其中L是查询函数的容错区间，落在这个区间上的概率正好反映攻击者的攻击难度。为了能降低噪声对后续异常检测的影响，添加的噪声落在最小生成树中边的最小权重值和平均权值之间。这种加噪方式能有效隐藏数据间的关联性，数据间相似关系不可分，攻击者无法通过数据对象之间的关系推断出数据的准确属性，同时尽可能小的影响异常检测结果；

上述的laplace噪声是是差分隐私保护中的一种噪声机制，添加的噪声主要是通过噪声机制产生；噪声机制分为laplace机制和指数机制，Laplace机制主要针对数值型的数据，指数机制针对非数值型的机制，本发明中针对的是数值型的数据，所以使用Laplace机制产生随机噪声。

S5所述的laplace噪声是由逆分布函数获取，逆分布函数是Laplace噪声的累积分布函数F(x)的反函数，Laplace噪声的累积分布函数F(x)的计算公式为：

式中，u是峰值中心的位置参数，一般取0，b是刻画集中程度的尺度参数，

Δf为查询函数f的敏感度，反映两个数据集记录的最大差异度，表示为f(D₁)和f(D₂)之间的1-阶范数距离的最大值，因为是两个只有一条记录不同的两个数据集，所以敏感度为1。ε是衡量隐私保护程度的参数，ε越小表示查询函数的结果相差越大，隐私保护程度越高，隐私泄露的风险越低；反之，隐私泄露的风险越高。

的对称指数分布；它的逆分布函数为：

式中，sgn(x)是一个符号函数，laplace机制根据需要的隐私保护度，通过逆分布函数产生服从laplace分布的随机噪声。差分隐私通过这种方式产生噪声向查询结果添加随机化噪声来进行保护，使得攻击者获取的个人数据和没有这个用户的记录数据集中获得的结果相差无几，不会显著改变查询结果。S6计算k相似路径：根据邻接矩阵A用prim算法以任意数据对象p为根节点(源点)建立最小生成树，如图3所示，数据点p_k是以p为根节点的最小生成树中的点，它是第k个被添加到生成树中的数据对象，则数据对象p的k相似路径是从数据对象p到第k个合并到最小生成树中的点p_k形成的最小生成树路径。

S7计算任意数据点p的相异度：Treepath(p,p_k)表示MST中p到p_k的路径，将数据对象p的k相似路径的所有边中权重的最大值max(Treepath(p,p_k))作为数据对象p的相异度，用于衡量数据对象间的不相似性。相异度越大，偏离绝大部分数据对象越远，越有可能是异常数据。相异度可用Do(p)表示，相异度计算公式为：

Do(p)＝max_edge(Treepath(p,p_k))

上述公式能刻画数据对象p在其所处的空间环境中的异常情况，如果相异度越大，说明到其他数据对象的距离越大，离正常的数据对象的越远，数据对象所处的区域的数据点越稀疏，越可能是异常数据。

S8计算逆k相似数：如果一个数据对象q的k相似路径中包含有p点，称数据对象q为p点的一个逆k相似数，计算所有数据对象的k相似路径中包含点p的数据对象的个数，称为逆k相似数，表示为k-RSN(p)。考虑到数据集中数据对象的分布情况，利用数据集中各数据对象的逆k相似数来反映数据的异常程度，能有效提高异常检测精度；

S9聚类：结合S8获取的k相似路径对数据集D中的数据对象进行粗糙聚类，将所有与k相似路径连通的数据对象标记为同一个类，得到m个类，完成对数据集D的聚类。

S10计算各类的候选异常数据：对S9聚类后得到的任意类c_i中所包含的所有数据对象的逆k相似数进行升序排列，并计算排序后的相邻两个数据对象逆k相似数的差值w_i，计算公式为：

w_i＝(k-RSN(p_i+1))-(k-RSN(p_i))

式中p_i(i＝1,2,...,n)表示按照逆k相似数升序排列的队列中序号为i的数据对象；k-RSN(p_i)表示排序后数据对象p_i的逆k相似数，k-RSN(p_i+1)表示排序后与p_i相邻的数据对象p_i+1的逆k相似数。

最大的差值w_i对应的p_i的k-RSN(P_i)作为判断候选异常数据的阈值，该类中逆k相似数不大于阈值的数据对象加入候选异常数据集c₀。

S11计算各类的异常数据：结合S7和S10计算该类中包含的全部数据对象相异度Do(p)的均值

将候选异常数据集c₀中相异度小于

的数据对象剔除，经过筛选得到该类的异常数据对象。

S12重复S10和S11，直到计算完全部类，得到数据集D的全局异常数据点。

为了验证上述实施例方法的有效性，将通过实验结果对比进一步说明：

本实施例在人工生成的仿真数据集和来自UCI机器学习数据库的数据集中均进行了验证，对没有添加差分隐私保护和添加差分隐私保护后的两种异常检测方法进行了验证，并与两种都对数据的安全进行了隐私保护的异常检测方法(基于r-域连通的隐私保护异常检测方法和基于top-m D^K-outlier的隐私保护异常检测方法)中的异常检测方法进行了对比，实验数据如表1所示，表1为仿真数据集信息，这些数据集具有不同的维度属性，不同的数据量和不同的数据分布特性。

表1

人工数据集1的数据分布如图4所示，共有399个数据对象，由包含341个数据对象的2个球型的正常簇和58个离散点组成，其中正常簇是由高斯分布函数产生，离散数据对象是由服从均匀分布的随机函数产生。

人工数据集2的数据分布如图6所示，共有335个数据对象，由高斯分布函数产生的共312个数据对象组成的3个不规则的正常簇，同时根据数据集的特性，随机生成了23个离散的异常数据对象。

人工数据集3共有860个数据对象，包含791个样本点组成的3个正常簇，21个样本数据组成的异常簇和48个离散数据对象。数据产生方式同上。

真实数据集如表2所示，都来源于UCI机器学习库，包含5个数据集，分别是Abalone、HTRU2、Banknote、Wine quality-white和Ionosphere；

表2

Abalone数据集初始是用来预测黑唇鲍年龄的研究记录中的数据集，共有4177条记录，每条记录包含8个属性维度,共29个类。本文将数据点数少于60的类中的数据当作异常数据，共268个异常点。HTRU2数据集是描述脉冲星候选样本在高时间分辨宇宙调查期间收集的，包含了17898个例子中，每个例子包括9个属性值，2个类。本文从一类中随机选中110个例子作为正常例，从另一类中随机选出6个例子作为异常例。Banknote数据集包含1372条数据记录，我们从中一个簇中随机选取309条记录作为正常记录，从另一个簇中随机选取12条记录作为异常记录。Wine quality-white数据集有4898个带有12个属性的示例，本文从其中一类中选择879条记录作为普通对象，从另一不同类中选择43条记录作为异常对象。Ionosphere数据集中的数据是电离层返回的雷达数据，共有34个属性值，其中GOOD类中有225个数据对象，BAD类中有126个数据对象，本文中仅保留BAD的8.73％(11个数据点)作为异常数据对象。

在本实施例方法的验证实验中，设置相似邻居数k为不超过数据集的5％，ε是最小生成树中所有边权值的均值。同时，为了比较加差分隐私保护前和加差分隐私保护后的异常检测方法结果，选取最能体现异常检测方法有效性的检测率和误判率的两个指标对检测结果进行评估。如图4-5,图6-7所示，分别为数据集1和数据集2的可视化实验结果。

对于人工数据集1，从图4-图5可以看出，异常对象已被标记为一个圆形，在图4中，存在球状簇，检测出的离群点没有遗漏的，达到了0漏检的效果，且误检的个数为0。在图5中，加入差分隐私技术后的检测结果有极个别异常数据点没有被检测出来，没有出现误检的数据点。出现这种漏检的原因是由于添加的噪声太大，数据严重偏离原始值，失真严重，且某些异常点与正常簇非常接近，因此极少数点误判断为正常簇。

对于人工数据集2，从图6-图7可以看出，异常对象已被标记为一个圆形，在图6中，存在不规则的线性簇，离群点全部准确检测出来,达到0误检。在图7中，加入差分隐私保护技术后的检测结果只有三个异常数据点没有被检测出来，没有出现误检的数据点。原因和图5相似，是由于添加的噪声太大，数据失真严重，且异常点自身与正常簇中数据非常接近，因此极少数数据点误判断为正常。这表明，当隐私保护程度较高时，大部分异常数据也可以检测出来，有效的保证了差分隐私异常数据检测方法的有效性。

隐私保护数据挖掘的质量取决于隐私数据的保护程度和挖掘结果的准确性。对于数据分布不均匀的数据集，如果不能充分描述数据的分布情况，就不能定量的表示不同数据的隐私保护需求，最终导致不能为数据集加入合适的噪声，使得数据严重偏离原始值，降低异常检测结果的准确性，进而降低数据的可用性。在验证本实施例方法有效性的同时，验证数据的ε隐私保护程度。ε越小，添加的噪声越大，隐私保护越高。但是，噪声的加入过大会导致检测结果与原检测结果的相对误差增大，降低了检测结果的可用性。因此本实施例对隐私保护度进行刻化。

对于人工数据集1，由图8所示，表示检测率随隐私保护参数ε的变化趋势。隐私保护程度不同，需要加入的噪声不同，选择MST中边权值的均值作为噪声的初始值，逐渐增加隐私保护程度，对同一个ε值重复试验多次，取多次检测结果的平均值，降低添加的噪声的随机性对实验造成的影响。图8表明当添加的噪声较大时，依然可以保持较高的检测率和较低的误判率。如果选择合适的隐私保护程度添加噪声，则异常值检测结果的准确率会更高。

在验证本实施例方法有效性的同时，对比了两种对数据进行隐私保护的异常检测方法。由于隐私保护方法针对的攻击模式不相同，所以仅在异常检测方法这部分做对比。通过对比异常检测结果进一步验证了本方法的优势。三种异常检测方法在6个数据集中进行对比实验得到的统计结果如表3所示：

表3

由统计结果知道，本实施例提出的方法检测率较高，误判率较低，整体性能优于另外两种方法，而且数据量越大时，数据的性能越明显。

通过以上在不同数据集上的实验验证与对比传统方法的实验分析表明，本实施例提出的基于差分隐私的数据异常检测方法，具有更好的可行性和有效性，且能够抵御来自背景知识的攻击。

Claims

1.一种基于差分隐私的数据异常检测方法，其特征在于，包括如下步骤：

S1对数据进行处理：对数据采集终端得到的数据集D进行处理，去掉数据的类别标签属性，并去掉其中一些有缺省值属性的数据对象；

S4建立最小生成树MST：将距离矩阵中任意两个数据对象X_i，X_j间的距离当做边(X_i,X_j)的权重，用普里姆方法建立最小生成树，保证每次迭代选择权值最小的边对应的点添加到树中，且已有的生成树中的权值和最小；

如果两个数据对象形成的边(X_i,X_j)在最小生成树中是存在的，保留距离矩阵中X_i，X_j两个点间的距离，否则为0，得到邻接矩阵A，A中不为0的数值表示最小生成树中对应的边权值；S5添加随机噪声得到加噪后的最小生成树：考虑到数据的可用性，在邻接矩阵A中表示边权重不为零的数值上添加由Laplace机制的逆分布函数产生的Laplace噪声，隐藏数据对象间的相似程度；

S6计算k相似路径：以任意数据对象p为根节点，根据邻接矩阵A用prim算法建立最小生成树，则数据对象p的k相似路径是从数据对象p到第k个合并到最小生成树中的点p_k形成的最小生成树路径，p的k相似路径表示为Treepath(p,p_k)；

Do(p)＝max_edge(Treepath(p,p_k))

w_i＝(k-RSN(p_i+1))-(k-RSN(p_i))

式中p_i(i＝1,2,...,n)表示按照逆k相似数升序排列后的第i个数据对象；k-RSN(p_i)表示排序后p_i的逆k相似数；

将最大的差值w_i对应的p_i的k-RSN(P_i)作为判断候选异常数据的阈值，该类中逆k相似数小于等于阈值的数据对象加入候选异常数据集c₀；

S11计算各类的异常数据点：结合S7和S10计算该类中数据点相异度Do(p)的均值将候选异常数据集c₀中相异度小于的数据对象剔除，筛选得到该类的异常数据对象；

S12重复S10和S11，直到计算完全部类，得到全局的异常数据对象；

Pr[K(D₁)∈M]≤exp(ε)×Pr[K(D₂)∈M]

Y＝f(D)+lap(b)

式中，Lap(b)表示laplace噪声；

式中，u是峰值出现的位置参数，一般取0，b是刻画集中程度的尺度参数，Δf为查询函数f的敏感度，表示为f(D₁)和f(D₂)之间的1-阶范数距离的最大值，因为两数据集只存在一条不同的记录，所以敏感度为1，ε是衡量隐私保护程度的参数，ε越小表示查询函数的结果相差越大，隐私保护程度越高，隐私泄露的风险越低；反之，隐私泄露的风险越高；

是Lap(b)的概率密度，表示随机变量每个取值的可能性，Lap(b)是一个期望值为0，标准差为的对称指数分布；差分隐私技术中的laplace机制通过逆分布函数产生laplace噪声，对累积分布函数求逆，得到逆分布函数为：

式中，sgn(x)是一个符号函数，使得分布函数左右对称。