CN110942099A

CN110942099A - 一种基于核心点保留的dbscan的异常数据识别检测方法

Info

Publication number: CN110942099A
Application number: CN201911196658.3A
Authority: CN
Inventors: 高振国; 胡凌岳; 陈丹杰; 蔡绍滨; 王田; 莫毓昌; 陈益峰; 张忆文
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-03-31

Abstract

本发明公开了一种基于核心点保留的DBSCAN的异常数据识别检测方法，包括以下步骤：S1：将数据集随机划分成训练集和测试集；S2：构建训练集的近邻矩阵Croe‑M和逆近邻矩阵Croe‑MR，采用逆近邻矩阵Croe‑MR作为判定核心点的依据；本发明涉及异常识别检测方法技术领域。该基于核心点保留的DBSCAN的异常数据识别检测方法通过重新定义了“密度”，利用“密度”对训练集进行聚类并打上标签，由此，再利用标签，对剩余测试集中的数据进行分类；通过随机抽样来划分训练集和测试集，提高了该检测方法的拓展性；同时，仅采用核心点建立模型，有效降低噪声点，尤其是边缘点对分类结果的影响；通过“密度”定义，能够好代表样本点在数据集类别中的权重，拥有更好的分类效果。

Description

一种基于核心点保留的DBSCAN的异常数据识别检测方法

技术领域

本发明涉及异常识别检测方法技术领域，具体为一种基于核心点保留的DBSCAN的异常数据识别检测方法。

背景技术

异常识别，是一种针对数据集中离群样本点的检测方法。异常的内涵丰富，可能是噪声、误差、或是稀有值。在数据挖掘领域，其普遍认可的定义是，一种由其它机制产生，且与大多数观测值相偏离的点。在本文中，与“异常点”相对的点称为“正常点””。

异常识别作为一种重要的研究方向，已经广泛在信用卡欺诈识别、疾病诊断和预防、网络入侵、测量误差、用电行为异常等现实应用中。

基于统计的异常识别方法

从20世纪80年代起，异常识别问题就在统计学领域里得到广泛研究，通常用户用某个统计分布对数据点进行建模，再以假定的模型，根据点的分布来确定是否异常。许许多多针对不同分布的异常测试(Discordancy Test)方法发展起来，它们分别适用于不同的情形：①数据分布状况；②数据分布参数是否已知③异常数据数量；④异常数据类型(高于或低于一般抽样取值)。这方面比较有代表性的有基于“均数漂移”模型的单点诊断量，群组诊断量，单样本多个离群检测方法ESD等。近年来，多样本的离群检测方法也得到了一定的发展，总的思路是先尽量得到一个不含离群点的“干净集”，然后在此基础上对剩余的其他数据点进行逐步离群检测。

目前利用统计学研究异常点数据有了一些方法，如通过分析统计数据的散度情况，即数据变异指标，来对数据的总体特征有更进一步的了解，对数据的分布清苦昂有所了解，进而通过数据变异指标来发现数据中的异常点数据，常用的数据变异指标有极差、四分位数间距、均差、标准差、变异系数等等，变异指标的值大表示变异大、散布广；值小表示离差小，教密集。

基于统计的方法识别出来的离群点很可能被不同的分布模型检测出来，可以说产生这些离群点的机制可能不唯一，解释离群点的意义时经常发生多义性，这是基于统计方法的一个缺陷，其次，基于统计的方法在很大程度上依赖于待挖掘的数据集是否满足某种概率分布模型，模型的参数、离群点的数目等对基于统计的方法都有非常重要的意义，而确定这些参数通常都比较困难，为克服这一问题，一些人剔除对数据集进行分布拟合，但分布拟合存在两个问题：①给出的分布可能不适合任一标准分布；②即使存在一个标准分布，分布拟合的过程耗时太长，此外，基于统计的离群识别方法大多只适用于挖掘单变量的数值型数据，目前几乎没有多元的不一致检验，对于大多数的应用来说，例如图像和地理数据，数据集的维数却可能是高维的，实际生活中，以上缺陷都大大限制了基于统计的方法的应用，使得它主要局限于科研计算，方法的可移植性较差。

发明内容

针对现有技术的不足，本发明提供了一种基于核心点保留的DBSCAN的异常数据识别检测方法，解决了异常数据的识别方法几乎没有多元的不一致检验的问题。

为实现以上目的，本发明通过以下技术方案予以实现：一种基于核心点保留的DBSCAN的异常数据识别检测方法，包括以下步骤：

S1：将数据集随机划分成训练集和测试集；

S2：构建训练集的近邻矩阵Croe-M和逆近邻矩阵Croe-MR，采用逆近邻矩阵Croe-MR作为判定核心点的依据；

S3：根据逆近邻矩阵对训练集进行聚类，通过对边缘点进行标记，待聚类结束后，对边缘点和噪声点进行剔除，仅保留核心点，并对核心点类别进行标记，构成了拥有代表性的，有标签的和仅有核心点的分类模型Core-Model；

S4：对测试集数据进行迭代，循环执行操作：将样本点加入核心点分类模型Core-Model，生成新的近邻矩阵Test-M和逆近邻矩阵Test-M_R，最后对样本点进行分类。

通过重新定义了“密度”，利用“密度”对训练集进行聚类并打上标签，由此，再利用标签，对剩余测试集中的数据进行分类；通过随机抽样来划分训练集和测试集，提高了该检测方法的拓展性；同时，仅采用核心点建立模型，有效降低噪声点，尤其是边缘点对分类结果的影响；通过“密度”定义，能够好代表样本点在数据集类别中的权重，拥有更好的分类效果。

进一步地，所述S2中以样本点在环境中的影响因子作为密度标准。

进一步地，所述S3中首先将边缘点和噪声点剔除，然后对核心点进行标记类别形成标签，最后利用标签生成分类模型。

进一步地，所述S4中将样本点加入模型，根据Test-M_R计算样本点的密度，作为样本点和模型中核心点的相似程度的评价标准，以此标准作为样本点的分类依据。

进一步地，：所述S4中设样本数据集为D，其中样本点数量为n，属性个数为m，所述样本分类方法包括一下步骤：

T1：对样本数据集D进行横向抽样，得到子样本数据集Dr；

T2：对Dr计算样本的近邻矩阵，再根据近邻矩阵计算出逆近邻矩阵；

T3：根据Dr数据集的逆近邻矩阵中元素在其余样本点近邻矩阵的出现状况作为样本点在数据集中的“密度”，依此对数据集Dr中的样本点进行聚类；

T4：记Dt＝D-Dr，从Dt中取出一个未分类的样本点，加入分类模型，更新分类模型的逆近邻矩阵，根据样本点在分类模型中的“密度”表现，对样本点进行类别划分；

T5：重复步骤4直到Dt中未分类的样本点数目为0。

进一步地，所述T3中并对核心点进行标记类别，剔除噪声点和边缘点，构成分类模型。

进一步地，所述S1中数据集要求划分的训练集能够满足聚类后核心点的类别数量与所有样本的类别数量一致。

进一步地，所述S2中近邻矩阵和逆邻矩阵的构建方法包括：

令X代表一组样本点大小为n＝|X|，X中的每个样本点是d维空间的真实值，

任意两个样本点x,y∈X，采用偶几里德距离作为两个样本点的距离：

用于观察x∈X，基于两个邻域函数的定义K，应当满足0≤k≤n，

其次，设样本点x的k-近邻由函数N_k(x)＝N定义划分类别，N应当满足以下条件：

|N|＝k，、

进而，定义样本点x的k-逆紧邻为R_k(x)＝R，其中R满足以下条件：

同样，将样本点划分为三类：核心点、边缘点和噪声点，由样本点的近邻和逆近邻构造数据集的近邻矩阵和逆近邻矩阵。

进一步地，所述密度包括密度可达和密度相连，所述密度可达定义为若样本点x到观测点y密度可达，则，即|R_k(x)|≥k样本点x的逆近邻数满足阈值要求且观测点y为x的逆近邻点，密度相连定义为若样本点z分别和样本点x和样本点y密度可达，则认定样本点x和样本点y之间经由样本点z密度可达。

通过“密度”定义，能够好代表样本点在数据集类别中的权重，拥有更好的分类效果与现有技术相比，本发明的有益效果是：

该基于核心点保留的DBSCAN的异常数据识别检测方法，通过重新定义了“密度”，利用“密度”对训练集进行聚类并打上标签，由此，再利用标签，对剩余测试集中的数据进行分类；通过随机抽样来划分训练集和测试集，提高了该检测方法的拓展性；同时，仅采用核心点建立模型，有效降低噪声点，尤其是边缘点对分类结果的影响；通过“密度”定义，能够好代表样本点在数据集类别中的权重，拥有更好的分类效果。

附图说明

图1为本发明整体的原理框图；

图2为本发明样本分类的远离框图；

图3为传统DBSCAN算法的一般模型图；

图4为改进DBSCAN算法的一般模型图；

图5为示例经本发明所建立的模型示意图；

图6为示例经本发明方法处理后的效果图；

图7为示例数据在不同阈值情况下的处理效果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-6，本发明提供一种技术方案：一种基于核心点保留的DBSCAN的异常数据识别检测方法，包括以下步骤：

S1：将数据集随机划分成训练集和测试集；

通过随机抽样来划分训练集和测试集，提高了检测方法的拓展性；

仅采用核心点建立模型，有效降低噪声点，尤其是边缘点对分类结果的影响；

逆近邻矩阵为样本点x在余下样本点的近邻矩阵中的出现情况构成的矩阵；

该检测方法使用的密度有别于DBSCAN算法使用近邻矩阵作为是否为核心点的判定依据，采用逆近邻矩阵作为是否为核心点的判定依据。

所述S2中以样本点在环境中的影响因子作为密度标准。

所述S3中首先将边缘点和噪声点剔除，然后对核心点进行标记类别形成标签，最后利用标签生成分类模型。

所述S4中将样本点加入模型，根据Test-MR计算样本点的密度，作为样本点和模型中核心点的相似程度的评价标准，以此标准作为样本点的分类依据。

所述S4中设样本数据集为D，其中样本点数量为n，属性个数为m，所述样本分类方法包括一下步骤：

T1：对样本数据集D进行横向抽样，得到子样本数据集Dr；

T5：重复步骤4直到Dt中未分类的样本点数目为0。

所述T3中并对核心点进行标记类别，剔除噪声点和边缘点，构成分类模型。

所述S1中数据集要求划分的训练集能够满足聚类后核心点的类别数量与所有样本的类别数量一致。

所述S2中近邻矩阵和逆邻矩阵的构建方法包括：

|N|＝k，、

所述密度包括密度可达和密度相连，所述密度可达定义为若样本点x到观测点y密度可达，则|R_k(x)|≥k，即样本点x的逆近邻数满足阈值要求且观测点y为x的逆近邻点，密度相连定义为若样本点z分别和样本点x和样本点y密度可达，则认定样本点x和样本点y之间经由样本点z密度可达。

根据上述定义构造示例数据集的近邻矩阵和逆近邻矩阵，如附图3所示传统DBSCAN算法的一般模型，满足条件的样本点被划分为核心点，其邻域半径内的其余样本点为其“近邻点”，核心点邻域半径内的非核心点为边缘点，既非核心点，又不在核心点的邻域半径内的点为噪声点。

如附图4所示改进DBSCAN算法的一般模型中黑框所示，原本的“核心点”被定义成“近邻点”的“逆近邻点”，因此，根据数据集的近邻矩阵可以构造出全体样本点的逆近邻矩阵，“逆近邻点”的个数即样本点在数据集中的“密度”；只有“密度”超过给定阈值，才能认为该样本点为改进DBSCAN算法下的“核心点”。

更进一步，利用得到的“核心点”构建分类器模型，分类器模型是指DBSCAN聚类后核心点保留，边缘点、噪声点去除后的样本点的近邻矩阵和逆近邻矩阵以及DBSCAN聚类后的样本类别标签。

如附图5所示，示例数据集为三维数据，数据值分别由X、Y、Z轴三维坐标表示，标签(核心点和噪声点或边缘点)由颜色表示，将样本点加入模型中进行计算，即在模型的基础上生成关于样本点的逆近邻矩阵，通过逆近邻矩阵判别样本点的逆近邻数是否超出阈值，若超出阈值则样本点为核心点；若样本点的逆近邻数小于阈值，且样本点在核心点的邻域半径，则判定样本点为边缘点；若样本点的逆近邻数小于阈值，且不在任意核心点的邻域半径内，则判定样本点为噪声点。

若样本点为核心点或边缘点，且逆近邻矩阵中的“逆近邻点”分属于多个类别，则根据“逆近邻点”进行投票表决得出样本点的类别，如附图5所示为示例数据集分类后的结果，若样本点为噪声点，则认定该样本点为异常数据。

工作时，

将数据集随机划分成训练集和测试集；

构建训练集的近邻矩阵Croe-M和逆近邻矩阵Croe-MR，采用逆近邻矩阵Croe-MR作为判定核心点的依据，以样本点在环境中的影响因子作为密度标准；

根据逆近邻矩阵对训练集进行聚类，通过对边缘点进行标记，待聚类结束后，对边缘点和噪声点进行剔除，仅保留核心点，并对核心点类别进行标记，构成了拥有代表性的，有标签的和仅有核心点的分类模型Core-Model，且首先将边缘点和噪声点剔除，然后对核心点进行标记类别形成标签，最后利用标签生成分类模型；

对测试集数据进行迭代，循环执行操作：将样本点加入核心点分类模型Core-Model，生成新的近邻矩阵Test-M和逆近邻矩阵Test-MR，最后对样本点进行分类，根据Test-MR计算样本点的密度，作为样本点和模型中核心点的相似程度的评价标准，以此标准作为样本点的分类依据；

样本分类方法中设样本数据集为D，其中样本点数量为n，属性个数为m，样本分类方法包括一下步骤：

对样本数据集D进行横向抽样，得到子样本数据集Dr；

对Dr计算样本的近邻矩阵，再根据近邻矩阵计算出逆近邻矩阵；

根据Dr数据集的逆近邻矩阵中元素在其余样本点近邻矩阵的出现状况作为样本点在数据集中的“密度”，依此对数据集Dr中的样本点进行聚类，并对核心点进行标记类别，剔除噪声点和边缘点，构成分类模型。

记Dt＝D-Dr，从Dt中取出一个未分类的样本点，加入分类模型，更新分类模型的逆近邻矩阵，根据样本点在分类模型中的“密度”表现，对样本点进行类别划分；

重复步骤4直到Dt中未分类的样本点数目为0

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于核心点保留的DBSCAN的异常数据识别检测方法，其特征在于：包括以下步骤：

S1：将数据集随机划分成训练集和测试集；

2.根据权利要求1所述的一种基于核心点保留的DBSCAN的异常数据识别检测方法，其特征在于：所述S2中以样本点在环境中的影响因子作为密度标准。

3.根据权利要求1所述的一种基于核心点保留的DBSCAN的异常数据识别检测方法，其特征在于：所述S3中首先将边缘点和噪声点剔除，然后对核心点进行标记类别形成标签，最后利用标签生成分类模型。

4.根据权利要求1所述的一种基于核心点保留的DBSCAN的异常数据识别检测方法，其特征在于：所述S4中将样本点加入模型，根据Test-M_R计算样本点的密度，作为样本点和模型中核心点的相似程度的评价标准，以此标准作为样本点的分类依据。

5.根据权利要求1所述的一种基于核心点保留的DBSCAN的异常数据识别检测方法，其特征在于：所述S4中设样本数据集为D，其中样本点数量为n，属性个数为m，所述样本分类方法包括一下步骤：

T1：对样本数据集D进行横向抽样，得到子样本数据集Dr；

T5：重复步骤4直到Dt中未分类的样本点数目为0。

6.根据权利要求5所述的一种基于核心点保留的DBSCAN的异常数据识别检测方法，其特征在于：所述T3中并对核心点进行标记类别，剔除噪声点和边缘点，构成分类模型。

7.根据权利要求1所述的一种基于核心点保留的DBSCAN的异常数据识别检测方法，其特征在于：所述S1中数据集要求划分的训练集能够满足聚类后核心点的类别数量与所有样本的类别数量一致。

8.根据权利要求1所述的一种基于核心点保留的DBSCAN的异常数据识别检测方法，其特征在于：所述S2中近邻矩阵和逆邻矩阵的构建方法包括：

x∈R^d，任意两个样本点x,y∈X，采用偶几里德距离作为两个样本点的距离：

|N|＝k，、

z∈X/(N+{x}):dist(x,y)≤dist(x,z)，

x∈N_k(y)；

9.根据权利要求4所述的一种基于核心点保留的DBSCAN的异常数据识别检测方法，其特征在于：所述密度包括密度可达和密度相连，所述密度可达定义为若样本点x到观测点y密度可达，则|R_k(x)|≥k，即样本点x的逆近邻数满足阈值要求且观测点y为x的逆近邻点，密度相连定义为若样本点z分别和样本点x和样本点y密度可达，则认定样本点x和样本点y之间经由样本点z密度可达。