CN113553319A

CN113553319A - 基于信息熵加权的lof离群点检测清洗方法、装置、设备及存储介质

Info

Publication number: CN113553319A
Application number: CN202110649016.5A
Authority: CN
Inventors: 徐思瀛; 刘惠义
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-10-26

Abstract

本发明公开了一种基于信息熵加权的LOF离群点检测清洗方法、装置、设备及存储介质，其方法包括：通过分析数据集中所有数据点的密度分布情况寻找获得离群点范围；使用LOF算法对进行标准化方法处理和信息熵加权后的数据集进行检测得到检测结果；使用离群点范围对检测结果进行检索清洗得到离群点集。本发明能够使用信息熵对数据中各个维度的数据进行加权操作，再通过数据点之间的分布检测离群点最可能出现的位置，缩小检测的范围，最后使用LOF算法对数据集进行检测。相比较传统的离群点检测方法，通过该方法所得到的离群点更加精准，而且相比现有方法，该方法对于数据集的专业领域知识的依赖较小。

Description

基于信息熵加权的LOF离群点检测清洗方法、装置、设备及存储介质

技术领域

本发明涉及一种基于信息熵加权的LOF离群点检测清洗方法、装置、设备及存储介质，属于数据处理技术领域。

背景技术

清洗数据时，对于一组数据，可能由于系统受到外部干扰，从而产生一些远离序列的一般水平的极端大值或者极端小值。这种外部干扰是多种多样的，可能是数据来源异常，也可能是数据测量和采集误差，主要是由于人为错误、测量设备故障或存在噪声。但是不论何种原因引起的离群点对之后的数据分析都会造成一定的影响。离群点会直接影响模型的拟合精度，甚至可能导致一个虚伪的结果。为了在数据集中寻找到这些“坏值”，现在有了许多成熟的算法，LOF算法便是基于密度的一种检测方法。但是传统的LOF算法也往往会将一些“正常数据”误检测为离群数据，这是因为离群因子值只与参数k有关，当k取值不同时，离群因子的值将不同，之前是异常点的数据可能判断不再是异常点。另外传统LOF算法并没有考虑在数据各个维度的求解距离过程中贡献的差异，属性之间的不确定性可能会影响结果判断的准确率。

为了解决上述问题，本申请提出一种基于信息熵加权的LOF离群点检测清洗方法、装置、设备及存储介质。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于信息熵加权的LOF离群点检测清洗方法、装置、设备及存储介质，先预测离群点最可能出现的范围，再进行检测，在较小的范围内找出离群点，这样就可以提高精度。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种基于信息熵加权的LOF离群点检测清洗方法，用于对未知离群点个数的数据集进行检测和清洗，所述检测清洗方法包括：

通过分析数据集中所有数据点的密度分布情况寻找获得离群点范围；

使用LOF算法对进行标准化方法处理和信息熵加权后的数据集进行检测得到检测结果；

使用离群点范围对检测结果进行检索清洗得到离群点集。

优选的，所述通过分析数据集中所有数据点的密度分布情况寻找获得离群点范围包括：

将数据集中两个数据点之间的欧式距离保存于距离矩阵D中；

计算距离矩阵D中的欧式距离的平均值，并作为领域半径R；

以各个数据点作为中心，统计领域半径R内存在的其他数据点的个数保存于数量矩阵P中；

遍历数量矩阵P中数量跳变较大的数据点，

若存在数量跳变较大的数据点，则将该数据点的数量保存为邻域数量ρ1，将密度小于邻域密度ρ1的数据点集合保存并作为数据点集A1；数据点集A1作为离群点范围；

若不存在数量跳变较大的数据点，则计算数量矩阵P的平均数量值ρ2，将数量远小于平均数量值ρ2的数据点集合保存并作为数据点集A2；数据点集A2作为离群点范围；

其中，

通过数据集中两个数据点之间的欧式距离表示数据点之间的分布情况；

以数据点为中心，通过其领域半径R内存在的其他数据点的个数表示该数据点的密度情况。

优选的，所述数据集的标准化方法处理包括：使用RobustScaler标准化方法处理数据集。

优选的，所述数据集的信息熵加权包括：

获取数据集Data′中第i个数据点的第j维属性的比重P_ij，其公式如下：

其中，数据集Data′为使用标准化方法处理后的数据集，Data′＝{x′₁，x′₂，……，x′_n}，x′_ij为数据集Data′中第i个数据点的第j维属性，n表示数据集Data′中数据点的个数；

根据P_ij计算获取数据集Data′中第j维属性的信息熵E_j，其公式如下：

其中，p＝1/lnn；

根据信息熵E_j计算获取数据集Data′中第j维属性的波动系数f_j，其公式如下：

f_j＝1-E_j

根据波动系数f_j计算获取数据集Data′中第j维属性的权值w_j，其公式如下：

其中，m为数据点的维数；

在计算数据集Data′中任意两个数据点之间的欧式距离时，使用如下公式进行加权操作：

其中，x_A和x_B分别为数据集Data′中的第A数据点和第B个数据点。

优选的，所述使用LOF算法对进行标准化方法处理和信息熵加权后的数据集进行检测得到检测结果包括：

使用标准化方法处理后且信息熵加权的数据集进行LOF算法检测；

不断调整LOF算法的k值和局部离群因子，使最终得到的离群点集中的数据点个数与离群点范围中的数据点个数相同，将其集合保存并记作数据点集A3；

数据点集A3作为检测结果。

优选的，所述使用离群点范围对检测结果进行检索清洗得到离群点集包括：

将离群点范围和检测结果进行相交操作，将共同拥有的数据点集合保存并记作数据点集A，数据点集A作为最终的离群点集。

第二方面，本发明提供了一种基于信息熵加权的LOF离群点检测清洗装置，所述装置包括：

标准化处理模块：使用标准化方法处理数据集，保持数据集中离群点的离群性；

数据集分析模块：离群点范围通过分析数据集中所有数据点的密度分布情况寻找获得；

检测模块：使用LOF算法对进行信息熵加权后的数据集进行检测得到检测结果；

清洗模块：使用离群点范围对检测结果进行检索清洗得到离群点集。

第三方面，本发明提供了一种基于信息熵加权的LOF离群点检测清洗设备，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据上述任一项所述方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述任一项所述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

本发明的基于信息熵加权的LOF离群点检测清洗方法、装置、设备及存储介质，1)密度分布分析；2)信息熵加权标准化数据集；3)融合密度分布与基于信息熵LOF算法检测；不受真实离群点数的影响，在选取阈值方面不需要领域的专业知识，能够使用于大部分未知离群点个数的数据集，可以尽量降低误报正常数据的概率。

附图说明

图1是本发明实施例一提供的基于信息熵加权的LOF离群点检测清洗方法流程图；

图2是本发明实施例一提供的矩阵数据P的邻域数量示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

使用信息熵赋权法给服务运行数据的各维度赋予不同的权值，信息熵表示数据的不确定性，熵值越大，数据的不确定性就会越大，数据能够提供的信息量就越小，反之，当熵值越小时，表示数据能够提供的信息量就越大，其不确定性就越小。

实施例一：

本实施例提供了一种基于信息熵加权的LOF离群点检测清洗方法，用于对未知离群点个数的数据集进行检测和清洗，检测清洗方法包括以下步骤：

步骤1、通过分析数据集中所有数据点的密度分布情况寻找获得离群点范围；

步骤1.1、将数据集中两个数据点之间的欧式距离保存于距离矩阵D中；

步骤1.2、计算距离矩阵D中的欧式距离的平均值，并作为领域半径R；

步骤1.3、以各个数据点作为中心，统计领域半径R内存在的其他数据点的个数保存于数量矩阵P中；

步骤1.4、遍历数量矩阵P中数量跳变较大的数据点，

其中，通过数据集中两个数据点之间的欧式距离表示数据点之间的分布情况，以数据点为中心，通过其领域半径R内存在的其他数据点的个数表示该数据点的密度情况。

如图2所示，在IRIS数据集中显示的所有数据点分布，发现在密度为10时发生较大跳跃，所以我们将ρ设置为10，并将密度小于10的数据点一并保存起来。

步骤2、使用LOF算法对进行标准化方法处理和信息熵加权后的数据集进行检测得到检测结果；

步骤2.1、使用RobustScaler标准化方法处理数据集。

步骤2.2、获取数据集Data′中第i个数据点的第j维属性的比重P_ij，其公式如下：

步骤2.3、根据P_ij计算获取数据集Data′中第j维属性的信息熵E_j，其公式如下：

其中，p＝1/lnn；

步骤2.4、根据信息熵E_j计算获取数据集Data′中第j维属性的波动系数f_j，其公式如下：

f_j＝1-E_j

步骤2.5、根据波动系数f_j计算获取数据集Data′中第j维属性的权值w_j，其公式如下：

其中，m为数据点的维数；

步骤2.6、在计算数据集Data′中任意两个数据点之间的欧式距离时，使用如下公式进行加权操作：

步骤2.7、使用标准化方法处理后且信息熵加权的数据集进行LOF算法检测；

步骤2.7.1、计算距离数据点(使用标准化方法处理后且信息熵加权的数据集中)最近的第k个点的距离，记作k-distance(p)；

步骤2.7.2、统计k距离邻域，k距离邻域指的是包含着其他所有与数据点的距离小于等于k距离的集合，记作N_k-distance(p)；

步骤2.7.3、计算每个数据点的可达距离，可达距离指的是两个数据点之间的距离，但是这个距离至少是数据点的k距离，可以用公式Reach-dist_k(P，O)＝max{k-distance(O)，d(P，O)}定义，其中，P和O均为数据集中的数据点；

步骤2.7.4、计算每个数据点的局部可达密度，局部可达密度是指对象数据点相对于它的k距离邻域的平均可达距离的倒数，记作ρ_k(P)；

步骤2.7.5：计算各个数据点的局部离群因子，局部离群因子指的是数据点的局部可达密度与该点的k距离邻域的局部可达密度之比的平均值，用公式定义为：

步骤2.8、不断调整k距离终的k值和设定的局部离群因子的阈值，查找所有数据点比局部林群因子小的数据点的点集，使最终得到的离群点集中的数据点个数与离群点范围中的数据点个数相同，将其集合保存并记作数据点集A3；

步骤2.9、数据点集A3作为检测结果。

步骤3、使用离群点范围对检测结果进行检索清洗得到离群点集。

步骤3.1、将离群点范围(A1或A2)和检测结果A3进行相交操作，将共同拥有的数据点集合保存并记作数据点集A，数据点集A作为最终的离群点集。

实施例二：

本具体实施方式提供了一种基于信息熵加权的LOF离群点检测清洗装置，装置包括：

实施例三：

本具体实施方式提供了一种基于信息熵加权的LOF离群点检测清洗设备，包括处理器及存储介质；

存储介质用于存储指令；

处理器用于根据指令进行操作以执行根据实施例一中任一项方法的步骤。

实施例四：

本具体实施方式提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例一中任一项方法的步骤。

本申请相比于传统LOF算法，通过先对数据中可疑的数据点进行提取，降低了LOF算法误报的可能，再通过信息熵加权LOF算法，进一步提升算法预测的精度。同时也降低了传统离群点检测对于数据集的一些专业知识的需求，能够使用于大部分未知离群点个数的数据集。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于信息熵加权的LOF离群点检测清洗方法，用于对未知离群点个数的数据集进行检测和清洗，其特征在于，所述检测清洗方法包括：

使用离群点范围对检测结果进行检索清洗得到离群点集。

2.根据权利要求1所述的一种基于信息熵加权的LOF离群点检测清洗方法，其特征在于，所述通过分析数据集中所有数据点的密度分布情况寻找获得离群点范围包括：

将数据集中两个数据点之间的欧式距离保存于距离矩阵D中；

计算距离矩阵D中的欧式距离的平均值，并作为领域半径R；

遍历数量矩阵P中数量跳变较大的数据点，

其中，

通过数据集中两个数据点之间的欧式距离表示数据点之间的分布情况，

3.根据权利要求1所述的一种基于信息熵加权的LOF离群点检测清洗方法，其特征在于，所述数据集的标准化方法处理包括：

使用RobustScaler标准化方法处理数据集。

4.根据权利要求1所述的一种基于信息熵加权的LOF离群点检测清洗方法，其特征在于，所述数据集的信息熵加权包括：

其中，p＝1/lnn；

f_j＝1-E_j

其中，m为数据点的维数；

5.根据权利要求1所述的一种基于信息熵加权的LOF离群点检测清洗方法，其特征在于，所述使用LOF算法对进行标准化方法处理和信息熵加权后的数据集进行检测得到检测结果包括：

数据点集A3作为检测结果。

6.根据权利要求1所述的一种基于信息熵加权的LOF离群点检测清洗方法，其特征在于，所述使用离群点范围对检测结果进行检索清洗得到离群点集包括：

7.一种基于信息熵加权的LOF离群点检测清洗装置，其特征在于，所述装置包括：

8.一种基于信息熵加权的LOF离群点检测清洗设备，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1～6任一项所述方法的步骤。

9.计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1～6任一项所述方法的步骤。