CN115237996A

CN115237996A - 一种针对截面数据的分布规律及其离群值的挖掘方法

Info

Publication number: CN115237996A
Application number: CN202210913338.0A
Authority: CN
Inventors: 汪忠康
Original assignee: Shuyu Intelligent Technology Shanghai Co ltd Hangzhou Branch
Current assignee: Shuyu Intelligent Technology Shanghai Co ltd Hangzhou Branch
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2022-10-25

Abstract

本发明公开了一种针对截面数据的分布规律及其离群值的挖掘方法，其特征在于，包括以下步骤：S1、接收多维截面数据集；S2、枚举维度度量两两组合；S3、对单维数据依次拟合模型；S4、依据选择的拟合模型分布的方法计算数据的离群值界线值；S5、输出离群值界线值，高于该界线值的数据被定义为该分布下的离群值。本发明可以用来代替人工进行数据分布规律和离群值的探索，节省分析人员的时间和精力，突破了传统2σ准则的局限性，解决了传统方法只能适应正态分布或近似正态分布模型的问题，丰富了内容输出，对于不同的分布模型采取不一样的策略洞察离群值，结果更加符合客观情况。

Description

一种针对截面数据的分布规律及其离群值的挖掘方法

技术领域

本发明涉及数据挖掘技术领域，具体为一种针对截面数据的分布规律及其离群值的挖掘方法。

背景技术

随着云时代的来临，大数据吸引了越来越多的关注，企业日渐需要对海量的数据进行数据挖掘。通过挖掘这些数据的一些特征，比如离群值，能够将大量复杂的数据转化为精简可解读的洞察结论。针对单维数据，现有的主流离群值挖掘方法为2σ准则。

2σ准则先计算单维数据的标准偏差，按一定的概率确定一个区间，认为超过这个区间的值为离群值。此判别方法局限于对正态分布或近似正态分布的数据处理，在正态分布中σ代表标准差，μ代表均值，2σ准则为：数值分布在(μ-2σ,μ+2σ)中的概率为0.9545。但若数据本身不服从正态分布规律，则可能会得出不符合预期的结果。

发明内容

本发明的目的在于提供一种针对截面数据的分布规律及其离群值的挖掘方法，可以用来代替人工进行数据分布规律和离群值的探索，节省分析人员的时间和精力，突破了传统2σ准则的局限性，解决了传统方法只能适应正态分布或近似正态分布模型的问题，丰富了内容输出，对于不同的分布模型采取不一样的策略洞察离群值，结果更加符合客观情况，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种针对截面数据的分布规律及其离群值的挖掘方法，包括以下步骤：

S1、接收多维截面数据集；

S2、枚举维度度量两两组合；

S3、对单维数据依次拟合模型；

S4、依据选择的拟合模型分布的方法计算数据的离群值界线值；

S5、输出离群值界线值，高于该界线值的数据被定义为该分布下的离群值。

作为本发明的一种针对截面数据的分布规律及其离群值的挖掘方法优选的，所述S2中枚举维度度量两两组合具体为：对每个维度匹配度量，将原始数据划分为多个包含单维数据的子空间。

作为本发明的一种针对截面数据的分布规律及其离群值的挖掘方法优选的，将原始数据划分为多个包含单维数据的子空间后，还对每个子空间中的单维数据依次降序排列。

作为本发明的一种针对截面数据的分布规律及其离群值的挖掘方法优选的，所述S3中对单维数据依次拟合模型具体为：用幂律分布、指数分布、对数分布、线性分布、多项式分布、正态分布依次对每个子空间中的单维数据进行模型拟合，计算每种分布对应的拟合优度，选取拟合优度值最大的分布模型。

作为本发明的一种针对截面数据的分布规律及其离群值的挖掘方法优选的，当拟合优度最大值≥s时，认为分布模型服从该分布，围绕该分布特征展开演算；其中，在当前的实现中，s＝0.95。

作为本发明的一种针对截面数据的分布规律及其离群值的挖掘方法优选的，所述幂律分布计算单维数据的离群值界线值具体为：

给定一组非负数值{X}，对照{X}服从幂律分布的假设，离群值界线值将如下计算：

A1、假设排序后数据形状服从幂律分布，使用幂函数对{X}\{Xmax}中的值进行回归分析；

A2、假设回归残差服从高斯分布，第二步回归分析中的残差被用于训练高斯模型H；

A3、使用回归模型预测Xmax并获得对应的残差；

A4、根据2σ原则获得Xmax的离群值界线值。

作为本发明的一种针对截面数据的分布规律及其离群值的挖掘方法优选的，所述指数分布计算单维数据的离群值界线值具体为：

给定一组非负数值{X}，对照{X}服从指数分布的假设，离群值界线值将如下计算：

B1、假设排序后数据形状服从幂律分布，使用指数函数对{X}\{Xmax}中的值进行回归分析；

B2、假设回归残差服从高斯分布，第二步回归分析中的残差被用于训练高斯模型H；

B3、使用回归模型预测Xmax并获得对应的残差；

B4、根据2σ原则获得Xmax的离群值界线值。

作为本发明的一种针对截面数据的分布规律及其离群值的挖掘方法优选的，所述对数分布计算单维数据的离群值界线值具体为：

给定一组数值{X}，对照{X}服从对数分布的假设，离群值界线值将如下计算：

C1、假设排序后数据形状服从对数分布，使用对数函数对{X}\{Xmax}中的值进行回归分析；

C2、假设回归残差服从高斯分布，第二步回归分析中的残差被用于训练高斯模型H；

C3、使用回归模型预测Xmax并获得对应的残差；

C4、根据2σ原则获得Xmax的离群值界。

作为本发明的一种针对截面数据的分布规律及其离群值的挖掘方法优选的，所述线性分布计算单维数据的离群值界线值具体为：

给定一组数值{X}，对照{X}服从线性分布的假设，离群值界线值将如下计算：

D1、假设排序后数据形状服从线性分布，使用一元线性函数对{X}\{Xmax}中的值进行回归分析；

D2、假设回归残差服从高斯分布，第二步回归分析中的残差被用于训练高斯模型H；

D3、使用回归模型预测Xmax并获得对应的残差；

D4、根据2σ原则获得Xmax的离群值界线值。

作为本发明的一种针对截面数据的分布规律及其离群值的挖掘方法优选的，所述多项式分布计算单维数据的离群值界线值具体为：

给定一组数值{X}，对照{X}服从多项式分布的假设，其中多项式阶数为2或3，离群值界线值将如下计算：

E1、假设排序后数据形状服从多项式分布，使用一元二次函数(或一元三次函数)对{X}\{Xmax}中的值进行回归分析；

E2、假设回归残差服从高斯分布，第二步回归分析中的残差被用于训练高斯模型H；

E3、使用回归模型预测Xmax并获得对应的残差；

E4、根据2σ原则获得Xmax的离群值界线值；

所述正态分布计算单维数据的离群值界线值具体为：

给定一组数值{X},对照{X}服从正态分布的假设，离群值界线值将如下计算：

F1、假设排序后数据形状服从正态分布，计算该组数据的均值μ和标准差σ；

F2、根据2σ原则获得Xmax的离群值界线值。

与现有技术相比，本发明的有益效果是：

1.本发明提供了一种针对截面数据的分布规律及其离群值的挖掘方法，可以用来代替人工进行数据分布规律和离群值的探索，节省分析人员的时间和精力。

2.本发明突破了传统2σ准则的局限性，解决了传统方法只能适应正态分布或近似正态分布模型的问题。

3.本发明丰富了内容输出，对于不同的分布模型采取不一样的策略洞察离群值，结果更加符合客观情况。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

请参阅图1，本发明提供了一种针对截面数据的分布规律及其离群值的挖掘方法，包括以下步骤：

S1、接收多维截面数据集；

S2、枚举维度度量两两组合：对每个维度匹配度量，将原始数据划分为多个包含单维数据的子空间，对每个子空间中的单维数据依次降序排列；

S3、对单维数据依次拟合模型：用幂律分布、指数分布、对数分布、线性分布、多项式分布、正态分布依次对每个子空间中的单维数据进行模型拟合，计算每种分布对应的拟合优度，选取拟合优度值最大的分布模型，拟合优度最大值≥0.95时，认为该分布模型服从该分布规律，按照此类模型分布的方法计算这组数据的离群值界线值；

其中，不同拟合模型分布采取不同方法提取离群值具体为：见表1。

表1

本发明可以用来代替人工进行数据分布规律和离群值的探索，节省分析人员的时间和精力，突破了传统2σ准则的局限性，解决了传统方法只能适应正态分布或近似正态分布模型的问题，丰富了内容输出，对于不同的分布模型采取不一样的策略洞察离群值，结果更加符合客观情况。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种针对截面数据的分布规律及其离群值的挖掘方法，其特征在于，包括以下步骤：

S1、接收多维截面数据集；

S2、枚举维度度量两两组合；

S3、对单维数据依次拟合模型；

2.根据权利要求1所述的一种针对截面数据的分布规律及其离群值的挖掘方法，其特征在于，所述S2中枚举维度度量两两组合具体为：对每个维度匹配度量，将原始数据划分为多个包含单维数据的子空间。

3.根据权利要求2所述的一种针对截面数据的分布规律及其离群值的挖掘方法，其特征在于，将原始数据划分为多个包含单维数据的子空间后，还对每个子空间中的单维数据依次降序排列。

4.根据权利要求3所述的一种针对截面数据的分布规律及其离群值的挖掘方法，其特征在于，所述S3中对单维数据依次拟合模型具体为：用幂律分布、指数分布、对数分布、线性分布、多项式分布、正态分布依次对每个子空间中的单维数据进行模型拟合，计算每种分布对应的拟合优度，选取拟合优度值最大的分布模型。

5.根据权利要求4所述的一种针对截面数据的分布规律及其离群值的挖掘方法，其特征在于，当拟合优度最大值≥s时，认为分布模型服从该分布，围绕该分布特征展开演算；其中，在当前的实现中，s＝0.95。

6.根据权利要求5所述的一种针对截面数据的分布规律及其离群值的挖掘方法，其特征在于：所述幂律分布计算单维数据的离群值界线值具体为：

A3、使用回归模型预测Xmax并获得对应的残差；

A4、根据2σ原则获得Xmax的离群值界线值。

7.根据权利要求5所述的一种针对截面数据的分布规律及其离群值的挖掘方法，其特征在于：所述指数分布计算单维数据的离群值界线值具体为：

B3、使用回归模型预测Xmax并获得对应的残差；

B4、根据2σ原则获得Xmax的离群值界线值。

8.根据权利要求5所述的一种针对截面数据的分布规律及其离群值的挖掘方法，其特征在于，所述对数分布计算单维数据的离群值界线值具体为：

C3、使用回归模型预测Xmax并获得对应的残差；

C4、根据2σ原则获得Xmax的离群值界。

9.根据权利要求5所述的一种针对截面数据的分布规律及其离群值的挖掘方法，其特征在于，所述线性分布计算单维数据的离群值界线值具体为：

D3、使用回归模型预测Xmax并获得对应的残差；

D4、根据2σ原则获得Xmax的离群值界线值。

10.根据权利要求5所述的一种针对截面数据的分布规律及其离群值的挖掘方法，其特征在于，所述多项式分布计算单维数据的离群值界线值具体为：

E3、使用回归模型预测Xmax并获得对应的残差；

E4、根据2σ原则获得Xmax的离群值界线值；

所述正态分布计算单维数据的离群值界线值具体为：

F2、根据2σ原则获得Xmax的离群值界线值。