CN115237996A - 一种针对截面数据的分布规律及其离群值的挖掘方法 - Google Patents
一种针对截面数据的分布规律及其离群值的挖掘方法 Download PDFInfo
- Publication number
- CN115237996A CN115237996A CN202210913338.0A CN202210913338A CN115237996A CN 115237996 A CN115237996 A CN 115237996A CN 202210913338 A CN202210913338 A CN 202210913338A CN 115237996 A CN115237996 A CN 115237996A
- Authority
- CN
- China
- Prior art keywords
- distribution
- outlier
- data
- value
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Optimization (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Algebra (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种针对截面数据的分布规律及其离群值的挖掘方法,其特征在于,包括以下步骤:S1、接收多维截面数据集;S2、枚举维度度量两两组合;S3、对单维数据依次拟合模型;S4、依据选择的拟合模型分布的方法计算数据的离群值界线值;S5、输出离群值界线值,高于该界线值的数据被定义为该分布下的离群值。本发明可以用来代替人工进行数据分布规律和离群值的探索,节省分析人员的时间和精力,突破了传统2σ准则的局限性,解决了传统方法只能适应正态分布或近似正态分布模型的问题,丰富了内容输出,对于不同的分布模型采取不一样的策略洞察离群值,结果更加符合客观情况。
Description
技术领域
本发明涉及数据挖掘技术领域,具体为一种针对截面数据的分布规律及其离群值的挖掘方法。
背景技术
随着云时代的来临,大数据吸引了越来越多的关注,企业日渐需要对海量的数据进行数据挖掘。通过挖掘这些数据的一些特征,比如离群值,能够将大量复杂的数据转化为精简可解读的洞察结论。针对单维数据,现有的主流离群值挖掘方法为2σ准则。
2σ准则先计算单维数据的标准偏差,按一定的概率确定一个区间,认为超过这个区间的值为离群值。此判别方法局限于对正态分布或近似正态分布的数据处理,在正态分布中σ代表标准差,μ代表均值,2σ准则为:数值分布在(μ-2σ,μ+2σ)中的概率为0.9545。但若数据本身不服从正态分布规律,则可能会得出不符合预期的结果。
发明内容
本发明的目的在于提供一种针对截面数据的分布规律及其离群值的挖掘方法,可以用来代替人工进行数据分布规律和离群值的探索,节省分析人员的时间和精力,突破了传统2σ准则的局限性,解决了传统方法只能适应正态分布或近似正态分布模型的问题,丰富了内容输出,对于不同的分布模型采取不一样的策略洞察离群值,结果更加符合客观情况,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种针对截面数据的分布规律及其离群值的挖掘方法,包括以下步骤:
S1、接收多维截面数据集;
S2、枚举维度度量两两组合;
S3、对单维数据依次拟合模型;
S4、依据选择的拟合模型分布的方法计算数据的离群值界线值;
S5、输出离群值界线值,高于该界线值的数据被定义为该分布下的离群值。
作为本发明的一种针对截面数据的分布规律及其离群值的挖掘方法优选的,所述S2中枚举维度度量两两组合具体为:对每个维度匹配度量,将原始数据划分为多个包含单维数据的子空间。
作为本发明的一种针对截面数据的分布规律及其离群值的挖掘方法优选的,将原始数据划分为多个包含单维数据的子空间后,还对每个子空间中的单维数据依次降序排列。
作为本发明的一种针对截面数据的分布规律及其离群值的挖掘方法优选的,所述S3中对单维数据依次拟合模型具体为:用幂律分布、指数分布、对数分布、线性分布、多项式分布、正态分布依次对每个子空间中的单维数据进行模型拟合,计算每种分布对应的拟合优度,选取拟合优度值最大的分布模型。
作为本发明的一种针对截面数据的分布规律及其离群值的挖掘方法优选的,当拟合优度最大值≥s时,认为分布模型服从该分布,围绕该分布特征展开演算;其中,在当前的实现中,s=0.95。
作为本发明的一种针对截面数据的分布规律及其离群值的挖掘方法优选的,所述幂律分布计算单维数据的离群值界线值具体为:
给定一组非负数值{X},对照{X}服从幂律分布的假设,离群值界线值将如下计算:
A1、假设排序后数据形状服从幂律分布,使用幂函数对{X}\{Xmax}中的值进行回归分析;
A2、假设回归残差服从高斯分布,第二步回归分析中的残差被用于训练高斯模型H;
A3、使用回归模型预测Xmax并获得对应的残差;
A4、根据2σ原则获得Xmax的离群值界线值。
作为本发明的一种针对截面数据的分布规律及其离群值的挖掘方法优选的,所述指数分布计算单维数据的离群值界线值具体为:
给定一组非负数值{X},对照{X}服从指数分布的假设,离群值界线值将如下计算:
B1、假设排序后数据形状服从幂律分布,使用指数函数对{X}\{Xmax}中的值进行回归分析;
B2、假设回归残差服从高斯分布,第二步回归分析中的残差被用于训练高斯模型H;
B3、使用回归模型预测Xmax并获得对应的残差;
B4、根据2σ原则获得Xmax的离群值界线值。
作为本发明的一种针对截面数据的分布规律及其离群值的挖掘方法优选的,所述对数分布计算单维数据的离群值界线值具体为:
给定一组数值{X},对照{X}服从对数分布的假设,离群值界线值将如下计算:
C1、假设排序后数据形状服从对数分布,使用对数函数对{X}\{Xmax}中的值进行回归分析;
C2、假设回归残差服从高斯分布,第二步回归分析中的残差被用于训练高斯模型H;
C3、使用回归模型预测Xmax并获得对应的残差;
C4、根据2σ原则获得Xmax的离群值界。
作为本发明的一种针对截面数据的分布规律及其离群值的挖掘方法优选的,所述线性分布计算单维数据的离群值界线值具体为:
给定一组数值{X},对照{X}服从线性分布的假设,离群值界线值将如下计算:
D1、假设排序后数据形状服从线性分布,使用一元线性函数对{X}\{Xmax}中的值进行回归分析;
D2、假设回归残差服从高斯分布,第二步回归分析中的残差被用于训练高斯模型H;
D3、使用回归模型预测Xmax并获得对应的残差;
D4、根据2σ原则获得Xmax的离群值界线值。
作为本发明的一种针对截面数据的分布规律及其离群值的挖掘方法优选的,所述多项式分布计算单维数据的离群值界线值具体为:
给定一组数值{X},对照{X}服从多项式分布的假设,其中多项式阶数为2或3,离群值界线值将如下计算:
E1、假设排序后数据形状服从多项式分布,使用一元二次函数(或一元三次函数)对{X}\{Xmax}中的值进行回归分析;
E2、假设回归残差服从高斯分布,第二步回归分析中的残差被用于训练高斯模型H;
E3、使用回归模型预测Xmax并获得对应的残差;
E4、根据2σ原则获得Xmax的离群值界线值;
所述正态分布计算单维数据的离群值界线值具体为:
给定一组数值{X},对照{X}服从正态分布的假设,离群值界线值将如下计算:
F1、假设排序后数据形状服从正态分布,计算该组数据的均值μ和标准差σ;
F2、根据2σ原则获得Xmax的离群值界线值。
与现有技术相比,本发明的有益效果是:
1.本发明提供了一种针对截面数据的分布规律及其离群值的挖掘方法,可以用来代替人工进行数据分布规律和离群值的探索,节省分析人员的时间和精力。
2.本发明突破了传统2σ准则的局限性,解决了传统方法只能适应正态分布或近似正态分布模型的问题。
3.本发明丰富了内容输出,对于不同的分布模型采取不一样的策略洞察离群值,结果更加符合客观情况。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
请参阅图1,本发明提供了一种针对截面数据的分布规律及其离群值的挖掘方法,包括以下步骤:
S1、接收多维截面数据集;
S2、枚举维度度量两两组合:对每个维度匹配度量,将原始数据划分为多个包含单维数据的子空间,对每个子空间中的单维数据依次降序排列;
S3、对单维数据依次拟合模型:用幂律分布、指数分布、对数分布、线性分布、多项式分布、正态分布依次对每个子空间中的单维数据进行模型拟合,计算每种分布对应的拟合优度,选取拟合优度值最大的分布模型,拟合优度最大值≥0.95时,认为该分布模型服从该分布规律,按照此类模型分布的方法计算这组数据的离群值界线值;
S4、依据选择的拟合模型分布的方法计算数据的离群值界线值;
其中,不同拟合模型分布采取不同方法提取离群值具体为:见表1。
表1
S5、输出离群值界线值,高于该界线值的数据被定义为该分布下的离群值。
本发明可以用来代替人工进行数据分布规律和离群值的探索,节省分析人员的时间和精力,突破了传统2σ准则的局限性,解决了传统方法只能适应正态分布或近似正态分布模型的问题,丰富了内容输出,对于不同的分布模型采取不一样的策略洞察离群值,结果更加符合客观情况。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种针对截面数据的分布规律及其离群值的挖掘方法,其特征在于,包括以下步骤:
S1、接收多维截面数据集;
S2、枚举维度度量两两组合;
S3、对单维数据依次拟合模型;
S4、依据选择的拟合模型分布的方法计算数据的离群值界线值;
S5、输出离群值界线值,高于该界线值的数据被定义为该分布下的离群值。
2.根据权利要求1所述的一种针对截面数据的分布规律及其离群值的挖掘方法,其特征在于,所述S2中枚举维度度量两两组合具体为:对每个维度匹配度量,将原始数据划分为多个包含单维数据的子空间。
3.根据权利要求2所述的一种针对截面数据的分布规律及其离群值的挖掘方法,其特征在于,将原始数据划分为多个包含单维数据的子空间后,还对每个子空间中的单维数据依次降序排列。
4.根据权利要求3所述的一种针对截面数据的分布规律及其离群值的挖掘方法,其特征在于,所述S3中对单维数据依次拟合模型具体为:用幂律分布、指数分布、对数分布、线性分布、多项式分布、正态分布依次对每个子空间中的单维数据进行模型拟合,计算每种分布对应的拟合优度,选取拟合优度值最大的分布模型。
5.根据权利要求4所述的一种针对截面数据的分布规律及其离群值的挖掘方法,其特征在于,当拟合优度最大值≥s时,认为分布模型服从该分布,围绕该分布特征展开演算;其中,在当前的实现中,s=0.95。
6.根据权利要求5所述的一种针对截面数据的分布规律及其离群值的挖掘方法,其特征在于:所述幂律分布计算单维数据的离群值界线值具体为:
给定一组非负数值{X},对照{X}服从幂律分布的假设,离群值界线值将如下计算:
A1、假设排序后数据形状服从幂律分布,使用幂函数对{X}\{Xmax}中的值进行回归分析;
A2、假设回归残差服从高斯分布,第二步回归分析中的残差被用于训练高斯模型H;
A3、使用回归模型预测Xmax并获得对应的残差;
A4、根据2σ原则获得Xmax的离群值界线值。
7.根据权利要求5所述的一种针对截面数据的分布规律及其离群值的挖掘方法,其特征在于:所述指数分布计算单维数据的离群值界线值具体为:
给定一组非负数值{X},对照{X}服从指数分布的假设,离群值界线值将如下计算:
B1、假设排序后数据形状服从幂律分布,使用指数函数对{X}\{Xmax}中的值进行回归分析;
B2、假设回归残差服从高斯分布,第二步回归分析中的残差被用于训练高斯模型H;
B3、使用回归模型预测Xmax并获得对应的残差;
B4、根据2σ原则获得Xmax的离群值界线值。
8.根据权利要求5所述的一种针对截面数据的分布规律及其离群值的挖掘方法,其特征在于,所述对数分布计算单维数据的离群值界线值具体为:
给定一组数值{X},对照{X}服从对数分布的假设,离群值界线值将如下计算:
C1、假设排序后数据形状服从对数分布,使用对数函数对{X}\{Xmax}中的值进行回归分析;
C2、假设回归残差服从高斯分布,第二步回归分析中的残差被用于训练高斯模型H;
C3、使用回归模型预测Xmax并获得对应的残差;
C4、根据2σ原则获得Xmax的离群值界。
9.根据权利要求5所述的一种针对截面数据的分布规律及其离群值的挖掘方法,其特征在于,所述线性分布计算单维数据的离群值界线值具体为:
给定一组数值{X},对照{X}服从线性分布的假设,离群值界线值将如下计算:
D1、假设排序后数据形状服从线性分布,使用一元线性函数对{X}\{Xmax}中的值进行回归分析;
D2、假设回归残差服从高斯分布,第二步回归分析中的残差被用于训练高斯模型H;
D3、使用回归模型预测Xmax并获得对应的残差;
D4、根据2σ原则获得Xmax的离群值界线值。
10.根据权利要求5所述的一种针对截面数据的分布规律及其离群值的挖掘方法,其特征在于,所述多项式分布计算单维数据的离群值界线值具体为:
给定一组数值{X},对照{X}服从多项式分布的假设,其中多项式阶数为2或3,离群值界线值将如下计算:
E1、假设排序后数据形状服从多项式分布,使用一元二次函数(或一元三次函数)对{X}\{Xmax}中的值进行回归分析;
E2、假设回归残差服从高斯分布,第二步回归分析中的残差被用于训练高斯模型H;
E3、使用回归模型预测Xmax并获得对应的残差;
E4、根据2σ原则获得Xmax的离群值界线值;
所述正态分布计算单维数据的离群值界线值具体为:
给定一组数值{X},对照{X}服从正态分布的假设,离群值界线值将如下计算:
F1、假设排序后数据形状服从正态分布,计算该组数据的均值μ和标准差σ;
F2、根据2σ原则获得Xmax的离群值界线值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210913338.0A CN115237996A (zh) | 2022-08-01 | 2022-08-01 | 一种针对截面数据的分布规律及其离群值的挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210913338.0A CN115237996A (zh) | 2022-08-01 | 2022-08-01 | 一种针对截面数据的分布规律及其离群值的挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115237996A true CN115237996A (zh) | 2022-10-25 |
Family
ID=83676855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210913338.0A Pending CN115237996A (zh) | 2022-08-01 | 2022-08-01 | 一种针对截面数据的分布规律及其离群值的挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115237996A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591530A (zh) * | 2024-01-17 | 2024-02-23 | 杭银消费金融股份有限公司 | 一种数据截面处理方法及系统 |
-
2022
- 2022-08-01 CN CN202210913338.0A patent/CN115237996A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591530A (zh) * | 2024-01-17 | 2024-02-23 | 杭银消费金融股份有限公司 | 一种数据截面处理方法及系统 |
CN117591530B (zh) * | 2024-01-17 | 2024-04-19 | 杭银消费金融股份有限公司 | 一种数据截面处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106845717B (zh) | 一种基于多模型融合策略的能源效率评价方法 | |
CN112381137B (zh) | 新能源电力系统可靠性评估方法、装置、设备及存储介质 | |
CN110826618A (zh) | 一种基于随机森林的个人信用风险评估方法 | |
CN117113235B (zh) | 一种云计算数据中心能耗优化方法及系统 | |
CN110717610A (zh) | 一种基于数据挖掘的风电功率预测方法 | |
CN110795690A (zh) | 风电场运行异常数据检测方法 | |
CN111338950A (zh) | 一种基于谱聚类的软件缺陷特征选择方法 | |
CN115795131B (zh) | 基于人工智能的电子档案分类方法、装置及电子设备 | |
CN115237996A (zh) | 一种针对截面数据的分布规律及其离群值的挖掘方法 | |
CN115034485A (zh) | 一种基于数据空间的风电功率区间预测方法及装置 | |
CN113569462A (zh) | 一种计及天气因素的配电网故障等级预测方法及系统 | |
CN116821832A (zh) | 针对高压工商业用户用电负荷的异常数据辨识与修正方法 | |
CN117743870A (zh) | 一种基于大数据的水利数据管理系统 | |
CN116365519B (zh) | 一种电力负荷预测方法、系统、存储介质及设备 | |
CN113177643A (zh) | 一种基于大数据的自动建模系统 | |
CN115034278A (zh) | 性能指标异常检测方法、装置、电子设备和存储介质 | |
CN113705920B (zh) | 火电厂用水数据样本集的生成方法和终端设备 | |
CN111882289B (zh) | 一种项目数据审核指标区间测算的装置和方法 | |
CN114677052A (zh) | 基于tarch模型的天然气负荷波动非对称性分析方法及系统 | |
CN109493249B (zh) | 一种用电数据在多时间尺度上的分析方法 | |
CN115438101B (zh) | 一种基于特征形态和数据关系的数据特征构建系统和方法 | |
CN113723835B (zh) | 火电厂用水评估方法和终端设备 | |
CN111881182A (zh) | 一种基于多源异构特征的数据集概况测评方法 | |
CN112732549A (zh) | 基于聚类分析的测试程序分类方法 | |
Zhu et al. | Research of system fault diagnosis method based on imbalanced data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |