CN111737249A - 基于Lasso算法的异常数据检测方法及装置 - Google Patents
基于Lasso算法的异常数据检测方法及装置 Download PDFInfo
- Publication number
- CN111737249A CN111737249A CN202010859396.0A CN202010859396A CN111737249A CN 111737249 A CN111737249 A CN 111737249A CN 202010859396 A CN202010859396 A CN 202010859396A CN 111737249 A CN111737249 A CN 111737249A
- Authority
- CN
- China
- Prior art keywords
- data
- abnormal
- power consumption
- training sample
- consumption data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 116
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 65
- 238000001514 detection method Methods 0.000 title claims abstract description 62
- 238000012549 training Methods 0.000 claims abstract description 79
- 230000005611 electricity Effects 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 41
- 239000000126 substance Substances 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000002547 anomalous effect Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 230000008439 repair process Effects 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000000737 periodic effect Effects 0.000 claims description 4
- 238000011084 recovery Methods 0.000 claims 1
- 230000005856 abnormality Effects 0.000 abstract description 9
- 230000008569 process Effects 0.000 abstract description 9
- 238000007405 data analysis Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000009795 derivation Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000035772 mutation Effects 0.000 description 5
- 238000005065 mining Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Computational Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Algebra (AREA)
- General Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本申请属于大数据技术领域,具体涉及一种基于Lasso算法的异常数据检测方法和装置。其中的方法包括:从电力大数据采集和应用系统中获取待检测数据集和训练样本集,基于Lasso算法对训练样本集进行学习,训练优化得到用电数据预测模型;以待检测数据集中每个实际用电数据的生成日期作为输入,通过所述用电数据预测模型获取各实际用电数据对应的预测用电数据;基于预测用电数据进行异常检测。本申请中的方法基于Lasso算法建立的用电数据预测模型,模型精度高,检测速度快,可以在电力数据采集过程中对数据进行实时检测。
Description
技术领域
本申请属于大数据技术领域,具体涉及一种基于Lasso算法的异常数据检测方法和装置。
背景技术
随着时间的累积,电网公司在生产经营中集聚了海量多维的电力数据,由于电力数据与居民生活、企业生产的汲汲相关,通过各类电力数据价值的融合挖掘技术,打造基于人工智能的电力大数据应用普适化平台,可及时、精准、多视角的反应民生和经济发展情况。如企业复工复产数据监测、企业信用评估、“电力消费指数”监控、转供电企业识别等。
日负荷、日电量、日运行容量、日报装容量等时序类数据是电力数据重要组成部分,其具有粒度细、数据量大等特征。由于数据在存储过程中容易受采集设备故障、业务突变等影响,因此由数据采集异常、数据存储异常、业务突变导致产生大量的不同类型的异常数据。异常数据存在将影响数据分析的结果,因此异常数据的挖掘是开展数据分析的必不可少的工作。
常见的异常数据挖掘方法包括基于统计模型、基于距离模型、基于密度模型、基于偏离模型等方法,其中利用统计学方法处理异常数据挖掘有一套独立完整的理论及方法,但是模型运用时需要事先知道模型参数,分布参数,及逾期异常点数据,模型应用的灵活性有较大局限。
发明内容
鉴于现有技术的上述缺点、不足,本申请提供一种基于Lasso算法的异常数据检测方法和装置。
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请实施例提供一种基于Lasso算法的异常数据检测方法,该方法包括:
从电力大数据采集和应用系统中获取待检测数据集和训练样本集,所述待检测数据集是由不同日期产生的实际用电数据组成的时序数据序列,所述训练样本集是待检测数据集之前产生的历史用电数据组成的时序数据序列;
以训练样本的数据生成日期为变量,以数据生成日期的日历特征和当前训练样本之前的历史用电数据数值特征为变量特征,基于Lasso算法对模型进行训练优化,得到用电数据预测模型;
以所述待检测数据集中每个实际用电数据的生成日期作为输入,通过所述用电数据预测模型获取各实际用电数据对应的预测用电数据;
对所述待检测数据集中的每个实际用电数据,基于相应的预测用电数据进行异常检测。
可选地,所述日历特征包括:月份、星期、季度、是否月初第一天、是否月末最后一天、是否季度第一天、是否季度最后一天、是否周末、假期类型。
可选地,所述历史用电数据数值特征包括:当前日期往前平移5天的数值、当前日期往前平移6个天的数值、当前日期往前平移7天的数值、当前日期往前平移8天的数值、去年同期月日均数值、上个月日均数值、当前日期所对应假期类型的平均数值。
可选地,对训练样本集进行学习训练前,对所述训练样本集进行数据清洗,包括:
利用S-H-ESD 算法识别所述训练样本集中的异常数据;
通过均值插补法对识别的异常数据进行数据修复。
可选地,利用S-H-ESD 算法识别所述训练样本集中的异常数据,包括:
S01、采用STL算法将所述训练样本集中的时序数据分解为趋势分量、周期分量和余项分量,将所述余项分量作为第一余项分量;
S02、基于所述训练样本集中时序数据的中位数和所述周期分量计算得到第二余项分量,计算公式为:R'=X-median(X)-S其中,R' 表示第二余项分量,X表示训练样本集,median (X)表示X的中位数,S表示周期分量;
S03、计算所述第二余项分量的数据序列与中位数偏离的最远残差,作为检验统计量;
S04、计算当前样本的临界值;
S05、比较所述检验统计量和所述临界值;
S06、若所述检验统计量大于所述临界值,则标记当前样本数据为异常数据;
S07、迭代执行步骤S01-步骤S06,对所述训练样本集中每个数据进行检测。
可选地,所述均值插补法为采用异常数据相邻的前2个与后2个非异常数据的均值进行数据修复:
可选地,对所述待检测数据集中的每个实际用电数据,基于相应的预测用电数据进行异常检测,包括:
基于所述预测用电数据,得到实际用电数据与所述预测用电数据的数值之差;
当数值之差的绝对值大于预设阈值时,判断所述实际用电数据为异常数据;否则,判断所述实际用电数据为正常数据。
可选地,所述预设阈值为基于所述S-H-ESD 算法中的余项分量计算得到的波动系数,所述波动系数的计算方法为:
可选地,该方法还包括:对检测得到的异常数据进行异常类型判断,具体包括:
当所述异常数据与预测用电数据之差为正,且大于所述预设阈值时,判断所述异常数据的异常类型为突增;
当所述异常数据与预测用电数据之差为负,且绝对值大于所述预设阈值时,判断所述异常数据的异常类型为突减。
第二方面,本申请实施例提供一种基于Lasso算法的异常数据检测装置,该装置包括:
数据集获取模块,用于从电力大数据采集和应用系统中获取待检测数据集和训练样本集,所述待检测数据集是由不同日期产生的实际用电数据组成的时序数据序列,所述训练样本集是待检测数据集之前产生的历史用电数据组成的时序数据序列;
用电数据预测模型生成模块,用于以训练样本的数据生成日期为变量,以数据生成日期的日历特征和当前训练样本之前的历史用电数据数值特征为变量特征,基于Lasso算法对模型进行训练优化,得到用电数据预测模型;
预测用电数据生成模块,用于以所述待检测数据集中每个实际用电数据的生成日期作为输入,通过所述用电数据预测模型获取各实际用电数据对应的预测用电数据;
异常检测模块,用于对所述待检测数据集中的每个实际用电数据,基于相应的预测用电数据进行异常检测。
本申请的有益效果是:本申请提出了一种基于Lasso算法的异常数据检测方法和装置,其中的方法包括:从电力大数据采集和应用系统中获取待检测数据集和训练样本集,基于Lasso算法对训练样本集进行学习,训练优化得到用电数据预测模型;以待检测数据集中每个实际用电数据的生成日期作为输入,通过所述用电数据预测模型获取各实际用电数据对应的预测用电数据;基于预测用电数据进行异常检测。本申请中的方法基于Lasso算法建立的用电数据预测模型,模型精度高,检测速度快,可以在电力数据采集过程中对数据进行实时检测。
附图说明
本申请借助于以下附图进行描述:
图1为本申请一个实施例中的基于Lasso算法的异常数据检测方法流程示意图;
图2为本申请另一个实施例中的基于Lasso算法的异常数据检测方法流程示意图;
图3为本申请一个实施例中的基于Lasso算法的异常数据检测装置架构示意图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。可以理解的是,以下所描述的具体的实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合;为了便于描述,附图中仅示出了与发明相关的部分。
伴随着大数据技术的发展,大数据分析计算平台也被提出和研发,不同于传统的计算统计分析软件,大数据分析计算平台支持更多种类的数据输入、更复杂的数据分析算法,提供更强大的数据计算分析能力。但由于数据采集异常、数据存储异常、业务突变会导致产生大量的不同类型的异常数据,异常数据存在将影响数据分析的结果,因此针对电力大数据采集和应用系统,本申请提出一种基于Lasso算法的异常数据检测方法,进行电力大数据中的异常数据检测和识别。下面将参考附图并结合实施例来详细说明本申请。
实施例一
图1示出了本申请一个实施例中的基于Lasso算法的异常数据检测方法流程示意图。如图所示,本实施例的基于Lasso算法的异常数据检测方法包括:
S10、从电力大数据采集和应用系统中获取待检测数据集和训练样本集,待检测数据集是由不同日期产生的实际用电数据组成的时序数据序列,训练样本集是待检测数据集之前产生的历史用电数据组成的时序数据序列;
S20、以训练样本的数据生成日期为变量,以数据生成日期的日历特征和当前训练样本之前的历史用电数据数值特征为变量特征,基于Lasso算法对模型进行训练优化,得到用电数据预测模型;
S30、以待检测数据集中每个实际用电数据的生成日期作为输入,通过用电数据预测模型获取各实际用电数据对应的预测用电数据;
S40、对待检测数据集中的每个实际用电数据,基于相应的预测用电数据进行异常检测。
本发明方法结合了Lasso回归算法快速的参数估计和准确的回归拟合这样优良的特性,在保证检测速度的基础上,提高了对于异常数据的判断的准确率,在数据处理过程中,通过稀疏表示的方法,使得数据维度大大降低,减少了模型检测的时间,具有更快的检测速度。
在一些实施例中,日历特征包括:月份、星期、季度、是否月初第一天、是否月末最后一天、是否季度第一天、是否季度最后一天、是否周末、假期类型。
在一些实施例中,历史用电数据数值特征包括:当前日期往前平移5天的数值、当前日期往前平移6个天的数值、当前日期往前平移7天的数值、当前日期往前平移8天的数值、去年同期月日均数值、上个月日均数值、当前日期所对应假期类型的平均数值。
通过电力大数据的分析,发现电力数据与生成日期有关,同时又与之前的历史数据相关联。因此在特征选取时,不仅选取日期的日历特征,同时还充分考虑了相邻时段电力数据与当前日期电力数据的相关性,以及去年、上月同期的统计特征对数据进行多维度特征指标构建,再运用Lasso特征选取模型,进一步对特征进行筛选,从而可以通过本发明的用电数据预测模型准确预测待检测日期的用电数据。存在将相邻时段的用电数据作为特征,实现了基于时间序列预测算法的异常数据智能识别,从而提高了异常数据的识别精度。
优选地,对训练样本集进行学习训练前,对训练样本集进行数据清洗,包括:
利用S-H-ESD 算法识别训练样本集中的异常数据;
通过均值插补法对识别的异常数据进行数据修复。
在一些实施例中,利用S-H-ESD 算法识别训练样本集中的异常数据,包括:
S01、采用STL算法将训练样本集中的时序数据分解为趋势分量、周期分量和余项分量,将余项分量作为第一余项分量;
S02、基于训练样本集中时序数据的中位数和所述周期分量计算得到第二余项分量,计算公式为:R'=X-median(X)-S其中,R'表示第二余项分量,X表示训练样本集,median(X)表示X的中位数,S表示周期分量;
S03、计算第二余项分量的数据序列与中位数偏离的最远残差,作为检验统计量;
S04、计算当前样本的临界值;
S05、比较检验统计量和临界值;
S06、若检验统计量大于临界值,则标记当前样本数据为异常数据,
S07、迭代执行步骤S01-步骤S06,对训练样本集中每个数据进行检测。
在一些实施例中,所述均值插补法为采用异常数据相邻的前2个与后2个非异常数据的均值进行数据修复,如公式(2)所示:
本发明实施例在构建时间序列模型时,运用S-H-ESD算法快速高效定位训练样本集中的噪音数据,并进行数据就修复,大力提升了模型的准确率。
在一些实施例中,对待检测数据集中的每个实际用电数据,基于相应的预测用电数据进行异常检测,包括:
基于预测用电数据,得到实际用电数据与预测用电数据的数值之差;
当数值之差的绝对值大于预设阈值时,判断实际用电数据为异常数据;否则,判断实际用电数据为正常数据。
优选地,预设阈值为基于S-H-ESD 算法中的余项分量计算得到的波动系数,波动系数的计算方法如公式(3)所示:
在一些实施例中,该方法还包括:对检测得到的异常数据进行异常类型判断,具体包括:
当异常数据与预测用电数据之差为正,且大于预设阈值时,判断异常数据的异常类型为突增;
当异常数据与预测用电数据之差为负,且绝对值大于预设阈值时,判断异常数据的异常类型为突减。
通过本发明方法能够记录数据异常突变的时间、数据异常类型,为数据突变原因及对业务的影响的分析奠定坚定的基础。
需要说明的是,在实际实施过程中,采用本发明方法能够通过不断更新样本数据进行模型自学习及优化,从而可以实现实时在线检测。
基于Lasso算法建立的用电数据预测模型,模型精度高,检测速度快,可以在电力数据采集过程中对数据进行实时检测。
实施例二
图2为本申请另一个实施例中的基于Lasso算法的异常数据检测方法流程示意图,如图2所示,该方法包括:
步骤1、依据数据待检测日期要求,将数据划分成训练集及检测集。
本实施例中,输入待检测的时序类数据集,包含日期及指标值2个字段,设置需检测数据是否异常的起始日期a,由此将日期<a的数据集划分为训练集,将日期≥a的数据集划分为检测集。
步骤2、依据步骤1中划分的训练集,利用S-H-ESD 进行噪音识别,挖掘训练集中的异常数据。
本实施例中,步骤2具体包括以下步骤:
步骤21、运用STL算法将时间序列数据分解为趋势分量、周期分量和余项分量。
训练集作为原始数据序列,如式(4)所示:
运用STL算法将时间序列数据分解为如式(5)所示的趋势分量序列、如式(6)所示的周期分量序列和如式(7)所示的余项分量序列;
则任意i时刻的x i满足式(8)的条件约束;
步骤22、将趋势分量S替换成X的中位数,如式(9)所示,得到新的余项分量R':
R'=X-median(X)-S (9)
其中,median(X)表示X的中位数。
新的余项分量R'表示如式(10)所示:
步骤23、根据R'判断任意i(i>=1)时刻是否为异常点。
删除上一轮最大残差样本数据后,计算检验统计量,即通过公式(11)计算本轮数据序列与中位数偏离最远的残差;
根据公式(12)计算临界值:
步骤3、依据步骤2噪音识别结果,运用均值插补法对训练集中的噪音数据进行数据修复;
步骤4、结合步骤3数据修复结果,通过对日期类型、及不同日期对应的数值分析进行特征指标衍生。
本实施例中,特征指标的衍生包括日期的特征指标衍生和其他数值型的特征指标衍生。根据具体日期衍生出月份、星期几、季度、是否月初第一天、是否月末最后一天、是否季度第一天、是否季度最后一天、是否周末、假期类型9大指标,如表1所示:
根据各日期对应的具体指标值衍生当前日期往前平移5天的数值、当前日期往前平移6个天的数值、当前日期往前平移7天的数值、当前日期往前平移8天的数值、去年同期月日均数值、上个月日均数值、当前日期所对应假期类型的平均数值7大指标。
步骤5、在步骤4基础上,基于Lasso回归算法构建时间序列预测模型。
本实施例中,以步骤4形成的指标为自变量指标,如式(14)所示:
以修复后数据的每个日期对应的数值为因变量, 如式(15)所示:
步骤6、根据步骤1生成的检测集的具体待检测日期及步骤5生成的时间预测模型,输出各待检测日期正常值的上下限。
本实施例中,步骤6具体包括:
步骤S61、根据检测集输入检测日期;
步骤S62、基于步骤5生成的时间预测模型,输出各待检测日期的预测值,具体公式(17)所示:
步骤S64、基于波动系数输出各待检测日期正常值的上下限,具体如公式(19)和(20)所示:
步骤7、根据步骤6的各待检测日期正常值的上下限,根据数据异常判别模型输出各检测日期的数据类型(正常、突增、突减)。
本实施例中,步骤7具体包括以下步骤:
本发明对异常数据挖掘进行深入研究,综合统计模型、距离模型、密度模型、偏离模型理论基础,构建一种综合考虑时序季节性因素,实时进行异常数据监测的异常数据智能识别方法。通过智能识别方法对异常数据进行智能化判别,适用于各类时序类的电力数据,为人工智能的电力大数据应用普适化平台的智能化运行奠定了基础。
通过本发明的方法能够实现在数据采集过程中对异常数据进行及时检测,便于人工智能的电力大数据应用普适化平台使用过程中及时发现异常数据并做检验及修正,保证数据输出的准确性。
实施例三
本申请第二方面提出了一种基于Lasso算法的异常数据检测装置。图3为本申请一个实施例中的基于Lasso算法的异常数据检测装置架构示意图。如图所示,本实施例中的基于Lasso算法的异常数据检测装置100,可以包括:
数据集获取模块101,用于从电力大数据采集和应用系统中获取待检测数据集和训练样本集,待检测数据集是由不同日期产生的实际用电数据组成的时序数据序列,训练样本集是待检测数据集之前产生的历史用电数据组成的时序数据序列;
用电数据预测模型生成模块102,用于以训练样本的数据生成日期为变量,以数据生成日期的日历特征和当前训练样本之前的历史用电数据数值特征为变量特征,基于Lasso算法对模型进行训练优化,得到用电数据预测模型;
预测用电数据生成模块103,用于以待检测数据集中每个实际用电数据的生成日期作为输入,通过用电数据预测模型获取各实际用电数据对应的预测用电数据;
异常检测模块104,用于对待检测数据集中的每个实际用电数据,基于相应的预测用电数据进行异常检测。
上述基于Lasso算法的异常数据检测装置可执行本申请实施例所提供的基于Lasso算法的异常数据检测方法,具备执行方法相应的功能模块和有益效果。至于其中各个功能模块所执行的处理方法,例如数据集获取模块101、用电数据预测模型生成模块102、预测用电数据生成模块103以及异常检测模块104,可参照上述方法实施例中的描述,此处不再进行赘述。
上述的数据集获取模块101、用电数据预测模型生成模块102、预测用电数据生成模块103以及异常检测模块104通常可以设置在终端设备或服务器中。
用来实现本申请实施例的终端设备或服务器的计算机系统可以包括中央处理单元(CPU),其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
在一些实施例中,基于Lasso算法的异常数据检测装置还包括降噪处理模块,用于对训练样本集进行学习训练前,对所述训练样本集进行数据清洗。降噪处理模块包括:时间序列数据分解组件和异常数据修复组件。
异常数据识别组件,用于利用S-H-ESD 算法识别所述训练样本集中的异常数据;
异常数据修复组件,用于利用均值插补法进行异常数据修复,根据异常点前2个与后2个非异常点的均值进行数据修复。
在一些实施例中,用电数据预测模型生成模块还包括特征构建组件,用于将原始数据导入组件后,根据特征指标衍生规则各日期自动生成16大特征指标对应的数值。
在一些实施例中,异常检测模块用于根据S-H-ESD算法获取的样本数据的余项分量,根据变异系数计算得出余项分量的波动系数,结合待检测日期的预测值获取数据异常取值范围作为检验标准。
在一些实施例中,基于Lasso算法的异常数据检测装置还包括异常类型判断模块,用于对检测得到的异常数据进行异常类型判断。优选地,可以根据异常点数值与正常日期数值的比对判断数据异常类型。
应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。
此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。
Claims (10)
1.基于Lasso算法的异常数据检测方法,其特征在于,该方法包括:
从电力大数据采集和应用系统中获取待检测数据集和训练样本集,所述待检测数据集是由不同日期产生的实际用电数据组成的时序数据序列,所述训练样本集是待检测数据集之前产生的历史用电数据组成的时序数据序列;
以训练样本的数据生成日期为变量,以数据生成日期的日历特征和当前训练样本之前的历史用电数据数值特征为变量特征,基于Lasso算法对模型进行训练优化,得到用电数据预测模型;
以所述待检测数据集中每个实际用电数据的生成日期作为输入,通过所述用电数据预测模型获取各实际用电数据对应的预测用电数据;
对所述待检测数据集中的每个实际用电数据,基于相应的预测用电数据进行异常检测。
2.根据权利要求1所述的基于Lasso算法的异常数据检测方法,其特征在于,所述日历特征包括:月份、星期、季度、是否月初第一天、是否月末最后一天、是否季度第一天、是否季度最后一天、是否周末、假期类型。
3.根据权利要求1所述的基于Lasso算法的异常数据检测方法,其特征在于,所述历史用电数据数值特征包括:当前日期往前平移5天的数值、当前日期往前平移6个天的数值、当前日期往前平移7天的数值、当前日期往前平移8天的数值、去年同期月日均数值、上个月日均数值、当前日期所对应假期类型的平均数值。
4.根据权利要求2或3所述的基于Lasso算法的异常数据检测方法,其特征在于,对训练样本集进行学习训练前,对所述训练样本集进行数据清洗,包括:
利用S-H-ESD算法识别所述训练样本集中的异常数据;
通过均值插补法对识别的异常数据进行数据修复。
5.根据权利要求4所述的基于Lasso算法的异常数据检测方法,其特征在于,利用S-H-ESD 算法识别所述训练样本集中的异常数据,包括:
S01、采用STL算法将所述训练样本集中的时序数据分解为趋势分量、周期分量和余项分量,将所述余项分量作为第一余项分量;
S02、基于所述训练样本集中时序数据的中位数和所述周期分量计算得到第二余项分量,计算公式为:R'=X-median(X)-S其中,R'表示第二余项分量,X表示训练样本集,median(X)表示X的中位数,S表示周期分量;
S03、计算所述第二余项分量的数据序列与中位数偏离的最远残差,作为检验统计量;
S04、计算当前样本的临界值;
S05、比较所述检验统计量和所述临界值;
S06、若所述检验统计量大于所述临界值,则标记当前样本数据为异常数据,
S07、迭代执行步骤S01-步骤S06,对所述训练样本集中每个数据进行检测。
7.根据权利要求4所述的基于Lasso算法的异常数据检测方法,其特征在于,对所述待检测数据集中的每个实际用电数据,基于相应的预测用电数据进行异常检测,包括:
基于所述预测用电数据,得到实际用电数据与所述预测用电数据的数值之差;
当数值之差的绝对值大于预设阈值时,判断所述实际用电数据为异常数据;否则,判断所述实际用电数据为正常数据。
9.根据权利要求7所述的基于Lasso算法的异常数据检测方法,其特征在于,该方法还包括:对检测得到的异常数据进行异常类型判断,具体包括:
当所述异常数据与预测用电数据之差为正,且大于所述预设阈值时,判断所述异常数据的异常类型为突增;
当所述异常数据与预测用电数据之差为负,且绝对值大于所述预设阈值时,判断所述异常数据的异常类型为突减。
10.基于Lasso算法的异常数据检测装置,其特征在于,该装置包括:
数据集获取模块,用于从电力大数据采集和应用系统中获取待检测数据集和训练样本集,所述待检测数据集是由不同日期产生的实际用电数据组成的时序数据序列,所述训练样本集是待检测数据集之前产生的历史用电数据组成的时序数据序列;
用电数据预测模型生成模块,用于以训练样本的数据生成日期为变量,以数据生成日期的日历特征和当前训练样本之前的历史用电数据数值特征为变量特征,基于Lasso算法对模型进行训练优化,得到用电数据预测模型;
预测用电数据生成模块,用于以所述待检测数据集中每个实际用电数据的生成日期作为输入,通过所述用电数据预测模型获取各实际用电数据对应的预测用电数据;
异常检测模块,用于对所述待检测数据集中的每个实际用电数据,基于相应的预测用电数据进行异常检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010859396.0A CN111737249A (zh) | 2020-08-24 | 2020-08-24 | 基于Lasso算法的异常数据检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010859396.0A CN111737249A (zh) | 2020-08-24 | 2020-08-24 | 基于Lasso算法的异常数据检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111737249A true CN111737249A (zh) | 2020-10-02 |
Family
ID=72658708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010859396.0A Pending CN111737249A (zh) | 2020-08-24 | 2020-08-24 | 基于Lasso算法的异常数据检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737249A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284002A (zh) * | 2021-04-09 | 2021-08-20 | 南方电网数字电网研究院有限公司 | 用电数据异常检测方法、装置、计算机设备和存储介质 |
CN113468751A (zh) * | 2021-07-05 | 2021-10-01 | 河南中烟工业有限责任公司 | 基于递推Lasso的流量计异常在线监测方法、系统和存储介质 |
CN114996318A (zh) * | 2022-07-12 | 2022-09-02 | 成都唐源电气股份有限公司 | 一种检测数据异常值处理方式的自动判别方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109443419A (zh) * | 2018-08-31 | 2019-03-08 | 广州市世科高新技术有限公司 | 一种基于机器学习的整流器在线监测方法 |
CN110084398A (zh) * | 2019-03-15 | 2019-08-02 | 国网上海市电力公司 | 一种基于企业电力大数据的行业景气自适应检测方法 |
US20190297098A1 (en) * | 2016-08-16 | 2019-09-26 | International Business Machines Corporation | Smart intrusion prevention policy |
CN110459056A (zh) * | 2019-08-26 | 2019-11-15 | 南通大学 | 一种基于lstm神经网络的公交到站时间预测方法 |
CN111047091A (zh) * | 2019-12-11 | 2020-04-21 | 国家电网有限公司 | 基于lasso与rnn的省级能源利用效率预测方法 |
-
2020
- 2020-08-24 CN CN202010859396.0A patent/CN111737249A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190297098A1 (en) * | 2016-08-16 | 2019-09-26 | International Business Machines Corporation | Smart intrusion prevention policy |
CN109443419A (zh) * | 2018-08-31 | 2019-03-08 | 广州市世科高新技术有限公司 | 一种基于机器学习的整流器在线监测方法 |
CN110084398A (zh) * | 2019-03-15 | 2019-08-02 | 国网上海市电力公司 | 一种基于企业电力大数据的行业景气自适应检测方法 |
CN110459056A (zh) * | 2019-08-26 | 2019-11-15 | 南通大学 | 一种基于lstm神经网络的公交到站时间预测方法 |
CN111047091A (zh) * | 2019-12-11 | 2020-04-21 | 国家电网有限公司 | 基于lasso与rnn的省级能源利用效率预测方法 |
Non-Patent Citations (5)
Title |
---|
TREANT: "时间序列列异常检测算法S-H-ESD", 《HTTPS://WWW.CNBLOGS.COM/EN-HENG/P/9202654.HTML》 * |
刘晓宁: "基于Lasso的非侵入式家庭电力负荷分解特征选择算法研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 * |
张航飞: "基于 Lasso-PCA 及改进自适应遗传神经网络的电力负荷预测研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 * |
秦杨: "基于大数据分析与LASSO分位数回归的电力负荷概率密度预测方法", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
陈乐一: "《我国商品市场周期阶段与影响因素分析》", 31 December 2014, 中国经济出版社 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284002A (zh) * | 2021-04-09 | 2021-08-20 | 南方电网数字电网研究院有限公司 | 用电数据异常检测方法、装置、计算机设备和存储介质 |
CN113468751A (zh) * | 2021-07-05 | 2021-10-01 | 河南中烟工业有限责任公司 | 基于递推Lasso的流量计异常在线监测方法、系统和存储介质 |
CN113468751B (zh) * | 2021-07-05 | 2022-12-27 | 河南中烟工业有限责任公司 | 基于递推Lasso的流量计异常在线监测方法、系统和存储介质 |
CN114996318A (zh) * | 2022-07-12 | 2022-09-02 | 成都唐源电气股份有限公司 | 一种检测数据异常值处理方式的自动判别方法及系统 |
CN114996318B (zh) * | 2022-07-12 | 2022-11-04 | 成都唐源电气股份有限公司 | 一种检测数据异常值处理方式的自动判别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737249A (zh) | 基于Lasso算法的异常数据检测方法及装置 | |
CN110231528B (zh) | 基于负荷特征模型库的变压器户变异常识别方法及装置 | |
JP2020500420A (ja) | マシンラーニング基盤の半導体製造の収率予測システム及び方法 | |
Porteiro et al. | Electricity demand forecasting in industrial and residential facilities using ensemble machine learning | |
CN113177732A (zh) | 一种工艺流程管理方法、装置、介质及终端设备 | |
CN111898247B (zh) | 滑坡位移预测方法、设备及存储介质 | |
CN111458661A (zh) | 一种配电网线变关系诊断方法、装置及系统 | |
CN110991985A (zh) | 一种项目进度数据处理方法 | |
CN115097376B (zh) | 计量设备的校验数据的处理方法、装置和计算机设备 | |
CN115392037A (zh) | 设备故障预测方法、装置、设备及存储介质 | |
CN113723861A (zh) | 异常用电行为检测方法、装置、计算机设备和存储介质 | |
Evans et al. | Multivariate data analytics in PV manufacturing—Four case studies using manufacturing datasets | |
CN109389178A (zh) | 一种维修厂评级方法、系统及电子设备和存储介质 | |
Mittman et al. | A hierarchical model for heterogenous reliability field data | |
CN114970665A (zh) | 模型训练方法、电解电容剩余寿命预测方法及系统 | |
CN116777281A (zh) | 一种基于arima模型的电力设备质量趋势预测方法及装置 | |
CN116629918A (zh) | 一种基于跨境电商的用户消费预测方法及系统 | |
CN110941646A (zh) | 基于10kv工程三率数据挖掘的项目进度管控系统 | |
CN115169426B (zh) | 一种基于相似性学习融合模型的异常检测方法及系统 | |
CN115128986A (zh) | 基于SaaS级的工业互联网产量实时监控系统及方法 | |
CN115146715A (zh) | 用电安全隐患诊断方法、装置、设备及存储介质 | |
CN109871998B (zh) | 一种基于专家样本库的配电网线损率预测方法及装置 | |
CN112579429A (zh) | 一种问题定位方法和装置 | |
CN116777118A (zh) | 一种多算法集成学习的台区线损率评估方法及系统 | |
CN111752984B (zh) | 一种信息处理方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201002 |
|
RJ01 | Rejection of invention patent application after publication |