CN107908744A - 一种用于大数据清洗的异常检测和消除的方法 - Google Patents

一种用于大数据清洗的异常检测和消除的方法 Download PDF

Info

Publication number
CN107908744A
CN107908744A CN201711138353.8A CN201711138353A CN107908744A CN 107908744 A CN107908744 A CN 107908744A CN 201711138353 A CN201711138353 A CN 201711138353A CN 107908744 A CN107908744 A CN 107908744A
Authority
CN
China
Prior art keywords
data
unit
value
abnormal
abnormality detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711138353.8A
Other languages
English (en)
Other versions
CN107908744B (zh
Inventor
王晓鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Traditional Chinese Medicine HUTCM
Original Assignee
Henan University of Traditional Chinese Medicine HUTCM
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Traditional Chinese Medicine HUTCM filed Critical Henan University of Traditional Chinese Medicine HUTCM
Priority to CN201711138353.8A priority Critical patent/CN107908744B/zh
Publication of CN107908744A publication Critical patent/CN107908744A/zh
Application granted granted Critical
Publication of CN107908744B publication Critical patent/CN107908744B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种用于大数据清洗的异常检测和消除的方法,包括:数据输入模块接收用户输入的企业经营数据报告,从中提取企业经营数据后,发送企业经营数据给指标构建模块和数据处理模块;指标构建模块根据企业经营数据构建出数据分析指标,并将构建出的数据分析指标发送至数据处理模块;数据处理模块接收到数据分析指标和企业经营数据后,根据数据分析指标选取企业经营数据,并对选取的企业经营数据进行分析,得到企业经营指标波动的原因,并将企业经营指标波动的原因和对应的数据发送至数据输出模块;数据输出模块在接收到指标波动原因和对应的数据后,将其按预设的输出模式生成并输出指标波动原因分析报告。

Description

一种用于大数据清洗的异常检测和消除的方法
技术领域
本发明涉及数据处理领域,特别涉及一种用于大数据清洗的异常检测和消除的方法。
背景技术
目前,在数据分析的各个领域,无论是企业经营数据,还是社会学科数据分析,甚至是医药数据用量的效果统计,都会涉及到大数据的分析处理,为了得到准确的结果,防止异常数据的干扰,在进行分析之前,还会对大数据进行清洗,而这就需要对混入正常数据中的异常数据进行检测和消除,虽然这种方法可以检测出记录错误、软硬件故障等真实的异常数据,但也会清理掉由于数据单位不统一而造成“异常”的正常数据,造成有效数据的浪费。而这种情况在数据源多样,尤其是数据源在多个国家时尤为明显。
发明内容
为解决以上问题,本发明提供一种用于大数据清洗的异常检测和消除的方法。
本发明提供的一种用于大数据清洗的异常检测和消除的方法,通过异常检测单元和异常消除单元实现,包括步骤:
异常检测单元读取所需清洗的大数据,并从中检测出所有的正常值和所有的异常值;
异常消除单元读取所述异常值,并对异常值进行聚类分析,得到聚类结果;
异常消除单元对聚类结果中的每一类别,进行预设的数值变换,得到每一类别的修正结果;
异常检测单元将修正结果和正常值放在一起进行检测,检测出新的正常值和新的异常值;
异常消除单元或异常检测单元保留所述新的正常值并删除其他值,完成大数据的异常检测和消除。
优选的,
所述检测出所有的正常值和异常值,可实施为:
异常检测单元通过基于统计与数据分布的检测方法检测出第一正常值和第一异常值;
异常检测单元通过基于距离/密度的检测方法检测出第二正常值和第二异常值;
异常检测单元将所述第一正常值和所述第二正常值的交集设为正常值;
异常检测单元将所述第一异常值和所述第二正常值的交集设为待修正异常值;
所述异常消除单元读取所述异常值,并对异常值进行聚类分析,得到聚类结果,可实施为:
异常消除单元读取所述待修正异常值,并对待修正异常值进行聚类分析,得到聚类结果。
优选的,
异常检测单元检测所述正常值的数量与所述大数据的数值的数量之比,当所述比值低于预设的阈值时,异常检测单元发出警告提醒,提醒用户重新设置异常检测单元的检测参数。
优选的,所述预设的数值变换,包括:
单位变换。
优选的,所述预设的数值变换,通过以下方法实施:
异常消除单元检测大数据中数据的量纲;
异常消除单元根据所述量纲进行数值变换,所述变换的方法为:
异常消除单元对聚类结果中的每一类别,假定其单位为与正常值所使用的单位不同;
异常消除单元根据所述假定,根据单位间的变换规则,对聚类结果中的每一类别进行数值变换。
优选的,所述预设的数值变换,还包括:
指数变换和对数变换中的一种或多种。
本发明的一些有益效果可以包括:
本发明提供的一种用于大数据清洗的异常检测和消除的方法,能够恢复由于数据单位不统一而造成异常的数据,从而更充分的利用大数据中的数据。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种用于大数据清洗的异常检测和消除的方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明实施例中一种用于大数据清洗的异常检测和消除的方法的流程图。如图1所示,该方法通过异常检测单元和异常消除单元实现,包括步骤:
步骤S101、异常检测单元读取所需清洗的大数据,并从中检测出所有的正常值和所有的异常值;
步骤S102、异常消除单元读取所述异常值,并对异常值进行聚类分析,得到聚类结果;
步骤S103、异常消除单元对聚类结果中的每一类别,进行预设的数值变换,得到每一类别的修正结果;
步骤S104、异常检测单元将修正结果和正常值放在一起进行检测,检测出新的正常值和新的异常值;
步骤S105、异常消除单元或异常检测单元保留所述新的正常值并删除其他值,完成大数据的异常检测和消除。
通过本发明提供的方法,利用单位不统一而造成的“异常”数据在进行单位变换后能够和正常值比较一致的特性,对异常数据进行变换后进行二次检测,从而能够恢复由于数据单位不统一而造成异常的数据,从而更充分的利用大数据中的数据。
为了在数值变换前分辨是真实的异常值还是由于单位不同引起的异常值,利用同单位的异常值更会聚在一起的特性进行分辨,在本发明的一个实施例中,
所述检测出所有的正常值和异常值,可实施为:
异常检测单元通过基于统计与数据分布的检测方法检测出第一正常值和第一异常值,基于统计与数据分布的检测方法有基于一元正态分布的离群点检测方法、基于多元高斯分布的异常点检测方法等等;
异常检测单元通过基于距离/密度的检测方法检测出第二正常值和第二异常值,基于距离/密度的检测方法有使用Mahalanobis距离检测多元离群点的方法、局部异常因子算法等等;
异常检测单元将所述第一正常值和所述第二正常值的交集设为正常值;
异常检测单元将所述第一异常值和所述第二正常值的交集设为待修正异常值;
所述异常消除单元读取所述异常值,并对异常值进行聚类分析,得到聚类结果,可实施为:
异常消除单元读取所述待修正异常值,并对待修正异常值进行聚类分析,得到聚类结果。
为了防止误检测过多,控制检测的误报率,利用2种不同检测方法进行相互对比来控制,在本发明的一个实施例中,
异常检测单元检测所述正常值的数量与所述大数据的数值的数量之比,当所述比值低于预设的阈值时,异常检测单元发出警告提醒,提醒用户重新设置异常检测单元的检测参数。
为了适用于最常见的单位不统一,在本发明的一个实施例中,所述预设的数值变换,包括:
单位变换,所述单位变换包括温度单位变换(摄氏度、华氏度、开尔文等等)、长度单位变换(毫米、厘米、分米、米、千米、英寸、英尺、码等等)、面积单位变换(平方米、平方千米、亩、公顷、英亩等等)、体积单位变换(毫升、升、盎司、加仑、立方米等等)、重量单位变换(克、千克、吨、磅、英石、美吨等等)。
为了真实的异常值被当作单位有问题的正常值,在本发明的一个实施例中,所述预设的数值变换,通过以下方法实施:
异常消除单元检测大数据中数据的量纲;
异常消除单元根据所述量纲进行数值变换,所述变换的方法为:
异常消除单元对聚类结果中的每一类别,假定其单位为与正常值所使用的单位不同;
异常消除单元根据所述假定,根据单位间的变换规则,对聚类结果中的每一类别进行数值变换。
由于有一些物理量使用的是对数标识,如分贝等,为了能将这种物理量也进行正确的变换,在本发明的一个实施例中,所述预设的数值变换,还包括:
指数变换和对数变换中的一种或多种。
本发明提供的一种用于大数据清洗的异常检测和消除的方法,能够恢复由于数据单位不统一而造成异常的数据,从而更充分的利用大数据中的数据。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种用于大数据清洗的异常检测和消除的方法,通过异常检测单元和异常消除单元实现,其特征在于,包括步骤:
异常检测单元读取所需清洗的大数据,并从中检测出所有的正常值和所有的异常值;
异常消除单元读取所述异常值,并对异常值进行聚类分析,得到聚类结果;
异常消除单元对聚类结果中的每一类别,进行预设的数值变换,得到每一类别的修正结果;
异常检测单元将修正结果和正常值放在一起进行检测,检测出新的正常值和新的异常值;
异常消除单元或异常检测单元保留所述新的正常值并删除其他值,完成大数据的异常检测和消除。
2.如权利要求1所述的方法,其特征在于,
所述检测出所有的正常值和异常值,可实施为:
异常检测单元通过基于统计与数据分布的检测方法检测出第一正常值和第一异常值;
异常检测单元通过基于距离/密度的检测方法检测出第二正常值和第二异常值;
异常检测单元将所述第一正常值和所述第二正常值的交集设为正常值;
异常检测单元将所述第一异常值和所述第二正常值的交集设为待修正异常值;
所述异常消除单元读取所述异常值,并对异常值进行聚类分析,得到聚类结果,可实施为:
异常消除单元读取所述待修正异常值,并对待修正异常值进行聚类分析,得到聚类结果。
3.如权利要求2所述的方法,其特征在于,
异常检测单元检测所述正常值的数量与所述大数据的数值的数量之比,当所述比值低于预设的阈值时,异常检测单元发出警告提醒,提醒用户重新设置异常检测单元的检测参数。
4.如权利要求1所述的方法,其特征在于,所述预设的数值变换,包括:
单位变换。
5.如权利要求2所述的方法,其特征在于,所述预设的数值变换,通过以下方法实施:
异常消除单元检测大数据中数据的量纲;
异常消除单元根据所述量纲进行数值变换,所述变换的方法为:
异常消除单元对聚类结果中的每一类别,假定其单位为与正常值所使用的单位不同;
异常消除单元根据所述假定,根据单位间的变换规则,对聚类结果中的每一类别进行数值变换。
6.如权利要求1所述的方法,其特征在于,所述预设的数值变换,还包括:
指数变换和对数变换中的一种或多种。
CN201711138353.8A 2017-11-16 2017-11-16 一种用于大数据清洗的异常检测和消除的方法 Expired - Fee Related CN107908744B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711138353.8A CN107908744B (zh) 2017-11-16 2017-11-16 一种用于大数据清洗的异常检测和消除的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711138353.8A CN107908744B (zh) 2017-11-16 2017-11-16 一种用于大数据清洗的异常检测和消除的方法

Publications (2)

Publication Number Publication Date
CN107908744A true CN107908744A (zh) 2018-04-13
CN107908744B CN107908744B (zh) 2021-05-18

Family

ID=61844421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711138353.8A Expired - Fee Related CN107908744B (zh) 2017-11-16 2017-11-16 一种用于大数据清洗的异常检测和消除的方法

Country Status (1)

Country Link
CN (1) CN107908744B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145164A (zh) * 2018-08-28 2019-01-04 百度在线网络技术(北京)有限公司 数据处理方法、装置、设备和介质
CN109472321A (zh) * 2018-12-03 2019-03-15 北京工业大学 一种面向时间序列型地表水质大数据的预测与评估模型构建方法
CN109635564A (zh) * 2018-12-07 2019-04-16 深圳市联软科技股份有限公司 一种检测暴力破解行为的方法、装置、介质及设备
CN109766331A (zh) * 2018-12-06 2019-05-17 中科恒运股份有限公司 异常数据处理方法及装置
CN110597792A (zh) * 2019-06-24 2019-12-20 国网甘肃省电力公司电力科学研究院 基于同期线损数据融合的多级冗余数据融合方法及装置
CN111010393A (zh) * 2019-12-16 2020-04-14 陕西数图行信息科技有限公司 一种用于大数据清洗的异常检测和消除的方法
CN111461741A (zh) * 2020-03-20 2020-07-28 深圳市优达智胜科技有限公司 一种基于云平台电商大数据监测系统
CN111540193A (zh) * 2020-03-13 2020-08-14 华南理工大学 一种基于图卷积时序生成对抗网络的交通数据修复方法
CN113487362A (zh) * 2021-07-14 2021-10-08 神策网络科技(北京)有限公司 异常用户的检测方法、装置及设备
CN113515512A (zh) * 2021-06-22 2021-10-19 国网辽宁省电力有限公司鞍山供电公司 一种工业互联网平台数据的质量治理及提升方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013087250A1 (en) * 2011-12-12 2013-06-20 International Business Machines Corporation Dynamic anomaly, association and clustering detection
CN104239504A (zh) * 2014-09-15 2014-12-24 金阿宁 一种用于医生胜任力模型构建的数据处理方法
CN104966172A (zh) * 2015-07-21 2015-10-07 上海融甸信息科技有限公司 一种用于企业经营数据分析的大数据可视化分析处理系统
CN105701471A (zh) * 2016-01-15 2016-06-22 昆明理工大学 一种激光扫描波形异常数据的修正方法
CN106250556A (zh) * 2016-08-17 2016-12-21 贵州数据宝网络科技有限公司 用于大数据分析的数据挖掘方法
CN106354772A (zh) * 2016-08-23 2017-01-25 成都卡莱博尔信息技术股份有限公司 具有数据清洗的海量数据系统
CN106599193A (zh) * 2016-12-14 2017-04-26 云南电网有限责任公司电力科学研究院 一种数据清洗方法和系统
CN107247737A (zh) * 2017-05-10 2017-10-13 国家电网公司 基于用电量的台区违约用电分析与挖掘方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013087250A1 (en) * 2011-12-12 2013-06-20 International Business Machines Corporation Dynamic anomaly, association and clustering detection
CN104239504A (zh) * 2014-09-15 2014-12-24 金阿宁 一种用于医生胜任力模型构建的数据处理方法
CN104966172A (zh) * 2015-07-21 2015-10-07 上海融甸信息科技有限公司 一种用于企业经营数据分析的大数据可视化分析处理系统
CN105701471A (zh) * 2016-01-15 2016-06-22 昆明理工大学 一种激光扫描波形异常数据的修正方法
CN106250556A (zh) * 2016-08-17 2016-12-21 贵州数据宝网络科技有限公司 用于大数据分析的数据挖掘方法
CN106354772A (zh) * 2016-08-23 2017-01-25 成都卡莱博尔信息技术股份有限公司 具有数据清洗的海量数据系统
CN106599193A (zh) * 2016-12-14 2017-04-26 云南电网有限责任公司电力科学研究院 一种数据清洗方法和系统
CN107247737A (zh) * 2017-05-10 2017-10-13 国家电网公司 基于用电量的台区违约用电分析与挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIA WANG ET AL.: "Semantic-based intelligent data clean framework for big data", 《IEEE XPLORE》 *
王冲等: "基于Spark框架的电力大数据清洗模型", 《电测与仪表》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145164A (zh) * 2018-08-28 2019-01-04 百度在线网络技术(北京)有限公司 数据处理方法、装置、设备和介质
CN109472321A (zh) * 2018-12-03 2019-03-15 北京工业大学 一种面向时间序列型地表水质大数据的预测与评估模型构建方法
CN109472321B (zh) * 2018-12-03 2023-01-31 北京工业大学 一种面向时间序列型地表水质大数据的预测与评估模型构建方法
CN109766331A (zh) * 2018-12-06 2019-05-17 中科恒运股份有限公司 异常数据处理方法及装置
CN109635564A (zh) * 2018-12-07 2019-04-16 深圳市联软科技股份有限公司 一种检测暴力破解行为的方法、装置、介质及设备
CN110597792A (zh) * 2019-06-24 2019-12-20 国网甘肃省电力公司电力科学研究院 基于同期线损数据融合的多级冗余数据融合方法及装置
CN111010393B (zh) * 2019-12-16 2021-11-05 陕西数图行信息科技有限公司 一种用于大数据清洗的异常检测和消除的方法
CN111010393A (zh) * 2019-12-16 2020-04-14 陕西数图行信息科技有限公司 一种用于大数据清洗的异常检测和消除的方法
CN111540193A (zh) * 2020-03-13 2020-08-14 华南理工大学 一种基于图卷积时序生成对抗网络的交通数据修复方法
CN111540193B (zh) * 2020-03-13 2022-07-26 华南理工大学 一种基于图卷积时序生成对抗网络的交通数据修复方法
CN111461741A (zh) * 2020-03-20 2020-07-28 深圳市优达智胜科技有限公司 一种基于云平台电商大数据监测系统
CN113515512A (zh) * 2021-06-22 2021-10-19 国网辽宁省电力有限公司鞍山供电公司 一种工业互联网平台数据的质量治理及提升方法
CN113487362A (zh) * 2021-07-14 2021-10-08 神策网络科技(北京)有限公司 异常用户的检测方法、装置及设备

Also Published As

Publication number Publication date
CN107908744B (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN107908744A (zh) 一种用于大数据清洗的异常检测和消除的方法
WO2021179572A1 (zh) 运维系统异常指标检测模型优化方法、装置及存储介质
US9996444B2 (en) Automated methods and systems for calculating hard thresholds
US10373065B2 (en) Generating database cluster health alerts using machine learning
CN108650684B (zh) 一种关联规则确定方法及装置
CN107786368B (zh) 异常节点检测方法以及相关装置
CN104915846A (zh) 一种电子商务时间序列数据的异常检测方法及系统
US20130007003A1 (en) Interestingness of data
CN111090685B (zh) 一种数据异常特征的检测方法及装置
TWI709932B (zh) 交易指標的監控方法、裝置及設備
US11038587B2 (en) Method and apparatus for locating fault cause, and storage medium
US20160255109A1 (en) Detection method and apparatus
US10788817B2 (en) Manufacturing process analysis device, manufacturing process analysis method, and recording medium whereupon manufacturing process analysis program is stored
CN103366091A (zh) 基于多级阈值指数加权平均的异常报税数据检测方法
US20170359478A1 (en) Automated wavelet-based data compression systems and methods
CN111103851A (zh) 基于联合历史和时间序列分析的异常表征的系统和方法
CN111860698B (zh) 确定学习模型的稳定性的方法和装置
KR101910866B1 (ko) 컴퓨터 수행 가능한 서버 부하 모니터링 방법, 이를 수행하는 장치 및 이를 기록하는 기록매체
KR102269647B1 (ko) 서버 성능 모니터링 장치
US20180091390A1 (en) Data validation across monitoring systems
JP2008146157A (ja) ネットワーク異常判定装置
EP2882139B1 (en) System and method for IT servers anomaly detection using incident consolidation
CN106502887A (zh) 一种稳定性测试方法、测试控制器及系统
CN109344025B (zh) Cpu性能自监控方法及服务器
CN110399903B (zh) 异常数据的检测方法及装置、计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210518