CN111010393A - 一种用于大数据清洗的异常检测和消除的方法 - Google Patents

一种用于大数据清洗的异常检测和消除的方法 Download PDF

Info

Publication number
CN111010393A
CN111010393A CN201911293009.5A CN201911293009A CN111010393A CN 111010393 A CN111010393 A CN 111010393A CN 201911293009 A CN201911293009 A CN 201911293009A CN 111010393 A CN111010393 A CN 111010393A
Authority
CN
China
Prior art keywords
data
information data
processing
elimination
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911293009.5A
Other languages
English (en)
Other versions
CN111010393B (zh
Inventor
文晓飞
刘缨缨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Shutuxing Information Technology Co Ltd
Original Assignee
Shaanxi Shutuxing Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Shutuxing Information Technology Co Ltd filed Critical Shaanxi Shutuxing Information Technology Co Ltd
Priority to CN201911293009.5A priority Critical patent/CN111010393B/zh
Publication of CN111010393A publication Critical patent/CN111010393A/zh
Application granted granted Critical
Publication of CN111010393B publication Critical patent/CN111010393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/12Applying verification of the received information
    • H04L63/123Applying verification of the received information received data contents, e.g. message integrity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明提供了一种用于大数据清洗的异常检测和消除的方法,该用于大数据清洗的异常检测和消除的方法基于大数据分析的模式确定数据异常状态检测模型,并根据该数据异常状态检测模型对信息数据中的异常部分进行标定处理和消除处理,以实现对该异常部分的纠正,这样能够提高对海量信息数据进行异常检测和消除处理的效率,并且还能够避免发生异常检测和消除错误情况,此外,该方法还对该信息数据进行关于不同数据区间的修正处理,从而保证被消除异常后的信息数据仍然能够保持数据文本的完整性和数据文本的逻辑正确性,以确保后续对信息数据进行分析处理的便捷性和有效性。

Description

一种用于大数据清洗的异常检测和消除的方法
技术领域
本发明涉及大数据分析处理的技术领域,特别涉及一种用于大数据清洗的异常检测和消除的方法。
背景技术
随着大数据信息技术的发展,数据处理终端需要对来自前台终端的信息数据进行分析处理,以获取相应地数据分析处理结果。但是,来自该前台终端的信息数据并不都完全符合相应的数据处理标准,该信息数据通常会存在不同的异常情况,若直接对存在异常情况的信息数据进行分析处理,其得到的分析处理结果必然会存在相应的错误,为了保证大数据分析处理的正确性,需要对来自前台终端的信息数据进行关于异常情况的检测处理,以此将该信息数据存在的异常情况进行甄别检测,从而便于提高后续数据分析处理的准确性。目前,现有技术只能通过对来自前台终端的信息数据进行逐条的异常检测处理,虽然这种检测处理的方式能够精确地检测出异常情况存在的,但是其并不适用于处理海量信息数据的场景,从而不同快速地和高效地实现对信息数据的异常检测与消除。
发明内容
针对现有技术存在的缺陷,本发明提供一种用于大数据清洗的异常检测和消除的方法,该用于大数据清洗的异常检测和消除的方法包括如下步骤:步骤S1,获取来自前台处理终端的信息数据,根据所述信息数据的数据属性,确定至少一个数据异常状态检测模型;步骤S2,根据所述至少一个数据异常状态检测模型,对所述信息数据进行关于异常部分的标定处理;步骤S3,根据所述标定处理的结果,对所述信息数据进行关于异常部分的消除处理;步骤S4,根据所述消除处理的结果,对所述信息数据进行关于不同数据区间的修正处理;可见,该用用于大数据清洗的异常检测和消除的方法基于大数据分析的模式确定数据异常状态检测模型,并根据该数据异常状态检测模型对信息数据中的异常部分进行标定处理和消除处理,以实现对该异常部分的纠正,这样能够提高对海量信息数据进行异常检测和消除处理的效率,并且还能够避免发生异常检测和消除错误情况,此外,该方法还对该信息数据进行关于不同数据区间的修正处理,从而保证被消除异常后的信息数据仍然能够保持数据文本的完整性和数据文本的逻辑正确性,以确保后续对信息数据进行分析处理的便捷性和有效性。
本发明提供一种用于大数据清洗的异常检测和消除的方法,其特征在于,所述用于大数据清洗的异常检测和消除的方法包括如下步骤:
步骤S1,获取来自前台处理终端的信息数据,根据所述信息数据的数据属性,确定至少一个数据异常状态检测模型;
步骤S2,根据所述至少一个数据异常状态检测模型,对所述信息数据进行关于异常部分的标定处理;
步骤S3,根据所述标定处理的结果,对所述信息数据进行关于异常部分的消除处理;
步骤S4,根据所述消除处理的结果,对所述信息数据进行关于不同数据区间的修正处理;
进一步,在所述步骤S1中,获取来自前台处理终端的信息数据,根据所述信息数据的数据属性,确定至少一个数据异常状态检测模型具体包括,
步骤S101,对所述前台处理终端的数据发送状态进行监控处理,获取来自所述前台处理终端的信息数据的数据状态,对当前信息数据进行数据合法性的判断处理;
步骤S102,根据所述判断处理的结果,对当前信息数据进行学习分析处理,以获得所述当前信息数据的数据属性;
步骤S103,根据所述当前信息数据的数据属性,设置对所述当前信息数据进行数据异常状态检测的若干组检测参数;
步骤S104,根据所述若干组检测参数,确定针对所述当前信息数据的所述至少一个数据异常状态检测模型;
进一步,在所述步骤S101中,对所述前台处理终端的数据发送状态进行监控处理,获取来自所述前台处理终端的信息数据的数据状态,对当前信息数据进行数据合法性的判断处理具体包括,
步骤S1011,对所述前台处理终端的数据发送完毕与否状态进行所述监控处理,以获取来自所述前台处理终端的信息数据的数据完整验证状态;
步骤S1012,若所述数据完整验证状态指示所述当前信息数据未发送完毕,则判断所述当前信息数据为非法数据,若所述数据完整验证状态指示所述当前信息数据已发送完毕,则判断所述当前信息数据为合法数据;
或者,
在所述步骤S102中,根据所述判断处理的结果,对当前信息数据进行学习分析处理,以获得所述当前信息数据的数据属性具体包括,
对被判断具有数据合法性的当前信息数据进行关于预设神经网络模型的学习分析处理,以获得关于所述当前信息数据的数据类型特性和/或数据结构特性,以作为所述数据属性;
进一步,在所述步骤S103中,根据所述当前信息数据的数据属性,设置对所述当前信息数据进行数据异常状态检测的若干组检测参数具体包括,
步骤S1031,根据所述当前信息数据的数据属性,确定所述当前信息数据的数据维度特征、数据聚类特征和数据时序特征中的至少一者;
步骤S1032,根据所述数据维度特征、数据聚类特征和数据时序特征中的至少一者,确定对所述当前信息数据进行数据异常状态检测的关于数据维度、数据聚类和数据时序中至少一者的若干组检测参数;
或者,
在所述步骤S104中,根据所述若干组检测参数,确定针对所述当前信息数据的所述至少一个数据异常状态检测模型具体包括,
步骤S1041,对所述若干组检测参数进行关于数据维度、数据聚类或者数据时序的参数优化处理,以对应获得若干组最优检测参数,其中,所述若干组最优检测参数的数量通过下面过程确定:
假设已获得的最优检测参数的数量为N,Zi表示某一检测参数i独立检测时对应的检测准确度,Ti表示某一检测参数i独立检测时对应的检测速度,其中i=1,2,3,…,N,则对应的总检测准确度ZN和总检测速度TN分别通过下面公式(1)和(2)计算得到,
Figure BDA0002319734240000041
Figure BDA0002319734240000042
相应地,最佳最优检测参数的数量M通过下面公式(3)计算得到,
Figure BDA0002319734240000043
若M>N,则表明当前最优检测参数的数量不足,并通过补充相应的检测参数直到当前最优检测参数的数量增加至M个,若M=N,则表明当前最优检测参数的数量满足预设要求,若M<N,则表明当前最优检测参数的数量过多,并通过删除相应的检测参数直到当前最优检测参数的数量减少至M个;
步骤S1042,对所述若干组最优检测参数依次进行差异化重组处理和模型训练处理,以获得所述至少一个数据异常状态检测模型;
进一步,在所述步骤S2中,根据所述至少一个数据异常状态检测模型,对所述信息数据进行关于异常部分的标定处理具体包括,
步骤S201,根据当前大数据清洗条件,对所述至少一个数据异常状态检测模型进行甄别处理,以确定一适用数据异常状态检测模型;
步骤S202,对所述信息数据进行数据预处理,以将所述信息数据转换为可直接检测处理信息数据;
步骤S203,通过所述适用数据异常状态检测模型,对所述可直接检测处理信息数据进行文本内容识别,以获得对应的信息数据文本;
步骤S204,通过所述适用数据异常状态检测模型,对所述信息数据文本进行异常状态学习分析处理,以标定得到所述信息数据对应的异常部分;
进一步,在所述步骤S201中,根据当前大数据清洗条件,对所述至少一个数据异常状态检测模型进行甄别处理,以确定一适用数据异常状态检测模型具体包括,
步骤S2011,根据当前大数据清洗条件,确定异常检测和消除的容错阈值范围;
步骤S2012,根据所述容错阈值范围,对所述至少一个数据异常状态检测模型进行甄别处理,以得到匹配于所述容错阈值范围的所述适用数据异常状态检测模型;
或者,
在所述步骤S202中,对所述信息数据进行数据预处理,以将所述信息数据转换为可直接检测处理信息数据具体包括,
对所述信息数据进行降噪处理和聚合处理,以将所述信息数据转换为所述可直接检测处理信息数据;
进一步,在所述步骤S203中,通过所述适用数据异常状态检测模型,对所述可直接检测处理信息数据进行文本内容识别,以获得对应的信息数据文本具体包括,
通过所述适用数据异常状态检测模型,将所述可直接检测处理信息数据进行文本语义和/或文本符号的识别处理,以获得机器可读的所述信息数据文本;
或者,
在所述步骤S204中,通过所述适用数据异常状态检测模型,对所述信息数据文本进行异常状态学习分析处理,以标定得到所述信息数据对应的异常部分具体包括,
通过所述适用数据异常状态检测模型,对所述信息数据文本进行异常状态学习分析处理,以标定得到所述信息数据对应的异常部分对应的异常分布位置、格式错误情况和内容错误情况中的至少一者;
进一步,在所述步骤S3中,根据所述标定处理的结果,对所述信息数据进行关于异常部分的消除处理具体包括,
步骤S301,根据所述标定处理的结果,提取所述信息数据的异常部分对应的异常分布位置、格式错误情况和内容错误情况中的至少一者;
步骤S302,根据所述异常分布位置对所述信息数据进行全区域的异常遍历处理,以确定所述信息数据存在的所有文本格式错误和/或文本内容错误;
步骤S303,根据预定消除模式,对所述所有文本格式错误和/或文本内容错误进行相应的消除处理;
进一步,在所述步骤S303中,根据预定消除模式,对所述所有文本格式错误和/或文本内容错误进行相应的消除处理具体包括,
步骤S3031,对每一个文本格式错误和/或文本内容错误进行错误可修改度计算处理,以计算得到对应的错误可修改度数值;
步骤S3032,将所述错误可修改度数值与预设错误可修改阈值范围进行匹配处理,若两者相匹配,则对文本格式错误和/或文本内容错误进行错误修改消除处理,否则,对文本格式错误和/或文本内容错误进行直接删除处理;
进一步,在所述步骤S4中,根据所述消除处理的结果,对所述信息数据进行关于不同数据区间的修正处理具体包括,
步骤S401,根据所述消除处理的结果中异常状态的数量,对所述信息数据进行数据区间划分处理,以得到若干不同的数据区间;
步骤S402,对进行异常部分消除处理对应的前后两个不同数据区间进行数据文本释义处理;
步骤S403,根据所述数据文本释义处理的结果,对所述前后两个不同数据区间进行关于文本逻辑含义的重构衔接修正处理。
相比于现有技术,该用于大数据清洗的异常检测和消除的方法包括如下步骤:步骤S1,获取来自前台处理终端的信息数据,根据所述信息数据的数据属性,确定至少一个数据异常状态检测模型;步骤S2,根据所述至少一个数据异常状态检测模型,对所述信息数据进行关于异常部分的标定处理;步骤S3,根据所述标定处理的结果,对所述信息数据进行关于异常部分的消除处理;步骤S4,根据所述消除处理的结果,对所述信息数据进行关于不同数据区间的修正处理;可见,该用于大数据清洗的异常检测和消除的方法基于大数据分析的模式确定数据异常状态检测模型,并根据该数据异常状态检测模型对信息数据中的异常部分进行标定处理和消除处理,以实现对该异常部分的纠正,这样能够提高对海量信息数据进行异常检测和消除处理的效率,并且还能够避免发生异常检测和消除错误情况,此外,该方法还对该信息数据进行关于不同数据区间的修正处理,从而保证被消除异常后的信息数据仍然能够保持数据文本的完整性和数据文本的逻辑正确性,以确保后续对信息数据进行分析处理的便捷性和有效性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种用于大数据清洗的异常检测和消除的方法的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,为本发明实施例提供的一种用于大数据清洗的异常检测和消除的方法的结构示意图。该用于大数据清洗的异常检测和消除的方法包括如下步骤:
步骤S1,获取来自前台处理终端的信息数据,根据该信息数据的数据属性,确定至少一个数据异常状态检测模型;
步骤S2,根据该至少一个数据异常状态检测模型,对该信息数据进行关于异常部分的标定处理;
步骤S3,根据该标定处理的结果,对该信息数据进行关于异常部分的消除处理;
步骤S4,根据该消除处理的结果,对该信息数据进行关于不同数据区间的修正处理。
优选地,在该步骤S1中,获取来自前台处理终端的信息数据,根据该信息数据的数据属性,确定至少一个数据异常状态检测模型具体包括,
步骤S101,对该前台处理终端的数据发送状态进行监控处理,获取来自该前台处理终端的信息数据的数据状态,对当前信息数据进行数据合法性的判断处理;
步骤S102,根据该判断处理的结果,对当前信息数据进行学习分析处理,以获得该当前信息数据的数据属性;
步骤S103,根据该当前信息数据的数据属性,设置对该当前信息数据进行数据异常状态检测的若干组检测参数;
步骤S104,根据该若干组检测参数,确定针对该当前信息数据的该至少一个数据异常状态检测模型。
优选地,在该步骤S101中,对该前台处理终端的数据发送状态进行监控处理,获取来自该前台处理终端的信息数据的数据状态,对当前信息数据进行数据合法性的判断处理具体包括,
步骤S1011,对该前台处理终端的数据发送完毕与否状态进行该监控处理,以获取来自该前台处理终端的信息数据的数据完整验证状态;
步骤S1012,若该数据完整验证状态指示该当前信息数据未发送完毕,则判断该当前信息数据为非法数据,若该数据完整验证状态指示该当前信息数据已发送完毕,则判断该当前信息数据为合法数据。
优选地,在该步骤S102中,根据该判断处理的结果,对当前信息数据进行学习分析处理,以获得该当前信息数据的数据属性具体包括,
对被判断具有数据合法性的当前信息数据进行关于预设神经网络模型的学习分析处理,以获得关于该当前信息数据的数据类型特性和/或数据结构特性,以作为该数据属性。
优选地,在该步骤S103中,根据该当前信息数据的数据属性,设置对该当前信息数据进行数据异常状态检测的若干组检测参数具体包括,
步骤S1031,根据该当前信息数据的数据属性,确定该当前信息数据的数据维度特征、数据聚类特征和数据时序特征中的至少一者;
步骤S1032,根据该数据维度特征、数据聚类特征和数据时序特征中的至少一者,确定对该当前信息数据进行数据异常状态检测的关于数据维度、数据聚类和数据时序中至少一者的若干组检测参数。
优选地,在该步骤S104中,根据该若干组检测参数,确定针对该当前信息数据的该至少一个数据异常状态检测模型具体包括,
步骤S1041,对该若干组检测参数进行关于数据维度、数据聚类或者数据时序的参数优化处理,以对应获得若干组最优检测参数,其中,该若干组最优检测参数的数量通过下面过程确定:
假设已获得的最优检测参数的数量为N,Zi表示某一检测参数i独立检测时对应的检测准确度,Ti表示某一检测参数i独立检测时对应的检测速度,其中i=1,2,3,…,N,则对应的总检测准确度ZN和总检测速度TN分别通过下面公式(1)和(2)计算得到,
Figure BDA0002319734240000101
Figure BDA0002319734240000102
相应地,最佳最优检测参数的数量M通过下面公式(3)计算得到,
Figure BDA0002319734240000103
若M>N,则表明当前最优检测参数的数量不足,并通过补充相应的检测参数直到当前最优检测参数的数量增加至M个,若M=N,则表明当前最优检测参数的数量满足预设要求,若M<N,则表明当前最优检测参数的数量过多,并通过删除相应的检测参数直到当前最优检测参数的数量减少至M个;
通过上面对若干组最优检测参数的数量的确定能够兼顾检测的准确性和速度性,不会由于最优检测参数数量过少而导致检测错误率变高,比如当最优检测参数的数量为3个时,会导致大量将正常判定为异常或者将异常判定为正常的误判,从而降低整体检测的准确性,而当最优检测参数的数量过多会导致检测时间过长,比如当最优检测参数的数量为10个时,对应的正确率为99.99%,若数量再增加一个,对应的正确率实质上并不会有更大的提高,但是检测时间长度却增加了一倍,通过上述过程确定若干组最优检测参数的数量能够有效地避免上面两种情况的发生。
步骤S1042,对该若干组最优检测参数依次进行差异化重组处理和模型训练处理,以获得该至少一个数据异常状态检测模型。
优选地,在该步骤S2中,根据该至少一个数据异常状态检测模型,对该信息数据进行关于异常部分的标定处理具体包括,
步骤S201,根据当前大数据清洗条件,对该至少一个数据异常状态检测模型进行甄别处理,以确定一适用数据异常状态检测模型;
步骤S202,对该信息数据进行数据预处理,以将该信息数据转换为可直接检测处理信息数据;
步骤S203,通过该适用数据异常状态检测模型,对该可直接检测处理信息数据进行文本内容识别,以获得对应的信息数据文本;
步骤S204,通过该适用数据异常状态检测模型,对该信息数据文本进行异常状态学习分析处理,以标定得到该信息数据对应的异常部分。
优选地,在该步骤S201中,根据当前大数据清洗条件,对该至少一个数据异常状态检测模型进行甄别处理,以确定一适用数据异常状态检测模型具体包括,
步骤S2011,根据当前大数据清洗条件,确定异常检测和消除的容错阈值范围;
步骤S2012,根据该容错阈值范围,对该至少一个数据异常状态检测模型进行甄别处理,以得到匹配于该容错阈值范围的该适用数据异常状态检测模型。
优选地,在该步骤S202中,对该信息数据进行数据预处理,以将该信息数据转换为可直接检测处理信息数据具体包括,
对该信息数据进行降噪处理和聚合处理,以将该信息数据转换为该可直接检测处理信息数据。
优选地,在该步骤S203中,通过该适用数据异常状态检测模型,对该可直接检测处理信息数据进行文本内容识别,以获得对应的信息数据文本具体包括,
通过该适用数据异常状态检测模型,将该可直接检测处理信息数据进行文本语义和/或文本符号的识别处理,以获得机器可读的该信息数据文本。
优选地,在该步骤S204中,通过该适用数据异常状态检测模型,对该信息数据文本进行异常状态学习分析处理,以标定得到该信息数据对应的异常部分具体包括,
通过该适用数据异常状态检测模型,对该信息数据文本进行异常状态学习分析处理,以标定得到该信息数据对应的异常部分对应的异常分布位置、格式错误情况和内容错误情况中的至少一者。。
优选地,在该步骤S3中,根据该标定处理的结果,对该信息数据进行关于异常部分的消除处理具体包括,
步骤S301,根据该标定处理的结果,提取该信息数据的异常部分对应的异常分布位置、格式错误情况和内容错误情况中的至少一者;
步骤S302,根据该异常分布位置对该信息数据进行全区域的异常遍历处理,以确定该信息数据存在的所有文本格式错误和/或文本内容错误;
步骤S303,根据预定消除模式,对该所有文本格式错误和/或文本内容错误进行相应的消除处理。
优选地,在该步骤S303中,根据预定消除模式,对该所有文本格式错误和/或文本内容错误进行相应的消除处理具体包括,
步骤S3031,对每一个文本格式错误和/或文本内容错误进行错误可修改度计算处理,以计算得到对应的错误可修改度数值;
步骤S3032,将该错误可修改度数值与预设错误可修改阈值范围进行匹配处理,若两者相匹配,则对文本格式错误和/或文本内容错误进行错误修改消除处理,否则,对文本格式错误和/或文本内容错误进行直接删除处理。
优选地,在该步骤S4中,根据该消除处理的结果,对该信息数据进行关于不同数据区间的修正处理具体包括,
步骤S401,根据该消除处理的结果中异常状态的数量,对该信息数据进行数据区间划分处理,以得到若干不同的数据区间;
步骤S402,对进行异常部分消除处理对应的前后两个不同数据区间进行数据文本释义处理;
步骤S403,根据该数据文本释义处理的结果,对该前后两个不同数据区间进行关于文本逻辑含义的重构衔接修正处理。
从上述实施例的内容可知,该用于大数据清洗的异常检测和消除的方法包括如下步骤:步骤S1,获取来自前台处理终端的信息数据,根据该信息数据的数据属性,确定至少一个数据异常状态检测模型;步骤S2,根据该至少一个数据异常状态检测模型,对该信息数据进行关于异常部分的标定处理;步骤S3,根据该标定处理的结果,对该信息数据进行关于异常部分的消除处理;步骤S4,根据该消除处理的结果,对该信息数据进行关于不同数据区间的修正处理;可见,该用于大数据清洗的异常检测和消除的方法基于大数据分析的模式确定数据异常状态检测模型,并根据该数据异常状态检测模型对信息数据中的异常部分进行标定处理和消除处理,以实现对该异常部分的纠正,这样能够提高对海量信息数据进行异常检测和消除处理的效率,并且还能够避免发生异常检测和消除错误情况,此外,该方法还对该信息数据进行关于不同数据区间的修正处理,从而保证被消除异常后的信息数据仍然能够保持数据文本的完整性和数据文本的逻辑正确性,以确保后续对信息数据进行分析处理的便捷性和有效性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种用于大数据清洗的异常检测和消除的方法,其特征在于,所述用于大数据清洗的异常检测和消除的方法包括如下步骤:
步骤S1,获取来自前台处理终端的信息数据,根据所述信息数据的数据属性,确定至少一个数据异常状态检测模型;
步骤S2,根据所述至少一个数据异常状态检测模型,对所述信息数据进行关于异常部分的标定处理;
步骤S3,根据所述标定处理的结果,对所述信息数据进行关于异常部分的消除处理;
步骤S4,根据所述消除处理的结果,对所述信息数据进行关于不同数据区间的修正处理。
2.如权利要求1所述的用于大数据清洗的异常检测和消除的方法,其特征在于:
在所述步骤S1中,获取来自前台处理终端的信息数据,根据所述信息数据的数据属性,确定至少一个数据异常状态检测模型具体包括,
步骤S101,对所述前台处理终端的数据发送状态进行监控处理,获取来自所述前台处理终端的信息数据的数据状态,对当前信息数据进行数据合法性的判断处理;
步骤S102,根据所述判断处理的结果,对当前信息数据进行学习分析处理,以获得所述当前信息数据的数据属性;
步骤S103,根据所述当前信息数据的数据属性,设置对所述当前信息数据进行数据异常状态检测的若干组检测参数;
步骤S104,根据所述若干组检测参数,确定针对所述当前信息数据的所述至少一个数据异常状态检测模型。
3.如权利要求2所述的用于大数据清洗的异常检测和消除的方法,其特征在于:
在所述步骤S101中,对所述前台处理终端的数据发送状态进行监控处理,获取来自所述前台处理终端的信息数据的数据状态,对当前信息数据进行数据合法性的判断处理具体包括,
步骤S1011,对所述前台处理终端的数据发送完毕与否状态进行所述监控处理,以获取来自所述前台处理终端的信息数据的数据完整验证状态;
步骤S1012,若所述数据完整验证状态指示所述当前信息数据未发送完毕,则判断所述当前信息数据为非法数据,若所述数据完整验证状态指示所述当前信息数据已发送完毕,则判断所述当前信息数据为合法数据;或者,
在所述步骤S102中,根据所述判断处理的结果,对当前信息数据进行学习分析处理,以获得所述当前信息数据的数据属性具体包括,
对被判断具有数据合法性的当前信息数据进行关于预设神经网络模型的学习分析处理,以获得关于所述当前信息数据的数据类型特性和/或数据结构特性,以作为所述数据属性。
4.如权利要求2所述的用于大数据清洗的异常检测和消除的方法,其特征在于:
在所述步骤S103中,根据所述当前信息数据的数据属性,设置对所述当前信息数据进行数据异常状态检测的若干组检测参数具体包括,
步骤S1031,根据所述当前信息数据的数据属性,确定所述当前信息数据的数据维度特征、数据聚类特征和数据时序特征中的至少一者;
步骤S1032,根据所述数据维度特征、数据聚类特征和数据时序特征中的至少一者,确定对所述当前信息数据进行数据异常状态检测的关于数据维度、数据聚类和数据时序中至少一者的若干组检测参数;
或者,
在所述步骤S104中,根据所述若干组检测参数,确定针对所述当前信息数据的所述至少一个数据异常状态检测模型具体包括,
步骤S1041,对所述若干组检测参数进行关于数据维度、数据聚类或者数据时序的参数优化处理,以对应获得若干组最优检测参数,其中,所述若干组最优检测参数的数量通过下面过程确定:
假设已获得的最优检测参数的数量为N,Zi表示某一检测参数i独立检测时对应的检测准确度,Ti表示某一检测参数i独立检测时对应的检测速度,其中i=1,2,3,…,N,则对应的总检测准确度ZN和总检测速度TN分别通过下面公式(1)和(2)计算得到,
Figure FDA0002319734230000031
Figure FDA0002319734230000032
相应地,最佳最优检测参数的数量M通过下面公式(3)计算得到,
Figure FDA0002319734230000033
若M>N,则表明当前最优检测参数的数量不足,并通过补充相应的检测参数直到当前最优检测参数的数量增加至M个,若M=N,则表明当前最优检测参数的数量满足预设要求,若M<N,则表明当前最优检测参数的数量过多,并通过删除相应的检测参数直到当前最优检测参数的数量减少至M个;
步骤S1042,对所述若干组最优检测参数依次进行差异化重组处理和模型训练处理,以获得所述至少一个数据异常状态检测模型。
5.如权利要求1所述的用于大数据清洗的异常检测和消除的方法,其特征在于:
在所述步骤S2中,根据所述至少一个数据异常状态检测模型,对所述信息数据进行关于异常部分的标定处理具体包括,
步骤S201,根据当前大数据清洗条件,对所述至少一个数据异常状态检测模型进行甄别处理,以确定一适用数据异常状态检测模型;
步骤S202,对所述信息数据进行数据预处理,以将所述信息数据转换为可直接检测处理信息数据;
步骤S203,通过所述适用数据异常状态检测模型,对所述可直接检测处理信息数据进行文本内容识别,以获得对应的信息数据文本;
步骤S204,通过所述适用数据异常状态检测模型,对所述信息数据文本进行异常状态学习分析处理,以标定得到所述信息数据对应的异常部分。
6.如权利要求5所述的用于大数据清洗的异常检测和消除的方法,其特征在于:
在所述步骤S201中,根据当前大数据清洗条件,对所述至少一个数据异常状态检测模型进行甄别处理,以确定一适用数据异常状态检测模型具体包括,
步骤S2011,根据当前大数据清洗条件,确定异常检测和消除的容错阈值范围;
步骤S2012,根据所述容错阈值范围,对所述至少一个数据异常状态检测模型进行甄别处理,以得到匹配于所述容错阈值范围的所述适用数据异常状态检测模型;
或者,
在所述步骤S202中,对所述信息数据进行数据预处理,以将所述信息数据转换为可直接检测处理信息数据具体包括,
对所述信息数据进行降噪处理和聚合处理,以将所述信息数据转换为所述可直接检测处理信息数据。
7.如权利要求5所述的用于大数据清洗的异常检测和消除的方法,其特征在于:
在所述步骤S203中,通过所述适用数据异常状态检测模型,对所述可直接检测处理信息数据进行文本内容识别,以获得对应的信息数据文本具体包括,
通过所述适用数据异常状态检测模型,将所述可直接检测处理信息数据进行文本语义和/或文本符号的识别处理,以获得机器可读的所述信息数据文本;
或者,
在所述步骤S204中,通过所述适用数据异常状态检测模型,对所述信息数据文本进行异常状态学习分析处理,以标定得到所述信息数据对应的异常部分具体包括,
通过所述适用数据异常状态检测模型,对所述信息数据文本进行异常状态学习分析处理,以标定得到所述信息数据对应的异常部分对应的异常分布位置、格式错误情况和内容错误情况中的至少一者。
8.如权利要求1所述的用于大数据清洗的异常检测和消除的方法,其特征在于:
在所述步骤S3中,根据所述标定处理的结果,对所述信息数据进行关于异常部分的消除处理具体包括,
步骤S301,根据所述标定处理的结果,提取所述信息数据的异常部分对应的异常分布位置、格式错误情况和内容错误情况中的至少一者;
步骤S302,根据所述异常分布位置对所述信息数据进行全区域的异常遍历处理,以确定所述信息数据存在的所有文本格式错误和/或文本内容错误;
步骤S303,根据预定消除模式,对所述所有文本格式错误和/或文本内容错误进行相应的消除处理。
9.如权利要求8所述的用于大数据清洗的异常检测和消除的方法,其特征在于:
在所述步骤S303中,根据预定消除模式,对所述所有文本格式错误和/或文本内容错误进行相应的消除处理具体包括,
步骤S3031,对每一个文本格式错误和/或文本内容错误进行错误可修改度计算处理,以计算得到对应的错误可修改度数值;
步骤S3032,将所述错误可修改度数值与预设错误可修改阈值范围进行匹配处理,若两者相匹配,则对文本格式错误和/或文本内容错误进行错误修改消除处理,否则,对文本格式错误和/或文本内容错误进行直接删除处理。
10.如权利要求1所述的用于大数据清洗的异常检测和消除的方法,其特征在于:
在所述步骤S4中,根据所述消除处理的结果,对所述信息数据进行关于不同数据区间的修正处理具体包括,
步骤S401,根据所述消除处理的结果中异常状态的数量,对所述信息数据进行数据区间划分处理,以得到若干不同的数据区间;
步骤S402,对进行异常部分消除处理对应的前后两个不同数据区间进行数据文本释义处理;
步骤S403,根据所述数据文本释义处理的结果,对所述前后两个不同数据区间进行关于文本逻辑含义的重构衔接修正处理。
CN201911293009.5A 2019-12-16 2019-12-16 一种用于大数据清洗的异常检测和消除的方法 Active CN111010393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911293009.5A CN111010393B (zh) 2019-12-16 2019-12-16 一种用于大数据清洗的异常检测和消除的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911293009.5A CN111010393B (zh) 2019-12-16 2019-12-16 一种用于大数据清洗的异常检测和消除的方法

Publications (2)

Publication Number Publication Date
CN111010393A true CN111010393A (zh) 2020-04-14
CN111010393B CN111010393B (zh) 2021-11-05

Family

ID=70115394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911293009.5A Active CN111010393B (zh) 2019-12-16 2019-12-16 一种用于大数据清洗的异常检测和消除的方法

Country Status (1)

Country Link
CN (1) CN111010393B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160301671A1 (en) * 2015-04-09 2016-10-13 Web Sensing, Llc System-on-chip data security appliance and methods of operating the same
CN106231588A (zh) * 2016-07-16 2016-12-14 北京联合大学 一种移动网络小区标识信息补正方法
CN107765347A (zh) * 2017-06-29 2018-03-06 河海大学 一种高斯过程回归和粒子滤波的短期风速预测方法
CN107908744A (zh) * 2017-11-16 2018-04-13 河南中医药大学 一种用于大数据清洗的异常检测和消除的方法
CN109785595A (zh) * 2019-02-26 2019-05-21 成都古河云科技有限公司 一种基于机器学习的车辆异常轨迹实时识别方法
CN109918218A (zh) * 2019-01-28 2019-06-21 广州供电局有限公司 一种基于电力收费的错误数据分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160301671A1 (en) * 2015-04-09 2016-10-13 Web Sensing, Llc System-on-chip data security appliance and methods of operating the same
CN106231588A (zh) * 2016-07-16 2016-12-14 北京联合大学 一种移动网络小区标识信息补正方法
CN107765347A (zh) * 2017-06-29 2018-03-06 河海大学 一种高斯过程回归和粒子滤波的短期风速预测方法
CN107908744A (zh) * 2017-11-16 2018-04-13 河南中医药大学 一种用于大数据清洗的异常检测和消除的方法
CN109918218A (zh) * 2019-01-28 2019-06-21 广州供电局有限公司 一种基于电力收费的错误数据分析方法
CN109785595A (zh) * 2019-02-26 2019-05-21 成都古河云科技有限公司 一种基于机器学习的车辆异常轨迹实时识别方法

Also Published As

Publication number Publication date
CN111010393B (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN111538642B (zh) 一种异常行为的检测方法、装置、电子设备及存储介质
CA2931624A1 (en) Systems and methods for event detection and diagnosis
CN113127305A (zh) 异常检测方法及装置
CN113269042B (zh) 基于行驶车辆违章识别的智能交通管理方法及系统
CN109726312A (zh) 一种正则表达式检测方法、装置、设备和存储介质
CN117523299A (zh) 一种基于计算机网络图像识别方法、系统和存储介质
CN109726737B (zh) 基于轨迹的异常行为检测方法及装置
CN111882338A (zh) 在线人数的异常检测方法、装置及电子设备
CN116450137A (zh) 一种系统异常的检测方法、装置、存储介质及电子设备
CN112529109A (zh) 一种基于无监督多模型的异常检测方法及系统
CN115865483A (zh) 一种基于机器学习的异常行为分析方法和装置
CN114244751A (zh) 无线传感器网络异常检测方法和系统
CN109145764B (zh) 综合检测车的多组检测波形的未对齐区段识别方法及装置
CN116743637B (zh) 一种异常流量的检测方法、装置、电子设备及存储介质
CN117466153B (zh) 故障检测方法、装置、计算机设备和可读存储介质
CN111353131A (zh) 一种码载偏离度阈值计算的方法
CN111010393B (zh) 一种用于大数据清洗的异常检测和消除的方法
CN117714175A (zh) 一种基于众包测试反馈改进的http请求走私漏洞检测方法
CN117237678A (zh) 用电行为异常检测方法、装置、设备及存储介质
CN113487223A (zh) 一种基于信息融合的风险评估方法和评估系统
CN115601618B (zh) 一种磁芯缺陷检测方法、系统及计算机存储介质
WO2023179014A1 (zh) 流量识别方法、装置、电子设备及存储介质
CN115801538A (zh) 场站服务器应用资产深度识别方法、系统及设备
CN111209567B (zh) 提高检测模型鲁棒性的可知性判断方法及装置
CN115344868A (zh) 一种自动化运维脚本安全保障方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method for anomaly detection and elimination for big data cleaning

Effective date of registration: 20230529

Granted publication date: 20211105

Pledgee: Shaanxi SME financing Company limited by guarantee

Pledgor: Shaanxi shutuxing Information Technology Co.,Ltd.

Registration number: Y2023980042146

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20211105

Pledgee: Shaanxi SME financing Company limited by guarantee

Pledgor: Shaanxi shutuxing Information Technology Co.,Ltd.

Registration number: Y2023980042146

PC01 Cancellation of the registration of the contract for pledge of patent right