CN110879805B - 一种数据异常发现方法、装置、服务器及存储介质 - Google Patents

一种数据异常发现方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN110879805B
CN110879805B CN201911157367.3A CN201911157367A CN110879805B CN 110879805 B CN110879805 B CN 110879805B CN 201911157367 A CN201911157367 A CN 201911157367A CN 110879805 B CN110879805 B CN 110879805B
Authority
CN
China
Prior art keywords
data
storage
abnormal
generate
associated group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911157367.3A
Other languages
English (en)
Other versions
CN110879805A (zh
Inventor
周晗
李海卫
刘涛
火一莽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201911157367.3A priority Critical patent/CN110879805B/zh
Publication of CN110879805A publication Critical patent/CN110879805A/zh
Application granted granted Critical
Publication of CN110879805B publication Critical patent/CN110879805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种数据异常发现方法、装置、服务器及存储介质。该方法包括接收厂家上报的第一数据;根据预设的规则标准对所述第一数据分类组装生成第二数据;对所述第二数据进行数据清洗生成第三数据;提取所述第三数据中的关联群组数据;对所述关联群组数据进行异常数据分析生成异常数据;对所述异常数据进行处理。本发明的技术方案实现了提高数据信息准确度的效果。

Description

一种数据异常发现方法、装置、服务器及存储介质
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种数据异常发现方法、装置、服务器及存储介质。
背景技术
随着企业信息化的全面开展,社会各行业对大数据的依赖,企业对数据的依赖程度越来越高,数据信息日益成为企业重要的战略资源,数据质量的好坏直接关系到信息的准确度,也影响了企业的生存和竞争力。由于数据的采集技术,统计口径,人员素质等方面存在差异和漏洞。导致相当一部分业务数据中准确性方面不满足业务需求,从而对数据分析,数据处理等工作带来了严重的负面影响。
发明内容
本发明提供一种数据异常发现方法、装置、服务器及存储介质,以实现提高数据信息准确度的效果。
第一方面,本发明实施例提供了一种数据异常发现方法,包括:
接收厂家上报的第一数据;
根据预设的规则标准对所述第一数据分类组装生成第二数据;
对所述第二数据进行数据清洗生成第三数据;
提取所述第三数据中的关联群组数据;
对所述关联群组数据进行异常数据分析生成异常数据;
对所述异常数据进行处理。
第二方面,本发明实施例还提供了一种数据异常发现装置,包括:
接收模块,用于接收厂家上报的第一数据;
分类组装模块,用于根据预设的规则标准对所述第一数据分类组装生成第二数据;
数据清洗模块,用于对所述第二数据进行数据清洗生成第三数据;
数据提取模块,用于提取所述第三数据中的关联群组数据;
异常数据生成模块,用于对所述关联群组数据进行异常数据分析生成异常数据;
异常数据处理模块,用于对所述异常数据进行处理。
第三方面,本发明实施例还提供了一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求上述的数据异常发现方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述的数据异常发现方法。
本实施例的技术方案,通过接收厂家上报的第一数据;根据预设的规则标准对所述第一数据分类组装生成第二数据;对所述第二数据进行数据清洗生成第三数据;提取所述第三数据中的关联群组数据;对所述关联群组数据进行异常数据分析生成异常数据;对所述异常数据进行处理。本发明实施例的技术方案解决了由于数据的采集技术,统计口径,人员素质等方面存在差异和漏洞。导致相当一部分业务数据中准确性方面不满足业务需求,从而对数据分析,数据处理等工作带来了严重的负面影响的问题,达到了提高数据信息准确度的效果。
附图说明
图1是本发明实施例一中的一种数据异常发现方法的流程图。
图2是本发明实施例二中的一种数据异常发现方法的流程图。
图3是本发明实施例二中的对象关系的示意图。
图4是本发明实施例三中的一种数据异常发现装置的结构示意图。
图5是本发明实施例四中的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一数据为第二数据,且类似地,可将第二数据称为第一数据。第一数据和第二数据两者都是数据,但其不是同一数据。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
实施例一
图1为本发明实施例一提供的数据异常发现方法的流程图,本实施例可适用于数据异常发现情况,该方法具体包括如下步骤:
S110、接收厂家上报的第一数据。
本实施例中,第一数据可以为厂家提供的企业现有数据。通过制定并下放统一的规则规范,各个厂家根据统一定制的规则规范,上传上报企业现有数据。系统在接收到各个厂家上报的数据后,将所有数据汇集在一块,形成数据采集池,以方便后续的数据处理读取使用。
S120、根据预设的规则标准对所述第一数据分类组装生成第二数据。
本实施例中,预设的规则标准可以为对各种数据的区分标准,例如最新的规则标准,示例性的,数据采集池中的数据来源与各个厂家,由于数据建设时间的差异或者各个厂家使用的规则版本存在差异等问题,可能导致不同厂家上传上报的各类数据存在不一致的问题。此时系统需要将各类数据进行拆分归类,同时根据预设的规则标准将数据转换成同一的数据格式,以减少后续流程的差异化出来过程。同时将数据分门别类,将不同的数据分发给不同的规则去处理。根据标准及业务逻辑进行分类组装,将组装好的数据放入数据缓存池(kafka)进行缓存,等待后续处理。
S130、对所述第二数据进行数据清洗生成第三数据。
本实施例中,数据清洗指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。系统从数据缓存池(kafka)中读取数据,根据相应的标准对相应的数据进行清洗。
S140、提取所述第三数据中的关联群组数据。
本实施例中,由于数组种类繁多,样式,数值各个各样,而本文中的关联数据群组,只是众多的数据中的几类,所以我们需要对众多数据进行清洗和提取,最终提取出我们想要的关联群组数据。系统从数据缓存池(kafka)中读取数据,根据相应的标准对相应的数据进行清洗,再根据从数据中提取的业务规则,对数据进行提取,这些提取出来的数据就是后续业务的基础数据,也是我们所需要的关联群组数据。
进一步的,所述提取所述第三数据中的关联群组数据之后,还包括:
对所述关联群组数据进行分类存储,所述分类存储包括提取数据存储、错误数据存储、关联数据存储、业务规则存储、元数据存储。
本实施例中,系统对S140提取出的关联群组数据进行分类存储,示例性的,存储分为提取数据存储、错误数据存储、关联数据存储、业务规则存储、元数据存储5类模式。其中,提取数据存储是根据提取的业务规则从关联群组数据中提取数据,将提取出的数据去重,存储在提取数据库中;错误数据存储是将提取清洗环节中的错误数据,存储到错误数据备份文档中;关联数据存储通过业务规则判断,判断是正确的关联数据,提取到关系数据库中;
业务规则存储是将系统制定的提出策略,清洗策略等规则数据存储到业务规则库中;元数据存储是根据规则规范定义的原始数据集、元素编码等存储到元数据库中。
S150、对所述关联群组数据进行异常数据分析生成异常数据。
本实施例中,关联数据群组异常发现采取聚类的方式,聚类是根据最大化簇内的相似性、最小化簇间的相似性的原则,将数据对象集合划分成若干个簇的过程。簇是数据集中相似对象的集合,簇中任意两个数据对象都是相似的。相似性是定义一个簇的基础,聚类过程的质量取决于簇相似性函数的设计。在难以获得一个明显的簇相似性函数的情况下,某些聚类算法可看作是一个学习相似性函数的过程。
利用聚类检测离群点的方法是发掘出远离簇的其他小簇。这个方法需要区分各种簇之间距离的阈值。阈值的设定是系统发掘异常的关键点。异常数据发现中整个簇中是一小部分,通过簇的阀值,可以得到这小部分的簇。这小部分的簇通常被称作群组异常数据。关联数据群组数据集异常是发现数据集中所包含一些特别数据的过程,这些数据(称为“异常”)其行为和模式与一般数据不同。异常是可能不同于其他数据对象的数据对象,因为它属于一个不同的类或簇。这个概念来自于一个与大多数数据对象簇(类)不同的思想。因此,异常关联数据是发现数据对象集中明显不同于大部分数据对象(具有相似性)的数据对象(称为异常对象)的过程。一个数据集中大部分对象属于某些数据簇,而异常对象不属于任何簇,一般也不和其他对象相似,因此很多情况下异常对象都是孤立点。
本实施例将在提取数据存储和关联数据存储中的数据读取出来并进行异常数据分析,异常数据分析的依据是根据元数据存储中的基础数据,及业务规则存储中的规则数据作为业务分析基础,结合预设算法进行数据分析,将可能存在异常的数据发现出来。
S160、对所述异常数据进行处理。
本实施例中,系统将对上述关联群组数据进行异常数据分析生成异常数据将其存储到错误数据库中,然后将异常数据进行处理归类。根据数据异常群组分析理论,系统采用的凝聚式层次聚类,系统通过核心点,将其关联所有关联点之后视为一个簇。通过阀值将相应的数据再次筛选,再次进行数据分析,通过固定的分析手段将数据处理好。同时在机器自动处理的基础上,添加更大权限处理的人工处理手段。人为处理权限在机器处理之上,可以纠正机器处理异常的数据,同时也可以将异常数据中人工介入之后变成正常数据存储到关联数据库中。
本实施例的技术方案,通过接收厂家上报的第一数据;根据预设的规则标准对所述第一数据分类组装生成第二数据;对所述第二数据进行数据清洗生成第三数据;提取所述第三数据中的关联群组数据;对所述关联群组数据进行异常数据分析生成异常数据;对所述异常数据进行处理。本发明实施例的技术方案解决了由于数据的采集技术,统计口径,人员素质等方面存在差异和漏洞。导致相当一部分业务数据中准确性方面不满足业务需求,从而对数据分析,数据处理等工作带来了严重的负面影响的问题,达到了提高数据信息准确度的效果。
实施例二
图2为本发明实施例二提供的数据异常发现方法的流程图,本实施例在上述实施例的基础上进一步优化,该方法具体包括:
S210、接收厂家上报的第一数据。
本实施例中,通过制定并下放统一的规则规范,各个厂家根据统一定制的规则规范,上传上报企业现有数据。系统在接收到各个厂家上报的数据后,将所有数据汇集在一块,形成数据采集池,以方便后续的数据处理读取使用。
S220、根据预设的规则标准对所述第一数据分类组装生成第二数据。
本实施例中,系统根据标准及业务逻辑进行分类组装,将组装好的数据放入数据缓存池(kafka)进行缓存,等待后续处理。
S230、对所述第二数据进行数据清洗生成第三数据。
本实施例中,系统从数据缓存池(kafka)中读取数据,根据相应的标准对相应的数据进行清洗。
S240、根据所述第三数据中的业务规则对所述第三数据进行关联群组数据提取。
本实施例中,系统从数据缓存池(kafka)中读取数据,根据相应的标准对相应的数据进行清洗,再根据从数据中提取的业务规则,对数据进行提取,这些提取出来的数据就是后续业务的基础数据,也是我们所需要的关联群组数据。业务规则可以是与业务相关的操作规范、管理章程、规章制度、行业标准,本实施例主要是设置一个条件集合,当满足这个条件集合时候,触发一个或者多个动作。
进一步的,将所述数据清洗后提取的错误数据存储到所述错误数据存储。
本实施例中,系统根据相应的标准对相应的数据进行清洗,过滤那些不符合要求的数据并与清洗后的第三数据分开存储,将错误数据或者冲突数据存储在错误数据存储中。
S250、获取所述提取数据存储和所述关联数据存储中的第四数据。
S260、获取所述元数据存储和所述业务规则存储中的第五数据。
S270、将所述第四数据根据所述第五数据结合预设算法得到所述异常数据。
本实施例中,本实施例提出基于关联数据群组异常发现挖掘工作,试图找到符合如下条件的特定子群:其描述的数据集切片存在某些频繁项,这些项集在整个数据集上并非频繁项集,但是在该数据集切片上却是频繁项集。本文将这样的特定子群称为异常子群,将其上存在的特殊项集称为异常项集。异常子群与异常项集的组合构成异常模式。
本实施例将在提取数据存储和关联数据存储中的数据读取出来并进行异常数据分析,异常数据分析的依据是根据元数据存储中的基础数据,及业务规则存储中的规则数据作为业务分析基础,结合预设算法进行数据分析,将可能存在异常的数据发现出来。
进一步的,所述预设算法由用户定义的异常数据规则、异常数据知识库和异常数据黑白名单结合,所述异常数据规则为多个对象之间关联组的数量基于对象数量的限定规则。
本实施例中,关联数据群组主要用于发现不同对象之间的异常关联性,如图3(a)所示,对象A产生的同时,对象B对象C一定会产生,对象B产生的同时对象A,对象D一定会产生,对象E可能会产生,对象C产生的同时对象A一定产生,对象D产生的同时对象B一定产生。如图3(b)所示,这样对象关联组就有7组的关联关系,如果只有1~3组或者7组以上,如图3(c)所示,那么就有可能存在异常,我们需要发现这些异常数据情况。同时我们通过相应的算法将大部分的数据进行归类,通过设置阀值,发现其他异常的数据情况。
S280、根据预设阈值对所述异常数据进行筛选归类。
S290、将所述筛选归类后的所述异常数据根据预设分析手段进行数据处理。
本实施例中,根据数据异常群组分析理论,系统采用的凝聚式层次聚类,系统通过核心点,将其关联所有关联点之后视为一个簇。根据预设阈值对上述的异常数据进行筛选归类,预设阈值可以是一个限定数据簇内关系的限定值,此处不作限制。再对归类后的数据进行异常数据分析,通过预设分析手段将数据处理好,预设分析手段可以是标准的对数据进行处理的手段,也可以是用户对惯用手段的自行设置,此处不作限制。
本发明实施例的技术方案通过接收厂家上报的第一数据;根据预设的规则标准对所述第一数据分类组装生成第二数据;对所述第二数据进行数据清洗生成第三数据;根据所述第三数据中的业务规则对所述第三数据进行关联群组数据提取;获取所述提取数据存储和所述关联数据存储中的第四数据;获取所述元数据存储和所述业务规则存储中的第五数据;将所述第四数据根据所述第五数据结合预设算法得到所述异常数据;根据预设阈值对所述异常数据进行筛选归类;将所述筛选归类后的所述异常数据根据预设分析手段进行数据处理。本发明实施例的技术方案解决了数据准确度不高的问题,达到了便于发现处理异常数据的效果。
实施例三
图4所示为本发明实施例三提供的数据异常发现装置300的结构示意图,本实施例可适用于数据异常发现的情况,具体结构如下:
接收模块310,用于接收厂家上报的第一数据。
分类组装模块320,用于根据预设的规则标准对所述第一数据分类组装生成第二数据。
数据清洗模块330,用于对所述第二数据进行数据清洗生成第三数据。
数据提取模块340,用于提取所述第三数据中的关联群组数据。
异常数据生成模块350,用于对所述关联群组数据进行异常数据分析生成异常数据。
异常数据处理模块360,用于对所述异常数据进行处理。
进一步的,还包括分类存储模块,用于对所述关联群组数据进行分类存储,所述分类存储包括提取数据存储、错误数据存储、关联数据存储、业务规则存储、元数据存储。
进一步的,异常数据生成模块包括第四数据获取单元、第五数据获取单元和计算单元,
第四数据获取单元用于获取所述提取数据存储和所述关联数据存储中的第四数据;
第五数据获取单元用于获取所述元数据存储和所述业务规则存储中的第五数据;
计算单元用于将所述第四数据根据所述第五数据结合预设算法得到所述异常数据。
进一步的,所述预设算法由用户定义的异常数据规则、异常数据知识库和异常数据黑白名单结合,所述异常数据规则为多个对象之间关联组的数量基于对象数量的限定规则。
进一步的,数据提取模块包括根据所述第三数据中的业务规则对所述第三数据进行关联群组数据提取。
进一步的,还包括错误数据存储模块,用于将所述数据清洗后提取的错误数据存储到所述错误数据存储。
进一步的,异常数据处理模块包括筛选归类单元和数据处理单元,
筛选归类单元用于根据预设阈值对所述异常数据进行筛选归类;
数据处理单元用于将所述筛选归类后的所述异常数据根据预设分析手段进行数据处理。
本发明实施例所提供的数据异常发现装置300可执行前述实施例所提供的数据异常发现方法,具备执行方法相应的功能模块和有益效果。
实施例四
图5是本发明实施例四提供的一种服务器的结构示意图。图5示出了适于用来实现本发明实施方式的示例性服务器412的框图。图5显示的服务器412仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,服务器412以通用服务器的形式表现。服务器412的组件可以包括但不限于:一个或者多个处理器416,存储装置428,连接不同系统组件(包括存储装置428和处理器416)的总线418。
总线418表示几类总线结构中的一种或多种,包括存储装置总线或者存储装置控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry SubversiveAlliance,ISA)总线,微通道体系结构(Micro Channel Architecture,MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
服务器412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器412访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)430和/或高速缓存存储器432。服务器412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统434可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘,例如只读光盘(Compact Disc Read-Only Memory,CD-ROM),数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储装置428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块442的程序/实用工具440,可以存储在例如存储装置428中,这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。
服务器412也可以与一个或多个外部设备414(例如键盘、指向终端、显示器424等)通信,还可与一个或者多个使得用户能与该服务器412交互的终端通信,和/或与使得该服务器412能与一个或多个其它计算终端进行通信的任何终端(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且,服务器412还可以通过网络适配器420与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide AreaNetwork,WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器420通过总线418与服务器412的其它模块通信。应当明白,尽管图中未示出,可以结合服务器412使用其它硬件和/或软件模块,包括但不限于:微代码、终端驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器416通过运行存储在存储装置428中的程序,从而执行各种功能应用以及数据处理,例如实现本发明任意实施例所提供的一种数据异常发现方法,该方法可以包括:
接收厂家上报的第一数据;
根据预设的规则标准对所述第一数据分类组装生成第二数据;
对所述第二数据进行数据清洗生成第三数据;
提取所述第三数据中的关联群组数据;
对所述关联群组数据进行异常数据分析生成异常数据;
对所述异常数据进行处理。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的一种数据异常发现方法,该方法可以包括:
接收厂家上报的第一数据;
根据预设的规则标准对所述第一数据分类组装生成第二数据;
对所述第二数据进行数据清洗生成第三数据;
提取所述第三数据中的关联群组数据;
对所述关联群组数据进行异常数据分析生成异常数据;
对所述异常数据进行处理。
本发明实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
存储介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种数据异常发现方法,其特征在于,包括:
接收厂家上报的第一数据;
根据预设的规则标准对所述第一数据分类组装生成第二数据;
对所述第二数据进行数据清洗生成第三数据;
提取所述第三数据中的关联群组数据;
对所述关联群组数据进行异常数据分析生成异常数据;
对所述异常数据进行处理;
所述提取所述第三数据中的关联群组数据之后,还包括:
对所述关联群组数据进行分类存储,所述分类存储包括提取数据存储、错误数据存储、关联数据存储、业务规则存储、元数据存储;
所述对所述关联群组数据进行异常数据分析生成异常数据包括:
获取所述提取数据存储和所述关联数据存储中的第四数据;
获取所述元数据存储和所述业务规则存储中的第五数据;
将所述第四数据根据所述第五数据结合预设算法得到所述异常数据。
2.根据权利要求1所述的数据异常发现方法,其特征在于,所述预设算法由用户定义的异常数据规则、异常数据知识库和异常数据黑白名单结合,所述异常数据规则为多个对象之间关联组的数量基于对象数量的限定规则。
3.根据权利要求1所述的数据异常发现方法,其特征在于,所述提取所述第三数据中的关联群组数据包括:
根据所述第三数据中的业务规则对所述第三数据进行关联群组数据提取。
4.根据权利要求1所述的数据异常发现方法,其特征在于,所述提取所述第三数据中的关联群组数据之后,还包括:
将所述数据清洗后提取的错误数据存储到所述错误数据存储。
5.根据权利要求1所述的数据异常发现方法,其特征在于,所述对所述异常数据进行处理包括:
根据预设阈值对所述异常数据进行筛选归类;
将所述筛选归类后的所述异常数据根据预设分析手段进行数据处理。
6.一种数据异常发现装置,其特征在于,包括:
接收模块,用于接收厂家上报的第一数据;
分类组装模块,用于根据预设的规则标准对所述第一数据分类组装生成第二数据;
数据清洗模块,用于对所述第二数据进行数据清洗生成第三数据;
数据提取模块,用于提取所述第三数据中的关联群组数据;
异常数据生成模块,用于对所述关联群组数据进行异常数据分析生成异常数据;
异常数据处理模块,用于对所述异常数据进行处理;
分类存储模块,用于对所述关联群组数据进行分类存储,所述分类存储包括提取数据存储、错误数据存储、关联数据存储、业务规则存储、元数据存储;
所述异常数据生成模块包括第四数据获取单元、第五数据获取单元和计算单元;
所述第四数据获取单元用于获取所述提取数据存储和所述关联数据存储中的第四数据;
所述第五数据获取单元用于获取所述元数据存储和所述业务规则存储中的第五数据;
所述计算单元用于将所述第四数据根据所述第五数据结合预设算法得到所述异常数据。
7.一种服务器,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一项所述的数据异常发现方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的数据异常发现方法。
CN201911157367.3A 2019-11-22 2019-11-22 一种数据异常发现方法、装置、服务器及存储介质 Active CN110879805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911157367.3A CN110879805B (zh) 2019-11-22 2019-11-22 一种数据异常发现方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911157367.3A CN110879805B (zh) 2019-11-22 2019-11-22 一种数据异常发现方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN110879805A CN110879805A (zh) 2020-03-13
CN110879805B true CN110879805B (zh) 2022-04-05

Family

ID=69729178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911157367.3A Active CN110879805B (zh) 2019-11-22 2019-11-22 一种数据异常发现方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN110879805B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708846A (zh) * 2020-05-14 2020-09-25 北京嗨学网教育科技股份有限公司 一种多终端的数据管理方法及装置
CN111698302A (zh) * 2020-05-29 2020-09-22 深圳壹账通智能科技有限公司 数据预警方法、装置、电子设备及介质
CN113850494B (zh) * 2021-09-22 2024-06-11 广东电网有限责任公司 一种数据加载方法、装置、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7007196B2 (en) * 2002-06-10 2006-02-28 Sun Microsystems, Inc. Data storage system using 3-party hand-off protocol to facilitate failure recovery
CN105069025A (zh) * 2015-07-17 2015-11-18 浪潮通信信息系统有限公司 一种大数据的智能聚合可视化与管控系统
CN105516196A (zh) * 2016-01-19 2016-04-20 国家计算机网络与信息安全管理中心江苏分中心 基于http报文数据的并行化网络异常检测方法与系统
CN106708869A (zh) * 2015-11-16 2017-05-24 阿里巴巴集团控股有限公司 一种群组数据处理的方法及装置
CN106940679A (zh) * 2017-02-23 2017-07-11 中科创达软件股份有限公司 数据处理方法及装置
CN109188502A (zh) * 2018-07-05 2019-01-11 中国科学技术大学 一种基于自编码器的束流位置监测器异常检测方法及装置
CN109215728A (zh) * 2017-07-01 2019-01-15 英特尔公司 用于分布式存储器危险检测和错误恢复的存储器电路和方法
CN109213102A (zh) * 2018-09-11 2019-01-15 深圳众城卓越科技有限公司 多命令监测方法、装置、计算机设备及存储介质
CN109767618A (zh) * 2018-12-20 2019-05-17 北京航空航天大学 一种公安交管业务异常数据综合研判方法及系统
CN110119340A (zh) * 2019-05-17 2019-08-13 北京字节跳动网络技术有限公司 异常监测方法、装置、电子设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5567307B2 (ja) * 2009-09-24 2014-08-06 株式会社日立国際電気 基板処理装置の異常検知システム、群管理装置、基板処理装置の異常検知方法及び基板処理システム。

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7007196B2 (en) * 2002-06-10 2006-02-28 Sun Microsystems, Inc. Data storage system using 3-party hand-off protocol to facilitate failure recovery
CN105069025A (zh) * 2015-07-17 2015-11-18 浪潮通信信息系统有限公司 一种大数据的智能聚合可视化与管控系统
CN106708869A (zh) * 2015-11-16 2017-05-24 阿里巴巴集团控股有限公司 一种群组数据处理的方法及装置
CN105516196A (zh) * 2016-01-19 2016-04-20 国家计算机网络与信息安全管理中心江苏分中心 基于http报文数据的并行化网络异常检测方法与系统
CN106940679A (zh) * 2017-02-23 2017-07-11 中科创达软件股份有限公司 数据处理方法及装置
CN109215728A (zh) * 2017-07-01 2019-01-15 英特尔公司 用于分布式存储器危险检测和错误恢复的存储器电路和方法
CN109188502A (zh) * 2018-07-05 2019-01-11 中国科学技术大学 一种基于自编码器的束流位置监测器异常检测方法及装置
CN109213102A (zh) * 2018-09-11 2019-01-15 深圳众城卓越科技有限公司 多命令监测方法、装置、计算机设备及存储介质
CN109767618A (zh) * 2018-12-20 2019-05-17 北京航空航天大学 一种公安交管业务异常数据综合研判方法及系统
CN110119340A (zh) * 2019-05-17 2019-08-13 北京字节跳动网络技术有限公司 异常监测方法、装置、电子设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于多分布特征的航天器遥测动态加权异常检测算法;杜莹 等;《兵器装备工程学报》;20180725;第39卷(第7期);98-105 *
网络流量异常检测中分类器的提取与训练方法研究;郑黎明 等;《计算机学报》;20120415;第35卷(第4期);719-729,827 *

Also Published As

Publication number Publication date
CN110879805A (zh) 2020-03-13

Similar Documents

Publication Publication Date Title
CN110879805B (zh) 一种数据异常发现方法、装置、服务器及存储介质
CN110928718B (zh) 一种基于关联分析的异常处理方法、系统、终端及介质
US11308092B2 (en) Stream processing diagnostics
CN107577588B (zh) 一种海量日志数据智能运维系统
US10572512B2 (en) Detection method and information processing device
CN109831478A (zh) 基于规则及模型的分布式实时处理智能决策系统及方法
US20190042618A1 (en) Autonomous anomaly detection and event triggering for data series
US11847130B2 (en) Extract, transform, load monitoring platform
CN111177134B (zh) 适用于海量数据的数据质量分析方法、装置、终端及介质
CN109684393A (zh) 数据采集方法、计算机可读存储介质及终端设备
CN111949480A (zh) 一种基于组件感知的日志异常检测方法
Shilpika et al. MELA: A visual analytics tool for studying multifidelity hpc system logs
CN111459646A (zh) 基于管道模型与任务合并的大数据质量管理任务调度方法
CN114490882B (zh) 一种异构数据库数据同步分析方法
CN112860808A (zh) 基于数据标签的用户画像分析方法、装置、介质和设备
CN117785841A (zh) 多源异构数据的处理方法及装置
CN110309206B (zh) 订单信息采集方法及系统
CN111045849A (zh) 核对异常原因的识别方法、装置、服务器和存储介质
US12052134B2 (en) Identification of clusters of elements causing network performance degradation or outage
CN112131291B (zh) 基于json数据的结构化解析方法、装置、设备及存储介质
CN115102848A (zh) 日志数据的提取方法、系统、设备及介质
CN113779026A (zh) 业务数据表的处理方法和装置
US11290614B2 (en) Automatic grouping method in web based Device Management Applications using unsupervised machine learning algorithm
CN118626489A (zh) 数字孪生装备管理系统的数据存储方法及装置
CN118838958A (zh) 一种云环境下的基于cmdb的数据管控方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant