CN111813765B - 一种异常数据处理的方法、装置、电子设备、计算机可读介质 - Google Patents

一种异常数据处理的方法、装置、电子设备、计算机可读介质 Download PDF

Info

Publication number
CN111813765B
CN111813765B CN202010564616.7A CN202010564616A CN111813765B CN 111813765 B CN111813765 B CN 111813765B CN 202010564616 A CN202010564616 A CN 202010564616A CN 111813765 B CN111813765 B CN 111813765B
Authority
CN
China
Prior art keywords
data
information
record
change record
history
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010564616.7A
Other languages
English (en)
Other versions
CN111813765A (zh
Inventor
刘浩
柳超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jindi Technology Co Ltd
Original Assignee
Beijing Jindi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jindi Technology Co Ltd filed Critical Beijing Jindi Technology Co Ltd
Priority to CN202010564616.7A priority Critical patent/CN111813765B/zh
Publication of CN111813765A publication Critical patent/CN111813765A/zh
Application granted granted Critical
Publication of CN111813765B publication Critical patent/CN111813765B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种异常数据处理的方法、装置、电子设备、计算机可读介质,涉及计算机技术领域。该方法包括:查找对象的历史变更记录;其中,所述历史变更记录中每条记录数据至少包括目标字段的历史信息;将所述目标字段的当前信息,与所述目标字段的历史信息进行比对,从所述历史变更记录中的记录数据中确定出抖动数据;根据预设的处理策略,对所述历史变更记录中的抖动数据进行处理。本公开能够有效地处理抖动数据,提升产品的数据质量。

Description

一种异常数据处理的方法、装置、电子设备、计算机可读介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种异常数据处理的方法、装置、电子设备、计算机可读介质。
背景技术
随着大数据技术的迅猛发展,可以通过对收集的大数据进行清洗分析、整理,进而提供数据综合查询或分类查询服务。例如,某一产品涵盖网页端、APP端,可提供强大的查公司、查老板、查关系功能,用户不仅可以根据公司名称查询到其董高监信息,而且可以通过查老板功能查询到老板名下所有注册信息,除此之外,还可以根据企业所属行业进行分类查询,等等。对于数据查询工作,其后台数据量巨大,数据变动的情况也时常发生,因此导致出现重复的抖动数据,非常影响数据的质量以及用户的体验。如何处理错误的抖动数据,提升数据的质量,一直是一个至关重要的问题。
发明内容
有鉴于此,本发明实施例提供一种异常数据处理的方法、装置、电子设备、计算机可读介质,能够有效地检测并处理抖动数据,提升产品的数据质量。
为实现上述目的,根据本发明实施例的一个方面,提供了一种异常数据处理的方法。
本发明实施例的异常数据处理的方法包括:查找对象的历史变更记录;其中,所述历史变更记录中每条记录数据至少包括目标字段的历史信息;将所述目标字段的当前信息,与所述目标字段的历史信息进行比对,从所述历史变更记录中的记录数据中确定出抖动数据;根据预设的处理策略,对所述历史变更记录中的抖动数据进行处理。
可选地,所述历史变更记录中每条记录数据还包括时间字段的信息;
查找对象的历史变更记录的步骤包括:根据预设的时段筛选条件以及对象的标识信息,查找所述对象的历史变更记录,其中所述历史变更记录中每条记录数据还包括时间字段的信息符合所述预设的时段筛选条件。
可选地,将所述目标字段的当前信息,与所述目标字段的历史信息进行比对,从所述历史变更记录中的记录数据中确定出抖动数据的步骤包括:将所述目标字段的当前信息,与所述目标字段的历史信息进行比对,确定所述目标字段的历史信息与当前信息的相似度;根据所述相似度,从所述历史变更记录中的记录数据中确定出抖动数据。
可选地,根据所述相似度,从所述历史变更记录中的记录数据中确定出抖动数据的步骤包括:根据所述相似度,调取分类模型;根据所述分类模型对所述历史变更记录中的记录数据进行分类处理,以从所述历史变更记录中的记录数据确定出抖动数据。
可选地,在根据所述相似度,调取分类模型之前,还包括:获取训练数据集,所述训练数据集中包括已分类的抖动数据和非抖动数据;根据所述训练数据集以及预选的特征集、训练阈值,通过决策树学习得到初始分类模块;对所述初始分类模型进行修剪,得到分类模型。
可选地,所述历史变更记录中每条记录数据还包括统计字段的信息,所述预设的处理策略包括删除处理;
根据预设的处理策略,对所述历史变更记录中的抖动数据进行处理的步骤包括:将所述历史变更记录中的抖动数据进行删除,并生成删除记录信息。
所述预设的处理策略还包括统计处理;
根据预设的处理策略,对所述历史变更记录中的抖动数据进行处理的步骤还包括:根据所述抖动数据的统计字段的信息,对所述抖动数据进行统计处理,得到统计处理结果;存储所述删除记录信息和/或统计处理结果。
可选地,在存储所述删除记录信息和统计处理结果之后,还包括:所述删除记录信息和统计处理结果发送至可视化模块;和/或,根据所述统计处理结果生成告警信息。
可选地,所述统计字段至少包括以下一种:数据源,所属地区、变更时间、版本。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种异常数据处理的装置。
本发明实施例的异常数据处理的装置包括:
查找模块,用于查找对象的历史变更记录;其中,所述历史变更记录中每条记录数据至少包括目标字段的历史信息;
比对模块,用于将所述目标字段的当前信息,与所述目标字段的历史信息进行比对,从所述历史变更记录中的记录数据中确定出抖动数据;
执行模块,用于根据预设的处理策略,对所述历史变更记录中的抖动数据进行处理。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种电子设备。
本发明实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一项的异常数据处理的方法。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述任一项的异常数据处理的方法。
上述发明中的一个实施例具有如下优点或有益效果:通过针对每个字段查找其历史变更记录,以及比对该字段的当前信息和历史信息,确定出抖动数据,并进一步处理该抖动数据。对于产品本身而言,能修复大量的重复、错误数据,极大提高产品的数据质量。对于用户而言,能消除推送给用户的错误的抖动消息,提升了用户的产品体验。对于开发人员而言,便于开发人员发现存在的问题。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的异常数据处理的方法的主要流程的示意图;
图2是根据本发明实施例的异常数据处理的方法的示意图;
图3是根据本发明实施例的异常数据处理的装置的主要模块的示意图;
图4是本发明实施例可以应用于其中的示例性系统架构图;
图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的异常数据处理的方法的主要流程的示意图,如图1所示,本发明实施例的异常数据处理的方法主要包括:
步骤S101:查找对象的历史变更记录;其中,历史变更记录中每条记录数据至少包括目标字段的历史信息。
在本发明实施例中,可根据对象的标识信息查找对象的历史变更记录。其中,标识信息是用来唯一标识对象,目标字段是对象的一个特征,例如对象为公司的情况下,标识信息可以是标识每个公司的ID(如公司名称、公司编号、公司代码等),目标字段可以是公司的股东。
在实际应用中,一个公司的股东信息发生变化的情况下,则公司的历史变更记录中会有相应的记录。其中,该历史变更记录中的所有记录数据可存储在多个表格中,也可存在一个表格中。例如在示例一中,甲公司在最近一个月内股东发生几次变化,由A变为B,然后由B变为C,后续又由C变为A,因此甲公司的历史变更记录如下表1:
表1
表1示出了历史变更记录,在上述示例一中,目标字段为股东名称,以及该历史变更记录还包括其他字段:公司ID(标识信息)、Time(时间)、Version(版本),该历史变更记录仅为进一步理解本公开的示例,并不用于限定该多历史变更记录中的具体信息。
步骤S102:将目标字段的当前信息,与目标字段的历史信息进行比对,从历史变更记录中的记录数据中确定出抖动数据。
例如,在上述示例一中,甲公司的目标字段的当前信息为A,将该当前信息与历史变更记录中目标字段的历史信息进行比对,可判断历史变更记录中是否存在抖动数据。例如在上述示例一,甲公司的股东名称先由A变为B,然后由B变为C,后续又由C变为A,因此通过上述步骤S102可确定出表1中示出的几条记录数据为抖动数据。如果判断出存在抖动数据,则进行步骤S103。如果判断出不存在抖动数据的话,则不进行步骤S103。
步骤S103:根据预设的处理策略,对历史变更记录中的抖动数据进行处理。在本发明实施例中,预设的处理策略至少包括删除处理。历史变更记录中存在抖动数据的话,不仅会影响用户的用户体验,而且也不利于研发人员发现问题。因此,在确定出历史变更记录中存在抖动数据后,则将该抖动数据进行删除。在本发明实施例中,为便于研发人员统计抖动数据的信息,在处理策略中还可包括统计处理的策略。例如在上述示例一,通过上述步骤S102可确定出表1中示出的几条记录数据为抖动数据。然后,将表1中示出的几条记录数据做删除处理。优选的,将历史变更记录中的抖动数据进行删除后,生成删除记录信息,以便后续对该数据处理进行历史查询。以及,可根据抖动数据的统计字段的信息,对抖动数据进行统计处理,得到统计处理结果,存储删除记录信息或统计处理结果。
根据本发明实施例,通过针对每个字段查找其历史变更记录,以及比对该字段的当前信息和历史信息,确定出抖动数据,并进一步处理该抖动数据。对于产品本身而言,能修复大量的重复、错误数据,极大提高产品的数据质量。对于用户而言,能消除推送给用户的错误消息(抖动),提升了用户的产品体验。对于开发人员而言,便于开发人员发现存在的问题。
在本发明一实施例中,历史变更记录中每条记录数据还包括时间字段的信息。根据对象的标识信息,查找对象的历史变更记录的过程中,根据预设的时段筛选条件以及对象的标识信息,查找对象的历史变更记录,其中,历史变更记录中每条记录数据还包括时间字段的信息符合预设的时段筛选条件。每次查找对象的历史变更记录以判断是否存在抖动数据的时间,可根据设置的固定时间,例如时段筛选条件为:每隔一周(或者一月)查找出最近的一周(或者一月)内的变更记录数据,然后判断获取到的数据中是否存在抖动数据。在另一实施例中,查找对象的历史变更记录以判断是否存在抖动数据的时间,也可动态设置,例如根据变更频率动态设置。优选的,历史变更记录中的记录数据可根据时间字段的信息排序的,以便从历史变更记录中筛选出符合预设的时段筛选条件的记录数据。
在本发明一实施例中,将目标字段的当前信息,与目标字段的历史信息进行比对,从历史变更记录中的记录数据中确定出抖动数据的过程中,将目标字段的当前信息,与目标字段的历史信息进行比对,确定目标字段的历史信息与当前信息的相似度。然后,根据相似度,从历史变更记录中的记录数据中确定出抖动数据。在不同实施例中,该相似度的值可以是不同的。在一实施例中,在历史变更记录中的记录数据为AB->A->B->ABC的情况下,虽然AB和ABC不完全匹配,但是AB和ABC的相似度符合预设值(大于某个值或者等于某个值),则认定该该数据为抖动数据。
例如,在上述表1中,通过遍历表格(Version升序排列或者Time升序排列),现有的股东为A,通过比对表中股东字段的信息,确定版本1中的股东名称与当前股东的名称一致(目标字段的历史信息与当前信息完全相同,相似度为百分之百),因此可将上述表格中的第一行至第三行数据确定为抖动数据。删除抖动数据后,则不用将抖动数据(版本1中股东名称为A、版本2中股东名称为B、版本3中股东名称为C)推送给用户,直接将当前版本的股东名称为A的信息推送给用户。因此,避免将错误数据或者无效数据推送给用户,提升了用户体验。
在本发明一实施例中,如果目标字段的历史信息与当前信息不完全相同(完全匹配),可通过训练的分类模型确定历史变更记录中的每条记录数据是否为抖动数据。具体的,将目标字段的当前信息,与目标字段的历史信息进行比对,从历史变更记录中的记录数据中确定出抖动数据的过程中,将目标字段的当前信息,与目标字段的历史信息进行比对,在确定当前信息与历史信息不相同(相似度小于百分之百)的情况下,调取分类模型。根据分类模型对历史变更记录中的记录数据进行分类处理,以从历史变更记录中的记录数据确定出抖动数据。优选的,在根据相似度,调取分类模型之前,获取训练数据集,训练数据集中包括已分类的抖动数据和非抖动数据;根据训练数据集以及预选的特征集、训练阈值,通过决策树学习得到初始分类模块;对初始分类模型进行修剪,得到分类模型。
在本发明一实施例中,历史变更记录中每条记录数据还包括统计字段的信息,预设的处理策略还包括统计处理。根据预设的处理策略,对历史变更记录中的抖动数据进行处理的过程中,将历史变更记录中的抖动数据进行删除,并生成删除记录信息。以及在本发明实施例中,还根据抖动数据的统计字段的信息,对抖动数据进行统计处理,得到统计处理结果。存储删除记录信息和统计处理结果,以便研发人员查找相应的处理数据。
在根据预设的处理策略,对历史变更记录中的抖动数据进行处理之后,将统计处理结果发送至可视化模块。和/或,根据统计处理结果生成告警信息。进而,主动将抖动数据处理的结果主动展示给研发人员,并且生成告警信息。优选的,统计字段至少包括以下一种:数据源,所属地区、变更时间、版本。其中,数据源是指获取目标字段信息的来源,例如从工商网站获取公司的股东信息,从年报中获取公司的股东信息,从公司公示中获取公司的股东信息,数据源包括工商网站、年报、公司公示。所属地区是指抖动数据所述的地区,例如北京地区的抖动数据、上海地区的抖动数据等。根据统计处理结果生成告警信息的过程中,根据数据源或者所属地区分析统计抖动数据后,可根据数据源或者所属地区生成告警信息。例如,某一地区的数据抖动数据过于频繁,将会报警给开发人员。或者,某一数据源的数据抖动数据过于频繁,将会报警给开发人员。
图2是根据本发明实施例的异常数据处理的方法的示意图,在本发明实施例中,以企业的股东信息为例进一步说明该方案,但不限于对该股东字段信息的数据处理。以及在本发明实施例中,对象为企业,历史变更记录中记录的为企业的股东变更信息,目标字段为企业股东。
如图2所示,本发明实施例的异常数据处理的方法主要包括:
步骤S201:根据企业的标识信息,查找企业股东的历史变更记录。在本发明实施例中,历史变更记录包括历史股东表(下述表2)和股东变更记录表(下述表3)。
公司ID 股东名称 Time Version
xx aa 2020-01-20 1
xx bb 2020-01-21 2
xx cc 2020-01-22 3
表2
表3
在本发明实施例中,股东的当前信息为aa,则当前股东信息表为下表4:
公司ID 股东名称
xx aa
表4
表2-4分别示出了历史股东表、股东变更记录表以及当前股东信息表,仅为进一步理解本公开的示例,并不用于限定该历史股东表、股东变更记录表以及当前股东信息表中的具体信息。
步骤S202:以当前股东信息表中的数据为基础,遍历历史股东表,找到历史股东表和当前股东信息表中股东字段信息数据完全相同的Time,根据Time字段,删除变更记录表中的数据。在一些场景中,股东信息变化的过程为:A->B->C->A,在该变化时间段内(该时间段可以为一周或者自定义的其他时间段或者动态设置的时间段),初始股东数据为A,当前股东数据也为A,字段的数据完全匹配。则可将该时间段内历史的股东信息删除,只保留当前信息即可,若向用户推送时,只推送当前股东信息,无需要将历史股东信息以及变更信息推送给用户。
有上述表2-4可知,历历史股东表中的数据按照Version或者Time升序排列,股东的当前信息为aa,找到历史股东表和当前股东信息表中股东字段信息数据完全相同的Time为2020-01-20,则2020-01-20至2020-01-22之间以及这两个Time对应的数据为抖动数据。进而,将上述表3中的数据删除。
步骤S203:在历史股东表和当前股东信息表中股东字段信息数据不完全匹配的情况下,根据构建的决策树模型,将历史变更记录中的数据分类为抖动数据和非抖动数据。在一些场景中,股东信息变化的过程为:AB->A->B->ABC,虽然AB和ABC不完全匹配,但是该数据的相似度非常高,可认定为抖动数据,该判断的过程可通过决策树训练得到的分类模型实现。
具体的,首先,获取训练数据集(包括历史判断的抖动数据和非抖动数据),进行特征选择,在特征选择的过程中,一般会考虑一些因素:a.现有股东数据和历史表中Version=1的数据是否为包含关系;b.中间数据(Version>1)是否互斥;c.中间数据(Version>1)是否跟现有股东数据为包含关系。然后,生成决策树,包括:
输入:训练数据集D,特征集A,阈值x
(1)若D中所有样本属于同一类Ck,则T为但结点树,并将Ck作为该结点的类标记,返回T;
(2)若则T为单结点树,并将D中样本数最多的类Ck作为该结点的类标记,返回T;
(3)否则,计算A中各个特征对D的信息增益或者信息增益比,选择信息增益或信息增益比最大的特征Ag;
(4)如果Ag的信息增益或信息增益比小于阈值x,则置T为但结点树,并将D中样本数最多的类Ck作为该结点的类标记,返回T;
(5)如果Ag的每一种可能值ai,依Ag=ai将D分割为若干非空子集Di,将Di中样本数最多的类作为标记,构建子结点,由结点及其子结点构成树T,返回T;
对第i个子结点,以Di为训练集,以A-{Ag}为特征集,递归地调用步骤(1)~(5),得到子树Ti,返回Ti。
通过上述训练过程得到决策树后,可进一步对该决策树进行修剪。剪枝是决策树学习算法对付“过拟合”的主要手段。在决策树学习中,为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过多。因此,可通过主动去掉一些分支来降低过拟合的风险。
步骤S204:对判断出的抖动数据进行统计处理,并可视化统计结果。其中,该统计处理的抖动数据不一定是本次判断出的抖动数据,可能是多次判断的多个公司或者多个字段的抖动数据。通过该统计处理,可得到各个数据源的抖动数据的数量、频率等,有利于开发人员改进或选择新的数据源。
步骤S205:根据设置的报警机制,发送报警信息。在本发明实施例中,设置有两个报警机制:按地区分类进行报警,按数据源分类进行报警。如果某一地区的数据抖动数据过于频繁,将会报警给开发人员。或者,如果某一数据源的数据抖动数据过于频繁,将会发送报警信号至开发人员。
根据本发明实施例,对于产品本身而言,能修复大量的重复、错误数据,极大提高产品的数据质量。对于用户而言,能消除推送给用户的错误消息(抖动),提升了用户的产品体验。对于开发人员而言,通过可视化展示和报警机制,能及时发现问题数据源和问题地区,为开发人员选择新数据源提供直观的辅助帮助。
图3是根据本发明实施例异常数据处理的装置的主要模块的示意图,如图3所示,本发明实施例的异常数据处理的装置300包括查找模块301、比对模块302和执行模块303。
查找模块301用于,根据对象的标识信息,查找对象的历史变更记录;其中,历史变更记录中每条记录数据至少包括目标字段的历史信息。
比对模块302用于,将目标字段的当前信息,与目标字段的历史信息进行比对,从历史变更记录中的记录数据中确定出抖动数据。
执行模块303用于,根据预设的处理策略,对历史变更记录中的抖动数据进行处理。
根据本发明实施例,通过针对每个字段查找其历史变更记录,以及比对该字段的当前信息和历史信息,确定出抖动数据,并进一步处理该抖动数据。对于产品本身而言,能修复大量的重复、错误数据,极大提高产品的数据质量。对于用户而言,能消除推送给用户的错误消息(抖动),提升了用户的产品体验。对于开发人员而言,便于开发人员发现存在的问题。
可选地,查找模块还用于根据预设的时段筛选条件以及对象的标识信息,查找对象的历史变更记录,其中,历史变更记录中每条记录数据还包括时间字段的信息符合预设的时段筛选条件。历史变更记录中每条记录数据还包括时间字段的信息。
可选地,比对模块还用于将目标字段的当前信息,与目标字段的历史信息进行比对,确定目标字段的历史信息与当前信息的相似度;根据相似度,从历史变更记录中的记录数据中确定出抖动数据。
可选地,比对模块还用于根据相似度,调取分类模型;根据分类模型对历史变更记录中的记录数据进行分类处理,以从历史变更记录中的记录数据确定出抖动数据。
可选地,比对模块还用于获取训练数据集,训练数据集中包括抖动数据和非抖动数据;基于决策树学习和训练数据集,得到分类模块。
可选地,执行模块还用于将历史变更记录中的抖动数据进行删除,并生成删除记录信息;根据抖动数据的统计字段的信息,对抖动数据进行统计处理,得到统计处理结果;存储删除记录信息和统计处理结果。历史变更记录中每条记录数据还包括统计字段的信息,预设的处理策略还包括统计处理。
可选地,在存储删除记录信息和统计处理结果之后,执行模块还用于将删除记录信息和统计处理结果发送至可视化模块;和/或,执行模块还用于根据统计处理结果生成告警信息。
可选地,统计字段至少包括以下一种:数据源,所属地区、变更时间、版本。
在本发明实施例中,基于上述的异常数据处理的装置,可实现:
S1:根据企业的标识信息,查找企业股东的历史变更记录;
S2:以当前股东信息表中的数据为基础,遍历历史股东表,找到历史股东表和当前股东信息表中股东字段信息数据完全相同的Time,根据Time字段,删除变更记录表中的数据;
S3:在历史股东表和当前股东信息表中股东字段信息数据不完全匹配的情况下,根据构建的决策树模型,将历史变更记录中的数据分类为抖动数据和非抖动数据;
S4:对判断出的抖动数据进行统计处理,并可视化统计结果;
S5:根据设置的报警机制,发送报警信息。在本发明实施例中,设置有两个报警机制:按地区分类进行报警,按数据源分类进行报警。如果某一地区的数据抖动数据过于频繁,将会报警给开发人员。或者,如果某一数据源的数据抖动数据过于频繁,将会报警给开发人员。
根据本发明实施例,对于产品本身而言,能修复大量的重复、错误数据,极大提高产品的数据质量。对于用户而言,能消除推送给用户的错误消息(抖动),提升了用户的产品体验。对于开发人员而言,通过可视化展示和报警机制,能及时发现问题数据源和问题地区,为开发人员选择新数据源提供直观的辅助帮助。
图4示出了可以应用本发明实施例的异常数据处理的方法或异常数据处理的装置的示例性系统架构400。
如图4所示,系统架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本发明实施例所提供的异常数据处理的方法一般由服务器405执行,相应地,异常数据处理的装置一般设置于服务器405中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图5,其示出了适于用来实现本发明实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括查找模块、比对模块、执行模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,比对模块还可以被描述为“将目标字段的当前信息,与目标字段的历史信息进行比对,从历史变更记录中的记录数据中确定出抖动数据的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:根据对象的标识信息,查找对象的历史变更记录;其中,历史变更记录中每条记录数据至少包括目标字段的历史信息;将目标字段的当前信息,与目标字段的历史信息进行比对,从历史变更记录中的记录数据中确定出抖动数据;根据预设的处理策略,对历史变更记录中的抖动数据进行处理;其中,预设的处理策略至少包括删除处理。
根据本发明实施例,通过针对每个字段查找其历史变更记录,以及比对该字段的当前信息和历史信息,确定出抖动数据,并进一步处理该抖动数据。对于产品本身而言,能修复大量的重复、错误数据,极大提高产品的数据质量。对于用户而言,能消除推送给用户的错误消息(抖动),提升了用户的产品体验。对于开发人员而言,便于开发人员发现存在的问题。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种异常数据处理的方法,其特征在于,包括:
查找对象的历史变更记录;其中,所述历史变更记录中的每条记录数据至少包括目标字段的历史信息;
获取所述目标字段的当前信息,将所述目标字段的当前信息与所述目标字段的历史信息进行比对,从所述历史变更记录中的记录数据中确定出抖动数据,包括:
将所述目标字段的当前信息,与所述目标字段的历史信息进行比对,确定所述目标字段的历史信息与当前信息的相似度;
根据所述相似度,从所述历史变更记录中的记录数据中确定出抖动数据,包括:
根据所述相似度,调取分类模型;
根据所述分类模型对所述历史变更记录中的记录数据进行分类处理,以从所述历史变更记录中的记录数据确定出抖动数据;
根据预设的处理策略,对所述历史变更记录中的抖动数据进行处理。
2.根据权利要求1所述的方法,其特征在于,所述历史变更记录中每条记录数据还包括时间字段的信息;
查找对象的历史变更记录的步骤包括:
根据预设的时段筛选条件以及对象的标识信息,查找所述对象的历史变更记录,其中,所述历史变更记录中每条记录数据还包括时间字段的信息符合所述预设的时段筛选条件。
3.根据权利要求1所述的方法,其特征在于,在根据所述相似度,调取分类模型之前,还包括:
获取训练数据集,所述训练数据集中包括已分类的抖动数据和非抖动数据;
根据所述训练数据集以及预选的特征集、训练阈值,通过决策树学习得到初始分类模型;
对所述初始分类模型进行修剪,得到分类模型。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述历史变更记录中每条记录数据还包括统计字段的信息,所述预设的处理策略包括删除处理;
根据预设的处理策略,对所述历史变更记录中的抖动数据进行处理的步骤包括:
将所述历史变更记录中的抖动数据进行删除,并生成删除记录信息。
5.根据权利要求4所述的方法,其特征在于,所述预设的处理策略还包括统计处理;
根据预设的处理策略,对所述历史变更记录中的抖动数据进行处理的步骤还包括:
根据所述抖动数据的统计字段的信息,对所述抖动数据进行统计处理,得到统计处理结果;
存储所述删除记录信息和/或统计处理结果。
6.根据权利要求4所述的方法,其特征在于,在存储所述删除记录信息和统计处理结果之后,还包括:
将所述删除记录信息和统计处理结果发送至可视化模块;和/或
根据所述统计处理结果生成告警信息。
7.根据权利要求4所述的方法,其特征在于,所述统计字段至少包括以下一种:数据源,所属地区、变更时间、版本。
8.一种异常数据处理的装置,其特征在于,包括:
查找模块,用于查找对象的历史变更记录;其中,所述历史变更记录中每条记录数据至少包括目标字段的历史信息;
比对模块,用于将所述目标字段的当前信息,与所述目标字段的历史信息进行比对,从所述历史变更记录中的记录数据中确定出抖动数据,包括:
将所述目标字段的当前信息,与所述目标字段的历史信息进行比对,确定所述目标字段的历史信息与当前信息的相似度;
根据所述相似度,从所述历史变更记录中的记录数据中确定出抖动数据,包括:
根据所述相似度,调取分类模型;
根据所述分类模型对所述历史变更记录中的记录数据进行分类处理,以从所述历史变更记录中的记录数据确定出抖动数据;
执行模块,用于根据预设的处理策略,对所述历史变更记录中的抖动数据进行处理。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202010564616.7A 2020-06-19 2020-06-19 一种异常数据处理的方法、装置、电子设备、计算机可读介质 Active CN111813765B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010564616.7A CN111813765B (zh) 2020-06-19 2020-06-19 一种异常数据处理的方法、装置、电子设备、计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010564616.7A CN111813765B (zh) 2020-06-19 2020-06-19 一种异常数据处理的方法、装置、电子设备、计算机可读介质

Publications (2)

Publication Number Publication Date
CN111813765A CN111813765A (zh) 2020-10-23
CN111813765B true CN111813765B (zh) 2024-04-12

Family

ID=72846253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010564616.7A Active CN111813765B (zh) 2020-06-19 2020-06-19 一种异常数据处理的方法、装置、电子设备、计算机可读介质

Country Status (1)

Country Link
CN (1) CN111813765B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005327153A (ja) * 2004-05-17 2005-11-24 Hitachi Omron Terminal Solutions Corp 故障診断装置、故障診断方法
CN103164511A (zh) * 2013-02-21 2013-06-19 烽火通信科技股份有限公司 一种存储事件日志自动过滤重复抖动数据的方法
CN106021369A (zh) * 2016-05-11 2016-10-12 上海佳依佳信息科技有限公司 一种用于数据变更管理的方法与设备
CN109446193A (zh) * 2018-11-13 2019-03-08 国网宁夏电力有限公司电力科学研究院 反窃电模型生成方法及装置
CN110366003A (zh) * 2019-06-24 2019-10-22 北京大米科技有限公司 视频数据的抗抖动处理方法、装置、电子设备和存储介质
CN110569168A (zh) * 2019-08-26 2019-12-13 腾讯科技(深圳)有限公司 一种数据交互方法、相关设备及存储介质
CN110752942A (zh) * 2019-09-06 2020-02-04 平安科技(深圳)有限公司 告警信息的决策方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9454827B2 (en) * 2013-08-27 2016-09-27 Qualcomm Incorporated Systems, devices and methods for tracking objects on a display

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005327153A (ja) * 2004-05-17 2005-11-24 Hitachi Omron Terminal Solutions Corp 故障診断装置、故障診断方法
CN103164511A (zh) * 2013-02-21 2013-06-19 烽火通信科技股份有限公司 一种存储事件日志自动过滤重复抖动数据的方法
CN106021369A (zh) * 2016-05-11 2016-10-12 上海佳依佳信息科技有限公司 一种用于数据变更管理的方法与设备
CN109446193A (zh) * 2018-11-13 2019-03-08 国网宁夏电力有限公司电力科学研究院 反窃电模型生成方法及装置
CN110366003A (zh) * 2019-06-24 2019-10-22 北京大米科技有限公司 视频数据的抗抖动处理方法、装置、电子设备和存储介质
CN110569168A (zh) * 2019-08-26 2019-12-13 腾讯科技(深圳)有限公司 一种数据交互方法、相关设备及存储介质
CN110752942A (zh) * 2019-09-06 2020-02-04 平安科技(深圳)有限公司 告警信息的决策方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"多粒度数据变更影响域分析方法";胡文华 等;《计算机工程与设计》;第40卷(第9期);第2483-2488页 *

Also Published As

Publication number Publication date
CN111813765A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
US10884891B2 (en) Interactive detection of system anomalies
CN111190888A (zh) 一种管理图数据库集群的方法和装置
CN109471783B (zh) 预测任务运行参数的方法和装置
CN111669379B (zh) 行为异常检测方法和装置
CN110928853A (zh) 一种标识日志的方法和装置
CN110766348B (zh) 一种组合拣货任务的方法和装置
US9299246B2 (en) Reporting results of processing of continuous event streams
CN110874307A (zh) 事件埋点的收集上报方法和装置
US20150019284A1 (en) Dynamically modifying business processes based on real-time events
CN114461644A (zh) 一种数据采集方法、装置、电子设备及存储介质
CN115422003A (zh) 数据质量监控方法、装置、电子设备、存储介质
CN114091704B (zh) 一种告警压制方法和装置
CN113761565B (zh) 数据脱敏方法和装置
CN108985805B (zh) 一种选择性执行推送任务的方法和装置
CN111813765B (zh) 一种异常数据处理的方法、装置、电子设备、计算机可读介质
CN111858621A (zh) 监控业务流程的方法、装置、设备和计算机可读介质
CN113138974B (zh) 数据库合规检测的方法和装置
CN112256566B (zh) 一种测试案例的保鲜方法和装置
CN111026629A (zh) 一种测试脚本自动生成的方法和装置
CN110688355A (zh) 变更容器状态的方法和装置
CN112579673A (zh) 一种多源数据处理方法及装置
CN112749204A (zh) 一种读取数据的方法和装置
CN112862554A (zh) 一种订单数据的处理方法和装置
CN111178375B (zh) 用于生成信息的方法和装置
CN113362097B (zh) 一种用户确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant