CN110471910A - 一种数据质量报警方法、装置及设备 - Google Patents

一种数据质量报警方法、装置及设备 Download PDF

Info

Publication number
CN110471910A
CN110471910A CN201910637252.8A CN201910637252A CN110471910A CN 110471910 A CN110471910 A CN 110471910A CN 201910637252 A CN201910637252 A CN 201910637252A CN 110471910 A CN110471910 A CN 110471910A
Authority
CN
China
Prior art keywords
data
alert levels
index
section
alert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910637252.8A
Other languages
English (en)
Inventor
曾伟雄
莫卉星
纪磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Union Mobile Pay Co Ltd
Original Assignee
Union Mobile Pay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Union Mobile Pay Co Ltd filed Critical Union Mobile Pay Co Ltd
Priority to CN201910637252.8A priority Critical patent/CN110471910A/zh
Publication of CN110471910A publication Critical patent/CN110471910A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Alarm Systems (AREA)

Abstract

本发明涉及计算机技术领域,尤其涉及一种数据质量报警方法、装置及设备,用以解决现有技术中数据监控过程频繁报警的问题。本发明实施例针对待处理数据集中的任意一个数据字段,确定所述数据字段的至少一个数据指标所属的数据指标区间,并根据数据指标区间和报警级别之间的对应关系,确定每个数据指标对应的报警级别;根据确定的每个数据指标对应的报警级别确定所述数据字段的总报警级别;根据所述数据字段的总报警级别确定是否进行报警处理。通过本发明实施例中的方法、装置及设备,可以提高数据监控的可靠性。

Description

一种数据质量报警方法、装置及设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据质量报警方法、装置及设备。
背景技术
随着互联网和信息行业的发展,大数据一词越来越引起人们的关注。大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据的数据质量通常是开展大数据应用分析的前提和基础,因此数据质量的监控问题显得尤为重要。
在进行数据质量监控时,对一些不正常的数据信息需要进行报警,来引起监控技术人员的注意,以便监控技术人员做出积极准确的判断。目前,通常是对每个数据的不同指标分别进行监控,例如监控数据的缺失值指标、极值指标和PSI(Population StabilityIndex,稳定度指标),在每个指标不正常时均需要进行报警处理。这样,在数据监控过程中,会导致频繁报警的问题。
发明内容
本发明提供一种数据质量报警方法、装置及设备,用以解决现有技术在数据监控过程中会导致频繁报警的问题。
第一方面,本发明实施例提供一种数据质量报警方法,该方法包括:
针对待处理数据集中的任意一个数据字段,确定所述数据字段的至少一个数据指标所属的数据指标区间,并根据数据指标区间和报警级别之间的对应关系,确定每个数据指标对应的报警级别;根据确定的每个数据指标对应的报警级别确定所述数据字段的总报警级别;根据所述数据字段的总报警级别确定是否进行报警处理。
由于本发明实施例针对数据集中的任意一个数据字段,通过数据指标和报警级别的对应关系,确定任意一个数据字段的每个数据指标对应的报警级别,然后根据每个数据指标对应的报警级别确定该数据字段的总报警级别,最后根据总报警级别确定是否进行报警处理。能够综合考虑数据字段的各个数据指标对应的报警级别,并确定出一个总的报警级别,在总的报警级别满足条件时进行报警处理;避免了在监控过程中同一数据字段的多个数据指标不正常时,对该数据字段的频繁报警;由于频繁的报警容易导致监控技术人员对报警放松警惕,本发明实施例提的报警方法提高了数据监控的可靠性。
第二方面,本发明实施例提供一种数据质量报警装置,该装置包括:
确定模块,用于针对待处理数据集中的任意一个数据字段,确定所述数据字段的至少一个数据指标所属的数据指标区间,并根据数据指标区间和报警级别之间的对应关系,确定每个数据指标对应的报警级别;
处理模块,用于根据确定的每个数据指标对应的报警级别确定所述数据字段的总报警级别;
报警模块,用于根据所述数据字段的总报警级别确定是否进行报警处理。
第三方面,本发明实施例提供一种数据质量报警设备,该设备包括:存储器以及处理器;
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述第一方面或第一方面任一种可能设计中的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行上述第一方面或第一方面任一种可能设计中的方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的数据质量报警方法的流程示意图;
图2为本发明实施例所提供的数据质量报警装置的一种结构示意图;
图3为本发明实施例所提供的数据质量报警设备的另一种结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本发明的技术方案,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
以下,对本发明实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)本发明实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
(2)“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本发明实施例数据集可以是银行的数据库,在对银行的数据库进行数据质量监控时,需要对不同属性的数据以及每个数据的不同指标进行动态监控,不同的数据属性也可以称为不同的数据字段。例如,数据字段可以为储蓄卡出账金额、储蓄卡消费金额、储蓄卡余额、手机号、银行卡号等。
本发明实施例在对数据质量进行监控过程时,是对预设时长内得到数据集进行监控,并确定数据集中每个数据字段的数据指标,在确定满足报警条件时对数据集中的数据字段进行报警处理。
其中,数据字段的数据指标下列指标中的部分或全部:
稳定度指标、数据缺失值指标、数据规范指标、数据极值指标。
目前,在监控过程中,需要对数据字段的每个数据指标分别进行监控,在数据字段的某一指标不正常时,对该数据字段进行报警处理。在同一数据字段的多个数据指标均不正常时,需要对该数据字段进行多次报警,从而造成报警过于频繁。本发明实施例给出针对数据字段的不同数据指标,给出一种合理的数据质量报警的方案。
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种数据质量报警方法,包括:
步骤S101:针对待处理数据集中的任意一个数据字段,确定所述数据字段的至少一个数据指标所属的数据指标区间,并根据数据指标区间和报警级别之间的对应关系,确定每个数据指标对应的报警级别。
步骤S102:根据确定的每个数据指标对应的报警级别确定所述数据字段的总报警级别。
步骤S103:根据所述数据字段的总报警级别确定是否进行报警处理。
在本发明实施例中,针对待处理数据集中的任意一个数据字段,通过数据指标和报警级别的对应关系,确定任意一个数据字段的每个数据指标对应的报警级别,然后根据每个数据指标对应的报警级别确定该数据字段的总报警级别,最后根据总报警级别确定是否进行报警处理。本发明提供了一种数据质量报警方案,能够综合考虑数据字段的各个数据指标对应的报警级别,并确定出一个总的报警级别,在总的报警级别满足条件时进行报警处理;避免了在监控过程中同一数据字段的多个数据指标不正常时,对该数据字段的频繁报警;由于频繁的报警容易导致监控技术人员对报警放松警惕,本发明实施例提出的报警方法提高了数据监控的可靠性。
需要说明的是,本发明实施例的待处理数据集为统计的当前时刻前第一预设时长内的数据;例如,待处理数据集可以是统计的当天的数据组成的数据集,或者可以是统计的当前时刻前三个小时的数据组成的数据集。
在步骤S101中,针对数据集中的任意一个数据字段,确定出该数据字段的至少一个数据指标,并确定每个数据指标所属的数据指标区间,以及根据数据指标区间和报警级别之间的对应关系,确定每个数据指标对应的报警级别。
其中,该数据指标包括稳定度指标、数据缺失值指标、数据规范指标、数据极值指标中的至少一种。
下面针对不同的数据指标分别进行说明:
1、稳定度指标:
针对该数据字段,获取预设时长内的历史数据;根据在历史数据中该数据字段对应的第一数据,以及在该待处理数据集中数据字段对应的第二数据,计算数据字段对应的稳定度指标;
稳定度指标的计算公式可以为:
PSI=∑((当前占比-历史占比)*ln(当前占比/历史占比));
其中,当前占比为在当前的数据集中数据字段对应的占比,历史占比为历史数据中该数据字段对应的占比;∑表示求和运算。
例如,该数据字段为性别比例占比;历史数据为统计的最近一个月的数据,假设待处理数据集为6月1日当天的数据,历史数据为5月1日~5月31的数据。在历史数据中男性占比为70%,女性占比为30%;在待处理数据集中男性占比为65%,女性占比为35%,则计算得出稳定度指标为:
PSI=(0.65-0.70)*ln(0.65/0.70)+(0.35-0.30)*ln(0.35/0.30)=0.0114。
针对稳定度指标,步骤S101中的数据指标区间和报警级别之间的对应关系可以为预先设定的;
一种可选的实施方式为:稳定度指标区间和报警级别之间的对应关系中包含多个稳定度指标区间对应的报警级别;每个报警级别对应的稳定度指标区间的门限值为预先设定的;
需要说明的是,稳定度指标区间的门限值可以为本领域技术人员通过仿真确定,或者稳定度指标区间的门限值为本领域技术人员的经验数值。
假设,稳定度指标区间和报警级别之间的对应关系如表1所示:
序号 稳定度指标区间 报警级别
1 PSI>0.2 9
2 0.2≥PSI>0.1 7
3 0.1≥PSI>0.05 5
4 0.05≥PSI>0.01 3
表1
如表1所示,在PSI>0.2时,稳定度指标对应的报警级别为9;在0.2≥PSI>0.1时,稳定度指标对应的报警级别为7;在0.1≥PSI>0.05时,稳定度指标对应的报警级别为5;在0.05≥PSI>0.01时,稳定度指标对应的报警级别为3。
针对稳定度指标,步骤S101中数据字段的稳定度指标对应的报警级别可以根据表1所示的对应关系来确定,如对上述给出的性别比例占比数据字段的稳定度指标计算结果为PSI=0.0114,在0.05≥PSI>0.01的稳定度指标区间内,则该数据字段的稳定度指标对应的报警级别为3。
2、数据缺失值指标:
本发明实施例中的数据缺失值指标可以为待处理数据集中出现数据缺失的次数。
针对数据缺失值指标,可以通过下列方式确定数据指标区间和报警级别之间的对应关系:
方式1、数据缺失值指标区间和报警级别之间的对应关系为预先设定的;
其中,数据缺失值指标区间和报警级别之间的对应关系中每个报警级别对应的数据缺失值指标区间的门限值为预先设定的;
需要说明的是,每个数据缺失值指标区间的门限值可以为本领域技术人员通过仿真确定,或者每个数据缺失值指标区间的门限值为本领域技术人员的经验数值。
方式2、根据历史数据和预设的指标区间确定条件,建立数据缺失值指标区间和报警级别之间的对应关系;
可选的,预先设定指标区间确定条件和报警级别的对应关系;
针对预先设定的指标区间确定条件和报警级别的对应关系中的任意一个指标区间确定条件,根据预设时长内的历史数据和所述指标区间确定条件,确定所述指标区间确定条件对应的数据指标区间;建立同一个所述指标区间条件对应的报警级别和数据指标区间之间的对应关系。
其中,预设时长内的历史数据可以为统计得到的一个月内的历史数据,或者为统计得到的三个月内的历史数据,或统计得到的六个月内的历史数据等等。
需要说明的是,随着时间变化,预设时长内的历史数据可以是实时更新的。例如,在6月1日,待处理数据集为6月1日当天的数据,历史数据可以为5月1日~5月31的数据。在7月1日,待处理数据集为7月1日当天的数据,历史数据可以为6月1日~6月30的数据。而本发明实施例中数据缺失值指标区间和报警级别之间的对应关系可以是根据最新统计的预设时长内的历史数据实时更新的,或者数据缺失值指标区间和报警级别之间的对应关系为周期性更新;例如,每间隔一周,统计最新的预设时长内的历史数据,更新数据缺失值指标区间和报警级别之间的对应关系。
每个报警级别对应的数据缺失值指标区间确定条件为预先设定的;例如,预先设定的数据缺失值指标区间确定条件和报警级别的对应关系可以如表2所示:
数据缺失值指标区间确定条件 报警级别
<min/2或>2max 9
<min或>max 7
<p1或>p99 5
<p5或>p95 3
表2
如表2所示,针对报警级别9,根据报警级别9对应的数据缺失值指标区间确定条件确定出的数据缺失值指标区间为:[0,min/2)∪(2max,+∞);针对报警级别7,根据报警级别7对应的数据缺失值指标区间确定条件确定出的数据缺失值指标区间为:[min/2,min)∪(max,2max];针对报警级别5,根据报警级别5对应的数据缺失值指标区间确定条件确定出的数据缺失值指标区间为:[min,p1)∪(p99,max];针对报警级别3,根据报警级别3对应的数据缺失值指标区间确定条件确定出的数据缺失值指标区间为:[p1,p5)∪(p95,p99]。
其中,min为根据预设时长内的历史数据确定出的数据缺失值指标中的最小值,max为根据预设时长内的历史数据确定出的数据缺失值指标中的最大值,p1、p5、p95、p99为根据预设时长内的历史数据确定出的分位数。
在根据每个报警级别对应的数据缺失值指标区间确定条件确定出数据缺失值指标区间之后,建立报警级别与数据缺失值指标区间之间的对应关系。
在确定出待处理数据集中的一个数据字段对应的数据缺失值指标之后,确定该数据缺失值指标所属的数据缺失值指标区间;例如,确定出的数据缺失值指标小于min/2时,则该数据缺失值指标所属的数据缺失值指标区间为[0,min/2)∪(2max,+∞)。
针对数据缺失值指标,步骤S101中数据字段的数据缺失值指标对应的报警级别可以根据上述所建立的报警级别与数据缺失值指标区间之间的对应关系来确定,如对上述给出的数据缺失值指标小于min/2,在[0,min/2)∪(2max,+∞)的数据缺失值指标区间内,则该数据字段的数据缺失值指标对应的报警级别为9。
3、数据规范指标:
本发明实施例中的数据规范指标可以为待处理数据集中出现数据不规范的次数。
针对数据规范指标,可以通过下列方式确定数据指标区间和报警级别之间的对应关系:
方式1、数据规范指标区间和报警级别之间的对应关系为预先设定的;
其中,数据规范指标区间和报警级别之间的对应关系中每个报警级别对应的数据规范指标区间的门限值为预先设定的;
需要说明的是,每个数据规范指标区间的门限值可以为本领域技术人员通过仿真确定,或者每个数据规范指标区间的门限值为本领域技术人员的经验数值。
方式2、根据历史数据和预设的指标区间确定条件,建立数据规范指标区间和报警级别之间的对应关系;
可选的,预先设定指标区间确定条件和报警级别的对应关系;
针对预先设定的指标区间确定条件和报警级别的对应关系中的任意一个指标区间确定条件,根据预设时长内的历史数据和所述指标区间确定条件,确定所述指标区间确定条件对应的数据指标区间;建立同一个所述指标区间条件对应的报警级别和数据指标区间之间的对应关系。
其中,预设时长内的历史数据可以为统计得到的一个月内的历史数据,或者为统计得到的三个月内的历史数据,或统计得到的六个月内的历史数据等等。
需要说明的是,随着时间变化,预设时长内的历史数据可以是实时更新的。例如,在6月1日,待处理数据集为6月1日当天的数据,历史数据可以为5月1日~5月31的数据。在7月1日,待处理数据集为7月1日当天的数据,历史数据可以为6月1日~6月30的数据。而本发明实施例中数据规范指标区间和报警级别之间的对应关系可以是根据最新统计的预设时长内的历史数据实时更新的,或者数据规范指标区间和报警级别之间的对应关系为周期性更新;例如,每间隔一周,统计最新的预设时长内的历史数据,更新数据规范指标区间和报警级别之间的对应关系。
每个报警级别对应的数据规范指标区间确定条件为预先设定的;例如,预先设定的数据规范指标区间确定条件和报警级别的对应关系可以如表3所示:
数据规范指标区间确定条件 报警级别
<min/2或>2max 9
<min或>max 7
<p1或>p99 5
<p5或>p95 3
表3
如表3所示,针对报警级别9,根据报警级别9对应的数据规范指标区间确定条件确定出的数据规范指标区间为:[0,min/2)∪(2max,+∞);针对报警级别7,根据报警级别7对应的数据规范指标区间确定条件确定出的数据规范指标区间为:[min/2,min)∪(max,2max];针对报警级别5,根据报警级别5对应的数据规范指标区间确定条件确定出的数据规范指标区间为:[min,p1)∪(p99,max];针对报警级别3,根据报警级别3对应的数据规范指标区间确定条件确定出的数据规范指标区间为:[p1,p5)∪(p95,p99]。
其中,min为根据预设时长内的历史数据确定出的数据规范指标中的最小值,max为根据预设时长内的历史数据确定出的数据规范指标中的最大值,p1、p5、p95、p99为根据预设时长内的历史数据确定出的分位数。
在根据每个报警级别对应的数据规范指标区间确定条件确定出数据规范指标区间之后,建立报警级别与数据规范指标区间之间的对应关系。
在确定出待处理数据集中的一个数据字段对应的数据规范指标之后,确定该数据规范指标所属的数据规范指标区间;例如,确定出的数据规范指标大于p99时,则该数据缺失值指标所属的数据缺失值指标区间为[min,p1)∪(p99,max]。
针对数据缺失值指标,步骤S101中数据字段的数据规范指标对应的报警级别可以根据上述所建立的报警级别与数据规范指标区间之间的对应关系来确定,如对上述给出的数据规范指标大于p99,在[min,p1)∪(p99,max]的数据规范指标区间内,则该数据字段的数据规范指标对应的报警级别为5。
4、数据极值指标:
本发明实施例中的数据极值指标可以为待处理数据集中出现的数据极值。
其中,该数据极值可以为数据的最大值或者最小值。
针对数据极值指标,通过下列方式确定数据指标区间和报警级别之间的对应关系:
方式1、数据极值指标区间和报警级别之间的对应关系为预先设定的;
其中,数据极值指标区间和报警级别之间的对应关系中每个报警级别对应的数据极值指标区间的门限值为预先设定的;
需要说明的是,每个数据极值指标区间的门限值可以为本领域技术人员通过仿真确定,或者每个数据极值指标区间的门限值为本领域技术人员的经验数值。
方式2、根据历史数据和预设的指标区间确定条件,建立数据极值指标区间和报警级别之间的对应关系;
可选的,预先设定指标区间确定条件和报警级别的对应关系;
针对预先设定的指标区间确定条件和报警级别的对应关系中的任意一个指标区间确定条件,根据预设时长内的历史数据和所述指标区间确定条件,确定所述指标区间确定条件对应的数据指标区间;建立同一个所述指标区间条件对应的报警级别和数据指标区间之间的对应关系。
其中,预设时长内的历史数据可以为统计得到的一个月内的历史数据,或者为统计得到的三个月内的历史数据,或统计得到的六个月内的历史数据等等。
需要说明的是,随着时间变化,预设时长内的历史数据可以是实时更新的。例如,在6月1日,待处理数据集为6月1日当天的数据,历史数据可以为5月1日~5月31的数据。在7月1日,待处理数据集为7月1日当天的数据,历史数据可以为6月1日~6月30的数据。而本发明实施例中数据极值指标区间和报警级别之间的对应关系可以是根据最新统计的预设时长内的历史数据实时更新的,或者数据极值指标区间和报警级别之间的对应关系为周期性更新;例如,每间隔一周,统计最新的预设时长内的历史数据,更新数据极值指标区间和报警级别之间的对应关系。
每个报警级别对应的极值指标区间确定条件为预先设定的;例如,预先设定的数据极值指标区间确定条件和报警级别的对应关系可以如表4所示:
数据极值指标区间确定条件 报警级别
<min/2或>2max 9
<min或>max 7
<p1或>p99 5
<p5或>p95 3
表4
如表4所示,针对报警级别9,根据报警级别9对应的数据极值指标区间确定条件确定出的数据极值指标区间为:[0,min/2)∪(2max,+∞);针对报警级别7,根据报警级别7对应的数据极值指标区间确定条件确定出的数据缺失值指标区间为:[min/2,min)∪(max,2max];针对报警级别5,根据报警级别5对应的数据极值指标区间确定条件确定出的数据极值指标区间为:[min,p1)∪(p99,max];针对报警级别3,根据报警级别3对应的数据极值指标区间确定条件确定出的数据极值指标区间为:[p1,p5)∪(p95,p99]。
其中,min为根据预设时长内的历史数据确定出的数据极值指标中的最小值,max为根据预设时长内的历史数据确定出的数据极值指标中的最大值,p1、p5、p95、p99为根据预设时长内的历史数据确定出的分位数。
在根据每个报警级别对应的数据极值指标区间确定条件确定出数据极值指标区间之后,建立报警级别与数据规范指标区间之间的对应关系。
在确定出待处理数据集中的一个数据字段对应的数据极值指标之后,确定该数据极值指标所属的数据缺失值指标区间;例如,确定出的数据极值指标大于max时,则该数据极值指标所属的数据极值指标区间为[min/2,min)∪(max,2max]。
针对数据极值指标,步骤S101中数据字段的数据极值指标对应的报警级别可以根据上述所建立的报警级别与数据极指标区间之间的对应关系来确定,如对上述给出的数据极值指标大于max,在[min/2,min)∪(max,2max]的数据极值指标区间内,则该数据字段的数据极值指标对应的报警级别为7。
采用上述方式,可以确定出待处理数据集中每个数据字段的每个数据指标的报警级别。
本发明实施例中,针对数据集中任意一个数据字段确定该数据字段的至少一个数据指标之后,在步骤S102中,根据确定的每个数据指标对应的报警级别确定该数据字段的总报警级别。
本发明实施例可以根据下列方式确定数据字段的总报警级别:
方式1、将确定出的每个数据指标对应的报警级别中最大的报警级别作为总报警级别。
例如,针对储蓄卡出账金额数据字段,确定出的该数据字段的数据指标对应的报警级别分别为:稳定度指标对应的报警级别为9、数据缺失值指标对应的报警级别为7、数据规范指标对应的报警级别为3、数据极值指标对应的报警级别为3,则储蓄卡出账金额数据字段的总报警级别为9。
方式2、根据确定出的每个数据指标对应的报警级别以及每个数据指标对应的权重值,确定该数据字段的总报警级别。
例如,针对储蓄卡消费金额数据字段,确定出的该数据字段的数据指标对应的报警级别分别为:稳定度指标对应的报警级别为9、数据缺失值指标对应的报警级别为3、数据规范指标对应的报警级别为3、数据极值指标对应的报警级别为9,该数据字段的数据指标对应的权重值分别为稳定度指标30%、数据缺失值指标30%、数据规范指标20%、数据极值指标20%,则储蓄卡消费金额数据字段的总报警级别为9*30%+3*30%+3*20%+9*20%=6。
需要说明的是,同一数据字段的每个数据指标对应的权重值可以设置为相同,这样,将数据字段的所有数据指标对应的报警级别的平均值作为该数据字段的总报警级别。
在确定出数据字段的总报警级别之后,在步骤S103中根据该数据字段的总的报警级别确定是否进行报警处理。可以预先设定数据字段的报警阈值,判断数据字段的总报警级别是否大于报警阈值,当总报警级别大于报警阈值时进行报警处理。
例如:设置报警阈值为7,若确定的储蓄卡出账金额数据字段的总报警级别为9,则对该储蓄卡出账金额数据字段进行报警处理;若确定的储蓄卡消费金额数据字段的总报警级别为6,则对该储蓄卡消费金额数据字段不作处理,或者显示该储蓄卡消费金额数据字段的总报警级别但是不作报警处理。
基于同一发明构思,本发明实施例中还提供了一种数据质量报警装置,由于该装置对应的是本发明实施例数据质量报警方法对应的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
如图2所示,本发明实施例提供的一种数据质量报警装置结构示意图,该装置包括:确定模块201、处理模块202和报警模块203;
确定模块201,用于针对待处理数据集中的任意一个数据字段,确定所述数据字段的至少一个数据指标所属的数据指标区间,并根据数据指标区间和报警级别之间的对应关系,确定每个数据指标对应的报警级别;
处理模块202,用于根据确定的每个数据指标对应的报警级别确定所述数据字段的总报警级别;
报警模块203,用于根据所述数据字段的总报警级别确定是否进行报警处理。
可选地,所述数据指标为稳定度指标时,所述数据指标区间和报警级别之间的对应关系为预先设定的。
可选地,在所述数据指标为数据缺失值指标、数据规范指标或数据极值指标时,所述确定模块201具体用于:
通过下列方式确定数据指标区间和报警级别之间的对应关系:
针对预先设定的指标区间确定条件和报警级别的对应关系中的任意一个指标区间确定条件,根据预设时长内的历史数据和所述指标区间确定条件,确定所述指标区间确定条件对应的数据指标区间;
建立同一个所述指标区间条件对应的报警级别和数据指标区间之间的对应关系。
可选地,所述处理模块202具体用于:
将确定出的每个数据指标对应的报警级别中最大的报警级别作为所述总报警级别;或
根据确定的每个数据指标对应的报警级别以及每个数据指标对应的权重值,确定数据字段的总报警级别。
可选地,所述报警模块203具体用于:
在确定所述数据字段的总报警级别大于报警阈值后进行报警处理。
如图3所示,本发明实施例提供的一种数据质量报警设备的结构示意图,该设备300包括:存储器301以及处理器302,所述处理器302,用于调用所述存储器301中存储的程序指令,执行上述数据质量报警的方法。
在本发明实施例中,处理器可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
在本发明实施例中,存储器可以是非易失性存储器,比如硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)等,还可以是易失性存储器(volatilememory),例如随机存取存储器(random-access memory,RAM)。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本发明实施例中的存储器还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。本发明实施例中不限定上述存储器以及处理器之间的具体连接介质,比如总线,总线可以分为地址总线、数据总线、控制总线等。
进一步地,本发明实施例还提供一种数据质量报警的可读存储介质,包括程序代码,当所述程序代码在计算设备上运行时,所述程序代码用于使所述计算设备执行数据质量报警方法的步骤。
以上参照示出根据本发明实施例的方法、装置(系统)和/或计算机程序产品的框图和/或流程图描述本发明。应理解,可以通过计算机程序指令来实现框图和/或流程图示图的一个块以及框图和/或流程图示图的块的组合。可以将这些计算机程序指令提供给通用计算机、专用计算机的处理器和/或其它可编程数据处理装置,以产生机器,使得经由计算机处理器和/或其它可编程数据处理装置执行的指令创建用于实现框图和/或流程图块中所指定的功能/动作的方法。
相应地,还可以用硬件和/或软件(包括固件、驻留软件、微码等)来实施本发明。更进一步地,本发明可以采取计算机可使用或计算机可读存储介质上的计算机程序产品的形式,其具有在介质中实现的计算机可使用或计算机可读程序代码,以由指令执行系统来使用或结合指令执行系统而使用。在本发明上下文中,计算机可使用或计算机可读介质可以是任意介质,其可以包含、存储、通信、传输、或传送程序,以由指令执行系统、装置或设备使用,或结合指令执行系统、装置或设备使用。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种数据质量报警方法,其特征在于,包括:
针对待处理数据集中的任意一个数据字段,确定所述数据字段的至少一个数据指标所属的数据指标区间,并根据数据指标区间和报警级别之间的对应关系,确定每个数据指标对应的报警级别;
根据确定的每个数据指标对应的报警级别确定所述数据字段的总报警级别;
根据所述数据字段的总报警级别确定是否进行报警处理。
2.如权利要求1所述的方法,其特征在于,在所述数据指标为稳定度指标时,所述数据指标区间和报警级别之间的对应关系为预先设定的。
3.如权利要求1所述的方法,其特征在于,在所述数据指标为数据缺失值指标、数据规范指标或数据极值指标时,通过下列方式确定数据指标区间和报警级别之间的对应关系:
针对预先设定的指标区间确定条件和报警级别的对应关系中的任意一个指标区间确定条件,根据预设时长内的历史数据和所述指标区间确定条件,确定所述指标区间确定条件对应的数据指标区间;
建立同一个所述指标区间条件对应的报警级别和数据指标区间之间的对应关系。
4.如权利要求1所述的方法,其特征在于,所述根据确定的每个数据指标对应的报警级别确定所述数据字段的总报警级别,包括:
将确定出的每个数据指标对应的报警级别中最大的报警级别作为所述总报警级别;或
根据确定的每个数据指标对应的报警级别以及每个数据指标对应的权重值,确定数据字段的总报警级别。
5.如权利要求1~4任一项所述的方法,其特征在于,所述根据所述数据字段的总报警级别确定是否进行报警处理,包括:
在确定所述数据字段的总报警级别大于报警阈值后进行报警处理。
6.一种数据质量报警装置,其特征在于,该装置包括:
确定模块,用于针对待处理数据集中的任意一个数据字段,确定所述数据字段的至少一个数据指标所属的数据指标区间,并根据数据指标区间和报警级别之间的对应关系,确定每个数据指标对应的报警级别;
处理模块,用于根据确定的每个数据指标对应的报警级别确定所述数据字段的总报警级别;
报警模块,用于根据所述数据字段的总报警级别确定是否进行报警处理。
7.如权利要求6所述的装置,其特征在于,在所述数据指标为稳定度指标时,所述数据指标区间和报警级别之间的对应关系为预先设定的。
8.如权利要求6所述的装置,其特征在于,在所述数据指标为数据缺失值指标、数据规范指标或数据极值指标时,所述确定模块具体用于:
通过下列方式确定数据指标区间和报警级别之间的对应关系:
针对预先设定的指标区间确定条件和报警级别的对应关系中的任意一个指标区间确定条件,根据预设时长内的历史数据和所述指标区间确定条件,确定所述指标区间确定条件对应的数据指标区间;
建立同一个所述指标区间条件对应的报警级别和数据指标区间之间的对应关系。
9.如权利要求6所述的装置,其特征在于,所述处理模块具体用于:
将确定出的每个数据指标对应的报警级别中最大的报警级别作为所述总报警级别;或
根据确定的每个数据指标对应的报警级别以及每个数据指标对应的权重值,确定数据字段的总报警级别。
10.如权利要求6~9任一项所述的装置,其特征在于,所述报警模块具体用于:
在确定所述数据字段的总报警级别大于报警阈值后进行报警处理。
11.一种数据质量报警设备,其特征在于,该设备包括:
存储器以及处理器;
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1~5任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行权利要求1~5中任一项所述的方法。
CN201910637252.8A 2019-07-15 2019-07-15 一种数据质量报警方法、装置及设备 Pending CN110471910A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910637252.8A CN110471910A (zh) 2019-07-15 2019-07-15 一种数据质量报警方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910637252.8A CN110471910A (zh) 2019-07-15 2019-07-15 一种数据质量报警方法、装置及设备

Publications (1)

Publication Number Publication Date
CN110471910A true CN110471910A (zh) 2019-11-19

Family

ID=68508626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910637252.8A Pending CN110471910A (zh) 2019-07-15 2019-07-15 一种数据质量报警方法、装置及设备

Country Status (1)

Country Link
CN (1) CN110471910A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342939A (zh) * 2021-06-24 2021-09-03 中国平安人寿保险股份有限公司 数据质量监控方法、装置及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034148A (zh) * 2010-12-08 2011-04-27 山东浪潮齐鲁软件产业股份有限公司 一种监控系统的事件预警及防风暴策略的实现方法
CN104599433A (zh) * 2014-10-13 2015-05-06 北京国双科技有限公司 一种指标数据的监测方法、装置及服务器
US20190095510A1 (en) * 2017-09-25 2019-03-28 Splunk Inc. Low-latency streaming analytics
CN109766370A (zh) * 2018-12-27 2019-05-17 口碑(上海)信息技术有限公司 数据处理方法、数据服务系统及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034148A (zh) * 2010-12-08 2011-04-27 山东浪潮齐鲁软件产业股份有限公司 一种监控系统的事件预警及防风暴策略的实现方法
CN104599433A (zh) * 2014-10-13 2015-05-06 北京国双科技有限公司 一种指标数据的监测方法、装置及服务器
US20190095510A1 (en) * 2017-09-25 2019-03-28 Splunk Inc. Low-latency streaming analytics
CN109766370A (zh) * 2018-12-27 2019-05-17 口碑(上海)信息技术有限公司 数据处理方法、数据服务系统及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342939A (zh) * 2021-06-24 2021-09-03 中国平安人寿保险股份有限公司 数据质量监控方法、装置及相关设备
CN113342939B (zh) * 2021-06-24 2023-02-07 中国平安人寿保险股份有限公司 数据质量监控方法、装置及相关设备

Similar Documents

Publication Publication Date Title
CN107705149A (zh) 数据实时监控方法、装置、终端设备及存储介质
US11704220B2 (en) Machine learning based data monitoring
CN108768765A (zh) 异常状态物联网卡稽查方法、装置及计算机可读存储介质
CN107153593A (zh) 一种互联网业务监控阈值的确定方法及装置
CN109088775A (zh) 异常监控方法、装置以及服务器
CN108880845A (zh) 一种信息提示的方法以及相关装置
US20190312829A1 (en) Determination of an online collaboration status of a user based upon biometric and user activity data
CN110471910A (zh) 一种数据质量报警方法、装置及设备
CN113342939A (zh) 数据质量监控方法、装置及相关设备
CN104133688A (zh) 医疗服务巡查与调查系统及方法
CN110659898B (zh) 一种数据控制方法、装置及存储介质
CN110264056B (zh) 一种电量消耗的分析方法及系统
CN111199799A (zh) 一种健康提示信息的处理方法、装置及终端设备
CN110989454A (zh) 一种基于云平台的能耗管理系统及方法
Sowdagur et al. Forecasting value at risk using GARCH and extreme value theory approaches for daily returns
CN110059906B (zh) 策略效能分析方法、装置、服务器及存储介质
CN115278563A (zh) 一种基于影响因子的短信通道智能选择方法和系统
CN114298847A (zh) 职工医保基金结余的预测方法、装置、设备及存储介质
CN110675240B (zh) 风险雷达预警的监控方法及系统
CN114090385A (zh) 一种针对服务运行状态的监控预警方法、装置及设备
CN109740927B (zh) 高等院校法律风险评估与防范系统
CN111105154A (zh) 股市运行风险评估方法、装置、电子设备及存储介质
CN109471775A (zh) 一种未关机检测方法、装置、设备及可读存储介质
CN116684306B (zh) 一种故障预测方法、装置、设备及可读存储介质
CN114677007A (zh) 一种业务影响识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191119

RJ01 Rejection of invention patent application after publication