CN111143159A - 数据监测方法及装置 - Google Patents

数据监测方法及装置 Download PDF

Info

Publication number
CN111143159A
CN111143159A CN201911238270.5A CN201911238270A CN111143159A CN 111143159 A CN111143159 A CN 111143159A CN 201911238270 A CN201911238270 A CN 201911238270A CN 111143159 A CN111143159 A CN 111143159A
Authority
CN
China
Prior art keywords
data
monitoring
fields
field
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911238270.5A
Other languages
English (en)
Inventor
姚正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Dongzhi Data Technology Co ltd
Original Assignee
Jiangsu Dongzhi Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Dongzhi Data Technology Co ltd filed Critical Jiangsu Dongzhi Data Technology Co ltd
Priority to CN201911238270.5A priority Critical patent/CN111143159A/zh
Publication of CN111143159A publication Critical patent/CN111143159A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/865Monitoring of software

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种数据监测方法及装置、计算机设备及可读存储介质。该方法包括:获取待监测的数据对象,所述数据对象中包括至少一个或多个数据字段;按照第一监测规则开始对所述待监测的数据对象进行监测,以得到第一监测结果;根据所述第一监测结果确定第二监测规则,以根据所述第二监测规则对经过所述第一监测规则抽查后得到的数据对象进行监测得到第二监测结果;根据所述第二监测结果判断是否终止对所述数据对象的监测。本申请解决了相关技术中的数据质量监测方法由于缺少对数据长期动态的监测导致数据质量评估效率低下的技术问题。通过本申请,达到了对数据进行长期动态监测的目的,从而提高了数据监测效率和准确率。

Description

数据监测方法及装置
技术领域
本申请涉及数据监测技术领域,具体而言,涉及一种数据监测方法及装置、计算机设备及可读存储介质。
背景技术
数据质量是软件系统生命的关键因素,由于软件开发人员的水平差异和软件产品测试工作的不足,往往会在系统中遗留大量的数据质量隐患。通常情况下,软件开发企业会通过大量的设计、研发和测试工作来弥补这一工作的不足,但还是存在一定的不可确定性,比如一些潜在的数据质量问题会在长期使用中才会凸显出来。现有技术无法通过长期自动化的方式来发现这样的问题,影响了对系统数据质量的有效把控,进而威胁了软件系统的有效运行和使用。
针对相关技术中的数据质量监测方法由于缺少对数据长期动态的监测导致数据质量评估效率低下的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种数据监测方法及装置、计算机设备及可读存储介质,以解决相关技术中的数据质量监测方法由于缺少对数据长期动态的监测导致数据质量评估效率低下的问题。
为了实现上述目的,根据本申请的第一方面,提供了一种数据监测方法。
根据本申请的数据监测方法包括:获取待监测的数据对象,所述数据对象中包括至少一个或多个数据字段;按照第一监测规则开始对所述待监测的数据对象进行监测,以得到第一监测结果;根据所述第一监测结果确定第二监测规则,以根据所述第二监测规则对经过所述第一监测规则抽查后得到的数据对象进行监测得到第二监测结果;根据所述第二监测结果判断是否终止对所述数据对象的监测。
进一步地,所述第一监测规则包括第一抽查字段数量,所述按照第一监测规则开始对所述待监测的数据对象进行监测,以得到第一监测结果包括:获取预设数据字段分组,所述预设数据字段分组包括随机组和/或焦点组;根据所述第一抽查字段数量将对应的第一数据字段加入所述随机组进行抽查,以确定所述第一数据字段中的异常字段;将所述第一数据字段中的异常字段加入所述焦点组,并清空所述随机组。
进一步地,所述第二监测规则包括第二抽查字段数量,所述将所述第一数据字段中的异常字段加入所述焦点组,并清空所述随机组之后包括:根据所述第一抽查字段数量和所述第一数据字段中的异常字段数量确定所述第二抽查字段数量;根据所述第二抽查字段数量将对应的第二数据字段加入所述随机组进行抽查,以确定所述第二数据字段中的异常字段;将所述第二数据字段中的异常字段加入所述焦点组,并清空所述随机组。
进一步地,所述根据所述第二监测结果判断是否终止对所述数据对象的监测包括:获取预设工作量参数,所述预设工作量参数包括对所述待监测的数据对象进行全局遍历的预设次数;判断当前对所述待监测的数据对象进行全局遍历的次数是否达到预设次数;根据判断结果确定是否终止对所述待监测的数据对象的监测。
进一步地,所述第一监测规则和所述第二监测规则均包括数据字段检测规则,所述获取待监测的数据对象之后包括:获取所述数据字段检测规则,所述数据字段检测规则包括数据字段是否为空、数据字段与类型是否匹配、数据字段有效性以及数据字段是否符合业务逻辑中的一种或多种;根据所述数据字段检测规则对所述数据字段进行抽查,以得到数据字段抽查结果。
进一步地,所述根据所述第二监测结果判断是否终止对所述数据对象的监测之后包括:如果终止对所述数据对象的监测,则根据所述第一监测结果和所述第二监测结果生成数据监测报告。
为了实现上述目的,根据本申请的第二方面,提供了一种数据监测装置。
根据本申请的数据监测装置包括:第一获取模块,用于获取待监测的数据对象,所述数据对象中包括至少一个或多个数据字段;第一监测模块,用于按照第一监测规则开始对所述待监测的数据对象进行监测,以得到第一监测结果;第二监测模块,用于根据所述第一监测结果确定第二监测规则,以根据所述第二监测规则对经过所述第一监测规则抽查后得到的数据对象进行监测得到第二监测结果;判断模块,用于根据所述第二监测结果判断是否终止对所述数据对象的监测。
进一步地,所述第一监测模块包括:第一获取单元,用于获取预设数据字段分组,所述预设数据字段分组包括随机组和/或焦点组;第一抽查单元,用于根据所述第一抽查字段数量将对应的第一数据字段加入所述随机组进行抽查,以确定所述第一数据字段中的异常字段;第一加入单元,用于将所述第一数据字段中的异常字段加入所述焦点组,并清空所述随机组。
在本申请实施例中,采用获取待监测的数据对象,所述数据对象中包括至少一个或多个数据字段;按照第一监测规则开始对所述待监测的数据对象进行监测,以得到第一监测结果;根据所述第一监测结果确定第二监测规则,以根据所述第二监测规则对经过所述第一监测规则抽查后得到的数据对象进行监测得到第二监测结果的方式,通过根据所述第二监测结果判断是否终止对所述数据对象的监测,达到了对数据进行长期动态监测的目的,从而实现了提高数据质量的评估效率和准确率的技术效果,进而解决了相关技术中的数据质量监测方法由于缺少对数据长期动态的监测导致数据质量评估效率低下的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的数据监测方法的流程示意图;
图2是根据本申请第二实施例的数据监测方法的流程示意图;
图3是根据本申请第三实施例的数据监测方法的流程示意图;
图4是根据本申请第四实施例的数据监测方法的流程示意图;
图5是根据本申请第五实施例的数据监测方法的流程示意图;
图6是根据本申请第一实施例的数据监测装置的组成结构示意图;以及
图7是根据本申请实施例的计算机设备的组成结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本发明实施例,提供了一种数据监测方法,如图1所示,该方法包括如下的步骤S101至步骤S104:
步骤S101,获取待监测的数据对象,所述数据对象中包括至少一个或多个数据字段。
具体实施时,首先要获取到需要进行监测或者质量评价的数据源,该数据源中可以包括一个或者多个数据字段。
步骤S102,按照第一监测规则开始对所述待监测的数据对象进行监测,以得到第一监测结果。
具体实施时,上述第一监测规则可以是针对待监测的数据对象进行抽查的规则,抽查的规则可以是在待监测的数据对象的多个数据字段中进行随机抽取,对抽取到的每个数据字段的质量进行检查,包括数据字段是否完整、字段的有效性等等,将按照第一次抽查得到的结果作为第一监测结果,包括符合质量要求的数据字段以及不符合质量要求的数据字段。例如,获取到需要进行监测的数据源中共有500个字段,初始设定随机抽取的字段数量为25个,对25个数据字段进行质量检查后,发现有问题的数据字段有2个,无问题的数据字段为23个,则记录这一抽查结果,同时则将随机抽取到的这25个字段进行标记以确认是否完全全局遍历。
步骤S103,根据所述第一监测结果确定第二监测规则,以根据所述第二监测规则对经过所述第一监测规则抽查后得到的数据对象进行监测得到第二监测结果。
具体实施时,在按照第一监测规则对待监测的数据字段完成第一次监测后,根据上一次的监测结果确定这一次的监测规则,以对经过第一监测规则抽查后得到的数据字段进行监测得到第二监测结果。例如,在第一监测结果中发现有问题的数据字段有2个,无问题的数据字段为23个,则可以确定本次随机抽取的数据字段数量为第一次抽查后无问题的数据字段数量即23个,通过需要对本次随机抽取的23个的数据字段以及上一次抽查到的2个数据字段进行质量检查,结果发现有问题的数据字段有3个,无问题的数据字段有20个,则将本次检查到的3个有问题的数据字段与前一次的2个有问题的数据字段合并到一起作为有问题的数据字段监测组,以进行持续监测,同时根据本次无问题的数据字段数量确定下一次随机抽取的数据字段数量,以此类推。持续检查有问题的数据字段的意义在于,监测的数据对象可能是不断产生新数据的生产库,新的问题可能在不断的跟踪监测中被发现,因此通过持续监测能够持续发现问题并解决,提高数据质量监测的效率。
步骤S104,根据所述第二监测结果判断是否终止对所述数据对象的监测。
具体实施时,将上述监测过程反复进行,这样每次随机抽取的数据字段数量随着有问题数据字段数量的不断上升而下降,在每轮监测完成后判断待监测的数据源中的500个字段是否全部被抽取到,即是否完成了待监测数据源的一次全局遍历,如果全部被抽取到,则可以终止对当前数据对象的监测,如果未全部被抽取到,则继续按照上述规则进行抽取和检查。通过上述对监测过程可以实现对海量数据的随机监测,通过动态调整监测对象范围,逐步聚焦问题,进而获得了提高数据质量的评估效率和准确率的技术效果。
作为本申请实施例的一种优选实施方式,如图2所示,所述第一监测规则包括第一抽查字段数量,所述按照第一监测规则开始对所述待监测的数据对象进行监测,以得到第一监测结果包括如下的步骤S201至步骤S203:
步骤S201,获取预设数据字段分组,所述预设数据字段分组包括随机组和/或焦点组。
具体实施时,可以事先设置初次进行随机抽取的数据字段的数量,优选地,为了确保数据全局遍历的效率,初始的随机抽取字段数量可以设置得相对大一些,对于初次随机抽取字段数量的具体大小的设置本领域技术人员可以根据实际情况灵活设置和调整,在此不做具体限定。此外,还需要针对待监测的数据字段分别建立随机组random_team和焦点组focus_team,随机组用于暂时存放每轮随机抽取的数据字段,焦点组用户存放每轮检查后得到的有问题的数据字段。
步骤S202,根据所述第一抽查字段数量将对应的第一数据字段加入所述随机组进行抽查,以确定所述第一数据字段中的异常字段。
具体实施时,按照初始设置的随机抽取字段数量在待监测的数据字段中进行随机抽取,将抽取到的数据字段统一放到随机组random_team中进行质量检查,以确定随机组中有质量问题的异常数据字段。优选地,将随机抽取到的所有数据字段进行标记后再进行质量检查,以根据数据字段的标记确认是否完成一次全局遍历。
步骤S203,将所述第一数据字段中的异常字段加入所述焦点组,并清空所述随机组。
具体实施时,将随机组random_team中的异常数据字段加入到焦点组focus_team中,以对焦点组进行持续监测,同时清空随机组中剩余的正常数据字段。例如,初始设定随机抽取的字段数量为25个,将25个数据字段全部放入随机组中,此时焦点组focus_team为空,同时对随机组random_team和焦点组focus_team中的数据字段进行质量检查,发现异常数据字段为2个,则将这2个异常数据字段加入到焦点组中,同时清空随机组中剩余的23个正常数据字段。
作为本申请实施例的一种优选实施方式,如图3所示,所述第二监测规则包括第二抽查字段数量,所述将所述第一数据字段中的异常字段加入所述焦点组,并清空所述随机组之后包括如下的步骤S301至步骤S303:
步骤S301,根据所述第一抽查字段数量和所述第一数据字段中的异常字段数量确定所述第二抽查字段数量。
具体实施时,在按照初始设置的随机抽取字段数量(例如为25个)对待监测的数据字段(例如为500个)进行抽查后,确定了第一抽查字段数量中的异常字段数量,则根据第一抽查字段数量与异常字段数量的差值确定第二次抽查的数据字段数量。例如,第一抽查字段数量为25,其中异常字段数量为2,则确定本次进行随机抽查的字段数量为23。
步骤S302,根据所述第二抽查字段数量将对应的第二数据字段加入所述随机组进行抽查,以确定所述第二数据字段中的异常字段。
具体实施时,在根据第一次的抽查结果确定了本次的随机抽取字段数量后,根据该随机抽取字段数量对待监测数据字段中剩余的数据字段进行随机抽取,基于和上述相同的抽查逻辑将随机抽取到的数据字段加入到上述随机组random_team中并进行标记,同时对随机组random_team和焦点组focus_team进行抽查,以确定此次随机抽取到的数据字段中的异常字段。例如,假设初始的待监测的数据字段数量为500个,初次抽查后发现异常字段数量为2个,将这2个数据字段转入焦点组中进行持续监测,则此时用于下一次进行随机抽取的数据字段数量则变为500-2=498个,即在498个数据字段中随机抽取23个字段放入随机组中进行再次质量检查,以此类推。
步骤S303,将所述第二数据字段中的异常字段加入所述焦点组,并清空所述随机组。
具体实施时,基于和上述相同的抽查逻辑,在确定了第二次随机抽取到的数据字段中的异常字段后,同样将该异常字段加入上述焦点组,以更新焦点组中的数据字段,同时再次清空随机组中的数据字段。
作为本申请实施例的一种优选实施方式,如图4所示,所述根据所述第二监测结果判断是否终止对所述数据对象的监测包括如下的步骤S401至步骤S403:
步骤S401,获取预设工作量参数,所述预设工作量参数包括对所述待监测的数据对象进行全局遍历的预设次数。
具体实施时,由于不同类型的数据监测要求可能不同,因此为了提高数据的监测效率,可以事先设置对数据进行监测的工作量参数,例如可以设置对待监测的数据对象进行全局遍历的次数,通过获取预设的工作量参数可以确定对待监测的数据对象进行全局遍历的次数。例如,预设数据字段全局遍历次数traversals_count0为2,工作量系数为50%,则可以计算出实际的数据字段全局遍历次数traversals_count1为1次,即2次乘以50%工作量。通过调整工作量系数进而可以调控数据字段监测的工作量,满足不同的数据监测要求。
步骤S402,判断当前对所述待监测的数据对象进行全局遍历的次数是否达到预设次数。
具体实施时,通过对每次随机抽取到的数据字段进行标记,可以确认当前是否完成了一次全局遍历,根据预设工作量参数确定待监测的数据对象要进行全局遍历的次数,将当前的全局遍历次数与预设的全局遍历次数进行比较,判断遍历是否达到工作量要求。例如,预设数据字段全局遍历次数traversals_count0为4,工作量系数为50%,则可以计算出实际的数据字段全局遍历次数traversals_count1为2次,当每完成一轮抽查时,即确认当前的抽查结果是否已经对待监测的数据字段完成了一次全局遍历,如果是,则再进一步确定全局遍历的次数是否达到2次。
步骤S403,根据判断结果确定是否终止对所述待监测的数据对象的监测。
具体实施时,如果当前对待监测的数据对象进行全局遍历的次数达到了预设的工作量参数,则完成此次检测工作,终止对待监测的数据对象的监测,如果当前对待监测的数据对象进行全局遍历的次数未达到预设的工作量参数,则按照前述步骤继续进行数据字段的监测。
作为本申请实施例的一种优选实施方式,如图5所示,所述第一监测规则和所述第二监测规则均包括数据字段检测规则,所述获取待监测的数据对象之后包括如下的步骤S501至步骤S502:
步骤S501,获取所述数据字段检测规则,所述数据字段检测规则包括数据字段是否为空、数据字段与类型是否匹配、数据字段有效性以及数据字段是否符合业务逻辑中的一种或多种。
具体实施时,在对抽取到的数据字段进行质量检查时,具体的质量检测规则可以包括:空值检查、引用完整性检查、值域检查、字符串长度检查、字段有效性(比如字符编码差异造成的乱码)、字段类型检查以及特定业务场景下的字段检查规则如日期格式检查、身份证检查、邮箱检查、电话号码检查、年龄检查等。
对于特定业务场景下的数据字段检查,其重点在于字段数据和在实际业务中的含义是否符合,比如年龄字段不太可能超过200,中国人的姓名字段不应该出现英文字符,地址字段不应该出现的字符也可进行界定等等。更为深层次的数据逻辑还表现为特定业务领域的,比如在医疗卫生行业,性别字段为男的患者,在怀孕史、月经史等字段中均不应该存在数据记录,和器官相关的卵巢囊肿、宫颈癌、乳腺癌等更是不应该出现。同样,女性也不应该出现睾丸癌等数据字段赋值。血压的收缩压通常在90mmHg至200mmHg之间,极少数超过200mmHg,不可能超过300mmHg;人类的体温可以介于35℃和45℃之间,其他数值不应该出现或者极为罕见。针对此类业务逻辑的数据质控越加完备,对于软件产品的质量提升越是意义重大。上述字段检查规则可以根据实际业务场景进行灵活设置,在此不作具体限定。
步骤S502,根据所述数据字段检测规则对所述数据字段进行抽查,以得到数据字段抽查结果。
具体实施时,在得到上述数据字段检测规则后,根据不同的数据字段检测规则分别对抽取到的每个数据字段进行检查,以判断该数据字段是否符合质量要求或者特定业务领域的业务逻辑,进而得到数据字段的抽查结果。
优选地,可以将数据字段检测规则中的数据字段是否为空、数据字段与类型是否匹配、数据字段有效性等作为通用检查逻辑,在对待监测的数据字段按照通用检查逻辑检查之后,可以进一步按照不同业务领域的业务逻辑对字段进行再次检查,以发现特定业务领域的异常数据字段。动态选择监测和聚焦对象的机制和前述监测机制相同,对应的随机抽取数据范围则为具备特定业务领域特征的数据字段,采用动态选择监控和聚焦的目的在于控制数据监测的工作量,提升数据监测效率。
作为本申请实施例的一种优选实施方式,所述根据所述第二监测结果判断是否终止对所述数据对象的监测之后包括:如果终止对所述数据对象的监测,则根据所述第一监测结果和所述第二监测结果生成数据监测报告。
具体实施时,可以针对数据监测后得到的数据监测结果生成数据监测报告,综合海量的通用数据监测结果以及特定业务领域的数据监测结果,供后续进行异常数据字段的分析和处理。
采用统计学来确定数据质量是一门复杂的技术,上述从海量数据字段的通用检查到特定业务领域数据质量的检查,都是基于相对独立或者简单关联数据(字段数值)的静态特征,优选地,本申请实施例通过一些举例来说明如何通过数据的统计分析关注同一数据字段的分布和发展趋势,以发现更深层次的问题。例如,儿童的升高曲线通常是一个随着年龄增长由低到高相对拟合的上升曲线,如果在检查中发现有严重偏离的数据,尽管可能符合一般人类身高数值的基本逻辑,其字段属性和可用性也均合规,但这仍旧极有可能是一个坏数据。同样,在同一年龄段的儿童升高应该大体相似,出现明显差异的数据则不符合指控要求。如果说海量数据字段的通用检查以及特定业务领域数据质量的检查是针对字段本身问题的查找,那么对于数据字段的分布和发展趋势的分析则是针对字段单条或多条记录有效性的深层次检查。通过监测数据的分布规则、变化趋势、交叉关联等特点形成报告,可以更为准确的分析数据产生过程中隐含的问题,以发现深层次的数据质量问题。
以上三类监测(海量数据字段的通用检查、特定业务领域数据质量、同一字段的分布和发展趋势)是一个逐步递进的过程,从纯技术因素逐步过渡到不同层次的业务相关性,最终可以形成一个综合的数据质量评价报告。在实际应用中,可根据监测数据对象的数据质量水平调整三个层次的工作量分配。
从以上的描述中,可以看出,本发明实现了如下技术效果:通过随机抽取监测对象范围,动态调整监测对象,实现工作量控制和问题聚焦;采用三类逐步递进的监测方式,从纯技术因素逐步过渡到不同层次的业务相关性;通过监测数据的分布规则、变化趋势、交叉关联等特点形成报告,可以更为准确的分析数据产生的过程中隐含的问题,以发现深层次的数据质量问题,提高了数据监测的效率和准确率。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述数据监测方法的装置,如图6所示,该装置包括:第一获取模块1、第一监测模块2、第二监测模块3和判断模块4。本申请实施例的第一获取模块1,用于获取待监测的数据对象,所述数据对象中包括至少一个或多个数据字段。本申请实施例的第一监测模块2,用于按照第一监测规则开始对所述待监测的数据对象进行监测,以得到第一监测结果。本申请实施例的第二监测模块3,用于根据所述第一监测结果确定第二监测规则,以根据所述第二监测规则对经过所述第一监测规则抽查后得到的数据对象进行监测得到第二监测结果。本申请实施例的判断模块4,用于根据所述第二监测结果判断是否终止对所述数据对象的监测。
作为本申请实施例的一种优选实施方式,所述第一监测模块包括:第一获取单元,用于获取预设数据字段分组,所述预设数据字段分组包括随机组和/或焦点组;第一抽查单元,用于根据所述第一抽查字段数量将对应的第一数据字段加入所述随机组进行抽查,以确定所述第一数据字段中的异常字段;第一加入单元,用于将所述第一数据字段中的异常字段加入所述焦点组,并清空所述随机组。
作为本申请实施例的一种优选实施方式,所述第二监测规则包括第二抽查字段数量,所述第一监测模块还包括:第一确定单元,用于根据所述第一抽查字段数量和所述第一数据字段中的异常字段数量确定所述第二抽查字段数量;第二抽查单元,用于根据所述第二抽查字段数量将对应的第二数据字段加入所述随机组进行抽查,以确定所述第二数据字段中的异常字段;第二加入单元,用于将所述第二数据字段中的异常字段加入所述焦点组,并清空所述随机组。
作为本申请实施例的一种优选实施方式,所述判断模块包括:第二获取单元,用于获取预设工作量参数,所述预设工作量参数包括对所述待监测的数据对象进行全局遍历的预设次数;判断单元,用于判断当前对所述待监测的数据对象进行全局遍历的次数是否达到预设次数;第二确定单元,用于根据判断结果确定是否终止对所述待监测的数据对象的监测。
作为本申请实施例的一种优选实施方式,所述第一监测规则和所述第二监测规则均包括数据字段检测规则,所述装置还包括:第二获取模块,用于获取所述数据字段检测规则,所述数据字段检测规则包括数据字段是否为空、数据字段与类型是否匹配、数据字段有效性以及数据字段是否符合业务逻辑中的一种或多种;抽查模块,用于根据所述数据字段检测规则对所述数据字段进行抽查,以得到数据字段抽查结果。
作为本申请实施例的一种优选实施方式,所述装置还包括:生成模块,用于如果终止对所述数据对象的监测,则根据所述第一监测结果和所述第二监测结果生成数据监测报告。
上述各模块及各单元之间的具体连接关系及所发挥的功能请参照方法部分的具体描述,在此不做赘述。
根据本发明实施例,还提供了一种计算机设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前所述的方法。
根据本发明实施例,还提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时实现如前所述方法的步骤。
如图7所示,该计算机设备包括一个或多个处理器31以及存储器32,图7中以一个处理器33为例。
控制单元还可以包括:输入装置33和输出装置34。
处理器31、存储器32、输入装置33和输出装置34可以通过总线或者其他方式连接,图7中以通过总线连接为例。
处理器31可以为中央处理器(Central Processing Unit,CPU)。处理器31还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器32作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器31通过运行存储在存储器32中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的数据监测方法。
存储器32可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器32可选包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置33可接收输入的数字或字符信息,以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置34可包括显示屏等显示设备。
一个或者多个模块存储在存储器32中,当被一个或者多个处理器31执行时,执行如前所述的方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机指令用于使所述计算机执行上述数据监测方法。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后,本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种数据监测方法,其特征在于,包括:
获取待监测的数据对象,所述数据对象中包括至少一个或多个数据字段;
按照第一监测规则开始对所述待监测的数据对象进行监测,以得到第一监测结果;
根据所述第一监测结果确定第二监测规则,以根据所述第二监测规则对经过所述第一监测规则抽查后得到的数据对象进行监测得到第二监测结果;
根据所述第二监测结果判断是否终止对所述数据对象的监测。
2.根据权利要求1所述的数据监测方法,其特征在于,所述第一监测规则包括第一抽查字段数量,所述按照第一监测规则开始对所述待监测的数据对象进行监测,以得到第一监测结果包括:
获取预设数据字段分组,所述预设数据字段分组包括随机组和/或焦点组;
根据所述第一抽查字段数量将对应的第一数据字段加入所述随机组进行抽查,以确定所述第一数据字段中的异常字段;
将所述第一数据字段中的异常字段加入所述焦点组,并清空所述随机组。
3.根据权利要求2所述的数据监测方法,其特征在于,所述第二监测规则包括第二抽查字段数量,所述将所述第一数据字段中的异常字段加入所述焦点组,并清空所述随机组之后包括:
根据所述第一抽查字段数量和所述第一数据字段中的异常字段数量确定所述第二抽查字段数量;
根据所述第二抽查字段数量将对应的第二数据字段加入所述随机组进行抽查,以确定所述第二数据字段中的异常字段;
将所述第二数据字段中的异常字段加入所述焦点组,并清空所述随机组。
4.根据权利要求1所述的数据监测方法,其特征在于,所述根据所述第二监测结果判断是否终止对所述数据对象的监测包括:
获取预设工作量参数,所述预设工作量参数包括对所述待监测的数据对象进行全局遍历的预设次数;
判断当前对所述待监测的数据对象进行全局遍历的次数是否达到预设次数;
根据判断结果确定是否终止对所述待监测的数据对象的监测。
5.根据权利要求1所述的数据监测方法,其特征在于,所述第一监测规则和所述第二监测规则均包括数据字段检测规则,所述获取待监测的数据对象之后包括:
获取所述数据字段检测规则,所述数据字段检测规则包括数据字段是否为空、数据字段与类型是否匹配、数据字段有效性以及数据字段是否符合业务逻辑中的一种或多种;
根据所述数据字段检测规则对所述数据字段进行抽查,以得到数据字段抽查结果。
6.根据权利要求1所述的数据监测方法,其特征在于,所述根据所述第二监测结果判断是否终止对所述数据对象的监测之后包括:
如果终止对所述数据对象的监测,则根据所述第一监测结果和所述第二监测结果生成数据监测报告。
7.一种数据监测装置,其特征在于,包括:
第一获取模块,用于获取待监测的数据对象,所述数据对象中包括至少一个或多个数据字段;
第一监测模块,用于按照第一监测规则开始对所述待监测的数据对象进行监测,以得到第一监测结果;
第二监测模块,用于根据所述第一监测结果确定第二监测规则,以根据所述第二监测规则对经过所述第一监测规则抽查后得到的数据对象进行监测得到第二监测结果;
判断模块,用于根据所述第二监测结果判断是否终止对所述数据对象的监测。
8.根据权利要求7所述的数据监测装置,其特征在于,所述第一监测模块包括:
第一获取单元,用于获取预设数据字段分组,所述预设数据字段分组包括随机组和/或焦点组;
第一抽查单元,用于根据所述第一抽查字段数量将对应的第一数据字段加入所述随机组进行抽查,以确定所述第一数据字段中的异常字段;
第一加入单元,用于将所述第一数据字段中的异常字段加入所述焦点组,并清空所述随机组。
9.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至6中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,所述指令被处理器执行时实现如权利要求1至6中任一项所述方法的步骤。
CN201911238270.5A 2019-12-05 2019-12-05 数据监测方法及装置 Pending CN111143159A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911238270.5A CN111143159A (zh) 2019-12-05 2019-12-05 数据监测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911238270.5A CN111143159A (zh) 2019-12-05 2019-12-05 数据监测方法及装置

Publications (1)

Publication Number Publication Date
CN111143159A true CN111143159A (zh) 2020-05-12

Family

ID=70517753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911238270.5A Pending CN111143159A (zh) 2019-12-05 2019-12-05 数据监测方法及装置

Country Status (1)

Country Link
CN (1) CN111143159A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133084A (zh) * 2017-12-08 2018-06-08 北京汽车研究总院有限公司 一种数据质量检查方法、装置、控制器及系统
US20180173733A1 (en) * 2016-12-19 2018-06-21 Capital One Services, Llc Systems and methods for providing data quality management
CN108984708A (zh) * 2018-07-06 2018-12-11 蔚来汽车有限公司 脏数据识别方法及装置、数据清洗方法及装置、控制器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180173733A1 (en) * 2016-12-19 2018-06-21 Capital One Services, Llc Systems and methods for providing data quality management
CN108133084A (zh) * 2017-12-08 2018-06-08 北京汽车研究总院有限公司 一种数据质量检查方法、装置、控制器及系统
CN108984708A (zh) * 2018-07-06 2018-12-11 蔚来汽车有限公司 脏数据识别方法及装置、数据清洗方法及装置、控制器

Similar Documents

Publication Publication Date Title
WO2015169212A1 (en) Startup accelerating method and apparatus
CN109684188B (zh) 测试方法和装置
CN111124480B (zh) 应用程序包的生成方法、装置、电子设备及存储介质
US11062350B2 (en) Method, apparatus, and device for monitoring promotion status data, and non-volatile computer storage medium
CN110716848A (zh) 数据收集方法、装置、电子设备及存储介质
CN109068150A (zh) 一种视频的精彩画面提取方法、终端及计算机可读介质
WO2015078291A1 (en) Information prompting method and device for prompting ticket drawing result
CN106557419B (zh) 程序的测试方法及装置
CN107807844B (zh) 交通测试场景的生成方法、装置及计算机可读存储介质
CN116991711A (zh) 一种测试用例的生成方法、装置、终端设备及存储介质
CN109325015B (zh) 一种领域模型的特征字段的提取方法及装置
CN111143159A (zh) 数据监测方法及装置
CN115052037B (zh) 客户端检测方法、装置、存储介质和设备
CN109597706B (zh) 一种核对差异数据的检测方法、装置及系统
CN108243238A (zh) 一种性能数据的采集方法及装置
CN104268189B (zh) 评价应用的方法及装置
CN116168403A (zh) 医疗数据分类模型训练方法、分类方法、装置及相关介质
CN113780580B (zh) 基于机器学习的数据分析方法、装置、设备及存储介质
CN112463891B (zh) 一种数据同步方法、设备、电子设备及存储介质
CN115688160A (zh) 一种数据脱敏方法、装置、设备及存储介质
CN112799946B (zh) 埋点和数据采集方法、设备及存储介质
CN113051178A (zh) 测试数据构造方法、装置、设备及介质
CN107833259B (zh) 基于智能终端的动态漫画引擎处理方法及系统
CN112540820A (zh) 一种用户界面的更新方法、装置及电子设备
CN111427874A (zh) 医疗数据生产的质控方法、装置以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination