CN117472641B - 数据质量的检测方法、装置、电子设备及存储介质 - Google Patents

数据质量的检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117472641B
CN117472641B CN202311828832.8A CN202311828832A CN117472641B CN 117472641 B CN117472641 B CN 117472641B CN 202311828832 A CN202311828832 A CN 202311828832A CN 117472641 B CN117472641 B CN 117472641B
Authority
CN
China
Prior art keywords
data
abnormal
detection
dimension
incremental
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311828832.8A
Other languages
English (en)
Other versions
CN117472641A (zh
Inventor
左倩茜
崔颖
成雪娜
齐骥
王瑞宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202311828832.8A priority Critical patent/CN117472641B/zh
Publication of CN117472641A publication Critical patent/CN117472641A/zh
Application granted granted Critical
Publication of CN117472641B publication Critical patent/CN117472641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种数据质量的检测方法、装置、电子设备及存储介质,方法包括:获取步骤:获取当前计算任务中的增量数据;检测步骤:从至少一个检测维度对增量数据进行第一检测得到第一检测结果;第一执行步骤:若第一检测结果为存在异常增量数据,确定异常增量数据对应的检测维度为异常维度;从数据仓库的贴源层调取异常增量数据对应的第一全量数据,从异常维度对第一全量数据进行第二检测得到第二检测结果;若第二检测结果为存在异常数据,将全部异常数据组合得到异常数据集合,并根据异常数据生成异常跟踪工单,将异常数据集合及异常跟踪工单发送至与运营维护人员关联的运维端,实现了对于异常数据的根因追溯,提高了检测的准确度。

Description

数据质量的检测方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种数据质量的检测方法、装置、电子设备及存储介质。
背景技术
随着NFV、SDN、切片、微服务等新技术引入,通信网络云化演进不断加速,在架构、功能、部署平台和运维方式上都有了全新的设计,给运维层面带来挑战,数据质量差成为亟待解决的问题。
在整个数据产生到应用的全生命周期中,源端数据质量(对应全量数据)和数据开发过程(对应增量数据)是引入质量问题的主要环节。
现有的数据质量检测方法往往仅对增量数据实现数据质量检测,无法对异常数据追溯根因,使得检测的准确度低。
发明内容
本发明实施例提供一种数据质量的检测方法、装置、电子设备及存储介质,以解决现有的数据质量检测方法往往仅对增量数据实现数据质量检测,无法对异常数据追溯根因,使得检测的准确度低的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种数据质量的检测方法,包括:
获取步骤:获取当前计算任务中的增量数据;
检测步骤:从预设的至少一个检测维度对所述增量数据进行第一检测,得到第一检测结果;
第一执行步骤:若所述第一检测结果为存在异常增量数据,确定所述异常增量数据对应的检测维度为异常维度;从数据仓库的贴源层调取所述异常增量数据对应的第一全量数据,从所述异常维度对所述第一全量数据进行第二检测,得到第二检测结果;若所述第二检测结果为存在异常数据,将全部所述异常数据组合得到异常数据集合,并根据所述异常数据生成异常跟踪工单,将所述异常数据集合及所述异常跟踪工单发送至与运营维护人员关联的运维端。
可选地,
确定所述异常增量数据对应的检测维度为异常维度,之前包括:
确定所述异常增量数据是否匹配预设的告警策略;
若不匹配,返回所述获取步骤;
若匹配,继续执行确定所述异常增量数据对应的检测维度为异常维度的步骤。
可选地,
所述检测步骤,之后包括:
第二执行步骤:确定所述异常增量数据是否匹配预设的强稽核策略;若匹配,中断当前计算任务,向所述运维端及与开发人员关联的开发端发送告警;若未匹配,向所述运维端及所述开发端发送告警。
可选地,
所述检测步骤,包括:
第一获取步骤:获取各所述检测维度对应的规则配置文件;
匹配步骤:按照所述规则配置文件对所述增量数据进行匹配,得到匹配值;
比较步骤:比较所述匹配值与所述检测维度的预设期望阈值范围;
第三执行步骤:若所述匹配值超出所述期望阈值范围,确定所述第一检测结果为存在异常增量数据;
第四执行步骤:若所述匹配值处于所述期望阈值范围内,确定所述第一检测结果为不存在异常增量数据。
可选地,
所述规则配置文件的生成方法包括:
获取预设的维度-元模型映射关系表;
按照所述检测维度查询所述维度-元模型映射关系表,确定元模型字段、元模型类型及过滤条件;
根据所述元模型字段、所述元模型类型及所述过滤条件,从预设的数据模型集合中确定目标数据模型,并获取所述目标数据模型中的数据为元数据;
将所述元数据输入与所述检测维度对应的预设的规则配置模板,得到所述规则配置文件。
可选地,
所述获取步骤,之前包括:
校验步骤:确定是否对全量数据进行检测;
第五执行步骤:若不对全量数据进行检测,继续执行所述获取步骤;
第六执行步骤:若对全量数据进行检测,生成对应各所述检测维度的数据质量检测任务,将从所述贴源层获取第二全量数据代入各所述质量检测任务,得到第三检测结果;若所述第三检测结果为第二全量数据中存在第一异常数据,将全部所述第一异常数据组合得到第一异常数据集合,并根据第一异常数据集合生成第一异常跟踪工单,将所述第一异常数据集合及所述第一异常跟踪工单发送至与所述运维端。
可选地,
所述检测维度包括以下维度中的至少一个:
数据缺失、完整性、唯一性、及时性、合规性、关联性。
第二方面,本发明实施例提供了一种数据质量的检测装置,包括:
获取模块,用于获取步骤:获取当前计算任务中的增量数据;
检测模块,用于检测步骤:从预设的至少一个检测维度对所述增量数据进行第一检测,得到第一检测结果;
执行模块,用于第一执行步骤:若所述第一检测结果为存在异常增量数据,确定所述异常增量数据对应的检测维度为异常维度;从数据仓库的贴源层调取所述异常增量数据对应的第一全量数据,从所述异常维度对所述第一全量数据进行第二检测,得到第二检测结果;若所述第二检测结果为存在异常数据,将全部所述异常数据组合得到异常数据集合,并根据所述异常数据生成异常跟踪工单,将所述异常数据集合及所述异常跟踪工单发送至与运营维护人员关联的运维端。
第三方面,本发明实施例提供了一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面中任一项所述的数据质量的检测方法中的步骤。
第四方面,本发明实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面中任一项所述的数据质量的检测方法中的步骤。
本发明实施例中,通过获取步骤、检测步骤及第一执行步骤,从预设的至少一个检测维度对增量数据进行第一检测,若第一检测结果为存在异常增量数据,确定异常增量数据对应的检测维度为异常维度;从数据仓库的贴源层调取异常增量数据对应的第一全量数据,从异常维度对第一全量数据进行第二检测,得到第二检测结果;若第二检测结果为存在异常数据,将全部异常数据组合得到异常数据集合,并根据异常数据生成异常跟踪工单,将异常数据集合及异常跟踪工单发送至与运营维护人员关联的运维端,实现了对于异常数据的根因追溯,能够从深层次排查异常数据,提高了检测的准确度,有利于确保数据的高质量;并且实现了数据质量问题从增量数据检测,到在全量数据中追溯根因,再到跟踪解决的质量问题闭环处理,使针对数据质量问题的处理有迹可循,有据可依,提高了数据质量问题处理的准确度和效率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例数据质量的检测方法的流程示意图;
图2为应用本发明实施例数据质量的检测方法的流程示意图之一;
图3为应用本发明实施例数据质量的检测方法的流程示意图之二;
图4为数据质量检测作业模块的流程示意图;
图5为模型关系及模型主要字段示意图;
图6为本发明实施例数据质量的检测装置的原理框图;
图7为本发明实施例电子设备的原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种数据质量的检测方法,参见图1所示,图1为本发明实施例数据质量的检测方法的流程示意图,包括:
获取步骤11:获取当前计算任务中的增量数据;
检测步骤12:从预设的至少一个检测维度对增量数据进行第一检测,得到第一检测结果;
第一执行步骤13:若第一检测结果为存在异常增量数据,确定异常增量数据对应的检测维度为异常维度;从数据仓库的贴源层调取异常增量数据对应的第一全量数据,从异常维度对第一全量数据进行第二检测,得到第二检测结果;若第二检测结果为存在异常数据,将全部异常数据组合得到异常数据集合,并根据异常数据生成异常跟踪工单,将异常数据集合及异常跟踪工单发送至与运营维护人员关联的运维端。
本发明实施例中,计算任务为需要基于数据仓库中已有数据(全量数据)执行的任务,即在运行计算任务时需要调用数据仓库中的数据。被调用的数据可以是数据仓库中的全部已有数据(全量数据),也可以是全部已有数据中的部分数据,具体调用多少数据由用户对计算任务的设置决定。示例性的,以电脑病毒检测为例,用户具体设置电脑病毒检测的范围,范围可以是对数据仓库中全部数据进行检测的“全盘检测”,范围也可以是对数据仓库中部分软件项目的“局部检测”。对部分软件项目进行“局部检测”时,被调用数据为数据仓库中与被选定进行“局部检测”的软件项目关联的数据。
可以理解地,在计算任务的运行过程中会得到一些新的数据(即增量数据)。以电脑病毒检测为例,病毒检测过程可能是包括多个子检测结果,即病毒检测结果为根据多个子检测结果确定的。进一步,为生成多个子检测结果也需要进行一些运算,得到运算结果。由此,在本示例中,包括多个子检测结果及运算结果在内的新生成数据为相对于数据仓库中已有数据(全量数据)的增量数据。
需要说明的是,在本领域,运行计算任务过程中生成增量数据是常识性的。上文示例仅用于方便理解,不应当被认为是对保护范围的限定。计算任务不一定是电脑病毒检测任务,也不一定是对数学或者物理或者化学计量结果的求解任务,任何可执行的程序都可以作为本发明实施例中的计算任务。
本发明实施例中,第一检测即为对是否存在异常增量数据进行检测。由于计算任务不同,不同计算任务执行过程中生成的增量数据存在多种类型,不同类型的增量数据对应的异常判定标准不同。基于此,本发明实施例通过从预设的至少一个检测维度对增量数据进行第一检测,用户可以根据需要灵活地配置检测维度。在用户配置从多个检测维度对增量数据进行第一检测的情况下,相较于单一维度的检测,第一检测更加全面,避免某一维度与增量数据类型不匹配带来的高检测错误率的问题,提高了第一检测结果的准确度。可以理解地,用户可以根据当前所执行的计算任务设置高针对性的检测维度,实现精确检测,提高第一检测的效率和第一检测结果的准确度。本发明的一些实施例中,可选地,检测维度包括以下维度中的至少一个:数据缺失、完整性、唯一性、及时性、合规性、关联性。
以下结合具体示例对本发明实施例进行解释说明:
参见图2所示,图2为应用本发明实施例数据质量的检测方法的流程示意图之一,其中,包括:流程判断环节、作业生成环节、质量检测环节、异常判断环节及处置环节。
流程判断环节,通过判断是否全量数据质量检测、及判断是否数据计算任务中增量数据质量检测,实现执行路径的分流(下称第一执行路径及第二执行路径),进入作业生成环节。
作业生成环节,第一执行路径:若不进行全量数据质量检测且对数据计算任务中增量数据质量检测,用户依次进行数据质量检测配置、告警策略配置、稽核强度配置及通知机制配置。完成上述配置之后,进入质量检测环节。第二执行路径:若进行全量数据质量检测,生成数据质量检测作业,进入质量检测环节。
质量检测环节,第一执行路径:执行数据计算任务(即执行当前计算任务)。执行数据计算任务过程中,通过task调用数据质量检测作业,根据作业生成环节中用户配置的数据质量检测配置对当前计算任务进行检测(即相当于本发明实施例中的获取步骤11:获取当前计算任务中的增量数据;检测步骤12:从预设的至少一个检测维度对增量数据进行第一检测,得到第一检测结果),并将检测结果(即第一检测结果)输入异常判断环节。第二执行路径:执行全量数据质量检测任务,将全量数据质量检测任务的检测结果输入异常判断环节。
异常判断环节,第一执行路径:判断是否存在数据质量异常,若存在数据质量异常且确定命中了用户在作业生成环节配置的告警策略,进入处置环节。第二执行路径:判断是否存在数据质量异常,若存在,进入处置环节。
处置环节,第一执行路径:根据用户在作业生成环节配置的稽核强度,判断是否进行强稽核。若进行强稽核,中断数据计算任务并触发异常检测维度job。异常检测维度job,即从执行全量数据质量的检测任务中获取异常增量数据对应的全量数据(即第一全量数据),对该全量数据进行检测得到检测结果(相当于本发明实施例步骤13中的:确定异常增量数据对应的检测维度为异常维度;从数据仓库的贴源层调取异常增量数据对应的第一全量数据,从异常维度对第一全量数据进行第二检测,得到第二检测结果)。之后,通知数据开发(人员)及数据质量管理员(本示例中的数据质量管理员相当于本发明实施例中的运营维护人员;上述通知数据开发(人员)及数据质量管理员,相当于本发明实施例中的若第二检测结果为存在异常数据,将全部异常数据组合得到异常数据集合,并根据异常数据生成异常跟踪工单,将异常数据集合及异常跟踪工单发送至与运营维护人员关联的运维端)。第二执行路径:输出异常集,并通知数据质量管理员。之后,第一执行路径及第二执行路径汇合,实现问题闭环。
本发明实施例第一执行步骤13中,若针对增量数据的第一检测得到第一检测结果为存在异常增量数据,进一步对全量数据进行追溯检测,即:确定异常增量数据对应的检测维度为异常维度,从数据仓库的贴源层调取异常增量数据对应的第一全量数据,从异常维度对第一全量数据进行第二检测,得到第二检测结果。本发明实施例通过上述步骤实现了对于异常数据的根因追溯,能够从深层次排查异常数据,提高了检测的准确度,有利于确保数据的高质量。
本发明实施例第一执行步骤13中,若第二检测结果为存在异常数据,将全部异常数据组合得到异常数据集合,并根据异常数据生成异常跟踪工单,将异常数据集合及异常跟踪工单发送至与运营维护人员关联的运维端。本发明实施例通过形成异常数据集合及异常跟踪工单,并将异常数据集合及异常跟踪工单发送至与运营维护人员关联的运维端,使运维人员能够便捷地对异常数据进行跟踪。并且,本发明实施例实现了数据质量问题从增量数据检测(即第一检测),到在全量数据中追溯根因(即若第一检测结果为存在异常增量数据,确定异常增量数据对应的检测维度为异常维度;从数据仓库的贴源层调取异常增量数据对应的第一全量数据,从异常维度对第一全量数据进行第二检测,得到第二检测结果),再到跟踪解决的质量问题闭环处理,使针对数据质量问题的处理有迹可循,有据可依,提高了数据质量问题处理的准确度和效率。
本发明实施例中,通过获取步骤11、检测步骤12及第一执行步骤13,从预设的至少一个检测维度对增量数据进行第一检测,若第一检测结果为存在异常增量数据,确定异常增量数据对应的检测维度为异常维度;从数据仓库的贴源层调取异常增量数据对应的第一全量数据,从异常维度对第一全量数据进行第二检测,得到第二检测结果;若第二检测结果为存在异常数据,将全部异常数据组合得到异常数据集合,并根据异常数据生成异常跟踪工单,将异常数据集合及异常跟踪工单发送至与运营维护人员关联的运维端,实现了对于异常数据的根因追溯,能够从深层次排查异常数据,提高了检测的准确度,有利于确保数据的高质量;并且实现了数据质量问题从增量数据检测,到在全量数据中追溯根因,再到跟踪解决的质量问题闭环处理,使针对数据质量问题的处理有迹可循,有据可依,提高了数据质量问题处理的准确度和效率。
本发明的一些实施例中,可选地,
确定异常增量数据对应的检测维度为异常维度,之前包括:
步骤a:确定异常增量数据是否匹配预设的告警策略;
步骤b:若不匹配,返回获取步骤;
步骤c:若匹配,继续执行确定异常增量数据对应的检测维度为异常维度的步骤。
本发明的一些实施例中,用户可以设定分级告警策略,例如:根据异常增量数据的类型,设定与类型对应的不同级别的告警。其中,类型与级别的对应关系可以是由用户自定义的异常优先级确定的。对于会严重影响系统运行的异常数据类型设定高异常优先级,影响稍弱的异常数据类型设定低异常优先级。高异常优先级的异常数据类型对应高级别告警,告警范围大(指告警发送的人员数量多),告警持续时间长。低异常优先级的异常数据类型对应低级别告警,告警范围小,告警持续时间短。
本发明的一些实施例中,可选地,
检测步骤12,之后包括:
第二执行步骤d:确定异常增量数据是否匹配预设的强稽核策略;若匹配,中断当前计算任务,向运维端及与开发人员关联的开发端发送告警;若未匹配,向运维端及开发端发送告警。
本发明实施例中,用户通过设置强稽核策略实现对异常程度的分级管控,例如:异常增量数据的数量多于预设的异常数量阈值,表示严重异常,确定异常增量数据匹配强稽核策略,需要中断当前计算任务,降低因异常带来的损失,进而向运维端及与开发人员关联的开发端发送告警。上述分级管控的方案,实现了对异常增量数据的精确管控。
示例性的,参见图2所示,处置环节中,第一执行路径:根据用户在作业生成环节配置的稽核强度,判断是否进行强稽核。若进行强稽核,中断数据计算任务(相当于本发明实施例的确定异常增量数据是否匹配预设的强稽核策略;若匹配,中断当前计算任务)并触发异常检测维度job。异常检测维度job,即从执行全量数据质量的检测任务中获取异常增量数据对应的全量数据(即第一全量数据),对该全量数据进行检测得到检测结果(相当于本发明实施例步骤13中的:确定异常增量数据对应的检测维度为异常维度;从数据仓库的贴源层调取异常增量数据对应的第一全量数据,从异常维度对第一全量数据进行第二检测,得到第二检测结果)。之后,通知数据开发(人员)及数据质量管理员(本示例中的数据质量管理员相当于本发明实施例中的运营维护人员;上述通知数据开发(人员)及数据质量管理员,可以相当于本发明实施例中的向运维端及与开发人员关联的开发端发送告警)。
本发明的一些实施例中,可选地,
检测步骤12,包括:
第一获取步骤e:获取各检测维度对应的规则配置文件;
匹配步骤f:按照规则配置文件对增量数据进行匹配,得到匹配值;
比较步骤g:比较匹配值与检测维度的预设期望阈值范围;
第三执行步骤h:若匹配值超出期望阈值范围,确定第一检测结果为存在异常增量数据;
第四执行步骤i:若匹配值处于期望阈值范围内,确定第一检测结果为不存在异常增量数据。
本发明实施例中,第一检测即为对是否存在异常增量数据进行检测。由于计算任务不同,不同计算任务执行过程中生成的增量数据存在多种类型,不同类型的增量数据对应的异常判定标准不同。基于此,本发明实施例通过从预设的至少一个检测维度对增量数据进行第一检测,用户可以根据需要灵活地配置检测维度。在用户配置从多个检测维度对增量数据进行第一检测的情况下,相较于单一维度的检测,第一检测更加全面,避免某一维度与增量数据类型不匹配带来的高检测错误率的问题,提高了第一检测结果的准确度。可以理解地,用户可以根据当前所执行的计算任务设置高针对性的检测维度,实现精确检测,提高第一检测的效率和第一检测结果的准确度。本发明的一些实施例中,可选地,检测维度包括以下维度中的至少一个:数据缺失、完整性、唯一性、及时性、合规性、关联性。
具体到本发明实施例中,通过第一获取步骤e:获取各检测维度对应的规则配置文件,即根据选定的检测维度,确定该检测维度下的异常判断标准(即规则配置文件)。进一步,匹配步骤f:按照规则配置文件对增量数据进行匹配,得到匹配值,即确定增量数据与异常判断标准的对应程度(匹配值)。第三执行步骤h:若匹配值超出期望阈值范围,表示增量数据与异常判断标准的对应程度高,存在异常,确定第一检测结果为存在异常增量数据;第四执行步骤i:若匹配值处于期望阈值范围内,表示增量数据与异常判断标准的对应程度低,不存在异常,确定第一检测结果为不存在异常增量数据。以下结合示例进行说明,参见图3所示,本示例中的检测维度为合规性。基于动态生成完整的规则配置文件,将合规性的语义逻辑转换成脚本实现(即对应图3中虚线框内的执行步骤,逐一字段地,获取字段信息,判断是否核查,若核查,进一步根据字段类型、字段规则动态组装字段异常检测语句),并从数据仓库中获取实际检测对象(增量数据),动态生成实际检测对象规则语句(即对应图3中的组装核查条件动态生成规则脚本)。将实际检测对象规则语句的输出(即匹配值)与检测维度的期望值(即预设期望阈值范围)进行比较(即对应图3中的异常判断步骤);如果符合预期,则检测通过(即第四执行步骤:若所述匹配值处于所述期望阈值范围内,确定所述第一检测结果为不存在异常增量数据);如果不符合预期,则检测不通过(即第三执行步骤:若所述匹配值超出所述期望阈值范围,确定所述第一检测结果为存在异常增量数据),输出明细异常集,输出检测统计值以便对整体数据质量水平进行量化评估。
本发明的一些实施例中,可选地,
规则配置文件的生成方法包括:
步骤j:获取预设的维度-元模型映射关系表;
步骤k:按照检测维度查询维度-元模型映射关系表,确定元模型字段、元模型类型及过滤条件;
步骤m:根据元模型字段、元模型类型及过滤条件,从预设的数据模型集合中确定目标数据模型,并获取目标数据模型中的数据为元数据;
步骤n:将元数据输入与检测维度对应的预设的规则配置模板,得到规则配置文件。
以下结合具体示例,对本发明实施例规则配置文件的生成方法进行说明。示例性地,参见表1所示,表1为维度-元模型映射关系表,按照检测维度查询维度-元模型映射关系表,即可确定元模型字段、元模型类型及过滤条件。参见表2所示,表2为数据模型的模板表,示意了数据模型集合中数据模型的构成,包括类型、表名(例如:表A及表B)、key(例如:A表的key及B表的key)、过滤条件(例如:A表过滤条件及B表过滤条件),以及差集输出字段(例如:A表差集输出字段及B表差集输出字段)。将确定的元模型字段、元模型类型及过滤条件与预设的数据模型集合中的各模板表对照,即可确定目标数据模型。获取目标数据模型中的数据为元数据;将元数据输入与检测维度对应的预设的规则配置模板,得到规则配置文件。
表1 维度-元模型映射关系表
检测维度 细分类型 元模型类型 元模型字段 过滤条件
关联性 ${key_a} 字段级 字段名 主键="自然键"
关联性 ${key_b} 字段级 字段名 主键="自然键"
关联性 ${ems} 表级 网元类型 备注="不可用"
关联性 ${oid} 字段级 字段名 字段名="oid"
完整性 数据缺失 表级 表英文名 备注!="不可用"
完整性 周期完整 表级 表英文名,数据采集周期 备注!="不可用"
完整性 周期完整 字段级 字段名 主键="自然键"
唯一性 字段级 字段名 主键="自然键"
及时性 字段级 字段名 字段名="createtime" || 字段名="datatime"
合规性 字段级 字段名,字段规则,字段类型,字段重要度 必选="必选"
表2 数据模型的模板表
类型 关联类型1
表A ${EMS}_managedelement
A表key ${KEY_A}
A表过滤条件 XX
A表差集输出字段 XX
关联方式 full join
表B VNF(支持多表扩展)
B表key ${KEY_B}
B表过滤条件 XX
B表差集输出字段 XX
备注
参见图3所示,检测维度为合规性。基于动态生成完整的规则配置文件(即本发明实施例规则配置文件的生成方法得到的规则配置文件),将合规性的语义逻辑转换成脚本实现(即对应图3中虚线框内的执行步骤,逐一字段地,获取字段信息,判断是否核查,若核查,进一步根据字段类型、字段规则动态组装字段异常检测语句),并从数据仓库中获取实际检测对象(增量数据),动态生成实际检测对象规则语句(即对应图3中的组装核查条件动态生成规则脚本)。将实际检测对象规则语句的输出(即匹配值)与检测维度的期望值(即预设期望阈值范围)进行比较(即对应图3中的异常判断步骤);如果符合预期,则检测通过(即第四执行步骤:若所述匹配值处于所述期望阈值范围内,确定所述第一检测结果为不存在异常增量数据);如果不符合预期,则检测不通过(即第三执行步骤:若所述匹配值超出所述期望阈值范围,确定所述第一检测结果为存在异常增量数据),输出明细异常集,输出检测统计值以便对整体数据质量水平进行量化评估。
本发明实施例中,通过步骤j:获取预设的维度-元模型映射关系表;步骤k:按照检测维度查询维度-元模型映射关系表,确定元模型字段、元模型类型及过滤条件;步骤m:根据元模型字段、元模型类型及过滤条件,从预设的数据模型集合中确定目标数据模型,并获取目标数据模型中的数据为元数据;步骤n:将元数据输入与检测维度对应的预设的规则配置模板,得到规则配置文件,基于接入数据的数据模型(即目标数据模型)和参数化配置模板(即预设的规则配置模板),将与业务强相关的配置信息和检测规则逻辑实现解耦,支持自动生成规则语句,能够极大提升规则配置效率。
本发明的一些实施例中,可选地,
获取步骤11,之前包括:
校验步骤p:确定是否对全量数据进行检测;
第五执行步骤q:若不对全量数据进行检测,继续执行获取步骤11;
第六执行步骤s:若对全量数据进行检测,生成对应各检测维度的数据质量检测任务,将从贴源层获取第二全量数据代入各质量检测任务,得到第三检测结果;若第三检测结果为第二全量数据中存在第一异常数据,将全部第一异常数据组合得到第一异常数据集合,并根据第一异常数据集合生成第一异常跟踪工单,将第一异常数据集合及第一异常跟踪工单发送至与运维端。
随着NFV、SDN、切片、微服务等新技术引入,通信网络云化演进不断加速,在架构、功能、部署平台和运维方式上都有了全新的设计,给运维层面带来挑战,数据质量差成为亟待解决的问题。在整个数据产生到应用的全生命周期中,源端数据质量(即全量数据)和数据开发过程(增量数据)是引入质量问题的主要环节。本发明实施中,在获取步骤11之前,实现执行路径的分流,确保提供了数据接入(对应全量数据)和数据开发过程(对应增量数据)的数据质量双检测,实现数据质量问题的全面检测,确保检测结果的具备高准确度。
以下结合具体示例对本发明实施例进行解释说明:
参见图2所示,图2为应用本发明实施例数据质量的检测方法的流程示意图之一,其中,包括:流程判断环节、作业生成环节、质量检测环节、异常判断环节及处置环节。
流程判断环节,通过判断是否全量数据质量检测、及判断是否数据计算任务中增量数据质量检测,实现执行路径的分流(下称第一执行路径及第二执行路径),进入作业生成环节。
作业生成环节,第一执行路径:若不进行全量数据质量检测且对数据计算任务中增量数据质量检测,用户依次进行数据质量检测配置、告警策略配置、稽核强度配置及通知机制配置。完成上述配置之后,进入质量检测环节。第二执行路径:若进行全量数据质量检测,生成数据质量检测作业,进入质量检测环节(即第二执行路径对应本发明实施例的第六执行步骤s)。
质量检测环节,第一执行路径:执行数据计算任务(即执行当前计算任务)。执行数据计算任务过程中,通过task调用数据质量检测作业,根据作业生成环节中用户配置的数据质量检测配置对当前计算任务进行检测(即相当于本发明实施例中的获取步骤11:获取当前计算任务中的增量数据;检测步骤12:从预设的至少一个检测维度对增量数据进行第一检测,得到第一检测结果),并将检测结果(即第一检测结果)输入异常判断环节。第二执行路径:执行全量数据质量检测任务,将全量数据质量检测任务的检测结果输入异常判断环节(即相当于本发明实施例的第六执行步骤s中的:若对全量数据进行检测,生成对应各检测维度的数据质量检测任务,将从贴源层获取第二全量数据代入各质量检测任务,得到第三检测结果)。
异常判断环节,第一执行路径:判断是否存在数据质量异常,若存在数据质量异常且确定命中了用户在作业生成环节配置的告警策略,进入处置环节。第二执行路径:判断是否存在数据质量异常,若存在,进入处置环节(即相当于本发明实施例的第六执行步骤s中的:第三检测结果为第二全量数据中存在第一异常数据)。
处置环节,第一执行路径:根据用户在作业生成环节配置的稽核强度,判断是否进行强稽核。若进行强稽核,中断数据计算任务并触发异常检测维度job。异常检测维度job,即从执行全量数据质量的检测任务中获取异常增量数据对应的全量数据(即第一全量数据),对该全量数据进行检测得到检测结果(相当于本发明实施例步骤13中的:确定异常增量数据对应的检测维度为异常维度;从数据仓库的贴源层调取异常增量数据对应的第一全量数据,从异常维度对第一全量数据进行第二检测,得到第二检测结果)。之后,通知数据开发(人员)及数据质量管理员(本示例中的数据质量管理员相当于本发明实施例中的运营维护人员;上述通知数据开发(人员)及数据质量管理员,相当于本发明实施例中的若第二检测结果为存在异常数据,将全部异常数据组合得到异常数据集合,并根据异常数据生成异常跟踪工单,将异常数据集合及异常跟踪工单发送至与运营维护人员关联的运维端)。第二执行路径:输出异常集(即相当于本发明实施例的第六执行步骤s中的:若第三检测结果为第二全量数据中存在第一异常数据,将全部第一异常数据组合得到第一异常数据集合),并通知数据质量管理员(即相当于本发明实施例的第六执行步骤s中的:根据第一异常数据集合生成第一异常跟踪工单,将第一异常数据集合及第一异常跟踪工单发送至与运维端)。之后,第一执行路径及第二执行路径汇合,实现问题闭环。
实际应用中,贴源层数据质量检测(即针对全量数据的第六执行步骤s)属于旁路方式,会将集成的全量数据存储到关系型数据库,以关系型数据库中的全量数据作为检测对象,生成包括数据缺失、完整性、唯一性、及时性、合规性、关联性维度的数据质量检测作业;检测任务周期性调度执行,可按需配置H+1(每小时进行一次全量数据检测)或T+1(每自然日进行一次全量数据检测)等任务;检测任务执行完毕后输出结果,如存在异常集,则输出异常集并通知数据质量管理员及时感知。贴源层数据质量检测也适应用于其他库内的数据质量检测。
数据开发过程中增量数据质量检测(即针对增量数据的获取步骤11、检测步骤12及第一执行步骤13)属于嵌入方式,数据质量的好坏直接会影响到数据计算任务的执行;当前数据计算任务涉及的增量数据即为检测对象,配置环节提供质量检测维度、告警策略、稽核强度、通知机制的配置(检测维度:可配置数据缺失、完整性、唯一性、及时性、合规性、关联性维度,告警策略:提供告警触发、收敛规则的配置,稽核强度:提供强弱稽核配置);通过配置的质量检测维度调用贴源层对应的作业接口;作业嵌入到计算环节中,随数据计算任务的执行而执行;计算任务执行中,如存在异常集,则判断是否命中了告警策略;若命中则:
1)触发执行贴源层全量数据该维度该数据时间的质量检测,以便根据各表的逻辑关系辅助问题根因判定;
2)判断稽核强度配置,如果是强稽核则直接中断数据计算任务,避免计算资源的浪费以及问题数据参与计算导致问题不断放大,并告警通知数据开发、数据质量管理员,如果是弱稽核则仅做告警通知,不影响数据计算任务。本质也是旁路的方式,弱稽核可以方便计算任务完成后存储的数据出现问题时,定位是否与数据开发环节有关。异常集通知干系人(即运维人员和/或开发人员)后,均需派发工单进行问题跟踪以闭环,对于诊断为数据源的问题提供面向上游的反馈机制以便从根源上改善数据质量。
本发明实施例中,通过校验步骤p:确定是否对全量数据进行检测;第五执行步骤q:若不对全量数据进行检测,继续执行获取步骤11;第六执行步骤s:若对全量数据进行检测,生成对应各检测维度的数据质量检测任务,将从贴源层获取第二全量数据代入各质量检测任务,得到第三检测结果;若第三检测结果为第二全量数据中存在第一异常数据,将全部第一异常数据组合得到第一异常数据集合,并根据第一异常数据集合生成第一异常跟踪工单,将第一异常数据集合及第一异常跟踪工单发送至与运维端,在获取步骤11之前,实现执行路径的分流,确保提供了数据接入(对应全量数据)和数据开发过程(对应增量数据)的数据质量双检测,实现数据质量问题的全面检测,确保检测结果的具备高准确度。
本发明的一些实施例中,可选地,
检测维度包括以下维度中的至少一个:
数据缺失、完整性、唯一性、及时性、合规性、关联性。
完整性:针对数据缺失,根据元模型映射表获取表级数据模型的符合过滤条件的表英文名;针对周期完整性,根据元模型映射表获取表级数据模型的表英文名和数据采集周期用于生成配置后计算期望的检测对象和数据周期,同时根据元模型映射表获取字段级数据模型的符合自然键过滤条件的字段名用于计算实际检测对象的实际数据周期。
唯一性:根据元模型映射表获取字段级数据模型的符合自然键过滤条件的字段名,用于生成期望检测对象检测唯一性的Key值配置。
及时性:根据元模型映射表获取字段级数据模型的符合过滤条件的字段名,用于生成期望检测对象检测及时性配置;
合规性:根据元模型映射表获取字段级数据模型的符合过滤条件的字段规则、字段重要度、字段类型,用于生成期望检测对象的合规性检测配置,其中字段规则支持的检测子类包括:
1)字段类型:数字类型,时间类型;
2)字段范围:枚举值在范围内、在范围外;数字类型字段范围;
3)字段必选性:非空、非空字符;
4)字段特殊格式:符合正则表达式格式。
关联性,以下结合具体示例对检测维度为关联性的第一检测进行解释说明:
参见图4及图5所示,检测维度为关联性。具体在图4中,元模型设计阶段,包括数据模型设计及关联性规则配置模型设计。获取元模型映射表及获取数据模型,判断是否为关联性检测点(即判断是否检测维度为关联性),若是,获取关联性规则配置模板,根据元模型映射表从数据模型获取所需元数据,解析出关联性规则配置模板中的参数,根据元数据及关联性规则配置模板中的参数动态生成规则配置文件(即相当于本发明实施例中的将元数据输入与检测维度对应的预设的规则配置模板,得到规则配置文件)。
生成规则配置文件的具体过程,以下结合示例进行说明:
示例性地,参见表1所示,表1为维度-元模型映射关系表,按照检测维度查询维度-元模型映射关系表,即可确定元模型字段、元模型类型及过滤条件。参见图2所示,表2为数据模型的模板表,示意了数据模型集合中数据模型的构成,包括类型、表名(例如:表A及表B)、key(例如:A表的key及B表的key)、过滤条件(例如:A表过滤条件及B表过滤条件),以及差集输出字段(例如:A表差集输出字段及B表差集输出字段)。将确定的元模型字段、元模型类型及过滤条件与预设的数据模型集合中的各模板表对照,即可确定目标数据模型。获取目标数据模型中的数据为元数据;将元数据输入与检测维度对应的预设的规则配置模板(例如:关联性规则配置模板),得到规则配置文件。本示例中,参数和具体配置为一对多的关系,例如:在通信领域云化网络中,所有的核心网网元均有数据结构几乎相同的MNE表均需要和VNF(Network Function Virtualization,网络功能虚拟化)表关联,则配置方式如表2所示。参数解析时,根据元模型映射表从数据模型中获取到几十类网元类型、关联表A(即图2中的表A)和关联表B(即图2中的表A)的自然键,生成完整规则配置,这样只需要一条参数化配置,快速动态生成了几十条的规则配置信息;还有同类型网元的MNE资源表和性能表全关联、同类型网元的function资源表和性能表全关联等很多关联场景都适用,能够提升规则配置的效率。并且,参数化配置模板还能方便传入规则中需要动态变化的信息,比如:时间参数等。
除了支持参数化,关联性支持两表关联、同时可扩展支持多表关联,以便支持复杂业务逻辑多表关联场景,提高作业生成模块复用性以及灵活性;具体地,在表2配置模板中,B表可为单表也可为指定分隔符的多表。当B表被配置为多表时,则通过配置模板中过滤条件的可执行SQL脚本输入实现多表关联场景。完成规则配置模板解析后,动态生成完整的规则配置文件。
本发明实施例提供了一种数据质量的检测装置,参见图6所示,图6为本发明实施例数据质量的检测装置的原理框图,数据质量的检测装置60包括:
获取模块61,用于获取步骤:获取当前计算任务中的增量数据;
检测模块62,用于检测步骤:从预设的至少一个检测维度对所述增量数据进行第一检测,得到第一检测结果;
执行模块63,用于第一执行步骤:若所述第一检测结果为存在异常增量数据,确定所述异常增量数据对应的检测维度为异常维度;从数据仓库的贴源层调取所述异常增量数据对应的第一全量数据,从所述异常维度对所述第一全量数据进行第二检测,得到第二检测结果;若所述第二检测结果为存在异常数据,将全部所述异常数据组合得到异常数据集合,并根据所述异常数据生成异常跟踪工单,将所述异常数据集合及所述异常跟踪工单发送至与运营维护人员关联的运维端。
本发明的一些实施例中,可选地,
所述执行模块63,还用于确定所述异常增量数据是否匹配预设的告警策略;
所述执行模块63,还用于若不匹配,返回所述获取步骤;
所述执行模块63,还用于若匹配,继续执行确定所述异常增量数据对应的检测维度为异常维度的步骤。
本发明的一些实施例中,可选地,
所述执行模块63,还用于第二执行步骤:确定所述异常增量数据是否匹配预设的强稽核策略;若匹配,中断当前计算任务,向所述运维端及与开发人员关联的开发端发送告警;若未匹配,向所述运维端及所述开发端发送告警。
本发明的一些实施例中,可选地,
所述检测模块62,还用于第一获取步骤:获取各所述检测维度对应的规则配置文件;
所述检测模块62,还用于匹配步骤:按照所述规则配置文件对所述增量数据进行匹配,得到匹配值;
所述检测模块62,还用于比较步骤:比较所述匹配值与所述检测维度的预设期望阈值范围;
所述检测模块62,还用于第三执行步骤:若所述匹配值超出所述期望阈值范围,确定所述第一检测结果为存在异常增量数据;
所述检测模块62,还用于第四执行步骤:若所述匹配值处于所述期望阈值范围内,确定所述第一检测结果为不存在异常增量数据。
本发明的一些实施例中,可选地,数据质量的检测装置60还包括:
生成模块,用于获取预设的维度-元模型映射关系表;
所述生成模块,还用于按照所述检测维度查询所述维度-元模型映射关系表,确定元模型字段、元模型类型及过滤条件;
所述生成模块,还用于根据所述元模型字段、所述元模型类型及所述过滤条件,从预设的数据模型集合中确定目标数据模型,并获取所述目标数据模型中的数据为元数据;
所述生成模块,还用于将所述元数据输入与所述检测维度对应的预设的规则配置模板,得到所述规则配置文件。
本发明的一些实施例中,可选地,
所述获取模块61,还用于校验步骤:确定是否对全量数据进行检测;
所述获取模块61,还用于第五执行步骤:若不对全量数据进行检测,继续执行所述获取步骤;
所述获取模块61,还用于第六执行步骤:若对全量数据进行检测,生成对应各所述检测维度的数据质量检测任务,将从所述贴源层获取第二全量数据代入各所述质量检测任务,得到第三检测结果;若所述第三检测结果为第二全量数据中存在第一异常数据,将全部所述第一异常数据组合得到第一异常数据集合,并根据第一异常数据集合生成第一异常跟踪工单,将所述第一异常数据集合及所述第一异常跟踪工单发送至与所述运维端。
本发明的一些实施例中,可选地,
所述检测维度包括以下维度中的至少一个:
数据缺失、完整性、唯一性、及时性、合规性、关联性。
本申请实施例提供的数据质量的检测装置能够实现图1至图5的方法实施例实现的各个过程,并达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例提供了一种电子设备70,参见图7所示,图7为本发明实施例电子设备70的原理框图,包括处理器71,存储器72及存储在存储器72上并可在处理器71上运行的程序或指令,程序或指令被处理器执行时实现本发明的任一项数据质量的检测方法中的步骤。
本发明实施例提供了一种可读存储介质,可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如上述任一项的数据质量的检测方法的实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述的可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (9)

1.一种数据质量的检测方法,其特征在于,包括:
获取步骤:获取当前计算任务中的增量数据;
检测步骤:从预设的至少一个检测维度对所述增量数据进行第一检测,得到第一检测结果;所述检测维度包括以下维度中的至少一个:数据缺失、完整性、唯一性、及时性、合规性、关联性;
第一执行步骤:若所述第一检测结果为存在异常增量数据,确定所述异常增量数据对应的检测维度为异常维度;从数据仓库的贴源层调取所述异常增量数据对应的第一全量数据,从所述异常维度对所述第一全量数据进行第二检测,得到第二检测结果;若所述第二检测结果为存在异常数据,将全部所述异常数据组合得到异常数据集合,并根据所述异常数据生成异常跟踪工单,将所述异常数据集合及所述异常跟踪工单发送至与运营维护人员关联的运维端。
2.根据权利要求1所述的数据质量的检测方法,其特征在于:
确定所述异常增量数据对应的检测维度为异常维度,之前包括:
确定所述异常增量数据是否匹配预设的告警策略;
若不匹配,返回所述获取步骤;
若匹配,继续执行确定所述异常增量数据对应的检测维度为异常维度的步骤。
3.根据权利要求1所述的数据质量的检测方法,其特征在于:
所述检测步骤,之后包括:
第二执行步骤:确定所述异常增量数据是否匹配预设的强稽核策略;若匹配,中断当前计算任务,向所述运维端及与开发人员关联的开发端发送告警;若未匹配,向所述运维端及所述开发端发送告警。
4.根据权利要求1所述的数据质量的检测方法,其特征在于:
所述检测步骤,包括:
第一获取步骤:获取各所述检测维度对应的规则配置文件;
匹配步骤:按照所述规则配置文件对所述增量数据进行匹配,得到匹配值;
比较步骤:比较所述匹配值与所述检测维度的预设期望阈值范围;
第三执行步骤:若所述匹配值超出所述期望阈值范围,确定所述第一检测结果为存在异常增量数据;
第四执行步骤:若所述匹配值处于所述期望阈值范围内,确定所述第一检测结果为不存在异常增量数据。
5.根据权利要求4所述的数据质量的检测方法,其特征在于:
所述规则配置文件的生成方法包括:
获取预设的维度-元模型映射关系表;
按照所述检测维度查询所述维度-元模型映射关系表,确定元模型字段、元模型类型及过滤条件;
根据所述元模型字段、所述元模型类型及所述过滤条件,从预设的数据模型集合中确定目标数据模型,并获取所述目标数据模型中的数据为元数据;
将所述元数据输入与所述检测维度对应的预设的规则配置模板,得到所述规则配置文件。
6.根据权利要求1所述的数据质量的检测方法,其特征在于:
所述获取步骤,之前包括:
校验步骤:确定是否对全量数据进行检测;
第五执行步骤:若不对全量数据进行检测,继续执行所述获取步骤;
第六执行步骤:若对全量数据进行检测,生成对应各所述检测维度的数据质量检测任务,将从所述贴源层获取第二全量数据代入各所述质量检测任务,得到第三检测结果;若所述第三检测结果为第二全量数据中存在第一异常数据,将全部所述第一异常数据组合得到第一异常数据集合,并根据第一异常数据集合生成第一异常跟踪工单,将所述第一异常数据集合及所述第一异常跟踪工单发送至与所述运维端。
7.一种数据质量的检测装置,其特征在于,包括:
获取模块,用于获取步骤:获取当前计算任务中的增量数据;
检测模块,用于检测步骤:从预设的至少一个检测维度对所述增量数据进行第一检测,得到第一检测结果;所述检测维度包括以下维度中的至少一个:数据缺失、完整性、唯一性、及时性、合规性、关联性;
执行模块,用于第一执行步骤:若所述第一检测结果为存在异常增量数据,确定所述异常增量数据对应的检测维度为异常维度;从数据仓库的贴源层调取所述异常增量数据对应的第一全量数据,从所述异常维度对所述第一全量数据进行第二检测,得到第二检测结果;若所述第二检测结果为存在异常数据,将全部所述异常数据组合得到异常数据集合,并根据所述异常数据生成异常跟踪工单,将所述异常数据集合及所述异常跟踪工单发送至与运营维护人员关联的运维端。
8.一种电子设备,其特征在于:包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的数据质量的检测方法中的步骤。
9.一种可读存储介质,其特征在于:所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述的数据质量的检测方法中的步骤。
CN202311828832.8A 2023-12-28 2023-12-28 数据质量的检测方法、装置、电子设备及存储介质 Active CN117472641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311828832.8A CN117472641B (zh) 2023-12-28 2023-12-28 数据质量的检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311828832.8A CN117472641B (zh) 2023-12-28 2023-12-28 数据质量的检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN117472641A CN117472641A (zh) 2024-01-30
CN117472641B true CN117472641B (zh) 2024-04-09

Family

ID=89624228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311828832.8A Active CN117472641B (zh) 2023-12-28 2023-12-28 数据质量的检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117472641B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112181967A (zh) * 2020-09-29 2021-01-05 中国平安人寿保险股份有限公司 源数据质量的监测方法、装置、计算机设备及介质
CN114185883A (zh) * 2021-12-17 2022-03-15 平安医疗健康管理股份有限公司 数据仓库的数据监控方法、装置、设备及存储介质
CN115391082A (zh) * 2022-09-20 2022-11-25 杭州致成电子科技有限公司 一种异常数据诊断方法、系统及存储介质
CN115422003A (zh) * 2022-08-30 2022-12-02 携程旅游网络技术(上海)有限公司 数据质量监控方法、装置、电子设备、存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112181967A (zh) * 2020-09-29 2021-01-05 中国平安人寿保险股份有限公司 源数据质量的监测方法、装置、计算机设备及介质
CN114185883A (zh) * 2021-12-17 2022-03-15 平安医疗健康管理股份有限公司 数据仓库的数据监控方法、装置、设备及存储介质
CN115422003A (zh) * 2022-08-30 2022-12-02 携程旅游网络技术(上海)有限公司 数据质量监控方法、装置、电子设备、存储介质
CN115391082A (zh) * 2022-09-20 2022-11-25 杭州致成电子科技有限公司 一种异常数据诊断方法、系统及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Hadoop的电网数据质量校验方法与验证系统;张志亮 等;计算机研究与发展;20141231;第134-144页 *

Also Published As

Publication number Publication date
CN117472641A (zh) 2024-01-30

Similar Documents

Publication Publication Date Title
US9720971B2 (en) Discovering transformations applied to a source table to generate a target table
US8984485B2 (en) Analysis of source code changes
US9483387B1 (en) Tree comparison functionality for services
EP3418910A1 (en) Big data-based method and device for calculating relationship between development objects
CN110908997A (zh) 数据血缘构建方法、装置、服务器及可读存储介质
CN110427188B (zh) 单测断言程序的配置方法、装置、设备及存储介质
US20230195728A1 (en) Column lineage and metadata propagation
CN106104472A (zh) 指定逻辑验证规则并将逻辑验证规则应用于数据
CN106293891B (zh) 多维投资指标监督方法
CN109284331B (zh) 基于业务数据资源的制证信息获取方法、终端设备及介质
CN112380533A (zh) 一种计算机终端安全基线核查方法
US7844601B2 (en) Quality of service feedback for technology-neutral data reporting
Li et al. Logspy: System log anomaly detection for distributed systems
US11790249B1 (en) Automatically evaluating application architecture through architecture-as-code
CN117573510A (zh) 软件测试方法、装置、终端设备以及存储介质
CN117472641B (zh) 数据质量的检测方法、装置、电子设备及存储介质
Burrows et al. Coupling metrics for aspect-oriented programming: A systematic review of maintainability studies
CN117236304A (zh) 一种基于模板配置的Excel通用导入的实现方法
CN112130849B (zh) 代码自动生成方法及装置
Hammad et al. An approach to automatically enforce object-oriented constraints
CN114579809A (zh) 事件分析方法、装置、电子设备及存储介质
CN108764607B (zh) 用户月数据复检方法、装置、设备及存储介质
CN111562937A (zh) 一种代码方法级缺陷预警方法
Tadano et al. Automatic synthesis of SRN models from system operation templates for availability analysis
Sebu et al. Optimizing business processes by learning from monitoring results

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant