CN115422003A - 数据质量监控方法、装置、电子设备、存储介质 - Google Patents

数据质量监控方法、装置、电子设备、存储介质 Download PDF

Info

Publication number
CN115422003A
CN115422003A CN202211046756.0A CN202211046756A CN115422003A CN 115422003 A CN115422003 A CN 115422003A CN 202211046756 A CN202211046756 A CN 202211046756A CN 115422003 A CN115422003 A CN 115422003A
Authority
CN
China
Prior art keywords
data
abnormal
historical
task execution
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211046756.0A
Other languages
English (en)
Inventor
范昊天
温斯群
谭克佳
王昭烁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Travel Network Technology Shanghai Co Ltd
Original Assignee
Ctrip Travel Network Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Travel Network Technology Shanghai Co Ltd filed Critical Ctrip Travel Network Technology Shanghai Co Ltd
Priority to CN202211046756.0A priority Critical patent/CN115422003A/zh
Publication of CN115422003A publication Critical patent/CN115422003A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Abstract

本发明提供一种数据质量监控方法、装置、电子设备、存储介质,方法包括:获取任务执行日志;确定所述任务执行日志的类别;获取对应类别的特征解析模板;采用所述特征解析模板提取所述任务执行日志的特征数据;根据对应类别的历史特征规律,确定所述特征数据是否异常;根据所述特征数据的异常判断结果,生成告警信息;接收所述告警信息的反馈;根据所述告警信息的反馈调整所述历史特征规律。本发明减少人工工作量,轻量级地实现全面自动化的数据质量检测;能够及时发现数据异常情况,避免数据问题被隐藏,在下游出现更大的问题的时候才暴露,提高数据仓库的数据质量和工程效率。

Description

数据质量监控方法、装置、电子设备、存储介质
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种数据质量监控方法、装置、电子设备、存储介质。
背景技术
随着信息化的不断发展和数据智能化的不断推进,数据资产已经慢慢成为企业决策和业务支撑中重要的一部分。数据质量的好坏,直接影响到通过数据获取信息的准确度,只有保证好数据质量,奠定稳固的基础,才能发展出更多更有意义的数据应用,为企业及社会创造更大的价值。
目前业界已有一些较为成熟的数据质量管理平台,开源的如Apache Griffin、Deequ;国内大型互联网公司产品如datawork、dataman等。这些平台在设计上都提供了一整套针对数据质量管理从数据采集,定义标准,配置规则,到用户告警,数据展示的完整方案。但是这类平台往往聚焦在数据质量全流程的把控上,是一个比较重的解决方案,前期部署较为耗时耗力,且需要人工添加规则配置,在数据任务众多的场景下对人工资源的要求较高,不能快速达到数据质量监控全覆盖的要求。
由此,如何减少人工工作量,轻量级地实现全面自动化的数据质量检测;能够及时发现数据异常情况,避免数据问题被隐藏,在下游出现更大的问题的时候才暴露,提高数据仓库的数据质量和工程效率,是本领域亟待解决的技术问题。
发明内容
本发明为了克服上述现有技术存在的缺陷,提供一种数据质量监控方法、装置、电子设备、存储介质,从而减少人工工作量,轻量级地实现全面自动化的数据质量检测;能够及时发现数据异常情况,避免数据问题被隐藏,在下游出现更大的问题的时候才暴露,提高数据仓库的数据质量和工程效率。
根据本发明的一个方面,提供一种数据质量监控方法,包括:
获取任务执行日志;
确定所述任务执行日志的类别;
获取对应类别的特征解析模板;
采用所述特征解析模板提取所述任务执行日志的特征数据;
根据对应类别的历史特征规律,确定所述特征数据是否异常;
根据所述特征数据的异常判断结果,生成告警信息;
接收所述告警信息的反馈;
根据所述告警信息的反馈调整所述历史特征规律。
在本申请的一些实施例中,所述任务执行日志的类别基于业务维度包括生产数据同步任务、通用模型层任务、应用模型层任务、报表类任务中的一种或多种。
在本申请的一些实施例中,所述任务执行日志的类别基于执行引擎维度包括HIVE、SPARK、DATAX、PYTHON JOB、JAVA APP中的一种或多种。
在本申请的一些实施例中,所述历史特征规律根据如下步骤获得:
获取历史任务执行日志;
剔除所述历史任务执行日志的异常点;
根据剔除异常点后的历史任务执行日志,生成历史特征规律。
在本申请的一些实施例中,所述根据剔除异常点后的历史任务执行日志,生成历史特征规律包括:
根据剔除异常点后的历史任务执行日志计算历史任务执行日志的数据的平均值和标准差;
使得所述历史特征规律为:当所述特征数据与所述平均值的差大于三倍的标准差时,确定所述特征数据为异常数据。
在本申请的一些实施例中,所述根据所述特征数据的异常判断结果,生成告警信息包括:
根据所述特征数据的异常判断结果以及任务等级,生成不同重要级别的告警信息,不同重要级别的告警信息具有不同的通知方式。
在本申请的一些实施例中,所述根据对应类别的历史特征规律,确定所述特征数据是否异常包括:
响应于没有对应类别的历史特征规律,获取对应类别的异常白名单和/或黑名单;
根据对应类别的异常白名单和/或黑名单,确定所述特征数据是否异常。
根据本申请的又一方面,还提供一种数据质量监控装置,包括:
第一获取模块,用于获取任务执行日志;
确定模块,用于确定所述任务执行日志的类别;
第二获取模块,用于获取对应类别的特征解析模板;
解析模块,用于采用所述特征解析模板提取所述任务执行日志的特征数据;
异常判断模块,用于根据对应类别的历史特征规律,确定所述特征数据是否异常;
告警信息生成模块,用于根据所述特征数据的异常判断结果,生成告警信息;
反馈接收模块,用于接收所述告警信息的反馈;
规律更新模块,用于根据所述告警信息的反馈调整所述历史特征规律。
根据本发明的又一方面,还提供一种电子设备,所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如上所述数据质量监控方法的步骤。
根据本发明的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述数据质量监控方法的步骤。
相比现有技术,本发明的优势在于:
本发明根据任务执行日志的类别,来基于对应类别的所述特征解析模板提取所述任务执行日志的特征数据,并根据对应类别的历史特征规律,确定所述特征数据是否异常,从而根据所述特征数据的异常判断结果,生成告警信息,同时,根据所述告警信息的反馈调整所述历史特征规律。由此,本申请用于各个领域的数据仓库对于数据质量做全面的监控,在不增加格外人力配置的前提下,通过通用的数据采集、特征提取、异常判断、告警平台各个模块的配合,完成平日的常规性检测;进而,减少人工工作量,轻量级地实现全面自动化的数据质量检测;能够及时发现数据异常情况,避免数据问题被隐藏,在下游出现更大的问题的时候才暴露,提高数据仓库的数据质量和工程效率。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1示出了根据本发明实施例的数据质量监控方法的流程图。
图2示出了根据本发明实施例的数据质量监控系统的示意图。
图3示出了根据本发明实施例的任务执行日志分类的示意图。
图4示出了根据本发明实施例的数据质量监控装置的模块图。
图5示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。
图6示意性示出本公开示例性实施例中一种电子设备示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
为了解决现有技术的缺陷,使得用户能够在一次操作中,实现多段行程的选座,本发明提供一种数据质量监控方法、装置、电子设备、存储介质。
首先参见图1,图1示出了根据本发明实施例的数据质量监控方法的示意图。数据质量监控方法包括如下步骤:
步骤S110:获取任务执行日志。
步骤S120:确定所述任务执行日志的类别。
具体而言,可以通过分析存量的历史日志信息,可以将任务执行日志分为不同类别。所述任务执行日志的类别基于业务维度包括生产数据同步任务、通用模型层任务、应用模型层任务、报表类任务中的一种或多种。所述任务执行日志的类别基于执行引擎维度包括HIVE、SPARK、DATAX、PYTHON JOB、JAVA APP中的一种或多种。
其中,Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。Spark是专为大规模数据处理而设计的快速通用的计算引擎。DataX是阿里云DataWorks数据集成的开源版本。Python是一门叫做ABC语言的替代品。Python提供了高效的高级数据结构,还能简单有效地面向对象编程。Python语法和动态类型,以及解释型语言的本质,使它成为多数平台上写脚本和快速开发应用的编程语言,随着版本的不断更新和语言新功能的添加,逐渐被用于独立的、大型项目的开发。Java是一门面向对象的编程语言,不仅吸收了C++语言的各种优点,还摒弃了C++里难以理解的多继承、指针等概念,因此Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言的代表,极好地实现了面向对象理论,允许程序员以优雅的思维方式进行复杂的编程。
步骤S130:获取对应类别的特征解析模板。
步骤S140:采用所述特征解析模板提取所述任务执行日志的特征数据。
具体而言,不同类型的任务的执行日志模式也不同,本申请可以找到分类的关键标志,以及各个分类下的特征的解析模板。通过分类关键标志,可以批量的将日志划分到各个类别中,运用该类型的解析模板对于不同的日志类别做不同的特征提取,得到特征数据。
步骤S150:根据对应类别的历史特征规律,确定所述特征数据是否异常;
具体而言,所述历史特征规律可以根据如下步骤获得:获取历史任务执行日志;剔除所述历史任务执行日志的异常点;根据剔除异常点后的历史任务执行日志,生成历史特征规律。针对历史存量日志特征中明显有误的情况做异常点剔除操作,可以避免偶发性的历史异常影响新数据的判断。
进一步地,所述根据剔除异常点后的历史任务执行日志,生成历史特征规律可以包括:根据剔除异常点后的历史任务执行日志计算历史任务执行日志的数据的平均值和标准差;使得所述历史特征规律为:当所述特征数据与所述平均值的差大于三倍的标准差时,确定所述特征数据为异常数据。
以最常见的特征任务中表的数据条数为例,本质上任务按照一定的时间规律调度,产生的数据条数特征为时间序列数据。通常时间序列数据可以分为增量型、周期型、平稳型,出现突增和突减的情况为数据异常。基于该规律,根据历史的存量日志特征,通过计算平均值和标准差,运用所述特征数据与所述平均值的差大于三倍的标准差的比较,识别波动过大,不符合特征历史规律的情况。
在一些实施例中,响应于没有对应类别的历史特征规律,可以获取对应类别的预设的异常白名单和/或黑名单;根据对应类别的异常白名单和/或黑名单,来确定所述特征数据是否异常。例如,对于数据无明显规律无需监控的问题,可以设置白名单,不进行历史特征规律的监控;对于其他误判情况,继续分析特征数据,找到更合适的监控规则。
步骤S160:根据所述特征数据的异常判断结果,生成告警信息;
具体而言,步骤S160可以根据所述特征数据的异常判断结果以及任务等级,生成不同重要级别的告警信息,不同重要级别的告警信息具有不同的通知方式。
具体而言,在数据仓库任务中,有些任务的结果表是重要宽表,使用众多,有些任务的最终结果会影响重要报表。对于重要任务和一般任务的告警应该差异化处理,才能高效解决问题。在一些实施例中,可以使任务根据下游数量、使用热度划分为高、中、低三个重要等级,然后接入统一告警平台,对于高重要等级的表进行电话、企业即时通信应用、邮件通知;对于中重要等级的表进行企业即时通信应用、邮件通知;对于低重要等级的表进行邮件通知。
步骤S170:接收所述告警信息的反馈。
步骤S180:根据所述告警信息的反馈调整所述历史特征规律。
告警信息发送到各个维护人后,这些信息是否真的检测出了数据质量问题,每个任务是否有一些差异化的问题点。对此,本申请增加了结果反馈机制,对于每次发出的告警,维护人可以勾选是否误判,对于业务变更类的问题无需主动调整,可以移动时间窗口起点到变更节点。
在本发明提供的数据质量监控方法中,根据任务执行日志的类别,来基于对应类别的所述特征解析模板提取所述任务执行日志的特征数据,并根据对应类别的历史特征规律,确定所述特征数据是否异常,从而根据所述特征数据的异常判断结果,生成告警信息,同时,根据所述告警信息的反馈调整所述历史特征规律。由此,本申请用于各个领域的数据仓库对于数据质量做全面的监控,在不增加格外人力配置的前提下,通过通用的数据采集、特征提取、异常判断、告警平台各个模块的配合,完成平日的常规性检测;进而,减少人工工作量,轻量级地实现全面自动化的数据质量检测;能够及时发现数据异常情况,避免数据问题被隐藏,在下游出现更大的问题的时候才暴露,提高数据仓库的数据质量和工程效率。
下面参见图,图2示出了根据本发明实施例的数据质量监控系统100的示意图。
当数据仓库ETL任务结束,通过消息队列生产信息,传递任务日志,接收到消息对任务日志做特征提取。对于提取到的特征根据规则,结合历史数据源的信息进行判断,并记录下来信息作为分析展示的基础数据。可以区分任务的等级,对于规则判断异常的情况向维护人发出告警,同时收集告警反馈做进一步优化。
提取出任务执行日志中有用的特征信息可以如图3所示,根据日志中的关键标志,在处理中将日志划分为各个类别,相同的类别通常有相似的文本结构,根据解析模板解析出特征。如HIVE类别的numRows(行数)、numFiles(文件数)、totalSize(存储字节数)、rawDataSize(原始字节数)、mapNum(map次数)、reduceNum(reduce次数)、cpuTime(计算耗时)、hdfsReadCnt(HDFS读入字节数)、hdfsWriteCnt(HDFS写入字节数);SPARK类别的numRows(行数)、numFiles(文件数)、totalSize(存储字节数);DATAX同步任务的avgByteSpeed(任务平均流量)、numRows(行数)、avgLineSpeed(记录写入速度)、numFiles(文件数)、totalTransferredRecords(读出记录总数)、totalSize(存储字节数)。
可以根据如下方式来基于特征数据判断数据是否异常:设定时间窗口为180个点,对于历史数据先用最简单的异常点检测方法剔除掉异常点,然后计算历史数据的平均值和标准差,如果实时数据落在平均值的正负3个标准差的范围外,则判断为异常。在数据仓库的领域,数据任务通常存在增量和全量的区别,增量任务每天是一个范围内的数据,全量任务每天是所有的数据,理论上增量任务是波动值,全量任务是不断有增加的,对于这种情况,可以对指标进行处理,监控差值指标做为告警规则的输入,差值指标的计算方式是t时刻的指标减去t-1时刻的指标,这样可以从数学上兼容增量和全量两种情况。
告警通知的方式中,可以首先根据根据下游数量、使用热度将任务划分为高、中、低三个重要等级。对于下游数超过1000或者日均使用热度超过100的划分为高,对于下游数超过100或者日均使用热度超过20的划分为中,其余划分为低。然后接入统一告警平台,对于高重要等级的表进行电话、企业即时通信应用、邮件通知;对于中重要等级的表进行企业即时通信应用、邮件通知;对于低重要等级的表进行邮件通知。
结果反馈与告警规则优化中,告警发送到维护人后,维护人可以勾选告警是否有误。以下是反馈的一些选项业务逻辑或脚本修改,数据需重新计算、业务逻辑或脚本修改,后续可持续监控、业务逻辑周期性波动,数据无异常、日志解析有误,数据无异常、数据来源无明显规律性,无需监控或调高告警阈值、上游依赖问题,数据异常原因未知、其他问题。对于业务变更类的问题无需主动调整,可以移动时间窗口起点到变更节点;对于数据无明显规律无需监控的问题,可以加白名单,不进行通用监控;对于其他误判情况,继续分析特征数据,找到更合适的监控规则。
以上仅仅是示意性地描述本发明的多个实现方式,本发明并非以此为限制。
本发明还提供一种数据质量监控装置,图4示出了根据本发明实施例的数据质量监控装置的示意图。数据质量监控装置300包括第一获取模块310、确定模块320、第二获取模块330、解析模块340、异常判断模块350、告警信息生成模块360、反馈接收模块370以及规律更新模块380。
第一获取模块310用于获取任务执行日志;
确定模块320用于确定所述任务执行日志的类别;
第二获取模块330用于获取对应类别的特征解析模板;
解析模块340用于采用所述特征解析模板提取所述任务执行日志的特征数据;
异常判断模块350用于根据对应类别的历史特征规律,确定所述特征数据是否异常;
告警信息生成模块360用于根据所述特征数据的异常判断结果,生成告警信息;
反馈接收模块370用于接收所述告警信息的反馈;
规律更新模块380用于根据所述告警信息的反馈调整所述历史特征规律。
在本发明提供的数据质量监控装置中,根据任务执行日志的类别,来基于对应类别的所述特征解析模板提取所述任务执行日志的特征数据,并根据对应类别的历史特征规律,确定所述特征数据是否异常,从而根据所述特征数据的异常判断结果,生成告警信息,同时,根据所述告警信息的反馈调整所述历史特征规律。由此,本申请用于各个领域的数据仓库对于数据质量做全面的监控,在不增加格外人力配置的前提下,通过通用的数据采集、特征提取、异常判断、告警平台各个模块的配合,完成平日的常规性检测;进而,减少人工工作量,轻量级地实现全面自动化的数据质量检测;能够及时发现数据异常情况,避免数据问题被隐藏,在下游出现更大的问题的时候才暴露,提高数据仓库的数据质量和工程效率。
图4仅仅是示意性的示出本发明提供的数据质量监控装置,在不违背本发明构思的前提下,模块的拆分、合并、增加都在本发明的保护范围之内。本发明提供的数据质量监控装置可以由软件、硬件、固件、插件及他们之间的任意组合来实现,本发明并非以此为限。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被例如处理器执行时可以实现上述任意一个实施例中所述数据质量监控方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述数据质量监控方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图5所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品400,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在租户计算设备上执行、部分地在租户设备上执行、作为一个独立的软件包执行、部分在租户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到租户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本公开的示例性实施例中,还提供一种电子设备,该电子设备可以包括处理器,以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中所述数据质量监控方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述数据质量监控方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得租户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述数据质量监控方法。
相比现有技术,本发明的优势在于:
本发明根据任务执行日志的类别,来基于对应类别的所述特征解析模板提取所述任务执行日志的特征数据,并根据对应类别的历史特征规律,确定所述特征数据是否异常,从而根据所述特征数据的异常判断结果,生成告警信息,同时,根据所述告警信息的反馈调整所述历史特征规律。由此,本申请用于各个领域的数据仓库对于数据质量做全面的监控,在不增加格外人力配置的前提下,通过通用的数据采集、特征提取、异常判断、告警平台各个模块的配合,完成平日的常规性检测;进而,减少人工工作量,轻量级地实现全面自动化的数据质量检测;能够及时发现数据异常情况,避免数据问题被隐藏,在下游出现更大的问题的时候才暴露,提高数据仓库的数据质量和工程效率。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

Claims (10)

1.一种数据质量监控方法,其特征在于,包括:
获取任务执行日志;
确定所述任务执行日志的类别;
获取对应类别的特征解析模板;
采用所述特征解析模板提取所述任务执行日志的特征数据;
根据对应类别的历史特征规律,确定所述特征数据是否异常;
根据所述特征数据的异常判断结果,生成告警信息;
接收所述告警信息的反馈;
根据所述告警信息的反馈调整所述历史特征规律。
2.如权利要求1所述的数据质量监控方法,其特征在于,所述任务执行日志的类别基于业务维度包括生产数据同步任务、通用模型层任务、应用模型层任务、报表类任务中的一种或多种。
3.如权利要求1所述的数据质量监控方法,其特征在于,所述任务执行日志的类别基于执行引擎维度包括HIVE、SPARK、DATAX、PYTHONJOB、JAVAAPP中的一种或多种。
4.如权利要求1所述的数据质量监控方法,其特征在于,所述历史特征规律根据如下步骤获得:
获取历史任务执行日志;
剔除所述历史任务执行日志的异常点;
根据剔除异常点后的历史任务执行日志,生成历史特征规律。
5.如权利要求4所述的数据质量监控方法,其特征在于,所述根据剔除异常点后的历史任务执行日志,生成历史特征规律包括:
根据剔除异常点后的历史任务执行日志计算历史任务执行日志的数据的平均值和标准差;
使得所述历史特征规律为:当所述特征数据与所述平均值的差大于三倍的标准差时,确定所述特征数据为异常数据。
6.如权利要求1所述的数据质量监控方法,其特征在于,所述根据所述特征数据的异常判断结果,生成告警信息包括:
根据所述特征数据的异常判断结果以及任务等级,生成不同重要级别的告警信息,不同重要级别的告警信息具有不同的通知方式。
7.如权利要求1所述的数据质量监控方法,其特征在于,所述根据对应类别的历史特征规律,确定所述特征数据是否异常包括:
响应于没有对应类别的历史特征规律,获取对应类别的异常白名单和/或黑名单;
根据对应类别的异常白名单和/或黑名单,确定所述特征数据是否异常。
8.一种数据质量监控装置,其特征在于,包括:
第一获取模块,用于获取任务执行日志;
确定模块,用于确定所述任务执行日志的类别;
第二获取模块,用于获取对应类别的特征解析模板;
解析模块,用于采用所述特征解析模板提取所述任务执行日志的特征数据;
异常判断模块,用于根据对应类别的历史特征规律,确定所述特征数据是否异常;
告警信息生成模块,用于根据所述特征数据的异常判断结果,生成告警信息;
反馈接收模块,用于接收所述告警信息的反馈;
规律更新模块,用于根据所述告警信息的反馈调整所述历史特征规律。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如权利要求1至7任一项所述的数据质量监控方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一项所述的数据质量监控方法。
CN202211046756.0A 2022-08-30 2022-08-30 数据质量监控方法、装置、电子设备、存储介质 Pending CN115422003A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211046756.0A CN115422003A (zh) 2022-08-30 2022-08-30 数据质量监控方法、装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211046756.0A CN115422003A (zh) 2022-08-30 2022-08-30 数据质量监控方法、装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN115422003A true CN115422003A (zh) 2022-12-02

Family

ID=84201234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211046756.0A Pending CN115422003A (zh) 2022-08-30 2022-08-30 数据质量监控方法、装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN115422003A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116471174A (zh) * 2023-05-05 2023-07-21 北京优特捷信息技术有限公司 一种日志数据监测系统、方法、装置和存储介质
CN117472641A (zh) * 2023-12-28 2024-01-30 中移(苏州)软件技术有限公司 数据质量的检测方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116471174A (zh) * 2023-05-05 2023-07-21 北京优特捷信息技术有限公司 一种日志数据监测系统、方法、装置和存储介质
CN116471174B (zh) * 2023-05-05 2024-02-09 北京优特捷信息技术有限公司 一种日志数据监测系统、方法、装置和存储介质
CN117472641A (zh) * 2023-12-28 2024-01-30 中移(苏州)软件技术有限公司 数据质量的检测方法、装置、电子设备及存储介质
CN117472641B (zh) * 2023-12-28 2024-04-09 中移(苏州)软件技术有限公司 数据质量的检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
EP3798846B1 (en) Operation and maintenance system and method
US11586972B2 (en) Tool-specific alerting rules based on abnormal and normal patterns obtained from history logs
US11823109B2 (en) System and method for evaluating images to support multiple risk applications
CN110413483B (zh) 批量作业数据的监控方法、装置、电子设备及存储介质
CN115422003A (zh) 数据质量监控方法、装置、电子设备、存储介质
CA3059709A1 (en) Risk analysis method, device and computer readable medium
CN111190888A (zh) 一种管理图数据库集群的方法和装置
US20210133622A1 (en) Ml-based event handling
US20220374442A1 (en) Extract, transform, load monitoring platform
US10810225B2 (en) System and method for large scale data processing of source data
CN109471783B (zh) 预测任务运行参数的方法和装置
CN110399268B (zh) 一种异常数据检测的方法、装置及设备
CN113312341B (zh) 一种数据质量监控方法、系统和计算机设备
CN114443437A (zh) 告警根因输出方法、装置、设备、介质和程序产品
US10510032B2 (en) Automated configuration data collection for business applications using feedback
CN112988705B (zh) 一种可用于企业级生产的数据中台构建方法
CN115408236A (zh) 一种日志数据审计系统、方法、设备及介质
CN114757546A (zh) 风险预警方法、装置、设备及介质
CN114546780A (zh) 数据监控方法、装置、设备、系统及存储介质
CN114281586A (zh) 故障确定方法及装置、电子设备和计算机可读存储介质
CN113342619A (zh) 日志监控方法、系统、电子设备及可读介质
CN110297820B (zh) 一种数据处理方法、装置、设备和存储介质
CN113468244A (zh) 大气环境污染源管理系统、方法、电子设备及存储介质
CN110727457A (zh) 组件管理方法、装置、存储介质及电子设备
CN111813765B (zh) 一种异常数据处理的方法、装置、电子设备、计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination