CN116149947A - 数据模型的质量评估方法、装置、电子设备及存储介质 - Google Patents

数据模型的质量评估方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116149947A
CN116149947A CN202310166510.5A CN202310166510A CN116149947A CN 116149947 A CN116149947 A CN 116149947A CN 202310166510 A CN202310166510 A CN 202310166510A CN 116149947 A CN116149947 A CN 116149947A
Authority
CN
China
Prior art keywords
model
quality
task
data
data model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310166510.5A
Other languages
English (en)
Inventor
聂志学
蒋宁
吴海英
王思远
周家林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN202310166510.5A priority Critical patent/CN116149947A/zh
Publication of CN116149947A publication Critical patent/CN116149947A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Factory Administration (AREA)

Abstract

本申请提供一种数据模型的质量评估方法、装置、电子设备及存储介质,该质量评估方法包括:监测数据仓库中的多个数据模型所对应的模型调度任务的任务状态;在监测到任一模型调度任务的任务状态变更为完成状态的情况下,将其所对应的数据模型确定为目标数据模型;从预先配置的质量规则配置信息中获取与目标数据模型相对应的模型质量评估信息;根据获取到的信息对目标数据模型的数据质量进行评估,得到相应的模型质量评估结果并通过可视化展示界面进行展示。该方法通过定期监测多个数据模型对应的模型调度任务的任务状态,在模型调度任务对数据模型进行更新后及时触发质量评估流程,提升了数据模型质量评估的实时性。

Description

数据模型的质量评估方法、装置、电子设备及存储介质
技术领域
本申请涉及数据库技术领域,特别涉及一种数据模型的质量评估方法、装置、电子设备及存储介质。
背景技术
数据模型(Data Model)也称表,是数据特征的抽象,它从抽象层次上描述了系统的静态特征、动态行为和约束条件,为数据库系统的信息表示与操作提供一个抽象的框架。数据模型所描述的内容有三部分,分别是数据结构、数据操作和数据约束。
一个评估规则维度提供一种测量与管理信息和数据的方式。就如同判断东西的好坏和性价比一样,数据也有一些好坏的评判标准。数据质量主要有六要素:准确性、完整性、一致性、及时性、唯一性、有效性。
数据中台是实现数据赋能新业务、新应用的中间、支撑性平台,是对既有/新建信息化系统业务与数据的沉淀。在相关技术中,为了评估数据模型的质量,在数据中台中设置数据质量模块,用于实现对特定数据模型进行质量规则配置、质量稽核结果订阅、告警配置等。该模块的质量检测任务在固定时间统一触发运行,因此数据质量评估的实时性较差。
发明内容
本申请提供了一种数据模型的质量评估方法、装置、电子设备及可读存储介质,用于提升数据模型质量评估的实时性。
第一方面,本申请提供了一种数据模型的质量评估方法,包括:
监测数据仓库中的多个数据模型所对应的模型调度任务的任务状态;其中,每个数据模型对应的模型调度任务用于执行数据模型的模型更新操作,且任务状态至少包括完成状态以及未完成状态;
在监测到任一模型调度任务的任务状态从未完成状态变更为完成状态的情况下,将任务状态变更为完成状态的模型调度任务所对应的数据模型确定为目标数据模型;
从预先配置的质量规则配置信息中获取与目标数据模型相对应的模型质量评估信息;其中,质量规则配置信息用于存储与多个评估维度相对应的质量评估规则,且模型质量评估信息用于表征目标数据模型的预设评估维度的质量评估规则;
根据模型质量评估信息,对目标数据模型的数据质量进行评估,得到目标数据模型的模型质量评估结果,模型质量评估结果用于表示目标数据模型对应于预设评估维度的评估结果;
通过可视化展示界面,对目标数据模型的模型质量评估结果进行可视化展示。
第二方面,本申请提供了一种数据模型的质量评估装置,包括:
状态监测模块,用于监测数据仓库中的多个数据模型所对应的模型调度任务的任务状态;其中,每个数据模型对应的模型调度任务用于执行数据模型的模型更新操作,且任务状态至少包括完成状态以及未完成状态;
目标确定模块,用于在监测到任一模型调度任务的任务状态从未完成状态变更为完成状态的情况下,将任务状态变更为完成状态的模型调度任务所对应的数据模型确定为目标数据模型;
信息获取模块,用于从预先配置的质量规则配置信息中获取与目标数据模型相对应的模型质量评估信息;其中,质量规则配置信息用于存储与多个评估维度相对应的质量评估规则,且模型质量评估信息用于表征目标数据模型的预设评估维度的质量评估规则;
质量评估模块,用于根据模型质量评估信息,对目标数据模型的数据质量进行评估,得到目标数据模型的模型质量评估结果,模型质量评估结果用于表示目标数据模型对应于预设评估维度的评估结果;
可视化展示模块,用于通过可视化展示界面,对目标数据模型的模型质量评估结果进行可视化展示。
第三方面,本申请提供了一种电子设备,该电子设备包括:至少一个处理器;至少一个存储器;以及一个或多个I/O接口,连接在处理器与存储器之间;其中,存储器存储有可被至少一个处理器执行的一个或多个计算机程序,一个或多个计算机程序被至少一个处理器执行,以使至少一个处理器能够执行上述数据模型的质量评估方法。
第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,其中,计算机程序在被处理器/处理核执行时实现上述数据模型的质量评估方法。
根据本申请所提供的一种数据模型的质量评估方法,首先,监测数据仓库中的多个数据模型所对应的模型调度任务的任务状态;在监测到任一模型调度任务的任务状态从未完成状态变更为完成状态的情况下,将任务状态变更为完成状态的模型调度任务所对应的数据模型确定为目标数据模型;然后,从预先配置的质量规则配置信息中获取与目标数据模型相对应的模型质量评估信息;根据模型质量评估信息,对目标数据模型的数据质量进行评估,得到目标数据模型的模型质量评估结果,模型质量评估结果用于表示目标数据模型对应于预设评估维度的评估结果;最后,通过可视化展示界面,对目标数据模型的模型质量评估结果进行可视化展示。该方法通过定期监测多个数据模型所对应的模型调度任务的任务状态,能够在模型调度任务对数据模型进行更新后及时触发质量评估流程,相较于相关技术中统一在固定时间触发质量评估流程的方式,提升了数据模型质量评估的实时性;同时,将数据模型的质量评估结果在可视化展示界面实时进行集中展示,有利于更直观地进行质量问题预警,便于开发运维人员进行日常巡检和问题处置。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用来提供对本申请的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请,并不构成对本申请的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,在附图中:
图1为本申请实施例提供的一种数据模型的质量评估方法的流程图;
图2为本申请实施例提供的一种模型质量评估任务的程序架构图;
图3为本申请实施例的具体示例提供的一个可视化展示的数据模型质量评估报告的示例图;
图4为本申请实施例提供的一种数据模型的质量评估装置的框图;
图5为本申请实施例提供的一种电子设备的框图。
具体实施方式
为使本领域的技术人员更好地理解本申请的技术方案,以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在不冲突的情况下,本申请各实施例及实施例中的各特征可相互组合。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本申请。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本申请的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
根据本申请实施例提供的数据模型的质量评估方法可以由终端设备或服务器等电子设备执行,终端设备可以为车载设备、用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等;所述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。所述方法具体可以是通过处理器调用存储器中存储的计算机程序的方式来实现。
在相关技术中,为了评估数据模型的质量,在数据中台中设置数据质量模块,用于实现对特定数据模型进行质量规则配置、质量稽核结果订阅、告警配置等。该模块的质量检测任务在固定时间统一触发运行,因此数据质量评估的实时性较差。为了解决上述问题,本申请提供了一种数据模型的质量评估方法,该方法通过定期监测多个数据模型所对应的模型调度任务的任务状态,能够在模型调度任务对数据模型进行更新后及时触发质量评估流程,相较于相关技术中统一在固定时间触发质量评估流程的方式,提升了数据模型质量评估的实时性。
图1为本申请实施例提供的一种数据模型的质量评估方法的流程图。参照图1,该方法包括:
步骤S110:监测数据仓库中的多个数据模型所对应的模型调度任务的任务状态。
数据仓库(Data Warehouse)是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。数据仓库为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据模型(Data Model)也称表,是数据特征的抽象,它从抽象层次上描述了系统的静态特征、动态行为和约束条件,为数据库系统的信息表示与操作提供一个抽象的框架。数据模型所描述的内容有三部分,分别是数据结构、数据操作和数据约束。在一种可选的实现方式中,数据模型主要特指数据仓库内公共稳定的数据表。
调度指系统为了自动完成特定任务,在约定的特定时刻或满足特定条件下去执行任务的过程。调度任务通过系统自动去执行任务,可以解放更多人力。在步骤S110中,每个数据模型对应的模型调度任务用于执行数据模型的模型更新操作,且任务状态至少包括完成状态以及未完成状态。在一种可选的实现方式中,调度任务特指在大数据集群下的若干离线数据仓库环境数据模型的写表产出任务,调度周期包含日、周、月等。模型调度任务的任务状态用于记录和标识该数据模型所对应的调度任务是否完成,模型调度任务的完成表示其所对应的数据模型中包含的所有数据均已更新为最新数据。
在一种可选的实现方式中,为了及时监测到模型调度任务的任务状态的变化,从而在任务状态发生更新时及时对更新的数据模型进行质量评估,通过定时获取任务状态以监测其是否发生更新,则步骤S110具体包括:
每隔预设时间间隔,对任务实例动态表进行扫描操作,根据扫描结果监测数据仓库中的多个数据模型所对应的模型调度任务的任务状态是否发生更新;其中,任务实例动态表是用于存储多个模型调度任务的任务实例的运行状态的数据湖表。
在一种可选的实现方式中,任务实例动态表中存储的多个模型调度任务实例的运行状态包括:根据最新一次扫描结果获取到的多个模型调度任务的任务实例的当前运行状态以及对应的扫描时间;在另一种可选的实现方式中,为了体现对任务实例动态表的定时监测扫描,任务实例动态表中存储的多个模型调度任务实例的运行状态除了包括当前运行状态之外,还包括:根据当前的一个预设时间间隔之前的一次扫描结果获取到的多个模型调度任务的任务实例的上一运行状态以及对应的扫描时间;在又一种可选的实现方式中,为了更直观地展示任务状态的变化,任务实例动态表中存储的多个模型调度任务实例的运行状态除了包括当前运行状态之外,还包括:上一次根据扫描结果监测到任务状态发生变化时对应的模型调度任务的任务实例的运行状态以及扫描时间;其中,模型调度任务的任务实例的运行状态至少包括完成状态以及未完成状态,则任务状态发生变化至少包括:任务状态从未完成状态变更为完成状态。
其中,预设时间间隔由本领域技术人员在实施该方法时视场景需求具体设定,在此不作限制。任务实例指调度任务按定义周期生成真实运行的实例。数据湖是一类存储数据自然/原始格式的系统或存储,通常是对象块或者文件;数据湖通常是企业中全量数据的单一存储,全量数据包括原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据。
在一种可选的实现方式中,通过定时器实现定时获取模型调度任务的任务状态的功能。定时器是通过读取配置的时间窗口信息,生成定时轮询的装置,用于定时对任务实例动态表进行扫描操作,根据扫描结果监测数据仓库中的多个数据模型所对应的模型调度任务的任务状态是否发生更新。轮询指按照某种算法进行顺序触发以执行某动作,在本实施例中,轮询主要指定时轮询,即按照预设时间间隔触发执行对任务实例动态表的扫描操作。
在一种可选的实现方式中,为了及时获取更新的任务状态,任务实例动态表具体为Hudi动态表。Apache Hudi是一个数据湖的开源方案,Hudi是Hadoop Updates andIncrementals的简写。Hudi能够基于HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)管理大型分析数据集,可以对数据进行插入、更新、增量消费等操作,可以高效减少摄取过程中的数据延迟。Hudi动态表是一种存储在数据仓库Hive内数据可实时刷新的表。
步骤S120:在监测到任一模型调度任务的任务状态从未完成状态变更为完成状态的情况下,将任务状态变更为完成状态的模型调度任务所对应的数据模型确定为目标数据模型。
模型调度任务的任务状态用于记录和标识该数据模型所对应的调度任务是否完成,模型调度任务的完成表示其所对应的数据模型中包含的所有数据均已更新为最新数据。在一种可选的实现方式中,为了及时对更新的数据模型进行质量评估,通过监测该数据模型所对应的模型调度任务的任务状态是否变更为完成来判断该数据模型是否更新,从而将更新的数据模型确定为目标数据模型以进行质量评估,则步骤S120具体通过以下方式实现:
首先,获取任务状态变更为完成状态的模型调度任务所对应的任务标识;其中,任务标识用于唯一标识某一模型调度任务;
然后,查询预先配置的模型任务映射关系,根据模型任务映射关系确定与任务标识相对应的数据模型;
最后,将与任务标识相对应的数据模型确定为目标数据模型;
其中,模型任务映射关系用于存储数据模型与对应的模型调度任务的任务标识之间的映射关系,每个数据模型对应的模型调度任务用于执行数据模型的模型更新操作;在一种可选的实现方式中,调度任务特指在大数据集群下的若干离线数据仓库环境数据模型的写表产出任务,每一个数据模型对应于一个模型调度任务,该模型调度任务用于实现写表操作等更新操作。
在一种可选的实现方式中,调度任务实例是对某一数据模型进行质量评估的触发器。触发器指提供给计算机运行程序来判断是否执行某动作的一种方法,是一个与事件相关的特殊方法,该事件的执行不是手工启动,而是由事件来触发。模型调度任务具体指数据模型的写表任务,可以通过读取Hudi任务实例动态表监测调度任务的任务状态。Hudi动态表为实时同步的数据表,依赖于这一特点,可以通过读取配置的时间窗口信息轮询监听扫描该任务实例动态表,实时捕获到数据模型的调度任务的任务状态,并将其设定为一个触发器。该触发器作为判断是否对某一数据模型进行质量评估的依据,当监听到任一模型调度任务的任务状态变更为完成状态时,则触发对该数据模型的质量评估任务:具体的,先通过预先配置的模型任务映射关系,确定与任务状态变更为完成状态的模型调度任务所对应的数据模型,然后将该数据模型确定为目标数据模型,再对目标数据模型进行后续的质量评估操作。
由此可知,通过定时器实现定时扫描监听模型调度任务的任务状态,通过Hudi动态表可以在任务状态变更为完成(即数据模型完成更新)后及时捕获到任务状态的变化,通过触发器将完成更新的数据模型确定为目标数据模型并进行后续质量评估操作,从而实现对数据模型的实施评估;即一旦数据模型所对应的调度任务执行完成,则该数据模型中包含的所有数据均已更新为最新数据,进而对该数据模型进行实时质量评估,并且该质量评估的过程通过多个评估维度的质量评估规则实现对数据模型的多维度环评。
步骤S130:从预先配置的质量规则配置信息中获取与目标数据模型相对应的模型质量评估信息。
数据质量是用于评估数据好坏的标准,一个评估规则维度提供一种测量与管理信息和数据的方式,数据质量主要有六要素:准确性、完整性、一致性、及时性、唯一性、有效性。数据质量六要素具体包括:准确性表现为确保数据必须反映真实的业务内容;完整性表现为衡量所必须的数据的完整程度;一致性表现为数据元素的类型和含义必须一致和清晰;及时性表现为针对用户对信息获取的时间及时性要求,确保数据及时更新;唯一性表现为针对某个数据项或某组数据,没有重复的数据记录;有效性表现为对于数据的值,格式要求符合数据定义或业务定义的要求。
选取的评价数据质量的维度,反映为质量核验的规则,即质量规则;质量规则是进行质量评估时的具体手段,也称质量评估规则,围绕准确性、及时性、稳定性、一致性、完整性、有效性的质量六要素进行设计,一个数据模型可配置一个或多个质量规则,以对数据模型进行多维度的质量环评。在步骤S130中,质量规则配置信息用于存储与多个评估维度相对应的质量评估规则,且模型质量评估信息用于表征目标数据模型的预设评估维度的质量评估规则。质量规则配置信息由本领域技术人员在实现该方法时预先配置在评估系统中,具体内容视场景而定,在此不作限定。在一种可选的实现方式中,质量规则主要为将评价维度抽象为质量评估的若干SQL及其附加属性,即质量规则配置信息包括用于实现该质量规则的SQL语句、对应的质量规则名称、以及其他相关信息,例如检测方法、置信区间、置信列表等。
在一种可选的实现方式中,为了对实时更新的数据模型进行质量评估,将实时更新的数据模型确定为目标数据模型,进而通过与目标数据模型相对应的模型质量评估信息对其进行质量评估,因此在对目标数据模型的数据质量进行评估之前,需要从预先配置的质量规则配置信息中获取与目标数据模型相对应的模型质量评估信息。
步骤S140:根据模型质量评估信息,对目标数据模型的数据质量进行评估,得到目标数据模型的模型质量评估结果,模型质量评估结果用于表示目标数据模型对应于预设评估维度的评估结果。
其中,模型质量评估信息已在步骤S130从预先配置的质量规则配置信息中获取得到,用于评估其所对应的目标数据模型的模型质量,对应于模型质量评估信息中包含的质量评估规则得到模型质量评估结果,模型质量评估结果用于表示目标数据模型对应于预设评估维度的评估结果。
在一种可选的实现方式中,模型质量评估信息中包含多个评估维度的质量评估规则,即目标数据模型的预设评估维度为多个评估维度,则需要从对应的多个规则评估维度对该数据模型的质量进行评估,得到包含多个规则评估维度结果的模型质量评估结果。为了提高数据模型质量评估的效率,可以对上述多个评估维度的模型质量评估规则进行并行处理,则步骤S140具体通过如下方式实现:
首先,获取模型质量评估信息中包含的多个评估维度的质量评估规则;
其次,通过多个并行处理的子任务,对多个评估维度的质量评估规则进行并行处理,每个子任务对应一个评估维度的质量评估规则;
再次,获取多个子任务针对多个评估维度的质量评估规则进行并行处理后,生成的多个规则维度评估结果;
最后,对多个规则维度评估结果进行汇总,得到目标数据模型的模型质量评估结果。
在一种可选的实现方式中,目标数据模型的数量为多个,为了进一步提升评估系统进行数据模型质量评估的效率,上述步骤S130和S140由多个模型质量评估任务并行执行,模型质量评估任务用于执行对相应的目标数据模型进行质量评估的操作(即步骤S130和S140中的操作),每一个模型质量评估任务对应于一个目标数据模型。换言之,在目标数据模型为多个的情况下,从预先配置的质量规则配置信息中获取与目标数据模型相对应的模型质量评估信息;以及根据模型质量评估信息,对目标数据模型的数据质量进行评估,得到目标数据模型的模型质量评估结果的步骤由多个模型质量评估任务并行执行。
在一种可选的实现方式中,通过多个并行处理的子任务,对多个评估维度的质量评估规则进行并行处理的过程具体如下:
首先,根据每个子任务对应的评估维度,从模型质量评估信息中获取与对应的评估维度相对应的第一结构化查询语句;其中,第一结构化查询语句中包含用于对目标数据模型进行质量评估的查询参数,例如第一结构化查询语句可以是参数化的评估SQL语句;
其次,确定第一结构化查询语句中包含的查询参数,并根据目标数据模型的模型信息,设置查询参数的参数值;其中,查询参数的参数值由本领域技术人员在实施该方法时根据目标数据模型的模型信息具体设置,在此不作限制;
再次,根据查询参数的参数值,对第一结构化查询语句进行实例化处理,得到第二结构化查询语句;其中,第二结构化查询语句是对第一结构化查询语句进行实例化处理后得到的查询语句,例如可以是由参数化的评估SQL语句实例化得到的真实可执行的SQL语句;
最后,将第二结构化查询语句的执行结果与预设的置信范围进行比较,根据比较结果得到目标数据模型对应于对应的评估维度的规则维度评估结果;其中,预设的置信范围由本领域技术人员在实施该方法时,根据目标数据模型的模型信息和评估维度的规则需求具体设置,在此不作限制,例如可以按照置信列表或置信区间两种方式设置置信范围。
在一种可选的实现方式中,数据仓库中存在多个数据模型,且数据模型主要特指数据仓库内公共稳定的数据表,为了进一步提升评估系统进行数据模型质量评估的效率,基于Spark分布式计算引擎和MapReduce分布式架构实现对模型调度任务的任务状态的监测和模型质量评估任务。图2为模型质量评估任务的程序架构图。其中,table是数据仓库中的多个数据表(即数据模型),rule是与table对应的多个质量评估规则,check_value是表在某一评估维度上的质量评估结果,1为通过,0为不通过。根据图2提供的模型质量评估任务的程序架构,该分布式架构中的层级以及实现具体如下:
数据模型层级Map,针对多个数据模型进行并行处理,开始启动时触发器即介入工作,若监听到模型调度任务的任务状态变更为完成,则触发针对该表的模型质量评估任务,否则按照配置的时间窗口信息定时轮询监测调度任务实例的任务状态;
质量规则层级Map,针对某一数据模型的多个质量规则并行处理,首先通过确定表名的参数和数据选取时间的参数将参数化的评估SQL实例化为真实可执行的SQL,然后利用SparkSQL引擎执行具体的评估SQL,最后构造关于该数据模型的评估SQL运行结果值、结合置信区间和置信列表的评估结果的DataFrame(DataFrame是一个以命名列方式组织的分布式数据集);
质量规则层级Reduce,针对并行处理执行的每表每规则粒度评估结果的DataFrame,在Spark内存创建临时视图,再汇聚通过追加写入的方式写入detail表;
数据模型层级Reduce,当表的所有评估SQL执行完成,则聚合该表的质量评估结果,具体规则为:若表的所有质量规则评估均通过,则该表的质量评估结果为通过,否则该表的质量评估结果为不通过;基于以上逻辑实现了将每表每规则粒度评估结果的detail表实时聚合为每表粒度的质量评估结果并追加写入result表。
由此可知,在上述实现方式中,通过Spark分布式计算引擎和MapReduce分布式架构,实现了对多个数据模型的模型调度任务的任务状态监测和模型质量评估任务的并行处理,从而进一步提升评估系统进行数据模型质量评估的效率。在又一种实现方式中,为了达到和上述相同的目的,上述Spark分布式计算引擎也可以使用Python多线程方法实现,从而实现对多个数据模型的模型调度任务的任务状态监测和模型质量评估任务的并行处理。
步骤S150:通过可视化展示界面,对目标数据模型的模型质量评估结果进行可视化展示。
其中,可视化展示界面为可视化展示平台的一部分,可视化展示平台用于实现模型质量评估结果的汇总及展示功能。在一种可选的实现方式中,为了便于用户更直观地查看全部数据模型的模型质量评估结果,在经过步骤S140对目标数据模型的数据质量进行评估并得到相应的模型质量评估结果之后,将得到的模型质量评估结果汇总生成质量评估报告,进而通过可视化展示界面,对质量评估报告进行可视化展示,则步骤S150具体通过以下方式实现:
首先,将目标数据模型的模型质量评估结果发送至可视化展示平台;
其次,通过可视化展示平台对多个目标数据模型的模型质量评估结果进行汇总,根据汇总结果生成质量评估报告,在可视化展示界面中展示质量评估报告。
在一种可选的实现方式中,为了对质量评估报告实现更精细化的展示,便于用户查看更多详细的模型质量评估结果,在用户点击可视化展示界面中的任一目标数据模型的情况下,将进一步展示子窗口,以呈现该目标数据模型中包含的多个评估维度的质量评估规则所对应的多个规则维度评估结果;即步骤S150还包括:在检测到针对质量评估报告中的任一目标数据模型触发的规则查询指令的情况下,在可视化展示界面中弹出子窗口,通过子窗口展示任一目标数据模型的模型质量评估结果中包含的多个评估维度的质量评估规则所对应的多个规则维度评估结果。
由此可知,对数据模型进行实时质量评估后根据模型质量评估结果生成质量评估报告,并通过可视化展示界面对质量评估报告进行可视化展示,便于用户更直观地查看模型质量评估结果。并且,基于可视化展示界面的质量评估报告,开发运维人员可以根据报告中存在的质量问题配置质量评估报告的异常告警并推送到人,更直观及时地进行质量问题预警,提升了开发运维人员质量巡检、问题定位、问题处置的能力和效率。
根据本申请实施例提供的一种数据模型的质量评估方法,首先,监测数据仓库中的多个数据模型所对应的模型调度任务的任务状态;在监测到任一模型调度任务的任务状态变更为完成状态的情况下,将任务状态变更为完成状态的模型调度任务所对应的数据模型确定为目标数据模型;然后,从预先配置的质量规则配置信息中获取与目标数据模型相对应的模型质量评估信息;根据模型质量评估信息,对目标数据模型的数据质量进行评估,得到目标数据模型的模型质量评估结果;其中,在模型质量评估信息中包含多个评估维度的质量评估规则以及目标数据模型的数量为多个的情况下,可以通过多任务的方式并行处理;最后,通过可视化展示界面,对目标数据模型的模型质量评估结果进行可视化展示。该方法通过定期监测多个数据模型所对应的模型调度任务的任务状态,能够在模型调度任务对数据模型进行更新后及时触发质量评估流程,相较于相关技术中统一在固定时间触发质量评估流程的方式,提升了数据模型质量评估的实时性;并且,在模型质量评估信息中包含多个评估维度的质量评估规则以及目标数据模型的数量为多个的情况下,通过多任务的方式并行处理,实现对大批量数据模型的并行质量评估,提升了数据模型质量评估的效率;同时,将数据模型的质量评估结果在可视化展示界面实时进行集中展示,有利于更直观地进行质量问题预警,便于开发运维人员进行日常巡检和问题处置。
为了便于理解,下面以一个具体示例为例,详细介绍本实施例中的数据模型的质量评估方法的具体实现细节。
在相关技术中,通过在数据中台中设置数据质量模块实现对数据模型的质量评估,该模块含有规则配置、订阅管理、质量规则查询、告警配置等功能块,可实现对特定数据模型进行质量规则配置、质量稽核结果订阅、告警配置等。质量检测任务在集群非资源高峰期统一触发运行,一般是在每日的上午或下午定时开始执行,然后推送或告警到订阅者。该方法存在以下问题:零落散乱,对数据模型的质量评估以单表检测及其结果订阅的形式单独呈现,对于每个数据模型的质量情况需要单独查询检索,非集中展现,用户难以全面掌握大量数据模型的数据质量现状;非大批量,数据模型的质量评估主要以单表或小批进行,而非大批量并行检测,评估效率和资源利用率不足;不及时,数据质量评估任务几乎都在每特定时间段才开始运行,导致用户对数据模型的质量现状了解不及时;非实时,数据质量评估任务基本是离线和定时触发,即可能在数据模型的数据已经产出很久后才掌握其数据质量情况,而非一旦数据具备就对其数据质量进行了实时的评估;不利于质量预警,对数据模型的质量评估未在BI(Business Intelligence,商业智能)可视化平台集中展现,不利于质量问题预警,也不利于开发运维人员日常巡检和问题处置;面向单用户,技术人员数据模型的质量评估结果屏蔽了业务人员,业务方对数据可靠性的感知不强。
为了解决上述提到的问题,本具体示例摒弃相关技术中单一功能模块的设计思路,整合台账配置化、后端计算、前端呈现、问题发现、问题处置等多个环境的功能,提供了一种数据模型的质量评估方法,该方法主要从数据模型、质量规则、调度任务、BI可视化平台四方面设计实现。
数据模型是该方法中的评估对象。数据模型也称表,主要含有离线数仓环境下ODS(Operational Data Store,操作型数据存储)贴源层的操作数据表、CDM(Common DataModel)公共模型层的数据表、数据集市ADS(Application Data Service)层稳定的数据宽表,以及离线数仓环境下其他数据表。
质量规则是该方法进行质量评估时的具体手段。质量规则也称质量评估规则,围绕准确性、及时性、稳定性、一致性、完整性、有效性的质量六要素进行设计,一个数据模型可配置一个或多个质量规则,以对数据模型进行多维度的质量环评。
质量规则需具备几大主要属性:质量规则名称、评估SQL、检测方法、置信区间或置信列表。数据模型的质量规则信息可在数据中台数据质量模块进行配置,通过读取线上配置信息,获取每个数据模型的质量规则及其属性的清单,即质量规则库,质量规则库中包含预先配置的质量规则配置信息。在一种可选的实现方式中,预先配置的质量规则配置信息具体包括:数据模型名称、质量规则名称、评估SQL语句、检测方法、置信区间、置信列表、状态;其中,质量规则库内质量评估的维度可包含但不限于:T-1是否有记录、主键是否重复、与来源主表数据是否一致、不同周期数据量波动是否异常、重要字段非空、重要字段枚举值是否超出定义范围,以及其他若干个性化定制的规则维度;检测方法包括分别根据区间和列表进行检测,若根据区间进行检测则相应地预先设置置信区间,若根据列表进行检测则相应地预先设置置信列表。
调度任务实例是该方法进行质量评估时的触发器。调度任务即数据模型的写表任务,运行在大数据集群下,除了每日可在数据中台任务运行监控检索调度任务的任务状态外,还能通过读取数据湖Hudi关于任务实例的动态数据表task_instance观察到调度任务的任务状态。依赖于Hudi的运行机制,Hudi动态表为实时同步的数据表,因此该方法通过读取配置的时间窗口信息轮询监听扫描该表,实时捕获到数据模型的调度任务的任务状态是否变更为完成,并将其设定为一个触发器,该触发器作为判断上述数据模型层级分布式引擎中某数据模型是否启动其所对应的质量评估程序的依据。
经前置步骤完成产出的每表每质量规则粒度的评估结果和每表粒度的质量评估结果,可经过数据中台或数据服务接口推送、抽取、回调至BI可视化平台进行集中呈现形成质量评估报告。图3为一个可视化展示的数据模型质量评估报告的示例图。参照图3,质量评估报告的指标维度可包含但不限于:表数量、质量通过表数、表准确率、表及时率、表稳定率、表一致率、表完整率、表有效率、表质量通过率、调度任务通过率、下游应用库表数量及趋势、下游应用任务数量及趋势、存储、生命周期、表质量规则明细、表质量规则评估结果、数据更新时间、数据访问时间、其他冗余元数据信息等指标;其中,元数据(Metadata)是“关于数据的数据”,即描述数据的数据,是为了描述数据的相关信息而存在的数据。
基于上述实施例和具体示例,以下将针对金融风控数据集市生产库内的核心宽表模型、数据仓库DWD(Data WareHouse Detail,数据明细层)/DWS(Data WarehouseSummary,数据汇总层)公共维度模型,提供一种数据模型的质量评估方法,该方法包括:
步骤一:读取质量规则,通过控制“主题”的参数进行配置,分别读取风控数据集市核心宽表模型、数仓DWD/DWS模型以及其他主题数据模型的质量规则列表;例如:风控数据集市宽表模型主题参数为rcdm_wide,数仓DWD/DWS模型的主题参数为dwd_dws。
步骤二:将读取得到的质量规则配置信息落库到离线数仓作为配置输入表,例如:rcdm_rcf.rcf_dim_data_quality_check_rule_config。
步骤三:通过构造数据模型和质量规则两个层级的分布式计算引擎,并结合定时器和触发器实现实时计算,首先在Map阶段,分别遍历某主题下不同的数据模型、某数据模型下不同的质量规则,以执行每数据模型每质量规则的SQL;然后在Reduce阶段,分别实时聚合每数据模型每质量规则结果、每数据模型的质量评估结果;其中,分布式计算程序部署在数据中台大数据集群下。
步骤四:将分布式计算引擎计算得到的每数据模型每质量规则结果、每数据模型质量评估结果落库到离线数仓作为两张输出表,例如:
report_rcdm.rpt_data_quality_rcdm_wide_check_rule_detail、
report_rcdm.rpt_data_quality_rcdm_wide_check_table_result。
步骤五:将离线数仓的两张输出表再辅以若干表和任务的元数据信息经过抽取、推送到网易有数BI平台形成数据源,再建立可视化的数据质量报告,例如:风控集市宽表模型数据质量实时评估和预警报告、数仓公共模型数据质量实时评估和预警报告。根据可视化的数据质量报告,可展示表的增量数据、全量数据、责任人等各种元数据,展示每个表的元数据便于用户了解更多信息,并且在以表为单位进行展示的情况下,点击一个表后可进一步详细展示该表的多个质量规则。例如,可以在集市宽表模型数据质量实时评估和预警报告的报告页面中看到数据质量评估结果的整体统计信息,例如:质量通过率、总表数量、质量通过表数量、质量不通过表数量以及表相关指标近一个月历史趋势图等;可以在集市宽表模型数据质量实时评估和预警报告的报告页面中看到最新表质量检测明细表以及质量规则汇总表;其中,最新质量监测明细表中包含每次对每表的检测记录数据,包括宽表名称、表责任人、检测日期、当日检测是否完成、更新是否及时、数据是否准确、质量是否通过等记录;检测规则汇总表中包含每表针对某条规则的检测结果数据,包括宽表名称、检测规则以及检测结果。
步骤六:将质量报告配置定时推送、度量预警等,以实现某主题数据模型质量存在问题即及时同步到相关关注部门,例如通过邮件方式同步。
步骤七:相关开发、运维人员以及业务部门可订阅、查看质量报告,及时完成巡检和问题处置。
针对本申请实施例和具体示例提供的一种数据模型的质量评估方法,除了可以应用于上述场景之外,还可以扩展至对离线数仓全仓库数据模型进行质量评估,辅以若干元数据信息,形成数据模型数据质量实时监控大屏,其实现方法的详细流程与上述示例基本一致,区别在于:将输出表推送到实时监控的大屏而非BI平台,则相关人员可基于大屏随时关注到数仓数据质量变化情况。
综上所述,根据本申请实施例和具体示例提供的数据模型的质量评估方法,实现了在离线数仓环境下进行大批量并行实时检测评估数据模型的数据质量,实现了数据模型的数据一具备就启动其数据质量的实时评估;便于数据质量管理部门以及业务部门全面掌握离线数仓环境内的数据模型质量情况;是大批量处理产出数据的统一呈现,是数据集市层对业务层的能力支持;数据模型质量评估的结果在BI平台进行集中呈现,使得数据质量得以可视化;成功提升了开发运维人员质量巡检、问题定位、问题处置的能力和效率;统一的业务数据质量风险感知视图,使得业务部门对数据模型的质量感知更强烈,数据可信度更高;基于该方法得到的数据模型质量评估结果,实现了数据模型质量概览的实时更新,业务人员可以及时掌握数据集市数据模型的质量情况。进一步的,对数据模型进行质量评估有利于提高数据质量,该方法通过多维度的数据质量规则对数据模型进行环评,在数据加工逻辑、字段设计、数据产出等方面进行统一管理,保障了其准确性、及时性、稳定性、一致性、完整性、有效性等数据质量指标;得以全面及时地掌握数据质量现状,统一呈现可视化的指标,助力数据质量管理工作;实时更新数据质量评估结果,可实时暴露问题,让巡检者及时介入进行问题处置,降低巡检人力成本,提升质量巡检效能。
可以理解,本申请提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本申请不再赘述。本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
图4为本申请实施例提供的一种数据模型的质量评估装置的框图。参照图4,该装置40包括:
状态监测模块41,用于监测数据仓库中的多个数据模型所对应的模型调度任务的任务状态;其中,每个数据模型对应的模型调度任务用于执行数据模型的模型更新操作,且任务状态至少包括完成状态以及未完成状态;
目标确定模块42,用于在监测到任一模型调度任务的任务状态从未完成状态变更为完成状态的情况下,将任务状态变更为完成状态的模型调度任务所对应的数据模型确定为目标数据模型;
信息获取模块43,用于从预先配置的质量规则配置信息中获取与目标数据模型相对应的模型质量评估信息;其中,质量规则配置信息用于存储与多个评估维度相对应的质量评估规则,且模型质量评估信息用于表征目标数据模型的预设评估维度的质量评估规则;
质量评估模块44,用于根据模型质量评估信息,对目标数据模型的数据质量进行评估,得到目标数据模型的模型质量评估结果,模型质量评估结果用于表示目标数据模型对应于预设评估维度的评估结果;
可视化展示模块45,用于通过可视化展示界面,对目标数据模型的模型质量评估结果进行可视化展示。
可选地,状态监测模块41具体用于:
每隔预设时间间隔,对任务实例动态表进行扫描操作,根据扫描结果监测数据仓库中的多个数据模型所对应的模型调度任务的任务状态是否发生更新;
其中,任务实例动态表是用于存储多个模型调度任务的任务实例的运行状态的数据湖表。
可选地,目标确定模块42具体用于:
获取任务状态变更为完成状态的模型调度任务所对应的任务标识;
查询预先配置的模型任务映射关系,根据模型任务映射关系确定与任务标识相对应的数据模型;
将与任务标识相对应的数据模型确定为目标数据模型;
其中,模型任务映射关系用于存储数据模型与对应的模型调度任务的任务标识之间的映射关系。
可选地,在目标数据模型为多个的情况下,信息获取模块43以及质量评估模块44中分别包含多个子模块,并行执行多个模型质量评估任务。
可选地,目标数据模型的预设评估维度为多个评估维度,则质量评估模块44具体用于:
获取模型质量评估信息中包含的多个评估维度的质量评估规则;
通过多个并行处理的子任务,对多个评估维度的质量评估规则进行并行处理,每个子任务对应一个评估维度的质量评估规则;
获取多个子任务针对多个评估维度的质量评估规则进行并行处理后,生成的多个规则维度评估结果;
对多个规则维度评估结果进行汇总,得到目标数据模型的模型质量评估结果。
可选地,可视化展示模块45具体用于:
将目标数据模型的模型质量评估结果发送至可视化展示平台;
通过可视化展示平台对多个目标数据模型的模型质量评估结果进行汇总,根据汇总结果生成质量评估报告,在可视化展示界面中展示质量评估报告;其中,在检测到针对质量评估报告中的任一目标数据模型触发的规则查询指令的情况下,在可视化展示界面中弹出子窗口,通过子窗口展示任一目标数据模型的模型质量评估结果中包含的多个评估维度的质量评估规则所对应的多个规则维度评估结果。
可选地,质量评估模块44具体用于:
根据每个子任务对应的评估维度,从模型质量评估信息中获取与对应的评估维度相对应的第一结构化查询语句;
确定第一结构化查询语句中包含的查询参数,并根据目标数据模型的模型信息,设置查询参数的参数值;
根据查询参数的参数值,对第一结构化查询语句进行实例化处理,得到第二结构化查询语句;
将第二结构化查询语句的执行结果与预设的置信范围进行比较,根据比较结果得到目标数据模型对应于对应的评估维度的规则维度评估结果。
本申请实施例提供的一种数据模型的质量评估装置可用来实现本申请提供的任一种数据模型的质量评估方法,相应技术方案和描述和参见方法实施例部分的相应记载,在此不再赘述。
图5为本申请实施例提供的一种电子设备的框图。参照图5,该电子设备50包括:至少一个处理器501;至少一个存储器502;以及一个或多个I/O接口503,连接在处理器501与存储器502之间;其中,存储器502存储有可被至少一个处理器501执行的一个或多个计算机程序,一个或多个计算机程序被至少一个处理器501执行,以使至少一个处理器501能够执行上述数据模型的质量评估方法。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,计算机程序在被处理器/处理核执行时实现上述数据模型的质量评估方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。
本申请实施例还提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述数据模型的质量评估方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读存储介质上,计算机可读存储介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。
如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读程序指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM)、静态随机存取存储器(SRAM)、闪存或其他存储器技术、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读程序指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本申请的各个方面。
这里所描述的计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本申请的范围的情况下,可进行各种形式和细节上的改变。

Claims (10)

1.一种数据模型的质量评估方法,其特征在于,包括:
监测数据仓库中的多个数据模型所对应的模型调度任务的任务状态;其中,每个数据模型对应的模型调度任务用于执行数据模型的模型更新操作,且所述任务状态至少包括完成状态以及未完成状态;
在监测到任一模型调度任务的任务状态从未完成状态变更为完成状态的情况下,将任务状态变更为完成状态的模型调度任务所对应的数据模型确定为目标数据模型;
从预先配置的质量规则配置信息中获取与所述目标数据模型相对应的模型质量评估信息;其中,所述质量规则配置信息用于存储与多个评估维度相对应的质量评估规则,且所述模型质量评估信息用于表征所述目标数据模型的预设评估维度的质量评估规则;
根据所述模型质量评估信息,对所述目标数据模型的数据质量进行评估,得到所述目标数据模型的模型质量评估结果,所述模型质量评估结果用于表示所述目标数据模型对应于所述预设评估维度的评估结果;
通过可视化展示界面,对所述目标数据模型的模型质量评估结果进行可视化展示。
2.根据权利要求1所述的方法,其特征在于,所述监测数据仓库中的多个数据模型所对应的模型调度任务的任务状态包括:
每隔预设时间间隔,对任务实例动态表进行扫描操作,根据扫描结果监测数据仓库中的多个数据模型所对应的模型调度任务的任务状态是否发生更新;
其中,所述任务实例动态表是用于存储多个模型调度任务的任务实例的运行状态的数据湖表。
3.根据权利要求2所述的方法,其特征在于,所述将任务状态变更为完成状态的模型调度任务所对应的数据模型确定为目标数据模型包括:
获取任务状态变更为完成状态的模型调度任务所对应的任务标识;
查询预先配置的模型任务映射关系,根据所述模型任务映射关系确定与所述任务标识相对应的数据模型;
将所述与所述任务标识相对应的数据模型确定为所述目标数据模型;
其中,所述模型任务映射关系用于存储数据模型与对应的模型调度任务的任务标识之间的映射关系。
4.根据权利要求1-3任一所述的方法,其特征在于,在目标数据模型为多个的情况下,所述从预先配置的质量规则配置信息中获取与所述目标数据模型相对应的模型质量评估信息;以及根据所述模型质量评估信息,对所述目标数据模型的数据质量进行评估,得到所述目标数据模型的模型质量评估结果的步骤由多个模型质量评估任务并行执行。
5.根据权利要求4所述的方法,其特征在于,所述目标数据模型的预设评估维度为多个评估维度,所述根据所述模型质量评估信息,对所述目标数据模型的数据质量进行评估,得到所述目标数据模型的模型质量评估结果包括:
获取所述模型质量评估信息中包含的多个评估维度的质量评估规则;
通过多个并行处理的子任务,对所述多个评估维度的质量评估规则进行并行处理,每个子任务对应一个评估维度的质量评估规则;
获取所述多个子任务针对所述多个评估维度的质量评估规则进行并行处理后,生成的多个规则维度评估结果;
对所述多个规则维度评估结果进行汇总,得到所述目标数据模型的模型质量评估结果。
6.根据权利要求5所述的方法,其特征在于,所述通过可视化展示界面,对所述目标数据模型的模型质量评估结果进行可视化展示包括:
将所述目标数据模型的模型质量评估结果发送至可视化展示平台;
通过所述可视化展示平台对多个目标数据模型的模型质量评估结果进行汇总,根据汇总结果生成质量评估报告,在所述可视化展示界面中展示所述质量评估报告;其中,在检测到针对所述质量评估报告中的任一目标数据模型触发的规则查询指令的情况下,在所述可视化展示界面中弹出子窗口,通过所述子窗口展示所述任一目标数据模型的模型质量评估结果中包含的多个评估维度的质量评估规则所对应的多个规则维度评估结果。
7.根据权利要求5所述的方法,其特征在于,所述通过多个并行处理的子任务,对所述多个评估维度的质量评估规则进行并行处理,包括:
根据每个子任务对应的评估维度,从所述模型质量评估信息中获取与所述对应的评估维度相对应的第一结构化查询语句;
确定所述第一结构化查询语句中包含的查询参数,并根据所述目标数据模型的模型信息,设置所述查询参数的参数值;
根据所述查询参数的参数值,对所述第一结构化查询语句进行实例化处理,得到第二结构化查询语句;
将所述第二结构化查询语句的执行结果与预设的置信范围进行比较,根据比较结果得到所述目标数据模型对应于所述对应的评估维度的规则维度评估结果。
8.一种数据模型的质量评估装置,其特征在于,包括:
状态监测模块,用于监测数据仓库中的多个数据模型所对应的模型调度任务的任务状态;其中,每个数据模型对应的模型调度任务用于执行数据模型的模型更新操作,且所述任务状态至少包括完成状态以及未完成状态;
目标确定模块,用于在监测到任一模型调度任务的任务状态从未完成状态变更为完成状态的情况下,将任务状态变更为完成状态的模型调度任务所对应的数据模型确定为目标数据模型;
信息获取模块,用于从预先配置的质量规则配置信息中获取与所述目标数据模型相对应的模型质量评估信息;其中,所述质量规则配置信息用于存储与多个评估维度相对应的质量评估规则,且所述模型质量评估信息用于表征所述目标数据模型的预设评估维度的质量评估规则;
质量评估模块,用于根据所述模型质量评估信息,对所述目标数据模型的数据质量进行评估,得到所述目标数据模型的模型质量评估结果,所述模型质量评估结果用于表示所述目标数据模型对应于所述预设评估维度的评估结果;
可视化展示模块,用于通过可视化展示界面,对所述目标数据模型的模型质量评估结果进行可视化展示。
9.一种电子设备,其特征在于,包括:
至少一个处理器;
至少一个存储器;以及
一个或多个I/O接口,连接在所述处理器与所述存储器之间;其中,
所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7中任一项所述的数据模型的质量评估方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-7中任一项所述的数据模型的质量评估方法。
CN202310166510.5A 2023-02-24 2023-02-24 数据模型的质量评估方法、装置、电子设备及存储介质 Pending CN116149947A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310166510.5A CN116149947A (zh) 2023-02-24 2023-02-24 数据模型的质量评估方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310166510.5A CN116149947A (zh) 2023-02-24 2023-02-24 数据模型的质量评估方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116149947A true CN116149947A (zh) 2023-05-23

Family

ID=86354167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310166510.5A Pending CN116149947A (zh) 2023-02-24 2023-02-24 数据模型的质量评估方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116149947A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117557200A (zh) * 2024-01-10 2024-02-13 宁波安得智联科技有限公司 仓库调整计划评估方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117557200A (zh) * 2024-01-10 2024-02-13 宁波安得智联科技有限公司 仓库调整计划评估方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
AU2019253860B2 (en) Data quality analysis
CN108416620B (zh) 一种基于大数据的画像数据的智能社交广告投放平台
CN109947746A (zh) 一种基于etl流程的数据质量管控方法和系统
US20170124487A1 (en) Systems, methods, and apparatuses for implementing machine learning model training and deployment with a rollback mechanism
US8706684B2 (en) System and method for managing enterprise data
US11042525B2 (en) Extracting and labeling custom information from log messages
US11243830B2 (en) Incident detection and management
CN110689385A (zh) 一种基于知识图谱的电力客服用户画像构建方法
CN111897806A (zh) 大数据离线数据质量检查方法及装置
CN112527886A (zh) 一种基于城市大脑的数据仓库系统
CN112817834B (zh) 数据表评估方法及装置
US11797339B2 (en) Systems and methods for maintaining data objects to manage asynchronous workflows
CN114302103A (zh) 一种智能监控运维系统
CN116149947A (zh) 数据模型的质量评估方法、装置、电子设备及存储介质
US11720432B2 (en) Incident detection and management
CN116701525A (zh) 一种基于实时数据分析的预警方法、系统和电子设备
US9891968B2 (en) Analyzing data sources for inactive data
WO2020010531A1 (zh) 故障检测方法、设备
CN112448840B (zh) 一种通信数据质量监控方法、装置、服务器及存储介质
CN113918636A (zh) 一种基于etl的数据处理量分析方法
CN111291029B (zh) 数据清洗方法及装置
CN114625763A (zh) 用于数据库的信息分析方法、装置、电子设备和可读介质
CN110941608B (zh) 一种埋点分析和漏斗分析报表生成方法、装置及设备
CN114049036A (zh) 数据计算平台、方法、设备及存储介质
CN117764455B (zh) 一种数据的通用指标管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination