CN116680303A - 一种数据质量检测方法、装置、电子设备及存储介质 - Google Patents

一种数据质量检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116680303A
CN116680303A CN202210167472.0A CN202210167472A CN116680303A CN 116680303 A CN116680303 A CN 116680303A CN 202210167472 A CN202210167472 A CN 202210167472A CN 116680303 A CN116680303 A CN 116680303A
Authority
CN
China
Prior art keywords
information
rule
data
target
data quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210167472.0A
Other languages
English (en)
Inventor
许庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210167472.0A priority Critical patent/CN116680303A/zh
Publication of CN116680303A publication Critical patent/CN116680303A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种数据质量检测方法、装置、电子设备及存储介质,该方法包括:获取待检测数据对象;确定所述待检测数据对象的数据记录时间信息;确定数据质量规则集合中的目标数据质量规则;所述目标数据质量规则的适用对象信息指示所述待检测数据对象,且所述目标数据质量规则的生效时间信息与所述数据记录时间信息相匹配;根据所述目标数据质量规则的校验条件信息,对所述待检测数据对象进行质量检测得到质量检测结果。本发明提高了数据质量检测的灵活性、高效性以及检测结果的可靠性。

Description

一种数据质量检测方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,特别涉及一种数据质量检测方法、装置、电子设备及存储介质。
背景技术
业务的发展需要基于大量业务数据的分析结果,而业务数据的质量会对分析结果的准确性产生至关重要的影响。为了确保用于分析的数据质量,相关技术中基于与业务需求相对应的数据质量规则对数据进行质量检测,以及时发现存在质量问题的数据。
然而,相关技术中的数据质量检测无法灵活、高效的适配业务需求的变化,从而导致数据质量检测的效率低,检测结果的可靠性差。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种数据质量检测方法、装置、电子设备及存储介质。所述技术方案如下:
一方面,提供了一种数据质量检测方法,所述方法包括:
获取待检测数据对象;
确定所述待检测数据对象的数据记录时间信息;
确定数据质量规则集合中的目标数据质量规则;所述目标数据质量规则的适用对象信息指示所述待检测数据对象,且所述目标数据质量规则的生效时间信息与所述数据记录时间信息相匹配;
根据所述目标数据质量规则的校验条件信息,对所述待检测数据对象进行质量检测得到质量检测结果。
另一方面,提供了一种数据质量检测装置,所述装置包括:
检测对象获取模块,用于获取待检测数据对象;
记录时间确定模块,用于确定所述待检测数据对象的数据记录时间信息;
规则确定模块,用于确定数据质量规则集合中的目标数据质量规则;所述目标数据质量规则的适用对象信息指示所述待检测数据对象,且所述目标数据质量规则的生效时间信息与所述数据记录时间信息相匹配;
质量检测模块,用于根据所述目标数据质量规则的校验条件信息,对所述待检测数据对象进行质量检测得到质量检测结果。
在一个示例性的实施方式中,在所述目标数据质量规则为多个时,所述质量检测模块包括:
第一确定模块,用于根据每个所述目标数据质量规则的规则类型,确定每种规则类型对应的目标数据质量规则;
第二确定模块,用于针对每种规则类型,根据所述规则类型对应的目标数据质量规则的优先级信息,确定优先级最高的目标数据质量规则;所述优先级最高的目标数据质量规则作为所述规则类型对应的生效目标数据质量规则;
质量检测子模块,用于根据每种规则类型对应的生效目标数据质量规则的校验条件信息,对所述待检测数据对象进行质量检测。
在一个示例性的实施方式中,所述装置还包括配置模块,所述配置模块包括:
第三确定模块,用于响应于规则配置指令,确定目标适用对象信息;
第四确定模块,用于根据选定的目标规则类型和规则内容,确定目标校验条件信息;
第五确定模块,用于根据获取的开始时间和结束时间,确定目标生效时间信息;
数据质量规则生成模块,用于根据所述目标适用对象信息、所述目标校验条件信息和所述目标生效时间信息,生成所述数据质量规则集合中的数据质量规则。
在一个示例性的实施方式中,所述数据质量规则生成模块包括:
时间来源确定模块,用于确定所述开始时间和结束时间的时间来源信息;
优先级确定模块,用于根据所述开始时间和结束时间的时间来源信息,确定优先级信息;
生成子模块,用于根据所述目标适用对象信息、所述目标校验条件信息、所述生效时间信息和所述优先级信息,生成所述数据质量规则集合中的数据质量规则。
在一个示例性的实施方式中,所述优先级确定模块包括:
第一优先级确定模块,用于根据所述开始时间和结束时间的时间来源信息,确定初始优先级信息;
查找模块,用于查找所述数据质量规则集合中的目标已有数据质量规则;所述目标已有数据质量规则的适用对象信息为所述目标适用对象信息、规则类型为所述目标规则类型、且生效时间信息与所述目标生效时间信息相关联;
第二优先级确定模块,用于在查找到时,根据所述目标已有数据质量规则的优先级信息,确定所述优先级信息;
第三优先级确定模块,用于在未查找到时,将所述初始优先级信息作为所述优先级信息。
在一个示例性的实施方式中,所述优先级确定模块还包括:
调整响应模块,用于响应于针对所述优先级信息的调整指令,获取输入的目标优先级信息;
优先级替换模块,用于将所述数据质量规则中的优先级信息替换为所述目标优先级信息。
在一个示例性的实施方式中,所述装置还包括:
报告生成模块,用于在所述质量检测结果指示存在质量问题时,生成质量检测报告;
其中,所述质量检测报告包括所述待检测数据对象的相关信息和所述目标数据质量规则的相关信息。
另一方面,提供了一种电子设备,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现上述数据质量检测方法。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的数据质量检测方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述的数据质量检测方法。
本发明实施例通过为数据质量规则集合中各数据质量规则配置生效时间信息,并基于待检测数据对象的数据记录时间信息与生效时间信息的匹配来智能的确定目标数据质量规则,进而基于目标数据质量规则的校验条件信息对待检测数据对象进行质量检测,从而使得数据质量规则能够灵活适配业务需求的变化,提高了数据质量检测的灵活性、高效性以及检测结果的可靠性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种实施环境的示意图;
图2是本发明实施例提供的一种数据质量检测方法的流程示意图;
图3是本发明实施例提供的根据目标数据质量规则的校验条件信息对待检测数据对象进行质量检测的流程示意图;
图4是本发明实施例提供的根据开始时间和结束时间的时间来源信息确定优先级信息的流程示意图;
图5是本发明实施例提供的一种数据质量检测装置的结构框图;
图6本发明实施例提供的一种电子设备的硬件结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
相关技术中的数据质量检测至少存在以下具体问题:
无法用于历史时期的数据质量核查。例如,企业某生产车间用能设备增加导致该车间“当日用电量”数据项的合理阈值范围变化,合理阈值范围从原来的0~100变为0~200,为配合上述变化,相关技术会修改针对相应数据集的“用电量”数据项的数据质量规则,即阈值范围从原来的0~100变为0~200。但是该变更将导致在进行数据质量检测时,无法有效发现过去不符合0~100阈值范围的历史数据问题,从而为历史数据分析埋下隐患。
无法预置数据质量规则的变更。例如,企业的某车间计划在未来某时刻更换智能电表型,该变更可能导致相关数据上报频次由原来的3分钟1次变为5分钟1次,且新增了上报的数据项,相关技术需要安排人员在电表更换的同时在系统中同步更新对应的数据质量规则的配置。
无法灵活应对突发事件或安排。例如,企业某车间紧急停电检修,预计持续2小时,该2小时内部分数据集会发生数据缺失导致数据时效性方面的质量大爆发式告警,引起不必要的关注并容易导致数据质量管理或审核人员忽视该时间段内其他有效的告警信息。
综上可见,相关技术中的数据质量检测无法灵活、高效的适配业务需求的变化,从而导致数据质量检测的效率低,检测结果的可靠性差。
鉴于此,本发明实施例提供了一种数据质量检测方法,通过为数据质量规则集合中各数据质量规则配置生效时间信息,并基于待检测数据对象的数据记录时间信息与生效时间信息的匹配来智能的确定目标数据质量规则,进而基于目标数据质量规则的校验条件信息对待检测数据对象进行质量检测,从而使得数据质量规则能够灵活适配业务需求的变化,提高了数据质量检测的灵活性、高效性以及检测结果的可靠性。
请参阅图1,其所示为本发明实施例提供的一种实施环境示意图,该实施环境可以包括质量检测服务器110和数据质量规则库120,该质量检测服务器110与数据质量规则库120可以基于有线网络或者无线网络连接通信。
质量检测服务器110用于基于匹配到的数据质量规则(即目标数据质量规则)进行质量检测,该质量检测服务器110可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
数据质量规则库120用于存储预先配置的数据质量规则,数据质量规则表征适用数据对象需要满足的质量要求。本发明实施例中的数据质量规则可以对应有适用对象信息、生效时间信息、规则类型和优先级信息,其中适用对象信息指示相应数据质量规则适用的数据对象,生效时间信息指示相应数据质量规则可以使用的时间段。数据质量规则库120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一个具体的实施方式中,数据质量规则可以包括以下内容:
规则标识:用于唯一标识一个数据质量规则;
适用对象信息:指示可以适用的数据对象,具体的可以包括数据对象类型、数据对象标识。其中,数据对象类型可以包括数据集(系统可识别的指定格式的数据对象,如JSON对象等)、数据表(各类数据库产品实例中的表对象)、数据项(具体某项数据,如数据表中的某列,数据集中的某个固定位置或标识的数据等);数据对象标识用于唯一标识一个数据对象。需要说明的是,数据对象类型支持根据业务需要的扩展,例如还可以包括数据API(Application Programming Interface,应用程序接口)接口、数据文件、订阅的消息队列等。
规则类型:可以包括完整性类型、有效性类型、时效性类型、个性化类型等。需要说明的是,本发明实施例不具体限定数据质量规则的分类方式,可以根据业务需要对上述示例的规则类型进行新增、修改、删除等。
校验条件信息:数据需要满足得到具体质量要求,通常校验条件信息的形式与规则类型相对应,不同的规则类型对应不同形式的校验条件信息。举例而言,针对完整性-非空,校验条件信息为指定的数据项,如某数据集包含10个数据项,其中指定5个数据项数值必须不为空,其他可以为空;针对有效性-阈值,校验条件信息为指定的数据边界,如[0,100)表示阈值为大于等于0且小于100;针对有效性-精度,校验条件信息为指定的小数点后位数,如2表示该数据项需精确到小数点后2位;针对时效性-上报频次,校验条件信息为数据记录频次,如某数据集的数据记录频次至少每5分钟必须存在1条新记录;针对个性化-算式,校验条件信息为算式内容,如数据项A+数据项B+数据项C=数据项D。
生效时间信息:指示生效的时间窗口,通常可以通过开始时间和结束时间来限定生效的时间窗口,即将开始时间和结束时间之间的时间段作为生效时间信息,例如2021-01-01 00:00:00至2021-02-01 00:00:00。
优先级信息:可以通过具体的数值来表征优先级的高低,例如数值越小优先级越高。
在一个示例性的实施方式中,质量检测服务器110和数据质量规则库120均可以是区块链系统中的节点设备,能够将获取到以及生成的信息共享给区块链系统中的其他节点设备,实现多个节点设备之间的信息共享。区块链系统中的多个节点设备可以配置有同一条区块链,该区块链由多个区块组成,并且前后相邻的区块具有关联关系,使得任一区块中的数据被篡改时都能通过下一区块检测到,从而能够避免区块链中的数据被篡改,保证区块链中数据的安全性和可靠性。
本发明实施例中涉及的终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform asaService,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
下面结合图1所示的应用环境来对本发明实施例提供的数据质量检测方法进行详细说明。
请参阅图2,其所示为本发明实施例提供的一种数据质量检测方法的流程示意图,该方法可以应用于图1中的质量检测服务器110。需要说明的是,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,所述方法可以包括:
S201,获取待检测数据对象。
其中,待检测数据对象是指需要进行数据质量检测的数据对象,待检测数据对象可以数据包的形式由关联的业务应用发送。
本发明实施例中,待检测数据对象的数据对象类型可以包括数据集(系统可识别的指定格式的数据对象,如JSON对象等)、数据表(各类数据库产品实例中的表对象)、数据项(具体某项数据,如数据表中的某列,数据集中的某个固定位置或标识的数据等)、数据API(Application Programming Interface,应用程序接口)接口、数据文件、订阅的消息队列等。
示例性的,当发送的数据包为数据集或数据表时,待检测数据对象可以包括该数据集/数据表,以及该数据集/数据表中的数据项。
具体的实施中,可以实时的基于获取的待检测数据对象进行数据质量检测,也可以按照预设时间间隔获取待检测数据对象进行数据质量检测,该预设时间间隔可以根据实际需要进行设定,例如1天、3天等。
S203,确定所述待检测数据对象的数据记录时间信息。
具体的,可以解析待检测数据对象,从而得到待检测数据对象的对象信息,该对象信息可以包括数据对象类型、数据对象标识以及数据记录时间信息,数据记录时间信息指示相应数据的记录时间,通常数据的记录时间可以为该数据的产生时间。
S205,确定数据质量规则集合中的目标数据质量规则。
其中,所述目标数据质量规则的适用对象信息指示所述待检测数据对象,且所述目标数据质量规则的生效时间信息与所述数据记录时间信息相匹配。本发明实施例中,数据质量规则集合包括数据质量规则库120中的数据质量规则。
具体的实施中,可以基于待检测数据对象的对象信息和数据记录时间信息查找数据质量规则集合,将数据质量规则集合中得到数据质量规则对应的适用对象信息和生效时间信息分别与上述的对象信息和数据记录时间信息进行比对,将适用对象信息包括上述对象信息,且生效时间信息涵盖了上述数据记录时间信息的数据质量规则确定为目标数据质量规则。
举例而言,假设待检测数据对象为数据集编号001,该数据集编号001的数据记录时间信息为2021年5月1日,则匹配到的目标数据质量规则的适用对象信息为:数据集(数据对象类型)、001(数据对象编号),且生效时间信息为2021-01-01 00:00:00至9999-12-3123:23:59。
S207,根据所述目标数据质量规则的校验条件信息,对所述待检测数据对象进行质量检测得到质量检测结果。
具体的,在确定了目标数据质量规则后,可以从数据质量规则库加载该目标数据质量规则,并提取目标数据质量规则中的校验条件信息,基于该校验条件信息判定待检测数据对象是否满足校验条件,若满足,则可以确定质量检测结果为质量符合要求,若不满足,则可以确定质量检测结果为质量不符合要求。
由本发明实施例的上述技术方案可见,本发明实施例通过数据质量规则的适用对象信息和生效时间信息,可以实现针对不同的数据对象、在不同时间段的数据质量检测需求,动态、灵活且高效的适配业务需求的变化,提高了数据质量检测的灵活性、高效性以及检测结果的可靠性。
实际应用中,从数据质量规则集合中匹配到的目标数据质量规则存在多个的情况,为了提高数据质量检测精准性以进一步提高质量检测结果的可靠性,本发明实施例中,数据质量规则集合中各数据质量规则还对应配置有规则类型和优先级信息,通过基于各数据质量规则对应的规则类型和优先级信息可以确保每种规则类型的目标数据质量规则仅有1条优先级最高的生效,那么在质量检测时可以根据每种规则类型中优先级最高的生效目标数据质量规则进行,确保了最终质量检测结果的精准性。
基于此,在一个示例性的实施方式中,在所述目标数据质量规则为多个时,上述步骤S207在实施时,可以如图3所示包括以下步骤:
S301,根据每个所述目标数据质量规则的规则类型,确定每种规则类型对应的目标数据质量规则。
S303,针对每种规则类型,根据所述规则类型对应的目标数据质量规则的优先级信息,确定优先级最高的目标数据质量规则。
其中,所述优先级最高的目标数据质量规则作为所述规则类型对应的生效目标数据质量规则。
S305,根据每种规则类型对应的生效目标数据质量规则的校验条件信息,对所述待检测数据对象进行质量检测。
举例而言,假设待检测数据对象为数据集编号001,该待检测数据对象的数据记录时间信息为2021年5月1日,匹配到的目标数据质量规则如下:
规则编号:1001
数据对象类型:数据集
数据对象编号:001
规则类型:数据时效性-上报频次
数据规则内容:5分钟
数据生效时间窗口(即生效时间信息):2021-01-01 00:00:00至9999-12-3123:23:59
优先级:120
规则编号:1002
数据对象类型:数据集
数据对象编号:001
规则类型:数据时效性-上报频次
数据规则内容:3分钟
数据生效时间窗口(即生效时间信息):2021-05-01 00:00:00至9999-12-3123:23:59
优先级:110
其中,优先级的数值代表了优先级的高低,数值越小优先级越高,则可以确定针对数据时效性-上报频次这一规则类型的生效目标数据质量规则为规则编号1002,从而可以提取规则编号1002的校验条件信息(即上报频次为每3分钟一次),根据该校验条件信息对待检测数据对象进行质量检测。
在上述实施例中,基于数据质量规则的优先级信息可以仅生效同规则类型中最高优先级的目标数据质量规则,从而使得质量检测结果更加精准和灵活。
在一个示例性的实施方式中,在得到质量检测结果之后,还可以在质量检测结果指示存在质量问题时,生成质量检测报告;其中,该质量检测报告包括待检测数据对象的相关信息和目标数据质量规则的相关信息。
具体的实施中,待检测数据对象的相关信息可以包括数据对象类型、数据对象标识(如数据对象编号)和数据记录时间信息,目标数据质量规则的相关信息可以包括规则标识(如规则编号)。当然可以理解的是,该质量检测报告还可以包括当前数据质量检测对应的检测任务标识(如任务编号)以及检测任务的执行时间等其他可以记录的信息。
上述质量检测报告可以存储到指定存储介质中,该指定存储介质可以是关系型数据库或非关系型数据库、消息队列、内存数据库、通过HTTP/HTTPs API接口发送、存储在日志文件中等。
实际应用中,还可以按照不同维度对存储的质量检测报告进行汇总处理,例如,可以按照检测任务标识汇总,将某次实时检测任务或批次检测任务中发现的数据问题进行汇总;可以按照数据对象标识汇总,将数据对象标识对应的数据对象在不同时间发生的数据问题进行汇总,从而展示数据质量的变化趋势;可以按照数据质量规则的规则类型汇总,得到不同规则类型的数据质量问题在不同时间的发生数量、频次等信息。
实际应用中,还可以在质量检测结果指示存在质量问题时,生成报警信息,该报警信息可以发送到指定对象。可以理解的是,质量检测报告和报警信息的生成可以是自动或手动触发。
在一个示例性的实施方式中,本发明实施例的数据质量检测方法还可以包括配置数据质量规则集合中的数据质量规则,该配置过程具体可以包括:
响应于规则配置指令,确定目标适用对象信息;
根据选定的目标规则类型,确定目标校验条件信息;
根据获取的开始时间和结束时间,确定目标生效时间信息;
根据上述目标适用对象信息、目标校验条件信息和目标生效时间信息,生成数据质量规则集合中的数据质量规则。
具体的实施中,可以提供配置终端,通过该配置终端展示规则配置界面,该规则配置界面中可以包括适用对象选项,通过该适用对象选项用户可以选择目标适用对象进而配置终端可以获取到目标适用对象信息;该规则配置界面中还可以包括规则类型选项,通过该规则类型选项用户可以选定目标规则类型,并输入与该目标规则类型对应的规则内容,其中规则类型及对应的规则内容可以作为校验条件信息;该规则配置界面中还可以包括时间选项,通过该时间选项用户可以选定数据质量规则的开始时间和结束时间;当配置终端接收到针对规则配置界面的指定操作时可以向数据质量规则库发送规则配置指令,该规则配置指令中可以包括目标适用对象信息、目标规则类型、规则内容、开始时间和结束时间,从而数据质量规则库响应于该规则配置指令,可以提取到目标适用对象信息、目标规则类型、规则内容、开始时间和结束时间,并进一步基于目标规则类型和规则内容得到目标校验条件信息,基于开始时间和结束时间确定目标生效条件信息,根据目标适用对象信息、目标校验条件信息和目标生效时间信息生成数据质量规则。
需要说明的是,规则配置界面中时间选项为非必选项,当开始时间和结束时间均未指定时,确定目标生效时间信息为指示长期生效的时间信息;当指定了开始时间、未指定结束时间时,确定目标生效时间信息为指示长期生效的时间信息;当指定了结束时间、未指定开始时间时,将系统的当前时间作为默认指定的开始时间,并确定默认指定的开始时间与指定的结束时间之间的时间段为生效时间信息;当开始时间和结束时间均指定时,确定指定的开始时间与结束时间之间的时间段为生效时间信息。
在上述实施例中,可以针对业务需求精准配置对应不同数据对象、在不同时间段生效的数据质量规则,最大程度地保证数据质量标准和业务变化同步、减少数据质量误报、漏报等现象的发生,不仅提高了数据质量规则配置的灵活性,而且提高了后续数据质量检测的灵活性和可靠性。
在一个示例性的实施方式中,数据质量规则集合中的各数据质量规则均配置有优先级信息,优先级信息可以通过数值表征,不同的数值表征不同的优先级,例如数值越小优先级越大等。基于此,上述根据目标适用对象信息、目标校验条件信息和目标生效时间信息,生成数据质量规则集合中的数据质量规则可以包括:
确定所述开始时间和结束时间的时间来源信息;
根据所述开始时间和结束时间的时间来源信息,确定优先级信息;
根据所述目标适用对象信息、所述目标校验条件信息、所述生效时间信息和所述优先级信息,生成所述数据质量规则集合中的数据质量规则。
具体的,时间来源信息包括指定和默认,其中,指定表征该时间为用户指定,默认表征该时间为系统默认,用户并未指定。
具体的实施中,当开始时间和结束时间的时间来源信息均为默认时,可以确定数据质量规则为第一优先级信息;当开始时间的时间来源信息为指定、结束时间的时间来源信息为默认时,可以确定数据质量规则为第二优先级信息,该第二优先级信息指示的优先级高于第一优先级信息指示的优先级;当结束时间的时间来源信息为指定、开始时间的时间来源信息为默认或指定时,可以确定数据质量规则为第三优先级信息,该第三优先级信息所指示的优先级高于第二优先级信息所指示的优先级。
在一个示例性的实施方式中,为了使得后续数据质量检测的更加精准,在配置数据质量规则集合中的数据质量规则时还需要结合已有数据质量规则对优先级信息进行优化。具体的,如图4所示,在根据所述开始时间和结束时间的时间来源信息确定优先级信息时可以包括:
S401,根据所述开始时间和结束时间的时间来源信息,确定初始优先级信息。
也就是说,将上述第一优先级信息、第二优先级信息、第三优先级信息作为初始优先级信息。
S403,查找所述数据质量规则集合中的目标已有数据质量规则。
其中,该目标已有数据质量规则的适用对象信息为所述目标适用对象信息、规则类型为所述目标规则类型、且生效时间信息与所述目标生效时间信息相关联。生效时间信息与目标生效时间信息相关联是指该生效时间信息与该目标生效时间信息存在交集,例如生效时间信息为2021-01-01 00:00:00至2021-02-0100:00:00,目标生效时间信息为2021-01-20 00:00:00至2021-03-0100:00:00,则该生效时间信息与该目标生效时间信息的交集为2021-01-20 00:00:00至2021-02-01 00:00:00。
S405,若查找到,则根据所述目标已有数据质量规则的优先级信息,确定所述优先级信息。
具体的,可以确定当前生成的数据质量规则的优先级信息所指示的优先级高于目标已有数据质量规则的优先级信息所指示的优先级。例如,优先级信息以数值表示,且数值越小优先级越高,目标已有数据质量规则的优先级信息为120、130,那么可以确定当前生成的数据质量规则的优先级信息为110。
S407,若未查找到,则将所述初始优先级信息作为所述优先级信息。
上述实施例中,在配置数据质量规则集合中的数据质量规则时结合了已有数据质量规则对优先级信息进行优化,从而可以确保后续基于数据质量规则集合进行数据质量检测的精准性。
在一个示例性的实施方式中,为了进一步提高本发明技术方案的灵活性和可靠性,允许用户根据实际需要对数据质量规则的优先级信息进行动态调整。
基于此,该方法还可以包括:
响应于针对所述优先级信息的调整指令,获取输入的目标优先级信息;
将所述数据质量规则中的优先级信息替换为所述目标优先级信息。
具体的,在创建数据数据质量规则时,用户可以针对已经确定的优先级系信息进行调整,通过配置终端发送针对优先级信息的调整指令,该调整指令中可以携带用户输入的目标优先级信息,例如目标数值,从而可以将当前生成的数据质量规则中的优先级系信息替换为该目标优先级信息,从而能够更加灵活的满足不同业务需求。
与上述几种实施例提供的数据质量检测方法相对应,本发明实施例还提供一种数据质量检测装置,由于本发明实施例提供的数据质量检测装置与上述几种实施例提供的数据质量检测方法相对应,因此前述数据质量检测方法的实施方式也适用于本实施例提供的数据质量检测装置,在本实施例中不再详细描述。
请参阅图5,其所示为本发明实施例提供的一种数据质量检测装置的结构示意图,该数据质量检测装置500具有实现上述方法实施例中数据质量检测方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。如图5所示,该装置可以包括:
检测对象获取模块510,用于获取待检测数据对象;
记录时间确定模块520,用于确定所述待检测数据对象的数据记录时间信息;
规则确定模块530,用于确定数据质量规则集合中的目标数据质量规则;所述目标数据质量规则的适用对象信息指示所述待检测数据对象,且所述目标数据质量规则的生效时间信息与所述数据记录时间信息相匹配;
质量检测模块540,用于根据所述目标数据质量规则的校验条件信息,对所述待检测数据对象进行质量检测得到质量检测结果。
在一个示例性的实施方式中,在所述目标数据质量规则为多个时,所述质量检测模块540包括:
第一确定模块,用于根据每个所述目标数据质量规则的规则类型,确定每种规则类型对应的目标数据质量规则;
第二确定模块,用于针对每种规则类型,根据所述规则类型对应的目标数据质量规则的优先级信息,确定优先级最高的目标数据质量规则;所述优先级最高的目标数据质量规则作为所述规则类型对应的生效目标数据质量规则;
质量检测子模块,用于根据每种规则类型对应的生效目标数据质量规则的校验条件信息,对所述待检测数据对象进行质量检测。
在一个示例性的实施方式中,所述装置还包括配置模块,所述配置模块包括:
第三确定模块,用于响应于规则配置指令,确定目标适用对象信息;
第四确定模块,用于根据选定的目标规则类型和规则内容,确定目标校验条件信息;
第五确定模块,用于根据获取的开始时间和结束时间,确定目标生效时间信息;
数据质量规则生成模块,用于根据所述目标适用对象信息、所述目标校验条件信息和所述目标生效时间信息,生成所述数据质量规则集合中的数据质量规则。
在一个示例性的实施方式中,所述数据质量规则生成模块包括:
时间来源确定模块,用于确定所述开始时间和结束时间的时间来源信息;
优先级确定模块,用于根据所述开始时间和结束时间的时间来源信息,确定优先级信息;
生成子模块,用于根据所述目标适用对象信息、所述目标校验条件信息、所述生效时间信息和所述优先级信息,生成所述数据质量规则集合中的数据质量规则。
在一个示例性的实施方式中,所述优先级确定模块包括:
第一优先级确定模块,用于根据所述开始时间和结束时间的时间来源信息,确定初始优先级信息;
查找模块,用于查找所述数据质量规则集合中的目标已有数据质量规则;所述目标已有数据质量规则的适用对象信息为所述目标适用对象信息、规则类型为所述目标规则类型、且生效时间信息与所述目标生效时间信息相关联;
第二优先级确定模块,用于在查找到时,根据所述目标已有数据质量规则的优先级信息,确定所述优先级信息;
第三优先级确定模块,用于在未查找到时,将所述初始优先级信息作为所述优先级信息。
在一个示例性的实施方式中,所述优先级确定模块还包括:
调整响应模块,用于响应于针对所述优先级信息的调整指令,获取输入的目标优先级信息;
优先级替换模块,用于将所述数据质量规则中的优先级信息替换为所述目标优先级信息。
在一个示例性的实施方式中,所述装置还包括:
报告生成模块,用于在所述质量检测结果指示存在质量问题时,生成质量检测报告;
其中,所述质量检测报告包括所述待检测数据对象的相关信息和所述目标数据质量规则的相关信息。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明实施例提供了一种电子设备,该电子设备包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的数据质量检测方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据质量检测。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本发明实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图6是本发明实施例提供的运行一种数据质量检测方法的服务器的硬件结构框图,如图6所示,该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)610(处理器610可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器630,一个或一个以上存储应用程序623或数据622的存储介质620(例如一个或一个以上海量存储设备)。其中,存储器630和存储介质620可以是短暂存储或持久存储。存储在存储介质620的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器610可以设置为与存储介质620通信,在服务器600上执行存储介质620中的一系列指令操作。服务器600还可以包括一个或一个以上电源660,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口640,和/或,一个或一个以上操作系统621,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口640可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器600的通信供应商提供的无线网络。在一个实例中,输入输出接口640包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口640可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图6所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器600还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。
本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质可设置于电子设备之中以保存用于实现一种数据质量检测方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的数据质量检测方法。
本发明的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述的数据质量检测方法。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种数据质量检测方法,其特征在于,所述方法包括:
获取待检测数据对象;
确定所述待检测数据对象的数据记录时间信息;
确定数据质量规则集合中的目标数据质量规则;所述目标数据质量规则的适用对象信息指示所述待检测数据对象,且所述目标数据质量规则的生效时间信息与所述数据记录时间信息相匹配;
根据所述目标数据质量规则的校验条件信息,对所述待检测数据对象进行质量检测得到质量检测结果。
2.根据权利要求1所述的数据质量检测方法,其特征在于,在所述目标数据质量规则为多个时,所述根据所述目标数据质量规则的校验条件信息,对所述待检测数据对象进行质量检测,包括:
根据每个所述目标数据质量规则的规则类型,确定每种规则类型对应的目标数据质量规则;
针对每种规则类型,根据所述规则类型对应的目标数据质量规则的优先级信息,确定优先级最高的目标数据质量规则;所述优先级最高的目标数据质量规则作为所述规则类型对应的生效目标数据质量规则;
根据每种规则类型对应的生效目标数据质量规则的校验条件信息,对所述待检测数据对象进行质量检测。
3.根据权利要求2所述的数据质量检测方法,其特征在于,所述方法还包括:
响应于规则配置指令,确定目标适用对象信息;
根据选定的目标规则类型和规则内容,确定目标校验条件信息;
根据获取的开始时间和结束时间,确定目标生效时间信息;
根据所述目标适用对象信息、所述目标校验条件信息和所述目标生效时间信息,生成所述数据质量规则集合中的数据质量规则。
4.根据权利要求3所述的数据质量检测方法,其特征在于,所述根据所述目标适用对象信息、所述目标校验条件信息和所述目标生效时间信息,生成所述数据质量规则集合中的数据质量规则,包括:
确定所述开始时间和结束时间的时间来源信息;
根据所述开始时间和结束时间的时间来源信息,确定优先级信息;
根据所述目标适用对象信息、所述目标校验条件信息、所述生效时间信息和所述优先级信息,生成所述数据质量规则集合中的数据质量规则。
5.根据权利要求4所述的数据质量检测方法,其特征在于,所述根据所述开始时间和结束时间的时间来源信息,确定优先级信息包括:
根据所述开始时间和结束时间的时间来源信息,确定初始优先级信息;
查找所述数据质量规则集合中的目标已有数据质量规则;所述目标已有数据质量规则的适用对象信息为所述目标适用对象信息、规则类型为所述目标规则类型、且生效时间信息与所述目标生效时间信息相关联;
若查找到,则根据所述目标已有数据质量规则的优先级信息,确定所述优先级信息;
若未查找到,则将所述初始优先级信息作为所述优先级信息。
6.根据权利要求4或5所述的数据质量检测方法,其特征在于,所述方法还包括:
响应于针对所述优先级信息的调整指令,获取输入的目标优先级信息;
将所述数据质量规则中的优先级信息替换为所述目标优先级信息。
7.根据权利要求1所述的数据质量检测方法,其特征在于,所述方法还包括:
在所述质量检测结果指示存在质量问题时,生成质量检测报告;
其中,所述质量检测报告包括所述待检测数据对象的相关信息和所述目标数据质量规则的相关信息。
8.一种数据质量检测装置,其特征在于,所述装置包括:
检测对象获取模块,用于获取待检测数据对象;
记录时间确定模块,用于确定所述待检测数据对象的数据记录时间信息;
规则确定模块,用于确定数据质量规则集合中的目标数据质量规则;所述目标数据质量规则的适用对象信息指示所述待检测数据对象,且所述目标数据质量规则的生效时间信息与所述数据记录时间信息相匹配;
质量检测模块,用于根据所述目标数据质量规则的校验条件信息,对所述待检测数据对象进行质量检测得到质量检测结果。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1~7中任一项所述的数据质量检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1~7中任一项所述的数据质量检测方法。
11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7中任一项所述的数据质量检测方法。
CN202210167472.0A 2022-02-23 2022-02-23 一种数据质量检测方法、装置、电子设备及存储介质 Pending CN116680303A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210167472.0A CN116680303A (zh) 2022-02-23 2022-02-23 一种数据质量检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210167472.0A CN116680303A (zh) 2022-02-23 2022-02-23 一种数据质量检测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116680303A true CN116680303A (zh) 2023-09-01

Family

ID=87779671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210167472.0A Pending CN116680303A (zh) 2022-02-23 2022-02-23 一种数据质量检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116680303A (zh)

Similar Documents

Publication Publication Date Title
CN105095056A (zh) 一种数据仓库数据监控的方法
CN106997431B (zh) 一种数据处理方法及装置
CN111352759A (zh) 一种告警根因的判定方法及装置
WO2015073025A1 (en) Indicating a trait of a continuous delivery pipeline
CN110909129B (zh) 异常投诉事件的识别方法及装置
CN112784025B (zh) 一种目标事件的确定方法和装置
CN112711710A (zh) 多号码终端的追踪方法、系统、服务器和存储介质
CN116680303A (zh) 一种数据质量检测方法、装置、电子设备及存储介质
CN115423030A (zh) 一种设备识别的方法和装置
CN113377604B (zh) 一种数据处理方法、装置、设备和存储介质
CN114356712A (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
CN114637739A (zh) 数据库管控方法、系统、计算机设备及计算机存储介质
CN110489569B (zh) 一种基于知识图谱的事件处理方法及装置
CN112231292A (zh) 文件处理方法、装置、存储介质及计算机设备
CN112596974A (zh) 一种全链路监控方法、装置、设备和存储介质
CN110543470A (zh) 消息预警的方法及装置、存储介质和电子装置
CN111199437A (zh) 一种数据处理方法和装置
CN112752252B (zh) 小区归属地识别方法和装置
CN110781370B (zh) 一种移动终端信息查询方法和计算机设备
CN115269879B (zh) 知识结构数据的生成方法、数据搜索方法和风险告警方法
CN113297246B (zh) 一种数据的处理方法、计算设备及存储介质
CN115718728A (zh) 一种分布式系统的数据检核方法、装置、设备及介质
CN108132951B (zh) 数据接入方法及数据接入装置
CN117874033A (zh) 数据库分表方法、装置、电子设备及存储介质
CN113791801A (zh) 应用程序的更新方法、装置、存储介质和电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination