CN116010349A - 基于元数据的数据检核方法和装置、电子设备和存储介质 - Google Patents

基于元数据的数据检核方法和装置、电子设备和存储介质 Download PDF

Info

Publication number
CN116010349A
CN116010349A CN202310126999.3A CN202310126999A CN116010349A CN 116010349 A CN116010349 A CN 116010349A CN 202310126999 A CN202310126999 A CN 202310126999A CN 116010349 A CN116010349 A CN 116010349A
Authority
CN
China
Prior art keywords
data
metadata
checking
determining
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310126999.3A
Other languages
English (en)
Inventor
李保平
谢超
王辉
陈�峰
杨伟杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huitong Guoxin Technology Co ltd
Original Assignee
Guangzhou Huitong Guoxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huitong Guoxin Technology Co ltd filed Critical Guangzhou Huitong Guoxin Technology Co ltd
Priority to CN202310126999.3A priority Critical patent/CN116010349A/zh
Publication of CN116010349A publication Critical patent/CN116010349A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请提供了一种基于元数据的数据检核方法和装置、电子设备和存储介质,其中,该方法包括:获取多个数据库内的目标数据;采集目标数据内的元数据,其中,元数据用于表征目标数据的数据相关属性;在采集到的元数据的数量大于预设阈值的情况下,获取与元数据之间匹配度大于匹配阈值的数据项;基于数据项确定检核规则,并利用检核规则对目标数据进行数据检核。通过本申请,解决了相关技术中存在的对参与数据检核的员工专业要求过高,不易大范围推广且数据质量校验效率过低的问题。

Description

基于元数据的数据检核方法和装置、电子设备和存储介质
技术领域
本申请涉及数据检核领域,尤其涉及一种基于元数据的数据检核方法和装置、电子设备和存储介质。
背景技术
数据质量的高低直接影响数据价值的释放。目前数据质量校验,依赖工具,职责,流程,根据国内外数据治理标准,实施数据质量管理,需要接入数据,数据分析,业务分析,根据业务要求,数据要求制定相关的数据质量规则,校验结果后闭环监控。
上述过程需要依赖参与人员熟悉数据,熟悉工具,熟悉流程,学习成本较高,数据质量校验效率过低。
因此,相关技术对参与数据检核的员工专业要求过高,不易大范围推广且数据质量校验效率过低的问题。
发明内容
本申请提供了一种基于元数据的数据检核方法和装置、电子设备和存储介质,以至少解决相关技术对参与数据检核的员工专业要求过高,不易大范围推广且数据质量校验效率过低的问题。
根据本申请实施例的一个方面,提供了一种基于元数据的数据检核方法,该方法包括:
获取多个数据库内的目标数据;
采集所述目标数据内的元数据,其中,所述元数据用于表征所述目标数据的数据相关属性;
在采集到的所述元数据的数量大于预设阈值的情况下,获取与所述元数据之间匹配度大于匹配阈值的数据项;
基于所述数据项确定检核规则,并利用所述检核规则对所述目标数据进行数据检核。
根据本申请实施例的另一个方面,还提供了一种基于元数据的数据检核装置,该装置包括:
第一获取模块,用于获取多个数据库内的目标数据;
采集模块,用于采集所述目标数据内的元数据,其中,所述元数据用于表征所述目标数据的数据相关属性;
第二获取模块,用于在采集到的所述元数据的数量大于预设阈值的情况下,获取与所述元数据之间匹配度大于匹配阈值的数据项;
检核模块,用于基于所述数据项确定检核规则,并利用所述检核规则对所述目标数据进行数据检核。
可选地,第一获取模块包括:
第一获取单元,用于获取数据源,确定所述数据源来自的所述数据库;
配置单元,用于配置数据采集任务信息;
第一得到单元,用于根据所述数据采集任务信息从所述数据库内得到所述目标数据。
可选地,采集模块包括:
第一确定单元,用于确定所述数据库的数据存储结构;
第二获取单元,用于获取所述数据库对应的元数据采集脚本;
采集单元,用于执行所述元数据采集脚本,并根据所述数据存储结构采集所述元数据。
可选地,采集单元包括:
第一确定子模块,用于根据所述数据存储结构,确定所述元数据的存储位置和存储路径;
采集子模块,用于基于所述存储路径,利用所述元数据采集脚本采集所述存储位置处的所述元数据。
可选地,该装置还包括:
第三获取模块,用于在所述基于所述数据项确定检核规则之前,获取待添加的所述检核规则;
关联模块,用于将所述检核规则与所述数据项进行关联。
可选地,检核模块包括:
第二确定单元,用于根据所述元数据确定多个所述目标数据之间的关联关系;
第三确定单元,用于根据所述关联关系和所述数据项确定所述检核规则。
可选地,第二确定单元包括:
第一确定子模块,用于根据所述元数据在所述目标数据所处的目标表内的索引标识,确定多个所述目标表之间的依赖关系,其中,所述索引标识包括主键标识和外键标识;
第二确定子模块,用于根据所述依赖关系确定所述目标数据之间的所述关联关系。
根据本申请实施例的又一个方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;其中,存储器,用于存储计算机程序;处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的方法步骤。
根据本申请实施例的又一个方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一实施例中的方法步骤。
在本申请实施例中,通过获取多个数据库内的目标数据;采集目标数据内的元数据,其中,元数据用于表征目标数据的数据相关属性;在采集到的元数据的数量大于预设阈值的情况下,获取与元数据之间匹配度大于匹配阈值的数据项;基于数据项确定检核规则,并利用检核规则对目标数据进行数据检核。由于本申请实施例数据接入时使用独立的任务对数据质量校验进行判断,在不影响数据采集效率的情况下,并发完成元数据采集,利用元数据作为获取检核规则的依据,这样在数据质量校验过程中可提高数据治理工作流程以及纳管新增业务数据效率,同时初步数据质量校验自动化,无需参与数据检核的员工有过高的专业要求,易于推广,可减少前期人工数据调研工作、数据治理管理工作,提高数据管理工作效率,进而解决了相关技术中存在的对参与数据检核的员工专业要求过高,不易大范围推广且数据质量校验效率过低的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例的一种可选的基于元数据的数据检核方法的硬件环境的示意图;
图2是根据本申请实施例的一种可选的基于元数据的数据检核方法的流程示意图;
图3是根据本申请实施例的一种可选的基于元数据的数据检核方法的整体流程示意图;
图4是根据本申请实施例的一种可选的基于元数据的数据检核装置的结构框图;
图5是根据本申请实施例的一种可选的电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种基于元数据的数据检核方法。可选地,在本实施例中,上述基于元数据的数据检核方法可以应用于如图1所示的硬件环境中。如图1所示,终端102中可以包含有存储器104、处理器106和显示器108(可选部件)。终端102可以通过网络110与服务器112进行通信连接,该服务器112可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器112上或独立于服务器112设置数据库114,用于为服务器112提供数据存储服务。此外,服务器112中可以运行有处理引擎116,该处理引擎116可以用于执行由服务器112所执行的步骤。
可选地,终端102可以但不限于为可以计算数据的终端,如移动终端(例如手机、平板电脑)、笔记本电脑、PC(PersonalComputer,个人计算机)机等终端上,上述网络可以包括但不限于无线网络或有线网络。其中,该无线网络包括:蓝牙、WIFI(WirelessFidelity,无线保真)及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述服务器112可以包括但不限于任何可以进行计算的硬件设备。
此外,在本实施例中,上述基于元数据的数据检核方法还可以但不限于应用于处理能力较强大的独立的处理设备中,而无需进行数据交互。例如,该处理设备可以但不限于为处理能力较强大的终端设备,即,上述基于元数据的数据检核方法中的各个操作可以集成在一个独立的处理设备中。上述仅是一种示例,本实施例中对此不作任何限定。
可选地,在本实施例中,上述基于元数据的数据检核方法可以由服务器112来执行,也可以由终端102来执行,还可以是由服务器112和终端102共同执行。其中,终端102执行本申请实施例的基于元数据的数据检核方法也可以是由安装在其上的客户端来执行。
以运行在服务器侧为例,图2是根据本申请实施例的一种可选的基于元数据的数据检核方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
步骤S201,获取多个数据库内的目标数据。
可选地,在本申请实施例中,可以通过连接数据源的方式获取到多个数据库内的目标数据,其中,数据库类型可以是MySQL,oracle、达梦等,目标数据可以是当前需要进行检核的一些数据,比如新创建的数据。
步骤S202,采集目标数据内的元数据,其中,元数据用于表征目标数据的数据相关属性。
可选地,在本申请实施例中,根据一些配置信息,比如根据数据源的数据库类型、数据结构配置数据质量的检核规则,基于这些配置信息开发相应的数据库元数据采集脚本,利用数据库元数据采集脚本采集目标数据库内的元数据。需要说明的是,元数据主要是描述数据属性的信息,可以是描述数据的数据,对数据及信息资源的描述性信息等。
步骤S203,在采集到的元数据的数量大于预设阈值的情况下,获取与元数据之间匹配度大于匹配阈值的数据项。
可选地,根据元数据采集结果情况设置阈值,当元数据的数量,即填充率到达一定比率(即预设阈值),如90%,则进入下一步检核流程。
元数据填充比率支持用户自定义,可以按元数据采集的不同阶段的定义不同的比率。如第一次采集可设定较低的比率50%,后续按整改情况调整比率,逐步完善数据的元数据内容。达到90%以上为理想情况,元数据填充率(仅技术元数据)达到90%以上,则获取与元数据之间匹配度大于匹配阈值(比如95%)的数据项。需要说明的是,该数据项可以是一些行业、企业制定的现有数据项标准。
另外,在将元数据与数据项进行匹配中,若得到匹配度大于匹配阈值的数据项后,由于同一元数据可能出现对应不同的数据项的情况,这时还可以结合人工对得到的数据项进行二次确认,以保障后续数据项检核的源头是正确的。
其中,匹配阈值也是灵活设置的参数。数据项包含有自身的一些属性信息,比如数据类型、数据格式、数据库长度、数据精度、是否为空、值域规范等,每个数据项设置有对应的检核规则,比如一些常规规则:判断数据类型是否与标准一致、判断数据格式是否与标准一致、判断数据长度是否与标准一致、判断数据精度是否与标准一致、按照值域规范对数据源表的字段范围进行值域核验等;也可以根据实际业务场景进行自定义设置规则,比如业务类型是教育类,由于不同学校学号格式存在区别,这时可根据学生学号格式设定检核脚本,制定检核规则。
步骤S204,基于数据项确定检核规则,并利用检核规则对目标数据进行数据检核。
可选地,每个数据项对应有数据质量的检核规则,该检核规则主要是库级别,表级别,字段级别,分别从数据的准确性、完整性、唯一性等维度对数据质量进行检核,也可以主要检核字段的准确性等。如表1所示。
在确定了数据项后,直接利用对应的检核规则对目标数据进行数据检核即可,实现初步数据质量校验自动化。
在本申请实施例中,通过获取多个数据库内的目标数据;采集目标数据内的元数据,其中,元数据用于表征目标数据的数据相关属性;在采集到的元数据的数量大于预设阈值的情况下,获取与元数据之间匹配度大于匹配阈值的数据项;基于数据项确定检核规则,并利用检核规则对目标数据进行数据检核。由于本申请实施例数据接入时使用独立的任务对数据质量校验进行判断,在不影响数据采集效率的情况下,并发完成元数据采集,利用元数据作为获取检核规则的依据,这样在数据质量校验过程中可提高数据治理工作流程以及纳管新增业务数据效率,同时初步数据质量校验自动化,无需参与数据检核的员工有过高的专业要求,易于推广,可减少前期人工数据调研工作、数据治理管理工作,提高数据管理工作效率,进而解决了相关技术中存在的对参与数据检核的员工专业要求过高,不易大范围推广且数据质量校验效率过低的问题。
作为一种可选实施例,获取多个数据库内的目标数据,包括:
获取数据源,确定数据源来自的数据库;
配置数据采集任务信息;
根据数据采集任务信息从数据库内得到目标数据。
可选地,待检核的目标数据其对应的都有数据源,而每个数据源对应的也有数据库,这时确定目标数据的数据源,再确定其来自哪个数据库,比如来自唯一的数据库MySQL,或者来自两个数据库MySQL,以及数据库oracle,之后配置数据采集任务信息,即可从这些数据库内获取到目标数据。
本申请实施例通过配置数据采集任务信息从数据库内获取到目标数据,基于存在基础数据质量能力场景下,可快速识别新增业务所产生新数据进行初步的元数据采集,数据标准识别,初步数据质量核验工作。
作为一种可选实施例,采集目标数据内的元数据,包括:
确定数据库的数据存储结构;
获取数据库对应的元数据采集脚本;
执行元数据采集脚本,并根据数据存储结构采集元数据。
可选地,基于不同的数据库类型建立构建数据库技术元数据信息采集模型。具体建模构成如下:
(1)分析不同关系型数据库的数据存储结构;
(2)根据不同数据库类型开发技术元数据采集脚本;
(3)执行脚本,将元数据信息存储入库,并分析数据之间的关系,如一元关系、二元关系、多元关系,生成形成ER图。
本申请实施例针对不同数据库类型开发的元数据采集校验适配器,可封装成结构,快速提供给不同的应用调用,满足不同业务场景数据质量校验的需求,大大提升元数据采集及数据质量校验效率。
作为一种可选实施例,根据数据存储结构采集元数据,包括:
根据数据存储结构,确定元数据的存储位置和存储路径;
基于存储路径,利用元数据采集脚本采集存储位置处的元数据。
可选地,在本申请实施例中,在获取到数据库的数据存储结构之后,可根据数据存储结构得到元数据的存储位置和存储路径,需要说明的是,根据存储路径就可以得到存储位置,二者实质是相互关联的。
所以基于存储路径即可得到在存储位置处的元数据,这时利用元数据采集脚本采集该元数据即可。
作为一种可选实施例,在所述基于所述数据项确定检核规则之前,所述方法还包括:
获取待添加的所述检核规则;
将所述检核规则与所述数据项进行关联。
可选地,在根据数据项确定校核规则之前,是需要将数据项与待添加的、与数据项相关的检核规则与数据项进行绑定,绑定之后,只要确定数据项即可直接将待检核数据带入检核规则进行数据检核。如表2所示,表2内为一些数据项属性信息,依据这些数据项信息即可匹配到对应的检核规则。
表2
如匹配的标准数据项存在值域规范,则按照值域规范对数据源表的字段范围进行值域进行核验;
比如A表共20个字段,自动适配标准项19项,按列表展示;质量核验结果,如:A字段,值域合规新校验:总记录数100,异常记录数10,正常记录数90,异常率:10%。
本申请实施例通过自动匹配数据项,即可获取与之相关联的检核规则,可达到数据接入前期,实现快速质量报告的输出。在节省人力成本的同时,也可以为后续的进一步完善数据的标准规范,数据质量校验提供一个参考依据。
作为一种可选实施例,基于所述数据项确定检核规则包括:
根据元数据确定多个目标数据之间的关联关系;
根据关联关系和数据项确定检核规则。
可选地,在本申请实施例中,元数据包括表名,字段名,归属库,数据类型,数据精度,数据描述,这时结合元数据信息记录目标数据之间的关联关系(目标数据之间的关联关系有四种:一对一,一对多,多对一,多对多)。
在确定目标数据之间的关联关系后,可根据该关联关系和与元数据匹配度最高的数据项通过程序自动识别确定出检核规则,对接入数据进行数据质量校验。
本申请实施例可从多个目标数据之间的关联关系的维度上与数据项相结合,进而得到检核规则,这样便于了解新接入数据的数据质量情况,为后续的数据标准选择提供决策依据。
作为一种可选实施例,根据元数据确定多个目标数据之间的关联关系,包括:
根据元数据在目标数据所处的目标表内的索引标识,确定多个目标表之间的依赖关系,其中,索引标识包括主键标识和外键标识;
根据依赖关系确定目标数据之间的关联关系。
可选地,每个目标数据其存在于一个或多个目标表中,那么目标数据的元数据也将存在于一个或多个目标表中。由于元数据通常表征的是一个属性,所以利用数据主键标识、外键标识的方式可判断多个目标表之间的依赖关系,比如组合关系、从属关系、数据血缘关系、影响关系、全链关系等。在确定各个目标表之间的依赖关系之后,即可确定目标数据之间的一元关系、二元关系、多元关系等关联关系。
在本申请实施例中,通过元数据在目标表内的索引标识确定目标数据之间的关联关系,进而基于该关联关系围绕准确性,完整性,一致性,有效性,唯一性,进行检核规则匹配。
作为一种可选实施例,如图3所示,图3是根据本申请实施例的一种可选的基于元数据的数据检核方法的整体流程示意图,该流程具体包括如下步骤:
S1:数据采集/同步配置,选择数据源、元数据适配器业务类型等配置信息;
S2:自动检测所采集元数据信息;
S3:判断元数据填充率是否大于等于90%;若否,则执行S3-1:取消自动数据质量校验任务;若是,则执行S4:根据数据配置归属业务类型,自动选取标准模型数据集/数据项进行识别、匹配;
S5:根据所匹配的数据项的数据标准要求,适配相关的质量校验规则;
S6:最终根据数据类型,自动识别的数据标准类型以及自动质量校验规则,检验结果进行质量报告输出。
其中,上述步骤中的“业务类型”即是一些能够表征数据项属性信息的数据,“质量校验规则”即是上述各实施例内的“检核规则”。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM(Read-OnlyMemory,只读存储器)/RAM(RandomAccess Memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述基于元数据的数据检核方法的基于元数据的数据检核装置。图4是根据本申请实施例的一种可选的基于元数据的数据检核装置的结构框图,如图4所示,该装置可以包括:
第一获取模块401,用于获取多个数据库内的目标数据;
采集模块402,用于采集目标数据内的元数据,其中,元数据用于表征目标数据的数据相关属性;
第二获取模块403,用于在采集到的元数据的数量大于预设阈值的情况下,获取与元数据之间匹配度大于匹配阈值的数据项;
检核模块404,用于基于数据项确定检核规则,并利用检核规则对目标数据进行数据检核。
需要说明的是,该实施例中的第一获取模块401可以用于执行上述步骤S201,该实施例中的采集模块402可以用于执行上述步骤S202,该实施例中的第二获取模块403可以用于执行上述步骤S203,该实施例中的检核模块404可以用于执行上述步骤S204。
通过上述模块,在数据接入时使用独立的任务对数据质量校验进行判断,在不影响数据采集效率的情况下,并发完成元数据采集,利用元数据作为获取检核规则的依据,这样在数据质量校验过程中可提高数据治理工作流程以及纳管新增业务数据效率,同时初步数据质量校验自动化,无需参与数据检核的员工有过高的专业要求,易于推广,可减少前期人工数据调研工作、数据治理管理工作,提高数据管理工作效率,进而解决了相关技术中存在的对参与数据检核的员工专业要求过高,不易大范围推广且数据质量校验效率过低的问题。
作为一种可选的实施例,第一获取模块包括:
第一获取单元,用于获取数据源,确定数据源来自的数据库;
配置单元,用于配置数据采集任务信息;
第一得到单元,用于根据数据采集任务信息从数据库内得到目标数据。
可选地,采集模块包括:
第一确定单元,用于确定数据库的数据存储结构;
第二获取单元,用于获取数据库对应的元数据采集脚本;
采集单元,用于执行元数据采集脚本,并根据数据存储结构采集元数据。
可选地,采集单元包括:
第一确定子模块,用于根据数据存储结构,确定元数据的存储位置和存储路径;
采集子模块,用于基于存储路径,利用元数据采集脚本采集存储位置处的元数据。
可选地,该装置还包括:
第三获取模块,用于在基于数据项确定检核规则之前,获取待添加的检核规则;
关联模块,用于将检核规则与数据项进行关联。
可选地,检核模块包括:
第二确定单元,用于根据元数据确定多个目标数据之间的关联关系;
第三确定单元,用于根据关联关系和数据项确定检核规则。
可选地,第二确定单元包括:
第一确定子模块,用于根据元数据在目标数据所处的目标表内的索引标识,确定多个目标表之间的依赖关系,其中,索引标识包括主键标识和外键标识;
第二确定单元子模块,用于根据依赖关系确定目标数据之间的关联关系。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的又一个方面,还提供了一种用于实施上述基于元数据的数据检核方法的电子设备,该电子设备可以是服务器、终端、或者其组合。
图5是根据本申请实施例的一种可选的电子设备的结构框图,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501、通信接口502和存储器503通过通信总线504完成相互间的通信,其中,
存储器503,用于存储计算机程序;
处理器501,用于执行存储器503上所存放的计算机程序时,实现如下步骤:
获取多个数据库内的目标数据;
采集目标数据内的元数据,其中,元数据用于表征目标数据的数据相关属性;
在采集到的元数据的数量大于预设阈值的情况下,获取与元数据之间匹配度大于匹配阈值的数据项;
基于数据项确定检核规则,并利用检核规则对目标数据进行数据检核。
可选地,在本实施例中,上述的通信总线可以是PCI (PeripheralComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,如图5所示,上述存储器503中可以但不限于包括上述基于元数据的数据检核装置中的第一获取模块401、采集模块402、第二获取模块403、检核模块404。此外,还可以包括但不限于上述基于元数据的数据检核装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU (Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP (DigitalSignalProcessing,数字信号处理器)、ASIC (Application SpecificIntegratedCircuit,专用集成电路)、FPGA(Field-ProgrammableGate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
此外,上述电子设备还包括:显示器,用于显示基于元数据的数据检核结果。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图5所示的结构仅为示意,实施上述基于元数据的数据检核方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图5其并不对上述电子设备的结构造成限定。例如,终端设备还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行基于元数据的数据检核方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
获取多个数据库内的目标数据;
采集目标数据内的元数据,其中,元数据用于表征目标数据的数据相关属性;
在采集到的元数据的数量大于预设阈值的情况下,获取与元数据之间匹配度大于匹配阈值的数据项;
基于数据项确定检核规则,并利用检核规则对目标数据进行数据检核。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
根据本申请实施例的又一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一个实施例中的基于元数据的数据检核方法步骤。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例基于元数据的数据检核方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种基于元数据的数据检核方法,其特征在于,所述方法包括:
获取多个数据库内的目标数据;
采集所述目标数据内的元数据,其中,所述元数据用于表征所述目标数据的数据相关属性;
在采集到的所述元数据的数量大于预设阈值的情况下,获取与所述元数据之间匹配度大于匹配阈值的数据项;
基于所述数据项确定检核规则,并利用所述检核规则对所述目标数据进行数据检核。
2.根据权利要求1所述的方法,其特征在于,所述获取多个数据库内的目标数据,包括:
获取数据源,确定所述数据源来自的所述数据库;
配置数据采集任务信息;
根据所述数据采集任务信息从所述数据库内得到所述目标数据。
3.根据权利要求1所述的方法,其特征在于,所述采集所述目标数据内的元数据,包括:
确定所述数据库的数据存储结构;
获取所述数据库对应的元数据采集脚本;
执行所述元数据采集脚本,并根据所述数据存储结构采集所述元数据。
4.根据权利要求3所述的方法,其特征在于,所述根据所述数据存储结构采集所述元数据,包括:
根据所述数据存储结构,确定所述元数据的存储位置和存储路径;
基于所述存储路径,利用所述元数据采集脚本采集所述存储位置处的所述元数据。
5.根据权利要求1所述的方法,其特征在于,在所述基于所述数据项确定检核规则之前,所述方法还包括:
获取待添加的所述检核规则;
将所述检核规则与所述数据项进行关联。
6.根据权利要求5所述的方法,其特征在于,所述基于所述数据项确定检核规则包括:
根据所述元数据确定多个所述目标数据之间的关联关系;
根据所述关联关系和所述数据项确定所述检核规则。
7.根据权利要求6所述的方法,其特征在于,所述根据所述元数据确定多个所述目标数据之间的关联关系,包括:
根据所述元数据在所述目标数据所处的目标表内的索引标识,确定多个所述目标表之间的依赖关系,其中,所述索引标识包括主键标识和外键标识;
根据所述依赖关系确定所述目标数据之间的所述关联关系。
8.一种基于元数据的数据检核装置,其特征在于,所述装置包括:
第一获取模块,用于获取多个数据库内的目标数据;
采集模块,用于采集所述目标数据内的元数据,其中,所述元数据用于表征所述目标数据的数据相关属性;
第二获取模块,用于在采集到的所述元数据的数量大于预设阈值的情况下,获取与所述元数据之间匹配度大于匹配阈值的数据项;
检核模块,用于基于所述数据项确定检核规则,并利用所述检核规则对所述目标数据进行数据检核。
9.一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信,其特征在于,
所述存储器,用于存储计算机程序;
所述处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行权利要求1至7中任一项所述的方法步骤。
10.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现权利要求1至7中任一项中所述的方法步骤。
CN202310126999.3A 2023-02-17 2023-02-17 基于元数据的数据检核方法和装置、电子设备和存储介质 Pending CN116010349A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310126999.3A CN116010349A (zh) 2023-02-17 2023-02-17 基于元数据的数据检核方法和装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310126999.3A CN116010349A (zh) 2023-02-17 2023-02-17 基于元数据的数据检核方法和装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN116010349A true CN116010349A (zh) 2023-04-25

Family

ID=86033677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310126999.3A Pending CN116010349A (zh) 2023-02-17 2023-02-17 基于元数据的数据检核方法和装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN116010349A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120330911A1 (en) * 2011-06-27 2012-12-27 International Business Machines Corporation Automatic generation of instantiation rules to determine quality of data migration
US20190171633A1 (en) * 2017-11-13 2019-06-06 Lendingclub Corporation Multi-system operation audit log
CN110321344A (zh) * 2019-05-20 2019-10-11 平安普惠企业管理有限公司 关联数据的信息查询方法、装置、计算机设备及存储介质
CN112667619A (zh) * 2020-12-30 2021-04-16 平安证券股份有限公司 辅助检查数据的方法、装置、终端设备及存储介质
CN113312396A (zh) * 2021-05-12 2021-08-27 上海哲锦信息科技有限公司 一种基于大数据的元数据处理方法及设备
CN114443634A (zh) * 2022-01-20 2022-05-06 北京金山云网络技术有限公司 数据质量检核方法、装置、设备及存储介质
CN115357572A (zh) * 2022-08-30 2022-11-18 云南电网有限责任公司信息中心 一种数据质量检查规则构建方法、存储介质及系统
CN115391322A (zh) * 2022-08-30 2022-11-25 中国建设银行股份有限公司 数据检核方法、装置、设备、存储介质及程序产品
CN115496470A (zh) * 2022-09-26 2022-12-20 阳光人寿保险股份有限公司 全链路配置化数据处理方法、装置和电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120330911A1 (en) * 2011-06-27 2012-12-27 International Business Machines Corporation Automatic generation of instantiation rules to determine quality of data migration
US20190171633A1 (en) * 2017-11-13 2019-06-06 Lendingclub Corporation Multi-system operation audit log
CN110321344A (zh) * 2019-05-20 2019-10-11 平安普惠企业管理有限公司 关联数据的信息查询方法、装置、计算机设备及存储介质
CN112667619A (zh) * 2020-12-30 2021-04-16 平安证券股份有限公司 辅助检查数据的方法、装置、终端设备及存储介质
CN113312396A (zh) * 2021-05-12 2021-08-27 上海哲锦信息科技有限公司 一种基于大数据的元数据处理方法及设备
CN114443634A (zh) * 2022-01-20 2022-05-06 北京金山云网络技术有限公司 数据质量检核方法、装置、设备及存储介质
CN115357572A (zh) * 2022-08-30 2022-11-18 云南电网有限责任公司信息中心 一种数据质量检查规则构建方法、存储介质及系统
CN115391322A (zh) * 2022-08-30 2022-11-25 中国建设银行股份有限公司 数据检核方法、装置、设备、存储介质及程序产品
CN115496470A (zh) * 2022-09-26 2022-12-20 阳光人寿保险股份有限公司 全链路配置化数据处理方法、装置和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋佳;高少华;杨杰;诸云强;: "科技资源元数据的关联与推荐方法", 中国科技资源导刊, no. 05, 28 September 2017 (2017-09-28) *

Similar Documents

Publication Publication Date Title
CN108628748B (zh) 自动化测试管理方法和自动化测试管理系统
CN110737594B (zh) 自动生成测试用例的数据库标准符合性测试方法及装置
CN110908890A (zh) 一种接口的自动测试方法和装置
CN110737689B (zh) 数据标准符合性检测方法、装置、系统及存储介质
CN111522728A (zh) 自动化测试用例的生成方法、电子设备及可读存储介质
CN111400288A (zh) 数据质量检查方法及系统
CN112597062B (zh) 军用软件结构化质量数据抽取方法、装置及软件测试装置
CN105868956A (zh) 一种数据处理方法及装置
CN114116496A (zh) 自动化测试方法、装置、设备及介质
CN112328631A (zh) 一种生产故障分析方法、装置、电子设备及存储介质
CN114996127A (zh) 固态硬盘固件模块智能化测试方法及系统
CN111858236B (zh) 知识图谱监控方法、装置、计算机设备及存储介质
CN111061733B (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
CN112561690A (zh) 信用卡分期业务接口的测试方法、系统、设备及存储介质
CN112527573B (zh) 一种接口测试方法、装置及存储介质
CN115774707B (zh) 基于对象属性数据处理方法和装置、电子设备和存储介质
CN112948233A (zh) 一种接口测试方法、装置、终端设备及介质
CN117236304A (zh) 一种基于模板配置的Excel通用导入的实现方法
CN116010349A (zh) 基于元数据的数据检核方法和装置、电子设备和存储介质
CN111651259A (zh) 基于依赖关系的系统管理方法、装置及存储介质
CN113157671A (zh) 一种数据监控方法及装置
CN111400245A (zh) 美术资源迁移方法及装置
CN116795723B (zh) 链式单元测试处理方法、装置及计算机设备
CN116795725B (zh) 一种临床电子数据采集系统的自动验库方法和系统
CN114327377B (zh) 需求跟踪矩阵生成方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination