CN116108021B - 基于标准数据集进行多维度数据质控的方法、装置及设备 - Google Patents
基于标准数据集进行多维度数据质控的方法、装置及设备 Download PDFInfo
- Publication number
- CN116108021B CN116108021B CN202310380557.1A CN202310380557A CN116108021B CN 116108021 B CN116108021 B CN 116108021B CN 202310380557 A CN202310380557 A CN 202310380557A CN 116108021 B CN116108021 B CN 116108021B
- Authority
- CN
- China
- Prior art keywords
- quality control
- field
- information
- data
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Stored Programmes (AREA)
- Selective Calling Equipment (AREA)
Abstract
本发明公开了一种基于标准数据集进行多维度数据质控的方法、装置及设备,该方法包括:建立数据质控相关表,将标准数据集信息维护到数据质控相关表中;根据已维护的标准数据集信息确定配置的质控规则;定义数据质量维度,根据数据质量维度确定对应各个数据质量维度的质控模板;根据质控模板调取质控规则,根据质控规则生成质控规则相关信息;根据质控规则相关信息对标准数据集进行数据质控,得到数据质控结果。
Description
技术领域
本发明涉及数据质控领域,尤其涉及一种基于标准数据集进行多维度数据质控的方法、装置及设备。
背景技术
在数据治理项目中,对使用的标准数据集构建完善的数据质控体系十分必要,通过数据质控能够及时发现可能存在的数据质量问题并进行反馈与改进,进而全面提高平台的数据质量,为数据的有效利用和充分挖掘提供支撑。建立数据质控体系的核心是质控规则,而在建立质控体系中繁琐且耗时的工作在于依据质控规则生成相应的质控语句。目前常见的生成质控语句的方法主要分为两种,一种是纯手工书写,另一种则是定义规则模板后再根据规则模板逐条添加质控语句。
第一种方式的做法是人为手工对照梳理好的质控规则进行质控语句的书写,有多少条规则就人为书写出多少条质控语句,书写完成后导入质控规则语句库。
第二种是在第一种做法的基础上先定义好各个数据质量维度的质控模板,在模板中将表名及字段名等相关信息定义成变量,然后再根据要质控的规则进行变量填充,最后再参照质控规则逐条创建质控语句并最终录入质控规则语句库。
以上两种方法的劣势:
1.效率低下,耗时长
人为逐条手工书写的过程要耗费大量时长,如一张表有100个字段,需要验证完整性的字段有70个,则仅完整性一类质控规则就需要人为手工书写70个质控SQL。
2.不够灵活,不易维护
在书写完质控SQL之后,如果需要调整质控需求或者修改书写时存在某些错误,需要逐条进行修改,大量的SQL语句难以维护。
3.无法形成规范
在书写质控SQL时,可能在项目中无法由一个人从一而终的完成,往往会遇到项目成员变更或者多人同时进行的情况,这样就有可能因为每个人专业水平不一致导致书写的质控SQL不一致,无法形成规范的质控语句。
4.无法做全局统计
这种逐条添加的方式,无法全局的查看整个标准数据集中被质控的表数量占比,每张表的被质控字段数量占比。
5.添加规则较复杂
每次添加规则需要先打开标准数据集文档,根据文档挑选出需要设置规则的表及字段,然后赋值到事先定义好的规则模板中进行规则生成,然后再导入到规则库,添加步骤相对繁琐且容易出错。
发明内容
本发明提供了一种基于标准数据集进行多维度数据质控的方法、装置及设备,解决了上述缺陷。
一种基于标准数据集进行多维度数据质控的方法,包括:
建立数据质控相关表,将标准数据集信息维护到所述数据质控相关表中;
根据已维护的标准数据集信息确定配置的质控规则;
定义数据质量维度,根据所述数据质量维度确定对应各个所述数据质量维度的质控模板;
根据所述质控模板调取所述质控规则,根据所述质控规则生成质控规则相关信息;
根据所述质控规则相关信息对所述标准数据集进行数据质控,得到数据质控结果。
在本发明的一种实施例中,所述将标准数据集信息维护到所述数据质控相关表中,具体包括:所述数据质控相关表包括表级配置信息表、字段级配置信息表;将标准数据集的表级信息维护到所述表级配置信息表,将所述标准数据集的字段级信息维护到所述字段级配置信息表。
在本发明的一种实施例中,所述将标准数据集的表级信息维护到表级配置信息表,具体包括:将所述标准数据集中包含的所有数据表的表信息进行汇总;将每张数据表的第一属性信息维护到表级配置信息表中,所述第一属性信息包括每张数据表的序号、所属领域、表名和表的中文名称。
在本发明的一种实施例中,所述将所述标准数据集的字段级信息维护到所述字段级配置信息表,具体包括:将所述标准数据集中包含的所有数据表的字段信息进行汇总;将每个字段的第二属性信息维护到字段级配置信息表中,所述第二属性信息包括每个字段的序号、所属表名、字段名、字段中文描述、字段值域、是否必填要求和说明。
在本发明的一种实施例中,所述根据已维护的标准数据集信息确定配置的质控规则,具体包括:根据所述表级配置信息表中已经维护好的表信息,对每张数据表的表信息项进行配置,确定表级质控规则;所述表信息项包括关联主表名、关联主表字段、业务时间字段、参照表标识和质控限制条件。
在本发明的一种实施例中,所述根据已维护的标准数据集信息确定配置的质控规则,具体包括:根据字段级配置信息表中已经维护好的字段信息,结合质控需求对需要质控的字段信息项进行配置,确定字段级质控规则;所述字段信息项包括标准值域、合理性值域、完整性标识符和主键标识符。
在本发明的一种实施例中,所述定义数据质量维度,根据所述数据质量维度确定对应各个所述数据质量维度的质控模板,具体包括:定义数据质量维度,所述数据质量维度包括准确性、完整性、时效性、一致性、关联性、合理性和唯一性;确定与所述标准数据集各属性对应的变量;根据不同的所述数据质量维度和所述变量分别确定不同的质控模板;其中,每个所述质控模板为不同的函数。
在本发明的一种实施例中,所述根据所述质控规则生成质控规则相关信息,具体包括:所述数据质控相关表还包括质控规则表;根据所述质控模板确定质控程序;确定所述质控程序的入参和出参,根据不同的所述数据质量维度调用表级配置信息表和/或字段级配置信息表中配置的质控规则生成质控规则相关信息,所述质控规则相关信息包括规则ID、规则类型、规则名称和质控语句;将生成的质控规则相关信息统一导入到所述质控规则表中。
在本发明的一种实施例中,所述根据所述质控规则相关信息对所述标准数据集进行数据质控,得到数据质控结果,具体包括:通过质控程序和入参调用所述质控规则表中的质控规则相关信息,并连接待质控数据库进行跑批;在跑批完成后记录规则ID、规则名称、批次号、跑批时间和质控结果。
在本发明的一种实施例中,所述数据质控相关表还包括质控结果表;将所述跑批完成后得到的质控结果及其相关信息导入到所述质控结果表中;通过对所述质控结果表的归类查询获取对应标准数据集的质控结果,根据所述质控结果执行整改流程。
一种基于标准数据集进行多维度数据质控的装置,包括:
质控规则配置模块,用于建立数据质控相关表,将标准数据集信息维护到所述数据质控相关表中;根据已维护的标准数据集信息确定配置的质控规则;
质控规则相关信息生成模块,用于定义数据质量维度,根据所述数据质量维度确定对应各个所述数据质量维度的质控模板;根据所述质控模板调取所述质控规则,根据所述质控规则生成质控规则相关信息;
质控执行模块,用于根据所述质控规则相关信息对所述标准数据集进行数据质控,得到数据质控结果。
在本发明的一种实施例中,所述质控规则配置模块还包括:表级信息维护子模块,用于将所述标准数据集中包含的所有数据表的表信息进行汇总;将每张数据表的第一属性信息维护到表级配置信息表中,所述第一属性信息包括每张数据表的序号、所属领域、表名和表的中文名称。
在本发明的一种实施例中,所述质控规则配置模块还包括:字段级信息维护子模块,用于将所述标准数据集中包含的所有数据表的字段信息进行汇总;将每个字段的第二属性信息维护到字段级配置信息表中,所述第二属性信息包括每个字段的序号、所属表名、字段名、字段中文描述、字段值域、是否必填要求和说明。
在本发明的一种实施例中,所述质控规则配置模块还包括:表级质控规则配置子模块,用于根据所述表级配置信息表中已经维护好的表信息,对每张数据表的表信息项进行配置,确定表级质控规则,所述表信息项包括关联主表名、关联主表字段、业务时间字段、参照表标识和质控限制条件;字段级规则配置子模块,用于根据字段级配置信息表中已经维护好的字段信息,结合质控需求对需要质控的字段信息项进行配置,确定字段级质控规则,所述字段信息项包括标准值域、合理性值域、完整性标识符和主键标识符。
一种基于标准数据集进行多维度数据质控的设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通过总线通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被执行,以实现:
建立数据质控相关表,将标准数据集信息维护到所述数据质控相关表中;
根据已维护的标准数据集信息确定配置的质控规则;
定义数据质量维度,根据所述数据质量维度确定对应各个所述数据质量维度的质控模板;
根据所述质控模板调取所述质控规则,根据所述质控规则生成质控规则相关信息;
根据所述质控规则相关信息对所述标准数据集进行数据质控,得到数据质控结果。
一种非易失性存储介质,存储有计算机可执行指令,所述计算机可执行指令由处理器执行,以实现下述步骤:
建立数据质控相关表,将标准数据集信息维护到所述数据质控相关表中;
根据已维护的标准数据集信息确定配置的质控规则;
定义数据质量维度,根据所述数据质量维度确定对应各个所述数据质量维度的质控模板;
根据所述质控模板调取所述质控规则,根据所述质控规则生成质控规则相关信息;
根据所述质控规则相关信息对所述标准数据集进行数据质控,得到数据质控结果。
本发明提供了一种基于标准数据集进行多维度数据质控的方法、装置及设备,至少包括以下有益效果:本发明通过在做质控之前先维护好完整的数据标准数据集模型,再基于此模型配置质控规则,最后再根据配置自动生成质控语句。具体优势列举如下:
1.有章可循,减轻工作量,在标准数据集结构的基础上进行配置,无需再搬出标准进行比对,提高配置效率。
2.配置简单且灵活,质控模板与标准数据集低耦合,可以按照数据质量维度设置好质控模板后再与标准数据集进行绑定,绑定方式比较灵活简单,按照标准数据集需要质控的表及其字段进行标记即可。
3.规范统一易于维护,模板维护出处统一,不会造成由于多人操作导致质控模板混乱的问题,如果质控规则需要修改也只需修改一处即可。
4.方便做质控相关统计,可以统计标准数据集中有多少数据表做了质控,多少数据表还没做质控,质控的字段比例是多少,都可以清晰的统计出来,能够做到对质控比例和进度的全局把控。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例提供的一种基于标准数据集进行多维度数据质控的方法步骤示意图;
图2为本发明实施例提供的一种基于标准数据集进行多维度数据质控的流程示意图。
图3为本发明实施例提供的一种基于标准数据集进行多维度数据质控的装置示意图;
图4为本发明实施例提供的一种基于标准数据集进行多维度数据质控的设备示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例对本发明进行清楚、完整的描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本领域普通技术人员显式地和隐式地理解的是,本发明所描述的实施例在不冲突的情况下,可以与其它实施例相结合。除非另作定义,本发明所涉及的技术术语或者科学术语应当为本发明所属技术领域内具有一般技能的人士所理解的通常意义。本发明所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本发明所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;本发明所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本发明提出了一种基于标准数据集进行多维度数据质控的方法、装置及设备。本发明在配置质控规则之前先将待质控的标准数据集的数据模型维护入库,基于标准数据集的数据结构进行质控规则配置。对数据模型分别设置表、字段级的配置信息表。通过表级配置信息表配置标准数据集中各表的关联性、业务时间字段、限制条件等;通过字段级配置信息表配置各字段的是否必填、值域字典、合理性值域等,然后通过质控程序连接配置信息表获取标准数据集中已配置的质控规则,根据各表及字段配置的质控规则动态生成对应各个数据质量维度的质控语句。下面进行具体说明。
图1为本发明实施例提供的一种基于标准数据集进行多维度数据质控的方法的步骤示意图,可以包括以下步骤:
S110:建立数据质控相关表,将标准数据集信息维护到数据质控相关表中。
具体地,建立数据质控相关表。在数据库中建立数据质控所需的相关表,包括表级配置信息表、字段级配置信息表、数据质控规则表、数据质控结果表、标准值域字典表、合理性字段表等。
在本发明的一种实施例中,将标准数据集信息维护到数据质控相关表中,具体包括:数据质控相关表包括表级配置信息表、字段级配置信息表;将标准数据集的表级信息维护到表级配置信息表,将标准数据集的字段级信息维护到字段级配置信息表。
在本发明的一种实施例中,将标准数据集的表级信息维护到表级配置信息表,具体包括:将标准数据集中包含的所有数据表的表信息进行汇总;将每张数据表的第一属性信息维护到表级配置信息表中,第一属性信息包括每张数据表的序号、所属领域、表名和表的中文名称。
在本发明的一种实施例中,将标准数据集的字段级信息维护到字段级配置信息表,具体包括:将标准数据集中包含的所有数据表的字段信息进行汇总;将每个字段的第二属性信息维护到字段级配置信息表中,第二属性信息包括每个字段的序号、所属表名、字段名、字段中文描述、字段值域、是否必填要求和说明。
具体地,将标准数据集的数据模型信息维护到配置信息表。
①将标准数据集的表级信息维护到表级配置信息表。汇总标准数据集中包含的所有表信息,将每张表的序号、所属数据域、表名、表中文描述等属性梳理好维护到表级配置信息表中。
②将标准数据集的字段级信息维护到字段级配置信息表。汇总标准数据集中包含的所有表的字段信息,将每个字段的序号、所属表名、字段名、字段中文描述、字段值域、是否必填要求、说明等属性梳理好维护到字段级配置信息表中。
S120:根据已维护的标准数据集信息确定配置的质控规则。
在本发明的一种实施例中,根据已维护的标准数据集信息确定配置的质控规则,具体包括:根据表级配置信息表中已经维护好的表信息,对每张数据表的表信息项进行配置,确定表级质控规则;表信息项包括关联主表名、关联主表字段、业务时间字段、参照表标识和质控限制条件。
在本发明的一种实施例中,根据已维护的标准数据集信息确定配置的质控规则,具体包括:根据字段级配置信息表中已经维护好的字段信息,结合质控需求对需要质控的字段信息项进行配置,确定字段级质控规则;字段信息项包括标准值域、合理性值域、完整性标识符和主键标识符。
具体地,基于已维护的标准数据集信息进行质控规则配置。
①配置表级质控规则
基于表级配置信息表已经维护好的表信息,以此为依据维护每张表的关联主表名、关联主表字段、业务时间字段、参照表标识、质控限制条件等信息项。
②配置字段级质控规则
基于字段级配置表已经维护好的字段信息,以此为依据并结合质控需求对需要质控的字段的标准值域、合理性值域、完整性标识符、主键标识符等信息项进行维护。
S130:定义数据质量维度,根据数据质量维度确定对应各个数据质量维度的质控模板。
在本发明的一种实施例中,定义数据质量维度,根据数据质量维度确定对应各个数据质量维度的质控模板,具体包括:定义数据质量维度,数据质量维度包括准确性、完整性、时效性、一致性、关联性、合理性和唯一性;确定与标准数据集各属性对应的变量;根据不同的数据质量维度和变量分别确定不同的质控模板;其中,每个质控模板为不同的函数。
具体地,通过质控程序根据准确性、完整性、时效性、一致性、关联性、合理性和唯一性七个不同的质量维度分别设置质控模板,将每个质控模板设置成不同的函数,并将表名、字段名、值域名称、合理性名称等设置成变量,待调用时传入参数进行质控规则相关信息的生成。
S140:根据质控模板调取质控规则,根据质控规则生成质控规则相关信息。
在本发明的一种实施例中,根据质控规则生成质控规则相关信息,具体包括:数据质控相关表还包括质控规则表;根据质控模板确定质控程序;确定质控程序的入参和出参,根据不同的数据质量维度调用表级配置信息表和/或字段级配置信息表中配置的质控规则生成质控规则相关信息,质控规则相关信息包括规则ID、规则类型、规则名称和质控语句;将生成的质控规则相关信息统一导入到质控规则表中。
具体地,设置好质控模板之后,定义好质控程序的入参和出参,根据不同数据质量维度调用表级配置信息表和/或字段级配置信息表中配置的规则生成规则ID、规则类型、规则名称、质控语句,将生成的质控规则相关信息统一导入到数据质控规则表中;有一些过于复杂无法自动生成的质控规则也可以通过人为自定义的方式将质控规则相关信息手工导入到质控规则表中,并通过生成方式做区分。
S150:根据质控规则相关信息对标准数据集进行数据质控,得到数据质控结果。
在本发明的一种实施例中,根据质控规则相关信息对标准数据集进行数据质控,得到数据质控结果,具体包括:通过质控程序和入参调用质控规则表中的质控规则相关信息,并连接待质控数据库进行跑批;在跑批完成后记录规则ID、规则名称、批次号、跑批时间和质控结果。
在本发明的一种实施例中,数据质控相关表还包括质控结果表;将跑批完成后得到的质控结果及其相关信息导入到质控结果表中;通过对质控结果表的归类查询获取对应标准数据集的质控结果,根据质控结果执行整改流程。
具体地,通过质控程序根据入参调用质控规则表中的质控规则,并连接待质控数据库进行跑批,跑批完成后记录规则ID、规则名称、批次号、跑批时间、质控结果,并将质控结果相关信息导入的质控结果表中,可以通过对质控结果表的归类查询获取质控结果并进行后续的整改工作。
如图2所示为本发明实施例提供的数据质控流程示意图。参照DAMA数据管理体系中的数据质量管理办法并结合项目的实际需求,本发明制定了七个数据质量维度来评估标准数据集的质量情况,七个数据质量维度包括:准确性、完整性、时效性、一致性、关联性、合理性、唯一性。本发明旨在基于对标准数据集的配置生成各个质量维度的质控语句,主要包括三个步骤:
步骤一:基于表级配置信息表维护标准数据集的每张表信息,再对每张表进行关联字段、时间戳字段、参照表、限制拆分条件等信息的配置,这样就能根据配置信息生成标准数据集的关联性、唯一性和及时性的数据质控语句;再基于字段级配置信息表维护标准数据集所有表的字段信息,再对每个字段进行值域字段、是否必填、主键、合理性词典、一致性的配置,这样就能根据配置信息生成数据集的完整性、一致性、合理性、准确性的数据质控语句。
步骤二:根据各个数据质量维度设置质控模板并生成质控语句,由于各个质控维度的质控内容不同需要分别设置七个不同的质控模板,这7个质控模板设置在质控程序中,后期可以根据变动进行统一调整,模板配置完成后就可以根据模板调用表级配置信息表和/或字段级配置信息表生成质控语句;
步骤三:调用数据质控规则进行数据质控,通过将自动生成的质控语句导入到质控规则表,在进行数据质控时调用存储在质控规则表中的规则进行数据质控跑批,待跑批完成后将数据质控结果导入到数据质控结果表,随后可以质控结果表来查看历次质控结果。
本申请在配置质控规则之前将标准数据集数据模型信息完整的导入到配置库中,包含表名、字段名、字段类型、值域、数据元说明等,以此为参照分别根据各个数据质量维度对数据元进行统一配置,最后再根据各个数据质控维度设置质控模板,根据配置信息生成质控语句。通过调用质控语句进行跑批处理生成质控结果。解决了现有数据质控技术中效率低下、耗时长,不够灵活、不易维护,无法形成规范,无法做全局统计,添加规则较复杂的缺陷。
以上为本发明实施例提供的一种基于标准数据集进行多维度数据质控的方法,基于同样的发明思路,本发明实施例还提供了相应的一种基于标准数据集进行多维度数据质控的装置,如图3所示。
质控规则配置模块301,用于建立数据质控相关表,将标准数据集信息维护到数据质控相关表中;根据已维护的标准数据集信息确定配置的质控规则;质控规则相关信息生成模块302,用于定义数据质量维度,根据数据质量维度确定对应各个数据质量维度的质控模板;根据质控模板调取质控规则,根据质控规则生成质控规则相关信息;质控执行模块303,用于根据质控规则相关信息对标准数据集进行数据质控,得到数据质控结果。
在本发明的一种实施例中,质控规则配置模块还包括:表级信息维护子模块3011,用于将标准数据集中包含的所有数据表的表信息进行汇总;将每张数据表的第一属性信息维护到表级配置信息表中,第一属性信息包括每张数据表的序号、所属领域、表名和表的中文名称。
在本发明的一种实施例中,质控规则配置模块还包括:字段级信息维护子模块3012,用于将标准数据集中包含的所有数据表的字段信息进行汇总;将每个字段的第二属性信息维护到字段级配置信息表中,第二属性信息包括每个字段的序号、所属表名、字段名、字段中文描述、字段值域、是否必填要求和说明。
在本发明的一种实施例中,质控规则配置模块还包括:表级质控规则配置子模块3013,用于根据表级配置信息表中已经维护好的表信息,对每张数据表的表信息项进行配置,确定表级质控规则,表信息项包括关联主表名、关联主表字段、业务时间字段、参照表标识和质控限制条件;字段级规则配置子模块3014,用于根据字段级配置信息表中已经维护好的字段信息,结合质控需求对需要质控的字段信息项进行配置,确定字段级质控规则,字段信息项包括标准值域、合理性值域、完整性标识符和主键标识符。
本发明实施例还提供了相应的一种基于标准数据集进行多维度数据质控的设备,如图4所示。
本实施例提供了一种基于标准数据集进行多维度数据质控的设备,包括:
至少一个处理器401;以及,与至少一个处理器401通过总线403通信连接的存储器402;其中,存储器402存储有可被至少一个处理器执行的指令,指令被至少一个处理器401执行,以使至少一个处理器401能够执行:
建立数据质控相关表,将标准数据集信息维护到数据质控相关表中;根据已维护的标准数据集信息确定配置的质控规则;定义数据质量维度,根据数据质量维度确定对应各个数据质量维度的质控模板;根据质控模板调取质控规则,根据质控规则生成质控规则相关信息;根据质控规则相关信息对标准数据集进行数据质控,得到数据质控结果。
基于同样的思路,本发明的一些实施例还提供了上述方法对应的介质。
本发明的一些实施例提供的一种存储介质,存储有计算机可执行指令,计算机可执行指令由处理器执行,以实现下述步骤:
建立数据质控相关表,将标准数据集信息维护到数据质控相关表中;根据已维护的标准数据集信息确定配置的质控规则;定义数据质量维度,根据数据质量维度确定对应各个数据质量维度的质控模板;根据质控模板调取质控规则,根据质控规则生成质控规则相关信息;根据质控规则相关信息对标准数据集进行数据质控,得到数据质控结果。
本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例提供的设备和介质与方法是一一对应的,因此,设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备和介质的有益技术效果。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程方法商品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程方法商品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程方法商品或者方法中还存在另外的相同要素。
以上仅为本发明的实施例而已,并不用于限制本发明。虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (6)
1.一种基于标准数据集进行多维度数据质控的方法,其特征在于,包括:
建立数据质控相关表,将标准数据集信息维护到所述数据质控相关表中,具体包括:所述数据质控相关表包括表级配置信息表、字段级配置信息表;将标准数据集的表级信息维护到所述表级配置信息表,具体包括:将所述标准数据集中包含的所有数据表的表信息进行汇总;将每张数据表的第一属性信息维护到表级配置信息表中,所述第一属性信息包括每张数据表的序号、所属领域、表名和表的中文名称;将所述标准数据集的字段级信息维护到所述字段级配置信息表,具体包括:将所述标准数据集中包含的所有数据表的字段信息进行汇总;将每个字段的第二属性信息维护到字段级配置信息表中,所述第二属性信息包括每个字段的序号、所属表名、字段名、字段中文描述、字段值域、是否必填要求和说明;
根据已维护的标准数据集信息确定配置的质控规则,具体包括:根据所述表级配置信息表中已经维护好的表信息,对每张数据表的表信息项进行配置,确定表级质控规则;所述表信息项包括关联主表名、关联主表字段、业务时间字段、参照表标识和质控限制条件;根据字段级配置信息表中已经维护好的字段信息,结合质控需求对需要质控的字段信息项进行配置,确定字段级质控规则;所述字段信息项包括标准值域、合理性值域、完整性标识符和主键标识符;
定义数据质量维度,根据所述数据质量维度确定对应各个所述数据质量维度的质控模板,具体包括:定义数据质量维度,所述数据质量维度包括准确性、完整性、时效性、一致性、关联性、合理性和唯一性;确定与所述标准数据集各属性对应的变量;根据不同的所述数据质量维度和所述变量分别确定不同的质控模板;其中,每个所述质控模板为不同的函数;
根据所述质控模板调取所述质控规则,根据所述质控规则生成质控规则相关信息,具体包括:所述数据质控相关表还包括质控规则表;根据所述质控模板确定质控程序;确定所述质控程序的入参和出参,根据不同的所述数据质量维度调用表级配置信息表和/或字段级配置信息表中配置的质控规则生成质控规则相关信息,所述质控规则相关信息包括规则ID、规则类型、规则名称和质控语句;将生成的质控规则相关信息统一导入到所述质控规则表中;
根据所述质控规则相关信息对所述标准数据集进行数据质控,得到数据质控结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述质控规则相关信息对所述标准数据集进行数据质控,得到数据质控结果,具体包括:
通过质控程序和入参调用所述质控规则表中的质控规则相关信息,并连接待质控数据库进行跑批;
在跑批完成后记录规则ID、规则名称、批次号、跑批时间和质控结果。
3.根据权利要求2所述的方法,其特征在于,所述数据质控相关表还包括质控结果表;
将所述跑批完成后得到的质控结果及其相关信息导入到所述质控结果表中;
通过对所述质控结果表的归类查询获取对应标准数据集的质控结果,根据所述质控结果执行整改流程。
4.一种基于标准数据集进行多维度数据质控的装置,其特征在于,包括:
质控规则配置模块,用于建立数据质控相关表,将标准数据集信息维护到所述数据质控相关表中,具体包括:所述数据质控相关表包括表级配置信息表、字段级配置信息表;将标准数据集的表级信息维护到所述表级配置信息表,具体包括:将所述标准数据集中包含的所有数据表的表信息进行汇总;将每张数据表的第一属性信息维护到表级配置信息表中,所述第一属性信息包括每张数据表的序号、所属领域、表名和表的中文名称;将所述标准数据集的字段级信息维护到所述字段级配置信息表,具体包括:将所述标准数据集中包含的所有数据表的字段信息进行汇总;将每个字段的第二属性信息维护到字段级配置信息表中,所述第二属性信息包括每个字段的序号、所属表名、字段名、字段中文描述、字段值域、是否必填要求和说明;根据已维护的标准数据集信息确定配置的质控规则,具体包括:根据所述表级配置信息表中已经维护好的表信息,对每张数据表的表信息项进行配置,确定表级质控规则;所述表信息项包括关联主表名、关联主表字段、业务时间字段、参照表标识和质控限制条件;根据字段级配置信息表中已经维护好的字段信息,结合质控需求对需要质控的字段信息项进行配置,确定字段级质控规则;所述字段信息项包括标准值域、合理性值域、完整性标识符和主键标识符;
质控规则相关信息生成模块,用于定义数据质量维度,根据所述数据质量维度确定对应各个所述数据质量维度的质控模板,具体包括:定义数据质量维度,所述数据质量维度包括准确性、完整性、时效性、一致性、关联性、合理性和唯一性;确定与所述标准数据集各属性对应的变量;根据不同的所述数据质量维度和所述变量分别确定不同的质控模板;其中,每个所述质控模板为不同的函数;根据所述质控模板调取所述质控规则,根据所述质控规则生成质控规则相关信息,具体包括:所述数据质控相关表还包括质控规则表;根据所述质控模板确定质控程序;确定所述质控程序的入参和出参,根据不同的所述数据质量维度调用表级配置信息表和/或字段级配置信息表中配置的质控规则生成质控规则相关信息,所述质控规则相关信息包括规则ID、规则类型、规则名称和质控语句;将生成的质控规则相关信息统一导入到所述质控规则表中;
质控执行模块,用于根据所述质控规则相关信息对所述标准数据集进行数据质控,得到数据质控结果。
5.一种基于标准数据集进行多维度数据质控的设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通过总线通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被执行,以实现:
建立数据质控相关表,将标准数据集信息维护到所述数据质控相关表中,具体包括:所述数据质控相关表包括表级配置信息表、字段级配置信息表;将标准数据集的表级信息维护到所述表级配置信息表,具体包括:将所述标准数据集中包含的所有数据表的表信息进行汇总;将每张数据表的第一属性信息维护到表级配置信息表中,所述第一属性信息包括每张数据表的序号、所属领域、表名和表的中文名称;将所述标准数据集的字段级信息维护到所述字段级配置信息表,具体包括:将所述标准数据集中包含的所有数据表的字段信息进行汇总;将每个字段的第二属性信息维护到字段级配置信息表中,所述第二属性信息包括每个字段的序号、所属表名、字段名、字段中文描述、字段值域、是否必填要求和说明;
根据已维护的标准数据集信息确定配置的质控规则,具体包括:根据所述表级配置信息表中已经维护好的表信息,对每张数据表的表信息项进行配置,确定表级质控规则;所述表信息项包括关联主表名、关联主表字段、业务时间字段、参照表标识和质控限制条件;根据字段级配置信息表中已经维护好的字段信息,结合质控需求对需要质控的字段信息项进行配置,确定字段级质控规则;所述字段信息项包括标准值域、合理性值域、完整性标识符和主键标识符;
定义数据质量维度,根据所述数据质量维度确定对应各个所述数据质量维度的质控模板,具体包括:定义数据质量维度,所述数据质量维度包括准确性、完整性、时效性、一致性、关联性、合理性和唯一性;确定与所述标准数据集各属性对应的变量;根据不同的所述数据质量维度和所述变量分别确定不同的质控模板;其中,每个所述质控模板为不同的函数;
根据所述质控模板调取所述质控规则,根据所述质控规则生成质控规则相关信息,具体包括:所述数据质控相关表还包括质控规则表;根据所述质控模板确定质控程序;确定所述质控程序的入参和出参,根据不同的所述数据质量维度调用表级配置信息表和/或字段级配置信息表中配置的质控规则生成质控规则相关信息,所述质控规则相关信息包括规则ID、规则类型、规则名称和质控语句;将生成的质控规则相关信息统一导入到所述质控规则表中;
根据所述质控规则相关信息对所述标准数据集进行数据质控,得到数据质控结果。
6.一种非易失性存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令由处理器执行,以实现下述步骤:
建立数据质控相关表,将标准数据集信息维护到所述数据质控相关表中,具体包括:所述数据质控相关表包括表级配置信息表、字段级配置信息表;将标准数据集的表级信息维护到所述表级配置信息表,具体包括:将所述标准数据集中包含的所有数据表的表信息进行汇总;将每张数据表的第一属性信息维护到表级配置信息表中,所述第一属性信息包括每张数据表的序号、所属领域、表名和表的中文名称;将所述标准数据集的字段级信息维护到所述字段级配置信息表,具体包括:将所述标准数据集中包含的所有数据表的字段信息进行汇总;将每个字段的第二属性信息维护到字段级配置信息表中,所述第二属性信息包括每个字段的序号、所属表名、字段名、字段中文描述、字段值域、是否必填要求和说明;
根据已维护的标准数据集信息确定配置的质控规则,具体包括:根据所述表级配置信息表中已经维护好的表信息,对每张数据表的表信息项进行配置,确定表级质控规则;所述表信息项包括关联主表名、关联主表字段、业务时间字段、参照表标识和质控限制条件;根据字段级配置信息表中已经维护好的字段信息,结合质控需求对需要质控的字段信息项进行配置,确定字段级质控规则;所述字段信息项包括标准值域、合理性值域、完整性标识符和主键标识符;
定义数据质量维度,根据所述数据质量维度确定对应各个所述数据质量维度的质控模板,具体包括:定义数据质量维度,所述数据质量维度包括准确性、完整性、时效性、一致性、关联性、合理性和唯一性;确定与所述标准数据集各属性对应的变量;根据不同的所述数据质量维度和所述变量分别确定不同的质控模板;其中,每个所述质控模板为不同的函数;
根据所述质控模板调取所述质控规则,根据所述质控规则生成质控规则相关信息,具体包括:所述数据质控相关表还包括质控规则表;根据所述质控模板确定质控程序;确定所述质控程序的入参和出参,根据不同的所述数据质量维度调用表级配置信息表和/或字段级配置信息表中配置的质控规则生成质控规则相关信息,所述质控规则相关信息包括规则ID、规则类型、规则名称和质控语句;将生成的质控规则相关信息统一导入到所述质控规则表中;
根据所述质控规则相关信息对所述标准数据集进行数据质控,得到数据质控结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310380557.1A CN116108021B (zh) | 2023-04-11 | 2023-04-11 | 基于标准数据集进行多维度数据质控的方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310380557.1A CN116108021B (zh) | 2023-04-11 | 2023-04-11 | 基于标准数据集进行多维度数据质控的方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116108021A CN116108021A (zh) | 2023-05-12 |
CN116108021B true CN116108021B (zh) | 2023-09-08 |
Family
ID=86258230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310380557.1A Active CN116108021B (zh) | 2023-04-11 | 2023-04-11 | 基于标准数据集进行多维度数据质控的方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116108021B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106528828A (zh) * | 2016-11-22 | 2017-03-22 | 山东浪潮云服务信息科技有限公司 | 一种基于多维度校验规则的数据质量检测方法 |
CN109272215A (zh) * | 2018-08-31 | 2019-01-25 | 平安科技(深圳)有限公司 | 项目开发质量监控方法、装置、计算机设备及存储介质 |
CN111339075A (zh) * | 2020-02-28 | 2020-06-26 | 三盟科技股份有限公司 | 面向教育领域的数据追溯方法、系统、设备及存储介质 |
CN111913942A (zh) * | 2020-07-28 | 2020-11-10 | 青岛海信网络科技股份有限公司 | 一种数据质量检测方法及装置 |
CN112667622A (zh) * | 2021-01-07 | 2021-04-16 | 吉林银行股份有限公司 | 一种进行业务数据质量检核的方法和系统 |
CN113127482A (zh) * | 2019-12-31 | 2021-07-16 | 奇安信科技集团股份有限公司 | 数据质量的分析方法、装置、计算机设备和存储介质 |
CN113127460A (zh) * | 2019-12-31 | 2021-07-16 | 北京懿医云科技有限公司 | 数据清洗框架的评估方法及其装置、设备及存储介质 |
CN113312341A (zh) * | 2021-04-28 | 2021-08-27 | 上海淇馥信息技术有限公司 | 一种数据质量监控方法、系统和计算机设备 |
CN113342791A (zh) * | 2021-05-31 | 2021-09-03 | 中国工商银行股份有限公司 | 一种数据质量监测方法及装置 |
CN114238381A (zh) * | 2021-12-21 | 2022-03-25 | 深圳前海微众银行股份有限公司 | 数据质量校验方法、设备及计算机可读存储介质 |
CN115129716A (zh) * | 2022-06-27 | 2022-09-30 | 浪潮工业互联网股份有限公司 | 一种针对工业大数据的数据管理方法、设备及存储介质 |
-
2023
- 2023-04-11 CN CN202310380557.1A patent/CN116108021B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106528828A (zh) * | 2016-11-22 | 2017-03-22 | 山东浪潮云服务信息科技有限公司 | 一种基于多维度校验规则的数据质量检测方法 |
CN109272215A (zh) * | 2018-08-31 | 2019-01-25 | 平安科技(深圳)有限公司 | 项目开发质量监控方法、装置、计算机设备及存储介质 |
CN113127482A (zh) * | 2019-12-31 | 2021-07-16 | 奇安信科技集团股份有限公司 | 数据质量的分析方法、装置、计算机设备和存储介质 |
CN113127460A (zh) * | 2019-12-31 | 2021-07-16 | 北京懿医云科技有限公司 | 数据清洗框架的评估方法及其装置、设备及存储介质 |
CN111339075A (zh) * | 2020-02-28 | 2020-06-26 | 三盟科技股份有限公司 | 面向教育领域的数据追溯方法、系统、设备及存储介质 |
CN111913942A (zh) * | 2020-07-28 | 2020-11-10 | 青岛海信网络科技股份有限公司 | 一种数据质量检测方法及装置 |
CN112667622A (zh) * | 2021-01-07 | 2021-04-16 | 吉林银行股份有限公司 | 一种进行业务数据质量检核的方法和系统 |
CN113312341A (zh) * | 2021-04-28 | 2021-08-27 | 上海淇馥信息技术有限公司 | 一种数据质量监控方法、系统和计算机设备 |
CN113342791A (zh) * | 2021-05-31 | 2021-09-03 | 中国工商银行股份有限公司 | 一种数据质量监测方法及装置 |
CN114238381A (zh) * | 2021-12-21 | 2022-03-25 | 深圳前海微众银行股份有限公司 | 数据质量校验方法、设备及计算机可读存储介质 |
CN115129716A (zh) * | 2022-06-27 | 2022-09-30 | 浪潮工业互联网股份有限公司 | 一种针对工业大数据的数据管理方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116108021A (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7979456B2 (en) | Method of managing and providing parameterized queries | |
US6108651A (en) | Heuristic co-identification of objects across heterogeneous information sources | |
RU2406115C2 (ru) | Доступ к сложным данным | |
US7617211B2 (en) | System and method for automatically synchronizing security-relevant information between a relational database and a multidimensional database | |
CN103678556A (zh) | 列式数据库处理的方法和处理设备 | |
CN110543303B (zh) | 一种可视化业务平台 | |
US9110935B2 (en) | Generate in-memory views from universe schema | |
CN108228762B (zh) | 用于配置主数据库通用模板的方法和系统 | |
CN105677346A (zh) | 一种web界面的动态扩展方法和服务器 | |
CN111291025B (zh) | 逻辑模型支持多物理模型转换的方法及存储设备 | |
CN111290813B (zh) | 一种软件界面字段数据标准化的方法、装置、设备和介质 | |
US20070050420A1 (en) | Method and apparatus for transferring data between databases | |
CN108959391B (zh) | 展现数据库集群架构图的设备、系统、方法、存储介质 | |
JP2007133624A (ja) | 連結関係情報を用いた情報管理方法及び装置 | |
CN113342921A (zh) | 资源编目方法及装置 | |
CN111581212B (zh) | 关系型数据库的数据存储方法、系统、服务器和存储介质 | |
CN116108021B (zh) | 基于标准数据集进行多维度数据质控的方法、装置及设备 | |
CN117009422B (zh) | 便利业务人员进行数据导入的实现方法 | |
CN113238865A (zh) | 基于Excel一键导入的快速构建知识图谱的方法 | |
CN116010439A (zh) | 一种可视化中文sql系统及构建查询方法 | |
CN114116773A (zh) | 一种结构化查询语言sql文本审核方法及装置 | |
CN113254455A (zh) | 数据库的动态配置方法、装置、计算机设备及存储介质 | |
JP6677809B2 (ja) | アダプタ生成装置及び方法 | |
CN112347075A (zh) | 一种实现数据库建模标准化的方法及终端 | |
CN112051996B (zh) | 一种基于开发平台元素统一命名字典的建模方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |