CN111639077B - 数据治理方法、装置、电子设备、存储介质 - Google Patents
数据治理方法、装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN111639077B CN111639077B CN202010414494.3A CN202010414494A CN111639077B CN 111639077 B CN111639077 B CN 111639077B CN 202010414494 A CN202010414494 A CN 202010414494A CN 111639077 B CN111639077 B CN 111639077B
- Authority
- CN
- China
- Prior art keywords
- data
- fields
- data items
- field
- governance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013523 data management Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 2
- 238000007726 management method Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 description 10
- 238000000638 solvent extraction Methods 0.000 description 7
- 238000013480 data collection Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 229940034610 toothpaste Drugs 0.000 description 1
- 239000000606 toothpaste Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了数据治理方法、装置、电子设备、存储介质。所述数据治理方法包括:根据多个字段的元数据将所述多个字段划分为多组数据项,其中,每组数据项包含至少一个字段,相同数据项中字段的元数据描述不同但含义相同;确定每组数据项的数据治理规则;采用所述数据治理规则对每组数据项中字段的数据进行数据治理。从而,提高了数据治理工作的效率。
Description
技术领域
本发明涉及大数据处理技术领域,特别涉及数据治理方法、装置、电子设备、存储介质。
背景技术
随着数字化转型进行,各行各业都越来越重视数据的归集,以及基于归集数据的业务创新。在对数据进行归集处理之前,一般需要对数据质量进行管控,也即数据治理。随着数据归集规模增加,数据治理的工作量越来越大。如何提高数据治理工作的效率、减少人力投入、加快治理过程,及时发现数据治理问题变得非常重要。
发明内容
本发明提供数据治理方法、装置、电子设备、存储介质,以提高数据治理的效率,减少人力成本。
具体地,本发明是通过如下技术方案实现的:
第一方面,提供一种数据治理方法,所述数据治理方法包括:
根据多个字段的元数据将所述多个字段划分为多组数据项,其中,每组数据项包含至少一个字段,相同数据项中字段的元数据描述不同但含义相同;
确定每组数据项的数据治理规则;
采用所述数据治理规则对每组数据项中字段的数据进行数据治理。
可选地,所述元数据包含:字段的属性信息;
根据多个字段的元数据将所述多个字段划分为多组数据项,包括:
对多个字段的属性信息进行聚类,根据聚类结果将所述多个字段划分为多组数据项。
可选地,所述元数据包含:字段的业务逻辑信息;
对多个字段的元数据进行聚类处理,根据聚类结果将所述多个字段划分为多组数据项,包括:
根据所述业务逻辑信息将具有关联关系的字段划分为相同的数据项。
可选地,采用所述数据治理规则对每组数据项中字段的数据进行数据治理,包括:
按照出现频次对每组数据项中的字段进行排序;
按照所述出现频次由高至低的顺序依次对所述字段的数据进行数据治理。
可选地,将所述多个字段划分为多组数据项之后,还包括:
可视化显示所述多组数据项。
可选地,确定每组数据项的数据治理规则,包括:
对于每组数据项,在所述数据项中至少一个字段配置有数据治理规则的情况下,根据所述至少一个字段的数据治理规则为所述数据项配置数据治理规则。
可选地,将所述多个字段划分为多组数据项之后,还包括:
将数据项的划分结果以表格的形式进行存储,所述划分结果包含所述字段与所述数据项的映射关系;
或者,扩展所述字段的属性,扩展的属性用于标识所述字段对应的数据项;
或者,对所述字段打标签,所述标签用于标识所述字段对应的数据项。
第二方面,提供一种数据治理装置,所述数据治理装置包括:
划分模块,用于根据多个字段的元数据将所述多个字段划分为多组数据项,其中,每组数据项包含至少一个字段,相同数据项中字段的元数据描述不同但含义相同;
确定模块,用于确定每组数据项的数据治理规则;
治理模块,用于采用所述数据治理规则对每组数据项中字段的数据进行数据治理。
可选地,所述元数据包含:字段的属性信息;
所述划分模块具体用于:
对多个字段的属性信息进行聚类,根据聚类结果将所述多个字段划分为多组数据项。
可选地,所述元数据包含:字段的业务逻辑信息;
所述划分模块具体用于:
根据所述业务逻辑信息将具有关联关系的字段划分为相同的数据项。
可选地,所述治理模块具体用于:
按照出现频次对每组数据项中的字段进行排序;
按照所述出现频次由高至低的顺序依次对所述字段的数据进行数据治理。
可选地,所述数据治理装置还包括:
显示模块,用于可视化显示所述多组数据项。
可选地,所述确定模块具体用于:
对于每组数据项,在所述数据项中至少一个字段配置有数据治理规则的情况下,根据所述至少一个字段的数据治理规则为所述数据项配置数据治理规则。
第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的数据治理方法。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的数据治理方法的步骤。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明实施例中,基于字段的元数据形成的数据项,为元数据描述不同但含义相同的字段批量配置数据治理规则,无需针对每个字段配置一次数据治理规则,一方面使得数据治理方无需重复配置数据治理规则,节省了人工成本,且对同类数据项可以批量进行处理,可以有效提高数据治理工作的效率;另一方面,减小了因对含义相同的字段设置不同的数据治理规则导致无法为数据需求方提供标准化数据的情形发生的概率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本发明一示例性实施例示出的一种数据治理方法的流程图;
图2是本发明一示例性实施例示出的另一种数据治理方法的流程图;
图3是本发明一示例性实施例示出的一种数据治理装置的模块示意图;
图4是本发明一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
随着数字化转型的深入,各行各业都越来越重视数据的归集,以及基于归集数据的业务创新。在对数据进行归集处理之前,一般需要对数据质量进行管控,也即数据治理。
相关技术中,对于数据治理,是按照数据库、数据表或字段的逻辑进行的,将数据库、数据表、字段当做一个个独立的对象进行梳理、定义、治理,也即数据治理方需要为每个字段配置数据治理规则,配置了数据治理规则的字段独立地进行数据治理。然而,现实场景中常存在不同的数据表中字段采用不同的字段描述,例如,两张数据表中分别采用“居民身份证”和“公民身份证号码”表征居民身份证号码字段,两者表述不同但本质上是相同的字段,对于上述情形,数据治理方需要为两张表的字段分别配置数据治理规则。在数据治理的工作量非常大、字段数量非常大的情况下,数据治理方需要进行重复配置数据治理规则的工作,效率极低。若数据治理方不熟悉业务场景,还容易出现为表述不同但本质上相同的字段分配不同的数据治理规则,造成对对应的数据采用不同的数据治理规则进行数据治理,也就无法为数据需求方提供统一标准化数据,会影响后续的数据归集分析。
基于上述情况,本发明实施例提供一种数据治理方法,基于字段的元数据发现字段与字段之间,字段与数据表之间的相互关系,并基于该相互关系实现高效率、高质量地完成数据治理工作。
图1是本发明一示例性实施例示出的一种数据治理方法的流程图,数据治理方法包括以下步骤:
步骤101、根据多个字段的元数据将多个字段划分为多组数据项。
其中,多个字段可以是一个数据库中不同数据表中的字段,多个字段也可以是多个数据库中不同数据表中的字段。
相关技术中,一般采用元数据描述字段,元数据可以但不限于包含以下信息:字段的属性信息,由数据库开发人员定义;业务逻辑信息,由业务人员定义;访问权限,由管理人员定义。
对于不同的数据表可能会采用不同的元数据描述字段,举例来说,对于用户信息表和用户信用表这两张数据表,分别采用“居民身份证”和“公民身份证号码”表示用户的身份证号码字段。又比如,对于商品表和销售表这两张数据表,分别采用“商品ID”和“货品类型”表示各类物品字段(例如,牙膏、牙刷、毛巾等)。
步骤101中,通过对字段的元数据进行分析,可以但不限于通过聚类算法对多个字段的元数据进行分析,将多个字段划分为多组数据项,其中,每组数据项包含至少一个字段,相同数据项中字段的元数据描述不同但含义相同。
得到数据项的划分结果之后,可以对划分结果进行存储,以用于后续批量配置字段的数据治理规则。在一个实施例中,可以将数据项的划分结果以表格的形式进行存储,划分结果包含字段与数据项的映射关系。在另一个实施例中,可以扩展字段的属性,使用新扩展的属性标识字段对应的数据项。在又一个实施例中,还可以根据划分结果对字段打标签,使用标签标识字段对应的数据项。
步骤102、确定每组数据项的数据治理规则。
其中,数据治理规则可以但不限于包括:数据探查规则,用于对数据内容分布的探查、字段范围的探查、字段分布占比的探测等;质量评估规则,用于评估数据的准确度;数据对标规则,用于规定数据的命名规则、数据匹配标准等;数据治理规则,用于数据清洗转换等。
在一个实施例中,可对步骤101得到的数据项进行可视化显示,可以但不限于采用表格、气泡图等方式显示数据项。数据治理方则可根据可视化显示的数据项对分组结果进行核验,并在核验通过的情况下,为每组数据项绑定数据治理规则,也即确定数据项的数据治理规则,实现为多个字段批量配置数据治理规则,进而高效率、高质量地完成数据治理工作;在核验不通过的情况下,数据治理方法可修改分组结果。基于按照数据项关系展示的数据视图高效率,高质量完成数据治理工作。
在另一个实施例中,若一组数据项中已有一个字段或者多个字段配置了数据治理规则,步骤102则可根据该字段或者多个字段的数据治理规则确定该组数据项的数据治理规则,并为多个字段批量配置数据治理规则,进而高效率、高质量地完成数据治理工作。
步骤103、采用数据治理规则对每组数据项中字段的数据进行数据治理。
步骤103,为字段配置了数据治理规则之后,可以立即对字段的数据进行数据治理,之后可周期性地根据数据治理规则对字段的数据进行数据治理;也可以在字段的数据有更新的情况下,例如,数据修改、数据新增、数据计算转换等,根据数据治理规则对修改的数据或对该字段的全部数据进行数据治理;还可以在接收到数据治理请求的情况下,根据数据治理规则对数据进行数据治理。从而,确保能及时准确地对数据进行数据治理,确保提供给数据需求方的数据始终是经过数据治理的。
可以理解的,若数据表结构未发生改变,也即数据表中字段不存在增减,字段的元数据未作修改,则无需执行步骤101~步骤103;若数据表结构发生改变,才需执行步骤101~步骤103,使得在数据表结构发生改变的情况下,也能及时对新增的字段配置数据治理规则,实现数据的及时治理。
本发明实施例中,基于字段的元数据形成的数据项,为元数据描述不同但含义相同的字段批量配置数据治理规则,无需针对每个字段配置一次数据治理规则,一方面使得数据治理方无需重复配置数据治理规则,节省了人工成本,且对同类数据项可以批量进行处理,可以有效提高数据治理工作的效率;另一方面,减小了因对含义相同的字段设置不同的数据治理规则导致无法为数据需求方提供标准化数据的情形发生的概率。
在图1示出的数据治理方法的基础上,图2是本发明一示例性实施例示出的另一种数据治理方法的流程图,本实施例中,根据元数据包含的字段的属性信息,将字段划分为多组数据项,参见图2,方法包括以下步骤:
步骤201、根据多个字段的属性信息将多个字段划分为多组数据项。
其中,字段属性信息包括对字段的描述、字段长度、字段类型、字段ID等信息。
步骤201中,可以但不限于对多个字段的属性信息进行聚类,确定各个属性信息之间的相似度,并将属性信息的相似度大于相似度阈值的字段划分至相同的数据项。确定各个字段属性信息之间的相似度可以但不限于采用欧几里得距离、NLP(人工智能)或机器学习等算法。根据字段的属性信息之间的相似度可以确定采用不同的描述但表达相同含义的多个字段,将该多个字段划分至相同的数据项。
在一个实施例中,数据项的划分结果可以表格的形式进行存储,划分结果包含字段与数据项的映射关系。表1是一示例性实施例示出的数据项的划分结果。
表1
数据项 | 字段的属性信息 |
sfzhm | 身份证号码 |
sfzhm | 居民身份证号码 |
sfzhm | 登记人身份证件号码 |
sfzhm | 公民身份证号码 |
sfzhm | 登记证件号码 |
sjhm | 手机号码 |
sjhm | 电话号码 |
lxfs | 联系方式 |
参见表1,对多张数据表中字段的字段属性信息进行聚类分析,若包含“身份证号码”、“居民身份证号码”、“登记人身份证件号码”、“公民身份证号码”、“登记证件号码”等字段描述的各个字段属性信息之间的相似度大于相似度阈值,说明该些字段属性信息对应的字段属于含义相同的字段,均表示身份证号码,则将该些属性信息对应的字段划分至相同的数据项sfzhm;若包含“手机号码”、“电话号码”等字段描述的各个字段属性信息之间的相似度大于相似度阈值,说明该些字段属性信息对应的字段属于含义相同的字段,均表示手机号码,则将该些属性信息对应的字段划分至相同的数据项sjhm。
在另一个实施例中,数据项的划分结果可以使用字段属性标识,具体的,可以扩展字段的属性,使用新扩展的属性标识字段对应的数据项,举例来说,对于字段a,可以增加一个新的属性“sfzhm”,以标识其数据项。
在又一个实施例中,数据项的划分结果还可以使用标签标识,具体的,对字段打标签,使用标签标识字段对应的数据项,举例来说,对于字段b,可以赋予字段b一个标签“sfzhm”,以标识其数据项。
步骤202、确定每组数据项的数据治理规则。
在一个实施例中,可对数据项的划分结果进行可视化显示,以便于用户配置、查看每组数据项的数据治理规则。下面以表格显示数据项为例,表2示出了数据项及其数据治理规则的示意结果。
表2
参见表2,字段属性信息包含“身份证号码”、“居民身份证号码”、“登记人身份证件号码”、“公民身份证号码”、“登记证件号码”等字段描述的字段划分至一组数据项“sfzhm”,可为数据项“sfzhm”配置数据治理规则,从而可为数据项“sfzhm”中所有字段统一配置数据治理规,例如将数据项“sfzhm”中的所有字段的数据治理规则均配置为“全半角转换、去除空格”。字段属性信息包含“手机号码”、“电话号码”等字段描述的字段划分至一组数据项“sjhm”,可为数据项“sjhm”配置数据治理规则,从而可为数据项“sfzhm”中所有字段统一配置数据治理规,例如将数据项“sfzhm”中的所有字段的数据治理规则均配置为“去除空格”。其中,数据治理规则的批量配置可以是在表格中完成,也可以采用页面批量选中的方式操作。
在另一个实施例中,在确定数据项的数据治理规则之前,假设数据项“sfzhm”中字段“居民身份证号码”已经设置有数据治理规则“全半角转换、去除空格”,则可根据该字段的数据治理规则确定数据项“sfzhm”的数据治理规则为“全半角转换、去除空格”,并统一将数据项“sfzhm”中的其他所有字段的数据治理规则配置为“全半角转换、去除空格”,也即为数据项“sfzhm”中其他的字段“身份证号码”、“登记人身份证件号码”、“公民身份证号码”、“登记证件号码”的数据治理规则均配置为“全半角转换、去除空格”。
在另一个实施例中,若数据项中的多个字段已经设置了数据治理规则,可以将多个字段的数据治理规则作并集,作为该数据项的数据治理规则。举例来说,若“sfzhm”中字段“居民身份证号码”已经设置有数据治理规则“全半角转换”,“sfzhm”中字段“身份证号码”已经设置有数据治理规则“去空格”,可以将“全半角转换、去空格”确定为数据项“sfzhm”的数据治理规则。
单纯采用字段的属性信息将字段划分为多组数据项,只能将属性信息相同或相似的对应字段划分在一组数据项中,例如,“居民身份证号码”和“登记人身份证件号码”描述相似可被划分在一组数据项中,而对于“联系方式”与“手机号码”,以及“商品ID”与“货品类型”这类文字描述不相似但实质含义相同的字段无法采用属性信息进行字段划分,确定数据项有时还需要借助元数据包含的业务逻辑信息,业务逻辑信息包含不同数据表的主键外键关系和/或字段的血缘关系。对存储于数据表中的数据进行各种加工组合、转换,又会产生新的数据,这些数据之间就存在着天然的联系,这些联系称为数据字段的血缘关系,也即血缘关系就是指数据字段产生的链路关系。
在另一个实施例中,在基于字段的属性信息对字段进行分组之后,进一步地,还可以基于元数据包含的业务逻辑信息对分组结果进行核验校正,根据业务逻辑信息将具有关联关系的字段划分为一组数据项中。
举例来说,基于字段的属性信息对“商品ID”和“货品类型”进行分组之后,由于“商品ID”和“货品类型”的文字描述相似度不大,因此会被划分至两组不同的数据项中,若商品信息表中的“商品ID”字段是商品信息表的主键,而销售表中的“货品类型”字段是商品信息表的外键,事实上“商品ID”字段与“货品类型”字段含义相同,应该被划分至一组数据项中。从而,在基于字段的属性信息对字段划分为数据项之后,为了确定分组的正确性,可进一步根据字段的业务逻辑信息对数据项划分结果进行核验校正。
在另一个实施例中,也可以单独适用业务逻辑信息划分数据项,从而步骤201可使用以下步骤代替,根据多个字段的业务逻辑信息将多个字段划分为多组数据项。
步骤203、采用数据治理规则对每组数据项中字段的数据进行数据治理。
步骤203,为字段配置了数据治理规则之后,可以立即对字段的数据进行数据治理,之后可周期性地根据数据治理规则对字段的数据进行数据治理;也可以在字段的数据有更新的情况下,例如,数据修改、数据新增、数据计算转换等,根据数据治理规则对修改的数据或对该字段的全部数据进行数据治理;还可以在接收到数据治理请求的情况下,根据数据治理规则对数据进行数据治理。从而,确保能及时准确地对数据进行数据治理,确保提供给数据需求方的数据始终是经过数据治理的。
在数据量很大的情况下,步骤203中也可以对数据进行分批数据治理,可以但不限于先处理高频数据,具体的,步骤203包括:按照出现频次对每组数据项中的字段进行排序,按照出现频次由高至低的顺序依次对字段的数据进行数据治理。出现次数较多说明该字段可能是比较重要的字段,在数据批量处理时数据量较大的情况下,可以分批处理,而将比较重要的数据项优先处理。
举例来说,以表2示出的数据项为例,若数据项“sfzhm”中,“身份证号码”字段出现了20次(在20张数据表中出现),“居民身份证号码”出现了15次,“登记人身份证件号码”出现了10次,“公民身份证号码”和“登记证件号码”各出现了5次。在数据量很大的情况下,可以先对“身份证号码”字段对应的数据进行批量治理,完成之后,对“居民身份证号码”字段对应的数据进行批量治理,完成之后,对“登记人身份证件号码”字段数据对应的数据进行批量治理,完成之后,对“公民身份证号码”字段以及“登记证件号码”字段对应的数据进行批量治理。梳理出数据项中高频出现且重要的字段,并对该些字段数据优先进行治理,可以提高数据治理工作的投入产出比。
与前述数据治理方法实施例相对应,本发明还提供了数据治理装置的实施例。
图3是本发明一示例性实施例示出的一种数据治理装置的模块示意图,参见图3,所述数据治理装置包括:划分模块31、确定模块32和治理模块33。
划分模块31,用于根据多个字段的元数据将所述多个字段划分为多组数据项,其中,每组数据项包含至少一个字段,相同数据项中字段的元数据描述不同但含义相同;
确定模块32,用于确定每组数据项的数据治理规则;
治理模块33,用于采用所述数据治理规则对每组数据项中字段的数据进行数据治理。
可选地,所述元数据包含:字段的属性信息;
所述划分模块具体用于:
对多个字段的属性信息进行聚类,根据聚类结果将所述多个字段划分为多组数据项。
可选地,所述元数据包含:字段的业务逻辑信息;
所述划分模块具体用于:
根据所述业务逻辑信息将具有关联关系的字段划分为相同的数据项。
可选地,所述治理模块具体用于:
按照出现频次对每组数据项中的字段进行排序;
按照所述出现频次由高至低的顺序依次对所述字段的数据进行数据治理。
可选地,所述数据治理装置还包括:
显示模块,用于可视化显示所述多组数据项。
可选地,所述确定模块具体用于:
对于每组数据项,在所述数据项中至少一个字段配置有数据治理规则的情况下,根据所述至少一个字段的数据治理规则为所述数据项配置数据治理规则。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
图4是本发明一示例实施例示出的一种电子设备的结构示意图,示出了适于用来实现本发明实施方式的示例性电子设备40的框图。图4显示的电子设备40仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备40可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备40的组件可以包括但不限于:上述至少一个处理器41、上述至少一个存储器42、连接不同系统组件(包括存储器42和处理器41)的总线43。
总线43包括数据总线、地址总线和控制总线。
存储器42可以包括易失性存储器,例如随机存取存储器(RAM)421和/或高速缓存存储器422,还可以进一步包括只读存储器(ROM)423。
存储器42还可以包括具有一组(至少一个)程序模块424的程序工具425(或实用工具),这样的程序模块424包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器41通过运行存储在存储器42中的计算机程序,从而执行各种功能应用以及数据治理,例如上述任一实施例所提供的方法。
电子设备40也可以与一个或多个外部设备44(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口45进行。并且,模型生成的电子设备40还可以通过网络适配器46与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器46通过总线43与模型生成的电子设备40的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的电子设备40使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所提供的方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (13)
1.一种数据治理方法,其特征在于,所述数据治理方法包括:
根据多个字段的元数据将所述多个字段划分为多组数据项,其中,每组数据项包含至少一个字段,相同数据项中字段的元数据描述不同但含义相同;
确定所述每组数据项的数据治理规则;
采用所述数据治理规则对所述每组数据项中字段的数据进行数据治理,包括:按照出现频次对所述每组数据项中的字段进行排序;按照所述出现频次由高至低的顺序依次对所述字段的数据进行数据治理。
2.如权利要求1所述的数据治理方法,其特征在于,所述元数据包含:字段的属性信息;
根据多个字段的元数据将所述多个字段划分为多组数据项,包括:
对多个字段的属性信息进行聚类,根据聚类结果将所述多个字段划分为多组数据项。
3.如权利要求1所述的数据治理方法,其特征在于,所述元数据包含:字段的业务逻辑信息;
对多个字段的元数据进行聚类处理,根据聚类结果将所述多个字段划分为多组数据项,包括:
根据所述业务逻辑信息将具有关联关系的字段划分为相同的数据项。
4.如权利要求1所述的数据治理方法,其特征在于,将所述多个字段划分为多组数据项之后,还包括:
可视化显示所述多组数据项。
5.如权利要求1所述的数据治理方法,其特征在于,确定所述每组数据项的数据治理规则,包括:
对于所述每组数据项,在所述数据项中至少一个字段配置有数据治理规则的情况下,根据所述至少一个字段的数据治理规则为所述数据项配置数据治理规则。
6.如权利要求1所述的数据治理方法,其特征在于,将所述多个字段划分为多组数据项之后,还包括:
将数据项的划分结果以表格的形式进行存储,所述划分结果包含所述字段与所述数据项的映射关系;
或者,扩展所述字段的属性,扩展的属性用于标识所述字段对应的数据项;
或者,对所述字段打标签,所述标签用于标识所述字段对应的数据项。
7.一种数据治理装置,其特征在于,所述数据治理装置包括:
划分模块,用于根据多个字段的元数据将所述多个字段划分为多组数据项,其中,每组数据项包含至少一个字段,相同数据项中字段的元数据描述不同但含义相同;
确定模块,用于确定所述每组数据项的数据治理规则;
治理模块,用于采用所述数据治理规则对所述每组数据项中字段的数据进行数据治理,包括:按照出现频次对所述每组数据项中的字段进行排序;按照所述出现频次由高至低的顺序依次对所述字段的数据进行数据治理。
8.如权利要求7所述的数据治理装置,其特征在于,所述元数据包含:字段的属性信息;
所述划分模块具体用于:
对多个字段的属性信息进行聚类,根据聚类结果将所述多个字段划分为多组数据项。
9.如权利要求7所述的数据治理装置,其特征在于,所述元数据包含:字段的业务逻辑信息;
所述划分模块具体用于:
根据所述业务逻辑信息将具有关联关系的字段划分为相同的数据项。
10.如权利要求7所述的数据治理装置,其特征在于,所述数据治理装置还包括:
显示模块,用于可视化显示所述多组数据项。
11.如权利要求7所述的数据治理装置,其特征在于,所述确定模块具体用于:
对于所述每组数据项,在所述数据项中至少一个字段配置有数据治理规则的情况下,根据所述至少一个字段的数据治理规则为所述数据项配置数据治理规则。
12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的数据治理方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的数据治理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010414494.3A CN111639077B (zh) | 2020-05-15 | 2020-05-15 | 数据治理方法、装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010414494.3A CN111639077B (zh) | 2020-05-15 | 2020-05-15 | 数据治理方法、装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111639077A CN111639077A (zh) | 2020-09-08 |
CN111639077B true CN111639077B (zh) | 2024-03-22 |
Family
ID=72330821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010414494.3A Active CN111639077B (zh) | 2020-05-15 | 2020-05-15 | 数据治理方法、装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111639077B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112711591B (zh) * | 2020-12-31 | 2021-10-08 | 天云融创数据科技(北京)有限公司 | 基于知识图谱的字段级的数据血缘确定方法及装置 |
CN112860631B (zh) * | 2021-04-25 | 2021-07-27 | 成都淞幸科技有限责任公司 | 一种高效的元数据批量配置方法 |
CN113342796A (zh) * | 2021-06-30 | 2021-09-03 | 平安付科技服务有限公司 | 一种数据治理的方法、装置、设备及存储介质 |
CN114416700A (zh) * | 2022-01-21 | 2022-04-29 | 中国银行股份有限公司 | 一种客户信息治理方法和装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294492A (zh) * | 2015-06-08 | 2017-01-04 | 深圳中兴网信科技有限公司 | 数据清洗方法及清洗引擎 |
WO2017113886A1 (zh) * | 2015-12-30 | 2017-07-06 | 华为技术有限公司 | 数据清理方法及装置 |
CN107515908A (zh) * | 2017-08-11 | 2017-12-26 | 新智数通(北京)技术服务有限公司 | 一种数据处理方法及装置 |
CN108595563A (zh) * | 2018-04-13 | 2018-09-28 | 林秀丽 | 一种数据质量管理方法及装置 |
CN109344154A (zh) * | 2018-08-22 | 2019-02-15 | 中国平安人寿保险股份有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN109388675A (zh) * | 2018-10-12 | 2019-02-26 | 平安科技(深圳)有限公司 | 数据分析方法、装置、计算机设备及存储介质 |
CN109766436A (zh) * | 2018-12-04 | 2019-05-17 | 北京明略软件系统有限公司 | 一种数据表的字段与知识库的数据元匹配的方法和装置 |
CN110347564A (zh) * | 2019-05-24 | 2019-10-18 | 平安普惠企业管理有限公司 | 数据生成方法及装置、电子设备、存储介质 |
CN110362563A (zh) * | 2019-07-19 | 2019-10-22 | 北京明略软件系统有限公司 | 数据表的处理方法及装置、存储介质、电子装置 |
CN110471913A (zh) * | 2019-07-31 | 2019-11-19 | 北京慧萌信安软件技术有限公司 | 一种数据清洗方法及装置 |
CN111061742A (zh) * | 2019-12-25 | 2020-04-24 | 北京数起科技有限公司 | 用于标记数据的方法、装置及其服务系统 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7225412B2 (en) * | 2002-12-03 | 2007-05-29 | Lockheed Martin Corporation | Visualization toolkit for data cleansing applications |
US20040107205A1 (en) * | 2002-12-03 | 2004-06-03 | Lockheed Martin Corporation | Boolean rule-based system for clustering similar records |
US20040107189A1 (en) * | 2002-12-03 | 2004-06-03 | Lockheed Martin Corporation | System for identifying similarities in record fields |
US7542973B2 (en) * | 2006-05-01 | 2009-06-02 | Sap, Aktiengesellschaft | System and method for performing configurable matching of similar data in a data repository |
US8838549B2 (en) * | 2008-07-07 | 2014-09-16 | Chandra Bodapati | Detecting duplicate records |
AU2011205296B2 (en) * | 2010-01-13 | 2016-07-28 | Ab Initio Technology Llc | Matching metadata sources using rules for characterizing matches |
US8341131B2 (en) * | 2010-09-16 | 2012-12-25 | Sap Ag | Systems and methods for master data management using record and field based rules |
US8666919B2 (en) * | 2011-07-29 | 2014-03-04 | Accenture Global Services Limited | Data quality management for profiling, linking, cleansing and migrating data |
US10769122B2 (en) * | 2014-03-13 | 2020-09-08 | Ab Initio Technology Llc | Specifying and applying logical validation rules to data |
US10185478B2 (en) * | 2014-09-24 | 2019-01-22 | Sap Se | Creating a filter for filtering a list of objects |
US9971812B2 (en) * | 2016-04-26 | 2018-05-15 | Adobe Systems Incorporated | Data management using structured data governance metadata |
US10565172B2 (en) * | 2017-02-24 | 2020-02-18 | International Business Machines Corporation | Adjusting application of a set of data quality rules based on data analysis |
US20190317835A1 (en) * | 2018-04-12 | 2019-10-17 | International Business Machines Corporation | Management of events in event management systems |
-
2020
- 2020-05-15 CN CN202010414494.3A patent/CN111639077B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294492A (zh) * | 2015-06-08 | 2017-01-04 | 深圳中兴网信科技有限公司 | 数据清洗方法及清洗引擎 |
WO2017113886A1 (zh) * | 2015-12-30 | 2017-07-06 | 华为技术有限公司 | 数据清理方法及装置 |
CN106933863A (zh) * | 2015-12-30 | 2017-07-07 | 华为技术有限公司 | 数据清理方法及装置 |
CN107515908A (zh) * | 2017-08-11 | 2017-12-26 | 新智数通(北京)技术服务有限公司 | 一种数据处理方法及装置 |
CN108595563A (zh) * | 2018-04-13 | 2018-09-28 | 林秀丽 | 一种数据质量管理方法及装置 |
CN109344154A (zh) * | 2018-08-22 | 2019-02-15 | 中国平安人寿保险股份有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN109388675A (zh) * | 2018-10-12 | 2019-02-26 | 平安科技(深圳)有限公司 | 数据分析方法、装置、计算机设备及存储介质 |
CN109766436A (zh) * | 2018-12-04 | 2019-05-17 | 北京明略软件系统有限公司 | 一种数据表的字段与知识库的数据元匹配的方法和装置 |
CN110347564A (zh) * | 2019-05-24 | 2019-10-18 | 平安普惠企业管理有限公司 | 数据生成方法及装置、电子设备、存储介质 |
CN110362563A (zh) * | 2019-07-19 | 2019-10-22 | 北京明略软件系统有限公司 | 数据表的处理方法及装置、存储介质、电子装置 |
CN110471913A (zh) * | 2019-07-31 | 2019-11-19 | 北京慧萌信安软件技术有限公司 | 一种数据清洗方法及装置 |
CN111061742A (zh) * | 2019-12-25 | 2020-04-24 | 北京数起科技有限公司 | 用于标记数据的方法、装置及其服务系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111639077A (zh) | 2020-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639077B (zh) | 数据治理方法、装置、电子设备、存储介质 | |
WO2022126971A1 (zh) | 基于密度的文本聚类方法、装置、设备及存储介质 | |
CN106844407B (zh) | 基于数据集相关性的标签网络产生方法和系统 | |
CN109033284A (zh) | 基于知识图谱的电力信息运维系统数据库构建方法 | |
CN111709527A (zh) | 运维知识图谱库的建立方法、装置、设备及存储介质 | |
CN112613917A (zh) | 基于用户画像的信息推送方法、装置、设备及存储介质 | |
CN113836131A (zh) | 一种大数据清洗方法、装置、计算机设备及存储介质 | |
CN113946690A (zh) | 潜在客户挖掘方法、装置、电子设备及存储介质 | |
CN110675238A (zh) | 客户标签配置方法、系统、可读存储介质及电子设备 | |
CN115587739A (zh) | 客户名单分配方法、装置、计算机设备及存储介质 | |
CN113435859A (zh) | 信访件处理方法、装置、电子设备和计算机可读介质 | |
CN110928893B (zh) | 一种标签查询方法、装置、设备和存储介质 | |
CN111858617A (zh) | 用户查找方法和装置、计算机可读存储介质、电子设备 | |
CN112270350B (zh) | 组织机构的画像方法、装置、设备及存储介质 | |
CN113064984A (zh) | 意图识别方法、装置、电子设备及可读存储介质 | |
CN109902698A (zh) | 信息生成方法和装置 | |
CN117252362A (zh) | 基于人工智能的调度方法、装置、计算机设备及存储介质 | |
CN109144999B (zh) | 一种数据定位方法、装置及存储介质、程序产品 | |
US8832110B2 (en) | Management of class of service | |
CN112328752B (zh) | 基于搜索内容的课程推荐方法、装置、计算机设备及介质 | |
CN115034762A (zh) | 一种岗位推荐方法、装置、存储介质、电子设备及产品 | |
CN114996386A (zh) | 业务角色识别方法、装置、设备及存储介质 | |
CN113689141A (zh) | 基于聚类算法分配保险销售人员客户名单的方法、系统以及设备 | |
CN113190587A (zh) | 实现业务数据处理的数据处理方法和装置 | |
Merelli et al. | Porting bioinformatics applications from grid to cloud: A macromolecular surface analysis application case study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |