CN116186014A - 公共数据治理方法、装置、电子设备和可读存储介质 - Google Patents

公共数据治理方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN116186014A
CN116186014A CN202310206723.6A CN202310206723A CN116186014A CN 116186014 A CN116186014 A CN 116186014A CN 202310206723 A CN202310206723 A CN 202310206723A CN 116186014 A CN116186014 A CN 116186014A
Authority
CN
China
Prior art keywords
data
standard
item
data item
public
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310206723.6A
Other languages
English (en)
Inventor
邹任芯
叶剑超
平正强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Zhejiang Technology Operation Co ltd
Original Assignee
Digital Zhejiang Technology Operation Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Zhejiang Technology Operation Co ltd filed Critical Digital Zhejiang Technology Operation Co ltd
Priority to CN202310206723.6A priority Critical patent/CN116186014A/zh
Publication of CN116186014A publication Critical patent/CN116186014A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

本发明提供了一种公共数据治理方法、装置、电子设备和可读存储介质,涉及大数据治理的技术领域,包括:对公共数据中的每个数据项,进行数据标准关联;基于数据标准,治理数据标准对应的每个数据项的数据质量,确定每个数据项对应的标准数据;根据每个数据项对应的目标来源数据,修正对应的标准数据并录入数据库;通过为每个数据项确定统一的数据标准,以及为每个数据项确定权威的数据来源,以缓解海量公共数据跨表治理难的技术问题。

Description

公共数据治理方法、装置、电子设备和可读存储介质
技术领域
本发明涉及大数据治理的技术领域,尤其是涉及一种公共数据治理方法、装置、电子设备和可读存储介质。
背景技术
公共数据(如政务大数据)经过大数据平台整合汇聚以后,数据是否好用、数据质量高不高,成为影响政务数据共享利用、最大限度发挥数据资源价值的关键因素。
当前技术方案主要是通过数据清洗(数据过滤)技术对归集的公共数据进行治理,即通过通用的数据治理规则对归集的数据进行过滤或转化,以确保获得干净数据。
但现有的技术方案容易出现同一个数据项在多张表中格式不统一、同一条数据在多张表中取值不一致的情况,使得海量公共数据的跨表治理的难度较大,治理后的数据质量较差。
发明内容
本发明的目的在于提供一种公共数据治理方法、装置、电子设备和可读存储介质,通过为每个数据项确定统一的数据标准,以及为每个数据项确定权威的数据来源,以缓解海量公共数据跨表治理难的技术问题。
第一方面,本发明实施例提供了一种公共数据治理方法,所述方法包括:
对公共数据中的每个数据项,进行数据标准关联;
基于所述数据标准,治理所述数据标准对应的每个数据项的数据质量,确定所述每个数据项对应的标准数据;
根据所述每个数据项对应的目标来源数据,修正对应的标准数据并录入数据库。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述数据标准包括通用标准和个性化标准;对公共数据中的每个数据项,进行数据标准关联的步骤,包括:
根据公共数据中的每个数据项的类型,对所述每个数据项进行通用数据标准关联;
根据公共数据中的每个数据项的来源,对所述每个数据项进行个性化数据标准关联。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,基于所述数据标准,治理所述数据标准对应的每个数据项的数据质量,确定所述每个数据项对应的标准数据的步骤,包括:
基于所述数据标准,对每个所述数据标准关联的数据项进行数据质量判断;
若所述数据质量符合标准,则确定所述数据项的标准数据;
若所述数据质量不符合标准,则先对所述数据项进行治理,再确定标准数据。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,先对所述数据项进行治理,再确定标准数据的步骤,包括:
根据所述数据标准对应的预设治理规则,将所述数据标准关联的数据项进行映射转化,并再次执行所述基于所述数据标准,对每个所述数据标准关联的数据项进行数据质量判断的步骤,直至确定所述数据项的标准数据。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,根据所述每个数据项对应的目标来源数据,修正对应的标准数据并录入数据库的步骤,包括:
将所述每个数据项对应的目标来源数据与标准数据进行比对;
若结果一致,则将所述数据项对应的标准数据录入数据库;
若结果不一致,则基于所述数据项对应的目标来源数据,对所述标准数据进行修正,并将修正后的标准数据录入数据库中。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,基于所述数据项对应的目标来源数据,对所述标准数据进行修正,并将修正后的标准数据录入数据库中的步骤,包括:
基于所述目标来源数据,修正相对应的标准数据,再次执行所述将所述数据标准关联的数据项的标准数据与所述数据标准关联的数据项的目标来源数据进行比对的步骤,直至将所述公共数据中的每个数据项的标准数据录入数据库。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,在对公共数据中的每个数据项,进行数据标准关联的步骤之前,所述方法还包括:
对所述公共数据进行预处理清洗操作。
第二方面,本发明实施例还提供一种公共数据治理装置,所述装置包括:
关联模块,对公共数据中的每个数据项,进行数据标准关联;
治理模块,基于所述数据标准,治理所述数据标准对应的每个数据项的数据质量,确定所述每个数据项对应的标准数据;
修正模块,根据所述每个数据项对应的目标来源数据,修正对应的标准数据并录入数据库。
第三方面,实施例提供一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述前述实施方式任一项所述的方法的步骤。
第四方面,实施例提供一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现前述实施方式任一项所述的方法的步骤。
本发明实施例带来了一种公共数据治理方法、装置、电子设备和可读存储介质,首先将每个数据项对应的数据标准对其相关联,再根据该数据标准对其对应数据项的数据质量进行判断和治理,以确定出每个数据项数据质量满足要求的标准数据,再根据每个数据项对应的目标来源修正该标准数据,进而录入数据库,使得海量公共数据的跨表治理问题能够得到解决。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种现有公共数据治理方法流程图;
图2为本发明实施例提供的一种公共数据治理方法流程图;
图3为本发明实施例提供的一种公共数据治理应用示意图;
图4为本发明实施例提供的另一种公共数据治理方法流程图;
图5为本发明实施例提供的一种公共数据治理方法应用效果示意图;
图6为本发明实施例提供的另一种公共数据治理方法应用效果示意图;
图7为本发明实施例提供的一种公共数据治理装置的功能模块示意图;
图8为本发明实施例提供的电子设备的硬件架构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当前现有的技术方案,如图1所示,通过通用的数据治理规则对归集的数据进行过滤或转化,以确保获得干净数据,进而实现对归集的公共数据的治理。这里的通用的数据治理规则包括:数据项内容是否为空值,身份证号码、统一社会信用代码等数据内容是否符合规范,手机号码数字位数是否符合规范,手机号码长度是否符合规范等。
现有数据治理技术方案典型流程图如图1所示,政务数据经过数据归集进入公共数据平台以后产生的数据流,每一个数据项需要匹配通用数据治理规则,进行数据质量判断;若一条数据符合规则,则该数据进入优质数据库,供后续分析加工和共享利用;若一条数据不符合规则,则该数据进入问题数据库,经过数据整改修正以后,再重新进行数据归集并重新进行数据清洗校验。
上述方案对单张数据表的数据治理效果较好,能够基于简单数据治理规则的数据清洗。但是,经发明人研究发现,上述方案在实际应用中往往存在以下两类问题,进而无法保证公共数据的质量:
1:同一个数据项在多张表中格式不统一。例如,小张的“学历类型”数据项在公安部门常住人口信息表中填写的是“学士”,在教育部门的普通高等毕业证信息表上填写的是“O1”,在民政部门婚姻登记信息表中填写的是“大学学士”,在人力社保部门的社会保险个人参保信息表中填写的是“学士学位”,数据格式无统一标准,造成数据跨表碰撞融合分析困难。
2:同一条数据在多张表中取值不一致。例如,小李的“性别”数据项在公安部门常住人口信息表中填写的是“男性”,在教育部门普通高校毕业证书信息表上填写的是“女性”,在人力社保部门社会保险个人参保信息表中填写的是“未知的性别”。多张表中数据不一致,应该以哪张表数据为准,影响数据的有效利用。
基于此,本发明实施例提供的一种公共数据治理方法、装置、电子设备和可读存储介质,通过为每个数据项确定统一的数据标准,以及为每个数据项确定权威的数据来源,以缓解海量公共数据跨表治理难的技术问题。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种公共数据治理方法进行详细介绍,该方法可应用于数据治理平台,如控制器、处理器、上位机和服务器等智能控制设备中。
图2为本发明实施例提供的一种公共数据治理方法流程图。
参考图2可知,该方法可包括如下步骤:
步骤S102,对公共数据中的每个数据项,进行数据标准关联。
其中,公共数据是指本省国家机关、法律法规规章授权的具有管理公共事务职能的组织以及供水、供电、供气、公共交通等公共服务运营单位(统称公共管理和服务机构),在依法履行职责或者提供公共服务过程中收集、产生的数据。根据本省应用需求,税务、海关、金融监督管理等国家有关部门派驻浙江管理机构提供的数据,也属于本条例所称的公共数据。
需要说明的是,数据项可理解为公共数据流中的每个数据字段,每个数据字段均对应一个数据标准,可将每个数据项与其对应的数据标准进行关联,以便后续步骤知晓该数据项对应一个何种标准。
步骤S104,基于数据标准,治理数据标准对应的每个数据项的数据质量,确定每个数据项对应的标准数据。
其中,数据质量可理解为每个数据项是否满足其对应数据标准的参数指标,依据每个数据标准,可对其相应数据项的数据质量进行治理,治理后得到每个数据项对应的标准数据。
步骤S106,根据每个数据项对应的目标来源数据,修正对应的标准数据并录入数据库。
其中,每个数据项还对应有一个目标来源,该目标来源数据可理解为从权威来源获取的数据项结果;依据该目标来源数据修正每个对应的数据项后,再录入数据库,以保证公共数据质量的可靠性。
在实际应用的优选实施例中,首先将每个数据项对应的数据标准对其相关联,再根据该数据标准对其对应数据项的数据质量进行判断和治理,以确定出每个数据项数据质量满足要求的标准数据,再根据每个数据项对应的目标来源修正该标准数据,进而录入数据库,使得海量公共数据的跨表治理问题能够得到解决。
需要说明的是,本发明实施例主要依据“一数一源一标准”的发明构思进行实现。
“一数”是指数据的基本单元,即数据项,它由一组属性描述其定义、标识和具体值等信息组成,每个数据都有唯一的目标来源和数据标准。例如,常住人口户口簿信息表中的公民身份证号码、姓名、曾用名、性别、民族等数据项为“一数”。
“一源”是指数据的唯一权威的目标来源,如来源单位和生产数据的信息系统。例如,公民身份证号码的唯一权威数源单位是“某某省公安厅”,唯一数源系统是“某某省人口信息管理系统”。
“一标准”是指数据标准。通过数据标准明确数据定义,确定数据来源,规范数据名称,统一数据格式和值域等。例如,“人口基础信息表”中的“公民身份号码”数据项的定义为“身份证件上记载的、可唯一标识个人身份的号码”;其数据类型为字符型C型,字段长度为18,其值域应该符合GB11643-1999《公民身份号码》国家标准要求,其数源单位为“省公安厅”。又如“性别”数据项的值域为“男性、女性、未知的性别”;“民族”数据项的值域为“汉族、蒙古族、…等56个民族”。
“一数一源一标准”是指为每一个“数据项”确定唯一权威的“目标来源”和“数据标准”。
本发明实施例按照“一数一源一标准”要求细化数据治理规则,对新归集数据进行质量检查和标准化处理。通过对每一个“数据项”确定唯一权威的“目标来源”和“数据标准”,进而从根本上解决“数出多头”、“数据混乱”、“数据难用”、“数据错误”等问题,为公共数据开发利用,打下高质量数据基础。
作为一种可选的实施例,主要包含:①数据标准化和②权威数据匹配两项内容。①数据标准化是对数据项关联数据标准,进行标准化处理。例如,对于“性别”数据项,有男、女、male、female、man、woman、01、02等等五花八门的值域,统一标准后,仅有“男”、“女”2个值域。②权威数据匹配是将数据关联权威数据来源,实现相关数据按权威数据同步更新。例如,学历以教育部门学历信息为权威数据。身份证号码以公安部门的人口登记信息为权威数据。
如图3所示是“一数一源一标准”数据治理方法的典型示意图。在“一数一源一标准”治理前,省人社厅社保个人参保信息、省民政厅婚姻登记信息、省教育厅普通高校毕业证书等三张数据表中关于“张三”的“性别”数据都不一致。根据人口数据权威来源(目标来源)“省公安厅常住人口户口簿信息表”中“张三”的“性别”为“男性”进行对比核验,将省人社厅社保个人参保信息、省民政厅婚姻登记信息、省教育厅普通高校毕业证书等三张数据表中“张三”的“性别”变更为“男性”。
在一些实施例中,“一数一源一标准”数据治理方法是基于传统数据清洗技术的迭代升级。也就是数据流经过“一数一源一标准”治理前,首先要完成数据清洗治理,清洗好以后,再进行“一数一源一标准”治理。因此,在步骤S102之前,上述方法还包括:
步骤1.1),对公共数据进行预处理清洗操作。
这里,经公共数据平台归集或采集的公共数据流经过预处理清洗操作获得干净的数据以后,进入后续治理步骤。其中,该预处理清晰操作可理解为传统数据清洗技术,如分词、去空格特殊符号、关键词提取等方法。
其中,上述数据标准可包括通用标准和个性化标准;在一些实施例中,可根据数据项的情况分别关联对应的数据标准,以便后续能够得到更加精准的治理结果;示例性地,该步骤S102,包括:
步骤2.1),根据公共数据中的每个数据项的类型,对每个数据项进行通用数据标准关联。
其中,该通用数据标准由公共数据主管部门会同(多家)数源单位共同制定。
可以理解的是,获知该数据项的类型后,进而能够知晓该数据项与哪种通用数据标准相关联,此种关联关系可通过预先设置或人工确定。
步骤2.2),根据公共数据中的每个数据项的来源,对每个数据项进行个性化数据标准关联。
该个性化的特殊数据标准由所属数源单位制定,并由公共数据主管部门审核确认。
在一些实施例中,每个数据项依据其对应的数据标准,对自身的数据质量进行判断,并对质量不合格的数据项进行治理;该步骤S104可通过以下步骤实现,包括:
步骤3.1),基于数据标准,对每个数据标准关联的数据项进行数据质量判断。
步骤3.2),若数据质量符合标准,则确定数据项的标准数据。
步骤3.3),若数据质量不符合标准,则先对数据项进行治理,再确定标准数据。
示例性地,根据数据标准对应的预设治理规则,将数据标准关联的数据项进行映射转化,并再次执行步骤3.1),直至确定数据项的标准数据。
本发明实施例根据数据标准,对数据流逐个字段(数据项)进行数据质量判断。若判断结果为符合标准,则得到标准数据。若判断结果为不符合标准,则根据治理规则进行数据映射转化。也即将不符合数据标准的数据转化为标准的数据。例如,将“性别”数据项中的“male”、“man”、“01”、“男”、“男人”等值,转换为“男性”。转化完成以后,返回步骤3.1)进行数据质量判断,直到得到标准数据为止。
在一些实施例中,还可通过权威来源数据对标准数据进行修正,以进一步保证公共数据的可靠性;在前述实施例中的步骤S106,主要包括以下步骤:
步骤4.1),将每个数据项对应的目标来源数据与标准数据进行比对。
步骤4.2),若结果一致,则将数据项对应的标准数据录入数据库。
步骤4.3),若结果不一致,则基于数据项对应的目标来源数据,对标准数据进行修正,并将修正后的标准数据录入数据库中。
示例性地,基于目标来源数据,修正相对应的标准数据,再次执行步骤4.1),直至将公共数据中的每个数据项的标准数据录入数据库。
得到前述实施例的标准数据以后,再将标准数据和权威来源数据进行匹配比对分析。主要是判断标准数据和权威来源数据是否相同。例如,公安部门的居民户口簿中有居民学历信息,教育部门的高等教育学历证书中也有居民学历信息,若两者数据不匹配,则以教育部门的数据为权威数据。若标准数据与权威数据匹配比对结果为相同,则得到标准且权威数据,录入高质量标准权威数据库。若标准数据与权威数据匹配比对结果不相同,则需要根据规则进行数据映射转化,也就是按照权威数据修正需要治理的数据。例如,某人在公安部门居民户口簿信息表中的“学历”为“高中”,在教育部门学历信息表中的“学历”为“大学本科”,则需要以教育部门学历信息表中的“学历”数据“大学本科”为权威数据修正公安部门居民户口簿信息表中的“学历”数据“高中”。数据转化修正以后,返回步骤4.1),重新和权威数据进行匹配比对分析。
本发明基于传统的数据清洗模式,设计了一种“一数一源一标准”治理系统,主要包含:数据标准化和权威数据匹配两项关键创新点。数据标准化,是对数据项关联数据标准,对数据项进行标准化处理,实现“一数一标准”。权威数据匹配,是将数据关联权威数据来源,实现相关数据按权威数据同步更新,使得“一数一源”设想落地实现。
在一些实施例中,如图4所示,还提供一种公共数据治理方法,包括:
将清洗后的干净数据中的数据项进行数据标准关联,再依据数据标准对数据质量进行判断;若符合标准,则得到标准数据;若不符合标准,则根据规则进行数据映射转化,并对治理后的数据项在此进行数据质量判断,以保证得到标准数据;再将标准数据与权威数据进行匹配比对分析;若两者相同,则该数据项标准且权威进行入库;若两者不相同,则根据规则进行数据映射转化,并将修正后的数据项再次与权威数据进行匹配比对分析,直至全部数据项入库。
本发明实施例基于数据清洗技术的迭代升级,不仅能够对单张数据表的完整性、规范性、一致性、唯一性等进行清洗检查,而且可以为每张表的每一个数据项确定唯一的目标来源(系统、单位)和唯一的数据标准,通过多表的融合比对分析,提高数据质量,提升数据可用性。如图5所示,是通过“一数一源一标准”治理实现数据治理效果的示意图。通过“一数一源一标准”治理,将相同数据项中同一种意思的不同值,统一成同一种标准值,从而为数据深度开发利用提供优质的基础数据。
图6体现了“一数一源一标准”治理和传统治理(数据过滤、数据清洗)效果区别。传统治理可针对原始数据,通过数据过滤、数据清洗技术,区分并得到正确的数据。而本发明实施例的“一数一源一标准”治理可以通过“数据标准化”、“权威数据匹配”得到标准、(唯一)权威的数据。
在一些实施例中,如图7所示,本发明实施例提供一种公共数据治理装置,所述装置包括:
关联模块,对公共数据中的每个数据项,进行数据标准关联;
治理模块,基于所述数据标准,治理所述数据标准对应的每个数据项的数据质量,确定所述每个数据项对应的标准数据;
修正模块,根据所述每个数据项对应的目标来源数据,修正对应的标准数据并录入数据库。
本发明的公共数据,主要指政府部门、公共事务职能组织以及供水、供电、供气、公共交通等公共服务运营单位在依法履行职责或者提供公共服务过程中收集、产生的数据,也可称之为政务数据。本发明实施例提供的“一数一源一标准”治理技术方案,除了运用于政务大数据治理领域,亦可运用于企业大数据治理领域。
在一些实施例中,所述数据标准包括通用标准和个性化标准;关联模块,还具体用于,根据公共数据中的每个数据项的类型,对所述每个数据项进行通用数据标准关联;根据公共数据中的每个数据项的来源,对所述每个数据项进行个性化数据标准关联。
在一些实施例中,治理模块,还具体用于,基于所述数据标准,对每个所述数据标准关联的数据项进行数据质量判断;若所述数据质量符合标准,则确定所述数据项的标准数据;若所述数据质量不符合标准,则先对所述数据项进行治理,再确定标准数据。
在一些实施例中,治理模块,还具体用于,根据所述数据标准对应的预设治理规则,将所述数据标准关联的数据项进行映射转化,并再次执行所述基于所述数据标准,对每个所述数据标准关联的数据项进行数据质量判断的步骤,直至确定所述数据项的标准数据。
在一些实施例中,修正模块,还具体用于,将所述每个数据项对应的目标来源数据与标准数据进行比对;若结果一致,则将所述数据项对应的标准数据录入数据库;若结果不一致,则基于所述数据项对应的目标来源数据,对所述标准数据进行修正,并将修正后的标准数据录入数据库中。
在一些实施例中,修正模块,还具体用于,基于所述目标来源数据,修正相对应的标准数据,再次执行所述将所述数据标准关联的数据项的标准数据与所述数据标准关联的数据项的目标来源数据进行比对的步骤,直至将所述公共数据中的每个数据项的标准数据录入数据库。
在一些实施例中,在对公共数据中的每个数据项,进行数据标准关联的步骤之前,所述装置还包括预处理模块,用于对所述公共数据进行预处理清洗操作。
本发明实施例提供的用于实现一种电子设备,本实施例中,所述电子设备可以是,但不限于,个人电脑(Personal Computer,PC)、笔记本电脑、监控设备、服务器等具备分析及处理能力的计算机设备。
作为一种示范性实施例,可参见图8,电子设备110,包括通信接口111、处理器112、存储器113以及总线114,处理器112、通信接口111和存储器113通过总线114连接;上述存储器113用于存储支持处理器112执行上述方法的计算机程序,上述处理器112被配置为用于执行该存储器113中存储的程序。
本文中提到的机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
非易失性介质可以是非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等),或者类似的非易失性存储介质,或者它们的组合。
可以理解的是,本实施例中的各功能模块的具体操作方法可参照上述方法实施例中相应步骤的详细描述,在此不再重复赘述。
本发明实施例所提供计算机可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序代码被执行时可实现上述任一实施例所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种公共数据治理方法,其特征在于,所述方法包括:
对公共数据中的每个数据项,进行数据标准关联;
基于所述数据标准,治理所述数据标准对应的每个数据项的数据质量,确定所述每个数据项对应的标准数据;
根据所述每个数据项对应的目标来源数据,修正对应的标准数据并录入数据库。
2.根据权利要求1所述的方法,其特征在于,所述数据标准包括通用标准和个性化标准;对公共数据中的每个数据项,进行数据标准关联的步骤,包括:
根据公共数据中的每个数据项的类型,对所述每个数据项进行通用数据标准关联;
根据公共数据中的每个数据项的来源,对所述每个数据项进行个性化数据标准关联。
3.根据权利要求2所述的方法,其特征在于,基于所述数据标准,治理所述数据标准对应的每个数据项的数据质量,确定所述每个数据项对应的标准数据的步骤,包括:
基于所述数据标准,对每个所述数据标准关联的数据项进行数据质量判断;
若所述数据质量符合标准,则确定所述数据项的标准数据;
若所述数据质量不符合标准,则先对所述数据项进行治理,再确定标准数据。
4.根据权利要求3所述的方法,其特征在于,先对所述数据项进行治理,再确定标准数据的步骤,包括:
根据所述数据标准对应的预设治理规则,将所述数据标准关联的数据项进行映射转化,并再次执行所述基于所述数据标准,对每个所述数据标准关联的数据项进行数据质量判断的步骤,直至确定所述数据项的标准数据。
5.根据权利要求1所述的方法,其特征在于,根据所述每个数据项对应的目标来源数据,修正对应的标准数据并录入数据库的步骤,包括:
将所述每个数据项对应的目标来源数据与标准数据进行比对;
若结果一致,则将所述数据项对应的标准数据录入数据库;
若结果不一致,则基于所述数据项对应的目标来源数据,对所述标准数据进行修正,并将修正后的标准数据录入数据库中。
6.根据权利要求5所述的方法,其特征在于,基于所述数据项对应的目标来源数据,对所述标准数据进行修正,并将修正后的标准数据录入数据库中的步骤,包括:
基于所述目标来源数据,修正相对应的标准数据,再次执行所述将所述数据标准关联的数据项的标准数据与所述数据标准关联的数据项的目标来源数据进行比对的步骤,直至将所述公共数据中的每个数据项的标准数据录入数据库。
7.根据权利要求1所述的方法,其特征在于,在对公共数据中的每个数据项,进行数据标准关联的步骤之前,所述方法还包括:
对所述公共数据进行预处理清洗操作。
8.一种公共数据治理装置,其特征在于,所述装置包括:
关联模块,对公共数据中的每个数据项,进行数据标准关联;
治理模块,基于所述数据标准,治理所述数据标准对应的每个数据项的数据质量,确定所述每个数据项对应的标准数据;
修正模块,根据所述每个数据项对应的目标来源数据,修正对应的标准数据并录入数据库。
9.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并且能够在所述处理器上运行的程序,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序被执行时实现权利要求1-7中任意一项所述的方法。
CN202310206723.6A 2023-02-27 2023-02-27 公共数据治理方法、装置、电子设备和可读存储介质 Pending CN116186014A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310206723.6A CN116186014A (zh) 2023-02-27 2023-02-27 公共数据治理方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310206723.6A CN116186014A (zh) 2023-02-27 2023-02-27 公共数据治理方法、装置、电子设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN116186014A true CN116186014A (zh) 2023-05-30

Family

ID=86436431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310206723.6A Pending CN116186014A (zh) 2023-02-27 2023-02-27 公共数据治理方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN116186014A (zh)

Similar Documents

Publication Publication Date Title
CN109791591B (zh) 经由区块链进行身份和凭证保护及核实的方法和系统
BR112019015920A2 (pt) Ingestão de dados heterogêneos em escala massiva e resolução de usuário
US8977861B2 (en) Method and system for biometric authentication
CN109344831A (zh) 一种数据表识别方法、装置及终端设备
CN110162516B (zh) 一种基于海量数据处理的数据治理的方法及系统
CN110674360B (zh) 一种用于数据的溯源方法和系统
US20210334407A1 (en) Personally identifiable information storage detection by searching a metadata source
Schnell Linking surveys and administrative data
CN109616184A (zh) 一种基于互联网的医疗数据集成系统
CN110752027B (zh) 电子病历数据推送方法、装置、计算机设备和存储介质
CN103874981A (zh) 高效率的学生记录匹配
CN117216109A (zh) 一种多类型混合数据的数据查询方法、装置及存储介质
US11309065B2 (en) Management and tracking solution for specific patient consent attributes and permissions
WO2020231590A1 (en) Healthcare data cloud system, server and method
CN116186014A (zh) 公共数据治理方法、装置、电子设备和可读存储介质
CN107464091B (zh) 用于司法鉴定/法庭科学机构的智能化案件委托管理方法
US20140172834A1 (en) Providing premium access to aggregated data sets
CN115759040A (zh) 一种电子病历解析方法、装置、设备和存储介质
US10664501B2 (en) Deriving and interpreting users collective data asset use across analytic software systems
CN114219667A (zh) 用于保险服务的医疗数据处理方法、装置、设备及介质
US10387525B2 (en) Method and system for increasing data reliability through crowd sourcing
WO2021073264A1 (zh) 票据信息采集方法、装置、计算机设备及可读存储介质
CN109616166B (zh) 医疗数据登记管理方法及装置、电子设备、存储介质
US20240073194A1 (en) Systems and methods for providing a digital credentials registry
US20220207168A1 (en) Identifying and enabling levels of dataset access

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination