CN111125069B - 一种数据清洗融合系统 - Google Patents

一种数据清洗融合系统 Download PDF

Info

Publication number
CN111125069B
CN111125069B CN201911104333.8A CN201911104333A CN111125069B CN 111125069 B CN111125069 B CN 111125069B CN 201911104333 A CN201911104333 A CN 201911104333A CN 111125069 B CN111125069 B CN 111125069B
Authority
CN
China
Prior art keywords
data
storage module
rule
standardization
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911104333.8A
Other languages
English (en)
Other versions
CN111125069A (zh
Inventor
巩怀志
张启凡
李坤成
张文明
张玉英
贾西贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huaao Data Technology Co Ltd
Original Assignee
Shenzhen Huaao Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huaao Data Technology Co Ltd filed Critical Shenzhen Huaao Data Technology Co Ltd
Priority to CN201911104333.8A priority Critical patent/CN111125069B/zh
Publication of CN111125069A publication Critical patent/CN111125069A/zh
Application granted granted Critical
Publication of CN111125069B publication Critical patent/CN111125069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据清洗融合系统,历史数据存储模块,标准数据存储模块,原子数据存储模块,整合数据存储模块,主题数据存储模块,应用程序接口存储模块,还包括大数据库,实现对数据的清洗,在清洗过程解决数据存在的问题,并使清洗流程标准化。

Description

一种数据清洗融合系统
技术领域
本发明涉及数据清洗融合技术领域,更具体地,涉及一种数据清洗融合系统。
背景技术
政府部门、互联网企业、大型集团企业积累沉淀了大量的数据资源。我国已成为产生和积累数据量最大、数据类型最丰富的国家之一,从国家战略和城市战略来看数据已成为第一资源。因此如何对数据进行清洗融合,达到清洗目标,在清洗过程解决数据存在的问题,并使清洗流程标准化亟待解决。
发明内容
鉴于上述问题,本发明提出了一种数据清洗融合系统,达到清洗目标,在清洗过程解决数据存在的问题,并使清洗流程标准化。
为了达到上述目的,本发明实施例提供了一种数据清洗融合系统,包括:历史数据存储模块,用于存储结构化源数据,所述结构化源数据为按照预定的源数据标准化规则对源数据进行处理后的数据;
标准数据存储模块,用于存储标准化数据,所述标准化数据为按照字段字段命名规范化规则对结构化源数据进行标准化后的数据;
原子数据存储模块,用于存储最小颗粒化数据,所述最小颗粒化数据为按照数据元标准化规则以及数据编码标准化规则对结构化源数据和标准化数据进行处理后的数据;
整合数据存储模块,用于存储整合数据,所述整合数据为按照质量评测标准化规则,数据清洗标准化规则,一数一源标准化规则,算法包标准化规则,数据模型标准化规则,字段命名规范化规则,数据元标准化规则以及数据编码标准化规则对最小颗粒化数据进行整合后的数据;
主题数据存储模块,用于存储主题数据,所述主题数据为按照数据模型标准化规则,字段命名规范化规则,数据元标准化规则以及数据编码标准化规则对结构化源数据和整合数据进行处理后的数据;
应用程序接口存储模块,所述标准化应用数据接口,所述标准化应用程序接口为按照数据接口标准化规则对开发的数据接口进行处理后的接口,所述开发的数据接口为依据数据接口编程语言和开发工具对结构化源数据,标准化数据,最小颗粒化数据,整合数据和主题数据处理得到;
还包括大数据库,用于存储非结构化源数据,还用于存储结构化源数据,标准化数据,最小颗粒化数据,整合数据,主题数据和应用程序接口。
进一步的,所述字段命名规范化规则用于对代表同一实体同一属性的字段统一命名;
所述数据元标准化规则用于赋予字段数据元属性;
所述数据编码标准化规则用于针对字段类型,赋予字段所有可能取值及其编码形成的代码集;
所述数据模型标准化规则包括:
逻辑数据模型标准化规则,用于规范化数据逻辑;
概念数据模型标准化规则,用于规范化数据概念;
物理数据模型规范化规则,用于规范化存储的实际数据;
所述数据质量评测标准化规则用于规范实体去重和关联方式,规范补足字段的方式,规范格式和模型的转换方式以及规范数据关联和比对的方式;
所述一数一源标准化规则用于针对每一个字段,赋予权责单位;
所述算法包标准化规则用于检测和修正数据的形式错误。
进一步的,所述按照预定的源数据标准化规则对源数据进行处理包括按照字段命名规范化规则对源数据进行处理。
进一步的,所述按照预定的源数据标准化规则对源数据进行处理还包括按照数据模型标准化规则,数据元标准化规则以及数据编码标准化规则对源数据进行处理。
进一步的,所述结构化源数据进一步包括实时增量数据存储模块,日增量数据存储模块,月增量数据存储模块和全量数据存储模块;实时增量数据被读取后,转存至日增量数据存储模块,日增量数据被读取后转存至月增量数据存储模块,月增量数据被读取后转存至全量数据存储模块。
进一步的,所述标准数据存储模块进一步包括标准五跨数据存储模块,标准外部数据存储模块,标准感知数据存储模块和标准云采数据存储模块;所述标准五跨数据包括标准化后的跨地域数据、标准化后的跨层级数据、标准化后的跨部门数据、标准化后的跨系统数据和标准化后的跨业务数据。。
进一步的,所述原子数据存储模块进一步包括人口原子信息存储模块,法人原子信息存储模块,房屋原子信息存储模块、宏观经济原子信息存储模块和电子证照原子信息存储模块。
进一步的,所述整合数据存储模块进一步包括人口合并信息存储模块,法人合并信息存储模块,房屋合并信息存储模块,宏观经济合并信息存储模块和电子证照合并信息存储模块。
进一步的,所述主题数据存储模块进一步包括面向社会诚信的数据集市,面向教育资源的数据集市,面向经济产业的数据集市,面向重点企业的数据集市,面向人才引进的数据集市和面向医疗资源的数据集市。
进一步的,所述应用程序接口存储模块进一步包括社会诚信应用程序接口,教育资源应用程序接口,人才引进应用程序接口和医疗资源应用程序接口。
本发明实施例提供了一数据清洗融合系统,包括:历史数据存储模块,标准数据存储模块,原子数据存储模块,整合数据存储模块,主题数据存储模块,应用程序接口存储模块,还包括大数据库,实现对数据的清洗,在清洗过程解决数据存在的问题,并使清洗流程标准化。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为数据清洗融合系统原理图;
图2为数据清洗融合系统标准规则框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
结合图1数据清洗融合系统原理图和图2数据清洗融合系统标准规则框图,数据清洗融合系统,包括:历史数据存储模块,用于存储结构化源数据,所述结构化源数据为按照预定的源数据标准化规则对源数据进行处理后的数据;
标准数据存储模块,用于存储标准化数据,所述标准化数据为按照字段字段命名规范化规则对结构化源数据进行标准化后的数据;
原子数据存储模块,用于存储最小颗粒化数据,所述最小颗粒化数据为按照数据元标准化规则以及数据编码标准化规则对结构化源数据和标准化数据进行处理后的数据;
整合数据存储模块,用于存储整合数据,所述整合数据为按照质量评测标准化规则,数据清洗标准化规则,一数一源标准化规则,算法包标准化规则,数据模型标准化规则,字段命名规范化规则,数据元标准化规则以及数据编码标准化规则对最小颗粒化数据进行整合后的数据;
主题数据存储模块,用于存储主题数据,所述主题数据为按照数据模型标准化规则,字段命名规范化规则,数据元标准化规则以及数据编码标准化规则对结构化源数据和整合数据进行处理后的数据;
在主题数据存储前,还可对数据进行智能加工,形成维度智能指标库和数据标签库。
应用程序接口存储模块,所述标准化应用数据接口,所述标准化应用程序接口为按照数据接口标准化规则对开发的数据接口进行处理后的接口,所述开发的数据接口为依据数据接口编程语言和开发工具对结构化源数据,标准化数据,最小颗粒化数据,整合数据和主题数据处理得到;在接口设计之前还对数据定制加工,建立权责字段库。
还包括大数据库,用于存储非结构化源数据,还用于存储结构化源数据,标准化数据,最小颗粒化数据,整合数据,主题数据和应用程序接口。
所述字段命名规范化规则用于对代表同一实体同一属性的字段统一命名;
所述数据元标准化规则用于赋予字段数据元属性;
所述数据编码标准化规则用于针对字段类型,赋予字段所有可能取值及其编码形成的代码集;
所述数据模型标准化规则包括:
逻辑数据模型标准化规则,用于规范化数据逻辑;
概念数据模型标准化规则,用于规范化数据概念;
物理数据模型规范化规则,用于规范化存储的实际数据;
所述数据质量评测标准化规则用于规范实体去重和关联方式,规范补足字段的方式,规范格式和模型的转换方式以及规范数据关联和比对的方式;
所述一数一源标准化规则用于针对每一个字段,赋予权责单位;
所述算法包标准化规则用于检测和修正数据的形式错误。
所述按照预定的源数据标准化规则对源数据进行处理包括按照字段命名规范化规则对源数据进行处理。
所述按照预定的源数据标准化规则对源数据进行处理还包括按照数据模型标准化规则,数据元标准化规则以及数据编码标准化规则对源数据进行处理。
数据清洗融合的流程如下:
1.数据归集
a)目录层
b)归集层
2.前清洗
a)历史层:数据版本化、历史数据归档、增量数据处理;
b)标准层:形式错误的查错、改错;
c)基础层:实质错误的查错,数据最小颗粒化,数据关联、比对;
3.后清洗
a)整合层:实质错误的修正,数据的逻辑融合,基础库的建模建库;
b)主题层:数据预计算,主题库的建模建库;
c)应用层:数据的定制加工,数据接口的设计、开发。
数据清洗规则的标准化:
在这六层的加工中,每一层都有相应的标准和规则。各层中经常会涉及的有四类标准:
1)字段命名规范:对各数据库、各表中代表同一实体同一属性的字段,进行统一命名,以便后续处理中可以进行自动字段映射。
a)核心字段:直接给出建议字段名,比如,性别的字段名可以是“Gender”。
b)非核心字段:给出建议命名法则,比如,使用首字母大写的英语单词命名字段,或使用首字母大写的全拼中文词命名字段,或用汉字命名字段等等。
2)数据元标准:给出每个字段的数据类型等数据元属性。
3)数据编码标准
a)针对枚举型字段,给出字段所有可能取值及其编码形成的代码集。
4)数据模型标准:主要是指逻辑数据模型(LDM)标准。
a)逻辑数据模型(LDM):规范化数据的逻辑数据模型。
b)概念数据模型(CDM):规范化数据的概念数据模型,如实体关系图。
c)物理数据模型(PDM):规范化实际数据存储的物理数据模型,如某一个数据库针对Oracle环境的DDL脚本。
在整合层、主题层,需要给出每个基础库、主题库的上述四项标准,在数源层,可以逐步推行数据标准化,针对增量数据逐步指定出各委办局业务库中的上述四项标准。在原则层,重点做好数据元标准和数据编码标准。此外,在应用层,制定好数据接口标准。
除此之外,在数据清洗中,具有重大意义的规则还包括:
5)数据质量评测标准:针对数据中的唯一性(实体同一性、关联性)、完全性、规范性等形式错误的清洗和实质错误的查错,制定评测标准。包括规范实体如何去重、关联,字段如何补足,格式、模型如何转换,如何进行数据的关联、比对等方面的内容。
6)数据清洗规则标准:针对形式错误和实质错误,采用什么样的清洗规则。特别是,针对实质错误的冲突取值,规范一数一源规则、多元校核规则、大多数规则、新鲜度规则、权威性规则、自洽性规则等清洗规则的使用场景、使用顺序和使用优先级。
7)一数一源标准:针对每一个字段,给出不同条件下的一数一源权责单位,是一种有条件的一数一源规范。
8)算法包标准:针对形式错误的检测和修正,研发算法包的设计、开发、接口规范。
其中,一数一源标准是达成二级数据质量的前提。数据清洗规则标准是达成三级数据质量的前提。
数据中的问题有很多类,最重要的一类是质量问题。数据中的质量问题主要有两类错误:形式错误以及实质错误,这两类错误主要分为五个方面:重复性问题、完全性问题、规范性问题、一致性问题和时效性问题,解决了这五个方面的问题,可以让数据不多、不少、不乱、不错、不旧。
为了上述数据中的“五性”“两错”问题,需要对数据进行两类操作,查错:数据质量评估检测;改错:数据错误的修正与数据问题的解决。
这两类操作与数据中的两类错误匹配,并且参照国务院2016年发布的《政务信息资源共享管理暂行办法》(国发﹝2016﹞51号)中的“一数一源、多元校核”原则、“谁主管,谁提供,谁负责”的原则以及“谁经手,谁使用,谁管理,谁负责”的原则,有如下八种操作:
1形式错误的查错:
2形式错误的改错
3实质错误的查错;
4实质错误的改错;
4.1根据“一数一源”原则,在数据的多源提供方中,以一数一源权责单位提供的数据作为基准数据,进行了实质错误的修正;
4.2根据“一数一源”原则,对实质错误的建议修正值,向一数一源权责单位进行确认,以确认值作为基准数据进行了实质错误的修正;
4.3根据“多元校核”原则,对实质错误的建议修正值,向数据的所有提供方进行确认,以确认值作为基准数据进行了实质错误的修正;
4.4根据“多元校核”原则,对实质错误的建议修正值,向数据的所有提供方、使用方和管理方进行确认,以确认值作为基准数据进行了实质错误的修正;
4.5未形成完备的“一数一源、多元校核”,在数据的多源提供方中,根据“大多数原则、新鲜度原则、权威性原则、自洽性原则”等经验原则进行的实质错误修正。
经过前清洗,可以形成数据的先天质量——即未经实质错误改错的质量。前清洗是形式错误查错、改错与实质错误查错的过程。
经过前清洗的数据,可以继续清洗,在经过了后清洗——进行了实质错误的改错,可以形成一到五级数据质量。
六层数据清洗流水线:
数据清洗流程在分为前清洗和后清洗两个阶段的基础上,仍然需要进一步精细化、标准化,以便前后步骤衔接,清洗结果不因时而异、不因事而异、因人而异。
结构化源数据进一步包括实时增量数据存储模块,日增量数据存储模块,月增量数据存储模块和全量数据存储模块;实时增量数据被读取后,转存至日增量数据存储模块,日增量数据被读取后转存至月增量数据存储模块,月增量数据被读取后转存至全量数据存储模块。
标准数据存储模块进一步包括标准五跨数据存储模块,标准外部数据存储模块,标准感知数据存储模块和标准云采数据存储模块;所述标准五跨数据包括标准化后的跨地域数据、标准化后的跨层级数据、标准化后的跨部门数据、标准化后的跨系统数据和标准化后的跨业务数据。
原子数据存储模块进一步包括人口原子信息存储模块,法人原子信息存储模块,房屋原子信息存储模块、宏观经济原子信息存储模块和电子证照原子信息存储模块。
整合数据存储模块进一步包括人口合并信息存储模块,法人合并信息存储模块,房屋合并信息存储模块,宏观经济合并信息存储模块和电子证照合并信息存储模块。
主题数据存储模块进一步包括面向社会诚信的数据集市,面向教育资源的数据集市,面向经济产业的数据集市,面向重点企业的数据集市,面向人才引进的数据集市和面向医疗资源的数据集市。
所述应用程序接口存储模块进一步包括社会诚信应用程序接口,教育资源应用程序接口,人才引进应用程序接口和医疗资源应用程序接口。
发明提供了一数据源清洗融合系统,包括历史数据存储模块,标准数据存储模块,原子数据存储模块,整合数据存储模块,主题数据存储模块,应用程序接口存储模块,还包括大数据库,用于存储非结构化源数据,还用于存储结构化源数据,标准化数据,最小颗粒化数据,整合数据,主题数据和应用程序接口,达到清洗目标,在清洗过程解决数据存在的问题,并使清洗流程标准化。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种数据分析方法和系统进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (3)

1.一种数据清洗融合系统,其特征在于,包括:
历史数据存储模块,用于存储结构化源数据,所述结构化源数据为按照预定的源数据标准化规则对源数据进行处理后的数据;
标准数据存储模块,用于存储标准化数据,所述标准化数据为按照字段字段命名规范化规则对结构化源数据进行标准化后的数据;
原子数据存储模块,用于存储最小颗粒化数据,所述最小颗粒化数据为按照数据元标准化规则以及数据编码标准化规则对结构化源数据和标准化数据进行处理后的数据;
整合数据存储模块,用于存储整合数据,所述整合数据为按照质量评测标准化规则,数据清洗标准化规则,一数一源标准化规则,算法包标准化规则,数据模型标准化规则,字段命名规范化规则,数据元标准化规则以及数据编码标准化规则对最小颗粒化数据进行整合后的数据;
主题数据存储模块,用于存储主题数据,所述主题数据为按照数据模型标准化规则,字段命名规范化规则,数据元标准化规则以及数据编码标准化规则对结构化源数据和整合数据进行处理后的数据;
应用程序接口存储模块,所述标准化应用数据接口,所述标准化应用程序接口为按照数据接口标准化规则对开发的数据接口进行处理后的接口,所述开发的数据接口为依据数据接口编程语言和开发工具对结构化源数据,标准化数据,最小颗粒化数据,整合数据和主题数据处理得到;
还包括大数据库,用于存储非结构化源数据,还用于存储结构化源数据,标准化数据,最小颗粒化数据,整合数据,主题数据和应用程序接口,
所述字段命名规范化规则用于对代表同一实体同一属性的字段统一命名;
所述数据元标准化规则用于赋予字段数据元属性;
所述数据编码标准化规则用于针对字段类型,赋予字段所有可能取值及其编码形成的代码集;
所述数据模型标准化规则包括:
逻辑数据模型标准化规则,用于规范化数据逻辑;
概念数据模型标准化规则,用于规范化数据概念;
物理数据模型规范化规则,用于规范化存储的实际数据;
所述数据质量评测标准化规则用于规范实体去重和关联方式,规范补足字段的方式,规范格式和模型的转换方式以及规范数据关联和比对的方式;
所述一数一源标准化规则用于针对每一个字段,赋予权责单位;
所述算法包标准化规则用于检测和修正数据的形式错误,
所述按照预定的源数据标准化规则对源数据进行处理包括按照字段命名规范化规则对源数据进行处理,
所述按照预定的源数据标准化规则对源数据进行处理还包括按照数据模型标准化规则,数据元标准化规则以及数据编码标准化规则对源数据进行处理,
所述标准数据存储模块进一步包括标准五跨数据存储模块,标准外部数据存储模块,标准感知数据存储模块和标准云采数据存储模块;所述标准五跨数据包括标准化后的跨地域数据、标准化后的跨层级数据、标准化后的跨部门数据、标准化后的跨系统数据和标准化后的跨业务数据,
所述原子数据存储模块进一步包括人口原子信息存储模块,法人原子信息存储模块,房屋原子信息存储模块、宏观经济原子信息存储模块和电子证照原子信息存储模块,
所述整合数据存储模块进一步包括人口合并信息存储模块,法人合并信息存储模块,房屋合并信息存储模块,宏观经济合并信息存储模块和电子证照合并信息存储模块,
所述主题数据存储模块进一步包括面向社会诚信的数据集市,面向教育资源的数据集市,面向经济产业的数据集市,面向重点企业的数据集市,面向人才引进的数据集市和面向医疗资源的数据集市。
2.根据权利要求1所述的一种数据清洗融合系统,其特征在于,所述结构化源数据进一步包括实时增量数据存储模块,日增量数据存储模块,月增量数据存储模块和全量数据存储模块;实时增量数据被读取后,转存至日增量数据存储模块,日增量数据被读取后转存至月增量数据存储模块,月增量数据被读取后转存至全量数据存储模块。
3.根据权利要求1所述的一种数据清洗融合系统,其特征在于,所述应用程序接口存储模块进一步包括社会诚信应用程序接口,教育资源应用程序接口,人才引进应用程序接口和医疗资源应用程序接口。
CN201911104333.8A 2019-11-13 2019-11-13 一种数据清洗融合系统 Active CN111125069B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911104333.8A CN111125069B (zh) 2019-11-13 2019-11-13 一种数据清洗融合系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911104333.8A CN111125069B (zh) 2019-11-13 2019-11-13 一种数据清洗融合系统

Publications (2)

Publication Number Publication Date
CN111125069A CN111125069A (zh) 2020-05-08
CN111125069B true CN111125069B (zh) 2023-04-28

Family

ID=70495258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911104333.8A Active CN111125069B (zh) 2019-11-13 2019-11-13 一种数据清洗融合系统

Country Status (1)

Country Link
CN (1) CN111125069B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231524A (zh) * 2020-10-22 2021-01-15 北京天融信网络安全技术有限公司 一种数据融合方法、装置、存储介质及电子设备
CN112486989B (zh) * 2020-11-28 2021-08-27 河北省科学技术情报研究院(河北省科技创新战略研究院) 一种多源数据颗粒化融合及指标分类分层处理方法
CN113190552B (zh) * 2021-04-20 2024-02-27 北京异乡旅行网络科技有限公司 房源信息处理的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844617A (zh) * 2017-01-18 2017-06-13 北京万方数据股份有限公司 一种数据存储方法及系统
CN107402976A (zh) * 2017-07-03 2017-11-28 国网山东省电力公司经济技术研究院 一种基于多元异构模型的电网多源数据融合方法及系统
CN107729448A (zh) * 2017-09-30 2018-02-23 深圳市华傲数据技术有限公司 一种基于数据仓库的数据处理系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844617A (zh) * 2017-01-18 2017-06-13 北京万方数据股份有限公司 一种数据存储方法及系统
CN107402976A (zh) * 2017-07-03 2017-11-28 国网山东省电力公司经济技术研究院 一种基于多元异构模型的电网多源数据融合方法及系统
CN107729448A (zh) * 2017-09-30 2018-02-23 深圳市华傲数据技术有限公司 一种基于数据仓库的数据处理系统

Also Published As

Publication number Publication date
CN111125069A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111125069B (zh) 一种数据清洗融合系统
CN111190881A (zh) 一种数据治理方法和系统
WO2017076263A1 (zh) 融合知识库处理方法和装置及知识库管理系统、存储介质
US8566903B2 (en) Enterprise evidence repository providing access control to collected artifacts
CN111324602A (zh) 一种实现面向金融大数据分析可视化方法
CN110119395B (zh) 大数据治理中基于元数据实现数据标准与数据质量关联处理的方法
CN112559766B (zh) 一种法律知识图谱构建系统
CN111339299B (zh) 一种领域知识库的构建方法和装置
US11119989B1 (en) Data aggregation with schema enforcement
CN109284420B (zh) 电子元器件替代选型系统及替代选型方法
CN106682096A (zh) 一种日志数据的管理方法和装置
CN110457294A (zh) 一种数据处理方法和装置
CN112231333A (zh) 一种生态环境数据共享交换方法和系统
CN112434024B (zh) 面向关系型数据库的数据字典生成方法、装置、设备及介质
CN111400288A (zh) 数据质量检查方法及系统
CN106682099A (zh) 一种数据的存储方法和装置
CN111737335B (zh) 产品信息集成处理方法、装置、计算机设备和存储介质
Sneed et al. Testing big data (Assuring the quality of large databases)
CN114218218A (zh) 基于数据仓库的数据处理方法、装置、设备及存储介质
CN112817958A (zh) 电力规划数据采集方法、装置及智能终端
CN116719799A (zh) 环保数据治理方法、装置、计算机设备和存储介质
CN113468163B (zh) 一种多源异构公安大数据智能对接引擎系统
CN112084177B (zh) 基于数据采集治理及挖掘分析的数据池应用方法及装置
CN113254725A (zh) 一种面向图数据库的数据管理与检索增强的方法
CN117391084A (zh) 基于dcmm体系和深度学习的数据治理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 2203/2204, Building 1, Huide Building, Beizhan Community, Minzhi Street, Shenzhen, Guangdong 518000

Patentee after: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd.

Address before: Unit 12J and K, Building 7, Baoneng Science and Technology Park, Qinghu Community, Longhua Street, Longhua District, Shenzhen City, Guangdong Province, 518000

Patentee before: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd.