CN111125069B

CN111125069B - 一种数据清洗融合系统

Info

Publication number: CN111125069B
Application number: CN201911104333.8A
Authority: CN
Inventors: 巩怀志; 张启凡; 李坤成; 张文明; 张玉英; 贾西贝
Original assignee: Shenzhen Huaao Data Technology Co Ltd
Current assignee: Shenzhen Huaao Data Technology Co Ltd
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2023-04-28
Anticipated expiration: 2039-11-13
Also published as: CN111125069A

Abstract

本发明公开了一种数据清洗融合系统，历史数据存储模块，标准数据存储模块，原子数据存储模块，整合数据存储模块，主题数据存储模块，应用程序接口存储模块，还包括大数据库，实现对数据的清洗，在清洗过程解决数据存在的问题，并使清洗流程标准化。

Description

一种数据清洗融合系统

技术领域

本发明涉及数据清洗融合技术领域，更具体地，涉及一种数据清洗融合系统。

背景技术

政府部门、互联网企业、大型集团企业积累沉淀了大量的数据资源。我国已成为产生和积累数据量最大、数据类型最丰富的国家之一，从国家战略和城市战略来看数据已成为第一资源。因此如何对数据进行清洗融合，达到清洗目标，在清洗过程解决数据存在的问题，并使清洗流程标准化亟待解决。

发明内容

鉴于上述问题，本发明提出了一种数据清洗融合系统，达到清洗目标，在清洗过程解决数据存在的问题，并使清洗流程标准化。

为了达到上述目的，本发明实施例提供了一种数据清洗融合系统，包括：历史数据存储模块，用于存储结构化源数据，所述结构化源数据为按照预定的源数据标准化规则对源数据进行处理后的数据；

标准数据存储模块，用于存储标准化数据，所述标准化数据为按照字段字段命名规范化规则对结构化源数据进行标准化后的数据；

原子数据存储模块，用于存储最小颗粒化数据，所述最小颗粒化数据为按照数据元标准化规则以及数据编码标准化规则对结构化源数据和标准化数据进行处理后的数据；

整合数据存储模块，用于存储整合数据，所述整合数据为按照质量评测标准化规则，数据清洗标准化规则，一数一源标准化规则，算法包标准化规则，数据模型标准化规则，字段命名规范化规则，数据元标准化规则以及数据编码标准化规则对最小颗粒化数据进行整合后的数据；

主题数据存储模块，用于存储主题数据，所述主题数据为按照数据模型标准化规则，字段命名规范化规则，数据元标准化规则以及数据编码标准化规则对结构化源数据和整合数据进行处理后的数据；

应用程序接口存储模块，所述标准化应用数据接口，所述标准化应用程序接口为按照数据接口标准化规则对开发的数据接口进行处理后的接口，所述开发的数据接口为依据数据接口编程语言和开发工具对结构化源数据，标准化数据，最小颗粒化数据，整合数据和主题数据处理得到；

还包括大数据库，用于存储非结构化源数据，还用于存储结构化源数据，标准化数据，最小颗粒化数据，整合数据，主题数据和应用程序接口。

进一步的，所述字段命名规范化规则用于对代表同一实体同一属性的字段统一命名；

所述数据元标准化规则用于赋予字段数据元属性；

所述数据编码标准化规则用于针对字段类型，赋予字段所有可能取值及其编码形成的代码集；

所述数据模型标准化规则包括：

逻辑数据模型标准化规则，用于规范化数据逻辑；

概念数据模型标准化规则，用于规范化数据概念；

物理数据模型规范化规则，用于规范化存储的实际数据；

所述数据质量评测标准化规则用于规范实体去重和关联方式，规范补足字段的方式，规范格式和模型的转换方式以及规范数据关联和比对的方式；

所述一数一源标准化规则用于针对每一个字段，赋予权责单位；

所述算法包标准化规则用于检测和修正数据的形式错误。

进一步的，所述按照预定的源数据标准化规则对源数据进行处理包括按照字段命名规范化规则对源数据进行处理。

进一步的，所述按照预定的源数据标准化规则对源数据进行处理还包括按照数据模型标准化规则，数据元标准化规则以及数据编码标准化规则对源数据进行处理。

进一步的，所述结构化源数据进一步包括实时增量数据存储模块，日增量数据存储模块，月增量数据存储模块和全量数据存储模块；实时增量数据被读取后，转存至日增量数据存储模块，日增量数据被读取后转存至月增量数据存储模块，月增量数据被读取后转存至全量数据存储模块。

进一步的，所述标准数据存储模块进一步包括标准五跨数据存储模块，标准外部数据存储模块，标准感知数据存储模块和标准云采数据存储模块；所述标准五跨数据包括标准化后的跨地域数据、标准化后的跨层级数据、标准化后的跨部门数据、标准化后的跨系统数据和标准化后的跨业务数据。。

进一步的，所述原子数据存储模块进一步包括人口原子信息存储模块，法人原子信息存储模块，房屋原子信息存储模块、宏观经济原子信息存储模块和电子证照原子信息存储模块。

进一步的，所述整合数据存储模块进一步包括人口合并信息存储模块，法人合并信息存储模块，房屋合并信息存储模块，宏观经济合并信息存储模块和电子证照合并信息存储模块。

进一步的，所述主题数据存储模块进一步包括面向社会诚信的数据集市，面向教育资源的数据集市，面向经济产业的数据集市，面向重点企业的数据集市，面向人才引进的数据集市和面向医疗资源的数据集市。

进一步的，所述应用程序接口存储模块进一步包括社会诚信应用程序接口，教育资源应用程序接口，人才引进应用程序接口和医疗资源应用程序接口。

本发明实施例提供了一数据清洗融合系统，包括：历史数据存储模块，标准数据存储模块，原子数据存储模块，整合数据存储模块，主题数据存储模块，应用程序接口存储模块，还包括大数据库，实现对数据的清洗，在清洗过程解决数据存在的问题，并使清洗流程标准化。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为数据清洗融合系统原理图；

图2为数据清洗融合系统标准规则框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1数据清洗融合系统原理图和图2数据清洗融合系统标准规则框图，数据清洗融合系统，包括：历史数据存储模块，用于存储结构化源数据，所述结构化源数据为按照预定的源数据标准化规则对源数据进行处理后的数据；

在主题数据存储前，还可对数据进行智能加工，形成维度智能指标库和数据标签库。

应用程序接口存储模块，所述标准化应用数据接口，所述标准化应用程序接口为按照数据接口标准化规则对开发的数据接口进行处理后的接口，所述开发的数据接口为依据数据接口编程语言和开发工具对结构化源数据，标准化数据，最小颗粒化数据，整合数据和主题数据处理得到；在接口设计之前还对数据定制加工，建立权责字段库。

所述字段命名规范化规则用于对代表同一实体同一属性的字段统一命名；

所述数据元标准化规则用于赋予字段数据元属性；

所述数据模型标准化规则包括：

逻辑数据模型标准化规则，用于规范化数据逻辑；

概念数据模型标准化规则，用于规范化数据概念；

物理数据模型规范化规则，用于规范化存储的实际数据；

所述算法包标准化规则用于检测和修正数据的形式错误。

所述按照预定的源数据标准化规则对源数据进行处理包括按照字段命名规范化规则对源数据进行处理。

所述按照预定的源数据标准化规则对源数据进行处理还包括按照数据模型标准化规则，数据元标准化规则以及数据编码标准化规则对源数据进行处理。

数据清洗融合的流程如下：

1.数据归集

a)目录层

b)归集层

2.前清洗

a)历史层：数据版本化、历史数据归档、增量数据处理；

b)标准层：形式错误的查错、改错；

c)基础层：实质错误的查错，数据最小颗粒化，数据关联、比对；

3.后清洗

a)整合层：实质错误的修正，数据的逻辑融合，基础库的建模建库；

b)主题层：数据预计算，主题库的建模建库；

c)应用层：数据的定制加工，数据接口的设计、开发。

数据清洗规则的标准化：

在这六层的加工中，每一层都有相应的标准和规则。各层中经常会涉及的有四类标准：

1)字段命名规范：对各数据库、各表中代表同一实体同一属性的字段，进行统一命名，以便后续处理中可以进行自动字段映射。

a)核心字段：直接给出建议字段名，比如，性别的字段名可以是“Gender”。

b)非核心字段：给出建议命名法则，比如，使用首字母大写的英语单词命名字段，或使用首字母大写的全拼中文词命名字段，或用汉字命名字段等等。

2)数据元标准：给出每个字段的数据类型等数据元属性。

3)数据编码标准

a)针对枚举型字段，给出字段所有可能取值及其编码形成的代码集。

4)数据模型标准：主要是指逻辑数据模型(LDM)标准。

a)逻辑数据模型(LDM)：规范化数据的逻辑数据模型。

b)概念数据模型(CDM)：规范化数据的概念数据模型，如实体关系图。

c)物理数据模型(PDM)：规范化实际数据存储的物理数据模型，如某一个数据库针对Oracle环境的DDL脚本。

在整合层、主题层，需要给出每个基础库、主题库的上述四项标准，在数源层，可以逐步推行数据标准化，针对增量数据逐步指定出各委办局业务库中的上述四项标准。在原则层，重点做好数据元标准和数据编码标准。此外，在应用层，制定好数据接口标准。

除此之外，在数据清洗中，具有重大意义的规则还包括：

5)数据质量评测标准：针对数据中的唯一性(实体同一性、关联性)、完全性、规范性等形式错误的清洗和实质错误的查错，制定评测标准。包括规范实体如何去重、关联，字段如何补足，格式、模型如何转换，如何进行数据的关联、比对等方面的内容。

6)数据清洗规则标准：针对形式错误和实质错误，采用什么样的清洗规则。特别是，针对实质错误的冲突取值，规范一数一源规则、多元校核规则、大多数规则、新鲜度规则、权威性规则、自洽性规则等清洗规则的使用场景、使用顺序和使用优先级。

7)一数一源标准：针对每一个字段，给出不同条件下的一数一源权责单位，是一种有条件的一数一源规范。

8)算法包标准：针对形式错误的检测和修正，研发算法包的设计、开发、接口规范。

其中，一数一源标准是达成二级数据质量的前提。数据清洗规则标准是达成三级数据质量的前提。

数据中的问题有很多类，最重要的一类是质量问题。数据中的质量问题主要有两类错误：形式错误以及实质错误，这两类错误主要分为五个方面：重复性问题、完全性问题、规范性问题、一致性问题和时效性问题，解决了这五个方面的问题，可以让数据不多、不少、不乱、不错、不旧。

为了上述数据中的“五性”“两错”问题，需要对数据进行两类操作，查错：数据质量评估检测；改错：数据错误的修正与数据问题的解决。

这两类操作与数据中的两类错误匹配，并且参照国务院2016年发布的《政务信息资源共享管理暂行办法》(国发﹝2016﹞51号)中的“一数一源、多元校核”原则、“谁主管，谁提供，谁负责”的原则以及“谁经手，谁使用，谁管理，谁负责”的原则，有如下八种操作：

1形式错误的查错：

2形式错误的改错

3实质错误的查错；

4实质错误的改错；

4.1根据“一数一源”原则，在数据的多源提供方中，以一数一源权责单位提供的数据作为基准数据，进行了实质错误的修正；

4.2根据“一数一源”原则，对实质错误的建议修正值，向一数一源权责单位进行确认，以确认值作为基准数据进行了实质错误的修正；

4.3根据“多元校核”原则，对实质错误的建议修正值，向数据的所有提供方进行确认，以确认值作为基准数据进行了实质错误的修正；

4.4根据“多元校核”原则，对实质错误的建议修正值，向数据的所有提供方、使用方和管理方进行确认，以确认值作为基准数据进行了实质错误的修正；

4.5未形成完备的“一数一源、多元校核”，在数据的多源提供方中，根据“大多数原则、新鲜度原则、权威性原则、自洽性原则”等经验原则进行的实质错误修正。

经过前清洗，可以形成数据的先天质量——即未经实质错误改错的质量。前清洗是形式错误查错、改错与实质错误查错的过程。

经过前清洗的数据，可以继续清洗，在经过了后清洗——进行了实质错误的改错，可以形成一到五级数据质量。

六层数据清洗流水线：

数据清洗流程在分为前清洗和后清洗两个阶段的基础上，仍然需要进一步精细化、标准化，以便前后步骤衔接，清洗结果不因时而异、不因事而异、因人而异。

结构化源数据进一步包括实时增量数据存储模块，日增量数据存储模块，月增量数据存储模块和全量数据存储模块；实时增量数据被读取后，转存至日增量数据存储模块，日增量数据被读取后转存至月增量数据存储模块，月增量数据被读取后转存至全量数据存储模块。

标准数据存储模块进一步包括标准五跨数据存储模块，标准外部数据存储模块，标准感知数据存储模块和标准云采数据存储模块；所述标准五跨数据包括标准化后的跨地域数据、标准化后的跨层级数据、标准化后的跨部门数据、标准化后的跨系统数据和标准化后的跨业务数据。

原子数据存储模块进一步包括人口原子信息存储模块，法人原子信息存储模块，房屋原子信息存储模块、宏观经济原子信息存储模块和电子证照原子信息存储模块。

整合数据存储模块进一步包括人口合并信息存储模块，法人合并信息存储模块，房屋合并信息存储模块，宏观经济合并信息存储模块和电子证照合并信息存储模块。

主题数据存储模块进一步包括面向社会诚信的数据集市，面向教育资源的数据集市，面向经济产业的数据集市，面向重点企业的数据集市，面向人才引进的数据集市和面向医疗资源的数据集市。

所述应用程序接口存储模块进一步包括社会诚信应用程序接口，教育资源应用程序接口，人才引进应用程序接口和医疗资源应用程序接口。

发明提供了一数据源清洗融合系统，包括历史数据存储模块，标准数据存储模块，原子数据存储模块，整合数据存储模块，主题数据存储模块，应用程序接口存储模块，还包括大数据库，用于存储非结构化源数据，还用于存储结构化源数据，标准化数据，最小颗粒化数据，整合数据，主题数据和应用程序接口，达到清洗目标，在清洗过程解决数据存在的问题，并使清洗流程标准化。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的一种数据分析方法和系统进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据清洗融合系统，其特征在于，包括：

历史数据存储模块，用于存储结构化源数据，所述结构化源数据为按照预定的源数据标准化规则对源数据进行处理后的数据；

还包括大数据库，用于存储非结构化源数据，还用于存储结构化源数据，标准化数据，最小颗粒化数据，整合数据，主题数据和应用程序接口，

所述数据元标准化规则用于赋予字段数据元属性；

所述数据模型标准化规则包括：

逻辑数据模型标准化规则，用于规范化数据逻辑；

概念数据模型标准化规则，用于规范化数据概念；

物理数据模型规范化规则，用于规范化存储的实际数据；

所述算法包标准化规则用于检测和修正数据的形式错误，

所述按照预定的源数据标准化规则对源数据进行处理包括按照字段命名规范化规则对源数据进行处理，

所述按照预定的源数据标准化规则对源数据进行处理还包括按照数据模型标准化规则，数据元标准化规则以及数据编码标准化规则对源数据进行处理，

所述标准数据存储模块进一步包括标准五跨数据存储模块，标准外部数据存储模块，标准感知数据存储模块和标准云采数据存储模块；所述标准五跨数据包括标准化后的跨地域数据、标准化后的跨层级数据、标准化后的跨部门数据、标准化后的跨系统数据和标准化后的跨业务数据，

所述原子数据存储模块进一步包括人口原子信息存储模块，法人原子信息存储模块，房屋原子信息存储模块、宏观经济原子信息存储模块和电子证照原子信息存储模块，

所述整合数据存储模块进一步包括人口合并信息存储模块，法人合并信息存储模块，房屋合并信息存储模块，宏观经济合并信息存储模块和电子证照合并信息存储模块，

所述主题数据存储模块进一步包括面向社会诚信的数据集市，面向教育资源的数据集市，面向经济产业的数据集市，面向重点企业的数据集市，面向人才引进的数据集市和面向医疗资源的数据集市。

2.根据权利要求1所述的一种数据清洗融合系统，其特征在于，所述结构化源数据进一步包括实时增量数据存储模块，日增量数据存储模块，月增量数据存储模块和全量数据存储模块；实时增量数据被读取后，转存至日增量数据存储模块，日增量数据被读取后转存至月增量数据存储模块，月增量数据被读取后转存至全量数据存储模块。

3.根据权利要求1所述的一种数据清洗融合系统，其特征在于，所述应用程序接口存储模块进一步包括社会诚信应用程序接口，教育资源应用程序接口，人才引进应用程序接口和医疗资源应用程序接口。