CN114490606A

CN114490606A - 多源数据比对和一致性处理方法、系统、装置及介质

Info

Publication number: CN114490606A
Application number: CN202210063505.7A
Authority: CN
Inventors: 蒋召宝; 左立峰; 赵绍祥
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-05-13

Abstract

本发明公开了多源数据比对和一致性处理方法、系统、装置及介质，属于数据处理技术领域，要解决的技术问题为如何对多源数据进行比对和一致性处理，去除重复和异常的数据。包括如下步骤：通过数据抽取工具将多源数据汇聚；通过预设的数据清洗规则、规则引擎、数据标准以及数据质量进行数据清洗，去除重复和异常的数据，得到清洗后数据；对于清洗后数据，基于预设的数据比对规则、通过数据比对规则引擎进行数据比对，并通过标签管理核对数据比对的质量，得到比对后数据；对于比对后数据，通过预设的数据标准化规范以及转换规则进行数据一致性处理，形成基础数据，并基于异常数据处理规则进行异常数据汇总，生成异常数据集。

Description

多源数据比对和一致性处理方法、系统、装置及介质

技术领域

本发明涉及数据处理技术领域，具体地说是多源数据比对和一致性处理方法、系统、装置及介质。

背景技术

在大数据计算和云处理时代，数据来源渠道越来越多，数据比对和一致性处理已经成为常态化。

当前的数据比对和一致性处理基本上都是基于一种数据源进行的，使用一种数据源经过业务规则进行手动和批量数据处理，形成和基础数据一致的数据结构数据。

多种数据源时，会拆解成多个单一数据源来进行数据处理，形成各自的基础数据，在将这些基础数据进行数据比对和处理。这种处理方式容易造成数据重复。

如何对多源数据进行比对和一致性处理，去除重复和异常的数据，是需要解决的技术问题。

发明内容

本发明的技术任务是针对以上不足，提供多源数据比对和一致性处理方法、系统、装置及介质，来解决如何对多源数据进行比对和一致性处理，去除重复和异常的数据的技术问题。

第一方面，本发明的多源数据比对和一致性处理方法，包括如下步骤：

通过数据抽取工具将多源数据汇聚，得到初始汇聚数据；

对于初始汇聚数据，通过预设的数据清洗规则、规则引擎、数据标准以及数据质量进行数据清洗，去除重复和异常的数据，得到清洗后数据；

对于清洗后数据，基于预设的数据比对规则、通过数据比对规则引擎进行数据比对，并通过标签管理核对数据比对的质量，得到比对后数据；

对于比对后数据，通过预设的数据标准化规范以及转换规则进行数据一致性处理，形成基础数据，并基于异常数据处理规则进行异常数据汇总，生成异常数据集。

作为优选，通过数据抽取工具从将关系型数据库、内存数据库、分布式文件、搜索引擎ES、对象存储和异构数据库中抽取数据，以实现多源数据汇聚。

作为优选，所述数据抽取工具为开源kettle。

作为优选，所述数据比对规则为多个，对于所述多个数据比对规则，根据规则的优先级及逆行多批次数据比对，并基于标签管理中标签提取和标签图谱核对数据比对的质量。

第二方面，本发明的多源数据比对和一致性处理系统，通过如第一方面任一项所述多源数据比对和一致性处理进行多源数据的比对和一致性处理，所述系统包括：

规则配置模块，所述规则配置模块通过规则配置界面对外交互，用于配置规则，包括配置数据清洗规则、数据标准、数据质量、数据比对规则、优先级、标签管理、数据标准化规范以及转换规则；

数据抽取工具，所述数据抽取工具用于将多源数据汇聚，得到初始汇聚数据；

对于初始汇聚数据，所述数据清洗模块用于通过预设的数据清洗规则、规则引擎、数据标准以及数据质量进行数据清洗，去除重复和异常的数据，得到清洗后数据；

数据比对模块，对于清洗后数据，所述数据比对模块用于基于预设的数据比对规则、通过数据比对规则引擎进行数据比对，并通过标签管理核对数据比对的质量，得到比对后数据；

数据一致性处理模块，对于比对后数据，所述数据一致性处理模块用于通过预设的数据标准化规范以及转换规则进行数据一致性处理，形成基础数据，并基于异常数据处理规则进行异常数据汇总，生成异常数据集。

作为优选，所述数据抽取工具用于从将关系型数据库、内存数据库、分布式文件、搜索引擎ES、对象存储和异构数据库中抽取数据，以实现多源数据汇聚。

作为优选，所述数据抽取工具为开源kettle。

作为优选，所述数据比对规则为多个，对于所述多个数据比对规则，所述数据比对模块用于根据规则的优先级及逆行多批次数据比对，并基于标签管理中标签提取和标签图谱核对数据比对的质量。

第三方面，本发明的装置，其特征在于，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行第一方面任一所述的方法。

第四方面，本发明的介质，为计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行第一方面任一所述的方法。

本发明的多源数据比对和一致性处理方法、系统、装置及介质具有以下优点：

1、通过数据抽取工具汇聚数据，并结合数据清洗、规则引擎、数据标准和数据质量规范将数据汇聚到一起进行数据清洗，通过标签管理结合数据比对引擎完成数据比对，最后通过一致性处理，将正常数据标准化形成基础数据，将异常数据也输出来，以供查看和核对；

2、在进行数据比对时，通过标签提取和标签图谱进行多层次比对，提升了比对的效率和准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

图1为实施例1多源数据比对和一致性处理方法的流程框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

本发明实施例提供多源数据比对和一致性处理方法、系统、装置及介质，用于解决如何对多源数据进行比对和一致性处理，去除重复和异常的数据的技术问题。

实施例1：

本发明多源数据比对和一致性处理方法，包括如下步骤：

S100、通过数据抽取工具将多源数据汇聚，得到初始汇聚数据；

S200、对于初始汇聚数据，通过预设的数据清洗规则、规则引擎、数据标准以及数据质量进行数据清洗，去除重复和异常的数据，得到清洗后数据；

S300、对于清洗后数据，基于预设的数据比对规则、通过数据比对规则引擎进行数据比对，并通过标签管理核对数据比对的质量，得到比对后数据；

S400、对于比对后数据，通过预设的数据标准化规范以及转换规则进行数据一致性处理，形成基础数据，并基于异常数据处理规则进行异常数据汇总，生成异常数据集。

本实施例中数据抽取工具为开源kettle，该据抽取工具从将关系型数据库、内存数据库、分布式文件、搜索引擎ES、对象存储和异构数据库中抽取数据，以实现多源数据汇聚。

数据比对规则为多个，对于多个数据比对规则，根据规则的优先级及逆行多批次数据比对，并基于标签管理中标签提取和标签图谱核对数据比对的质量。

本发明的实现步骤如下：

一、设置规则计算模型和数据清洗规则，通过数据抽取工具，将关系型数据库、内存数据库、分布式文件、搜索引擎ES、对象存储和异构数据库适配等多种数据源的数据汇聚到一起后，来进行数据标准和数据质量基本信息内容的初步核验，去除明显异常的数据；

二、数据比对，使用数据比对引擎结合实际业务需求配置数据比对规则1、数据比对规则2和其他数据规则，在进行数据比对时，会根据规则的优先级进行多批次数据比对；

三、数据比对过程中，除了使用数据比对规则外，还可以通过标签管理来核验数据比对的质量，重点是通过标签提取和标签图谱；

四、利用数据比对的结果，通过数据标准化规范和转换规则要求，进行数据一致性处理，形成基础数据，以供内部和外部使用；

五、利用数据比对的结果，通过异常数据处理规则，形成异常数据集，以供后续查看和核验。

实施例2：

本发明多源数据比对和一致性处理系统，包括规则配置模块、数据抽取工具、数据清洗模块、数据比对模块以及数据一致性处理模块，规则配置模块通过规则配置界面对外交互，用于配置规则，包括配置数据清洗规则、数据标准、数据质量、数据比对规则、优先级、标签管理、数据标准化规范以及转换规则；数据抽取工具用于将多源数据汇聚，得到初始汇聚数据；对于初始汇聚数据，数据清洗模块用于通过预设的数据清洗规则、规则引擎、数据标准以及数据质量进行数据清洗，去除重复和异常的数据，得到清洗后数据；对于清洗后数据，数据比对模块用于基于预设的数据比对规则、通过数据比对规则引擎进行数据比对，并通过标签管理核对数据比对的质量，得到比对后数据；对于比对后数据，数据一致性处理模块用于通过预设的数据标准化规范以及转换规则进行数据一致性处理，形成基础数据，并基于异常数据处理规则进行异常数据汇总，生成异常数据集。

本实施例中，数据抽取工具为开源kettle，该数据抽取工具用于从将关系型数据库、内存数据库、分布式文件、搜索引擎ES、对象存储和异构数据库中抽取数据，以实现多源数据汇聚。

数据比对规则为多个，对于多个数据比对规则，数据比对模块用于根据规则的优先级及逆行多批次数据比对，并基于标签管理中标签提取和标签图谱核对数据比对的质量。

本实施例的系统可执行实施例1公开的方法。

实施例3：

本发明的装置，包括：至少一个存储器和至少一个处理器；所述至少一个存储器，用于存储机器可读程序；所述至少一个处理器，用于调用所述机器可读程序，执行本发明任一实施例中1公开的方法。

实施例4：

本发明的介质，为计算机可读介质，计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行本发明任一实施例中1公开的方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构，也可以是逻辑结构，即，有些模块可能由同一物理实体实现，或者，有些模块可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上各实施例中，硬件单元可以通过机械方式或电气方式实现。例如，一个硬件单元可以包括永久性专用的电路或逻辑(如专门的处理器，FPGA或ASIC)来完成相应操作。硬件单元还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器)，可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.多源数据比对和一致性处理方法，其特征在于包括如下步骤：

通过数据抽取工具将多源数据汇聚，得到初始汇聚数据；

2.根据权利要求1所述的多源数据比对和一致性处理方法，其特征在于通过数据抽取工具从将关系型数据库、内存数据库、分布式文件、搜索引擎ES、对象存储和异构数据库中抽取数据，以实现多源数据汇聚。

3.根据权利要求1所述的多源数据比对和一致性处理方法，其特征在于所述数据抽取工具为开源kettle。

4.根据权利要求1所述的多源数据比对和一致性处理方法，其特征在于所述数据比对规则为多个，对于所述多个数据比对规则，根据规则的优先级及逆行多批次数据比对，并基于标签管理中标签提取和标签图谱核对数据比对的质量。

5.多源数据比对和一致性处理系统，通过如权利要求1-4任一项所述多源数据比对和一致性处理进行多源数据的比对和一致性处理，所述系统包括：

数据清洗模块，对于初始汇聚数据，所述数据清洗模块用于通过预设的数据清洗规则、规则引擎、数据标准以及数据质量进行数据清洗，去除重复和异常的数据，得到清洗后数据；

6.根据权利要求5所述的多源数据比对和一致性处理系统，其特征在于所述数据抽取工具用于从将关系型数据库、内存数据库、分布式文件、搜索引擎ES、对象存储和异构数据库中抽取数据，以实现多源数据汇聚。

7.根据权利要求5所述的多源数据比对和一致性处理系统，其特征在于所述数据抽取工具为开源kettle。

8.根据权利要求5所述的多源数据比对和一致性处理系统，其特征在于所述数据比对规则为多个，对于所述多个数据比对规则，所述数据比对模块用于根据规则的优先级及逆行多批次数据比对，并基于标签管理中标签提取和标签图谱核对数据比对的质量。

9.装置，其特征在于，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行权利要求1至4中任一所述的方法。

10.介质，为计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行权利要求1至4任一所述的方法。