CN115630057A

CN115630057A - 一种实现多源异构数据自动整合的方法

Info

Publication number: CN115630057A
Application number: CN202211288502.XA
Authority: CN
Inventors: 谢瀚阳; 梁盈威; 崔炎; 敖知琪; 简晓雯; 朱泰鹏; 彭泽武; 冯歆尧; 苏华权
Original assignee: Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2023-01-20

Abstract

本发明公开了一种实现多源异构数据自动整合的方法。该方法能够通过识别字段的数据相似度判断原始数据表与数据文件中相匹配的字段并进行数据映射，使得新增原始数据表时无需人为地对数据表进行字段定义，减少了用户在数据映射阶段的工作量，提高了业务模型构建效率。该方法具体为：步骤A：形成数据文件；步骤B：获取该新增的原始数据表与数据文件的字段的数据相似度达预设程度的相匹配字段，将相匹配字段的数据从原始数据表映射到数据文件；步骤C：将差异字段的数据从原始数据表映射到数据文件；步骤D：获取形成数据文件的原始数据表与该新增的原始数据表的差异字段的相匹配字段，将相匹配字段的数据分别从各个原始数据表映射到数据文件。

Description

一种实现多源异构数据自动整合的方法

技术领域

本发明主要涉及语义融合业务模型技术领域，尤其涉及一种实现多源异构数据自动整合的方法。

背景技术

动态本体语义融合平台是采用大数据分析技术、知识图谱技术满足数据分析、语义融合、业务探索等需求的开放式、自主型的语义融合、可视化探索分析应用平台。动态本体语义融合平台的数据采集通过ETL工具实现。ETL工具是用于将业务系统的不同数据库的数据经过抽取、清洗、转换之后加载到数据仓库并同步形成数据文件的数据处理工具。目前，在构建语义融合业务模型的多源异构数据文件时，由于不同数据来源的数据记录习惯存在差异，导致数据表的数据字段较难匹配，特别是在新增数据表时，新增的原始数据表与已经做好的数据文件之间容易出现数据实质重复的字段，但被ETL工具认为不属于相同字段而未被映射到数据文件中，因此需要人为地对各个数据库的数据表进行字段定义，操作麻烦，效率较低。

发明内容

本发明所要解决的技术问题是如何减轻用户在构建多源异构数据的数据文件中的人为操作，提高业务模型构建效率。

为了解决上述技术问题，本发明提供了一种实现多源异构数据自动整合的方法，包括：

步骤A：根据用户的操作指令，分别从各个多源数据库中采集多个原始数据表，调用ETL工具将所采集的多个原始数据表同步形成数据文件；

步骤B：获取该新增的原始数据表与所述数据文件的相匹配字段，将所述相匹配字段的数据从所述原始数据表映射到所述数据文件，所述相匹配字段是指这些字段的数据相似度达预设程度；

步骤C：将该新增的原始数据表中已映射的相匹配字段以外的字段标记为差异字段，在所述数据文件中新建所述差异字段，将所述差异字段的数据从所述原始数据表映射到所述数据文件；

步骤D：调取形成该数据文件的多个原始数据表，获取各个原始数据表与该新增的原始数据表的所述差异字段的相匹配字段，将所述相匹配字段的数据分别从各个原始数据表映射到所述数据文件。

进一步地，包括步骤E：对新映射到所述数据文件的数据，提供预设的多个数据列变指令供用户选择，根据用户选择的列变指令进行数据处理。

进一步地，所述数据列变指令包括如下文本处理指令当中的一种或多种：内容替换、截取、去空格、大小写转换、拼接。

进一步地，所述数据列变指令包括预设的多个数值函数指令。

进一步地，包括步骤F：调取形成该数据文件的多个原始数据表，识别这些原始数据表中具备增量数据的增量字段，将所述增量字段的增量数据映射到所述数据文件。

进一步地，在所述步骤F中，所述具备增量数据的增量字段是指，该字段在预设的时间周期内新增的数据数量达预设程度。

进一步地，在所述步骤B中，所述相匹配字段包括在新增的原始数据表与所述数据文件这两者中存在一者的多个字段组合与另一者的字段的数据相似度达预设程度。

进一步地，在所述步骤B中，所述字段的数据相似度达预设程度是指所述数据为文本类数据，所述数据具有预设的关键字。

进一步地，在所述步骤B中，所述字段的数据相似度达预设程度是指所述数据为数值类数据，所述数据结构相同。

进一步地，所述多源数据库包括如下数据库中的多种：Oracle、clickhouse、MySQL、SQL server、impala、hive、达梦、postgresql、greenplum、MySQL8。

上述实现多源异构数据自动整合的方法能够通过识别字段的数据相似度，实现在新增原始数据表时自动判断原始数据表与数据文件中相匹配的字段并进行数据映射，使得新增原始数据表时无需人为地对数据表进行字段定义，减少了用户在数据映射阶段的工作量，提高了业务模型构建效率。

附图说明

图1是本发明提供的实现多源异构数据自动整合的方法的流程图；

图2本发明提供的实现多源异构数据自动整合的方法的字段映射示意图；

图3是本发明提供的实现多源异构数据自动整合的方法的相匹配字段选择过程示意图。

具体实施方式

以下结合具体实施方式对本发明创造作进一步详细说明。

如图1所示的实现多源异构数据自动整合的方法应用于动态本体语义融合平台，下文以用户在动态本体语义融合平台上构建语义融合业务模型的过程为例，说明上述方法的具体步骤。

本实施例动态本体语义融合平台部署在服务器中，服务器集成有ETL工具，支持Oracle、clickhouse、MySQL、SQL server、impala、hive、达梦、postgresql、greenplum、MySQL8等多种数据库的数据采集。用户需构建一个相关电力设备的语义融合业务模型时，就在客户端上登录动态本体语义融合平台，在数据管理功能的智能接入模块进行数据采集操作。用户通过数据表调取的操作指令分别从图2的多源数据库中采集多个原始数据表，调用ETL工具将所采集的多个原始数据表同步形成数据文件。数据文件具有多个字段结构，现有的ETL工具能够实现将多个原始数据表中名称相同的字段进行合并，而名称不同的字段则列举出来供用户选择是否合并到数据文件中。本实施例在上述处理的基础上，还对比当前各个原始数据表或新增的原始数据表相对于数据文件中各个字段的数据相似度，当所对比的这些字段的数据相似度达预设程度(下文详述)，就认为原始数据表与数据文件存在这些相匹配字段，自动将相匹配字段的数据从原始数据表映射到数据文件中。该多源异构数据自动整合的方法实现在构建数据文件或者新增原始数据表时自动判断原始数据表与数据文件中相匹配的字段并进行数据映射，使得新增原始数据表时无需人为地对数据表进行字段定义，减少了用户在数据映射阶段的工作量，提高了业务模型构建效率。

具体地，当字段的数据为文本类数据，以所比较的数据是否都具有预设的关键字作为数据相似度判断依据，如地址数据都具有省、市等关键词；当字段的数据为数值类数据，以所比较的数据是否具有相同的数据结构作为数据相似度判断依据，如身份证数据、邮箱数据、电话数据都具有特定的数据结构。

具体地，相匹配字段包括在新增的原始数据表与数据文件这两者中存在一者的多个字段组合与另一者的字段的数据相似度达预设程度。如图3所示，数据文件中的字段1对应新增的原始数据表中的字段11结合字段12。如，数据文件中的字段1是地址数据，包括省、市、街道信息，而字段11都为地址数据，但字段11为省信息，字段12为市、街道信息，则认为数据文件中的字段1是与字段11和字段12这两者的结合具有相似度的相匹配字段。

当出现原始数据表的字段不存在在数据文件中，即将该新增的原始数据表中已映射的相匹配字段以外的字段标记为差异字段，在数据文件中新建差异字段，将差异字段的数据从原始数据表映射到数据文件。然后对数据文件中过往已映射的数据进行补足操作，调取形成该数据文件的多个原始数据表，获取各个原始数据表与该新增的原始数据表的差异字段的相匹配字段，将相匹配字段的数据分别从各个原始数据表映射到数据文件。

对于数据文件中具备增量数据的增量字段，如该字段在预设的时间周期(如三天)内新增的数据数量达预设程度(如超出该字段总数据量的十分之一)，调取形成该数据文件的多个原始数据表，识别这些原始数据表中具备增量数据的增量字段，将增量字段的增量数据映射到数据文件，对数据文件进行周期性更新。

进一步地，对新映射到数据文件的数据，提供预设的多个数据列变指令供用户选择，根据用户选择的列变指令进行数据处理。数据列变指令包括如下文本处理指令当中的内容替换、截取、去空格、大小写转换、拼接等；以及针对数字格式的多个数值函数指令，如加法、减法、乘法、除法等四类算数运算。通过数据列变指令可以对新映射到数据文件的数据进行统一化格式处理，已实现数据的自定义清洗。

如上所述仅为本发明创造的实施方式，不以此限定专利保护范围。本领域技术人员在本发明创造的基础上作出非实质性的变化或替换，仍落入专利保护范围。

Claims

1.一种实现多源异构数据自动整合的方法，包括：

其特征是还包括对所采集的新增的原始数据表依次执行的如下步骤：

2.如权利要求1所述的实现多源异构数据自动整合的方法，其特征是包括步骤E：对新映射到所述数据文件的数据，提供预设的多个数据列变指令供用户选择，根据用户选择的列变指令进行数据处理。

3.如权利要求2所述的实现多源异构数据自动整合的方法，其特征是：所述数据列变指令包括如下文本处理指令当中的一种或多种：内容替换、截取、去空格、大小写转换、拼接。

4.如权利要求2所述的实现多源异构数据自动整合的方法，其特征是：所述数据列变指令包括预设的多个数值函数指令。

5.如权利要求1所述的实现多源异构数据自动整合的方法，其特征是包括步骤F：调取形成该数据文件的多个原始数据表，识别这些原始数据表中具备增量数据的增量字段，将所述增量字段的增量数据映射到所述数据文件。

6.如权利要求5所述的实现多源异构数据自动整合的方法，其特征是：在所述步骤F中，所述具备增量数据的增量字段是指，该字段在预设的时间周期内新增的数据数量达预设程度。

7.如权利要求1所述的实现多源异构数据自动整合的方法，其特征是：在所述步骤B中，所述相匹配字段包括在新增的原始数据表与所述数据文件这两者中存在一者的多个字段组合与另一者的字段的数据相似度达预设程度。

8.如权利要求1或7所述的实现多源异构数据自动整合的方法，其特征是：在所述步骤B中，所述字段的数据相似度达预设程度是指所述数据为文本类数据，所述数据具有预设的关键字。

9.如权利要求1或7所述的实现多源异构数据自动整合的方法，其特征是：在所述步骤B中，所述字段的数据相似度达预设程度是指所述数据为数值类数据，所述数据结构相同。

10.如权利要求1所述的实现多源异构数据自动整合的方法，其特征是所述多源数据库包括如下数据库中的多种：Oracle、clickhouse、MySQL、SQL server、impala、hive、达梦、postgresql、greenplum、MySQL8。