CN115630057A - 一种实现多源异构数据自动整合的方法 - Google Patents

一种实现多源异构数据自动整合的方法 Download PDF

Info

Publication number
CN115630057A
CN115630057A CN202211288502.XA CN202211288502A CN115630057A CN 115630057 A CN115630057 A CN 115630057A CN 202211288502 A CN202211288502 A CN 202211288502A CN 115630057 A CN115630057 A CN 115630057A
Authority
CN
China
Prior art keywords
data
fields
field
original data
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211288502.XA
Other languages
English (en)
Inventor
谢瀚阳
梁盈威
崔炎
敖知琪
简晓雯
朱泰鹏
彭泽武
冯歆尧
苏华权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN202211288502.XA priority Critical patent/CN115630057A/zh
Publication of CN115630057A publication Critical patent/CN115630057A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种实现多源异构数据自动整合的方法。该方法能够通过识别字段的数据相似度判断原始数据表与数据文件中相匹配的字段并进行数据映射,使得新增原始数据表时无需人为地对数据表进行字段定义,减少了用户在数据映射阶段的工作量,提高了业务模型构建效率。该方法具体为:步骤A:形成数据文件;步骤B:获取该新增的原始数据表与数据文件的字段的数据相似度达预设程度的相匹配字段,将相匹配字段的数据从原始数据表映射到数据文件;步骤C:将差异字段的数据从原始数据表映射到数据文件;步骤D:获取形成数据文件的原始数据表与该新增的原始数据表的差异字段的相匹配字段,将相匹配字段的数据分别从各个原始数据表映射到数据文件。

Description

一种实现多源异构数据自动整合的方法
技术领域
本发明主要涉及语义融合业务模型技术领域,尤其涉及一种实现多源异构数据自动整合的方法。
背景技术
动态本体语义融合平台是采用大数据分析技术、知识图谱技术满足数据分析、语义融合、业务探索等需求的开放式、自主型的语义融合、可视化探索分析应用平台。动态本体语义融合平台的数据采集通过ETL工具实现。ETL工具是用于将业务系统的不同数据库的数据经过抽取、清洗、转换之后加载到数据仓库并同步形成数据文件的数据处理工具。目前,在构建语义融合业务模型的多源异构数据文件时,由于不同数据来源的数据记录习惯存在差异,导致数据表的数据字段较难匹配,特别是在新增数据表时,新增的原始数据表与已经做好的数据文件之间容易出现数据实质重复的字段,但被ETL工具认为不属于相同字段而未被映射到数据文件中,因此需要人为地对各个数据库的数据表进行字段定义,操作麻烦,效率较低。
发明内容
本发明所要解决的技术问题是如何减轻用户在构建多源异构数据的数据文件中的人为操作,提高业务模型构建效率。
为了解决上述技术问题,本发明提供了一种实现多源异构数据自动整合的方法,包括:
步骤A:根据用户的操作指令,分别从各个多源数据库中采集多个原始数据表,调用ETL工具将所采集的多个原始数据表同步形成数据文件;
步骤B:获取该新增的原始数据表与所述数据文件的相匹配字段,将所述相匹配字段的数据从所述原始数据表映射到所述数据文件,所述相匹配字段是指这些字段的数据相似度达预设程度;
步骤C:将该新增的原始数据表中已映射的相匹配字段以外的字段标记为差异字段,在所述数据文件中新建所述差异字段,将所述差异字段的数据从所述原始数据表映射到所述数据文件;
步骤D:调取形成该数据文件的多个原始数据表,获取各个原始数据表与该新增的原始数据表的所述差异字段的相匹配字段,将所述相匹配字段的数据分别从各个原始数据表映射到所述数据文件。
进一步地,包括步骤E:对新映射到所述数据文件的数据,提供预设的多个数据列变指令供用户选择,根据用户选择的列变指令进行数据处理。
进一步地,所述数据列变指令包括如下文本处理指令当中的一种或多种:内容替换、截取、去空格、大小写转换、拼接。
进一步地,所述数据列变指令包括预设的多个数值函数指令。
进一步地,包括步骤F:调取形成该数据文件的多个原始数据表,识别这些原始数据表中具备增量数据的增量字段,将所述增量字段的增量数据映射到所述数据文件。
进一步地,在所述步骤F中,所述具备增量数据的增量字段是指,该字段在预设的时间周期内新增的数据数量达预设程度。
进一步地,在所述步骤B中,所述相匹配字段包括在新增的原始数据表与所述数据文件这两者中存在一者的多个字段组合与另一者的字段的数据相似度达预设程度。
进一步地,在所述步骤B中,所述字段的数据相似度达预设程度是指所述数据为文本类数据,所述数据具有预设的关键字。
进一步地,在所述步骤B中,所述字段的数据相似度达预设程度是指所述数据为数值类数据,所述数据结构相同。
进一步地,所述多源数据库包括如下数据库中的多种:Oracle、clickhouse、MySQL、SQL server、impala、hive、达梦、postgresql、greenplum、MySQL8。
上述实现多源异构数据自动整合的方法能够通过识别字段的数据相似度,实现在新增原始数据表时自动判断原始数据表与数据文件中相匹配的字段并进行数据映射,使得新增原始数据表时无需人为地对数据表进行字段定义,减少了用户在数据映射阶段的工作量,提高了业务模型构建效率。
附图说明
图1是本发明提供的实现多源异构数据自动整合的方法的流程图;
图2本发明提供的实现多源异构数据自动整合的方法的字段映射示意图;
图3是本发明提供的实现多源异构数据自动整合的方法的相匹配字段选择过程示意图。
具体实施方式
以下结合具体实施方式对本发明创造作进一步详细说明。
如图1所示的实现多源异构数据自动整合的方法应用于动态本体语义融合平台,下文以用户在动态本体语义融合平台上构建语义融合业务模型的过程为例,说明上述方法的具体步骤。
本实施例动态本体语义融合平台部署在服务器中,服务器集成有ETL工具,支持Oracle、clickhouse、MySQL、SQL server、impala、hive、达梦、postgresql、greenplum、MySQL8等多种数据库的数据采集。用户需构建一个相关电力设备的语义融合业务模型时,就在客户端上登录动态本体语义融合平台,在数据管理功能的智能接入模块进行数据采集操作。用户通过数据表调取的操作指令分别从图2的多源数据库中采集多个原始数据表,调用ETL工具将所采集的多个原始数据表同步形成数据文件。数据文件具有多个字段结构,现有的ETL工具能够实现将多个原始数据表中名称相同的字段进行合并,而名称不同的字段则列举出来供用户选择是否合并到数据文件中。本实施例在上述处理的基础上,还对比当前各个原始数据表或新增的原始数据表相对于数据文件中各个字段的数据相似度,当所对比的这些字段的数据相似度达预设程度(下文详述),就认为原始数据表与数据文件存在这些相匹配字段,自动将相匹配字段的数据从原始数据表映射到数据文件中。该多源异构数据自动整合的方法实现在构建数据文件或者新增原始数据表时自动判断原始数据表与数据文件中相匹配的字段并进行数据映射,使得新增原始数据表时无需人为地对数据表进行字段定义,减少了用户在数据映射阶段的工作量,提高了业务模型构建效率。
具体地,当字段的数据为文本类数据,以所比较的数据是否都具有预设的关键字作为数据相似度判断依据,如地址数据都具有省、市等关键词;当字段的数据为数值类数据,以所比较的数据是否具有相同的数据结构作为数据相似度判断依据,如身份证数据、邮箱数据、电话数据都具有特定的数据结构。
具体地,相匹配字段包括在新增的原始数据表与数据文件这两者中存在一者的多个字段组合与另一者的字段的数据相似度达预设程度。如图3所示,数据文件中的字段1对应新增的原始数据表中的字段11结合字段12。如,数据文件中的字段1是地址数据,包括省、市、街道信息,而字段11都为地址数据,但字段11为省信息,字段12为市、街道信息,则认为数据文件中的字段1是与字段11和字段12这两者的结合具有相似度的相匹配字段。
当出现原始数据表的字段不存在在数据文件中,即将该新增的原始数据表中已映射的相匹配字段以外的字段标记为差异字段,在数据文件中新建差异字段,将差异字段的数据从原始数据表映射到数据文件。然后对数据文件中过往已映射的数据进行补足操作,调取形成该数据文件的多个原始数据表,获取各个原始数据表与该新增的原始数据表的差异字段的相匹配字段,将相匹配字段的数据分别从各个原始数据表映射到数据文件。
对于数据文件中具备增量数据的增量字段,如该字段在预设的时间周期(如三天)内新增的数据数量达预设程度(如超出该字段总数据量的十分之一),调取形成该数据文件的多个原始数据表,识别这些原始数据表中具备增量数据的增量字段,将增量字段的增量数据映射到数据文件,对数据文件进行周期性更新。
进一步地,对新映射到数据文件的数据,提供预设的多个数据列变指令供用户选择,根据用户选择的列变指令进行数据处理。数据列变指令包括如下文本处理指令当中的内容替换、截取、去空格、大小写转换、拼接等;以及针对数字格式的多个数值函数指令,如加法、减法、乘法、除法等四类算数运算。通过数据列变指令可以对新映射到数据文件的数据进行统一化格式处理,已实现数据的自定义清洗。
如上所述仅为本发明创造的实施方式,不以此限定专利保护范围。本领域技术人员在本发明创造的基础上作出非实质性的变化或替换,仍落入专利保护范围。

Claims (10)

1.一种实现多源异构数据自动整合的方法,包括:
步骤A:根据用户的操作指令,分别从各个多源数据库中采集多个原始数据表,调用ETL工具将所采集的多个原始数据表同步形成数据文件;
其特征是还包括对所采集的新增的原始数据表依次执行的如下步骤:
步骤B:获取该新增的原始数据表与所述数据文件的相匹配字段,将所述相匹配字段的数据从所述原始数据表映射到所述数据文件,所述相匹配字段是指这些字段的数据相似度达预设程度;
步骤C:将该新增的原始数据表中已映射的相匹配字段以外的字段标记为差异字段,在所述数据文件中新建所述差异字段,将所述差异字段的数据从所述原始数据表映射到所述数据文件;
步骤D:调取形成该数据文件的多个原始数据表,获取各个原始数据表与该新增的原始数据表的所述差异字段的相匹配字段,将所述相匹配字段的数据分别从各个原始数据表映射到所述数据文件。
2.如权利要求1所述的实现多源异构数据自动整合的方法,其特征是包括步骤E:对新映射到所述数据文件的数据,提供预设的多个数据列变指令供用户选择,根据用户选择的列变指令进行数据处理。
3.如权利要求2所述的实现多源异构数据自动整合的方法,其特征是:所述数据列变指令包括如下文本处理指令当中的一种或多种:内容替换、截取、去空格、大小写转换、拼接。
4.如权利要求2所述的实现多源异构数据自动整合的方法,其特征是:所述数据列变指令包括预设的多个数值函数指令。
5.如权利要求1所述的实现多源异构数据自动整合的方法,其特征是包括步骤F:调取形成该数据文件的多个原始数据表,识别这些原始数据表中具备增量数据的增量字段,将所述增量字段的增量数据映射到所述数据文件。
6.如权利要求5所述的实现多源异构数据自动整合的方法,其特征是:在所述步骤F中,所述具备增量数据的增量字段是指,该字段在预设的时间周期内新增的数据数量达预设程度。
7.如权利要求1所述的实现多源异构数据自动整合的方法,其特征是:在所述步骤B中,所述相匹配字段包括在新增的原始数据表与所述数据文件这两者中存在一者的多个字段组合与另一者的字段的数据相似度达预设程度。
8.如权利要求1或7所述的实现多源异构数据自动整合的方法,其特征是:在所述步骤B中,所述字段的数据相似度达预设程度是指所述数据为文本类数据,所述数据具有预设的关键字。
9.如权利要求1或7所述的实现多源异构数据自动整合的方法,其特征是:在所述步骤B中,所述字段的数据相似度达预设程度是指所述数据为数值类数据,所述数据结构相同。
10.如权利要求1所述的实现多源异构数据自动整合的方法,其特征是所述多源数据库包括如下数据库中的多种:Oracle、clickhouse、MySQL、SQL server、impala、hive、达梦、postgresql、greenplum、MySQL8。
CN202211288502.XA 2022-10-20 2022-10-20 一种实现多源异构数据自动整合的方法 Pending CN115630057A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211288502.XA CN115630057A (zh) 2022-10-20 2022-10-20 一种实现多源异构数据自动整合的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211288502.XA CN115630057A (zh) 2022-10-20 2022-10-20 一种实现多源异构数据自动整合的方法

Publications (1)

Publication Number Publication Date
CN115630057A true CN115630057A (zh) 2023-01-20

Family

ID=84905758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211288502.XA Pending CN115630057A (zh) 2022-10-20 2022-10-20 一种实现多源异构数据自动整合的方法

Country Status (1)

Country Link
CN (1) CN115630057A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116126873A (zh) * 2023-04-20 2023-05-16 中瑞方胜人力资源科技(北京)有限公司 基于非标数据表的数据汇总方法、装置及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116126873A (zh) * 2023-04-20 2023-05-16 中瑞方胜人力资源科技(北京)有限公司 基于非标数据表的数据汇总方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN111459985B (zh) 标识信息处理方法及装置
CN110618983A (zh) 基于json文档结构的工业大数据多维分析与可视化方法
CN106709012A (zh) 一种大数据分析方法及装置
CN103605651A (zh) 一种基于olap多维分析的数据处理展现方法
CN106126601A (zh) 一种社保大数据分布式预处理方法及系统
CN103186541A (zh) 一种映射关系生成方法及装置
CN102521374B (zh) 基于关系型联机分析处理的智能数据聚集方法及其系统
CN107247799A (zh) 兼容多种大数据存储的数据处理方法、系统及其建模方法
CN112182077B (zh) 一种基于数据中台技术的智能运维系统
CN111400288A (zh) 数据质量检查方法及系统
CN115630057A (zh) 一种实现多源异构数据自动整合的方法
CN108287889B (zh) 一种基于弹性表模型的多源异构数据存储方法和系统
CN112100402A (zh) 一种电网知识图谱构建方法及装置
CN109741034B (zh) 一种网格树形组织管理方法及装置
CN106528810B (zh) 一种融合异构数据便于快速大数据分析的方法
CN114218291A (zh) 基于目标对象的画像生成方法、装置、设备及存储介质
CN114490840A (zh) 一种日期维度表自动生成方法及系统
CN111522918A (zh) 数据汇聚方法、装置、电子设备及计算机可读存储介质
CN110991920A (zh) 一种基于大数据平台快速定义指标的方法及系统
CN115905371A (zh) 数据趋势分析方法、装置、设备及计算机可读存储介质
CN115269713A (zh) 一种数据的可视化方法、系统、计算机设备及介质
CN115630066A (zh) 一种动态本体语义融合模型的多源异构数据映射的方法
CN104331481A (zh) 基于大规模数据碰撞获取业务模型数据和物理模型数据关系的方法
CN104077359A (zh) 数据清洗与整合智能系统
CN112131215A (zh) 自底向上的数据库信息获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination