CN110750588A

CN110750588A - 面向多源异构的数据融合方法、系统、装置及存储介质

Info

Publication number: CN110750588A
Application number: CN201911039444.5A
Authority: CN
Inventors: 寇茜茜; 李润静; 胡松青; 龙富永; 张红燕
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2020-02-04

Abstract

本发明提供一种面向多源异构的数据融合方法、系统、装置及存储介质，所述方法包括：采集待融合的业务系统的源数据；对所述待融合的业务系统的源数据提取关键业务字段，构成所述待融合的业务系统的数据集；利用已有的决策树模型对所述待融合的业务系统的数据集的数据进行数据融合识别，关联出异构的业务系统中与所述待融合的业务系统的数据集的数据相似度最高的数据，得到融合数据集。本发明避免了由于业务系统的维护人员操作不规范、业务系统开发过程中未考虑到与其他业务系统间的关联性、历史数据遗留问题等导致的关联关系不明确，导致业务系统的数据分析无法自动匹配融合的问题。

Description

面向多源异构的数据融合方法、系统、装置及存储介质

技术领域

本发明属于数据融合技术领域，具体涉及一种面向多源异构的数据融合方法、系统、装置及存储介质。

背景技术

数据是当前企业中的重要的资源，通过分析各个业务系统中数据关系为产品或服务提供全流程的监控，为领导者决策提供数据支持。

传统的数据融合方法中，根据业务需求，需要有经验的业务人员首先识别出表之间关联关系，从而实现多个数据源的数据融合，例如想要得到电商某个订单中买家的用户信息，需要利用身份证号码关联人事系统的用户表，找到此人的身份信息。而实际上，电商系统的设计之初并没有用户的身份证号码，这种情况下如何查找得到此人的身份信息又变成一大课题。企业商品的设计，生产，销售，安装，若要追踪订单的全流程信息通常涉及到ERP(Enterprise Resource Planning)、MES(Manufacturing Execution System)、检测系统、电商系统、派工系统、结算系统等多个业务系统，而事实上多个业务系统之间的表关联关系已经变得越来越不明晰。

企业中使用的各个业务系统，在设计之初仅为满足某一业务需要所设计，或者外键关系不明显，没有考虑到多个业务系统之间的关联性。因此，当分散在各个业务系统中的相关数据汇入数据仓库后，无法通过简单的逻辑匹配方法得到数据之间的关系，这就需要数据开发者寻求新的数据融合技术来挖掘数据之间的关联关系。

发明内容

本发明提供一种面向多源异构的数据融合方法、系统、装置及存储介质，可以挖掘多个异构业务系统中数据之间的隐含关系，实现多个异构业务系统之间的数据融合。

第一方面，本发明提供一种面向多源异构的数据融合方法，包括：

采集待融合的业务系统的源数据；

对所述待融合的业务系统的源数据提取关键业务字段，构成所述待融合的业务系统的数据集；

利用已有的决策树模型对所述待融合的业务系统的数据集的数据进行数据融合识别，关联出异构的业务系统中与所述待融合的业务系统的数据集的数据相似度最高的数据，得到融合数据集；

其中，已有的决策树模型是利用历史融合数据集训练得到的。

更进一步地，所述业务系统是ERP、MES、电商系统、售后安装系统或安装结算系统。

更进一步地，在对所述待融合的业务系统的源数据提取关键业务字段，构成所述待融合的业务系统的数据集之前，所述方法还包括：

利用预设的数据清洗规则清洗待融合的业务系统的源数据。

更进一步地，所述已有的决策树模型的构建方法包括：

采集第一业务系统的源数据和第二业务系统的源数据；

对第一业务系统的源数据和第二业务系统的源数据提取关键业务字段，分别构成第一业务系统的数据集和第二业务系统的数据集；

将第一业务系统的数据集和第二业务系统的数据集中的每一行数据转化为字符串形式；

针对第一业务系统的数据集中的每一行数据，计算其与第二业务系统的数据集中的各行数据的相似度；

将相似度最高的数据组合作为最佳组合，各最佳组合构成第一业务系统与第二业务系统的融合数据集；

利用第一业务系统与第二业务系统的融合数据集中每一最佳组合训练决策树模型，该模型用于描述第一业务系统与第二业务系统的融合数据集中各最佳组合的两行数据之间的关联关系。

更进一步地，所述针对第一业务系统的数据集中的每一行字符串，采用编辑距离算法计算其与第二业务系统的数据集中的各行字符串的相似度。

更进一步地，所述方法，还包括：

计算所述待融合的业务系统与异构的业务系统的匹配度，所述匹配度为融合数据集中各组数据的相似度的平均数；

若所述待融合的业务系统与异构的业务系统的匹配度低于预设阈值，则利用融合数据集中数据的人工修正结果，更新融合数据集。

第二方面，本发明还提供一种面向多源异构的数据融合系统，包括：

采集模块，用于采集待融合的业务系统的源数据；

提取模块，用于对所述待融合的业务系统的源数据提取关键业务字段，构成所述待融合的业务系统的数据集；

数据融合模块，用于利用已有的决策树模型对所述待融合的业务系统的数据集的数据进行数据融合识别，关联出异构的业务系统中与所述待融合的业务系统的数据集的数据相似度最高的数据，得到融合数据集；

更进一步地，所述系统还包括：

清洗模块，用于利用预设的数据清洗规则清洗待融合的业务系统的源数据。

第三方面，本发明还提供一种处理装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现所述方法的步骤。

第四方面，本发明还提供一种存储介质，所述存储介质上存储实现权利要求1-6中任一项所述方法的步骤的计算机程序。

本发明提供的面向多源异构的数据融合方法中，通过对待融合的业务系统的源数据提取关键业务字段构成数据集，利用已有的决策树模型对待融合的业务系统的数据集的数据进行数据融合识别，关联出异构的业务系统中与待融合的业务系统的数据相似度最高的数据，得到融合数据集，完成面向多源异构业务系统的数据融合。避免了由于业务系统的维护人员操作不规范、业务系统开发过程中未考虑到与其他业务系统间的关联性、历史数据遗留问题等导致的关联关系不明确，导致业务系统的数据分析无法自动匹配融合的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例一提供的面向多源异构的数据融合方法流程图；

图2是本发明实施例二中决策树模型的构建方法流程图；

图3是本发明实施例三提供的面向多源异构的数据融合方法流程图；

图4是本发明实施例四提供的一种面向多源异构的数据融合系统框图；

图5是本发明实施例四提供的另一种面向多源异构的数据融合系统框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供一种面向多源异构的数据融合方法，如图1所示，包括：

步骤S1、采集待融合的业务系统的源数据；

步骤S2、对待融合的业务系统的源数据提取关键业务字段，构成待融合的业务系统的数据集；

步骤S3、利用已有的决策树模型对待融合的业务系统的数据集的数据进行数据融合识别，关联出异构的业务系统中与待融合的业务系统的数据集的数据相似度最高的数据，得到融合数据集；

其中的业务系统可以是ERP、MES、电商系统、售后安装系统或安装结算系统，但不限于此。业务系统的源数据既可以是数据库中的结构化数据，也可以是文本等非结构化数据。

优选地，在对待融合的业务系统的源数据提取关键业务字段，构成待融合的业务系统的数据集之前，可以先利用预设的数据清洗规则清洗待融合的业务系统的源数据，以将脏数据过滤掉。

本实施例中，通过对待融合的业务系统的源数据提取关键业务字段构成数据集，利用已有的决策树模型对待融合的业务系统的数据集的数据进行数据融合识别，关联出异构的业务系统中与待融合的业务系统的数据集的数据相似度最高的数据，得到融合数据集，完成面向多源异构业务系统的数据融合。避免了由于业务系统的维护人员操作不规范、业务系统开发过程中未考虑到与其他业务系统间的关联性、历史数据遗留问题等导致的关联关系不明确，导致业务系统的数据分析无法自动匹配融合的问题。

实施例二

本实施例提供一种面向多源异构的数据融合方法，在实施例一的基础上，其中的已有的决策树模型的构建方法，如图2所示，包括：

步骤S41、采集第一业务系统的源数据和第二业务系统的源数据；

步骤S42、对第一业务系统的源数据和第二业务系统的源数据提取关键业务字段，分别构成第一业务系统的数据集和第二业务系统的数据集；

步骤S43、将第一业务系统的数据集和第二业务系统的数据集中的每一行数据转化为字符串形式；

步骤S44、针对第一业务系统的数据集中的每一行数据，计算其与第二业务系统的数据集中的各行数据的相似度；

步骤S45、将相似度最高的数据组合作为最佳组合，各最佳组合构成第一业务系统与第二业务系统的融合数据集；

步骤S46、利用第一业务系统与第二业务系统的融合数据集中每一最佳组合训练决策树模型，该模型用于描述第一业务系统与第二业务系统的融合数据集中各最佳组合的两行数据之间的关联关系。

其中，针对第一业务系统的数据集中的每一行(字符串形式)数据，计算其与第二业务系统的数据集中的各行(字符串形式)数据的相似度，具体采用编辑距离算法。编辑距离(Levenshtein Distance)算法是指利用字符操作，把字符串a换成字符串b所需要的最少操作数。

优选地，对第一业务系统的源数据和第二业务系统的源数据提取关键业务字段之前，可以利用预设的数据清洗规则清洗第一业务系统的源数据和第二业务系统的源数据，以将脏数据过滤掉。

具体地，第一业务系统和第二业务系统为异构的两个业务系统，可以是ERP、MES、电商系统、售后安装系统或安装结算系统中的任两个业务系统，但不限于此。提取清洗后的第一业务系统的源数据的关键业务字段(A₁，A₂，A₃，...，A_Y)，和清洗后的第二业务系统的源数据的关键业务字段(B₁，B₂，B₃，...，B_Y)，分别构成第一业务系统的数据集和第二业务系统的数据集，分别定义为数据集A和数据集B，将数据集A和数据集B中的每一行数据转化为字符串形式，针对数据集A中的每一行(字符串形式)数据，采用编辑距离(LevenshteinDistance)算法计算其与数据集B中的各行(字符串形式)数据的相似度，每一行(字符串形式)数据及与其相似度最高的一行数据作为最佳组合，构成第一业务系统与第二业务系统的融合数据集C。

数据集A见下表：

rowid	A<sub>1</sub>	A<sub>2</sub>	A<sub>3</sub>	…	A<sub>y</sub>
						1	a<sub>11</sub>	a<sub>12</sub>	a<sub>13</sub>	…	a<sub>1y</sub>
2	a<sub>21</sub>	a<sub>22</sub>	a<sub>23</sub>	…	a<sub>2y</sub>
						3	a<sub>31</sub>	a<sub>32</sub>	a<sub>33</sub>	…	a<sub>3y</sub>
4	a<sub>41</sub>	a<sub>42</sub>	a<sub>43</sub>	…	a<sub>4y</sub>
						…	…	…	…	…	…
m	a<sub>m1</sub>	a<sub>m2</sub>	a<sub>m3</sub>	…	a<sub>6y</sub>
						…	…	…	…	…	…
x	a<sub>x1</sub>	a<sub>x2</sub>	a<sub>x3</sub>	…	a<sub>xy</sub>

数据集B见下表：

rowid	B<sub>1</sub>	B<sub>2</sub>	B<sub>3</sub>	…	B<sub>y</sub>
						1	b<sub>11</sub>	b<sub>12</sub>	b<sub>13</sub>	…	b<sub>1y</sub>
2	b<sub>21</sub>	b<sub>22</sub>	b<sub>23</sub>	…	b<sub>2y</sub>
						3	b<sub>31</sub>	b<sub>32</sub>	b<sub>33</sub>	…	b<sub>3y</sub>
4	b<sub>41</sub>	b<sub>42</sub>	b<sub>43</sub>	…	b<sub>4y</sub>
						…	…	…	…	…	…
n	b<sub>n1</sub>	b<sub>n2</sub>	b<sub>n3</sub>	…	b<sub>ny</sub>
						…	…	…	…	…	…
x	b<sub>x1</sub>	b<sub>x2</sub>	b<sub>x3</sub>	…	b<sub>xy</sub>

其中的rowid表示行号。

对数据集A和数据集B的每一行数据进行转化得到一行字符串：

A_str1＝’a₁₁a₁₂a₁₃...a_1y′

A_str2＝’a₂₁a₂₂a₂₃...a_2y′

A_str3＝’a₃₁a₃₂a₃₃...a_3y′

…

A_strm＝’a_m1a_m2a_m3...a_my′

…

A_strx＝’b_x1b_x2b_x3...b_xy′

B_str1＝’b₁₁b₁₂b₁₃...b_ly′

B_str2＝’b₂₁b₂₂b₂₃...b_2y′

B_str3＝’b₃₁b₃₂b₃₃...b_3y′

…

B_strn＝’B_n1B_n2B_n3...B_ny′

…

B_strx＝’b_x1b_x2b_x3...b_xy′

编辑距离算法中，假设源字符串S与目标字符串T长度的最大值为L_max，源字符串S与目标字符串T长度的编辑距离为LD，相似度sim的计算公式如下：

分别计算字符串A_strm(m＝1，2，3...x，x为任意整数)与字符串B_stm(n＝1，2，3...x，x为任意整数)中两两字符串之间的相似度sim，并取数据集B中与字符串A_strm相似度最大的字符串B_strn，得到最佳字符串组合(A_strm，B_stm)即数据集A中第m行与数据集B中第n行最匹配，循环遍历所有数据集A中的字符串并找到数据集B中与该字符串最相似的对应字符串。经过上述过程，数据集A的每一行数据都能在数据集B有对应的最佳组合，各最佳组合集合构成了融合数据集C。

利用融合数据集C(Am，Bn)中每一组最佳组合构建决策树模型，利用决策树模型学习数据间的隐藏关系，实现新数据的预测，该决策树模型以数据集A的第m行数据Am为特征向量输入，以数据集B中的第n行数据Bn作为类别向量输出构建决策树模型，通过不断反复迭代训练决策树模型，找到Am与Bn之间关系，可以实现新数据Ax的类别预测，以此达到后续新数据Ax与By的自动融合。

以电商系统和销售安装系统的数据融合为例，电商系统作为待融合的业务系统，销售安装系统作为与电商系统异构的业务系统，为了根据电商系统的订单信息，追踪到此订单的销售安装信息，需要对电商系统和销售安装系统进行数据融合：

(1)采集电商系统的源数据，即订单信息表，销售安装系统的源数据为销售信息表，其中含有产品安装编号、安装网点以及安装工信息。两个业务系统的源数据都存储到数据仓库中。根据业务经验判断，两个业务系统的源数据的外键关系并不明显。

(2)设定数据清洗规则，剔除由于用户手工填写到业务系统中的非法字符，统一小写半角，标点符号小写等，规范化两个数据源的数据格式。

(3)根据经验判断，电商订单的收货信息可能与安装单网点信息有关，可以提取订单信息表中的订单ID、买家、收货地址等关键业务字段得到数据集A，提取销售信息表中的销售区域、销售公司等关键业务字段，得到数据集B。

数据集A如下：

行号	订单ID	买家	收货地址
				1	20190912555	郑敏	广东省珠海市香洲区前山街道111号
2	20190905412	刘文文	江西省南昌市新建区欢乐小区3栋
				3	20190905413	李晓玲	陕西省西安市长安区黄良街道办事处

数据集B如下：

行号	销售区域	销售公司
			1	陕西	陕西空调销售有限公司
2	江西	江西南昌销售有限公司
			3	广州	广州电器销售有限公司

(4)将数据集A和数据集B的每一行数据都转化为一行字符串，利用编辑距离(Levenshtein Distbnce)算法两两计算相似度，并取相似度最高的数据组合。经过计算，与数据集A的第1行相似度最高的是数据集B的第3行，数据集A的第2行与数据集B的第2行相似度最高，数据集A的第3行与数据集B的第1行相似度最高。

将数据集A、数据集B的每一行数据均转换成一行字符串：

A_Str1＝’20190912555，郑敏，广东省珠海市香洲区前山街道111号’

A_Str2＝’20190905412，刘文文，江西省南昌市新建区欢乐小区3栋’

A_Str3＝’20190905413，李晓玲，陕西省西安市长安区黄良街道办事处’

B_Str1＝’陕西，陕西空调销售有限公司’

B_Str2＝’江西，江西南昌销售有限公司’

B_Str3＝’广州，广州电器销售有限公司’

两两计算字符串A_Str与字符串B_Str的相似度，即可找到三组最佳组合。以A_Str1为例，A_Str1与B_Str1、B_Str2、B_Str3这三个字符串的相似度分别为0.04，0.04，0.09，取相似度最高的字符串组合(A_Str1，B_Str3)为最佳组合。同理，得到其余的字符串组合(A_Str2，B_Str2)、(A_Str3，B_Str1)，于是可以得到融合数据集C。

融合数据集C如下：

计算每行(字符串形式)数据的相似度平均值得到匹配度β：

匹配度β＝(0.09+0.28+0.18)/3＝0.18

对于其中匹配不准确的数据即相似度较低的最佳组合，可以通过人工识别修正，来提高整个数据集的匹配度β。

实施例三

本实施例提供一种面向多源异构的数据融合方法，在实施例一的基础上，如图3所示，该方法还可以进一步包括：

步骤S4、计算待融合的业务系统与异构的业务系统的匹配度β，匹配度为融合数据集中各组数据的相似度的平均数；

步骤S5、判定待融合的业务系统与异构的业务系统的匹配度是否低于预设阈值；

步骤S6、若是，则利用融合数据集中数据的人工修正结果，更新融合数据集。

本实施例中，基于待融合的业务系统与异构的业务系统的匹配度β，判定是否需要人工修整，当匹配度β低于预设阈值时，说明此时的匹配度并不理想，两个业务系统之间的关联性不够好，因此根据业务经验，针对数据融合结果中相似度最低的一个或多个最佳组合，进行人工验证识别来修正，以提高数据融合的匹配度β，提高数据融合的准确程度。

实施例四

本实施例提供一种面向多源异构的数据融合系统，如图4所示，包括：

采集模块1，与待融合的业务系统连接，用于采集待融合的业务系统的源数据；

提取模块2，与采集模块1连接，用于对待融合的业务系统的源数据提取关键业务字段，构成待融合的业务系统的数据集；

数据融合模块3，与提取模块2连接，用于利用已有的决策树模型对待融合的业务系统的数据集的数据进行数据融合识别，关联出异构的业务系统中与待融合的业务系统的数据集的数据相似度最高的数据，得到融合数据集；

如图5所示，上述系统还可以进一步包括：

清洗模块4，接在采集模块1与提取模块2之间，用于利用预设的数据清洗规则清洗待融合的业务系统的源数据。

实施例五

本实施例提供一种处理装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被该处理器执行时实现上述方法的步骤。

本实施例还提供一种存储介质，该存储介质上存储实现上述方法的步骤的计算机程序。

本发明通过对待融合的业务系统的源数据提取关键业务字段构成数据集，利用已有的决策树模型对待融合的业务系统的每一行数据进行数据融合识别，关联出异构的业务系统中与待融合的业务系统的每一行数据相似度最高的一行数据，得到融合数据集，可以挖掘出多个异构业务系统的源数据之间的隐含关系，实现多个异构业务系统之间的数据融合，从而解决传统的人工识别数据之间关系的痛点。通过对数据集进行关键业务字段形成数据集，计算出数据集中每一行数据与异构的业务系统中的各行数据之间的相似度，并将相似度最高的最佳组合作为样本数据，构建决策树模型对已有样本数据间逻辑关系进行机器学习，从而不断提高数据匹配度，保证数据融合的质量，实现关系复杂、数据异构的多业务系统间的数据匹配与融合。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种面向多源异构的数据融合方法，其特征在于，包括：

采集待融合的业务系统的源数据；

2.根据权利要求1所述的面向多源异构的数据融合方法，其特征在于，所述业务系统是ERP、MES、电商系统、售后安装系统或安装结算系统。

3.根据权利要求1所述的面向多源异构的数据融合方法，其特征在于，在对所述待融合的业务系统的源数据提取关键业务字段，构成所述待融合的业务系统的数据集之前，所述方法还包括：

利用预设的数据清洗规则清洗待融合的业务系统的源数据。

4.根据权利要求1所述的面向多源异构的数据融合方法，其特征在于，所述已有的决策树模型的构建方法包括：

采集第一业务系统的源数据和第二业务系统的源数据；

5.根据权利要求4所述的面向多源异构的数据融合方法，其特征在于，所述针对第一业务系统的数据集中的每一行字符串，采用编辑距离算法计算其与第二业务系统的数据集中的各行字符串的相似度。

6.根据权利要求1所述的面向多源异构的数据融合方法，其特征在于，所述方法，还包括：

7.一种面向多源异构的数据融合系统，其特征在于，包括：

采集模块，用于采集待融合的业务系统的源数据；

8.根据权利要求7所述的面向多源异构的数据融合系统，其特征在于，所述系统还包括：

9.一种处理装置，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现权利要求1-6中任一项所述方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储实现权利要求1-6中任一项所述方法的步骤的计算机程序。