CN112434188A

CN112434188A - 一种异构数据库的数据集成方法、装置及存储介质

Info

Publication number: CN112434188A
Application number: CN202011148451.1A
Authority: CN
Inventors: 陈曦; 王尔昕; 张伟; 王统仁; 麻志毅
Original assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-03-02
Anticipated expiration: 2040-10-23
Also published as: CN112434188B

Abstract

本发明公开了一种异构数据库的数据集成方法、装置及存储介质，方法包括：针对第一、第二数据库建立第一、第二无向有权图模型；分别提取第一无向有权图模型和第二无向有权图模型中的关键节点，生成第一关键节点集合和第二关键节点集合；构建第一关键节点集合中各关键节点包含的所有数据列与第二关键节点集合中各关键节点包含的所有数据列之间的相似度矩阵；确定待匹配的数据列，并从相似度矩阵中获取待匹配的数据列对应的多个最优数据列生成候选匹配列表；将候选匹配列表中的多个最优数据列进行降序排列，生成排序后的多个最优数据列；基于排序后的多个最优数据列确定数据匹配结果。因此，采用本申请实施例，可以提升异构数据库中数据集成时的数据匹配效率和匹配准确率。

Description

一种异构数据库的数据集成方法、装置及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种异构数据库的数据集成方法、装置及存储介质。

背景技术

目前关系型数据库系统仍然是是主流数据存储方式，在随着信息技术的发展，各领域中软件系统对应的关系型数据库中数据量骤增，例如在同一领域中，该领域的软件系统对应着多个子系统，每个子系统对应着各自的关系型数据库，从而使得该领域的软件系统存在着多种异构数据库。多种异构数据库中单一数据库数据规模较小，对整个领域的表达有一定的局限性，因此研究人员越发渴望将多种异构数据库集成为一个数据库。

现有技术中在将多种异构数据库中数据进行集成时，常采用“两两模式直接匹配的”的解决方法，即在两异构数据库的数据表中，将含义相同的列进行匹配。例如目前的一些匹配算法对两个待匹配的数据库中的所有列两两之间进行相似度度量，为每一列都产生一个匹配结果。在进行两列之间的相似度度量时，主要从两列的数据内容上来度量两列的相似程度，即对两列数据分别提取出统计特征等作为列的特征向量，然后度量两特征向量之间的相似度。也有一些改进算法，将列的数据特征和列名的语义综合起来度量两列的相似度，在这种改进算法中，对于已经得到匹配的元素对，其标签可以看作是一对同义词，自动加入到同义词词典中，这种改进在一定程度上可以兼容具有相同含义的两列使用不同列名的问题。

以上方法的缺点主要集中在：(1)算法复杂度较高，待匹配的数据源数据规模较大时，该算法会对很多出现频率低的数据元素(非关键列)也进行大量的相似度计算，耗费大量计算资源和时间成本。(2)对于没有产生匹配的列，在同义词词典中不包含这些列的同义名词，因此对于这些列的匹配只能采用单一的基于列数据特征的相似度度量方法。(3)两列之间相似度度量方法过于单一，主要考虑了列的数据特征，较少考虑了列名的语义，没有考虑到同一数据表中各列之间的关系。

发明内容

本申请实施例提供了一种异构数据库的数据集成方法、装置及存储介质。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

第一方面，本申请实施例提供了一种异构数据库的数据集成方法，该方法包括：

针对第一数据库建立第一无向有权图模型，针对第二数据库建立第二无向有权图模型，第一数据库和第二数据库为异构数据库；

分别提取第一无向有权图模型和第二无向有权图模型中的关键节点，生成第一关键节点集合和第二关键节点集合；

构建第一关键节点集合中各关键节点包含的所有数据列与第二关键节点集合中各关键节点包含的所有数据列之间的相似度矩阵；

确定待匹配的数据列，并从相似度矩阵中获取待匹配的数据列对应的多个最优数据列生成候选匹配列表；

将候选匹配列表中的多个最优数据列进行降序排列，生成排序后的多个最优数据列；

基于排序后的多个最优数据列确定数据匹配结果。

可选的，基于排序后的多个最优数据列确定数据匹配结果之后，还包括：

当第一关键节点集合中各关键节点包含的所有数据列与第二关键节点集合中各关键节点包含的所有数据列之间匹配完成时，生成多个数据匹配结果；

根据多个数据匹配结果将第一数据库和第二数据库进行集成，生成目标数据库。

可选的，该方法还包括：

当检测到待匹配的数据列匹配结束时，将待匹配的数据列从其他数据列的候选匹配列表中删除。

可选的，针对第一数据库建立第一无向有权图模型，针对第二数据库建立第二无向有权图模型，包括：

分别遍历第一数据库和第二数据库中的数据表，生成第一数据表集合以及第二数据表集合；

将第一数据表集合中的各数据表确定为多个第一节点，并基于多个第一节点构建第一无向有权图模型；

将第二数据表集合中的各数据表确定为多个第二节点，并基于多个第二节点构建第二无向有权图模型。

可选的，分别提取第一无向有权图模型和第二无向有权图模型中的关键节点，生成第一关键节点集合和第二关键节点集合，包括：

获取第一无向有权图模型中的各节点连接的所有边的权重，并将各节点连接的所有边的权重进行求和生成各节点对应的第一目标值；

将各节点对应的第一目标值进行降序排序，生成排序后的多个第一目标值；

从多个第一目标值中选择大于预设阈值的值，并将大于预设阈值的值对应的节点确定为第一关键节点集合；

其中，所有边中各边为两个节点间连接的一条无向边，无向边的权重等于两张表所包含相同数据列的个数。

可选的，方法还包括：

获取第二无向有权图模型中的各节点连接的所有边的权重，并将各节点连接的所有边的权重进行求和生成各节点对应的第二目标值；

将各节点对应的第二目标值进行降序排序，生成排序后的多个第二目标值；

从多个第二目标值中选择大于预设阈值的值，并将大于预设阈值的值对应的节点确定为第二关键节点集合。

可选的，构建第一关键节点集合中各关键节点包含的所有数据列与第二关键节点集合中各关键节点包含的所有数据列之间的相似度矩阵，包括：

计算第一关键节点集合中各关键节点包含的所有数据列和第二关键节点集合中各关键节点包含的所有数据列之间的数据列名相似度和数据列的数据相似度；

按照预设加权系数对数据列名相似度和数据列的数据相似度进行加权求和，生成第一关键节点集合中各关键节点包含的所有数据列和第二关键节点集合中各关键节点包含的所有数据列之间的综合相似度；

根据综合相似度构建第一关键节点集合中各关键节点包含的所有数据列和第二关键节点集合中各关键节点包含的所有数据列之间的相似度矩阵。

可选的，计算第一关键节点集合中各关键节点包含的所有数据列和第二关键节点集合中各关键节点包含的所有数据列之间的数据列名相似度和数据列的数据相似度，包括：

通过word2vec模型将第一关键节点集合和第二关键节点集合中各关键节点包含的所有数据列对应的数据列名转化成词向量，生成第一词向量集合和第二词向量集合；

计算第一词向量集合中各词向量与第二词向量集合中各词向量之间的余弦相似度，生成第一关键节点集合中各关键节点包含的所有数据列和第二关键节点集合中各关键节点包含的所有数据列之间的数据列名相似度；

获取第一关键节点集合和第二关键节点集合中各关键节点包含的所有数据列对应的数据列的数据，生成第一数据集合和第二数据集合；

计算第一数据集合中各数据和第二数据集合中各数据之间的数据相似度，生成第一关键节点集合中各关键节点包含的所有数据列和第二关键节点集合中各关键节点包含的所有数据列之间的数据相似度。

第二方面，本申请实施例提供了一种异构数据库的数据集成装置，该装置包括：

图模型建立模块，用于针对第一数据库建立第一无向有权图模型，针对第二数据库建立第二无向有权图模型，第一数据库和第二数据库为异构数据库；

关键点提取模块，用于分别提取第一无向有权图模型和第二无向有权图模型中的关键节点，生成第一关键节点集合和第二关键节点集合；

相似度矩阵构建模块，用于构建第一关键节点集合中各关键节点包含的所有数据列与第二关键节点集合中各关键节点包含的所有数据列之间的相似度矩阵；

候选匹配列表生成模块，用于确定待匹配的数据列，并从相似度矩阵中获取待匹配的数据列对应的多个最优数据列生成候选匹配列表；

数据列排序模块，用于将候选匹配列表中的多个最优数据列进行降序排列，生成排序后的多个最优数据列；

匹配结果生成模块，用于基于排序后的多个最优数据列确定数据匹配结果。

第三方面，本申请实施例提供一种计算机存储介质，计算机存储介质存储有多条指令，指令适于由处理器加载并执行上述的方法步骤。

本申请实施例提供的技术方案可以包括以下有益效果：

在本申请实施例中，本申请通过遍历两种异构数据库，并基于图模型分别对其进行建模，提取图模型中的关键节点，以此达到对数据库剪枝的目的。在分别对两个异构数据库中关键节点所包含的数据元素通过多种度量方法进行相似度度量，筛选出与待匹配数据元素相似度最高的一批元素，从而对待匹配的数据元素产生匹配候选列表，最后基于匹配候选列表可以将两个不同的异构数据库进行集成为一个数据库。该方法可以大幅度提高异构数据库之间的数据匹配效率和匹配准确率，为数据集成技术打下坚实基础，从而使得计算机操作集成后的数据库时的效率比操作多个数据库效率更高，从而提升了计算机操作数据库中数据处理的速度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本申请实施例提供的一种异构数据库的数据集成方法的流程示意图；

图2是本申请实施例提供的一种异构数据库的数据集成时匹配结果确定的坐标图；

图3是本申请实施例提供的一种异构数据库的数据集成过程的过程框图；

图4是本申请实施例提供的一种异构数据库的数据集成装置的装置示意图；

图5是本申请实施例提供的一种终端的结构示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

下面将结合附图1-附图3，对本申请实施例提供的异构数据库的数据集成方法进行详细介绍。该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的异构数据库的数据集成装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。其中，本申请实施例中的异构数据库的数据集成装置可以为用户终端，包括但不限于：个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中用户终端可以叫做不同的名称，例如：用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digitalassistant，PDA)、5G网络或未来演进网络中的终端设备等。

请参见图1，为本申请实施例提供了一种异构数据库的数据集成方法的流程示意图。如图1所示，本申请实施例的方法可以包括以下步骤：

S101，针对第一数据库建立第一无向有权图模型，针对第二数据库建立第二无向有权图模型，第一数据库和第二数据库为异构数据库；

其中，数据库为计算机软件系统中关联的数据仓库，用于根据软件功能的操作对数据库中的数据进行操作(例如通过软件系统的功能节点对数据库中数据进行增加、删除、更新、查询等操作)。无向有权图模型是将数据库中的每个表看作一个节点，并根据多个节点生成的。异构数据库为两个系统各自对应的数据库，例如一个做齿轮传动的一个齿轮厂，有几个分制造厂，这些分厂用的数据库类型不同，从而称为异构数据库。

在本申请实施例中，在对两个异构数据库进行集成时，首先需要分别对两个异构数据库构建无向有权图模型，在构建无向有权图模型时，首先分别遍历第一数据库和第二数据库中的数据表，生成第一数据表集合以及第二数据表集合，然后将第一数据表集合中的各数据表确定为多个第一节点，并基于多个第一节点构建第一无向有权图模型，最后将第二数据表集合中的各数据表确定为多个第二节点，并基于多个第二节点构建第二无向有权图模型。

在一种可能的实现方式中，首先遍历两个数据库，分别对两数据库建立无向有权图模型。其中每个数据库中的每一张表作为图的一个节点。再对所有的表进行两两比较，若两张表中包含相同的列，则认为两张表相互关联，对应的两个节点间连接一条无向边，该条边的权重等于两张表所包含相同列的个数。

S102，分别提取第一无向有权图模型和第二无向有权图模型中的关键节点，生成第一关键节点集合和第二关键节点集合；

在本申请实施例中，从两个异构数据库对应的两个无向有权图模型中提取关键节点，分别为提取第一无向有权图模型和第二无向有权图模型中的关键节点。

在提取第一无向有权图模型中关键节点时，首先获取第一无向有权图模型中的各节点连接的所有边的权重，并将各节点连接的所有边的权重进行求和生成各节点对应的第一目标值，然后将各节点对应的第一目标值进行降序排序，生成排序后的多个第一目标值，最后从多个第一目标值中选择大于预设阈值的值，并将大于预设阈值的值对应的节点确定为第一关键节点集合。其中，所有边中各边为两个节点间连接的一条无向边，无向边的权重等于两张表所包含相同数据列的个数，具体可参考步骤S101中相关解释，此处不再赘述。

在提取第二无向有权图模型中关键节点时，首先获取第二无向有权图模型中的各节点连接的所有边的权重，并将各节点连接的所有边的权重进行求和生成各节点对应的第二目标值，然后将各节点对应的第二目标值进行降序排序，生成排序后的多个第二目标值，最后从多个第二目标值中选择大于预设阈值的值，并将大于预设阈值的值对应的节点确定为第二关键节点集合。

在一种可能的实现方式中，在提取两个异构数据库对应的图模型中的关键节点时，首先对模型图中每一个节点所连接的所有边的权重进行求和，然后根据该求和的值对节点进行降序排序，最后根据节点的总数设定阈值，选取排序后所有大于该设定阈值的节点作为关键节点。

S103，构建第一关键节点集合中各关键节点包含的所有数据列与第二关键节点集合中各关键节点包含的所有数据列之间的相似度矩阵；

其中，数据列为数据库中每个表中的每一列数据。相似度矩阵为第一数据库和第二数据库构建的矩阵表。

在本申请实施例中，在构建第一数据库和第二数据库形成的矩阵时，首先计算第一关键节点集合中各关键节点包含的所有数据列和第二关键节点集合中各关键节点包含的所有数据列之间的数据列名相似度和数据列的数据相似度，然后按照预设加权系数对数据列名相似度和数据列的数据相似度进行加权求和，生成第一关键节点集合中各关键节点包含的所有数据列和第二关键节点集合中各关键节点包含的所有数据列之间的综合相似度，最后根据综合相似度构建第一关键节点集合中各关键节点包含的所有数据列和第二关键节点集合中各关键节点包含的所有数据列之间的相似度矩阵。

进一步地，在计算第一关键节点集合中各关键节点包含的所有数据列和第二关键节点集合中各关键节点包含的所有数据列之间的数据列名相似度和数据列的数据相似度时，首先通过word2vec模型将第一关键节点集合和第二关键节点集合中各关键节点包含的所有数据列对应的数据列名转化成词向量，生成第一词向量集合和第二词向量集合，再计算第一词向量集合中各词向量与第二词向量集合中各词向量之间的余弦相似度，生成第一关键节点集合中各关键节点包含的所有数据列和第二关键节点集合中各关键节点包含的所有数据列之间的数据列名相似度，然后获取第一关键节点集合和第二关键节点集合中各关键节点包含的所有数据列对应的数据列的数据，生成第一数据集合和第二数据集合，最后计算第一数据集合中各数据和第二数据集合中各数据之间的数据相似度，生成第一关键节点集合中各关键节点包含的所有数据列和第二关键节点集合中各关键节点包含的所有数据列之间的数据相似度。

具体的，在构建相似度矩阵时，首先对两个数据库的所有关键节点所包含的所有列计算列名相似度和列的数据相似度，再按照一定的加权系数(分别用ω₁、ω₂表示)对列名相似度(表示为sim_name)和列的数据相似度(表示为sim_data)进行加权求和来表示这两列的综合相似度。公式为：sim＝ω₁sim_name+ω₂sim_data，最后两两列之间根据综合相似度构成相似度矩阵，例如表1所示。矩阵的行代表一个数据库中所有的列，矩阵的列代表另一数据库的所有列。

表1

在计算列名相似度时，对关键节点所包含的所有列的列名进行编码，将每一个列名看作一个词，由于同一张表中的列之间存在一些内在联系，因此将同一张表所包含的所有列名看成一句话，使用word2vec模型，将每一个列名都用维度相同的向量来表达。列名对应的向量之间的关系可以反映列名间的相似程度。对所有列名对应的词向量，两两计算其余弦相似度来代表列名间的相似度。

在计算数据列的数据相似度时，例如两个待计算数据相似度的列col_1,col_2输入算法中，输出为sim_data(两列的数据相似度)。

该算法在度量列的数据相似度时，主要包括以下几种类型：

(1)当两列的数据类型不同时，认为这两列的含义不同，必然不匹配，定义其相似度为0。

(2)当两列的数据类型同为int类型或者同为float类型时，对每一数据列分别求其平均值、方差、最小值、最大值等特征构成特征向量，用两个特征向量的余弦相似度来表达这两列数据的相似程度。

(3)当两列的数据类型同为短字符串时，通过计算字符串之间的编辑距离来度量两列数据的相似程度。

(4)当两列的数据类型同为长文本时，先利用jieba对文本进行分词，然后使用word2vec模型，将每一个词用一个向量来表达，通过词向量间的相似度来度量两列数据的相似程度。

S104，确定待匹配的数据列，并从相似度矩阵中获取待匹配的数据列对应的多个最优数据列生成候选匹配列表；

在一种可能的实现方式中，在基于步骤S103构建出两个异构数据库的相似度矩阵后，用户终端首先确定出待匹配的数据列，然后从相似度矩阵中获取待匹配的数据列对应的多个最优数据列，生成候选匹配列表。其中，本申请是选取与其相似度最高的10列，产生候选匹配列表。

S105，将候选匹配列表中的多个最优数据列进行降序排列，生成排序后的多个最优数据列；

在一种可能的实现方式中，对候选列表中的元素按照相似度大小进行降序排列，生成排序后的多个数据列，并基于排序后的多个最优数据列确定数据匹配结果。例如如果某一个元素相比前一个元素的相似度差值较大，则取该元素之前的元素集合作为精确匹配结果。如图2所示，对候选列表中的元素按照相似度降序排列后，第四点和第三点的相似度差值较大，因此取前三个元素作为精确匹配结果。

S106，基于排序后的多个最优数据列确定数据匹配结果。

进一步地，当检测到待匹配的数据列匹配结束时，将待匹配的数据列从其他数据列的候选匹配列表中删除，并当第一关键节点集合中各关键节点包含的所有数据列与第二关键节点集合中各关键节点包含的所有数据列之间匹配完成时，生成多个数据匹配结果，最后根据多个数据匹配结果将第一数据库和第二数据库进行集成，生成目标数据库。

例如图3所示，图3为本申请提供的数据库集成时的过程示意图，针对数据列A和数据库B，分别建立数据库A和数据库B的图模型，在从两个数据库对应的图模型中分别提取关键点，根据提取的关键点极端两个数据库中每个表之间两两列之间的相似度，根据计算出的相似度构建生成相似度矩阵。在计算两两列之间的相似度时，分别计算列名相似度和数据相似度，再对列名相似度和数据相似度进行加权求和生成两两列之间的相似度。在生成相似度矩阵后，确定出待匹配的列，然后从相似度矩阵中获取待匹配的列对应的多个最优列生成候选匹配列表。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

请参见图4，其示出了本发明一个示例性实施例提供的异构数据库的数据集成装置的结构示意图。该异构数据库的数据集成装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1包括图模型建立模块10、关键点提取模块20、相似度矩阵构建模块30和候选匹配列表生成模块40、数据列排序模块50、匹配结果生成模块60。

图模型建立模块10，用于针对第一数据库建立第一无向有权图模型，针对第二数据库建立第二无向有权图模型，第一数据库和第二数据库为异构数据库；

关键点提取模块20，用于分别提取第一无向有权图模型和第二无向有权图模型中的关键节点，生成第一关键节点集合和第二关键节点集合；

相似度矩阵构建模块30，用于构建第一关键节点集合中各关键节点包含的所有数据列与第二关键节点集合中各关键节点包含的所有数据列之间的相似度矩阵；

候选匹配列表生成模块40，用于确定待匹配的数据列，并从相似度矩阵中获取待匹配的数据列对应的多个最优数据列生成候选匹配列表；

数据列排序模块50，用于将候选匹配列表中的多个最优数据列进行降序排列，生成排序后的多个最优数据列；

匹配结果生成模块60，用于基于排序后的多个最优数据列确定数据匹配结果。

需要说明的是，上述实施例提供的异构数据库的数据集成装置在执行异构数据库的数据集成方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的异构数据库的数据集成装置与异构数据库的数据集成方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本发明还提供一种计算机可读介质，其上存储有程序指令，该程序指令被处理器执行时实现上述各个方法实施例提供的异构数据库的数据集成方法。本发明还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个方法实施例的异构数据库的数据集成方法。

请参见图5，为本申请实施例提供了一种终端的结构示意图。如图5所示，终端1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏(Display)、摄像头(Camera)，可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行电子设备1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图5所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及异构数据库的数据集成应用程序。

在图5所示的终端1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的异构数据库的数据集成应用程序，并具体执行以下操作：

基于排序后的多个最优数据列确定数据匹配结果。

在一个实施例中，处理器1001在执行基于排序后的多个最优数据列确定数据匹配结果之后时，还执行以下操作：

当检测到待匹配的数据列匹配结束时，将待匹配的数据列从其他数据列的候选匹配列表中删除；

在一个实施例中，处理器1001在执行针对第一数据库建立第一无向有权图模型，针对第二数据库建立第二无向有权图模型时，具体执行以下操作：

在一个实施例中，处理器1001在执行分别提取第一无向有权图模型和第二无向有权图模型中的关键节点，生成第一关键节点集合和第二关键节点集合时，具体执行以下操作：

从多个第二目标值中选择大于预设阈值的值，并将大于预设阈值的值对应的节点确定为第二关键节点集合；

在一个实施例中，处理器1001在执行构建第一关键节点集合中各关键节点包含的所有数据列与第二关键节点集合中各关键节点包含的所有数据列之间的相似度矩阵时，具体执行以下操作：

在一个实施例中，处理器1001在执行计算第一关键节点集合中各关键节点包含的所有数据列和第二关键节点集合中各关键节点包含的所有数据列之间的数据列名相似度和数据列的数据相似度时，具体执行以下操作：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种异构数据库的数据集成方法，其特征在于，所述方法包括：

针对第一数据库建立第一无向有权图模型，针对第二数据库建立第二无向有权图模型，所述第一数据库和第二数据库为异构数据库；

分别提取所述第一无向有权图模型和第二无向有权图模型中的关键节点，生成第一关键节点集合和第二关键节点集合；

构建所述第一关键节点集合中各关键节点包含的所有数据列与第二关键节点集合中各关键节点包含的所有数据列之间的相似度矩阵；

确定待匹配的数据列，并从所述相似度矩阵中获取待匹配的数据列对应的多个最优数据列生成候选匹配列表；

将所述候选匹配列表中的多个最优数据列进行降序排列，生成排序后的多个最优数据列；

基于所述排序后的多个最优数据列确定数据匹配结果。

2.根据权利要求1所述的方法，其特征在于，所述基于所述排序后的多个最优数据列确定数据匹配结果之后，还包括：

当所述第一关键节点集合中各关键节点包含的所有数据列与第二关键节点集合中各关键节点包含的所有数据列之间匹配完成时，生成多个数据匹配结果；

根据所述多个数据匹配结果将所述第一数据库和第二数据库进行集成，生成目标数据库。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

当检测到所述待匹配的数据列匹配结束时，将所述待匹配的数据列从其他数据列的候选匹配列表中删除。

4.根据权利要求1所述的方法，其特征在于，所述针对第一数据库建立第一无向有权图模型，针对第二数据库建立第二无向有权图模型，包括：

将第一数据表集合中的各数据表确定为多个第一节点，并基于所述多个第一节点构建第一无向有权图模型；

将第二数据表集合中的各数据表确定为多个第二节点，并基于所述多个第二节点构建第二无向有权图模型。

5.根据权利要求1所述的方法，其特征在于，所述分别提取所述第一无向有权图模型和第二无向有权图模型中的关键节点，生成第一关键节点集合和第二关键节点集合，包括：

获取第一无向有权图模型中的各节点连接的所有边的权重，并将所述各节点连接的所有边的权重进行求和生成各节点对应的第一目标值；

将所述各节点对应的第一目标值进行降序排序，生成排序后的多个第一目标值；

从所述多个第一目标值中选择大于预设阈值的值，并将所述大于预设阈值的值对应的节点确定为第一关键节点集合；

其中，所述所有边中各边为两个节点间连接的一条无向边，所述无向边的权重等于两张表所包含相同数据列的个数。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取第二无向有权图模型中的各节点连接的所有边的权重，并将所述各节点连接的所有边的权重进行求和生成各节点对应的第二目标值；

将所述各节点对应的第二目标值进行降序排序，生成排序后的多个第二目标值；

从所述多个第二目标值中选择大于预设阈值的值，并将所述大于预设阈值的值对应的节点确定为第二关键节点集合。

7.根据权利要求1所述的方法，其特征在于，所述构建所述第一关键节点集合中各关键节点包含的所有数据列与第二关键节点集合中各关键节点包含的所有数据列之间的相似度矩阵，包括：

计算所述第一关键节点集合中各关键节点包含的所有数据列和第二关键节点集合中各关键节点包含的所有数据列之间的数据列名相似度和数据列的数据相似度；

按照预设加权系数对所述数据列名相似度和数据列的数据相似度进行加权求和，生成第一关键节点集合中各关键节点包含的所有数据列和第二关键节点集合中各关键节点包含的所有数据列之间的综合相似度；

根据所述综合相似度构建所述第一关键节点集合中各关键节点包含的所有数据列和第二关键节点集合中各关键节点包含的所有数据列之间的相似度矩阵。

8.根据权利要求7所述的方法，其特征在于，所述计算所述第一关键节点集合中各关键节点包含的所有数据列和第二关键节点集合中各关键节点包含的所有数据列之间的数据列名相似度和数据列的数据相似度，包括：

通过word2vec模型将所述第一关键节点集合和第二关键节点集合中各关键节点包含的所有数据列对应的数据列名转化成词向量，生成第一词向量集合和第二词向量集合；

计算所述第一词向量集合中各词向量与第二词向量集合中各词向量之间的余弦相似度，生成第一关键节点集合中各关键节点包含的所有数据列和第二关键节点集合中各关键节点包含的所有数据列之间的数据列名相似度；

获取所述第一关键节点集合和第二关键节点集合中各关键节点包含的所有数据列对应的数据列的数据，生成第一数据集合和第二数据集合；

计算所述第一数据集合中各数据和第二数据集合中各数据之间的数据相似度，生成第一关键节点集合中各关键节点包含的所有数据列和第二关键节点集合中各关键节点包含的所有数据列之间的数据相似度。

9.一种异构数据库的数据集成装置，其特征在于，所述装置包括：

图模型建立模块，用于针对第一数据库建立第一无向有权图模型，针对第二数据库建立第二无向有权图模型，所述第一数据库和第二数据库为异构数据库；

关键点提取模块，用于分别提取所述第一无向有权图模型和第二无向有权图模型中的关键节点，生成第一关键节点集合和第二关键节点集合；

相似度矩阵构建模块，用于构建所述第一关键节点集合中各关键节点包含的所有数据列与第二关键节点集合中各关键节点包含的所有数据列之间的相似度矩阵；

候选匹配列表生成模块，用于确定待匹配的数据列，并从所述相似度矩阵中获取待匹配的数据列对应的多个最优数据列生成候选匹配列表；

数据列排序模块，用于将所述候选匹配列表中的多个最优数据列进行降序排列，生成排序后的多个最优数据列；

匹配结果生成模块，用于基于所述排序后的多个最优数据列确定数据匹配结果。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～8任意一项的方法步骤。