CN110019474B

CN110019474B - 异构数据库中的同义数据自动关联方法、装置及电子设备

Info

Publication number: CN110019474B
Application number: CN201711377197.0A
Authority: CN
Inventors: 郭杏荣
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd; Beijing Kingsoft Cloud Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd; Beijing Kingsoft Cloud Technology Co Ltd
Priority date: 2017-12-19
Filing date: 2017-12-19
Publication date: 2022-03-04
Anticipated expiration: 2037-12-19
Also published as: WO2019120169A1; CN110019474A

Abstract

本发明实施例提供了一种异构数据库中的同义数据自动关联方法、装置及电子设备，所述方法包括：获取第一数据库和第二数据库中的字段，其中，第一数据库与第二数据库互为异构数据库；基于预设字段与词库中词语的映射关系，查找获取的字段在词库中对应的词语，得到第一数据库中各字段各自对应的词语和第二数据库中各字段各自对应的词语，其中，词库包含第一数据库和第二数据库所属行业的专业术语；分别比较第一数据库中各字段各自对应的词语与第二数据库中各字段各自对应的词语的相似度，并将相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。应用本发明实施例，能够提高异构数据库间同义数据关联的效率。

Description

异构数据库中的同义数据自动关联方法、装置及电子设备

技术领域

本发明涉及数据处理技术领域，特别是涉及一种异构数据库中的同义数据自动关联方法、装置及电子设备。

背景技术

目前，完成相同或相近业务功能的软件系统往往存在多种实现方法，例如，面向个人消费者的各类网约车应用软件，面向企业的各类银行业务系统，以及各类医院信息化系统等。其中，这些业务功能相同或相近，但实现方式和内部结构不一致的软件系统被称为异构系统，异构系统中的各数据库被称为异构数据库。在异构数据库中，由于同样的数据在内部的命名、处理和存储等方面是存在差异的，因此将异构系统中完全等价表达同一业务对象或其属性的数据称为同义数据。

造成这一现象的主要原因是同一细分领域存在多家互相竞争的企业，例如我国为医院提供信息化系统的厂商，据不完全统计就有130多家，其中全国性的大型厂商就有10多家，且单一软件系统的市场占有率都不高，市场高度分散。最终导致行业内的数据形成了非常多的碎片，即“数据孤岛”，也导致不同厂商的软件系统，甚至同一厂商的软件系统的不同部署实例间，数据都无法打通和连接，这都为行业的融合、业务联动、丰富基于大数据的应用、以及政府和行业监管都带来了很大的阻碍和困难。要解决这些问题，首先在于打通数据，连接“数据孤岛”上的数据，这就需要将异构数据库中的同义数据进行关联。

现有的异构数据库中的同义数据关联方法是将同义数据统一转换为规范的格式来实现的。具体的，先由国家主管部门或行业组织制定一个数据标准规范，然后通过人工操作将这些异构数据库中的同义数据，按该数据标准规范转换为规范的数据格式，这样，转换后的同义数据的数据格式一致，从而实现异构数据库中的同义数据的关联。

但是，在现有的异构数据库中的同义数据关联的方法中，一方面，由于所制定的数据标准规范是非强制性的，其约束力不强，一些厂商往往并不遵守该数据标准规范或者部分遵守，这样，转换后的数据不符合所制定的数据标准规范；另一方面，数据按标准规范转换过程中，由于人工操作不可避免的会发生操作错误，也会使得转换后的数据不符合所制定的数据标准规范，最终导致异构数据库间同义数据关联的效率比较低。

发明内容

本发明实施例的目的在于提供一种异构数据库中的同义数据自动关联方法、装置及电子设备，以提高异构数据库间同义数据关联的效率。具体技术方案如下：

本发明实施例公开了一种异构数据库中的同义数据自动关联方法，所述方法包括：

获取第一数据库和第二数据库中的字段，其中，所述第一数据库与所述第二数据库互为异构数据库；

基于预设字段与词库中词语的映射关系，查找获取的所述字段在所述词库中对应的词语，得到所述第一数据库中各字段各自对应的词语和所述第二数据库中各字段各自对应的词语，其中，所述词库包含所述第一数据库和所述第二数据库所属行业的专业术语；

分别比较所述第一数据库中各字段各自对应的词语与所述第二数据库中各字段各自对应的词语的相似度，并将所述相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。

可选的，所述映射关系包括如下映射关系中的一个或两个以上：

所述词库中词语的汉语拼音作为第一预设字段，与所述词库中词语的第一映射关系；

所述词库中词语的汉语拼音的首字母作为第二预设字段，与所述词库中词语的第二映射关系；

所述词库中词语的英文单词作为第三预设字段，与所述词库中词语的第三映射关系；

所述词库中词语的英文单词的缩写作为第四预设字段，与所述词库中词语的第四映射关系；

基于预设字段与词库中词语的映射关系，查找获取的所述字段在所述词库中对应的词语，得到所述第一数据库中各字段各自对应的词语和所述第二数据库中各字段各自对应的词语，包括：

基于所述第一映射关系、所述第二映射关系、所述第三映射关系和所述第四映射关系中的一个或两个以上映射关系，查找获取的所述字段在所述词库中对应的词语，得到所述第一数据库中各字段各自对应的词语和所述第二数据库中各字段各自对应的词语。

可选的，所述基于所述第一映射关系、所述第二映射关系、所述第三映射关系和所述第四映射关系中的一个或两个以上映射关系，查找获取的所述字段在所述词库中对应的词语，得到所述第一数据库中各字段各自对应的词语和所述第二数据库中各字段各自对应的词语，包括：

确定获取的所述字段的预设字段类别，所述预设字段类别为所述第一预设字段、所述第二预设字段、所述第三预设字段和所述第四预设字段中的一种；

在确定的所述字段的预设字段类别对应的映射关系中，查找所述字段在所述词库中对应的词语，得到所述第一数据库中各字段对应的各词语和所述第二数据库中各字段对应的各词语。

可选的，所述确定获取的所述字段的预设字段类别，包括：

当获取的所述字段包含多种预设字段时，将所述字段分段，确定分段后每个字段的预设字段类别分别为所述第一预设字段、所述第二预设字段、所述第三预设字段和所述第四预设字段中的一种；

在确定的所述字段的预设字段类别对应的映射关系中，查找所述字段在所述词库中对应的词语，得到所述第一数据库中各字段对应的各词语和所述第二数据库中各字段对应的各词语，包括：

在确定的所述字段的预设字段类别对应的映射关系中，分别查找分段后每个字段在所述词库中对应的词语，并将所述各词语组合，得到所述第一数据库中各字段对应的各词语和所述第二数据库中各字段对应的各词语。

可选的，所述在确定的所述字段的预设字段类别对应的映射关系中，分别查找分段后每个字段在所述词库中对应的词语，并将所述各词语组合，得到所述第一数据库中各字段对应的各词语和所述第二数据库中各字段对应的各词语，包括：

在确定的所述字段的预设字段类别对应的映射关系中，查找分段后的每一个字段在所述词库中对应的词语；

按照分段后各字段从左到右的顺序，将前两个字段在所述词库中对应的词语进行组合，并将组合得到的词语作为各字段对应的首个词语；

依次将所述首个词语与未组合的下一个相邻字段在所述词库中对应的词语进行组合，并将组合得到的词语替换所述首个词语，直至所有的字段在所述词库中对应的词语都被组合，得到所述字段对应的词语。

可选的，所述在确定的所述字段的预设字段类别对应的映射关系中，查找分段后的每一个字段在所述词库中对应的词语，包括：

当所述字段在所述词库中对应的词语为一个时，将该词语确定为该字段在所述词库中对应的词语；

当所述字段在所述词库中对应的词语为多个时，将该多个词语中优先级较高的词语确定为该字段在所述词库中对应的词语，其中，在所述词库中所述专业术语的优先级较高。

可选的，所述分别比较所述第一数据库中各字段各自对应的词语与所述第二数据库中各字段各自对应的词语的相似度，并将所述相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联，包括：

利用似然函数分别比较所述第一数据库中各字段各自对应的词语与所述第二数据库中各字段各自对应的词语的相似度，并将所述相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。

本发明实施例公开了一种异构数据库中的同义数据自动关联装置，所述装置包括：

获取模块，用于获取第一数据库和第二数据库中的字段，其中，所述第一数据库与所述第二数据库互为异构数据库；

查找模块，用于基于预设字段与词库中词语的映射关系，查找获取的所述字段在所述词库中对应的词语，得到所述第一数据库中各字段各自对应的词语和所述第二数据库中各字段各自对应的词语，其中，所述词库包含所述第一数据库和所述第二数据库所属行业的专业术语；

比较模块，用于分别比较所述第一数据库中各字段各自对应的词语与所述第二数据库中各字段各自对应的词语的相似度，并将所述相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。

所述查找模块，具体用于：

可选的，所述查找模块，包括：

确定子模块，用于确定获取的所述字段的预设字段类别，所述预设字段类别为所述第一预设字段、所述第二预设字段、所述第三预设字段和所述第四预设字段中的一种；

查找子模块，用于在确定的所述字段的预设字段类别对应的映射关系中，查找所述字段在所述词库中对应的词语，得到所述第一数据库中各字段对应的各词语和所述第二数据库中各字段对应的各词语。

可选的，所述查找子模块，包括：

确定单元，用于当获取的所述字段包含多种预设字段时，将所述字段分段，确定分段后每个字段的预设字段类别分别为所述第一预设字段、所述第二预设字段、所述第三预设字段和所述第四预设字段中的一种；

第一查找单元，用于在确定的所述字段的预设字段类别对应的映射关系中，查找所述字段在所述词库中对应的词语，得到所述第一数据库中各字段对应的各词语和所述第二数据库中各字段对应的各词语，包括：

第二查找单元，用于在确定的所述字段的预设字段类别对应的映射关系中，分别查找分段后每个字段在所述词库中对应的词语，并将所述各词语组合，得到所述第一数据库中各字段对应的各词语和所述第二数据库中各字段对应的各词语。

可选的，所述第二查找单元，包括：

第一查找子单元，用于在确定的所述字段的预设字段类别对应的映射关系中，查找分段后的每一个字段在所述词库中对应的词语；

第一组合子单元，按照分段后各字段从左到右的顺序，将前两个字段在所述词库中对应的词语进行组合，并将组合得到的词语作为各字段对应的首个词语；

第二组合子单元，用于依次将所述首个词语与未组合的下一个相邻字段在所述词库中对应的词语进行组合，并将组合得到的词语替换所述首个词语，直至所有的字段在所述词库中对应的词语都被组合，得到所述字段对应的词语。

可选的，所述第一查找子单元，具体用于：

可选的，所述比较模块，具体用于：

本发明实施例还公开了一种电子设备，包括处理器和机器可读存储介质，机器可读存储介质存储有能够被处理器执行的机器可执行指令，处理器被机器可执行指令促使：实现上述一种异构数据库中的同义数据自动关联方法步骤。

在本发明实施的又一方面，还公开了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的一种异构数据库中的同义数据自动关联方法步骤。

在本发明实施的又一方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的一种异构数据库中的同义数据自动关联方法步骤。

在本发明实施的又一方面，本发明实施例还提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述第一方面提供的一种异构数据库中的同义数据自动关联方法步骤。

本发明实施例提供的一种异构数据库中的同义数据自动关联方法、装置及电子设备，先获取第一数据库和第二数据库中的字段，其中，第一数据库与第二数据库互为异构数据库；再基于预设字段与词库中词语的映射关系，查找获取的字段在词库中对应的词语，得到第一数据库中各字段各自对应的词语和第二数据库中各字段各自对应的词语；最后分别比较第一数据库中各字段各自对应的词语与第二数据库中各字段各自对应的词语的相似度，并将相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。这种先通过预设的映射关系将异构数据库中的字段都转换成各字段在词库中各自对应的词语，再将异构数据库中相似度高的字段相关联，使得同义数据的转化都是按照统一的格式，而且避免了人工操作带来操作错误问题，从而提高了异构数据库间同义数据关联的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种异构数据库中的同义数据自动关联方法的流程示意图；

图2为本发明实施例提供的一种异构数据库中的同义数据自动关联装置的结构示意图；

图3为本发明实施例提供的一种电子设备的一种结构示意图；

图4为本发明实施例提供的一种电子设备的另一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着信息技术的快速发展，同一细分领域出现了多家互相竞争的企业，但是这些互相竞争的企业之间的数据并没有打通，使得数据形成了非常多的碎片，即“数据孤岛”，同时也为行业的融合和业务联动、丰富基于大数据的应用，以及政府和行业监管都带来了很大的阻碍和困难。因此，有必要将异构数据库中的同义数据进行关联。而进行关联的关键在于打通数据，连接“数据孤岛”上的数据，更关键的又在于，如何将不同软件系统中的同义数据项进行识别和关联。例如，有两个不同厂家的居民健康档案系统，这两个系统实现相同的业务功能，但其数据库设计不同，数据的存储也不同。

如表1所示，表1是A厂家的数据库。

表1

在B厂家的数据库中，同样的数据则是出现在几个不同的表中，如表2所示：

表2

通过表1和表2中可以看到诸如体检日期、体温、脉搏(脉率)是同义词(在业务上具有同一指代)，虽然在异构系统中它的表达、命名和存储等方式可能是不同的，但如果能够将这些异构数据库中的同义数据关联起来对个人和群体都是非常有意义的。基于此，本发明提供了一种异构数据库中的同义数据自动关联方法，可以将完成相同或相近功能的异构(如来自不同软件开发商、或同一开发商的不同版本等)软件系统的数据库中的同义数据自动关联起来，从而解决行业数据打通、整合、联动和大数据分析的问题。具体过程如下：

参见图1，图1为本发明实施例提供的一种异构数据库中的同义数据自动关联方法的流程示意图，包括如下步骤：

S101，获取第一数据库和第二数据库中的字段，其中，第一数据库与第二数据库互为异构数据库。

具体的，异构数据库是指异构系统中的各数据库，其中，异构系统为业务功能相同或相近，但实现方式和内部结构不一致的软件系统。对异构数据库中的同义数据进行关联，需要先获取异构数据库中的各字段，然后分别比较异构数据库不同字段的所表示的意思是否相同，并将异构数据库中表达意思相同的字段进行关联。

这里，获取的第一数据库和第二数据库中的字段为业务功能相同或相近，但实现方式和内部结构不一致的软件系统中的字段，即第一数据库与第二数据库互为异构数据库，所获取的第一数据库与第二数据库中的这些字段中所表达的意思相同或者相近的字段为同义数据，通过将这些字段自动关联起来，可以有效解决行业数据打通、整合、联动和大数据分析的问题。

S102，基于预设字段与词库中词语的映射关系，查找获取的字段在词库中对应的词语，得到第一数据库中各字段各自对应的词语和第二数据库中各字段各自对应的词语，其中，词库包含第一数据库和第二数据库所属行业的专业术语。

具体的，映射是指两个元素集之间元素相互“对应”的关系，映射关系是预先建立好的，表示的是预设字段与词库中词语的映射关系，例如，建立4个映射关系m1，m2，m3，m4，其中，每个映射关系中包含若干组key(预设字段)到value(预设字段在词库中对应的词语)的对应关系，一个value为词库中的一个或多个词语。通过映射关系查找获取的字段在词库中对应的词语，返回结果中的词语是按优先级大小排序，其中，词库第一数据库和第二数据库所属行业的专业术语的优先级较高，将优先级较高的词语作为第一数据库中各字段各自对应的词语和第二数据库中各字段各自对应的词语。

这里，基于预设字段与词库中词语的映射关系，可以查找到所获取的字段在词库中对应的词语，得到第一数据库中各字段各自对应的词语和第二数据库中各字段各自对应的词语，从而使得同义数据的转化都是按照统一的格式，为同义数据的关联奠定了基础。例如，预设字段与词库中词语的映射关系为词语的英文单词与该英文单词在词库中对应的词语，那么通过该映射关系查找到“DATE”在词库中对应的词语为“日期”。

S103，分别比较第一数据库中各字段各自对应的词语与第二数据库中各字段各自对应的词语的相似度，并将相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。

具体的，将第一数据库中各字段各自对应的词语分别与第二数据库中各字段各自对应的词语进行比较，得到每两个词的比较结果。其中，比较两个词语的相似度可以通过SOUNDEX函数将每个词语的字符串转换为四位数字代码，再通DIFFERENCE函数比较两个字符串的SOUNDEX值，并评估它们之间的相似性，最后返回0到4之间的一个值，其中4表示匹配性最高。还可以通过直接比较两个词语的tf-idf(Term Frequency-Inverse DocumentFrequency，词频-逆向文件频率)特征在余弦相似度上的近似程度，得到每两个词的相似度。还可以利用似然函数比较第一数据库中各字段各自对应的词语与第二数据库中各字段各自对应的词语的相似度等。这种通过将相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联，避免了人工操作带来操作错误问题，从而提高了异构数据库间同义数据关联的效率。需要说明的是，凡是能比较出第一数据库中各字段各自对应的词语与第二数据库中各字段各自对应的词语的相似度的方法，都属于本发明的保护范围。

另外，当比较了第一数据库中各字段各自对应的词语与第二数据库中各字段各自对应的词语的相似度后，将相似度高于预设阈值的字段进行关联，这里，预设阈值是根据实际所需设定的，例如选取相似度高于0.8的两个词语进行关联。而当第一数据库的其中一个词语与第二数据库中的多个词语的相似度都高于预设阈值时，可以选取这多个词语中相似度最高的词语对应的字段进行关联，还可以选取这多个词语中相似度最接近实际所设定的值的词语所对应的字段进行关联。

由此可见，本发明实施例提供的一种异构数据库中的同义数据自动关联方法，先获取第一数据库和第二数据库中的字段，其中，第一数据库与第二数据库互为异构数据库；再基于预设字段与词库中词语的映射关系，查找获取的字段在词库中对应的词语，得到第一数据库中各字段各自对应的词语和第二数据库中各字段各自对应的词语；最后分别比较第一数据库中各字段各自对应的词语与第二数据库中各字段各自对应的词语的相似度，并将相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。这种先通过预设的映射关系将异构数据库中的字段都转换成各字段在词库中各自对应的词语，再将异构数据库中相似度高的字段相关联，使得同义数据的转化都是按照统一的格式，而且避免了人工操作带来操作错误问题，从而提高了异构数据库间同义数据关联的效率。

通过本发明实施例提供的一种异构数据库中的同义数据自动关联方法，可以将不同金融机构的自然人关联起来，从而可以进一步分析同一自然人的全部银行借贷情况和信用情况；也可以将一个患者在不同医疗机构的就诊记录按时间顺序关联起来，从而展现一个人的健康轨迹；还可以将一个车的车牌号在不同网约车系统中关联起来，从而展现一辆车的运营情况，这为监管、保险等提供相关依据；还可以将一群人的同义数据关联起来，有利于群体性数据的趋势、特征的研究等。

在本发明实施例中的映射关系包括如下四种映射关系中的一个或两个以上：

第一种，词库中词语的汉语拼音作为第一预设字段，与词库中词语的第一映射关系。

具体的，先将词库中每个词语的汉语拼音作为第一预设字段，然后将该第一预设字段在词库中对应的词语作为第一映射关系，例如，词库中的词语“体温”对应的汉语拼音“TIWEN”或者“tiwen”，则将“TIWEN”或者“tiwen”，作为第一预设字段，那么第一映射关系为“TIWEN”或者“tiwen”对应词库中的词语“体温”。

另外，将词库中每个词语的汉语拼音作为第一预设字段，对于汉语拼音相同，但该汉语拼音对应的词语不同的情况，其在该第一映射关系中，该汉语拼音在词库中对应的词语为多个，例如“TIWEN”在词库中对应的词语为“体温”、“提问”、“台湾”等。

第二种，词库中词语的汉语拼音的首字母作为第二预设字段，与词库中词语的第二映射关系。

具体的，先将词库中每个词语的汉语拼音的首字母作为第二预设字段，然后将该第二预设字段到词库中对应的词语作为第二映射关系，例如词库中的词语“体温”对应的汉语拼音的首字母为“TW”或者“tw”，则将“TW”或者“tw”作为第二预设字段，那么第二映射关系为“TW”或者“tw”对应词库中的词语“体温”。

同样，将词库中每个词语的汉语拼音的首字母作为第二预设字段，对于汉语拼音的首字母相同，但该汉语拼音的首字母对应的词语不同的情况，其在该第二映射关系中，该汉语拼音的首字母在词库中对应的词语为多个，例如“TW”或者“tw”在词库中对应的词语为“体温”、“提问”、“台湾”、“条纹”、“跳舞”等。

第三种，词库中词语的英文单词作为第三预设字段，与词库中词语的第三映射关系。

具体的，先将词库中每个词语的英文单词作为第三预设字段，然后将该第三预设字段到词库中对应的词语作为第三映射关系，例如词库中的词语“体温”对应的英文单词为“Temperature”，则将“Temperature”作为第三预设字段，那么第三映射关系为“Temperature”对应词库中的词语“体温”。

同样，将词库中每个词语的英文单词作为第三预设字段，对于英文单词相同，但该英文单词对应的词语不同的情况，其在该第三映射关系中，该英文单词在词库中对应的词语为多个，例如“Temperature”在词库中对应的词语为“体温”、“温度”、“气温”等。

第四种，词库中词语的英文单词的缩写作为第四预设字段，与词库中词语的第四映射关系。

具体的，先将词库中每个词语的英文单词的缩写作为第四预设字段，然后将该第四预设字段到词库中对应的词语作为第四映射关系，例如词库中的词语“体温”对应的英文单词的缩写为“Temp”，则将“Temp”作为第四预设字段，那么第四映射关系为“Temp”对应词库中的词语“体温”。

同样，将词库中每个词语的英文单词的缩写作为第四预设字段，对于英文单词相同，但该英文单词对应的词语不同的情况，其在该第四映射关系中，该英文单词的缩写在词库中对应的词语为多个，例如“Temp”在词库中对应的词语为“体温”、“温度”、“气温”、“临时”等。

在本发明实施例中，基于预设字段与词库中词语的映射关系，查找获取的字段在词库中对应的词语，得到第一数据库中各字段各自对应的词语和第二数据库中各字段各自对应的词语，具体可以为：

基于第一映射关系、第二映射关系、第三映射关系和第四映射关系中的一个或两个以上映射关系，查找获取的字段在词库中对应的词语，得到第一数据库中各字段各自对应的词语和第二数据库中各字段各自对应的词语。

具体的，基于第一映射关系、第二映射关系、第三映射关系和第四映射，建立一个映射查找器mapper，其功能等价于：value＝mapper(key，[possible_type])，其中，value表示获取的字段在词库中对应的词语，key表示获取的字段，possible_type表示可能的映射关系。对于传入的参数key，映射查找器会返回按照可选参数possible_type指定的映射关系去查找对应的value。如果不指定possible_type，那么则调用所有的映射关系，返回结果中的词同样按优先级大小排序。例如，调用mapper(“TIWEN”)，返回值value等于{“体温”，“提问”}。这样，通过在映射查找器查找获取的字段在词库中对应的词语，可以快速的查找到第一数据库中各字段各自对应的词语和第二数据库中各字段各自对应的词语。

在本发明一个可选的实施例中，基于第一映射关系、第二映射关系、第三映射关系和第四映射关系中的一个或两个以上映射关系，查找获取的字段在词库中对应的词语，得到第一数据库中各字段各自对应的词语和第二数据库中各字段各自对应的词语，具体可以为：

S1021，确定获取的字段的预设字段类别，预设字段类别为第一预设字段、第二预设字段、第三预设字段和第四预设字段中的一种。

具体的，由于映射关系至少包括四种映射关系，而这四种映射关系中又包含了四种预设字段，即第一预设字段、第二预设字段、第三预设字段和第四预设字段，因此，需要先确定获取的字段所对应的预设字段类别，这样，可以直接根据预设字段类别确定该预设字段类别所对应的映射关系。

S1022，在确定的字段的预设字段类别对应的映射关系中，查找字段在词库中对应的词语，得到第一数据库中各字段对应的各词语和第二数据库中各字段对应的各词语。

具体的，根据字段的预设字段类别确定的映射关系中，查找字段在词库中对应的词语，例如，字段的预设字段为第二预设字段，第二预设字段对应的映射关系为第二映射关系，则通过第二映射关系查找到字段在词库中对应的词语。这种先确定获取的字段的预设字段类别，即确定该字段为第一预设字段、第二预设字段、第三预设字段和第四预设字段中的一种，以便在预设字段对应的映射关系直接查找该字段在词库中对应的词语，而不用在每个映射关系中都去查找一遍，提高了字段在词库中对应的词语的查找效率。并且，在确定的字段的预设字段类别对应的映射关系中，查找字段在词库中对应的词语，使得同义数据的转化都是按照统一的格式，为同义数据的关联奠定了基础。

其中，确定获取的字段的预设字段类别，具体可以为：

当获取的字段包含多种预设字段时，将字段分段，确定分段后每个字段的预设字段类别分别为第一预设字段、第二预设字段、第三预设字段和第四预设字段中的一种。

这里，可以根据字段分段后所包含的预设字段类型的不同对字段进行分段，例如，“ZERENYS”该字段的预设字段类型不是同一种预设字段类型，“ZERENYS”分段后所包含的预设字段类型为“ZEREN”对应的第一预设字段和“YS”对应的第二预设字段。还可以设计一个列名规范器normalizer(column)，它将制定的列名(column)转换为规范的一种规范表达。这里的列名为数据库中的各列对应的字段，从column的第一个字符开始，依次取长度递减的子串，可以记为sub_name1，如果vi＝mapper(sub_name1)存在，则记录vi，且令column等于子串后余下的部分。继续执行本步，直至子串长度为0。令v＝v1+v2+…vi(i为本步记录的次数)。如果i为0，令v为空值“”，例如，column为“tijianRQ”，那么先取到子串“tijianR”，查询词库也不存在，直到子串“tijian”，查询到v1＝{“体检”，“踢毽”}，那么取剩余部分“RQ”继续查询，得到结果v2＝{“燃气”，“日期”}。当进行v1和v2组合时，首先取v1的优先级最高词“体检”，当“体检”确定时，后面跟“日期”的概率要大于“燃气”的概率，因此选v2的“日期”一词，这样v＝“体检日期”。

相应的，在确定的字段的预设字段类别对应的映射关系中，查找字段在词库中对应的词语，得到第一数据库中各字段对应的各词语和第二数据库中各字段对应的各词语，具体可以为：

在确定的字段的预设字段类别对应的映射关系中，分别查找分段后每个字段在词库中对应的词语，并将各词语组合，得到第一数据库中各字段对应的各词语和第二数据库中各字段对应的各词语。

具体的，将第分别查找分段后每个字段在词库中对应的词语进行组合，可以根据马尔科夫概率模型，依次取第一个字段在词库中对应的词出现时，第二个字段在词库中对应的词中概率最高的词，并将这两个词组合，对于有三个字段的情况，同样可以根据马尔科夫概率模型，依次取第一个字段与第二个字段在词库中对应的词组合后出现时，第三个字段在词库中对应的词中概率最高的词，对于有更多个字段的情况，也是根据该方法得到第一数据库中各字段对应的各词语和第二数据库中各字段对应的各词语。

另外，在本发明实施例中，在确定的字段的预设字段类别对应的映射关系中，分别查找分段后每个字段在词库中对应的词语，并将各词语组合，得到第一数据库中各字段对应的各词语和第二数据库中各字段对应的各词语，具体可以为：

S10221，在确定的字段的预设字段类别对应的映射关系中，查找分段后的每一个字段在词库中对应的词语。

这里，先确定所获取的字段对应的预设字段类别，然后确定该预设字段类别对应的映射关系，再在该映射关系中查找分段后的每一个字段在词库中对应的词语。例如，“shangciTIJIANRQ”分段后为“shangci”、“TIJIAN”和“RQ”两个字段，查找到字段“shangci”在词库中对应的词语为“上次”，字段“TIJIAN”在词库中对应的词语为“体检”、“踢毽”，查找到字段“RQ”在词库中对应的词语为“日期”、“燃气”等。这里，对于查找到字段在词库中对应的词语只有一个的情况，直接将该词语作为该字段在词库中对应的词语，而不用在每个映射关系中都去查找一遍，提高了字段在词库中对应的词语的查找效率。

S10222，按照分段后各字段从左到右的顺序，将前两个字段在词库中对应的词语进行组合，并将组合得到的词语作为各字段对应的首个词语。

具体的，按照分段后各字段从左到右的顺序，先将各字段中的前两个字段在词库中对应的词语进行组合，得到前两个字段组合对应的词语，将该词语作为各字段对应的首个词语，这样，方便继续组合该词语与剩余字段在词库中对应的词语。

S10223，依次将首个词语与未组合的下一个相邻字段在词库中对应的词语进行组合，并将组合得到的词语替换首个词语，直至所有的字段在词库中对应的词语都被组合，得到字段对应的词语。

具体的，当前两个字段组合后得到首个词语，然后依次将首个词语与未组合的下一个相邻字段在词库中对应的词语进行组合，得到一个新词语，并将组合得到的新词语替换首个词语，根据该方法一次对剩余没有进行组合的词语进行组合，直到所有的字段在词库中对应的词语都被组合。例如，“TIJIANRQJutiTime”分段后为“TIJIAN”、“RQ”和“Juti”、“Time”四个字段，在查找了“TIJIAN”在词库中对应的词语为“体检”之后，再查找“RQ”在词库中对应的词语为“日期”、“燃气”等，“Juti”在词库中对应的词语为“具体”，“Time”在词库中对应的词语为“时间”，然后将“TIJIAN”在词库中对应的词语与“RQ”在词库中对应的词语进行组合，得到“TIJIANRQ”在词库中对应的词语。这里，由于“RQ”在词库中对应的词语有多个，因此需要将“体检”分别与“日期”、“燃气”等词组合，选取组合概率较大的词语，得到“TIJIANRQ”在词库中对应的词语为“体检日期”。再将“体检日期”与“Juti”在词库中对应的词语为“具体”进行组合，得到“TIJIANRQJuti”在词库中对应的词语为“体检日期具体”。再将“体检日期具体”与“Time”在词库中对应的词语为“时间”进行组合，得到“TIJIANRQJutiTime”在词库中对应的词语为“体检日期具体时间”。

在本发明一个可选的实施例中，在确定的字段的预设字段类别对应的映射关系中，查找分段后的每一个字段在词库中对应的词语，包括两种情况：

第一种情况，当字段在词库中对应的词语为一个时，将该词语确定为该字段在词库中对应的词语。

具体的，当字段在词库中对应的词语为一个时，即通过映射关系查找到该字段在词库中对应的词语只有一个，那么这个词语就是该字段在词库中对应的词语。

第二种情况，当字段在词库中对应的词语为多个时，将该多个词语中优先级较高的词语确定为该字段在词库中对应的词语，其中，在词库中专业术语的优先级较高。

具体的，字段在词库中对应的词语为多个时，即通过映射关系查找到该字段在词库中对应的词语有多个，那么要选取该多个词语中的一个词语作为该字段在词库中对应的词语。

具体的选取方法是：选取该多个词语中优先级较高的词语，并将该词语确定为该字段在词库中对应的词语，这里，在构建词库时，预先将字段所在数据库对应的专业术语的优先级设置为高优先级。例如，“TIJIAN”在词库中对应的词语为“体检”、“踢毽”，其中“体检”为该行业的专业术语，即“体检”的优先级高于“踢毽”的优先级，因此，“TIJIAN”在词库中对应的词语为“体检”。“TZ”在词库中对应的词语为“体重”、特征”、“通知”等，这里，具体将“体重”、特征”、“通知”中哪个词作为“TZ”在词库中对应的词语，是根据“体重”、特征”、“通知”的优先级确定的，其中，在词库中第一数据库和第二数据库所属行业的专业术语的优先级高，由于所举得例子属于医疗行业，因此“体重”的优先级较高，即最终选取“体重”作为“TZ”在词库中对应的词语。

在本发明一个可选的实施例中，分别比较第一数据库中各字段各自对应的词语与第二数据库中各字段各自对应的词语的相似度，并将相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联，具体可以为：

利用似然函数分别比较第一数据库中各字段各自对应的词语与第二数据库中各字段各自对应的词语的相似度，并将相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。

具体的，设计一个似然函数likehood(value1，value2)，其中，value1为第一数据库中各字段各自对应的词语，value2为第二数据库中各字段各自对应的词语，通过比较传递两个词语(词组)参数，即比较value1和value2，返回其相似度。如果value1和value2相等或高度相似，则返回true，即将value1和value2进行关联，否则返回false，即不关联value1和value2。这种通过将相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联，避免了人工操作带来操作错误问题，从而提高了异构数据库间同义数据关联的效率。

在关联同义词的具体过程中，似然函数Likehood的算法可采用简单的strcmp()(c语言中字符串比较)方法，还可以采用字符串海明距离算法，还可以采用词语相似度算法如word2vec之一等。

其中，strcmp函数是对字符的ASCII(American Standard Code for InformationInterchange，美国信息交换标准代码)码进行比较，实现原理如下：首先比较两个串的第一个字符，若不相等，则停止比较并得出两个ASCII码大小比较的结果；如果相等就接着比较第二个字符然后第三个字符等等。无论两个字符串是什么样，strcmp函数最多比较到其中一个字符串遇到结束符‘/0’为止，就能得出结果。字符串海明距离算法是通过对文本进行向量化，或者说把文本的特征抽取出来映射成编码，然后再对编码进行异或计算出海明距离，从而根据海明距离得到词语相似度。word2vec是Google开源的一款用于词向量计算的工具，可以在百万数量级的词典和上亿的数据集上进行高效地训练，该工具得到的训练结果是词向量(word embedding)，可以很好地度量词与词之间的相似性。

本发明实施例提供的一种异构数据库中的同义数据自动关联方法，先获取第一数据库和第二数据库中的字段，再基于预设字段与词库中词语的映射关系，查找获取的字段在词库中对应的词语，最后分别比较第一数据库中各字段各自对应的词语与第二数据库中各字段各自对应的词语的相似度，最终将相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。具体的过程举例如下：

先获取第一数据库和第二数据库中的字段，其中，第一数据库与第二数据库互为异构数据库，即获取的第一数据库中的字段和第二数据库中的字段分别如表3所示：

表3

第一数据库中的字段	第二数据库中的字段
		TJRQ	TIJIANRQ
TZ	QITA
		SG	SHENGAO

然后基于预设字段与词库中词语的映射关系，查找获取的字段在词库中对应的词语，得到第一数据库中各字段各自对应的词语和第二数据库中各字段各自对应的词语，其中，词库包含第一数据库和第二数据库所属行业的专业术语。

具体的，先查找“TJRQ”、“TZ”、“SG”、“TIJIANRQ”、“QITA”、“SHENGAO”对应的预设字段类型，得到“TJRQ”、“TZ”、“SG”的预设字段类型为第二预设字段，“QITA”、“SHENGAO”的预设字段类型为第一预设字段，“TIJIANRQ”包含两种预设字段类型，将“TIJIANRQ”分段，分段后为“TIJIAN”和“RQ”两个字段，“TIJIAN”的预设字段类型为第一预设字段，“RQ”的预设字段类型为第二预设字段。

由于第一预设字段对应的是第一映射关系，第二预设字段对应的是第二映射关系，因此，在第一映射关系查找“QITA”、“SHENGAO”、“TIJIAN”在词库中对应的词语为“其他”、“身高”、“体检”，在第一映射关系查找“TJRQ”、“TZ”、“SG”、“RQ”在词库中对应的词语为“体检日期”、“体重”、“身高”、“日期”，将“TIJIAN”和“RQ”在分别词库中对应的词语进行合并，得到“体检日期”。这种先确定获取的字段的预设字段类别，即确定该字段为第一预设字段、第二预设字段、第三预设字段和第四预设字段中的一种，以便在预设字段对应的映射关系直接查找该字段在词库中对应的词语，而不用在每个映射关系中都去查找一遍，提高了字段在词库中对应的词语的查找效率。并且，在确定的字段的预设字段类别对应的映射关系中，查找字段在词库中对应的词语，使得同义数据的转化都是按照统一的格式，为同义数据的关联奠定了基础。

再分别比较第一数据库中各字段各自对应的词语与第二数据库中各字段各自对应的词语的相似度，并将相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。

具体的，首先，将第一数据库中的字段“TJRQ”所对应的词语“体检日期”分别与第二数据库中的字段“TIJIANRQ”、“QITA”、“SHENGAO”所对应的词语进行比较，得到“TJRQ”所对应的词语与“TIJIANRQ”的相似度高，则将“TJRQ”和“TIJIANRQ”这两个字段相关联；

其次，将第一数据库中的字段“TZ”所对应的词语“体重”分别与第二数据库中的字段“TIJIANRQ”、“QITA”、“SHENGAO”所对应的词语进行比较，得到“TZ”所对应的词语与“TIJIANRQ”、“QITA”、“SHENGAO”所对应的词语的相似度都比较低，因此不进行关联。

最后将第一数据库中的字段“SG”所对应的词语“身高”分别与第二数据库中的字段“TIJIANRQ”、“QITA”、“SHENGAO”所对应的词语进行比较，得到“SG”所对应的词语与“SHENGAO”的相似度高，则将“SG”和“SHENGAO”这两个字段相关联。

可见，这种先通过预设的映射关系将异构数据库中的字段都转换成各字段在词库中各自对应的词语，再将异构数据库中相似度高的字段相关联，使得同义数据的转化都是按照统一的格式，而且避免了人工操作带来操作错误问题，从而提高了异构数据库间同义数据关联的效率。

参见图2，图2为本发明实施例提供的一种异构数据库中的同义数据自动关联装置的结构示意图，包括如下模块：

获取模块201，用于获取第一数据库和第二数据库中的字段，其中，第一数据库与第二数据库互为异构数据库。

查找模块202，用于基于预设字段与词库中词语的映射关系，查找获取的字段在词库中对应的词语，得到第一数据库中各字段各自对应的词语和第二数据库中各字段各自对应的词语，其中，词库包含第一数据库和第二数据库所属行业的专业术语。

比较模块203，用于分别比较第一数据库中各字段各自对应的词语与第二数据库中各字段各自对应的词语的相似度，并将相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。

由此可见，本发明实施例提供的一种异构数据库中的同义数据自动关联装置，先通过获取模块获取第一数据库和第二数据库中的字段，其中，第一数据库与第二数据库互为异构数据库；基于预设字段与词库中词语的映射关系，再通过查找模块查找获取的字段在词库中对应的词语，得到第一数据库中各字段各自对应的词语和第二数据库中各字段各自对应的词语；最后通过比较模块分别比较第一数据库中各字段各自对应的词语与第二数据库中各字段各自对应的词语的相似度，并将相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。这种先通过预设的映射关系将异构数据库中的字段都转换成各字段在词库中各自对应的词语，再将异构数据库中相似度高的字段相关联，使得同义数据的转化都是按照统一的格式，而且避免了人工操作带来操作错误问题，从而提高了异构数据库间同义数据关联的效率。

进一步的，映射关系包括如下映射关系中的一个或两个以上：

词库中词语的汉语拼音作为第一预设字段，与词库中词语的第一映射关系；

词库中词语的汉语拼音的首字母作为第二预设字段，与词库中词语的第二映射关系；

词库中词语的英文单词作为第三预设字段，与词库中词语的第三映射关系；

词库中词语的英文单词的缩写作为第四预设字段，与词库中词语的第四映射关系；

查找模块202，具体用于：

进一步的，查找模块202，包括：

确定子模块，用于确定获取的字段的预设字段类别，预设字段类别为第一预设字段、第二预设字段、第三预设字段和第四预设字段中的一种；

查找子模块，用于在确定的字段的预设字段类别对应的映射关系中，查找字段在词库中对应的词语，得到第一数据库中各字段对应的各词语和第二数据库中各字段对应的各词语。

进一步的，查找子模块，包括：

确定单元，用于当获取的字段包含多种预设字段时，将字段分段，确定分段后每个字段的预设字段类别分别为第一预设字段、第二预设字段、第三预设字段和第四预设字段中的一种；

第一查找单元，用于在确定的字段的预设字段类别对应的映射关系中，查找字段在词库中对应的词语，得到第一数据库中各字段对应的各词语和第二数据库中各字段对应的各词语，包括：

第二查找单元，用于在确定的字段的预设字段类别对应的映射关系中，分别查找分段后每个字段在词库中对应的词语，并将各词语组合，得到第一数据库中各字段对应的各词语和第二数据库中各字段对应的各词语。

进一步的，第二查找单元，包括：

第一查找子单元，用于在确定的字段的预设字段类别对应的映射关系中，查找分段后的每一个字段在词库中对应的词语；

第一组合子单元，用于按照分段后各字段从左到右的顺序，将前两个字段在词库中对应的词语进行组合，并将组合得到的词语作为各字段对应的首个词语；

第二组合子单元，用于依次将首个词语与未组合的下一个相邻字段在词库中对应的词语进行组合，并将组合得到的词语替换首个词语，直至所有的字段在词库中对应的词语都被组合，得到字段对应的词语。

进一步的，第一查找子单元，具体用于：

当字段在词库中对应的词语为一个时，将该词语确定为该字段在词库中对应的词语；

当字段在词库中对应的词语为多个时，将该多个词语中优先级较高的词语确定为该字段在词库中对应的词语，其中，在词库中专业术语的优先级较高。

进一步的，比较模块203，具体用于：

本发明实施例还提供了一种电子设备，如图3所示，为本发明实施例的一种异构数据库中的同义数据自动关联方法应用于电子设备的结构示意图，该电子设备可以包括处理器301和机器可读存储介质302，机器可读存储介质302存储有能够被处理器301执行的机器可执行指令，处理器301被机器可执行指令促使：实现以下步骤：

获取第一数据库和第二数据库中的字段，其中，第一数据库与第二数据库互为异构数据库；

基于预设字段与词库中词语的映射关系，查找获取的字段在词库中对应的词语，得到第一数据库中各字段各自对应的词语和第二数据库中各字段各自对应的词语，其中，词库包含第一数据库和第二数据库所属行业的专业术语；

分别比较第一数据库中各字段各自对应的词语与第二数据库中各字段各自对应的词语的相似度，并将相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。

由此可见，本发明实施例提供的一种电子设备，先获取第一数据库和第二数据库中的字段，其中，第一数据库与第二数据库互为异构数据库；再基于预设字段与词库中词语的映射关系，查找获取的字段在词库中对应的词语，得到第一数据库中各字段各自对应的词语和第二数据库中各字段各自对应的词语；最后分别比较第一数据库中各字段各自对应的词语与第二数据库中各字段各自对应的词语的相似度，并将相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。这种先通过预设的映射关系将异构数据库中的字段都转换成各字段在词库中各自对应的词语，再将异构数据库中相似度高的字段相关联，使得同义数据的转化都是按照统一的格式，而且避免了人工操作带来操作错误问题，从而提高了异构数据库间同义数据关联的效率。

本发明实施例还提供了一种电子设备，如图4所示，包括上述处理器301和机器可读存储介质302、以及通信接口303、通信总线304，其中，处理器301，通信接口303，机器可读存储介质302通过通信总线304完成相互间的通信，

机器可读存储介质302，用于存放计算机程序；

处理器301，用于执行机器可读存储介质302上所存放的程序时，实现如下步骤：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信机器可读存储介质302可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器301可以是通用处理器，包括中央处理器(Central ProcessingUnit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的一种异构数据库中的同义数据自动关联方法。其中，所述的一种异构数据库中的同义数据自动关联方法包括：

由此可见，本发明实施例提供的一种计算机可读存储介质，先获取第一数据库和第二数据库中的字段，其中，第一数据库与第二数据库互为异构数据库；再基于预设字段与词库中词语的映射关系，查找获取的字段在词库中对应的词语，得到第一数据库中各字段各自对应的词语和第二数据库中各字段各自对应的词语；最后分别比较第一数据库中各字段各自对应的词语与第二数据库中各字段各自对应的词语的相似度，并将相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。这种先通过预设的映射关系将异构数据库中的字段都转换成各字段在词库中各自对应的词语，再将异构数据库中相似度高的字段相关联，使得同义数据的转化都是按照统一的格式，而且避免了人工操作带来操作错误问题，从而提高了异构数据库间同义数据关联的效率。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的一种异构数据库中的同义数据自动关联方法。其中，所述的一种异构数据库中的同义数据自动关联方法包括：

由此可见，本发明实施例提供的一种包含指令的计算机程序产品，先获取第一数据库和第二数据库中的字段，其中，第一数据库与第二数据库互为异构数据库；再基于预设字段与词库中词语的映射关系，查找获取的字段在词库中对应的词语，得到第一数据库中各字段各自对应的词语和第二数据库中各字段各自对应的词语；最后分别比较第一数据库中各字段各自对应的词语与第二数据库中各字段各自对应的词语的相似度，并将相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。这种先通过预设的映射关系将异构数据库中的字段都转换成各字段在词库中各自对应的词语，再将异构数据库中相似度高的字段相关联，使得同义数据的转化都是按照统一的格式，而且避免了人工操作带来操作错误问题，从而提高了异构数据库间同义数据关联的效率。

本发明实施例还提供了一种计算机程序，当其在计算机上运行时，使得计算机执行以下步骤：

由此可见，本发明实施例提供的一种包含指令的计算机程序，先获取第一数据库和第二数据库中的字段，其中，第一数据库与第二数据库互为异构数据库；再基于预设字段与词库中词语的映射关系，查找获取的字段在词库中对应的词语，得到第一数据库中各字段各自对应的词语和第二数据库中各字段各自对应的词语；最后分别比较第一数据库中各字段各自对应的词语与第二数据库中各字段各自对应的词语的相似度，并将相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。这种先通过预设的映射关系将异构数据库中的字段都转换成各字段在词库中各自对应的词语，再将异构数据库中相似度高的字段相关联，使得同义数据的转化都是按照统一的格式，而且避免了人工操作带来操作错误问题，从而提高了异构数据库间同义数据关联的效率。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质、计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种异构数据库中的同义数据自动关联方法，其特征在于，所述方法包括：

基于预设字段与词库中词语的映射关系，查找获取的所述字段在所述词库中对应的词语，得到所述第一数据库中各字段各自对应的词语和所述第二数据库中各字段各自对应的词语，其中，所述词库包含所述第一数据库和所述第二数据库所属行业的专业术语；所述预设字段与词库中词语的映射关系为预设字段到预设字段在词库中对应的词语的对应关系；

分别比较所述第一数据库中各字段各自对应的词语与所述第二数据库中各字段各自对应的词语的相似度，并将所述相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联；

所述映射关系包括如下映射关系中的一个或两个以上：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一映射关系、所述第二映射关系、所述第三映射关系和所述第四映射关系中的一个或两个以上映射关系，查找获取的所述字段在所述词库中对应的词语，得到所述第一数据库中各字段各自对应的词语和所述第二数据库中各字段各自对应的词语，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定获取的所述字段的预设字段类别，包括：

4.根据权利要求3所述的方法，其特征在于，所述在确定的所述字段的预设字段类别对应的映射关系中，分别查找分段后每个字段在所述词库中对应的词语，并将所述各词语组合，得到所述第一数据库中各字段对应的各词语和所述第二数据库中各字段对应的各词语，包括：

5.根据权利要求4所述的方法，其特征在于，所述在确定的所述字段的预设字段类别对应的映射关系中，查找分段后的每一个字段在所述词库中对应的词语，包括：

6.根据权利要求1所述的方法，其特征在于，所述分别比较所述第一数据库中各字段各自对应的词语与所述第二数据库中各字段各自对应的词语的相似度，并将所述相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联，包括：

7.一种异构数据库中的同义数据自动关联装置，其特征在于，所述装置包括：

查找模块，用于基于预设字段与词库中词语的映射关系，查找获取的所述字段在所述词库中对应的词语，得到所述第一数据库中各字段各自对应的词语和所述第二数据库中各字段各自对应的词语，其中，所述词库包含所述第一数据库和所述第二数据库所属行业的专业术语；所述预设字段与词库中词语的映射关系为预设字段到预设字段在词库中对应的词语的对应关系；

比较模块，用于分别比较所述第一数据库中各字段各自对应的词语与所述第二数据库中各字段各自对应的词语的相似度，并将所述相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联；

所述映射关系包括如下映射关系中的一个或两个以上：

所述查找模块，具体用于：

8.根据权利要求7所述的装置，其特征在于，所述查找模块，包括：

9.根据权利要求8所述的装置，其特征在于，所述查找子模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述第二查找单元，包括：

第一组合子单元，用于按照分段后各字段从左到右的顺序，将前两个字段在所述词库中对应的词语进行组合，并将组合得到的词语作为各字段对应的首个词语；

11.根据权利要求10所述的装置，其特征在于，所述第一查找子单元，具体用于：

12.根据权利要求7所述的装置，其特征在于，所述比较模块，具体用于：

13.一种电子设备，其特征在于，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：实现权利要求1～6任一项所述的方法步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1-6任一所述的方法步骤。