CN116257643A

CN116257643A - 跨语言实体对齐方法、装置、设备及可读存储介质

Info

Publication number: CN116257643A
Application number: CN202310515242.3A
Authority: CN
Inventors: 顾钊铨; 严琪; 李默涵; 周可; 景晓; 罗翠; 谢禹舜; 马昶昶; 王海燕
Original assignee: Peng Cheng Laboratory
Current assignee: Peng Cheng Laboratory
Priority date: 2023-05-09
Filing date: 2023-05-09
Publication date: 2023-06-13
Anticipated expiration: 2043-05-09
Also published as: CN116257643B

Abstract

本申请公开了一种跨语言实体对齐方法、装置、设备及可读存储介质，该方法包括步骤：获取待融合的跨语言知识图谱，以及获取跨语言知识图谱对应的第一对齐种子；将跨语言知识图谱内的文本翻译成统一语言文本，并对统一语言文本对应的实体向量进行初步对齐，得到初步对齐结果；确定实体向量间的相似度，并将大于等于第一预设相似度的相似度所对应的统一语言文本作为第二对齐种子；根据第一对齐种子和第二对齐种子，按照文本相似度和/或语义相似度，分批调整初步对齐结果中的实体向量；将调整后的实体向量中相似度最高的实体向量进行对齐，得到目标对齐结果。本申请实现了根据文本相似度和语义相似度，分批调整初步对齐结果，得到目标对齐结果。

Description

跨语言实体对齐方法、装置、设备及可读存储介质

技术领域

本申请涉及实体对齐技术领域，尤其涉及一种跨语言实体对齐方法、装置、设备及可读存储介质。

背景技术

随着知识图谱技术的不断发展，不同的机构或组织都可以根据自己的需求创建相应的知识图谱，因此，不同知识图谱中的数据充满多样性和异构性，通常采用知识图谱融合的方式，对原有的知识图谱进行补充，以便广泛应用于推荐系统、智能问答等领域。

同时，随着全球联系越来越紧密，多语言知识图谱融合的需求也变得越来越大，但是跨语言实体对齐仍然存在以下问题：在利用知识图谱嵌入进行实体对齐时，实体对齐的准确性会受到对齐种子数量的影响，在对齐种子占总体实体数量中的比例较低时，该对齐效果差；若将多语言实体进行翻译，并在根据文本相似性对翻译后的文本进行实体对齐时，完全依赖机器翻译的质量，对齐效果非常不稳定。

即无论采用上述何种方法，在将多语言知识图谱进行融合时，均存在对齐效果不佳的情况。

发明内容

有鉴于此，本申请提供一种跨语言实体对齐方法、装置、设备及可读存储介质，旨在将跨语言知识图谱融合时，提高实体对齐效果。

为实现上述目的，本申请提供一种跨语言实体对齐方法，所述跨语言实体对齐方法包括以下步骤：

获取待融合的跨语言知识图谱，以及获取所述跨语言知识图谱对应的第一对齐种子；

将所述跨语言知识图谱内的文本翻译成统一语言文本，并对所述统一语言文本对应的实体向量进行初步对齐，得到初步对齐结果；

确定所述实体向量间的相似度，并将大于等于第一预设相似度的相似度所对应的统一语言文本作为第二对齐种子；

根据所述第一对齐种子和所述第二对齐种子，按照文本相似度和/或语义相似度，分批调整所述初步对齐结果中的实体向量；

将调整后的实体向量中相似度最高的实体向量进行对齐，得到目标对齐结果。

示例性的，所述根据所述第一对齐种子和所述第二对齐种子，按照文本相似度和/或语义相似度，分批调整所述初步对齐结果中的实体向量的步骤，包括：

将所述第一对齐种子和所述第二对齐种子的对应向量作为标签向量；

根据预设损失函数和所述标签向量，以迭代计算的方式，按照文本相似度和/或语义相似度，分批调整所述初步对齐结果中的实体向量，直至所述预设损失函数对应的损失值达到预设阈值，其中，在调整所述实体向量过程中，通过预设的梯度下降方法，优化所述预设损失函数。

示例性的，所述预设损失函数包括预设文本损失函数和预设语义损失函数，所述根据预设损失函数和所述标签向量，以迭代计算的方式，按照文本相似度和/或语义相似度，分批调整所述初步对齐结果中的实体向量的步骤，包括：

确定所述初步对齐结果中相似度小于所述第一预设相似度、且大于等于第二预设相似度的相似实体向量；

根据所述标签向量，以预设文本损失函数和预设语义损失函数交替迭代计算的方式，按照文本相似度和语义相似度，调整所述相似实体向量。

示例性的，所述预设损失函数包括预设语义损失函数，所述根据预设损失函数和所述标签向量，以迭代计算的方式，按照文本相似度和/或语义相似度，分批调整所述初步对齐结果中的实体向量的步骤，包括：

确定所述初步对齐结果中相似度小于第二预设相似度的非相似实体向量；

根据所述标签向量，以预设语义损失函数迭代计算的方式，按照语义相似度，调整所述非相似实体向量。

示例性的，所述统一语言文本包括英语文本，所述将所述跨语言知识图谱内的文本翻译成统一语言文本，并对所述统一语言文本对应的实体向量进行初步对齐，得到初步对齐结果的步骤，包括：

将所述跨语言知识图谱内的文本翻译成英语文本；

输入所述英语文本至Word Hashing模型，以供所述Word Hashing模型添加开始标记和结束标记至所述英语文本中，并将添加标记后的英语文本以字母n-grams的形式分解成多段文本，根据所述多段文本，生成所述英语文本对应的实体向量；

对所述实体向量进行初步对齐，得到初步对齐结果。

示例性的，所述对所述实体向量进行初步对齐，得到初步对齐结果的步骤，包括：

计算来自不同跨语言知识图谱中的实体向量之间的余弦相似度；

若所述余弦相似度大于等于第一预设相似度，则根据所述余弦相似度对应的英语文本，生成统一向量。

示例性的，所述将调整后的实体向量中相似度最高的实体向量进行对齐，得到目标对齐结果步骤之后，包括：

计算所述目标对齐结果调整后的余弦相似度；

根据所述调整后的余弦相似度，融合所述跨语言知识图谱。

示例性的，为实现上述目的，本申请还提供一种跨语言实体对齐装置，所述装置包括：

获取模块，用于获取待融合的跨语言知识图谱，以及获取所述跨语言知识图谱对应的第一对齐种子；

第一对齐模块，用于将所述跨语言知识图谱内的文本翻译成统一语言文本，并对所述统一语言文本对应的实体向量进行初步对齐，得到初步对齐结果；

确定模块，用于确定所述实体向量间的相似度，并将大于等于第一预设相似度的相似度所对应的统一语言文本作为第二对齐种子；

调整模块，用于根据所述第一对齐种子和所述第二对齐种子，按照文本相似度和/或语义相似度，分批调整所述初步对齐结果中的实体向量；

第二对齐模块，用于将调整后的实体向量中相似度最高的实体向量进行对齐，得到目标对齐结果。

示例性的，为实现上述目的，本申请还提供一种跨语言实体对齐设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的跨语言实体对齐程序，所述跨语言实体对齐程序配置为实现如上所述的跨语言实体对齐方法的步骤。

示例性的，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有跨语言实体对齐程序，所述跨语言实体对齐程序被处理器执行时实现如上所述的跨语言实体对齐方法的步骤。

与相关技术中，在将跨语言知识图谱进行融合时，由于受到对齐种子的比例的影响或机器翻译质量的影响，导致将各跨语言知识图谱中的各实体进行对齐时，对齐效果不佳的情况相比，在本申请中，通过获取待融合的跨语言知识图谱，以及获取所述跨语言知识图谱对应的第一对齐种子；将所述跨语言知识图谱内的文本翻译成统一语言文本，并对所述统一语言文本对应的实体向量进行初步对齐，得到初步对齐结果；确定所述实体向量间的相似度，并将大于等于第一预设相似度的相似度所对应的统一语言文本作为第二对齐种子；根据所述第一对齐种子和所述第二对齐种子，按照文本相似度和/或语义相似度，分批调整所述初步对齐结果中的实体向量；将调整后的实体向量中相似度最高的实体向量进行对齐，得到目标对齐结果，即通过将大于等于第一预设相似度的相似度所对应的统一语言文本作为第二对齐种子，增加对齐种子的比例，从而保证在根据对齐种子，调整初步对齐结果中的实体向量的效果，增加更多实体向量之间的相似性，同时，根据第一对齐种子和第二对齐种子，按照文本相似度和/或语义相似度，分批调整初步结果中的实体向量，避免机器翻译至同一文本时，由于翻译质量导致出现同文本含义的实体无法对齐的情况，进而提高后续将各实体向量进行对齐的效果。

附图说明

图1为本申请跨语言实体对齐方法第一实施例的流程示意图；

图2为本申请跨语言实体对齐方法第二实施例的流程示意图；

图3为本申请跨语言实体对齐方法第三实施例的流程示意图；

图4为本申请跨语言实体对齐方法实际应用流程简图；

图5为本申请实施例方案涉及的硬件运行环境的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供一种跨语言实体对齐方法，参照图1，图1为本申请跨语言实体对齐方法第一实施例的流程示意图。

本申请实施例提供了跨语言实体对齐方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。为了便于描述，以下省略执行主体描述跨语言实体对齐方法的各个步骤，跨语言实体对齐方法包括：

步骤S110：获取待融合的跨语言知识图谱，以及获取所述跨语言知识图谱对应的第一对齐种子；

随着全球联系越来越紧密，多语言知识图谱融合的需求也变得越来越大，将多个知识图谱进行融合后，可得到跨领域、跨专业的多功能型知识图谱，其融合过程即为将两个或两个以上的知识图谱中的文本内容进行融合，例如，将同类项文本合并，将彼此特有的文本内容保留等。

而待融合的跨语言知识图谱即为准备进行融合的两个或两个以上的跨语言知识图谱，其中，该跨语言知识图谱指的是待融合的知识图谱的文本语言类型为至少两种。

以下，均将待融合的跨语言知识图谱为两个知识图谱为例进行阐述，在对包含两个以上的跨语言知识图谱进行实体对齐时，对齐过程与两个知识图谱中的对齐过程相同，仅以两个知识图谱为例进行阐述，不再赘述两个以上的跨语言知识图谱融合时的情况。

其中，该两个知识图谱内的文本采用的语言类型包括：英语和汉语、德语和法语等对应两种不同语言的情况。

其中，为了后续更好地阐述对待融合的跨语言知识图谱进行融合的过程，以第一知识图谱和第二知识图谱的命名区分为例进行阐述，此命名仅用于区分文本语言类型不同的知识图谱。

其中，第一知识图谱和第二知识图谱分别可为任一语言类型的知识图谱，保证第一知识图谱和第二知识图谱的语言类型不同即可。

示例性的，在获取到待融合的跨语言知识图谱后，需要同步获取到跨语言知识图谱对应的第一对齐种子。

其中，该第一对齐种子是通过相关技术人员根据自身经验，从第一知识图谱和第二知识图谱中提取出来的，具有一定相似性的实体（文本相近或含义相近）或含义相同、文本相同的实体，该实体即为知识图谱内的文本内容，同时，在该第一对齐种子所包含的实体应分别来自于第一知识图谱和第二知识图谱。在该第一对齐种子可在相关技术人员提取出后，通过文本输入的方式，输入至相应系统或数据库中，从而可直接获取得到。

其中，对齐种子为在使用TransE（Translating Embedding，平移嵌入）模型时不可或缺的数据，例如，在使用TransE模型时，分别将不同语言的知识图谱嵌入至不同的向量空间，通过对齐种子，寻找两个向量空间的显性变换，通过实体的向量相似度来进行实体对齐，或在使用TransE模型时，通过使对齐种子共享同一个向量将两个知识图谱嵌入统一的向量空间，从而在同一个向量空间中进行实体对齐。

即通过第一对齐种子即可实现相应第一知识图谱和第二知识图谱内的实体对齐的效果，但此时第一对齐种子的数量受到相关技术人员的自身经验的影响，因此，若只使用第一对齐种子进行实体对齐，则会导致对齐效果差。

其中，实体对齐是判断两个或者多个不同信息来源的实体是否为指向真实世界中同一个对象的实体，是知识图谱融合中一项非常重要的工作。

示例性的，在第一知识图谱中存在实体为：apple，第二知识图谱中存在的实体为：苹果，上述两个实体即为指向同一个对象的实体，在将第一知识图谱和第二知识图谱融合时，需将上述两个实体对齐并统一融合，避免在融合后的知识图谱中出现指向同一个对象的多个实体内容，导致知识图谱中内容出现冗余的情况。

步骤S120：将所述跨语言知识图谱内的文本翻译成统一语言文本，并对所述统一语言文本对应的实体向量进行初步对齐，得到初步对齐结果；

在将跨语言知识图谱中的实体进行对齐之前，由于其文本所使用的语言类型存在差异性，将各类实体进行对齐时通常根据文本的相似性进行对齐，因此，需先将跨语言知识图谱内的文本进行语言内容的统一处理，即将第一知识图谱和第二知识图谱中的文本翻译成统一语言文本，进而可根据统一语言文本，确定文本之间的相似度，继而可实现上述两个知识图谱之间的实体对齐过程。

示例性的，以第一知识图谱的文本采用英文，第二知识图谱的文本采用中文为例，可将第一知识图谱的文本翻译成中文，或将第二知识图谱的文本翻译成英文，或将第一知识图谱和第二知识图谱的文本转化为除中文和英文以外的任一一种语言（例如，德文、法文等）。

而在初步对齐的过程中，将知识图谱中的实体转化为对应的实体向量，并根据实体向量之间的相似性，将相似程度高的实体向量进行初步对齐，从而得到初步对齐结果。

上述对齐过程主要为将来自于不同知识图谱中的实体的对应实体向量进行对齐。

步骤S130：确定所述实体向量间的相似度，并将大于等于第一预设相似度的相似度所对应的统一语言文本作为第二对齐种子；

在初步对齐过程中，可确定出各实体向量间的相似度，其中，各实体向量之间的相似程度越高，实体向量对应的文本内容相似度高，而相似度越高，来自不同知识图谱的文本实现对齐的可能性越大。

示例性的，各实体向量间的相似度为95%~100%中任一值时，即可确定各实体向量之间存在高度相似的情况，此时，即可直接将相似度大于95%的各实体向量认定为指向同一个对象的向量，即可将各实体向量对齐。

其中，95%这一比例即可作为判断各实体向量为指向同一个对象的向量的第一预设相似度。

进一步地，在各实体向量间的相似度大于等于第一预设相似度时，即确定各实体向量对应的统一语言文本相同或高度相似（近似看作文本偏差为零），从而可直接将其作为第二对齐种子，从而增加对齐种子的数量。

步骤S140：根据所述第一对齐种子和所述第二对齐种子，按照文本相似度和/或语义相似度，分批调整所述初步对齐结果中的实体向量；

在分别得到第一对齐种子和第二对齐种子之后，即可根据上述两类对齐种子作为基准，按照文本相似度和/或语义相似度，分批调整初步对齐结果中的其余未被作为第二对齐种子的实体向量，即将初步对齐结果中小于第一预设相似度的相似度所对应的实体向量进行调整，将部分文本相似的内容，或由于翻译原因导致出现文本不同而语义相同的内容，或文本不相似但其语义本身相似的内容进行实体对齐，以提高对齐效果。

其中，上述调整过程中，主要根据第一对齐种子和第二对齐种子作为标准，可结合文本相似度和语义相似度的情况，或分别仅考虑文本相似度或语义相似度，例如，针对相似度大于等95%的实体，可仅考虑其文本相似度；针对相似度低于50%的实体，可仅考虑其语义相似度；而针对相似度小于95%且大于等于50%的实体，可综合考虑其文本相似度和语义相似度，将部分实体向量进行调整，将其调整至与作为标准的对齐种子相似的情况。

其中，文本相似度即为在各知识图谱中文本内容相近的程度，例如，第一知识图谱中存在实体为：天空、大地，第二知识图谱中存在实体为：蓝天、海洋，天空和蓝天的相似度为50%，其他实体间的文本相似度为0。

其中，语义相似度即为同一对象的不同文本表达方式，例如，第一知识图中存在实体为：手机，第二知识图谱中存在实体为：电话，两个实体间的文本相似度为0，但其含义均可指代同一个移动终端。

综上，根据第一对齐种子和第二对齐种子，可按照文本相似度和语义相似度，调整初步对齐结果中的实体向量即为将上述提及的部分存在语义相同、文本存在差异的实体对应的实体向量进行调整，将其调整至相似的实体向量，便于后续将其对齐，也可只按照语义相似度去调整文本完全不同，但存在语义相同的实体对应的实体向量，以此，避免强行考虑实体之间的文本相似度导致对齐效果差的情况。

步骤S150：将调整后的实体向量中相似度最高的实体向量进行对齐，得到目标对齐结果。

在将实体向量调整完成后，将其对齐，即可得到目标对齐结果，该目标对齐结果即为根据第一对齐种子和第二对齐种子，产生的对齐结果，其对齐效果由于对齐种子的数量增加而提高。同时，根据文本相似度对实体进行分批处理，也可以进一步调高实体对齐的精确度。

步骤a：计算所述目标对齐结果调整后的余弦相似度；

步骤b：根据所述调整后的余弦相似度，融合所述跨语言知识图谱。

计算目标对齐结果的调整后的余弦相似度，即为计算目标对齐结果中各实体向量的余弦相似度，具体计算公式如下：

其中，

为来自第一知识图谱的实体，/>

为来自第二知识图谱的实体。

该余弦相似度即为各实体向量间的相似度，根据该调整后的余弦相似度，可将相似度大于一定值的各实体向量对齐，即将其对应实体对齐，从而可将第一知识图谱和第二知识图谱融合，即将跨语言知识图谱融合。

计算各实体向量之间的调整后的余弦相似度，即目的为将潜在的对齐实体进行对齐。具体实现就是计算所有实体向量之间的调整后的余弦相似度，将实体向量按调整后的余弦相似度进行排名，排名越靠前的实体说明越有可能是正确对齐的实体。例如，对于实体a，计算其它向量与实体a对应向量的调整后的余弦相似度，将其它向量按余弦相似度从大到小进行排序，排在第一的实体b则为最有可能正确对齐的实体，从而可根据调整后的余弦相似度，将第一知识图谱和第二知识图谱中的各实体进行对齐，并根据对齐结果，将第一知识图谱和第二知识图谱进行融合。

示例性的，参照图2，图2是本申请跨语言实体对齐方法第二实施例的流程示意图，基于上述本申请跨语言实体对齐方法第一实施例，提出第二实施例，所述方法还包括：

步骤S210：将所述跨语言知识图谱内的文本翻译成英语文本；

在对跨语言知识图谱内的文本进行翻译时，可使用翻译软件或翻译机器，将其翻译成英语文本。

示例性的，将第一知识图谱和第二知识图谱的文本均转化为英语文本，在转化过程中包括以下情况，第一知识图谱和第二知识图谱中存在采用英语文本的图谱，或不存在采用英语文本的图谱。

其中，考虑英语的通用性，以及考虑后续对实体进行对齐所需的模型，均在英语文本方面的应用技术较为成熟，因此，将跨语言知识图谱内的文本统一翻译成英语文本，以便于后续应用成熟技术，对第一知识图谱和第二知识图谱进行实体对齐，从而提高对齐效果。

步骤S220：输入所述英语文本至Word Hashing模型，以供所述Word Hashing模型添加开始标记和结束标记至所述英语文本中，并将添加标记后的英语文本以字母n-grams的形式分解成多段文本，根据所述多段文本，生成所述英语文本对应的实体向量；

将英语文本输入至Word Hashing（字符串比对）模型，使用该Word Hashing模型，将文本相似的实体转换为相似的向量。

示例性的，给定一个单词（例如：book)，首先为单词添加开始标记和结束标记（例如：#book#)。然后，把单词分解成字母n-grams（例如，窗口大小为3：每次窗口移动一字符长度，可将#book#拆解得到以下字段：#bo，boo，ook，ok#）。最后，用字母n-grams（其中，n-gram为大词汇连续语音识别中常用的一种语言模型）组合出来的向量来表示这个单词。

上述生成向量的过程均为根据其文本内容调整随机向量生成的初始向量，为保证后续对齐效果，需在初始向量的基础上进行调整，以找出大部分可对齐的实体。

步骤S230：对所述实体向量进行初步对齐，得到初步对齐结果。

在通过上述方法，将英语文本转化为对应实体向量后，即可根据实体向量间的相似度，将各实体向量进行初步对齐，得到初步对齐结果。

步骤c：计算来自不同跨语言知识图谱中的实体向量之间的余弦相似度；

步骤d：若所述余弦相似度大于等于预设相似度，则根据所述余弦相似度对应的英语文本，生成统一向量。

计算余弦相似度的过程与计算所述调整后的余弦相似度的过程相同，所用公式相同，在此不再赘述计算过程。

根据上述实施例中已阐述内容，实体向量间的相似度即为余弦相似度（该计算余弦相似度的过程，即为计算出对应实体之间的文本相似度），根据该余弦相似度的大小，可确定实体向量之间的相似性程度。在余弦相似度大于等于第一预设相似度时，即可确定对应的实体向量之间为相同或高度相似，可将该余弦相似度对应的英语文本作为第二对齐种子。

为保证后续根据第一对齐种子和第二对齐种子调整实体向量的精准性，将调整过程放入至同一向量空间中，因此，在确定将英语文本作为第二对齐种子时，将该余弦相似度对应的英语文本放入至同一向量空间中，即生成同一向量，以表示至少两个实体。

在本实施例中，将所述跨语言知识图谱内的文本翻译成英语文本，输入所述英语文本至Word Hashing模型，以供所述Word Hashing模型添加开始标记和结束标记至所述英语文本中，并将添加标记后的英语文本以字母n-grams的形式分解成多段文本，根据所述多段文本，生成所述英语文本对应的实体向量，对所述实体向量进行初步对齐，得到初步对齐结果，即通过将跨语言知识图谱内的文本翻译成英语文本的方式，使用Word Hashing模型，将英语文本拆解成多段文本，从而生成相应实体向量，从而实现根据生成的实体向量之间的文本相似度，对各实体向量进行初步对齐的效果。

示例性的，参照图3，图3是本申请跨语言实体对齐方法第三实施例的流程示意图，基于上述本申请跨语言实体对齐方法第一实施例和第二实施例，提出第三实施例，所述方法还包括：

步骤S310：将所述第一对齐种子和所述第二对齐种子的对应向量作为标签向量；

步骤S320：根据预设损失函数和所述标签向量，以迭代计算的方式，按照文本相似度和/或语义相似度，分批调整所述初步对齐结果中的实体向量，直至所述预设损失函数对应的损失值达到预设阈值，其中，在调整所述实体向量过程中，通过预设的梯度下降方法，优化所述预设损失函数。

根据上述可知，余弦相似度越高，实体之间的对应文本相似度越高，但存在文本相似度低、语义相似度高的情况，因此，需要将第一对齐种子和第二对齐种子作为标签向量，通过相应的TransE模型的损失函数，根据实体之间的语义相似度，不断调整初步对齐结果中的实体向量。

预设损失函数即为在TransE模型中使用的迭代计算用函数，该损失函数的计算目的为确定出存在相似性、但转化得到的向量差异性较大的实体，并调整该实体对应的实体向量，将该实体向量调整至相似状态，便于后续对实体向量进行对齐，提高对齐效果。

而调整过程需要相应的语义标准，因此，将第一对齐种子和第二对齐种子作为标签向量，用于计算实体向量和第一对齐种子和第二对齐种子对应的标签向量之间的差异，从而更加精准调整初步对齐结果中的实体向量。

在调整过程中，使用该预设损失函数和标签向量，以迭代计算的方式调整初步对齐结果中的实体向量（不断迭代调整实体向量，以使实体向量不断贴近标签向量），直至预设损失函数对应的损失值达到预设阈值，该预设阈值即为损失函数经过迭代计算后所达到的最小损失值。

在调整过程中，预设损失函数同样需要进行优化，以适应不断变化的实体向量，该预设损失函数可通过相应的梯度下降方法进行优化，该梯度下降方法可采用通用的随机梯度下降方法。

在对初步对齐结果中的实体向量进行调整时，其主要调整目的为对文本相似度（该相似度可为余弦相似度）比较高的实体向量，根据语义进行调整，对于文本相似度较低的实体向量，如果强行考虑文本相似度，反而会使语义嵌入的效果变差。所以，对文本相似度比较低的实体向量将不再考虑文本相似性，只通过语义嵌入进行调整。

即在调整初步对齐结果中的实体向量之前，会根据实体向量的余弦相似度进行划分不同相似程度的实体向量，并分别采用不同手段进行调整。

示例性的，将相似度小于95%（第一预设相似度）的实体分成两批，第一批为余弦相似度（该余弦相似度为上述得到初步对齐结果时，计算得到的调整后的余弦相似度，以下均简称为余弦相似度）大于等于50%（第二预设相似度）小于95%的实体向量（在处理这一批实体的时候还会再细分），第二批为余弦相似度小于50%的实体向量。该分批的目的在于，文本较为相似的实体，对齐的可能性更大，后续只需要对其进行轻度调整，而文本相似度低的实体，说明文本相似性在对齐方面起不到作用，如果强行考虑文本相似性的话会适得其反，所以对于文本相似度低的实体，只需要考虑其语义相似性。

步骤e：确定所述初步对齐结果中相似度小于所述第一预设相似度、且大于等于第二预设相似度的相似实体向量；

步骤f：根据所述标签向量，以预设文本损失函数和预设语义损失函数交替迭代计算的方式，按照文本相似度和语义相似度，调整所述相似实体向量。

预设损失函数包括预设文本损失函数和预设语义损失函数，即分别对应用于计算文本相似性的损失函数，和语义相似性的损失函数。

在确定出余弦相似度大于等于50%（第二预设相似度）小于95%的相似实体向量后，根据标签向量，通过预设文本损失函数和预设语义损失函数交替迭代计算的方式，调整该相似实体向量。

即可对该相似实体向量采用TransE模型进行调整，同时，为了避免通过TransE调整之后的相似实体向量不再具有文本相似的特点，采用TransE对应的预设语义损失函数和预设文本损失函数交替调整。目的是让实体向量能够同时考虑文本相似性和语义相似性。

进一步地，可将相似实体向量根据余弦相似度的大小继续细分，从而进一步设定计算参数不同的预设损失函数进行迭代计算，保证迭代后的精准度。

将余弦相似度大于等于75%小于95%的实体向量，使用下列公式S1，作为预设文本损失函数：

将余弦相似度大于等于50%小于75%的实体向量，使用下列公式S2，作为预设文本损失函数：

而基于语义嵌入的TransE模型，使用下列公式fr（h，t），作为预设语义损失函数：

其中，（h，r，t）作为三元组，h是头实体、t是尾实体、r是关系，h和t在向量空间中分别用k维向量h和t表示，用预设语义损失函数fr（h，t）衡量三元组（h，r，t）的可信度。

其中，r相当于h和t的平移向量。

同时，设置预设损失函数的计算方式，在同时使用预设文本损失函数和预设语义损失函数时，设置综合损失值计算方式：

当综合损失值达到最小时停止迭代，其中α为平衡文本相似度与语义嵌入的超参数。

步骤g：确定所述初步对齐结果中相似度小于第二预设相似度的非相似实体向量；

步骤h：根据所述标签向量，以预设语义损失函数迭代计算的方式，按照语义相似度，调整所述非相似实体向量。

针对文本相似度低的实体，说明文本相似性在对齐方面起不到作用，如果强行考虑文本相似性的话会适得其反，所以对于文本相似度低的实体，只需要考虑其语义相似性。

即针对初步对齐结果中相似度小于第二预设相似度（50%）的非相似实体向量，则根据标签向量，仅以预设语义损失函数进行迭代计算，逐步调整该非相似实体向量。

使用预设语义损失函数fr（h，t），并不断优化该损失函数，以及不断调整非相似实体向量，直至该预设语义损失函数fr（h，t）迭代至最小值。

在本实施例中，将所述第一对齐种子和所述第二对齐种子的对应向量作为标签向量；根据预设损失函数和所述标签向量，以迭代计算的方式，调整所述初步对齐结果中的实体向量，直至所述预设损失函数对应的损失值达到预设阈值，其中，在调整所述实体向量过程中，通过预设的梯度下降方法，优化所述预设损失函数。即根据第一对齐种子和第二对齐种子，使用预设损失函数迭代方式，不断调整实体向量，从而综合文本相似性和语义相似性考虑实体向量之间的相似性，从而根据该实体向量之间的相似性，调整实体向量，从而提高相似的实体向量的数量，继而提高实体向量的对齐效果。

示例性的，基于上述本申请跨语言实体对齐方法第一实施例、第二实施例和第三实施例，提出第四实施例，以第四实施例阐述上述实施例中提及的步骤在实际应用场景中的使用方法：

示例性的，假设现存在两个待融合的知识图谱（第一知识图谱和第二知识图谱），第一知识图谱采用汉语，第二知识图谱采用英语，在第一知识图谱中存在中文三元组（孙悟空，师父，三藏），在第二知识图谱中存在英文三元组（Sun wukong，master，Xuanzang）。针对上述的中文三元组和英文三元组的实体对齐过程具体参照图4。

其中，根据图4可知，在同一向量空间内，分别为这两个三元组生成初始化的实体向量，将中文三元组翻译成英语文本，并且比较这两个三元组实体和关系的文本相似性（比较两者之间的实体向量的余弦相似度），将文本相似度大于95%的实体对（Sun wukong，Sunwukong）当作对齐种子，使它们共享同一个向量。进而通过结合文本相似度和TransE模型，（teacher，master）、（Sanzang，Xuanzang）这两个实体对分别得到两组相似的向量，最后，通过比较实体向量的距离，将距离最近的实体对齐。

此外，本申请还提供一种跨语言实体对齐装置，所述一种跨语言实体对齐装置包括：

示例性的，所述调整模块包括：

确定子模块，用于将所述第一对齐种子和所述第二对齐种子的对应向量作为标签向量；

计算子模块，用于根据预设损失函数和所述标签向量，以迭代计算的方式，按照文本相似度和/或语义相似度，分批调整所述初步对齐结果中的实体向量，直至所述预设损失函数对应的损失值达到预设阈值，其中，在调整所述实体向量过程中，通过预设的梯度下降方法，优化所述预设损失函数。

示例性的，所述计算子模块包括：

第一确定单元，用于确定所述初步对齐结果中相似度小于所述第一预设相似度、且大于等于第二预设相似度的相似实体向量；

第一调整单元，用于根据所述标签向量，以预设文本损失函数和预设语义损失函数交替迭代计算的方式，按照文本相似度和语义相似度，调整所述相似实体向量；

第二确定单元，用于确定所述初步对齐结果中相似度小于第二预设相似度的非相似实体向量；

第二调整单元，用于根据所述标签向量，以预设语义损失函数迭代计算的方式，按照语义相似度，调整所述非相似实体向量。

示例性的，所述第一对齐模块包括：

翻译子模块，用于将所述跨语言知识图谱内的文本翻译成英语文本；

输入子模块，用于输入所述英语文本至Word Hashing模型，以供所述WordHashing模型添加开始标记和结束标记至所述英语文本中，并将添加标记后的英语文本以字母n-grams的形式分解成多段文本，根据所述多段文本，生成所述英语文本对应的实体向量；

对齐子模块，用于对所述实体向量进行初步对齐，得到初步对齐结果。

示例性的，所述对齐子模块包括：

计算单元，用于计算来自不同跨语言知识图谱中的实体向量之间的余弦相似度；

生成单元，用于若所述余弦相似度大于等于第一预设相似度，则根据所述余弦相似度对应的英语文本，生成统一向量。

示例性的，所述装置还包括：

计算模块，用于计算所述目标对齐结果调整后的余弦相似度；

融合模块，用于根据所述调整后的余弦相似度，融合所述跨语言知识图谱。

本申请跨语言实体对齐装置具体实施方式与上述跨语言实体对齐方法各实施例基本相同，在此不再赘述。

此外，本申请还提供一种跨语言实体对齐设备。如图5所示，图5是本申请实施例方案涉及的硬件运行环境的结构示意图。

示例性的，图5即可为跨语言实体对齐设备的硬件运行环境的结构示意图。

如图5所示，该跨语言实体对齐设备可以包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501、通信接口502和存储器503通过通信总线504完成相互间的通信，存储器503，用于存放计算机程序；处理器501，用于执行存储器503上所存放的程序时，实现跨语言实体对齐方法的步骤。

上述跨语言实体对齐设备提到的通信总线504可以是外设部件互连标准（Peripheral Component Interconnect,PCI)总线或扩展工业标准结构（ExtendedIndustry Standard Architecture,EISA)总线等。该通信总线504可以分为地址总线、数据总线和控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口502用于上述跨语言实体对齐设备与其他设备之间的通信。

存储器503可以包括随机存取存储器(Random Access Memory,RMD),也可以包括非易失性存储器(Non- Volatile Memory,NM)，例如至少一个磁盘存储器。可选的，存储器503还可以是至少一个位于远离前述处理器501的存储装置。

上述的处理器501可以是通用处理器，包括中央处理器（Central ProcessingUnit,CPU)、网络处理器( Network Processor,NP)等；还可以是数字信号处理器（DigitalSignal Processor,DSP)、专用集成电路( Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field- Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请跨语言实体对齐设备具体实施方式与上述跨语言实体对齐方法各实施例基本相同，在此不再赘述。

此外，本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有跨语言实体对齐程序，所述跨语言实体对齐程序被处理器执行时实现如上所述的跨语言实体对齐方法的步骤。

本申请计算机可读存储介质具体实施方式与上述跨语言实体对齐方法各实施例基本相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种跨语言实体对齐方法，其特征在于，所述跨语言实体对齐方法包括以下步骤：

2.如权利要求1所述的跨语言实体对齐方法，其特征在于，所述根据所述第一对齐种子和所述第二对齐种子，按照文本相似度和/或语义相似度，分批调整所述初步对齐结果中的实体向量的步骤，包括：

3.如权利要求2所述的跨语言实体对齐方法，其特征在于，所述预设损失函数包括预设文本损失函数和预设语义损失函数，所述根据预设损失函数和所述标签向量，以迭代计算的方式，按照文本相似度和/或语义相似度，分批调整所述初步对齐结果中的实体向量的步骤，包括：

4.如权利要求2所述的跨语言实体对齐方法，其特征在于，所述预设损失函数包括预设语义损失函数，所述根据预设损失函数和所述标签向量，以迭代计算的方式，按照文本相似度和/或语义相似度，分批调整所述初步对齐结果中的实体向量的步骤，包括：

5.如权利要求1所述的跨语言实体对齐方法，其特征在于，所述统一语言文本包括英语文本，所述将所述跨语言知识图谱内的文本翻译成统一语言文本，并对所述统一语言文本对应的实体向量进行初步对齐，得到初步对齐结果的步骤，包括：

将所述跨语言知识图谱内的文本翻译成英语文本；

对所述实体向量进行初步对齐，得到初步对齐结果。

6.如权利要求5所述的跨语言实体对齐方法，其特征在于，所述对所述实体向量进行初步对齐，得到初步对齐结果的步骤，包括：

7.如权利要求1所述的跨语言实体对齐方法，其特征在于，所述将调整后的实体向量中相似度最高的实体向量进行对齐，得到目标对齐结果步骤之后，包括：

计算所述目标对齐结果调整后的余弦相似度；

根据所述调整后的余弦相似度，融合所述跨语言知识图谱。

8.一种跨语言实体对齐装置，其特征在于，所述跨语言实体对齐装置包括：

9.一种跨语言实体对齐设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的跨语言实体对齐程序，所述跨语言实体对齐程序配置为实现如权利要求1至7中任一项所述的跨语言实体对齐方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有跨语言实体对齐程序，所述跨语言实体对齐程序被处理器执行时实现如权利要求1至7中任一项所述的跨语言实体对齐方法的步骤。