CN110427612A

CN110427612A - 基于多语言的实体消歧方法、装置、设备和存储介质

Info

Publication number: CN110427612A
Application number: CN201910588561.0A
Authority: CN
Inventors: 孙佳兴; 李琦; 谢云; 陈泽晖
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2019-11-08
Anticipated expiration: 2039-07-02
Also published as: CN110427612B

Abstract

本申请涉及一种基于多语言的实体消歧方法、装置、设备和存储介质。所述方法包括：获取与待消歧的多个实体对应的不同语言的多个简介文本；所述多个实体对应相同的实体名称；将多个所述简介文本分别输入至不同语言对应、且预训练的关键属性信息处理模型中，通过所述关键属性信息处理模型，确定与各所述实体对应的关键属性信息；通过所述关键属性信息处理模型的中间层，提取与所述关键属性信息对应的特征向量；根据与所述关键属性信息对应的特征向量，在多个属性维度上分别计算多个所述实体间的语义相似度；依据所述语义相似度，对所述多个实体进行消歧。采用基于数据分析技术的本方法能够提高跨语言实体的消歧准确率。

Description

基于多语言的实体消歧方法、装置、设备和存储介质

技术领域

本申请涉及数据处理领域，特别是涉及一种基于多语言的实体消歧方法、装置、设备和存储介质。

背景技术

实体消歧也称语义消歧，专门用于解决同名实体产生歧义的问题。实体消歧在搜索系统、问答系统、和知识库等领域有着广泛的应用。网络资源中存在大量的重名现象，在分析理解文本的时候，进行实体消歧，以明确实体的正确指向具有非常大的现实意义。

传统的实体消歧业务主要运用在描述语言为同语种的实体上，而对于不同语言描述的多个实体，目前并没有很好的方案可以实现基于多语言的实体消歧。然而在实际的应用中，常常存在不同语言的实体需要进行消歧处理。因而如何正确分析这些不同语言的数据，以明确实体的正确指向是亟待解决的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够准确地对描述语言为不同语言的实体进行实体消歧，以明确实体的正确指向的基于多语言的实体消歧方法、装置、计算机设备和存储介质。

一种基于多语言的实体消歧方法，所述方法包括：

获取与待消歧的多个实体对应的不同语言的多个简介文本；所述多个实体对应相同的实体名称；

将多个所述简介文本分别输入至不同语言对应、且预训练的关键属性信息处理模型中，通过所述关键属性信息处理模型，确定与各所述实体对应的关键属性信息；

通过所述关键属性信息处理模型的中间层，提取与所述关键属性信息对应的特征向量；

根据与所述关键属性信息对应的特征向量，在多个属性维度上分别计算多个所述实体间的语义相似度；

依据所述语义相似度，对所述多个实体进行消歧。

一种基于多语言的实体消歧装置，所述装置包括：

获取模块，用于获取与待消歧的多个实体对应的不同语言的简介文本；所述多个实体对应相同的实体名称；

确定模块，用于将多个所述简介文本分别输入至不同语言对应、且预训练的关键属性信息处理模型中，通过所述关键属性信息处理模型，确定与各所述实体对应的关键属性信息；

提取模块，用于通过所述关键属性信息处理模型的中间层，提取与所述关键属性信息对应的特征向量；

计算模块，用于根据与所述关键属性信息对应的特征向量，在多个属性维度上分别计算多个所述实体间的语义相似度；

所述确定模块还用于依据所述语义相似度，对所述多个实体进行消歧。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

依据所述语义相似度，对所述多个实体进行消歧。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

依据所述语义相似度，对所述多个实体进行消歧。

上述基于多语言的实体消歧方法、装置、计算机设备和存储介质，获取对应相同实体名称的多个实体对应的不同语言的简介文本。将不同语言的简介文本输入至对应各自语言、且预训练的关键属性信息处理模型中，以确定与各实体分别对应的关键属性信息。通过该关键属性信息处理模型的中间层，可以快速准确地挖掘出关键属性信息的隐层信息，得到对应的特征向量，从而可根据特征向量，在多个属性维度上分别计算该多个实体间的语义相似度。依据特征向量间的语义相似度，可以准确地判断待消歧的多个实体是否为同一实体，从而对多个实体进行消歧。这样，可以通过关键属性信息处理模型代替人工确定不同语言的简介文本中的关键属性信息，并提取出关键属性信息对应的特征向量，可以将不同语言的内容转换成同维度的、可比较的特征向量，进而通过比较特征向量间的语义相似度来对实体进行消歧，大大提高了对不同语言的实体进行消歧的准确率。

附图说明

图1为一个实施例中基于多语言的实体消歧方法的应用场景图；

图2为一个实施例中基于多语言的实体消歧方法的流程示意图；

图3为一个实施例中关键属性信息处理模型的训练步骤的流程示意图；

图4为一个实施例中基于多语言的实体消歧装置的结构框图；

图5为另一个实施例中基于多语言的实体消歧装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于多语言的实体消歧方法，可以应用于如图1所示的应用环境中。其中，终端110与服务器120通过网络进行通信。终端110可从网络资源中获取不同语言的简介文本，并将不同语言的简介文本发送至服务器120，服务器120执行该基于多语言的实体消歧方法，对待消歧的多个实体进行消歧，以明确不同语言的多个实体的正确指向。或者，终端110可直接执行该基于多语言的实体消歧方法，对待消歧的多个实体进行消歧，以明确不同语言的各实体的正确指向。其中，终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于多语言的实体消歧方法，以该方法应用于图1中的终端110或服务器120(终端和服务器均可称作计算机设备)为例进行说明，包括以下步骤：

S202，获取与待消歧的多个实体对应的不同语言的多个简介文本；多个实体对应相同的实体名称。其中，实体(Entity)是指客观存在并可相互区别的事物，包括具体的人、事、物、抽象的概念或联系。实体消歧也称语义消歧，是辨别相同实体名称的实体是否指向同一实体、或从多个对应相同实体名称的实体中确定目标实体的过程。

待消歧的多个实体是指对应相同的实体名称的多个实体，可以是两个实体或两个以上的实体。其中，多个实体对应相同的实体名称是指，用不同语言表达的实体名称在被转换成同一种目标语种后，转换后的实体名称相同。通过执行该基于多语言的实体消歧方法，可识别不同语言的待消歧的多个实体是否指向同一实体。不同语言的简介文本是对实体进行解释的文本，包括多种语言，比如有中文简介、英文简介、德文简介等。不同语言的简介文本是一种非结构化的数据。非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。

当实体为人物实体时，对应的不同语言的简介文本可以是多语言简历数据；当实体为企业实体时，对应的不同语言的简介文本可以是不同语言的企业介绍；当实体为物品实体时，对应的不同语言的简介文本可是对物品进行解释的词条中的多语言文本。

可以理解，在具体业务场景中，比如当从不同数据来源的网络上爬取到不同语言的数据时，如何从这些数据中筛选出有价值且可信度高的信息是非常重要的。比如在招聘场景中，当从网络上获取到对应“张三”这个人物实体对应有不同语言的简介文本时，计算机设备就需要判断这多个“张三”人物实体所对应的简介文本是否是同一个“张三”的简介文本。此时计算机设备就可通过执行本申请实施例中所提及的实体消歧方法，来确定多个人物实体是否指向同一个人。在其他业务场景中，比如构建知识图谱的场景中，也可通过该基于多语言的实体消歧方法，对不同语言所对应的实体进行消歧，以将同一个实体对应的不同语言的简介文本相关联来构建知识图谱。

在一个实施例中，数据库中可存储有不同语言的多源数据，这些数据可能来源于供应商、或是从网页爬取、或是第三方平台的数据等。而不同语言的多源数据中可能存在与相同的实体名称相对应的不同数据。那么，不论是通过该多源数据构建知识库还是整理该多源数据，都需要对不同语言的多源数据进行实体消歧。

在一个实施例中，计算机设备可从不同语言的多源数据中提取对应相同实体名称的不同语言的简介文本。在一个实施例中，计算机设备可对对应相同实体名称的实体进行两两比对处理，也就是对待消歧的多个实体进行两两配对，分别判断两个不同的实体是否指向同一实体，进而根据两两判别的结果，综合确定多个待消歧的实体是否指向同一实体。

举例说明，当实体为人物实体时，计算机设备可获取对应相同实体名称的简历数据。比如，计算机设备获取了三份都是名为“张三”的简历，可相应称为简历数据1、简历数据2、和简历数据3。那么，计算机设备可分别根据简历数据1和简历数据2执行该实体消歧方法，判别简历数据1和简历数据2所对应的实体是否为同一实体。计算机设备还可分别根据简历数据1和简历数据3执行该实体消歧方法，判别简历数据1和简历数据3所对应的实体是否为同一实体。计算机设备还可分别根据简历数据2和简历数据3执行该实体消歧方法，判别简历数据2和简历数据3所对应的实体是否为同一实体。

在一个实施例中，待消歧的实体数量为三个或三个以上，计算机设备可同时获取三个或三个以上的实体所对应的不同语言的简介文本，从而计算三个或三个以上的实体之间的相似度，以确定该三个或三个以上的实体是否为同一实体。

在一个实施例中，计算机设备可从待消歧的多个实体所对应的多源数据中，提取出不同语言的简介文本。提取出的简介文本至少包括学校名称、学历级别、专业名称、企业名称、及部门名称等多个维度中的至少一个维度的数据。在一个实施例中，当计算机设备提取出的简介文本中所包括的维度数量较少时，为保障实体消歧的准确性，计算机设备可从多源数据所包括的其他数据中提取上述维度所对应的数据，补充至该简介数据中。

S204，将多个简介文本分别输入至不同语言对应、且预训练的关键属性信息处理模型中，通过关键属性信息处理模型，确定与各实体对应的关键属性信息。

其中，关键属性信息处理模型是经过训练后具有分类或识别能力的机器学习算法模型。机器学习英文全称为Machine Learning，简称ML。关键属性信息处理模型可通过样本学习具备识别能力，本实施例的关键属性信息处理模型用于从简介文本中标识出关键属性信息。关键属性信息处理模型可以采用CNN(Convolutional Neural Network，卷积神经网络)模型、RNN(Recurrent Neural Network，循环神经网络)模型、LSTM(Long Short-TermMemory，长短期记忆网络)模型、BiLSTM(Bi-directional Long Short-Term Memory，双向长短期记忆网络)模型等神经网络模型。实践中采用LSTM模型可从简介文本中较好地标识出关键属性信息。

关键属性信息是实体的关键属性的信息，比如，当实体为人物实体时，关键属性信息具体可以是学校名称、学历级别、专业名称、企业名称、及部门名称等信息；当实体是企业实体时，相应的关键属性信息具体可以是企业法人、企业成立时间、企业所在地、企业规模、或主营业务等信息。

具体地，通过训练数据对关键属性信息处理模型进行训练，得到具有标识能力的关键属性信息处理模型。计算机设备可对简介文本中的句子进行切分，将句子中的标点符号去掉后，分别将各实体所对应的简介文本输入至关键属性信息处理模型中，通过该关键属性信息处理模型对简介文本进行特征提取分析后，得到简介文本中各字符对应的标识符号。将特定标识符号所对应的文本提取出来作为相应的关键属性信息。

举例说明，当实体为人物实体时，计算机设备可将与人物实体对应的简介文本输入至关键属性信息处理模型中，通过关键属性信息处理模型提取出相应的关键属性信息。比如，计算机设备可预先设置标识符号“O”用于标识无效信息；标识符号“B-ORG”用于标识“学校名称”、标识符号“I-ORG”用于标识“学历级别”等。那么，当关键属性信息处理模型输出简介文本及各字符所对应的标识符号后，可根据标识符号确定相应的关键属性信息。

在一个实施例中，对于不同语种的简介文本，计算机设备可分别训练与该语种相对应的关键属性信息处理模型。也就是说，可通过某语种的样本数据，训练相应语种对应的关键属性信息处理模型，训练得到的该语种对应的关键属性信息处理模型即可用于该该语种的简介文本进行特征提取和分析。

在一个实施例中，实体包括人物实体；实体名称包括人物名称；不同语言的简介文本包括不同语言的简历文本；关键属性信息包括不同语言的学校名称、学历级别、专业名称、企业名称、及部门名称中的多种。

其中，简历文本是对个人学历、经历、特长、爱好及其它有关情况所作的简明扼要的书面介绍数据。当实体包括人物实体，简介文本包括简历文本，关键属性信息包括学校名称、学历级别、专业名称、企业名称、及部门名称中的多种时，通过执行该基于多语言的实体消歧方法，可以准确地根据不同语言的简历文本判别对应相同人物名称的不同语言实体是否为同一实体。

S206，通过关键属性信息处理模型的中间层，提取与关键属性信息对应的特征向量。

其中，中间层是位于该关键属性信息处理模型的输入层和输出层之间的层。关键属性信息处理模型具有多层神经网络，中间层具体可用来对输入的简介文本进行特征提取处理。

具体地，关键属性信息处理模型在对简介文本进行处理时，可通过中间层提取简介文本的特征向量，也就是简介文本所包括的各词所对应的特征向量。再通过关键属性信息处理模型的输出层对特征向量进行处理，以确定相应的关键属性信息。关键属性信息处理模型在确定关键属性信息后，可从中间层处理得到的数据中提取出与关键属性信息对应的特征向量，也就是相应的特征向量。

在一个实施例中，通过关键属性信息处理模型的中间层提取出与关键属性信息对应的特征向量。其中，关键属性信息处理模型提取出的特征向量可用于表征相应的关键属性信息的隐含信息，该隐含信息具体可包括关键属性信息的语义信息及语法信息等。不同的特征向量可用于区分不同的关键属性信息。

S208，根据与关键属性信息对应的特征向量，在多个属性维度上分别计算多个实体间的语义相似度。

其中，属性维度是与关键属性信息对应的维度，比如当关键属性信息为学校名称时，相应的属性维度就是实体所对应的学校维度。语义相似度是实体的描述文本的相似程度，可以用来表示实体之间的相似程度。

具体地，计算机设备可在各个属性维度上，分别计算待消歧的不同语言的实体所对应的特征向量之间的距离。其中，两个特征向量之间的距离可用于表征这两个特征向量之间的相似程度，这两个特征向量之间的相似程度可以表征对应的两个关键属性信息之间的相似程度。也就是两个特征向量之间的距离可用于表征两个实体在相应属性维度上的语义相似程度。比如，当两个特征向量间的距离越大，则这两个特征向量间的相似度越低，对应的待比较的两个关键属性信息之间的相似度越低；当两个特征向量间的距离越小，则这两个特征向量间的相似度越高，对应的待比较的两个关键属性信息之间的相似度越高。

其中，距离的计算方式有多种，比如可采用余弦相似度来计算距离，或欧式距离计算距离等方式，在此不做限定。其中，余弦相似度计算是指通过计算两个向量的夹角余弦值来评估特征向量的相似度。

在一个实施例中，对于每个属性维度，计算机设备可根据该属性维度下多个实体中待比较的两个实体的关键属性信息对应的特征向量，计算多个实体中待比较的两个实体在该属性维度上的语义相似度。进而确定多个实体中两两实体分别在每个属性维度下的语义相似度。

在一个实施例中，对于每个属性维度，计算机设备可计算该属性维度下多个实体中待比较的两个实体的关键属性信息对应的特征向量之间的距离，根据计算得到的距离确定待比较的两个实体在该属性维度上的语义相似度。

在一个实施例中，对于每个属性维度，计算机设备均根据与该属性维度对应的关键属性信息所对应的特征向量，计算特征向量之间的语义相似度。

在一个实施例中，待消歧的实体数量为两个，或者是，待消歧的实体数量为多个。计算机设备根据多个实体间的两两组合，分别依次计算两个实体之间的相似度，以确定该两个实体是否为同一实体。在这种情况下，计算机设备对于每个属性维度均做如下处理：计算机设备根据该维度下的待消歧的两个实体对应的关键属性信息的特征向量，计算两组特征向量之间的语义相似度。

S210，依据语义相似度，对多个实体进行消歧。

具体地，计算机设备可根据语义相似度对待消歧的多个不同语言的实体进行消歧，也就是确定多个实体所对应的消歧类别。计算机设备可预先设置相应的阈值，用于判别待消歧的多个不同语言的实体对应的消歧类别。

其中，消歧类别是对待消歧的多个不同语言的实体进行判断后该多个实体所对应的类别，用来表示待消歧的多个不同语言的实体是否指向同一实体。消歧类别具体可包括相似实体、独立实体、需人为判断、以及无法判断等中的至少一种。其中，相似实体是指待消歧的多个实体为同一实体；独立实体指代消歧的实体分别为独立的实体，不指向同一实体；需人为判断指依据当前的条件无法判断当前的实体是否为同一实体，既可能是相似实体也有可能是独立实体；无法判断指当前信息量太少，无法判断当前待消歧的实体是否为同一实体。

在一个实施例中，该基于多语言的实体消歧方法还包括：获取与多个属性维度分别对应的加权系数；依据加权系数，对多个实体在多个属性维度上的语义相似度进行加权求和，得到待消歧的多个实体间的综合相似度。步骤S210具体包括：依据综合相似度，对多个实体进行消歧。

具体地，计算机设备获取与多个属性维度分别对应的加权系数，依据加权系数，对多个实体在多个属性维度上的语义相似度进行加权求和，得到待消歧的多个实体间的综合相似度。再依据综合相似度，对多个实体进行消歧，也就是确定与待消歧的多个实体相对应的消歧类别。

在一个实施例中，对于每组待比较的两个实体，计算机设备可获取与多个属性维度分别对应的预设的加权系数，依据相应的加权系数，将各组待比较的两个实体在多个属性维度上的相似度进行加权求和，得到各组待比较的两个实体间的综合相似度。

其中，可采用如下公式进行计算得到综合相似度：综合相似度＝加权系数1*语义相似度1+加权系数2*语义相似度2+…+加权系数N*语义相似度N。在一个实施例中，计算机设备可依据不同属性维度所对应的重要程度，赋予不同的加权系数。

在一个实施例中，计算机设备可预先设置第一阈值、第二阈值和第三阈值，其中，第一阈值大于第二阈值，第二阈值大于第三阈值。当综合相似度大于或等于第一阈值时，则判定待比较的两个不同语言的实体为相似实体；当综合相似度小于第一阈值、且大于第二阈值时，则需人为判断，计算机设备无法判断待比较的两个不同语言的实体是相似实体还是独立实体；当综合相似度小于或等于第二阈值、且大于第三阈值时，则判定待比较的两个不同语言的实体为相互独立的实体；当综合相似度小于或等于第三阈值时，则无法判定(可能是信息量太少以至于无法判断)。

举例说明，当不同语言的实体为人物实体，当前待消歧的实体数量为两个，当综合相似度>＝70％时，则判断待比较的两个人物实体为相似人物实体；当40％<综合相似度<70％时，则需要人为判断；当10％<综合相似度<＝40％时，则判断待比较的两个人物实体为独立人物实体；当综合相似度<＝10％无法判断。

上述基于多语言的实体消歧方法，获取对应相同实体名称的多个实体对应的不同语言的简介文本。将不同语言的简介文本输入至对应各自语言、且预训练的关键属性信息处理模型中，以确定与各实体分别对应的关键属性信息。通过该关键属性信息处理模型的中间层，可以快速准确地挖掘出关键属性信息的隐层信息，得到对应的特征向量，从而可根据特征向量，在多个属性维度上分别计算该多个实体间的语义相似度。依据特征向量间的语义相似度，可以准确地判断待消歧的多个实体是否为同一实体，从而对多个实体进行消歧。这样，可以通过关键属性信息处理模型代替人工确定不同语言的简介文本中的关键属性信息，并提取出关键属性信息对应的特征向量，可以将不同语言的内容转换成同维度的、可比较的特征向量，进而通过比较特征向量间的语义相似度来对实体进行消歧，大大提高了对不同语言的实体进行消歧的准确率。

在一个实施例中，步骤S202具体包括以下步骤：获取待处理的不同语言的多源数据；确定不同语言的多源数据所对应实体的实体名称；将对应于相同实体名称的不同语言的多源数据划分为同组多源数据；分别提取各组多源数据中的不同语言的简介文本，并将提取的不同语言的简介文本作为与待消歧的多个实体分别对应的不同语言的简介文本。

其中，多源数据是数据来源方为多个的数据，多源数据的内容纷杂、数据质量参差不齐。具体地，计算机设备可确定不同语言的多源数据所对应实体的实体名称，再将对应于相同实体名称的不同语言的多源数据划分为同组多源数据。分别提取各组多源数据中的不同语言的简介文本，并将提取的不同语言的简介文本作为与待消歧的多个不同语言的实体分别对应的不同语言的简介文本。

上述实施例中，将对应于相同实体名称的不同语言的多源数据划分为同组多源数据，并从各组多源数据中提取出不同语言的简介文本，并根据提取的不同语言的简介文本进行多语言的实体消歧。由于多源数据中非结构化的简介文本是信息量最可靠的数据源，因而根据非结构化的简介文本进行不同语言的实体消歧的准确率和实用性都会大大提高。

在一个实施例中，该基于多语言的实体消歧方法还包括动态调整加权系数的步骤，该步骤具体包括：确定待消歧的多个实体在预设属性维度上所对应的预设属性相似度；根据预设属性相似度，动态调整加权系数。依据加权系数，对多个实体在多个属性维度上的语义相似度进行加权求和，得到待消歧的多个实体间的综合相似度的步骤包括：依据调整后的加权系数，对多个实体在多个属性维度上的语义相似度进行加权求和，得到待消歧的多个实体间的综合相似度。

具体地，计算机设备可确定待消歧的多个不同语言的实体在预设属性维度上所对应的预设属性相似度。在一个实施例中，预设属性维度具体可以是在实践经验中认定为更为重要的属性维度。进而，计算机设备可根据预设属性维度所对应的预设属性相似度，确定当前的实际场景，进而动态调整加权系数。再根据动态调整的加权系数，对实体在多个属性维度上的语义相似度进行加权求和，得到待消歧的多个实体间的综合相似度。

在一个实施例中，计算机设备可根据当前的预设属性相似度，确定当前的实际场景，从而选择与该场景相匹配的加权系数。其中，与各场景相匹配的加权系数可以是提前设置好的，可依据当前的实际场景，调整权重，以增加判别待消歧的实体是否为同一实体的准确率。

举例说明计算机设备如何根据预设属性维度所对应的预设属性相似度，确定当前的实际场景，进而动态调整加权系数。比如，以人物实体为例，当待消歧的实体在学校维度无交集时，可设置部门维度和企业维度对应的加权系数各为0.5。当待消歧的实体在企业维度无交集，且在学校维度的预设属性相似度大于40％的场景时，可设置学校维度对应的加权系数为0.8；反之，企业维度对应的加权系数为0.8。当待消歧的实体在部门维度无交集、且在学校维度的预设属性相似度大于40％的场景时，可设置学校维度对应的加权系数为0.8；反之，部门维度对应的加权系数为0.8。当待消歧的实体在部门维度和企业维度均无交集时，可设置学校维度对应的加权系数为0.1。当当待消歧的实体在部门维度和学校维度无交集时，可设置学习维度对应的加权系数为0.8。当待消歧的实体在企业维度和学校维度均无交集时，可设置部门维度对应的加权系数为0.8。当待消歧的实体在三类维度都有交集时，可设置企业维度对应的加权系数为0.4、学校维度对应的加权系数为0.2。其中，有交集是指有相同的字符；无交集是指无相同的字符。

上述实施例中，通过待消歧的多个不同语言的实体在预设属性维度上所对应的预设属性相似度，可动态调整相应配置的加权系数，从而准确地确定待消歧的多个不同语言实体间的综合相似度。

在一个实施例中，该基于多语言的实体消歧方法还包括根据关键属性相似度确定待消歧的多个实体相对应的消歧类别的步骤，该步骤具体包括：当根据语义相似度无法确定待消歧的多个实体是否为同一实体时，将与各实体分别对应的关键属性信息分别输入至预训练的机器翻译模型；通过机器翻译模型，输出与各实体分别对应的、且属于目标语种的目标关键属性信息；根据目标关键属性信息，在多个属性维度上分别计算多个实体间的关键属性相似度；依据关键属性相似度，对多个实体进行消歧。

具体地，当依据语义相似度，确定与待消歧的多个实体相对应的消歧类别为“需人为判断”或“无法判断”类别时，也就是当根据语义相似度无法确定待消歧的多个实体是否为同一实体时，计算机设备可将与各实体分别对应的关键属性信息分别输入至预训练的机器翻译模型。通过该机器翻译模型，输出与各实体分别对应的、且属于目标语种的目标关键属性信息。再比较目标关键属性信息的相似度。

其中，计算同语种的目标关键属性信息的相似度的计算方法具体是：确定各实体在不同属性维度上的目标关键属性信息，对于每个属性维度均做如下处理：将该属性维度下的多个实体对应的目标关键属性信息拆分成单个字符。将所有实体所对应的字符去重后组成集合并集。将待比较的实体所对应的字符所组成的集合交集与该集合并集的重合度作为该待比较的实体的相似度。

举例说明，比如实体1在属性维度A上的关键属性信息为“上海财经政法大学”；实体2在属性维度A上的关键属性信息为“复旦大学”。那么，集合交集为[“大”、“学”]，共2个字符，集合并集为[“上”、“海”、“财”、“经”、“政”、“法”、“复”、“旦”、“大”、“学”]，共10个字符。集合交集与集合并集的重合度为2/10＝20％。

上述实施例中，当通过计算各实体的关键属性信息对应的特征向量之间的语义相似度来判别待消歧的多个不同语言的实体是否为同一实体失效时，计算机设备可将不同语言的多个实体对应的不同语言的关键属性信息翻译成目标语种的目标关键属性信息，从而进行相似度比较，大大提高了不同语言实体的消歧效率和准确率。

在一个实施例中，计算机设备可根据各实体所属的消歧类别，判断所有实体所属的消歧类别是否存在自相矛盾的情况。比如，当采用两两比较的方式时，判别实体1和实体2为相似实体；实体2和实体3为独立实体；实体1和实体3为相似实体。那么此时就存在自相矛盾的情况，此时，计算机设备可判定对于实体1、实体2和实体3的判别结果是不准确的。可直接将上述判定结果修改为人为判断的类别中，由工作人员进行重新判断。

在一个实施例中，该基于多语言的实体消歧方法该包括关键属性信息处理模型的训练步骤，该步骤具体包括：

S302，获取不同语言的样本简介文本。

具体地，在训练关键属性信息处理模型的过程中，计算机设备可预先获取样本简介文本。计算机设备可从网络中爬取相应的不同语言的样本简介文本，或接收其他计算机设备发送的不同语言的样本简介文本。其中，不同语言的样本简介文本至少包括两种语言。

S304，依据样本标记字符对不同语言的样本简介文本中的关键样本属性信息进行标记。

具体地，通过人为或自动标注的方式，计算机设备可依据样本标记字符对样本简介文本中的关键样本属性信息进行标记。比如，当样本简介文本为样本简历文本时，计算机设备可将样本简历文本中的学校名称、学历级别、专业名称、企业名称、及部门名称等关键样本属性信息标注出来。在对关键样本属性信息进行标注时，计算机设备可预先设置标识符号“O”用于标识无效信息；标识符号“B-ORG”用于标识学校名称、标识符号“I-ORG”用于标识“学历级别”等。将有效信息和无效信息区分开，将对应于不同属性维度的关键样本属性信息采用不同的标识符号来标注。

S306，将不同语言的样本简介文本输入至关键属性信息处理模型，通过关键属性信息处理模型输出中间结果。

其中，中间结果是在训练过程中，向关键属性信息处理模型输入样本简介文本后，由该关键属性信息处理模型所输出的结果。具体地，计算机设备可将样本简介文本输入至关键属性信息处理模型得到中间结果。

S308，依据中间结果和样本标记字符之间的差异调整模型参数，直到满足训练停止条件为止。

其中，训练停止条件是结束模型训练的条件。训练停止条件可以是达到预设的迭代次数，或者是调整模型参数后的关键属性信息处理模型的输出性能指标达到预设指标。具体地，关键属性信息处理模型可根据中间结果与样本标记字符之间的差异调整模型参数，直到满足训练停止条件为止。进而，训练好的关键属性信息处理模型就具备了自动识别和标注的能力，该关键属性信息处理模型对输入的简介文本进行特征分析后，输出包含标识符号的简介文本。计算机设备可根据输出的简介文本中各字符所对应的标识符号，从中提取出实体的关键属性信息。

在一个实施例中，计算机设备可比较中间结果与样本标记字符之间的差异，从而朝减少差异的方向，调整关键属性信息处理模型的模型参数。如果调整模型参数后，不满足训练停止条件，则返回S306步骤并继续训练，直到满足训练停止条件时结束训练。

上述实施例中，通过样本简介文本和标记了关键样本属性信息的样本标记字符来训练关键属性信息处理模型，可使得关键属性信息处理模型习得识别关键属性信息的能力。在模型的训练过程中，通过调整模型参数，就可以尽快地训练出能从简介文本中准确地提取出关键属性信息的模型，提高了训练效率。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种基于多语言的实体消歧装置400，包括：获取模块401、确定模块402、提取模块403和计算模块404，其中：

获取模块401，用于获取与待消歧的多个实体对应的不同语言的多个简介文本；多个实体对应相同的实体名称。

确定模块402，用于将多个简介文本分别输入至不同语言对应、且预训练的关键属性信息处理模型中，通过关键属性信息处理模型，确定与各实体对应的关键属性信息。

提取模块403，用于通过关键属性信息处理模型的中间层，提取与关键属性信息对应的特征向量。

计算模块404，用于根据与关键属性信息对应的特征向量，在多个属性维度上分别计算多个实体间的语义相似度。

确定模块402还用于依据语义相似度，对多个实体进行消歧。

在一个实施例中，获取模块401还用于获取待处理的不同语言的多源数据；确定不同语言的多源数据所对应实体的实体名称；将对应于相同实体名称的不同语言的多源数据划分为同组多源数据；分别提取各组多源数据中的不同语言的简介文本，并将提取的不同语言的简介文本作为与待消歧的多个实体分别对应的不同语言的简介文本。

在一个实施例中，获取模块401还用于获取与多个属性维度分别对应的加权系数。计算模块404还用于依据加权系数，对多个实体在多个属性维度上的语义相似度进行加权求和，得到待消歧的多个实体间的综合相似度。确定模块402还用于依据综合相似度，对多个实体进行消歧。

在一个实施例中，该基于多语言的实体消歧装置400还包括调整模块405，其中，确定模块402还用于确定待消歧的多个实体在预设属性维度上所对应的预设属性相似度。调整模块405，用于根据预设属性相似度，动态调整加权系数。计算模块404还用于依据调整后的加权系数，对多个实体在多个属性维度上的语义相似度进行加权求和，得到待消歧的多个实体间的综合相似度。

在一个实施例中，该基于多语言的实体消歧装置400还包括输入模块406和输出模块407，其中：

输入模块406，用于当根据语义相似度无法确定待消歧的多个实体是否为同一实体时，将与各实体分别对应的关键属性信息分别输入至预训练的机器翻译模型。

输出模块407，用于通过机器翻译模型，输出与各实体分别对应的、且属于目标语种的目标关键属性信息；

计算模块404还用于根据目标关键属性信息，在多个属性维度上分别计算多个实体间的关键属性相似度；

确定模块402还用于依据关键属性相似度，对多个实体进行消歧。

参考图5，在一个实施例中，该基于多语言的实体消歧装置400还包括模型训练模块408，用于获取不同语言的样本简介文本；依据样本标记字符对不同语言的样本简介文本中的关键样本属性信息进行标记；将不同语言的样本简介文本输入至关键属性信息处理模型，通过关键属性信息处理模型输出中间结果；依据中间结果和样本标记字符之间的差异调整模型参数，直到满足训练停止条件为止。

上述基于多语言的实体消歧装置，获取对应相同实体名称的多个实体对应的不同语言的简介文本。将不同语言的简介文本输入至对应各自语言、且预训练的关键属性信息处理模型中，以确定与各实体分别对应的关键属性信息。通过该关键属性信息处理模型的中间层，可以快速准确地挖掘出关键属性信息的隐层信息，得到对应的特征向量，从而可根据特征向量，在多个属性维度上分别计算该多个实体间的语义相似度。依据特征向量间的语义相似度，可以准确地判断待消歧的多个实体是否为同一实体，从而对多个实体进行消歧。这样，可以通过关键属性信息处理模型代替人工确定不同语言的简介文本中的关键属性信息，并提取出关键属性信息对应的特征向量，可以将不同语言的内容转换成同维度的、可比较的特征向量，进而通过比较特征向量间的语义相似度来对实体进行消歧，大大提高了对不同语言的实体进行消歧的准确率。

关于基于多语言的实体消歧装置的具体限定可以参见上文中对于基于多语言的实体消歧方法的限定，在此不再赘述。上述基于多语言的实体消歧装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端或服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于多语言的实体消歧方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述基于多语言的实体消歧方法的步骤。此处基于多语言的实体消歧方法的步骤可以是上述各个实施例的基于多语言的实体消歧方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述基于多语言的实体消歧方法的步骤。此处基于多语言的实体消歧方法的步骤可以是上述各个实施例的基于多语言的实体消歧方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多语言的实体消歧方法，所述方法包括：

依据所述语义相似度，对所述多个实体进行消歧。

2.根据权利要求1所述的方法，其特征在于，所述获取与待消歧的多个实体对应的不同语言的多个简介文本，包括：

获取待处理的不同语言的多源数据；

确定所述不同语言的多源数据所对应实体的实体名称；

将对应于相同实体名称的所述不同语言的多源数据划分为同组多源数据；

分别提取各组多源数据中的不同语言的简介文本，并将提取的所述跨语言的简介文本作为与待消歧的多个实体分别对应的跨语言的简介文本。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取与所述多个属性维度分别对应的加权系数；

依据所述加权系数，对所述多个实体在所述多个属性维度上的语义相似度进行加权求和，得到所述待消歧的多个实体间的综合相似度；

所述依据所述语义相似度，对所述多个实体进行消歧，包括：

依据所述综合相似度，对所述多个实体进行消歧。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

确定所述待消歧的多个实体在预设属性维度上所对应的预设属性相似度；

根据所述预设属性相似度，动态调整所述加权系数；

所述依据所述加权系数，对所述多个实体在所述多个属性维度上的语义相似度进行加权求和，得到所述待消歧的多个实体间的综合相似度，包括：

依据调整后的所述加权系数，对所述多个实体在所述多个属性维度上的语义相似度进行加权求和，得到所述待消歧的多个实体间的综合相似度。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当根据所述语义相似度无法确定所述待消歧的多个实体是否为同一实体时，将与各实体分别对应的关键属性信息分别输入至预训练的机器翻译模型；

通过所述机器翻译模型，输出与各所述实体分别对应的、且属于目标语种的目标关键属性信息；

根据所述目标关键属性信息，在多个属性维度上分别计算所述多个实体间的关键属性相似度；

依据所述关键属性相似度，对所述多个实体进行消歧。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述关键属性信息处理模型的训练步骤包括：

获取不同语言的样本简介文本；

依据样本标记字符对所述不同语言的样本简介文本中的关键样本属性信息进行标记；

将所述不同语言的样本简介文本输入至关键属性信息处理模型，通过所述关键属性信息处理模型输出中间结果；

依据所述中间结果和所述样本标记字符之间的差异调整模型参数，直到满足训练停止条件为止。

7.根据权利要求1至5中任一项所述的方法，其特征在于，所述实体包括人物实体；所述实体名称包括人物名称；所述不同语言的简介文本包括不同语言的简历文本；所述关键属性信息包括不同语言的学校名称、学历级别、专业名称、企业名称、及部门名称中的多种。

8.一种基于多语言的实体消歧装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。