CN111523326B

CN111523326B - 实体链指方法、装置、设备以及存储介质

Info

Publication number: CN111523326B
Application number: CN202010326675.0A
Authority: CN
Inventors: 汪琦; 冯知凡; 刘志洁; 汪思麒; 柴春光; 朱勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2023-03-17
Anticipated expiration: 2040-04-23
Also published as: CN111523326A; KR102504699B1; US20210216716A1; US11704492B2; KR20210040319A; JP2021168124A; JP7398402B2; EP3859559A3; EP3859559A2

Abstract

本申请公开了实体链指方法、装置、设备以及存储介质，涉及知识图谱领域。具体实现方案为：获取目标文本；确定目标文本中包括的至少一个实体提及；根据预设的知识库，确定各实体提及对应的候选实体；确定各候选实体的参考文本以及确定各候选实体的附加特征信息；基于目标文本、各参考文本以及各附加特征信息，确定实体链指结果。本实现方式可以在实体链指时提供外部知识，积极发挥知识驱动的作用，从而能够提高实体链指的准确率，满足复杂场景下的应用需求。

Description

实体链指方法、装置、设备以及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及知识图谱领域，尤其涉及实体链指方法、装置、设备以及存储介质。

背景技术

为了更好的让机器理解文本，机器常常需要识别文本中的实体，同时将文本中的实体与对应的知识库中的实体一一对应。知识库中的同名实体往往很多，需要进行实体链指(Entity Linking)工作。实体链指对许多自然语言处理和信息检索任务都能产生积极的助力作用。实体链指一般包括两部分，实体识别(Named Entity Recognition)和实体消歧(Named Entity Disambiguation)。

现有的实体链指方案包括基于有监督学习的实体链指技术和基于深度学习的实体链指技术。这两种技术都依赖于特征工程和训练样本的构建过程，需要花费大量的人力。

发明内容

提供了一种实体链指方法、装置、设备以及存储介质。

根据第一方面，提供了一种实体链指方法，包括：获取目标文本；确定目标文本中包括的至少一个实体提及；根据预设的知识库，确定各实体提及对应的候选实体；确定各候选实体的参考文本以及确定各候选实体的附加特征信息；基于目标文本、各参考文本以及各附加特征信息，确定实体链指结果。

根据第二方面，提供了一种实体链指装置，包括：目标文本获取单元，被配置成获取目标文本；实体提及确定单元，被配置成确定目标文本中包括的至少一个实体提及；候选实体确定单元，被配置成根据预设的知识库，确定各实体提及对应的候选实体；附加信息确定单元，被配置成确定各所述候选实体的参考文本以及确定各所述候选实体的附加特征信息；实体链指确定单元，被配置成基于目标文本、各参考文本以及各附加特征信息，确定实体链指结果。

根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，所述指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面所描述的方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，上述计算机指令用于使计算机执行如第一方面所描述的方法。

根据本申请的技术可以在实体链指时提供外部知识，积极发挥知识驱动的作用，从而能够提高实体链指的准确率，满足复杂场景下的应用需求。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的实体链指方法的一个实施例的流程图；

图3是根据本申请的实体链指方法的一个应用场景的示意图；

图4是根据本申请的实体链指方法的另一个实施例的流程图；

图5是图4所示实施例中实体识别网络的结构示意图；

图6是图4所示实施例中向量确定模型的结构示意图；

图7是图4所示实施例中实体消歧网络的结构示意图；

图8根据本申请的实体链指装置的一个实施例的结构示意图；

图9是用来实现本申请实施例的实体链指方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的实体链指方法或实体链指装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如检索类应用等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、车载电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103发送的信息进行处理的后台服务器。后台服务器可以识别终端发送的文本中的实体，并将上述实体与知识库中的实体进行关联。执行主体还可以将实体链指结果反馈给终端设备101、102、103。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的实体链指方法一般由服务器105执行。相应地，实体链指装置一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的实体链指方法的一个实施例的流程200。本实施例的实体链指方法，包括以下步骤：

步骤201，获取目标文本。

本实施例中，实体链指方法的执行主体(例如图1所示的服务器105)可以通过有线连接或无线连接方式获取目标文本。上述目标文本可以是用户通过终端输入的文本。目标文本中可以是一个检索语句，其中可以包括至少一个实体提及。例如，目标文本可以是“这个夏天去哪里玩比较好”。

步骤202，确定目标文本中包括的至少一个实体提及。

执行主体在获取目标文本后，可以对目标文本进行各种处理，以确定目标文本中包括的至少一个实体提及(实体mention)。例如，执行主体可以对目标文本进行分词处理，将得到的名词作为实体提及。或者，执行主体可以对目标文本进行命名实体识别，将得到的命名实体作为实体提及。此处，实体提及是指实体的文本表现形式，可以是命名实体、普通名词短语、代词。例如，对于实体“复旦大学”来说，其实体提及可以包括“复旦大学”“复旦”“旦大”等等。

步骤203，根据预设的知识库，确定各实体提及对应的候选实体。

执行主体可以连接预设的至少一个知识库，上述知识库包括丰富文本的语义信息。上述知识库可以包括英文知识库TAP、维基百科、Freebase、YAGO以及中文知识库百度百科、互动百科、中文维基百科等。执行主体可以从上述知识库中查找各实体提及对应的候选实体。这里，候选实体是存在于知识库中，并且与实体提及关联的实体。候选实体的名称可以与实体提及的名称相同，也可以是实体提及的别称。例如，对于实体提及“夏天”来说，其对应的候选实体可以包括电影《夏天》(2008年上映的德国爱情电影)、歌曲《夏天》(李荣浩创作的歌曲，发行于2010年7月)、夏季(四季中的第二个季节，英语为summer)。

步骤204，确定各候选实体的参考文本以及确定各候选实体的附加特征信息。

执行主体在得到每个实体提及对应的各候选实体后，可以确定各候选实体的参考文本以及附加特征信息。这里参考文本可以是描述候选实体相关的描述文本，例如其可以包括知识库中对候选实体的义项描述、摘要等等。附加特征信息也可以称为人工特征，其可以包括候选实体的实体嵌入向量(entity embedding)以及候选实体的上位概念以及上位概念对应的概率。这些附加特征信息可以由预设的处理模型得到，例如实体嵌入向量可以由语言模型(LM，Language Model)得到，也可以由Bi-LSTM(Bi-directional Long Short-Term Memory，由前向LSTM与后向LSTM组合而成)得到。

步骤205，基于目标文本、各参考文本以及各附加特征信息，确定实体链指结果。

执行主体在得到各参考文本以及各附加特征信息后，可以结合目标文本，对各候选实体进行消歧，得到实体链指结果。具体的，执行主体可以将上述各信息进行拼接，并将拼接后的文本输入预设的模型，得到各候选实体与目标文本中的实体提及关联的概率。并将概率最大值对应的候选实体作为实体链指结果。

图3示出了根据本申请的实体链指方法的一个应用场景的示意图。在图3的应用场景中，用户通过终端301中的搜索类应用输入语句“刘德华演唱歌曲冰雨”。服务器302接收到上述输入语句后，得到实体提及为“刘德华”和“冰雨”。由于知识库中有多个名为刘德华的实体，服务器302对这些实体进行消歧，确定“中国香港男演员、歌手、制片人、填词人刘德华”为正确的实体。

本申请的上述实施例提供的实体链指方法，由于在实体消歧过程中，获取了候选实体的参考文本和附加特征信息，从而充分发挥了外部知识驱动作用，提高了实体链指结果的准确率。

继续参见图4，其示出了根据本申请的实体链指方法的另一个实施例的流程400。如图4所示，本实施例的实体链指方法可以包括以下步骤：

步骤401，获取目标文本。

步骤402，确定目标文本的文本嵌入向量以及相关特征向量。

本实施例中，执行主体可以将目标文本输入预先训练的语言模型中得到文本嵌入向量。语言模型可以是现有的多个语言模型，例如，Bert(Bidirectional EncoderRepresentation from Transformers，双向Transformer的编码器)、Ernie(Ernie是基于百度的深度学习框架飞桨搭建的)等等。执行主体还可以确定目标文本的相关特征向量。上述相关特征向量可以是目标文本的词性特征向量，也可以是实体概率特征向量。其中，词性特征向量用于表征目标文本中每个字的词性。举例来说，目标文本是“刘德华演唱歌曲冰雨”，词性特征向量可以为“nr nr nr v v n n n n”。其中，nr表示人名，v表示动词，n表示名词。实体概率特征向量用于表示目标文本中各词属于实体的概率。仍以上述目标文本为例，对应的实体概率特征向量可以为“0.92 0.92 0.92 0.01 0.01 0.73 0.73 0.88 0.88”。

步骤403，融合文本嵌入向量以及相关特征向量，得到融合向量。

在得到文本嵌入向量以及相关特征向量后，执行主体可以融合二者，得到融合向量。具体的，执行主体可以通过多种方式对二者进行融合。例如，执行主体可以通过concat函数连接二者。或者，执行主体还可以通过pooling层实现二者的融合等等。

步骤404，根据融合向量，确定至少一个实体提及。

执行主体在得到融合向量后，可以确定至少一个实体提及。具体的，执行主体可以将上述融合向量输入分类函数，得到至少一个实体提及。上述分类函数可以是softmax函数，也可以是sigmod函数。执行主体可以根据分类结果，确定至少一个实体提及。

在本实施例的一些可选的实现方式中，上述步骤404可以通过图4中未示出的以下步骤来实现：对融合向量进行注意力增强，得到增强向量；对增强向量进行两次分类，分别得到各实体提及的首位置和尾位置；根据得到的首位置和尾位置，确定各实体提及。

本实现方式中，执行主体可以对融合向量进行注意力增强，得到增强向量。执行主体可以利用Attention机制实现对上述融合向量的注意力增强。Attention机制是模仿人类注意力而提出的一种解决问题的办法，简单地说就是从大量信息中快速筛选出高价值信息。然后，执行主体可以对增强向量进行两次分类，这两次分类通过sigmod函数来实现。sigmod函数可以实现半指针半标注，即分别标注实体提及的首位置和尾位置。执行主体可以根据各实体提及的首位置和尾位置，得到各实体提及。

在本实施例的一些可选的实现方式中，执行主体在得到融合向量后，在对融合向量进行注意力增强之前，可以对融合向量进行降维，得到低维融合向量。然后对低维融合向量进行注意力增强。

在具体应用中，执行主体可以通过图5所示的实体识别网络来识别目标文本中的实体提及。如图5所示，实体识别网络可以包括LM、Bi-LSTM、Attention层和Sigmod层。目标文本输入LM中，得到文本嵌入向量。图中，CLS用于标记起始字符，token是目标文本中的各个字。文本嵌入向量包括各个字的嵌入向量(图5中的Emb₁、Emb₂……Emb_n)。然后，将文本嵌入向量中各个字的嵌入向量与相关特征向量(人工特征，图5中的灰色方框)融合，得到融合向量。融合向量经过Bi-LSTM后，得到低维融合向量。低维融合向量通过Attention层进行注意力增强。最后经过Sigmod层进行两次分类，得到实体的首位置和实体的尾位置(图5中，Sigmod层输出的结果中，白底方框为首位置，灰底方框为尾位置)。

步骤405，根据预设的知识库，确定各实体提及对应的候选实体。

步骤406，对于每个候选实体，获取该候选实体的至少一项描述文本；对各项描述文本进行拼接，得到该候选实体的参考文本。

本实施例中，执行主体可以从知识库中获取每个候选实体的至少一项描述文本。上述描述文本可以是各候选实体的义项描述和摘要等信息。在百科多义词中，每一个不同概念意义事物的叙述内容称为义项。每一个义项，具有独立的义项名、义项描述、百科名片、摘要、正文、参考资料等内容。执行主体可以拼接得到的各信息，将得到的文本作为参考文本。

步骤407，获取各候选实体的实体嵌入向量。

本实施例中，附加特征信息可以包括实体嵌入向量。对于每个候选实体，执行主体具体可以通过以下步骤确定该候选实体的实体嵌入向量。

步骤4071，获取该候选实体的描述信息。

本实施例中，执行主体可以首先获取该候选实体的描述信息。描述信息可以是执行主体通过任意方式获取到的用于描述候选实体的信息。例如，执行主体可以从知识库中获取描述信息，还可以从搜索引擎处获取描述信息。此处的描述信息可以与步骤406中的描述文本相同，也可以不同。

步骤4072，获取与该候选实体相关的三元组序列。

执行主体还可以获取与该候选实体相关的三元组序列。具体的，执行主体可以从知识图谱中获取上述三元组序列。上述三元组序列可以包括多个三元组，每个三元组可以表示为主语-谓语-宾语，即Subject-Predicate-Object。例如，张三-出演-长征。

步骤4073，根据该候选实体、描述信息、三元组序列以及预先训练的向量确定模型，确定该候选实体的实体嵌入向量。

执行主体在获取到上述描述信息、三元组序列后，可以结合该候选实体以及预先训练的向量确定模型，确定该候选实体的实体嵌入向量。上述预先训练的向量确定模型可以包括两个部分，分别记为第一确定子模型和第二确定子模型(如图6所示)。在图6中，第一确定子模型可以包括CBOW(continuous bag of words，连续词袋模型)和单层神经网络。第二确定子模型可以包括神经网络。执行主体可以将候选实体和描述信息输入第一确定子模型，第一确定子模型输出一向量。然后，执行主体将该向量以及三元组序列输入第二确定子模型，得到实体嵌入向量。由于增加了每个候选实体的外部知识信息，第一确定子模型和第二确定子模型都可以学习上述外部知识，从而使得得到的实体嵌入向量包含的信息更准确。

步骤408，获取各候选实体的至少一个上位概念和各上位概念对应的概率。

本实施例中，执行主体还可以获取各候选实体对应的至少一个上位概念和各上位概念对应的概率。具体的，上述各上位概念的获取可以通过预先设定的概念概率预测模型来实现。上述概念概率预测模型可以根据输入其中的文本以及知识库中实体、概念以及指示词之间的关系，预测输入文本的上位概念，记为预测上位概念。执行主体可以计算上述预测上位概念与知识库中已有概念的相似度，并将上述相似度作为各上位概念对应的概率。

在具体的应用中，上述步骤408可以通过基于重启动随机游走的概念概率预测模型来实现。基于重启动随机游走的概念概率预测模型可以基于知识库中的指示，为给定文本泛化出最符合给定文本中语境的实体的细粒度的上位概念。举例来说，候选实体为“刘德华”，其上位概念可以为“歌手”，也可以为“演员”。在文本“刘德华参演天下无贼”，其上位概念为演员。在文本“刘德华演唱歌曲冰雨”，其上位概念为“歌手”。

步骤409，分别确定目标文本以及各参考文本的第一嵌入向量和第二嵌入向量。

执行主体还可以确定目标文本以及各参考文本的第一嵌入向量和第二嵌入向量。第一嵌入向量和第二嵌入向量可以为通过不同方式得到的嵌入向量。例如第一嵌入向量可以为通过LM得到的嵌入向量，第二嵌入向量可以为通过Bi-LSTM得到的嵌入向量。

在本实施例的一些可选的实现方式中，执行主体可以通过以下步骤来实现上述步骤409。

步骤4091，分别确定目标文本以及各参考文本的词嵌入向量和字嵌入向量。

本实现方式中，执行主体可以首先确定目标文本以及各参考文本的词嵌入向量和字嵌入向量。词嵌入向量中包括文本中各个词语的嵌入向量，字嵌入向量中包括文本中各个字的嵌入向量。具体的，执行主体可以通过预先训练的词嵌入向量确定模型，确定词嵌入向量。同样的，执行主体也可以通过预先训练的字嵌入向量确定模型，确定字嵌入向量。上述词嵌入向量确定模型可以为Word2vec，上述字嵌入向量确定模型可以为char2vec。具体的，执行主体可以分别将目标文本和各参考文本输入Word2vec、char2vec中，得到词嵌入向量和字嵌入向量。

步骤4092，根据目标文本的词嵌入向量、字嵌入向量以及第一预设向量确定模型，确定目标文本的第一嵌入向量。

执行主体可以将目标文本的词嵌入向量、字嵌入向量输入第一预设向量确定模型，确定目标文本的第一嵌入向量。上述第一预设向量确定模型可以为Bi-LSTM。

步骤4092，根据目标文本以及第二预设向量确定模型，确定目标文本的第二嵌入向量。

执行主体还可以根据目标文本以及第二预设向量确定模型，确定目标文本的第二嵌入向量。上述第二预设向量确定模型可以为LM。

步骤4093，对于每个参考文本，根据该参考文本的词嵌入向量、字嵌入向量以及第一预设向量确定模型，确定该参考文本的第一嵌入向量；根据该参考文本以及第二预设向量确定模型，确定该参考文本的第二嵌入向量。

同样的，对于每个参考文本，执行主体可以将该参考文本的词嵌入向量、字嵌入向量输入第一预设向量确定模型，得到该参考文本的第一嵌入向量。可以将该参考文本输入第二预设向量确定模型，得到该参考文本的第二嵌入向量。

步骤410，根据目标文本的第一嵌入向量和第二嵌入向量、各参考文本的第一嵌入向量和第二嵌入向量、各附加特征信息，确定实体链指结果。

执行主体在得到目标文本和各参考文本的第一嵌入向量和第二嵌入向量后，以及各候选实体的附加特征信息后，可以确定实体链指结果。这里实体链指结果是指目标文本中的实体提及与候选实体的链指关系。具体的，执行主体可以拼接目标文本的第一嵌入向量和第二嵌入向量，拼接各参考文本的第一嵌入向量和第二嵌入向量以及对应的附加特征信息。将拼接后的信息输入分类层，得到实体链指结果。

在本实施例的一些可选的实现方式中，执行主体可以对得到的多个第一嵌入向量和第二嵌入向量分别池化，以降低各第一嵌入向量和第二嵌入向量的维数。

在本实施例的一些可选的实现方式中，执行主体可以通过以下步骤来实现步骤410。

步骤4101，对于每个参考文本，拼接该参考文本的第一嵌入向量、第二嵌入向量和该参考文本对应的候选实体的附加特征信息，得到第一拼接向量。

本实现方式中，由于候选实体与附加特征信息之间存在对应关系，候选实体与参考文本之间也存在对应关系。那么附加特征信息与参考文本之间也存在对应关系。对于每个参考文本，执行主体将该参考文本的第一嵌入向量、第二嵌入向量以及对应的附加特征信息进行拼接，得到第一拼接向量。也就是说，每个候选实体都可以得到第一拼接向量。

步骤4102，拼接目标文本的第一嵌入向量、第二嵌入向量和各第一拼接向量，得到第二拼接向量。

在得到各候选实体的第一拼接向量后，对于目标文本，执行主体可以将其第一嵌入向量、第二嵌入向量进行拼接后与各第一拼接向量进行再次拼接，得到第二拼接向量。

步骤4103，根据各第一拼接向量、第二拼接向量以及预设的分类模型，确定各候选实体与实体提及链指的概率。

执行主体在得到各第一拼接向量、第二拼接向量后，可以将各第一拼接向量、第二拼接向量输入预设的分类模型，得到分类结果，上述分类结果就表示目标文本中的实体提及与各候选实体之间的链指关系。上述分类模型可以是神经网络中的一个数据处理层，例如softmax层。

在具体应用中，执行主体可以利用图7中的实体消歧网络来对识别出的实体提及进行消歧。在图7中，网络可以包括多个LM和Bi-LSTM。对于目标文本，可以将其分别输入到LM中，得到目标文本的第一嵌入向量。然后将目标文本的词嵌入向量和字嵌入向量输入Bi-LSTM中，得到目标文本的第二嵌入向量。同样的，对于各参考文本，执行主体可以将参考文本输入到LM中，得到参考文本的第一嵌入向量。然后将参考文本的词嵌入向量和字嵌入向量输入Bi-LSTM中，得到参考文本的第二嵌入向量。

对参考文本的第一嵌入向量和第二嵌入向量进行池化后，可以将池化后的第一嵌入向量和第二嵌入向量进行拼接，然后将参考文本对应的候选实体的附加特征信息拼接在上述拼接后的向量中，得到第一拼接向量。执行主体对目标文本的第一嵌入向量和第二嵌入向量进行池化后，可以将池化后的第一嵌入向量和第二嵌入向量进行拼接。然后将各第一拼接向量拼接在池化后的第一嵌入向量和第二嵌入向量后，得到第二拼接向量。

执行主体还可以分别将各第一拼接向量和第二拼接向量输入Dropout层，Dropout层可以将网络中的神经单元按一定的比例丢弃。以防止过拟合。然后进入Dense层，Dense层是一个全连接层，其作用在于将局部特征通过权值矩阵连接起来。最后，可以将Dense层输出的信息输入softmax多分类层。softmax多分类层输出的是一个介于0和1之间的值，用于表示各候选实体与实体提及之间关联的概率。根据上述概率，得到实体提及与各候选实体的链指关系。

本申请的上述实施例提供的实体链指方法，通过实体识别网络和实体消歧网络，实现了端到端的实体链指。并且，在实体识别和实体消歧过程中都引入了外部知识，提高了外部知识的驱动作用，提高了实体链指的准确率。

在本实施例的一些可选的实现方式中，图5中所示的实体识别网络和图7中所示的实体消歧网络可以联合训练，即将实体识别网络和实体消歧网络的损失函数相加，进行训练，在训练过程中优化网络参数。这样可以实现端到端的训练。

进一步参考图8，作为对上述各图所示方法的实现，本申请提供了一种用于输出信息的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图8所示，本实施例的实体链指装置800包括：目标文本获取单元801、实体提及确定单元802、候选实体确定单元803、附加信息确定单元804和实体链指确定单元805。

目标文本获取单元801，被配置成获取目标文本。

实体提及确定单元802，被配置成确定目标文本中包括的至少一个实体提及。

候选实体确定单元803，被配置成根据预设的知识库，确定各实体提及对应的候选实体。

附加信息确定单元804，被配置成确定各候选实体的参考文本以及确定各候选实体的附加特征信息。

实体链指确定单元805，被配置成基于目标文本、各参考文本以及各附加特征信息，确定实体链指结果。

在本实施例的一些可选的实现方式中，实体提及确定单元802可以进一步包括图8中未示出的：向量确定模块、向量融合模块和实体提及确定模块。

向量确定模块，被配置成确定目标文本的文本嵌入向量以及相关特征向量。

向量融合模块，被配置成融合文本嵌入向量以及相关特征向量，得到融合向量。

实体提及确定模块，被配置成根据融合向量，确定至少一个实体提及。

在本实施例的一些可选的实现方式中，实体提及确定模块可以进一步被配置成：对融合向量进行注意力增强，得到增强向量；对增强向量进行两次分类，分别得到各实体提及的首位置和尾位置；根据得到的首位置和尾位置，确定各实体提及。

在本实施例的一些可选的实现方式中，附加信息确定单元804可以进一步包括图8中未示出的参考文本确定模块，被配置成：对于每个候选实体，获取该候选实体的至少一项描述文本；对各项描述文本进行拼接，得到该候选实体的参考文本。

在本实施例的一些可选的实现方式中，附加特征信息包括实体嵌入向量。附加信息确定单元804可以进一步包括图8中未示出的实体嵌入向量确定模块，被配置成：对于每个候选实体，获取该候选实体的描述信息；获取与该候选实体相关的三元组序列；根据该候选实体、描述信息、三元组序列以及预先训练的向量确定模型，确定该候选实体的实体嵌入向量。

在本实施例的一些可选的实现方式中，附加特征信息包括至少一个上位概念和各上位概念对应的概率。附加信息确定单元804可以进一步包括图8中未示出的概念预测模块，被配置成：对于每个候选实体，根据该候选实体以及预设的概念预测模型，确定该候选实体的至少一个上位概念和各上位概念对应的概率，得到概率序列。

在本实施例的一些可选的实现方式中，实体链指确定单元805可以进一步包括图8中未示出的：嵌入向量确定模块和实体链指确定模块。

嵌入向量确定模块，被配置成分别确定目标文本以及各参考文本的第一嵌入向量和第二嵌入向量。

实体链指确定模块，被配置成根据目标文本的第一嵌入向量和第二嵌入向量、各参考文本的第一嵌入向量和第二嵌入向量、各附加特征信息，确定实体链指结果。

在本实施例的一些可选的实现方式中，上述嵌入向量确定模块进一步被配置成：分别确定目标文本以及各参考文本的词嵌入向量和字嵌入向量；根据目标文本的词嵌入向量、字嵌入向量以及第一预设向量确定模型，确定目标文本的第一嵌入向量；根据目标文本以及第二预设向量确定模型，确定目标文本的第二嵌入向量；对于每个参考文本，根据该参考文本的词嵌入向量、字嵌入向量以及所述第一预设向量确定模型，确定该参考文本的第一嵌入向量；根据该参考文本以及第二预设向量确定模型，确定该参考文本的第二嵌入向量。

在本实施例的一些可选的实现方式中，实体链指确定模块进一步被配置成：对于每个参考文本，拼接该参考文本的第一嵌入向量、第二嵌入向量和该参考文本对应的候选实体的附加特征信息，得到第一拼接向量；拼接所述目标文本的第一嵌入向量、第二嵌入向量和各第一拼接向量，得到第二拼接向量；根据各第一拼接向量、第二拼接向量以及预设的分类模型，确定各候选实体与所述实体提及链指的概率。

应当理解，实体链指装置800中记载的单元801至单元805分别与参考图2中描述的方法中的各个步骤相对应。由此，上文针对实体链指方法描述的操作和特征同样适用于装置800及其中包含的单元，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图9所示，是根据本申请实施例的执行实体链指方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的执行实体链指方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的执行实体链指方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的执行实体链指方法对应的程序指令/模块(例如，附图8所示的目标文本获取单元801、实体提及确定单元802、候选实体确定单元803、附加信息确定单元804和实体链指确定单元805)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的执行实体链指方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据执行用于输出信息的电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至执行用于输出信息的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

执行实体链指方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与执行用于输出信息的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过在预训练和微调过程中引入参考文本，可以提高语言模型对外部知识的学习能力，提高对输入文本理解的正确率；通过对输入文本和参考文本进行标记，避免引入噪声或者对输入文本进行稀释。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种实体链指方法，包括：

获取目标文本；

确定所述目标文本中包括的至少一个实体提及；

根据预设的知识库，确定各所述实体提及对应的候选实体；

确定各所述候选实体的参考文本以及确定各所述候选实体的附加特征信息；

基于所述目标文本、各所述参考文本以及各所述附加特征信息，确定实体链指结果；

其中，所述附加特征信息包括至少一个上位概念和各上位概念对应的概率；以及

所述确定各所述候选实体的附加特征信息，包括：

对于每个候选实体，根据该候选实体以及预设的概念预测模型，确定该候选实体的至少一个上位概念和各上位概念对应的概率，得到概率序列。

2.根据权利要求1所述的方法，其中，所述确定所述目标文本中包括的至少一个实体提及，包括：

确定所述目标文本的文本嵌入向量以及相关特征向量；

融合所述文本嵌入向量以及所述相关特征向量，得到融合向量；

根据所述融合向量，确定所述至少一个实体提及。

3.根据权利要求2所述的方法，其中，所述根据所述融合向量，确定所述至少一个实体提及，包括：

对所述融合向量进行注意力增强，得到增强向量；

对所述增强向量进行两次分类，分别得到各实体提及的首位置和尾位置；

根据得到的首位置和尾位置，确定各实体提及。

4.根据权利要求1所述的方法，其中，所述确定各所述候选实体的参考文本，包括：

对于每个候选实体，获取该候选实体的至少一项描述文本；对各项描述文本进行拼接，得到该候选实体的参考文本。

5.根据权利要求1所述的方法，其中，所述附加特征信息包括实体嵌入向量；以及

所述确定各所述候选实体的附加特征信息，包括：

对于每个候选实体，获取该候选实体的描述信息；

获取与该候选实体相关的三元组序列；

根据该候选实体、所述描述信息、所述三元组序列以及预先训练的向量确定模型，确定该候选实体的实体嵌入向量。

6.根据权利要求1所述的方法，其中，所述基于所述目标文本、各所述参考文本以及各所述附加特征信息，确定实体链指结果，包括：

分别确定所述目标文本以及各所述参考文本的第一嵌入向量和第二嵌入向量；

根据所述目标文本的第一嵌入向量和第二嵌入向量、各所述参考文本的第一嵌入向量和第二嵌入向量、各所述附加特征信息，确定实体链指结果。

7.根据权利要求6所述的方法，其中，所述分别确定所述目标文本以及各所述参考文本的第一嵌入向量和第二嵌入向量，包括：

分别确定所述目标文本以及各所述参考文本的词嵌入向量和字嵌入向量；

根据所述目标文本的词嵌入向量、字嵌入向量以及第一预设向量确定模型，确定所述目标文本的第一嵌入向量；

根据所述目标文本以及第二预设向量确定模型，确定所述目标文本的第二嵌入向量；

对于每个参考文本，根据该参考文本的词嵌入向量、字嵌入向量以及所述第一预设向量确定模型，确定该参考文本的第一嵌入向量；根据该参考文本以及所述第二预设向量确定模型，确定该参考文本的第二嵌入向量。

8.根据权利要求6所述的方法，其中，所述根据所述目标文本的第一嵌入向量和第二嵌入向量、各所述参考文本的第一嵌入向量和第二嵌入向量、各所述附加特征信息，确定实体链指结果，包括：

对于每个参考文本，拼接该参考文本的第一嵌入向量、第二嵌入向量和该参考文本对应的候选实体的附加特征信息，得到第一拼接向量；

拼接所述目标文本的第一嵌入向量、第二嵌入向量和各第一拼接向量，得到第二拼接向量；

根据各所述第一拼接向量、所述第二拼接向量以及预设的分类模型，确定各所述候选实体与所述实体提及链指的概率。

9.一种实体链指装置，包括：

目标文本获取单元，被配置成获取目标文本；

实体提及确定单元，被配置成确定所述目标文本中包括的至少一个实体提及；

候选实体确定单元，被配置成根据预设的知识库，确定各所述实体提及对应的候选实体；

附加信息确定单元，被配置成确定各所述候选实体的参考文本以及确定各所述候选实体的附加特征信息；

实体链指确定单元，被配置成基于所述目标文本、各所述参考文本以及各所述附加特征信息，确定实体链指结果；

所述附加信息确定单元包括概念预测模块，被配置成：

10.根据权利要求9所述的装置，其中，所述实体提及确定单元包括：

向量确定模块，被配置成确定所述目标文本的文本嵌入向量以及相关特征向量；

向量融合模块，被配置成融合所述文本嵌入向量以及所述相关特征向量，得到融合向量；

实体提及确定模块，被配置成根据所述融合向量，确定所述至少一个实体提及。

11.根据权利要求10所述的装置，其中，所述实体提及确定模块进一步被配置成：

对所述融合向量进行注意力增强，得到增强向量；

根据得到的首位置和尾位置，确定各实体提及。

12.根据权利要求9所述的装置，其中，所述附加信息确定单元包括参考文本确定模块，被配置成：

13.根据权利要求9所述的装置，其中，所述附加特征信息包括实体嵌入向量；以及

所述附加信息确定单元包括实体嵌入向量确定模块，被配置成：

对于每个候选实体，获取该候选实体的描述信息；

获取与该候选实体相关的三元组序列；

14.根据权利要求9所述的装置，其中，所述实体链指确定单元包括：

嵌入向量确定模块，被配置成分别确定所述目标文本以及各所述参考文本的第一嵌入向量和第二嵌入向量；

实体链指确定模块，被配置成根据所述目标文本的第一嵌入向量和第二嵌入向量、各所述参考文本的第一嵌入向量和第二嵌入向量、各所述附加特征信息，确定实体链指结果。

15.根据权利要求14所述的装置，其中，所述嵌入向量确定模块进一步被配置成：

16.根据权利要求14所述的装置，其中，所述实体链指确定模块进一步被配置成：

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。