CN110795527A

CN110795527A - 候选实体排序方法、训练方法及相关装置

Info

Publication number: CN110795527A
Application number: CN201910830007.9A
Authority: CN
Inventors: 张金晶; 泮华杰; 门睿; 宁潇; 周萱; 杨璧嘉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2020-02-14
Anticipated expiration: 2039-09-03
Also published as: CN110795527B

Abstract

本申请实施例公开了一种候选实体排序方法、训练方法及相关装置，该候选实体排序方法可包括：将第一句子向量和第二句子向量中相对应的元素相乘以得到第一特征向量；所述第一句子向量是处理实体指称项文本得到的句子向量，所述第二句子向量为处理目标候选实体得到的句子向量，所述实体指称项文本为包括所述实体指称项的文本；将所述第一句子向量和所述第二句子向量中相对应的元素相减以得到第二特征向量；根据所述第一特征向量和所述第二特征向量，确定所述目标候选实体与所述实体指称项之间的相似度；对所述候选实体集中的各候选实体进行排序；候选实体排序的准确率和召回率较高。

Description

候选实体排序方法、训练方法及相关装置

技术领域

本申请涉及信息检索领域，尤其涉及一种候选实体排序方法、训练方法及相关装置。

背景技术

实体链接是指将文本中的实体指称链向知识库实体的过程，它能够丰富文本语义信息，在自然语言处理、信息检索等领域有着广泛的应用前景。实体链接的研究主要分两大块：候选集合的生成(即候选生成)和对候选集合的消岐(即候选排序)。

候选实体排序方法主要有基于流行度的候选实体排序、基于上下文相关性的候选实体排序和基于有监督学习的候选实体排序。基于实体流行度的候选实体方法的缺点在于没有考虑上下文。这就使得无论查询名称的上下文是什么，这种方法都会给出一样的答案，而当目标实体不是最流行实体时就会出错。传统的基于上下文相关性和监督学习的方案只能在有限的训练样本中对后续集进行分类排序，排序的准确率和召回率都较低。因此，需要研究排序的准确率和召回率较高的候选实体排序方法。

发明内容

本申请实施例公开了一种候选实体排序方法、训练方法及相关装置，排序的准确率和召回率较高。

第一方面，本申请实施例提供了一种候选实体排序方法，该方法可包括：将第一句子向量和第二句子向量中相对应的元素相乘以得到第一特征向量；所述第一句子向量是处理实体指称项文本得到的句子向量，所述第二句子向量为处理目标候选实体得到的句子向量，所述目标候选实体为实体指称项的候选实体集中的任一候选实体，所述第一句子向量和所述第二句子向量中的元素一一对应，所述实体指称项文本为所述实体指称项所在的文本；

将所述第一句子向量和所述第二句子向量中相对应的元素相减以得到第二特征向量；

根据所述第一特征向量和所述第二特征向量，确定所述目标候选实体与所述实体指称项之间的相似度；

对所述候选实体集中的各候选实体进行排序；其中，所述候选实体集中的各候选实体的排序和所述各候选实体与所述实体指称项之间的相似度正相关。

本申请实施例中，通过第一特征向量和第二特征向量可以准确地确定目标候选实体与实体指称项之间的相似度，进而准确地对该目标候选实体进行排序。

在一个可选的实现方式中，所述根据所述第一特征向量和所述第二特征向量，确定所述目标候选实体与所述实体指称项之间的相似度包括：

将所述第一特征向量输入至训练得到的目标神经网络的全连接层进行处理得到第三特征向量以及将所述第二特征向量输入至所述全连接层进行处理得到第四特征向量；

计算所述第三特征向量和所述第四特征向量的相似度，得到所述目标候选实体与所述实体指称项之间的相似度。

在该实现方式中，利用训练得到的目标神经网络的全连接层分别对第一特征向量和第二特征向量进行处理以得到第三特征向量和第三特征向量，再计算该第三特征向量和该第四特征向量的相似度作为目标候选实体与实体指称项之间的相似度；可以准确地计算出目标候选实体与实体指称项之间的相似度。可选的，计算所述第三特征向量和所述第四特征向量的相似度可以是计算所述第三特征向量和所述第四特征向量之间的欧几里得距离。

在一个可选的实现方式中，所述目标神经网络包括深度神经网络和所述全连接层，所述深度神经网络用于对输入的词向量矩阵进行特征提取以输出句子向量。

该深度神经网络可以是BERT模型(Bidirectional Encoder Representationfrom Transformers)。该目标神经网络可以是微调BERT模型得到的深度神经网络，即在BERT模型的基础上增加全连接层。利用BERT模型对输入的词向量矩阵进行特征提取，可以抽象出更多的特征表述以得到文本的向量化表示(即句子向量)。

在该实现方式中，通过深度神经网络对输入的词向量矩阵进行特征提取，得到的句子向量包括文本上下文相关语义，通过该句子向量可以更准确地计算实体指称项与候选实体之间的相似度。

在一个可选的实现方式中，所述将第一句子向量和第二句子向量中相对应的元素相乘以得到第一特征向量之前，所述方法还包括：

获得用于表征所述实体指称项文本的第一输入词向量矩阵；

将所述第一输入词向量矩阵输入至所述深度神经网络进行处理，得到所述第一句子向量；其中，所述深度神经网络包括多层双向变换器，所述多层双向变换器用于对所述第一输入词向量矩阵进行特征提取以得到所述第一句子向量。

在该实现方式中，通过深度神经网络对输入的词向量矩阵进行特征提取，可以得到包括文本上下文相关语义的句子向量。

获得用于表征所述目标候选实体的第二输入词向量矩阵；

将所述第二输入词向量矩阵输入至所述深度神经网络进行处理，得到所述第二句子向量；其中，所述多层双向变换器用于对所述第二输入词向量矩阵进行特征提取以得到所述第二句子向量。

在一个可选的实现方式中，所述获得用于表征所述实体指称项文本的第一输入词向量矩阵包括：

对所述实体指称项文体做分词，得到至少一个分词；

利用所述至少一个分词中每个分词对应的词向量构建所述第一输入词向量矩阵。

第二方面，本申请实施例提供了一种训练方法，该方法可包括：利用第一训练数据训练初始化的深度神经网络，得到目标深度神经网络；所述目标深度神经网络用于对输入的词向量矩阵进行特征提取以输出句子向量；所述目标深度神经网络为参考神经网络的一部分，所述参考神经网络还包括全连接层；

利用第二训练数据训练所述参考神经网络，得到目标神经网络；所述全连接层用于对输入的句子向量进行处理；所述目标神经网络用于预测候选实体与实体指称项文本之间的相似度。

本申请实施例中，使用第一训练数据和第二训练数据先后训练参考神经网络中的深度神经网络和全连接层，以便于训练得到的目标深度神经网络可以准确地预测实体指称项和候选实体之间的相似度。

在一个可选的实现方式中，所述第二训练数据包括用于表征目标实体指称项文本的第一输入词向量矩阵和用于表征目标候选实体的第二输入词向量矩阵；所述利用第二训练数据训练所述参考神经网络，得到目标神经网络包括：

将所述第一输入词向量矩阵输入至所述目标深度神经网络，得到第一句子向量；

将所述第二输入词向量矩阵输入至所述目标深度神经网络，得到第二句子向量；所述第一句子向量和所述第二句子向量中的元素一一对应；

将所述第一句子向量和所述第二句子向量中相对应的元素相乘以得到第一特征向量；

将所述第一特征向量输入至所述全连接层进行处理得到第三特征向量以及将所述第二特征向量输入至所述全连接层进行处理得到第四特征向量；

计算所述第三特征向量和所述第四特征向量的相似度，得到所述目标候选实体与所述目标实体指称项文本之间的参考相似度；

根据所述参考相似度和真实相似度之间的损失值，更新所述全连接层的参数；所述真实相似度为所述目标候选实体与所述目标实体指称项文本之间真实的相似度。

在该实现方式中，利用参考相似度和真实相似度之间的损失值，更新全连接层的参数；可以快速地训练得到能够准确地预测实体指称项和候选实体之间的相似度的目标神经网络。

第三方面，本申请实施例提供了一种候选实体排序装置，该装置可包括：处理单元，用于将第一句子向量和第二句子向量中相对应的元素相乘以得到第一特征向量；所述第一句子向量是处理实体指称项文本得到的句子向量，所述第二句子向量为处理目标候选实体得到的句子向量，所述目标候选实体为实体指称项的候选实体集中的任一候选实体，所述第一句子向量和所述第二句子向量中的元素一一对应，所述实体指称项文本为所述实体指称项所在的文本；

所述处理单元，还用于将所述第一句子向量和所述第二句子向量中相对应的元素相减以得到第二特征向量；

确定单元，用于根据所述第一特征向量和所述第二特征向量，确定所述目标候选实体与所述实体指称项之间的相似度；

排序单元，用于对所述候选实体集中的各候选实体进行排序；其中，所述候选实体集中的各候选实体的排序和所述各候选实体与所述实体指称项之间的相似度正相关。

在一个可选的实现方式中，所述确定单元，具体用于将所述第一特征向量输入至训练得到的目标神经网络的全连接层进行处理得到第三特征向量以及将所述第二特征向量输入至所述全连接层进行处理得到第四特征向量；

在一个可选的实现方式中，所述装置还包括：

获取单元，用于获得用于表征所述实体指称项文本的第一输入词向量矩阵；

所述处理单元，还用于将所述第一输入词向量矩阵输入至所述深度神经网络进行处理，得到所述第一句子向量；其中，所述深度神经网络包括多层双向变换器，所述多层双向变换器用于对所述第一输入词向量矩阵进行特征提取以得到所述第一句子向量。

在一个可选的实现方式中，所述装置还包括：

获取单元，用于获得用于表征所述目标候选实体的第二输入词向量矩阵；

所述处理单元，还用于将所述第二输入词向量矩阵输入至所述深度神经网络进行处理，得到所述第二句子向量；其中，所述多层双向变换器用于对所述第二输入词向量矩阵进行特征提取以得到所述第二句子向量。

在一个可选的实现方式中，所述获取单元，具体用于对所述实体指称项文体做分词，得到至少一个分词；

第四方面，本申请实施例提供了一种训练装置，该装置可包括：第一训练单元，用于利用第一训练数据训练初始化的深度神经网络，得到目标深度神经网络；所述目标深度神经网络用于对输入的词向量矩阵进行特征提取以输出句子向量；所述目标深度神经网络为参考神经网络的一部分，所述参考神经网络还包括全连接层；

第二训练单元，用于利用第二训练数据训练所述参考神经网络，得到目标神经网络；所述全连接层用于对输入的句子向量进行处理；所述目标神经网络用于预测候选实体与实体指称项文本之间的相似度。

在一个可选的实现方式中，所述第二训练数据包括用于表征目标实体指称项文本的第一输入词向量矩阵和用于表征目标候选实体的第二输入词向量矩阵；

所述第二训练单元，具体用于将所述第一输入词向量矩阵输入至所述目标深度神经网络，得到第一句子向量；

第五方面本申请实施例提供了又一种数据处理设备，该数据处理设备包括：处理器、存储器、输入设备以及输出设备，该存储器用于存储代码；该处理器通过读取该存储器中存储的该代码以用于执行第一方面或上述第二方面提供的方法，该输入设备用于获得待处理的自然语言文本，该输出设备用于输出处理器处理该自然语言文本得到的目标结果。

第六方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面或上述第二方面方法。

第七方面本申请实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如上述第一方面或上述第二方面方法。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1为本申请实施例提供的目标神经网络的应用场景的示意图；

图2为本申请实施例提供的一种候选实体排序方法流程图；

图3为本申请实施例提供的一种目标神经网络的结构示意图；

图4为本申请实施例提供的另一种候选实体排序方法流程图；

图5为本申请实施例提供的一种训练方法流程图；

图6为本申请实施例提供的一种候选实体排序装置；

图7为本申请实施例提供的一种训练装置；

图8为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行描述。

为了使本技术领域的人员更好地理解本申请实施例方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。

本申请的说明书实施例和权利要求书及上述附图中的术语“第一”、“第二”、和“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。“和/或”用于表示在其所连接的两个对象之间选择一个或全部。

本申请实施例提供了候选实体排序方法、训练方法及相关装置。为更清楚的描述本申请的方案，下面先介绍一些与本申请中的候选实体排序方法相关的背景知识。

兴趣点(Point of Interest，POI)是现实世界的一个位置点，具有名称、地址、坐标等基础属性。

BERT模型(Bidirectional Encoder Representation from Transformers)是谷歌人工智能(Artificial Intelligence，AI)团队发布于2018年10月的BERT预训练模型，被认为是自然语言处理(Natural Language Processing，NLP)领域的极大突破，刷新了11个NLP任务的当前最优结果。其对GPT语言模型做了进一步的改进，通过左、右两侧上下文来预测当前词和通过当前句子预测下一个句子，预训练的BERT表征可以仅用一个额外的输出层进行微调，在不对任务特定架构做出大量修改条件下，就可以为很多任务创建当前最优模型。

在数学，尤其是概率论和相关领域中，Softmax函数，或称归一化指数函数，是逻辑函数的一种推广。它能将一个含任意实数的K维向量“压缩”到另一个K维实向量中，使得每一个元素的范围都在之间，并且所有元素的和为1。Softmax函数实际上是有限项离散概率分布的梯度对数归一化。因此，Softmax函数在包括多项逻辑回归，多项线性判别分析，朴素贝叶斯分类器和人工神经网络等的多种基于概率的多分类问题方法中都有着广泛应用。

实体链接是指将文本中的实体指称项(即POI)链向知识库实体的过程，它能够丰富文本语义信息，在自然语言处理、信息检索等领域有着广泛的应用前景。实体链接的一般过程如下：从实体指称项文本(例如用户输入的文本)中提取POI；从知识库中获取该POI的候选实体集，即生成该POI的候选实体集；计算该实体指称项文本与该候选实体集中各候选实体之间的语义相似度；按照各候选实体与该实体指称项文本的语义相似度的高低顺序对该候选实体集中的各候选实体进行排序；将该POI(实体指称项)链向该知识库中的候选实体。可见，实体链接的研究主要分两大块：候选实体集的生成(即候选实体生成)和对候选实体集的消岐(即候选实体排序)。本申请研究的重点在于候选实体排序，这里不再详述候选实体生成以及识别文本得到POI的方式。

实体链接的关键问题是实体指称项文本与候选实体之间语义相似度的计算。传统的基于词袋子模型的相似度计算方法仅仅考虑实体指称项与候选实体的文本表层特征，不能捕捉到存在于文本内部的语义信息。另外，采用基于流行度的候选实体排序、基于上下文相关性的候选实体排序、基于有监督学习的候选实体排序等方法进行排序的准确率和招回率都较低。因此，需要研究排序的准确率和召回率较高的候选实体排序方法。由于通常采用的候选实体排序方式是按照各候选实体与实体指称项文本的语义相似度的高低顺序对候选实体集中的各候选实体进行排序。可以理解，如果能够准确地计算出实体指称项文本与候选实体之间语义相似度的计算，那么就能准确地对各候选实体进行排序，这样排序的准确率和召回率自然较高。下面来介绍本申请实施例提供的候选实体排序方法。

图1为本申请实施例提供的目标神经网络的应用场景的示意图。

如图1所示，本申请实施例的候选实体排序方法可以应用于自然语言处理系统。自然语言处理系统配置有服务器100和客户端集群。该客户端集群可以包括多个客户端。如图1所示，客户端集群包括客终端1、客户端2以及客户端3。如图1所示，客户端1、客终端2以及客户端3可以通过通信网络与服务器进行数据通信。在本申请的一个实施例中，服务器100可以配置有目标神经网络(即神经网络模型)，用于执行诸如信息检索的自然语言处理任务。该目标神经网络为预先训练得到的网络，可用于计算实体指称项文本与候选实体集中各候选实体之间的语义相似度，并对各候选实体进行排序。在一些实施例中，用户可通过客户端(例如手机)输入源语言数据(例如实体指称项文本)，通过通信网络将输入的源语言数据传输到服务器100；服务器100利用目标神经网络对输入源语言数据执行诸如信息检索的自然语言处理，将作为自然语言处理结果的检索结果通过通信网络返回给客户端，并且客户端的用户界面上给用户提供源语言数据和检索结果的可视化呈现。举例来说，用户使用客户端搜索某个地点，该客户端将该用户输入的文本发送给服务器，该服务器搜索该地点相关的信息并发送给该客户端，该客户端呈现该地点相关的信息。

可替代地，在本申请的另一个实施例中，客户端本身可以配置有目标神经网络，用于执行诸如信息检索的自然语言处理任务。用户可经由客户端的用户界面输入源语言数据，客户端利用目标神经网络对输入源语言数据执行诸如信息检索的自然语言处理，再将作为自然语言处理结果的检索结果经由用客户端的用户界面进行可视化呈现。

需要理解的是，服务器100包括但不限于配置有大数据处理能力和大容量数据存储能力的服务器装置，诸如搜索引擎服务器、内容提供服务器等。客户端包括但不限于笔记本计算机、台式计算机、智能电话、平板电脑等具有数据处理能力的移动终端或者固定终端。通信网络包括但不限于遵循诸如传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)和/或文件传输协议(FTP)配置的互联网、IPTV网络、无线保真(Wi-Fi)网络、无线局域网(WLAN)、局域网(LAN)和/或城域网(MAN)等。

图2为本申请实施例提供的一种候选实体排序方法流程图，该方法可包括：

201、候选实体排序装置将第一句子向量和第二句子向量中相对应的元素相乘以得到第一特征向量。

该候选实体排序装置可以是服务器，也可以是笔记本计算机、台式计算机、智能电话、平板电脑等具有数据处理能力的移动终端或者固定终端。该第一句子向量是处理实体指称项文本得到的句子向量，该第二句子向量为处理目标候选实体得到的句子向量，该目标候选实体为实体指称项的候选实体集中的任一候选实体，该第一句子向量和该第二句子向量中的元素一一对应，该实体指称项文本为包括该实体指称项的文本。举例来说，第一句子向量和第二句子向量均为1536×64的二维向量，每个元素为0到1之间的实数。

在一个可选的实现方式中，候选实体排序装置在执行步骤201之前，可采用如下操作获得该第一句子向量：获得用于表征该实体指称项文本的第一输入词向量矩阵；将该第一输入词向量矩阵输入至深度神经网络进行处理，得到该第一句子向量(即sentenceembedding)。其中，该深度神经网络包括多层双向变换器(即transformer)，该多层双向变换器用于对该第一输入词向量矩阵进行特征提取以得到该第一句子向量。可选的，深度神经网络为训练预训练深度神经网络(例如BERT)得到的。示例性的，深度神经网络为使用500W篇新闻类语料数据输入BERT进行训练得到的。可选的，候选实体排序装置可以采用如下方式处理实体指称项文本以得到第一输入词向量矩阵：对该实体指称项文体做分词，得到至少一个分词；利用该至少一个分词中每个分词对应的词向量构建该第一输入词向量矩阵。举例来说，候选实体排序装置对一个实体指称项文体做分词得到10个词语，则利用这10个词语中每个分词对应的词向量(例如包括128个元素的一维向量)构建一个输入词向量矩阵；其中，每个词向量对应该输入词向量矩阵的一行或一列，该输入词向量矩阵为一个10×128的二维矩阵。对于本领域技术人员来说，将文本转换为输入词向量(也称输入词向量矩阵)以及训练BERT均是常用的技术手段，这里不再详述。在实际应用中，深度神经网络可通过多层双向变换器从该第一输入词向量抽象出更多特征表述，得到语句的的向量化表示(即该第一句子向量)。

在一个可选的实现方式中，候选实体排序装置在执行步骤201之前，可采用如下操作获得该第一句子向量：获得用于表征该目标候选实体的第二输入词向量矩阵；将该第二输入词向量矩阵输入至该深度神经网络进行处理，得到该第二句子向量；其中，该多层双向变换器用于对该第二输入词向量矩阵进行特征提取以得到该第二句子向量。可以理解，候选实体排序装置可采用相同的方式处理实体指称项文体以及候选实体集中的各候选实体。可选的，候选实体排序装置可以采用如下方式处理目标候选实体以得到第二输入词向量矩阵：对该目标候选实体做分词，得到至少一个分词；利用该至少一个分词中每个分词对应的词向量构建该第二输入词向量矩阵。可以理解，构建第一输入词向量矩阵和构建第二输入词向量的方式类似。在实际应用中，深度神经网络可通过多层双向变换器从该第二输入词向量抽象出更多特征表述，得到语句的的向量化表示(即该第二句子向量)。

202、候选实体排序装置将第一句子向量和第二句子向量中相对应的元素相减以得到第二特征向量。

203、候选实体排序装置根据第一特征向量和第二特征向量，确定目标候选实体与实体指称项之间的相似度。

候选实体排序装置根据第一特征向量和第二特征向量，确定目标候选实体与实体指称项之间的相似度的实现方式可以如下：将该第一特征向量输入至训练得到的目标神经网络的全连接层进行处理得到第三特征向量以及将该第二特征向量输入至该全连接层进行处理得到第四特征向量；计算该第三特征向量和该第四特征向量的相似度，得到该目标候选实体与该实体指称项之间的相似度。该目标神经网络用于预测候选实体与实体指称项文本之间的相似度。本申请中的相似度均是指语义相似度。该目标神经网络包括深度神经网络和该全连接层，该深度神经网络用于对输入的词向量矩阵进行特征提取以输出句子向量。可选的，深度神经网络为对预训练深度神经网络(例如BERT)进行二次训练得到的。示例性的，深度神经网络为使用500W篇新闻类语料数据输入BERT进行二次训练得到的。图3为本申请实施例提供的一种目标神经网络的结构示意图。图3中，301表示深度神经网络，302表示池化层，303表示全连接层，304表示第一输入词向量矩阵，305表示第二输入词向量矩阵。其中，池化层是可选的，池化层的作用是对输入的数据进行降维达到减少计算量的目的。深度神经网络301可以是BERT，目标神经网络可以是对BERT进行微调(即对BERT一个额外的输出层进行微调)得到的，即在深度神经网络的输出层后面添加池化层以及全连接层得到的。

204、候选实体排序装置对候选实体集中的各候选实体进行排序。

该候选实体集中的各候选实体的排序和该各候选实体与该实体指称项之间的相似度正相关。候选实体排序装置在执行步骤204之前，可多次执行步骤201至步骤203以计算出候选实体集中各候选实体与实体指称项文本之间的语义相似度。

候选实体排序装置对候选实体集中的各候选实体进行排序可以是：按照各候选实体与实体指称项文本的语义相似度的高低顺序对该候选实体集中的各候选实体进行排序。

在实际应用中，候选实体排序装置可以通过从文本中将POI片段进行识别，之后再将其与知识库中的POI详细信息进行实体链接，最终得到了这个文本所表示的地理位置信息。本申请实施例提供的候选实体排序方法可以应用于QQ浏览器的搜索直达，微信搜一搜服务以及地图的周边文章推荐中。举例来说，用户通过微信搜一搜输入某个文本来搜索一个地点(即POI)，候选实体排序执行图2中的方法将该POI与知识库中的POI详细信息进行实体链接。可以理解，通过执行图2中的候选实体排序方法可以更准确向用户提供POI详细信息。

下面结合图3中的目标神经网络的结构来描述计算实体指称项文本和目标候选实体之间的语义相似度。图4为本申请实施例提供的另一种候选实体排序方法流程图，该方法可包括：

401、候选实体排序装置将第一输入词向量矩阵输入至深度神经网络301进行处理得到第一句子向量。

候选实体排序装置在执行步骤401之前，可将实体指称项文本转换为该第一句子向量。

402、候选实体排序装置将第二输入词向量矩阵输入至深度神经网络301进行处理得到第二句子向量。

候选实体排序装置可以并行执行步骤401和步骤402，也可以先执行步骤401再执行步骤402，也可以先执行步骤402再执行步骤401。候选实体排序装置在执行步骤402之前，可将目标候选实体转换为该第二句子向量。

403、候选实体排序装置将第一句子向量和第二句子向量中对应元素相乘以得到第一特征向量。

404、候选实体排序装置将第一句子向量和第二句子向量中对应元素相减以得到第二特征向量。

405、候选实体排序装置利用池化层302对第一特征向量进行最大池化操作，得到第一中间向量。

举例来说，第一特征向量为一个3072×128的二维矩阵，第一中间向量为对该二维矩阵进行最大池化得到的一个1536×64的二维矩阵。

406、候选实体排序装置利用池化层302对第二特征向量进行最大池化操作，得到第二中间向量。

候选实体排序装置可以并行执行步骤405和步骤406，也可以先执行步骤405再执行步骤406，也可以先执行步骤406再执行步骤405。举例来说，第二特征向量为一个3072×128的二维矩阵，第二中间向量为对该二维矩阵进行最大池化得到的一个1536×64的二维矩阵。

407、候选实体排序装置将第一中间向量输入全连接层303进行处理得到第三特征向量。

该第一中间向量和该第三特征向量的维度相同。

408、候选实体排序装置将第二中间向量输入全连接层303进行处理得到第四特征向量。

该第二中间向量和该第四特征向量的维度相同。

409、候选实体排序装置计算第三特征向量和第四特征向量的欧几里得矩阵，得到目标候选实体与实体指称项之间的相似度。

可以理解，候选实体排序装置可以多次执行步骤401至步骤409，每次可计算得到一个候选实体与实体指称项文本之间的语义相似度。

410、候选实体排序装置对候选实体集中的各候选实体进行排序。

本申请实施例中，通过深度神经网络得到的句子向量包括文本上下文相关语义，利用深度神经网络分别处理目标候选实体和实体指称项文本得到句子向量，可以更准确地计算目标候选实体和实体指称项文本之间的语义相似度，以便更准确地对各候选实体进行排序。

前述实施例描述了候选实体排序方法，在该方法中候选实体排序装置需要配置有目标神经网络。下面来描述如何训练得到该目标神经网络的方式。

图5为本申请实施例提供的一种训练方法流程图，该方法可包括：

501、训练装置利用第一训练数据训练初始化的深度神经网络，得到目标深度神经网络。

该训练装置可以是服务器，也可以是笔记本计算机、台式计算机、智能电话、平板电脑等具有数据处理能力的移动终端或者固定终端。该目标深度神经网络用于对输入的词向量矩阵进行特征提取以输出句子向量；该目标深度神经网络为参考神经网络的一部分，该参考神经网络还包括全连接层。该目标深度神经网络可以是图3中的深度神经网络301。可选的，该目标深度神经网络可以是利用第一训练数据训练BERT得到的网络。该第一训练数据可以是500W篇新闻类语料数据等无标记文本。对于本领域技术人员来说，使用训练数据训练BERT是常用的技术手段，这里不再详述。由于BERT的优越性能，使用第一训练数据进一步训练BERT得到的目标深度神经网络可以更好地从输入词向量抽象出更多的特征表述，得到语句的的向量化表示(即句子向量)。另外，该目标深度神经网络输出的句子向量可以包含文本的上下文相关语义，利用该目标深度神经网络输出的句子向量可以更准确地计算实体指称项和候选实体之间的语义相似度。

502、训练装置利用第二训练数据训练参考神经网络，得到目标神经网络。

该全连接层用于对输入的句子向量进行处理；该目标神经网络用于预测候选实体与实体指称项文本之间的相似度。该第二训练数据可以包括5W条人工标记数据，以及利用数据增强方式添加的10W条语料。每条人工标记数据均标记出了POI。该10W条语料可以是利用该5W条人工标记数据得到的，例如采用近义词、同义词替换的方式由一条人工标记数据得到另外两条人工标记数据。

在一个可选的实现方式中，该第二训练数据包括用于表征目标实体指称项文本的第一输入词向量矩阵和用于表征目标候选实体的第二输入词向量矩阵；训练装置利用第二训练数据训练该参考神经网络，得到目标神经网络可以如下：

将第一输入词向量矩阵输入至该目标深度神经网络，得到第一句子向量；

将该第二输入词向量矩阵输入至该目标深度神经网络，得到第二句子向量；该第一句子向量和该第二句子向量中的元素一一对应；

将该第一句子向量和该第二句子向量中相对应的元素相乘以得到第一特征向量；

将该第一句子向量和该第二句子向量中相对应的元素相减以得到第二特征向量；

将该第一特征向量输入至该全连接层进行处理得到第三特征向量以及将该第二特征向量输入至该全连接层进行处理得到第四特征向量；

计算该第三特征向量和该第四特征向量的相似度，得到该目标候选实体与该目标实体指称项文本之间的参考相似度；

根据该参考相似度和真实相似度之间的损失值，更新该全连接层的参数；该真实相似度为该目标候选实体与该目标实体指称项文本之间真实的相似度。

在一个实施例中，训练装置可以先使用第一训练数据训练初始化的深度神经网络(即BERT)，得到目标深度神经网络；然后，在该目标深度神经网络的输出层之后添加池化层以及全连接层得到参考神经网络；最后，利用第二训练数据训练参考神经网络，得到目标神经网络。

在另一实施例中，训练装置可以在初始化的深度神经网络(即BERT)的输出层之后添加池化层以及全连接层得到参考神经网络；先使用第一训练数据训练初始化的深度神经网络(即BERT)，得到目标深度神经网络；再利用第二训练数据训练参考神经网络，得到目标神经网络。

可以理解，对于本领域技术人员来说，可以仅用BERT一个额外的输出层进行微调，在不对任务特定架构做出大量修改条件下，就可以为很多任务创建当前最优模型(即参考神经网络)。

下面来介绍如何计算实体指称文本和候选实体的相似度以及更新参考神经网络以得到目标神经网络的实现方式。

训练装置可以采用如下公式计算实体指称文本和目标候选实体之间的语义相似度：

其中，R(Q，D)表示实体指称项文本和目标候选实体之间的语义相似度，y_Q表示上述第三特征向量，y_D表示上述第四特征向量。

训练装置可通过Softmax函数可以把Query与正样本Doc的语义相似性转化为一个后验概率，计算公式如下：

其中，γ为Softmax函数的平滑因子，D⁺为Query下的正样本，D^-为Query下的负样本(采取随机负采样)，D为Query下的整个样本空间，D′∈D。

在训练阶段，训练装置通过极大似然估计，最小化损失函数：

其中，L表示损失值，残差(即损失值)会在表示参考神经网络中反向传播，最终通过随机梯度下降(SGD)使模型收敛，得到各网络层的参数。

通过上述训练方法可以快速训练得到目标神经网络。

前述实施例描述了候选实体排序方法以及训练方法，下面来介绍实现候选排序方法的候选实体排序装置以及执行训练方法的训练装置。

图6为本申请实施例提供的一种候选实体排序装置，如图6所示，该装置可包括：

处理单元601，用于将第一句子向量和第二句子向量中相对应的元素相乘以得到第一特征向量；该第一句子向量是处理实体指称项文本得到的句子向量，该第二句子向量为处理目标候选实体得到的句子向量，该目标候选实体为实体指称项的候选实体集中的任一候选实体，该第一句子向量和该第二句子向量中的元素一一对应，该实体指称项文本为包括该实体指称项的文本；

处理单元601，还用于将该第一句子向量和该第二句子向量中相对应的元素相减以得到第二特征向量；

确定单元602，用于根据该第一特征向量和该第二特征向量，确定该目标候选实体与该实体指称项之间的相似度；

排序单元603，用于对该候选实体集中的各候选实体进行排序；其中，该候选实体集中的各候选实体的排序和该各候选实体与该实体指称项之间的相似度正相关。

在一个可选的实现方式中，确定单元602，具体用于将该第一特征向量输入至训练得到的目标神经网络的全连接层进行处理得到第三特征向量以及将该第二特征向量输入至该全连接层进行处理得到第四特征向量；计算该第三特征向量和该第四特征向量的相似度，得到该目标候选实体与该实体指称项之间的相似度。

在一个可选的实现方式中，该目标神经网络包括深度神经网络和该全连接层，该深度神经网络用于对输入的词向量矩阵进行特征提取以输出句子向量。

在一个可选的实现方式中，如图6所示，该装置还包括：

获取单元604，用于获得用于表征该实体指称项文本的第一输入词向量矩阵；

处理单元601，还用于将该第一输入词向量矩阵输入至该深度神经网络进行处理，得到该第一句子向量；其中，该深度神经网络包括多层双向变换器，该多层双向变换器用于对该第一输入词向量矩阵进行特征提取以得到该第一句子向量。

在一个可选的实现方式中，获取单元604，还用于获得用于表征该目标候选实体的第二输入词向量矩阵；

处理单元601，还用于将该第二输入词向量矩阵输入至该深度神经网络进行处理，得到该第二句子向量；其中，该多层双向变换器用于对该第二输入词向量矩阵进行特征提取以得到该第二句子向量。

在一个可选的实现方式中，获取单元604，具体用于对该实体指称项文体做分词，得到至少一个分词；利用该至少一个分词中每个分词对应的词向量构建该第一输入词向量矩阵。

图7为本申请实施例提供的一种训练装置，如图7所示，该装置可包括：

第一训练单元701，用于利用第一训练数据训练初始化的深度神经网络，得到目标深度神经网络；该目标深度神经网络用于对输入的词向量矩阵进行特征提取以输出句子向量；该目标深度神经网络为参考神经网络的一部分，该参考神经网络还包括全连接层；

第二训练单元702，用于利用第二训练数据训练该参考神经网络，得到目标神经网络；该全连接层用于对输入的句子向量进行处理；该目标神经网络用于预测候选实体与实体指称项文本之间的相似度。

在一个可选的实现方式中，该第二训练数据包括用于表征目标实体指称项文本的第一输入词向量矩阵和用于表征目标候选实体的第二输入词向量矩阵；

第二训练单元702，具体用于将该第一输入词向量矩阵输入至该目标深度神经网络，得到第一句子向量；

应理解以上候选实体排序装置以及训练装置的各个单元的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。例如，以上各个单元可以为单独设立的处理元件，也可以集成同一个芯片中实现，此外，也可以以程序代码的形式存储于控制器的存储元件中，由处理器的某一个处理元件调用并执行以上各个单元的功能。此外各个单元可以集成在一起，也可以独立实现。这里的处理元件可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。该处理元件可以是通用处理器，例如中央处理器(英文：central processing unit，简称：CPU)，还可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(英文：application-specific integrated circuit，简称：ASIC)，或，一个或多个微处理器(英文：digital signal processor，简称：DSP)，或，一个或者多个现场可编程门阵列(英文：field-programmable gate array，简称：FPGA)等。

图8是本申请实施例提供的一种服务器结构示意图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器800上执行存储介质830中的一系列指令操作。服务器800可以为本申请提供的图像处理装置。

服务器800还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，和/或，一个或一个以上操作系统841，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由候选实体排序装置以及训练装置所执行的步骤可以基于该图8所示的服务器结构。

在本申请的实施例中提供一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现：将第一句子向量和第二句子向量中相对应的元素相乘以得到第一特征向量；该第一句子向量是处理实体指称项文本得到的句子向量，该第二句子向量为处理目标候选实体得到的句子向量，该目标候选实体为实体指称项的候选实体集中的任一候选实体，该第一句子向量和该第二句子向量中的元素一一对应，该实体指称项文本为包括该实体指称项的文本；将该第一句子向量和该第二句子向量中相对应的元素相减以得到第二特征向量；根据该第一特征向量和该第二特征向量，确定该目标候选实体与该实体指称项之间的相似度；对该候选实体集中的各候选实体进行排序；其中，该候选实体集中的各候选实体的排序和该各候选实体与该实体指称项之间的相似度正相关。

在本申请的实施例中提供另一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现：利用第一训练数据训练初始化的深度神经网络，得到目标深度神经网络；该目标深度神经网络用于对输入的词向量矩阵进行特征提取以输出句子向量；该目标深度神经网络为参考神经网络的一部分，该参考神经网络还包括全连接层；利用第二训练数据训练该参考神经网络，得到目标神经网络；该全连接层用于对输入的句子向量进行处理；该目标神经网络用于预测候选实体与实体指称项文本之间的相似度。

以上该，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种候选实体排序方法，其特征在于，包括：

将第一句子向量和第二句子向量中相对应的元素相乘以得到第一特征向量；所述第一句子向量是处理实体指称项文本得到的句子向量，所述第二句子向量为处理目标候选实体得到的句子向量，所述目标候选实体为实体指称项的候选实体集中的任一候选实体，所述第一句子向量和所述第二句子向量中的元素一一对应，所述实体指称项文本为所述实体指称项所在的文本；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一特征向量和所述第二特征向量，确定所述目标候选实体与所述实体指称项之间的相似度包括：

3.根据权利要求2所述的方法，其特征在于，所述目标神经网络包括深度神经网络和所述全连接层，所述深度神经网络用于对输入的词向量矩阵进行特征提取以输出句子向量。

4.根据权利要求3所述的方法，其特征在于，所述将第一句子向量和第二句子向量中相对应的元素相乘以得到第一特征向量之前，所述方法还包括：

获得用于表征所述实体指称项文本的第一输入词向量矩阵；

5.根据权利要求3或4所述的方法，其特征在于，所述将第一句子向量和第二句子向量中相对应的元素相乘以得到第一特征向量之前，所述方法还包括：

获得用于表征所述目标候选实体的第二输入词向量矩阵；

6.根据权利要求5所述的方法，其特征在于，所述获得用于表征所述实体指称项文本的第一输入词向量矩阵包括：

对所述实体指称项文体做分词，得到至少一个分词；

7.一种训练方法，其特征在于，包括：

利用第一训练数据训练初始化的深度神经网络，得到目标深度神经网络；所述目标深度神经网络用于对输入的词向量矩阵进行特征提取以输出句子向量；所述目标深度神经网络为参考神经网络的一部分，所述参考神经网络还包括全连接层；

8.根据权利要求7所述的方法，其特征在于，所述第二训练数据包括用于表征目标实体指称项文本的第一输入词向量矩阵和用于表征目标候选实体的第二输入词向量矩阵；所述利用第二训练数据训练所述参考神经网络，得到目标神经网络包括：

9.一种候选实体排序装置，其特征在于，包括：

处理单元，用于将第一句子向量和第二句子向量中相对应的元素相乘以得到第一特征向量；所述第一句子向量是处理实体指称项文本得到的句子向量，所述第二句子向量为处理目标候选实体得到的句子向量，所述目标候选实体为实体指称项的候选实体集中的任一候选实体，所述第一句子向量和所述第二句子向量中的元素一一对应，所述实体指称项文本为所述实体指称项所在的文本；

10.一种训练装置，其特征在于，包括：

第一训练单元，用于利用第一训练数据训练初始化的深度神经网络，得到目标深度神经网络；所述目标深度神经网络用于对输入的词向量矩阵进行特征提取以输出句子向量；所述目标深度神经网络为参考神经网络的一部分，所述参考神经网络还包括全连接层；