CN108280061A

CN108280061A - 基于歧义实体词的文本处理方法和装置

Info

Publication number: CN108280061A
Application number: CN201810044364.8A
Authority: CN
Inventors: 冯知凡; 陆超; 朱勇; 李莹
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2018-07-13
Anticipated expiration: 2038-01-17
Also published as: US20190220749A1; KR102117160B1; JP2019125343A; CN108280061B; JP6643555B2; EP3514702A1; US11455542B2; KR20190094078A

Abstract

本发明提出一种基于歧义实体词的文本处理方法和装置，其中，方法包括：获取待消歧文本的上下文，以及待消歧文本表征的至少两个候选实体，通过训练的词向量模型生成上下文的语义向量，通过训练的无监督神经网络模型，生成至少两个候选实体的第一实体向量，计算上下文与每一个候选实体之间的相似度，确定出待消歧文本在上下文中所表征的目标实体。通过已学习得到各实体文本语义以及各实体之间关系的无监督神经网络模型，使得生成的候选实体的第一实体向量也包含了候选实体的文本语义以及与各实体之间的关系，使得待消歧文本的实体信息得以完整刻画，再与上下文语义向量计算相似度，确定目标实体，提高了待消歧文本消歧的准确度。

Description

基于歧义实体词的文本处理方法和装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于歧义实体词的文本处理方法和装置。

背景技术

随着移动互联网的普及，微博、贴吧及各大新闻网站等极大的方便了人们的生活，但这些平台上的数据绝大部分都是以非结构化或半结构化的形式存在，导致这些知识库中的数据存在着大量的歧义实体词，通过对歧义实体词进行消歧处理，可以辨别在不同上下文中该实体词真实指示哪个事物，为后续的具体应用提供便利。

但相关技术中，一种方式可以利用现有知识库数据，计算文本重叠度和相关度，进行消歧；另一种方式利用现有知识库数据，进行无监督或半监督的模型训练，依据语义对歧义实体词进行消歧。但这两种方式，消歧效果较差。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于歧义实体词的文本处理方法，训练完成的无监督神经网络模型已学习得到各实体的文本语义以及各实体之间的关系，通过无进度神经网络模型对候选实体进行处理，生成第一实体向量，使得第一实体向量也包含了候选实体的文本语义以及与各实体之间的关系，使得实体信息刻画较完整，再将第一实体向量和上下文语义向量计算相似度，确定目标实体，提高了待消歧文本消歧的准确度。

本发明的第二个目的在于提出一种基于歧义实体词的文本处理装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种基于歧义实体词的文本处理方法，包括：

获取待消歧文本的上下文，以及所述待消歧文本表征的至少两个候选实体；其中，所述至少两个候选实体具有不同语义；

根据经过训练的词向量模型，生成所述上下文的语义向量；

根据经过训练的无监督神经网络模型，生成所述至少两个候选实体的第一实体向量；其中，所述无监督神经网络模型已学习得到各实体的文本语义以及各实体之间的关系；

根据所述上下文的语义向量和所述至少两个候选实体的第一实体向量，确定所述上下文与每一个候选实体之间的相似度；

根据所述上下文与每一个候选实体之间的相似度，从至少两个候选实体中，确定出所述待消歧文本在所述上下文中所表征的目标实体。

本发明实施例的基于歧义实体词的文本处理方法中，获取待消歧文本的上下文，以及待消歧文本表征的至少两个候选实体，将上下文通过训练的词向量模型生成上下文的语义向量，将至少两个候选实体通过训练的无监督神经网络模型，生成第一实体向量，根据上下文的语义向量和至少两个候选实体的第一实体向量，计算上下文与每一个候选实体之间的相似度，根据该相似度，从至少两个候选实体中，确定出待消歧文本在上下文中所表征的目标实体。通过已学习得到各实体的文本语义以及各实体之间关系的无监督神经网络模型，对候选实体进行处理，生成第一实体向量，候选实体的第一实体向量也包含了候选实体的文本语义以及与各实体之间的关系，再将第一实体向量和待消歧文本的上下文语义向量计算相似度，确定待消歧文本在上下文中所表征的目标文本，提高了待消歧文本消歧的准确度和效率，解决了相关技术中，无法同时获取各实体的文本语义，以及各实体之间的关系，致使知识库中实体消歧的准确度较低的问题。

为达上述目的，本发明第二方面实施例提出了一种基于歧义实体词的文本处理装置，包括：

获取模块，用于获取待消歧文本的上下文，以及所述待消歧文本表征的至少两个候选实体；其中，所述至少两个候选实体具有不同语义；

生成模块，用于根据经过训练的词向量模型，生成所述上下文的语义向量；根据经过训练的无监督神经网络模型，生成所述至少两个候选实体的第一实体向量；其中，所述无监督神经网络模型已学习得到各实体的文本语义以及各实体之间的关系；

第一确定模块，用于根据所述上下文的语义向量和所述至少两个候选实体的第一实体向量，确定所述上下文与每一个候选实体之间的相似度；

第一处理模块，用于根据所述上下文与每一个候选实体之间的相似度，从至少两个候选实体中，确定出所述待消歧文本在所述上下文中所表征的目标实体。

本发明实施例的基于歧义实体词的文本处理装置中，获取模块用于获取待消歧文本的上下文，以及待消歧文本表征的至少两个候选实体，生成模块用于将上下文通过训练的词向量模型生成上下文的语义向量，将至少两个候选实体通过训练的无监督神经网络模型，生成第一实体向量，第一确定模块用于根据上下文的语义向量和至少两个候选实体的第一实体向量，计算上下文与每一个候选实体之间的相似度，第一处理模块用于根据该相似度，从至少两个候选实体中，确定出待消歧文本在上下文中所表征的目标实体。通过已学习得到各实体的文本语义以及各实体之间关系的无监督神经网络模型，对候选实体进行处理，生成第一实体向量，候选实体的第一实体向量也包含了候选实体的文本语义以及与各实体之间的关系，使得实体信息刻画较完整，再将第一实体向量和待消歧文本的上下文语义向量计算相似度，确定待消歧文本在上下文中所表征的目标文本，提高了待消歧文本消歧的准确度，解决了相关技术中，无法同时获取各实体的文本语义，以及各实体之间的关系，实体信息刻画不完整，致使知识库中实体消歧的准确度较低的问题。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如第一方面所述的基于歧义实体词的文本处理方法。

为达上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，当该程序被处理器执行时，实现第一方面所述的基于歧义实体词的文本处理方法。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，实现如第一方面所述的基于歧义实体词的文本处理方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种基于歧义实体词的文本处理方法的流程示意图；

图2为本发明实施例所提供的另一种基于歧义实体词的文本处理方法的流程示意图；

图3A为本发明实施例所提供的又一种基于歧义实体词的文本处理方法的流程示意图；

图3B为本发明实施例所提供的基于百度知识库的各模型之间的策略框架图；

图4为本发明实施例所提供的再一种基于歧义实体词的文本处理方法的流程示意图；

图5为本发明实施例提供的一种基于歧义实体词的文本处理装置的结构示意图；

图6为本发明实施例所提供的另一种基于歧义实体词的文本处理装置的结构示意图；以及

图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于歧义实体词的文本处理方法和装置。

图1为本发明实施例所提供的一种基于歧义实体词的文本处理方法的流程示意图。

如图1所示，该方法包括如下步骤：

步骤101，获取待消歧文本的上下文，以及待消歧文本表征的至少两个候选实体。

具体地，从知识库中获取包含待消歧文本的文本集，并对文本集采用分词算法进行处理，作为一种可能的实现方式，可采用汉语分词系统(Ictclas)算法，对文本集进行词性标注和分词，然后根据停用词表去除停用词，获得多个字或词，组成一个实体集合，以待消歧文本为中心，取一个固定窗口中的词为该待消歧文本的上下文，可将该待消歧文本的上下文用矩阵A表示A＝[w₁ w₂ w₃ w₄ ··· w_N]，其中，N为待消歧文本的上下文的长度。对知识库进行搜索，比较待消歧文本所表征的实体，和知识库中文本所表征的实体，若相同，则将知识库中所表征的实体作为待消歧文本表征的候选实体，候选实体的个数至少为两个，其中，2个候选实体具有不同语义，例如，候选实体为2个，分别为表征手机的苹果和表征水果的苹果，两个候选实体虽然都为苹果，但是2个实体的语义不同。

步骤102，根据经过训练的词向量模型，生成上下文的语义向量。

具体地，将待消歧文本的上下文输入经过训练的词向量模型，经过训练的词向量模型中已经生成了对应知识库的所有实体的语义向量表，查表即可获得待消歧文本的上下文中每一个词对应的语义向量，作为一种可能的实现方式，本实施例中的词向量模型可为词向量(word2vec)模型，通过word2vec模型可将词表征为实数值的向量，例如：明星，用词向量可以表示为[0.792,-0.177,-0.107,0.109,-0.542,…]。

需要说明的是，对于词向量模型的解释说明，在下述实施例中会详细介绍。

步骤103，根据经过训练的无监督神经网络模型，生成至少两个候选实体的第一实体向量。

具体地，将至少两个候选实体输入训练完成的无监督神经网络模型，分别生成对应两个候选实体的向量，因本实施例中有无监督的神经网络模型和有监督的神经网络模型，为了便于区分，将无监督的神经网络模型生成的向量称为第一实体向量，而将有监督神经网络模型生成的向量称为第二实体向量。

需要说明的是，经过训练的无监督神经网络模型已学习得到各实体的文本语义以及各实体之间的关系，这是因为，虽然无监督神经网络用于利用实体与实体之间的关系，来刻画实体潜在的语义信息，但是无监督神经网络模型是在有监督神经网络模型生成的数据的基础上进一步训练得到的，而有监督神经网络模型可以利用实体的相关关键信息，来刻画实体的文本语义信息，从而，可利用有监督神经网络模型生成的实体文本语义数据，对无监督神经网络模型进行训练，从而使得无监督神经网络模型可学习得到各实体的文本语义以及各实体之间的关系，使得实体信息刻画较完整。后续实施例会对有监督神经网络和无监督神经网络的生成和训练过程进行详细解释。

步骤104，根据上下文的语义向量和至少两个候选实体的第一实体向量，确定上下文与每一个候选实体之间的相似度。

具体地，计算上下文与每一个候选实体之间的相似度之前，需要将获取得到的上下文的语义向量输入到无监督神经网络模型中，其中，无监督神经网络模型包含三层，分别为输入层、隐层和输出层，将上下文的语义向量输入到无监督的神经网络模型的输入层，将该模型的输出层的权重作为上下文对应的第一实体向量，根据上下文对应的第一实体向量与每一个候选实体的第一实体向量计算相似度，作为一种可能的实现方式，激活层(LogisticRegression)模型，即训练无监督的神经网络模型的输出层，直接计算获取。

需要说明的是，将上下文的语义向量输入到无监督的神经网络模型中，得到上下文对应的第一实体向量，从而使得上下文对应的第一实体向量和候选实体对应的第一实体向量，是在同一向量空间，便于进行相似度计算。

步骤105，根据上下文与每一个候选实体之间的相似度，从至少两个候选实体中，确定出待消歧文本在上下文中所表征的目标实体。

具体地，通过计算得到上下文与每一个候选实体之间的相似度，确定出与上下文相似度最高的候选实体，将该候选实体作为待消歧文本在上下文中所表征的目标实体，即还原了待消歧文本本来的意思，实现了实体的消歧。

本实施例的基于歧义实体词的文本处理方法中，获取待消歧文本的上下文，以及待消歧文本表征的至少两个候选实体，将上下文通过训练的词向量模型生成上下文的语义向量，将至少两个候选实体通过训练的无监督神经网络模型，生成第一实体向量，根据上下文的语义向量和至少两个候选实体的第一实体向量，计算上下文与每一个候选实体之间的相似度，根据该相似度，从至少两个候选实体中，确定出待消歧文本在上下文中所表征的目标实体。通过已学习得到各实体的文本语义以及各实体之间关系的无监督神经网络模型，对候选实体进行处理，生成第一实体向量，候选实体的第一实体向量也包含了候选实体的文本语义以及与各实体之间的关系，实现了实体信息的完整刻画，再将第一实体向量与待消歧文本的上下文语义向量计算相似度，提高了待消歧文本消歧的准确度，解决了相关技术中，无法同时获取各实体的文本语义，以及各实体之间的关系，致使知识库中实体消歧的准确度较低的问题。

在采用词向量模型生成上下文的语义向量之前，需要先根据应用场景，对词向量模型进行训练，得到符合应用场景的词向量模型，为此，本实施例对这一过程进行解释。

为此，本发明提出了另一种可能的基于歧义实体词的文本处理方法，图2为本发明实施例所提供的另一种基于歧义实体词的文本处理方法的流程示意图，进一步清楚解释了生成词向量模型的过程，如图2所示，基于上一实施例，步骤102之前，该方法可以包括如下步骤：

步骤201，针对不同的应用场景，分别生成对应的训练语料。

具体地，不同的应用场景，采用不同的训练语料，例如，搜索应用中，我们需要利用搜索日志来构建对应的训练语料；在网页文本理解应用中，我们需要利用网页来构建训练语料。作为一种可能的实现方式，本实施例可基于百度的用户搜索日志，以及百度的知识库数据，在不同的应用场景下，生成对应的训练语料，因基于的百度的用户搜索日志和百度的知识库数据，数据量较大，使得训练预料较丰富，可以调高训练的效果。

步骤202，采用各应用场景对应的训练语料进行词向量模型训练，以得到各应用场景适用的词向量模型。

具体地，根据应用场景确定好对应的训练语料后，对训练语料进行分词处理，作为一种可能的实现方式，可采用汉语分词系统(Ictclas)分词算法，对训练语料中的多个文档，进行分词处理，并利用停用词表去除停用词，从而得到多个字、词的片段，每个片段就是一个词条(term)，即每个term代表一个词或一个字，每个term用空格分开，例如，为了便于区分，对不同的片段进行编号，可表示为term1 term2 term3 term4 term5 ······。

进而，采用词向量模型进行训练，做一种可能的实现方式，词向量模型可为word2vec模型，该模型是将词表征为实数值向量的一种高效的算法模型，其利用深度学习的思想，可以通过训练，把对文本内容的处理简化为K维向量空间中的向量，进而通过向量间的运算获取向量空间上的相似度，而向量空间上的相似度可以用来表示文本语义上的相似度。本实施例中具体可采用word2vec模型中的skipgram方式，对对应应用场景的训练语料进行训练，得到对应不同应用场景的词的语义向量表，从而得到各应用场景适用的词向量模型。

本实施例的基于歧义实体词的文本处理方法中，根据应用场景对词向量模型进行训练，得到适用于各应用场景的词向量模型，以使得在对应不同应用场景需要进行消歧处理时，可对待消歧文本对应的上下文进行处理，通过查表生成上下文对应的语义向量，同时对待消歧文本表征的至少两个候选实体，通过已学习得到各实体的文本语义以及各实体之间的关系的无监督神经网络模型生成候选实体的第一实体向量，使得实体信息刻画较为完整，进而根据上下文的语义向量和候选实体的第一实体向量进行相似度计算，根据相似度计算的结果，从候选实体中确定出待消歧文本在上下文中所表征的目标实体，使得消歧的准确度较高，同时，对词向量模型进行训练是基于最大的中文知识库，对同名不同义的多歧义实体的消歧效果较好。

上述实施例中，候选实体输入到经过训练的无监督神经网络模型中，得到第一实体向量，其中，无监督神经网络模型训练过程中需要用到有监督神经网络模型输出的数据，为此，接下来通过实施例解释说明有监督神经网络模型生成和训练的过程，以及在有监督神经网络模型训练完成后，对无监督神经网络模型进行训练的过程。

基于上述实施例，本发明还提出了一种基于歧义实体词的文本处理方法的可能的实现方式，图3A为本发明实施例所提供的又一种基于歧义实体词的文本处理方法的流程示意图，如图3A所示，步骤103之前还可以包括如下步骤：

步骤301，生成有监督神经网络模型的训练样本的正例和负例。

对于训练样本的正例的生成方法，具体为：知识库中每一个实体都有相关的属性，及属性值，同时对应每一个实体还有会该实体的介绍信息，根据知识库中各实体的属性，以及各实体的介绍信息提取关键字，生成训练样本的正例。例如，实体：刘德华，他具有很多属性，例如，刘德华有老婆的属性，女儿的属性，老婆的属性值则为朱丽倩，而女儿的属性值则为刘向蕙，相关的属性有很多，此处不一一列举。

对于刘德华，还有相关的介绍信息，例如，刘德华，1961年9月27日出生于香港，演员、歌手、制片人、作词人，代表作有《神雕侠侣》、《无间道》、《拆弹专家》等等。通过该介绍信息，可提取出实体刘德华的关键字，如演员、歌手、作品《无间道》等。

从而，可将朱丽倩、刘向蕙、演员、歌手、作品《无间道》等，作为实体刘德华的训练样本的正例。

对于训练样本的负例的生成方法，具体为：对知识库中各实体的全部文本描述信息进行切词处理后，对切词得到的各词条进行词频统计，根据各词条的词频，对各词条进行负采样，得到训练样本的负例。发明人在实际测试中发现，采用通过词频进行负采样确定的负例，比完全随机进行负采样确定的负例，进行训练的效果要好，提高了模型训练的速度和模型训练的效果。

例如，可将各词条及各词条出现的频率生成一个词条及词条频率表，并按照词频由大到小的顺利进行排列，如下表1所示：

词条	词频
		老师	113132
警察	100099
		网站	10000
爱情	9502
		演出	8000
悲伤	4119
		···	···

表1词条及词条频率表

作为一种可能的实现方式，可根据表1的词条及词条频率表，依据频率进行负采样，将负采样结果确定的词条作为训练的负样本，该方式相较于随机的负采样，使得模型训练的效果更好。

步骤302，根据训练样本对有监督神经网络模型进行训练。

其中，有监督的神经网络模型包括两层：用于输入训练样本中各文本的语义向量的第一层，以及用于预测第一层输入文本所描述实体的第二层，作为一种可能的实现方式，可以采用文章向量(Doc2vec)的技术来连接和训练这两层，具体地，有监督神经网络模型的输入，即第一层的输入，为训练样本中各文本的语义向量，即将训练样本对应的实体的文本输入到图2对应实施例中的词向量模型中，生成对应该实体的文本语义向量，将该文本语义向量输入到有监督神经网络模型的第一层中，然后，通过第二层来预测第一层输入的文本所描述的实体。

步骤303，当有监督神经网络模型中，第一层输入的训练样本中文本用于描述第二层输出的实体时，确定有监督神经网络模型训练完成。

具体地，当有监督神经网络模型中，第一层输入的训练样本中的文本，是用于描述第二层输出的实体时，则说明第二层的参数可用于准确预测第一层输入的训练样本的文本用于描述的实体，该参数的训练效果较好，确定第二层的参数，同时确定有监督神经网络模型训练完成。有监督神经网络模型两层的设置方式，可使得有监督神经网络模型训练完成后，已学习得到各实体的语义，确定了文本和实体之间的对应关系。

步骤304，采用经过训练的有监督神经网络模型，生成知识库中各实体的第二实体向量。

具体地，经过训练的有监督神经网络模型，确定了第二层的参数，将知识库的中各实体，输入经过训练的有监督神经网络模型中，利用第二层的参数可生成对应知识库中各实体的第二实体向量。

步骤305，根据知识库中各实体的第二实体向量，对无监督神经网络模型输出的各实体的第一实体向量进行初始化。

具体地，无监督神经网络模型的输入为知识库中的各实体，各实体输入到未训练的无监督的神经网络模型中后，生成对应各实体的第一实体向量，该第一实体向量是随机生成的随机数序列，该各实体的第一实体向量，需要在后续训练过程中中不断更新，最终得到符合目标要求的第一实体向量。而将有监督神经网络模型输出的知识库中各实体的第二实体向量，输入到无监督的神经网络模型中，对无监督的神经网络模型输出的各实体的第一实体向量进行初始化，即将无监督的神经网络模型的输出替换为各实体的第二实体向量，可降低无监督神经网络模型训练时迭代的次数，提高训练速度和训练效果，同时第二实体向量已经学习到了文本和实体之间的关系，再输入到无监督的神经网络模型中，进行训练，还可以利用无监督神经网络模型学习得到实体和实体之间的关系，从而可最终输出包含文本和实体之间的关系，以及实体和实体之间关系的第一实体向量。

步骤306，根据实体间关联关系，对初始化后的无监督神经网络模型进行训练。

具体地，根据知识库中存在关联关系的各实体，和/或，根据搜索日志中存在共现关系的实体，对初始化后的无监督神经网络模型进行训练，当无监督神经网络模型输出的第一实体向量之间的距离相对应于实体之间关系的紧密程度时，无监督神经网络模型训练完成。

为了进一步说明上述过程，图3B为本发明实施例所提供的基于百度知识库的各模型之间的策略框架图，如图3B所示，词向量模型基于百度的用户搜索日志和百度知识库数据，生成词条向量，有监督的神经网络模型基于百度额知识库数据，生成训练样本，并将训练样本通过词向量模型生成训练样本对应的词向量，将训练样本的词向量输入有监督的神经网络模型中，生成已学习到各实体的语义的实体语义向量，即各实体的第二实体向量。

进而，有监督的神经网络模型将生成的第二实体向量输入大无监督的神经网络模型中，对无监督的神经网络模型的第一实体向量进行初始化，然后通过训练，生成已学习到各实体语义以及各实体之间关系的第一实体向量，使得对实体信息实现了完整刻画，提高了消歧处理的准确度。

本实施例的基于歧义实体词的文本处理方法中，通过对有监督神经网络模型进行训练，使得有监督神经网络模型学习到各实体的语义，再将有监督神经网络模型生成的各实体的第二实体向量对无监督的神经网络模型进行初始化，使得无监督神经网络模型可学习得到各实体的文本语义以及各实体之间关系，使得数据利用更充分，完整的刻画了实体的信息，利用无监督的神经网络模型对候选实体进行处理，生成第一实体向量，再将第一实体向量和待消歧文本的上下文语义向量，计算相似度，提高了待消歧文本消歧的准确度。

基于上述实施例，本发明实施例还提出了一种可能的基于歧义实体词的文本处理方法，图4为本发明实施例所提供的再一种基于歧义实体词的文本处理方法的流程示意图，如图4所示，步骤103之后，还可以包括如下步骤：

步骤401，根据至少两个候选实体的第一实体向量，确定不同候选实体之间的相似度。

作为一种可能的实现方式，根据至少两个候选实体的第一实体向量，可采用余弦距离算法，计算任意两个候选实体的第一实体向量之间的相似度。

步骤402，根据不同候选实体之间的相似度，进行实体关系挖掘或实体推荐。

具体地，根据计算得到不同候选实体之间的相似度，作为一种可能的实现方式，将相似度和预设的阈值对比，对于相似度的值超过阈值的相似度，认为其对应的两个不同的候选实体之间存在实体关系，在知识图谱中增加实体的边关系，该边关于可以用于实体推荐，例如，在搜索应用场景中，当用户搜索一个实体时，可推荐相关的另一个实体，提高了检索的效率。

本实施例的基于歧义实体词的文本处理方法中，获取待消歧文本的上下文，以及待消歧文本表征的至少两个候选实体，将上下文通过训练的词向量模型生成上下文的语义向量，将至少两个候选实体通过训练的无监督神经网络模型，生成第一实体向量，根据上下文的语义向量和至少两个候选实体的第一实体向量，计算上下文与每一个候选实体之间的相似度，根据该相似度，从至少两个候选实体中，确定出待消歧文本在上下文中所表征的目标实体。通过已学习得到各实体的文本语义以及各实体之间关系的无监督神经网络模型，对候选实体进行处理，生成第一实体向量，候选实体的第一实体向量也包含了候选实体的文本语义以及与各实体之间的关系，再将第一实体向量和待消歧文本的上下文语义向量，计算相似度，提高了待消歧文本消歧的准确度和效率，同时，根据生成的第一实体向量，计算不同候选实体之间的相似度，可用于对实体关系进行挖掘和实体推荐，增加了实体的边关系。

为了实现上述实施例，本发明还提出一种基于歧义实体词的文本处理装置。

图5为本发明实施例提供的一种基于歧义实体词的文本处理装置的结构示意图。

如图5所示，该装置包括：获取模块61、生成模块62、第一确定模块63和第一处理模块64。

获取模块61，用于获取待消歧文本的上下文，以及待消歧文本表征的至少两个候选实体，其中，至少两个候选实体具有不同语义。

生成模块62，用于根据经过训练的词向量模型，生成上下文的语义向量，根据经过训练的无监督神经网络模型，生成至少两个候选实体的第一实体向量，其中，无监督神经网络模型已学习得到各实体的文本语义以及各实体之间的关系。

第一确定模块63，用于根据上下文的语义向量和至少两个候选实体的第一实体向量，确定上下文与每一个候选实体之间的相似度。

第一处理模块64，用于根据上下文与每一个候选实体之间的相似度，从至少两个候选实体中，确定出待消歧文本在上下文中所表征的目标实体。

需要说明的是，前述对方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

本实施例的基于歧义实体词的文本处理装置中，获取模块用于获取待消歧文本的上下文，以及待消歧文本表征的至少两个候选实体，生成模块用于将上下文通过训练的词向量模型生成上下文的语义向量，将至少两个候选实体通过训练的无监督神经网络模型，生成第一实体向量，第一确定模块用于根据上下文的语义向量和至少两个候选实体的第一实体向量，计算上下文与每一个候选实体之间的相似度，第一处理模块用于根据该相似度，从至少两个候选实体中，确定出待消歧文本在上下文中所表征的目标实体。通过已学习得到各实体的文本语义以及各实体之间关系的无监督神经网络模型，对候选实体进行处理，生成第一实体向量，候选实体的第一实体向量也包含了候选实体的文本语义以及与各实体之间的关系，再将第一实体向量和待消歧文本的上下文语义向量计算相似度，确定待消歧文本在上下文中所表征的目标文本，提高了待消歧文本消歧的准确度和效率，解决了相关技术中，无法同时获取各实体的文本语义，以及各实体之间的关系，实体信息刻画不完整，致使实体消歧的准确度较低的问题。

基于上述实施例，本发明实施例还提供了一种基于歧义实体词的文本处理装置的可能的实现方式，图6为本发明实施例所提供的另一种基于歧义实体词的文本处理装置的结构示意图，如图6所示，在上一实施例的基础上，该装置还包括：第一训练模块65、第二训练模块66、第三训练模块67、第二确定模块68和第二处理模块69。

第一训练模块65，用于针对不同的应用场景，分别生成对应的训练语料，采用各应用场景对应的训练语料进行词向量模型训练，以得到各应用场景适用的词向量模型。

第二训练模块66，用于根据知识库中各实体的属性，以及各实体的介绍信息提取的关键字，生成训练样本的正例，根据知识库中各实体的全部文本描述信息，生成训练样本的负例，根据训练样本，对有监督神经网络模型进行训练。其中，有监督神经网络模型包括：用于输入训练样本中各文本的语义向量的第一层，以及用于预测第一层输入文本所描述实体的第二层，其中，第二层的参数，用于生成第二实体向量。当有监督神经网络模型中，第一层输入的训练样本中文本用于描述第二层输出的实体时，确定有监督的神经网络模型训练完成。

作为一种可能的实现方式，第二训练模块66，还可以用于，对知识库中各实体的全部文本描述信息进行切词处理后，对切词得到的各词条进行词频统计，根据各词条的词频，对各词条进行负采样，得到训练样本的负例。

第三训练模块67，用于采用经过训练的有监督神经网络模型，生成知识库中各实体的第二实体向量，其中，有监督神经网络模型已学习得到各实体的语义，根据知识库中各实体的第二实体向量，对无监督神经网络模型输出的各实体的第一实体向量进行初始化，根据实体间关联关系，对初始化后的无监督神经网络模型进行训练。

作为一种可能的实现方式，第三训练模块67，还可以用于：根据知识库中存在关联关系的各实体，和/或，根据搜索日志中存在共现关系的实体，对初始化后的无监督神经网络模型进行训练，当无监督神经网络模型输出的第一实体向量之间的距离相对应于实体之间关系紧密程度时，无监督神经网络模型训练完成。

第二确定模块68，根据至少两个候选实体的第一实体向量，确定不同候选实体之间的相似度。

第二处理模块69，根据不同候选实体之间的相似度，进行实体关系挖掘或实体推荐。

为了实现上述实施例，本发明还提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现前述方法实施例所述的基于歧义实体词的文本处理方法。

为了实现上述实施例，本发明还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，当该程序被处理器执行时，实现前述方法实施例所述的基于歧义实体词的文本处理方法。

为了实现上述实施例，本发明还提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，实现前述方法实施例所述的基于歧义实体词的文本处理方法。

图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图7显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于歧义实体词的文本处理方法，其特征在于，包括以下步骤：

根据经过训练的词向量模型，生成所述上下文的语义向量；

2.根据权利要求1所述的文本处理方法，其特征在于，所述根据经过训练的无监督神经网络模型，生成所述至少两个候选实体的第一实体向量之前，还包括：

采用经过训练的有监督神经网络模型，生成预设知识库中各实体的第二实体向量；所述有监督神经网络模型已学习得到各实体的语义；

根据所述知识库中各实体的第二实体向量，对所述无监督神经网络模型输出的各实体的第一实体向量进行初始化；

根据实体间关联关系，对初始化后的无监督神经网络模型进行训练。

3.根据权利要求2所述的文本处理方法，其特征在于，所述采用经过训练的有监督神经网络模型，生成所述知识库中各实体的第二实体向量之前，还包括：

根据知识库中各实体的属性，以及各实体的介绍信息提取的关键字，生成训练样本的正例；

根据所述知识库中各实体的全部文本描述信息，生成训练样本的负例；

根据所述训练样本，对有监督神经网络模型进行训练；其中，所述有监督神经网络模型包括：用于输入训练样本中各文本的语义向量的第一层，以及用于预测第一层输入文本所描述实体的第二层；所述第二层的参数，用于生成所述第二实体向量；

当所述有监督神经网络模型中，第一层输入的训练样本中文本用于描述所述第二层输出的实体时，确定所述有监督的神经网络模型训练完成。

4.根据权利要求3所述的文本处理方法，其特征在于，所述根据所述知识库中各实体的全部文本描述信息，生成训练样本的负例，包括：

对所述知识库中各实体的全部文本描述信息进行切词处理后，对切词得到的各词条进行词频统计；

根据各词条的词频，对各词条进行负采样，得到所述训练样本的负例。

5.根据权利要求2所述的文本处理方法，其特征在于，所述根据实体间关系，对初始化后的无监督神经网络模型进行训练，包括：

根据知识库中存在关联关系的各实体，和/或，根据搜索日志中存在共现关系的实体，对初始化后的无监督神经网络模型进行训练；

当所述无监督神经网络模型输出的第一实体向量之间的距离相对应于所述实体之间关系紧密程度时，所述无监督神经网络模型训练完成。

6.根据权利要求1-5任一项所述的文本处理方法，其特征在于，所述根据经过训练的词向量模型，生成所述上下文的语义向量之前，还包括：

针对不同的应用场景，分别生成对应的训练语料；

采用各应用场景对应的训练语料进行词向量模型训练，以得到各应用场景适用的词向量模型。

7.根据权利要求1-5任一项所述的文本处理方法，其特征在于，所述生成所述至少两个候选实体的第一实体向量之后，还包括：

根据所述至少两个候选实体的第一实体向量，确定不同候选实体之间的相似度；

根据不同候选实体之间的相似度，进行实体关系挖掘或实体推荐。

8.一种基于歧义实体词的文本处理装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-7中任一项所述的基于歧义实体词的文本处理方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于歧义实体词的文本处理方法。

11.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令由处理器执行时，执行如权利要求1-7中任一项所述的基于歧义实体词的文本处理方法。