CN107608960A

CN107608960A - 一种命名实体链接的方法和装置

Info

Publication number: CN107608960A
Application number: CN201710806787.4A
Authority: CN
Inventors: 赵知纬
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2018-01-19
Anticipated expiration: 2037-09-08
Also published as: CN107608960B

Abstract

本发明实施例提供了一种命名实体链接的方法和装置，其中所述方法包括：获取输入序列；将所述输入序列输入预置的感知器模型，输出所述输入序列对应的实体指称信息和/或目标实体信息。本发明实施例无需把命名实体识别与命名实体链接分开两个步骤来运行，加快了文本处理速度，提高了命名实体链接的准确率。

Description

一种命名实体链接的方法和装置

技术领域

本发明涉及视频技术领域，特别是涉及一种命名实体链接的方法和一种命名实体链接的装置、一种电子设备以及一种计算机可读存储介质。

背景技术

命名实体识别(简称“实体识别”)与命名实体链接(简称实体链接) 是自然语言处理中非常重要的基础性任务，两者对于信息检索、问答系统、语义化搜索、知识库构建、语音识别等应用领域有着至关重要作用。其中，实体识别是指识别文本中具有特定意义的实体名称，如：人名、地名、机构名、影视剧名、书名等。实体链接是指给定一篇文本中的实体指称(mention)，确定这些指称在给定知识库中的目标实体。

实体链接与实体识别是紧密相关的两个任务，实体链接的处理对象实体指称需要由实体识别给出。

在现有技术中，实体识别与实体链接是以如下流水线的形式进行的：1) 先由实体识别模型识别出所有的实体指称信息；2)然后实体链接模型会将实体指称信息与知识库中的已知实体连接起来，若实体指称信息不与任何已知实体匹配，那么在知识库中新建相应实体。这样的流水线系统把实体识别与实体链接分开两个步骤来运行，如果实体识别过程中没有把一个实体指称信息识别出来，那么实体链接时，这个实体就不会被正确链接，影响命名实体链接的准确性，同时在在线服务中，流水线会减慢处理速度，增加对用户的响应时间。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种命名实体链接的方法和相应的一种命名实体链接的装置、一种电子设备以及一种计算机可读存储介质。

为了解决上述问题，本发明实施例公开了一种命名实体链接的方法，包括：

获取输入序列；

将所述输入序列输入预置的感知器模型，输出所述输入序列对应的实体指称信息和/或目标实体信息。

优选地，所述将所述输入序列输入预置的感知器模型，输出所述输入序列对应的实体指称信息和/或目标实体信息的步骤包括：

将所述输入序列输入预置的感知器模型；

所述感知器模型对所述输入序列进行分词处理，得到一个或多个分词；

分别获取所述一个或多个分词的标签集合，所述标签集合包括预设的实体指称集合和/或当前分词对应的目标实体信息，所述实体指称集合包括多个实体指称信息；

对所述一个或多个分词的标签集合进行排列组合，确定多条实体路径；

从所述多条实体路径中确定最优路径，将所述最优路径中所包含的实体指称信息和/或目标实体信息作为所述输入序列对应的实体指称信息和/或目标实体信息。

优选地，所述从所述多条实体路径中确定最优路径的步骤包括：

计算每条实体路径的分值；

将分值最大的实体路径作为最优路径。

优选地，所述分别获取所述一个或多个分词的标签集合的步骤包括：

获取所述感知器模型中的预设的实体指称集合；

分别在预设的知识库中匹配所述分词；

若匹配成功，则判定所述分词存在目标实体，并获取所述目标实体对应的目标实体信息，将所述实体指称集合和所述目标实体信息组织成所述分词对应的标签集合；

若匹配不成功，则判定所述分词不存在目标实体，并将所述实体指称集合作为所述分词的标签集合。

优选地，采用如下方式建立所述感知器模型：

采集训练语料；

对所述训练语料进行分词处理，得到一个或多个语料分词；

获取所述一个或多个语料分词的语料词性、语料实体指称信息和/或所述语料实体指称信息对应的候选实体信息；

分别在预设的知识库中查找与所述训练语料的候选实体信息匹配的知识特征向量；

从所述知识特征向量中抽取出与所述一个或多个语料分词匹配的目标特征向量；

对所述目标特征向量采用感知器学习算法进行训练，生成感知器模型。

优选地，所述候选实体信息可以包括第一候选实体信息以及第二候选实体信息，所述从所述知识特征向量中抽取出与所述一个或多个分词匹配的目标特征向量的步骤包括：

生成与所述训练语料对应的语料序列，其中，所述语料序列包括所述语料词性、所述语料分词对应的第一候选实体信息和/或第二候选实体信息，所述第一候选实体信息为所述语料分词直接对应的实体信息，所述第二候选实体信息为所述语料分词关联的其他实体信息；

通过预置的特征抽取模板，在所述知识特征向量中抽取与所述语料序列匹配的目标特征向量。

优选地，所述特征抽取模板至少包括如下抽取策略的一种或多种：

抽取当前语料分词作为特征；

抽取当前语料分词的语料词性作为特征；

抽取当前语料分词左右预设数量的窗口内的相邻语料分词，以及，所述相邻语料分词在所述知识特征向量中共现的词语的数量；

抽取与当前语料分词的前一个语料分词、和/或、当前语料分词、和/或、当前语料分词的下一个语料分词对应的第一候选实体信息。

本发明实施例还公开了一种命名实体链接的装置，包括：

输入序列获取模块，用于获取输入序列；

命名实体链接模块，用于将所述输入序列输入预置的感知器模型，输出所述输入序列对应的实体指称信息和/或目标实体信息。

本发明实施例还公开了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

本发明实施例还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

与背景技术相比，本发明实施例包括以下优点：

本发明实施例获取输入序列以后，可以将该输入序列输入到预先生成的感知器模型中，由该感知器模型对输入序列执行命名实体链接的过程，输出该输入序列对应的实体指称信息和/或目标实体信息，无需把命名实体识别与命名实体链接分开两个步骤来运行，加快了文本处理速度，提高了命名实体链接的准确率。

进一步的，统一的感知器模型还可以减少模型的数量以及部署的空间。

附图说明

图1是本发明的一种命名实体链接的方法实施例的步骤流程图；

图2是本发明的建立感知器模型的方法流程图；

图3是本发明的解码方法流程图；

图4是本发明的标签集合示意图1；

图5是本发明的标签集合示意图2；

图6是本发明的标签集合示意图3；

图7是本发明的一种命名实体链接的装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种命名实体链接的方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，获取输入序列；

在具体实现中，输入序列可以由用户通过客户端界面进行输入，该输入序列可以包括一个或多个词汇；该输入序列也可以是用户触发的语句序列，可以包括视频标题、文本标题等短文本序列。

步骤102，将所述输入序列输入预置的感知器模型，输出所述输入序列对应的实体指称信息和/或目标实体信息。

获取输入序列以后，可以将该输入序列输入到预先训练好的感知器模型中，其中，感知器模型是最早的人工神经网络，单层感知器是一个具有一层神经元、采用阈值激活函数的前向网络。通过对网络权值的训练，可以使感知器对一组输入矢量的响应达到元素为0或1的目标输出，从而实现对输入矢量分类的目的。在本发明实施例中，感知器模型能够对输入序列执行命名实体链接的过程，从而输出该输入序列对应的实体指称信息和/或目标实体信息。

在实现中，若输入序列中的分词具有目标实体，则输出实体指称信息以及目标实体信息的概率比较大，或者，由于目标实体信息的属性信息可以包括实体指称信息，因此，可以直接输出目标实体信息；若输入序列中的分词不具有目标实体，则只输出实体指称信息的概率比较大，在这种情况下，实体指称信息可以为一个预设的值。

本发明实施例可以通过感知器模型直接输出当前输入序列对应的实体指称信息和/或目标实体信息，无需把命名实体链接的过程分开为命名实体识别与命名实体链接两个步骤来运行，加快了文本处理速度，提高了命名实体链接的准确率。

具体而言，本发明实施例至少可以包括感知器模型建立阶段以及感知器模型使用阶段，以下分别对这两个阶段进行说明：

参考图2所示的建立感知器模型的方法流程图，在感知器模型建立阶段可以包括如下步骤：

步骤201，采集训练语料；

具体的，训练语料可以包括但不限于：用户输入的字符串序列、客户端中展示的一个或多个文档的标题、知识库中存储的一个或多个文档的标题等。

步骤202，对所述训练语料进行分词处理，得到一个或多个语料分词；

在具体实现中，可以采用分词的方法对训练语料进行分词处理，得到一个或多个语料分词。

其中一些分词方法如下：

1、基于字符串匹配的分词方法：是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。

2、基于特征扫描或标志切分的分词方法：是指优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械分词，从而减少匹配的错误率；或者将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而提高切分的准确率。

3、基于理解的分词方法：是指通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。

4、基于统计的分词方法：一种方法是指，中文信息中由于字与字相邻共现的频率或概率能够较好的反映成词的可信度，所以可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息，以及计算两个汉字X、Y的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典。

例如，若某个视频标题为“哈姆雷特2000版伊桑霍克主演”，将其作为训练语料，采用分词方法进行分词处理后得到的结果包括：“哈姆雷特”、“2000”、“版”、“伊桑霍克”、“主演”。

步骤203，获取所述一个或多个语料分词的语料词性、语料实体指称信息和/或所述语料实体指称信息对应的候选实体信息；

在具体实现中，可以接收用户对所述一个或多个语料分词所标注的语料词性、语料实体指称信息和/或所述语料实体指称信息对应的候选实体信息。

例如，引用上例，当接收到用户针对每个语料分词标注的语料词性后，得到的词性标注结果可以为“哈姆雷特/nr 2000/m版/n伊桑霍克/nr主演 /v”。其中，nr为人名，m为量词，n为名词，v为动词。

在标注了词性的基础上，用户还可以标注该语料序列中每个语料分词的语料实体指称信息和/或所述语料实体指称信息对应的候选实体信息。标注者可结合自身背景知识或者检索，来确定标注结果。

在一种实施方式中，候选实体信息可以包括第一候选实体信息以及第二候选实体信息，第一候选实体信息为直接对应的实体信息，第二候选实体信息为关联的其他实体信息。

在具体实现中，候选实体信息可以包括候选实体标识。在实际中，在标注语料分词对应的候选实体信息时，首先可以查询数据库中所有与该语料分词同名的实体的实体标识(即实体ID)，作为候选实体标识。

例如，针对上例，接收到用户标注了实体指称信息以及候选实体信息的语料为“哈姆雷特/nr{MOVIE}{哈姆雷特.3[07823916]；哈姆雷特.1[07829608],哈姆雷特.2[07820513]}2000/m版/n伊桑霍克 /nr{PERSON}{伊桑·霍克.1[02015761]}主演/v。”，其中，哈姆雷特/nr后的第一个花括号“{MOVIE}”是哈姆雷特对应的实体指称信息，标识出这个词是一个电影实体的指称，第二个花括号“{哈姆雷特.3[07823916]；哈姆雷特.1[07829608],哈姆雷特.2[07820513]}”表示候选实体信息，即实体链接信息，标识出跟该实体指称信息有关的实体以及实体ID：分号前的第一个实体代表该实体指称信息实际应该指向的候选实体，即第一候选实体信息，分号后的各个实体为与该实体指称相关联的其它候选实体，即第二候选实体信息。

需要说明的是，在对训练语料进行语料词性、语料实体指称信息和/或所述语料实体指称信息对应的候选实体信息的标注时，并不限于上述的标注格式，本领域技术人员采用其他便于记录的标注方式均是可以的。

步骤204，分别在预设的知识库中查找与所述训练语料的候选实体信息匹配的知识特征向量；

知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群，是针对某一(或某些)领域问题求解的需要，采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。在本发明实施例中，知识库可以为实体链接所需的知识库。

例如，在视频播放领域，视频搜索引擎公司的视频库中存在丰富的知识库信息，因此该视频库可以作为知识库。以剧名实体为例，跟剧名有关的知识可以包括：导演、主演、类型、制片国家/地区等；对于电视剧/电视节目来说，相关的知识还可以包括主持人、季数、播出频道等。

在本发明实施例中，可以在知识库中查找当前训练语料对应的候选实体信息，得到与之匹配的知识特征向量(又可以称为meta特征向量)。

知识特征向量可以为表现实体的基本信息的特征集合。

以上文的视频标题为例，标注信息指出此处的“哈姆雷特”是一部由伊桑霍克在2000年出演的电影，由此，可以在知识库匹配该实体指称信息实际应该指向的第一候选实体信息“哈姆雷特.3”，获得对应的meta特征向量包括：{哈姆雷特.3|导演：米歇尔·阿米瑞亚德；主演：伊桑·霍克/朱丽娅·斯蒂尔斯/凯尔·麦克拉克伦；类型：剧情/爱情/惊悚；制片国家：美国；年份：2000}。

同时，可以在知识库匹配与该实体指称信息相关联的其它候选实体的第二候选实体信息“哈姆雷特.1”以及“哈姆雷特.2”，获得对应的meta特征向量包括：{哈姆雷特.1|导演：肯尼思·布拉纳；主演：理查德·阿滕伯勒/ 大卫·布莱尔/布耐恩·布莱塞得/肯尼思·布拉纳/理查德·布赖尔斯；类型：剧情/爱情/惊悚/犯罪；制片国家：英国/美国；年份：1996}，{哈姆雷特.2|导演：Gregory Doran；主演：大卫·田纳特/帕特里克·斯图尔特/Penny Downie/ 奥利弗·福德·戴维斯/玛丽亚·盖尔；类型：剧情；制片国家：英国/日本/美国}。

步骤205，从所述知识特征向量中抽取出与所述一个或多个语料分词匹配的目标特征向量；

得到知识特征向量以后，可以进一步将该一个或多个语料分词在知识特征向量中进行匹配，从而抽取出匹配的知识特征向量作为目标特征向量。

在本发明实施例的一种优选实施例中，步骤205进一步可以包括如下子步骤：

子步骤S11，生成与所述训练语料对应的语料序列；

在具体实现中，对训练语料进行模型训练之前，可以先把训练语料转换为序列模式，得到语料序列。

具体的，该语料序列可以包括但不限于每个语料分词的语料词性、每个语料分词对应的第一候选实体信息和/或第二候选实体信息等。

例如，针对上述的训练语料“哈姆雷特2000版伊桑霍克主演”，根据用户标注的语料词性以及第一候选实体信息以及第二候选实体信息，得到的语料序列可以如下表1所示：

哈姆雷特	nr	07823916	07829608,07820513
				2000	m	O	NONE
版	n	O	NONE
				伊桑霍克	nr	02015761	NONE
主演	v	O	NONE

表1

在上表中，第一列是序列每个token，第二列是每个token对应的词性，第三列是每个token对应的第一候选实体信息，表示每个token对应的标签： O表示当前token不属于任一类实体；07823916/02015761表示的是该token 对应的标签，取值是第一候选实体标识；第四列表示的是跟该token相关的其它第二候选实体信息的ID列表，如果没有其他第二候选实体信息，则取值为NONE。

子步骤S12，通过预置的特征抽取模板，在所述知识特征向量中抽取与所述语料序列匹配的目标特征向量。

在本发明实施例中，可以预先配置特征抽取模板，通过特征抽取模板来在所述知识特征向量中抽取与语料序列中每个语料分词匹配的目标特征向量。

作为一种示例，该目标特征向量可以包括但不限于：上下文特征，词性特征以及知识库特征等。

在本发明实施例的一种优选实施例中，特征抽取模板至少可以包括如下抽取策略的一种或多种：

抽取当前语料分词作为特征，可以表示为U01:c|0；

抽取当前语料分词的语料词性作为特征，可以表示为U02:p|0；

抽取当前语料分词左右预设数量的窗口内的相邻语料分词，以及，所述相邻语料分词在所述知识特征向量中共现的词语的数量，当预设数量取值为 3时，可以表示为U03:m|3；

抽取与当前语料分词的前一个语料分词、和/或、当前语料分词、和/或、当前语料分词的下一个语料分词对应的第一候选实体信息，可以表示为B01: l|-1 l|0 l|1。

即该特征抽取模板可以配置为如下表2所示：

表2

在表2中，标记为U的模板表示的是上下文/词性/知识库等观察值特征；标记为B的模板表示的是标签转移特征。

其中，

U01:c|0表示抽取当前词作为特征；

U02:p|0表示抽取当前词的词性作为特征；

U03:m|3表示抽取当前词左右±3窗口内的词与候选实体知识特征向量的共现词语的数量；例如，以“哈姆雷特/nr 2000/m版/n伊桑霍克/nr主演 /v”为例，当前词设为“哈姆雷特/nr”，±3窗口指的是，“哈姆雷特/nr”在知识特征向量中往前数三个词以及往后数三个词这个文本片段内的所有词； m|3表示在前述的文本片段内，有几个词语恰好也是“哈姆雷特/nr”的meta 特征词。

B01:l|-1 l|0 l|1表示的是前一个词/当前词/下一个词对应的标签转移特征，即第一候选实体信息。

例如，以上述的“哈姆雷特2000版伊桑霍克主演”为例，对于“哈姆雷特”一词，U01的得到的特征是U01|哈姆雷特_07823916；U02得到的特征是U02|nr_07823916；U03得到的特征是U03|1_07823916；B01得到的特征是B01|B_-1/07823916/O。

当对语料序列中所有的token都抽取完目标特征向量后，整个语料序列就可以表示为一个目标特征向量的集合。该集合可以用哈希表形式表示： {U01|哈姆雷特_07823916:1,U01|伊桑霍克_02015761:1,U02|nr:1, B01|B_-1/07823916/O:1,…}。其中，哈希表的键代表特征，值代表特征出现的次数。

当然，上述集合的存储方式并不限于哈希表，本领域技术人员采用其他方式进行特征向量的集合的存储均是可以的。

步骤206，对所述目标特征向量采用感知器学习算法进行训练，生成感知器模型。

得到所有的训练语料对应的目标特征向量以后，可以采用感知器学习算法，对所有的目标特征向量进行训练，得到感知器模型。

在一种实施方式中，一种感知器学习算法如下：

训练开始前首先将所有的特征权值初始化为0，训练开始后每次迭代时，先利用现有的参数对每个语料序列进行解码标注生成标签t_z，然后根据该序列的标签ground truth(标注者标注的结果，表示为t_g)，调整参数权值，当迭代完成以后，得到感知器模型。

在实现中，可以对比t_z与t_g是否一致，如果不一致，则增加t_g中特征的权值，同时降低t_z中特征的权值，例如，对某一个特征f_i(相应的权值表示为w_i)而言，其权值更新公式为其中c₁表示的是f_i在t_z中出现的次数，c₂表示的是f_i在t_g中出现的次数。

至此，完成感知器模型建立阶段的工作。本发明实施例利用感知器学习算法训练感知器模型，简化学习复杂度，提高训练效率，更高效的训练方法有助于模型的快速部署。并且感知器模型可以考虑长距离的标签转移特征而不会增加模型复杂度和训练复杂度。

接下来是感知器模型使用阶段：

在感知器模型使用阶段，可以对输入序列进行解码输出，在一种实施方式中，可以使用Viterbi(维特比)算法进行解码。

参考图3所示的解码方法流程图，在感知器模型使用阶段可以包括如下步骤：

步骤301，获取输入序列；

在具体实现中，输入序列可以为用户输入的语句序列，也可以是用户触发的语句序列，该输入序列可以包括视频标题、文本标题等短文本序列。

步骤302，将所述输入序列输入预置的感知器模型，所述感知器模型对所述输入序列进行分词处理，得到一个或多个分词；

在具体实现中，可以采用上述步骤202中的分词方法对输入序列进行分词处理，得到对应的一个或多个分词。

步骤303，分别获取所述一个或多个分词的标签集合；

在具体实现中，可以扩展每一个分词对应的输出标签集合，作为本发明实施例的一种示例，该标签集合可以包括预设的实体指称集合和/或当前分词对应的目标实体信息，所述实体指称集合包括多个实体指称信息。

在本发明实施例的一种优选实施例中，步骤303可以进一步包括如下子步骤：

子步骤S21，获取所述感知器模型中的预设的实体指称集合；

在本发明实施例中，训练得到的感知器模型中可以包括实体指称集合，该实体指称集合可以为训练语料中每个语料分词对应的实体指称信息的集合。在具体实现中，如果该语料分词不是实体指称，即没有实体指称信息，则将实体指称信息设置为字母O。

例如，若某个训练语料为“哈姆雷特2000版伊桑霍克主演”，语料分词如下：“哈姆雷特”、“2000”、“版”、“伊桑霍克”、“主演”，对应的实体指称信息分别是：“MOVIE”、“O”、“O”、“PERSON”、“O”。

获得所有语料分词的实体指称信息以后，可以将该所有语料分词的实体指称信息组织成实体指称集合，例如，针对上例，得到的实体指称集合为{O, PERSON,MOVIE}。

子步骤S22，分别在预设的知识库中匹配所述分词；若匹配成功，则执行子步骤S23，若匹配不成功，则执行子步骤S24；

子步骤S23，判定所述分词存在目标实体，并获取所述目标实体对应的目标实体信息，将所述实体指称集合和所述目标实体信息组织成所述分词对应的标签集合；

子步骤S24，判定所述分词不存在候选实体，并将所述实体指称集合作为所述分词的标签集合。

在解码前需要确定每一个token对应的标签集合(状态空间)。具体的，针对输入序列中的每个分词，可以分别将其在知识库中进行匹配，判断知识库中是否存在该分词对应的目标实体，如果在知识库中不存在该分词对应的目标实体，如上例中的“2000”、“版”、“主演”等，则将实体指称集合作为该分词的标签集合，例如，针对“2000”、“版”、“主演”这些分词，其标签集合均为{O,PERSON,MOVIE}。

如果在知识库中存在该分词对应的目标实体，则获取该token对应的目标实体信息，例如目标实体标识，并将该目标实体标识以及该实体指称集合组织成所述分词对应的标签集合。例如，针对被标识为实体指称并存在目标实体的token，其标签集合可以为{O,PERSON,MOVIE,CAN_ENTITY_ID1, CAN_ENTITY_ID2,…}。

例如，针对上例的针对上例中的“哈姆雷特”，若在知识库中存在目标实体，则其标签集合为{O,PERSON,MOVIE,07823916,07829608, 07820513}，针对“伊桑霍克”，若在知识库中存在目标实体，则其标签集合为{O,PERSON,MOVIE,02015761}。则针对“哈姆雷特2000版伊桑霍克主演”，每个分词token对应的标签集合如图4的标签集合示意图1所示。

在实际中，由于在建模阶段可能使用了高阶的标签转移特征，所以第i 个token所对应的标签(表记为s_i)不再仅依赖于s_i-1。因此在生成解码所需的lattice(解码图)时，还可以对每个token对应的状态空间进行扩展，使得第i个token所对应的标签(表记为s_i)不仅考虑邻接两个位置的标签转移特征，还能够考虑邻接三个位置或更前位置的标签转移特征，从而丰富了长距离的标签转移特征。

例如，针对图4的一阶解码进行扩展，得到图5所示的标签集合示意图 2，使得第i个token所对应的标签(表记为s_i)能够依赖于在前的一个标签 s_i-1，得到的二阶解码lattice。其中，一阶解码与二阶解码之间的区别在于一阶解码考虑邻接两个位置的标签转移特征，而二阶解码能够考虑邻接三个位置的标签转移特征。比如，在一阶解码时，如果从“版”到“伊桑霍克”的解码路径为“O→02015761”，可以发现这个过程中，只考虑到了“伊桑霍克”这个词前面一个位置的标签；如果是二阶解码，假设从“版”到“伊桑霍克”的解码路径为“O/O→O/02015761”，其中，“O/02015761”中斜线“/”后的“02015761”表示的是“伊桑霍克”的标签，“/”前的“O”表示的是“伊桑霍克”这个词前面一个位置“版”的标签，而“版”的标签“O/O”中，“/”后的“O”表示的是“版”的标签，“/”前的“O”表示的是“版”这个词前面一个位置“2000”的标签，因此，针对“伊桑霍克”，考虑到了“伊桑霍克”前面两个位置“版”、“2000”的标签。

步骤304，对所述一个或多个分词的标签集合进行排列组合，确定多条实体路径；

得到每个token对应的标签集合后，可以对所有的标签集合进行排列组合，得到该输入序列对应的多条实体路径。

例如，如图6所示，针对图4，实体路径的数量为6*3*3*4*3＝648。

步骤305，从所述多条实体路径中确定最优路径，将所述最优路径中所包含的实体指称信息和/或目标实体信息作为所述输入序列对应的实体指称信息和/或目标实体信息。

得到输入序列对应的多条实体路径以后，可以从该多条实体路径中选取最优路径，并将该最优路径中所包含的实体指称信息和/或目标实体信息作为当前输入序列对应的实体指称信息和/或目标实体信息。

在本发明实施例的一种优选实施例中，步骤305进一步可以包括如下子步骤：

子步骤S31，计算每条实体路径的分值；

子步骤S32，将分值最大的实体路径作为最优路径。

具体的，每条实体路径中可以包括节点和边，节点为输入序列中的 token，边是连接两个token之间的路径。

在具体实现中，可以计算每个节点以及每条边的分值，针对节点的打分，可以抽取所有相关的观察值特征以及相应的特征值，然后加权求和；针对边的打分，可以抽取出所有相关的标签转移特征以及相应特征值，并且加权求和。通过计算每个实体路径中每个节点以及每条边的分值，可以得到该实体路径的分值，然后将分值最大的实体路径作为最优路径。

该最优路径可以指示该输入序列的实体指称信息和/或目标实体信息，例如，在图6中，假设最粗的箭头所组成的路径为解码得到的最优路径，若输入序列为“2000版”，则最优路径只包含实体指称信息，如图6中的“2000/m{MOVIE}版/n”；若输入序列为“伊桑霍克主演”，则最优路径可以只包含目标实体信息，如图6中的“伊桑霍克/nr{伊桑霍克[02015761]}主演/v”；若输入序列为“哈姆雷特2000版伊桑霍克主演”，该最优路径可以包含实体指称信息以及目标实体信息，表示为：“哈姆雷特/nr{哈姆雷特 [07820513]}2000/m{MOVIE}版/n伊桑霍克/nr{伊桑霍克[02015761]}主演/v。”，由于“07820513”、“02015761”这样的目标实体标识中可以包括实体指称信息等属性信息，则可以从“07820513”、“02015761”中的属性信息中获知“哈姆雷特”、“伊桑霍克”的实体指称信息。

在本发明实施例中，对获取的输入序列进行分词处理获得一个或多个分词以后，可以拓展每个分词对应的标签集合，在解码时，基于每个分词的标签集合确定多条实体路径，并从该多条实体路径中选择最优路径，将该最优路径中所包含的实体指称信息和/或目标实体信息作为该输入序列对应的实体指称信息和/或目标实体信息，通过这样的方式来进行命名实体链接，无需分开两个步骤来进行命名实体识别以及命名实体链接，加快了文本处理速度，提高命名实体链接的准确率，准确的目标实体的识别有助于更好的理解用户搜索意图，对视频搜索、视频推荐均有较大裨益。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图7，示出了本发明的一种命名实体链接的装置实施例的结构框图，具体可以包括如下模块：

输入序列获取模块701，用于获取输入序列；

命名实体链接模块702，用于将所述输入序列输入预置的感知器模型，输出所述输入序列对应的实体指称信息和/或目标实体信息。

在本发明实施例的一种优选实施例中，所述命名实体链接模块702具体可以包括如下子模块：

分词子模块，用于将所述输入序列输入预置的感知器模型，所述感知器模型对所述输入序列进行分词处理，得到一个或多个分词；

标签集合获取子模块，用于分别获取所述一个或多个分词的标签集合，所述标签集合包括预设的实体指称集合和/或当前分词对应的目标实体信息，所述实体指称集合包括多个实体指称信息；

实体路径确定子模块，用于对所述一个或多个分词的标签集合进行排列组合，确定多条实体路径；

最优路径确定子模块，用于从所述多条实体路径中确定最优路径，将所述最优路径中所包含的实体指称信息和/或目标实体信息作为所述输入序列对应的实体指称信息和/或目标实体信息。

在本发明实施例的一种优选实施例中，所述最优路径确定子模块具体可以包括如下单元：

分值计算单元，用于计算每条实体路径的分值，并将分值最大的实体路径作为最优路径。

在本发明实施例的一种优选实施例中，所述标签集合获取子模块具体可以包括如下单元：

集合确定单元，用于获取所述感知器模型中的预设的实体指称集合；

匹配单元，用于分别在预设的知识库中匹配所述分词；若匹配成功，则调用第一标签集合组织单元，若匹配不成功，则调用第二标签集合组织单元；

第一标签集合组织单元，用于判定所述分词存在目标实体，并获取所述目标实体对应的目标实体信息，将所述实体指称集合和所述目标实体信息组织成所述分词对应的标签集合；

第二标签集合组织单元，用于判定所述分词不存在目标实体，并将所述实体指称集合作为所述分词的标签集合。

在本发明实施例的一种优选实施例中，可以采用模型建立模块建立所述感知器模型；

所述模型建立模块可以包括如下子模块：

语料采集子模块，用于采集训练语料；

分词子模块，用于对所述训练语料进行分词处理，得到一个或多个语料分词；

标注子模块，用于获取所述一个或多个语料分词的语料词性、语料指称信息和/或所述语料实体指称信息对应的候选实体信息；

知识匹配子模块，用于分别在预设的知识库中查找与所述训练语料的候选实体信息匹配的知识特征向量；

特征抽取子模块，用于从所述知识特征向量中抽取出与所述一个或多个语料分词匹配的目标特征向量；

模型训练子模块，用于对所述目标特征向量采用感知器学习算法进行训练，生成感知器模型。

在本发明实施例的一种优选实施例中，所述候选实体信息可以包括第一候选实体信息以及第二候选实体信息，所述特征抽取子模块可以包括如下单元：

语料序列生成单元，用于生成与所述训练语料对应的语料序列，其中，所述语料序列包括所述语料词性、所述语料分词对应的第一候选实体信息和 /或第二候选实体信息，其中，所述第一候选实体信息为所述语料分词直接对应的实体信息，所述第二候选实体信息为所述语料分词关联的其他实体信息；

特征抽取单元，用于通过预置的特征抽取模板，在所述知识特征向量中抽取与所述语料序列匹配的目标特征向量。

在本发明实施例的一种优选实施例中，所述特征抽取模板至少包括如下抽取策略的一种或多种：

抽取当前语料分词作为特征；

抽取当前语料分词的语料词性作为特征；

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还公开了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该程序被处理器执行时可以实现图1-图3所述方法

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可以实现图1-图3所述方法。

对于电子设备、计算机可读存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种命名实体链接的方法和装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种命名实体链接的方法，其特征在于，包括：

获取输入序列；

2.根据权利要求1所述的方法，其特征在于，所述将所述输入序列输入预置的感知器模型，输出所述输入序列对应的实体指称信息和/或目标实体信息的步骤包括：

将所述输入序列输入预置的感知器模型；

3.根据权利要求2所述的方法，其特征在于，所述从所述多条实体路径中确定最优路径的步骤包括：

计算每条实体路径的分值；

将分值最大的实体路径作为最优路径。

4.根据权利要求2或3所述的方法，其特征在于，所述分别获取所述一个或多个分词的标签集合的步骤包括：

获取所述感知器模型中的预设的实体指称集合；

分别在预设的知识库中匹配所述分词；

5.根据权利要求1-3任一项所述的方法，其特征在于，采用如下方式建立所述感知器模型：

采集训练语料；

对所述训练语料进行分词处理，得到一个或多个语料分词；

6.根据权利要求5所述的方法，其特征在于，所述候选实体信息可以包括第一候选实体信息以及第二候选实体信息，所述从所述知识特征向量中抽取出与所述一个或多个分词匹配的目标特征向量的步骤包括：

7.根据权利要求6所述的方法，其特征在于，所述特征抽取模板至少包括如下抽取策略的一种或多种：

抽取当前语料分词作为特征；

抽取当前语料分词的语料词性作为特征；

8.一种命名实体链接的装置，其特征在于，包括：

输入序列获取模块，用于获取输入序列；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。