CN110765271A

CN110765271A - 一种实体发现与实体链接的联合处理方法及装置

Info

Publication number: CN110765271A
Application number: CN201810744366.8A
Authority: CN
Inventors: 丁磊; 童毅轩; 董滨; 姜珊珊; 张永伟
Original assignee: Liguang Co
Current assignee: Liguang Co
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2020-02-07
Anticipated expiration: 2038-07-09
Also published as: CN110765271B

Abstract

本发明实施例提供了一种实体发现与实体链接的联合处理方法及装置。本发明实施例提供的实体发现与实体链接的联合处理方法、装置及计算机可读存储介质，可以在实体链接过程中联合实体发现过程，从而提高实体链接的准确性。并且，本发明实施例还可以通过在线训练相关模型，进一步提高实体链接的性能。

Description

一种实体发现与实体链接的联合处理方法及装置

技术领域

本发明涉及语言信息处理技术领域，具体涉及一种实体发现与实体链接的联合处理方法及装置。

背景技术

发现文本中的指代实体的实体词并将其链接到知识库的无歧义实体(entity)，从而将文本中的“实体发现(mention，也称作实体提及)”与语义知识库中的实体(entity)相关联，实现文本内容语义化，是后续的信息检索和抽取、知识工程等功能的基础支撑。

目前，实体发现和实体链接主要采用管道式的方法，即先发现文本中的实体词，再将实体词链接到知识库中的实体上，两部分是相互独立的。这种方法会造成错误的传播，而且无法利用两部分之间的关联信息。因此，需要一种方法，提高实体链接的准确性。

发明内容

本发明实施例要解决的技术问题是提供一种实体发现与实体链接的联合处理方法及装置，通过联合标签将实体发现和实体链接过程相联合，可以提高实体链接的准确性。

为解决上述技术问题，本发明实施例提供的实体发现与实体链接的联合处理方法，包括：

构建实体发现和实体链接的联合标签，所述联合标签包括候选词在待处理文本中的位置、候选词的类型及其在知识库中的一个候选链接实体，所述候选词为在所述待处理文本中位置连续且不超过预设数量的单词组成的单词序列；

利用预先生成的最优标签序列生成模型，从候选标签序列的集合中生成所述待处理文本的目标标签序列，所述候选标签序列为候选词序列中每个候选词的一个联合标签组成的序列，所述候选词序列为待处理文本中位置连续且互不重叠的候选词组成的序列；

将目标联合标签对应的候选词中的实体发现，链接到所述目标联合标签中的候选链接实体，所述目标联合标签为所述目标标签序列中的联合标签。

优选的，上述联合处理方法还包括：

获取人工标注的所述待处理文本的目标标签序列；

根据所述最优标签序列生成模型生成的目标标签序列以及人工标注的目标标签序列，更新所述最优标签序列生成模型。

优选的，所述构建实体发现和实体链接的联合标签的步骤，包括：

针对待处理文本中的每个候选词，在知识库查询该候选词对应的候选链接实体；

根据查询到的候选词对应的候选链接实体以及候选词在所述待处理文本中的起始位置及结束位置，生成该候选词的联合标签，其中，每个联合标签对应于该候选词的一个候选链接实体。

优选的，所述利用预先生成的最优标签序列生成模型，从候选标签序列的集合中生成所述待处理文本的目标标签序列的步骤，包括：

从所述待处理文本的第一个单词开始，依次执行以下处理，直至最后一个单词：以当前处理的单词作为结束单词，确定至少一个当前候选词；针对每个当前候选词，将该当前候选词的联合标签分别与前一相邻文本的k个最优标签序列拼接，生成当前文本的候选标签序列，所述当前文本为所述待处理文本截止到结束单词时的文本，所述前一相邻文本为所述待处理文本截止到与当前候选词相邻的前一个单词时的文本；基于多类型特征，从当前文本的候选标签序列中确定出前k个最优的候选标签序列，得到当前文本的k个最优标签序列；

从所述待处理文本的k个最优标签序列中，选择首个最优标签序列，得到待处理文本的目标标签序列。

优选的，所述多类型特征包括以下特征中的一种或多种：实体发现特征；实体链接特征；以及，实体发现与实体链接的联合特征。

本发明实施例还提供了一种实体发现与实体链接的联合处理装置，包括：

标签构建单元，用于构建实体发现和实体链接的联合标签，所述联合标签包括候选词在待处理文本中的位置、候选词的类型及其在知识库中的一个候选链接实体，所述候选词为在所述待处理文本中位置连续且不超过预设数量的单词组成的单词序列；

目标标签序列生成单元，用于利用预先生成的最优标签序列生成模型，从候选标签序列的集合中生成所述待处理文本的目标标签序列，所述候选标签序列为候选词序列中每个候选词的一个联合标签组成的序列，所述候选词序列为待处理文本中位置连续且互不重叠的候选词组成的序列；

实体链接单元，用于将目标联合标签对应的候选词中的实体发现，链接到所述目标联合标签中的候选链接实体，所述目标联合标签为所述目标标签序列中的联合标签。

优选的，上述联合处理装置还包括：

模型更新单元，用于获取人工标注的所述待处理文本的目标标签序列；根据所述最优标签序列生成模型生成的目标标签序列以及人工标注的目标标签序列，更新所述最优标签序列生成模型。

优选的，所述标签构建单元包括：

实体查询单元，用于针对待处理文本中的每个候选词，在知识库查询该候选词对应的候选链接实体；

标签生成单元，用于根据查询到的候选词对应的候选链接实体以及候选词在所述待处理文本中的起始位置及结束位置，生成该候选词的联合标签，其中，每个联合标签对应于该候选词的一个候选链接实体。

优选的，所述目标标签序列生成单元包括：

迭代处理单元，用于从所述待处理文本的第一个单词开始，依次执行以下处理，直至最后一个单词：以当前处理的单词作为结束单词，确定至少一个当前候选词；针对每个当前候选词，将该当前候选词的联合标签分别与前一相邻文本的k个最优标签序列拼接，生成当前文本的候选标签序列，所述当前文本为所述待处理文本截止到结束单词时的文本，所述前一相邻文本为所述待处理文本截止到与当前候选词相邻的前一个单词时的文本；基于多类型特征，从当前文本的候选标签序列中确定出前k个最优的候选标签序列，得到当前文本的k个最优标签序列；

输出单元，用于从所述待处理文本的k个最优标签序列中，选择首个最优标签序列，得到待处理文本的目标标签序列。

本发明实施例还提供了一种实体发现与实体链接的联合处理装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的实体发现与实体链接的联合处理方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的实体发现与实体链接的联合处理方法的步骤。

与现有技术相比，本发明实施例提供的实体发现与实体链接的联合处理方法、装置及计算机可读存储介质，可以在实体链接过程中联合实体发现过程，从而提高实体链接的准确性。并且，本发明实施例还可以通过在线训练相关模型，进一步提高实体链接的性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的实体发现与实体链接的联合处理方法的一种应用场景示意图；

图2为本发明实施例的实体发现与实体链接的联合处理方法的一种流程示意图；

图3为本发明实施例中实体发现与实体链接的联合处理方法的应用示例图之一；

图4为本发明实施例中实体发现与实体链接的联合处理方法的应用示例图之二；

图5为本发明实施例的实体发现与实体链接的联合处理装置的一种结构示意图；

图6为本发明实施例的实体发现与实体链接的联合处理装置的另一种结构示意图；

图7为本发明实施例的实体发现与实体链接的联合处理装置的又一种结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外，为了清楚和简洁，省略了对已知功能和构造的描述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

如前文所述的，文本内容语义化是语言信息处理领域的基础支撑。为提高文本内容语义化的处理性能，本发明实施例提出了一种实体发现与实体链接的联合处理方法，可以在实体链接过程中联合实体发现过程，从而提高实体链接的准确性。并且，本发明实施例还可以通过在线训练相关模型，进一步提高实体链接的性能。

图1给出了可以应用本申请的实体发现与实体链接的联合处理方法的实施例的示例性系统架构100。如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以发送文本数据等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如文件编辑应用、信息搜索类应用、信息传输应用等。终端设备101、102、103可以是具有显示屏并且信息、文件发送的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是进行实体发现与实体链接的联合处理的服务器。具体的，服务器可以通过网络104收集并形成语义知识库，以及接收终端设备发送的待处理文本，将待处理文本中的实体发现链接到知识库中的候选链接实体，还可以向终端设备返回实体链接的结果。

当然，本发明实施例也可以由终端设备101、102、103执行上述实体发现与实体链接的联合处理方法，在处理过程中，可以有服务器105保存知识库，终端设备可以向服务器105查询候选词在知识库中的候选链接实体。作为一种替代方式，终端设备也可以从服务器105处下载知识库，从而可以在本地进行查询。

需要说明的是，本申请实施例所提供的实体发现与实体链接的联合处理方法可以由服务器105执行，相应地，实体发现与实体链接的联合处理装置可以设置于服务器105中。类似的，在上述联合处理方法由终端设备执行时，相应地，实体发现与实体链接的联合处理装置可以设置于终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

请参照图2，给出了本发明实施例提供的实体发现与实体链接的联合处理方法的一种流程示意图，如图2所示，该实体发现与实体链接的联合处理方法，可以应用于自然语言处理系统，具体包括：

步骤201，构建实体发现和实体链接的联合标签，所述联合标签包括候选词在待处理文本中的位置、候选词的类型及其在知识库中的一个候选链接实体，所述候选词为在所述待处理文本中位置连续且不超过预设数量的单词组成的单词序列。

这里，本发明实施例引入了一种联合标签，通过该联合标签，可以将实体发现及其在知识库中的候选链接实体关联起来，从而可以在后续的实体链接过程中计算各种候选链接实体组合的评分，以选择出最优的候选链接实体。

需要说明的是，本文中的候选词是对待处理文本进行分词处理后的单词所组成的单词序列。候选词可以包括所述待处理文本中连续且数量不超过n的单词，这里的n为预设的大于或等于1的整数。例如，在n＝3时，候选词可以包括所述待处理文本中的1个单词；所述待处理文本中2个位置连续的单词所组成的单词序列；以及，所述待处理文本中3个位置连续的单词所组成的单词序列。可以看出，待处理文本中的同一个单词，可以归属于一个或多个候选词，例如，某个单词可以单独作为一个候选词，也可以与相连的单词一起组合成其他的候选词。

在本发明实施例中，候选词可能是实体发现，也可能不是实体发现，知识库中可能存在某个候选词的候选链接实体，也可能不存在该候选词的候选链接实体，为便于统一处理，在不存在该候选词的候选链接实体时，可以在联合标签中标记该候选词的类型为空，该候选词在知识库中的候选链接实体也为空。

在上述步骤201中，可以针对待处理文本中的每个候选词，在知识库查询该候选词对应的候选链接实体；然后，根据查询到的候选词对应的候选链接实体以及候选词在所述待处理文本中的起始位置及结束位置，生成该候选词的联合标签，其中，每个联合标签对应于该候选词的一个候选链接实体。也就是说，同一个候选词在具有多个候选链接实体时，可以包括多个不同的联合标签，每个联合标签对应于其中一个候选链接实体。

具体的，在联合标签中，可以包括候选词在待处理文本中的位置，例如起始位置和结束位置，该位置以单词为单位，例如，候选词的位置是待处理文本的第5个单词，结束位置是待处理文本的第7个单词时，即表示该候选词由待处理文本的第5～7个单词组成。

联合标签还可以包括候选词的类型及其在知识库中的候选链接实体。这里，知识库包括但不限于与该方法所应用的场景对应的特定知识库，例如互联网语义知识库维基百科(Wikipedia)、DBPedia、百度百科(BaiduBaike)等。例如当候选词为“apple”时，从互联网语义知识库中可能搜索到“苹果”、“美国苹果公司”等多个候选链接实体。当待处理文本中的候选词确定后，可以根据该候选词直接在知识库中搜索与该候选词对应的实体作为候选链接实体。另外，为便于处理，联合标签中的候选链接实体也可以采用该候选链接实体在知识库中的标识(ID)/索引等表示。

在候选词为非实体发现时，可以设置该候选词的类型为空。在候选词为实体发现时，候选词的类型的确定需要用到实体类型本体。实体类型本体定义了现实世界中实体的类型以及类型之间的关系，比如实体最顶层的类型为对象(OBJECT)，OBJECT又包括人(PERSON)实体、位置(LOCATION)实体、组织(ORGANIZATION)实体、机关实体(GEO-POLITICALENTITY)等等，人实体又可以根据职业分类不同的类别。因此实体类型本体可以被理解为一个将实体从一般到具体的分类体系。实体类型本体有两种获得方法，第一种方法是使用已有的实体类型本体，例如网址http://www.dmoz.org/等等公开的实体类型；第二种方法是用户根据自己的需要定制自己的实体类型本体，本文对此不做限制。

在得到实体类型本体后，可以利用机器学习技术训练能够自动判断给定实体的类型的机器识别模型。其中机器学习技术包括有监督学习和无监督学习两种方法。有监督学习需要标注一些训练语料，比如需要识别PERSON实体，那么可以标注一些包含PERSON实体的训练语料，然后利用有监督学习模型如CRF、SVM和训练语料训练一个机器识别模型。利用这个机器识别模型就可以识别文本中的PERSON实体。对于其他实体类型可以根据与此相似的方式训练得到机器识别模型，最终得到能够自动判断给定实体的类型的机器识别模型。无监督学习方法可以利用专业词典识别实体的类型，比如可以利用地名词典通过字符串匹配的方法识别地名，或者根据一些模式来识别实体的类型，比如出现“<xxx总统>”则将xxx的类型识别为PERSON，通过一系列的无监督学习得到能够自动判断给定实体的类型的机器识别模型。

除了利用机器自动识别实体发现的类型外，用户也可以人工指定实体发现的类型，这里实体发现的类型要与实体类型本体中的类别相对应。也就是说，可以不通过机器判断而是由用户直接判断实体发现的类型。这样做的好处是，用户可以指定链接某些他感兴趣类型的实体，比如只链接短文本中PERSON或ORGANIZATION类型的实体。

需要说明的是，实体发现类型的判断也可以不依赖实体类型本体，即不需要预先确定实体与类型之间的对应关系，例如用户可以在确定实体发现的类型时随机指定实体发现的类型。

步骤202，利用预先生成的最优标签序列生成模型，从候选标签序列的集合中生成所述待处理文本的目标标签序列，所述候选标签序列为候选词序列中每个候选词的一个联合标签组成的序列，所述候选词序列为待处理文本中位置连续且互不重叠的候选词组成的序列。

这里，所述候选词序列是待处理文本中位置连续且互不重叠的候选词组成的序列，也就是说，候选词序列包括了待处理文本的所有单词，且任意两个候选词在待处理文本中的位置不发生重叠，即任意两个候选词之间没有位置相同的单词。

所述候选词序列中的每个候选词包括有至少一个联合标签，在该候选词不是实体发现时，该候选词的联合标签中的候选词类别及其对应的候选链接实体均为空。所述候选标签序列是由候选词序列中的每个候选词的一个联合标签所组成的标签序列，因此，本发明实施例中，一个待处理文本可能具有多个不同的候选词序列，一个候选词序列又可能具有多个不同的候选标签序列。本发明实施例所述的候选标签序列的集合，是指待处理文本的所有候选词序列的所有候选标签序列构成的集合。

本发明实施例所述联合处理方法，在构建实体发现和实体链接的联合标签后，可以利用机器学习技术，训练能够自动确定待处理文本的目标标签序列的最优标签序列生成模型。

在步骤202中，可以利用预先训练生成的最优标签序列生成模型，从候选标签序列的集合中生成所述待处理文本的目标标签序列，该最优标签序列生成模型具体可以用于：

从所述待处理文本的第一个单词开始，依次执行以下处理，直至最后一个单词：以当前处理的单词作为结束单词，确定至少一个当前候选词，即当前候选词中的最后一个单词为当前处理的单词；针对每个当前候选词，将该当前候选词的联合标签分别与前一相邻文本的k个最优标签序列拼接，生成当前文本的候选标签序列，所述当前文本为所述待处理文本截止到结束单词时的文本，所述前一相邻文本为所述待处理文本截止到与当前候选词相邻的前一个单词时的文本；基于多类型特征，从当前文本的候选标签序列中确定出前k个最优的候选标签序列，得到当前文本的k个最优标签序列；这里，所述k为预先设置的一个正整数，通常可以大于1。所述多类型特征包括以下特征中的一种或多种：实体发现特征；实体链接特征；以及，实体发现与实体链接的联合特征；

然后，从所述待处理文本的k个最优标签序列中，选择首个最优标签序列，得到待处理文本的目标标签序列。

具体的，在生成当前文本的候选标签序列之后，可以根据当前文本与候选标签序列的特征向量以及最优标签序列生成模型的模型参数，确定当前文本的k个最优标签序列。所述特征向量可以包括文本相似度和/或主题相似度，所述模型参数可以包括特征向量对应的权重参数。文本相似度和主题相似度可以利用现有技术的各种相似度计算方式，本文对此不做具体限制。另外，以上仅为确定最优标签序列的一种示例，不同模型可能具有不同的模型参数，另外，特征向量也可以采用现有技术的其他向量来表示，本文对此不做限制。

这样，在处理到待处理文本中的最后一个单词后，将会生成待处理文本的k个最优标签序列，进而将待处理文本的首个最优标签序列，作为待处理文本的目标标签序列。

步骤203，将目标联合标签对应的候选词中的实体发现，链接到所述目标联合标签中的候选链接实体，所述目标联合标签为所述目标标签序列中的联合标签。

这里，如前文所述的，候选词可能是实体发现，也可能不是。在获得待处理文本的目标标签序列后，可以将其中目标联合标签对应的候选词中的实体发现，链接到所述目标联合标签中的候选链接实体，从而得到实体发现对应的链接实体。例如，在目标标签序列中的某个联合标签的候选链接实体不为空时，即表示该联合标签对应的候选词为实体发现，且该实体发现应链接至该联合标签中的候选链接实体。

通过以上步骤，本发明实施例通过联合标签，实现了联合实体链接与实体发现过程，从而可以提高实体链接的准确性。

本发明实施例中，所述最优标签序列生成模型可以利用训练样本预先训练获得，具体的训练方式可以参考现有技术的机器学习技术，例如，首先初始化模型参数，然后，将训练样本输入该模型，获得模型预测的目标标签序列；然后，设置目标函数为人工标注的所述训练样本的目标标签序列与模型预测的目标标签序列之间的差异，通过更新模型参数，使所述差异最小化，当达到预先设置的训练结束条件(如迭代次数达到或差异已小于预定门限)结束训练，获得训练好的最优标签序列生成模型。

更进一步的，在上述步骤203之后，本发明实施例还可以对所述最优标签序列生成模型进行在线训练，例如，获取人工标注的所述待处理文本的目标标签序列，然后，根据所述最优标签序列生成模型生成的目标标签序列以及人工标注的目标标签序列，更新所述最优标签序列生成模型。例如，根据两种目标标签序列之间的差异，更新所述最优标签序列生成模型的模型参数。

为帮助理解以上方法，下面通过一个具体示例作进一步说明。

假设待处理文本为“大卫效力于曼彻斯特联”这样一句话。通过分词处理后，划分为图3所示的5个单词，分别为：大卫、效力、于、曼彻斯特、联。假设候选词包括有待处理文本中位置连续且数量不超过2的单词，通过查询知识库，可以构建各个候选词的联合标签301～308。其中，联合标签中的第1个元素表示候选词在待处理文件中的起始位置，第2个元素表示候选词在待处理文件中的结束位置，第3个元素表示候选词的类型，第4个元素表示候选词在知识库中的一个候选链接实体。

例如，候选词“大卫”所对应的3个联合标签，分别是联合标签301～303：(1，1，地点，大卫市)、(1，1，人，贝克汉姆)和(1，1，人，卡梅隆)。可以看出，候选词“大卫”是一个实体发现。候选词“效力”未能在知识库中找到对应的候选链接实体，因此其联合标签304为(2，2，No，No)，其中的“No”表示对应元素为空。类似的，生成了其他候选词的联合标签，例如，对于2个连续单词“曼彻斯特”和“联”组成的候选词“曼彻斯特联”，其联合标签308则为(4，5，组织，曼联队)。

在构建联合标签之后，可以生成待处理文本的目标标签序列，具体的，从待处理文本的第一个单词开始直到最后一个单词，以每个单词为结束单词确定至少一个当前候选词；针对每个当前候选词，将该当前候选词的联合标签分别与前一相邻文本的k个最优标签序列拼接，生成当前文本的候选标签序列，所述当前文本为所述待处理文本截止到结束单词时的文本，所述前一相邻文本为所述待处理文本截止到与当前候选词相邻的前一个单词时的文本；基于多类型特征，从当前文本的候选标签序列中确定出前k个最优的候选标签序列，得到当前文本的k个最优标签序列。然后，从所述待处理文本的k个最优标签序列中，选择首个最优标签序列，得到待处理文本的目标标签序列。这里假设k为3。

例如，假设从图3中的第1个单词“大卫”开始，生成以单词“大卫”为结束单词的候选词，此时生成的当前候选词为“大卫”，且当前文本为“大卫”，由于当前候选词“大卫”只有3个联合标签，因此生成的当前文本“大卫”的候选标签序列有3种，分别是{联合标签301}；{联合标签302}；{联合标签303}。将当前文本的k个最优标签序列添加至缓存中。

然后，继续处理第2个单词“效力”，此时当前文本为“大卫效力”。由于单词“效力”仅具有一个联合标签，且知识库中不存在以该单词为结束的链接实体，因此生成的当前文本“大卫效力”的候选标签序列是候选词“效力”的联合标签与前一相邻文本“大卫”的k个最优标签序列的拼接，假设得到当前文本“大卫效力”的候选标签序列有3种，分别是{联合标签301，联合标签304}；{联合标签302，联合标签304}；{联合标签303，联合标签304}。将当前文本的k个最优标签序列添加至缓存中。

然后，继续处理第3个单词“于”，此时当前文本为“大卫效力于”。类似的，通过拼接等处理，可以得到当前文本“大卫效力于”的候选标签序列有3种，分别是{联合标签301，联合标签304，联合标签305}；{联合标签302，联合标签304，联合标签305}；{联合标签303，联合标签304，联合标签305}。将当前文本的k个最优标签序列添加至缓存中。

然后，继续处理第4个单词“曼彻斯特”，此时当前文本为“大卫效力于曼彻斯特”。确定以“曼彻斯特”为结束单词的候选词，然后将候选词的联合标签与前一相邻文本的k个最优标签序列拼接，生成当前文本的候选标签序列，进而确定其中k个最优标签序列，假设得到当前文本“大卫效力于曼彻斯特”的候选标签序列有3种，分别是{联合标签301，联合标签304，联合标签305，联合标签306}；{联合标签302，联合标签304，联合标签305，联合标签306}；{联合标签303，联合标签304，联合标签305，联合标签306}。

最后，迭代到最后一个单词“联”，此时生成以该单词为结束单词的候选词包括“联”和“曼彻斯特联”，针对候选词“联”，通过与前一相邻文本“大卫效力于曼彻斯特”的前3个最优标签序列的拼接处理，可以得到当前文本“大卫效力于曼彻斯特联”的3个候选标签序列，即，{联合标签301，联合标签304，联合标签305，联合标签306，联合标签307}；{联合标签302，联合标签304，联合标签305，联合标签306，联合标签307}；{联合标签303，联合标签304，联合标签305，联合标签306，联合标签307}。另外，针对候选词“曼彻斯特联”，通过与前一相邻文本“大卫效力于”的前3个最优标签序列的拼接处理，可以得到当前文本“大卫效力于曼彻斯特联”的3个候选标签序列，即，{联合标签301，联合标签304，联合标签305，联合标签308}；{联合标签302，联合标签304，联合标签305，联合标签308}；{联合标签303，联合标签304，联合标签305，联合标签308}。这样一共得到待处理文本的6个候选标签序列，然后，从这6个候选标签序列中确定出一个最优的候选标签序列，作为待处理文本的目标标签序列，如图4所示，即为{联合标签302，联合标签304，联合标签305，联合标签308}。

然后，将目标联合标签对应的候选词中的实体发现，链接到所述目标联合标签中的候选链接实体，所述目标联合标签为所述目标标签序列中的联合标签。例如，对于目标联合标签302，其对应的候选词为“大卫”，“大卫”也是实体发现，该实体发现链接至目标联合标签302中的候选链接实体“贝克汉姆”

从以上所述可以看出，本发明实施例的联合处理方法，通过建立一个联合模型来结合实体发现与实体链接这两个任务，将实体发现和实体链接纳入到联合模型中，以避免传统流水线方法的弱点，并在两个任务中取得较好的结果。

基于以上实施例所提供的实体发现与实体链接的联合处理方法，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的实体发现与实体链接的联合处理方法中的步骤。

基于以上方法，本发明实施例还提供了实施上述方法的装置，请参考图5，本发明实施例提供的实体发现与实体链接的联合处理装置500，包括：

标签构建单元501，用于构建实体发现和实体链接的联合标签，所述联合标签包括候选词在待处理文本中的位置、候选词的类型及其在知识库中的一个候选链接实体，所述候选词为在所述待处理文本中位置连续且不超过预设数量的单词组成的单词序列；

目标标签序列生成单元502，用于利用预先生成的最优标签序列生成模型，从候选标签序列的集合中生成所述待处理文本的目标标签序列，所述候选标签序列为候选词序列中每个候选词的一个联合标签组成的序列，所述候选词序列为待处理文本中位置连续且互不重叠的候选词组成的序列；

实体链接单元503，用于将目标联合标签对应的候选词中的实体发现，链接到所述目标联合标签中的候选链接实体，所述目标联合标签为所述目标标签序列中的联合标签。

通过以上单元，本发明实施例的实体发现与实体链接的联合处理装置500，通过联合标签将实体发现和实体链接过程相联合，可以提高实体链接的准确性。

请参照图6，本发明实施例提供的另一种实体发现与实体链接的联合处理装置600，除了包括图5中的类似单元外，还包括：

模型更新单元504，用于获取人工标注的所述待处理文本的目标标签序列；根据所述最优标签序列生成模型生成的目标标签序列以及人工标注的目标标签序列，更新所述最优标签序列生成模型。

通过上述模型更新单元504，本发明实施例可以在线训练相关模型，进一步提高实体链接的准确性。

作为一种实现方式，以上实施例提供的实体发现与实体链接的联合处理装置500或联合处理装置600中，所述标签构建单元501具体可以包括：

作为一种实现方式，所述目标标签序列生成单元502可以包括：

具体的，所述多类型特征包括以下特征中的一种或多种：实体发现特征；实体链接特征；以及，实体发现与实体链接的联合特征。

请参考图7，本发明实施例还提供了实体发现与实体链接的联合处理装置的一种硬件结构框图，如图7所示，该实体发现与实体链接的联合处理装置700包括：

处理器702；和

存储器704，在所述存储器704中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器702执行以下步骤：

进一步地，如图7所示，该实体发现与实体链接的联合处理装置700还包括网络接口701、输入设备703、硬盘705、和显示设备706。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器702代表的一个或者多个中央处理器(CPU)，以及由存储器704代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口701，可以连接至网络(如因特网、局域网等)，从网络中接收信息，并可以将接收到的信息保存在硬盘705中，例如，将接收到的用于生成语料数据的文本数据保存在硬盘705中。

所述输入设备703，可以接收操作人员输入的各种指令，并发送给处理器702以供执行。所述输入设备703可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备706，可以将处理器702执行指令获得的结果进行显示，例如显示所生成的目标基本信息单元的扩展词表示等。

所述存储器704，用于存储操作系统运行所必须的程序和数据，以及处理器702计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器704可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器704旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器704存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统7041和应用程序7042。

其中，操作系统7041，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序7042，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序7042中。

本发明上述实施例揭示的方法可以应用于处理器702中，或者由处理器702实现。处理器702可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器702中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器702可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器704，处理器702读取存储器704中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，所述计算机程序被处理器702执行时还可实现如下步骤：

获取人工标注的所述待处理文本的目标标签序列；

具体地，所述多类型特征包括以下特征中的一种或多种：实体发现特征；实体链接特征；以及，实体发现与实体链接的联合特征。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种实体发现与实体链接的联合处理方法，其特征在于，包括：

2.如权利要求1所述的联合处理方法，其特征在于，还包括：

获取人工标注的所述待处理文本的目标标签序列；

3.如权利要求1或2所述的联合处理方法，其特征在于，所述构建实体发现和实体链接的联合标签的步骤，包括：

4.如权利要求3所述的联合处理方法，其特征在于，所述利用预先生成的最优标签序列生成模型，从候选标签序列的集合中生成所述待处理文本的目标标签序列的步骤，包括：

5.如权利要求4所述的联合处理方法，其特征在于，所述多类型特征包括以下特征中的一种或多种：实体发现特征；实体链接特征；以及，实体发现与实体链接的联合特征。

6.一种实体发现与实体链接的联合处理装置，其特征在于，包括：

7.如权利要求6所述的联合处理装置，其特征在于，还包括：

8.如权利要求6或7所述的联合处理装置，其特征在于，所述标签构建单元包括：

9.如权利要求8所述的联合处理装置，其特征在于，所述目标标签序列生成单元包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的实体发现与实体链接的联合处理方法的步骤。