CN110866399B

CN110866399B - 一种基于增强字符向量的中文短文本实体识别与消歧方法

Info

Publication number: CN110866399B
Application number: CN201911019637.4A
Authority: CN
Inventors: 向阳; 杨力; 徐忠国
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2023-05-02
Anticipated expiration: 2039-10-24
Also published as: CN110866399A

Abstract

本发明涉及一种基于增强字符向量的中文短文本实体识别与消歧方法，该方法包括以下步骤：步骤1：结合提及库与上下文语境对输入文本进行实体识别；步骤2：根据待消歧提及与候选实体的语义匹配对经过实体识别处理后的文本进行实体消歧。与现有技术相比，本发明提供一种基于增强字符向量的神经网络输入，包括引入提及词典库信息和提及位置信息，实现中文短文本实体识别与消歧的方法。

Description

一种基于增强字符向量的中文短文本实体识别与消歧方法

技术领域

本发明涉及神经语言程序学(Neuro-Linguistic Programming，NLP)领域，涉及一种中文短文本的实体链接方法，尤其是涉及一种基于增强字符向量的中文短文本实体识别与消歧方法。

背景技术

实体链接(Entity Linking，EL)旨在识别文本中实体潜在的、模糊的提及，并将它们链接到目标知识库(Knowledge Base，KB)。对于许多NLP任务(如知识融合、知识库构建和基于知识库的问答系统)来说，这是一个必不可少的步骤。EL系统通常由两个子任务组成：(1)实体识别(Entity Recognition，ER)：从文本片段中提取所有潜在的实体引用(即提及)；(2)实体消歧(Entity Disambiguation，ED)：将这些有歧义的提及映射到KB中的正确实体。

实体链接已经研究多年，并借助神经网络取得了很大的进步。但大多数研究工作都是为英文语料库设计的，尤其是长文本。而与英语长文本的实体链接相比，中文短文本实体链接是一项更具挑战性的任务。首先，中文文本缺乏显式的分隔符，如缺少空格来分隔单词，因此很难识别提及的边界。以往对中文的实体识别的研究主要分为两类：基于单词序列输入和基于字符序列输入的方法。基于字符序列输入的方法已被证实要优于基于单词序列输入的方法，因为它不会受分词错误的影响。然而，这种方法不能完全利用潜在的有用的单词序列信息。为此，研究需要加入外部信息来改进其性能。其次，最近很多实体消歧模型利用全局上下文来捕捉在文档中一组相关的提及所对应的实体之间的一致性，以达到联合消歧的目的。然而，短文本往往噪声多，缺乏连贯性和丰富的全局信息，使得联合消歧模型无法直接应用。最后，在使用神经网络产生提及表征(Mention Representation)的时候，研究应考虑提及的位置，否则同一文本中的所有提及都被视为相同。以前的研究通常通过将上下文拆分为两个部分来考虑提及的位置：提及的左侧子句和右侧子句，并使用一对神经网络来分别处理这两个子句。然而这种并不适合短文本的情况，因为两侧的子句都会比原始文本短，更难提取有用的语义信息。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于增强字符向量的神经网络输入，包括引入提及词典库信息和提及位置信息，实现中文短文本实体识别与消歧的方法。

本发明的目的可以通过以下技术方案来实现：

一种基于增强字符向量的中文短文本实体识别与消歧方法，该方法显式结合提及库匹配信息和提及位置信息，包括以下步骤：

步骤1：结合提及库与上下文语境对输入文本进行实体识别；

步骤2：根据待消歧提及与候选实体的语义匹配对经过实体识别处理后的文本进行实体消歧。

进一步地，显式结合提及库匹配信息，所述的步骤1包括以下分步骤：

步骤11：根据输入文本获得字符序列，训练字符序列得到字符向量

步骤12：将所述字符序列输入至预训练语言模型中得到字符上下文向量

步骤13：针对所述输入文本进行切割得到邻接字序列，训练邻接字序列得到邻接字符向量

步骤14：使用分词工具导入提及词典库，并针对所述输入文本进行分词得到词序列，训练词序列得到字符所在词向量

步骤15：针对所述词序列进行分词边界标注得到字符位置标注序列，训练字符位置标注序列得到字符位置向量

步骤16：将所述字符序列和所述字符位置标注序列组合得到融合位置信息的字符序列，训练融合位置信息的字符序列得到位置感知字符向量

步骤17：结合所述提及词典库和所述输入文本得到候选提及列表，利用标注集标注字符在所述候选提及列表中的位置得到最大匹配标注序列，训练最大匹配标注序列得到最大匹配标注向量

步骤18：针对所述字符序列中的每个字符构造N元片段序列与所述提及词典库进行匹配，并利用所有构造的所述N元片段序列得到多热N元匹配特征向量

步骤19：将每个字符对应的步骤11～步骤18的各特征向量拼接成增强字符向量并构成序列，并输入至序列标注网络模型进行训练以识别出提及列表。

进一步地，显式结合提及位置信息，所述的步骤2包括以下分步骤：

步骤21：将步骤1中得到的识别结果，即提及列表输入至提及到实体的映射表中并得到候选实体列表；

步骤22：获取步骤1中输入文本的每个字符至所述提及列表的相对距离，并将所述相对距离转化为连续的字符相对距离向量

步骤23：将字符相对距离向量

与步骤1中输入文本对应的字符向量拼接得到位置增强的字符向量

并输入至消歧网络模型中并最终得到提及表征r^m；

步骤24：输入所述候选实体列表的描述文本至消歧网络模型中并最终得到实体表征r^e；

步骤25：计算提及表征r^m与实体表征r^e的余弦匹配相似度e_j，并根据余弦匹配相似度e_j选择得分最高的候选实体输出，实现实体消歧。

进一步地，所述步骤23中的提及表征r^m，其计算公式为：

式中，

和

分别为将位置增强的字符向量输入至消歧网络模型中得到的隐藏状态序列中的第一个量和最后一个量，

表示自注意力机制向量。

进一步地，所述自注意力机制向量的计算公式为：

式中，

表示对应提及表征的映射参数，

和

分别表示对应提及表征的所述隐藏状态序列中的第i个量和第k个量，

和

分别表示对应提及表征的第i个和第k个自注意力权重。

进一步地，所述步骤24中的实体表征r^e，其计算公式为：

式中，

和wα表示对应实体表征的映射参数，

和

分别表示输入所述候选实体列表的描述文本至消歧网络模型中得到的隐藏状态序列中的第i个量和第t个量，

和

分别表示对应实体表征的第i个和第k个注意力权重。

进一步地，所述步骤25中的余弦匹配相似度e_j，其计算公式为：

式中，

表示第j个提及表征，

表示根据第j个提及表征得到的第k个实体表征。

进一步地，所述步骤11中的字符序列的训练方法采用Word2vec、FastText或Glove；所述步骤12中的预训练语言模型为BERT、ERNIE或BERT_wwm；所述步骤13中的邻接字序为Bi-gram；所述步骤14中的分词工具为jieba、THULAC或HanLP；所述步骤14中的词序列的训练方法采用Word2vec、FastText或Glove；所述步骤16中的融合位置信息的字符序列的训练方法采用Word2vec、FastText或Glove；所述步骤19中的序列标注网络模型为BiLSTM+CNN+CRF。

进一步地，所述步骤23和步骤24中的消歧网络模型为BiLSTM+CNN。

与现有技术相比，本发明具有以下优点：

(1)本发明方法步骤中显式引入提及词典库信息，充分利用句子中单词的语义信息，同时不受分词错误的影响，有利于提及边界的识别。

(2)本发明网络模型的BiLSTM能捕捉全局信息，CNN能捕捉局部信息，CRF能保证连续标注之间的依赖性，适合中文短文本长度短的特点。

(3)本发明方法步骤中充分考虑实体识别模型抽取的提及位置信息，有效产生提及表征，精确消解实体歧义。

(4)本发明方法步骤中通过字符、词组语境信息拼接，弥补了上下文语义不足，增强了字符向量的语义表达。

附图说明

图1为本发明方法实体识别部分的模型示意图；

图2为本发明方法实体消歧部分的模型示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

本发明方法的技术方案分为2个部分：结合提及库与上下文语境进行实体识别，如图1所示，图中Enhanced Character Embedding表示增强字符向量；根据待消歧提及与候选实体的语义匹配进行实体消歧，如图2所示，图中Cosine similarity表示余弦相似度，Mention embedding表示提及向量，Entity embedding表示实体向量，First表示第一个，Last表示最后一个，Maxpool表示最大池化，Self-attention表示自注意力机制，Attentionor Maxpooling表示注意力机制或最大池化机制，Mention context表示提及文本，Entitydescription表示实体描述，Embedding表示字符向量，Position表示提及位置，具体内容如下：

第一部分的主要步骤为：

1.1输入中文短文本s，得到字符序列s^c＝{c₁，c₂，...，c_n}，其中n表示总字符数；训练s^c得到维度大小为d₁的字符向量

其中e^c为训练字符序列产生的字符向量查找表，c_i表示s^c中第i个字符。

1.2将1.1所述的s^c输入至大规模语料预训练的语言模型中，得到维度大小为d₂的字符上下文向量

其中e¹为预训练语言模型产生的字符上下文向量查找表。

1.3将1.1所述的s切成邻接字序s^b＝{c₁c₂，c₂c₃，...，c_n-1c_n}，训练s^b得到维度大小为d₃的邻接字符向量

其中e^b为训练邻接字序列产生的邻接字符向量查找表。

1.4使用分词工具导入提及词典库M＝{m₁，m₂，...，m_u}，其中u表示提及词典总数；对1.1所述的s进行分词得到词序列s^w＝{w₁，w₂，...，w_l}，l表示分词总数；训练s^w得到维度大小为d₄的字符所在词向量

其中e^w为训练词序列产生的词向量查找表；w_j是s^w中第j个词，表示字符c_i所在的单词。

1.5使用对应标注集P对1.4的词序列进行分词边界标注，得到字符位置标注序列s^p＝{p₁，p₂，...，p_n}；训练s^p得到维度大小为d₅的字符位置向量

其中e^p为位置标注向量查找表，p_i为s^p中第i个标注符号。

1.6将1.1所述的字符序列s^c与对应1.5所述的字符位置标注序列s^p组合，得到融合位置信息的字符序列

训练s^cp得到维度大小为d₆的位置感知字符向量

其中e^cp为训练融合位置信息的字符序列产生的位置感知字符向量查找表。

1.7使用双向最大匹配算法，结合提及词典库M来找出1.1所述的中文短文本s的候选提及列表s^h＝{h₁，h₂，...，h_r}，其中r表示总候选提及数；再使用对应标注集T标注字符在候选提及的位置，得到最大匹配标注序列s^t＝{t₁，t₂，...，t_n}；训练s^t得到维度大小为d₇的最大匹配标注向量

其中e^t为最大匹配标注向量查找表；t_i为s^t中第i个标注符号。

1.8为1.1所述的c_i构造N元片段序列

与提及词典库M进行匹配，其中

以c_i为中心扩充s长度为2n-1，从而保证单个序列的元素个数为2n-2；将这些N元片段构造一个多热N元匹配特征向量

1.9将1.1～1.8所述每个字符c_i的特征向量拼接成增强字符向量x_i：

n个x_i构成序列x＝{x₁，x₂，...，x_n}；输入x到序列标注模型进行训练，识别出提及列表m＝{m₁，m₂，...，m_k}，其中每个提及m_j＝{c_q...c_r}均是s的一个子句。

第二部分的主要步骤为：

2.1将1.9所述的实体识别结果m作为待消歧实体，输入到提及到实体的映射表Q＝{m→E}中，为每个提及m_j产生一个候选实体列表E_j＝{e_j，1e_j，2，...，e_j，k}。

2.2计算1.1所述文本的每个字符c_i到提及m的相对距离d_i，将之转为连续的字符相对距离向量

其中e^b为字符相对距离向量查找表；

2.3将1.1所述的字符向量

拼接2.2所述的字符相对距离向量

得到位置增强的字符向量

将

输入到消歧网络模型中，得到隐藏状态序列

选取来自提及部分的隐藏状态序列

的第一个、最后一个以及对该部分序列进行自注意力机制计算的结果进行拼接，得到提及表征r^m：

式中，

和

表示自注意力机制向量。

其中自注意力机制向量的计算如下：

式中，

表示对应提及表征的映射参数，

和

和

分别表示对应提及表征的第i个和第k个自注意力权重。

2.4输入候选实体e的描述文本

到消歧网络模型，得到隐藏状态序列

再进行注意力机制计算，输出实体表征r^e：

式中，

和w_α表示对应实体表征的映射参数，

和

和

分别表示对应实体表征的第i个和第k个注意力权重。

2.5计算2.3所述的提及表征与2.4所述的实体表征的余弦匹配相似度

式中，

表示第j个提及表征，

表示根据第j个提及表征得到的第k个实体表征。

根据e_j选择得分最高的候选实体输出，实现实体消歧。

进一步地，1.1所述的训练的方法为Word2vec、FastText、Glove中的一种；

进一步地，1.2所述的预训练语言模型为BERT、ERNIE、BERT_wwm中的一种；

优选地，1.3所述的邻接字序列为Bi-gram；

进一步地，1.4所述的分词工具为jieba、THULAC、HanLP中的一种；

进一步地，1.4所述的训练的方法为Word2vec、FastText、Glove中的一种；

优选地，1.5所述标注每个字符在分词中的位置，是将第一个字符标记为B，中间字符标记为M，最后一个字符标记为E，单独作为一个词的字符标记为S。

进一步地，1.6所述的训练的方法为Word2vec、FastText、Glove中的一种；

进一步地，1.7所述标注每个字符在候选提及的位置，是将候选提及第一个字符标记为B，中间字符标记为M，最后一个字符标记为E，不在候选提及的字符标记为O。

优选地，1.9所述的序列标注网络模型为BiLSTM+CNN+CRF；

优选地，2.3所述消歧网络模型为BiLSTM+CNN；

优选地，2.4所述消歧网络模型为BiLSTM+CNN；

实施例

第一部分实体识别的主要步骤为：

1.1输入中文短文本“比特币吸粉无数”，得到字符序列[‘比’，‘特’，‘币’，‘吸’，‘粉’，‘无’，‘数’]，字符数为7个，使用Word2vec的方法进行预训练，得到300维字符向量；

1.2输入1.1所述的中文短文本至大规模语料预训练的语言模型BERT中，得到768维的字符上下文向量；

1.3将1.1所述的中文短文本切成Bi-gram字序列[‘比特’，‘特币’，‘币吸’，‘吸粉’，‘粉无’，‘无数’]，然后使用Word2vec的方法训练得到300维的邻接字符向量。

1.4输入1.1所述的中文短文本，将提及词典库导入至jieba分词工具而后进行分词，得到的词序列为：[‘比特币’，‘吸粉’，‘无数’]，使用Word2vec的方法训练得到300维字符所在词向量；

1.5对1.4所述的分词词序列使用标注集P＝{B，M，E，S}进行分词边界标注，得到字符位置标注序列：[B，M，E，B，E，B，E]，为这四个标记分别随机初始化一个50维向量，然后在模型训练时再进行优化。

1.6将1.5所述的字符位置标注序列与对应字符序列组合：[‘比B’，‘特M’，‘币E’，‘吸B’，‘粉E’，‘无B’，‘数E’]。对这些加入了位置信息的字序列使用Word2vec的方法进行训练，得到300维的位置感知字符向量。

1.7结合双向最大匹配算法和提及词典库来划分1.1所述的中文短文本，得到序列：[‘比特币’，‘吸’，‘粉’，‘无’，‘数’]，再使用标注集T＝{B，M，E，O}标注为[B，M，E，O，O，O，O]，为这四个标记分别随机初始化一个50维向量，然后在模型训练时再进行优化。

1.8将1.1所述的中文短文本中的每个字符为首(尾)的Bi-gram，Tri-gram，4-gram，5-gram，6-gram，7-gram片段与提及词典库进行匹配，生成14维的多热N元匹配特征向量；

1.9将上述向量相拼接构成增强字符向量，输入如图1所示的网络模型进行训练，得到实体识别结果：[‘比特币’]。

第二部分实体消歧的主要步骤为：

2.1将1.9所述的实体识别结果作为待消歧实体，输入到提及到实体的映射表产生候选实体列表：[‘比特币(货币)’，‘比特币(书籍)’]；

2.2计算1.1所述文本的每个字符到提及[‘比特币’]的相对距离，进一步得到50维的字符相对距离向量；

2.3将1.1所述的字符向量拼接2.2所述的字符相对距离向量，输入到如图2所示的网络模型，对隐藏状态序列计算得到[‘比特币’]的提及表达；

2.4分别输入候选实体[‘比特币(货币)’]和[‘比特币(书籍)’]的描述文本到如图2的网络模型，对隐藏状态序列进行得到各自的实体表征；

2.5分别计算2.3所述的[‘比特币’]提及表征与2.4所述的[‘比特币(货币)’]实体表征和[‘比特币(书籍)’]实体表征的余弦匹配相似度，选择得分最高的候选实体[‘比特币”(货币)’]输出，实现实体消歧。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于增强字符向量的中文短文本实体识别与消歧方法，其特征在于显式结合提及库匹配信息和提及位置信息，该方法包括以下步骤：

步骤1：结合提及库与上下文语境对输入文本进行实体识别；

步骤2：根据待消歧提及与候选实体的语义匹配对经过实体识别处理后的文本进行实体消歧；

该方法显式结合提及库匹配信息，所述的步骤1包括以下分步骤：

2.根据权利要求1所述的一种基于增强字符向量的中文短文本实体识别与消歧方法，其特征在于显式结合提及位置信息，所述的步骤2包括以下分步骤：

步骤23：将字符相对距离向量

并输入至消歧网络模型中并最终得到提及表征r^m；

3.根据权利要求2所述的一种基于增强字符向量的中文短文本实体识别与消歧方法，其特征在于，所述步骤23中的提及表征r^m，其计算公式为：

式中，

和

表示自注意力机制向量。

4.根据权利要求3所述的一种基于增强字符向量的中文短文本实体识别与消歧方法，其特征在于，所述自注意力机制向量的计算公式为：

式中，

表示对应提及表征的映射参数，

和

和

分别表示对应提及表征的第i个和第k个自注意力权重。

5.根据权利要求2所述的一种基于增强字符向量的中文短文本实体识别与消歧方法，其特征在于，所述步骤24中的实体表征r^e，其计算公式为：

式中，

和w_α表示对应实体表征的映射参数，

和

和

分别表示对应实体表征的第i个和第k个注意力权重。

6.根据权利要求2所述的一种基于增强字符向量的中文短文本实体识别与消歧方法，其特征在于，所述步骤25中的余弦匹配相似度e_j，其计算公式为：

式中，

表示第j个提及表征，

表示根据第j个提及表征得到的第k个实体表征。

7.根据权利要求1所述的一种基于增强字符向量的中文短文本实体识别与消歧方法，其特征在于，所述步骤11中的字符序列的训练方法采用Word2vec、FastText或Glove；所述步骤12中的预训练语言模型为BERT、ERNIE或BERT_wwm；所述步骤13中的邻接字序为Bi-gram；所述步骤14中的分词工具为jieba、THULAC或HanLP；所述步骤14中的词序列的训练方法采用Word2vec、FastText或Glove；所述步骤16中的融合位置信息的字符序列的训练方法采用Word2vec、FastText或Glove；所述步骤19中的序列标注网络模型为BiLSTM+CNN+CRF。

8.根据权利要求2所述的一种基于增强字符向量的中文短文本实体识别与消歧方法，其特征在于，所述步骤23和步骤24中的消歧网络模型为BiLSTM+CNN。