CN111104520B

CN111104520B - 一种基于人物身份的人物实体链接方法

Info

Publication number: CN111104520B
Application number: CN201911149062.8A
Authority: CN
Inventors: 李举; 刘方然; 李金波; 徐常亮
Original assignee: Xinhua Zhiyun Technology Co ltd
Current assignee: Xinhua Zhiyun Technology Co ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2023-06-30
Anticipated expiration: 2039-11-21
Also published as: CN111104520A

Abstract

本发明涉及实体链接技术领域，具体地说，涉及一种基于人物身份的人物实体链接方法。其包括训练深度学习模型，从人物实体信息中进行身份抽取，找到人物名称在文中出现的句子，进行人物身份抽取，阈值判断。该基于人物身份的实体链接方式，人物身份信息的人物实体链接准确率高达93％+，特别对于文中带有人物身份描述的链接场景，效果更佳，采取深度学习模型从实体信息和文本中抽取人物身份信息，然后使用深度学习模型将身份信息转换为句向量，进而进行相似度比较，通过与阈值大小的比较，最终判断实体是否链接成功。

Description

一种基于人物身份的人物实体链接方法

技术领域

本发明涉及实体链接技术领域，具体地说，涉及一种基于人物身份的人物实体链接方法。

背景技术

随着网络数据以指数级别增长，网络已经成为最大的数据仓库之一，且大量的数据在网络上以自然语言的形式呈现。但是自然语言本身具有高度的歧义性，尤其是对于一些出现频率较高的实体，它们可能对应多个名称，而每个名称又可能对应多个同名实体。另一方面，类似像DBpdia，YAGO这样的实体知识库也在通过信息抽取等技术的发展而不断进行丰富和构建。因此，如果能够将网络数据与知识库连接起来，我们就可以对网络上的自然语言进行标注，这对我们理解网络数据的语义信息将提供很大的便利。而实现这一步的关键便是实体链接技术。给定一个富含一系列实体的知识库与已经标注好mention的语料，实体链接任务的目标是将每一个mention匹配到知识库中它所对应的实体上面，如果知识库中没有某一mention对应的实体项，则认为该mention不可链接到当前知识库，标记为NIL。实体链接技术在信息抽取，信息检索，内容分析，自动问答，知识库扩充等领域都有着广泛的应用。现有的实体链接方案大多是把实体信息与全文的文本信息进行比较，缺少对实体关键信息和全文中关于实体的有效相关信息的提取，致使引用了实体和全文中大量无用的噪声文本，导致链接准确率往往不够理想。

发明内容

本发明的目的在于提供一种基于人物身份的人物实体链接方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供一种基于人物身份的人物实体链接方法，其方法包括如下步骤：

步骤一：训练一个给定一段文本抽取出其中相应身份信息的深度学习模型，模型记做M；

步骤二：使用模型M从人物实体信息中进行身份抽取，记做a；

步骤三：找到人物名称在文中出现的句子，并将其拼接起来，记做S；

步骤四：使用模型M对拼接起来的句子S进行人物身份抽取，记做b；

步骤五：判断b是否为空，若为空，取S的第一句话记做S1，使用BERT分别计算a，S1的句向量，然后使用余弦定理计算a和S1的相似度，记做sim2，判断sim2与阈值SIM2的大小，若sim2>＝SIM2，则表示链接成功，若sim2<SIM2，则表示链接失败；

步骤六：若b不为空，使用BERT分别计算a，b的句向量，然后使用余弦定理计算a和b的相似度，记做sim1，判断sim1与阈值SIM1的大小，若sim1>＝SIM1，则表示链接成功。

作为优选，所述步骤一中，深度学习模型M架构为：word2vec+Bi-LSTM+CRF。

作为优选，所述word2vec为Google开源的一款将单词转换为向量的工具。

作为优选，所述LSTM的全称是Long Short-Term Memory，为RNN(RecurrentNeural Network)的一种。

作为优选，所述Bi-LSTM由前向LSTM与后向LSTM组合而成。

与现有技术相比，本发明的有益效果：该基于人物身份的人物实体链接方法中，基于人物身份的实体链接方式，人物身份信息的人物实体链接准确率高达93％+，特别对于文中带有人物身份描述的链接场景，效果更佳，采取深度学习模型从实体信息和文本中抽取人物身份信息，然后使用深度学习模型将身份信息转换为句向量，进而进行相似度比较，通过与阈值大小的比较，最终判断实体是否链接成功。

附图说明

图1为本发明整体流程图；

图2为本发明的抽取人物身份信息的模型架构图；

图3为本发明的抽取人物身份信息的模型效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图3所示，本发明提供一种技术方案：

本发明提供一种基于人物身份的人物实体链接方法，其方法步骤如下：

步骤一：训练一个给定一段文本抽取出其中相应身份信息的深度学习模型，模型记做M。模型架构为：word2vec+Bi-LSTM+CRF。其中word2vec是2013年Google开源了的一款将单词转换为向量的工具，在本专利中用于将文本中的单词转化为对应的词向量。LSTM的全称是Long Short-Term Memory，它是RNN(Recurrent Neural Network)的一种。LSTM由于其设计的特点，非常适合用于对时序数据的建模，如文本数据。Bi-LSTM是Bi-directionalLong Short-Term Memory的缩写，是由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中都常被用来建模上下文信息。Bi-LSTM相对于LSTM可以编码从后到前的信息，捕捉双向的语义依赖，故在本专利中我们采用效果更好的Bi-LSTM模型用于捕获文本序列的语义依赖。CRF中文名为条件随机场，CRF中有转移特征，它会考虑输出标签之间的顺序性，也会学习一些约束规则。CRF层可以为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练数据训练过程中，这些约束可以通过CRF层自动学习到的。模型架构图如图2，最终模型效果如图3，上面为输入文本，下方为抽取出来的人物身份信息；

步骤五：判断b是否为空，若为空，取S的第一句话记做S1。使用BERT分别计算a，S1的句向量，然后使用余弦定理计算a和S1的相似度，记做sim2，判断sim2与阈值SIM2的大小，若sim2>＝SIM2，则表示链接成功，若sim2<SIM2，则表示链接失败。其中BERT是一个新的语言表达模型(language representation model)，全称是Bidirectional EncoderRepresentation Transformers。可以理解为这是一个通用的NLU(Natural LanguageUnderstanding)模型，为不同的NLP任务提供支持，是目前最优的语言模型。在本专利中用于将句子转换为对应的句向量。余弦定理用于计算两个向量之间的相似度；

步骤六：若b不为空，使用BERT分别计算a，b的句向量，然后使用余弦定理计算a和b的相似度，记做sim1。判断sim1与阈值SIM1的大小，若sim1>＝SIM1，则表示链接成功。

本发明提出一种抽取人物身份信息的模型，基于人物身份信息的人物实体链接准确率高达93％+，特别对于文中带有人物身份描述的链接场景，效果更佳。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于人物身份的人物实体链接方法，其方法包括如下步骤：

步骤五：判断b是否为空，若为空，取S的第一句话记做S1，使用BERT分别计算a，S1的句向量，然后使用余弦定理计算a和S1的相似度，记做sim2，判断sim2与阈值SIM2的大小，若sim2>=SIM2，则表示链接成功，若sim2<SIM2，则表示链接失败；

步骤六：若b不为空，使用BERT分别计算a，b的句向量，然后使用余弦定理计算a和b的相似度，记做sim1，判断sim1与阈值SIM1的大小，若sim1>=SIM1，则表示链接成功；

所述步骤一中，深度学习模型M架构为：word2vec+Bi-LSTM+CRF。

2.根据权利要求1所述的基于人物身份的人物实体链接方法，其特征在于：所述word2vec为Google开源的一款将单词转换为向量的工具。

3.根据权利要求2所述的基于人物身份的人物实体链接方法，其特征在于：所述LSTM的全称是Long Short-Term Memory，为RNN的一种。

4.根据权利要求2所述的基于人物身份的人物实体链接方法，其特征在于：所述Bi-LSTM由前向LSTM与后向LSTM组合而成。