CN110705292A

CN110705292A - 一种基于知识库和深度学习的实体名称提取方法

Info

Publication number: CN110705292A
Application number: CN201910780471.1A
Authority: CN
Inventors: 冯翱; 陈郑淏; 吴锡
Original assignee: Chengdu Zhi Rui Tong Tuo Technology Co Ltd; Chengdu University of Information Technology
Current assignee: Chengdu Zhi Rui Tong Tuo Technology Co Ltd; Chengdu University of Information Technology
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2020-01-17
Anticipated expiration: 2039-08-22
Also published as: CN110705292B

Abstract

本发明涉及一种基于知识库和深度学习的实体名称提取方法，包括获得对待匹配实体进行描述的文本，将描述文本、外部知识库及两者的结合作为训练词和实体嵌入的文本集；使用词嵌入工具得到各个词和实体的嵌入式表达。建立深度学习网络，将嵌入式表达和外部现有知识库的文本表达作为输入，输出词m对应待匹配实体的概率，采集训练数据输入到建立好的深度学习网络中对深度学习网络模型进行训练，对待匹配文本，通过计算词w和实体之间的余弦相似度得到多个匹配候选项，最后将词w和匹配候选项输入到深度学习网络中，得到匹配概率。本发明较现有技术，可以基本实现端到端的自动化匹配，具有更好的匹配准确度和效率。

Description

一种基于知识库和深度学习的实体名称提取方法

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于知识库和深度学习的实体名称提取方法。

背景技术

通常在新闻中提及某个实体时，描述文字与实体的标准名称会有一定相似性，某些时候使用标准名称的缩写，因此多数时候可以采用特定的相似度度量(如编辑距离等)去计算提及文字和实体名称之间的相似性，这是相对比较简单的情况。但某些情况下描述文字可能和多个不同实体对应，这就存在一个消除歧义的问题，经常需要用到上下文的语义，再结合备选实体本身的流行度进行可能性判断。最复杂的情况是文字提及和实体名称没有任何文字上的相似性，如我们经常在新闻中看到的“滴滴”，实际指代的企业主体名称为“北京小桔科技有限公司”，这需要有更多的上下文知识让二者关联起来。现有的技术方案主要包括：

方案一：在正文中仅使用实体全名进行精确匹配，只有实体名称的完整出现才作为新闻中的提及标注。该技术方案存在不足是当实体名称足够长时，完整匹配基本可以保证100％的准确率，但由于大多数情况下新闻中都不会出现完整的全名，这种方法的召回率极低。

方案二：采用手工标注，或者半自动生成加人工筛选的方式生成实体名称的常见简称，只要匹配完整名称或其中某个简称均视为对该实体的提及。该方案的缺点是召回率比第一种方法高，但生成简称的工作量极大，不管是采用手工或者半手工的方式。对于匹配简称的场景，不能保证100％的准确率，而且可能会出现多个类似实体有相同简称的情况。

方案三：使用外部知识库建立实体的文档模型，将正文中的每个词作为关键词对这些实体组成的文本集进行检索，使用基本的向量空间模型、概率模型、主题模型等，将最相似的实体作为匹配对象。相对前两种方法更灵活，根据使用信息检索模型的不同，匹配的准确率和召回率也不一样。但一般来说，这种方法还是只能解决提及文本和实体知识库中有较多的重复关键词的情况，而且不能保证在有多个备选实体前提下正确进行消歧。正文中的每个词都这样进行匹配的计算复杂度较高，而且不容易划分提及和不提及实体文本的界限。

如何提高实体的匹配准确率和效率成为自然语言处理领域亟需解决的问题。

发明内容

针对现有技术之不足，本发明提出一种基于深度学习的实体名称提取方法，其特征在于，所述方法包括：

步骤1：对于待匹配实体E，在至少一个外部现有知识库中或通过网络爬虫的方式获得至少一个对所述待匹配实体E进行描述的文本；

步骤2：从描述文本中标注出在所述外部现有知识库中已经识别为实体的名词构成实体列表，将所述描述文本、所述实体列表以及所述描述文本和所述实体列表的组合分别作为一种表示方式，所述表示方式作为训练词和实体嵌入的文本集；

步骤3：对所述文本集中非实体名词的其他自由文本，采用切词工具划分成单个词后，使用词嵌入工具进行训练，得到各个词和实体的嵌入式表达；

步骤4：建立深度学习网络，将从网络上获取的待匹配新闻文本和所述外部现有知识库的文本表达，再加上待匹配实体E的嵌入式表达作为其输入，输出所述待匹配新闻文本中某个位置的词m对应待匹配实体E的概率；

步骤5：采集训练数据，包括带标注的公开数据集和采用人工标注的新闻文本集，取至少300个(m，E1)对，包括至少100个匹配的正样本，至少100个是实体提及但不匹配的负样本，至少100个不是实体提及的负样本；

步骤6：将采集的训练数据输入到建立好的深度学习网络中进行训练，将其损失函数定义为交叉熵，使用随机梯度下降或Adam优化方法进行深度学习网络的训练，并设定神经网络训练的网络参数，得到训练好的深度学习模型；

步骤7：对于从网络上获取的未标注文本集，首先对所述未标注文本集采用切词工具进行切分后得到词w，并获得词w的嵌入表达，将所述词w与每个实体E的嵌入表达计算余弦相似度：

其中和

分别为词w和实体E的嵌入向量表达，分子为两个同维度向量的内积，计算词w与每个实体E的相似度后，取至少6个相似度最高的(m，E)对作为匹配候选项，若最大相似度低于匹配阈值，则判定w不匹配任何实体，未标注文本集中的每一个词w都进行一轮匹配。

步骤8：将词w的上下文数据和步骤7得到的匹配候选项及其描述文本输入到步骤6训练好的深度学习网络中，计算得到概率值最大且超过匹配阈值的实体作为所述描述文本对应的实体。

根据一种优选的实施方式，步骤4建立深度学习网络的方法包括：

步骤41：对于所述单词m，分别取其左边长度c的连续窗口[wl_c，wl_c-1,…,wl₂,wl₁,m]和右边长度c的连续窗口[m,wr₁,wr₂,…,wr_c-1,wr_c]，作为其正向上下文数据和逆向上下文数据；

步骤42：将所述正向上下文数据[wl_c,wl_c-1,…,wl₂,wl₁,m]输入一个采用长短时记忆单元的循环神经网络，序列长度为c+1，从左到右进行处理，词m作为最后一个输入，每个时间点的输出采用最大池化方法提取其显著特征；

步骤43：将所述逆向上下文数据[m,wr₁,wr₂,…，wr_c-1,wr_c]输入一个使用长短时记忆单元的循环神经网络，序列长度为c+1，从右到左进行处理，词m作为最后一个输入，每个时间点的输出采用最大池化方法提取其显著特征；

步骤44：取所述知识库中对于所述待匹配实体E的文本描述前n个词作为输入，输入一个采用长短时记忆单元的循环神经网络，序列长度为n，从左到右进行处理，每个时间点的输出采用最大池化方法提取其显著特征；

步骤45：将步骤44输出的显著特征和所述待匹配实体E在步骤3中训练得到的嵌入式表达连接，作为所述待匹配实体E的向量化表征；

步骤44的输出为一个向量，嵌入式表达也是一个向量，两个向量直接拼接在一起作为待匹配实体的向量化表征，比如一个30维向量和一个40维向量合并，得到一个70维向量。

步骤46：基于所述向量化表征在词m的正向上下文数据和逆向上下文数据中增加注意力机制，并生成一个和为1的注意力向量，分别在表示词m的正向上下文数据和逆向上下文数据中每个位置上的词与待匹配实体E的相关度，数值越大，相关度越高，以找到与所述待匹配实体E最相关的文字。

步骤47：将步骤42和步骤43输出的显著特征和步骤45输出的向量化表征进行连接，连接后输入多层全连接网络，最后用一个sigmoid函数输出所述词m对应所述待匹配实体E的概率。所述概率值在0-1之间；分值越大相关性越大。

本发明的有益效果在于：

1、本发明通过对外部实体知识库的合理利用，在统一的嵌入空间上建立了词和实体的嵌入向量，并采用双向LSTM网络、注意力机制结合的深度学习模型，有效利用新闻中的上下文和知识库中的实体描述信息，提高了实体名称提取的准确度。

2、本发明技术方案除了部分训练集标注的工作需要人工完成外，整个深度学习模型的训练、优化和标注可以实现端到端自动化完成，并能获得比传统方法更好的效果，尤其是对于文中描述和实体名称没有文字重叠的情况。

附图说明

图1是本发明技术方案的方法原理图；和

图2是建立深度学习网络的原理示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

下面结合附图进行详细说明。

本发明中的实体是指：企业名称、组织名称、个人名称、酒店名称、地名、企业名称等名称。

本发明中的召回率是指：在文本中出现的实体，被本方法正确找到的比例，英文名称recall，这是信息检索领域的标准评测指标

本发明中的外部现有知识库是指：Wikipedia、百度百科、WordNet、Freebase、YAGO2等。

基于现有技术存在的不足，本发明提出一种基于知识库和深度学习的实体名称提取方法，如图1所示，方法包括：

步骤1：对于待匹配实体，在至少一个外部现有知识库中获得至少一个对待匹配实体进行描述的文本；

步骤2：从描述文本中标注出在知识库中已经识别为实体的名词构成实体列表，将描述文本、实体列表以及描述文本和实体列表的组合分别作为一种表示方式，表示方式作为训练词和实体嵌入的文本集；

在Wikipedia文本中实体名词都带超链接，指向对应词条，带超链接的实体名词就是已经识别为实体的名词。

例如：在Wikipedia中关于滴滴的描述中某段文字可以分别以下面三种方式表示。

第一种：与Uber一样，滴滴快车与专车业务也涉嫌非法营运车辆。

第二种：[优步][滴滴快车][非法营运车辆]。

第三种：与[优步]一样，[滴滴快车]与专车业务也涉嫌[非法营运车辆]。

第一种为描述文本，第二种为实体列表，第三种为实体列表和描述文本的组合，[]内的词为实体名词，[]外的词为非实体名词。

嵌入表示方法是自然语言处理中对于文本的常见特征表示方式，需要用一定的文本集加以训练，以上三种表达方式都是用来建立训练集，并训练词和实体这两类文本的嵌入式表达，最终表示方式均为一个向量，如[滴滴快车]转化为[0.5,1.0,-0.3]这个实体嵌入，“公司”训练得到[-0.2,0.7,0.9]这个词嵌入

步骤3：对文本集中非实体名词的其他自由文本，采用切词工具划分成单个词后，使用词嵌入工具进行训练，得到各个词和实体的嵌入式表达；

词嵌入的生成可以使用多种模型，最常见的就是Word2Vec和GloVe。嵌入式表达具体为一个向量，向量维度取200。

步骤4：建立深度学习网络，将从网络上获取的待匹配新闻文本和外部现有知识库的文本表达，再加上待匹配实体的嵌入式表达作为其输入，输出待匹配新闻文本中某个位置的词m对应待匹配实体的概率；

待匹配文本为新的没有标注实体名称的新闻文本，训练完成之后，需要在待匹配文本中进行实体名称提取。词m为通过切词工具对待匹配文本进行切割得到的每个单词。

图2为建立深度学习网络的工作原理图，如图2所示，

步骤41：对于单词m，分别取其左边长度c的连续窗口[wl_c,wl_c-1,…,wl₂,wl₁,m]和右边长度c的连续窗口[m,wr₁,wr₂,…,wr_c-1,wr_c]，作为其正向上下文数据和逆向上下文数据；

步骤42：将正向上下文数据[wl_c,wl_c-1,…，wl₂，wl₁，m]输入一个采用长短时记忆单元的循环神经网络，序列长度为c+1，从左到右进行处理，词m作为最后一个输入，每个时间点的输出采用最大池化方法提取其显著特征。优选的，长短时记忆单元数为200。

步骤43：将逆向上下文数据[m，wr₁，wr₂，…，wr_c-1，wr_c]输入一个使用长短时记忆单元的循环神经网络，序列长度为c+1，从右到左进行处理，词m作为最后一个输入，每个时间点的输出采用最大池化方法提取其显著特征；优选的，长短时记忆单元数为200。

步骤44：取知识库中对于待匹配实体E的文本描述前n个词作为输入，输入一个采用长短时记忆单元的循环神经网络，序列长度为n，从左到右进行处理，每个时间点的输出采用最大池化方法提取其显著特征；

最大池化方法就是在一组或一个序列数据中提取其中值最大者，这个最大值就是这组或这个序列中的最显著特征。

步骤45：将步骤44输出的显著特征和待匹配实体E在步骤3中训练得到的嵌入式表达连接，作为待匹配实体E的向量化表征；

步骤46：基于向量化表征在词m的正向上下文数据和逆向上下文数据中增加注意力机制，并生成一个和为1的注意力向量，分别在表示词m的正向上下文数据和逆向上下文数据中每个位置上的词与待匹配实体E的相关度，数字越大，相关度越高，以找到与待匹配实体E最相关的文字。

注意力机制是文本处理/机器翻译中的通用做法，是通过在训练集上进行优化的方式，找到这里词m的上下文中哪些位置的文字与待匹配实体E最相关。注意力向量的维度为2c+1。优选的，c取10.

注意力机制是LSTM(长短时记忆网络)中常用的方法，用于找到和待匹配实体最相关的文字部分。

步骤47：将步骤42和步骤43输出的显著特征和步骤45输出的向量化表征进行连接，连接后输入多层全连接网络，最后用一个sigmoid函数输出词m对应待匹配实体E的概率。概率值在0-1之间；分值越大相关性越大。

多层全连接网络的层数一般选为2-3层。

步骤5：采集训练数据，包括带标注的公开数据集和采用人工标注的新闻文本集，取至少300个(m，E1)对，包括至少100个匹配的正样本，至少100个是实体提及但不匹配的负样本，至少100个不是实体提及的负样本。其中，m指带标注样本中的词，E1指带标注样本中与m相应的实体，E1与m之间的关系为上面三种类型之一。

步骤6：将采集的训练数据输入到建立好的深度学习网络中训练深度学习网络，将其损失函数定义为交叉熵，使用随机梯度下降或Adam优化方法进行深度学习网络的训练，并设定神经网络训练的网络参数；

网络参数包括训练轮次、随机舍弃率等。训练轮次依据训练数据量的大小进行选择，训练轮次为5-10次。随机舍弃率是为了防止网络训练过拟合，随机舍弃一定比例的训练样本，可以提高网络参数的稳定性。一种具体的实施方式，舍弃率设置为0.5。

步骤7：对于未标注文本集，首先对未标注文本集采用切词工具进行切分后得到词w，并获得词w的嵌入表达，将词w与每个待匹配实体E的嵌入表达计算余弦相似度：

其中

和分别为词w和待匹配实体E的嵌入向量表达，分子为两个同维度向量的内积，计算词w与每个待匹配实体E的相似度后，取至少6个相似度最高的(m，E)对作为匹配候选项，若最大相似度低于匹配阈值，则判定w不匹配任何实体。未标注文本集中的每一个词w都进行一轮匹配。未标注文本可以从网络上获取，也可以是现有的文本。

根据经验确定，初始值可设定为0.5。

步骤8：将词w的上下文数据和步骤7得到的匹配候选项及其描述文本输入到步骤6训练好的深度学习网络中，计算得到概率值最大且超过匹配阈值的实体作为描述文本对应的实体。

需要注意的是，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims

1.一种基于知识库和深度学习的实体名称提取方法，其特征在于，所述方法包括：

步骤7：对于从网络上获取的未标注文本集，首先对所述未标注文本集采用切词工具进行切分后得到词w，并获得词w的嵌入表达，将所述词w与每个待匹配实体E的嵌入表达计算余弦相似度：

其中

和

分别为词w和待匹配实体E的嵌入向量表达，分子为两个同维度向量的内积，计算词w与每个实体E的相似度后，取至少6个相似度最高的(m，E)对作为匹配候选项，若最大相似度低于匹配阈值，则判定w不匹配任何实体，未标注文本集中的每一个词w都进行一轮匹配；

2.如权利要求1所述的一种基于知识库和深度学习的实体名称提取方法，其特征在于，步骤4建立深度学习网络的方法包括：

步骤41：对于所述单词m，分别取其左边长度c的连续窗口[wl_c，wl_c-1，…，wl₂，wl₁，m]和右边长度c的连续窗口[m，wr₁，wr₂，…，wr_c-1，wr_c]，作为其正向上下文数据和逆向上下文数据；

步骤42：将所述正向上下文数据[wl_c，wl_c-1，…，wl₂，wl₁，m]输入一个采用长短时记忆单元的循环神经网络，序列长度为c+1，从左到右进行处理，词m作为最后一个输入，每个时间点的输出采用最大池化方法提取其显著特征；

步骤43：将所述逆向上下文数据[m，wr₁，wr₂，…，wr_c-1，wr_c]输入一个使用长短时记忆单元的循环神经网络，序列长度为c+1，从右到左进行处理，词m作为最后一个输入，每个时间点的输出采用最大池化方法提取其显著特征；

步骤44的输出为一个向量，嵌入式表达也是一个向量，两个向量直接拼接在一起作为待匹配实体的向量化表征，比如一个30维向量和一个40维向量合并，得到一个70维向量；

步骤46：基于所述向量化表征在词m的正向上下文数据和逆向上下文数据中增加注意力机制，并生成一个和为1的注意力向量，分别在表示词m的正向上下文数据和逆向上下文数据中每个位置上的词与待匹配实体E的相关度，数值越大，相关度越高，以找到与所述待匹配实体E最相关的文字；

步骤47：将步骤42和步骤43输出的显著特征和步骤45输出的向量化表征进行连接，连接后输入多层全连接网络，最后用一个sigmoid函数输出所述词m对应所述待匹配实体E的概率，所述概率值在0-1之间，分值越大相关性越大。