CN111008526A

CN111008526A - 一种基于双通道神经网络的命名实体识别方法

Info

Publication number: CN111008526A
Application number: CN201911243301.6A
Authority: CN
Inventors: 陶露; 张顺香; 朱广丽
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-04-14

Abstract

本发明涉及一种基于双通道神经网络的命名实体识别方法，包括以下步骤：首先建立命名实体识别语料库并对语料库进行分词、标注，形成标注语料；然后使用已训练的不同词向量工具将标注语料映射成对应的词向量表示并加入利用卷积神经网络(CNN)得到的词语字级向量特征，再将两者进行拼接作为方法不同通道的输入；最后利用BLSTM+CRF将BLSTM输出的特征向量采用维特比算法解码为一个最优的标记序列从而完成命名实体识别。本发明相比传统方法，本方法的输入带有更丰富的语义信息且多通道输入在提高识别性能的情况下保持高的计算效率。

Description

一种基于双通道神经网络的命名实体识别方法

技术领域

本发明涉及自然语言处理领域，具体是一种基于双通道神经网络的命名实体识别方法。

背景技术

命名实体识别(Named entity recognition,NER)是自然语言处理任务的一项基础工作，它的主要任务是自动识别出信息文本中具有特定意义的实体，从狭义上来说就是识别出文本中包含的人名、地名、组织机构名等专有名词。例如“王小强同学将参加达观数据主办的‘达观杯’数据挖掘大赛”，其中“王小强”、“达观数据”就是我们要识别的命名实体。命名实体识别主要包括两部分：实体边界识别和确定实体类别。其识别效果对后续的信息提取、问答系统、句法分析、机器翻译和知识库构建等研究和应用有重要意义。

研究者们早已对命名实体识别任务提出了不少方法：从早期的基于规则和字典的方法，到基于统计机器学习的方法然后到最近几年基于神经网络的方法。这些方法在诸多领域的命名实体识别中都取得了一定的成果，例如生物医学领域、新闻领域、渔业领域和军事领域等。基于规则和字典的方法需要人为制定一些规则模板和字典，这就需要大量的语言知识，而且不同语言的识别规则不尽相同，还需要谨慎处理规则之间的冲突问题；此外，构建的规则领域移植性不好。基于统计机器学习的方法中比较常用的是特征模板与条件随机场(CRF)的结合，此方法识别效果虽优于前一种方法，但是特征模板的构建也是一件费时费力的事。结合两种方法的不足加上深度学习的深入，神经网络成为可以有效处理NER任务的模型。这类方法将NER视为序列标注任务，将词或者字从离散的one-hot表示映射到低维空间中成为稠密的词向量，随后将句子的词向量序列输入到神经网络中，用神经网络自动提取特征，Softmax或者CRF来预测每个词的标签。这种方法使得模型的训练成为一个端到端的整体过程，不依赖特征工程。

发明内容

本发明的目的是解决命名实体识别方法中基于传统方法费时费力、基于传统机器学习方法依赖单一词向量表征能力的问题，提出一种基于双通道神经网络的命名实体识别方法。该方法通过使用不同的词向量工具为输入带来更丰富的语义信息，从而使网络学习出区分度更加明显的特征，最后CRF采用维特比算法将输出的特征向量解码为一个最优的标记序列。

本发明实现发明目的采用如下技术方案，其步骤包括如下：

①建立命名实体识别语料库并对语料库进行分词、标注，形成标注语料；

②使用已训练的不同词向量工具将标注语料映射成对应的词向量表示；

③对于语句中的每个词语，将词语中的每一个字转换为字向量，然后对字向量组成词语的字向量矩阵引入卷积神经网络(CNN)进行卷积、池化操作，获得每个词语的字级向量特征；

④将词向量和经过CNN提取的字级特征向量进行拼接作为模型不同通道的输入；

⑤使用双向长短时记忆网络(BLSTM)对上一步的输出自动提取上下文特征向量；

⑥通过条件随机场(CRF)将BLSTM输出的特征向量采用维特比算法解码为一个最优的标记序列来完成命名实体识别；

作为优选，本发明提供的一种基于双通道神经网络的命名实体识别方法，首先利用中科院的分词工具NLPIR对训练语料进行分词处理，按照BMEOS的方式对训练语料进行标注，其中B表示命名实体首部，M表示命名实体中间，E表示命名实体尾部，S表示本身就是一个命名实体，O表示不是命名实体。

作为优选，本发明提供的一种基于双通道神经网络的命名实体识别方法，使用的词向量工具采用Google提供的word2vec和由斯坦福大学提供的Glove，word2vec使用搜狗实验室提供的新闻语料库来训练，训练得到的词向量表记为V₁，Glove使用中文维基百科来训练，训练得到的词向量表记为V₂；

作为优选，本发明提供的一种基于双通道神经网络的命名实体识别方法，将分词后语料中的每个词语的每一个字转换为字向量，然后对字向量组成词语的字向量矩阵引入卷积神经网络(CNN)进行卷积、池化操作，获得每个词语的字级向量特征，最后将词向量和经过CNN提取的字级特征向量进行拼接作为模型不同通道的输入；

作为优选，本发明提供的一种基于双通道神经网络的命名实体识别方法，利用BLSTM来自动学习特征是因为在BLSTM中独特设计的门结构可以有选择地保存上下文信息，更适合于序列标记问题如命名实体识别。正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接，得到完整的隐状态序列，从而得到BLSTM的输出矩阵A；

作为优选，本发明提供的一种基于双通道神经网络的命名实体识别方法，CRF通过考虑相邻标签之间的关系，可以获得全局最优标签序列，得到转移矩阵P；

作为优选，本发明提供的一种基于双通道神经网络的命名实体识别方法，给定一个句子序列，通过CRF输出标签序列的概率为：

其中，l为一个长度为n的标签序列；

本发明的有益效果是：与现有技术相比，其有益效果体现在：采用多通道可以并行计算，在提高抽取性能的情况下保持高的计算效率而且多通道的输入增加了输入的语义信息从而神经网络学习出的特征更加适合和准确。最后，在未来的研究中我们可以增加另一个通道进一步提高方法的效果。

附图说明

图1是本发明步骤流程图

图2是CNN训练词语的字级向量特征结构图

图3是LSTM单元图

具体实施方式

为了能够使本发明的上述目的、特征和优点能够更加明显易懂，通过结合具体实施案例和附图对本发明做进一步解释说明。

实施例1：如图1所示，一种基于双通道神经网络的命名实体识别方法，首先建立命名实体识别语料库并对语料库进行分词、标注，形成标注语料；然后使用已训练的不同词向量工具将标注语料映射成对应的词向量表示并加入词语的字级向量特征作为模型不同通道的输入；最后利用BLSTM+CRF将BLSTM输出的特征向量采用维特比算法解码为一个最优的标记序列来完成命名实体识别；

具体步骤为：

步骤①所述的语料库采用1998年1月份的《人民日报》利用中科院的分词工具NLPIR进行分词，去除噪声；然后再利用BMES的方式对训练语料进行标注，其中B表示词的首部，M表示词中间，E表示词的尾部，S表示本身就是一个词语；

进一步，步骤②所述的词向量工具采用Google提供的word2vec和由斯坦福大学提供的Glove，word2vec使用搜狗实验室提供的新闻语料库来训练，训练得到的词向量表记为V₁，Glove使用中文维基百科来训练，训练得到的词向量表记为V₂。

进一步，步骤③将语句中词语的每一个字转换为字向量，然后将字向量组成字向量矩阵利用卷积神经网络(CNN)提取词的字级特征，如图2所示。

进一步，步骤④将词向量和经过CNN提取的字级特征向量进行拼接作为模型不同通道的输入。

进一步，步骤⑤引入BLSTM，将拼接后的字词向量输入BLSTM中，让其自动学习出特征向量。如图3所示LSTM中独特设计的门结构可以有选择地保存上下文信息，更适合于序列标记问题如命名实体识别。正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接，得到完整的隐状态序列，从而得到双向LSTM的输出矩阵A。

进一步，步骤⑥对上一步输出的矩阵A利用CRF采用维特比算法解码为一个最优的标记序列来完成命名实体识别。CRF通过考虑相邻标签之间的关系，可以获得全局最优标签序列，得到转移矩阵P。，一个长度为n的标签序列通过模型计算后的总得分P(x,y)的计算公式为：

其中，l为一个长度为n的标签序列。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于双通道神经网络的命名实体识别方法，其特征在于，包括以下步骤：

⑥通过条件随机场(CRF)将BLSTM输出的特征向量采用维特比算法解码为一个最优的标记序列来完成命名实体识别。

2.根据权利要求1所述的一种基于双通道神经网络的命名实体识别方法，其特征在于：步骤①使用中科院的分词工具NLPIR对语料库进行分词处理，按照BMEOS的方式对训练语料进行标注，其中B表示词的首部，M表示词中间，E表示词的尾部，S表示本身就是一个词语。

3.根据权利要求1所述的一种基于双通道神经网络的命名实体识别方法，其特征在于：步骤②使用的词向量工具采用Google提供的word2vec和由斯坦福大学提供的Glove，word2vec使用搜狗实验室提供的新闻语料库来训练，训练得到的词向量表记为V₁，Glove使用中文维基百科来训练，训练得到的词向量表记为V₂。

4.根据权利要求1所述的一种基于双通道神经网络的命名实体识别方法，其特征在于：步骤③将分词后文本中的每个词语的每一个字转换为字向量，然后对字向量组成词语的字向量矩阵引入卷积神经网络(CNN)进行卷积、池化操作，获得每个词语的字级向量特征。

5.根据权利要求1所述的一种基于双通道神经网络的命名实体识别方法，其特征在于：步骤⑤LSTM中独特设计的门结构可以有选择地保存上下文信息，更适合于序列标记问题如命名实体识别，正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接，得到完整的隐状态序列，从而得到双向LSTM的输出矩阵A。

6.根据权利要求1所述的一种基于双通道神经网络的命名实体识别方法，其特征在于：步骤⑥中的CRF通过考虑相邻标签之间的关系，可以获得全局最优标签序列，得到转移矩阵P。

7.根据权利要求6所述的一种基于双通道神经网络的命名实体识别方法，其特征在于：给定一个句子序列，通过CRF输出标签序列的概率为：

其中，l为一个长度为n的标签序列。