CN111523325A

CN111523325A - 一种基于笔画的中文命名实体识别方法

Info

Publication number: CN111523325A
Application number: CN202010312902.4A
Authority: CN
Inventors: 李巧勤; 何家欢; 刘勇国; 杨尚明
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-08-11

Abstract

本发明提供了一种基于笔画的中文命名实体识别方法，本发明利用神经网络CNN对汉字笔画进行特征提取，再利用每个字的汉字特征向量和相对应的笔画特征向量相串联，输入到双向长短期记忆模型，使用神经网络CNN可以利用汉字的笔画，学习到汉字之间的相同点，双向长短期记忆模型可以学习到一句话中每个字的上下文关系。本发明通过以上设计，有效地克服了现有基于词或字符的中文命名实体识别技术的不足，提高了中文命名实体识别率。

Description

一种基于笔画的中文命名实体识别方法

技术领域

本发明属于信息处理技术领域，尤其涉及一种基于笔画的中文命名实体识别方法。

背景技术

随着互联网技术的发展和普及，以及相关领域研究的不断深入，电子文本等可用信息资源得到了极大的丰富。人们迫切需要从海量非结构文本中获取有用的信息，命名实体作为一个明确的概念和研究对象，是目标文本中基本的信息元素，是正确理解目标文本的基础。中文命名实体识别是关系提取、句法分析、情感识别、智能问答等文本应用领域的重要基础工具，在自然语言处理技术中占有重要地位。在信息抽取研究中，中文命名实体识别是目前最有实用价值的一项技术。

中文命名实体识别就是要判断一个字符串是否代表一个命名实体，在中文实体领域中，基于机器学习的命名实体识别技术主要将识别任务转化为序列标记任务，按照命名实体标记方法通常包括基于字符和基于词两类识别方法。基于字符的方法对文本中的每一个字都有一个标签，如实体“中国”中的字分别对应标签“B”和标签“I”，在使用模型进行实体识别时，会对识别文本的每一个字进行标注，从而识别文本中需要关注的实体。基于词的方法需要先对文本进行分词，每一个词语具有一个标签，如实体“中国”这一个词语只具有一个标签“B”。

基于词的方法受到分词结果的影响，中文分词器产生的错误信息直接带入到用于命名实体识别的神经网络。基于字符的方法将汉字作为中文中最小的语义单位，但是中文的最小语义单位并不是字，现代中文由古代象形文字演变而来，汉字的笔画实际具有一定的语义信息，如同样具有“氵”部首的汉字“河”，“江”，“湖”，“海”等都与水相关；再如具有“木”部首的汉字“林”，“森”，“材”，“树”等都与木头木材相关，基于字符的方法则忽略了笔画的语义信息。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于笔画的中文命名实体识别方法，克服了现有基于词或字符的中文命名实体识别技术的不足问题。

为了达到以上目的，本发明采用的技术方案为：

本方案提供一种基于笔画的中文命名实体识别方法，包括以下步骤：

S1、获取语料库，并对语料库的句子进行预处理；

S2、利用汉字笔画特征提取模型提取语料库中汉字笔画的特征向量；

S3、根据经预处理后的句子以及所述汉字笔画的特征向量，利用实体识别模型对文本实体进行识别，从而完成对中文命名实体的识别。

本发明的有益效果是：本发明利用神经网络CNN对汉字笔画进行特征提取，再利用每个字的汉字特征向量及其相对应的笔画特征向量相串联，输入到双向长短期记忆模型，使用CNN可以利用汉字的笔画，学习到汉字之间的相同点，双向长短期记忆模型可以学习到一句话中每个字的上下文关系。本发明为端到端识别方法，即对于中文实体识别任务，只需要输入文本，会自动获取输入文本中每个字的笔画，并最终输出识别出的实体，有效地克服了现有基于词或字符的中文命名实体识别技术的不足，提高中文命名实体识别率。

进一步地，所述步骤S1包括以下步骤：

S101、获取SIGHAN2006 NER数据集，并将该数据集作为训练和测试的语料库；

S102、利用换行符分割语料库中的句子，将一个句子作为一个样本，并利用空格分割句子中的汉字；

S103、为语料库中的每个汉字随机分配一个单独的ID，构成文本汉字词典，完成对语料库数据的预处理。

上述进一步方案的有益效果是：本发明通过将句子中每个字进行分割，使语料库数据可以被基于笔画的中文命名实体识别方法利用。

再进一步地，所述步骤S2中汉字笔画特征提取模型包括依次连接的神经网络Embedding层、卷积层以及max-pool最大池化层；

所述Embedding层，用于对每个笔画特征向量进行编码处理，得到其对应的初始化特征向量；

所述卷积层，用于对汉字的笔画初始化特征向量进行特征提取，得到汉字的高维度笔画特征向量；

所述max-pool最大池化层，用于对汉字的高维度笔画特征向量进行特征筛选，得到汉字的笔画特征向量。

上述进一步方案的有益效果是：本发明利用卷积层提取汉字笔画之间的特征，用最大池化层选取特征中最为明显(最有用)的特征，并同时降低数据维度，加快模型运算速度。

再进一步地，所述步骤S2包括以下步骤：

S201、根据在线新华词典，将汉字笔画分为一，丨，丿，丶和乚五种笔画；

S202、根据文本汉字词典编写脚本代码，并通过在线新华词典获取每个汉字的笔画顺序；

S203、为每个笔画设置独立的ID，并根据所述笔画顺序为每个笔画初始化一个特征向量；

S204、将每个笔画特征向量输入至神经网络的Embedding层进行编码，得到其对应的初始化特征向量；

S205、输入样本，并根据所述初始化特征向量将样本中的一个汉字表示为一个笔画特征矩阵，其中，每一个汉字具有一个与其对应的笔画序列；

S206、使用0对所述笔画特征矩阵进行填充，使语料库中所有汉字的笔画特征矩阵具有相同维度；

S207、利用卷积层对填充后的笔画特征矩阵进行特征提取，得到汉字的高维度笔画特征向量；

S208、利用max-pool层对汉字的高维度笔画特征向量进行筛选，得到汉字的笔画特征向量。

上述进一步方案的有益效果是：本发明利用神经网络提取汉字内部的笔画特征，相比传统的词向量，考虑到了字内的语义信息。

再进一步地，所述步骤S207中对每个汉字的笔画特征提取的表达式如下：

其中，

表示每个汉字的笔画特征提取，

表示卷积核大小为q的第k个参数矩阵，T表示转置，⊙表示矩阵点乘，N表示语料库中所有汉字中笔画最多的汉字的笔画数，

表示使用第k个参数矩阵下得到的第l画的笔画特征向量，

表示使用第k个参数矩阵下得到的每一笔画特征向量的组合，m表示卷积层的通道数，

表示笔画特征矩阵中的第

到

行的子矩阵。

上述进一步方案的有益效果是：本发明使用多个卷积核，能够有效地提取到汉字笔画中更多不同类型的特征。

再进一步地，所述步骤S208中汉字的笔画特征向量的表达式如下：

其中，V_CNN表示汉字的笔画特征向量，

表示在笔画特征向量

中取出最大的1个数，

表示连接卷积核大小为2到Q的状态下所有笔画特征，Q为模型参数,m表示卷积层的通道数。

上述进一步方案的有益效果是：本发明使用不同大小的Q值，能够提取到范围大小不同的汉字笔画特征；使用最大池化，能够选择明显的特征，并且降低数据维度，加快模型运算速度。

再进一步地，所述步骤S3中实体识别模型包括依次连接的前向LSTM层、反向LSTM以及CRF层；

所述前向LSTM层和反向LSTM层，用于将汉字特征向量以及其对应的汉字笔画特征向量的串联进行双向长短记忆特征训练，得到句子的隐藏层表示；

所述CRF层，用于对句子的隐藏层表示进行约束和解码处理，完成对中文命名实体识别。

上述进一步方案的有益效果是：本发明结合笔画特征表示和汉字特征向量，能够包含更多的语义信息，通过BiLSTM提取语句的上下文信息，可以提高中文实体识别率，利用CRF层，添加约束，进一步提高中文实体识别率。

再进一步地，所述步骤S3包括以下步骤：

S301、根据经预处理后的句子，利用word2vec词向量模型得到汉字特征向量；

S302、将所述汉字特征向量输入至神经网络的Embedding层进行编码处理，得到其对应的汉字特征向量；

S303、将所述汉字特征向量以及其对应的汉字笔画特征向量进行串联，并依次输入至前向LSTM层和反向LSTM层进行双向长短记忆特征训练，得到句子的隐藏层表示；

S304、将所述句子的隐藏层表示输入至CRF层进行约束和解码处理，完成对中文命名实体识别。

上述进一步方案的有益效果是：本发明结合笔画特征表示和汉字特征向量，能够包含更多的语义信息，通过BiLSTM提取语句的上下文信息，可以提高中文实体识别率，并利用CRF层，添加约束，进一步提高中文实体识别率。

再进一步地，所述步骤S303中句子隐藏层表示的表达式如下：

其中，h_t表示句子隐藏层表示，

表示对文本句子从前往后计算得到的隐向量，

表示对文本句子从后往前计算得到的隐向量，σ(·)表示sigmoid激活函数，tanh(·)表示tanh激活函数，i表示输入门，f表示遗忘门，c表示记忆单元，

表示以反向方式输入当前字，得到的输出门输出，

表示以前向方式输入当前字，得到的输出门输出，

表示以前向方式输入当前字，得到的记忆单元的输出，

表示以反向方式输入当前字，得到的记忆单元的输出，o表示输出门，

表示以正向方式输入当前输入字的特征向量，

表示以反向方式输入当前输入字的特征向量，

表示以正向方式输入句子中上一个字的隐藏层表示输出，

表示以反向方式输入句子中上一个字的隐藏层表示输出，

表示以正向方式输入句子中上一个字的记忆单元输出，

表示以反向方式输入句子中上一个字的记忆单元输出，W表示参数矩阵，b表示偏移向量，

表示在反向方式输入下输出门和输入之间的参数矩阵，

表示在正向方式输入下输出门和输入之间的参数矩阵，

表示在正向方式下输出门和隐藏层之间的参数矩阵，

表示在反向方式下输出门和隐藏层之间的参数矩阵，

表示在正向方式下输出门的偏移向量，

表示在反向方式下输出门的偏移向量，

表示在正向方式下当前输入经过遗忘门后的结果，

表示在以反向方式下当前输入经过遗忘门后的结果，

表示在正向方式下当前输入经过输入门后的结果，

表示在反向方式下当前输入经过输入门后的结果，

表示在正向方式下输入和记忆单元之间的参数矩阵，

表示在反向方式下输入和记忆单元之间的参数矩阵，

表示在正向方式下隐藏层和记忆单元之间的参数矩阵，

表示在反向方式下隐藏层和记忆单元之间的参数矩阵，

表示在正向方式下记忆单元的偏移向量，

表示在反向方式下记忆单元的偏移向量，

表示在正向方式下输入和遗忘门之间的参数矩阵，

表示在反向方式下输入和遗忘门之间的参数矩阵，

表示在反向方式下隐藏层和遗忘门之间的参数矩阵，

表示在正向方式下隐藏层和遗忘门之间的参数矩阵，

表示在正向方式下遗忘门的偏移向量，

表示在反向方式下遗忘门的偏移向量，

表示在正向方式下输入和输入门之间的参数矩阵，

表示在反向方式下输入和输入门之间的参数矩阵，

表示在反向方式下隐藏层和输入门之间的参数矩阵，

表示在正向方式下隐藏层和输入门之间的参数矩阵，

表示在正向方式下输入门的偏移向量，

表示在反向方式下输入门的偏移向量。

上述进一步方案的有益效果是：本发明通过前向LSTM和反向LSTM能够计算并且保存在句子中距离较远的两个字之间的关系。

附图说明

图1为本发明的方法流程图。

图2为本实施例中步骤S1的流程图。

图3为本实施例中步骤S2的流程图。

图4为本发明中汉字笔画特征提取模型的示意图。

图5为本实施例中步骤S3的流程图。

图6为本发明中展开的双向LSTM示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1

如图1所示，本发明公开了一种基于笔画的中文命名实体识别方法，其实现方法如下：

S1、获取语料库，并对语料库的句子进行预处理；

本实施例中，如图2所示，步骤S1的实现方法如下：

本实施例中，如图3所示，步骤S2的实现方法如下：

每个笔画设置独立的ID如表1所示：

表1

S205、输入训练样本，并根据初始化特征向量将训练样本中的一个汉字表示为一个笔画特征矩阵，其中，每一个汉字具有一个与其对应的笔画序列；

对每个汉字的笔画特征提取的表达式如下：

其中，

表示每个汉字的笔画特征提取，

表示使用第k个参数矩阵下得到的第l画的笔画特征向量，

表示笔画特征矩阵中的第

到

行的子矩阵；

S208、利用max-pool层对汉字的高维度笔画特征向量进行筛选，得到汉字的笔画特征向量；汉字的笔画特征向量的表达式如下：

其中，V_CNN表示汉字的笔画特征向量，

表示在笔画特征向量

中取出最大的1个数，

本实施例中，如图4所示，汉字笔画特征提取模型包括依次连接的神经网络Embedding层、卷积层以及max-pool最大池化层；

Embedding层，用于对每个笔画特征向量进行编码处理，得到其对应的初始化特征向量；

卷积层，用于对汉字的笔画初始化特征向量进行特征提取，得到汉字的高维度笔画特征向量；

max-pool最大池化层，用于对汉字的高维度笔画特征向量进行特征筛选，得到汉字的笔画特征向量。

本实施例中，传统递归神经网络只从一个方向对文本进行处理，任意时刻都只存储当前和过去时间的信息，针对传统递归神经网络的缺点，本方案采用双向递归神经网络BiLSTM，使用两个递归神经网络分别处理正序和反序的文本序列，从而在文本句子的前向和反向上进行计算，如图5所示，其实现方法如下：

S302、将汉字特征向量输入至神经网络的Embedding层进行编码处理，得到其对应的汉字特征向量；

S303、将所述汉字特征向量以及其对应的汉字笔画特征向量进行串联，并依次输入至前向LSTM层和反向LSTM层进行双向长短记忆特征训练，得到句子的隐藏层表示；句子隐藏层表示的表达式如下：

其中，h_t表示句子隐藏层表示，

表示对文本句子从前往后计算得到的隐向量，

表示以反向方式输入当前字，得到的输出门输出，

表示以前向方式输入当前字，得到的输出门输出，

表示以前向方式输入当前字，得到的记忆单元的输出，

表示以正向方式输入当前输入字的特征向量，

表示以反向方式输入当前输入字的特征向量，

表示以正向方式输入句子中上一个字的隐藏层表示输出，

表示以反向方式输入句子中上一个字的隐藏层表示输出，

表示以正向方式输入句子中上一个字的记忆单元输出，

表示在反向方式输入下输出门和输入之间的参数矩阵，

表示在正向方式输入下输出门和输入之间的参数矩阵，

表示在正向方式下输出门和隐藏层之间的参数矩阵，

表示在反向方式下输出门和隐藏层之间的参数矩阵，

表示在正向方式下输出门的偏移向量，

表示在反向方式下输出门的偏移向量，

表示在正向方式下当前输入经过遗忘门后的结果，

表示在以反向方式下当前输入经过遗忘门后的结果，

表示在正向方式下当前输入经过输入门后的结果，

表示在反向方式下当前输入经过输入门后的结果，

表示在正向方式下输入和记忆单元之间的参数矩阵，

表示在反向方式下输入和记忆单元之间的参数矩阵，

表示在正向方式下隐藏层和记忆单元之间的参数矩阵，

表示在反向方式下隐藏层和记忆单元之间的参数矩阵，

表示在正向方式下记忆单元的偏移向量，

表示在反向方式下记忆单元的偏移向量，

表示在正向方式下输入和遗忘门之间的参数矩阵，

表示在反向方式下输入和遗忘门之间的参数矩阵，

表示在反向方式下隐藏层和遗忘门之间的参数矩阵，

表示在正向方式下隐藏层和遗忘门之间的参数矩阵，

表示在正向方式下遗忘门的偏移向量，

表示在反向方式下遗忘门的偏移向量，

表示在正向方式下输入和输入门之间的参数矩阵，

表示在反向方式下输入和输入门之间的参数矩阵，

表示在反向方式下隐藏层和输入门之间的参数矩阵，

表示在正向方式下隐藏层和输入门之间的参数矩阵，

表示在正向方式下输入门的偏移向量，

表示在反向方式下输入门的偏移向量；

本实施例中，如图6所示，实体识别模型包括依次连接的前向LSTM层、反向LSTM以及CRF层；

前向LSTM层和反向LSTM层，用于将汉字特征向量以及其对应的汉字笔画特征向量的串联进行双向长短记忆特征训练，得到句子的隐藏层表示；

CRF层，用于对句子的隐藏层表示进行约束和解码处理，完成对中文命名实体识别。

本发明能够提取汉字的笔画特征，相比传统的词向量，考虑到了字内的语义信息，结合笔画特征表示和汉字特征向量，能够包含更多的语义信息，通过BiLSTM提取语句的上下文信息，可以提高中文实体识别率。本实验使用SIGHAN20066挑战NER数据集作为训练和测试的语料库，实验结果如表2所示。

表2

其中，测试指标如下：P＝识别正确的实体数/识别出的实体数；R＝识别正确的实体数/样本的实体数F1＝(2×P×R)/(P+R)，F1为P值和R值的综合考虑。由表2可以看出本发明的模型在中文的命名实体识别上的效果好于一般的命名实体识别方法。

综上所述，本发明利用神经网络CNN对汉字笔画进行特征提取，再利用每个字的汉字特征向量和相对应的笔画特征向量相串联，输入到双向长短期记忆模型。使用神经网络CNN可以利用汉字的笔画，学习到汉字之间的相同点，双向长短期记忆模型可以学习到一句话中每个字的上下文关系，可有效提高中文命名实体识别效率。该方法为端到端识别方法，即对于中文实体识别任务，只需要输入文本，会自动获取输入文本中每个字的笔画，并最终输出识别出的实体，有效地克服了现有基于词或字符的中文命名实体识别技术的不足，提出基于笔画的中文命名实体识别方法，提高中文命名实体识别率。