CN111523325A - 一种基于笔画的中文命名实体识别方法 - Google Patents

一种基于笔画的中文命名实体识别方法 Download PDF

Info

Publication number
CN111523325A
CN111523325A CN202010312902.4A CN202010312902A CN111523325A CN 111523325 A CN111523325 A CN 111523325A CN 202010312902 A CN202010312902 A CN 202010312902A CN 111523325 A CN111523325 A CN 111523325A
Authority
CN
China
Prior art keywords
stroke
representing
input
chinese
chinese character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010312902.4A
Other languages
English (en)
Inventor
李巧勤
何家欢
刘勇国
杨尚明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010312902.4A priority Critical patent/CN111523325A/zh
Publication of CN111523325A publication Critical patent/CN111523325A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种基于笔画的中文命名实体识别方法,本发明利用神经网络CNN对汉字笔画进行特征提取,再利用每个字的汉字特征向量和相对应的笔画特征向量相串联,输入到双向长短期记忆模型,使用神经网络CNN可以利用汉字的笔画,学习到汉字之间的相同点,双向长短期记忆模型可以学习到一句话中每个字的上下文关系。本发明通过以上设计,有效地克服了现有基于词或字符的中文命名实体识别技术的不足,提高了中文命名实体识别率。

Description

一种基于笔画的中文命名实体识别方法
技术领域
本发明属于信息处理技术领域,尤其涉及一种基于笔画的中文命名实体识别方法。
背景技术
随着互联网技术的发展和普及,以及相关领域研究的不断深入,电子文本等可用信息资源得到了极大的丰富。人们迫切需要从海量非结构文本中获取有用的信息,命名实体作为一个明确的概念和研究对象,是目标文本中基本的信息元素,是正确理解目标文本的基础。中文命名实体识别是关系提取、句法分析、情感识别、智能问答等文本应用领域的重要基础工具,在自然语言处理技术中占有重要地位。在信息抽取研究中,中文命名实体识别是目前最有实用价值的一项技术。
中文命名实体识别就是要判断一个字符串是否代表一个命名实体,在中文实体领域中,基于机器学习的命名实体识别技术主要将识别任务转化为序列标记任务,按照命名实体标记方法通常包括基于字符和基于词两类识别方法。基于字符的方法对文本中的每一个字都有一个标签,如实体“中国”中的字分别对应标签“B”和标签“I”,在使用模型进行实体识别时,会对识别文本的每一个字进行标注,从而识别文本中需要关注的实体。基于词的方法需要先对文本进行分词,每一个词语具有一个标签,如实体“中国”这一个词语只具有一个标签“B”。
基于词的方法受到分词结果的影响,中文分词器产生的错误信息直接带入到用于命名实体识别的神经网络。基于字符的方法将汉字作为中文中最小的语义单位,但是中文的最小语义单位并不是字,现代中文由古代象形文字演变而来,汉字的笔画实际具有一定的语义信息,如同样具有“氵”部首的汉字“河”,“江”,“湖”,“海”等都与水相关;再如具有“木”部首的汉字“林”,“森”,“材”,“树”等都与木头木材相关,基于字符的方法则忽略了笔画的语义信息。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于笔画的中文命名实体识别方法,克服了现有基于词或字符的中文命名实体识别技术的不足问题。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种基于笔画的中文命名实体识别方法,包括以下步骤:
S1、获取语料库,并对语料库的句子进行预处理;
S2、利用汉字笔画特征提取模型提取语料库中汉字笔画的特征向量;
S3、根据经预处理后的句子以及所述汉字笔画的特征向量,利用实体识别模型对文本实体进行识别,从而完成对中文命名实体的识别。
本发明的有益效果是:本发明利用神经网络CNN对汉字笔画进行特征提取,再利用每个字的汉字特征向量及其相对应的笔画特征向量相串联,输入到双向长短期记忆模型,使用CNN可以利用汉字的笔画,学习到汉字之间的相同点,双向长短期记忆模型可以学习到一句话中每个字的上下文关系。本发明为端到端识别方法,即对于中文实体识别任务,只需要输入文本,会自动获取输入文本中每个字的笔画,并最终输出识别出的实体,有效地克服了现有基于词或字符的中文命名实体识别技术的不足,提高中文命名实体识别率。
进一步地,所述步骤S1包括以下步骤:
S101、获取SIGHAN2006 NER数据集,并将该数据集作为训练和测试的语料库;
S102、利用换行符分割语料库中的句子,将一个句子作为一个样本,并利用空格分割句子中的汉字;
S103、为语料库中的每个汉字随机分配一个单独的ID,构成文本汉字词典,完成对语料库数据的预处理。
上述进一步方案的有益效果是:本发明通过将句子中每个字进行分割,使语料库数据可以被基于笔画的中文命名实体识别方法利用。
再进一步地,所述步骤S2中汉字笔画特征提取模型包括依次连接的神经网络Embedding层、卷积层以及max-pool最大池化层;
所述Embedding层,用于对每个笔画特征向量进行编码处理,得到其对应的初始化特征向量;
所述卷积层,用于对汉字的笔画初始化特征向量进行特征提取,得到汉字的高维度笔画特征向量;
所述max-pool最大池化层,用于对汉字的高维度笔画特征向量进行特征筛选,得到汉字的笔画特征向量。
上述进一步方案的有益效果是:本发明利用卷积层提取汉字笔画之间的特征,用最大池化层选取特征中最为明显(最有用)的特征,并同时降低数据维度,加快模型运算速度。
再进一步地,所述步骤S2包括以下步骤:
S201、根据在线新华词典,将汉字笔画分为一,丨,丿,丶和乚五种笔画;
S202、根据文本汉字词典编写脚本代码,并通过在线新华词典获取每个汉字的笔画顺序;
S203、为每个笔画设置独立的ID,并根据所述笔画顺序为每个笔画初始化一个特征向量;
S204、将每个笔画特征向量输入至神经网络的Embedding层进行编码,得到其对应的初始化特征向量;
S205、输入样本,并根据所述初始化特征向量将样本中的一个汉字表示为一个笔画特征矩阵,其中,每一个汉字具有一个与其对应的笔画序列;
S206、使用0对所述笔画特征矩阵进行填充,使语料库中所有汉字的笔画特征矩阵具有相同维度;
S207、利用卷积层对填充后的笔画特征矩阵进行特征提取,得到汉字的高维度笔画特征向量;
S208、利用max-pool层对汉字的高维度笔画特征向量进行筛选,得到汉字的笔画特征向量。
上述进一步方案的有益效果是:本发明利用神经网络提取汉字内部的笔画特征,相比传统的词向量,考虑到了字内的语义信息。
再进一步地,所述步骤S207中对每个汉字的笔画特征提取的表达式如下:
Figure BDA0002458531250000041
Figure BDA0002458531250000042
Figure BDA0002458531250000043
其中,
Figure BDA0002458531250000044
表示每个汉字的笔画特征提取,
Figure BDA0002458531250000045
表示卷积核大小为q的第k个参数矩阵,T表示转置,⊙表示矩阵点乘,N表示语料库中所有汉字中笔画最多的汉字的笔画数,
Figure BDA0002458531250000046
表示使用第k个参数矩阵下得到的第l画的笔画特征向量,
Figure BDA0002458531250000047
表示使用第k个参数矩阵下得到的每一笔画特征向量的组合,m表示卷积层的通道数,
Figure BDA0002458531250000048
表示笔画特征矩阵中的第
Figure BDA0002458531250000049
Figure BDA00024585312500000410
行的子矩阵。
上述进一步方案的有益效果是:本发明使用多个卷积核,能够有效地提取到汉字笔画中更多不同类型的特征。
再进一步地,所述步骤S208中汉字的笔画特征向量的表达式如下:
Figure BDA0002458531250000051
Figure BDA0002458531250000052
其中,VCNN表示汉字的笔画特征向量,
Figure BDA0002458531250000053
表示在笔画特征向量
Figure BDA0002458531250000054
中取出最大的1个数,
Figure BDA0002458531250000055
表示连接卷积核大小为2到Q的状态下所有笔画特征,Q为模型参数,m表示卷积层的通道数。
上述进一步方案的有益效果是:本发明使用不同大小的Q值,能够提取到范围大小不同的汉字笔画特征;使用最大池化,能够选择明显的特征,并且降低数据维度,加快模型运算速度。
再进一步地,所述步骤S3中实体识别模型包括依次连接的前向LSTM层、反向LSTM以及CRF层;
所述前向LSTM层和反向LSTM层,用于将汉字特征向量以及其对应的汉字笔画特征向量的串联进行双向长短记忆特征训练,得到句子的隐藏层表示;
所述CRF层,用于对句子的隐藏层表示进行约束和解码处理,完成对中文命名实体识别。
上述进一步方案的有益效果是:本发明结合笔画特征表示和汉字特征向量,能够包含更多的语义信息,通过BiLSTM提取语句的上下文信息,可以提高中文实体识别率,利用CRF层,添加约束,进一步提高中文实体识别率。
再进一步地,所述步骤S3包括以下步骤:
S301、根据经预处理后的句子,利用word2vec词向量模型得到汉字特征向量;
S302、将所述汉字特征向量输入至神经网络的Embedding层进行编码处理,得到其对应的汉字特征向量;
S303、将所述汉字特征向量以及其对应的汉字笔画特征向量进行串联,并依次输入至前向LSTM层和反向LSTM层进行双向长短记忆特征训练,得到句子的隐藏层表示;
S304、将所述句子的隐藏层表示输入至CRF层进行约束和解码处理,完成对中文命名实体识别。
上述进一步方案的有益效果是:本发明结合笔画特征表示和汉字特征向量,能够包含更多的语义信息,通过BiLSTM提取语句的上下文信息,可以提高中文实体识别率,并利用CRF层,添加约束,进一步提高中文实体识别率。
再进一步地,所述步骤S303中句子隐藏层表示的表达式如下:
Figure BDA0002458531250000061
Figure BDA0002458531250000062
Figure BDA0002458531250000063
Figure BDA0002458531250000064
Figure BDA0002458531250000065
Figure BDA0002458531250000066
Figure BDA0002458531250000067
Figure BDA0002458531250000068
Figure BDA0002458531250000069
Figure BDA00024585312500000610
Figure BDA00024585312500000611
其中,ht表示句子隐藏层表示,
Figure BDA00024585312500000612
表示对文本句子从前往后计算得到的隐向量,
Figure BDA00024585312500000613
表示对文本句子从后往前计算得到的隐向量,σ(·)表示sigmoid激活函数,tanh(·)表示tanh激活函数,i表示输入门,f表示遗忘门,c表示记忆单元,
Figure BDA0002458531250000071
表示以反向方式输入当前字,得到的输出门输出,
Figure BDA0002458531250000072
表示以前向方式输入当前字,得到的输出门输出,
Figure BDA0002458531250000073
表示以前向方式输入当前字,得到的记忆单元的输出,
Figure BDA0002458531250000074
表示以反向方式输入当前字,得到的记忆单元的输出,o表示输出门,
Figure BDA0002458531250000075
表示以正向方式输入当前输入字的特征向量,
Figure BDA0002458531250000076
表示以反向方式输入当前输入字的特征向量,
Figure BDA0002458531250000077
表示以正向方式输入句子中上一个字的隐藏层表示输出,
Figure BDA0002458531250000078
表示以反向方式输入句子中上一个字的隐藏层表示输出,
Figure BDA0002458531250000079
表示以正向方式输入句子中上一个字的记忆单元输出,
Figure BDA00024585312500000710
表示以反向方式输入句子中上一个字的记忆单元输出,W表示参数矩阵,b表示偏移向量,
Figure BDA00024585312500000711
表示在反向方式输入下输出门和输入之间的参数矩阵,
Figure BDA00024585312500000712
表示在正向方式输入下输出门和输入之间的参数矩阵,
Figure BDA00024585312500000713
表示在正向方式下输出门和隐藏层之间的参数矩阵,
Figure BDA00024585312500000714
表示在反向方式下输出门和隐藏层之间的参数矩阵,
Figure BDA00024585312500000715
表示在正向方式下输出门的偏移向量,
Figure BDA00024585312500000716
表示在反向方式下输出门的偏移向量,
Figure BDA00024585312500000717
表示在正向方式下当前输入经过遗忘门后的结果,
Figure BDA00024585312500000718
表示在以反向方式下当前输入经过遗忘门后的结果,
Figure BDA00024585312500000719
表示在正向方式下当前输入经过输入门后的结果,
Figure BDA00024585312500000720
表示在反向方式下当前输入经过输入门后的结果,
Figure BDA00024585312500000721
表示在正向方式下输入和记忆单元之间的参数矩阵,
Figure BDA00024585312500000722
表示在反向方式下输入和记忆单元之间的参数矩阵,
Figure BDA00024585312500000723
表示在正向方式下隐藏层和记忆单元之间的参数矩阵,
Figure BDA00024585312500000724
表示在反向方式下隐藏层和记忆单元之间的参数矩阵,
Figure BDA00024585312500000725
表示在正向方式下记忆单元的偏移向量,
Figure BDA00024585312500000726
表示在反向方式下记忆单元的偏移向量,
Figure BDA00024585312500000727
表示在正向方式下输入和遗忘门之间的参数矩阵,
Figure BDA00024585312500000728
表示在反向方式下输入和遗忘门之间的参数矩阵,
Figure BDA00024585312500000729
表示在反向方式下隐藏层和遗忘门之间的参数矩阵,
Figure BDA00024585312500000730
表示在正向方式下隐藏层和遗忘门之间的参数矩阵,
Figure BDA00024585312500000731
表示在正向方式下遗忘门的偏移向量,
Figure BDA00024585312500000732
表示在反向方式下遗忘门的偏移向量,
Figure BDA00024585312500000733
表示在正向方式下输入和输入门之间的参数矩阵,
Figure BDA0002458531250000081
表示在反向方式下输入和输入门之间的参数矩阵,
Figure BDA0002458531250000082
表示在反向方式下隐藏层和输入门之间的参数矩阵,
Figure BDA0002458531250000083
表示在正向方式下隐藏层和输入门之间的参数矩阵,
Figure BDA0002458531250000084
表示在正向方式下输入门的偏移向量,
Figure BDA0002458531250000085
表示在反向方式下输入门的偏移向量。
上述进一步方案的有益效果是:本发明通过前向LSTM和反向LSTM能够计算并且保存在句子中距离较远的两个字之间的关系。
附图说明
图1为本发明的方法流程图。
图2为本实施例中步骤S1的流程图。
图3为本实施例中步骤S2的流程图。
图4为本发明中汉字笔画特征提取模型的示意图。
图5为本实施例中步骤S3的流程图。
图6为本发明中展开的双向LSTM示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1
如图1所示,本发明公开了一种基于笔画的中文命名实体识别方法,其实现方法如下:
S1、获取语料库,并对语料库的句子进行预处理;
S2、利用汉字笔画特征提取模型提取语料库中汉字笔画的特征向量;
S3、根据经预处理后的句子以及所述汉字笔画的特征向量,利用实体识别模型对文本实体进行识别,从而完成对中文命名实体的识别。
本实施例中,如图2所示,步骤S1的实现方法如下:
S101、获取SIGHAN2006 NER数据集,并将该数据集作为训练和测试的语料库;
S102、利用换行符分割语料库中的句子,将一个句子作为一个样本,并利用空格分割句子中的汉字;
S103、为语料库中的每个汉字随机分配一个单独的ID,构成文本汉字词典,完成对语料库数据的预处理。
本实施例中,如图3所示,步骤S2的实现方法如下:
S201、根据在线新华词典,将汉字笔画分为一,丨,丿,丶和乚五种笔画;
S202、根据文本汉字词典编写脚本代码,并通过在线新华词典获取每个汉字的笔画顺序;
S203、为每个笔画设置独立的ID,并根据所述笔画顺序为每个笔画初始化一个特征向量;
每个笔画设置独立的ID如表1所示:
表1
Figure BDA0002458531250000091
Figure BDA0002458531250000101
S204、将每个笔画特征向量输入至神经网络的Embedding层进行编码,得到其对应的初始化特征向量;
S205、输入训练样本,并根据初始化特征向量将训练样本中的一个汉字表示为一个笔画特征矩阵,其中,每一个汉字具有一个与其对应的笔画序列;
S206、使用0对所述笔画特征矩阵进行填充,使语料库中所有汉字的笔画特征矩阵具有相同维度;
S207、利用卷积层对填充后的笔画特征矩阵进行特征提取,得到汉字的高维度笔画特征向量;
对每个汉字的笔画特征提取的表达式如下:
Figure BDA0002458531250000102
Figure BDA0002458531250000103
Figure BDA0002458531250000104
其中,
Figure BDA0002458531250000105
表示每个汉字的笔画特征提取,
Figure BDA0002458531250000106
表示卷积核大小为q的第k个参数矩阵,T表示转置,⊙表示矩阵点乘,N表示语料库中所有汉字中笔画最多的汉字的笔画数,
Figure BDA0002458531250000107
表示使用第k个参数矩阵下得到的第l画的笔画特征向量,
Figure BDA0002458531250000108
表示使用第k个参数矩阵下得到的每一笔画特征向量的组合,m表示卷积层的通道数,
Figure BDA0002458531250000109
表示笔画特征矩阵中的第
Figure BDA00024585312500001010
Figure BDA00024585312500001011
行的子矩阵;
S208、利用max-pool层对汉字的高维度笔画特征向量进行筛选,得到汉字的笔画特征向量;汉字的笔画特征向量的表达式如下:
Figure BDA00024585312500001012
Figure BDA00024585312500001013
其中,VCNN表示汉字的笔画特征向量,
Figure BDA0002458531250000111
表示在笔画特征向量
Figure BDA0002458531250000112
中取出最大的1个数,
Figure BDA0002458531250000113
表示连接卷积核大小为2到Q的状态下所有笔画特征,Q为模型参数,m表示卷积层的通道数。
本实施例中,如图4所示,汉字笔画特征提取模型包括依次连接的神经网络Embedding层、卷积层以及max-pool最大池化层;
Embedding层,用于对每个笔画特征向量进行编码处理,得到其对应的初始化特征向量;
卷积层,用于对汉字的笔画初始化特征向量进行特征提取,得到汉字的高维度笔画特征向量;
max-pool最大池化层,用于对汉字的高维度笔画特征向量进行特征筛选,得到汉字的笔画特征向量。
本实施例中,传统递归神经网络只从一个方向对文本进行处理,任意时刻都只存储当前和过去时间的信息,针对传统递归神经网络的缺点,本方案采用双向递归神经网络BiLSTM,使用两个递归神经网络分别处理正序和反序的文本序列,从而在文本句子的前向和反向上进行计算,如图5所示,其实现方法如下:
S301、根据经预处理后的句子,利用word2vec词向量模型得到汉字特征向量;
S302、将汉字特征向量输入至神经网络的Embedding层进行编码处理,得到其对应的汉字特征向量;
S303、将所述汉字特征向量以及其对应的汉字笔画特征向量进行串联,并依次输入至前向LSTM层和反向LSTM层进行双向长短记忆特征训练,得到句子的隐藏层表示;句子隐藏层表示的表达式如下:
Figure BDA0002458531250000121
Figure BDA0002458531250000122
Figure BDA0002458531250000123
Figure BDA0002458531250000124
Figure BDA0002458531250000125
Figure BDA0002458531250000126
Figure BDA0002458531250000127
Figure BDA0002458531250000128
Figure BDA0002458531250000129
Figure BDA00024585312500001210
Figure BDA00024585312500001211
其中,ht表示句子隐藏层表示,
Figure BDA00024585312500001212
表示对文本句子从前往后计算得到的隐向量,
Figure BDA00024585312500001213
表示对文本句子从后往前计算得到的隐向量,σ(·)表示sigmoid激活函数,tanh(·)表示tanh激活函数,i表示输入门,f表示遗忘门,c表示记忆单元,
Figure BDA00024585312500001214
表示以反向方式输入当前字,得到的输出门输出,
Figure BDA00024585312500001215
表示以前向方式输入当前字,得到的输出门输出,
Figure BDA00024585312500001216
表示以前向方式输入当前字,得到的记忆单元的输出,
Figure BDA00024585312500001217
表示以反向方式输入当前字,得到的记忆单元的输出,o表示输出门,
Figure BDA00024585312500001218
表示以正向方式输入当前输入字的特征向量,
Figure BDA00024585312500001219
表示以反向方式输入当前输入字的特征向量,
Figure BDA00024585312500001220
表示以正向方式输入句子中上一个字的隐藏层表示输出,
Figure BDA00024585312500001221
表示以反向方式输入句子中上一个字的隐藏层表示输出,
Figure BDA00024585312500001222
表示以正向方式输入句子中上一个字的记忆单元输出,
Figure BDA00024585312500001223
表示以反向方式输入句子中上一个字的记忆单元输出,W表示参数矩阵,b表示偏移向量,
Figure BDA00024585312500001224
表示在反向方式输入下输出门和输入之间的参数矩阵,
Figure BDA00024585312500001225
表示在正向方式输入下输出门和输入之间的参数矩阵,
Figure BDA0002458531250000131
表示在正向方式下输出门和隐藏层之间的参数矩阵,
Figure BDA0002458531250000132
表示在反向方式下输出门和隐藏层之间的参数矩阵,
Figure BDA0002458531250000133
表示在正向方式下输出门的偏移向量,
Figure BDA0002458531250000134
表示在反向方式下输出门的偏移向量,
Figure BDA0002458531250000135
表示在正向方式下当前输入经过遗忘门后的结果,
Figure BDA0002458531250000136
表示在以反向方式下当前输入经过遗忘门后的结果,
Figure BDA0002458531250000137
表示在正向方式下当前输入经过输入门后的结果,
Figure BDA0002458531250000138
表示在反向方式下当前输入经过输入门后的结果,
Figure BDA0002458531250000139
表示在正向方式下输入和记忆单元之间的参数矩阵,
Figure BDA00024585312500001310
表示在反向方式下输入和记忆单元之间的参数矩阵,
Figure BDA00024585312500001311
表示在正向方式下隐藏层和记忆单元之间的参数矩阵,
Figure BDA00024585312500001312
表示在反向方式下隐藏层和记忆单元之间的参数矩阵,
Figure BDA00024585312500001313
表示在正向方式下记忆单元的偏移向量,
Figure BDA00024585312500001314
表示在反向方式下记忆单元的偏移向量,
Figure BDA00024585312500001315
表示在正向方式下输入和遗忘门之间的参数矩阵,
Figure BDA00024585312500001316
表示在反向方式下输入和遗忘门之间的参数矩阵,
Figure BDA00024585312500001317
表示在反向方式下隐藏层和遗忘门之间的参数矩阵,
Figure BDA00024585312500001318
表示在正向方式下隐藏层和遗忘门之间的参数矩阵,
Figure BDA00024585312500001319
表示在正向方式下遗忘门的偏移向量,
Figure BDA00024585312500001320
表示在反向方式下遗忘门的偏移向量,
Figure BDA00024585312500001321
表示在正向方式下输入和输入门之间的参数矩阵,
Figure BDA00024585312500001322
表示在反向方式下输入和输入门之间的参数矩阵,
Figure BDA00024585312500001323
表示在反向方式下隐藏层和输入门之间的参数矩阵,
Figure BDA00024585312500001324
表示在正向方式下隐藏层和输入门之间的参数矩阵,
Figure BDA00024585312500001325
表示在正向方式下输入门的偏移向量,
Figure BDA00024585312500001326
表示在反向方式下输入门的偏移向量;
S304、将所述句子的隐藏层表示输入至CRF层进行约束和解码处理,完成对中文命名实体识别。
本实施例中,如图6所示,实体识别模型包括依次连接的前向LSTM层、反向LSTM以及CRF层;
前向LSTM层和反向LSTM层,用于将汉字特征向量以及其对应的汉字笔画特征向量的串联进行双向长短记忆特征训练,得到句子的隐藏层表示;
CRF层,用于对句子的隐藏层表示进行约束和解码处理,完成对中文命名实体识别。
本发明能够提取汉字的笔画特征,相比传统的词向量,考虑到了字内的语义信息,结合笔画特征表示和汉字特征向量,能够包含更多的语义信息,通过BiLSTM提取语句的上下文信息,可以提高中文实体识别率。本实验使用SIGHAN20066挑战NER数据集作为训练和测试的语料库,实验结果如表2所示。
表2
Figure BDA0002458531250000141
其中,测试指标如下:P=识别正确的实体数/识别出的实体数;R=识别正确的实体数/样本的实体数F1=(2×P×R)/(P+R),F1为P值和R值的综合考虑。由表2可以看出本发明的模型在中文的命名实体识别上的效果好于一般的命名实体识别方法。
综上所述,本发明利用神经网络CNN对汉字笔画进行特征提取,再利用每个字的汉字特征向量和相对应的笔画特征向量相串联,输入到双向长短期记忆模型。使用神经网络CNN可以利用汉字的笔画,学习到汉字之间的相同点,双向长短期记忆模型可以学习到一句话中每个字的上下文关系,可有效提高中文命名实体识别效率。该方法为端到端识别方法,即对于中文实体识别任务,只需要输入文本,会自动获取输入文本中每个字的笔画,并最终输出识别出的实体,有效地克服了现有基于词或字符的中文命名实体识别技术的不足,提出基于笔画的中文命名实体识别方法,提高中文命名实体识别率。

Claims (9)

1.一种基于笔画的中文命名实体识别方法,其特征在于,包括以下步骤:
S1、获取语料库,并对语料库的句子进行预处理;
S2、利用汉字笔画特征提取模型提取语料库中汉字笔画的特征向量;
S3、根据经预处理后的句子以及所述汉字笔画的特征向量,利用实体识别模型对文本实体进行识别,从而完成对中文命名实体的识别。
2.根据权利要求1所述的基于笔画的中文命名实体识别方法,其特征在于,所述步骤S1包括以下步骤:
S101、获取SIGHAN2006 NER数据集,并将该数据集作为训练和测试的语料库;
S102、利用换行符分割语料库中的句子,将一个句子作为一个样本,并利用空格分割句子中的汉字;
S103、为语料库中的每个汉字随机分配一个单独的ID,构成文本汉字词典,完成对语料库数据的预处理。
3.根据权利要求1所述的基于笔画的中文命名实体识别方法,其特征在于,所述步骤S2中汉字笔画特征提取模型包括依次连接的神经网络Embedding层、卷积层以及max-pool最大池化层;
所述Embedding层,用于对每个笔画特征向量进行编码处理,得到其对应的初始化特征向量;
所述卷积层,用于对汉字的笔画初始化特征向量进行特征提取,得到汉字的高维度笔画特征向量;
所述max-pool最大池化层,用于对汉字的高维度笔画特征向量进行特征筛选,得到汉字的笔画特征向量。
4.根据权利要求3所述的基于笔画的中文命名实体识别方法,其特征在于,所述步骤S2包括以下步骤:
S201、根据在线新华词典,将汉字笔画分为一,丨,丿,丶和乚五种笔画;
S202、根据文本汉字词典编写脚本代码,并通过在线新华词典获取每个汉字的笔画顺序;
S203、为每个笔画设置独立的ID,并根据所述笔画顺序为每个笔画初始化一个特征向量;
S204、将每个笔画特征向量输入至神经网络的Embedding层进行编码,得到其对应的初始化特征向量;
S205、输入样本,并根据所述初始化特征向量将样本中的一个汉字表示为一个笔画特征矩阵,其中,每一个汉字具有一个与其对应的笔画序列;
S206、使用0对所述笔画特征矩阵进行填充,使语料库中所有汉字的笔画特征矩阵具有相同维度;
S207、利用卷积层对填充后的笔画特征矩阵进行特征提取,得到汉字的高维度笔画特征向量;
S208、利用max-pool层对汉字的高维度笔画特征向量进行筛选,得到汉字的笔画特征向量。
5.根据权利要求4所述的基于笔画的中文命名实体识别方法,其特征在于,所述步骤S207中对每个汉字的笔画特征提取的表达式如下:
Figure FDA0002458531240000021
Figure FDA0002458531240000022
Figure FDA0002458531240000023
其中,
Figure FDA0002458531240000024
表示每个汉字的笔画特征提取,
Figure FDA0002458531240000025
表示卷积核大小为q的第k个参数矩阵,T表示转置,⊙表示矩阵点乘,N表示语料库中所有汉字中笔画最多的汉字的笔画数,
Figure FDA0002458531240000031
表示使用第k个参数矩阵下得到的第l画的笔画特征向量,
Figure FDA0002458531240000032
表示使用第k个参数矩阵下得到的每一笔画特征向量的组合,m表示卷积层的通道数,
Figure FDA0002458531240000033
表示笔画特征矩阵中的第
Figure FDA0002458531240000034
Figure FDA0002458531240000035
行的子矩阵。
6.根据权利要求4所述的基于笔画的中文命名实体识别方法,其特征在于,所述步骤S208中汉字的笔画特征向量的表达式如下:
Figure FDA0002458531240000036
Figure FDA0002458531240000037
其中,VCNN表示汉字的笔画特征向量,
Figure FDA0002458531240000038
表示在笔画特征向量
Figure FDA0002458531240000039
中取出最大的1个数,
Figure FDA00024585312400000310
表示连接卷积核大小为2到Q的状态下所有笔画特征,Q为模型参数,m表示卷积层的通道数。
7.根据权利要求1所述的基于笔画的中文命名实体识别方法,其特征在于,所述步骤S3中实体识别模型包括依次连接的前向LSTM层、反向LSTM以及CRF层;
所述前向LSTM层和反向LSTM层,用于将汉字特征向量以及其对应的汉字笔画特征向量的串联进行双向长短记忆特征训练,得到句子的隐藏层表示;
所述CRF层,用于对句子的隐藏层表示进行约束和解码处理,完成对中文命名实体识别。
8.根据权利要求7所述的基于笔画的中文命名实体识别方法,其特征在于,所述步骤S3包括以下步骤:
S301、根据经预处理后的句子,利用word2vec词向量模型得到汉字特征向量;
S302、将所述汉字特征向量输入至神经网络的Embedding层进行编码处理,得到其对应的汉字特征向量;
S303、将所述汉字特征向量以及其对应的汉字笔画特征向量进行串联,并依次输入至前向LSTM层和反向LSTM层进行双向长短记忆特征训练,得到句子的隐藏层表示;
S304、将所述句子的隐藏层表示输入至CRF层进行约束和解码处理,完成对中文命名实体识别。
9.根据权利要求8所述的基于笔画的中文命名实体识别方法,其特征在于,所述步骤S303中句子隐藏层表示的表达式如下:
Figure FDA0002458531240000041
Figure FDA0002458531240000042
Figure FDA0002458531240000043
Figure FDA0002458531240000044
Figure FDA0002458531240000045
Figure FDA0002458531240000046
Figure FDA0002458531240000047
Figure FDA0002458531240000048
Figure FDA0002458531240000049
Figure FDA00024585312400000410
Figure FDA00024585312400000411
其中,ht表示句子隐藏层表示,
Figure FDA00024585312400000412
表示对文本句子从前往后计算得到的隐向量,
Figure FDA00024585312400000413
表示对文本句子从后往前计算得到的隐向量,σ(·)表示sigmoid激活函数,tanh(·)表示tanh激活函数,i表示输入门,f表示遗忘门,c表示记忆单元,
Figure FDA00024585312400000414
表示以反向方式输入当前字,得到的输出门输出,
Figure FDA00024585312400000415
表示以前向方式输入当前字,得到的输出门输出,
Figure FDA00024585312400000416
表示以前向方式输入当前字,得到的记忆单元的输出,
Figure FDA0002458531240000051
表示以反向方式输入当前字,得到的记忆单元的输出,o表示输出门,
Figure FDA0002458531240000052
表示以正向方式输入当前输入字的特征向量,
Figure FDA0002458531240000053
表示以反向方式输入当前输入字的特征向量,
Figure FDA0002458531240000054
表示以正向方式输入句子中上一个字的隐藏层表示输出,
Figure FDA0002458531240000055
表示以反向方式输入句子中上一个字的隐藏层表示输出,
Figure FDA0002458531240000056
表示以正向方式输入句子中上一个字的记忆单元输出,
Figure FDA0002458531240000057
表示以反向方式输入句子中上一个字的记忆单元输出,W表示参数矩阵,b表示偏移向量,
Figure FDA0002458531240000058
表示在反向方式输入下输出门和输入之间的参数矩阵,
Figure FDA0002458531240000059
表示在正向方式输入下输出门和输入之间的参数矩阵,
Figure FDA00024585312400000510
表示在正向方式下输出门和隐藏层之间的参数矩阵,
Figure FDA00024585312400000511
表示在反向方式下输出门和隐藏层之间的参数矩阵,
Figure FDA00024585312400000512
表示在正向方式下输出门的偏移向量,
Figure FDA00024585312400000513
表示在反向方式下输出门的偏移向量,
Figure FDA00024585312400000514
表示在正向方式下当前输入经过遗忘门后的结果,
Figure FDA00024585312400000515
表示在以反向方式下当前输入经过遗忘门后的结果,
Figure FDA00024585312400000516
表示在正向方式下当前输入经过输入门后的结果,
Figure FDA00024585312400000517
表示在反向方式下当前输入经过输入门后的结果,
Figure FDA00024585312400000518
表示在正向方式下输入和记忆单元之间的参数矩阵,
Figure FDA00024585312400000519
表示在反向方式下输入和记忆单元之间的参数矩阵,
Figure FDA00024585312400000520
表示在正向方式下隐藏层和记忆单元之间的参数矩阵,
Figure FDA00024585312400000521
表示在反向方式下隐藏层和记忆单元之间的参数矩阵,
Figure FDA00024585312400000522
表示在正向方式下记忆单元的偏移向量,
Figure FDA00024585312400000523
表示在反向方式下记忆单元的偏移向量,
Figure FDA00024585312400000524
表示在正向方式下输入和遗忘门之间的参数矩阵,
Figure FDA00024585312400000525
表示在反向方式下输入和遗忘门之间的参数矩阵,
Figure FDA00024585312400000526
表示在反向方式下隐藏层和遗忘门之间的参数矩阵,
Figure FDA00024585312400000527
表示在正向方式下隐藏层和遗忘门之间的参数矩阵,
Figure FDA00024585312400000528
表示在正向方式下遗忘门的偏移向量,
Figure FDA00024585312400000529
表示在反向方式下遗忘门的偏移向量,
Figure FDA00024585312400000530
表示在正向方式下输入和输入门之间的参数矩阵,
Figure FDA00024585312400000531
表示在反向方式下输入和输入门之间的参数矩阵,
Figure FDA00024585312400000532
表示在反向方式下隐藏层和输入门之间的参数矩阵,
Figure FDA00024585312400000533
表示在正向方式下隐藏层和输入门之间的参数矩阵,
Figure FDA0002458531240000061
表示在正向方式下输入门的偏移向量,
Figure FDA0002458531240000062
表示在反向方式下输入门的偏移向量。
CN202010312902.4A 2020-04-20 2020-04-20 一种基于笔画的中文命名实体识别方法 Pending CN111523325A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010312902.4A CN111523325A (zh) 2020-04-20 2020-04-20 一种基于笔画的中文命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010312902.4A CN111523325A (zh) 2020-04-20 2020-04-20 一种基于笔画的中文命名实体识别方法

Publications (1)

Publication Number Publication Date
CN111523325A true CN111523325A (zh) 2020-08-11

Family

ID=71901717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010312902.4A Pending CN111523325A (zh) 2020-04-20 2020-04-20 一种基于笔画的中文命名实体识别方法

Country Status (1)

Country Link
CN (1) CN111523325A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680669A (zh) * 2020-08-12 2020-09-18 江西风向标教育科技有限公司 一种试题分割方法、系统及可读存储介质
CN112800987A (zh) * 2021-02-02 2021-05-14 中国联合网络通信集团有限公司 一种汉字处理方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN108829678A (zh) * 2018-06-20 2018-11-16 广东外语外贸大学 一种汉语国际教育领域命名实体识别方法
CN109117472A (zh) * 2018-11-12 2019-01-01 新疆大学 一种基于深度学习的维吾尔文命名实体识别方法
CN110287483A (zh) * 2019-06-06 2019-09-27 广东技术师范大学 一种利用五笔字根深度学习的未登录词识别方法及系统
CN110619120A (zh) * 2019-08-12 2019-12-27 北京航空航天大学 语言模型的训练方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN108829678A (zh) * 2018-06-20 2018-11-16 广东外语外贸大学 一种汉语国际教育领域命名实体识别方法
CN109117472A (zh) * 2018-11-12 2019-01-01 新疆大学 一种基于深度学习的维吾尔文命名实体识别方法
CN110287483A (zh) * 2019-06-06 2019-09-27 广东技术师范大学 一种利用五笔字根深度学习的未登录词识别方法及系统
CN110619120A (zh) * 2019-08-12 2019-12-27 北京航空航天大学 语言模型的训练方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
NAN LI 等: "DUTIR at the CCKS-2019 Task1: Improving Chinese Clinical Named Entity Recognition using Stroke ELMo and Transfer Learning", 《HTTPS://WWW.RESEARCHGATE.NET/PUBLICATION/335824610》 *
冯志: "多特征融合的解释性意见要素识别方法研究与实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
张海楠 等: "基于深度神经网络的中文命名实体识别", 《中文信息学报》 *
罗凌 等: "基于深度学习的中文生物医学文本信息抽取", 《计算机学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680669A (zh) * 2020-08-12 2020-09-18 江西风向标教育科技有限公司 一种试题分割方法、系统及可读存储介质
CN112800987A (zh) * 2021-02-02 2021-05-14 中国联合网络通信集团有限公司 一种汉字处理方法和装置
CN112800987B (zh) * 2021-02-02 2023-07-21 中国联合网络通信集团有限公司 一种汉字处理方法和装置

Similar Documents

Publication Publication Date Title
CN109871535B (zh) 一种基于深度神经网络的法语命名实体识别方法
CN111046946B (zh) 基于crnn的缅甸语图像文本识别方法
CN109948152A (zh) 一种基于lstm的中文文本语法纠错模型方法
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN109003601A (zh) 一种针对低资源土家语的跨语言端到端语音识别方法
CN110909736B (zh) 一种基于长短期记忆模型与目标检测算法的图像描述方法
CN113190602B (zh) 融合字词特征与深度学习的事件联合抽取方法
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN109993164A (zh) 一种基于rcrnn神经网络的自然场景文字识别方法
CN113298151A (zh) 一种基于多级特征融合的遥感图像语义描述方法
CN110276052B (zh) 一种古汉语自动分词及词性标注一体化方法及装置
CN110851594A (zh) 一种基于多通道深度学习模型的文本分类方法及其装置
CN111008526A (zh) 一种基于双通道神经网络的命名实体识别方法
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
Laishram et al. Simulation and modeling of handwritten Meitei Mayek digits using neural network approach
CN109145946B (zh) 一种智能图像识别和描述方法
CN111523325A (zh) 一种基于笔画的中文命名实体识别方法
CN111651993A (zh) 融合局部-全局字符级关联特征的中文命名实体识别方法
CN111444720A (zh) 一种英文文本的命名实体识别方法
CN110866087B (zh) 一种基于主题模型的面向实体的文本情感分析方法
CN110610006A (zh) 基于笔画和字形的形态学双通道中文词嵌入方法
CN114548116A (zh) 一种基于语序与语义联合分析的中文文本检错方法及系统
CN111178009B (zh) 一种基于特征词加权的文本多语种识别方法
CN110598212A (zh) 一种快速命名体识别方法
CN112949284A (zh) 一种基于Transformer模型的文本语义相似度预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200811