CN111523325A - 一种基于笔画的中文命名实体识别方法 - Google Patents
一种基于笔画的中文命名实体识别方法 Download PDFInfo
- Publication number
- CN111523325A CN111523325A CN202010312902.4A CN202010312902A CN111523325A CN 111523325 A CN111523325 A CN 111523325A CN 202010312902 A CN202010312902 A CN 202010312902A CN 111523325 A CN111523325 A CN 111523325A
- Authority
- CN
- China
- Prior art keywords
- stroke
- representing
- input
- chinese
- chinese character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 148
- 230000015654 memory Effects 0.000 claims abstract description 44
- 238000013528 artificial neural network Methods 0.000 claims abstract description 20
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 13
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 78
- 238000000605 extraction Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 8
- 230000007547 defect Effects 0.000 abstract description 6
- 230000009286 beneficial effect Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 239000002023 wood Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种基于笔画的中文命名实体识别方法,本发明利用神经网络CNN对汉字笔画进行特征提取,再利用每个字的汉字特征向量和相对应的笔画特征向量相串联,输入到双向长短期记忆模型,使用神经网络CNN可以利用汉字的笔画,学习到汉字之间的相同点,双向长短期记忆模型可以学习到一句话中每个字的上下文关系。本发明通过以上设计,有效地克服了现有基于词或字符的中文命名实体识别技术的不足,提高了中文命名实体识别率。
Description
技术领域
本发明属于信息处理技术领域,尤其涉及一种基于笔画的中文命名实体识别方法。
背景技术
随着互联网技术的发展和普及,以及相关领域研究的不断深入,电子文本等可用信息资源得到了极大的丰富。人们迫切需要从海量非结构文本中获取有用的信息,命名实体作为一个明确的概念和研究对象,是目标文本中基本的信息元素,是正确理解目标文本的基础。中文命名实体识别是关系提取、句法分析、情感识别、智能问答等文本应用领域的重要基础工具,在自然语言处理技术中占有重要地位。在信息抽取研究中,中文命名实体识别是目前最有实用价值的一项技术。
中文命名实体识别就是要判断一个字符串是否代表一个命名实体,在中文实体领域中,基于机器学习的命名实体识别技术主要将识别任务转化为序列标记任务,按照命名实体标记方法通常包括基于字符和基于词两类识别方法。基于字符的方法对文本中的每一个字都有一个标签,如实体“中国”中的字分别对应标签“B”和标签“I”,在使用模型进行实体识别时,会对识别文本的每一个字进行标注,从而识别文本中需要关注的实体。基于词的方法需要先对文本进行分词,每一个词语具有一个标签,如实体“中国”这一个词语只具有一个标签“B”。
基于词的方法受到分词结果的影响,中文分词器产生的错误信息直接带入到用于命名实体识别的神经网络。基于字符的方法将汉字作为中文中最小的语义单位,但是中文的最小语义单位并不是字,现代中文由古代象形文字演变而来,汉字的笔画实际具有一定的语义信息,如同样具有“氵”部首的汉字“河”,“江”,“湖”,“海”等都与水相关;再如具有“木”部首的汉字“林”,“森”,“材”,“树”等都与木头木材相关,基于字符的方法则忽略了笔画的语义信息。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于笔画的中文命名实体识别方法,克服了现有基于词或字符的中文命名实体识别技术的不足问题。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种基于笔画的中文命名实体识别方法,包括以下步骤:
S1、获取语料库,并对语料库的句子进行预处理;
S2、利用汉字笔画特征提取模型提取语料库中汉字笔画的特征向量;
S3、根据经预处理后的句子以及所述汉字笔画的特征向量,利用实体识别模型对文本实体进行识别,从而完成对中文命名实体的识别。
本发明的有益效果是:本发明利用神经网络CNN对汉字笔画进行特征提取,再利用每个字的汉字特征向量及其相对应的笔画特征向量相串联,输入到双向长短期记忆模型,使用CNN可以利用汉字的笔画,学习到汉字之间的相同点,双向长短期记忆模型可以学习到一句话中每个字的上下文关系。本发明为端到端识别方法,即对于中文实体识别任务,只需要输入文本,会自动获取输入文本中每个字的笔画,并最终输出识别出的实体,有效地克服了现有基于词或字符的中文命名实体识别技术的不足,提高中文命名实体识别率。
进一步地,所述步骤S1包括以下步骤:
S101、获取SIGHAN2006 NER数据集,并将该数据集作为训练和测试的语料库;
S102、利用换行符分割语料库中的句子,将一个句子作为一个样本,并利用空格分割句子中的汉字;
S103、为语料库中的每个汉字随机分配一个单独的ID,构成文本汉字词典,完成对语料库数据的预处理。
上述进一步方案的有益效果是:本发明通过将句子中每个字进行分割,使语料库数据可以被基于笔画的中文命名实体识别方法利用。
再进一步地,所述步骤S2中汉字笔画特征提取模型包括依次连接的神经网络Embedding层、卷积层以及max-pool最大池化层;
所述Embedding层,用于对每个笔画特征向量进行编码处理,得到其对应的初始化特征向量;
所述卷积层,用于对汉字的笔画初始化特征向量进行特征提取,得到汉字的高维度笔画特征向量;
所述max-pool最大池化层,用于对汉字的高维度笔画特征向量进行特征筛选,得到汉字的笔画特征向量。
上述进一步方案的有益效果是:本发明利用卷积层提取汉字笔画之间的特征,用最大池化层选取特征中最为明显(最有用)的特征,并同时降低数据维度,加快模型运算速度。
再进一步地,所述步骤S2包括以下步骤:
S201、根据在线新华词典,将汉字笔画分为一,丨,丿,丶和乚五种笔画;
S202、根据文本汉字词典编写脚本代码,并通过在线新华词典获取每个汉字的笔画顺序;
S203、为每个笔画设置独立的ID,并根据所述笔画顺序为每个笔画初始化一个特征向量;
S204、将每个笔画特征向量输入至神经网络的Embedding层进行编码,得到其对应的初始化特征向量;
S205、输入样本,并根据所述初始化特征向量将样本中的一个汉字表示为一个笔画特征矩阵,其中,每一个汉字具有一个与其对应的笔画序列;
S206、使用0对所述笔画特征矩阵进行填充,使语料库中所有汉字的笔画特征矩阵具有相同维度;
S207、利用卷积层对填充后的笔画特征矩阵进行特征提取,得到汉字的高维度笔画特征向量;
S208、利用max-pool层对汉字的高维度笔画特征向量进行筛选,得到汉字的笔画特征向量。
上述进一步方案的有益效果是:本发明利用神经网络提取汉字内部的笔画特征,相比传统的词向量,考虑到了字内的语义信息。
再进一步地,所述步骤S207中对每个汉字的笔画特征提取的表达式如下:
其中,表示每个汉字的笔画特征提取,表示卷积核大小为q的第k个参数矩阵,T表示转置,⊙表示矩阵点乘,N表示语料库中所有汉字中笔画最多的汉字的笔画数,表示使用第k个参数矩阵下得到的第l画的笔画特征向量,表示使用第k个参数矩阵下得到的每一笔画特征向量的组合,m表示卷积层的通道数,表示笔画特征矩阵中的第到行的子矩阵。
上述进一步方案的有益效果是:本发明使用多个卷积核,能够有效地提取到汉字笔画中更多不同类型的特征。
再进一步地,所述步骤S208中汉字的笔画特征向量的表达式如下:
上述进一步方案的有益效果是:本发明使用不同大小的Q值,能够提取到范围大小不同的汉字笔画特征;使用最大池化,能够选择明显的特征,并且降低数据维度,加快模型运算速度。
再进一步地,所述步骤S3中实体识别模型包括依次连接的前向LSTM层、反向LSTM以及CRF层;
所述前向LSTM层和反向LSTM层,用于将汉字特征向量以及其对应的汉字笔画特征向量的串联进行双向长短记忆特征训练,得到句子的隐藏层表示;
所述CRF层,用于对句子的隐藏层表示进行约束和解码处理,完成对中文命名实体识别。
上述进一步方案的有益效果是:本发明结合笔画特征表示和汉字特征向量,能够包含更多的语义信息,通过BiLSTM提取语句的上下文信息,可以提高中文实体识别率,利用CRF层,添加约束,进一步提高中文实体识别率。
再进一步地,所述步骤S3包括以下步骤:
S301、根据经预处理后的句子,利用word2vec词向量模型得到汉字特征向量;
S302、将所述汉字特征向量输入至神经网络的Embedding层进行编码处理,得到其对应的汉字特征向量;
S303、将所述汉字特征向量以及其对应的汉字笔画特征向量进行串联,并依次输入至前向LSTM层和反向LSTM层进行双向长短记忆特征训练,得到句子的隐藏层表示;
S304、将所述句子的隐藏层表示输入至CRF层进行约束和解码处理,完成对中文命名实体识别。
上述进一步方案的有益效果是:本发明结合笔画特征表示和汉字特征向量,能够包含更多的语义信息,通过BiLSTM提取语句的上下文信息,可以提高中文实体识别率,并利用CRF层,添加约束,进一步提高中文实体识别率。
再进一步地,所述步骤S303中句子隐藏层表示的表达式如下:
其中,ht表示句子隐藏层表示,表示对文本句子从前往后计算得到的隐向量,表示对文本句子从后往前计算得到的隐向量,σ(·)表示sigmoid激活函数,tanh(·)表示tanh激活函数,i表示输入门,f表示遗忘门,c表示记忆单元,表示以反向方式输入当前字,得到的输出门输出,表示以前向方式输入当前字,得到的输出门输出,表示以前向方式输入当前字,得到的记忆单元的输出,表示以反向方式输入当前字,得到的记忆单元的输出,o表示输出门,表示以正向方式输入当前输入字的特征向量,表示以反向方式输入当前输入字的特征向量,表示以正向方式输入句子中上一个字的隐藏层表示输出,表示以反向方式输入句子中上一个字的隐藏层表示输出,表示以正向方式输入句子中上一个字的记忆单元输出,表示以反向方式输入句子中上一个字的记忆单元输出,W表示参数矩阵,b表示偏移向量,表示在反向方式输入下输出门和输入之间的参数矩阵,表示在正向方式输入下输出门和输入之间的参数矩阵,表示在正向方式下输出门和隐藏层之间的参数矩阵,表示在反向方式下输出门和隐藏层之间的参数矩阵,表示在正向方式下输出门的偏移向量,表示在反向方式下输出门的偏移向量,表示在正向方式下当前输入经过遗忘门后的结果,表示在以反向方式下当前输入经过遗忘门后的结果,表示在正向方式下当前输入经过输入门后的结果,表示在反向方式下当前输入经过输入门后的结果,表示在正向方式下输入和记忆单元之间的参数矩阵,表示在反向方式下输入和记忆单元之间的参数矩阵,表示在正向方式下隐藏层和记忆单元之间的参数矩阵,表示在反向方式下隐藏层和记忆单元之间的参数矩阵,表示在正向方式下记忆单元的偏移向量,表示在反向方式下记忆单元的偏移向量,表示在正向方式下输入和遗忘门之间的参数矩阵,表示在反向方式下输入和遗忘门之间的参数矩阵,表示在反向方式下隐藏层和遗忘门之间的参数矩阵,表示在正向方式下隐藏层和遗忘门之间的参数矩阵,表示在正向方式下遗忘门的偏移向量,表示在反向方式下遗忘门的偏移向量,表示在正向方式下输入和输入门之间的参数矩阵,表示在反向方式下输入和输入门之间的参数矩阵,表示在反向方式下隐藏层和输入门之间的参数矩阵,表示在正向方式下隐藏层和输入门之间的参数矩阵,表示在正向方式下输入门的偏移向量,表示在反向方式下输入门的偏移向量。
上述进一步方案的有益效果是:本发明通过前向LSTM和反向LSTM能够计算并且保存在句子中距离较远的两个字之间的关系。
附图说明
图1为本发明的方法流程图。
图2为本实施例中步骤S1的流程图。
图3为本实施例中步骤S2的流程图。
图4为本发明中汉字笔画特征提取模型的示意图。
图5为本实施例中步骤S3的流程图。
图6为本发明中展开的双向LSTM示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1
如图1所示,本发明公开了一种基于笔画的中文命名实体识别方法,其实现方法如下:
S1、获取语料库,并对语料库的句子进行预处理;
S2、利用汉字笔画特征提取模型提取语料库中汉字笔画的特征向量;
S3、根据经预处理后的句子以及所述汉字笔画的特征向量,利用实体识别模型对文本实体进行识别,从而完成对中文命名实体的识别。
本实施例中,如图2所示,步骤S1的实现方法如下:
S101、获取SIGHAN2006 NER数据集,并将该数据集作为训练和测试的语料库;
S102、利用换行符分割语料库中的句子,将一个句子作为一个样本,并利用空格分割句子中的汉字;
S103、为语料库中的每个汉字随机分配一个单独的ID,构成文本汉字词典,完成对语料库数据的预处理。
本实施例中,如图3所示,步骤S2的实现方法如下:
S201、根据在线新华词典,将汉字笔画分为一,丨,丿,丶和乚五种笔画;
S202、根据文本汉字词典编写脚本代码,并通过在线新华词典获取每个汉字的笔画顺序;
S203、为每个笔画设置独立的ID,并根据所述笔画顺序为每个笔画初始化一个特征向量;
每个笔画设置独立的ID如表1所示:
表1
S204、将每个笔画特征向量输入至神经网络的Embedding层进行编码,得到其对应的初始化特征向量;
S205、输入训练样本,并根据初始化特征向量将训练样本中的一个汉字表示为一个笔画特征矩阵,其中,每一个汉字具有一个与其对应的笔画序列;
S206、使用0对所述笔画特征矩阵进行填充,使语料库中所有汉字的笔画特征矩阵具有相同维度;
S207、利用卷积层对填充后的笔画特征矩阵进行特征提取,得到汉字的高维度笔画特征向量;
对每个汉字的笔画特征提取的表达式如下:
其中,表示每个汉字的笔画特征提取,表示卷积核大小为q的第k个参数矩阵,T表示转置,⊙表示矩阵点乘,N表示语料库中所有汉字中笔画最多的汉字的笔画数,表示使用第k个参数矩阵下得到的第l画的笔画特征向量,表示使用第k个参数矩阵下得到的每一笔画特征向量的组合,m表示卷积层的通道数,表示笔画特征矩阵中的第到行的子矩阵;
S208、利用max-pool层对汉字的高维度笔画特征向量进行筛选,得到汉字的笔画特征向量;汉字的笔画特征向量的表达式如下:
本实施例中,如图4所示,汉字笔画特征提取模型包括依次连接的神经网络Embedding层、卷积层以及max-pool最大池化层;
Embedding层,用于对每个笔画特征向量进行编码处理,得到其对应的初始化特征向量;
卷积层,用于对汉字的笔画初始化特征向量进行特征提取,得到汉字的高维度笔画特征向量;
max-pool最大池化层,用于对汉字的高维度笔画特征向量进行特征筛选,得到汉字的笔画特征向量。
本实施例中,传统递归神经网络只从一个方向对文本进行处理,任意时刻都只存储当前和过去时间的信息,针对传统递归神经网络的缺点,本方案采用双向递归神经网络BiLSTM,使用两个递归神经网络分别处理正序和反序的文本序列,从而在文本句子的前向和反向上进行计算,如图5所示,其实现方法如下:
S301、根据经预处理后的句子,利用word2vec词向量模型得到汉字特征向量;
S302、将汉字特征向量输入至神经网络的Embedding层进行编码处理,得到其对应的汉字特征向量;
S303、将所述汉字特征向量以及其对应的汉字笔画特征向量进行串联,并依次输入至前向LSTM层和反向LSTM层进行双向长短记忆特征训练,得到句子的隐藏层表示;句子隐藏层表示的表达式如下:
其中,ht表示句子隐藏层表示,表示对文本句子从前往后计算得到的隐向量,表示对文本句子从后往前计算得到的隐向量,σ(·)表示sigmoid激活函数,tanh(·)表示tanh激活函数,i表示输入门,f表示遗忘门,c表示记忆单元,表示以反向方式输入当前字,得到的输出门输出,表示以前向方式输入当前字,得到的输出门输出,表示以前向方式输入当前字,得到的记忆单元的输出,表示以反向方式输入当前字,得到的记忆单元的输出,o表示输出门,表示以正向方式输入当前输入字的特征向量,表示以反向方式输入当前输入字的特征向量,表示以正向方式输入句子中上一个字的隐藏层表示输出,表示以反向方式输入句子中上一个字的隐藏层表示输出,表示以正向方式输入句子中上一个字的记忆单元输出,表示以反向方式输入句子中上一个字的记忆单元输出,W表示参数矩阵,b表示偏移向量,表示在反向方式输入下输出门和输入之间的参数矩阵,表示在正向方式输入下输出门和输入之间的参数矩阵,表示在正向方式下输出门和隐藏层之间的参数矩阵,表示在反向方式下输出门和隐藏层之间的参数矩阵,表示在正向方式下输出门的偏移向量,表示在反向方式下输出门的偏移向量,表示在正向方式下当前输入经过遗忘门后的结果,表示在以反向方式下当前输入经过遗忘门后的结果,表示在正向方式下当前输入经过输入门后的结果,表示在反向方式下当前输入经过输入门后的结果,表示在正向方式下输入和记忆单元之间的参数矩阵,表示在反向方式下输入和记忆单元之间的参数矩阵,表示在正向方式下隐藏层和记忆单元之间的参数矩阵,表示在反向方式下隐藏层和记忆单元之间的参数矩阵,表示在正向方式下记忆单元的偏移向量,表示在反向方式下记忆单元的偏移向量,表示在正向方式下输入和遗忘门之间的参数矩阵,表示在反向方式下输入和遗忘门之间的参数矩阵,表示在反向方式下隐藏层和遗忘门之间的参数矩阵,表示在正向方式下隐藏层和遗忘门之间的参数矩阵,表示在正向方式下遗忘门的偏移向量,表示在反向方式下遗忘门的偏移向量,表示在正向方式下输入和输入门之间的参数矩阵,表示在反向方式下输入和输入门之间的参数矩阵,表示在反向方式下隐藏层和输入门之间的参数矩阵,表示在正向方式下隐藏层和输入门之间的参数矩阵,表示在正向方式下输入门的偏移向量,表示在反向方式下输入门的偏移向量;
S304、将所述句子的隐藏层表示输入至CRF层进行约束和解码处理,完成对中文命名实体识别。
本实施例中,如图6所示,实体识别模型包括依次连接的前向LSTM层、反向LSTM以及CRF层;
前向LSTM层和反向LSTM层,用于将汉字特征向量以及其对应的汉字笔画特征向量的串联进行双向长短记忆特征训练,得到句子的隐藏层表示;
CRF层,用于对句子的隐藏层表示进行约束和解码处理,完成对中文命名实体识别。
本发明能够提取汉字的笔画特征,相比传统的词向量,考虑到了字内的语义信息,结合笔画特征表示和汉字特征向量,能够包含更多的语义信息,通过BiLSTM提取语句的上下文信息,可以提高中文实体识别率。本实验使用SIGHAN20066挑战NER数据集作为训练和测试的语料库,实验结果如表2所示。
表2
其中,测试指标如下:P=识别正确的实体数/识别出的实体数;R=识别正确的实体数/样本的实体数F1=(2×P×R)/(P+R),F1为P值和R值的综合考虑。由表2可以看出本发明的模型在中文的命名实体识别上的效果好于一般的命名实体识别方法。
综上所述,本发明利用神经网络CNN对汉字笔画进行特征提取,再利用每个字的汉字特征向量和相对应的笔画特征向量相串联,输入到双向长短期记忆模型。使用神经网络CNN可以利用汉字的笔画,学习到汉字之间的相同点,双向长短期记忆模型可以学习到一句话中每个字的上下文关系,可有效提高中文命名实体识别效率。该方法为端到端识别方法,即对于中文实体识别任务,只需要输入文本,会自动获取输入文本中每个字的笔画,并最终输出识别出的实体,有效地克服了现有基于词或字符的中文命名实体识别技术的不足,提出基于笔画的中文命名实体识别方法,提高中文命名实体识别率。
Claims (9)
1.一种基于笔画的中文命名实体识别方法,其特征在于,包括以下步骤:
S1、获取语料库,并对语料库的句子进行预处理;
S2、利用汉字笔画特征提取模型提取语料库中汉字笔画的特征向量;
S3、根据经预处理后的句子以及所述汉字笔画的特征向量,利用实体识别模型对文本实体进行识别,从而完成对中文命名实体的识别。
2.根据权利要求1所述的基于笔画的中文命名实体识别方法,其特征在于,所述步骤S1包括以下步骤:
S101、获取SIGHAN2006 NER数据集,并将该数据集作为训练和测试的语料库;
S102、利用换行符分割语料库中的句子,将一个句子作为一个样本,并利用空格分割句子中的汉字;
S103、为语料库中的每个汉字随机分配一个单独的ID,构成文本汉字词典,完成对语料库数据的预处理。
3.根据权利要求1所述的基于笔画的中文命名实体识别方法,其特征在于,所述步骤S2中汉字笔画特征提取模型包括依次连接的神经网络Embedding层、卷积层以及max-pool最大池化层;
所述Embedding层,用于对每个笔画特征向量进行编码处理,得到其对应的初始化特征向量;
所述卷积层,用于对汉字的笔画初始化特征向量进行特征提取,得到汉字的高维度笔画特征向量;
所述max-pool最大池化层,用于对汉字的高维度笔画特征向量进行特征筛选,得到汉字的笔画特征向量。
4.根据权利要求3所述的基于笔画的中文命名实体识别方法,其特征在于,所述步骤S2包括以下步骤:
S201、根据在线新华词典,将汉字笔画分为一,丨,丿,丶和乚五种笔画;
S202、根据文本汉字词典编写脚本代码,并通过在线新华词典获取每个汉字的笔画顺序;
S203、为每个笔画设置独立的ID,并根据所述笔画顺序为每个笔画初始化一个特征向量;
S204、将每个笔画特征向量输入至神经网络的Embedding层进行编码,得到其对应的初始化特征向量;
S205、输入样本,并根据所述初始化特征向量将样本中的一个汉字表示为一个笔画特征矩阵,其中,每一个汉字具有一个与其对应的笔画序列;
S206、使用0对所述笔画特征矩阵进行填充,使语料库中所有汉字的笔画特征矩阵具有相同维度;
S207、利用卷积层对填充后的笔画特征矩阵进行特征提取,得到汉字的高维度笔画特征向量;
S208、利用max-pool层对汉字的高维度笔画特征向量进行筛选,得到汉字的笔画特征向量。
7.根据权利要求1所述的基于笔画的中文命名实体识别方法,其特征在于,所述步骤S3中实体识别模型包括依次连接的前向LSTM层、反向LSTM以及CRF层;
所述前向LSTM层和反向LSTM层,用于将汉字特征向量以及其对应的汉字笔画特征向量的串联进行双向长短记忆特征训练,得到句子的隐藏层表示;
所述CRF层,用于对句子的隐藏层表示进行约束和解码处理,完成对中文命名实体识别。
8.根据权利要求7所述的基于笔画的中文命名实体识别方法,其特征在于,所述步骤S3包括以下步骤:
S301、根据经预处理后的句子,利用word2vec词向量模型得到汉字特征向量;
S302、将所述汉字特征向量输入至神经网络的Embedding层进行编码处理,得到其对应的汉字特征向量;
S303、将所述汉字特征向量以及其对应的汉字笔画特征向量进行串联,并依次输入至前向LSTM层和反向LSTM层进行双向长短记忆特征训练,得到句子的隐藏层表示;
S304、将所述句子的隐藏层表示输入至CRF层进行约束和解码处理,完成对中文命名实体识别。
9.根据权利要求8所述的基于笔画的中文命名实体识别方法,其特征在于,所述步骤S303中句子隐藏层表示的表达式如下:
其中,ht表示句子隐藏层表示,表示对文本句子从前往后计算得到的隐向量,表示对文本句子从后往前计算得到的隐向量,σ(·)表示sigmoid激活函数,tanh(·)表示tanh激活函数,i表示输入门,f表示遗忘门,c表示记忆单元,表示以反向方式输入当前字,得到的输出门输出,表示以前向方式输入当前字,得到的输出门输出,表示以前向方式输入当前字,得到的记忆单元的输出,表示以反向方式输入当前字,得到的记忆单元的输出,o表示输出门,表示以正向方式输入当前输入字的特征向量,表示以反向方式输入当前输入字的特征向量,表示以正向方式输入句子中上一个字的隐藏层表示输出,表示以反向方式输入句子中上一个字的隐藏层表示输出,表示以正向方式输入句子中上一个字的记忆单元输出,表示以反向方式输入句子中上一个字的记忆单元输出,W表示参数矩阵,b表示偏移向量,表示在反向方式输入下输出门和输入之间的参数矩阵,表示在正向方式输入下输出门和输入之间的参数矩阵,表示在正向方式下输出门和隐藏层之间的参数矩阵,表示在反向方式下输出门和隐藏层之间的参数矩阵,表示在正向方式下输出门的偏移向量,表示在反向方式下输出门的偏移向量,表示在正向方式下当前输入经过遗忘门后的结果,表示在以反向方式下当前输入经过遗忘门后的结果,表示在正向方式下当前输入经过输入门后的结果,表示在反向方式下当前输入经过输入门后的结果,表示在正向方式下输入和记忆单元之间的参数矩阵,表示在反向方式下输入和记忆单元之间的参数矩阵,表示在正向方式下隐藏层和记忆单元之间的参数矩阵,表示在反向方式下隐藏层和记忆单元之间的参数矩阵,表示在正向方式下记忆单元的偏移向量,表示在反向方式下记忆单元的偏移向量,表示在正向方式下输入和遗忘门之间的参数矩阵,表示在反向方式下输入和遗忘门之间的参数矩阵,表示在反向方式下隐藏层和遗忘门之间的参数矩阵,表示在正向方式下隐藏层和遗忘门之间的参数矩阵,表示在正向方式下遗忘门的偏移向量,表示在反向方式下遗忘门的偏移向量,表示在正向方式下输入和输入门之间的参数矩阵,表示在反向方式下输入和输入门之间的参数矩阵,表示在反向方式下隐藏层和输入门之间的参数矩阵,表示在正向方式下隐藏层和输入门之间的参数矩阵,表示在正向方式下输入门的偏移向量,表示在反向方式下输入门的偏移向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010312902.4A CN111523325A (zh) | 2020-04-20 | 2020-04-20 | 一种基于笔画的中文命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010312902.4A CN111523325A (zh) | 2020-04-20 | 2020-04-20 | 一种基于笔画的中文命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111523325A true CN111523325A (zh) | 2020-08-11 |
Family
ID=71901717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010312902.4A Pending CN111523325A (zh) | 2020-04-20 | 2020-04-20 | 一种基于笔画的中文命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111523325A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680669A (zh) * | 2020-08-12 | 2020-09-18 | 江西风向标教育科技有限公司 | 一种试题分割方法、系统及可读存储介质 |
CN112800987A (zh) * | 2021-02-02 | 2021-05-14 | 中国联合网络通信集团有限公司 | 一种汉字处理方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN108829678A (zh) * | 2018-06-20 | 2018-11-16 | 广东外语外贸大学 | 一种汉语国际教育领域命名实体识别方法 |
CN109117472A (zh) * | 2018-11-12 | 2019-01-01 | 新疆大学 | 一种基于深度学习的维吾尔文命名实体识别方法 |
CN110287483A (zh) * | 2019-06-06 | 2019-09-27 | 广东技术师范大学 | 一种利用五笔字根深度学习的未登录词识别方法及系统 |
CN110619120A (zh) * | 2019-08-12 | 2019-12-27 | 北京航空航天大学 | 语言模型的训练方法及装置 |
-
2020
- 2020-04-20 CN CN202010312902.4A patent/CN111523325A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN108829678A (zh) * | 2018-06-20 | 2018-11-16 | 广东外语外贸大学 | 一种汉语国际教育领域命名实体识别方法 |
CN109117472A (zh) * | 2018-11-12 | 2019-01-01 | 新疆大学 | 一种基于深度学习的维吾尔文命名实体识别方法 |
CN110287483A (zh) * | 2019-06-06 | 2019-09-27 | 广东技术师范大学 | 一种利用五笔字根深度学习的未登录词识别方法及系统 |
CN110619120A (zh) * | 2019-08-12 | 2019-12-27 | 北京航空航天大学 | 语言模型的训练方法及装置 |
Non-Patent Citations (4)
Title |
---|
NAN LI 等: "DUTIR at the CCKS-2019 Task1: Improving Chinese Clinical Named Entity Recognition using Stroke ELMo and Transfer Learning", 《HTTPS://WWW.RESEARCHGATE.NET/PUBLICATION/335824610》 * |
冯志: "多特征融合的解释性意见要素识别方法研究与实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
张海楠 等: "基于深度神经网络的中文命名实体识别", 《中文信息学报》 * |
罗凌 等: "基于深度学习的中文生物医学文本信息抽取", 《计算机学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680669A (zh) * | 2020-08-12 | 2020-09-18 | 江西风向标教育科技有限公司 | 一种试题分割方法、系统及可读存储介质 |
CN112800987A (zh) * | 2021-02-02 | 2021-05-14 | 中国联合网络通信集团有限公司 | 一种汉字处理方法和装置 |
CN112800987B (zh) * | 2021-02-02 | 2023-07-21 | 中国联合网络通信集团有限公司 | 一种汉字处理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109871535B (zh) | 一种基于深度神经网络的法语命名实体识别方法 | |
CN111046946B (zh) | 基于crnn的缅甸语图像文本识别方法 | |
CN109948152A (zh) | 一种基于lstm的中文文本语法纠错模型方法 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN109003601A (zh) | 一种针对低资源土家语的跨语言端到端语音识别方法 | |
CN110909736B (zh) | 一种基于长短期记忆模型与目标检测算法的图像描述方法 | |
CN113190602B (zh) | 融合字词特征与深度学习的事件联合抽取方法 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN109993164A (zh) | 一种基于rcrnn神经网络的自然场景文字识别方法 | |
CN113298151A (zh) | 一种基于多级特征融合的遥感图像语义描述方法 | |
CN110276052B (zh) | 一种古汉语自动分词及词性标注一体化方法及装置 | |
CN110851594A (zh) | 一种基于多通道深度学习模型的文本分类方法及其装置 | |
CN111008526A (zh) | 一种基于双通道神经网络的命名实体识别方法 | |
CN107357785A (zh) | 主题特征词抽取方法及系统、情感极性判断方法及系统 | |
Laishram et al. | Simulation and modeling of handwritten Meitei Mayek digits using neural network approach | |
CN109145946B (zh) | 一种智能图像识别和描述方法 | |
CN111523325A (zh) | 一种基于笔画的中文命名实体识别方法 | |
CN111651993A (zh) | 融合局部-全局字符级关联特征的中文命名实体识别方法 | |
CN111444720A (zh) | 一种英文文本的命名实体识别方法 | |
CN110866087B (zh) | 一种基于主题模型的面向实体的文本情感分析方法 | |
CN110610006A (zh) | 基于笔画和字形的形态学双通道中文词嵌入方法 | |
CN114548116A (zh) | 一种基于语序与语义联合分析的中文文本检错方法及系统 | |
CN111178009B (zh) | 一种基于特征词加权的文本多语种识别方法 | |
CN110598212A (zh) | 一种快速命名体识别方法 | |
CN112949284A (zh) | 一种基于Transformer模型的文本语义相似度预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200811 |