CN115455955A - 基于局部和全局字符表征增强的中文命名实体识别方法 - Google Patents
基于局部和全局字符表征增强的中文命名实体识别方法 Download PDFInfo
- Publication number
- CN115455955A CN115455955A CN202211273187.3A CN202211273187A CN115455955A CN 115455955 A CN115455955 A CN 115455955A CN 202211273187 A CN202211273187 A CN 202211273187A CN 115455955 A CN115455955 A CN 115455955A
- Authority
- CN
- China
- Prior art keywords
- character
- word
- vector
- representation
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 102
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 230000002452 interceptive effect Effects 0.000 claims abstract description 10
- 238000012512 characterization method Methods 0.000 claims description 23
- 230000004927 fusion Effects 0.000 claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000002156 mixing Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 238000007476 Maximum Likelihood Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000001994 activation Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 3
- 230000008034 disappearance Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 11
- 238000002372 labelling Methods 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000002679 ablation Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 101100397240 Arabidopsis thaliana ISPD gene Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000004215 lattice model Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及基于局部和全局字符表征增强的中文命名实体识别方法。现有中文命名实体识别方法将其建模为基于字符的序列标注问题,但单独的中文字符向量难以表征独立语义,带来实体边界和类型识别错误问题。中文字符的字形结构及其相关领域术语包含了领域实体特有的信息,有效利用这些信息有利于上述问题的解决。为此本发明利用自编码机制融合字符的形旁结构嵌入、形旁序列嵌入和上下文语义嵌入,得到局部字符表征;并利用交互门控机制,将字符所对应的全局领域术语表征和局部字符表征相结合,得到增强的字符表征;最后将增强的字符表征送入Bi‑LSTM和CRF层,获得字符序列标签。在领域中文命名实体识别数据集上的实验表明,本发明是有效的。
Description
技术领域
本发明涉及基于局部和全局字符表征增强的中文命名实体识别方法,属于自然语言处理技术领域。
背景技术
中文命名实体识别(CNER)是一项基本的信息提取任务,在信息检索、文本自动文摘、问答、机器翻译、知识图等自然语言处理(NLP)应用中起着至关重要的作用。CNER的目标是从句子中提取一些预定义的特定实体,并识别它们的正确类型,如人称、位置、组织。针对CNER,目前的方法主要是基于深度学习的方法,将其视为一个序列标注任务,与基于统计的方法不同,基于深度学习的方法使用分布式表示而不是人工设计的特征来表示字符。使用编码器如LSTM,CNN和Transformer,将文本中的每个字符被序列化,然后,可以根据标签方案对自动标记的序列进行解码,并且可以整合文本中由多个字符组成的命名实体。
中文命名实体的构成比英语命名实体复杂,中文里的字可以看作是英语中介于字和词之间的一个概念。汉字的语义比英文多,比词的语义少。有些汉字有其独立的含义,但更多的汉字需要与其他汉字组合成一个有意义的词。汉字作为文本的基本单位,没有明确的分词符号,模糊的词边界会造成大量的边界歧义,增加了定义中文命名实体边界的难度。因此,词边界信息在汉语中是必不可少的,在CNER任务中有许多组合词典信息来增强词边界信息的方法,比如Lattice和SoftLexicon等结构在字符嵌入上融合词嵌入来表示字符以增强实体边界和类型信息。在CNER任务中还有许多引入外部信息的方法。比如外部词典,笔划、拼音、部首和字形特征作为辅助信息,进一步增强了嵌入向量的语义表示能力。这些方法已被证明是有效的,并有助于提高命名实体识别模型的性能。比如Flat-Lattice,借助Transformer的强大功能和精心设计的位置编码,可以充分利用Lattice信息,具有出色的并行化能力,充分发挥模型捕获远程上下文依赖能力方面的优势。但是错误的引入词信息难免会带来实体边界判断有误和语意歧义等问题,会影响这类模型的实体识别性能。导致实体抽取模型的准确率下降。另一方面,中文字符的字形结构具有独立的语意,代表了特定的实体含义,这种字形结构称为字符的局部信息。具体来说,中文是一种象形文字,由形旁和声旁两部份组成,形旁的表义功能比较强,具有相同形旁的中文字符有相近的实体含义。利用字符字形增强的模型还比较少,而且仍然存在以下不足:(1)模型只对字形的结构或者部首等某一方面进行特征抽取,这限制了模型对字形表征全面的学习。(2)模型提取出字形表征后,如何与自身的嵌入层向量进行加权融合也没有提出较好的方法,这会影响NER模型的结果。
针对以上问题,本发明提出一种基于局部和全局字符表征增强的中文命名实体识别方法。目前主流的NER方法没有考虑汉字全面的空间和序列两个方面的字符信息。由于中文字符底层本身就携带了大量的语意信息,重要的是如何将其有效的抽取出来并运用在NER任务上,从这一角度出发,本发明使用了字的形旁结构和序列增强字符潜在边界和语意信息,并使用交互门控机制有效得到了综合字符局部和全局的信息,提升了基于字符NER模型的性能。在中文命名实体数据集IMCS21和CMeEE进行了理论与技术的验证,实验结果充分证明了该方法的有效性。
发明内容
为了解决上述问题,本发明提供了基于局部和全局字符表征增强的中文命名实体识别方法,本发明利用自编码机制融合形旁的空间信息和序列信息等字符的不同局部信息,并利用交互门控机制控制字符局部信息和全局信息对于字符表征的贡献程度,从而获得综合的字符表征来增强字符表示,增强了字符的语义和潜在边界信息,使主模型获得更好的实体识别能力;在两个中文NER基准数据集上对所提出的方法进行了评估,各种实验结果不仅证明了本方法的有效性,而且表明本方法能够提高对特定领域和密切相关实体的表示能力。
本发明的技术方案是:基于局部和全局字符表征增强的中文命名实体识别方法,所述方法包括如下步骤:
Step1、将在语料上所训练的字符向量作为字符的初始嵌入:将每个字符都映射到一个密集向量表示,得到每个句子的字符嵌入;
Step2、将字符拆分为形旁和其他的字符成分,然后用序列特征编码器来提取字符的字形序列特征;
Step3、将单个字符视为二维图像,通过图像特征编码器来获得字符的字形结构特征;其中汉字所对应的图像通过的多个卷积层,捕获低级别的图形特征,再使用自适应池化操作并应用群卷积映射到最终字形结构特征;
Step4、采用自编码机制,对字符的字形结构特征、字形序列特征和预训练的字符嵌入三种向量进行融合得到字符局部表征;
Step5、首先在领域语料库上使用word2vec的Skip-Gram模型训练一个领域词典,然后,对每个字符在词典中进行查询匹配,得到若干个词集合,再通过加权分配权并拼接最后得到字符的全局表征;
Step6、在获得字符的局部表征和全局表征后,利用交互门控机制对两者的特征进行信息筛选,得到综合表征;之后将综合表征送入到Bi-LSTM进行上下文编码,然后CRF被用作解码层,来得到输出结果的标签。
其中ec表示字符嵌入查找表。
作为本发明的进一步方案,所述Step2中,首先对数据集里的每个字使用拆字的字典来构建包含每个字的组成部分查询表;然后将字符拆分的序列送入到卷积神经网络CNN中提取字符的字形序列特征,再使用残差网络来优化卷积层,缓解神经网络深度加深的梯度消失问题,最后,利用最大池和全连通层得到字形序列特征嵌入。
作为本发明的进一步方案,所述Step2包括如下步骤::
作为本发明的进一步方案,所述Step3中,字形结构特征能从字符图像中获取丰富的象形文字信息,以提升中文命名实体识别模型性能;对于不同字体类型的图像,将其拼接到一起来表示该字的结构图像,将字符图片通过多个卷积层和多个输出通道,捕获低级别的字形结构特征。
作为本发明的进一步方案,所述Step3包括如下步骤:
其中concat表示拼接操作;
reshape表示一个维度变换将2维向量变成一维的。
作为本发明的进一步方案,所述Step4中,首先将字符的字形结构特征、字形序列特征和预训练的字符嵌入拼接起来,再通过变换层得到一个自动融合的潜在向量,然后尝试从自融合的潜在向量重建最初拼接的向量,最后,通过计算原始向量和重构向量之间的欧氏距离,使用均方误差来计算损失,获得经过中间层压缩但没有损耗的信息。
作为本发明的进一步方案,所述Step4中,使用自编码网络来对字符的字形结构特征、字形序列特征和预训练的字符嵌入三种向量进行融合,通过最大化不同粒度输入之间的相关性,鼓励模型提取多粒度特征;具体的,所述Step4包括如下步骤:
其中,ds表示字符的字形结构嵌入维度大小,do表示字符的字形序列嵌入维度大小,dc表示字符的预训练嵌入维度大小;
作为本发明的进一步方案,所述Step5包括如下步骤:
Step5.1、字符ci在一个使用Skip-Gram模型预训练好的词典D中进行查询匹配;如果D中的某个词w中包含有字符ci,则根据字符出现在该词中的不同位置情况,分别将其纳入到四个词集B(ci),M(ci),E(ci),S(ci)中;具体来说,如果ci出现在某个词w的开头位置,就将该词w归类到词集B(ci);如果ci出现在某个词w的中间位置,就将该词w归类到词集M(ci)中;如果ci出现在某个词w的尾部,就将该词w归类到词集E(ci);如果ci和某个词w相同,即字符为一个独立的词,就将该词w归类到词集S(ci);
其中,Ed(w)表示词w的嵌入向量;
作为本发明的进一步方案,所述Step6中,由于局部表征相比全局表征而言会存在信息冗余,因此利用交互门控机制对两者的特征进行信息筛选,从而得到合理的综合表征,由于句子中的上下文信息有助于序列建模,因此使用能捕获文本双向信息的双向LSTM网络来提取句子上下文特征,条件随机场CRF被用作解码层,将经过上下文编码器编码后的向量将送到CRF中,通过最小化负最大似然函数找到概率最大的标签序列。
本发明的有益效果是:本发明通过融入中文字符的形旁局部信息和领域术语全局信息来增强字符表示,增强了字符的语义和潜在边界信息,使主模型获得更好的实体识别能力。相比于基于外部信息的中文NER模型,本发明的方法在嵌入层利用自编码网络结合字形信息,并使用交互门控机制将字符的局部信息和全局信息进行过滤,使主模型准确识别领域实体的边界和类别。各种实验结果不仅证明了本发明模型的有效性,而且表明本发明主模型能够提高对特定领域和密切相关实体的表示能力。本发明主模型在两个个基准中文数据集上的性能基本上都优于现有的方法。
附图说明
图1为本发明中的流程图;
图2为本发明提出的提取字形序列特征的模型图;
图3为本发明提出的提取字形结构特征的模型图;
图4为本发明自编码后隐藏层向量维度实验折线图。
具体实施方式
实施例1:如图1-图4所示,基于局部和全局字符表征增强的中文命名实体识别方法,所述方法包括如下步骤:
Step1、本发明使用数据集有两个,一个是中国计算语言学大会(CCL)提供的数据集IMCS21,包括6万余条句子。另一个是CMeEE数据集,包含2万多条句子。这两个数据集的具体数据如表1所示:
表1数据集统计
将在语料上所训练的字符向量作为字符的初始嵌入:将每个字符都映射到一个密集向量表示,得到每个句子的字符嵌入;
其中ec表示字符嵌入查找表。
Step2、将字符拆分为形旁和其他的字符成分,然后用序列特征编码器来提取字符的字形序列特征;
所述Step2中,首先对数据集里的每个字使用拆字的字典来构建包含每个字的组成部分查询表;然后将字符拆分的序列送入到卷积神经网络CNN中提取字符的字形序列特征,再使用残差网络来优化卷积层,缓解神经网络深度加深的梯度消失问题,最后,利用最大池和全连通层得到字形序列特征嵌入。
作为本发明的进一步方案,所述Step2包括如下步骤::
Step3、将单个字符视为二维图像,通过图像特征编码器来获得字符的字形结构特征;其中汉字所对应的图像通过的多个卷积层,捕获低级别的图形特征,再使用自适应池化操作并应用群卷积映射到最终字形结构特征;
作为本发明的进一步方案,所述Step3中,字形结构特征能从字符图像中获取丰富的象形文字信息,以提升中文命名实体识别模型性能;对于不同字体类型的图像,将其拼接到一起来表示该字的结构图像,将字符图片通过多个卷积层和多个输出通道,捕获低级别的字形结构特征。
作为本发明的进一步方案,所述Step3包括如下步骤:
其中concat表示拼接操作;
reshape表示一个维度变换将2维向量变成一维的。
Step4、采用自编码机制,对字符的字形结构特征、字形序列特征和预训练的字符嵌入三种向量进行融合得到字符局部表征;
作为本发明的进一步方案,所述Step4中,首先将字符的字形结构特征、字形序列特征和预训练的字符嵌入拼接起来,再通过变换层得到一个自动融合的潜在向量,然后尝试从自融合的潜在向量重建最初拼接的向量,最后,通过计算原始向量和重构向量之间的欧氏距离,使用均方误差来计算损失,获得经过中间层压缩但没有损耗的信息。
作为本发明的进一步方案,所述Step4中,使用自编码网络来对字符的字形结构特征、字形序列特征和预训练的字符嵌入三种向量进行融合,通过最大化不同粒度输入之间的相关性,鼓励模型提取多粒度特征;具体的,所述Step4包括如下步骤:
其中,ds表示字符的字形结构嵌入维度大小,do表示字符的字形序列嵌入维度大小,dc表示字符的预训练嵌入维度大小;
Step5、首先在领域语料库上使用word2vec的Skip-Gram模型训练一个领域词典,然后,对每个字符在词典中进行查询匹配,得到若干个词集合,再通过加权分配权并拼接最后得到字符的全局表征;
作为本发明的进一步方案,所述Step5包括如下步骤:
Step5.1、字符ci在一个使用Skip-Gram模型预训练好的词典D中进行查询匹配;如果D中的某个词w中包含有字符ci,则根据字符出现在该词中的不同位置情况,分别将其纳入到四个词集B(ci),M(ci),E(ci),W(ci)中;具体来说,如果ci出现在某个词w的开头位置,就将该词w归类到词集B(ci);如果ci出现在某个词w的中间位置,就将该词w归类到词集M(ci)中;如果ci出现在某个词w的尾部,就将该词w归类到词集E(ci);如果ci和某个词w相同,即字符为一个独立的词,就将该词w归类到词集S(ci);
其中,Ed(w)表示词w的嵌入向量;
Step6、在获得字符的局部表征和全局表征后,利用交互门控机制对两者的特征进行信息筛选,得到综合表征;之后将综合表征送入到Bi-LSTM进行上下文编码,然后CRF被用作解码层,来得到输出结果的标签。
作为本发明的进一步方案,所述Step6中,由于局部表征相比全局表征而言会存在信息冗余,因此利用交互门控机制对两者的特征进行信息筛选,从而得到合理的综合表征,由于句子中的上下文信息有助于序列建模,因此使用能捕获文本双向信息的双向LSTM网络来提取句子上下文特征,条件随机场CRF被用作解码层,将经过上下文编码器编码后的向量将送到CRF中,通过最小化负最大似然函数找到概率最大的标签序列。
所述Step6包括如下步骤:
在序列标签输出阶段,使用CRF作为解码器。CRF会基于前一个标签的结果影响当前标签的结果。具体而言,CRF由一个发射矩阵和一个转移矩阵组成。发射矩阵记录每个标签的概率,Mi,j表示第i个单词发射(预测)到第j个实体标签的概率。以及一个转换矩阵T∈Rtags×tags,Ti,j表示第j个标签转移到第i个标签的概率,用来模拟CRF层中要学习的相邻标签之间的关系,是一个可学习的参数矩阵,它能够帮助显示地去建模标签之间的转移关系,提高命名实体识别的准确率。n是句子中的字符数,tags是实体标签数。字符通过BiLSTM编码后得到隐向量hi,使用H来表示输入序列的隐向量矩阵,然后送到CRF中,通过最小化负最大似然函数找到概率最大的标签序列。公式如下:
M=σ(WtH+bt) (19)
使用负对数似然函数来计算标签分类的损失值:
Losscls=-logp(y|S) (22)
y是真实的序列标签;
最后,把标签分类损失和融合损失相加,得到模型最终的损失值。
为了说明本申请的效果,本发明比较了传统NER模型Bi-LSTM、基于词嵌入的CNER模型(SoftLexicon,LGN和FLAT)等的效果,本发明提出的模型在进行实体识别时,能够更加准确判断实体的类型和边界,这得益于本发明模型利用了字形的结构和序列的向量在向量空间的维度扩充了丰富的信息,使得相似类型的实体能够更加准确的预测,实验结果如表2所示,其中,Lattice+Glyce为在Lattice模型的嵌入层加入字形结构信息的实验结果结果。
表2在CMeEE和IMCS21数据集上各模型的效果
可以观察到:1.本发明模型在所有模型中取得了最优性能。相比基模型中性能最好的MECT,本发明模型的F1值在CMeEE数据集中提升了1.04%,在IMCS21中提升了0.62%。2.本发明的模型整体要优于以上比较的模型,有的模型在融入词信息的基础上都加入了字形信息,MECT融入了部首信息,Lattice+Glyce融入了字形,而本发明模型两者都有,后者则都是通过不同的方式融合了词信息的模型,这说明了外部的字形信息对理解中文语意有帮助。3.在CMeEE数据集上,FLAT的召回率最高,说明在长句子中实体抽取能力较强,但其精确率却很低,导致整体的性能不如本发明的模型,本发明模型在长句子较多的CMeEE数据集和短句子较多的IMCS21数据集上都取得了最佳的F1值,证明了本发明模型有较强的鲁棒性。
为了证明本发明模型的字形信息的有效性,对其进行了消融实验。其中,w/oglobal vector的实验是将本发明中模型的字符的全局表征去除,即模型只使用字形的信息增强后的字符表征。w/o glyph vector则是仅使用字符嵌入和全局表征,并用门控机制进行信息过滤,w/o glyph structure vector则是在进行局部特征融合时,去掉字形结构表征。w/o radical sequence vector是在进行局部特征融合时,去掉字形序列表征。在CMeEE数据集上进行实验,实验结果如表3所示,在所有的数据集的结果可以看出,使用字形的图像信息可以有效的提升模型的性能,并且较强于使用字形的结构信息的提升效果,在融合这两种字形特征后模型的提升效果最为明显,由此证明对于使用字形信息来增强汉字字符表示能够对模型抽取实体性能有较好的提升。本发明进一步探索了自编码隐向量维度大小对模型的影响。将模型中隐向量维度大小设置为50至250,并在数据集CMeEE集进行实验,结果如图4所示。从图中可以发现,当维度为200左右时模型的性能较好。如果隐向量维度太低,表征能力不足,则模型性能下降较多。
表3在CMeEE数据集上进行消融实验的结果
为了证明本发明提出的模型的有效性,统计了各个模型识别实体的错误数量。表4显示了不同模型在两个数据集上实体识别错误的数量,包括实体头部边界错误(BE)、实体尾部边界错误(EE)和实体类型错误(TE)。我们的模型对比SoftLexicon在CMeEE上的实体头部边界错误和实体尾部边界错误数量分别减少了377和394,实体类型错误减少了68,由结果来看,本发明的模型对实体的边界识别提升的效果显著。毫无疑问,本发明模型对于实体边界和实体类型的识别都是非常有益的。
表4实体识别错误类型统计
为了证明本发明提出的局部特征和全局特征融合方法的有效性,本发明还在CMeEE数据集上进行了其他3种融合方式的实验。Filter_1的融合方式是将局部和全局表征直接相加,然后送入Bi-LSTM编码。Filter_2的融合方式是将局部和全局表征直接拼接,然后送入Bi-LSTM编码。Filter_3的融合方式是使用门控机制分别处理局部和全局表征,然后将处理后的向量相加,再送入Bi-LSTM编码。实验结果如表5所示。可以看到Filter_1方式的效果不如Filter_2,这可能是因为后者的方式能够完整的保存局部和全局的信息。Filter_3加了门控后再加和,结果优于前两者。这可能得益于门控机制能够很好的筛选出局部和全局信息之间相关的重要部分,增强模型的拟合能力。本发明模型则是使用门控机制处理局部和全局表征后,将二者拼接,这样既能够完整的保存局部和全局的信息,又能筛选出两者的重要信息,从而取得最优的模型性能。
表5局部和全局表征结合的消融实验
为了验证本发明的局部表征自编码融合的有效性,还在CMeEE数据集上进行了其他2种局部特征融合方式的实验。Fusion_1的方式是将字符嵌入,字形结构嵌入和字形序列嵌入直接拼接。Fusion_2的方式是将字符嵌入,字形结构嵌入和字形序列嵌入经过线性变换后再相加。实验结果如表6所示。可以看出,本发明的自编码融合方式效果最好,比两外两种融合方式F1值高出0.51和1.67。需要注意的是,Fuison_1的召回率最高,这可能是由于直接拼接能够较全面的利用3种局部向量来识别实体。但另一方面,三种向量所处的向量空间不同,差异较大,直接拼接会引入冗余信息,使得其精确率最低。相比之下,自编码方式能够更好的融合三种向量,从而兼顾实体识别的精确度和召回率。
表6局部表征融合方式的消融结果
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (10)
1.基于局部和全局字符表征增强的中文命名实体识别方法,其特征在于:所述方法包括如下步骤:
Step1、将在语料上所训练的字符向量作为字符的初始嵌入:将每个字符都映射到一个密集向量表示,得到每个句子的字符嵌入;
Step2、将字符拆分为形旁和其他的字符成分,然后用序列特征编码器来提取字符的字形序列特征;
Step3、将单个字符视为二维图像,通过图像特征编码器来获得字符的字形结构特征;其中汉字所对应的图像通过的多个卷积层,捕获低级别的图形特征,再使用自适应池化操作并应用群卷积映射到最终字形结构特征;
Step4、采用自编码机制,对字符的字形结构特征、字形序列特征和预训练的字符嵌入三种向量进行融合得到字符局部表征;
Step5、首先在领域语料库上使用word2vec的Skip-Gram模型训练一个领域词典,然后,对每个字符在词典中进行查询匹配,得到若干个词集合,再通过加权分配权并拼接最后得到字符的全局表征;
Step6、在获得字符的局部表征和全局表征后,利用交互门控机制对两者的特征进行信息筛选,得到综合表征;之后将综合表征送入到Bi-LSTM进行上下文编码,然后CRF被用作解码层,来得到输出结果的标签。
3.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法,其特征在于:所述Step2中,首先对数据集里的每个字使用拆字的字典来构建包含每个字的组成部分查询表;然后将字符拆分的序列送入到卷积神经网络CNN中提取字符的字形序列特征,再使用残差网络来优化卷积层,缓解神经网络深度加深的梯度消失问题,最后,利用最大池和全连通层得到字形序列特征嵌入。
5.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法,其特征在于:所述Step3中,字形结构特征能从字符图像中获取丰富的象形文字信息,以提升中文命名实体识别模型性能;对于不同字体类型的图像,将其拼接到一起来表示该字的结构图像,将字符图片通过多个卷积层和多个输出通道,捕获低级别的字形结构特征。
6.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法,其特征在于:所述Step3包括如下步骤:
其中concat表示拼接操作;
reshape表示一个维度变换将2维向量变成一维的。
7.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法,其特征在于:所述Step4中,首先将字符的字形结构特征、字形序列特征和预训练的字符嵌入拼接起来,再通过变换层得到一个自动融合的潜在向量,然后尝试从自融合的潜在向量重建最初拼接的向量,最后,通过计算原始向量和重构向量之间的欧氏距离,使用均方误差来计算损失,获得经过中间层压缩但没有损耗的信息。
8.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法,其特征在于:所述Step4中,使用自编码网络来对字符的字形结构特征、字形序列特征和预训练的字符嵌入三种向量进行融合,通过最大化不同粒度输入之间的相关性,鼓励模型提取多粒度特征;具体的,所述Step4包括如下步骤:
其中,ds表示字符的字形结构嵌入维度大小,do表示字符的字形序列嵌入维度大小,dc表示字符的预训练嵌入维度大小;
9.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法,其特征在于:所述Step5包括如下步骤:
Step5.1、字符ci在一个使用Skip-Gram模型预训练好的词典D中进行查询匹配;如果D中的某个词w中包含有字符ci,则根据字符出现在该词中的不同位置情况,分别将其纳入到四个词集B(ci),M(ci),E(ci),S(ci)中;具体来说,如果ci出现在某个词w的开头位置,就将该词w归类到词集B(ci);如果ci出现在某个词w的中间位置,就将该词w归类到词集M(ci)中;如果ci出现在某个词w的尾部,就将该词w归类到词集E(ci);如果ci和某个词w相同,即字符为一个独立的词,就将该词w归类到词集S(ci);
其中,Ed(w)表示词w的嵌入向量;
10.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法,其特征在于:所述Step6中,由于局部表征相比全局表征而言会存在信息冗余,因此利用交互门控机制对两者的特征进行信息筛选,从而得到合理的综合表征,由于句子中的上下文信息有助于序列建模,因此使用能捕获文本双向信息的双向LSTM网络来提取句子上下文特征,条件随机场CRF被用作解码层,将经过上下文编码器编码后的向量将送到CRF中,通过最小化负最大似然函数找到概率最大的标签序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211273187.3A CN115455955A (zh) | 2022-10-18 | 2022-10-18 | 基于局部和全局字符表征增强的中文命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211273187.3A CN115455955A (zh) | 2022-10-18 | 2022-10-18 | 基于局部和全局字符表征增强的中文命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115455955A true CN115455955A (zh) | 2022-12-09 |
Family
ID=84310202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211273187.3A Pending CN115455955A (zh) | 2022-10-18 | 2022-10-18 | 基于局部和全局字符表征增强的中文命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115455955A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116579343A (zh) * | 2023-05-17 | 2023-08-11 | 成都信息工程大学 | 一种中文文旅类的命名实体识别方法 |
-
2022
- 2022-10-18 CN CN202211273187.3A patent/CN115455955A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116579343A (zh) * | 2023-05-17 | 2023-08-11 | 成都信息工程大学 | 一种中文文旅类的命名实体识别方法 |
CN116579343B (zh) * | 2023-05-17 | 2024-06-04 | 成都信息工程大学 | 一种中文文旅类的命名实体识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795556B (zh) | 一种基于细粒度插入式解码的摘要生成方法 | |
CN111160343B (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
CN110598221B (zh) | 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法 | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN109522403A (zh) | 一种基于融合编码的摘要文本生成方法 | |
CN110222338B (zh) | 一种机构名实体识别方法 | |
CN115471851A (zh) | 融合双重注意力机制的缅甸语图像文本识别方法及装置 | |
CN111444367A (zh) | 一种基于全局与局部注意力机制的图像标题生成方法 | |
CN115116066A (zh) | 一种基于字符距离感知的场景文本识别方法 | |
CN114861600A (zh) | 一种面向ner的中文临床文本数据增强方法及装置 | |
CN116306652A (zh) | 一种基于注意力机制和BiLSTM的中文命名实体识别模型 | |
CN113423004A (zh) | 基于解耦译码的视频字幕生成方法和系统 | |
CN115455955A (zh) | 基于局部和全局字符表征增强的中文命名实体识别方法 | |
CN115545033A (zh) | 融合词汇类别表征的中文领域文本命名实体识别方法 | |
CN115658898A (zh) | 一种中英文本实体关系抽取方法、系统及设备 | |
CN114861601A (zh) | 基于旋转式编码的事件联合抽取方法及存储介质 | |
CN114581920A (zh) | 一种双分支多层次特征解码的分子图像识别方法 | |
CN113887169A (zh) | 文本处理方法、电子设备、计算机存储介质及程序产品 | |
CN115203415A (zh) | 一种简历文档信息提取方法及相关装置 | |
Chen et al. | Subobject-level Image Tokenization | |
CN112926373B (zh) | 字符的视觉感知编码 | |
Cai et al. | HCADecoder: a hybrid CTC-attention decoder for chinese text recognition | |
CN115310445A (zh) | 基于增强序列标注策略的单阶段联合实体关系抽取方法及系统 | |
Huang et al. | Separating Chinese character from noisy background using GAN | |
Miao et al. | Chinese calligraphy generation based on residual dense network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |