CN115455955A - 基于局部和全局字符表征增强的中文命名实体识别方法 - Google Patents

基于局部和全局字符表征增强的中文命名实体识别方法 Download PDF

Info

Publication number
CN115455955A
CN115455955A CN202211273187.3A CN202211273187A CN115455955A CN 115455955 A CN115455955 A CN 115455955A CN 202211273187 A CN202211273187 A CN 202211273187A CN 115455955 A CN115455955 A CN 115455955A
Authority
CN
China
Prior art keywords
character
word
vector
representation
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211273187.3A
Other languages
English (en)
Inventor
相艳
刘威
黄于欣
郭军军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202211273187.3A priority Critical patent/CN115455955A/zh
Publication of CN115455955A publication Critical patent/CN115455955A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及基于局部和全局字符表征增强的中文命名实体识别方法。现有中文命名实体识别方法将其建模为基于字符的序列标注问题,但单独的中文字符向量难以表征独立语义,带来实体边界和类型识别错误问题。中文字符的字形结构及其相关领域术语包含了领域实体特有的信息,有效利用这些信息有利于上述问题的解决。为此本发明利用自编码机制融合字符的形旁结构嵌入、形旁序列嵌入和上下文语义嵌入,得到局部字符表征;并利用交互门控机制,将字符所对应的全局领域术语表征和局部字符表征相结合,得到增强的字符表征;最后将增强的字符表征送入Bi‑LSTM和CRF层,获得字符序列标签。在领域中文命名实体识别数据集上的实验表明,本发明是有效的。

Description

基于局部和全局字符表征增强的中文命名实体识别方法
技术领域
本发明涉及基于局部和全局字符表征增强的中文命名实体识别方法,属于自然语言处理技术领域。
背景技术
中文命名实体识别(CNER)是一项基本的信息提取任务,在信息检索、文本自动文摘、问答、机器翻译、知识图等自然语言处理(NLP)应用中起着至关重要的作用。CNER的目标是从句子中提取一些预定义的特定实体,并识别它们的正确类型,如人称、位置、组织。针对CNER,目前的方法主要是基于深度学习的方法,将其视为一个序列标注任务,与基于统计的方法不同,基于深度学习的方法使用分布式表示而不是人工设计的特征来表示字符。使用编码器如LSTM,CNN和Transformer,将文本中的每个字符被序列化,然后,可以根据标签方案对自动标记的序列进行解码,并且可以整合文本中由多个字符组成的命名实体。
中文命名实体的构成比英语命名实体复杂,中文里的字可以看作是英语中介于字和词之间的一个概念。汉字的语义比英文多,比词的语义少。有些汉字有其独立的含义,但更多的汉字需要与其他汉字组合成一个有意义的词。汉字作为文本的基本单位,没有明确的分词符号,模糊的词边界会造成大量的边界歧义,增加了定义中文命名实体边界的难度。因此,词边界信息在汉语中是必不可少的,在CNER任务中有许多组合词典信息来增强词边界信息的方法,比如Lattice和SoftLexicon等结构在字符嵌入上融合词嵌入来表示字符以增强实体边界和类型信息。在CNER任务中还有许多引入外部信息的方法。比如外部词典,笔划、拼音、部首和字形特征作为辅助信息,进一步增强了嵌入向量的语义表示能力。这些方法已被证明是有效的,并有助于提高命名实体识别模型的性能。比如Flat-Lattice,借助Transformer的强大功能和精心设计的位置编码,可以充分利用Lattice信息,具有出色的并行化能力,充分发挥模型捕获远程上下文依赖能力方面的优势。但是错误的引入词信息难免会带来实体边界判断有误和语意歧义等问题,会影响这类模型的实体识别性能。导致实体抽取模型的准确率下降。另一方面,中文字符的字形结构具有独立的语意,代表了特定的实体含义,这种字形结构称为字符的局部信息。具体来说,中文是一种象形文字,由形旁和声旁两部份组成,形旁的表义功能比较强,具有相同形旁的中文字符有相近的实体含义。利用字符字形增强的模型还比较少,而且仍然存在以下不足:(1)模型只对字形的结构或者部首等某一方面进行特征抽取,这限制了模型对字形表征全面的学习。(2)模型提取出字形表征后,如何与自身的嵌入层向量进行加权融合也没有提出较好的方法,这会影响NER模型的结果。
针对以上问题,本发明提出一种基于局部和全局字符表征增强的中文命名实体识别方法。目前主流的NER方法没有考虑汉字全面的空间和序列两个方面的字符信息。由于中文字符底层本身就携带了大量的语意信息,重要的是如何将其有效的抽取出来并运用在NER任务上,从这一角度出发,本发明使用了字的形旁结构和序列增强字符潜在边界和语意信息,并使用交互门控机制有效得到了综合字符局部和全局的信息,提升了基于字符NER模型的性能。在中文命名实体数据集IMCS21和CMeEE进行了理论与技术的验证,实验结果充分证明了该方法的有效性。
发明内容
为了解决上述问题,本发明提供了基于局部和全局字符表征增强的中文命名实体识别方法,本发明利用自编码机制融合形旁的空间信息和序列信息等字符的不同局部信息,并利用交互门控机制控制字符局部信息和全局信息对于字符表征的贡献程度,从而获得综合的字符表征来增强字符表示,增强了字符的语义和潜在边界信息,使主模型获得更好的实体识别能力;在两个中文NER基准数据集上对所提出的方法进行了评估,各种实验结果不仅证明了本方法的有效性,而且表明本方法能够提高对特定领域和密切相关实体的表示能力。
本发明的技术方案是:基于局部和全局字符表征增强的中文命名实体识别方法,所述方法包括如下步骤:
Step1、将在语料上所训练的字符向量作为字符的初始嵌入:将每个字符都映射到一个密集向量表示,得到每个句子的字符嵌入;
Step2、将字符拆分为形旁和其他的字符成分,然后用序列特征编码器来提取字符的字形序列特征;
Step3、将单个字符视为二维图像,通过图像特征编码器来获得字符的字形结构特征;其中汉字所对应的图像通过的多个卷积层,捕获低级别的图形特征,再使用自适应池化操作并应用群卷积映射到最终字形结构特征;
Step4、采用自编码机制,对字符的字形结构特征、字形序列特征和预训练的字符嵌入三种向量进行融合得到字符局部表征;
Step5、首先在领域语料库上使用word2vec的Skip-Gram模型训练一个领域词典,然后,对每个字符在词典中进行查询匹配,得到若干个词集合,再通过加权分配权并拼接最后得到字符的全局表征;
Step6、在获得字符的局部表征和全局表征后,利用交互门控机制对两者的特征进行信息筛选,得到综合表征;之后将综合表征送入到Bi-LSTM进行上下文编码,然后CRF被用作解码层,来得到输出结果的标签。
作为本发明的进一步方案,所述Step1中,将输入句子视为字符序列s={c1,c2,···,cn},然后将每个字符ci都映射到一个密集向量表示
Figure BDA0003895924980000031
得到每个句子的字符嵌入:
Figure BDA0003895924980000032
其中ec表示字符嵌入查找表。
作为本发明的进一步方案,所述Step2中,首先对数据集里的每个字使用拆字的字典来构建包含每个字的组成部分查询表;然后将字符拆分的序列送入到卷积神经网络CNN中提取字符的字形序列特征,再使用残差网络来优化卷积层,缓解神经网络深度加深的梯度消失问题,最后,利用最大池和全连通层得到字形序列特征嵌入。
作为本发明的进一步方案,所述Step2包括如下步骤::
Step2.1、将第i个字符ci拆分为K个部分,
Figure BDA0003895924980000033
如果某个字符成分的长度不足K,则将空缺位置用“<PAD>”来填充,然后对每个字符成分进行随机嵌入操作Er:
Figure BDA0003895924980000034
Step2.2、将所获得字符的随机嵌入序列
Figure BDA0003895924980000035
送入卷积核大小为3的卷积操作conv3,得到字符隐向量序列
Figure BDA0003895924980000036
Figure BDA0003895924980000037
Step2.3、将该字符隐向量序列中每一个字符成分所对应的向量进行max-pooling,然后送入一个全连接层fc进行维度变换,得到该字符的字形序列嵌入
Figure BDA0003895924980000038
该字符的字形序列嵌入维度大小为do
Figure BDA0003895924980000039
作为本发明的进一步方案,所述Step3中,字形结构特征能从字符图像中获取丰富的象形文字信息,以提升中文命名实体识别模型性能;对于不同字体类型的图像,将其拼接到一起来表示该字的结构图像,将字符图片通过多个卷积层和多个输出通道,捕获低级别的字形结构特征。
作为本发明的进一步方案,所述Step3包括如下步骤:
Step3.1、将ci字符转换为对应的6种不同字体的灰度图像
Figure BDA0003895924980000041
其中
Figure BDA0003895924980000042
为第j种字体的大小为12×12的8bit灰度图像,将不同图像矩阵进行拼接,得到字符ci的结构图像
Figure BDA0003895924980000043
Figure BDA0003895924980000044
其中concat表示拼接操作;
Step3.2、然后,使用卷积核大小为5×5,有384个输出通道的卷积操作conv1,捕获低级别的图形特征,得到隐藏层向量
Figure BDA0003895924980000045
Figure BDA0003895924980000046
Step3.3、使用模板大小为4×4的maxpooling操作,将
Figure BDA0003895924980000047
的分辨率从8×8降低到2×2;再通过一个卷积核大小为1×1和ds个输出通道的卷积操作conv2,得到隐藏层向量
Figure BDA0003895924980000048
Figure BDA0003895924980000049
Step3.4、最后,将
Figure BDA00038959249800000410
送入卷积核大小为2的群卷积操作groupconv,并进行维度转化操作reshape,得到该字符的字形结构表征
Figure BDA00038959249800000411
该字符的字形结构嵌入维度大小为ds
Figure BDA00038959249800000412
reshape表示一个维度变换将2维向量变成一维的。
作为本发明的进一步方案,所述Step4中,首先将字符的字形结构特征、字形序列特征和预训练的字符嵌入拼接起来,再通过变换层得到一个自动融合的潜在向量,然后尝试从自融合的潜在向量重建最初拼接的向量,最后,通过计算原始向量和重构向量之间的欧氏距离,使用均方误差来计算损失,获得经过中间层压缩但没有损耗的信息。
作为本发明的进一步方案,所述Step4中,使用自编码网络来对字符的字形结构特征、字形序列特征和预训练的字符嵌入三种向量进行融合,通过最大化不同粒度输入之间的相关性,鼓励模型提取多粒度特征;具体的,所述Step4包括如下步骤:
Step4.1、首先将字形结构特征
Figure BDA0003895924980000051
字形序列特征
Figure BDA0003895924980000052
和字符嵌入
Figure BDA0003895924980000053
进行拼接,得到初始拼接向量
Figure BDA0003895924980000054
Figure BDA0003895924980000055
其中,ds表示字符的字形结构嵌入维度大小,do表示字符的字形序列嵌入维度大小,dc表示字符的预训练嵌入维度大小;
Step4.2、然后,将
Figure BDA0003895924980000056
进行以下两次线性变换和激活,得到隐向量
Figure BDA0003895924980000057
Figure BDA0003895924980000058
Step4.3、用
Figure BDA0003895924980000059
重构最初的拼接向量,得到重构向量
Figure BDA00038959249800000510
Figure BDA00038959249800000511
Step4.4、使用均方误差损失函数计算
Figure BDA00038959249800000512
Figure BDA00038959249800000513
之间的损失Lossf
Figure BDA00038959249800000514
Step4.5、将损失加入主模型序列标注模型中,通过NER下游任务激励以上重构过程,获得经过中间层压缩但没有损耗的信息,将中间层的隐向量
Figure BDA00038959249800000515
作为融合的局部表征。
作为本发明的进一步方案,所述Step5包括如下步骤:
Step5.1、字符ci在一个使用Skip-Gram模型预训练好的词典D中进行查询匹配;如果D中的某个词w中包含有字符ci,则根据字符出现在该词中的不同位置情况,分别将其纳入到四个词集B(ci),M(ci),E(ci),S(ci)中;具体来说,如果ci出现在某个词w的开头位置,就将该词w归类到词集B(ci);如果ci出现在某个词w的中间位置,就将该词w归类到词集M(ci)中;如果ci出现在某个词w的尾部,就将该词w归类到词集E(ci);如果ci和某个词w相同,即字符为一个独立的词,就将该词w归类到词集S(ci);
Step5.2、统计出字符ci匹配到的某个词w在训练数据中出现的次数m,以及字符ci匹配到的所有的词在训练集数据中出现的总次数M,则字符ci匹配到的某个词w的频率
Figure BDA00038959249800000516
为:
Figure BDA0003895924980000061
Step5.3、将匹配词集B(ci)中每一个词的词向量乘以其权重并加和,得到字符ci作为词语起始字符的表征
Figure BDA0003895924980000062
Figure BDA0003895924980000063
其中,Ed(w)表示词w的嵌入向量;
Step5.4、循环执行Step5.3中同样的方法,获得字符ci作为词语中间字符的表征
Figure BDA0003895924980000064
作为词语末尾字符的表征
Figure BDA0003895924980000065
以及作为独立词语的表征
Figure BDA0003895924980000066
Step5.5、将字符ci的四种表示组合起来得到每个字符的全局表征
Figure BDA0003895924980000067
dg表示字符的全局表征维度大小;
Figure BDA0003895924980000068
作为本发明的进一步方案,所述Step6中,由于局部表征相比全局表征而言会存在信息冗余,因此利用交互门控机制对两者的特征进行信息筛选,从而得到合理的综合表征,由于句子中的上下文信息有助于序列建模,因此使用能捕获文本双向信息的双向LSTM网络来提取句子上下文特征,条件随机场CRF被用作解码层,将经过上下文编码器编码后的向量将送到CRF中,通过最小化负最大似然函数找到概率最大的标签序列。
本发明的有益效果是:本发明通过融入中文字符的形旁局部信息和领域术语全局信息来增强字符表示,增强了字符的语义和潜在边界信息,使主模型获得更好的实体识别能力。相比于基于外部信息的中文NER模型,本发明的方法在嵌入层利用自编码网络结合字形信息,并使用交互门控机制将字符的局部信息和全局信息进行过滤,使主模型准确识别领域实体的边界和类别。各种实验结果不仅证明了本发明模型的有效性,而且表明本发明主模型能够提高对特定领域和密切相关实体的表示能力。本发明主模型在两个个基准中文数据集上的性能基本上都优于现有的方法。
附图说明
图1为本发明中的流程图;
图2为本发明提出的提取字形序列特征的模型图;
图3为本发明提出的提取字形结构特征的模型图;
图4为本发明自编码后隐藏层向量维度实验折线图。
具体实施方式
实施例1:如图1-图4所示,基于局部和全局字符表征增强的中文命名实体识别方法,所述方法包括如下步骤:
Step1、本发明使用数据集有两个,一个是中国计算语言学大会(CCL)提供的数据集IMCS21,包括6万余条句子。另一个是CMeEE数据集,包含2万多条句子。这两个数据集的具体数据如表1所示:
表1数据集统计
Figure BDA0003895924980000071
将在语料上所训练的字符向量作为字符的初始嵌入:将每个字符都映射到一个密集向量表示,得到每个句子的字符嵌入;
作为本发明的进一步方案,所述Step1中,将输入句子视为字符序列s={c1,c2,···,cn},然后将每个字符ci都映射到一个密集向量表示
Figure BDA0003895924980000072
得到每个句子的字符嵌入:
Figure BDA0003895924980000073
其中ec表示字符嵌入查找表。
Step2、将字符拆分为形旁和其他的字符成分,然后用序列特征编码器来提取字符的字形序列特征;
所述Step2中,首先对数据集里的每个字使用拆字的字典来构建包含每个字的组成部分查询表;然后将字符拆分的序列送入到卷积神经网络CNN中提取字符的字形序列特征,再使用残差网络来优化卷积层,缓解神经网络深度加深的梯度消失问题,最后,利用最大池和全连通层得到字形序列特征嵌入。
作为本发明的进一步方案,所述Step2包括如下步骤::
Step2.1、将第i个字符ci拆分为K个部分,
Figure BDA0003895924980000074
如果某个字符成分的长度不足K,则将空缺位置用“<PAD>”来填充,然后对每个字符成分进行随机嵌入操作Er:
Figure BDA0003895924980000081
Step2.2、将所获得字符的随机嵌入序列
Figure BDA0003895924980000082
送入卷积核大小为3的卷积操作conv3,得到字符隐向量序列
Figure BDA0003895924980000083
Figure BDA0003895924980000084
Step2.3、将该字符隐向量序列中每一个字符成分所对应的向量进行max-pooling,然后送入一个全连接层fc进行维度变换,得到该字符的字形序列嵌入
Figure BDA0003895924980000085
该字符的字形序列嵌入维度大小为do
Figure BDA0003895924980000086
Step3、将单个字符视为二维图像,通过图像特征编码器来获得字符的字形结构特征;其中汉字所对应的图像通过的多个卷积层,捕获低级别的图形特征,再使用自适应池化操作并应用群卷积映射到最终字形结构特征;
作为本发明的进一步方案,所述Step3中,字形结构特征能从字符图像中获取丰富的象形文字信息,以提升中文命名实体识别模型性能;对于不同字体类型的图像,将其拼接到一起来表示该字的结构图像,将字符图片通过多个卷积层和多个输出通道,捕获低级别的字形结构特征。
作为本发明的进一步方案,所述Step3包括如下步骤:
Step3.1、将ci字符转换为对应的6种不同字体的灰度图像
Figure BDA0003895924980000087
其中
Figure BDA0003895924980000088
为第j种字体的大小为12×12的8bit灰度图像,将不同图像矩阵进行拼接,得到字符ci的结构图像
Figure BDA0003895924980000089
Figure BDA00038959249800000810
其中concat表示拼接操作;
Step3.2、然后,使用卷积核大小为5×5,有384个输出通道的卷积操作conv1,捕获低级别的图形特征,得到隐藏层向量
Figure BDA00038959249800000811
Figure BDA00038959249800000812
Step3.3、使用模板大小为4×4的maxpooling操作,将
Figure BDA00038959249800000813
的分辨率从8×8降低到2×2;再通过一个卷积核大小为1×1和ds个输出通道的卷积操作conv2,得到隐藏层向量
Figure BDA0003895924980000091
Figure BDA0003895924980000092
Step3.4、最后,将
Figure BDA0003895924980000093
送入卷积核大小为2的群卷积操作groupconv,并进行维度转化操作reshape,得到该字符的字形结构表征
Figure BDA0003895924980000094
该字符的字形结构嵌入维度大小为ds
Figure BDA0003895924980000095
reshape表示一个维度变换将2维向量变成一维的。
Step4、采用自编码机制,对字符的字形结构特征、字形序列特征和预训练的字符嵌入三种向量进行融合得到字符局部表征;
作为本发明的进一步方案,所述Step4中,首先将字符的字形结构特征、字形序列特征和预训练的字符嵌入拼接起来,再通过变换层得到一个自动融合的潜在向量,然后尝试从自融合的潜在向量重建最初拼接的向量,最后,通过计算原始向量和重构向量之间的欧氏距离,使用均方误差来计算损失,获得经过中间层压缩但没有损耗的信息。
作为本发明的进一步方案,所述Step4中,使用自编码网络来对字符的字形结构特征、字形序列特征和预训练的字符嵌入三种向量进行融合,通过最大化不同粒度输入之间的相关性,鼓励模型提取多粒度特征;具体的,所述Step4包括如下步骤:
Step4.1、首先将字形结构特征
Figure BDA0003895924980000096
字形序列特征
Figure BDA0003895924980000097
和字符嵌入
Figure BDA0003895924980000098
进行拼接,得到初始拼接向量
Figure BDA0003895924980000099
Figure BDA00038959249800000910
其中,ds表示字符的字形结构嵌入维度大小,do表示字符的字形序列嵌入维度大小,dc表示字符的预训练嵌入维度大小;
Step4.2、然后,将
Figure BDA00038959249800000911
进行以下两次线性变换和激活,得到隐向量
Figure BDA00038959249800000912
Figure BDA00038959249800000913
Step4.3、用
Figure BDA00038959249800000914
重构最初的拼接向量,得到重构向量
Figure BDA00038959249800000915
Figure BDA00038959249800000916
Step4.4、使用均方误差损失函数计算
Figure BDA00038959249800000917
Figure BDA00038959249800000918
之间的损失Lossf
Figure BDA0003895924980000101
Step4.5、将损失加入主模型序列标注模型中,通过NER下游任务激励以上重构过程,获得经过中间层压缩但没有损耗的信息,将中间层的隐向量
Figure BDA0003895924980000102
作为融合的局部表征。
Step5、首先在领域语料库上使用word2vec的Skip-Gram模型训练一个领域词典,然后,对每个字符在词典中进行查询匹配,得到若干个词集合,再通过加权分配权并拼接最后得到字符的全局表征;
作为本发明的进一步方案,所述Step5包括如下步骤:
Step5.1、字符ci在一个使用Skip-Gram模型预训练好的词典D中进行查询匹配;如果D中的某个词w中包含有字符ci,则根据字符出现在该词中的不同位置情况,分别将其纳入到四个词集B(ci),M(ci),E(ci),W(ci)中;具体来说,如果ci出现在某个词w的开头位置,就将该词w归类到词集B(ci);如果ci出现在某个词w的中间位置,就将该词w归类到词集M(ci)中;如果ci出现在某个词w的尾部,就将该词w归类到词集E(ci);如果ci和某个词w相同,即字符为一个独立的词,就将该词w归类到词集S(ci);
Step5.2、统计出字符ci匹配到的某个词w在训练数据中出现的次数m,以及字符ci匹配到的所有的词在训练集数据中出现的总次数M,则字符ci匹配到的某个词w的频率
Figure BDA0003895924980000103
为:
Figure BDA0003895924980000104
Step5.3、将匹配词集B(ci)中每一个词的词向量乘以其权重并加和,得到字符ci作为词语起始字符的表征
Figure BDA0003895924980000105
Figure BDA0003895924980000106
其中,Ed(w)表示词w的嵌入向量;
Step5.4、循环执行Step5.3中同样的方法,获得字符ci作为词语中间字符的表征
Figure BDA0003895924980000107
作为词语末尾字符的表征
Figure BDA0003895924980000108
以及作为独立词语的表征
Figure BDA0003895924980000109
Step5.5、将字符ci的四种表示组合起来得到每个字符的全局表征
Figure BDA00038959249800001010
dg表示字符的全局表征维度大小;
Figure BDA00038959249800001011
Step6、在获得字符的局部表征和全局表征后,利用交互门控机制对两者的特征进行信息筛选,得到综合表征;之后将综合表征送入到Bi-LSTM进行上下文编码,然后CRF被用作解码层,来得到输出结果的标签。
作为本发明的进一步方案,所述Step6中,由于局部表征相比全局表征而言会存在信息冗余,因此利用交互门控机制对两者的特征进行信息筛选,从而得到合理的综合表征,由于句子中的上下文信息有助于序列建模,因此使用能捕获文本双向信息的双向LSTM网络来提取句子上下文特征,条件随机场CRF被用作解码层,将经过上下文编码器编码后的向量将送到CRF中,通过最小化负最大似然函数找到概率最大的标签序列。
所述Step6包括如下步骤:
基于字符的NER是一个连续的标记任务,相邻字符之间存在很强的约束关系。因此,还应该考虑字符在句子序列中的上下文信息。将句子序列送入Bi-LSTM网络来提取字符的句子序列表征
Figure BDA0003895924980000111
公式如下:
Figure BDA0003895924980000112
Figure BDA0003895924980000113
Figure BDA0003895924980000114
在序列标签输出阶段,使用CRF作为解码器。CRF会基于前一个标签的结果影响当前标签的结果。具体而言,CRF由一个发射矩阵和一个转移矩阵组成。发射矩阵
Figure BDA0003895924980000115
记录每个标签的概率,Mi,j表示第i个单词发射(预测)到第j个实体标签的概率。以及一个转换矩阵T∈Rtags×tags,Ti,j表示第j个标签转移到第i个标签的概率,用来模拟CRF层中要学习的相邻标签之间的关系,是一个可学习的参数矩阵,它能够帮助显示地去建模标签之间的转移关系,提高命名实体识别的准确率。n是句子中的字符数,tags是实体标签数。字符通过BiLSTM编码后得到隐向量hi,使用H来表示输入序列的隐向量矩阵,然后送到CRF中,通过最小化负最大似然函数找到概率最大的标签序列。公式如下:
M=σ(WtH+bt) (19)
Figure BDA0003895924980000116
Figure BDA0003895924980000117
其中,φ(S,y)为观测序列与标签序列之间的发射概率与标签序列转移分数之和,S表示观测序列,y为真实的标签。
Figure BDA0003895924980000121
和bt∈Rn×tags是线性层的参数,Y表示有效标签序列的集合。
使用负对数似然函数来计算标签分类的损失值:
Losscls=-logp(y|S) (22)
y是真实的序列标签;
最后,把标签分类损失和融合损失相加,得到模型最终的损失值。
Figure BDA0003895924980000122
为了说明本申请的效果,本发明比较了传统NER模型Bi-LSTM、基于词嵌入的CNER模型(SoftLexicon,LGN和FLAT)等的效果,本发明提出的模型在进行实体识别时,能够更加准确判断实体的类型和边界,这得益于本发明模型利用了字形的结构和序列的向量在向量空间的维度扩充了丰富的信息,使得相似类型的实体能够更加准确的预测,实验结果如表2所示,其中,Lattice+Glyce为在Lattice模型的嵌入层加入字形结构信息的实验结果结果。
表2在CMeEE和IMCS21数据集上各模型的效果
Figure BDA0003895924980000123
可以观察到:1.本发明模型在所有模型中取得了最优性能。相比基模型中性能最好的MECT,本发明模型的F1值在CMeEE数据集中提升了1.04%,在IMCS21中提升了0.62%。2.本发明的模型整体要优于以上比较的模型,有的模型在融入词信息的基础上都加入了字形信息,MECT融入了部首信息,Lattice+Glyce融入了字形,而本发明模型两者都有,后者则都是通过不同的方式融合了词信息的模型,这说明了外部的字形信息对理解中文语意有帮助。3.在CMeEE数据集上,FLAT的召回率最高,说明在长句子中实体抽取能力较强,但其精确率却很低,导致整体的性能不如本发明的模型,本发明模型在长句子较多的CMeEE数据集和短句子较多的IMCS21数据集上都取得了最佳的F1值,证明了本发明模型有较强的鲁棒性。
为了证明本发明模型的字形信息的有效性,对其进行了消融实验。其中,w/oglobal vector的实验是将本发明中模型的字符的全局表征去除,即模型只使用字形的信息增强后的字符表征。w/o glyph vector则是仅使用字符嵌入和全局表征,并用门控机制进行信息过滤,w/o glyph structure vector则是在进行局部特征融合时,去掉字形结构表征。w/o radical sequence vector是在进行局部特征融合时,去掉字形序列表征。在CMeEE数据集上进行实验,实验结果如表3所示,在所有的数据集的结果可以看出,使用字形的图像信息可以有效的提升模型的性能,并且较强于使用字形的结构信息的提升效果,在融合这两种字形特征后模型的提升效果最为明显,由此证明对于使用字形信息来增强汉字字符表示能够对模型抽取实体性能有较好的提升。本发明进一步探索了自编码隐向量维度大小对模型的影响。将模型中隐向量维度大小设置为50至250,并在数据集CMeEE集进行实验,结果如图4所示。从图中可以发现,当维度为200左右时模型的性能较好。如果隐向量维度太低,表征能力不足,则模型性能下降较多。
表3在CMeEE数据集上进行消融实验的结果
Figure BDA0003895924980000131
为了证明本发明提出的模型的有效性,统计了各个模型识别实体的错误数量。表4显示了不同模型在两个数据集上实体识别错误的数量,包括实体头部边界错误(BE)、实体尾部边界错误(EE)和实体类型错误(TE)。我们的模型对比SoftLexicon在CMeEE上的实体头部边界错误和实体尾部边界错误数量分别减少了377和394,实体类型错误减少了68,由结果来看,本发明的模型对实体的边界识别提升的效果显著。毫无疑问,本发明模型对于实体边界和实体类型的识别都是非常有益的。
表4实体识别错误类型统计
Figure BDA0003895924980000141
为了证明本发明提出的局部特征和全局特征融合方法的有效性,本发明还在CMeEE数据集上进行了其他3种融合方式的实验。Filter_1的融合方式是将局部和全局表征直接相加,然后送入Bi-LSTM编码。Filter_2的融合方式是将局部和全局表征直接拼接,然后送入Bi-LSTM编码。Filter_3的融合方式是使用门控机制分别处理局部和全局表征,然后将处理后的向量相加,再送入Bi-LSTM编码。实验结果如表5所示。可以看到Filter_1方式的效果不如Filter_2,这可能是因为后者的方式能够完整的保存局部和全局的信息。Filter_3加了门控后再加和,结果优于前两者。这可能得益于门控机制能够很好的筛选出局部和全局信息之间相关的重要部分,增强模型的拟合能力。本发明模型则是使用门控机制处理局部和全局表征后,将二者拼接,这样既能够完整的保存局部和全局的信息,又能筛选出两者的重要信息,从而取得最优的模型性能。
表5局部和全局表征结合的消融实验
Figure BDA0003895924980000142
为了验证本发明的局部表征自编码融合的有效性,还在CMeEE数据集上进行了其他2种局部特征融合方式的实验。Fusion_1的方式是将字符嵌入,字形结构嵌入和字形序列嵌入直接拼接。Fusion_2的方式是将字符嵌入,字形结构嵌入和字形序列嵌入经过线性变换后再相加。实验结果如表6所示。可以看出,本发明的自编码融合方式效果最好,比两外两种融合方式F1值高出0.51和1.67。需要注意的是,Fuison_1的召回率最高,这可能是由于直接拼接能够较全面的利用3种局部向量来识别实体。但另一方面,三种向量所处的向量空间不同,差异较大,直接拼接会引入冗余信息,使得其精确率最低。相比之下,自编码方式能够更好的融合三种向量,从而兼顾实体识别的精确度和召回率。
表6局部表征融合方式的消融结果
Figure BDA0003895924980000151
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (10)

1.基于局部和全局字符表征增强的中文命名实体识别方法,其特征在于:所述方法包括如下步骤:
Step1、将在语料上所训练的字符向量作为字符的初始嵌入:将每个字符都映射到一个密集向量表示,得到每个句子的字符嵌入;
Step2、将字符拆分为形旁和其他的字符成分,然后用序列特征编码器来提取字符的字形序列特征;
Step3、将单个字符视为二维图像,通过图像特征编码器来获得字符的字形结构特征;其中汉字所对应的图像通过的多个卷积层,捕获低级别的图形特征,再使用自适应池化操作并应用群卷积映射到最终字形结构特征;
Step4、采用自编码机制,对字符的字形结构特征、字形序列特征和预训练的字符嵌入三种向量进行融合得到字符局部表征;
Step5、首先在领域语料库上使用word2vec的Skip-Gram模型训练一个领域词典,然后,对每个字符在词典中进行查询匹配,得到若干个词集合,再通过加权分配权并拼接最后得到字符的全局表征;
Step6、在获得字符的局部表征和全局表征后,利用交互门控机制对两者的特征进行信息筛选,得到综合表征;之后将综合表征送入到Bi-LSTM进行上下文编码,然后CRF被用作解码层,来得到输出结果的标签。
2.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法,其特征在于:所述Step1中,将输入句子视为字符序列s={c1,c2,···,cn},然后将每个字符ci都映射到一个密集向量表示
Figure FDA0003895924970000011
得到每个句子的字符嵌入:
Figure FDA0003895924970000012
其中ec表示字符嵌入查找表。
3.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法,其特征在于:所述Step2中,首先对数据集里的每个字使用拆字的字典来构建包含每个字的组成部分查询表;然后将字符拆分的序列送入到卷积神经网络CNN中提取字符的字形序列特征,再使用残差网络来优化卷积层,缓解神经网络深度加深的梯度消失问题,最后,利用最大池和全连通层得到字形序列特征嵌入。
4.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法,其特征在于:所述Step2包括如下步骤::
Step2.1、将第i个字符ci拆分为K个部分,
Figure FDA0003895924970000021
如果某个字符成分的长度不足K,则将空缺位置用“<PAD>”来填充,然后对每个字符成分进行随机嵌入操作Er:
Figure FDA0003895924970000022
Step2.2、将所获得字符的随机嵌入序列
Figure FDA0003895924970000023
送入卷积核大小为3的卷积操作conv3,得到字符隐向量序列
Figure FDA0003895924970000024
Figure FDA0003895924970000025
Step2.3、将该字符隐向量序列中每一个字符成分所对应的向量进行max-pooling,然后送入一个全连接层fc进行维度变换,得到该字符的字形序列嵌入
Figure FDA0003895924970000026
该字符的字形序列嵌入维度大小为do
Figure FDA0003895924970000027
5.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法,其特征在于:所述Step3中,字形结构特征能从字符图像中获取丰富的象形文字信息,以提升中文命名实体识别模型性能;对于不同字体类型的图像,将其拼接到一起来表示该字的结构图像,将字符图片通过多个卷积层和多个输出通道,捕获低级别的字形结构特征。
6.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法,其特征在于:所述Step3包括如下步骤:
Step3.1、将ci字符转换为对应的6种不同字体的灰度图像
Figure FDA0003895924970000028
其中
Figure FDA0003895924970000029
为第j种字体的大小为12×12的8bit灰度图像,将不同图像矩阵进行拼接,得到字符ci的结构图像
Figure FDA00038959249700000210
Figure FDA00038959249700000211
其中concat表示拼接操作;
Step3.2、然后,使用卷积核大小为5×5,有384个输出通道的卷积操作conv1,捕获低级别的图形特征,得到隐藏层向量
Figure FDA00038959249700000212
Figure FDA00038959249700000213
Step3.3、使用模板大小为4×4的maxpooling操作,将
Figure FDA0003895924970000031
的分辨率从8×8降低到2×2;再通过一个卷积核大小为1×1和ds个输出通道的卷积操作conv2,得到隐藏层向量
Figure FDA0003895924970000032
Figure FDA0003895924970000033
Step3.4、最后,将
Figure FDA0003895924970000034
送入卷积核大小为2的群卷积操作groupconv,并进行维度转化操作reshape,得到该字符的字形结构表征
Figure FDA0003895924970000035
该字符的字形结构嵌入维度大小为ds
Figure FDA0003895924970000036
reshape表示一个维度变换将2维向量变成一维的。
7.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法,其特征在于:所述Step4中,首先将字符的字形结构特征、字形序列特征和预训练的字符嵌入拼接起来,再通过变换层得到一个自动融合的潜在向量,然后尝试从自融合的潜在向量重建最初拼接的向量,最后,通过计算原始向量和重构向量之间的欧氏距离,使用均方误差来计算损失,获得经过中间层压缩但没有损耗的信息。
8.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法,其特征在于:所述Step4中,使用自编码网络来对字符的字形结构特征、字形序列特征和预训练的字符嵌入三种向量进行融合,通过最大化不同粒度输入之间的相关性,鼓励模型提取多粒度特征;具体的,所述Step4包括如下步骤:
Step4.1、首先将字形结构特征
Figure FDA0003895924970000037
字形序列特征
Figure FDA0003895924970000038
和字符嵌入
Figure FDA0003895924970000039
进行拼接,得到初始拼接向量
Figure FDA00038959249700000310
Figure FDA00038959249700000311
其中,ds表示字符的字形结构嵌入维度大小,do表示字符的字形序列嵌入维度大小,dc表示字符的预训练嵌入维度大小;
Step4.2、然后,将
Figure FDA00038959249700000312
进行以下两次线性变换和激活,得到隐向量
Figure FDA00038959249700000313
Figure FDA00038959249700000314
Step4.3、用
Figure FDA00038959249700000315
重构最初的拼接向量,得到重构向量
Figure FDA00038959249700000316
Figure FDA00038959249700000317
Step4.4、使用均方误差损失函数计算
Figure FDA0003895924970000041
Figure FDA0003895924970000042
之间的损失Lossf
Figure FDA0003895924970000043
Step4.5、将损失加入主模型序列标注模型中,通过NER下游任务激励以上重构过程,获得经过中间层压缩但没有损耗的信息,将中间层的隐向量
Figure FDA0003895924970000044
作为融合的局部表征。
9.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法,其特征在于:所述Step5包括如下步骤:
Step5.1、字符ci在一个使用Skip-Gram模型预训练好的词典D中进行查询匹配;如果D中的某个词w中包含有字符ci,则根据字符出现在该词中的不同位置情况,分别将其纳入到四个词集B(ci),M(ci),E(ci),S(ci)中;具体来说,如果ci出现在某个词w的开头位置,就将该词w归类到词集B(ci);如果ci出现在某个词w的中间位置,就将该词w归类到词集M(ci)中;如果ci出现在某个词w的尾部,就将该词w归类到词集E(ci);如果ci和某个词w相同,即字符为一个独立的词,就将该词w归类到词集S(ci);
Step5.2、统计出字符ci匹配到的某个词w在训练数据中出现的次数m,以及字符ci匹配到的所有的词在训练集数据中出现的总次数M,则字符ci匹配到的某个词w的频率
Figure FDA0003895924970000045
为:
Figure FDA0003895924970000046
Step5.3、将匹配词集B(ci)中每一个词的词向量乘以其权重并加和,得到字符ci作为词语起始字符的表征
Figure FDA0003895924970000047
Figure FDA0003895924970000048
其中,Ed(w)表示词w的嵌入向量;
Step5.4、循环执行Step5.3中同样的方法,获得字符ci作为词语中间字符的表征
Figure FDA0003895924970000049
作为词语末尾字符的表征
Figure FDA00038959249700000410
以及作为独立词语的表征
Figure FDA00038959249700000411
Step5.5、将字符ci的四种表示组合起来得到每个字符的全局表征
Figure FDA00038959249700000412
dg表示字符的全局表征维度大小;
Figure FDA00038959249700000413
10.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法,其特征在于:所述Step6中,由于局部表征相比全局表征而言会存在信息冗余,因此利用交互门控机制对两者的特征进行信息筛选,从而得到合理的综合表征,由于句子中的上下文信息有助于序列建模,因此使用能捕获文本双向信息的双向LSTM网络来提取句子上下文特征,条件随机场CRF被用作解码层,将经过上下文编码器编码后的向量将送到CRF中,通过最小化负最大似然函数找到概率最大的标签序列。
CN202211273187.3A 2022-10-18 2022-10-18 基于局部和全局字符表征增强的中文命名实体识别方法 Pending CN115455955A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211273187.3A CN115455955A (zh) 2022-10-18 2022-10-18 基于局部和全局字符表征增强的中文命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211273187.3A CN115455955A (zh) 2022-10-18 2022-10-18 基于局部和全局字符表征增强的中文命名实体识别方法

Publications (1)

Publication Number Publication Date
CN115455955A true CN115455955A (zh) 2022-12-09

Family

ID=84310202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211273187.3A Pending CN115455955A (zh) 2022-10-18 2022-10-18 基于局部和全局字符表征增强的中文命名实体识别方法

Country Status (1)

Country Link
CN (1) CN115455955A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116579343A (zh) * 2023-05-17 2023-08-11 成都信息工程大学 一种中文文旅类的命名实体识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116579343A (zh) * 2023-05-17 2023-08-11 成都信息工程大学 一种中文文旅类的命名实体识别方法
CN116579343B (zh) * 2023-05-17 2024-06-04 成都信息工程大学 一种中文文旅类的命名实体识别方法

Similar Documents

Publication Publication Date Title
CN110795556B (zh) 一种基于细粒度插入式解码的摘要生成方法
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
CN110598221B (zh) 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN109522403A (zh) 一种基于融合编码的摘要文本生成方法
CN110222338B (zh) 一种机构名实体识别方法
CN115471851A (zh) 融合双重注意力机制的缅甸语图像文本识别方法及装置
CN111444367A (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN115116066A (zh) 一种基于字符距离感知的场景文本识别方法
CN114861600A (zh) 一种面向ner的中文临床文本数据增强方法及装置
CN116306652A (zh) 一种基于注意力机制和BiLSTM的中文命名实体识别模型
CN113423004A (zh) 基于解耦译码的视频字幕生成方法和系统
CN115455955A (zh) 基于局部和全局字符表征增强的中文命名实体识别方法
CN115545033A (zh) 融合词汇类别表征的中文领域文本命名实体识别方法
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN114861601A (zh) 基于旋转式编码的事件联合抽取方法及存储介质
CN114581920A (zh) 一种双分支多层次特征解码的分子图像识别方法
CN113887169A (zh) 文本处理方法、电子设备、计算机存储介质及程序产品
CN115203415A (zh) 一种简历文档信息提取方法及相关装置
Chen et al. Subobject-level Image Tokenization
CN112926373B (zh) 字符的视觉感知编码
Cai et al. HCADecoder: a hybrid CTC-attention decoder for chinese text recognition
CN115310445A (zh) 基于增强序列标注策略的单阶段联合实体关系抽取方法及系统
Huang et al. Separating Chinese character from noisy background using GAN
Miao et al. Chinese calligraphy generation based on residual dense network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination