CN115759090A - 一种结合软词典和汉字字形特征的中文命名实体识别方法 - Google Patents

一种结合软词典和汉字字形特征的中文命名实体识别方法 Download PDF

Info

Publication number
CN115759090A
CN115759090A CN202211245600.5A CN202211245600A CN115759090A CN 115759090 A CN115759090 A CN 115759090A CN 202211245600 A CN202211245600 A CN 202211245600A CN 115759090 A CN115759090 A CN 115759090A
Authority
CN
China
Prior art keywords
chinese
sequence
character
dictionary
soft
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211245600.5A
Other languages
English (en)
Inventor
于舒娟
赵阳
毛新涛
吴梦洁
高贵
张昀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202211245600.5A priority Critical patent/CN115759090A/zh
Publication of CN115759090A publication Critical patent/CN115759090A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明公开了一种结合软词典和汉字字形特征的中文命名实体识别方法,包括:对输入的汉字序列分别进行软词典嵌入SoftLexicon embedding和部首级嵌入radical‑level embedding得到软词典嵌入表示、部首级嵌入表示,将软词典嵌入表示和部首级嵌入表示进行拼接得到字符表示;在所得的字符表示上加入门卷积单元以实现文本特征信息的进一步提取,采用两种不同窗口大小的CNN网络提取文本上下文特征;将门卷积单元输出结果放入序列建模层,对字符之间的依赖关系进行建模,得到序列建模后的结果;将序列建模后的结果经过全连接层后,被送入到一个标准条件随机场中执行字符序列的标签预测,得到中文命名实体识别结果。

Description

一种结合软词典和汉字字形特征的中文命名实体识别方法
技术领域
本发明属于自然语言处理技术领域,涉及一种结合软词典和汉字字形特征 的中文命名实体识别方法。
背景技术
命名实体识别(NER)是一项序列标记任务,涉及非结构文本中命名实体 的识别,包括人名、地点和组织等。命名实体识别是自然语言处理(NLP)的组 成部分,同时对其他下游任务有着至关重要的作用,例如关系提取、知识库构 建、信息检索和问答等。
区别于英语,汉语中句子不是自然分割,每个汉字之间没有明显的分割边 界。中文分词需要依靠语义信息来区分,这对中文命名实体识别任务造成巨大 困难。因此,历年来,为了增强语义信息而诞生了许多研究。传统的基于词级 别的模型大多都存在分词错误传播的问题。字级别的命名实体识别模型中会因 缺少词级别信息以及分词边界未知而表现不佳。为了解决以上问题, Lattice-LSTM[Zhang Y,Yang J.Chinese NER usinglattice LSTM[J].arXiv preprint arXiv:1805.02023,2018.]首次将词典和词向量信息引入字级别表示中,通 过编码和匹配词典中的单词来提高命名实体识别性能。由于LSTM在数据并行 处理上存在劣势,许多研究人员尝试将词典匹配到其他网络中进行建模,例如LR-CNN[Gui T,Ma R,Zhang Q,et al.CNN-Based Chinese NER with Lexicon Rethinking[C]//ijcai.2019:4982-4988.]、CAN-NER[Zhu Y,Wang G,Karlsson B F. CAN-NER:Convolutional attention network for Chinese named entity recognition[J].arXiv preprint arXiv:1904.02141,2019.]等基于卷积神经网络(CNN)提出的新型 架构获得了更高的模型效率。此外,SoftLexicon[Ma R,Peng M,Zhang Q,et al. Simplify theusage of lexicon in Chinese NER[J].arXiv preprint arXiv:1908.05969, 2019.]在整合更完整、更独特的词汇信息等方面具有优势,还具有模型效率高 迁移性强的特点。
然而以上方法旨在整合中文词汇信息,而忽略了汉字的结构特征。
发明内容
类比英文中的词根和词缀能反映事物的属性信息,汉字的部首也有着同样 的功能。汉字中有200多个部首,不同的部首代表不同的信息。比如“氵”部 首代表水,对识别与水有关的地点实体有所帮助,像湖(lake),海(sea),江(river), 涧(gully)等。再比如,铁(iron),铜(copper),银(silver),链(chain)等汉字中包含的 “钅”部首有助于识别金属实体。由此可见,汉字的部首特征能够提高对相应 属性实体的认识。部首特征对中文命名识别的有效性。
目的:为了克服现有技术中存在的不足,本发明提供一种结合软词典和汉 字字形特征的中文命名实体识别方法,利用SoftLexicon方法,并结合汉字结构 信息以及门卷积网络,以此提出一种新的方法。
技术方案:为解决上述技术问题,本发明采用的技术方案为:
第一方面,提供一种结合软词典和汉字字形特征的中文命名实体识别方法, 包括:
步骤1:对输入的汉字序列分别进行软词典嵌入SoftLexicon embedding和部 首级嵌入radical-level embedding得到软词典嵌入表示、部首级嵌入表示,将软 词典嵌入表示和部首级嵌入表示进行拼接得到字符表示;
步骤2:在所得的字符表示上加入门卷积单元以实现文本特征信息的进一步 提取,采用两种不同窗口大小的CNN网络提取文本上下文特征;
步骤3:将门卷积单元输出结果放入序列建模层,对字符之间的依赖关系进 行建模,得到序列建模后的结果;
步骤4:将序列建模后的结果经过全连接层后,被送入到一个标准条件随机 场中执行字符序列的标签预测,得到中文命名实体识别结果。
对输入的汉字序列进行软词典嵌入SoftLexicon embedding,包括:将输入的 汉字序列中的每个字符ci的所有匹配词分类为四个词集“B、M、E、S”,并用 四个切分标签进行标记以保留分割信息;
对于输入的汉字序列={c1,c2,…,cn}中的每个字符,四个集合由以下公式构 成:
Figure BDA0003886451650000031
Figure BDA0003886451650000032
Figure BDA0003886451650000033
Figure BDA0003886451650000034
其中,L表示工作中所用到的词汇;wi,k、wj,k、wj,i分别表示ci处在开头位 置、中间位置、末尾位置匹配到的词汇;
Figure BDA0003886451650000035
表示任意,
Figure BDA0003886451650000036
表示存在,这两个为数 学符号;i、j、k为字符的下标,表示字符在一个汉字序列中的位置;n表示输入 的汉字序列中字符的个数;
如果词集为空,则将特殊单词“None”添加到空词集中;
使用每个单词w出现的频率作为权重,利用加权算法获得词集T的加权vs(T) 表示:
Figure BDA0003886451650000041
其中,Z=∑W∈B∪M∪E∪S z(w),ew表示单词嵌入查找表;w表示单词;z(w)表 示单词w在统计数据中出现的频率;
将四个词集的表示拼接起来组合成一个固定维度特征,得到软词典嵌入表 示es(B,M,E,S),表示为:
es(B,M,E,S)=[vs(B);vs(M);vs(E);vs(S)]。
在一些实施例中,对输入的汉字序列进行部首级嵌入radical-level embedding,包括:
使用字形结构部件Structural Components成份作为汉字部首特征输入,将其 映射为d维特征向量,然后由改进的TCN网络提取部首特征信息以实现部首级 嵌入;所述改进的TCN网络在原TCN网络中引入squeeze-and-inspire压缩和 激励注意机制,改进的TCN网络的输出O由下式给出:
Figure BDA0003886451650000042
其中,x表示部首级特征向量输入,
Figure BDA0003886451650000043
是TCN网络的一系列变换,Activation 表示激活函数。
在一些实施例中,将软词典嵌入表示和部首级嵌入表示进行拼接得到字符 表示,包括:使用二元图嵌入来扩充字符,拼接得到字符表示为:
xc←[bc;es(B,M,E,S);rc]
X={x1,x2,…,xn}
其中bc表示二元嵌入查找表,es(B,M,E,S)是软词典嵌入表示,rc是部首级 嵌入表示,xc表示代表拼接得到的每个字符的嵌入表示,X表示整个汉字序列的 嵌入表示。
在一些实施例中,在所得的字符表示上加入门卷积单元以实现文本特征信 息的进一步提取,包括:
采用两种不同窗口大小的CNN网络提取文本上下文特征,设置Conv2卷积 运算的窗口大小为2以使得所有潜在的字融合到相应的位置,设置Conv1卷积 运算的窗口大小和步长设置为1,用以改变输入特征的通道数进而满足两个卷积 运算后结果融合条件;
最终的门控卷积块输出Y表示为:
Y=(1-θ)·C1(X)+θ·C2(X)
C1(X)=tanh(W1*X+b1),
C2(X)=tanh(W2*X+b2),
θ=σ(C2(X)).
其中,*代表卷积运算操作;W1,b1,W2,b2分别表示卷积中可训练的卷积核 参数以及偏置项参数;σ代表Sigmoid激活函数,θ为模型参数,C1(X)、C2(X)代 表两个CNN网络的输出;tanh代表双曲正切激活函数;X代表整个汉字序列的 嵌入表示。
在一些实施例中,将门控卷积层的输出结果放入序列建模层,对字符之间 的依赖关系进行建模,包括:使用单层Bi-LSTM来实现序列建模目的;Bi-LSTM 结合了前向LSTM和后向LSTM,首先给出前向LSTM的精确定义:
Figure BDA0003886451650000061
Figure BDA0003886451650000062
ht=ot⊙tanh(ct).
其中,σ代表element-wise sigmoid函数,⊙表示element-wise product;W和 b是可训练的参数;it表示输入门的值;ft表示遗忘门的值;ot表示输出门的值;
Figure BDA0003886451650000063
表示临时细胞状态;
Figure BDA0003886451650000064
表示字符输入向量;ht-1、ht分别表示前一时刻、当前 时刻隐藏层状态;ct-1、ct分别表示前一时刻、当前时刻细胞状态;
后向LSTM以相同的方式对相反顺序的输入序列进行建模;BiLSTM在第i 步串联的隐状态
Figure BDA0003886451650000065
构成了ci的上下文相关表示;其中
Figure BDA0003886451650000066
分别表示前 向LSTM、后向LSTM的隐藏层状态。
在一些实施例中,标签预测,包括:
对于BiLSTM的输出结果,在经过全连接层后,被送入到一个标准条件随 机场CRF中执行字符序列的标签预测,标签序列的概率p(y|s;θ)被定义为:
Figure BDA0003886451650000067
ys表示输入的汉字序列s所有的可能标签序列,
Figure BDA0003886451650000068
Figure BDA0003886451650000069
其中wy′,y和by′,y是(y′,y)标签对的可训练参数,
Figure BDA00038864516500000610
表示wy′,y的转置矩阵, θ代表模型参数;i表示第i个标签;exp表示以自然常数e为底的指数函数;
Figure BDA00038864516500000611
表示累积;
筛选出对于输入序列s拥有最高条件概率的标签序列y*作为最终输出结果:
Figure BDA0003886451650000071
第二方面,本发明提供了一种结合软词典和汉字字形特征的中文命名实体 识别装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步 骤。
第三方面,本发明提供了一种存储介质,其上存储有计算机程序,所述计 算机程序被处理器执行时实现第一方面所述方法的步骤。
有益效果:本发明提供的结合软词典和汉字字形特征的中文命名实体识别 方法,具有以下优点:本发明首先对输入的汉字序列分别进行SoftLexicon embedding和radical-level embedding,获取对应的字符表示并拼接。SoftLexicon embedding的方法主要将所输入的每个字符所匹配到的词汇分为“BMES”四个 词集,之后使用每个单词出现的频率作为权重,利用加权算法获得词集T的加权 表示。radical-level embedding的方法使用TCN网络,利用其包含的扩张因果卷 积可以提高其在时间序列上的特征提取能力来提取汉字部首特征信息。同时在 原TCN网络中引入squeeze-and-inspire(SE)注意机制以解决卷积过程中因 feature map的不同通道所占的重要性不同带来的信息损失问题。最后通过最大 池化层和全连通层实现汉字部首级特征嵌入。为了能够实现文本特征信息的进 一步提取,在所得的字符表示上加入门卷积单元,采用两种不同窗口大小的CNN 网络提取文本上下文特征,设置Conv2卷积运算的窗口大小为2时,所有潜在 的字都可以很容易地融合到相应的位置,Conv1卷积运算的窗口大小和步长设置 为1,用以改变输入特征的通道数进而满足两个卷积运算后结果融合条件。最后 将门控卷积层的输出结果放入序列建模层,对字符之间的依赖关系进行建模, 使用单层Bi-LSTM来实现序列建模目的,最后将序列建模后的结果经过全连接 层后,被送入到一个标准条件随机场中执行字符序列的标签预测。
附图说明
图1为根据本发明一实施例的总体结构示意图;
图2为根据本发明一实施例中部首级嵌入层结构示意图;
图3是根据本发明一实施例中改进的TCN网络结构示意图;
图4是根据本发明一实施例中门控卷积网络结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步描述。以下实施例仅用于更加清 楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
在本发明的描述中,若干的含义是一个以上,多个的含义是两个以上,大 于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。 如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或 暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的 技术特征的先后关系。
本发明的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具 体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本 说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且, 描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例 中以合适的方式结合。
实施例1
一种结合软词典和汉字字形特征的中文命名实体识别方法,包括:
步骤1:对输入的汉字序列分别进行软词典嵌入SoftLexicon embedding和部 首级嵌入radical-level embedding得到软词典嵌入表示、部首级嵌入表示,将软 词典嵌入表示和部首级嵌入表示进行拼接得到字符表示;
步骤2:在所得的字符表示上加入门卷积单元以实现文本特征信息的进一步 提取,采用两种不同窗口大小的CNN网络提取文本上下文特征;
步骤3:将门卷积单元输出结果放入序列建模层,对字符之间的依赖关系进 行建模,得到序列建模后的结果;
步骤4:将序列建模后的结果经过全连接层后,被送入到一个标准条件随机 场中执行字符序列的标签预测,得到中文命名实体识别结果。
在一些实施例中,本实施例是在Windows11操作系统下,基于Intel(R) Core(TM)i7-12700H CPU@2.70GHz(16GB运行内存)和NVIDIA Geforce GTX3060 GPU的硬件设备上搭建PyTorch深度学习框架,利用Python编程语言 实现中文命名实体识别模型的训练与测试。本文采用了文献[Ma R T,Peng M L, et al.Simplify the Usage of Lexicon inChinese NER[J].arXiv preprint arXiv:1908.059v2,2020.]中开放的源代码,并在它的基础上进行修改,从而实现 本方法。图1为本实施例的总体结构示意图。
实验的超参数设置,对于小型数据集Weibo和Resume,隐藏层大小设置为 250和200;对于大型数据集OntoNotes4.0和MSRA,隐藏层大小被设置为300; 对于微博数据集初始学习率设置为0.005,其他三个数据集设置为0.0015;模型 丢弃率设置为0.5。
在本方法中,采用的数据集是四个主流的中文NER基准数据集,包括Weibo,Resume,MSRA和Ontonotes4.0。其中MSRA和OntoNotes4.0语料库来自新闻, Weibo语料库来自社交媒体,Resume语料库来自新浪财经的简历数据。
本节中,我们将在四个数据集上评估所提出的方法的可行性,使用跨度法 计算精确度(P)、召回率(R)和F1分数(F1)(P和R的调和平均)作为评估 指标,其公式表示为:
Figure BDA0003886451650000101
Figure BDA0003886451650000102
Figure BDA0003886451650000103
其中TP为真阳性,FP为假阳性,TN为真阴性,FN为假阴性。
步骤1,对输入的汉字序列分别进行SoftLexicon embedding和radical-levelembedding,获取对应的字符表示并拼接;
步骤1-1,SoftLexicon embedding,将每个字符ci的所有匹配词分类为四个词 集“BMES”,并用四个切分标签进行标记以保留分割信息。对于输入序列 ={c1,c2,…,cn}中的每个字符,四个集合由以下公式构成:
Figure BDA0003886451650000104
Figure BDA0003886451650000105
Figure BDA0003886451650000106
Figure BDA0003886451650000111
L表示工作中所用到的词汇。另外,如果词集为空,则将特殊单词“None” 添加到空词集中。之后,使用每个单词出现的频率作为权重,利用加权算法获 得词集T的加权表示:
Figure BDA0003886451650000112
其中,Z=∑W∈B∪M∪E∪S z(w),ew表示单词嵌入查找表。
最后,将四个词集的表示拼接起来组合成一个固定维度特征,它表示为:
es(B,M,E,S)=[vs(B);vs(M);vs(E);vs(S)] (3)
步骤1-2,radical-level embedding,如图2所示,为本实施例中部首级嵌入 层结构,为了更好地提取汉字部首特征信息,使用Structural Components成份作 为汉字部首特征输入,将其映射为d维特征向量,然后由TCN提取部首特征信 息以实现部首级嵌入。TCN中包含的扩张因果卷积可以提高其在时间序列上的 特征提取能力。另外,我们还在原TCN网络中引入squeeze-and-inspire(SE)注 意机制,它可以有效地解决卷积过程中因feature map的不同通道所占的重要性 不同带来的信息损失问题。改进后的TCN的输出由下式给出:
Figure BDA0003886451650000113
x表示部首级特征向量输入,
Figure BDA0003886451650000114
是图3中左侧分支的一系列变换。
步骤1-3,将获得的部首级嵌入表示和软词典嵌入表示拼接。为了能够更好 的表示字符,我们的工作中使用二元图嵌入来扩充字符,最终每个字符和整个 句子的嵌入表示由以下获得:
xc←[bc;es(B,M,E,S);rc] (5)
X={x1,x2,…,xn} (6)
其中其中bc表示二元嵌入查找表,es(B,M,E,S)是软词典嵌入表示,rc是部 首级嵌入表示。
步骤2:门卷积网络,在步骤1所得的字符表示上使用门卷积单元来实现文 本特征信息的进一步提取和传递,其结构见图4,这里尝试采用两种不同窗口大 小的CNN网络提取文本上下文特征,设置Conv2卷积运算的窗口大小为2时, 所有潜在的字都可以很容易地融合到相应的位置,这一点在LR-CNN中已经得 到了验证。Conv1卷积运算的窗口大小和步长设置为1,用以改变输入特征的通 道数进而满足两个卷积运算后结果融合条件。门控机制的使用能够有效控制信 息流的传递,这些门可以在没有任何激活函数的情况下,缓解训练过程中的梯 度消失。最终的门控卷积块输出可以表示为:
Figure BDA0003886451650000121
*代表卷积运算操作;W1,b1,W2,b2分别表示卷积中可训练的卷积核参数以及 偏置项参数;σ代表Sigmoid激活函数。
步骤3:序列建模层,将门控卷积层的输出结果放入序列建模层,对字符之 间的依赖关系进行建模。这里我们使用单层Bi-LSTM来实现序列建模目的。 Bi-LSTM结合了前向LSTM和后向LSTM,首先给出前向LSTM的精确定义:
Figure BDA0003886451650000131
其中,σ代表element-wise sigmoid函数,⊙表示element-wise product。W和 b是可训练的参数。后向LSTM以相同的方式对相反顺序的输入序列进行建模。 BiLSTM在第i步串联的隐状态
Figure BDA0003886451650000132
构成了ci的上下文相关表示。
步骤4:标签预测层,对于BiLSTM的输出结果,在经过全连接层后,被送 入到一个标准条件随机场(CRF)中执行字符序列的标签预测,标签序列的概率 被定义为:
Figure BDA0003886451650000133
ys表示s所有的可能标签序列,
Figure BDA0003886451650000134
其中wy′,y和by′,y是(y′,y)标签对的可训练参数,θ代表模型参数。筛选出对于输入序列S拥 有最高条件概率的标签序列y*作为最终输出结果:
Figure BDA0003886451650000135
以上,就是本发明结合软词典和汉字字形特征的中文命名实体识别方法的 实现步骤。从表1、表2、表3和表4我们可以看出,相比较于表格中第一区块 的经典方法,在OntoNote4.0上,Zhang and Yang(2018)获得了最高的准确率,Yang et al.
Figure BDA0003886451650000141
表1在Rusme数据集上的结果
Figure BDA0003886451650000142
表2在OntoNotes 4.0数据集上的结果
Figure BDA0003886451650000143
表3在Weibo数据集上的结果
Figure BDA0003886451650000144
Figure BDA0003886451650000151
表4在MSRA数据集上的结果
Figure BDA0003886451650000152
实施例2
第二方面,本实施例提供了一种结合软词典和汉字字形特征的中文命名实 体识别装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据实施例1所述方法的步 骤。
实施例3
第三方面,本实施例提供了一种存储介质,其上存储有计算机程序,所述 计算机程序被处理器执行时实现实施例1所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计 算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品 的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或 方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式 处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机 或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流 程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备 以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的 指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流 程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理, 从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程 或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通 技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰, 这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种结合软词典和汉字字形特征的中文命名实体识别方法,其特征在于,包括:
步骤1:对输入的汉字序列分别进行软词典嵌入SoftLexicon embedding和部首级嵌入radical-level embedding得到软词典嵌入表示、部首级嵌入表示,将软词典嵌入表示和部首级嵌入表示进行拼接得到字符表示;
步骤2:在所得的字符表示上加入门卷积单元以实现文本特征信息的进一步提取,采用两种不同窗口大小的CNN网络提取文本上下文特征;
步骤3:将门卷积单元输出结果放入序列建模层,对字符之间的依赖关系进行建模,得到序列建模后的结果;
步骤4:将序列建模后的结果经过全连接层后,被送入到一个标准条件随机场中执行字符序列的标签预测,得到中文命名实体识别结果。
2.根据权利要求1所述的结合软词典和汉字字形特征的中文命名实体识别方法,其特征在于,对输入的汉字序列进行软词典嵌入SoftLexicon embedding,包括:将输入的汉字序列中的每个字符ci的所有匹配词分类为四个词集“B、M、E、S”,并用四个切分标签进行标记以保留分割信息;
对于输入的汉字序列={c1,c2,…,cn}中的每个字符,四个集合由以下公式构成:
Figure FDA0003886451640000011
Figure FDA0003886451640000012
Figure FDA0003886451640000013
Figure FDA0003886451640000014
其中,L表示工作中所用到的词汇;wi,k、wj,k、wj,i分别表示ci处在开头位置、中间位置、末尾位置匹配到的词汇;
Figure FDA0003886451640000021
表示任意,
Figure FDA0003886451640000022
表示存在,这两个为数学符号;i、j、k为字符的下标,表示字符在一个汉字序列中的位置;n表示输入的汉字序列中字符的个数;
如果词集为空,则将特殊单词“None”添加到空词集中;
使用每个单词w出现的频率作为权重,利用加权算法获得词集T的加权vs(T)表示:
Figure FDA0003886451640000023
其中,Z=∑W∈B∪M∪E∪Sz(w),ew表示单词嵌入查找表;w表示单词;z(w)表示单词w在统计数据中出现的频率;
将四个词集的表示拼接起来组合成一个固定维度特征,得到软词典嵌入表示es(B,M,E,S),表示为:
es(B,M,E,S)=[vs(B);vs(M);vs(E);vs(S)]。
3.根据权利要求1所述的结合软词典和汉字字形特征的中文命名实体识别方法,其特征在于,对输入的汉字序列进行部首级嵌入radical-level embedding,包括:
使用字形结构部件Structural Components成份作为汉字部首特征输入,将其映射为d维特征向量,然后由改进的TCN网络提取部首特征信息以实现部首级嵌入;所述改进的TCN网络在原TCN网络中引入squeeze-and-inspire压缩和激励注意机制,改进的TCN网络的输出O由下式给出:
Figure FDA0003886451640000031
其中,x表示部首级特征向量输入,
Figure FDA0003886451640000032
是TCN网络的一系列变换,Activation表示激活函数。
4.根据权利要求1所述的结合软词典和汉字字形特征的中文命名实体识别方法,其特征在于,将软词典嵌入表示和部首级嵌入表示进行拼接得到字符表示,包括:使用二元图嵌入来扩充字符,拼接得到字符表示为:
xc←[bc;es(B,M,E,S);rc]
X={x1,x2,…,xn}
其中bc表示二元嵌入查找表,es(B,M,E,S)是软词典嵌入表示,rc是部首级嵌入表示,xc表示代表拼接得到的每个字符的嵌入表示,X表示整个汉字序列的嵌入表示。
5.根据权利要求1所述的结合软词典和汉字字形特征的中文命名实体识别方法,其特征在于,在所得的字符表示上加入门卷积单元以实现文本特征信息的进一步提取,包括:
采用两种不同窗口大小的CNN网络提取文本上下文特征,设置Conv2卷积运算的窗口大小为2以使得所有潜在的字融合到相应的位置,设置Conv1卷积运算的窗口大小和步长设置为1,用以改变输入特征的通道数进而满足两个卷积运算后结果融合条件;
最终的门控卷积块输出Y表示为:
Y=(1-θ)·C1(X)+θ·C2(X)
C1(X)=tanh(W1*X+b1),
C2(X)=tanh(W2*X+b2),
θ=σ(C2(X)).
其中,*代表卷积运算操作;W1,b1,W2,b2分别表示卷积中可训练的卷积核参数以及偏置项参数;σ代表Sigmoid激活函数,θ为模型参数,C1(X)、C2(X)代表两个CNN网络的输出;tanh代表双曲正切激活函数;X代表整个汉字序列的嵌入表示。
6.根据权利要求1所述的结合软词典和汉字字形特征的中文命名实体识别方法,其特征在于,将门控卷积层的输出结果放入序列建模层,对字符之间的依赖关系进行建模,包括:使用单层Bi-LSTM来实现序列建模目的;Bi-LSTM结合了前向LSTM和后向LSTM,首先给出前向LSTM的精确定义:
Figure FDA0003886451640000041
Figure FDA0003886451640000042
ht=ot⊙tanh(ct).
其中,σ代表element-wise sigmoid函数,⊙表示element-wise product;W和b是可训练的参数;it表示输入门的值;ft表示遗忘门的值;ot表示输出门的值;
Figure FDA0003886451640000043
表示临时细胞状态;
Figure FDA0003886451640000044
表示字符输入向量;ht-1、ht分别表示前一时刻、当前时刻隐藏层状态;ct-1、ct分别表示前一时刻、当前时刻细胞状态;
后向LSTM以相同的方式对相反顺序的输入序列进行建模;BiLSTM在第i步串联的隐状态
Figure FDA0003886451640000045
构成了ci的上下文相关表示;其中
Figure FDA0003886451640000046
分别表示前向LSTM、后向LSTM的隐藏层状态。
7.根据权利要求1所述的结合软词典和汉字字形特征的中文命名实体识别方法,其特征在于,标签预测,包括:
对于BiLSTM的输出结果,在经过全连接层后,被送入到一个标准条件随机场CRF中执行字符序列的标签预测,标签序列的概率p(y|s;θ)被定义为:
Figure FDA0003886451640000051
ys表示输入的汉字序列s所有的可能标签序列,
Figure FDA0003886451640000052
Figure FDA0003886451640000053
其中wy′,y和by′,y是(y′,y)标签对的可训练参数,
Figure FDA0003886451640000054
表示wy′,y的转置矩阵,θ代表模型参数;i表示第i个标签;exp表示以自然常数e为底的指数函数;
Figure FDA0003886451640000055
表示累积;
筛选出对于输入序列s拥有最高条件概率的标签序列y*作为最终输出结果:
Figure FDA0003886451640000056
8.一种结合软词典和汉字字形特征的中文命名实体识别装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1至7任一项所述方法的步骤。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN202211245600.5A 2022-10-12 2022-10-12 一种结合软词典和汉字字形特征的中文命名实体识别方法 Pending CN115759090A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211245600.5A CN115759090A (zh) 2022-10-12 2022-10-12 一种结合软词典和汉字字形特征的中文命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211245600.5A CN115759090A (zh) 2022-10-12 2022-10-12 一种结合软词典和汉字字形特征的中文命名实体识别方法

Publications (1)

Publication Number Publication Date
CN115759090A true CN115759090A (zh) 2023-03-07

Family

ID=85351223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211245600.5A Pending CN115759090A (zh) 2022-10-12 2022-10-12 一种结合软词典和汉字字形特征的中文命名实体识别方法

Country Status (1)

Country Link
CN (1) CN115759090A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117077672A (zh) * 2023-07-05 2023-11-17 哈尔滨理工大学 一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117077672A (zh) * 2023-07-05 2023-11-17 哈尔滨理工大学 一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法
CN117077672B (zh) * 2023-07-05 2024-04-26 哈尔滨理工大学 一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法

Similar Documents

Publication Publication Date Title
CN108460013B (zh) 一种基于细粒度词表示模型的序列标注模型及方法
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
US11314939B2 (en) Method and apparatus for performing hierarchiacal entity classification
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN108009148B (zh) 基于深度学习的文本情感分类表示方法
CN110008469B (zh) 一种多层次命名实体识别方法
CN110263325B (zh) 中文分词系统
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN111027595B (zh) 双阶段语义词向量生成方法
CN114818891B (zh) 小样本多标签文本分类模型训练方法及文本分类方法
CN110781290A (zh) 一种长篇章结构化文本摘要提取方法
CN112163089B (zh) 一种融合命名实体识别的高技术文本分类方法及系统
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
Sartakhti et al. Persian language model based on BiLSTM model on COVID-19 corpus
Siddique et al. English to bangla machine translation using recurrent neural network
CN110472245A (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
Thattinaphanich et al. Thai named entity recognition using Bi-LSTM-CRF with word and character representation
CN113094502A (zh) 一种多粒度外卖用户评论情感分析方法
CN115422939A (zh) 一种基于大数据的细粒度商品命名实体识别方法
Luo et al. Recurrent neural networks with mixed hierarchical structures for natural language processing
CN115759090A (zh) 一种结合软词典和汉字字形特征的中文命名实体识别方法
CN116562291A (zh) 一种基于边界检测的中文嵌套命名实体识别方法
Derbentsev et al. Sentiment analysis of electronic social media based on deep learning
Buoy et al. Joint Khmer word segmentation and part-of-speech tagging using deep learning
CN115169429A (zh) 一种轻量化方面级文本情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination