CN115688784A - 一种融合字与词语特征的中文命名实体识别方法 - Google Patents

一种融合字与词语特征的中文命名实体识别方法 Download PDF

Info

Publication number
CN115688784A
CN115688784A CN202211330887.1A CN202211330887A CN115688784A CN 115688784 A CN115688784 A CN 115688784A CN 202211330887 A CN202211330887 A CN 202211330887A CN 115688784 A CN115688784 A CN 115688784A
Authority
CN
China
Prior art keywords
sequence
sequence vector
model
vector containing
named entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211330887.1A
Other languages
English (en)
Inventor
柴文光
王家圳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202211330887.1A priority Critical patent/CN115688784A/zh
Publication of CN115688784A publication Critical patent/CN115688784A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明公开了一种融合字与词语特征的中文命名实体识别方法,该方法包括:获取数据集并对BERT模型进行特征提取训练,得到含有语义特征的序列向量;根据含有语义特征的序列向量训练BILSTM模型,得到含有上下文特征的序列向量;根据含有上下文特征的序列向量训练FLAT模型,得到预测的标签序列;整合BERT模型、BILSTM模型和FLAT模型,得到中文命名实体识别模型;将待测数据输入中文命名实体识别模型进行识别,得到识别结果。通过使用本发明,能够加强模型对命名实体识别的效果。本发明作为一种融合字与词语特征的中文命名实体识别方法,可广泛应用于中文命名实体识别技术领域。

Description

一种融合字与词语特征的中文命名实体识别方法
技术领域
本发明涉及中文命名实体识别技术领域,尤其涉及一种融合字与词语特征的中文命名实体识别方法。
背景技术
命名实体识别是自然语言处理的基础任务之一,命名实体是一个词或者短语,命名实体识别任务就是将文本中的命名实体定位并分类成预定义识别类别的过程,如识别文本中的人员、地理位置、组织名称、时间和货币等等;命名实体识别在推荐系统、机器翻译、知识图谱和语义搜索等多种自然语言处理的下游任务中起着重要作用。
近年来在中文领域的命名实体识别方法主要可以分为以下三类:基于规则匹配的方法、基于统计机器学习的方法和基于神经网络深度学习的方法;首先早期命名实体识别的实现依赖于规则匹配模版,这种方法虽然不需要带注释的数据,但这类方法主要基于手工制作的语义和句法规则来识别实体,当词典详尽时,基于规则匹配的模型表现得很好,但这种规则匹配模版泛化能力差,更换到其他特定领域又会对识别结果产生很大影响,因此需要对不同领域构建不同的规则,导致效率不高;其次基于统计机器学习的方法识别效果依赖于大量的标注语料的条件限制了该类方法的应用范围扩展和迁移;最后字和词对中文命名实体识别同样重要,只基于其中一种进行建模的话,没法挖掘语句序列中潜藏的上下文信息,且中文字符不存在空格进行分割,在分词的时候出现错误会影响识别效果;另外中文也存在一词多义的情况,许多学者使用的Word2Vec等预训练模型关注的是词或者字符之间的特征,没有考虑到词的上下文语境,仍然无法解决一词多义的问题。
发明内容
为了解决上述技术问题,本发明的目的是提供一种融合字与词语特征的中文命名实体识别方法,能够加强模型对命名实体识别的效果。
本发明所采用的技术方案是:一种融合字与词语特征的中文命名实体识别方法,包括以下步骤:
获取数据集并对BERT模型进行特征提取训练,得到含有语义特征的序列向量;
根据含有语义特征的序列向量训练BILSTM模型,得到含有上下文特征的序列向量;
根据含有上下文特征的序列向量训练FLAT模型,得到预测的标签序列;
整合BERT模型、BILSTM模型和FLAT模型,得到中文命名实体识别模型;
将待测数据输入中文命名实体识别模型进行识别,得到识别结果。
进一步,所述获取数据集并对BERT模型进行特征提取训练,得到含有语义特征的序列向量这一步骤,具体包括:
获取数据集并进行分词与标签标记处理,得到分词文本序列;
随机选取分词文本序列的部分词进行掩码操作;
将掩码后的分词文本序列输入BERT模型中,所述BERT模型包括输入层、编码层和输出层;
利用输入层将掩码后的分词文本序列的词转换成词向量;
基于全局关联权重公式利用编码层对词向量进行特征提取,得到含有语义特征的序列向量。
进一步,所述全局关联权重公式的计算公式,具体如下:
Figure BDA0003913271680000021
上式中,Q表示查询矩阵,K表示键矩阵,V表示值矩阵,dk表示键矩阵的维度。
进一步,所述根据含有语义特征的序列向量训练BILSTM模型,得到含有上下文特征的序列向量这一步骤,具体包括:
将含有语义特征的序列向量输入BILSTM模型中,所述BILSTM模型包括前向LSTM模型和后向LSTM模型;
含有语义特征的序列向量按正向序列依次通过前向LSTM模型,得到前向序列向量;
含有语义特征的序列向量按反向序列依次通过后向LSTM模型,得到后向序列向量;
将前向序列向量与后向序列向量拼接得到含有上下文特征的序列向量。
进一步,所述含有语义特征的序列向量按正向序列依次通过前向LSTM模型,得到前向序列向量这一步骤,具体包括:
含有语义特征的序列向量按正向序列依次通过前向LSTM模型,所述前向LSTM模型包括输入门、遗忘门和输出门;
利用输入门控制含有语义特征的序列向量的输入;
利用遗忘门对输入的含有语义特征的序列向量的权重进行计算,并根据权重选取留存的含有语义特征的序列向量;
利用输出门输出留存的含有语义特征的序列向量,得到前向序列向量。
进一步,所述含有语义特征的序列向量按反向序列依次通过后向LSTM模型,得到后向序列向量这一步骤,具体包括:
含有语义特征的序列向量按反向序列依次通过后向LSTM模型,所述后向LSTM模型包括输入门、遗忘门和输出门;
利用输入门控制含有语义特征的序列向量的输入;
利用遗忘门对输入的含有语义特征的序列向量的权重进行计算,并根据权重选取留存的含有语义特征的序列向量;
利用输出门输出留存的含有语义特征的序列向量,得到后向序列向量。
进一步,所述根据含有上下文特征的序列向量训练FLAT模型,得到预测的标签序列这一步骤,具体包括:
将含有上下文特征的序列向量输入FLAT模型,所述FLAT模型包括编码层、自注意力层和解码层;
利用编码层将含有上下文特征的序列向量的图格子结构转换成平面格子结构,每个平面格子结构由不同长度的字或词组成;
每个字或词添加一个开始位置和结束位置,计算不同字或词之间的相对距离矩阵;
将相对距离矩阵进行拼接后作一个非线性变换,得到相对位置编码;
基于相对位置编码利用自注意力层的变体进行相对跨度位置编码,得到字或词的编码;
利用解码层对字或词的编码进行解码,得到预测的标签序列。
进一步,所述相对位置编码的计算公式,具体如下:
Figure BDA0003913271680000031
上式中,Wr表示可学习的参数,
Figure BDA0003913271680000032
表示concate操作。
进一步,所述相对跨度位置编码的计算公式,具体如下:
Figure BDA0003913271680000033
上式中,
Figure BDA0003913271680000034
都表示可学习的参数。
进一步,还包括中文命名实体识别模型的识别效果检测方法,具体包括:
获取测试集并输入中文命名实体识别模型中,得到识别结果;
将识别结果与真实标签进行匹配,计算精确率、召回率和F1值;
根据精确率、召回率和F1值判断中文命名实体识别模型的识别效果。
本发明方法的有益效果是:本发明首先获取数据集训练BERT模型的特征提取能力,得到含有语义特征的序列向量,提升了语言表征能力和特征提取能力;其次根据含有语义特征的序列向量训练BILSTM模型的上下文特征提取能力,得到含有上下文特征的序列向量,进一步获取丰富的语义信息;然后根据含有上下文特征的序列向量训练FLAT模型,得到预测的标签序列,使得字或词得到更充分更直接的信息交互;最后整合BERT模型、BILSTM模型和FLAT模型,得到中文命名实体识别模型,利用中文命名实体识别模型识别待测数据,加强了命名实体识别的效果,提升了命名实体识别的准确率。
附图说明
图1是本发明一种融合字与词语特征的中文命名实体识别方法的步骤流程图;
图2是本发明具体实施例BERT模型的结构示意图;
图3是本发明具体实施例LSTM模型的结构示意图;
图4是本发明具体实施例BILSTM模型的结构示意图;
图5是本发明具体实施例FLAT模型的结构示意图;
图6是本发明具体实施例中文命名实体识别模型的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1,本发明提供了一种融合字与词语特征的中文命名实体识别方法,该方法包括以下步骤:
S1、获取数据集并对BERT模型进行特征提取训练,得到含有语义特征的序列向量;
S1.1、获取数据集并进行分词与标签标记处理,得到分词文本序列;
具体的,首先获取的数据集包括一份公开的简历数据集Resume,一份自行收集并标注的新闻语料数据集;其次对数据集进行分词处理,并对每一个字或词进行标签标记,得到分词文本序列。
其中,每一个标签包括一个实体边界标签和实体类别标签,数据集的详细信息如下表:
数据集 训练集大小 验证集大小 测试集大小
Resume 3821 463 477
自制的数据集 800 100 100
S1.2、随机选取分词文本序列的部分词进行掩码操作;
S1.3、将掩码后的分词文本序列输入BERT模型中,所述BERT模型包括输入层、编码层和输出层;
具体的,BERT(Bidirectional Encoder Representation from Transformers,基于Transformer的双向编码器表征),该模型是基于多层Transformer双向编码器的预训练语言模型,采用Transformer双向编码器获取文本的特征表示,其模型结构如图2所示,其中,E1,E2,...,EN为输入部分即掩码后的分词文本序列,通过BERT模型的输入层输入,Trm为双向全连接Transformer层,由于Transformer层只采用了Transformer双向编码器中的Encoder结构即编码结构,由多个Encoder结构堆叠而来,故此处定义为编码层,输入部分传入编码层进行特征提取,通过输出层输出T1,T2,...,TN即含有语义特征的序列向量。
S1.4、利用输入层将掩码后的分词文本序列的词转换成词向量;
具体的,由于BERT模型的输入由Position Embedding、Token Embedding和Segment Embedding相加组成,Position Embedding表示位置信息,Token Embedding表示词,Segment Embedding表示段信息;Position Embedding对位置信息进行编码来记录词顺序这一重要特征;Segment Embedding对句子进行编码用以刻画文本的全局语义信息即段信息,故利用输入层将掩码后的分词文本序列的词转换成词向量,得到的词向量含有词、位置信息和段信息。
S1.5、基于全局关联权重公式利用编码层对词向量进行特征提取,得到含有语义特征的序列向量。
具体的,每个Encoder结构包含一个自注意力层,自注意力层帮助编码层在对每个词编码时关注输入句子的其他词,即使得当前节点得到上下文的语义来挖掘词语间的关系,并且利用词与词之间的相互关系来调整每个词的权重,获得每个词新的表示特征,这个新的表示特征反映了该词与其他词之间的相互关系和重要程度,从而得到含有语义特征的序列向量。
其中,自注意力层利用全局关联权重公式进行计算的,不仅兼顾了并行计算能力,也极大地提升了长距离特征的捕捉能力,该计算公式具体如下:
Figure BDA0003913271680000051
上式中,Q表示查询矩阵,K表示键矩阵,V表示值矩阵,dk表示键矩阵的维度。
其中,自注意力层需要从每个编码结构的输入的词向量中生成三个向量,也就是说对于每个词向量,需要创造一个查询向量、一个键向量和一个值向量,这三个向量是通过词嵌入与三个权重矩阵后相乘创建的,这三个向量的主要作用都是有助于计算和理解注意力机制的抽象概念,由于在计算过程中主要运用的矩阵计算,故上述公式表示为查询矩阵、键矩阵和值矩阵。
S2、根据含有语义特征的序列向量训练BILSTM模型,得到含有上下文特征的序列向量;
S2.1、将含有语义特征的序列向量输入BILSTM模型中;
具体的,BILSTM模型(Bi-directional Long Short-Term Memory,双向长短时记忆模型),该模型包括前向LSTM模型和后向LSTM模型,前向LSTM模型和后向LSTM模型均是LSTM模型,由于LSTM是一种前向传播算法,即存在只能保存前面信息这一问题,忽略了未来信息的作用,而对于当前任务中的实体识别来说,序列前值与序列后值也是同等重要的,这关系到实体识别的准确,因此此实施例中使用BILSTM模型进一步从BERT模块的输出中捕获双向上下文语义信息,其模型结构如图4所示,在正向传递信息的同时也会传递逆向信息,接着拼接两个方向学习到的特征作为输出结果,以此提高模型的性能。
其中,LSTM(Long Short-Term Memory,长短时记忆模型),该模型是循环神经网络的变种之一,如图3所示,LSTM模型比传统的RNN多出了存储单元和三个控制门,分别是输入门、遗忘门和输出门,通过增加的三个门结构可以用来控制输入信息的遗忘和记忆,实现了传递有用信息以及丢弃无用信息,增强了LSTM模型获得长距离语义依赖和对历史信息的记忆能力。
S2.2、含有语义特征的序列向量按正向序列依次通过前向LSTM模型,得到前向序列向量;
具体的,含有语义特征的序列向量按正向序列依次通过前向LSTM模型;利用输入门控制含有语义特征的序列向量的输入;利用遗忘门对输入的含有语义特征的序列向量的权重进行计算,并根据权重选取留存的含有语义特征的序列向量;利用输出门输出留存的含有语义特征的序列向量,得到前向序列向量。
其中,输入门、遗忘门和输出门的计算公式,具体如下:
Figure BDA0003913271680000061
上式中,ft表示遗忘门,it表示输入门,ot表示输出门,ct表示t时刻神经元的状态,xt表示t时刻神经元的输入,ht表示t时刻的输出,W和U表示权重矩阵,b表示偏置,σ表示Sigmoid函数,⊙表示按元素乘积,ft为遗忘门,选择要遗忘的信息,有助于捕捉时间序列中短期的依赖关系,it和ot为更新门,选择要记忆的信息,有助于捕捉时间序列中长期的依赖关系,
Figure BDA0003913271680000071
为细胞状态更新;ct和ht为输出的更新。
S2.3、含有语义特征的序列向量按反向序列依次通过后向LSTM模型,得到后向序列向量;
具体的,由于后向LSTM模型与前向LSTM模型都是LSTM模型,只是传播方向相反,故可以根据步骤S2.2中输入门、遗忘门和输出门的计算公式,得到后向序列向量。
S2.4、将前向序列向量与后向序列向量拼接得到含有上下文特征的序列向量。
具体的,BILSTM模型的计算公式如下:
Figure BDA0003913271680000072
上式中,
Figure BDA0003913271680000073
表示前向序列向量,
Figure BDA0003913271680000074
表示后向序列向量,Ht表示含有上下文特征的序列向量。
S3、如图5所示,根据含有上下文特征的序列向量训练FLAT模型,得到预测的标签序列;
具体的,FLAT模型包括编码层、自注意力层和解码层。
S3.1、将含有上下文特征的序列向量输入FLAT模型;
S3.2、利用编码层将含有上下文特征的序列向量的图格子结构转换成平面格子结构,每个平面格子结构由不同长度的字或词组成;
具体的,从含有上下文特征的序列向量中获取Lattice图结构后,利用编码层将其无损展开成平面格子结构Flat-Lattice,每个平面格子结构由不同长度的span组成。
其中,span是字和词的总称,span之间存在三种关系:交叉、包含、分离。
S3.3、每个字或词添加一个开始位置和结束位置,计算不同字或词之间的相对距离矩阵;
具体的,一个span对应一个token、head和tail,token表示一个字或词,head和tail分别表示span中token的第一个和最后一个字符的位置索引,对于字符来说,它的头和尾是一样的,该结构也可以恢复到原始结构,可以先取具有相同头尾的标记来构造字符序列,然后使用其他带有头和尾的token来构建跳跃路径。
对于不同的两个span xi和xj,它们之间存在三种关系:交叉、包含、分离,由它们的首尾决定,相对距离矩阵的计算公式具体如下:
Figure BDA0003913271680000081
上式中,head[i]表示xi的头,tail[i]表示xi的尾,head[j]表示xj的头,tail[j]表示xj的尾,xi,xj表示两个不同长度的span标签,
Figure BDA0003913271680000082
表示xi的head和xj的head之间的距离,
Figure BDA0003913271680000083
表示xi的head和xj的tail之间的距离,
Figure BDA0003913271680000084
表示xi的tail和xj的head之间的距离,
Figure BDA0003913271680000085
表示xi的tail和xj的tail之间的距离。
S3.4、将相对距离矩阵进行拼接后作一个非线性变换,得到相对位置编码;
具体的,相对位置编码的计算公式如下:
Figure BDA0003913271680000086
上式中,Wr表示可学习的参数,
Figure BDA0003913271680000087
表示concat操作,该操作用于连接两个或多个数组,不会改变现有的数组,而仅仅会返回被连接数组的一个副本,如果要进行concat操作的参数是数组,那么添加的是数组中的元素,而不是数组。
其中,Pd的计算公式具体如下:
Figure BDA0003913271680000088
上式中,d表示
Figure BDA0003913271680000089
Figure BDA00039132716800000810
k表示位置编码维度索引。
S3.5、基于相对位置编码利用自注意力层的变体进行相对跨度位置编码,得到字或词的编码;
具体的,相对跨度位置编码的计算公式如下:
Figure BDA00039132716800000811
上式中,
Figure BDA00039132716800000812
都表示可学习的参数。
S3.6、利用解码层对字或词的编码进行解码,得到预测的标签序列。
具体的,解码层采用的是CRF层,CRF层可以为最后预测的标签添加一些约束来保证预测的标签是合法的,在训练数据训练过程中,这些约束可以通过CRF层自动学习到,有了这些约束,标签序列预测中非法序列出现的概率将会大大降低。
S4、整合BERT模型、BILSTM模型和FLAT模型,得到中文命名实体识别模型;
S5、将待测数据输入中文命名实体识别模型进行识别,得到识别结果。
具体的,序列标注里标记法有很多,包括BIO、BIOSE、IOB、BILOU、BMEWO、BMEWO+等,不同标注方法会对模型效果有些许影响,作为本方法优选实施例选用的BIOES标记法,B即Beginning表示某个实体词的开始,I即Inside表示某个实体词的中间,O即Outside表示非实体词,E即End表示某个实体词的结尾,S即Single表示这个实体词仅包含当前这一个字。
如图6所示,将重庆人和药店输入中文命名实体识别模型进行识别,分别对应得到B-LOC、E-LOC、B-LOC、I-LOC、I-LOC和E-LOC,即得到识别结果为“重庆”和“人和药店”两个实体。
进一步作为本方法优选实施例,还包括中文命名实体识别模型的识别效果检测方法,首先获取测试集并输入中文命名实体识别模型中,得到包括实体边界和实体类型的识别结果;然后将识别结果与真实标签进行匹配,计算精确率、召回率和F1值;最后根据精确率、召回率和F1值判断中文命名实体识别模型的识别效果。
其中,精确率、召回率和F1值的计算公式分别如下:
Figure BDA0003913271680000091
Figure BDA0003913271680000092
Figure BDA0003913271680000093
上式中,Pr ecision表示精确率,Re call表示召回率,F-score表示F1值;TP表示真阳性,即实体的边界和类型被完全正确识别出来;FP表示假阳性,即实体没有被完全正确识别出来;FN表示假阴性,即实体没有被识别出来;精确率衡量的是模型识别正确识别实体的的能力,召回率衡量的是模型识别所有实体的能力,F1值是精确率和召回率的调和平均值。
进一步作为本方法优选实施例,还公开了对CRF模型、BILSTM模型、BILSTM-CRF模型、FLAT模型和BERT-BILSTM-FLAT模型的命名识别效果进行测试的实验,首先使用Pytorch分别搭建CRF模型、BILSTM模型、BILSTM-CRF模型、FLAT模型和BERT-BILSTM-FLAT模型;然后利用步骤S1.1中的Resume数据集的训练集对实验中各个模型进行训练;再然后利用Resume数据集的验证集对实验中训练后的模型进行验证,得到各自的最终模型;最后利用测试集对各自模型进行测试,计算各自模型的精确率、召回率和F1值;其计算结果如下表所示:
模型 P R F1
CRF 93.25 91.38 92.00
BILSTM 87.56 92.62 89.79
BILSTM-CRF 92.81 94.47 93.60
FLAT 94.06 95.32 94.69
BERT-BILSTM-FLAT 95.97 97.12 96.55
由上表可知,利用本方法得到的BERT-BILSTM-FLAT模型在Resume数据集上的命名实体识别效果均优于其它模型,即使与最好的FLAT模型相比较,其实体识别的F1值上也提高了1.86个百分点。
同理,根据上述实验方法使用步骤S1.1中的自行收集并标注的新闻语料数据集,即自制的数据集,对各个模型进行测试,计算各自模型的精确率、召回率和F1值;其计算结果如下表所示:
模型 P R F1
CRF 91.05 89.53 90.28
BILSTM 89.99 87.93 88.89
BILSTM-CRF 90.52 89.44 89.97
FLAT 88.98 92.37 90.64
BERT-BILSTM-FLAT 93.08 94.06 92.11
由上表可知,利用本方法得到的BERT-BILSTM-FLAT模型在新闻语料数据集上的命名实体识别效果均优于其它模型,即使与最好的FLAT模型相比较,其实体识别的F1值上也提高了1.47个百分点。
综上,无论是使用已公开的数据集还是自制的数据集,利用本方法构建的BERT-BILSTM-FLAT模型的命名实体识别效果均优于其它模型。
本发明的具体有益效果包括:
1)本模型采取了融合了字与词特征的方法,使得模型可以获取文本中更多丰富的语义信息,提了命名实体的识别效果。
2)使用BERT编码器提取文本特征,很好地解决了传统的word2vec等方法拥有的一词多义等问题。
3)本模型使用组合模型,对比单一的模型具有更多的优点,提升了命名实体识别的准确率。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种融合字与词语特征的中文命名实体识别方法,其特征在于,包括以下步骤:
获取数据集并对BERT模型进行特征提取训练,得到含有语义特征的序列向量;
根据含有语义特征的序列向量训练BILSTM模型,得到含有上下文特征的序列向量;
根据含有上下文特征的序列向量训练FLAT模型,得到预测的标签序列;
整合BERT模型、BILSTM模型和FLAT模型,得到中文命名实体识别模型;
将待测数据输入中文命名实体识别模型进行识别,得到识别结果。
2.根据权利要求1所述一种融合字与词语特征的中文命名实体识别方法,其特征在于,所述获取数据集并对BERT模型进行特征提取训练,得到含有语义特征的序列向量这一步骤,具体包括:
获取数据集并进行分词与标签标记处理,得到分词文本序列;
随机选取分词文本序列的部分词进行掩码操作;
将掩码后的分词文本序列输入BERT模型中,所述BERT模型包括输入层、编码层和输出层;
利用输入层将掩码后的分词文本序列的词转换成词向量;
基于全局关联权重公式利用编码层对词向量进行特征提取,得到含有语义特征的序列向量。
3.根据权利要求2所述一种融合字与词语特征的中文命名实体识别方法,其特征在于,所述全局关联权重公式的计算公式,具体如下:
Figure FDA0003913271670000011
上式中,Q表示查询矩阵,K表示键矩阵,V表示值矩阵,dk表示键矩阵的维度。
4.根据权利要求1所述一种融合字与词语特征的中文命名实体识别方法,其特征在于,所述根据含有语义特征的序列向量训练BILSTM模型,得到含有上下文特征的序列向量这一步骤,具体包括:
将含有语义特征的序列向量输入BILSTM模型中,所述BILSTM模型包括前向LSTM模型和后向LSTM模型;
含有语义特征的序列向量按正向序列依次通过前向LSTM模型,得到前向序列向量;
含有语义特征的序列向量按反向序列依次通过后向LSTM模型,得到后向序列向量;
将前向序列向量与后向序列向量拼接得到含有上下文特征的序列向量。
5.根据权利要求4所述一种融合字与词语特征的中文命名实体识别方法,其特征在于,所述含有语义特征的序列向量按正向序列依次通过前向LSTM模型,得到前向序列向量这一步骤,具体包括:
含有语义特征的序列向量按正向序列依次通过前向LSTM模型,所述前向LSTM模型包括输入门、遗忘门和输出门;
利用输入门控制含有语义特征的序列向量的输入;
利用遗忘门对输入的含有语义特征的序列向量的权重进行计算,并根据权重选取留存的含有语义特征的序列向量;
利用输出门输出留存的含有语义特征的序列向量,得到前向序列向量。
6.根据权利要求4所述一种融合字与词语特征的中文命名实体识别方法,其特征在于,所述含有语义特征的序列向量按反向序列依次通过后向LSTM模型,得到后向序列向量这一步骤,具体包括:
含有语义特征的序列向量按反向序列依次通过后向LSTM模型,所述后向LSTM模型包括输入门、遗忘门和输出门;
利用输入门控制含有语义特征的序列向量的输入;
利用遗忘门对输入的含有语义特征的序列向量的权重进行计算,并根据权重选取留存的含有语义特征的序列向量;
利用输出门输出留存的含有语义特征的序列向量,得到后向序列向量。
7.根据权利要求1所述一种融合字与词语特征的中文命名实体识别方法,其特征在于,所述根据含有上下文特征的序列向量训练FLAT模型,得到预测的标签序列这一步骤,具体包括:
将含有上下文特征的序列向量输入FLAT模型,所述FLAT模型包括编码层、自注意力层和解码层;
利用编码层将含有上下文特征的序列向量的图格子结构转换成平面格子结构,每个平面格子结构由不同长度的字或词组成;
每个字或词添加一个开始位置和结束位置,计算不同字或词之间的相对距离矩阵;
将相对距离矩阵进行拼接后作一个非线性变换,得到相对位置编码;
基于相对位置编码利用自注意力层的变体进行相对跨度位置编码,得到字或词的编码;
利用解码层对字或词的编码进行解码,得到预测的标签序列。
8.根据权利要求7所述一种融合字与词语特征的中文命名实体识别方法,其特征在于,所述相对位置编码的计算公式,具体如下:
Figure FDA0003913271670000031
上式中,Wr表示可学习的参数,
Figure FDA0003913271670000032
表示concate操作。
9.根据权利要求7所述一种融合字与词语特征的中文命名实体识别方法,其特征在于,所述相对跨度位置编码的计算公式,具体如下:
Figure FDA0003913271670000033
上式中,
Figure FDA0003913271670000034
都表示可学习的参数。
10.根据权利要求1所述一种融合字与词语特征的中文命名实体识别方法,其特征在于,还包括中文命名实体识别模型的识别效果检测方法,具体包括:
获取测试集并输入中文命名实体识别模型中,得到识别结果;
将识别结果与真实标签进行匹配,计算精确率、召回率和F1值;
根据精确率、召回率和F1值判断中文命名实体识别模型的识别效果。
CN202211330887.1A 2022-10-28 2022-10-28 一种融合字与词语特征的中文命名实体识别方法 Pending CN115688784A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211330887.1A CN115688784A (zh) 2022-10-28 2022-10-28 一种融合字与词语特征的中文命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211330887.1A CN115688784A (zh) 2022-10-28 2022-10-28 一种融合字与词语特征的中文命名实体识别方法

Publications (1)

Publication Number Publication Date
CN115688784A true CN115688784A (zh) 2023-02-03

Family

ID=85046375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211330887.1A Pending CN115688784A (zh) 2022-10-28 2022-10-28 一种融合字与词语特征的中文命名实体识别方法

Country Status (1)

Country Link
CN (1) CN115688784A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116050418A (zh) * 2023-03-02 2023-05-02 浙江工业大学 基于融合多层语义特征的命名实体识别方法、设备和介质
CN116484848A (zh) * 2023-03-17 2023-07-25 北京深维智讯科技有限公司 一种基于nlp的文本实体识别方法
CN117113996A (zh) * 2023-06-29 2023-11-24 四川省农业科学院农业信息与农村经济研究所 用于茶叶语料文本处理的命名实体识别方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116050418A (zh) * 2023-03-02 2023-05-02 浙江工业大学 基于融合多层语义特征的命名实体识别方法、设备和介质
CN116050418B (zh) * 2023-03-02 2023-10-31 浙江工业大学 基于融合多层语义特征的命名实体识别方法、设备和介质
CN116484848A (zh) * 2023-03-17 2023-07-25 北京深维智讯科技有限公司 一种基于nlp的文本实体识别方法
CN116484848B (zh) * 2023-03-17 2024-03-29 北京深维智讯科技有限公司 一种基于nlp的文本实体识别方法
CN117113996A (zh) * 2023-06-29 2023-11-24 四川省农业科学院农业信息与农村经济研究所 用于茶叶语料文本处理的命名实体识别方法及装置

Similar Documents

Publication Publication Date Title
CN112801010B (zh) 一种针对实际ocr场景下的视觉富文档信息抽取方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN113010693A (zh) 融合指针生成网络的知识图谱智能问答方法
CN113468888A (zh) 基于神经网络的实体关系联合抽取方法与装置
CN115688784A (zh) 一种融合字与词语特征的中文命名实体识别方法
CN111563166A (zh) 一种针对数学问题分类的预训练模型方法
CN115081437B (zh) 基于语言学特征对比学习的机器生成文本检测方法及系统
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN113032568A (zh) 一种基于bert+bilstm+crf并融合句型分析的查询意图识别方法
CN112766507B (zh) 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN113190656A (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN113743099A (zh) 基于自注意力机制方面术语提取系统、方法、介质、终端
CN116304748A (zh) 一种文本相似度计算方法、系统、设备及介质
CN116127090A (zh) 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114564950A (zh) 一种结合字词序列的电力中文命名实体识别方法
CN114154504A (zh) 一种基于多信息增强的中文命名实体识别算法
CN117171333A (zh) 一种电力文件问答式智能检索方法及系统
CN115982338B (zh) 一种基于查询路径排序的领域知识图谱问答方法及系统
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
CN115934883A (zh) 一种基于语义增强的多特征融合的实体关系联合抽取方法
Gu et al. Named entity recognition in judicial field based on BERT-BiLSTM-CRF model
CN115994220A (zh) 一种基于语义挖掘的接触网文本数据缺陷识别方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination