CN117077672A - 一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法 - Google Patents
一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法 Download PDFInfo
- Publication number
- CN117077672A CN117077672A CN202310822927.2A CN202310822927A CN117077672A CN 117077672 A CN117077672 A CN 117077672A CN 202310822927 A CN202310822927 A CN 202310822927A CN 117077672 A CN117077672 A CN 117077672A
- Authority
- CN
- China
- Prior art keywords
- character
- tcn
- representation
- bilstm
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 54
- 230000011218 segmentation Effects 0.000 claims abstract description 13
- 238000013507 mapping Methods 0.000 claims abstract description 7
- 238000004590 computer program Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 4
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 claims description 3
- 230000008569 process Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种基于词汇增强和TCN‑BILSTM模型的中文命名实体识别方法,属于计算机自然语言技术领域。包括S1、将输入语句中的字符映射成字符表示;S2、将语句中的词汇和分词信息拼接到字符表示上,得到词汇增强后的字符表示;S3、使用预训练的BERT模型,获得输入语句中具有上下文表示的字符表示,将具有上下文表示的字符表示与词汇增强后的字符表示做拼接,得到拼接后的字符表示;S4、对拼接后的字符向量表示做特征提取,得到具有上下文信息和长距离语义信息的特征向量表示;S5、将具有上下文信息和长距离语义信息的特征向量表示输入CRF解码模型预测每个字符的实体标签。解决对于多层次语义信息识别率低的问题。
Description
技术领域
本申请涉及一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法,属于计算机自然语言技术领域。
背景技术
中文命名实体识别是一种自然语言处理技术,其目的是在文本中自动识别和提取出具有特定意义的实体,如人名、地名、组织机构名等,相对于英文命名实体识别而言,中文命名实体识别任务的难度更高。如何合理利用中文文本中丰富的语义信息是中文命名实体识别研究的一个基本问题。
随着各种词嵌入(或词向量)方法和预训练语言模型的出现,利用深度学习方法去解决命名实体识别问题成为研究热点,目前常用于命名实体识别领域的深度学习神经网络有:卷积神经网络和循环神经网络以及它们的变体空洞卷积神经网络、长短期记忆网络、双向长短期记忆网络和门控循环单元。后来的研究发现字符级别的表示要好过词级别的表示,目前中文命名实体识别普遍使用字符粒度的输入,从而避免分词错误/分词粒度和命名实体识别粒度不一致限制模型表现的天花板以及词输入OOV(Out-of-Vocabulary)的问题,但是字符的输入会存在缺失了字符在词汇中的语义表达和丢失词边界信息的问题,因此后续出现了很多引入词汇信息来做词汇则强。
虽然双向长短记忆网络在处理命名实体识别中有着不错的效果,但是在处理过长的序列时会存在梯度消失或梯度爆炸,此外双向长短记忆网络的隐藏状态仅能捕捉到当前时刻的语义信息,无法处理多层次的语义信息。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于此,为解决现有技术中对于多层次语义信息识别率低的技术问题,本发明提供一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法,本发明基于词汇增强和长短期记忆的时序卷积模型(TCN-BILSTM)进行中文命名实体识别,在双向长短记忆网络之前引入时序卷积网络来学习到更长距离的依赖关系,使每个输入双向长短记忆网络的信息更加丰富,再通过条件随机场来预测实体标签。
方案一、一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法,包括以下步骤:
S1、使用Word2vec预训练的字符向量查找表将输入语句中的字符映射成字符表示;
S2、将语句中的词汇和分词信息拼接到字符表示上,得到词汇增强后的字符表示;
S21.将所有可能的分词结果按照字符在词汇中的位置存储到BMES四类词集中;
S22.在获取BMES四类词集后,对每个词集中的词进行加权平均,得到每个字符对应的BMES四个词集加权后的向量;
S23.将步骤S1得到的字符表示与S22得到的四个词集加权后的向量表示在特征维度上进行拼接,融合到字符表示上;
S3、使用预训练的BERT模型,获得输入语句中具有上下文表示的字符表示,将具有上下文表示的字符表示与词汇增强后的字符表示做拼接,得到拼接后的字符表示;
S4、构建TCN-BILSTM模块,对拼接后的字符向量表示做特征提取,得到具有上下文信息和长距离语义信息的特征向量表示;
S5、将具有上下文信息和长距离语义信息的特征向量表示输入CRF解码模型预测每个字符的实体标签。
优选的,使用Word2vec预训练的字符向量查找表将输入语句中的字符映射成字符表示的方法是:字符向量查找表是基于中文语料库Gigaword使用Word2vec工具训练的向量集合;对输入的语句,通过字符向量查找表把语句中的每个字符转化为对应的字符表示。
优选的,使用预训练的BERT模型,获得输入语句中具有上下文表示的字符表示,将具有上下文表示的字符表示与词汇增强后的字符表示做拼接,得到拼接后的字符表示的方法是:将语句S={w1,w2,…,wn}输入到BERT模型,获取一组字符表示{m1,m2…mn}与词汇增强后的字符表示进行拼接,得到拼接后的字符表示。
优选的,构建TCN-BILSTM模块,对拼接后的字符向量表示做特征提取,得到具有上下文信息和长距离语义信息的特征向量表示的方法是:
S41.将S3拼接后的字符表示输入到TCN-BILSTM模块中,TCN-BILST模块是由TCN和BILSTM组成;对S3拼接后的字符表示Tn×m={T1,T2…Tn}进行计算;
S42.将TCN的输出作为BiLSTM的输入得到具有上下文信息和长距离语义信息的特征表示Qn×m={Q1,Q2…Qn},其中n为字符个数,m为每个字符的特征维度;BiLSTM由t时刻的输入xt、单元状态Ct、临时单元状态St、隐藏状态ht、遗忘门ft、记忆门it和输出门ot组成,遗忘门有选择地遗忘掉旧信息,记忆门有选择地记忆新信息。
优选的,将具有上下文信息和长距离语义信息的特征向量表示输入CRF解码模型预测每个字符的实体标签的方法是:
S51.将具有上下文信息和长距离语义信息的特征表示Qn×m={Q1,Q2…Qn}输入至全连接分类层对字符表示进行实体标签预测,输出发射矩阵Rn×k,其中k表示字符为各实体标签的预测分数;
S52.为语句中的字符位置设置索引序列X=[x1,x2,…,xn],为各实体标签设置索引序列y=[y1,y2,…,yn];
S53.计算标签序列的得分函数;
S54.对标签序列的得分函数进行归一化处理,得到序列X产生标签序列y的概率分布;
S55.在训练阶段,采用极大条件似然估计最大化对数似然;
S56.在解码阶段,通过最大化预测标签列的分数输出最终的实体标签序列。
方案二、一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别系统,包括:包括字符嵌入模块、词汇增强模块、BERT特征提取模块、TCN-BILSTM模块和CRF解码模块:
所述字符嵌入模块、词汇增强模块、BERT特征提取模块、TCN-BILSTM模块和CRF解码模块依次连接;
所述字符嵌入模块用于获取输入语句中字符表示;
所述词汇增强模块用于将输入语句中词汇信息和分词信息拼接到字符表示上,得到词汇增强后的字符表示;
所述的BERT特征提取模块用于获取输入句子的上下文信息的字符向量,拼接到带有词汇信息的字符表示上;
所述TCN-BILSTM模块包括TCN和BILSTM,用于提取上下文信息和长距离语义信息;
所述解码模块预测每个字符的实体标签。
方案三、一种电子设备,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现方案一所述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法的步骤。
方案四、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现方案一所述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法。
本发明的有益效果如下:本发明设计了TCN-BILSTM模块,由改进的TCN和BiLSTM组成,针对双向长短记忆网络对较长依赖的限制,引入了时序卷积获得更大的感受野,更好的捕获了长距离的依赖关系,同时丰富了内在的信息表示,使模型学习的效果更好。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法流程示意图;
图2为TCN-BILSTM识别框架示意图;
图3为一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别系统结构示意图。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例1、参照图1-图2说明本实施方式,一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别系统,包括以下步骤:
S1、使用Word2vec预训练的字符向量查找表将输入语句中的字符映射成字符表示;
字符向量查找表是基于中文语料库Gigaword使用Word2vec工具训练的向量集合;对输入的语句S={w1,w2,…,wn},通过字符向量查找表把语句中的每个字符转化为对应的字符表示:
其中,ec表示字符嵌入查找表,wi表示输入的第i个语句;
S2、将语句中的词汇和分词信息拼接到字符表示上,得到词汇增强后的字符表示;
S21.将所有可能的分词结果按照字符在词汇中的位置存储到BMES四类词集中;BMES四类词集中B类词集存储的是一个词词首位置的字符,M类词集存储的是一个词中间位置的字符,E类词集存储的是一个词词尾的字符,S类词集存储的是单独一个字符,每个字符得到字符作为B/M/E/S能匹配上的所有词;
因此,每个字符得到该字符作为B/M/E/S所能匹配上的所有词,在引入词边界信息的同时也引入了词汇本身信息。
基于Chinese Treebank 6.0语料库训练得到词汇查找表,在词汇查找表中,对每个字符ci进行搜索,获得输入语句中每个字符对应的所有匹配的词,将匹配的词根据ci在词中的位置存储到BMES四个词集中,构建方法如下式:
其中,L表示词汇查找表,i表示字符在句子中的位置,n表示句子的长度,wjk代表匹配的词,j和k代表词的起始位置和结束位置,当某个字在词汇集合中没有对应时,将该词对应的BMES四类词集填充为NONE;
S22.在获取BMES四类词集后,对每个词集中的词进行加权平均,每个字符对应的BMES四个词集加权后的向量计算公式为:
其中,z(w)表示词汇w在数据集中出现的次数,ew(w)表示词汇w在词向量查找表中对应的表示,P表示BMES中的任意一个词集,vP(ci)代表词集P加权后的向量表示,weight表示对一个词集中所有词求和的权重;
S23.将步骤S1得到的字符表示与S22得到的四个词集加权后的向量表示在特征维度上进行拼接,融合到字符表示上,方法如下:
其中,vB(ci)、vM(ci)、vE(ci)、vS(ci)分别表示词集B中词加权后的向量表示、词集M中词加权后的向量表示、词集E中词加权后的向量表示、词集S中词加权后的向量表示,对输入的句子进行词汇增强,得到句子词汇增强后的字符表示为
S3、使用预训练的BERT模型,获得输入语句中具有上下文表示的字符表示,将具有上下文表示的字符表示与词汇增强后的字符表示做拼接,得到拼接后的字符表示;
将语句S={w1,w2,…,wn}输入到BERT模型,获取一组字符表示{m1,m2…mn}与词汇增强后的字符表示进行拼接,得到拼接后的字符表示如下式:
其中,||表示拼接操作;
S4.构建TCN-BILSTM模块,对拼接后的字符向量表示做特征提取,得到具有上下文信息和长距离语义信息的特征向量表示;
具体的,TCN-BILST模块是由TCN和BILSTM组成。对于长文本数据,TCN-BILSTM模块获取丰富的语义信息,再不丢失上下文信息的同时,弥补BILSTM对长距离序列处理时出现的梯度消失问题。
S41.将S3拼接后的字符表示输入到TCN-BILSTM模块中,TCN-BILST模块是由TCN和BILSTM组成;在TCN中,对对S3拼接后的字符表示Tn×m={T1,T2…Tn}进行计算;其中n为字符个数,m为每个字符的维度,具体计算如下:
si=conv(Ti,Kj),i∈{1,2,...,n}
{s1,s2…sn}=dropout({s1,s2…sn})
{d1,d2…dn}=tanh({s1,s2…sn})
其中,si为对第i个时间卷积计算得到的文本局部特征映射,Ti为该时间步要做卷积操作的字符表示,Kj为第j层的卷积核,{s1,s2,…,sn)为卷积后的结果,为防止{s1,s2,…,sn)过拟合和让网络更加稳定,对其添加dropout和tanh非线性映操作,获得{d1,d2…,dn}。
上述计算描述了一次完整的膨胀因果卷积过程,通过多次膨胀因果卷积,得到TCN模型的输出Dn×m={D1,D2…Dn};
S42.将TCN的输出作为BiLSTM的输入得到具有上下文信息和长距离语义信息的特征表示Qn×m={Q1,Q2…Qn},其中n为字符个数,m为每个字符的特征维度;
BiLSTM由t时刻的输入xt、单元状态Ct、临时单元状态St、隐藏状态ht、遗忘门ft、记忆门it和输出门ot组成,遗忘门有选择地遗忘掉旧信息,记忆门有选择地记忆新信息。
计算过程如下:
ft=σ(Wf·[ht-1,xt]+bf)
it=σ(Wi·[ht-1,xt]+bi)
St=tanh(Ws·[ht-1,xt]+bs)
Ct=ft*Ct-1+it*St
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanh(ct)
其中,σ和tanh表示两种激活函数,Wf、Wi、Ws、Wo和bf、bi、bs、bo指训练权重和偏置参数;
S5.将具有上下文信息和长距离语义信息的特征向量表示输入CRF解码模型预测每个字符的实体标签的方法是:
S51.将具有上下文信息和长距离语义信息的特征表示Qn×m={Q1,Q2…Qn}输入至全连接分类层对字符表示进行实体标签预测,输出发射矩阵Rn×k,其中k表示字符为各实体标签的预测分数;
S52.为语句中的字符位置设置索引序列X=[x1,x2,…,xn],为各实体标签设置索引序列y=[y1,y2,…,yn];
S53.计算标签序列的得分函数;
其中,A为转移概率矩阵,为标签yi转移到标签yi+1的概率,/>为发射矩阵第i个字符为标签yi的预测分数;
S54.对标签序列的得分函数进行归一化处理,得到序列X产生标签序列y的概率分布;
其中,y′为真实的标签序列,YX为所有可能的标签序列;
S55.在训练阶段,采用极大条件似然估计来最大化对数似然ln(P(y|X)),计算过程如下:
其中,P(y|X)表示给定X的条件下y的条件概率分布,y′表示真实的标签序列。
S56.在解码阶段,通过最大化预测标签列的分数来输出最终的实体标签序列,计算过程如下:
式中,X表示字符的索引序列,y′表示一个真实的标签,P(y′|X)用于计算每个y′是X的标签序列的概率值,argmax函数用于选出最大概率值对应的标签序列对应最终的标签序列y*。
实施例2、参照图3说明本实施方式,一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别系统,包括:包括字符嵌入模块、词汇增强模块、BERT特征提取模块、TCN-BILSTM模块和CRF解码模块:
所述字符嵌入模块、词汇增强模块、BERT特征提取模块、TCN-BILSTM模块和CRF解码模块依次连接;
所述字符嵌入模块用于获取输入语句中字符表示;
所述词汇增强模块用于将输入语句中词汇信息和分词信息拼接到字符表示上,得到词汇增强后的字符表示;
所述的BERT特征提取模块用于获取输入句子的上下文信息的字符向量,拼接到带有词汇信息的字符表示上;
所述TCN-BILSTM模块包括TCN和BILSTM,用于提取上下文信息和长距离语义信息;
所述解码模块预测每个字符的实体标签。
对本发明提出的方法进行实验分析:
本发明使用公共数据集Resume,该数据集根据新浪财经网关于上市公司的高级经理人的简历摘要数据,进行筛选过滤和人工标注生成的;该数据集包含4761条样本,8种类别,为人名NAME、学历EDU、地名LOC、机构名ORG、物品PRO、头衔TITLE、国籍CONT和民族RACE。
为了客观的评估本发明提出的方法的性能,本发明使用通用的评价指标。NER任务需要同时确定实体边界以及实体类别。在精确匹配评估中,只有当实体边界以及实体类别同时被精确标出时,实体识别任务才能被认定为成功。基于数据的TP、FP以及FN,可以计算NER任务的准确率,召回率以及F-score用于评估任务优劣。
其中单实体的评价指标如下:
TP(True Positive):NER能正确识别出实体。
FP(False Positive):NER能识别出实体但类或者边界判定出现错误。
FN(False Negative):应该但没有被NER所识别的实体。
NER任务的评价指标准确率(Precision)、召回率(Recall)、F-score使用TP、FP、FN计算,公式如下:
本发明按照具体实施方法中描述的步骤进行实验,所得的测试结果如表1(测试结果对比表)所示,Lattice-LSTM、LR-CNN、SoftLexicon为其他人的中文命名实体识别方法,TCN-BILSTM为本发明结果,结果的度量为准确率(%):
表1测试结果对比表
Models | Precision | Recall | F-score |
Lattice-LSTM | 94.81 | 94.11 | 94.46 |
LR-CNN | 95.37 | 94.84 | 95.11 |
SoftLexicon | 96.08 | 96.13 | 96.11 |
TCN-BILSTM | 96.65 | 96.21 | 96.43 |
本发明的工作原理:
对输入的句子使用Word2vec预训练的字符向量查找表将句中的字符映射成一个字符表示,然后使用已有的SoftLexicon方法做词汇增强,将带有词汇和分词信息的Embedding拼接到字符向量表示上,得到增强字符表示。再对输入的句子使用预训练的BERT模型获得具有上下文表示的字符表示,再与增强的字符向量表示做拼接,得到模型的最终字符嵌入表示,将拼接后的字符嵌入表示送入TCN-BILSTM模块中提取距离和方向信息,最终使用CRF预测输入文本中每个字符的实体标签。
相比于一般的中文命名实体识别方法,本发明设计TCN-BILSTM模块,该模块使用时序卷积网络获取更长依赖的信息,弥补了双向长短记忆网络不足的同时,又可以使双向长短记忆网络学习更丰富的语义特征,本发明比传统的中文命名实体识别方法效果更好。
实施例3、本发明的计算机装置可以是包括有处理器以及存储器等装置,例如包含中央处理器的单片机等。并且,处理器用于执行存储器中存储的计算机程序时实现上述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别系统的步骤。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
实施例4、计算机可读存储介质实施例
本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质,包括但不限于非易失性存储器、易失性存储器、铁电存储器等,计算机可读存储介质上存储有计算机程序,当计算机装置的处理器读取并执行存储器中所存储的计算机程序时,可以实现上述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别系统的步骤。
所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (8)
1.一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法,其特征在于,包括以下步骤:
S1、使用Word2vec预训练的字符向量查找表将输入语句中的字符映射成字符表示;
S2、将语句中的词汇和分词信息拼接到字符表示上,得到词汇增强后的字符表示;
S21.将所有可能的分词结果按照字符在词汇中的位置存储到BMES四类词集中;
S22.在获取BMES四类词集后,对每个词集中的词进行加权平均,得到每个字符对应的BMES四个词集加权后的向量;
S23.将步骤S1得到的字符表示与S22得到的四个词集加权后的向量表示在特征维度上进行拼接,融合到字符表示上;
S3、使用预训练的BERT模型,获得输入语句中具有上下文表示的字符表示,将具有上下文表示的字符表示与词汇增强后的字符表示做拼接,得到拼接后的字符表示;
S4、构建TCN-BILSTM模块,对拼接后的字符向量表示做特征提取,得到具有上下文信息和长距离语义信息的特征向量表示;
S5、将具有上下文信息和长距离语义信息的特征向量表示输入CRF解码模型预测每个字符的实体标签。
2.根据权利要求1所述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法,其特征在于,使用Word2vec预训练的字符向量查找表将输入语句中的字符映射成字符表示的方法是:字符向量查找表是基于中文语料库Gigaword使用Word2vec工具训练的向量集合;对输入的语句,通过字符向量查找表把语句中的每个字符转化为对应的字符表示。
3.根据权利要求2所述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法,其特征在于,使用预训练的BERT模型,获得输入语句中具有上下文表示的字符表示,将具有上下文表示的字符表示与词汇增强后的字符表示做拼接,得到拼接后的字符表示的方法是:将语句S={w1,w2,···,wn}输入到BERT模型,获取一组字符表示{m1,m2···mn}与词汇增强后的字符表示进行拼接,得到拼接后的字符表示。
4.根据权利要求3所述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法,其特征在于,构建TCN-BILSTM模块,对拼接后的字符向量表示做特征提取,得到具有上下文信息和长距离语义信息的特征向量表示的方法是:
S41.将S3拼接后的字符表示输入到TCN-BILSTM模块中,TCN-BILST模块是由TCN和BILSTM组成;对S3拼接后的字符表示Tn×m={T1,T2···Tn}进行计算;
S42.将TCN的输出作为BiLSTM的输入得到具有上下文信息和长距离语义信息的特征表示Qn×m={Q1,Q2···Qn},其中n为字符个数,m为每个字符的特征维度;BiLSTM由t时刻的输入xt、单元状态Ct、临时单元状态St、隐藏状态ht、遗忘门ft、记忆门it和输出门ot组成,遗忘门有选择地遗忘掉旧信息,记忆门有选择地记忆新信息。
5.根据权利要求4所述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法,其特征在于,将具有上下文信息和长距离语义信息的特征向量表示输入CRF解码模型预测每个字符的实体标签的方法是:
S51.将具有上下文信息和长距离语义信息的特征表示Qn×m={Q1,Q2···Qn}输入至全连接分类层对字符表示进行实体标签预测,输出发射矩阵Rn×k,其中k表示字符为各实体标签的预测分数;
S52.为语句中的字符位置设置索引序列X=[x1,x2,···,xn],为各实体标签设置索引序列y=[y1,y2,···,yn];
S53.计算标签序列的得分函数;
S54.对标签序列的得分函数进行归一化处理,得到序列X产生标签序列y的概率分布;
S55.在训练阶段,采用极大条件似然估计最大化对数似然;
S56.在解码阶段,通过最大化预测标签列的分数输出最终的实体标签序列。
6.一种中文命名实体识别系统,其特征在于,用于实现权利要求1-5任一项所述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法的系统,包括:包括字符嵌入模块、词汇增强模块、BERT特征提取模块、TCN-BILSTM模块和CRF解码模块:
所述字符嵌入模块、词汇增强模块、BERT特征提取模块、TCN-BILSTM模块和CRF解码模块依次连接;
所述字符嵌入模块用于获取输入语句中字符表示;
所述词汇增强模块用于将输入语句中词汇信息和分词信息拼接到字符表示上,得到词汇增强后的字符表示;
所述的BERT特征提取模块用于获取输入句子的上下文信息的字符向量,拼接到带有词汇信息的字符表示上;
所述TCN-BILSTM模块包括TCN和BILSTM,用于提取上下文信息和长距离语义信息;
所述解码模块预测每个字符的实体标签。
7.一种电子设备,其特征在于,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现权利要求1-5任一项所述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的一种基于词汇增强和TCN-BILSTM模型的中文命名实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310822927.2A CN117077672B (zh) | 2023-07-05 | 2023-07-05 | 一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310822927.2A CN117077672B (zh) | 2023-07-05 | 2023-07-05 | 一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117077672A true CN117077672A (zh) | 2023-11-17 |
CN117077672B CN117077672B (zh) | 2024-04-26 |
Family
ID=88708688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310822927.2A Active CN117077672B (zh) | 2023-07-05 | 2023-07-05 | 一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117077672B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059188A (zh) * | 2019-04-11 | 2019-07-26 | 四川黑马数码科技有限公司 | 一种基于双向时间卷积网络的中文情感分析方法 |
CN110442860A (zh) * | 2019-07-05 | 2019-11-12 | 大连大学 | 基于时间卷积网络的命名实体识别方法 |
US20200065374A1 (en) * | 2018-08-23 | 2020-02-27 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
CN112927781A (zh) * | 2021-02-10 | 2021-06-08 | 杭州医典智能科技有限公司 | 一种基于自然语言处理和时序卷积网络的抑郁症检测方法 |
CN114169330A (zh) * | 2021-11-24 | 2022-03-11 | 匀熵教育科技(无锡)有限公司 | 融合时序卷积与Transformer编码器的中文命名实体识别方法 |
CN114818717A (zh) * | 2022-05-25 | 2022-07-29 | 华侨大学 | 融合词汇和句法信息的中文命名实体识别方法及系统 |
CN115759090A (zh) * | 2022-10-12 | 2023-03-07 | 南京邮电大学 | 一种结合软词典和汉字字形特征的中文命名实体识别方法 |
CN115906857A (zh) * | 2023-01-09 | 2023-04-04 | 昆明理工大学 | 一种基于词汇增强的中医文本命名实体识别方法 |
-
2023
- 2023-07-05 CN CN202310822927.2A patent/CN117077672B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200065374A1 (en) * | 2018-08-23 | 2020-02-27 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
CN110059188A (zh) * | 2019-04-11 | 2019-07-26 | 四川黑马数码科技有限公司 | 一种基于双向时间卷积网络的中文情感分析方法 |
CN110442860A (zh) * | 2019-07-05 | 2019-11-12 | 大连大学 | 基于时间卷积网络的命名实体识别方法 |
CN112927781A (zh) * | 2021-02-10 | 2021-06-08 | 杭州医典智能科技有限公司 | 一种基于自然语言处理和时序卷积网络的抑郁症检测方法 |
CN114169330A (zh) * | 2021-11-24 | 2022-03-11 | 匀熵教育科技(无锡)有限公司 | 融合时序卷积与Transformer编码器的中文命名实体识别方法 |
CN114818717A (zh) * | 2022-05-25 | 2022-07-29 | 华侨大学 | 融合词汇和句法信息的中文命名实体识别方法及系统 |
CN115759090A (zh) * | 2022-10-12 | 2023-03-07 | 南京邮电大学 | 一种结合软词典和汉字字形特征的中文命名实体识别方法 |
CN115906857A (zh) * | 2023-01-09 | 2023-04-04 | 昆明理工大学 | 一种基于词汇增强的中医文本命名实体识别方法 |
Non-Patent Citations (3)
Title |
---|
CHAO CHE等: "Fast and effective biomedical named entity recognition using temporal convolutional network with conditional random field", MATHEMATICAL BIOSCIENCES AND ENGINEERING, 12 May 2020 (2020-05-12) * |
张曼;夏战国;刘兵;周勇;: "全卷积神经网络的字符级文本分类方法", 计算机工程与应用, no. 05, 31 December 2020 (2020-12-31) * |
林世平;陈璐;陈开志;吴运兵;廖祥文;: "基于时间卷积网络的机器阅读理解", 福州大学学报(自然科学版), no. 03, 30 June 2020 (2020-06-30) * |
Also Published As
Publication number | Publication date |
---|---|
CN117077672B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108664589B (zh) | 基于领域自适应的文本信息提取方法、装置、系统及介质 | |
CN111444723B (zh) | 信息抽取方法、计算机设备和存储介质 | |
CN110263325B (zh) | 中文分词系统 | |
CN113626589B (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN112287069B (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN110457585B (zh) | 负面文本的推送方法、装置、系统及计算机设备 | |
CN111599340A (zh) | 一种多音字读音预测方法、装置及计算机可读存储介质 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN113128203A (zh) | 基于注意力机制的关系抽取方法、系统、设备及存储介质 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其系统 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
WO2021143020A1 (zh) | 不良用语识别方法、装置、电子装置及存储介质 | |
CN116070632A (zh) | 一种非正式文本实体标签识别方法和装置 | |
CN112613293B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN109635289B (zh) | 词条分类方法及审计信息抽取方法 | |
CN116775873A (zh) | 一种多模态对话情感识别方法 | |
CN117077672B (zh) | 一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法 | |
CN115186670A (zh) | 一种基于主动学习的领域命名实体识别方法及系统 | |
CN114842982A (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN115130475A (zh) | 一种可扩展的通用端到端命名实体识别方法 | |
CN111159360B (zh) | 获得讯询问话题分类模型、讯询问话题分类的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |