CN113743119A - 中文命名实体识别模块、方法、装置及电子设备 - Google Patents
中文命名实体识别模块、方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113743119A CN113743119A CN202110892193.6A CN202110892193A CN113743119A CN 113743119 A CN113743119 A CN 113743119A CN 202110892193 A CN202110892193 A CN 202110892193A CN 113743119 A CN113743119 A CN 113743119A
- Authority
- CN
- China
- Prior art keywords
- sequence
- model
- layer
- information
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 47
- 239000011159 matrix material Substances 0.000 claims abstract description 22
- 230000007704 transition Effects 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 19
- 230000007246 mechanism Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000002441 reversible effect Effects 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种中文命名实体识别模型、方法、装置及电子设备。包括:ALBERT层,通过ALBERT预训练模型获取字向量标记序列;BiLSTM层,用于将接收到的字向量标记序列通过BiLSTM模型输出样本的上下文特征信息,并学习上下文特征信息得到特征权重;自注意力层,用于接收BiLSTM层输出的特征权重,明确学习句子中任意两个字符之间的依赖关系,寻找序列内部联系,并输出得分序列;CRF层,其与自注意力层连接,用于接收自注意力层输出的得分序列,利用状态转移矩阵和相邻信息,并进行标签解码获得一个全局最优序列。该中文命名实体识别模块改善了现有技术中无法在不增加模型参数和训练时间的前提下,提高中文命名实体识别模型识别效果的问题。
Description
技术领域
本发明涉及计算机技术领域,尤其是涉及一种中文命名实体识别模块、方法、装置及电子设备。
背景技术
现阶段中文命名实体识别模型中BERT BiLSTM-CRF是识别效果最好的模型,但是该模型存在着模型参数量大,训练时间长的缺点。针对这个问题,研究者提出了ALBERTBiLSTM-CRF模型,ALBERT BiLSTM-CRF 模型有效削减了模型训练的参数和训练的时间,但是代价是模型的识别性能有所降低。
发明内容
本发明的目的在于提供一种中文命名实体识别模块、方法、装置及电子设备,该中文命名实体识别模块能够解决现有技术中无法在不增加模型参数和训练时间的前提下,提高中文命名实体识别模型识别效果的问题。
为了实现上述目的,本发明提供如下技术方案:
一种中文命名实体识别模型,包括:
ALBERT层,用于获取样本预处理文本数据信息,根据样本预处理文本数据信息得到字向量标记序列;
BiLSTM层,其与所述ALBERT层连接,用于根据所述字向量标记序列得到样本的上下文特征信息,并学习上下文特征信息得到特征权重;
自注意力层,其与所述BiLSTM层连接,用于接收所述BiLSTM层输出的特征权重,明确学习句子中任意两个字符之间的依赖关系,寻找序列内部联系,并输出得分序列;
CRF层,其与所述自注意力层连接,用于接收所述自注意力层输出的得分序列,利用状态转移矩阵和相邻信息,并进行标签解码获得一个全局优序列。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步地,所述BiLSTM层具体用于:
标记模块,用于对所述样本预处理文本数据信息进行命名实体标记,并在样本预处理文本数据信息的句首和句尾分别插入CLS标记和SEP标记,得到带实体标记的样本预处理文本向量信息;
处理模块,其与所述标记模块连接,对带实体标记的所述样本预处理文本向量信息的语序信息进行编码处理,得到带实体标记和语序标记的样本向量信息;
训练模块,其与所述处理模块连接,根据所述带实体标记和语序标记的样本向量数据信息对ALBERT模型进行训练,当ALBERT模型损失函数稳定收敛时,得到ALBERT预训练模型,所述ALBERT预训练模型用于根据样本预处理文本数据信息得到字向量标记序列。
进一步地,所述自注意力层包括多头注意力机制,多头注意力机制的每个头用于分别独立计算注意力矩阵,将每个头的计算结果拼接,用于多维度捕捉样本的上下文特征信息。
一种中文命名实体识别方法,所述方法具体包括:
S101,通过ALBERT层获取样本预处理文本数据信息,根据样本预处理文本数据信息得到字向量标记序列;
S102,通过BiLSTM层根据所述字向量标记序列得到样本的上下文特征信息,并学习上下文特征信息得到特征权重;
S103,通过自注意力层接收所述BiLSTM层输出的特征权重,明确学习句子中任意两个字符之间的依赖关系,寻找序列内部联系,并输出得分序列;
S104,通过CRF层接收所述自注意力层输出的得分序列,利用状态转移矩阵和相邻信息,并进行标签解码获得一个全局优序列。
进一步地,所述S101中的ALBERT预训练模型具体包括:
S1011,获取样本预处理文本数据信息,通过BIOE标记对样本预处理文本数据信息进行命名实体标记,并在样本预处理文本数据信息的句首和句尾分别插入CLS标记和SEP标记,得到带实体标记的样本预处理文本向量信息;
S1012,对带实体标记的所述样本预处理文本向量信息的语序信息进行编码处理,得到带实体标记和语序标记的样本向量信息;
S1013,根据所述带实体标记和语序标记的样本向量数据信息对 ALBERT模型进行训练,当ALBERT模型损失函数稳定收敛时,得到 ALBERT预训练模型,所述ALBERT预训练模型用于根据样本预处理文本数据信息得到字向量标记序列。
进一步地,所述S102中的BiLSTM模型具体包括:
S1021,通过BiLSTM层接收所述字向量标记序列中各个字的字向量,并根据所述中各个字的字向量提取全局特征;
S1022,通过BiLSTM网络,得到正向LSTM的隐含输出序列及反向 LSTM的隐含输出序列;
S1023,将两组隐含序列按位置拼接获得完整的隐含序列,输出带语序标签的样本的上下文特征信息,得到训练好的BiLSTM模型,所述BiLSTM 模型用于学习上下文特征信息得到特征权重。
进一步地,所述S103具体包括:
S1031,通过多头注意力机制的每个头用于分别独立计算注意力矩阵,将每个头的计算结果拼接,多维度捕捉样本的上下文特征信息。
一种中文命名实体识别装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如中文命名实体识别方法的步骤。
一种电子设备,所述电子设备上存储有信息传递的实现程序,所述程序被处理器执行时实现如中文命名实体识别方法的步骤。
本发明具有如下优点:
本发明中的中文命名实体识别模型,通过ALBERT层获取样本预处理文本数据信息,根据样本预处理文本数据信息得到字向量标记序列,并利用文本内部关系提取文本特征信息;通过BiLSTM层根据所述字向量标记序列得到样本的上下文特征信息,并学习上下文特征信息得到特征权重;通过自注意力层接收所述BiLSTM层输出的特征权重,明确学习句子中任意两个字符之间的依赖关系,寻找序列内部联系,并输出得分序列;通过CRF 层接收所述自注意力层输出的得分序列,利用状态转移矩阵和相邻信息,并进行标签解码获得一个全局优序列;使得模型识别的效果好,提高中文实体识别性能。比BERT BiLSTM-CRF模型的训练时间短,且模型整体结构简单,适用于多领域中文命名实体识别任务。解决了现有技术中无法在不增加模型参数和训练时间的前提下,提高中文命名实体识别模型识别效果的问题。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中中文命名实体识别模型的原理图;
图2为本发明实施例中中文命名实体识别方法的流程图;
图3为本发明实施例中S101的具体流程图;
图4为本发明实施例中S102的具体流程图;
图5为本发明实施例中S103的具体流程图;
图6为本发明实施例中Transformer编码单元示意图;
图7为本发明实施例中LSTM单元结构示意图;
图8为本发明实施例中自注意力机制示意图;
图9为本发明实施例中数据集实体个数统计示意图;
图10为本发明实施例中实验环境配置示意图;
图11为本发明实施例中损失函数变化曲线示意图;
图12为本发明实施例中精确率变化曲线示意图;
图13为本发明实施例中各模型实体识别效果示意图;
图14为本发明实施例中模型实体识别效果。
ALBERT层10,BiLSTM层20,自注意力层30,CRF层40。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
命名实体识别(Named Entity Recognition,NER)是指从数据源中获取某领域中有特定意义的实体的任务。作为自动问答、知识图谱构建、信息检索等自然语言处理(Natural Language Processing,NLP)任务的基础性工作,如何提升NER的指标是现阶段研究的热点问题。特别是在数字化的时代背景下,各行各业都开始向以数据为基础的云服务转型,数据中蕴含的信息得到了空前的重视。因此,作为获取信息的重要手段,命名实体识别的研究对行业数字化推进具有重大意义。
如图1所示,一种中文命名实体识别模型,包括:
ALBERT层10,用于获取样本预处理文本数据信息,根据样本预处理文本数据信息得到字向量标记序列,并利用文本内部关系提取文本特征信息;
BiLSTM层20,其与所述ALBERT层10连接,用于根据所述字向量标记序列得到样本的上下文特征信息,并学习上下文特征信息得到特征权重;
自注意力层30,其与所述BiLSTM层20连接,用于接收所述BiLSTM 层20输出的特征权重,明确学习句子中任意两个字符之间的依赖关系,寻找序列内部联系,并输出得分序列;考虑“自注意力机制”是在向量层面寻找最优的序列,输入和输出的都是向量,将自注意力层设置在BiLSTM 和CRF之间最为合适。
CRF层40,其与所述自注意力层30连接,用于接收所述自注意力层 30输出的得分序列,利用状态转移矩阵和相邻信息,并进行标签解码获得一个全局优序列。
将自注意力层30输出结果传入CRF层40,CRF层40可以通过考虑标签序列的全局信息并将约束添加标记到最后预测结果中的方式学习上下文信息,组合标签序列的全局概率和输出层结果,并预测具有最高概率的标签序列。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步地,所述中文命名实体识别模型包括:
标记模块,所述标记模块对所述样本预处理文本数据信息进行命名实体标记,并在样本预处理文本数据信息的句首和句尾分别插入CLS标记和 SEP标记,得到带实体标记的样本预处理文本向量信息;
处理模块,其与所述标记模块连接,对带实体标记的所述样本预处理文本向量信息的语序信息进行编码处理,得到带实体标记和语序标记的样本向量信息;
训练模块,其与所述处理模块连接,根据所述带实体标记和语序标记的样本向量数据信息对ALBERT模型进行训练,当ALBERT模型损失函数稳定收敛时,得到ALBERT预训练模型。
和NLP中其他的语言模型一样,ALBERT主要作用就是计算语言序列的所有的可能概率P(S)。
ALBERT模型在减少模型训练参数量和训练时间的同时基本保持了模型性能。它和BERT一样都采用了Transformer作为编码器,Transformer编码单元主要是运用注意力机制来获得序列内部的关系权重,进而提取文本的重要特征。
如图6所示,ALBERT模型主要在以下三个方面对BERT模型进行改进:
(1)对嵌入的因式分解
BERT的参数量复杂度为O(V×H),其中V是总参数量的词汇表长度, H是每个词嵌入隐藏层大小。ALBERT的改进思想是,因为融合了上下文信息,隐藏层包含的信息会多于词汇表,则理论上有H>>E。ALBERT对字向量参数进行因式分解,将其分解成2个更小的矩阵,参数量的复杂度改变如式(2):
O(V×H)→O(V×E+E×H)(2)
(2)跨层参数共享
Transformer的跨层共享参数可以分为共享所有参数、只共享FFN相关参数和只共享attention相关参数3种模式。ALBERT选择了共享attention 和FFN的相关参数,即把每个attention的参数共享给每个注意力头。从结果上看,跨层参数共享可以很有效地压缩参数总量,但副作用就是在模型的性能有了明显的下滑。
(3)句间连贯性损失
在BERT中除了使用MLM loss以外,还使用了NSP损失,但是后续的研究发现NSP将主题预测和连贯性预测合并在一起,预测的内容和MLM loss有很多重叠,所以添加NSP损失并没有使得效果更好。ALBER对下一句预测任务进行改进,方式是正样本和选择两个同文档中顺序相连的句子,负样本则是正样本相同的两个句子调换顺序,这只需要对句子之间的关系进行推理,提高预测效率。
进一步地,所述BiLSTM层20将所述字向量标记序列中各个字的字向量作为网络的各个时间步输入到BiLSTM层20,提取全局特征;
所述BiLSTM层20包括BiLSTM网络,用于得到正向LSTM的隐含输出序列及反向LSTM的隐含输出序列并将两组隐含序列按位置拼接获得完整的隐含序列输出带语序标签的样本的上下文特征信息,得到训练好的BiLSTM模型。
长短期记忆神经网(LSTM)是一种特定的循环神经网络(RNN),其克服了传统RNN模型的消失和爆炸梯度问题。通过专门设计的LSTM的栅格结构(如图7),模型可以选择性地保存上下文信息。LSTM的主要由遗忘门、输入门和输出门3种门控单元来控制输入输出。
it=σ(Wi·[ht-1,xt]+bi) (3)
ft=σ(Wfhht-1+Wfxxt+bf) (4)
ot=σ(Wo·[ht-1,xt]+bc) (5)
从LSTM的结构可以发现,单项的LSTM仅考虑了过去的信息,而忽略未来的信息。为了有效地使用上下文信息,利用前向和后向LSTM结合的BiLSTM,分别获取两个单独的隐藏状态:然后通过连接这两个隐藏状态来形成时间t的最终输出:
进一步地,所述自注意力层30包括多头注意力机制,多头注意力机制的每个头用于分别独立计算注意力矩阵,将每个头的计算结果拼接,用于多维度捕捉样本的上下文特征信息。
信息经过BiLSTM层编码成的隐向量具有相同的权重,因此进一步的特征区分很有必要。引入“自注意力机制”来弥补模型的准确性损失,自注意力只在序列内部完成注意力计算,寻找序列内部联系。
如图8所示,给定H作为BiLSTM层的输出,注意力机制首先将矩阵 H投影到矩阵:Q,K和V,并行计算注意力矩阵,最后通过并联头部产生的所有矩阵均匀,得出最终值Z。具体到每个词的重要程度,使用SoftMax 对score=Q·K处理得到,如式(10):
使用的多头注意力机制就是分别让每个头独立计算注意力矩阵,最终结果就是将各个头的结果拼接,能多维度捕捉文本上下文特征。
headi=Attention(QWi q,KWi k,VWi v) (11)
Multi(Q,W,V)= Concat(headi,...,headh)Wo (12)
条件随机场(CRF)是使用机器学习处理NER的一种常用算法。CRF 层可以通过考虑标签序列的全局信息并将约束添加标记到最后预测结果中的方式学习上下文信息,组合标签序列的全局概率和输出层结果,并预测具有最高概率的标签序列。对于给定句子,即输入序列X=(x1,x2,...,xn)和相对应的输出标签序列Y=(y1,y2,...,yn),定义CRF评估分数为:
其中A和P分别是转移得分矩阵和输出得分矩阵。Ayi,yi+1表示从标签i 到标签i+1的转移分数。Pi,yi表示第i个中文字符的输出分数yi。
用Softmax函数归一化所有可能的序列之后,所产生的输出序列的概率 p(y|x)可如式(14)表示:
预测时,通过等式输出具有最高概率的一组序列:
使用由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库——北大中文《人民日报》199801-199806数据集。该数据集包含地名(LOC)、人名(PER)与组织名(ORG)三类实体。以约3:1 的比例划分训练集和测试集,具体实体个数统计如图9所示。
数据集使用BIOE模式标记,即将实体的首个字符标记为“B-(实体名称)”,末尾字符标记为“E-(实体名称)”,中间字符全部标记为“I- (实体名称)”,其他不相关字符标记为O。
评价标准:
采用的NER评价标准主要包括精确率(P)、召回率(R)和F1值,并定义TP为模型正确识别到相关实体的样本数,FP为模型将非相关实体误识别为相关实体的样本数,FN为模型未识别到其中所包含的相关实体的样本数。具体如公式(17~19):
实验环境与参数设置:
进行实验时所采用的环境如图10所示。
为更好对比研究模型性能,实验的参数统一做如下设置:单句最大长度限制128个字,LSTM隐藏层维度为312,层数为2,dropout为0.1,使用Adam优化器,训练学习率1e-5,数据集batch size为32,epochs为4。
实验结果与分析
为验证提出模型的有效性,在上述实验样本集和参数设置基础上,共设置了3个对比实验,分别是ALBERT BiLSTM-Self-Attention-CRF、 ALBERT和BiLSTM-CRF、ALBERT CRF。
损失函数在模型的训练中起是一个关键角色。模型的训练过程就是最小化损失函数,减少预测的误差,寻找最优解的过程。一定程度上来说,模型的损失函数越小,模型的预测能力越好;损失函数收敛的越快,模型所需要训练的程度越高;精确率越高,模型就越优。为了分析模型在训练过程中损失函数和精确率随着训练程度的变化情况,每隔70个数据条选取 1个节点,统计分析总共48个节点的损失函数和精确率。三个模型损失函数变化曲线如图11所示,精确率变化曲线如图12所示。
综合图11、图12,对比个模型的损失函数曲线和精确率曲线可知,训练达到一定的阶段后,ALBERT BiLSTM-Self-Attention-CRF模型的损失函数小于ALBERT BiLSTM-CRF和ALBERT CRF模型,精确率大于后两个模型。由此可以看出,融合“自注意力机制”后,模型性能确有提升。但是,可以发现模型收敛速度的快慢顺序是ALBERT CRF、ALBERT BiLSTM-CRF、ALBERT BiLSTM-Self-Attention-CRF。模型层数的增加收敛速度变慢,增加自注意力机制后模型收敛的速度下降,造成的结果是需要更多的训练来使模型达到最优性能。
(1)ALBERT BiLSTM-CRF比ALBERT CRF模型精确率P高出0.5%、召回率R高出1.62%,F1值高出1.06%。可见,加入BiLSTM层能够更好地利用上下文信息,提高模型的识别性能。
(2)ALBERT BiLSTM-Self-Attention-CRF模型相比于ALBERT BiLSTM-CRF模型,精确率P增加了1.20%、召回率R增加了0.49%,F1值增加了0.84%。由此可知,提出的ALBERTBiLSTM-Self-Attention-CRF和 ALBERT BiLSTM-CRF相比,融合了自注意力层能多维度捕捉文本上下文特征的特点,进一步改善了模型的性能。
此外,还将ALBERT BiLSTM-Self-Attention-CRF模型和基于BERT预训练语言模型的BERT BiLSTM-CRF和BERT CRF做了对比实验。实验的结果如图13所示:
由图14可得,提出的模型相比基于BERT的两个模型性能精确率、召回率、F1值均有所提升,实验过程中就可以发现BERT的训练时间远比 ALBERT要长,占用的内存也要大,ALBERT BiLSTM-Self-Attention-CRF 模型,在没有大量增加模型训练时间的前提下提升了模型抽取的性能。
在ALBERT、BiLSTM-CRF模型的基础上,融合“自注意力机制”能采集上下文相关语义信息的优点,提出ALBERT;
BiLSTM-Self-Attention-CRF模型。该模型结合了ALBERT训练时间短与BiLSTM-CRF模型识别中文优势的同时,还融合了自注意力层能多维度捕捉文本上下文特征的特点,进一步改善了中文NER的性能。实验结果表明,训练达到一定的阶段后,模型的损失小于基线模型,抽取精确率大于基线模型。和ALBERT BiLSTM-CRF相比,该模型精确率P增加了1.20%、召回率R增加了0.49%,F1值增加了0.84%。和基于BERT的实体识别模型相比,缩减了训练时间同时还提高了实体识别的性能。综上,该模型和现有的中文命名实体识别模型相比,具有训练时间较短而且性能优的特点,在领域实体抽取工程应用上具有重要意义。
如图2所示,一种中文命名实体识别方法,所述方法具体包括:
S101,ALBERT层得到字向量标记序列并提取文本特征信息;
通过ALBERT层10获取样本预处理文本数据信息,根据样本预处理文本数据信息得到字向量标记序列,并利用文本内部关系提取文本特征信息;
S102,BiLSTM层得到特征权重;
通过BiLSTM层20根据所述字向量标记序列得到样本的上下文特征信息,并学习上下文特征信息得到特征权重;
S103,自注意力层输出得分序列;
通过自注意力层30接收所述BiLSTM层20输出的特征权重,明确学习句子中任意两个字符之间的依赖关系,寻找序列内部联系,并输出得分序列;
S104,CRF层获得一个全局优序列;
通过CRF层40接收所述自注意力层30输出的得分序列,利用状态转移矩阵和相邻信息,并进行标签解码获得一个全局优序列。
如图3所示,所述S101中的ALBERT预训练模型具体包括:
S1011,得到带实体标记的样本预处理文本向量信息;
获取样本预处理文本数据信息,通过BIOE标记对样本预处理文本数据信息进行命名实体标记,并在样本预处理文本数据信息的句首和句尾分别插入CLS标记和SEP标记,得到带实体标记的样本预处理文本向量信息;
S1012,得到带实体标记和语序标记的样本向量信息;
对带实体标记的所述样本预处理文本向量信息的语序信息进行编码处理,得到带实体标记和语序标记的样本向量信息;
S1013,得到ALBERT预训练模型;
根据所述带实体标记和语序标记的样本向量数据信息对ALBERT模型进行训练,当ALBERT模型损失函数稳定收敛时,得到ALBERT预训练模型。
如图4所示,所述S102中的BiLSTM模型具体包括:
S1021,提取全局特征;
将所述字向量标记序列中各个字的字向量作为网络的各个时间步输入到BiLSTM层20,提取全局特征;
S1022,得到正向及反向LSTM的隐含输出序列;
通过BiLSTM网络,得到正向LSTM的隐含输出序列及反向LSTM的隐含输出序列;
S1023,得到训练好的BiLSTM模型;
将两组隐含序列按位置拼接获得完整的隐含序列,输出带语序标签的样本的上下文特征信息,得到训练好的BiLSTM模型。
如图5所示,所述S103具体包括:
S1031,多头注意力机制多维度捕捉样本的上下文特征信息;
通过多头注意力机制的每个头用于分别独立计算注意力矩阵,将每个头的计算结果拼接,多维度捕捉样本的上下文特征信息。
一种中文命名实体识别装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如中文命名实体识别方法的步骤。
一种电子设备,所述电子设备上存储有信息传递的实现程序,所述程序被处理器执行时实现如中文命名实体识别方法的步骤。
该中文命名实体识别模型使用过程如下:
使用时,通过ALBERT层10获取样本预处理文本数据信息,根据样本预处理文本数据信息得到字向量标记序列,并利用文本内部关系提取文本特征信息;通过BiLSTM层20根据所述字向量标记序列得到样本的上下文特征信息,并学习上下文特征信息得到特征权重;通过自注意力层30接收所述BiLSTM层20输出的特征权重,明确学习句子中任意两个字符之间的依赖关系,寻找序列内部联系,并输出得分序列;通过CRF层40接收所述自注意力层30输出的得分序列,利用状态转移矩阵和相邻信息,并进行标签解码获得一个全局优序列。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为件的实施例而已,并不用于限制件。对于本领域技术人员来说,件可以有各种更改和变化。凡在件的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在件的权利要求范围之内。
Claims (10)
1.一种中文命名实体识别模型,其特征在于,包括:
ALBERT层,用于获取样本预处理文本数据信息,根据样本预处理文本数据信息得到字向量标记序列;
BiLSTM层,其与所述ALBERT层连接,用于根据所述字向量标记序列得到样本的上下文特征信息,并学习上下文特征信息得到特征权重;
自注意力层,其与所述BiLSTM层连接,用于接收所述BiLSTM层输出的特征权重,明确学习句子中任意两个字符之间的依赖关系,寻找序列内部联系,并输出得分序列;
CRF层,其与所述自注意力层连接,用于接收所述自注意力层输出的得分序列,利用状态转移矩阵和相邻信息,并进行标签解码获得一个全局优序列。
2.如权利要求1所述的一种中文命名实体识别模型,其特征在于,所述中文命名实体识别模型进一步包括:
标记模块,用于对所述样本预处理文本数据信息进行命名实体标记,并在样本预处理文本数据信息的句首和句尾分别插入CLS标记和SEP标记,得到带实体标记的样本预处理文本向量信息;
处理模块,其与所述标记模块连接,对带实体标记的所述样本预处理文本向量信息的语序信息进行编码处理,得到带实体标记和语序标记的样本向量信息;
训练模块,其与所述处理模块连接,根据所述带实体标记和语序标记的样本向量数据信息对ALBERT模型进行训练,当ALBERT模型损失函数稳定收敛时,得到ALBERT预训练模型,所述ALBERT预训练模型用于根据样本预处理文本数据信息得到字向量标记序列。
3.如权利要求1所述的一种中文命名实体识别模型,其特征在于,所述BiLSTM层具体用于:接收所述字向量标记序列中各个字的字向量,根据所述中各个字的字向量提取全局特征;
所述BiLSTM层包括BiLSTM网络,所述BiLSTM网络用于得到正向LSTM的隐含输出序列及反向LSTM的隐含输出序列,并将两组隐含序列按位置拼接获得完整的隐含序列,输出带语序标签的样本的上下文特征信息,得到训练好的BiLSTM模型,所述BiLSTM模型用于学习上下文特征信息得到特征权重。
4.如权利要求1所述的一种中文命名实体识别模型,其特征在于,所述自注意力层包括多头注意力机制,多头注意力机制的每个头用于分别独立计算注意力矩阵,将每个头的计算结果拼接,用于多维度捕捉样本的上下文特征信息。
5.一种中文命名实体识别方法,其特征在于,所述方法具体包括:
S101,通过ALBERT层获取样本预处理文本数据信息,根据样本预处理文本数据信息得到字向量标记序列;
S102,通过BiLSTM层根据所述字向量标记序列得到样本的上下文特征信息,并学习上下文特征信息得到特征权重;
S103,通过自注意力层接收所述BiLSTM层输出的特征权重,明确学习句子中任意两个字符之间的依赖关系,寻找序列内部联系,并输出得分序列;
S104,通过CRF层接收所述自注意力层输出的得分序列,利用状态转移矩阵和相邻信息,并进行标签解码获得一个全局优序列。
6.如权利要求5所述的一种中文命名实体识别方法,其特征在于,所述S101中的ALBERT预训练模型具体包括:
S1011,获取样本预处理文本数据信息,通过BIOE标记对样本预处理文本数据信息进行命名实体标记,并在样本预处理文本数据信息的句首和句尾分别插入CLS标记和SEP标记,得到带实体标记的样本预处理文本向量信息;
S1012,对带实体标记的所述样本预处理文本向量信息的语序信息进行编码处理,得到带实体标记和语序标记的样本向量信息;
S1013,根据所述带实体标记和语序标记的样本向量数据信息对ALBERT模型进行训练,当ALBERT模型损失函数稳定收敛时,得到ALBERT预训练模型,所述ALBERT预训练模型用于根据样本预处理文本数据信息得到字向量标记序列。
7.如权利要求5所述的一种中文命名实体识别方法,其特征在于,所述S102中的BiLSTM模型具体包括:
S1021,通过BiLSTM层接收所述字向量标记序列中各个字的字向量,并根据所述中各个字的字向量提取全局特征;
S1022,通过BiLSTM网络,得到正向LSTM的隐含输出序列及反向LSTM的隐含输出序列;
S1023,将两组隐含序列按位置拼接获得完整的隐含序列,输出带语序标签的样本的上下文特征信息,得到训练好的BiLSTM模型,所述BiLSTM模型用于学习上下文特征信息得到特征权重。
8.如权利要求5所述的一种中文命名实体识别方法,其特征在于,所述S103具体包括:
S1031,通过多头注意力机制的每个头用于分别独立计算注意力矩阵,将每个头的计算结果拼接,多维度捕捉样本的上下文特征信息。
9.一种中文命名实体识别装置,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求5至8中任一项所述的中文命名实体识别方法的步骤。
10.一种电子设备,其特征在于,所述电子设备上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求5至8中任一项所述的中文命名实体识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110892193.6A CN113743119B (zh) | 2021-08-04 | 2021-08-04 | 中文命名实体识别模块、方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110892193.6A CN113743119B (zh) | 2021-08-04 | 2021-08-04 | 中文命名实体识别模块、方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113743119A true CN113743119A (zh) | 2021-12-03 |
CN113743119B CN113743119B (zh) | 2023-09-08 |
Family
ID=78730103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110892193.6A Active CN113743119B (zh) | 2021-08-04 | 2021-08-04 | 中文命名实体识别模块、方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743119B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114154505A (zh) * | 2021-12-07 | 2022-03-08 | 国网四川省电力公司经济技术研究院 | 一种面向电力规划评审领域的命名实体识别方法 |
CN114328485A (zh) * | 2021-12-23 | 2022-04-12 | 中国科学院沈阳计算技术研究所有限公司 | 改进BiLSTM-CRF的电子病历命名实体识别方法 |
CN114386419A (zh) * | 2022-01-11 | 2022-04-22 | 平安科技(深圳)有限公司 | 实体识别模型训练方法、装置、设备以及存储介质 |
CN114417853A (zh) * | 2021-12-10 | 2022-04-29 | 新智道枢(上海)科技有限公司 | 数字警务警情地址分词方法及数字警务警情系统 |
CN114970528A (zh) * | 2021-12-20 | 2022-08-30 | 昆明理工大学 | 基于BERT和Attention机制的中文命名实体识别方法 |
CN115640810A (zh) * | 2022-12-26 | 2023-01-24 | 国网湖北省电力有限公司信息通信公司 | 一种电力系统通信敏感信息识别方法、系统及存储介质 |
WO2023092960A1 (zh) * | 2022-04-24 | 2023-06-01 | 之江实验室 | 一种用于法律文书的命名实体识别的标注方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210149993A1 (en) * | 2019-11-15 | 2021-05-20 | Intuit Inc. | Pre-trained contextual embedding models for named entity recognition and confidence prediction |
CN113128232A (zh) * | 2021-05-11 | 2021-07-16 | 济南大学 | 一种基于albert与多重词信息嵌入的命名实体识别方法 |
-
2021
- 2021-08-04 CN CN202110892193.6A patent/CN113743119B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210149993A1 (en) * | 2019-11-15 | 2021-05-20 | Intuit Inc. | Pre-trained contextual embedding models for named entity recognition and confidence prediction |
CN113128232A (zh) * | 2021-05-11 | 2021-07-16 | 济南大学 | 一种基于albert与多重词信息嵌入的命名实体识别方法 |
Non-Patent Citations (1)
Title |
---|
孙尉超;陈涛;: "基于ALBERT-BiLSTM模型的微博谣言识别方法研究", 计算机时代, no. 08 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114154505A (zh) * | 2021-12-07 | 2022-03-08 | 国网四川省电力公司经济技术研究院 | 一种面向电力规划评审领域的命名实体识别方法 |
CN114417853A (zh) * | 2021-12-10 | 2022-04-29 | 新智道枢(上海)科技有限公司 | 数字警务警情地址分词方法及数字警务警情系统 |
CN114970528A (zh) * | 2021-12-20 | 2022-08-30 | 昆明理工大学 | 基于BERT和Attention机制的中文命名实体识别方法 |
CN114328485A (zh) * | 2021-12-23 | 2022-04-12 | 中国科学院沈阳计算技术研究所有限公司 | 改进BiLSTM-CRF的电子病历命名实体识别方法 |
CN114386419A (zh) * | 2022-01-11 | 2022-04-22 | 平安科技(深圳)有限公司 | 实体识别模型训练方法、装置、设备以及存储介质 |
CN114386419B (zh) * | 2022-01-11 | 2023-07-25 | 平安科技(深圳)有限公司 | 实体识别模型训练方法、装置、设备以及存储介质 |
WO2023092960A1 (zh) * | 2022-04-24 | 2023-06-01 | 之江实验室 | 一种用于法律文书的命名实体识别的标注方法和装置 |
CN115640810A (zh) * | 2022-12-26 | 2023-01-24 | 国网湖北省电力有限公司信息通信公司 | 一种电力系统通信敏感信息识别方法、系统及存储介质 |
CN115640810B (zh) * | 2022-12-26 | 2023-03-21 | 国网湖北省电力有限公司信息通信公司 | 一种电力系统通信敏感信息识别方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113743119B (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113743119A (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN112231447B (zh) | 一种中文文档事件抽取的方法和系统 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN112115238A (zh) | 一种基于bert和知识库的问答方法和系统 | |
CN113626589B (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN112101028A (zh) | 一种多特征双向门控领域专家实体抽取方法及系统 | |
CN112749562A (zh) | 命名实体识别方法、装置、存储介质及电子设备 | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN113987169A (zh) | 基于语义块的文本摘要生成方法、装置、设备及存储介质 | |
CN113204633B (zh) | 一种语义匹配蒸馏方法及装置 | |
CN113743099A (zh) | 基于自注意力机制方面术语提取系统、方法、介质、终端 | |
CN115203507A (zh) | 一种面向文书领域的基于预训练模型的事件抽取方法 | |
CN111400492A (zh) | 基于sfm-dcnn的层次特征文本分类方法和系统 | |
CN115062727B (zh) | 一种基于多阶超图卷积网络的图节点分类方法及系统 | |
CN113919358A (zh) | 一种基于主动学习的命名实体识别方法和系统 | |
CN114648029A (zh) | 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法 | |
CN115374786A (zh) | 实体和关系联合抽取方法及装置、存储介质和终端 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN116578671A (zh) | 一种情感-原因对提取方法及装置 | |
CN114648005B (zh) | 一种多任务联合学习的多片段机器阅读理解方法及装置 | |
CN116127954A (zh) | 一种基于词典的新工科专业中文知识概念抽取方法 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 | |
CN114595324A (zh) | 电网业务数据分域的方法、装置、终端和非暂时性存储介质 | |
CN116050418B (zh) | 基于融合多层语义特征的命名实体识别方法、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |