CN117669574B - 基于多语义特征融合的人工智能领域实体识别方法及系统 - Google Patents
基于多语义特征融合的人工智能领域实体识别方法及系统 Download PDFInfo
- Publication number
- CN117669574B CN117669574B CN202410142010.2A CN202410142010A CN117669574B CN 117669574 B CN117669574 B CN 117669574B CN 202410142010 A CN202410142010 A CN 202410142010A CN 117669574 B CN117669574 B CN 117669574B
- Authority
- CN
- China
- Prior art keywords
- word vector
- word
- artificial intelligence
- layer
- vector sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 55
- 230000004927 fusion Effects 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000006870 function Effects 0.000 claims abstract description 45
- 230000015654 memory Effects 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 222
- 230000004913 activation Effects 0.000 claims description 25
- 230000009467 reduction Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000007787 long-term memory Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 abstract description 22
- 230000008569 process Effects 0.000 abstract description 10
- 238000000605 extraction Methods 0.000 abstract description 3
- 230000006872 improvement Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多语义特征融合的人工智能领域实体识别方法及系统,属于文本实体识别领域。本发明将编码器、双向长短期记忆网络层、注意力融合层和条件随机场层级联形成实体识别模型,通过对编码器中的BERT模型和注意力融合层中的注意力机制进行改进,再结合对条件随机场层中损失函数的优化,显著提高了在人工智能领域中实体识别和关系抽取的准确度,能够提升模型的稳定性和泛化能力。本发明可解决人工智能领域实体识别过程中存在的文本过长、内容复杂、实体与实体之间存在强关联关系等问题,准确实现人工智能领域长文本段落中的实体识别。
Description
技术领域
本发明属于实体识别领域,尤其涉及一种适用于人工智能领域长文本段落的实体识别方法及系统。
背景技术
实体识别在不同应用场景中呈现出各异的需求和挑战。在人工智能(AI)领域中,AI知识文本存在内容长度往往比普通的文本段落要长,并且内容相当复杂,实体与实体之间存在强关联的关系问题。人工智能领域的知识体系具有高度的关联性,例如在“卷积神经网络被广泛应用于图像识别任务,因为它们在处理图像数据方面特别有效”这句话中,可以抽取出“用于”或“应用于”等关系,显示出实体之间的强关联性。这种特性为实体关系抽取带来了额外的复杂性。
鉴于现有技术中存在的上述挑战,传统的实体识别框架难以胜任人工智能领域存在复杂关联关系的长文本段落实体识别任务,因此如何改进实体识别框架,提高其对长文本段落、稀疏数据和复杂实体关系的处理能力,是目前亟待解决的技术问题。
发明内容
本发明的目的在于解决现有技术中传统实体识别框架难以准确完成人工智能领域存在复杂关联关系的长文本段落实体识别任务,并提供一种基于多语义特征融合的人工智能领域实体识别方法及系统,实现实体识别技术在人工智能领域的有效应用。
本发明所采用的具体技术方案如下:
第一方面,本发明提供了一种基于多语义特征融合的人工智能领域实体识别方法,其包括:
S1、将人工智能领域的待识别文本输入编码器中,由BERT模型对待识别文本进行分词后将词元序列转换为第一词向量序列,每个第一词向量依次通过多层Transformer编码层进行编码后将所有Transformer编码层输出的特征向量进行拼接,再将拼接向量通过第一全连接层进行降维处理,从而将第一词向量序列映射为第二词向量序列;
S2、将第二词向量序列输入双向长短期记忆网络层中,对待识别文本中的上下文语义表征进行捕捉,得到第三词向量序列;
S3、将第三词向量序列输入注意力融合层中,以前馈神经网络作为评分函数,计算第三词向量序列中第三词向量之间的语义关联度,并基于语义关联度向每个第三词向量中融入上下文语义信息,得到每个第三词向量对应的上下文向量;每个第三词向量与对应的上下文向量拼接后,通过非线性激活函数进行融合,融合向量通过第二全连接层进行降维处理,从而将第三词向量序列转换为语义增强的第四词向量序列;
S4、将第四词向量序列输入条件随机场层中,输出待识别文本中每个词元对应的实体标签。
作为上述第一方面的优选,所述BERT模型中共设有12层Transformer编码层,且每个第一词向量依次经过12层Transformer编码层获得不同层级的编码向量,12层编码向量拼接后作为第一词向量对应的所述拼接向量。
作为上述第一方面的优选,所述第一全连接层通过tanh激活函数进行激活输出。
作为上述第一方面的优选,所述注意力融合层中,第三词向量序列中每个当前第三词向量的上下文向量计算方法为:首先以前馈神经网络作为评分函数,计算第三词向量序列中每个第三词向量相对于当前第三词向量的语义关联度评分;然后将计算得到的所有语义关联度评分进行Softmax归一化,将语义关联度评分转换为权重值;最后将第三词向量序列中的所有第三词向量利用各自对应的权重值进行加权融合,形成当前第三词向量对应的上下文向量。
作为上述第一方面的优选,所述非线性激活函数采用tanh激活函数。
作为上述第一方面的优选,所述第二全连接层通过tanh激活函数进行激活输出。
作为上述第一方面的优选,所述编码器、双向长短期记忆网络层、注意力融合层和条件随机场层构成的实体识别模型,需预先进行训练,且训练采用的损失函数包含三个部分,第一部分为实际标签路径总分数的负数,第二部分为所有预测标签路径的总分,第三部分为惩罚模型过拟合的正则化项。
作为上述第一方面的优选,所述正则化项设置为一个可学习参数的L2范数与一个权重超参数的乘积。
作为上述第一方面的优选,所述实体识别模型采用人工智能领域带有实体标注标签的批数据进行训练,并通过设置丢弃操作防止模型过拟合。
第二方面,本发明提供了一种基于多语义特征融合的人工智能领域实体识别系统,其包括:
编码器模块,用于将人工智能领域的待识别文本输入编码器中,由BERT模型对待识别文本进行分词后将词元序列转换为第一词向量序列,每个第一词向量依次通过多层Transformer编码层进行编码后将所有Transformer编码层输出的特征向量进行拼接,再将拼接向量通过第一全连接层进行降维处理,从而将第一词向量序列映射为第二词向量序列;
双向长短期记忆网络模块,用于将第二词向量序列输入双向长短期记忆网络层中,对待识别文本中的上下文语义表征进行捕捉,得到第三词向量序列;
注意力融合模块,用于将第三词向量序列输入注意力融合层中,以前馈神经网络作为评分函数,计算第三词向量序列中第三词向量之间的语义关联度,并基于语义关联度向每个第三词向量中融入上下文语义信息,得到每个第三词向量对应的上下文向量;每个第三词向量与对应的上下文向量拼接后,通过非线性激活函数进行融合,融合向量通过第二全连接层进行降维处理,从而将第三词向量序列转换为语义增强的第四词向量序列;
条件随机场模块,用于将第四词向量序列输入条件随机场层中,输出待识别文本中每个词元对应的实体标签。
本发明相对于现有技术而言,具有以下有益效果:
本发明将编码器、双向长短期记忆网络层、注意力融合层和条件随机场层级联形成实体识别模型,通过对编码器中的BERT模型和注意力融合层中的注意力机制进行改进,显著提高了在AI领域中实体识别和关系抽取的准确度,同时通过优化CRF层的损失函数来防止过拟合,进一步提升模型的稳定性和泛化能力。本发明解决了人工智能领域实体识别过程中存在的内容长度过长,并且内容相当复杂,且实体与实体之间存在强关联的关系的问题,准确实现人工智能领域长文本段落中的实体识别。
附图说明
图1为基于多语义特征融合的人工智能领域实体识别方法步骤流程图;
图2为改进的BERT模型的具体网络结构示意图;
图3为改进的注意力机制的原理示意图;
图4为实体识别模型的结构示意图;
图5为基于多语义特征融合的人工智能领域实体识别系统的模块组成图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下,均可进行相应组合。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于区分描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
本发明提供了一种基于多语义特征融合的人工智能领域实体识别方法,其核心是对BERT模型、注意力(Attention)机制以及条件随机场(CRF)损失约束进行改进,从而提高实体识别框架对长文本段落、稀疏数据和复杂实体关系的处理能力。如图1所示,在本发明的一个较佳实施例中,上述基于多语义特征融合的人工智能领域实体识别方具体包括S1、S2、S3和S4四个步骤,下面分别对各步骤的具体实现方式进行详细展开描述。
S1、将人工智能领域的待识别文本输入编码器中,由BERT模型对待识别文本进行分词后将词元序列转换为第一词向量序列,每个第一词向量依次通过多层Transformer编码层进行编码后将所有Transformer编码层输出的特征向量进行拼接,再将拼接向量通过第一全连接层进行降维处理,从而将第一词向量序列映射为第二词向量序列。
在本发明的上述S1步骤中,对传统的BERT模型进行了改进,提升了BERT在AI知识文本场景中的读取和识别能力。BERT模型的网络结构属于现有技术,其内部共设有12层Transformer编码层,每个Transformer编码层中带有多头注意力机制。在本发明的实施例中,为了便于描述,将改进后的模型称为Improve-BERT。图2展示了Improve-BERT的具体网络结构,Improve-BERT相对于传统BERT模型的改进点在于对12层Transformer编码层(记为Trm1~Trm12)的输出进行了融合,增强BERT模型对文本输入的理解能力,使其能够捕捉并处理文本中的细微语义变化和复杂的语境关系,同时为了保证融合向量能够适用于下游任务,在Improve-BERT之后连接了第一全连接层进行降维映射。因此,Improve-BERT和第一全连接层构成了上述编码器,下面对本发明实施例的编码器中的具体实现过程进行详细描述。
首先,人工智能领域的待识别文本输入编码器后,先由Improve-BERT模型处理接收到的文本输入,与传统BERT模型一样,文本输入经过分词形成词元(Token)序列后,需要先执行序列向量化。该过程涉及将文本序列转换为向量形式,以便模型能够进行进一步处理。具体来说,BERT模型结合了三种关键向量:语义嵌入量、序列嵌入量以及位置嵌入量。这三种向量共同构成了词向量序列(本发明实施例中将其称为第一词向量序列),第一词向量序列中包含了词汇级别的语义信息、序列段落的信息以及词语在序列中的位置信息,具体的序列向量化过程可参见BERT模型的相关现有技术,不再赘述。获得第一词向量序列可表示为,其中/>代表其中第i个第一词向量,i=1,2,…,n。在第一词向量序列进入了BERT模型的Transformer编码层后,会进一步执行多头注意力机制。对于矩阵Q,K,V,模型分别有三组权重矩阵/>,在模型训练的过程中,不同的注意力头的权重矩阵是不同的。输入的向量/>通过这些权重进行线性变换就可以生成/>矩阵,其中分别是对应于输入/>的查询、键和值向量,转换的公式如下:
经过上述多头注意力机制,将经过线性变化的Q,K,V代入到注意力公式中就可以得到每层Transformer编码层中各注意力头(每层共12个注意力头)的注意力分值,将每层Transformer编码层中所有12个注意力头的注意力分值的注意力分值拼接(Concat)后即可得到具有上下文语义信息的特征向量/>,具体公式如下:
然后,本发明实施例的Improve-BERT模型相对于传统BERT模型,对12层Transformer编码层的最终输出进行了调整,具体而言:对于每个Token而言,其第一词向量输入12层Transformer编码层后,在任意第j层Transformer编码层都会得到对应的特征向量/>,传统BERT模型输出了最后一层特征向量/>,而本发明实施例的Improve-BERT模型则将12层编码层的所有特征向量/>进行拼接操作,得到了融合不同层级语义信息的拼接向量/>。第一词向量/>对应的拼接向量/>公式表达如下:
最后,为了输出一个具有深层语义信息的特征向量,将得到的拼接向量输入第一全连接层中进行全连接映射降维处理,得到第二词向量/>,由此将第一词向量序列映射为第二词向量序列。Improve-BERT模型输出的第二词向量可以对应于下游任务的维度。第一全连接层采用tanh激活函数,其处理公式如下:
式中:和/>分别代表全连接的权重和偏置参数。
在上述Improve-BERT模型中,每个词向量在经过12个编码层处理后,将其输出成一个包含所有语义信息的综合向量。改进的BERT编码层可以增强模型对文本输入的理解能力,使其能够捕捉并处理文本中的细微语义变化和复杂的语境关系。通过这种方式,模型能够生成一个具有丰富语义信息的第二词向量,为后续的自然语言处理任务提供了一个坚实的基础。
S2、将第二词向量序列输入双向长短期记忆网络层中,对待识别文本中的上下文语义表征进行捕捉,得到第三词向量序列。
在本发明的实施例中,双向长短期记忆网络层由BiLSTM(Bi-directionalLongShort-Term Memory)网络构成,该网络由前向LSTM与后向LSTM组合而成,可用来建模上下文信息。BiLSTM的具体结构属于现有技术,此处不再赘述。第二词向量序列中的每个第二词向量都通过BiLSTM进行处理,BiLSTM接收编码器输出的第二词向量/>,进一步捕获AI知识文本的上下文语义表征,形成第三词向量/>。BiLSTM层的引入进一步增强了模型对序列中长距离依赖关系的捕捉能力。通过正向和反向的信息流动,BiLSTM能够综合前后文信息,这对后续的实体识别任务尤为关键。
S3、将第三词向量序列输入注意力融合层中,以前馈神经网络作为评分函数,计算第三词向量序列中第三词向量之间的语义关联度,并基于语义关联度向每个第三词向量中融入上下文语义信息,得到每个第三词向量对应的上下文向量;每个第三词向量与对应的上下文向量拼接后,通过非线性激活函数进行融合,融合向量通过第二全连接层进行降维处理,从而将第三词向量序列转换为语义增强的第四词向量序列。
在本发明的上述S3步骤中,注意力融合层中实际上设计了一种改进注意力机制,为了便于描述,将这种改进注意力机制称为Improve-Attention。改进注意力机制的核心是对第三词向量进行权重分配,并通过前馈神经网络计算长距离词向量间的语义关联度,从而调整语义权重,进而增强词与词之间的关系。应用Improve-Attention机制可以增强AI文本中长文本段落的上下文语义信息之间的关系,通过这种方法将这些信息于存储于当前特征向量中,就可以在全局信息中获取富含丰富语义信息的向量,即前述语义增强后的第四词向量。通过将更多的注意力集中在关键词上,使得语义信息更加全面,不仅解决了长文本中存在的问题,也加强了AI长文本的词级关系。
本发明的实施例中,如图3所示,注意力融合层中通过Improve-Attention机制将第三词向量序列转换为第四词向量序列的具体做法如下:
首先,针对第三词向量序列中每个第三词向量(为了便于描述,将当前计算所针对的第三词向量称为当前第三词向量),计算当前第三词向量/>对应的上下文向量/>,这个上下文向量代表了输入序列中不同部分对输出的贡献度的加权和,计算式如下:
其中,是一个评分函数,它基于前向神经网络/>(),根据第三词向量/>计算一个分数,这个分数表明了当前步骤对于输出的相关性。/>是对评分函数的输出应用指数函数,确保所有的权重都是正数,这是为了在接下来的步骤中计算概率分布。而是所有隐藏状态评分的指数和,它作为一个归一化因子,确保所有的权重加起来等于 1,形成一个概率分布。上述权重的归一化过程相当于是通过Softmax函数来将各语义关联度评分转换为权重值/>,所有第三词向量序列中的第三词向量/>利用各自对应的权重值/>进行加权融合形成上下文向量/>。
在得到当前第三词向量对应的上下文向量/>后,将其与当前第三词向量/>通过非线性激活函数计算,就可以得到状态序列与相应向量的融合向量/>。在本发明的实施例中,非线性激活函数采用tanh激活函数,其输出融合向量的公式表达如下:
最后,为了适应下游任务的需求,对融合向量进行降维处理,即将融合向量通过一个第二全连接层得到更低维的第四词向量/>,从而达到增强语义向量的目的。在本发明的实施例中,第二全连接层通过tanh激活函数进行激活输出,从而将第三词向量序列转换为语义增强的第四词向量序列,得到第四词向量/>的公式为:
式中:和/>分别代表全连接层的权重和偏置参数。
S4、将第四词向量序列输入条件随机场层中,输出待识别文本中每个词元对应的实体标签。
需要说明的是,条件随机场(CRF)属于现有技术,CRF层在序列标注任务中起到核心作用,通过考虑相邻标签之间的依赖性来优化标签决策过程。与单独考虑每个词汇的标签不同,CRF层的这种全局视角有助于提高标注的准确性。在本发明的实施例中,CRF层可针对第四词向量序列输出实体标签序列,为了保证预测准确性,最终的预测标签序列需添加约束条件,以产生概率最大的、最符合实体标注转移规则的标注序列。
上述待Improve-BERT的编码器、BiLSTM层、带Improve-Attention机制的注意力融合层和CRF层实质上构成了一个实体识别模型,其结构如图4所示。该模型可输入人工智能领域的长文本段落,通过CRF层输出相应的实体标签序列。整个实体识别模型将复杂的AI知识文本转化为优化的标注序列,并据此提取相关的实体,完成实体识别的整个流程。当然,在该实体识别模型用于实际推理之前,需预先进行训练。在本发明的实施例中,对训练采用的损失函数进行了一部分的优化,主要是为了防止模型在预测最终的结果时产生过拟合的现象。在损失函数公式中融入了相应的惩罚机制后,损失函数整体包含三个部分,第一部分为实际标签路径总分数的负数,第二部分为所有预测标签路径的总分,第三部分为惩罚模型过拟合的正则化项。该优化后的损失函数的具体公式如下:
从上式可见,这个损失函数含有三个损失项:实际标签路径的总分数,所有预测标签路径的总分/>,以及正则化项/>。/>反映了模型对实际正确序列的评分,模型的目标是使这个分数尽可能高。而/>是对所有可能的标签序列的评分进行指数化和求和后的对数值,代表了模型对整体标签分布的预测。/>表示第i个可能的标签序列,N为实体的类别标签总数。模型需要最小化/>这部分值,以确保对正确标签序列的预测在所有可能序列中具有较高的准确性。最后的损失项/>起到防止模型过拟合的作用,它由一个可学习参数/>(训练过程中优化)的L2范数与一个权重超参数α的乘积,通过控制模型参数/>的复杂度来维护模型的泛化能力。综合这三个损失项,模型的损失函数可以平衡模型在特定数据集上的表现和其整体的泛化能力。
训练过程中,通过最小化上述损失函数,CRF模型能有效地学习如何准确预测标签序列,从而在各种序列标注任务中表现出色。将输入的通过该损失函数训练后的CRF层后即可得到对应的Label,取其中得分最高的标签即是最终的预测Labeli。
当然,实体识别模型的训练方式属于现有技术,可采用人工智能领域带有实体标注标签的批数据进行训练,并可进一步通过设置丢弃(dropout)操作防止模型过拟合。
为了展示本发明实施例中上述S1~S4所示的基于多语义特征融合的人工智能领域实体识别方法所能取得的具体优势,下面进一步给出其在数据集上的效果展示。在该示例性的实验中,训练数据集来自自建的AI实体识别数据集,同时本实验将训练参数丢弃率(dropout)设置为0.4,防止模型出现过拟合现象,另外将批量大小设置为30,迭代次数设置为20次。由于AI知识文本具有输入序列较长的特点,于是将句子的最大长度设置为300,同时选择Adam作为优化器对上述编码器、双向长短期记忆网络层、注意力融合层和条件随机场层构成的实体识别模型进行参数优化。为了便于描述,本发明实施例所给出的该实体识别模型记为Improve-BERT-BiLSTM-Improve-Attention-CRF。同时,为了验证本发明模型中不同改进点所能取得的优势,进一步设置了多个消融和对比试验,其中BERT-BiLSTM-Improve-Attention-CRF相对于本发明实施例所给出的该实体识别模型而言,将编码器中的Improve-BERT替换为传统的BERT模型;Improve-BERT-BiLSTM-Attention-CRF相对于本发明实施例所给出的该实体识别模型而言,将注意力融合层中的Improve-Attention机制替换为传统的没有引入上下文向量的Attention机制;BERT-BiLSTM-Attention-CRF相对于本发明实施例所给出的该实体识别模型而言,将编码器中的Improve-BERT替换为传统的BERT模型,同时将注意力融合层中的Improve-Attention机制替换为传统的没有引入上下文向量/>的Attention机制;BERT-BiLSTM-CRF采用了传统BERT+BiLSTM+CRF的框架;BERT-CRF采用了传统BERT+CRF的框架。上述各模型在数据集上的实体识别结果表现如表1所示:
表1
在上述实体识别结果的对比实验中,如表1所示,本发明实施例提出的Improve-BERT-BiLSTM-Improve-Attention-CRF模型在所有考察指标上均表现最佳。该模型取得了88.27%的精确度、84.13%的召回率和86.14%的F1得分,显示出其优越的实体识别能力。
作为基线模型,BERT-CRF模型表现出基本的实体识别能力,取得了79.35%的精确度、77.87%的召回率和78.60%的F1得分。这个结果表明了BERT在理解上下文方面的强大能力,以及CRF在序列标注任务中的有效性。尽管如此,这个模型在召回率方面仍有提升空间。
当引入BiLSTM层之后,模型性能得到显著提升。这一结果表明引入BiLSTM 层后上下文信息得到充分利用,因此特征向量的语义相比来说更加丰富,并且对特征向量的处理效果更好,所以性能得到了提升,模型的精确度、召回率和F1得分分别提升至86.49%、82.39%和84.38%。
在BERT-BiLSTM-Attention-CRF模型中加入Attention机制后,性能进一步提升,精确度达到86.92%,召回率为82.48%,F1得分为84.63%。这一提升表明了Attention机制在强化模型捕捉关键信息方面的优势。
当模型结构进一步复杂化,即Improve-BERT-BiLSTM-Attention-CRF和BERT-BiLSTM-Improve-Attention-CRF,两者在所有性能指标上均优于基本的BERT-BiLSTM-Attention-CRF模型,且前者的性能相比后者也更好。这一结果突显了改进后的BERT模型以及Attention机制在实体识别任务中的提升作用,尤其是在处理复杂特征和上下文信息方面,并且也可以得出Improve-BERT相比Improve-Attention所带来的性能提升更大。与BERT-BiLSTM-Attention-CRF模型相比,Improve-BERT-BiLSTM-Improve-Attention-CRF模型在精确度上提升了1.78%,召回率提升了1.65%,F1得分提升了1.51%。
在实验对比中,性能最优的Improve-BERT-BiLSTM-Improve-Attention-CRF模型在所有考察的模型中表现最佳,达到了88.27%的精确度、84.13%的召回率和86.14%的F1得分。这一结果强调了改进的BERT模型与改进的Attention机制相结合时对实体识别效果的显著提升。与传统的BERT-BiLSTM-Attention-CRF模型相比,Improve-BERT-BiLSTM-Improve-Attention-CRF模型在精确度上提高了1.78%,在召回率上提高了1.65%,以及在F1得分上提高了1.51%。这些数据证实了本发明所提出改进模型在整体性能上相对于未改进模型的优势。
综上所述,从基础的BERT-CRF模型到复杂的Improve-BERT-BiLSTM-Improve-Attention-CRF模型,随着结构的优化和复杂化,模型在准确率、召回率和F1分数方面均展现了上升趋势。BERT和Attention层的引入及其进一步的改进对提高模型的整体性能起到了关键作用,尤其在处理长距离依赖关系和突出关键信息方面表现突出。本发明实施例提出的Improve-BERT-BiLSTM-Improve-Attention-CRF模型的最佳性能展示了对模型各层进行综合优化的重要性。
另外需要说明的是,上述实施例中的基于多语义特征融合的人工智能领域实体识别方法,本质上可以通过计算机程序或者模块来执行。因此同样的,基于同一发明构思,如图5所示,本发明的另一较佳实施例中还提供了与上述实施例提供的基于多语义特征融合的人工智能领域实体识别对应的一种基于多语义特征融合的人工智能领域实体识别系统,其包括:
编码器模块,用于将人工智能领域的待识别文本输入编码器中,由BERT模型对待识别文本进行分词后将词元序列转换为第一词向量序列,每个第一词向量依次通过多层Transformer编码层进行编码后将所有Transformer编码层输出的特征向量进行拼接,再将拼接向量通过第一全连接层进行降维处理,从而将第一词向量序列映射为第二词向量序列;
双向长短期记忆网络模块,用于将第二词向量序列输入双向长短期记忆网络层中,对待识别文本中的上下文语义表征进行捕捉,得到第三词向量序列;
注意力融合模块,用于将第三词向量序列输入注意力融合层中,以前馈神经网络作为评分函数,计算第三词向量序列中第三词向量之间的语义关联度,并基于语义关联度向每个第三词向量中融入上下文语义信息,得到每个第三词向量对应的上下文向量;每个第三词向量与对应的上下文向量拼接后,通过非线性激活函数进行融合,融合向量通过第二全连接层进行降维处理,从而将第三词向量序列转换为语义增强的第四词向量序列;
条件随机场模块,用于将第四词向量序列输入条件随机场层中,输出待识别文本中每个词元对应的实体标签。
上述系统中各模型的功能与前述S1~S4步骤完全对应,具体实现亦可参见前述实施例中的实现方法,此处不再赘述。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (10)
1.一种基于多语义特征融合的人工智能领域实体识别方法,其特征在于,包括:
S1、将人工智能领域的待识别文本输入编码器中,由BERT模型对待识别文本进行分词后将词元序列转换为第一词向量序列,每个第一词向量依次通过多层Transformer编码层进行编码后将所有Transformer编码层输出的特征向量进行拼接,再将拼接向量通过第一全连接层进行降维处理,从而将第一词向量序列映射为第二词向量序列;
S2、将第二词向量序列输入双向长短期记忆网络层中,对待识别文本中的上下文语义表征进行捕捉,得到第三词向量序列;
S3、将第三词向量序列输入注意力融合层中,以前馈神经网络作为评分函数,计算第三词向量序列中第三词向量之间的语义关联度,并基于语义关联度向每个第三词向量中融入上下文语义信息,得到每个第三词向量对应的上下文向量;每个第三词向量与对应的上下文向量拼接后,通过非线性激活函数进行融合,融合向量通过第二全连接层进行降维处理,从而将第三词向量序列转换为语义增强的第四词向量序列;
S4、将第四词向量序列输入条件随机场层中,输出待识别文本中每个词元对应的实体标签。
2.如权利要求1所述的基于多语义特征融合的人工智能领域实体识别方法,其特征在于,所述BERT模型中共设有12层Transformer编码层,且每个第一词向量依次经过12层Transformer编码层获得不同层级的编码向量,12层编码向量拼接后作为第一词向量对应的所述拼接向量。
3.如权利要求1所述的基于多语义特征融合的人工智能领域实体识别方法,其特征在于,所述第一全连接层通过tanh激活函数进行激活输出。
4.如权利要求1所述的基于多语义特征融合的人工智能领域实体识别方法,其特征在于,所述注意力融合层中,第三词向量序列中每个当前第三词向量的上下文向量计算方法为:首先以前馈神经网络作为评分函数,计算第三词向量序列中每个第三词向量相对于当前第三词向量的语义关联度评分;然后将计算得到的所有语义关联度评分进行Softmax归一化,将语义关联度评分转换为权重值;最后将第三词向量序列中的所有第三词向量利用各自对应的权重值进行加权融合,形成当前第三词向量对应的上下文向量。
5.如权利要求1所述的基于多语义特征融合的人工智能领域实体识别方法,其特征在于,所述非线性激活函数采用tanh激活函数。
6.如权利要求1所述的基于多语义特征融合的人工智能领域实体识别方法,其特征在于,所述第二全连接层通过tanh激活函数进行激活输出。
7.如权利要求1所述的基于多语义特征融合的人工智能领域实体识别方法,其特征在于,所述编码器、双向长短期记忆网络层、注意力融合层和条件随机场层构成的实体识别模型,需预先进行训练,且训练采用的损失函数包含三个部分,第一部分为实际标签路径总分数的负数,第二部分为所有预测标签路径的总分,第三部分为惩罚模型过拟合的正则化项。
8.如权利要求7所述的基于多语义特征融合的人工智能领域实体识别方法,其特征在于,所述正则化项设置为一个可学习参数的L2范数与一个权重超参数的乘积。
9.如权利要求7所述的基于多语义特征融合的人工智能领域实体识别方法,其特征在于,所述实体识别模型采用人工智能领域带有实体标注标签的批数据进行训练,并通过设置丢弃操作防止模型过拟合。
10.一种基于多语义特征融合的人工智能领域实体识别系统,其特征在于,包括:
编码器模块,用于将人工智能领域的待识别文本输入编码器中,由BERT模型对待识别文本进行分词后将词元序列转换为第一词向量序列,每个第一词向量依次通过多层Transformer编码层进行编码后将所有Transformer编码层输出的特征向量进行拼接,再将拼接向量通过第一全连接层进行降维处理,从而将第一词向量序列映射为第二词向量序列;
双向长短期记忆网络模块,用于将第二词向量序列输入双向长短期记忆网络层中,对待识别文本中的上下文语义表征进行捕捉,得到第三词向量序列;
注意力融合模块,用于将第三词向量序列输入注意力融合层中,以前馈神经网络作为评分函数,计算第三词向量序列中第三词向量之间的语义关联度,并基于语义关联度向每个第三词向量中融入上下文语义信息,得到每个第三词向量对应的上下文向量;每个第三词向量与对应的上下文向量拼接后,通过非线性激活函数进行融合,融合向量通过第二全连接层进行降维处理,从而将第三词向量序列转换为语义增强的第四词向量序列;
条件随机场模块,用于将第四词向量序列输入条件随机场层中,输出待识别文本中每个词元对应的实体标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410142010.2A CN117669574B (zh) | 2024-02-01 | 2024-02-01 | 基于多语义特征融合的人工智能领域实体识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410142010.2A CN117669574B (zh) | 2024-02-01 | 2024-02-01 | 基于多语义特征融合的人工智能领域实体识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117669574A CN117669574A (zh) | 2024-03-08 |
CN117669574B true CN117669574B (zh) | 2024-05-17 |
Family
ID=90086663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410142010.2A Active CN117669574B (zh) | 2024-02-01 | 2024-02-01 | 基于多语义特征融合的人工智能领域实体识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117669574B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2020103654A4 (en) * | 2019-10-28 | 2021-01-14 | Nanjing Normal University | Method for intelligent construction of place name annotated corpus based on interactive and iterative learning |
US11194972B1 (en) * | 2021-02-19 | 2021-12-07 | Institute Of Automation, Chinese Academy Of Sciences | Semantic sentiment analysis method fusing in-depth features and time sequence models |
CN114004220A (zh) * | 2021-07-27 | 2022-02-01 | 刘德喜 | 一种基于cpc-ann的文本情绪原因识别方法 |
CN114528840A (zh) * | 2022-01-21 | 2022-05-24 | 深圳大学 | 融合上下文信息的中文实体识别方法、终端及存储介质 |
CN115238690A (zh) * | 2021-11-26 | 2022-10-25 | 一拓通信集团股份有限公司 | 一种基于bert的军事领域复合命名实体识别方法 |
WO2023004528A1 (zh) * | 2021-07-26 | 2023-02-02 | 深圳市检验检疫科学研究院 | 一种基于分布式系统的并行化命名实体识别方法及装置 |
CN115879546A (zh) * | 2022-11-29 | 2023-03-31 | 河北工程大学 | 一种复合神经网络心理医学知识图谱构建方法及系统 |
CN116306652A (zh) * | 2023-03-15 | 2023-06-23 | 广东工业大学 | 一种基于注意力机制和BiLSTM的中文命名实体识别模型 |
CN117010387A (zh) * | 2023-01-05 | 2023-11-07 | 国家电网有限公司客户服务中心南方分中心 | 融合注意力机制的RoBERTa-BiLSTM-CRF语音对话文本命名实体识别系统 |
-
2024
- 2024-02-01 CN CN202410142010.2A patent/CN117669574B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2020103654A4 (en) * | 2019-10-28 | 2021-01-14 | Nanjing Normal University | Method for intelligent construction of place name annotated corpus based on interactive and iterative learning |
US11194972B1 (en) * | 2021-02-19 | 2021-12-07 | Institute Of Automation, Chinese Academy Of Sciences | Semantic sentiment analysis method fusing in-depth features and time sequence models |
WO2023004528A1 (zh) * | 2021-07-26 | 2023-02-02 | 深圳市检验检疫科学研究院 | 一种基于分布式系统的并行化命名实体识别方法及装置 |
CN114004220A (zh) * | 2021-07-27 | 2022-02-01 | 刘德喜 | 一种基于cpc-ann的文本情绪原因识别方法 |
CN115238690A (zh) * | 2021-11-26 | 2022-10-25 | 一拓通信集团股份有限公司 | 一种基于bert的军事领域复合命名实体识别方法 |
CN114528840A (zh) * | 2022-01-21 | 2022-05-24 | 深圳大学 | 融合上下文信息的中文实体识别方法、终端及存储介质 |
CN115879546A (zh) * | 2022-11-29 | 2023-03-31 | 河北工程大学 | 一种复合神经网络心理医学知识图谱构建方法及系统 |
CN117010387A (zh) * | 2023-01-05 | 2023-11-07 | 国家电网有限公司客户服务中心南方分中心 | 融合注意力机制的RoBERTa-BiLSTM-CRF语音对话文本命名实体识别系统 |
CN116306652A (zh) * | 2023-03-15 | 2023-06-23 | 广东工业大学 | 一种基于注意力机制和BiLSTM的中文命名实体识别模型 |
Non-Patent Citations (3)
Title |
---|
基于Gate机制与Bi-LSTM-CRF的汉语语义角色标注;张苗苗;张玉洁;刘明童;徐金安;陈钰枫;;计算机与现代化;20180420(第04期);全文 * |
基于预训练BERT字嵌入模型的领域实体识别;丁龙;文雯;林强;;情报工程;20191215(第06期);全文 * |
结合注意力机制的Bi-LSTM-CRF中文电子病历命名实体识别;张华丽;康晓东;李博;王亚鸽;刘汉卿;白放;;计算机应用;20200710(第S1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117669574A (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113158665B (zh) | 一种基于文本摘要生成与双向语料改善对话文本生成的方法 | |
CN114169330B (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN113626589B (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN113987169A (zh) | 基于语义块的文本摘要生成方法、装置、设备及存储介质 | |
CN115879473B (zh) | 基于改进图注意力网络的中文医疗命名实体识别方法 | |
CN110852089B (zh) | 基于智能分词与深度学习的运维项目管理方法 | |
CN115545041B (zh) | 一种增强医疗语句语义向量表示的模型构造方法及系统 | |
CN114020906A (zh) | 基于孪生神经网络的中文医疗文本信息匹配方法及系统 | |
CN117034950A (zh) | 一种引入条件掩码对比学习的长句子嵌入方法和系统 | |
CN114610866A (zh) | 基于全局事件类型的序列到序列联合事件抽取方法和系统 | |
CN111428518B (zh) | 一种低频词翻译方法及装置 | |
Jin et al. | A hybrid Transformer approach for Chinese NER with features augmentation | |
CN113901813A (zh) | 一种基于主题特征和隐式句子结构的事件抽取方法 | |
CN117669574B (zh) | 基于多语义特征融合的人工智能领域实体识别方法及系统 | |
CN111813907A (zh) | 一种自然语言问答技术中的问句意图识别方法 | |
CN116521857A (zh) | 基于图形增强的问题驱动抽象式多文本答案摘要方法与装置 | |
CN116910190A (zh) | 多任务感知模型获取方法、装置、设备及可读存储介质 | |
CN112733526B (zh) | 一种自动识别财税文件中征税对象的抽取方法 | |
CN115481236A (zh) | 一种基于用户兴趣建模的新闻推荐方法 | |
CN114648005A (zh) | 一种多任务联合学习的多片段机器阅读理解方法及装置 | |
CN114510569A (zh) | 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法 | |
CN113947083A (zh) | 一种文档级别命名实体识别方法 | |
Weng et al. | Named entity recognition based on bert-bilstm-span in low resource scenarios | |
CN117807999B (zh) | 基于对抗学习的域自适应命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |