CN115796182A - 一种基于实体级跨模态交互的多模态命名实体识别方法 - Google Patents

一种基于实体级跨模态交互的多模态命名实体识别方法 Download PDF

Info

Publication number
CN115796182A
CN115796182A CN202211486444.1A CN202211486444A CN115796182A CN 115796182 A CN115796182 A CN 115796182A CN 202211486444 A CN202211486444 A CN 202211486444A CN 115796182 A CN115796182 A CN 115796182A
Authority
CN
China
Prior art keywords
entity
modal
target
text
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211486444.1A
Other languages
English (en)
Inventor
李思
赵刚
龚晓成
董冠霆
闫浩龙
史一栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202211486444.1A priority Critical patent/CN115796182A/zh
Publication of CN115796182A publication Critical patent/CN115796182A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供了一种基于实体级跨模态交互的多模态命名实体识别方法,引入实体范围检测作为辅助任务,以抽取实体特征作为文本和视觉模态信息交互的桥梁,同时,提出了一种基于异构图的实体级跨模态交互网络来挖掘视觉模态中的实体信息,增强文本特征,从而应对多模态命名实体识别任务的特有挑战,并提高多模态命名实体识别的性能;通过使用包含完整语义信息的实体特征与目标特征交互,实现更高效地捕获实体相关视觉信息,提高多模态命名实体识别的准确率;通过将非实体词元排除到跨模态交互过程外,保护非实体词元免受视觉模态噪声的干扰,减少图像噪声干扰导致非实体词元误识别为实体的错误情况发生。

Description

一种基于实体级跨模态交互的多模态命名实体识别方法
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于实体级跨模态交互的多模态命名实体识别。
背景技术
近年来,随着人工智能领域中机器学习、深度学习等技术的快速发展和计算机算力的逐渐提高,自然语言处理在各个领域中的应用不断深化,例如使用文本翻译技术实现专业领域文献的翻译、使用对话生成技术实现便捷的语音助手服务、使用信息抽取技术从海量数据中抽取关键信息辅助投资决策等。同时随着互联网的发展及互联网用户的增加,其产生的信息量快速增长且呈现出多模态化的趋势,这使得研发高效自动化文本处理技术受到广泛关注。命名实体识别技术,作为自然语言处理的基础任务之一,其发展对于包括关系抽取、事件抽取在内的其他多项自然语言处理技术进步有着关键的作用。
命名实体识别任务旨在从非结构化文本中检测出命名实体,并将其分类到预定义的类别中,如人名、组织名称、地点名称等。由于命名实体承载了文本中的关键语义信息,命名实体识别是以一项很重要的自然语言处理任务,有着广泛的应用场景,例如在对话意图理解中通过抽取用户话语的实体词来帮助对话系统更准确地理解用户需求;又如在类似微博的社交媒体场景中,利用命名实体识别技术抽取出用户发表短文中的重要实体,帮助分析事件热度和舆情等。此外,作为信息抽取的底层任务,命名实体识别是其上层关系抽取、事件抽取、知识图谱构建等任务的基础,命名实体识别的准确性会直接影响到这些上层任务性能的好坏。
命名实体识别任务即通过设计的某种算法或训练好模型,使计算机自动地对输入文本进行处理,将预先定义好类别的命名实体抽取出来。命名实体识别在传统上采用基于规则和领域词典的方法,需要领域专家预先制定词典和匹配规则,以此去匹配输入文本中的实体。为了提高模型对词典中未出现实体的召回率,一些研究者引入了基于统计的机器学习方法,如隐马尔可夫模型、支持向量机、条件随机场等。为了减少构造词典或设计文本特征耗费的大量人力和时间成本,进一步提高模型泛化能力,近年来很多基于深度学习的方法被应用到命名实体识别中并取得了较好的识别性能,如循环神经网络、长短期记忆网络、大规模预训练语言模型BERT等。
随着互联网的发展,信息逐渐呈现出多模态化的趋势,例如用户在社交媒体上发表短文时常常会图文并茂地描述自己的观点等。在这些场景下,图像和文本两个模态信息相互补充,只有结合两个模态的信息才能更好地理解文本的语义,准确识别短文中的实体。然而现有的大部分命名实体识别方法都是基于纯文本的方法,无法考虑到视觉模态提供的上下文信息,导致在社交媒体等多模态场景下的实体识别效果欠佳。为此,近年来有研究者提出了多模态命名实体识别方法,旨在利用图像模态的实体相关信息辅助进行文本命名实体的识别。多模态命名实体识别同时将文本和附图作为模型输入,在获得文本和视觉特征后,对两个模态的特征进行交互和融合获得多模态特征,然后进行命名实体的解码。与纯文本命名实体识别不同,多模态命名实体识别会面临两个特有的挑战:其一,如何捕获有用的实体相关视觉信息;其二,如何避免图像中噪声对识别带来的干扰。
为了应对多模态命名实体识别的特有挑战,一部分方法通过改进跨模态交互和融合机制来捕获更多实体相关的视觉信息;另一部分方法则是通过寻找更好的视觉特征来表示图像,提升实体识别性能。
如图1所示,现有技术之一的“Adaptive Co-Attention Network for NamedEntity Recognition in Tweets”文章中,提到使用自适应共同注意力网络(Adaptive Co-attention Network)来拓展BiLSTM-CRF命名实体识别模型,以学习图像和文本之间的共享语义:
首先,使用16层VGGNet来对输入图像进行编码,取出最后池化层输出的49个512维向量作为图像49个区域的特征,并使用单层感知机将图像特征投影到和文本特征同维度的空间中。其次,使用卷积神经网络获得字符级别的文本特征,再使用双向长短期记忆网络(LSTM)来对文本特征进行序列建模,获得双向语境化的文本特征。第三,将文本和图像特征送入自适应共注意力网络中进行信息交互和融合,依次计算文本引导的图像特征和图像引导的文本特征,并通过门控融合机制获得多模态特征。最后,将文本特征和多模态特征拼接起来,使用条件随机场进行序列标注,解码出命名实体。
如图2所示,现有技术之二的“Object-aware Multimodal Named EntityRecognition in Social Media Posts with Adversarial Learning”文章提出使用视觉目标(Visual Object)作为图像的特征以考虑到视觉对象和实体之间的对应关系,并引入对抗学习(Adversarial Learning)来进一步增强文本和视觉特征:
首先,使用在COCO数据集上预先训练好的Mask RCNN模型检测输入图像中的视觉目标,取出Mask RCNN最后池化层输出中分类概率最高的k个1024维向量作为目标特征,并使用前馈神经网络将目标特征投影到和文本特征同维度的空间中。其次,使用双向长短期记忆网络获得字符级特征,并与基于GloVe的单词级特征拼接作为文本特征,将文本特征再送入到双向长短期记忆网络中以获得双向语境化的文本特征。第三,在训练时将文本特征和视觉目标特征混合送入前馈神经网络,并使用模态分类器进行对抗学习分类以对特征进行增强。最后,将文本特征和视觉目标特征送入门控双线性注意力网络(Gated BilinearAttention Network)中进行信息交互和融合,并使用条件随机场进行序列标注,解码出命名实体。
发明人在研究的过程中发现:对于“Adaptive Co-Attention Network for NamedEntity Recognition in Tweets”、“Object-aware Multimodal Named EntityRecognition in Social Media Posts with Adversarial Learning”现有技术中:
1、在跨模态信息交互时采用词元(Token)级别的交互,直接将词元与图像标注交互割裂了实体的完整语义;
2、将包括非实体词元在内得全部词元与视觉特征交互,使得非实体词元容易受到图像噪声的干扰。
由于上述技术问题导致于现有技术中存在以下缺点:
1、词元级交互割裂了实体语义,捕获实体相关视觉信息的效率较低,图像中的有用信息难以被充分利用,导致最后多模态命名实体识别效果欠佳;
2、将全部词元与视觉特征交互使得非实体词元易受干扰,导致非实体词元易被错误识别为命名实体。
发明内容
为了解决上述技术问题,本发明提供了一种基于实体级跨模态交互的多模态命名实体识别方法,引入实体范围检测作为辅助任务,以抽取实体特征作为文本和视觉模态的桥梁,同时,提出了一种基于异构图的实体级跨模态交互网络,使用包含完整实体语义信息的实体特征与视觉目标特征进行交互以充分捕获实体相关的视觉信息,并将非实体词元排除在跨模态交互过程之外以减少其受到的视觉噪声干扰,提高了多模态命名实体识别的性能。
本发明提供了一种基于实体级跨模态交互的多模态命名实体识别方法,在模型训练时,该方法包括:
步骤一、将输入文本利用词典进行词元化切分,使用预训练语言模型BERT将文本词元序列映射为向量表示,输入的待命名实体识别文本即数值化为每个词元向量列连接而成的文本编码矩阵;
步骤二、将文本编码矩阵输入到第一个Transformer层,通过多头注意力机制获得语境化词元特征表示,使用线性变换将语境化词元特征表示投影到多模态空间得到投影词元特征;
步骤三、将文本编码矩阵输入到第二个Transformer层,获得实体范围检测子任务的特定词元特征,将特定词元特征和实体范围检测真实标签输入条件随机场(ConditionalRandom Field,CRF),计算实体范围检测损失函数,并由维特比译码解码得到实体范围检测结果;
步骤四、将投影词元特征根据实体范围检测结果进行最大池化(Max Pooling),得到实体特征;
步骤五、将输入图像利用DETR模型进行视觉目标检测,检测到的全部视觉目标区域裁剪后与输入图像一起送入ResNet模型进行编码,输入图像即被编码为每个目标向量列连接而成的目标编码矩阵;
步骤六、将目标编码矩阵输入带有ReLU激活函数的多层感知机,将目标编码矩阵投影到多模态空间,得到投影目标特征;
步骤七、将投影词元特征、投影目标特征和实体特征视作词元结点、目标结点、实体结点,使用实体-词元边、实体-目标边、同模态边连接三种结点,得到多模态异构图;
步骤八、将多模态异构图输入跨模态交互网络中,根据每种类型的边进行同模态和跨模态信息的交互和融合,得到多模态词元特征;
步骤九、将多模态词元特征和词元的命名实体识别真实标签输入条件随机场中,计算多模态命名实体识别损失函数;
步骤十、将多模态命名实体识别损失函数和实体范围检测损失函数进行加权求和,得到整体损失函数,使用反向传播算法(Back Propagation,BP)计算梯度,并使用Adam优化器优化整体损失函数更新模型各层权重。
进一步的,非训练情况下,进行多模态命名实体识别时,将步骤十除去,并将步骤三、步骤九予以替换,替换如下:
步骤三、将文本编码矩阵输入到第二个Transformer层,获得实体范围检测子任务的特定词元特征,将其输入条件随机场,使用维特比译码解码得到实体范围检测结果;
步骤九、将多模态词元特征输入条件随机场中,使用维特比译码解码得到多模态命名实体识别结果。
进一步的,所述步骤二中,Transformer层中的多头注意力机制计算如下:
Figure BDA0003962571820000051
其中,concat是向量拼接操作,head是注意力头数,是权重矩阵,Attention是单头自注意力机制,Qi、Ki、Vi分别为第i个头的查询矩阵、键矩阵和值矩阵;
其中,单头自注意力机制Attention的计算如下:
Attention(Q,K,V)=A·V
Figure BDA0003962571820000052
其中,d是键向量的维度。
进一步的,所述步骤三中,使用条件随机场计算得到实体范围检测损失函数,计算过程如下:
Figure BDA0003962571820000061
Figure BDA0003962571820000062
Figure BDA0003962571820000063
其中,n是样本的个数,Score(Z|X)是预测标签序列的综合得分,
Figure BDA0003962571820000064
是由标签zi+1到zi+1的转移得分,
Figure BDA0003962571820000065
是由词元特征映射到标签zi的发射分数。
进一步的,所述步骤八中,跨模态交互网络的信息交互和融合分别沿同模态边、实体-目标边、实体-词元边进行,其中,同模态边交互计算过程如下:
Figure BDA0003962571820000066
其中,m∈{T,V},T代表文本模态,V代表图像模态,
Figure BDA0003962571820000067
是结点在第l层图网络的隐特征,
Figure BDA0003962571820000068
是第l层图网络结点经过同模态信息交互后的特征;
其中,实体-目标边的跨模态交互计算过程如下:
Figure BDA0003962571820000069
Figure BDA00039625718200000610
Figure BDA00039625718200000611
其中,
Figure BDA00039625718200000612
是第l层图网络实体结点的特征,
Figure BDA00039625718200000613
是第l层图网络实体引导的跨模态多头注意力,
Figure BDA00039625718200000614
Figure BDA00039625718200000615
是可学习的权重矩阵,σ是Sigmoid激活函数,
Figure BDA00039625718200000616
是第l层图网络跨模态融合比例,
Figure BDA00039625718200000617
是融入视觉信息后的实体特征;
其中,实体-词元边的信息融合计算过程如下:
Figure BDA00039625718200000618
Figure BDA00039625718200000619
其中,
Figure BDA0003962571820000071
是第l层图网络第j个实体结点特征,
Figure BDA0003962571820000072
是组成
Figure BDA0003962571820000073
的词元,
Figure BDA0003962571820000074
Figure BDA0003962571820000075
是可学习的权重矩阵,
Figure BDA0003962571820000076
是跨模态融合比例,
Figure BDA0003962571820000077
是融入视觉信息后的词元特征。
进一步的,所述步骤九中,使用条件随机场计算得到多模态命名实体识别损失函数,计算过程如下:
Figure BDA0003962571820000078
Figure BDA0003962571820000079
Figure BDA00039625718200000710
其中,n是样本的个数,Score(Y|X)是预测标签序列的综合得分,
Figure BDA00039625718200000711
是由标签yi到,yi+1的转移得分,
Figure BDA00039625718200000712
是由词元特征映射到标签yi的发射分数。
本发明提供的一种基于实体级跨模态交互的多模态命名实体识别方法,使用实体范围检测作为辅助任务获取实体特征,提出了一种基于异构图的实体级跨模态交互网络挖掘视觉模态中的实体信息以增强文本特征,提高多模态命名实体识别的性能;通过使用包含完整语义信息的实体特征与目标特征交互,实现更高效地捕获实体相关视觉信息;通过将非实体词元排除到跨模态交互过程外,保护非实体词元免受视觉模态噪声的干扰,提高多模态命名实体识别的准确率。
附图说明
图1为自适应共同注意力网络(Adaptive Co-attention Network)示意图;
图2为基于对抗学习(Adversarial Learning)的门控双线性注意力网络(GatedBilinear Attention Network)示意图;
图3为实施例一的流程图;
图4为本发明提供的一种基于实体级跨模态交互的多模态命名实体识别方法流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。其中,本实施例中出现的缩略语和关键术语定义如下:
BP:Back Propagation反向传播;
CRF:Conditional Random Field条件随机场;
NLP:Natural Language Processing自然语言处理;
ReLU:Rectified Linear Unit线性整流函数,是一种激活函数;
BERT:Bidirectional Encoder Representation from Transformers基于Transformer的双向编码器表示,是一种预训练模型;
BiLSTM:Bi-directional Long Short-Term Memory双向长短期记忆神经网络;
COCO:Common Objects in Context微软图像识别数据集;
GloVe:Global Vectors for Word Representation基于全局统计的词表征模型;
DETR:Detection Transformer:一种基于Transformer的目标检测模型;
Adam:A method for Stochastic Optimizaiton一种随机梯度下降方法。
实施例一
参照图3、4所示,图3,4示出了本发明提供的一种基于实体级跨模态交互的多模态命名实体识别方法,具体的,在模型训练时,该方法包括:
步骤一、将输入文本利用词典进行词元化切分,使用预训练语言模型BERT将文本词元序列映射为向量表示,输入的待命名实体识别文本即数值化为每个词元向量列连接而成的文本编码矩阵;
其中,本实施例中设置最大句子长度为128,预训练语言模型BERT是在33亿单词、25亿维基百科和8亿文本语料上预训练后得到的,其中Transformer层数为设置为12,每一个词元的特征向量维度设置为768。
步骤二、将文本编码矩阵输入到第一个Transformer层,通过多头注意力机制获得语境化词元特征表示,使用线性变换将语境化词元特征表示投影到多模态空间得到投影词元特征;
进一步的,所述步骤二中,Transformer层中的多头注意力机制计算如下:
Figure BDA0003962571820000091
其中,concat是向量拼接操作,head是注意力头数,是权重矩阵,Attention是单头自注意力机制,Qi、Ki、Vi分别为第i个头的查询矩阵、键矩阵和值矩阵;
其中,单头自注意力机制Attention的计算如下:
Attention(Q,K,V)=A·V
Figure BDA0003962571820000092
其中,d是键向量的维度;
本实施例中,Transformer中多头注意力机制的头数设置为8,Transformer的层数设置为4,采用ReLU函数作为激活函数,引入dropout随机将一部分参数置零,以避免过拟合,投影词元特征的维度为512维。
步骤三、将文本编码矩阵输入到第二个Transformer层,获得实体范围检测子任务的特定词元特征,将特定词元特征和实体范围检测真实标签输入条件随机场(ConditionalRandom Field,CRF),计算实体范围检测损失函数,并由维特比译码解码得到实体范围检测结果;
进一步的,所述步骤三中,使用条件随机场计算得到实体范围检测损失函数,计算过程如下:
Figure BDA0003962571820000101
Figure BDA0003962571820000102
Figure BDA0003962571820000103
其中,n是样本的个数,Score(Z|X)是预测标签序列的综合得分,
Figure BDA0003962571820000104
是由标签zi+1到zi+1的转移得分,
Figure BDA0003962571820000105
是由词元特征映射到标签zi的发射分数。
本实施例中,Transformer中多头注意力机制的头数设置为8,Transformer的层数设置为4,在获得实体范围检测结果时为避免误差传播,本发明引入Schedule Sampling机制,在训练时逐渐将实体范围检测结果从真实标签转换为实际预测标签。
步骤四、将投影词元特征根据实体范围检测结果进行最大池化(Max Pooling),得到实体特征;
本实例中,实体特征的维度设置为512。
步骤五、将输入图像利用DETR模型进行视觉目标检测,检测到的全部视觉目标区域裁剪后与输入图像一起送入ResNet模型进行编码,输入图像即被编码为每个目标向量列连接而成的目标编码矩阵;
本实例中,目标检测模型DETR在COCO数据集上进行预训练,ResNet采用152层模型架构,视觉目标特征的维度设置为2048。
步骤六、将目标编码矩阵输入带有ReLU激活函数的多层感知机,将目标编码矩阵投影到多模态空间,得到投影目标特征;
本实例中多层感知机的层数设置为3,投影目标表征的维度设置为512。
步骤七、将投影词元特征、投影目标特征和实体特征视作词元结点、目标结点、实体结点,使用实体-词元边、实体-目标边、同模态边连接三种结点,得到多模态异构图;
步骤八、将多模态异构图输入跨模态交互网络中,根据每种类型的边进行同模态和跨模态信息的交互和融合,得到多模态词元特征;
进一步的,所述步骤八中,跨模态交互网络的信息交互和融合分别沿同模态边、实体-目标边、实体-词元边进行,其中,同模态边交互计算过程如下:
Figure BDA0003962571820000111
其中,m∈{T,V},T代表文本模态,V代表图像模态,
Figure BDA0003962571820000112
是结点在第l层图网络的隐特征,
Figure BDA0003962571820000113
是第l层图网络结点经过同模态信息交互后的特征;
其中,实体-目标边的跨模态交互计算过程如下:
Figure BDA0003962571820000114
Figure BDA0003962571820000115
Figure BDA0003962571820000116
其中,
Figure BDA0003962571820000117
是第l层图网络实体结点的特征,
Figure BDA0003962571820000118
是第l层图网络实体引导的跨模态多头注意力,
Figure BDA0003962571820000119
Figure BDA00039625718200001110
是可学习的权重矩阵,σ是Sigmoid激活函数,
Figure BDA00039625718200001111
是第l层图网络跨模态融合比例,
Figure BDA00039625718200001112
是融入视觉信息后的实体特征;
其中,实体-词元边的信息融合计算过程如下:
Figure BDA00039625718200001113
Figure BDA00039625718200001114
其中,
Figure BDA00039625718200001115
是第l层图网络第j个实体结点特征,
Figure BDA00039625718200001116
是组成
Figure BDA00039625718200001117
的词元,
Figure BDA00039625718200001118
Figure BDA00039625718200001119
是可学习的权重矩阵,
Figure BDA00039625718200001120
是跨模态融合比例,
Figure BDA00039625718200001121
是融入视觉信息后的词元特征。
本实例中,异构图交互网络的层数设置为6,dropout率设置为0.4,图网络隐藏层特征维度设置为256,多头注意力机制头数设置为8。
步骤九、将多模态词元特征和词元的命名实体识别真实标签输入条件随机场中,计算多模态命名实体识别损失函数;
进一步的,所述步骤九中,使用条件随机场计算得到多模态命名实体识别损失函数,计算过程如下:
Figure BDA0003962571820000121
Figure BDA0003962571820000122
Figure BDA0003962571820000123
其中,n是样本的个数,Score(Y|X)是预测标签序列的综合得分,
Figure BDA0003962571820000124
是由标签yi到,yi+1的转移得分,
Figure BDA0003962571820000125
是由词元特征映射到标签yi的发射分数。
步骤十、将多模态命名实体识别损失函数和实体范围检测损失函数进行加权求和,得到整体损失函数,使用反向传播算法(Back Propagation,BP)计算梯度,并使用Adam优化器优化整体损失函数更新模型各层权重。
本实例中,多模态命名实体识别损失函数和实体范围检测损失函数在整体损失函数中的权重均设置为0.5,Adam优化器的学习率设置为0.00003,训练批量大小设置为16,训练迭代轮数设置为50。
进一步的,非训练情况下,进行多模态命名实体识别时,将步骤十除去,并将步骤三、步骤九予以替换,替换如下:
步骤三、将文本编码矩阵输入到第二个Transformer层,获得实体范围检测子任务的特定词元特征,将其输入条件随机场,使用维特比译码解码得到实体范围检测结果;
步骤九、将多模态词元特征输入条件随机场中,使用维特比译码解码得到多模态命名实体识别结果。
一优选实施例,如图3所示,首先将输入句子词元化切分并送入BERT编码,提取一句话中每个词元的特征向量,得到词元向量列连接而成的文本编码矩阵;将文本编码矩阵输入第一个Transformer层,获得语境化词元特征表示,并使用线性变换将其投影到多模态空间得到投影词元特征;将文本编码矩阵输入第二个Transformer层,获得实体范围检测子任务的特定词元特征;在训练过程中,将实体范围检测特定词元特征输入CRF中,计算得到实体范围检测损失函数,并通过维特比译码解码实体范围检测结果;在非训练情况下,将实体范围检测特定词元特征和真实标签输入CRF中,使用维特比译码解码实体范围检测结果;将投影词元特征根据实体范围检测结果进行最大池化,获得实体的特征;将输入图像送入DETR进行目标检测并将图像按照目标区域裁剪,得到视觉目标区域的图像;将目标区域图像和原输入图像一起送入152层ResNet中编码,得到视觉目标特征,并使用多层感知机将目标特征映射到多模态空间,得到投影目标特征;将投影词元特征、投影目标特征、实体特征使用实体-词元边、实体-目标边、同模态边连接得到多模态异构图;将多模态异构图输入跨模态交互网络中,根据三种类型的边进行信息的交互和融合,得到多模态词元特征;在训练过程中,将多模态词元特征和真实标签输入CRF中,计算多模态命名实体识别损失函数,与实体范围检测损失函数加权求和得到总损失函数,使用Adam优化器对总损失函数进行最小优化更新模型参数;在非训练情况下,将将多模态词元特征输入CRF中,使用维特比译码解码得到最终的多模态命名实体识别结果。
本发明实施例一使用实体范围检测作为辅助任务获取实体特征,提出了一种基于异构图的实体级跨模态交互网络挖掘视觉模态中的实体信息以增强文本特征,提高了多模态命名实体识别的性能;通过使用包含完整语义信息的实体特征与目标特征交互,实现了更高效地捕获实体相关视觉信息;通过将非实体词元排除到跨模态交互过程外,保护非实体词元免受视觉模态噪声的干扰,提高了多模态命名实体识别的准确率。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (6)

1.一种基于实体级跨模态交互的多模态命名实体识别方法,其特征在于,在模型训练时,该方法包括:
步骤一、将输入文本利用词典进行词元化切分,使用预训练语言模型BERT将文本词元序列映射为向量表示,输入的待命名实体识别文本即数值化为每个词元向量列连接而成的文本编码矩阵;
步骤二、将文本编码矩阵输入到第一个Transformer层,通过多头注意力机制获得语境化词元特征表示,使用线性变换将语境化词元特征表示投影到多模态空间得到投影词元特征;
步骤三、将文本编码矩阵输入到第二个Transformer层,获得实体范围检测子任务的特定词元特征,将特定词元特征和实体范围检测真实标签输入条件随机场(ConditionalRandom Field,CRF),计算实体范围检测损失函数,并由维特比译码解码得到实体范围检测结果;
步骤四、将投影词元特征根据实体范围检测结果进行最大池化(Max Pooling),得到实体特征;
步骤五、将输入图像利用DETR模型进行视觉目标检测,检测到的全部视觉目标区域裁剪后与输入图像一起送入ResNet模型进行编码,输入图像即被编码为每个目标向量列连接而成的目标编码矩阵;
步骤六、将目标编码矩阵输入带有ReLU激活函数的多层感知机,将目标编码矩阵投影到多模态空间,得到投影目标特征;
步骤七、将投影词元特征、投影目标特征和实体特征视作词元结点、目标结点、实体结点,使用实体-词元边、实体-目标边、同模态边连接三种结点,得到多模态异构图;
步骤八、将多模态异构图输入跨模态交互网络中,根据每种类型的边进行同模态和跨模态信息的交互和融合,得到多模态词元特征;
步骤九、将多模态词元特征和词元的命名实体识别真实标签输入条件随机场中,计算多模态命名实体识别损失函数;
步骤十、将多模态命名实体识别损失函数和实体范围检测损失函数进行加权求和,得到整体损失函数,使用反向传播算法(Back Propagation,BP)计算梯度,并使用Adam优化器优化整体损失函数更新模型各层权重。
2.如权利要求1所述的方法,其特征在于,非训练情况下,进行多模态命名实体识别时,将步骤十除去,并将步骤三、步骤九予以替换,替换如下:
步骤三、将文本编码矩阵输入到第二个Transformer层,获得实体范围检测子任务的特定词元特征,将其输入条件随机场,使用维特比译码解码得到实体范围检测结果;
步骤九、将多模态词元特征输入条件随机场中,使用维特比译码解码得到多模态命名实体识别结果。
3.如权利要求1所述的方法,其特征在于,所述步骤二中,Transformer层中的多头注意力机制计算如下:
Figure FDA0003962571810000021
其中,concat是向量拼接操作,head是注意力头数,是权重矩阵,Attention是单头自注意力机制,Qi、Ki、Vi分别为第i个头的查询矩阵、键矩阵和值矩阵;
其中,单头自注意力机制Attention的计算如下:
Attention(Q,K,V)=A·V
Figure FDA0003962571810000022
其中,d是键向量的维度。
4.如权利要求1所述的方法,其特征在于,所述步骤三中,使用条件随机场计算得到实体范围检测损失函数,计算过程如下:
Figure FDA0003962571810000023
Figure FDA0003962571810000024
Figure FDA0003962571810000025
其中,n是样本的个数,Score(Z|X)是预测标签序列的综合得分,
Figure FDA0003962571810000031
是由标签zi+1到zi+1的转移得分,
Figure FDA0003962571810000032
是由词元特征映射到标签zi的发射分数。
5.如权利要求1所述的方法,其特征在于,所述步骤八中,跨模态交互网络的信息交互和融合分别沿同模态边、实体-目标边、实体-词元边进行,其中,同模态边交互计算过程如下:
Figure FDA0003962571810000033
其中,m∈{T,V},T代表文本模态,V代表图像模态,
Figure FDA0003962571810000034
是结点在第l层图网络的隐特征,
Figure FDA0003962571810000035
是第l层图网络结点经过同模态信息交互后的特征;
其中,实体-目标边的跨模态交互计算过程如下:
Figure FDA0003962571810000036
Figure FDA0003962571810000037
Figure FDA0003962571810000038
其中,
Figure FDA0003962571810000039
是第l层图网络实体结点的特征,
Figure FDA00039625718100000310
是第l层图网络实体引导的跨模态多头注意力,
Figure FDA00039625718100000311
Figure FDA00039625718100000312
是可学习的权重矩阵,σ是Sigmoid激活函数,
Figure FDA00039625718100000313
是第l层图网络跨模态融合比例,
Figure FDA00039625718100000314
是融入视觉信息后的实体特征;
其中,实体-词元边的信息融合计算过程如下:
Figure FDA00039625718100000315
Figure FDA00039625718100000316
其中,
Figure FDA00039625718100000317
是第l层图网络第j个实体结点特征,
Figure FDA00039625718100000318
是组成
Figure FDA00039625718100000319
的词元,
Figure FDA00039625718100000320
Figure FDA00039625718100000321
是可学习的权重矩阵,
Figure FDA00039625718100000322
是跨模态融合比例,
Figure FDA00039625718100000323
是融入视觉信息后的词元特征。
6.如权利要求1所述的方法,其特征在于,所述步骤九中,使用条件随机场计算得到多模态命名实体识别损失函数,计算过程如下:
Figure FDA00039625718100000324
Figure FDA0003962571810000041
Figure FDA0003962571810000042
其中,n是样本的个数,Score(Y|X)是预测标签序列的综合得分,
Figure FDA0003962571810000043
是由标签yi到,yi+1的转移得分,
Figure FDA0003962571810000044
是由词元特征映射到标签yi的发射分数。
CN202211486444.1A 2022-11-24 2022-11-24 一种基于实体级跨模态交互的多模态命名实体识别方法 Pending CN115796182A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211486444.1A CN115796182A (zh) 2022-11-24 2022-11-24 一种基于实体级跨模态交互的多模态命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211486444.1A CN115796182A (zh) 2022-11-24 2022-11-24 一种基于实体级跨模态交互的多模态命名实体识别方法

Publications (1)

Publication Number Publication Date
CN115796182A true CN115796182A (zh) 2023-03-14

Family

ID=85441296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211486444.1A Pending CN115796182A (zh) 2022-11-24 2022-11-24 一种基于实体级跨模态交互的多模态命名实体识别方法

Country Status (1)

Country Link
CN (1) CN115796182A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116822515A (zh) * 2023-06-21 2023-09-29 哈尔滨理工大学 一种基于实体跨度定位视觉区域的多模态命名实体识别方法及系统
CN116561326B (zh) * 2023-07-10 2023-10-13 中国传媒大学 基于标签增强的图像文本事件抽取方法、系统、设备
CN117542063A (zh) * 2024-01-10 2024-02-09 华南理工大学 一种多语言多模态多分支文档视觉信息抽取方法
CN117809150A (zh) * 2024-02-27 2024-04-02 广东工业大学 基于跨模态注意力机制的多模态错误信息检测方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116822515A (zh) * 2023-06-21 2023-09-29 哈尔滨理工大学 一种基于实体跨度定位视觉区域的多模态命名实体识别方法及系统
CN116561326B (zh) * 2023-07-10 2023-10-13 中国传媒大学 基于标签增强的图像文本事件抽取方法、系统、设备
CN117542063A (zh) * 2024-01-10 2024-02-09 华南理工大学 一种多语言多模态多分支文档视觉信息抽取方法
CN117542063B (zh) * 2024-01-10 2024-04-09 华南理工大学 一种多语言多模态多分支文档视觉信息抽取方法
CN117809150A (zh) * 2024-02-27 2024-04-02 广东工业大学 基于跨模态注意力机制的多模态错误信息检测方法及系统
CN117809150B (zh) * 2024-02-27 2024-04-30 广东工业大学 基于跨模态注意力机制的多模态错误信息检测方法及系统

Similar Documents

Publication Publication Date Title
CN109101537B (zh) 基于深度学习的多轮对话数据分类方法、装置和电子设备
CN108959482B (zh) 基于深度学习的单轮对话数据分类方法、装置和电子设备
CN111159407B (zh) 训练实体识别和关系分类模型的方法、装置、设备及介质
CN112989834A (zh) 一种基于平格增强线性转换器的命名实体识别方法和系统
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN113704460B (zh) 一种文本分类方法、装置、电子设备和存储介质
CN111985205A (zh) 一种方面级情感分类模型
CN114330354B (zh) 一种基于词汇增强的事件抽取方法、装置及存储介质
CN114428850B (zh) 一种文本检索匹配方法和系统
CN116204674B (zh) 一种基于视觉概念词关联结构化建模的图像描述方法
Chen et al. A few-shot transfer learning approach using text-label embedding with legal attributes for law article prediction
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
Madhfar et al. Effective deep learning models for automatic diacritization of Arabic text
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
CN113705238A (zh) 基于bert和方面特征定位模型的方面级情感分析方法及模型
CN113282714A (zh) 一种基于区分性词向量表示的事件检测方法
Zhang et al. Joint model of entity recognition and relation extraction based on artificial neural network
CN117574904A (zh) 基于对比学习和多模态语义交互的命名实体识别方法
CN117094291A (zh) 基于智能写作的自动新闻生成系统
CN112036189A (zh) 一种金文语义识别方法和系统
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
CN115964497A (zh) 一种融合注意力机制与卷积神经网络的事件抽取方法
CN116562291A (zh) 一种基于边界检测的中文嵌套命名实体识别方法
CN114417891B (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination