CN115062174A - 基于语义原型树的端到端图像字幕生成方法 - Google Patents

基于语义原型树的端到端图像字幕生成方法 Download PDF

Info

Publication number
CN115062174A
CN115062174A CN202210683376.1A CN202210683376A CN115062174A CN 115062174 A CN115062174 A CN 115062174A CN 202210683376 A CN202210683376 A CN 202210683376A CN 115062174 A CN115062174 A CN 115062174A
Authority
CN
China
Prior art keywords
semantic
information
prototype
module
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210683376.1A
Other languages
English (en)
Inventor
高联丽
朱晋宽
顾嘉扬
曾鹏鹏
宋井宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210683376.1A priority Critical patent/CN115062174A/zh
Publication of CN115062174A publication Critical patent/CN115062174A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于语义原型树的端到端图像字幕生成方法,涉及跨模态信息理解技术领域,解决了传统方法中特征所处领域与下游任务领域有所割裂的问题,以及得到的语义概念词与图像内容无关导致生成的描述不准确的问题,包在设计的端到端方法中,构建一个可训练的视觉编码器,基于当前给定的原始图片信息,能够提取出图像的栅格信息,构建提取器TSP,该模块的输入是词库里的所有词,模块利用分词算法和分层聚类算法,输出树结构的原型语义词基于交叉注意力机制,渐进地融合语义信息与栅格特征,进行跨模态与跨空间域的对象表征学习,得到语义强化的视觉表征向量将改进的栅格特征送入其中,得到模型预测的描述结果,并计算预测损失。

Description

基于语义原型树的端到端图像字幕生成方法
技术领域
本发明涉及跨模态信息理解技术领域,更具体的是涉及基于语义原型树的端到端图像字幕生成方法。
背景技术
近年来,随着深度神经网络技术的快速发展,和图像、文本等数据的爆炸式增长,图像认知、文本理解等单模态技术已经日趋成熟,并被广泛应用于各个领域。但是,图像字幕生成技术由于身处跨模态领域,往往存在视频信息与文本信息密度不对等的问题,导致即便图像信息提取模块能维持较高的认知水平,文本生成模块却缺乏与之对应水准的理解能力,导致后者无法充分利用图像特征生成准确无误的解释性文本,从而未能得到广泛的支持和应用。
其中,图像描述生成任务是一种功能性较强、应用前景广泛的图像多模态技术,它利用用户给出的一张图片,在线地对图片内容进行表征学习和逻辑推理,通过进一步完成文本和视觉模态信息之间的语义对齐,最终给出一个合适的文本描述。由于图像描述生成技术满足基于语言的人机交互范式,因此该研究有助于基于内容的图像信息检索、情景分析和视觉障碍辅助等领域的发展。
学习图像字幕生成技术的主流解决方案是一种两阶段模型,它旨在用预训练的视觉编码器来解析图像特征,然后通过这些提取好的离线图像特征,利用注意力机制来推理出描述词汇。然而,这种传统的两阶段模型存在两个问题。首先,这种离线的图像特征的提取过程耗时较长,导致整体模型难以应用到实时的在线场景中,以及,这种在别的预训练任务上训练的预训练模型提取的图像特征与下游的跨模态任务所需要的图像特征之间存在差异,导致基于不合适的图像特征推理得到的图像描述也是不贴切的;其次,这些方法局限于探索图像与文本信息之间的联系,而未考虑先验性的知识概念信息,这与人类认知过程的本质并不一致。具体地,当一个人类要求对图像进行概括性描述时,人类会先从大脑中挑出一部分符合这个图像大致内容的文本信息,缩小了生成描述时的检索空间,并将这些检索的词语作为推理过程中的指导。然而目前的图像描述生成方法对这一论点的理解仅停留在生硬而随机的概念选取上,并不能系统、高效地从词库中检索出对应的词语,导致模型待搜索的解空间仍停留在一个较大的范围。
发明内容
本发明的目的在于:提供一种基于语义原型树的端到端图像字幕生成方法,解决了传统方法中特征所处领域与下游任务领域有所割裂的问题,以及得到的语义概念词与图像内容无关导致生成的描述不准确的问题。
本发明为了实现上述目的具体采用以下技术方案:
基于语义原型树的端到端图像字幕生成方法,包括以下步骤:
S1:在设计的端到端方法中,构建一个可训练的视觉编码器,基于当前给定的原始图片信息,能够提取出图像的栅格信息,作为后续用于推理的视觉信息的基础;
S2:为了能让不同粒度的语义信息来辅助图像描述的生成,构建了一个用于提取语义原型树的提取器TSP,该模块的输入是词库里的所有词,模块利用分词算法和分层聚类算法,输出树结构的原型语义词;
S3:在S2的基础上,基于交叉注意力机制,渐进地融合语义信息与栅格特征,进行跨模态与跨空间域的对象表征学习,得到语义强化的视觉表征向量;
S4:采用基于Transformer结构的解码器,将改进的栅格特征送入其中,得到模型预测的描述结果,并计算预测损失。
作为一种可选的技术方案,所述S1具体包括:
首先,将输入图像I∈RHxWx3分割为B个不相交的补丁区域,将局部区域记为I∈RPxPx3;其中{H,W}和{P,P}分别表示输入图像和补丁区域的大小;根据以上信息可以得到,补丁区域的数据N=(H×W)/P2,同时N还要作为视频序列的长度信息输入到视觉编码器中;然后将这些补丁进行平铺操作并输入到一个可训练的嵌入层得到补丁嵌入向量;
然后,为了保留位置信息,位置嵌入也被融合到补丁嵌入向量中,补丁嵌入向量经过4个编码阶段,每个阶段包含一个补丁特征融合层和多个相邻的编码器核心单元,用于获得分层次的视觉表征;
最终,将视觉编码器最后一个阶段输出的特征作为网格特征,用G来表示,并将其输入到下一个模块中。
作为一种可选的技术方案,所述补丁特征融合层通过将2x2个补丁区域特征进行拼接,将局部特征的总规模缩小到原来的四分之一;每个核心单元由基于移位窗口的多头自注意力模块、多层感知器模块、GELU非线性层和归一化模块组成,多个核心单元能在保持原本不重叠窗口有效计算的同时引入跨窗口的连接,显著增强了整体模型的表征能力。
作为一种可选的技术方案,所述S2中树结构的语义原型信息的提取器TSP中包含两个步骤,分别是语义概念信息初始化操作和分层聚类操作;
TSP首先会对词库中词性为名词、形容词和动词的单词进行筛选,并用其初始化语义概念信息,记作X;随后,根据一个简而有效的分层聚类算法,得到一系列树结构的语义原型向量信息。
作为一种可选的技术方案,所述分层聚类算法,如下表示:
Figure BDA0003698617590000031
其中,给定概念词的词嵌入表示X,分层数目L,每层所包含的原型词数目F1,...,FL
Figure BDA0003698617590000032
表示第I层、第f个聚类词,Fl表示第I层所包含的原型词数目;
首先,使用聚类算法(K-Means、gmm)在X上进行聚类,完成第一层的语义原型向量信息Z1,其中每一个原型向量都代表着一些相似语义的概念词的语义中心;在初始化第一层原型信息之后,TSP迭代地生成剩下每一层的、代表着更概括的语义层次的原型语义信息。
作为一种可选的技术方案,所述S3具体包括:
S3.1、为了使树结构的原型词向量能够辅助图像描述的生成,步骤S3中包含一个渐进的特征融合模块,将视觉栅格信息与原型词向量信息进行渐进地融合,从而得到一个语义强化后的视觉特征,视觉特征会先与粗粒度的语义信息进行融合,后与细粒度的语义信息融合;
S3.2、在两个步骤的融合过程中,给定栅格特征G和树结构的原型语义向量Z,步骤S3会使用多头交叉注意力模块CMA,为栅格特征注入语义信息;
以第一个步骤的融合为例,该模块将栅格特征G映射为查询,语义原型向量映射为键和值,第i个交叉注意力模块CMAi可以表示为:
Figure BDA0003698617590000041
Figure BDA0003698617590000042
其中,MHA、FFN、LN都是未经更改的多头注意力机制,Zi表示第i层的原型向量,WQ、WK、WVRDxD都是可学习的参数矩阵,D表示特征维度;Gi表示输入到第i层交叉注意力模块的栅格特征,
Figure BDA0003698617590000043
表示在第i个交叉注意力模块中,经过多头注意力机制和LN层得到的栅格特征,Gi+1表示第i个交叉注意力模块输出的栅格特征;
为了简便表示,本模块的总体执行过程可以表示为如下形式:
Gi+1=CMAi(Gi,Zi),i=1,…,l
其中,G1用视觉编码器的输出G来初始化,L表示堆叠的交叉注意力模块数目,最终经过语义强化的视觉信息
Figure BDA0003698617590000044
作为本步骤的输出,随后会被输入到基于Transformer的解码器中获得图像描述。
作为一种可选的技术方案,所述S4中的计算预测损失的过程为:
Figure BDA0003698617590000045
其中,
Figure BDA0003698617590000046
是目标真值描述,
Figure BDA0003698617590000047
是模型预测的描述,T表示序列长度,t表示在总长为T的句子中,某个词语在其中的位置,在完成了一定的迭代次数后,本步骤将强化学习引入训练过程,对CIDEr得分进行了优化;
强化学习的损失函数LRL和相关参数表示如下:
Figure BDA0003698617590000051
其中,r(s1:T)表示生成描述s1:T的CIDEr-D得分,强化学习的目标是最大限度地降低负奖励期望;
LRL的梯度表示如下:
Figure BDA0003698617590000052
其中k是采样序列的个数,
Figure BDA0003698617590000053
表示第i个采样的序列,b是所有采样序列CIDEr-D得分的平均值)
本发明的有益效果如下:
1.首次在图像描述生成领域中提出一种语义词的树结构,能在不需要额外标注工作的前提下,分层地表示不同语义粒度的概念词,意图是通过文本信息的辅助,来使得生成的描述更为准确。
2.提出了一种新的渐进融合模块,通过在不同融合步骤用不同粒度的语义信息来完成文本信息与图像网格信息的融合,能得到一个融合更充分的、经过语义强化的视觉特征,同时这种融合方式也更贴合人类生成图像描述的本质过程。
3.本发明在MSCOCO数据集上进行了大量的实验验证,实验结果表明本文的方法取得了最先进的成果,并极大地超过了其他主流方法,甚至优于一些大规模视觉-语言预训练模型。
附图说明
图1为一种基于语义原型树的图像字幕生成方法的流程图。
图2为一种基于语义原型树的图像字幕生成方法的整体框架图。
图3为仿真实验一,即基线方案与本方法的可视化结果对比图。
图4为仿真实验二,即TSP中聚类算法的可视化结果图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参考图1、2分别展示了基于树结构的语义原型网络的图像字幕生成方法的流程图和整体框架图,该方法包括步骤S1至步骤S4。如图2所示,主要功能模块分为了提取树结构的语义原型信息的提取器TSP,和渐进的基于语义信息引导的交叉注意力模块PA。
在本发明的一个实施例中,步骤S1、S2中,视觉信息和语义信息提取网络的执行步骤具体包括:
A1、在本模块中,首先将输入图像I∈RHxWx3分割为B个不相交的补丁区域(patch),将局部区域记为I∈RPxPx3.其中{H,W}和{P,P}分别表示输入图像和补丁区域的大小。根据以上信息可以得到,补丁区域的数据N=(H×W)/P2,同时N还要作为视频序列的长度信息输入到视觉编码器中。然后将这些补丁进行平铺操作并输入到一个可训练的嵌入层得到补丁嵌入向量。为了保留位置信息,位置嵌入也被融合到补丁嵌入向量中。接着,补丁嵌入向量经过4个编码阶段,每个阶段包含一个补丁特征融合层和多个相邻的编码器核心单元,用于获得分层次的视觉表征。其中,补丁特征融合层通过将2x2个补丁区域特征进行拼接,将局部特征的总规模缩小到原来的四分之一;每个核心单元由基于移位窗口的多头自注意力模块、多层感知器模块、GELU非线性层和归一化模块组成,多个核心单元能在保持原本不重叠窗口有效计算的同时引入跨窗口的连接,显著增强了整体模型的表征能力。最终,本文将视觉编码器最后一个阶段输出的特征作为网格特征,用G来表示,并将其输入到下一个模块中。
A2、树结构的语义原型信息的提取器TSP中包含两个步骤,语义概念信息初始化和分层聚类算法。TSP首先会对词库中的名词、形容词和动词词性的单词进行筛选,并用其初始化语义概念信息,记作X。随后,根据一个简而有效的分层聚类算法,得到一系列树结构的语义原型向量信息。算法1的伪代码表示如下:
Figure BDA0003698617590000071
算法1中,给定概念词的词嵌入表示X,分层数目L,每层所包含的原型词数目F1,...,FL,使用聚类算法(K-Means、gmm)在X上进行聚类,完成第一层的语义原型向量信息Z1。每一个原型向量都代表着一些相似语义的概念词的语义中心。在初始化第一层原型信息之后,TSP迭代地生成剩下每一层的、代表着更概括的语义层次的原型信息。
在本发明的一个实施例中,步骤S3中,渐进融合模块的执行步骤具体包括:
A1、为了能够使树结构的原型词向量能够辅助图像描述的生成,步骤S3中包含一个渐进的特征融合模块,将视觉栅格信息与原型词向量信息能够渐进地融合,从而得到一个语义强化后的视觉特征。总体而言,视觉特征会先与粗粒度的语义信息进行融合,后与细粒度的语义信息融合。
A2、在两个步骤的融合过程中,给定栅格特征G和树结构的原型语义向量Z,步骤S3会使用多头交叉注意力模块CMA,为栅格特征注入语义信息。以第一个步骤的交互为例,该模块将栅格特征G映射为查询,语义原型向量映射为键和值。第i个交叉注意力模块CMAi可以表示为:
Figure BDA0003698617590000081
Figure BDA0003698617590000082
在公式中,MHA、FFN、LN都源于未经更改的多头注意力机制。Zi表示第i层的原型向量。WQ、WK、WV∈RDxD都是可学习的参数矩阵,D表示特征维度。为了简便表示,本模块的执行过程可以表示为如下形式:
Gi+1=CMAi(Gi,Zi),i=1,...,l
公式中,G1用视觉编码器的输出G来初始化,K表示堆叠的交叉注意力模块数目,最终经过语义强化的视觉信息
Figure BDA0003698617590000083
作为本步骤的输出,随后会被输入到基于Transformer的解码器中获得图像描述。
在本发明的一个实施例中,步骤S4说明采用了交叉熵损失函数和强化学习损失函数更新模型参数,具体描述为:
Figure BDA0003698617590000084
其中,
Figure BDA0003698617590000085
是目标真值描述,
Figure BDA0003698617590000086
是模型预测的描述。在完成了一定的迭代次数后,本步骤将强化学习引入训练过程,对CIDEr得分进行了优化。强化学习的损失函数和相关参数表示如下。
Figure BDA0003698617590000087
其中,r(s1:T)表示生成描述s1:T的CIDEr-D得分。强化学习的目标是最大限度地降低负奖励期望。LRL的梯度表示如下。
Figure BDA0003698617590000091
下面结合仿真实验,对本方案的效果进行说明:
设置试验条件为:系统:Ubuntu 20.04,软件:Python 3.7,处理器:Intel(R)Xeon(R)Gold 5220R CPU@2.20GHz,内存:512GB。
实验内容:
仿真实验一:利用基线方法和本方案进行对比,将原始图像特征作为输入,给出对应的预测描述。进一步地,本方案提供了注意力权重图映射到原图上的表示,和每张注意力权重图对应生成的描述单词,结果如附图3所示。
实验结果分析:
从图3可以看出,本方案在生成图像描述的每一个单词时,相比于基线方法,能够更加准确地注意到图片中与语义单词相关的对应部分。进一步地,从可视化效果来看,TSP机制可以为模型提供充足的语义先验信息,来解释我们的模型在推理每一个单词时,背后的推理依据,从而进一步证明了TSP的有效性和可解释性。
仿真实验二:将TSP模块中,通过聚类算法得到的语义概念树进行聚类结果的可视化。结果如附图4所示。
实验结果分析:
从图4可以看出,聚类得到的中心语义词与周围的概念词代表的语义相似,且不同语义粒度的概念词距离中心的远近不同,可以得到我们的TSP模块能够正确构建词库中各个概念词之间的关系。
下面结合现有技术的图像字幕生成方法,通过仿真实验对本方案的效果进行对比说明:
设置试验条件为:系统:Ubuntu 20.04,软件:Python 3.7,处理器:lntel(R)Xeon(R)Gold 5220R CPU@2.20GHz,内存:512GB。
测试说明:实验中所使用的数据集都是以图像描述对的形式存在的,即一张图片对应若干个真值描述。具体地,依次使用每种算法对数据集中的训练集进行训练。训练完毕后,分别用每种算法对该数据集测试集上真实图像进行描述预测,得到预测结果。
在实验中将测试集随机划分为若干个批次,每个批次包括了50个图像。
考察生成描述的准确度:数据集MSCOCO中的评价指标包括5种,分别为BLEU-1,BLEU-4,METEOR,CIDEr和ROUGE-L。BLEU-1、BLEU-4是基于精确率设计的,表达正确描述中在生成描述中出现的gram个数占正确描述总gram个数的比值。CIDEr通过TF-IDF计算每个n-gram的权重,将句子用n-gram表示成向量的形式,然后计算两种描述之间的TF-IDF向量余弦距离,以此度量二者的相似性。METE0R使用WordNet扩充同义词集,同时考虑单词词性,在计算方式上融合了准确率、召回率,利用二者的调和平均值来作为评判标准。ROUGE-L基于两种描述间最长共有子句共现性精度和召回率统计。
表1
Figure BDA0003698617590000101
表2
Figure BDA0003698617590000102
Figure BDA0003698617590000111
表3
Figure BDA0003698617590000112
通过表1、表2和表3的数据分析对比,可以得知本方案生成描述的能力更优,这些结果验证了语义信息与视觉栅格特征的融合对于表征学习的有效性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明的保护范围,任何熟悉本领域的技术人员在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.基于语义原型树的端到端图像字幕生成方法,其特征在于,包括以下步骤:
S1:在设计的端到端方法中,构建一个可训练的视觉编码器,基于当前给定的原始图片信息,能够提取出图像的栅格信息,作为后续用于推理的视觉信息的基础;
S2:为了能让不同粒度的语义信息来辅助图像描述的生成,构建了一个用于提取语义原型树的提取器TSP,该模块的输入是词库里的所有词,模块利用分词算法和分层聚类算法,输出树结构的原型语义词;
S3:在S2的基础上,基于交叉注意力机制,渐进地融合语义信息与栅格特征,进行跨模态与跨空间域的对象表征学习,得到语义强化的视觉表征向量;
S4:采用基于Transformer结构的解码器,将改进的栅格特征送入其中,得到模型预测的描述结果,并计算预测损失。
2.根据权利要求1所述的基于语义原型树的端到端图像字幕生成方法,其特征在于,所述S1具体包括:
首先,将输入图像I∈RHxWx3分割为B个不相交的补丁区域,将局部区域记为I∈RPxPx3;其中{H,W}和{P,P}分别表示输入图像和补丁区域的大小;根据以上信息可以得到,补丁区域的数据N=(H×W)/P2,同时N还要作为视频序列的长度信息输入到视觉编码器中;然后将这些补丁进行平铺操作并输入到一个可训练的嵌入层得到补丁嵌入向量;
然后,为了保留位置信息,位置嵌入也被融合到补丁嵌入向量中,补丁嵌入向量经过4个编码阶段,每个阶段包含一个补丁特征融合层和多个相邻的编码器核心单元,用于获得分层次的视觉表征;
最终,将视觉编码器最后一个阶段输出的特征作为网格特征,用G来表示,并将其输入到下一个模块中。
3.根据权利要求2所述的基于语义原型树的端到端图像字幕生成方法,其特征在于,所述补丁特征融合层通过将2x2个补丁区域特征进行拼接,将局部特征的总规模缩小到原来的四分之一;每个核心单元由基于移位窗口的多头自注意力模块、多层感知器模块、GELU非线性层和归一化模块组成,多个核心单元能在保持原本不重叠窗口有效计算的同时引入跨窗口的连接,显著增强了整体模型的表征能力。
4.根据权利要求1所述的基于语义原型树的端到端图像字幕生成方法,其特征在于,所述S2中树结构的语义原型信息的提取器TSP中包含两个步骤,分别是语义概念信息初始化操作和分层聚类操作;
TSP首先会对词库中词性为名词、形容词和动词的单词进行筛选,并用其初始化语义概念信息,记作X;随后,根据一个简而有效的分层聚类算法,得到一系列树结构的语义原型向量信息。
5.根据权利要求4所述的基于语义原型树的端到端图像字幕生成方法,其特征在于,所述分层聚类算法,如下表示:
Figure FDA0003698617580000021
其中,给定概念词的词嵌入表示X,分层数目L,每层所包含的原型词数目F1,...,FL
Figure FDA0003698617580000022
表示第l层、第f个聚类词,Fl表示第l层所包含的原型词数目;
首先,使用聚类算法(K-Means、gmm)在X上进行聚类,完成第一层的语义原型向量信息Z1,其中每一个原型向量都代表着一些相似语义的概念词的语义中心;在初始化第一层原型信息之后,TSP迭代地生成剩下每一层的、代表着更概括的语义层次的原型语义信息。
6.根据权利要求1所述的基于语义原型树的端到端图像字幕生成方法,其特征在于,所述S3具体包括:
S3.1、为了使树结构的原型词向量能够辅助图像描述的生成,步骤S3中包含一个渐进的特征融合模块,将视觉栅格信息与原型词向量信息进行渐进地融合,从而得到一个语义强化后的视觉特征,视觉特征会先与粗粒度的语义信息进行融合,后与细粒度的语义信息融合;
S3.2、在两个步骤的融合过程中,给定栅格特征G和树结构的原型语义向量Z,步骤S3会使用多头交叉注意力模块CMA,为栅格特征注入语义信息;
以第一个步骤的融合为例,该模块将栅格特征G映射为查询,语义原型向量映射为键和值,第i个交叉注意力模块CMAi可以表示为:
Figure FDA0003698617580000031
Figure FDA0003698617580000032
其中,MHA、FFN、LN都是未经更改的多头注意力机制,Zi表示第i层的原型向量,WQ、WK、WV∈RDxD都是可学习的参数矩阵,D表示特征维度;Gi表示输入到第i层交叉注意力模块的栅格特征,
Figure FDA0003698617580000033
表示在第i个交叉注意力模块中,经过多头注意力机制和LN层得到的栅格特征,Gi+1表示第i个交叉注意力模块输出的栅格特征;
为了简便表示,本模块的总体执行过程可以表示为如下形式:
Gi+1=CMAi(Gi,Zi),i=1,...,l
其中,G1用视觉编码器的输出G来初始化,L表示堆叠的交叉注意力模块数目,最终经过语义强化的视觉信息
Figure FDA0003698617580000034
作为本步骤的输出,随后会被输入到基于Transformer的解码器中获得图像描述。
7.根据权利要求1所述的基于语义原型树的端到端图像字幕生成方法,其特征在于,所述S4中的计算预测损失的过程为:
Figure FDA0003698617580000035
其中,
Figure FDA0003698617580000036
是目标真值描述,
Figure FDA0003698617580000037
是模型预测的描述,T表示序列长度,t表示在总长为T的句子中,某个词语在其中的位置,在完成了一定的迭代次数后,本步骤将强化学习引入训练过程,对CIDEr得分进行了优化;
强化学习的损失函数LRL和相关参数表示如下:
Figure FDA0003698617580000043
其中,r(s1:T)表示生成描述s1:T的CIDEr-D得分,强化学习的目标是最大限度地降低负奖励期望;
KRL的梯度表示如下:
Figure FDA0003698617580000041
其中k是采样序列的个数,
Figure FDA0003698617580000042
表示第i个采样的序列,b是所有采样序列CIDEr-D得分的平均值。
CN202210683376.1A 2022-06-16 2022-06-16 基于语义原型树的端到端图像字幕生成方法 Pending CN115062174A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210683376.1A CN115062174A (zh) 2022-06-16 2022-06-16 基于语义原型树的端到端图像字幕生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210683376.1A CN115062174A (zh) 2022-06-16 2022-06-16 基于语义原型树的端到端图像字幕生成方法

Publications (1)

Publication Number Publication Date
CN115062174A true CN115062174A (zh) 2022-09-16

Family

ID=83202819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210683376.1A Pending CN115062174A (zh) 2022-06-16 2022-06-16 基于语义原型树的端到端图像字幕生成方法

Country Status (1)

Country Link
CN (1) CN115062174A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952255A (zh) * 2022-11-21 2023-04-11 北京邮电大学 多模态信号内容分析方法、装置、电子设备及存储介质
WO2024037664A1 (zh) * 2022-10-20 2024-02-22 西北工业大学 一种基于动态自适应推理的指称目标检测定位方法
CN118247290A (zh) * 2024-05-30 2024-06-25 杭州像素元科技有限公司 语义-空间融合Transformer的3D全景分割模型的构建方法及应用

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN110929578A (zh) * 2019-10-25 2020-03-27 南京航空航天大学 一种基于注意力机制的抗遮挡行人检测方法
US20200104641A1 (en) * 2018-09-29 2020-04-02 VII Philip Alvelda Machine learning using semantic concepts represented with temporal and spatial data
CN111652309A (zh) * 2020-05-29 2020-09-11 刘秀萍 视觉单词和短语共驱动的词袋模型图片分类方法
US20210195227A1 (en) * 2018-03-30 2021-06-24 Electronics And Telecommunications Research Institute Image encoding/decoding method and device, and recording medium in which bitstream is stored
CN113515951A (zh) * 2021-07-19 2021-10-19 同济大学 基于知识增强注意力网络和组级语义的故事描述生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
US20210195227A1 (en) * 2018-03-30 2021-06-24 Electronics And Telecommunications Research Institute Image encoding/decoding method and device, and recording medium in which bitstream is stored
US20200104641A1 (en) * 2018-09-29 2020-04-02 VII Philip Alvelda Machine learning using semantic concepts represented with temporal and spatial data
CN110929578A (zh) * 2019-10-25 2020-03-27 南京航空航天大学 一种基于注意力机制的抗遮挡行人检测方法
CN111652309A (zh) * 2020-05-29 2020-09-11 刘秀萍 视觉单词和短语共驱动的词袋模型图片分类方法
CN113515951A (zh) * 2021-07-19 2021-10-19 同济大学 基于知识增强注意力网络和组级语义的故事描述生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LEI MENG等: "Semi-supervised hierarchical clustering for personalized web image organization", 《THE 2012 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》, 30 July 2012 (2012-07-30), pages 1 - 19 *
ZENG PENGPENG等: "Progressive tree-structured prototype network for end-to-end image captioning", 《PROCEEDINGS OF THE 30TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA 》, 10 October 2022 (2022-10-10), pages 5210 - 5218, XP059127697, DOI: 10.1145/3503161.3548024 *
张蔚: "基于图像语义信息的视觉SLAM关键算法研究", 《中国博士学位论文全文数据库 信息科技辑》, 15 April 2021 (2021-04-15), pages 138 - 16 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024037664A1 (zh) * 2022-10-20 2024-02-22 西北工业大学 一种基于动态自适应推理的指称目标检测定位方法
CN115952255A (zh) * 2022-11-21 2023-04-11 北京邮电大学 多模态信号内容分析方法、装置、电子设备及存储介质
CN115952255B (zh) * 2022-11-21 2023-12-05 北京邮电大学 多模态信号内容分析方法、装置、电子设备及存储介质
CN118247290A (zh) * 2024-05-30 2024-06-25 杭州像素元科技有限公司 语义-空间融合Transformer的3D全景分割模型的构建方法及应用
CN118247290B (zh) * 2024-05-30 2024-07-19 杭州像素元科技有限公司 语义-空间融合Transformer的3D全景分割模型的构建方法及应用

Similar Documents

Publication Publication Date Title
Gong et al. Natural language inference over interaction space
Qiu et al. DGeoSegmenter: A dictionary-based Chinese word segmenter for the geoscience domain
Santos et al. Attentive pooling networks
Peng et al. Phonetic-enriched text representation for Chinese sentiment analysis with reinforcement learning
CN112990296B (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN109800434B (zh) 基于眼动注意力的抽象文本标题生成方法
CN115062174A (zh) 基于语义原型树的端到端图像字幕生成方法
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
CN113343683A (zh) 一种融合自编码器和对抗训练的中文新词发现方法及装置
CN113609326A (zh) 基于外部知识和目标间关系的图像描述生成方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
Huang et al. C-Rnn: a fine-grained language model for image captioning
Parvin et al. Transformer-based local-global guidance for image captioning
Dai et al. Relation classification via LSTMs based on sequence and tree structure
CN116402066A (zh) 多网络特征融合的属性级文本情感联合抽取方法及系统
CN112364743A (zh) 一种基于半监督学习和弹幕分析的视频分类方法
CN114254645A (zh) 一种人工智能辅助写作系统
CN117765450B (zh) 一种视频语言理解方法、装置、设备及可读存储介质
CN116757195B (zh) 一种基于提示学习的隐性情感识别方法
Zhang et al. Wikitag: Wikipedia-based knowledge embeddings towards improved acoustic event classification
CN116975403A (zh) 内容检索模型及内容检索处理方法、装置和计算机设备
CN116108840A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
CN114417824B (zh) 基于依存句法预训练模型的篇章级关系抽取方法及系统
CN115292533A (zh) 视觉定位驱动的跨模态行人检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination