CN114612891A - 基于对比学习和自适应注意力的图像描述生成方法及介质 - Google Patents

基于对比学习和自适应注意力的图像描述生成方法及介质 Download PDF

Info

Publication number
CN114612891A
CN114612891A CN202210232789.8A CN202210232789A CN114612891A CN 114612891 A CN114612891 A CN 114612891A CN 202210232789 A CN202210232789 A CN 202210232789A CN 114612891 A CN114612891 A CN 114612891A
Authority
CN
China
Prior art keywords
image
attention
text
feature
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210232789.8A
Other languages
English (en)
Other versions
CN114612891B (zh
Inventor
谢剑青
张艳青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210232789.8A priority Critical patent/CN114612891B/zh
Publication of CN114612891A publication Critical patent/CN114612891A/zh
Application granted granted Critical
Publication of CN114612891B publication Critical patent/CN114612891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了基于对比学习和自适应注意力的图像描述生成方法及介质,包括提取图像的网格特征、对象特征和文本特征作为输入,并采用不同的注意力机制生成相应的注意力特征,将不同层次的特征投影到一个统一的目标空间中,探索不同层次的特征空间之间的内在关系,并引入了上下文门控机制,以平衡低级上下文和高级上下文的贡献,将图像描述文本编码向量输入到预训练好的语言模型中,得到语言特征信号,将当前预测词的隐藏状态表示、图像的最终视觉特征表示和语言特征信号作为自适应注意力模型的输入,从而动态生成视觉词和非视觉词;并通过对比学习的训练方式,提升图像描述的辨识度。

Description

基于对比学习和自适应注意力的图像描述生成方法及介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于对比学习和自适应注意力的图像描述生成方法及介质。
背景技术
图像字幕任务是跨模态的视觉语言任务之一,其旨在自动生成自然语言句子来描述给定图像的视觉内容。目前其主要采用编码器-解码器框架,编码器提取视觉特征,解码器生成图像描述的句子,并通过引入注意机制来帮助模型在生成每个单词时关注相关位置。因此,改进图像字幕模型主要集中在两个主要方面:a)图像特征表示;b)模型结构。在视觉表示方面,模型往往采用图像的单层特征作为输入,如语义较弱的网格特征、语义中等的对象特征或语义较强的文本特征。然而,描述句中的不同词往往与不同层次的特征相关,如颜色单词可以从低层特征预测,量词可以从中层特征预测,因此将不同层次的特征结合起来预测句子具有重要意义。在模型结构方面,因为Transformer架构能够在训练期间更好地并行捕获视觉特征和过程序列之间的关系,所以基于Transformer的图像字幕模型在公共基准测试中一直处于领先地位。然而,由于视觉和语言之间存在语义鸿沟,即并非字幕中的所有单词都是视觉单词并具有相应的视觉信号,但Transformer解码器层中基于ScaledDot-Product操作的注意力模块在预测每个单词的中间表示时,会将所有词的预测都平等对待,没有采取有效措施来对不同词(如,with和dog)所依赖的特征不同而进行不同的处理。因此,针对以上的不足,本方法提供了一种基于对比学习和自适应注意力的图像描述生成方法。
发明内容
为了克服现有技术存在的缺点与不足,本发明提供一种基于对比学习和自适应注意力的图像描述生成方法及介质。
本发明采用如下技术方案:
一种基于对比学习和自适应注意力的图像描述生成方法,包括:
给定一张图片,提取全局特征表示、网格特征表示、区域对象特征表示及文本特征表示;
将全局特征表示分别与其它三个层次特征构建三个独立的自注意力网络模块,并分别得到网格注意力特征、区域对象注意力特征及文本注意力特征;
通过多模态双线性策略将图像区域注意力特征整合到网格注意力特征和文本注意力特征中,分别获得该图像的低层特征和高层特征,并利用门控机制生成图像的最终视觉特征表示;
将图像的最终视觉特征表示和之前已生成的单词序列输入到解码器中,得到当前预测词的隐藏状态表示;
将图像描述文本编码向量输入到预训练好的语言模型中,得到语言特征信号;
将当前预测词的隐藏状态表示、图像的最终视觉特征表示和语言特征信号作为自适应注意力模型的输入,用以度量视觉信息和语言信息对当前词预测的贡献,从而动态生成视觉词和非视觉词;
并通过对比学习的训练方式,提升图像描述的辨识度。
进一步,所述整合图像不同层次的特征信息,获得该图像的高层特征和低层特征,并生成图像的最终视觉特征表示,具体步骤如下:
通过分别将区域对象注意力特征输入文本注意力特征和网格注意力特征,并通过多模态双线性策略来探究图像不同层次特征之间的内在关系;
构建两个独立的残差网络,并分别将文本注意力特征和网格注意力特征及其与区域对象注意力特征之间的内在关系投影到统一的对象空间,形成图像的高层内容特征和低层位置信息;
通过门控机制有选择性的整合图像的高层特征和低层特征,生成图像的最终视觉特征表示。
进一步,所述将图像的最终视觉特征表示作为视觉信号,将预训练Bert模型的输出作为文本信号,度量视觉信息和语言信息对当前词预测的贡献,从而动态生成视觉词和非视觉词。
进一步,所述将图像的文本描述用预训练好的语言模型进行处理,得到了文本信号,并加入了Masked注意力模块,以自回归的方式加入到当前词的预测过程中。
进一步,所述自适应注意力模型为一个多头自注意力模块。
进一步,三个独立的自注意力网络模型的为相同结构,注意力特征获取流程具体如下:
Figure BDA0003539155120000031
Figure BDA0003539155120000032
Figure BDA0003539155120000033
其中,其中,Ao,Ap,At分别表示区域注意特征、网格注意特征和文本注意特征,
Figure BDA0003539155120000034
是上一时刻解码器的隐藏状态,Wt是当前时间步的预测词,E是将one-hot表示映射到嵌入空间的嵌入函数。
进一步,所述对比学习,具体步骤为:
构建正样本和负样本图像文本对,利用本模型自动生成正负样本描述的单词序列,计算生成的文本描述与图片原始描述语句之间的余弦相似度,并最大化图文对匹配的相似度,最小化图文对不匹配的相似度。
进一步,采用对称的交叉熵损失函数对余弦相似度分数进行训练。
进一步,使用在ImageNet上预训练的Resnet101的最后一个卷积层提取图像的全局特征表示Vg和网格特征表示Vp,使用Faster R-CNN提取图像的区域对象特征表示Vo,采用以ResNet101为主干的文本分类预测器提取图像的文本语义特征Vt
一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行实现所述的图像描述生成方法。
本发明的有益效果:
本方法基于Transformer框架,提取图像的网格特征、对象特征和文本特征作为输入,并采用不同的注意力机制生成相应的注意力特征。
为了更好地整合不同层次的注意力特征,本方法将不同层次的特征投影到一个统一的目标空间中,探索不同层次的特征空间之间的内在关系,并引入了上下文门控机制,以平衡低级上下文和高级上下文的贡献,使得在生成描述语句中的词的时候能够更细粒度的关注图像的不同层次特征。
为了衡量视觉信息和语言上下文信息对细粒度字幕生成的贡献,本方法构建了基于语言上下文和视觉信号的自适应注意模块,便于区分句子中的视觉词和非视觉词,并加入了预测哪个文本作为一个整体与哪个图像配对的对比学习任务,以便生成的字幕更具可辨性。
本方法在基准数据集上实取得了较大性能的提升,通过大量实验验证了本方法的可行性和通用性。
附图说明
图1是本发明的流程示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
如图1所示,一种基于对比学习和自适应注意力的图像描述生成方法,其神经网络模型主要是由编码器和解码器构成。
其主要利用图像不同层次特征之间的关系,生成了更加详细的图像描述句子,在当前词预测阶段,针对视觉词和非视觉词进行了不同处理,使得他们在预测生成过程中关注了不同的视觉特征信号和文本特征信号,加入了对比学习任务,使生成的句子具有更好的可辨性。
具体包括如下步骤:
S1图像特征提取
给定一张图片,使用在ImageNet上预训练的Resnet101的最后一个卷积层提取图像的全局特征表示Vg和网格特征表示Vp;使用Faster R-CNN提取图像的区域对象特征表示Vo;文本特征是指与图像相关的语义概念,包括形容词、动词和名词,使用由ResNet101的主干和三个全连接层组成的文本分类预测器提取图像的文本语义概念,然后通过Embedding函数转换为文本特征表示Vt
S2注意力特征计算
为了关注当前时间步与单词最相关的特征,本方法在三个层次特征上构建三个独立的自注意力网络模块细化各个特征得到网络注意力特征、区域对象注意力特征及文本注意力特征。由于生成序列中的非视觉词与对象和文本特征无关,因此本方法在最后一个时间步将对象特征与全局特征、文本特征与解码器的语义特征连接起来,以提供额外的全局信息来参与。
注意力特征计算公式如下:
Figure BDA0003539155120000041
Figure BDA0003539155120000042
Figure BDA0003539155120000051
其中,其中,Ao,Ap,At分别表示区域对象注意力特征、网格注意力特征和文本注意力特征,
Figure BDA0003539155120000052
是上一时刻解码器的隐藏状态,Wt是当前时间步的预测词,E是将one-hot表示映射到嵌入空间的嵌入函数。
S3整合不同层次的图像特征。
分别将区域对象特征信息提供给文本特征信息和网格特征信息,通过多模态双线性策略来探究图像不同层次特征之间的内在关系,分别获得该图像的低层特征和高层特征,并利用门控机制生成图像的最终视觉特征表示;
具体步骤为:
S3.1分别将区域注意力特征整合到网格注意力特征和文本注意力特征中,通过多模态双线性策略来探究图像不同层次特征之间的内在关系,如公式(4)和(5)所示:
Figure BDA0003539155120000053
Rt,Rp=AvgPool(Zt/p) (5)
其中,W,W′代表权重矩阵,·表示哈达玛积,R表示不同层次特征之间的关系特征,AvgPool表示平均池,At/p是At和Ap的简写,以下情况类似。
S3.2构建两个独立的残差网络,分别将网格注意力特征和文本注意力特征及其与区域对象注意力特征之间的内在关系投影到对象空间,从而形成图像的高层内容特征和低层位置信息,如公式(6)和(7)所示。
Hp,Ht=Ap/t+ReLU(WAp/t) (6)
ML,MH=Ao+Hp/t+Rp/t (7)
其中,ReLU是非线性激活函数,H表示投影特征,R表示不同层次特征之间的关系特征,ML/H表示ML和MH,分别表示图像的高层内容特征和低层位置信息。
S3.3通过门控机制(门机制)有选择性的整合图像的高层特征和低层特征,生成图像的整体视觉特征表示,用以指导句子的生成过程,如公式(8),(9)和(10)所示。
Figure BDA0003539155120000054
Figure BDA0003539155120000055
M=[(1-gctx)·ML,gctx·MH] (10)
其中,gctx是一个512维的权重向量,M是融合图像不同层次特征后的整体视觉特征表示。
S3.4语言特征表示
将上述所得图像特征的中间表示输入解码器生成图像的句子描述序列,由于序列中每个单词是以自回归的方式生成的,因此需要添加一个Masked注意力模块,即只将已生成的序列(初始为一个开始字符<bos>)送入到预训练好的语言模型中,提取出生成序列的语言信息表示,并通过优化交叉熵的方式训练语言模型得到语言特征信号。如公式(11)和(12)所示:
s=Bert(W) (11)
Figure BDA0003539155120000061
其中,Bert是预训练的语言模型,MAM是Masked注意力模块,softmax是一个神经网络激活函数,W是单词序列,s表示单词序列对应的语言特征,pos为序列中单词的位置信息,
Figure BDA0003539155120000062
即为序列中当前单词的语言信息表示。
图1中<bos>为一个开始的字符,<eos>是句子的结束符。
S3.5自适应注意力模块
将当前预测词的隐藏状态表示、图像的最终视觉特征表示和语言特征信号作为自适应注意力模型的输入,用以度量视觉信息和语言信息对当前词预测的贡献,从而动态生成视觉词和非视觉词。
具体为:
之前基于transformer架构的图像描述模型直接使用解码器输出的单词的隐含状态来做单词预测,隐含状态的计算过程如公式(13)所示:
ht=Decoder(U,Wt) (13)
而本方法的自适应注意力模型是一个多头注意力模块,它使模型在做单词预测前再衡量一次视觉信息和语言信息对当前单词预测的贡献,以便动态地生成视觉词或者非视觉词。其计算过程如下:
Q=Wqht;K=Wk[M,St];V=Wv[M,St] (14)
Head=Concate(Head1,Head2,…,Headh) (15)
Headi=Attention(Q,K,V) (16)
att=Head*W (17)
其中,Wq,Wk,Wv,W是权重矩阵,Headi是第i个头计算出的注意力值,att是自适应注意力模块输出的注意力值,Concate表示拼接操作。att是多头注意在序列生成中的注意结果,并用其做当前词的预测。
S3.6对比学习步骤
构建正样本和负样本作为输入,正负样本都是图像-文本对,正样本的caption与图片是匹配的,负样本图片与正样本相同,但caption却是描述其他图片的。将正负样本输入模型,并计算字幕模型生成的文本与图片之间的余弦相似度,最大化图文对匹配的相似度,最小化图文对不匹配的相似度,针对余弦相似度分数采用对称的交叉熵损失函数进行训练,并在训练过程中不断优化降低该损失即可。
本方法基于Transformer框架,提取图像的网格特征、对象特征和文本特征作为输入,并采用不同的注意力机制生成相应的注意力特征。为了更好地整合不同层次的注意力特征,本方法将不同层次的特征投影到一个统一的目标空间中,探索不同层次的特征空间之间的内在关系,并引入了上下文门控机制,以平衡低级上下文和高级上下文的贡献。为了衡量视觉信息和语言上下文信息对细粒度字幕生成的贡献,本方法构建了基于语言上下文和视觉信号的自适应注意模块,并加入了预测哪个文本作为一个整体与哪个图像配对的对比学习任务,以便生成的字幕更具可辨性。本方法在基准数据集上实取得了较大性能的提升,通过大量实验验证了本方法的可行性和通用性。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于对比学习和自适应注意力的图像描述生成方法,其特征在于,包括:
给定一张图片,提取全局特征表示、网格特征表示、区域对象特征表示及文本特征表示;
将全局特征表示分别与其它三个层次特征构建三个独立的自注意力网络模块,并分别得到网格注意力特征、区域对象注意力特征及文本注意力特征;
通过多模态双线性策略将图像区域注意力特征整合到网格注意力特征和文本注意力特征中,分别获得该图像的低层特征和高层特征,并利用门控机制生成图像的最终视觉特征表示;
将图像的最终视觉特征表示和之前已生成的单词序列输入到解码器中,得到当前预测词的隐藏状态表示;
将图像描述文本编码向量输入到预训练好的语言模型中,得到语言特征信号;
将当前预测词的隐藏状态表示、图像的最终视觉特征表示和语言特征信号作为自适应注意力模型的输入,用以度量视觉信息和语言信息对当前词预测的贡献,从而动态生成视觉词和非视觉词;
并通过对比学习的训练方式,提升图像描述的辨识度。
2.根据权利要求1所述的图像描述生成方法,其特征在于,所述获得该图像的高层特征和低层特征,并利用门控机制生成图像的最终视觉特征表示,具体步骤如下:
通过分别将区域对象注意力特征输入文本注意力特征和网格注意力特征,并通过多模态双线性策略来探究图像不同层次特征之间的内在关系;
构建两个独立的残差网络,并分别将文本注意力特征和网格注意力特征及其与区域对象注意力特征之间的内在关系投影到统一的对象空间,形成图像的高层内容特征和低层位置信息;
通过门控机制有选择性的整合图像的高层特征和低层特征,生成图像的最终视觉特征表示。
3.根据权利要求1所述的图像描述生成方法,其特征在于,所述将图像的最终视觉特征表示作为视觉信号,将预训练Bert模型的输出作为文本信号,度量视觉信息和语言信息对当前词预测的贡献,从而动态生成视觉词和非视觉词。
4.根据权利要求3所述的图像描述生成方法,其特征在于,将图像描述文本用预训练好的Bert模型进行处理,得到文本信号,并加入Masked注意力模块,以自回归的方式加入到当前词的预测过程中。
5.根据权利要求1所述的图像描述生成方法,其特征在于,所述自适应注意力模型为一个多头自注意力模块。
6.根据权利要求1所述的图像描述生成方法,其特征在于,三个独立的自注意力网络模型的为相同结构,注意力特征获取流程具体如下:
Figure FDA0003539155110000021
Figure FDA0003539155110000022
Figure FDA0003539155110000023
其中,其中,Ao,Ap,At分别表示区域注意特征、网格注意特征和文本注意特征,
Figure FDA0003539155110000024
是上一时刻解码器的隐藏状态,Wt是当前时间步的预测词,E是将one-hot表示映射到嵌入空间的嵌入函数。
7.根据权利要求1-6任一项所述的图像描述生成方法,其特征在于,所述对比学习,具体步骤为:
构建正样本和负样本图像文本对,利用本模型自动生成正负样本描述的单词序列,计算生成的文本描述与图片原始描述语句之间的余弦相似度,并最大化图文对匹配的相似度,最小化图文对不匹配的相似度。
8.根据权利要求7所述的图像描述生成方法,其特征在于,采用对称的交叉熵损失函数对余弦相似度分数进行训练。
9.根据权利要求1所述的图像描述生成方法,其特征在于,使用在ImageNet上预训练的Resnet101的最后一个卷积层提取图像的全局特征表示Vg和网格特征表示Vp,使用FasterR-CNN提取图像的区域对象特征表示Vo,采用以ResNet101为主干的文本分类预测器提取图像的文本语义特征Vt
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-9任一项所述的图像描述生成方法。
CN202210232789.8A 2022-03-09 2022-03-09 基于对比学习和自适应注意力的图像描述生成方法及介质 Active CN114612891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210232789.8A CN114612891B (zh) 2022-03-09 2022-03-09 基于对比学习和自适应注意力的图像描述生成方法及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210232789.8A CN114612891B (zh) 2022-03-09 2022-03-09 基于对比学习和自适应注意力的图像描述生成方法及介质

Publications (2)

Publication Number Publication Date
CN114612891A true CN114612891A (zh) 2022-06-10
CN114612891B CN114612891B (zh) 2024-05-28

Family

ID=81861188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210232789.8A Active CN114612891B (zh) 2022-03-09 2022-03-09 基于对比学习和自适应注意力的图像描述生成方法及介质

Country Status (1)

Country Link
CN (1) CN114612891B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115186720A (zh) * 2022-09-07 2022-10-14 中国科学技术大学 预训练模型、无线感知模型的训练方法及电子设备
CN116580283A (zh) * 2023-07-13 2023-08-11 平安银行股份有限公司 一种图像提示词生成方法、装置、电子设备及存储介质
WO2023241272A1 (zh) * 2022-06-13 2023-12-21 华能澜沧江水电股份有限公司 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法
CN117272237A (zh) * 2023-11-23 2023-12-22 北京知呱呱科技有限公司 基于多模态融合的专利附图多语言图解生成方法及系统
CN118115850A (zh) * 2024-04-29 2024-05-31 成都索贝数码科技股份有限公司 一种基于跨模态提示学习的可控图像描述方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240056A (zh) * 2021-07-12 2021-08-10 北京百度网讯科技有限公司 多模态数据联合学习模型训练方法及装置
CN113837230A (zh) * 2021-08-30 2021-12-24 厦门大学 基于自适应注意力机制的图像描述生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240056A (zh) * 2021-07-12 2021-08-10 北京百度网讯科技有限公司 多模态数据联合学习模型训练方法及装置
CN113837230A (zh) * 2021-08-30 2021-12-24 厦门大学 基于自适应注意力机制的图像描述生成方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023241272A1 (zh) * 2022-06-13 2023-12-21 华能澜沧江水电股份有限公司 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法
CN115186720A (zh) * 2022-09-07 2022-10-14 中国科学技术大学 预训练模型、无线感知模型的训练方法及电子设备
CN116580283A (zh) * 2023-07-13 2023-08-11 平安银行股份有限公司 一种图像提示词生成方法、装置、电子设备及存储介质
CN116580283B (zh) * 2023-07-13 2023-09-26 平安银行股份有限公司 一种图像提示词生成方法、装置、电子设备及存储介质
CN117272237A (zh) * 2023-11-23 2023-12-22 北京知呱呱科技有限公司 基于多模态融合的专利附图多语言图解生成方法及系统
CN117272237B (zh) * 2023-11-23 2024-01-19 北京知呱呱科技有限公司 基于多模态融合的专利附图多语言图解生成方法及系统
CN118115850A (zh) * 2024-04-29 2024-05-31 成都索贝数码科技股份有限公司 一种基于跨模态提示学习的可控图像描述方法及装置

Also Published As

Publication number Publication date
CN114612891B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN114612891A (zh) 基于对比学习和自适应注意力的图像描述生成方法及介质
CN110134771B (zh) 一种基于多注意力机制融合网络问答系统的实现方法
CN107608943B (zh) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN112487182B (zh) 文本处理模型的训练方法、文本处理方法及装置
WO2020244287A1 (zh) 一种图像语义描述的生成方法
CN111046668B (zh) 多模态文物数据的命名实体识别方法与装置
CN110413746B (zh) 对用户问题进行意图识别的方法及装置
JP2023509031A (ja) マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN112685597B (zh) 一种基于擦除机制的弱监督视频片段检索方法和系统
US20220300718A1 (en) Method, system, electronic device and storage medium for clarification question generation
CN109409221A (zh) 基于帧选择的视频内容描述方法和系统
CN114722838A (zh) 基于常识感知和层次化多任务学习的对话情感识别方法
CN111144410B (zh) 一种跨模态的图像语义提取方法、系统、设备及介质
Xiao et al. Exploring diverse and fine-grained caption for video by incorporating convolutional architecture into LSTM-based model
CN114339450A (zh) 视频评论生成方法、系统、设备及存储介质
CN116956920A (zh) 一种多任务协同表征的多模态命名实体识别方法
CN112069781A (zh) 一种评语生成方法、装置、终端设备及存储介质
CN113837233A (zh) 基于样本自适应语义引导的自注意力机制的图像描述方法
Xue et al. Lcsnet: End-to-end lipreading with channel-aware feature selection
CN113192030B (zh) 一种遥感图像描述生成方法及系统
CN116245115A (zh) 基于概念解析器和多模态图学习的视频内容描述方法
CN115759262A (zh) 基于知识感知注意力网络的视觉常识推理方法及系统
Namdev et al. Development of Hybrid Image Caption Generation Method using Deep Learning
Zhou et al. Joint scence network and attention-guided for image captioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant