CN114399646B - 一种基于Transformer结构的图像描述方法和装置 - Google Patents

一种基于Transformer结构的图像描述方法和装置 Download PDF

Info

Publication number
CN114399646B
CN114399646B CN202111576047.9A CN202111576047A CN114399646B CN 114399646 B CN114399646 B CN 114399646B CN 202111576047 A CN202111576047 A CN 202111576047A CN 114399646 B CN114399646 B CN 114399646B
Authority
CN
China
Prior art keywords
image
feature
enhancement
layer
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111576047.9A
Other languages
English (en)
Other versions
CN114399646A (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Mingyan Technology Co ltd
Original Assignee
Beijing Zhongke Mingyan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Mingyan Technology Co ltd filed Critical Beijing Zhongke Mingyan Technology Co ltd
Priority to CN202111576047.9A priority Critical patent/CN114399646B/zh
Publication of CN114399646A publication Critical patent/CN114399646A/zh
Application granted granted Critical
Publication of CN114399646B publication Critical patent/CN114399646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于Transformer结构的图像描述方法和装置,包括:采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量;采用基于Transformer结构的特征增强编码器分别捕获图像初始特征VG和图像全局特征Vg模态内的隐含关系实现特征增强,得到图像增强特征
Figure DDA0003424944610000011
和图像增强全局特征
Figure DDA0003424944610000012
采用基于Transformer结构的解码器对文本信息、所述图像增强特征
Figure DDA0003424944610000013
以及所述图像增强全局特征
Figure DDA0003424944610000014
进行特征融合,生成对应的图像描述并输出。本发明实现了图像描述任务从两个阶段任务集成到一个阶段,模型结构统一且参数量更少,缩减了模型训练的时间成本和计算成本。

Description

一种基于Transformer结构的图像描述方法和装置
技术领域
本发明属于图像描述技术领域,具体涉及一种基于Transformer结构的图像描述方法和装置。
背景技术
多模态深度学习旨在通过深度学习的方法实现处理和理解多源模态信息的能力。随着社会和经济的快速兴起,多模态深度学习已在社会生产中的各个方面有了众多应用,起到了非常瞩目的效果。目前比较热门的研究方向是图像、视频、音频和文本之间的多模态学习。
其中,采用自然语言对图像中的内容进行描述,被称为图像描述。语义不仅需要计算识别图像的对象和属性,还需要理解他们的关系,生成语法语义正确的自然语言。最早应用的图像描述方法主要有两种:一种是基于模板的方法,该方法预先设计描述模板,模板内空出诸如“主语、谓语、宾语”的位置,使用传统机器学习方法对图像进行特征提取,识别其中的实体目标、属性及实体目标之间的关系作为关键词,进而插入到模板内的空白中。另一种是基于检索的方法,该方法预先构建“图像-描述”数据库,使用传统机器学习方法计算待描述图像和数据库中图像的相似度,选择与之相似度最高的图像所对应的描述作为待描述图像的描述输出。但采用上述方法对图像内容进行描述的效果并未达到预期。
随着技术的发展,目前的图像描述结构主要分为两类:(1)卷积神经网络(CNN)+长短期记忆网络(Long Short-Term Memory,LSTM)结构;(2)CNN+Transformer结构。其中,CNN模块主要采用目标检测模型Faster R-CNN及其变体用于图像特征的提取,但采用上述两种模型进行图像描述的方法需要在额外的数据集上进行预训练,导致图像描述任务被分割为了两个阶段且训练时间成本过高,此外图像描述结果的性能很大程度上受限于Faster R-CNN模型的好坏,且Faster R-CNN模型结构复杂且运算量过大。LSTM用于将图像特征解码为语言描述,但LSTM模型表达能力有限且无法进行并行训练,模型训练时间成本高。
发明内容
本发明的目的是提供一种基于Transformer结构的图像描述方法和装置,用于解决现有技术中的图像描述方法训练时间过长和运算量较大的技术问题。
为了实现上述目的,本发明采用以下技术方案:
第一方面,本发明提供一种基于Transformer结构的图像描述方法,包括:
采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量;其中,所述图像特征向量包括图像初始特征VG和图像全局特征Vg
采用基于Transformer结构的特征增强编码器分别捕获所述图像初始特征VG和所述图像全局特征Vg模态内的隐含关系实现特征增强,得到图像增强特征
Figure BDA0003424944590000021
和图像增强全局特征
Figure BDA0003424944590000022
采用基于Transformer结构的解码器对文本信息、所述图像增强特征
Figure BDA0003424944590000023
以及所述图像增强全局特征
Figure BDA0003424944590000024
进行特征融合,生成对应的图像描述并输出。
在一种可能的设计中,采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量,包括:
将大小为H×W×C1的原始图像输入至所述swin Transformer基础编码器,输出大小为
Figure BDA0003424944590000031
的第一图像特征向量;其中,H表示原始图像的高度,W表示原始图像的宽度,C1表示第一通道数量,C2表示第二通道数量,k表示原始图像的压缩比例;
采用全连接层对所述第一图像特征向量进行投影降维,得到所述图像初始特征VG;其中,所述图像初始特征VG的大小为
Figure BDA0003424944590000032
C3表示第三通道数量;
采用平均池化层选取所述图像初始特征VG的平均值,将该平均值作为所述图像全局特征Vg;其中,所述图像全局特征Vg的大小为1×C3。
在一种可能的设计中,采用基于Transformer结构的特征增强编码器分别捕获所述图像初始特征VG和所述图像全局特征Vg模态内的隐含关系实现特征增强,得到图像增强特征
Figure BDA0003424944590000033
和图像增强全局特征
Figure BDA0003424944590000034
包括:
将所述图像初始特征VG依次经过所述特征增强编码器的W-MSA/SW-MSA层、第一Add&LN层、第一FeedForward层以及第二Add&LN层进行处理,从而捕获所述图像初始特征VG模态内的隐含关系以进行特征增强,得到所述图像增强特征
Figure BDA0003424944590000035
将所述图像全局特征Vg依次经过所述特征增强编码器的MSA层、第三Add&LN层、第二FeedForward层以及第四Add&LN层进行处理,捕获所述图像全局特征Vg模态内的隐含关系以进行特征增强,得到所述图像增强全局特征
Figure BDA0003424944590000041
其中,所述图像初始特征VG和所述图像全局特征Vg实现特征增强的参数可共享。
在一种可能的设计中,所述特征增强编码器设有3个,3个所述特征增强编码器依次堆叠,以对所述图像初始特征VG和所述图像全局特征Vg进行逐步增强。
在一种可能的设计中,采用基于Transformer结构的解码器对文本信息、所述图像增强特征
Figure BDA0003424944590000042
以及所述图像增强全局特征
Figure BDA0003424944590000043
进行特征融合,生成对应的图像描述并输出,包括:
在t时间步,利用解码器的预融合模块对所述图像增强全局特征
Figure BDA0003424944590000044
和当前时间步之前已生成的t一1个单词的单词嵌入向量
Figure BDA0003424944590000045
进行特征融合,并输出包含图像信息和文本信息的第一多模态特征向量
Figure BDA0003424944590000046
根据所述第一多模态特征向量
Figure BDA0003424944590000047
利用解码器的单词语义信息抽取模块捕获所述单词嵌入向量
Figure BDA00034249445900000411
中不同单词之间模态内的隐含信息,以抽取当前时间步所需的语义信息嵌入;
利用解码器的后融合模块对当前时间步所需的语义信息嵌入和所述图像增强特征
Figure BDA0003424944590000048
进行特征融合,得到第二多模态特征向量
Figure BDA0003424944590000049
采用全连接层将所述第二多模态特征向量
Figure BDA00034249445900000410
投影到词汇表空间,得到当前时间步生成每个单词的概率,选取概率最大的单词作为当前时间步的图像描述并输出。
在一种可能的设计中,所述解码器设有3个,3个所述解码器依次堆叠,以对所述文本信息、所述图像增强特征
Figure BDA0003424944590000051
以及所述图像增强全局特征
Figure BDA0003424944590000052
进行多次特征融合。
在一种可能的设计中,所述预融合模块包括依次连接的Concat层、Linear和ReLU函数层以及第五Add&LN层。
在一种可能的设计中,所述单词语义信息抽取模块包括依次连接的Masked MSA层和第六Add&LN层。
在一种可能的设计中,所述后融合模块包括依次连接的Cross MSA层、第七Add&LN层、第三FeedForward层以及第八Add&LN层。
第二方面,本发明提供一种基于Transformer结构的图像描述装置,包括:
特征向量提取模块,用于采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量;其中,所述图像特征向量包括图像初始特征VG和图像全局特征Vg
特征向量增强模块,用于采用基于Transformer结构的特征增强编码器分别捕获所述图像初始特征VG和所述图像全局特征Vg模态内的隐含关系实现特征增强,得到图像增强特征
Figure BDA0003424944590000053
和图像增强特征
Figure BDA0003424944590000054
图像描述生成模块,用于采用基于Trasformer结构的解码器对文本信息、所述图像增强特征
Figure BDA0003424944590000055
以及所述图像增强全局特征
Figure BDA0003424944590000056
进行特征融合,生成对应的图像描述并输出。
第三方面,本发明提供一种计算机设备,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面任意一种可能的设计中所述的基于Transformer结构的图像描述方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面任意一种可能的设计中所述的基于Transformer结构的图像描述方法。
第五方面,本发明提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如第一方面任意一种可能的设计中所述的基于Transformer结构的图像描述方法。
有益效果:
本发明采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量;采用基于Transformer结构的特征增强编码器分别捕获图像初始特征VG和图像全局特征Vg模态内的隐含关系实现特征增强,得到图像增强特征
Figure BDA0003424944590000061
和图像增强特征
Figure BDA0003424944590000062
采用基于Transformer结构的解码器对文本信息、所述图像增强特征
Figure BDA0003424944590000063
以及所述图像增强全局特征
Figure BDA0003424944590000064
进行特征融合,生成对应的图像描述并输出。本发明实现了图像描述任务从两个阶段任务集成到一个阶段,模型结构统一且参数量更少,缩减了模型训练的时间成本和计算成本。其中,解码器中采用预融合模块实现了视觉模态信息与语言模态信息的初次交互,在保证模型运算效率的情况下增加了视觉模态(图像)与自然语言模态(描述)之间的交互从而进一步提升了图像描述模型的表达与推理能力。
附图说明
图1为本实施例中的基于Transformer结构的图像描述方法的流程图;
图2为本实施例中的基于Transformer结构的图像描述方法采用的模型结构图。
具体实施方式
为使本说明书实施例的目的、技术方案和优点更加清楚,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
为了解决现有技术中存在的图像描述方法训练时间过长和运算量较大的技术问题,本申请实施例提供了一种基于Transformer结构的图像描述方法,该方法实现了图像描述任务从两个阶段任务集成到一个阶段,模型结构统一且参数量更少,缩减了模型训练的时间成本和计算成本。
如图1-2所示,第一方面,本实施例提供一种基于Transformer结构的图像描述方法,包括但不限于由步骤S101~S103实现:
步骤S101.采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量;其中,所述图像特征向量包括图像初始特征VG和图像全局特征Vg
其中,需要说明的是,所述swin Transformer基础编码器采用现有的swinTransformer架构(即论文:Swin Transformer:Hierarchical Vision Transformerusing Shifted Windows中示出的架构),主要包括LN(LayerNorm,归一化层)正则化层→W-MSA(window based self-attention,基于窗口的自我注意机制)子模块(或SW-MSA(shiftwindow based self-attention,基于移动窗口的自我注意机制)子模块)→残差连接层→LN正则化层→前馈网络→残差连接层,具体工作原理为现有的工作原理,此处不再赘述。
在步骤S101的一种具体的实施方式中,采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量,包括:
步骤S1011.将大小为H×W×C1的原始图像输入至所述swin Transformer基础编码器,输出大小为
Figure BDA0003424944590000081
的第一图像特征向量;其中,H表示原始图像的高度,W表示原始图像的宽度,C1表示第一通道数量,C2表示第二通道数量,k表示原始图像的压缩比例;
例如:将大小为384×384×3的原始图像输入至所述swin Transformer基础编码器,输出大小为12×12×1536的第一图像特征向量。
步骤S1012.采用全连接层对所述第一图像特征向量进行投影降维,得到所述图像初始特征VG;其中,所述图像初始特征VG的大小为
Figure BDA0003424944590000082
C3表示第三通道数量;
例如:采用全连接层对所述第一图像特征向量从1536维进行投影降维,得到12×12=144个维度为512的图像初始特征VG
步骤S1013.采用平均池化层选取所述图像初始特征VG的平均值,将该平均值作为所述图像全局特征Vg;其中,所述图像全局特征Vg的大小为1×C3。
例如:采用平均池化层选取12×12=144个维度为512的图像初始特征VG的平均值1×512,将1×512作为所述图像全局特征Vg
步骤S102.采用基于Transformer结构的特征增强编码器分别捕获所述图像初始特征VG和所述图像全局特征Vg模态内的隐含关系实现特征增强,得到图像增强特征
Figure BDA0003424944590000091
和图像增强全局特征
Figure BDA0003424944590000092
其中,优选的,所述特征增强编码器设有3个,3个所述特征增强编码器依次堆叠,以对所述图像初始特征VG和所述图像全局特征Vg进行逐步增强。
在步骤S102一种具体的实施方式中,采用基于Transformer结构的特征增强编码器分别捕获所述图像初始特征VG和所述图像全局特征Vg模态内的隐含关系实现特征增强,得到图像增强特征
Figure BDA0003424944590000093
和图像增强全局特征
Figure BDA0003424944590000094
包括:
步骤S1021将所述图像初始特征VG依次经过所述特征增强编码器的W-MSA/SW-MSA层、第一Add&LN层、第一FeedForward(前馈网络)层以及第二Add&LN层进行处理,从而捕获所述图像初始特征VG模态内的隐含关系以进行特征增强,得到所述图像增强特征
Figure BDA0003424944590000095
将所述图像全局特征Vg依次经过所述特征增强编码器的MSA层、第三Add&LN层、第二FeedForward层以及第四Add&LN层进行处理,捕获所述图像全局特征Vg模态内的隐含关系以进行特征增强,得到所述图像增强全局特征
Figure BDA0003424944590000096
其中,所述图像初始特征VG和所述图像全局特征Vg实现特征增强的参数可共享。
例如,将大小为12×12×512的图像初始特征VG和大小为1×512的图像全局特征Vg输入到特征增强编码器中。其中,12×12×512的图像初始特征VG依次经过所述特征增强编码器的W-MSA/SW-MSA层、第一Add&LN层、第一FeedForward层以及第二Add&LN层进行处理,输出相同尺寸大小的图像初始特征
Figure BDA0003424944590000101
其中,1×512的图像全局特征Vg依次经过所述特征增强编码器的MSA层、第三Add&LN层、第二FeedForward层以及第四Add&LN层进行处理,输出相同尺寸大小的图像增强特征
Figure BDA0003424944590000102
步骤S103.采用基于Transformer结构的解码器对文本信息、所述图像增强特征
Figure BDA0003424944590000103
以及所述图像增强全局特征
Figure BDA0003424944590000104
进行特征融合,生成对应的图像描述并输出。
其中,优选的,所述解码器设有3个,3个所述解码器依次堆叠,以对所述文本信息、所述图像增强特征
Figure BDA0003424944590000105
以及所述图像增强特征
Figure BDA0003424944590000106
进行多次特征融合。
在步骤S103一种具体的实施方式中,采用基于Transformer结构的解码器对文本信息、所述图像增强特征
Figure BDA0003424944590000107
以及所述图像增强全局特征
Figure BDA0003424944590000108
进行特征融合,生成对应的图像描述并输出,包括:
步骤S1031.在t时间步,利用解码器的预融合模块对所述图像增强全局特征
Figure BDA0003424944590000109
和当前时间步之前已生成的t-1个单词的单词嵌入向量
Figure BDA00034249445900001010
进行特征融合,并输出包含图像信息和文本信息的第一多模态特征向量
Figure BDA00034249445900001011
例如,所述单词嵌入向量
Figure BDA00034249445900001012
的大小为(t-1)×512。
优选的,所述预融合模块包括依次连接的Concat层、Linear(线性)和ReLU函数层以及第五Add&LN层,用于实现视觉模态信息与语言模态信息的初次交互;
步骤S1032.步骤S1032根据所述第一多模态特征向量
Figure BDA0003424944590000111
利用解码器的单词语义信息抽取模块捕获所述单词嵌入向量
Figure BDA0003424944590000119
中不同单词之间模态内的隐含信息,以抽取当前时间步所需的语义信息嵌入;
优选的,所述单词语义信息抽取模块包括依次连接的Masked MSA(window basedself-attention,标记的基于窗口的自注意力机制)层和第六Add&LN层。
步骤S1033.利用解码器的后融合模块对当前时间步所需的语义信息嵌入和所述图像增强特征
Figure BDA0003424944590000112
进行特征融合,得到第二多模态特征向量
Figure BDA0003424944590000113
优选的,所述后融合模块包括依次连接的Cross(交叉)MSA层、第七Add&LN层、第三FeedForward层以及第八Add&LN层,用于实现视觉模态信息与语言模态信息的再次交互。
步骤S1034.采用全连接层将所述第二多模态特征向量
Figure BDA0003424944590000114
投影到词汇表空间,得到当前时间步生成每个单词的概率,选取概率最大的单词作为当前时间步的图像描述并输出。
基于上述公开的内容,本实施例采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量;采用基于Transformer结构的特征增强编码器分别捕获图像初始特征VG和图像全局特征Vg模态内的隐含关系实现特征增强,得到图像增强特征
Figure BDA0003424944590000115
和图像增强全局特征
Figure BDA0003424944590000116
采用基于Transformer结构的解码器对文本信息、所述图像增强特征
Figure BDA0003424944590000117
以及所述图像增强全局特征
Figure BDA0003424944590000118
进行特征融合,生成对应的图像描述并输出。本发明实现了图像描述任务从两个阶段任务集成到一个阶段,模型结构统一且参数量更少,缩减了模型训练的时间成本和计算成本。其中,解码器中采用预融合模块实现了视觉模态信息与语言模态信息的初次交互,在保证模型运算效率的情况下增加了视觉模态(图像)与自然语言模态(描述)之间的交互从而进一步提升了图像描述模型的表达与推理能力。
第二方面,本发明提供一种基于Transformer结构的图像描述装置,包括:
特征向量提取模块,用于采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量;其中,所述图像特征向量包括图像初始特征VG和图像全局特征Vg
特征向量增强模块,用于采用基于Transformer结构的特征增强编码器分别捕获所述图像初始特征VG和所述图像全局特征Vg模态内的隐含关系实现特征增强,得到图像增强特征
Figure BDA0003424944590000121
和图像增强全局特征
Figure BDA0003424944590000122
图像描述生成模块,用于采用基于Trasformer结构的解码器对文本信息、所述图像增强特征
Figure BDA0003424944590000123
以及所述图像增强全局特征
Figure BDA0003424944590000124
进行特征融合,生成对应的图像描述并输出。
第三方面,本发明提供一种计算机设备,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面任意一种可能的设计中所述的基于Transformer结构的图像描述方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面任意一种可能的设计中所述的基于Transformer结构的图像描述方法。
第五方面,本发明提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如第一方面任意一种可能的设计中所述的基于Transformer结构的图像描述方法。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于Transformer结构的图像描述方法,其特征在于,包括:
采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量,其中,所述图像特征向量包括图像初始特征VG和图像全局特征Vg,包括:
采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量,包括:
将大小为H×W×C1的原始图像输入至swin Transformer基础编码器,输出大小为
Figure FDA0003803258340000011
的第一图像特征向量;其中,H表示原始图像的高度,W表示原始图像的宽度,C1表示第一通道数量,C2表示第二通道数量,k表示原始图像的压缩比例;
采用全连接层对所述第一图像特征向量进行投影降维,得到图像初始特征VG;其中,所述图像初始特征VG的大小为
Figure FDA0003803258340000012
C3表示第三通道数量;
采用平均池化层选取所述图像初始特征VG的平均值,将该平均值作为图像全局特征Vg;其中,所述图像全局特征Vg的大小为1×C3;
采用基于Transformer结构的特征增强编码器分别捕获所述图像初始特征VG和所述图像全局特征Vg模态内的隐含关系实现特征增强,得到图像增强特征
Figure FDA0003803258340000013
和图像增强全局特征
Figure FDA0003803258340000014
采用基于Transformer结构的解码器对文本信息、所述图像增强特征
Figure FDA0003803258340000021
以及所述图像增强全局特征
Figure FDA0003803258340000022
进行特征融合,生成对应的图像描述并输出,包括:
在t时间步,利用解码器的预融合模块对所述图像增强全局特征
Figure FDA0003803258340000023
和当前时间步之前已生成的t-1个单词的单词嵌入向量
Figure FDA0003803258340000024
进行特征融合,并输出包含图像信息和文本信息的第一多模态特征向量
Figure FDA0003803258340000025
对所述第一多模态特征向量
Figure FDA0003803258340000026
采用解码器的单词语义信息抽取模块抽取当前时间步所需的语义信息嵌入;
利用解码器的后融合模块对当前时间步所需的语义信息嵌入和所述图像增强特征
Figure FDA0003803258340000027
进行特征融合,得到第二多模态特征向量
Figure FDA0003803258340000028
采用全连接层将所述第二多模态特征向量
Figure FDA0003803258340000029
投影到词汇表空间,得到当前时间步生成每个单词的概率,选取概率最大的单词作为当前时间步的图像描述并输出。
2.根据权利要求1所述的基于Transformer结构的图像描述方法,其特征在于,采用基于Transformer结构的特征增强编码器分别捕获所述图像初始特征VG和所述图像全局特征Vg模态内的隐含关系实现特征增强,得到图像增强特征
Figure FDA00038032583400000210
和图像增强全局特征
Figure FDA00038032583400000211
包括:
将所述图像初始特征VG依次经过特征增强编码器的W-MSA/SW-MSA层、第一Add&LN层、第一FeedForward层以及第二Add&LN层进行处理,从而捕获所述图像初始特征VG模态内的隐含关系以进行特征增强,得到图像增强特征
Figure FDA0003803258340000031
将所述图像全局特征Vg依次经过所述特征增强编码器的MSA层、第三Add&LN层、第二FeedForward层以及第四Add&LN层进行处理,捕获所述图像全局特征Vg模态内的隐含关系以进行特征增强,得到图像增强全局特征
Figure FDA0003803258340000032
其中,所述图像初始特征VG和所述图像全局特征Vg实现特征增强的参数可共享。
3.根据权利要求2所述的基于Transformer结构的图像描述方法,其特征在于,所述特征增强编码器设有3个,3个所述特征增强编码器依次堆叠,以对所述图像初始特征VG和所述图像全局特征Vg进行逐步增强。
4.根据权利要求1所述的基于Transformer结构的图像描述方法,其特征在于,所述解码器设有3个,3个所述解码器依次堆叠,以对所述文本信息、所述图像增强特征
Figure FDA0003803258340000033
以及所述图像增强全局特征
Figure FDA0003803258340000034
进行多次特征融合。
5.根据权利要求1所述的基于Transformer结构的图像描述方法,其特征在于,所述预融合模块包括依次连接的Concat层、Linear层和ReLU函数层以及第五Add&LN层。
6.根据权利要求1所述的基于Transformer结构的图像描述方法,其特征在于,所述单词语义信息抽取模块包括依次连接的Masked MSA层和第六Add&LN层。
7.根据权利要求1所述的基于Transformer结构的图像描述方法,其特征在于,所述后融合模块包括依次连接的Cross MSA层、第七Add&LN层、第三FeedForward层以及第八Add&LN层。
8.一种基于Transformer结构的图像描述装置,其特征在于,包括:
特征向量提取模块,用于采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量;其中,所述图像特征向量包括图像初始特征VG和图像全局特征Vg
在采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量时,所述特征向量提取模块具体用于:
将大小为H×W×C1的原始图像输入至swin Transformer基础编码器,输出大小为
Figure FDA0003803258340000041
的第一图像特征向量;其中,H表示原始图像的高度,W表示原始图像的宽度,C1表示第一通道数量,C2表示第二通道数量,k表示原始图像的压缩比例;
采用全连接层对所述第一图像特征向量进行投影降维,得到图像初始特征VG;其中,所述图像初始特征VG的大小为
Figure FDA0003803258340000042
C3表示第三通道数量;
采用平均池化层选取所述图像初始特征VG的平均值,将该平均值作为图像全局特征Vg;其中,所述图像全局特征Vg的大小为1×C3;
特征向量增强模块,用于采用基于Transformer结构的特征增强编码器分别捕获所述图像初始特征VG和所述图像全局特征Vg模态内的隐含关系实现特征增强,得到图像增强特征
Figure FDA0003803258340000051
和图像增强全局特征
Figure FDA0003803258340000052
图像描述生成模块,用于采用基于Transformer结构的解码器对文本信息、所述图像增强特征
Figure FDA0003803258340000053
以及所述图像增强全局特征
Figure FDA0003803258340000054
进行特征融合,生成对应的图像描述并输出,包括:
在t时间步,利用解码器的预融合模块对所述图像增强全局特征
Figure FDA0003803258340000055
和当前时间步之前已生成的t-1个单词的单词嵌入向量
Figure FDA0003803258340000056
进行特征融合,并输出包含图像信息和文本信息的第一多模态特征向量
Figure FDA0003803258340000057
对所述第一多模态特征向量
Figure FDA0003803258340000058
采用解码器的单词语义信息抽取模块抽取当前时间步所需的语义信息嵌入;
利用解码器的后融合模块对当前时间步所需的语义信息嵌入和所述图像增强特征
Figure FDA0003803258340000059
进行特征融合,得到第二多模态特征向量
Figure FDA00038032583400000510
采用全连接层将所述第二多模态特征向量
Figure FDA00038032583400000511
投影到词汇表空间,得到当前时间步生成每个单词的概率,选取概率最大的单词作为当前时间步的图像描述并输出。
CN202111576047.9A 2021-12-21 2021-12-21 一种基于Transformer结构的图像描述方法和装置 Active CN114399646B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111576047.9A CN114399646B (zh) 2021-12-21 2021-12-21 一种基于Transformer结构的图像描述方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111576047.9A CN114399646B (zh) 2021-12-21 2021-12-21 一种基于Transformer结构的图像描述方法和装置

Publications (2)

Publication Number Publication Date
CN114399646A CN114399646A (zh) 2022-04-26
CN114399646B true CN114399646B (zh) 2022-09-20

Family

ID=81227859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111576047.9A Active CN114399646B (zh) 2021-12-21 2021-12-21 一种基于Transformer结构的图像描述方法和装置

Country Status (1)

Country Link
CN (1) CN114399646B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115795683B (zh) * 2022-12-08 2023-07-21 四川大学 一种融合CNN和Swin Transformer网络的翼型优化方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733866A (zh) * 2021-01-27 2021-04-30 西安理工大学 一种提高可控图像文本描述正确性的网络构建方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10565305B2 (en) * 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning
US11056227B2 (en) * 2018-05-23 2021-07-06 Koninklijke Philips N.V. System and method for generating textual descriptions from medical images
CN110135441B (zh) * 2019-05-17 2020-03-03 北京邮电大学 一种图像的文本描述方法及装置
CN110458282B (zh) * 2019-08-06 2022-05-13 齐鲁工业大学 一种融合多角度多模态的图像描述生成方法及系统
US11423304B2 (en) * 2020-01-15 2022-08-23 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for semantic analysis of multimedia data using attention-based fusion network
CN111242059B (zh) * 2020-01-16 2022-03-15 合肥工业大学 基于递归记忆网络的无监督图像描述模型的生成方法
CN113095431B (zh) * 2021-04-27 2023-08-18 中山大学 一种基于注意力机制的图像描述方法、系统及装置
CN113591546B (zh) * 2021-06-11 2023-11-03 中国科学院自动化研究所 语义增强型场景文本识别方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733866A (zh) * 2021-01-27 2021-04-30 西安理工大学 一种提高可控图像文本描述正确性的网络构建方法

Also Published As

Publication number Publication date
CN114399646A (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
CN110633683B (zh) 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法
CN111581401B (zh) 一种基于深度相关性匹配的局部引文推荐系统及方法
CN111783462A (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN113806587A (zh) 一种多模态特征融合的视频描述文本生成方法
CN113705315B (zh) 视频处理方法、装置、设备及存储介质
CN110795549B (zh) 短文本对话方法、装置、设备及存储介质
CN113961736A (zh) 文本生成图像的方法、装置、计算机设备和存储介质
CN113407663B (zh) 基于人工智能的图文内容质量识别方法和装置
CN116306652A (zh) 一种基于注意力机制和BiLSTM的中文命名实体识别模型
CN114399646B (zh) 一种基于Transformer结构的图像描述方法和装置
CN116580278A (zh) 一种基于多注意力机制的唇语识别方法、设备及存储介质
CN113569584B (zh) 文本翻译方法、装置、电子设备及计算机可读存储介质
CN113569068B (zh) 描述内容生成方法、视觉内容的编码、解码方法、装置
CN117251795A (zh) 基于自适应融合的多模态虚假新闻检测方法
CN116704506A (zh) 一种基于交叉环境注意力的指代图像分割方法
CN116842944A (zh) 一种基于词增强的实体关系抽取方法及装置
CN116663523A (zh) 多角度增强网络的语义文本相似度计算方法
WO2023168818A1 (zh) 视频和文本相似度确定方法、装置、电子设备、存储介质
CN114677569B (zh) 一种基于特征解耦合的文字-图像对生成方法和装置
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN112559750B (zh) 文本数据的分类方法、装置、非易失性存储介质、处理器
CN110390010B (zh) 一种自动文本摘要方法
CN114818711A (zh) 基于神经网络的多信息融合命名实体识别方法
CN113569049B (zh) 一种基于层次Trans-CNN的多标签文本分类方法
CN113656632B (zh) 大规模细粒度图像检索中的属性感知哈希编码学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant