CN115049844A - 一种增强视觉信息流的图像描述生成方法 - Google Patents

一种增强视觉信息流的图像描述生成方法 Download PDF

Info

Publication number
CN115049844A
CN115049844A CN202210759217.5A CN202210759217A CN115049844A CN 115049844 A CN115049844 A CN 115049844A CN 202210759217 A CN202210759217 A CN 202210759217A CN 115049844 A CN115049844 A CN 115049844A
Authority
CN
China
Prior art keywords
segmentation
features
grid
visual information
image description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210759217.5A
Other languages
English (en)
Other versions
CN115049844B (zh
Inventor
纪荣嵘
周奕毅
吴明瑞
张旭迎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202210759217.5A priority Critical patent/CN115049844B/zh
Publication of CN115049844A publication Critical patent/CN115049844A/zh
Application granted granted Critical
Publication of CN115049844B publication Critical patent/CN115049844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/424Syntactic representation, e.g. by using alphabets or grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

一种增强视觉信息流的图像描述生成方法,涉及人工智能领域。使用Faster‑RCNN提取网格特征作为图片网格特征表示;使用一个全景分割网络提取分割图转换成二值图作为这张图片的分割特征表示;将网格特征与分割特征展平,线性变换后送入可迭代的独立的层正则化模块中融合;用额外的跨层残差连接结合来自可迭代的独立的层正则化模块中的两种特征和当前编码后的特征,送入解码器中,解码器以自回归的方式生成图像描述;在所有的多头注意力模块中加入额外的残差连接。提出一个双信息流模型,通过引入分割特征作为另一条视觉信息源增强视觉信息对模型输出预测贡献程度。增强模型预测对视觉信息的依赖程度,使得每个词预测更集中于视觉内容。

Description

一种增强视觉信息流的图像描述生成方法
技术领域
本发明涉及人工智能领域中的视觉和语言多模态任务,具体是涉及对给定图像中视觉内容进行建模并用自然语言描述出来的一种增强视觉信息流的图像描述生成方法。
背景技术
图像描述是基于给定图像生成自然语言描述的任务,需要一个模型来从多个方面理解给定的图像,包括识别对象、动作以及关系,为该图像生成语言描述。将大量的视觉信息压缩为描述性语言对于机器来说非常困难,因此是人工智能领域研究的一个重要的挑战。同时,图像描述也启发很多计算机视觉和自然语言处理相关的研究。
随着神经机器翻译的发展,编码器解码器框架也被广泛应用于图像字幕任务中。编码器用离线CNN网络提取的一组视觉特征(如网格特征[1])作为输入,进一步编码到视觉语言空间。然后,解码器使用编码器提供的视觉信息和部分生成的字幕预测下一个单词。这种结构只使用一个分支网络来提取和过滤视觉信息,被称之为单信息流(SIF)网络。
大多数现有方法[2][3][4]都遵循SIF范式构建图像描述网络。有一个主要缺点:来自视觉特征提取器的视觉信息不足,且有时还不准确。尽管在特征提取器上的研究已经取得很大进展[5][6],但关键的视觉信息如动作和深度信息,即使在使用强大的视觉语言预训练模型的情况下[7],仍然可能被忽略。上述缺点导致解码器的视觉信息流不足,迫使解码器过度依赖部分生成的字幕来预测其余单词,以确保生成的描述的流畅性。这个问题最终使生成的描述与实际的视觉内容无关。
为了克服这些缺点,最近的报道[5][8][9][10]引入一些高级视觉提示,比如概念,来补充视觉信息。然而,由于语义不一致[11]和空间错位的问题,需要额外的融合模块将这些线索与视觉特征对齐,这是很低效的且它们很难与采用网格特征的图像描述模型相结合。
参考文献:
[1]Huaizu Jiang,Ishan Misra,Marcus Rohrbach,Erik LearnedMiller,andXinlei Chen.In defense of grid features for visual question answering.InProceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition,pages 10267–10276,2020.1,3,5。
[2]Marcella Cornia,Matteo Stefanini,Lorenzo Baraldi,and RitaCucchiara.Meshed-memory transformer for image captioning.In Proceedings oftheIEEE/CVF Conference on Computer Vision and Pattern Recognition,pages 10578–10587,2020.1,2,3,5,8。
[3]Lun Huang,Wenmin Wang,Jie Chen,and XiaoYong Wei.Attention onattention for image captioning.In Proceedings of the IEEE/CVF InternationalConference on Computer Vision,pages 4634–4643,2019.1,2,3,5,8。
[4]Yingwei Pan,Ting Yao,Yehao Li,and Tao Mei.X-linearattentionnetworks for image captioning.In Proceedings ofthe IEEE/CVF Conference onComputer Vision and PatternRecognition,pages 10971–10980,2020.1。
[5]Xiujun Li,Xi Yin,Chunyuan Li,Pengchuan Zhang,XiaoweiHu,Lei Zhang,Lijuan Wang,Houdong Hu,Li Dong,FuruWei,et al.Oscar:Objectsemantics alignedpre-training forvision-language tasks.In European Conference onComputerVision,pages 121–137.Springer,2020.1。
[6]Shaoqing Ren,Kaiming He,Ross Girshick,and Jian Sun.Faster r-cnn:Towards real-time object detection with regionproposal networks.In C.Cortes,N.Lawrence,D.Lee,M.Sugiyama,and R.Garnett,editors,Advances in NeuralInformation Processing Systems,volume 28.Curran Associates,Inc.,2015。
[7]Lisa Anne Hendricks and Aida Nematzadeh.Probing image-languagetransformers for verb understanding,2021.1。
[8]Yunpeng Luo,Jiayi Ji,Xiaoshuai Sun,Liujuan Cao,Yongjian Wu,FeiyueHuang,ChiaWen Lin,and RongrongJi.Dual-level collaborative transformer forimage captioning,2021.1,2,8。
[9]Qi Wu,Chunhua Shen,Lingqiao Liu,Anthony Dick,and Anton Van DenHengel.What value do explicit high level concepts have in vision to languageproblems?In Proceedings of the IEEE conference on computer vision andpatternrecognition,pages 203–212,2016.1,2。
[10]Ting Yao,Yingwei Pan,Yehao Li,ZhaofanQiu,and Tao Mei.Boostingimage captioning with attributes.In Proceedings of the IEEE internationalconference on computer vision,pages 4894–4902,2017.1,2。
[11]and Xu Sun.Aligning visual regions and textual conceptsforsemantic-grounded image representations,2019.2,4,6,7。
发明内容
本发明的目的在于提供一种增强视觉信息流的图像描述生成方法。针对之前的单流图像描述模型存在的来自特征提取器的视觉信息不充分以及有时不准确的缺陷,一方面利用分割特征作为另一种视觉信息源对网格特征进行补充用以增强视觉信息对可靠的预测的贡献度,另一方面,构建一个可迭代的独立的层正则化模块,来有效凝练两种信息源中最相关的信息同时也维持每条信息流中的模态具体的信息,以最大化利用两种信息源,最后,采用额外的残差连接来增强在编码器内与解码器内和它们之间的信息流,来保留被注意力层过滤的信息。
本发明包括以下步骤:
1)给定一张图片,使用Faster-RCNN提取网格特征作为这张图片的网格特征表示;
2)对步骤1)中的图片使用一个全景分割网络提取分割图,并将该分割图转换成二值图作为这张图片的分割特征表示;
3)分别将网格特征与分割特征展平,分别经过一次线性变换后,送入到可迭代的独立的层正则化模块中融合;
5)将融合后的特征用transformer编码器进行编码,用额外的跨层残差连接结合来自可迭代的独立的层正则化模块中的两种特征和当前编码后的特征,送入解码器中,解码器以自回归的方式生成图像描述;
6)在所有的多头注意力模块中加入额外的残差连接。
在步骤1)中,所述使用Faster-RCNN提取网格特征,不需要生成候选区域,以提高特征提取速度。
在步骤2)中,所述分割特征提取后,可作为一种高级语义提示用来补充原网格特征。
在步骤3)中,所述可迭代的独立的层正则化模块对两种特征进行融合时,采用共享的注意力层和前馈网络,以及采用私有的和共有的层正则化,并且整个模块可迭代计算。
在步骤5)中,所述跨层残差连接用于使两种视觉信息能够直接进入到解码器中。
在步骤6)中,所述在所有的多头注意力模块中加入额外的残差连接,用于保留被多头注意力模块过滤的信息。
与现有技术相比,本发明的突出优点如下:
(1)本发明提出利用分割特征作为另一种视觉信息源对网格特征进行补充用以增强视觉信息对可靠的预测的贡献度。
(2)本发明提出一个可迭代的独立的层正则化模块,通过共有的参数凝练两种信息源中最相关的信息同时也同时私有化的层正则化维持每条信息流中的模态具体的信息,以最大化利用两种信息源。
(3)本发明提出采用额外的残差连接来增强在编码器内与解码器内和它们之间的信息流,以保留被注意力层过滤的信息。
(4)本发明提出的双信息流模型可有效提升视觉信息对图像描述的贡献度,且在基准数据集上取得最先进的性能。
附图说明
图1是本发明提出的双信息流模型(下)与经典图像描述模型(上)的对比。
图2是本发明构建的用于图像描述的双信息流模型的总体结构图。
图3是本发明构建的用于融合两种视觉信息流的可迭代的独立的层正则化模块的结构图。
图4是本发明构建的可迭代的独立的层正则化模块中迭代次数对模型表现和速度的影响。
图5是本发明构建的双信息流模型与基准模型的视觉信息对图像描述的贡献程度对比图。
图6是本发明提出的双信息流模型和基准模型生成图像描述的对比。
图7是本发明提出的双信息流模型的在图像描述上失败的例子。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
本发明的目的是针对之前的单流图像描述模型存在的来自特征提取器的视觉信息不充分以及有时不准确的缺陷,提出利用分割特征作为另一种视觉信息源对网格进行补充,构建一个可迭代的独立的层正则化模块,采用额外的残差连接增强在编码器内与解码器内和它们之间的信息流,增强图像描述对视觉信息的依赖,极大提高生成图像描述模型的性能。
如图1,本发明实施例增强视觉信息流的图像描述方法,提供一种双信息流模型,具体包括以下步骤:
1)给定一张图片,使用Faster-RCNN提取网格特征作为这张图片的网格特征表示,用Faster-RCNN直接提取网格特征,不需要生成候选区域,以提高特征提取速度。
2)使用一个全景分割网络提取分割图,将该分割图转换成二值图作为这张图片的分割特征表示,分割特征提取后,可作为一种高级语义提示用来补充原网格特征。
3)分别将网格特征与分割特征展平,并分别经过一次线性变换后,送入到可迭代的独立的层正则化模块中进行融合。可迭代的独立的层正则化模块对两种特征进行融合时,采用共享的注意力层和前馈网络,以及采用私有的和共有的层正则化,并且整个模块可迭代计算。
5)将融合后的特征用transformer编码器进行编码,用额外的跨层残差连接结合来自可迭代的独立的层正则化模块中的两种特征和当前编码后的特征,之后送入到解码器中,解码器以自回归的方式生成图像描述。其中用跨层连接来使两种视觉信息能够直接进入到解码器中。
6)在所有的多头注意力模块中加入额外的残差连接,来保留被多头注意力模块过滤的信息。
图1给出本发明提出的双信息流模型(下)与经典图像描述模型(上)的对比。基于上述增强视觉信息流的描述方法,本发明提供一种图像描述生成模型,图2是本发明构建的用于图像描述的双信息流模型的总体结构图,所述图像描述生成模型依次包括网格与分割特征提取、可迭代独立的层正则化模块和额外的残差连接部分。
1、网格与分割特征提取
这一部分主要包含步骤1)~2)。首先,用一个预训练的Faster-RCNN提取网格特征,另外用一个预训练的全景分割网络提取分割图,并将该分割图转换成二值图后形成分割特征。
2、可迭代独立的层正则化模块
这一部分主要包含步骤3),分别将网格特征与分割特征展平并分别经过一次线性变换后,送入到可迭代的独立的层正则化模块中进行融合。可迭代的独立的层正则化模块如图3所示。首先,共享多头注意力层(MHSA)和前馈网络层(PWFF)的参数,以避免网络参数的增加,之后采用一个公共的层正则化(LN)层来获得一个单分布,它包含两种信息源,该过程表示如下:
Figure BDA0003720524050000051
Figure BDA0003720524050000052
其中,θ是MHSA层和PWFF层的模型参数,α和β是可学习的尺度参数,Z是输入的表征,M是该层输出,v表示网格特征,s表示分割特征,l表示在第l层。然后,应用两个私有LN层将上述单分布仿射成两个具有特定模式的分布,这两个分布集成两种信息表征的私有信息(通过私有LN层的仿射变换和残差连接)和公共信息(通过公共LN层),表示如下:
Mv=LN(Mv+Zv;αv,βυ),
Ms=LN(Ms+Zs;αs,βs).
最后,PWFF层和两个私有LN层被用来进一步增强两种信息表征,如下:
Figure BDA0003720524050000061
Figure BDA0003720524050000062
另外,适当的迭代应用到该可迭代独立的正则化模块上用于聚合更多的信息到每种表征上。之后对两种表征直接相加,采用多层transformer层对融合后的表征进行编码。
3、额外的残差连接
这一部分主要包含步骤5)和6),MHSA中的注意力机制的独特性质过滤掉不相关的信息。同时也可能过滤掉一些较弱但可能有用的信息。为了增强编码器和解码器内部和之间的信息流,保护一些脆弱的视觉信息不被注意层过滤掉,在它们上添加额外的残差连接,过程如下:
M=LN(LN(MHSA(Z)+Z)+Z),
另外,融合的表征通过多个transformer层编码后,从IILN层获得的信息可能无法有效保留。将来自IILN层的输出添加到编码器的输出,以迫使两种信息流的有用信息直接流入解码器,表示如下:
Figure BDA0003720524050000063
为证明本发明提出的方法的先进性,本发明在图像描述的基准数据集MS-COCO上对提出的模型进行评估。为证明本发明提出的方法的有效性,分别进行一系列量化实验与可视化实验。
本发明中对分割特征(Seg.Feature)的分解实验如表1、表2和表3所示,可以看出本发明提出的引入分割特征作为另一个视觉信息源均能有效提高图像描述的性能。
表1本发明中特征质量的对模型表现的影响
Figure BDA0003720524050000064
表2本发明中不同特征尺寸对模型表现的影响
Figure BDA0003720524050000071
表3本发明中的分割特征对不同的基于transformer的图像描述模型的影响
Figure BDA0003720524050000072
本发明的可迭代独立的层正则化(IILN)模块消融及与其它融合方法的对比实验如表4。
本发明中的加入额外残差连接的对比实验如表5所示。本发明中的双信息流模型(DIFNet)与其他最先进方法在线上测试的对比实验如表6所示。图4是本发明构建的可迭代的独立的层正则化模块中迭代次数对模型表现和速度影响。图5是本发明构建的双信息流模型与基准模型的视觉信息对图像描述的贡献程度(基于算法计算)对比图,可以看到本发明的双信息流模型能提升视觉信息对图像描述的贡献度。图6是本发明提出的双信息流模型和基准模型生成图像描述的对比。图7是本发明提出的双信息流模型的在图像描述上失败的例子。
表4本发明方法中融合方法的消融与对比
Figure BDA0003720524050000073
表5本发明方法中额外残差连接的影响
Figure BDA0003720524050000081
表6本发明方法与其他先进方法的比较
Figure BDA0003720524050000082
本发明提出一个双信息流模型,通过引入分割特征作为另一条视觉信息源来增强视觉信息对模型输出预测的贡献程度。为了最大化利用两种信息源,提出一个可迭代的独立的层正则化模块,它可以有效凝练两种信息源中最相关的信息同时也维持每条信息流中的模态具体的信息。实验证明提出的方法能增强模型预测对视觉信息的依赖程度,使得每个词的预测更加集中于视觉内容,并且在图像自动描述任务的基准数据集MSCOCO上取得了最先进的性能。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (6)

1.一种增强视觉信息流的图像描述生成方法,其特征在于包括以下步骤:
1)给定一张图片,使用Faster-RCNN提取网格特征作为这张图片的网格特征表示;
2)对步骤1)中的图片使用一个全景分割网络提取分割图,并将该分割图转换成二值图作为这张图片的分割特征表示;
3)分别将网格特征与分割特征展平,分别经过一次线性变换后,送入到可迭代的独立的层正则化模块中融合;
5)将融合后的特征用transformer编码器进行编码,用额外的跨层残差连接结合来自可迭代的独立的层正则化模块中的两种特征和当前编码后的特征,送入解码器中,解码器以自回归的方式生成图像描述;
6)在所有的多头注意力模块中加入额外的残差连接。
2.如权利要求1所述一种增强视觉信息流的图像描述生成方法,其特征在于在步骤1)中,所述使用Faster-RCNN提取网格特征,不需要生成候选区域,以提高特征提取速度。
3.如权利要求1所述一种增强视觉信息流的图像描述生成方法,其特征在于在步骤2)中,所述分割特征提取后,可作为一种高级语义提示用来补充原网格特征。
4.如权利要求1所述一种增强视觉信息流的图像描述生成方法,其特征在于在步骤3)中,所述可迭代的独立的层正则化模块对两种特征进行融合时,采用共享的注意力层和前馈网络,以及采用私有的和共有的层正则化,并且整个模块可迭代计算。
5.如权利要求1所述一种增强视觉信息流的图像描述生成方法,其特征在于在步骤5)中,所述跨层残差连接用于使两种视觉信息能够直接进入到解码器中。
6.如权利要求1所述一种增强视觉信息流的图像描述生成方法,其特征在于在步骤6)中,所述在所有的多头注意力模块中加入额外的残差连接,用于保留被多头注意力模块过滤的信息。
CN202210759217.5A 2022-06-29 2022-06-29 一种增强视觉信息流的图像描述生成方法 Active CN115049844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210759217.5A CN115049844B (zh) 2022-06-29 2022-06-29 一种增强视觉信息流的图像描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210759217.5A CN115049844B (zh) 2022-06-29 2022-06-29 一种增强视觉信息流的图像描述生成方法

Publications (2)

Publication Number Publication Date
CN115049844A true CN115049844A (zh) 2022-09-13
CN115049844B CN115049844B (zh) 2024-06-04

Family

ID=83166168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210759217.5A Active CN115049844B (zh) 2022-06-29 2022-06-29 一种增强视觉信息流的图像描述生成方法

Country Status (1)

Country Link
CN (1) CN115049844B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
WO2021101231A1 (en) * 2019-11-22 2021-05-27 Samsung Electronics Co., Ltd. Event recognition on photos with automatic album detection
CN113837233A (zh) * 2021-08-30 2021-12-24 厦门大学 基于样本自适应语义引导的自注意力机制的图像描述方法
CN113837230A (zh) * 2021-08-30 2021-12-24 厦门大学 基于自适应注意力机制的图像描述生成方法
CN113902757A (zh) * 2021-10-09 2022-01-07 天津大学 基于自注意力机制和卷积神经网络混合模型的血管分割方法
CN113946706A (zh) * 2021-05-20 2022-01-18 广西师范大学 基于参考前置描述的图像描述生成方法
GB202117611D0 (en) * 2021-12-06 2022-01-19 Toshiba Kk Systems and methods for speech recognition
CN114255220A (zh) * 2021-12-21 2022-03-29 徐州徐工挖掘机械有限公司 一种基于Transformer神经网络的焊缝质量检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
WO2021101231A1 (en) * 2019-11-22 2021-05-27 Samsung Electronics Co., Ltd. Event recognition on photos with automatic album detection
CN113946706A (zh) * 2021-05-20 2022-01-18 广西师范大学 基于参考前置描述的图像描述生成方法
CN113837233A (zh) * 2021-08-30 2021-12-24 厦门大学 基于样本自适应语义引导的自注意力机制的图像描述方法
CN113837230A (zh) * 2021-08-30 2021-12-24 厦门大学 基于自适应注意力机制的图像描述生成方法
CN113902757A (zh) * 2021-10-09 2022-01-07 天津大学 基于自注意力机制和卷积神经网络混合模型的血管分割方法
GB202117611D0 (en) * 2021-12-06 2022-01-19 Toshiba Kk Systems and methods for speech recognition
CN114255220A (zh) * 2021-12-21 2022-03-29 徐州徐工挖掘机械有限公司 一种基于Transformer神经网络的焊缝质量检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RONGRONG JI 等: "DIFnet:boosting visual information flow for image captioning", 2022 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 27 September 2022 (2022-09-27) *
周治平;张威;: "结合视觉属性注意力和残差连接的图像描述生成模型", 计算机辅助设计与图形学学报, no. 08, 15 August 2018 (2018-08-15) *

Also Published As

Publication number Publication date
CN115049844B (zh) 2024-06-04

Similar Documents

Publication Publication Date Title
CN113298789B (zh) 绝缘子缺陷检测方法、系统、电子设备及可读存储介质
Wu et al. Seesr: Towards semantics-aware real-world image super-resolution
Ren et al. Tinymim: An empirical study of distilling mim pre-trained models
CN108845994A (zh) 利用外部信息的神经机器翻译系统及翻译系统的训练方法
CN109766918B (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN111833282A (zh) 一种基于改进的DDcGAN模型的图像融合方法
Alkalouti et al. Encoder-decoder model for automatic video captioning using yolo algorithm
CN101464909B (zh) 一种快速鲁棒的近相同视频检测和排除方法
CN117036833B (zh) 一种视频分类方法、装置、设备和计算机可读存储介质
Bailer et al. Challenges for Automatic Detection of Fake News Related to Migration
Chen et al. : Edge-Aware Multimodal Transformer for RGB-D Salient Object Detection
Lai et al. Generative focused feedback residual networks for image steganalysis and hidden information reconstruction
Fang et al. Learning Better Video Query with SAM for Video Instance Segmentation
CN117651144A (zh) 基于深度学习的建筑物点云压缩方法及系统
CN117952846A (zh) 低光环境下基于视觉增强的红外与可见光图像融合方法
CN115049844B (zh) 一种增强视觉信息流的图像描述生成方法
Phuc et al. Video captioning in Vietnamese using deep learning
Guo et al. One-stage low-resolution text recognition with high-resolution knowledge transfer
CN115019137A (zh) 一种多尺度双流注意力视频语言事件预测的方法及装置
CN115496134A (zh) 基于多模态特征融合的交通场景视频描述生成方法和装置
CN114495230A (zh) 表情识别方法、装置、电子设备和存储介质
Woo et al. Explore-and-match: Bridging proposal-based and proposal-free with transformer for sentence grounding in videos
Gan et al. Temporal Sentence Grounding in Streaming Videos
Rao et al. CMGNet: Collaborative multi-modal graph network for video captioning
CN113268599A (zh) 文件分类模型的训练方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant