CN115049844B - 一种增强视觉信息流的图像描述生成方法 - Google Patents
一种增强视觉信息流的图像描述生成方法 Download PDFInfo
- Publication number
- CN115049844B CN115049844B CN202210759217.5A CN202210759217A CN115049844B CN 115049844 B CN115049844 B CN 115049844B CN 202210759217 A CN202210759217 A CN 202210759217A CN 115049844 B CN115049844 B CN 115049844B
- Authority
- CN
- China
- Prior art keywords
- features
- segmentation
- layer
- visual information
- grid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 13
- 230000011218 segmentation Effects 0.000 claims abstract description 50
- 230000004927 fusion Effects 0.000 claims abstract description 5
- 238000012512 characterization method Methods 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 239000013589 supplement Substances 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 230000009977 dual effect Effects 0.000 abstract description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000001131 transforming effect Effects 0.000 abstract 1
- 238000002474 experimental method Methods 0.000 description 7
- 230000000052 comparative effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/422—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
- G06V10/424—Syntactic representation, e.g. by using alphabets or grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
一种增强视觉信息流的图像描述生成方法,涉及人工智能领域。使用Faster‑RCNN提取网格特征作为图片网格特征表示;使用一个全景分割网络提取分割图转换成二值图作为这张图片的分割特征表示;将网格特征与分割特征展平,线性变换后送入可迭代的独立的层正则化模块中融合;用额外的跨层残差连接结合来自可迭代的独立的层正则化模块中的两种特征和当前编码后的特征,送入解码器中,解码器以自回归的方式生成图像描述;在所有的多头注意力模块中加入额外的残差连接。提出一个双信息流模型,通过引入分割特征作为另一条视觉信息源增强视觉信息对模型输出预测贡献程度。增强模型预测对视觉信息的依赖程度,使得每个词预测更集中于视觉内容。
Description
技术领域
本发明涉及人工智能领域中的视觉和语言多模态任务,具体是涉及对给定图像中视觉内容进行建模并用自然语言描述出来的一种增强视觉信息流的图像描述生成方法。
背景技术
图像描述是基于给定图像生成自然语言描述的任务,需要一个模型来从多个方面理解给定的图像,包括识别对象、动作以及关系,为该图像生成语言描述。将大量的视觉信息压缩为描述性语言对于机器来说非常困难,因此是人工智能领域研究的一个重要的挑战。同时,图像描述也启发很多计算机视觉和自然语言处理相关的研究。
随着神经机器翻译的发展,编码器解码器框架也被广泛应用于图像字幕任务中。编码器用离线CNN网络提取的一组视觉特征(如网格特征[1])作为输入,进一步编码到视觉语言空间。然后,解码器使用编码器提供的视觉信息和部分生成的字幕预测下一个单词。这种结构只使用一个分支网络来提取和过滤视觉信息,被称之为单信息流(SIF)网络。
大多数现有方法[2][3][4]都遵循SIF范式构建图像描述网络。有一个主要缺点:来自视觉特征提取器的视觉信息不足,且有时还不准确。尽管在特征提取器上的研究已经取得很大进展[5][6],但关键的视觉信息如动作和深度信息,即使在使用强大的视觉语言预训练模型的情况下[7],仍然可能被忽略。上述缺点导致解码器的视觉信息流不足,迫使解码器过度依赖部分生成的字幕来预测其余单词,以确保生成的描述的流畅性。这个问题最终使生成的描述与实际的视觉内容无关。
为了克服这些缺点,最近的报道[5][8][9][10]引入一些高级视觉提示,比如概念,来补充视觉信息。然而,由于语义不一致[11]和空间错位的问题,需要额外的融合模块将这些线索与视觉特征对齐,这是很低效的且它们很难与采用网格特征的图像描述模型相结合。
参考文献:
[1]Huaizu Jiang,Ishan Misra,Marcus Rohrbach,Erik LearnedMiller,andXinlei Chen.In defense of grid features for visual question answering.InProceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition,pages 10267–10276,2020.1,3,5。
[2]Marcella Cornia,Matteo Stefanini,Lorenzo Baraldi,and RitaCucchiara.Meshed-memory transformer for image captioning.In Proceedings oftheIEEE/CVF Conference on Computer Vision and Pattern Recognition,pages 10578–10587,2020.1,2,3,5,8。
[3]Lun Huang,Wenmin Wang,Jie Chen,and XiaoYong Wei.Attention onattention for image captioning.In Proceedings of the IEEE/CVF InternationalConference on Computer Vision,pages 4634–4643,2019.1,2,3,5,8。
[4]Yingwei Pan,Ting Yao,Yehao Li,and Tao Mei.X-linearattentionnetworks for image captioning.In Proceedings ofthe IEEE/CVF Conference onComputer Vision and PatternRecognition,pages 10971–10980,2020.1。
[5]Xiujun Li,Xi Yin,Chunyuan Li,Pengchuan Zhang,XiaoweiHu,Lei Zhang,Lijuan Wang,Houdong Hu,Li Dong,FuruWei,et al.Oscar:Objectsemantics alignedpre-training forvision-language tasks.In European Conference onComputerVision,pages 121–137.Springer,2020.1。
[6]Shaoqing Ren,Kaiming He,Ross Girshick,and Jian Sun.Faster r-cnn:Towards real-time object detection with regionproposal networks.In C.Cortes,N.Lawrence,D.Lee,M.Sugiyama,and R.Garnett,editors,Advances in NeuralInformation Processing Systems,volume 28.Curran Associates,Inc.,2015。
[7]Lisa Anne Hendricks and Aida Nematzadeh.Probing image-languagetransformers for verb understanding,2021.1。
[8]Yunpeng Luo,Jiayi Ji,Xiaoshuai Sun,Liujuan Cao,Yongjian Wu,FeiyueHuang,ChiaWen Lin,and RongrongJi.Dual-level collaborative transformer forimage captioning,2021.1,2,8。
[9]Qi Wu,Chunhua Shen,Lingqiao Liu,Anthony Dick,and Anton Van DenHengel.What value do explicit high level concepts have in vision to languageproblems?In Proceedings of the IEEE conference on computer vision andpatternrecognition,pages 203–212,2016.1,2。
[10]Ting Yao,Yingwei Pan,Yehao Li,ZhaofanQiu,and Tao Mei.Boostingimage captioning with attributes.In Proceedings of the IEEE internationalconference on computer vision,pages 4894–4902,2017.1,2。
[11]and Xu Sun.Aligning visual regions and textual conceptsforsemantic-grounded image representations,2019.2,4,6,7。
发明内容
本发明的目的在于提供一种增强视觉信息流的图像描述生成方法。针对之前的单流图像描述模型存在的来自特征提取器的视觉信息不充分以及有时不准确的缺陷,一方面利用分割特征作为另一种视觉信息源对网格特征进行补充用以增强视觉信息对可靠的预测的贡献度,另一方面,构建一个可迭代的独立的层正则化模块,来有效凝练两种信息源中最相关的信息同时也维持每条信息流中的模态具体的信息,以最大化利用两种信息源,最后,采用额外的残差连接来增强在编码器内与解码器内和它们之间的信息流,来保留被注意力层过滤的信息。
本发明包括以下步骤:
1)给定一张图片,使用Faster-RCNN提取网格特征作为这张图片的网格特征表示;
2)对步骤1)中的图片使用一个全景分割网络提取分割图,并将该分割图转换成二值图作为这张图片的分割特征表示;
3)分别将网格特征与分割特征展平,分别经过一次线性变换后,送入到可迭代的独立的层正则化模块中融合;
5)将融合后的特征用transformer编码器进行编码,用额外的跨层残差连接结合来自可迭代的独立的层正则化模块中的两种特征和当前编码后的特征,送入解码器中,解码器以自回归的方式生成图像描述;
6)在所有的多头注意力模块中加入额外的残差连接。
在步骤1)中,所述使用Faster-RCNN提取网格特征,不需要生成候选区域,以提高特征提取速度。
在步骤2)中,所述分割特征提取后,可作为一种高级语义提示用来补充原网格特征。
在步骤3)中,所述可迭代的独立的层正则化模块对两种特征进行融合时,采用共享的注意力层和前馈网络,以及采用私有的和共有的层正则化,并且整个模块可迭代计算。
在步骤5)中,所述跨层残差连接用于使两种视觉信息能够直接进入到解码器中。
在步骤6)中,所述在所有的多头注意力模块中加入额外的残差连接,用于保留被多头注意力模块过滤的信息。
与现有技术相比,本发明的突出优点如下:
(1)本发明提出利用分割特征作为另一种视觉信息源对网格特征进行补充用以增强视觉信息对可靠的预测的贡献度。
(2)本发明提出一个可迭代的独立的层正则化模块,通过共有的参数凝练两种信息源中最相关的信息同时也同时私有化的层正则化维持每条信息流中的模态具体的信息,以最大化利用两种信息源。
(3)本发明提出采用额外的残差连接来增强在编码器内与解码器内和它们之间的信息流,以保留被注意力层过滤的信息。
(4)本发明提出的双信息流模型可有效提升视觉信息对图像描述的贡献度,且在基准数据集上取得最先进的性能。
附图说明
图1是本发明提出的双信息流模型(下)与经典图像描述模型(上)的对比。
图2是本发明构建的用于图像描述的双信息流模型的总体结构图。
图3是本发明构建的用于融合两种视觉信息流的可迭代的独立的层正则化模块的结构图。
图4是本发明构建的可迭代的独立的层正则化模块中迭代次数对模型表现和速度的影响。
图5是本发明构建的双信息流模型与基准模型的视觉信息对图像描述的贡献程度对比图。
图6是本发明提出的双信息流模型和基准模型生成图像描述的对比。
图7是本发明提出的双信息流模型的在图像描述上失败的例子。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
本发明的目的是针对之前的单流图像描述模型存在的来自特征提取器的视觉信息不充分以及有时不准确的缺陷,提出利用分割特征作为另一种视觉信息源对网格进行补充,构建一个可迭代的独立的层正则化模块,采用额外的残差连接增强在编码器内与解码器内和它们之间的信息流,增强图像描述对视觉信息的依赖,极大提高生成图像描述模型的性能。
如图1,本发明实施例增强视觉信息流的图像描述方法,提供一种双信息流模型,具体包括以下步骤:
1)给定一张图片,使用Faster-RCNN提取网格特征作为这张图片的网格特征表示,用Faster-RCNN直接提取网格特征,不需要生成候选区域,以提高特征提取速度。
2)使用一个全景分割网络提取分割图,将该分割图转换成二值图作为这张图片的分割特征表示,分割特征提取后,可作为一种高级语义提示用来补充原网格特征。
3)分别将网格特征与分割特征展平,并分别经过一次线性变换后,送入到可迭代的独立的层正则化模块中进行融合。可迭代的独立的层正则化模块对两种特征进行融合时,采用共享的注意力层和前馈网络,以及采用私有的和共有的层正则化,并且整个模块可迭代计算。
5)将融合后的特征用transformer编码器进行编码,用额外的跨层残差连接结合来自可迭代的独立的层正则化模块中的两种特征和当前编码后的特征,之后送入到解码器中,解码器以自回归的方式生成图像描述。其中用跨层连接来使两种视觉信息能够直接进入到解码器中。
6)在所有的多头注意力模块中加入额外的残差连接,来保留被多头注意力模块过滤的信息。
图1给出本发明提出的双信息流模型(下)与经典图像描述模型(上)的对比。基于上述增强视觉信息流的描述方法,本发明提供一种图像描述生成模型,图2是本发明构建的用于图像描述的双信息流模型的总体结构图,所述图像描述生成模型依次包括网格与分割特征提取、可迭代独立的层正则化模块和额外的残差连接部分。
1、网格与分割特征提取
这一部分主要包含步骤1)~2)。首先,用一个预训练的Faster-RCNN提取网格特征,另外用一个预训练的全景分割网络提取分割图,并将该分割图转换成二值图后形成分割特征。
2、可迭代独立的层正则化模块
这一部分主要包含步骤3),分别将网格特征与分割特征展平并分别经过一次线性变换后,送入到可迭代的独立的层正则化模块中进行融合。可迭代的独立的层正则化模块如图3所示。首先,共享多头注意力层(MHSA)和前馈网络层(PWFF)的参数,以避免网络参数的增加,之后采用一个公共的层正则化(LN)层来获得一个单分布,它包含两种信息源,该过程表示如下:
其中,θ是MHSA层和PWFF层的模型参数,α和β是可学习的尺度参数,Z是输入的表征,M是该层输出,v表示网格特征,s表示分割特征,l表示在第l层。然后,应用两个私有LN层将上述单分布仿射成两个具有特定模式的分布,这两个分布集成两种信息表征的私有信息(通过私有LN层的仿射变换和残差连接)和公共信息(通过公共LN层),表示如下:
Mv=LN(Mv+Zv;αv,βυ),
Ms=LN(Ms+Zs;αs,βs).
最后,PWFF层和两个私有LN层被用来进一步增强两种信息表征,如下:
另外,适当的迭代应用到该可迭代独立的正则化模块上用于聚合更多的信息到每种表征上。之后对两种表征直接相加,采用多层transformer层对融合后的表征进行编码。
3、额外的残差连接
这一部分主要包含步骤5)和6),MHSA中的注意力机制的独特性质过滤掉不相关的信息。同时也可能过滤掉一些较弱但可能有用的信息。为了增强编码器和解码器内部和之间的信息流,保护一些脆弱的视觉信息不被注意层过滤掉,在它们上添加额外的残差连接,过程如下:
M=LN(LN(MHSA(Z)+Z)+Z),
另外,融合的表征通过多个transformer层编码后,从IILN层获得的信息可能无法有效保留。将来自IILN层的输出添加到编码器的输出,以迫使两种信息流的有用信息直接流入解码器,表示如下:
为证明本发明提出的方法的先进性,本发明在图像描述的基准数据集MS-COCO上对提出的模型进行评估。为证明本发明提出的方法的有效性,分别进行一系列量化实验与可视化实验。
本发明中对分割特征(Seg.Feature)的分解实验如表1、表2和表3所示,可以看出本发明提出的引入分割特征作为另一个视觉信息源均能有效提高图像描述的性能。
表1本发明中特征质量的对模型表现的影响
表2本发明中不同特征尺寸对模型表现的影响
表3本发明中的分割特征对不同的基于transformer的图像描述模型的影响
本发明的可迭代独立的层正则化(IILN)模块消融及与其它融合方法的对比实验如表4。
本发明中的加入额外残差连接的对比实验如表5所示。本发明中的双信息流模型(DIFNet)与其他最先进方法在线上测试的对比实验如表6所示。图4是本发明构建的可迭代的独立的层正则化模块中迭代次数对模型表现和速度影响。图5是本发明构建的双信息流模型与基准模型的视觉信息对图像描述的贡献程度(基于算法计算)对比图,可以看到本发明的双信息流模型能提升视觉信息对图像描述的贡献度。图6是本发明提出的双信息流模型和基准模型生成图像描述的对比。图7是本发明提出的双信息流模型的在图像描述上失败的例子。
表4本发明方法中融合方法的消融与对比
表5本发明方法中额外残差连接的影响
表6本发明方法与其他先进方法的比较
本发明提出一个双信息流模型,通过引入分割特征作为另一条视觉信息源来增强视觉信息对模型输出预测的贡献程度。为了最大化利用两种信息源,提出一个可迭代的独立的层正则化模块,它可以有效凝练两种信息源中最相关的信息同时也维持每条信息流中的模态具体的信息。实验证明提出的方法能增强模型预测对视觉信息的依赖程度,使得每个词的预测更加集中于视觉内容,并且在图像自动描述任务的基准数据集MSCOCO上取得了最先进的性能。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (5)
1.一种增强视觉信息流的图像描述生成方法,其特征在于包括以下步骤:
1)给定一张图片,使用Faster-RCNN提取网格特征作为这张图片的网格特征表示;
2)对步骤1)中的图片使用一个全景分割网络提取分割图,并将该分割图转换成二值图作为这张图片的分割特征表示;
3)分别将网格特征与分割特征展平,分别经过一次线性变换后,送入到可迭代的独立的层正则化模块中融合;
所述可迭代的独立的层正则化模块对两种特征进行融合时,采用共享的注意力层和前馈网络,以及采用私有的和共有的层正则化,并且整个模块可迭代计算;
所述可迭代独立的层正则化模块的具体方法如下:
分别将网格特征与分割特征展平并分别经过一次线性变换后,送入到可迭代的独立的层正则化模块中进行融合;首先,共享多头注意力层MHSA和前馈网络层PWFF的参数,以避免网络参数的增加,之后采用一个公共的层正则化LN层来获得一个单分布,它包含两种信息源,该过程表示如下:
其中,θ是MHSA层和PWFF层的模型参数,α和β是可学习的尺度参数,Z是输入的表征,M是该层输出,v表示网格特征,s表示分割特征,l表示在第l层;然后,应用两个私有LN层将上述单分布仿射成两个具有特定模式的分布,这两个分布集成两种信息表征的私有信息和公共信息,表示如下:
Mυ=LN(Mυ+Zυ;αυ,βυ),
Ms=LN(Ms+Zs;αs,βs)
最后,PWFF层和两个私有LN层被用来进一步增强两种信息表征,如下:
另外,适当的迭代应用到该可迭代独立的正则化模块上用于聚合更多的信息到每种表征上;之后对两种表征直接相加,采用多层transformer层对融合后的表征进行编码;
5)将融合后的特征用transformer编码器进行编码,用额外的跨层残差连接结合来自可迭代的独立的层正则化模块中的两种特征和当前编码后的特征,送入解码器中,解码器以自回归的方式生成图像描述;
6)在所有的多头注意力模块中加入额外的残差连接。
2.如权利要求1所述一种增强视觉信息流的图像描述生成方法,其特征在于在步骤1)中,所述使用Faster-RCNN提取网格特征,不需要生成候选区域,以提高特征提取速度。
3.如权利要求1所述一种增强视觉信息流的图像描述生成方法,其特征在于在步骤2)中,所述分割特征提取后,可作为一种高级语义提示用来补充原网格特征。
4.如权利要求1所述一种增强视觉信息流的图像描述生成方法,其特征在于在步骤5)中,所述跨层残差连接用于使两种视觉信息能够直接进入到解码器中。
5.如权利要求1所述一种增强视觉信息流的图像描述生成方法,其特征在于在步骤6)中,所述在所有的多头注意力模块中加入额外的残差连接,用于保留被多头注意力模块过滤的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210759217.5A CN115049844B (zh) | 2022-06-29 | 2022-06-29 | 一种增强视觉信息流的图像描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210759217.5A CN115049844B (zh) | 2022-06-29 | 2022-06-29 | 一种增强视觉信息流的图像描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115049844A CN115049844A (zh) | 2022-09-13 |
CN115049844B true CN115049844B (zh) | 2024-06-04 |
Family
ID=83166168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210759217.5A Active CN115049844B (zh) | 2022-06-29 | 2022-06-29 | 一种增强视觉信息流的图像描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115049844B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609891A (zh) * | 2019-09-18 | 2019-12-24 | 合肥工业大学 | 一种基于上下文感知图神经网络的视觉对话生成方法 |
WO2021101231A1 (en) * | 2019-11-22 | 2021-05-27 | Samsung Electronics Co., Ltd. | Event recognition on photos with automatic album detection |
CN113837233A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 基于样本自适应语义引导的自注意力机制的图像描述方法 |
CN113837230A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 基于自适应注意力机制的图像描述生成方法 |
CN113902757A (zh) * | 2021-10-09 | 2022-01-07 | 天津大学 | 基于自注意力机制和卷积神经网络混合模型的血管分割方法 |
CN113946706A (zh) * | 2021-05-20 | 2022-01-18 | 广西师范大学 | 基于参考前置描述的图像描述生成方法 |
GB202117611D0 (en) * | 2021-12-06 | 2022-01-19 | Toshiba Kk | Systems and methods for speech recognition |
CN114255220A (zh) * | 2021-12-21 | 2022-03-29 | 徐州徐工挖掘机械有限公司 | 一种基于Transformer神经网络的焊缝质量检测方法 |
-
2022
- 2022-06-29 CN CN202210759217.5A patent/CN115049844B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609891A (zh) * | 2019-09-18 | 2019-12-24 | 合肥工业大学 | 一种基于上下文感知图神经网络的视觉对话生成方法 |
WO2021101231A1 (en) * | 2019-11-22 | 2021-05-27 | Samsung Electronics Co., Ltd. | Event recognition on photos with automatic album detection |
CN113946706A (zh) * | 2021-05-20 | 2022-01-18 | 广西师范大学 | 基于参考前置描述的图像描述生成方法 |
CN113837233A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 基于样本自适应语义引导的自注意力机制的图像描述方法 |
CN113837230A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 基于自适应注意力机制的图像描述生成方法 |
CN113902757A (zh) * | 2021-10-09 | 2022-01-07 | 天津大学 | 基于自注意力机制和卷积神经网络混合模型的血管分割方法 |
GB202117611D0 (en) * | 2021-12-06 | 2022-01-19 | Toshiba Kk | Systems and methods for speech recognition |
CN114255220A (zh) * | 2021-12-21 | 2022-03-29 | 徐州徐工挖掘机械有限公司 | 一种基于Transformer神经网络的焊缝质量检测方法 |
Non-Patent Citations (2)
Title |
---|
DIFnet:boosting visual information flow for image captioning;rongrong ji 等;2022 IEEE/CVF conference on computer vision and pattern recognition;20220927;全文 * |
结合视觉属性注意力和残差连接的图像描述生成模型;周治平;张威;;计算机辅助设计与图形学学报;20180815(08);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115049844A (zh) | 2022-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fu et al. | Violet: End-to-end video-language transformers with masked visual-token modeling | |
Wu et al. | Seesr: Towards semantics-aware real-world image super-resolution | |
CN112884758B (zh) | 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统 | |
CN116402067B (zh) | 面向多语种文字风格保持的跨语言自监督生成方法 | |
CN111833282A (zh) | 一种基于改进的DDcGAN模型的图像融合方法 | |
Alkalouti et al. | Encoder-decoder model for automatic video captioning using yolo algorithm | |
Patil et al. | Multi-weather image restoration via domain translation | |
Xie et al. | pmbqa: Projection-based blind point cloud quality assessment via multimodal learning | |
Sun et al. | TSINIT: a two-stage Inpainting network for incomplete text | |
Chen et al. | : Edge-Aware Multimodal Transformer for RGB-D Salient Object Detection | |
Fang et al. | Study of spatio-temporal modeling in video quality assessment | |
Yang et al. | Deep Learning Based Image Quality Assessment: A Survey | |
CN114677357A (zh) | 航拍绝缘子自爆缺陷的检测模型、方法、设备及存储介质 | |
Lai et al. | Generative focused feedback residual networks for image steganalysis and hidden information reconstruction | |
CN115049844B (zh) | 一种增强视觉信息流的图像描述生成方法 | |
Bailer et al. | Challenges for Automatic Detection of Fake News Related to Migration | |
Long et al. | Lore++: logical location regression network for table structure recognition with pre-training | |
CN117651144A (zh) | 基于深度学习的建筑物点云压缩方法及系统 | |
Ma et al. | AFEC: adaptive feature extraction modules for learned image compression | |
Wang et al. | Cait: Triple-win compression towards high accuracy, fast inference, and favorable transferability for vits | |
Liu et al. | Dynamic token-pass transformers for semantic segmentation | |
Guo et al. | One-stage low-resolution text recognition with high-resolution knowledge transfer | |
CN111652083B (zh) | 一种基于自适应采样的弱监督时序动作检测方法及系统 | |
CN115019137A (zh) | 一种多尺度双流注意力视频语言事件预测的方法及装置 | |
Li et al. | Transformer Encoder for Efficient CAPTCHA Recognize |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |