CN111859005A - 一种跨层多模型特征融合与基于卷积解码的图像描述方法 - Google Patents
一种跨层多模型特征融合与基于卷积解码的图像描述方法 Download PDFInfo
- Publication number
- CN111859005A CN111859005A CN202010960151.7A CN202010960151A CN111859005A CN 111859005 A CN111859005 A CN 111859005A CN 202010960151 A CN202010960151 A CN 202010960151A CN 111859005 A CN111859005 A CN 111859005A
- Authority
- CN
- China
- Prior art keywords
- image
- model
- cross
- convolution
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000004927 fusion Effects 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 43
- 230000000007 visual effect Effects 0.000 claims description 28
- 230000001364 causal effect Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 18
- 241000282414 Homo sapiens Species 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 240000008415 Lactuca sativa Species 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 235000012045 salad Nutrition 0.000 description 5
- 235000019987 cider Nutrition 0.000 description 4
- 241000677635 Tuxedo Species 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 235000013305 food Nutrition 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 235000002566 Capsicum Nutrition 0.000 description 2
- 241000406668 Loxodonta cyclotis Species 0.000 description 2
- 241000758706 Piperaceae Species 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000008429 bread Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 235000015116 cappuccino Nutrition 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000011389 fruit/vegetable juice Nutrition 0.000 description 1
- 235000015220 hamburgers Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000015205 orange juice Nutrition 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种跨层多模型特征融合与基于卷积解码的图像描述方法,涉及计算机视觉和自然语言处理领域。该跨层多模型特征融合与基于卷积解码的图像描述方法,包括以下步骤:S1.得到嵌入向量序列和最终文本特征;S2.计算得到视觉与文本融合匹配的注意力向量;S3.将注意力向量和文本特征向量和进行相加融合;S4.生成一个完整的描述句子。通过使用跨层多模型特征融合,有效弥补低层图像特征信息的丢失,从而获得更加细节的图像特征及学习到更加详细的描述句子,该模型能够有效提取和保存复杂背景图像中的语义信息,且具有处理长序列单词的能力,对图像内容的描述更准确、信息表达更丰富,值得大力推广。
Description
技术领域
本发明涉及计算机视觉和自然语言处理领域,具体为一种跨层多模型特征融合与基于卷积解码的图像描述方法。
背景技术
图像作为信息的主要载体之一,已越来越多的被人类共享,如何让计算机根据图像内容生成在语法上正确且语义上合理的自然语言句子显得至关重要,不同于目标检测、图像分类等较为简单的计算机视觉任务,图像描述属于更高层视觉理解,它不仅需要对图像中的物体和场景进行识别,还需要对物体与物体、物体与场景之间的关系进行表达,同时要求所生成的描述语句在语法和语义上都能够达到人类的标准,传统的图像描述方法分为两种:一是模板的方法,它将检测到的图像目标信息填入结构固定的句子模板中,二是基于检索的方法,它通过检索相似的图像,将已有的图像信息转移到待描述的图像上,不同于传统的动作识别方法,深度学习的方法基于卷积神经网络和循环神经网络,使用“编解码”的方式生成图像描述,使得描述句子的质量更高,生成图像的自然语言描述在实际生活中有着非常广泛的应用,例如,智能人机交互、幼儿早教、信息检索、视觉障碍者协助等,随着深度神经网络的发展以及大型数据集的应用,图像描述任务的研究受到了越来越多的关注。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种跨层多模型特征融合与基于卷积解码的图像描述方法,解决了现有的图像描述方法对图像包含的信息较复杂时描述不准确的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种跨层多模型特征融合与基于卷积解码的图像描述方法,包括以下步骤:
S1.首先在视觉模块,对单模型中实现低层与高层的跨层图像特征融合,然后再将多个视觉特征提取模型得到的特征图进行平均融合,同时将图像所对应的句子中包含的每个单词映射到具有De维度的嵌入空间中,得到它们的嵌入向量序列,然后经过6层因果卷积操作获得最终文本特征;
S2.将S1得到的视觉特征向量和文本特征向量注入到Attention模块中,通过构造分值图,计算得到视觉与文本融合匹配的注意力向量,并以此将视觉模块和语言模块连接起来;
S3.然后将S2中具有文本信息与图像不同区域之间相关性的注意力向量和S1中得到的文本特征向量和进行相加融合;
S4.再将S3得到的结果经过激活函数后输入另一个1×1的卷积层,其通道数为单词本的大小,最后通过softmax层得到下一个单词的预测概率,重复S1~S4步骤,直到最终生成一个完整的描述句子。
优选的,所述视觉模块中设置有三个VGG16结构且三个VGG16结构为图像视觉特征的提取模块,所述每个VGG16结构中都添加有跨层融合结构。
优选的,所述文本特征模型采用了用于机器翻译的卷积架构和用于音频生成的卷积架构,所述因果卷积模块由6层因果卷积层构成且因果卷积的卷积核宽度为3。
优选的,所述Attention模型为注意力机制。
优选的,所述预测模块为一个浅层神经网络。
(三)有益效果
本发明提供了一种跨层多模型特征融合与基于卷积解码的图像描述方法。具备以下有益效果:
本发明通过使用跨层多模型特征融合,有效弥补低层图像特征信息的丢失,从而获得更加细节的图像特征及学习到更加详细的描述句子,在充分描述和表征图像语义方面起到了补充作用,使用因果卷积并行处理文本信息,实现对长序列单词的有效学习,提升了模型对包含复杂场景信息的图像描述能力,通过一种融合文本信息和视觉信息的注意力模型,针对每个由language-cnn产生的文本特征向量和每个visio-cnn产生的视觉特征向量匹配计算得一个具有强相关性的向量矩阵,从而学习文本信息与图像不同区域之间的相关性,并且该模型还可以通过因果卷积层看到先前单词的参与特征,对图像中的单一物体更为敏感,实现了模型的准确描述。
本发明提出的模型性能较好,对于反映生成单词准确率的BLEU-1指标,它的值高达72.1%,且在其他多个评估指标上优于一些当前其他主流方法,如B-4指标超过性能优越的Hard-ATT方法6.0%,B-1和CIDEr指标分别超过emb-gLSTM方法5.1%和13.3%,与同样使用CNN+CNN策略的ConvCap方法相比,在B-1指标上本发明所提模型提升了0.3%,该模型能够有效提取和保存复杂背景图像中的语义信息,且具有处理长序列单词的能力,对图像内容的描述更准确、信息表达更丰富,值得大力推广。
附图说明
图1为本发明的整体框架结构图;
图2为本发明的跨层多模型特征融合的图像特征提取模型原理图;
图3为本发明构建的用于语言处理的CNN网络结构图;
图4为本发明将视觉信息和文本信息融合连接的Attention模型原理图;
图5为本发明的预测生成描述句子结构图;
图6为本发明的实施例中的实验结果示例图一;
图7为本发明的实施例中的实验结果示例图二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
如图1-5所示本发明实施例提供一种跨层多模型特征融合与基于卷积解码的图像描述方法,包括以下步骤:
S1.首先在视觉模块,对单模型中实现低层与高层的跨层图像特征融合,然后再将多个视觉特征提取模型得到的特征图进行平均融合,同时将图像所对应的句子中包含的每个单词映射到具有De维度的嵌入空间中,得到它们的嵌入向量序列,然后经过6层因果卷积操作获得最终文本特征,在进行视觉特征提取时,丰富的特征信息对图像描述结果具有良好的指导作用,所以使用三个VGG16结构作为图像视觉特征的提取模块,同时为了融合低层特征和高层特征,实现语义特征和细节特征之间的信息互补,将VGG16结构中的conv3_1与conv5_1进行求和融合来保证图像特征信息的丰富性和完整性,在融合之前,使用512个的卷积核对conv3_1输出的特征图进行卷积操作,并且对每个VGG16网络都添加这种跨层融合结构,图像并行输入到单个视觉特征提取结构,然后对三个网络的输出特征进行平均融合,如下式:
视觉模块输出一个d×d×Dc的特征图,特征图的每个像素点对应一个Dc维特征向量,故可以将输出的特征图用N=d2个Dc维特征向量列表来表示v=[v1,...,vN],而在进行文本特征提取时,设定S=[w1,w2,...,wL]为包含有L个单词的一个句子,首先将每个单词映射到具有De维度的嵌入空间中,得到它们的嵌入向量序列E=[e1,e2,...,eL],本发明使用深度学习框架Pytorch中的Embedding函数来实现这个功能,然后将单词嵌入向量序列输入因果卷积模块,它由6层因果卷积层构成,因果卷积是处理序列问题的一维卷积结构,结合当前时刻和历史时刻信息,得到一个新的当前时刻输出,本发明采用了卷积核宽度为3的因果卷积,即结合当前时刻和前两个时刻的信息,这样经过6层卷积操作得到的最终文本特征可以融合很长历史时刻的信息,得到充分的上下文信息,为了使输出序列的长度与输入序列的长度相同,卷积操作使用了零向量在左边进行填充,因果卷积滤波器能确保单词的输出是按顺序输出的,这样语言模型就可以逐字生成对图像的描述,在因果卷积层中使用了激活函数GLU(Gated Liner Unit),实验表明在训练时该激活函数比标准的激活函数ReLU更快,最终语言模型的输出是一组词向量c=[c1,c2,...,cL],其中由于因果卷积没有循环连接,通常训练起来比RNN更快,且有助于长序列单词的训练;
S2.将S1得到的视觉特征向量和文本特征向量注入到Attention模块中,通过构造分值图,计算得到视觉与文本融合匹配的注意力向量,并以此将视觉模块和语言模块连接起来,Attention模块将视觉特征向量v和语言模型输出的文本特征向量c作为注意力模块的输入,对于每一个词向量cj和视觉特征向量vi,按下式:
得到wi,j,作为视觉特征向量vi的权值,然后再通过加权和运算来计算最终的Attention向量,如下式:
S3.然后将S2中具有文本信息与图像不同区域之间相关性的注意力向量和S1中得到的文本特征向量和进行相加融合;
S4.再将S3得到的结果经过激活函数后输入另一个1×1的卷积层,其通道数为单词本的大小,最后通过softmax层得到下一个单词的预测概率,重复S1~S4步骤,直到最终生成一个完整的描述句子,预测模块将Attention特征表达a和文本特征向量c作为输入,再第j个待生成单词的位置,将aj和cj送入网络中,其输出是下一个单词的预测概率Pj+1,如下式:
其中,和是参数,f(x)=max(x,0.1x)是Leaky Relu激活函数,其中V表示词汇量大小,本发明使用两个1×1的卷积层分别对注意力特征向量aj和文本特征向量cj进行了处理,将其维度同一到4096,相加融合并经过激活函数后输入另一个1×1的卷积层,其通道数为单词本的大小,在实验中为9489,最后通过softmax层得到下一个单词的预测概率Pj+1,直到生成最终的描述句子。
视觉模块中设置有三个VGG16结构且三个VGG16结构为图像视觉特征的提取模块,每个VGG16结构中都添加有跨层融合结构,文本特征模型采用了用于机器翻译的卷积架构和用于音频生成的卷积架构,因果卷积模块由6层因果卷积层构成且因果卷积的卷积核宽度为3,Attention模型为注意力机制,添加注意力机制是为了关注图像中的区域信息,使生成的描述更符合图像内容,同时将视觉模块和语言模块连接起来,预测模块为一个浅层神经网络。
实施例二:
如图1-7所示本发明实施例提供一种跨层多模型特征融合与基于卷积解码的图像描述方法,使用VGG-16和language-CNN(即本发明使用的语言模块)对模型进行训练,,将其作为基准模型CNN+CNN(Baseline),然后在Baseline的基础上,添加多个VGG-16网络,并在每个VGG-16中实现跨层特征融合,使用已训练好的基准模型参数对模型进行初始化,重新训练,在MSCOCO数据集上,部分实验结果如下所示:
R1:A hamburger and a salad sitting on top of a table.
R2:A salad and a sandwich wait to be eaten at a restaurant.R3:Anoutside dining area with tables and chairs highlighting a salad and sandwich.
R4:A sandwich and a salad are on a tray on a wooden table.
R5:A table with a bowl of food,sandwich and wine glass sitting on itin a restaurant.
B:A table with a plate of food and a glass of wine.
C:A salad and a sandwich sitting on a table at a restaurant.
第一张图像的结果示例
R1:A group of commuters standing next to a passenger train.
R2:Passengers walking along a train at the station.
R3:A train marked 800 is at a station.
R4:People walk beside a train at a train station.
R5:The people are walking down the track as the train arrives.
B:A black and white photo of a man on a train station.
C:A man standing next to a train with a luggage at a station.
第二张图像的结果示例
R1:A dog wearing a tuxedo sitting at a table with a piece of cakewith a lit candle.
R2:A small dog wears a suit in front of a desert.
R3:A dog in a tuxedo is sitting at a table on which a piece of cakeis sitting.
R4:A small dog in a tuxedo sitting at a table
R5:A dog wearing a shirt standing next to a piece of cake
B:A dog is standing next to a plate with a cake.
C:A small dog in a suit with a birthday cake on top of table.
第三张图像的结果示例
R1:Old blue bus with bicycles parked on roadway near green space.
R2:An old grey bus with bicycles on the front going down the road.
R3:A blue bus driving down a road next to a lush green field.
R4:The old bus is painted a faded blue.
R5:A blue bus parked on the side of a road
B:A blue bus is parked in a road.
C:An old blue bus is parked on the side of the road.
第四张图像的结果示例
试验结果示例中R表示人工标注的5条参考句子,B表示基准模型生成的句子,C表示使用CMFF/CD模型生成的句子,从实验结果可以看出,本发明提出的模型所生成的句子具有更好的语义表达,较好地描述了图像中蕴含的内容,和句子B相比,本发明方法所生成的句子C语义信息更加丰富,句子质量较高,对图像场景描述也更为合理,例如在图6第1张图像中,句子B将关注点聚焦在了“食物(food)”和“酒(wine)”上,忽略了图像中的场景信息,而本发明方法生成的句子C即指明了场景信息(restaurant),又说明了场景中包含的一些物体,虽然没有完全给出场景中包含的物体信息,但句子所描述的物体类别更为准确,且句子更贴近人类的表达习惯,同样,在图6第3张图像中,CMFF/CD模型生成的句子能够准确描述出“西装(suit)”、“生日蛋糕(birthday cake)”和“桌子(table)”,而基准模型生成的句子B缺少这种准确描述,与人工标注的5条参考句子相比,本发明生成的有些句子更为合理,例如图6第2张图像中,除了能够描述出“火车(train)”和“火车站(station)”外,还找出了“行李箱(luggage)”这一图像中显著部位的物体,而在5条人工标注的参考句子中并未出现“行李箱(luggage)”,本发明不仅能够对图像内容做到精准和整体的描述,通过对比发现,对图像中的物体还能够给出一些形象化的描述,对于“狗(dog)”、“公共汽车(bus)”,本发明方法模型使用了“小的(small)”、“旧的(old)”、“蓝色的(blue)”来描述,而且在图6第3张图像中,通过“生日蛋糕(birthday cake)”一词可以看出模型还具有一定的想象力,由此表明,本发明在各种场景中均具备客观的描述能力,且描述句子质量高,语义信息丰富。
下列表1和表2所示是分别在数据集MSCOCO和Flickr30k上,比较了本发明提出的跨层多模型特征融合与基于卷积解码的图像描述方法与图像描述领域中的其他主流模型的定量评价指标:
表1 不同方法在MSCOCO数据集上的性能对比
注:粗体表示最大值,下滑线表示次大值,“—”表示无。
表2 不同方法在Flickr30k数据集上的性能对比
表中BRNN,NIC,LRCN,MSR,m-RNN,Soft-ATT,Hard-ATT,ATT-FCN,emb-gLSTM,VAE,Sca-cnn和ConvCap方法的性能指标均来自于他们文献中报导的结果。
在MSCOCO数据集上,通过对比发现,本发明算法几乎在所有评估指标上的得分均高于基于CNN+LSTM策略的图像描述方法,B-4指标超过性能优越的Hard-ATT方法6.0%,同时B-1和CIDEr指标上分别超过emb-gLSTM方法5.1%和13.3%,甚至在B-1指标上与使用语义注意力模型的VAE方法表现相当,并且在其他指标上均有一定程度的提高,原因是本发明所使用的注意力模型能更好的将局部图像特征与词向量进行匹配学习,充分利用局部信息,从而对图像中包含的内容做到详细的表达,与同样使用CNN+CNN策略的ConvCap方法相比,在B-1指标上本发明所提模型略微提升0.3%,且在其他指标上表现相当。
在Flickr30k数据集上,本发明算法也提供了可比较的结果,在METEOR指标上略微低于Sca-cnn方法,但均高于其他基于RNN解码的方法,在CIDEr指标上也有所提升,由于BLEU评测方法的着重点在于生成单词的准确率,对语言表达考虑不足,在BLEU指标上,本发明算法低于同样使用Attention机制的Soft-ATT、Hard-ATT和ATT-FCN方法,但在METEOR和CIDEr指标上,本发明提出的模型均有一定提升,说明本发明提出的模型更注重生成句子的语义内涵以及对图像内容的细节理解。
图7所示的实验结果是本发明提出的模型CMFF/CD与ConvCap、ATT-FCN、SCA-CNN和POS生成的描述结果的定性比较,从图7中的实验结果可以看出,与ATT-FCN、SCA-CNN和POS相比较,本发明提出的CMFF/CD模型所生成的描述句子中包含的图像信息更加丰富,对长序列单词的处理效果更好,可以描述出诸如“toothbrush、sink/tunnel/audience”(见图7中第一行)、“bed trailer、bus/mother/cruiseship”(见图7中第二行)等图像中包含的物体,而其他基于CNN+LSTM架构的模型则无法做到这一点,与同样使用CNN+CNN架构的ConvCap模型相比较,从图7中的第四行结果示例中可以看出,虽然ConvCap模型同样能够描述出图像中存在的多个物体,并且也能很好的赋予物体一些属性描述,但本发明模型CMFF/CD的描述结果更准确和更具有细节性,例如“bread、peppers/curtain、blowdryer”(见图7中第四行),特别是在两个模型同样描述出“computer”的基础上(见图7中第四行第3列),本发明提出模型得到的描述“desktop computer”(台式计算机)比ConvCap模型得到的描述“blackcomputer”(黑色的计算机)更为准确,另外,通过图7中的描述结果对比也不难发现,本发明CMFF/CD模型生成的描述句子还具有更好的层次结构,例如图7中第一行示例中的“sitingin a sink in bathroom/under traffic lights”、第三行示例中的“on the back of anelephant/outdoors on a sidewalk”、第四行示例中的“up to/in front of”等,而在CNN+LSTM架构的模型中很少看到这种表现复杂背景信息层次关系的表达,这也反映出使用卷积神经网络(因果卷积)处理文本信息的有效性,从以上定性实验结果的对比分析可以看出本发明所提出的模型不仅能够检测并准确描述出图像中包含的多个目标物体,而且对于物体与物体、物体与场景之间关系的描述能力也有一定的提升。
ATT-FCN:a baby is ATT-FCN:a city street ATT-FCN:a baseball playersitting in a high filled with traffic and holding a bat on afield.chair.traffic lights.
CMFF/CD:a baby with a CMFF/CD:two cars going CMFF/CD:a couple ofbaseball toothbrush siting in a through a tunnel under players at baseballfield sink in bathroom.traffic lights.with a large audience.
第一行
SCA-CNN:a man is SCA-CNN:a little girl SCA-CNN:a beach area withriding a horse drawn sitting in front of a several chairs andumbrellas.carriage.small cupcake with acandle.
CMFF/CD:a horse pulls CMFF/CD:a baby and her CMFF/CD:a beach withchairs a bed trailer on the mother celebrating her and umbrellas with acruise street with a manwith birthday with a cupcake ship in the background.abus.and a candle.
第二行
POS:two people are POS:a woman smiles as she POS:a woman pulls awheeled riding an elephant on a poses next to a fridge.suitcase past a firehydrant.dirt road.
CMFF/CD:a couple of men CMFF/CD:a woman leaning CMFF/CD:a person ispulling riding on the back of an against a refrigerator a black suitcase pastan elephant next to a bus.outdoors on a sidewalk.orange fire hydrant.
第三行
ConvCap:a cappuccino ConvCap:a white dog ConvCap:a boy is wearing isand orange juice sit on having its hair blown dry white headphones at a blackthe table.by a man.computer.
CMFF/CD:a cup of CMFF/CD:a man holding a CMFF/CD:a young boy wearingcoffee is on a table blow dryer up to a dog in headphones using a desktopwith juice,bread,and front of a curtain.computer.peppers.
第四行
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (5)
1.一种跨层多模型特征融合与基于卷积解码的图像描述方法,其特征在于:包括以下步骤:
S1.首先在视觉模块,对单模型中实现低层与高层的跨层图像特征融合,然后再将多个视觉特征提取模型得到的特征图进行平均融合,同时将图像所对应的句子中包含的每个单词映射到具有De维度的嵌入空间中,得到它们的嵌入向量序列,然后经过6层因果卷积操作获得最终文本特征;
S2.将S1得到的视觉特征向量和文本特征向量注入到Attention模块中,通过构造分值图,计算得到视觉与文本融合匹配的注意力向量,并以此将视觉模块和语言模块连接起来;
S3.然后将S2中具有文本信息与图像不同区域之间相关性的注意力向量和S1中得到的文本特征向量和进行相加融合;
S4.再将S3得到的结果经过激活函数后输入另一个1×1的卷积层,其通道数为单词本的大小,最后通过softmax层得到下一个单词的预测概率,重复S1~S4步骤,直到最终生成一个完整的描述句子。
2.根据权利要求1所述的一种跨层多模型特征融合与基于卷积解码的图像描述方法,其特征在于:所述视觉模块中设置有三个VGG16结构且三个VGG16结构为图像视觉特征的提取模块,所述每个VGG16结构中都添加有跨层融合结构。
3.根据权利要求1所述的一种跨层多模型特征融合与基于卷积解码的图像描述方法,其特征在于:所述文本特征模型采用了用于机器翻译的卷积架构和用于音频生成的卷积架构,所述因果卷积模块由6层因果卷积层构成且因果卷积的卷积核宽度为3。
4.根据权利要求1所述的一种跨层多模型特征融合与基于卷积解码的图像描述方法,其特征在于:所述Attention模型为注意力机制。
5.根据权利要求1所述的一种跨层多模型特征融合与基于卷积解码的图像描述方法,其特征在于:所述预测模块为一个浅层神经网络。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2020106291059 | 2020-07-01 | ||
CN202010629105 | 2020-07-01 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111859005A true CN111859005A (zh) | 2020-10-30 |
CN111859005B CN111859005B (zh) | 2022-03-29 |
Family
ID=72967644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010960151.7A Active CN111859005B (zh) | 2020-07-01 | 2020-09-14 | 一种跨层多模型特征融合与基于卷积解码的图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111859005B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381057A (zh) * | 2020-12-03 | 2021-02-19 | 上海芯翌智能科技有限公司 | 手写文字识别方法及装置、存储介质、终端 |
CN112528989A (zh) * | 2020-12-01 | 2021-03-19 | 重庆邮电大学 | 一种图像语义细粒度的描述生成方法 |
CN112597278A (zh) * | 2020-12-25 | 2021-04-02 | 北京知因智慧科技有限公司 | 一种语义信息融合方法、装置、电子设备及存储介质 |
CN113065496A (zh) * | 2021-04-13 | 2021-07-02 | 湖南大学 | 神经网络机器翻译模型训练方法、机器翻译方法和装置 |
CN113177112A (zh) * | 2021-04-25 | 2021-07-27 | 天津大学 | 基于kr积融合多模态信息的神经网络视觉对话模型及方法 |
CN113269253A (zh) * | 2021-05-26 | 2021-08-17 | 大连民族大学 | 视频描述中视觉特征融合语义检测方法及系统 |
CN113343011A (zh) * | 2021-06-19 | 2021-09-03 | 哈尔滨工业大学 | 一种基于两阶段注意力的多模态信息机器翻译方法 |
CN115690578A (zh) * | 2022-10-26 | 2023-02-03 | 中国电子科技集团公司信息科学研究院 | 一种图像融合方法和目标识别方法及装置 |
JP7426919B2 (ja) | 2020-10-30 | 2024-02-02 | Kddi株式会社 | 画像から因果関係語を推定するプログラム、装置及び方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
CN107391609A (zh) * | 2017-07-01 | 2017-11-24 | 南京理工大学 | 一种双向多模态递归网络的图像描述方法 |
CN108200483A (zh) * | 2017-12-26 | 2018-06-22 | 中国科学院自动化研究所 | 动态多模态视频描述生成方法 |
CN109805898A (zh) * | 2019-03-22 | 2019-05-28 | 中国科学院重庆绿色智能技术研究院 | 基于注意力机制时序卷积网络算法的危重症死亡预测方法 |
CN109992686A (zh) * | 2019-02-24 | 2019-07-09 | 复旦大学 | 基于多角度自注意力机制的图像-文本检索系统及方法 |
CN110059188A (zh) * | 2019-04-11 | 2019-07-26 | 四川黑马数码科技有限公司 | 一种基于双向时间卷积网络的中文情感分析方法 |
CN110458282A (zh) * | 2019-08-06 | 2019-11-15 | 齐鲁工业大学 | 一种融合多角度多模态的图像描述生成方法及系统 |
CN110555475A (zh) * | 2019-08-29 | 2019-12-10 | 华南理工大学 | 一种基于语义信息融合的少样本目标检测方法 |
CN110717316A (zh) * | 2019-09-24 | 2020-01-21 | 清华大学 | 字幕对话流的主题分割方法及装置 |
TW202022561A (zh) * | 2018-11-30 | 2020-06-16 | 大陸商北京市商湯科技開發有限公司 | 圖像的描述語句定位方法及裝置、電子設備和儲存介質 |
-
2020
- 2020-09-14 CN CN202010960151.7A patent/CN111859005B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
CN107391609A (zh) * | 2017-07-01 | 2017-11-24 | 南京理工大学 | 一种双向多模态递归网络的图像描述方法 |
CN108200483A (zh) * | 2017-12-26 | 2018-06-22 | 中国科学院自动化研究所 | 动态多模态视频描述生成方法 |
TW202022561A (zh) * | 2018-11-30 | 2020-06-16 | 大陸商北京市商湯科技開發有限公司 | 圖像的描述語句定位方法及裝置、電子設備和儲存介質 |
CN109992686A (zh) * | 2019-02-24 | 2019-07-09 | 复旦大学 | 基于多角度自注意力机制的图像-文本检索系统及方法 |
CN109805898A (zh) * | 2019-03-22 | 2019-05-28 | 中国科学院重庆绿色智能技术研究院 | 基于注意力机制时序卷积网络算法的危重症死亡预测方法 |
CN110059188A (zh) * | 2019-04-11 | 2019-07-26 | 四川黑马数码科技有限公司 | 一种基于双向时间卷积网络的中文情感分析方法 |
CN110458282A (zh) * | 2019-08-06 | 2019-11-15 | 齐鲁工业大学 | 一种融合多角度多模态的图像描述生成方法及系统 |
CN110555475A (zh) * | 2019-08-29 | 2019-12-10 | 华南理工大学 | 一种基于语义信息融合的少样本目标检测方法 |
CN110717316A (zh) * | 2019-09-24 | 2020-01-21 | 清华大学 | 字幕对话流的主题分割方法及装置 |
Non-Patent Citations (6)
Title |
---|
ANEJA J等: "Convolutional image captioning", 《/2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION(CVPR)》 * |
李太松等: "基于循环时间卷积网络的序列流推荐算法", 《计算机科学》 * |
罗会兰等: "跨层多模型特征融合与因果卷积解码的图像描述", 《中国图像图形学报》 * |
蔡文亮: "基于图像描述和多层次注意力机制的视觉问答算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
陈龙杰: "基于注意力机制的图像描述生成算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
黄友文等: "融合卷积注意力机制的图像描述生成模型", 《计算机应用》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7426919B2 (ja) | 2020-10-30 | 2024-02-02 | Kddi株式会社 | 画像から因果関係語を推定するプログラム、装置及び方法 |
CN112528989B (zh) * | 2020-12-01 | 2022-10-18 | 重庆邮电大学 | 一种图像语义细粒度的描述生成方法 |
CN112528989A (zh) * | 2020-12-01 | 2021-03-19 | 重庆邮电大学 | 一种图像语义细粒度的描述生成方法 |
CN112381057A (zh) * | 2020-12-03 | 2021-02-19 | 上海芯翌智能科技有限公司 | 手写文字识别方法及装置、存储介质、终端 |
CN112597278A (zh) * | 2020-12-25 | 2021-04-02 | 北京知因智慧科技有限公司 | 一种语义信息融合方法、装置、电子设备及存储介质 |
CN113065496A (zh) * | 2021-04-13 | 2021-07-02 | 湖南大学 | 神经网络机器翻译模型训练方法、机器翻译方法和装置 |
CN113065496B (zh) * | 2021-04-13 | 2022-06-28 | 湖南大学 | 神经网络机器翻译模型训练方法、机器翻译方法和装置 |
CN113177112B (zh) * | 2021-04-25 | 2022-07-01 | 天津大学 | 基于kr积融合多模态信息的神经网络视觉对话装置及方法 |
CN113177112A (zh) * | 2021-04-25 | 2021-07-27 | 天津大学 | 基于kr积融合多模态信息的神经网络视觉对话模型及方法 |
CN113269253A (zh) * | 2021-05-26 | 2021-08-17 | 大连民族大学 | 视频描述中视觉特征融合语义检测方法及系统 |
CN113269253B (zh) * | 2021-05-26 | 2023-08-22 | 大连民族大学 | 视频描述中视觉特征融合语义检测方法及系统 |
CN113343011A (zh) * | 2021-06-19 | 2021-09-03 | 哈尔滨工业大学 | 一种基于两阶段注意力的多模态信息机器翻译方法 |
CN115690578A (zh) * | 2022-10-26 | 2023-02-03 | 中国电子科技集团公司信息科学研究院 | 一种图像融合方法和目标识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111859005B (zh) | 2022-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111859005A (zh) | 一种跨层多模型特征融合与基于卷积解码的图像描述方法 | |
Yang et al. | Auto-encoding scene graphs for image captioning | |
You et al. | Image captioning at will: A versatile scheme for effectively injecting sentiments into image descriptions | |
Wu et al. | Visual question answering: A survey of methods and datasets | |
CN110121706B (zh) | 提供会话中的响应 | |
Hendricks et al. | Deep compositional captioning: Describing novel object categories without paired training data | |
Wang et al. | Context modulated dynamic networks for actor and action video segmentation with language queries | |
WO2019056628A1 (zh) | 关注点文案的生成 | |
CN110348447B (zh) | 一种具有丰富空间信息的多模型集成目标检测方法 | |
CN110443129A (zh) | 基于深度学习的中文唇语识别方法 | |
CN111222049A (zh) | 语义增强的异构信息网络上Top-k相似度搜索方法 | |
CN108921047A (zh) | 一种基于跨层融合的多模型投票均值动作识别方法 | |
CN112036276A (zh) | 一种人工智能视频问答方法 | |
Zhu et al. | Prompt-based learning for unpaired image captioning | |
CN109766918A (zh) | 基于多层次上下文信息融合的显著性物体检测方法 | |
CN112070080A (zh) | 基于Faster R-CNN的戏曲卡通人物的分类方法 | |
CN105701230B (zh) | 一种基于图像内容的用户兴趣细分方法及系统 | |
Nguyen et al. | Effective multimodal encoding for image paragraph captioning | |
Unal et al. | Learning to overcome noise in weak caption supervision for object detection | |
CN110347853A (zh) | 一种基于循环神经网络的图像哈希码生成方法 | |
Ma et al. | HybridPrompt: bridging language models and human priors in prompt tuning for visual question answering | |
Liu et al. | Counterfactual visual dialog: Robust commonsense knowledge learning from unbiased training | |
Zhang et al. | Consensus knowledge exploitation for partial query based image retrieval | |
Zhao et al. | Vision learners meet web image-text pairs | |
Vahdati et al. | Facial beauty prediction from facial parts using multi-task and multi-stream convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |