CN112052906A - 一种基于指针网络的图像描述优化方法 - Google Patents
一种基于指针网络的图像描述优化方法 Download PDFInfo
- Publication number
- CN112052906A CN112052906A CN202010958311.4A CN202010958311A CN112052906A CN 112052906 A CN112052906 A CN 112052906A CN 202010958311 A CN202010958311 A CN 202010958311A CN 112052906 A CN112052906 A CN 112052906A
- Authority
- CN
- China
- Prior art keywords
- word
- words
- lstm
- attribute
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000005457 optimization Methods 0.000 title claims abstract description 7
- 239000013598 vector Substances 0.000 claims abstract description 79
- 230000000007 visual effect Effects 0.000 claims abstract description 37
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000010586 diagram Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 abstract description 2
- 230000004927 fusion Effects 0.000 abstract 1
- 230000007787 long-term memory Effects 0.000 abstract 1
- 238000001514 detection method Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于指针网络的图像描述优化方法,包括:(1)利用卷积神经网络提取输入图片的视觉特征向量,并将视觉特征输入到由两层长短期记忆网络组成的描述语句生成模块。(2)利用注意力机制,挑选出每一时刻关注的图片区域,并对图像特征基于区域做加权融合。(3)结合挑选得到的区域特征和当前句子的生成状况,利用指针网络运算机制,从预先检测到的图片属性词语中选取最恰当的词语,填充到该时刻的单词生成位置,如果无法从备选属性词语中找到合适的词语,则模型将基于当前句子生成状况,自行判断该时刻生成哪一个单词。(4)重复上述步骤,依次生成句子中的每一个单词,最终得到更加贴近图片内容的描述语句。
Description
技术领域
本发明涉及一种基于指针网络的图像描述优化方法。
背景技术
Image Caption图像描述,旨在利用机器对一张图片生成一段通顺、流畅且贴切的描述语句。该领域在近年来吸引了大量研究者,因其同时涉及计算机视觉和自然语言处理两大领域,故优化和改进的空间较大,各种做法也各具意义和代表性。其中基于注意力机制的改进对提升Image Caption性能起到了重要作用,其出发点在于模仿人类对一张图片内容的观察理解过程。最初的Soft/Hard Attention算法在每个时刻会计算对图片不同区域分配的注意力权重,实现了一种注意力动态转移的效果。此后又逐渐发展出了1)Spatialand Channel Attention,将注意力从空间维度拓展到卷积核Channel维度;2)AdaptiveAttention,模型不需要每个时刻都从图片内容中寻找依据,有些时刻可以根据语言习惯生成词语;3)Bottom-up Top-down Attention,用一个两层LSTM结构将attention的计算分层细化;此外还有各类Attention算法,主旨都在于让模型动态关注不同的图片内容。
除了Attention机制外,另一大类Image Caption改进方法就是利用预训练的属性词检测器,场景分类器,目标检测器等,提前提取到图片中的视觉要素,从而将问题解耦,让Caption生成模型只需要将主要精力放在提升句子质量上,而将捕获图片视觉信息的任务交给子模块实现,其中目标检测类方法虽然检测效果较好,但存在模型结构庞大,训练开销较大的缺点,而视觉属性词语的检测,往往会转化为多标签图像识别(Multi-label ImageClassification)任务,较为容易实现,但精度一般,一般会采用全卷积网络(FullyConvolutional Networks,FCN)来训练。
指针网络(Pointer Network)是一种常用于文本摘要的算法,其核心思想在于,在对一段文字进行摘要时,有时可以直接从原文中摘抄一些词语,既可以提高摘要的准确性,又能降低有些生僻词语的生成难度。Image Caption生成语句的过程中,也会有一些难以识别的属性词语,如果能够提前得到这些词语,在生成的时候将其作为指针网络的待选词,则能够实现对生成语句质量的提高。
发明内容
发明目的:本发明的目的在于提出一种将Attention注意力机制和视觉属性词语(Visual Attributes)检测相结合的方法,提升Image Caption描述语句的生成效果。单纯的Attention机制由于缺乏额外的语义信息,其能够捕获到的图像特征信息对生成描述语句的质量提升有限,本发明希望实现一种“视觉图像—语义属性词”对齐的做法,模型首先决定观察图片的哪一个区域,其次基于该区域的图像特征,借助指针网络运算机制,从检测到的属性词语中找到最合适的描述词,如果没有属性词能够描述该区域,模型同样能够自行生成出更恰当的词语,这也同时保证了模型的鲁棒性:既能够在视觉属性词检测准确的情况下,有效利用检测到的语义信息来丰富句子,又能够在视觉词语检测精度一般的情况下,基于语言模型和视觉特征来生成正确的单词。
发明步骤:本算法的步骤主要分为三大部分:1)提取图片视觉特征;2)基于视觉注意力机制,计算每个时刻关注的视觉特征;3)基于每个时刻的视觉特征,判断当前是否从属性词中挑选合适的词,还是另外再找寻合适的单词,在当前时刻进行预测输出。具体的步骤如下:
步骤1:提取输入图片的视觉特征:通过在ImageNet图片数据集上预训练过的卷积神经网络(Convolutional Neural Network,CNN),提取得到输入图片的特征向量,并将特征向量输入到由两层长短时记忆网络LSTM(Long Short-Term Memory,LSTM)组成的描述语句生成模型;
步骤2,基于自适应注意力机制(Adaptive Attention),在每一个时刻计算出描述语句生成模型对图片不同区域的注意力权重,并基于注意力权重,对图片特征向量进行加权,得到该时刻关注的图像特征;
步骤3,描述语句生成模型基于当前的语句生成状况及关注到的图像特征,利用指针网络(Pointer Network)运算机制,从预先检测到的视觉属性词语中,挑选最合适的词语,作为该时刻的生成单词,如果没有找到合适的词语,则基于LSTM网络的隐含层状态参量生成单词。
步骤4,重复步骤1~步骤3,依次完成对句子中每一个单词的生成。
步骤1包括以下步骤:
步骤1-1,对原始输入图片I进行预处理,得到图像特征图;
步骤1-2,将图像特征图展开成二维矩阵;
步骤1-3,将特征向量输入描述语句生成模型,得到输出结果。
其中,步骤1-1包括:将原始输入图片I放缩到H×W的大小,输入到在ImageNet图像数据集上预先训练过的卷积神经网络中,并删去原始网络结构中最后的全连接层,保留最后一个卷积层的输出特征图feature map,其尺寸大小h×w×dv,其中,H、W分别表示原始输入图片I的高和宽,h、w分别表示输出特征图feature map的高和宽,dv表示特征向量的维度;
步骤1-2包括:将图像特征图展开并整理成二维矩阵的形式:
其中CNN(I)表示经过CNN网络提取得到的图片特征图,flatten操作将原本h×w×dv的三维张量特征图展开成k×dv的二维形式,并在转置后重新整理为dv×k的形式,k=h×w,表示了图片上k个不同区域中,第i个区域的图片特征向量,对上述k个图片特征向量求均值,记为其中R表示实数空间。
步骤1-3包括:描述语句生成模型由两层LSTM网络构成,低层为LSTMTopDown,高层为LSTMlanguage。在第t时刻,将不同区域图片特征向量的均值当前时刻对应单词的词嵌入向量Eyt,以及t-1时刻LSTMlanguage的状态参量进行拼接(concatenate),并将拼接得到的结果输入到第一层LSTM网络,即LSTMTopDown中,得到LSTMTopDown运算后的状态参量具体流程如下式,所有参量的右下角标t代表当前时刻的取值:
其中表示LSTMlanguage前一时刻的隐含层状态参量,yt表示第t个时刻对应的正确单词的one-hot编码向量,将其与待学习的词嵌入矩阵E进行相乘运算得到词嵌入向量Eyt,三者拼接后得到待输入进LSTMTopDown的向量dh和dE分别是隐含层状态向量的维度及词嵌入向量的维度。
步骤2包括以下步骤:
步骤2-1,基于步骤1-3得到的借鉴Lu等人在《Knowing When to Look:Adaptive Attention via A Visual Sentinel for Image Captioning》一文中提出的自适应注意力机制,计算出名为visual sentinel视觉哨兵变量的值用于帮助描述语句生成模型判断当前时刻是否应当从图片中获取信息,还是直接基于LSTM网络的隐含层状态参量生成下一个单词,计算公式如下:
其中gatet是一个保存中间计算结果的变量,Wxg和Whg均为待学习参数,⊙代表按元素位置一一相乘,σ表示sigmoid函数;
步骤2-2,将步骤1-2所得的矩阵V嵌入到dh维度,使其与LSTM网络的状态参量维度一致,得到低维空间下的图像特征矩阵Vembed=WveV,其中Wve为待学习参量,再将Vembed与步骤2-1计算得到的进行拼接,将其定义为此时的上下文向量(contextfeature),记为
φ表示softmax计算,将注意力权重归一化到0到1之间;
步骤3包括以下步骤:
步骤3-1,将步骤2-3最终所得加权特征向量与步骤1-3所得LSTMTopDown的隐含层状态参量拼接为LSTMlanguage的输入,记为并将其输入到LSTMlanguage网络中,计算得到LSTMlanguage在当前时刻的隐含层状态参量该参量将直接指导当前时刻单词的生成,具体计算步骤如下:
步骤3-2,基于预先训练的属性检测器,例如利用全卷积网络(FullyConvolutional Networks,FCN)实现的图片属性检测器,得到每张图片包含的前m个属性词,并加载这些属性词对应的GloVe词向量,组成属性词语矩阵其中dG表示GloVe词向量的维度;
步骤3-5,根据注意力权重向量βt,得到当前时刻描述语句生成模型挑选每个属性词作为最终输出的单词的概率Pattr(yt);
步骤3-6,当备选属性词列表中没有适合的词语时,描述语句生成模型基于当前的语句生成情况和自身隐含层状况,决定生成单词;
步骤3-7,得到最终结果。
步骤3-5包括:根据注意力权重向量βt,得到当前时刻模型挑选每个属性词作为最终输出的单词的概率Pattr(yt),表示为:
其中yt代表字典中的某一个单词,Vocab表示英文单词词汇表,AttrtopM表示的是预先检测出来的m个视觉属性词语构成的词汇表,对于步骤3-2中检测到的m个属性词以外的词语,Pattr均判定挑选概率为0;这一设定为了之后的计算方便。
步骤3-6包括:除了步骤3-5中所述的基于前m个属性词作为生成单词外,描述语句生成模型能够仅基于当前的语句生成情况和自身隐含层状况,决定生成哪一个单词,具体定义为:
其中Wvoc、Wctx、bvoc和bctx均为待学习参量,Pvocab(yt)即为生成单词yt的概率;
步骤3-7包括:描述语句生成模型借鉴指针网络(Pointer-Network)运算机制,决定每个时刻究竟从属性词挑选单词,还是不从属性词中挑选,定义一个参量p,该参量p决定了分别从Pattr和Pvocab挑选词语的概率权重,起到一种类似“开关”(switch)的效果,最终的生成单词预测结果为,从属性词列表中挑选出单词yt的概率Pattr(yt),以及不从属性词列表而是整个词汇表中挑选出单词yt的概率Pvocab(yt),两者基于参量p的加权结果,计算过程如下:
其中wph,wattr,wem,bptr均为待学习参量,最终得到的Pvocab(yt)表示了当前时刻生成单词yt的最终概率,在训练阶段基于交叉熵损失对其进行训练,测试阶段往往选择概率最大的单词,作为该时刻生成的单词。
有益效果:本发明方法能够更好地将视觉属性词语的检测和图像描述语句的生成两部分工作相结合,利用自然语言处理领域的先进指针网络算法,把检测到的属性词语以“拷贝粘贴”的形式添加到待生成的描述语句中,使得生成的描述句子内容更加丰富贴切,涵盖尽可能多的视觉属性词语。同时算法中加入的注意力计算机制,也能够实现视觉特征和属性词向量的语义对齐,让描述语句生成模型能够真正理解一张图片“何处为何物”。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的总体框架图。
图2则是本发明方法框架的细节图。
图3对比了本发明相比于未加入之前的模型,生成句子的效果提升示意图。
图4是基于指针网络的模型生成句子过程中的中间结果示意图。
具体实施方式
如图1、图2所示,本发明包含了两个模块,分别是视觉定位模块和属性词挑选模块,前者包含一个由两层LSTM网络(LSTMTopDown和LSTMlanguage)组成的语言生成模块以及图像注意力计算模块,后者主要利用Pointer-Network指针网络,来对每个时刻具体生成哪个单词做进一步选择。接下来结合步骤做具体说明:
步骤1:提取输入图片的视觉特征:通过在ImageNet上预训练过的卷积神经网络(Convolutional Neural Network,CNN),提取得到输入图片的特征向量,并将特征向量输入到由两层LSTM网络组成的描述语句生成模型;
步骤2,基于注意力机制,在每一个时刻计算出描述语句生成模型对图片不同区域的注意力权重,并基于注意力权重,对图片特征向量进行加权,得到该时刻关注的图像特征;
步骤3,描述语句生成模型基于当前的语句生成状况及关注到的图像特征,利用指针网络运算机制,从预先检测到的视觉属性词语中,挑选最合适的词语,作为该时刻的生成单词,如果没有找到合适的词语,则基于LSTM隐含层状态参量生成单词。
步骤4,重复步骤1~步骤3,依次完成对句子中每一个单词的生成。
步骤1包括以下步骤:
步骤1-1,对原始输入图片I进行预处理,得到图像特征图;
步骤1-2,将图像特征图展开成二维矩阵;
步骤1-3,将特征向量输入描述语句生成模型,得到输出结果。
其中,步骤1-1包括:将原始输入图片I放缩到H×W的大小,输入到在ImageNet上预训练过的卷积神经网络中,并删去原始网络结构中最后的全连接层,保留最后一个卷积层的输出特征图feature map,其尺寸大小h×w×dv,其中,H、W分别表示原始输入图片I的高和宽,h、w分别表示输出特征图feature map的高和宽,dv表示特征向量的维度;
步骤1-2包括:将图像特征图展开并整理成二维矩阵的形式:
其中CNN(I)表示经过CNN网络提取得到的图片特征图,flatten操作将原本h×w×dv的三维张量特征图展开成k×dv的二维形式,并在转置后重新整理为dv×k的形式,k=h×w,表示了图片上k个不同区域中,第i个区域的图片特征向量,对上述k个图片特征向量求均值,记为
步骤1-3包括:描述语句生成模块由两层LSTM网络构成,低层为LSTMTopDown,高层为LSTMlanguage。在第t时刻,将不同区域图片特征向量的均值当前时刻对应单词的词嵌入向量Eyt,以及t-1时刻LSTMlanguage的状态参量进行拼接(concatenate),并将拼接得到的结果输入到第一层LSTM网络LSTMTopDown中,得到LSTMTopDown运算后的状态参量具体流程如下式,所有参量的右下角标t代表当前时刻的取值:
其中是LSTMlanguage前一时刻的隐含层状态参量,为图片不同区域特征向量的均值,yt表示第t个时刻对应的正确单词的one-hot编码向量,将其与待学习的词嵌入矩阵E进行相乘运算得到词嵌入向量Eyt,三者拼接后得到待输入进LSTMTopDown的向量dh和dE分别是隐含层状态向量的维度及词嵌入向量的维度。
步骤2包括以下步骤:
步骤2-1,基于步骤1-3得到的借鉴Lu等人在《Knowing When to Look:Adaptive Attention via A Visual Sentinel for Image Captioning》一文中提出的自适应注意力机制,计算出名为“visual sentinel”(视觉哨兵)变量的值用于帮助描述语句生成模型判断当前时刻是否应当从图片中获取信息,还是直接基于LSTM网络的隐含层状态参量生成下一个单词,计算公式如下:
其中gatet是一个保存中间计算结果的变量,Wxg和Whg均为待学习参数,⊙代表按元素位置一一相乘,σ表示sigmoid函数;
步骤2-2,将步骤1-2所得的矩阵V嵌入到dh维度,使其与LSTM网络的状态参量维度一致,得到低维空间下的图像特征矩阵Vembed=WveV,其中Wve为待学习参量,再将Vembed与步骤2-1计算得到的进行拼接,将其定义为此时的上下文向量(contextfeature),记为
φ表示softmax计算,将注意力权重归一化到0到1之间;
步骤3包括以下步骤:
步骤3-1,将步骤2-3最终所得加权特征向量与步骤1-3所得LSTMTopDown的隐含层状态参量拼接为LSTMlanguage的输入,记为并将其输入到LSTMlanguage中,计算得到LSTMlanguage在当前时刻的隐含层状态参量该参量将直接指导当前时刻单词的生成,具体计算步骤如下:
步骤3-2,基于预先训练的属性检测器,例如采用基于全卷积网络训练的属性检测器,得到每张图片包含的前m个属性词,并加载这些属性词对应的GloVe词向量,组成属性词语矩阵其中dG表示GloVe词向量的维度;
步骤3-5,根据注意力权重向量βt,得到当前时刻模型挑选每个属性词作为最终输出的单词的概率Pattr(yt);
步骤3-6,描述语句生成模型基于当前的语句生成情况和自身隐含层状况,决定生成单词;
步骤3-7,得到最终预测结果。
步骤3-5包括:根据注意力权重向量βt,得到当前时刻模型挑选每个属性词作为最终输出的单词的概率Pattr(yt),表示为:
其中yt代表字典中的某一个单词,Vocab表示英文单词词汇表,AttrtopM表示的是预先检测出来的m个视觉属性词语构成的词汇表,对于步骤3-2中检测到的m个属性词以外的词语,Pattr均判定挑选概率为0;这一设定为了之后的计算方便。
步骤3-6包括:除了步骤3-5中所述的基于前m个属性词作为生成单词外,描述语句生成模型能够仅基于当前的语句生成情况和自身隐含层状况,决定生成哪一个单词,具体定义为:
其中Wvoc、Wctx、bvoc和bctx均为待学习参量,Pvocab(yt)即为生成单词yt的概率;
步骤3-7包括:语句生成模型借鉴指针网络(Pointer-Network)运算机制,决定每个时刻究竟从属性词挑选单词,还是不从属性词中挑选,定义一个参量p,该参量p决定分别了从Pattr和Pvocab挑选词语的概率权重,起到一种类似“开关”(switch)的效果,最终的生成单词预测结果为,从属性词列表中挑选出单词yt的概率Pattr(yt),以及不从属性词列表而是整个词汇表中挑选出单词yt的概率Pvocab(yt),两者基于参量p的加权结果,计算过程如下:
其中wph,wattr,wem,bptr均为待学习参量,最终得到的Pvocab(yt)表示了当前时刻生成单词yt的最终概率,在训练阶段基于交叉熵损失对其进行训练,测试阶段往往选择概率最大的单词,作为该时刻生成的单词。
基于上述步骤进行序列式的生成,最终可以得到一个完整的生成语句,同时模型的中间结果,例如每个时刻的注意力权重向量也可以保存,供此后可视化。
实施例
本发明可以用于日常生活中的图片记录摘要,使用者拍摄的任意图片都可以借助经过本发明训练后的模型进行摘要语句的生成,例如生活中抓拍的很多照片,加入摘要语句之后,能够方便日后的查看翻阅,这也符合大数据时代人们对于图片快速检索分类的需求。
为了验证本发明的有效性,将本发明在Microsoft COCO 2014数据集上进行了训练和测试该数据集一共有123287张图片,每张图片有4~5句人工提供的标注语句。依据Karpathy Split划分原则,用113287张图片作为训练图片(train集),5000张图片用于验证(val集),5000张图片用于测试(test集)。本发明利用一块GTX 1080Ti显卡进行训练加速,采用Adam学习器,学习率设置为2e-4。
模型的一些参数设置如下,采用预训练的ResNet-101网络作为提取图像特征的CNN,采用300维的GloVe词向量,作为属性词语的特征向量,语言模型LSTM的隐含层状态维度采用512维,与图像及词向量的嵌入维度保持统一。
本实施例分别从定量和定性的角度给出了本发明的实验结果,并与一些State ofArt的做法进行了分数上的对比(表1):
表1
可以发现本发明在分数上具有较强的竞争力,一方面本发明对属性检测模块并未进行刻意训练和调试,仅仅采用简单的FCN网络,对COCO数据集上的top1000个词语做了检测,另一方面由于没有利用目标检测模块,故和最高的模型分数比还稍有差距,但是从图3中可以发现,本发明能够有效提升属性检测词语的利用率,证明了本发明的有效性。图3通过对比本发明方法加入前后生成句子质量的变化,体现了加入本发明方法后,模型能够有效利用检测到的属性词语,其中Model-B代表Baseline模型,没有加入本发明提出的方法,Model-P代表Pointer模型,加入了本发明设计的方法。而图4具体展示用本发明对任意一张生活场景图片生成描述语句的过程,通过Pattr和Pvocab的值的对比,可以发现,当属性词语中有恰当的词语时,模型会优先考虑直接拷贝该词语(如图4中women,couch),而当属性词语没有涵盖需要的单词时,Pattr值会较小,从而让模型自行根据语言模型以及当前句子的生成状态,判断该生成哪个单词(如图4中on,a等非视觉词语,往往可以根据语言习惯就正确预测出)。同时可以发现模型的视觉注意力部分也能够正确找寻到合适的图片内容对应区域。
本发明提供了一种基于指针网络的图像描述优化方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (10)
1.一种基于指针网络的图像描述优化方法,其特征在于,包括如下步骤:
步骤1,提取输入图片的视觉特征:通过在ImageNet图像数据集上预先训练过的卷积神经网络CNN,提取得到输入图片的特征向量,并将特征向量输入到由两层长短时记忆网络LSTM组成的描述语句生成模型;
步骤2,基于自适应注意力机制,在每一个时刻计算出描述语句生成模型对图片不同区域的注意力权重,并基于注意力权重,对图片特征向量进行加权,得到该时刻关注的图像特征;
步骤3,描述语句生成模型基于当前的语句生成状况及关注到的图像特征,利用指针网络运算机制,从预先检测到的视觉属性词语中,挑选最合适的词语,作为该时刻的生成单词,如果没有找到合适的词语,则基于LSTM网络的隐含层状态参量生成单词;
步骤4,重复步骤1~步骤3,依次完成对句子中每一个单词的生成。
2.根据权利要求1所述的方法,其特征在于,步骤1包括以下步骤:
步骤1-1,对原始输入图片I进行预处理,得到图像特征图;
步骤1-2,将图像特征图展开成二维矩阵;
步骤1-3,将特征向量输入描述语句生成模型,得到输出结果。
3.根据权利要求2所述的方法,其特征在于,步骤1-1包括:将原始输入图片I放缩到H×W的大小,输入到在ImageNet图片数据集上预先训练过的卷积神经网络中,并删去原始网络结构中最后的全连接层,保留最后一个卷积层的输出特征图feature map,其尺寸大小h×w×dv,其中,H、W分别表示原始输入图片I的高和宽,h、w分别表示输出特征图feature map的高和宽,dv表示特征向量的维度。
5.根据权利要求4所述的方法,其特征在于,步骤1-3包括:描述语句生成模型由两层LSTM网络构成,低层为LSTMTopDown,高层为LSTMlanguage,在第t个时刻,将不同区域图片特征向量的均值当前时刻对应单词的词嵌入向量Eyt,以及t-1时刻LSTMlanguage的状态参量进行拼接,并将拼接得到的结果输入到第一层LSTM网络,即LSTMTopDown中,得到LSTMTopDown运算后的状态参量具体流程如下式,所有参量的右下角标t代表当前时刻的取值:
6.根据权利要求5所述的方法,其特征在于,步骤2包括以下步骤:
步骤2-1,基于步骤1-3得到的采用自适应注意力机制,计算出名为visualsentinel视觉哨兵变量的值用于帮助描述语句生成模型判断当前时刻是否应当从图片中获取信息,还是直接基于LSTM网络的隐含层状况参量生成下一个单词,计算公式如下:
其中gatet是一个保存中间计算结果的变量,Wxg和Whg均为待学习参数,⊙代表按元素位置一一相乘,σ代表sigmoid函数;
步骤2-2,将步骤1-2所得的矩阵V嵌入到dh维度,使其与LSTM网络的状态参量维度一致,得到低维空间下的图像特征矩阵Vembed=WveV,其中Wve为待学习参量,再将Vembed与步骤2-1计算得到的进行拼接,将其定义为此时的上下文信息,记为
φ表示softmax计算,将注意力权重归一化到0到1之间;
7.根据权利要求6所述的方法,其特征在于,步骤3包括以下步骤:
步骤3-1,将步骤2-3最终所得加权特征向量与步骤1-3所得LSTMTopDown的隐含层状态参量拼接为LSTMlanguage的输入,记为并将其输入到LSTMlanguage网络中,计算得到LSTMlanguage在当前时刻的隐含层状态参量具体计算步骤如下:
步骤3-2,基于预先训练的属性检测器,如利用全卷积网络(Fully ConvolutionalNetworks,FCN)实现的图片属性检测器,得到每张图片包含的前m个视觉属性词,并加载这些属性词对应的GloVe词向量,组成属性词语矩阵其中dG表示GloVe词向量的维度;
步骤3-5,根据注意力权重向量βt,得到当前时刻描述语句生成模型挑选每个属性词作为最终输出的单词的概率Pattr(yt);
步骤3-6,当备选属性词列表中没有适合的词语时,描述语句生成模型基于当前的语句生成情况和自身隐含层状况,决定生成单词;
步骤3-7,得到最终结果。
10.根据权利要求9所述的方法,其特征在于,步骤3-7包括:描述语句生成模型借鉴指针网络运算机制,决定每个时刻究竟是从属性词列表挑选单词,还是不从属性词中挑选,定义一个参量p,该参量p决定了分别从Pattr和Pvocab挑选词语的概率权重,最终的生成单词预测结果为,从属性词列表中挑选出单词yt的概率Pattr(yt),以及不从属性词列表而是整个词汇表中挑选出单词yt的概率Pvocab(yt),两者基于参量p的加权结果,计算过程如下:
Pvocab(yt)=Pvocab(yt)×p+Pattr(yt)×(1-p),
其中wph,wattr,wem,bptr均为待学习参量,最终得到的Pvocab(yt)表示了当前时刻生成单词yt的最终概率,在训练阶段基于交叉熵损失对其进行训练,测试阶段往往选择概率最大的单词,作为该时刻生成的单词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010958311.4A CN112052906B (zh) | 2020-09-14 | 2020-09-14 | 一种基于指针网络的图像描述优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010958311.4A CN112052906B (zh) | 2020-09-14 | 2020-09-14 | 一种基于指针网络的图像描述优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112052906A true CN112052906A (zh) | 2020-12-08 |
CN112052906B CN112052906B (zh) | 2024-02-02 |
Family
ID=73611266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010958311.4A Active CN112052906B (zh) | 2020-09-14 | 2020-09-14 | 一种基于指针网络的图像描述优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052906B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784848A (zh) * | 2021-02-04 | 2021-05-11 | 东北大学 | 一种基于多种注意力机制和外部知识的图像描述生成方法 |
CN112818159A (zh) * | 2021-02-24 | 2021-05-18 | 上海交通大学 | 一种基于生成对抗网络的图像描述文本生成方法 |
CN113377986A (zh) * | 2021-06-23 | 2021-09-10 | 泰康保险集团股份有限公司 | 图像检索方法和装置 |
CN113837230A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 基于自适应注意力机制的图像描述生成方法 |
CN116453120A (zh) * | 2023-04-19 | 2023-07-18 | 浪潮智慧科技有限公司 | 基于时序场景图注意力机制的图像描述方法、设备及介质 |
CN117036967A (zh) * | 2023-10-08 | 2023-11-10 | 江西师范大学 | 一种非视觉感知区域通道注意力的遥感图像描述方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018094294A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
CN108416065A (zh) * | 2018-03-28 | 2018-08-17 | 复旦大学 | 基于层级神经网络的图像-句子描述生成系统及方法 |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN110111399A (zh) * | 2019-04-24 | 2019-08-09 | 上海理工大学 | 一种基于视觉注意力的图像文本生成方法 |
CN110168573A (zh) * | 2016-11-18 | 2019-08-23 | 易享信息技术有限公司 | 用于图像标注的空间注意力模型 |
CN111026857A (zh) * | 2019-12-10 | 2020-04-17 | 苏州思必驰信息科技有限公司 | 对话状态跟踪方法、人机对话方法及系统 |
WO2020108165A1 (zh) * | 2018-11-30 | 2020-06-04 | 腾讯科技(深圳)有限公司 | 图像描述信息生成方法和装置及电子装置 |
CN111552801A (zh) * | 2020-04-20 | 2020-08-18 | 大连理工大学 | 基于语义对齐的神经网络自动摘要模型 |
CN111581961A (zh) * | 2020-05-06 | 2020-08-25 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
-
2020
- 2020-09-14 CN CN202010958311.4A patent/CN112052906B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018094294A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
CN110168573A (zh) * | 2016-11-18 | 2019-08-23 | 易享信息技术有限公司 | 用于图像标注的空间注意力模型 |
CN108416065A (zh) * | 2018-03-28 | 2018-08-17 | 复旦大学 | 基于层级神经网络的图像-句子描述生成系统及方法 |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
WO2020108165A1 (zh) * | 2018-11-30 | 2020-06-04 | 腾讯科技(深圳)有限公司 | 图像描述信息生成方法和装置及电子装置 |
CN110111399A (zh) * | 2019-04-24 | 2019-08-09 | 上海理工大学 | 一种基于视觉注意力的图像文本生成方法 |
CN111026857A (zh) * | 2019-12-10 | 2020-04-17 | 苏州思必驰信息科技有限公司 | 对话状态跟踪方法、人机对话方法及系统 |
CN111552801A (zh) * | 2020-04-20 | 2020-08-18 | 大连理工大学 | 基于语义对齐的神经网络自动摘要模型 |
CN111581961A (zh) * | 2020-05-06 | 2020-08-25 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
Non-Patent Citations (5)
Title |
---|
HUI CHEN等: "Show, Observe and Tell: Attribute-driven Attention Model for Image Captioning", 《PROCEEDINGS OF THE TWENTY-SEVENTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE》, pages 606 - 612 * |
YUJIE ZHOU等: "Attribute-driven image captioning via soft-switch pointer", 《PATTERN RECOGNITION LETTERS》, vol. 152, pages 34 - 41, XP086900288, DOI: 10.1016/j.patrec.2021.08.021 * |
ZHIXIN LI等: "Text Summarization Method Based on Double Attention Pointer Network", 《IEEE ACCESS》, vol. 8, pages 11279 - 11288, XP011767718, DOI: 10.1109/ACCESS.2020.2965575 * |
周宇杰: "基于视觉属性检测的图像描述生成方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 05, pages 138 - 992 * |
杨礼总: "基于注意力机制下的图像描述方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 05, pages 138 - 137 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784848A (zh) * | 2021-02-04 | 2021-05-11 | 东北大学 | 一种基于多种注意力机制和外部知识的图像描述生成方法 |
CN112784848B (zh) * | 2021-02-04 | 2024-02-27 | 东北大学 | 一种基于多种注意力机制和外部知识的图像描述生成方法 |
CN112818159A (zh) * | 2021-02-24 | 2021-05-18 | 上海交通大学 | 一种基于生成对抗网络的图像描述文本生成方法 |
CN113377986A (zh) * | 2021-06-23 | 2021-09-10 | 泰康保险集团股份有限公司 | 图像检索方法和装置 |
CN113377986B (zh) * | 2021-06-23 | 2023-11-07 | 泰康保险集团股份有限公司 | 图像检索方法和装置 |
CN113837230A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 基于自适应注意力机制的图像描述生成方法 |
CN116453120A (zh) * | 2023-04-19 | 2023-07-18 | 浪潮智慧科技有限公司 | 基于时序场景图注意力机制的图像描述方法、设备及介质 |
CN116453120B (zh) * | 2023-04-19 | 2024-04-05 | 浪潮智慧科技有限公司 | 基于时序场景图注意力机制的图像描述方法、设备及介质 |
CN117036967A (zh) * | 2023-10-08 | 2023-11-10 | 江西师范大学 | 一种非视觉感知区域通道注意力的遥感图像描述方法 |
CN117036967B (zh) * | 2023-10-08 | 2024-01-19 | 江西师范大学 | 一种非视觉感知区域通道注意力的遥感图像描述方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112052906B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112052906A (zh) | 一种基于指针网络的图像描述优化方法 | |
Rodriguez et al. | Proposal-free temporal moment localization of a natural-language query in video using guided attention | |
CN110866140B (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
CN110147457B (zh) | 图文匹配方法、装置、存储介质及设备 | |
CN108875074B (zh) | 基于交叉注意力神经网络的答案选择方法、装置和电子设备 | |
CN111026861B (zh) | 文本摘要的生成方法、训练方法、装置、设备及介质 | |
EP4016375A1 (en) | Video classification method, device and system | |
GB2545661A (en) | A method for analysing media content | |
CN109993040A (zh) | 文本识别方法及装置 | |
CN110717324B (zh) | 裁判文书答案信息提取方法、装置、提取器、介质和设备 | |
CN113378919B (zh) | 融合视觉常识和增强多层全局特征的图像描述生成方法 | |
CN114358203A (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
CN111464881A (zh) | 基于自优化机制的全卷积视频描述生成方法 | |
CN118113855B (zh) | 一种舰船试验训练场景问答方法、系统、设备和介质 | |
CN117149944B (zh) | 一种基于宽时间范畴的多模态情境情感识别方法及系统 | |
CN110968725A (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN117315249A (zh) | 指代图像分割模型训练和分割方法、系统、设备及介质 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN110659392B (zh) | 检索方法及装置、存储介质 | |
CN113420179B (zh) | 基于时序高斯混合空洞卷积的语义重构视频描述方法 | |
CN114332288A (zh) | 基于短语驱动生成对抗网络的文本生成图像的方法及网络 | |
Ling et al. | A facial expression recognition system for smart learning based on YOLO and vision transformer | |
CN117056543A (zh) | 一种基于图像的多模态专利检索方法 | |
CN117828142A (zh) | 基于多模态信息的问答方法、装置及其应用 | |
CN113569094A (zh) | 视频推荐方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |