CN112052906A - 一种基于指针网络的图像描述优化方法 - Google Patents

一种基于指针网络的图像描述优化方法 Download PDF

Info

Publication number
CN112052906A
CN112052906A CN202010958311.4A CN202010958311A CN112052906A CN 112052906 A CN112052906 A CN 112052906A CN 202010958311 A CN202010958311 A CN 202010958311A CN 112052906 A CN112052906 A CN 112052906A
Authority
CN
China
Prior art keywords
word
words
lstm
attribute
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010958311.4A
Other languages
English (en)
Other versions
CN112052906B (zh
Inventor
周宇杰
商琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010958311.4A priority Critical patent/CN112052906B/zh
Publication of CN112052906A publication Critical patent/CN112052906A/zh
Application granted granted Critical
Publication of CN112052906B publication Critical patent/CN112052906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于指针网络的图像描述优化方法,包括:(1)利用卷积神经网络提取输入图片的视觉特征向量,并将视觉特征输入到由两层长短期记忆网络组成的描述语句生成模块。(2)利用注意力机制,挑选出每一时刻关注的图片区域,并对图像特征基于区域做加权融合。(3)结合挑选得到的区域特征和当前句子的生成状况,利用指针网络运算机制,从预先检测到的图片属性词语中选取最恰当的词语,填充到该时刻的单词生成位置,如果无法从备选属性词语中找到合适的词语,则模型将基于当前句子生成状况,自行判断该时刻生成哪一个单词。(4)重复上述步骤,依次生成句子中的每一个单词,最终得到更加贴近图片内容的描述语句。

Description

一种基于指针网络的图像描述优化方法
技术领域
本发明涉及一种基于指针网络的图像描述优化方法。
背景技术
Image Caption图像描述,旨在利用机器对一张图片生成一段通顺、流畅且贴切的描述语句。该领域在近年来吸引了大量研究者,因其同时涉及计算机视觉和自然语言处理两大领域,故优化和改进的空间较大,各种做法也各具意义和代表性。其中基于注意力机制的改进对提升Image Caption性能起到了重要作用,其出发点在于模仿人类对一张图片内容的观察理解过程。最初的Soft/Hard Attention算法在每个时刻会计算对图片不同区域分配的注意力权重,实现了一种注意力动态转移的效果。此后又逐渐发展出了1)Spatialand Channel Attention,将注意力从空间维度拓展到卷积核Channel维度;2)AdaptiveAttention,模型不需要每个时刻都从图片内容中寻找依据,有些时刻可以根据语言习惯生成词语;3)Bottom-up Top-down Attention,用一个两层LSTM结构将attention的计算分层细化;此外还有各类Attention算法,主旨都在于让模型动态关注不同的图片内容。
除了Attention机制外,另一大类Image Caption改进方法就是利用预训练的属性词检测器,场景分类器,目标检测器等,提前提取到图片中的视觉要素,从而将问题解耦,让Caption生成模型只需要将主要精力放在提升句子质量上,而将捕获图片视觉信息的任务交给子模块实现,其中目标检测类方法虽然检测效果较好,但存在模型结构庞大,训练开销较大的缺点,而视觉属性词语的检测,往往会转化为多标签图像识别(Multi-label ImageClassification)任务,较为容易实现,但精度一般,一般会采用全卷积网络(FullyConvolutional Networks,FCN)来训练。
指针网络(Pointer Network)是一种常用于文本摘要的算法,其核心思想在于,在对一段文字进行摘要时,有时可以直接从原文中摘抄一些词语,既可以提高摘要的准确性,又能降低有些生僻词语的生成难度。Image Caption生成语句的过程中,也会有一些难以识别的属性词语,如果能够提前得到这些词语,在生成的时候将其作为指针网络的待选词,则能够实现对生成语句质量的提高。
发明内容
发明目的:本发明的目的在于提出一种将Attention注意力机制和视觉属性词语(Visual Attributes)检测相结合的方法,提升Image Caption描述语句的生成效果。单纯的Attention机制由于缺乏额外的语义信息,其能够捕获到的图像特征信息对生成描述语句的质量提升有限,本发明希望实现一种“视觉图像—语义属性词”对齐的做法,模型首先决定观察图片的哪一个区域,其次基于该区域的图像特征,借助指针网络运算机制,从检测到的属性词语中找到最合适的描述词,如果没有属性词能够描述该区域,模型同样能够自行生成出更恰当的词语,这也同时保证了模型的鲁棒性:既能够在视觉属性词检测准确的情况下,有效利用检测到的语义信息来丰富句子,又能够在视觉词语检测精度一般的情况下,基于语言模型和视觉特征来生成正确的单词。
发明步骤:本算法的步骤主要分为三大部分:1)提取图片视觉特征;2)基于视觉注意力机制,计算每个时刻关注的视觉特征;3)基于每个时刻的视觉特征,判断当前是否从属性词中挑选合适的词,还是另外再找寻合适的单词,在当前时刻进行预测输出。具体的步骤如下:
步骤1:提取输入图片的视觉特征:通过在ImageNet图片数据集上预训练过的卷积神经网络(Convolutional Neural Network,CNN),提取得到输入图片的特征向量,并将特征向量输入到由两层长短时记忆网络LSTM(Long Short-Term Memory,LSTM)组成的描述语句生成模型;
步骤2,基于自适应注意力机制(Adaptive Attention),在每一个时刻计算出描述语句生成模型对图片不同区域的注意力权重,并基于注意力权重,对图片特征向量进行加权,得到该时刻关注的图像特征;
步骤3,描述语句生成模型基于当前的语句生成状况及关注到的图像特征,利用指针网络(Pointer Network)运算机制,从预先检测到的视觉属性词语中,挑选最合适的词语,作为该时刻的生成单词,如果没有找到合适的词语,则基于LSTM网络的隐含层状态参量生成单词。
步骤4,重复步骤1~步骤3,依次完成对句子中每一个单词的生成。
步骤1包括以下步骤:
步骤1-1,对原始输入图片I进行预处理,得到图像特征图;
步骤1-2,将图像特征图展开成二维矩阵;
步骤1-3,将特征向量输入描述语句生成模型,得到输出结果。
其中,步骤1-1包括:将原始输入图片I放缩到H×W的大小,输入到在ImageNet图像数据集上预先训练过的卷积神经网络中,并删去原始网络结构中最后的全连接层,保留最后一个卷积层的输出特征图feature map,其尺寸大小h×w×dv,其中,H、W分别表示原始输入图片I的高和宽,h、w分别表示输出特征图feature map的高和宽,dv表示特征向量的维度;
步骤1-2包括:将图像特征图展开并整理成二维矩阵的形式:
Figure BDA0002679479470000031
其中CNN(I)表示经过CNN网络提取得到的图片特征图,flatten操作将原本h×w×dv的三维张量特征图展开成k×dv的二维形式,并在转置后重新整理为dv×k的形式,k=h×w,
Figure BDA0002679479470000032
表示了图片上k个不同区域中,第i个区域的图片特征向量,对上述k个图片特征向量求均值,记为
Figure BDA0002679479470000033
其中R表示实数空间。
步骤1-3包括:描述语句生成模型由两层LSTM网络构成,低层为LSTMTopDown,高层为LSTMlanguage。在第t时刻,将不同区域图片特征向量的均值
Figure BDA00026794794700000310
当前时刻对应单词的词嵌入向量Eyt,以及t-1时刻LSTMlanguage的状态参量
Figure BDA0002679479470000034
进行拼接(concatenate),并将拼接得到的结果输入到第一层LSTM网络,即LSTMTopDown中,得到LSTMTopDown运算后的状态参量
Figure BDA0002679479470000035
具体流程如下式,所有参量的右下角标t代表当前时刻的取值:
Figure BDA0002679479470000036
Figure BDA0002679479470000037
其中
Figure BDA0002679479470000038
表示LSTMlanguage前一时刻的隐含层状态参量,yt表示第t个时刻对应的正确单词的one-hot编码向量,将其与待学习的词嵌入矩阵E进行相乘运算得到词嵌入向量Eyt,三者拼接后得到待输入进LSTMTopDown的向量
Figure BDA0002679479470000039
dh和dE分别是隐含层状态向量的维度及词嵌入向量的维度。
步骤2包括以下步骤:
步骤2-1,基于步骤1-3得到的
Figure BDA0002679479470000041
借鉴Lu等人在《Knowing When to Look:Adaptive Attention via A Visual Sentinel for Image Captioning》一文中提出的自适应注意力机制,计算出名为visual sentinel视觉哨兵变量的值
Figure BDA0002679479470000042
用于帮助描述语句生成模型判断当前时刻是否应当从图片中获取信息,还是直接基于LSTM网络的隐含层状态参量生成下一个单词,计算公式如下:
Figure BDA0002679479470000043
Figure BDA0002679479470000044
其中gatet是一个保存中间计算结果的变量,Wxg和Whg均为待学习参数,⊙代表按元素位置一一相乘,σ表示sigmoid函数;
步骤2-2,将步骤1-2所得的矩阵V嵌入到dh维度,使其与LSTM网络的状态参量维度一致,得到低维空间下的图像特征矩阵Vembed=WveV,
Figure BDA0002679479470000045
其中Wve为待学习参量,再将Vembed与步骤2-1计算得到的
Figure BDA0002679479470000046
进行拼接,将其定义为此时的上下文向量(contextfeature),记为
Figure BDA0002679479470000047
步骤2-3,利用注意力计算方法,得到当前时刻LSTMTopDown的隐含层状态参量
Figure BDA0002679479470000048
对上下文信息特征向量的注意力分配权重,并由此得到加权后的context feature,记为
Figure BDA0002679479470000049
Figure BDA00026794794700000410
Figure BDA00026794794700000411
其中wa、WC
Figure BDA00026794794700000412
均为待学习参数;
Figure BDA00026794794700000413
表示当前时刻即t时刻,对第i个上下文信息特征向量分配的注意力权重;
φ表示softmax计算,将注意力权重归一化到0到1之间;
tanh表示激活函数,
Figure BDA0002679479470000051
代表将两个维度不同的矩阵拓展到相同维度后的相加操作。
步骤3包括以下步骤:
步骤3-1,将步骤2-3最终所得加权特征向量
Figure BDA0002679479470000052
与步骤1-3所得LSTMTopDown的隐含层状态参量
Figure BDA0002679479470000053
拼接为LSTMlanguage的输入,记为
Figure BDA0002679479470000054
并将其输入到LSTMlanguage网络中,计算得到LSTMlanguage在当前时刻的隐含层状态参量
Figure BDA0002679479470000055
该参量将直接指导当前时刻单词的生成,具体计算步骤如下:
Figure BDA0002679479470000056
Figure BDA0002679479470000057
步骤3-2,基于预先训练的属性检测器,例如利用全卷积网络(FullyConvolutional Networks,FCN)实现的图片属性检测器,得到每张图片包含的前m个属性词,并加载这些属性词对应的GloVe词向量,组成属性词语矩阵
Figure BDA0002679479470000058
其中dG表示GloVe词向量的维度;
步骤3-3,将属性词语矩阵嵌入到dh维度,使其与LSTM网络的状态参量维度一致,及确保各个模态的信息被嵌入到统一的语义空间,得到该语义空间下的词向量矩阵
Figure BDA0002679479470000059
其中Wae为待学习的参数矩阵;
步骤3-4,再次利用与步骤2-3中相同的注意力计算方法,计算步骤3-1得到的
Figure BDA00026794794700000510
对各个属性词的注意力权重向量
Figure BDA00026794794700000511
其中,wb、WA
Figure BDA00026794794700000512
均为待学习参量;
步骤3-5,根据注意力权重向量βt,得到当前时刻描述语句生成模型挑选每个属性词作为最终输出的单词的概率Pattr(yt);
步骤3-6,当备选属性词列表中没有适合的词语时,描述语句生成模型基于当前的语句生成情况和自身隐含层状况,决定生成单词;
步骤3-7,得到最终结果。
步骤3-5包括:根据注意力权重向量βt,得到当前时刻模型挑选每个属性词作为最终输出的单词的概率Pattr(yt),表示为:
Figure BDA0002679479470000061
其中yt代表字典中的某一个单词,Vocab表示英文单词词汇表,AttrtopM表示的是预先检测出来的m个视觉属性词语构成的词汇表,对于步骤3-2中检测到的m个属性词以外的词语,Pattr均判定挑选概率为0;这一设定为了之后的计算方便。
步骤3-6包括:除了步骤3-5中所述的基于前m个属性词作为生成单词外,描述语句生成模型能够仅基于当前的语句生成情况和自身隐含层状况,决定生成哪一个单词,具体定义为:
Figure BDA0002679479470000062
其中Wvoc、Wctx、bvoc和bctx均为待学习参量,Pvocab(yt)即为生成单词yt的概率;
步骤3-7包括:描述语句生成模型借鉴指针网络(Pointer-Network)运算机制,决定每个时刻究竟从属性词挑选单词,还是不从属性词中挑选,定义一个参量p,该参量p决定了分别从Pattr和Pvocab挑选词语的概率权重,起到一种类似“开关”(switch)的效果,最终的生成单词预测结果为,从属性词列表中挑选出单词yt的概率Pattr(yt),以及不从属性词列表而是整个词汇表中挑选出单词yt的概率Pvocab(yt),两者基于参量p的加权结果,计算过程如下:
Figure BDA0002679479470000063
Figure BDA0002679479470000064
其中wph,wattr,wem,bptr均为待学习参量,最终得到的Pvocab(yt)表示了当前时刻生成单词yt的最终概率,在训练阶段基于交叉熵损失对其进行训练,测试阶段往往选择概率最大的单词,作为该时刻生成的单词。
有益效果:本发明方法能够更好地将视觉属性词语的检测和图像描述语句的生成两部分工作相结合,利用自然语言处理领域的先进指针网络算法,把检测到的属性词语以“拷贝粘贴”的形式添加到待生成的描述语句中,使得生成的描述句子内容更加丰富贴切,涵盖尽可能多的视觉属性词语。同时算法中加入的注意力计算机制,也能够实现视觉特征和属性词向量的语义对齐,让描述语句生成模型能够真正理解一张图片“何处为何物”。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的总体框架图。
图2则是本发明方法框架的细节图。
图3对比了本发明相比于未加入之前的模型,生成句子的效果提升示意图。
图4是基于指针网络的模型生成句子过程中的中间结果示意图。
具体实施方式
如图1、图2所示,本发明包含了两个模块,分别是视觉定位模块和属性词挑选模块,前者包含一个由两层LSTM网络(LSTMTopDown和LSTMlanguage)组成的语言生成模块以及图像注意力计算模块,后者主要利用Pointer-Network指针网络,来对每个时刻具体生成哪个单词做进一步选择。接下来结合步骤做具体说明:
步骤1:提取输入图片的视觉特征:通过在ImageNet上预训练过的卷积神经网络(Convolutional Neural Network,CNN),提取得到输入图片的特征向量,并将特征向量输入到由两层LSTM网络组成的描述语句生成模型;
步骤2,基于注意力机制,在每一个时刻计算出描述语句生成模型对图片不同区域的注意力权重,并基于注意力权重,对图片特征向量进行加权,得到该时刻关注的图像特征;
步骤3,描述语句生成模型基于当前的语句生成状况及关注到的图像特征,利用指针网络运算机制,从预先检测到的视觉属性词语中,挑选最合适的词语,作为该时刻的生成单词,如果没有找到合适的词语,则基于LSTM隐含层状态参量生成单词。
步骤4,重复步骤1~步骤3,依次完成对句子中每一个单词的生成。
步骤1包括以下步骤:
步骤1-1,对原始输入图片I进行预处理,得到图像特征图;
步骤1-2,将图像特征图展开成二维矩阵;
步骤1-3,将特征向量输入描述语句生成模型,得到输出结果。
其中,步骤1-1包括:将原始输入图片I放缩到H×W的大小,输入到在ImageNet上预训练过的卷积神经网络中,并删去原始网络结构中最后的全连接层,保留最后一个卷积层的输出特征图feature map,其尺寸大小h×w×dv,其中,H、W分别表示原始输入图片I的高和宽,h、w分别表示输出特征图feature map的高和宽,dv表示特征向量的维度;
步骤1-2包括:将图像特征图展开并整理成二维矩阵的形式:
Figure BDA0002679479470000081
其中CNN(I)表示经过CNN网络提取得到的图片特征图,flatten操作将原本h×w×dv的三维张量特征图展开成k×dv的二维形式,并在转置后重新整理为dv×k的形式,k=h×w,
Figure BDA0002679479470000082
表示了图片上k个不同区域中,第i个区域的图片特征向量,对上述k个图片特征向量求均值,记为
Figure BDA0002679479470000083
步骤1-3包括:描述语句生成模块由两层LSTM网络构成,低层为LSTMTopDown,高层为LSTMlanguage。在第t时刻,将不同区域图片特征向量的均值
Figure BDA0002679479470000084
当前时刻对应单词的词嵌入向量Eyt,以及t-1时刻LSTMlanguage的状态参量
Figure BDA0002679479470000085
进行拼接(concatenate),并将拼接得到的结果输入到第一层LSTM网络LSTMTopDown中,得到LSTMTopDown运算后的状态参量
Figure BDA0002679479470000086
具体流程如下式,所有参量的右下角标t代表当前时刻的取值:
Figure BDA0002679479470000087
Figure BDA0002679479470000088
其中
Figure BDA0002679479470000089
是LSTMlanguage前一时刻的隐含层状态参量,
Figure BDA00026794794700000810
为图片不同区域特征向量的均值,yt表示第t个时刻对应的正确单词的one-hot编码向量,将其与待学习的词嵌入矩阵E进行相乘运算得到词嵌入向量Eyt,三者拼接后得到待输入进LSTMTopDown的向量
Figure BDA0002679479470000091
dh和dE分别是隐含层状态向量的维度及词嵌入向量的维度。
步骤2包括以下步骤:
步骤2-1,基于步骤1-3得到的
Figure BDA0002679479470000092
借鉴Lu等人在《Knowing When to Look:Adaptive Attention via A Visual Sentinel for Image Captioning》一文中提出的自适应注意力机制,计算出名为“visual sentinel”(视觉哨兵)变量的值
Figure BDA0002679479470000093
用于帮助描述语句生成模型判断当前时刻是否应当从图片中获取信息,还是直接基于LSTM网络的隐含层状态参量生成下一个单词,计算公式如下:
Figure BDA0002679479470000094
Figure BDA0002679479470000095
其中gatet是一个保存中间计算结果的变量,Wxg和Whg均为待学习参数,⊙代表按元素位置一一相乘,σ表示sigmoid函数;
步骤2-2,将步骤1-2所得的矩阵V嵌入到dh维度,使其与LSTM网络的状态参量维度一致,得到低维空间下的图像特征矩阵Vembed=WveV,
Figure BDA0002679479470000096
其中Wve为待学习参量,再将Vembed与步骤2-1计算得到的
Figure BDA0002679479470000097
进行拼接,将其定义为此时的上下文向量(contextfeature),记为
Figure BDA0002679479470000098
步骤2-3,利用注意力计算方法,得到当前时刻LSTMTopDown的隐含层状态参量
Figure BDA0002679479470000099
对上下文信息特征向量的注意力分配权重,并由此得到加权后的context feature,记为
Figure BDA00026794794700000910
Figure BDA00026794794700000911
Figure BDA00026794794700000912
其中wa、WC
Figure BDA00026794794700000913
均为待学习参数;
Figure BDA00026794794700000914
表示当前时刻即t时刻,对第i个上下文信息特征向量分配的注意力权重;
φ表示softmax计算,将注意力权重归一化到0到1之间;
tanh表示激活函数,
Figure BDA0002679479470000101
代表将两个维度不同的矩阵拓展到相同维度后的相加操作。
步骤3包括以下步骤:
步骤3-1,将步骤2-3最终所得加权特征向量
Figure BDA0002679479470000102
与步骤1-3所得LSTMTopDown的隐含层状态参量
Figure BDA0002679479470000103
拼接为LSTMlanguage的输入,记为
Figure BDA00026794794700001010
并将其输入到LSTMlanguage中,计算得到LSTMlanguage在当前时刻的隐含层状态参量
Figure BDA00026794794700001011
该参量将直接指导当前时刻单词的生成,具体计算步骤如下:
Figure BDA0002679479470000104
Figure BDA0002679479470000105
步骤3-2,基于预先训练的属性检测器,例如采用基于全卷积网络训练的属性检测器,得到每张图片包含的前m个属性词,并加载这些属性词对应的GloVe词向量,组成属性词语矩阵
Figure BDA0002679479470000106
其中dG表示GloVe词向量的维度;
步骤3-3,将属性词语矩阵嵌入到dh维度,使其与LSTM网络的状态参量维度一致,及确保各个模态的信息被嵌入到统一的语义空间,得到该语义空间下的词向量矩阵
Figure BDA0002679479470000107
其中Wae为待学习的参数矩阵;
步骤3-4,再次利用注意力计算方法,计算步骤3-1得到的
Figure BDA0002679479470000108
对各个属性词的注意力权重向量
Figure BDA0002679479470000109
其中,wb、WA
Figure BDA00026794794700001012
均为待学习参量;
步骤3-5,根据注意力权重向量βt,得到当前时刻模型挑选每个属性词作为最终输出的单词的概率Pattr(yt);
步骤3-6,描述语句生成模型基于当前的语句生成情况和自身隐含层状况,决定生成单词;
步骤3-7,得到最终预测结果。
步骤3-5包括:根据注意力权重向量βt,得到当前时刻模型挑选每个属性词作为最终输出的单词的概率Pattr(yt),表示为:
Figure BDA0002679479470000111
其中yt代表字典中的某一个单词,Vocab表示英文单词词汇表,AttrtopM表示的是预先检测出来的m个视觉属性词语构成的词汇表,对于步骤3-2中检测到的m个属性词以外的词语,Pattr均判定挑选概率为0;这一设定为了之后的计算方便。
步骤3-6包括:除了步骤3-5中所述的基于前m个属性词作为生成单词外,描述语句生成模型能够仅基于当前的语句生成情况和自身隐含层状况,决定生成哪一个单词,具体定义为:
Figure BDA0002679479470000112
其中Wvoc、Wctx、bvoc和bctx均为待学习参量,Pvocab(yt)即为生成单词yt的概率;
步骤3-7包括:语句生成模型借鉴指针网络(Pointer-Network)运算机制,决定每个时刻究竟从属性词挑选单词,还是不从属性词中挑选,定义一个参量p,该参量p决定分别了从Pattr和Pvocab挑选词语的概率权重,起到一种类似“开关”(switch)的效果,最终的生成单词预测结果为,从属性词列表中挑选出单词yt的概率Pattr(yt),以及不从属性词列表而是整个词汇表中挑选出单词yt的概率Pvocab(yt),两者基于参量p的加权结果,计算过程如下:
Figure BDA0002679479470000113
Figure BDA0002679479470000114
其中wph,wattr,wem,bptr均为待学习参量,最终得到的Pvocab(yt)表示了当前时刻生成单词yt的最终概率,在训练阶段基于交叉熵损失对其进行训练,测试阶段往往选择概率最大的单词,作为该时刻生成的单词。
基于上述步骤进行序列式的生成,最终可以得到一个完整的生成语句,同时模型的中间结果,例如每个时刻的注意力权重向量也可以保存,供此后可视化。
实施例
本发明可以用于日常生活中的图片记录摘要,使用者拍摄的任意图片都可以借助经过本发明训练后的模型进行摘要语句的生成,例如生活中抓拍的很多照片,加入摘要语句之后,能够方便日后的查看翻阅,这也符合大数据时代人们对于图片快速检索分类的需求。
为了验证本发明的有效性,将本发明在Microsoft COCO 2014数据集上进行了训练和测试该数据集一共有123287张图片,每张图片有4~5句人工提供的标注语句。依据Karpathy Split划分原则,用113287张图片作为训练图片(train集),5000张图片用于验证(val集),5000张图片用于测试(test集)。本发明利用一块GTX 1080Ti显卡进行训练加速,采用Adam学习器,学习率设置为2e-4。
模型的一些参数设置如下,采用预训练的ResNet-101网络作为提取图像特征的CNN,采用300维的GloVe词向量,作为属性词语的特征向量,语言模型LSTM的隐含层状态维度采用512维,与图像及词向量的嵌入维度保持统一。
本实施例分别从定量和定性的角度给出了本发明的实验结果,并与一些State ofArt的做法进行了分数上的对比(表1):
表1
Figure BDA0002679479470000121
可以发现本发明在分数上具有较强的竞争力,一方面本发明对属性检测模块并未进行刻意训练和调试,仅仅采用简单的FCN网络,对COCO数据集上的top1000个词语做了检测,另一方面由于没有利用目标检测模块,故和最高的模型分数比还稍有差距,但是从图3中可以发现,本发明能够有效提升属性检测词语的利用率,证明了本发明的有效性。图3通过对比本发明方法加入前后生成句子质量的变化,体现了加入本发明方法后,模型能够有效利用检测到的属性词语,其中Model-B代表Baseline模型,没有加入本发明提出的方法,Model-P代表Pointer模型,加入了本发明设计的方法。而图4具体展示用本发明对任意一张生活场景图片生成描述语句的过程,通过Pattr和Pvocab的值的对比,可以发现,当属性词语中有恰当的词语时,模型会优先考虑直接拷贝该词语(如图4中women,couch),而当属性词语没有涵盖需要的单词时,Pattr值会较小,从而让模型自行根据语言模型以及当前句子的生成状态,判断该生成哪个单词(如图4中on,a等非视觉词语,往往可以根据语言习惯就正确预测出)。同时可以发现模型的视觉注意力部分也能够正确找寻到合适的图片内容对应区域。
本发明提供了一种基于指针网络的图像描述优化方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (10)

1.一种基于指针网络的图像描述优化方法,其特征在于,包括如下步骤:
步骤1,提取输入图片的视觉特征:通过在ImageNet图像数据集上预先训练过的卷积神经网络CNN,提取得到输入图片的特征向量,并将特征向量输入到由两层长短时记忆网络LSTM组成的描述语句生成模型;
步骤2,基于自适应注意力机制,在每一个时刻计算出描述语句生成模型对图片不同区域的注意力权重,并基于注意力权重,对图片特征向量进行加权,得到该时刻关注的图像特征;
步骤3,描述语句生成模型基于当前的语句生成状况及关注到的图像特征,利用指针网络运算机制,从预先检测到的视觉属性词语中,挑选最合适的词语,作为该时刻的生成单词,如果没有找到合适的词语,则基于LSTM网络的隐含层状态参量生成单词;
步骤4,重复步骤1~步骤3,依次完成对句子中每一个单词的生成。
2.根据权利要求1所述的方法,其特征在于,步骤1包括以下步骤:
步骤1-1,对原始输入图片I进行预处理,得到图像特征图;
步骤1-2,将图像特征图展开成二维矩阵;
步骤1-3,将特征向量输入描述语句生成模型,得到输出结果。
3.根据权利要求2所述的方法,其特征在于,步骤1-1包括:将原始输入图片I放缩到H×W的大小,输入到在ImageNet图片数据集上预先训练过的卷积神经网络中,并删去原始网络结构中最后的全连接层,保留最后一个卷积层的输出特征图feature map,其尺寸大小h×w×dv,其中,H、W分别表示原始输入图片I的高和宽,h、w分别表示输出特征图feature map的高和宽,dv表示特征向量的维度。
4.根据权利要求3所述的方法,其特征在于,步骤1-2包括:将图像特征图展开并整理成二维矩阵V的形式:
Figure FDA0002679479460000011
其中CNN(I)表示经过CNN网络提取得到的图片特征图,flatten操作将原本h×w×dv的三维张量特征图展开成k×dv的二维形式,并在转置后重新整理为dv×k的形式,k=h×w;
Figure FDA0002679479460000012
表示了图片上k个不同区域中,第i个区域的图片特征向量,对上述k个图片特征向量求均值,记为
Figure FDA0002679479460000021
其中R表示实数空间。
5.根据权利要求4所述的方法,其特征在于,步骤1-3包括:描述语句生成模型由两层LSTM网络构成,低层为LSTMTopDown,高层为LSTMlanguage,在第t个时刻,将不同区域图片特征向量的均值
Figure FDA0002679479460000022
当前时刻对应单词的词嵌入向量Eyt,以及t-1时刻LSTMlanguage的状态参量
Figure FDA0002679479460000023
进行拼接,并将拼接得到的结果输入到第一层LSTM网络,即LSTMTopDown中,得到LSTMTopDown运算后的状态参量
Figure FDA0002679479460000024
具体流程如下式,所有参量的右下角标t代表当前时刻的取值:
Figure FDA0002679479460000025
Figure FDA0002679479460000026
其中
Figure FDA0002679479460000027
表示LSTMlanguage前一时刻的隐含层状态参量,yt表示第t个时刻对应的正确单词的one-hot编码向量,将其与待学习的词嵌入矩阵E进行相乘运算得到词嵌入向量Eyt,三者拼接后得到待输入进LSTMTopDown的向量
Figure FDA0002679479460000028
dh和dE分别是隐含层状态向量的维度及词嵌入向量的维度。
6.根据权利要求5所述的方法,其特征在于,步骤2包括以下步骤:
步骤2-1,基于步骤1-3得到的
Figure FDA0002679479460000029
采用自适应注意力机制,计算出名为visualsentinel视觉哨兵变量的值
Figure FDA00026794794600000210
用于帮助描述语句生成模型判断当前时刻是否应当从图片中获取信息,还是直接基于LSTM网络的隐含层状况参量生成下一个单词,计算公式如下:
Figure FDA00026794794600000211
Figure FDA00026794794600000212
其中gatet是一个保存中间计算结果的变量,Wxg和Whg均为待学习参数,⊙代表按元素位置一一相乘,σ代表sigmoid函数;
步骤2-2,将步骤1-2所得的矩阵V嵌入到dh维度,使其与LSTM网络的状态参量维度一致,得到低维空间下的图像特征矩阵Vembed=WveV,
Figure FDA0002679479460000031
其中Wve为待学习参量,再将Vembed与步骤2-1计算得到的
Figure FDA0002679479460000032
进行拼接,将其定义为此时的上下文信息,记为
Figure FDA0002679479460000033
步骤2-3,利用注意力计算方法,得到当前时刻LSTMTopDown的隐含层状态参量
Figure FDA0002679479460000034
对上下文信息特征向量的注意力分配权重,并由此得到加权后的context feature,记为
Figure FDA0002679479460000035
Figure FDA0002679479460000036
Figure FDA0002679479460000037
其中wa、WC
Figure FDA0002679479460000038
均为待学习参数;
Figure FDA0002679479460000039
表示当前时刻对第i个上下文信息特征向量分配的注意力权重;
φ表示softmax计算,将注意力权重归一化到0到1之间;
tanh表示激活函数,
Figure FDA00026794794600000310
代表将两个维度不同的矩阵拓展到相同维度后的相加操作。
7.根据权利要求6所述的方法,其特征在于,步骤3包括以下步骤:
步骤3-1,将步骤2-3最终所得加权特征向量
Figure FDA00026794794600000311
与步骤1-3所得LSTMTopDown的隐含层状态参量
Figure FDA00026794794600000312
拼接为LSTMlanguage的输入,记为
Figure FDA00026794794600000313
并将其输入到LSTMlanguage网络中,计算得到LSTMlanguage在当前时刻的隐含层状态参量
Figure FDA00026794794600000314
具体计算步骤如下:
Figure FDA00026794794600000315
Figure FDA00026794794600000316
步骤3-2,基于预先训练的属性检测器,如利用全卷积网络(Fully ConvolutionalNetworks,FCN)实现的图片属性检测器,得到每张图片包含的前m个视觉属性词,并加载这些属性词对应的GloVe词向量,组成属性词语矩阵
Figure FDA00026794794600000317
其中dG表示GloVe词向量的维度;
步骤3-3,将属性词语矩阵嵌入到dh维度,使其与LSTM网络的状态参量维度一致,得到该语义空间下的属性词矩阵
Figure FDA0002679479460000041
其中Wae为待学习的参数矩阵;
步骤3-4,再次利用注意力计算方法,计算步骤3-1得到的
Figure FDA0002679479460000042
对各个属性词的注意力权重向量
Figure FDA0002679479460000043
其中,wb、WA
Figure FDA0002679479460000044
均为待学习参量;
步骤3-5,根据注意力权重向量βt,得到当前时刻描述语句生成模型挑选每个属性词作为最终输出的单词的概率Pattr(yt);
步骤3-6,当备选属性词列表中没有适合的词语时,描述语句生成模型基于当前的语句生成情况和自身隐含层状况,决定生成单词;
步骤3-7,得到最终结果。
8.根据权利要求7所述的方法,其特征在于,步骤3-5包括:根据注意力权重向量βt,得到当前时刻模型挑选每个属性词作为最终输出的单词的概率Pattr(yt),表示为:
Figure FDA0002679479460000045
其中yt代表字典中的一个单词,Vocab表示英文单词词汇表,AttrtopM表示的是预先检测出来的m个视觉属性词语构成的词汇表,对于步骤3-2中检测到的m个属性词以外的词语,Pattr均判定挑选概率为0。
9.根据权利要求8所述的方法,其特征在于,步骤3-6包括:除了步骤3-5中所述的基于前m个属性词作为生成单词外,描述语句生成模型能够仅基于当前的语句生成情况和自身隐含层状况,决定生成哪一个单词,具体定义为:
Figure FDA0002679479460000046
其中Wvoc、Wctx、bvoc和bctx均为待学习参量,Pvocab(yt)即为生成单词yt的概率。
10.根据权利要求9所述的方法,其特征在于,步骤3-7包括:描述语句生成模型借鉴指针网络运算机制,决定每个时刻究竟是从属性词列表挑选单词,还是不从属性词中挑选,定义一个参量p,该参量p决定了分别从Pattr和Pvocab挑选词语的概率权重,最终的生成单词预测结果为,从属性词列表中挑选出单词yt的概率Pattr(yt),以及不从属性词列表而是整个词汇表中挑选出单词yt的概率Pvocab(yt),两者基于参量p的加权结果,计算过程如下:
Figure FDA0002679479460000051
Pvocab(yt)=Pvocab(yt)×p+Pattr(yt)×(1-p),
其中wph,wattr,wem,bptr均为待学习参量,最终得到的Pvocab(yt)表示了当前时刻生成单词yt的最终概率,在训练阶段基于交叉熵损失对其进行训练,测试阶段往往选择概率最大的单词,作为该时刻生成的单词。
CN202010958311.4A 2020-09-14 2020-09-14 一种基于指针网络的图像描述优化方法 Active CN112052906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010958311.4A CN112052906B (zh) 2020-09-14 2020-09-14 一种基于指针网络的图像描述优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010958311.4A CN112052906B (zh) 2020-09-14 2020-09-14 一种基于指针网络的图像描述优化方法

Publications (2)

Publication Number Publication Date
CN112052906A true CN112052906A (zh) 2020-12-08
CN112052906B CN112052906B (zh) 2024-02-02

Family

ID=73611266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010958311.4A Active CN112052906B (zh) 2020-09-14 2020-09-14 一种基于指针网络的图像描述优化方法

Country Status (1)

Country Link
CN (1) CN112052906B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784848A (zh) * 2021-02-04 2021-05-11 东北大学 一种基于多种注意力机制和外部知识的图像描述生成方法
CN112818159A (zh) * 2021-02-24 2021-05-18 上海交通大学 一种基于生成对抗网络的图像描述文本生成方法
CN113377986A (zh) * 2021-06-23 2021-09-10 泰康保险集团股份有限公司 图像检索方法和装置
CN113837230A (zh) * 2021-08-30 2021-12-24 厦门大学 基于自适应注意力机制的图像描述生成方法
CN116453120A (zh) * 2023-04-19 2023-07-18 浪潮智慧科技有限公司 基于时序场景图注意力机制的图像描述方法、设备及介质
CN117036967A (zh) * 2023-10-08 2023-11-10 江西师范大学 一种非视觉感知区域通道注意力的遥感图像描述方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018094294A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial attention model for image captioning
CN108416065A (zh) * 2018-03-28 2018-08-17 复旦大学 基于层级神经网络的图像-句子描述生成系统及方法
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN110168573A (zh) * 2016-11-18 2019-08-23 易享信息技术有限公司 用于图像标注的空间注意力模型
CN111026857A (zh) * 2019-12-10 2020-04-17 苏州思必驰信息科技有限公司 对话状态跟踪方法、人机对话方法及系统
WO2020108165A1 (zh) * 2018-11-30 2020-06-04 腾讯科技(深圳)有限公司 图像描述信息生成方法和装置及电子装置
CN111552801A (zh) * 2020-04-20 2020-08-18 大连理工大学 基于语义对齐的神经网络自动摘要模型
CN111581961A (zh) * 2020-05-06 2020-08-25 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018094294A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial attention model for image captioning
CN110168573A (zh) * 2016-11-18 2019-08-23 易享信息技术有限公司 用于图像标注的空间注意力模型
CN108416065A (zh) * 2018-03-28 2018-08-17 复旦大学 基于层级神经网络的图像-句子描述生成系统及方法
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
WO2020108165A1 (zh) * 2018-11-30 2020-06-04 腾讯科技(深圳)有限公司 图像描述信息生成方法和装置及电子装置
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN111026857A (zh) * 2019-12-10 2020-04-17 苏州思必驰信息科技有限公司 对话状态跟踪方法、人机对话方法及系统
CN111552801A (zh) * 2020-04-20 2020-08-18 大连理工大学 基于语义对齐的神经网络自动摘要模型
CN111581961A (zh) * 2020-05-06 2020-08-25 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HUI CHEN等: "Show, Observe and Tell: Attribute-driven Attention Model for Image Captioning", 《PROCEEDINGS OF THE TWENTY-SEVENTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE》, pages 606 - 612 *
YUJIE ZHOU等: "Attribute-driven image captioning via soft-switch pointer", 《PATTERN RECOGNITION LETTERS》, vol. 152, pages 34 - 41, XP086900288, DOI: 10.1016/j.patrec.2021.08.021 *
ZHIXIN LI等: "Text Summarization Method Based on Double Attention Pointer Network", 《IEEE ACCESS》, vol. 8, pages 11279 - 11288, XP011767718, DOI: 10.1109/ACCESS.2020.2965575 *
周宇杰: "基于视觉属性检测的图像描述生成方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 05, pages 138 - 992 *
杨礼总: "基于注意力机制下的图像描述方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 05, pages 138 - 137 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784848A (zh) * 2021-02-04 2021-05-11 东北大学 一种基于多种注意力机制和外部知识的图像描述生成方法
CN112784848B (zh) * 2021-02-04 2024-02-27 东北大学 一种基于多种注意力机制和外部知识的图像描述生成方法
CN112818159A (zh) * 2021-02-24 2021-05-18 上海交通大学 一种基于生成对抗网络的图像描述文本生成方法
CN113377986A (zh) * 2021-06-23 2021-09-10 泰康保险集团股份有限公司 图像检索方法和装置
CN113377986B (zh) * 2021-06-23 2023-11-07 泰康保险集团股份有限公司 图像检索方法和装置
CN113837230A (zh) * 2021-08-30 2021-12-24 厦门大学 基于自适应注意力机制的图像描述生成方法
CN116453120A (zh) * 2023-04-19 2023-07-18 浪潮智慧科技有限公司 基于时序场景图注意力机制的图像描述方法、设备及介质
CN116453120B (zh) * 2023-04-19 2024-04-05 浪潮智慧科技有限公司 基于时序场景图注意力机制的图像描述方法、设备及介质
CN117036967A (zh) * 2023-10-08 2023-11-10 江西师范大学 一种非视觉感知区域通道注意力的遥感图像描述方法
CN117036967B (zh) * 2023-10-08 2024-01-19 江西师范大学 一种非视觉感知区域通道注意力的遥感图像描述方法

Also Published As

Publication number Publication date
CN112052906B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN112052906A (zh) 一种基于指针网络的图像描述优化方法
Rodriguez et al. Proposal-free temporal moment localization of a natural-language query in video using guided attention
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN110147457B (zh) 图文匹配方法、装置、存储介质及设备
CN108875074B (zh) 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN111026861B (zh) 文本摘要的生成方法、训练方法、装置、设备及介质
EP4016375A1 (en) Video classification method, device and system
GB2545661A (en) A method for analysing media content
CN109993040A (zh) 文本识别方法及装置
CN110717324B (zh) 裁判文书答案信息提取方法、装置、提取器、介质和设备
CN113378919B (zh) 融合视觉常识和增强多层全局特征的图像描述生成方法
CN114358203A (zh) 图像描述语句生成模块的训练方法及装置、电子设备
CN111464881A (zh) 基于自优化机制的全卷积视频描述生成方法
CN118113855B (zh) 一种舰船试验训练场景问答方法、系统、设备和介质
CN117149944B (zh) 一种基于宽时间范畴的多模态情境情感识别方法及系统
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN117315249A (zh) 指代图像分割模型训练和分割方法、系统、设备及介质
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
CN110659392B (zh) 检索方法及装置、存储介质
CN113420179B (zh) 基于时序高斯混合空洞卷积的语义重构视频描述方法
CN114332288A (zh) 基于短语驱动生成对抗网络的文本生成图像的方法及网络
Ling et al. A facial expression recognition system for smart learning based on YOLO and vision transformer
CN117056543A (zh) 一种基于图像的多模态专利检索方法
CN117828142A (zh) 基于多模态信息的问答方法、装置及其应用
CN113569094A (zh) 视频推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant