CN110210499B - 一种图像语义描述的自适应生成系统 - Google Patents

一种图像语义描述的自适应生成系统 Download PDF

Info

Publication number
CN110210499B
CN110210499B CN201910477799.6A CN201910477799A CN110210499B CN 110210499 B CN110210499 B CN 110210499B CN 201910477799 A CN201910477799 A CN 201910477799A CN 110210499 B CN110210499 B CN 110210499B
Authority
CN
China
Prior art keywords
image
information
vector
semantic
semantic description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910477799.6A
Other languages
English (en)
Other versions
CN110210499A (zh
Inventor
赵小虎
有鹏
尹良飞
李祎宸
刘勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN201910477799.6A priority Critical patent/CN110210499B/zh
Publication of CN110210499A publication Critical patent/CN110210499A/zh
Application granted granted Critical
Publication of CN110210499B publication Critical patent/CN110210499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种图像语义描述的自适应生成系统,属于图像语义描述技术领域。该系统包括图像读取器、编码器、解码器和语义描述显示器;所述图像读取器,用于获取待语义描述的图像;所述编码器包括全局特征提取单元、局部特征提取单元以及图像特征组合单元;所述解码器包括单层或多层神经网络,所述神经网络包括LSTM部分、Attention部分和MLP部分,生成语义描述模型;其中,Attention部分采用自适应注意力机制;所述解码器根据所述编码器输出的组合信息利用所述语义描述模型生成图像语义描述的词句;所述语义描述显示器,用于输出显示所述图像语义描述的词句。本发明实现了确定图像的关注重点,挖掘更高层次的语义信息,完善描述单词或句子的细节信息问题。

Description

一种图像语义描述的自适应生成系统
技术领域
本发明涉及图像语义描述技术领域,尤其涉及一种图像语义描述的自适应生成系统。
背景技术
随着人工智能的迅猛发展以及深度学习技术的突破,基于深度学习的计算机视觉技术日趋成熟,研究人员尝试让机器理解视觉信息中更为复杂的语义信息,因此在计算机视觉与自然语言处理的交叉领域出现图像语义描述研究方向。图像语义描述技术最早由Farhadi等人提出,其目标是实现视觉空间的图像到语义空间的文本描述的转换,方法实现从图像到文本描述句子的映射,对视觉数据给出语义解释,实现从视觉空间到语义空间的映射。
但是由于图像底层的视觉特征与高层的语义概念存在很大差异,因此目前的图像场景语义描述的生成系统仍然存在较多问题亟待解决,如无法确定图像的关注重点,以挖掘更高层次的语义信息,并完善描述句子的细节信息等问题。
发明内容
鉴于上述的分析,本发明旨在提供一种图像语义描述的自适应生成系统,以解决目前图像语义描述技术存在的确定图像的关注重点,挖掘更高层次的语义信息,完善描述单词或句子的细节信息等问题。
本发明的目的主要是通过以下技术方案实现的:
本发明提供了一种图像语义描述的自适应生成系统,包括图像读取器、编码器、解码器和语义描述显示器;所述图像读取器的输出端口连接所述编码器的输入端口;所述编码器的输出端口连接所述解码器的输入端口;所述解码器的输出端口连接所述语义描述显示器的输入端口;
所述图像读取器,用于获取待语义描述的图像;
所述编码器包括全局特征提取单元、局部特征提取单元以及图像特征组合单元;
所述解码器包括单层或多层神经网络,所述神经网络包括LSTM部分、Attention部分和MLP部分,生成语义描述模型;其中,Attention部分采用自适应注意力机制;
所述解码器根据所述编码器输出的组合信息利用所述语义描述模型生成图像语义描述的词句;
所述语义描述显示器,用于输出显示所述图像语义描述的词句。
进一步地,所述全局特征提取单元,用于利用ImageNet训练VGG16的权重参数,并通过CNN VGG16的fc7层输出作为图像的全局特征向量,表示为G的4096维矢量;
所述局部特征提取单元,用于对Faster R-CNN输出窗口选择置信度最高的n个局部特征得到局部特征向量,表示为L={L1,L2,…,Ln},其中n<=10;
所述图像特征组合单元,用于对所述全局特征提取单元提取出的待语义描述图像的全局特征和所述局部特征提取单元提取出的待语义描述图像的局部特征进行组合,得到组合信息;
LSTM根据所述组合信息聚焦图像特征及聚焦文本,并通过Attention的自适应注意力机制调节待语义描述的图像信息的关注点后,经过MLP对图像信息进行融合,生成语义描述模型。
进一步地,所述图像特征组合单元将所述全局特征和所述局部特征组合后输出为I={G,L1,L2,…,Ln}的4096维向量集合,该向量集合由n+1个4096维向量构成,其中n<=10。
进一步地,所述LSTM根据所述组合信息聚焦图像特征及聚焦文本得到图像的视觉信息vt和语义信息ct
当前时刻输入图像的视觉信息表示为:
其中,G为全局特征向量,为当前时刻输出的对全局特征的训练权重,/>为t时刻输出的对局部特征的权重分配,且/>Li为局部特征向量元素,且1<=i<=n。
所述语义信息ct由图像的视觉信息vt与解码器中LSTM当前状态下的输出ht通过卷积神经网络表示为:
ct=g(vt;ht)
其中,g(·)表示注意力函数,表示输入图像经由编码器提取视觉信息的Global-local特征;ht为LSTM在当前状态下的隐藏状态输出,有
注意力函数将图像的视觉信息vt与ht进行融合得到空间注意力元素向量,公式如下:
αt=soft max(zt);
其中,kt为元素全部为1的向量,满足/>为当前状态下对于vt的关注度权重分配。
进一步地,训练权重随t的变化而变化,并动态调整不同位置的权重,根据t时刻输入的训练权重以及t时刻之前相关权重信息,/>动态调整的更新机制表示为:
其中,fi为I的子集向量,有fi∈{G,L1,L2,…,Ln};表示对应的视觉信息的特征向量fi在当前权重下相对于先前已经产生的描述词句的相关分数权重;ht-1为上一时刻LSTM的隐藏状态输出;w、Wh、Wf和b为训练的权重参数;/>为激活函数,采用的是双曲正切函数tanh(·)。
进一步地,生成语义描述模型包括:
编码器将语义信息的词矢量wt和图像的视觉信息vt合并得到解码器的输入向量xt=[wt,vt],然后利用单层神经网络转换成组件矢量st
所述组件矢量st结合LSTM的输出向量ht生成语义描述模型的求解公式,具体表示为:
其中,θ表示模型参数,I表示输入图像的组合信息,y={y1,…,yt}表示生成的语义表示,其优化的目标函数表示为:
进一步地,语义描述模型在t时刻语义描述输出表示为:
其中,f(·)表示yt概率的非线性函数输出,表示输入图像的组合信息I在t时刻Attention自适应输出的视觉残差信息;ht为解码器中LSTM在t时刻的隐含状态;
在t时刻输出语义词句的概率表示为:
其中,Wp为对和ht加权的权重参数。
进一步地,编码器将语义信息的词矢量wt和图像的视觉信息vt合并得到解码器的输入向量xt=[wt,vt],然后利用解码器中LSTM转换成组件矢量st,包括:
自适应注意力机制从解码器存储的视觉信息和语义信息合并后的输入向量中自适应提取新的组件矢量st,并根据该组件矢量判决是否聚焦图像的视觉信息;
所述新的组件矢量st表示为:
gt=σ(Wxxt+Whht-1);
st=gt·tanh(mt);
其中,Wx和Wh表示需要训练的权重参数;xt表示在t时刻LSTM的输入;gt表示LSTM的记忆单元mt的门;·表示点乘;σ表示sigmoid激活函数。
进一步地,解码器中自适应注意力机制的Attention生成矢量为当前t时刻隐含状态的视觉残差信息,该残差信息的语义向量/>表示为:/>
其中,βt取值范围为0~1,为当前时刻的语义门,控制所述语义描述模型对视觉信息与语义信息的关注度分配;取值为0表示只关注视觉信息,取值为1表示只关注语义信息。
进一步地,变量βt的更新计算包括,将空间注意力元素αt加入新的变量,扩展成变量具体表示为:
其中,Ws和Wg为训练的权重参数,为含有k+1个元素的向量,满足/>且变量βt表示为:
本发明技术方案的有益效果:本发明公开了一种图像语义描述的自适应生成系统,该系统通过加入全局-局部特征使得模型确定不同时刻对图像的关注点,对图像细节的描述更加完善,并在解码时加入注意力机制对图像特征加权输入,使得模型可以自适应地选择当前时刻的文本单词对视觉信息与语义信息的依赖权重,有效地提高对图像语义描述的性能,最后对图像来说,生成更全面、更准确、更细致地对图像内容的语义描述。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例的一种图像语义描述的自适应生成系统框图;
图2为本发明实施例的一种图像语义描述的自适应生成系统结构图;
图3为本发明实施例的全局-局部特征提取流程图;
图4为本发明实施例的局部特征提取示意图;
图5为本发明实施例的自适应注意力机制简易结构图;
图6为本发明实施例的自适应注意力机制具体结构图;
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的一个具体实施例,如图1所示,公开了一种图像语义描述的自适应生成系统,包括图像读取器1、编码器2、解码器3和语义描述显示器4;所述图像读取器1的输出端口连接所述编码器2的输入端口;所述编码器2的输出端口连接所述解码器3的输入端口;所述解码器3的输出端口连接所述语义描述显示器4的输入端口;
所述图像读取器1,用于获取待语义描述的图像;
所述编码器2包括全局特征提取单元21、局部特征提取单元22以及图像特征组合单元23;
所述解码器3包括单层或多层神经网络,所述神经网络包括LSTM部分31、Attention部分32和MLP部分33,生成语义描述模型;其中,Attention部分32采用自适应注意力机制;
所述解码器3根据所述编码器2输出的组合信息利用所述语义描述模型生成图像语义描述的词句;
所述语义描述显示器4,用于输出显示所述图像语义描述的词句。
与现有技术相比,本发明技术方案通过加入全局-局部特征使得图像语义描述的自适应生成系统能够确定不同时刻对图像的关注点,对图像细节的描述更加完善,并在解码器中加入注意力机制对图像特征加权输入,使得系统可以自适应地选择当前时刻的文本单词对视觉信息与语义信息的依赖权重,有效地提高对图像语义描述的性能。
优选地,编码器2和解码器3的功能结构组成具体参照图2所示,编码器采用CNN对全局特征提取,同时采用Faster R-CNN对局部特征提取;解码器由单层或多层神经网络构成,每层神经网络由LSTM部分31、Attention部分32和MLP部分33组成,构建语义描述模型。编码器提取的全局特征和局部特征两者组合后得到图像的视觉信息变量vt,存储在解码器中,并将其与LSTM的输出ht通过自适应注意力机制进行融合,生成语义描述模型得到图像语义描述的词句yt
本发明的一个具体实施例,如图3所示,所述全局特征提取单元,用于利用ImageNet训练VGG16的权重参数,并通过CNN VGG16的fc7层输出作为图像的全局特征向量,表示为G的4096维矢量;
所述局部特征提取单元,用于对Faster R-CNN输出窗口选择置信度最高的n个局部特征得到局部特征向量,表示为L={L1,L2,…,Ln},其中n<=10;
所述图像特征组合单元,用于对所述全局特征提取单元提取出的待语义描述图像的全局特征和所述局部特征提取单元提取出的待语义描述图像的局部特征进行组合,得到组合信息;
LSTM根据所述组合信息聚焦图像特征及聚焦文本,并通过Attention的自适应注意力机制调节待语义描述的图像信息的关注点后,经过MLP对图像信息进行融合,生成语义描述模型。
需要说明的是,VGG16提取全局特征的权重,调用的是提前训练好的模型,本技术方案不涉及VGG16对权重的更新。
结合图4,对Faster R-CNN输出窗口选择置信度最高的n个局部特征,该局部特征向量表示为L={L1,L2,…,Ln},其中n<=10。
需要进一步说明的是,对于局部特征提取流程如图4所示,首先由输入图像或图片得到卷积神经特征图,通过PRN到达推荐窗口,经过滚动池Rol-pooling得到推荐窗口的特征图,再通过R-CNN筛选推荐窗口得到推荐窗口特征向量,即为局部特征向量,筛选原则是选择置信度最高的n个局部特征。
本发明的一个具体实施例,结合图1和图2,所述图像特征组合单元将所述全局特征和所述局部特征组合后输出为I={G,L1,L2,…,Ln}的4096维向量集合,该向量集合由n+1个4096维向量构成,其中n<=10。
也即是,全局特征向量G与局部特征向量L={L1,L2,…,Ln}经过编码器Encoder输出向量集合I={G,L1,L2,…,Ln}。
本发明的一个具体实施例,所述LSTM根据所述组合信息聚焦图像特征及聚焦文本得到图像的视觉信息vt和语义信息ct
当前时刻输入图像的视觉信息表示为:
其中,G为全局特征向量,为当前时刻输出的对全局特征的训练权重,/>为t时刻输出的对局部特征的权重分配,且/>Li为局部特征向量元素,且1<=i<=n。
所述语义信息ct由图像的视觉信息vt与解码器中LSTM当前状态下的输出ht通过卷积神经网络表示为:
ct=g(vt;ht)
其中,g(·)表示注意力函数,表示输入图像经由编码器提取视觉信息的Global-local特征;ht为LSTM在当前状态下的隐藏状态输出,有
注意力函数将图像的视觉信息vt与ht进行融合得到空间注意力元素向量,公式如下:
αt=softmax(zt);
其中,kt为元素全部为1的向量,满足/>为当前状态下对于vt的关注度权重分配。
基于当前状态的注意力分布以及图像特征,语义词向量可以表示为:
ct=αtvt
可以利用上述公式求解下一个单词yt+1的输出。
本发明的一个具体实施例,训练权重随t的变化而变化,并动态调整不同位置的权重,根据t时刻输入的训练权重以及t时刻之前相关权重信息,/>动态调整的更新机制表示为:
其中,fi为I的子集向量,有fi∈{G,L1,L2,…,Ln};表示对应的视觉信息的特征向量fi在当前权重下相对于先前已经产生的描述词句的相关分数权重;ht-1为上一时刻LSTM的隐藏状态输出;w、Wh、Wf和b为训练的权重参数;/>为激活函数,采用的是双曲正切函数tanh(·)。
本发明的一个具体实施例,生成语义描述模型包括:编码器将语义信息的词矢量wt和图像的视觉信息vt合并得到解码器的输入向量xt=[wt,vt],然后利用单层神经网络转换成组件矢量st;参见图5所示的自适应注意力机制简易结构图,可知输入向量xt通过LSTM后输出向量ht,自适应注意力机制将组件矢量st与LSTM的输出向量ht融合生成上下文矢量为当前的隐藏状态的视觉残差信息,以减少对图像关注点的不确定性。
参见图6所示的自适应注意力机制具体结构图,可知利用单层神经网络转换成组件矢量st的过程。
所述组件矢量st结合LSTM的输出向量ht生成语义描述模型的求解公式,具体表示为:
其中,θ表示模型参数,I表示输入图像的组合信息,y={y1,…,yt}表示生成的语义表示,其优化的目标函数表示为:
本发明的一个具体实施例,语义描述模型在t时刻语义描述输出表示为:
其中,f(·)表示yt概率的非线性函数输出,表示输入图像的组合信息I在t时刻Attention自适应输出的视觉残差信息;ht为解码器中LSTM在t时刻的隐含状态;
在t时刻输出语义词句的概率表示为:
其中,Wp为对和ht加权的权重参数。
本发明的一个具体实施例,编码器将语义信息的词矢量wt和图像的视觉信息vt合并得到解码器的输入向量xt=[wt,vt],然后利用解码器中LSTM转换成组件矢量st,包括:
自适应注意力机制从解码器存储的视觉信息和语义信息合并后的输入向量中自适应提取新的组件矢量st,并根据该组件矢量判决是否聚焦图像的视觉信息;
所述新的组件矢量st表示为:
gt=σ(Wx xt+Whht-1);
st=gt·tanh(mt);
其中,Wx和Wh表示需要训练的权重参数;xt表示在t时刻LSTM的输入;gt表示LSTM的记忆单元mt的门;·表示点乘;σ表示sigmoid激活函数。
需要说明的是,在处理图像语义描述任务时可知何时聚焦图像特征、何时聚焦文本生成模型,解码器存储的是视觉和语言信息,当语义描述模型不选择视觉信息的特征聚焦时,自适应机制提取一个新的组件st,该组件根据记忆单元mt的门判决是否需要聚焦图像信息。
本发明的一个具体实施例,解码器中自适应注意力机制的Attention生成矢量为当前t时刻隐含状态的视觉残差信息,该残差信息的语义向量/>表示为:/>
其中,βt取值范围为0~1,为当前时刻的语义门,控制所述语义描述模型对视觉信息与语义信息的关注度分配;取值为0表示只关注视觉信息,取值为1表示只关注语义信息。
本发明的一个具体实施例,变量βt的更新计算包括,将空间注意力元素αt加入新的变量,扩展成变量具体表示为:
其中,Ws和Wg为训练的权重参数,为含有k+1个元素的向量,满足/>且变量βt表示为:
综上所述,本发明公开了一种图像语义描述的自适应生成系统,包括图像读取器、编码器、解码器和语义描述显示器;所述图像读取器的输出端口连接所述编码器的输入端口;所述编码器的输出端口连接所述解码器的输入端口;所述解码器的输出端口连接所述语义描述显示器的输入端口;所述图像读取器,用于获取待语义描述的图像;所述编码器包括全局特征提取单元、局部特征提取单元以及图像特征组合单元;所述解码器包括单层或多层神经网络,所述神经网络包括LSTM部分、Attention部分和MLP部分,生成语义描述模型;其中,Attention部分采用自适应注意力机制;所述解码器根据所述编码器输出的组合信息利用所述语义描述模型生成图像语义描述的词句;所述语义描述显示器,用于输出显示所述图像语义描述的词句。本发明通过加入全局-局部特征使得图像语义描述的自适应生成系统确定不同时刻对图像的关注点,对图像细节的描述更加完善,并在解码时加入注意力机制对图像特征加权输入,使得语音描述模型可以自适应地选择当前时刻的文本单词对视觉信息与语义信息的依赖权重,有效地提高对图像语义描述的性能,解决了目前图像语义描述技术存在的确定图像的关注重点,挖掘更高层次的语义信息,完善描述单词或句子的细节信息问题。
本领域技术人员可以理解,实现上述实施例中方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种图像语义描述的自适应生成系统,其特征在于,包括图像读取器、编码器、解码器和语义描述显示器;所述图像读取器的输出端口连接所述编码器的输入端口;所述编码器的输出端口连接所述解码器的输入端口;所述解码器的输出端口连接所述语义描述显示器的输入端口;
所述图像读取器,用于获取待语义描述的图像;
所述编码器包括全局特征提取单元、局部特征提取单元以及图像特征组合单元;
所述解码器包括单层或多层神经网络,所述神经网络包括LSTM部分、Attention部分和MLP部分,生成语义描述模型;其中,Attention部分采用自适应注意力机制;
所述解码器根据所述编码器输出的组合信息利用所述语义描述模型生成图像语义描述的词句;
所述语义描述显示器,用于输出显示所述图像语义描述的词句;
所述图像特征组合单元,用于对所述全局特征提取单元提取出的待语义描述图像的全局特征和所述局部特征提取单元提取出的待语义描述图像的局部特征进行组合,得到组合信息;
编码器将语义信息的词矢量wt和图像的视觉信息vt合并得到解码器的输入向量xt=[wt,vt],然后利用单层神经网络转换成组件矢量st;输入向量xt通过LSTM后输出向量ht,自适应注意力机制将组件矢量st与LSTM的输出向量ht融合生成上下文矢量为当前的隐藏状态的视觉残差信息;
所述LSTM根据所述组合信息聚焦图像特征及聚焦文本得到图像的视觉信息vt和语义信息ct
当前时刻输入图像的视觉信息表示为:
其中,G为全局特征向量,为当前时刻输出的对全局特征的训练权重,/>为t时刻输出的对局部特征的权重分配,且/>Li为局部特征向量元素,且1<=i<=n;
所述语义信息ct由图像的视觉信息vt与解码器中LSTM当前状态下的输出ht通过卷积神经网络表示为:
ct=g(vt;ht)
其中,g(·)表示注意力函数,表示输入图像经由编码器提取视觉信息的Global-local特征;ht为LSTM在当前状态下的隐藏状态输出,有
注意力函数将图像的视觉信息vt与ht进行融合得到空间注意力元素向量,公式如下:
αt=softmax(zt);
其中,kt为元素全部为1的向量,满足/>为当前状态下对于vt的关注度权重分配;
训练权重随t的变化而变化,并动态调整不同位置的权重,根据t时刻输入的训练权重以及t时刻之前相关权重信息,/>动态调整的更新机制表示为:
其中,fi为I的子集向量,有fi∈{G,L1,L2,…,Ln};表示对应的视觉信息的特征向量fi在当前权重下相对于先前已经产生的描述词句的相关分数权重;ht-1为上一时刻LSTM的隐藏状态输出;w、Wh、Wf和b为训练的权重参数;/>为激活函数,采用的是双曲正切函数tanh(·);
生成语义描述模型包括:
所述组件矢量st结合LSTM的输出向量ht生成语义描述模型的求解公式,具体表示为:
其中,θ表示模型参数,I表示输入图像的组合信息,y={y1,…,yt}表示生成的语义表示,其优化的目标函数表示为:
编码器将语义信息的词矢量wt和图像的视觉信息vt合并得到解码器的输入向量xt=[wt,vt],然后利用解码器中LSTM转换成组件矢量st,包括:
自适应注意力机制从解码器存储的视觉信息和语义信息合并后的输入向量中自适应提取新的组件矢量st,并根据该组件矢量判决是否聚焦图像的视觉信息;
所述新的组件矢量st表示为:
gt=σ(Wxxt+Whht-1);
st=gt·tanh(mt);
其中,Wx和Wh表示需要训练的权重参数;xt表示在t时刻LSTM的输入;gt表示LSTM的记忆单元mt的门;·表示点乘;σ表示sigmoid激活函数。
2.根据权利要求1所述的系统,其特征在于,所述全局特征提取单元,用于利用ImageNet训练VGG16的权重参数,并通过CNN VGG16的fc7层输出作为图像的全局特征向量,表示为G的4096维矢量;
所述局部特征提取单元,用于对Faster R-CNN输出窗口选择置信度最高的n个局部特征得到局部特征向量,表示为L={L1,L2,…,Ln},其中n<=10;
LSTM根据所述组合信息聚焦图像特征及聚焦文本,并通过Attention的自适应注意力机制调节待语义描述的图像信息的关注点后,经过MLP对图像信息进行融合,生成语义描述模型。
3.根据权利要求2所述的系统,其特征在于,所述图像特征组合单元将所述全局特征和所述局部特征组合后输出为I={G,L1,L2,…,Ln}的4096维向量集合,该向量集合由n+1个4096维向量构成,其中n<=10。
4.根据权利要求1所述的系统,其特征在于,语义描述模型在t时刻语义描述输出表示为:
其中,f(·)表示yt概率的非线性函数输出,表示输入图像的组合信息I在t时刻Attention自适应输出的视觉残差信息;ht为解码器中LSTM在t时刻的隐含状态;
在t时刻输出语义词句的概率表示为:
其中,Wp为对和ht加权的权重参数。
5.根据权利要求4所述的系统,其特征在于,解码器中自适应注意力机制的Attention生成矢量为当前t时刻隐含状态的视觉残差信息,该残差信息的语义向量/>表示为:
其中,βt取值范围为0~1,为当前时刻的语义门,控制所述语义描述模型对视觉信息与语义信息的关注度分配;取值为0表示只关注视觉信息,取值为1表示只关注语义信息。
6.根据权利要求5所述的系统,其特征在于,变量βt的更新计算包括,将空间注意力元素αt加入新的变量,扩展成变量具体表示为:
其中,Ws和Wg为训练的权重参数,为含有k+1个元素的向量,满足/>且变量βt表示为:
CN201910477799.6A 2019-06-03 2019-06-03 一种图像语义描述的自适应生成系统 Active CN110210499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910477799.6A CN110210499B (zh) 2019-06-03 2019-06-03 一种图像语义描述的自适应生成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910477799.6A CN110210499B (zh) 2019-06-03 2019-06-03 一种图像语义描述的自适应生成系统

Publications (2)

Publication Number Publication Date
CN110210499A CN110210499A (zh) 2019-09-06
CN110210499B true CN110210499B (zh) 2023-10-13

Family

ID=67790383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910477799.6A Active CN110210499B (zh) 2019-06-03 2019-06-03 一种图像语义描述的自适应生成系统

Country Status (1)

Country Link
CN (1) CN110210499B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188779A (zh) * 2019-06-03 2019-08-30 中国矿业大学 一种图像语义描述的生成方法
CN110309839B (zh) * 2019-08-27 2019-12-03 北京金山数字娱乐科技有限公司 一种图像描述的方法及装置
CN110717498A (zh) 2019-09-16 2020-01-21 腾讯科技(深圳)有限公司 图像描述生成方法、装置及电子设备
CN110619313B (zh) * 2019-09-20 2023-09-12 西安电子科技大学 遥感图像判别性描述生成方法
CN110825829B (zh) * 2019-10-16 2023-05-26 华南理工大学 一种基于自然语言和语义地图实现机器人自主导航的方法
CN110852331B (zh) * 2019-10-25 2023-09-08 中电科大数据研究院有限公司 一种结合bert模型的图像描述生成方法
CN111259197B (zh) * 2020-01-13 2022-07-29 清华大学 一种基于预编码语义特征的视频描述生成方法
CN111368898B (zh) * 2020-02-28 2022-10-25 同济大学 一种基于长短时记忆网络变体的图像描述生成方法
CN111340907A (zh) * 2020-03-03 2020-06-26 曲阜师范大学 一种自适应属性和实例掩码嵌入图的文本到图像生成方法
CN111444367B (zh) * 2020-03-24 2022-10-14 哈尔滨工程大学 一种基于全局与局部注意力机制的图像标题生成方法
CN111553371B (zh) * 2020-04-17 2023-04-18 中国矿业大学 一种基于多特征提取的图像语义描述方法及系统
CN111783852B (zh) * 2020-06-16 2024-03-12 北京工业大学 一种基于深度强化学习自适应式生成图像描述的方法
CN111898338B (zh) * 2020-07-15 2024-04-30 北京字节跳动网络技术有限公司 文本生成方法、装置和电子设备
CN112069335A (zh) * 2020-09-03 2020-12-11 Oppo广东移动通信有限公司 图像分类方法、装置、电子设备及存储介质
CN114549888A (zh) * 2020-11-11 2022-05-27 中国科学院沈阳自动化研究所 一种基于全局交互的图像语义理解解析方法
CN112887765B (zh) * 2021-01-08 2022-07-26 武汉兴图新科电子股份有限公司 应用于云融合平台的码率自适应调整系统及方法
CN113673535B (zh) * 2021-05-24 2023-01-10 重庆师范大学 一种多模态特征融合网络的图像描述生成方法
CN113378919B (zh) * 2021-06-09 2022-06-14 重庆师范大学 融合视觉常识和增强多层全局特征的图像描述生成方法
CN113535999B (zh) * 2021-07-05 2023-05-26 北京航空航天大学 一种基于深度学习的多样化图像描述语句生成技术

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
CN106778926A (zh) * 2016-12-23 2017-05-31 深圳市唯特视科技有限公司 一种基于视觉注意模型的图像文字描述方法
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN108829677A (zh) * 2018-06-05 2018-11-16 大连理工大学 一种基于多模态注意力的图像标题自动生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
CN106778926A (zh) * 2016-12-23 2017-05-31 深圳市唯特视科技有限公司 一种基于视觉注意模型的图像文字描述方法
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN108829677A (zh) * 2018-06-05 2018-11-16 大连理工大学 一种基于多模态注意力的图像标题自动生成方法

Also Published As

Publication number Publication date
CN110210499A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110210499B (zh) 一种图像语义描述的自适应生成系统
WO2020244287A1 (zh) 一种图像语义描述的生成方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN107484017B (zh) 基于注意力模型的有监督视频摘要生成方法
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN110309839B (zh) 一种图像描述的方法及装置
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN106844442A (zh) 基于fcn特征提取的多模态循环神经网络图像描述方法
CN112331183B (zh) 基于自回归网络的非平行语料语音转换方法及系统
CN111325323A (zh) 一种融合全局信息和局部信息的输变电场景描述自动生成方法
CN109543820B (zh) 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法
CN109543699A (zh) 一种基于目标检测的图像摘要生成方法
CN110851760B (zh) 在web3D环境融入视觉问答的人机交互系统
CN108985370B (zh) 图像标注语句自动生成方法
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN115658954B (zh) 一种基于提示学习的跨模态检索对抗防御方法
CN115249062B (zh) 一种文本生成视频的网络模型、方法及装置
CN111816169A (zh) 中英语种混杂语音识别模型训练方法和装置
CN112464816A (zh) 基于二次迁移学习的地方手语识别方法、装置
CN110069611A (zh) 一种主题增强的聊天机器人回复生成方法及装置
CN115631267A (zh) 生成动画的方法及装置
CN112070040A (zh) 一种用于视频字幕的文本行检测方法
CN111666752A (zh) 一种基于关键词注意力机制的电路教材实体关系抽取方法
CN107291837B (zh) 一种基于领域适应性的网络文本的分词方法
Chen et al. Movie fill in the blank by joint learning from video and text with adaptive temporal attention

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant