CN110210499B - 一种图像语义描述的自适应生成系统 - Google Patents
一种图像语义描述的自适应生成系统 Download PDFInfo
- Publication number
- CN110210499B CN110210499B CN201910477799.6A CN201910477799A CN110210499B CN 110210499 B CN110210499 B CN 110210499B CN 201910477799 A CN201910477799 A CN 201910477799A CN 110210499 B CN110210499 B CN 110210499B
- Authority
- CN
- China
- Prior art keywords
- image
- information
- vector
- semantic
- semantic description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003044 adaptive effect Effects 0.000 claims abstract description 30
- 230000007246 mechanism Effects 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 239000010410 layer Substances 0.000 claims abstract description 13
- 239000002356 single layer Substances 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 100
- 230000000007 visual effect Effects 0.000 claims description 49
- 230000006870 function Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 238000000034 method Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 238000012886 linear function Methods 0.000 claims description 2
- 230000003213 activating effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/469—Contour-based spatial representations, e.g. vector-coding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种图像语义描述的自适应生成系统,属于图像语义描述技术领域。该系统包括图像读取器、编码器、解码器和语义描述显示器;所述图像读取器,用于获取待语义描述的图像;所述编码器包括全局特征提取单元、局部特征提取单元以及图像特征组合单元;所述解码器包括单层或多层神经网络,所述神经网络包括LSTM部分、Attention部分和MLP部分,生成语义描述模型;其中,Attention部分采用自适应注意力机制;所述解码器根据所述编码器输出的组合信息利用所述语义描述模型生成图像语义描述的词句;所述语义描述显示器,用于输出显示所述图像语义描述的词句。本发明实现了确定图像的关注重点,挖掘更高层次的语义信息,完善描述单词或句子的细节信息问题。
Description
技术领域
本发明涉及图像语义描述技术领域,尤其涉及一种图像语义描述的自适应生成系统。
背景技术
随着人工智能的迅猛发展以及深度学习技术的突破,基于深度学习的计算机视觉技术日趋成熟,研究人员尝试让机器理解视觉信息中更为复杂的语义信息,因此在计算机视觉与自然语言处理的交叉领域出现图像语义描述研究方向。图像语义描述技术最早由Farhadi等人提出,其目标是实现视觉空间的图像到语义空间的文本描述的转换,方法实现从图像到文本描述句子的映射,对视觉数据给出语义解释,实现从视觉空间到语义空间的映射。
但是由于图像底层的视觉特征与高层的语义概念存在很大差异,因此目前的图像场景语义描述的生成系统仍然存在较多问题亟待解决,如无法确定图像的关注重点,以挖掘更高层次的语义信息,并完善描述句子的细节信息等问题。
发明内容
鉴于上述的分析,本发明旨在提供一种图像语义描述的自适应生成系统,以解决目前图像语义描述技术存在的确定图像的关注重点,挖掘更高层次的语义信息,完善描述单词或句子的细节信息等问题。
本发明的目的主要是通过以下技术方案实现的:
本发明提供了一种图像语义描述的自适应生成系统,包括图像读取器、编码器、解码器和语义描述显示器;所述图像读取器的输出端口连接所述编码器的输入端口;所述编码器的输出端口连接所述解码器的输入端口;所述解码器的输出端口连接所述语义描述显示器的输入端口;
所述图像读取器,用于获取待语义描述的图像;
所述编码器包括全局特征提取单元、局部特征提取单元以及图像特征组合单元;
所述解码器包括单层或多层神经网络,所述神经网络包括LSTM部分、Attention部分和MLP部分,生成语义描述模型;其中,Attention部分采用自适应注意力机制;
所述解码器根据所述编码器输出的组合信息利用所述语义描述模型生成图像语义描述的词句;
所述语义描述显示器,用于输出显示所述图像语义描述的词句。
进一步地,所述全局特征提取单元,用于利用ImageNet训练VGG16的权重参数,并通过CNN VGG16的fc7层输出作为图像的全局特征向量,表示为G的4096维矢量;
所述局部特征提取单元,用于对Faster R-CNN输出窗口选择置信度最高的n个局部特征得到局部特征向量,表示为L={L1,L2,…,Ln},其中n<=10;
所述图像特征组合单元,用于对所述全局特征提取单元提取出的待语义描述图像的全局特征和所述局部特征提取单元提取出的待语义描述图像的局部特征进行组合,得到组合信息;
LSTM根据所述组合信息聚焦图像特征及聚焦文本,并通过Attention的自适应注意力机制调节待语义描述的图像信息的关注点后,经过MLP对图像信息进行融合,生成语义描述模型。
进一步地,所述图像特征组合单元将所述全局特征和所述局部特征组合后输出为I={G,L1,L2,…,Ln}的4096维向量集合,该向量集合由n+1个4096维向量构成,其中n<=10。
进一步地,所述LSTM根据所述组合信息聚焦图像特征及聚焦文本得到图像的视觉信息vt和语义信息ct;
当前时刻输入图像的视觉信息表示为:
其中,G为全局特征向量,为当前时刻输出的对全局特征的训练权重,/>为t时刻输出的对局部特征的权重分配,且/>Li为局部特征向量元素,且1<=i<=n。
所述语义信息ct由图像的视觉信息vt与解码器中LSTM当前状态下的输出ht通过卷积神经网络表示为:
ct=g(vt;ht)
其中,g(·)表示注意力函数,表示输入图像经由编码器提取视觉信息的Global-local特征;ht为LSTM在当前状态下的隐藏状态输出,有
注意力函数将图像的视觉信息vt与ht进行融合得到空间注意力元素向量,公式如下:
αt=soft max(zt);
其中,kt为元素全部为1的向量,满足/>为当前状态下对于vt的关注度权重分配。
进一步地,训练权重随t的变化而变化,并动态调整不同位置的权重,根据t时刻输入的训练权重以及t时刻之前相关权重信息,/>动态调整的更新机制表示为:
其中,fi为I的子集向量,有fi∈{G,L1,L2,…,Ln};表示对应的视觉信息的特征向量fi在当前权重下相对于先前已经产生的描述词句的相关分数权重;ht-1为上一时刻LSTM的隐藏状态输出;w、Wh、Wf和b为训练的权重参数;/>为激活函数,采用的是双曲正切函数tanh(·)。
进一步地,生成语义描述模型包括:
编码器将语义信息的词矢量wt和图像的视觉信息vt合并得到解码器的输入向量xt=[wt,vt],然后利用单层神经网络转换成组件矢量st;
所述组件矢量st结合LSTM的输出向量ht生成语义描述模型的求解公式,具体表示为:
其中,θ表示模型参数,I表示输入图像的组合信息,y={y1,…,yt}表示生成的语义表示,其优化的目标函数表示为:
进一步地,语义描述模型在t时刻语义描述输出表示为:
其中,f(·)表示yt概率的非线性函数输出,表示输入图像的组合信息I在t时刻Attention自适应输出的视觉残差信息;ht为解码器中LSTM在t时刻的隐含状态;
在t时刻输出语义词句的概率表示为:
其中,Wp为对和ht加权的权重参数。
进一步地,编码器将语义信息的词矢量wt和图像的视觉信息vt合并得到解码器的输入向量xt=[wt,vt],然后利用解码器中LSTM转换成组件矢量st,包括:
自适应注意力机制从解码器存储的视觉信息和语义信息合并后的输入向量中自适应提取新的组件矢量st,并根据该组件矢量判决是否聚焦图像的视觉信息;
所述新的组件矢量st表示为:
gt=σ(Wxxt+Whht-1);
st=gt·tanh(mt);
其中,Wx和Wh表示需要训练的权重参数;xt表示在t时刻LSTM的输入;gt表示LSTM的记忆单元mt的门;·表示点乘;σ表示sigmoid激活函数。
进一步地,解码器中自适应注意力机制的Attention生成矢量为当前t时刻隐含状态的视觉残差信息,该残差信息的语义向量/>表示为:/>
其中,βt取值范围为0~1,为当前时刻的语义门,控制所述语义描述模型对视觉信息与语义信息的关注度分配;取值为0表示只关注视觉信息,取值为1表示只关注语义信息。
进一步地,变量βt的更新计算包括,将空间注意力元素αt加入新的变量,扩展成变量具体表示为:
其中,Ws和Wg为训练的权重参数,为含有k+1个元素的向量,满足/>且变量βt表示为:
本发明技术方案的有益效果:本发明公开了一种图像语义描述的自适应生成系统,该系统通过加入全局-局部特征使得模型确定不同时刻对图像的关注点,对图像细节的描述更加完善,并在解码时加入注意力机制对图像特征加权输入,使得模型可以自适应地选择当前时刻的文本单词对视觉信息与语义信息的依赖权重,有效地提高对图像语义描述的性能,最后对图像来说,生成更全面、更准确、更细致地对图像内容的语义描述。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例的一种图像语义描述的自适应生成系统框图;
图2为本发明实施例的一种图像语义描述的自适应生成系统结构图;
图3为本发明实施例的全局-局部特征提取流程图;
图4为本发明实施例的局部特征提取示意图;
图5为本发明实施例的自适应注意力机制简易结构图;
图6为本发明实施例的自适应注意力机制具体结构图;
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的一个具体实施例,如图1所示,公开了一种图像语义描述的自适应生成系统,包括图像读取器1、编码器2、解码器3和语义描述显示器4;所述图像读取器1的输出端口连接所述编码器2的输入端口;所述编码器2的输出端口连接所述解码器3的输入端口;所述解码器3的输出端口连接所述语义描述显示器4的输入端口;
所述图像读取器1,用于获取待语义描述的图像;
所述编码器2包括全局特征提取单元21、局部特征提取单元22以及图像特征组合单元23;
所述解码器3包括单层或多层神经网络,所述神经网络包括LSTM部分31、Attention部分32和MLP部分33,生成语义描述模型;其中,Attention部分32采用自适应注意力机制;
所述解码器3根据所述编码器2输出的组合信息利用所述语义描述模型生成图像语义描述的词句;
所述语义描述显示器4,用于输出显示所述图像语义描述的词句。
与现有技术相比,本发明技术方案通过加入全局-局部特征使得图像语义描述的自适应生成系统能够确定不同时刻对图像的关注点,对图像细节的描述更加完善,并在解码器中加入注意力机制对图像特征加权输入,使得系统可以自适应地选择当前时刻的文本单词对视觉信息与语义信息的依赖权重,有效地提高对图像语义描述的性能。
优选地,编码器2和解码器3的功能结构组成具体参照图2所示,编码器采用CNN对全局特征提取,同时采用Faster R-CNN对局部特征提取;解码器由单层或多层神经网络构成,每层神经网络由LSTM部分31、Attention部分32和MLP部分33组成,构建语义描述模型。编码器提取的全局特征和局部特征两者组合后得到图像的视觉信息变量vt,存储在解码器中,并将其与LSTM的输出ht通过自适应注意力机制进行融合,生成语义描述模型得到图像语义描述的词句yt。
本发明的一个具体实施例,如图3所示,所述全局特征提取单元,用于利用ImageNet训练VGG16的权重参数,并通过CNN VGG16的fc7层输出作为图像的全局特征向量,表示为G的4096维矢量;
所述局部特征提取单元,用于对Faster R-CNN输出窗口选择置信度最高的n个局部特征得到局部特征向量,表示为L={L1,L2,…,Ln},其中n<=10;
所述图像特征组合单元,用于对所述全局特征提取单元提取出的待语义描述图像的全局特征和所述局部特征提取单元提取出的待语义描述图像的局部特征进行组合,得到组合信息;
LSTM根据所述组合信息聚焦图像特征及聚焦文本,并通过Attention的自适应注意力机制调节待语义描述的图像信息的关注点后,经过MLP对图像信息进行融合,生成语义描述模型。
需要说明的是,VGG16提取全局特征的权重,调用的是提前训练好的模型,本技术方案不涉及VGG16对权重的更新。
结合图4,对Faster R-CNN输出窗口选择置信度最高的n个局部特征,该局部特征向量表示为L={L1,L2,…,Ln},其中n<=10。
需要进一步说明的是,对于局部特征提取流程如图4所示,首先由输入图像或图片得到卷积神经特征图,通过PRN到达推荐窗口,经过滚动池Rol-pooling得到推荐窗口的特征图,再通过R-CNN筛选推荐窗口得到推荐窗口特征向量,即为局部特征向量,筛选原则是选择置信度最高的n个局部特征。
本发明的一个具体实施例,结合图1和图2,所述图像特征组合单元将所述全局特征和所述局部特征组合后输出为I={G,L1,L2,…,Ln}的4096维向量集合,该向量集合由n+1个4096维向量构成,其中n<=10。
也即是,全局特征向量G与局部特征向量L={L1,L2,…,Ln}经过编码器Encoder输出向量集合I={G,L1,L2,…,Ln}。
本发明的一个具体实施例,所述LSTM根据所述组合信息聚焦图像特征及聚焦文本得到图像的视觉信息vt和语义信息ct;
当前时刻输入图像的视觉信息表示为:
其中,G为全局特征向量,为当前时刻输出的对全局特征的训练权重,/>为t时刻输出的对局部特征的权重分配,且/>Li为局部特征向量元素,且1<=i<=n。
所述语义信息ct由图像的视觉信息vt与解码器中LSTM当前状态下的输出ht通过卷积神经网络表示为:
ct=g(vt;ht)
其中,g(·)表示注意力函数,表示输入图像经由编码器提取视觉信息的Global-local特征;ht为LSTM在当前状态下的隐藏状态输出,有
注意力函数将图像的视觉信息vt与ht进行融合得到空间注意力元素向量,公式如下:
αt=softmax(zt);
其中,kt为元素全部为1的向量,满足/>为当前状态下对于vt的关注度权重分配。
基于当前状态的注意力分布以及图像特征,语义词向量可以表示为:
ct=αtvt
可以利用上述公式求解下一个单词yt+1的输出。
本发明的一个具体实施例,训练权重随t的变化而变化,并动态调整不同位置的权重,根据t时刻输入的训练权重以及t时刻之前相关权重信息,/>动态调整的更新机制表示为:
其中,fi为I的子集向量,有fi∈{G,L1,L2,…,Ln};表示对应的视觉信息的特征向量fi在当前权重下相对于先前已经产生的描述词句的相关分数权重;ht-1为上一时刻LSTM的隐藏状态输出;w、Wh、Wf和b为训练的权重参数;/>为激活函数,采用的是双曲正切函数tanh(·)。
本发明的一个具体实施例,生成语义描述模型包括:编码器将语义信息的词矢量wt和图像的视觉信息vt合并得到解码器的输入向量xt=[wt,vt],然后利用单层神经网络转换成组件矢量st;参见图5所示的自适应注意力机制简易结构图,可知输入向量xt通过LSTM后输出向量ht,自适应注意力机制将组件矢量st与LSTM的输出向量ht融合生成上下文矢量为当前的隐藏状态的视觉残差信息,以减少对图像关注点的不确定性。
参见图6所示的自适应注意力机制具体结构图,可知利用单层神经网络转换成组件矢量st的过程。
所述组件矢量st结合LSTM的输出向量ht生成语义描述模型的求解公式,具体表示为:
其中,θ表示模型参数,I表示输入图像的组合信息,y={y1,…,yt}表示生成的语义表示,其优化的目标函数表示为:
本发明的一个具体实施例,语义描述模型在t时刻语义描述输出表示为:
其中,f(·)表示yt概率的非线性函数输出,表示输入图像的组合信息I在t时刻Attention自适应输出的视觉残差信息;ht为解码器中LSTM在t时刻的隐含状态;
在t时刻输出语义词句的概率表示为:
其中,Wp为对和ht加权的权重参数。
本发明的一个具体实施例,编码器将语义信息的词矢量wt和图像的视觉信息vt合并得到解码器的输入向量xt=[wt,vt],然后利用解码器中LSTM转换成组件矢量st,包括:
自适应注意力机制从解码器存储的视觉信息和语义信息合并后的输入向量中自适应提取新的组件矢量st,并根据该组件矢量判决是否聚焦图像的视觉信息;
所述新的组件矢量st表示为:
gt=σ(Wx xt+Whht-1);
st=gt·tanh(mt);
其中,Wx和Wh表示需要训练的权重参数;xt表示在t时刻LSTM的输入;gt表示LSTM的记忆单元mt的门;·表示点乘;σ表示sigmoid激活函数。
需要说明的是,在处理图像语义描述任务时可知何时聚焦图像特征、何时聚焦文本生成模型,解码器存储的是视觉和语言信息,当语义描述模型不选择视觉信息的特征聚焦时,自适应机制提取一个新的组件st,该组件根据记忆单元mt的门判决是否需要聚焦图像信息。
本发明的一个具体实施例,解码器中自适应注意力机制的Attention生成矢量为当前t时刻隐含状态的视觉残差信息,该残差信息的语义向量/>表示为:/>
其中,βt取值范围为0~1,为当前时刻的语义门,控制所述语义描述模型对视觉信息与语义信息的关注度分配;取值为0表示只关注视觉信息,取值为1表示只关注语义信息。
本发明的一个具体实施例,变量βt的更新计算包括,将空间注意力元素αt加入新的变量,扩展成变量具体表示为:
其中,Ws和Wg为训练的权重参数,为含有k+1个元素的向量,满足/>且变量βt表示为:
综上所述,本发明公开了一种图像语义描述的自适应生成系统,包括图像读取器、编码器、解码器和语义描述显示器;所述图像读取器的输出端口连接所述编码器的输入端口;所述编码器的输出端口连接所述解码器的输入端口;所述解码器的输出端口连接所述语义描述显示器的输入端口;所述图像读取器,用于获取待语义描述的图像;所述编码器包括全局特征提取单元、局部特征提取单元以及图像特征组合单元;所述解码器包括单层或多层神经网络,所述神经网络包括LSTM部分、Attention部分和MLP部分,生成语义描述模型;其中,Attention部分采用自适应注意力机制;所述解码器根据所述编码器输出的组合信息利用所述语义描述模型生成图像语义描述的词句;所述语义描述显示器,用于输出显示所述图像语义描述的词句。本发明通过加入全局-局部特征使得图像语义描述的自适应生成系统确定不同时刻对图像的关注点,对图像细节的描述更加完善,并在解码时加入注意力机制对图像特征加权输入,使得语音描述模型可以自适应地选择当前时刻的文本单词对视觉信息与语义信息的依赖权重,有效地提高对图像语义描述的性能,解决了目前图像语义描述技术存在的确定图像的关注重点,挖掘更高层次的语义信息,完善描述单词或句子的细节信息问题。
本领域技术人员可以理解,实现上述实施例中方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种图像语义描述的自适应生成系统,其特征在于,包括图像读取器、编码器、解码器和语义描述显示器;所述图像读取器的输出端口连接所述编码器的输入端口;所述编码器的输出端口连接所述解码器的输入端口;所述解码器的输出端口连接所述语义描述显示器的输入端口;
所述图像读取器,用于获取待语义描述的图像;
所述编码器包括全局特征提取单元、局部特征提取单元以及图像特征组合单元;
所述解码器包括单层或多层神经网络,所述神经网络包括LSTM部分、Attention部分和MLP部分,生成语义描述模型;其中,Attention部分采用自适应注意力机制;
所述解码器根据所述编码器输出的组合信息利用所述语义描述模型生成图像语义描述的词句;
所述语义描述显示器,用于输出显示所述图像语义描述的词句;
所述图像特征组合单元,用于对所述全局特征提取单元提取出的待语义描述图像的全局特征和所述局部特征提取单元提取出的待语义描述图像的局部特征进行组合,得到组合信息;
编码器将语义信息的词矢量wt和图像的视觉信息vt合并得到解码器的输入向量xt=[wt,vt],然后利用单层神经网络转换成组件矢量st;输入向量xt通过LSTM后输出向量ht,自适应注意力机制将组件矢量st与LSTM的输出向量ht融合生成上下文矢量为当前的隐藏状态的视觉残差信息;
所述LSTM根据所述组合信息聚焦图像特征及聚焦文本得到图像的视觉信息vt和语义信息ct;
当前时刻输入图像的视觉信息表示为:
其中,G为全局特征向量,为当前时刻输出的对全局特征的训练权重,/>为t时刻输出的对局部特征的权重分配,且/>Li为局部特征向量元素,且1<=i<=n;
所述语义信息ct由图像的视觉信息vt与解码器中LSTM当前状态下的输出ht通过卷积神经网络表示为:
ct=g(vt;ht)
其中,g(·)表示注意力函数,表示输入图像经由编码器提取视觉信息的Global-local特征;ht为LSTM在当前状态下的隐藏状态输出,有
注意力函数将图像的视觉信息vt与ht进行融合得到空间注意力元素向量,公式如下:
αt=softmax(zt);
其中,kt为元素全部为1的向量,满足/>为当前状态下对于vt的关注度权重分配;
训练权重随t的变化而变化,并动态调整不同位置的权重,根据t时刻输入的训练权重以及t时刻之前相关权重信息,/>动态调整的更新机制表示为:
其中,fi为I的子集向量,有fi∈{G,L1,L2,…,Ln};表示对应的视觉信息的特征向量fi在当前权重下相对于先前已经产生的描述词句的相关分数权重;ht-1为上一时刻LSTM的隐藏状态输出;w、Wh、Wf和b为训练的权重参数;/>为激活函数,采用的是双曲正切函数tanh(·);
生成语义描述模型包括:
所述组件矢量st结合LSTM的输出向量ht生成语义描述模型的求解公式,具体表示为:
其中,θ表示模型参数,I表示输入图像的组合信息,y={y1,…,yt}表示生成的语义表示,其优化的目标函数表示为:
编码器将语义信息的词矢量wt和图像的视觉信息vt合并得到解码器的输入向量xt=[wt,vt],然后利用解码器中LSTM转换成组件矢量st,包括:
自适应注意力机制从解码器存储的视觉信息和语义信息合并后的输入向量中自适应提取新的组件矢量st,并根据该组件矢量判决是否聚焦图像的视觉信息;
所述新的组件矢量st表示为:
gt=σ(Wxxt+Whht-1);
st=gt·tanh(mt);
其中,Wx和Wh表示需要训练的权重参数;xt表示在t时刻LSTM的输入;gt表示LSTM的记忆单元mt的门;·表示点乘;σ表示sigmoid激活函数。
2.根据权利要求1所述的系统,其特征在于,所述全局特征提取单元,用于利用ImageNet训练VGG16的权重参数,并通过CNN VGG16的fc7层输出作为图像的全局特征向量,表示为G的4096维矢量;
所述局部特征提取单元,用于对Faster R-CNN输出窗口选择置信度最高的n个局部特征得到局部特征向量,表示为L={L1,L2,…,Ln},其中n<=10;
LSTM根据所述组合信息聚焦图像特征及聚焦文本,并通过Attention的自适应注意力机制调节待语义描述的图像信息的关注点后,经过MLP对图像信息进行融合,生成语义描述模型。
3.根据权利要求2所述的系统,其特征在于,所述图像特征组合单元将所述全局特征和所述局部特征组合后输出为I={G,L1,L2,…,Ln}的4096维向量集合,该向量集合由n+1个4096维向量构成,其中n<=10。
4.根据权利要求1所述的系统,其特征在于,语义描述模型在t时刻语义描述输出表示为:
其中,f(·)表示yt概率的非线性函数输出,表示输入图像的组合信息I在t时刻Attention自适应输出的视觉残差信息;ht为解码器中LSTM在t时刻的隐含状态;
在t时刻输出语义词句的概率表示为:
其中,Wp为对和ht加权的权重参数。
5.根据权利要求4所述的系统,其特征在于,解码器中自适应注意力机制的Attention生成矢量为当前t时刻隐含状态的视觉残差信息,该残差信息的语义向量/>表示为:
其中,βt取值范围为0~1,为当前时刻的语义门,控制所述语义描述模型对视觉信息与语义信息的关注度分配;取值为0表示只关注视觉信息,取值为1表示只关注语义信息。
6.根据权利要求5所述的系统,其特征在于,变量βt的更新计算包括,将空间注意力元素αt加入新的变量,扩展成变量具体表示为:
其中,Ws和Wg为训练的权重参数,为含有k+1个元素的向量,满足/>且变量βt表示为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910477799.6A CN110210499B (zh) | 2019-06-03 | 2019-06-03 | 一种图像语义描述的自适应生成系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910477799.6A CN110210499B (zh) | 2019-06-03 | 2019-06-03 | 一种图像语义描述的自适应生成系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110210499A CN110210499A (zh) | 2019-09-06 |
CN110210499B true CN110210499B (zh) | 2023-10-13 |
Family
ID=67790383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910477799.6A Active CN110210499B (zh) | 2019-06-03 | 2019-06-03 | 一种图像语义描述的自适应生成系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110210499B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188779A (zh) * | 2019-06-03 | 2019-08-30 | 中国矿业大学 | 一种图像语义描述的生成方法 |
CN110309839B (zh) * | 2019-08-27 | 2019-12-03 | 北京金山数字娱乐科技有限公司 | 一种图像描述的方法及装置 |
CN110717498A (zh) | 2019-09-16 | 2020-01-21 | 腾讯科技(深圳)有限公司 | 图像描述生成方法、装置及电子设备 |
CN110619313B (zh) * | 2019-09-20 | 2023-09-12 | 西安电子科技大学 | 遥感图像判别性描述生成方法 |
CN110825829B (zh) * | 2019-10-16 | 2023-05-26 | 华南理工大学 | 一种基于自然语言和语义地图实现机器人自主导航的方法 |
CN110852331B (zh) * | 2019-10-25 | 2023-09-08 | 中电科大数据研究院有限公司 | 一种结合bert模型的图像描述生成方法 |
CN111259197B (zh) * | 2020-01-13 | 2022-07-29 | 清华大学 | 一种基于预编码语义特征的视频描述生成方法 |
CN111368898B (zh) * | 2020-02-28 | 2022-10-25 | 同济大学 | 一种基于长短时记忆网络变体的图像描述生成方法 |
CN111340907A (zh) * | 2020-03-03 | 2020-06-26 | 曲阜师范大学 | 一种自适应属性和实例掩码嵌入图的文本到图像生成方法 |
CN111444367B (zh) * | 2020-03-24 | 2022-10-14 | 哈尔滨工程大学 | 一种基于全局与局部注意力机制的图像标题生成方法 |
CN111553371B (zh) * | 2020-04-17 | 2023-04-18 | 中国矿业大学 | 一种基于多特征提取的图像语义描述方法及系统 |
CN111783852B (zh) * | 2020-06-16 | 2024-03-12 | 北京工业大学 | 一种基于深度强化学习自适应式生成图像描述的方法 |
CN111898338B (zh) * | 2020-07-15 | 2024-04-30 | 北京字节跳动网络技术有限公司 | 文本生成方法、装置和电子设备 |
CN112069335A (zh) * | 2020-09-03 | 2020-12-11 | Oppo广东移动通信有限公司 | 图像分类方法、装置、电子设备及存储介质 |
CN114549888A (zh) * | 2020-11-11 | 2022-05-27 | 中国科学院沈阳自动化研究所 | 一种基于全局交互的图像语义理解解析方法 |
CN112887765B (zh) * | 2021-01-08 | 2022-07-26 | 武汉兴图新科电子股份有限公司 | 应用于云融合平台的码率自适应调整系统及方法 |
CN113673535B (zh) * | 2021-05-24 | 2023-01-10 | 重庆师范大学 | 一种多模态特征融合网络的图像描述生成方法 |
CN113378919B (zh) * | 2021-06-09 | 2022-06-14 | 重庆师范大学 | 融合视觉常识和增强多层全局特征的图像描述生成方法 |
CN113535999B (zh) * | 2021-07-05 | 2023-05-26 | 北京航空航天大学 | 一种基于深度学习的多样化图像描述语句生成技术 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279495A (zh) * | 2015-10-23 | 2016-01-27 | 天津大学 | 一种基于深度学习和文本总结的视频描述方法 |
CN106778926A (zh) * | 2016-12-23 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于视觉注意模型的图像文字描述方法 |
CN107918782A (zh) * | 2016-12-29 | 2018-04-17 | 中国科学院计算技术研究所 | 一种生成描述图像内容的自然语言的方法与系统 |
CN108829677A (zh) * | 2018-06-05 | 2018-11-16 | 大连理工大学 | 一种基于多模态注意力的图像标题自动生成方法 |
-
2019
- 2019-06-03 CN CN201910477799.6A patent/CN110210499B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279495A (zh) * | 2015-10-23 | 2016-01-27 | 天津大学 | 一种基于深度学习和文本总结的视频描述方法 |
CN106778926A (zh) * | 2016-12-23 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于视觉注意模型的图像文字描述方法 |
CN107918782A (zh) * | 2016-12-29 | 2018-04-17 | 中国科学院计算技术研究所 | 一种生成描述图像内容的自然语言的方法与系统 |
CN108829677A (zh) * | 2018-06-05 | 2018-11-16 | 大连理工大学 | 一种基于多模态注意力的图像标题自动生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110210499A (zh) | 2019-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210499B (zh) | 一种图像语义描述的自适应生成系统 | |
WO2020244287A1 (zh) | 一种图像语义描述的生成方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN107484017B (zh) | 基于注意力模型的有监督视频摘要生成方法 | |
CN110163299B (zh) | 一种基于自底向上注意力机制和记忆网络的视觉问答方法 | |
CN110309839B (zh) | 一种图像描述的方法及装置 | |
CN108830287A (zh) | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 | |
CN106844442A (zh) | 基于fcn特征提取的多模态循环神经网络图像描述方法 | |
CN112331183B (zh) | 基于自回归网络的非平行语料语音转换方法及系统 | |
CN111325323A (zh) | 一种融合全局信息和局部信息的输变电场景描述自动生成方法 | |
CN109543820B (zh) | 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法 | |
CN109543699A (zh) | 一种基于目标检测的图像摘要生成方法 | |
CN110851760B (zh) | 在web3D环境融入视觉问答的人机交互系统 | |
CN108985370B (zh) | 图像标注语句自动生成方法 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN115658954B (zh) | 一种基于提示学习的跨模态检索对抗防御方法 | |
CN115249062B (zh) | 一种文本生成视频的网络模型、方法及装置 | |
CN111816169A (zh) | 中英语种混杂语音识别模型训练方法和装置 | |
CN112464816A (zh) | 基于二次迁移学习的地方手语识别方法、装置 | |
CN110069611A (zh) | 一种主题增强的聊天机器人回复生成方法及装置 | |
CN115631267A (zh) | 生成动画的方法及装置 | |
CN112070040A (zh) | 一种用于视频字幕的文本行检测方法 | |
CN111666752A (zh) | 一种基于关键词注意力机制的电路教材实体关系抽取方法 | |
CN107291837B (zh) | 一种基于领域适应性的网络文本的分词方法 | |
Chen et al. | Movie fill in the blank by joint learning from video and text with adaptive temporal attention |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |