CN110210499B

CN110210499B - 一种图像语义描述的自适应生成系统

Info

Publication number: CN110210499B
Application number: CN201910477799.6A
Authority: CN
Inventors: 赵小虎; 有鹏; 尹良飞; 李祎宸; 刘勇
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2023-10-13
Anticipated expiration: 2039-06-03
Also published as: CN110210499A

Abstract

本发明涉及一种图像语义描述的自适应生成系统，属于图像语义描述技术领域。该系统包括图像读取器、编码器、解码器和语义描述显示器；所述图像读取器，用于获取待语义描述的图像；所述编码器包括全局特征提取单元、局部特征提取单元以及图像特征组合单元；所述解码器包括单层或多层神经网络，所述神经网络包括LSTM部分、Attention部分和MLP部分，生成语义描述模型；其中，Attention部分采用自适应注意力机制；所述解码器根据所述编码器输出的组合信息利用所述语义描述模型生成图像语义描述的词句；所述语义描述显示器，用于输出显示所述图像语义描述的词句。本发明实现了确定图像的关注重点，挖掘更高层次的语义信息，完善描述单词或句子的细节信息问题。

Description

一种图像语义描述的自适应生成系统

技术领域

本发明涉及图像语义描述技术领域，尤其涉及一种图像语义描述的自适应生成系统。

背景技术

随着人工智能的迅猛发展以及深度学习技术的突破，基于深度学习的计算机视觉技术日趋成熟，研究人员尝试让机器理解视觉信息中更为复杂的语义信息，因此在计算机视觉与自然语言处理的交叉领域出现图像语义描述研究方向。图像语义描述技术最早由Farhadi等人提出，其目标是实现视觉空间的图像到语义空间的文本描述的转换，方法实现从图像到文本描述句子的映射，对视觉数据给出语义解释，实现从视觉空间到语义空间的映射。

但是由于图像底层的视觉特征与高层的语义概念存在很大差异，因此目前的图像场景语义描述的生成系统仍然存在较多问题亟待解决，如无法确定图像的关注重点，以挖掘更高层次的语义信息，并完善描述句子的细节信息等问题。

发明内容

鉴于上述的分析，本发明旨在提供一种图像语义描述的自适应生成系统，以解决目前图像语义描述技术存在的确定图像的关注重点，挖掘更高层次的语义信息，完善描述单词或句子的细节信息等问题。

本发明的目的主要是通过以下技术方案实现的：

本发明提供了一种图像语义描述的自适应生成系统，包括图像读取器、编码器、解码器和语义描述显示器；所述图像读取器的输出端口连接所述编码器的输入端口；所述编码器的输出端口连接所述解码器的输入端口；所述解码器的输出端口连接所述语义描述显示器的输入端口；

所述图像读取器，用于获取待语义描述的图像；

所述编码器包括全局特征提取单元、局部特征提取单元以及图像特征组合单元；

所述解码器包括单层或多层神经网络，所述神经网络包括LSTM部分、Attention部分和MLP部分，生成语义描述模型；其中，Attention部分采用自适应注意力机制；

所述解码器根据所述编码器输出的组合信息利用所述语义描述模型生成图像语义描述的词句；

所述语义描述显示器，用于输出显示所述图像语义描述的词句。

进一步地，所述全局特征提取单元，用于利用ImageNet训练VGG16的权重参数，并通过CNN VGG16的fc7层输出作为图像的全局特征向量，表示为G的4096维矢量；

所述局部特征提取单元，用于对Faster R-CNN输出窗口选择置信度最高的n个局部特征得到局部特征向量，表示为L＝{L₁,L₂,…,L_n}，其中n<＝10；

所述图像特征组合单元，用于对所述全局特征提取单元提取出的待语义描述图像的全局特征和所述局部特征提取单元提取出的待语义描述图像的局部特征进行组合，得到组合信息；

LSTM根据所述组合信息聚焦图像特征及聚焦文本，并通过Attention的自适应注意力机制调节待语义描述的图像信息的关注点后，经过MLP对图像信息进行融合，生成语义描述模型。

进一步地，所述图像特征组合单元将所述全局特征和所述局部特征组合后输出为I＝{G,L₁,L₂,…,L_n}的4096维向量集合，该向量集合由n+1个4096维向量构成，其中n<＝10。

进一步地，所述LSTM根据所述组合信息聚焦图像特征及聚焦文本得到图像的视觉信息v_t和语义信息c_t；

当前时刻输入图像的视觉信息表示为：

其中，G为全局特征向量，为当前时刻输出的对全局特征的训练权重，/>为t时刻输出的对局部特征的权重分配，且/>L_i为局部特征向量元素，且1<＝i<＝n。

所述语义信息c_t由图像的视觉信息v_t与解码器中LSTM当前状态下的输出h_t通过卷积神经网络表示为：

c_t＝g(v_t；h_t)

其中，g(·)表示注意力函数，表示输入图像经由编码器提取视觉信息的Global-local特征；h_t为LSTM在当前状态下的隐藏状态输出，有

注意力函数将图像的视觉信息v_t与h_t进行融合得到空间注意力元素向量，公式如下：

α_t＝soft max(z_t)；

其中，k_t为元素全部为1的向量，满足/>为当前状态下对于v_t的关注度权重分配。

进一步地，训练权重随t的变化而变化，并动态调整不同位置的权重，根据t时刻输入的训练权重以及t时刻之前相关权重信息，/>动态调整的更新机制表示为：

其中，f_i为I的子集向量，有f_i∈{G,L₁,L₂,…,L_n}；表示对应的视觉信息的特征向量f_i在当前权重下相对于先前已经产生的描述词句的相关分数权重；h_t-1为上一时刻LSTM的隐藏状态输出；w、W_h、W_f和b为训练的权重参数；/>为激活函数，采用的是双曲正切函数tanh(·)。

进一步地，生成语义描述模型包括：

编码器将语义信息的词矢量w_t和图像的视觉信息v_t合并得到解码器的输入向量x_t＝[w_t,v_t]，然后利用单层神经网络转换成组件矢量s_t；

所述组件矢量s_t结合LSTM的输出向量h_t生成语义描述模型的求解公式，具体表示为：

其中，θ表示模型参数，I表示输入图像的组合信息，y＝{y₁,…,y_t}表示生成的语义表示，其优化的目标函数表示为：

进一步地，语义描述模型在t时刻语义描述输出表示为：

其中，f(·)表示y_t概率的非线性函数输出，表示输入图像的组合信息I在t时刻Attention自适应输出的视觉残差信息；h_t为解码器中LSTM在t时刻的隐含状态；

在t时刻输出语义词句的概率表示为：

其中，W_p为对和h_t加权的权重参数。

进一步地，编码器将语义信息的词矢量w_t和图像的视觉信息v_t合并得到解码器的输入向量x_t＝[w_t,v_t]，然后利用解码器中LSTM转换成组件矢量s_t，包括：

自适应注意力机制从解码器存储的视觉信息和语义信息合并后的输入向量中自适应提取新的组件矢量s_t，并根据该组件矢量判决是否聚焦图像的视觉信息；

所述新的组件矢量s_t表示为：

g_t＝σ(W_xx_t+W_hh_t-1)；

s_t＝g_t·tanh(m_t)；

其中，W_x和W_h表示需要训练的权重参数；x_t表示在t时刻LSTM的输入；g_t表示LSTM的记忆单元m_t的门；·表示点乘；σ表示sigmoid激活函数。

进一步地，解码器中自适应注意力机制的Attention生成矢量为当前t时刻隐含状态的视觉残差信息，该残差信息的语义向量/>表示为：/>

其中，β_t取值范围为0～1，为当前时刻的语义门，控制所述语义描述模型对视觉信息与语义信息的关注度分配；取值为0表示只关注视觉信息，取值为1表示只关注语义信息。

进一步地，变量β_t的更新计算包括，将空间注意力元素α_t加入新的变量，扩展成变量具体表示为：

其中，W_s和W_g为训练的权重参数，为含有k+1个元素的向量，满足/>且变量β_t表示为：

本发明技术方案的有益效果：本发明公开了一种图像语义描述的自适应生成系统，该系统通过加入全局-局部特征使得模型确定不同时刻对图像的关注点，对图像细节的描述更加完善，并在解码时加入注意力机制对图像特征加权输入，使得模型可以自适应地选择当前时刻的文本单词对视觉信息与语义信息的依赖权重，有效地提高对图像语义描述的性能，最后对图像来说，生成更全面、更准确、更细致地对图像内容的语义描述。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例的一种图像语义描述的自适应生成系统框图；

图2为本发明实施例的一种图像语义描述的自适应生成系统结构图；

图3为本发明实施例的全局-局部特征提取流程图；

图4为本发明实施例的局部特征提取示意图；

图5为本发明实施例的自适应注意力机制简易结构图；

图6为本发明实施例的自适应注意力机制具体结构图；

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本发明的一个具体实施例，如图1所示，公开了一种图像语义描述的自适应生成系统，包括图像读取器1、编码器2、解码器3和语义描述显示器4；所述图像读取器1的输出端口连接所述编码器2的输入端口；所述编码器2的输出端口连接所述解码器3的输入端口；所述解码器3的输出端口连接所述语义描述显示器4的输入端口；

所述图像读取器1，用于获取待语义描述的图像；

所述编码器2包括全局特征提取单元21、局部特征提取单元22以及图像特征组合单元23；

所述解码器3包括单层或多层神经网络，所述神经网络包括LSTM部分31、Attention部分32和MLP部分33，生成语义描述模型；其中，Attention部分32采用自适应注意力机制；

所述解码器3根据所述编码器2输出的组合信息利用所述语义描述模型生成图像语义描述的词句；

所述语义描述显示器4，用于输出显示所述图像语义描述的词句。

与现有技术相比，本发明技术方案通过加入全局-局部特征使得图像语义描述的自适应生成系统能够确定不同时刻对图像的关注点，对图像细节的描述更加完善，并在解码器中加入注意力机制对图像特征加权输入，使得系统可以自适应地选择当前时刻的文本单词对视觉信息与语义信息的依赖权重，有效地提高对图像语义描述的性能。

优选地，编码器2和解码器3的功能结构组成具体参照图2所示，编码器采用CNN对全局特征提取，同时采用Faster R-CNN对局部特征提取；解码器由单层或多层神经网络构成，每层神经网络由LSTM部分31、Attention部分32和MLP部分33组成，构建语义描述模型。编码器提取的全局特征和局部特征两者组合后得到图像的视觉信息变量v_t，存储在解码器中，并将其与LSTM的输出h_t通过自适应注意力机制进行融合，生成语义描述模型得到图像语义描述的词句y_t。

本发明的一个具体实施例，如图3所示，所述全局特征提取单元，用于利用ImageNet训练VGG16的权重参数，并通过CNN VGG16的fc7层输出作为图像的全局特征向量，表示为G的4096维矢量；

需要说明的是，VGG16提取全局特征的权重，调用的是提前训练好的模型，本技术方案不涉及VGG16对权重的更新。

结合图4，对Faster R-CNN输出窗口选择置信度最高的n个局部特征，该局部特征向量表示为L＝{L₁,L₂,…,L_n}，其中n<＝10。

需要进一步说明的是，对于局部特征提取流程如图4所示，首先由输入图像或图片得到卷积神经特征图，通过PRN到达推荐窗口，经过滚动池Rol-pooling得到推荐窗口的特征图，再通过R-CNN筛选推荐窗口得到推荐窗口特征向量，即为局部特征向量，筛选原则是选择置信度最高的n个局部特征。

本发明的一个具体实施例，结合图1和图2，所述图像特征组合单元将所述全局特征和所述局部特征组合后输出为I＝{G,L₁,L₂,…,L_n}的4096维向量集合，该向量集合由n+1个4096维向量构成，其中n<＝10。

也即是，全局特征向量G与局部特征向量L＝{L₁,L₂,…,L_n}经过编码器Encoder输出向量集合I＝{G,L₁,L₂,…,L_n}。

本发明的一个具体实施例，所述LSTM根据所述组合信息聚焦图像特征及聚焦文本得到图像的视觉信息v_t和语义信息c_t；

当前时刻输入图像的视觉信息表示为：

c_t＝g(v_t；h_t)

α_t＝softmax(z_t)；

基于当前状态的注意力分布以及图像特征，语义词向量可以表示为：

c_t＝α_tv_t

可以利用上述公式求解下一个单词y_t+1的输出。

本发明的一个具体实施例，训练权重随t的变化而变化，并动态调整不同位置的权重，根据t时刻输入的训练权重以及t时刻之前相关权重信息，/>动态调整的更新机制表示为：

本发明的一个具体实施例，生成语义描述模型包括：编码器将语义信息的词矢量w_t和图像的视觉信息v_t合并得到解码器的输入向量x_t＝[w_t,v_t]，然后利用单层神经网络转换成组件矢量s_t；参见图5所示的自适应注意力机制简易结构图，可知输入向量x_t通过LSTM后输出向量h_t，自适应注意力机制将组件矢量s_t与LSTM的输出向量h_t融合生成上下文矢量为当前的隐藏状态的视觉残差信息，以减少对图像关注点的不确定性。

参见图6所示的自适应注意力机制具体结构图，可知利用单层神经网络转换成组件矢量s_t的过程。

本发明的一个具体实施例，语义描述模型在t时刻语义描述输出表示为：

在t时刻输出语义词句的概率表示为：

其中，W_p为对和h_t加权的权重参数。

本发明的一个具体实施例，编码器将语义信息的词矢量w_t和图像的视觉信息v_t合并得到解码器的输入向量x_t＝[w_t,v_t]，然后利用解码器中LSTM转换成组件矢量s_t，包括：

所述新的组件矢量s_t表示为：

g_t＝σ(W_x x_t+W_hh_t-1)；

s_t＝g_t·tanh(m_t)；

需要说明的是，在处理图像语义描述任务时可知何时聚焦图像特征、何时聚焦文本生成模型，解码器存储的是视觉和语言信息，当语义描述模型不选择视觉信息的特征聚焦时，自适应机制提取一个新的组件s_t，该组件根据记忆单元m_t的门判决是否需要聚焦图像信息。

本发明的一个具体实施例，解码器中自适应注意力机制的Attention生成矢量为当前t时刻隐含状态的视觉残差信息，该残差信息的语义向量/>表示为：/>

本发明的一个具体实施例，变量β_t的更新计算包括，将空间注意力元素α_t加入新的变量，扩展成变量具体表示为：

综上所述，本发明公开了一种图像语义描述的自适应生成系统，包括图像读取器、编码器、解码器和语义描述显示器；所述图像读取器的输出端口连接所述编码器的输入端口；所述编码器的输出端口连接所述解码器的输入端口；所述解码器的输出端口连接所述语义描述显示器的输入端口；所述图像读取器，用于获取待语义描述的图像；所述编码器包括全局特征提取单元、局部特征提取单元以及图像特征组合单元；所述解码器包括单层或多层神经网络，所述神经网络包括LSTM部分、Attention部分和MLP部分，生成语义描述模型；其中，Attention部分采用自适应注意力机制；所述解码器根据所述编码器输出的组合信息利用所述语义描述模型生成图像语义描述的词句；所述语义描述显示器，用于输出显示所述图像语义描述的词句。本发明通过加入全局-局部特征使得图像语义描述的自适应生成系统确定不同时刻对图像的关注点，对图像细节的描述更加完善，并在解码时加入注意力机制对图像特征加权输入，使得语音描述模型可以自适应地选择当前时刻的文本单词对视觉信息与语义信息的依赖权重，有效地提高对图像语义描述的性能，解决了目前图像语义描述技术存在的确定图像的关注重点，挖掘更高层次的语义信息，完善描述单词或句子的细节信息问题。

本领域技术人员可以理解，实现上述实施例中方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种图像语义描述的自适应生成系统，其特征在于，包括图像读取器、编码器、解码器和语义描述显示器；所述图像读取器的输出端口连接所述编码器的输入端口；所述编码器的输出端口连接所述解码器的输入端口；所述解码器的输出端口连接所述语义描述显示器的输入端口；

所述图像读取器，用于获取待语义描述的图像；

所述语义描述显示器，用于输出显示所述图像语义描述的词句；

编码器将语义信息的词矢量w_t和图像的视觉信息v_t合并得到解码器的输入向量x_t＝[w_t,v_t]，然后利用单层神经网络转换成组件矢量s_t；输入向量x_t通过LSTM后输出向量h_t，自适应注意力机制将组件矢量s_t与LSTM的输出向量h_t融合生成上下文矢量为当前的隐藏状态的视觉残差信息；

所述LSTM根据所述组合信息聚焦图像特征及聚焦文本得到图像的视觉信息v_t和语义信息c_t；

当前时刻输入图像的视觉信息表示为：

其中，G为全局特征向量，为当前时刻输出的对全局特征的训练权重，/>为t时刻输出的对局部特征的权重分配，且/>L_i为局部特征向量元素，且1<＝i<＝n；

c_t＝g(v_t；h_t)

α_t＝softmax(z_t)；

其中，k_t为元素全部为1的向量，满足/>为当前状态下对于v_t的关注度权重分配；

训练权重随t的变化而变化，并动态调整不同位置的权重，根据t时刻输入的训练权重以及t时刻之前相关权重信息，/>动态调整的更新机制表示为：

其中，f_i为I的子集向量，有f_i∈{G,L₁,L₂,…,L_n}；表示对应的视觉信息的特征向量f_i在当前权重下相对于先前已经产生的描述词句的相关分数权重；h_t-1为上一时刻LSTM的隐藏状态输出；w、W_h、W_f和b为训练的权重参数；/>为激活函数，采用的是双曲正切函数tanh(·)；

生成语义描述模型包括：

编码器将语义信息的词矢量w_t和图像的视觉信息v_t合并得到解码器的输入向量x_t＝[w_t,v_t]，然后利用解码器中LSTM转换成组件矢量s_t，包括：

所述新的组件矢量s_t表示为：

g_t＝σ(W_xx_t+W_hh_t-1)；

s_t＝g_t·tanh(m_t)；

2.根据权利要求1所述的系统，其特征在于，所述全局特征提取单元，用于利用ImageNet训练VGG16的权重参数，并通过CNN VGG16的fc7层输出作为图像的全局特征向量，表示为G的4096维矢量；

3.根据权利要求2所述的系统，其特征在于，所述图像特征组合单元将所述全局特征和所述局部特征组合后输出为I＝{G,L₁,L₂,…,L_n}的4096维向量集合，该向量集合由n+1个4096维向量构成，其中n<＝10。

4.根据权利要求1所述的系统，其特征在于，语义描述模型在t时刻语义描述输出表示为：

在t时刻输出语义词句的概率表示为：

其中，W_p为对和h_t加权的权重参数。

5.根据权利要求4所述的系统，其特征在于，解码器中自适应注意力机制的Attention生成矢量为当前t时刻隐含状态的视觉残差信息，该残差信息的语义向量/>表示为：

6.根据权利要求5所述的系统，其特征在于，变量β_t的更新计算包括，将空间注意力元素α_t加入新的变量，扩展成变量具体表示为：