CN107563409B

CN107563409B - 一种基于区域图像特征关注网络与最近邻排序的描述方法

Info

Publication number: CN107563409B
Application number: CN201710660329.4A
Authority: CN
Inventors: 陈耀文; 吴捷; 谢斯雅; 史新宝
Original assignee: Shantou University
Current assignee: Shantou University
Priority date: 2017-08-04
Filing date: 2017-08-04
Publication date: 2020-12-29
Anticipated expiration: 2037-08-04
Also published as: CN107563409A

Abstract

本发明实施例公开了一种基于区域图像特征关注网络与最近邻排序的描述方法，结合全局与区域性的图像特征信息，使得图像描述既能输出整体信息，又能突出细节信息；设计了挖掘深度语义信息的双层语义层和一个用来增加循环神经网络的垂直深度的栈式门循环单元，学习更具深度的图像与单词之间的语义映射；采用最近邻算法与语义相似性对生成的候选描述进行重排序，使得最终输出的句子描述更加合理。

Description

一种基于区域图像特征关注网络与最近邻排序的描述方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于区域图像特征关注网络与最近邻排序的图像描述方法。

背景技术

图像描述的难度远远超过了已经在图像理解领域研究多年的目标检测与图像分类。首先，它不仅需要捕捉到图像中的存在的物体，还需要阐述出图像中物体之间的关系，物体的属性以及它们正在参与的活动。难度更大的是，图像描述涉及到视觉模态和语言模态的结合与转换，大量的视觉信息需要被压缩出一句满足句法与语义规则的自然语言描述。这极大地考验了计算机算法融合图像和语言等多模态信息的能力。

目前出现的图像标注的方法已经很多，本文将这些相关的方法大致归结基于管道的方法以及基于端对端的方法。在管道的方法中，图片处理和语言处理是两个分离的结构，其中图片层和语言层的两个模态之间有映射方法，检索方法，模板方法等多种处理方式。而端对端方式是将图片信息和语言信息直接联系起来，达到输入图片，输出描述的端对端处理。实践表明：基于CNN－RNN(卷积神经网络－循环神经网络)编解码框架的端对端处理方法效果最好。然而，这些方法直接从卷积神经网络的全连接层中取出激活向量输入到RNN中，忽略了图像的深层次的区域关注信息。并且这种方法容易产生不合理的描述。

很多学者在CNN－RNN编解码框架的端对端处理方法这个基础上做出探索与改进。Mao等人提出了一种多重循环神经网络(m－RNN)来用于图像描述，网络通过一个由深度单词表示向量，RNN输出激活值和CNN全局图像向量组成的多模态层来生成图像描述。Xu等人在语言模型部分用LSTM(长短期记忆网络)代替了传统的RNN，并且将图像的输入方式由每一个时间点输入改为了只在初始的时候输入一次，减小了噪音干扰，提升了输出效果。以上的方法在图像描述上取得了不错的效果，但是现在的图像描述研究经常忽视了区域的关注图像特征信息。而这些信息对于提高图像描述的输出准确率是有很大帮助的。

发明内容

本发明实施例所要解决的技术问题在于，提供一种一种基于区域图像特征关注网络与最近邻排序的描述方法。可将针对基于区域图像特征关注网络与最近邻排序的图像描述方法以提取图像区域图像关注信息和选择合理的描述。

为了解决上述技术问题，本发明实施例提供了一种基于区域图像特征关注网络与最近邻排序的描述方法，包括以下步骤：

S1：采用Googlenet模型作为CNN初始模型，从全连接层中取出图像的特征参数向量作为图像的全局图像特征向量；

S2：将所述图像输入到VGG net CNN(深度卷积神经网络)模型中，从VGG net第五卷积层的第三层中取出区域性图像卷积化特征关注映射；

S3：将全局图像特征向量和深度语义表示输入到栈式门循环单元中，解码出图像对应的语义信息；

S4：采用注意力机制的策略，根据栈式门循环单元的隐含层输出，对区域性图像卷积化特征关注映射进行权重赋值，形成上下文向量，引导系统对区域性图像信息的关注；

S5：用变式双曲正切函数将栈式门循环单元的隐含层输出与上下文向量通过一个双模态层结合起来，采用集束搜索算法生成候选的图像描述；

S6：在M SCO CO数据集上运用最邻近算法找到最接近的图像及其句子描述，形成参考句子描述，最后计算候选描述与参考描述间的累积语义相似性，选出最终的句子描述。

进一步地，所述步骤S3中，栈式门循环单元的语义信息解码训练函数为：

其中v_I代表全局图像特征，s_1:L代表深度语义表示，i∈[1，L]。

更进一步地，所述步骤S4中，表示区域图像关注信息的上下文向量为z_t，获得上下文向量的过程如下：

S41：通过权重和局部信息进行加权处理，得到上下文向量

其中[a₁，a₂，...，a_L]是从低维卷积层获取到的L维局部图像特征向量，α_ti是根据注意力机制权重计算函数获取得到的权重；

S42：α_ti代表着第ι个时刻第i个区域的关注权重，

其中e_ti为中间权重，α_ti是对中间权重e_ti的softmax归一化处理；

S43：中间权重e_ti的计算公式为e_ti＝tanh(W·a_i+V·h_t-1)，其中W，V为投影矩阵，其映射隐含层的输出和局部图像特征到一个相应的空间来生成中间权重向量e_ti。

更进一步地，所述步骤S5中，双模态层的结合方式为O_bm＝g(V·r_t+W·z_t)，其中

为用来加快训练过程的变式双曲正切函数，r_t为栈式门循环单元的隐含层输出，利用集束搜索算法产生m个候选描述的表达式为：

更进一步地，所述步骤S6中，通过衡量图像的相似性和描述间的相似性来选择最佳的句子描述，选择的过程如下：

S61：首先测量测试图像与数据集图像的相似性，相似性计算函数选择相关性距离：

x₁与x₂是两个n维向量，

与

是其均值，||(*)||₂是二范数表达式；

S62：通过S61得到图像的相似性后，选择距离属于最近邻的90张图片，将图片自带的句子描述挑选出来作为参考描述，挑选函数如下：

其中，I_t代表的是测试的图片，I_n代表的是由数据集中其他的候选图片。

S63：通过测量候选描述与参考描述语义相似性，得到选择出最终的最佳描述，选择函数如下：

其中

用于计算c₁，c₂之间的相关性，H是句子描述候选集合，R是句子参考描述的集合，J是随机提取R中的一个子集，其中数量大小为125，C^*是网络最终选择的句子描述。

实施本发明实施例，具有如下有益效果：本发明的方法采用深度学习的方法，对现有大型卷积神经网络进行调整，输出图像的特征参数矩阵作为图像的全局视觉表示；利用注意力关注机制，在卷积层中提取局部图像特征进行关注，模型挖掘出不同层次图像与描述的对应关系去学习图像与单词的深度映射；将全局，区域视觉图像信息和循环神经网络的解码信息相结合，建立一个双模态的深度神经网络算法模型；利用大规模带描述的M SCOCO数据集进行模型参数训练，通过最优化句子描述的概率密度函数，得到最佳的模型参数；采用最邻近方法对模型生成的图像描述顺序进行了重排，在图像数据集中计算图像间的特征相关性，再根据图像描述间的语义相似性对描述的优先级进行重排序，选择最佳的句子描述。本发明用结合全局与区域性的图像特征信息，使得图像描述既能输出整体信息，又能突出细节信息；设计了挖掘深度语义信息的双层语义层和一个用来增加循环神经网络的垂直深度的栈式门循环单元，学习更具深度的图像与单词之间的语义映射；采用最近邻算法与语义相似性对生成的候选描述进行重排序，使得最终输出的句子描述更加合理。

附图说明

图1是本发明模型的总体流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

本发明实施例的一种基于区域图像特征关注网络与最近邻排序的描述方法，包括以下步骤：

S1：采用Googlenet模型作为CNN(卷积神经网络)初始模型，从全连接层中取出图像的特征参数向量作为图像的全局图像特征向量；

在步骤S3中，栈式门循环单元的语义信息解码训练函数为：

其中v_I代表全局图像特征，s_1:L代表深度语义表示，θ指代的在优化过程中所有可训练参数的集合，公式代表的是得到使得

得到最大值的参数θ^*，

代表的是在视觉信息v_I下，得到描述s_1：L的累计概率。s_1：L代表的是生成的句子，其中i∈[1，L]，代表生成长度为L的句子的某个时刻。

在步骤S4中，表示区域图像关注信息的上下文向量为z_i，获得上下文向量的过程如下：

S41：通过权重和局部信息进行加权处理，得到上下文向量

S42：α_ti代表着第t个时刻第i个区域的关注权重，

其中e_ti为中间权重，α_ti是对中间权重e_ti的softmax(回归模型)归一化处理；

在步骤S5中，双模态层的结合方式为O_bm＝g(V·r_t+W·z_t)，其中

代表是取使得p(S|I_t)最大的m个句子，形成候选的描述集合h。S代表的是生成的句子描述，I_t代表的是测试的图片。

在步骤S6中，通过衡量图像的相似性和描述间的相似性来选择最佳的句子描述，选择的过程如下：

x₁与x₂是两个n维向量，

与

是其均值，||(*)||₂是二范数表达式；

其中，I_t代表的是测试的图片，I_c代表的是由数据集中其他的候选图片。

其中

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于区域图像特征关注网络与最近邻排序的描述方法，其特征在于，包括以下步骤：S1：采用Googlenet模型作为CNN初始模型，从全连接层中取出图像的特征参数向量作为图像的全局图像特征向量；

S2：将所述图像输入到VGGnet CNN模型中，从VGGnet第五卷积层的第三层中取出区域性图像卷积化特征关注映射；

S3：将所述全局图像特征向量和深度语义表示输入到栈式门循环单元中，解码出图像对应的语义信息；

S4：采用注意力机制的策略，根据栈式门循环单元的隐含层输出，对区域性图像卷积化特征关注映射进行权重赋值，形成上下文向量，引导系统对区域性图像信息的关注；表示区域性图像信息的上下文向量为z_t，获得上下文向量的过程如下：

通过权重和局部信息进行加权处理，得到上下文向量

其中[α₁,α₂,…，α_L]是从低维卷积层获取到的α_L维局部图像特征向量，α_ti是根据注意力机制权重计算函数获取得到的权重；

α_ti代表着第t个时刻第i个区域的关注权重，

其中e_ti为中间权重，α_ti是对中间权重e_ti的回归模型归一化处理；

中间权重e_ti的计算公式为e_ti＝tanh(W·a_i+V·h_t-1)，其中W，V为投影矩阵，其映射隐含层的输出和局部图像特征到一个相应的空间来生成中间权重e_ti；

S6：在MSCOCO数据集上运用最邻近算法找到最接近的图像及其句子描述，形成参考句子描述，最后计算所述候选的图像描述与所述参考句子描述间的累积语义相似性，选出最终的句子描述。

2.根据权利要求1所述的基于区域图像特征关注网络与最近邻排序的描述方法，其特征在于，

所述步骤S3中，栈式门循环单元的语义信息解码训练函数为：

其中v_I代表全局图像特征，s_1：L代表深度语义表示，i∈[1，L]，其中，θ指代在优化过程中所有训练参数的集合，L代表句子的长度。

3.根据权利要求2所述的基于区域图像特征关注网络与最近邻排序的描述方法，其特征在于，

所述步骤S5中，双模态层的结合方式为O_bm＝g(V·r_t+W·z_t)，其中

其中，S代表的是生成的句子描述，I_t代表的是测试的图像。

4.根据权利要求3所述的基于区域图像特征关注网络与最近邻排序的描述方法，其特征在于，

所述步骤S6中，通过衡量图像的相似性和描述间的相似性来选择最佳的句子描述，选择的过程如下：

x₁与x₂是两个n维向量，

与

是其均值，||(*)||₂是二范数表达式；

S62：通过S61得到图像的相似性后，选择距离属于最近邻的90张图像，将图像自带的句子描述挑选出来作为参考描述，挑选函数如下：

其中，I_t代表的是测试的图像，I_c代表的是由数据集中其他的候选图像，n是挑选的图像数量；

S63：通过测量所述候选的图像描述与所述参考句子描述语义相似性，得到选择出最终的最佳描述，选择函数如下：

其中Sim(c₁，c₂)，用于计算c₁，c₂之间的相关性，H是句子描述候选集合，R是句子参考描述的集合，J是随机提取R中的一个子集，其中数量大小为125，C^＊是网络最终选择的句子描述，c₁，c₂代表句子描述。