CN109710787A

CN109710787A - 基于深度学习的图像描述方法

Info

Publication number: CN109710787A
Application number: CN201811646150.4A
Authority: CN
Inventors: 郭敏; 张洁庆; 彭亚丽; 肖冰; 裴炤
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2018-12-30
Filing date: 2018-12-30
Publication date: 2019-05-03
Anticipated expiration: 2038-12-30
Also published as: CN109710787B

Abstract

一种基于深度学习的图像描述方法，包括将图像数据集分为训练集和测试集；构建图像描述模型；在ImageNet数据集上训练完成残差网络预训练模型，加载残差网络预训练模型参数至图像描述模型中的可变形卷积残差网络中；将训练集中的图像送入空间变换网络中，空间变换网络的输出结果送到可变形卷积残差网络，可变形卷积残差网络输出图像的特征向量；生成图像对应的文本序列；完成语言模型的构建生成图像对应的语句；使用AdamW优化算法对图像描述模型进行训练；输出图像对应的描述语句；本发明提取的图像特征具有更好的空间表达能力，生成的句子准确度高，语言结构丰富，并且模型训练时间少，收敛速度快。

Description

基于深度学习的图像描述方法

技术领域

本发明属于人工智能深度学习领域，具体是一种基于深度学习的图像描述方法。

背景技术

图像描述是机器将一张图像自动翻译为人类能够理解的句子，它是一个涉及计算机视觉、自然语言处理和机器学习的基本问题。系统不仅要识别图像中的物体，还要识别出物体的属性、位置以及图像中物体之间的关系，然后通过自然语言处理转换为具有一定语法结构的句子。图像描述在帮助有视力障碍的人减轻视觉障碍、婴儿早期教育和图像检索方面有很大的意义。

传统的图像描述是基于模板和基于语义迁移的方法，但传统方法生成的句子结构单一，会出现图像理解偏差的问题，目前主流的图像描述的方法是基于“编码-解码”的方法。Vinyals等人提出NIC模型，通过卷积神经网络(ConvolutionalNeural Network,CNN)提取图像特征，然后送到长短时记忆网络(Long Short-TermMemory,LSTM)中生成图像对应的句子。Xu等人将LSTM与注意机制进行结合，把图像中物体的位置信息与描述的内容进行关联，使得在生成单词序列的时候，更关注图像中显著位置的物体。XuJia等人提出gLSTM(guidingLSTM)模型，在LSTM的基础上加入图像的特征信息或者句子的语义信息，作为LSTM的指导性信息。Qing Sun等人使用双向循环网络模型构建图像描述模型，并且可以通过双向循环网络模型填补句子中缺失的部分。

这些方法所用的网络模型存在模型收敛速度慢，生成的句子准确度低，结构简单等问题。

发明内容

本发明所要解决的主要技术问题在于克服上述描述方法的不足，提供一种收敛速度快、空间表达能力强、生成句子准确度高的基于深度学习的图像描述方法。

解决上述技术问题所采用的技术方案由下述步骤组成：

1.一种基于深度学习的图像描述方法，其特征在于由下述步骤组成：

(1)将图像数据集分为训练集和测试集，训练集由图像和图像对应的标注语句组成，测试集由图像组成；

(2)构建图像描述模型

图像描述模型由空间变换网络、可变形卷积残差网络、双向的自约束门限递归网络串联构成，所述的空间变换网络和可变形卷积残差网络用于提取图像的特征，双向的自约束门限递归网络用于构建语言模型并生成图像对应的语句；

(3)在ImageNet数据集上训练完成残差网络预训练模型，加载残差网络预训练模型参数至可变形卷积残差网络中；

(4)将训练集中的图像送入空间变换网络中，空间变换网络的输出结果送到可变形卷积残差网络，可变形卷积残差网络输出图像的特征向量；

(5)采用one-hot编码方式对训练集中图像对应的描述语句进行编码，生成图像对应的文本序列；

(6)将训练集中图像的特征向量和文本序列传输至双向的自约束门限递归网络中，完成语言模型的构建生成图像对应的语句；

(7)使用AdamW优化算法对图像描述模型进行训练；

(8)将测试集中的一幅图像输入到训练完成的图像描述模型中，输出图像对应的描述语句。

作为一种优选的技术方案，所述的步骤(2)中可变形卷积残差网络结构为残差网络的第五卷积组中所有卷积采样点均加一个偏移向量。

作为一种优选的技术方案，所述的步骤(2)中自约束门限递归网络由门限递归网络的输入和输出分别添加LReLU激活函数构成，所述的自约束门限递归网络的公式如下：

r＝σ(W_rx_t+U_rφ_LReLU(h_t-1)) (1)

z＝σ(W_zx_t+U_zφ_LReLU(h_t-1)) (2)

Output_t＝φ_LReLU(h_t) (5)

式中r为重置门,W_r和U_r为重置门权重矩阵，x_t为当前时刻网络的输入，σ为sigmoid激活函数，φ_LReLU为LReLU激活函数，z为更新门,W_z和U_z为更新门权重矩阵，h_t-1为前一时刻的输出状态，为当前时刻的隐藏状态信息，W_h和U_h为隐藏状态权重矩阵，h_t为当前时刻的状态信息,表示向量对应元素相乘的运算，Output_t为t时刻网络的输出。

本发明的有益效果：

本发明采用深度学习方法对图像进行描述，将图像输入到空间变换网络中，增加了模型的空间鲁棒性；采用可变形卷积残差网络，使卷积核形状可以发生变化，以适应不同的输入特征图，丰富了残差网络的空间表达能力；采用自约束门限递归网络，构建双向的自约束门限递归网络模型，有助于解决多层循环网络结构模型带来的梯度爆炸和梯度消失问题，提高模型构建语言结构的能力；使用AdamW优化算法对模型进行训练，可加快模型的训练速度，减少模型的训练时间。本发明提取的图像特征具有更好的空间表达能力，生成的句子准确度高，语言结构丰富，并且模型训练时间少，收敛速度快。

附图说明

图1是本发明基于深度学习的图像描述方法的流程图。

图2是实施例1中输入的测试图像及输出测试图像对应的描述语句。

具体实施方式

下面结合附图和实施例对本发明进一步详细说明，但本发明不限于这些实施例。

实施例1

本实施例采用的图像数据集为MSCOCO数据集，MSCOCO数据集由图像和图像对应的人工标注的句子组成。

在图1中，本实施例的基于深度学习的图像描述方法，由下述步骤组成：

(1)从MSCOCO数据集中选取82783张图像及图像对应的人工标注的句子作为训练集，选取4000张图像作为测试集；

(2)构建图像描述模型

图像描述模型由空间变换网络、可变形卷积残差网络、双向的自约束门限递归网络串联构成，所述的空间变换网络和可变形卷积残差网络用于提取图像的特征，双向的自约束门限递归网络用于构建语言模型生成图像对应的语句；

本实施例的可变形卷积残差网络结构为残差网络的第五卷积组中所有卷积采样点均加一个偏移向量；

本实施例的自约束门限递归网络由门限递归网络的输入和输出分别添加LReLU激活函数构成，自约束门限递归网络模型的公式如下：

r＝σ(W_rx_t+U_rφ_LReLU(h_t-1)) (1)

z＝σ(W_zx_t+U_zφ_LReLU(h_t-1)) (2)

Output_t＝φ_LReLU(h_t) (5)

(5)采用one-hot编码方式对训练集中的图像对应的描述语句进行编码，生成图像对应的文本序列；

(7)使用AdamW优化算法对图像描述模型进行训练；

AdamW优化算法的公式如式(6)到式(10)所示：

m_t＝β₁m_t-1+(1-β₁)g_t (6)

其中t为时间步，g_t为梯度，m_t为t时刻梯度的一阶矩，v_t为t时刻梯度的二阶矩，m_t-1为t-1时刻梯度的一阶矩，v_t-1为t-1时刻梯度的二阶矩，β₁为一阶矩的衰减因子，β₂为二阶矩的衰减因子；

当m_t、v_t的值趋近于0向量时，对一阶矩和二阶矩的偏差进行修正：

式中β₁ ^t、β₂ ^t分别为β₁、β₂的转置，分别为m_t、v_t的修正项；

AdamW参数更新的公式为：

其中θ为模型中的参数，η为学习率，α的值为0.001，ξ的值为10^-8，ω为实数；

(8)将测试集中的一幅图像输入到训练完成的图像描述模型中，输出图像对应的描述语句，如图2。

Claims

(2)构建图像描述模型

(7)使用AdamW优化算法对图像描述模型进行训练；

2.根据权利要求1所述的基于深度学习的图像描述方法，其特征在于：所述的步骤(2)中可变形卷积残差网络结构为残差网络的第五卷积组中所有卷积采样点均加一个偏移向量。

3.根据权利要求1所述基于深度学习的图像描述方法，其特征在于:所述的步骤(2)中自约束门限递归网络由门限递归网络的输入和输出分别添加LReLU激活函数构成，所述的自约束门限递归网络的公式如下：

r＝σ(W_rx_t+U_rφ_LReLU(h_t-1)) (1)

z＝σ(W_zx_t+U_zφ_LReLU(h_t-1)) (2)

Output_t＝φ_LReLU(h_t) (5)