CN111737511A

CN111737511A - 基于自适应局部概念嵌入的图像描述方法

Info

Publication number: CN111737511A
Application number: CN202010554218.7A
Authority: CN
Inventors: 王溢; 王振宁; 许金泉; 曾尔曼
Original assignee: Nanqiang Zhishi Xiamen Technology Co ltd
Current assignee: Nanqiang Zhishi Xiamen Technology Co ltd
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-10-02
Anticipated expiration: 2040-06-17
Also published as: CN111737511B

Abstract

本发明公开一种基于自适应局部概念嵌入的图像描述方法，属于人工智能技术领域，包括如下步骤：步骤1，采用目标检测器提取待描述图像的若干个候选区及各候选区对应的特征；步骤2，将步骤1提取的特征输入训练好的神经网络，从而输出待描述图像的描述结果。此种方法针对传统基于注意力机制的图像描述方法没有显性建模局部区域与概念的关系的缺点，提出通过上下文机制，自适应生成视觉区域并由此生成视觉概念的方案，强化视觉到语言的连接，从而提高生成描述的准确性。

Description

基于自适应局部概念嵌入的图像描述方法

技术领域

本发明涉及人工智能领域中的图像自动描述，特别涉及一种基于图片用自然语言对图像客观内容进行描述的基于自适应局部概念嵌入的图像描述模型的研究方法。

背景技术

图像自动描述(Image Captioning)是近年来人工智能界提出的一个机器终极智能任务，它的任务是将于一张给定图像，用自然语言对图像客观内容进行描述。随着计算机视觉技术的发展，完成目标检测、识别、分割等任务已经不能满足人们的生产需求，对如何自动客观的对图像内容自动描述有迫切的需求。和目标检测及语义分割等任务不同，图像自动描述要将图像中的物体、属性、物体间的关系以及相应的场景等用自动语言进行整体而客观的描述，该任务是计算机视觉理解的重要方向之一，被视为人工智能的一个重要标志。

早先的图像自动描述主要采用基于模板的方法和基于检索的方法实现，直到近来受自然语言技术的启发，开始使用编码器-解码器框架，注意力机制以及以强化学习为基础的目标函数，该任务取得了极大的进展。

Xu等人[1]首次在图片描述任务中引入了注意力机制，用来将重要的视觉属性和场景嵌入到描述生成器中。继此之后，很多工作都对注意力机制提出了改进。例如，Chen[2]等人提出了空间和通道注意力机制，用以选择显著的区域以及显著的语义模式；Lu等人[3]提出了视觉哨兵的概念，用以决定下一步关注视觉信息还是文本信息，大大提高了模型的精确度；Anderson等人[4]先通过预训练好的目标检测器获取区域然后将此加入到模型用以生成图像字幕。但是这些方法都仅仅关注特定任务的上下文及视觉特征，并没有考虑到显性的建模视觉特征和概念之间的关系。

涉及的参考文献如下：

[1].Xu，K.；Ba，J.；Kiros，R.；Cho，K.；Courville，A.；Salakhudinov，R.；Zemel，R.；and Bengio，Y.2015.Show，attend and tell：Neural image caption generationwith visual attention.In ICML.

[2].Chen，L.；Zhang，H.；Xiao，J.；Nie，L.；Shao，J.；Liu，W.；and Chua，T.-S.2017b.Sca-cnn：Spatial and channel-wise attention in convolutional networksfor image captioning.In CVPR.

[3].Lu，J.；Xiong，C.；Parikh，D.；and Socher，R.2017.Knowing when to look：Adaptive attention via a visual sentinel for image captioning.In CVPR.

[4].Anderson，P.；He，X.；Buehler，C.；Teney，D.；Johnson，M.；Gould，S.；andZhang，L.2018.Bottom-up and top-down attention for image captioning and visualquestion answering.In CVPR.

发明内容

本发明的目的，在于提供一种基于自适应局部概念嵌入的图像描述方法，针对传统基于注意力机制的图像描述方法没有显性建模局部区域与概念的关系的缺点，提出通过上下文机制，自适应生成视觉区域并由此生成视觉概念的方案，强化视觉到语言的连接以及准确性。

为了达成上述目的，本发明的解决方案是：

一种基于自适应局部概念嵌入的图像描述方法，包括如下步骤：

步骤1，采用目标检测器提取待描述图像的若干个候选区及各候选区对应的特征；

步骤2，将步骤1提取的特征输入训练好的神经网络，从而输出待描述图像的描述结果；其中，神经网络的全局损失函数通过如下方法获得；

步骤A1，对训练集中的文本内容进行预处理，得到句子序列；对训练集中的图像，采用目标检测器提取若干个候选区，并提取各个候选区所对应的特征V＝{v₁，v₂...，v_k}，其中v_i∈R^d，i＝1，2，...，k，d为各个特征向量的维度；

步骤A2，将特征V送入自适应引导信号生成层，生成自适应引导信号；

步骤A3，采用注意力机制，利用自适应引导信号获取局部视觉特征，并由此得到局部概念；

步骤A4，通过向量裂解的方法将局部概念嵌入到生成模型中，获取当前输出词；

步骤A5，迭代生成整个句子，并定义生成句子的损失函数。

上述步骤1中，目标检测器的训练方法是：目标检测器采用Faster R-CNN框架，其骨架网络是深度卷积残差网络，首先采用端到端的方法在经典目标检测数据集PASCALVOC2007中进行训练，然后在多模态数据集Visual Genome上进一步训练微调网络参数。

上述步骤A1中，对训练集中的文本内容进行预处理，得到句子序列的具体过程是：首先对训练集中的文本内容进行去停用词处理，并将所有英文词汇进行小写化；然后对文本内容按空格进行分词，对于得到的若干单词，剔除数据集描述中出现次数小于阈值的单词，使用“<UNK>”进行替代；最后，句子的开头和结尾分别加入开始符“<BOS>”和结束符“<END>”。

上述步骤A2中，基于特征V生成自适应引导信号的相关公式如下：

其中，t为句子序列的第t个词，

为该自适应引导信号生成层的输入，且W_e为词向量矩阵，

是该层输出的引导信号，x_t表示t时刻输入的词所对应的索引。

上述步骤A3的具体过程是：

首先根据如下公式：

其中，

W_v1∈R^k×d、W_h1∈R^k×d是需要学习的参数，I∈R^k为所有元素都是1的向量，Softmax函数为归一化指数函数；由此得到各个候选区的重要程度

用来获得当前模型关注到的局部视觉特征：

其中，

即得到的视觉概念，W_vc为实现预训练好的概念检测层，

即为模型关注到的视觉概念，σ为激活函数；

利用

修正自适应引导信号，如下：

其中[；]表示向量拼接，W_h为需要训练的参数矩阵；

然后进行如下迭代，直至得到最终的局部概念，过程如下：

其中，

W_v2∈R^k×d、W_h2∈R^k×d是需要学习的参数，I∈R^k为所有元素都是1的向量，Softmax函数为归一化指数函数。

上述步骤A4的具体过程是：

首先进行如下向量裂解：

其中，diag(.)表示向量对角化，x_t表示t时刻输入的词所对应的索引，

和

是将局部概念进行裂解操作，此后将信息嵌入到输入词与隐含状态中；

以下为了嵌入局部概念的信息定义模块输入：

其中[.；.；.；.]表示向量拼接操作；

然后，将嵌入信息的输入通过映射，得到

i_t＝σ(W_iE_i)，f_t＝σ(W_fE_f)

o_t＝σ(W_oE_o)，c_t＝σ(W_cE_c)

其中，W_i、E_i、W_f、E_f、W_o、E_o、W_c、E_c都是需要训练的参数矩阵；

最后，获得下一个词的概率分布：

其中W_y为待训练的参数矩阵，将隐含状态映射到词汇表。

上述步骤A5的具体过程是：

对于预测的句子Y＝y_1∶T而言，生成整个句子的概率由每个词的概率累乘得到，即：

其中T为句子长度；

通过监督学习和强化学习两个阶段对模型进行训练；在监督学习阶段，采用交叉熵，对于给定的目标句子

而言，其损失函数定义为：

在强化学习阶段，采用强化学习进行训练，其损失函数定义为：

其中

表示通过贪婪法抽样出的句子，而

表示通过蒙特卡洛方法抽样出的句子。

采用上述方案后，本发明具有以下突出优点：

(1)本发明显式建模了局部视觉区域到语义概念的关系，从而提供视觉到语言的准确连接，大大减少了图像描述任务间存在的语义鸿沟问题，极大提升了生成句子的准确性和全面性；

(2)本发明具有很强的迁移性，能够适用于任何一个基于注意力机制的图像描述模型，改进模型的性能；

(3)本发明改进的图像描述的完整性和准确性，其主要应用场景在于理解给定图片视觉概念，为其自动生成描述，在图像检索，盲人导航，医疗报告自动生成和早教领域存在大量的应用前景。

附图说明

图1是本发明基于自适应局部概念嵌入的图像自动描述方法的流程图；

其中，RAM为局部概念抽取模块，LCFM为局部概念裂解嵌入模块，Attention为注意力模块；

图2是不同的图像描述模型生成的句子对比图；

其中，UP-DOWN是一种名为自顶向下的基线方法的名称；

图3是局部概念嵌入时所使用的映射矩阵以列为单位求相似度并可视化的结果；

图4是本发明所采用的框架自适应选择的区域可视化及相应可视化出的区域映射出的语义概念；

图5是某一语义概念与视觉区域的对应关系可视化。

具体实施方式

以下将结合附图，对本发明的技术方案及有益效果进行详细说明。

本发明的目的是针对传统基于注意力机制的图像描述方法没有显性建模局部区域与概念的关系的缺点，提出通过上下文机制，自适应生成视觉区域并由此生成视觉概念的方案，强化视觉到语言的连接以及准确性，提供一种基于自适应局部概念嵌入的图像描述方法。具体的算法流程如图1所示。

本发明包括以下步骤：

1)对于图像库中的图像，首先使用卷积神经网络抽取相应的图像特征；

2)采用循环神经网络，将当前输入词和以及全局图像特征映射到隐含层输出，并以此作为引导信号；

3)采用注意力机制，使用上述的引导信号获得每个局部图像特征的权重，自适应获取局部视觉特征，并通过与训练好的概念提取器提取局部概念；

4)建立局部概念裂解模块，将局部概念嵌入到生成模型中，获取当前输出词；

5)迭代生成整个句子，并定义生成句子的损失函数。

具体的每个模块如下：

1、深度卷积特征抽取与描述数据预处理

对所有训练数据中的文本内容进行去停用词处理，并将所有英文词汇进行小写化；然后对文本内容按空格进行分词，得到9487个单词，对数据集描述中出现次数小于五的单词进行了剔除，使用“<UNK>”进行替代，同时加入了开始符“<BOS>”和结束符“<END>”分别在描述句子的开头和结尾。

先使用预训练好的目标检测器提取36个固定的候选区，并使用残差深度卷积网络提出各个候选区相对应的特征V＝{v₁，v₂...，v_k}，其中v_i∈R^d，i＝1，2，...，k，d为各个特征向量的维度，k为36，d为2048。

2、自适应引导信号生成层

首先第一层是卷积循环网络，目的是生成自适应引导信号，从而为后文提取局部视觉特征提供引导，该层输入及过程定义如下：

其中，t为句子序列的第t个词，

为该自适应引导信号生成层的输入，且W_e为词向量矩阵，

3、局部概念抽取

如图1所示，接下来是局部概念抽取层，本发明首先利用

作为引导，获取局部的视觉信息，并由此得到适应性局部概念，该过程推导如下：

其中，

W_v1∈R^k×d、W_h1∈R^k×d是需要学习的参数，I∈R^k为所有元素都是1的向量，Softmax函数为归一化指数函数。由此，便可以得到各个候选区的重要程度

用来获得当前模型关注到的局部视觉特征：

其中，

即得到的视觉概念，W_vc为实现预训练好的概念检测层，

即为模型关注到的视觉概念，σ为激活函数。得到的

可以很好地体现注意力机制的好坏，因此接下来使用该信息修正引导信号，来改进注意力层次，修正如下：

其中[；]表示向量拼接，W_h为需要训练的参数矩阵，此后过程同第一个过程，由此便可以得到最终的局部概念，过程如下：

其中，

4、局部概念裂解嵌入模块

通过上述过程得到了局部概念，接下来，通过向量裂解的方法将局部概念嵌入到模型中，从而有效地利用该信息生成图像描述，向量裂解过程如下：

其中diag(.)表示向量对角化，x_t表示t时刻输入的词所对应的索引，

和

是将局部概念进行裂解操作，此后将信息嵌入到输入词与隐含状态中。接下来就嵌入了局部概念的信息定义模块输入：

其中[.；.；.；.]表示的是向量拼接操作。接下来，将嵌入信息的输入通过映射，得到

i_t＝σ(W_iE_i)，f_t＝σ(W_fE_f)

其中，W_i、E_i、W_f、E_f、W_o、E_o、W_c、E_c都是需要训练的参数矩阵，最后我们通过该信息获得下一个词的概率分布：

其中W_y为待训练的参数矩阵，将隐含状态映射到词汇表。

5、全局损失函数构建

对于预测的句子Y＝y_1∶T而言，生成整个句子的概率可以由每个词的概率累乘得到，即：

其中T为句子长度。本发明分两个阶段对模型进行训练，包括监督学习和强化学习。前者采用交叉熵，对于给定的目标句子

而言，其损失函数定义为：

后者采用强化学习进行训练，其损失函数定义为：

其中

表示通过贪婪法抽样出的句子，而

表示通过蒙特卡洛方法抽样出的句子。

具体实验结果如下：

为了验证提出的模型的可行性和先进性，我们在通用数据集MSCOCO进行模型的评估。其中和最新图像自动描述方法的量化比较如表1所示，我们可以看到在多种评估指标上所提出的模型性能都具有很高的优势。另外，我们通过可视化输入图像所生成的文本描述，示例给出的描述为英文，中文描述自动生成过程同理(如图2所示)，可以看到由于我们的模型对局部视觉信息显示建模以后，其在图像描述上取得了很明显的改进。图3对W_*a ^TW_*a的部分可视化，该结果表明本发明方法很好地将局部概念嵌入到模型中。图4展示的是生成每个词时两个模块层关注到的视觉区域及该视觉区域生成的视觉概念，可以看出经过修正可以得到更为准确的视觉概念。图5将生成特定概念以后模型关注度最大的区域标注出来，该结果表明本发明的方法能够帮助克服语义鸿沟问题。图2至图4中描述和概念都以英文为例，但是该发明可以直接拓展到中文描述，机理相同。

表1本发明方法与当前最先进方法的比较

Model	B-1	B-4	M	R	C	S
							LSM-A	78.6	35.5	27.3	56.8	118.3	20.8
GCN-LSTM	80.5	38.2	28.5	58.5	128.3	22.0
							Stack-Cap	78.6	36.1	27.4	56.9	120.4	20.9
SGAE	80.8	38.4	28.4	58.6	127.8	22.1
							Up-Down	79.8	36.3	27.7	56.9	120.1	21.4
本发明方法	80.6	39.0	28.6	58.8	128.3	22.3

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于自适应局部概念嵌入的图像描述方法，其特征在于包括如下步骤：

步骤A1，对训练集中的文本内容进行预处理，得到句子序列；对训练集中的图像，采用目标检测器提取若干个候选区，并提取各个候选区所对应的特征V＝{v₁,v₂…,v_k}，其中v_i∈R^d，i＝1,2,…,k，d为各个特征向量的维度；

步骤A5，迭代生成整个句子，并定义生成句子的损失函数。

2.如权利要求1所述的基于自适应局部概念嵌入的图像描述方法，其特征在于：所述步骤1中，目标检测器的训练方法是：目标检测器采用Faster R-CNN框架，其骨架网络是深度卷积残差网络，首先采用端到端的方法在经典目标检测数据集PASCAL VOC2007中进行训练，然后在多模态数据集Visual Genome上进一步训练微调网络参数。

3.如权利要求1所述的基于自适应局部概念嵌入的图像描述方法，其特征在于：所述步骤A1中，对训练集中的文本内容进行预处理，得到句子序列的具体过程是：首先对训练集中的文本内容进行去停用词处理，并将所有英文词汇进行小写化；然后对文本内容按空格进行分词，对于得到的若干单词，剔除数据集描述中出现次数小于阈值的单词，使用“<UNK>”进行替代；最后，句子的开头和结尾分别加入开始符“<BOS>”和结束符“<END>”。

4.如权利要求1所述的基于自适应局部概念嵌入的图像描述方法，其特征在于：所述步骤A2中，基于特征V生成自适应引导信号的相关公式如下：