CN111062451B

CN111062451B - 一种基于文本引导图模型的图像描述生成方法

Info

Publication number: CN111062451B
Application number: CN201911402003.7A
Authority: CN
Inventors: 胡珍珍; 王德鹏; 刘祥龙; 洪日昌; 汪萌
Original assignee: Beihang University; Hefei University of Technology
Current assignee: Beihang University; Hefei University of Technology
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2023-03-31
Anticipated expiration: 2039-12-30
Also published as: CN111062451A

Abstract

本发明公开了一种基于文本引导图模型的图像描述生成方法，属于图像描述生成技术领域，包括以下步骤：S10、建立引导文本候选集；S20、引导文本提取；S30、视觉特征提取：基于卷积神经网络的Faster R‑CNN模型对给定图片产生L个目标检测区域；S40、建立图模型：用LSTM模型将引导文本转换为文本特征向量；将文本特征向量和图像视觉特征用非线性函数F融合生成图像区域表征，构建图模型；S50、基于图卷积网络和LSTM解码器将所述图模型转换为描述字幕。本发明引入了图像相关的文本，扩展了输入信息的多样性，不仅关注了图像中的物体，也注重了与图像相关的文本所构建的物体之间的关系，从生成的结果上可以直观的看出图模型生成的句子中物体之间的关系也更加丰富和准确。

Description

一种基于文本引导图模型的图像描述生成方法

技术领域

本发明涉及图像描述生成技术领域，尤其涉及一种基于文本引导图模型的图像描述生成方法。

背景技术

图像描述生成技术是根据给定图像自动生成描述图像内容的语句，它是横跨计算机视觉与自然语言处理之间的一门新兴研究方向，需要对视觉内容包括各种实体及其相互关系进行全面的理解。现在图像描述生成的主流方法是利用一个端到端的模型，将图片特征通过编解码方式翻译成文字。但这些方法只关注了个体的视觉要素，而忽略语义实体之间的关系。现有的基于视觉关系的图像描述生成方法通常依赖于要大量的人工来标注图像目标之间的关系结构。

因此，急需一种能够自动标注图像目标之间关系结构、关注语义实体之间关系的图像描述生成方法。

发明内容

本发明目的在于提供一种能够自动标注图像目标之间关系结构、关注语义实体之间关系的图像描述生成方法，发明的内容如下：

一种基于文本引导图模型的图像描述生成方法，包括以下步骤：

S10、建立训练集：从数据集中检索出视觉相似图片，每张图片标注有描述语句，将描述语句集合起来打分排序，从排序前三句中随机挑选一句作为引导文本，组建引导文本训练集；

打分排序方法为：根据给定的图片对象特征将包含视觉特征相似图像收集到一个集合，然后通过额外考虑图片的整体风格进一步筛选出m张相似图片；由筛选出的m张相似图片的相关描述语句{C_i}，i＝1，2，...，N，并根据图片的每一句描述得分排序，根据每句描述得分，从文本训练集中选择前n个描述文本作为引导文本的候选描述，并从候选描述中随机选取一个描述作为引导文本，所述描述得分的计算方式如下：

其中，Sim(C_i，C_j)为两个句子C_i和C_j通过TF-IDF算法得到的相似度；

S20、引导文本提取：对于给定的图片，根据图片的对象特征，基于引导文本训练集，提取引导文本；

S30、视觉特征提取：基于卷积神经网络的FasterR-CNN模型对给定图片产生L个目标检测区域，L是指目标检测区域的数量；将每个目标检测区域看作是一个节点构建关系图G＝{V，E，A}，其中，V表示检测到物体节点的集合，所述物体节点由图片特征向量和边界框组成；E代表学习到的图节点之间的连线集合；A是图的邻接矩阵；

S40、建立图模型：用LSTM模型将引导文本转换为文本特征向量；将所述文本特征向量和图像视觉特征用非线性函数融合生成图像区域表征，构建图模型；

S50、基于图卷积网络和LSTM解码器将所述图模型转换为描述语句字幕。

进一步地，所述图模型去学习一个有关于特定文本的邻接矩阵A，其中边A(i,j)代表了节点i和j之间的关系强度。

进一步地，将所述引导文本的特征向量g串联在每一个物体检测节点特征v后面，记作[v|g]，然后获得一个融合后的特征e：e_l＝F([v|g])，l＝1,2，...，L，所述非线性函数F([v|g])为用于融合物体节点的特征向量和引导文本的特征向量的非线性函数。

进一步地，所述融合后的特征e_l为一个矩阵E_LXel,得到关于特定文本的邻接矩阵A:A＝EE^T，节点i和j之间的关系强度A(i,j)被定义为A_i,j＝e_i ^Te_j。

进一步地，选用排序函数

去选择图节点的最相关的邻域节点，其中，a_i表示邻接矩阵中的第i列，topk函数用于输出a_i中的最大的前k个值的序列。

进一步地，所述图卷积网络使用相对坐标o(i，j)来捕捉空间关系，在使用R个高斯核滤波方法的基础上，额外考虑图节点之间边的权重问题，将在第i个节点上的第r个高斯核的块操作定义为：

其中，N(i)表示节点i的邻域节点集合，ω_r表示第r个核的权重，v_i表示邻域节点中的任意节点,使用softmax函数α_ij＝softmax(a_i)_j对连接矩阵A中节点i对应行第j个元素的归一化；节点i关于N个滤波器的输出并从h_i中选出最大的输出作为最终的上下文特征表达：

其中G_r是高斯核的权重矩阵。

进一步地，每一张输入图片的表达被表示成一个三元组形式：输入图像I，引导文本g和由T个词组成的图像描述(w₁，w₂，...，w_T)，在描述的开始和结尾加入w₀(<BOS>)和w_T+1(<EOS>)，解码公式如下：

x₁＝W_zz

x_t＝W_ew_t

h_t＝LSTM(x_t，h_t-1)

p_t+1＝softmax(W_th_t)

其中，W_z，W_e，W_h分别三个学习矩阵，在t时刻输入的单词通过词嵌入技术转化成W_t，h_t基于LSTM模型根据h_t-1和x_t计算得到，然后被送入softmax产生所有词的概率分布，图模型输出t+1时刻的预测词。

进一步地，所述图模型的LSTM解码器损失函数设置为：

/>

本发明的有益效果：

(1)本发明额外引入了图像相关的文本，扩展了输入信息的多样性。

(2)本发明不仅只关注了图像中的物体，也注重了与图像相关的文本所构建的物体之间的关系，从生成的结果上可以直观的看出图模型生成的句子中物体之间的关系也更加丰富和准确。

(3)本发明实现了自动标注图像目标之间关系结构的图像描述生成方法。

附图说明

图1为一种基于文本引导图模型的图像描述生成方法流程图

图2为目标图像一

图3为图2目标图像一的相似图像集合

图4为图2目标图像一引导文本候选集TOP3

图5为目标图像二

图6为图5目标图像二的生成文本和标注文本

图7为目标图像三

图8为图7目标图像三的生成文本和标注文本

具体实施方式

本发明实施过程为：

S10、建立引导文本候选集：从数据集中检索出相似图片，每张图片标注有描述语句，将描述语句集合起来打分排序，从排序前三句中随机挑选一句作为引导文本，组建引导文本候选集；

本实施例中，数据集是微软的MSCOCO数据集，MSCOCO数据集中里面每张图片标注了5句描述语句。通过视觉相似性检索出相似图片，然后将这些图片所对应的语句提取出来，检索出10张图片，得到50个描述语句。

在引导文本提取模块，设置了m＝10、n＝3，并且使用隐藏层数为512的LSTM去编码指导文本。

S30、视觉特征提取：基于卷积神经网络的FasterR-CNN模型对给定图片产生L个目标检测区域。L是指目标检测区域的数量；将每个目标检测区域看作是一个节点构建关系图G＝{V，E，A}，其中，V表示检测到物体节点的集合，物体节点由图片特征向量和边界框组成，E代表学习到的图节点之间的连线集合，A是图的邻接矩阵；

图模型去学习一个有关于特定文本的邻接矩阵A，其中边A(i,j)代表了节点i和j之间的关系强度。

本实施例中，通过利用基于卷积神经网络的目标检测模型Faster-RCNN来提取图片的区域。给定一张图片，将图片中检测区域设置数量L为36和视觉特征维度为2052(其中2048维属性特征，4维空间信息)。

S40、建立图模型：用LSTM模型将引导文本转换为文本特征向量；将文本特征向量和图像视觉特征用非线性函数F融合生成图像区域表征，构建图模型；

将引导文本的特征向量g串联在每一个物体检测节点特征v后面，记作[v|g]，然后获得一个融合后的特征e：e_l＝F([v|g])，l＝1,2，...，L，所述非线性函数F([v|g])为用于融合物体节点的特征向量和引导文本的特征向量的非线性函数。

融合后的特征e_l为一个矩阵E_LXel,得到关于特定文本的邻接矩阵:A＝EE^T，节点i和j之间的关系强度A(i,j)被定义为A_i,j＝e_i ^Te_j。

选用排序函数

S50、基于图卷积网络和LSTM解码器将所述图模型转换为描述字幕。

其中，图卷积网络使用相对坐标o(i，j)来捕捉空间关系，在使用R个高斯核滤波方法的基础上，额外考虑图节点之间边的权重问题，将在第i个节点上的第r个高斯核的块操作定义为：

其中，N(i)表示节点i的邻域节点集合，ω_r表示第r个核的权重，v_i表示邻域节点中的任意节点，使用softmax函数

α_ij＝softmax(a_i)_j对连接矩阵A中节点i对应行第j个元素的归一化；节点i关于N个滤波器的输出并从h_i中选出最大的输出作为最终的上下文特征表达：

其中G_r是高斯核的权重矩阵。

每一张输入图片的表达被表示成一个三元组形式：输入图像I，引导文本g和由T个词组成的图像描述(w₁，w₂，...，w_T)，在描述的开始和结尾加入w₀(<BOS>)和w_T+1(<EOS>)，解码公式如下：

x₁＝W_zz

x_t＝W_ew_t

h_t＝LSTM(x_t，h_t-1)

p_t+1＝softmax(W_th_t)

图模型的LSTM解码器损失函数设置为：

本实施例中，在构建图卷积模型模块，用非线性函数F([v|g])去融合图片和文本特征至512维向量空间，同时选出A中最高的16个index作为邻居节点。在图的卷积阶段，我们分别使用了两个维度为2048和1024的空间图卷积层，这两个层都有8个高斯核。

此外，在训练的过程中，为了防止过拟合采用了dropout方法且使用了Adam优化器。

在测试阶段，设置beam search为2去生成字幕，并且用常见的指标BLEU,METEOR,CIDEr和ROUGE-L去评估我们的模型。所有的评价指标都是通过MS-COCO字幕评估工具来计算得到。

具体实施案例1：图2目标图像一为红绿灯的图片，图3为图2中红绿灯相似图像集合，图4为引导文本候选集TOP3候选语句。

具体实施案例2：图5目标图像二为一群人举伞过街目标图像，图6为图5目标图像二的生成文本和标注文本：

生成文本:A group of people walking down a street holding umbrellas

标注文本:A couple of kids walking with umbrellas in their hands

具体实施案例3：图7目标图像三为白色盘子里放有三明治和沙拉酱，图8为图7目标图像三的生成文本和标注文本：

生成文本:A white plate topped with a sandwich and a salad

标注文本:A white plate with a sandwich and a salad on it

以上所述，仅是本发明较佳实施例而已，并非对本发明的技术范围作任何限制，故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰，均仍属于本发明技术方案的范围的。

Claims

1.一种基于文本引导图模型的图像描述生成方法，其特征在于，包括以下步骤：

S10、建立引导文本候选集：从数据集中检索出视觉相似图片，每张图片标注有描述语句，将描述语句集合起来打分排序，从排序前三句中随机挑选一句作为引导文本，组建引导文本训练集；

S30、视觉特征提取：基于卷积神经网络的Faster R-CNN模型对给定图片产生L个目标检测区域，L是指目标检测区域的数量；将每个目标检测区域看作是一个节点构建关系图G＝{V，E，A}，其中，V表示检测到物体节点的集合，所述物体节点由图片特征向量和边界框组成；E代表学习到的图节点之间的连线集合；A是图的邻接矩阵；

2.根据权利要求1所述的图像描述生成方法，其特征在于，所述图模型去学习一个有关于特定文本的邻接矩阵A，其中边A(i,j)代表了节点i和j之间的关系强度。

3.根据权利要求2所述的图像描述生成方法，其特征在于，将所述引导文本的特征向量g串联在每一个物体检测节点特征v后面，记作[v|g]，然后获得一个融合后的特征e：e_l＝F([v|g])，l＝1,2，...，L，所述非线性函数F([v|g])为用于融合物体节点的特征向量和引导文本的特征向量的非线性函数。

4.根据权利要求3所述的图像描述生成方法，其特征在于，所述融合后的特征e_l为一个矩阵E_LXel,得到关于特定文本的邻接矩阵A:A＝EE^T，节点i和j之间的关系强度A(i,j)被定义为A_i,j＝e_i ^Te_j。

5.根据权利要求4所述的图像描述生成方法，其特征在于，选用排序函数

6.根据权利要求1所述的图像描述生成方法，其特征在于，所述图卷积网络使用相对坐标o(i，j)来捕捉空间关系，在使用R个高斯核滤波方法的基础上，额外考虑图节点之间边的权重问题，将在第i个节点上的第r个高斯核的块操作定义为：

其中，G_r是高斯核的权重矩阵。

7.根据权利要求6所述的图像描述生成方法，其特征在于，每一张输入图片的表达被表示成一个三元组形式：输入图像I，引导文本g和由T个词组成的图像描述(w₁，w₂，...，w_T)，在描述的开始和结尾加入w₀(<BOS>)和w_T+1(<EOS>)，解码公式如下：

x₁＝W_zz

x_t＝W_ew_t

h_t＝LSTM(x_t，h_t-1)

p_t+1＝softmax(W_th_t)

8.根据权利要求7所述的图像描述生成方法，其特征在于，所述图模型的LSTM解码器损失函数设置为：

/>