CN112528989A

CN112528989A - 一种图像语义细粒度的描述生成方法

Info

Publication number: CN112528989A
Application number: CN202011387365.6A
Authority: CN
Inventors: 李红波; 汤跃; 吴渝
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Shanghai Kailing Technology Co ltd; Urumqi Bangbangjun Technology Co ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-03-19
Anticipated expiration: 2040-12-01
Also published as: CN112528989B

Abstract

本发明请求保护一种图像语义细粒度的描述生成方法，属于计算机视觉和自然语言处理相融合的领域，解决了现有技术生成的图像语义描述粗糙不够精细的问题。该方法包括以下步骤：选取数据集和语料库，并对数据预处理；引入注意力机制的网络提取感兴趣区域特征，并根据感兴趣区域特征得到语义补充区域特征；将感兴趣区域特征输入到第一个长短时记忆网络，生成粗糙的图像语义描述；将已生成的图像语义描述输入到第二个长短时记忆网络，并根据语义补充区域特征对图像语义描述进行细化更新，获得图像语义细粒度的描述内容。该方法不仅提高了图像语义描述的精确度，还提高了图像语义描述的细粒度。

Description

一种图像语义细粒度的描述生成方法

技术领域

本发明属于计算机视觉和自然语言处理技术领域，特别是涉及一种图像语义细粒度的描述生成方法。

背景技术

在人工智能的时代背景下，运用计算机理解图像，获取图像语义描述是一项具有前景的研究。运用计算机语义化理解图像，不仅涉及到计算机视觉，也与自然语言处理息息相关，是一项融合计算机视觉技术与自然语言处理技术的综合任务。计算机对图像进行语义分析、理解和自动描述是极具潜力的应用。对图像语义描述技术的推广研究也将为相关领域带来更广阔的应用场景，如图像检索、安全辅助驾驶、为视觉障碍人士提供视觉辅助、智能服务机器人和幼儿教育等领域。

早期的图像描述方法是通过将从图像中提取的对象和属性填充到预定义的句子模板中；随着深度学习的发展，目前主流的方法是基于编码器-解码器的体系结构，其中使用卷积神经网络提取图像特征，使用循环神经网络生成图像描述内容。

当前图像语义描述模型对于内容复杂的图像，如图像中存在多义和不确定的事务、隐式和显式的信息、复杂场景、复杂的对象与对象的关系等，生成的描述难以完整地描述图像语义，描述内容过于简单。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种旨在针对当前图像描述难以完整地描述图像语义以及生成的描述内容过于简单的问题，图像语义细粒度的描述生成方法。本发明的技术方案如下：

一种图像语义细粒度的描述生成方法，其包括以下步骤：

步骤1：获取开源并且已经标注描述的图像数据集，根据数据集的大小，划分训练集、验证集和测试集；抓取网络上公开的文本数据，构建语料库；

步骤2：对步骤1的图像数据和文本数据进行绑定、筛选、转格式和向量化的预处理；

步骤3：引入注意力机制的网络模型对图像进行特征提取，引入注意力机制的网络模型自动选定图像中感兴趣的提议区域，并提取此区域的图像特征；

步骤4：根据步骤3提取出的感兴趣区域图像特征作为反馈，对全局特征进一步筛选，提取出语义补充区域的特征。

步骤5：将步骤3提取出的感兴趣区域的特征输入到第一个长短时记忆网络，生成粗糙的图像语义描述；

步骤6：将步骤4提取出的语义补充区域的特征和步骤5已生成的图像语义描述输入到第二个长短时记忆网络，LSTM根据补充区域的特征细化图像语义的描述，最终得到图像语义细粒度的描述。

进一步的，所述步骤1具体采用的数据集如下：

a:Flickr30k数据集，经过选取和切分，包含29000张训练图片，1000张验证图片，1000张测试图片；

b:抓取100多万条英文句子组成图像描述语料库。

进一步的，所述步骤2对步骤1的图像数据和文本数据进行预处理，具体包括步骤：

将图像数据调整为相同的尺寸；去除语料库的符号、数字和特殊字符，将所有的文本数据转换为预定义的json格式，设置最大的单词频率，将出现次数超过设置的单词频率的单词，添加到词典中；将出现次数低于设置的单词频率的单词，使用预设符号代替，构建出词典；根据词典的大小，通过Word2Vec编码方法对单词进行词向量化。

进一步的，所述步骤3引入注意力机制的网络模型对图像进行特征提取，引入注意力机制的网络模型自动选定图像中感兴趣的提议区域，并提取此区域的图像特征，具体包括：

使用Faster-RCNN网络提取图像感兴趣区域特征向量，输入的图像经过卷积神经网络CNN提取全局特征，再输入到区域提议网络RPN提取图像感兴趣区域特征，得到的图像感兴趣区域特征向量，每一维代表了图像特征，维度为 2048；对感兴趣区域进一步分组，将感兴趣区域设为集合B，将提取的物体特征结点信息设为集合N，将边界框设为R,构建特征信息图G＝{B,N,R}，将构建的特征信息图和编码的词向量输入到图神经网络GNN，候选区域特征的特征向量为f_i ^b,物体特征向量为f_i ⁿ,边界框特征向量为f_i ^r，在每个时间步骤t中，物体结点和相邻边界框的集合为N_i，物体结点和相邻边界框结点进行聚合：

其中

表示隐藏状态。

根据单词的词性，抽取不同语义层的特征信息，将名词词性的单词与B集合绑定，同时也要与N集合绑定，将动词词性的单词与集合R进行绑定,将特征信息f_i和词向量v_c在全连接层

上绑定进行转换,转换后的信息表示为I_c

进一步的，所述步骤4具体实现方法为：将步骤3提取的感兴趣区域特征作为输入，这些感兴趣区域特征经过双线性插值进行缩放，得到同样的维度，经过缩放后的特征为f，特征经过ReLu激活函数之后，生成逆向掩码mask：

其中σ表示sigmoid激活函数。

逆向掩码mask结合全局特征f_all，设置逆向权重ω_re，提取出语义补充区域的特征f_ed

f_ed＝ω_re*mask*f_all。

进一步的，所述步骤5具体步骤包括：将步骤3提取出的感兴趣区域的特征向量和词向量绑定后的特征进行空间自适应平均池化：

其中k表示区域提议网络处理后的区域个数，k的大小是14，v_i表示区域提议网络提取的图像特征向量；

池化后输入第一个长短时记忆网络LSTM，LSTM进行更新，隐藏层的输入为：

h_t＝LSTM₁(h_t-1，i_t-1)

其中i_t-1表示生成的预测词序列，当t＝0时，h_t＝0；

生成粗糙的图像语义描述为：

i_t＝[f(I)，h_t-1]

将步骤c转换的内容输入第一个长短时记忆网络LSTM，经过第一个LSTM生成较为粗糙的图像语义描述，每一个时间步上t∈[0，T-1]，LSTM更新为：

h_t＝LSTM₁(I_C)

其中T表示总的时间步。

进一步的，所述步骤6具体包括：将步骤5生成粗糙的图像语义描述内容需要作为输入，根据提取的边缘补充区域，并引入注意力机制，输入到第二个 LSTM网络中，第二个LSTM对已生成的粗糙句子进行细化，训练时引入注意力模型：

α_t＝s0ftmax(ω_αA_t+b_α)

A_t＝tanh(ω_fαf_ed)

其中α_t对应每个图像补充区域的注意力概率，A_t表示特征经过tanh激活函数的结果，ω_α、b_α和ωf_α均为学习参数。

定义最小化交叉熵损失为：

其中，P_θ(Y_t|Y_0:T-1)是LSTM给出的单词Y_t的输出概率，Y_0:T-1表示前一个时间步的单词。

本发明的优点及有益效果如下：

本发明与现有技术相比为图像语义描述工作提供了一个新的解决方案，方案效率高。一是将编码过程分为感兴趣提议区和边缘补充区；二是将解码过程分为两步，第一步根据感应趣提议区生成描述，第二步根据边缘补充区对第一步生成的描述进行细化补充。具体有以下良好的技术效果：

(1)将Fast R-CNN网络提取的感兴趣提议区进行分组，与词向量进行动态绑定，输入第一个解码器LSTM网络中，提高了图像语义描述生成的准确度

(2)将边缘补充区作为补充，第二个解码器LSTM网络对已生成的图像语义描述进行细化补充，从而提高了生成图像语义描述的细粒度。

附图说明

图1是本发明提供优选实施例的整体流程图；

图2为注意力机制的网络模型图；

图3为提取语义补充区域特征的流程图；

图4为图像语义生成结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图1所示，本发明按下述步骤进行图像语义细粒度的描述生成：

步骤1：寻找开源的并且已经标注描述的图像数据集，根据数据集的大小，进一步划分训练集、验证集和测试集；抓取网络上公开的文本数据，构建语料库。所述的数据集为Flickr30k数据集，经过选取和切分，包含29000张训练图片，1000张验证图片，1000张测试图片。从网上抓取100多万条公开英文句子组成图像描述语料库。

步骤2：对图像数据和文本数据进行预处理，将图像数据调整为相同的尺寸；去除语料库的符号、数字和特殊字符，将所有的文本数据转换为预定义的json 格式。设置最大的单词频率为20，将出现次数超过20的单词，添加到词典中；将出现次数低于20的单词，使用预设符号代替，构建出词典，词典大小为20000。根据词典的大小，通过Word2Vec编码方法对单词进行词向量化，词向量的维度是1024。

步骤3：如图2所示，使用Faster-RCNN网络提取图像感兴趣区域特征向量，输入的图像经过卷积神经网络CNN提取全局特征，再输入到区域提议网络RPN 提取图像感兴趣区域特征，得到的图像感兴趣区域特征向量，每一维代表了图像特征，维度为2048；对感兴趣区域进一步分组，将感兴趣区域设为集合B，将提取的物体特征结点信息设为集合N，将边界框设为R,构建特征信息图 G＝{B,N,R}，将构建的特征信息图和编码的词向量输入到图神经网络GNN，候选区域特征的特征向量为f_i ^b,物体特征向量为f_i ⁿ,边界框特征向量为f_i ^r，在每个时间步骤t中，物体结点和相邻边界框的集合为N_i，物体结点和相邻边界框结点进行聚合：

其中

表示隐藏状态。

上绑定进行转换,转换后的信息表示为I_c

步骤4：如图3所示，将提取的感兴趣区域特征作为输入，这些多尺度特征经过双线性插值进行缩放,得到同样的维度，经过缩放后的特征为f，并生成逆向掩码mask

其中σ表示sigmoid激活函数。

逆向掩码mask联合全局f_all，设置逆向权重ω_re，提取出边缘补充区域的特征f_ed

f_ed＝ω_re*mask*f_all

步骤5：如图4所示，将步骤3提取出的感兴趣区域的特征向量和词向量绑定后的特征进行空间自适应平均池化：

其中k表示区域提议网络处理后的区域个数，k的大小是14，v_i表示区域提议网络提取的图像特征向量。

池化后喂入第一个长短时记忆网络LSTM，LSTM进行更新，隐藏层的输入为：

h_t＝LSTM₁(h_t-1，i_t-1)

其中i_t-1表示生成的预测词序列，当t＝0时，h_t＝0。

生成粗糙的图像语义描述为：

i_t＝[f(I)，h_t-1]

步骤6：将步骤5生成粗糙的图像语义描述内容需要作为输入，根据提取的边缘补充区域，并引入注意力机制，输入到第二个LSTM网络中，第二个LSTM 对已生成的粗糙句子进行细化。训练时引入注意力模型：

α_t＝softmax(ω_αA_t+b_α)

A_t＝tanh(ω_fαf_ed)

其中α_t对应每个图像补充区域的注意力概率，A_t表示特征经过tanh激活函数的结果，ω_α，b_α，ω_fα均为学习参数。

定义最小化交叉熵损失为：

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种图像语义细粒度的描述生成方法，其特征在于，包括以下步骤：

步骤6：将步骤4提取出的语义补充区域的特征和步骤5已生成的图像语义描述输入到第二个长短时记忆网络(LSTM)，LSTM根据补充区域的特征细化图像语义的描述，最终得到图像语义细粒度的描述。经过训练，输入一张图片就能对图片进行理解，输出细粒度的图像描述。

2.根据权利要求1所述的一种图像语义细粒度的描述生成方法，其特征在于，所述步骤1具体采用的数据集如下：

b:抓取100多万条英文句子组成图像描述语料库。

3.根据权利要求1所述的一种图像语义细粒度的描述生成方法，其特征在于，所述步骤2对步骤1的图像数据和文本数据进行预处理，具体包括步骤：

4.根据权利要求1所述的一种图像语义细粒度的描述生成方法，其特征在于，所述步骤3引入注意力机制的网络模型对图像进行特征提取，引入注意力机制的网络模型自动选定图像中感兴趣的提议区域，并提取此区域的图像特征，具体包括：

使用Faster-RCNN网络提取图像感兴趣区域特征向量，输入的图像经过卷积神经网络CNN提取全局特征，再输入到区域提议网络RPN提取图像感兴趣区域特征，得到的图像感兴趣区域特征向量，每一维代表了图像特征，维度为2048；对感兴趣区域进一步分组，将感兴趣区域设为集合B，将提取的物体特征结点信息设为集合N，将边界框设为R,构建特征信息图G＝{B,N,R}，将构建的特征信息图和编码的词向量输入到图神经网络GNN，候选区域特征的特征向量为f_i ^b,物体特征向量为f_i ⁿ,边界框特征向量为f_i ^r，在每个时间步骤t中，物体结点和相邻边界框的集合为N_i，物体结点和相邻边界框结点进行聚合：