CN114049501A

CN114049501A - 融合集束搜索的图像描述生成方法、系统、介质及设备

Info

Publication number: CN114049501A
Application number: CN202111388863.7A
Authority: CN
Inventors: 王东升; 路曼; 钟家国; 赵翠平; 王奇; 韩斌
Original assignee: Jiangsu University of Science and Technology
Current assignee: Suzhou Dingyi Intelligent Technology Co ltd
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-02-15
Anticipated expiration: 2041-11-22
Also published as: CN114049501B

Abstract

本发明公开了基于神经网络的图像描述生成方法，包括：获取图像标注的数据集并得到训练集、验证集和测试集；根据图像描述的句子生成词汇表与词嵌入矩阵；采用神经网络来提取图像的特征并编码为矩阵；创建长短时记忆网络；在图像特征提取网络和长短时记忆网络之间添加全连接层做特征映射；将提取的图像特征与获取的词嵌入矩阵输入到长短时记忆网络中进行训练；以序列生成的方式作为测试集中图像描述生成的方法；在序列生成中添加集束搜索算法寻找最佳的句子表达方式。本发明方法融合了神经网络和集束搜索算法，提高了图像特征提取的精确度和语义信息表达的流畅度。

Description

融合集束搜索的图像描述生成方法、系统、介质及设备

技术领域

本发明涉及图像处理技术领域，具体涉及一种融合集束搜索的图像描述生成方法、系统、介质及设备。

背景技术

随着深度学习在各项领域上取得的巨大进步，而计算机视觉和自然语言处理结合的领域更是引起了更多研究者的关注。图像描述生成在很多领域都有着重要的应用，比如在儿童教育领域中，可以应用在“看图说话”任务中，帮助儿童理解图像内容；在医学影像分析中，可以对输入的医学影像图片生成初步的诊断结果，节省医护人员时间；在智慧城市中，可以对大量的交通图像数据进行集中分析，帮助决策管理部门及时掌握城市的动态信息。图像描述生成涉及计算机视觉和自然语言处理两个领域，需要机器能够精确的提取到图像的特征，并且能够用流畅的自然语言对图像中的内容进行描述。

近年来，研究学者对提取图像的特征和生成可读性的文本方向进行了大量的研究，也提出了许多性能很好的模型，Encoder-Decoder(编码器-解码器)的生成架构就是一个非常好的选择。该生成架构分为编码器和解码器两个部分，编码器部分可以采用卷积神经网络提取图片的特征并编码成一个固定长度的向量，解码器部分可以采用循环神经网络将编码器传输来的向量解码为一个描述语句。对于编码器和解码器中的网络则可以根据具体的任务来进行选择。

图像描述生成从最早的基于模板的描述方法，发展到基于检索的描述方法，最后逐步发展到现在比较流行的基于神经网络的描述方法。基于模板的描述方法依赖于人工制定的模板，虽然可以保证语句语法架构的规范性，但是忽略了图像与描述文本之间的联系，所生成的描述语句逻辑混乱，可读性较差；基于检索的描述方法是通过检索和图像库中相似的图像，然后根据检索出的图像以及相应的描述标签去生成相应的描述，这种方法可以避免基于模板的图像描述方法导致的语言主体混乱问题，但却不能保证所生成的图像描述能够概括图像的内容。而基于Encoder-Decoder的图像描述生成方法能够解决图像和生成文本之间的逻辑关系以及所生成文本的语言主题混乱问题，但现有的方法中仍存在所生成的文本可读性低的问题。

发明内容

本发明提供了一种融合集束搜索的图像描述生成方法、系统、介质及设备，以解决现有技术中所单位文本语言主题混乱、可读性低的问题。

本发明提供了一种融合集束搜索的图像描述生成方法，包括如下步骤：

步骤1：获取图像描述生成所需要的图像标注数据集，并对图像标注数据集进行预处理，并将预处理后的图像标注数据集分为训练集和测试集；

步骤2：获取每个图像所标注的描述文本，根据获取的文本构建词汇表以及词表的词嵌入矩阵；

步骤3：创建编码器模块中的神经网络VGG16，通过神经网络VGG16对输入该编码器的图像进行处理和特征提取；

步骤4：创建长短期记忆网络的解码器模块，在编码器模块的卷积神经网络输入端和解码器模块的循环神经网络输入端之间添加一层全连接层；

步骤5：将所述步骤3中所提取的图像特征和所述步骤2中所获得的图像描述文本的词嵌入矩阵输入到长短期记忆网络中，将图像特征和所对应的图像描述文本在长短期记忆网络中进行训练；

步骤6：在长短期记忆网络的解码器模块中，从预设起始标志开始对每个语句进行预测生成单词，从预设起标志开始对每个语句进行预测生成单词，选取每个时间步长中概率最大的单词作为最佳候选单词集；

步骤7：利用beam search算法，在最佳候选单词集中选择最大概率分布的单词构成句子，作为描述文本，具体为：

在第一个时间步长，选取当前条件概率最大的k个词，将k个词作为候选输出序列，之后每个时间步长，基于上个步长的输出序列，挑选出所有序列中条件概率最大的k个，最后从k个候选中挑选出最优的，组合成为最终的图像描述文本。

进一步地，所述步骤1具体方法如下：

从所获取的图像标注数据集中切分出一定数量的图像，每个图像对应5条自然语言描述语句，将图像和对应的自然语言描述语句构成训练集；再从剩下的图像标注数据集中划分出与训练集不重复的一定量数据作为测试集。

进一步地，所述步骤2中构建词汇表以及词表的词嵌入矩阵的步骤如下：

步骤21：将图像标注数据集中所有的图像描述文本语料转化为一个细分粒度以单词为单位的词汇表；

步骤22：统计词汇表中的每个单词的词频，以及根据词汇表将每个单词根据词频数排序给定一个编码，即每个单词的索引编号；

步骤23：将处理后的词汇表输入到word2vec模型中进行训练，最终获得每个词的词嵌入矩阵。

进一步地，所述步骤3中通过神经网络VGG16对输入该编码器的图像进行处理和特征提取的步骤如下：

步骤31：对输入的图像进行预处理，从每个像素中减去在训练集上计算的平均RGB值；

步骤32：将预处理后的图像输入到卷积层中，对图像进行零填充处理，在图像的周围用0进行相应的填充，使得原始图像扩大；

输出图像特征尺寸可以按照公式(1)-(4)来求得：

Output Size＝W₂×H₂×D₂ (1)

D₂＝K (4)

其中，K为卷积核的数量，W为卷积操作输入图像的尺寸，F为卷积核的尺寸，S为操作步长，P为零填充数量；

步骤33：对填充后的图像使用3*3大小的卷积核捕获图像左右、上下以及中心的特征，滤波器通过与上一层输出的图像进行点积运算，形成新的特征图像，完成特征提前。

进一步地，所述步骤7中的通过如下公式逐步获取单词的条件概率：

P(y^<2>，y^<1>|x)＝P(y^<2>|y^<1>，x)P(y^<1>|x)

其中，y^<2>为第二个单词的条件概率输出；y^<1>为当前单词；x为上一个时间。

本发明还提供了一种融合集束搜索的图像描述生成系统，包括：

图像上传识别模块，用于获取待描述的图像并提取图像的特征；

图像特征表示模块，用于利用预训练的VGG16神经网络模型对图像进行零填充、卷积特征提取、池化后得到新的图像特征表示向量；

语义特征获取模块，用于将获取的词表利用word2vec模型编码成包含上下文语义信息的词向量；

图像内容描述模块，用于利用获取的图像特征表示和语义特征信息输入到长短期记忆网络模型中进行训练并预测结果，生成图像的描述文。

本发明还提供了一种融合集束搜索的图像描述生成介质，存储有所述融合集束搜索的图像描述生成方法。

本发明还提供了一种融合集束搜索的图像描述生成设备，包括存储器、处理器；所述存储器包括所述融合集束搜索的图像描述生成介质。

本发明的有益效果：

1.本公开所述的方法、系统、介质及电子设备，使用全局图像特征和描述的文本特征来生成图像描述，并采用集束搜索的算法来增强模型在生成文本时语言的丰富性和准确性。

2.本公开所述的方法、系统、介质和电子设备，采用VGG16的模型来提取图像中的全局特征，并编码为特征向量，而对于文本则采用长短期记忆网络来提取文本中的特征，在图像与文本信息结合阶段，则通过添加全连接层，将之间的特征进行映射，便于模型更好地学习到图像和文本特征之间的关系。而在模型预测阶段，利用集束搜索的优化搜索策略来生成更加合理化、多样性的图像描述。

3.本公开所述的方法、系统、介质和电子设备，系统能够搭载算法模型进行可视化，提供用户上传图片并返回图像的描述的功能，同时能够将用户上传的历史图像以及历史生成对应的描述性文字进行保存，当需要重新查看图像的描述时，无需再次调用模型进行生成，节省了系统反馈的时间。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1为本发明实施例中图像描述生成方法的总体框架图；

图2为本发明实施例中未封装Beam Search模型的生成效果示例图；

图3为本发明实施例中封装Beam Search模型的生成效果示例图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种融合集束搜索的图像描述生成方法，包括如下步骤：

步骤1：获取图像描述生成所需要的图像标注数据集，并对图像标注数据集进行预处理，并将预处理后的图像标注数据集分为训练集和测试集；具体为：

从所获取的图像标注数据集中切分出一定数量的图像，每个图像对应5条自然语言描述语句，将图像和对应的自然语言描述语句构成训练集；再从剩下的图像标注数据集中划分出与训练集不重复的一定量数据作为测试集；

步骤2：获取每个图像所标注的描述文本，根据获取的文本构建词汇表以及词表的词嵌入矩阵，具体为：

步骤23：将处理后的词汇表输入到word2vec模型中进行训练，最终获得每个词的词嵌入矩阵

步骤3：创建编码器模块中的神经网络VGG16，通过神经网络VGG16对输入该编码器的图像进行处理和特征提取，具体为：

步骤31：对输入的图像进行预处理，输入图像大小为224*224的RGB彩色图像，从每个像素中减去在训练集上计算的平均RGB值；

步骤32：将预处理后的图像输入到卷积层中，对图像进行零填充处理，在图像的周围用0进行相应的填充，使得原始图像扩大，避免多次卷积之后丢失图像的边缘信息；

由于输出得数据体呈立方体性质，长宽由卷积操作得超参数决定，厚度则由卷积核数量决定，则输出图像特征尺寸可以按照公式(1)-(4)来求得：

Output Size＝W₂×H₂×D₂ (1)

D₂＝K (4)

步骤33：对填充后的图像使用3*3大小的卷积核捕获图像左右、上下以及中心的特征，滤波器通过与上一层输出的图像进行点积运算，形成新的特征图像，完成特征提前；

创建的长短期记忆网络LSTM的方法包括：

当模型处理的句子随着长度的增加时，会忽略之前输入的语句信息，网络无法有效学习到更多的信息，同时当一个模型的时间步过多时会引起反向传播时的梯度消失现象。引入长短期记忆网络在极大程度上克服了上述所提到的问题。LSTM引入了门(gate)机制用于控制特征的流通和损失。

(1)忘记阶段：该阶段主要时对上一个节点传进来的输入进行选择性忘记，通计算得到的f_t来作为忘记门控，来控制上一个状态哪些信息是需要留的，哪些信息是需要忘记的；

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

(2)选择记忆阶段，主要是对输入x^t进行选择记忆，当前的输入内容由前面计算得到的

表示，而选择的门控信号则是由i_t(i代表information)来进行控制。

(3)输出阶段：在这个阶段主要是决定哪些会被当成当前的状态输出，o_t控制哪些信息需要输出给下一个单元，而输出信息是由cell state来决定。

o_t＝σ(W_o[h_t-1，x_t]+b_o)

h_t＝o_t*tanh(C_t)

步骤6：在长短期记忆网络的解码器模块中，从预设起标志开始对每个语句进行预测生成单词，选取每个时间步长中概率最大的单词作为最佳候选单词集，为后续最优结果的输出提供输入值；

在第一个时间步长，选取当前条件概率最大的k个词，将k个词作为候选输出序列，之后每个时间步长，基于上个步长的输出序列，挑选出所有序列中条件概率最大的k个，最后从k个候选中挑选出最优的，组合成为最终的图像描述文本，具体为：

在集束搜索中，有一个参数B，为集束宽(Beam width)，它是用来挑选top B的结果。集束搜索的最终目标是要获得一个单词表示英文句子的条件概率最大，即下面公式(5)：

首先，我们会通过模型计算得到y^<0>的分布概率，选取前B个作为候选结果，这里假设B为3，比如选出“A”，“The”，“One”这三个单词；第二步，此时我们已经选择最可能这三个单词中的一个作为第一个单词，beam search则将根据第一个单词考虑第二个单词的概率，例如针对单词“A”，我们将y^<1>＝′A′，然后将它喂给x^<2>，输出结果y^<2>作为第二个单词的概率输出。则我们的选择方法为公式(6)所示：

P(y^<2>，″A″|x)＝P(y^<2>|″A″，x)P(″A″|x) (6)

然后同样将“The”作为y^<1>，然后喂给x^<2>，计算得到P(y^<2>，″The″|x)，见公式(7)所示，“One”这个单词也按照同样的方法进行计算，将“One”作为y^<1>，然后喂给x^<2>，计算得到P(y^<2>，″One″|x)，见公式(8)。

P(y^<2>，″The″|x)＝P(y^<２>|″The″，x)P(″The″|x) (7)

P(y^<2>，″One″|x)＝P(y^<2>|″One″，x)P(″One″|x) (8)

按照这样搜索的方式，就可以找到第一个和第二个单词对最可能的三个选择。然后继续将前两个单词作为输入，依次在词库中查找最佳的单词匹配，得到第三个单词，按照这样的步骤进行循环，直到输出最后的结果。

以下以具体的实例作说明：

如图1所示，包括以下特征：

采用VGG16模型提取图像中的特征，将提取到的图像特征编码为特征向量，在将从文本中提取到的特征与图像特征进行融合时，则在CNN和RNN之间添加了全连接层，用来做VGG16输出的图像特征与RNN所需的隐藏层状态输入的映射。而在预测文本输出时，采用集束搜索的算法去生成语句通顺、语言表达形式丰富的文本。

本实施例使用了MSCOCO2014版的数据集，并将数据集划分为训练集、验证集和测试集，训练集、验证集和测试集分别含有80000张、5000张和3000张图像，如表1所示为各个数据集的图像数量：

数据集	训练集	验证集	测试集
				MSCOCO-2014	80000	5000	3000

表1

本实例对比了封装Beam Search的图像标题生成模型与未封装Beam Search状态下的模型，实例图片从MSCOCO2014数据集的测试集中随机抽取图片，如图2、3所示，在未封装Beam Search的模型下，该图片生成的描述为“a man riding a wave on top of asurfboard”，较为准确地描述了图片中地内容，包括人物、动作场景等信息；而在封装BeamSearch的模型，该图片生成的描述为“a man on a surfboard riding a wave”，相比较于封装Beam Search的模型，该句的描述更加符合日常表达的形式，语义信息更加明确。为了比较这两种模型的性能，则本实例用了ROUGE、BLEU和METEOR自动评价指标来进行对比，如表2所示为评价指标对比：

	BLEU-1	BLEU-2	BLEU-3	BLEU-4	ROUGE-1	ROUGE-L	METEOR
								Raw Caption	0.81	0.64	0.52	0.30	0.73	0.67	0.64
Beam Search	0.89	0.67	0.45	0.28	0.90	0.75	0.87

表2

在本实例中，也将该方法与现有的图像描述生成模型进行了比较，如表3所示为不同模型性能对比：

表3

Beam Search在METEOR的评价标准下明显优于注意力机制和实体感知模式，因为Beam Search是根据生成标题进行语序优化，能够有效降低METEOR的惩罚因子，因此评分结果非常优秀。在其余的评分标准下，Beam Search均有不错的得分水平。

本发明还提供了一种融合集束搜索的图像描述生成介质，存储有所述融合集束搜索的图像描述生成方法，可执行融合集束搜索的图像描述生成方法。

本发明还提供了一种融合集束搜索的图像描述生成设备，包括存储器、处理器；所述存储器包括所述融合集束搜索的图像描述生成介质，处理器可以借助存储器中的融合集束搜索的图像描述生成介质，执行融合集束搜索的图像描述生成方法。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种融合集束搜索的图像描述生成方法，其特征在于，包括如下步骤：

2.如权利要求1所述的融合集束搜索的图像描述生成方法，其特征在于，所述步骤1具体方法如下：

3.如权利要求1所述的融合集束搜索的图像描述生成方法，其特征在于，所述步骤2中构建词汇表以及词表的词嵌入矩阵的步骤如下：

4.如权利要求1所述的融合集束搜索的图像描述生成方法，其特征在于，所述步骤3中通过神经网络VGG16对输入该编码器的图像进行处理和特征提取的步骤如下：

输出图像特征尺寸可以按照公式(1)-(4)来求得：

Output Size＝W₂×H₂×D₂ (1)

D₂＝K(4)

5.如权利要求1所述的融合集束搜索的图像描述生成方法，其特征在于，所述步骤7中的通过如下公式逐步获取单词的条件概率：

P(y^<2>，y^<1>|x)＝P(y^<2>|y^<1>，x)P(y^<1>|x)

6.一种融合集束搜索的图像描述生成系统，其特征在于，包括：

7.一种融合集束搜索的图像描述生成介质，其特征在于，存储有所述融合集束搜索的图像描述生成方法。

8.一种融合集束搜索的图像描述生成设备，其特征在于，包括存储器、处理器；所述存储器包括所述融合集束搜索的图像描述生成介质。