CN111814946A

CN111814946A - 一种基于多体进化的图像描述自动生成方法

Info

Publication number: CN111814946A
Application number: CN202010563287.4A
Authority: CN
Inventors: 王瀚漓; 王含章
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-03-17
Filing date: 2020-06-19
Publication date: 2020-10-23
Anticipated expiration: 2040-06-19
Also published as: CN111814946B

Abstract

本发明涉及一种基于多体进化的图像描述自动生成方法，该方法构建一图像描述模型种群，对待识别图像进行图像描述的自动生成，所述图像描述模型种群通过以下步骤获得：获得初始模型种群，种群中每个个体均为一图像描述模型；对所述初始模型种群进行迭代变异进化操作，每次迭代中选择个体适应度高的N个个体组成新种群，直至满足进化终止条件，获得最终的图像描述模型种群。与现有技术相比，本发明具有极大地降低了模型设计的人力和时间成本，准确度高等优点。

Description

一种基于多体进化的图像描述自动生成方法

技术领域

本发明涉及图像理解领域，尤其是涉及一种基于多体进化的图像描述自动生成方法。

背景技术

图像标题生成是一项极具挑战性的工作，在婴幼儿早期教育、视觉障碍辅助、人机交互等领域具有广泛的应用前景。它结合了自然语言处理与计算机视觉两个领域，将一副自然图像使用自然语言的形式描述出来，或者说将图像翻译成自然语言。它首先要求系统能够准确理解图像中的内容，如识别出图像中的场景、各种对象、对象的属性、正在发生的动作及对象之间的关系等；然后根据语法规则及语言结构，生成人们能够理解的句子。

人们已提出多种方法来解决这一难题，包括基于模板的方法、基于语义迁移的方法，基于神经机器翻译的方法及混合方法等。随着深度学习技术，尤其是CNN技术在语言识别和视觉领域连续取得突破，目前基于神经机器翻译及其与其他视觉技术混合的方法已成为解决该问题的主流。这类方法考虑了CNN模型能够提取抽象性及表达能力更强的图像特征，能够为后续的语言生成模型提供可靠的可视化信息。但这些模型都是由人工构建的，创作过程复杂，消耗了大量的人力和物力成本。此外，人工设计的图像描述模型还存在设计耗时长、模型数量少等问题，不利于对图像自动描述问题的进一步改进和深入研究。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷而提供一种自动化程度更高的基于多体进化的图像描述自动生成方法。

本发明的目的可以通过以下技术方案来实现：

一种基于多体进化的图像描述自动生成方法，该方法构建一图像描述模型种群对待识别图像进行图像描述的自动生成，

所述图像描述模型种群通过以下步骤获得：

获得初始模型种群，种群中每个个体均为一图像描述模型；

对所述初始模型种群进行迭代变异进化操作，每次迭代中选择个体适应度高的N个个体组成新种群，直至满足进化终止条件，获得最终的图像描述模型种群。

进一步地，所述图像描述模型为基于RNN的模型，获得初始模型种群时，对RNN的节点类型和操作类型进行设置。

进一步地，所述节点类型包括Linear层、ReLU层、Dropout层、Tanh层和Sigmoid层。

进一步地，所述操作类型包括加操作和乘操作。

进一步地，每次迭代中，所述变异进化操作的次数为期望为2的泊松分布。

进一步地，所述变异进化操作为增加、替换、移动、删除中的一种，其中，

所述增加具体为：切断一条随机选择的边，插入一个随机节点；

所述替换具体为：随机选择一个节点，将它替换成一个与之不同类型的节点；

所述移动具体为：随机选择一条边，将它的终点节点替换成另一个随机选择的节点；

所述删除具体为：随机删除一个节点，并把原本与该节点相连的边连接到该节点的上一节点中的任意一个。

进一步地，所述个体适应度的计算具体为：

基于图像样本的图像视觉特征计算种群中每个个体输出文本描述的CIDEr值与BLEU4值；

计算每个个体的模型复杂度fr；

计算适应度值f：

f＝0.25CIDEr+0.75BLEU4+fr。

进一步地，所述模型复杂度fr的计算公式为：

fr＝-0.1W–0.001N

其中，W为模型中可训练的节点个数，N为所有节点个数。

进一步地，所述图像视觉特征通过ResNet-101卷积神经网络提取获得。

进一步地，所述选择个体适应度高的N个个体组成新种群具体为：

除了变异个体外，从种群中选择一个随机个体，该随机个体的适应度应小于该种群适应度的中位数；比较该随机个体与变异个体的适应度，删除适应度较低的个体，适应度较高的个体保留在种群中。

与现有技术相比，本发明具有如下有益效果：

(1)本发明采用基于进化算法的图像描述自动生成方法，极大地降低了模型设计的人力和时间成本；

(2)本发明综合权衡了模型性能与模型复杂度，在保证模型准确性的前提下，有效地限制了模型参数；

(3)本发明构建了大量准确度较高的图像描述模型，可用于图像描述问题中大规模文本生成的深入研究。

附图说明

图1为本发明的主要步骤流程示意图；

图2为图像描述模型示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本实施例提供一种基于多体进化的图像描述自动生成方法，该方法构建一图像描述模型种群对待识别图像进行图像描述的自动生成。该方法具体实施例过程包括：

1、构建初始模型种群。

本实施例采用的图像描述模型为基于RNN的模型，通过设置RNN的节点类型和操作类型，初始化RNN结构。

节点类型包括Linear层、ReLU层、Dropout层、Tanh层和Sigmoid层。操作类型包括加操作和乘操作。

本实施例，种群规模N为100。

2、变异进化操作。

随机选择一个个体，对该个体进行n次变异操作，通过变异修改个体基因，以优化种群。每次迭代中，所述变异进化操作的次数为期望为2的泊松分布。

所述变异进化操作为增加、替换、移动、删除中的一种，其中，

增加具体为：切断一条随机选择的边，插入一个随机节点；

替换具体为：随机选择一个节点，将它替换成一个与之不同类型的节点；

移动具体为：随机选择一条边，将它的终点节点替换成另一个随机选择的节点；

删除具体为：随机删除一个节点，并把原本与该节点相连的边连接到该节点的上一节点中的任意一个。

3、抽取图像视觉特征，使用视觉特征和变异后的个体构建图像描述模型。

本实施例中，使用ResNet-101卷积神经网络提取图像的视觉特征，将该网络pool5层的输出作为图像视觉特征，将图像视觉特征作为种群中每个RNN个体的输入，完成图像描述模型构建。

4、计算适应度，排除适应度较差的个体，返回第2步进行下一次进化，直至满足终止条件。

将图片输入每个图像描述模型，计算输出文本描述CIDEr值与BLEU4值；

计算模型的复杂度fr＝-0.1W–0.001N，其中W为模型中可训练的节点个数，N为所有节点个数；

计算适应度值f＝0.25CIDEr+0.75BLEU4+fr。

除了变异个体外，再从该种群中随机选择一个个体，该个体的适应度应小于该种群适应度的中位数；比较该个体与变异个体的适应度，适应度较低的个体被删除，适应度较高的个体被保留在种群中，组成新种群。

本实施例中，终止条件为出现过的个体总数等于20000。

5、性能测试。

保留种群中存活的图像描述模型，并将测试集的图片输入这些模型进行测试，生成图像描述，并计算相应的评价指标。

本实施例中，进行测试并生成图像描述的具体步骤包括：将测试集图片输入ResNet-101卷积神经网络进行视觉特征提取；将提取到的视觉特征分别输入所有RNN个体，RNN的输出即为图像描述模型的输出；根据输出计算CIDEr值和BLEU值。

在公开数据集MSCOCO上使用本方法进行训练以及测试，使用BLEU、METEOR和CIDEr标准来对生成的句子进行评价。在MSCOCO数据集上，其训练集有113287张图像，验证集和验证集各有5000张图像，每张图像有5条以上人工标注的参考句子，结果如表1所示。

表1本发明在MSCOCO数据集上性能表现

方法	B-1	B-2	B-3	B-4	METEOR	CIDEr
							基准模型	71.2	54.9	41.0	31.2	25.0	97.4
本发明	73.2	56.9	42.9	32.2	25.6	101.4

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由本发明所确定的保护范围内。

Claims

1.一种基于多体进化的图像描述自动生成方法，其特征在于，该方法构建一图像描述模型种群对待识别图像进行图像描述的自动生成，

所述图像描述模型种群通过以下步骤获得：

获得初始模型种群，种群中每个个体均为一图像描述模型；

2.根据权利要求1所述的基于多体进化的图像描述自动生成方法，其特征在于，所述图像描述模型为基于RNN的模型，获得初始模型种群时，对RNN的节点类型和操作类型进行设置。

3.根据权利要求2所述的基于多体进化的图像描述自动生成方法，其特征在于，所述节点类型包括Linear层、ReLU层、Dropout层、Tanh层和Sigmoid层。

4.根据权利要求2所述的基于多体进化的图像描述自动生成方法，其特征在于，所述操作类型包括加操作和乘操作。

5.根据权利要求1所述的基于多体进化的图像描述自动生成方法，其特征在于，每次迭代中，所述变异进化操作的次数为期望为2的泊松分布。

6.根据权利要求2或5所述的基于多体进化的图像描述自动生成方法，其特征在于，所述变异进化操作为增加、替换、移动、删除中的一种，其中，

7.根据权利要求1所述的基于多体进化的图像描述自动生成方法，其特征在于，所述个体适应度的计算具体为：

计算每个个体的模型复杂度fr；

计算适应度值f：

f＝0.25CIDEr+0.75BLEU4+fr。

8.根据权利要求7所述的基于多体进化的图像描述自动生成方法，其特征在于，所述模型复杂度fr的计算公式为：

fr＝-0.1W–0.001N

其中，W为模型中可训练的节点个数，N为所有节点个数。

9.根据权利要求7所述的基于多体进化的图像描述自动生成方法，其特征在于，所述图像视觉特征通过ResNet-101卷积神经网络提取获得。

10.根据权利要求1所述的基于多体进化的图像描述自动生成方法，其特征在于，所述选择个体适应度高的N个个体组成新种群具体为：