CN110135502A

CN110135502A - 一种基于强化学习策略的图像细粒度识别方法

Info

Publication number: CN110135502A
Application number: CN201910415457.1A
Authority: CN
Inventors: 杨绿溪; 邓亭强; 廖如天; 李春国; 徐琴珍
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2019-08-16
Anticipated expiration: 2039-05-17
Also published as: CN110135502B

Abstract

本发明针对细粒度图像最具有判别力的区域难以挖掘的问题，提出了一种基于强化学习和交叉双线性特征的细粒度识别方法。使用Actor‑Critic策略去挖掘图像最具有注意力的区域，Actor模块负责产生最具有判别力的top M个候选区域，Critic模块利用交叉双线性特征去评价此动作的状态值，然后利用排序一种性奖励计算当前状态下该动作的奖励值，进而得到价值优势并反馈给Actor模块，更新最具有注意力区域的输出，最后使用这些最具有判别力的区域结合原图特征进行预测细粒度类别。该方法可以较好的挖掘出细粒度图像最具有注意力的区域。经实验验证，本发明在CUB‑200‑2011公开数据集上的识别准确率比目前已有方法有一定的提升，分别达到了较高的细粒度识别准确率。

Description

一种基于强化学习策略的图像细粒度识别方法

技术领域

本发明涉及属于人工智能、多媒体信号处理领域，特别是涉及一种基于强化学习策略的图像细粒度识别方法。

背景技术

随着深度卷积神经网络(CNN，Convolutional Central Networks)的不断发展，深度学习等技术将计算机视觉中的目标检测、语义分割、目标追踪和图像分类等任务的精度和推理效率不断提高，这主要是得益于卷积神经神经网络强大的非线性建模能力、目前海量的数据以及硬件设备计算力的提高。而这也使得图像细粒度识别这一计算机视觉任务带来了巨大的发展。目前，针对图像分类任务的方法已经相对较为成熟，这体现在ImageNet数据集上的识别指标已经到了比较高的水平，而图像细粒度识别任务因其识别子类相对困难则拥有一个更广阔的发展空间和更有价值的应用空间。

图像的细粒度识别是相对于粗粒度识别而言，一般来说，图像的粗粒度识别是指完成具有较大差别类的识别，诸如人、椅子、车、猫等不同种类的分类；而细粒度识别的任务是要识别目标大类中的子类，比如加利福尼亚理工学院鸟类数据库(CUB-200-2011，Caltech-UCSD Birds-200-2011)数据集中的200种鸟类识别，斯坦福大学提出的汽车数据集(Stanford Cars)中196类汽车等。因此细粒度识别任务具有子类之间方差小，子类之内方差大的特点，这与图像粗粒度识别相比，细粒度图像子类容易混淆，可以区分的信息区域点少，子类之间相似特征多等，因此图像细粒度识别难度增大。

发明内容

为了解决以上问题，本发明提供一种基于强化学习策略的图像细粒度识别方法，针对图像子类的细粒度识别，目前存在的方法未能很好的挖掘出图像最具有代表性的区域，因而在判别图像细粒度类别上存在较大的不准确度。本发明在交叉双线性特征基础上结合强化学习策略提出了一种挖掘图像最具有判别力区域的的细粒度识别方法，为达此目的，本发明提供一种基于强化学习策略的图像细粒度识别方法：

使用强化学习Actor-Critic策略结合交叉双线性特征去挖掘细粒度图像最具有判别力区域，然后融合原图特征进行预测细粒度类别，方法包括如下步骤：

(1)对细粒度训练数据进行增广，数据增广方式包括数据随机翻转，缩放和裁剪；

(2)构造细粒度识别Actor模块和Critic模块；

(3)将经Actor-Critic策略产生的top M个候选区域的特征与原图特征进行融合，预测图像细粒度类别。

作为本发明进一步改进，所述步骤(1)中对图像进行数据增广，具体步骤为：

步骤1.1：使用离线旋转和在线旋转来增强数据，离线旋转是将数据集在[0,359]每隔10°进行旋转，在线旋转是对输入网络的图片随机进行一定角度旋转，除此外，还使用了亮度增强，随机裁剪方式进行数据增强。

作为本发明进一步改进，所述步骤(2)中对图像进构造细粒度识别Actor模块和Critic模块，具体步骤为：

使用候选框生成网络来产生局部注意力区域的候选集合，Actor的动作是指选出最具有信息量的top M个候选框，Actor对动作的选取根据Critic对上一个状态的评价，即Critic对Actor选取的top M个候选框即上一个动作执行后的状态和上一个动作执行后的环境给出的奖励进行计算价值函数，然后输出一个评价指标，Actor将根据此评价指标来调整下一个动作的选择，也就是下一次top M个候选框的选取方案，这里Critic使用交叉双线性特征来评价Actor对动作的选取情况，并将计算出的优势函数反馈给Actor，来帮助其更新下一次的动作选取，交叉双线性特征的计算入算法0所示；

步骤2.1：利用RPN网络来生成不同尺度的top M个候选框，进而确定输出动作的策略。具体做法为：在基础网络最后一层提取图像特征后，利用不同尺度的卷积层分别生成(14，14)，(7，7)，(4，4)大小的特征图，然后利用该特征图在原图映射出不同大小的候选框(50，50)，(100，100)，(200，200)，将RPN网络输出的候选框按照置信度大小筛选出top M个候选框，此时Actor便完成了一个策略选择；

步骤2.2：Critic将上一个状态的top M个候选框统一调整尺寸至固定大小(224，224)，利用环境给出的状态即top M个候选框和奖励即top M个候选框与相应价值函数的排序一致奖励，计算出新的价值函数，这里的价值函数采用交叉双线性特征来进行计算，其计算方式是对top M个最具有代表性区域经基础网络提取特征，然后计算交叉双线性特征，得到此时的top M个双线性特征，然后利用softmax方法分别得到其类别预测概率，进而获得了其预测置信度，这样便得到了价值函数；

步骤2.3：利用Critic预测的各个动作置信度和top M个候选框的信息量进行排序一致性估计，目的是尽快让信息量大的区域得到较大的置信度值，其获得的奖励值也增大，这样在Critic指导下，Actor每次输出的动作将尽可能出现信息量最大的top M个区域的状态；

排序一致性奖励是指Actor给出某个动作状态后的top M个候选框记为事件A与其置信度记为事件B的排序一致性计算，这里采用pairwise分类损失计算该奖励值，具体如式(1.1)所示：

式中，J表示递减函数，此函数鼓励top M个候选区域与置信度排列具有排序一致性。

作为本发明进一步改进，所述步骤(3)中对融合后的特征进行预测细粒度类别，具体步骤为：

根据步骤2中Actor和Critic模块的配合计算，此时智能体执行最具有信息量的top M个候选区域这一动作后，具有较高的优势价值，因此，细粒度图像中的注意力区域也会逐渐被筛选出来，将其与原图特征进行融合后，用于细粒度类别预测；

所述训练过程采用联合训练方式进行，损失函数由两部分组成，分别是排序一致性损失函数和多区域交叉熵损失函数，排序一致性损失函数表达式为；

式中，J表示一个递减函数，此函数鼓励top M个候选区域与置信度排列具有排序一致性，A表示Actor模块产生的策略选择所输出的动作，B表示Critic模块对环境的状态所输出的置信度；

另一方面，交叉双线性特征的计算采用多区域的交叉熵损失函数，需要注意的是，将输入图像的的交叉熵损失函数的计算也包括在下式中，总的损失函数表达式如下

式中，y_t表示真实的类别标签，表示网络预测的类别标签信息。C是训练数据集上的类别总数，M表示一共有top M个候选区域；

因此，基于强化学习策略的图像细粒度识别方法的总损失函数为

L＝αL₁+βL₂ (1.4)

式中，α和β分别是超参数，至此，一种基于强化学习的图像细粒度识别研究方法便分析完毕。

本发明针对细粒度图像最具有判别力的区域难以挖掘的问题，提出了一种基于强化学习和交叉双线性特征的细粒度识别方法。使用Actor-Critic策略去挖掘图像最具有注意力的区域，Actor模块负责产生最具有判别力的top M个候选区域，Critic模块利用交叉双线性特征去评价此动作的状态值，然后利用排序一种性奖励计算当前状态下该动作的奖励值，进而得到价值优势并反馈给Actor模块，更新最具有注意力区域的输出，最后使用这些最具有判别力的区域结合原图特征进行预测细粒度类别。该方法可以较好的挖掘出细粒度图像最具有注意力的区域。经实验验证，本发明在CUB-200-2011公开数据集上的识别准确率比目前已有方法有一定的提升，分别达到了较高的细粒度识别准确率。

附图说明

图1为本发明提出的基于强化学习策略的图像细粒度识别方法示意图；

图2为本发明Critic模块交叉双线性特征计算示意图；

图3模型训练过程中测试集准确率随训练轮数变化示意图；

图4为本发明在CUB-200-2011数据集上测试样本示例。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提供一种基于强化学习策略的图像细粒度识别方法，针对图像子类的细粒度识别，目前存在的方法未能很好的挖掘出图像最具有代表性的区域，因而在判别图像细粒度类别上存在较大的不准确度。本发明在交叉双线性特征基础上结合强化学习策略提出了一种挖掘图像最具有判别力区域的的细粒度识别方法。

使用强化学习Actor-Critic策略结合交叉双线性特征去挖掘细粒度图像最具有判别力区域，然后融合原图特征进行预测细粒度类别。方法包括如下步骤：

(1)对细粒度训练数据进行增广。数据增广方式包括数据随机翻转，缩放和裁剪等。所述步骤(1)中对图像进行数据增广，具体步骤为：

(2)构造细粒度识别Actor模块和Critic模块。所述步骤(2)中对图像进构造细粒度识别Actor模块和Critic模块，具体步骤为：

如图1所示，使用候选框生成网络(Region Proposal Network，RPN)来产生局部注意力区域的候选集合，Actor的动作是指选出最具有信息量的top M个候选框。Actor对动作的选取根据Critic对上一个状态的评价，即Critic对Actor选取的top M个候选框(上一个动作执行后的状态)和上一个动作执行后的环境给出的奖励进行计算价值函数，然后输出一个评价指标，Actor将根据此评价指标来调整下一个动作的选择，也就是下一次top M个候选框的选取方案。这里Critic使用交叉双线性特征来评价Actor对动作的选取情况，并将计算出的优势函数反馈给Actor，来帮助其更新下一次的动作选取。交叉双线性特征的计算如算法0所示。

步骤2.1：利用RPN网络来生成不同尺度的top M个候选框，进而确定输出动作的策略。具体做法为：在基础网络最后一层提取图像特征后，利用不同尺度的卷积层分别生成(14，14)，(7，7)，(4，4)大小的特征图，然后利用该特征图在原图映射出不同大小的候选框(50，50)，(100，100)，(200，200)，将RPN网络输出的候选框按照置信度大小筛选出top M个候选框。此时Actor便完成了一个策略选择。如算法1所示。

步骤2.2：Critic将上一个状态的top M个候选框统一调整尺寸至固定大小(224，224)，利用环境给出的状态(top M个候选框)和奖励(top M个候选框与相应价值函数的排序一致奖励)，计算出新的价值函数，如图2所示。这里的价值函数采用交叉双线性特征来进行计算。其计算方式是对top M个最具有代表性区域经基础网络提取特征，然后计算交叉双线性特征，得到此时的top M个双线性特征，然后利用softmax方法分别得到其类别预测概率，进而获得了其预测置信度，这样便得到了价值函数。如算法2所示。

步骤2.3：利用Critic预测的各个动作置信度和top M个候选框的信息量进行排序一致性估计，目的是尽快让信息量大的区域得到较大的置信度值，其获得的奖励值也增大。这样在Critic指导下，Actor每次输出的动作将尽可能出现信息量最大的top M个区域的状态。

排序一致性奖励是指Actor给出某个动作状态后的top M个候选框(记为事件A)与其置信度(记为事件B)的排序一致性计算，这里采用pairwise分类损失计算该奖励值。具体如式(1.1)所示

(3)将经Actor-Critic策略产生的top M个候选区域的特征与原图特征进行融合，预测图像细粒度类别。所述步骤(3)中对融合后的特征进行预测细粒度类别，具体步骤为：

根据步骤2中Actor和Critic模块的配合计算，此时智能体执行最具有信息量的top M个候选区域这一动作后，具有较高的优势价值，因此，细粒度图像中的注意力区域也会逐渐被筛选出来，将其与原图特征进行融合后，用于细粒度类别预测。整体的算法流程图如算法3所示。

本发明训练过程采用联合训练方式进行，损失函数由两部分组成，分别是排序一致性损失函数和多区域交叉熵损失函数。排序一致性损失函数表达式为

L＝αL₁+βL₂ (1.4)

本发明所建立模型的实验平台如下：centos 7系统，配置E5处理器，一块NVIDIATesla P100显卡。本发明训练过程采用联合交叉熵损失函数与排序一致性损失函数进行训练，优化器采用随机梯度下降优化器SGD，初始学习率设置为lr＝0.1001,batch_size＝16,迭代100个epoch后，得到训练好的模型，并进行在加利福尼亚理工学院提出的数据集CUB200-2011数据集上进行测试。本发明中模型训练的超参数不限于如下参数。

本发明在数据集上的测试曲线如图3所示，在数据集上的测试结果如说明书下表所示

图4展示了部分测试样本的最具有注意力区域的挖掘情况，可以看出本发明较好的挖掘出了最具有注意力的区域。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.一种基于强化学习策略的图像细粒度识别方法，其特征在于：使用强化学习Actor-Critic策略结合交叉双线性特征去挖掘细粒度图像最具有判别力区域，然后融合原图特征进行预测细粒度类别，方法包括如下步骤：

(2)构造细粒度识别Actor模块和Critic模块；

2.根据权利要求1所述的一种基于强化学习策略的图像细粒度识别方法，其特征在于：所述步骤(1)中对图像进行数据增广，具体步骤为：

步骤2.1：使用离线旋转和在线旋转来增强数据，离线旋转是将数据集在[0,359]每隔10°进行旋转，在线旋转是对输入网络的图片随机进行一定角度旋转，除此外，还使用了亮度增强，随机裁剪方式进行数据增强。

3.根据权利要求1所述的一种基于强化学习策略的图像细粒度识别方法，其特征在于：所述步骤(2)中对图像进构造细粒度识别Actor模块和Critic模块，具体步骤为：

使用候选框生成网络来产生局部注意力区域的候选集合，Actor的动作是指选出最具有信息量的top M个候选框，Actor对动作的选取根据Critic对上一个状态的评价，即Critic对Actor选取的top M个候选框即上一个动作执行后的状态和上一个动作执行后的环境给出的奖励进行计算价值函数，然后输出一个评价指标，Actor将根据此评价指标来调整下一个动作的选择，也就是下一次top M个候选框的选取方案，这里Critic使用交叉双线性特征来评价Actor对动作的选取情况，并将计算出的优势函数反馈给Actor，来帮助其更新下一次的动作选取；

步骤3.1：利用RPN网络来生成不同尺度的top M个候选框，进而确定输出动作的策略。具体做法为：在基础网络最后一层提取图像特征后，利用不同尺度的卷积层分别生成(14，14)，(7，7)，(4，4)大小的特征图，然后利用该特征图在原图映射出不同大小的候选框(50，50)，(100，100)，(200，200)，将RPN网络输出的候选框按照置信度大小筛选出top M个候选框，此时Actor便完成了一个策略选择；

步骤3.2：Critic将上一个状态的top M个候选框统一调整尺寸至固定大小(224，224)，利用环境给出的状态即top M个候选框和奖励即top M个候选框与相应价值函数的排序一致奖励，计算出新的价值函数，这里的价值函数采用交叉双线性特征来进行计算，其计算方式是对top M个最具有代表性区域经基础网络提取特征，然后计算交叉双线性特征，得到此时的top M个双线性特征，然后利用softmax方法分别得到其类别预测概率，进而获得了其预测置信度，这样便得到了价值函数；

步骤3.3：利用Critic预测的各个动作置信度和top M个候选框的信息量进行排序一致性估计，目的是尽快让信息量大的区域得到较大的置信度值，其获得的奖励值也增大，这样在Critic指导下，Actor每次输出的动作将尽可能出现信息量最大的top M个区域的状态。

4.根据权利要求1所述的一种基于强化学习策略的图像细粒度识别方法，其特征在于：所述步骤(3)中对融合后的特征进行预测细粒度类别，具体步骤为：

L＝αL₁+βL₂ (1.4)