CN106980895A

CN106980895A - 基于旋转区域的卷积神经网络预测方法

Info

Publication number: CN106980895A
Application number: CN201710095188.6A
Authority: CN
Inventors: 刘子坤; 翁璐斌; 胡锦高; 杨平; 杨一平
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2017-02-22
Filing date: 2017-02-22
Publication date: 2017-07-25

Abstract

本发明涉及一种基于旋转区域的卷积神经网络预测方法，包括以下步骤：步骤1,根据输入图像生成卷积神经网络特征图和基于旋转矩形框的感兴趣区域；步骤2，根据所述卷积神经网络特征图和感兴趣区域，利用旋转感兴趣区域池化层得到特征映射图；步骤3，将所述特征映射图映射为一维特征向量；步骤4，对所述一维特征向量进行分类，得到分类结果；步骤5，对所述一维特征向量进行旋转矩形框回归预测，得到回归预测结果；步骤6，根据所述分类结果和回归预测结果输出最终预测结果。本发明中，解决了图像中由于目标发生旋转和聚集现象所带来的难以定位和识别的问题，实现了精准的定位。

Description

基于旋转区域的卷积神经网络预测方法

技术领域

本发明属于图像分析技术领域，尤其涉及一种基于旋转区域的卷积神经网络预测方法。

背景技术

由于深度学习在图像分析领域的卓越表现，近几年相关研究得到了极大推进，尤其是图像目标检测和识别领域相继推出各类经典框架。

当前最经典的用于检测和识别的框架模型有R-CNN框架，Fast RCNN框架和FasterRCNN框架三种。R-CNN框架中，先用快速方法得到大量候选矩形框，然后对图像中每个候选框区域分别提取卷积神经网络特征，然后分类；由于候选框较多，且分别提取特征，导致效率低下。Fast R-CNN框架通过对整幅图像提取特征映射图，然后从映射图中快速抽取每个矩形候选框的特征，并进行池化操作；由于不同候选框之间实现了提取特征的共享卷积计算，因此效率相比R-CNN框架得到大幅度提高。Faster R-CNN框架则更进一步，将Fast R-CNN框架需要独立生成候选区域的功能用RPN网络代替，实现了端到端的更有效模型。

然而，这三个框架应用于检测图像中具有旋转特点的目标时，并不是特别有效，尤其当旋转目标还存在聚集现象时，更难以应对。比如，遥感图像中的舰船目标检测问题，一方面不同于自然图像中的目标，遥感图像中的目标有各种旋转角度，另一方面，船只目标属于典型的条形目标，当船只聚集时，更增加了问题复杂度。这三类框架基于矩形框检测，难以对此类目标精确定位，从而影响检测性能。

发明内容

为了解决现有技术中的上述问题，即为了解决图像中由于目标发生旋转和聚集现象所带来的难以定位和识别的问题，本发明提供了一种基于旋转区域的卷积神经网络预测方法，包括以下步骤：

步骤1,根据输入图像生成卷积神经网络特征图和基于旋转矩形框的感兴趣区域；

步骤2，根据所述卷积神经网络特征图和感兴趣区域，利用旋转感兴趣区域池化层得到特征映射图；

步骤3，将所述特征映射图映射为一维特征向量；

步骤4，对所述一维特征向量进行分类，得到分类结果；

步骤5，对所述一维特征向量进行旋转矩形框回归预测，得到回归预测结果；

步骤6，根据所述分类结果和回归预测结果输出最终预测结果。

优选地，所述旋转矩形框为带有旋转角度的标准矩形框；所述旋转矩形框包括五个基本元素x,y,w,h,a；其中，x为中心列坐标，y为中心行坐标、w为旋转矩形框的长、h为旋转矩形框的宽、a为旋转矩形框的旋转角度。

优选地，所述步骤2为卷积神经网络的前传处理，具体包括：

步骤21，对所述感兴趣区域进行缩放；

步骤22，根据缩放后的感兴趣区域，在所述卷积神经网络特征图中查找包含在所述感兴趣区域内的特征数据；

步骤23，根据旋转感兴趣区域池化层中的单张映射图的池化大小，在所述特征数据中找到对应的区域小块，执行池化处理。

优选地，所述步骤2还包括卷积神经网络的后传处理，具体包括：

步骤24，遍历最后一层卷积神经网络特征图中每个位置，找到包含位置Q的所有感兴趣区域，计算得到包含该位置Q的池化小块；

步骤25，判断所述池化小块在步骤23中池化处理时的取值是否为所述位置Q的特征值；若是，则累加所述位置Q的梯度值；否则，不累加。

优选地，所述步骤5具体包括：

步骤511,采用如下损失函数进行训练：

L(p，u，t^u，v)＝L_cls(p，u)+λ[u≥1]L_loc(t^u，v) (1)

t_y＝(G_y-P_y)/(P_wsin|θ|+P_hcosθ) (5)

t_w＝log(G_w/P_w) (6)

t_h＝log(G_h/P_h) (7)

t_a＝(G_a-P_a)/(λ*180) (8)

其中，L_cls(p，u)为分类任务目标损失函数，u为训练样本的标注类别，v＝(v_x，x_y，v_w，v_h，v_a)为正样本的对应标注旋转矩形框回归目标，t＝(t_x，t_y，t_w，t_h，t_a)为预测向量，P＝(P_x，P_y，P_w，P_h，P_a)为感兴趣区域P对应的中心列坐标，中心行坐标，宽度、高度和旋转角度，θ等于P_a，G为P对应的标注样本，G＝(G_x，G_y，G_w，G_h，G_a)为感兴趣区域P对应的标注样本的中心列坐标，中心行坐标，宽度、高度和旋转角度，λ为常数。

优选地，所述步骤5还包括：

步骤512,采用如下变换函数进行预测：

其中，表示对感兴趣区域P预测的对应旋转矩形框向量值。

优选地，所述步骤5具体包括：

步骤521,采用如下损失函数进行训练：

L(p，u，t^u，v)＝L_cls(p，u)+λ[u≥1]L_loc(t^u，v) (14)

t_x＝(sinβ(G_x-P_x)-cosβ(G_y-P_y))/P_w (17)

t_y＝(sinα(G_x-P_x)-cosα(G_y-P_y))/P_h (18)

t_w＝log(G_w/P_w) (19)

t_h＝log(G_h/P_h) (20)

t_a＝(G_a-P_a)/(λ*180) (21)

其中，L_cls(p，u)为分类任务目标损失函数，u为训练样本的标注类别，v＝(v_x，v_y，v_w，v_h，v_a)为正样本的对应标注旋转矩形框回归目标，t＝(t_x，t_y，t_w，t_h，t_a)为预测向量，P＝(P_x，P_y，P_w，P_h，P_a)为感兴趣区域P对应的中心列坐标、中心行坐标、宽度、高度和旋转角度，θ等于P_a，G为P对应的标注样本，G＝(G_x，G_y，G_w，G_h，G_a)为感兴趣区域P对应的标注样本的中心列坐标、中心行坐标、宽度、高度和旋转角度，λ为常数，α＝P_a，β与α互成90度。

优选地，当α分布区间为[-90,90]度时，则

优选地，所述步骤5还包括：

步骤522,采用如下变换函数进行预测：

其中，为对感兴趣区域P预测的对应旋转矩形框向量值。

优选地，所述步骤6还包括：

根据所述分类结果和回归预测结果进行非极大值抑制处理，之后输出最终预测结果。

与现有技术相比，本发明至少具有以下优点：

通过本发明中的基于旋转区域的卷积神经网络预测设计，解决了图像中由于目标发生旋转和聚集现象所带来的难以定位和识别的问题，实现了精准的定位。

附图说明

图1是本发明提供的基于旋转区域的卷积神经网络预测方法的流程示意图；

图2为本发明提供的预测回归旋转矩形框的第一个模型的示意图；

图3为本发明预测回归旋转矩形框的第二个模型的示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在一具体实施方式中，以输入图像大小为1200*800的可见光三通道遥感图像为例子，进行舰船目标检测任务，该本发明中提供的一种基于旋转区域的卷积神经网络预测方法，如图1所示，具体包括：

S1，根据输入图像生成卷积神经网络特征图。

本实施例中选择AlexNet卷积神经网络；该神经网络有五层卷积层，在最后一层卷积层输出256张特征映射图；可以采用任意形式的卷积神经网络进行处理，本发明实施例中所选取只是其中一种方式。

S2，根据输入图像生成基于旋转矩形框的感兴趣区域。

本实施用例给出一种旋转矩形框定义方式，所述旋转矩形框为带有旋转角度的标准矩形框，旋转矩形框定义为R＝[x，y，w，h，a]，五个元素分别为中心列坐标、中心行坐标、旋转矩形框的长(旋转矩形框的长边)、旋转矩形框的宽(旋转矩形框的列宽)、旋转矩形框的旋转角度(分布区间为-90度到+90度)；其中，感兴趣区域，即潜在候选框，一般数量要比最终预测结果多10～1000个数量级。

S3，根据所述卷积神经网络特征图和感兴趣区域，利用旋转感兴趣区域池化层得到特征映射图。

该卷积神经网络的处理包括前传处理和后传处理；其中，前传处理具体包括：

S31，对所述感兴趣区域进行缩放；

本实施例中，举例，某感兴趣区域R＝[100,100,64,32,0]为第二个感兴趣区域，选择将R的列中心坐标、长、宽分别乘以1/16，得到R＝[6.25,6.25,4,2,0]。

S32，根据缩放后的感兴趣区域，在所述卷积神经网络特征图中查找包含在所述感兴趣区域内的特征数据；

在步骤S1中得到的全图像中的每一张特征图中(记为M张)根据步骤S31中得到的缩放后的旋转矩形框信息，找到包含在相应感兴趣区域内的特征数据，记为MR，总计M个MR；本实施例中，M＝256，则分别有256个MR区域；MR区域数据位于所有特征映射图上由四个点(4.25,5.25),(8.25,5.25),(8.25,7.25),(4.25,7.25)直线首尾相连所围区域内。

步骤33，根据旋转感兴趣区域池化层中的单张映射图的池化大小，在所述特征数据中找到对应的区域小块，执行池化处理。

根据预定义的单张映射图中感兴趣区域的池化大小(记为D)，从所述步骤S32中的特征数据MR中找到对应的区域小块，执行池化操作。具体池化操作不限于某种类型。如可以是从小块中选取最大值、均值或中值等。本步骤最终将会得到M*D维特征。本实施例中D取为2*2,池化操作选择最大池化。本实施例将所有256个MR区域分别分为2*2个格子区域，各格子区域大小长为4/2，宽为2/2。则各MR区域的第一个格子区域由四个点连线所围区域组成(4.25,5.25),(6.25,5.25),(6.25,6.25),(4.25,6.25)，记为MRB1。由于图像坐标取整，本实施例例中MRB1区域仅包含两个数据，坐标分别为：(5,6)和(6,6)，则最大池化操作就是从所有MRB格子区域中分别取最大值。这里假定取第一张特征映射图，坐标(5,6)处特征值为0.6,坐标(6,6)处特征值为0.8，则池化操作得到值为0.8，最终将得到256*4＝1024维池化后的特征值。由于R为第二个感兴趣区域，则MRB1池化得到的0.8则位于所有输出数据的第1024*1+0*4+0＝1024个位置。

后传处理为根据之前池化结果将梯度反传回前一层，具体包括：

步骤34，遍历最后一层卷积神经网络特征图中每个位置，找到包含位置Q的所有感兴趣区域，计算得到包含该位置Q的池化小块；

对池化层前一层(即步骤S1中的最后一层卷积神经网络)的每一个位置(记为Q＝(c,x,y)，分别为通道、列坐标、行坐标)进行遍历，找出包含该位置的所有感兴趣区域，并进一步计算得到包含该位置的池化小块。这里的每个通道与步骤S32中的相应特征映射图相对应。本实施例中，通道总数为256，存放回传梯度的数据维数与步骤S32中的特征映射图维数完全相同。这里举例说明，当遍历到Q＝(0,6,6)时，这里通道为第一个，我们可以发现步骤S31中的感兴趣区域R包含此坐标，对应该通道的特征映射图为第一张，也就是第一个MR包含Q，进一步计算后，发现对应该MR区域中的MRB1子区域包含该坐标，则MRB1就是我们要找的池化小块。除此之外，可能还存在别的感兴趣区域对应的池化小块。

步骤35，判断所述池化小块在步骤33中池化处理时的取值是否为所述位置Q的特征值；若是，则累加所述位置Q的梯度值；否则，不累加。

本实施用例中，以步骤S34中的池化小块MRB1为例，找到MRB1对应池化输出坐标，即步骤S33中得到的坐标：1024*1+0*4+0＝1024。这里假定下一层回传的梯度值中，该坐标处值为0.12，则前一层梯度图中，步骤S34中对应的Q＝(0,6,6)点处值累加0.12。

S4，将所述特征映射图映射为一维特征向量。

将步骤S3中前传时得到的每个旋转区域的特征映射图映射成为一维特征向量，即“旋转感兴趣区域特征向量”。这里的映射方式不限于某一种特定方式。比如：可以是直接将得到的池化特征映射图依次拉伸成一维向量并收尾拼接，也可以经过若干全连接层进行非线性映射。本实施用例中，选择按照步骤S1中的AlexNet卷积神经网络中的三层全连接层将步骤S3中得到的池化特征映射为4096维一维特征向量。

S5，对所述一维特征向量进行分类，得到分类结果。

这里分类方法不限于特定方法。本实施例中，选择步骤S1中的AlexNet模型中的softmax分类方法进行分类。

S6，对所述一维特征向量进行旋转矩形框回归预测，得到回归预测结果。

本步骤中，在进行旋转矩形框回归预测时，包括采用损失函数进行训练和采用变换函数进行预测两步，其中包括两种方式，选取任一种方式均可。采用如下两种方式进行旋转矩形框回归训练和预测时的原理示意图如图2～3所示，这两种方式具体包括：

方式一

训练时，包括：

L(p，u，t^u，v)＝L_cls(p，u)+λ[u≥1]L_loc(t^u，v) (1)

t_y＝(G_y-P_y)/(P_wsin|θ|+P_hcosθ) (5)

t_w＝log(G_w/P_w) (6)

t_h＝log(G_h*P_h) (7)

t_a＝(G_a-P_a)/(λ*180) (8)

其中，L_cls(p，u)为分类任务目标损失函数，u为训练样本的标注类别，v＝(v_x，v_y，v_w，v_h，v_a)为正样本的对应标注旋转矩形框回归目标，t＝(t_x，t_y，t_w，t_h，t_a)为预测向量，P＝(P_x，P_y，P_w，P_h，P_a)为感兴趣区域P对应的中心列坐标，中心行坐标，宽度、高度和旋转角度，θ等于P_a，G为P对应的标注样本，G＝(G_x，G_y，G_w，G_h，G_a)为感兴趣区域P对应的标注样本的中心列坐标，中心行坐标，宽度、高度和旋转角度，λ为常数。

测试时，包括：

其中，表示对感兴趣区域P预测的对应旋转矩形框向量值。

方式二

训练时，包括：

L(p，u，t^u，v)＝L_cls(p，u)+λ[u≥1]L_loc(t^u，v) (14)

t_x＝(sinβ(G_x-P_x)-cosβ(G_y-P_y))/P_w (17)

t_y＝(sinα(G_x-P_x)-cosα(G_y-P_y))/P_h (18)

t_w＝log(G_w/P_w) (19)

t_h＝log(G_h/P_h) (20)

t_a＝(G_a-P_a)/(λ*180) (21)

其中，α＝P_a，β与α互成90度。

在该方式二中，当α分布区间为[-90,90]度时，则

在该方式二中预测时，包括：

其中，表示对感兴趣区域P预测的对应旋转矩形框向量值。

S7，根据所述分类结果和回归预测结果输出最终预测结果。

其中，在输出最终预测结果之前，还可以根据所述分类结果和回归预测结果执行基于旋转矩形框的非极大值抑制处理。

本实施用例中，对旋转矩形框的非极大值基于以下规则：若任意两个旋转矩形框之间的IoU大于等于0.5，则保留得分更高的那个感兴趣区域。这里的IoU指两个旋转矩形框的交叠区域面积除以他们俩合并后的面积。

本发明的有益效果或优点是，本发明通过提出的三个创新点，可以实现对经典的卷积神经网络模型的扩展，使得模型能够应对图像中具有旋转、聚集特点的目标的检测和识别任务。三个创新点包括：第一、包含一个所提出的旋转感兴趣区域池化层，以克服传统模型无法快速抽取旋转矩形框区域特征的问题，以及无法完成基于旋转矩形框区域的梯度回传功能；第二、包含一个所提出的用于回归预测旋转矩形框的方法，使得对目标检测结果具有更精确定位的能力；第三、包含一个基于旋转矩形框的非极大抑制过程，以克服基于矩形框的非极大值方法对于旋转、聚集目标错误抑制的缺点。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于旋转区域的卷积神经网络预测方法，其特征在于，包括以下步骤：

步骤3，将所述特征映射图映射为一维特征向量；

步骤4，对所述一维特征向量进行分类，得到分类结果；

2.根据权利要求1所述的基于旋转区域的卷积神经网络预测方法，其特征在于，所述旋转矩形框为带有旋转角度的标准矩形框；所述旋转矩形框包括五个基本元素x,y,w,h,a；其中，x为中心列坐标，y为中心行坐标、w为旋转矩形框的长、h为旋转矩形框的宽、a为旋转矩形框的旋转角度。

3.根据权利要求1所述的基于旋转区域的卷积神经网络预测方法，其特征在于，所述步骤2为卷积神经网络的前传处理，具体包括：

步骤21，对所述感兴趣区域进行缩放；

4.根据权利要求3所述的基于旋转区域的卷积神经网络预测方法，其特征在于，所述步骤2还包括卷积神经网络的后传处理，具体包括：

5.根据权利要求1所述的基于旋转区域的卷积神经网络预测方法，其特征在于，所述步骤5具体包括：

步骤511,采用如下损失函数进行训练：

L(p，u，t^u，v)＝L_cls(p，u)+λ[u≥1]L_loc(t^u，v) (1)

L_{l o c} (t^{u}, v) = Σ_{i &Element; {x, y, w, h, a}} {smooth}_{L_{1}} (t_{i}^{u} - v_{i}) - - - (2)

{smooth}_{L_{1}} (x) = \{\begin{matrix} 0.5 x^{2} & \begin{matrix} i f & | x | < 1 \end{matrix} \\ | x | - 0.5 & o t h e r w i s e \end{matrix} - - - (3)

t_{x} = \frac{G_{x} - P_{x}}{(P_{w} c o s θ + P_{h} s i n | θ |)} - - - (4)

t_y＝(G_y-P_y)/(P_wsin|θ|+P_hcosθ) (5)

t_w＝log(G_w/P_w) (6)

t_h＝log(G_h/P_h) (7)

t_a＝(G_a-P_a)/(λ*180) (8)

6.根据权利要求5所述的基于旋转区域的卷积神经网络预测方法，其特征在于，所述步骤5还包括：

步骤512,采用如下变换函数进行预测：

{\hat{G}}_{x} = t_{x} (P_{w} c o s θ + P_{h} s i n | θ |) + P_{x}, - - - (9)

{\hat{G}}_{y} = t_{x} (P_{w} s i n | θ | + P_{h} c o s θ) + P_{y}, - - - (10)

{\hat{G}}_{w} = P_{w} \exp (t_{w}), - - - (11)

{\hat{G}}_{h} = P_{h} \exp (t_{h}), - - - (12)

{\hat{G}}_{a} = λ * 180 * t_{a} + P_{a}, - - - (13)

其中，表示对感兴趣区域P预测的对应旋转矩形框向量值。

7.根据权利要求1所述的基于旋转区域的卷积神经网络预测方法，其特征在于，所述步骤5具体包括：

步骤521,采用如下损失函数进行训练：

L(p，u，t^u，v)＝L_cls(p，u)+λ[u≥1]L_loc(t^u，v) (14)

L_{l o c} (t^{u}, v) = Σ_{i &Element; {x, y, w, h, a}} {smooth}_{L_{1}} (t_{i}^{u} - v_{i}) - - - (15)

{smooth}_{L_{1}} (x) = \{\begin{matrix} 0.5 x^{2} & \begin{matrix} i f & | x | < 1 \end{matrix} \\ | x | - 0.5 & o t h e r w i s e \end{matrix} - - - (16)

t_x＝(sinβ(G_x-P_x)-cosβ(G_y-P_y))/P_w (17)

t_y＝(sinα(G_x-P_x)-cosα(G_y-P_y))/P_h (18)

t_w＝log(G_w/P_w) (19)

t_h＝log(G_h/P_h) (20)

t_a＝(G_a-P_a)/(λ*180) (21)

其中，L_cls(p，u)为分类任务目标损失函数，u为训练样本的标注类别，v＝(v_x，v_y，v_w，v_h，v_a)为正样本的对应标注旋转矩形框回归目标，t＝(t_x，t_y，t_w，t_h，t_a)为预测向量，P＝(P_x，P_y，P_w，P_h，P_a)为感兴趣区域P对应的中心列坐标，中心行坐标，宽度、高度和旋转角度，θ等于P_a，G为P对应的标注样本，G＝(G_x，G_y，G_w，G_h，G_a)为感兴趣区域P对应的标注样本的中心列坐标，中心行坐标，宽度、高度和旋转角度，λ为常数，α＝P_a，β与α互成90度。

8.根据权利要求7所述的基于旋转区域的卷积神经网络预测方法，其特征在于，当α分布区间为[-90,90]度时，则

β = - \frac{α}{| α |} (\frac{π}{2} - | α |) = α (1 - \frac{π | α |}{2}) .

9.根据权利要求7或8所述的基于旋转区域的卷积神经网络预测方法，其特征在于，所述步骤5还包括：

步骤522,采用如下变换函数进行预测：

{\hat{G}}_{x} = \frac{t_{x} P_{w} c o s α - t_{y} P_{h} c o s β}{c o s α * s i n β - \cos β * s i n α} + P_{x} - - - (22)

{\hat{G}}_{y} = \frac{t_{x} P_{w} s i n α - t_{y} P_{h} s i n β}{\cos α * s i n β - \cos β * s i n α} + P_{y} - - - (23)

{\hat{G}}_{w} = P_{w} \exp (t_{w}) - - - (24)

{\hat{G}}_{h} = P_{h} \exp (t_{h}) - - - (25)

{\hat{G}}_{a} = λ * 180 * t_{a} + P_{a} - - - (26)

其中，表示对感兴趣区域P预测的对应旋转矩形框向量值。

10.根据权利要求1～4中任一项所述的基于旋转区域的卷积神经网络预测方法，其特征在于，所述步骤6还包括：