CN108564025A

CN108564025A - 一种基于可变形卷积神经网络的红外图像物体识别方法

Info

Publication number: CN108564025A
Application number: CN201810316553.6A
Authority: CN
Inventors: 肖立军; 廖志伟; 邹国惠; 裴星宇; 万新宇; 李晨熙; 韩玉龙; 吴伟力; 覃佳奎; 姜媛
Original assignee: Guangdong Power Grid Co Ltd; Zhuhai Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Zhuhai Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2018-09-21

Abstract

本发明公开了一种基于可变形卷积神经网络的红外图像物体识别方法，包括构建训练集与测试集，搭建卷积神经网络架构，在最后一层加上softmax分类器，设置目标函数，采用线性或非线性变形的卷积核进行采样并在池化层采用目前业界最好的基于规则块采样的兴趣区域(region of interests,ROI)池化方法进行池化操作；按经验设置学习率参数，能很容易进行标准反向传播端到端的训练，从而得到可变形卷积网络。经实验证明，本发明在卷积神经网络中引入了学习空间几何形变的能力，更好地解决了具有空间形变的图像识别任务。提高了卷积神经网络的几何变换建模的能力，在目标检测和识别这些视觉任务上的有效性，成功学习到空间上密集的几何形变。

Description

一种基于可变形卷积神经网络的红外图像物体识别方法

技术领域

本发明涉及人机交互、计算机视觉领域及物体识别领域，更具体地，涉及一种基于可变形卷积神经网络的红外图像物体识别方法。

背景技术

体识别是计算机视觉中一个十分重要的研究领域，包含人脸识别、手写体数字识别、手势识别以及物体识别等，可以广泛地应用于人机交互、图像分类以及图像检索等领域。衡量一个物体识别系统好坏的两个主要指标为：识别率核识别速度。一般情况而言，识别率越高意味着识别速度相对较慢，而识别速度越快意味着识别率相对较低。因此，如何权衡而这的利弊一直是物体识别领域一个不可回避的问题。

物体识别系统主要包含特征提取、分类器判别等两个方面。近年来，卷积神经网络算法的发展极大地提高了物体识别技术的正确率，大部分已存在的卷积神经网络的深度结构改进方法大都趋向于调优网络的宽度与深度、改进激励函数、设计多样的卷积操作等等。2015年Simonyan和Zisserman提出VGG卷积神经网络，他们通过研究卷积神经网络的深度与大尺度图片识别精度的关系，提出了一个更深的卷积神经网络架构。通过调优网络的宽度与深度，达到了最当时最好的性能。2014年Min等人提出了一种深度网络结构叫做NIN卷积神经网络。在该网络结构中，作者引入了1*1的卷积操作，通过级联两层这样的卷积层，实现了多层感知器的功能，在拉深网络深度，调优网络宽度的同时，实现了当时最优的分类性能。

基于卷积神经网络的物体识别算法中，特征提取占据了物体识别的大部时间，特征提取的精确度也决定着算法的性能。然而上述方法的特征提取的精确度依然存在不可忽视的局限性。这些局限来自于卷积网络的基本构成单元，即卷积操作。该操作在输入图像的每个位置进行基于规则格点位置的采样，然后对于采样到的图像值做卷积并作为该位置的输出。为了削弱这个限制，本专利对卷积核中每个采样点的位置都增加了一个偏移的变量。通过这些变量，卷积核就可以在当前位置附近随意的采样，而不再局限于之前的规则格点。本发明扩展后的卷积操作称为可变形卷积。

发明内容

本发明的目的是解决上述一个或多个缺陷，提出一种基于可变形卷积神经网络的红外图像物体识别方法。

为实现以上发明目的，采用的技术方案是：

一种基于可变形卷积神经网络的红外图像物体识别方法，包括以下步骤：

S1：收集数据库样本并设定训练集与测试集，其中数据库样本采用COCO、PASCALVOC并设定类别和每一个类别在分类器中的编码，构建训练集；

S2：搭建卷积神经网络架构，通过交迭若干个卷积层和池化层设置卷积神经网络的深度与宽度架构；

S3：在卷积层采用可变形卷积核进行采样，通过加入一个额外的卷积层来学习offset偏移量，共享输入特征图，然后把输入特征图和训练得到的offset偏移量共同作为可变形卷积层的输入层，此时可变形卷积层采样点发生偏移，再进行卷积；

S4：在池化层采用可变形兴趣区域进行池化操作，其中ROI被分为n*n个bin，被输入到一个额外的全连接层学习offset，然后通过一个可变形兴趣区域池化层使每个bin发生偏移；

S5：在卷积神经网络的最后一层加上softmax分类器并设置目标函数；

S6：设置学习率参数，采用后向传播算法，使用训练集训练卷积神经网络模型一次，使用的得到的训练后的模型去识别测试集数据，统计整体识别率；

S7：重复步骤S6，直到目标函数值完全收敛，识别率不再提高为止，此时网络参数训练完毕，得到可变形卷积神经网络模板，即红外图像物体识别系统；

S8：应用该系统进行红外图像识别。

其中步骤S1所述测试集为南方电网xx设备拍摄的变电站设备红外图像。

其中步骤S3所述训练得到的offset偏移量包括通过外加offset field来训练卷积窗口的形状，卷积窗口在offset field上滑动就呈现了卷积像素偏移的效果，达到采样点优化的效果，其中采样公式为

其中p₀指特征图上的任意像素值，p_n指在卷积核中位置相应的值，Δp_n指卷积核发生的位移量。接着，网络按照不规则的偏移量(p_n+Δp_n)采样；又因为Δp_n通常是不连续的，此处采用双线性插值，插出每个点的像素值。

其中所述offset field的大小与输入层图片大小一致。

其中步骤S4所述ROI被分为3*3个bin。

其中步骤S4所述池化操作中池化公式为

p₀是ROI左上角的点，n_ij(i行，j列)是固定大小bin里的总像素数，同样采用双线性插值，插出每个点的像素值。

其中步骤S5所述目标函数为计算所得值与目标标签值的差的平方。

与现有技术相比，本发明的有益效果是：

本发明提出了可变形卷积神经网络，通过端到端的自学习自适应过程，得到最优的池化模板值，有效地提取了更感兴趣的特征，进而提升了物体识别的性能。同时，该方法在池化层模板扫描特征图个数保持不变，只增加少量关于偏移量的参数和计算，能保证在计算速度略有下降的情况下，提升识别性能。

附图说明

图1为本发明的流程图；

图2为本发明所提可变形卷积核示意原理图；

图3为本发明可变形卷积采样示意原理图；

图4为本发明可变形兴趣区域池化示意原理图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

一种基于可变形卷积神经网络的红外图像物体识别方法，如图1所示，包括以下步骤：

S1：收集数据库样本并设定训练集与测试集，训练集采用COCO，该数据集图像包括91类目标，328,000影像和2,500,000个label。并设定每一类别在分类器中的编码，例如三类物体汽车、猴子、盆栽分别编码为100、010和001。测试集采用变电站设备的红外图像。

在此我们有两组参数需要训练：滤波器权重和offset位移偏移量。首先根据原始卷积核的大小初始化一个常规卷积核，在本实例中应用一个3×3的卷积核。对于传统的卷积窗口偏移向量是这样的：

R＝{(-1,-1),(-1,0),...,(0,1),(1,1)}

典型的9点方格，中间向8个方向偏移8个点。在本发明中引入位移偏移量后，卷积输出的公式为：

其中p₀指特征图上的任意像素值，p_n指在卷积窗口中的每个像素点，Δp_n指卷积窗口中的每个像素点发生的位移量，x是输入层像素点集合。接着，网络按照不规则的偏移量(p_n+Δp_n)采样；又因为Δp_n不是整数像素，而是一个不连续的高精度的小数，不能直接获取像素坐标，此处采用双线性插值，插出每个点的像素值。

本实例中的双线性插值本质上就是找到小数的p_n所在的图像周围4像素的格点，进行双向的线性差值。

其中p＝p₀+p_n+Δp_n，指二维空间中的任意位置，q指输入图像中的任意像素点，G指双线性插值的核函数，它可由两个一维的线性差值矢量相乘得到：

G(q,p)＝g(q_x,p_x)·g(q_y,p_y)

其中g(a,b)为一维线性差值函数：

g(a,b)＝max(0,1-|a-b|)

如图2所示，可变形卷积单元中增加的偏移量是网络结构的一部分，把原来的卷积过程分成两路，一路学习偏移量Δp_n，输出H×W×2N的Δp_n，和输入特征图的空间维度是一致的，N表示卷积核中像素个数，2N的意思是有x,y两个方向的offset，从而可以根据公式(3)通过梯度反向传播进行端到端的学习。获得偏移量后，对于原始卷积的每一个卷积窗口，不再按照传统方法规整地滑动窗口，而是通过叠加平移量后的窗口进行采样，采样过程和传统方法一样。

加上该偏移量的学习之后，可变形卷积核的大小和位置可以根据当前需要识别的图像内容进行动态调整，其直观效果就是不同位置的卷积核采样点位置会根据图像内容发生自适应的变化，从而适应不同物体的形状、大小等几何形变。

S4：在池化层采用可变形兴趣区域进行池化操作，其中ROI被分为n*n个bin，被输入到一个额外的全连接层学习offset，然后通过一个可变形兴趣区域池化层使每个bin发生偏移；其中池化的公式如下：

其中p₀是ROI左上角的点，n_ij(i行，j列)是固定大小bin里的总像素数。如对ROI进行可变形操作：依然是对每个输出像素加一个偏移量Δp_ij，Δp_ij也不是整数像素，同样采用双线性插值，插出每个点的像素值。图3中多加入的全连接层主要用于基于候选区域的目标检测算法中，offset通过一个全链接层学习。

传统的卷积神经网络的池化位置是人工设计的模板，在提取特征值时，往往表现出一定的局限性。例如最大池化相当于提取了高频特征，而均值池化则提取了低频特征。而ROI能把任意大小的区域转化成固定大小bin的特征图。如图3所示，本实例中通过ROI把上层的输出特征图转化成3×3大小的池化特征图，然后连接一层全连接层，即可输出初始化的3×3大小的offset偏移量矩阵。并在端到端的池化模板学习中使用后向梯度传播算法，每个滤波器内的滤波权值在每次循环中都在自学习更新，不断更新该offset模板参数，直到达到最优值。

S5：在卷积神经网络的最后一层加上softmax分类器并设置目标函数；其中所述目标函数为计算所得值与目标标签值的差的平方。

S6：设置学习率参数，采用后向传播算法，使用训练集训练卷积神经网络模型一次，使用的得到的训练后的模型去识别测试集数据，统计整体识别率

S8：应用该系统进行红外图像识别。

图4展示了两层的3×3卷积层的映射。对于标准的卷积，后面层的特征图上的一个点，映射到前面层所对应的感受野是规则的，无法考虑到不同目标的外形、大小不同；而可变形的卷积则考虑到了目标的形变，映射到前面层的采样点大多会覆盖在目标上面，采到更多我们感兴趣的信息。

本发明优选实例的红外图像物体识别方法，通过引入了两个模块：可变形卷积核和可变形ROI来增强网络模型变换的能力，可变形卷积核通过改变采样点的位置并学习采样点的偏置，使得采样点位置能够随着图像内容变化而变化。它不需要任何额外的监督信号，可以直接通过目标任务学习得到。它适用于所有待识别目标具有一定几何形变的任务(几乎所有重要的视觉识别任务都有此特点，人脸、行人、车辆、文字、动物等)，它可以直接由已有网络结构扩充而来，无需重新预训练；它可以方便地取代任何已有视觉识别任务的卷积神经网络中的若干个标准卷积单元，并通过标准的反向传播进行端到端的训练。它仅增加了很少的模型复杂度和计算量，且显著提高了识别精度。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于可变形卷积神经网络的红外图像物体识别方法，其特征在于，包括以下步骤：

S1：收集数据库样本并设定训练集与测试集，其中数据库样本采用COCO、PASCAL VOC并设定类别和每一个类别在分类器中的编码，构建训练集；

S8：应用该系统进行红外图像识别。

2.根据权利要求1所述的一种基于可变形卷积神经网络的红外图像物体识别方法，其特征在于，步骤S1所述测试集为南方电网xx设备拍摄的变电站设备红外图像。

3.根据权利要求1所述的一种基于可变形卷积神经网络的红外图像物体识别方法，其特征在于，步骤S3所述训练得到的offset偏移量包括通过外加offset field来训练卷积窗口的形状，卷积窗口在offset field上滑动就呈现了卷积像素偏移的效果，达到采样点优化的效果，其中采样公式为

4.根据权利要求3所述的一种基于可变形卷积神经网络的红外图像物体识别方法，其特征在于，所述offset field的大小与输入层图片大小一致。

5.根据权利要求1所述的一种基于可变形卷积神经网络的红外图像物体识别方法，其特征在于，步骤S4所述ROI被分为3*3个bin。

6.根据权利要求1所述的一种基于可变形卷积神经网络的红外图像物体识别方法，其特征在于，步骤S4所述池化操作中池化公式为

7.根据权利要求1所述的一种基于可变形卷积神经网络的红外图像物体识别方法，其特征在于，步骤S5所述目标函数为计算所得值与目标标签值的差的平方。