CN109344878B

CN109344878B - 一种基于ResNet的仿鹰脑特征整合小目标识别方法

Info

Publication number: CN109344878B
Application number: CN201811038980.9A
Authority: CN
Inventors: 段海滨; 王晓华; 邓亦敏; 李晗; 辛龙; 郭彦杰; 孙永斌; 徐小斌; 张锡联
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2021-03-30
Anticipated expiration: 2038-09-06
Also published as: CN109344878A

Abstract

本发明公开一种基于ResNet的仿鹰脑特征整合小目标识别方法：步骤一、建立小目标识别图库；步骤二、初始化设置；步骤三、图像归一化：计算小目标识别图库中所有图像的均值与方差，并利用该均值和方差对所有图像进行归一化，并对图像大小进行归一化；步骤四、逐层计算ResNet‑34卷积层输出；步骤五、仿鹰脑特征整合；步骤六、小目标分类；步骤七、完成小目标分类网络训练；步骤八、小目标分类网络测试。本发明方法使用全局池化操作能够大大减少全连接层的参数，使用特征并行融合的方法能够同时利用不同层次的特征进行小目标识别，从而达到更好的分类效果。

Description

一种基于ResNet的仿鹰脑特征整合小目标识别方法

技术领域

本发明是一种基于ResNet的仿鹰脑特征整合小目标识别方法，属于计算机视觉技术领域。

背景技术

在所有的动物中，鹰眼观察动物的敏锐程度名列前茅，且以视野宽、目光敏锐著称。从外形上来看，鹰的眼睛比较圆，以晶体偏平、远离接受光线的视网膜为特征，因此鹰的视觉系统具有长焦距特点，且具有长短焦距转换的功能，这进一步增强了它的灵敏度。但通常因为鹰的眼睛没有接收到充足的光线，而使图像变得较黑。为了克服这个潜在的不利条件，鹰通过大的瞳孔使眼睛充满光线来进行改进。此外鹰作为一种依靠敏锐视觉捕获猎物信息的动物，不仅能在一瞬间把扁平的“远视眼”调整为“近视眼”，还能快速将眼球调节成筒状，这正是它在快速飞行中仍能看清并准确抓捕猎物的原因所在。鹰的视觉系统中存在多个视觉核团，核团对视觉信息的高效、精准的处理能力保证了其能够在高空中准确识别地面的小目标。鹰的生活环境和捕食习惯决定了其更加适用于自上向下的视景下的目标识别，尤其是在目标较小、目标与背景对比度较低、目标与背景有明显相对运动情况下的目标识别。

实时性好、定位精度高和抗干扰能力强的目标识别算法已成为图像目标识别技术的攻关重点，具有重要的军事、经济和社会价值。近几年，研究者们对自主目标识别的研究已引起了重视。自主目标识别被定义为，通过获取来自一个或者多个传感器的信息，提取轮廓，把目标从周围区域中分离出来，然后根据描述的特征识别其形状等信息，从而检测并识别出目标类型。这种方法通常适用于预先已知特征的情况，识别过程中需要提前对某一种或某几种目标进行特征训练。自主目标识别技术有着重要且广泛的应用移动机器人、战车与坦克、飞机、导弹、舰船等军事领域和航空航天、科学探测、天文观测以及视频监控等民用领域具有越来越广泛的应用，也成为自动控制、计算机视觉和模式识别等领域的研究热点。

使用无人机执行监视或目标跟踪等任务时图像传感器是非常重要的信息来源，通过在无人机上装载摄像机获取图像，然后将图像传输至地面系统。进而，地面系统通过对图像或其他数据进行分析处理，完成目标的检测、识别与定位，从而为下一步作战计划或民事应用提供足够的信息。而由于无人机的飞行特性复杂，飞行速度较高、成像条件多变，因此具有更为复杂的图像运动特性，其获得的图像与地面静止摄像机所拍摄的图像具有较大差异。如无人机多在某一局部地区完成监测任务时，特殊目的下需要对地面目标进行实时跟踪飞行，此时其飞行姿态多变，同时飞机与地面景物之间的相对运动显著，成像系统获得的图像产生着较大的畸变和直线、旋转运动模糊。受特殊天气和光照、相机离焦等因素的影响，获取的遥感图像会出现对比度低、模糊甚至遮挡现象。尤其是当其飞行高度较高时所得图像中的目标所占像素数量会大大下降。图像质量的降低，更不利于目标识别。由此，鹰眼的很多生物学机制与无人机动态小目标识别的技术需求十分吻合。

本发明模拟鹰的离顶盖通路中的相关核团对视觉信息的整合作用，对ResNet模型进行改进，并在此基础上提出了一种基于ResNet的仿鹰脑特征整合小目标识别方法，并建立了小目标识别图库对方法进行测试。

发明内容

本发明的目的在于提出了一种基于ResNet的仿鹰脑特征整合小目标识别方法，模拟鹰离顶盖通路对视觉特征的整合作用，对ResNet模型进行改进，综合利用模型的浅层特征和深层特征，从而提供一种精确的无人机下视场景目标识别方法，对航拍小目标进行准确识别。

本发明一种基于ResNet的仿鹰脑特征整合小目标识别方法，针对无人机下视场景目标识别问题提出了一种准确度高、鲁棒性强的小目标识别方法，并建立了小目标识别图库对方法进行测试。具体步骤如下：

步骤一：建立小目标识别图库。本发明针对小目标识别问题，在Xia等人建立的DOTA图库的基础上，将图库中包含的目标提取并保存，从而建立了一个包含有15类遥感目标的小目标识别图库。DOTA图库中含有棒球场，篮球场，桥梁，田径场，海港，直升机，大型车辆，飞机，环岛，船，小型车辆，足球场，油罐，游泳池，网球场15类目标，共有9925个样本。在原DOTA图库中目标的标注信息是目标的外接矩形，该外接矩形中包含旋转信息，因此本发明按照标注信息对目标区域存储。

步骤二：初始化设置。设置读入训练图像的列表及路径，设置算法训练过程中的相关参数，包括超参数：batchsize，迭代次数，优化器类型，学习率。

步骤三：图像归一化。计算小目标识别图库中所有图像的均值与方差，并利用该均值和方差对所有图像进行归一化，并对图像大小进行归一化。

步骤四：逐层计算ResNet34卷积层输出。假设卷积神经网络输入为x，原期望某卷积层的输出为H(x)，ResNet网络中的残差学习模块目标为残差函数F(x)，其定义如下：

F(x)＝H(x)-x (1)

普通网络结构中直接拟合H(x)，而在残差学习模块中第二个卷积层拟合的是F(x)，将网络输入x通过右侧的恒等连接跳跃左侧的两层卷积层，并与左侧所得的残差函数F(x)相加，最终输出H(x)＝F(x)+x。左侧残差学习模块中包含两个卷积层，设第一个卷积层的权重矩阵为W₁，第二个卷积层的权重为W₂，则第二层输出F(x,{W₁,W₂})＝W₂ReLU(W₁x)。当输入维数和输出维数不同时，在恒等连接时先对输入做线性变换再与残差相加，计算如下：

H(x)＝F(x,{W₁,W₂})+W_sx (2)

其中，W_s为线性变换的权重矩阵。在BottleNeck结构中首先使用1×1卷积核降低输入层网络维度，然后使用3×3卷积核学习特征，再使用1×1卷积核恢复网络维度。ResNet中conv3_x层输出为28×28×128维，conv4_x层输出为14×14×256维，conv5_x层输出为7×7×512维。

步骤五：仿鹰脑特征整合。圆核和外纹体是鹰脑离顶盖通路中除视顶盖之外的重要核团，其中圆核属于丘脑区域，而外纹体属于端脑区域。圆核是视觉信息由视顶盖中央灰质层到外纹体传递过程中的重要核团。视顶盖对其接收的信息进行加工整合后通过神经纤维向更高级的核团传递，其上行投射经顶盖-丘脑纤维束后结束于丘脑圆核区域。在本发明中模拟鹰脑离顶盖通路的特征整合作用。使用全局平均池化(Global Average Pooling)对conv3_x层、conv4_x层、conv5_x层中的各个特征图进行整合，其计算过程是对每一个特征图中所有的特征值求平均，将该均值作为对应特征图的输出值。以对conv3_x层的28×28×128维特征图进行池化为例，对每一个28×28的特征图分别进行池化，每个特征图得到一个均值，则128个特征图可以得到128个均值，即最终conv3_x层输出一个1×1×128维的特征图，此时的特征是一个向量。对conv3_x层、conv4_x层、conv5_x层三层特征分别进行池化操作，在该操作后conv3_x层池化特征输出为1×1×128维，conv4_x层池化特征输出为1×1×256维，conv5_x层池化特征输出为1×1×512维。

步骤六：小目标分类。将步骤五中仿鹰脑特征整合操作得到的conv3_x层、conv4_x层、conv5_x层输出的1×1×128维，1×1×256维，1×1×512维特征并联起来，得到一个1×1×896维特征，然后将该特征输入到全连接层。仿鹰脑信息整合具体操作如图1所示。由于本发明面对的小目标图像分类识别问题是一个15类的分类问题，即全连接层是一个896维到15维的映射，最终得到分类结果。仿鹰脑信息整合改进ResNet模型如图2所示。

步骤七：完成小目标分类网络训练。按照步骤二到六进行神经网络训练，判断是否达到了设定的训练迭代次数，若达到训练迭代次数则停止训练，否则使用步骤二设定的优化器与学习率等参数进行参数迭代训练。

步骤八：小目标分类网络测试。读入步骤一建立的小目标识别图库中的小目标图像，并重复步骤二到步骤六提取特征完成小目标分类测试，并与图库中给定的标签对比计算正确率。

本发明一种基于ResNet的仿鹰脑特征整合小目标识别方法，其优点及功效在于：该方法模拟鹰脑离顶盖通路中圆核与外纹体的信息整合机制对ResNet-34网络中不同层次的特征进行并行融合。分别使用全局平均池化操作对ResNet-34网络中的conv3_x、conv4_x、conv5_x三个卷积层的输出特征图进行池化操作，并对池化后的特征进行并行融合，输入全连接层进行分类。使用全局池化操作能够大大减少全连接层的参数，使用特征并行融合的方法能够同时利用不同层次的特征进行小目标识别，从而达到更好的分类效果。

附图说明

图1仿鹰脑信息整合具体操作。

图2仿鹰脑信息整合改进ResNet模型。

图3本发明的整体流程。

表1小目标识别图库具体信息

表2本发明方法与深度学习方法准确率对比

具体实施方式

下面结合附图和实施例，对本发明的技术方案做进一步的说明。

下面通过具体的小目标识别实例来验证本发明所设计方法的有效性。本实例使用的深度学习框架为PyTorch，它是使用GPU和CPU优化的深度学习张量库，在该框架中提供了自动求导机制，具有很强的灵活性和快速性，便于进行深度学习开发。使用的服务器主要硬件配置如下：中央处理器型号为英特尔酷睿六核i7-6850K，4个显卡型号均为GTX1080Ti，每个显卡内存11GB，服务器内存16GB。本实例使用2个GPU进行训练，训练时每个batch中包括8张训练图像，对整个训练图库遍历20次。本发明的整体流程如附图3所示。

步骤一：建立小目标图库。本发明针对小目标识别问题，在Xia等人建立的DOTA图库(http://captain.whu.edu.cn/DOTAweb/dataset.html)的基础上，将图库中包含的目标提取并保存，按照DOTA图库中标注的目标坐标将目标区域进行保存，作为单独的训练样本，从而建立了一个包含有15类遥感目标的小目标识别图库。DOTA图库中含有棒球场，篮球场，桥梁，田径场，海港，直升机，大型车辆，飞机，环岛，船，小型车辆，足球场，油罐，游泳池，网球场15类目标，共有9925个样本。在原DOTA图库中目标的标注信息是目标的外接矩形，该外接矩形中包含旋转信息，因此本发明按照标注信息对目标区域存储。图库的具体信息如下表1所示。

表1

步骤二：初始化设置。设置读入训练图像的列表及路径，设置算法训练过程中的相关参数。本步骤需要设置的参数包括在网络开始训练之前手动设定的超参数，及网络自动训练过程中不断更新得到的参数。

其中超参数包括batchsize，迭代次数，优化器类型，学习率。本实例中优化器使用随机梯度下降(stochastic gradient descent，SGD)，优化器类型为Adam；Batchsize为8，迭代次数为15。使用在ImageNet上训练的ResNet模型进行训练，由于ImageNet中共1000类图像，最后一层全连接层的参数维数为512×1000。本实例中的小目标训练图库包括15类目标，且需要提取conv3_x、conv4_x、conv5_x并对其进行全局平均池化和仿鹰脑信息融合，因此设置最终的全连接层参数维数为896×15。

其中，网络自动训练过程中不断更新得到的参数具体如下：为便于网络训练，提高网络收敛速度，对整个小目标识别模型中的参数分为两部分，一部分是ResNet中使用ImageNet训练过的卷积层参数，包括conv1、conv2_x、conv3_x、conv4_x、conv5_x层中的所有参数，对其设置较小的学习率的初始学习率0.0001；另一部分是仿鹰脑特征融合部分的参数及全连接层参数，对其设置较大的学习率0.01。其中全局平均池化通过设置池化窗口大小与对应层的特征图大小一致，无需进行参数训练。因此，第二部分的参数主要是全连接层的权重参数。

步骤三：图像归一化。计算小目标识别图库中所有图像的均值与方差，并利用该均值和方差对所有图像进行归一化，并对图像大小进行归一化。本实例所建立图库的均值为[0.485，0.456，0.406]，方差为[0.229，0.224，0.225]。

步骤四：逐层计算ResNet34卷积层输出。ResNet网络能够训练的卷积神经网络深度远远超越此前的网络，根据网络深度不同有ResNet-18,ResNet-34,ResNet-50,ResNet-101,ResNet152，ResNet1202等不同模型。该网络中的重要组成是残差学习模块，该模块将网络学习的目标转换为最小化网络输出与输入之间的残差。假设卷积神经网络输入为x，原期望某卷积层的输出为H(x)，ResNet网络中的残差学习模块目标为残差函数F(x)，其定义如下：

F(x)＝H(x)-x (1)

H(x)＝F(x,{W₁,W₂})+W_sx (2)

其中，W_s为线性变换的权重矩阵。此外，在ResNet-101和ResNet-152等更深层的网络中使用了BottleNeck结构，该结构能够极大减少神经网络的参数个数，降低网络计算复杂度。在BottleNeck结构中首先使用1×1卷积核降低输入层网络维度，然后使用3×3卷积核学习特征，再使用1×1卷积核恢复网络维度。ResNet中conv3_x层输出为28×28×128维，conv4_x层输出为14×14×256维，conv5_x层输出为7×7×512维。

步骤五：仿鹰脑特征整合。圆核和外纹体是鹰脑离顶盖通路中除视顶盖之外的重要核团，其中圆核属于丘脑区域，而外纹体属于端脑区域。圆核是视觉信息由视顶盖中央灰质层到外纹体传递过程中的重要核团。视顶盖对其接收的信息进行加工整合后通过神经纤维向更高级的核团传递，其上行投射经顶盖-丘脑纤维束后结束于丘脑圆核区域。在本发明中模拟鹰脑离顶盖通路的特征整合作用，使用全局平均池化(Global Average Pooling)对conv3_x层、conv4_x层、conv5_x层中的各个特征图进行整合，其计算过程是对每一个特征图中所有的特征值求平均，将该均值作为对应特征图的输出值。以对conv3_x层的28×28×128维特征图进行池化为例，对每一个28×28的特征图分别进行池化，每个特征图得到一个均值，则128个特征图可以得到128个均值，即最终conv3_x层输出一个1×1×128维的特征图，此时的特征是一个向量。对conv3_x层、conv4_x层、conv5_x层三层特征分别进行池化操作，在该操作后conv3_x层池化特征输出为1×1×128维，conv4_x层池化特征输出为1×1×256维，conv5_x层池化特征输出为1×1×512维。

步骤六：小目标分类。将步骤五仿鹰脑特征整合操作得到的conv3_x层、conv4_x层、conv5_x层输出的1×1×128维，1×1×256维，1×1×512维特征并联起来，得到一个1×1×896维特征，然后将该特征输入到全连接层。由于本实例面对的小目标图像分类识别问题是一个15类的分类问题，即全连接层是一个896维到15维的映射，最终得到分类结果。

步骤七：完成小目标分类网络训练。按照步骤二到六进行神经网络训练，判断是否达到了设定的训练迭代次数，本实例中将其设置为20次，若达到训练迭代次数则停止训练，否则使用步骤二设定的优化器与学习率等参数进行参数迭代训练。其中，训练迭代次数可根据实际应用和经验进行设定。在实际应用中，可从小到大设置训练的迭代次数，最终将获得最佳分类结果的最小迭代次数作为训练迭代次数。

步骤八：小目标分类网络测试。读入步骤一建立的小目标识别图库中的小目标图像，并重复步骤二到步骤六提取特征完成小目标分类测试，并与图库中给定的标签对比计算正确率。最终的小目标识别测试正确率如表2所示。

中文名称	类别	本发明方法	ResNet-18	ResNet-34	ResNet-50	VGG16	LeNet
								棒球场	BD	0.9825	0.9389	0.952	0.9476	0.9563	0.8777
篮球场	BC	0.9069	0.915	0.9028	0.8704	0.9514	0.8381
								桥梁	BG	0.9568	0.9475	0.9506	0.966	0.929	0.8704
田径场	GTF	0.9706	0.9559	0.9265	0.9706	0.9559	0.8529
								海港	HB	0.9706	0.9706	0.9588	0.9618	0.9676	0.8735
直升机	HC	0.9835	0.9736	0.9868	0.9868	0.967	0.9175
								大型车辆	LV	0.95	0.9633	0.9667	0.9533	0.9467	0.8733
飞机	PL	0.9967	0.9902	0.9869	0.9803	0.9803	0.9672
								环岛	RA	0.8895	0.9186	0.936	0.9186	0.8721	0.7674
船	SH	0.9971	0.9971	0.9971	0.9941	0.9971	0.9471
								小型车辆	SV	1	0.9906	1	0.9938	0.9812	0.9469
足球场	SBF	0.9481	0.8961	0.9351	0.9091	0.8701	0.7792
								油罐	ST	0.959	0.9328	0.9104	0.9291	0.9478	0.8806
游泳池	SP	0.9767	0.96	0.96	0.9633	0.9333	0.9033
								网球场	TC	0.9428	0.9367	0.9398	0.9488	0.9428	0.9036

表2。

Claims

1.一种基于ResNet的仿鹰脑特征整合小目标识别方法，其特征在于：该方法具体步骤如下：

步骤一：建立小目标识别图库

步骤二：初始化设置

设置读入训练图像的列表及路径，设置算法训练过程中的参数，包括超参数：batchsize，迭代次数，优化器类型，学习率；

步骤三：图像归一化

计算小目标识别图库中所有图像的均值与方差，并利用该均值和方差对所有图像进行归一化，并对图像大小进行归一化；

步骤四：逐层计算ResNet-34卷积层输出

假设卷积神经网络输入为x，原期望某卷积层的输出为H(x)，ResNet网络中的残差学习模块目标为残差函数F(x)，其定义如下：

F(x)＝H(x)-x (1)

普通网络结构中直接拟合H(x)，而在残差学习模块中第二个卷积层拟合的是F(x)，将网络输入x通过右侧的恒等连接跳跃左侧的两层卷积层，并与左侧所得的残差函数F(x)相加，最终输出H(x)＝F(x)+x；左侧残差学习模块中包含两个卷积层，设第一个卷积层的权重矩阵为W₁，第二个卷积层的权重为W₂，则第二层输出F(x,{W₁,W₂})＝W₂ReLU(W₁x)；当输入维数和输出维数不同时，在恒等连接时先对输入做线性变换再与残差相加，计算如下：

H(x)＝F(x,{W₁,W₂})+W_sx (2)

其中，W_s为线性变换的权重矩阵；

步骤五：仿鹰脑特征整合

模拟鹰脑离顶盖通路的特征整合作用，使用全局平均池化对conv3_x层、conv4_x层、conv5_x层中的各个特征图进行整合，其计算过程是对每一个特征图中所有的特征值求平均，将该均值作为对应特征图的输出值；conv3_x层池化特征输出为1×1×128维，conv4_x层池化特征输出为1×1×256维，conv5_x层池化特征输出为1×1×512维；

步骤六：小目标分类；将步骤五中仿鹰脑特征整合操作得到的conv3_x层、conv4_x层、conv5_x层输出的1×1×128维，1×1×256维，1×1×512维特征并联起来，得到一个1×1×896维特征，然后将该特征输入到全连接层；最终得到分类结果；

步骤七：完成小目标分类网络训练

按照步骤二到六进行神经网络训练，判断是否达到了设定的训练迭代次数，若达到训练迭代次数则停止训练，否则使用步骤二设定的优化器与学习率参数进行参数迭代训练；

步骤八：小目标分类网络测试

读入步骤一建立的小目标识别图库中的小目标图像，并重复步骤二到步骤六提取特征完成小目标分类测试，并与图库中给定的标签对比计算正确率。