CN109272014A

CN109272014A - 一种基于畸变适应卷积神经网络的图像分类方法

Info

Publication number: CN109272014A
Application number: CN201810879717.6A
Authority: CN
Inventors: 庞彦伟; 孙汉卿
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2019-01-25
Anticipated expiration: 2038-08-03
Also published as: CN109272014B

Abstract

本发明涉及一种基于畸变适应卷积神经网络的图像分类方法，包括下列步骤：1)选取某种卷积神经网络模型作为基础网络，称改进后的神经网络为畸变适应卷积神经网络，具有畸变适应的卷积。2)准备适合的训练图像，包括无畸变图像以及畸变图像和相应的分类标注。3)标定畸变图像的内部参数。4)确定待训练和分类的畸变图像的视场角FOV。5)至少选定一个需要替换或添加畸变适应的卷积的位置，为基础网络的卷积块添加畸变映射，使之成为畸变适应的卷积。6)将训练图像输入畸变适应卷积神经网络。

Description

一种基于畸变适应卷积神经网络的图像分类方法

技术领域

本发明属于机器学习和神经网络领域，具体涉及畸变图像的分类问题。

背景技术

卷积神经网络(ConvolutionalNeuralNetwork,简称CNN)是计算机视觉任务的重要方法。现有的卷积神经网络最常使用的是方形卷积核，或者使用带空洞的卷积(称为空洞卷积，Atrous Convolution)来增大神经元的感受区域(也称感受野)。为了在保持较大感受野的条件下，提高计算速度，向量形式的可分离卷积核(1×k和k×1，其中k是卷积核大小)也已经被提出并使用。但是作为视觉任务的重要方法，卷积神经网络并没有在畸变较大的鱼眼图像上显示出应有的识别能力。

现有技术主要通过两类方法缓解在畸变图像上应用卷积神经网络带来的性能下降：一类是在预处理的过程中校正(去畸变)图像，另一类是端到端方法。

预处理的方法需要对畸变图像进行变形，因此不可避免地会导致丢失部分图像^[1]造成信息损失，或者在校正图像中存在大面积空白区域^[2]造成计算量上的浪费。这类方法的好处是：校正后的图像可以直接使用与无畸变图像相同的模型进行训练和推断。

端到端方法将畸变图像当作无畸变图像来处理。在实际实施中，一般在畸变图像数据集上训练或者调优一个原本用于处理无畸变图像的卷积神经网络模型。这种方法显然没有利用畸变图像和无畸变图像的关系，用于无畸变图像的卷积神经网络在畸变图像上难以达到用于无畸变图像时的性能^[3]。

在一些非神经网络方法，如文献[4]，证明球面投影是一种去畸变效果较好的投影方法，且校正特征比简单的校正图片性能更好。

[1]BERTOZZI M,CASTANGIA L,CATTANI S,et al.360°Detection and TrackingAlgorithm of Both Pedestrian and Vehicle Using Fisheye Images[C]//IEEEIntelligent Vehicles Symposium.Seoul,SouthKorea:IEEE,2015:132–137.DOI:10.1109/IVS.2015.7225675.

[2]CHOI D Y,CHOI J H,CHOI J W,et al.CNN-Based Pre-Processing andMulti-Frame-Based View Transformation for Fisheye Camera-Based AVM System[C]//IEEE International Conference on Image Processing.Beijing,China:IEEE,2017:4073–4077.DOI:10.1109/ICIP.2017.8297048.

[3]DENG L,YANG M,QIAN Y,et al.CNN Based Semantic Segmentation forUrban Traffic Scenes Using Fisheye Camera[C]//IEEE Intelligent VehiclesSymposium.2017:231–236.DOI:10.1109/IVS.2017.7995725.

[4]KRAMS O,KIRYATI N.People Detection in Top-View Fisheye Imaging[C]//IEEE International Conference onAdvanced Video and Signal BasedSurveillance.Lecce,Italy:IEEE,2017:1–6.DOI:10.1109/AVSS.2017.8078535.

发明内容

本发明的目的是提供一种基于畸变适应卷积神经网络的图像分类方法，使用畸变适应的卷积核避免了息损失和计算浪费，同时取得比已有的校正图像和校正特征两类方法更好的分类性能。技术方案如下：

一种基于畸变适应卷积神经网络的图像分类方法，包括下列步骤：

1)选取某种卷积神经网络模型作为基础网络，称改进后的神经网络为畸变适应卷积神经网络，具有畸变适应的卷积；

2)准备适合的训练图像，包括无畸变图像以及畸变图像和相应的分类标注。

3)标定畸变图像的内部参数，计为M。

4)确定待训练和分类的畸变图像的视场角FOV，记为α。

5)至少选定一个需要替换或添加畸变适应的卷积的位置，为基础网络的卷积块添加畸变映射，使之成为畸变适应的卷积，具体操作如下：

i.选定一个合适的投影方法。

ii.根据投影方法和畸变图像内部参数确定投影映射，该映射将畸变图像像素映射到所选定的投影空间中，记为映射P(a,M)，对于畸变适应卷积输入特征图的每一个位置，都在畸变特征中有一个对应的映射位置，即使用上述映射将普通特征图中的位置p映射为畸变特征图中的位置P-1(a,M)p。

iii.对于p位置的畸变适应的卷积，将映射位置的输入特征记为I与畸变适应的卷积核逐元素相乘。

6)将训练图像输入畸变适应卷积神经网络，使用带动量的小批量随机梯度下降的优化方法训练，设置动量为0.9，学习率0.001，迭代训练畸变适应卷积神经网络到收敛。

8)保存训练好的神经网络权重。

本发明实质性的特点是：通过引入畸变适应的卷积操作，本发明提供了一种适用于各种程度的畸变图像的畸变适应的卷积神经网络。这种卷积神经网络能够使用无畸变或小畸变图像进行训练并直接应用于畸变图像、能使用畸变/无畸变图像进行预训练并在畸变/无畸变图像上进行调优、甚至能够混合使用无畸变图像和畸变图像进行训练或调优，极大程度地利用了常见的无畸变图像数据集，节省了建设大规模畸变图像数据集的高昂成本。本发明的有益效果如下：

1.适用于各种带畸变的图像(即大多数实际镜头)，尤其能够提高神经网络在畸变严重的图像(例如鱼眼镜头图像)上的性能。

2.与已有的预处理、矫正图像、矫正特征的方法相比，本发明能够避免这些繁琐操作带来的数据损失或计算资源浪费，且性能优于现有方法。

3.畸变适应的卷积是本发明的重要特点，得益于所发明的畸变适应的卷积，本发明方法能够利用常见的无畸变图像数据集，在畸变图像数据集规模小或者根本没有畸变图像数据集的情况下也能够使用，在利用无畸变数据集中数据特征的同时，节省了建设大规模数据集的开支。

4.本发明实现方便，与现有神经网络训练和预测方法相容。

附图说明

图1本发明的结构示意和对比

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，描述中将以用于图像分类的卷积神经网络为例，显然，所描述的实施例仅是本发明的一部分实例，而不是全部的实例。

本部分将以(K.He,X.Zhang,S.Ren,and J.Sun,“Deep Residual Learning forImage Recognition,”in IEEE Conference on Computer Vision and PatternRecognition,Las Vegas,NV,USA,2016,pp.770–778)中提出的ResNet-50卷积神经网络模型作为基础。

表1 ResNet-50和畸变适应的ResNet-50的结构

准备

1)可选地，标定畸变图像的内部参数(记为M)。

1)确定待训练和分类的畸变图像的视场角(FOV)，记为α。

1)准备适合的训练数据，本示例的训练数据包括训练图像(无畸变图像和/或畸变图像)和相应的分类标注。

训练

1)搭建基础网络，即ResNet-50结构，其具体结构在表1中给出。

1)如果准备的训练图像中包含无畸变图像，则在这些无畸变图像上训练ResNet-50结构，称之为无畸变图像预训练。存储预训练后的模型，并用模型中的权重初始化本发明的畸变适应的卷积核。

1)至少选定一个需要替换或添加所发明的畸变适应的卷积的位置，本实施例中选取的提取位置如表1所示，即为ResNet-50的卷积块4-5添加畸变映射，使之成为畸变适应的卷积。具体操作如下：

i.选定一个合适的投影方法，本例使用球面投影。

ii.根据投影方法和畸变图像内部参数(如果有)确定投影映射，该映射将畸变图像像素映射到所选定的投影空间中，记为映射P(a,M)。那么对于畸变适应卷积输入特征图的每一个位置，都在畸变特征中有一个对应的映射位置，即使用上述映射将普通特征图中的位置p映射为畸变特征图中的位置P^-1(a,M)p。

iii.对于p位置的畸变适应的卷积，将映射位置的输入特征(记为I)与畸变适应的卷积核逐元素相乘。对于本实施例中的3×3卷积，对于p＝[x,y]^T位置的畸变适应卷积，与I(P^-1(a,M)[x-1,y-1]),I(P^-1(a,M)[x-1,y]),I(P^-1(a,M)[x-1,y+1]),I(P^-1(a,M)[x,y-1]),I(P^-1(a,M)[x,y]),I(P^-1(a,M)[x,y+1]),I(P^-1(a,M)[x+1,y-1]),I(P^-1(a,M)[x+1,y]),I(P^-1(a,M)[x+1,y+1])逐元素相乘，不同于传统卷积中的与I([x-1,y-1]),I([x-1,y]),I([x-1,y+1]),I([x,y-1]),I([x,y]),I([x,y+1]),I([x+1,y-1]),I([x+1,y]),I([x+1,y+1])相乘。

1)将训练图像输入网络，使用带动量的小批量随机梯度下降的优化方法训练，设置动量为0.9，学习率0.001，迭代训练畸变适应的ResNet-50到收敛。

1)保存训练好的神经网络权重。

预测阶段

1)准备待预测的畸变图像/视频或者带畸变的图像捕捉传感器(例如鱼眼相机)，准备相应的计算平台和预测结果显示与处理设备。

1)读取训练好的畸变适应的ResNet-50的模型。

1)将待测的畸变图像数据输入所得到的畸变适应的ResNet-50模型中，得到的预测结果即为待测的畸变图像的分类结果。

Claims

1.一种基于畸变适应卷积神经网络的图像分类方法，包括下列步骤：

3)标定畸变图像的内部参数，计为M；

4)确定待训练和分类的畸变图像的视场角FOV，记为α；

i.选定一个合适的投影方法；

ii.根据投影方法和畸变图像内部参数确定投影映射，该映射将畸变图像像素映射到所选定的投影空间中，记为映射P(a,M)，对于畸变适应卷积输入特征图的每一个位置，都在畸变特征中有一个对应的映射位置，即使用上述映射将普通特征图中的位置p映射为畸变特征图中的位置P-1(a,M)p；

iii.对于p位置的畸变适应的卷积，将映射位置的输入特征记为I与畸变适应的卷积核逐元素相乘；

6)将训练图像输入畸变适应卷积神经网络，使用带动量的小批量随机梯度下降的优化方法训练，设置动量为0.9，学习率0.001，迭代训练畸变适应卷积神经网络到收敛；

8)保存训练好的神经网络权重。