CN104573731B

CN104573731B - 基于卷积神经网络的快速目标检测方法

Info

Publication number: CN104573731B
Application number: CN201510061852.6A
Authority: CN
Inventors: 王菡子; 郭冠军; 严严
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2015-02-06
Filing date: 2015-02-06
Publication date: 2018-03-23
Anticipated expiration: 2035-02-06
Also published as: CN104573731A

Abstract

基于卷积神经网络的快速目标检测方法，涉及计算机视觉技术。首先利用训练集训练出卷积神经网络参数，然后利用扩展图的方式解决最大池化丢失特征的问题并生成判别完备特征图；把卷积神经网络的全连接权重看成线性分类器，采用可能近似学习框架来估计线性分类器在判别完备特征上的泛华误差；根据泛华误差和所期望泛化误差阈值来估算所需线性分类器个数，最后在判别完备特征图上用线性分类器基于平滑窗的方式完成目标检测。显著提高检测效率和目标检测精度。

Description

基于卷积神经网络的快速目标检测方法

技术领域

本发明涉及计算机视觉技术，具体是涉及一种基于卷积神经网络的快速目标检测方法。

背景技术

人类感知世界的一个重要来源就是通过图像信息，研究表明，人类获取外界信息中大约有80％～90％的信息来自于人类眼睛获取的图像信息。人类对外界图像信息感知能力很高，可以快速定位目标和分析目标。计算机要具有强大的视觉感知和理解能力，就应该具备类似人类强大的目标检测和识别能力。目标检测是视觉感知和目标理解的一个很重要的前提工作，目标获取的效率和精度决定着视觉感知的速度和效果。一旦计算机具备类似人类强大的目标检测盒感知能力，就可以更好的在各行业替代人力工作，大大节约生产成本。另外它对日常智能服务行业也提供了强大的支撑。因此，对计算机视觉中的目标检测技术进行深入研究，不断提高检测的准确率，具有重要的现实意义。

目前学术界中解决这两个问题的发展趋势是从使用启发式方法到使用机器学习的方法。所用特征也从手工特征转向基于任务自适应提取的特征。目标检测和识别的模型也开始出现从单一特定目标检测和识别到多目标检测和识别同时进行的功能转变。最典型的例子就是深度学习模的出现，解决了传统目标检测和识别的模型只针对有限任务的目标检测和识别任务有效的问题。比如，在2001年，Viola-Jone提出的正面人脸检测框架基于Harr特征对人脸检测相当有效，但是对于侧脸人脸以及行人检测效果不是太好。直到2005年，Dalal等人提出HOG特征并且使用SVM对每个平滑窗对应的HOG(Histogram ofGradient)特征进行分类的策略后，垂直行人检测效果才有了一个质的突破。然而，HOG这一手工特征，对于图像分类和识别以及任意姿态的行人、动物、植物等目标的检测效果并不令人满意。接着形变模型(Deformable Part Models:DPM)应运而生解决有形变的目标检测问题。形变模型虽然试着解决因形变导致目标检测不到的问题，但是其模型中需要的形变部件现实中很难理想的捕获到，原因就没有一个好的模型和好的特征来识别部件，因此它在多类目标检测数据集(PASCAL VOC，ImageNet)上效果并不是太好。最近的一个突破性工作是深度学习模型的出现。在最大的图像分类和目标检测数据集ImageNet上，基于深度学习模型之一卷积神经网络(CNN)做的目标检测和识别精度的提高更是超过以往最高精度一倍之多。最近两年ImageNet数据集分类和检测性能出众的算法几乎全部采用卷积神经网络，不同的它们的网络结构不同。目前ImageNet数据集上图像分类和目标检测最高的精度分别为95％和55％。

尽管基于卷积神经网络的方法在目标检测和识别上提高了很高的精度，但是由于卷积神经网络网络复杂且计算量大，应用在目标检测上效率并不是很高，目前很多方法都是基于GPU来对目标检测程序进行加速。给定一张目标图像，使用平滑窗策略做目标检测，即使采用GPU加速，其算法复杂度仍然很大，效率极低。为了解决卷积神经网络在目标检测上的效率问题，目前学术界主流的解决方案可以分为三类。第一类是基于图割的方法，先对给定图像进行图像分割，通过分割块得到一些潜在的目标区域。然后用卷积神经网络对这些目标区域进行特征提取和分类，最终得到目标的位置。这种方法的缺点就是很依赖于图像分割的好坏。第二类是通过卷积神经网络对原始图像提取特征，然后在特征图上用平滑窗策略做目标位置的回归和目标的分类。这种方法在利用卷积神经网络对大图提取特征时，会丢失一些对分类和回归有用的特征信息，因此最后的模型的性能无法达到最优。第三类方法则是用卷积神经网络分类的优势来寻找部件，进而构建形变模型，采用形变模型的思想对目标做检测。但是这种把卷积神经网络的分类和形变模型中的目标检测分开执行的做法，使得整体框架的检测效果不是很出众，另外这种模型的效率也不是很高。

发明内容

本发明的目的在于提出一种基于卷积神经网络的快速目标检测方法。

本发明包括以下步骤：

A)准备训练样本集(x_i，y_i)，i＝1，……，N，N为训练样本数，N为自然数，x_i表示训练样本对应的固定大小的图像，包含目标且目标充满画幅的图像是正样本，其他图像是负样本；y_i表示样本类别向量：

B)将所有训练样本分m批，将m-2批样本放进设计的卷积神经网络里用反向传播算法训练，2批样本用于测试，所述卷积神经网络包含卷积层、最大池化(max-pooling)层和局部对比归一化(local contrast normalization)层三个成分，这三个成分扮演非线性函数的功能，目的是把位于流形上的原始图像映射到欧式空间，卷积的激活函数采用非线性校正单元(Rectifier linear unit)，可以使得卷积后的特征比较稀疏，设计好包含这三个成分的网络结构模型后，用反向传播算法训练对模型进行训练，得到参数W；

C)提取步骤B)中的训练好的参数W，采用扩展图的方式解决卷积神经网络中最大池化(max-pooling)丢失信息的问题，给定测试图像，常规最大池化(max-pooling)(也就是使用偏移A作为起始点的方式)操作后只能得到扩展图(A),其他有利于分类的信息会丢失，因此针对2×2的卷积核中每个偏移，都保存一个对应的特征图，称为扩展图；对于每一层max-pooling核大小为K，整个卷积神经网络有p层，扩展之后每个最大池化(max-pooling)的下采样层特征图数目扩展至2^K倍，整个网络扩展到o＝(2^K)^p倍，然后把参数W用于任意大小的待检测图像，获取全连接前的扩展特征图，称它为判别完备特征(DiscriminativeComplete Features)；给定输入图像x，已训练好的滤波器组K和偏移b，卷积层的输出可以写成(公式一)的形式：

(公式一)

其中M_j表示所选择输入特征图的索引；l表示当前层的索引；i和j分别表示输入和输出特征图索引；o表示段索引；f表示激活函数，这里使用线性校正单元函数f(x)＝max(x,0)；*表示卷积操作；

最大池化(max-pooling)层可以写成(公式二)的形式：

(公式二)

其中，m和n分别表示当前层的像素索引；s表示下采样核的大小；p和q分别表示前一层的像素索引，并且满足p＝s*(m-1)+k+1,q＝s*(n-1)+k+1，其中0＜k＜s；分号用于选择对应的列和行；

为了使得获得的特征具有鲁邦的性质，可以把局部对比归一化层引入分段处理的环节中，该层可以写成(公式三)的形式：

(公式三)

其中，r表示制定的邻近竞争特征图的数目，N表示当前层总共的特征图数目，k,α,β是一些超参数，在训练过程中可以指定合适的浮点数值，当CNN模型训练好后，根据以上三个公式，可以获取判别完备特征为后续的基于平滑窗扫描提供支撑；

D)把卷积神经网络的全连接看成一个线性分类器，直接基于判别完备特征图做检测，采用可能近似学习(probably approximately correct)框架来估计线性分类器在判别完备特征上的泛化误差R[ω]，然后根据组合模型(ensemble model)和所期望泛化误差H[ω]计算所需要训练模型数目q；

(公式四)

E)将q个模型中得每一个训练模型分别在待检测图像上执行前馈操作，每一个模型获取o组全连接前的判别完备特征图，然后用最近邻插值算法对每组判别完备特征图缩放，得到n*o组判别完备特征图，q个模型共计n*o*q组判别完备特征图，然后在每组判别完备特征图上直接用线性分类器执行密集平滑窗分类工作得到n*o*q组响应图，其中线性分类器和判别完备图的点积操作可以转成卷积操作，由于采用步骤B)中的非线性校正单元得到稀疏特征图，卷积可以使用稀疏傅里叶变换来加速分类操作；

F)对n*o*q中的每o组响应图采用非极大值得到n*q组响应图，然后对n*q响应图中的每n个响应图执行非极大值抑制得到q组具有真实尺度的响应图，把q组响应图执行与运算得到一个具有真实尺度的最终响应图，计算最终响应图中的每一个联通区域的质心：

G)把质心和真实尺度映射到原待检测图中，根据每一个质心位置和尺度值画出对应的矩形框，完成目标检测。

在步骤A)中，所述准备训练样本集可包括以下子步骤：

A1)从训练图像提取给定目标框的图像块，然后缩放到固定大小尺寸作为正样本，每一个给定目标框的图像块作为一个样本，得到N₀个图像块，即N₀个样本X_i，i＝1，……N；

A2)对于负样本的图像的获取，一般在正样本图像块周围抽取与其没有很大重叠的、任意大小的图像块缩放到固定尺寸作为负样本X_i，负样本的抽取要尽可能的具有代表性，要覆盖大多数情景图像，共计抽取N₁负样本，i＝1，……N；

A3)N＝N₀+N₁。

在步骤B)中，所述利用m批样本进行卷积神经网络训练可包括以下子步骤：

B1)N个样本在分批的时候需要随机的打散顺序，然后分成m批样本，分批的目的是用小批样本计算神经网络训练所需的梯度值，打散顺序有利于得到更合理的梯度方向；

B2)精心设计的卷积神经网络包含卷积层、最大池化(max-pooling)层和局部对比归一化(local contrast normalization)层三个成分，前两个成分是必需成分，第三个成分是根据任何可选的成分，卷积的激活函数选用非线性校正单元，通过任意组合这三种成分可以得到针对不同目标检测的网络结构；

B3)设置网络结构中所需要的滤波器数目和特征图数目、滤波器大小、下采样核的大小、每层的学习率以及局部对比归一化所需要的超参数；

B4)在卷积神经网络训练的过程中，采用冲量和随机扔掉训练技巧；

B5)根据验证曲线判断何时停止训练；

B6)从已训练好的模型中提取参数W。

在步骤C)中，所述采用扩展图的方式解决卷积神经网络中最大池化(max-pooling)丢失信息的问题可包括以下子步骤：

C1)把步骤B中提取的W用于待检测图像的前馈操作过程中，对于每一个特征图遇到max-pooling丢失判别信息的情况时，针对下采样核的大小K中每一个偏移都作为一个新的起点偏移，然后平铺满下采样核至整个待检测图像，每一个起点偏移都得到一个扩展图，当前下采样层会生成2^K个扩展图，所有特征图使用同一个偏移得到的扩展图称为一段(fragment)，下采样后会生成2^K段的特征图，整个网络中如果有p层下采样层，会得到o＝(2^K)^p段的特征图；

C2)下采样后续的卷积操作，需要对每段采用相同的卷积操作；

C3)局部对比归一化层需要对每段采用相同的局部对比归一化操作；

C4)在对待测试图像执行到前馈操作的过程中，全连接层前一层得到的(2^K)^p段的特征图称为判别完备特征图。

在步骤D)中，所述直接基于判别完备特征图做检测(分类)可包括以下子步骤：

D1)将步骤C中(2^K)^p段的特征图全部使用最近邻插值算法n次，得到n*(2^K)^p段的判别完备特征图；

D2)在每段判别完备特征图上用线性分类器与其做卷积得到n*(2^K)^p的响应图；

D3)把n*(2^K)^p的响应图全部缩放到同一尺寸并记录缩放比，用非极大值抑制算法得到最终响应图和对应最大响应图的缩放比。

本发明首先利用训练集训练出卷积神经网络参数，然后利用扩展图的方式解决最大池化(max-pooling)丢失特征的问题并生成判别完备特征图；把卷积神经网络的全连接权重看成线性分类器，采用可能近似学习框架来估计线性分类器在判别完备特征上的泛华误差；根据泛华误差和所期望泛化误差阈值来估算所需线性分类器个数，最后在判别完备特征图上用线性分类器基于平滑窗的方式完成目标检测。

本发明采用扩展图的方式解决Max-pooling层中的特征丢失问题，并且把扩展图迁移到其他层；把全连接前的所有扩展图称为判别完备特征图，并且把全连接的权重看成一个线性分类器，直接在判别完备特征图上做检测可以显著提高检测效率；采用可能近似学习(probably approximately correct)框架来估计线性分类器在判别完备特征上的泛化误差R[ω]，然后根据组合模型(ensemble model)和所期望泛化误差H[ω]计算所需要训练模型数目q，根据q个模型的预测来降低最终的预测错误，进而提高目标检测精度。

附图说明

图1为本发明实施例的检测框架示意图。

图2为本发明实施例的扩展图的示意图。

图3为本发明实施例的检测实例图。

图4为本发明实施例的检测结果图。其中左边框为本发明方法检测结果，右边框为北京旷视科技(Megvii)有限公司提出的方法的检测结果。

图5为本发明与其它几种目标检测方法在FDDB数据集上的对比的ROC曲线图。

其中虚曲线(名称为:本发明的方法)为本发明的方法；

方法1对应为B.Yang等人提出的方法(B.Yang,J.Yan,Z.Lei andS.Z.Li.Aggregate channel features for multi-view facedetection..International Joint Conference on Biometrics,2014)；

方法2对应为H.Li等人提出的方法(H.Li,Z.Lin,J.Brandt,X.Shen andG.Hua.Efficient Boosted Exemplar-based Face Detection.CVPR 2014)；

方法3对应为J.Yan等人提出的方法(J.Yan,Z.Lei,L.Wen and S.Z.Li.TheFastest Deformable Part Model for Object Detection.CVPR 2014)；

方法4对应为北京旷视科技(Megvii)有限公司提出的方法；

方法5对应为M.Mathias等人提出的方法(M.Mathias,R.Benenson,M.Pedersoliand L.Van Gool.Face detection without bells and whistles.ECCV 2014)；

方法6对应为X.Shen等人提出的方法(X.Shen,Z.Lin,J.Brandt andY.Wu.Detecting and Aligning Faces by Image Retrieval.CVPR 2013)；

方法7对应为J.Li等人提出的方法(J.Li and Y.Zhang.Learning SURF cascadefor fast and accurate object detection.CVPR 2013.)；

方法8对应为J.Li等人提出的方法(J.Li,T.Wang and Y.Zhang.Face Detectionusing SURF Cascade.ICCV 2011BeFIT workshop.)；

方法9对应为Viola等人提出的方法(P.Viola and M.Jones.Robust real-timeobject detection.In IJCV,2001)；

方法10对应为A.Giusti等人提出的方法(A.Giusti,D.C.Ciresan,J.Masci,L.M.Gambardella,and J.Schmidhuber.Fast image scanning with deep max-poolingconvolutional neural networks.In ICIP,2013)。

具体实施方式

下面结合附图和实施例对本发明的方法作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了实施方式和具体操作过程，但本发明的保护范围不限于下述的实施例。

参见图1，本发明实施例包括以下步骤：

A.准备训练样本集(x_i，y_i)，i＝1，……，N，N为训练样本数，N为自然数。x_i表示训练样本对应的固定大小的图像，包含目标且目标充满画幅的图像是正样本，其他图像是负样本。y_i表示样本类别向量：

B.将所有训练样本分m批，将m-2批样本放进精心设计的卷积神经网络里用反向传播算法训练，2批样本用于测试。精心设计的卷积神经网络包含卷积层，最大池化(max-pooling)层和局部对比归一化(local contrast normalization)层三个成分。这三个成分扮演者非线性函数的功能，目的是把位于流形上的原始图像映射到欧式空间。卷积的激活函数采用非线性校正单元(Rectifier linear unit)，可以使得卷积后的特征比较稀疏。设计好包含这三个成分的网络结构模型后，用反向传播算法训练对模型进行训练，得到参数W。

C.提取步骤B中的训练好的参数W，采用扩展图的方式解决卷积神经网络中max-pooling丢失信息的问题。给定测试图像，常规最大池化(max-pooling)(也就是使用偏移A作为起始点的方式)操作后只能得到扩展图(A),其他有利于分类的信息会丢失。因此针对2*2的卷积核中每个偏移，都保存一个对应的特征图，称为扩展图，如图2所示，(A)，(B)，(C)，(D)为不同偏移对应的不同扩展图。

对于每一层最大池化(max-pooling)核大小为K，整个卷积神经网络有p层，扩展之后每个max-pooling的下采样层特征图数目扩展至2^K倍，整个网络扩展到o＝(2^K)^p倍，然后把参数W用于任意大小的待检测图像，获取全连接前的扩展特征图，称它为判别完备特征(Discriminative Complete Features)，如图3所示，图3中(a)和(c)称为判别完备特征，其中(c)是(a)经过最近邻差值算法得到的。

给定输入图像x，已训练好的滤波器组K和偏移b，卷积层的输出可以写成(公式一)的形式：

(公式一)

其中M_j表示所选择输入特征图的索引；l表示当前层的索引；i和j分别表示输入和输出特征图索引；o表示段索引；f表示激活函数，这里使用线性校正单元函数f(x)＝max(x,0)；*表示卷积操作。

最大池化(max-pooling)层可以写成(公式二)的形式：

(公式二)

其中，m和n分别表示当前层的像素索引；s表示下采样核的大小；p和q分别表示前一层的像素索引，并且满足p＝s*(m-1)+k+1,q＝s*(n-1)+k+1，其中0＜k＜s；分号用于选择对应的列和行。

(公式三)

其中，r表示制定的邻近竞争特征图的数目，N表示当前层总共的特征图数目，k,α,β是一些超参数，在训练过程中可以指定合适的浮点数值。当CNN模型训练好后，根据以上3个公式，可以获取判别完备特征为后续的基于平滑窗扫描提供支撑。

D.把卷积神经网络的全连接看成一个线性分类器，直接基于判别完备特征图上而不是原检测图做检测可以极大的提高检测速度。采用可能近似学习(probablyapproximately correct)框架来估计线性分类器在判别完备特征上的泛化误差R[ω]，然后根据组合模型(ensemble model)和所期望泛化误差H[ω]计算所需要训练模型数目q。

(公式四)

E.将q个模型中得每一个训练模型分别在待检测图像上执行前馈操作，每一个模型获取o组全连接前的判别完备特征图，然后用最近邻插值算法对每组判别完备特征图缩放，得到n*o组判别完备特征图，q个模型共计n*o*q组判别完备特征图。然后在每组判别完备特征图上直接用线性分类器执行密集平滑窗分类工作得到n*o*q组响应图。其中线性分类器和判别完备图的点积操作可以转成卷积操作，由于采用步骤B中的非线性校正单元得到稀疏特征图，卷积可以使用稀疏傅里叶变换来加速分类操作。如图3所示，图3中的(b)和(d)分别为线性分类器在判别完备特征(a)和(c)卷积得到的，其中(e)是(d)缩放得到。

F.对n*o*q中的每o组响应图采用非极大值得到n*q组响应图，然后对n*q响应图中的每n个响应图执行非极大值抑制得到q组具有真实尺度的响应图，把q组响应图执行与运算得到一个具有真实尺度的最终响应图，计算最终响应图中的每一个联通区域的质心。

G.把质心和真实尺度映射到原待检测图中，根据每一个质心位置和尺度值画出对应的矩形框，完成目标检测，图4是检测结果。

本发明和其他基于卷积神经网络在目标检测所需时间上的比较结果见表1。

表1

方法	CPU时间(s)	GPU时间(s)	总共时间(s)
				方法11	2.3	25.08	28.1
方法12	43.2	0	43.2
				方法13	2.3	0.25	2.55
本发明的方法	1.3	0	1.3

在表1中，方法11为Fabian等人提出的方法(Fabian Nasse,Christian Thurau,and Gernot A.Fink,“Face detection using gpu-based convolutional neuralnetworks,”in CAIP,2009,pp.83–90)；

方法12为A.Giusti等人提出的方法(A.Giusti,D.C.Ciresan,J.Masci,L.M.Gambardella,and J.Schmidhuber.Fast image scanning with deep max-poolingconvolutional neural networks.In ICIP,2013)；

方法13为K.He等人提出的方法(K.He,X.Zhang,S.Ren,and J.Sun.Spatialpyramid pooling in deep convolutional networks for visual recognition.InECCV,2014)。

本发明直接在多尺度判别完备特征图上做分类(多尺度判别完备特征图是通过最近邻插值算法缩放得到)，把线性分类器转成的权重向量转成核矩阵，线性分类可以通过核矩阵和多尺度判别完备特征图卷积完成。由于判别完备特征是稀疏的，卷积速度可以通过稀疏傅里叶变换得到。另外，由于直接在判别完备特征图上做检测，而不是原图上，目标检测速度大大提高。

Claims

1.基于卷积神经网络的快速目标检测方法，其特征在于包括以下步骤：

B)将所有训练样本分m批，将m-2批样本放进设计的卷积神经网络里用反向传播算法训练，2批样本用于测试，所述卷积神经网络包含卷积层、最大池化层和局部对比归一化层三个成分，这三个成分扮演非线性函数的功能，目的是把位于流形上的原始图像映射到欧式空间，卷积的激活函数采用非线性校正单元，设计好包含这三个成分的网络结构模型后，用反向传播算法训练对模型进行训练，得到参数W；

C)提取步骤B)中的训练好的参数W，采用扩展图的方式解决卷积神经网络中最大池化丢失信息的问题，给定测试图像，针对2×2的卷积核中每个偏移，都保存一个对应的特征图，称为扩展图；对于每一层max-pooling核大小为K，整个卷积神经网络有p层，扩展之后每个最大池化的下采样层特征图数目扩展至2^K倍，整个网络扩展到o＝(2^K)^p倍，然后把参数W用于任意大小的待检测图像，获取全连接前的扩展特征图，称它为判别完备特征；给定输入图像x，已训练好的滤波器组K和偏移b，卷积层的输出写成公式一的形式：

最大池化层写成公式二的形式：

为了使得获得的特征具有鲁邦的性质，把局部对比归一化层引入分段处理的环节中，该层写成公式三的形式：

其中，r表示制定的邻近竞争特征图的数目，N表示当前层总共的特征图数目，k,α,β是一些超参数，在训练过程中指定合适的浮点数值，当CNN模型训练好后，根据以上三个公式，获取判别完备特征为后续的基于平滑窗扫描提供支撑；

D)把卷积神经网络的全连接看成一个线性分类器，直接基于判别完备特征图做检测，采用可能近似学习框架来估计线性分类器在判别完备特征上的泛化误差R[ω]，然后根据组合模型和所期望泛化误差H[ω]计算所需要训练模型数目q；

E)将q个模型中得每一个训练模型分别在待检测图像上执行前馈操作，每一个模型获取o组全连接前的判别完备特征图，然后用最近邻插值算法对每组判别完备特征图缩放，得到n*o组判别完备特征图，q个模型共计n*o*q组判别完备特征图，然后在每组判别完备特征图上直接用线性分类器执行密集平滑窗分类工作得到n*o*q组响应图，其中线性分类器和判别完备图的点积操作转成卷积操作；

2.如权利要求1所述基于卷积神经网络的快速目标检测方法，其特征在于在步骤A)中，所述准备训练样本集包括以下子步骤：

A1)从训练图像提取给定目标框的图像块，然后缩放到固定大小尺寸作为正样本，每一个给定目标框的图像块作为一个样本，得到N₀个图像块，即N₀个样本X_i，i＝1，……N₀；

A2)对于负样本的图像的获取，在正样本图像块周围抽取与其没有很大重叠的、任意大小的图像块缩放到固定尺寸作为负样本X_i’；负样本的抽取要近可能的具有代表性，要覆盖大多数情景图像；共计抽取N₁负样本，i＝1，……N₁；

A3)N＝N₀+N₁。

3.如权利要求1所述基于卷积神经网络的快速目标检测方法，其特征在于在步骤B)中，所述利用批样本进行卷积神经网络训练包括以下子步骤：

B1)N个样本在分批的时候需要随机的打散顺序，然后分成批样本；

B2)卷积神经网络包含卷积层、最大池化层和局部对比归一化层三个成分，前两个成分是必需成分，第三个成分是根据任何可选的成分，卷积的激活函数选用非线性校正单元，通过任意组合这三种成分得到针对不同目标检测的网络结构；

B5)根据验证曲线判断何时停止训练；

B6)从已训练好的模型中提取参数W。

4.如权利要求1所述基于卷积神经网络的快速目标检测方法，其特征在于在步骤C)中，所述采用扩展图的方式解决卷积神经网络中最大池化丢失信息的问题包括以下子步骤：

C1)把步骤B)中提取的W用于待检测图像的前馈操作过程中，对于每一个特征图遇到max-pooling丢失判别信息的情况时，针对下采样核的大小K中每一个偏移都作为一个新的起点偏移，然后平铺满下采样核至整个待检测图像，每一个起点偏移都得到一个扩展图，当前下采样层会生成2^K个扩展图，所有特征图使用同一个偏移得到的扩展图称为一段，下采样后会生成2^K段的特征图，整个网络中若有z层下采样层，则得到o＝(2^K)^z段的特征图；

C4)在对待测试图像执行到前馈操作的过程中，全连接层前一层得到的(2^K)^z段的特征图称为判别完备特征图。

5.如权利要求1所述基于卷积神经网络的快速目标检测方法，其特征在于在步骤D)中，所述直接基于判别完备特征图做检测包括以下子步骤：

D1)将步骤C)中(2^K)^z段的特征图全部使用最近邻插值算法n次，得到n*(2^K)^z段的判别完备特征图；

D2)在每段判别完备特征图上用线性分类器与其做卷积得到n*(2^K)^z的响应图；

D3)把n*(2^K)^z的响应图全部缩放到同一尺寸并记录缩放比，用非极大值抑制算法得到最终响应图和对应最大响应图的缩放比。