CN104573731B - 基于卷积神经网络的快速目标检测方法 - Google Patents
基于卷积神经网络的快速目标检测方法 Download PDFInfo
- Publication number
- CN104573731B CN104573731B CN201510061852.6A CN201510061852A CN104573731B CN 104573731 B CN104573731 B CN 104573731B CN 201510061852 A CN201510061852 A CN 201510061852A CN 104573731 B CN104573731 B CN 104573731B
- Authority
- CN
- China
- Prior art keywords
- neural networks
- convolutional neural
- layer
- sample
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 64
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000009499 grossing Methods 0.000 claims abstract description 10
- 238000010586 diagram Methods 0.000 claims description 35
- 230000004044 response Effects 0.000 claims description 31
- 238000011176 pooling Methods 0.000 claims description 22
- 239000000203 mixture Substances 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 18
- 230000004069 differentiation Effects 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 230000001629 suppression Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 102000008297 Nuclear Matrix-Associated Proteins Human genes 0.000 description 1
- 108010035916 Nuclear Matrix-Associated Proteins Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000000299 nuclear matrix Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Abstract
基于卷积神经网络的快速目标检测方法,涉及计算机视觉技术。首先利用训练集训练出卷积神经网络参数,然后利用扩展图的方式解决最大池化丢失特征的问题并生成判别完备特征图;把卷积神经网络的全连接权重看成线性分类器,采用可能近似学习框架来估计线性分类器在判别完备特征上的泛华误差;根据泛华误差和所期望泛化误差阈值来估算所需线性分类器个数,最后在判别完备特征图上用线性分类器基于平滑窗的方式完成目标检测。显著提高检测效率和目标检测精度。
Description
技术领域
本发明涉及计算机视觉技术,具体是涉及一种基于卷积神经网络的快速目标检测方法。
背景技术
人类感知世界的一个重要来源就是通过图像信息,研究表明,人类获取外界信息中大约有80%~90%的信息来自于人类眼睛获取的图像信息。人类对外界图像信息感知能力很高,可以快速定位目标和分析目标。计算机要具有强大的视觉感知和理解能力,就应该具备类似人类强大的目标检测和识别能力。目标检测是视觉感知和目标理解的一个很重要的前提工作,目标获取的效率和精度决定着视觉感知的速度和效果。一旦计算机具备类似人类强大的目标检测盒感知能力,就可以更好的在各行业替代人力工作,大大节约生产成本。另外它对日常智能服务行业也提供了强大的支撑。因此,对计算机视觉中的目标检测技术进行深入研究,不断提高检测的准确率,具有重要的现实意义。
目前学术界中解决这两个问题的发展趋势是从使用启发式方法到使用机器学习的方法。所用特征也从手工特征转向基于任务自适应提取的特征。目标检测和识别的模型也开始出现从单一特定目标检测和识别到多目标检测和识别同时进行的功能转变。最典型的例子就是深度学习模的出现,解决了传统目标检测和识别的模型只针对有限任务的目标检测和识别任务有效的问题。比如,在2001年,Viola-Jone提出的正面人脸检测框架基于Harr特征对人脸检测相当有效,但是对于侧脸人脸以及行人检测效果不是太好。直到2005年,Dalal等人提出HOG特征并且使用SVM对每个平滑窗对应的HOG(Histogram ofGradient)特征进行分类的策略后,垂直行人检测效果才有了一个质的突破。然而,HOG这一手工特征,对于图像分类和识别以及任意姿态的行人、动物、植物等目标的检测效果并不令人满意。接着形变模型(Deformable Part Models:DPM)应运而生解决有形变的目标检测问题。形变模型虽然试着解决因形变导致目标检测不到的问题,但是其模型中需要的形变部件现实中很难理想的捕获到,原因就没有一个好的模型和好的特征来识别部件,因此它在多类目标检测数据集(PASCAL VOC,ImageNet)上效果并不是太好。最近的一个突破性工作是深度学习模型的出现。在最大的图像分类和目标检测数据集ImageNet上,基于深度学习模型之一卷积神经网络(CNN)做的目标检测和识别精度的提高更是超过以往最高精度一倍之多。最近两年ImageNet数据集分类和检测性能出众的算法几乎全部采用卷积神经网络,不同的它们的网络结构不同。目前ImageNet数据集上图像分类和目标检测最高的精度分别为95%和55%。
尽管基于卷积神经网络的方法在目标检测和识别上提高了很高的精度,但是由于卷积神经网络网络复杂且计算量大,应用在目标检测上效率并不是很高,目前很多方法都是基于GPU来对目标检测程序进行加速。给定一张目标图像,使用平滑窗策略做目标检测,即使采用GPU加速,其算法复杂度仍然很大,效率极低。为了解决卷积神经网络在目标检测上的效率问题,目前学术界主流的解决方案可以分为三类。第一类是基于图割的方法,先对给定图像进行图像分割,通过分割块得到一些潜在的目标区域。然后用卷积神经网络对这些目标区域进行特征提取和分类,最终得到目标的位置。这种方法的缺点就是很依赖于图像分割的好坏。第二类是通过卷积神经网络对原始图像提取特征,然后在特征图上用平滑窗策略做目标位置的回归和目标的分类。这种方法在利用卷积神经网络对大图提取特征时,会丢失一些对分类和回归有用的特征信息,因此最后的模型的性能无法达到最优。第三类方法则是用卷积神经网络分类的优势来寻找部件,进而构建形变模型,采用形变模型的思想对目标做检测。但是这种把卷积神经网络的分类和形变模型中的目标检测分开执行的做法,使得整体框架的检测效果不是很出众,另外这种模型的效率也不是很高。
发明内容
本发明的目的在于提出一种基于卷积神经网络的快速目标检测方法。
本发明包括以下步骤:
A)准备训练样本集(xi,yi),i=1,……,N,N为训练样本数,N为自然数,xi表示训练样本对应的固定大小的图像,包含目标且目标充满画幅的图像是正样本,其他图像是负样本;yi表示样本类别向量:
B)将所有训练样本分m批,将m-2批样本放进设计的卷积神经网络里用反向传播算法训练,2批样本用于测试,所述卷积神经网络包含卷积层、最大池化(max-pooling)层和局部对比归一化(local contrast normalization)层三个成分,这三个成分扮演非线性函数的功能,目的是把位于流形上的原始图像映射到欧式空间,卷积的激活函数采用非线性校正单元(Rectifier linear unit),可以使得卷积后的特征比较稀疏,设计好包含这三个成分的网络结构模型后,用反向传播算法训练对模型进行训练,得到参数W;
C)提取步骤B)中的训练好的参数W,采用扩展图的方式解决卷积神经网络中最大池化(max-pooling)丢失信息的问题,给定测试图像,常规最大池化(max-pooling)(也就是使用偏移A作为起始点的方式)操作后只能得到扩展图(A),其他有利于分类的信息会丢失,因此针对2×2的卷积核中每个偏移,都保存一个对应的特征图,称为扩展图;对于每一层max-pooling核大小为K,整个卷积神经网络有p层,扩展之后每个最大池化(max-pooling)的下采样层特征图数目扩展至2K倍,整个网络扩展到o=(2K)p倍,然后把参数W用于任意大小的待检测图像,获取全连接前的扩展特征图,称它为判别完备特征(DiscriminativeComplete Features);给定输入图像x,已训练好的滤波器组K和偏移b,卷积层的输出可以写成(公式一)的形式:
(公式一)
其中Mj表示所选择输入特征图的索引;l表示当前层的索引;i和j分别表示输入和输出特征图索引;o表示段索引;f表示激活函数,这里使用线性校正单元函数f(x)=max(x,0);*表示卷积操作;
最大池化(max-pooling)层可以写成(公式二)的形式:
(公式二)
其中,m和n分别表示当前层的像素索引;s表示下采样核的大小;p和q分别表示前一层的像素索引,并且满足p=s*(m-1)+k+1,q=s*(n-1)+k+1,其中0<k<s;分号用于选择对应的列和行;
为了使得获得的特征具有鲁邦的性质,可以把局部对比归一化层引入分段处理的环节中,该层可以写成(公式三)的形式:
(公式三)
其中,r表示制定的邻近竞争特征图的数目,N表示当前层总共的特征图数目,k,α,β是一些超参数,在训练过程中可以指定合适的浮点数值,当CNN模型训练好后,根据以上三个公式,可以获取判别完备特征为后续的基于平滑窗扫描提供支撑;
D)把卷积神经网络的全连接看成一个线性分类器,直接基于判别完备特征图做检测,采用可能近似学习(probably approximately correct)框架来估计线性分类器在判别完备特征上的泛化误差R[ω],然后根据组合模型(ensemble model)和所期望泛化误差H[ω]计算所需要训练模型数目q;
(公式四)
E)将q个模型中得每一个训练模型分别在待检测图像上执行前馈操作,每一个模型获取o组全连接前的判别完备特征图,然后用最近邻插值算法对每组判别完备特征图缩放,得到n*o组判别完备特征图,q个模型共计n*o*q组判别完备特征图,然后在每组判别完备特征图上直接用线性分类器执行密集平滑窗分类工作得到n*o*q组响应图,其中线性分类器和判别完备图的点积操作可以转成卷积操作,由于采用步骤B)中的非线性校正单元得到稀疏特征图,卷积可以使用稀疏傅里叶变换来加速分类操作;
F)对n*o*q中的每o组响应图采用非极大值得到n*q组响应图,然后对n*q响应图中的每n个响应图执行非极大值抑制得到q组具有真实尺度的响应图,把q组响应图执行与运算得到一个具有真实尺度的最终响应图,计算最终响应图中的每一个联通区域的质心:
G)把质心和真实尺度映射到原待检测图中,根据每一个质心位置和尺度值画出对应的矩形框,完成目标检测。
在步骤A)中,所述准备训练样本集可包括以下子步骤:
A1)从训练图像提取给定目标框的图像块,然后缩放到固定大小尺寸作为正样本,每一个给定目标框的图像块作为一个样本,得到N0个图像块,即N0个样本Xi,i=1,……N;
A2)对于负样本的图像的获取,一般在正样本图像块周围抽取与其没有很大重叠的、任意大小的图像块缩放到固定尺寸作为负样本Xi,负样本的抽取要尽可能的具有代表性,要覆盖大多数情景图像,共计抽取N1负样本,i=1,……N;
A3)N=N0+N1。
在步骤B)中,所述利用m批样本进行卷积神经网络训练可包括以下子步骤:
B1)N个样本在分批的时候需要随机的打散顺序,然后分成m批样本,分批的目的是用小批样本计算神经网络训练所需的梯度值,打散顺序有利于得到更合理的梯度方向;
B2)精心设计的卷积神经网络包含卷积层、最大池化(max-pooling)层和局部对比归一化(local contrast normalization)层三个成分,前两个成分是必需成分,第三个成分是根据任何可选的成分,卷积的激活函数选用非线性校正单元,通过任意组合这三种成分可以得到针对不同目标检测的网络结构;
B3)设置网络结构中所需要的滤波器数目和特征图数目、滤波器大小、下采样核的大小、每层的学习率以及局部对比归一化所需要的超参数;
B4)在卷积神经网络训练的过程中,采用冲量和随机扔掉训练技巧;
B5)根据验证曲线判断何时停止训练;
B6)从已训练好的模型中提取参数W。
在步骤C)中,所述采用扩展图的方式解决卷积神经网络中最大池化(max-pooling)丢失信息的问题可包括以下子步骤:
C1)把步骤B中提取的W用于待检测图像的前馈操作过程中,对于每一个特征图遇到max-pooling丢失判别信息的情况时,针对下采样核的大小K中每一个偏移都作为一个新的起点偏移,然后平铺满下采样核至整个待检测图像,每一个起点偏移都得到一个扩展图,当前下采样层会生成2K个扩展图,所有特征图使用同一个偏移得到的扩展图称为一段(fragment),下采样后会生成2K段的特征图,整个网络中如果有p层下采样层,会得到o=(2K)p段的特征图;
C2)下采样后续的卷积操作,需要对每段采用相同的卷积操作;
C3)局部对比归一化层需要对每段采用相同的局部对比归一化操作;
C4)在对待测试图像执行到前馈操作的过程中,全连接层前一层得到的(2K)p段的特征图称为判别完备特征图。
在步骤D)中,所述直接基于判别完备特征图做检测(分类)可包括以下子步骤:
D1)将步骤C中(2K)p段的特征图全部使用最近邻插值算法n次,得到n*(2K)p段的判别完备特征图;
D2)在每段判别完备特征图上用线性分类器与其做卷积得到n*(2K)p的响应图;
D3)把n*(2K)p的响应图全部缩放到同一尺寸并记录缩放比,用非极大值抑制算法得到最终响应图和对应最大响应图的缩放比。
本发明首先利用训练集训练出卷积神经网络参数,然后利用扩展图的方式解决最大池化(max-pooling)丢失特征的问题并生成判别完备特征图;把卷积神经网络的全连接权重看成线性分类器,采用可能近似学习框架来估计线性分类器在判别完备特征上的泛华误差;根据泛华误差和所期望泛化误差阈值来估算所需线性分类器个数,最后在判别完备特征图上用线性分类器基于平滑窗的方式完成目标检测。
本发明采用扩展图的方式解决Max-pooling层中的特征丢失问题,并且把扩展图迁移到其他层;把全连接前的所有扩展图称为判别完备特征图,并且把全连接的权重看成一个线性分类器,直接在判别完备特征图上做检测可以显著提高检测效率;采用可能近似学习(probably approximately correct)框架来估计线性分类器在判别完备特征上的泛化误差R[ω],然后根据组合模型(ensemble model)和所期望泛化误差H[ω]计算所需要训练模型数目q,根据q个模型的预测来降低最终的预测错误,进而提高目标检测精度。
附图说明
图1为本发明实施例的检测框架示意图。
图2为本发明实施例的扩展图的示意图。
图3为本发明实施例的检测实例图。
图4为本发明实施例的检测结果图。其中左边框为本发明方法检测结果,右边框为北京旷视科技(Megvii)有限公司提出的方法的检测结果。
图5为本发明与其它几种目标检测方法在FDDB数据集上的对比的ROC曲线图。
其中虚曲线(名称为:本发明的方法)为本发明的方法;
方法1对应为B.Yang等人提出的方法(B.Yang,J.Yan,Z.Lei andS.Z.Li.Aggregate channel features for multi-view facedetection..International Joint Conference on Biometrics,2014);
方法2对应为H.Li等人提出的方法(H.Li,Z.Lin,J.Brandt,X.Shen andG.Hua.Efficient Boosted Exemplar-based Face Detection.CVPR 2014);
方法3对应为J.Yan等人提出的方法(J.Yan,Z.Lei,L.Wen and S.Z.Li.TheFastest Deformable Part Model for Object Detection.CVPR 2014);
方法4对应为北京旷视科技(Megvii)有限公司提出的方法;
方法5对应为M.Mathias等人提出的方法(M.Mathias,R.Benenson,M.Pedersoliand L.Van Gool.Face detection without bells and whistles.ECCV 2014);
方法6对应为X.Shen等人提出的方法(X.Shen,Z.Lin,J.Brandt andY.Wu.Detecting and Aligning Faces by Image Retrieval.CVPR 2013);
方法7对应为J.Li等人提出的方法(J.Li and Y.Zhang.Learning SURF cascadefor fast and accurate object detection.CVPR 2013.);
方法8对应为J.Li等人提出的方法(J.Li,T.Wang and Y.Zhang.Face Detectionusing SURF Cascade.ICCV 2011BeFIT workshop.);
方法9对应为Viola等人提出的方法(P.Viola and M.Jones.Robust real-timeobject detection.In IJCV,2001);
方法10对应为A.Giusti等人提出的方法(A.Giusti,D.C.Ciresan,J.Masci,L.M.Gambardella,and J.Schmidhuber.Fast image scanning with deep max-poolingconvolutional neural networks.In ICIP,2013)。
具体实施方式
下面结合附图和实施例对本发明的方法作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了实施方式和具体操作过程,但本发明的保护范围不限于下述的实施例。
参见图1,本发明实施例包括以下步骤:
A.准备训练样本集(xi,yi),i=1,……,N,N为训练样本数,N为自然数。xi表示训练样本对应的固定大小的图像,包含目标且目标充满画幅的图像是正样本,其他图像是负样本。yi表示样本类别向量:
B.将所有训练样本分m批,将m-2批样本放进精心设计的卷积神经网络里用反向传播算法训练,2批样本用于测试。精心设计的卷积神经网络包含卷积层,最大池化(max-pooling)层和局部对比归一化(local contrast normalization)层三个成分。这三个成分扮演者非线性函数的功能,目的是把位于流形上的原始图像映射到欧式空间。卷积的激活函数采用非线性校正单元(Rectifier linear unit),可以使得卷积后的特征比较稀疏。设计好包含这三个成分的网络结构模型后,用反向传播算法训练对模型进行训练,得到参数W。
C.提取步骤B中的训练好的参数W,采用扩展图的方式解决卷积神经网络中max-pooling丢失信息的问题。给定测试图像,常规最大池化(max-pooling)(也就是使用偏移A作为起始点的方式)操作后只能得到扩展图(A),其他有利于分类的信息会丢失。因此针对2*2的卷积核中每个偏移,都保存一个对应的特征图,称为扩展图,如图2所示,(A),(B),(C),(D)为不同偏移对应的不同扩展图。
对于每一层最大池化(max-pooling)核大小为K,整个卷积神经网络有p层,扩展之后每个max-pooling的下采样层特征图数目扩展至2K倍,整个网络扩展到o=(2K)p倍,然后把参数W用于任意大小的待检测图像,获取全连接前的扩展特征图,称它为判别完备特征(Discriminative Complete Features),如图3所示,图3中(a)和(c)称为判别完备特征,其中(c)是(a)经过最近邻差值算法得到的。
给定输入图像x,已训练好的滤波器组K和偏移b,卷积层的输出可以写成(公式一)的形式:
(公式一)
其中Mj表示所选择输入特征图的索引;l表示当前层的索引;i和j分别表示输入和输出特征图索引;o表示段索引;f表示激活函数,这里使用线性校正单元函数f(x)=max(x,0);*表示卷积操作。
最大池化(max-pooling)层可以写成(公式二)的形式:
(公式二)
其中,m和n分别表示当前层的像素索引;s表示下采样核的大小;p和q分别表示前一层的像素索引,并且满足p=s*(m-1)+k+1,q=s*(n-1)+k+1,其中0<k<s;分号用于选择对应的列和行。
为了使得获得的特征具有鲁邦的性质,可以把局部对比归一化层引入分段处理的环节中,该层可以写成(公式三)的形式:
(公式三)
其中,r表示制定的邻近竞争特征图的数目,N表示当前层总共的特征图数目,k,α,β是一些超参数,在训练过程中可以指定合适的浮点数值。当CNN模型训练好后,根据以上3个公式,可以获取判别完备特征为后续的基于平滑窗扫描提供支撑。
D.把卷积神经网络的全连接看成一个线性分类器,直接基于判别完备特征图上而不是原检测图做检测可以极大的提高检测速度。采用可能近似学习(probablyapproximately correct)框架来估计线性分类器在判别完备特征上的泛化误差R[ω],然后根据组合模型(ensemble model)和所期望泛化误差H[ω]计算所需要训练模型数目q。
(公式四)
E.将q个模型中得每一个训练模型分别在待检测图像上执行前馈操作,每一个模型获取o组全连接前的判别完备特征图,然后用最近邻插值算法对每组判别完备特征图缩放,得到n*o组判别完备特征图,q个模型共计n*o*q组判别完备特征图。然后在每组判别完备特征图上直接用线性分类器执行密集平滑窗分类工作得到n*o*q组响应图。其中线性分类器和判别完备图的点积操作可以转成卷积操作,由于采用步骤B中的非线性校正单元得到稀疏特征图,卷积可以使用稀疏傅里叶变换来加速分类操作。如图3所示,图3中的(b)和(d)分别为线性分类器在判别完备特征(a)和(c)卷积得到的,其中(e)是(d)缩放得到。
F.对n*o*q中的每o组响应图采用非极大值得到n*q组响应图,然后对n*q响应图中的每n个响应图执行非极大值抑制得到q组具有真实尺度的响应图,把q组响应图执行与运算得到一个具有真实尺度的最终响应图,计算最终响应图中的每一个联通区域的质心。
G.把质心和真实尺度映射到原待检测图中,根据每一个质心位置和尺度值画出对应的矩形框,完成目标检测,图4是检测结果。
本发明和其他基于卷积神经网络在目标检测所需时间上的比较结果见表1。
表1
方法 | CPU时间(s) | GPU时间(s) | 总共时间(s) |
方法11 | 2.3 | 25.08 | 28.1 |
方法12 | 43.2 | 0 | 43.2 |
方法13 | 2.3 | 0.25 | 2.55 |
本发明的方法 | 1.3 | 0 | 1.3 |
在表1中,方法11为Fabian等人提出的方法(Fabian Nasse,Christian Thurau,and Gernot A.Fink,“Face detection using gpu-based convolutional neuralnetworks,”in CAIP,2009,pp.83–90);
方法12为A.Giusti等人提出的方法(A.Giusti,D.C.Ciresan,J.Masci,L.M.Gambardella,and J.Schmidhuber.Fast image scanning with deep max-poolingconvolutional neural networks.In ICIP,2013);
方法13为K.He等人提出的方法(K.He,X.Zhang,S.Ren,and J.Sun.Spatialpyramid pooling in deep convolutional networks for visual recognition.InECCV,2014)。
本发明直接在多尺度判别完备特征图上做分类(多尺度判别完备特征图是通过最近邻插值算法缩放得到),把线性分类器转成的权重向量转成核矩阵,线性分类可以通过核矩阵和多尺度判别完备特征图卷积完成。由于判别完备特征是稀疏的,卷积速度可以通过稀疏傅里叶变换得到。另外,由于直接在判别完备特征图上做检测,而不是原图上,目标检测速度大大提高。
Claims (5)
1.基于卷积神经网络的快速目标检测方法,其特征在于包括以下步骤:
A)准备训练样本集(xi,yi),i=1,……,N,N为训练样本数,N为自然数,xi表示训练样本对应的固定大小的图像,包含目标且目标充满画幅的图像是正样本,其他图像是负样本;yi表示样本类别向量:
B)将所有训练样本分m批,将m-2批样本放进设计的卷积神经网络里用反向传播算法训练,2批样本用于测试,所述卷积神经网络包含卷积层、最大池化层和局部对比归一化层三个成分,这三个成分扮演非线性函数的功能,目的是把位于流形上的原始图像映射到欧式空间,卷积的激活函数采用非线性校正单元,设计好包含这三个成分的网络结构模型后,用反向传播算法训练对模型进行训练,得到参数W;
C)提取步骤B)中的训练好的参数W,采用扩展图的方式解决卷积神经网络中最大池化丢失信息的问题,给定测试图像,针对2×2的卷积核中每个偏移,都保存一个对应的特征图,称为扩展图;对于每一层max-pooling核大小为K,整个卷积神经网络有p层,扩展之后每个最大池化的下采样层特征图数目扩展至2K倍,整个网络扩展到o=(2K)p倍,然后把参数W用于任意大小的待检测图像,获取全连接前的扩展特征图,称它为判别完备特征;给定输入图像x,已训练好的滤波器组K和偏移b,卷积层的输出写成公式一的形式:
其中Mj表示所选择输入特征图的索引;l表示当前层的索引;i和j分别表示输入和输出特征图索引;o表示段索引;f表示激活函数,这里使用线性校正单元函数f(x)=max(x,0);*表示卷积操作;
最大池化层写成公式二的形式:
其中,m和n分别表示当前层的像素索引;s表示下采样核的大小;p和q分别表示前一层的像素索引,并且满足p=s*(m-1)+k+1,q=s*(n-1)+k+1,其中0<k<s;分号用于选择对应的列和行;
为了使得获得的特征具有鲁邦的性质,把局部对比归一化层引入分段处理的环节中,该层写成公式三的形式:
其中,r表示制定的邻近竞争特征图的数目,N表示当前层总共的特征图数目,k,α,β是一些超参数,在训练过程中指定合适的浮点数值,当CNN模型训练好后,根据以上三个公式,获取判别完备特征为后续的基于平滑窗扫描提供支撑;
D)把卷积神经网络的全连接看成一个线性分类器,直接基于判别完备特征图做检测,采用可能近似学习框架来估计线性分类器在判别完备特征上的泛化误差R[ω],然后根据组合模型和所期望泛化误差H[ω]计算所需要训练模型数目q;
E)将q个模型中得每一个训练模型分别在待检测图像上执行前馈操作,每一个模型获取o组全连接前的判别完备特征图,然后用最近邻插值算法对每组判别完备特征图缩放,得到n*o组判别完备特征图,q个模型共计n*o*q组判别完备特征图,然后在每组判别完备特征图上直接用线性分类器执行密集平滑窗分类工作得到n*o*q组响应图,其中线性分类器和判别完备图的点积操作转成卷积操作;
F)对n*o*q中的每o组响应图采用非极大值得到n*q组响应图,然后对n*q响应图中的每n个响应图执行非极大值抑制得到q组具有真实尺度的响应图,把q组响应图执行与运算得到一个具有真实尺度的最终响应图,计算最终响应图中的每一个联通区域的质心:
G)把质心和真实尺度映射到原待检测图中,根据每一个质心位置和尺度值画出对应的矩形框,完成目标检测。
2.如权利要求1所述基于卷积神经网络的快速目标检测方法,其特征在于在步骤A)中,所述准备训练样本集包括以下子步骤:
A1)从训练图像提取给定目标框的图像块,然后缩放到固定大小尺寸作为正样本,每一个给定目标框的图像块作为一个样本,得到N0个图像块,即N0个样本Xi,i=1,……N0;
A2)对于负样本的图像的获取,在正样本图像块周围抽取与其没有很大重叠的、任意大小的图像块缩放到固定尺寸作为负样本Xi’;负样本的抽取要近可能的具有代表性,要覆盖大多数情景图像;共计抽取N1负样本,i=1,……N1;
A3)N=N0+N1。
3.如权利要求1所述基于卷积神经网络的快速目标检测方法,其特征在于在步骤B)中,所述利用批样本进行卷积神经网络训练包括以下子步骤:
B1)N个样本在分批的时候需要随机的打散顺序,然后分成批样本;
B2)卷积神经网络包含卷积层、最大池化层和局部对比归一化层三个成分,前两个成分是必需成分,第三个成分是根据任何可选的成分,卷积的激活函数选用非线性校正单元,通过任意组合这三种成分得到针对不同目标检测的网络结构;
B3)设置网络结构中所需要的滤波器数目和特征图数目、滤波器大小、下采样核的大小、每层的学习率以及局部对比归一化所需要的超参数;
B4)在卷积神经网络训练的过程中,采用冲量和随机扔掉训练技巧;
B5)根据验证曲线判断何时停止训练;
B6)从已训练好的模型中提取参数W。
4.如权利要求1所述基于卷积神经网络的快速目标检测方法,其特征在于在步骤C)中,所述采用扩展图的方式解决卷积神经网络中最大池化丢失信息的问题包括以下子步骤:
C1)把步骤B)中提取的W用于待检测图像的前馈操作过程中,对于每一个特征图遇到max-pooling丢失判别信息的情况时,针对下采样核的大小K中每一个偏移都作为一个新的起点偏移,然后平铺满下采样核至整个待检测图像,每一个起点偏移都得到一个扩展图,当前下采样层会生成2K个扩展图,所有特征图使用同一个偏移得到的扩展图称为一段,下采样后会生成2K段的特征图,整个网络中若有z层下采样层,则得到o=(2K)z段的特征图;
C2)下采样后续的卷积操作,需要对每段采用相同的卷积操作;
C3)局部对比归一化层需要对每段采用相同的局部对比归一化操作;
C4)在对待测试图像执行到前馈操作的过程中,全连接层前一层得到的(2K)z段的特征图称为判别完备特征图。
5.如权利要求1所述基于卷积神经网络的快速目标检测方法,其特征在于在步骤D)中,所述直接基于判别完备特征图做检测包括以下子步骤:
D1)将步骤C)中(2K)z段的特征图全部使用最近邻插值算法n次,得到n*(2K)z段的判别完备特征图;
D2)在每段判别完备特征图上用线性分类器与其做卷积得到n*(2K)z的响应图;
D3)把n*(2K)z的响应图全部缩放到同一尺寸并记录缩放比,用非极大值抑制算法得到最终响应图和对应最大响应图的缩放比。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510061852.6A CN104573731B (zh) | 2015-02-06 | 2015-02-06 | 基于卷积神经网络的快速目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510061852.6A CN104573731B (zh) | 2015-02-06 | 2015-02-06 | 基于卷积神经网络的快速目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104573731A CN104573731A (zh) | 2015-04-29 |
CN104573731B true CN104573731B (zh) | 2018-03-23 |
Family
ID=53089751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510061852.6A Expired - Fee Related CN104573731B (zh) | 2015-02-06 | 2015-02-06 | 基于卷积神经网络的快速目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104573731B (zh) |
Families Citing this family (62)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9998130B2 (en) * | 2016-07-06 | 2018-06-12 | Hrl Laboratories, Llc | Method to perform convolutions between arbitrary vectors using clusters of weakly coupled oscillators |
CN104992223B (zh) * | 2015-06-12 | 2018-02-16 | 安徽大学 | 基于深度学习的密集人数估计方法 |
CN107851195B (zh) * | 2015-07-29 | 2022-02-11 | 诺基亚技术有限公司 | 利用神经网络进行目标检测 |
WO2017031630A1 (zh) * | 2015-08-21 | 2017-03-02 | 中国科学院自动化研究所 | 基于参数量化的深度卷积神经网络的加速与压缩方法 |
CN105160310A (zh) * | 2015-08-25 | 2015-12-16 | 西安电子科技大学 | 基于3d卷积神经网络的人体行为识别方法 |
US10332028B2 (en) * | 2015-08-25 | 2019-06-25 | Qualcomm Incorporated | Method for improving performance of a trained machine learning model |
CN105205453B (zh) * | 2015-08-28 | 2019-01-08 | 中国科学院自动化研究所 | 基于深度自编码器的人眼检测和定位方法 |
CN105120130B (zh) * | 2015-09-17 | 2018-06-29 | 京东方科技集团股份有限公司 | 一种图像升频系统、其训练方法及图像升频方法 |
CN105184271A (zh) * | 2015-09-18 | 2015-12-23 | 苏州派瑞雷尔智能科技有限公司 | 一种基于深度学习的车辆自动检测方法 |
US10614354B2 (en) * | 2015-10-07 | 2020-04-07 | Altera Corporation | Method and apparatus for implementing layers on a convolutional neural network accelerator |
CN105335716B (zh) * | 2015-10-29 | 2019-03-26 | 北京工业大学 | 一种基于改进udn提取联合特征的行人检测方法 |
US9965705B2 (en) * | 2015-11-03 | 2018-05-08 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering |
CN105279556B (zh) * | 2015-11-05 | 2017-11-07 | 国家卫星海洋应用中心 | 一种浒苔检测方法和装置 |
CN105426919B (zh) * | 2015-11-23 | 2017-11-14 | 河海大学 | 基于显著性指导非监督特征学习的图像分类方法 |
CN105468335B (zh) * | 2015-11-24 | 2017-04-12 | 中国科学院计算技术研究所 | 流水级运算装置、数据处理方法及片上网络芯片 |
CN106778604B (zh) * | 2015-12-15 | 2020-04-14 | 西安电子科技大学 | 基于匹配卷积神经网络的行人再识别方法 |
US10360477B2 (en) * | 2016-01-11 | 2019-07-23 | Kla-Tencor Corp. | Accelerating semiconductor-related computations using learning based models |
CN105718890A (zh) * | 2016-01-22 | 2016-06-29 | 北京大学 | 一种基于卷积神经网络的特定视频检测方法 |
CN105740892A (zh) * | 2016-01-27 | 2016-07-06 | 北京工业大学 | 一种高准确率的基于卷积神经网络的人体多部位识别方法 |
US11244191B2 (en) | 2016-02-17 | 2022-02-08 | Intel Corporation | Region proposal for image regions that include objects of interest using feature maps from multiple layers of a convolutional neural network model |
CN105821538B (zh) * | 2016-04-20 | 2018-07-17 | 广州视源电子科技股份有限公司 | 细纱断裂的检测方法和系统 |
CN107329733B (zh) * | 2016-04-29 | 2020-10-02 | 中科寒武纪科技股份有限公司 | 用于执行pooling运算的装置和方法 |
CN106019359A (zh) * | 2016-05-17 | 2016-10-12 | 浪潮集团有限公司 | 一种基于神经网络的地震预测系统 |
CN117829216A (zh) * | 2016-05-20 | 2024-04-05 | 渊慧科技有限公司 | 渐进式神经网络 |
WO2017206156A1 (en) * | 2016-06-03 | 2017-12-07 | Intel Corporation | Look-up convolutional layer in convolutional neural network |
CN106021990B (zh) * | 2016-06-07 | 2019-06-25 | 广州麦仑信息科技有限公司 | 一种将生物基因以特定的性状进行分类与自我识别的方法 |
CN106096655B (zh) * | 2016-06-14 | 2019-08-27 | 厦门大学 | 一种基于卷积神经网络的光学遥感图像飞机检测方法 |
CN106203496B (zh) * | 2016-07-01 | 2019-07-12 | 河海大学 | 基于机器学习的水文曲线提取方法 |
CN106504233B (zh) * | 2016-10-18 | 2019-04-09 | 国网山东省电力公司电力科学研究院 | 基于Faster R-CNN的无人机巡检图像电力小部件识别方法及系统 |
CN106778835B (zh) * | 2016-11-29 | 2020-03-24 | 武汉大学 | 融合场景信息和深度特征的遥感图像机场目标识别方法 |
CN106780512B (zh) * | 2016-11-30 | 2020-01-17 | 厦门美图之家科技有限公司 | 分割图像的方法、应用及计算设备 |
CN106845528A (zh) * | 2016-12-30 | 2017-06-13 | 湖北工业大学 | 一种基于K‑means与深度学习的图像分类算法 |
CN107038448B (zh) * | 2017-03-01 | 2020-02-28 | 中科视语(北京)科技有限公司 | 目标检测模型构建方法 |
CN108229675B (zh) * | 2017-03-17 | 2021-01-01 | 北京市商汤科技开发有限公司 | 神经网络的训练方法、物体检测方法、装置和电子设备 |
CN108629354B (zh) * | 2017-03-17 | 2020-08-04 | 杭州海康威视数字技术股份有限公司 | 目标检测方法及装置 |
CN107124609A (zh) * | 2017-04-27 | 2017-09-01 | 京东方科技集团股份有限公司 | 一种视频图像的处理系统、其处理方法及显示装置 |
CN107220652B (zh) * | 2017-05-31 | 2020-05-01 | 北京京东尚科信息技术有限公司 | 用于处理图片的方法和装置 |
CN107527355B (zh) * | 2017-07-20 | 2020-08-11 | 中国科学院自动化研究所 | 基于卷积神经网络回归模型的视觉跟踪方法、装置 |
CN109325385A (zh) * | 2017-07-31 | 2019-02-12 | 株式会社理光 | 目标检测和区域分割方法、装置和计算机可读存储介质 |
CN107563303B (zh) * | 2017-08-09 | 2020-06-09 | 中国科学院大学 | 一种基于深度学习的鲁棒性舰船目标检测方法 |
CN107292886B (zh) * | 2017-08-11 | 2019-12-31 | 厦门市美亚柏科信息股份有限公司 | 基于网格划分及神经网络的目标物入侵检测方法及装置 |
CN107506774A (zh) * | 2017-10-09 | 2017-12-22 | 深圳市唯特视科技有限公司 | 一种基于局部注意掩模的分段感知神经网络方法 |
CN107766643B (zh) * | 2017-10-16 | 2021-08-03 | 华为技术有限公司 | 数据处理方法及相关装置 |
CN107944354B (zh) * | 2017-11-10 | 2021-09-17 | 南京航空航天大学 | 一种基于深度学习的车辆检测方法 |
WO2019099899A1 (en) * | 2017-11-17 | 2019-05-23 | Facebook, Inc. | Analyzing spatially-sparse data based on submanifold sparse convolutional neural networks |
CN108171796A (zh) * | 2017-12-25 | 2018-06-15 | 燕山大学 | 一种基于三维点云的巡检机器人视觉系统及控制方法 |
CN108280453B (zh) * | 2018-01-08 | 2020-06-16 | 西安电子科技大学 | 基于深度学习的低功耗快速检测图像目标方法 |
CN110390344B (zh) * | 2018-04-19 | 2021-10-26 | 华为技术有限公司 | 备选框更新方法及装置 |
CN108830280B (zh) * | 2018-05-14 | 2021-10-26 | 华南理工大学 | 一种基于区域提名的小目标检测方法 |
CN108830300A (zh) * | 2018-05-28 | 2018-11-16 | 深圳市唯特视科技有限公司 | 一种基于混合监督检测的目标传输方法 |
CN108875819B (zh) * | 2018-06-08 | 2020-10-27 | 浙江大学 | 一种基于长短期记忆网络的物体和部件联合检测方法 |
CN109189965A (zh) * | 2018-07-19 | 2019-01-11 | 中国科学院信息工程研究所 | 图像文字检索方法及系统 |
CN109466725B (zh) * | 2018-10-11 | 2021-05-18 | 重庆邮电大学 | 一种基于神经网络和图像识别的智能水面漂浮物打捞系统 |
CN109376787B (zh) * | 2018-10-31 | 2021-02-26 | 聚时科技(上海)有限公司 | 流形学习网络及基于其的计算机视觉图像集分类方法 |
CN109753903B (zh) * | 2019-02-27 | 2020-09-15 | 北航(四川)西部国际创新港科技有限公司 | 一种基于深度学习的无人机检测方法 |
CN110135312B (zh) * | 2019-05-06 | 2022-05-03 | 电子科技大学 | 一种基于分级lcm的快速小目标检测方法 |
CN110390394B (zh) * | 2019-07-19 | 2021-11-05 | 深圳市商汤科技有限公司 | 批归一化数据的处理方法及装置、电子设备和存储介质 |
CN110674829B (zh) * | 2019-09-26 | 2023-06-02 | 哈尔滨工程大学 | 一种基于图卷积注意网络的三维目标检测方法 |
CN111612051B (zh) * | 2020-04-30 | 2023-06-20 | 杭州电子科技大学 | 一种基于图卷积神经网络的弱监督目标检测方法 |
CN112862195B (zh) * | 2021-02-19 | 2023-06-20 | 金陵科技学院 | 基于sft-als的时间序列粉丝涨幅预测方法 |
WO2023220892A1 (en) * | 2022-05-16 | 2023-11-23 | Intel Corporation | Expanded neural network training layers for convolution |
CN114657513B (zh) * | 2022-05-23 | 2022-09-20 | 河南银金达新材料股份有限公司 | 一种抗菌再生聚酯膜的制备方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810503A (zh) * | 2013-12-26 | 2014-05-21 | 西北工业大学 | 一种基于深度学习的自然图像中显著区域的检测方法 |
CN104063719A (zh) * | 2014-06-27 | 2014-09-24 | 深圳市赛为智能股份有限公司 | 基于深度卷积网络的行人检测方法及装置 |
CN104281853A (zh) * | 2014-09-02 | 2015-01-14 | 电子科技大学 | 一种基于3d卷积神经网络的行为识别方法 |
CN104680508A (zh) * | 2013-11-29 | 2015-06-03 | 华为技术有限公司 | 卷积神经网络和基于卷积神经网络的目标物体检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7274832B2 (en) * | 2003-11-13 | 2007-09-25 | Eastman Kodak Company | In-plane rotation invariant object detection in digitized images |
-
2015
- 2015-02-06 CN CN201510061852.6A patent/CN104573731B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104680508A (zh) * | 2013-11-29 | 2015-06-03 | 华为技术有限公司 | 卷积神经网络和基于卷积神经网络的目标物体检测方法 |
CN103810503A (zh) * | 2013-12-26 | 2014-05-21 | 西北工业大学 | 一种基于深度学习的自然图像中显著区域的检测方法 |
CN104063719A (zh) * | 2014-06-27 | 2014-09-24 | 深圳市赛为智能股份有限公司 | 基于深度卷积网络的行人检测方法及装置 |
CN104281853A (zh) * | 2014-09-02 | 2015-01-14 | 电子科技大学 | 一种基于3d卷积神经网络的行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104573731A (zh) | 2015-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104573731B (zh) | 基于卷积神经网络的快速目标检测方法 | |
CN109543606B (zh) | 一种加入注意力机制的人脸识别方法 | |
CN107844795B (zh) | 基于主成分分析的卷积神经网络特征提取方法 | |
CN109034210A (zh) | 基于超特征融合与多尺度金字塔网络的目标检测方法 | |
CN104392463B (zh) | 一种基于联合稀疏多尺度融合的图像显著区域检测方法 | |
CN111860171B (zh) | 一种大规模遥感图像中不规则形状目标的检测方法及系统 | |
CN108171112A (zh) | 基于卷积神经网络的车辆识别与跟踪方法 | |
CN110807422A (zh) | 一种基于深度学习的自然场景文本检测方法 | |
CN109446922B (zh) | 一种实时鲁棒的人脸检测方法 | |
CN110544251A (zh) | 基于多迁移学习模型融合的大坝裂缝检测方法 | |
CN109741318A (zh) | 基于有效感受野的单阶段多尺度特定目标的实时检测方法 | |
CN110827312B (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN107944459A (zh) | 一种rgb‑d物体识别方法 | |
CN113160062B (zh) | 一种红外图像目标检测方法、装置、设备及存储介质 | |
CN106778768A (zh) | 基于多特征融合的图像场景分类方法 | |
CN110781962B (zh) | 基于轻量级卷积神经网络的目标检测方法 | |
CN109948457B (zh) | 基于卷积神经网络和cuda加速的实时目标识别方法 | |
CN105046278B (zh) | 基于Haar特征的Adaboost检测算法的优化方法 | |
CN112163498A (zh) | 前景引导和纹理聚焦的行人重识别模型建立方法及其应用 | |
CN112528845A (zh) | 一种基于深度学习的物理电路图识别方法及其应用 | |
CN106529441A (zh) | 基于模糊边界分片的深度动作图人体行为识别方法 | |
CN110969101A (zh) | 一种基于hog和特征描述子的人脸检测与跟踪方法 | |
CN112102379B (zh) | 一种无人机多光谱影像配准方法 | |
CN111160372B (zh) | 一种基于高速卷积神经网络的大目标识别方法 | |
CN110136098B (zh) | 一种基于深度学习的线缆顺序检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180323 |