CN104573731B - 基于卷积神经网络的快速目标检测方法 - Google Patents

基于卷积神经网络的快速目标检测方法 Download PDF

Info

Publication number
CN104573731B
CN104573731B CN201510061852.6A CN201510061852A CN104573731B CN 104573731 B CN104573731 B CN 104573731B CN 201510061852 A CN201510061852 A CN 201510061852A CN 104573731 B CN104573731 B CN 104573731B
Authority
CN
China
Prior art keywords
layer
neural network
training
image
complete
Prior art date
Application number
CN201510061852.6A
Other languages
English (en)
Other versions
CN104573731A (zh
Inventor
王菡子
郭冠军
严严
Original Assignee
厦门大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 厦门大学 filed Critical 厦门大学
Priority to CN201510061852.6A priority Critical patent/CN104573731B/zh
Publication of CN104573731A publication Critical patent/CN104573731A/zh
Application granted granted Critical
Publication of CN104573731B publication Critical patent/CN104573731B/zh

Links

Abstract

基于卷积神经网络的快速目标检测方法,涉及计算机视觉技术。首先利用训练集训练出卷积神经网络参数,然后利用扩展图的方式解决最大池化丢失特征的问题并生成判别完备特征图;把卷积神经网络的全连接权重看成线性分类器,采用可能近似学习框架来估计线性分类器在判别完备特征上的泛华误差;根据泛华误差和所期望泛化误差阈值来估算所需线性分类器个数,最后在判别完备特征图上用线性分类器基于平滑窗的方式完成目标检测。显著提高检测效率和目标检测精度。

Description

基于卷积神经网络的快速目标检测方法

技术领域

[0001] 本发明涉及计算机视觉技术,具体是涉及一种基于卷积神经网络的快速目标检测 方法。

背景技术

[0002] 人类感知世界的一个重要来源就是通过图像信息,研究表明,人类获取外界信息 中大约有80%〜90%的信息来自于人类眼睛获取的图像信息。人类对外界图像信息感知能 力很高,可以快速定位目标和分析目标。计算机要具有强大的视觉感知和理解能力,就应该 具备类似人类强大的目标检测和识别能力。目标检测是视觉感知和目标理解的一个很重要 的前提工作,目标获取的效率和精度决定着视觉感知的速度和效果。一旦计算机具备类似 人类强大的目标检测盒感知能力,就可以更好的在各行业替代人力工作,大大节约生产成 本。另外它对日常智能服务行业也提供了强大的支撑。因此,对计算机视觉中的目标检测技 术进行深入研究,不断提高检测的准确率,具有重要的现实意义。

[0003] 目前学术界中解决这两个问题的发展趋势是从使用启发式方法到使用机器学习 的方法。所用特征也从手工特征转向基于任务自适应提取的特征。目标检测和识别的模型 也开始出现从单一特定目标检测和识别到多目标检测和识别同时进行的功能转变。最典型 的例子就是深度学习模的出现,解决了传统目标检测和识别的模型只针对有限任务的目标 检测和识别任务有效的问题。比如,在2001年,Viola-Jone提出的正面人脸检测框架基于 Harr特征对人脸检测相当有效,但是对于侧脸人脸以及行人检测效果不是太好。直到2005 年,Dalal等人提出HOG特征并且使用SVM对每个平滑窗对应的HOG (Histogram of Gradient)特征进行分类的策略后,垂直行人检测效果才有了一个质的突破。然而,HOG这一 手工特征,对于图像分类和识别以及任意姿态的行人、动物、植物等目标的检测效果并不令 人满意。接着形变模型(Deformable Part Models:DPM)应运而生解决有形变的目标检测问 题。形变模型虽然试着解决因形变导致目标检测不到的问题,但是其模型中需要的形变部 件现实中很难理想的捕获到,原因就没有一个好的模型和好的特征来识别部件,因此它在 多类目标检测数据集(PASCAL V0C,ImageNet)上效果并不是太好。最近的一个突破性工作 是深度学习模型的出现。在最大的图像分类和目标检测数据集ImageNet上,基于深度学习 模型之一卷积神经网络(CNN)做的目标检测和识别精度的提高更是超过以往最高精度一倍 之多。最近两年ImageNet数据集分类和检测性能出众的算法几乎全部采用卷积神经网络, 不同的它们的网络结构不同。目前ImageNet数据集上图像分类和目标检测最高的精度分别 为 95 % 和 55 %。

[0004] 尽管基于卷积神经网络的方法在目标检测和识别上提高了很高的精度,但是由于 卷积神经网络网络复杂且计算量大,应用在目标检测上效率并不是很高,目前很多方法都 是基于GPU来对目标检测程序进行加速。给定一张目标图像,使用平滑窗策略做目标检测, 即使采用GHJ加速,其算法复杂度仍然很大,效率极低。为了解决卷积神经网络在目标检测 上的效率问题,目前学术界主流的解决方案可以分为三类。第一类是基于图割的方法,先对 给定图像进行图像分割,通过分割块得到一些潜在的目标区域。然后用卷积神经网络对这 些目标区域进行特征提取和分类,最终得到目标的位置。这种方法的缺点就是很依赖于图 像分割的好坏。第二类是通过卷积神经网络对原始图像提取特征,然后在特征图上用平滑 窗策略做目标位置的回归和目标的分类。这种方法在利用卷积神经网络对大图提取特征 时,会丢失一些对分类和回归有用的特征信息,因此最后的模型的性能无法达到最优。第三 类方法则是用卷积神经网络分类的优势来寻找部件,进而构建形变模型,采用形变模型的 思想对目标做检测。但是这种把卷积神经网络的分类和形变模型中的目标检测分开执行的 做法,使得整体框架的检测效果不是很出众,另外这种模型的效率也不是很高。

发明内容

[0005] 本发明的目的在于提出一种基于卷积神经网络的快速目标检测方法。

[0006] 本发明包括以下步骤:

[0007] A)准备训练样本集(Xi,yi),i = l,……,N,N为训练样本数,N为自然数,Xi表示训练 样本对应的固定大小的图像,包含目标且目标充满画幅的图像是正样本,其他图像是负样 本;yi表示样本类别向量:

Figure CN104573731BD00061

[0009] B)将所有训练样本分m批,将m-2批样本放进设计的卷积神经网络里用反向传播算 法训练,2批样本用于测试,所述卷积神经网络包含卷积层、最大池化(max-pooling)层和局 部对比归一化(local contrast normalization)层三个成分,这三个成分扮演非线性函数 的功能,目的是把位于流形上的原始图像映射到欧式空间,卷积的激活函数采用非线性校 正单元(Rectifier linear unit),可以使得卷积后的特征比较稀疏,设计好包含这三个成 分的网络结构模型后,用反向传播算法训练对模型进行训练,得到参数W;

[0010] C)提取步骤B)中的训练好的参数W,采用扩展图的方式解决卷积神经网络中最大 池化(max-pooling)丢失信息的问题,给定测试图像,常规最大池化(max-pooling)(也就是 使用偏移A作为起始点的方式)操作后只能得到扩展图㈧,其他有利于分类的信息会丢失, 因此针对2 X 2的卷积核中每个偏移,都保存一个对应的特征图,称为扩展图;对于每一层 max-pooling核大小为K,整个卷积神经网络有p层,扩展之后每个最大池化(max-pooling) 的下采样层特征图数目扩展至2K倍,整个网络扩展到〇= (2K)1f,然后把参数W用于任意大 小的待检测图像,获取全连接前的扩展特征图,称它为判别完备特征(Discriminative Complete Features);给定输入图像X,已训练好的滤波器组K和偏移b,卷积层的输出可以 写成(公式一)的形式:

Figure CN104573731BD00062

[0012] 其中M谦示所选择输入特征图的索引;1表示当前层的索引;i和j分别表示输入和 输出特征图索引;〇表示段索引;f表示激活函数,这里使用线性校正单元函数f (X)=Hiax (X, 0) ;*表示卷积操作;

[0013] 最大池化(max-pooling)层可以写成(公式二)的形式:

Figure CN104573731BD00071

[0015] 其中,m和η分别表示当前层的像素索引;s表示下采样核的大小;p和q分别表示前 一层的像素索引,并且满足p = s* (m-1) +k+1,q = s* (n-1) +k+Ι,其中0<k<s;分号用于选择 对应的列和行;

[0016] 为了使得获得的特征具有鲁邦的性质,可以把局部对比归一化层引入分段处理的 环节中,该层可以写成(公式三)的形式:

Figure CN104573731BD00072

[0018] 其中,r表示制定的邻近竞争特征图的数目,N表示当前层总共的特征图数目,k,a, β是一些超参数,在训练过程中可以指定合适的浮点数值,当CNN模型训练好后,根据以上三 个公式,可以获取判别完备特征为后续的基于平滑窗扫描提供支撑;

[0019] D)把卷积神经网络的全连接看成一个线性分类器,直接基于判别完备特征图做检 测,采用可能近似学习(probably approximately correct)框架来估计线性分类器在判别 完备特征上的泛化误差R[«],然后根据组合模型(ensemble model)和所期望泛化误差H [ω ]计算所需要训练模型数目q;

Figure CN104573731BD00073

[0021] E)将q个模型中得每一个训练模型分别在待检测图像上执行前馈操作,每一个模 型获取〇组全连接前的判别完备特征图,然后用最近邻插值算法对每组判别完备特征图缩 放,得到n*o组判别完备特征图,q个模型共计n*o*q组判别完备特征图,然后在每组判别完 备特征图上直接用线性分类器执行密集平滑窗分类工作得到n*o*q组响应图,其中线性分 类器和判别完备图的点积操作可以转成卷积操作,由于采用步骤B)中的非线性校正单元得 到稀疏特征图,卷积可以使用稀疏傅里叶变换来加速分类操作;

[0022] F)对n*o*q中的每〇组响应图采用非极大值得至ljn*q组响应图,然后对n*q响应图中 的每η个响应图执行非极大值抑制得到q组具有真实尺度的响应图,把q组响应图执行与运 算得到一个具有真实尺度的最终响应图,计算最终响应图中的每一个联通区域的质心:

[0023] G)把质心和真实尺度映射到原待检测图中,根据每一个质心位置和尺度值画出对 应的矩形框,完成目标检测。

[0024] 在步骤A)中,所述准备训练样本集可包括以下子步骤:

[0025] Al)从训练图像提取给定目标框的图像块,然后缩放到固定大小尺寸作为正样本, 每一个给定目标框的图像块作为一个样本,得到No个图像块,即No个样本Xi,i = l,......N;

[0026] A2)对于负样本的图像的获取,一般在正样本图像块周围抽取与其没有很大重叠 的、任意大小的图像块缩放到固定尺寸作为负样本X1,负样本的抽取要尽可能的具有代表 性,要覆盖大多数情景图像,共计抽取见负样本,i = l,……N;

[0027] Α3)Ν=Νο+Νι〇

[0028] 在步骤B)中,所述利用m批样本进行卷积神经网络训练可包括以下子步骤:

[0029] BI) N个样本在分批的时候需要随机的打散顺序,然后分成m批样本,分批的目的是 用小批样本计算神经网络训练所需的梯度值,打散顺序有利于得到更合理的梯度方向;

[0030] B2)精心设计的卷积神经网络包含卷积层、最大池化(max-pooling)层和局部对比 归一化(local contrast normalization)层三个成分,前两个成分是必需成分,第三个成 分是根据任何可选的成分,卷积的激活函数选用非线性校正单元,通过任意组合这三种成 分可以得到针对不同目标检测的网络结构;

[0031] B3)设置网络结构中所需要的滤波器数目和特征图数目、滤波器大小、下采样核的 大小、每层的学习率以及局部对比归一化所需要的超参数;

[0032] B4)在卷积神经网络训练的过程中,采用冲量和随机扔掉训练技巧;

[0033] B5)根据验证曲线判断何时停止训练;

[0034] B6)从已训练好的模型中提取参数W。

[0035] 在步骤C)中,所述采用扩展图的方式解决卷积神经网络中最大池化(maxpooling) 丢失信息的问题可包括以下子步骤 :

[0036] Cl)把步骤B中提取的W用于待检测图像的前馈操作过程中,对于每一个特征图遇 到max-pooling丢失判别信息的情况时,针对下采样核的大小K中每一个偏移都作为一个新 的起点偏移,然后平铺满下采样核至整个待检测图像,每一个起点偏移都得到一个扩展图, 当前下采样层会生成2K个扩展图,所有特征图使用同一个偏移得到的扩展图称为一段 (fragment),下采样后会生成2Κ段的特征图,整个网络中如果有ρ层下采样层,会得到〇 = (2Κ)Ρ段的特征图;

[0037] C2)下采样后续的卷积操作,需要对每段采用相同的卷积操作;

[0038] C3)局部对比归一化层需要对每段采用相同的局部对比归一化操作;

[0039] C4)在对待测试图像执行到前馈操作的过程中,全连接层前一层得到的(2Κ)ρ段的 特征图称为判别完备特征图。

[0040] 在步骤D)中,所述直接基于判别完备特征图做检测(分类)可包括以下子步骤:

[0041] Dl)将步骤C中(2Κ) 1)段的特征图全部使用最近邻插值算法η次,得到η* (2Κ)ρ段的判 别完备特征图;

[0042] D2)在每段判别完备特征图上用线性分类器与其做卷积得到η* (2Κ)ρ的响应图;

[0043] D3)把η* (2Κ) ^勺响应图全部缩放到同一尺寸并记录缩放比,用非极大值抑制算法 得到最终响应图和对应最大响应图的缩放比。

[0044] 本发明首先利用训练集训练出卷积神经网络参数,然后利用扩展图的方式解决最 大池化(max-pooling)丢失特征的问题并生成判别完备特征图;把卷积神经网络的全连接 权重看成线性分类器,采用可能近似学习框架来估计线性分类器在判别完备特征上的泛华 误差;根据泛华误差和所期望泛化误差阈值来估算所需线性分类器个数,最后在判别完备 特征图上用线性分类器基于平滑窗的方式完成目标检测。

[0045] 本发明采用扩展图的方式解决Max-pool ing层中的特征丢失问题,并且把扩展图 迀移到其他层;把全连接前的所有扩展图称为判别完备特征图,并且把全连接的权重看成 一个线性分类器,直接在判别完备特征图上做检测可以显著提高检测效率;采用可能近似 学习(probably approximately correct)框架来估计线性分类器在判别完备特征上的泛 化误差R[ ω ],然后根据组合模型(ensemble model)和所期望泛化误差Η[ ω ]计算所需要训 练模型数目q,根据q个模型的预测来降低最终的预测错误,进而提高目标检测精度。

附图说明

[0046] 图1为本发明实施例的检测框架示意图。

[0047] 图2为本发明实施例的扩展图的示意图。

[0048] 图3为本发明实施例的检测实例图。

[0049] 图4为本发明实施例的检测结果图。其中左边框为本发明方法检测结果,右边框为 北京旷视科技(Megvii)有限公司提出的方法的检测结果。

[0050] 图5为本发明与其它几种目标检测方法在roDB数据集上的对比的ROC曲线图。

[0051] 其中虚曲线(名称为:本发明的方法)为本发明的方法;

[0052] 方法1对应为B.Yang等人提出的方法(B.Yang,J.Yan,Z.Lei and S.Z. Li.Aggregate channel features for multi-view face detection..International Joint Conference on Biometrics,2014);

[0053] 方法2对应为H.Li 等人提出的方法(H.Li, Z.Lin,J.Brandt,X.Shen and G.Hua.Efficient Boosted Exemplar-based Face Detection.CVPR 2014);

[0054] 方法3对应为<1.¥&amp;11等人提出的方法(<1.¥311,2.1^1,1.心11311(13.2.1^.1'1^ Fastest Deformable Part Model for Object Detection.CVPR 2014);

[0055] 方法4对应为北京旷视科技(Megvii)有限公司提出的方法;

[0056] 方法5对应为M.Mathias等人提出的方法(M.Mathias,R.Benenson,M.Pedersoli and L.Van Gool.Face detection without bells and whistles.ECCV 2014);

[0057] 方法6对应为X.Shen 等人提出的方法(X.Shen,Z.Lin,J.Brandt and Y.ffu.Detecting and Aligning Faces by Image Retrieval.CVPR 2013);

[0058] 方法7对应为J.Li等人提出的方法(J.Li and Y.Zhang.Learning SURF cascade for fast and accurate object detection.CVPR 2013.);

[0059] 方法8对应为J.Li等人提出的方法(J.Li,T.Wang and Y.Zhang.Face Detection using SURF Cascade.ICCV 2011BeFIT workshop.);

[0060] 方法9对应为Viola等人提出的方法(P.Viola and M.Jones.Robust real-time object detection.In IJCV,2001);

[0061] 方法 10对应为A.Giusti等人提出的方法(A.Giusti,D.C. Ciresan,J.Masci, L.M.Gambardella,and J.Schmidhuber.Fast image scanning with deep max-pooling convolutional neural networks. In ICIP,2013)〇

具体实施方式

[0062] 下面结合附图和实施例对本发明的方法作详细说明,本实施例在以本发明技术方 案为前提下进行实施,给出了实施方式和具体操作过程,但本发明的保护范围不限于下述 的实施例。

[0063] 参见图1,本发明实施例包括以下步骤:

[0064] A.准备训练样本集(Xi,yi),i = l,……,N,N为训练样本数,N为自然数。Xi表示训练 样本对应的固定大小的图像,包含目标且目标充满画幅的图像是正样本,其他图像是负样 本。yi表示样本类别向量:

Figure CN104573731BD00101

[0066] B.将所有训练样本分m批,将m-2批样本放进精心设计的卷积神经网络里用反向传 播算法训练,2批样本用于测试。精心设计的卷积神经网络包含卷积层,最大池化(maxpooling) 层和局部对比归一化(local contrast normalization)层三个成分。这三个成分 扮演者非线性函数的功能,目的是把位于流形上的原始图像映射到欧式空间。卷积的激活 函数采用非线性校正单元(Rectifier linear unit),可以使得卷积后的特征比较稀疏。设 计好包含这三个成分的网络结构模型后,用反向传播算法训练对模型进行训练,得到参数 I

[0067] C.提取步骤B中的训练好的参数W,采用扩展图的方式解决卷积神经网络中max-pool ing 丢失信息的问题。给定测试图像, 常规最大池化 (max-pool ing) (也就是使用偏移 A 作为起始点的方式)操作后只能得到扩展图㈧,其他有利于分类的信息会丢失。因此针对 2*2的卷积核中每个偏移,都保存一个对应的特征图,称为扩展图,如图2所示,(A),(B), ⑹,⑼为不同偏移对应的不同扩展图。

[0068] 对于每一层最大池化(max-pooling)核大小为K,整个卷积神经网络有p层,扩展之 后每个max-pooling的下采样层特征图数目扩展至2K倍,整个网络扩展到〇= (2K)1f,然后 把参数W用于任意大小的待检测图像,获取全连接前的扩展特征图,称它为判别完备特征 (Discriminative Complete Features),如图3所示,图3中(a)和(c)称为判别完备特征,其 中(c)是(a)经过最近邻差值算法得到的。

[0069]给定输入图像X,已训练好的滤波器组K和偏移b,卷积层的输出可以写成(公式一) 的形式:

Figure CN104573731BD00102

[0071] 其中Mj表示所选择输入特征图的索引;1表示当前层的索引;i和j分别表示输入和 输出特征图索引;〇表示段索引;f表示激活函数,这里使用线性校正单元函数f (X)=Hiax (X, 0) ;*表示卷积操作。

[0072] 最大池化(max-pooling)层可以写成(公式二)的形式:

Figure CN104573731BD00103

[0074] 其中,m和η分别表示当前层的像素索引;s表示下采样核的大小;p和q分别表示前 一层的像素索引,并且满足p = s* (m-1) +k+1,q = s* (n-1) +k+Ι,其中0<k<s;分号用于选择 对应的列和行。

[0075] 为了使得获得的特征具有鲁邦的性质,可以把局部对比归一化层引入分段处理的 环节中,该层可以写成(公式三)的形式:

Figure CN104573731BD00104

[0077] 其中,r表示制定的邻近竞争特征图的数目,N表示当前层总共的特征图数目,k,a, β是一些超参数,在训练过程中可以指定合适的浮点数值。当CNN模型训练好后,根据以上3 个公式,可以获取判别完备特征为后续的基于平滑窗扫描提供支撑。

[0078] D.把卷积神经网络的全连接看成一个线性分类器,直接基于判别完备特征图上而 不是原检测图做检测可以极大的提高检测速度。采用可能近似学习(probably approximately correct)框架来估计线性分类器在判别完备特征上的泛化误差R[ ω ],然 后根据组合模型(ensemble model)和所期望泛化误差Η[ ω ]计算所需要训练模型数目q。

Figure CN104573731BD00111

[0080] E.将q个模型中得每一个训练模型分别在待检测图像上执行前馈操作,每一个模 型获取〇组全连接前的判别完备特征图,然后用最近邻插值算法对每组判别完备特征图缩 放,得到n*0组判别完备特征图,q个模型共计n*o*q组判别完备特征图。然后在每组判别完 备特征图上直接用线性分类器执行密集平滑窗分类工作得到n*o*q组响应图。其中线性分 类器和判别完备图的点积操作可以转成卷积操作,由于采用步骤B中的非线性校正单元得 到稀疏特征图,卷积可以使用稀疏傅里叶变换来加速分类操作。如图3所示,图3中的(b)和 ⑹分别为线性分类器在判别完备特征(a)和(c)卷积得到的,其中(e)是⑹缩放得到。

[0081] F.对n*o*q中的每〇组响应图采用非极大值得到n*q组响应图,然后对n*q响应图中 的每η个响应图执行非极大值抑制得到q组具有真实尺度的响应图,把q组响应图执行与运 算得到一个具有真实尺度的最终响应图,计算最终响应图中的每一个联通区域的质心。

[0082] G.把质心和真实尺度映射到原待检测图中,根据每一个质心位置和尺度值画出对 应的矩形框,完成目标检测,图4是检测结果。

[0083] 本发明和其他基于卷积神经网络在目标检测所需时间上的比较结果见表1。

[0084] 表1

Figure CN104573731BD00112

[0086] 在表1 中,方法11 为Fabian等人提出的方法(Fabian Nasse,Christian Thurau, and Gernot A. Fink,uFace detection using gpu-based convolutional neural networks/'in CAIP,2009,pp.83-90);

[0087] 方法 12为A.Giusti 等人提出的方法(A.Giusti ,D.C.Ciresan,J.Masci, L.M.Gambardella,and J.Schmidhuber.Fast image scanning with deep max-pooling convolutional neural networks. In ICIP,2013);

[0088] 方法 13为K · He等人提出的方法(K · He , X · Zhang , S · Ren , and J · Sun · Spat ial pyramid pooling in deep convolutional networks for visual recognition. In ECCV ,2014)。

[0089] 本发明直接在多尺度判别完备特征图上做分类(多尺度判别完备特征图是通过最 近邻插值算法缩放得到),把线性分类器转成的权重向量转成核矩阵,线性分类可以通过核 矩阵和多尺度判别完备特征图卷积完成。由于判别完备特征是稀疏的,卷积速度可以通过 稀疏傅里叶变换得到。另外,由于直接在判别完备特征图上做检测,而不是原图上,目标检 测速度大大提高。

Claims (5)

  1. I.基于卷积神经网络的快速目标检测方法,其特征在于包括以下步骤: A) 准备训练样本集(Xl,yi),i = l,……,N,N为训练样本数,N为自然数,Xl表示训练样本 对应的固定大小的图像,包含目标且目标充满画幅的图像是正样本,其他图像是负样本;yi 表示样本类别向量:
    Figure CN104573731BC00021
    B) 将所有训练样本分m批,将m-2批样本放进设计的卷积神经网络里用反向传播算法训 练,2批样本用于测试,所述卷积神经网络包含卷积层、最大池化层和局部对比归一化层三 个成分,这三个成分扮演非线性函数的功能,目的是把位于流形上的原始图像映射到欧式 空间,卷积的激活函数采用非线性校正单元,设计好包含这三个成分的网络结构模型后,用 反向传播算法训练对模型进行训练,得到参数W; C) 提取步骤B)中的训练好的参数W,采用扩展图的方式解决卷积神经网络中最大池化 丢失信息的问题,给定测试图像,针对2X2的卷积核中每个偏移,都保存一个对应的特征 图,称为扩展图;对于每一层max-pool ing核大小为K,整个卷积神经网络有p层,扩展之后每 个最大池化的下采样层特征图数目扩展至2K倍,整个网络扩展到o=(2K)1f,然后把参数W 用于任意大小的待检测图像,获取全连接前的扩展特征图,称它为判别完备特征;给定输入 图像X,已训练好的滤波器组K和偏移b,卷积层的输出写成公式一的形式:
    Figure CN104573731BC00022
    其中Mj表示所选择输入特征图的索引;1表示当前层的索引;i和j分别表示输入和输出 特征图索引;〇表示段索引;f表示激活函数,这里使用线性校正单元函数f (X) =maX (x,0) 表示卷积操作; 最大池化层写成公式二的形式:
    Figure CN104573731BC00023
    其中,m和η分别表示当前层的像素索引;s表示下采样核的大小;p和q分别表示前一层 的像素索引,并且满足P = s* (m-1) +k+1,q = s* (n-1) +k+Ι,其中0<k<s;分号用于选择对应 的列和行; 为了使得获得的特征具有鲁邦的性质,把局部对比归一化层引入分段处理的环节中, 该层写成公式三的形式:
    Figure CN104573731BC00024
    其中,r表示制定的邻近竞争特征图的数目,N表示当前层总共的特征图数目,k,a,i3是 一些超参数,在训练过程中指定合适的浮点数值,当CNN模型训练好后,根据以上三个公式, 获取判别完备特征为后续的基于平滑窗扫描提供支撑; D) 把卷积神经网络的全连接看成一个线性分类器,直接基于判别完备特征图做检测, 采用可能近似学习框架来估计线性分类器在判别完备特征上的泛化误差R[ ω ],然后根据 组合模型和所期望泛化误差H [ ω ]计算所需要训练模型数目q;
    Figure CN104573731BC00031
    E) 将q个模型中得每一个训练模型分别在待检测图像上执行前馈操作,每一个模型获 取〇组全连接前的判别完备特征图,然后用最近邻插值算法对每组判别完备特征图缩放,得 至lJn*o组判别完备特征图,q个_旲型共计n*o*q组判别完备特征图,然后在每组判别完备特征 图上直接用线性分类器执行密集平滑窗分类工作得到n*o*q组响应图,其中线性分类器和 判别完备图的点积操作转成卷积操作; F) 对n*o*q中的每〇组响应图采用非极大值得到n*q组响应图,然后对n*q响应图中的每 η个响应图执行非极大值抑制得到q组具有真实尺度的响应图,把q组响应图执行与运算得 到一个具有真实尺度的最终响应图,计算最终响应图中的每一个联通区域的质心: G) 把质心和真实尺度映射到原待检测图中,根据每一个质心位置和尺度值画出对应的 矩形框,完成目标检测。
  2. 2. 如权利要求1所述基于卷积神经网络的快速目标检测方法,其特征在于在步骤A)中, 所述准备训练样本集包括以下子步骤: Al)从训练图像提取给定目标框的图像块,然后缩放到固定大小尺寸作为正样本,每一 个给定目标框的图像块作为一个样本,得到No个图像块,S卩No个样本X1, i = l,……No; A2)对于负样本的图像的获取,在正样本图像块周围抽取与其没有很大重叠的、任意大 小的图像块缩放到固定尺寸作为负样本;负样本的抽取要近可能的具有代表性,要覆盖 大多数情景图像;共计抽取Ni负样本,i = 1,......Ni; Α3)Ν=Νο+Νι〇
  3. 3. 如权利要求1所述基于卷积神经网络的快速目标检测方法,其特征在于在步骤B)中, 所述利用8批样本进行卷积神经网络训练包括以下子步骤: BI) N个样本在分批的时候需要随机的打散顺序,然后分成S批样本; B2)卷积神经网络包含卷积层、最大池化层和局部对比归一化层三个成分,前两个成分 是必需成分,第三个成分是根据任何可选的成分,卷积的激活函数选用非线性校正单元,通 过任意组合这三种成分得到针对不同目标检测的网络结构; B3)设置网络结构中所需要的滤波器数目和特征图数目、滤波器大小、下采样核的大 小、每层的学习率以及局部对比归一化所需要的超参数; B4)在卷积神经网络训练的过程中,采用冲量和随机扔掉训练技巧; B5)根据验证曲线判断何时停止训练; B6)从已训练好的模型中提取参数W。
  4. 4. 如权利要求1所述基于卷积神经网络的快速目标检测方法,其特征在于在步骤C)中, 所述采用扩展图的方式解决卷积神经网络中最大池化丢失信息的问题包括以下子步骤: Cl)把步骤B)中提取的W用于待检测图像的前馈操作过程中,对于每一个特征图遇到 max-pooling丢失判别信息的情况时,针对下采样核的大小K中每一个偏移都作为一个新的 起点偏移,然后平铺满下采样核至整个待检测图像,每一个起点偏移都得到一个扩展图,当 前下采样层会生成2K个扩展图,所有特征图使用同一个偏移得到的扩展图称为一段,下采 样后会生成2Κ段的特征图,整个网络中若有ζ层下采样层,则得到〇= (2Κ)ζ段的特征图; C2)下采样后续的卷积操作,需要对每段采用相同的卷积操作; C3)局部对比归一化层需要对每段采用相同的局部对比归一化操作; C4)在对待测试图像执行到前馈操作的过程中,全连接层前一层得到的(2K) 2段的特征 图称为判别完备特征图。
  5. 5.如权利要求1所述基于卷积神经网络的快速目标检测方法,其特征在于在步骤D)中, 所述直接基于判别完备特征图做检测包括以下子步骤: Dl)将步骤C)中(2Κ)ζ段的特征图全部使用最近邻插值算法η次,得到η* (2Κ)ζ段的判别完 备特征图; D2)在每段判别完备特征图上用线性分类器与其做卷积得到η* (2Κ)ζ的响应图; D3)把η* (2Κ) 2的响应图全部缩放到同一尺寸并记录缩放比,用非极大值抑制算法得到 最终响应图和对应最大响应图的缩放比。
CN201510061852.6A 2015-02-06 2015-02-06 基于卷积神经网络的快速目标检测方法 CN104573731B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510061852.6A CN104573731B (zh) 2015-02-06 2015-02-06 基于卷积神经网络的快速目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510061852.6A CN104573731B (zh) 2015-02-06 2015-02-06 基于卷积神经网络的快速目标检测方法

Publications (2)

Publication Number Publication Date
CN104573731A CN104573731A (zh) 2015-04-29
CN104573731B true CN104573731B (zh) 2018-03-23

Family

ID=53089751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510061852.6A CN104573731B (zh) 2015-02-06 2015-02-06 基于卷积神经网络的快速目标检测方法

Country Status (1)

Country Link
CN (1) CN104573731B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104992223B (zh) * 2015-06-12 2018-02-16 安徽大学 基于深度学习的密集人数估计方法
WO2017015887A1 (en) * 2015-07-29 2017-02-02 Nokia Technologies Oy Object detection with neural network
US20180247180A1 (en) * 2015-08-21 2018-08-30 Institute Of Automation, Chinese Academy Of Sciences Deep convolutional neural network acceleration and compression method based on parameter quantification
CN105160310A (zh) * 2015-08-25 2015-12-16 西安电子科技大学 基于3d卷积神经网络的人体行为识别方法
CN105205453B (zh) * 2015-08-28 2019-01-08 中国科学院自动化研究所 基于深度自编码器的人眼检测和定位方法
CN105120130B (zh) * 2015-09-17 2018-06-29 京东方科技集团股份有限公司 种图像升频系统、其训练方法及图像升频方法
CN105184271A (zh) * 2015-09-18 2015-12-23 苏州派瑞雷尔智能科技有限公司 一种基于深度学习的车辆自动检测方法
CN105335716B (zh) * 2015-10-29 2019-03-26 北京工业大学 一种基于改进udn提取联合特征的行人检测方法
CN105279556B (zh) * 2015-11-05 2017-11-07 国家卫星海洋应用中心 一种浒苔检测方法和装置
CN105426919B (zh) * 2015-11-23 2017-11-14 河海大学 基于显著性指导非监督特征学习的图像分类方法
CN105468335B (zh) * 2015-11-24 2017-04-12 中国科学院计算技术研究所 流水级运算装置、数据处理方法及片上网络芯片
CN105718890A (zh) * 2016-01-22 2016-06-29 北京大学 一种基于卷积神经网络的特定视频检测方法
CN105740892A (zh) * 2016-01-27 2016-07-06 北京工业大学 一种高准确率的基于卷积神经网络的人体多部位识别方法
CN105821538B (zh) * 2016-04-20 2018-07-17 广州视源电子科技股份有限公司 细纱断裂的检测方法和系统
CN107329733A (zh) * 2016-04-29 2017-11-07 北京中科寒武纪科技有限公司 用于执行pooling运算的装置和方法
CN106019359A (zh) * 2016-05-17 2016-10-12 浪潮集团有限公司 一种基于神经网络的地震预测系统
WO2017206156A1 (en) * 2016-06-03 2017-12-07 Intel Corporation Look-up convolutional layer in convolutional neural network
CN106021990B (zh) * 2016-06-07 2019-06-25 广州麦仑信息科技有限公司 一种将生物基因以特定的性状进行分类与自我识别的方法
CN106096655A (zh) * 2016-06-14 2016-11-09 厦门大学 一种基于卷积神经网络的光学遥感图像飞机检测方法
CN106203496A (zh) * 2016-07-01 2016-12-07 河海大学 基于机器学习的水文曲线提取方法
CN106504233B (zh) * 2016-10-18 2019-04-09 国网山东省电力公司电力科学研究院 基于Faster R-CNN的无人机巡检图像电力小部件识别方法及系统
CN106780512A (zh) * 2016-11-30 2017-05-31 厦门美图之家科技有限公司 分割图像的方法、应用及计算设备
CN107038448A (zh) * 2017-03-01 2017-08-11 中国科学院自动化研究所 目标检测模型构建方法
CN107124609A (zh) * 2017-04-27 2017-09-01 京东方科技集团股份有限公司 一种视频图像的处理系统、其处理方法及显示装置
CN107220652A (zh) * 2017-05-31 2017-09-29 北京京东尚科信息技术有限公司 用于处理图片的方法和装置
CN107506774A (zh) * 2017-10-09 2017-12-22 深圳市唯特视科技有限公司 一种基于局部注意掩模的分段感知神经网络方法
CN108830300A (zh) * 2018-05-28 2018-11-16 深圳市唯特视科技有限公司 一种基于混合监督检测的目标传输方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810503A (zh) * 2013-12-26 2014-05-21 西北工业大学 一种基于深度学习的自然图像中显著区域的检测方法
CN104063719A (zh) * 2014-06-27 2014-09-24 深圳市赛为智能股份有限公司 基于深度卷积网络的行人检测方法及装置
CN104281853A (zh) * 2014-09-02 2015-01-14 电子科技大学 一种基于3d卷积神经网络的行为识别方法
CN104680508A (zh) * 2013-11-29 2015-06-03 华为技术有限公司 卷积神经网络和基于卷积神经网络的目标物体检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7274832B2 (en) * 2003-11-13 2007-09-25 Eastman Kodak Company In-plane rotation invariant object detection in digitized images

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104680508A (zh) * 2013-11-29 2015-06-03 华为技术有限公司 卷积神经网络和基于卷积神经网络的目标物体检测方法
CN103810503A (zh) * 2013-12-26 2014-05-21 西北工业大学 一种基于深度学习的自然图像中显著区域的检测方法
CN104063719A (zh) * 2014-06-27 2014-09-24 深圳市赛为智能股份有限公司 基于深度卷积网络的行人检测方法及装置
CN104281853A (zh) * 2014-09-02 2015-01-14 电子科技大学 一种基于3d卷积神经网络的行为识别方法

Also Published As

Publication number Publication date
CN104573731A (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
Danelljan et al. Convolutional features for correlation filter based visual tracking
CN102006425B (zh) 一种基于多摄像机的视频实时拼接方法
CN101739712B (zh) 基于视频的3d人脸表情动画驱动方法
CN104102919B (zh) 一种有效防止卷积神经网络过拟合的图像分类方法
CN103020647A (zh) 基于级联的sift特征和稀疏编码的图像分类方法
EP3149611A1 (en) Learning deep face representation
CN102324030B (zh) 一种基于图像块特征的目标跟踪方法及跟踪系统
KR101314131B1 (ko) 기하학적 이미지 중의 중파 정보에 기반한 삼차원 얼굴 식별방법
CN104077613A (zh) 一种基于级联多级卷积神经网络的人群密度估计方法
CN101630363B (zh) 复杂背景下彩色图像人脸的快速检测方法
CN103295242B (zh) 一种多特征联合稀疏表示的目标跟踪方法
CN105960657A (zh) 使用卷积神经网络的面部超分辨率
CN103824050B (zh) 一种基于级联回归的人脸关键点定位方法
CN104408435A (zh) 一种基于随机池化卷积神经网络的人脸识别方法
CN101551863A (zh) 基于非下采样轮廓波变换的遥感图像道路提取方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN104008538B (zh) 基于单张图像超分辨率方法
CN101814149B (zh) 一种基于在线学习的自适应级联分类器训练方法
CN104866829A (zh) 一种基于特征学习的跨年龄人脸验证方法
Zhang et al. End-to-end photo-sketch generation via fully convolutional representation learning
CN101236608A (zh) 基于图片几何结构的人脸检测方法
CN105488534B (zh) 交通场景深度解析方法、装置及系统
CN101430759B (zh) 优化的人脸识别预处理方法
CN101236598A (zh) 基于多尺度总体变分商图像的独立分量分析人脸识别方法
CN101383008A (zh) 基于视觉注意模型的图像分类方法

Legal Events

Date Code Title Description
C06 Publication
C10 Entry into substantive examination
GR01