CN107247956A

CN107247956A - 一种基于网格判断的快速目标检测方法

Info

Publication number: CN107247956A
Application number: CN201610880557.8A
Authority: CN
Inventors: 李宏亮; 李威
Original assignee: Chengdu Quick Eye Technology Co Ltd
Current assignee: Chengdu Quick Eye Technology Co Ltd
Priority date: 2016-10-09
Filing date: 2016-10-09
Publication date: 2017-10-13
Anticipated expiration: 2036-10-09
Also published as: CN107247956B

Abstract

本发明公开了一种基于网格判断的快速目标检测方法，所述方法包括：步骤1：将图像进行网格划分；步骤2：提取网格区域的特征；步骤3：对网格进行判断及合并，具体为：首先，根据事先训练的回归模型判断每个网格是否属于指定的目标对象，然后根据各个网格所属的对象类别，将网格合并组成初始对象窗口；步骤4：利用边框回归方法对初始对象窗口进行边框回归处理，实现了能够同时保证目标检测精度和速度的技术效果。

Description

一种基于网格判断的快速目标检测方法

技术领域

本发明涉及图像处理领域，具体地，涉及一种基于网格判断的快速目标检测方法。

背景技术

视觉是人类获取外界信息的重要途径，能够带给人更直观、丰富的感观体验。图像目标检测是计算机视觉应用中的关键问题。其实现手段是：输入一幅待处理的图像，让计算机从语义的角度理解静态图像、视频，从中识别出事先指定类别的目标(例如人类，动物，交通工具等常见对象)，并且指出目标所处的位置，以及目标的大小(通常用矩形边框来表示)。

早期的研究主要是基于级联结构检测模型。首先提取人脸的特征，然后利用积分图和Adaboost思想对提取的人脸特征进行判别，取得了高效准确的检测效果。随后学者们提出了一系列鲁棒的特征，如Haar-like，SIFT，HOG。这些特征联合Bag-of-word，Fishervector等模型，目标检测任务的准确率和效率都有了较大提高。但是，这类模型往往依赖复杂的特征，其性能很大程度上取决于特征的优化选择，所以其发展陷入了瓶颈期，诸多改进并没有实质性地提高目标检测的性能。

基于可变形部件模型的检测模型这些年来颇有收获，如基于HOG特征的可变形部件的对象检测，不仅考虑了整个对象，还充分考虑了部件间的形变关系，进一步提升了目标检测的性能。但是仍然存在不少问题，对于遮挡，大幅度形变问题，该模型有一定的局限性。

近年来，深度学习受到学术和工程上的广泛关注，“大数据+深度模型”成为了人工智能领域的热搜词。它的主要特点是通过设计多层的神经网络，对输入的多媒体数据进行不同层次的抽象，最后进行类别的预测和识别。深度学习被成功应用于包括图像识别领域，图像检测领域，并大幅度地提升了准确度。目前基于区域的卷及神经网络(R-CNN)及其改进已成为主流的目标检测器。R-CNN主要分为三个步骤，即：区域选择，特征提取，分类器打分。基本框图如图1所示。

(1)区域提取：由于目标对象可能出现在图像的任何位置，而且目标的大小、长宽比例也不确定，首先需要选取初始可能包含对象的区域。传统的区域选择方法是基于滑动窗口的策略。首先设定不同的尺度、长宽比的窗口，然后对整幅图像进行遍历滑动。这种穷举的策略虽然包含了目标所有可能出现的位置，但是缺点也是显而易见的：时间复杂度太高，产生冗余窗口太多，这也严重影响后续特征提取和分类的速度和性能。实际上，由于受到时间复杂度的问题，滑动窗口的长宽比一般都是固定的设置几个，所以对于长宽比浮动较大的多类别目标检测，即便是滑动窗口遍历也不能得到很好的区域。针对滑动窗策略的不足，近年来学者提出了许多优秀的区域选择方法，主要可以分为：基于超像素的方法、基于窗口打分的方法，以及基于深度学习的方法，代表性的工作有：选择性查找,EdgeBox，RPN等等。

(2)特征提取：提取图像区域特征的好坏直接影响到分类的准确性。由于目标的形态多样性，光照变化多样性，背景多样性等因素使得设计一个鲁棒的特征面临着挑战。传统方法采用手动设计的特征有SIFT特征，HOG特征。近年来主流的方法均采用深度卷积提取特征，并取得了突飞猛进的效果。

(3)分类器打分：将待测提取的图像窗口的特征送入训练好的分类器中进行分类，最终输出图像窗口的类别信息。目前比较常用的分类算法有SVM、Adaboost以及卷及神经网络。

一个非常好的目标检测系统，需要满足以下几个条件：

1、较高的检测准确率；

2、较高的计算效率；

3、具有不同场景的泛化能力。

然而基于R-CNN及其改进的模型在保证较高检测准确率的同时，其计算速度并不理想。问题在于预先获取可能包含目标的区域，然后再对每个候选目标区域分类计算量比较大。所以无法满足实时性准确性目标检测的要求。

为了提高检测速度，近年来学者提出了基于回归方法的深度学习目标检测算法：YOLO。给个一个输入图像，首先将图像划分成7*7的网格，对于每个网格，预测2个窗口(包括每个边框是窗口的位置以及每个窗口区域在多个类别上的概率)，然后根据阈值去除可能性比较低的目标窗口，最后NMS去除冗余窗口即可。

YOLO将目标检测任务转换成一个回归问题，大大加快了检测的速度。每个网络预测目标窗口时使用的是全图信息，使得false positive比例大幅降低(充分的上下文信息)。然而，YOLO没有了可能包含对象区域选择机制，只使用7*7的网格回归使得目标不能非常精准的定位，导致了其检测精度并不是很高。

当前基于卷积神经网络的目标检测系统在精度和速度上较传统方法都有很大提升。但是基于R-CNN及其改进的模型在保证准备率的同时速度较慢，而基于回归方法的深度学习目标检测算法虽然速度很快，但是检测精度却不是很高。

综上所述，本申请发明人在实现本申请发明技术方案的过程中，发现上述技术至少存在如下技术问题：

现有的基于卷积神经网络的目标检测系统，存在无法同时保证目标检测精度和速度的技术问题。

发明内容

本发明提供了一种基于网格判断的快速目标检测方法，解决现有的基于卷积神经网络的目标检测系统存在的无法同时保证目标检测精度和速度的技术问题，实现了方法设计合理，能够达到同时保证目标检测精度和速度的技术效果。

为解决上述技术问题，本申请提供了一种基于网格判断的快速目标检测方法，包括以下四个步骤：图像网格划分、网格区域特征提取、网格判断及合并和边框回归，所述方法包括：

步骤1：将图像进行网格划分；

步骤2：提取网格区域的特征；

步骤3：对网格进行判断及合并，具体为：首先，根据事先训练的回归模型判断每个网格是否属于指定的目标对象，然后根据各个网格所属的对象类别，将网格合并组成初始对象窗口；

步骤4：利用边框回归方法对初始对象窗口进行边框回归处理，从而得到更加准确地对象窗口。

其中，本申请中的目标检测方法，在快速检测的同时，尽量减少精度的损失，以满足工程应用的需求。

进一步的，所述步骤1具体为：输入一张图片，对图像进行归一化处理，图像尺寸大小为W×H，然后将图像平均划分为T×T的网格，即每个网格G_t(t＝1,...,T²)大小为：W/T×H/T。

进一步的，所述步骤2具体为：首先将归一化处理过的图像输入到卷积神经网络，在最后一个卷积层的响应谱上，每个网格区域内做最大池化操作，获得每个网格区域的特征。假设响应谱有N个通道，则最终每个网格的特征维度是D维，即特征

进一步的，所述利用边框回归方法对初始对象窗口进行边框回归处理，具体包括：输入初始生成的对象边框的位置和大小，通过逻辑回归的方法训练模型对边框进行回归，预测真实检测框的位置和大小。

进一步的，所述步骤3具体包括：

定义C类目标对象，则对于任一类别c∈{1,2,...,C}，每个网格G^t的标签y_c(G^t)为：

式(1)中，s(.)表示面积，即像素个数；B^c表示第c类的标注边框；y_c(G^t)＝1表示网格G^t属于目标c的内部，否则属于目标c的外部；

在给定数据集上已知图像标注的对象边框，按照式(1)得到每个网格的标签；设定损失函数为Softmax回归形式，则训练阶段损失函数为：

式(2)中，(w,θ)分别表示CNN网络参数和softmax参数；N表示训练样本个数，表示第k幅图像的第t个网格，l{.}表示为真假判断运算符，表示第k幅图像的第t个网格的特征。通过随机梯度下降法获得上述参数。在测试阶段得出各个网格是否属于指定的目标对象，然后根据各个网络所属的对象类别，将其合并组成初始对象窗口。

本申请提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明能够得到快速准确的目标检测效果，在快速检测的同时，尽量减少精度的损失，以满足工程应用的需求，具体表现为：

1)步骤2可以得到具有类内代表性、类间判别性的深度特征来表示各个网格区域。由于深度特征相比较传统手动设计的特征具有更好地表达对象的能力，近年来深度特征已广泛应用于目标检测领域，并在性能上大大超越传统的方法。类似于R-CNN改进版本及yolo，步骤2采用同样的方法提取各个区域的特征，首先把整幅归一化过得图像输入到深度卷积神经网络，然后在最后一个卷积层做每个网格区域的最大池化操作，进而得到每个网络区域的特征。很多当前文献证明深度网络是对输入的图像进行不同深度层次的抽象，最后一个卷积层输出的每个响应谱往往反映了对象的高层信息，比如对象的一个部件，这样的深度特征提取操作，一方面能够使特征更加具有代表性、判别性，另一方面能够加快特征提取的速度，而不需要每个网格都要依次输入到深度网络。

2)步骤3首先可以准确判断每个区域是否属于指定对象。这是因为训练阶段根据数据库标注我们已知每个网格区域是否属于对象类别，然后利用softmax形式的目标函数进行参数优化，最终学习到参数之后测试阶段我们可以准确地判断出每个区域所属的对象类别。即使某个小的网格判断有误，通过多个网格合并聚集，同样可以根据临近区域的类别来消除对初始对象窗口的干扰，由于网格数量较少，可以高效计算每个网格的特征，最终步骤3可以得到较准确，且数量较少的初始对象窗口，这样大大减少了运算代价。

3)边框回归往往作为当前检测框架的后处理操作，能够得到更加精确的边框位置，从而达到准确的检测效果。边框回归最早在可变形部件模型中提出，首先输入初始生成的对象边框的位置和大小，通过训练模型对边框进行回归，最后预测真实检测框的位置和大小。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定；

图1是本申请中R-CNN系统流程示意图；

图2是本申请中基于网格判断的快速目标检测方法的流程示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

请参考图2，本申请提供了一种基于网格判断的快速目标检测方法，所述方法包括：

步骤1：将图像进行网格划分；

步骤2：提取网格区域的特征；

步骤4：利用边框回归方法对初始对象窗口进行边框回归处理。具体为：输入初始生成的对象边框的位置和大小，通过逻辑回归的方法训练模型对边框进行回归，预测真实检测框的位置和大小。

具体步骤如下：

(1)图像网格划分：输入一张图片，首先归一化到尺寸大小为W×H，然后平均划分为T×T的网格，即每个网格G^t(t＝1,...,T²)大小为：W/T×H/T。

(2)网格区域特征提取：首先把整幅图像输入到CNN网络(可以是ALexNet，GoogLeNet，VGG)，在最后一个卷积层的响应谱上，每个网格区域内做max-pooling。假设响应谱有N个通道，则最终每个网格的特征维度是D维，即特征

(3)网络判断及合并：有了步骤2)提起的特征，接下来判断每个网格是否属于指定的目标对象。

假设事先定义C类目标对象，则对于任一类别c∈{1,2,...,C}，每个网格G^t的标签为：

式中，s(.)表示面积，即像素个数；B^c表示第c类的标注边框；y_c(G^t)＝1表示网格G^t属于目标c的内部，否则属于目标c的外部。

在给定数据集上已知图像标注的对象边框，即groundtruth，进而按照式(1)得到每个网格的标签。设定损失函数为Softmax回归形式，则训练阶段损失函数为：

式中(w,θ)分别表示CNN网络参数和softmax参数。另外，N表示训练样本个数，表示第k幅图像的第t个网格，l{.}表示为真假判断运算符，表示第k幅图像的第t个网格的特征。通过随机梯度下降法我们可以学习到这些参数。测试阶段，可以得出各个网格是否属于指定的目标对象。然后根据各个网络所属的对象类别，将其合并起来组成大的初始对象窗口。

(4)边框回归：由于合并得到的初始对象窗口往往存在较大的定位偏差，可以采用边框回归的方法得到更加精确的结果。

本发明的关键点在于：提出一种高效准确的目标检测算法，首先判断划分的网格是否属于指定对象，然后将小的网格合并得到初始的对象边框，进而通过边框回归得到最终的较准确的目标边框。该发明步骤(1),(2),(3)可以用于初始一般类对象窗口生成(Objectness)的任务中。步骤(2)CNN网络结构可以用经典的AlexNet，VGG，GoogLeNet网络，也可以用根据任务设计的神经网络。步骤(3)可以用朴素的窗口合并，也可以通过聚类操作得到。

本发明能够广泛应用于公共安全监控。当前很多场合(如校园、小区、停车场、银行等)都装有视频监控系统，以便能够对可疑的物品和人员进行监控。另外，在智能交通系统中，除视频录像、车牌识别外，还需要大量的识别监视跟踪系统，以保证车辆的安全行驶。

此外，从研究角度来看，目标检测作为高级图像理解的前处理操作，在图像理解中扮演了重要的角色。快速准确地检测出图像中目标对象的类别和位置能够为理解图像提供更多的信息，如在一幅图像中检测出各个目标，能够更好地理解目标间的交互活动。

上述本申请实施例中的技术方案，至少具有如下的技术效果或优点：

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于网格判断的快速目标检测方法，其特征在于，所述方法包括：

步骤1：将图像进行网格划分；

步骤2：提取网格区域的特征；

步骤4：利用边框回归方法对初始生成的对象窗口进行边框回归处理。

2.根据权利要求1所述的基于网格判断的快速目标检测方法，其特征在于，所述步骤1具体为：输入一张图片，对图像进行归一化处理，图像尺寸大小为W×H，然后将图像平均划分为T×T的网格，即每个网格G^t(t＝1,...,T²)大小为：W/T×H/T。

3.根据权利要求1所述的基于网格判断的快速目标检测方法，其特征在于，所述步骤2具体为：首先将归一化处理过的图像输入到卷积神经网络，在最后一个卷积层的响应谱上，每个网格区域内做最大池化操作，获得每个网格区域的特征。

4.根据权利要求1所述的基于网格判断的快速目标检测方法，其特征在于，所述步骤4具体包括：输入初始生成的对象边框的位置和大小，通过逻辑回归的方法训练模型对边框进行回归，预测真实检测框的位置和大小。

5.根据权利要求1所述的基于网格判断的快速目标检测方法，其特征在于，所述步骤3具体包括：

<mrow> <mtable> <mtr> <mtd> <mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <msup> <mi>T</mi> <mn>2</mn> </msup> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>c</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>C</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mi>T</mi> <mn>2</mn> </msup> </munderover> <mi>l</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <mi>&theta;</mi> <mo>|</mo> <msub> <mi>y</mi> <mi>c</mi> </msub> <mo>(</mo> <msubsup> <mi>G</mi> <mi>k</mi> <mi>t</mi> </msubsup> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <msup> <mi>T</mi> <mn>2</mn> </msup> </mfrac> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>c</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>C</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mi>T</mi> <mn>2</mn> </msup> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mo>&lsqb;</mo> <mn>1</mn> <mo>{</mo> <msub> <mi>y</mi> <mi>c</mi> </msub> <mrow> <mo>(</mo> <msubsup> <mi>G</mi> <mi>k</mi> <mi>t</mi> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>}</mo> <mi>log</mi> <mfrac> <msup> <mi>e</mi> <mrow> <msubsup> <mi>&theta;</mi> <mi>c</mi> <mi>T</mi> </msubsup> <msub> <mi>f</mi> <msubsup> <mi>G</mi> <mi>k</mi> <mi>t</mi> </msubsup> </msub> </mrow> </msup> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>c</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>C</mi> </munderover> <msup> <mi>e</mi> <mrow> <msubsup> <mi>&theta;</mi> <mi>c</mi> <mi>T</mi> </msubsup> <msub> <mi>f</mi> <msubsup> <mi>G</mi> <mi>k</mi> <mi>t</mi> </msubsup> </msub> </mrow> </msup> </mrow> </mfrac> <mo>&rsqb;</mo> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

式(2)中，(w,θ)分别表示CNN网络参数和softmax参数；N表示训练样本个数，表示第k幅图像的第t个网格，1{.}表示为真假判断运算符，表示第k幅图像的第t个网格的特征；通过随机梯度下降法可获得上述参数；在测试阶段得出各个网格是否属于指定的目标对象，然后根据各个网络所属的对象类别，将其合并组成初始对象窗口。