CN103870834B

CN103870834B - 基于分层分割的滑动窗搜索方法

Info

Publication number: CN103870834B
Application number: CN201410134646.9A
Authority: CN
Inventors: 蔡静; 韩丹; 张琰; 张荆沙; 龚义建; 李道清
Original assignee: WUCHUANG INSTITUTE OF TECHNOLOGY Co Ltd
Current assignee: WUCHUANG INSTITUTE OF TECHNOLOGY Co Ltd
Priority date: 2014-04-03
Filing date: 2014-04-03
Publication date: 2017-05-10
Anticipated expiration: 2034-04-03
Also published as: CN103870834A

Abstract

本发明公开了一种基于分层分割的滑动窗搜索方法，该方法首先对图像进行超像素分割，然后在图像超像素分割结果和区域相似度定义的基础上，运行图像的分层分割算法，接着根据图像的分层分割结果产生初始窗口，并利用目标的先验知识对窗口进行筛选，最后在剩余窗口的周围稠密采集目标候选窗。本发明方法在保证不漏掉目标的前提下，仅产生少量候选目标位置，能够有效缓解目标检测任务中特征提取和分类器判决的计算量大的问题。

Description

基于分层分割的滑动窗搜索方法

技术领域

本发明涉及属于计算机视觉技术领域，涉及图像分割技术，是目标检测的重要组成部分，主要应用于计算机视觉智能系统的目标检测任务。

背景技术

目标检测是计算机视觉领域中最活跃的研究方向之一，已有的目标检测系统绝大部分将目标检测视作一个二分类问题，即在所有候选位置判断目标是否出现。目标检测任务主要分为训练阶段和测试阶段，其中训练阶段包括特征提取和目标建模，而测试阶段主要包括目标假设、特征提取和目标判决三个部分。特征提取是对训练样本进行量化，即把图像转化成向量，以便做进一步分析。目标建模是利用训练样本学习目标模型的参数，从而得到指定目标类的模板。目标假设是搜索出所有可能的目标候选区域用作后续的分类器判决，也被称作目标搜索，迄今为止最常用的目标假设方法为滑动窗搜索。

传统的滑动窗搜索方法在没有引入任何目标先验信息的情况下，需要遍历搜索图像中所有的位置和尺度，从而造成目标候选窗的数量太大，加重了目标检测任务中特征提取和分类器判决的计算量。在目标检测的具体实现过程中，为了满足实际需求，往往采用以检测精度换取检测速度的策略，即采用相对简单的特征提取方法表示所有可能的目标候选区域，并使用快速的分类器从中检测出目标。因此，传统的滑动窗搜索方法使得目标检测任务难以同时达到很好的检测精度和检测速度。针对滑动窗搜索计算量大这一固有缺陷，研究人员提出了许多改进策略。已有改进策略主要有三种：级联分类器、选择性窗搜索和快速特征提取。

级联分类器利用前面的若干级简单分类器可以排除大量的不包含目标的目标候选窗，起到了显著的加速效果。选择性窗搜索利用目标先验知识或者由粗到精搜索窗口空间，减少了目标候选窗的数量。快速特征提取方法减少了每个目标候选窗特征提取和分类器判决的时间，从而减少了整个目标检测的计算量。目标检测计算量大的根源是滑动窗搜索会产生大量的目标候选窗。尽管上述三种策略都不同程度加快了目标检测速度，但仍然无法从根本上克服候选窗口数量过于庞大的问题。

发明内容

本发明目的在于克服上述现有技术的不足而提供一种基于分层分割的滑动窗搜索方法，方法在保证不漏掉目标的前提下，仅产生少量候选目标位置，能够有效缓解目标检测任务中特征提取和分类器判决的计算量大的问题。

实现本发明目的采用的技术方案是基于分层分割的滑动窗搜索方法，该方法包括：

（1）对图像I进行超像素分割，将分割后的超像素集合记做

（2）利用区域相似度对所述分割后的超像素集合进行图像的分层分割，得到所有分割区域构成的集合

（3）利用目标的先验知识（大小、宽高比）对集合中所有分割区域的外接矩形进行筛选，在图像金字塔中剩余窗口的周围稠密采集窗口，从而获得最终的目标候选窗。

在上述技术方案中，所述步骤（2）包括：

（2-1）计算中所有相邻分割区域的相似度；

（2-2）将相似度最高的两块区域记作r_m1,r_m2合并得到一块新区域r_new；

（2-3）将新区域添加到集合中得到集合即

（2-4）删除与区域r_m1和r_m2相关的所有相似度，并计算r_new与相邻区域的相似度；

（2-5）判断r_new是否为完整的图像I，如果不是则转到步骤（2-2）继续执行，如果是则结束循环，输出所有分割区域构成的集合

在上述技术方案中，所述步骤（3）包括：

（3-1）将中所有分割区域的外接矩形作为初始窗口；

（3-2）从所有初始窗口中删除大小和宽高比不满足要求的窗口，保留下来的窗口集合记做Q_win；

（3-3）建立图像I的M层图像金字塔，并规定搜索窗口大小W×H，其中W是窗口宽度，H是窗口高度；

（3-4）对集合Q_win中的所有窗口进行操作：对于任意一个窗口w(i)∈Q_win，根据各层图像金字塔与原始图像的比例关系计算出w(i)在每一层图像金字塔中的大小并与搜索窗口大小做比较，保留与W×H最接近的a_w(i)(j)，即窗口w(i)对应于第j层图像金字塔；

（3-5）对于任意一个窗口w(i)∈Q_win，在其对应的第j层图像金字塔窗口w(i)附近稠密采集目标候选窗（窗口的大小为W×H），采集得到的窗口记为集合S_w(i)，所有S_w(i)的并集即为最终的目标候选窗。

本发明方法具有以下优点：

（1）与传统的滑动窗搜索方法相比，在运算速度、目标候选窗数量和召回率等方面更具优势；

（2）在遮挡、光照变化、尺度变化等情况下，采用本发明方法产生的目标候选窗依然能够准确地涵盖目标。

附图说明

图1为采用本发明基于分层分割的滑动窗搜索方法的流程图。

图2为采用本发明方法实现搜索人脸目标的过程示意图。图中，图2a为原始图像，图2b为超像素分割后的结果图，图2c为图像分层分割后的结果图；图2d为初始窗口，图2e为筛选后的窗口，图2f为目标候选窗，图2g为在上述目标候选窗基础上，进行目标检测的结果。

图3为本发明方法对加州理工人脸数据库和PASCAL VOC2009目标数据库中的图像进行搜索的结果示意图。图中，图3a为原始图片，图3b为目标候选窗，图3c为与ground-truth重叠超过50%的目标候选窗。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明。

如图1和图2所示，本发明一种基于分层分割的滑动窗搜索方法包括：

S100、对图像I进行超像素分割，将分割后的超像素集合记做

图像分割是把图像细分为构成它的子区域或对象，并从中提出感兴趣目标。分割的程度取决于要解决的问题，本实施例中，分割程度是一个可调的重要指标：如果分割过于精细，几乎可以保证一个区域仅对应一个目标，但是会把一个完整目标分成多份，从而增加后续处理的计算负担；如果分割过于粗糙，就很难保证一个区域对应一个目标，往往会把背景和目标合并成一个区域，影响最终候选窗的定位精度。

超像素是指图像中一系列位置相邻且具有相似颜色、灰度、纹理等特征的像素构成的小区域。超像素分割则是以超像素代替原来的像素点作为节点进行图像分割，把图像分成了多个小区域，每个小区域即为一个超像素。该方法不能确保每个超像素对应一个完整的目标，但以较高概率使每个超像素只对应一个目标。因此，超像素分割可以大大减小图像处理的规模，带来计算上的优势。

如图2a所示的原始图像I，进行超像素分割如图2b所示。

S200、采用图像的分层分割对所述分割后的超像素集合处理后输出所有分割区域构成的集合具体包括以下步骤：

S201、计算中所有相邻分割区域的相似度；

任意两个相邻图像区域a和b的相似度定义如下：

S(a,b)=(1-λ)(1-S_∪(a,b))+λS_ap(a,b)

其中S_∪(a,b)为a和b共有的面积占图像面积的比列。S_∪(a,b)越小，则S(a,b)越大；该项作用是倾向让小区域先进行合并，并防止单个区域一个接一个的吞噬其它区域。S_ap(a,b)定义为两个区域a和b的外观相似度。

S202、将相似度最高的两块区域记作r_m1,r_m2合并得到一块新区域r_new；

S203、将新区域添加到集合中得到集合即

S204、删除与区域r_m1和r_m2相关的所有相似度，并计算r_new与相邻区域的相似度；

S205、判断r_new是否为完整的图像I，如果不是则转到步骤（2-2）继续执行，如果是则结束循环，输出所有分割区域构成的集合分层分割后的图像如图2c所示。

S300、利用目标的先验知识（大小、宽高比）对集合中所有分割区域的外接矩形进行筛选，在图像金字塔中剩余窗口的周围稠密采集窗口，从而获得最终的目标候选窗，具体包括以下步骤：

S301、将中所有分割区域的外接矩形作为初始窗口，如图2d所示。

S302、删除大小和宽高比不满足要求的窗口，保留下来的窗口集合记做Q_win，如图2e所示。以人脸检测为例，规定把窗口像素个数小于2500大于20000、宽高比小于0.4大于1.1的所有窗口去除。通过简单的筛选仅保留约1/3的初始窗口，从而减少了运算量。

S303、建立图像I的M层图像金字塔，并规定搜索窗口大小W×H，其中W是窗口宽度，H是窗口高度。一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低的图像集合，金字塔的底部是待处理图像的高分辨率表示，而顶部是低分辨率的近似，当向金字塔的上层移动时，尺寸和分辨率就降低。以人脸检测为例，每一层金字塔搜索窗的大小设为72×100像素，人脸检测的搜索窗大小为7200。

S304、对集合Q_win中的所有窗口进行操作：对于任意一个窗口w(i)∈Q_win，根据各层图像金字塔与原始图像的比例关系计算出w(i)在每一层图像金字塔中的大小并与搜索窗口大小做比较，保留与W×H最接近的a_w(i)(j)，即窗口w(i)对应于第j层图像金字塔。举例说明，假设窗口w(i)在原始图像中的大小为140×198像素，当第j层图像金字塔为原始图像一半大小时，w(i)在该层的大小为70×99像素，此时与搜索窗72×100最接近，则称窗口w(i)对应于第j层图像金字塔。

S305、对于任意一个窗口w(i)∈Q_win，在其对应的第j层图像金字塔窗口w(i)附近稠密采集目标候选窗（窗口的大小为W×H），如图2f所示。采集得到的窗口记为集合S_w(i)，所有S_w(i)的并集即为最终的目标候选窗。在所有目标候选窗上进行目标检测的后续处理，结果如图2g所示。

下面采用上述本发明的方法对加州理工人脸数据库和PASCAL VOC2009目标数据库中的图像进行搜索。加州理工人脸数据库包含450张彩色图片，每张图片中有且只有一个人脸。所有人脸都正对镜头，平面内偏转较小，采集人脸的环境相对比较简单。VOC2009数据库中的目标会受到复杂背景、光照变化和遮挡的干扰，且各类目标的形状、尺度、姿态都有较大变化，与实际应用的环境类似，因此给目标的搜索带来了一定的挑战。

搜索结果评价指标：窗口C和ground-truth窗C_gt的相对重叠面积来评价定位精度，当窗口C与C_gt的相对重叠面积大于0.5时，则认为C为一个有效的目标候选窗，且与C_gt对应的目标被召回，否则判定目标被漏掉。

实验结果与分析：

（1）图像尺度越大，图像分割越精细，产生的目标候选窗就越多，召回率也越高。因此，通过调整图像尺度改变目标召回率和目标候选窗的数量。下表1给出了本发明召回率和平均目标候选窗数量的关系，可以看出召回率达到99.3%时，平均目标候选窗的数量小于800个。对于传统的滑动窗搜索而言，实验中滑动窗口搜索步长为4个像素，在整个图像金字塔中遍历搜索目标一共产生超过86万个目标候选窗，即使把滑动窗口搜索步长设为8个像素，也会产生21万个目标候选窗。显而易见本发明中的滑动窗搜索方法允许在目标检测任务中采用更复杂的特征和分类器，而不会加重计算消耗。

召回率(%)	96.2	96.7	97.8	99.3
					候选窗口数量	168	258	423	768

表1

（2）当每幅图片平均产生168个目标候选窗时，本发明中的方法耗时<70ms，如果引入快速特征提取和级联分类器，整个系统完全可以实现实时检测目标。因此从运算速度、目标候选窗数量和召回率等三方面综合考虑，本方法相比传统的滑动窗搜索更有优势。

（3）图2给出了搜索人脸的可视化结果。其中，图3a是原始图片，图3b是本方法产生的目标候选窗，图3c为与ground-truth重叠超过50%的目标候选窗，其中虚线框为ground-truth数据，实线框为与ground-truth重叠超过50%的目标候选窗。由图3可知，本方法即使在遮挡、光照变化、尺度变化等情况下仍能非常准确地涵盖人脸目标，为后续的分类器判决打下良好的基础。此外，图3最后一副人脸图的搜索结果也说明本方法同样适用于手工绘制的人脸目标。

综上所述，本发明的基于分层分割的滑动窗搜索方法，在保证不漏掉目标的前提下，仅产生少量候选目标位置，能够有效缓解目标检测任务中特征提取和分类器判决的计算量大的问题。实验结果表明：该方法与传统的滑动窗搜索方法相比，在运算速度、目标候选窗数量和召回率等方面更具优势。此外，该方法在遮挡、光照变化、尺度变化等情况下依然能够准确地框住目标。

Claims

1.一种基于分层分割的滑动窗搜索方法，其特征在于，包括：

(1)对图像I进行超像素分割，将分割后的超像素集合记做

(2)利用区域相似度对所述分割后的超像素集合进行图像的分层分割，输出所有分割区域构成的集合

(3)利用目标的大小和宽高比对集合中所有分割区域的外接矩形进行筛选，在图像金字塔中剩余窗口的周围稠密采集窗口，从而获得最终的目标候选窗，具体包括：

(3-1)将中所有分割区域的外接矩形作为初始窗口；

(3-2)从所有初始窗口中删除大小和宽高比不满足要求的窗口，保留下来的窗口集合记做Q_win；

(3-3)建立图像I的M层图像金字塔，并规定搜索窗口大小W×H，其中W是窗口宽度，H是窗口高度；

(3-4)对集合Q_win中的所有窗口进行操作：对于任意一个窗口w(i)∈Q_win，根据各层图像金字塔与原始图像的比例关系计算出w(i)在每一层图像金字塔中的大小并与搜索窗口大小做比较，保留与W×H最接近的a_w(i)(j)，即窗口w(i)对应于第j层图像金字塔；

(3-5)对于任意一个窗口w(i)∈Q_win，在其对应的第j层图像金字塔窗口w(i)附近稠密采集目标候选窗，所述目标候选窗的窗口大小为W×H，采集得到的窗口记为集合S_w(i)，所有S_w(i)的并集即为最终的目标候选窗。

2.根据权利要求1所述基于分层分割的滑动窗搜索方法，其特征在于，所述步骤(2)包括：

(2-1)计算中所有相邻分割区域的相似度；

(2-2)将相似度最高的两块区域记作r_m1,r_m2合并得到一块新区域r_new；

(2-3)将新区域添加到集合中得到集合即

(2-4)删除与区域r_m1和r_m2相关的所有相似度，并计算r_new与相邻区域的相似度；

(2-5)判断r_new是否为完整的图像I，如果不是则转到步骤(2-2)继续执行，如果是则结束循环，输出所有分割区域构成的集合