CN104134071A

CN104134071A - 一种基于颜色描述的可变形部件模型物体检测方法

Info

Publication number: CN104134071A
Application number: CN201410277452.4A
Authority: CN
Inventors: 杨金福; 张济昭; 高晶钰; 张珊珊; 李明爱; 张强; 陈浩
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2014-06-20
Filing date: 2014-06-20
Publication date: 2014-11-05
Anticipated expiration: 2034-06-20
Also published as: CN104134071B

Abstract

本发明公开了一种基于颜色描述的可变形部件模型物体检测方法，本发明属于图像目标检测技术领域，本发明方法提出一种智能的融合形状与颜色特征的物体检测方法，以可变形部件模型为底层框架，在训练模板时在原有的梯度方向直方图特征空间中加入基于语言学的Color Name颜色描述符，得到特定物体类型的形状模板与颜色模板，最后在检测阶段利用梯度方向直方图形状模板与Color Name颜色模板双模板匹配的滑动窗口方法检测物体。本发明方法克服了传统方法由于使用单一特征描述物体而产生误检测的缺点。

Description

一种基于颜色描述的可变形部件模型物体检测方法

技术领域

本发明属于图像目标检测技术领域，以可变形部件模型(DPM,Deformable Part Model)为底层框架，在训练模板时在原有的梯度方向直方图(HOG,Histograms of Oriented Gradients)特征空间中加入基于语言学的Color Name颜色描述符，在检测阶段利用梯度方向直方图形状模板与颜色模板双模板匹配的滑动窗口方法检测目标。本发明不仅利用传统可变形部件模型中的部件模型、多视角混合模型使得检测具有类似人类识别物体的灵活性，并且由于颜色描述的引入，使得本发明方法具有类似人类观察物体特征的多样性，这些因素缩小了物体检测中存在的语义鸿沟。

背景技术

近年来，服务机器人技术的研究取得了很大进展，各种类型的服务机器人已在家政、娱乐、安保等多个领域展现出功能丰富的应用。物体的操作与搬运是服务机器人最重要的基础功能之一，支撑起了复杂环境中机器人的各类高级应用。而一个功能完善的物体操作过程的实现离不开实时、准确的物体检测。为了准确地执行手臂规划和抓取操作，服务机器人的视觉感知系统不仅需要识别出目标物体，还需要提供目标物体及其附近障碍物的准确空间位置信息，而环境的复杂性，如光照变化、局部遮挡、旋转变化等因素的存在，导致物体检测任务具有很高的难度。

Pascal VOC挑战赛是视觉物体检测、识别和分类的一个基准测试。从2005年起，该组织每年都会提供一系列带标签的图片，挑战者通过设计各种方法，仅根据图片内容来将其分类，最终通过准确率、召回率来评价算法的效果。该挑战赛及其所使用的数据集已经成为了物体检测领域普遍接受的一种标准。2005年物体检测竞赛中，Darmstadt团队的Mario Fritz等使用视觉单词(visual words)描述图像局部特征，并使用SVM实现检测，该方法在他们参加的几类物体检测中得到了较好的性能。2006年最佳物体检测算法是Dalal和Triggs提出的梯度方向直方图(HOG)模型。他们的工作主要集中于鲁棒图像特征描述研究，提出了物体检测领域中具有重要地位的梯度方向直方图(HOG)特征。梯度方向直方图特征通过将图像划分成小的胞元(cell)，在每个胞元内部进行梯度方向统计得到直方图描述。与尺度不变特征转换(SIFT)特征相比，梯度方向直方图特征不具有尺度不变性，但计算速度要快得多。Dalal和Triggs方法的整体检测框架依然是滑动窗口策略为基础，并且使用线性分类器进行分类。这个模型本质上是一个全局刚性模板模型，需要对整个物体进行全局匹配，对物体形变不能很好地匹配处理。

2007年Felzenszwalb等提出了物体检测领域里程碑式的工作：可变形部件模型，并以此取得了当年Pascal VOC物体检测竞赛的冠军。该方法底层特征采用了Dalal和Triggs提出的梯度方向直方图特征，但与Dalal等人的全局刚体模板模型不同的是，可变形部件模型由一个根模型和若干可形变部件组成，由于子模型以及子模型与根模型之间形变模型的加入，可变形部件模型能够适应非刚性形变物体的检测，并且，可变形部件模型引入了混合模型概念，即训练出不同视角下的物体模型以用于检测(每个视角的模型被称之为一个组件)，另一个重要的改进是提出了L-SVM模型，通过隐变量来建模物体部件的空间配置，并使用判别式方法进行训练优化。可变形部件模型奠定了当今物体检测研究的基础，也成为后续Pascal VOC竞赛中物体检测任务的基础框架。然而，同目前大多数先进的物体检测方法一样，可变形部件模型是仅仅基于灰度特征进行检测的，忽略了对图像的颜色特征的描述。而对于人类而言，颜色是能够被用来描述和区分不同物体的一个重要属性。Berlin和Kay从语言学的角度将颜色归结为11个基本种类：黑色、蓝色、棕色、灰色、绿色、橙色、粉色、紫色、红色、白色、黄色，称为Color Name。也就是说，几个不同颜色值的颜色可能都被称作蓝色。J.van de Weijer等人利用PLSA方法在Google图片集上学习得到了Color Name与特定颜色空间值对应的检索表用以描述不同颜色值对应的语言学上的颜色名称。

本发明旨在提出一种更加智能的融合形状与颜色特征的物体检测方法，以可变形部件模型为底层框架，在训练模板时在原有的梯度方向直方图特征空间中加入基于语言学的ColorName描述符，得到特定物体类型的形状模板与颜色模板，最后在检测阶段利用形状模板与颜色模板双模板匹配的滑动窗口方法检测物体。

参考文献：

1.Everingham M,Van Gool L,Williams C K I,et al.The pascal visual object classes(voc)challenge[J].International journal of computer vision,2010,88(2):303-338.

2.Everingham M,Zisserman A,Williams C K I,et al.The2005pascal visual object classeschallenge[M]//Machine Learning Challenges.Evaluating Predictive Uncertainty,VisualObject Classification,and Recognising Tectual Entailment.Springer Berlin Heidelberg,2006:117-176.

3.Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//ComputerVision and Pattern Recognition,2005.CVPR2005.IEEE Computer Society Conference on.IEEE,2005,1:886-893.

4.2.Felzenszwalb P,McAllester D,Ramanan D.A discriminatively trained,multiscale,deformable part model[C]//Computer Vision and Pattern Recognition,2008.CVPR2008.IEEE Conference on.IEEE,2008:1-8.

发明内容

本发明通过在梯度方向直方图特征中加入颜色特征，设计并实现了整个物体检测方法。由于传统的可变形部件模型方法仅仅利用了图像的像素灰度和梯度信息，忽略了图像的彩色信息，因而它不可避免的对于那些在灰度上相近而在颜色信息上有差别的图像物体产生误匹配，L*a*b*颜色空间对色差的感知是线性的，而且是设备无关的颜色空间，故可以消除在不同设备上进行严格命名计算而产生的误差。L*a*b*颜色空间的色域远远大于其他任何的设备相关的色彩空间，从而在色彩的转换映射过程中不会在基准色彩空间上损失色域范围。因此，本发明采用L*a*b*颜色空间模型。传统的可变形部件模型方法仅通过形状模板与图像的匹配进行物体检测，然而在实际当中，一些非目标物体的区域也可能匹配形状模板，需要其他特征的匹配来增加检测的置信度，去除误检测。本发明在此基础上引入颜色模板与图像的匹配，只有与形状模板与颜色模板同时匹配的图像区域才被认定为被检测物体。改进后的方法克服了传统方法由于使用单一特征描述物体而产生误检测的缺点。

本发明是采用以下技术手段实现的：

一种基于颜色描述的可变形部件模型物体检测方法，其特征在于包括如下步骤：

步骤1：基于颜色描述的可变形部件模型训练；

根据训练样本是否含有特定物体以及物体位置，训练出特定物体的模板，该模板包括描述物体整体特征的根模板、描述局部特征的部件模板以及整体特征与局部特征之间的距离约束关系；

步骤1.1：准备图片训练集，选取图片，根据图片提供的标签信息，包括每张图片包含何种物体以及各个物体所在的位置的包围盒坐标，根据训练集中的标签信息确定需要训练的物体模型的正样本集P以及负样本集N，其中含有特定物体的样本称为正样本，反之称为负样本；

步骤1.2：初始化根模板；

步骤1.2.1：将正样本集P中的标注方框按其长宽比排序，将最大长宽比与最小长宽比之间平均分为m个区间，从而将不同长宽比的标注方框划分到这m个区间内，形成P₁,...,P_m组，每组内的包围盒具有相似的长宽比，训练m个不同的根模板F₁'₀,...,F_m'₀，每组包围盒对应一个，从负样本集N中的图片上随机选择子窗口来产生负样本；

步骤1.2.2：提取样本的Color Name与梯度方向直方图HOG联合特征，方法如下：

样本灰度化，计算样本的梯度方向直方图特征，将样本图像分成若干个胞元cell，3×3像素的方格，采用9个bin的直方图来统计这些胞元的对比度不敏感梯度信息；将胞元的梯度方向360度分成9个方向块，对胞元内每个像素用梯度方向在直方图中进行加权投影，得到梯度方向直方图，即该胞元对应的9维特征向量，位置(i,j)处cell对应的特征向量记为C(i,j)；将梯度方向360度分成18个方向块，得到该胞元对应的18维特征向量；使用该胞元的4个小块block的能量对胞元特征向量进行规范化，然后使用阈值对规范化后向量的各分量进行截断，形成4维规范化特征向量；C(i,j)对应的量化因子计算方法如下：

N_{δ, γ} (i, j) = {({| | C (i, j) | |}^{2} + {| | C (i + δ, j) | |}^{2} + {| | C (i, j + γ) | |}^{2} + {| | C (i + δ, j + γ) | |}^{2})}^{\frac{1}{2}}

其中，δ,γ∈{-1,1}，每个因子都是对包含(i,j)在内的4个胞元组成的小块的梯度能量的度量；用T_α(v)表示对向量v的元素用阈值α修剪后形成的向量,T_α(v)的第i个元素是v中第i个元素和α两者中的最小值；对基于胞元的特征映射C进行归一化并截断，截断阈值取α＝0.2，4维特征向量如下：

H (i, j) = (\begin{matrix} T_{α} (C (i, j) / N_{- 1, - 1} (i, j) \\ T_{α} (C (i, j) / N_{+ 1, - 1} (i, j) \\ T_{α} (C (i, j) / N_{+ 1, + 1} (i, j) \\ T_{α} (C (i, j) / N_{- 1, + 1} (i, j) \end{matrix})

最后，连接这些向量，形成一个31维向量，用来表示每个胞元；之后计算样本的ColorName特征，Color Name特征是一个11维向量，每一维向量描述了像素或某一图像区域中的颜色属于11种颜色的概率，在梯度方向直方图描述符后面加上Color Name特征，形成新的42维Color Name与梯度方向直方图联合特征，将样本内的所有小块的Color Name与梯度方向直方图联合特征描述符串联起来得到该样本的Color Name与梯度方向直方图联合特征F_i，使用标准支持向量机训练F_i，形成m个初始根模板；

步骤1.3：建立并优化混合模板；

步骤1.3.1：将步骤1.2中得到的m个初始根模板串接起来形成不含部件的混合模板，提取混合模板的多层Color Name与梯度方向直方图联合特征F_i，多层特征提取分为三个层次：第一，以4×4的小块(block)计算Color Name与梯度方向直方图联合特征，从原图像开始，每一步以相对于上一步2^1/interval的倍数进行下采样，其中，interval为采样参数，直到经历interval步骤到达原图像尺寸的1/2为止，这一步骤共得到interval层特征；第二，以8×8的小块block计算Color Name与梯度方向直方图联合特征，从原图像开始，每一步以相对于上一步2^1/interval的倍数进行下采样，直到经历interval步骤到达原图像尺寸的1/2为止，这一步骤共得到interval层特征；第三，以8×8的小块block计算Color Name与梯度方向直方图联合特征，从原图像的一半大小开始，每一步以相对于上一步2^1/interval的倍数进行下采样，直到特征规模降到小块大小为止；其中，正样本取interval＝5，负样本取interval＝2每层特征的提取方法同步骤1.2；

步骤1.3.2：在完整样本集P和N上利用隐支持向量机训练混合模板的模板，分为两部分，通过两部分的循环迭代优化模板：第一部分，重新标注正样本：设z_p为在正样本集P与负样本集N的合集中正样本的隐藏变量值，即包围盒位置坐标，在固定模板的情况下，计算出与模板卷积得分最高的z_p作为新的正样本标注；第二部分：在固定z_p的情况下去掉远离分界面的负样本，保留靠近分界面的负样本，并利用梯度下降法优化模板；

步骤1.4：初始化部件模板并优化混合模板与部件模板的联合模板；

步骤1.4.1：设定部件的数量为6个，形状为矩形，选择根模板中能量最大的位置作为部件的位置，然后将该位置能量清零，重新在根模板中选择最大能量位置，直到6个部件位置搜索完毕，部件模板的分辨率初始化为根模板的2倍；

步骤1.4.2：将部件模板与步骤1.3中的混合模板串接，在完整样本集P和N上用步骤1.3中的隐支持向量机方法重新训练联合模板的参数；

步骤1.4.3：将训练出的联合模板拆分为梯度方向直方图形状模板和Color Name颜色模板；

步骤2：利用训练出的两个模板检测目标物体；

步骤2.1：基于可变形部件模型的检测；

步骤2.1.1：利用滑动窗口方法计算形状模板与查询图像特征空间的卷积得分得到候选包围盒，特征提取过程中，采用多层特征的形式，提取方法与步骤1.3.1相同，采样参数取interval＝10；

步骤2.1.2：计算检测图像的梯度方向直方图多层特征，并计算检测图像特征与根模板的卷积值F₀'·φ(H,p₀)，其中F₀'是根模板，φ(H,p₀)是与根模板位置相同的检测图像特征；

步骤2.1.3：计算检测图像的双倍分辨率梯度方向直方图多层特征，并计算检测图像特征空间与部件模板的卷积值其中F_i'是部件模板，φ(H,p_i)是与部件模板位置相同的检测图像特征；

步骤2.1.4：计算部件模板距离变换后的值其中d_i(i＝1,2,...,n)一个四维向量，指定φ_d(dx,dy)的参数，φ_d(dx,dy)＝(dx,dy,dx²,dy²)是形变特征，描述部件实际位置远离理想位置的程度；

步骤2.1.5：计算步骤2.1.2与步骤2.1.4得出的值的代数和，得到检测窗口的得分，该得分反映模板与检测图像的匹配程度，得出基于形状模板的物体预测方框；

步骤2.2：基于Color Name的误预测方框抑制；

计算出候选方框内各个像素的Color Name，统计方框内11种颜色的分布直方图以及训练出的颜色模板的11种颜色的分布直方图，利用余弦距离比较两个直方图的相似度，当相似度低于30％时去掉该候选预测方框，从而完成最终的目标检测。

所述的模板，其特征在于：其是一系列含有训练过的物体特征的矩形框。

本发明与现有技术相比，具有以下明显的优势和有益效果：

本发明采用L*a*b*颜色空间模型。传统的可变形部件模型方法仅通过形状模板与图像的匹配进行物体检测，一些非目标物体的区域需要其他特征的匹配来增加检测的置信度，去除误检测。本发明引入颜色模板与图像的匹配，只有与形状模板与颜色模板同时匹配的图像区域才被认定为被检测物体。本发明方法克服了传统方法由于使用单一特征描述物体而产生误检测的缺点。

附图说明

图1 CN-HOG描述符提取过程；

图2 训练总流程图；

图3 L-SVM训练步骤；

图4 特征金字塔示意图；

图5 基于形状模板的检测流程图；

图6 本发明总体流程图；

图7a-7b 形状及颜色模板举例；

图8a-8e 部分实验结果。

具体实施方式

为了使本领域的人员能够更好的理解和使用本发明，下面将结合附图和具体实施案例对本发明的技术方案进行进一步描述。

1.训练数据库中包含带标签的正样本集P与不带标签的负样本集N。将正样本集P中的标注方框按其长宽比排序并分类为P₁,...,P_m组，每组内的包围盒具有相似的长宽比。这里，长宽比被当做区分同类目标的外观变化的指示器。共训练m个不同的根滤波器。计算根滤波器CN-HOG特征向量，主要步骤如下：图像灰度化，颜色空间归一化，计算像素梯度，梯度直方图规定权重投影，对比度归一化与截断，计算区域Color Name，合并特征。CN-HOG描述符提取流程如图1。

2.使用标准SVM(不含隐藏信息)来训练Fi，形成m个初始根滤波器。

3.将m个初始主滤波器联合起来形成不含部分的混合模型，在完整数据集P和N上(不分组不缩放)重新训练联合模型的参数(L-SVM)。此步骤中，采用图像金字塔对特征进行描述，其中sbin＝8，正样本interval＝5，负样本interval＝2。训练总流程如图2，L-SVM训练步骤如图3，特征金字塔示意如图4。

4.将部件的数量固定为6个，形状为矩形。利用贪婪搜索选择根滤波器中能量(能量是子窗口内正权重的范数)最大的位置作为部件的位置。之后将该位置能量清零，重新在根滤波器中贪婪搜索最大能量位置，直到6个部件位置搜索完毕。部件滤波器的分辨率初始化为根滤波器的2倍，偏移量参数初始化为d_i＝(0,0,1,1)。在完整数据集P和N上(不分组不缩放)重新训练联合模型的参数(L-SVM)。最后将训练出的模板拆分为形状模板和颜色模板。

5.利用滑动窗口方法计算形状模板与查询图像特征空间的卷积得分得到候选预测框。滑动窗口内图像采用图像金字塔对特征进行描述，其中sbin＝8，interval＝10。具体地，分别计算根滤波器响应与部件滤波器距离变换后的响应，求其代数和，得到检测窗口的得分，从而得出基于形状模板的物体预测方框。基于形状模板检测部分流程如图5。

6.统计颜色模板中不同颜色所占的比例，形成一个11维的直方图向量。计算候选预测框里的颜色分布直方图，将这些直方图向量一一与颜色模板计算余弦相似度，去除差异较大的包围框从而得到最终的检测窗口。

7.本发明方法总体流程如图6，形状及颜色模板举例如图7，部分实验结果如图8。其中，图7a所示为电视机形状模板，三行分别表示三个组件的模板，第一列是根滤波器，第二列是部件滤波器，第三列是距离变换后的部件滤波器。图7b所示为电视机颜色模板，三行分别表示三个组件的模板，第一列是根滤波器，第二列是部件滤波器，颜色模板中每个小方格代表该位置最可能的颜色。图8a与图8b分别表示电视机与沙发两类物体的检测结果，左边一列的方框表示可变形部件模型所检测的物体位置，右边一列的方框表示本发明所检测的物体位置。图8c、图8d、图8e分别表示电视机、瓶子、盆栽的检测准确率-召回率曲线。

最后应说明的是：以上示例仅用以说明本发明而并非限制本发明所描述的技术方案；因此，尽管本说明书参照上述的示例对本发明已进行了详细的说明，但是本领域的普通技术人员应当理解，仍然可以对本发明进行修改或等同替换；而一切不脱离发明的精神和范围的技术方案及其改进，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于颜色描述的可变形部件模型物体检测方法，其特征在于包括如下步骤：