CN104537392B

CN104537392B - 一种基于判别性语义部件学习的对象检测方法

Info

Publication number: CN104537392B
Application number: CN201410830356.8A
Authority: CN
Inventors: 李宏亮; 谢昱锐
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2014-12-26
Filing date: 2014-12-26
Publication date: 2017-10-17
Anticipated expiration: 2034-12-26
Also published as: CN104537392A

Abstract

本发明提供一种基于判别性语义部件学习的对象检测方法。本发明提出的基于稀疏表示的判别性语义部件聚类提纯得到最终语义部件集合，以及利用学习的语义部件检测器的对象置信度谱获取检测结果。相对于现有基于部件的对象检测方法在对象模型训练过程中需要强监督信息且仅能对训练的特定类别对象进行检测，本发明语义部件学习过程完全自动化，且在整个部件学习过程中，仅需要对象的窗口标注信息，不需要提供更多的强监督部件信息；利用了不同类对象部件信息具有几何相似性的特点，基于不同类对象部件共享的方式，能对跨类别的对具有几何相似性的对象进行检测，提高了基于部件的对象检测算法的泛化性能。

Description

一种基于判别性语义部件学习的对象检测方法

技术领域

本发明提出一种基于判别性语义部件学习方法解决图像中对象的检测任务，是一种图像处理领域的新型技术。

背景技术

当今，随着计算机网络、多媒体技术及数字媒体设备的不断发展和成熟，人们在工作和日常生活中对数字图像的需求也大量增多。在海量的数字图像当中，为了对图像数据进一步分析处理的需要，人们往往需要在每幅图像中定位到感兴趣的对象区域，进而对象检测技术孕育而生。对象检测问题即是要设计有效的算法，对输入的图像数据中感兴趣的对象区域进行识别及定位。面对当前海量的图像数据信息，对象检测方法提供了有效的途径去分析理解图像中的信息内容，其为进一步对图像的分析处理提供了基础，极大提高了人们理解大量媒体数据信息的能力。对象检测技术受到了越来越多研究者的关注，是当前在计算机视觉领域内研究的关键课题之一。

目前，依据检测对象的类型，主要有两类对象检测方法。即特定对象类的检测方法和针对一般类对象的检测方法。其中，在特定对象检测方法中，当前采用部件模型的方法能取得较好的检测效果，也是目前在该领域内研究的重点。但目前此类型方法的不足之处是，其一是在具体检测中仅能够对当前训练好的对象类别进行检测，而对于新有的对象类别，即使对象间具有几何相似性也不能有效地对其进行检测识别。即使新有的对象类别有其对应的训练模型，但对新有的对象类别在模型训练阶段缺少充分的训练数据时，问题依然突出。其二是在采用此类模型的大多数方法中，为了更为有效地提高方法的检测性能，往往在模型训练阶段加入了对象及其各个语义部件的强监督信息，而此类信息的获取在实际应用中费时费力，较难获取。对象的各语义部件为对象的某个部位，比如腿部、头部。强监督信息为需要大量人工标定信息，比如，人工指定对象以及对象位置，人工指定语义部件的类别以及该部件的位置。所以基于这个原因也限制了此类方法的实际应用能力。另外，一般类对象检测方法利用了图像数据的低层视觉线索，如基于图像的分割以及显著方面的特性，其克服了特定对象检测方法仅能完成单一类对象检测问题，但该类方法的检测精度不如特定类对象检测方法。

发明内容

本发明所要解决的技术问题是，提供一种基于语义部件的，不需要提供更多的强监督部件信息的对象检测方法。

本发明为解决上述技术问题所采用的技术方案是，一种基于判别性语义部件学习的对象检测方法，其特征在于，包括以下步骤：

1)训练步骤：

步骤1-1)将多类具有几何相似性对象的图像组成训练集合，人工标注训练集合中每幅图像的对象窗口区域，对对象窗口区域进行图像块划分，对所有图像块提取特征后进行聚类得到初始语义部件集合；

步骤1-2)根据初始语义部件集合中各聚类部件中的成员部件数目对初始语义部件集合进行筛选，去掉成员部件数目小于预设最小值的聚类部件，得到候选语义部件集合；

步骤1-3)优化候选语义部件集合中各聚类部件的表示系数A′_j：

其中，A′_j表示候选语义部件集合中第j个聚类部件的表示系数，arg min表示函数取最小值时A_j的值，||·||₂表示2范数，||·||₁表示L1范数，X_j表示第j个聚类部件构建的特征矩阵，D_j表示除去第j个聚类部件C_j之后，候选语义部件集合中其它的聚类部件构建的特征矩阵，A_j表示聚类部件C_j在特征矩阵D_j上的表示系数，λ表示用于平衡目标函数中的正则化项；

再对候选语义部件集合中各聚类部件进行打分，打分的方法为：

步骤1-4)候选语义部件集合中各聚类部件的打分结果，选出分数高的前K个聚类部件组成最终语义部件集合来训练分类器得到对于每一个聚类部件的语义部件检测器；

2)检测步骤：

步骤2-1)对输入的待检测图像进行图像块划分，并提取划分后的图像块特征；

步骤2-2)将图像块特征输入语义部件检测器进行打分，待检测图像所有图像块的打分完成后得到整幅待检测图像的置信度谱；

步骤2-3)根据置信度谱选择候选窗口，对各候选窗口进行打分，打分方法为：

其中，F(W)表示当前窗口W的分数，表示计算括号内指定区域内像素值大于p的像素的个数。表示计算括号内指定区域内像素值小于p的像素的个数，p为待检测图像的置信度谱的均值，W_S代表当前窗口W的环绕窗口区域，W代表当前窗口所在区域；

步骤2-4)语义部件检测器将窗口分数大于门限值作为对象检测窗口，再除掉重叠率较大的对象检测窗口，得到最终对象检测窗口结果。

发明提出的基于稀疏表示的判别性语义部件聚类提纯得到最终语义部件集合，以及利用学习的语义部件检测器的对象置信度谱获取检测结果。

本发明的有益效果是，相对于现有基于部件的对象检测方法在对象模型训练过程中需要强监督信息且仅能对训练的特定类别对象进行检测，本发明语义部件学习过程完全自动化，且在整个部件学习过程中，仅需要对象的窗口标注信息，不需要提供更多的强监督部件信息；利用了不同类对象部件信息具有几何相似性的特点，基于不同类对象部件共享的方式，能对跨类别的对具有几何相似性的对象进行检测，提高了基于部件的对象检测算法的泛化性能。

附图说明

图1：实施例流程图；

图2：对象检测示例，每幅图像中虚线窗口区域代表发明方法检测的对象区域，浅灰度实线窗口区域表示准确的对象区域。

具体实施方式

如图1所示，基于判别性语义部件学习的对象检测包括训练阶段以及检测阶段：

在语义部件训练阶段，即给定包含多种对象类别的训练集合，在此训练集合的每幅图像中，仅提供图像内对象的窗口标注信息。整个部件训练集合记为其中I_i表示第i幅图像，B_i表示该幅图像中对象的窗口标注信息，N表示训练集合中所有图像的个数。发明从这个训练集合T中获取具有判别性的语义部件集合S。判别性在此指对在一定几何相似性下的语义部件间差异性的容忍。再利用获取出的语义部件集合S去学习判别性语义部件检测器。

对于部件训练集合T，对训练数据中每幅图像的对象区域首先进行规则的图像块划分，进一步对所有划分好后的部件训练数据进行聚类。在实施例中，可具体采用仿射传播聚类AP方法来获取初始的部件集合，记为其中C_q表示第q个聚类的部件集合，Q表示所有聚类集合的数目。在聚类方法的数据相似性矩阵构建中，其相似性描述采用卡方χ²距离测度，部件数据特征采用HOG特征描述符。在整个AP聚类过程中，聚类数目Q自动确定。完成部件聚类后，为保证聚类部件的在图像中出现重复性，发明方法中筛除聚类集合成员数目小于10的聚类集合(聚类部件)，进而得到候选的语义部件集合，10为经验值，可根据实际需要进行调整。相似性描述以及图像特征的提取也可根据需要使用现有的其它具体实现方式。

利用部件训练集合记为得到候选的语义部件集合后，为进一步提高获得部件集合的判别性能力，对初始的语义部件集又进行了提纯的处理。具体而言，提出了一种基于稀疏表示聚类提纯的方法。

给定由上一步得到的候选判别性语义部件集合，记为其中C_j表示第j个聚类部件，M(M<Q)表示候选判别性语义部件集合中各聚类部件的总数。基于稀疏表示的对候选集合Ψ的提纯方法能进一步增强语义部件集合的判别性能。方法主要原理是利用稀疏表示的重构性特点来对每一个聚类部件进行评估打分，其打分值越高，意味着对应该聚类集合的判别性能越强。这里的输入数据是当前的一个聚类部件，对当前部件集合数据重构的字典通过除了当前输入聚类部件之外的其它剩余的聚类部件数据构建而得。具体地，对第j个聚类部件C_j的表示系数通过如下优化形式求得：

其中，A′_j表示候选语义部件集合中第j个聚类部件的表示系数，arg min表示函数取最小值时A_j的值，||·||₂表示2范数，||·||₁表示L1范数；X_j表示第j个聚类部件构建的特征矩阵；其中每一列一个部件的HOG特征向量，n是C_j内所有部件的个数；D_j表示字典，即除去第j个聚类部件C_j之后，候选语义部件集合中其它的聚类部件构建的特征矩阵；A_j表示聚类部件C_j在特征矩阵D_j上的表示系数；λ表示用于平衡目标函数中的正则化项；

利用字典D_j对C_j的重构能力对语义部件集合进行打分。由于D_j表示除去第j个候选部件集合之外的所有候选语义部件集合，则可用D_j对X_j的重构能力来描述聚类部件C_j和集合中其它所有聚类部件之间的差异性。如果此重构值越大，则可表示当前聚类部件C_j的判别能力越强。最终，对每一个候选的语义部件集合，都可通过此稀疏重构的特征对其进行判别性的打分。进而依照此打分值，可对所有候选的语义部件集合进行由高到低的排序，排名越高的代表其判别能力越强。方法中，在排名后的候选语义部件集合中选择排名前K(K<M)个候选语义部件集合作为最终的判别性语义部件集合。

在通过以上得到判别性语义部件集合后，进一步利用得到的部件集合学习对应每个部件集合的部件检测器。具体而言，对每一个聚类部件，采用SVM分类器方法，以一对多的方式训练判别性的SVM。训练好的每一个SVM分类器，对应了一个语义部件集合的检测器。最终，学习到的语义部件检测器记为其中C_n对应第n个聚类部件，V_n表示由C_n训练出的部件检测器，K表示所有训练出的部件检测器的总数。

给定训练集合整个语义部件的训练过程完全自动化，最终学习得到一系列最具判别性的语义部件检测器。在发明方法的检测阶段，即给定一副输入图像，首先对该图像进行规则的网格划分，得到对应该输入图像一系列规则的图像块。进而对每一个图像块提取其HOG特征，并用训练得到的语义部件检测器对其进行打分，从而可得到当前整个图像的基于语义部件的置信度谱。方法中对该初步的部件置信度谱再做进一步的区域约束，最终得到对输入图像经部件检测器打分后精细化的置信度谱。具体采用一种有效图割的方法来获得当前图像的各个局部区域，并保证在得到的各个图像局部区域内的置信度值相同，即用局部区域内所有像素置信度值的均值计算。

在得到输入图像的置信度谱后，用选择性搜索方法对图像生成一系列候选的窗口。进而对每一个候选的对象窗口，用计算得到的置信度谱对其进行打分。对每一个窗口的打分值采用如下形式进行计算。

公式中F(W)表示对当前窗口W的打分值，表示计算指定区域内像素值大于p的像素的个数。表示计算在指定区域内像素值小于p的像素的个数。W_S代表当前窗口W的环绕窗口区域。方法中，环绕区域W_S定义为当前窗口沿着水平垂直四个方向向外扩展30个像素后的区域。对当前窗口W的打分值F(W)越高，表示当前窗口包含感兴趣对象的可能性越大。

对当前输入图像的所有候选窗口区域都采用如上的计算方法进行窗口打分，并用非最大抑制(NMS)方法移除掉重叠率较大的窗口，最终得到对输入图像的一系列对象检测窗口结果。

上述提到的仿射传播聚类AP方法、有效图割的方法以及选择性搜索方法均为公开的现有技术不在此赘述，本领域技术人员可以根据需要使用其它方法来进行实现图像特征聚类、图像分割、候选的窗口的选择。

如图2所示的检测示例可见，本发明所提出的基于判别性语义部件学习的对象检测方法查全率高，克服了现有基于部件模型对象检测方法仅能针对单一类对象进行检测。

Claims

1.一种基于判别性语义部件学习的对象检测方法，其特征在于，包括以下步骤：

1)训练步骤：

<mrow> <msubsup> <mi>A</mi> <mi>j</mi> <mo>&prime;</mo> </msubsup> <mo>=</mo> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <msub> <mi>A</mi> <mi>j</mi> </msub> </munder> <mo>|</mo> <mo>|</mo> <msub> <mi>X</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>D</mi> <mi>j</mi> </msub> <msub> <mi>A</mi> <mi>j</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mi>&lambda;</mi> <mo>|</mo> <mo>|</mo> <msub> <mi>A</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>1</mn> </msub> <mo>,</mo> </mrow>

其中，A′_j表示候选语义部件集合中第j个聚类部件的表示系数，表示函数取最小值时A_j的值，||·||₂表示2范数，||·||₁表示L1范数，X_j表示第j个聚类部件构建的特征矩阵，D_j表示除去第j个聚类部件C_j之后，候选语义部件集合中其它的聚类部件构建的特征矩阵，A_j表示聚类部件C_j在特征矩阵D_j上的表示系数，λ表示用于平衡目标函数中的正则化项；

2)检测步骤：

其中，F(W)表示当前窗口W的分数，表示计算括号内指定区域内像素值大于p的像素的个数，表示计算括号内指定区域内像素值小于p的像素的个数，p为待检测图像的置信度谱的均值，W_S代表当前窗口W的环绕窗口区域，W代表当前窗口所在区域；

2.如权利要求1所述一种基于判别性语义部件学习的对象检测方法，其特征在于，环绕窗口区域W_S为当前窗口沿着水平垂直四个方向向外扩展30个像素后的区域。

3.如权利要求1所述一种基于判别性语义部件学习的对象检测方法，其特征在于，步骤2-4)中使用非最大抑制NMS方法移除掉重叠率较大的窗口。

4.如权利要求1所述一种基于判别性语义部件学习的对象检测方法，其特征在于，所述分类器为支持向量机SVM分类器。

5.如权利要求1所述一种基于判别性语义部件学习的对象检测方法，其特征在于，所述特征为方向梯度直方图HOG特征。