CN104537392B - 一种基于判别性语义部件学习的对象检测方法 - Google Patents
一种基于判别性语义部件学习的对象检测方法 Download PDFInfo
- Publication number
- CN104537392B CN104537392B CN201410830356.8A CN201410830356A CN104537392B CN 104537392 B CN104537392 B CN 104537392B CN 201410830356 A CN201410830356 A CN 201410830356A CN 104537392 B CN104537392 B CN 104537392B
- Authority
- CN
- China
- Prior art keywords
- mrow
- semantic
- msub
- window
- msubsup
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供一种基于判别性语义部件学习的对象检测方法。本发明提出的基于稀疏表示的判别性语义部件聚类提纯得到最终语义部件集合,以及利用学习的语义部件检测器的对象置信度谱获取检测结果。相对于现有基于部件的对象检测方法在对象模型训练过程中需要强监督信息且仅能对训练的特定类别对象进行检测,本发明语义部件学习过程完全自动化,且在整个部件学习过程中,仅需要对象的窗口标注信息,不需要提供更多的强监督部件信息;利用了不同类对象部件信息具有几何相似性的特点,基于不同类对象部件共享的方式,能对跨类别的对具有几何相似性的对象进行检测,提高了基于部件的对象检测算法的泛化性能。
Description
技术领域
本发明提出一种基于判别性语义部件学习方法解决图像中对象的检测任务,是一种图像处理领域的新型技术。
背景技术
当今,随着计算机网络、多媒体技术及数字媒体设备的不断发展和成熟,人们在工作和日常生活中对数字图像的需求也大量增多。在海量的数字图像当中,为了对图像数据进一步分析处理的需要,人们往往需要在每幅图像中定位到感兴趣的对象区域,进而对象检测技术孕育而生。对象检测问题即是要设计有效的算法,对输入的图像数据中感兴趣的对象区域进行识别及定位。面对当前海量的图像数据信息,对象检测方法提供了有效的途径去分析理解图像中的信息内容,其为进一步对图像的分析处理提供了基础,极大提高了人们理解大量媒体数据信息的能力。对象检测技术受到了越来越多研究者的关注,是当前在计算机视觉领域内研究的关键课题之一。
目前,依据检测对象的类型,主要有两类对象检测方法。即特定对象类的检测方法和针对一般类对象的检测方法。其中,在特定对象检测方法中,当前采用部件模型的方法能取得较好的检测效果,也是目前在该领域内研究的重点。但目前此类型方法的不足之处是,其一是在具体检测中仅能够对当前训练好的对象类别进行检测,而对于新有的对象类别,即使对象间具有几何相似性也不能有效地对其进行检测识别。即使新有的对象类别有其对应的训练模型,但对新有的对象类别在模型训练阶段缺少充分的训练数据时,问题依然突出。其二是在采用此类模型的大多数方法中,为了更为有效地提高方法的检测性能,往往在模型训练阶段加入了对象及其各个语义部件的强监督信息,而此类信息的获取在实际应用中费时费力,较难获取。对象的各语义部件为对象的某个部位,比如腿部、头部。强监督信息为需要大量人工标定信息,比如,人工指定对象以及对象位置,人工指定语义部件的类别以及该部件的位置。所以基于这个原因也限制了此类方法的实际应用能力。另外,一般类对象检测方法利用了图像数据的低层视觉线索,如基于图像的分割以及显著方面的特性,其克服了特定对象检测方法仅能完成单一类对象检测问题,但该类方法的检测精度不如特定类对象检测方法。
发明内容
本发明所要解决的技术问题是,提供一种基于语义部件的,不需要提供更多的强监督部件信息的对象检测方法。
本发明为解决上述技术问题所采用的技术方案是,一种基于判别性语义部件学习的对象检测方法,其特征在于,包括以下步骤:
1)训练步骤:
步骤1-1)将多类具有几何相似性对象的图像组成训练集合,人工标注训练集合中每幅图像的对象窗口区域,对对象窗口区域进行图像块划分,对所有图像块提取特征后进行聚类得到初始语义部件集合;
步骤1-2)根据初始语义部件集合中各聚类部件中的成员部件数目对初始语义部件集合进行筛选,去掉成员部件数目小于预设最小值的聚类部件,得到候选语义部件集合;
步骤1-3)优化候选语义部件集合中各聚类部件的表示系数A′j:
其中,A′j表示候选语义部件集合中第j个聚类部件的表示系数,arg min表示函数取最小值时Aj的值,||·||2表示2范数,||·||1表示L1范数,Xj表示第j个聚类部件构建的特征矩阵,Dj表示除去第j个聚类部件Cj之后,候选语义部件集合中其它的聚类部件构建的特征矩阵,Aj表示聚类部件Cj在特征矩阵Dj上的表示系数,λ表示用于平衡目标函数中的正则化项;
再对候选语义部件集合中各聚类部件进行打分,打分的方法为:
步骤1-4)候选语义部件集合中各聚类部件的打分结果,选出分数高的前K个聚类部件组成最终语义部件集合来训练分类器得到对于每一个聚类部件的语义部件检测器;
2)检测步骤:
步骤2-1)对输入的待检测图像进行图像块划分,并提取划分后的图像块特征;
步骤2-2)将图像块特征输入语义部件检测器进行打分,待检测图像所有图像块的打分完成后得到整幅待检测图像的置信度谱;
步骤2-3)根据置信度谱选择候选窗口,对各候选窗口进行打分,打分方法为:
其中,F(W)表示当前窗口W的分数,表示计算括号内指定区域内像素值大于p的像素的个数。表示计算括号内指定区域内像素值小于p的像素的个数,p为待检测图像的置信度谱的均值,WS代表当前窗口W的环绕窗口区域,W代表当前窗口所在区域;
步骤2-4)语义部件检测器将窗口分数大于门限值作为对象检测窗口,再除掉重叠率较大的对象检测窗口,得到最终对象检测窗口结果。
发明提出的基于稀疏表示的判别性语义部件聚类提纯得到最终语义部件集合,以及利用学习的语义部件检测器的对象置信度谱获取检测结果。
本发明的有益效果是,相对于现有基于部件的对象检测方法在对象模型训练过程中需要强监督信息且仅能对训练的特定类别对象进行检测,本发明语义部件学习过程完全自动化,且在整个部件学习过程中,仅需要对象的窗口标注信息,不需要提供更多的强监督部件信息;利用了不同类对象部件信息具有几何相似性的特点,基于不同类对象部件共享的方式,能对跨类别的对具有几何相似性的对象进行检测,提高了基于部件的对象检测算法的泛化性能。
附图说明
图1:实施例流程图;
图2:对象检测示例,每幅图像中虚线窗口区域代表发明方法检测的对象区域,浅灰度实线窗口区域表示准确的对象区域。
具体实施方式
如图1所示,基于判别性语义部件学习的对象检测包括训练阶段以及检测阶段:
在语义部件训练阶段,即给定包含多种对象类别的训练集合,在此训练集合的每幅图像中,仅提供图像内对象的窗口标注信息。整个部件训练集合记为其中Ii表示第i幅图像,Bi表示该幅图像中对象的窗口标注信息,N表示训练集合中所有图像的个数。发明从这个训练集合T中获取具有判别性的语义部件集合S。判别性在此指对在一定几何相似性下的语义部件间差异性的容忍。再利用获取出的语义部件集合S去学习判别性语义部件检测器。
对于部件训练集合T,对训练数据中每幅图像的对象区域首先进行规则的图像块划分,进一步对所有划分好后的部件训练数据进行聚类。在实施例中,可具体采用仿射传播聚类AP方法来获取初始的部件集合,记为其中Cq表示第q个聚类的部件集合,Q表示所有聚类集合的数目。在聚类方法的数据相似性矩阵构建中,其相似性描述采用卡方χ2距离测度,部件数据特征采用HOG特征描述符。在整个AP聚类过程中,聚类数目Q自动确定。完成部件聚类后,为保证聚类部件的在图像中出现重复性,发明方法中筛除聚类集合成员数目小于10的聚类集合(聚类部件),进而得到候选的语义部件集合,10为经验值,可根据实际需要进行调整。相似性描述以及图像特征的提取也可根据需要使用现有的其它具体实现方式。
利用部件训练集合记为得到候选的语义部件集合后,为进一步提高获得部件集合的判别性能力,对初始的语义部件集又进行了提纯的处理。具体而言,提出了一种基于稀疏表示聚类提纯的方法。
给定由上一步得到的候选判别性语义部件集合,记为其中Cj表示第j个聚类部件,M(M<Q)表示候选判别性语义部件集合中各聚类部件的总数。基于稀疏表示的对候选集合Ψ的提纯方法能进一步增强语义部件集合的判别性能。方法主要原理是利用稀疏表示的重构性特点来对每一个聚类部件进行评估打分,其打分值越高,意味着对应该聚类集合的判别性能越强。这里的输入数据是当前的一个聚类部件,对当前部件集合数据重构的字典通过除了当前输入聚类部件之外的其它剩余的聚类部件数据构建而得。具体地,对第j个聚类部件Cj的表示系数通过如下优化形式求得:
其中,A′j表示候选语义部件集合中第j个聚类部件的表示系数,arg min表示函数取最小值时Aj的值,||·||2表示2范数,||·||1表示L1范数;Xj表示第j个聚类部件构建的特征矩阵;其中每一列一个部件的HOG特征向量,n是Cj内所有部件的个数;Dj表示字典,即除去第j个聚类部件Cj之后,候选语义部件集合中其它的聚类部件构建的特征矩阵;Aj表示聚类部件Cj在特征矩阵Dj上的表示系数;λ表示用于平衡目标函数中的正则化项;
再对候选语义部件集合中各聚类部件进行打分,打分的方法为:
利用字典Dj对Cj的重构能力对语义部件集合进行打分。由于Dj表示除去第j个候选部件集合之外的所有候选语义部件集合,则可用Dj对Xj的重构能力来描述聚类部件Cj和集合中其它所有聚类部件之间的差异性。如果此重构值越大,则可表示当前聚类部件Cj的判别能力越强。最终,对每一个候选的语义部件集合,都可通过此稀疏重构的特征对其进行判别性的打分。进而依照此打分值,可对所有候选的语义部件集合进行由高到低的排序,排名越高的代表其判别能力越强。方法中,在排名后的候选语义部件集合中选择排名前K(K<M)个候选语义部件集合作为最终的判别性语义部件集合。
在通过以上得到判别性语义部件集合后,进一步利用得到的部件集合学习对应每个部件集合的部件检测器。具体而言,对每一个聚类部件,采用SVM分类器方法,以一对多的方式训练判别性的SVM。训练好的每一个SVM分类器,对应了一个语义部件集合的检测器。最终,学习到的语义部件检测器记为其中Cn对应第n个聚类部件,Vn表示由Cn训练出的部件检测器,K表示所有训练出的部件检测器的总数。
给定训练集合整个语义部件的训练过程完全自动化,最终学习得到一系列最具判别性的语义部件检测器。在发明方法的检测阶段,即给定一副输入图像,首先对该图像进行规则的网格划分,得到对应该输入图像一系列规则的图像块。进而对每一个图像块提取其HOG特征,并用训练得到的语义部件检测器对其进行打分,从而可得到当前整个图像的基于语义部件的置信度谱。方法中对该初步的部件置信度谱再做进一步的区域约束,最终得到对输入图像经部件检测器打分后精细化的置信度谱。具体采用一种有效图割的方法来获得当前图像的各个局部区域,并保证在得到的各个图像局部区域内的置信度值相同,即用局部区域内所有像素置信度值的均值计算。
在得到输入图像的置信度谱后,用选择性搜索方法对图像生成一系列候选的窗口。进而对每一个候选的对象窗口,用计算得到的置信度谱对其进行打分。对每一个窗口的打分值采用如下形式进行计算。
公式中F(W)表示对当前窗口W的打分值,表示计算指定区域内像素值大于p的像素的个数。表示计算在指定区域内像素值小于p的像素的个数。WS代表当前窗口W的环绕窗口区域。方法中,环绕区域WS定义为当前窗口沿着水平垂直四个方向向外扩展30个像素后的区域。对当前窗口W的打分值F(W)越高,表示当前窗口包含感兴趣对象的可能性越大。
对当前输入图像的所有候选窗口区域都采用如上的计算方法进行窗口打分,并用非最大抑制(NMS)方法移除掉重叠率较大的窗口,最终得到对输入图像的一系列对象检测窗口结果。
上述提到的仿射传播聚类AP方法、有效图割的方法以及选择性搜索方法均为公开的现有技术不在此赘述,本领域技术人员可以根据需要使用其它方法来进行实现图像特征聚类、图像分割、候选的窗口的选择。
如图2所示的检测示例可见,本发明所提出的基于判别性语义部件学习的对象检测方法查全率高,克服了现有基于部件模型对象检测方法仅能针对单一类对象进行检测。
Claims (5)
1.一种基于判别性语义部件学习的对象检测方法,其特征在于,包括以下步骤:
1)训练步骤:
步骤1-1)将多类具有几何相似性对象的图像组成训练集合,人工标注训练集合中每幅图像的对象窗口区域,对对象窗口区域进行图像块划分,对所有图像块提取特征后进行聚类得到初始语义部件集合;
步骤1-2)根据初始语义部件集合中各聚类部件中的成员部件数目对初始语义部件集合进行筛选,去掉成员部件数目小于预设最小值的聚类部件,得到候选语义部件集合;
步骤1-3)优化候选语义部件集合中各聚类部件的表示系数A′j:
<mrow>
<msubsup>
<mi>A</mi>
<mi>j</mi>
<mo>&prime;</mo>
</msubsup>
<mo>=</mo>
<mi>arg</mi>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<msub>
<mi>A</mi>
<mi>j</mi>
</msub>
</munder>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>X</mi>
<mi>j</mi>
</msub>
<mo>-</mo>
<msub>
<mi>D</mi>
<mi>j</mi>
</msub>
<msub>
<mi>A</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mi>&lambda;</mi>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>A</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>1</mn>
</msub>
<mo>,</mo>
</mrow>
其中,A′j表示候选语义部件集合中第j个聚类部件的表示系数,表示函数取最小值时Aj的值,||·||2表示2范数,||·||1表示L1范数,Xj表示第j个聚类部件构建的特征矩阵,Dj表示除去第j个聚类部件Cj之后,候选语义部件集合中其它的聚类部件构建的特征矩阵,Aj表示聚类部件Cj在特征矩阵Dj上的表示系数,λ表示用于平衡目标函数中的正则化项;
再对候选语义部件集合中各聚类部件进行打分,打分的方法为:
步骤1-4)候选语义部件集合中各聚类部件的打分结果,选出分数高的前K个聚类部件组成最终语义部件集合来训练分类器得到对于每一个聚类部件的语义部件检测器;
2)检测步骤:
步骤2-1)对输入的待检测图像进行图像块划分,并提取划分后的图像块特征;
步骤2-2)将图像块特征输入语义部件检测器进行打分,待检测图像所有图像块的打分完成后得到整幅待检测图像的置信度谱;
步骤2-3)根据置信度谱选择候选窗口,对各候选窗口进行打分,打分方法为:
<mrow>
<mi>F</mi>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mi>N</mi>
<mi>p</mi>
<mo>+</mo>
</msubsup>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<mi>N</mi>
<mi>p</mi>
<mo>-</mo>
</msubsup>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mfrac>
<mrow>
<msubsup>
<mi>N</mi>
<mi>p</mi>
<mo>+</mo>
</msubsup>
<mrow>
<mo>(</mo>
<msub>
<mi>W</mi>
<mi>S</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<mi>N</mi>
<mi>p</mi>
<mo>-</mo>
</msubsup>
<mrow>
<mo>(</mo>
<msub>
<mi>W</mi>
<mi>S</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中,F(W)表示当前窗口W的分数,表示计算括号内指定区域内像素值大于p的像素的个数,表示计算括号内指定区域内像素值小于p的像素的个数,p为待检测图像的置信度谱的均值,WS代表当前窗口W的环绕窗口区域,W代表当前窗口所在区域;
步骤2-4)语义部件检测器将窗口分数大于门限值作为对象检测窗口,再除掉重叠率较大的对象检测窗口,得到最终对象检测窗口结果。
2.如权利要求1所述一种基于判别性语义部件学习的对象检测方法,其特征在于,环绕窗口区域WS为当前窗口沿着水平垂直四个方向向外扩展30个像素后的区域。
3.如权利要求1所述一种基于判别性语义部件学习的对象检测方法,其特征在于,步骤2-4)中使用非最大抑制NMS方法移除掉重叠率较大的窗口。
4.如权利要求1所述一种基于判别性语义部件学习的对象检测方法,其特征在于,所述分类器为支持向量机SVM分类器。
5.如权利要求1所述一种基于判别性语义部件学习的对象检测方法,其特征在于,所述特征为方向梯度直方图HOG特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410830356.8A CN104537392B (zh) | 2014-12-26 | 2014-12-26 | 一种基于判别性语义部件学习的对象检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410830356.8A CN104537392B (zh) | 2014-12-26 | 2014-12-26 | 一种基于判别性语义部件学习的对象检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104537392A CN104537392A (zh) | 2015-04-22 |
CN104537392B true CN104537392B (zh) | 2017-10-17 |
Family
ID=52852912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410830356.8A Active CN104537392B (zh) | 2014-12-26 | 2014-12-26 | 一种基于判别性语义部件学习的对象检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104537392B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9811765B2 (en) * | 2016-01-13 | 2017-11-07 | Adobe Systems Incorporated | Image captioning with weak supervision |
CN108520529A (zh) * | 2018-03-30 | 2018-09-11 | 上海交通大学 | 基于卷积神经网络的可见光和红外视频目标跟踪方法 |
CN109934113B (zh) * | 2019-02-15 | 2023-05-26 | 中南大学 | 一种教室人数清点方法及其系统、装置、存储介质 |
CN110598776A (zh) * | 2019-09-03 | 2019-12-20 | 成都信息工程大学 | 一种基于类内视觉模式分享的图像分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103268607A (zh) * | 2013-05-15 | 2013-08-28 | 电子科技大学 | 一种弱监督条件下的共同对象检测方法 |
CN103871077A (zh) * | 2014-03-06 | 2014-06-18 | 中国人民解放军国防科学技术大学 | 一种道路车辆监控视频中的关键帧提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8705866B2 (en) * | 2010-12-07 | 2014-04-22 | Sony Corporation | Region description and modeling for image subscene recognition |
-
2014
- 2014-12-26 CN CN201410830356.8A patent/CN104537392B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103268607A (zh) * | 2013-05-15 | 2013-08-28 | 电子科技大学 | 一种弱监督条件下的共同对象检测方法 |
CN103871077A (zh) * | 2014-03-06 | 2014-06-18 | 中国人民解放军国防科学技术大学 | 一种道路车辆监控视频中的关键帧提取方法 |
Non-Patent Citations (3)
Title |
---|
Automated co-superpixel generation via graph matching;Yurui Xie.etc;《Springer》;20131206;第753-763页 * |
Semantic superpixel extraction via a discriminative sparse representation;Yurui Xie.etc;《Springer》;20130731;第1247-1268页 * |
语义对象分割方法研究;陈天堂;《中国优秀硕士学位论文全文数据库》;20130715;I138-900 * |
Also Published As
Publication number | Publication date |
---|---|
CN104537392A (zh) | 2015-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344736B (zh) | 一种基于联合学习的静态图像人群计数方法 | |
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
Li et al. | Localizing and quantifying damage in social media images | |
CN106897738B (zh) | 一种基于半监督学习的行人检测方法 | |
CN106022300B (zh) | 基于级联深度学习的交通标志识别方法和系统 | |
CN106408030B (zh) | 基于中层语义属性和卷积神经网络的sar图像分类方法 | |
Wang et al. | Dairy goat detection based on Faster R-CNN from surveillance video | |
CN111275688A (zh) | 基于注意力机制的上下文特征融合筛选的小目标检测方法 | |
CN108985380B (zh) | 一种基于聚类集成的转辙机故障识别方法 | |
CN107346420A (zh) | 一种基于深度学习的自然场景下文字检测定位方法 | |
Zhang et al. | Unsupervised difference representation learning for detecting multiple types of changes in multitemporal remote sensing images | |
CN103984959A (zh) | 一种基于数据与任务驱动的图像分类方法 | |
CN106023159B (zh) | 设施蔬菜叶部病斑图像分割方法及系统 | |
CN104537392B (zh) | 一种基于判别性语义部件学习的对象检测方法 | |
CN106127197A (zh) | 一种基于显著标签排序的图像显著性目标检测方法 | |
CN109522961A (zh) | 一种基于字典深度学习的半监督图像分类方法 | |
CN106022254A (zh) | 图像识别技术 | |
CN110569843A (zh) | 一种矿井目标智能检测与识别方法 | |
CN111325153B (zh) | 一种基于多维数据的学生行为特征智能分析方法 | |
CN109766823A (zh) | 一种基于深层卷积神经网络的高分辨率遥感船舶检测方法 | |
CN112613428B (zh) | 基于平衡损失的Resnet-3D卷积牛视频目标检测方法 | |
CN109033944A (zh) | 一种全天空极光图像分类与关键局部结构定位方法及系统 | |
CN109086794B (zh) | 一种基于t-lda主题模型的驾驶行为模式识方法 | |
CN105404865A (zh) | 基于概率态受限玻尔兹曼机级联的人脸检测方法 | |
CN110458022A (zh) | 一种基于域适应的可自主学习目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |