CN102999764B - 图像中基于聚类的多物体检测方法 - Google Patents
图像中基于聚类的多物体检测方法 Download PDFInfo
- Publication number
- CN102999764B CN102999764B CN201210426347.3A CN201210426347A CN102999764B CN 102999764 B CN102999764 B CN 102999764B CN 201210426347 A CN201210426347 A CN 201210426347A CN 102999764 B CN102999764 B CN 102999764B
- Authority
- CN
- China
- Prior art keywords
- vision
- idiom
- prototype
- cluster centre
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Image Analysis (AREA)
Abstract
一种基于聚类的多物体检测方法,属于模式识别技术领域。步骤如下:(1)统计图像中物体与视觉习语之间的关系并聚类,并使用局部模型得到物体和视觉习语的窗口;(2)根据原型构建空间关系特征,并使用结构化支撑向量机进行训练和测试。本发明优于已有的各种物体检测方法,且计算复杂度略有降低。
Description
技术领域
本发明涉及的是一种多物体检测的方法,特别涉及一种图像中基于聚类的多物体检测方,属于模式识别技术领域。
背景技术
在传统的物体检测方案中,很多都是基于图像的局部特征进行识别,而并没有考虑图像中物体与物体之间的关系。这种方式依赖于物体本身的不变性,对于姿态可变的物体检测效果较差。在考虑了空间关系的物体检测方案中,首先通过局部特征识别得到了图像中物体可能存在的位置,并标记为窗口,为窗口指定权重。然后定义一系列物体和物体间的空间关系,并对图像中存在的这种空间关系进行鉴别。通过空间关系来提高某些窗口的权重。最终权重大于阈值的窗口将被标记为检测到的物体。空间关系在多种物体检测方案中都显示出了良好的效果。
经对现有技术文献的检索发现,Desai等人在IEEE12thInternationalConferenceonComputerVision,2009(IEEE第12届国际计算机视觉大会)上发表的文章“Discriminativemodelsformulti-classobjectlayout”(“多类物体布局的判别式模型”)中,提出了一种新的空间关系模型。这种空间模型预先定义了7种空间关系,并使用了结构化支撑向量机(SSVM)进行训练和测试。另外,Sadeghi等人在IEEEConferenceonComputerVisionandPatternRecognition,2011(IEEE国际计算机视觉与模式识别会议,2011年)上发表的文章“Recognitionusingvisualphrases”(“采用视觉习语进行识别”)中,提出了采用视觉习语提升物体检测结果的方案。视觉习语是图像中的物体按照一定的空间关系进行组合而形成的,该方案定义了视觉习语和物体之间的3种空间关系,并采用这3种空间关系优化物体检测的结果。
这两种方法均存在一定缺陷。由于空间关系的定义没有参考图像中物体的分布情况,所以一些空间关系对于物体检测是无效的,甚至会恶化物体检测的结果。这种预先定义的空间关系并不能很好的表达图像中真实存在的空间关系。另,在第一种方法中并没有利用视觉习语,但视觉习语对于物体检测的结果是有很大帮助的。在第二种方法中的空间关系定义过于简单,从而没有有效提升物体的检测结果。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于聚类的多物体检测方法(SCP)。使其不仅充分利用了图像中物体之间的空间关系;而且可以基于图像自身的特性,自动寻找并定义最佳的空间关系;同时有效的提升了物体检测的结果。
为实现上述目的,本发明采用以下技术方案:
一种基于聚类的多物体检测方法,包括步骤如下:
(1)统计图像中物体与视觉习语之间的关系并聚类,并使用局部模型得到物体和视觉习语的窗口;
选择图像数据库中的一类物体,对于每一个物体-视觉习语组合,计算物体的中心点到视觉习语中心点的相对水平位置和垂直位置,然后对相对位置做归一化;采用健壮的聚类方法对相对水平位置和相对垂直位置进行聚类,得到的聚类中心为每个原型(即每一个聚类称为一种空间关系的原型)的中心,而方法中每个聚类中心的半径为每个原型的半径;同时,使用基于图像局部特征的检测方法对图像进行检测,得到一系列物体和视觉习语的窗口及窗口的可信度;
(2)根据原型构建空间关系特征,并使用结构化支撑向量机进行训练和测试;
①最佳参数的选取:使用交叉验证的方法选择最优参数λ和参数k,k表示物体-视觉习语组合原型的最大数量;
②构建空间关系特征:根据(1)得到的物体及视觉习语的窗口,以及(1)得到的原型,采用最优参数λ和参数k,对每幅图像计算其空间关系特征;
③结构化支撑向量机学习和判别:使用结构化的支撑向量机学习空间关系特征每一维的权重,然后在测试集合中对空间关系特征进行判别,根据特征向量计算出正确的窗口;对图像中的每一类物体,均做以上的学习和判别步骤,然后去掉视觉习语的检测结果,再进一步融合为最终的检测结果。
优选地,所述健壮的聚类方法,步骤如下:首先使用普通的聚类方法得到聚类中心,然后对每一个聚类中心均初始化一个半径。对于二维空间中的每个点,均搜索离它最近的聚类中心,如果点和聚类中心的距离大于此聚类中心的半径,则相应增加聚类中心的半径。而若点和聚类中心的距离小于聚类中心的半径,则不对半径进行任何修改。反复迭代直到85%的点和最近聚类中心的距离小于聚类中心的半径。随后删除半径内仅有少量点的聚类中心,剩下的聚类中心则为输出结果。
优选地,所述的构建空间关系特征,具体为:所述空间特征由两部分组成,前一部分的第(i-1)*N*k+(j-1)*k+l维计算方法如下式:
其中M表示物体类的数量,N表示视觉习语类的数量,而k表示物体-视觉习语组合原型的最大数量;λ为选取的参数,且满足>0;i表示物体的类为第i类,而j表示视觉习语的类为第j类;dt(l)表示在第t个组合中,物体和视觉习语之间的相对位置到第l个原型的欧氏距离,且I(t,l)=代指第t个组合中,物体和视觉习语之间的相对位置和第l个原型的距离dt(l)小于第l个原型的半径,否则I(t,l)=0;表示第t个组合与第l个原型的相似度,除以对相似度进行归一化;图像中的所有t和第l个原型的相似度之和作为特征的第(i-1)*N*k+(j-1)*k+l维;
对于后一部分的第(i-1)*2+1维为第i类物体窗口可信度之和,而第(i-1)*2+2维为1;且向量的第M*2+(j-1)*2+1维为第j类视觉习语窗口可信度之和,而第(i-1)*2+2维为1,两部分组合起来即构成最终的空间关系特征。
与现有的多物体检测方法相比,本发明方法充分利用了物体和视觉习语之间的空间关系,这也是本发明的核心思想;本发明充分利用了物体和视觉习语之间相对位置呈现出的聚类特性,采用这种聚类特性优化了物体检测的最终结果;本发明还采用了一种健壮的聚类方法,实验证明对于描述物体和视觉习语之间的空间关系非常有效。本发明优于已有的各种物体检测方法,且运算复杂度有所降低。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,本实施例可以分为以下几个步骤。
(1)统计图像中物体与视觉习语之间的关系并聚类,并使用局部模型得到物体和视觉习语的窗口
由于视觉习语一般包含两种物体,且这两种物体相比于视觉习语的相对位置基本固定。因此统计视觉习语中包含物体的相对水平位置和垂直位置。相对水平位置和相对垂直位置均使用视觉习语的中心距离物体中心的欧氏距离进行计算,且由于视觉习语的大小各有不同,对相对位置做了归一化,即将相对水平位置除以视觉习语的宽度,且相对竖直位置除以视觉习语的高度。这样对于任意的一个物体-视觉习语组合,均可以得到一系列归一化后的相对水平位置和垂直位置。
在本实施例中,对于每一个物体-视觉习语组合,其相对水平位置和相对垂直位置在二维空间上是一个点,而这些点呈现出了明显的聚类特性。将每一个聚类称为一种空间关系的原型(以下简称原型),采用聚类方法得到每一个物体视觉习语组合的原型。然而常规的聚类方法会将二维空间中孤立的点也纳入计算中,这些点一般是由数据集中的噪声引起的,如果聚类时考虑这些点会导致得到的聚类中心有较大的偏移。因此本实施例使用了一种健壮的聚类方法,这种方法忽略了孤立的点,从而得到了较好的聚类效果。健壮的聚类方法的核心思想可描述如下:首先使用普通的聚类方法得到聚类中心,然后对每一个聚类中心均初始化一个半径。对于二维空间中的每个点,均搜索离它最近的聚类中心,如果点和聚类中心的距离大于此聚类中心的半径,则相应增加聚类中心的半径。而若点和聚类中心的距离小于聚类中心的半径,则不对半径进行任何修改。反复迭代直到85%的点和最近聚类中心的距离小于聚类中心的半径。随后,半径内仅有少量点的聚类中心是受到噪声影响的,因此将其删除。而剩下的聚类中心则为寻找到的原型。与普通的聚类方法相比,本实施例聚类方法对于噪声的抵抗性能更好,且聚类的结果更加符合空间关系语义。
表1采用不同聚类方式进行物体检测的最终结果比较
表1给出了分别采用常规聚类方法(K-means)方法和本实施例方法(健壮的聚类方法)时,物体检测的最终结果比较。测试数据集为2769张数字图像,对每一个物体类均超过120个样本。本实施例使用了聚类得到的原型来构造空间关系特征,并使用SSVM进行物体检测。最终的检测结果使用平均准确率(AP)进行衡量。从表1中可以看出,与常规的聚类方法相比,健壮的聚类方法可以明显的提升物体检测的结果,最终结果相比常规聚类方法提升了15%~70%。
同时,可以使用基于图像局部特征的检测方法对图像中的每一类物体和每一个视觉习语进行检测,从而得到一系列物体和视觉习语的窗口,以及窗口检测结果是正确的可信度。
(2)根据原型构建空间关系特征,并使用结构化支撑向量机进行训练和测试
本实施例使用基于图像局部特征的检测方法对图像中的每一类物体和每一个视觉习语进行检测,从而得到一系列物体和视觉习语的潜在位置,称为“窗口”,和每个窗口的类别,即窗口中是哪一类的物体或视觉习语,以及窗口是正确检测的可信度。根据聚类得到的原型,可以根据图像中的物体位置构建空间关系特征。根据这种特征可以在训练数据集上采用结构化支撑向量机学习特征中每个维度的权重,并在测试数据集上根据原型和特征中每个维度的权重,对图像中窗口的可信度进行修正。最终,可信度大于或等于阈值的窗口则被标记为最终的检测结果。
在本实施例中,基于根据聚类得到的原型和使用局部特征检测得到的窗口构建空间关系特征,并使用结构化支撑向量机进行训练和测试。整个过程包括选择最佳参数、构建空间关系特征、结构化支撑向量机学习和判别三个部分。
①选择最佳参数
在本实施例中使用了交叉验证的方法选择最优参数λ和参数k。交叉验证的过程如下所示:
首先取多个参数λ和参数k的组合。将图像的训练集合随机均分为5份,取其中第1份作为交叉验证的测试集,剩余4份作为交叉验证的训练集。对交叉验证的训练集进行训练,再在测试集上测试得到结果。然后依次取下一份作为测试集,其余为训练集进行训练和测试。直到取第五份完成后停止。将5次得到的结果,计算它们的平均准确率(AP)后,取5个AP的均值作为本次交叉验证实验最终输出。最终输出最高的交叉验证实验中使用的参数λ和参数k就是最优的参数。
②构建空间关系特征
在本实施例中,对于每一幅图像均计算其空间关系特征。空间关系特征由两部分组成,一部分表示了图像中所有物体-视觉习语组合之间的空间关系,标记为另一部分表示了图像中所有物体和视觉习语窗口在局部模型的可信度,标记为
对于前一部分计算方法如下:令M表示物体类的数量,N表示视觉习语类的数量,而k表示物体-视觉习语组合原型的最大数量,则为长度为(M*N*k)的向量。其中第(i-1)*N*k+(j-1)*k+l维的意义如下式所示:
其中,λ为选取的参数,且满足λ>0。i表示物体的类为第i类,而j表示视觉习语的类为第j类。而的第(i-1)*N*k+(j-1)*k+l维代指图像中所有的以第i个物体和第j个视觉习语的组合构成的特征。若图像中的窗口存在T个这样的组合,则dt(l)表示在第t个组合中,物体和视觉习语之间的相对位置到第l个原型的欧氏距离。且I(t,l)=1代指第t个组合中,物体和视觉习语之间的相对位置和第l个原型的距离dt(l)小于第l个原型的半径;否则I(t,l)=0。因此,表示第t个组合与第l个原型的相似度。对于所有的相似度均除以这样可以使第t个组合对于所有的原型,相似度之和为1.对于图像中的所有的t,均计算它和第l个原型的相似度,并将其相加作为特征的第(i-1)*N*k+(j-1)*k+l维。
对于后一部分计算方法如下:令M表示物体类的数量,N表示视觉习语类的数量,则为一长度为(M+N)*2的向量。向量的第(i-1)*2+1维为第i类物体窗口可信度之和,而第(i-1)*2+2维为1;且向量的第M*2+(j-1)*2+1维为第j类视觉习语窗口可信度之和,而第(i-1)*2+2维为1。
将两部分组合起来即构成最终的空间关系特征。
③结构化支撑向量机学习和判别
本实施例选定图像中的一类物体,并和所有包含该物体的视觉习语组成物体-视觉习语组合,计算其空间关系得到空间关系特征。根据选定的物体,计算出每幅图像的空间关系特征。在训练集合上使用结构化的支撑向量机(SSVM)学习空间关系特征每一维的权重,使得符合真实值的窗口全部标记为正确时,权重向量乘以特征向量的值为最大。然后在测试集合中对空间关系特征进行判别,找到权重向量乘以特征向量值为最大时的特征向量,并根据特征向量计算出正确的窗口。
对图像中的每一类物体,均做以上的学习和判别步骤,然后去掉视觉习语的检测结果,再进一步融合为最终的检测结果。
本实施例用平均准确率(AP)来衡量物体检测的最终结果。AP通过一组对应的准确率-召回率而计算得到。其中准确率指最终的检测窗口中,检测正确的个数所占的百分比;而召回率指在最终的图像中,有多少百分比的物体被检测了出来。AP的计算公式如下:
其中,pre(i)代指召回率为i时的准确率,AP代指最终的结果。
本实施例的物体检测方法大大优于其他的物体检测方法。为了对比,这里给出了局部模型(Deform)、仅使用SSVM的空间模型(SSVM)和仅使用视觉习语和简单空间关系的模型(VP)以及本发明的检测方法(SCP)。所用数据集为2769张数字图像,对每一个物体类均超过120个样本。在数据集上定义了8个物体类,分别为bicycle、bottle、car、chair、dog、horse、person、sofa。分别使用上述4种方法进行训练和测试,得到的结果如表2所示。
表2各种物体检测方法的结果比较
从表2可以得出结论,本发明方法对于图像中的大多物体检测的结果都很好。与现有的物体检测方法相比,本发明:(1)从数据中发掘空间关系,从而充分利用了图像中物体间的空间关系;(2)只考虑物体和相关的视觉习语,因此计算复杂度较小。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (3)
1.一种图像中基于聚类的多物体检测方法,其特征是,步骤如下:
(1)统计图像中物体与视觉习语之间的关系并聚类,并使用局部模型得到物体和视觉习语的窗口;
选择图像数据库中的一类物体,对于每一个物体-视觉习语组合,计算物体的中心点到视觉习语中心点的水平位置和垂直位置,然后对水平位置和垂直位置做归一化;采用健壮的聚类方法对水平位置和垂直位置进行聚类,得到的聚类中心为每个原型的中心,而方法中每个聚类中心的半径为每个原型的半径;同时,使用基于图像局部特征的检测方法对图像进行检测,得到一系列物体和视觉习语的窗口及窗口的可信度;
(2)根据原型构建空间关系特征,并使用结构化支撑向量机进行训练和测试;
①最佳参数的选取:使用交叉验证的方法选择最优参数λ和参数k,k表示物体-视觉习语组合原型的最大数量;
②构建空间关系特征:根据(1)得到的物体及视觉习语的窗口,以及(1)得到的原型,采用最优参数λ和参数k,对每幅图像计算其空间关系特征;
③结构化支撑向量机学习和判别:使用结构化的支撑向量机学习空间关系特征每一维的权重,然后在测试集合中对空间关系特征进行判别,根据特征向量计算出正确的窗口;对图像中的每一类物体,均做以上的学习和判别步骤,然后去掉视觉习语的检测结果,再进一步融合为最终的检测结果。
2.根据权利要求1所述的图像中基于聚类的多物体检测方法,其特征是,所述健壮的聚类方法,步骤如下:首先使用普通的聚类方法得到聚类中心,然后对每一个聚类中心均初始化一个半径;对于二维空间中的每个点,均搜索离它最近的聚类中心,如果点和聚类中心的距离大于此聚类中心的半径,则相应增加聚类中心的半径;而若点和聚类中心的距离小于聚类中心的半径,则不对半径进行任何修改;反复迭代直到85%的点和最近聚类中心的距离小于聚类中心的半径,随后删除半径内仅有少量点的聚类中心,剩下的聚类中心则为输出结果。
3.根据权利要求1或2所述的图像中基于聚类的多物体检测方法,其特征是,所述的构建空间关系特征,具体为:所述空间关系特征由两部分组成,前一部分的第(i-1)*N*k+(j-1)*k+l维计算方法如下式:
其中M表示物体类的数量,N表示视觉习语类的数量,而k表示物体-视觉习语组合原型的最大数量;λ为选取的参数,且满足λ>0;i表示物体的类为第i类,而j表示视觉习语的类为第j类;dt(l)表示在第t个组合中,物体和视觉习语之间的水平位置、垂直位置到第l个原型的欧氏距离,且I(t,l)=1代指第t个组合中,物体和视觉习语之间的水平位置、垂直位置和第l个原型的距离dt(l)小于第l个原型的半径,否则I(t,l)=0;表示第t个组合与第l个原型的相似度,除以对相似度进行归一化;图像中的所有t和第l个原型的相似度之和作为特征的第(i-1)*N*k+(j-1)*k+l维;
对于后一部分的第(i-1)*2+1维为第i类物体窗口可信度之和,而第(i-1)*2+2维为1;且向量的第M*2+(j-1)*2+1维为第j类视觉习语窗口可信度之和,而第(i-1)*2+2维为1,两部分组合起来即构成最终的空间关系特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210426347.3A CN102999764B (zh) | 2012-10-30 | 2012-10-30 | 图像中基于聚类的多物体检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210426347.3A CN102999764B (zh) | 2012-10-30 | 2012-10-30 | 图像中基于聚类的多物体检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102999764A CN102999764A (zh) | 2013-03-27 |
CN102999764B true CN102999764B (zh) | 2016-01-13 |
Family
ID=47928313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210426347.3A Expired - Fee Related CN102999764B (zh) | 2012-10-30 | 2012-10-30 | 图像中基于聚类的多物体检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102999764B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574527B (zh) * | 2015-12-14 | 2019-03-29 | 北京工业大学 | 一种基于局部特征学习的快速物体检测方法 |
CN108664848B (zh) * | 2017-03-30 | 2020-12-25 | 杭州海康威视数字技术股份有限公司 | 图像目标的识别方法及装置 |
CN107369202B (zh) * | 2017-07-10 | 2020-04-21 | 北京航空航天大学 | 姿势引导的跨类别三维模型组合建模方法及装置 |
CN111325243B (zh) * | 2020-02-03 | 2023-06-16 | 天津大学 | 一种基于区域注意力学习机制的视觉关系检测方法 |
-
2012
- 2012-10-30 CN CN201210426347.3A patent/CN102999764B/zh not_active Expired - Fee Related
Non-Patent Citations (3)
Title |
---|
《Hough Transform for Line Recognition:Complexity of Evidence Accumulation and Cluster Detection》;THOMAS RISSE;《COMPUTER VISION》;19891231;第327-345页 * |
《无源时差定位系统的静止目标聚类检测算法》;袁罡,陈鲸;《电子与信息学报》;20100331;第32卷(第3期);第728-731页 * |
《机器视觉中的聚类检测新方法》;韩彦芳;《中国优秀博士学位论文全文数据库》;20061231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN102999764A (zh) | 2013-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443798B (zh) | 一种基于磁共振图像的自闭症检测方法、装置及系统 | |
Everingham et al. | The pascal visual object classes challenge: A retrospective | |
Li et al. | A Nonparametric Statistical Approach to Clustering via Mode Identification. | |
CN105893936B (zh) | 一种基于hoirm和局部特征融合的行为识别方法 | |
CN105894047A (zh) | 一种基于三维数据的人脸分类系统 | |
CN105205501B (zh) | 一种多分类器联合的弱标注图像对象检测方法 | |
CN106909946A (zh) | 一种多模态融合的商品分类系统 | |
CN107590458B (zh) | 垂直式影像人流计数的性别与年龄辨识方法 | |
CN108108354B (zh) | 一种基于深度学习的微博用户性别预测方法 | |
CN104008375B (zh) | 基于特征融合的集成人脸识别方法 | |
CN103473545B (zh) | 一种基于多特征的文本图像相似度度量方法 | |
CN106529504B (zh) | 一种复合时空特征的双模态视频情感识别方法 | |
CN105631436A (zh) | 基于随机森林的级联位置回归用于人脸对齐的方法 | |
CN102999764B (zh) | 图像中基于聚类的多物体检测方法 | |
CN103810252A (zh) | 一种基于群稀疏特征选择的图像检索方法 | |
CN105224937A (zh) | 基于人体部件位置约束的细粒度语义色彩行人重识别方法 | |
CN102663446A (zh) | 一种医学病灶图像的词袋模型的构建方法 | |
CN102855488A (zh) | 三维手势识别方法和系统 | |
CN103678703A (zh) | 一种借助图随机游走的开放类别命名实体抽取方法及装置 | |
CN104966075A (zh) | 一种基于二维判别特征的人脸识别方法与系统 | |
CN106780422A (zh) | 一种基于Choquet积分的显著图融合方法 | |
CN101393608A (zh) | 一种基于流形距离分析的视觉对象识别方法和装置 | |
CN112836658B (zh) | 基于迁移学习和稀疏损失函数的人脸识别方法 | |
CN105740879A (zh) | 基于多模态判别分析的零样本图像分类方法 | |
CN105046286A (zh) | 基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160113 Termination date: 20181030 |
|
CF01 | Termination of patent right due to non-payment of annual fee |