CN103020658A - 二维图像中的物体识别方法 - Google Patents
二维图像中的物体识别方法 Download PDFInfo
- Publication number
- CN103020658A CN103020658A CN2012105930544A CN201210593054A CN103020658A CN 103020658 A CN103020658 A CN 103020658A CN 2012105930544 A CN2012105930544 A CN 2012105930544A CN 201210593054 A CN201210593054 A CN 201210593054A CN 103020658 A CN103020658 A CN 103020658A
- Authority
- CN
- China
- Prior art keywords
- robust
- image
- space
- appearance features
- training image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000012549 training Methods 0.000 claims abstract description 122
- 230000007246 mechanism Effects 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims abstract description 12
- 238000005070 sampling Methods 0.000 claims description 14
- 230000000007 visual effect Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000007689 inspection Methods 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开一种基于视觉机制的鲁棒物体结构学习方法的物体识别方法,包括训练和识别两个过程,包括步骤:对已经标好类别和位置的图像中的目标物体进行视觉机制的信息反馈,并训练得到反馈模型;对待识别图像中的物体进行物体类别和物体位置的初步预测,利用训练得到的反馈模型,鲁棒地学习目标物体的结构信息。由于鲁棒的物体结构和视觉机制对物体识别具有不变性,因此本发明采用基于视觉机制的鲁棒物体结构学习方法来提高物体识别的精度,并且本发明准确识别场景中目标的类别和位置,能广泛应用于安全检验,网络搜索和数字娱乐等。
Description
技术领域
本发明属于模式识别领域和计算机视觉领域,具体涉及二维图像中的物体识别方法,特别涉及一种基于视觉机制的鲁棒物体结构学习方法的物体识别方法。
背景技术
近些年来,研究者们致力于寻找一种不变的物体表达。大量生理学研究表明,鲁棒的物体结构可以对物体表达的不变性起到重要的作用。同时,研究者们还发现,物体表达的不变性也可以通过视觉机制来得到验证。因此,可以想象,鲁棒的物体结构和视觉机制间存在着密切的联系。
此外,心理学实验表明,鲁棒的物体结构可以通过物体的组成部件来描述,而这种部件由两种属性组成:物体的表观特征和物体的空间配置。已有许多基于特征和空间的方法来描述这两种属性。其中,基于表观特征的方法主要集中在描述物体的表观特征,例如流行的视觉词典方法和经典图像分块策略的组合;而基于空间的方法主要集中在描述物体的空间配置,例如广为使用的物体部件模型。而在最近几年,为了提高这两类方法的效果,研究者们考虑从置信度上下文和弱监督学习的角度尝试将两种方法进行融合,并且也取得了一些效果。
但是,现有的基于空间的方法不能很好地描述可信的物体空间配置,而现有的基于特征的方法不能很好地构造具有区分能力的物体表观特征。因此,已有的融合方法存在局限性。
发明内容
(一)要解决的技术问题
本发明所述解决的技术问题是提出一种基于视觉机制的鲁棒物体结构学习方法的物体识别方法,克服现有的识别方法不能识别复杂图像的问。
(二)技术方案
为解决上述技术问题,本发明提出一种基于视觉机制的鲁棒物体结构学习方法的物体识别方法,包括如下步骤:
步骤A、建立训练图像数据库,该训练图像数据库中包括多个训练图像,根据目标物体在训练图像中的信息建立每个训练图像的标记信息,所述标记信息包括目标物体的存在与否信息以及目标物体的位置信息;
步骤B、对所述训练图像数据库中的每个训练图像进行处理,得到该训练图像中的目标物体的鲁棒空间配置和与鲁棒空间配置相关的鲁棒表观特征,并根据该鲁棒表观特征和每个训练图像的标记信息训练一个分类模型,所述的鲁棒空间配置指的是目标物体的各部件在图像中的位置分布,鲁棒表观特征指的是目标物体各部件相应的特征描述;
步骤C、对待识别图像进行与步骤B中处理训练图像相同的处理,得到该待识别图像的鲁棒空间配置和与鲁棒空间配置相关的鲁棒表观特征,并根据该鲁棒表观特征,采用步骤B得到的经训练的分类模型进行识别,从而识别该待识别图像中的目标物体的类型。
(三)有益效果
本发明的方法对于目标图像复杂的情况,物体的结构仍然可以被鲁棒地获取,从而进行物体的鲁棒识别。在智能视觉监控系统中,本发明可用于识别监控系统场景中目标的类别和位置,使得监控系统能很好的识别目标物体当前的行为。
附图说明
图1为本发明的基于视觉机制的鲁棒物体结构学习方法的物体识别方法的流程图;
图2为本发明的基于视觉机制的鲁棒物体结构学习方法的物体识别方法的具体步骤的流程框图;
图3是特征表达和空间配置反馈的示例图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
研究表明,现有的基于特征和空间的方法可能来源于视觉机制中的特征和空间通路,因此这两种方法与这两个通路有着密切的联系。并且,生理学实验成功地表明,通过考虑特征和空间两个通路的反馈作用,物体可以被鲁棒的识别。因此,本发明利用视觉机制中的特征表达和空间配置的反馈来获取鲁棒的物体结构,以此达到更好的物体识别效果。
图1为本发明的基于视觉机制的鲁棒物体结构学习方法的物体识别方法的流程图。如图1所示,本发明方法用于识别二维图像中的目标物体,其包括以下步骤:
步骤A、建立训练图像数据库,该训练图像数据库中包括多个训练图像,根据目标物体在训练图像中的信息建立每个训练图像的标记信息,所述标记信息包括目标物体的存在与否信息以及目标物体的位置信息。
存在目标物体的训练图像为正样本图像,不存在目标物体的训练图像为负样本图像。该步骤对正样本图像中的目标物体的位置进行标记。
步骤B、对所述训练图像数据库中的每个训练图像进行处理,得到该训练图像中的目标物体的鲁棒空间配置和与鲁棒空间配置相关的鲁棒表观特征,并根据该鲁棒表观特征和每个训练图像的标记信息训练一个分类模型。
步骤C、对待识别图像进行与步骤B中处理训练图像相同的处理,得到该待识别图像的鲁棒空间配置和与鲁棒空间配置相关的鲁棒表观特征,并根据该鲁棒表观特征,采用步骤B得到的经训练的分类模型进行识别,从而识别该待识别图像中的目标物体的类型。
图2是本发明的基于视觉机制的鲁棒物体结构学习方法的物体识别方法的具体步骤的流程框图,下面参照图2来具体描述所述各个步骤。
步骤A、建立训练图像数据库,该训练图像数据库中包括多个训练图像,根据目标物体在训练图像中的信息建立每个训练图像的标记信息,所述标记信息包括目标物体的存在与否信息以及目标物体的位置信息。
举例来说,采集车辆监控场景下的图片来建立训练图像数据库,使每张图像的大小为500×300像素,其中500是图像的宽,300是图像的高。对于训练图像,将每张图像中是否有车进行类别和位置标记,含有车的标记为正样本图像,并标记车辆在图像中的位置;而没有车的训练图像标记为负样本,除此不进行任何其他的标记。
步骤B、对所述训练图像数据库中的每个训练图像进行处理,得到该训练图像中的目标物体的鲁棒空间配置和与鲁棒空间配置相关的鲁棒表观特征,并根据该鲁棒表观特征和每个训练图像的标记信息训练一个分类模型。
其中所述的鲁棒空间配置指的是目标物体的各部件在图像中的位置分布,鲁棒表观特征指的是目标物体各部件相应的特征描述。
步骤B包括如下分步骤:
步骤B0、训练过程初始化:建立一个初始分类模型,对训练图像数据库中的每张训练图像进行局部采样,并提取局部采样块的SIFT特征,对SIFT特征点聚类,并根据聚类的SIFT特征点建立每张训练图像的初始表观特征和初始空间配置,以及根据该初始表观特征训练该初始分类模型。
在一种具体实施方式中,分类模型为SVM分类器。
首先,对每张训练图像局部采样并在得到的局部采样块上提取尺度不变特征变换(Scale Invariant Feature Transform,SIFT)特征,得到每张训练图像的SIFT特征集合其中表示在D维空间中的L个SIFT特征,D和L分别为SIFT特征的维数和SIFT特征的个数;每个SIFT特征具有坐标参数,因此SIFT特征也称SIFT特征点。
然后,利用视觉词典模型和部件模型分别构建物体的初始的表观特征和空间配置,分别定义如下:
z(O)=[z(p0),z(p1),...,z(pN)] (1)
p(O)=[p0,p1,...,pN] (2)
其中O为训练图像中的目标物体,p(O)为该目标物体O的空间配置,z(O)为该目标物体O的表观特征,p0~pN为目标物体的各部分空间配置,z0~zN为目标物体的各部分的表观特征,N为目标物体具体的各个部分的总数。因此,目标物体的结构Ω可以表达为表观特征和空间配置的组合:
Ω=[p(O),z(O)]=[p0,z(p0),p1,z(p1),...,pN,z(pN)] (3)
在公式(1)和公式(2)中,基于整幅图像的表观特征z(O)和目标物体的每一空间配置pn分别定义如下:
其中,
(6)
其中,maxcolumn()表示对矩阵的每一列取最大值的操作,rl表示每个SIFT局部特征在M个聚类中心上的稀疏编码,arg min()表示求取使得目标函数值最小的因变量值,λ表示稀疏编码表达式中的稀疏惩罚项,M表示聚类中心的个数,L表示SIFT局部特征的个数,xn和yn是此空间配置的横轴和纵轴坐标点,而wn和hn是此空间配置的宽和高。
根据得到的初始表观特征z(O)和训练图像中的标记信息,根据式(7)得到初始分类器模型β,||·||2代表2-范数,其中y训练图像的标注信息中的类别信息,其中正样本标记为1,负样本标记为-1。然后得到每张训练图像的初始预测类别f(β)=sgn{(β·z)+b},z是训练样本,β是分类器训练得到的权值向量,b是偏置项,sgn是-1,1在原点处的跳跃函数。
(7)
s.t.y(βz+b)≥1
步骤B1、根据训练图像中的目标物体的初始预测类别,获得每张训练图像的初始表观特征中的显著项。
具体来说,本发明获得显著项的方法如下:
步骤B2、根据每张训练图像的初始表观特征重构该训练图像的局部SIFT特征的索引和局部SIFT特征,并根据步骤B1得到的该图像的初始表观特征的显著项,在所述局部SIFT特征的索引和该局部SIFT特征中确定显著的局部SIFT特征的索引和显著的局部SIFT特征。
根据公式(4),我们可以得到重构的局部SIFT特征的索引IR和局部SIFT特征本身FR分别如下:
公式(12)中的显著的局部SIFT特征的示例如图2所示。从图2中可以观察到,训练图像中包括有目标物体——飞机,大多数的特征点都落在了目标物体上。
步骤B3、对于每张训练图像,利用所述显著的局部SIFT特征构造空间配置的显著性表达。
我们进一步构造物体的空间配置的显著性表达,定义如下:
其中,K是显著的局部SIFT特征FS的特征点个数,W和H是此图像的宽和高。
对于某一个空间配置pn,是该空间配置中的显著的局部SIFT特征点集合,而Kn是该空间配置中的显著的局部SIFT特征点的个数,(μx)n和(μy)n是该空间配置的显著的局部SIFT特征在横轴和纵轴上的期望。
步骤B4、将每张训练图像的空间配置的显著性表达送入分类模型进行训练。
该步骤将步骤B3得到的空间配置的显著性表达RS送入SVM分类器进行训练f(w)=sgn{(w·RS)+b}。
步骤B5、对每张训练图像下的各空间配置进行置信度的重置,找到最优的物体位置。
对以上显著性表达进行训练后,对每个训练样本的每种空间配置进行置信度的重新预测,得到更为精确的物体位置:
其中s为每个物体配置的置信度,q为每张训练图像中不同空间配置的索引,q*是是置信度最高的空间配置的索引,Q为每张图像中不同空间而配置的数目,arg max()表示求取使得目标函数值最大的因变量值,是Q个可能的物体位置中可能性最大的一个。
步骤B6、对于每张训练图像,根据所述最优物体位置获得其鲁棒空间配置,所谓鲁棒空间配置指的是能够在图像中准确描述物体各部分在图像空间中的分布。
步骤B7、对于每张训练图像,得到所述鲁棒空间配置的各部分空间配置中包含的显著的局部SIFT特征。
根据步骤B6中得到的鲁棒空间配置p(O),得到其每个部分的空间配置下所包含的显著的局部SIFT特征。
步骤B8、对于每张训练图像,根据其鲁棒空间配置的每个部分的空间配置构建鲁棒表观特征,将该鲁棒表观特征与该图像的全局上下文信息拼接后得到最终鲁棒表观特征。所述鲁棒表观特征指的是物体各部分对应的鲁棒特征表达。
利用步骤B7中得到的每个部分的空间配置下的显著的局部SIFT特征,构建物体的鲁棒的表观特征如下:
z(O)=[z(p0),z(p1),...,z(pN)] (16)
近几年的大量实验表明,图像的全局上下文描述对识别物体也起到了重要作用,因此我们考虑全局上下文信息如下所示:
与步骤B6中鲁棒空间配置相结合,得到鲁棒的物体结构如下:
Ω=[p(O),z(O)] (18)
最后,我们将全局上下文信息和物体的表观特征拼接,组成最终的物体的表观特征:
z(O,I)=[z(O),z(I) (19)
步骤B9、将每张训练图像的所述最终鲁棒表观特征送入分类模型进行训练。
该步骤将步骤B8中的物体的鲁棒的表观特征送入SVM分类器进行训练。
步骤B10、
对以上表观特征进行训练后,得到更为准确的物体类别。
与步骤B相仿,步骤C包括如下分步骤:
步骤C0、识别过程初始化:对每张待识别图像提取局部采样并提取局部采样块的SIFT特征,对SIFT特征点聚类,并根据聚类的SIFT特征点建立每张待识别图像的初始表观特征和初始空间配置,利用步骤B0中训练得到的初始分类模型,对待识别图像中的目标物体的类别和位置进行初始预测。
如前所述,在一种具体实施方式中,分类模型为SVM分类器。
对每张待识别图像局部采样并在得到的局部采样块上提取尺度不变特征变换(Scale Invariant Feature Transform,SIFT)特征,得到每张待识别图像的SIFT特征集合根据B0中得到的聚类中心,利用视觉词典模型和部件模型分别构建物体的初始的表观特征和空间配置。
步骤C1、根据待识别图像中的目标物体的预测类别,获得每张训练图像的初始表观特征中的显著项。
步骤C2、根据每张待识别图像的初始表观特征重构该待识别图像的局部SIFT特征的索引和局部SIFT特征,并根据步骤C1得到的该图像的初始表观特征的显著项,在所述局部SIFT特征的索引和该局部SIFT特征中确定显著的局部SIFT特征的索引和显著的局部SIFT特征。
步骤C3、对于每张待识别图像,利用所述显著的局部SIFT特征构造空间配置的显著性表达。
步骤C4、利用步骤B4中得到的分类模型,对步骤C3中的空间配置的显著性表达进行物体位置的预测;
步骤C5、对每张待识别图像下的各空间配置进行置信度的重置,找到最优的物体位置。
对以上显著性表达进行训练后,对每个训练样本的每种空间配置进行置信度的重新预测,得到更为精确的物体位置;
步骤C6、对于每张待识别图像,根据所述最优物体位置获得其鲁棒空间配置,所谓鲁棒空间配置指的是能够在图像中准确描述物体各部分在图像空间中的分布。
步骤C7、对于每张待识别图像,得到所述鲁棒空间配置的各部分空间配置中包含的显著的局部SIFT特征。
步骤C8、对于每张待识别图像,根据其鲁棒空间配置的每个部分的空间配置构建鲁棒表观特征,将该鲁棒表观特征与该图像的全局上下文信息拼接后得到最终鲁棒表观特征。所述鲁棒表观特征指的是物体各部分对应的鲁棒特征表达。
步骤C9、利用步骤B9中得到的分类模型,将步骤C8中的物体的鲁棒的表观特征进行结果预测。
步骤C10、根据步骤B10的方法,对以上的物体的鲁棒的表观特征进行预测后,得到更为准确的物体类别。
实施例
为了详细说明该发明的具体实施方式,下面以某一个监控场景中的车辆检测系统为实施例进行说明。这个系统可以判断监控场景中是否含有车辆。
步骤A、首先要收集大量车辆图像(1000张)和非车辆图像(1000张),这些图像用于训练车辆识别模型。
步骤B、训练步骤如下:
步骤B0、训练过程初始化:对1000张车辆图像(正样本)和1000张非车辆图像(负样本)进行SIFT特征提取,生成2000组SIFT特征。以平均每组含有2000个SIFT特征来计算,总共提取到4000000(2000×2000)个SIFT特征。然后,对4000000个SIFT特征进行聚类操作,生成1个包含1000个视觉单词的视觉词典。最后,利用视觉词典模型和部件模型(配置数目选取为9个)得到物体的初始表观特征表达(1000维)和物体空间配置(36维);
步骤B1:从每张图像的表观特征中得到其中的显著项,显著项的数目假设为200个;
步骤B2:根据重构的局部特征和步骤B1中的显著项,得到重构特征当中的200个显著的SIFT局部特征;
步骤B3:根据这200个显著SIFT局部特征,构建每张图像的空间配置的大小为36维的显著性表达;
步骤B4:将2000张训练图像的显著性表达一同用于SVM分类器的训练;
步骤B5:训练后,对每张训练图像下的各种空间配置进行置信度的重置,并找到每张图像的最优的大小为37维的物体位置;
步骤B6:根据这个最优的物体位置,从中提取中大小为36维的鲁棒的物体空间配置;
步骤B7:根据得到的鲁棒的空间配置,找到位于每个配置下的SIFT局部特征,数目小于1000个;
步骤B8:利用上一步得到的各个配置下的SIFT局部特征,假设全局上下文特征为8分块的共800维的特征表达,与物体表观特征拼接后,得到最终的物体表观特征为1700维。最后,与步骤B6的空间位置进行拼接,得到鲁棒的物体结构。
步骤B9:将上一步的物体表观特征送入分类器进行训练:
步骤B10:利用训练后的分类器更为准确的确定物体类别;
步骤C
步骤C0、测试过程初始化:对于每张测试图像,利用视觉词典模型和部件模型(配置数目选取为9个)得到物体的初始表观特征表达(1000维)和物体空间配置(36维),并利用训练过程得到的训练模型对测试图片的目标物体进行初步的类别和位置预测;
步骤C1:从每张图像的表观特征中得到其中的显著项,显著项的数目假设为200个;
步骤C2:根据重构的局部特征和步骤C1中的显著项,得到重构特征当中的200个显著的SIFT局部特征;
步骤C3:根据这200个显著SIFT局部特征,构建每张图像的空间配置的大小为36维的显著性表达;
步骤C4:利用步骤B4中的分类器,对每张测试图像的空间配置的显著性表达进行结果预测;
步骤C5:测试过程结束后,对每张测试图像下的各种空间配置进行置信度的重置,并找到每张图像的最优的大小为37维的物体位置;
步骤C6:根据这个最优的物体位置,从中提取中大小为36维的鲁棒的物体空间配置;
步骤C7:根据得到的鲁棒的空间配置,找到位于每个配置下的SIFT局部特征,数目小于2000个;
步骤C8:利用上一步得到的各个配置下的显著SIFT局部特征,假设有全局上下文特征为8分块的共800维的特征表达,与物体表观特征拼接后,得到最终的物体表观特征为1700维。最后,与步骤B6的空间位置进行拼接,得到鲁棒的物体结构。
步骤C9:利用B9中得到的分类器,将上一步的物体表观特征进行结果预测:
步骤C10:利用B4和B9中的分类器更为准确的确定图像中是否含有车辆;
综上,本发明提出了一种有效的基于视觉机制的鲁棒物体学习获取技术。本发明易于实现、性能稳定,能够提高智能监控系统对监控场景的理解能力,同时是下一代智能监控系统里的关键技术。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于视觉机制的鲁棒物体结构学习方法的物体识别方法,其特征在于,包括如下步骤:
步骤A、建立训练图像数据库,该训练图像数据库中包括多个训练图像,根据目标物体在训练图像中的信息建立每个训练图像的标记信息,所述标记信息包括目标物体的存在与否信息以及目标物体的位置信息;
步骤B、对所述训练图像数据库中的每个训练图像进行处理,得到该训练图像中的目标物体的鲁棒空间配置和与鲁棒空间配置相关的鲁棒表观特征,并根据该鲁棒表观特征和每个训练图像的标记信息训练一个分类模型,所述的鲁棒空间配置指的是目标物体的各部件在图像中的位置分布,鲁棒表观特征指的是目标物体各部件相应的特征描述;
步骤C、对待识别图像进行与步骤B中处理训练图像相同的处理,得到该待识别图像的鲁棒空间配置和与鲁棒空间配置相关的鲁棒表观特征,并根据该鲁棒表观特征,采用步骤B得到的经训练的分类模型进行识别,从而识别该待识别图像中的目标物体的类型。
2.如权利要求1所述的视觉机制的鲁棒物体结构学习方法的物体识别方法,其特征在于,所述步骤B包括:
步骤B0、建立一个初始分类模型,对训练图像数据库中的每张训练图像进行局部采样,并提取局部采样块的SIFT特征,对SIFT特征点聚类,并根据聚类的SIFT特征点建立每张训练图像的初始表观特征和初始空间配置,以及根据该初始表观特征训练该初始分类模型;
步骤B1:根据训练图像中的目标物体的初始预测类别,获得每张训练图像的初始表观特征中的显著项;
步骤B2、根据每张训练图像的初始表观特征重构该训练图像的局部SIFT特征的索引和局部SIFT特征,并根据步骤B1得到的该图像的初始表观特征的显著项,在所述局部SIFT特征的索引和该局部SIFT特征中确定显著的局部SIFT特征的索引和显著的局部SIFT特征;
步骤B3、对于每张训练图像,利用所述显著的局部SIFT特征构造空间配置的显著性表达;
步骤B4、将每张训练图像的空间配置的显著性表达送入分类模型进行训练;
步骤B5、对每张训练图像下的各空间配置进行置信度的重置,找到最优的物体位置;
步骤B6、对于每张训练图像,根据所述最优物体位置获得其鲁棒空间配置;
步骤B7、对于每张训练图像,得到所述鲁棒空间配置的各部分空间配置中包含的显著的局部SIFT特征;
步骤B8、对于每张训练图像,根据其鲁棒空间配置的每个部分的空间配置构建鲁棒表观特征,将该鲁棒表观特征与该图像的全局上下文信息拼接后得到最终鲁棒表观特征;
步骤B9、将每张训练图像的所述最终鲁棒表观特征送入分类模型进行训练;
步骤B10、对以上表观特征进行训练后,得到更为准确的物体类别。
3.如权利要求2所述的视觉机制的鲁棒物体结构学习方法的物体识别方法,其特征在于,所述步骤C包括:
步骤C1、根据待识别图像中的目标物体的预测类别,获得每张训练图像的初始表观特征中的显著项;
步骤C2、根据每张待识别图像的初始表观特征重构该待识别图像的局部SIFT特征的索引和局部SIFT特征,并根据步骤C1得到的该图像的初始表观特征的显著项,在所述局部SIFT特征的索引和该局部SIFT特征中确定显著的局部SIFT特征的索引和显著的局部SIFT特征;
步骤C3、对于每张待识别图像,利用所述显著的局部SIFT特征构造空间配置的显著性表达;
步骤C4、利用步骤B4中得到的分类模型,对步骤C3中的空间配置的显著性表达进行物体位置的预测;
步骤C5、对每张待识别图像下的各空间配置进行置信度的重置,找到最优的物体位置;
对以上显著性表达进行训练后,对每个训练样本的每种空间配置进行置信度的重新预测,得到更为精确的物体位置;
步骤C6、对于每张待识别图像,根据所述最优物体位置获得其鲁棒空间配置;
步骤C7、对于每张待识别图像,得到所述鲁棒空间配置的各部分空间配置中包含的显著的局部SIFT特征;
步骤C8、对于每张待识别图像,根据其鲁棒空间配置的每个部分的空间配置构建鲁棒表观特征,将该鲁棒表观特征与该图像的全局上下文信息拼接后得到最终鲁棒表观特征;
步骤C9、利用步骤B9中得到的分类模型,将步骤C8中的物体的鲁棒的表观特征进行结果预测;
步骤C10、根据步骤B10的方法,对以上的物体的鲁棒的表观特征进行预测后,得到更为准确的物体类别。
4.如权利要求1-3中任一项所述的视觉机制的鲁棒物体结构学习方法的物体识别方法,其特征在于,所述分类模型为SVM分类模型。
5.如权利要求4中任一项所述的视觉机制的鲁棒物体结构学习方法的物体识别方法,其特征在于,所述步骤B0包括:
然后,利用视觉词典模型和部件模型分别构建物体的初始的表观特征和空间配置,分别定义如下:
z(O)=[z(p0),z(p1),...,z(pN)] (1)
p(O)=[p0,p1,,..,pN] (2)
其中O为训练图像中的目标物体,p(O)为该目标物体O的空间配置,z(O)为该目标物体O的表观特征,p0~pN为目标物体的各部分空间配置,z0~zN为目标物体的各部分的表观特征,N为目标物体具体的各个部分的总数;
目标物体的结构Ω可以表达为表观特征和空间配置的组合:
Ω=[p(O),z(O)]=[p0,z(p0),p1,z(p1),...,pN,z(pN)] (3)
在公式(1)和公式(2)中,基于整幅图像的表观特征z(O)和目标物体的每一空间配置pn分别定义如下:
其中,
(6)
其中,maxcolumn()表示对矩阵的每一列取最大值的操作,rl表示每个SIFT局部特征在M个聚类中心上的稀疏编码,arg min()表示求取使得目标函数值最小的因变量值,λ表示稀疏编码表达式中的稀疏惩罚项,M表示聚类中心的个数,L表示SIFT局部特征的个数,xn和yn是此空间配置的横轴和纵轴坐标点,而wn和hn是此空间配置的宽和高;
根据得到的初始表观特征z(O)和训练图像中的标记信息,根据式(7)得到初始分类器模型β,||·||2代表2-范数,其中y训练图像的标注信息中的类别信息,其中正样本标记为1,负样本标记为-1;
然后得到每张训练图像的初始预测类别f(β)=sgn{(β·z)+b},z是训练样本,β是分类器训练得到的权值向量,b是偏置项,sgn是-1,1在原点处的跳跃函数,
(7)
s.t.y(βz+b)≥1
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210593054.4A CN103020658B (zh) | 2012-12-31 | 2012-12-31 | 二维图像中的物体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210593054.4A CN103020658B (zh) | 2012-12-31 | 2012-12-31 | 二维图像中的物体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103020658A true CN103020658A (zh) | 2013-04-03 |
CN103020658B CN103020658B (zh) | 2015-06-03 |
Family
ID=47969248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210593054.4A Active CN103020658B (zh) | 2012-12-31 | 2012-12-31 | 二维图像中的物体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103020658B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103268607A (zh) * | 2013-05-15 | 2013-08-28 | 电子科技大学 | 一种弱监督条件下的共同对象检测方法 |
CN104573669A (zh) * | 2015-01-27 | 2015-04-29 | 中国科学院自动化研究所 | 图像物体检测方法 |
CN105095905A (zh) * | 2014-04-18 | 2015-11-25 | 株式会社理光 | 目标识别方法和目标识别装置 |
CN106548194A (zh) * | 2016-09-29 | 2017-03-29 | 中国科学院自动化研究所 | 二维图像人体关节点定位模型的构建方法及定位方法 |
CN108319907A (zh) * | 2018-01-26 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 一种车辆识别方法、装置和存储介质 |
CN109063740A (zh) * | 2018-07-05 | 2018-12-21 | 高镜尧 | 超声影像关键目标的检测模型构建及检测方法、装置 |
CN111783889A (zh) * | 2020-07-03 | 2020-10-16 | 北京字节跳动网络技术有限公司 | 图像识别方法、装置、电子设备和计算机可读介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101777116A (zh) * | 2009-12-23 | 2010-07-14 | 中国科学院自动化研究所 | 一种基于动作跟踪的脸部表情分析方法 |
CN101819628A (zh) * | 2010-04-02 | 2010-09-01 | 清华大学 | 结合形状特征的稀疏表示人脸识别方法 |
US20120114175A1 (en) * | 2010-11-05 | 2012-05-10 | Samsung Electronics Co., Ltd. | Object pose recognition apparatus and object pose recognition method using the same |
US20120314962A1 (en) * | 2011-06-10 | 2012-12-13 | Apple Inc. | Auto-recognition for noteworthy objects |
-
2012
- 2012-12-31 CN CN201210593054.4A patent/CN103020658B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101777116A (zh) * | 2009-12-23 | 2010-07-14 | 中国科学院自动化研究所 | 一种基于动作跟踪的脸部表情分析方法 |
CN101819628A (zh) * | 2010-04-02 | 2010-09-01 | 清华大学 | 结合形状特征的稀疏表示人脸识别方法 |
US20120114175A1 (en) * | 2010-11-05 | 2012-05-10 | Samsung Electronics Co., Ltd. | Object pose recognition apparatus and object pose recognition method using the same |
US20120314962A1 (en) * | 2011-06-10 | 2012-12-13 | Apple Inc. | Auto-recognition for noteworthy objects |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103268607A (zh) * | 2013-05-15 | 2013-08-28 | 电子科技大学 | 一种弱监督条件下的共同对象检测方法 |
CN103268607B (zh) * | 2013-05-15 | 2016-10-12 | 电子科技大学 | 一种弱监督条件下的共同对象检测方法 |
CN105095905A (zh) * | 2014-04-18 | 2015-11-25 | 株式会社理光 | 目标识别方法和目标识别装置 |
CN105095905B (zh) * | 2014-04-18 | 2018-06-22 | 株式会社理光 | 目标识别方法和目标识别装置 |
CN104573669A (zh) * | 2015-01-27 | 2015-04-29 | 中国科学院自动化研究所 | 图像物体检测方法 |
CN104573669B (zh) * | 2015-01-27 | 2018-09-04 | 中国科学院自动化研究所 | 图像物体检测方法 |
CN106548194A (zh) * | 2016-09-29 | 2017-03-29 | 中国科学院自动化研究所 | 二维图像人体关节点定位模型的构建方法及定位方法 |
CN106548194B (zh) * | 2016-09-29 | 2019-10-15 | 中国科学院自动化研究所 | 二维图像人体关节点定位模型的构建方法及定位方法 |
CN108319907A (zh) * | 2018-01-26 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 一种车辆识别方法、装置和存储介质 |
CN109063740A (zh) * | 2018-07-05 | 2018-12-21 | 高镜尧 | 超声影像关键目标的检测模型构建及检测方法、装置 |
CN111783889A (zh) * | 2020-07-03 | 2020-10-16 | 北京字节跳动网络技术有限公司 | 图像识别方法、装置、电子设备和计算机可读介质 |
CN111783889B (zh) * | 2020-07-03 | 2022-03-01 | 北京字节跳动网络技术有限公司 | 图像识别方法、装置、电子设备和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103020658B (zh) | 2015-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103020658B (zh) | 二维图像中的物体识别方法 | |
Serna et al. | Classification of traffic signs: The european dataset | |
Wang et al. | Large-scale multimodal gesture recognition using heterogeneous networks | |
CN103116762B (zh) | 一种基于自调制字典学习的图像分类方法 | |
Zhang et al. | City brain: practice of large‐scale artificial intelligence in the real world | |
CN110263786B (zh) | 一种基于特征维度融合的道路多目标识别系统及方法 | |
CN101369316B (zh) | 基于全局和局部结构融合的图像特征提取方法 | |
CN105956626A (zh) | 基于深度学习的对车牌位置不敏感的车牌识别方法 | |
CN109376610B (zh) | 视频监控中基于图像概念网络的行人不安全行为检测方法 | |
CN105426905A (zh) | 基于梯度直方图和支持向量机的机器人障碍物识别方法 | |
CN102915453B (zh) | 一种实时反馈更新的车辆检测方法 | |
CN112966709B (zh) | 一种基于深度学习的精细车型识别方法及系统 | |
Li et al. | Cluster naturalistic driving encounters using deep unsupervised learning | |
CN105930792A (zh) | 一种基于视频局部特征字典的人体动作分类方法 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN109255339A (zh) | 基于自适应深度森林人体步态能量图的分类方法 | |
CN112395953A (zh) | 一种道面异物检测系统 | |
CN115860102A (zh) | 一种自动驾驶感知模型的预训练方法、装置、设备和介质 | |
CN103177264B (zh) | 基于视觉词典全局拓扑表达的图像分类方法 | |
CN115984537A (zh) | 图像处理方法、装置及相关设备 | |
Zhao et al. | Hybrid generative/discriminative scene classification strategy based on latent Dirichlet allocation for high spatial resolution remote sensing imagery | |
Yang et al. | DRA-Net: A dual-branch residual attention network for pixelwise power line detection | |
Ouyang et al. | Multiview cnn model for sensor fusion based vehicle detection | |
CN117392568A (zh) | 一种复杂场景下无人机巡检变电设备的方法 | |
CN102609732B (zh) | 基于泛化视觉词典图的物体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |