CN103679189A - 场景识别的方法和装置 - Google Patents
场景识别的方法和装置 Download PDFInfo
- Publication number
- CN103679189A CN103679189A CN201210341511.0A CN201210341511A CN103679189A CN 103679189 A CN103679189 A CN 103679189A CN 201210341511 A CN201210341511 A CN 201210341511A CN 103679189 A CN103679189 A CN 103679189A
- Authority
- CN
- China
- Prior art keywords
- scene
- identified
- feature
- local detectors
- regional area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种场景识别的方法和装置。该方法包括:由训练图像集训练得到多个局部检测器,该多个局部检测器中的一个局部检测器对应一类目标的一个局部区域,该一类目标包括至少两个局部区域;利用该多个局部检测器检测待识别场景,获取该待识别场景的基于目标的局部区域的特征;根据该待识别场景的基于目标的局部区域的特征识别该待识别场景。本发明实施例的场景识别的方法和装置,利用对应目标的局部区域的局部检测器检测待识别场景,获取的待识别场景的基于目标的局部区域的特征可以更完整地表示图像信息,从而能够提高场景识别性能。
Description
技术领域
本发明涉及信息技术领域,并且更具体地,涉及场景识别的方法和装置。
背景技术
图像场景识别是指利用图像的视觉信息,自动对图像进行处理和分析,并判断和识别出其中所带有的特定场景(如厨房、街道、山峦等)。判断一张图像中的场景不仅有助于对图像的整体语义内容的理解,还能为图像中具体的目标和事件的识别提供依据,因此场景识别对计算机自动图像理解起着重要的作用。场景识别技术可以应用于很多实际问题,如智能图像管理与检索等。
现有的场景识别技术首先对图像的视觉信息进行描述,这一过程也称为图像的视觉特征提取;然后利用已经获取的针对不同场景的模板(或分类器)对提取的视觉特征进行匹配(或分类),并获取最终的场景识别结果。
提取视觉特征的一种通用方法是计算出代表图像画面中低层视觉信息的统计。这些视觉特征包括描述颜色信息的特征,描述纹理信息的特征,以及描述形状信息的特征等。在得到低层视觉信息后,就可以通过预先训练的分类器对上述特征进行分类,进而得到最终识别结果。这种方法的主要缺点是低层视觉特征对不同场景的分辨能力较弱,无法对一些带有接近的颜色、纹理等信息的场景(如书房和图书馆)进行有效地区分和识别,从而影响场景识别性能。
现有的另一种方法采用中层特征表示(或称“属性”)进行场景识别。这类方法首先需要设计大量的视觉概念检测器。视觉概念检测器检测的结果连接构成中层特征表示。最后利用分类器对该特征进行分类,进而得到最终的识别结果。这种方法主要的缺点包括:1.方法采用标注对象的整个目标的检测结果(比如“运动员”、“足球”等)作为中层特征,描述能力有限,如某个对象只有一部分出现在场景中(如“运动员只露出腿”等),则无法检测;2.检测器集合中可能存在重复:对每个训练图片集标注的每类对象训练一个检测器,由于可能存在某些类的图像含义相近(比如“裁判”和“运动员”),导致分别由这些类训练得到的检测器存在重复或高度相似,一方面造成特征信息高维灾难,另一方面多次重复检测出的结果会相对抑制出现较少的检测结果,从而影响场景识别性能。
发明内容
本发明实施例提供了一种场景识别的方法和装置,能够提高场景识别性能。
第一方面,提供了一种场景识别的方法,该方法包括:由训练图像集训练得到多个局部检测器,该多个局部检测器中的一个局部检测器对应一类目标的一个局部区域,该一类目标包括至少两个局部区域;利用该多个局部检测器检测待识别场景,获取该待识别场景的基于目标的局部区域的特征;根据该待识别场景的基于目标的局部区域的特征识别该待识别场景。
在第一种可能的实现方式中,该方法还包括:将该多个局部检测器中相似度高于预定阈值的局部检测器进行合并,得到合成局部检测器集合;利用该多个局部检测器检测待识别场景,获取该待识别场景的基于目标的局部区域的特征,具体实现为:利用该合成局部检测器集合中的局部检测器检测该待识别场景,获取该待识别场景的基于目标的局部区域的特征。
在第二种可能的实现方式中,结合第一方面的第一种可能的实现方式,该相似度包括该多个局部检测器对应的训练图像的局部区域的特征之间的相似程度。
在第三种可能的实现方式中,结合第一方面或第一方面的第一种或第二种可能的实现方式,根据该待识别场景的基于目标的局部区域的特征识别该待识别场景,具体实现为:利用分类器对该待识别场景的基于目标的局部区域的特征进行分类,获取场景识别结果。
在第四种可能的实现方式中,结合第一方面或第一方面的第一种或第二种或第三种可能的实现方式,获取该待识别场景的基于目标的局部区域的特征,具体实现为:利用每一个检测该待识别场景的局部检测器获取该待识别场景的响应图;将该响应图分格成多个格子,将每个格子中的最大响应值作为每个格子的特征,将该响应图的所有格子的特征作为该响应图对应的特征,将所有检测该待识别场景的局部检测器获取的响应图对应的特征作为该待识别场景的基于目标的局部区域的特征。
第二方面,提供了一种场景识别的装置,该装置包括:生成模块,用于由训练图像集训练得到多个局部检测器,该多个局部检测器中的一个局部检测器对应一类目标的一个局部区域,该一类目标包括至少两个局部区域;检测模块,用于利用该生成模块得到的该多个局部检测器检测待识别场景,获取该待识别场景的基于目标的局部区域的特征;识别模块,用于根据该检测模块获取的该待识别场景的基于目标的局部区域的特征识别该待识别场景。
在第一种可能的实现方式中,该装置还包括:合并模块,用于将该多个局部检测器中相似度高于预定阈值的局部检测器进行合并,得到合成局部检测器集合;该检测模块还用于利用该合成局部检测器集合中的局部检测器检测该待识别场景,获取该待识别场景的基于目标的局部区域的特征。
在第二种可能的实现方式中,结合第二方面的第一种可能的实现方式,该相似度包括该多个局部检测器对应的训练图像的局部区域的特征之间的相似程度。
在第三种可能的实现方式中,结合第二方面或第二方面的第一种或第二种可能的实现方式,该识别模块具体用于利用分类器对该待识别场景的基于目标的局部区域的特征进行分类,获取场景识别结果。
在第四种可能的实现方式中,结合第二方面或第二方面的第一种或第二种或第三种可能的实现方式,该检测模块具体用于利用每一个检测该待识别场景的局部检测器获取该待识别场景的响应图,将该响应图分格成多个格子,将每个格子中的最大响应值作为每个格子的特征,将该响应图的所有格子的特征作为该响应图对应的特征,将所有检测该待识别场景的局部检测器获取的响应图对应的特征作为该待识别场景的基于目标的局部区域的特征。
基于上述技术方案,本发明实施例的场景识别的方法和装置,利用对应目标的局部区域的局部检测器检测待识别场景,获取的待识别场景的基于目标的局部区域的特征可以更完整地表示图像信息,从而能够提高场景识别性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的场景识别的方法的示意性流程图。
图2是根据本发明实施例的场景识别的方法的一个例子的示意图。
图3是根据本发明实施例的场景识别的方法的另一示意性流程图。
图4是根据本发明实施例的场景识别的方法的另一个例子的示意图。
图5是根据本发明实施例的场景识别的方法的又一示意性流程图。
图6是根据本发明实施例的场景识别的装置的示意性框图。
图7是根据本发明实施例的场景识别的装置的另一示意性框图。
图8是根据本发明另一实施例的场景识别的装置的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
图1示出了根据本发明实施例的场景识别的方法100的示意性流程图。如图1所示,该方法100包括:
S110,由训练图像集训练得到多个局部检测器,该多个局部检测器中的一个局部检测器对应一类目标的一个局部区域,该一类目标包括至少两个局部区域;
S120,利用该多个局部检测器检测待识别场景,获取该待识别场景的基于目标的局部区域的特征;
S130,根据该待识别场景的基于目标的局部区域的特征识别该待识别场景。
对应整个目标的检测器在只出现目标的局部区域时,无法检测到该目标的局部区域的特征,因而影响场景识别性能。在本发明实施例中,场景识别的装置首先由训练图像集训练得到多个局部检测器,其中,一个局部检测器对应一类目标的一个局部区域,然后,利用该多个局部检测器检测待识别场景,获取该待识别场景的基于目标的局部区域的特征,再根据该待识别场景的基于目标的局部区域的特征识别该待识别场景。由于局部检测器对应目标的局部区域,因此利用局部检测器检测场景,能够得到目标的局部区域的特征。
因此,本发明实施例的场景识别的方法,利用对应目标的局部区域的局部检测器检测待识别场景,获取的待识别场景的基于目标的局部区域的特征可以更完整地表示图像信息,从而能够提高场景识别性能。
在S110中,场景识别的装置由训练图像集训练得到多个局部检测器。
在本发明实施例中,将每一类目标分为多个局部区域,即每一类目标包括至少两个局部区域。生成局部检测器需要使用带有标注的训练图像集,该标注不仅需要有图像具有的目标类别(例如,“裁判”),还需要整体目标在图像中的具体位置信息(不需要每个目标局部的位置)。对于每一类目标,一般需要100个或更多的样本,在标注样本的基础上,每一类目标的局部检测器可以利用现有的可变性基于局部模型(Deformable Part-based Models,简称为“DPM”)算法得到。DPM算法将根据输入参数(如局部的数目)自动确认每类目标中最独特的几个局部(如“裁判”的“头部”、“躯干”、“下肢”等),从而得到对应这几个局部的局部检测器。
在S120中,场景识别的装置利用该多个局部检测器检测待识别场景,获取该待识别场景的基于目标的局部区域的特征。
在生成了局部检测器后,场景识别的装置利用这些局部检测器检测待识别场景,得到各局部检测器对应的局部区域的特征,由这些局部区域的特征构成该待识别场景的基于目标的局部区域的特征。如图2所示,利用对应人体不同部位(例如,头、躯干、上臂、小臂和腿)的局部检测器检测图像,得到各个目标(图2中的人)的不同部位的特征,从而构成整个图像场景的基于人体不同部位的特征。
在本发明实施例中,如图3所示,可选地,该方法100还包括:
S140,将该多个局部检测器中相似度高于预定阈值的局部检测器进行合并,得到合成局部检测器集合;
对应地,所述步骤S120包括:
S121,利用该合成局部检测器集合中的局部检测器检测该待识别场景,获取该待识别场景的基于目标的局部区域的特征。
不同类目标可能具有有共性的局部区域,例如,运动员的头部与裁判的头部。为了避免局部的重复检测,可以将多个局部检测器中相似度较高的局部检测器进行合并,即将相似度高于预定阈值的局部检测器进行合并,然后利用合并后的局部检测器检测待识别场景。
在本发明实施例中,合成局部检测器集合表示将该多个局部检测器合并之后得到的局部检测器的集合,若有一部分局部检测器进行了合并,则该合成局部检测器集合包括合并后的局部检测器和另一部分未合并的局部检测器,若全部局部检测器都进行了合并,则该合成局部检测器集合只包括合并后的局部检测器。
局部检测器的合并可以基于相应图像局部区域的信息。可选地,可对待合并区域的语义进行一定的限制,以保证合并的局部检测器在语义上是高度相关的。例如,“裁判”的“头部”和“运动员”的“头部”是可以合并的,同“猫”的“头部”则不允许合并。
可选地,局部检测器的相似度包括局部检测器对应的训练图像的局部区域的特征之间的相似程度。例如,在待合并的局部检测器集合中,对每个局部检测器,在其对应的训练图像上找出其对应的图像局部区域,根据各局部检测器对应的局部训练图像的低层特征(颜色纹理等)的相似程度得到各局部检测器的相似度。相似度较高,即高于预定阈值(例如,0.8)的局部检测器可以进行合并。合并的方式可以采用简单的左上角对齐平均,即将需要合并的局部检测器对应的滤波矩阵左上角对齐后求平均值。
如图4所示,由训练图像集A训练得到局部检测器p1,由训练图像集B得到局部检测器p2,p1和p2都对应头部,将p1和p2进行合并后得到局部检测器p。如果利用p1和p2进行检测,则会对各目标检测两次,而利用合并后的局部检测器p进行检测,则只检测一次,避免了重复检测。
因此,本发明实施例的场景识别的方法,通过对局部检测器进行合并,并利用合并后的局部检测器检测待识别场景,不但获取的待识别场景的特征能完整地表示图像信息,还能避免局部的重复检测,有效降低特征信息维数,从而能够提高场景识别性能。
在本发明实施例中,可选地,获取该待识别场景的基于目标的局部区域的特征,包括:
利用每一个检测该待识别场景的局部检测器获取该待识别场景的响应图;
将该响应图分格成多个格子,将每个格子中的最大响应值作为每个格子的特征,将该响应图的所有格子的特征作为该响应图对应的特征,将所有检测该待识别场景的局部检测器获取的响应图对应的特征作为该待识别场景的基于目标的局部区域的特征。
给定一幅图像,对每一个局部检测器,如果局部检测器进行了合并,则指合并后的局部检测器,通过在图像上滑动窗口的方法在图像上生成针对该局部检测器的响应图。如图5所示,局部检测器1到局部检测器N中的每一个局部检测器分别检测需要提取特征的图像,即待识别场景的图像。每一个局部检测器生成一张响应图。可选的,可以以3种方式(1*1,3*1和2*2)对每个局部检测器生成的响应图进行分格。对分格后的每个格子,将该格子中最大响应值作为该格子的特征,这样每个局部检测器则可以生成一个8维(1*1+3*1+2*2)的响应特征。将所有局部检测器生成特征连接/组合在一起即可得到最终的特征,即待识别场景的基于目标的局部区域的特征。假设局部检测器数量为N个,那么最终生成的局部区域特征维度是8N维。应注意,图5的例子只是为了帮助本领域技术人员更好地理解本发明实施例,而非限制本发明实施例的范围。
可选地,还可以对图像进行多尺度的变换,分别计算上述特征。例如,将输入图像分别调小一半或调大一倍得到两幅不同尺度的图像。在这两幅图像上采用同样方法计算特征,各得到一个8N维的特征。加上原始图像的特征,总共的特征描述为3*8*N维。利用多尺度图像使得最终的特征对目标局部的尺度变换更为鲁棒。
在S130中,识别场景的装置根据该待识别场景的基于目标的局部区域的特征识别该待识别场景。
在获得待识别场景的基于目标的局部区域的特征后,识别场景的装置根据这些特征识别该场景。可选的,S130包括:
利用分类器对该待识别场景的基于目标的局部区域的特征进行分类,获取场景识别结果。
具体而言,首先需要针对场景类别,根据本发明实施例的基于目标的局部区域的特征训练分类器。例如,可以利用线性核函数的支撑向量机(SupportVector Machines,简称为“SVM”)分类器。给定一个场景类别,首先需要收集该场景的训练样本,图像的整体标注,即是否含有该场景,提取本发明实施例提出的特征,即基于目标的局部区域的特征;然后利用这些训练样本训练一个线性核函数的SVM分类器。如有多个场景类别,则训练多个分类器。给定一个新的图像,利用训练好的场景分类器对该图像场景的基于目标的局部区域的特征进行分类,输出为该分类器对应场景的识别置信度,,其中,识别置信度高,则待识别场景与该分类器对应的场景相似,从而得到场景识别结果。
因此,本发明实施例的场景识别的方法,利用对应目标的局部区域的局部检测器检测待识别场景,获取的待识别场景的基于目标的局部区域的特征可以更完整地表示图像信息,进一步地,通过对局部检测器进行合并,并利用合并后的局部检测器检测待识别场景,不但获取的待识别场景的特征能完整地表示图像信息,还能避免局部的重复检测,有效降低特征信息维数,从而能够提高场景识别性能。
应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
上文中结合图1至图5,详细描述了根据本发明实施例的场景识别的方法,下面将结合图6至图8,描述根据本发明实施例的场景识别的装置。
图6示出了根据本发明实施例的场景识别的装置600的示意性框图。如图6所示,该装置600包括:
生成模块610,用于由训练图像集训练得到多个局部检测器,该多个局部检测器中的一个局部检测器对应一类目标的一个局部区域,该一类目标包括至少两个局部区域;
检测模块620,用于利用该生成模块610得到的该多个局部检测器检测待识别场景,获取该待识别场景的基于目标的局部区域的特征;
识别模块630,用于根据该检测模块620获取的该待识别场景的基于目标的局部区域的特征识别该待识别场景。
在本发明实施例中,首先,生成模块610由训练图像集训练得到多个局部检测器,其中,一个局部检测器对应一类目标的一个局部区域,然后,检测模块620利用该多个局部检测器检测待识别场景,获取该待识别场景的基于目标的局部区域的特征,识别模块630再根据该待识别场景的基于目标的局部区域的特征识别该待识别场景。由于局部检测器对应目标的局部区域,因此利用局部检测器检测场景,能够得到目标的局部区域的特征。
因此,本发明实施例的场景识别的装置,利用对应目标的局部区域的局部检测器检测待识别场景,获取的待识别场景的基于目标的局部区域的特征可以更完整地表示图像信息,从而能够提高场景识别性能。
生成模块610使用带有标注的训练图像集,该标注不仅需要有图像具有的目标类别(例如,“裁判”),还需要整体目标在图像中的具体位置信息(不需要每个目标局部的位置),对于每一类目标,一般需要100个或更多的样本,在标注样本的基础上,利用现有的DPM算法得到每一类目标的局部检测器。DPM算法将根据输入参数(如局部的数目)自动确认每类目标中最独特的几个局部(如“裁判”的“头部”、“躯干”、“下肢”等),从而得到对应这几个局部的局部检测器。
检测模块620利用这些局部检测器检测待识别场景,得到各局部检测器对应的局部区域的特征,由这些局部区域的特征构成该待识别场景的基于目标的局部区域的特征。例如,利用如图2所示的对应人体不同部位(如,头、躯干、上臂、小臂和腿)的局部检测器检测图像,得到各个目标(图2中的人)的不同部位的特征,从而构成整个图像场景的基于人体不同部位的特征。
在本发明实施例中,如图7所示,可选地,该装置600还包括:
合并模块640,用于将该多个局部检测器中相似度高于预定阈值的局部检测器进行合并,得到合成局部检测器集合;
该检测模块620还用于利用该合成局部检测器集合中的局部检测器检测该待识别场景,获取该待识别场景的基于目标的局部区域的特征。
不同类目标可能具有有共性的局部区域,例如,运动员的头部与裁判的头部。为了避免局部的重复检测,合并模块640将多个局部检测器中相似度较高的局部检测器进行合并,即将相似度高于预定阈值的局部检测器进行合并,然后检测模块620利用合并后的局部检测器检测待识别场景。
在本发明实施例中,可选地,该相似度包括该多个局部检测器对应的训练图像的局部区域之间的特征的相似程度。
例如,在待合并的局部检测器集合中,对每个局部检测器,在其对应的训练图像上找出其对应的图像局部区域,根据各局部检测器对应的局部训练图像的低层特征(颜色纹理等)的相似程度得到各局部检测器的相似度。相似度较高,即高于预定阈值(如0.8)的局部检测器可以进行合并。合并的方式可以采用简单的左上角对齐平均,即将需要合并的局部检测器对应的滤波矩阵左上角对齐后求平均值。
本发明实施例的场景识别的装置,通过对局部检测器进行合并,并利用合并后的局部检测器检测待识别场景,不但获取的待识别场景的特征能完整地表示图像信息,还能避免局部的重复检测,有效降低特征信息维数,从而能够提高场景识别性能。
在本发明实施例中,可选地,该检测模块620具体用于利用每一个检测该待识别场景的局部检测器获取该待识别场景的响应图,将该响应图分格成多个格子,将每个格子中的最大响应值作为每个格子的特征,将该响应图的所有格子的特征作为该响应图对应的特征,将所有检测该待识别场景的局部检测器获取的响应图对应的特征作为该待识别场景的基于目标的局部区域的特征。
识别模块630根据该检测模块620获取的该待识别场景的基于目标的局部区域的特征识别该待识别场景。
可选地,该识别模块630具体用于利用分类器对该待识别场景的基于目标的局部区域的特征进行分类,获取场景识别结果。
例如,首先利用训练样本训练多个线性核函数的SVM分类器。给定一个新的图像,识别模块630利用训练好的场景分类器对该图像场景的基于目标的局部区域的特征进行分类,输出为该分类器对应场景的识别置信度,从而得到场景识别结果。
根据本发明实施例的场景识别的装置600可对应于根据本发明实施例的场景识别的方法中的执行主体,并且装置600中的各个模块的上述和其它操作和/或功能分别为了实现图1至图5中的各个方法的相应流程,为了简洁,在此不再赘述。
本发明实施例的场景识别的装置,利用对应目标的局部区域的局部检测器检测待识别场景,获取的待识别场景的基于目标的局部区域的特征可以更完整地表示图像信息,进一步地,通过对局部检测器进行合并,并利用合并后的局部检测器检测待识别场景,不但获取的待识别场景的特征能完整地表示图像信息,还能避免局部的重复检测,有效降低特征信息维数,从而能够提高场景识别性能。
图8示出了根据本发明另一实施例的场景识别的装置800的示意性框图。如图8所示,该装置800包括:处理器810、输入装置820和输出装置830;
处理器810由输入装置820输入的训练图像集训练得到多个局部检测器,该多个局部检测器中的一个局部检测器对应一类目标的一个局部区域,该一类目标包括至少两个局部区域,利用该多个局部检测器检测输入装置820输入的待识别场景,获取该待识别场景的基于目标的局部区域的特征,根据该待识别场景的基于目标的局部区域的特征识别该待识别场景,将识别结果通过输出装置830输出。
本发明实施例的场景识别的装置,利用对应目标的局部区域的局部检测器检测待识别场景,获取的待识别场景的基于目标的局部区域的特征可以更完整地表示图像信息,从而能够提高场景识别性能。
可选地,该处理器810还用于将该多个局部检测器中相似度高于预定阈值的局部检测器进行合并,得到合成局部检测器集合;利用该合成局部检测器集合中的局部检测器检测该待识别场景,获取该待识别场景的基于目标的局部区域的特征。
可选地,该相似度包括该多个局部检测器对应的训练图像的局部区域的特征之间的相似程度。
本发明实施例的场景识别的装置,通过对局部检测器进行合并,并利用合并后的局部检测器检测待识别场景,不但获取的待识别场景的特征能完整地表示图像信息,还能避免局部的重复检测,有效降低特征信息维数,从而能够提高场景识别性能。
可选地,该处理器810具体用于利用分类器对该待识别场景的基于目标的局部区域的特征进行分类,获取场景识别结果。
可选地,该处理器810具体用于利用每一个检测该待识别场景的局部检测器获取该待识别场景的响应图,将该响应图分格成多个格子,将每个格子中的最大响应值作为每个格子的特征,将该响应图的所有格子的特征作为该响应图对应的的特征,将所有检测该待识别场景的局部检测器获取的响应图对应的特征作为该待识别场景的基于目标的局部区域的特征。
根据本发明实施例的场景识别的装置800可对应于根据本发明实施例的场景识别的方法中的执行主体,并且装置800中的各个模块的上述和其它操作和/或功能分别为了实现图1至图5中的各个方法的相应流程,为了简洁,在此不再赘述。
本发明实施例的场景识别的装置,利用对应目标的局部区域的局部检测器检测待识别场景,获取的待识别场景的基于目标的局部区域的特征可以更完整地表示图像信息,进一步地,通过对局部检测器进行合并,并利用合并后的局部检测器检测待识别场景,不但获取的待识别场景的特征能完整地表示图像信息,还能避免局部的重复检测,有效降低特征信息维数,从而能够提高场景识别性能。
应理解,在本发明实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种场景识别的方法,其特征在于,包括:
由训练图像集训练得到多个局部检测器,所述多个局部检测器中的一个局部检测器对应一类目标的一个局部区域,所述一类目标包括至少两个局部区域;
利用所述多个局部检测器检测待识别场景,获取所述待识别场景的基于目标的局部区域的特征;
根据所述待识别场景的基于目标的局部区域的特征识别所述待识别场景。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述多个局部检测器中相似度高于预定阈值的局部检测器进行合并,得到合成局部检测器集合;
所述利用所述多个局部检测器检测待识别场景,获取所述待识别场景的基于目标的局部区域的特征,包括:
利用所述合成局部检测器集合中的局部检测器检测所述待识别场景,获取所述待识别场景的基于目标的局部区域的特征。
3.根据权利要求2所述的方法,其特征在于,所述相似度包括所述多个局部检测器对应的训练图像的局部区域的特征之间的相似程度。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述根据所述待识别场景的基于目标的局部区域的特征识别所述待识别场景,包括:
利用分类器对所述待识别场景的基于目标的局部区域的特征进行分类,获取场景识别结果。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述获取所述待识别场景的基于目标的局部区域的特征,包括:
利用每一个检测所述待识别场景的局部检测器获取所述待识别场景的响应图;
将所述响应图分格成多个格子,将每个所述格子中的最大响应值作为每个所述格子的特征,将所述响应图的所有格子的特征作为所述响应图对应的特征,将所有检测所述待识别场景的局部检测器获取的响应图对应的特征作为所述待识别场景的基于目标的局部区域的特征。
6.一种场景识别的装置,其特征在于,包括:
生成模块,用于由训练图像集训练得到多个局部检测器,所述多个局部检测器中的一个局部检测器对应一类目标的一个局部区域,所述一类目标包括至少两个局部区域;
检测模块,用于利用所述生成模块得到的所述多个局部检测器检测待识别场景,获取所述待识别场景的基于目标的局部区域的特征;
识别模块,用于根据所述检测模块获取的所述待识别场景的基于目标的局部区域的特征识别所述待识别场景。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
合并模块,用于将所述多个局部检测器中相似度高于预定阈值的局部检测器进行合并,得到合成局部检测器集合;
所述检测模块还用于利用所述合成局部检测器集合中的局部检测器检测所述待识别场景,获取所述待识别场景的基于目标的局部区域的特征。
8.根据权利要求7所述的装置,其特征在于,所述相似度包括所述多个局部检测器对应的训练图像的局部区域的特征之间的相似程度。
9.根据权利要求6至8中任一项所述的装置,其特征在于,所述识别模块具体用于利用分类器对所述待识别场景的基于目标的局部区域的特征进行分类,获取场景识别结果。
10.根据权利要求6至9中任一项所述的装置,其特征在于,所述检测模块具体用于利用每一个检测所述待识别场景的局部检测器获取所述待识别场景的响应图,将所述响应图分格成多个格子,将每个所述格子中的最大响应值作为每个所述格子的特征,将所述响应图的所有格子的特征作为所述响应图对应的特征,将所有检测所述待识别场景的局部检测器获取的响应图对应的特征作为所述待识别场景的基于目标的局部区域的特征。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210341511.0A CN103679189B (zh) | 2012-09-14 | 2012-09-14 | 场景识别的方法和装置 |
EP13837155.4A EP2884428A4 (en) | 2012-09-14 | 2013-09-13 | SCENE RECOGNITION AND DEVICE |
PCT/CN2013/083501 WO2014040559A1 (zh) | 2012-09-14 | 2013-09-13 | 场景识别的方法和装置 |
US14/657,121 US9465992B2 (en) | 2012-09-14 | 2015-03-13 | Scene recognition method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210341511.0A CN103679189B (zh) | 2012-09-14 | 2012-09-14 | 场景识别的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103679189A true CN103679189A (zh) | 2014-03-26 |
CN103679189B CN103679189B (zh) | 2017-02-01 |
Family
ID=50277642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210341511.0A Expired - Fee Related CN103679189B (zh) | 2012-09-14 | 2012-09-14 | 场景识别的方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9465992B2 (zh) |
EP (1) | EP2884428A4 (zh) |
CN (1) | CN103679189B (zh) |
WO (1) | WO2014040559A1 (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104318208A (zh) * | 2014-10-08 | 2015-01-28 | 合肥工业大学 | 一种基于图分割和实例学习的视频场景检测方法 |
CN105095902A (zh) * | 2014-05-23 | 2015-11-25 | 华为技术有限公司 | 图片特征提取方法及装置 |
CN105678267A (zh) * | 2016-01-08 | 2016-06-15 | 浙江宇视科技有限公司 | 一种场景识别方法及装置 |
CN106295523A (zh) * | 2016-08-01 | 2017-01-04 | 马平 | 一种基于svm的公共场合人流量检测方法 |
CN108229493A (zh) * | 2017-04-10 | 2018-06-29 | 商汤集团有限公司 | 对象验证方法、装置和电子设备 |
CN109389142A (zh) * | 2017-08-08 | 2019-02-26 | 上海为森车载传感技术有限公司 | 分类器训练方法 |
CN109919244A (zh) * | 2019-03-18 | 2019-06-21 | 北京字节跳动网络技术有限公司 | 用于生成场景识别模型的方法和装置 |
CN110245628A (zh) * | 2019-06-19 | 2019-09-17 | 成都世纪光合作用科技有限公司 | 一种检测人员讨论场景的方法和装置 |
WO2020015470A1 (zh) * | 2018-07-16 | 2020-01-23 | Oppo广东移动通信有限公司 | 图像处理方法、装置、移动终端及计算机可读存储介质 |
CN111144378A (zh) * | 2019-12-30 | 2020-05-12 | 众安在线财产保险股份有限公司 | 一种目标对象的识别方法及装置 |
CN111368761A (zh) * | 2020-03-09 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 店铺营业状态识别方法、装置、可读存储介质和设备 |
CN111738062A (zh) * | 2020-05-09 | 2020-10-02 | 广智微芯(扬州)有限公司 | 一种基于嵌入式平台的自动再识别方法及系统 |
CN112560840A (zh) * | 2018-09-20 | 2021-03-26 | 西安艾润物联网技术服务有限责任公司 | 多个识别区域识别方法、识别终端及可读存储介质 |
WO2022227764A1 (zh) * | 2021-04-28 | 2022-11-03 | 北京百度网讯科技有限公司 | 事件检测的方法、装置、电子设备以及可读存储介质 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105809146B (zh) * | 2016-03-28 | 2019-08-30 | 北京奇艺世纪科技有限公司 | 一种图像场景识别方法和装置 |
US10061984B2 (en) | 2016-10-24 | 2018-08-28 | Accenture Global Solutions Limited | Processing an image to identify a metric associated with the image and/or to determine a value for the metric |
CN108830908A (zh) * | 2018-06-15 | 2018-11-16 | 天津大学 | 一种基于人工神经网络的魔方颜色识别方法 |
CN111488751A (zh) * | 2019-01-29 | 2020-08-04 | 北京骑胜科技有限公司 | 二维码图像处理方法、装置、电子设备及存储介质 |
CN109858565B (zh) * | 2019-02-28 | 2022-08-12 | 南京邮电大学 | 基于深度学习的融合全局特征和局部物品信息的家庭室内场景识别方法 |
CN112395917B (zh) * | 2019-08-15 | 2024-04-12 | 纳恩博(北京)科技有限公司 | 区域的识别方法及装置、存储介质、电子装置 |
CN111580060B (zh) * | 2020-04-21 | 2022-12-13 | 北京航空航天大学 | 目标姿态识别的方法、装置和电子设备 |
CN113486942A (zh) * | 2021-06-30 | 2021-10-08 | 武汉理工光科股份有限公司 | 一种重复火警判定方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101127029A (zh) * | 2007-08-24 | 2008-02-20 | 复旦大学 | 用于在大规模数据分类问题中训练svm分类器的方法 |
CN101650783A (zh) * | 2008-08-13 | 2010-02-17 | 株式会社Ntt都科摩 | 图像识别方法以及摄像装置 |
CN101968884A (zh) * | 2009-07-28 | 2011-02-09 | 索尼株式会社 | 检测视频图像中的目标的方法和装置 |
WO2011110960A1 (en) * | 2010-03-11 | 2011-09-15 | Koninklijke Philips Electronics N.V. | Probabilistic refinement of model-based segmentation |
US20120213426A1 (en) * | 2011-02-22 | 2012-08-23 | The Board Of Trustees Of The Leland Stanford Junior University | Method for Implementing a High-Level Image Representation for Image Analysis |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5963670A (en) * | 1996-02-12 | 1999-10-05 | Massachusetts Institute Of Technology | Method and apparatus for classifying and identifying images |
EP1959668A3 (en) | 2007-02-19 | 2009-04-22 | Seiko Epson Corporation | Information processing method, information processing apparatus, and program |
JP5040624B2 (ja) * | 2007-02-19 | 2012-10-03 | セイコーエプソン株式会社 | 情報処理方法、情報処理装置及びプログラム |
CN101996317B (zh) * | 2010-11-01 | 2012-11-21 | 中国科学院深圳先进技术研究院 | 人体上标记物的识别方法及装置 |
CN102426653B (zh) * | 2011-10-28 | 2013-04-17 | 西安电子科技大学 | 基于第二代Bandelet变换和星型模型的静态人体检测方法 |
-
2012
- 2012-09-14 CN CN201210341511.0A patent/CN103679189B/zh not_active Expired - Fee Related
-
2013
- 2013-09-13 WO PCT/CN2013/083501 patent/WO2014040559A1/zh active Application Filing
- 2013-09-13 EP EP13837155.4A patent/EP2884428A4/en not_active Withdrawn
-
2015
- 2015-03-13 US US14/657,121 patent/US9465992B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101127029A (zh) * | 2007-08-24 | 2008-02-20 | 复旦大学 | 用于在大规模数据分类问题中训练svm分类器的方法 |
CN101650783A (zh) * | 2008-08-13 | 2010-02-17 | 株式会社Ntt都科摩 | 图像识别方法以及摄像装置 |
CN101968884A (zh) * | 2009-07-28 | 2011-02-09 | 索尼株式会社 | 检测视频图像中的目标的方法和装置 |
WO2011110960A1 (en) * | 2010-03-11 | 2011-09-15 | Koninklijke Philips Electronics N.V. | Probabilistic refinement of model-based segmentation |
US20120213426A1 (en) * | 2011-02-22 | 2012-08-23 | The Board Of Trustees Of The Leland Stanford Junior University | Method for Implementing a High-Level Image Representation for Image Analysis |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095902A (zh) * | 2014-05-23 | 2015-11-25 | 华为技术有限公司 | 图片特征提取方法及装置 |
CN105095902B (zh) * | 2014-05-23 | 2018-12-25 | 华为技术有限公司 | 图片特征提取方法及装置 |
CN104318208A (zh) * | 2014-10-08 | 2015-01-28 | 合肥工业大学 | 一种基于图分割和实例学习的视频场景检测方法 |
CN105678267A (zh) * | 2016-01-08 | 2016-06-15 | 浙江宇视科技有限公司 | 一种场景识别方法及装置 |
CN106295523A (zh) * | 2016-08-01 | 2017-01-04 | 马平 | 一种基于svm的公共场合人流量检测方法 |
CN108229493A (zh) * | 2017-04-10 | 2018-06-29 | 商汤集团有限公司 | 对象验证方法、装置和电子设备 |
CN109389142A (zh) * | 2017-08-08 | 2019-02-26 | 上海为森车载传感技术有限公司 | 分类器训练方法 |
WO2020015470A1 (zh) * | 2018-07-16 | 2020-01-23 | Oppo广东移动通信有限公司 | 图像处理方法、装置、移动终端及计算机可读存储介质 |
CN112560840A (zh) * | 2018-09-20 | 2021-03-26 | 西安艾润物联网技术服务有限责任公司 | 多个识别区域识别方法、识别终端及可读存储介质 |
CN112560840B (zh) * | 2018-09-20 | 2023-05-12 | 西安艾润物联网技术服务有限责任公司 | 多个识别区域识别方法、识别终端及可读存储介质 |
CN109919244A (zh) * | 2019-03-18 | 2019-06-21 | 北京字节跳动网络技术有限公司 | 用于生成场景识别模型的方法和装置 |
CN110245628A (zh) * | 2019-06-19 | 2019-09-17 | 成都世纪光合作用科技有限公司 | 一种检测人员讨论场景的方法和装置 |
CN111144378A (zh) * | 2019-12-30 | 2020-05-12 | 众安在线财产保险股份有限公司 | 一种目标对象的识别方法及装置 |
CN111144378B (zh) * | 2019-12-30 | 2023-10-31 | 众安在线财产保险股份有限公司 | 一种目标对象的识别方法及装置 |
CN111368761A (zh) * | 2020-03-09 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 店铺营业状态识别方法、装置、可读存储介质和设备 |
CN111738062A (zh) * | 2020-05-09 | 2020-10-02 | 广智微芯(扬州)有限公司 | 一种基于嵌入式平台的自动再识别方法及系统 |
CN111738062B (zh) * | 2020-05-09 | 2024-05-17 | 广智微芯(扬州)有限公司 | 一种基于嵌入式平台的自动再识别系统 |
WO2022227764A1 (zh) * | 2021-04-28 | 2022-11-03 | 北京百度网讯科技有限公司 | 事件检测的方法、装置、电子设备以及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP2884428A4 (en) | 2015-10-21 |
WO2014040559A1 (zh) | 2014-03-20 |
US20150186726A1 (en) | 2015-07-02 |
US9465992B2 (en) | 2016-10-11 |
EP2884428A1 (en) | 2015-06-17 |
CN103679189B (zh) | 2017-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103679189A (zh) | 场景识别的方法和装置 | |
CN101866429B (zh) | 多运动目标动作行为识别的训练方法和识别方法 | |
Hoiem et al. | Pascal VOC 2008 challenge | |
Nguyen et al. | A novel shape-based non-redundant local binary pattern descriptor for object detection | |
CN101350069A (zh) | 从训练数据构建分类器并使用分类器检测在测试数据中的移动对象的计算机实现方法 | |
CN103854016B (zh) | 基于方向性共同发生特征的人体行为分类识别方法及系统 | |
CN103065122A (zh) | 基于面部动作单元组合特征的人脸表情识别方法 | |
CN105303163A (zh) | 一种目标检测的方法及检测装置 | |
Tang et al. | Object detection based on convolutional neural network | |
Saenko et al. | Practical 3-d object detection using category and instance-level appearance models | |
CN112686122B (zh) | 人体及影子的检测方法、装置、电子设备、存储介质 | |
Chuang et al. | Model-based approach to spatial–temporal sampling of video clips for video object detection by classification | |
Chen et al. | Cluster trees of improved trajectories for action recognition | |
CN105893967A (zh) | 基于时序保留性时空特征的人体行为分类检测方法及系统 | |
Jin et al. | Video streaming helmet detection algorithm based on feature map fusion and faster RCNN | |
Ji et al. | Design of human machine interactive system based on hand gesture recognition | |
Wang et al. | Human action recognition from boosted pose estimation | |
Zhou et al. | Research on recognition and application of hand gesture based on skin color and SVM | |
Paulk et al. | A supervised learning approach for fast object recognition from RGB-D data | |
Fu et al. | Robust human detection with low energy consumption in visual sensor network | |
Lo et al. | Space-time template matching for human action detection using volume-based Generalized Hough transform | |
Azaza et al. | Saliency from High-Level Semantic Image Features | |
Dibra et al. | Extending the performance of human classifiers using a viewpoint specific approach | |
Chaudhry et al. | Human Activity Recognition System: Using Improved Crossbreed Features and Artificial Neural Network | |
Choi et al. | A bag-of-regions representation for video classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170201 Termination date: 20180914 |