CN102542303A - 生成用于检测图像中的特定对象的分类器的装置和方法 - Google Patents
生成用于检测图像中的特定对象的分类器的装置和方法 Download PDFInfo
- Publication number
- CN102542303A CN102542303A CN2010106148108A CN201010614810A CN102542303A CN 102542303 A CN102542303 A CN 102542303A CN 2010106148108 A CN2010106148108 A CN 2010106148108A CN 201010614810 A CN201010614810 A CN 201010614810A CN 102542303 A CN102542303 A CN 102542303A
- Authority
- CN
- China
- Prior art keywords
- square area
- image
- area
- length
- sorter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2115—Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/36—Applying a local operator, i.e. means to operate on image points situated in the vicinity of a given point; Non-linear local filtering operations, e.g. median filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/467—Encoded features or binary features, e.g. local binary patterns [LBP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/09—Recognition of logos
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Nonlinear Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
提供一种生成用于检测图像中的特定对象的分类器的装置和方法。该生成用于检测图像中的特定对象的分类器的装置包括:区域划分部分,用于从样本图像中划分至少一个正方形区域,正方形区域的边长等于或小于样本图像的较短边的长度;特征提取部分,对由区域划分部分划分出的正方形区域中的至少一部分正方形区域进行图像特征提取;训练部分,根据所提取的图像特征进行训练,以生成分类器。使用该生成用于检测图像中的特定对象的分类器的装置和方法能够充分利用具有变化的长宽比的待识别对象的可识别区域,并提高在复杂背景下的识别速度和准确度。
Description
技术领域
本发明涉及图像处理和模式识别,尤其涉及一种生成用于检测图像中的特定对象的分类器的装置和方法。
背景技术
目前,图像处理和模式识别技术得到了越来越广泛的应用。在某些应用中,需要对这样的图像检测对象进行识别:该类图像检测对象相互之间长宽比差距较大,图像组成元素(图形、符号、字符等)各异。目前,通常使用诸如检测人脸或行人等检测长宽比相差不大的物体的技术进行识别。
对于这种图像检测对象,目前使用的分类器训练算法中,训练图像通常被缩放到一个标准尺寸的矩形中,如24×24像素。该矩形对应于物体检测中使用的检测框(扫描框)。以特定商业标志作为图像检测对象为例,图1示出具有不同长宽比的标志缩放到具有标准尺寸的矩形中的示意图。
然而,对于长宽比的变化区间较大的图像检测对象,将它们强行缩放到标准尺寸的矩形中,对于长条形对象,矩形的上下或两侧会出现较大的空白区域,如图1的第一幅和最后一幅图以及图2的(a)所示。图2是示出使用不同特征提取区域(感兴趣区域)对同一图像检测对象进行特征提取的示意图。这样,实际可供提取特征的有效区域将减小。
另外,当前,对于这种长宽比变化区间较大的图像检测对象,也普遍使用基于内容的图像检索(CBIR,Content Based Image Retrieval)技术。这种技术需要预先提供精确的图像检测对象的检测定位和分割结果。
然而,上述具有变化的长宽比的图像检测对象可能出现在各种复杂背景中,诸如自然场景中。基于内容的图像检索技术依赖于准确的定位和分割,无法在要求快速高效识别的复杂背景中使用。
发明内容
鉴于现有技术的以上不足,本发明旨在提供一种生成用于检测图像中的特定对象的分类器的装置和方法,其更充分地利用具有变化的长宽比的待识别图像检测对象的可识别区域,以提高在复杂背景下的识别准确度。
本发明的一个实施例是一种生成用于检测图像中的特定对象的分类器的装置。该装置包括:区域划分部分,用于从样本图像中划分至少一个正方形区域,该正方形区域的边长等于或小于样本图像的较短边的长度;特征提取部分,对由区域划分部分划分出的正方形区域中的至少一部分正方形区域进行图像特征提取;训练部分,根据所提取的图像特征进行训练,以生成分类器。
进一步地,特征提取部分使用局部二值模式算法来对正方形区域进行图像特征提取,局部二值模式算法的中心子窗口的尺寸、长宽比和位置中的至少之一是变化的。
进一步地,该生成用于检测图像中的特定对象的分类器的装置还包括区域选择部分,用于在由区域划分部分获得的所有正方形区域中选择满足预定准则的正方形区域,作为由特征提取部分进行图像特征提取的至少一部分正方形区域。
进一步地,预定准则包括:所选中的正方形区域的纹理较丰富,以及各选中正方形区域之间的相关度较小。
进一步地,正方形区域的纹理丰富程度通过局部图像描述子的熵来度量。
进一步地,局部图像描述子是图像的局部边缘方向直方图。
进一步地,预定准则还包括:所选中正方形区域的类条件熵较大,类条件熵是待选择的正方形区域关于已选中的正方形区域的集合的条件熵。
本发明的另一个实施例是一种生成用于检测图像中的特定对象的分类器的方法。该方法包括:从样本图像中划分至少一个正方形区域,正方形区域的边长等于或小于样本图像的较短边的长度;对所划分出的正方形区域中的至少一部分正方形区域进行图像特征提取;根据所提取的图像特征进行训练,以生成分类器。
利用本发明,通过将样本图像划分为边长等于或小于样本图像较短边长度的多个正方形区域,并通过使用所划分的正方形区域的特征进行训练以获得分类器,充分利用了具有不同长宽比的图像检测对象的可识别区域。并且,使用该分类器进行对象识别能够提高对象在复杂背景下的识别速度和准确度。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。在附图中不必依照比例绘制出单元的尺寸和相对位置。
图1示出具有不同长宽比的标志缩放到具有标准尺寸的矩形中的示意图。
图2是示出使用不同特征提取区域对同一图像检测对象进行特征提取的示意图。
图3是示出根据本发明实施例的分类器生成装置的结构的框图。
图4是示出使用局部二值模式特征进行特征提取的原理的示意图。
图5是示出根据本发明实施例的分类器生成方法的流程图。
图6是示出根据本发明另一个实施例的分类器生成装置的结构的框图。
图7是示出根据实施例的对所划分的正方形区域计算边缘方向直方图的示意图。
图8是示出根据本发明另一个实施例的生成图像分类器的方法的流程图。
图9是示出根据本发明实施例的图像检测装置的结构的框图。
图10是示出根据本发明实施例的图像检测方法的流程图。
图11是示出实现本发明的计算机的示例性结构的框图。
具体实施方式
下面参照附图来说明本发明的实施例。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域技术人员已知的部件和处理的表示和描述。
图3是示出根据本发明实施例的分类器生成装置300的结构的框图。分类器生成装置300包括:区域划分部分301、特征提取部分302以及训练部分303。
区域划分部分301用于从样本图像中划分至少一个正方形区域,正方形区域的边长等于或小于样本图像的较短边的长度。特征提取部分302用于对由区域划分部分301划分出的正方形区域中的至少一部分正方形区域进行图像特征提取。训练部分303根据所提取的图像特征进行训练,以生成分类器。
样本图像包括含有图像检测对象的用于训练分类器的图像。图像检测对象即从各种背景中分割出的、检测处理中要检测的目标图像。在准备样本图像时,可以根据准备采用的特征提取区域的尺寸来对样本图像进行缩放,以使样本图像成为适合于特征提取的样本图像。
在本实施例中,将样本图像输入到分类器生成装置300,以进行分类器的训练和生成。在接收到样本图像后,区域划分部分301对输入的样本图像进行划分。
为了充分利用样本图像的可进行识别的区域来进行分类器的训练,区域划分部分301从样本图像中划分至少一个正方形区域,以作为局部特征提取的单位。并且,该正方形区域的边长等于或小于样本图像的较短边的长度。需要注意的是:这里所说的正方形区域的边长“等于”样本图像的较短边的长度不一定是严格意义上的“等于”,而是“基本”或“大致”等于。例如,如果一个长度和边长的差在边长中所占的比例低于预定阈值,则认为该长度基本或大致等于该边长。预定阈值的取值取决于具体应用中的设定。设置为正方形区域的边长“等于”样本图像的较短边的长度的优点在于:正方形特征提取区域中尽可能多地包含了样本图像的纹理特征。在实践中,即使正方形区域的边长小于样本图像的较短边的长度,只要满足正方形区域中所包含的纹理特征足以表示该待检测图像检测对象,就可以被接受。
在不同的实施例中,根据需要和样本图像的特点,正方形区域在样本图像上的排布方式可以不同。
如图2的(c)中所示,在本实施例中,多个正方形区域不交迭地沿该样本图像的较长边相邻地排布。这样设置的进一步的优点在于:正方形特征提取区域不仅最大可能地容纳了图像检测对象的图像的纹理特征,而且没有包含或很少(最后排布的正方形区域超出样本图像的边缘部分)地包含不属于图像检测对象的空白区域。可选择地,在其它实施例中,正方形区域也可以以一定间隔排布。
另外,多个正方形区域也可以以交迭的方式在样本图像上排布。一个典型的例子是:以扫描的方式,每固定步长划分正方形区域。即,所划分的多个正方形区域以固定边长比例相互交迭。
或者,可以这样理解:在一些实施例中,相隔固定步长划分正方形区域。当步长小于正方形区域边长时,所划分的正方形区域相互交迭;当步长等于正方形区域边长时,所划分的正方形区域相邻排布;当步长大于正方形区域边长时,正方形区域两两相隔固定距离。当然,在另外一些实施例中,也可以以变化的步长或交错地来划分正方形区域。
在一个实施例中,当样本图像的较长边的长度小于其较短边的2倍时,区域划分部分301可以只从样本图像中划分一个正方形区域,作为局部特征提取的单位。
特征提取部分302对由区域划分部分301划分出的正方形区域中的至少一部分正方形区域进行图像特征提取。当然,在只划分了一个正方形区域的情况下,就对该正方形区域进行图像特征提取。特征提取部分302可以采用当前普遍采用的各种局部纹理特征描述子来对所划分的正方形区域进行特征表示。在本实施例中,使用局部二值模式特征(LBP,LocalBinary Patterns)进行特征提取。图4是示出使用局部二值模式特征进行特征提取的原理的示意图。
LBP算法一般定义3×3的窗口,如图4所示。以中心子窗口的灰度值为阈值,对窗口内其它像素做二值化处理,即,窗口内其它子窗口的像素灰度值分别与窗口的中心子窗口的灰度值进行比较。当大于等于中心像素的灰度值时,其对应位置赋值为1,否则赋值为0。于是,得到了与中心子窗口相关的一组8位(一个字节)二进制代码,如图4所示。进一步地,还可以根据其它子窗口的不同位置对该组二进制代码进行加权求和,得到该窗口的LBP值。图像中某区域的纹理结构可以使用该区域LBP码的直方图来描述。
当前普遍使用的LBP算法,其中心子窗口覆盖单个目标像素。相应地,中心子窗口的周围子窗口也覆盖单个像素。在本发明的实施例中,使用扩展的方式来构造LBP特征:允许中心子窗口的尺寸、长宽比、位置发生变化。具体来说,在本实施例中,中心子窗口不是覆盖单一的像素,而是覆盖一个区域。在该区域中,可以包括多个像素,即,可以包括一个行、列数可变的像素矩阵。且该像素矩阵的长宽比和位置可以发生变化。在这种情况下,该中心子窗口的相邻子窗口的尺寸、长宽比、位置也会随之发生变化。而LBP特征值的计算准则不变。例如,可以采用中心子窗口的各像素灰度的平均值作为阈值。这样,对于固定尺寸的特征提取区域,例如24×24,可能包含的LBP的特征数量(即各种尺寸、长宽比、位置的组合)将远远大于正方形区域中的像素数。这种处理使得由LBP特征构建的海量特征库的特征数目大大增加。从而,使用各种训练算法时可以选择利用的特征量大大增加。虽然这里以LBP为例来说明图像特征提取,然而应当明白,其它用于对象识别的特征提取方法也适用于本发明的实施例。
训练部分303根据所提取的图像特征进行训练,以生成分类器。训练部分303可以采用各种当前普遍使用的分类器训练方法。在本实施例中,使用Joint-Boost联合增强分类器训练方法进行训练。关于Joint-Boost算法的具体介绍,可以参考:Torralba,A.,Murphy,K.P.,and Freeman,W.T.,“Sharing features:efficient boosting procedures for multiclass objectdetection”,[IEEE CVPR],762-769(2004)。
图5是示出根据本发明实施例的分类器生成方法的流程图。
在步骤S501,从样本图像中划分至少一个正方形区域,正方形区域的边长等于或小于样本图像的较短边的长度。例如,所划分的正方形区域之一的一边与样本图像的短边重合,并且其它正方形区域以类似扫描的方式以一定步长沿样本图像的长边(如果样本图像长宽比大于1)排布。当步长小于正方形区域边长时,正方形区域交迭排布;当步长等于或大于正方形区域边长时,正方形区域相邻或间隔一定距离排布。
在具体操作中,也可以预先设定正方形特征提取区域的边长,如24×24。然后,根据已设定的边长对采集的样本图像进行缩放处理,使得样本图像的短边等于设定的正方形特征提取区域的边长。
在其它实例中,也可以使正方形区域的边长小于样本图像的较短边的长度,只要正方形区域中所包含的纹理特征足以表示该待检测图像检测对象即可。
在步骤S502中,对所划分出的正方形区域中的至少一部分正方形区域进行图像特征提取。图像特征提取可以采用已知的各种方法和局部特征描述子。在本实施例中,使用局部二值模式特征对所划分的正方形区域进行特征表示。其中,该局部二值模式特征的中心子窗口所覆盖的区域的尺寸是可变的,而不限于单一的目标像素。同时,该中心子窗口所覆盖的区域的长宽比以及位置也是可变的。其优点在于,显著扩大了用于进行分类器训练的特征库的特征数量。
在步骤S503中,根据所提取的图像特征进行训练,以生成分类器。例如,可以使用联合增强(Joint-Boost)算法来训练分类器。
图6是示出根据本发明另一个实施例的分类器生成装置600的结构的框图。分类器生成装置600包括:区域划分部分601、区域选择部分604、特征提取部分602以及训练部分603。
与结合图3说明的区域划分部分301相似,区域划分部分601从输入到分类器生成装置600中的样本图像中划分至少一个正方形区域,且使得该正方形区域的边长等于或小于样本图像的较短边的长度。
区域选择部分604在由区域划分部分601获得的所有正方形区域中选择满足预定准则的正方形区域,作为由特征提取部分602进行图像特征提取的正方形区域。下面对区域选择部分604所采用的准则进行讨论。
根据不同的需求,可以采用各种准则来对特征提取区域进行选择(可以将划分出的未经选择的特征提取区域称为候选感兴趣区域)。在一般的分类器训练中,为了提高图像检测对象的检测效率,优先选择具有视觉显著性的正方形区域来训练分类器。一般情况下,正方形区域的纹理越丰富,其视觉显著性就越强。而正方形区域的纹理丰富程度可以通过局部图像描述子的熵来度量。在一些实施例中,局部图像描述子例如是局部边缘方向直方图(EOH,edge orientation histogram)。
图7是示出根据实施例的对划分的正方形区域计算边缘方向直方图的示意图。
使用经典的边缘检测来检测图像的纹理特征。在给定的图像内,各个像素点的梯度幅值在某种程度上反映了区域的边缘锐度,而梯度方向反映了各个点处的边缘方向。而此二者的结合表征完整的图像纹理信息。如图7所示,在本实施例中,首先利用Sobel算子检测图像边缘梯度。滤除梯度强度较低的边缘(图7中的(b)到(d))。该强度较低的边缘通常对应于噪声。然后将正方形区域等分为4×4的单元(图7中的(e)),在每个单元中计算归一化的局部梯度方向直方图。在本实施例中,直方图的量化等级为9,即,将0°-180°等分为9个区间。
Sobel算子是图像处理中使用的算子之一,主要用作边缘检测。它是一种离散性差分算子,用来运算图像亮度函数的梯度近似值。可选择地,可以使用其它图像处理算子来对图像边缘进行检测。
对于以位置x为中心的正方形区域Rx,一个联合直方图PRx有4x 4个局部直方图Prk(k=1...16)。假定每个局部直方图是相互独立的,则联合直方图的熵H(Rx)可用公式(1)计算。
针对一个样本图像,一般的特征提取区域(感兴趣区域)的选择方法是:将该样本图像的所有可能的感兴趣区域的位置按照熵的大小进行排序,选择前N个最大熵的感兴趣区域来代表一个图像检测对象。
然而,可能出现这样的情况:两个具有高视觉显著性的正方形区域纹理相似或相近。当按照熵的大小对这两个正方形区域进行排序时,这两个正方形区域都被选中来进行特征提取并用于分类器训练。因而,不仅造成了冗余的计算,而且因为挤占了其它视觉显著性略低的候选感兴趣区域的位置而浪费了其它可用于识别的纹理特征。
此外,对于属于不同的样本图像的两个正方形区域,如果这两个正方形区域具有相似的纹理,且与本身样本图像的其它正方形区域相比都具有较大的熵,则这两个正方形区域都会被选中进行分类器的训练。显然,使用根据相似纹理特征训练出的两个分类器对图像检测对象进行检测,将难以保证检测的准确度。换句话说,使用具有相似纹理特征的正方形区域训练出的分类器将难以在不同类图像检测对象之间进行区分。也就是说,基于简单的排序准则选择出来的正方形区域无法保证属于不同图像检测对象的正方形区域之间的区分最大化。
因此,在保证选择纹理丰富程度尽量大的正方形区域的同时,还要使各选择的正方形区域之间的相关程度尽量小。为在这二者之间取得平衡,在本实施例中引入类条件熵的概念:所述类条件熵是待选择的正方形区域关于已选中的正方形区域的集合的条件熵。区域选择部分604进行选择所基于的准则是类条件熵最大化。即,如果当前待选择的正方形区域与某个已选择的正方形区域相似,即使它自身具有很高的视觉显著性也不会具有较大的类条件熵,因为它与其它类的区分性不强。这一准则很好的平衡了正方形区域的纹理丰富程度和类间区分性。
为了便于说明,这里用H(Rx|Sk)来表示类条件熵。其中,Rx表示以x为中心的待选择正方形区域,Sk表示已经选中的正方形区域的集合。
为了提炼出类条件熵这种类间鉴别信息,一个实施例是采用一种迭代的算法来序列化选择正方形区域。相对于已经选中的正方形区域,使得当前正方形区域的显著性最大化。以下是本实施例的算法流程:
1.按照长宽比(≥1)由低到高的顺序对所有样本图像进行排序。
2.设置动态集合S,其初始为空,随后,将所有选中的正方形区域存入S中。
3.使得i=1,...,N(i为样本图像标号),重复进行下面的步骤:
(a)使得ROI1,1=argmaxRxH1(Rx),将ROI1,1加入到集合S中(ROI表示特征提取区域(感兴趣区域));
其中,argmaxRxH1(Rx)表示使得熵H1(Rx)最大的Rx
(b)使得ROIi,j=argmaxRx{minSk∈SH(Rx|Sk},i≥1,j≥1(j为同一样本图像中的ROI标号);
其中,H(Rx|Sk)是条件熵,minSk∈SH(Rx|Sk)表示Rx关于集合S的子集Sk的条件熵的最小值,argmaxRx{minSk∈SH(Rx|Sk)}表示使得该最小值最大的Rx。
-将ROIi,i加到S,j:=j+1
-如果对于图像检测对象Ti不能找到ROIi,j,则i:=i+1。
在执行完i=1...N的循环后所获的集合S即所有选中正方形区域的集合。
以图2为例,在只考虑纹理丰富程度的情况下,有可能将图2的(c)中包括文字的正方形区域作为感兴趣区域。而当已选中的正方形区域的集合中存在与该正方形区域的相关度较大的正方形区域时。对于图2中所示的样本图像,可能最终选中的感兴趣区域是图2的(b)中所示的正方形区域,或者包含样本图像的其它部分的正方形区域。
随后,区域选择部分604将根据上述类条件熵最大化准则选中的正方形区域输入到特征提取部分602。特征提取部分对所选中的正方形区域进行特征提取。其具体提取处理与结合图3说明的特征提取部分302的处理相似,这里省略其说明。
训练部分603利用特征提取部分602得到的特征对分类器进行训练。
图8是示出根据本发明另一个实施例的生成图像分类器的方法的流程图。
在步骤S801中,从样本图像中划分至少一个正方形区域,并使得该正方形区域的边长等于或小于样本图像的较短边的长度。需要注意的是:取决于所检测对象的特点,所述“等于”不是绝对的,只要满足该正方形区域中包括有识别图像检测对象的足够的纹理特征,正方形区域的边长也可以小于样本图像的较短边的长度。例如,这样的情形包括对象是通过重复图案来构成的情形。
在步骤S802中,根据预定准则在划分出的所有正方形区域中进行选择,使得使用所选中的正方形区域训练出的分类器具有较高的检测效率和准确性。该预定准则可以是基于待选择的正方形区域的纹理丰富程度和不同样本图像之间的类间相关程度制定。例如,选择纹理丰富程度较大和类间相关度较小的正方形区域。在本实施例中,可以使用类条件熵最大化的准则来进行选择。
在步骤S803中,对选中的正方形区域进行图像特征提取。在本实施例中使用局部二值模式特征对所划分的正方形区域进行特征表示。其中,该局部二值模式特征的中心子窗口所覆盖的区域的尺寸、长宽比以及位置是可变的。相应地,该中心子窗口的相邻子窗口的尺寸、长宽比和位置也是可变的。
在步骤S804中,使用选中的正方形区域(感兴趣区域)的图像特征进行训练,以生成分类器。
图9是示出根据本发明实施例的图像检测装置900的结构的框图。
根据本实施例的图像检测装置900包括:积分图像计算部分901、图像扫描部分902、图像分类部分903以及验证部分904。
在将待检测的图像输入图像检测装置900之后,积分图像计算部分901对图像进行去色处理,以将彩色图像转换为灰度图像。然后,基于灰度图像计算出积分图像,以方便后续的特征提取处理。积分图像计算部分901将获得的积分图像输入到图像扫描部分902。
图像扫描部分902使用大小可变的扫描窗口对经过积分图像计算部分901处理的待检测图像进行扫描。在本实施例中,扫描窗口从左到右,从上到下扫描待检测图像。并且,在完成一次扫描之后,扫描窗口的大小按一定比例增加,对积分图像进行第二次扫描。然后,图像扫描部分902将扫描得到的每个扫描窗口覆盖的图像区域输入到图像分类器部分903。
图像分类器部分903接收扫描图像,并对输入的每个图像区域应用分类器进行分类。具体来说,图像分类器部分903采用训练分类器时使用的特征提取方法对输入的图像区域进行特征提取。例如,在生成分类器的过程中使用LBP描述子对感兴趣区域的特征进行描述的情况下,图像分类器部分903同样采用LBP描述子对输入的图像区域进行特征提取。并且,所采用的LBP描述子的中心子窗口和其相邻子窗口的尺寸、长宽比、位置与生成分类器时所使用的中心子窗口和其相邻子窗口的尺寸、长宽比、位置绑定。当扫描窗口与作为感兴趣区域的正方形区域大小不同时,对扫描窗口进行特征提取的LBP描述子的中心子窗口和其相邻子窗口的尺寸、长宽比、位置根据扫描窗口与感兴趣区域的大小的比值按比例缩放。
对所提取的扫描图像的特征应用根据本发明的实施例的分类器,则扫描图像区域将被分为两类:要检测的图像检测对象或背景。在本发明的实施例中,这一系列二值分类器由Joint-Boost算法训练得到。Joint-Boost训练方法可以使同一组特征为多个的二值分类器共享。经过Joint-Boost分类器输出的是某个扫描窗口对应的图像检测对象类别候选列表。图像分类器部分903将分类结果输入到验证部分904。
验证部分904对分类结果进行验证。可以使用各种验证方法。在本实施例中,使用基于SURF局部特征描述子的验证算法从候选列表中选择置信度最高的图像检测对象类作为最终结果输出。关于SURF的具体介绍,请参考:Herbert Bay,Andreas Ess,Tinne Tuytelaars,Luc Van Gool,″SURF:Speeded Up Robust Features″,Computer Vision and ImageUnderstanding(CVIU),Vol.110,No.3,pp.346--359,2008。
图10是示出根据本发明实施例的图像检测方法的流程图。
在步骤S1001中,对待检测图像进行处理,以计算待检测图像的积分图像。
在步骤S1002中,用尺寸由小到大、每全程扫描一次按预定比例变化的扫描窗口对积分图像进行扫描。扫描窗口初始大小根据待扫描图像的大小以及要检测的图像检测对象的大小进行设定,按一定比例每全程扫描放大一次。在本实施例中,扫描顺序为从左到右,从前到后。显然,可以使用其它扫描顺序。
在步骤S1003中,对扫描窗口所覆盖的图像区域的特征进行提取。特征提取所采用的算法应该与生成分类器时所采用的特征提取算法一致。在本实施例中,采用局部二值模式算法。
在步骤S1004中,将在步骤S1003中提取的特征输入根据本发明实施例的分类器来进行分类。经过分类器进行分类,可以得到一个图像检测对象类候选列表。
在步骤S1005中,对获得的分类候选项进行验证。可以使用当前普遍使用的各种验证方法。在本实施例中,使用基于SURF局部特征描述子的验证算法从候选列表中选择置信度最高的图像检测对象类作为最终结果。
下文中,参考图11描述实现本发明的数据处理设备的计算机的示例性结构。
在图11中,中央处理单元(CPU)1101根据只读存储器(ROM)1102中存储的程序或从存储部分1108加载到随机存取存储器(RAM)1103的程序执行各种处理。在RAM 1103中,也根据需要存储当CPU 1101执行各种处理时所需的数据。
CPU 1101、ROM 1102和RAM 1103经由总线1104彼此连接。输入/输出接口1105也连接到总线1104。
下述部件连接到输入/输出接口1105:输入部分1106,包括键盘、鼠标等;输出部分1107,包括显示器,诸如阴极射线管(CRT)、液晶显示器(LCD)等,以及扬声器等;存储部分1108,包括硬盘等;以及通信部分1109,包括网络接口卡诸如LAN卡、调制解调器等。通信部分1109经由网络诸如因特网执行通信处理。
根据需要,驱动器1110也连接到输入/输出接口1105。可拆卸介质1111诸如磁盘、光盘、磁光盘、半导体存储器等根据需要被安装在驱动器1110上,使得从中读出的计算机程序根据需要被安装到存储部分1108中。
在通过软件实现上述步骤和处理的情况下,从网络诸如因特网或存储介质诸如可拆卸介质1111安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图11所示的其中存储有程序、与方法相分离地分发以向用户提供程序的可拆卸介质1111。可拆卸介质1111的例子包含磁盘、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)和半导体存储器。或者,存储介质可以是ROM 1102、存储部分1108中包含的硬盘等,其中存有程序,并且与包含它们的方法一起被分发给用户。
在附图中,以商业标志为例示出了长宽比变化较大的图像检测对象。在实际应用中,还包括各种长宽比具有变化的图像识别对象,诸如各种车辆等。
此外,本发明适用于很多应用图像识别技术的领域。例如,基于图像的网络检索。例如,通过在各种背景下拍摄图像,并将图像输入根据本发明实施例的预先生成的分类器进行图像识别,根据识别出的图像检测对象进行检索以在网页上显示与该图像检测对象相关的各种信息。
在前面的说明书中参照特定实施例描述了本发明。然而本领域的普通技术人员理解,在不偏离如权利要求书限定的本发明的范围的前提下可以进行各种修改和改变。
关于包括以上各实施例的实施方式,还公开下述附记:
附记:
1.一种生成用于检测图像中的特定对象的分类器的装置,包括:
区域划分部分,用于从样本图像中划分至少一个正方形区域,所述正方形区域的边长等于或小于样本图像的较短边的长度;
特征提取部分,对由所述区域划分部分划分出的正方形区域中的至少一部分正方形区域进行图像特征提取;
训练部分,根据所提取的图像特征进行训练,以生成分类器。
2.根据附记1所述的装置,其中,所述特征提取部分使用局部二值模式算法来对所述正方形区域进行图像特征提取,所述局部二值模式算法的中心子窗口的尺寸、长宽比和位置中的至少之一是变化的。
3.根据附记1所述的装置,还包括区域选择部分,用于在由所述区域划分部分获得的所有正方形区域中选择满足预定准则的正方形区域,作为所述至少一部分正方形区域。
4.根据附记3所述的装置,其中,所述预定准则包括:所选中的正方形区域的纹理较丰富,以及各选中正方形区域之间的相关度较小。
5.根据附记4所述的装置,其中,所述正方形区域的纹理丰富程度通过局部图像描述子的熵来度量。
6.根据附记5所述的装置,其中,所述局部图像描述子是图像的局部边缘方向直方图。
7.根据附记5或6所述的装置,其中,所述预定准则还包括:所选中正方形区域的类条件熵较大,所述类条件熵是待选择的正方形区域关于已选中的正方形区域的集合的条件熵。
8.一种生成用于检测图像中的特定对象的分类器的方法,包括:
从样本图像中划分至少一个正方形区域,所述正方形区域的边长等于或小于样本图像的较短边的长度;
对所划分出的正方形区域中的至少一部分正方形区域进行图像特征提取;
根据所提取的图像特征进行训练,以生成分类器。
9.根据附记8所述的方法,其中,使用局部二值模式算法来对所述正方形区域进行图像特征提取,所述局部二值模式算法的中心子窗口的尺寸、长宽比和位置中的至少之一是变化的。
10.根据附记8所述的方法,还包括:在所划分出的所有正方形区域中选择满足预定准则的正方形区域,作为所述至少一部分正方形区域。
11.根据附记10所述的方法,其中,所述预定准则包括:所选中的正方形区域的纹理较丰富,以及各选中正方形区域之间的相关度较小。
12.根据附记11所述的方法,其中,所述正方形区域的纹理丰富程度通过局部图像描述子的熵来度量。
13.根据附记12所述的方法,其中,所述局部图像描述子是图像的局部边缘方向直方图。
14.根据附记11或12所述的方法,其中,所述预定准则还包括:所选中正方形区域的类条件熵较大,所述类条件熵是待选择的正方形区域关于已选中的正方形区域的集合的条件熵。
Claims (10)
1.一种生成用于检测图像中的特定对象的分类器的装置,包括:
区域划分部分,用于从样本图像中划分至少一个正方形区域,所述正方形区域的边长等于或小于样本图像的较短边的长度;
特征提取部分,对由所述区域划分部分划分出的正方形区域中的至少一部分正方形区域进行图像特征提取;
训练部分,根据所提取的图像特征进行训练,以生成分类器。
2.根据权利要求1所述的装置,其中,所述特征提取部分使用局部二值模式算法来对所述正方形区域进行图像特征提取,所述局部二值模式算法的中心子窗口的尺寸、长宽比和位置中的至少之一是变化的。
3.根据权利要求1所述的装置,还包括区域选择部分,用于在由所述区域划分部分获得的所有正方形区域中选择满足预定准则的正方形区域,作为所述至少一部分正方形区域。
4.根据权利要求3所述的装置,其中,所述预定准则包括:所选中的正方形区域的纹理较丰富,以及各选中正方形区域之间的相关度较小。
5.根据权利要求4所述的装置,其中,所述正方形区域的纹理丰富程度通过局部图像描述子的熵来度量,所述预定准则还包括:所选中正方形区域的类条件熵较大,所述类条件熵是待选择的正方形区域关于已选中的正方形区域的集合的条件熵。
6.一种生成用于检测图像中的特定对象的分类器的方法,包括:
从样本图像中划分至少一个正方形区域,所述正方形区域的边长等于或小于样本图像的较短边的长度;
对所划分出的正方形区域中的至少一部分正方形区域进行图像特征提取;
根据所提取的图像特征进行训练,以生成分类器。
7.根据权利要求6所述的方法,其中,使用局部二值模式算法来对所述正方形区域进行图像特征提取,所述局部二值模式算法的中心子窗口的尺寸、长宽比和位置中的至少之一是变化的。
8.根据权利要求6所述的方法,还包括:在所划分出的所有正方形区域中选择满足预定准则的正方形区域,作为所述至少一部分正方形区域。
9.根据权利要求8所述的方法,其中,所述预定准则包括:所选中的正方形区域的纹理较丰富,以及各选中正方形区域之间的相关度较小。
10.根据权利要求9所述的方法,其中,所述正方形区域的纹理丰富程度通过局部图像描述子的熵来度量,所述预定准则还包括:所选中正方形区域的类条件熵较大,所述类条件熵是待选择的正方形区域关于已选中的正方形区域的集合的条件熵。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010106148108A CN102542303A (zh) | 2010-12-24 | 2010-12-24 | 生成用于检测图像中的特定对象的分类器的装置和方法 |
JP2011281481A JP2012146299A (ja) | 2010-12-24 | 2011-12-22 | 画像における特定のオブジェクトを検出する識別器の生成装置及び方法 |
US13/335,077 US20120163708A1 (en) | 2010-12-24 | 2011-12-22 | Apparatus for and method of generating classifier for detecting specific object in image |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010106148108A CN102542303A (zh) | 2010-12-24 | 2010-12-24 | 生成用于检测图像中的特定对象的分类器的装置和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102542303A true CN102542303A (zh) | 2012-07-04 |
Family
ID=46316885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010106148108A Pending CN102542303A (zh) | 2010-12-24 | 2010-12-24 | 生成用于检测图像中的特定对象的分类器的装置和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20120163708A1 (zh) |
JP (1) | JP2012146299A (zh) |
CN (1) | CN102542303A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709490A (zh) * | 2015-07-31 | 2017-05-24 | 腾讯科技(深圳)有限公司 | 一种字符识别方法和装置 |
CN108108724A (zh) * | 2018-01-19 | 2018-06-01 | 浙江工商大学 | 一种基于多子区域图像特征自动学习的车辆检测器训练方法 |
CN108629360A (zh) * | 2017-03-23 | 2018-10-09 | 天津工业大学 | 一种基于深度学习的针织物基本组织结构自动识别方法 |
CN111629215A (zh) * | 2020-07-30 | 2020-09-04 | 晶晨半导体(上海)股份有限公司 | 检测视频静态标识的方法及电子设备和存储介质 |
CN112541911A (zh) * | 2020-12-23 | 2021-03-23 | 北京百度网讯科技有限公司 | 图像处理方法及装置 |
CN117085969A (zh) * | 2023-10-11 | 2023-11-21 | 中国移动紫金(江苏)创新研究院有限公司 | 人工智能工业视觉检测方法、装置、设备及存储介质 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5997545B2 (ja) * | 2012-08-22 | 2016-09-28 | キヤノン株式会社 | 信号処理方法及び信号処理装置 |
JP6128910B2 (ja) * | 2013-03-21 | 2017-05-17 | キヤノン株式会社 | 学習装置、学習方法及びプログラム |
KR101496734B1 (ko) | 2013-05-29 | 2015-03-27 | (주)베라시스 | 패턴 히스토그램 생성방법 |
CN104463292B (zh) * | 2013-09-16 | 2018-01-09 | 深圳市同盛绿色科技有限公司 | 光学识别方法及移动设备 |
KR101531037B1 (ko) * | 2013-12-06 | 2015-06-23 | 전자부품연구원 | Surf 하드웨어 장치 및 적분 이미지 생성 방법 |
CN103761295B (zh) * | 2014-01-16 | 2017-01-11 | 北京雅昌文化发展有限公司 | 基于图片自动分类的艺术类图片的定制化特征量提取方法 |
CN104933736B (zh) * | 2014-03-20 | 2018-01-19 | 华为技术有限公司 | 一种视觉熵获取方法及装置 |
US20170132466A1 (en) | 2014-09-30 | 2017-05-11 | Qualcomm Incorporated | Low-power iris scan initialization |
US9838635B2 (en) * | 2014-09-30 | 2017-12-05 | Qualcomm Incorporated | Feature computation in a sensor element array |
JP2016092513A (ja) * | 2014-10-31 | 2016-05-23 | カシオ計算機株式会社 | 画像取得装置、ブレ軽減方法及びプログラム |
US10984235B2 (en) | 2016-12-16 | 2021-04-20 | Qualcomm Incorporated | Low power data generation for iris-related detection and authentication |
US10614332B2 (en) | 2016-12-16 | 2020-04-07 | Qualcomm Incorportaed | Light source modulation for iris size adjustment |
CN111007063A (zh) * | 2019-11-25 | 2020-04-14 | 中冶南方工程技术有限公司 | 基于图像识别的铸坯质量控制方法、装置及计算机存储介质 |
CN111026902B (zh) * | 2019-12-20 | 2023-06-16 | 贵州黔岸科技有限公司 | 用于建筑材料类别的智能识别系统及方法 |
CN113095338B (zh) * | 2021-06-10 | 2021-11-09 | 季华实验室 | 工业品图像的自动标注方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101018280A (zh) * | 2006-02-09 | 2007-08-15 | 佳能株式会社 | 用于图像分类的方法、设备以及存储介质 |
WO2010014067A1 (en) * | 2008-07-31 | 2010-02-04 | Hewlett-Packard Development Company, L.P. | Perceptual segmentation of images |
CN101840514A (zh) * | 2009-03-19 | 2010-09-22 | 株式会社理光 | 图像对象分类装置及方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6985628B2 (en) * | 2002-01-07 | 2006-01-10 | Xerox Corporation | Image type classification using edge features |
US7751594B2 (en) * | 2003-04-04 | 2010-07-06 | Lumidigm, Inc. | White-light spectral biometric sensors |
JP4506409B2 (ja) * | 2004-10-27 | 2010-07-21 | 株式会社デンソー | 領域分割方法及び装置、画像認識処理装置、プログラム、記録媒体 |
EP1780672A1 (en) * | 2005-10-25 | 2007-05-02 | Bracco Imaging, S.P.A. | Method of registering images, algorithm for carrying out the method of registering images, a program for registering images using the said algorithm and a method of treating biomedical images to reduce imaging artefacts caused by object movement |
US8094947B2 (en) * | 2008-05-20 | 2012-01-10 | Xerox Corporation | Image visualization through content-based insets |
US8644624B2 (en) * | 2009-07-28 | 2014-02-04 | Samsung Electronics Co., Ltd. | System and method for indoor-outdoor scene classification |
US20120075440A1 (en) * | 2010-09-28 | 2012-03-29 | Qualcomm Incorporated | Entropy based image separation |
-
2010
- 2010-12-24 CN CN2010106148108A patent/CN102542303A/zh active Pending
-
2011
- 2011-12-22 JP JP2011281481A patent/JP2012146299A/ja active Pending
- 2011-12-22 US US13/335,077 patent/US20120163708A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101018280A (zh) * | 2006-02-09 | 2007-08-15 | 佳能株式会社 | 用于图像分类的方法、设备以及存储介质 |
WO2010014067A1 (en) * | 2008-07-31 | 2010-02-04 | Hewlett-Packard Development Company, L.P. | Perceptual segmentation of images |
CN101840514A (zh) * | 2009-03-19 | 2010-09-22 | 株式会社理光 | 图像对象分类装置及方法 |
Non-Patent Citations (1)
Title |
---|
雷建云 等: "《网络信息安全理论与技术》", 31 March 2009, article "模式识别基础理论", pages: 109-110 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709490A (zh) * | 2015-07-31 | 2017-05-24 | 腾讯科技(深圳)有限公司 | 一种字符识别方法和装置 |
CN108629360A (zh) * | 2017-03-23 | 2018-10-09 | 天津工业大学 | 一种基于深度学习的针织物基本组织结构自动识别方法 |
CN108108724A (zh) * | 2018-01-19 | 2018-06-01 | 浙江工商大学 | 一种基于多子区域图像特征自动学习的车辆检测器训练方法 |
CN108108724B (zh) * | 2018-01-19 | 2020-05-08 | 浙江工商大学 | 一种基于多子区域图像特征自动学习的车辆检测器训练方法 |
CN111629215A (zh) * | 2020-07-30 | 2020-09-04 | 晶晨半导体(上海)股份有限公司 | 检测视频静态标识的方法及电子设备和存储介质 |
CN111629215B (zh) * | 2020-07-30 | 2020-11-10 | 晶晨半导体(上海)股份有限公司 | 检测视频静态标识的方法及电子设备和存储介质 |
US11710315B2 (en) | 2020-07-30 | 2023-07-25 | Amlogic (Shanghai) Co., Ltd. | Method, electronic apparatus and storage medium for detecting a static logo of a video |
CN112541911A (zh) * | 2020-12-23 | 2021-03-23 | 北京百度网讯科技有限公司 | 图像处理方法及装置 |
CN117085969A (zh) * | 2023-10-11 | 2023-11-21 | 中国移动紫金(江苏)创新研究院有限公司 | 人工智能工业视觉检测方法、装置、设备及存储介质 |
CN117085969B (zh) * | 2023-10-11 | 2024-02-13 | 中国移动紫金(江苏)创新研究院有限公司 | 人工智能工业视觉检测方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20120163708A1 (en) | 2012-06-28 |
JP2012146299A (ja) | 2012-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102542303A (zh) | 生成用于检测图像中的特定对象的分类器的装置和方法 | |
US9008429B2 (en) | Label-embedding for text recognition | |
Borenstein et al. | Learning to segment | |
US9053384B2 (en) | Feature extraction unit, feature extraction method, feature extraction program, and image processing device | |
Overett et al. | Large scale sign detection using HOG feature variants | |
EP1374168B1 (en) | Method and apparatus for determining regions of interest in images and for image transmission | |
US9183452B2 (en) | Text recognition for textually sparse images | |
CN101894262B (zh) | 对图像进行分类的方法和设备 | |
US20110085728A1 (en) | Detecting near duplicate images | |
CN105913040A (zh) | 暗视觉条件下的双摄像头实时行人检测系统 | |
EP2701098A2 (en) | Region refocusing for data-driven object localization | |
US7873214B2 (en) | Unsupervised color image segmentation by dynamic color gradient thresholding | |
Wakahara et al. | Binarization of color character strings in scene images using k-means clustering and support vector machines | |
CN102855478B (zh) | 图像中文本区域定位方法和装置 | |
CN101609509B (zh) | 一种基于预分类器的图像物体检测方法及系统 | |
Arandjelovic | Crowd detection from still images | |
CN103093185B (zh) | 字符识别装置、图像处理装置及其方法 | |
US20190108398A1 (en) | A method and system for tracking objects | |
US6944340B1 (en) | Method and apparatus for efficient determination of recognition parameters | |
Shi et al. | Adaptive graph cut based binarization of video text images | |
Sahli et al. | Robust vehicle detection in low-resolution aerial imagery | |
Alhaidery et al. | A robust detection and localization technique for copy-move forgery in digital images | |
Zhan et al. | A robust split-and-merge text segmentation approach for images | |
CN104182744A (zh) | 文本检测方法和装置以及文本信息提取方法和系统 | |
Bhattacharya et al. | A survey of landmark recognition using the bag-of-words framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120704 |