CN102208038B - 基于视觉词典的图像分类方法 - Google Patents

基于视觉词典的图像分类方法 Download PDF

Info

Publication number
CN102208038B
CN102208038B CN 201110175101 CN201110175101A CN102208038B CN 102208038 B CN102208038 B CN 102208038B CN 201110175101 CN201110175101 CN 201110175101 CN 201110175101 A CN201110175101 A CN 201110175101A CN 102208038 B CN102208038 B CN 102208038B
Authority
CN
China
Prior art keywords
image
point
yardstick
sigma
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110175101
Other languages
English (en)
Other versions
CN102208038A (zh
Inventor
覃征
纪磊
李环
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Dongguan University of Technology
Original Assignee
Tsinghua University
Dongguan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Dongguan University of Technology filed Critical Tsinghua University
Priority to CN 201110175101 priority Critical patent/CN102208038B/zh
Publication of CN102208038A publication Critical patent/CN102208038A/zh
Application granted granted Critical
Publication of CN102208038B publication Critical patent/CN102208038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于视觉词典的图像分类方法,涉及数字图像处理技术领域,包括以下步骤:S1:抽取训练图像数据集的联合局部特征;S2:通过基于移动均值和区域哈希法的聚类算法对所述联合局部特征进行向量矢量化,从而选择聚类中心个数,以形成视觉词典;S3:根据所述视觉词典生成图像的特征表示,以建立图像分类器;S4:根据所述图像分类器分类所述训练图像数据集中的图像。本发明能够获得最具区分度的视觉词典,从而使分类方法对图像数据集的样本空间分布具有自适应性,可以抵抗各种仿射变换和光照变化,对于局部异常、噪声干扰、以及复杂背景具有更好的鲁棒性,而且具有很强的通用性,可以用于各种类型的图像分类,因而具有较高的实用价值。

Description

基于视觉词典的图像分类方法
技术领域
本发明涉及数字图像处理技术领域,特别涉及一种基于视觉词典的图像分类方法。
背景技术
图像分类是对图像中的目标判定类别,从而将图像进行归类。目前,图像分类技术已经成为了人工智能和模式识别中的重要研究方向,在军事目标识别、遥感和医学图像识别、OCR、生物特征识别、票据识别、智能交通等领域中得到了应用。
从技术上来说,基于内容的图像分类主要是利用图像的低层局部特征和高层语义特征,建立基于特征的向量表示,从而将其转化为人工智能领域的监督学习问题。在实际使用中,图像分类的难点在于目标由于不同程度的遮挡、观察视角不同、光照条件变化、仿射变换以及同类目标之间的差异性,造成分类失败。
目前,基于局部区域特征提取算子(如:Harris-Affine、MSER、SIFT等)的图像分类识别方法在仿射变换、光照变化、遮挡等条件下都被证明可以取得较好的分类效果。该方法从图像中抽取局部关键区域,并用仿射不变性描述算子建立这些区域的特征向量,然后通过向量矢量化方法建立视觉词典(Visual Code Book),并将图像用基于该视觉词典的频率直方图表示,最终建立分类模型实现对目标识别。常用的向量矢量化方法是k-means(一种硬聚类算法),但该算法一般假设数据集是一个混合正态分布,在迭代过程中容易在样本点分布密集的地方陷入局部极值,而且还必须事先确定聚类个数,初始点不同可能结果也不一样,一个远离中心点的样本点可能会使中心点产生较大偏离,而且计算复杂度较高,在实际使用中无法得到最具区分度的视觉词典。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何得到最具区分度的视觉词典,并根据该视觉词典进行图像分类。
(二)技术方案
为解决上述技术问题,本发明提供了一种基于视觉词典的图像分类方法,包括以下步骤:
S1:抽取训练图像数据集的联合局部特征;
S2:通过基于移动均值和区域哈希法的聚类算法对所述联合局部特征进行向量矢量化,从而选择聚类中心个数,以形成视觉词典;
S3:根据所述视觉词典生成图像的特征表示,以建立图像分类器;
S4:根据所述图像分类器分类所述训练图像数据集中的图像。
其中,所述步骤S1具体包括:
S1.1:利用Harris-Affine算子或提取训练图像数据集的局部区域集合H={h};
S1.2:利用MSER算子提取训练图像数据集的局部区域集合E={e};
S1.3:利用SIFT算子提取训练图像数据集的特征点集合为Q={q};
S1.4:根据S1.1~S1.3得到所述联合局部特征为:
U = { u | u ∈ Qand ( u ⋐ H or u ⋐ E ) } .
其中,所述步骤S1.1具体包括:
Harris-Affine利用公式(1)所示的图像二阶自相关矩阵的特征值度量判断角点:
M = μ ( s , σ I , σ D ) = σ D 2 g ( σ I ) ⊗ L x 2 ( s , σ D ) L x L y ( s , σ D ) L x L y ( s , σ D ) L y 2 ( s , σ D ) - - - ( 1 )
其中,s是图像矩阵,g()是高斯核函数,σI是协同尺度,σD是差分尺度,
Figure GDA00001952213500031
Px(s)表示图像矩阵s在x方向的偏导数,即Lx(s,σD)是图像矩阵s在x方向上的偏导数与差分尺度σD的高斯卷积,同理Ly(s,σD)是图像s在y方向上的偏导数与差分尺度σD的高斯卷积,
Figure GDA00001952213500032
是图像s分别在x方向上和y方向上的二阶导数与差分尺度σD的高斯卷积,LxLy是图像s在x方向和y方向上分别求导所得的二阶导数与差分尺度σD的高斯卷;
其特征值度量如公式(2)所示:
cornerness=det(μ(s,σI,σD))-κtrace2(μ(s,σI,σD)) (2)
其中,κ为常数;det表示矩阵的行列式值和trace表示矩阵的迹;
利用高斯-拉普拉斯LoG度量以自动选择特征尺度,LoG如公式(3)所示:
det(LoG(s,σ))=σ2det(Lxx(s,σ)+Lyy(s,σ)) (3)
其中Lxx和Lyy是图像s分别在x方向上和y方向上的二阶导数与特征尺度σ的高斯卷积,其中特征尺度σ为协同尺度σI或差分尺度σD
用所述特征尺度的协方差矩阵对仿射变换进行规范化,转化公式(1)的M到LoG能够处理的范围,如式(4)所示:
M=μ(s,∑I,∑D)=det(∑D)g(∑I)×(▽L(s,∑D)▽L(s,∑D)T) (4)
其中∑I,∑D分别是协同尺度σI和差分尺度σD的协方差矩阵,▽L()表示求解图像矩阵s的二阶差分矩阵;
通过以上步骤,确定角点位置,并计算规范化仿射变换之后的特征尺度,Harris-Affine算子得到局部区域集合H={h}。
其中,所述步骤S1.2具体包括:
对所述训练图像数据集中的图像按灰度值大小对像素排序;
按所述排序将像素逐渐添加到空白图像,并记录相应连通成分及其面积函数,所述面积函数为灰度值的函数;
根据所述面积函数变化率的局部极小值确定MSER,最终得到局部区域集合E={e}。
其中,所述步骤S1.3具体包括:
使用高斯差分算子DoG来确定特征尺度,DoG定义如(5)所示:
DoG(s,σ)=L(s,kσ)+L(s,k) (5)
其中σ是特征尺度,k为常数,L是尺度空间函数,用于在各个尺度上对图像进行平滑,从而建立DoG金字塔尺度空间,得到各个尺度上的平滑图像后,SIFT算子将每个点与相邻的8个点以及上下层各9个点相比较,通过计算该点是否是极大值或极小值点来判断是否为特征点,同时利用梯度方向来判断该点的主方向,SIFT算子得到的特征点集合记为Q={q}。
其中,所述步骤S2具体包括:
对于步骤S1得到的d维图像局部特征向量空间,均值移动算法利用核函数处理不同的样本空间分布,并自动查找样本空间中的概率密度极值点,迭代过程如式(6)所示:
b j + 1 = Σ i = 1 n G ( a i - b j r ) w ( a i ) a i Σ i = 1 n G ( a i - b j r ) w ( a i ) - - - ( 6 )
其中,ai和bj是d维图像局部特征向量空间的样本点,G()是单位高斯核函数,w(ai)表示样本点ai的权重系数,n表示样本空间的样本点总数;
迭代步骤包括:
S2.1:查找与bj的距离小于r的相邻点集合,具体查找方式为:
对d维欧式空间X进行T次切分,每次切分需要随机选定Z维,建立不等式,并用布尔向量记录切分得到的子空间,如在随机选定的某一维dz上,取一个随机值vz,这个值在整个样本空间第dz维的值域范围之内,根据式(7)来对样本点ai进行切分:
a i , d z ≤ v z , i = 1,2 , . . . , n - - - ( 7 )
Figure GDA00001952213500043
表示第i个样本点ai的第dz维向量的值,
利用哈希函数,使得切分中同一子空间中的样本点属于同一个哈希槽,每个样本点将属于T个哈希槽,寻找样本点bj的最近邻,只需根据T组公式(7)计算T次bj对应的布尔向量及对应的T个哈希槽Ct,则它们的并集
Figure GDA00001952213500051
即为所求;
S2.2:根据式(6)计算其移动均值bj+1,并作为新的起始点;
S2.3:若‖bj+1-bj‖<ε,则循环结束,否则继续执行步骤S2.1,ε为容许误差;
S2.4:令聚类中心点为视觉单词,并根据每个聚类中心点包含的样本数量以及它们之间的距离进行一些合并,最终形成视觉词典。
其中,步骤S3具体包括:
通过对每个图像统计所包含视觉单词的分布直方图,将图像转化为模式识别方法可以处理的数据集,即具有相同维度的特征向量集合;
利用SVM、贝叶斯等分类算法对其进行训练和分类,并在训练过程中进行特征权重计算,选择最有效的特征。
(三)有益效果
本发明通过抽取训练图像数据集的联合局部特征,及基于移动均值和区域哈希法的聚类算法对所述联合局部特征进行向量矢量化得到了最具区分度的视觉词典,从而使本发明的分类方法对图像数据集的样本空间分布具有自适应性,可以抵抗各种仿射变换和光照变化,对于局部异常、噪声干扰、以及复杂背景具有更好的鲁棒性,而且具有很强的通用性,可以用于各种类型的图像分类,因而具有较高的实用价值。
附图说明
图1是本发明实施例的一种基于视觉词典的图像分类方法流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本发明的基于视觉词典的图像分类方法包括:
步骤S101,抽取训练图像数据集的联合局部特征。图像的局部区域是具有足够表达能力,又不失鲁棒性的一种特征描述方法。局部特征的提取主要包括特征点的检测、局部区域的选择和归一化,局部特征描述和匹配。
Harris-Affine算子利用如式(1)所示的图像二阶自相关矩阵的特征值度量判断角点:
M = μ ( s , σ I , σ D ) = σ D 2 g ( σ I ) ⊗ L x 2 ( s , σ D ) L x L y ( s , σ D ) L x L y ( s , σ D ) L y 2 ( s , σ D ) - - - ( 1 )
其中,s是图像矩阵,g()是高斯核函数,σI是协同尺度,σD是差分尺度,
Figure GDA00001952213500062
Px(s)表示图像矩阵s在x方向的偏导数,即Lx(s,σD)是图像矩阵s在x方向上的偏导数与差分尺度σD的高斯卷积,同理Ly(s,σD)是图像s在y方向上的偏导数与差分尺度σD的高斯卷积,
Figure GDA00001952213500063
和LxLy是对应方向上的二阶导数的高斯卷积。
其特征值度量如式(2)所示:
cornerness=det(μ(s,σI,σD))-κtrace2(μ(s,σI,σD)) (2)
其中,κ是一个常数,det表示矩阵的行列式值和trace表示矩阵的迹。
为了实现缩放尺度不变性,需要利用高斯-拉普拉斯(Laplacian-of-Gaussian,LoG)度量来自动选择特征尺度,如式(3)所示:
det(LoG(s,σ))=σ2det(Lxx(s,σ)+Lyy(s,σ)) (3)
其中Lxx和Lyy是对应方向上的二阶导数的高斯卷积,其中特征尺度σ为协同尺度σI或差分尺度σD
最后,为了适应各项异性情况,需要修改式(1),用尺度的协方差矩阵对仿射变换进行规范化,转化M到LoG能够处理的范围,如式(4)所示:
M=μ(s,∑I,∑D)=det(∑D)g(∑I)×(▽L(s,∑D)▽L(s,∑D)T) (4)
其中∑I,∑D分别是协同尺度和差分尺度的协方差矩阵,▽L()表示求解图像矩阵s的二阶差分矩阵。
通过以上步骤,确定角点位置,并计算规范化仿射变换之后的特征尺度,Harris-Affine算子得到局部区域集合H={h}。
MSER算子也称最大稳定性极值区域检测算子,其中极值区域指的是灰度值大于或小于其边界上的点,且内部点的灰度值均大于或小于阈值k的一个连通区域;而最大稳定性极值区域是指一系列嵌套的极值区域中面积变化率极小的区域。
MSER算子的主要步骤是:
(1)按灰度值大小对像素排序;
(2)按序将像素逐渐添加到空白图像,并记录相应连通成分及其面积(灰度值的函数);
(3)根据面积函数变化率的局部极小值确定MSER,最终得到局部区域集合E={e}。
使用高斯差分算子DoG来确定特征尺度,DoG可以近似表示LoG,但计算量比LoG小。DoG定义如(5)所示:
DoG(s,σ)=L(s,kσ)+L(s,k) (5)
其中σ是特征尺度,k是常数,L是尺度空间函数,用于在各个尺度上对图像进行平滑,从而建立DoG金字塔尺度空间,得到各个尺度上的平滑图像后,SIFT算子将每个点与相邻的8个点以及上下层各9个点相比较,通过计算该点是否是极大值或极小值点来判断是否为特征点,同时利用梯度方向来判断该点的主方向,SIFT算子得到的特征点集合记为Q={q}。
Harris-Affine算子和MSER算子提取出来的都是一个局部区域,面积一般较大且数量一般较少;SIFT通过(Difference of Gaussian,DoG)提取出来的特征点一般数量较多但代表的区域面积较小。一般局部区域面积越大,其区分度就越高,识别的准确度也越高,但该特征的可重复性就降低了,因此本发明中使用了联合局部特征,充分利用各种算子的优点,避免其不足,从而提高识别的效率。
Harris-Affine算子提取出来的局部区域集合为H={h},MSER算子提取出来的局部区域集合为E={e},SIFT提取出来的特征点集合为Q={q},则联合特征可以由式来定义:
U = { u | u ∈ Qand ( u ⋐ H or u ⋐ E ) }
联合局部特征是用局部区域筛选SIFT特征点得到的,它综合考虑了区分度和可重复性。
步骤S102,通过基于移动均值和区域哈希法的聚类算法对所述联合局部特征进行向量矢量化,从而选择聚类中心个数,以形成视觉词典。
视觉词典是由具有代表性的局部区域构成的,一般是利用k-means算法,以k个聚类中心点作为视觉单词。但k-means算法具有容易陷入局部极值、不稳定、不鲁棒、必须预先确定k、复杂度高等缺陷,因此,本发明提出了基于均值移动的视觉词典形成算法。
均值移动算法利用核函数处理不同的样本空间分布,并自动寻找样本空间中的概率密度极值点。迭代过程如式(6)所示:
b j + 1 = Σ i = 1 n G ( a i - b j r ) w ( a i ) a i Σ i = 1 n G ( a i - b j r ) w ( a i ) - - - ( 6 )
ai和bj是d维图像局部特征向量空间的样本点,给定初始样本点bj,容许误差ε,单位高斯核函数G(),w(ai)表示样本点ai的权重系数,n表示样本空间的样本点总数,则均值移动算法将循环执行以下三步:
(1)寻找与bj的距离小于r的相邻点集合;
(2)根据式(6)计算其移动均值bj+1,作为新的起始点;
(3)若‖bj+1-bj‖<ε,则循环结束,否则继续执行第(1)步。
均值移动算法在大规模高维数据集上应用的主要瓶颈就在于迭代过程的第一步,原始的Mean-Shift算法将扫描整个样本空间中的n个样本点,来判断它的核函数是否覆盖bj。为了改进最近邻查询,本发明的改进策略是基于区域哈希方法。
对d维欧式空间X进行T次切分,每次切分需要随机选定Z维,建立不等式,并用布尔向量记录切分得到的子空间。如在随机选定的某一维dz上,取一个随机值vz,这个值在整个样本空间第dz维的值域范围之内。然后就可以根据公式(7)来对样本点ai进行切分:
a i , d z ≤ v z , i = 1,2 , . . . , n - - - ( 7 )
表示第i个样本点ai的第dz维向量的值。利用哈希函数,使得某次切分中同一子空间中的样本点属于同一个哈希槽,因此每个样本点将属于T个哈希槽。寻找样本点bj的最近邻,只需根据T组式(7)计算T次bj对应的布尔向量及对应的T个哈希槽Ct,则它们的并集即为所求。
步骤S103,根据所述视觉词典生成图像的特征表示,以建立图像分类器。在得到视觉词典后,将通过对每个图像统计所包含视觉单词的分布直方图将其转化为模式识别方法可以处理的数据集,即具有相同维度的特征向量集合。然后利用SVM、贝叶斯等分类算法对其进行训练和分类,并在训练过程中进行特征权重计算,选择最有效的特征,也就是视觉单词进行处理。
步骤S104,根据所述,在训练图像数据集上训练好图像分类器后,利用该分类器对测试图像数据集中的图像进行分类。
下面以一个例子来具体说明本发明。对于从ukbench(http://vis.uky.edu/~stewe/ukbench)图像数据集中选取的25类一共100张图像,抽取了68749个联合局部特征,并用128维的SIFT描述算子对其进行描述。然后用基于均值移动的聚类算法的形成视觉词典,得到100张图像的特征表示,并将其按照3:1的比例切分为训练集和测试集,用SVM算法进行分类。最终聚类时间是794s,分类准确度为84%。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (5)

1.一种基于视觉词典的图像分类方法,其特征在于,包括以下步骤:
S1:抽取训练图像数据集的联合局部特征;具体包括:
S1.1:利用Harris-Affine算子提取训练图像数据集的局部区域集合H={h};
S1.2:利用MSER算子提取训练图像数据集的局部区域集合E={e};
S1.3:利用SIFT算子提取训练图像数据集的特征点集合为Q={q};
S1.4:根据S1.1~S1.3得到所述联合局部特征为:
U = { u | u ∈ Qand ( u ⋐ H or u ⋐ E ) } ;
S2:通过基于移动均值和区域哈希法的聚类算法对所述联合局部特征进行向量矢量化,从而选择聚类中心个数,以形成视觉词典;具体包括:
对于步骤S1得到的d维图像局部特征向量空间,均值移动算法利用核函数处理不同的样本空间分布,并自动查找样本空间中的概率密度极值点,迭代过程如式(6)所示:
b j + 1 = Σ i = 1 n G ( a i - b j r ) w ( a i ) a i Σ i = 1 n G ( a i - b j r ) w ( a i ) - - - ( 6 )
其中,ai和bj是d维图像局部特征向量空间的样本点,G()是单位高斯核函数,w(ai)表示样本点ai的权重系数,n表示样本空间的样本点总数;
迭代步骤包括:
S2.1:查找与bj的距离小于r的相邻点集合,具体查找方式为:
对d维欧式空间X进行T次切分,每次切分需要随机选定Z维,建立不等式,并用布尔向量记录切分得到的子空间,在随机选定的某一维dz上,取一个随机值vz,这个值在整个样本空间第dz维的值域范围之内,根据式(7)来对样本点ai进行切分:
a i , d z ≤ v z , i = 1,2 , . . . , n - - - ( 7 )
Figure FDA00001952213400022
表示第i个样本点ai的第dz维向量的值,
利用哈希函数,使得切分中同一子空间中的样本点属于同一个哈希槽,每个样本点将属于T个哈希槽,寻找样本点bj的最近邻,只需根据T组公式(7)计算T次bj对应的布尔向量及对应的T个哈希槽Ct,则它们的并集即为所求;
S2.2:根据式(6)计算其移动均值bj+1,并作为新的起始点;
S2.3:若‖bj+1-bj‖<ε,则循环结束,否则继续执行步骤S2.1,ε为容许误差;
S2.4:令聚类中心点为视觉单词,并根据每个聚类中心点包含的样本数量以及它们之间的距离进行一些合并,最终形成视觉词典;
S3:根据所述视觉词典生成图像的特征表示,以建立图像分类器;
S4:根据所述图像分类器分类所述训练图像数据集中的图像。
2.如权利要求1所述的基于视觉词典的图像分类方法,其特征在于,所述步骤S1.1具体包括:
Harris-Affine利用公式(1)所示的图像二阶自相关矩阵的特征值度量判断角点:
M = μ ( s , σ I , σ D ) = σ D 2 g ( σ I ) ⊗ L x 2 ( s , σ D ) L x L y ( s , σ D ) L x L y ( s , σ D ) L y 2 ( s , σ D ) - - - ( 1 )
其中,s是图像矩阵,g()是高斯核函数,σI是协同尺度,σD是差分尺度,
Figure FDA00001952213400025
Px(s)表示图像矩阵s在x方向的偏导数,即Lx(s,σD)是图像矩阵s在x方向上的偏导数与差分尺度σD的高斯卷积,同理Ly(s,σD)是图像s在y方向上的偏导数与差分尺度σD的高斯卷积,
Figure FDA00001952213400026
是图像s分别在x方向上和y方向上的二阶导数与差分尺度σD的高斯卷积,LxLy是图像s在x方向和y方向上分别求导所得的二阶导数与差分尺度σD的高斯卷积;
其特征值度量如公式(2)所示:
cornerness=det(μ(s,σI,σD))-κtrace2(μ(s,σI,σD))  (2)
其中,κ为常数;det表示矩阵的行列式值和trace表示矩阵的迹;
利用高斯-拉普拉斯LoG度量以自动选择特征尺度,LoG如公式(3)所示:
det(LoG(s,σ))=σ2det(Lxx(s,σ)+Lyy(s,σ))    (3)
其中Lxx和Lyy是图像s分别在x方向上和y方向上的二阶导数与特征尺度σ的高斯卷积,其中特征尺度σ为协同尺度σI或差分尺度σD
用所述特征尺度的协方差矩阵对仿射变换进行规范化,转化公式(1)的M到LoG能够处理的范围,如式(4)所示:
M=μ(s,∑I,∑D)=det(∑D)g(∑I)×(▽L(s,∑D)▽L(s,∑D)T)  (4)
其中∑I,∑D分别是协同尺度σI和差分尺度σD的协方差矩阵,▽L()表示求解图像矩阵s的二阶差分矩阵;
通过以上步骤,确定角点位置,并计算规范化仿射变换之后的特征尺度,Harris-Affine算子得到局部区域集合H={h}。
3.如权利要求1所述的基于视觉词典的图像分类方法,其特征在于,所述步骤S1.2具体包括:
对所述训练图像数据集中的图像按灰度值大小对像素排序;
按所述排序将像素逐渐添加到空白图像,并记录相应连通成分及其面积函数,所述面积函数为灰度值的函数;
根据所述面积函数变化率的局部极小值确定MSER,最终得到局部区域集合E={e}。
4.如权利要求2所述的基于视觉词典的图像分类方法,其特征在于,所述步骤S1.3具体包括:
使用高斯差分算子DoG来确定特征尺度,DoG定义如(5)所示:
DoG(s,σ)=L(s,kσ)+L(s,k)  (5)
其中σ是特征尺度,k为常数,L是尺度空间函数,用于在各个尺度上对图像进行平滑,从而建立DoG金字塔尺度空间,得到各个尺度上的平滑图像后,SIFT算子将每个点与相邻的8个点以及上下层各9个点相比较,通过计算该点是否是极大值或极小值点来判断是否为特征点,同时利用梯度方向来判断该点的主方向,SIFT算子得到的特征点集合记为Q={q}。
5.如权利要求1所述的基于视觉词典的图像分类方法,其特征在于,步骤S3具体包括:
通过对每个图像统计所包含视觉单词的分布直方图,将图像转化为模式识别方法可以处理的数据集,即具有相同维度的特征向量集合;
利用SVM或贝叶斯分类算法对其进行训练和分类,并在训练过程中进行特征权重计算,选择最有效的特征。
CN 201110175101 2011-06-27 2011-06-27 基于视觉词典的图像分类方法 Active CN102208038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110175101 CN102208038B (zh) 2011-06-27 2011-06-27 基于视觉词典的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110175101 CN102208038B (zh) 2011-06-27 2011-06-27 基于视觉词典的图像分类方法

Publications (2)

Publication Number Publication Date
CN102208038A CN102208038A (zh) 2011-10-05
CN102208038B true CN102208038B (zh) 2012-12-26

Family

ID=44696858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110175101 Active CN102208038B (zh) 2011-06-27 2011-06-27 基于视觉词典的图像分类方法

Country Status (1)

Country Link
CN (1) CN102208038B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609732B (zh) * 2012-01-31 2013-09-25 中国科学院自动化研究所 基于泛化视觉词典图的物体识别方法
CN102930302B (zh) * 2012-10-18 2016-01-13 山东大学 基于在线序贯极限学习机的递增式人体行为识别方法
CN102932605B (zh) * 2012-11-26 2014-12-24 南京大学 一种视觉感知网络中摄像机的组合选择方法
CN103064985B (zh) * 2013-01-28 2015-07-22 北京理工大学 基于先验知识的图像检索方法
CN103295032B (zh) * 2013-05-15 2016-04-13 西安电子科技大学 基于空间Fisher向量的图像分类方法
CN103295026B (zh) * 2013-05-15 2016-04-13 西安电子科技大学 基于空间局部聚合描述向量的图像分类方法
CN103425996B (zh) * 2013-08-01 2017-08-25 华南理工大学 一种并行分布式的大规模图像识别方法
CN103810487A (zh) * 2014-01-24 2014-05-21 深圳大学 一种海洋航拍图像的目标检测与识别方法及系统
CN103839074B (zh) * 2014-02-24 2017-02-08 西安电子科技大学 一种基于素描线段信息和空间金字塔匹配的图像分类方法
CN104239398B (zh) * 2014-07-02 2017-11-21 中国科学院计算技术研究所 一种基于密集子图的视觉词典生成方法及其系统
CN104778476B (zh) * 2015-04-10 2018-02-09 电子科技大学 一种图像分类方法
CN105005789B (zh) * 2015-07-01 2018-04-03 北京理工大学 一种基于视觉词汇的遥感图像地物分类方法
CN105488509A (zh) * 2015-11-19 2016-04-13 Tcl集团股份有限公司 基于局部色度特征的图像聚类方法及系统
CN105488502B (zh) * 2015-11-27 2018-12-21 北京航空航天大学 目标检测方法与装置
CN105512677B (zh) * 2015-12-01 2019-02-01 南京信息工程大学 基于Hash编码的遥感图像分类方法
CN105654122B (zh) * 2015-12-28 2018-11-16 江南大学 基于核函数匹配的空间金字塔物体识别方法
CN106446923B (zh) * 2016-05-25 2019-08-06 哈尔滨工程大学 基于角点匹配的医学图像分类方法
CN106203445B (zh) * 2016-06-30 2019-05-07 北京小白世纪网络科技有限公司 一种基于大规模词典迁移的词典构造方法
CN106228181B (zh) * 2016-07-12 2019-05-31 广东智嵌物联网技术有限公司 一种基于视觉词典的图像分类方法及系统
TWI649659B (zh) * 2017-10-27 2019-02-01 財團法人工業技術研究院 自動光學檢測影像分類方法、系統及含有該方法之電腦可讀取媒體
CN108830842B (zh) * 2018-06-04 2022-01-07 哈尔滨工程大学 一种基于角点检测的医学图像处理方法
US11315231B2 (en) 2018-06-08 2022-04-26 Industrial Technology Research Institute Industrial image inspection method and system and computer readable recording medium
CN109460777B (zh) * 2018-10-11 2021-09-07 北京朗镜科技有限责任公司 图片分类方法、装置及计算机可读存储介质
CN109858570A (zh) * 2019-03-08 2019-06-07 京东方科技集团股份有限公司 图像分类方法及系统、计算机设备及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7813561B2 (en) * 2006-08-14 2010-10-12 Microsoft Corporation Automatic classification of objects within images
CN101763502B (zh) * 2008-12-24 2012-07-25 中国科学院自动化研究所 一种高效的敏感图像检测方法及其系统
CN101667293A (zh) * 2009-09-24 2010-03-10 哈尔滨工业大学 对多种传感器遥感图像进行高精度稳健配准的方法

Also Published As

Publication number Publication date
CN102208038A (zh) 2011-10-05

Similar Documents

Publication Publication Date Title
CN102208038B (zh) 基于视觉词典的图像分类方法
CN107679078B (zh) 一种基于深度学习的卡口图像车辆快速检索方法及系统
Ahmed et al. Content based image retrieval using image features information fusion
CN108197538B (zh) 一种基于局部特征和深度学习的卡口车辆检索系统及方法
Xu et al. Unsupervised part-based weighting aggregation of deep convolutional features for image retrieval
Zahisham et al. Food recognition with resnet-50
Lampert et al. Efficient subwindow search: A branch and bound framework for object localization
Gu et al. Recognition using regions
Bodesheim et al. Local novelty detection in multi-class recognition problems
Qiu et al. Mining discriminative food regions for accurate food recognition
US20140219563A1 (en) Label-embedding for text recognition
Tarawneh et al. Invoice classification using deep features and machine learning techniques
CN109063649B (zh) 基于孪生行人对齐残差网络的行人重识别方法
JP2008310796A (ja) コンピュータにより実施される、訓練データから分類器を構築し、前記分類器を用いてテストデータ中の移動物体を検出する方法
CN103679192A (zh) 基于协方差特征的图像场景类型判别方法
CN105574063A (zh) 基于视觉显著性的图像检索方法
CN101140623A (zh) 一种基于支持向量机的视频对象识别方法及系统
CN112883839A (zh) 基于自适应样本集构造与深度学习的遥感影像解译方法
Ahmed et al. Deep image sensing and retrieval using suppression, scale spacing and division, interpolation and spatial color coordinates with bag of words for large and complex datasets
Puig et al. Application-independent feature selection for texture classification
Fidler et al. A coarse-to-fine taxonomy of constellations for fast multi-class object detection
Zhao et al. Combining multiple SVM classifiers for adult image recognition
Sun et al. Multiple-kernel, multiple-instance similarity features for efficient visual object detection
CN117036904A (zh) 注意力引导的半监督玉米高光谱图像数据扩充方法
CN105718858A (zh) 一种基于正负广义最大池化的行人识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant