CN113902930B - 一种优化词袋模型的图像分类方法 - Google Patents
一种优化词袋模型的图像分类方法 Download PDFInfo
- Publication number
- CN113902930B CN113902930B CN202111087243.XA CN202111087243A CN113902930B CN 113902930 B CN113902930 B CN 113902930B CN 202111087243 A CN202111087243 A CN 202111087243A CN 113902930 B CN113902930 B CN 113902930B
- Authority
- CN
- China
- Prior art keywords
- visual
- words
- dictionary
- image
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000000007 visual effect Effects 0.000 claims abstract description 143
- 239000013598 vector Substances 0.000 claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims abstract description 15
- 238000011176 pooling Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 8
- 238000003064 k means clustering Methods 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种优化词袋模型的图像分类方法,所述方法包括:提取图像局部特征;对局部特征聚类生成视觉字典;计算视觉单词显著性生成显著性字典;根据显著性字典对图像局部特征进行加权局部约束线性编码;对编码系数矩阵进行空间金字塔池化生成图像向量表示;将得到的图像向量表示输入到HIK交叉核函数SVM分类器中进行分类。本发明提出的显著性字典考虑了视觉单词之间的内在关系,减少了视觉字典中的冗余信息,提升了视觉字典的显著性和判别力。另外提出的加权局部约束线性编码,在将局部特征用视觉单词表示的过程中,考虑了K近邻单词之间的位置关系,为单词设置了权重,减小了重构误差,提升了分类性能。
Description
技术领域
本发明涉及图像处理技术,尤其是一种优化词袋模型的图像分类方法,属于计算机视觉领域。
背景技术
图像分类,即根据图像的语义信息将图像区分开来,越来越成为计算机视觉领域的研究热点。随着人工智能和大数据的不断发展,图像分类技术在智能安防和智能交通等领域具有广泛的应用,逐渐成为机器视觉领域中的关键环节。面对产生的海量数字图像,仅仅依靠人工对其进行分类和标注已经远远无法满足需求,因此图像自动分类方法的研究显得十分必要。
图像分类问题的关键是如何更加有效的对图像的语义信息进行表示。空间金字塔模型因其简单高效迅速发展成为当前使用最为广泛的图像表示方法之一。该模型首先从图像中提取SIFT特征点作为局部特征描述符,并对训练图像的局部特征描述符进行k-means聚类生成视觉字典,然后将每幅图像的局部特征描述符进行编码,最后将图像分层划分为1*1、2*2、4*4的子图像块,统计各子图像块中视觉单词的出现频次构成直方图表示,并将直方图表示按照一定权重串联,构成最终的图像表示。特征编码即将局部特征描述符用视觉字典中的视觉单词来表示,是生成图像表示的关键步骤。最常用的特征编码方法是VQ编码,将局部特征描述符通过最近邻的视觉单词来表示,由于VQ编码仅由一个视觉单词来表示局部特征描述符,这可能造成相似的局部特征描述符的编码不相似;SC编码为了弥补VQ编码的缺陷,将局部特征描述符通过K个视觉单词的稀疏线性组合来表示,但稀疏性可能使局部特征描述符选择多个差异较大的视觉单词来表示;LLC编码在SC编码的基础上进一步考虑了局部性,将局部特征描述符通过K个近邻的视觉单词的线性组合来表示。
综上所述,传统的视觉金字塔模型的缺陷有:第一,通过k-means聚类生成视觉字典,忽略了视觉字典中不同视觉单词之间的内在关系,导致视觉字典空间信息的丢失;第二,在特征编码过程中,将局部特征描述符用视觉单词表示时,将K个近邻单词视为同等重要,并未考虑视觉单词的权重问题,导致较大的量化误差。因此,基于上述问题亟需提出一种更加高效的图像分类方法。
发明内容
本发明需要解决的技术问题是提供一种优化词袋模型的图像分类方法,提高图像分类准确率,避免视觉字典空间信息的丢失,减少量化误差。
为解决上述技术问题,本发明所采用的技术方案是:
一种优化词袋模型的图像分类方法,包括以下步骤:
步骤1:提取局部特征描述符;
对训练图像和测试图像提取密集SIFT特征并生成128维的局部特征描述符;
步骤2:生成视觉字典;
对训练图像中的局部特征描述符进行k-means聚类生成视觉字典;
步骤3:生成显著性字典;
考虑视觉字典中视觉单词之间的内在关系,通过计算视觉单词之间的相似度,为每个视觉单词赋予一个权重,来突出显著性单词,弱化相似性单词,进而提高视觉字典整体的显著性和判别力;
步骤4:加权局部约束线性编码;
将局部特征描述符分配给最近邻的K个视觉单词并考虑局部特征描述符与近邻单词的位置关系,根据位置关系为近邻单词设置不同的加权系数,从而生成局部特征描述符通过视觉单词表示的编码系数向量;
步骤5:空间金字塔池化;
将图像分层划分成1*1、2*2、4*4的子图像块,分别统计各子图像块中视觉单词的分布情况,并按照一定的权重聚合构成图像的向量表示;
步骤6:SVM分类;
将待分类图像的向量表示输入到HIK交叉核函数的线性SVM分类器中,对图像进行分类。
本发明技术方案的进一步改进在于:所述步骤3包括:
步骤3.1:对生成的视觉字典B∈R128×M每列计算均值得到向量C∈R1×M,其中任意一个元素ci表示一个视觉单词的均值;
步骤3.2:用视觉字典B∈R128×M的每一列减去视觉单词均值向量C∈R1×M,得到视觉字典的差值矩阵D∈R128×M;
步骤3.3:通过计算E=D·DT得到视觉字典B∈R128×M的相关性矩阵E∈RM×M,其中每一个元素eij表示视觉字典中视觉单词xi与视觉单词xj的相关性;
步骤3.4:令F=ones(M)-E,并对F∈RM×M每列求和得到G∈RM×1,再通过S=G./mean(G)对G∈RM×1进行归一化,得到视觉字典的显著性表示S∈RM×1,其中si表示视觉单词bi的显著性;
步骤3.5:通过计算视觉单词与视觉单词显著性相乘,得到显著性字典A=[s1b1,...,sibi,...,sMbM]∈R128×M。
本发明技术方案的进一步改进在于:所述步骤4包括:步骤4.1:计算局部特征描述符与视觉单词的欧式距离,寻找局部特征最近邻的K个视觉单词;
步骤4.2:通过计算K个近邻单词的位置关系,在编码过程中为每个近邻单词设置不同的权重;
步骤4.3:通过求解加权局部约束线性编码目标函数,获得图像的编码系数表示Z=[z1,...,zi,...,zN]∈RM×N。
本发明技术方案的进一步改进在于:所述步骤4.3中的通过求解加权局部约束线性编码目标函数包括:
其中,表示局部约束,通过计算局部特征与视觉单词的欧式距离选择K个近邻的视觉单词,/>表示对应元素相乘,λ1表示参数,用于调节局部约束项;
其中,
dist(xi,aj)=||xi-aj||2,表示特征xi与视觉单词bj之间的欧氏距离,σ为参数,用于调节di的衰减速度;
其中,表示位置加权约束,通过计算K个近邻单词之间的位置关系,在编码过程中为其设置不同的权重,/>表示对应元素相乘,λ2表示参数,用于调节位置加权约束项;
其中,NK(xi)表示局部特征xi的K个近邻单词,wi∈RM×1。
本发明技术方案的进一步改进在于:所述步骤4.3中的通过求解加权局部约束线性编码目标函数包括:
目标函数拉格朗日公式:
通过上述公式对zi求偏导,得到解为:
其中,zi表示一幅图像中第i个局部特征的编码系数向量,求解图像中所有局部特征的编码系数向量便可得到图像由视觉字典表示的编码系数矩阵。
由于采用了上述技术方案,本发明取得的技术进步是:
本发明减少了视觉字典的冗余信息,提升了视觉字典的显著性和判别力,同时减小了编码过程中的重构误差,有效提高了图像分类精度。
该方法在生成视觉字典时并不是仅仅对从图像中提取的局部特征描述符进行k-means聚类,而是在聚类完成后考虑视觉单词中视觉字典之间的内在关系,计算视觉单词之间的相似度,为相似的视觉单词赋予较小的权重,为显著性的单词赋予较大的权重,从而来突出显著性单词,增强视觉字典的判别力。
本发明还提出了一种基于局部约束线性编码(LLC)改进的编码方法加权局部约束线性编码,该方法针对LLC编码在将局部特征用K个近邻单词表示时,未考虑近邻单词的权重,将近邻单词视为同等重要的缺点进行改进,提出的方法在编码时根据近邻单词与局部特征之间的位置关系,为更近邻的单词设置更大的权重,从而来减小重构误差。利用上述方法生成的显著性字典对特征进行加权约束编码生成编码稀疏矩阵,再经过空间金字塔池化生成图像表示,并通过SVM对图像进行分类,考虑了视觉字典的内在关系,减小了编码时的重构误差,提高了分类精度。在MSRC数据集上的实验结果表明,本发明提高了传统词袋模型的分类准确率,解决了现有的基于词袋模型的图像分类方法中存在的视觉字典缺乏判别力和显著性、编码误差较大等问题。
本发明提出了显著性字典的计算方法,有效利用了视觉单词的位置关系,综合考虑了视觉单词之间的内在关系,增强了显著性单词权重,减少了冗余信息,从而提高了视觉字典的显著性和判别力;
本发明提出加权局部约束线性编码方法,在编码过程中,将局部特征描述符用K近邻个视觉单词表示时,考虑了K近邻个视觉单词之间的位置关系并为每个视觉单词赋予了权重,有效的减少了重构误差。
附图说明
图1为本发明的流程图;
图2为本发明生成显著性字典的流程图;
图3为本发明加权局部约束线性编码示意图。
具体实施方式
下面结合实施例对本发明做进一步详细说明,以下实施例仅用于更加清楚地说明本发明的技术方法,而不能以此来限制本发明的保护范围:
如图1至图3所示,一种优化词袋模型的图像分类方法,该方法在生成视觉字典时并不是仅仅对从图像中提取的局部特征描述符进行k-means聚类,而是在聚类完成后考虑视觉单词中视觉字典之间的内在关系,计算视觉单词之间的相似度,为相似的视觉单词赋予较小的权重,为显著性的单词赋予较大的权重,从而来突出显著性单词,增强视觉字典的判别力。本发明还提出了一种基于局部约束线性编码(LLC)改进的编码方法加权局部约束线性编码,该方法针对LLC编码在将局部特征用K个近邻单词表示时,未考虑近邻单词的权重,将近邻单词视为同等重要的缺点进行改进,提出的方法在编码时根据近邻单词与局部特征之间的位置关系,为更近邻的单词设置更大的权重,从而来减小重构误差。利用上述方法生成的显著性字典对特征进行加权约束编码生成编码稀疏矩阵,再经过空间金字塔池化生成图像表示,并通过SVM对图像进行分类,考虑了视觉字典的内在关系,减小了编码时的重构误差,提高了分类精度。在MSRC数据集上的实验结果表明,本发明提高了传统词袋模型的分类准确率,解决了现有的基于词袋模型的图像分类方法中存在的视觉字典缺乏判别力和显著性、编码误差较大等问题。
步骤1:提取局部特征描述符;
对训练图像和测试图像在不同尺度空间寻找关键点,计算出关键点的方向,得到图像的SIFT特征,每幅图像生成128维的特征描述符;
本步骤中,提取的图像局部特征描述符向量集合为:
X=[x1,x2,...,xN]∈R128×N;
其中,xi表示任意一个局部特征描述符,N表示一幅图像中提取的局部特征描述符的总数,128表示每个局部特征描述符的维数;
步骤2:生成视觉字典;
对训练图像中的局部特征描述符进行k-means聚类生成视觉字典;
本步骤中,生成的视觉字典为:
B=[b1,b2,...,bM]∈R128×M;
其中,bi表示视觉字典中任意一个视觉单词,M表示视觉字典中视觉单词的总个数,每个单词的维数为128;
步骤3:生成显著性字典;
考虑视觉字典中视觉单词之间的内在关系,通过计算视觉单词之间的相似度,为每个视觉单词赋予一个权重,来突出显著性单词,弱化相似性单词,进而提高视觉字典整体的显著性和判别力,具体流程如图2所示;
本步骤中,所述生成显著性字典具体包括以下步骤:
步骤3.1:对视觉字典B∈R128×M每列计算均值得到向量C∈R1×M,其中任意一个元素ci表示一个视觉单词的均值;
步骤3.2:用视觉字典B∈R128×M的每一列减去视觉单词均值向量C∈R1×M,得到视觉字典的差值矩阵D∈R128×M;
步骤3.3:通过计算E=D·DT得到视觉字典B∈R128×M的相关性矩阵E∈RM×M,其中每一个元素eij表示视觉字典中视觉单词xi与视觉单词xj的相关性;
步骤3.4:令F=ones(M)-E,并对F∈RM×M按列求和得到G∈RM×1,再通过S=G./mean(G)对G∈RM×1进行归一化,得到视觉字典的显著性表示S∈RM×1,其中si表示视觉单词bi的显著性;
步骤3.5:通过计算视觉单词与视觉单词显著性相乘,得到显著性字典A=[s1b1,...,sibi,...,sMbM]∈R128×M;
步骤4:加权局部约束线性编码;
将局部特征描述符分配给最近邻的K个视觉单词并考虑局部特征描述符与近邻单词的位置关系,根据位置关系为近邻单词设置不同的加权系数,从而生成特征局部描述符通过视觉单词表示的编码系数向量,具体示意图如图3所示;
本步骤中,加权局部约束线性编码具体包括以下步骤:
步骤4.1:计算局部特征描述符与视觉单词的欧式距离,寻找局部特征最近邻的K个视觉单词;
步骤4.2:通过计算K个近邻单词的位置关系,在编码过程中为每个近邻单词设置不同的权重;
步骤4.3:通过求解目标函数,获得图像的编码系数矩阵Z=[z1,...,zi,...,zN]∈RM×N;
其中,所述加权局部约束线性编码的目标函数:
其中第一部分,表示局部约束,通过计算局部特征与视觉单词的欧式距离选择K个近邻的视觉单词,/>表示对应元素相乘,λ1表示参数,用于调节局部约束项,本文中取λ1=0.01;
其中,
dist(xi,aj)=||xi-aj||2,表示特征xi与视觉单词bj之间的欧氏距离,σ为参数,用于调节di的衰减速度,本文取σ=0.0001;
第二部分,示位置加权约束,通过计算K个近邻单词之间的位置关系,在编码过程中为其设置不同的权重,/>表示对应元素相乘,λ2表示参数,用于调节位置加权约束项,本文中取λ2=0.01;
其中,NK(xi)表示局部特征xi的K个近邻单词,wi∈RM×1;
对所述加权局部约束线性编码的目标函数求解:
目标函数拉格朗日公式:
通过上述公式对zi求偏导,得到解为:
其中,zi表示一幅图像中第i个局部特征的编码系数向量,求解图像中所有局部特征的编码系数向量便可得到图像的编码系数矩阵;
步骤5:空间金字塔池化;
将图像分层划分成1*1、2*2、4*4的子图像块,分别统计各子图像块中视觉单词的分布情况,并按照一定的权重聚合构成图像的向量表示;
本步骤中,空间金字塔池化具体包括以下步骤:
步骤5.1:将图像分成三层,第一层图像保持不变,第二层图像均匀划分成2*2的子图像块,第三层图像均匀划分成4*4的子图像块;
步骤5.2:分别统计每层图像每个图像块中视觉单词的分布情况,选取每个视觉单词中编码系数的最大值作为各图像块的向量表示;
步骤5.3:将每层图像每个图像块的向量表示按权重聚合构成图像的向量表示;
步骤6:SVM分类;
将待分类图像的向量表示输入到HIK交叉核函数的线性SVM分类器中,对图像进行分类。
具体举例:
MSRC数据集包含18个类别,又从MSRC-21数据集中选出3个类别共21个类别图像进行实验,其中每个类别中选出30幅图像作为训练图像,在余下的图像中再选出30幅作为测试图像,共使用1260幅图像进行的实验。本发明主要评估SPM+显著性字典+加权约束编码方法对数据集的分类效果。实验结果显示,与传统的空间金字塔模型(SPM)相比,加入提出的显著性字典方法,突出了字典中显著性单词,弱化相似性单词,分类准确率提升了1.9%;加入提出的加权约束编码方法,有效减少了编码过程的量化误差,分类准确率提升了1.1%;同时加入显著性字典和加权约束编码方法,分类准确率有了更大的提升为3%,与其他方法相比,展现出了更好的性能。
表1MSRC数据集分类结果
本发明提出的方法考虑了视觉单词之间的内在关系,减少了视觉字典的冗余信息,提升了视觉字典的显著性和判别力,同时减小了编码过程中的重构误差,有效提高了图像分类精度。
本文应用了具体实例对本发明原理及实施过程进行了阐述,以上实例的说明只是为了帮助更好地理解本发明的方法以及核心思想,并不是对本发明方法的限制;应当指出,对于本技术领域的一般技术人员,依据本发明原理,做出的没有创造性的改进,均应视为本发明的保护范围。
Claims (4)
1.一种优化词袋模型的图像分类方法,其特征在于:包括以下步骤:
步骤1:提取局部特征描述符;
对训练图像和测试图像提取密集SIFT特征并生成128维的局部特征描述符;
步骤2:生成视觉字典;
对训练图像中的局部特征描述符进行k-means聚类生成视觉字典;
步骤3:生成显著性字典;
考虑视觉字典中视觉单词之间的内在关系,通过计算视觉单词之间的相似度,为每个视觉单词赋予一个权重,来突出显著性单词,弱化相似性单词,进而提高视觉字典整体的显著性和判别力;
步骤4:加权局部约束线性编码;
将局部特征描述符分配给最近邻的K个视觉单词并考虑局部特征描述符与近邻单词的位置关系,根据位置关系为近邻单词设置不同的加权系数,从而生成局部特征描述符通过视觉单词表示的编码系数向量;
所述步骤4包括:步骤4.1:计算局部特征描述符与视觉单词的欧式距离,寻找局部特征最近邻的K个视觉单词;
步骤4.2:通过计算K个近邻单词的位置关系,在编码过程中为每个近邻单词设置不同的权重;
步骤4.3:通过求解加权局部约束线性编码目标函数,获得图像的编码系数表示Z=[z1,...,zi,...,zN]∈RM×N;
步骤5:空间金字塔池化;
将图像分层划分成1*1、2*2、4*4的子图像块,分别统计各子图像块中视觉单词的分布情况,并按照一定的权重聚合构成图像的向量表示;
步骤6:SVM分类;
将待分类图像的向量表示输入到HIK交叉核函数的线性SVM分类器中,对图像进行分类。
2.根据权利要求1所述的一种优化词袋模型的图像分类方法,其特征在于:所述步骤3包括:
步骤3.1:对生成的视觉字典B∈R128×M每列计算均值得到向量C∈R1×M,其中任意一个元素ci表示一个视觉单词的均值;
步骤3.2:用视觉字典B∈R128×M的每一列减去视觉单词均值向量C∈R1×M,得到视觉字典的差值矩阵D∈R128×M;
步骤3.3:通过计算E=D·DT得到视觉字典B∈R128×M的相关性矩阵E∈RM×M,其中每一个元素eij表示视觉字典中视觉单词xi与视觉单词xj的相关性;
步骤3.4:令F=ones(M)-E,并对F∈RM×M每列求和得到G∈RM×1,再通过S=G./mean(G)对G∈RM×1进行归一化,得到视觉字典的显著性表示S∈RM×1,其中si表示视觉单词bi的显著性;
步骤3.5:通过计算视觉单词与视觉单词显著性相乘,得到显著性字典A=[s1b1,...,sibi,...,sMbM]∈R128×M。
3.根据权利要求1所述的一种优化词袋模型的图像分类方法,其特征在于:所述步骤4.3中的通过求解加权局部约束线性编码目标函数包括:
其中,表示局部约束,通过计算局部特征与视觉单词的欧式距离选择K个近邻的视觉单词,/>表示对应元素相乘,λ1表示参数,用于调节局部约束项;
其中,
dist(xi,aj)=||xi-aj||2,表示特征xi与视觉单词bj之间的欧氏距离,σ为参数,用于调节di的衰减速度;
其中,表示位置加权约束,通过计算K个近邻单词之间的位置关系,在编码过程中为其设置不同的权重,/>表示对应元素相乘,λ2表示参数,用于调节位置加权约束项;
其中,NK(xi)表示局部特征xi的K个近邻单词,wi∈RM×1。
4.根据权利要求1所述的一种优化词袋模型的图像分类方法,其特征在于:所述步骤4.3中的通过求解加权局部约束线性编码目标函数包括:
目标函数拉格朗日公式:
通过上述公式对zi求偏导,得到解为:
其中,zi表示一幅图像中第i个局部特征的编码系数向量,求解图像中所有局部特征的编码系数向量便可得到图像由视觉字典表示的编码系数矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111087243.XA CN113902930B (zh) | 2021-09-16 | 2021-09-16 | 一种优化词袋模型的图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111087243.XA CN113902930B (zh) | 2021-09-16 | 2021-09-16 | 一种优化词袋模型的图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113902930A CN113902930A (zh) | 2022-01-07 |
CN113902930B true CN113902930B (zh) | 2023-10-27 |
Family
ID=79028680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111087243.XA Active CN113902930B (zh) | 2021-09-16 | 2021-09-16 | 一种优化词袋模型的图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113902930B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239897A (zh) * | 2014-09-04 | 2014-12-24 | 天津大学 | 一种基于自编码器词袋的视觉特征表示方法 |
CN106228181A (zh) * | 2016-07-12 | 2016-12-14 | 广东智嵌物联网技术有限公司 | 一种基于视觉词典的图像分类方法及系统 |
CN107967481A (zh) * | 2017-07-31 | 2018-04-27 | 北京联合大学 | 一种基于局部性约束和显著性的图像分类方法 |
CN108805183A (zh) * | 2018-05-28 | 2018-11-13 | 南京邮电大学 | 一种融合局部聚合描述符和局部线性编码的图像分类方法 |
CN111414958A (zh) * | 2020-03-18 | 2020-07-14 | 燕山大学 | 一种视觉词袋金字塔的多特征图像分类方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103164713B (zh) * | 2011-12-12 | 2016-04-06 | 阿里巴巴集团控股有限公司 | 图像分类方法和装置 |
-
2021
- 2021-09-16 CN CN202111087243.XA patent/CN113902930B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239897A (zh) * | 2014-09-04 | 2014-12-24 | 天津大学 | 一种基于自编码器词袋的视觉特征表示方法 |
CN106228181A (zh) * | 2016-07-12 | 2016-12-14 | 广东智嵌物联网技术有限公司 | 一种基于视觉词典的图像分类方法及系统 |
CN107967481A (zh) * | 2017-07-31 | 2018-04-27 | 北京联合大学 | 一种基于局部性约束和显著性的图像分类方法 |
CN108805183A (zh) * | 2018-05-28 | 2018-11-13 | 南京邮电大学 | 一种融合局部聚合描述符和局部线性编码的图像分类方法 |
CN111414958A (zh) * | 2020-03-18 | 2020-07-14 | 燕山大学 | 一种视觉词袋金字塔的多特征图像分类方法及系统 |
Non-Patent Citations (1)
Title |
---|
"Weakly Supervised Visual Dictionary Learning by Harnessing Image Attributes";Yue Gao.etc;《IEEE TRANSACTIONS ON IMAGE PROCESSING》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113902930A (zh) | 2022-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222218B (zh) | 基于多尺度NetVLAD和深度哈希的图像检索方法 | |
He et al. | A dual global–local attention network for hyperspectral band selection | |
Long et al. | Hierarchical community structure preserving network embedding: A subspace approach | |
CN112765352A (zh) | 基于具有自注意力机制的图卷积神经网络文本分类方法 | |
CN110647907A (zh) | 利用多层分类和字典学习的多标签图像分类算法 | |
Chadha et al. | Voronoi-based compact image descriptors: Efficient region-of-interest retrieval with VLAD and deep-learning-based descriptors | |
Xu et al. | Iterative manifold embedding layer learned by incomplete data for large-scale image retrieval | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
CN115186673A (zh) | 科技信息管理系统及其管理方法 | |
CN114359930A (zh) | 基于融合相似度的深度跨模态哈希方法 | |
CN110188864B (zh) | 基于分布表示和分布度量的小样本学习方法 | |
Chen et al. | Scene image classification using locality-constrained linear coding based on histogram intersection | |
CN108805183B (zh) | 一种融合局部聚合描述符和局部线性编码的图像分类方法 | |
CN107527058A (zh) | 一种基于加权局部特征聚合描述符的图像检索方法 | |
CN114140657A (zh) | 一种基于多特征融合的图像检索方法 | |
JP5833499B2 (ja) | 高次元の特徴ベクトル集合で表現されるコンテンツを高精度で検索する検索装置及びプログラム | |
CN113902930B (zh) | 一种优化词袋模型的图像分类方法 | |
Berahmand et al. | An Improved Deep Text Clustering via Local Manifold of an Autoencoder Embedding | |
CN108536772B (zh) | 一种基于多特征融合和扩散过程重排序的图像检索方法 | |
CN111062409A (zh) | 一种无监督图像特征的提取及分类方法 | |
Li et al. | Otcmr: Bridging heterogeneity gap with optimal transport for cross-modal retrieval | |
CN113642655B (zh) | 基于支持向量机和卷积神经网络的小样本图像分类方法 | |
Bibi et al. | Deep features optimization based on a transfer learning, genetic algorithm, and extreme learning machine for robust content-based image retrieval | |
CN112101267B (zh) | 一种基于深度学习和哈希编码的快速人脸检索方法 | |
Vinoharan et al. | An efficient BoF representation for object classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |