CN113902930B

CN113902930B - 一种优化词袋模型的图像分类方法

Info

Publication number: CN113902930B
Application number: CN202111087243.XA
Authority: CN
Inventors: 李海滨; 张秀菊
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2023-10-27
Anticipated expiration: 2041-09-16
Also published as: CN113902930A

Abstract

本发明公开一种优化词袋模型的图像分类方法，所述方法包括：提取图像局部特征；对局部特征聚类生成视觉字典；计算视觉单词显著性生成显著性字典；根据显著性字典对图像局部特征进行加权局部约束线性编码；对编码系数矩阵进行空间金字塔池化生成图像向量表示；将得到的图像向量表示输入到HIK交叉核函数SVM分类器中进行分类。本发明提出的显著性字典考虑了视觉单词之间的内在关系，减少了视觉字典中的冗余信息，提升了视觉字典的显著性和判别力。另外提出的加权局部约束线性编码，在将局部特征用视觉单词表示的过程中，考虑了K近邻单词之间的位置关系，为单词设置了权重，减小了重构误差，提升了分类性能。

Description

一种优化词袋模型的图像分类方法

技术领域

本发明涉及图像处理技术，尤其是一种优化词袋模型的图像分类方法，属于计算机视觉领域。

背景技术

图像分类，即根据图像的语义信息将图像区分开来，越来越成为计算机视觉领域的研究热点。随着人工智能和大数据的不断发展，图像分类技术在智能安防和智能交通等领域具有广泛的应用，逐渐成为机器视觉领域中的关键环节。面对产生的海量数字图像，仅仅依靠人工对其进行分类和标注已经远远无法满足需求，因此图像自动分类方法的研究显得十分必要。

图像分类问题的关键是如何更加有效的对图像的语义信息进行表示。空间金字塔模型因其简单高效迅速发展成为当前使用最为广泛的图像表示方法之一。该模型首先从图像中提取SIFT特征点作为局部特征描述符，并对训练图像的局部特征描述符进行k-means聚类生成视觉字典，然后将每幅图像的局部特征描述符进行编码，最后将图像分层划分为1*1、2*2、4*4的子图像块，统计各子图像块中视觉单词的出现频次构成直方图表示，并将直方图表示按照一定权重串联，构成最终的图像表示。特征编码即将局部特征描述符用视觉字典中的视觉单词来表示，是生成图像表示的关键步骤。最常用的特征编码方法是VQ编码，将局部特征描述符通过最近邻的视觉单词来表示，由于VQ编码仅由一个视觉单词来表示局部特征描述符，这可能造成相似的局部特征描述符的编码不相似；SC编码为了弥补VQ编码的缺陷，将局部特征描述符通过K个视觉单词的稀疏线性组合来表示，但稀疏性可能使局部特征描述符选择多个差异较大的视觉单词来表示；LLC编码在SC编码的基础上进一步考虑了局部性，将局部特征描述符通过K个近邻的视觉单词的线性组合来表示。

综上所述，传统的视觉金字塔模型的缺陷有：第一，通过k-means聚类生成视觉字典，忽略了视觉字典中不同视觉单词之间的内在关系，导致视觉字典空间信息的丢失；第二，在特征编码过程中，将局部特征描述符用视觉单词表示时，将K个近邻单词视为同等重要，并未考虑视觉单词的权重问题，导致较大的量化误差。因此，基于上述问题亟需提出一种更加高效的图像分类方法。

发明内容

本发明需要解决的技术问题是提供一种优化词袋模型的图像分类方法，提高图像分类准确率，避免视觉字典空间信息的丢失，减少量化误差。

为解决上述技术问题，本发明所采用的技术方案是：

一种优化词袋模型的图像分类方法，包括以下步骤：

步骤1：提取局部特征描述符；

对训练图像和测试图像提取密集SIFT特征并生成128维的局部特征描述符；

步骤2：生成视觉字典；

对训练图像中的局部特征描述符进行k-means聚类生成视觉字典；

步骤3：生成显著性字典；

考虑视觉字典中视觉单词之间的内在关系，通过计算视觉单词之间的相似度，为每个视觉单词赋予一个权重，来突出显著性单词，弱化相似性单词，进而提高视觉字典整体的显著性和判别力；

步骤4：加权局部约束线性编码；

将局部特征描述符分配给最近邻的K个视觉单词并考虑局部特征描述符与近邻单词的位置关系，根据位置关系为近邻单词设置不同的加权系数，从而生成局部特征描述符通过视觉单词表示的编码系数向量；

步骤5：空间金字塔池化；

将图像分层划分成1*1、2*2、4*4的子图像块，分别统计各子图像块中视觉单词的分布情况，并按照一定的权重聚合构成图像的向量表示；

步骤6：SVM分类；

将待分类图像的向量表示输入到HIK交叉核函数的线性SVM分类器中，对图像进行分类。

本发明技术方案的进一步改进在于：所述步骤3包括：

步骤3.1：对生成的视觉字典B∈R^128×M每列计算均值得到向量C∈R^1×M，其中任意一个元素c_i表示一个视觉单词的均值；

步骤3.2：用视觉字典B∈R^128×M的每一列减去视觉单词均值向量C∈R^1×M，得到视觉字典的差值矩阵D∈R^128×M；

步骤3.3：通过计算E＝D·D^T得到视觉字典B∈R^128×M的相关性矩阵E∈R^M×M，其中每一个元素e_ij表示视觉字典中视觉单词x_i与视觉单词x_j的相关性；

步骤3.4：令F＝ones(M)-E，并对F∈R^M×M每列求和得到G∈R^M×1，再通过S＝G./mean(G)对G∈R^M×1进行归一化，得到视觉字典的显著性表示S∈R^M×1，其中s_i表示视觉单词b_i的显著性；

步骤3.5：通过计算视觉单词与视觉单词显著性相乘，得到显著性字典A＝[s₁b₁,...,s_ib_i,...,s_Mb_M]∈R^128×M。

本发明技术方案的进一步改进在于：所述步骤4包括：步骤4.1：计算局部特征描述符与视觉单词的欧式距离，寻找局部特征最近邻的K个视觉单词；

步骤4.2：通过计算K个近邻单词的位置关系，在编码过程中为每个近邻单词设置不同的权重；

步骤4.3：通过求解加权局部约束线性编码目标函数，获得图像的编码系数表示Z＝[z₁,...,z_i,...,z_N]∈R^M×N。

本发明技术方案的进一步改进在于：所述步骤4.3中的通过求解加权局部约束线性编码目标函数包括：

其中，表示局部约束，通过计算局部特征与视觉单词的欧式距离选择K个近邻的视觉单词，/>表示对应元素相乘，λ₁表示参数，用于调节局部约束项；

其中，

dist(x_i,a_j)＝||x_i-a_j||²，表示特征x_i与视觉单词b_j之间的欧氏距离，σ为参数，用于调节d_i的衰减速度；

其中，表示位置加权约束，通过计算K个近邻单词之间的位置关系，在编码过程中为其设置不同的权重，/>表示对应元素相乘，λ₂表示参数，用于调节位置加权约束项；

其中，N_K(x_i)表示局部特征x_i的K个近邻单词，w_i∈R^M×1。

目标函数拉格朗日公式：

通过上述公式对z_i求偏导，得到解为：

其中，z_i表示一幅图像中第i个局部特征的编码系数向量，求解图像中所有局部特征的编码系数向量便可得到图像由视觉字典表示的编码系数矩阵。

由于采用了上述技术方案，本发明取得的技术进步是：

本发明减少了视觉字典的冗余信息，提升了视觉字典的显著性和判别力，同时减小了编码过程中的重构误差，有效提高了图像分类精度。

该方法在生成视觉字典时并不是仅仅对从图像中提取的局部特征描述符进行k-means聚类，而是在聚类完成后考虑视觉单词中视觉字典之间的内在关系，计算视觉单词之间的相似度，为相似的视觉单词赋予较小的权重，为显著性的单词赋予较大的权重，从而来突出显著性单词，增强视觉字典的判别力。

本发明还提出了一种基于局部约束线性编码(LLC)改进的编码方法加权局部约束线性编码，该方法针对LLC编码在将局部特征用K个近邻单词表示时，未考虑近邻单词的权重，将近邻单词视为同等重要的缺点进行改进，提出的方法在编码时根据近邻单词与局部特征之间的位置关系，为更近邻的单词设置更大的权重，从而来减小重构误差。利用上述方法生成的显著性字典对特征进行加权约束编码生成编码稀疏矩阵，再经过空间金字塔池化生成图像表示，并通过SVM对图像进行分类，考虑了视觉字典的内在关系，减小了编码时的重构误差，提高了分类精度。在MSRC数据集上的实验结果表明，本发明提高了传统词袋模型的分类准确率，解决了现有的基于词袋模型的图像分类方法中存在的视觉字典缺乏判别力和显著性、编码误差较大等问题。

本发明提出了显著性字典的计算方法，有效利用了视觉单词的位置关系，综合考虑了视觉单词之间的内在关系，增强了显著性单词权重，减少了冗余信息，从而提高了视觉字典的显著性和判别力；

本发明提出加权局部约束线性编码方法，在编码过程中，将局部特征描述符用K近邻个视觉单词表示时，考虑了K近邻个视觉单词之间的位置关系并为每个视觉单词赋予了权重，有效的减少了重构误差。

附图说明

图1为本发明的流程图；

图2为本发明生成显著性字典的流程图；

图3为本发明加权局部约束线性编码示意图。

具体实施方式

下面结合实施例对本发明做进一步详细说明，以下实施例仅用于更加清楚地说明本发明的技术方法，而不能以此来限制本发明的保护范围：

如图1至图3所示，一种优化词袋模型的图像分类方法，该方法在生成视觉字典时并不是仅仅对从图像中提取的局部特征描述符进行k-means聚类，而是在聚类完成后考虑视觉单词中视觉字典之间的内在关系，计算视觉单词之间的相似度，为相似的视觉单词赋予较小的权重，为显著性的单词赋予较大的权重，从而来突出显著性单词，增强视觉字典的判别力。本发明还提出了一种基于局部约束线性编码(LLC)改进的编码方法加权局部约束线性编码，该方法针对LLC编码在将局部特征用K个近邻单词表示时，未考虑近邻单词的权重，将近邻单词视为同等重要的缺点进行改进，提出的方法在编码时根据近邻单词与局部特征之间的位置关系，为更近邻的单词设置更大的权重，从而来减小重构误差。利用上述方法生成的显著性字典对特征进行加权约束编码生成编码稀疏矩阵，再经过空间金字塔池化生成图像表示，并通过SVM对图像进行分类，考虑了视觉字典的内在关系，减小了编码时的重构误差，提高了分类精度。在MSRC数据集上的实验结果表明，本发明提高了传统词袋模型的分类准确率，解决了现有的基于词袋模型的图像分类方法中存在的视觉字典缺乏判别力和显著性、编码误差较大等问题。

步骤1：提取局部特征描述符；

对训练图像和测试图像在不同尺度空间寻找关键点，计算出关键点的方向，得到图像的SIFT特征，每幅图像生成128维的特征描述符；

本步骤中，提取的图像局部特征描述符向量集合为：

X＝[x₁,x₂,...,x_N]∈R^128×N；

其中，x_i表示任意一个局部特征描述符，N表示一幅图像中提取的局部特征描述符的总数，128表示每个局部特征描述符的维数；

步骤2：生成视觉字典；

本步骤中，生成的视觉字典为：

B＝[b₁,b₂,...,b_M]∈R^128×M；

其中，b_i表示视觉字典中任意一个视觉单词，M表示视觉字典中视觉单词的总个数，每个单词的维数为128；

步骤3：生成显著性字典；

考虑视觉字典中视觉单词之间的内在关系，通过计算视觉单词之间的相似度，为每个视觉单词赋予一个权重，来突出显著性单词，弱化相似性单词，进而提高视觉字典整体的显著性和判别力，具体流程如图2所示；

本步骤中，所述生成显著性字典具体包括以下步骤：

步骤3.1：对视觉字典B∈R^128×M每列计算均值得到向量C∈R^1×M，其中任意一个元素c_i表示一个视觉单词的均值；

步骤3.4：令F＝ones(M)-E，并对F∈R^M×M按列求和得到G∈R^M×1，再通过S＝G./mean(G)对G∈R^M×1进行归一化，得到视觉字典的显著性表示S∈R^M×1，其中s_i表示视觉单词b_i的显著性；

步骤3.5：通过计算视觉单词与视觉单词显著性相乘，得到显著性字典A＝[s₁b₁,...,s_ib_i,...,s_Mb_M]∈R^128×M；

步骤4：加权局部约束线性编码；

将局部特征描述符分配给最近邻的K个视觉单词并考虑局部特征描述符与近邻单词的位置关系，根据位置关系为近邻单词设置不同的加权系数，从而生成特征局部描述符通过视觉单词表示的编码系数向量，具体示意图如图3所示；

本步骤中，加权局部约束线性编码具体包括以下步骤：

步骤4.1：计算局部特征描述符与视觉单词的欧式距离，寻找局部特征最近邻的K个视觉单词；

步骤4.3：通过求解目标函数，获得图像的编码系数矩阵Z＝[z₁,...,z_i,...,z_N]∈R^M×N；

其中，所述加权局部约束线性编码的目标函数：

其中第一部分，表示局部约束，通过计算局部特征与视觉单词的欧式距离选择K个近邻的视觉单词，/>表示对应元素相乘，λ₁表示参数，用于调节局部约束项，本文中取λ₁＝0.01；

其中，

dist(x_i,a_j)＝||x_i-a_j||²，表示特征x_i与视觉单词b_j之间的欧氏距离，σ为参数，用于调节d_i的衰减速度，本文取σ＝0.0001；

第二部分，示位置加权约束，通过计算K个近邻单词之间的位置关系，在编码过程中为其设置不同的权重，/>表示对应元素相乘，λ₂表示参数，用于调节位置加权约束项，本文中取λ₂＝0.01；

其中，N_K(x_i)表示局部特征x_i的K个近邻单词，w_i∈R^M×1；

对所述加权局部约束线性编码的目标函数求解：

目标函数拉格朗日公式：

通过上述公式对z_i求偏导，得到解为：

其中，z_i表示一幅图像中第i个局部特征的编码系数向量，求解图像中所有局部特征的编码系数向量便可得到图像的编码系数矩阵；

步骤5：空间金字塔池化；

本步骤中，空间金字塔池化具体包括以下步骤：

步骤5.1：将图像分成三层，第一层图像保持不变，第二层图像均匀划分成2*2的子图像块，第三层图像均匀划分成4*4的子图像块；

步骤5.2：分别统计每层图像每个图像块中视觉单词的分布情况，选取每个视觉单词中编码系数的最大值作为各图像块的向量表示；

步骤5.3：将每层图像每个图像块的向量表示按权重聚合构成图像的向量表示；

步骤6：SVM分类；

具体举例：

MSRC数据集包含18个类别，又从MSRC-21数据集中选出3个类别共21个类别图像进行实验，其中每个类别中选出30幅图像作为训练图像，在余下的图像中再选出30幅作为测试图像，共使用1260幅图像进行的实验。本发明主要评估SPM+显著性字典+加权约束编码方法对数据集的分类效果。实验结果显示，与传统的空间金字塔模型(SPM)相比，加入提出的显著性字典方法，突出了字典中显著性单词，弱化相似性单词，分类准确率提升了1.9％；加入提出的加权约束编码方法，有效减少了编码过程的量化误差，分类准确率提升了1.1％；同时加入显著性字典和加权约束编码方法，分类准确率有了更大的提升为3％，与其他方法相比，展现出了更好的性能。

表1MSRC数据集分类结果

本发明提出的方法考虑了视觉单词之间的内在关系，减少了视觉字典的冗余信息，提升了视觉字典的显著性和判别力，同时减小了编码过程中的重构误差，有效提高了图像分类精度。

本文应用了具体实例对本发明原理及实施过程进行了阐述，以上实例的说明只是为了帮助更好地理解本发明的方法以及核心思想，并不是对本发明方法的限制；应当指出，对于本技术领域的一般技术人员，依据本发明原理，做出的没有创造性的改进，均应视为本发明的保护范围。

Claims

1.一种优化词袋模型的图像分类方法，其特征在于：包括以下步骤：

步骤1：提取局部特征描述符；

步骤2：生成视觉字典；

步骤3：生成显著性字典；

步骤4：加权局部约束线性编码；

所述步骤4包括：步骤4.1：计算局部特征描述符与视觉单词的欧式距离，寻找局部特征最近邻的K个视觉单词；

步骤4.3：通过求解加权局部约束线性编码目标函数，获得图像的编码系数表示Z＝[z₁,...,z_i,...,z_N]∈R^M×N；

步骤5：空间金字塔池化；

步骤6：SVM分类；

2.根据权利要求1所述的一种优化词袋模型的图像分类方法，其特征在于：所述步骤3包括：

3.根据权利要求1所述的一种优化词袋模型的图像分类方法，其特征在于：所述步骤4.3中的通过求解加权局部约束线性编码目标函数包括：

其中，

其中，N_K(x_i)表示局部特征x_i的K个近邻单词，w_i∈R^M×1。

4.根据权利要求1所述的一种优化词袋模型的图像分类方法，其特征在于：所述步骤4.3中的通过求解加权局部约束线性编码目标函数包括：

目标函数拉格朗日公式：

通过上述公式对z_i求偏导，得到解为：