CN106228181B

CN106228181B - 一种基于视觉词典的图像分类方法及系统

Info

Publication number: CN106228181B
Application number: CN201610559465.XA
Authority: CN
Inventors: 王贤辰; 戴佳信; 林旭诚; 苏炳汉; 苏炳湛
Original assignee: Guangdong Zhiqian Internet Of Things Technology Co Ltd
Current assignee: Guangdong Zhiqian Internet Of Things Technology Co Ltd
Priority date: 2016-07-12
Filing date: 2016-07-12
Publication date: 2019-05-31
Anticipated expiration: 2036-07-12
Also published as: CN106228181A

Abstract

本发明公开一种基于视觉词典的图像分类方法及系统，方法包括：从训练图像集中抽取局部特征点作为训练特征点，对训练特征点进行训练得到包括多个词典单词的视觉词典，每个词典单词与一个编码相关；从待分类图像中抽取局部特征点作为待分类特征点；对每个待分类特征点，根据待分类特征点相邻的词典单词和其他的待分类特征点的约束确定待分类特征点的编码；根据待分类特征点的编码，对待分类图像进行分类。本发明在图像特征点和词典单词局部约束的基础上，引入图像特征点受周围特征点群的局部约束性作为图像特征点分类的判别项，提高稀疏编码在图像分类中的判别性。

Description

一种基于视觉词典的图像分类方法及系统

技术领域

本发明涉及图像处理相关技术领域，特别是一种基于视觉词典的图像分类方法及系统。

背景技术

随着图像爆炸式的增长和大数据时代的来临，如何从大数据的图像中对图像内容进行识别和分类，对传统的图像分类技术提出了挑战。在当今的图像分类技术中，词袋模型由于其对图像的简化表示和图像特征与视觉单词的有效编码而被广泛应用。一般来说，词袋模型分类方法如图1a～图1c所示，主要分以下几个步骤：①从图像中抽取特征点，并进行描述(如SIFT特征)；②采取K-means等方法把生成的特征点训练成视觉词典；③通过图像特征编码方法，把待分类的图像特征映射到视觉词典中单词；④通过池化算法构成图像描述符；⑤通过支持向量机等分类算法，把图像描述符进行图像分类。其中，图1a～图1c中，方框代表图像特征，圆圈代表词典中的单词，圆圈的阴影表示每个图像单词映射到图像特征点的权重系数。图像特征编码是将待分类图像特征点量化到视觉单词的过程，编码误差是影响图像分类正确率的主要因素。

目前的研究中，ScSPM和LLC等稀疏模型，以信号重构误差最小化为目标。这类模型虽然在图像去噪、图像修复、图像超分辨率等信号处理中取得显著效果。但是，这些以信号重构误差最小化为目标的稀疏模型并不适合解决信号分类问题。信号分类中的核心问题是能否对信号进行正确分类，而不是对信号进行精确重建。因此，对于信号分类问题，寻找信号的判别表示比最小化信号的重构误差更加重要。

同时，以往的研究忽视了图像特征点所在周围的特征点点群的有用信息，以致在图像特征点和词典单词建立量化关系时，往往会造成多个词典单词同样程度的对应一个特征点或者多个特征点同样程度的对应一个词典单词，使图像特征和词典单词之间的映射存在不确定性，缺少稳定性。由于图像受场景中光照变化、遮挡等因素影响，不同类别的图像特征点可能表现为较强的相似性，相同类别图像的特征点又常表现为差异性。

如图1c所示，在特征点P2编码过程中，受词典单词的距离约束，和最近邻词典单词a、b、e建立了映射关系，特征点P2和词典单词b和e距离相近，以致编码系数类似。在特征点编码过程中，图像特征和词典单词之间的映射存在相似性和不确定性，降低了图像分类性能。

发明内容

基于此，有必要针对现有技术对特征点编码存在相似性和不确定性，降低了图像分类性能的技术问题，提供一种基于视觉词典的图像分类方法及系统。

本发明提供一种基于视觉词典的图像分类方法，包括：

视觉词典生成步骤，包括：从训练图像集中抽取局部特征点作为训练特征点，对所述训练特征点进行训练得到包括多个词典单词的视觉词典，每个所述词典单词与一个编码相关；

待分类特征点抽取步骤，包括：从待分类图像中抽取局部特征点作为待分类特征点；

待分类特征点编码步骤，包括：对每个待分类特征点，根据待分类特征点相邻的词典单词和其他的待分类特征点的约束确定所述待分类特征点的编码；

图像分类步骤，包括：根据待分类特征点的编码，对所述待分类图像进行分类。

本发明提供一种基于视觉词典的图像分类系统，包括：

视觉词典生成模块，用于：从训练图像集中抽取局部特征点作为训练特征点，对所述训练特征点进行训练得到包括多个词典单词的视觉词典，每个所述词典单词与一个编码相关；

待分类特征点抽取模块，用于：从待分类图像中抽取局部特征点作为待分类特征点；

待分类特征点编码模块，用于：对每个待分类特征点，根据待分类特征点相邻的词典单词和其他的待分类特征点的约束确定所述待分类特征点的编码；

图像分类模块，用于：根据待分类特征点的编码，对所述待分类图像进行分类。

本发明在图像特征点和词典单词局部约束的基础上，引入图像特征点受周围特征点群的局部约束性作为图像特征点分类的判别项，提高稀疏编码在图像分类中的判别性。主要用来解决图像特征点在和词典单词建立映射关系时存在的不确定性，提高相似图像的识别力。

附图说明

图1a为现有词袋模型框架图；

图1b为现有词袋模型中图像特征与词典单词关系示意图；

图1c为现有词袋模型中图像特征与词典单词权重关系示意图；

图2为本发明一种基于视觉词典的图像分类方法的工作流程图；

图3为本发明最佳实施例的工作流程图；

图4a为本发明最佳实施例的待分类图像的特征点和词典中的词典单词示意图；

图4b为本发明最佳实施例的待分类图像的特征点和距离最近的3个词典单词建立映射关系示意图；

图4c为本发明最佳实施例中每个词典单词映射到图像特征点的权重系数示意图；

图4d为本发明最佳实施例中权重系数的修正示意图；

图5为本发明一种基于视觉词典的图像分类系统的系统模块图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细的说明。

如图2所示为本发明一种基于视觉词典的图像分类方法的工作流程图，包括：

步骤S201，包括：从训练图像集中抽取局部特征点作为训练特征点，对所述训练特征点进行训练得到包括多个词典单词的视觉词典，每个所述词典单词与一个编码相关；

步骤S202，包括：从待分类图像中抽取局部特征点作为待分类特征点；

步骤S203，包括：对每个待分类特征点，根据待分类特征点相邻的词典单词和其他的待分类特征点的约束确定所述待分类特征点的编码；

步骤S204，包括：根据待分类特征点的编码，对所述待分类图像进行分类。

在其中一个实施例中，所述步骤S203，具体包括：

对每个待分类特征点，采用如下方式确定编码：

将进行编码的待分类特征点作为待编码特征点，其他待分类特征点作为邻近特征点；

根据待编码特征点与邻近特征点的距离、以及邻近特征点关于每个词典单词的权重系数，修正待编码特征点关于每个词典单词的权重系数；

根据待编码特征点与邻近特征点的距离，修正待编码特征点关于每个词典单词的权重系数；

采用修正后的待编码特征点关于每个词典单词的权重系数以及每个词典单词的编码确定待编码特征点的编码。

本实施例具体实现邻近特征点对待编码特征点的约束，待编码特征点周围的邻近特征点群映射到某个词典单词的权重系数，会影响待编码特征点映射到词典单词的系数。邻近特征点映射到某个词典单词的权重系数越大，则待编码特征点映射到某个词典单词的权重系数也越大，反之越小。

在其中一个实施例中，邻近特征点与待编码特征点的距离越近，对所述待编码特征点关于每个词典单词的权重系数的修正影响越大。

邻近特征点与待编码特征点的距离越近，则该邻近特征点与待编码特征点为相同类型的可能性越大，因此对待编码特征点的影响越大，从而对其的修正影响越大。

在其中一个实施例中，每个待分类特征点，采用如下公式确定编码：

其中

d_ij＝||x_j-x_i||²，X＝[x₁,x₂,…,x_N]∈R^D ^×N为待分类特征点的集合，x_i为第i个待分类特征点在视觉词典中的位置，B＝[b₁,b₂,…,b_K]∈R^D×K为视觉词典，b_i为第i个词典单词在视觉词典中的位置，Z∈R^D×N为待分类特征点与词典单词的编码系数，λ₁、λ₂为标量的调整因子，dist(x_i,B)为第i个待分类特征点到视觉词典中所有视觉单词的欧式距离，σ为调整系数。

在其中一个实施例中，所述待分类特征点与词典单词的编码系数通过双重局部约束线性编码算法求解得到。

如图3所示为本发明最佳实施例的工作流程图，包括：

步骤S301，从训练图像集中抽取局部特征，把抽取的局部特征，形成词典；

步骤S302，采用KNN算法，在词典中为待分类图像形成最近邻单词；

步骤S303，采用KNN算法，在图像的特征点中为待编码特征形成最邻近特征点，

步骤S304，通过求解约束最小二乘拟合问题，编码待分类图像；

步骤S305，通过最大池化算法池化局部特征；

步骤S306，输出特征描述符进行图像分类。

编码方式如图4a～4d所示：

图4a表示待分类图像的特征点和词典中的词典单词；图4b表示待分类图像的特征点和距离最近的3个词典单词建立映射关系，图4c中圆圈的阴影表示每个词典单词映射到图像特征点的权重系数；图4d中圆圈b和圆圈e阴影变化，表示特征点P2受周围特征点P1和P3影响，权重系数发生变化。

其中d_ij＝||x_j-x_i||²，X＝[x₁,x₂,…,x_N]∈R^D×N为待分类特征点的集合，x_i为第i个待分类特征点在视觉词典中的位置，B＝[b₁,b₂,…,b_K]∈R^D×K为视觉词典，b_i为第i个词典单词在视觉词典中的位置，Z∈R^D×N为待分类特征点与词典单词的编码系数，λ₁、λ₂为标量的调整因子，dist(x_i,B)为第i个待分类特征点到视觉词典中所有视觉单词的欧式距离，σ为调整系数。

其中d_ij表示待分类图像的特征点距离周围特征点的距离，距离近的特征点对该特征点影响较距离远的特征点所起作用要大。

其中，上述公式的第1项为信号保真度，以保证分类信号能量不损失；第2项是系数z受局部特征点近邻单词约束，保证局部特征点映射到最近邻单词；第3项是利用系数z受局部特征点邻近特征点的约束，用于消除光线变化、拍摄视角等外界因素引起的图像分类中的模糊性和不确定性。

如图5所示为本发明一种基于视觉词典的图像分类系统的系统模块图，包括：

视觉词典生成模块501，用于：从训练图像集中抽取局部特征点作为训练特征点，对所述训练特征点进行训练得到包括多个词典单词的视觉词典，每个所述词典单词与一个编码相关；

待分类特征点抽取模块502，用于：从待分类图像中抽取局部特征点作为待分类特征点；

待分类特征点编码模块503，用于：对每个待分类特征点，根据待分类特征点相邻的词典单词和其他的待分类特征点的约束确定所述待分类特征点的编码；

图像分类模块504，用于：根据待分类特征点的编码，对所述待分类图像进行分类。

在其中一个实施例中，所述待分类特征点编码模块，具体用于：

对每个待分类特征点，采用如下方式确定编码：

根据待编码特征点与词典单词的距离，确定待编码特征点关于每个词典单词的权重系数；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明实施例的技术方案，而非对其限制；尽管参照前述实施例对本发明实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征点进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于视觉词典的图像分类方法，其特征在于，包括：

图像分类步骤，包括：根据待分类特征点的编码，对所述待分类图像进行分类；

所述待分类特征点编码步骤，具体包括：

对每个待分类特征点，采用如下方式确定编码：

采用修正后的待编码特征点关于每个词典单词的权重系数以及每个词典单词的编码确定待编码特征点的编码；

每个待编码特征点，采用如下公式确定编码：

其中，X＝[x₁,x₂,…,x_N,]∈R^D×N为待分类特征点的集合，x_i为第i个待分类特征点在视觉词典中的位置，B＝[b₁,b₂,…,b_K]∈R^D×K为视觉词典，b_i为第i个词典单词在视觉词典中的位置，Z∈R^D×N为待分类特征点与词典单词的编码系数，λ₁、λ₂为标量的调整因子，dist(x_i,B)为第i个待分类特征点到视觉词典中所有视觉单词的欧式距离，σ为调整系数。

2.根据权利要求1所述的基于视觉词典的图像分类方法，其特征在于，邻近特征点与待编码特征点的距离越近，对所述待编码特征点关于每个词典单词的权重系数的修正影响越大。

3.根据权利要求2所述的基于视觉词典的图像分类方法，其特征在于，所述待编码特征点与词典单词的编码系数通过双重局部约束线性编码算法求解得到。

4.一种基于视觉词典的图像分类系统，其特征在于，包括：

图像分类模块，用于：根据待分类特征点的编码，对所述待分类图像进行分类；

所述待分类特征点编码模块，具体用于：

对每个待分类特征点，采用如下方式确定编码：

每个待编码特征点，采用如下公式确定编码：

5.根据权利要求4所述的基于视觉词典的图像分类系统，其特征在于，邻近特征点与待编码特征点的距离越近，对所述待编码特征点关于每个词典单词的权重系数的修正影响越大。

6.根据权利要求5所述的基于视觉词典的图像分类系统，其特征在于，所述待编码特征点与词典单词的编码系数通过双重局部约束线性编码算法求解得到。