CN104200225B

CN104200225B - 一种基于局部空间约束图模型的图像分类方法

Info

Publication number: CN104200225B
Application number: CN201410439295.2A
Authority: CN
Inventors: 李宏亮; 黄超; 罗冰; 罗雯怡
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2014-08-29
Filing date: 2014-08-29
Publication date: 2017-07-11
Anticipated expiration: 2034-08-29
Also published as: CN104200225A

Abstract

本发明提供一种在传统的图模型中加入图像的空域信息的图像分类方法。一种基于局部空间约束图模型的图像分类方法，在现有基于概率图模型的图像分类的基础上，在传统的图模型中加入描述图像子区域位置的空域信息，提高了图像的分类精度。

Description

一种基于局部空间约束图模型的图像分类方法

技术领域

本发明提出图像分类技术，是一种基于图模型的分类技术。

背景技术

由于图像光照、尺度和姿态的变化，精确的图像分类非常具有挑战性。目前的图像分类方法大致可以分为三步：首先，从图像的稠密块(均匀划分大小的块)中提取底层特征(如颜色特征、梯度特征、纹理特征)，然后，用图像编码的技术根据底层特征得到图像的特征，最后，再用分类器根据这些特征进行学习。因为这些方法都是直接从底层特征出发，而底层特征和图像类别(如图像场景类别)有着语义鸿沟，所以往往不能取得很好的分类结果。中层语义(中层特征)是根据图像的底层特征和监督信息提取而得，它能很好地改善这个问题。

作为目前常用的提取中层语义的方法，图模型已经获得广泛的应用。所谓图模型，是一种将变量之间的关系用图的结构来表示的工具。其中，每个节点代表一个变量，而变量间的关系可以用点与点间的关系来表示。最经典的图模型是LDA(Latent DirichletAllocation)模型，其主要思想是引入了潜在主题。通过推断每个单词对应的潜在主题，可以得到中层语义。

LDA最开始是用于文本处理，因为其优越的性能，图像处理也开始使用LDA模型。但是图像和文本不同，并没有单词的概念。于是，聚类量化的方法便引入了进来。即将每一幅图像分为稠密的图像块，提取每个图像块的底层特征，预先设置聚类中心的个数N后，对这些底层特征通过聚类的方法就能选取到N个聚类中心，聚类中心实为选取的某个图像块底层特征。图像中每个图像块的底层特征通过聚类都对应属于一个聚类中心。图像块的视觉单词即是该图像块对应的聚类中心。

因为在训练分类模型时，需要使用图像的标签信息(图像类别)，而传统的LDA中并没有监督的类别节点，所以目前有很多模型在LDA的基础上做了改进，构建了监督的图模型。目前主要有三种添加监督信息的方法，一种是为每一个类别都训练一个控制主题分布的超参数。第二种是将类别作为主题的父节点，根据图像的主题分布，用拟合的方法来预测图像的类别。第三种是针对每一种类别，训练特有的主题集。前两种学习到的主题包含数据集的结构信息，但是与图像的类别并没有太大的联系，而第三种方法提取的是特定类别对应的主题，因此更具类别判别性。但是，目前的基于概率图模型的方法都是基于直方图BOW表示的，忽略了图像中视觉单词在空域上的相互关系。

发明内容

本发明所要解决的技术问题是，提供一种在传统的图模型中加入图像的空域信息的图像分类方法。

本发明为解决上述技术问题所采用的技术方案是，一种基于局部空间约束图模型的图像分类方法，包括以下步骤：

1)参数学习步骤：

1-1)将训练集里的每一幅图像分解为N₁个子区域；

1-2)将每个子区域子划分出N₂个均匀的图像块；

1-3)提取每个图像块的底层特征，将所有图像块的底层特征放入底层特征集；

1-4)预设K_C个图像类别，用聚类的方法得到底层特征的K_C个聚类中心；用聚类中心对底层特征集中的底层特征进行量化得到图像块的视觉单词；

1-5)将训练集中所有子区域图像块对应的视觉单词代入局部空间约束的图模型中，进行参数的学习：

1-5-1)先更新简单图模型的dirichlet分布超参数γ和多项式分布参数χ，参数γ、χ中各元素的迭代更新过程为：

其中，表示简单模型中第d幅图像第n₁子区域dirichle分布超参数的第i维，初值为1/K_Z，d的取值范围为1～D，D为训练集中图像的总数，n₁的取值范围为1～N₁，i的取值范围为1～K_Z，K_Z为中层语义的总数，α_i是局部空间约束图模型中dirichlet分布超参数的第i维，α_i的初值为1/K_Z，c^d表示第d幅图像的类别，为类别为局部空间约束图模型中c^d的第d幅图像中的子区域l在主题i下视觉单词j的多项式分布参数，的初值为1/V，V表示视觉单词的总数，是简单模型中第d幅图像第n₁个子区域中第n₂个图像块对应的多项式分布参数的第i维，的初值为1/K_Z，n₂的取值范围为1～N₂，ψ表示对logΓ(·)求导，Γ(·)为Γ分布函数，K_T表示位置的总数，表示简单模型中第d幅图像第n₁子区域第n₂个图像块对应视觉单词为第j个视觉单词，为简单模型中第d幅图像第n₁子区域的位置为第l个位置；

将简单模型中所有的主题下dirichle分布超参数组成参数γ，将简单模型中所有的主题下视觉单词的多项式分布参数组成参数χ，判断当前参数γ和χ是否满足迭代结束条件，如是，进入步骤1-5-2)，如否，继续迭代过程；

1-5-2)将参数γ和χ作为输入，用牛顿-拉夫逊Newton-Raphson迭代方法更新局部空间约束图模型中主题下的狄利克雷dirichlet分布超参数α；

局部空间约束图模型中主题下视觉单词的多项式分布参数β中各元素的更新方法如下：

其中，表示类别为c的图像的子区域l在主题i下视觉单词j的多项式分布参数，函数δ(c^d,c)表示当c^d＝c时，c表示图像的类别，函数输出为1，否则函数输出为0；

判断当前得到的参数α、β是否满足迭代结束的条件，如是，则进入步骤2，否则返回步骤1-5-1)继续迭代更新参数γ和χ；

2)图像测试：

2-1)将测试图像分成分解为N₁个子区域，将每个子区域子划分出N₂个均与的图像块，对于每个图像块提取底层特征进行量化得到对应的视觉单词；

2-2)将通过学习得到模型参数α、β代入迭代更新运算，求得参数γ、χ，参数γ、χ中各元素的迭代更新过程为：

当γ和χ两个参数迭代至收敛后，得到测试图像对应的简单图模型的dirichlet分布超参数γ和多项式分布参数χ；

2-3)将测试图像对应的简单图模型的多项式分布参数χ以及学习得到局部空间约束图模型中主题下视觉单词的多项式分布参数β用来计算测试图像的类别c*为：

其中，为取目标函数最大时c的值，是简单模型中测试图像第n₁个子区域中第n₂个图像块对应的多项式分布参数的第i维，表示简单模型中测试图像第n₁子区域第n₂个图像块对应视觉单词为第j个视觉单词，β_lij为测试图像中的子区域l在主题i下视觉单词j的多项式分布参数。

本发明的有益效果是，在现有基于概率图模型的图像分类的基础上，本发明在传统的图模型中加入描述图像子区域位置的空域信息，能提高图像的分类精度。

具体实施方式

本发明主要分为模型的参数学习部分和图像测试部分。

1、参数学习：

1-1、首先，将训练集里的每一幅图像进行了预处理，统一将图像的最大边设定为300，而图像的比例不变。再将图像分解为N₁个子区域，每个子域的大小相同。常规的N₁＝4，即，将图像分解为左上、左下、右上、右下4个子区域。当然，本领域技术人员可以根据需要调整子区域的个数。

1-2、将每个子区域子划分出N₂个稠密的块。对于图像分块，这里是先将每幅图像在提取图像块时，考虑到尺度不变性，选取了多尺度的图像块，分别为4×4，8×8，16×16和24×24。

1-3、提取每个图像块的底层特征，将所有图像块的底层特征放入底层特征集。本实施采用一种图像纹理特征SIFT特征作为底层特征，本领域技术人员可以根据需要采用其它的一种底层特征或多种底层特征的组合作为提取的特征。底层特征集中包括有所有尺寸下图像块的底层特征。

1-4、预设K_C个图像类别，用聚类的方法得到底层特征的K_C个聚类中心。用聚类中心对底层特征集中的底层特征进行量化。量化的过程为：分别计算底层特征和各个聚类中心的欧式距离，用欧式距离最小对应的聚类中心的底层特征来表示当前图像块的底层特征。这样，可以将从图像中提取的所有底层特征量化，将量化后的图像块的底层特征为该图像块的视觉单词，这样就得到了图像的K_C个视觉单词。

1-5、将训练集中所有子区域对应的视觉单词代入局部空间约束的图模型中，进行参数的学习。局部空间约束的图模型中，图像集有D幅图像，每幅图像分解为N₁个子区域，而每个子区域有N₂个图像块，c表示图像的类别，W是图像块对应的视觉单词，t是每个子区域对应位置，Z是视觉单词对应的中层语义(潜在主题)，K_Z为中层语义的总数，α是主题下的狄利克雷dirichlet分布超参数，α可以为一个先验的参数也可以后期学习得到，实施在此将α作为一个需要后期学习的参数，β主题下视觉单词的多项式分布参数。参数学习就是根据已知的c，W和t，学习模型参数α和β。

本文中，图像块的视觉单词用量化后的图像块的底层特征表示，也是某一聚类中心。主题用中层语义表示。

模型参数α和β的学习过程如下：

采用变分推断的方法来计算图模型的参数，因为直接对原有的图模型进行推断非常复杂，因此简单图模型来近似局部空间约束的图模型(下面简称为原有模型)，简单图模型的参数包括dirichlet分布超参数γ和多项式分布参数χ，参数γ与参数χ为向量参数，参数γ、χ中各元素的迭代更新过程为：

其中，表示简单模型中第d幅图像第n₁子区域dirichle分布超参数的第i维，初值为1/K_Z，d的取值范围为1～D，n₁的取值范围为1～N₁，i的取值范围为1～K_Z，α_i是原有模型中dirichlet分布超参数的第i维，α_i的初值为1/K_Z，c^d表示第d幅图像的类别，为类别为原有模型中c^d的第d幅图像中的子区域l在主题i下视觉单词j的多项式分布参数，的初值为1/V，V表示视觉单词的总数，是简单模型中第d幅图像第n₁个子区域中第n₂个图像块对应的多项式分布参数的第i维，的初值为1/K_Z，n₂的取值范围为1～N₂，ψ表示对logΓ(·)求导，Γ(·)为Γ分布函数，K_T表示位置的总数，K_T＝N₁，表示简单模型中第d幅图像第n₁子区域第n₂个图像块对应视觉单词为第j个视觉单词，为简单模型中第d幅图像第n₁子区域的位置为第l个位置。

将简单模型中所有的主题下dirichle分布超参数组成参数γ，将简单模型中所有的主题下视觉单词的多项式分布参数组成参数χ，当γ和χ两个参数迭代至收敛后，更新原有模型的参数β以及参数α：

1-6、将参数γ和χ作为输入，用Newton-Raphson迭代方法得到参数α；

通过最大似然概率的方法，我们可以求得模型的最优参数β：

其中，函数δ(c^d,c)表示当c^d＝c时，函数输出为1，否则函数输出为0，表示类别为c的图像的子区域l在主题i下视觉单词j的多项式分布参数，将所所有主题下视觉单词的多项式分布参数组成参数β。判断当前得到的参数α、β是否满足迭代结束的条件，如是，则学习得到模型参数α、β，否则返回参数γ、χ的更新步骤1-5。

2、图像测试：

在学习得到模型参数α、β后，可进行测试图像的分类：

2-1、给定一幅测试图像，我们首先将图像分成K_T个子区域，然后提取每个子区域进行图像块划分，提取底层特征进行量化得到对应的视觉单词。

2-2、将通过学习得到模型参数α、β代入迭代更新运算，求得参数γ、χ。

参数γ、χ中各元素的迭代更新过程为：

其中，α_i与为已知，当γ和χ两个参数迭代至收敛后，得到最终的参数γ和χ。

2-3、最后用变分推导的方法来近似似然概率分布，然后根据近似模型下的概率分布，用最大后验的方法求得测试图像的类别。测试图像的类别c*为：

Claims

1.一种基于局部空间约束图模型的图像分类方法，其特征在于，包括以下步骤：

1)参数学习步骤：

1-1)将训练集里的每一幅图像分解为N₁个子区域；

1-2)将每个子区域子划分出N₂个均匀的图像块；

γ_{{dn}_{1} i} = α_{i} + Σ_{n_{2} = 1}^{N_{2}} χ_{{dn}_{1} n_{2} i}

{logχ}_{{dn}_{1} n_{2} i} = \frac{ψ (γ_{{dn}_{1} i}) + Σ_{l = 1}^{K_{T}} Σ_{j = 1}^{V} W_{{dn}_{1} n_{2}}^{j} t_{{dn}_{1}}^{l} {logβ}_{l i j}^{c^{d}}}{Σ_{i = 1}^{K_{Z}} (ψ (γ_{{dn}_{1} i}) + Σ_{l = 1}^{K_{T}} Σ_{j = 1}^{V} W_{{dn}_{1} n_{2}}^{j} t_{{dn}_{1}}^{l} {logβ}_{l i j}^{c^{d}})}

β_{l i j}^{c} = \frac{Σ_{d = 1}^{D} Σ_{n_{1} = 1}^{N_{1}} Σ_{n_{2 = 1}}^{N_{2}} δ (c^{d}, c) t_{{dn}_{1}}^{l} χ_{{dn}_{1} n_{2} i} W_{{dn}_{1} n_{2}}^{j}}{Σ_{j = 1}^{V} Σ_{d = 1}^{D} Σ_{n_{1} = 1}^{N_{1}} Σ_{n_{2 = 1}}^{N_{2}} δ (c^{d}, c) t_{{dn}_{1}}^{l} χ_{{dn}_{1} n_{2} i} W_{{dn}_{1} n_{2}}^{j}}

2)图像测试：

γ_{{dn}_{1} i} = α_{i} + Σ_{n_{2} = 1}^{N_{2}} χ_{{dn}_{1} n_{2} i}

{logχ}_{{dn}_{1} n_{2} i} = \frac{ψ (γ_{{dn}_{1} i}) + Σ_{l = 1}^{K_{T}} Σ_{j = 1}^{V} W_{{dn}_{1} n_{2}}^{j} t_{{dn}_{1}}^{l} {logβ}_{l i j}^{c^{d}}}{Σ_{i = 1}^{K_{Z}} (ψ (γ_{{dn}_{1} i}) + Σ_{l = 1}^{K_{T}} Σ_{j = 1}^{V} W_{{dn}_{1} n_{2}}^{j} t_{{dn}_{1}}^{l} {logβ}_{l i j}^{c^{d}})}

c * = \arg \underset{c}{m a x} Σ_{n_{1} = 1}^{N_{1}} Σ_{n_{2 = 1}}^{N_{2}} Σ_{i = 1}^{K_{z}} χ_{n_{1} n_{2} i} W_{n_{1} n_{2}}^{j} {logβ}_{l i j}