CN103324954A

CN103324954A - 一种基于树结构的图像分类方法及其系统

Info

Publication number: CN103324954A
Application number: CN2013102145532A
Authority: CN
Inventors: 王树徽; 申丽; 黄庆明; 蒋树强
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2013-05-31
Filing date: 2013-05-31
Publication date: 2013-09-25
Anticipated expiration: 2033-05-31
Also published as: CN103324954B

Abstract

本发明公开了一种基于树结构的图像分类方法及其系统，其中该方法包括：步骤一，提供具有标签信息的样本集合，以及根据标签信息的语义相关性构建的语义树结构；步骤二，根据该样本集合与该语义树结构，通过模型训练得到一组有监督的码本和分类器模型；步骤三，对于测试图像，利用训练得到的有监督的码本组生成多个中间层特征表示，根据该中间层特征表示并利用分类器模型预测该测试图像的类别标签。本发明克服了现有码本（特征）学习不能有效应对海量类别的分类问题。

Description

一种基于树结构的图像分类方法及其系统

技术领域

本发明涉及计算机视觉领域的图像分类识别技术，特别是涉及一种基于树结构的图像分类方法及其系统。

背景技术

图像分类是计算机视觉和机器学习领域的重要研究课题。对于分类任务，特征起着至关重要的作用。基于局部特征的视觉词袋特征（中层特征Mid-levelfeature）是处理图像分类问题较常用的特征。现有工作利用基于码本的无监督稀疏编码生成中间层特征来进行分类任务，取得了更好的效果。然而，传统的图像分类算法往往针对较少类别，利用无监督稀疏编码生成中间层特征方式结合简单的二分型分类器模型就可以取得较好的效果。然而现实世界的类别极多，当类别太多时，二分模型的分类器模型数量快速增长，分类界面容易混叠，无监督的码本学习生成中间层特征的方法不能挖掘对识别有关键作用的视觉特征，简单的分类器模型已经不足以应对海量类别的分类任务。

对于海量类别，类别之间具有语义关联，利用这种关联性对类别进行组织作为先验结构来指导分类器模型的建立。在层次结构中，类别也具有层次化的视觉特性，有监督的码本更能挖掘有利于分类的视觉属性，而先前的工作并没有考虑这些问题。

发明内容

本发明所要解决的技术问题在于提供一种基于树结构的图像分类方法及其系统，用于克服现有码本（特征）学习不能有效应对海量类别的分类问题。

为了实现上述目的，本发明提供了一种基于树结构的图像分类方法，其特征在于，包括：

步骤一，提供具有标签信息的样本集合，以及根据标签信息的语义相关性构建的语义树结构；

步骤二，根据该样本集合与该语义树结构，通过模型训练得到一组有监督的码本和分类器模型；

步骤三，对于测试图像，利用训练得到的有监督的码本组生成多个中间层特征表示，根据该中间层特征表示并利用分类器模型预测该测试图像的类别标签。

所述的图像分类方法，其中，所述步骤二中，包括：

对该语义树结构中的每个中间节点，学习对应的一组分类器模型和码本，该中间节点继承祖先节点学习的码本，该中间节点的码本包括上层继承的码本和在该中间节点通过对应的分类器模型更新得到的码本。

所述的图像分类方法，其中，所述步骤二中，包括：根据该样本集合与该语义树结构，采用多项式逻辑斯蒂回归数学模型来训练模型，得到一组分类器模型和码本。

所述的图像分类方法，其中，所述步骤二中，包括：

进行码本与分类模型更新迭代，利用当前码本对样本图像中的局部特征进行编码，利用空间融合策略将属于该样本图像的点的编码融合生成该样本图像的中间层特征表示，利用该中间层特征表示训练更新分类器模型和码本。

所述的图像分类方法，其中，所述步骤三中，包括：

对该测试图像，在该语义树结构的根节点通过对应的码本进行编码并利用空间融合策略生成对应的中层特征表示，根据根节点对应的图像特征与判别孩子节点的分类器模型得到响应值，选择响应值最大的节点，并在该节点通过对应的码本获取对应的图像特征，以此类推，直到到达叶子节点，得到最后的类别标签。

为了实现上述目的，本发明提供了一种基于树结构的图像分类系统，其特征在于，包括：

信息提供模块，用于提供具有标签信息的样本集合，以及根据标签的语义相关性构建的语义树结构；

模型训练模块，用于根据样本集合与语义树结构，通过模型训练得到一组有监督的码本和分类器模型；

类别预测模块，用于对测试图像，利用训练得到的有监督的码本组生成多个中间层特征表示，根据该中间层特征表示并利用分类器模型预测该测试图像的类别标签。

所述的图像分类系统，其中，所述模型训练模块还用于：

根据该样本集合与该语义树结构，采用多项式逻辑斯蒂回归数学模型来训练模型，得到一组分类器模型和码本。

所述的图像分类系统，其中，所述模型训练模块还用于：

所述的图像分类系统，其中，所述类别预测模块还用于：

对该测试图像，在该树结构的根节点通过对应的码本进行编码并利用空间融合策略生成对应的图像特征，根据根节点对应的图像特征与判别孩子节点的分类器模型得到响应值，选择响应值最大的节点，并在该节点通过对应的码本获取对应的图像特征，以此类推，直到到达叶子节点，得到最后的类别标签。

与现有技术相比，本发明具有以下有益技术效果：

本发明涉及到海量类别的分类技术以及多层有监督码本学习技术，提出了一种基于树结构的多层有监督码本学习方法，该方法适用于处理海量类别图像分类问题，该方法利用有监督的码本学习处理极多类别的分类问题，针对海量类别的分类任务挖掘最具有判别力的视觉特征；针对海量类别分类，利用层次化结构进行码本以及分类器模型联合学习，挖掘利用类别的层次化视觉特性。

相较于无监督码本学习的稀疏编码算法，该发明利用有监督多层码本学习处理海量类别的分类问题，能更好挖掘针对不同层类别分类的视觉特征。利用层次结构进行码本学习，将原始的极多类问题分解为多个较易处理的多层分类子问题来逐一求解，也大大降低运算复杂度，使得有监督的码本学习能适用于海量类别的分类任务，在可承受的时间消耗下得到较好的分类性能。

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

附图说明

图1为本发明的基于树结构的图像分类方法流程图；

图2为本发明的基于树结构的图像分类系统结构图；

图3为层次先验结构；

图4为本发明的层次分类过程；

图5a、5b为本发明的多层码本学习示例图。

具体实施方式

下面结合附图和具体实施方式对本发明的技术方案作进一步更详细的描述。

如图1所示，为本发明的基于树结构的图像分类方法流程图。该方法包括如下步骤：

步骤101，提供具有标签信息的样本集合，以及根据标签信息的语义相关性构建的语义树结构；

步骤102，根据样本集合与语义树结构，通过模型训练得到一组有监督的码本和分类器模型；

步骤103，对于测试图像，利用训练得到的有监督的码本组生成中间层特征表示，根据该中间层特征表示并利用分类器模型预测该测试图像的类别标签。

如图2所示，为本发明的基于树结构的图像分类系统结构图。该系统200包括：

信息提供模块21，用于提供具有标签信息的样本集合，以及根据标签的语义相关性构建的语义树结构；

模型训练模块22，用于根据样本集合与语义树结构，通过模型训练得到一组有监督的码本和分类器模型；

类别预测模块23，用于对测试图像，利用训练得到的有监督的码本组生成中间层特征表示，根据该中间层特征表示并利用分类器模型预测该测试图像的类别标签。

如图3所示为层次先验结构，图4为本发明的层次分类过程。结合图1、2，对图3中所述的层次先验结构、图4中所述的层次分类过程进行描述。

对于海量类别，信息提供模块21首先基于类别间的关联性（语义相关性）构建树结构作为先验，中间节点表示一个相关类别的组。在越上层节点越宏观，越下层节点越具体，如图3所示，例如鹩雀和鹌鹑都属于鸟类，西鲱和鲷都属于鱼类，而鱼和鸟类更宏观讲都属于动物类。类别预测模块23利用剪枝算法逐层确定图像所属的类别，即测试图像输入树结构，根据根节点的孩子节点的分类器模型选择响应值最大的节点作为图像在当前层的标签，并以该节点为根的子树结构继续判别图像的标签，直到达到叶子节点。如图4所示。

本发明提出了局部编码及有监督的码本学习方法，其算法是基于局部编码特征以及有监督的码本学习方法，局部编码是传统稀疏编码的一种扩展，结合局部约束性来对原始特征进行编码。对于图像局部特征（即图像中局部小块提取的特征），局部编码利用局部约束对原始特征编码，再利用空间融合(spatialpooling)策略（将图像划分成多种尺度的区域，例如，分成2×2或4×4的格，对于每块区域，位于该区域的局部特征平均得到该区域的特征，将所有区域的特征拼接生成该图像的特征）形成中间层特征表示。对于训练样本集合X＝[x₁,...,x_n],

表示样本x_i的第p个局部描述特征。对于码本D_b，

根据以下公式进行编码：

α_{i, p} ({\hat{x}}_{i, p}, D_{b}) = \arg \min \frac{1}{2} {| | {\hat{x}}_{i, p} - D_{b} α_{i, p} | |}_{2}^{2} + μ \underset{j}{Σ} | α_{i, p}^{j} | \cdot {| | d_{j} - {\hat{x}}_{i, p} | |}_{2}^{2} - - - (1)

码本D_b包含K_b列（元素），d_j代表第j个元素,α_i,p表示得到的编码向量，μ表示一个权重常数。利用空间融合策略将属于同一张图像的点的编码融合生成该幅图像的中间层特征，该中间层特征用字符z_i表示。样本集合X＝[x₁,...,x_n]生成的中间层特征表示为

如上内容是先根据码本进行编码，再利用空间融合策略进行空间融合，编码、空间融合是生成中间层特征表示的两个步骤，编码步骤在前，空间融合步骤在后。

有监督的码本学习是利用分类器模型来更新码本，使得码本能挖掘更具有判别信息的元素。对于样本集合X，其对应的类别标签为Y∈Rⁿ分属于U个类别，即y∈{1,2,...U}。采用多项式逻辑斯蒂回归（multinomial logistic regression）数学模型来训练模型。训练模型的具体过程描述如下：

对于样本x_i，它属于类别u的概率可以写为：

P (y_{i} = u | x_{i}) = \frac{\exp (w_{u}^{T} z_{i})}{Σ_{s = 1}^{U} \exp (w_{s}^{T} z_{i})} - - - (2)

w_u代表对应于类别u的分类器（向量），Τ表示转置，z_i表示x_i对应的特征，exp表示数学里以自然对数e为底的指数函数。公式2是一种求概率的公式，是根据一系列数学公式推导得到的通用的计算概率的方法。整体的损失可以形式化为：

loss = - Σ_{i = 1}^{n} Σ_{u = 1}^{U} I (y_{i} = u) \log \frac{\exp (w_{u}^{T} z_{i})}{Σ_{s = 1}^{U} \exp (w_{s}^{T} z_{i})} - - - (3)

I(*)是示性函数，log表示对数函数。

码本和分类器模型的联合优化转化为求解下面式子：

\min_{W, D} \frac{λ}{2} {| | W | |}_{F}^{2} + loss (W, D, X, Y) - - - (4)

最小化负log似然函数（即最大化log似然函数）作为模型损失的定义，如公式3。loss是关于W,D,X,Y四个变量的方程，在该方法中，X,Y是已知变量，W,D是待求解的变量。||*||_F是表示矩阵的F-范数。

如图5a、5b所示，为本发明的多层码本学习示例图。结合图1-4对该多层码本学习的过程进行描述。

本发明所提出的基于树结构的多层码本学习，在训练阶段，模型训练模块22基于树结构进行有监督的码本学习和分类器模型训练。对于层次结构中的每个中间节点，学习对应的一组分类器模型和一个码本。此外，下层节点需要继承祖先节点学习的码本，即下层码本由两部分组成，一是上层继承的码本和在该节点所特有的通过分类器模型更新得到的码本，如图5中(a)所示。这种继承方式使兄弟节点共享视觉特性，并通过分类器模型合理利用这些特性。

例如，对于中间节点V_1,1，其对应于码本D_1,1。该码本D_1,1由D₀和D′_1,1两部分组成。D₀代表从上层继承的码本，D′_1,1代表在节点V_1,1学习得到的特殊码本。对于样本x_i，包含了从多种不同大小的图像块提取的局部特征。对于该样本，在节点V_1,1生成的特征向量为

其中，

表示第0层（根节点）所对应的图像块大小的局部特征，

表示第1层（V_1,1所在层）所对应的图像块大小的局部特征，这两种块大小是不同的，在系统中可根据实际需要设定大小。该样本在孩子节点V_2,1的响应方程可以写为：

{f_{V}}_{2,1} (x_{i}, D_{1,1}) = w_{2,1}^{T} z (x_{i}, D_{1,1}) = w_{2,1}^{T} {[z {(x_{i}^{0}, D_{0})}^{T}, z {(x_{i}^{l}, D_{1,1}^{'})}^{T}]}^{T} - - - (5)

(x_i,D_1,1)为在V_1,1的孩子节点V_2,1的响应值。

通过扩展公式3，基于树结构的损失函数定义为：

loss = - Σ_{i = 1}^{n} \underset{t &Element; \overset{&OverBar;}{T}}{Σ} \underset{v &Element; C (t)}{Σ} I (v &Element; y_{i}^{+}) \log \frac{\exp (f_{v} (x_{i}))}{\underset{u &Element; C (t)}{Σ} \exp (f_{u} (x_{i}))} - - - (6)

代表树中所有的中间节点（非叶子节点），C(t)代表属于节点t的孩子节点集合（例如V_2,1和V_2,2是V_1,1的孩子节点）。

代表样本x_i在树结构里的标签集合，即标签y_i及其祖先节点的标签。响应方程f(*)定义如公式5。

基于树结构的码本和分类器模型训练可以通过求解下面式子得到：

\min_{W, D^{+}} \frac{λ}{2} {| | W | |}_{F}^{2} + loss (W, D^{+}, X, Y) - - - (7)

损失函数loss定义如公式6。D⁺,W分别代表需求解的码本集合和分类器模型，X表示训练样本集合，Y表示样本对应的类别标签集合。

本发明提出的模型分为训练和预测两个阶段。模型训练模块22在训练阶段，将具有标签信息的样本集合以及根据标签的语义关联性建成的语义树结构作为输入，通过模型训练得到一组有监督的码本和分类器模型。类别预测模块23在预测阶段，对于测试样本图像，利用训练得到的码本组生成中间层特征表示，并利用分类器模型预测该测试样本图像的类别标签。

在训练阶段，每个中间节点(V₀,V_1,1,V_1,2,V_1,3)对应于一个码本和一组分类器模型，例如对于V_1,1，对应于D_1,1以及用于判别孩子节点的分类器模型{w_2,1,w_2,2}。整个学习过程就是求解公式6和7，最后得到一组码本集合以及分类器模型，如图5的(a)所示。

在预测阶段，如图5的(b)所示，待分类图像从根节点输入，通过选择最大响应值的节点（公式5）直到到达叶子节点。例如，输入一幅图像，在根节点（第0层）通过码本D₀生成图像特征（公式1），输入到其用来判别孩子节点（例如动物、植物、工具）的分类器模型得到响应值（公式5），选择响应值最大的节点（例如动物）。在“动物”节点（V_1,3），通过对应的码本D_1,3生成另一图像特征（公式1），输入到其用来判别孩子节点（鸟、鱼）的分类器模型得到响应值（公式5），选择响应值最大的节点（例如鸟）。以此类推，直到到达叶子节点（最底层），得到最后的标签（“鹌鹑”）。

本发明提供了一种基于树结构的图像分类方法及其系统，相较于无监督码本学习的稀疏编码算法，该发明利用有监督多层码本学习处理海量类别的分类问题，能更好挖掘针对不同层类别分类的视觉特征。利用层次结构进行码本学习，将原始的极多类问题分解为多个较易处理的多层分类子问题来逐一求解，也大大降低运算复杂度，使得有监督的码本学习能适用于海量类别的分类任务，在可承受的时间消耗下得到较好的分类性能。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于树结构的图像分类方法，其特征在于，包括：

2.根据权利要求1所述的图像分类方法，其特征在于，所述步骤二中，包括：

3.根据权利要求2所述的图像分类方法，其特征在于，所述步骤二中，包括：根据该样本集合与该语义树结构，采用多项式逻辑斯蒂回归数学模型来训练模型，得到分类器模型和码本。

4.根据权利要求1、2或3所述的图像分类方法，其特征在于，所述步骤二中，包括：

进行码本与分类器模型更新迭代，利用当前码本对样本图像中的局部特征进行编码，利用空间融合策略将属于该样本图像的点的编码融合生成该样本图像的中间层特征表示，利用该中间层特征表示训练更新分类器模型和码本。

5.根据权利要求1、2或3所述的图像分类方法，其特征在于，所述步骤三中，包括：

对该测试图像，在该语义树结构的根节点通过对应的码本进行编码并利用空间融合策略生成对应的图像特征，根据根节点对应的图像特征与判别孩子节点的分类器模型得到响应值，选择响应值最大的节点，并在该节点通过对应的码本获取对应的图像特征，以此类推，直到到达叶子节点，得到最后的类别标签。

6.一种基于树结构的图像分类系统，其特征在于，包括：

7.根据权利要求6所述的图像分类系统，其特征在于，所述模型训练模块还用于：

8.根据权利要求6所述的图像分类系统，其特征在于，所述模型训练模块还用于：

根据该样本集合与该语义树结构，采用多项式逻辑斯蒂回归数学模型来训练模型，得到分类器模型和码本。

9.根据权利要求6、7或8所述的图像分类系统，其特征在于，所述模型训练模块还用于：

10.根据权利要求6、7或8所述的图像分类系统，其特征在于，所述类别预测模块还用于：