CN103336969B

CN103336969B - 一种基于弱监督学习的图像语义解析方法

Info

Publication number: CN103336969B
Application number: CN201310214812.1A
Authority: CN
Inventors: 卢汉清; 刘静; 刘洋
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2013-05-31
Filing date: 2013-05-31
Publication date: 2016-08-24
Anticipated expiration: 2033-05-31
Also published as: CN103336969A

Abstract

本发明公开了一种基于弱监督学习的图像语义解析方法，用以解决在给定大量用户标注图像基础上，将图像分割成一系列具有单一语义的完整区域，同时对各区域实现语义标注的问题。本发明包括：联合谱聚类与判别式聚类的双重聚类方法，对由过分割方法得到的图像子区域进行聚类；同时，利用图像级别标注与图像区域级别标注的对应约束关系，构建以误差最小化为目标的弱监督学习模型，为各图像子区域的聚类集合分配语义标签。此外，通过判别式聚类学习到的多类分类器，可以实现针对没有标签信息图像的语义解析。本发明不仅可以给图像添加语义标签，还可以将标签添加到图像中的对应区域，实现更细粒度的图像语义理解。

Description

一种基于弱监督学习的图像语义解析方法

技术领域

本发明属于多媒体内容的自动分析与理解技术领域，具体涉及一种基于弱监督学习的图像语义解析方法。

背景技术

图像语义解析是将图像分割和区域标注结合在一起的一个任务，是一种更高级别的图像理解技术，它不仅可以给图像添加语义标签，还可以将标签添加到图像中的对应区域，实现更细粒度的图像语义理解。

图像分割和区域标注两者是密不可分并且相互促进的。准确的图像分割可以为区域标注提供精确的视觉特征表示，反之，好的区域标注结果同样可以促进图像分割，因为具有同样语义标签的像素就属于同一个物体。

现有的大多数图像语义解析方法都是基于全监督的标注信息，即图像的每一个像素都被人工加上语义标签然后参与模型的学习和训练。显然，除了耗费大量的人力成本以外，这种人工标注由于人的主观性存在从而可能会不准确。因此，基于弱监督标注信息的图像语义解析方法开始应运而生。所谓的弱监督，就是指仅仅利用图像级别标签进行模型的学习和训练，最后使得语义标签能够自动对应到图像中相应的区域上去。这样将极大的减少人工成本，非常具有实际意义。

发明内容

(一)要解决的技术问题

有鉴于此，本发明提出了一种基于弱监督学习的图像语义解析方法，用以解决在给定大量用户标注图像基础上，将图像分割成一系列具有单一语义的完整区域，同时对各区域实现语义标注的问题。并且对于没有标签信息的图像，也能够实现语义解析。

(二)技术方案

为达到上述目的，本发明的基本思路是将不同图像中的视觉相似且空间位置近邻的子区域聚类，利用图像级别标签与图像区域级别标签的对应约束关系，为图像子区域的各个聚类添加语义标签，从而达到图像语义解析的目的。本发明的算法包括3个部分：(1)联合谱聚类与判别式聚类的双重聚类方法，对由过分割方法得到的图像子区域进行聚类；(2)利用图像的标签信息来指导双重聚类过程，为聚类结果添加语义标签；(3)联合凹凸优化过程(Convex-Concave Procedure，CCCP)和非负乘子法对目标函数进行优化求解。

本发明提出了一种基于双重聚类的图像子区域聚类方法，其目的是根据子区域的视觉特征和位置特征，将不同图像中的视觉相似且空间位置近邻的子区域聚类，使得具有同样标签的子区域尽可能的包括在同一类内。利用联合谱聚类和判别式聚类的方法，可以使类内尽量紧致并且不同类间的可分性尽可能大。谱聚类是基于特征相似的子区域属于同一聚类的概率高的假设。判别式聚类是基于不同的语义标签具有不同的判别性特征的假设。判别式聚类的结果要和谱聚类的结果尽可能一致。

本发明提出了一种基于弱监督信息为子区域聚类分配语义标签的方法。将图像级别的标签作为一种弱监督信息，利用图像级别标签与图像区域级别标签的对应约束关系，构建以误差最小化为目标的弱监督学习模型，为图像子区域的各个聚类添加语义标签。所涉及的对应约束关系包括：如果图像具有某一个标签，那么该图像中一定有至少一个子区域是能够解释这个标签的；如果图像没有某个标签，图像中所有的图像子区域都不能解释这个标签；并且一个图像子区域只能对应一个标签。

本发明提出了一种基于弱监督学习的图像语义解析方法，包括如下步骤：S2.1、联合谱聚类与判别式聚类的双重聚类方法，对由过分割方法得到的图像子区域进行聚类；S2.2、利用图像的标签信息来指导双重聚类过程，为聚类结果添加语义标签；S2.3、联合凹凸优化过程和非负乘子法对目标函数进行优化求解。

在一种实施方式中，所述步骤S2.1包括：采用谱聚类方法将过分割的图像子区域进行聚类；利用线性分类器作为一种判别式的聚类方法，使其与谱聚类方法共享统一的类标指示向量。

在一种实施方式中，所述谱聚类方法子区域的视觉特征和空间位置信息。

在一种实施方式中，用L(2，1)范数的正则项进行稀疏特征选择。

在一种实施方式中，所述步骤S2.2包括：将图像的标签信息作为弱监督信息，利用图像级别标签与图像区域级别标签的对应约束关系，为图像子区域的各个聚类添加语义标签。

在一种实施方式中，所述对应约束关系包括：如果图像具有某一个标签，那么该图像中一定有至少一个子区域是能够解释这个标签的；如果图像没有某个标签，图像中所有的图像子区域都不能解释这个标签；并且一个图像子区域只能对应一个标签。

在一种实施方式中，所述步骤S2.3包括：用联合凹凸优化方法与非负乘子法的迭代更新过程对目标函数进行优化求解。

在一种实施方式中，所述步骤S3包括：给定一个初始值，基于凹凸优化思想，用一阶泰勒展开式近似非凸的函数，将原问题转化为一个凸的优化问题；然后通过反复迭代优化凸的子问题直到收敛，得到原始问题的次优解。

在一种实施方式中，该方法在所述步骤S2.1之前还包括步骤S1：将带有语义标签的图像过分割成子区域后，提取每个子区域的视觉特征和位置信息。

在一种实施方式中，所述视觉特征采用词袋模型。

(三)有益效果

本发明不仅可以给图像添加语义标签，还可以将标签添加到图像中的对应区域，实现更细粒度的图像语义理解。

附图说明

图1是本发明的基于弱监督学习的图像语义解析方法的流程图；

图2给出了本发明的一个实施例的图像语义解析方法的演示图。

具体实施方式

图1是本发明的基于弱监督学习的图像语义解析方法的流程图。如图1所示，本发明包括如下步骤：

步骤S1、对图像进行预处理。

该步骤将带有语义标签的图像过分割成子区域后，提取每个子区域的视觉特征和位置信息。视觉特征采用词袋模型。

步骤S2、对图像进行基于弱监督学习的双重聚类。该步骤是本发明的主体部分，用于对所述预处理的图像

步骤S3、该步骤用于输出语义解析结果。

步骤S2主要包括以下三个步骤：

S2.1、利用联合谱聚类与判别式聚类的双重聚类方法，对由过分割方法得到的图像子区域进行聚类；

S2.2、利用图像的标签信息来指导双重聚类过程，为图像子区域的聚类分配语义标签；

S2.3、利用联合凹凸优化过程(Convex-Concave Procedure，CCCP)和非负乘子法对非凸和非光滑的目标函数进行优化求解。

为了方便下面说明，首先介绍本发明中涉及到的数学符号。设有一个包含I幅图像的数据集X＝[X₁，…，X_i，…，X_I]。其中是第i幅图像中的第k个子区域的特征表示，d为特征的维数。n_i代表第i幅图像中子区域的个数。我们将数据矩阵简写为X＝[x₁，…，x_i，…，x_N]，其中n_i是数据集中所有子区域的总数。假设数据集中出现的标签数为C。G＝[g₁，…，g_i，…g_I]∈{0，1}^C×I代表与图像相对应的标签信息矩阵，g_i∈{0，1}^C是图像X_i的标签向量。如果图像X_i被打上了标签c则否则为0。定义类标矩阵Y，

y_{n}^{c} = \{\begin{matrix} 1, ifthen - thsuperpixelbelongstothec - thclass, \\ 0, otherwise . \end{matrix} .

下面详细介绍本发明的方法中的主要步骤

步骤S2.1、基于双重聚类方法的图像子区域聚类

本发明主要是采用联合谱聚类与判别式聚类的双重聚类方法，对由过分割方法得到的图像子区域进行聚类。

谱聚类：1)谱聚类能够有效的保持数据的结构信息。2)假设特征高度相似的子区域具有很高的概率属于同一个聚类。基于以上两点，我们采用谱聚类去挖掘子区域之间的这种上下文关系。

下面说明如何构建谱聚类所需要的相似度图。我们基于子区域的视觉特征和空间近邻来构图。首先，一个子区域的标签一定在它所属图像的标签中产生，所以仅有那些所属图像具有共同标签的子区域才被计算相似度。我们用下述公式定义子区域之间的相似度矩阵S

其中表示子区域x的k近邻。k近邻是从与子区域x共享相同标签的子区域中产生。σ是参数。并且，为了保持标注的空间平滑性，我们还将与子区域x在同一幅图像中空间近邻的子区域与x相连。根据以上定义，谱聚类的目标函数为，

上式中A是一个对角矩阵，L＝A^-1/2(A-S)A^-1/2，是归一化的拉普拉斯矩阵。

判别式聚类：1)我们采用线性分类器作为一种判别式的聚类方法，使其与谱聚类方法共享统一的类标指示向量。2)考虑到不同标签具有不同的判别性特征，我们采用l_2，1-norm的正则项，起到稀疏特征选择的作用。

假设特征和预测的标签之间存在线性变换W，判别式聚类的模型为

上式中loss是一个损失函数，α和β是两个非负参数。l_2，1-norm定义为这样的定义能够确保W的行稀疏，从而能够有效的选择判别性特征同时去除冗余和噪声特征。本发明中，我们采用最小平方损失来定义损失函数，那么线性分类器的具体形式为：

S2.1、基于弱监督信息为图像子区域的聚类分配语义标签：

下面详细介绍基于弱监督信息为图像子区域的聚类分配语义标签。弱监督信息是指图像级别标签与图像子区域标签的对应约束关系。包括：如果图像具有某一个标签，那么该图像中一定有至少一个子区域是能够解释这个标签的；如果图像没有某个标签，图像中所有的图像子区域都不能解释这个标签；并且一个图像子区域只能对应一个标签。

为了满足最后一个条件，我们对Y进行正交性约束，I_C是单位矩阵。为了合理解释标签指示矩阵Y，还要要求Y≥0。

为了满足前两个约束，我们提出一个弱监督正则项；

代表第i幅图像的第j个子区域在第c个标签的取值。直接处理上面带有绝对值符号的正则项是非常困难的，因此我们首先要去掉绝对值。由于则

| \max_{j &Element; X_{i}} y_{ij}^{c} - g_{i}^{c} | = \{\begin{matrix} 1 - \max_{x_{ij} &Element; X_{i}} y_{ij}^{c}, if g_{i}^{c} = 1, \\ \max_{x_{ij} &Element; X_{i}} y_{ij}^{c}, else . \end{matrix} .

去掉绝对值后，Q(Y)被重写为：

γ [Σ_{i}^{I} Σ_{c}^{C} (1 - g_{i}^{c}) \max_{x_{ij} &Element; X_{i}} y_{ij}^{c} + Σ_{i}^{I} Σ_{c}^{C} g_{i}^{c} (1 - \max_{x_{ij} &Element; X_{i}} y_{ij}^{c})] .

左边的max项被松弛为则是一个除了第c维为1其它的元素均为0的指示向量。也是一个指示向量，仅有对应第i幅图像子区域的那些元素为1，其余的都为0。是一个仅有第i幅图像第j个子区域为1的指示向量。引入指示向量的目的是为了把目标函数写成关于Y的矩阵形式，和其它函数项保持统一，便于求解。

S2.3、利用联合凹凸优化过程(Convex-Concave Procedure，CCCP)和非负乘子法对非凸和非光滑的目标函数进行优化求解

整合上面的三项，统一的目标函数如下：

\min_{Y, W} Tr [Y^{T} LY] + α {| | X^{T} W - Y | |}_{F}^{2} + β {| | W | |}_{2,1}

+ γ Σ_{i = 1}^{I} Σ_{c = 1}^{C} [(1 - g_{i}^{c}) h_{c}^{T} Y^{T} q_{i} + g_{i}^{c} (1 - \max_{x_{ij} &Element; X_{i}} p_{ij}^{T} Y h_{c})]

s.t.Y^TY＝I_C，Y≥0

由于l_2，1-norm项是非光滑的，带有max项是非凸的，因此整个目标函数是非光滑且非凸的，我们采用联合凹凸优化方法与非负乘子法的迭代更新过程对目标函数进行优化求解。在每一轮的迭代过程中，通过凹凸优化方法，用一阶泰勒展开式近似非凸函数，将原问题转化为一个凸的优化问题。下面详细介绍如何近似max项。由于目标函数的最后一项是个求和项，所以我们仅考虑和g_ic有关的项。令它的子梯度

η_{j} = \{\begin{matrix} \frac{1}{n_{α}}, if l_{j}^{(t)} = \max (l^{(t)}), \\ 0, otherwise . \end{matrix},

n_α是使得maxl^(t)取最大值的子区域个数。在第(t+1)轮迭代中，基于上一轮迭代取得的l^(t)和η^(t)估计l。由于

η^{T} l^{(t)} = Σ_{j} η_{j} l_{j}^{(t)} = \max l^{(t)} Σ_{η_{j} &NotEqual; 0} η_{j} = \max l^{(t)},

则(maxl)_l(t)≈maxl^(t)+η^T(l-l^(t))＝maxl^(t)+η^Tl-maxl^(t)＝η^Tl，引入指示向量B和U后进一步被重写为这里的B＝[B₁，…，B_i，…，B_I]，其中是一个和图像i有关的矩阵，b_ic＝η^T。是一个对角的分块矩阵，其中

U_{i} = diag (u_{1}, . ., u_{i}), u_{k} = 0_{n_{k} \times n_{k}} fork = 1, . . . i - 1, i + 1, . . . Iand u_{i} = I_{n_{i} \times n_{i}} .

将正交性的约束写入目标函数，

\min_{Y, W} L (Y, W) = Tr (Y^{T} LY) + α {| | X^{T} W - Y | |}_{F}^{2} + β {| | W | |}_{2,1}

+ γ Σ_{i = 1}^{I} Σ_{c = 1}^{C} [(1 - g_{i}^{c}) h_{c} Y^{T} q_{i} + g_{i}^{c} (1 - h_{c} {BU}_{i} Y h_{c}^{T})]

+ \frac{μ}{2} {| | Y^{T} Y - I_{C} | |}_{F}^{2}

s.t.Y≥0

μ≥0是控制正交性约束的参数。本算法中，应该将其设置足够大来保证正交性约束。将目标函数对W求导数，得到W的迭代公式如下

\frac{&PartialD; L (Y, W)}{&PartialD; W} = 2 (αX (X^{T} W - Y) + βDW) = 0

&DoubleRightArrow; W = α {(αX X^{T} + βD)}^{- 1} XY

D是对角矩阵并且用上式来取代目标函数当中的W，可以得到

\min_{Y} L = Tr [Y^{T} MY] + γ [Σ_{i}^{I} Σ_{c}^{C} (1 - g_{i}^{c}) h_{c} Y^{T} q_{i}

+ Σ_{i}^{I} Σ_{c}^{C} g_{i}^{c} (1 - h_{c} {BU}_{i} Y h_{c}^{T})] + \frac{μ}{2} {| | Y^{T} Y - I_{C} | |}_{F}^{2}

s.t.Y≥0

其中M＝L+α(I_N-αX^T(αXX^T+βD)-¹X)。对于新的目标函数，未知变量为Y，我们用拉格朗日法进行求解。设φ_ij是对于Y_i，j≥0的拉格朗日乘子，则拉格朗日函数形式为L+Tr(ΦY^T)。令它对Y求导导数为0，可以得到

2 MY + P + 2 μY Y^{T} Y - 2 μY + Φ = 0, P = γ Σ_{i = 1}^{I} Σ_{c = 1}^{C} [(1 - g_{i}^{c}) q_{i} h_{c} - g_{i}^{c} U_{i}^{T} B^{T} h_{c}^{T} h_{c}] .

利用KKT条件令φ_ijY_ij＝0，得到对Y的更新公式为

Y_{ij} &LeftArrow; Y_{ij} \frac{2 {(μY)}_{ij}}{{(2 MY + P + 2 μY Y^{T} Y)}_{ij}}

至此，一轮迭代结束了。反复迭代优化凸的子问题直到收敛，我们可以得到原始问题的次优解。

学出类标矩阵Y和判别式分类器W以后，就可以对本发明的方法进行评价了。对于参与学习的数据，根据相应的指示类标矩阵，就可以预测每一个子区域的标签。对于没有参与学习的图像数据，利用学到的线性分类器W，也可以对经过分割后形成的子区域进行语义解析。

注意，由于学到的线性分类器W的每一列代表一个已知标签的分类器，对于没有语义标签的图像，进行分割后，提取每个子区域的词袋模型，然后输入到分类器当中，能够预测出每个子区域的标签，从而对整幅图像进行语义解析。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

图2给出了本发明的一个实施例的图像语义解析方法的演示图，下面参照图2说明本发明的一个具体实施例。

首先，我们对带有语义标签的图像进行预处理。附图示记a所示的方框的上方的框为即该实施例中带有语义标签的图像a1。对其预处理步骤包括将图像过分割成子区域和提取子区域的视觉特征和位置信息等。方框a下部的框中展示了过分割形成子区域后的结果，即为我们要输入的子区域a2。其次，方框b的上部展示了在弱监督信息b3的指导下，利用联合谱聚类b1和判别式聚类b2的方法，对子区域进行聚类的过程。方框b的下部是打上了标签的聚类b4。方框c为根据学出的类标指示矩阵Y，预测每一个子区域的标签，将具有相同标签的子区域进行合并，最后输出语义解析的结果。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于弱监督学习的图像语义解析方法，包括如下步骤：

S2.1、采用谱聚类方法将过分割的图像子区域进行聚类，利用线性分类器作为一种判别式的聚类方法，使其与谱聚类方法共享统一的类标指示向量；

S2.2、将图像的标签信息作为弱监督信息，利用图像级别标签与图像子区域级别标签的对应约束关系，为图像子区域的各个聚类添加语义标签；

S2.3、用联合凹凸优化方法与非负乘子法的迭代更新过程对目标函数进行优化求解，其中，在每一轮迭代过程中，通过凹凸优化方法，用一阶泰勒展开式近似非凸函数，将原问题转化为一个凸的优化问题，反复迭代优化凸的子问题直至收敛，得到原问题的次优解。

2.根据权利要求1所述的基于弱监督学习的图像语义解析方法，其特征在于，所述谱聚类方法提取子区域的视觉特征和空间位置信息。

3.根据权利要求1所述的基于弱监督学习的图像语义解析方法，其特征在于，用L(2,1)范数的正则项进行稀疏特征选择。

4.根据权利要求1所述的基于弱监督学习的图像语义解析方法，其特征在于，所述对应约束关系包括：如果图像具有某一个标签，那么该图像中一定有至少一个子区域是能够解释这个标签的；如果图像没有某个标签，图像中所有的图像子区域都不能解释这个标签；并且一个图像子区域只能对应一个标签。

5.根据权利要求1所述的基于弱监督学习的图像语义解析方法，其特征在于，该方法在所述步骤S2.1之前还包括步骤S1：

将带有语义标签的图像过分割成子区域后，提取每个子区域的视觉特征和位置信息。

6.根据权利要求5所述的基于弱监督学习的图像语义解析方法，其特征在于，所述视觉特征采用词袋模型。