CN105678309A

CN105678309A - 一种基于多示例包特征学习的图像多标签标注算法

Info

Publication number: CN105678309A
Application number: CN201610076444.2A
Authority: CN
Inventors: 丁昕苗; 郭文; 刘延武; 张帅; 曲衍怀; 范丽杰
Original assignee: Shandong Technology and Business University
Current assignee: Shandong Technology and Business University
Priority date: 2016-02-03
Filing date: 2016-02-03
Publication date: 2016-06-15
Anticipated expiration: 2036-02-03
Also published as: CN105678309B

Abstract

本发明公开了一种基于多示例包特征学习的图像多标签标注算法，包括：得到所有训练图像的图像分块的集合；对训练图像的图像分块的集合中的每个图像分块提取颜色直方图特征和方向梯度直方图特征；将一个训练图像看作一个图像包，得到多示例学习框架所需的图像包结构；将训练图像集合中所有图像包中的示例组成投影示例集合，每个图像包通过向该投影示例集合投影得到图像包的投影特征；选择出判别性高的特征作为图像包的分类特征；将学习出的训练图像集合的图像包的分类特征送入SVM分类器进行训练，得到训练模型的参数，用训练好的SVM分类器对测试图像标签进行预测。本发明的标注算法实现简单，训练器成熟可靠，预测快捷，更好的完成图像多标签。

Description

一种基于多示例包特征学习的图像多标签标注算法

技术领域

本发明涉及多媒体内容理解和计算机网络内容检索领域，特别涉及一种基于多示例包特征学习的图像多标签标注算法。

背景技术

随着计算机技术、通信技术和多媒体技术的飞速发展，Internet已成为一个浩瀚的海量多媒体信息源，人们迫切希望可以利用计算机对规模急剧增长的数字化图像/视频信息加以自动理解，从而方便用户选择有效的技术手段对这些视觉信息进行有效的组织、管理和查找。基于内容的图像检索成为了一个重要的研究课题。

传统的监督学习假设一个图像被表示为一个示例并被标注一个标签。虽然这些方法已有成功的应用案例，但是随着网络图像种类和语义复杂性的增高，单示例单标签的图像标注方法已经不能适应实际需求，因此多示例多标签的方法开始被应用于图像多标签的标注中。Zhou等首先提出了MIMIL-BOOST和MIML-SVM分别将多示例多标签退化为多示例单标签和单示例多标签方法来解决多示例多标签问题。随着这两种方法在图像多标签标注领域的成功应用，继而又出现了基于排序损失的多示例多标签学习算法，基于迭代度量的多示例多标签学习算法，快速多示例多标签学习算法，基于隐狄利克雷方法的多示例多标签学习算法等。

这些算法虽然已经较好的应用于图像多标签标注中，但仍存在各种问题。其中较突出的一个问题是，由于图像包内包含的示例标签不确定性，导致与标签无关的示例带来了诸多的干扰，使得图像包特征的判别性降低，如何通过学习选择更优的图像包特征是一个亟待解决的问题。

发明内容

为解决现有技术存在的不足，本发明公开了一种基于多示例包特征学习的图像多标签标注算法，本发明的包特征学习算法可以提高图像包的判别性，继而提高分类器的识别精度，使图像标签的预测更准确，标注更全面可靠。

为实现上述目的，本发明的具体方案如下：

一种基于多示例包特征学习的图像多标签标注算法，包括以下步骤：

步骤一：获得训练图像集合并对其中的所有训练图像进行分割，得到所有训练图像的图像分块的集合；

步骤二：对训练图像的图像分块的集合中的每个图像分块提取颜色直方图特征和方向梯度直方图特征；

步骤三：将一个训练图像看作一个图像包，该训练图像的颜色直方图特征和方向梯度直方图特征看作图像包内的示例，则得到多示例学习框架所需的图像包结构；

步骤四：将训练图像集合中所有图像包中的示例组成投影示例集合，每个图像包通过向该投影示例集合投影得到图像包的投影特征；

步骤五：将图像包的投影特征经过范式约束的稀疏表示模型进行特征学习，选择出判别性高的特征作为图像包的分类特征；

步骤六：将学习出的训练图像集合的图像包的分类特征送入SVM分类器进行训练，得到训练模型的参数，用训练好的SVM分类器对未知标签信息的测试图像标签进行预测。

进一步的，所述步骤一中，对训练图像进行分割时，以像素RGB颜色值作为聚类目标，采用模糊C均值聚类算法进行图像分割。

进一步的，所述步骤二中，颜色直方图特征和方向梯度直方图特征的提取具体步骤如下：

步骤2.1：分别提取图像分块中每个像素的R，G，B颜色值；

步骤2.2：将颜色值平均分为16组，以16作为组距，分别统计R，G，B三种颜色值在每组颜色值范围内的像素数，并采用最大值归一化后，得到R，G，B三种颜色的直方图；

步骤2.3：将R，G，B三种颜色直方图首尾相接得到48维的分块图像的颜色直方图特征列向量，继而得到颜色直方图；

步骤2.4：将图像分块进行灰度化，并提取每个像素灰度值；

步骤2.5：采用Gamma校正法对输入图像分块进行颜色空间的标准化；

步骤2.6：计算图像分块每个像素的梯度；

步骤2.7：将梯度方向360度分为12组，组距30度，来统计每个图像分块的方向梯度直方图；

步骤2.8：将颜色直方图与方向梯度直方图首尾相接，则得到图像分块的特征值向量，用列向量表示。

进一步的，步骤2.6中，在计算图像分块每个像素的梯度时具体的计算步骤如下：

步骤2.6.1：计算每个像素点(x,y)的梯度如下：

G₁(x,y)＝H(x+1,y)-H(x-1,y)

G₂(x,y)＝H(x,y+1)-H(x,y-1)

式中，G₁(x,y)，G₂(x,y)，H(x,y)，分别表示像素点(x,y)处的水平方向梯度、垂直方向梯度和像素灰度值；

步骤2.6.2：计算每个像素点(x,y)处的梯度幅值和梯度方向如下：

\begin{matrix} G (x, y) = \sqrt{G_{1} {(x, y)}^{2} + G_{2} {(x, y)}^{2}} \\ α (x, y) = \tan^{- 1} (\frac{G_{1} (x, y)}{G_{2} (x, y)}) \end{matrix} .

进一步的，所述步骤2.7中，所述统计过程为：如果一个像素的梯度方向在直方图某组梯度方向数值范围内，则该组统计计数根据该像素梯度大小增加相应的计数；统计好的方向梯度直方图进行最大值归一化后，则得到维数为12维的图像分块方向梯度直方图，用列向量表示。

进一步的，所述步骤三中，用一个矩阵表示一个图像包，矩阵的每列为步骤2.8中所得到的每个图像分块示例的特征向量。

进一步的，所述步骤四中，具体步骤为：

步骤4.1：收集所有训练图像集合的所有示例，组成投影示例集合P＝{p₁,…,p_m,…,p_M}，其中，M表示所有示例数，p_m为投影示例集合的第m个示例；

步骤4.2：计算图像包到每个投影示例的距离，其计算如下：

d (X_{i}, p_{m}) = \min_{x_{i, j} &Element; x_{i}} s (x_{i, j}, p_{m})

s (x_{i, j}, p_{m}) = \exp (- \frac{| | x_{i, j} - p_{m} | |_{2}^{2}}{σ^{2}})

其中，X_i为第i个图像包，x_i,j为第i个图像包的第j个示例，p_m为投影示例集合中的第m个示例，σ为高斯距离参数，取1～2之间的值，s(x_i,j,p_m)所求的是包内示例到投影示例的高斯距离，图像包到投影示例的距离d(X_i,p_m)所求为图像包内所有示例到投影示例高斯距离中的最小距离；

步骤4.3：将图像包到所有投影示例的距离值排成一列，得到图像包的投影特征。

进一步的，所述步骤五中的具体步骤为：

步骤5.1：将训练图像集合中每个图像包的投影特征作为矩阵的列，得到训练集投影特征矩阵Z＝[z₁,…,z_i,…z_N]，其中，N为训练集图像包的数量，将训练图像集中每个图像包的标签值作为列，得到训练集合图像包标签矩阵Y＝[y₁,…,y_i,…y_N]，其中每个图像包的标签值y_i为一个列向量，其维度为图像集的标签总数，其元素数取值为[0,1]，如果元素值为1，则对应的标签被标注到该图像，否则，该标签不被标注到该图像；

步骤5.2：构造l_2，1范式约束稀疏表示模型如下：

\min_{w} Σ_{i = 1}^{N} | | Z^{T} W - Y^{T} | |_{2, 1} + γ | | W | |_{2, 1}

其中，W为l_2，1范式约束稀疏表示模型要求解的特征选择系数；

步骤5.3：采用增广拉格朗日算法求解出l_2，1范式约束稀疏表示模型中的特征选择系数W；

步骤5.4：记录W中的非零行序号集合为IX，选取训练集投影特征矩阵Z中序号为IX的行则得到学习的图像包分类特征。

进一步的，所述步骤六中，具体步骤为：

步骤6.1：将步骤五中学习到的训练图像集合图像包分类特征分别送入不同标签对应的SVM分类器进行训练，则每一个标签学习得到一个SVM分类器；

步骤6.2：用模糊C均值聚类算法将测试图像进行图像分割，得到测试图像分块；

步骤6.3：对每个测试图像分块提取颜色直方图特征和方向梯度直方图特征，并首尾相接排成一列，所有图像分块特征按列排成一个矩阵，得到测试图像包的特征矩阵，矩阵每列看作测试图像包的一个示例特征；

步骤6.4：计算测试图像包与投影示例的距离，排成一列得到测试图像包的投影特征向量；

步骤6.5：依据步骤五学习得到的特征选择系数W的非零行序号集合IX，对应选择出测试图像包投影向量的行，得到测试图像包的分类特征；

步骤6.6：将测试图像包的分类特征分别输入步骤6.1得到的训练好的SVM分类器，分别得到每个标签的预测概率，如果概率值大于等于设定值则该标签被标注于测试图像，反之，则该标签不被标注于测试图像，如此便得到最终的测试图像标注结果。

进一步的，该设定值为0.5。

本发明的有益效果：

(1)本发明在学习包分类特征的同时剔除了干扰示例，选择出了判别性高的图像包特征。

(2)本发明在学习包分类特征时兼顾了训练图像集合的多标签之间的关系，增加了包分类特征所包含的语义信息。

(3)本发明提出了一种新的基于多示例包特征学习的图像多标签标注算法，该技术具有重要的学术意义和社会意义，并具有广阔的应用前景。

具体实施方式：

下面对本发明进行详细说明：

一种基于多示例包特征学习的图像多标签标注算法，该方法具体包括以下步骤：

步骤1：获得训练图像集合并对其中的图像进行分割，得到所有图像的分块图像集合；图像分割算法以像素RGB颜色值作为聚类目标，采用模糊C均值聚类(FCM)算法进行图像分割。

步骤2：对训练集合中的每个图像分块提取颜色直方图特征和方向梯度直方图特征(HOG特征)。具体步骤如下：

步骤2.1：分别提取图像分块每个像素的R，G，B颜色值；

步骤2.3：将R，G，B三种颜色直方图首尾相接得到48维的图像分块颜色直方图特征列向量；

步骤2.4：将图像块进行灰度化，并提取每个像素灰度值；

步骤2.5：采用Gamma校正法对输入图像块进行颜色空间的标准化；

步骤2.6：计算图像每个像素的梯度(包括大小和方向)；计算步骤如下：

步骤2.6.1：计算每个像素点(x,y)的梯度如下：

G₁(x,y)＝H(x+1,y)-H(x-1,y)

G₂(x,y)＝H(x,y+1)-H(x,y-1)

式中，G₁(x,y)，G₂(x,y)，H(x,y)，分别表示像素点(x,y)处的水平方向梯度、垂直方向梯度和像素灰度值。

G (x, y) = \sqrt{G_{1} {(x, y)}^{2} + G_{2} {(x, y)}^{2}}

α (x, y) = \tan^{- 1} (\frac{G_{1} (x, y)}{G_{2} (x, y)})

步骤2.7：将梯度方向360度分为12组，组距30度，来统计每个图像块的方向梯度直方图。统计过程为：如果一个像素的梯度方向在直方图某组梯度方向数值范围内，则该组统计计数根据该像素梯度大小增加相应的计数。如：一个像素梯度方向为40度，大小为2，则需在方向梯度直方图31-60这个数值区间的组上增加计数2。统计好的方向梯度直方图进行最大值归一化后，则得到维数为12维的图像分块方向梯度直方图，用列向量表示；

步骤2.8：将颜色直方图与方向梯度直方图首尾相接，则得到图像分块的特征值向量，用列向量表示；

步骤3：将一个图像看作一个包，该图像的分块特征看作包内的示例，则得到多示例学习框架所需的图像包结构；用一个矩阵表示一个图像包，矩阵的每列为步骤2中所得到的每个图分块示例的特征向量；

步骤4：将训练集合中所有图像包中的示例组成投影示例集合，每个图像包通过向该集合投影得到图像包的投影特征，具体步骤如下：

步骤4.1：收集所有训练图像包集合的所有示例，组成投影示例集合其中，M表示所有示例数，p_m为投影示例集合的第m个示例；

步骤4.2：计算图像包到每个投影示例的距离，其计算如下：

d (X_{i}, p_{m}) = \min_{x_{i, j} &Element; x_{i}} s (x_{i, j}, p_{m})

s (x_{i, j}, p_{m}) = \exp (- \frac{| | x_{i, j} - p_{m} | |_{2}^{2}}{σ^{2}})

其中，X_i为第i个图像包，x_i,j为第i个图像包的第j个示例，p_m为投影示例集合中的第m个示例，σ为高斯距离参数，取1～2之间的值。s(x_i,j,p_m)所求的是包内示例到投影示例的高斯距离。图像包到投影示例的距离d(X_i,p_m)所求为图像包内所有示例到投影示例高斯距离中的最小距离。

步骤4.3：将图像包到所有投影示例的距离值排成一列，得到图像包的投影特征；

步骤5：将图像包投影特征经过l_2，1范式约束的稀疏表示模型进行特征学习，选择出判别性高的特征作为图像包的分类特征，具体步骤如下：

步骤5.1：将训练集中每个图像包的投影特征作为矩阵的列，得到训练集投影特征矩阵Z＝[z₁,…,z_i,…z_N]，其中，N为训练集图像包的数量。将训练集中每个图像包的标签值作为列，得到训练集图像包标签矩阵Y＝[y₁,…,y_i,…y_N]，其中每个图像包的标签值y_i为一个列向量，其维度为图像集的标签总数，其元素数取值为[0,1]。如果元素值为1，则对应的标签被标注到该图像，否则，该标签不被标注到该图像；

步骤5.2：构造l_2，1范式约束稀疏表示模型如下：

\min_{w} Σ_{i = 1}^{N} | | Z^{T} W - Y^{T} | |_{2, 1} + γ | | W | |_{2, 1}

其中，Z为训练集投影特征矩阵，其列向量为每个图像包的投影特征，W为l_2，1范式约束稀疏表示模型要求解的特征选择系数。Y为训练集图像包标签矩阵，其每列对应一个图像包的标签向量，每个标签向量的元素数对应图像标签数，非零元素表示其对应标签被标注于该图像。N为训练集图像包的数量。在优化求解出l_2，1范式约束稀疏表示模型的W后，根据W的非零行序号则可对应选择出相应包特征矩阵Z的行，所选择出的行组成的矩阵即为图像包分类特征矩阵，其每列为每个训练图像包的分类特征。

步骤5.3：采用增广拉格朗日算法求解出l_2，1范式约束稀疏表示模型中的特征选择系数W。

步骤5.4：记录W中的非零行序号集合为IX，选取训练集投影特征矩阵Z中序号为IX的行则得到学习的图像包分类特征；

步骤6：将学习出的训练集图像包分类特征送入SVM分类器进行训练，得到训练模型的参数，用训练好的SVM分类器对未知标签信息的测试图像标签进行预测，具体步骤如下：

步骤6.1：将步骤5中学习到的训练集图像包分类特征分别送入不同标签对应的SVM分类器进行训练，则每一个标签学习得到一个SVM分类器；

步骤6.2：用模糊C均值聚类(FCM)算法将测试图像进行图像分割，得到测试图像分块；

步骤6.4：依据步骤4的方法，计算测试图像包与投影示例的距离，排成一列得到测试图像包的投影特征向量；

步骤6.5：依据步骤5学习得到的特征选择系数W的非零行序号集合IX，对应选择出测试图像包投影向量的行，得到测试图像包的分类特征；

步骤6.6：将测试图像包的分类特征分别输入步骤6.1得到的训练好的SVM分类器，分别得到每个标签的预测概率，如果概率值≥0.5则该标签被标注于测试图像，反之，则该标签不被标注于测试图像，如此便得到最终的测试图像标注结果。

上述虽然对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于多示例包特征学习的图像多标签标注算法，其特征是，包括以下步骤：

2.如权利要求1所述的一种基于多示例包特征学习的图像多标签标注算法，其特征是，所述步骤一中，对训练图像进行分割时，以像素RGB颜色值作为聚类目标，采用模糊C均值聚类算法进行图像分割。

3.如权利要求1所述的一种基于多示例包特征学习的图像多标签标注算法，其特征是，所述步骤二中，颜色直方图特征和方向梯度直方图特征的提取具体步骤如下：

步骤2.1：分别提取图像分块中每个像素的R，G，B颜色值；

步骤2.4：将图像分块进行灰度化，并提取每个像素灰度值；

步骤2.6：计算图像分块每个像素的梯度；

4.如权利要求3所述的一种基于多示例包特征学习的图像多标签标注算法，其特征是，步骤2.6中，在计算图像分块每个像素的梯度时具体的计算步骤如下：

步骤2.6.1：计算每个像素点(x,y)的梯度如下：

G₁(x,y)＝H(x+1,y)-H(x-1,y)

G₂(x,y)＝H(x,y+1)-H(x,y-1)

\begin{matrix} G (x, y) = \sqrt{G_{1} {(x, y)}^{2} + G_{2} {(x, y)}^{2}} \\ α (x, y) = \tan^{- 1} (\frac{G_{1} (x, y)}{G_{2} (x, y)}) \end{matrix} .

5.如权利要求3所述的一种基于多示例包特征学习的图像多标签标注算法，其特征是，所述步骤2.7中，所述统计过程为：如果一个像素的梯度方向在直方图某组梯度方向数值范围内，则该组统计计数根据该像素梯度大小增加相应的计数；统计好的方向梯度直方图进行最大值归一化后，则得到维数为12维的图像分块方向梯度直方图，用列向量表示。

6.如权利要求3所述的一种基于多示例包特征学习的图像多标签标注算法，其特征是，所述步骤三中，用一个矩阵表示一个图像包，矩阵的每列为步骤2.8中所得到的每个图像分块示例的特征向量。

7.如权利要求1所述的一种基于多示例包特征学习的图像多标签标注算法，其特征是，所述步骤四中，具体步骤为：

步骤4.2：计算图像包到每个投影示例的距离，其计算如下：

d (X_{i}, p_{m}) = \underset{x_{i, j} &Element; X_{i}}{m i n} s (x_{i, j}, p_{m})

s (x_{i, j}, p_{m}) = \exp (- \frac{| | x_{i, j} - p_{m} | |_{2}^{2}}{σ^{2}})

8.如权利要求1所述的一种基于多示例包特征学习的图像多标签标注算法，其特征是，所述步骤五中的具体步骤为：

步骤5.2：构造l_2，1范式约束稀疏表示模型如下：

\min_{w} Σ_{i = 1}^{N} | | Z^{T} W - Y^{T} | |_{2, 1} + γ | | W | |_{2, 1}

9.如权利要求1所述的一种基于多示例包特征学习的图像多标签标注算法，其特征是，所述步骤六中，具体步骤为：

10.如权利要求9所述的一种基于多示例包特征学习的图像多标签标注算法，其特征是，所述步骤6.6中的设定值为0.5。