CN103942561A

CN103942561A - 一种基于主动学习的图像标注方法

Info

Publication number: CN103942561A
Application number: CN201410106864.1A
Authority: CN
Inventors: 陈晋音; 黄坚
Original assignee: HANGZHOU XISONG TECHNOLOGY Co Ltd
Current assignee: Hangzhou measurement data Technology Co., Ltd.
Priority date: 2014-03-20
Filing date: 2014-03-20
Publication date: 2014-07-23
Anticipated expiration: 2034-03-20
Also published as: CN103942561B

Abstract

本发明公开了一种基于主动学习的网络图像标注方法。该方法首先基于图像数据集构建表征图像视觉相似性关系的K近邻图结构，计算相应的拉普拉斯图矩阵L；接着采用迭代计算求解最优化问题，选择出T个标注样本让用户进行标注；然后根据选择出来的T个标注样本训练多类别SVM分类器模型f^svm，最后基于训练的SVM分类模型f^svm对图像数据集中的图像进行图像类别判断，依据判别结果对图像进行标注，从而实现基于主动学习的图像标注。本方法采用迭代依次挑选出最具代表性的图像数据进行交互式标注，不仅提高训练的SVM模型性能和图像标注的准确度，还能减少需要标注的图像数目，达到减轻人工劳动量的目的。

Description

一种基于主动学习的图像标注方法

技术领域

本发明涉及网络图像标注技术，主动学习技术和SVM分类器，尤其涉及采用主动学习进行图像标注方法。

背景技术

近年来，伴随着计算机视觉技术和机器学习算法的兴起，基于图像内容的网络图像自动标注技术得到飞速发展。通用的图像标注流程包括：（1）图像视觉特征提取和表达；（2）基于训练数据对分类器或者搜索模型进行训练；（3）使用训练好的分类器或者搜索模型对图像进行分类或者是搜索近邻，实现对图像的标注。

从上面的通用图像标注流程可以看出无论是分类器还是搜索模型的构建通常都是需要训练数据集的支撑。而构建这样的训练数据，经常需要对图像数据进行标注，比较耗时同时也是比较繁琐的。为了节省人工标注的劳动量，以往的研究工作一般是从两个方法来解决这个问题。

第一种解决思路是采用半监督学习的方法，只对训练数据集中的少量数据进行标注，然后将数据集中大量的未标注的数据加入到模型的训练中，通过挖掘图像之间存在的特征空间上的近邻关系来提高算法的准确性。

第二种解决思路是采用主动学习的方法，通过采用某种策略和方法，主动地从训练数据集中挑选出部分具有代表性或者是最具模糊性的图像数据，对这些数据进行人工标注，然后利用这些标注的数据集对算法模型进行训练。由于标注的数据是经过智能选择过的，因此使用这些的标注数据进行模型训练，可以进一步提高算法的准确率。

关于第一种解决思路的相关工作可以参考Xiaojin Zhu的《Semi-supervised LearningSurvey》一文。第二中解决思路是与本发明所提出的方法关系最密切的。这类工作包括支持向量机主动学习（Support Vector Machine active learning，SVMactive)，基于回归的主动学习方法(Regression based active learning)，基于最优实验设计（Optimal Experiment Design,OED）类的主动学习方法和基于图的主动学习方法，如Laplacian Optimal Design（LOD）等

与上面介绍的方法不同，本发明所提出的方法采用贪心算法求解需要标注的图像数据，在得到用户标注图像结果后，我们将其应用到多类别SVM模型中，训练SVM模型，然后应用训练结果对数据集中的其他图像进行自动标注。

发明内容

本发明的目的是为了克服在训练SVM算法模型是需要提供大量人工标注的图像数据，耗费时间和人力的问题，提供一种基于主动学习的网络图像标注方法。

基于主动学习的网络图像标注方法包括如下步骤：

1)对网络图像数据集MSRA-MM数据集中，选择80类图像，每类100张图像，共计8000张图像，提取64维的颜色直方图和255维的颜色纹理矩特征，构成319维的图像视觉特征表达，得到图像特征集X＝[x₁,x₂,...,x_n]∈R^d×n，其中d＝319为图像特征维度，n＝8000为图像样本数；

2)构建表征图像视觉相似性关系的K近邻图结构，以图像特征集中样本作为K近邻图的顶点，K近邻图的边权重矩阵S设置如下：

其中，Ν_k(x_j)和Ν_k(x_i)分别表示x_j和x_i的K近邻；

3)根据S矩阵，计算相应的拉普拉斯图矩阵L，计算公式如下：

L＝S-D2

其中，D为对角矩阵，对角元素值

4)初始化用户标注图像样本z₁为：

z_{1} = \arg \min_{z_{1} &Element; X} tr (K_{XX} {(K_{{Xz}_{1}} K_{z_{1} X})}^{- 1} K_{XX}) - - - 3

其中，(K_XX)_ij＝K(x_i,x_j)，K(·)为高斯核函数，定义为：K(x,y)＝exp(-||x-y||²/2σ²)，σ为核参数，tr(·)为矩阵迹运算；

5)迭代计算任意第p+1个用户标注样本z_p+1，直至选择到预定T个标注样本，计算公式如下：

z_{p + 1} = \arg rnin tr (K_{XX} {(M + K_{{Xz}_{P + 1}} K_{z_{p + 1} X})}^{- 1} K_{XX}) - - - 4

其中，Z^p＝[z₁,...,z_p]为所有前p个用户标注样本所构成的矩阵；

6)根据上面步骤4）和步骤5）选择出来的T个标注样本Z^T＝[z₁,...,z_T]，训练多类别SVM分类器模型f^svm，然后基于训练的SVM分类模型f^svm对图像数据集中的图像进行图像类别判断，依据判别结果对图像进行标注，从而实现基于主动学习的图像标注。

本方法采用迭代依次挑选出最具代表性的图像数据进行交互式标注，不仅提高训练的SVM模型性能和图像标注的准确度，还能减少需要标注的图像数目，达到减轻人工劳动量的目的。与现有方法相比具有所需人工工作量小，模型训练更加准确，图像标注结果更精确的特点。

附图说明

图1是MSRA-MM图像数据集上的部分样例图像；

图2是图像标注实例1；

图3是图像标注实例2；

具体实施方式

基于主动学习的网络图像标注方法包括如下步骤：

1)对网络图像数据集MSRA-MM数据集[1]中，选择80类图像，每类100张图像，共计8000张图像，提取64维的颜色直方图和255维的颜色纹理矩特征，构成319维的图像视觉特征表达，得到图像特征集X＝[x₁,x₂,...,x_n]∈R^d×n，其中d＝319为图像特征维度，n＝8000为图像样本数；

其中，Ν_k(x_j)和Ν_k(x_i)分别表示x_j和x_i的K近邻；

3)根据S矩阵，计算相应的拉普拉斯图矩阵L，计算公式如下：

L＝S-D2

其中，D为对角矩阵，对角元素值

4)初始化用户标注图像样本z₁为：

z_{1} = \arg \min_{z_{1} &Element; X} tr (K_{XX} {(K_{{Xz}_{1}} K_{z_{1} X})}^{- 1} K_{XX}) - - - 3

其中，(K_XX)i_j＝K(x_i,x_j)，K(·)为高斯核函数，定义为：K(x,y)＝exp(-||x-y||²2σ²)，σ为核参数，tr(·)为矩阵迹运算；

z_{p + 1} = \arg rnin tr (K_{XX} {(M + K_{{Xz}_{P + 1}} K_{z_{p + 1} X})}^{- 1} K_{XX}) - - - 4

参考文献

[1]http://research.microsoft.com/en-us/projects/msrammdata/

实施例1

采用网络图像数据集MSRA-MM数据集中，选择80类图像，每类100张图像，共计8000张图像，提取64维的颜色直方图和255维的颜色纹理矩特征，构成319维的图像视觉特征表达进行试验，图2、图3分别展示两个标注实例。下面结合前面所述的方法步骤，具体说明该实施实例如下：

1）对网络图像数据集MSRA-MM数据集中，选择80类图像，每类100张图像，共计8000张图像，提取64维的颜色直方图和255维的颜色纹理矩特征，构成319维的图像视觉特征表达，得到图像特征集X＝[x₁,x₂,...,x_n]∈R^d×n，其中d＝319为图像特征维度，n＝8000为图像样本数；

2）构建表征图像视觉相似性关系的K近邻图结构，以图像特征集中样本作为K近邻图的顶点，K近邻图的边权重矩阵S设置如下：

其中，Ν_k(x_j)和Ν_k(x_i)分别表示x_j和x_i的K近邻，这个实例中设置K＝10；

3）根据S矩阵，计算相应的拉普拉斯图矩阵L，计算公式如下：

L＝S-D2

其中，D为对角矩阵，对角元素值

4）初始化用户标注图像样本z₁为：

z_{1} = \arg \min_{z_{1} &Element; X} tr (K_{XX} {(K_{{Xz}_{1}} K_{z_{1} X})}^{- 1} K_{XX}) - - - 3

其中，(K_XX)_ij＝K(x_i,x_j)，K(·)为高斯核函数，定义为：K(x,y)＝exp(-||x-y||²/2σ²)，σ为核参数，设置为0.01，tr(·)为矩阵迹运算；

5）迭代计算任意第p+1个用户标注样本z_p+1，直至选择到预定前30个标注样本，计算公式如下：

z_{p + 1} = \arg rnin tr (K_{XX} {(M + K_{{Xz}_{P + 1}} K_{z_{p + 1} X})}^{- 1} K_{XX}) - - - 4

6）根据上面4）和5）选择出来的T个标注样本Z^T＝[z₁,...,z_T]，使用LIBSVM工具包，训练多类别SVM分类器模型f^svm，然后基于训练的SVM分类模型f^svm对图像数据集中的图像进行图像类别判断，依据判别结果对图像进行标注，从而实现基于主动学习的图像标注。

Claims

1.一种基于主动学习的网络图像标注方法，其特征在于包括如下步骤：

其中，Ν_k(x_j)和Ν_k(x_i)分别表示x_j和x_i的K近邻；

3)根据S矩阵，计算相应的拉普拉斯图矩阵L，计算公式如下：

L＝S-D 2

其中，D为对角矩阵，对角元素值

4)初始化用户标注图像样本z₁为：

z_{1} = \arg \min_{z_{1} &Element; X} tr (K_{XX} {(K_{{Xz}_{1}} K_{z_{1} X})}^{- 1} K_{XX}) - - - 3

z_{p + 1} = \arg rnin tr (K_{XX} {(M + K_{{Xz}_{P + 1}} K_{z_{p + 1} X})}^{- 1} K_{XX}) - - - 4