CN106599051B

CN106599051B - 一种基于生成图像标注库的图像自动标注的方法

Info

Publication number: CN106599051B
Application number: CN201611004682.9A
Authority: CN
Inventors: 牛建伟; 马骏; 郑世超
Original assignee: Beijing University of Aeronautics and Astronautics
Current assignee: Beihang University
Priority date: 2016-11-15
Filing date: 2016-11-15
Publication date: 2020-02-07
Anticipated expiration: 2036-11-15
Also published as: CN106599051A

Abstract

本发明公开了一种基于生成图像标注库的图像自动标注的方法，主要包括三个过程：(1)建立并改善自动标注的基准图像标注库；(2)利用提取的图像特征信息，构建图像近邻传播模型(3)在图像近邻传播模型的框架下，对未标注图像进行图像标签推断。本发明可以在一般图像原始标注库的基础上，减少甚至避免图像弱标签性，自动填补缺失标签，过滤明显噪声标签；增加图像标签权重，使图像标签在进行近邻传播时，更加有层次和目标性，增加图像标签传递的准确性。

Description

一种基于生成图像标注库的图像自动标注的方法

技术领域

本发明涉及一种基于生成图像标注库的图像自动标注方法，属于数字图像处理技术领域。

背景技术

目前，随着网络时代的发展，信息量呈爆炸趋势增长，每天都有海量图片产生出来。如何有效的管理这些图片，查找符合自己需求的目标图片成了急需解决的问题。目前，主流的做法是给这些图片加上合适的语义标签，以供用户进行管理和检索。由于图像数据的庞大性，提高图像语义自动标注的丰富度和准确性都十分迫切。

在此之前，对于固定的图像库标注的方法中，主要采用概率模型，计算对应图像特征的标签最大可能性，但是由于模型参数的复杂度有限，并不能准确描述图像特征和标签之间的关系，这种概率模型可能不是最好的模型。另外，如果过分追求训练模型的复杂度和参数调整，又会出现过拟合现象，使模型的适用性十分低。

发明内容

本发明的目的是为了解决对大量图像进行计算机自动标注的问题，通过构建相关的图像标注库，训练标注模型，提出了一种基于图像近邻传播的一种图像自动标注算法，该方法是在一个良好的图像标注库的构建基础上，通过近邻传播对未标注图像的标签推断，完成图像的自动标注。

本发明方法包含了图像标签库构建、图像近邻传播模型学习和图像标签概率计算三个过程，图像标签库构建主要对初始图像标签库进行优化处理，补充图像缺失标签，增加图像标签等级，过滤错误标签；图像近邻传播模型的学习构建，主要采用机器学习的方法，在采集图像颜色特征、纹理特征以及局部兴趣点特征等多种图像特征的基础上，对训练集图像进行距离学习，得到一个可以计算图像近邻图像的模型；图像标签推断是通过图像近邻传播模型的计算，得到与未标注图像最相似的图像标注库中的图像，通过相关公式完成图像标签推断。

一种图像自动标注方法，包括以下几个步骤：

步骤1：图像标签库的构建。

首先要构建一个图像标签库，作为后续图像自动标注的基础。图像标签库由图像库，对应的标签标注矩阵以及标签列表构成。标签列表包含所有用于图像标注的标签。标签标注矩阵由所有图像对应的标注向量构成，图像的标注向量为一个0,1串，标明图像是否存在标签列表对应的标签，如存在则为1，不存在则为0。例如，如果标签集为{sea,tree,sun,plane,sand}({海洋，树，太阳，飞机，沙子})，那么一幅拥有海洋和落日的图像的标注向量为{1,0,1,0,0}。

原始图像标签库由人工手动标注，每幅图像含有3-5个图像标签，图像标签为对应图像所包含的图像元素，相关场景以及与图像主体相关的信息。但是由于图像人工标注是一件极其繁琐、费力的工作，人工标注给出的标签存在标签不完整以及不正确等弱标签情况，为了改善这种情况，针对图像标签库做进一步处理。

令原始图像标签库为{(x₁,y₁),...,(x_l,y_l)}，这里(x_i，y_i)表示第i个带有标签的图像，其中，x_i为图像i的视觉特征向量，y_i为图像i的标签向量，标签列表为C＝{c₁,c₂,...,c_q}，代表所有在图像标签库中出现过的标签。标签向量集合构成标签矩阵Y₀＝[y₁,y₂,...,y_l]，处理后(处理的过程就下面将要讲的优化的过程，标签矩阵Y是理想矩阵，假设一个矩阵Y＝[y₁′,y′₂,...,y_l′]，然后通过计算，计算出这个矩阵，也就是处理得到这个矩阵)的标签矩阵为Y＝[y₁′,y₂′,...,y_l′]。另外，令R为标签相关矩阵，R_i,j表示标签c_i与标签c_j之间的相关性。定义

其中o_i表示标注库中标签c_i的频数，Col_i,j表示标签c_i与c_j的共现。这里，标签c_i与c_j的共现指的是标签c_i与c_j同时对一幅图像进行标注。

定义误差函数为E＝E₁+αE₂+βE₃。首先，由于要保证近邻图像标签的平衡性，所以视觉特征相似的图像，其对应的图像标签向量也应该相似，因此令

其中，d_ij表示图像i与图像j之间的距离，

表示所有图像之间距离的和，s表示此图像标注库所有含有的标签列表中标签的个数，也即此图像标注库共有多少个不重复的标签。E₁表示期望标签矩阵和样本的视觉相似性之间的差异性。其次，语义相近的标签，或者属于同一语义环境的标签，其共现相关性也会较高，例如，一幅描述ice，snow，bear，white(冰，雪，熊，白色)的图像，标签polar(北极)出现的概率就很大，因为冰雪场景出没白色熊一般为北极熊。数据集中蕴含的这种语境相关信息应对标签填充起到指导作用，因此令E₂＝||Y^TY-R||²，其中Y为处理后的标签矩阵，R为上文提到的标签相关矩阵。另外，原始标签对于期望标签也是有一定的指导意义，所以，令E₃＝||Y-Y₀||²，其中，Y为处理后的标签标注矩阵，Y₀为初始的标签标注矩阵。

优化目标为min{E₁+αE₂+βE₃}，其中，α和β均为非负整数，根据训练样本的不同进行调整。通过梯度下降法可以求解出近似的最优解，最优解即处理过后的最优图像标签库。

以上步骤完成之后，得到了一个相比初始图像标注库更加完善的，并剔除部分错误标签的图像标注库。但是对应的图像标签没有等级或者说权重。为了增加图像标签的等级，对标注库中的所有图像进行多示例学习，具体过程如图1所示。针对一个标注集为T＝{T₁,T₂,...,T_n}的图像，首先对其进行图像分割，得到m个图像块，再从该标注集T中为每个图像块确定一个最佳标注，最后合并具有相同标注的相邻区域，从而实现了为图像进行区域标注的目的。计算分割之后每一个标签对应的图像块面积，得到面积序列为S＝{S₁,S₂,...,S_n}，将图像的长宽分别进行8等分分割(长的1/8和宽的1/8)，如图2及图3所示，每一层的权重由内置外依次递减，最外层的权重每分割为1，依次为1,2,4,8，一共四层。计算标注区域对应的图像权重块，如果图像区域与图像块有交集，则对应图像块总权重增加对应分割块的权重，得到权重序列W＝{W₁,W₂,...,W_n}。对应的标签权重计算公式为：

这样做的主要依据是，既考虑到图像标签对应的图像元素面积对于标签权重的影响，即面积越大标签权重越高，也考虑到图像主题元素对于图像标签权重的影响，即处于画面中间的图像元素，越有可能是图像的主要元素。

最终的图像标注库中图像标签矩阵中每一个图像的标签向量不再是原始的0,1串，而是经过多示例学习之后所计算出来的标签权重。例如，如果标签集为{sea,tree,sun,plane,sand}({海洋，树，太阳，飞机，沙子})，那么一幅拥有海洋和落日的图像的标注向量为{0.85,0,0.15,0,0}。

步骤2：基于距离的最近邻传播模型的构建；

首先是提取图像的多维特征。

本方法主要使用了包括图像颜色特征，图像纹理特征，图像局部兴趣点特征等图像特征分多个维度计算其距离。

其中，图像颜色特征主要采用两种颜色特征进行提取计算，包括颜色矩和颜色聚合向量。本文中主要采用YUV颜色空间进行颜色特征提取，该模型的特点是将亮度和色度分离开，从而适合于图像处理领域。

颜色矩主要采集包括一阶矩(均值，mean)、二阶矩(方差，variance)和三阶矩(斜度，skewers)，由于颜色信息主要分布于低阶矩中，所以用一阶矩，二阶矩和三阶矩足以表达图像的颜色分布，对应的公式如下所示：

一阶矩：

二阶矩：

三阶矩：

其中，p_i,j表示彩色图像第i个颜色通道分量中灰度为j的像素出现的概率，N表示图像中的像素个数，μ_i为图像第i个颜色通道分量的平均值，或者简单说即一阶矩。

图像的3个分量Y，U，V的前三阶颜色矩组成一个9维直方图向量，即图像的颜色特征：F_color＝[μ_Y,σ_Y,s_Y,μ_U,σ_U,s_U,μ_V,σ_V,s_V]。其中字母μ，σ和s分别代表一阶矩，二阶矩和三阶矩，下标Y，U和V分别代表图像的三个分量，组合起来就是颜色分量对应的颜色矩。

由于颜色矩无法表达图像色彩的空间位置，所以还采用了另一种颜色特征，即颜色聚合向量。其核心思想是将属于直方图的每一个纵向条纹(下文称bin)的像素分为两部分，如果该bin内的某些像素所占据的连续区域的面积大于给定的阈值，则该区域内的像素作为聚合像素，否则作为非聚合像素，从而将每一个bin分为颜色聚合向量和颜色非聚合向量。

图像的纹理特征采用基于Gabor小波的纹理特征。Gabor滤波器组在多分辨率方面十分突出，并已经证明Gabor变换在2D测不准(时间分辨率和频率分辨率是一对矛盾的量)的情况下，能够得到对信号的频率域和空间域的最优描述。

最后，图像特征还包含SIFT算子提取的图像特征点特征。

提取图像各项特征之后，构建基于距离的最近邻传播模型，其近邻被定义为融合多维图像特征的图像距离与目标图像最为接近的若干张图像，其距离权重w被定义为：

其中，j为训练集中的图片，d为各种距离加权和。其中，d_θ(i,j)＝θ^Td_ij，d是一个维度的距离，θ是权值矩阵。d_θ(i,j)是多维距离的线性组合，其中核心参数是权值矩阵θ的计算。这里主要通过使用TagProp模型进行学习，学习的结果是得到权值矩阵θ，此矩阵描述了不同特征在计算图像之间距离时的权重，为下一步对未标注图像进行标签推断。

步骤3：对未标注图像进行标签概率计算；

标签推断的核心是基于近邻的标签推断，计算待标注的图像i对应的标签y存在的概率p(y_i)，使用的是如下公式：

其中，σ(z)＝(1+exp(-z))^-1，其作用是作为概率计算结果——

的一个平滑处理。其中，w_ij表示图像i和j在图像集中的距离权重，由步骤二计算所得；v(j,y_j)代表在图像j中，标签y的权重，这个在步骤1中计算得到。α,β是公式中的一组调和参数，作为不同训练集调优的一个设置。对于一幅图像，通过标签推断公式计算得出的不同概率的若干标签。取概率最大的前五个标签为此幅图像的标签。

本发明的优点在于：

(1)提出了一种对图像标注库进行处理的方法，可以在一般原始图像标注库的基础上，减少甚至避免图像弱标签性，自动填补缺失标签，过滤明显噪声标签。

(2)提出了一种增加图像标签权重的算法，使图像标签在进行近邻传播时，更加有层次和目标性，增加图像标签传递的准确性。

附图说明

图1是标注库中的所有图像进行多示例学习的流程图。

图2是确定图像标签权重时，权重模块分割计算示意图。

图3是关于图像标签权重分布的示意图。

图4是标注结果示例，对于此图的标注算法给出的结果是：sky天空，sun太阳，water水，clouds云，sunset日落。

图5是标注结果示例，对于此图的标注算法给出的结果是：tree树木，forest森林，tiger老虎，cat猫，bengal孟加拉。

图6是标注结果示例，对于此图的标注算法给出的结果是：grass草，field野外，horses马，mare母马，foals马驹子。

图7是标注结果示例，对于此图的标注算法给出的结果是：wall墙，cars车，tracks跑道，formula方程式赛车，turn弯。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明提出的图像自动标注算法是针对目前海量图像信息进行的一种高效管理，索引方式，提供一种计算机自动标注的方法，省去了大量繁琐复杂的人工操作，提高了图像标注的完整性和准确性。

本发明提出的图像自动标注算法主要包括三个过程：(1)建立并改善自动标注的基准图像标注库；(2)利用提取的图像特征信息，构建图像近邻传播模型(3)在图像近邻传播模型的框架下，对未标注图像进行图像标签推断。

步骤1：建立图像标注库。

以通用的图像库Corel5K为例，其作为初始的图像标注库，但是由于其存在前文所述的诸多缺点，所以进行以下优化处理。

令原始图像标注库为L＝{(x₁,y₁),...,(x_l,y_l)}，标签集为C＝{c₁,c₂,...,c_q}，其中，x_i为图像的视觉特征向量，y_i为图像的标签向量。标签向量集合构成标签矩阵Y₀＝[y₁,y₂,...,y_l]，处理后的标签矩阵为Y＝[y₁′,y′₂,...,y_l′]。另外，令R为标签相关矩阵，R_i,j表示标签c_i与标签c_j之间的相关性。定义其中o_i表示标注库中标签c_i的频数，Col_i,j表示标签c_i与c_j的共现。这里，标签c_i与c_j的共现指的是标签c_i与c_j同时对一幅图像进行标注。

其中，d_ij表示图像i与图像j之间的距离，

表示所有图像之间距离的和。E₁表示期望标签矩阵和样本的视觉相似性之间的差异性。其次，语义相近的标签，或者属于同一语义环境的标签，其共现相关性也会较高，例如，一幅描述ice，snow，bear的图像，标签polar出现的概率就很大。数据集中蕴含的这种语境相关信息应对标签填充起到指导作用，因此令E₂＝||Y^TY-R||²。另外，原始标签对于期望标签也是有一定的指导意义，所以，令E₃＝||Y-Y₀||²。优化目标为min{E₁+αE₂+βE₃}，其中，α取0.3，β取0.1。通过梯度下降法可以求解出近似的最优解。

以上步骤进行完之后，得到了一个相比初始图像标注库，更加完善并剔除部分错误标签的图像标注库。但是对应的图像标签没有等级或者说权重。为了增加图像标签的等级，对于标注库中的所有图像进行多示例学习，实现为图像进行区域标注的目的。然后计算分割之后每一个标签对应的图像块面积，得到面积序列为S＝{S₁,S₂,...,S_n}，将图像的长宽分别进行8等分分割(长的1/8和宽的1/8)，如图2及图3所示，每一层的权重由内置外依次递减，最外层的权重每分割为1，依次为1,2,4,8，一共四层。计算标注区域对应的图像权重块，如果图像区域与图像块有交集，则对应图像块总权重增加对应分割块的权重，得到权重序列W＝{W₁,W₂,...,W_n}。对应的标签权重计算公式为：

步骤2：图像近邻传播模型构建。

首先提取图像的多维特征，包括图像颜色特征，图像纹理特征，图像局部特征和图像全局特征等图像特征分多个维度计算其距离。

颜色矩主要采集包括一阶矩(均值，mean)、二阶矩(方差，variance)和三阶矩(斜度，skewers)。

由于颜色矩无法表达图像色彩的空间位置，所以还采用了另一种颜色特征，即颜色聚合向量。

图像的纹理特征为基于Gabor小波的纹理特征。

最后，图像特征还包含SIFT检测特征算法提取的图像特征点特征。

提取图像各项特征之后，构建基于距离的最近邻传播模型，其近邻被定义为融合多维图像特征的图像距离与目标图像最为接近若干张图像。其距离权重w被定义为：

其中，j为训练集中的图片，d为各种距离加权和。其中，d_θ(i,j)＝θ^Td_ij，d是一个维度的距离，θ是权值矩阵。d_θ(i,j)是多维距离的线性组合，其中核心参数是权值矩阵θ的计算。这里主要通过使用TagProp模型进行学习，实际上就是采用metric learning的方法，在训练集上计算一个最大化对数似然概率(maximize the log-likelihood)。

步骤3：标签推断；

标签推断核心是基于近邻的标签推断，计算待标注的图像i对应的标签y存在的概率p(y_i)，使用的是如下公式：

其中，σ(z)＝(1+exp(-z))^-1，其作用是作为概率计算结果——

为了验证本发明方法的效果性能，对步骤1,2,3中用到的方法进行了实验验证。

实验采用Corel5K作为标准数据集进行对比测试。Corel5K数据集中，图像数量为5000张，标签数量为260个单词，训练集个数为4500张图像，测试集为500张图像。

使用以上测试集与经典的图像自动标注算法，包括JEC算法，CRM算法，MBRM算法以及原始TagProp算法进行对比结果如下：

	平均查准率(P)	平均召回率(R)	F1 scroe
				MBRM	0.31	0.33	0.32
JEC	0.27	0.32	0.29
				CRM	0.16	0.19	0.17
TagProp	0.31	0.37	0.34
				本专利算法	0.33	0.42	0.37

可以看出，本发明提出的算法效果要好于以往的概率模型算法，并且由于朴素的TagProp算法。

图4-图7为实际测试图像标注的例子；

如图4所示，一共标注五个词语，其中water(水)为错误标签，其余为正确标签，准确率为80％；

如图5所示，一共标注五个词语，cat(猫)为近义词，可以认为其为猫科标签，其余为正确标签，可以认为准确率为100％；

如图6所示，一共标注五个词语，均为正确标签，准确率为100％；

如图7所示，一共标注五个词语，均为正确标签，准确率为100％；

综上所述，本发明提出的方法满足标注准确性的要求，可以对一般图像进行关键词标注。

Claims

1.一种基于生成图像标注库的图像自动标注的方法，包括以下几个步骤：

步骤1：图像标签库的构建；

图像标签库由图像库，对应的标签标注矩阵以及标签列表构成，标签列表包含所有用于图像标注的标签，标签标注矩阵由所有图像对应的标注向量构成，图像的标注向量0,1串，标明图像是否存在标签列表对应的标签，如存在则为1，不存在则为0；

令原始图像标签库为{(x₁,y₁),...,(x_l,y_l)}，(x_i，y_i)表示第i个带有标签的图像，x_i为图像i的视觉特征向量，y_i为图像i的标签向量，标签列表为C＝{c₁,c₂,...,c_q}，代表所有在图像标签库中出现过的标签；标签向量集合构成标签矩阵Y₀＝[y₁,y₂,...,y_l]，处理后的标签矩阵为Y＝[y′₁,y′₂,...,y′_l]；令R为标签相关矩阵，R_i,j表示标签c_i与标签c_j之间的相关性,

其中o_i表示标注库中标签c_i的频数，Col_i,j表示标签c_i与c_j的共现，标签c_i与c_j的共现指的是标签c_i与c_j同时对一幅图像进行标注；

设误差函数为E＝E₁+αE₂+βE₃，

d_ij表示图像i与图像j之间的距离，

表示所有图像之间距离的和，s表示此图像标注库所有含有的标签列表中标签的个数，也即此图像标注库共有多少个不重复的标签；E₁表示期望标签矩阵和样本的视觉相似性之间的差异性；E₂＝||Y^TY-R||²，E₃＝||Y-Y₀||²，Y为处理后的标签标注矩阵，Y₀为初始的标签标注矩阵；

优化目标为min{E₁+αE₂+βE₃}，α和β均为非负整数，求解出近似的最优解，最优解即处理过后的最优图像标签库；

针对一个标注集为T＝{T₁,T₂,...,T_n}的图像，首先对其进行图像分割，得到m个图像块，再从该标注集T中为每个图像块确定一个最佳标注，最后合并具有相同标注的相邻区域，从而实现了为图像进行区域标注的目的；计算分割之后每一个标签对应的图像块面积，得到面积序列为S＝{S₁,S₂,...,S_n}，将图像的长宽分别进行8等分分割，每一层的权重由内置外依次递减，最外层的权重每分割为1，依次为1,2,4,8，一共四层；计算标注区域对应的图像权重块，如果图像区域与图像块有交集，则对应图像块总权重增加对应分割块的权重，得到权重序列W＝{W₁,W₂,...,W_n}；对应的标签权重计算公式为：

最终的图像标注库中图像标签矩阵中每一个图像的标签向量为标签权重；

步骤2：基于距离的最近邻传播模型的构建；

提取图像的多维特征，包括图像颜色特征，图像纹理特征，图像局部兴趣点特征，图像特征分多个维度计算其距离；

其中，图像颜色特征包括颜色矩和颜色聚合向量，采用YUV颜色空间进行颜色特征提取；

颜色矩采集包括一阶矩、二阶矩和三阶矩：

一阶矩：

二阶矩：

三阶矩：

其中，p_i,j表示彩色图像第i个颜色通道分量中灰度为j的像素出现的概率，N表示图像中的像素个数，μ_i为图像第i个颜色通道分量的平均值，或者简单说即一阶矩；

图像的3个分量Y，U，V的前三阶颜色矩组成一个9维直方图向量，即图像的颜色特征：F_color＝[μ_Y,σ_Y,s_Y,μ_U,σ_U,s_U,μ_V,σ_V,s_V]，其中字母μ，σ和s分别代表一阶矩，二阶矩和三阶矩，下标Y，U和V分别代表图像的三个分量，组合起来为颜色分量对应的颜色矩；

颜色聚合向量：将直方图的每一个纵向条纹bin的像素分为两部分，如果该bin内的某些像素所占据的连续区域的面积大于给定的阈值，则该区域内的像素作为聚合像素，否则作为非聚合像素，将每一个bin分为颜色聚合向量和颜色非聚合向量；

图像的纹理特征采用基于Gabor小波的纹理特征；

最后，图像特征还包含SIFT算子提取的图像特征点特征；

其中，j为训练集中的图片，d_θ(i,j)＝θ^Td_ij，d是一个维度的距离，θ是权值矩阵；d_θ(i,j)是多维距离的线性组合，其中核心参数是权值矩阵θ的计算，通过使用TagProp模型进行学习，学习的结果是得到权值矩阵θ；

步骤3：对未标注图像进行标签概率计算；

计算待标注的图像i对应的标签y存在的概率p(y_i)：

其中，σ(z)＝(1+exp(-z))^-1，其作为概率计算结果——

的一个平滑处理，w_ij表示图像i和j在图像集中的距离权重，v(j,y_j)代表在图像j中，标签y_j的权重，α,β是公式中的一组调和参数，作为不同训练集调优的一个设置，对于一幅图像，通过标签推断公式计算得出的不同概率的若干标签，取概率最大的前五个标签为此幅图像的标签。