CN103440651B

CN103440651B - 一种基于秩最小化的多标签图像标注结果融合方法

Info

Publication number: CN103440651B
Application number: CN201310375976.2A
Authority: CN
Inventors: 郭平; 姚垚; 辛欣
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2013-08-26
Filing date: 2013-08-26
Publication date: 2016-08-10
Anticipated expiration: 2033-08-26
Also published as: CN103440651A

Abstract

本发明涉及一种基于秩最小化优化算法的多标签图像标注结果融合方法，包括如下步骤:1)抽取训练集图像的多种特征表示,训练集图像带有事先给定的语义标注词；2）在不同的特征表示下，训练各自的监督学习图像标注模型；3）对于一幅新的没有语义标注词的图像，用同样的方法抽取该图像的多种特征，使用这些特征分别输入到对应的监督学习图像标注模型来预测多标签结果；4）利用秩最小化算法将多个模型输出的多标签结果融合，得到一个更准确的标注结果。本发明充分利用了不同特征表示下的图像标注模型的互补性，利用秩最小化算法减少融合的标注结果中的预测错误，从而使得最终的图像标注结果更准确。

Description

一种基于秩最小化的多标签图像标注结果融合方法

技术领域

本发明涉及一种图像标注结果融合方法，特别涉及一种基于秩最小化的多标签图像标注结果的融合方法。

背景技术

随着数码相机和社交网络应用的普及，人们越来越习惯于将自己拍摄的图像发布在互联网上。为了更方便地管理和检索互联网上的海量图像，自动图像标注是一个有效的工具。图像标注程序的基本任务是建模图像底层视觉特征与高层语义标注词之间的关系。监督学习图像标注模型是以已经带有语义标注词的图像作为训练图像，先抽取训练图像的底层视觉特征，再以这些特征表示和对应的语义标注词为输入训练出监督学习图像标注模型。当对一幅新的没有语义标注词的图像进行自动标注时，首先使用与训练图像特征抽取同样的方式提取新图像的底层视觉特征，然后将提取的新图像的特征表示输入到监督学习图像标注模型来预测新图像的语义标注词。一幅图像通常包含有多种语义，所以监督学习图像标注模型的预测结果中有多个语义标注词，或者说这是一个多标签的结果。

在图像标注问题中，从图像抽取的底层视觉特征表示多种多样，它们可以用来描述视觉特征的多个方面，例如颜色直方图可以描述图像颜色的统计信息，Gabor变换结果可以来描述灰度图像的纹理信息，局部二元模式可以对灰度图像中局部邻近区域的纹理信息进行度量。不同的特征表示有着不同的表达能力，而且对于图像语义的区分能力也不尽相同，甚至有互补的特性。因此，融合多种互补特征有助于区分图像的高层语义。

融合多种互补特征通常在两个阶段实现：特征级融合和决策级融合。特征级融合在训练模型的过程中将多种特征融合在一起，然后训练出一个判别模型，例如多核学习算法同时学习多种特征的比例系数和模型参数。决策级融合则是分别使用不同的特征表示训练多个判别模型，最后把多个判别模型的决策结果融合成一个最终的决策结果。决策级融合由于其简单有效性常常在图像标注问题中被采用。

传统的决策级融合方法是先将多个判别模型的结果归一化到同一个数值范围，然后使用求和、求乘积、取最大或取最小等规则的方式融合成一个最终的结果。考虑到不同模型的结果会在不同的数值范围内，因而归一化方法对于不同模型会不同，增加了决策级融合的复杂性。再者，不同的融合规则的融合效果不尽相同，因而会产生哪些模型融合用何种融合规则效果最好的疑问。另外，由于单个判别模型都有自己的预测误差，盲目地使用规则融合多个模型的结果也会同时引入它们各自的误差。

发明内容

本发明的目的在于提供一种通过利用秩最小化的优化方法建模多个监督学习图像标注模型的多标签结果的融合，得到一个更准确更鲁棒的标注结果的方法。

本发明为解决其技术问题采用的技术方案如下：

一种基于秩最小化的多标签图像标注结果的融合方法，包括以下步骤：

1）抽取训练集图像的多种特征表示，训练集中的每幅图像都带有事先给定的语义标注词；

2）在不同的特征表示下，分别训练各自的监督学习图像标注模型；

3）对于一幅新的没有语义标注词的图像，用同样的方法抽取该图像的多种特征表示，使用这些特征表示分别输入到对应的监督学习图像标注模型来预测新图像的多标签标注结果；

4）利用秩最小化优化算法将多个模型输出的多标签结果融合：对于不同特征表示下模型预测的结果向量，先把每一个结果向量转换为一个反对称的秩为2的关系矩阵，然后用这些关系矩阵建模一个秩最小化优化问题，解这个优化问题得到一个融合的关系矩阵，再由融合的关系矩阵构造融合的结果向量，最终由融合的结果向量得到融合的标注结果。

优选的，抽取训练集图像的多种特征表示的步骤如下：

1）图像分块：使用滑动窗口的策略，按照给定步长，将图像分成相互重叠的小块；

2）分别计算每一个小块内图像的特征向量（可以是RGB颜色直方图、HSV颜色直方图、LAB颜色直方图、OPPONET颜色直方图、rg颜色直方图、Gabor纹理特征、Haar纹理特征、局部二元模式纹理特征、词包模型表示的SIFT形状特征等多种特征），整幅图像的特征表示即由这些图像块的特征向量组成；设第i幅训练图像I_i的语义标注向量为w_i=(w_i1,w_i2,...,w_iT)^T∈{0,1}^T，其中T是数据集的语义标注词的总数，w_ij=1表示第i幅图像有第j个标注词，w_ij=0表示第i幅图像没有第j个标注词；若将第i幅图像分成M块，每块可计算一个特征向量x_ik,k=1,2,...,M，那么第i幅图像的特征表示为：X_i={x_i1,x_i2,...,x_iM}。

优选的，在不同特征表示下分别训练各自监督学习图像标注模型步骤如下：

1）对每一幅训练图像，利用高斯混合模型对图像层条件概率密度建模，然后使用期望最大化算法计算模型参数得到该图像的条件概率密度；

2）对每一个语义标注词，找出训练图像集合中含有该标注词的所有图像，以这些图像在图像层的条件概率密度为基础，利用高斯混合模型对语义层条件概率密度建模，然后使用层次期望最大化算法计算模型参数得到该语义标注词的条件概率密度。

具体步骤如下：

1）第i幅图像的某一种特征表示为X_i={x_i1,x_i2,...,x_iM}；

2）对第i幅图像，利用高斯混合模型对图像层次的条件概率分布建模，然后使用期望最大化算法计算模型参数得到：其中分别是各高斯分量的系数，均值和协方差矩阵，K是高斯分量个数；

3）对标注词w，找出训练图像集合中含有该语义标注词的所有图像，以这些图像在2）步骤中计算出的图像层次的条件概率分布为基础，利用高斯混合模型对语义层次的条件概率分布建模，然后使用层次期望最大化算法计算模型参数得到：其中是高斯分量系数，各分量均值和协方差矩阵，N是高斯分量个数。

优选的，对一幅新的没有语义标注词的图像，分别使用前一步中训练出的多种特征表示下的标注模型预测其标注词，以某一种特征表示为例其步骤如下：

1）使用与训练图像同样的特征抽取技术计算新输入图像的多种特征表示；

2）使用每一种特征表示对应的监督学习图像标注模型预测输入图像的语义标注词并得到一个结果向量。其中某一种特征表示记为B，使用特征表示B对应的监督学习图像标注模型预测输入图像的语义标注词，得到一个结果向量v=(v₁,v₂,...v_i,...v_T)^T，其中T是数据集的语义标注词的总数，v_i=logP_X|W(B|w_i)+logP_W(w_i)表示输入图像有第i个语义标注词的可能性大小，且P_W(w_i)是第i个语义标注词的先验概率（即含有第i个语义标注词的训练图像占全部训练图像的比重）。

例如，如果训练图像使用的特征表示为图像的颜色直方图特征表示、Gabor纹理特征表示，局部二元模式纹理特征表示，则具体步骤为：

1）使用与训练图像同样的特征抽取技术计算新输入图像的颜色直方图特征表示、Gabor纹理特征表示，局部二元模式纹理特征表示；

2）使用颜色直方图特征表示下的监督学习标注模型预测输入图像的语义标注词，得到一个结果向量；

3）使用Gabor纹理特征表示下的监督学习标注模型预测输入图像的语义标注词，得到一个结果向量；

4）使用局部二元模式纹理特征表示下的监督学习标注模型预测输入图像的语义标注词，得到一个结果向量。

优选的，利用秩最小化优化算法融合多个模型输出，得到一个更准确的标注结果的步骤如下：

1）将各个结果向量分别转换为反对称的秩为2的关系矩阵的表示形式，这些关系矩阵都分别等于融合的关系矩阵加上一个对应误差矩阵；

2）在1）的约束下，通过最小化融合的关系矩阵的奇异值之和使得融合的关系矩阵的秩逐渐减小到2，通过最小化所有误差矩阵之和使得融合的关系矩阵能充分正确地结合各个模型的预测结果；

3）使用非精确的增广拉格朗日乘子法迭代解出融合的关系矩阵的最优解，迭代过程中使用奇异值截取的方式使得融合的关系矩阵的秩逐渐收敛到2；

4）使用融合的关系矩阵反向计算出的融合的结果向量，根据融合的结果向量最终确定输入图像的语义标注词。

具体来说，利用秩最小化优化算法融合多个模型输出，得到一个更准确的标注结果的步骤为：

1）对一幅新输入图像，使用训练得到的不同特征表示下的监督学习图像标注模型可以得到新输入图像的多个结果向量v₁,v₂,...,v_n，其中n是不同特征表示的种类数；

2)对第i个结果向量v_i=(v_i1,v_i2,...,v_iT)^T，构建一个关系矩阵Tⁱ，使得j,k=1,2,...,T，v_ij>v_ik表示第i个标注模型认为输入图像更可能有第j个标注词而不是第k个，v_ij<v_ik表示第i个标注模型认为输入图像更可能有第k个标注词而不是第j个，v_ij=v_ik则表示第i个标注模型认为输入图像有第j个和第k个标注词的可能性相同；关系矩阵是反对称的，且矩阵中的值只能是1，-1和0，即e=(1,1,...,1)^T且关系矩阵Tⁱ的秩为2；借助关系矩阵可以避免传统方法中模型输出归一化的问题；

3）用秩最小化优化算法建模多个结果向量的融合为一个如下优化问题：

\min_{\hat{T}, E_{i}} {| | \hat{T} | |}_{*} + λ Σ_{i = 1}^{n} {| | E_{i} | |}_{1},

s . t . T^{i} = \hat{T} + E_{i}, i = 1, . . ., n,

\hat{T} = - \hat{T}

其中||·||_*表示矩阵奇异值之和，表示融合后得到的关系矩阵，E_i表示第i个标注模型反映在关系矩阵上的标注误差，λ是一个大于0的正则化参数，约束条件表示第i个标注模型的关系矩阵等于融合得到的更准确的关系矩阵加上一个误差，后一个约束条件表示关系矩阵是反对称的；由于表示的是融合后得到的关系矩阵，的秩在上面的优化问题中需要逐渐减小并收敛到2；

4)解优化问题得到更准确的关系矩阵然后反向计算出一个更准确的结果向量e是一个全为1的T维列向量；最后将结果向量v_f中具有较大值的分量对应的语义标注词作为输入图像的标注词。

本发明利用秩最小化优化算法建模不同特征表示下的多个监督学习图像标注模型的结果融合：借助关系矩阵避免了传统方法中模型输出归一化的问题；在优化算法中同时建模单个标注模型的误差，从而得到一个比“归一化加规则”的传统融合方法或者单个标注模型更准确的标注结果。

附图说明

附图1是使用带有语义标注词的训练图像在不同特征表示下训练出各自监督学习图像标注模型的流程图；

附图2是基于秩最小化的多个监督学习图像标注模型的多标签结果融合的流程图。

具体实施方式

参照附图1和附图2，以颜色直方图、Gabor纹理和局部二元模式特征为例，基于秩最小化的图像标注多标签结果融合方法包括如下步骤：

3）对于一幅新的没有语义标注词的图像，用同样的方法抽取该图像的多种特征表示，使用这些特征表示分别输入到对应的监督学习图像标注模型来预测其多标签标注结果；

所述的抽取训练集图像的多种特征表示的步骤如下：

1）图像分块：使用滑动窗口的策略，按照给定步长，将图像分成相互重叠的小块；通常使用8×8的窗口，水平和垂直移动的步长设为2；

2）分别计算每一个小块内图像的特征向量（可以是颜色直方图、Gabor纹理特征或局部二元模式纹理特征），整幅图像的特征表示即由这些图像块的特征向量组成；设第i幅训练图像I_i的标注向量为w_i=(w_i1,w_i2,...,w_iT)^T∈{0,1}^T，其中T是数据集的语义标注词的总数，w_ij=1表示第i幅图像有第j个标注词，w_ij=0表示第i幅图像没有第j个标注词；若将第i幅图像分成M块，每块可计算一个颜色直方图特征向量h_ik,k=1,2,...,M，一个Gabor纹理特征向量g_ik,k=1,2,...,M，一个局部二元模式特征向量l_ik,k=1,2,...,M，那么第i幅图像的颜色直方图特征表示为：H_i={h_i1,h_i2,...,h_iM}，Gabor纹理特征表示为：G_i={g_i1,g_i2,...,g_iM}，局部二元模式特征表示为：L_i={l_i1,l_i2,...,l_iM}。

所述的在不同特征表示下分别训练各自监督学习图像标注模型步骤如下：

1）设第i幅图像在某一种特征表示为X_i={x_i1,x_i2,...,x_iM}（可以是颜色直方图的特征表示，Gabor纹理特征表示，局部二元模式特征表示等等）；

2）对第i幅图像，利用高斯混合模型对图像层条件概率分布建模，然后使用期望最大化算法计算模型参数得到：其中分别是各高斯分量的系数，均值和协方差矩阵，K是高斯分量个数；

3）对标注词w，找出训练图像集合中含有该标注词的所有图像，以这些图像在2）步骤中计算出的图像层条件概率分布为基础，利用高斯混合模型对语义层条件概率分布建模，然后使用层次期望最大化算法计算模型参数得到：其中分别是高斯分量系数，各分量均值和协方差矩阵，N是高斯分量个数。

所述的对一幅新的没有语义标注词的图像，分别使用前一步中训练出的多种特征表示下的标注模型预测其标注词，以某一种特征表示为例其步骤如下：

1）使用与训练图像同样的特征抽取技术计算新输入图像的多种特征表示，其中某一种特征表示记为B；

2）使用特征表示B对应的标注模型预测输入图像的标注词，得到一个结果向量v=(v₁,v₂,...v_i,...v_T)^T，其中T是数据集的语义标注词的总数，v_i=logP_X|W(B|w_i)+logP_W(w_i)表示输入图像有第i个语义标注词的可能性大小，且P_W(w_i)是第i个语义标注词的先验概率（即含有第i个语义标注词的训练图像占全部训练图像的比重）；

所述的利用秩最小化优化算法融合多个模型输出，得到一个更准确的标注结果的步骤如下：

1）对一幅新输入图像，使用训练得到的不同特征表示下的监督学习图像标注模型预测得到新输入图像的多个结果向量v₁,v₂,...,v_n，其中n是不同特征表示的种类数；

2)对第i个结果向量v_i=(v_i1,v_i2,...,v_iT)，构建一个关系矩阵Tⁱ，使得j,k=1,2,...,T，v_ij>v_ik表示第i个标注模型认为输入图像更可能有第j个标注词而不是第k个，v_ij<v_ik表示第i个标注模型认为输入图像更可能有第k个标注词而不是第j个，v_ij=v_ik则表示第i个标注模型认为输入图像由第j个和第k个标注词的可能性相同；关系矩阵是反对称的，且矩阵中的值只能是1，-1和0，即e=(1,1,...,1)^T且关系矩阵Tⁱ的秩为2；借助关系矩阵可以避免传统“归一化加规则”方法中模型输出归一化的问题；

3）用秩最小化优化算法建模多个结果向量的融合为以下优化问题：

\min_{\hat{T}, E_{i}} {| | \hat{T} | |}_{*} + λ Σ_{i = 1}^{n} {| | E_{i} | |}_{1},

s . t . T^{i} = \hat{T} + E_{i}, i = 1, . . ., n,

\hat{T} = - \hat{T}

其中||·||_*表示矩阵奇异值之和，表示融合后得到的关系矩阵，E_i表示第i个标注模型反映在关系矩阵上的标注误差，λ是一个大于0的正则化参数，约束条件表示第i个标注模型的关系矩阵是融合得到的更准确的关系矩阵加上一个误差得到的，后一个约束条件表示关系矩阵是反对称的；由于表示的是融合后得到的关系矩阵，的秩在上面的优化问题中需要逐渐减小并收敛到2；上面的优化问题可转换成与之等价的形式：

\min_{\hat{T}, E_{i}} {| | \hat{T} | |}_{*} + λ Σ_{i = 1}^{n} {| | E_{i} | |}_{1} + Σ_{i = 1}^{N} < Y_{i}, T^{i} - \hat{T} - E_{i} > + \frac{μ}{2} Σ_{i = 1}^{n} {| | T^{i} - \hat{T} - E_{i} | |}_{F}^{2}

Y_i(i=1,…,n)是拉格朗日乘子，μ是大于0的惩罚系数，<·,·>表示内积运算；使用非精确的增广拉格朗日乘子法迭代计算最优解

步骤1：选择λ=0.1，初始化E_i=0,Y_i=0,μ=0.1,max_μ=10¹⁰,ρ=1.1,ε=10^-8；

步骤2：进行奇异值分解

(U, A, V) = SVD (\frac{1}{nμ} Σ_{i = 1}^{n} Y_{i} + \frac{1}{n} Σ_{i = 1}^{n} T_{i} - \frac{1}{n} Σ_{i = 1}^{n} E_{i}),

更新

\hat{T} = {US}_{\frac{1}{μ}} [A] V^{T},

其中

步骤3：更新

E_{i} = S_{\frac{λ}{μ}} [T_{i} + \frac{Y_{i}}{μ} - \hat{T}];

步骤4:更新

Y_{i} = Y_{i} + μ (T_{i} - \hat{T} - E_{i});

步骤5:更新μ=min(ρμ,max_μ)；

重复步骤2到5，直到而且的秩等于2；

4)解优化问题得到更准确的关系矩阵然后反向计算出一个更准确的结果向量e是一个全为1的T维列向量；最后将结果向量v_f中具有较大值的前5个分量对应的语义标注词作为输入图像的语义标注词。

本发明不仅限于以上实施例，凡是利用本发明的设计思路，做一些简单变化的方案，都应计入本发明的保护范围之内。

Claims

1.一种基于秩最小化的多标签图像标注结果的融合方法，其特征在于，包括以下步骤：

1)抽取训练集图像的多种特征表示，训练集中的每幅图像都带有事先给定的语义标注词；

2)在不同的特征表示下，分别训练各自的监督学习图像标注模型；

3)对于一幅新的没有语义标注词的图像，用同样的方法抽取该图像的多种特征表示，使用这些特征表示分别输入到对应的监督学习图像标注模型来预测新图像的多标签标注结果；

4)利用秩最小化优化算法将多个模型输出的多标签结果融合：对于不同特征表示下模型预测的结果向量，先把每一个结果向量转换为一个反对称的秩为2的关系矩阵，然后用这些关系矩阵建模一个秩最小化优化问题，解这个优化问题得到一个融合的关系矩阵，再由融合的关系矩阵构造融合的结果向量，最终由融合的结果向量得到融合的标注结果。

2.根据权利要求1所述的一种基于秩最小化的多标签图像标注结果的融合方法，其特征在于，抽取训练集图像的多种特征表示的步骤为：

1)图像分块：使用滑动窗口的策略，按照给定步长，将图像分成相互重叠的小块；

2)分别计算每一个小块内图像的特征向量，整幅图像的特征表示即由这些图像块的特征向量组成；

3.根据权利要求2所述的一种基于秩最小化的多标签图像标注结果的融合方法，其特征在于，所述特征向量是RGB颜色直方图或HSV颜色直方图或LAB颜色直方图或OPPONENT颜色直方图或rg颜色直方图或Gabor纹理特征或Haar纹理特征或局部二元模式纹理特征或词包模型表示的SIFT形状特征。

4.根据权利要求1或2或3所述的一种基于秩最小化的多标签图像标注结果的融合方法，其特征在于，在不同特征表示下分别训练各自的监督学习图像标注模型的步骤为：

1)对每一幅训练图像，利用高斯混合模型对图像层条件概率密度建模，然后使用期望最大化算法计算模型参数得到该图像的条件概率密度；

2)对每一个语义标注词，找出训练图像集合中含有该标注词的所有图像，以这些图像在图像层的条件概率密度为基础，利用高斯混合模型对语义层条件概率密度建模，然后使用层次期望最大化算法计算模型参数得到该语义标注词的条件概率密度。

5.根据权利要求4所述的一种基于秩最小化的多标签图像标注结果的融合方法，其特征在于，对一幅新的没有语义标注词的图像，用同样地方法抽取该图像的多种特征表示，使用这些特征分别输入到对应的监督学习图像标注模型来预测其多标签标注结果，其步骤为：

1)使用与训练图像同样的特征抽取技术计算新输入图像的多种特征表示；

2)使用每一种特征表示对应的监督学习图像标注模型预测输入图像的语义标注词并得到一个结果向量。

6.根据权利要求5所述的一种对多个监督学习图像标注模型的多标签结果的融合方法,其特征在于，利用秩最小化优化算法将不同特征表示下的多个模型输出的多标签结果融合的步骤为：

a)将各个结果向量分别转换为反对称的秩为2的关系矩阵的表示形式，这些关系矩阵都分别等于融合的关系矩阵加上一个对应误差矩阵；

b)在a)的约束下，通过最小化融合的关系矩阵的奇异值之和使得融合的关系矩阵的秩逐渐减小到2，通过最小化所有误差矩阵之和使得融合的关系矩阵能充分正确地结合各个模型的预测结果；

c)使用非精确的增广拉格朗日乘子法迭代解出融合的关系矩阵的最优解，迭代过程中使用奇异值截取的方式使得融合的关系矩阵的秩逐渐收敛到2；

d)使用融合的关系矩阵反向计算出的融合的结果向量，根据融合的结果向量最终确定输入图像的语义标注词。