CN105389326A

CN105389326A - 基于弱匹配概率典型相关性模型的图像标注方法

Info

Publication number: CN105389326A
Application number: CN201510591147.7A
Authority: CN
Inventors: 张博; 史忠植; 王伟; 齐保元; 马刚
Original assignee: Beijing Lexo Technologies Co ltd; Institute of Computing Technology of CAS
Current assignee: Beijing Lexo Technologies Co ltd; Institute of Computing Technology of CAS
Priority date: 2015-09-16
Filing date: 2015-09-16
Publication date: 2016-03-09
Anticipated expiration: 2035-09-16
Also published as: CN105389326B

Abstract

本发明公开了基于弱匹配概率典型相关性模型的图像标注方法及系统，本发明涉及网络跨媒体信息处理技术领域，包括获取图像数据库中已标注图像与未标注图像，分别提取所述已标注图像与所述未标注图像的图像特征和文本特征，生成已匹配样本集合和未匹配样本集合，所述已匹配样本集合包括已标注图像特征集合与已标注文本特征集合，所述未匹配样本集合包括未标注图像特征集合与未标注文本特征集合；根据所述已匹配样本集合与所述未匹配样本集合，训练所述弱匹配概率典型相关性模型；通过所述弱匹配概率典型相关性模型，对待标注图像进行标注。本发明同时使用标注图像及其关键词和未标注图像学习视觉模态和文本模态之间的关联，准确对未知图像进行标注。

Description

基于弱匹配概率典型相关性模型的图像标注方法

技术领域

本发明涉及网络跨媒体信息处理技术领域，特别涉及基于弱匹配概率典型相关性模型的图像标注方法。

背景技术

物联网、互联网等拥有丰富的文本、图像、视频和音频等多媒体信息资源，这些信息资源是异构的，很难直接发现它们之间的关联，典型相关性分析(Canonicalcorrelationanalysis，CCA)是一种用来分析两组随机变量之间相关性的统计分析工具，其相关性保持特征己经在理论上得到证明，应用于经济学、气象和基因组数据分析等领域，CCA通过统计方法找到两组异构多模态特征之间的潜在关系，从底层特征上用统一的模型将不同类型的多模态数据关联起来，同时尽可能地发现和保持数据间潜在的相关性。

典型相关性分析中两组相关的随机变量可以来自多种信息来源(如同一个人的声音和图像)，也可以是从同一来源的信息中抽取的不同特征(如图像的颜色特征和纹理特征)，但训练数据必须一对一严格匹配，很多原因造成这种严格匹配的训练数据难以获得，如多传感器采集系统中传感器采样频率不同步或传感器故障，会造成不同通道采集来的数据不同步或丢失某一通道数据；单模态数据比较容易获得，但人工匹配却非常地费时费力，实际中，面对的多模态数据经常是只有少量一对一严格匹配，其余大量数据未匹配，称之为弱匹配多模态数据。

面向弱匹配多模态数据的典型相关性分析有两种基本的方法：丢弃未匹配数据，只使用典型相关性分析处理严格匹配的多模态数据；根据特定准则，匹配多模态数据，但这两种方法都不可能获得理想的结果。

发明内容

针对现有技术的不足，本发明提出一种基于弱匹配概率典型相关性模型的图像标注方法及系统。

本发明提出一种基于弱匹配概率典型相关性模型的图像标注方法，包括：步骤1，获取图像数据库中已标注图像与未标注图像，分别提取所述已标注图像与所述未标注图像的图像特征和文本特征，生成已匹配样本集合和未匹配样本集合，所述已匹配样本集合包括已标注图像特征集合与已标注文本特征集合，所述未匹配样本集合包括未标注图像特征集合与未标注文本特征集合；

步骤2，根据所述已匹配样本集合与所述未匹配样本集合，训练所述弱匹配概率典型相关性模型；

步骤3，通过所述弱匹配概率典型相关性模型，对待标注图像进行标注。

所述的基于弱匹配概率典型相关性模型的图像标注方法，所述弱匹配概率典型相关性模型的公式为：

D = {(x_{1}^{i}, x_{2}^{i})}_{i = 1}^{N_{p}} \cup {(x_{1}^{j})}_{j = N_{p} + 1}^{N_{1}} \cup {(x_{2}^{k})}_{k = N_{p} + 1}^{N_{2}}

L (θ) = Π_{i = 1}^{N_{p}} P (x_{1}^{i}, x_{2}^{i}; θ) Π_{j = N_{p} + 1}^{N_{1}} P (x_{1}^{j}; θ) Π_{k = N_{p} + 1}^{N_{2}} P (x_{2}^{k}; θ)

其中，表示完整的观察样本集合,包含了匹配和未匹配样本，N_p为成对观察样本集合的样本数量，和其中每一个样本代表一个m₁(m₂)维向量，与表示未匹配样本集合,其中与相互独立生成。，假设样本之间相互独立,其极大似然值L(θ)，服从概率典型相关性分析模型，和分别表示未匹配样本集合

X_{1}^{(U)} = {(x_{1}^{j})}_{j = N_{p} + 1}^{N_{1}}

和

X_{2}^{(U)} = {(x_{2}^{k})}_{k = N_{p} + 1}^{N_{2}}

的概率分布。

所述的基于弱匹配概率典型相关性模型的图像标注方法，所述已匹配样本集合通过概率典型相关性分析模型计算和

所述的基于弱匹配概率典型相关性模型的图像标注方法，对应所述未匹配样本集合

X_{1}^{(U)} = {(x_{1}^{j})}_{j = N_{p} + 1}^{N_{1}}

和

X_{2}^{(U)} = {(x_{2}^{k})}_{k = N_{p} + 1}^{N_{2}},

和通过以下公式获得：

P (x_{1}^{j}; θ) = &Integral; P (x_{1}^{j} | z_{1}^{j}) P (z_{1}^{j}) {dz}_{1}^{j} ~ N (μ_{1}, W_{1} {W_{1}}^{T} + ψ_{1})

P (x_{2}^{k}; θ) = &Integral; P (x_{2}^{k} | z_{2}^{k}) P (z_{2}^{k}) {dz}_{2}^{k} ~ N (μ_{2}, W_{2} {W_{2}}^{T} + ψ_{2})

其中对于未匹配样本集合和和则分别由隐变量和通过线性变换W₁和W₂附加高斯噪声ε₁和ε₂获得，ψ₁,ψ₂,μ₁和ψ₂分别表示随机变量x₁和x₂观察样本集合的协方差和均值。

所述的基于弱匹配概率典型相关性模型的图像标注方法，通过以下公式获取所述弱匹配概率典型相关性模型中成对样本的投影：

E (z^{i} | x_{1}^{i}) = {\hat{W}}_{1}^{T} {({\hat{W}}_{1} {\hat{W}}_{1}^{T} + {\hat{ψ}}_{1})}^{- 1} (x_{1}^{i} - {\hat{μ}}_{1})

E (z^{i} | x_{2}^{i}) = {\hat{W}}_{2}^{T} {({\hat{W}}_{2} {\hat{W}}_{2}^{T} + {\hat{ψ}}_{2})}^{- 1} (x_{2}^{i} - {\hat{μ}}_{2})

其中，构成了成对样本在SemiPCCA隐空间的典型投影，和表示线性变换矩阵,ε₁和ε₂表示高斯噪声，和分别表示随机变量x₁和x₂观察样本集合的协方差和均值。

本发明还提出一种基于弱匹配概率典型相关性模型的图像标注系统，包括：获取已匹配样本集与未匹配样本集模块，用于获取图像数据库中已标注图像与未标注图像，分别提取所述已标注图像与所述未标注图像的图像特征和文本特征，生成已匹配样本集合和未匹配样本集合，所述已匹配样本集合包括已标注图像特征集合与已标注文本特征集合，所述未匹配样本集合包括未标注图像特征集合与未标注文本特征集合；

训练模型模块，用于根据所述已匹配样本集合与所述未匹配样本集合，训练所述弱匹配概率典型相关性模型；

标注模块，用于通过所述弱匹配概率典型相关性模型，对待标注图像进行标注。

D = {(x_{1}^{i}, x_{2}^{i})}_{i = 1}^{N_{p}} \cup {(x_{1}^{j})}_{j = N_{p} + 1}^{N_{1}} \cup {(x_{2}^{k})}_{k = N_{p} + 1}^{N_{2}}

L (θ) = Π_{i = 1}^{N_{p}} P (x_{1}^{i}, x_{2}^{i}; θ) Π_{j = N_{p} + 1}^{N_{1}} P (x_{1}^{j}; θ) Π_{k = N_{p} + 1}^{N_{2}} P (x_{2}^{k}; θ)

其中，表示完整的观察样本集合,包含了匹配和未匹配样本，N_p为成对观察样本集合的样本数量，和其中每一个样本代表一个m₁(m₂)维向量，与表示未匹配样本集合,其中与相互独立生成，假设样本之间相互独立,其极大似然值L(θ)，服从概率典型相关性分析模型，和分别表示未匹配样本集合

X_{1}^{(U)} = {(x_{1}^{j})}_{j = N_{p} + 1}^{N_{1}}

和

X_{2}^{(U)} = {(x_{2}^{k})}_{k = N_{p} + 1}^{N_{2}}

的概率分布。

X_{1}^{(U)} = {(x_{1}^{j})}_{j = N_{p} + 1}^{N_{1}}

和

X_{2}^{(U)} = {(x_{2}^{k})}_{k = N_{p} + 1}^{N_{2}},

和通过以下公式获得：

P (x_{1}^{j}; θ) = &Integral; P (x_{1}^{j} | z_{1}^{j}) P (z_{1}^{j}) {dz}_{1}^{j} ~ N (μ_{1}, W_{1} {W_{1}}^{T} + ψ_{1})

P (x_{2}^{k}; θ) = &Integral; P (x_{2}^{k} | z_{2}^{k}) P (z_{2}^{k}) {dz}_{2}^{k} ~ N (μ_{2}, W_{2} {W_{2}}^{T} + ψ_{2})

E (z^{i} | x_{1}^{i}) = {\hat{W}}_{1}^{T} {({\hat{W}}_{1} {\hat{W}}_{1}^{T} + {\hat{ψ}}_{1})}^{- 1} (x_{1}^{i} - {\hat{μ}}_{1})

E (z^{i} | x_{2}^{i}) = {\hat{W}}_{2}^{T} {({\hat{W}}_{2} {\hat{W}}_{2}^{T} + {\hat{ψ}}_{2})}^{- 1} (x_{2}^{i} - {\hat{μ}}_{2})

由以上方案可知，本发明的优点在于：

本发明关注于各模态内部的全局结构，模型参数的估计受到了未匹配样本的影响，而未匹配样本则揭示了各模态样本空间的全局结构；

在人工弱匹配多模态数据集上的实验表明，本发明可以有效克服传统CCA和PCCA在匹配样本不足的情况下出现的过拟合问题，取得了很好的效果；

基于本发明的图像自动标注方法，同时使用标注图像及其关键词和未标注图像学习视觉模态和文本模态之间的关联，从而能更准确地对未知图像进行标注。

附图说明

图1为本发明整体流程图；

图2为SemiPCCA的图模型；

图3为加权余弦距离图；

图4a为CCA、PCCA和SemiPCCA获得的典型投影向量图；

图4b为另一CCA、PCCA和SemiPCCA获得的典型投影向量图；

图5a为图像语义标注方法图；

图5b为另一图像语义标注方法图；

图5c为又一图像语义标注方法图；

图6为在PCCA隐空间中标注图像和未标注图像的后验概率分布图；

图7为Corel5K标注图像和未标注图像在PCCA隐空间的后验概率分布图；

图8为Corel图像库示例图；

图9为0阶Color-HLAC特征和1阶Color-HLAC特征模板。

其中附图标记为：

步骤101/102/103。

具体实施方式

以下为本发明方法的具体步骤，如图1所示：

步骤101，获取图像数据库中已标注图像与未标注图像，分别提取所述已标注图像与所述未标注图像的图像特征和文本特征，生成已匹配样本集合和未匹配样本集合，所述已匹配样本集合包括已标注图像特征集合与已标注文本特征集合，所述未匹配样本集合包括未标注图像特征集合与未标注文本特征集合；

步骤102，根据所述已匹配样本集合与所述未匹配样本集合，训练所述弱匹配概率典型相关性模型；

步骤103，通过所述弱匹配概率典型相关性模型，对待标注图像进行标注。

以下为本发明中训练弱匹配概率典型相关性模型的具体步骤，如下所示：

给定数量为N_p的成对观察样本集合和其中每一个样本代表一个m₁(m₂)维向量。在成对样本数量很小的情况下，CCA建立的相关性模型容易出现过拟合问题。下面，本发明考虑给出未匹配样本集合与/或其中与相互独立生成，为了解决传统CCA和概率典型相关性分析(PCCA)模型无法直接处理未匹配样本的弊端，本发明提出一种全新的弱匹配概率典型相关性模型(Semi-pairedPCCA，简称SemiPCCA)。SemiPCCA充分利用未匹配样本解决过拟合问题，图2给出了SemiPCCA的图模型。

表示完整的观察样本集合，包含了匹配和未匹配样本。假设样本之间项目独立，其极大似然值如下：

L (θ) = Π_{i = 1}^{N_{p}} P (x_{1}^{i}, x_{2}^{i}; θ) Π_{j = N_{p} + 1}^{N_{1}} P (x_{1}^{j}; θ) Π_{k = N_{p} + 1}^{N_{2}} P (x_{2}^{k}; θ)

在SemiPCCA模型中，对于成对样本和由相同的隐变量zⁱ生成，且服从概率典型相关性分析(PCCA)模型，即

P (x_{1}^{i}, x_{2}^{i}; θ) ~ N ((\begin{matrix} μ_{1} \\ μ_{2} \end{matrix}), (\begin{matrix} W_{1} {W_{1}}^{T} + ψ_{1} & W_{1} {W_{2}}^{T} \\ W_{2} {W_{1}}^{T} & W_{2} {W_{2}}^{T} + ψ_{2} \end{matrix}))

对于未匹配样本集合和和则分别由隐变量和通过线性变换W₁和W₂附加高斯噪声ε₁和ε₂获得，即

P (x_{1}^{j}; θ) = &Integral; P (x_{1}^{j} | z_{1}^{j}) P (z_{1}^{j}) {dz}_{1}^{j} ~ N (μ_{1}, W_{1} {W_{1}}^{T} + ψ_{1})

P (x_{2}^{k}; θ) = &Integral; P (x_{2}^{k} | z_{2}^{k}) P (z_{2}^{k}) {dz}_{2}^{k} ~ N (μ_{2}, W_{2} {W_{2}}^{T} + ψ_{2})

SemiPCCA模型中，成对样本的投影方法类似PCCA模型，即

E (z^{i} | x_{1}^{i}) = {\hat{W}}_{1}^{T} {({\hat{W}}_{1} {\hat{W}}_{1}^{T} + {\hat{ψ}}_{1})}^{- 1} (x_{1}^{i} - {\hat{μ}}_{1})

E (z^{i} | x_{2}^{i}) = {\hat{W}}_{2}^{T} {({\hat{W}}_{2} {\hat{W}}_{2}^{T} + {\hat{ψ}}_{2})}^{- 1} (x_{2}^{i} - {\hat{μ}}_{2})

构成了样本空间到SemiPCCA隐空间的典型投影。虽然SemiPCCA模型投影的结果看似和PCCA模型相同，但和的计算却受到了未匹配样本的影响，而未匹配样本则揭示了各领域样本空间的全局结构。同时为了使相关度最大化，不同样本空间的投影向量之间也会相互影响。

EM算法求解SemiPCCA，如下所示：

考虑到观察样本的极大似然函数L(θ)由三部分构成，因此E步骤，我们需要分别处理。

对于匹配样本集合中的第i对样本我们给出隐变量zⁱ的后验概率，即：

P (z^{i} | x_{1}^{i}, x_{2}^{i}; θ) ~ N (W^{T} {({WW}^{T} + ψ)}^{- 1} ((\begin{matrix} x_{1}^{i} \\ x_{2}^{i} \end{matrix}) - μ), I - W^{T} {({WW}^{T} + ψ)}^{- 1} W)

根据该后验概率我们计算得到zⁱ和zⁱz^iT的期望值：

< z^{i} > = W^{T} {({WW}^{T} + ψ)}^{- 1} ((\begin{matrix} x_{1}^{i} \\ x_{2}^{i} \end{matrix}) - μ)

<zⁱz^iT>＝<zⁱ><zⁱ>^T+I-W^T(WW^T+ψ)^-1W

对于未匹配样本隐变量只受影响，其后验概率的计算如下所示：

P (z_{1}^{j} | x_{1}^{j}; θ) ~ N ({W_{1}}^{T} {(W_{1} {W_{1}}^{T} + ψ_{1})}^{- 1} (x_{1}^{j} - μ_{1}), I - {W_{1}}^{T} {(W_{1} {W_{1}}^{T} + ψ_{1})}^{- 1} W_{1})

根据该后验概率我们计算得到和的期望值：

< z_{1}^{j} > = {W_{1}}^{T} {(W_{1} {W_{1}}^{T} + ψ_{1})}^{- 1} (x_{1}^{j} - μ_{1})

< z_{1}^{j} z_{1}^{j T} > = < z_{1}^{j} > < z_{1}^{j} >^{T} + I - {W_{1}}^{T} {(W_{1} {W_{1}}^{T} + ψ_{1})}^{- 1} W_{1}

P (z_{2}^{k} | x_{2}^{k}; θ) ~ N ({W_{2}}^{T} {(W_{2} {W_{2}}^{T} + ψ_{2})}^{- 1} (x_{2}^{k} - μ_{2}), I - {W_{2}}^{T} {(W_{2} {W_{2}}^{T} + ψ_{2})}^{- 1} W_{2})

根据该后验概率我们计算得到和的期望值：

< z_{2}^{k} > = {W_{2}}^{T} {(W_{2} {W_{2}}^{T} + ψ_{2})}^{- 1} (x_{2}^{k} - μ_{2})

< z_{2}^{k} z_{2}^{k T} > = < z_{2}^{k} > < z_{2}^{k} >^{T} + I - {W_{2}}^{T} {(W_{2} {W_{2}}^{T} + ψ_{2})}^{- 1} W_{2}

M步骤，固定E步骤计算得到的和通过偏导数计算似然L(θ)最大化时，相应参数的取值。

对于x₁和x₂的均值，

{\hat{μ}}_{1} = {\tilde{μ}}_{1} = \frac{1}{N_{1}} Σ_{i = 1}^{N_{1}} x_{1}^{i}, {\hat{μ}}_{2} = {\tilde{μ}}_{2} = \frac{1}{N_{2}} Σ_{i = 1}^{N_{2}} x_{2}^{i}

由于EM算法迭代过程中，和的取值不变，我们可以通过中心化样本集合避免学习过程中重复学习。为了简化描述，下文中和均表示经过中心化的向量。

对于投影向量集合，我们获得以下更新公式：

{\hat{W}}_{1} = [Σ_{i = 1}^{N_{p}} x_{1}^{i} < z^{i} >^{T} + Σ_{j = N_{p} + 1}^{N_{1}} x_{1}^{j} < z_{1}^{j} >^{T}] {[Σ_{i = 1}^{N_{p}} < z^{i} z^{i T} > + Σ_{j = N_{p} + 1}^{N_{1}} < z_{1}^{j} z_{1}^{j T} >]}^{- 1}

{\hat{W}}_{2} = [Σ_{i = 2}^{N_{p}} x_{2}^{i} < z^{i} >^{T} + Σ_{k = N_{p} + 1}^{N_{2}} x_{2}^{k} < z_{2}^{k} >^{T}] [Σ_{i = 1}^{N_{p}} < z^{i} z^{i T} > + Σ_{k = N_{p} + 1}^{N_{2}} < z_{2}^{k} z_{2}^{k T} >]^{- 1}

对于高斯噪声的方差，我们获得以下更新公式：

{\hat{ψ}}_{1} = \frac{1}{N_{1}} {Σ_{i = 1}^{N_{p}} (x_{1}^{i} - {\hat{W}}_{1} < z^{i} >) {(x_{1}^{i} - {\hat{W}}_{1} < z^{i} >)}^{T} + Σ_{j = N_{p} + 1}^{N_{1}} (x_{1}^{j} - {\hat{W}}_{1} < z_{1}^{j} >) {(x_{1}^{j} - {\hat{W}}_{1} < z_{1}^{j} >)}^{T}}

{\hat{ψ}}_{2} = \frac{1}{N_{2}} {Σ_{i = 1}^{N_{p}} {(x_{2}^{i} - {\hat{W}}_{2} < z^{i} >)}^{T} + Σ_{k = N_{p} + 1}^{N_{2}} (x_{2}^{k} - {\hat{W}}_{2} < z_{2}^{k} >) {(x_{2}^{k} - {\hat{W}}_{2} < z_{2}^{k} >)}^{T}} .

以下为本发明具体实施例，如下所示：

人工弱匹配多模态数据集上的实验，如下所示：

为了验证SemiPCCA模型的有效性，我们构造以下人工数据集合：样本集合服从N(0,I_d)，其中维度d＝2，样本数量N＝300，完整的匹配样本集合通过以下方式构造获得，

x_{1} = T_{1} z + ϵ_{1}, T &Element; R^{m_{1} \times d}

x_{2} = T_{2} z + ϵ_{2}, T_{2} &Element; R^{m_{2} \times d}

其中，

P (ϵ_{1}) ~ N (0, [\begin{matrix} 0.75 & 0.5 \\ 0.5 & 0.75 \end{matrix}]), P (ϵ_{2}) ~ N (0, [\begin{matrix} 1 & 1 \\ 1 & 1 \end{matrix}]), T_{1} = [\begin{matrix} 0.6 & - 1 / \sqrt{2} \\ 0.8 & - 1 / \sqrt{2} \end{matrix}], T_{2} = [\begin{matrix} 0.3 & - 0.7 \\ 0.4 & 0.7 \end{matrix}],

样本维度分别设置为m₁＝2，m₂＝2；

为了获得弱匹配的样本集合，我们构造一个判别函数f(x₂)＝a^Tx₂-θ，其中θ表示判别阈值，对于样本如果其判别函数值则从中移除样本。可见，θ越大，移除的样本就越多；

在比较SemiPCCA与传统CCA和PCCA时，我们选择了以下加权余弦距离，

C (W_{x}, W_{x}^{*}, Λ^{*}) = Σ_{i = 1}^{d} λ_{i}^{*} \frac{w_{x, i}^{T} w_{x, i}^{*}}{| | w_{x, i} | | \cdot | | w_{x, i}^{*} | |}

其中，和分别表示有完整匹配样本通过CCA分析后，获得的“真正”d个典型投影向量和相关系数；

图3给出了判别阈值θ在-2到5的取值范围内，经过1000次独立实验获得的加权余弦距离平均值。实验结果表明随着判别阈值θ的提高，匹配样本逐渐减少，SemiPCCA模型由于考虑了为匹配样本，其性能明显好于传统CCA和PCCA，解决了过拟合问题；

图4(a)(图4(b))描述了θ＝-2(θ＝4)时，匹配样本(蓝色方形)、未匹配样本(红色圆形)的分布情况，以及分别由CCA、PCCA和SemiPCCA获得的典型投影向量。在只考虑了匹配样本的情况下，CCA和PCCA出现了过拟合问题。

以下为图像语义标注，如下所示：

图像检索技术包括两种主流解决方案：基于文本的图像检索和基于内容的图像检索。基于文本的图像检索利用人工对图像进行标注，并在此基础上利用传统的文本搜索引擎查询图像，这种查询方式比较直观，但是，人工标注费时费力，使得这种检索技术不能推广到大规模的图像数据库。基于内容的图像检索采用特征提取和高维索引技术进行图像检索，它为每幅图像提取底层视觉特征，以高维形式存入数据库，通过比较这些特征的相似度来获得检索结果。这种技术在人脸识别、商标识别等某些特殊领域得到了很好的应用，但由于存在语义鸿沟，视觉特征相似的图像很可能在语义上是不相关的。为了获得语义相关的检索结果，同时避免大量的手工标注，图像自动标注成为当前关键的具有挑战性的课题；

图像标注方法可分为有监督的分类算法和关联建模。有监督的分类算法是一种最直接的图像标注方法。有监督的分类算法将各个语义类别(一个关键词或关键词集合)看作独立的概念，通过训练一组经过语义标注的样本图像，为每个语义类别建立各不相同的二类分类器，然后利用分类器将未标注或未归类的图像归并到某一语义类，如图5(a)所示；

关联建模的方法从文本领域的研究得到启发。这类方法利用现有的标注好的图像数据集，在无监督的基础上学习图像的视觉特征和文本关键词之间的关联，然后通过统计推理的方法将这种关联应用到未标注的图像。关联建模的基本思想是引入随机变量对客观世界的隐藏状态L进行编码，随机变量的各个状态定义了语义关键词和图像特征的联合分布。不同的标注方法对于隐藏状态做了不同的定义。有些方法将图像或图像聚类与隐藏状态联系，如图5(b)所示，还有方法同时使用图像和关键词估计隐藏变量的分布，实现某些模型的高层次分组(如主题)与隐藏状态相联系，如图5c)所示。

以下为学习与标注，如下所示：

类似图5(c)所示的关联建模方法，本发明提出了基于SemiPCCA的图像标注方法：

对于已标注样本(x₁,x₂)，隐空间中随机变量z的后验概率P(z|x₁,x₂)服从以下均值方差Ψ₁₂高斯分布：

{\hat{z}}_{12} = E (z | x_{1}, x_{2}) = {(\begin{matrix} M_{1} \\ M_{2} \end{matrix})}^{T} (\begin{matrix} {(I - {P_{d}}^{2})}^{- 1} & - {(I - {P_{d}}^{2})}^{- 1} P_{d} \\ - {(I - {P_{d}}^{2})}^{- 1} P_{d} & {(I - {P_{d}}^{2})}^{- 1} \end{matrix}) (\begin{matrix} {U_{1 d}}^{T} (x_{1} - {\hat{μ}}_{1}) \\ {U_{2 d}}^{T} (x_{2} - {\hat{μ}}_{2}) \end{matrix})

Ψ_{12} = var (z | x_{1}, x_{2}) = I - {(\begin{matrix} M_{1} \\ M_{2} \end{matrix})}^{T} (\begin{matrix} {(I - {P_{d}}^{2})}^{- 1} & - {(I - {P_{d}}^{2})}^{- 1} P_{d} \\ - {(I - {P_{d}}^{2})}^{- 1} P_{d} & {(I - {P_{d}}^{2})}^{- 1} \end{matrix}) (\begin{matrix} M_{1} \\ M_{2} \end{matrix})

类似地，对于未标注的样本，隐空间中随机变量z在只给定样本图像特征x₁的情况下，其后验概率P(z|x₁)服从以下均值方差Ψ₁高斯分布：

Ψ₁＝var(z|x₁)＝I-M₁M₁ ^T

根据上述结论，对于已标注图像和未标注图像，隐空间中随机变量_z的分布情况如图6所示，图7给出了来自Corel5K图像库中100000(Bears)和109000(Foxes&Coyotes)两个主题的6幅标注图像和2幅未标注图像在隐空间中的后验概率分布；

设表示已标注图像的图像特征和文本关键词集合，表示未标注图像的图像特征集合。Nakayam等人提出了一种基于PCCA的图像标注方法。对于给定未标注图像文本关键词的后验概率如式(18)：

P (W | Q_{j}^{(U)}) = Σ_{i = 1}^{N_{p}} P (w | T_{i}^{(P)}) P (T_{i}^{(P)} | Q_{j}^{(U)}), - - - (1)

其中，

P (T_{i}^{(P)} | Q_{j}^{(U)}) = \frac{D_{K L} (P (z | T_{i}^{(P)}), P (z | Q_{j}^{(U)}))}{Σ_{k = 1}^{N_{p}} D_{K L} (P (z | T_{k}^{(P)}), P (z | Q_{j}^{(U)}))},

表示分布和在隐空间中的KL距离之和，即：

D_{K L} (P (z | T_{i}^{(P)}), P (z | Q_{j}^{(U)})) = K L (P (z | T_{i}^{(P)}), P (z | Q_{j}^{(U)})) + K L (P (z | Q_{j}^{(U)}), P (z | T_{i}^{(P)}));

根据多维高斯分布间KL距离的计算公式，得：

K L (P (z | T_{i}^{(P)}), P (z | Q_{j}^{(U)})) = \frac{1}{2} [t r (ψ_{1}^{- 1} ψ_{12}) - d - l o g (\frac{| ψ_{1} |}{| ψ_{12} |}) + {({\hat{z}}_{q} - {\hat{z}}_{t})}^{T} ψ_{1}^{- 1} ({\hat{z}}_{q} - {\hat{z}}_{t})] .

对于不同的样本，上式的前三项是常数，所以可以将以上KL距离简化为：

K L (P (z | T_{i}^{(P)}), P (z | Q_{j}^{(U)})) = \frac{1}{2} {({\hat{z}}_{q} - {\hat{z}}_{t})}^{T} ψ_{1}^{- 1} ({\hat{z}}_{q} - {\hat{z}}_{t}) - - - (2)

同理，

K L (P (z | Q_{j}^{(U)}), P (z | T_{i}^{(p)})) = \frac{1}{2} {({\hat{z}}_{q} - {\hat{z}}_{t})}^{T} {ψ_{12}}^{- 1} ({\hat{z}}_{q} - {\hat{z}}_{t}) .

定义如下：

P (w | T_{i}^{(P)}) = {μδ}_{w, T_{i}^{(P)}} + (1 - μ) \frac{N_{w}}{N W}, - - - (4)

其中，N_w表示标注图像集合中包含语义关键字w的图像数量，NW表示语义关键字的数量，表示标注样本包含语义关键字w，否则参数0<μ<1(取μ＝0.99)。

以下为本发明的实验过程和结果，如下所示：

实验数据：

图像标注领域，很多研究者采用Corel图像库进行测试，图8给出了Corel图像库中的一些图像示例。使用Corel图像库所得到的结果在一定程度上能为判断标注系统性能提供依据。

我们采用Corel5K数据集和Corel30K数据集进行实验。Corel5K数据集包含5000幅图像，来自50个Corel库存图像CD，每张CD包含同样语义内容的100幅图像，每幅图像标注1～5个关键词。Corel5k共有371个关键词，将至少标注了8幅图像的关键词选入词汇表，合计260个关键词。整个数据集分为三部分：4500幅标注图像作为训练集，500幅图像作为测试集。Corel30K数据集与Corel5K类似，但包含31,695幅图像和5,587个关键词，将至少标注了10幅图像的关键词选入词汇表，合计950个关键词。

我们使用Corel5K测试集的500幅图像作为测试图像，从Corel5K训练集中的分别选择1500幅、2250幅和4500幅图像作为标注图像，其余图像与Corel30K数据集中的31,695幅图像作为未标注图像，参与SemiPCCA模型的学习。

以下为本发明获取图像特征，如下所示：

由于无法确定图像中对象的位置和数量，所以通常的做法是基于分块、基于特征点和基于对象3种方法划分图像，抽取各个区域的底层特征，并进行聚类，每个类心看作一个“视觉词”，所有“视觉词”形成的全集称为“视觉词汇表”，图像表示为“视觉词袋”，然而，不正确的图像划分会导致算法识别性能的降低。

为了实现无分割的图像标注，本发明使用基于图像颜色的高阶局部自相关特征(ColorHigherorderLocalAuto-Correlation，简称Color-HLAC)，1988年，东京大学教授NobuyukiOtsu提出了高阶局部自相关(HigherorderLocalAuto-Correlation，简称HLAC)的概念。HLAC使用模板匹配的方法快速计算二值图像相邻像素点的自相关特征，能够很好地提取图像的局部信息，描述空间上的相关关系，m-thHLAC表示m阶HLAC特征，随着阶数的增加，HLAC特征的表示能力增强，但同时计算量也在增加，所以通常使用1阶HLAC特征(1stHLAC)或2阶HLAC特征(2ndHLAC特征)，HLAC已经被广泛地用于图像识别。Color-HLAC特征是HLAC特征在RGB图像上的扩展，分别计算RGB各层的HLAC特征，然后“串行融合”，1阶Color-HLAC特征为45维，模板如图9所示。2阶Color-HLAC特征为714维。

以下为本发明图像自动标注结果，如下所示：

图像标注的性能通过比较测试集的图像自动标注结果与原始标注进行评价。本实验取前5个后验概率最大的关键词作为每幅图像的标注结果，并计算测试集中每个关键字的精度(也称查准率)、召回率(也称查全率)及其综合评价指标F1值。对于一个关键词w，精度Precision＝B/A，召回率Recall＝B/C，综合评价指标F1＝2*P*R/(P+R)，其中A表示所有自动标注了w的图像个数，B表示正确标注w的图像个数，即这些图像的原始标注和自动标注都包含w，C表示原始标注中包含w的图像个数。计算精度和召回率的平均值可以用来评价系统的标注性能。此外，本实验也考虑了召回率大于0的关键词个数，这个值可以代表系统能够有效学习的关键词个数。

使用平均精度和平均召回率比较了若干图像自动标注方法的性能。表1给出了PCCA和SemiPCCA在Corel图像库的标注性能比较，包括性能最佳的49个关键词的平均召回率和平均精度，以及全部260个关键词的平均召回率和平均精度，训练集分别选择Corel5k中的1500幅、2250幅和4500幅标注图像，表1中数据可以看出，SemiPCCA的性能大大优于PCCA。

表1PCCA，SemiPCCA在Corel图像库上的图像自动标注性能比较

表2给出了TM，CMRM，CRM，MBRM，PLSA-WORDS，GM-PLSA和本文提出的SemiPCCA的标注性能。为了与过去的模型进行比较，训练集采用Corel5k中4500幅标注图像，表中同样报告了两种标注结果：性能最佳的49个关键词的平均召回率和平均精度与全部260个关键词的平均召回率和平均精度，表2中数据可以看出，SemiPCCA的性能大大优于TM，CMRM，CRM和PLSA-WORDS，也稍优于MBRM和GM-PLSA。

表2SemiPCCA与其他模型在Corel5k图像库上的图像自动标注性能比较

针对弱匹配多模态数据的相关性建模问题，本发明提出了一种全新的弱匹配概率典型相关性模型(SemiPCCA)，不同于以往的弱匹配典型相关性分析模型，SemiPCCA完全基于概率典型相关性分析模型(PCCA)，关注于各模态内部的全局结构，模型参数的估计受到了未匹配样本的影响，而未匹配样本则揭示了各模态样本空间的全局结构。在人工弱匹配多模态数据集上的实验表明，SemiPCCA可以有效克服传统CCA和PCCA在匹配样本不足的情况下出现的过拟合问题，取得了很好的效果。

接着，本发明提出了一种基于SemiPCCA的图像自动标注方法，该方法是基于关联建模的思想，同时使用标注图像及其关键词和未标注图像估计隐空间的分布，学习视觉模态和文本模态之间的关联，从而能较好地对未知图像进行标注。在Corel数据集上进行的实验表明，SemiPCCA比几种典型的图像标注方法具有更高的标注精度和更好的检索效果。

Claims

1.一种基于弱匹配概率典型相关性模型的图像标注方法，其特征在于，包括：步骤1，获取图像数据库中已标注图像与未标注图像，分别提取所述已标注图像与所述未标注图像的图像特征和文本特征，生成已匹配样本集合和未匹配样本集合，所述已匹配样本集合包括已标注图像特征集合与已标注文本特征集合，所述未匹配样本集合包括未标注图像特征集合与未标注文本特征集合；

2.如权利要求1所述的基于弱匹配概率典型相关性模型的图像标注方法，其特征在于，所述弱匹配概率典型相关性模型的公式为：

D = {(x_{1}^{i}, x_{2}^{i})}_{i = 1}^{N_{p}} \cup {(x_{1}^{j})}_{j = N_{p} + 1}^{N_{1}} \cup {(x_{2}^{k})}_{k = N_{p} + 1}^{N_{2}}

L (θ) = Π_{i = 1}^{N_{p}} P (x_{1}^{i}, x_{2}^{i}; θ) Π_{j = N_{p} + 1}^{N_{1}} P (x_{1}^{j}; θ) Π_{k = N_{p} + 1}^{N_{2}} P (x_{2}^{k}; θ)

其中，表示完整的观察样本集合,包含了匹配和未匹配样本，N_p为成对观察样本集合的样本数量，和其中每一个样本代表一个m₁(m₂)维向量，与表示未匹配样本集合,其中与相互独立生成。，假设样本之间相互独立,其极大似然值L(θ)，服从概率典型相关性分析模型，和分别表示未匹配样本集合和的概率分布。

3.如权利要求2所述的基于弱匹配概率典型相关性模型的图像标注方法，其特征在于，所述已匹配样本集合通过概率典型相关性分析模型计算和

4.如权利要求2所述的基于弱匹配概率典型相关性模型的图像标注方法，其特征在于，对应所述未匹配样本集合和和通过以下公式获得：

P (x_{1}^{j}; θ) = &Integral; P (x_{1}^{j} | z_{1}^{j}) P (z_{1}^{j}) {dz}_{1}^{j} ~ N (μ_{1}, W_{1} {W_{1}}^{T} + ψ_{1})

P (x_{2}^{k}; θ) = &Integral; P (x_{2}^{k} | z_{2}^{k}) P (z_{2}^{k}) {dz}_{2}^{k} ~ N (μ_{2}, W_{2} {W_{2}}^{T} + ψ_{2})

5.如权利要求2所述的基于弱匹配概率典型相关性模型的图像标注方法，其特征在于，通过以下公式获取所述弱匹配概率典型相关性模型中成对样本的投影：

E (z^{i} | x_{1}^{i}) = {\hat{W}}_{1}^{T} {({\hat{W}}_{1} {\hat{W}}_{1}^{T} + {\hat{ψ}}_{1})}^{- 1} (x_{1}^{i} - {\hat{μ}}_{1})

E (z^{i} | x_{2}^{i}) = {\hat{W}}_{2}^{T} {({\hat{W}}_{2} {\hat{W}}_{2}^{T} + {\hat{ψ}}_{2})}^{- 1} (x_{2}^{i} - {\hat{μ}}_{2})

6.一种基于弱匹配概率典型相关性模型的图像标注系统，其特征在于，包括：获取已匹配样本集与未匹配样本集模块，用于获取图像数据库中已标注图像与未标注图像，分别提取所述已标注图像与所述未标注图像的图像特征和文本特征，生成已匹配样本集合和未匹配样本集合，所述已匹配样本集合包括已标注图像特征集合与已标注文本特征集合，所述未匹配样本集合包括未标注图像特征集合与未标注文本特征集合；

7.如权利要求6所述的基于弱匹配概率典型相关性模型的图像标注方法，其特征在于，所述弱匹配概率典型相关性模型的公式为：

D = {(x_{1}^{i}, x_{2}^{i})}_{i = 1}^{N_{p}} \cup {(x_{1}^{j})}_{j = N_{p} + 1}^{N_{1}} \cup {(x_{2}^{k})}_{k = N_{p} + 1}^{N_{2}}

L (θ) = Π_{i = 1}^{N_{p}} P (x_{1}^{i}, x_{2}^{i}; θ) Π_{j = N_{p} + 1}^{N_{1}} P (x_{1}^{j}; θ) Π_{k = N_{p} + 1}^{N_{2}} P (x_{2}^{k}; θ)

其中，表示完整的观察样本集合,包含了匹配和未匹配样本，N_p为成对观察样本集合的样本数量，和其中每一个样本代表一个m₁(m₂)维向量，与表示未匹配样本集合,其中与相互独立生成，假设样本之间相互独立,其极大似然值L(θ)，服从概率典型相关性分析模型，和分别表示未匹配样本集合和的概率分布。

8.如权利要求7所述的基于弱匹配概率典型相关性模型的图像标注方法，其特征在于，所述已匹配样本集合通过概率典型相关性分析模型计算和

9.如权利要求7所述的基于弱匹配概率典型相关性模型的图像标注方法，其特征在于，对应所述未匹配样本集合和和通过以下公式获得：

P (x_{1}^{j}; θ) = &Integral; P (x_{1}^{j} | z_{1}^{j}) P (z_{1}^{j}) {dz}_{1}^{j} ~ N (μ_{1}, W_{1} {W_{1}}^{T} + ψ_{1})

P (x_{2}^{k}; θ) = &Integral; P (x_{2}^{k} | z_{2}^{k}) P (z_{2}^{k}) {dz}_{2}^{k} ~ N (μ_{2}, W_{2} {W_{2}}^{T} + ψ_{2})

10.如权利要求7所述的基于弱匹配概率典型相关性模型的图像标注方法，其特征在于，通过以下公式获取所述弱匹配概率典型相关性模型中成对样本的投影：

E (z^{i} | x_{1}^{i}) = {\hat{W}}_{1}^{T} {({\hat{W}}_{1} {\hat{W}}_{1}^{T} + {\hat{ψ}}_{1})}^{- 1} (x_{1}^{i} - {\hat{μ}}_{1})

E (z^{i} | x_{2}^{i}) = {\hat{W}}_{2}^{T} {({\hat{W}}_{2} {\hat{W}}_{2}^{T} + {\hat{ψ}}_{2})}^{- 1} (x_{2}^{i} - {\hat{μ}}_{2})