CN102298605B

CN102298605B - 基于有向图非等概率随机搜索的图像自动标注方法及装置

Info

Publication number: CN102298605B
Application number: CN 201110147033
Authority: CN
Inventors: 丁贵广; 林梓佳
Original assignee: Tsinghua University
Current assignee: Qingruan Micro Vision Hangzhou Technology Co ltd
Priority date: 2011-06-01
Filing date: 2011-06-01
Publication date: 2013-04-17
Anticipated expiration: 2031-06-01
Also published as: CN102298605A

Abstract

本发明公开了一种基于有向图非等概率随机搜索的图像自动标注方法，包括：输入待标注图像和已标注图像集，提取待标注图像的多个特征向量，选取近邻图像集；构建针对待标注图像的有向图模型；计算标签间的词义相似度矩阵Se和标签间的共生关系矩阵Co，将词义相似度矩阵Se和标签间的共生关系矩阵Co进行融合得到标签相似矩阵TT；对候选标签集中的每一个候选标签在有向图模型中进行非等概率随机搜索以计算得分，取得分高的多个候选标签作为标注结果。本发明还公开了一种基于有向图非等概率随机搜索的图像自动标注方法装置。本发明充分合理地利用图像间的依赖关系和标签之间的相似关系，可以有效地进行图像的自动标注，具有较好的标注效果。

Description

基于有向图非等概率随机搜索的图像自动标注方法及装置

技术领域

本发明涉及计算机多媒体技术领域，特别涉及一种基于有向图非等概率随机搜索的图像自动标注方法及装置。

背景技术

随着社区网络和数码摄像技术的迅猛发展带来网络图像数据的爆炸式增长，如何对如此海量的图像数据进行有效的存储、管理和检索成为一个严峻的挑战和急迫的需求。传统的基于图像周边文本的检索(如Google图像搜索)由于周边文本噪声太大而无法达到较好的检索精度，而基于图像内容的检索(CBIR)技术则由于无法跨越图像底层特征与高层语义之间的“语义鸿沟”(Semantic Gap)而得不到广泛的认可和应用。近年来的研究表明，基于图像语义内容的自动标注技术将很可能成为以上问题的有效解决途径。

图像自动标注是指对于一张没有或只有极少文本描述的图像，根据其底层特征，由计算机自动寻找出能够有效描述其语义内容的文本标签。图像标注的目标是将图像数据转化为文本数据，并且保证转化的过程中能最大程度上保留图像的语义。通过语义近似等价的转换，添加的文本标签可被用于图像的索引和检索等等，从而方便了后续的管理和应用。图像标注最根本的问题是如何从图像的底层特征映射到高层语义。在计算机领域中，图像的表示是二进制流，而对于生物认知而言，图像本身包含着大量的概念等高层语义信息，如何跨越二进制流和高层语义之间的鸿沟便是图像标注需要集中解决的问题。

现有图像自动标注方法总体上可以划分为两大类：基于模型的标注方法和数据驱动的标注方法。

基于模型的图像自动标注方法主要采用的是分类器方法和统计模型方法。分类器方法将标注问题转化为分类问题，通常是将每一个候选标签视为一个类别，并通过训练数据为每一个候选标签训练相应的分类器，再由分类器判断待标注图像所属的类别，则这些类别所对应的标签将作为标注的结果。统计模型的基本思想是通过应用概率模型等统计学方法在训练数据集上建立起图像或图像区域与文本标签之间的关系模型，然后根据待标注图像的底层特征，通过应用该关系模型直接评估各个标签的权重，最终选择权重最大的若干个标签作为标注的结果。

统计模型在图像自动标注方面的应用包括以下几种：

将机器翻译的思想应用到图像标注中，首先将训练数据集中的图像进行区域分割和聚类作为“词袋”，然后应用期望最大化(Expectation Maximization)算法，为每一个“词袋”分配相应的文本标签，从而建立起“词袋”与标签之间的关系模型。而对于待标注图像，也可通过区域分割，并根据各个区域所对应的“词袋”获取相应的文本标签作为标注结果。

在“词袋”量化的基础上，根据条件概率思想建立起了另一个标注模型--给定待标注图像的“词袋”表示(假设为{b₁，b₂，...b_m})，利用训练集上的统计数据评估出为其标注上某一个标签w的概率P(w|b₁，b₂，...b_m)，最终取条件概率最大的若干个候选标签作为标注结果。

利用贝叶斯法则和独立假设将上述概率公式P(w|b₁，b₂，...b_m)进一步改写为

\frac{P (b_{1} | w) \times P (b_{2} | w) \times . . . \times P (b_{m} | w) \times P (w)}{P ({b_{1}, b_{2}, . . ., b_{m}})},

然后通过训练集的统计数据估算出公式中各部分的取值，并计算出每个候选标签被标注的概率，最后同样以条件概率最大的若干个候选标签作为标注结果。

数据驱动的图像自动标注方法是近年来的研究热点，其主要思想是利用互联网上的海量数据作为标注的语义库，并以此来协助跨越“语义鸿沟”，从而改善标注的效果。在数据驱动的标注方法研究方面，微软亚洲研究院提出的AnnoSearch框架的核心思想是将标注问题转化为搜索问题，通过在互联网上搜索与待标注图像在文本词义和视觉内容两方面均相似的图片，并从搜索结果中挖掘出共有的语义概念作为标注的结果。但是AnnoSearch的应用要求待标注图像必须拥有至少一个能描述其主要内容的文本标签作为搜索词。

从现有技术来看，已有的图像自动标注方法即使应用在人为构造的标准数据集上，准确率(precision)和召回率(recall)也只能达到30％左右，而在实际数据集中，由于存在较大的标签噪声，准确率和召回率将会更低。由此可见，图像自动标注技术还远远不能满足实际的需求。

发明内容

本发明的目的旨在至少解决上述技术缺陷之一。

为此，本发明的第一个目的在于提供一种基于有向图非等概率随机搜索的图像自动标注方法，该方法可以合理地利用图像之间的依赖关系和标签之间的相似关系，有效地进行图像的自动标注，具有较好的标注效果。

本发明的第二个目的在于提供一种基于有向图非等概率随机搜索的图像自动标注装置。

为实现上述目的，本发明的第一方面的实施例提出一种基于有向图非等概率随机搜索的图像自动标注方法，包括如下步骤：

输入待标注图像和已标注图像集，提取所述待标注图像的多个特征向量，根据所述多个特征向量计算所述待标注图像与所述已标注图像集中的每一个已标注图像的融合距离，并选取所述融合距离小的前k个已标注图像形成近邻图像集，所述近邻图像集中所有图像的标签作为候选标签集；

计算所述近邻图像集中的每一个图像在所述待标注图像重构过程中的权重值以及所述近邻图像集中的每一个已标注图像在所述近邻图像集中的其他已标注图像重构过程中的权重值，根据所述权重值构建视觉依赖矩阵F，计算所述近邻图像集中的任意两个图像的共有标签数量，根据所述共有标签数量和所述近邻图像集中的每一个图像的标签数量构建标签依赖矩阵C，将所述视觉依赖矩阵F和所述标签依赖矩阵C进行融合并通过随机游走得到稳定依赖关系矩阵A，以所述待标注图像和近邻图像集中的每一个图像作为节点，以所述稳定依赖关系矩阵A的元素作为与所述节点相关联的有向边的权重，构建针对所述待标注图像的有向图模型；

计算所述候选标签集中的任意两个标签的词义相似度，根据所述标签词义相似度构建标签间的词义相似度矩阵Se，计算所述候选标签集中标签间的共生关系矩阵Co，将所述词义相似度矩阵Se和标签间的共生关系矩阵Co进行融合得到标签相似矩阵TT；和

对所述候选标签集中的每一个候选标签在所述有向图模型中进行非等概率随机搜索以获得所述每一个候选标签的得分，按照所述得分对所有候选标签进行排序，将得分高的前u个候选标签作为标注结果。

根据本发明实施例的基于有向图非等概率随机搜索的图像自动标注方法，充分合理地利用图像之间的依赖关系和标签之间的相似关系，可以有效地进行图像的自动标注，具有较好的标注效果。

本发明第二方面的实施例提出了一种基于有向图非等概率随机搜索的图像自动标注装置，包括：近邻图像集获取模块，所述近邻图像集获取模块用于接收待标注图像和已标注图像集，提取所述待标注图像的多个特征向量，根据所述多个特征向量计算所述待标注图像与所述已标注图像集中的每一个已标注图像的融合距离，并选取所述融合距离小的前k个已标注图像形成近邻图像集，所述近邻图像集中所有图像的标签作为候选标签集；计算模块，所述计算模块用于计算所述近邻图像集中的每一个图像在所述待标注图像重构过程中的权重值以及所述近邻图像集中的每一个图像在所述近邻图像集中的其他已标注图像重构过程中的权重值，根据所述权重值构建视觉依赖矩阵F，计算所述近邻图像集中的任意两个图像的共有标签数量，根据所述共有标签数量和所述近邻图像集中的每一个图像的标签数量构建标签依赖矩阵C，并且计算所述候选标签集中的任意两个标签的词义相似度，根据所述标签词义相似度构建标签间的词义相似度矩阵Se，计算所述候选标签集中的标签共生关系矩阵Co；融合模块，所述融合模块用于将所述视觉依赖矩阵F和所述标签依赖矩阵C进行融合并通过随机游走得到稳定依赖关系矩阵A，以及将所述词义相似度矩阵Se和标签间的共生关系矩阵Co进行融合得到标签相似矩阵TT；有向图模型建立模块，所述有向图模型建立模块用于以所述待标注图像和近邻图像集中的每一个图像作为节点，以所述稳定依赖关系矩阵A的元素作为与所述节点相关联的有向边的权重，构建针对所述待标注图像的有向图模型；随机搜索模块，所述随机搜索模块用于对所述候选标签集中的每一个候选标签在所述有向图模型进行非等概率随机搜索以获得所述每一个候选标签的得分，按照所述得分对所有候选标签进行排序，将得分高的前u个候选标签作为标注结果。

根据本发明实施例的基于有向图非等概率随机搜索的图像自动标注装置，充分合理地利用图像之间的依赖关系和标签之间的相似关系，可以有效地进行图像的自动标注，具有较好的标注效果。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于有向图非等概率随机搜索的图像自动标注方法的示意图；

图2为根据本发明实施例的基于有向图非等概率随机搜索的图像自动标注方法的流程图；

图3为根据本发明实施例的图像自动标注方法在标准测试集Corel5K上进行图像自动标注的部分样例效果图；

图4为根据本发明实施例的图像自动标注方法在标准测试集SAIAPR TC-12上进行图像自动标注的部分样例效果；和

图5为根据本发明实施例的基于有向图非等概率随机搜索的图像自动标注装置的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

下面参考图1至图2描述根据本发明实施例的基于有向图非等概率随机搜索的图像自动标注方法。

如图1所示，根据本发明实施例的基于有向图非等概率随机搜索的图像自动标注方法，包括如下步骤：

S101：选取近邻图像集。

首先输入待标注图像I和已标注图像集，在已标注图像集中包括多个已标注的图像，每个已标注的图像均附带有标签。

S1011：提取待标注图像I的特征向量。

对于输入的待标注图像I，提取所述待标注图像I的一种或多种底层特征向量，并拼合为一个整体向量f_I＝(p₁，p₂，...p_x...，p_n)，其中p_x表示第x种特征向量。在本发明的一个实施例中，利用Lire等开源项目提取待标注图像I的一种或多种特征向量。可以理解的是，上述用Lire等开源项目仅出于示例的目的，而不是为了限制本发明的保护范围。

S1012：寻找视觉近邻。

利用步骤S1011中得到的特征向量，根据底层特征向量之间的相似性，从已标注图像集中寻找与待标注图像I相似的k个视觉近邻图像，形成近邻图像集合K。

具体而言，计算待标注图像I与已标注图像集中每一个已标注图像的融合距离d。由于对待标注图像I提取的特征有多种，并且不同特征的距离计算方式不相同，因此需要对各种特征的距离进行归一化和融合。

基于所述待标注图像的多个特征向量的每一个，计算所述待标注图像与所述每一个已标注图像的对应特征向量的距离，对每种特征向量对应的距离进行归一化处理，得到归一化距离d_x。归一化的公式为：

d_{x} = \frac{d_{x 0} - \min {d_{x 0}}}{\max {d_{x 0}} - \min {d_{x 0}}}

其中，d_x0表示第x种特征向量计算所得的距离，max{d_x0}和min{d_x0}分别表示第x种特征向量距离的最大值和最小值。

根据每种特征向量在计算所述融合距离中所占的比重，将所述多种特征向量对应的归一化距离进行融合，得到融合距离d。

d = Σ_{x = 1}^{n} w_{x} d_{x},

其中，d为融合距离，w_x表示待标注图像的第x种特征向量在计算所述融合距离中所占的比重，d_x表示第x种特征对应的归一化距离，n表示待标注图像的特征的种类个数，其中x∈[1,2,...n]。

在计算出与所有已标注图像的距离之后，选取融合距离d最小的前k个已标注图像作为待标注图像的视觉近邻图像，形成近邻图像集K，同时以所述近邻图像集K中的近邻图像的标签作为自动标注的候选标签集。

S102：构建针对待标注图像的有向图模型。

S1021：计算图像间的视觉依赖矩阵F。

计算所述近邻图像集中的每一个图像在所述待标注图像重构过程中的权重值以及所述近邻图像集中的每一个已标注图像在所述近邻图像集中的其他已标注图像重构过程中的权重值，根据所述权重值构建图像间的视觉依赖矩阵F。

通过将所述待标注图像的特征向量f_I与重构向量之间的二次范式值最小，计算所述近邻图像集中的每一个图像在所述待标注图像重构过程中的权重值。通过将近邻图像集中的任一个已标注图像的特征向量

与重构向量

之间的二次范式值最小，计算所述近邻图像集中的每一个图像在其他已标注图像重构过程中的权重值。利用权重值构建视觉依赖矩阵F。

视觉依赖反映的是图像特征向量之间的重构关系。待标注图像I与近邻图像集K中的近邻图像{I₁，I₂，...，I_k}的特征向量重构关系可以通过最优化下式获得：

\arg \min | | f_{I} - \underset{j &Element; [1,2, . . ., k]}{Σ} ω_{j} f_{I_{j}} {| |}^{2}

使得ω_j≥0且∑ω_j＝1

其中，f_I为待标注图像I的特征向量，为近邻图像集中的图像I_j的特征向量，j∈[1，2，...k]，近邻图像集包括图像{I₁，I₂，...，I_k}，ω_j为所述近邻图像集中的图像I_j在所述待标注图像重构过程中的权重值，反映了待标注图像I在视觉上对图像I_j的依赖关系。

对上式进行的最优化，获得所有的权重值ω_j，使得待标注图像I的特征向量f_I与重构向量之间的二次范式值最小。

令

&Element; = | | f_{I} - \underset{j &Element; [1,2, . . . k]}{Σ} ω_{j} f_{I_{j}} {| |}^{2},

通过对ε进行如下的变换：

&Element; = | | f_{I} - \underset{j &Element; [1,2, . . . k]}{Σ} ω_{j} f_{I_{j}} {| |}^{2}

= | | \underset{j &Element; [1,2, . . . k]}{Σ} ω_{j} (f_{I} - f_{I_{j}}) {| |}^{2}

= \underset{i, j &Element; [1,2, . . . k]}{Σ} ω_{j} ω_{i} {(f_{I} - f_{I_{i}})}^{T} (f_{I} - f_{I_{j}})

= ω^{T} Hω

其中，近邻图像集K包括图像{I₁，I₂，...，I_k}，j∈[1，2，...k]，ω为由各个权重组成的列向量。在本发明的一个实施例中，通过调用Matlab中的二次规划函数quadprog求解ω向量。矩阵H的第i行第j列的值为

H_{i, j} = {(f_{I} - f_{I_{i}})}^{T} (f_{I} - f_{I_{j}}) .

ω向量表示待标注图像I对其近邻图像的视觉依赖关系。

类似地，可以计算近邻图像集中每一个图像对于其他已标注图像的视觉依赖关系，具体的优化公式如下：

使得ω_j，h≥0且∑ω_j，h＝1

其中，

为近邻图像集中的图像I_j的特征向量，

为近邻图像集中的图像I_h的特征向量，h∈[1，2，...，k]且h≠j。所述近邻图像集包括图像{I₁，I₂，...，I_k}，ω_j，h为所述近邻图像集中的图像I_h在所述的近邻图像I_j重构过程中的权重值。公式的最优化过程同样可以由上述的Matlab二次规划函数quadprog求解得到。

根据求解出来的所述待标注图像及其近邻图像集对其他已标注图像的视觉依赖关系，可以构造出视觉依赖矩阵F。换言之，根据所述待标注图像及所述近邻图像集中的每一个图像在重构过程中的权重值构建视觉依赖矩阵F，

其中，ω₁为近邻图像集中的第一个图像I₁在所述待标注图像重构过程中的权重值，ω₂为近邻图像集中的第二个图像I₂在所述待标注图像重构过程中的权重值，ω_k-1为近邻图像集中的第k-1个图像I_k-1在所述待标注图像重构过程中的权重值，ω_k为近邻图像集中的第k个图像I_k在所述待标注图像重构过程中的权重值。

ω_i，j为所述近邻图像集中的第j个图像I_j在所述近邻图像集中的第i个图像I_i重构过程中的权重值，其中i∈[1，2，...k]，j∈[1，2，...k]，当i＝j时，ω_i，j＝0。

具体而言，ω_1，2为近邻图像集中的第二个图像I₂在近邻图像集中的第一个图像I₁重构过程中的权重值，ω_1，k-2为近邻图像集中的第k-2个图像I_k-2在近邻图像集中的第一个图像I₁重构过程中的权重值，ω_1，k-1为近邻图像集中的第k-1个图像I_k-1在近邻图像集中的第一个图像I₁重构过程中的权重值，ω_1，k为近邻图像集中的第k个图像I_k在近邻图像集中的第一个图像I₁重构过程中的权重值，ω_2，1为近邻图像集中的第一个图像I₁在近邻图像集中的第二个图像I₂重构过程中的权重值，ω_2，k-2为近邻图像集中的第k-2个图像I_k-2在近邻图像集中的第二个图像I₂重构过程中的权重值，ω_2，k-1为近邻图像集中的第k-1个图像I_k-1在近邻图像集中的第二个图像I₂重构过程中的权重值，ω_2，k为近邻图像集中的第k个图像I_k在近邻图像集中的第二个图像I₂重构过程中的权重值，ω_k-2，1为近邻图像集中的第一个图像I₁在近邻图像集中的第k-2个图像I_k-2重构过程中的权重值， ω_k-2，2为近邻图像集中的第二个图像I₂在近邻图像集中的第k-2个图像I_k-2重构过程中的权重值，ω_k-2，k-1为近邻图像集中的第k-1个图像I_k-1在近邻图像集中的第k-2个图像I_k-2重构过程中的权重值，ω_k-2，k为近邻图像集中的第k个图像I_k在近邻图像集中的第k-2个图像I_k-2重构过程中的权重值，ω_k-1，1为近邻图像集中的第一个图像I₁在近邻图像集中的第k-1个图像I_k-1重构过程中的权重值，ω_k-1，2为近邻图像集中的第二个图像I₂在近邻图像集中的第k-1个图像I_k-1重构过程中的权重值，ω_k-1，k-2为近邻图像集中的第k-2个图像I_k-2在近邻图像集中的第k-1个图像I_k-1重构过程中的权重值，ω_k-1，k为近邻图像集中的第k个图像I_k在近邻图像集中的第k-1个图像I_k-1重构过程中的权重值，ω_k，1为近邻图像集中的第一个图像I₁在近邻图像集中的第k个图像I_k重构过程中的权重值，ω_k，2为近邻图像集中的第二个图像I₂在近邻图像集中的第k个图像I_k重构过程中的权重值，ω_k，k-2为近邻图像集中的第k-2个图像I_k-2在近邻图像集中的第k个图像I_k重构过程中的权重值，ω_k，k-1为近邻图像集中的第k-1个图像I_k-1在近邻图像集中的第k个图像I_k重构过程中的权重值。

S1022：计算图像间的标签依赖矩阵C。

计算近邻图像集中的任意两个图像的共有标签数量，根据所述共有标签数量和近邻图像集中的每一个图像的标签数量构建标签依赖矩阵C。

根据图像间的统计关系估算图像间的标签依赖关系。首先计算所述标签依赖矩阵C的第i行第j列元素C_i，j，C_i，j为图像I_i对图像I_j的标签依赖量，表征图像I_i对I_j的标签依赖关系。

C_{i, j} = \frac{N (I_{i}, I_{j})}{N (I_{j})},

其中，N(I_i，I_j)表示近邻图像集中的图像I_i和图像I_j共有的标签数量，N(I_j)表示已标注图像I_j的标签数量，j∈[1，2，...k]，近邻图像集K包括近邻图像{I₁，I₂，...，I_k}，I_i，I_j∈K。当图像I_j的标签全部出现在图像I_i的标签中，则图像I_i对图像I_j的标签依赖关系为100％。

根据所述标签依赖量C_i，j构建图像间的标签依赖矩阵C。

S1023：融合图像间的依赖关系并构建稳定依赖关系矩阵A。

将所述视觉依赖矩阵F和所述标签依赖矩阵C进行融合并通过随机游走得到稳定依赖关系矩阵A。

为了表征图像之间的综合依赖关系，需要将计算得到的视觉依赖矩阵F和标签依赖矩阵C分别进行行归一化，然后融合，得到综合的图像依赖关系矩阵G。

G＝αF+(1-α)C

其中，α为调整因子，表示视觉依赖关系矩阵F在计算依赖关系矩阵G中的权重值，用于决定视觉依赖关系和标签依赖关系的权重。在本发明的一个示例中，α取0.5左右。融合后的G矩阵需要进行行归一化。

由于图像之间的依赖关系可能存在传播现象，需要通过随机游走(Random Walk)过程使G矩阵中的依赖关系稳定。假设图像间的依赖关系以β的概率向后继结点传播，以(1-β)保留初始的依赖关系，则在随机游走过程中，图像间的依赖关系计算公式如下：

a_{n} (i, j) = β \underset{q}{Σ} (a_{n - 1} (i, q) \times p_{q, j}) + (1 - β) G_{i, j}

其中，a_n(i，j)表示第n次随机游走过程中图像I_i对图像I_j的依赖关系，a_n-1(i，q)表示第n-1次随机游走过程中图像I_i对图像I_q的依赖关系，G_i，j为G矩阵中第i行第j列的元素，表示图像I_i对图像I_j的初始依赖关系，p_q，j为图像I_q选择图像I_j作为依赖关系传播的后继节点的概率。I_q∈K，K为近邻图像集。

由于G矩阵是行归一化的，并且图像间的初始依赖关系也反映了图像选择后继节点的概率，因此，此处的p_q，j近似等价于G_q，j，即

a_{n} (i, j) = β \underset{q}{Σ} (a_{n - 1} (i, q) \times G_{q, j}) + (1 - β) G_{i, j}

改写为矩阵形式如下：

A⁽ⁿ⁾＝βA^(n-1)G+(1-β)G

其中A⁽ⁿ⁾表示第n次随机游走得到的依赖关系矩阵。由于G是随机矩阵，可以证明，A将趋于稳定，由

A＝βAG+(1-β)G

可以解出稳定依赖关系矩阵A为：

A＝(1-β)G(E-βG)-1

其中G是依赖关系矩阵，E为单位矩阵，β为调整因子，表示依赖关系矩阵G中的依赖关系向后继节点传播的概率。在本发明的一个示例中，β取0.4左右。对稳定依赖关系矩阵A需要进行行归一化。

S1024：构造有向图模型。

以待标注图像和近邻图像集中的每一个图像作为节点，以所述稳定依赖关系矩阵A中元素作为有向边上的权重，构建针对所述待标注图像的有向图模型。

S103：构建标签相似矩阵TT。

S1031：计算标签间的词义相似度矩阵Se。

计算候选标签集中任意两个标签的词义相似度，根据所述标签词义相似度构建标签间的词义相似度矩阵Se。

计算标签间的词义相似度矩阵Se的第i行第j列元素Se_i，j，Se_i，j为标签t_i和标签t_j的词义相似度，其中，t_i为候选标签集中的第i个标签，t_j为候选标签集中第j个标签，I_i，I_j∈K，近邻图像集K包括近邻图像{I₁，I₂，...，I_k}。在本发明的一个示例中，标签t_i和标签t_j之间的词义相似度Se_i，j可以通过基于WordNet的词义相似性衡量方法估算得到。Se_i，j的取值范围为[0，1]。可以理解的是，上述用WordNet仅出于示例的目的，而不是为了限制本发明的保护范围。

根据上述步骤得到的词义相似度Se_i，j构建所述标签间的词义相似度矩阵Se。

S1032：计算标签间的共生关系矩阵Co。

计算所述候选标签集中的标签共生关系矩阵Co。标签间的共生关系体现的是标签在统计方面的相似度。

首先，计算候选标签集中的标签共生关系矩阵Co的第i行第j列元素，Co_i，j为标签t_i和标签t_j之间的共生关系，

{Go}_{i, j} = \frac{Nt (t_{i}, t_{j})}{\min {Nt (t_{i}), Nt (t_{j})}}

其中，t_i为候选标签集中的第i个标签，t_j为候选标签集中的第j个标签，Nt(t_i，t_j)表示同时包含标签t_i和标签t_j的图像的数量，Nt(t_i)和Nt(t_j)分别表示包含标签t_i和标签 t_j的图像的数量；

根据上述步骤得到的共生关系Co_i，j构建所述标签间的共生关系矩阵Co。

S1033：将词义相似度矩阵Se和标签共生关系矩阵Co进行融合。

为了表征标签之间的综合相似度，需要将标签间的词义相似度矩阵Se和共生关系矩阵Co融合起来，得到综合的标签相似矩阵TT：

TT＝γSe+(1-γ)Co，

其中γ是调整因子，为词义相似度矩阵Se在计算所述标签相似矩阵TT中的权重值，用于决定词义相似度和共生关系之间的权重关系。在本发明的一个示例中，γ为0.6左右。

S104：对候选标签进行非等概率随机搜索，获取标注结果。

对步骤S101中得到的候选标签集中的每一个候选标签在所述有向图模型中进行非等概率随机搜索预测其得分，按照所述得分对所有候选标签进行排序，将得分高的前u个候选标签作为标注结果。

S1041：对候选标签进行非等概率随机搜索。

对于每一个候选标签，通过在有向图上的非等概率随机搜索估算其得分。设候选标签t_i的得分为r(t_i)，则其数学期望(即估算公式)为：

r (t_{i}) = \underset{I_{m} &Element; K}{Σ} (p (I_{m}) \times \max_{t_{j} &Element; Tag (I_{m})} {{TT}_{j, i}}),

其中，I_m∈K，K为近邻图像集，p(I_m)表示非等概率随机搜索在图像节点I_m上返回的概率，表示从图像I_m返回的得分，该得分即为图像节点I_m附带的所有标签与候选标签相似度的最大值，

由所述标签相似矩阵TT计算得到，Tag(I_m)为I_m附带的所有标签。当图像I_m包含被预测的候选标签，则返回的得分为1。

下面对概率p(I_m)的计算过程进行描述。p(I_m)是通过多次由待标注图像出发的不同深度的非等概率随机搜索过程来估算得到，其估算公式为：

p (I_{m}) = \frac{Σ_{d = 1}^{\infty} p (I_{m}, d)}{\underset{I_{n} &Element; K}{Σ} Σ_{d = 1}^{\infty} p (I_{n}, d)}

其中p(I_m，d)和p(I_n，d)分别表示深度为d的随机搜索到达节点I_m和节点I_n的概率。p(I_m，d)的估算公式为：

p (I_{m}, d) = \underset{I_{n} &Element; K}{Σ} (p (I_{n}, d - 1) \times (1 - &PartialD; (I_{n}, d - 1)) \times p (S (I_{n}) = I_{m}))

其中p(I_n，d-1)表示深度为d-1的随机搜索到达节点I_n的概率，表示在节点I_n上深度为d-1的随机搜索不继续搜索后继节点的概率，p(S(I_n)＝I_m)表示在节点I_n上继续搜索后继结点时选中节点I_m的概率，该概率值即为A矩阵中的A_n，m。

概率值

的估计需要分如下几种情况讨论：

a)如果I_n包含被预测的候选标签，那么必须返回，不再继续搜索，该值为1；

b)如果I_n不包含被预测的候选标签，那么可以选择不继续搜索而返回，或者继续搜索后继节点，此时估算不继续搜索的概率需要考虑两个因素：停止搜索时返回的置信度δ_d-1和继续搜索时能返回的期望置信度θ_d。

的估算公式为：

而

δ_{d - 1} = e^{- \frac{d - 1}{2}} \max_{t_{j} &Element; Tag (I_{n})} {{TT}_{j, i}}

θ_{d} = e^{- \frac{d}{2}} \underset{I_{q} &Element; K}{Σ} p (S (I_{n}) = I_{q}) \times \max_{t_{j} &Element; Tag (I_{q})} {{TT}_{j, i}}

其中，表示图像I_n的所有标签与被预测标签相似度的最大值，p(S(I_n)＝I_q)表示图像I_n选择I_q作为后继搜索节点的概率，该概率可由稳定依赖关系矩阵A得到，即：

p(S(I_n)＝I_q)＝A_n，q

引入深度为d-1时随机搜索继续搜寻后继节点的前进概率矩阵ψ_d-1如下所示：

和：深度为d时随机搜索到达各个节点的概率向量P_d：

P_d＝(p(I₀，d)，p(I₁，d)，...，p(I_k，d))

则上面的公式转化为矩阵形式如下：

P_d＝P_d-1ψ_d-1A。

其中，前进概率矩阵ψ_d-1的第1行第1列的元素必须为1，表示随机搜索过程不能停止在待标注图像上。

由此可计算任意深度下随机搜索到达各个节点的概率，从而得到：

P = Σ_{d = 1}^{\infty} P_{d} = P_{1} E + P_{1} Σ_{D = 1}^{\infty} Π_{d = 1}^{D} (ψ_{d} A)

其中E表示单位矩阵，ψ_d表示深度为d时随机搜索继续搜寻后继节点的前进概率矩阵，A为稳定依赖关系矩阵，P向量表示随机搜索到达各个节点的概率，由于A矩阵是随机矩阵，故可证明

趋于稳定，从而P值也将趋于稳定。P₁为深度为1的随机搜索到达各个图像节点的概率所组成的向量，其估算由以下公式给出：

P₁＝P₀ψ₀A

其中ψ₀为单位矩阵，P₀向量为{0，1}二值向量，且只在待标注图像的位置为1，其他位置均为0，A为图像间的稳定依赖关系矩阵。

在求解P的稳定值时，可设

P^{(W)} = P_{1} E + P_{1} Σ_{D = 1}^{W} Π_{d = 1}^{D} (ψ_{d} A),

通过逐渐增加W的取值可最终得到P的近似稳定值。

当|P^(W)-P^(W-1)|＜σ时，P可视为稳定，σ为稳定阈值。在本发明的一个示例中，σ设置在0.01以下。

在求到稳定的P向量之后，则可由

p (I_{m}) = \frac{Σ_{d = 1}^{\infty} p (I_{m}, d)}{\underset{I_{n} &Element; K}{Σ} Σ_{d = 1}^{\infty} p (I_{n}, d)}

和

r (t_{i}) = \underset{I_{m} &Element; K}{Σ} (p (I_{m}) \times \max_{t_{j} &Element; Tag (I_{m})} {{TT}_{j, i}})

估算出每一个候选标签的得分。

S1042：根据预测的标签的得分对所有的候选标签进行排序，获取标注结果。

通过步骤S1042中的非等概率随机搜索预测出所有候选标签的得分之后，根据得分对所有候选标签进行排序，将得分高的前u个候选标签作为标注结果。

下面参考图3和图4描述本发明实施例的图像自动标注方法在图像自动标注的标准测试集Corel5K和SAIAPR_TC-12上的部分样例效果。图3和图4示出了选取的图像的标签及每个标签的得分值。

具体而言，本发明实施例的基于有向图非等概率随机搜索的图像自动标注方法具有以下特点：

(1)以随机搜索模型作为标注的基础。本发明实施例提供的基于有向图非等概率随机搜索的图像自动标注方法将预测候选标签得分的过程建模为一个在有向图中随机搜索候选标签的过程。通过多次由待标注图像出发的深度不同的随机搜索过程，估算出随机搜索在各个节点返回的概率，结合候选标签与各个节点所包含标签的相似关系，可以估算出候选标签得分的期望值。

(2)以有向图作为随机搜索的基础。在考虑图像之间依赖关系时，本发明实施例提供的基于有向图非等概率随机搜索的图像自动标注方法考虑到了依赖关系的非对称性，进而设计了有向图作为随机搜索的基础。

(3)以视觉近邻的标签作为标注的候选标签集。对于任意给定的待标注图像，本发明将首先根据视觉特征从已标注的图像中选择若干个最相似的图像作为视觉近邻图像，并且以这些视觉近邻图像的标签作为候选标签集，以此抵抗其他不相关图像所带来的噪声影响。

(4)充分挖掘训练数据中隐含的关系信息。本发明实施例提供的基于有向图非等概率随机搜索的图像自动标注方法充分有效地挖掘了图像与图像的关系、图像与标签的关系、标签与标签的关系，并将这三者合理地结合起来，达到较好的标注效果。

下面参考图5描述根据本发明实施例的基于有向图非等概率随机搜索的图像自动标注装置500。

如图5所示，根据本发明实施例的基于有向图非等概率随机搜索的图像自动标注装置500包括近邻图像集获取模块510、计算模块520、融合模块530、有向图模型建立模块540和随机搜索模块550。

近邻图像集获取模块510首先获取输入的待标注图像I和已标注图像集，在已标注图像集中包括多个已标注的图像，每个已标注的图像均附带有标签。

近邻图像集获取模块510对于输入的待标注图像I，提取所述待标注图像I的一种或多种底层特征向量，并拼合为一个整体向量f_I＝(p₁，p₂，...p_x...，p_n)，其中p_x表示第x种特征向量。在本发明的一个实施例中，利用Lire等开源项目提取待标注图像I的一种或多种特征向量。可以理解的是，上述用Lire等开源项目仅出于示例的目的，而不是为了限制本发明的保护范围。

近邻图像集获取模块510根据底层特征向量之间的相似性，从已标注图像集中寻找与待标注图像I相似的k个视觉近邻图像，形成近邻图像集合K。

具体而言，近邻图像集获取模块510计算待标注图像I与已标注图像集中每一个已标注图像的融合距离d。由于对待标注图像I提取的特征有多种，并且不同特征的距离计算方式不相同，因此需要对各种特征的距离进行归一化和融合。

近邻图像集获取模块510基于所述待标注图像的多个特征向量的每一个，计算所述待标注图像与所述每一个已标注图像的对应特征向量的距离，对每种特征向量对应的距离进行归一化处理，得到归一化距离d_x。归一化的公式为：

d_{x} = \frac{d_{x 0} - \min {d_{x 0}}}{\max {d_{x 0}} - \min {d_{x 0}}}

近邻图像集获取模块510根据每种特征向量在计算所述融合距离中所占的比重，将所述多种特征向量对应的归一化距离进行融合，得到融合距离d。

d = Σ_{x = 1}^{n} w_{x} d_{x},

其中，d为融合距离，w_x表示第x种特征向量在计算所述融合距离中所占的比重，d_x表示第x种特征对应的归一化距离，n表示特征的种类个数，其中x∈[1，2，..n]。

近邻图像集获取模块510在计算出与所有已标注图像的距离之后，选取融合距离d最小的前k个已标注图像作为待标注图像的视觉近邻图像，形成近邻图像集K，同时以所述近邻图像集K中的近邻图像的标签作为自动标注候选标签集。

计算模块520计算所述近邻图像集中的每一个图像在所述待标注图像重构过程中的权重值以及所述近邻图像集中的每一个图像在所述近邻图像集中的其他已标注图像重构过程中的权重值，根据所述权重值构建图像间的视觉依赖矩阵F。

计算模块520通过将所述待标注图像的特征向量f_I与重构向量

之间的二次范式值最小，计算所述近邻图像集中的每一个图像在所述待标注图像重构过程中的权重值。通过将已标注图像的特征向量

与重构向量

\arg \min | | f_{I} - \underset{j &Element; [1,2, . . ., k]}{Σ} ω_{j} f_{I_{j}} {| |}^{2}

使得ω_j≥0且∑ω_j＝1

其中，f_I为待标注图像I的特征向量，

为近邻图像集中的图像I_j的特征向量，j∈[1，2，...k]，近邻图像集包括图像{I₁，I₂，...，I_k}，ω_j为所述近邻图像集中的图像I_j在所述待标注图像重构过程中的权重值，反映了待标注图像I在视觉上对图像I_j的依赖关系。

计算模块520对上式进行最优化，获得所有的权重值ω_j，使得待标注图像I的特征向量f_I与重构向量

之间的二次范式值最小。

令

&Element; = | | f_{I} - \underset{j &Element; [1,2, . . . k]}{Σ} ω_{j} f_{I_{j}} {| |}^{2},

通过对ε进行如下的变换：

&Element; = | | f_{I} - \underset{j &Element; [1,2, . . . k]}{Σ} ω_{j} f_{I_{j}} {| |}^{2}

= | | \underset{j &Element; [1,2, . . . k]}{Σ} ω_{j} (f_{I} - f_{I_{j}}) {| |}^{2}

= \underset{i, j &Element; [1,2, . . . k]}{Σ} ω_{j} ω_{i} {(f_{I} - f_{I_{i}})}^{T} (f_{I} - f_{I_{j}})

= ω^{T} Hω

H_{i, j} = {(f_{I} - f_{I_{i}})}^{T} (f_{I} - f_{I_{j}}) .

ω向量表示的就是待标注图像对其近邻图像的视觉依赖关系。类似地，可以计算近邻图像集中每一个图像对于其他已标注图像的视觉依赖关系，具体的优化公式如下：

使得ω_j，h≥0且∑ω_j，h＝1

其中，为近邻图像集中的图像I_j的特征向量，

计算模块520根据求解出来的所述待标注图像及其近邻图像集对其他已标注图像的视觉依赖关系，可以构造出视觉依赖矩阵F。换言之，根据所述待标注图像及所述近邻图像集中的每一个图像在重构过程中的权重值构建视觉依赖矩阵F，

具体而言，ω_1，2为近邻图像集中的第二个图像I₂在近邻图像集中的第一个图像I₁重构过程中的权重值，ω_1，k-2为近邻图像集中的第k-2个图像I_k-2在近邻图像集中的第一个图像I₁重构过程中的权重值，ω_1，k-1为近邻图像集中的第k-1个图像I_k-1在近邻图像集中的第一个图像I₁重构过程中的权重值，ω_1，k为近邻图像集中的第k个图像I_k在近邻图像集中的第一个图像I₁重构过程中的权重值，ω_2，1为近邻图像集中的第一个图像I₁在近邻图像集中的第二个图像I₂重构过程中的权重值，ω_2，k-2为近邻图像集中的第k-2个图像I_k-2在近邻图像集中的第二个图像I₂重构过程中的权重值，ω_2，k-1为近邻图像集中的第k-1个图像I_k-1在近邻图像集中的第二个图像I₂重构过程中的权重值，ω_2，k为近邻图像集中的第k个图像I_k在近邻图像集中的第二个图像I₂重构过程中的权重值，ω_k-2，1为近邻图像集中的第一个图像I₁在近邻图像集中的第k-2个图像I_k-2重构过程中的权重值，ω_k-2，2为近邻图像集中的第二个图像I₂在近邻图像集中的第k-2个图像I_k-2重构过程中的权重值，ω_k-2，k-1为近邻图像集中的第k-1个图像I_k-1在近邻图像集中的第k-2个图像I_k-2重构过程中的权重值，ω_k-2，k为近邻图像集中的第k个图像I_k在近邻图像集中的第k-2个图像I_k-2重构过程中的权重值，ω_k-1，1为近邻图像集中的第一个图像I₁在近邻图像集中的第k-1个图像I_k-1重构过程中的权重值，ω_k-1，2为近邻图像集中的第二个图像I₂在近邻图像集中的第k-1个图像I_k-1重构过程中的权重值，ω_k-1，k-2为近邻图像集中的第k-2个图像I_k-2在近邻图像集中的第k-1个图像I_k-1重构过程中的权重值，ω_k-1，k为近邻图像集中的第k个图像I_k在近邻图像集中的第k-1个图像I_k-1重构过程中的权重值，ω_k，1为近邻图像集中的第一个图像I₁在近邻图像集中的第k个图像I_k重构过程中的权重值，ω_k，2为近邻图像集中的第二个图像I₂在近邻图像集中的第k个图像I_k重构过程中的权重值，ω_k，k-2为近邻图像集中的第k-2个图像I_k-2在近邻图像集中的第k个图像I_k重构过程中的权重值，ω_k，k-1为近邻图像集中的第k-1个图像I_k-1在近邻图像集中的第k个图像I_k重构过程中的权重值。

计算模块520计算近邻图像集中的任意两个图像的共有标签数量，根据所述共有标签数量和近邻图像集中的每一个图像的标签数量构建标签依赖矩阵C。

计算模块520根据图像间的统计关系估算图像间的标签依赖关系。首先计算所述标签依赖矩阵C的第i行第j列元素C_i，j，C_i，j为图像I_i对图像I_j的标签依赖量，表征图像I_i对I_j的标签依赖关系。

C_{i, j} = \frac{N (I_{i}, I_{j})}{N (I_{j})},

计算模块520根据所述标签依赖量C_i，j构建图像间的标签依赖矩阵C。

融合模块530将所述视觉依赖矩阵F和所述标签依赖矩阵C进行融合并通过随机游走得到稳定依赖关系矩阵A。

为了表征图像之间的综合依赖关系，融合模块530需要将计算得到的视觉依赖矩阵F和标签依赖矩阵C分别进行行归一化，然后融合，得到综合的图像依赖关系矩阵G。

G＝αF+(1-α)C

其中，α为调整因子，表示视觉依赖关系矩阵F在计算依赖关系矩阵G中的权重值，并用于决定视觉依赖和标签依赖的权重关系。在本发明的一个示例中，α取0.5左右。融合后的G矩阵需要进行行归一化。

a_{n} (i, j) = β \underset{q}{Σ} (a_{n - 1} (i, q) \times p_{q, j}) + (1 - β) G_{i, j}

a_{n} (i, j) = β \underset{q}{Σ} (a_{n - 1} (i, q) \times G_{q, j}) + (1 - β) G_{i, j}

改写为矩阵形式如下：

A⁽ⁿ⁾＝βA^(n-1)G+(1-β)G

A＝βAG+(1-β)G

可以解出稳定依赖关系矩阵A为：

A＝(1-β)G(E-βG)-1

有向图模型建立模块540以待标注图像和近邻图像集中的每一个图像作为节点，以所述稳定依赖关系矩阵A中元素作为有向边上的权重，构建针对所述待标注图像的有向图模型。

计算模块520计算候选标签集中的任意两个标签的词义相似度，根据所述标签词义相似度构建标签间的词义相似度矩阵Se。

计算模块520计算标签间的词义相似度矩阵Se的第i行第j列元素Se_i，j，Se_i，j为标签t_i和标签t_j的词义相似度，其中，t_i为候选标签集中的第i个标签，t_j为候选标签集中的第j个标签。在本发明的一个示例中，标签t_i和标签t_j之间的词义相似度Se_i，j可以通过基于WordNet的方法估算得到。Se_i，j的取值范围为[0，1]。可以理解的是，上述用WordNet仅出于示例的目的，而不是为了限制本发明的保护范围。

计算模块520根据上述得到的词义相似度Se_i，j构建所述标签间的词义相似度矩阵Se。

计算模块520计算所述候选标签集中的标签共生关系矩阵Co。标签间的共生关系体现的是标签在统计方面的相似度。

首先，计算模块520计算候选标签集中的标签共生关系矩阵Co的第i行第j列元素Co_i，j，Co_i，j为标签t_i和标签t_j之间的共生关系，

{Go}_{i, j} = \frac{Nt (t_{i}, t_{j})}{\min {Nt (t_{i}), Nt (t_{j})}}

其中，t_i为候选标签集中的第i个标签，t_j为候选标签集中的第j个标签，Nt(t_i，t_j)表示同时包含标签t_i和标签t_j的图像的数量，Nt(t_i)和Nt(t_j)分别表示包含标签t_i和标签t_j的图像的数量。计算模块520根据上述得到的共生关系Co_i，j构建所述标签间的共生关系矩阵Co。

为了表征标签之间的综合相似度，融合模块530需要将标签间的词义相似度矩阵Se和共生关系矩阵Co融合起来，得到综合的标签相似矩阵TT：

TT＝γSe+(1-γ)Co

其中γ为调整因子，表示词义相似度矩阵Se在计算所述标签相似矩阵TT中的权重值，用于决定词义相似度和共生关系之间的权重关系。在本发明的一个示例中，γ为0.6左右。

随机搜索模块550对近邻图像集获取模块510得到的候选标签集中的每一个候选标签在所述有向图模型进行非等概率随机搜索预测其得分，按照所述得分对所有候选标签进行排序，将得分高的前u个候选标签作为标注结果。

随机搜索模块550对于每一个候选标签，通过在有向图上的非等概率随机搜索估算其得分。设候选标签t_i的得分为r(t_i)，则其数学期望(即估算公式)为：

r (t_{i}) = \underset{I_{m} &Element; K}{Σ} (p (I_{m}) \times \max_{t_{j} &Element; Tag (I_{m})} {{TT}_{j, i}}),

下面对概率p(I_m)的计算过程进行描述。p(I_m)是通过多次由待标注图像出发的不同深度的非等概率随机搜索过程来估算得到的。

p(I_m)是通过多次由待标注图像出发的不同深度的非等概率随机搜索过程来估算得到的，其估算公式为：

p (I_{m}) = \frac{Σ_{d = 1}^{\infty} p (I_{m}, d)}{\underset{I_{n} &Element; K}{Σ} Σ_{d = 1}^{\infty} p (I_{n}, d)}

p (I_{m}, d) = \underset{I_{n} &Element; K}{Σ} (p (I_{n}, d - 1) \times (1 - &PartialD; (I_{n}, d - 1)) \times p (S (I_{n}) = I_{m}))

其中p(I_n，d-1)表示深度为d-1的随机搜索到达节点I_n的概率，

表示在节点I_n上深度为d-1的随机搜索不继续搜索后继节点的概率，p(S(I_n)＝I_m)表示在节点I_n上继续搜索后继结点时选中节点I_m的概率，该概率值即为A矩阵中的A_n，m。

概率值

的估计需要分如下几种情况讨论：

的估算公式为：

而

δ_{d - 1} = e^{- \frac{d - 1}{2}} \max_{t_{j} &Element; Tag (I_{n})} {{TT}_{j, i}}

θ_{d} = e^{- \frac{d}{2}} \underset{I_{q} &Element; K}{Σ} p (S (I_{n}) = I_{q}) \times \max_{t_{j} &Element; Tag (I_{q})} {{TT}_{j, i}}

其中，

表示图像I_n的所有标签与被预测标签相似度的最大值，p(S(I_n)＝I_q)表示图像I_n选择I_q作为后继搜索节点的概率，该概率可由稳定依赖关系矩阵A得到，即：

p(S(I_n)＝I_q)＝A_n，q

和：深度为d时随机搜索到达各个节点的概率向量P_d：

P_d＝(p(I₀，d)，p(I₁，d)，...，p(I_k，d))

则上面的公式转化为矩阵形式如下：

P_d＝P_d-1ψ_d-1A。

P = Σ_{d = 1}^{\infty} P_{d} = P_{1} E + P_{1} Σ_{D = 1}^{\infty} Π_{d = 1}^{D} (ψ_{d} A)

趋于稳定，从而P值也将趋于稳定。P₁是深度为1的随机搜索到达各个图像节点的概率所组成的向量，其估算由以下公式给出：

P₁＝P₀ψ₀A

在求解P的稳定值时，可设

P^{(W)} = P_{1} E + P_{1} Σ_{D = 1}^{W} Π_{d = 1}^{D} (ψ_{d} A),

通过逐渐增加W的取值可最终得到P的近似稳定值。

在求到稳定的P向量之后，则可由

p (I_{m}) = \frac{Σ_{d = 1}^{\infty} p (I_{m}, d)}{\underset{I_{n} &Element; K}{Σ} Σ_{d = 1}^{\infty} p (I_{n}, d)}

和

r (t_{i}) = \underset{I_{m} &Element; K}{Σ} (p (I_{m}) \times \max_{t_{j} &Element; Tag (I_{m})} {{TT}_{j, i}})

估算出每一个标签的得分。

随机搜索模块550通过非等概率随机搜索预测出所有候选标签的得分之后，根据得分对所有候选标签进行排序，将得分高的前u个候选标签作为标注结果。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解为在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同限定。

Claims

1.一种基于有向图非等概率随机搜索的图像自动标注方法，其特征在于，包括如下步骤：

输入待标注图像和已标注图像集，提取所述待标注图像的多个特征向量，根据所述多个特征向量计算所述待标注图像与所述已标注图像集中的每一个已标注图像的融合距离，并选取所述融合距离小的前k个已标注图像形成近邻图像集，所述近邻图像集中所有图像的标签作为候选标签集，其中，所述计算待标注图像与已标注图像集中的每一个已标注图像的融合距离，包括如下步骤：

基于所述待标注图像的多个特征向量的每一个，计算所述待标注图像与所述每一个已标注图像的对应特征向量的距离，

对与待标注图像的每种特征向量相对应的距离进行归一化处理，以得到归一化距离d_x；

根据所述待标注图像的每种特征向量在计算所述融合距离中所占的比重，将所述多种特征向量对应的归一化距离d_x进行融合，得到融合距离d，

d = Σ_{x = 1}^{n} w_{x} d_{x},

其中，d为融合距离，w_x表示所述待标注图像的第x种特征向量在计算所述融合距离中所占的比重，d_x表示第x种特征对应的归一化距离，n表示所述待标注图像的特征的种类个数，其中x∈[1,2，...n]；

计算所述近邻图像集中的每一个图像在所述待标注图像重构过程中的权重值以及所述近邻图像集中的每一个已标注图像在所述近邻图像集中的其他已标注图像重构过程中的权重值，根据所述权重值构建视觉依赖矩阵F，计算所述近邻图像集中的任意两个图像的共有标签数量，根据所述共有标签数量和所述近邻图像集中的每一个图像的标签数量构建标签依赖矩阵C，将所述视觉依赖矩阵F和所述标签依赖矩阵C进行融合和随机游走得到稳定依赖关系矩阵A，以所述待标注图像和近邻图像集中的每一个图像作为节点，以所述稳定依赖关系矩阵A的元素作为与所述节点相关联的有向边的权重，构建针对所述待标注图像的有向图模型；

计算所述候选标签集中的任意两个标签的词义相似度，根据所述标签词义相似度构建标签间的词义相似度矩阵Se，计算所述候选标签集中任意两个标签间的共生关系矩阵Co，将所述词义相似度矩阵Se和标签间的共生关系矩阵Co进行融合得到标签相似矩阵TT；和

对所述候选标签集中的每一个候选标签在所述有向图模型进行非等概率随机搜索以获得所述每一个候选标签的得分，按照所述得分对所有候选标签进行排序，将得分高的前u个候选标签作为标注结果。

2.如权利要求1所述的图像自动标注方法，其特征在于，所述计算所述近邻图像集中的每一个图像在所述待标注图像重构过程中的权重值，包括如下步骤：

通过使得所述待标注图像的特征向量f_I与重构向量

之间的二次范式值最小，计算所述近邻图像集中的每一个图像在所述待标注图像重构过程中的权重值，

\arg \min {| | f_{I} - \underset{j &Element; [1,2, . . ., k]}{Σ} ω_{j} f_{I_{j}} | |}^{2}

使得ω_j≥0且∑ω_j=1

其中，f_I为待标注图像I的特征向量，

为近邻图像集中的图像I_j的特征向量，j∈[1,2，...k]，所述近邻图像集包括图像{I₁,I₂,...,I_k}，ω_j为所述近邻图像集中的图像I_j在所述待标注图像重构过程中的权重值，K为近邻图像集，

所述计算所述近邻图像集中的每一个已标注图像在所述近邻图像集中的其他已标注图像重构过程中的权重值，包括如下步骤：

通过使得所述近邻图像集中的图像I_j的特征向量与重构向量

之间的二次范式值最小，计算所述近邻图像集中的每一个已标注图像在所述其他已标注图像重构过程中的权重值，

使得ω_j，h≥0且∑ω_j，h=1

其中，

为所述近邻图像集中的图像I_j的特征向量，

为所述近邻图像集中的图像I_h的特征向量，h∈[1,2,...,k]且h≠j，所述近邻图像集K包括图像{I₁,I₂,...,I_k}，ω_j，h为所述近邻图像集中的图像I_h在所述的近邻图像I_j重构过程中的权重值。

3.如权利要求2所述的图像自动标注方法，其特征在于，根据所述待标注图像及所述近邻图像集中的每一个图像在重构过程中的权重值构建视觉依赖矩阵F，

其中，ω₁为近邻图像集中的第一个图像I₁在所述待标注图像重构过程中的权重值，ω₂为近邻图像集中的第二个图像I₂在所述待标注图像重构过程中的权重值，ω_k-1为近邻图像集中的第k-1个图像I_k-1在所述待标注图像重构过程中的权重值，ω_k为近邻图像集中的第k个图像I_k在所述待标注图像重构过程中的权重值，

ω_i，j为所述近邻图像集中的第j个图像I_j在所述近邻图像集中的第i个图像I_i重构过程中的权重值，其中i∈[1,2,...k],j∈[1,2,...k]，当i＝j时，ω_i，j=0。

4.如权利要求3所述的图像自动标注方法，其特征在于，所述构建标签依赖矩阵C，包括如下步骤：

计算所述标签依赖矩阵C的第i行第j列元素C_i，j，C_i，j为图像I_i对图像I_j的标签依赖量，

C_{i, j} = \frac{N (I_{i}, I_{j})}{N (I_{j})},

其中，N(I_i,I_j)表示近邻图像集中的图像I_i和图像I_j共有的标签数量，N(I_j)表示已标注图像I_j的标签数量，j∈[1,2,...k]，近邻图像集K包括近邻图像{I₁,I₂,...,I_k}，I_i,I_j∈K；以及

根据所述标签依赖量C_i，j构建标签依赖矩阵C。

5.如权利要求4所述的图像自动标注方法，其特征在于，所述将视觉依赖矩阵F和所述标签依赖矩阵进行融合并通过随机游走得到稳定依赖关系矩阵A，包括如下步骤：

将所述视觉依赖矩阵F和所述标签依赖矩阵C进行融合得到依赖关系矩阵G，

G=αF+(1-α)C

其中，α为视觉依赖关系矩阵F在计算依赖关系矩阵G中的权重值；

对所述依赖关系矩阵G进行随机游走，得到稳定依赖关系矩阵A，

A=(1-β)G(E-βG)^-1，

其中，G为依赖关系矩阵，E为单位矩阵，β为所述依赖关系矩阵G中的每个权重值向后继节点传播的概率。

6.如权利要求5所述的图像自动标注方法，其特征在于，所述构建针对所述待标注图像的有向图模型，包括如下步骤：

以所述待标注图像和所述近邻图像集中的每一个图像作为节点，所述稳定依赖关系矩阵A的元素作为与所述节点相关联的有向边上的权重，构建针对所述待标注图像的有向图模型。

7.如权利要求1所述的图像自动标注方法，其特征在于，所述构建标签间的词义相似度矩阵Se，包括如下步骤：

计算所述标签间的词义相似度矩阵Se的第i行第j列元素Se_i，j，Se_i，j为标签t_i和标签t_j的词义相似度，其中,t_i为第i个候选标签，t_j为第j个候选标签；以及

根据所述词义相似度Se_i，j构建所述标签间的词义相似度矩阵Se。

8.如权利要求7所述的图像自动标注方法，其特征在于，所述计算所述候选标签集中任意两个标签间的共生关系矩阵Co，包括如下步骤：

计算所述任意两个标签间的共生关系矩阵Co的第i行第j列元素Co_i，j，Co_i，j为标签t_i和标签t_j之间的共生关系，

{Co}_{i, j} = \frac{Nt (t_{i}, t_{j})}{\min {Nt (t_{i}), Nt (t_{j})}}

其中，t_i为第i个候选标签，t_j为第j个候选标签，Nt(t_i,t_j)表示同时包含标签t_i和标签t_j的图像的数量，Nt(t_i)和Nt(t_j)分别表示包含标签t_i和标签t_j的图像的数量；以及

根据所述共生关系Co_i，j构建所述候选标签集中的标签间的共生关系矩阵Co。

9.如权利要求8所述的图像自动标注方法，其特征在于，所述将所述词义相似度矩阵Se和标签间的共生关系矩阵Co进行融合得到标签相似矩阵TT，

TT=γSe+(1-γ)Co，

其中，γ为所述词义相似度矩阵Se在计算所述标签相似矩阵TT中的权重值。

10.如权利要求9所述的图像自动标注方法，其特征在于，所述对每一个候选标签在所述有向图模型进行非等概率随机搜索预测所述每一个候选标签的得分，包括如下步骤：

计算所述每一个候选标签的得分期望r(t_i)，

r (t_{i}) = \underset{I_{m} &Element; K}{Σ} (p (I_{m}) \times \max_{t_{j} &Element; Tag (I_{m})} {{TT}_{j, i}}),

其中，I_m∈K，K为近邻图像集，p(I_m)表示非等概率随机搜索在图像节点I_m上返回的概率，

表示节点I_m附带的所有标签与候选标签相似度的最大值，

由所述标签相似矩阵TT计算得到，Tag(I_m)为I_m附带的所有标签。

11.一种基于有向图非等概率随机搜索的图像自动标注装置，其特征在于，包括：

近邻图像集获取模块，所述近邻图像集获取模块用于接收待标注图像和已标注图像集，提取所述待标注图像的多个特征向量，根据所述多个特征向量计算所述待标注图像与所述已标注图像集中的每一个已标注图像的融合距离，并选取所述融合距离小的前k个已标注图像形成近邻图像集，所述近邻图像集中所有图像的标签作为候选标签集，其中，所述近邻图像集获取模块基于所述待标注图像的多个特征向量的每一个，计算所述待标注图像与所述每一个已标注图像的对应特征向量的距离，对与待标注图像的每种特征向量相对应的距离进行归一化处理，以得到归一化距离d_x；根据所述待标注图像的每种特征向量在计算所述融合距离中所占的比重，将所述多种特征向量对应的归一化距离d_x进行融合，得到融合距离d，

d = Σ_{x = 1}^{n} w_{x} d_{x},

计算模块，所述计算模块用于计算所述近邻图像集中的每一个图像在所述待标注图像重构过程中的权重值以及所述近邻图像集中的每一个已标注图像在所述近邻图像集中的其他已标注图像重构过程中的权重值，根据所述权重值构建视觉依赖矩阵F，计算所述近邻图像集中的任意两个图像的共有标签数量，根据所述共有标签数量和所述近邻图像集中的每一个图像的标签数量构建标签依赖矩阵C，并且计算所述候选标签集中的任意两个标签的词义相似度，根据所述标签词义相似度构建标签间的词义相似度矩阵Se，计算所述候选标签集中的任意两个标签间的共生关系矩阵Co；

融合模块，所述融合模块用于将所述视觉依赖矩阵F和所述标签依赖矩阵C进行融合并通过随机游走得到稳定依赖关系矩阵A，以及将所述词义相似度矩阵Se和标签间的共生关系矩阵Co进行融合得到标签相似矩阵TT；

有向图模型建立模块，所述有向图模型建立模块用于以所述待标注图像和近邻图像集中的每一个图像作为节点，以所述稳定依赖关系矩阵A的元素作为与所述节点相关联的有向边的权重，构建针对所述待标注图像的有向图模型；和

随机搜索模块，所述随机搜索模块用于对所述候选标签集中的每一个候选标签在所述有向图模型进行非等概率随机搜索以获得所述每一个候选标签的得分，按照所述得分对所有候选标签进行排序，将得分高的前u个候选标签作为标注结果。

12.如权利要求11所述的图像自动标注装置，其特征在于，所述计算模块通过使得所述待标注图像的特征向量f_I与重构向量

\arg \min {| | f_{I} - \underset{j &Element; [1,2, . . ., k]}{Σ} ω_{j} f_{I_{j}} | |}^{2}

使得ω_j≥0且∑ω_j=1，

其中，f_I为待标注图像I的特征向量，

为近邻图像集中的图像I_j的特征向量，j∈[1,2,...k]，所述近邻图像集包括图像{I₁,I₂,...,I_k}，ω_j为所述近邻图像集中的图像I_j在所述待标注图像重构过程中的权重值，K为近邻图像集，

所述计算模块计算所述近邻图像集中的每一个已标注图像在所述近邻图像集中的其他已标注图像重构过程中的权重值，包括如下步骤：

通过使得所述近邻图像集中的图像I_j的特征向量与重构向量

使得ω_j，h≥0且∑ω_j，h=1

其中，

为所述近邻图像集中的图像I_j的特征向量，为所述近邻图像集中的图像I_h的特征向量，h∈[1,2,...,k]且h≠j，所述近邻图像集K包括图像{I₁,I₂,...,I_k}，ω_j，h为所述近邻图像集中的图像I_h在所述的近邻图像I_j重构过程中的权重值。

13.如权利要求12所述的图像自动标注装置，其特征在于，根据所述待标注图像及所述近邻图像集中的每一个图像在重构过程中的权重值构建视觉依赖矩阵F，

14.如权利要求13所述的图像自动标注装置，其特征在于，所述计算模块计算所述标签依赖矩阵C的第i行第j列元素C_i，j，C_i，j为图像I_i对图像I_j的标签依赖量，

C_{i, j} = \frac{N (I_{i}, I_{j})}{N (I_{j})},

其中，N(I_i,I_j)表示近邻图像集中的图像I_i和图像I_j共有的标签数量，N(I_j)表示已标注图像I_j的标签数量，j∈[1,2,...k]，近邻图像集K包括近邻图像{I₁,I₂,...,I_k}，I_i,I_j∈K；所述计算模块根据所述标签依赖量C_i，j构建标签依赖矩阵C。

15.如权利要求14所述的图像自动标注装置，其特征在于，所述融合模块将所述视觉依赖矩阵F和所述标签依赖矩阵C进行融合得到依赖关系矩阵G，

G=αF+(1-α)C

所述融合模块对所述依赖关系矩阵G进行随机游走，得到稳定依赖关系矩阵A，

A=(1-β)G(E-βG)^-1，

16.如权利要求15所述的图像自动标注装置，其特征在于，所述有向图模型建立模块以所述待标注图像和所述近邻图像集中的每一个图像作为节点，所述稳定依赖关系矩阵A的元素作为与所述节点相关联的有向边上的权重，构建针对所述待标注图像的有向图模型。

17.如权利要求11所述的图像自动标注装置，其特征在于，所述计算模块计算所述标签间的词义相似度矩阵Se的第i行第j列元素Se_i，j，Se_i，j为标签t_i和标签t_j的词义相似度，其中t_i为第i个候选标签，t_j为第j个候选标签；所述计算模块根据所述词义相似度Se_i，j构建所述标签间的词义相似度矩阵Se。

18.如权利要求17所述的图像自动标注装置，其特征在于，所述计算模块计算所述标签间的任意两个共生关系矩阵Co的第i行第j列元素Co_i，j，Co_i，j为标签t_i和标签t_j之间的共生关系，

{Co}_{i, j} = \frac{Nt (t_{i}, t_{j})}{\min {Nt (t_{i}), Nt (t_{j})}}

其中，t_i为第i个候选标签，t_j为第j个候选标签，Nt(t_i,t_j)表示同时包含标签t_i和标签t_j的图像的数量，Nt(t_i)和Nt(t_j)分别表示包含标签t_i和标签t_j的图像的数量；所述计算模块根据所述共生关系Co_i，j构建所述候选标签集中的标签共生关系矩阵Co。

19.如权利要求18所述的图像自动标注装置，其特征在于，所述融合模块将所述词义相似度矩阵Se和标签间的共生关系矩阵Co进行融合得到标签相似矩阵TT，

TT=γSe+(1-γ)Co，

20.如权利要求19所述的图像自动标注装置，其特征在于，所述随机搜索模块对每一个候选标签在所述有向图模型进行非等概率随机搜索预测所述每一个候选标签的得分，包括：计算所述每一个候选标签的得分期望r(t_i)，

r (t_{i}) = \underset{I_{m} &Element; K}{Σ} (p (I_{m}) \times \max_{t_{j} &Element; Tag (I_{m})} {{TT}_{j, i}}),

表示节点I_m附带的所有标签与候选标签相似度的最大值，