CN103955462B

CN103955462B - 一种基于多视图和半监督学习机制的图像标注方法

Info

Publication number: CN103955462B
Application number: CN201410108060.5A
Authority: CN
Inventors: 朱松豪; 陈玲玲; 李向向
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2014-03-21
Filing date: 2014-03-21
Publication date: 2017-03-15
Anticipated expiration: 2034-03-21
Also published as: CN103955462A

Abstract

本发明公开了一种基于多视图和半监督学习机制的图像标注方法，该方法包括以下步骤：基于不相关视觉特征的多视图分类器学习过程；基于标记样本和具有较高可信度伪标记样本的多视图分类器优化过程；基于最大熵投票原则和标注间相关性的多视图标注过程。本发明提出多视图半监督图像标注方法的性能明显优于之前提出的其它方案的性能，该方法的主要思想是：首先利用互不相关的视图来训练多个独立的分类器，然后利用初始标记样本和伪标记样本对视图分类器进行优化，最后基于最大熵投票原则以及各个标注间的相关性，为每幅未标记图像分配合适的语义标注。

Description

一种基于多视图和半监督学习机制的图像标注方法

技术领域

本发明涉及计算机图像处理技术领域，特别涉及一种基于多视图和半监督学习机制的图像标注方法。

背景技术

随着越来越多的数字图像出现在网络、个人电脑和数字采集设备上，要求采用基于内容分析技术实现有效组织和管理如此海量图像信息的愿望也愈来愈强烈。其中，图片标注是实现基于内容的图像索引、检索及其它相关应用的最重要和最关键的一步，其目的是要在底层的视觉信息和高层的语言描述间建立一种精确的对应关系。

近年来，研究者提出了各种各样解决图像标签方案。例如嵌入式深信度网络法、协方差判别法、双线性深度学习法、局部与全局信息法、可分离主成分分析法、图论法、二维多标签主动学习法、以及小波特征度量法、高阶统计法、稀疏编码法等等。这些现有的方法主要研究如何给图像分配合适的标签，以描述出图像的语义内容。图片标注是实现基于内容的图像索引、检索及其它相关应用的最重要和最关键的一步，其目的是要在底层的视觉信息和高层的语言描述间建立一种精确的对应关系。而本发明能够很好地解决上面的问题。

发明内容

本发明目的在于克服现有图像标注方法的不足，提供一种基于多视图和半监督学习机制的图像标注方法，该方法结合多视图学习和半监督学习理论，能更好的反映图像的视觉内容。

本发明解决其技术问题所采取的技术方案是：本发明提供了一种基于多视图学习机制和半监督学习机制的图像标注方法，该方法包括以下步骤：

方法流程：

步骤1：基于不相关视觉特征的多视图分类器学习过程；

从图像中提取小波纹理、颜色直方图和边缘方向直方图等足够多的互不相关的视图；

使用基于标记图像集合训练视图分类器。

步骤2：基于标记样本和具有较高可信度伪标记样本的多视图分类器优化过程；

得到视图下伪标记样本属于某个标注的概率：

利用高斯距离得到不同视图分类器间标注性能的差异值；

在任意两视图分类器标注性能差异值度量的基础上，得到所有视图分类器标注性能的差异值；

对于视图而言，当未标记样本间所有标注的一致度达到最大时，则基于视图的分类器集合的性能达到最优。

步骤3：基于最大熵投票原则和标注间相关性的多视图标注过程。

在所有语义标注中，语义标注列表中的第一个语义标注---类别标注，它从语义上描述了图像中主要的视觉内容；而标注列表上的其它标注则用以表示标注间的相关性。

因此，本发明的标注过程由如下两部分组成：1.类别标注的生成，它是在利用优化的多视图分类器产生标注结果的基础上，利用最大熵投票得到；2.利用相关性，依次得到标注列表中的其它标注。

附图说明

图1为本发明的方法流程图。

图2为Flickr图像集上的典型图像示意图。

图3为不同分类方法间的性能比较示意图。

图4为不同数量的标记样本和伪标记样本的组合下，不同分类方法间的性能比较示意图。

图5为本发明的实验结果示例图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明。

如图1所示，本发明提供了一种基于多视图和半监督学习机制的图像标注方法，该方法是首先从图像提取类似小波纹理、颜色直方图和边缘方向直方图等互不相关的视图特征，然后依据这些提取的视图进行视图分类器的训练，最后利用训练后的视图分类器对每个伪标记图像进行标记。已标记样本和部分具有较高可信度的伪标记样本对视图分类器进行优化，以得到标注性能优良的视图分类器；以优化后的视图分类器对未标记图像分配的标注为基础，使用最大熵投票原则和标注间的相关性，得到优化的标注结果。

本发明的基于多视图学习机制和半监督学习机制的图像标注方法的一个优选实施方式，具体包括以下步骤：

步骤1：基于不相关视觉特征的多视图分类器学习过程

1、像中提取小波纹理、颜色直方图和边缘方向直方图等足够多的互不相关的视图；

2、于标记图像集合{x₁,x₂,…,x_l,…,x_L}训练第V个视图分类器h_v：

h_v:x_lv→y_k,l∈(1,L),v∈(1,V),y_k∈Y (1)

步骤2：基于标记样本和具有较高可信度伪标记样本的多视图分类器优化过程

设p_uv ^k表示第v个视图中伪标记样本x_(L+u)属于第k个标注的概率值：

使用下列公式计算出第v个视图中伪标记样本x(L+u)属于第k个类别的概率值：

本发明采用高斯距离度量不同视图分类器间标注性能的差异性。设p_uv={p_uv ¹,p_uv ²,…,p_uv ^k,…,p_uv ^K}为伪标记图像x_(L+u)属于第v个视图中各个类别的概率，则任意一伪标记图像x_(L+u)在两个视图分类器h_v和h_v'之间的差异值可由下式求得：

在任意两视图分类器标注性能差异值度量的基础上，所有视图分类器标注性能的差异值可表示为：

对于视图v而言，当未标记样本间所有标注的一致度达到最大时，则基于视图v的分类器集合h(_v)}的性能达到最优，本发明提出的多视图半监督分类器的优化过程如下所述：利用标记图像以及伪标记图像对每个视图分类器进行迭代训练，直到训练后伪标记图像集合间标注的差异值不再减小。多视图半监督分类器优化过程如下所示：

由上述迭代优化训练过程而知，当成对的伪标记图像在视图分类器上具有明显的差异时，则将这对伪标记图像加入到标记图像集合中；然后，再用新生成的标记图像集去训练视图分类器，从而提高对未标注图像分配合适标签的预测性能。

对每幅图像，本发明依据图像内容分配语义标注。在所有语义标注中，语义标注列表中的第一个语义标注---类别标注，它从语义上描述了图像中主要的视觉内容；而标注列表上的其它标注则用以表示标注间的相关性。因此，本发明的标注过程由如下两部分组成：1.类别标注的生成，它是在利用优化的多视图分类器产生标注结果的基础上，利用最大熵投票得到；

2.利用相关性，依次得到标注列表中的其它标注。

1.类别标注的生成过程

对每个未标注图像，采用最大熵投票原则产生第一个标注，即类别标注。

设l_qv ^k表示在视图v中，将标注k分配给未标记图像集合{x₁,x₂,…,x_q,…,x_Q}的x_q的情况，p_qv ^k表示标注概率集合p_qv中的最大值：

本发明利用最大熵投票原则度量视图分类器标注结果的正确度：

其中，vt(l_q(.) ^k)表示在视图v中，将标注k分配给未标记图像x_q的投票数目。

如果分配给未标记图像x_q的标注是得票数最多的标注，则下面的不等式是正确的：

VE_q≥μ-φ^-1(α)×δ (8)

其中，Φ表示分配给未标记图像标记结果的标准正态分布，如公式(9)所示；μ和σ分别表示标准正态分布的期望和方差；β表示差异值的置信度。

2.其余标注的生成过程

在类别标注的基础上，利用如公式(10)所示的标注间的相关性依次得到标注列表中的其它标注：

其中，num(y_i)和num(y_j)分别表示包含标注y_i和标注y_j的图像数目，num(y_i,y_j)表示同时包含标注y_i和y_j的图像数目。

为了更好反映图像的视觉内容，本发明所选用的图片集包含50,000张来自图像共享网站Flickr的图片，这些图片均是通过关键字检索得到，如鸟、熊、猫、花、狐狸、飞机、树、火车、天空和夕阳等。根据感兴趣的程度来对每幅检索图像的相关标注进行排名，把每种类型检索标签的前5000幅图像和它们的相关信息（包括标签、上传时间、位置等）收集到一起。图2显示了与“鸟”和“夕阳”这两个查询关键字相关的一些典型图像。由这两个例子可以看到很多标注有拼写错误或有些标注无任何意义，因此有必要对标注进行优化：只有与维基百科中的词汇匹配时，才能将对应的标注保留下来。本发明对50,000张图片的标注进一步优化后，最终得到共计17226个标注。

从图像集中随机选择24000幅图像作为训练集，并将其余的26000幅图像作为测试集。为得到每幅图像的真实标注集，本发明邀请了10位志愿者依次查看每幅图像，并给出每幅图像的详尽标注；然后，每幅图像的真实标注集则为所有给定标注的交集。

由于特征选择将会对最终的标注结果产生很大影响，所以几十年来特征选择问题已成为识别领域的研究热点。本发明提取包括颜色、纹理、语义描述和文本特征等在内的作为图像的视觉描述符：

HSV空间的128维的颜色直方图，其中色调8个区、饱和度4个区和亮度个区；来自HSV空间的44维的自相关图；

来自LAB空间的225维的颜色块矩阵，在将图像分为5×5网格的基础上，从每个块中提取一个9维块矩阵描述符；

来自HSV空间的18维的边缘直方图，其中在水平和竖直方向分别提取一个9维边缘直方图；

来自6级Harr变换的36维的金字塔小波纹理，其中每级由一个6维特征描述：系数在高/高、高/低、和低/高频段的均值和方差；

来自尺度不变特征变换的词库。

本发明采用归一化的累积收益折扣(Normalized Discounted Cumulative Gain，NDCG@s)作为图像标注质量的评估指标：

其中，Γ表示标注列表上标注s的归一化因子，用以确保NDCG@s的值为1；rel(i)表示标注列表中第i处标注的关联性。

在本发明中，将NDCG@s相关性分为五个层次：最相关的是5，相关的是4，部分相关的是3，弱相关的是2和不相关的是1。本发明的NDCG@s评价标准计算过程为：首先计算每幅未标记图像的NDCG@s，然后将未标记图像集NDCG@s的均值作为性能评估的最终度量标准。

为模拟半监督学习过程，本发明将训练集分为两个子集：一个子集为标注集，其标记为已知的；另一子集为伪标注集，其标记为隐藏的。

随机地选择两个训练子集的数量，每次实验重复50次。本发明的标注训练子集的数量分别选为1000、2000、5000和10000。在每次选择时，保持各个类别间的比例类似于训练集中各个类别的比例。

图3给出了四种不同标注方法的实验对比结果，此时的训练集包含1000幅标记样本和23000伪标记样本，NDCG@s的评价指标是在对训练样本进行50次随机分割和所有十个类别的标注实验后得到的平均值。

从图3中可以清楚地看出，本发明所提的的多视图半监督标注方法优于有监督单视图的标注方法SVS、半监督单视的标注方法SSVS以及半监督多视图的标注方法SSMV。这种改进从下面两个方面印证了本发明所提方法的思路：1.通过将高可信度的伪标记图像对添加到标记图像集中而生成新的标记图像集，对分类器进行迭代训练，以改善分类器的性能；2.在训练阶段和测试阶段同时利用多视图的特征，有利于标注性能的改善。

图4给出了在不同数量的标记样本和伪标记样本的组合下，不同标注方法间的性能比较。图5给出了上述实验结果的示例图。

Claims

1.一种基于多视图和半监督学习机制的图像标注方法，其特征在于，包括以下步骤：

步骤1：基于不相关视觉特征的多视图分类器学习过程；

从图像中提取小波纹理、颜色直方图和边缘方向直方图的互不相关的视图；

使用基于标记图像集合训练视图分类器；

得到视图下伪标记样本属于某个标注的概率：

利用高斯距离得到不同视图分类器间标注性能的差异值；

对于视图而言，当未标记样本间所有标注的一致度达到最大时，则基于视图的分类器集合的性能达到最优；

步骤3：基于最大熵投票原则和标注间相关性的多视图标注过程；

在所有语义标注中，语义标注列表中的第一个语义标注---类别标注，它从语义上描述了图像中主要的视觉内容；而标注列表上的其它标注则用以表示标注间的相关性；

所述方法的标注过程包括：类别标注的生成，是在利用优化的多视图分类器产生标注结果的基础上，利用最大熵投票得到；利用相关性，依次得到标注列表中的其它标注。