CN102119389A

CN102119389A - 使用语义距离学习的自动图像注释

Info

Publication number: CN102119389A
Application number: CN2009801317069A
Authority: CN
Inventors: T·梅; X-S·华; S·李; Y·王
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2008-06-11
Filing date: 2009-06-11
Publication date: 2011-07-06
Anticipated expiration: 2029-06-11
Also published as: WO2009152390A2; US7890512B2; CN102119389B; WO2009152390A3; US20090313294A1; EP2310956A2; EP2310956A4

Abstract

图像使用语义距离学习来自动注释。手动注释训练图像并将其划分成语义聚类。对于这些聚类学习语义距离函数(SDF)。使用对应于每一个聚类的SDF来计算新图像和聚类中的每一个图像之间的语义距离分数。使用对应于每一个聚类的分数来生成根据聚类中的每一个图像离新图像的语义距离来对该训练图像进行排序的排序列表。为每一个聚类估算关联概率，该关联概率指定新图像在语义上与聚类相关联的概率。从对每一个聚类中的图像的手动注释中生成对新图像的聚类专用概率性注释。使用对应于所有聚类的关联概率和聚类专用概率性注释来生成对新图像的最终注释。

Description

使用语义距离学习的自动图像注释

背景

近年来数字成像技术的快速进步导致图像捕捉和显示设备的成本的显著降低，以及这些设备的普及度的对应的增长。例如，图像捕捉功能现在以诸如移动电话、数码相机、摄像头等各种不同的形式在大众市场层面对消费者可用。另外，膝上型计算机现在也具有集成摄像头。结果，近年来捕捉到的数字图像的数量已增长至空前水平。随之而来的数据存储和网络通信技术的进步使得大众市场消费者经济地存储图像数据并将其传递给其他人成为可能。现在也存在各种各样的大众市场软件应用，这些软件应用方便地向消费者提供出于各种不同的目的来查看、操纵和共享该图像数据的能力。

概述

提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

此处所描述的自动图像注释(AIA)技术实施例通常能够使用语义距离学习来自动注释图像。在一示例性实施例中，提供了一种自动注释新图像的技术。首先输入训练图像集，其中新图像不在该训练图像集中。然后用关键字注释向量来手动注释每一个训练图像。然后将该训练图像集划分成训练图像的多个语义聚类，其中每一个聚类包含在语义上相似的训练图像并且每一个训练图像被划分到单个聚类中。然后对于每一个聚类学习语义距离函数(SDF)。然后使用对应于每一个聚类的SDF来计算新图像和聚类中的每一个训练图像之间的成对基于特征的语义距离分数，以产生对应于该聚类的成对基于特征的语义距离分数集，其中该集合中的每一个基于特征的分数指定对新图像和聚类中的特定训练图像之间的直观语义距离的度量。然后使用对应于每一个聚类的成对基于特征的语义距离分数集来为该聚类生成排序列表，该排序列表根据聚类中的每一个训练图像离新图像的直观语义距离来对该训练图像进行排序。然后为每一个聚类估算聚类关联概率，该关联概率指定新图像在语义上与聚类相关联的概率。对于每一个聚类，然后将对聚类中的每一个训练图像的关键字注释向量概率性地传播至新图像，从而产生对该新图像的聚类专用概率性注释向量。最终，使用对应于所有聚类的聚类关联概率和聚类专用概率性注释向量来生成对新图像的最终关键字注释向量。给定已经由此处所描述的AIA技术注释的图像的数据库，当用户期望搜索该数据库并从中检索包含特定视觉特征的特定图像时，可使用为图像生成的关键字注释，通过将图像搜索/检索过程转换成基于文本的关键字搜索/检索过程来提高图像检索过程的效率和精确度。

此处所描述的语义相对比较分数(RCS)技术实施例通常提供比较两个不同的AIA算法的注释精确度的方法。在一示例性实施例中，提供了一种比较两个不同的AIA算法的注释精确度的技术。输入图像集。然后手动地将地面真值关键字注释应用于集合中的每一个图像。然后使用第一AIA算法来为集合中的每一个图像生成第一关键字注释，并且使用第二AIA算法来为集合中的每一个图像自动生成第二关键字注释。然后，计算指定对第一关键字注释和地面真值关键字注释之间的语义距离的度量的第一成对语义距离分数，并且计算指定对第二关键字注释和地面真值关键字注释之间的语义距离的度量的第二成对语义距离分数。最终，生成语义相对比较分数，该分数通过首先确定集合中的对于其第一分数小于第二分数的图像的数量并且然后将该图像数除以集合中的图像总数，来比较第一和第二AIA算法的注释精确度。

除了刚才描述的好处之外，从结合附图所考虑的以下详细描述中，此处所描述的AIA技术和语义RCS技术实施例的其它优点将变得显而易见。

附图说明

参考以下描述、所附权利要求书以及附图，将更好地理解此处所描述的自动图像注释(AIA)技术和语义相对比较分数(RCS)技术实施例的具体特征、方面和优点，附图中：

图1以简化形式示出了用于使用语义距离学习的AIA的多阶段过程的示例性实施例的图示。

图2A-2C以简化形式示出了用于自动注释新图像的过程的示例性实施例。

图3以简化形式示出了用于比较两个不同的AIA算法的注释精确度的过程的示例性实施例。

图4以简化形式示出了构成用于实现此处所描述的AIA技术实施例的示例性系统的基于网络的通用计算设备的示例性实施例的图示。

图5示出了比较由三个不同的图像注释算法应用于共同图像的关键字注释的表格。

详细描述

在以下对自动图像注释(AIA)技术和语义相对比较分数(RCS)技术实施例的描述中，对附图进行了参考，附图构成了实施例的一部分且在其中作为说明示出了可在其中实践该技术的具体实施例。可以理解，可以使用其它实施例并且可以做出结构上的改变而不背离AIA技术和语义RCS技术实施例的范围。

1.0 使用语义距离学习的AIA的概览

如在数字图像处理技术中所理解的，图像注释一般指用于用描述图像中的一个或多个低级视觉特征(下文中简称为特征)的文本关键字(下文中简称为关键字形式的元数据来标记(下文中称为注释)图像的方法。另外，AIA一般指用于为特定图像自动生成这些关键字元数据标签(下文中称为关键字注释或简称为注释)的方法。本节提供了对AIA技术实施例的基本概览。

手动注释的训练图像集T可由等式

来给出，其中x_i是描述第i个训练图像(下文中表示为TI_i)中的特征的特征向量，而n是

中的训练图像的总数。已经手动地应用于

中的每一个训练图像的相关联的关键字注释集A可由等式

来给出，其中t_i是已经手动应用于TI_i的关键字注释向量。注意，该关键字注释集A在此被认为是对训练图像的地面真值注释。给定其中词汇表中的每一个关键字描述不同的特征的规定的关键字词汇表，用词汇表中的第j个关键字来注释TI_i的概率t_i(j)可如下给出。如果TI_i用词汇表中的第j个关键字来注释，则t_i(j)＝1，否则t_i(j)＝0。

如在图像注释技术中所理解的，特定图像可以用单个关键字或多个关键字来注释。在对特定训练图像应用多个关键字注释的情况下，应用于该图像的关键字注释的总数一般相对较小。在AIA技术的已测试实施例中，

中的每一个训练图像都用一到五个不同的关键字来手动注释，并且对关键字词汇表采用常规Corel关键字数据库。一般而言，此处所描述的AIA技术实施例使用语义距离学习来自动生成对不在

中的新图像的关键字注释向量w。将词汇表中的第j个关键字关联到新图像的概率w(j)可由等式w(j)∈[0，1]来给出。

图1以简化形式示出了用于使用语义距离学习的AIA的多阶段过程的示例性实施例的图示。如图1所描绘的，该过程一般包括学习阶段100，之后是新图像注释阶段102。数据库104存储用于以上提到的手动注释的训练图像集及其相关联的关键字注释集A的数字图像数据。

再次参考图1，学习阶段100一般如下操作。首先，语义聚合阶段106将数据库104中的训练图像集划分成多个训练图像语义聚类108/112，其中每一个语义聚类包含在语义上相似的训练图像。换言之，语义聚合阶段106用于将整个语义空间划分成多个语义子空间。注意，语义聚合阶段106操作以使得数据库104中的每一个训练图像都被划分到单个语义聚类108/112中。一旦完成语义聚合阶段106，语义距离函数(SDF)学习阶段114就学习对应于每一个训练图像语义聚类108/112的SDF f⁽ⁱ⁾ 116/120，其中f⁽ⁱ⁾是为第i个训练图像语义聚类学习的SDF。一般而言，习得的SDF f⁽ⁱ⁾测量第i个语义聚类中的训练图像对之间的语义相似度。

再次参考图1，一旦学习阶段100已经完成，新图像注释阶段102就一般地如下操作。可以用以下方式自动地注释不在数据库104中的手动注释的训练图像集

中的新图像122。首先，对于每一训练图像语义聚类108/112，图像排序阶段124一般如下操作。可以使用聚类108/112的所学习的SDF f⁽ⁱ⁾ 116/120来计算新图像122和聚类中的每一训练图像之间的成对基于特征的语义距离分数，以产生该聚类的成对基于特征的语义距离分数集。分数集中的每一基于特征的分数指定对新图像122和聚类108/112中的特定训练图像之间的直观语义距离的度量。然后，可以使用该分数集来生成排序列表126/130，排序列表126/130根据聚类108/112中的每一训练图像与新图像122的直观语义距离对聚类108/112中的每一训练图像进行排序。然后，可以估算每一聚类108/112的指定新图像在语义上与聚类相关联的概率的聚类关联概率p(i) 110/118。一旦图像排序阶段124已经完成，对于每一训练图像语义聚类108/112，注释传播阶段132一般如下操作。将聚类108/112中的每一训练图像的关键字注释t_i概率性地传播到新图像122，以产生新图像的聚类专用概率性注释向量w⁽ⁱ⁾ 134/138。然后，通过使用每一训练图像语义聚类108/112的聚类关联概率p(i) 110/118来组合140来自所有聚类的聚类专用概率性注释向量w⁽ⁱ⁾ 134/138，可以生成新图像142的最终关键字注释向量w。

再次参考图1，现在将提供语义聚合阶段106、SDF学习阶段114、图像排序阶段124和注释传播阶段132的示例性实施例的详细描述。将可从以下的详细描述明白，由于多种原因，在此描述的AIA技术实施例是有益的，这些原因包括但不限于以下原因。AIA技术实施例并非简单地基于高维欧几里得空间中的图像之间的视觉相似性来判断图像之间的语义相似性。相反，AIA技术实施例基于作为整体取得的图像关键字注释t_i来判断图像之间的语义相似性。因而，AIA技术实施例改近新图像142的最终关键字注释w的精确度，这是因为由错误匹配(即视觉上相似但语义上不相似的两个图像)所引入的注释“噪声”并不传播通过学习阶段100和新图像注释阶段102。此外，为新图像142生成的最终关键字注释w在语义上相干。在下文中描述AIA技术实施例的另外的优点。

2.0 学习阶段

再次参考图1，本节提供上述AIA技术的学习阶段100及其相关联的两个阶段106/114的示例性实施例的详细描述。

2.1 训练图像的语义聚类

本节提供上述AIA技术的语义聚合阶段的示例性实施例的详细描述。重要的是要注意，欧几里得空间中特定图像集之间的视觉相似性并不必定意味着图像在语义上相似。相应地，语义空间中特定图像集之间的语义相似性并不必定意味着图像在欧几里得空间中是视觉上相似的。可以通过下列示例来阐释此现象。给定三个图像的集合，第一图像是太阳的望远镜彩色图像，该图像被过滤为将太阳描述为红橙色的“火球”，第二图像是单独的、完全成熟的(即红橙色的)桃子的特写彩色图像，且第三图像是多个半成熟的桃子中的一个半成熟的(即部分绿色、部分红橙色)桃子的特写彩色图像，第二图像和第三图像在语义上相似但是视觉上不相似。相应地，第一图像和第二图像视觉上相似但语义上不相似。如果仅使用欧几里得空间中的视觉相似性来比较这三个图像，第一图像和第二图像将错误匹配，因而将前述的“噪声”引入到这些图像的关键字注释中，并降低它们的注释的精确度。

还重要的是要注意，包含不同的语义的图像可以具有不同的语义相似度。可以通过下列示例来阐释此现象。给定包括关键字摩托车和天空的关键字词汇表以及不同类型的摩托车的彩色图像的集合，作为这些摩托车图像的关键字注释，形状特征比颜色特征或纹理特征更能提供信息。另一方面，给定相同的关键字词汇表和天空中的不同类型和结构的散云的彩色图像的集合，作为这些云/天空图像的关键字注释，颜色特征和纹理特征更能提供信息。

为了解决前述的现象，再次参考图1，语义聚合阶段106首先将该训练图像集划分成多个训练图像语义聚类108/112，其中每一语义聚类包含语义上相似的训练图像，且将每一训练图像被划分到单个聚类中，而不是仅学习100数据库104中的手动注释的训练图像集

的单个语义相似性。给定数据库104中的训练图像集

的前述的关键字注释集可以假设每一训练图像的语义可以由图像的关键字注释向量t_i表示而非由其特征向量x_i表示。可以做出此假设是因为在语义空间中关键字词汇表驻留在比特征更高的层面。给定数据库104中的每一训练图像的关键字注释t_i包括相对少量的关键字的前述事实，可以使用成对邻近度聚合技术来将训练图像集划分成多个训练图像语义聚类108/112，成对邻近度聚合技术基于由手动地应用的每一训练图像的关键字注释t_i指示的语义一般地比较

中的训练图像的每一可能对并测量其间的语义相似度。更具体地，此成对邻近度聚合技术计算数据库104中的训练图像的每一可能对之间的成对基于注释的语义距离分数SD()，其中每一分数SD()指定用于训练图像的特定对之间的直观语义距离的度量。在此描述的AIA技术实施例采用两步聚合方法，现在将详细描述其示例性实现。

给定第一训练图像TI₁和第二训练图像TI₂，第一训练图像TI₁已经用第一关键字注释向量手动地注释，第一关键字注释向量由

给出，其中n₁是a中的关键字的总数，第二训练图像TI₂已经用第二关键字注释向量手动地注释，第二关键字注释向量由给出，其中n₂是b中的关键字的总数，则TI₁和TI₂之间的直观语义距离可以由D(TI₁，TI₂)给出。对应的指定对D(TI₁，TI₂)的度量的成对基于注释的语义距离分数SD()由SD(a，b)给出，SD(a，b)可以由以下等式递归地计算：

SD (a, b) = \frac{1}{2 n_{1}} Σ_{i = 1}^{n_{1}} \min_{j} SD (a_{i}, b_{j}) + \frac{1}{2 n_{2}} Σ_{j = 1}^{n_{2}} \min_{i} SD (a_{i}, b_{j}), - - - (1)

其中SD(a_i，b_j)是指定对关键字a_i和b_j的特定对之间的语义距离的度量的成对基于注释的语义距离分数。换言之，等式(1)相对于其他关键字注释向量中的特定关键字寻找一个关键字注释向量中最接近的关键字。在AIA技术的经测试的实施例中，将常规的WordNet语义词典数据库中的常规的Jiang和Conrath(JCN)关键字相似性度量JCN()用于SD()。然而，应注意，JCN(a_i，b_j)可以具有范围为从0到无穷大的值。为解决此情况，可以使用以下等式来将JCN(a_i，b_j)变换成具有范围为从0到1的值的成对基于注释的语义距离分数SD(a_i，b_j)：

应注意，由等式(2)给出的值变换由关键字a_i和b_j的各种对之间的JCN相似性度量距离JCN(a_i，b_j)的经验调查所推动。更具体地，如WordNet数据库领域中所明白的，其JCN相似性度量距离值小于0.06的关键字对很少是相关的(例如，苹果/浴室＝0.051和地球/灯塔＝0.059)。对于这样的关键字对，等式(2)将SD(a_i，b_j)设置为最大的可能值1。对于其JCN相似性度量距离值等于0.1的关键字对，等式(2)将SD(a_i，b_j)设置为0.6。对于带有其他JCN相似性度量距离值的关键字对，等式(2)通过拟合考虑了各对的连续性的正弦函数来计算SD(a_i，b_j)。

因而，给定前述的训练图像集

的前述的关键字注释集

可以使用等式(1)和(2)来计算

中的训练图像的每一可能对之间的成对基于注释的语义距离分数SD()。此技术得到

的成对基于注释的语义距离分数集，其中每一分数SD()指定对训练图像的特定对之间的直观语义距离的度量。然后，可以如下使用此分数集来将

中的训练图像划分成语义聚类。

应注意，各训练图像对之间的直观语义距离不是度量测量，这是因为三角不等式定理不成立。因而，不能以保持各训练图像对之间的直观语义距离的绝对值的方式自然地将训练图像嵌入到向量空间中。因而，诸如k-means算法等的常规的聚合方法不能被它们自己用于语义聚合阶段。然而，由于目标是简单地在语义上聚合成对基于注释的语义距离分数SD()，所以不需要保持各训练图像对之间的直观语义距离的绝对值。因而，以保持各训练图像对之间的直观语义距离的绝对值的方式自然地将训练图像嵌入到向量空间中是不必要的。

如图像注释领域中所明白的，诸如k-means算法等的在各训练图像对之间的直观语义距离的加法移位下不变的任何常规的聚合方法，可以重新用公式表示成欧几里得空间中的分组任务。因而可以采用常规的恒定移位嵌入架构来将

中的训练图像嵌入到欧几里得向量空间中，其中此架构可以保持聚类结构。然后，可以采用常规的x-means算法(该算法是k-means算法的变体)来基于该成对基于注释的语义距离分数集将嵌入到欧几里得向量空间中的训练图像分组成H个不同的语义聚类。应注意，x-means算法自动地确定H的最优值。还应注意，从数据可视化的视角来看，将训练图像嵌入到欧几里得向量空间中是有益的，这是由于存在用于欧几里得空间的许多常规的聚合算法。

再次参考图1，应注意，语义聚合阶段106是有益的，这是由于其将每一训练图像104的关键字注释向量t_i作为整个实体而考虑而非个别地考虑每一关键字(即独立于向量t_i中的其他关键字)，且因而其还考虑了关键字注释间固有的语义相干性。换言之，语义聚合阶段106将每一训练图像104的关键字注释向量t_i作为相干语义实体而非作为个体关键字而传播。作为示例而非限制，关键字室内和天空不太可能会作为注释而一起应用到典型的图像。然而，如果个别地考虑这两个关键字，它们两者都可以最终被注释到相同的图像。作为进一步的示例，较好的是，用语义上相似的关键字猫来注释老虎的图像而非用关键字花园来注释此图像，即使此注释(关键字猫)不是对该图像的可视内容的准确匹配。结果，在此描述的AIA技术实施例是有益的，这是由于自动地为新图像122生成的关键字注释向量w 142包含语义上相干的单词。AIA技术实施例进一步是有益的，这是由于它们允许所采用的关键字词汇表在大小方面的灵活性。

2.2 学习语义聚类的SDF

本节提供AIA技术的前述的SDF学习阶段的示例性实施例的详细描述。重要的是要注意，为了可以生成精确的图像注释，一般地必须具有精确地测量图像之间的语义相似度的良好距离函数。一般而言，且再次参考图1，SDF学习阶段114通过采用映射过程来学习每一训练图像语义聚类108/112的SDF f⁽ⁱ⁾ 116/120，该应用映射过程将聚类中的训练图像中的特征映射到各图像对之间的基于特征的语义距离分数(在此称为成对基于特征的语义距离分数)。现在将提供此映射过程的示例性实施例的详细描述。首先，将描述一般SDF学习算法的示例性实施例。然后，将描述用于学习具体的训练图像语义聚类的SDF的算法的示例性实施例。应注意，在以下这些描述中，图像由它们的特征向量标识。因而， 104中的给定的训练图像TI_i由其特征向量x_i标识，且不在

中的新图像122由其特征向量y标识。

给定前述的n个手动注释的训练图像集

和已经手动地应用到

中的每一图像的相关联的关键字注释集

如迄今为止所描述的，训练图像x_i和x_j的特定对之间的直观语义距离可以由D(x_i，x_j)给出。SDF学习阶段的一般目标是学习

的由

给出的SDF，

与中的各训练图像对之间的地面真值直观语义距离D()一致。在AIA技术的示例性实施例中，可以通过使用由以下等式给出的最小二乘回归来学习SDF

其中q()表示要学习的目标距离函数。然而，等式(3)遭受它是基于“硬”成对直观语义距离约束条件的这一事实。给定包含受限数量的训练数据这一事实以及

中的图像的特征x_i是高维的这一事实，使用等式(3)来学习SDF

往往过拟合。一种解决此情况的方法是将等式(3)中的成对直观语义距离约束条件“软化”成以下松散相对比较约束：

x_j比x_k更接近x_i (4)

这使得生成中的训练图像的排序次序而非尝试保持它们的成对直观语义距离D()的绝对值。

应注意，经由由等式(4)给出的松散相对比较约束学习SDF

允许容易地将在此描述的AIA技术实施例扩展成合并诸如弱标记训练数据等的由相对比较关系标记的其他数据。此外，如图像注释领域中所明白的，相比于定量比较约束(例如，A和B之间的距离是0.05而A和C之间的距离是0.08)，这样的相对比较约束(例如，A和B之间的距离小于A和C之间的距离)更为符合人对语义相似性的感知。

给定前述的手动注释的训练图像集

松散相对比较约束集S可以由等式给出：

S＝{(x_a，x_b，x_c)；x_b比x_c更接近x_a} (5)

其中(x_a，x_b，x_c)指示

中的训练图像的所有可能的三元组。给定

中具有特征向量x的特定训练图像以及不在

中的具有特征向量y的新图像，用于这两个图像之间的直观语义距离D(x，y)的度量可以由以下等式给出：

f (x, y) = \sqrt{{(x - y)}^{T} AW A^{T} (x - y)} - - - (6)

其中W是带有非负元素的对角矩阵且A是规定的变换矩阵。f(x，y)等效于经线性变换的数据点A^Tx和A^Ty之间的加权欧几里得距离。在其中AW A^T等于单位矩阵的特殊情况中，f(x，y)将等于各原始数据点之间的欧几里得距离。矩阵A确定如何变换各原始数据点。由于线性变换一般地在其可以支持的函数复杂性方面受到限制，可以采用以下核方法来获得非线性变换。

假定存在将给定的特征向量映射到非常高维的向量的映射函数φ()，变换矩阵A可以由等式A＝[φ(x₁)，φ(x₂)，...，φ(x_n)]定义，且然后，f(x，y)的“核化(kernelized)”版本由以下等式给出：

f (x, y) = \sqrt{Σ_{i = 1}^{n} W_{ii} {(K (x, x_{i}) - K (y, x_{i}))}^{2}} - - - (7)

其中核K(x，y)可以由等式K(x，y)＝φ(x)φ(y)给出。应注意，此核K()的使用暗示等式(6)中的A的特定选择，且等式(7)中要学习的各参数是W的对角元素。由等式(7)给出的f(x，y)在下文中被认为是

中的特征向量x的特定训练图像和不在

中的具有特征向量y的新图像之间的成对SDF，其中为包含x的训练图像集而训练f(x，y)。现在将提供用于f(x，y)的训练技术的示例性实施例的详细描述。

给定由等式(7)定义的用于

中的特定训练图像和不在

中的新图像之间的直观语义距离D()的度量f()，且给定由等式(5)定义的松散相对比较约束集S，可以将学习具体的语义聚类

的SDF

的任务概括为以下学习算法：

解 W_ii

W_ii≥0

通过以类似于常规的支持向量机(SVM)优化算法的方式向松散相对比较约束中的每一个添加松弛变量，可以将等式(8)中的硬约束变换成软约束。为了进一步简化等式(8)的技术，可以将对f()的约束转换成f²()。结果，可以将用于学习具体的语义聚类

的SDF

的等式(8)算法转换成以下学习算法：

min ∑_lξ_l

W_ii≥0

ξ_l≥0

其中l是对的松散相对比较约束集的索引，且ξ_l表示松弛变量。

如果

的松散相对比较约束集S是可行的且存在一个满足所有约束的W，则将一般地存在W的无限数量的解，这是由于可行解W的标量变换一般得到可行解。为解决此情况并使得W的解是唯一的，可以将所学习的SDF

尽可能地接近未加权欧几里得语义距离的附加约束添加到S。此附加约束可以重新用公式表示成最小化AW A^T的本征值的范数，该范数可以等于范数然后，可以将等式(9)的第一行中所指示的优化算法如下重写为包括此附加约束：

\begin{matrix} \min & \frac{1}{2} {||\begin{matrix} AW & A^{T} \end{matrix}||}_{F}^{2} \end{matrix} + C Σ_{l} ξ_{l}, - - - (10)

其中添加是为了用公式将优化算法表示成常规的二次规划算法的计算便利，C是自动地调整的平衡参数，且C＞0。应注意，C越大，就存在越多的需要满足的约束。C越小，

越接近未加权欧几里得距离。通过应用数学推导，可以将式(9)和式(10)中的优化算法进一步重新用公式表示成以下常规的二次规划算法：

\begin{matrix} \min & \frac{1}{2} ω^{T} Lω + C Σ_{l} ξ_{l} \end{matrix}

ω_i≥0

ξ_l≥0

其中：

L＝(A^TA)*(A^TA)， (12)

g(x，y)＝(A^Tx-A^Ty)*(A^Tx-A^Ty)，

且其中ω是W中的对角元素集，ω_i是W中的特定对角元素，且*指示向量之间的逐个元素积。然后，可以通过分别用φ(x)和φ(y)代替x和y且然后将L和g(x，y)两者重写成前述的核函数K()的函数来核化等式(11)和等式(12)。作为此核化的结果，L＝M*M，且A^Tx＝[K(x₁，x)，K(x₂，x)，...，K(x_n，x)]^T，其中M_i，j＝K(x_i，x_j)。

给定刚才已经描述的一般SDF学习算法，以下是用于基于前述的松散相对比较约束集S学习具体的第k个训练图像语义聚类的SDF f^(k)的过程的实施例的详细描述。第k个训练图像语义聚类可以由等式

给出，其中

是此聚类中的第i个图像，且n_k是此聚类中的图像的数量。

与学习

的SDF f^(k)相关联的基本任务是从

中的图像的地面真值成对直观语义距离生成松散相对比较约束集。可以做出包含相似的语义的图像共享相同的SDF的假设。换言之，只有当

时，前述的用于D(x，y)的度量f(x，y)才是有效的。基于此假设，的松散相对比较约束集可以由以下等式给出：

其中

且(x_a，x_b，x_c)是

中的训练图像的满足以下两个条件之一的所有可能的三元组的子集：

(a)D(x_a，x_c)＞D(x_a，x_b)，或

(b)D(x_a，x_c)＝D(x_a，x_b)但‖x_a-x_c‖＞‖x_a-x_b‖ (14)

条件(a)是直接的。条件(b)表示如果特定语义聚类中的两对训练图像具有其间的相同的直观语义距离，则x_a中的特征和特征x_c中的特征的差异大于x_a中的特征和x_b中的特征之间的差异。

然而，即使是在由等式(14)给出的条件下，由等式(13)给出的松散相对比较约束的数量也可以是压倒性地大的，这使得等式(11)的第一行中所指示的优化算法求解起来是复杂的。为了解决此情况，可以从随机地采样规定数量的m个松散相对比较约束，得到由给出的松散相对比较约束的子集。然后，可以训练

的m个不同的成对SDF

其中使用

来训练每一不同的成对SDF

然后，可以由以下等式生成第k个训练图像语义聚类的总SDF f^(k)：

f^{(k)} = \frac{1}{m} Σ_{i = 1}^{m} f_{i}^{(k)} - - - (15)

换言之，可以通过计算所训练的第k个聚类的m个不同的成对SDF

的均值来生成所学习的该聚类的总SDF f^(k)。

3.0 新图像注释阶段

再次参考图1，本节提供在此描述的AIA技术实施例的前述的新图像注释阶段102的示例性实施例的详细描述。重要的是应注意，第i个训练图像语义聚类108/112具有其自己的SDF f⁽ⁱ⁾ 116/120，SDF f⁽ⁱ⁾ 116/120仅当其用于测量新图像122和第i个语义聚类中的训练图像之间的语义距离时才是有效的。还重要的是应注意，使用不同的目标函数和不同的约束相互独立地学习不同的SDF f⁽ⁱ⁾ 116/120。出于这些原因，新图像注释阶段102采用两个阶段124/132过程来自动地注释新图像122。现在将提供这两个阶段124/132的各示例性实施例的详细描述。应注意，在接下来的描述中，图像由它们的特征向量标识。因而，

104中的给定的训练图像TI_i由其特征向量x_i标识。

3.1 生成语义聚类的排序列表和关联概率

本节提供AIA技术的前述的图像排序阶段的示例性实施例的详细描述。一般地，如迄今为止所描述且再次参考图1，对于每一训练图像语义聚类108/112，图像排序阶段124如下操作。给定第k个训练图像语义聚类108/112，可以使用习得的该聚类的SDF f^(k) 116/120来计算新图像122和聚类中的每一训练图像之间的成对基于特征的语义距离分数，以产生该聚类的成对基于特征的语义距离分数集。如迄今为止所描述的，在此分数集中的每一基于特征的分数指定对新图像122和聚类108/112中的特定训练图像之间的直观语义距离D()的度量。然后，可以使用此分数集来生成排序列表126/130，排序列表126/130根据聚类108/112中的每一训练图像与新图像122的直观语义距离对聚类108/112中的每一训练图像进行排序。可以生成估算聚类108/112中的图像的视觉特征的概率密度函数(PDF)。然后，可以使用该PDF来估算聚类108/112的聚类关联概率p(k) 110/118，聚类关联概率p(k) 110/118指定新图像在语义上与聚类相关联的概率。在示例性实施例中，可以使用常规的核概率密度估算方法来生成PDF。

3.2 将关键字注释传播给新图像

本节提供AIA技术的前述的注释传播阶段的示例性实施例的详细描述。再次参考图1，对于每一训练图像语义聚类108/112，注释传播阶段132如下操作。给定第k个训练图像语义聚类108/112、已经手动地应用到每一训练图像的前述的关键字注释向量t_i和第k个聚类的前述的排序列表126/130，第k个聚类的关键字注释可以由等式

给出，其中n_k是第k个聚类的训练图像的总数，且

是已经手动地应用到排序列表中的第i个训练图像的关键字注释向量。假定

表示新图像122和排序列表126/130中的第i个训练图像之间的成对基于特征的语义距离分数，第k个聚类108/112的经排序的成对语义距离分数集可以由等式

给出。可以以权重1.0将第k个聚类108/112的排序列表126/130中的第一训练图像的关键字注释向量

传播给新图像122，且可以以权重0.5将第k个聚类的排序列表中的第五训练图像的关键字注释向量

传播给新图像。因而，从第k个训练图像语义聚类108/112传播给新图像122的概率关键字注释134/138的向量w^(k)可以由以下等式给出：

w^{(k)} = \frac{1}{n_{k}} \underset{i}{Σ} \frac{d_{1}^{(k)} - α^{(k)}}{d_{i}^{(k)} - α^{(k)}} * t_{i}^{(k)} - - - (16)

其中α^(k)是被设置为使得

的规定系数。然后，可以将w^(k)归一化。在经测试的实施例中，将w^(k)归一化为使得w^(k)的L-1范数是一。

再次参考图1，一旦已经为每一训练图像语义聚类108/112生成新图像122的概率关键字注释134/138的经归一化的向量w⁽ⁱ⁾，然后，就可以通过应用以下等式，以加权融合方式线性组合这些向量w⁽ⁱ⁾中的每一个140，以便产生新图像142的最终关键字注释向量w，该等式为：

w = Σ_{i = 1}^{H} p (i) * w^{(i)} - - - (17)

其中p(i)是在图像排序阶段124中为每一聚类估算的前述的聚类关联概率110/118。应注意，w包含新图像的所有可能的关键字注释的加权集合。取决于

中的训练图像的数量和性质以及中的它们的关联的关键字注释，w可以包含大量的加权关键字注释。从实用的观点看，可以以各种方式生成新图像的较小最终注释集。作为示例而非限制，在一个AIA技术的实施例中，可以通过选择w中具有最大权重的规定数量的关键字注释来生成较小集合。在另一实施例中，可以通过选择w中其权重超过规定阈值的关键字注释来生成较小集合。

4.0 AIA过程

给定前述的描述，图2A-图2C以简化形式阐释用于自动地注释新图像的过程的示例性实施例。如图2A中所叙述，该过程以输入训练图像集

200开始，其中新图像不在

中。然后，用关键字注释向量手动地注释

中的每一训练图像202。然后，通过首先计算

中的训练图像的每一可能对之间的成对基于注释的语义距离分数SD()206，然后利用恒定移位嵌入架构来将中的训练图像嵌入到欧几里得向量空间208中，且然后利用x-means算法来基于分数将所嵌入的训练图像分组成H个不同的训练图像语义聚类

SD() 210，将划分成多个训练图像语义聚类

204。然后，将聚类标识符k初始化成一212。然后，通过首先为

生成松散相对比较约束集

216，然后从

随机地采样规定数量的m个约束，以产生

的松散相对比较约束的子集 218，然后，训练

的m个不同的成对SDF

220，其中使用

来训练每一成对SDF

且然后通过计算

的均值来生成

的SDF f⁽¹⁾222，学习训练图像的第一聚类

的语义距离函数(SDF) f⁽¹⁾ 214。

再次参考图2A和2B，一旦过程动作222已经完成，然后，利用f⁽¹⁾来计算新图像和

中的每一训练图像之间的成对基于特征的语义距离分数，以产生

的成对基于特征的语义距离分数集224。然后，利用

的成对基于特征的语义距离分数集来生成

的排序列表226，其中此列表根据

中的每一训练图像与新图像的直观语义距离来对

中的每一训练图像进行排序。一旦过程动作226已经完成，然后，就如下估算

的聚类的关联概率p(1) 228。首先生成估算

中的训练图像中的视觉特征的概率密度函数(PDF)230。然后利用该PDF来估算指定新图像在语义上与

相关联的概率的聚类关联概率p(1) 232。

再次参考图2B和图2C，一旦过程动作232已经完成，就将

中的每一训练图像的关键字注释向量如下概率性地传播给新图像244。如迄今为止所描述的，首先利用

的排序列表来对

中的所有训练图像的关键字注释向量进行排序，以产生

的经排序关键字注释集246。然后，如迄今为止所描述的，利用

的排序列表来对新图像和

中的每一训练图像之间的成对基于特征的语义距离分数进行排序，以产生

的经排序的成对基于特征的语义距离分数集248。然后，如迄今为止所描述的，计算新图像的聚类专用概率性注释向量w⁽¹⁾ 250，且然后归一化w⁽¹⁾ 258。

再次参考图2A-图2C，一旦过程动作258已经完成，就使聚类标识符k递增1252。如果k不大于H 254，则对接下来的训练图像语义聚类

重复过程动作216、218、220、222、224、226、230、232、246、248、250、258和252。如果k大于H 254，则如迄今为止所描述的，最终利用所有训练图像语义聚类

的聚类关联概率p(k)和聚类专用概率性注释向量w^(k)来生成新图像的最终关键字注释向量w256。

5.0 相对比较分数(RCS)性能测量技术

本节提供语义相对比较分数(RCS)技术的示例性实施例的详细描述，该技术用于通过考虑由两种不同的AIA算法为相同图像自动生成的关键字注释之间的语义相关性来测量和比较各算法的注释精确度。一般地，在此描述的语义RCS技术实施例基于这样的规则：如果图像的自动地生成的关键字注释不具有对图像的地面真值注释的准确匹配，则预期自动生成的关键字注释尽可能接近地表示图像语义。作为示例而非限制，如果一瀑布的图像中不存在云，为此图像生成关键字注释水比为此图像生成关键字注释云更为精确。

给定已经用特定关键字w自动地注释的图像，即使w并非恰好匹配已经手动地应用到图像(即图像的地面真值注释)的关键字注释中的任一个，在某些情况下w仍然可以是图像的可接受的(即精确的)注释。事实上，在一些情况中，w可以实际上是比恰好匹配图像的特定地面真值注释的注释更加精确的图像注释。此情况的一个示例可见于图5，图5阐释比较由三种不同的图像注释算法应用到相同图像的关键字注释的表格。

再次参考图5，在该表的第一行500中，将关键字注释手动地应用到图像。在该表的第二行502中，由AIA算法1自动地生成图像的关键字注释。在该表的第三行504中，由AIA算法2自动地生成图像的关键字注释。假定如迄今为止所描述，认为手动地应用的注释是图像的地面真值注释，应注意，由AIA算法1生成的注释包含一个准确地匹配地面真值注释的关键字注释(山)，而由AIA算法2生成的注释不包含准确地匹配地面真值注释的关键字注释。然而，由AIA算法2生成的注释实际上比由AIA算法1生成的那些注释更加精确，这是由于由算法2生成的关键字中的三个(树、水和太阳)语义上类似于地面真值注释中的三个(例如，树/树干、水/瀑布和水/日出)。现在将提供语义RCS技术的示例性实施例的详细描述。

图像集T可以由等式T＝{x₁，x₂，...，x_n}给出，其中x_i是描述第i个图像(在下文中被表示为T_i)中的低级视觉特征的特征向量，且n是T中的图像的总数。已经手动地应用到T的地面真值关键字注释集T^G可以由等式

给出，其中

是已经手动地应用到T_i的地面真值关键字注释向量。类似地，已经分别由AIA算法1和AIA算法2为T自动生成的关键字注释集T^A1和集T^A2可以分别由等式

和等式

给出，其中

是已经由AIA算法1为T_i自动生成的关键字注释向量，且

是已经由AIA算法2为T_i自动生成的关键字注释向量。

测量和比较AIA算法1和AIA算法2的注释精确度的语义RCS可以由以下等式给出：

其中SD(·，·)是由等式(1)和等式(2)给出的成对基于注释的语义距离。如果RCS＞0.5，则由AIA算法1为T生成的关键字注释语义上比由AIA算法2生成的那些关键字注释更为精确(即，算法1的注释精确度比算法2的注释精确度更高)。如果RCS＜0.5，则由AIA算法2为T生成的关键字注释语义上比由AIA算法1生成的那些关键字注释更为精确(即，算法2的注释精确度比算法1的注释精确度更高)。如果RCS＝0.5，则算法1和算法2的注释精确度可以认为是相同的。在此描述的语义RCS技术实施例是有益的，这是由于语义RCS技术实施例还考虑图像的注释与地面真值注释的语义相关性，而不是仅当存在对图像中的可视概念的准确匹配时才认为给定图像的关键字注释是“正确的”。

5.1 RCS过程

图3以简化形式阐释比较两种不同的AIA算法的注释精确度的过程的示例性实施例。如图3中所叙述的，该过程以输入图像集T开始300。然后，将地面真值关键字注释手动地应用到T中的每一图像302。然后，利用第一AIA算法来自动地生成T中的每一图像的第一关键字注释304，且利用第二AIA算法来自动地生成T中的每一图像的第二关键字注释306。然后，计算T中的每一图像的第一成对语义距离分数SD()308，其中此第一分数SD()指定对第一关键字注释和地面真值关键字注释之间的语义距离的度量，且计算T中的每一图像的第二成对语义距离分数SD() 310，其中此第二分数SD()指定对第二关键字注释和地面真值关键字注释之间的语义距离的度量。然后，通过首先确定T中的对于其第一分数SD()小于第二分数SD()的图像的数量，且然后将此图像数量除以T中的图像总数，生成比较第一AIA算法和第二AIA算法的注释精确度的语义相对比较分数312。

6.0 计算环境

本节提供了对其中可实现此处所描述的AIA技术和语义RCS技术实施例的各部分的合适的计算系统环境的简要、概括描述。这些AIA技术和语义RCS技术实施例可用于众多通用或专用计算系统环境或配置。适合的示例性公知计算系统、环境和/或配置包括但不限于个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型机、大型计算机、包括以上系统或设备的任一个的分布式计算环境等等。

图4以简化形式示出了根据此处所描述的AIA技术和语义RCS技术实施例的合适的计算系统环境的示例性实施例的图示。图4所示的环境只是合适的计算系统环境的一个示例，并且不旨在对此处所描述的AIA技术和语义RCS技术实施例的使用范围或功能提出任何限制。也不应该把该计算系统环境解释为对图4所例示的任一组件或其组合有任何依赖性或要求。

如图4所示，用于实现此处所描述的AIA技术和语义RCS技术实施例的示例性系统包括一个或多个计算设备，诸如计算设备400。在其最简单的配置中，计算设备400通常包括至少一个处理单元402和存储器404。取决于计算设备的具体配置和类型，存储器404可以是易失性的(诸如RAM)、非易失性的(诸如ROM和闪存等)或是两者的某种组合。该最简单的配置由虚线406示出。

如图4所例示的，计算设备400还可具有附加特征和功能。作为示例，计算设备400可包括附加存储，诸如可移动存储408和/或不可移动存储410。该附加存储包括但不限于，磁盘、光盘和磁带。计算机存储介质通常包含用任何方法或技术来实现的易失性和非易失性介质以及可移动和不可移动介质。计算机存储介质提供对诸如与操作系统、应用程序和其他程序模块以及数据结构相关联的计算机可读指令等操作设备400所需的各种信息的存储。存储器404、可移动存储408和不可移动存储410都是计算机存储介质的示例。计算机存储介质包括但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储技术、磁带盒、磁带、磁盘存储或其它磁性存储设备、或可用于存储所需信息并且可由计算设备400访问的任何其它介质。任何这样的计算机存储介质都可以是计算设备400的一部分。

如图4所例示的，计算设备400还包括通信连接412，该通信连接允许设备在联网环境中操作并与诸如远程计算设备418等远程计算设备通信。远程计算设备418可以是PC、服务器、路由器、对等设备或其他常见网络节点，并且通常包括此处所描述的与计算设备400相关的元素中的许多或全部。计算设备之间的通信通过一个或多个网络420发生，这些网络中的每一个都在计算设备之间提供逻辑连接。逻辑连接都可包括一种或多种不同类型的网络，包括但不限于，局域网(LAN)和广域网(WAN)。这些联网环境常见于在常规办公室、企业范围计算机网络、内联网和因特网。可以理解，此处所描述的通信连接412及相关网络420是示例性的，且可以使用在计算设备之间建立通信的其它手段。

如图4所例示的，通信连接412及相关网络420是通信介质的示例。通信介质通常以诸如载波或其他传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据，并包括任一信息传送介质。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被设定或更改的信号。作为示例而非限制，通信介质包括有线介质，如有线网络或直接连线连接，以及无线介质，如声学、RF、红外线、调频(FM)无线电和其它无线介质。如此处所用的术语“计算机可读介质”既包括上述存储介质又包括通信介质。

如图4所例示的，计算设备400还包括输入设备414和输出设备416。示例性输入设备414包括但不限于，键盘、鼠标、笔、触摸输入设备、话筒和照相机等。用户可通过输入设备414来将命令和各种类型的信息输入到计算设备400中。示例性输出设备416包括但不限于显示设备、打印机和音频输出设备等。这些输入和输出设备是公知的且无需在此赘述。

再次参考图4，此处所描述的AIA技术和语义RCS技术实施例还可在诸如程序模块等由计算设备400执行的计算机可执行指令的一般上下文中描述。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和数据结构等。AIA技术和语义RCS技术实施例还可在其中任务由通过通信网络412/420链接的一个或多个远程计算设备418执行的分布式计算环境中实现。在分布式计算环境中，程序模块可以位于包括但不限于存储器404和存储设备408/410的本地和远程计算机存储介质中。

7.0 附加实施例

尽管参考具体实施例详细地描述了AIA技术和语义RCS技术，但可以理解，可对这些实施例作出修改和变化而不背离AIA技术和语义RCS技术的真正精神和范围。作为示例而非限制，除了上述用于将嵌入在欧几里得向量空间中的训练图像分组成H个不同的语义聚类的x-means算法之外，可另选地采用诸如常规谱聚合算法或常规高斯混合模型算法来执行该语义聚合。还注意，可以按所需的任何组合使用上述实施例的任一个或全部以形成另外的混合实施例。尽管用对结构特征和/或方法动作专用的语言描述了AIA技术和语义RCS技术实施例，但可以理解，所附权利要求书中定义的主题不必限于至今所述具体特征或动作。相反，至今所述的具体特征和动作是作为实现权利要求的示例形式公开的。