CN102119389A - 使用语义距离学习的自动图像注释 - Google Patents

使用语义距离学习的自动图像注释 Download PDF

Info

Publication number
CN102119389A
CN102119389A CN2009801317069A CN200980131706A CN102119389A CN 102119389 A CN102119389 A CN 102119389A CN 2009801317069 A CN2009801317069 A CN 2009801317069A CN 200980131706 A CN200980131706 A CN 200980131706A CN 102119389 A CN102119389 A CN 102119389A
Authority
CN
China
Prior art keywords
note
training image
image
key word
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009801317069A
Other languages
English (en)
Other versions
CN102119389B (zh
Inventor
T·梅
X-S·华
S·李
Y·王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102119389A publication Critical patent/CN102119389A/zh
Application granted granted Critical
Publication of CN102119389B publication Critical patent/CN102119389B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

图像使用语义距离学习来自动注释。手动注释训练图像并将其划分成语义聚类。对于这些聚类学习语义距离函数(SDF)。使用对应于每一个聚类的SDF来计算新图像和聚类中的每一个图像之间的语义距离分数。使用对应于每一个聚类的分数来生成根据聚类中的每一个图像离新图像的语义距离来对该训练图像进行排序的排序列表。为每一个聚类估算关联概率,该关联概率指定新图像在语义上与聚类相关联的概率。从对每一个聚类中的图像的手动注释中生成对新图像的聚类专用概率性注释。使用对应于所有聚类的关联概率和聚类专用概率性注释来生成对新图像的最终注释。

Description

使用语义距离学习的自动图像注释
背景
近年来数字成像技术的快速进步导致图像捕捉和显示设备的成本的显著降低,以及这些设备的普及度的对应的增长。例如,图像捕捉功能现在以诸如移动电话、数码相机、摄像头等各种不同的形式在大众市场层面对消费者可用。另外,膝上型计算机现在也具有集成摄像头。结果,近年来捕捉到的数字图像的数量已增长至空前水平。随之而来的数据存储和网络通信技术的进步使得大众市场消费者经济地存储图像数据并将其传递给其他人成为可能。现在也存在各种各样的大众市场软件应用,这些软件应用方便地向消费者提供出于各种不同的目的来查看、操纵和共享该图像数据的能力。
概述
提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
此处所描述的自动图像注释(AIA)技术实施例通常能够使用语义距离学习来自动注释图像。在一示例性实施例中,提供了一种自动注释新图像的技术。首先输入训练图像集,其中新图像不在该训练图像集中。然后用关键字注释向量来手动注释每一个训练图像。然后将该训练图像集划分成训练图像的多个语义聚类,其中每一个聚类包含在语义上相似的训练图像并且每一个训练图像被划分到单个聚类中。然后对于每一个聚类学习语义距离函数(SDF)。然后使用对应于每一个聚类的SDF来计算新图像和聚类中的每一个训练图像之间的成对基于特征的语义距离分数,以产生对应于该聚类的成对基于特征的语义距离分数集,其中该集合中的每一个基于特征的分数指定对新图像和聚类中的特定训练图像之间的直观语义距离的度量。然后使用对应于每一个聚类的成对基于特征的语义距离分数集来为该聚类生成排序列表,该排序列表根据聚类中的每一个训练图像离新图像的直观语义距离来对该训练图像进行排序。然后为每一个聚类估算聚类关联概率,该关联概率指定新图像在语义上与聚类相关联的概率。对于每一个聚类,然后将对聚类中的每一个训练图像的关键字注释向量概率性地传播至新图像,从而产生对该新图像的聚类专用概率性注释向量。最终,使用对应于所有聚类的聚类关联概率和聚类专用概率性注释向量来生成对新图像的最终关键字注释向量。给定已经由此处所描述的AIA技术注释的图像的数据库,当用户期望搜索该数据库并从中检索包含特定视觉特征的特定图像时,可使用为图像生成的关键字注释,通过将图像搜索/检索过程转换成基于文本的关键字搜索/检索过程来提高图像检索过程的效率和精确度。
此处所描述的语义相对比较分数(RCS)技术实施例通常提供比较两个不同的AIA算法的注释精确度的方法。在一示例性实施例中,提供了一种比较两个不同的AIA算法的注释精确度的技术。输入图像集。然后手动地将地面真值关键字注释应用于集合中的每一个图像。然后使用第一AIA算法来为集合中的每一个图像生成第一关键字注释,并且使用第二AIA算法来为集合中的每一个图像自动生成第二关键字注释。然后,计算指定对第一关键字注释和地面真值关键字注释之间的语义距离的度量的第一成对语义距离分数,并且计算指定对第二关键字注释和地面真值关键字注释之间的语义距离的度量的第二成对语义距离分数。最终,生成语义相对比较分数,该分数通过首先确定集合中的对于其第一分数小于第二分数的图像的数量并且然后将该图像数除以集合中的图像总数,来比较第一和第二AIA算法的注释精确度。
除了刚才描述的好处之外,从结合附图所考虑的以下详细描述中,此处所描述的AIA技术和语义RCS技术实施例的其它优点将变得显而易见。
附图说明
参考以下描述、所附权利要求书以及附图,将更好地理解此处所描述的自动图像注释(AIA)技术和语义相对比较分数(RCS)技术实施例的具体特征、方面和优点,附图中:
图1以简化形式示出了用于使用语义距离学习的AIA的多阶段过程的示例性实施例的图示。
图2A-2C以简化形式示出了用于自动注释新图像的过程的示例性实施例。
图3以简化形式示出了用于比较两个不同的AIA算法的注释精确度的过程的示例性实施例。
图4以简化形式示出了构成用于实现此处所描述的AIA技术实施例的示例性系统的基于网络的通用计算设备的示例性实施例的图示。
图5示出了比较由三个不同的图像注释算法应用于共同图像的关键字注释的表格。
详细描述
在以下对自动图像注释(AIA)技术和语义相对比较分数(RCS)技术实施例的描述中,对附图进行了参考,附图构成了实施例的一部分且在其中作为说明示出了可在其中实践该技术的具体实施例。可以理解,可以使用其它实施例并且可以做出结构上的改变而不背离AIA技术和语义RCS技术实施例的范围。
1.0 使用语义距离学习的AIA的概览
如在数字图像处理技术中所理解的,图像注释一般指用于用描述图像中的一个或多个低级视觉特征(下文中简称为特征)的文本关键字(下文中简称为关键字形式的元数据来标记(下文中称为注释)图像的方法。另外,AIA一般指用于为特定图像自动生成这些关键字元数据标签(下文中称为关键字注释或简称为注释)的方法。本节提供了对AIA技术实施例的基本概览。
手动注释的训练图像集T可由等式
Figure BPA00001310672400031
来给出,其中xi是描述第i个训练图像(下文中表示为TIi)中的特征的特征向量,而n是
Figure BPA00001310672400032
中的训练图像的总数。已经手动地应用于
Figure BPA00001310672400033
中的每一个训练图像的相关联的关键字注释集A可由等式
Figure BPA00001310672400034
来给出,其中ti是已经手动应用于TIi的关键字注释向量。注意,该关键字注释集A在此被认为是对训练图像的地面真值注释。给定其中词汇表中的每一个关键字描述不同的特征的规定的关键字词汇表,用词汇表中的第j个关键字来注释TIi的概率ti(j)可如下给出。如果TIi用词汇表中的第j个关键字来注释,则ti(j)=1,否则ti(j)=0。
如在图像注释技术中所理解的,特定图像可以用单个关键字或多个关键字来注释。在对特定训练图像应用多个关键字注释的情况下,应用于该图像的关键字注释的总数一般相对较小。在AIA技术的已测试实施例中,
Figure BPA00001310672400035
中的每一个训练图像都用一到五个不同的关键字来手动注释,并且对关键字词汇表采用常规Corel关键字数据库。一般而言,此处所描述的AIA技术实施例使用语义距离学习来自动生成对不在
Figure BPA00001310672400036
中的新图像的关键字注释向量w。将词汇表中的第j个关键字关联到新图像的概率w(j)可由等式w(j)∈[0,1]来给出。
图1以简化形式示出了用于使用语义距离学习的AIA的多阶段过程的示例性实施例的图示。如图1所描绘的,该过程一般包括学习阶段100,之后是新图像注释阶段102。数据库104存储用于以上提到的手动注释的训练图像集及其相关联的关键字注释集A的数字图像数据。
再次参考图1,学习阶段100一般如下操作。首先,语义聚合阶段106将数据库104中的训练图像集划分成多个训练图像语义聚类108/112,其中每一个语义聚类包含在语义上相似的训练图像。换言之,语义聚合阶段106用于将整个语义空间划分成多个语义子空间。注意,语义聚合阶段106操作以使得数据库104中的每一个训练图像都被划分到单个语义聚类108/112中。一旦完成语义聚合阶段106,语义距离函数(SDF)学习阶段114就学习对应于每一个训练图像语义聚类108/112的SDF f(i) 116/120,其中f(i)是为第i个训练图像语义聚类学习的SDF。一般而言,习得的SDF f(i)测量第i个语义聚类中的训练图像对之间的语义相似度。
再次参考图1,一旦学习阶段100已经完成,新图像注释阶段102就一般地如下操作。可以用以下方式自动地注释不在数据库104中的手动注释的训练图像集
Figure BPA00001310672400042
中的新图像122。首先,对于每一训练图像语义聚类108/112,图像排序阶段124一般如下操作。可以使用聚类108/112的所学习的SDF f(i) 116/120来计算新图像122和聚类中的每一训练图像之间的成对基于特征的语义距离分数,以产生该聚类的成对基于特征的语义距离分数集。分数集中的每一基于特征的分数指定对新图像122和聚类108/112中的特定训练图像之间的直观语义距离的度量。然后,可以使用该分数集来生成排序列表126/130,排序列表126/130根据聚类108/112中的每一训练图像与新图像122的直观语义距离对聚类108/112中的每一训练图像进行排序。然后,可以估算每一聚类108/112的指定新图像在语义上与聚类相关联的概率的聚类关联概率p(i) 110/118。一旦图像排序阶段124已经完成,对于每一训练图像语义聚类108/112,注释传播阶段132一般如下操作。将聚类108/112中的每一训练图像的关键字注释ti概率性地传播到新图像122,以产生新图像的聚类专用概率性注释向量w(i) 134/138。然后,通过使用每一训练图像语义聚类108/112的聚类关联概率p(i) 110/118来组合140来自所有聚类的聚类专用概率性注释向量w(i) 134/138,可以生成新图像142的最终关键字注释向量w。
再次参考图1,现在将提供语义聚合阶段106、SDF学习阶段114、图像排序阶段124和注释传播阶段132的示例性实施例的详细描述。将可从以下的详细描述明白,由于多种原因,在此描述的AIA技术实施例是有益的,这些原因包括但不限于以下原因。AIA技术实施例并非简单地基于高维欧几里得空间中的图像之间的视觉相似性来判断图像之间的语义相似性。相反,AIA技术实施例基于作为整体取得的图像关键字注释ti来判断图像之间的语义相似性。因而,AIA技术实施例改近新图像142的最终关键字注释w的精确度,这是因为由错误匹配(即视觉上相似但语义上不相似的两个图像)所引入的注释“噪声”并不传播通过学习阶段100和新图像注释阶段102。此外,为新图像142生成的最终关键字注释w在语义上相干。在下文中描述AIA技术实施例的另外的优点。
2.0 学习阶段
再次参考图1,本节提供上述AIA技术的学习阶段100及其相关联的两个阶段106/114的示例性实施例的详细描述。
2.1 训练图像的语义聚类
本节提供上述AIA技术的语义聚合阶段的示例性实施例的详细描述。重要的是要注意,欧几里得空间中特定图像集之间的视觉相似性并不必定意味着图像在语义上相似。相应地,语义空间中特定图像集之间的语义相似性并不必定意味着图像在欧几里得空间中是视觉上相似的。可以通过下列示例来阐释此现象。给定三个图像的集合,第一图像是太阳的望远镜彩色图像,该图像被过滤为将太阳描述为红橙色的“火球”,第二图像是单独的、完全成熟的(即红橙色的)桃子的特写彩色图像,且第三图像是多个半成熟的桃子中的一个半成熟的(即部分绿色、部分红橙色)桃子的特写彩色图像,第二图像和第三图像在语义上相似但是视觉上不相似。相应地,第一图像和第二图像视觉上相似但语义上不相似。如果仅使用欧几里得空间中的视觉相似性来比较这三个图像,第一图像和第二图像将错误匹配,因而将前述的“噪声”引入到这些图像的关键字注释中,并降低它们的注释的精确度。
还重要的是要注意,包含不同的语义的图像可以具有不同的语义相似度。可以通过下列示例来阐释此现象。给定包括关键字摩托车和天空的关键字词汇表以及不同类型的摩托车的彩色图像的集合,作为这些摩托车图像的关键字注释,形状特征比颜色特征或纹理特征更能提供信息。另一方面,给定相同的关键字词汇表和天空中的不同类型和结构的散云的彩色图像的集合,作为这些云/天空图像的关键字注释,颜色特征和纹理特征更能提供信息。
为了解决前述的现象,再次参考图1,语义聚合阶段106首先将该训练图像集划分成多个训练图像语义聚类108/112,其中每一语义聚类包含语义上相似的训练图像,且将每一训练图像被划分到单个聚类中,而不是仅学习100数据库104中的手动注释的训练图像集
Figure BPA00001310672400061
的单个语义相似性。给定数据库104中的训练图像集
Figure BPA00001310672400062
的前述的关键字注释集可以假设每一训练图像的语义可以由图像的关键字注释向量ti表示而非由其特征向量xi表示。可以做出此假设是因为在语义空间中关键字词汇表驻留在比特征更高的层面。给定数据库104中的每一训练图像的关键字注释ti包括相对少量的关键字的前述事实,可以使用成对邻近度聚合技术来将训练图像集划分成多个训练图像语义聚类108/112,成对邻近度聚合技术基于由手动地应用的每一训练图像的关键字注释ti指示的语义一般地比较
Figure BPA00001310672400065
中的训练图像的每一可能对并测量其间的语义相似度。更具体地,此成对邻近度聚合技术计算数据库104中的训练图像的每一可能对之间的成对基于注释的语义距离分数SD(),其中每一分数SD()指定用于训练图像的特定对之间的直观语义距离的度量。在此描述的AIA技术实施例采用两步聚合方法,现在将详细描述其示例性实现。
给定第一训练图像TI1和第二训练图像TI2,第一训练图像TI1已经用第一关键字注释向量手动地注释,第一关键字注释向量由
Figure BPA00001310672400066
给出,其中n1是a中的关键字的总数,第二训练图像TI2已经用第二关键字注释向量手动地注释,第二关键字注释向量由给出,其中n2是b中的关键字的总数,则TI1和TI2之间的直观语义距离可以由D(TI1,TI2)给出。对应的指定对D(TI1,TI2)的度量的成对基于注释的语义距离分数SD()由SD(a,b)给出,SD(a,b)可以由以下等式递归地计算:
SD ( a , b ) = 1 2 n 1 Σ i = 1 n 1 min j SD ( a i , b j ) + 1 2 n 2 Σ j = 1 n 2 min i SD ( a i , b j ) , - - - ( 1 )
其中SD(ai,bj)是指定对关键字ai和bj的特定对之间的语义距离的度量的成对基于注释的语义距离分数。换言之,等式(1)相对于其他关键字注释向量中的特定关键字寻找一个关键字注释向量中最接近的关键字。在AIA技术的经测试的实施例中,将常规的WordNet语义词典数据库中的常规的Jiang和Conrath(JCN)关键字相似性度量JCN()用于SD()。然而,应注意,JCN(ai,bj)可以具有范围为从0到无穷大的值。为解决此情况,可以使用以下等式来将JCN(ai,bj)变换成具有范围为从0到1的值的成对基于注释的语义距离分数SD(ai,bj):
应注意,由等式(2)给出的值变换由关键字ai和bj的各种对之间的JCN相似性度量距离JCN(ai,bj)的经验调查所推动。更具体地,如WordNet数据库领域中所明白的,其JCN相似性度量距离值小于0.06的关键字对很少是相关的(例如,苹果/浴室=0.051和地球/灯塔=0.059)。对于这样的关键字对,等式(2)将SD(ai,bj)设置为最大的可能值1。对于其JCN相似性度量距离值等于0.1的关键字对,等式(2)将SD(ai,bj)设置为0.6。对于带有其他JCN相似性度量距离值的关键字对,等式(2)通过拟合考虑了各对的连续性的正弦函数来计算SD(ai,bj)。
因而,给定前述的训练图像集
Figure BPA00001310672400072
的前述的关键字注释集
Figure BPA00001310672400073
可以使用等式(1)和(2)来计算
Figure BPA00001310672400074
中的训练图像的每一可能对之间的成对基于注释的语义距离分数SD()。此技术得到
Figure BPA00001310672400075
的成对基于注释的语义距离分数集,其中每一分数SD()指定对训练图像的特定对之间的直观语义距离的度量。然后,可以如下使用此分数集来将
Figure BPA00001310672400076
中的训练图像划分成语义聚类。
应注意,各训练图像对之间的直观语义距离不是度量测量,这是因为三角不等式定理不成立。因而,不能以保持各训练图像对之间的直观语义距离的绝对值的方式自然地将训练图像嵌入到向量空间中。因而,诸如k-means算法等的常规的聚合方法不能被它们自己用于语义聚合阶段。然而,由于目标是简单地在语义上聚合成对基于注释的语义距离分数SD(),所以不需要保持各训练图像对之间的直观语义距离的绝对值。因而,以保持各训练图像对之间的直观语义距离的绝对值的方式自然地将训练图像嵌入到向量空间中是不必要的。
如图像注释领域中所明白的,诸如k-means算法等的在各训练图像对之间的直观语义距离的加法移位下不变的任何常规的聚合方法,可以重新用公式表示成欧几里得空间中的分组任务。因而可以采用常规的恒定移位嵌入架构来将
Figure BPA00001310672400079
中的训练图像嵌入到欧几里得向量空间中,其中此架构可以保持聚类结构。然后,可以采用常规的x-means算法(该算法是k-means算法的变体)来基于该成对基于注释的语义距离分数集将嵌入到欧几里得向量空间中的训练图像分组成H个不同的语义聚类。应注意,x-means算法自动地确定H的最优值。还应注意,从数据可视化的视角来看,将训练图像嵌入到欧几里得向量空间中是有益的,这是由于存在用于欧几里得空间的许多常规的聚合算法。
再次参考图1,应注意,语义聚合阶段106是有益的,这是由于其将每一训练图像104的关键字注释向量ti作为整个实体而考虑而非个别地考虑每一关键字(即独立于向量ti中的其他关键字),且因而其还考虑了关键字注释间固有的语义相干性。换言之,语义聚合阶段106将每一训练图像104的关键字注释向量ti作为相干语义实体而非作为个体关键字而传播。作为示例而非限制,关键字室内和天空不太可能会作为注释而一起应用到典型的图像。然而,如果个别地考虑这两个关键字,它们两者都可以最终被注释到相同的图像。作为进一步的示例,较好的是,用语义上相似的关键字猫来注释老虎的图像而非用关键字花园来注释此图像,即使此注释(关键字猫)不是对该图像的可视内容的准确匹配。结果,在此描述的AIA技术实施例是有益的,这是由于自动地为新图像122生成的关键字注释向量w 142包含语义上相干的单词。AIA技术实施例进一步是有益的,这是由于它们允许所采用的关键字词汇表在大小方面的灵活性。
2.2 学习语义聚类的SDF
本节提供AIA技术的前述的SDF学习阶段的示例性实施例的详细描述。重要的是要注意,为了可以生成精确的图像注释,一般地必须具有精确地测量图像之间的语义相似度的良好距离函数。一般而言,且再次参考图1,SDF学习阶段114通过采用映射过程来学习每一训练图像语义聚类108/112的SDF f(i) 116/120,该应用映射过程将聚类中的训练图像中的特征映射到各图像对之间的基于特征的语义距离分数(在此称为成对基于特征的语义距离分数)。现在将提供此映射过程的示例性实施例的详细描述。首先,将描述一般SDF学习算法的示例性实施例。然后,将描述用于学习具体的训练图像语义聚类的SDF的算法的示例性实施例。应注意,在以下这些描述中,图像由它们的特征向量标识。因而, 104中的给定的训练图像TIi由其特征向量xi标识,且不在
Figure BPA00001310672400083
中的新图像122由其特征向量y标识。
给定前述的n个手动注释的训练图像集
Figure BPA00001310672400084
和已经手动地应用到
Figure BPA00001310672400085
中的每一图像的相关联的关键字注释集
Figure BPA00001310672400086
如迄今为止所描述的,训练图像xi和xj的特定对之间的直观语义距离可以由D(xi,xj)给出。SDF学习阶段的一般目标是学习
Figure BPA00001310672400087
的由
Figure BPA00001310672400091
给出的SDF,
Figure BPA00001310672400092
与中的各训练图像对之间的地面真值直观语义距离D()一致。在AIA技术的示例性实施例中,可以通过使用由以下等式给出的最小二乘回归来学习SDF
Figure BPA00001310672400093
Figure BPA00001310672400094
其中q()表示要学习的目标距离函数。然而,等式(3)遭受它是基于“硬”成对直观语义距离约束条件的这一事实。给定包含受限数量的训练数据这一事实以及
Figure BPA00001310672400096
中的图像的特征xi是高维的这一事实,使用等式(3)来学习SDF 
Figure BPA00001310672400097
往往过拟合。一种解决此情况的方法是将等式(3)中的成对直观语义距离约束条件“软化”成以下松散相对比较约束:
xj比xk更接近xi                        (4)
这使得生成中的训练图像的排序次序而非尝试保持它们的成对直观语义距离D()的绝对值。
应注意,经由由等式(4)给出的松散相对比较约束学习SDF 
Figure BPA00001310672400099
允许容易地将在此描述的AIA技术实施例扩展成合并诸如弱标记训练数据等的由相对比较关系标记的其他数据。此外,如图像注释领域中所明白的,相比于定量比较约束(例如,A和B之间的距离是0.05而A和C之间的距离是0.08),这样的相对比较约束(例如,A和B之间的距离小于A和C之间的距离)更为符合人对语义相似性的感知。
给定前述的手动注释的训练图像集
Figure BPA000013106724000910
松散相对比较约束集S可以由等式给出:
S={(xa,xb,xc);xb比xc更接近xa}                (5)
其中(xa,xb,xc)指示
Figure BPA000013106724000911
中的训练图像的所有可能的三元组。给定
Figure BPA000013106724000912
中具有特征向量x的特定训练图像以及不在
Figure BPA000013106724000913
中的具有特征向量y的新图像,用于这两个图像之间的直观语义距离D(x,y)的度量可以由以下等式给出:
f ( x , y ) = ( x - y ) T AW A T ( x - y ) - - - ( 6 )
其中W是带有非负元素的对角矩阵且A是规定的变换矩阵。f(x,y)等效于经线性变换的数据点ATx和ATy之间的加权欧几里得距离。在其中AW AT等于单位矩阵的特殊情况中,f(x,y)将等于各原始数据点之间的欧几里得距离。矩阵A确定如何变换各原始数据点。由于线性变换一般地在其可以支持的函数复杂性方面受到限制,可以采用以下核方法来获得非线性变换。
假定存在将给定的特征向量映射到非常高维的向量的映射函数φ(),变换矩阵A可以由等式A=[φ(x1),φ(x2),...,φ(xn)]定义,且然后,f(x,y)的“核化(kernelized)”版本由以下等式给出:
f ( x , y ) = Σ i = 1 n W ii ( K ( x , x i ) - K ( y , x i ) ) 2 - - - ( 7 )
其中核K(x,y)可以由等式K(x,y)=φ(x)φ(y)给出。应注意,此核K()的使用暗示等式(6)中的A的特定选择,且等式(7)中要学习的各参数是W的对角元素。由等式(7)给出的f(x,y)在下文中被认为是
Figure BPA00001310672400102
中的特征向量x的特定训练图像和不在
Figure BPA00001310672400103
中的具有特征向量y的新图像之间的成对SDF,其中为包含x的训练图像集而训练f(x,y)。现在将提供用于f(x,y)的训练技术的示例性实施例的详细描述。
给定由等式(7)定义的用于
Figure BPA00001310672400104
中的特定训练图像和不在
Figure BPA00001310672400105
中的新图像之间的直观语义距离D()的度量f(),且给定由等式(5)定义的松散相对比较约束集S,可以将学习具体的语义聚类
Figure BPA00001310672400106
的SDF
Figure BPA00001310672400107
的任务概括为以下学习算法:
解    Wii
Figure BPA00001310672400108
Wii≥0
通过以类似于常规的支持向量机(SVM)优化算法的方式向松散相对比较约束中的每一个添加松弛变量,可以将等式(8)中的硬约束变换成软约束。为了进一步简化等式(8)的技术,可以将对f()的约束转换成f2()。结果,可以将用于学习具体的语义聚类
Figure BPA00001310672400109
的SDF
Figure BPA000013106724001010
的等式(8)算法转换成以下学习算法:
min    ∑lξl
Figure BPA000013106724001012
Wii≥0
ξl≥0
其中l是对的松散相对比较约束集的索引,且ξl表示松弛变量。
如果
Figure BPA000013106724001017
的松散相对比较约束集S是可行的且存在一个满足所有约束的W,则将一般地存在W的无限数量的解,这是由于可行解W的标量变换一般得到可行解。为解决此情况并使得W的解是唯一的,可以将所学习的SDF 
Figure BPA000013106724001018
尽可能地接近未加权欧几里得语义距离的附加约束添加到S。此附加约束可以重新用公式表示成最小化AW AT的本征值的范数,该范数可以等于范数然后,可以将等式(9)的第一行中所指示的优化算法如下重写为包括此附加约束:
min 1 2 AW A T F 2 + C Σ l ξ l , - - - ( 10 )
其中添加是为了用公式将优化算法表示成常规的二次规划算法的计算便利,C是自动地调整的平衡参数,且C>0。应注意,C越大,就存在越多的需要满足的约束。C越小,
Figure BPA00001310672400112
越接近未加权欧几里得距离。通过应用数学推导,可以将式(9)和式(10)中的优化算法进一步重新用公式表示成以下常规的二次规划算法:
min 1 2 ω T Lω + C Σ l ξ l
Figure BPA00001310672400114
ωi≥0
ξl≥0
其中:
L=(ATA)*(ATA),            (12)
g(x,y)=(ATx-ATy)*(ATx-ATy),
且其中ω是W中的对角元素集,ωi是W中的特定对角元素,且*指示向量之间的逐个元素积。然后,可以通过分别用φ(x)和φ(y)代替x和y且然后将L和g(x,y)两者重写成前述的核函数K()的函数来核化等式(11)和等式(12)。作为此核化的结果,L=M*M,且ATx=[K(x1,x),K(x2,x),...,K(xn,x)]T,其中Mi,j=K(xi,xj)。
给定刚才已经描述的一般SDF学习算法,以下是用于基于前述的松散相对比较约束集S学习具体的第k个训练图像语义聚类的SDF f(k)的过程的实施例的详细描述。第k个训练图像语义聚类可以由等式
Figure BPA00001310672400119
给出,其中
Figure BPA000013106724001110
是此聚类中的第i个图像,且nk是此聚类中的图像的数量。
与学习
Figure BPA000013106724001111
的SDF f(k)相关联的基本任务是从
Figure BPA000013106724001112
中的图像的地面真值成对直观语义距离生成松散相对比较约束集。可以做出包含相似的语义的图像共享相同的SDF的假设。换言之,只有当
Figure BPA000013106724001113
时,前述的用于D(x,y)的度量f(x,y)才是有效的。基于此假设,的松散相对比较约束集可以由以下等式给出:
Figure BPA000013106724001115
其中
Figure BPA000013106724001116
且(xa,xb,xc)是
Figure BPA000013106724001117
中的训练图像的满足以下两个条件之一的所有可能的三元组的子集:
(a)D(xa,xc)>D(xa,xb),或
(b)D(xa,xc)=D(xa,xb)但‖xa-xc‖>‖xa-xb‖               (14)
条件(a)是直接的。条件(b)表示如果特定语义聚类中的两对训练图像具有其间的相同的直观语义距离,则xa中的特征和特征xc中的特征的差异大于xa中的特征和xb中的特征之间的差异。
然而,即使是在由等式(14)给出的条件下,由等式(13)给出的松散相对比较约束的数量也可以是压倒性地大的,这使得等式(11)的第一行中所指示的优化算法求解起来是复杂的。为了解决此情况,可以从随机地采样规定数量的m个松散相对比较约束,得到由给出的松散相对比较约束的子集。然后,可以训练
Figure BPA00001310672400123
的m个不同的成对SDF
Figure BPA00001310672400124
其中使用
Figure BPA00001310672400125
来训练每一不同的成对SDF 
Figure BPA00001310672400126
然后,可以由以下等式生成第k个训练图像语义聚类的总SDF f(k)
f ( k ) = 1 m Σ i = 1 m f i ( k ) - - - ( 15 )
换言之,可以通过计算所训练的第k个聚类的m个不同的成对SDF 
Figure BPA00001310672400128
的均值来生成所学习的该聚类的总SDF f(k)
3.0 新图像注释阶段
再次参考图1,本节提供在此描述的AIA技术实施例的前述的新图像注释阶段102的示例性实施例的详细描述。重要的是应注意,第i个训练图像语义聚类108/112具有其自己的SDF f(i) 116/120,SDF f(i) 116/120仅当其用于测量新图像122和第i个语义聚类中的训练图像之间的语义距离时才是有效的。还重要的是应注意,使用不同的目标函数和不同的约束相互独立地学习不同的SDF f(i) 116/120。出于这些原因,新图像注释阶段102采用两个阶段124/132过程来自动地注释新图像122。现在将提供这两个阶段124/132的各示例性实施例的详细描述。应注意,在接下来的描述中,图像由它们的特征向量标识。因而,
Figure BPA00001310672400129
 104中的给定的训练图像TIi由其特征向量xi标识。
3.1 生成语义聚类的排序列表和关联概率
本节提供AIA技术的前述的图像排序阶段的示例性实施例的详细描述。一般地,如迄今为止所描述且再次参考图1,对于每一训练图像语义聚类108/112,图像排序阶段124如下操作。给定第k个训练图像语义聚类108/112,可以使用习得的该聚类的SDF f(k) 116/120来计算新图像122和聚类中的每一训练图像之间的成对基于特征的语义距离分数,以产生该聚类的成对基于特征的语义距离分数集。如迄今为止所描述的,在此分数集中的每一基于特征的分数指定对新图像122和聚类108/112中的特定训练图像之间的直观语义距离D()的度量。然后,可以使用此分数集来生成排序列表126/130,排序列表126/130根据聚类108/112中的每一训练图像与新图像122的直观语义距离对聚类108/112中的每一训练图像进行排序。可以生成估算聚类108/112中的图像的视觉特征的概率密度函数(PDF)。然后,可以使用该PDF来估算聚类108/112的聚类关联概率p(k) 110/118,聚类关联概率p(k) 110/118指定新图像在语义上与聚类相关联的概率。在示例性实施例中,可以使用常规的核概率密度估算方法来生成PDF。
3.2 将关键字注释传播给新图像
本节提供AIA技术的前述的注释传播阶段的示例性实施例的详细描述。再次参考图1,对于每一训练图像语义聚类108/112,注释传播阶段132如下操作。给定第k个训练图像语义聚类108/112、已经手动地应用到每一训练图像的前述的关键字注释向量ti和第k个聚类的前述的排序列表126/130,第k个聚类的关键字注释可以由等式
Figure BPA00001310672400132
给出,其中nk是第k个聚类的训练图像的总数,且
Figure BPA00001310672400133
是已经手动地应用到排序列表中的第i个训练图像的关键字注释向量。假定
Figure BPA00001310672400134
表示新图像122和排序列表126/130中的第i个训练图像之间的成对基于特征的语义距离分数,第k个聚类108/112的经排序的成对语义距离分数集可以由等式
Figure BPA00001310672400135
给出。可以以权重1.0将第k个聚类108/112的排序列表126/130中的第一训练图像的关键字注释向量
Figure BPA00001310672400136
传播给新图像122,且可以以权重0.5将第k个聚类的排序列表中的第五训练图像的关键字注释向量
Figure BPA00001310672400137
传播给新图像。因而,从第k个训练图像语义聚类108/112传播给新图像122的概率关键字注释134/138的向量w(k)可以由以下等式给出:
w ( k ) = 1 n k Σ i d 1 ( k ) - α ( k ) d i ( k ) - α ( k ) * t i ( k ) - - - ( 16 )
其中α(k)是被设置为使得
Figure BPA00001310672400139
的规定系数。然后,可以将w(k)归一化。在经测试的实施例中,将w(k)归一化为使得w(k)的L-1范数是一。
再次参考图1,一旦已经为每一训练图像语义聚类108/112生成新图像122的概率关键字注释134/138的经归一化的向量w(i),然后,就可以通过应用以下等式,以加权融合方式线性组合这些向量w(i)中的每一个140,以便产生新图像142的最终关键字注释向量w,该等式为:
w = Σ i = 1 H p ( i ) * w ( i ) - - - ( 17 )
其中p(i)是在图像排序阶段124中为每一聚类估算的前述的聚类关联概率110/118。应注意,w包含新图像的所有可能的关键字注释的加权集合。取决于
Figure BPA00001310672400142
中的训练图像的数量和性质以及中的它们的关联的关键字注释,w可以包含大量的加权关键字注释。从实用的观点看,可以以各种方式生成新图像的较小最终注释集。作为示例而非限制,在一个AIA技术的实施例中,可以通过选择w中具有最大权重的规定数量的关键字注释来生成较小集合。在另一实施例中,可以通过选择w中其权重超过规定阈值的关键字注释来生成较小集合。
4.0 AIA过程
给定前述的描述,图2A-图2C以简化形式阐释用于自动地注释新图像的过程的示例性实施例。如图2A中所叙述,该过程以输入训练图像集
Figure BPA00001310672400147
 200开始,其中新图像不在
Figure BPA00001310672400148
中。然后,用关键字注释向量手动地注释
Figure BPA00001310672400149
中的每一训练图像202。然后,通过首先计算
Figure BPA000013106724001410
中的训练图像的每一可能对之间的成对基于注释的语义距离分数SD()206,然后利用恒定移位嵌入架构来将中的训练图像嵌入到欧几里得向量空间208中,且然后利用x-means算法来基于分数将所嵌入的训练图像分组成H个不同的训练图像语义聚类
Figure BPA000013106724001413
 SD() 210,将划分成多个训练图像语义聚类
Figure BPA000013106724001415
204。然后,将聚类标识符k初始化成一212。然后,通过首先为
Figure BPA000013106724001416
生成松散相对比较约束集
Figure BPA000013106724001417
 216,然后从
Figure BPA000013106724001418
随机地采样规定数量的m个约束,以产生
Figure BPA000013106724001419
的松散相对比较约束的子集 218,然后,训练
Figure BPA000013106724001421
的m个不同的成对SDF 
Figure BPA000013106724001422
220,其中使用
Figure BPA000013106724001423
来训练每一成对SDF 
Figure BPA000013106724001424
且然后通过计算
Figure BPA000013106724001425
的均值来生成
Figure BPA000013106724001426
的SDF f(1)222,学习训练图像的第一聚类
Figure BPA000013106724001427
的语义距离函数(SDF) f(1) 214。
再次参考图2A和2B,一旦过程动作222已经完成,然后,利用f(1)来计算新图像和
Figure BPA000013106724001428
中的每一训练图像之间的成对基于特征的语义距离分数,以产生
Figure BPA000013106724001429
的成对基于特征的语义距离分数集224。然后,利用
Figure BPA000013106724001430
的成对基于特征的语义距离分数集来生成
Figure BPA000013106724001431
的排序列表226,其中此列表根据
Figure BPA000013106724001432
中的每一训练图像与新图像的直观语义距离来对
Figure BPA000013106724001433
中的每一训练图像进行排序。一旦过程动作226已经完成,然后,就如下估算
Figure BPA000013106724001434
的聚类的关联概率p(1) 228。首先生成估算
Figure BPA000013106724001435
中的训练图像中的视觉特征的概率密度函数(PDF)230。然后利用该PDF来估算指定新图像在语义上与
Figure BPA000013106724001436
相关联的概率的聚类关联概率p(1) 232。
再次参考图2B和图2C,一旦过程动作232已经完成,就将
Figure BPA00001310672400151
中的每一训练图像的关键字注释向量如下概率性地传播给新图像244。如迄今为止所描述的,首先利用
Figure BPA00001310672400152
的排序列表来对
Figure BPA00001310672400153
中的所有训练图像的关键字注释向量进行排序,以产生
Figure BPA00001310672400154
的经排序关键字注释集246。然后,如迄今为止所描述的,利用
Figure BPA00001310672400155
的排序列表来对新图像和
Figure BPA00001310672400156
中的每一训练图像之间的成对基于特征的语义距离分数进行排序,以产生
Figure BPA00001310672400157
的经排序的成对基于特征的语义距离分数集248。然后,如迄今为止所描述的,计算新图像的聚类专用概率性注释向量w(1) 250,且然后归一化w(1) 258。
再次参考图2A-图2C,一旦过程动作258已经完成,就使聚类标识符k递增1252。如果k不大于H 254,则对接下来的训练图像语义聚类
Figure BPA00001310672400158
重复过程动作216、218、220、222、224、226、230、232、246、248、250、258和252。如果k大于H 254,则如迄今为止所描述的,最终利用所有训练图像语义聚类
Figure BPA00001310672400159
的聚类关联概率p(k)和聚类专用概率性注释向量w(k)来生成新图像的最终关键字注释向量w256。
5.0 相对比较分数(RCS)性能测量技术
本节提供语义相对比较分数(RCS)技术的示例性实施例的详细描述,该技术用于通过考虑由两种不同的AIA算法为相同图像自动生成的关键字注释之间的语义相关性来测量和比较各算法的注释精确度。一般地,在此描述的语义RCS技术实施例基于这样的规则:如果图像的自动地生成的关键字注释不具有对图像的地面真值注释的准确匹配,则预期自动生成的关键字注释尽可能接近地表示图像语义。作为示例而非限制,如果一瀑布的图像中不存在云,为此图像生成关键字注释水比为此图像生成关键字注释云更为精确。
给定已经用特定关键字w自动地注释的图像,即使w并非恰好匹配已经手动地应用到图像(即图像的地面真值注释)的关键字注释中的任一个,在某些情况下w仍然可以是图像的可接受的(即精确的)注释。事实上,在一些情况中,w可以实际上是比恰好匹配图像的特定地面真值注释的注释更加精确的图像注释。此情况的一个示例可见于图5,图5阐释比较由三种不同的图像注释算法应用到相同图像的关键字注释的表格。
再次参考图5,在该表的第一行500中,将关键字注释手动地应用到图像。在该表的第二行502中,由AIA算法1自动地生成图像的关键字注释。在该表的第三行504中,由AIA算法2自动地生成图像的关键字注释。假定如迄今为止所描述,认为手动地应用的注释是图像的地面真值注释,应注意,由AIA算法1生成的注释包含一个准确地匹配地面真值注释的关键字注释(山),而由AIA算法2生成的注释不包含准确地匹配地面真值注释的关键字注释。然而,由AIA算法2生成的注释实际上比由AIA算法1生成的那些注释更加精确,这是由于由算法2生成的关键字中的三个(树、水和太阳)语义上类似于地面真值注释中的三个(例如,树/树干、水/瀑布和水/日出)。现在将提供语义RCS技术的示例性实施例的详细描述。
图像集T可以由等式T={x1,x2,...,xn}给出,其中xi是描述第i个图像(在下文中被表示为Ti)中的低级视觉特征的特征向量,且n是T中的图像的总数。已经手动地应用到T的地面真值关键字注释集TG可以由等式
Figure BPA00001310672400161
给出,其中
Figure BPA00001310672400162
是已经手动地应用到Ti的地面真值关键字注释向量。类似地,已经分别由AIA算法1和AIA算法2为T自动生成的关键字注释集TA1和集TA2可以分别由等式
Figure BPA00001310672400163
和等式
Figure BPA00001310672400164
给出,其中
Figure BPA00001310672400165
是已经由AIA算法1为Ti自动生成的关键字注释向量,且
Figure BPA00001310672400166
是已经由AIA算法2为Ti自动生成的关键字注释向量。
测量和比较AIA算法1和AIA算法2的注释精确度的语义RCS可以由以下等式给出:
Figure BPA00001310672400167
其中SD(·,·)是由等式(1)和等式(2)给出的成对基于注释的语义距离。如果RCS>0.5,则由AIA算法1为T生成的关键字注释语义上比由AIA算法2生成的那些关键字注释更为精确(即,算法1的注释精确度比算法2的注释精确度更高)。如果RCS<0.5,则由AIA算法2为T生成的关键字注释语义上比由AIA算法1生成的那些关键字注释更为精确(即,算法2的注释精确度比算法1的注释精确度更高)。如果RCS=0.5,则算法1和算法2的注释精确度可以认为是相同的。在此描述的语义RCS技术实施例是有益的,这是由于语义RCS技术实施例还考虑图像的注释与地面真值注释的语义相关性,而不是仅当存在对图像中的可视概念的准确匹配时才认为给定图像的关键字注释是“正确的”。
5.1 RCS过程
图3以简化形式阐释比较两种不同的AIA算法的注释精确度的过程的示例性实施例。如图3中所叙述的,该过程以输入图像集T开始300。然后,将地面真值关键字注释手动地应用到T中的每一图像302。然后,利用第一AIA算法来自动地生成T中的每一图像的第一关键字注释304,且利用第二AIA算法来自动地生成T中的每一图像的第二关键字注释306。然后,计算T中的每一图像的第一成对语义距离分数SD()308,其中此第一分数SD()指定对第一关键字注释和地面真值关键字注释之间的语义距离的度量,且计算T中的每一图像的第二成对语义距离分数SD() 310,其中此第二分数SD()指定对第二关键字注释和地面真值关键字注释之间的语义距离的度量。然后,通过首先确定T中的对于其第一分数SD()小于第二分数SD()的图像的数量,且然后将此图像数量除以T中的图像总数,生成比较第一AIA算法和第二AIA算法的注释精确度的语义相对比较分数312。
6.0 计算环境
本节提供了对其中可实现此处所描述的AIA技术和语义RCS技术实施例的各部分的合适的计算系统环境的简要、概括描述。这些AIA技术和语义RCS技术实施例可用于众多通用或专用计算系统环境或配置。适合的示例性公知计算系统、环境和/或配置包括但不限于个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型机、大型计算机、包括以上系统或设备的任一个的分布式计算环境等等。
图4以简化形式示出了根据此处所描述的AIA技术和语义RCS技术实施例的合适的计算系统环境的示例性实施例的图示。图4所示的环境只是合适的计算系统环境的一个示例,并且不旨在对此处所描述的AIA技术和语义RCS技术实施例的使用范围或功能提出任何限制。也不应该把该计算系统环境解释为对图4所例示的任一组件或其组合有任何依赖性或要求。
如图4所示,用于实现此处所描述的AIA技术和语义RCS技术实施例的示例性系统包括一个或多个计算设备,诸如计算设备400。在其最简单的配置中,计算设备400通常包括至少一个处理单元402和存储器404。取决于计算设备的具体配置和类型,存储器404可以是易失性的(诸如RAM)、非易失性的(诸如ROM和闪存等)或是两者的某种组合。该最简单的配置由虚线406示出。
如图4所例示的,计算设备400还可具有附加特征和功能。作为示例,计算设备400可包括附加存储,诸如可移动存储408和/或不可移动存储410。该附加存储包括但不限于,磁盘、光盘和磁带。计算机存储介质通常包含用任何方法或技术来实现的易失性和非易失性介质以及可移动和不可移动介质。计算机存储介质提供对诸如与操作系统、应用程序和其他程序模块以及数据结构相关联的计算机可读指令等操作设备400所需的各种信息的存储。存储器404、可移动存储408和不可移动存储410都是计算机存储介质的示例。计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储技术、磁带盒、磁带、磁盘存储或其它磁性存储设备、或可用于存储所需信息并且可由计算设备400访问的任何其它介质。任何这样的计算机存储介质都可以是计算设备400的一部分。
如图4所例示的,计算设备400还包括通信连接412,该通信连接允许设备在联网环境中操作并与诸如远程计算设备418等远程计算设备通信。远程计算设备418可以是PC、服务器、路由器、对等设备或其他常见网络节点,并且通常包括此处所描述的与计算设备400相关的元素中的许多或全部。计算设备之间的通信通过一个或多个网络420发生,这些网络中的每一个都在计算设备之间提供逻辑连接。逻辑连接都可包括一种或多种不同类型的网络,包括但不限于,局域网(LAN)和广域网(WAN)。这些联网环境常见于在常规办公室、企业范围计算机网络、内联网和因特网。可以理解,此处所描述的通信连接412及相关网络420是示例性的,且可以使用在计算设备之间建立通信的其它手段。
如图4所例示的,通信连接412及相关网络420是通信介质的示例。通信介质通常以诸如载波或其他传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据,并包括任一信息传送介质。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被设定或更改的信号。作为示例而非限制,通信介质包括有线介质,如有线网络或直接连线连接,以及无线介质,如声学、RF、红外线、调频(FM)无线电和其它无线介质。如此处所用的术语“计算机可读介质”既包括上述存储介质又包括通信介质。
如图4所例示的,计算设备400还包括输入设备414和输出设备416。示例性输入设备414包括但不限于,键盘、鼠标、笔、触摸输入设备、话筒和照相机等。用户可通过输入设备414来将命令和各种类型的信息输入到计算设备400中。示例性输出设备416包括但不限于显示设备、打印机和音频输出设备等。这些输入和输出设备是公知的且无需在此赘述。
再次参考图4,此处所描述的AIA技术和语义RCS技术实施例还可在诸如程序模块等由计算设备400执行的计算机可执行指令的一般上下文中描述。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和数据结构等。AIA技术和语义RCS技术实施例还可在其中任务由通过通信网络412/420链接的一个或多个远程计算设备418执行的分布式计算环境中实现。在分布式计算环境中,程序模块可以位于包括但不限于存储器404和存储设备408/410的本地和远程计算机存储介质中。
7.0 附加实施例
尽管参考具体实施例详细地描述了AIA技术和语义RCS技术,但可以理解,可对这些实施例作出修改和变化而不背离AIA技术和语义RCS技术的真正精神和范围。作为示例而非限制,除了上述用于将嵌入在欧几里得向量空间中的训练图像分组成H个不同的语义聚类的x-means算法之外,可另选地采用诸如常规谱聚合算法或常规高斯混合模型算法来执行该语义聚合。还注意,可以按所需的任何组合使用上述实施例的任一个或全部以形成另外的混合实施例。尽管用对结构特征和/或方法动作专用的语言描述了AIA技术和语义RCS技术实施例,但可以理解,所附权利要求书中定义的主题不必限于至今所述具体特征或动作。相反,至今所述的具体特征和动作是作为实现权利要求的示例形式公开的。

Claims (20)

1.一种用来自动地注释新图像的计算机实现的过程,包括使用计算设备来执行以下过程动作:
输入训练图像集
Figure FPA00001310672300011
其中所述新图像不在
Figure FPA00001310672300012
中;
用关键字注释向量手动地注释
Figure FPA00001310672300013
中的每一训练图像;
Figure FPA00001310672300014
划分成多个训练图像语义聚类
Figure FPA00001310672300015
其中k是唯一地标识每一聚类的变量,包括语义上相似的训练图像,且将每一训练图像划分到单个聚类中;
对每一训练图像语义聚类
Figure FPA00001310672300017
学习
Figure FPA00001310672300018
的语义距离函数(SDF)f(k)
利用f(k)来计算所述新图像和
Figure FPA00001310672300019
中的每一训练图像之间的成对基于特征的语义距离分数,以产生
Figure FPA000013106723000110
的成对基于特征的语义距离分数集,其中所述集合中的每一基于特征的分数指定对所述新图像和
Figure FPA000013106723000111
中的特定训练图像之间的直观语义距离的度量,
利用
Figure FPA000013106723000112
的所述成对基于特征的语义距离分数集来生成
Figure FPA000013106723000113
的排序列表,其中所述列表根据
Figure FPA000013106723000114
中的每一训练图像与所述新图像的直观语义距离来对
Figure FPA000013106723000115
中的该训练图像进行排序,
估算
Figure FPA000013106723000116
的聚类关联概率p(k),其中p(k)指定所述新图像在语义上与
Figure FPA000013106723000117
相关联的概率,并且
Figure FPA000013106723000118
中的每一训练图像的所述关键字注释向量概率性地传播至所述新图像,以产生所述新图像的聚类专用概率性注释向量w(k);以及
利用所有训练图像语义聚类
Figure FPA000013106723000119
的p(k)和w(k)来生成所述新图像的最终关键字注释向量w。
2.如权利要求1所述的过程,其特征在于,
每一训练图像的所述关键字注释向量充当所述图像的元数据标签,所述向量包括一个或多个文本关键字,其中,
从规定的关键字词汇表提取所述关键字,并且
每一关键字描述所述图像中的不同的低级视觉特征。
3.如权利要求2所述的过程,其特征在于,所述规定的关键字词汇表包括Corel关键字数据库。
4.如权利要求2所述的过程,其特征在于,每一训练图像的所述关键字注释向量包括一个到五个之间的不同的关键字。
5.如权利要求1所述的过程,其特征在于,每一训练图像的语义被假定为由所述图像的所述关键字注释向量表示,且所述将
Figure FPA00001310672300021
划分成多个训练图像语义聚类
Figure FPA00001310672300022
的过程动作包括以下动作:
计算
Figure FPA00001310672300023
中的训练图像的每一可能对之间的成对基于注释的语义距离分数SD(),其中每一分数SD()指定对
Figure FPA00001310672300024
中的训练图像的特定对之间的直观语义距离的度量;以及
利用所述分数SD()来将中的训练图像划分成H个不同的训练图像语义聚类
Figure FPA00001310672300026
6.如权利要求5所述的过程,其特征在于,
Figure FPA00001310672300027
中的训练图像的特定对的所述成对基于注释的语义距离分数SD()由等式
Figure FPA00001310672300028
给出,其中,
a是所述对中的一个图像的关键字注释向量,n1是a中的关键字的总数,且ai是a中的特定关键字,并且
b是所述对中的另一图像的关键字注释向量,n2是b中的关键字的总数,且bj是b中的特定关键字。
7.如权利要求6所述的过程,其特征在于,
采用Jiang和Conrath(JCN)关键字相似性度量JCN()来计算SD(ai,bj),并且
SD(ai,bj)由以下等式给出:
Figure FPA00001310672300029
8.如权利要求5所述的过程,其特征在于,所述利用所述分数SD()来将
Figure FPA000013106723000210
中的训练图像划分成H个不同的训练图像语义聚类
Figure FPA000013106723000211
的过程动作包括以下动作:
利用恒定移位嵌入架构来将
Figure FPA000013106723000212
中的训练图像嵌入到欧几里得向量空间中;以及
基于所述分数SD(),利用x-means算法来将所嵌入的训练图像分组成H个不同的训练图像语义聚类
Figure FPA00001310672300032
其中所述x-means算法自动地确定H的最优值。
9.如权利要求1所述的过程,其特征在于,由等式给出,n是
Figure FPA00001310672300036
中的训练图像的总数,xi是包括包含在所述图像中的低级视觉特征的第i个训练图像的特征向量,
Figure FPA00001310672300037
由等式
Figure FPA00001310672300038
给出,其中nk中的训练图像的数量,且所述学习的语义距离函数(SDF)f(k)的过程动作包括以下动作:
生成的松散相对比较约束集
Figure FPA000013106723000312
其中
Figure FPA000013106723000313
由等式
Figure FPA000013106723000314
给出,且(xa,xb,xc)是
Figure FPA000013106723000315
中的训练图像的满足以下两个条件之一的所有可能的三元组的子集:
xa和xc之间的直观语义距离大于xa和xb之间的所述距离的第一条件,或
xa和xc之间的直观语义距离等于xa和xb之间的所述距离但xa中的特征和xc中的特征之间的差异大于xa中的特征和xb中的特征之间的差异的第二条件;
Figure FPA000013106723000316
随机地采样规定数量的m个约束以得到由给出的
Figure FPA000013106723000318
的松散相对比较约束的子集;
训练
Figure FPA000013106723000319
的m个不同的成对SDF其中每一成对SDF
Figure FPA000013106723000321
使用
Figure FPA000013106723000322
来训练;以及
通过计算所述m个不同的成对SDF
Figure FPA000013106723000323
的均值来生成f(k)
10.如权利要求9所述的过程,其特征在于,每一成对SDF
Figure FPA000013106723000324
由等式
Figure FPA000013106723000325
给出,其中,
x是所考虑的训练图像的特征向量,
y是所述新图像的特征向量,
W是带有非负元素的对角矩阵,并且
K()是由等式K(x,y)=φ(x)φ(y)给出的核,其中φ()是将给定特征向量映射到非常高维度的向量的映射函数。
11.如权利要求10所述的过程,其特征在于,所述对角矩阵W使用以下二次规划算法来计算
min 1 2 ω T Lω + C Σ l ξ l
Figure FPA00001310672300042
其中,
ωi≥0
ξl≥0
L由等式L=(ATA)*(ATA)给出,
g()由等式g(x,y)=(ATx-ATy)*(ATx-ATy)给出,
ω是W中的对角元素集,
ωi是W中的特定对角元素,
C是自动地调整且大于0的平衡参数,
l是
Figure FPA00001310672300048
的松散相对比较约束集
Figure FPA00001310672300049
的索引,
ξl是松弛变量,
*表示向量之间的元素级积,并且
A是规定的变换矩阵。
12.如权利要求10所述的过程,其特征在于,所述估算
Figure FPA000013106723000411
的聚类关联概率p(k)的过程动作包括以下动作:
生成估算
Figure FPA000013106723000412
中的所述训练图像的视觉特征的概率密度函数(PDF);以及
利用所述PDF来估算聚类关联概率p(k)。
13.如权利要求1所述的过程,其特征在于,所述将
Figure FPA000013106723000413
中的每一训练图像的所述关键字注释向量概率性地传播至所述新图像的过程动作包括以下动作:
利用
Figure FPA000013106723000414
的所述排序列表来对中的所有训练图像的所述关键字注释向量进行排序,以产生
Figure FPA000013106723000416
的由
Figure FPA000013106723000417
给出的经排序关键字注释集,其中nk
Figure FPA000013106723000418
中的训练图像的总数,且
Figure FPA000013106723000419
是所述排序列表中的第i个训练图像的所述关键字注释向量;
利用
Figure FPA000013106723000420
的所述排序列表来对所述新图像和
Figure FPA000013106723000421
中的每一训练图像之间的所述成对基于特征的语义距离分数进行排序,以产生
Figure FPA000013106723000422
的由
Figure FPA000013106723000423
给出的经排序的成对基于特征的语义距离分数集,其中
Figure FPA000013106723000424
是所述新图像和所述排序列表中的第i个训练图像之间的所述成对基于特征的语义距离分数;
将所述聚类专用概率性注释向量w(k)计算为
Figure FPA000013106723000425
其中α(k)是规定的系数;以及
归一化w(k)
14.如权利要求13所述的过程,其特征在于,α(k)被设置为使得 d 1 ( k ) - α ( k ) d 5 ( k ) - α ( k ) = 0.5 .
15.如权利要求13所述的过程,其特征在于,w(k)被归一化为使得w(k)的L-1范数是一。
16.如权利要求1所述的过程,其特征在于,
多个训练图像语义聚类
Figure FPA00001310672300052
包括H个不同的聚类,
所述新图像的最终关键字注释向量w由等式
Figure FPA00001310672300053
给出,并且
*表示各向量之间的元素级积。
17.一种用于比较两种不同的自动图像注释(AIA)算法的注释精确度的计算机实现的过程,包括使用计算设备来执行以下过程动作:
输入图像集T;
手动地将地面真值关键字注释应用到T中的每一图像,其中T包括由n给出的图像总数;
利用第一AIA算法来自动地生成T中的每一图像的第一关键字注释;
利用第二AIA算法来自动地生成T中的每一图像的第二关键字注释;
计算T中的每一图像的第一成对语义距离分数SD(),其中所述第一分数SD()指定对所述第一关键字注释和所述地面真值关键字注释之间的语义距离的度量;
计算T中的每一图像的第二成对语义距离分数SD(),其中所述第二分数SD()指定对所述第二关键字注释和所述地面真值关键字注释之间的所述语义距离的度量;以及
通过首先确定T中的对于其所述第一分数SD()小于所述第二分数SD()的图像的数量,且然后将所述图像的数量除以n,来生成比较所述第一AIA算法和所述第二AIA算法的注释精确度的语义相对比较分数(RCS)。
18.如权利要求17所述的过程,其特征在于,
只要所述语义RCS大于0.5,AIA算法1的注释精确度就大于AIA算法2的注释精确度,
只要所述语义RCS小于0.5,所述AIA算法2的注释精确度就大于所述AIA算法1的注释精确度,并且
只要所述语义RCS等于0.5,所述AIA算法1和所述AIA算法2的注释精确度就相等。
19.如权利要求17所述的过程,其特征在于,T中的每一图像的所述成对语义距离分数SD()由等式
Figure FPA00001310672300061
给出,其特征在于,
tG是所述图像的地面真值关键字注释向量,n1是tG中的关键字的总数,且
Figure FPA00001310672300062
是tG中的特定关键字,
tA是为所述图像自动生成的第一关键字注释或第二关键字注释的向量,n2是tA中的关键字的总数,且
Figure FPA00001310672300063
是tA中的特定关键字,
采用Jiang和Conrath(JCN)关键字相似性度量JCN()来计算
Figure FPA00001310672300064
并且
Figure FPA00001310672300065
由以下等式给出:
Figure FPA00001310672300066
20.一种用于自动地注释新图像的计算机实现的过程,包括使用计算设备来执行以下过程动作:
输入训练图像集
Figure FPA00001310672300067
其中所述新图像不在
Figure FPA00001310672300068
中;
用包括一个或多个文本关键字的注释向量手动地注释
Figure FPA00001310672300069
中的每一训练图像,其中每一关键字描述所述图像中的不同的低级视觉特征;
计算中的训练图像的每一可能对之间的成对基于注释的语义距离分数;
利用恒定移位嵌入架构来将中的训练图像嵌入到欧几里得向量空间中;
利用x-means
Figure FPA000013106723000612
算法来基于所述基于注释的分数将所嵌入的训练图像分组成H个不同的训练图像语义聚类
Figure FPA000013106723000613
其中k是唯一地标识每一聚类
Figure FPA000013106723000614
的变量;
对于每一训练图像语义聚类
Figure FPA000013106723000615
生成的松散相对比较约束集
Figure FPA000013106723000617
其中
Figure FPA000013106723000618
由等式给出,
Figure FPA000013106723000620
Figure FPA000013106723000621
中的第i个训练图像的特征向量,nk
Figure FPA000013106723000622
中的训练图像的数量,
Figure FPA000013106723000623
由等式
Figure FPA000013106723000624
给出,且(xa,xb,xc)是
Figure FPA000013106723000625
中的训练图像的满足以下两个条件之一的所有可能的三元组的子集:
xa和xc之间的直观语义距离大于xa和xb之间的所述距离的第一条件,或者
xa和xc之间的直观语义距离等于xa和xb之间的所述距离但xa中的特征和xc中的特征之间的差异大于xa中的特征和xb中的特征之间的差异的第二条件,
Figure FPA00001310672300071
随机地采样规定数量的m个约束以得到由
Figure FPA00001310672300072
给出的
Figure FPA00001310672300073
的松散相对比较约束的子集,
训练
Figure FPA00001310672300074
的m个不同的成对语义距离函数(SDF)
Figure FPA00001310672300075
其中每一成对SDF
Figure FPA00001310672300076
使用
Figure FPA00001310672300077
来训练,
通过计算所述m个不同的成对SDF
Figure FPA00001310672300078
的平均值来生成
Figure FPA00001310672300079
的SDF
利用f(k)来计算所述新图像和
Figure FPA000013106723000711
中的每一训练图像之间的成对基于特征的语义距离分数,以产生的成对基于特征的语义距离分数集,
利用
Figure FPA000013106723000713
的所述成对基于特征的语义距离分数集来生成
Figure FPA000013106723000714
的排序列表,其中所述列表根据中的每一训练图像与所述新图像的直观语义距离来对
Figure FPA000013106723000716
中的该训练图像进行排序,
生成估算
Figure FPA000013106723000717
中的训练图像的所述视觉特征的概率密度函数(PDF),
利用所述PDF来估算
Figure FPA000013106723000718
的聚类关联概率p(k),其中p(k)指定所述新图像在语义上与相关联的概率,
利用
Figure FPA000013106723000720
的所述排序列表来对中的所有训练图像的所述注释向量进行排序,以产生
Figure FPA000013106723000722
的由
Figure FPA000013106723000723
给出的经排序注释集合,其中
Figure FPA000013106723000724
是排序列表中的第i个训练图像的所述注释向量,
利用
Figure FPA000013106723000725
的所述排序列表来对所述新图像和中的每一训练图像之间的所述成对基于特征的语义距离分数进行排序,以产生
Figure FPA000013106723000727
的由
Figure FPA000013106723000728
给出的经排序的成对基于特征的语义距离分数集,其中
Figure FPA000013106723000729
是所述新图像和所述排序列表中的第i个训练图像之间的所述成对基于特征的语义距离分数,
将所述新图像的聚类专用概率性注释向量w(k)计算为
Figure FPA000013106723000730
其中α(k)是规定的系数且*表示向量之间的元素级积,以及
归一化w(k);以及
利用所有训练图像语义聚类
Figure FPA00001310672300081
的p(k)和w(k)来生成所述新图像的最终注释向量w,w由等式
Figure FPA00001310672300082
给出。
CN2009801317069A 2008-06-11 2009-06-11 使用语义距离学习的自动图像注释 Expired - Fee Related CN102119389B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/136,773 US7890512B2 (en) 2008-06-11 2008-06-11 Automatic image annotation using semantic distance learning
US12/136,773 2008-06-11
PCT/US2009/047122 WO2009152390A2 (en) 2008-06-11 2009-06-11 Automatic image annotation using semantic distance learning

Publications (2)

Publication Number Publication Date
CN102119389A true CN102119389A (zh) 2011-07-06
CN102119389B CN102119389B (zh) 2013-12-18

Family

ID=41415737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801317069A Expired - Fee Related CN102119389B (zh) 2008-06-11 2009-06-11 使用语义距离学习的自动图像注释

Country Status (4)

Country Link
US (1) US7890512B2 (zh)
EP (1) EP2310956A4 (zh)
CN (1) CN102119389B (zh)
WO (1) WO2009152390A2 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682059A (zh) * 2015-11-11 2017-05-17 奥多比公司 根据图像的结构化的知识建模和提取
CN106980868A (zh) * 2016-01-15 2017-07-25 奥多比公司 用于具有多个文本标签的图像的嵌入空间
CN107209760A (zh) * 2014-12-10 2017-09-26 凯恩迪股份有限公司 加权的子符号数据编码
CN110414307A (zh) * 2018-04-26 2019-11-05 沃尔沃汽车公司 用于半自动图像分割和注释的方法和系统
CN113326411A (zh) * 2020-02-28 2021-08-31 中国移动通信集团福建有限公司 一种网络行为知识增强方法、装置及电子设备
US11238362B2 (en) 2016-01-15 2022-02-01 Adobe Inc. Modeling semantic concepts in an embedding space as distributions

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8165405B2 (en) * 2006-12-18 2012-04-24 Honda Motor Co., Ltd. Leveraging temporal, contextual and ordering constraints for recognizing complex activities in video
KR100889026B1 (ko) * 2008-07-22 2009-03-17 김정태 이미지를 이용한 검색 시스템
US8972410B2 (en) * 2008-07-30 2015-03-03 Hewlett-Packard Development Company, L.P. Identifying related objects in a computer database
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US8214734B2 (en) 2008-10-09 2012-07-03 International Business Machines Corporation Credibility of text analysis engine performance evaluation by rating reference content
US8645123B2 (en) * 2008-10-27 2014-02-04 Microsoft Corporation Image-based semantic distance
US9141860B2 (en) 2008-11-17 2015-09-22 Liveclips Llc Method and system for segmenting and transmitting on-demand live-action video in real-time
US8406573B2 (en) * 2008-12-22 2013-03-26 Microsoft Corporation Interactively ranking image search results using color layout relevance
JP2011053781A (ja) * 2009-08-31 2011-03-17 Seiko Epson Corp 画像データベース作成装置、画像検索装置、画像データベース作成方法および画像検索方法
US8903166B2 (en) * 2010-01-20 2014-12-02 Microsoft Corporation Content-aware ranking for visual search
AU2011210535B2 (en) * 2010-02-01 2015-07-16 Google Llc Joint embedding for item association
US20110191334A1 (en) * 2010-02-04 2011-08-04 Microsoft Corporation Smart Interface for Color Layout Sensitive Image Search
US8825744B2 (en) 2010-06-10 2014-09-02 Microsoft Corporation Active image tagging
US20120114199A1 (en) * 2010-11-05 2012-05-10 Myspace, Inc. Image auto tagging method and application
CA2817103C (en) 2010-11-11 2016-04-19 Google Inc. Learning tags for video annotation using latent subtags
US8989514B2 (en) 2011-02-03 2015-03-24 Voxeleron Llc Method and system for image analysis and interpretation
US8903198B2 (en) * 2011-06-03 2014-12-02 International Business Machines Corporation Image ranking based on attribute correlation
CN102253996B (zh) * 2011-07-08 2013-08-21 北京航空航天大学 一种多视角阶段式的图像聚类方法
US8458174B1 (en) * 2011-09-02 2013-06-04 Google Inc. Semantic image label synthesis
DE102011113154B4 (de) * 2011-09-14 2015-12-03 Airbus Defence and Space GmbH Maschinelles Lernverfahren zum maschinellen Erlernen von Erscheinungsformen von Objekten in Bildern
US8958630B1 (en) * 2011-10-24 2015-02-17 Google Inc. System and method for generating a classifier for semantically segmenting an image
US9239848B2 (en) 2012-02-06 2016-01-19 Microsoft Technology Licensing, Llc System and method for semantically annotating images
US9015201B2 (en) * 2012-04-24 2015-04-21 Honeywell International Inc. Discriminative classification using index-based ranking of large multimedia archives
US20130283143A1 (en) 2012-04-24 2013-10-24 Eric David Petajan System for Annotating Media Content for Automatic Content Understanding
US9367745B2 (en) 2012-04-24 2016-06-14 Liveclips Llc System for annotating media content for automatic content understanding
US8745059B1 (en) * 2012-05-11 2014-06-03 Google Inc. Clustering queries for image search
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
US9465813B1 (en) * 2012-11-09 2016-10-11 Amazon Technologies, Inc. System and method for automatically generating albums
US9424279B2 (en) * 2012-12-06 2016-08-23 Google Inc. Presenting image search results
US9286325B2 (en) * 2013-05-21 2016-03-15 Xerox Corporation Methods and systems for ranking images using semantic and aesthetic models
US10319035B2 (en) 2013-10-11 2019-06-11 Ccc Information Services Image capturing and automatic labeling system
CN103823845B (zh) * 2014-01-28 2017-01-18 浙江大学 一种基于深度学习的遥感影像自动标注方法
US9607071B2 (en) * 2014-03-07 2017-03-28 Adobe Systems Incorporated Managing a distributed database across a plurality of clusters
US10013436B1 (en) * 2014-06-17 2018-07-03 Google Llc Image annotation based on label consensus
US9552549B1 (en) * 2014-07-28 2017-01-24 Google Inc. Ranking approach to train deep neural nets for multilabel image annotation
WO2016070098A2 (en) * 2014-10-31 2016-05-06 Paypal, Inc. Determining categories for weakly labeled images
US9621962B2 (en) 2015-01-06 2017-04-11 The Directv Group, Inc. Methods and systems for recording and sharing digital video
US10460033B2 (en) 2015-11-11 2019-10-29 Adobe Inc. Structured knowledge modeling, extraction and localization from images
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10515379B2 (en) * 2016-12-20 2019-12-24 Adobe Inc. Computerized detection and semantic characterization of trends in digital media content
CN108268510B (zh) * 2016-12-30 2022-01-28 华为技术有限公司 一种图像标注方法和装置
CN109783806B (zh) * 2018-12-21 2023-05-02 众安信息技术服务有限公司 一种利用语义解析结构的文本匹配方法
EP3832491A1 (en) * 2019-12-06 2021-06-09 Idemia Identity & Security France Methods for processing a plurality of candidate annotations of a given instance of an image, and for learning parameters of a computational model
CN111523592B (zh) * 2020-04-21 2023-05-09 易元数字(北京)科技集团有限公司 一种基于深度学习的文物艺术品领域图像相似度度量方法
US11430240B2 (en) 2020-05-06 2022-08-30 Volvo Car Corporation Methods and systems for the automated quality assurance of annotated images
TWI739456B (zh) * 2020-06-03 2021-09-11 南開科技大學 依據遠端學習表現給予評分之系統及方法
CN113343979B (zh) * 2021-05-31 2022-11-08 北京百度网讯科技有限公司 用于训练模型的方法、装置、设备、介质和程序产品
CN113537391B (zh) * 2021-08-06 2023-09-05 大连海事大学 一种交互式文本语义属性引导的鞋印图像聚类方法
WO2023194925A1 (en) * 2022-04-05 2023-10-12 Lean Ai Technologies Ltd. Autonomous enriching reference information

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1920820A (zh) * 2006-09-14 2007-02-28 浙江大学 基于标注重要性次序的图像语义自动标注方法
WO2008013679A1 (en) * 2006-07-24 2008-01-31 Google Inc. Method and apparatus for automatically annotating images

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPQ717700A0 (en) 2000-04-28 2000-05-18 Canon Kabushiki Kaisha A method of annotating an image
US6970860B1 (en) 2000-10-30 2005-11-29 Microsoft Corporation Semi-automatic annotation of multimedia objects
US7068309B2 (en) 2001-10-09 2006-06-27 Microsoft Corp. Image exchange with image annotation
US7035467B2 (en) * 2002-01-09 2006-04-25 Eastman Kodak Company Method and system for processing images for themed imaging services
US20040205482A1 (en) * 2002-01-24 2004-10-14 International Business Machines Corporation Method and apparatus for active annotation of multimedia content
US7403225B2 (en) 2004-07-12 2008-07-22 Scenera Technologies, Llc System and method for automatically annotating images in an image-capture device
JP2006048322A (ja) * 2004-08-04 2006-02-16 Seiko Epson Corp オブジェクト画像検出装置、顔画像検出プログラムおよび顔画像検出方法
US7788575B2 (en) 2005-01-31 2010-08-31 Hewlett-Packard Development Company, L.P. Automated image annotation
US8023739B2 (en) * 2005-09-27 2011-09-20 Battelle Memorial Institute Processes, data structures, and apparatuses for representing knowledge
US8341112B2 (en) * 2006-05-19 2012-12-25 Microsoft Corporation Annotation by search
US8375283B2 (en) 2006-06-20 2013-02-12 Nokia Corporation System, device, method, and computer program product for annotating media files
CA2567505A1 (en) * 2006-11-09 2008-05-09 Ibm Canada Limited - Ibm Canada Limitee System and method for inserting a description of images into audio recordings
US8165406B2 (en) * 2007-12-12 2012-04-24 Microsoft Corp. Interactive concept learning in image search

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008013679A1 (en) * 2006-07-24 2008-01-31 Google Inc. Method and apparatus for automatically annotating images
CN1920820A (zh) * 2006-09-14 2007-02-28 浙江大学 基于标注重要性次序的图像语义自动标注方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王上飞等: "基于支持向量机的图像情感语义注释和检索算法的研究", 《模式识别与人工智能》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107209760A (zh) * 2014-12-10 2017-09-26 凯恩迪股份有限公司 加权的子符号数据编码
CN106682059A (zh) * 2015-11-11 2017-05-17 奥多比公司 根据图像的结构化的知识建模和提取
CN106682059B (zh) * 2015-11-11 2022-07-08 奥多比公司 根据图像的结构化的知识建模和提取
CN106980868A (zh) * 2016-01-15 2017-07-25 奥多比公司 用于具有多个文本标签的图像的嵌入空间
US11238362B2 (en) 2016-01-15 2022-02-01 Adobe Inc. Modeling semantic concepts in an embedding space as distributions
CN110414307A (zh) * 2018-04-26 2019-11-05 沃尔沃汽车公司 用于半自动图像分割和注释的方法和系统
CN110414307B (zh) * 2018-04-26 2023-08-18 沃尔沃汽车公司 用于数字图像分割和注释的方法和系统
CN113326411A (zh) * 2020-02-28 2021-08-31 中国移动通信集团福建有限公司 一种网络行为知识增强方法、装置及电子设备
CN113326411B (zh) * 2020-02-28 2024-05-03 中国移动通信集团福建有限公司 一种网络行为知识增强方法、装置及电子设备

Also Published As

Publication number Publication date
WO2009152390A2 (en) 2009-12-17
US7890512B2 (en) 2011-02-15
CN102119389B (zh) 2013-12-18
WO2009152390A3 (en) 2010-04-01
US20090313294A1 (en) 2009-12-17
EP2310956A2 (en) 2011-04-20
EP2310956A4 (en) 2011-07-06

Similar Documents

Publication Publication Date Title
CN102119389B (zh) 使用语义距离学习的自动图像注释
Xie et al. Representation learning of knowledge graphs with entity descriptions
CN103473283B (zh) 一种文本案例匹配方法
US10883345B2 (en) Processing of computer log messages for visualization and retrieval
US7818323B2 (en) Discovering topical structures of databases
US9189541B2 (en) Evidence profiling
US20110191374A1 (en) Joint Embedding for Item Association
Jaffe et al. Unsupervised ensemble learning with dependent classifiers
CN106951498A (zh) 文本聚类方法
US20110191335A1 (en) Method and system for conducting legal research using clustering analytics
Durand et al. Mantra: Minimum maximum latent structural svm for image classification and ranking
CN103309953A (zh) 一种基于多rbfnn分类器集成的多样化图像标注和检索方法
Mei et al. Coherent image annotation by learning semantic distance
Makhija et al. Separating stars from quasars: Machine learning investigation using photometric data
CN110781297B (zh) 基于层次判别树的多标签科研论文的分类方法
Wang et al. Multi-scale interactive transformer for remote sensing cross-modal image-text retrieval
Jin et al. Image classification based on pLSA fusing spatial relationships between topics
CN112632223B (zh) 案事件知识图谱构建方法及相关设备
Chang et al. Multimedia lego: Learning structured model by probabilistic logic ontology tree
CN105740879A (zh) 基于多模态判别分析的零样本图像分类方法
Qian et al. Boosted multi-modal supervised latent Dirichlet allocation for social event classification
Chander Clustering and Bayesian networks
CN114238439B (zh) 一种基于联合嵌入的任务驱动关系型数据视图推荐方法
CN102646099B (zh) 模式匹配系统、模式映射系统及方法
Chen et al. Discriminative bag-of-visual phrase learning for landmark recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150429

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150429

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131218

Termination date: 20150611

EXPY Termination of patent right or utility model