CN102197393B - 基于图像的语义距离 - Google Patents

基于图像的语义距离 Download PDF

Info

Publication number
CN102197393B
CN102197393B CN200980143703.7A CN200980143703A CN102197393B CN 102197393 B CN102197393 B CN 102197393B CN 200980143703 A CN200980143703 A CN 200980143703A CN 102197393 B CN102197393 B CN 102197393B
Authority
CN
China
Prior art keywords
semantic
concept
image
semantic concept
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200980143703.7A
Other languages
English (en)
Other versions
CN102197393A (zh
Inventor
X-S·华
L·吴
S·李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102197393A publication Critical patent/CN102197393A/zh
Application granted granted Critical
Publication of CN102197393B publication Critical patent/CN102197393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

呈现基于图像的语义距离技术实施例,它们涉及建立语义概念之间基于图像的语义距离的量度。一般而言,这需要基于与语义概念相关联的图像集分别为每个概念计算语义概念表示。然后计算两个语义概念表示之间的差异度,来为这对概念产生上述的语义距离量度。

Description

基于图像的语义距离
背景技术
探究概念之间的语义关系是近来的热门研究课题,因为它在自然语言处理、对象检测和多媒体检索等领域有着广泛应用。值得注意的是,语义关系不仅是同义词(例如足球-英式足球)和概念相似性(例如马-驴)。它还包括诸如整体部分关系(meronymy)(例如车辆-车轮)和并发性关系(例如飞机-机场)等关系。在该上下文中,并发性是指两个概念可能在日常生活而非文本文档中同时出现。更广泛地,与可以在文本文档领域中表示概念同现的术语“相似性”不同,术语“并发性”可以在视觉领域中表示概念同现或背景一致。 
概述 
本文所述的基于图像的语义距离技术实施例涉及建立语义概念之间基于图像的语义距离的量度。一般而言,这需要基于与每一概念相关联的图像集来分别为该概念计算语义概念表示。然后计算两个语义概念表示之间的差异度,来为这对概念产生上述的语义距离量度。在某些实施例中,语义概念表示采用与所考虑语义概念相关联的图像的统计分布模型的形式,并且差异度采用统计分布散度量度的形式。 
某些实施例还包括潜在语义分析以捕捉在用于计算语义概念表示的相关图像集合中的概念的外观(appearance)的变化。在这些实施例中,建立语义概念之间的基于图像的语义距离量度通常需要基于与每个语义概念相关联的图像来为该概念计算语义概念表示,其中每个表示计入相关联的语义概念的外观的变化。一旦语义概念表示就绪,则计算一对语义概念表示之间的差异度以产生语义距离量度。在这种情形中,计算与这对语义概念表示中的第一个相关联的每个外观变化和与这对语义概念表示中的另一个相关联的每个外观变化之间的差异度的组合。 
应该注意,提供本发明内容是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。 
附图说明
参考以下描述、所附权利要求书以及附图,将更好地理解本发明的具体特征、方面和优点,附图中: 
图1是概括示出用于建立语义概念之间的基于图像的语义距离量度的一个过程实施例的流程图。 
图2是示出图1中过程的实现的框图,采用视觉语言模型和詹森-香农(Jensen-Shannon)散度来用于建立语义概念之间的基于图像的语义距离量度。 
图3是概括示出用于在计入概念外观变化的同时建立语义概念之间的基于图像的语义距离量度的一个过程实施例的流程图。 
图4是描绘了构成用于实现本文所述的基于图像的语义距离技术实施例的示例系统的通用计算设备的图示。 
详细描述 
在以下对基于图像的语义距离技术实施例的描述中,对附图进行了参考,附图构成了实施例的一部分且在附图中作为说明示出了可在其中实践该技术的具体实施例。可以理解,可以使用其它实施例并且可以做出结构改变而不背离本发明技术的范围。 
1.0 基于图像的语义距离
语义概念之间的关系可以涉及同义词(例如足球-英式足球)或相似性(例如马-驴)。它还包括诸如整体部分关系(meronymy)(例如车辆-车轮)和并发性(例如飞机-机场)之类的关系。某些语义概念更加紧密相关,诸如“飞机”和“机场”,而某些更加疏远,诸如“卫城(acropolis)”和“酒精(alcohol)”。本文所述的基于图像的语义距离技术实施例提供通过使用描绘概念的图像来量化概念之间关系的紧密度的方式。由于语义概念之间的关系是人类感知的 知识并且80%的人类认知来自于视觉信息,因此通过视觉相关性而非通过文本文档中的概念同现来生成有关概念关系的人为知识是合理的。此外,视觉领域中的相关性不仅由图像中低级别视觉特征的频率表示,而且可以使用图像中这些低级别视觉特征之间的空间信息。例如,相同的视觉特征(即车轮)频繁同现在“车辆”和“摩托车”图像中,但是它们的邻近特征是不同的。由于忽视视觉特征之间的空间信息,这两个概念可能被混淆。然而,如果考虑这些视觉特征的邻近信息,概念之间的关系更加清晰。因此,视觉特征的安排在表示概念时也能提供信息。 
鉴于上文,本文所述的基于图像的语义距离技术实施例能够建立语义概念之间基于图像的语义距离的量度。参照图1,这通常涉及首先基于与概念相关联的图像分别为每个概念计算语义概念表示(100)。这通常涉及首先基于与概念相关联的图像分别计算每个概念的语义概念表示(100)。然后计算两个语义概念表示之间的差异度,来产生这对概念的上述语义距离量度(102)。在某些实施例中,语义概念表示采用与所考虑语义概念相关联的图像的统计分布模型的形式,并且差异度采用统计分布散度量度的形式(有时还称为统计分布距离量度)。 
具体而言,如图2所示,本文所述的基于图像的语义距离技术实施例是视觉领域中语义概念200、202(例如对象、场景)之间关系的新颖量度。对于每个概念,获得图像集204、206,在一个实施例中基于此,建立视觉语言模型208、210来捕捉概念的视觉特性。然后测量不同概念之间基于图像的语义距离,在一个实施例中,这采用对应视觉语言模型212之间詹森-香农(JS)散度计算的形式。 
1.1 语义概念图像池
如上所述,由于80%的人类认知来自于视觉信息,因此通过日常生活中概念的并发来测量这些概念之间的语义距离是有意义的。为了模拟日常生活中的概念并发,应该在日常生活环境中执行概念关系学习过程。与人类观察系统类似,世界上的数码相机记录每天的现实日常生活。可以从大型日常生活 照片池中挖掘概念之间的统计语义关系。为了实现对统计概念关系的偏见较小的估计,图像池应该非常大并且照片来源应该是独立的。 
幸运的是,存在可用的基于web的图像池,它包括用描述关联图像的词句来标记的图像。这些词句通常涉及感兴趣的语义概念。例如,存在在线照片共享网站Flickr。该网站收集了由独立用户上传的超过109个图像。此外,这些图像中的大量图像已被标注(即标记)。因此,这是学习概念语义关系的理想数据集。 
为了提供概念之间语义距离的无偏见估计,需要足够大的无偏见图像数据集。此外,数据集中的图像应该包括图像与概念之间的连接信息。这可以通过采用Flickr 照片集作为图像池而满足。在一个实施例中,只有预定数量(例如1000)的用查询概念来标记的最高返回图像被用于表示每个查询概念。这避免了噪声标签的问题。 
1.2 语义概念表示
为了分析照片池中的概念相关性,使用上述语义概念表示。该表示可以采用与语义概念相关联的图像的统计分布模型的形式。存在许多能够使用的计算机视觉模型,诸如词袋(BOW)模型和基于感兴趣区域(ROI)的模型。然而,在基于图像的语义距离技术的一个实施例中,使用视觉语言模型(VLM)。VLM是捕捉局部外观特征及其空间依存关系的有效视觉统计分析方法。如上所述,这在表征语义概念时比纯视觉特征分布更有辨别力。VLM的训练很快,这使该建模方法尤其适于大规模概念数据集。VLM的输出是图像碎片的视觉特征的条件分布,基于此可以定义严谨的距离量度。VLM还可以抑制噪声。实际包含目标概念的图像会共享某些视觉特征,这实际上对模型有贡献。在被错误标记的噪声样本中的视觉特征对最终VLM影响很小。 
在操作中,VLM通过分析邻近图像碎片之间的空间依存关系来捕捉图像的统计语义。因此,统计语义可以表示为图像局部特征及其空间依存关系。具体而言,对于每个语义概念,通过上述描述性标签的帮助获得相关图像的集合。假设标记有相同概念的图像共享类似的外观特征及其排列模式。这形成概念的 统计语义。将每个图像划分成尺寸相等的碎片,然后使用VLM计算这些碎片之间的条件依存关系以捕捉概念的视觉统计语义。 
1.2.1 潜在主题视觉语言模型
在基于图像的语义距离技术的另一实施例中,将潜在语义分析结合到VLM中以捕捉概念外观变化。在处理概念外观变化中,传统VLM可能并不完善。这包括由于比例(例如近景/远景镜头)和取向(例如侧视/前视)以及诸如对象形状、照明、颜色、纹理等的其它属性而引起的外观变化。在这些情形中,将潜在主题分析结合到VLM中是可能的,并假设概念的每个外观变化对应于潜在主题Zi。概率性潜在语义分析(pLSA)可以适于用户感兴趣的每个变化下概念的视觉特性。在以下段落中,详细地描述这一潜在主题视觉语言模型,以特征提取阶段开始并以潜在主题VLM生成阶段结束。 
在特征提取阶段的一个实施例中,将每个图像划分成统一采样、尺寸相等的碎片。这是适当的,因为统一采样需要很少计算成本,并且其性能可以比得上使用显著检测或基于局部区域的分割等其它方法,但是如果需要也可以使用这些其它方法(以及类似方法)。对于每个碎片,使用8维纹理直方图来描述。每个纬度对应于沿八个量化方向之一的纹理梯度。可以使用常规方法来计算纹理直方图。接下来,将每个碎片的纹理直方图转换成视觉词wxy。在一个实施例中,使用散列编码方案。 
潜在主题VLM生成阶段通常涉及将潜在主题(外观变化)分析结合到VLM中以根据低级别视觉特征排列来表征每个概念Ci。这提供了对概念进行建模的有效方式。每个VLM以条件分布的形式来呈现,条件分布描述了在给定其近邻和潜在主题的情况下低级别视觉特征之间的空间依存关系。 
根据所考虑的邻近视觉词的数量,可将视觉语言模型细分成一元语法(unigram)、二元语法(bigram)、三元语法(trigram)、或者一般情况下的n元语法(n-gram)模型。一元语法模型假设视觉词彼此独立。该模型实际上捕捉视觉词分布。二元语法模型假设视觉词依赖于其邻近特征之一,例如左侧最近邻。该模型在给定其近邻词之一的情况下计算每个视觉词的条件概率。三元语法模型假设视觉词依赖于其邻近词中的两个,例如左侧最近邻和上侧最近 邻。因此,一般而言,n元语法模型假设视觉词依赖于其近邻词中的n-1个。然而,应该注意,虽然更高阶模型可以更有辨别力,但是随着模型阶数增大,参数数量会指数增长。由于参数是从训练集中n元语法的出现来估计的,因此如果阶数n过大,相对受限的训练集会遭遇稀缺问题。因此,辨别力和稀缺之间存在折衷。 
此外,还有可能使用组合模型。在组合模型中,使用一个以上的n元语法模型来生成参数。例如,可以从首先使用二元语法方法、然后使用三元语法方法生成的参数中计算与VLM相关联的条件分布。可以使用各方法的任何组合。然而,虽然使用方法组合可以产生更有辨别力的结果,但是参数数量的增加会增加处理成本。因此,辨别力和成本之间存在折衷。 
在测试实施例中,选择三元语法模型来捕捉概念,但是如上文所指出的,可以改为使用更高或更低(或组合)阶模型。在三元语法模型中,理念是估计条件分布 
P ( w xy | w x - 1 , y 2 , C ) , - - - ( 1 )
其中C是语义概念,且 表示二元语法wx-1,ywx,y-1。由于视觉概念可以具有各种外观,所以使用多个模型来表示概念是适当的。为此,引入潜在变量z来表示概念变化。由于该变量被隐藏,因此将pLSA结合到VLM中以对每个变化下的概念进行建模。 
因此,潜在主题VLM估计 其中 表示概念C的第k外观变化。该潜在主题三元语法建模过程可以用公式表示如下。 
P ( w xy | w x - 1 , y 2 , d j ) = Σ k = 1 K P ( w xy | w x - 1 , y 2 , z k C ) P ( z k C | d j ) - - - ( 2 )
x=1,…,m;y=1,…,n;j=1,…,N。 
其中 表示概念C中的第j个图像。 是概念C中第k个潜在主题。K是潜在主题的总数,它可以根据经验确定。使用期望值最大化(EM)技术来估计参数 和 EM技术的目标函数是最大化概念及其视觉词排列Aw的联合分布。 
最大化p(Aw,C)                            (3) 
p ( A w , C ) = Π d j ∈ C Π x , y P ( w xy | w x - 1 , y w x , y - 1 , d j ) - - - ( 4 )
为了获得在分析上易处理的密度估计,可以使用交叉更新方案,其中同时估计 和 然后,通过这两个估计来计算 (方程(11))。如下执行E步骤和M步骤。 
E步骤: 
Q 2 ( z k C | d j C , w x - 1 , y 2 ) ← P ( z k C | d j C ) P ( w x - 1 , y 2 | z k C ) - - - ( 5 )
Q 3 ( z k C | d j C , w xy 3 ) ← P ( z k C | d j C ) P ( w xy 3 | z k C ) - - - ( 6 )
Q ( z k C | d j C , w xy 3 ) ← P ( z k C | d j C ) P ( w xy | w x - 1 , y 2 , z k C ) - - - ( 7 )
M步骤: 
P ( w x - 1 , y 2 | z k C ) ← Σ j n ( d j C , w x - 1 , y 2 ) Q 2 ( z k C | d j C , w x - 1 , y 2 ) Σ x , y , j n ( d j C , w x - 1 , y 2 ) Q 2 ( z k C | d j C , w x - 1 , y 2 ) - - - ( 8 )
P ( w xy 3 | z k C ) ← Σ j n ( d j C , w xy 3 ) Q 3 ( z k C | d j C , w xy 3 ) Σ x , y , j n ( d j C , w xy 3 ) Q 3 ( z k C | d j C , w xy 3 ) - - - ( 9 )
P ( z k C | d j C ) ← Σ x , y n ( d j C , w xy 3 ) Q ( z k C | d j C , w xy 3 ) Σ x , y , k n ( d j C , w xy 3 ) Q ( z k C | d j C , w xy 3 ) - - - ( 10 )
P ( w xy | w x - 1 , y 2 , z k C ) ← P ( w xy 3 | z k C ) P ( w x - 1 , y 2 | z k C ) - - - ( 11 )
P ( z k C | C ) ← Σ d C ∈ C P ( z k C | d C , C ) P ( d C | C ) - - - ( 12 )
输出是每个潜在主题的三元语法的条件分布, k=1,…,K. 
1.3 语义距离量度
为了测量一对语义概念表示之间的距离,在一个实施例中,计算这些表示之间的詹森-香农(JS)散度的平方根。如果两个概念更有可能相关,则其视觉语言模型的JS散度平方根往往较小;否则较大。JS和Kullback-Leibler(KL)散度是两个分布之间的常用相似性测量。虽然可以使用KL,但是JS散度被演示成对称并满足三角不等式。而且已知詹森-香农散度的平方根是一个度量(metric)。由于期望定义各概念之间的距离度量,因此使用JS散度平方根是适当的。 
在使用潜在主题VLM计入概念外观变化的基于图像的语义距离技术实施例中,该距离通常被定义成在与一对语义概念表示中的第一个相关联的每个条件分布和与这对语义概念表示中的另一个相关联的每个条件分布之间詹森-香农散度和的平方根。 
例如,在使用三元语法方法来计算潜在主题VLM的条件分布的情形中,令 和 分别是潜在主题 和 下的三元语法条件分布。 表示概念C1的第i个潜在主题, 表示概念C2的第j个潜在主题。它们之间的K-L散度被定义为 
D KL ( P z i C 1 | P z j C 2 ) = Σ l P z i C 1 ( l ) log P z i C 1 ( l ) P z j C 2 ( l ) - - - ( 13 )
其中  分别对应于这两个分布中第l个三元语法的概率密度。就信息理论而言,KL散度实际上是两个视觉语言模型之间相互熵的测量。 
D KL ( P z i C 1 | P z j C 2 )
= - Σ l P z i C 1 ( l ) log P z j C 2 ( l ) + Σ l P z i C 1 ( l ) log P z i C 1 ( l )
= H ( P z i C 1 , P z j C 2 ) - H ( P z i C 1 ) - - - ( 14 )
其中 是两个分布的交叉熵,并且 是 的熵。根据吉布斯(Gibbs)不等式, 当且仅当 等于 时,它为零。 
基于KL散度来定义JS散度,以定义这些视觉语言模型之间的距离度量(方程(15))。 
D JS ( P z i C 1 | P z j C 2 ) = 1 2 D KL ( P z i C 1 | M ) + 1 2 D KL ( P z j C 2 | M ) - - - ( 15 )
M = 1 2 ( P z i C 1 + P z j C 2 ) - - - ( 16 )
其中M是 和 的平均。已经演示了詹森-香农散度的平方根是一个度量。鉴于此,在一个实施例中,可以将两个概念C1和C2之间基于图像的语义距离计算为在与概念C1的潜在主题VLM相关联的每个条件分布和与概念C2的潜在主题VLM相关联的每个条件分布之间计算的加权JS散度的总和的平方根,如下: 
D ( C 1 , C 2 ) = Σ i = 1 K Σ j = 1 K P ( z i C 1 | C 1 ) P ( z j C 2 | C 2 ) D JS ( P z i C 1 | P z j C 2 ) - - - ( 17 )
其中D(C1,C2)是语义距离量度, 是表示给定C1的情况下潜在主题 概率的加权因子,并且 是表示给定C2的情况下潜在主题 概率的加权因子。这些加权因子表示在与一概念相关联的各图像之间该概念的特定变化的重要性(概率或频率)。使用它们以使得所得语义距离量度受到被测量语义概念图像中更普遍的变化影响更大。 
1.4 给定概念外观变化的情况下基于图像的语义距离
鉴于上文,可以实现基于图像的语义距离实施例以在计入概念外观变化的同时建立一对语义概念之间的基于图像的语义距离量度。这在图3的示例性实施例中概括地示出。参照图3基于与概念相关联的图像来计算每个语义概念的语义概念表示,其中各表示中的每个表示计入在用于计算该表示的图像中描绘的相关联的语义概念的外观的变化(300)。在某些实施例中,计算语义概念表示需要使用潜在主题视觉语言模型,该模型以所考虑的每个变化的条件分布的形式来捕捉外观变化的视觉特征,如上所述。一旦语义概念表示就绪,随后计算一对语义概念表示之间的差异度以产生语义距离量度,其中该计算需要计算与该对语义概念表示中的第一个相关联的每个外观变化和与该对语义概念表示中的另一个相关联的每个外观变化之间的差异度的组合(302)。在某些实施例中,后一任务涉及将差异度计算为在与该对语义概念中的第一个相关联的每个条件分布和与该对语义概念中的另一个相关联的每个条件分布之间计算的加权詹森-香农散度的总和的平方根。对于每个所计算的詹森-香农散度,加权可以基于与第一语义概念的条件分布相关联的图像中变化的重要性(概率或频率)以及与另一语义概念的条件分布相关联的图像中变化的重要性。 
2.0 视觉概念网络
可以使用基于图像的语义距离来构建视觉概念网络。视觉概念网络(VCNet)是图G(V,E,W),其中概念是节点vi∈V,i=1,…,N且两个概念之间的语义关系是边e(vi,vj)∈E,i,j=1,…,N。节点之间基于图像的语义距离由边的长度(权重)表示,w∈W。如果两个概念具有大的基于图像的语义距离,则它们之间的边较长;否则较短。 
为了避免概念节点的重叠,可以采用力指向图布局技术。通常,节点之间的边可以表示为吸引力,而不共享边(tie)的节点被某种约束推开以便于防止重叠。 
VCNet在许多多媒体相关任务中是有用的,诸如知识表示、多媒体检索等等。这一概念网络以图形方式对概念关系进行建模。此外,它可以维护大得多并且不断增长的语料库。VCNet的最直接应用之一是概念群集。该任务旨在将 图像标签中的概念或描述进行群集以帮助发现关于图像的主要主题和概要。使用VCNet,带有语义连接的概念更可能被群集在一起。VCNet的另一个应用是基于内容的web图像/视频注释,其中通用范例是通过分类来注释图像或视频帧。这是通过考虑概念是彼此独立的或者将概念关系结合到模型中来完成的。VCNet还具有许多其它可能应用,诸如查询扩展、注释细化等等。 
3.0 概念群集
基于图像的语义距离还可以直接用于概念群集。概念群集广泛地用于文本领域中的主题检测和概要。存在与web图像相关联的许多标签和描述。概念群集方法通常使用这些标签和描述来检测这些图像的主要主题或概要。然而,图像中主题概要的焦点可以与文本焦点不同。例如,图像更可能聚焦在主要对象或场景上,而文本更多地聚焦在故事或作者观点上。因此,文本领域可用的概念距离量度可能不如视觉领域的特定距离量度一样表现良好。 
4.0 图像注释
对图像的各概念进行自动注释在web图像检索和浏览中非常重要。现有技术中大多数图像注释方法以隔离方式检测多个语义概念,这忽视了概念可以相互关联的事实。注释过程的生产模型可以表示为方程(18)。 
w * = arg max w ⋐ V P ( w , I u ) - - - ( 18 )
其中w是注释关键词,w*是最适合关键词。Iu表示未标注图像。该注释过程等于联合概率P(w,Iu)的最大化。注释性能可以通过考虑概念关系而进一步提高。 
基于这一动机,提出双跨媒体相关模型(DCMRM)。该模型假设观察到注释关键词w和图像Iu的概率在给定关键词v的情况下是相互独立的,并且该相关模型被表示如下。 
w * = arg max w ⋐ V Σ v ∈ V P ( I u | v ) P ( w | v ) P ( v ) - - - ( 19 )
其中w和v是两个注释关键词,P(Iu|v)表示在给定词v的情况下未标记图像Iu的概率。P(w|v)表示给定词v的情况下词w的概率。基于图像的语义距离被用于计算条件概率P(w|v)。 
5.0 计算环境
现在将描述其中可实现本文所描述的基于图像的语义距离技术实施例的各部分的合适计算环境的简要、一般描述。各技术实施例可用于众多通用或专用计算系统环境或配置。适合的公知计算系统、环境和/或配置的示例包括但不限于个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型机、大型计算机、包括以上系统或设备的任一个的分布式计算环境等等。 
图4示出合适的计算系统环境的示例。计算系统环境仅为合适的计算环境的一个示例,并非旨在对本文所描述的基于图像的语义距离技术实施例的使用范围或功能提出任何限制。也不应将该计算环境解释为对示例性操作环境中示出的任一组件或其组合有任何依赖性或要求。参考图4,用于实现此处所描述的各实施例的示例性系统包括计算设备,诸如计算设备10。在其最基本的配置中,计算设备10通常包括至少一个处理单元12和存储器14。取决于计算设备的确切配置和类型,存储器14可以是易失性的(如RAM)、非易失性的(如ROM、闪存等)或是两者的某种组合。该最基本配置在图4中由虚线16来示出。另外,设备10还可具有附加特征/功能。例如,设备10还可包含附加存储(可移动和/或不可移动),包括但不限于磁盘、光盘或磁带。这样的附加存储在图4中由可移动存储18和不可移动存储20例示。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。存储器14、可移动存储18和不可移动存储20都是计算机存储介质的示例。计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、磁带盒、磁带、磁盘存储或其它磁存储 设备、或者可用于存储所需信息并且可由设备10访问的任何其它介质。任何这样的计算机存储介质可以是设备10的一部分。 
设备10还可包含使该设备能与其它设备进行通信的通信连接22。设备10还可以具有诸如键盘、鼠标、笔、语音输入设备、触摸输入设备、照相机等输入设备24。还可以包括诸如显示器、扬声器、打印机等输出设备26。所有这些装置在本领域中都是众所周知的,因此不必在此详细讨论。 
此处所描述的基于图像的语义距离技术实施例还可在由计算设备执行的诸如程序模块等计算机可执行指令的一般上下文中描述。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。此处所描述的各实施例还能在其中任务由通过通信网络链接的远程处理设备完成的分布式计算环境中实现。在分布式计算环境中,程序模块可以位于包括存储器存储设备在内的本地和远程计算机存储介质中。 
6.0 其他实施例
应当注意,可以按所需的任何组合来使用本说明书全文中的上述实施例的任一个或全部以形成另外的混合实施例。另外,尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求的示例形式公开的。 

Claims (13)

1.一种用于建立语义概念之间基于图像的语义距离的量度的计算机实现的方法,包括:
基于与概念相关联的图像分别计算每个概念的语义概念表示(100),其中所述语义概念表示中的每一个表示计入在用于计算该语义概念表示的图像中所描绘的相关联的语义概念的外观的变化,其中所述语义概念表示各自采用与对应的语义概念相关联的图像的统计分布模型的形式,并且所述统计分布模型是视觉语言模型,每个所述统计分布模型捕捉与对应的语义概念相关联的图像的视觉特性;以及
计算两个语义概念表示之间的差异度以产生该对相应语义概念的基于图像的语义距离量度(102),其中计算差异度包括计算与所述语义概念表示中的第一个相关联的每个外观变化和与所述语义概念表示中的另一个相关联的每个外观变化之间的差异度的组合。
2.如权利要求1所述的方法,其特征在于,所述语义概念表示之间的差异度采用统计分布散度的形式。
3.如权利要求2所述的方法,其特征在于,所述统计分布散度是所述统计分布模型之间的詹森-香农散度计算的平方根。
4.如权利要求1所述的方法,其特征在于,所述语义概念中的至少一个包括在与相应概念相关联的图像中描绘的对象。
5.如权利要求1所述的方法,其特征在于,所述语义概念中的至少一个包括在与相应概念相关联的图像中描绘的场景。
6.如权利要求1所述的方法,还包括以下过程动作:计算多对语义概念中每一对之间的基于图像的语义距离量度,以及使用这些量度来构建视觉概念网络,所述视觉概念网络包括具有表示每个语义概念的分开节点和连接表示在每个经连接节点之间计算的基于图像的语义距离量度的节点的边的图。
7.如权利要求1所述的方法,其特征在于,还包括以下过程动作:计算多对语义概念中每一对之间的基于图像的语义距离量度,以及在语义概念群集应用中使用这些量度。
8.如权利要求1所述的方法,其特征在于,还包括以下过程动作:计算多对语义概念中每一对之间的基于图像的语义距离量度,以及在图像注释应用中使用这些量度。
9.一种用于建立一对语义概念之间的基于图像的语义距离的量度的计算机实现的系统,包括:
用于基于与所述概念相关联的图像分别计算每个语义概念的语义概念表示的装置,其中所述语义概念表示中的每一个表示计入在用于计算该表示的图像中所描绘的相关联的语义概念的外观的变化(300),其中所述语义概念表示各自采用与对应的语义概念相关联的图像的统计分布模型的形式,并且所述统计分布模型是视觉语言模型,每个所述统计分布模型捕捉与对应的语义概念相关联的图像的视觉特性,以及
用于计算一对语义概念表示之间的差异度以产生基于图像的语义距离量度的装置,其中计算差异度包括计算与所述语义概念表示中的第一个相关联的每个外观变化和与所述语义概念表示中的另一个相关联的每个外观变化之间的差异度的组合。
10.如权利要求9所述的系统,其特征在于,所述外观的变化可归因于比例、取向、对象形状、照明、色彩、和纹理的变化中的至少一个。
11.如权利要求9所述的系统,其特征在于,用于计算语义概念表示的装置包括用于使用潜在主题视觉语言模型计算每个语义概念表示的子模块,所述潜在主题视觉语言模型以每个所考虑变化的条件分布的形式来捕捉所述外观变化的视觉特征。
12.如权利要求11所述的系统,其特征在于,在计算语义概念表示的潜在主题视觉语言模型之前,与所述表示的语义概念相关联的每个图像被表征为视觉词集合。
13.如权利要求11所述的系统,其特征在于,用于计算一对语义概念表示之间的差异度的装置包括用于将差异度计算为在与该对语义概念表示中的第一个相关联的每个条件分布和与该对语义概念表示中的另一个相关联的每个条件分布之间计算的加权詹森-香农散度的总和的平方根的子模块,其中对于所计算的每个詹森-香农散度,加权是基于与第一语义概念表示的条件分布相关联的图像中变化的重要性以及与另一语义概念表示的条件分布相关联的图像中变化的重要性的。
CN200980143703.7A 2008-10-27 2009-10-27 基于图像的语义距离 Active CN102197393B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US10873908P 2008-10-27 2008-10-27
US61/108,739 2008-10-27
US12/340,632 2008-12-19
US12/340,632 US8645123B2 (en) 2008-10-27 2008-12-19 Image-based semantic distance
PCT/US2009/062264 WO2010062625A2 (en) 2008-10-27 2009-10-27 Image-based semantic distance

Publications (2)

Publication Number Publication Date
CN102197393A CN102197393A (zh) 2011-09-21
CN102197393B true CN102197393B (zh) 2014-12-24

Family

ID=42118349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980143703.7A Active CN102197393B (zh) 2008-10-27 2009-10-27 基于图像的语义距离

Country Status (4)

Country Link
US (1) US8645123B2 (zh)
EP (1) EP2344958B1 (zh)
CN (1) CN102197393B (zh)
WO (1) WO2010062625A2 (zh)

Families Citing this family (148)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8239333B2 (en) 2009-03-03 2012-08-07 Microsoft Corporation Media tag recommendation technologies
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
WO2011134141A1 (en) * 2010-04-27 2011-11-03 Hewlett-Packard Development Company,L.P. Method of extracting named entity
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9135240B2 (en) 2013-02-12 2015-09-15 International Business Machines Corporation Latent semantic analysis for application in a question answer system
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9280536B2 (en) * 2013-03-28 2016-03-08 Hewlett Packard Enterprise Development Lp Synonym determination among n-grams
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
GB2518876A (en) * 2013-10-04 2015-04-08 Nokia Corp Method, apparatus and computer program product for similarity determination in multimedia content
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9652695B2 (en) 2013-12-20 2017-05-16 Google Inc. Label consistency for image analysis
US10181322B2 (en) * 2013-12-20 2019-01-15 Microsoft Technology Licensing, Llc Multi-user, multi-domain dialog system
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) * 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
CN106610945A (zh) * 2016-08-12 2017-05-03 四川用联信息技术有限公司 一种改进的本体概念语义相似度计算方法
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US9836183B1 (en) 2016-09-14 2017-12-05 Quid, Inc. Summarized network graph for semantic similarity graphs of large corpora
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
CN108304459B (zh) * 2017-12-22 2019-03-12 北京达佳互联信息技术有限公司 多媒体文件的预测方法和装置
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10671812B2 (en) * 2018-03-22 2020-06-02 Equifax Inc. Text classification using automatically generated seed data
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
CN108549886A (zh) * 2018-06-29 2018-09-18 汉王科技股份有限公司 一种人脸活体检测方法及装置
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11257493B2 (en) 2019-07-11 2022-02-22 Soundhound, Inc. Vision-assisted speech processing
CN110598719A (zh) * 2019-09-11 2019-12-20 南京师范大学 一种依据视觉属性描述自动生成人脸图像的方法
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
CN110866140B (zh) * 2019-11-26 2024-02-02 腾讯科技(深圳)有限公司 图像特征提取模型训练方法、图像搜索方法及计算机设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6404925B1 (en) * 1999-03-11 2002-06-11 Fuji Xerox Co., Ltd. Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition
US6847980B1 (en) 1999-07-03 2005-01-25 Ana B. Benitez Fundamental entity-relationship models for the generic audio visual data signal description
US7308140B2 (en) 2000-05-31 2007-12-11 Samsung Electronics Co., Ltd. Method and device for measuring similarity between images
US7653530B2 (en) * 2000-07-13 2010-01-26 Novell, Inc. Method and mechanism for the creation, maintenance, and comparison of semantic abstracts
US7043474B2 (en) 2002-04-15 2006-05-09 International Business Machines Corporation System and method for measuring image similarity based on semantic meaning
US7329593B2 (en) * 2004-02-27 2008-02-12 Asm America, Inc. Germanium deposition
US7552116B2 (en) * 2004-08-06 2009-06-23 The Board Of Trustees Of The University Of Illinois Method and system for extracting web query interfaces
US20080162561A1 (en) 2007-01-03 2008-07-03 International Business Machines Corporation Method and apparatus for semantic super-resolution of audio-visual data
US8584045B2 (en) * 2007-01-19 2013-11-12 Sap Ag Systems and methods for navigating, finding, and presenting data objects
US8126274B2 (en) * 2007-08-30 2012-02-28 Microsoft Corporation Visual language modeling for image classification
US7890512B2 (en) * 2008-06-11 2011-02-15 Microsoft Corporation Automatic image annotation using semantic distance learning

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Lei Wu等.Visual Language Modeling for Image Classification.《Proceedings of the International Workshop on Multimedia Information Retrieval, Augsburg,Bavaria, Germany》.2007,115-124. *
The importance of query-concept-mapping for automatic video retrieval;WANG D等;《PROCEEDINGS OF THE 15TH INTERNATIONAL CONFERENCE ON MULTIMEDIA,Augsburg,Germany》;20070928;285-288 *
贾振超,赵耀,朱振峰.应用对象语义进行图像检索的新方法.《铁道学报》.2007,第29卷(第4期),全文. *

Also Published As

Publication number Publication date
WO2010062625A2 (en) 2010-06-03
US20100106486A1 (en) 2010-04-29
EP2344958A4 (en) 2013-02-13
CN102197393A (zh) 2011-09-21
WO2010062625A3 (en) 2010-07-22
EP2344958A2 (en) 2011-07-20
EP2344958B1 (en) 2018-11-21
US8645123B2 (en) 2014-02-04

Similar Documents

Publication Publication Date Title
CN102197393B (zh) 基于图像的语义距离
US11562039B2 (en) System and method for performing cross-modal information retrieval using a neural network using learned rank images
Wu et al. Flickr distance
CN106372061B (zh) 基于语义的短文本相似度计算方法
CN103049435B (zh) 文本细粒度情感分析方法及装置
Wang et al. Recipe recognition with large multimodal food dataset
Lin et al. Image tag completion via image-specific and tag-specific linear sparse reconstructions
US8571850B2 (en) Dual cross-media relevance model for image annotation
Moschitti Kernel methods, syntax and semantics for relational text categorization
Li et al. Measuring and predicting tag importance for image retrieval
Leong et al. Going beyond text: A hybrid image-text approach for measuring word relatedness
CN103473307B (zh) 跨媒体稀疏哈希索引方法
Zheng et al. MMDF-LDA: An improved Multi-Modal Latent Dirichlet Allocation model for social image annotation
Sumathi et al. An overview of automated image annotation approaches
Denoyer et al. Structured multimedia document classification
Hong et al. Multimedia encyclopedia construction by mining web knowledge
Saaki et al. Value-wise convnet for transformer models: an infinite time-aware recommender system
Huang et al. Tag refinement of micro-videos by learning from multiple data sources
Liu et al. Cross domain search by exploiting wikipedia
CN113657116B (zh) 基于视觉语义关系的社交媒体流行度预测方法及装置
Wei et al. Fusing semantics, observability, reliability and diversity of concept detectors for video search
Patel et al. A survey on context based similarity techniques for image retrieval
Hong et al. Mediapedia: Mining web knowledge to construct multimedia encyclopedia
McGuinness et al. Insight Centre for Data Analytics (DCU) at TRECVid 2014: instance search and semantic indexing tasks
Magalhães et al. Using manual and automated annotations to search images by semantic similarity

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150508

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150508

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.