CN102197393B - 基于图像的语义距离 - Google Patents
基于图像的语义距离 Download PDFInfo
- Publication number
- CN102197393B CN102197393B CN200980143703.7A CN200980143703A CN102197393B CN 102197393 B CN102197393 B CN 102197393B CN 200980143703 A CN200980143703 A CN 200980143703A CN 102197393 B CN102197393 B CN 102197393B
- Authority
- CN
- China
- Prior art keywords
- semantic
- concept
- image
- semantic concept
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/268—Lexical context
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
呈现基于图像的语义距离技术实施例,它们涉及建立语义概念之间基于图像的语义距离的量度。一般而言,这需要基于与语义概念相关联的图像集分别为每个概念计算语义概念表示。然后计算两个语义概念表示之间的差异度,来为这对概念产生上述的语义距离量度。
Description
背景技术
探究概念之间的语义关系是近来的热门研究课题,因为它在自然语言处理、对象检测和多媒体检索等领域有着广泛应用。值得注意的是,语义关系不仅是同义词(例如足球-英式足球)和概念相似性(例如马-驴)。它还包括诸如整体部分关系(meronymy)(例如车辆-车轮)和并发性关系(例如飞机-机场)等关系。在该上下文中,并发性是指两个概念可能在日常生活而非文本文档中同时出现。更广泛地,与可以在文本文档领域中表示概念同现的术语“相似性”不同,术语“并发性”可以在视觉领域中表示概念同现或背景一致。
概述
本文所述的基于图像的语义距离技术实施例涉及建立语义概念之间基于图像的语义距离的量度。一般而言,这需要基于与每一概念相关联的图像集来分别为该概念计算语义概念表示。然后计算两个语义概念表示之间的差异度,来为这对概念产生上述的语义距离量度。在某些实施例中,语义概念表示采用与所考虑语义概念相关联的图像的统计分布模型的形式,并且差异度采用统计分布散度量度的形式。
某些实施例还包括潜在语义分析以捕捉在用于计算语义概念表示的相关图像集合中的概念的外观(appearance)的变化。在这些实施例中,建立语义概念之间的基于图像的语义距离量度通常需要基于与每个语义概念相关联的图像来为该概念计算语义概念表示,其中每个表示计入相关联的语义概念的外观的变化。一旦语义概念表示就绪,则计算一对语义概念表示之间的差异度以产生语义距离量度。在这种情形中,计算与这对语义概念表示中的第一个相关联的每个外观变化和与这对语义概念表示中的另一个相关联的每个外观变化之间的差异度的组合。
应该注意,提供本发明内容是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
附图说明
参考以下描述、所附权利要求书以及附图,将更好地理解本发明的具体特征、方面和优点,附图中:
图1是概括示出用于建立语义概念之间的基于图像的语义距离量度的一个过程实施例的流程图。
图2是示出图1中过程的实现的框图,采用视觉语言模型和詹森-香农(Jensen-Shannon)散度来用于建立语义概念之间的基于图像的语义距离量度。
图3是概括示出用于在计入概念外观变化的同时建立语义概念之间的基于图像的语义距离量度的一个过程实施例的流程图。
图4是描绘了构成用于实现本文所述的基于图像的语义距离技术实施例的示例系统的通用计算设备的图示。
详细描述
在以下对基于图像的语义距离技术实施例的描述中,对附图进行了参考,附图构成了实施例的一部分且在附图中作为说明示出了可在其中实践该技术的具体实施例。可以理解,可以使用其它实施例并且可以做出结构改变而不背离本发明技术的范围。
1.0 基于图像的语义距离
语义概念之间的关系可以涉及同义词(例如足球-英式足球)或相似性(例如马-驴)。它还包括诸如整体部分关系(meronymy)(例如车辆-车轮)和并发性(例如飞机-机场)之类的关系。某些语义概念更加紧密相关,诸如“飞机”和“机场”,而某些更加疏远,诸如“卫城(acropolis)”和“酒精(alcohol)”。本文所述的基于图像的语义距离技术实施例提供通过使用描绘概念的图像来量化概念之间关系的紧密度的方式。由于语义概念之间的关系是人类感知的 知识并且80%的人类认知来自于视觉信息,因此通过视觉相关性而非通过文本文档中的概念同现来生成有关概念关系的人为知识是合理的。此外,视觉领域中的相关性不仅由图像中低级别视觉特征的频率表示,而且可以使用图像中这些低级别视觉特征之间的空间信息。例如,相同的视觉特征(即车轮)频繁同现在“车辆”和“摩托车”图像中,但是它们的邻近特征是不同的。由于忽视视觉特征之间的空间信息,这两个概念可能被混淆。然而,如果考虑这些视觉特征的邻近信息,概念之间的关系更加清晰。因此,视觉特征的安排在表示概念时也能提供信息。
鉴于上文,本文所述的基于图像的语义距离技术实施例能够建立语义概念之间基于图像的语义距离的量度。参照图1,这通常涉及首先基于与概念相关联的图像分别为每个概念计算语义概念表示(100)。这通常涉及首先基于与概念相关联的图像分别计算每个概念的语义概念表示(100)。然后计算两个语义概念表示之间的差异度,来产生这对概念的上述语义距离量度(102)。在某些实施例中,语义概念表示采用与所考虑语义概念相关联的图像的统计分布模型的形式,并且差异度采用统计分布散度量度的形式(有时还称为统计分布距离量度)。
具体而言,如图2所示,本文所述的基于图像的语义距离技术实施例是视觉领域中语义概念200、202(例如对象、场景)之间关系的新颖量度。对于每个概念,获得图像集204、206,在一个实施例中基于此,建立视觉语言模型208、210来捕捉概念的视觉特性。然后测量不同概念之间基于图像的语义距离,在一个实施例中,这采用对应视觉语言模型212之间詹森-香农(JS)散度计算的形式。
1.1 语义概念图像池
如上所述,由于80%的人类认知来自于视觉信息,因此通过日常生活中概念的并发来测量这些概念之间的语义距离是有意义的。为了模拟日常生活中的概念并发,应该在日常生活环境中执行概念关系学习过程。与人类观察系统类似,世界上的数码相机记录每天的现实日常生活。可以从大型日常生活 照片池中挖掘概念之间的统计语义关系。为了实现对统计概念关系的偏见较小的估计,图像池应该非常大并且照片来源应该是独立的。
幸运的是,存在可用的基于web的图像池,它包括用描述关联图像的词句来标记的图像。这些词句通常涉及感兴趣的语义概念。例如,存在在线照片共享网站Flickr。该网站收集了由独立用户上传的超过109个图像。此外,这些图像中的大量图像已被标注(即标记)。因此,这是学习概念语义关系的理想数据集。
为了提供概念之间语义距离的无偏见估计,需要足够大的无偏见图像数据集。此外,数据集中的图像应该包括图像与概念之间的连接信息。这可以通过采用Flickr 照片集作为图像池而满足。在一个实施例中,只有预定数量(例如1000)的用查询概念来标记的最高返回图像被用于表示每个查询概念。这避免了噪声标签的问题。
1.2 语义概念表示
为了分析照片池中的概念相关性,使用上述语义概念表示。该表示可以采用与语义概念相关联的图像的统计分布模型的形式。存在许多能够使用的计算机视觉模型,诸如词袋(BOW)模型和基于感兴趣区域(ROI)的模型。然而,在基于图像的语义距离技术的一个实施例中,使用视觉语言模型(VLM)。VLM是捕捉局部外观特征及其空间依存关系的有效视觉统计分析方法。如上所述,这在表征语义概念时比纯视觉特征分布更有辨别力。VLM的训练很快,这使该建模方法尤其适于大规模概念数据集。VLM的输出是图像碎片的视觉特征的条件分布,基于此可以定义严谨的距离量度。VLM还可以抑制噪声。实际包含目标概念的图像会共享某些视觉特征,这实际上对模型有贡献。在被错误标记的噪声样本中的视觉特征对最终VLM影响很小。
在操作中,VLM通过分析邻近图像碎片之间的空间依存关系来捕捉图像的统计语义。因此,统计语义可以表示为图像局部特征及其空间依存关系。具体而言,对于每个语义概念,通过上述描述性标签的帮助获得相关图像的集合。假设标记有相同概念的图像共享类似的外观特征及其排列模式。这形成概念的 统计语义。将每个图像划分成尺寸相等的碎片,然后使用VLM计算这些碎片之间的条件依存关系以捕捉概念的视觉统计语义。
1.2.1 潜在主题视觉语言模型
在基于图像的语义距离技术的另一实施例中,将潜在语义分析结合到VLM中以捕捉概念外观变化。在处理概念外观变化中,传统VLM可能并不完善。这包括由于比例(例如近景/远景镜头)和取向(例如侧视/前视)以及诸如对象形状、照明、颜色、纹理等的其它属性而引起的外观变化。在这些情形中,将潜在主题分析结合到VLM中是可能的,并假设概念的每个外观变化对应于潜在主题Zi。概率性潜在语义分析(pLSA)可以适于用户感兴趣的每个变化下概念的视觉特性。在以下段落中,详细地描述这一潜在主题视觉语言模型,以特征提取阶段开始并以潜在主题VLM生成阶段结束。
在特征提取阶段的一个实施例中,将每个图像划分成统一采样、尺寸相等的碎片。这是适当的,因为统一采样需要很少计算成本,并且其性能可以比得上使用显著检测或基于局部区域的分割等其它方法,但是如果需要也可以使用这些其它方法(以及类似方法)。对于每个碎片,使用8维纹理直方图来描述。每个纬度对应于沿八个量化方向之一的纹理梯度。可以使用常规方法来计算纹理直方图。接下来,将每个碎片的纹理直方图转换成视觉词wxy。在一个实施例中,使用散列编码方案。
潜在主题VLM生成阶段通常涉及将潜在主题(外观变化)分析结合到VLM中以根据低级别视觉特征排列来表征每个概念Ci。这提供了对概念进行建模的有效方式。每个VLM以条件分布的形式来呈现,条件分布描述了在给定其近邻和潜在主题的情况下低级别视觉特征之间的空间依存关系。
根据所考虑的邻近视觉词的数量,可将视觉语言模型细分成一元语法(unigram)、二元语法(bigram)、三元语法(trigram)、或者一般情况下的n元语法(n-gram)模型。一元语法模型假设视觉词彼此独立。该模型实际上捕捉视觉词分布。二元语法模型假设视觉词依赖于其邻近特征之一,例如左侧最近邻。该模型在给定其近邻词之一的情况下计算每个视觉词的条件概率。三元语法模型假设视觉词依赖于其邻近词中的两个,例如左侧最近邻和上侧最近 邻。因此,一般而言,n元语法模型假设视觉词依赖于其近邻词中的n-1个。然而,应该注意,虽然更高阶模型可以更有辨别力,但是随着模型阶数增大,参数数量会指数增长。由于参数是从训练集中n元语法的出现来估计的,因此如果阶数n过大,相对受限的训练集会遭遇稀缺问题。因此,辨别力和稀缺之间存在折衷。
此外,还有可能使用组合模型。在组合模型中,使用一个以上的n元语法模型来生成参数。例如,可以从首先使用二元语法方法、然后使用三元语法方法生成的参数中计算与VLM相关联的条件分布。可以使用各方法的任何组合。然而,虽然使用方法组合可以产生更有辨别力的结果,但是参数数量的增加会增加处理成本。因此,辨别力和成本之间存在折衷。
在测试实施例中,选择三元语法模型来捕捉概念,但是如上文所指出的,可以改为使用更高或更低(或组合)阶模型。在三元语法模型中,理念是估计条件分布
其中C是语义概念,且 表示二元语法wx-1,ywx,y-1。由于视觉概念可以具有各种外观,所以使用多个模型来表示概念是适当的。为此,引入潜在变量z来表示概念变化。由于该变量被隐藏,因此将pLSA结合到VLM中以对每个变化下的概念进行建模。
因此,潜在主题VLM估计 其中 表示概念C的第k外观变化。该潜在主题三元语法建模过程可以用公式表示如下。
x=1,…,m;y=1,…,n;j=1,…,N。
其中 表示概念C中的第j个图像。 是概念C中第k个潜在主题。K是潜在主题的总数,它可以根据经验确定。使用期望值最大化(EM)技术来估计参数 和 EM技术的目标函数是最大化概念及其视觉词排列Aw的联合分布。
最大化p(Aw,C) (3)
为了获得在分析上易处理的密度估计,可以使用交叉更新方案,其中同时估计 和 然后,通过这两个估计来计算 (方程(11))。如下执行E步骤和M步骤。
E步骤:
M步骤:
输出是每个潜在主题的三元语法的条件分布, k=1,…,K.
1.3 语义距离量度
为了测量一对语义概念表示之间的距离,在一个实施例中,计算这些表示之间的詹森-香农(JS)散度的平方根。如果两个概念更有可能相关,则其视觉语言模型的JS散度平方根往往较小;否则较大。JS和Kullback-Leibler(KL)散度是两个分布之间的常用相似性测量。虽然可以使用KL,但是JS散度被演示成对称并满足三角不等式。而且已知詹森-香农散度的平方根是一个度量(metric)。由于期望定义各概念之间的距离度量,因此使用JS散度平方根是适当的。
在使用潜在主题VLM计入概念外观变化的基于图像的语义距离技术实施例中,该距离通常被定义成在与一对语义概念表示中的第一个相关联的每个条件分布和与这对语义概念表示中的另一个相关联的每个条件分布之间詹森-香农散度和的平方根。
例如,在使用三元语法方法来计算潜在主题VLM的条件分布的情形中,令 和 分别是潜在主题 和 下的三元语法条件分布。 表示概念C1的第i个潜在主题, 表示概念C2的第j个潜在主题。它们之间的K-L散度被定义为
其中 分别对应于这两个分布中第l个三元语法的概率密度。就信息理论而言,KL散度实际上是两个视觉语言模型之间相互熵的测量。
其中 是两个分布的交叉熵,并且 是 的熵。根据吉布斯(Gibbs)不等式, 当且仅当 等于 时,它为零。
基于KL散度来定义JS散度,以定义这些视觉语言模型之间的距离度量(方程(15))。
其中M是 和 的平均。已经演示了詹森-香农散度的平方根是一个度量。鉴于此,在一个实施例中,可以将两个概念C1和C2之间基于图像的语义距离计算为在与概念C1的潜在主题VLM相关联的每个条件分布和与概念C2的潜在主题VLM相关联的每个条件分布之间计算的加权JS散度的总和的平方根,如下:
其中D(C1,C2)是语义距离量度, 是表示给定C1的情况下潜在主题 概率的加权因子,并且 是表示给定C2的情况下潜在主题 概率的加权因子。这些加权因子表示在与一概念相关联的各图像之间该概念的特定变化的重要性(概率或频率)。使用它们以使得所得语义距离量度受到被测量语义概念图像中更普遍的变化影响更大。
1.4 给定概念外观变化的情况下基于图像的语义距离
鉴于上文,可以实现基于图像的语义距离实施例以在计入概念外观变化的同时建立一对语义概念之间的基于图像的语义距离量度。这在图3的示例性实施例中概括地示出。参照图3基于与概念相关联的图像来计算每个语义概念的语义概念表示,其中各表示中的每个表示计入在用于计算该表示的图像中描绘的相关联的语义概念的外观的变化(300)。在某些实施例中,计算语义概念表示需要使用潜在主题视觉语言模型,该模型以所考虑的每个变化的条件分布的形式来捕捉外观变化的视觉特征,如上所述。一旦语义概念表示就绪,随后计算一对语义概念表示之间的差异度以产生语义距离量度,其中该计算需要计算与该对语义概念表示中的第一个相关联的每个外观变化和与该对语义概念表示中的另一个相关联的每个外观变化之间的差异度的组合(302)。在某些实施例中,后一任务涉及将差异度计算为在与该对语义概念中的第一个相关联的每个条件分布和与该对语义概念中的另一个相关联的每个条件分布之间计算的加权詹森-香农散度的总和的平方根。对于每个所计算的詹森-香农散度,加权可以基于与第一语义概念的条件分布相关联的图像中变化的重要性(概率或频率)以及与另一语义概念的条件分布相关联的图像中变化的重要性。
2.0 视觉概念网络
可以使用基于图像的语义距离来构建视觉概念网络。视觉概念网络(VCNet)是图G(V,E,W),其中概念是节点vi∈V,i=1,…,N且两个概念之间的语义关系是边e(vi,vj)∈E,i,j=1,…,N。节点之间基于图像的语义距离由边的长度(权重)表示,w∈W。如果两个概念具有大的基于图像的语义距离,则它们之间的边较长;否则较短。
为了避免概念节点的重叠,可以采用力指向图布局技术。通常,节点之间的边可以表示为吸引力,而不共享边(tie)的节点被某种约束推开以便于防止重叠。
VCNet在许多多媒体相关任务中是有用的,诸如知识表示、多媒体检索等等。这一概念网络以图形方式对概念关系进行建模。此外,它可以维护大得多并且不断增长的语料库。VCNet的最直接应用之一是概念群集。该任务旨在将 图像标签中的概念或描述进行群集以帮助发现关于图像的主要主题和概要。使用VCNet,带有语义连接的概念更可能被群集在一起。VCNet的另一个应用是基于内容的web图像/视频注释,其中通用范例是通过分类来注释图像或视频帧。这是通过考虑概念是彼此独立的或者将概念关系结合到模型中来完成的。VCNet还具有许多其它可能应用,诸如查询扩展、注释细化等等。
3.0 概念群集
基于图像的语义距离还可以直接用于概念群集。概念群集广泛地用于文本领域中的主题检测和概要。存在与web图像相关联的许多标签和描述。概念群集方法通常使用这些标签和描述来检测这些图像的主要主题或概要。然而,图像中主题概要的焦点可以与文本焦点不同。例如,图像更可能聚焦在主要对象或场景上,而文本更多地聚焦在故事或作者观点上。因此,文本领域可用的概念距离量度可能不如视觉领域的特定距离量度一样表现良好。
4.0 图像注释
对图像的各概念进行自动注释在web图像检索和浏览中非常重要。现有技术中大多数图像注释方法以隔离方式检测多个语义概念,这忽视了概念可以相互关联的事实。注释过程的生产模型可以表示为方程(18)。
其中w是注释关键词,w*是最适合关键词。Iu表示未标注图像。该注释过程等于联合概率P(w,Iu)的最大化。注释性能可以通过考虑概念关系而进一步提高。
基于这一动机,提出双跨媒体相关模型(DCMRM)。该模型假设观察到注释关键词w和图像Iu的概率在给定关键词v的情况下是相互独立的,并且该相关模型被表示如下。
其中w和v是两个注释关键词,P(Iu|v)表示在给定词v的情况下未标记图像Iu的概率。P(w|v)表示给定词v的情况下词w的概率。基于图像的语义距离被用于计算条件概率P(w|v)。
5.0 计算环境
现在将描述其中可实现本文所描述的基于图像的语义距离技术实施例的各部分的合适计算环境的简要、一般描述。各技术实施例可用于众多通用或专用计算系统环境或配置。适合的公知计算系统、环境和/或配置的示例包括但不限于个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型机、大型计算机、包括以上系统或设备的任一个的分布式计算环境等等。
图4示出合适的计算系统环境的示例。计算系统环境仅为合适的计算环境的一个示例,并非旨在对本文所描述的基于图像的语义距离技术实施例的使用范围或功能提出任何限制。也不应将该计算环境解释为对示例性操作环境中示出的任一组件或其组合有任何依赖性或要求。参考图4,用于实现此处所描述的各实施例的示例性系统包括计算设备,诸如计算设备10。在其最基本的配置中,计算设备10通常包括至少一个处理单元12和存储器14。取决于计算设备的确切配置和类型,存储器14可以是易失性的(如RAM)、非易失性的(如ROM、闪存等)或是两者的某种组合。该最基本配置在图4中由虚线16来示出。另外,设备10还可具有附加特征/功能。例如,设备10还可包含附加存储(可移动和/或不可移动),包括但不限于磁盘、光盘或磁带。这样的附加存储在图4中由可移动存储18和不可移动存储20例示。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。存储器14、可移动存储18和不可移动存储20都是计算机存储介质的示例。计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、磁带盒、磁带、磁盘存储或其它磁存储 设备、或者可用于存储所需信息并且可由设备10访问的任何其它介质。任何这样的计算机存储介质可以是设备10的一部分。
设备10还可包含使该设备能与其它设备进行通信的通信连接22。设备10还可以具有诸如键盘、鼠标、笔、语音输入设备、触摸输入设备、照相机等输入设备24。还可以包括诸如显示器、扬声器、打印机等输出设备26。所有这些装置在本领域中都是众所周知的,因此不必在此详细讨论。
此处所描述的基于图像的语义距离技术实施例还可在由计算设备执行的诸如程序模块等计算机可执行指令的一般上下文中描述。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。此处所描述的各实施例还能在其中任务由通过通信网络链接的远程处理设备完成的分布式计算环境中实现。在分布式计算环境中,程序模块可以位于包括存储器存储设备在内的本地和远程计算机存储介质中。
6.0 其他实施例
应当注意,可以按所需的任何组合来使用本说明书全文中的上述实施例的任一个或全部以形成另外的混合实施例。另外,尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求的示例形式公开的。
Claims (13)
1.一种用于建立语义概念之间基于图像的语义距离的量度的计算机实现的方法,包括:
基于与概念相关联的图像分别计算每个概念的语义概念表示(100),其中所述语义概念表示中的每一个表示计入在用于计算该语义概念表示的图像中所描绘的相关联的语义概念的外观的变化,其中所述语义概念表示各自采用与对应的语义概念相关联的图像的统计分布模型的形式,并且所述统计分布模型是视觉语言模型,每个所述统计分布模型捕捉与对应的语义概念相关联的图像的视觉特性;以及
计算两个语义概念表示之间的差异度以产生该对相应语义概念的基于图像的语义距离量度(102),其中计算差异度包括计算与所述语义概念表示中的第一个相关联的每个外观变化和与所述语义概念表示中的另一个相关联的每个外观变化之间的差异度的组合。
2.如权利要求1所述的方法,其特征在于,所述语义概念表示之间的差异度采用统计分布散度的形式。
3.如权利要求2所述的方法,其特征在于,所述统计分布散度是所述统计分布模型之间的詹森-香农散度计算的平方根。
4.如权利要求1所述的方法,其特征在于,所述语义概念中的至少一个包括在与相应概念相关联的图像中描绘的对象。
5.如权利要求1所述的方法,其特征在于,所述语义概念中的至少一个包括在与相应概念相关联的图像中描绘的场景。
6.如权利要求1所述的方法,还包括以下过程动作:计算多对语义概念中每一对之间的基于图像的语义距离量度,以及使用这些量度来构建视觉概念网络,所述视觉概念网络包括具有表示每个语义概念的分开节点和连接表示在每个经连接节点之间计算的基于图像的语义距离量度的节点的边的图。
7.如权利要求1所述的方法,其特征在于,还包括以下过程动作:计算多对语义概念中每一对之间的基于图像的语义距离量度,以及在语义概念群集应用中使用这些量度。
8.如权利要求1所述的方法,其特征在于,还包括以下过程动作:计算多对语义概念中每一对之间的基于图像的语义距离量度,以及在图像注释应用中使用这些量度。
9.一种用于建立一对语义概念之间的基于图像的语义距离的量度的计算机实现的系统,包括:
用于基于与所述概念相关联的图像分别计算每个语义概念的语义概念表示的装置,其中所述语义概念表示中的每一个表示计入在用于计算该表示的图像中所描绘的相关联的语义概念的外观的变化(300),其中所述语义概念表示各自采用与对应的语义概念相关联的图像的统计分布模型的形式,并且所述统计分布模型是视觉语言模型,每个所述统计分布模型捕捉与对应的语义概念相关联的图像的视觉特性,以及
用于计算一对语义概念表示之间的差异度以产生基于图像的语义距离量度的装置,其中计算差异度包括计算与所述语义概念表示中的第一个相关联的每个外观变化和与所述语义概念表示中的另一个相关联的每个外观变化之间的差异度的组合。
10.如权利要求9所述的系统,其特征在于,所述外观的变化可归因于比例、取向、对象形状、照明、色彩、和纹理的变化中的至少一个。
11.如权利要求9所述的系统,其特征在于,用于计算语义概念表示的装置包括用于使用潜在主题视觉语言模型计算每个语义概念表示的子模块,所述潜在主题视觉语言模型以每个所考虑变化的条件分布的形式来捕捉所述外观变化的视觉特征。
12.如权利要求11所述的系统,其特征在于,在计算语义概念表示的潜在主题视觉语言模型之前,与所述表示的语义概念相关联的每个图像被表征为视觉词集合。
13.如权利要求11所述的系统,其特征在于,用于计算一对语义概念表示之间的差异度的装置包括用于将差异度计算为在与该对语义概念表示中的第一个相关联的每个条件分布和与该对语义概念表示中的另一个相关联的每个条件分布之间计算的加权詹森-香农散度的总和的平方根的子模块,其中对于所计算的每个詹森-香农散度,加权是基于与第一语义概念表示的条件分布相关联的图像中变化的重要性以及与另一语义概念表示的条件分布相关联的图像中变化的重要性的。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10873908P | 2008-10-27 | 2008-10-27 | |
US61/108,739 | 2008-10-27 | ||
US12/340,632 | 2008-12-19 | ||
US12/340,632 US8645123B2 (en) | 2008-10-27 | 2008-12-19 | Image-based semantic distance |
PCT/US2009/062264 WO2010062625A2 (en) | 2008-10-27 | 2009-10-27 | Image-based semantic distance |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102197393A CN102197393A (zh) | 2011-09-21 |
CN102197393B true CN102197393B (zh) | 2014-12-24 |
Family
ID=42118349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980143703.7A Active CN102197393B (zh) | 2008-10-27 | 2009-10-27 | 基于图像的语义距离 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8645123B2 (zh) |
EP (1) | EP2344958B1 (zh) |
CN (1) | CN102197393B (zh) |
WO (1) | WO2010062625A2 (zh) |
Families Citing this family (148)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8463053B1 (en) | 2008-08-08 | 2013-06-11 | The Research Foundation Of State University Of New York | Enhanced max margin learning on multimodal data mining in a multimedia database |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8239333B2 (en) | 2009-03-03 | 2012-08-07 | Microsoft Corporation | Media tag recommendation technologies |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
WO2011134141A1 (en) * | 2010-04-27 | 2011-11-03 | Hewlett-Packard Development Company,L.P. | Method of extracting named entity |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
CN113470640B (zh) | 2013-02-07 | 2022-04-26 | 苹果公司 | 数字助理的语音触发器 |
US9135240B2 (en) | 2013-02-12 | 2015-09-15 | International Business Machines Corporation | Latent semantic analysis for application in a question answer system |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9280536B2 (en) * | 2013-03-28 | 2016-03-08 | Hewlett Packard Enterprise Development Lp | Synonym determination among n-grams |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
GB2518876A (en) * | 2013-10-04 | 2015-04-08 | Nokia Corp | Method, apparatus and computer program product for similarity determination in multimedia content |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9652695B2 (en) | 2013-12-20 | 2017-05-16 | Google Inc. | Label consistency for image analysis |
US10181322B2 (en) * | 2013-12-20 | 2019-01-15 | Microsoft Technology Licensing, Llc | Multi-user, multi-domain dialog system |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9785630B2 (en) * | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
CN106610945A (zh) * | 2016-08-12 | 2017-05-03 | 四川用联信息技术有限公司 | 一种改进的本体概念语义相似度计算方法 |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US9836183B1 (en) | 2016-09-14 | 2017-12-05 | Quid, Inc. | Summarized network graph for semantic similarity graphs of large corpora |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
CN108304459B (zh) * | 2017-12-22 | 2019-03-12 | 北京达佳互联信息技术有限公司 | 多媒体文件的预测方法和装置 |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10671812B2 (en) * | 2018-03-22 | 2020-06-02 | Equifax Inc. | Text classification using automatically generated seed data |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10504518B1 (en) | 2018-06-03 | 2019-12-10 | Apple Inc. | Accelerated task performance |
CN108549886A (zh) * | 2018-06-29 | 2018-09-18 | 汉王科技股份有限公司 | 一种人脸活体检测方法及装置 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11257493B2 (en) | 2019-07-11 | 2022-02-22 | Soundhound, Inc. | Vision-assisted speech processing |
CN110598719A (zh) * | 2019-09-11 | 2019-12-20 | 南京师范大学 | 一种依据视觉属性描述自动生成人脸图像的方法 |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
CN110866140B (zh) * | 2019-11-26 | 2024-02-02 | 腾讯科技(深圳)有限公司 | 图像特征提取模型训练方法、图像搜索方法及计算机设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6404925B1 (en) * | 1999-03-11 | 2002-06-11 | Fuji Xerox Co., Ltd. | Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition |
US6847980B1 (en) | 1999-07-03 | 2005-01-25 | Ana B. Benitez | Fundamental entity-relationship models for the generic audio visual data signal description |
US7308140B2 (en) | 2000-05-31 | 2007-12-11 | Samsung Electronics Co., Ltd. | Method and device for measuring similarity between images |
US7653530B2 (en) * | 2000-07-13 | 2010-01-26 | Novell, Inc. | Method and mechanism for the creation, maintenance, and comparison of semantic abstracts |
US7043474B2 (en) | 2002-04-15 | 2006-05-09 | International Business Machines Corporation | System and method for measuring image similarity based on semantic meaning |
US7329593B2 (en) * | 2004-02-27 | 2008-02-12 | Asm America, Inc. | Germanium deposition |
US7552116B2 (en) * | 2004-08-06 | 2009-06-23 | The Board Of Trustees Of The University Of Illinois | Method and system for extracting web query interfaces |
US20080162561A1 (en) | 2007-01-03 | 2008-07-03 | International Business Machines Corporation | Method and apparatus for semantic super-resolution of audio-visual data |
US8584045B2 (en) * | 2007-01-19 | 2013-11-12 | Sap Ag | Systems and methods for navigating, finding, and presenting data objects |
US8126274B2 (en) * | 2007-08-30 | 2012-02-28 | Microsoft Corporation | Visual language modeling for image classification |
US7890512B2 (en) * | 2008-06-11 | 2011-02-15 | Microsoft Corporation | Automatic image annotation using semantic distance learning |
-
2008
- 2008-12-19 US US12/340,632 patent/US8645123B2/en active Active
-
2009
- 2009-10-27 WO PCT/US2009/062264 patent/WO2010062625A2/en active Application Filing
- 2009-10-27 CN CN200980143703.7A patent/CN102197393B/zh active Active
- 2009-10-27 EP EP09829606.4A patent/EP2344958B1/en active Active
Non-Patent Citations (3)
Title |
---|
Lei Wu等.Visual Language Modeling for Image Classification.《Proceedings of the International Workshop on Multimedia Information Retrieval, Augsburg,Bavaria, Germany》.2007,115-124. * |
The importance of query-concept-mapping for automatic video retrieval;WANG D等;《PROCEEDINGS OF THE 15TH INTERNATIONAL CONFERENCE ON MULTIMEDIA,Augsburg,Germany》;20070928;285-288 * |
贾振超,赵耀,朱振峰.应用对象语义进行图像检索的新方法.《铁道学报》.2007,第29卷(第4期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
WO2010062625A2 (en) | 2010-06-03 |
US20100106486A1 (en) | 2010-04-29 |
EP2344958A4 (en) | 2013-02-13 |
CN102197393A (zh) | 2011-09-21 |
WO2010062625A3 (en) | 2010-07-22 |
EP2344958A2 (en) | 2011-07-20 |
EP2344958B1 (en) | 2018-11-21 |
US8645123B2 (en) | 2014-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102197393B (zh) | 基于图像的语义距离 | |
US11562039B2 (en) | System and method for performing cross-modal information retrieval using a neural network using learned rank images | |
Wu et al. | Flickr distance | |
CN106372061B (zh) | 基于语义的短文本相似度计算方法 | |
CN103049435B (zh) | 文本细粒度情感分析方法及装置 | |
Wang et al. | Recipe recognition with large multimodal food dataset | |
Lin et al. | Image tag completion via image-specific and tag-specific linear sparse reconstructions | |
US8571850B2 (en) | Dual cross-media relevance model for image annotation | |
Moschitti | Kernel methods, syntax and semantics for relational text categorization | |
Li et al. | Measuring and predicting tag importance for image retrieval | |
Leong et al. | Going beyond text: A hybrid image-text approach for measuring word relatedness | |
CN103473307B (zh) | 跨媒体稀疏哈希索引方法 | |
Zheng et al. | MMDF-LDA: An improved Multi-Modal Latent Dirichlet Allocation model for social image annotation | |
Sumathi et al. | An overview of automated image annotation approaches | |
Denoyer et al. | Structured multimedia document classification | |
Hong et al. | Multimedia encyclopedia construction by mining web knowledge | |
Saaki et al. | Value-wise convnet for transformer models: an infinite time-aware recommender system | |
Huang et al. | Tag refinement of micro-videos by learning from multiple data sources | |
Liu et al. | Cross domain search by exploiting wikipedia | |
CN113657116B (zh) | 基于视觉语义关系的社交媒体流行度预测方法及装置 | |
Wei et al. | Fusing semantics, observability, reliability and diversity of concept detectors for video search | |
Patel et al. | A survey on context based similarity techniques for image retrieval | |
Hong et al. | Mediapedia: Mining web knowledge to construct multimedia encyclopedia | |
McGuinness et al. | Insight Centre for Data Analytics (DCU) at TRECVid 2014: instance search and semantic indexing tasks | |
Magalhães et al. | Using manual and automated annotations to search images by semantic similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC Free format text: FORMER OWNER: MICROSOFT CORP. Effective date: 20150508 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20150508 Address after: Washington State Patentee after: Micro soft technique license Co., Ltd Address before: Washington State Patentee before: Microsoft Corp. |