CN102112987A - 大规模图像注释的统计方法 - Google Patents

大规模图像注释的统计方法 Download PDF

Info

Publication number
CN102112987A
CN102112987A CN2009801311594A CN200980131159A CN102112987A CN 102112987 A CN102112987 A CN 102112987A CN 2009801311594 A CN2009801311594 A CN 2009801311594A CN 200980131159 A CN200980131159 A CN 200980131159A CN 102112987 A CN102112987 A CN 102112987A
Authority
CN
China
Prior art keywords
image
images
note
cluster
annotating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009801311594A
Other languages
English (en)
Other versions
CN102112987B (zh
Inventor
M·李
X·芮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102112987A publication Critical patent/CN102112987A/zh
Application granted granted Critical
Publication of CN102112987B publication Critical patent/CN102112987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Abstract

描述了大规模图像注释的统计方法。一般而言,注释技术包括编译来自多个图像的视觉特征和文本信息、散列图像视觉特征、并基于其散列值对图像聚类。一个示例系统从所聚类的图像中构建统计语言模型,并且通过应用统计语言模型中的一个来注释图像。

Description

大规模图像注释的统计方法
背景
随着廉价的数码相机、照相机电话和其他成像设备的出现,拍摄并张贴到因特网上的数字图像的数量显著地增长。然而,为了使用这些图像,必须标识和组织它们从而使得可以浏览、搜索或检索这些图像。
一个解决方案是手动图像注释,其中人在拍摄、上传或登记图像时手动地输入描述性文本或关键词。虽然手动图像注释一般非常准确(例如,人们一般选择准确描述),但手动图像注释是耗时的且因此许多数字图像未被注释。另外,手动图像注释可能是主观的,因为注释图像的人可能不考虑图像的关键特征(例如,人们通常基于图像中的人、图像被拍摄的时间、或图像的位置来注释图像)。
另一个解决方案是用关键词自动地注释图像的自动图像注释。一般而言,自动图像注释是基于分类的或基于概率模型的。基于分类的方法试图通过学习分类器(例如,贝叶斯点机、支持矢量机等等)来将词或概念进行关联。而概率模型方法试图推断图像和注释之间的相关或联合概率(例如,翻译模型、跨媒体相关性模型、连续相关性模型等等)。
虽然基于分类的和基于概率的图像注释算法能够注释小规模的图像数据库,但它们一般不能注释具有真实图像(例如,数字图片)的大规模数据库。
此外,这些图像注释算法一般不能够注释所有不同类型的真实图像。例如,许多个人图像不包含文本信息,而web图像可以包含不完整的或错误的文本信息。虽然当前的图像注释算法能够注释个人图像或web图像,但这些算法通常不能够同时注释这两种类型的图像。
此外,在真实图像的大规模集合中,可以作为注释标记来跨多个图像应用的概念的数量几乎是无限的,并且取决于注释策略。因此,为了注释大规模的真实图像集合,注释方法应该能够处理多个图像中可能出现的无限的概念和主题。
最后,鉴于每天正在生成的相当大的数量的图像,注释方法必须既快速又高效。例如,每一天几乎有一百万幅数字图像被上传到FLICKRTM图像共享网站上。为了每天注释一百万幅图像,必须每秒注释十幅左右的图像。因为最佳图像注释算法大约在1.4秒内注释一幅图像,所以无法注释每天生成的大量图像。
因此,需要一种可以注释包含无限数量的视觉概念的所有类型的真实生活图像并可以几乎实时地注释图像的大规模图像注释技术。
概述
提供本概述以便介绍将在以下详细描述中进一步描述的与自动化图像注释有关的简化概念。本概述并不旨在标识所要求保护的主题的必要特征,也不旨在用于确定所要求保护的主题的范围。
在一方面,一种注释图像的方法可以包括编译来自多个图像的视觉特征和文本信息、散列图像视觉特征、并基于其散列值对图像聚类。随后从所聚类的图像中构建统计语言模型,并使用统计语言模型中的一个来注释图像。
在另一方面,一种包括在由处理器执行时可以执行一种方法的计算机可执行指令的计算机可读存储介质,该方法包括爬行大规模图像数据库来收集图像及其相应的文本信息。随后使用灰块方法从图像中提取视觉信息,并且通过采用投影矩阵来缩减所提取的图像。散列经缩减的视觉信息,并根据其散列值对图像聚类。从所聚类的图像中构建一个或多个统计语言模型,并且使用统计语言模型中的一个或多个来注释查询图像。
在又一方面,一种项记录数据结构具体化在计算机可读介质上,该数据结构由数字图像和对应于该数字图像的文本注释构成。通过编译来自多个图像的视觉特征和文本信息、散列图像视觉特征、并基于散列值对图像聚类来将文本注释与数字图像相关联。随后基于所聚类的图像构建统计语言模型,并使用统计语言模型中的一个来注释图像。
虽然单独地描述上述各方面,但它们不是相互排斥的,并且给定实现中可以出现任意数量的方面。
附图简述
参考附图阐述详细描述。在附图中,附图标记中最左边的数字标识该附图标记首次出现的附图。在不同附图中使用相同的附图标记指示相似或相同的项。
图1是示出大规模图像注释技术的一个实现的框图。
图2是示出可以如何使用web爬行器来收集图像及其附随注释并将其存档到数据库中的图示。
图3是示出可以如何缩减数字图像的视觉特征、如何将经缩减的特征分组成各个聚类、并且随后基于聚类开发统计语言模型的框图。
图4是描绘了注释个人图像的说明性方法的框图。
图5是描绘了注释web图像的说明性方法的流程图。
详细描述
在理论上的理想情形中,给定无限规模的注释良好的图像数据库,图像注释是相对直接的。对于给定查询图像,在图像数据库中找到准确的复制品并将该图像的注释传播到该查询图像。
然而,在“真实世界”中,图像数据库一般在规模上是有限的并且包含许多不准确的描述。因此,“真实世界图像数据库”中的图像通常根据图像的相似性被分组成各个聚类。随后对于给定查询图像,选择最相似的图像聚类并选择与该图像聚类相关联的“最佳描述”来注释该查询图像。虽然这些常规成像注释算法能够注释大部分图像,但仍然存在很大的改进空间。
本公开涉及大规模图像注释的各种统计方法。这些统计方法可以注释一般具有有限注释或没有注释的个人图像以及一般具有噪声和不完整注释的基于web的图像。在一个实现中,图像注释技术充分利用大规模基于web的图像数据库来对几乎无限数量的语义概念进行建模。
图1示出大规模图像注释技术的一个实现100。首先,爬行大规模数据库102,并且提取视觉特征和文本信息两者并将其作为结构数据(即,训练集)来索引104。通过将高维图像特征投影到具有低维度的子空间中来降低图像数据的复杂性,同时保持大部分的图像信息106。随后将高效的基于散列的聚类算法应用于训练集并将带有相同散列代码的图像分组成“聚类”108。一旦图像被聚类成组110之后,开发统计语言模型(SLM)来对来自每一聚类中的图像的文本信息建模112。
为了注释图像,选择查询图像114并且提取其视觉特征(例如,色彩、纹理、几何特征等等)和文本特征(例如,标题、关键词、URL、环绕文本等等)116。对查询图像的特征进行散列118并基于具有与查询图像的最大联合概率的词来选择120语言模型。随后基于与所选语言模型122相关联的文本、标题、注释、和/或关键词来注释122图像。
从web收集图像
参考图2,在一个实现中,使用web爬行器从因特网收集图像202连同其文本、标题、注释、和/或关键词204并将其存档到数据库206中。一般而言,可以收集尽可能多的图像,因为大的样本大小确保视觉模型和查询图像之间的良好相关性。例如,在一个实现中,从在线照片论坛(例如,仅举几个例子,GOOGLE IMAGESTM、YAHOO IMAGE SEARCHTM、和华盛顿大学图像数据集)收集240万幅左右带有有意义描述的高质量web图像。
或者,可以随机地从因特网或其他源收集经注释的图像并将其汇集成图像集合。一般而言,只要任何类型的图像用某种形式的文本、标题、注释、或关键词来注释,便可以收集这些图像。
随后可以在数据库中索引图像及相关联的文本或关键词。存在可以索引图像202和文本204的许多方式(例如,仅举几个例子,按关键词、文本串、图像特征)。在一个实现中,图像根据关键词或与图像202相关联的文本204来排序和分组。例如,如果存在包含日落的多个图像,则这些图像可以被索引和分组在一起208。
维数缩减
传统的聚类算法是耗时的并且在计算上是低效的,因为数字图像一般是复杂的(例如,高维度)。因此,本示例性技术采用了所收集的图像的紧凑表示来实现快速且高效的图像聚类。
维数缩减的一个目的是降低图像数据的复杂性同时保持尽可能多的原始信息。维数缩减的第二个目的是通过略去最低有效的维数来减少噪声和值漂移。在以下说明性技术中实现这两个目的。
参考图3,图像的视觉特征一般应该表示其内容、其结构,并且对于图像本身的变型(例如,仅举几个例子,缩放、色彩、存储格式)是稳健的。因此,可以采用灰块方法。灰块特征可以表现为原始图像的小的缩略图。灰块方法保持图像主要内容和结构,并且对于比例改变是不变的。每一特征向量是许多单独像素的平均,所以该方法对于像素值的变化是稳健的。此外,因为每一向量特征是基于图像的亮度的,所以该方法对色彩变化也是稳健的。
在一个实现中,在框302处,将每一收集的图像分成8x8的像素块并且为每一块计算平均亮度“L”。每一特征的第K维数值可以被计算为:
f k = 1 N k Σ i , j ∈ B k I ( i , j ) k = 1,2 , . . . , n 2 - - - ( 1 )
其中Bk对应于块k,Nk是Bk中的像素数量,而L(i,j)是坐标i,j处的像素亮度。因此,图像由向量Fi=(f1,f2,f3,…,fn*n)T表示。在替换实现中,图像可以被划分成7x 7的灰块、9x 9的灰块、或任何其他合适数量的特征向量。
随后在框304处可以将高维特征投影到带有低得多的维数的子空间中,同时保持大部分图像信息。在一个实现中,图像的维数通过采用投影矩阵“A”来缩减。
Gi=AFi                  (2)
为了确定投影矩阵A,对足够大的图像集合的特征矩阵执行主分量分析(PCA)。随后可以对图像向量排序并且保留对应于最大本征值的向量来形成投影矩阵A。应该注意,投影矩阵对于大部分灰块图像一般是相同的。虽然通过该技术图像可能丢失某些信息,但已经证明,实现了高精度和快速的聚类分组。
通过散列来聚类
聚类是基于对象成员之间的高度相似性将对象分类到各类、各类别、或分区中。在一个实现中,在框306处将基于散列的聚类算法应用于训练集。这种散列代码生成本质上是向量量化过程。因为最后量化的向量具有K位,所以将位分配到每一维度的方法是重要的。在一个实现中,对于具有大于“平均k”的值的图像向量,该图像向量具有值“1”,而对于具有小于“平均k”的值的图像向量,图像向量具有值“0”:
Hi,k=1如果Gik>/=平均k            (3)
=0如果Gik<平均k
其中平均k是维数K的平均值。通过采用这种技术,K维特征向量被转换成K位二进制串,即变成了图像散列代码。
在一个实现中,K位串被约束为不超过32位,但也可以采用其他位串大小,诸如64位。随后在框308处将具有相同32位散列代码的图像分组成“聚类”。
构建统计语言模型
一旦图像被聚类成各个组之后,可以在框310处开发统计语言模型(SLM)来对来自每一聚类中的图像的文本信息建模。可以构造单元语法模型和经修改的双元语法模型来为图像聚类中的每一个计算单个词概率和条件词概率。
一般而言,个人图像可能缺少文本信息或注释,并因此通过采用概率方法来注释。具体而言,查询图像可以通过选择具有与该查询(即目标)图像的最大联合概率的关键词、短语、或文本来注释,如以下等式(4)所示。
单元语法模型假定特定文本段或关键词由每一术语独立地生成。因此,单元语法模型计算特定关键词、短语或文本与查询图像相关联的概率。
w*=arg maxw{p(w,I)}                       (4)
=arg maxw{∑cp(w/c)p(I/c)p(c)}
在等式(4)中,p(w/c)是单元语法词概率(即,关键词、短语或术语“w”出现在图像聚类“c”中的概率),p(I/c)是查询图像“I”和图像聚类“c”之间的视觉相似性,而p(c)是聚类“c”的先验概率,该先验概率常常在预先不知道先验信息的情况下被统一初始化。
例如,如果聚类中有十个图像并且两个关键词与该聚类相关联。如果第一关键词出现在五个图像中而第二关键词出现在两个图像中;则第二关键词应该与查询图像相关联的概率为2/7(29%)而第一关键词应该与查询图像相关联的概率为5/7(71%)。因此,与第二关键词相比,因为第一关键词具有与查询图像相关联的更大概率(即,71%对29%);所以使用第一关键词来注释该查询图像。
在一替换实现中,选择其视觉特征与查询图像最相似的图像聚类,并且使用其关键词、短语和/或术语来注释查询图像。
一般而言,由于聚类中的图像的数量少,所以聚类中的词的数量是有限的。因此,当存在有限数量的词时,单元语法模型可以使用贝叶斯模型使用狄利克雷(Dirichlet)先验来平滑。
p μ ( w | d ) = c ( w ; d ) + μp ( w | C ) Σ w c ( w ; d ) + μ - - - ( 5 )
此处,p(w/C)是指定关键词“w”出现在标准语料库“C”中的的单元语法概率。
一般而言,典型的web图像包含噪声和不完整的文本信息。因此,可以采用两步概率模型来注释web图像。
首先,使用等式(6)来排序可用文本“n”,并且丢弃可能是噪声的排序最低的词。随后将排序最高的词用作候选注释“n*”。
n*=arg maxn{p(n,I)}              (6)
=arg maxn{∑cp(n/c)p(I/c)p(c)}
在等式(6)中,p(n,I)是关键词、短语和/或术语“n”与web图像“I”相关联的概率,p(n/c)是术语“n”与图像聚类“c”相关联的概率,而p(I/c)是web图像“I”与图像聚类“c”相关联的概率。
接着,获得新的注释“w*”并且通过确定每一候选注释的平均条件概率p(w,I/n*)来将注释排序。随后可以选择具有最高平均条件概率的候选注释来注释web图像。
w*=arg maxw{p(w,I/n*)}                               (7)
w*=arg maxn{∑cp(w/c)p(n*/w,c)p(I/c)p(n*/I,c)p(c)}
在等式(7)中,p(n*/w,c)是双元语法词概率(即,给定“w”已经与图像聚类“c”相关联的情况下,每一关键词、术语或注释“n*”与图像聚类“c”相关联的平均条件概率)。
例如,如果web图像是带有云的天空的图片并用“天空”来注释。带有注释“天空”和“云”的聚类将具有这些注释与该图像相关的高概率。而带有注释“水”和“天空”的聚类将具有较低的概率并因此被丢弃。
注释图像
因为通常只使用少量的聚类模型来计算联合概率,所以本示例性图像注释技术是高效的并且不会引入噪声信息。
对于个人图像注释,选择在视觉上与图像相似的聚类模型。因此,基于最接近的视觉图像模型来注释个人图像而不考虑文本相似性。
图4示出根据一个实现的用于注释个人图像的说明性方法400。术语“个人图像”应该被宽泛地解释并且一般是不具有诸如关键词、标签、文本信息等文本信息的任何图像。在框402处,个人图像可以从网站下载、从计算设备(例如,仅举几个例子,个人计算机、数码相机、电视电话、个人数字助理)检索、从硬拷贝扫描、或从任何其他数字图像的源获得。
一旦选择了个人图像(即,查询图像),在框404处可以使用灰块技术提取其视觉特征。在一个实现中,查询图像被分成8x 8的块并且为每一块计算平均亮度“L”。查询图像随后基于平均亮度值Fi=(f1,f2,f3,…,fn*n)T被表示为K阶向量。在一替换实现中,图像可以被划分成7x 7的灰块、9x 9的灰块、或任何其他合适数量的灰块。
向量图像随后可以通过采用投影矩阵来缩减。投影矩阵“A”通过对特征矩阵执行主分量分析(PCA)来确定。随后对图像向量排序并且保留对应于最大本征值的向量来形成投影矩阵A。
接着在框406处,可以对查询图像执行高效的基于散列的聚类算法。在一个实现中,计算图像向量的平均值“平均k”并且对值大于平均k的图像向量赋值1而对值小于平均k的图像向量赋值0。这将K维图像向量变换成K位二进制串,即变成了查询图像散列代码。
随后将查询图像的散列代码与各图像聚类的散列代码进行比较。在框408处,选择具有与查询图像相同的散列代码的聚类。
最后在框410处,使用所选聚类的注释来注释查询图像。
对于web图像,可以选择既在文本上与web图像文本信息相似又在视觉上与web图像相似的聚类模型。图5示出根据一个实现的用于注释web图像的说明性方法500。术语“web图像”应该被宽泛地解释并且一般是具有诸如关键词、标签、文本信息等文本信息的任何图像。在框502处,像个人图像一样,web图像可以从因特网网站下载、从计算设备(例如,仅举几个例子,个人计算机、数码相机、电视电话、个人数字助理)检索、从硬拷贝扫描、或从任何其他数字图像的源获得。
一旦选择了web图像(即,查询图像),在框504处使用灰块技术提取图像的视觉特征并且通过采用投影矩阵缩减向量图像。相关联的文本特征被记录在数据库中或其他形式的档案中。
通过使用图像向量的平均值“平均k”来计算查询图像的散列值,并且对值大于平均k的图像向量赋值1而对值小于平均k的图像向量赋值0。在框506处,这将K维图像向量变换成K位二进制串,即变成了查询图像散列代码。
使用两步概率模型来注释web图像。首先,可以基于查询图像“I”与图像聚类“c”相关联的概率(即,p(I/c))以及文本n与聚类c相关联的概率(即,p(n/c))来对可用文本“n”排序。在框508处,丢弃排序最低的词并将排序最高的词用作候选注释n*
获得新的候选注释“w*”并且通过计算每一候选注释的平均条件概率P(w,I/ni *)来将候选注释排序。在框510处,选择具有最大平均条件概率的候选注释“w*”来注释web图像。
结论
尽管用结构特征和/或方法动作专用的语言描述了各个实现,但可以理解,所附权利要求书中定义的发明不必限于上述具体特征或动作。相反,这些具体特征和动作是作为实现权利要求的本发明的说明性形式而公开的。

Claims (15)

1.一种注释图像的方法,包括:
编译来自多个图像的视觉特征和文本信息(104,504);
散列所述多个视觉特征,并且基于所述散列值对所述多个图像聚类(108,306,308);
基于所聚类的图像构建一个或多个统计语言模型(110,112);以及
使用所述统计语言模型中的一个或多个来注释所述图像(122)。
2.如权利要求1所述的注释图像的方法,其特征在于,所述多个图像通过爬行一个或多个大规模图像数据库来收集。
3.如权利要求1所述的注释图像的方法,其特征在于,散列所述多个视觉特征包括向量量化过程,其中所述视觉特征被转换成二进制串。
4.如权利要求1所述的注释图像方法,其特征在于,将带有相同散列代码的图像分组成各个聚类。
5.如权利要求1所述的注释图像的方法,其特征在于,所述一个或多个统计语言模型是单元语法模型。
6.如权利要求1所述的注释图像的方法,其特征在于,所述一个或多个统计语言模型是双元语法模型。
7.如权利要求1所述的注释图像的方法,其特征在于,所述图像是个人图像,并且所述图像通过选择带有所述图像和所聚类的图像之间的最大联合概率的词来注释。
8.如权利要求1所述的注释图像的方法,其特征在于,所述图像是web图像,并且所述图像通过两步概率建模技术来注释。
9.如权利要求1所述的注释图像的方法,其特征在于,还包括通过使用灰块方法从所述多个图像中提取视觉信息。
10.如权利要求9所述的注释图像的方法,其特征在于,所述灰块方法包括:
将所述图像划分成相等大小的块,
测量每一块的平均亮度,以及
将所述图像表示为向量。
11.如权利要求9所述的注释图像的方法,其特征在于,还包括通过采用投影矩阵来缩减所述多个图像的视觉信息。
12.一种包括在由处理器执行时执行如权利要求1-11所述的方法的计算机可执行指令的计算机可读存储介质。
13.一种具体化在计算机可读介质上的表示项目录中的项的数据结构,所述数据结构包括:
数字图像(202);以及
对应于所述数字图像的文本注释(204),所述文本注释通过以下动作与所述数字图像相关联:
编译来自多个图像的视觉特征和文本信息(104,504);
散列所述多个视觉特征,并且基于所述散列值对所述多个图像聚类(108,306,308);
基于所聚类的图像构建一个或多个统计语言模型(110,112);以及
使用所述统计语言模型中的一个或多个来注释所述图像(122)。
14.如权利要求13所述的具体化在计算机可读介质上的表示项目录中的项的数据结构,其特征在于,所述多个图像通过爬行一个或多个大规模图像数据库来收集。
15.如权利要求13所述的具体化在计算机可读介质上的表示项目录中的项的数据结构,其特征在于,还包括通过使用灰块方法从所述多个图像中提取视觉信息。
CN200980131159.4A 2008-05-30 2009-05-30 大规模图像注释的统计方法 Active CN102112987B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/130,943 US8150170B2 (en) 2008-05-30 2008-05-30 Statistical approach to large-scale image annotation
US12/130,943 2008-05-30
PCT/US2009/045764 WO2009158135A2 (en) 2008-05-30 2009-05-30 Statistical approach to large-scale image annotation

Publications (2)

Publication Number Publication Date
CN102112987A true CN102112987A (zh) 2011-06-29
CN102112987B CN102112987B (zh) 2015-03-04

Family

ID=41379902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980131159.4A Active CN102112987B (zh) 2008-05-30 2009-05-30 大规模图像注释的统计方法

Country Status (4)

Country Link
US (2) US8150170B2 (zh)
EP (1) EP2291765A4 (zh)
CN (1) CN102112987B (zh)
WO (1) WO2009158135A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073555A (zh) * 2016-11-17 2018-05-25 奥多比公司 用于从电子文档生成虚拟现实环境的方法和系统
CN108984726A (zh) * 2018-07-11 2018-12-11 黑龙江大学 一种基于扩展的sLDA模型对图像进行标题注释的方法

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8150170B2 (en) 2008-05-30 2012-04-03 Microsoft Corporation Statistical approach to large-scale image annotation
KR100889026B1 (ko) * 2008-07-22 2009-03-17 김정태 이미지를 이용한 검색 시스템
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US8429173B1 (en) 2009-04-20 2013-04-23 Google Inc. Method, system, and computer readable medium for identifying result images based on an image query
CN101576932B (zh) * 2009-06-16 2012-07-04 阿里巴巴集团控股有限公司 近重复图片的计算机查找方法和装置
US8275771B1 (en) * 2010-02-26 2012-09-25 Google Inc. Non-text content item search
CN102193946A (zh) * 2010-03-18 2011-09-21 株式会社理光 为媒体文件添加标签方法和使用该方法的系统
US20130091437A1 (en) * 2010-09-03 2013-04-11 Lester F. Ludwig Interactive data visulization utilizing hdtp touchpad hdtp touchscreens, advanced multitouch, or advanced mice
KR101165357B1 (ko) * 2011-02-14 2012-07-18 (주)엔써즈 이미지 특징 데이터 생성 장치 및 방법
US9239848B2 (en) * 2012-02-06 2016-01-19 Microsoft Technology Licensing, Llc System and method for semantically annotating images
US8849047B2 (en) * 2012-07-10 2014-09-30 Facebook, Inc. Methods and systems for determining image similarity
US9424279B2 (en) 2012-12-06 2016-08-23 Google Inc. Presenting image search results
US20140176661A1 (en) * 2012-12-21 2014-06-26 G. Anthony Reina System and method for surgical telementoring and training with virtualized telestration and haptic holograms, including metadata tagging, encapsulation and saving multi-modal streaming medical imagery together with multi-dimensional [4-d] virtual mesh and multi-sensory annotation in standard file formats used for digital imaging and communications in medicine (dicom)
IL226219A (en) * 2013-05-07 2016-10-31 Picscout (Israel) Ltd Efficient comparison of images for large groups of images
CN104217205B (zh) * 2013-05-29 2018-05-18 华为技术有限公司 一种识别用户活动类型的方法及系统
US9754177B2 (en) * 2013-06-21 2017-09-05 Microsoft Technology Licensing, Llc Identifying objects within an image
US10408613B2 (en) 2013-07-12 2019-09-10 Magic Leap, Inc. Method and system for rendering virtual content
US9384213B2 (en) * 2013-08-14 2016-07-05 Google Inc. Searching and annotating within images
US10319035B2 (en) 2013-10-11 2019-06-11 Ccc Information Services Image capturing and automatic labeling system
EP3143526A4 (en) * 2014-05-12 2017-10-04 Diffeo, Inc. Entity-centric knowledge discovery
US10013436B1 (en) 2014-06-17 2018-07-03 Google Llc Image annotation based on label consensus
CN104572940B (zh) * 2014-12-30 2017-11-21 中国人民解放军海军航空工程学院 一种基于深度学习与典型相关分析的图像自动标注方法
US11275747B2 (en) * 2015-03-12 2022-03-15 Yahoo Assets Llc System and method for improved server performance for a deep feature based coarse-to-fine fast search
US10262236B2 (en) 2017-05-02 2019-04-16 General Electric Company Neural network training image generation system
WO2018226888A1 (en) 2017-06-06 2018-12-13 Diffeo, Inc. Knowledge operating system
US10607111B2 (en) 2018-02-06 2020-03-31 Hrl Laboratories, Llc Machine vision system for recognizing novel objects
US11625557B2 (en) 2018-10-29 2023-04-11 Hrl Laboratories, Llc Process to learn new image classes without labels
US11218496B2 (en) * 2020-01-24 2022-01-04 Bishop Fox Application of computer visual classification to security events
WO2022060350A1 (en) * 2020-09-15 2022-03-24 Intel Corporation Facilitating improved use of stochastic associative memory
CN112712121B (zh) * 2020-12-30 2023-12-05 浙江智慧视频安防创新中心有限公司 一种图像识别模型训练方法、装置及存储介质
CN115248831B (zh) * 2021-04-28 2024-03-15 马上消费金融股份有限公司 一种标注方法、装置、系统、设备及可读存储介质

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0015233D0 (en) * 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
US7028253B1 (en) 2000-10-10 2006-04-11 Eastman Kodak Company Agent for integrated annotation and retrieval of images
US6970860B1 (en) 2000-10-30 2005-11-29 Microsoft Corporation Semi-automatic annotation of multimedia objects
US7231381B2 (en) 2001-03-13 2007-06-12 Microsoft Corporation Media content search engine incorporating text content and user log mining
FR2827977B1 (fr) * 2001-07-30 2003-10-03 Inst Nat Rech Inf Automat Procede de traitement d'images numeriques, notamment d'images satellitaires
US7043474B2 (en) 2002-04-15 2006-05-09 International Business Machines Corporation System and method for measuring image similarity based on semantic meaning
US7394947B2 (en) 2003-04-08 2008-07-01 The Penn State Research Foundation System and method for automatic linguistic indexing of images by a statistical modeling approach
US20060020597A1 (en) 2003-11-26 2006-01-26 Yesvideo, Inc. Use of image similarity in summarizing a collection of visual images
US7551780B2 (en) * 2005-08-23 2009-06-23 Ricoh Co., Ltd. System and method for using individualized mixed document
US8005831B2 (en) * 2005-08-23 2011-08-23 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment with geographic location information
US9171202B2 (en) * 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US7711047B2 (en) * 2005-12-21 2010-05-04 Microsoft Corporation Determining intensity similarity in low-light conditions using the Poisson-quantization noise model
US7698332B2 (en) 2006-03-13 2010-04-13 Microsoft Corporation Projecting queries and images into a similarity space
US7647331B2 (en) * 2006-03-28 2010-01-12 Microsoft Corporation Detecting duplicate images using hash code grouping
US8010534B2 (en) * 2006-08-31 2011-08-30 Orcatec Llc Identifying related objects using quantum clustering
US7729531B2 (en) * 2006-09-19 2010-06-01 Microsoft Corporation Identifying repeated-structure elements in images
US8073196B2 (en) * 2006-10-16 2011-12-06 University Of Southern California Detection and tracking of moving objects from a moving platform in presence of strong parallax
CN100437582C (zh) * 2006-10-17 2008-11-26 浙江大学 图像内容语义标注方法
JP2008146602A (ja) * 2006-12-13 2008-06-26 Canon Inc 文書検索装置、文書検索方法、プログラム及び記憶媒体
US7711668B2 (en) * 2007-02-26 2010-05-04 Siemens Corporation Online document clustering using TFIDF and predefined time windows
US7797265B2 (en) * 2007-02-26 2010-09-14 Siemens Corporation Document clustering that applies a locality sensitive hashing function to a feature vector to obtain a limited set of candidate clusters
US7657507B2 (en) * 2007-03-02 2010-02-02 Microsoft Corporation Pseudo-anchor text extraction for vertical search
US7761466B1 (en) * 2007-07-30 2010-07-20 Hewlett-Packard Development Company, L.P. Hash-based image identification
US8126274B2 (en) * 2007-08-30 2012-02-28 Microsoft Corporation Visual language modeling for image classification
US8150170B2 (en) 2008-05-30 2012-04-03 Microsoft Corporation Statistical approach to large-scale image annotation

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073555A (zh) * 2016-11-17 2018-05-25 奥多比公司 用于从电子文档生成虚拟现实环境的方法和系统
CN108073555B (zh) * 2016-11-17 2023-10-31 奥多比公司 用于从电子文档生成虚拟现实环境的方法和系统
CN108984726A (zh) * 2018-07-11 2018-12-11 黑龙江大学 一种基于扩展的sLDA模型对图像进行标题注释的方法
CN108984726B (zh) * 2018-07-11 2022-10-04 黑龙江大学 一种基于扩展的sLDA模型对图像进行标题注释的方法

Also Published As

Publication number Publication date
CN102112987B (zh) 2015-03-04
WO2009158135A3 (en) 2010-04-15
EP2291765A4 (en) 2016-12-21
EP2291765A2 (en) 2011-03-09
US8594468B2 (en) 2013-11-26
US20120155774A1 (en) 2012-06-21
WO2009158135A2 (en) 2009-12-30
US20090297050A1 (en) 2009-12-03
US8150170B2 (en) 2012-04-03

Similar Documents

Publication Publication Date Title
CN102112987B (zh) 大规模图像注释的统计方法
US20220035827A1 (en) Tag selection and recommendation to a user of a content hosting service
US10650188B2 (en) Constructing a narrative based on a collection of images
Wang et al. Annotating images by mining image search results
US9589208B2 (en) Retrieval of similar images to a query image
US8385660B2 (en) Mixed media reality indexing and retrieval for repeated content
US8571331B2 (en) Content based image selection for automatic photo album generation
US20130103681A1 (en) Relevant persons identification leveraging both textual data and social context
US20100205176A1 (en) Discovering City Landmarks from Online Journals
Weyand et al. Visual landmark recognition from internet photo collections: A large-scale evaluation
US20110173190A1 (en) Methods, systems and/or apparatuses for identifying and/or ranking graphical images
Ionescu et al. Result diversification in social image retrieval: a benchmarking framework
Ivanov et al. Geotag propagation in social networks based on user trust model
CN109492168B (zh) 一种基于旅游照片的可视化旅游兴趣推荐信息生成方法
de Andrade et al. Photo annotation: a survey
Zaharieva et al. Retrieving Diverse Social Images at MediaEval 2017: Challenges, Dataset and Evaluation.
Lincoln et al. CAMPI: computer-aided metadata generation for photo archives initiative
Sinha Summarization of archived and shared personal photo collections
CN110765305A (zh) 媒介信息推送系统及其基于视觉特征的图文检索方法
Ivanov et al. Comparative study of trust modeling for automatic landmark tagging
Wang et al. Real-world image annotation and retrieval: An introduction to the special section
Wu et al. Scalable mobile video retrieval with sparse projection learning and pseudo label mining
Magalhaes et al. Exploring multimedia in a keyword space
Bhairnallykar et al. Content based medical image retrieval with SVM classification and relevance feedback
Li et al. New challenges in multimedia research for the increasingly connected and fast growing digital society

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150728

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150728

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.