CN101467145A - 用于自动注释图像的方法和装置 - Google Patents

用于自动注释图像的方法和装置 Download PDF

Info

Publication number
CN101467145A
CN101467145A CNA200780021864XA CN200780021864A CN101467145A CN 101467145 A CN101467145 A CN 101467145A CN A200780021864X A CNA200780021864X A CN A200780021864XA CN 200780021864 A CN200780021864 A CN 200780021864A CN 101467145 A CN101467145 A CN 101467145A
Authority
CN
China
Prior art keywords
image
video
feature
key word
media content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200780021864XA
Other languages
English (en)
Other versions
CN101467145B (zh
Inventor
J·N·雅格尼克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN101467145A publication Critical patent/CN101467145A/zh
Application granted granted Critical
Publication of CN101467145B publication Critical patent/CN101467145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明的一个实施方式提供一种自动注释图像的系统。在操作中,该系统接收图像。接着,该系统从图像中提取图像特征。该系统继而标识具有相似图像特征的其它图像。该系统接着获取与所述其它图像相关联的文本,并在所获取的文本中标识相交关键字。最后,该系统利用相交关键字来注释图像。

Description

用于自动注释图像的方法和装置
技术领域
本发明涉及用于自动注释图像的技术。更具体地,本发明涉及通过搜索相似图像以及关联这些相似图像周围的文本来自动注释图像的技术。
背景技术
最近激增的高带宽互联网连接使得数百万用户高效率地在互联网上浏览图像成为可能。这些发展已经使网页、门户网站和其它基于网络应用中所包含的图像在数量上急剧增多。不幸地,许多图像并未附有描述图像内容的文本信息,比如标签、标题或名称。由于大部分现有的搜索技术都是基于文本的(举例,关键字搜索),这就造成搜索特定的图像极其困难。因此,非常期望能够利用相关文本注释这些图像,举例,通过增加标题或关键字的集合来描述图像的语义内容。
注释图像的传统技术基本上是手动的,可能需要索引者为数以千计、或者在一些情形中数以百万计的图像选择关键字。因此,手动图像注释可能是极其费力和昂贵的过程。
已经开发出用于自动注释图像的其它技术(参见“FormulatingSemantic Image Annotation as a Supervised Learning Problem,”G.Carneiro and N.Vasconcelos,Proceedings of IEEE Conference onComputer Vision and Pattern Recognition,San Diego,2005)。这些自动图像注释技术能够显著减少或消除注释非常大量图像集所需要的人工工作。
然而,这些现有的“自动注释”技术通常仍然包括需要一定程度的人工辅助的步骤,比如需要人工标注一组地面实况数据,或需要其它类型的人工交互或反馈。不幸地,这种人工辅助无法有效地成比例匹配在数量上成指数增长的需要被注释的图像。
因此,需要一种用于自动注释图像而不存在上述问题的方法和装置。
发明内容
本发明的一个实施方式提供了一种自动注释图像的系统。在操作中,该系统接收图像。接着,该系统从图像中提取图像特征。该系统继而标识具有相似图像特征的其它图像。该系统接着获取与所述其它图像相关联的文本,并在所获取文本中标识相交关键字。最后,该系统利用相交关键字来注释图像。
在该实施方式的一种变形中,该系统如下来从图像中提取图像特征:(1)将图像分割成片;以及(2)从所述片中提取图像特征。
在该实施方式的其他变形中,对于不同片大小的组中的每一给定的片大小,该系统将图像分割成给定片大小的片。
在该实施方式的变形中,在标识其它图像之前,该系统将提取的图像特征与图像特征库中的已知图像特征进行匹配。
在该实施方式的其他变形中,该系统结合匹配的图像特征以形成图像的一个或多个图像特征结合。
在另一变形中,该系统通过在其它图像中标识相似的图像特征结合来标识具有相似图像特征的其它图像。
在该实施方式的变化中,该系统可以如下来从图像中提取图象特征:(1)生成颜色直方图;(2)生成方向直方图;(3)使用离散余弦变换(DCT)技术;(4)使用主成份分析(PCA)技术;或(5)使用伽柏(Gabor)小波技术。
在该实施方式的变形中,可以通过(1)形状;(2)颜色;以及(3)纹理来定义图像特征。
在该实施方式的变形中,该系统通过在互联网上搜索图像来标识其它图像。
在该实施方式的变形中,该系统通过使用概率模型来标识具有相似图像特征的其它图像。
在该实施方式的变形中,在标识相交关键字之前,该系统通过增加关键字的同义词来对获取文本中的关键字进行扩展。
在该实施方式的变形中,该系统从视频接收图像。
附图说明
图1给出了描述根据本发明一个实施方式的用于自动注释图像的过程的流程图。
图2描述了根据本发明一个实施方式的用于自动注释图像的基于计算机的系统。
具体实施方式
给出下面的描述是为了使本领域的任何技术人员能够使用和理解本发明,并且该描述是在特定应用及其需求的上下文中提供的。对于本领域技术人员而言,所公开实施方式的各种变形是显然的,此处限定的普遍原则可以不脱离本发明的精神和范围而适用于其它实施方式和应用。因此,本发明并不局限于示出的实施方式,而是与符合权利要求的最广泛范围相一致。
本详细描述中所描述的数据结构和代码通常存储在计算机可读存储介质上,其可以是能够存储由计算机系统使用的代码和/或数据的任意设备或介质。这包括但是不限于:易失性存储器,非易失性存储器,诸如磁盘驱动器、磁带、CD(压缩盘)、DVD(数字通用盘或数字视频盘)的磁和光学存储设备,或现在已知或以后开发出的能够存储计算机可读介质的其它介质。
概述
大部分图像搜索和检索系统都是文本驱动的,其中用户输入关键字作为查询,而计算机系统(或者更具体地,搜索引擎)通过在图像数据库中搜索与图像相关的文本来处理该查询。搜索引擎返回与关键字相匹配的文本信息所关联的“相关”图像。在这种类型的方案中,无法检索到未被注释的图像,即使该图像内容与关键字高度关联。因此,为未注释图像提供相关文本信息能够促进图像的搜索和检索操作。
本发明的一个实施方式提供了一种技术,其通过利用web上可用的庞大图像库来产生与图像关联的文本,以此来自动注释图像。更具体地,本发明的一个实施方式从给定图像中提取图像特征,继而在互联网上搜索图像以标识包含相似图像特征的图像集。接着,获取这些图像周围的文本。该技术随后标识用以注释该给定图像的获取的文本中的共同关键字。注意,该技术不需要人工干预,并且利用许多现有的图像处理技术来执行诸如图像特征提取和在web上标识相似图像的步骤。
自动注释过程
图1给出了描述根据本发明一个实施方式的用于自动注释图像的过程的流程图。
该过程开始于接收图像以及提供关于该图像的相关文本信息的请求(步骤100)。注意,可以通过任意的数字格式来格式化和存储图像,包括但是不限于:JPEG、GIF、BMP、TIFF、PDF、PS、EMF、MNG、PNG、PSD、SWF和WMF。另外,也可以从数字视频的静止帧中获取图像。举例,我们可以从MPEG视频中的单一帧中提取图像,并且随后注释这个图像。
接着,该过程将图像分割成特定大小的片(步骤102),并且随后从各片中提取图像特征(步骤104)。注意,能够从这些片中被提取出的典型图像特征可以包括但不限于:形状、颜色和纹理。举例,可以提取图像中给定片的各种颜色特征,包括但不限于:颜色直方图;颜色直方图布局和颜色矩。另外,可以使用多种图像处理技术来提取特定图像特征,这些图像处理技术可以包括但不限于:离散余弦变换(DCT)技术、主成份分析(PCA)技术和伽柏小波技术。在本发明的一个实施方式中,图像特征还可以包括方向直方图。
还应注意,本发明并不局限于与片相关联的特征。本发明还可以广泛适用于任意类型的图像特征,而并不局限于与片相关联的特征。举例,本发明可以同不与片边界相关联的图像特征一起使用,比如整个图像的颜色直方图的属性。
该过程接着将所提取的图像特征与图像特征库中的已知图像特征进行匹配(步骤106)。在本发明的一个实施方式中,使用相似图像提取技术预先获取了图像特征库中的已知图像特征。举例,如果在步骤104中使用DCT技术来提取图像特征,则可以利用DCT系数来表示已知图像特征。在本发明的一个实施方式中,将所提取的图像特征与已知图像特征进行匹配包括:将每一提取的图像特征与库中的最近已知图像特征进行匹配。
接着,该过程结合匹配的已知图像特征,以形成图像的图像特征结合(步骤108)。更具体地,该过程为分割成特定片大小的图像产生图像特征结合的集合。
在本发明的一个实施方式中,对于不同的片大小,迭代地重复步骤102到108,其中片大小范围可以从每片仅包含一些像素变化到包含整个图像的单个片。特别地,对于每个片大小,该处理将图像分割成该片大小的片,并继而从相应片中提取图像特征。该过程接着将所提取的图像特征与已知图像特征进行匹配,并接着利用已知图像特征来产生图像的图像特征结合的集合。因此,步骤108产生的图像特征结合包含针对不同图像片大小获得的图像特征结合。注意,使用不同的片大小有利于在多尺度上捕获图像特征。替代与已知图像特征进行匹配,该系统可选地可以限定图像特征的值落入离散值有限集合。
该过程接着标识具有相似图像特征和/或图像特征结合的多个其它图像(步骤110)。特别地,该过程从各种来源中搜索大量图像。这些图像来源可以包括但不限于:存储在已组织的图像数据库中的图像;嵌入到互联网上的网页中的图像;与互联网上的视频相关的图像,或者链接到互联网上的网址的任意图像。注意,互联网上的图像和已组织图像数据库中的图像之间的区别在于:互联网上的图像通常没有被分类并且通常相互无关。
确定特定图像是否包含原始图像的相似图像特征包括:按照与原始图像相同的方式处理特定图像,以产生特定图像的图像特征。
在将原始图像中的图像特征和/或图像特征结合与其它图像进行比较时,可以使用各种概率模型。举例,这些概率模型可以包括从计算相似或相同特征的数目的任意简单计算技术到在比较两个图像时假定特征为多元常态分布的复杂“多元分布技术”的任何技术。(关于多元常态分布的讨论,请参阅http://en.wikipedia.org/wiki/Multivariate_gaussian_distribution)
在标识多个相似图像之后,该过程获取这些图像周围的文本(步骤112)。在本发明的一个实施方式中,从包括到该图像链接的HTML文件中的图像标签周围获取文本。在另一实施方式中,获取直接包围网页中实际图像的文本。可以设想到,在网页中给定图像周围获取的文本,很有可能与该图像的内容相关。结果,步骤112使用来自每一所标识图像周围的文本的关键字作为注释原始图像的候选关键字。注意,这些候选关键字中的一些可能与原始图像的内容并不相关。
该过程接着通过增加该组关键字的同义词对每个所标识图像所关联的关键字集合进行扩展(步骤114)。在本发明的一个实施方式中,使用智能词典工具为集合中的每个关键字增加同义词。举例,关键字“sea”和“ocean”可能分别出现在两个已标识图像的两个关键字集合中。在按照这种方式扩展关键字后,两个图像都将与这两个关键字相关联。
接着,该过程在这些已标识图像的关键字集合之间执行比较,以标识相交关键字(步骤116)。注意,增加关键字的同义词提高了标识这些相交的可能性。
最后,该过程获得多个已标识图像之间的相交关键字,并利用这些相交关键字注释原始图像(步骤118)。注意,可以通过在步骤110标识更多图像来提高相交关键字与原始图像的相关性。因为互联网是极其巨大的图像数据库,随着越来越多的图像被搜索和检查,找到更匹配图像的可能性随之增加。另外,从更多图像中获取的相交关键字同样变得更加精确。
系统
图2描述了根据本发明一个实施方式的用于自动注释图像的基于计算机的系统。该基于计算机的系统在计算机系统200内操作,计算机系统200通常包括任意类型的计算机系统,包括但不限于:基于微处理器的计算机系统、大型机计算机、数字信号处理器、便携计算设备、个人组织器、设备控制器和装置内的计算引擎。
在操作中,计算机系统200接收图像202以及利用相关文本信息来注释图像202的请求。
计算机系统200包括处理器201和存储器204。存储器204可以包括能够存储实施图1所描述功能的、用于注释图像202的软件模块的任意类型存储器。如图2所示,这些软件模块可以包括:接收图像的图像接收装置205,从图像提取图像特征的图像特征提取装置206;标识包含与输入图像202相似的图像特征的图像的相似图像标识装置208;获取用于注释图像的文本的文本获取装置;将图像与相似图像进行匹配的匹配装置210;注释图像的注释装置211;以及扩展关键字列表以包括关键字的同义词的词典和web扩展装置212。这些装置共同地操作,以产生相交关键字集合212,其继而被用来注释图像202。
注意,计算机系统200和互联网214相交互,以访问互联网214中的图像。
对视频的应用
注意,还可以利用本发明来注释没有主题或说明的视频,从而促进这些视频的搜索和检索操作。具体地,可以将视频分割成代表帧的集合,可以将每个帧作为图像来处理。使用上述过程,可以利用相关关键字来注释每一代表帧。可以选择使用其它现有技术来分析针对这些帧的注释,以产生针对整个视频的一组共同注释。
上面对本发明实施方式的描述仅用于说明和描述目的。它们不是穷举性的,也不将本发明局限到已公开的形式中。因此,对于本领域技术人员,许多修改和变形都是易见的。另外,上述公开并不意图限制本发明。本发明的范围由所附权利要求来限定。

Claims (48)

1、一种用于自动注释图像的方法,包括:
接收所述图像;
从所述图像提取图像特征;
标识具有相似图像特征的其它图像;
获取与所述其它图像相关的文本;
在与所述其它图像相关联的所获取文本中标识相交关键字;以及
利用所述相交关键字来注释所述图像。
2、根据权利要求1所述的方法,其中从所述图像提取图像特征包括:
将所述图像分割成片;以及
从所述片中提取所述图像特征。
3、根据权利要求2所述的方法,其中对于不同片大小的集合中的每个给定片大小,将所述图像分割成片包括:将所述图像分割成所述给定片大小的片。
4、根据权利要求1所述的方法,其中在标识所述其它图像之前,该方法还包括:将所述提取出的图像特征与图像特征库中的已知图像特征进行匹配。
5、根据权利要求4所述的方法,其中该方法还包括:结合所述匹配的图像特征,以形成图像的一个或多个图像特征结合。
6、根据权利要求5所述的方法,其中标识具有相似图像特征的所述其它图像包括:在所述其它图像中标识相似的图像特征结合。
7、根据权利要求1所述的方法,其中从所述图像中提取所述图像特征可以包括:
生成颜色直方图;
生成方向直方图;
使用离散余弦变换(DCT)技术;
使用主成份分析(PCA)技术;或
使用伽柏小波技术。
8、根据权利要求1所述的方法,其中可以按照以下项来定义所述图像特征:
形状:
颜色;以及
纹理。
9、根据权利要求1所述的方法,其中标识所述其它图像包括在互联网上的图像中进行搜索。
10、根据权利要求1所述的方法,其中标识具有相似图像特征的所述其它图像包括使用概率模型。
11、根据权利要求1所述的方法,其中在标识所述相交关键字之前,该方法还包括:通过增加关键字的同义词对所述所获取文本中的关键字进行扩展。
12、根据权利要求1所述的方法,其中接收所述图像包括从视频接收所述图像。
13、一种存储指令的计算机可读存储介质,当所述指令被计算机执行时,其使计算机执行用于自动注释图像的方法,该方法包括:
接收所述图像;
从所述图像提取图像特征;
标识具有相似图像特征的其它图像;
获取与所述其它图像相关联的文本;
在与所述其它图像相关联的所获取文本中标识相交关键字;以及
利用所述相交关键字来注释所述图像。
14、根据权利要求13所述的计算机可读存储介质,其中从所述图像提取图像特征包括:
将所述图像分割成片;以及
从所述片中提取所述图像特征。
15、根据权利要求14所述的计算机可读存储介质,其中对于不同片大小的集合中的每个给定片大小,将所述图像分割成片包括:将所述图像分割成所述给定片大小的片。
16、根据权利要求13所述的计算机可读存储介质,其中在标识所述其它图像之前,该方法还包括:将所述提取出的图像特征与图像特征库中的已知图像特征进行匹配。
17、根据权利要求16所述的计算机可读存储介质,其中该方法进一步包括:结合所述匹配的图像特征,以形成图像的一个或多个图像特征结合。
18、根据权利要求17所述的计算机可读存储介质,其中标识具有相似图像特征的所述其它图像包括:在所述其它图像中标识相似的图像特征结合。
19、根据权利要求13所述的计算机可读存储介质,其中从所述图像中提取所述图像特征可以包括:
生成颜色直方图;
生成方向直方图;
使用离散余弦变换(DCT)技术;
使用主成份分析(PCA)技术;或
使用伽柏小波技术。
20、根据权利要求13所述的计算机可读存储介质,其中可以按照如下项来定义所述图像特征:
形状:
颜色;以及
纹理。
21、根据权利要求13所述的计算机可读存储介质,其中标识所述其它图像包括在互联网上的图像中进行搜索。
22、根据权利要求13所述的计算机可读存储介质,其中标识具有相似图像特征的所述其它图像包括使用概率模型。
23、根据权利要求13所述的计算机可读存储介质,其中在标识所述相交关键字之前,该方法还包括:通过增加关键字的同义词对所述所获取文本中的关键字进行扩展。
24、根据权利要求13所述的计算机可读存储介质,其中接收所述图像包括从视频接收所述图像。
25、一种自动注释图像的计算机系统,包括:
处理器;
存储器;
接收装置,其被配置用于接收所述图像;
提取装置,其被配置用于从所述图像提取图像特征;
标识装置,其被配置用于标识具有相似图像特征的其它图像;
获取装置,其被配置用于获取与所述其它图像相关的文本;
其中所述标识装置进一步被配置用于在与所述其它图像相关联的所获取文本中标识相交关键字;以及
注释装置,其被配置用于利用所述相交关键字来注释所述图像。
26、根据权利要求25所述的计算机系统,其中所述提取装置被配置用于:
将所述图像分割成片;以及
从所述片中提取所述图像特征。
27、根据权利要求25所述的计算机系统,还包括:匹配装置,其被配置用于将所述提取出的图像特征与图像特征库中的已知图像特征进行匹配。
28、根据权利要求27所述的计算机系统,其中所述匹配装置被配置用于结合所述匹配的图像特征,以形成图像的一个或多个图像特征结合。
29、根据权利要求28所述的计算机系统,其中所述标识装置被配置用于在所述其它图像中标识相似的图像特征结合。
30、根据权利要求25所述的计算机系统,其中所述标识装置进一步被配置用于:
在互联网上的图像之中进行搜索;以及用于
通过增加关键字的同义词对在所述获取文本中的关键字进行扩展。
31、根据权利要求25所述的计算机系统,其中所述接收装置配置用于从视频中接收所述图像。
32、一种用于自动注释可视媒体内容的方法,包括:
接收所述可视媒体内容;
从所述可视媒体内容提取特征;
标识具有相似特征的其它可视媒体内容;
获取与所述其它可视媒体内容相关联的文本;
在与所述其它可视媒体内容相关联的所获取文本中标识相交关键字;以及
利用所述相交关键字来注释所述可视媒体内容。
33、根据权利要求32所述的方法,其中从所述可视媒体内容提取特征包括:
将所述可视媒体内容内的图像分割成片;以及
从所述片中提取图像特征。
34、根据权利要求33所述的方法,其中对于不同片大小的集合中的每个给定片大小,将所述图像分割成片包括:将所述图像分割成所述给定片大小的片。
35、根据权利要求32所述的方法,其中在标识所述其它可视媒体内容之前,该方法还包括:将所述提取出的特征与特征库中的已知特征进行匹配。
36、根据权利要求35所述的方法,其中该方法还包括:结合所述已匹配特征,以形成可视媒体内容的一个或多个特征结合。
37、根据权利要求36所述的方法,其中标识具有相似特征的其它可视媒体内容包括:在所述其它可视媒体内容中标识相似的特征结合。
38、根据权利要求32所述的方法,其中从所述可视媒体内容中提取所述特征可以包括:
生成颜色直方图;
生成方向直方图;
使用离散余弦变换(DCT)技术;
使用主成份分析(PCA)技术;或
使用伽柏小波技术。
39、根据权利要求32所述的方法,其中可以按照以下项来定义所述特征:
形状:
颜色;以及
纹理。
40、一种存储指令的计算机可读存储介质,当所述指令被计算机执行时,其使计算机执行用于自动注释可视媒体内容的方法,该方法包括:
接收所述可视媒体内容;
从所述可视媒体内容提取特征;
标识具有相似特征的其它可视媒体内容;
获取与所述其它可视媒体内容相关联的文本;
在与所述其它可视媒体内容相关联的所获取文本中标识相交关键字;以及
利用所述相交关键字来注释所述可视媒体内容。
41、一种用于自动注释视频的方法,包括:
接收所述视频;
从所述视频中提取视频特征;
标识具有相似视频特征的其它视频;
获取与所述其它视频相关联的文本;
在与所述其它视频相关联的所获取文本中标识相交关键字;以及
利用所述相交关键字来注释所述视频。
42、根据权利要求41所述的方法,其中从所述视频提取所述视频特征包括:
将所述视频内的图像分割成片;以及
从所述片中提取图像特征。
43、根据权利要求42所述的方法,其中对于不同片大小的集合中的每个给定片大小,将所述图像分割成片包括:将所述图像分割成所述给定片大小的片。
44、根据权利要求41所述的方法,其中在标识所述其它视频之前,该方法还包括:将所述提取出的视频特征与视频特征库中的已知视频特征进行匹配。
45、根据权利要求44所述的方法,其中该方法还包括:结合所述匹配的视频特征,以形成所述视频的一个或多个视频特征结合。
46、根据权利要求45所述的方法,其中标识具有相似视频特征的其它视频包括:在所述其它视频中标识相似的视频特征结合。
47、根据权利要求41所述的方法,其中从所述视频中提取所述视频特征可以包括:
生成颜色直方图;
生成方向直方图;
使用离散余弦变换(DCT)技术;
使用主成份分析(PCA)技术;或
使用伽柏小波技术。
48、根据权利要求41所述的方法,其中可以按照以下项来定义所述视频特征:
形状:
颜色;以及
纹理。
49、一种存储指令的计算机可读存储介质,当所述指令被计算机执行时,其使计算机执行用于自动注释视频的方法,该方法包括:
接收所述视频;
从所述视频提取视频特征;
标识具有相似视频特征的其它视频;
获取与所述其它视频相关联的文本;
在与所述其它视频相关联的所获取文本中标识相交关键字;以及
利用所述相交关键字来注释所述视频。
CN200780021864XA 2006-07-24 2007-07-11 用于自动注释图像的方法和装置 Active CN101467145B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/492,485 2006-07-24
US11/492,485 US8065313B2 (en) 2006-07-24 2006-07-24 Method and apparatus for automatically annotating images
PCT/US2007/015887 WO2008013679A1 (en) 2006-07-24 2007-07-11 Method and apparatus for automatically annotating images

Publications (2)

Publication Number Publication Date
CN101467145A true CN101467145A (zh) 2009-06-24
CN101467145B CN101467145B (zh) 2012-07-18

Family

ID=38753577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200780021864XA Active CN101467145B (zh) 2006-07-24 2007-07-11 用于自动注释图像的方法和装置

Country Status (4)

Country Link
US (1) US8065313B2 (zh)
EP (1) EP2044532A1 (zh)
CN (1) CN101467145B (zh)
WO (1) WO2008013679A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102473186A (zh) * 2009-07-20 2012-05-23 索尼爱立信移动通讯有限公司 标记多个数字图像的系统和方法
CN102687147A (zh) * 2010-08-03 2012-09-19 松下电器产业株式会社 信息处理装置、处理方法、计算机程序及集成电路
CN103959330A (zh) * 2011-07-13 2014-07-30 谷歌公司 用于匹配可视对象组件的系统和方法
CN104133816A (zh) * 2013-05-03 2014-11-05 三星电子(中国)研发中心 搜索图像的方法和装置
CN105868524A (zh) * 2015-02-06 2016-08-17 国际商业机器公司 用于医学图像集的自动基准真值生成
CN106295706A (zh) * 2016-08-17 2017-01-04 山东大学 一种基于形状视觉知识库的图像自动分割和语义注释方法
WO2017101142A1 (zh) * 2015-12-17 2017-06-22 安宁 一种医学图像标注方法及系统
CN107886105A (zh) * 2016-09-30 2018-04-06 法乐第(北京)网络科技有限公司 一种图像的标注装置
CN107886104A (zh) * 2016-09-30 2018-04-06 法乐第(北京)网络科技有限公司 一种图像的标注方法
US10769197B2 (en) 2015-09-01 2020-09-08 Dream It Get It Limited Media unit retrieval and related processes
CN112818984A (zh) * 2021-01-27 2021-05-18 北京奇艺世纪科技有限公司 标题生成方法、装置、电子设备和存储介质

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4478513B2 (ja) * 2004-06-10 2010-06-09 キヤノン株式会社 デジタルカメラ、デジタルカメラの制御方法、プログラムおよびそれを格納した記録媒体
EP1959449A1 (en) * 2007-02-13 2008-08-20 British Telecommunications Public Limited Company Analysing video material
JP2008217428A (ja) * 2007-03-05 2008-09-18 Fujitsu Ltd 画像検索プログラム、方法及び装置
US8121902B1 (en) 2007-07-24 2012-02-21 Amazon Technologies, Inc. Customer-annotated catalog pages
CN101387824B (zh) * 2007-09-13 2012-03-28 鸿富锦精密工业(深圳)有限公司 照片内容自动注解系统及方法
US8296291B1 (en) * 2007-12-12 2012-10-23 Amazon Technologies, Inc. Surfacing related user-provided content
DE102008013608A1 (de) 2008-03-11 2009-10-29 Vodafone Holding Gmbh Verfahren und Einrichtung zum Analysieren digitaler Bilder
JP5281156B2 (ja) * 2008-06-06 2013-09-04 グーグル・インコーポレーテッド 画像の注釈付け
US7890512B2 (en) 2008-06-11 2011-02-15 Microsoft Corporation Automatic image annotation using semantic distance learning
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US20100082612A1 (en) * 2008-09-24 2010-04-01 Microsoft Corporation Determining relevance between an image and its location
US8411953B2 (en) * 2008-09-30 2013-04-02 International Business Machines Corporation Tagging images by determining a set of similar pre-tagged images and extracting prominent tags from that set
US9715701B2 (en) 2008-11-24 2017-07-25 Ebay Inc. Image-based listing using image of multiple items
US8301996B2 (en) * 2009-03-19 2012-10-30 Microsoft Corporation Annotating images with instructions
KR101550886B1 (ko) * 2009-03-27 2015-09-08 삼성전자 주식회사 동영상 콘텐츠에 대한 부가 정보 생성 장치 및 방법
US8719104B1 (en) 2009-03-31 2014-05-06 Amazon Technologies, Inc. Acquiring multiple items in an image
US8781231B1 (en) 2009-08-25 2014-07-15 Google Inc. Content-based image ranking
JP2011053781A (ja) * 2009-08-31 2011-03-17 Seiko Epson Corp 画像データベース作成装置、画像検索装置、画像データベース作成方法および画像検索方法
WO2011094292A1 (en) 2010-01-28 2011-08-04 Pathway Innovations And Technologies, Inc. Document imaging system having camera-scanner apparatus and personal computer based processing software
KR101116434B1 (ko) * 2010-04-14 2012-03-07 엔에이치엔(주) 이미지를 이용한 쿼리 제공 방법 및 시스템
US9652462B2 (en) 2010-04-29 2017-05-16 Google Inc. Identifying responsive resources across still images and videos
US8935259B2 (en) * 2011-06-20 2015-01-13 Google Inc Text suggestions for images
US20130124303A1 (en) * 2011-11-14 2013-05-16 Google Inc. Advertising Keyword Generation Using an Image Search
US8838432B2 (en) * 2012-02-06 2014-09-16 Microsoft Corporation Image annotations on web pages
CN102663053A (zh) * 2012-03-30 2012-09-12 上海博康智能信息技术有限公司 一种基于图像内容搜索的分布式服务器系统
US9563874B1 (en) 2012-06-14 2017-02-07 Google Inc. Rule-based content filter
US8886576B1 (en) * 2012-06-22 2014-11-11 Google Inc. Automatic label suggestions for albums based on machine learning
US10489501B2 (en) * 2013-04-11 2019-11-26 Google Llc Systems and methods for displaying annotated video content by mobile computing devices
US10319035B2 (en) 2013-10-11 2019-06-11 Ccc Information Services Image capturing and automatic labeling system
US10049477B1 (en) 2014-06-27 2018-08-14 Google Llc Computer-assisted text and visual styling for images
US10235388B2 (en) 2014-06-27 2019-03-19 Ebay Inc. Obtaining item listings relating to a look of image selected in a user interface
US20160364374A1 (en) * 2015-06-09 2016-12-15 International Business Machines Corporation Visual indication for images in a question-answering system
CN107578069B (zh) * 2017-09-18 2020-12-29 北京邮电大学世纪学院 图像多尺度自动标注方法
US11372914B2 (en) 2018-03-26 2022-06-28 Microsoft Technology Licensing, Llc Image annotation
US10430654B1 (en) 2018-04-20 2019-10-01 Surfline\Wavetrak, Inc. Automated detection of environmental measures within an ocean environment using image data
US11170035B2 (en) * 2019-03-29 2021-11-09 Snap Inc. Context based media curation
CN111639599B (zh) * 2020-05-29 2024-04-02 北京百度网讯科技有限公司 物体图像挖掘方法、装置、设备以及存储介质
US11975738B2 (en) 2021-06-03 2024-05-07 Ford Global Technologies, Llc Image annotation for deep neural networks

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5945982A (en) * 1995-05-30 1999-08-31 Minolta Co., Ltd. Data administration apparatus that can search for desired image data using maps
US5983237A (en) * 1996-03-29 1999-11-09 Virage, Inc. Visual dictionary
JP3778229B2 (ja) * 1996-05-13 2006-05-24 富士ゼロックス株式会社 画像処理装置、画像処理方法、および画像処理システム
US6480841B1 (en) * 1997-09-22 2002-11-12 Minolta Co., Ltd. Information processing apparatus capable of automatically setting degree of relevance between keywords, keyword attaching method and keyword auto-attaching apparatus
US6317740B1 (en) * 1998-10-19 2001-11-13 Nec Usa, Inc. Method and apparatus for assigning keywords to media objects
EP1125227A4 (en) * 1998-11-06 2004-04-14 Univ Columbia SYSTEMS AND METHODS FOR INTEROPERABLE MULTIMEDIA CONTENTS
US7254285B1 (en) * 1998-11-06 2007-08-07 Seungup Paek Image description system and method
US7143434B1 (en) * 1998-11-06 2006-11-28 Seungyup Paek Video description system and method
JP2000187731A (ja) * 1998-12-21 2000-07-04 Ricoh Co Ltd 画像特徴抽出方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US6598054B2 (en) * 1999-01-26 2003-07-22 Xerox Corporation System and method for clustering data objects in a collection
US7185049B1 (en) * 1999-02-01 2007-02-27 At&T Corp. Multimedia integration description scheme, method and system for MPEG-7
US6594386B1 (en) * 1999-04-22 2003-07-15 Forouzan Golshani Method for computerized indexing and retrieval of digital images based on spatial color distribution
US6629097B1 (en) * 1999-04-28 2003-09-30 Douglas K. Keith Displaying implicit associations among items in loosely-structured data sets
US6697998B1 (en) * 2000-06-12 2004-02-24 International Business Machines Corporation Automatic labeling of unlabeled text data
US7624337B2 (en) * 2000-07-24 2009-11-24 Vmark, Inc. System and method for indexing, searching, identifying, and editing portions of electronic multimedia files
US6804684B2 (en) * 2001-05-07 2004-10-12 Eastman Kodak Company Method for associating semantic information with multiple images in an image database environment
JP2003186889A (ja) 2001-10-19 2003-07-04 Xerox Corp 文書に注釈付けし、文書イメージから要約を生成する方法及び装置
US7505604B2 (en) * 2002-05-20 2009-03-17 Simmonds Precision Prodcuts, Inc. Method for detection and recognition of fog presence within an aircraft compartment using video images
US7035461B2 (en) * 2002-08-22 2006-04-25 Eastman Kodak Company Method for detecting objects in digital images
US7234106B2 (en) * 2002-09-10 2007-06-19 Simske Steven J System for and method of generating image annotation information
AU2002952711A0 (en) * 2002-11-18 2002-11-28 Typefi Systems Pty Ltd A method of formatting documents
US7394947B2 (en) * 2003-04-08 2008-07-01 The Penn State Research Foundation System and method for automatic linguistic indexing of images by a statistical modeling approach
US20060041564A1 (en) * 2004-08-20 2006-02-23 Innovative Decision Technologies, Inc. Graphical Annotations and Domain Objects to Create Feature Level Metadata of Images
CN1737788A (zh) * 2004-08-20 2006-02-22 陈新 便携式高清晰影像存储播放器
US7460735B1 (en) * 2004-09-28 2008-12-02 Google Inc. Systems and methods for using image duplicates to assign labels to images
US7702599B2 (en) * 2004-10-07 2010-04-20 Bernard Widrow System and method for cognitive memory and auto-associative neural network based pattern recognition
US20060136391A1 (en) * 2004-12-21 2006-06-22 Morris Robert P System and method for generating a search index and executing a context-sensitive search
US7403642B2 (en) * 2005-04-21 2008-07-22 Microsoft Corporation Efficient propagation for face annotation
US7542610B2 (en) * 2005-05-09 2009-06-02 Like.Com System and method for use of images with recognition analysis
US20070008321A1 (en) * 2005-07-11 2007-01-11 Eastman Kodak Company Identifying collection images with special events
US7801893B2 (en) * 2005-09-30 2010-09-21 Iac Search & Media, Inc. Similarity detection and clustering of images
US20070098303A1 (en) * 2005-10-31 2007-05-03 Eastman Kodak Company Determining a particular person from a collection
US8180826B2 (en) * 2005-10-31 2012-05-15 Microsoft Corporation Media sharing and authoring on the web
US7657089B2 (en) * 2006-02-21 2010-02-02 Microsoft Corporation Automatic classification of photographs and graphics
US7698332B2 (en) * 2006-03-13 2010-04-13 Microsoft Corporation Projecting queries and images into a similarity space
US7647331B2 (en) * 2006-03-28 2010-01-12 Microsoft Corporation Detecting duplicate images using hash code grouping
US20070236583A1 (en) * 2006-04-07 2007-10-11 Siemens Communications, Inc. Automated creation of filenames for digital image files using speech-to-text conversion
US8024343B2 (en) * 2006-04-07 2011-09-20 Eastman Kodak Company Identifying unique objects in multiple image collections
US7668405B2 (en) * 2006-04-07 2010-02-23 Eastman Kodak Company Forming connections between image collections
US8341112B2 (en) * 2006-05-19 2012-12-25 Microsoft Corporation Annotation by search
US8098934B2 (en) * 2006-06-29 2012-01-17 Google Inc. Using extracted image text
US8452794B2 (en) * 2009-02-11 2013-05-28 Microsoft Corporation Visual and textual query suggestion

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102473186B (zh) * 2009-07-20 2014-04-30 索尼爱立信移动通讯有限公司 标记多个数字图像的系统和方法
CN102473186A (zh) * 2009-07-20 2012-05-23 索尼爱立信移动通讯有限公司 标记多个数字图像的系统和方法
CN102687147A (zh) * 2010-08-03 2012-09-19 松下电器产业株式会社 信息处理装置、处理方法、计算机程序及集成电路
CN103959330B (zh) * 2011-07-13 2017-08-08 谷歌公司 用于匹配可视对象组件的系统和方法
CN103959330A (zh) * 2011-07-13 2014-07-30 谷歌公司 用于匹配可视对象组件的系统和方法
CN104133816A (zh) * 2013-05-03 2014-11-05 三星电子(中国)研发中心 搜索图像的方法和装置
CN104133816B (zh) * 2013-05-03 2017-11-07 三星电子(中国)研发中心 搜索图像的方法和装置
CN105868524A (zh) * 2015-02-06 2016-08-17 国际商业机器公司 用于医学图像集的自动基准真值生成
CN105868524B (zh) * 2015-02-06 2019-05-03 国际商业机器公司 用于医学图像集的自动基准真值生成
US11182422B2 (en) 2015-09-01 2021-11-23 Dream It Get It Limited Media unit retrieval and related processes
US11567989B2 (en) 2015-09-01 2023-01-31 Dream It Get It Limited Media unit retrieval and related processes
US10769197B2 (en) 2015-09-01 2020-09-08 Dream It Get It Limited Media unit retrieval and related processes
US11256738B2 (en) 2015-09-01 2022-02-22 Dream It Get It Limited Media unit retrieval and related processes
WO2017101142A1 (zh) * 2015-12-17 2017-06-22 安宁 一种医学图像标注方法及系统
CN106295706A (zh) * 2016-08-17 2017-01-04 山东大学 一种基于形状视觉知识库的图像自动分割和语义注释方法
CN106295706B (zh) * 2016-08-17 2019-04-19 山东大学 一种基于形状视觉知识库的图像自动分割和语义注释方法
CN107886105A (zh) * 2016-09-30 2018-04-06 法乐第(北京)网络科技有限公司 一种图像的标注装置
CN107886104A (zh) * 2016-09-30 2018-04-06 法乐第(北京)网络科技有限公司 一种图像的标注方法
CN112818984A (zh) * 2021-01-27 2021-05-18 北京奇艺世纪科技有限公司 标题生成方法、装置、电子设备和存储介质
CN112818984B (zh) * 2021-01-27 2023-10-24 北京奇艺世纪科技有限公司 标题生成方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
EP2044532A1 (en) 2009-04-08
CN101467145B (zh) 2012-07-18
US8065313B2 (en) 2011-11-22
US20080021928A1 (en) 2008-01-24
WO2008013679A1 (en) 2008-01-31

Similar Documents

Publication Publication Date Title
CN101467145B (zh) 用于自动注释图像的方法和装置
US9355330B2 (en) In-video product annotation with web information mining
US8892542B2 (en) Contextual weighting and efficient re-ranking for vocabulary tree based image retrieval
EP2585979B1 (en) Method and system for fast and robust identification of specific products in images
US9092458B1 (en) System and method for managing search results including graphics
US20110085739A1 (en) System and method for similarity search of images
US20110106805A1 (en) Method and system for searching multilingual documents
EP2497041A2 (en) Content-based image search
WO2009158135A2 (en) Statistical approach to large-scale image annotation
Lee et al. Tag refinement in an image folksonomy using visual similarity and tag co-occurrence statistics
Ayache et al. Evaluation of active learning strategies for video indexing
US20150254342A1 (en) Video dna (vdna) method and system for multi-dimensional content matching
CN113656700A (zh) 基于多相似度一致矩阵分解的哈希检索方法
Aljahdali et al. Classification of image database using SVM with Gabor Magnitude
CN116756363A (zh) 一种由信息量引导的强相关性无监督跨模态检索方法
CN103377199B (zh) 信息处理装置和信息处理方法
Kim et al. Robust fingerprinting method for webtoon identification in large-scale databases
Bober et al. MPEG-7 visual signature tools
Valveny et al. Performance characterization of shape descriptors for symbol representation
Ashok Kumar et al. An efficient scene content-based indexing and retrieval on video lectures
Sebastine et al. Semantic web for content based video retrieval
US20230111337A1 (en) Systems, Methods, and Devices, for Perceptual Hashing Through Entropic Sampling
Aiswarya et al. Retrieving mobile based scalable images using position scale orientation-scale invariant feature transform algorithm
Gadeski et al. Fast and robust duplicate image detection on the web
Fernández et al. Appling parallelism in image mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: Google Inc.

CP01 Change in the name or title of a patent holder