CN101467145A

CN101467145A - 用于自动注释图像的方法和装置

Info

Publication number: CN101467145A
Application number: CNA200780021864XA
Authority: CN
Inventors: J·N·雅格尼克
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2006-07-24
Filing date: 2007-07-11
Publication date: 2009-06-24
Anticipated expiration: 2027-07-11
Also published as: EP2044532A1; CN101467145B; US8065313B2; US20080021928A1; WO2008013679A1

Abstract

本发明的一个实施方式提供一种自动注释图像的系统。在操作中，该系统接收图像。接着，该系统从图像中提取图像特征。该系统继而标识具有相似图像特征的其它图像。该系统接着获取与所述其它图像相关联的文本，并在所获取的文本中标识相交关键字。最后，该系统利用相交关键字来注释图像。

Description

用于自动注释图像的方法和装置

技术领域

本发明涉及用于自动注释图像的技术。更具体地，本发明涉及通过搜索相似图像以及关联这些相似图像周围的文本来自动注释图像的技术。

背景技术

最近激增的高带宽互联网连接使得数百万用户高效率地在互联网上浏览图像成为可能。这些发展已经使网页、门户网站和其它基于网络应用中所包含的图像在数量上急剧增多。不幸地，许多图像并未附有描述图像内容的文本信息，比如标签、标题或名称。由于大部分现有的搜索技术都是基于文本的(举例，关键字搜索)，这就造成搜索特定的图像极其困难。因此，非常期望能够利用相关文本注释这些图像，举例，通过增加标题或关键字的集合来描述图像的语义内容。

注释图像的传统技术基本上是手动的，可能需要索引者为数以千计、或者在一些情形中数以百万计的图像选择关键字。因此，手动图像注释可能是极其费力和昂贵的过程。

已经开发出用于自动注释图像的其它技术(参见“FormulatingSemantic Image Annotation as a Supervised Learning Problem，”G.Carneiro and N.Vasconcelos，Proceedings of IEEE Conference onComputer Vision and Pattern Recognition，San Diego，2005)。这些自动图像注释技术能够显著减少或消除注释非常大量图像集所需要的人工工作。

然而，这些现有的“自动注释”技术通常仍然包括需要一定程度的人工辅助的步骤，比如需要人工标注一组地面实况数据，或需要其它类型的人工交互或反馈。不幸地，这种人工辅助无法有效地成比例匹配在数量上成指数增长的需要被注释的图像。

因此，需要一种用于自动注释图像而不存在上述问题的方法和装置。

发明内容

本发明的一个实施方式提供了一种自动注释图像的系统。在操作中，该系统接收图像。接着，该系统从图像中提取图像特征。该系统继而标识具有相似图像特征的其它图像。该系统接着获取与所述其它图像相关联的文本，并在所获取文本中标识相交关键字。最后，该系统利用相交关键字来注释图像。

在该实施方式的一种变形中，该系统如下来从图像中提取图像特征：(1)将图像分割成片；以及(2)从所述片中提取图像特征。

在该实施方式的其他变形中，对于不同片大小的组中的每一给定的片大小，该系统将图像分割成给定片大小的片。

在该实施方式的变形中，在标识其它图像之前，该系统将提取的图像特征与图像特征库中的已知图像特征进行匹配。

在该实施方式的其他变形中，该系统结合匹配的图像特征以形成图像的一个或多个图像特征结合。

在另一变形中，该系统通过在其它图像中标识相似的图像特征结合来标识具有相似图像特征的其它图像。

在该实施方式的变化中，该系统可以如下来从图像中提取图象特征：(1)生成颜色直方图；(2)生成方向直方图；(3)使用离散余弦变换(DCT)技术；(4)使用主成份分析(PCA)技术；或(5)使用伽柏(Gabor)小波技术。

在该实施方式的变形中，可以通过(1)形状；(2)颜色；以及(3)纹理来定义图像特征。

在该实施方式的变形中，该系统通过在互联网上搜索图像来标识其它图像。

在该实施方式的变形中，该系统通过使用概率模型来标识具有相似图像特征的其它图像。

在该实施方式的变形中，在标识相交关键字之前，该系统通过增加关键字的同义词来对获取文本中的关键字进行扩展。

在该实施方式的变形中，该系统从视频接收图像。

附图说明

图1给出了描述根据本发明一个实施方式的用于自动注释图像的过程的流程图。

图2描述了根据本发明一个实施方式的用于自动注释图像的基于计算机的系统。

具体实施方式

给出下面的描述是为了使本领域的任何技术人员能够使用和理解本发明，并且该描述是在特定应用及其需求的上下文中提供的。对于本领域技术人员而言，所公开实施方式的各种变形是显然的，此处限定的普遍原则可以不脱离本发明的精神和范围而适用于其它实施方式和应用。因此，本发明并不局限于示出的实施方式，而是与符合权利要求的最广泛范围相一致。

本详细描述中所描述的数据结构和代码通常存储在计算机可读存储介质上，其可以是能够存储由计算机系统使用的代码和/或数据的任意设备或介质。这包括但是不限于：易失性存储器，非易失性存储器，诸如磁盘驱动器、磁带、CD(压缩盘)、DVD(数字通用盘或数字视频盘)的磁和光学存储设备，或现在已知或以后开发出的能够存储计算机可读介质的其它介质。

概述

大部分图像搜索和检索系统都是文本驱动的，其中用户输入关键字作为查询，而计算机系统(或者更具体地，搜索引擎)通过在图像数据库中搜索与图像相关的文本来处理该查询。搜索引擎返回与关键字相匹配的文本信息所关联的“相关”图像。在这种类型的方案中，无法检索到未被注释的图像，即使该图像内容与关键字高度关联。因此，为未注释图像提供相关文本信息能够促进图像的搜索和检索操作。

本发明的一个实施方式提供了一种技术，其通过利用web上可用的庞大图像库来产生与图像关联的文本，以此来自动注释图像。更具体地，本发明的一个实施方式从给定图像中提取图像特征，继而在互联网上搜索图像以标识包含相似图像特征的图像集。接着，获取这些图像周围的文本。该技术随后标识用以注释该给定图像的获取的文本中的共同关键字。注意，该技术不需要人工干预，并且利用许多现有的图像处理技术来执行诸如图像特征提取和在web上标识相似图像的步骤。

自动注释过程

该过程开始于接收图像以及提供关于该图像的相关文本信息的请求(步骤100)。注意，可以通过任意的数字格式来格式化和存储图像，包括但是不限于：JPEG、GIF、BMP、TIFF、PDF、PS、EMF、MNG、PNG、PSD、SWF和WMF。另外，也可以从数字视频的静止帧中获取图像。举例，我们可以从MPEG视频中的单一帧中提取图像，并且随后注释这个图像。

接着，该过程将图像分割成特定大小的片(步骤102)，并且随后从各片中提取图像特征(步骤104)。注意，能够从这些片中被提取出的典型图像特征可以包括但不限于：形状、颜色和纹理。举例，可以提取图像中给定片的各种颜色特征，包括但不限于：颜色直方图；颜色直方图布局和颜色矩。另外，可以使用多种图像处理技术来提取特定图像特征，这些图像处理技术可以包括但不限于：离散余弦变换(DCT)技术、主成份分析(PCA)技术和伽柏小波技术。在本发明的一个实施方式中，图像特征还可以包括方向直方图。

还应注意，本发明并不局限于与片相关联的特征。本发明还可以广泛适用于任意类型的图像特征，而并不局限于与片相关联的特征。举例，本发明可以同不与片边界相关联的图像特征一起使用，比如整个图像的颜色直方图的属性。

该过程接着将所提取的图像特征与图像特征库中的已知图像特征进行匹配(步骤106)。在本发明的一个实施方式中，使用相似图像提取技术预先获取了图像特征库中的已知图像特征。举例，如果在步骤104中使用DCT技术来提取图像特征，则可以利用DCT系数来表示已知图像特征。在本发明的一个实施方式中，将所提取的图像特征与已知图像特征进行匹配包括：将每一提取的图像特征与库中的最近已知图像特征进行匹配。

接着，该过程结合匹配的已知图像特征，以形成图像的图像特征结合(步骤108)。更具体地，该过程为分割成特定片大小的图像产生图像特征结合的集合。

在本发明的一个实施方式中，对于不同的片大小，迭代地重复步骤102到108，其中片大小范围可以从每片仅包含一些像素变化到包含整个图像的单个片。特别地，对于每个片大小，该处理将图像分割成该片大小的片，并继而从相应片中提取图像特征。该过程接着将所提取的图像特征与已知图像特征进行匹配，并接着利用已知图像特征来产生图像的图像特征结合的集合。因此，步骤108产生的图像特征结合包含针对不同图像片大小获得的图像特征结合。注意，使用不同的片大小有利于在多尺度上捕获图像特征。替代与已知图像特征进行匹配，该系统可选地可以限定图像特征的值落入离散值有限集合。

该过程接着标识具有相似图像特征和/或图像特征结合的多个其它图像(步骤110)。特别地，该过程从各种来源中搜索大量图像。这些图像来源可以包括但不限于：存储在已组织的图像数据库中的图像；嵌入到互联网上的网页中的图像；与互联网上的视频相关的图像，或者链接到互联网上的网址的任意图像。注意，互联网上的图像和已组织图像数据库中的图像之间的区别在于：互联网上的图像通常没有被分类并且通常相互无关。

确定特定图像是否包含原始图像的相似图像特征包括：按照与原始图像相同的方式处理特定图像，以产生特定图像的图像特征。

在将原始图像中的图像特征和/或图像特征结合与其它图像进行比较时，可以使用各种概率模型。举例，这些概率模型可以包括从计算相似或相同特征的数目的任意简单计算技术到在比较两个图像时假定特征为多元常态分布的复杂“多元分布技术”的任何技术。(关于多元常态分布的讨论，请参阅http://en.wikipedia.org/wiki/Multivariate_gaussian_distribution)

在标识多个相似图像之后，该过程获取这些图像周围的文本(步骤112)。在本发明的一个实施方式中，从包括到该图像链接的HTML文件中的图像标签周围获取文本。在另一实施方式中，获取直接包围网页中实际图像的文本。可以设想到，在网页中给定图像周围获取的文本，很有可能与该图像的内容相关。结果，步骤112使用来自每一所标识图像周围的文本的关键字作为注释原始图像的候选关键字。注意，这些候选关键字中的一些可能与原始图像的内容并不相关。

该过程接着通过增加该组关键字的同义词对每个所标识图像所关联的关键字集合进行扩展(步骤114)。在本发明的一个实施方式中，使用智能词典工具为集合中的每个关键字增加同义词。举例，关键字“sea”和“ocean”可能分别出现在两个已标识图像的两个关键字集合中。在按照这种方式扩展关键字后，两个图像都将与这两个关键字相关联。

接着，该过程在这些已标识图像的关键字集合之间执行比较，以标识相交关键字(步骤116)。注意，增加关键字的同义词提高了标识这些相交的可能性。

最后，该过程获得多个已标识图像之间的相交关键字，并利用这些相交关键字注释原始图像(步骤118)。注意，可以通过在步骤110标识更多图像来提高相交关键字与原始图像的相关性。因为互联网是极其巨大的图像数据库，随着越来越多的图像被搜索和检查，找到更匹配图像的可能性随之增加。另外，从更多图像中获取的相交关键字同样变得更加精确。

系统

图2描述了根据本发明一个实施方式的用于自动注释图像的基于计算机的系统。该基于计算机的系统在计算机系统200内操作，计算机系统200通常包括任意类型的计算机系统，包括但不限于：基于微处理器的计算机系统、大型机计算机、数字信号处理器、便携计算设备、个人组织器、设备控制器和装置内的计算引擎。

在操作中，计算机系统200接收图像202以及利用相关文本信息来注释图像202的请求。

计算机系统200包括处理器201和存储器204。存储器204可以包括能够存储实施图1所描述功能的、用于注释图像202的软件模块的任意类型存储器。如图2所示，这些软件模块可以包括：接收图像的图像接收装置205，从图像提取图像特征的图像特征提取装置206；标识包含与输入图像202相似的图像特征的图像的相似图像标识装置208；获取用于注释图像的文本的文本获取装置；将图像与相似图像进行匹配的匹配装置210；注释图像的注释装置211；以及扩展关键字列表以包括关键字的同义词的词典和web扩展装置212。这些装置共同地操作，以产生相交关键字集合212，其继而被用来注释图像202。

注意，计算机系统200和互联网214相交互，以访问互联网214中的图像。

对视频的应用

注意，还可以利用本发明来注释没有主题或说明的视频，从而促进这些视频的搜索和检索操作。具体地，可以将视频分割成代表帧的集合，可以将每个帧作为图像来处理。使用上述过程，可以利用相关关键字来注释每一代表帧。可以选择使用其它现有技术来分析针对这些帧的注释，以产生针对整个视频的一组共同注释。

上面对本发明实施方式的描述仅用于说明和描述目的。它们不是穷举性的，也不将本发明局限到已公开的形式中。因此，对于本领域技术人员，许多修改和变形都是易见的。另外，上述公开并不意图限制本发明。本发明的范围由所附权利要求来限定。

Claims

1、一种用于自动注释图像的方法，包括：

接收所述图像；

从所述图像提取图像特征；

标识具有相似图像特征的其它图像；

获取与所述其它图像相关的文本；

在与所述其它图像相关联的所获取文本中标识相交关键字；以及

利用所述相交关键字来注释所述图像。

2、根据权利要求1所述的方法，其中从所述图像提取图像特征包括：

将所述图像分割成片；以及

从所述片中提取所述图像特征。

3、根据权利要求2所述的方法，其中对于不同片大小的集合中的每个给定片大小，将所述图像分割成片包括：将所述图像分割成所述给定片大小的片。

4、根据权利要求1所述的方法，其中在标识所述其它图像之前，该方法还包括：将所述提取出的图像特征与图像特征库中的已知图像特征进行匹配。

5、根据权利要求4所述的方法，其中该方法还包括：结合所述匹配的图像特征，以形成图像的一个或多个图像特征结合。

6、根据权利要求5所述的方法，其中标识具有相似图像特征的所述其它图像包括：在所述其它图像中标识相似的图像特征结合。

7、根据权利要求1所述的方法，其中从所述图像中提取所述图像特征可以包括：

生成颜色直方图；

生成方向直方图；

使用离散余弦变换(DCT)技术；

使用主成份分析(PCA)技术；或

使用伽柏小波技术。

8、根据权利要求1所述的方法，其中可以按照以下项来定义所述图像特征：

形状：

颜色；以及

纹理。

9、根据权利要求1所述的方法，其中标识所述其它图像包括在互联网上的图像中进行搜索。

10、根据权利要求1所述的方法，其中标识具有相似图像特征的所述其它图像包括使用概率模型。

11、根据权利要求1所述的方法，其中在标识所述相交关键字之前，该方法还包括：通过增加关键字的同义词对所述所获取文本中的关键字进行扩展。

12、根据权利要求1所述的方法，其中接收所述图像包括从视频接收所述图像。

13、一种存储指令的计算机可读存储介质，当所述指令被计算机执行时，其使计算机执行用于自动注释图像的方法，该方法包括：

接收所述图像；

从所述图像提取图像特征；

标识具有相似图像特征的其它图像；

获取与所述其它图像相关联的文本；

利用所述相交关键字来注释所述图像。

14、根据权利要求13所述的计算机可读存储介质，其中从所述图像提取图像特征包括：

将所述图像分割成片；以及

从所述片中提取所述图像特征。

15、根据权利要求14所述的计算机可读存储介质，其中对于不同片大小的集合中的每个给定片大小，将所述图像分割成片包括：将所述图像分割成所述给定片大小的片。

16、根据权利要求13所述的计算机可读存储介质，其中在标识所述其它图像之前，该方法还包括：将所述提取出的图像特征与图像特征库中的已知图像特征进行匹配。

17、根据权利要求16所述的计算机可读存储介质，其中该方法进一步包括：结合所述匹配的图像特征，以形成图像的一个或多个图像特征结合。

18、根据权利要求17所述的计算机可读存储介质，其中标识具有相似图像特征的所述其它图像包括：在所述其它图像中标识相似的图像特征结合。

19、根据权利要求13所述的计算机可读存储介质，其中从所述图像中提取所述图像特征可以包括：

生成颜色直方图；

生成方向直方图；

使用离散余弦变换(DCT)技术；

使用主成份分析(PCA)技术；或

使用伽柏小波技术。

20、根据权利要求13所述的计算机可读存储介质，其中可以按照如下项来定义所述图像特征：

形状：

颜色；以及

纹理。

21、根据权利要求13所述的计算机可读存储介质，其中标识所述其它图像包括在互联网上的图像中进行搜索。

22、根据权利要求13所述的计算机可读存储介质，其中标识具有相似图像特征的所述其它图像包括使用概率模型。

23、根据权利要求13所述的计算机可读存储介质，其中在标识所述相交关键字之前，该方法还包括：通过增加关键字的同义词对所述所获取文本中的关键字进行扩展。

24、根据权利要求13所述的计算机可读存储介质，其中接收所述图像包括从视频接收所述图像。

25、一种自动注释图像的计算机系统，包括：

处理器；

存储器；

接收装置，其被配置用于接收所述图像；

提取装置，其被配置用于从所述图像提取图像特征；

标识装置，其被配置用于标识具有相似图像特征的其它图像；

获取装置，其被配置用于获取与所述其它图像相关的文本；

其中所述标识装置进一步被配置用于在与所述其它图像相关联的所获取文本中标识相交关键字；以及

注释装置，其被配置用于利用所述相交关键字来注释所述图像。

26、根据权利要求25所述的计算机系统，其中所述提取装置被配置用于：

将所述图像分割成片；以及

从所述片中提取所述图像特征。

27、根据权利要求25所述的计算机系统，还包括：匹配装置，其被配置用于将所述提取出的图像特征与图像特征库中的已知图像特征进行匹配。

28、根据权利要求27所述的计算机系统，其中所述匹配装置被配置用于结合所述匹配的图像特征，以形成图像的一个或多个图像特征结合。

29、根据权利要求28所述的计算机系统，其中所述标识装置被配置用于在所述其它图像中标识相似的图像特征结合。

30、根据权利要求25所述的计算机系统，其中所述标识装置进一步被配置用于：

在互联网上的图像之中进行搜索；以及用于

通过增加关键字的同义词对在所述获取文本中的关键字进行扩展。

31、根据权利要求25所述的计算机系统，其中所述接收装置配置用于从视频中接收所述图像。

32、一种用于自动注释可视媒体内容的方法，包括：

接收所述可视媒体内容；

从所述可视媒体内容提取特征；

标识具有相似特征的其它可视媒体内容；

获取与所述其它可视媒体内容相关联的文本；

在与所述其它可视媒体内容相关联的所获取文本中标识相交关键字；以及

利用所述相交关键字来注释所述可视媒体内容。

33、根据权利要求32所述的方法，其中从所述可视媒体内容提取特征包括：

将所述可视媒体内容内的图像分割成片；以及

从所述片中提取图像特征。

34、根据权利要求33所述的方法，其中对于不同片大小的集合中的每个给定片大小，将所述图像分割成片包括：将所述图像分割成所述给定片大小的片。

35、根据权利要求32所述的方法，其中在标识所述其它可视媒体内容之前，该方法还包括：将所述提取出的特征与特征库中的已知特征进行匹配。

36、根据权利要求35所述的方法，其中该方法还包括：结合所述已匹配特征，以形成可视媒体内容的一个或多个特征结合。

37、根据权利要求36所述的方法，其中标识具有相似特征的其它可视媒体内容包括：在所述其它可视媒体内容中标识相似的特征结合。

38、根据权利要求32所述的方法，其中从所述可视媒体内容中提取所述特征可以包括：

生成颜色直方图；

生成方向直方图；

使用离散余弦变换(DCT)技术；

使用主成份分析(PCA)技术；或

使用伽柏小波技术。

39、根据权利要求32所述的方法，其中可以按照以下项来定义所述特征：

形状：

颜色；以及

纹理。

40、一种存储指令的计算机可读存储介质，当所述指令被计算机执行时，其使计算机执行用于自动注释可视媒体内容的方法，该方法包括：

接收所述可视媒体内容；

从所述可视媒体内容提取特征；

标识具有相似特征的其它可视媒体内容；

获取与所述其它可视媒体内容相关联的文本；

利用所述相交关键字来注释所述可视媒体内容。

41、一种用于自动注释视频的方法，包括：

接收所述视频；

从所述视频中提取视频特征；

标识具有相似视频特征的其它视频；

获取与所述其它视频相关联的文本；

在与所述其它视频相关联的所获取文本中标识相交关键字；以及

利用所述相交关键字来注释所述视频。

42、根据权利要求41所述的方法，其中从所述视频提取所述视频特征包括：

将所述视频内的图像分割成片；以及

从所述片中提取图像特征。

43、根据权利要求42所述的方法，其中对于不同片大小的集合中的每个给定片大小，将所述图像分割成片包括：将所述图像分割成所述给定片大小的片。

44、根据权利要求41所述的方法，其中在标识所述其它视频之前，该方法还包括：将所述提取出的视频特征与视频特征库中的已知视频特征进行匹配。

45、根据权利要求44所述的方法，其中该方法还包括：结合所述匹配的视频特征，以形成所述视频的一个或多个视频特征结合。

46、根据权利要求45所述的方法，其中标识具有相似视频特征的其它视频包括：在所述其它视频中标识相似的视频特征结合。

47、根据权利要求41所述的方法，其中从所述视频中提取所述视频特征可以包括：

生成颜色直方图；

生成方向直方图；

使用离散余弦变换(DCT)技术；

使用主成份分析(PCA)技术；或

使用伽柏小波技术。

48、根据权利要求41所述的方法，其中可以按照以下项来定义所述视频特征：

形状：

颜色；以及

纹理。

49、一种存储指令的计算机可读存储介质，当所述指令被计算机执行时，其使计算机执行用于自动注释视频的方法，该方法包括：

接收所述视频；

从所述视频提取视频特征；

标识具有相似视频特征的其它视频；

获取与所述其它视频相关联的文本；

利用所述相交关键字来注释所述视频。