CN102112987A

CN102112987A - 大规模图像注释的统计方法

Info

Publication number: CN102112987A
Application number: CN2009801311594A
Authority: CN
Inventors: M·李; X·芮
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2008-05-30
Filing date: 2009-05-30
Publication date: 2011-06-29
Anticipated expiration: 2029-05-30
Also published as: CN102112987B; WO2009158135A3; EP2291765A4; EP2291765A2; US8594468B2; US20120155774A1; WO2009158135A2; US20090297050A1; US8150170B2

Abstract

描述了大规模图像注释的统计方法。一般而言，注释技术包括编译来自多个图像的视觉特征和文本信息、散列图像视觉特征、并基于其散列值对图像聚类。一个示例系统从所聚类的图像中构建统计语言模型，并且通过应用统计语言模型中的一个来注释图像。

Description

大规模图像注释的统计方法

背景

随着廉价的数码相机、照相机电话和其他成像设备的出现，拍摄并张贴到因特网上的数字图像的数量显著地增长。然而，为了使用这些图像，必须标识和组织它们从而使得可以浏览、搜索或检索这些图像。

一个解决方案是手动图像注释，其中人在拍摄、上传或登记图像时手动地输入描述性文本或关键词。虽然手动图像注释一般非常准确(例如，人们一般选择准确描述)，但手动图像注释是耗时的且因此许多数字图像未被注释。另外，手动图像注释可能是主观的，因为注释图像的人可能不考虑图像的关键特征(例如，人们通常基于图像中的人、图像被拍摄的时间、或图像的位置来注释图像)。

另一个解决方案是用关键词自动地注释图像的自动图像注释。一般而言，自动图像注释是基于分类的或基于概率模型的。基于分类的方法试图通过学习分类器(例如，贝叶斯点机、支持矢量机等等)来将词或概念进行关联。而概率模型方法试图推断图像和注释之间的相关或联合概率(例如，翻译模型、跨媒体相关性模型、连续相关性模型等等)。

虽然基于分类的和基于概率的图像注释算法能够注释小规模的图像数据库，但它们一般不能注释具有真实图像(例如，数字图片)的大规模数据库。

此外，这些图像注释算法一般不能够注释所有不同类型的真实图像。例如，许多个人图像不包含文本信息，而web图像可以包含不完整的或错误的文本信息。虽然当前的图像注释算法能够注释个人图像或web图像，但这些算法通常不能够同时注释这两种类型的图像。

此外，在真实图像的大规模集合中，可以作为注释标记来跨多个图像应用的概念的数量几乎是无限的，并且取决于注释策略。因此，为了注释大规模的真实图像集合，注释方法应该能够处理多个图像中可能出现的无限的概念和主题。

最后，鉴于每天正在生成的相当大的数量的图像，注释方法必须既快速又高效。例如，每一天几乎有一百万幅数字图像被上传到FLICKR^TM图像共享网站上。为了每天注释一百万幅图像，必须每秒注释十幅左右的图像。因为最佳图像注释算法大约在1.4秒内注释一幅图像，所以无法注释每天生成的大量图像。

因此，需要一种可以注释包含无限数量的视觉概念的所有类型的真实生活图像并可以几乎实时地注释图像的大规模图像注释技术。

概述

提供本概述以便介绍将在以下详细描述中进一步描述的与自动化图像注释有关的简化概念。本概述并不旨在标识所要求保护的主题的必要特征，也不旨在用于确定所要求保护的主题的范围。

在一方面，一种注释图像的方法可以包括编译来自多个图像的视觉特征和文本信息、散列图像视觉特征、并基于其散列值对图像聚类。随后从所聚类的图像中构建统计语言模型，并使用统计语言模型中的一个来注释图像。

在另一方面，一种包括在由处理器执行时可以执行一种方法的计算机可执行指令的计算机可读存储介质，该方法包括爬行大规模图像数据库来收集图像及其相应的文本信息。随后使用灰块方法从图像中提取视觉信息，并且通过采用投影矩阵来缩减所提取的图像。散列经缩减的视觉信息，并根据其散列值对图像聚类。从所聚类的图像中构建一个或多个统计语言模型，并且使用统计语言模型中的一个或多个来注释查询图像。

在又一方面，一种项记录数据结构具体化在计算机可读介质上，该数据结构由数字图像和对应于该数字图像的文本注释构成。通过编译来自多个图像的视觉特征和文本信息、散列图像视觉特征、并基于散列值对图像聚类来将文本注释与数字图像相关联。随后基于所聚类的图像构建统计语言模型，并使用统计语言模型中的一个来注释图像。

虽然单独地描述上述各方面，但它们不是相互排斥的，并且给定实现中可以出现任意数量的方面。

附图简述

参考附图阐述详细描述。在附图中，附图标记中最左边的数字标识该附图标记首次出现的附图。在不同附图中使用相同的附图标记指示相似或相同的项。

图1是示出大规模图像注释技术的一个实现的框图。

图2是示出可以如何使用web爬行器来收集图像及其附随注释并将其存档到数据库中的图示。

图3是示出可以如何缩减数字图像的视觉特征、如何将经缩减的特征分组成各个聚类、并且随后基于聚类开发统计语言模型的框图。

图4是描绘了注释个人图像的说明性方法的框图。

图5是描绘了注释web图像的说明性方法的流程图。

详细描述

在理论上的理想情形中，给定无限规模的注释良好的图像数据库，图像注释是相对直接的。对于给定查询图像，在图像数据库中找到准确的复制品并将该图像的注释传播到该查询图像。

然而，在“真实世界”中，图像数据库一般在规模上是有限的并且包含许多不准确的描述。因此，“真实世界图像数据库”中的图像通常根据图像的相似性被分组成各个聚类。随后对于给定查询图像，选择最相似的图像聚类并选择与该图像聚类相关联的“最佳描述”来注释该查询图像。虽然这些常规成像注释算法能够注释大部分图像，但仍然存在很大的改进空间。

本公开涉及大规模图像注释的各种统计方法。这些统计方法可以注释一般具有有限注释或没有注释的个人图像以及一般具有噪声和不完整注释的基于web的图像。在一个实现中，图像注释技术充分利用大规模基于web的图像数据库来对几乎无限数量的语义概念进行建模。

图1示出大规模图像注释技术的一个实现100。首先，爬行大规模数据库102，并且提取视觉特征和文本信息两者并将其作为结构数据(即，训练集)来索引104。通过将高维图像特征投影到具有低维度的子空间中来降低图像数据的复杂性，同时保持大部分的图像信息106。随后将高效的基于散列的聚类算法应用于训练集并将带有相同散列代码的图像分组成“聚类”108。一旦图像被聚类成组110之后，开发统计语言模型(SLM)来对来自每一聚类中的图像的文本信息建模112。

为了注释图像，选择查询图像114并且提取其视觉特征(例如，色彩、纹理、几何特征等等)和文本特征(例如，标题、关键词、URL、环绕文本等等)116。对查询图像的特征进行散列118并基于具有与查询图像的最大联合概率的词来选择120语言模型。随后基于与所选语言模型122相关联的文本、标题、注释、和/或关键词来注释122图像。

从web收集图像

参考图2，在一个实现中，使用web爬行器从因特网收集图像202连同其文本、标题、注释、和/或关键词204并将其存档到数据库206中。一般而言，可以收集尽可能多的图像，因为大的样本大小确保视觉模型和查询图像之间的良好相关性。例如，在一个实现中，从在线照片论坛(例如，仅举几个例子，GOOGLE IMAGES^TM、YAHOO IMAGE SEARCH^TM、和华盛顿大学图像数据集)收集240万幅左右带有有意义描述的高质量web图像。

或者，可以随机地从因特网或其他源收集经注释的图像并将其汇集成图像集合。一般而言，只要任何类型的图像用某种形式的文本、标题、注释、或关键词来注释，便可以收集这些图像。

随后可以在数据库中索引图像及相关联的文本或关键词。存在可以索引图像202和文本204的许多方式(例如，仅举几个例子，按关键词、文本串、图像特征)。在一个实现中，图像根据关键词或与图像202相关联的文本204来排序和分组。例如，如果存在包含日落的多个图像，则这些图像可以被索引和分组在一起208。

维数缩减

传统的聚类算法是耗时的并且在计算上是低效的，因为数字图像一般是复杂的(例如，高维度)。因此，本示例性技术采用了所收集的图像的紧凑表示来实现快速且高效的图像聚类。

维数缩减的一个目的是降低图像数据的复杂性同时保持尽可能多的原始信息。维数缩减的第二个目的是通过略去最低有效的维数来减少噪声和值漂移。在以下说明性技术中实现这两个目的。

参考图3，图像的视觉特征一般应该表示其内容、其结构，并且对于图像本身的变型(例如，仅举几个例子，缩放、色彩、存储格式)是稳健的。因此，可以采用灰块方法。灰块特征可以表现为原始图像的小的缩略图。灰块方法保持图像主要内容和结构，并且对于比例改变是不变的。每一特征向量是许多单独像素的平均，所以该方法对于像素值的变化是稳健的。此外，因为每一向量特征是基于图像的亮度的，所以该方法对色彩变化也是稳健的。

在一个实现中，在框302处，将每一收集的图像分成8x8的像素块并且为每一块计算平均亮度“L”。每一特征的第K维数值可以被计算为：

f_{k} = \frac{1}{N_{k}} \underset{i, j &Element; B_{k}}{Σ} I (i, j) k = 1,2, . . ., n^{2} - - - (1)

其中B_k对应于块k，N_k是B_k中的像素数量，而L(i，j)是坐标i，j处的像素亮度。因此，图像由向量F_i＝(f₁，f₂，f₃，…，f_n*n)^T表示。在替换实现中，图像可以被划分成7x 7的灰块、9x 9的灰块、或任何其他合适数量的特征向量。

随后在框304处可以将高维特征投影到带有低得多的维数的子空间中，同时保持大部分图像信息。在一个实现中，图像的维数通过采用投影矩阵“A”来缩减。

G_i＝AF_i (2)

为了确定投影矩阵A，对足够大的图像集合的特征矩阵执行主分量分析(PCA)。随后可以对图像向量排序并且保留对应于最大本征值的向量来形成投影矩阵A。应该注意，投影矩阵对于大部分灰块图像一般是相同的。虽然通过该技术图像可能丢失某些信息，但已经证明，实现了高精度和快速的聚类分组。

通过散列来聚类

聚类是基于对象成员之间的高度相似性将对象分类到各类、各类别、或分区中。在一个实现中，在框306处将基于散列的聚类算法应用于训练集。这种散列代码生成本质上是向量量化过程。因为最后量化的向量具有K位，所以将位分配到每一维度的方法是重要的。在一个实现中，对于具有大于“平均_k”的值的图像向量，该图像向量具有值“1”，而对于具有小于“平均_k”的值的图像向量，图像向量具有值“0”：

H_i，k＝1如果G_ik＞/＝平均_k (3)

＝0如果G_ik＜平均_k

其中平均_k是维数K的平均值。通过采用这种技术，K维特征向量被转换成K位二进制串，即变成了图像散列代码。

在一个实现中，K位串被约束为不超过32位，但也可以采用其他位串大小，诸如64位。随后在框308处将具有相同32位散列代码的图像分组成“聚类”。

构建统计语言模型

一旦图像被聚类成各个组之后，可以在框310处开发统计语言模型(SLM)来对来自每一聚类中的图像的文本信息建模。可以构造单元语法模型和经修改的双元语法模型来为图像聚类中的每一个计算单个词概率和条件词概率。

一般而言，个人图像可能缺少文本信息或注释，并因此通过采用概率方法来注释。具体而言，查询图像可以通过选择具有与该查询(即目标)图像的最大联合概率的关键词、短语、或文本来注释，如以下等式(4)所示。

单元语法模型假定特定文本段或关键词由每一术语独立地生成。因此，单元语法模型计算特定关键词、短语或文本与查询图像相关联的概率。

w^*＝arg max_w{p(w，I)} (4)

＝arg max_w{∑_cp(w/c)p(I/c)p(c)}

在等式(4)中，p(w/c)是单元语法词概率(即，关键词、短语或术语“w”出现在图像聚类“c”中的概率)，p(I/c)是查询图像“I”和图像聚类“c”之间的视觉相似性，而p(c)是聚类“c”的先验概率，该先验概率常常在预先不知道先验信息的情况下被统一初始化。

例如，如果聚类中有十个图像并且两个关键词与该聚类相关联。如果第一关键词出现在五个图像中而第二关键词出现在两个图像中；则第二关键词应该与查询图像相关联的概率为2/7(29％)而第一关键词应该与查询图像相关联的概率为5/7(71％)。因此，与第二关键词相比，因为第一关键词具有与查询图像相关联的更大概率(即，71％对29％)；所以使用第一关键词来注释该查询图像。

在一替换实现中，选择其视觉特征与查询图像最相似的图像聚类，并且使用其关键词、短语和/或术语来注释查询图像。

一般而言，由于聚类中的图像的数量少，所以聚类中的词的数量是有限的。因此，当存在有限数量的词时，单元语法模型可以使用贝叶斯模型使用狄利克雷(Dirichlet)先验来平滑。

p_{μ} (w | d) = \frac{c (w; d) + μp (w | C)}{Σ_{w} c (w; d) + μ} - - - (5)

此处，p(w/C)是指定关键词“w”出现在标准语料库“C”中的的单元语法概率。

一般而言，典型的web图像包含噪声和不完整的文本信息。因此，可以采用两步概率模型来注释web图像。

首先，使用等式(6)来排序可用文本“n”，并且丢弃可能是噪声的排序最低的词。随后将排序最高的词用作候选注释“n^*”。

n^*＝arg max_n{p(n，I)} (6)

＝arg max_n{∑_cp(n/c)p(I/c)p(c)}

在等式(6)中，p(n，I)是关键词、短语和/或术语“n”与web图像“I”相关联的概率，p(n/c)是术语“n”与图像聚类“c”相关联的概率，而p(I/c)是web图像“I”与图像聚类“c”相关联的概率。

接着，获得新的注释“w^*”并且通过确定每一候选注释的平均条件概率p(w，I/n^*)来将注释排序。随后可以选择具有最高平均条件概率的候选注释来注释web图像。

w^*＝arg max_w{p(w，I/n^*)} (7)

w^*＝arg max_n{∑_cp(w/c)p(n^*/w，c)p(I/c)p(n^*/I，c)p(c)}

在等式(7)中，p(n^*/w，c)是双元语法词概率(即，给定“w”已经与图像聚类“c”相关联的情况下，每一关键词、术语或注释“n^*”与图像聚类“c”相关联的平均条件概率)。

例如，如果web图像是带有云的天空的图片并用“天空”来注释。带有注释“天空”和“云”的聚类将具有这些注释与该图像相关的高概率。而带有注释“水”和“天空”的聚类将具有较低的概率并因此被丢弃。

注释图像

因为通常只使用少量的聚类模型来计算联合概率，所以本示例性图像注释技术是高效的并且不会引入噪声信息。

对于个人图像注释，选择在视觉上与图像相似的聚类模型。因此，基于最接近的视觉图像模型来注释个人图像而不考虑文本相似性。

图4示出根据一个实现的用于注释个人图像的说明性方法400。术语“个人图像”应该被宽泛地解释并且一般是不具有诸如关键词、标签、文本信息等文本信息的任何图像。在框402处，个人图像可以从网站下载、从计算设备(例如，仅举几个例子，个人计算机、数码相机、电视电话、个人数字助理)检索、从硬拷贝扫描、或从任何其他数字图像的源获得。

一旦选择了个人图像(即，查询图像)，在框404处可以使用灰块技术提取其视觉特征。在一个实现中，查询图像被分成8x 8的块并且为每一块计算平均亮度“L”。查询图像随后基于平均亮度值F_i＝(f₁，f₂，f₃，…，f_n*n)^T被表示为K阶向量。在一替换实现中，图像可以被划分成7x 7的灰块、9x 9的灰块、或任何其他合适数量的灰块。

向量图像随后可以通过采用投影矩阵来缩减。投影矩阵“A”通过对特征矩阵执行主分量分析(PCA)来确定。随后对图像向量排序并且保留对应于最大本征值的向量来形成投影矩阵A。

接着在框406处，可以对查询图像执行高效的基于散列的聚类算法。在一个实现中，计算图像向量的平均值“平均_k”并且对值大于平均_k的图像向量赋值1而对值小于平均_k的图像向量赋值0。这将K维图像向量变换成K位二进制串，即变成了查询图像散列代码。

随后将查询图像的散列代码与各图像聚类的散列代码进行比较。在框408处，选择具有与查询图像相同的散列代码的聚类。

最后在框410处，使用所选聚类的注释来注释查询图像。

对于web图像，可以选择既在文本上与web图像文本信息相似又在视觉上与web图像相似的聚类模型。图5示出根据一个实现的用于注释web图像的说明性方法500。术语“web图像”应该被宽泛地解释并且一般是具有诸如关键词、标签、文本信息等文本信息的任何图像。在框502处，像个人图像一样，web图像可以从因特网网站下载、从计算设备(例如，仅举几个例子，个人计算机、数码相机、电视电话、个人数字助理)检索、从硬拷贝扫描、或从任何其他数字图像的源获得。

一旦选择了web图像(即，查询图像)，在框504处使用灰块技术提取图像的视觉特征并且通过采用投影矩阵缩减向量图像。相关联的文本特征被记录在数据库中或其他形式的档案中。

通过使用图像向量的平均值“平均_k”来计算查询图像的散列值，并且对值大于平均_k的图像向量赋值1而对值小于平均_k的图像向量赋值0。在框506处，这将K维图像向量变换成K位二进制串，即变成了查询图像散列代码。

使用两步概率模型来注释web图像。首先，可以基于查询图像“I”与图像聚类“c”相关联的概率(即，p(I/c))以及文本n与聚类c相关联的概率(即，p(n/c))来对可用文本“n”排序。在框508处，丢弃排序最低的词并将排序最高的词用作候选注释n^*。

获得新的候选注释“w^*”并且通过计算每一候选注释的平均条件概率P(w，I/n_i ^*)来将候选注释排序。在框510处，选择具有最大平均条件概率的候选注释“w^*”来注释web图像。

结论

尽管用结构特征和/或方法动作专用的语言描述了各个实现，但可以理解，所附权利要求书中定义的发明不必限于上述具体特征或动作。相反，这些具体特征和动作是作为实现权利要求的本发明的说明性形式而公开的。

Claims

1.一种注释图像的方法，包括：

编译来自多个图像的视觉特征和文本信息(104，504)；

散列所述多个视觉特征，并且基于所述散列值对所述多个图像聚类(108，306，308)；

基于所聚类的图像构建一个或多个统计语言模型(110，112)；以及

使用所述统计语言模型中的一个或多个来注释所述图像(122)。

2.如权利要求1所述的注释图像的方法，其特征在于，所述多个图像通过爬行一个或多个大规模图像数据库来收集。

3.如权利要求1所述的注释图像的方法，其特征在于，散列所述多个视觉特征包括向量量化过程，其中所述视觉特征被转换成二进制串。

4.如权利要求1所述的注释图像方法，其特征在于，将带有相同散列代码的图像分组成各个聚类。

5.如权利要求1所述的注释图像的方法，其特征在于，所述一个或多个统计语言模型是单元语法模型。

6.如权利要求1所述的注释图像的方法，其特征在于，所述一个或多个统计语言模型是双元语法模型。

7.如权利要求1所述的注释图像的方法，其特征在于，所述图像是个人图像，并且所述图像通过选择带有所述图像和所聚类的图像之间的最大联合概率的词来注释。

8.如权利要求1所述的注释图像的方法，其特征在于，所述图像是web图像，并且所述图像通过两步概率建模技术来注释。

9.如权利要求1所述的注释图像的方法，其特征在于，还包括通过使用灰块方法从所述多个图像中提取视觉信息。

10.如权利要求9所述的注释图像的方法，其特征在于，所述灰块方法包括：

将所述图像划分成相等大小的块，

测量每一块的平均亮度，以及

将所述图像表示为向量。

11.如权利要求9所述的注释图像的方法，其特征在于，还包括通过采用投影矩阵来缩减所述多个图像的视觉信息。

12.一种包括在由处理器执行时执行如权利要求1-11所述的方法的计算机可执行指令的计算机可读存储介质。

13.一种具体化在计算机可读介质上的表示项目录中的项的数据结构，所述数据结构包括：

数字图像(202)；以及

对应于所述数字图像的文本注释(204)，所述文本注释通过以下动作与所述数字图像相关联：

编译来自多个图像的视觉特征和文本信息(104，504)；

14.如权利要求13所述的具体化在计算机可读介质上的表示项目录中的项的数据结构，其特征在于，所述多个图像通过爬行一个或多个大规模图像数据库来收集。

15.如权利要求13所述的具体化在计算机可读介质上的表示项目录中的项的数据结构，其特征在于，还包括通过使用灰块方法从所述多个图像中提取视觉信息。