CN102741815A

CN102741815A - 基于跨域上下文来对图像加标签

Info

Publication number: CN102741815A
Application number: CN2011800083441A
Authority: CN
Inventors: S·J·贝克; A·卡珀; 华刚; 林达华
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-02-04
Filing date: 2011-02-04
Publication date: 2012-10-17
Anticipated expiration: 2031-02-04
Also published as: EP2531913A4; WO2011097517A2; US8645287B2; US10275714B2; CN102741815B; EP2531913A2; HK1174992A1; US11544588B2; US20110191271A1; WO2011097517A3; US20190362247A1; US20140129489A1

Abstract

本文描述的方法包括接收数字图像，其中该数字图像包括对应于第一域的第一元素和对应于第二域的第二元素。该方法还包括至少部分基于关于一标记对应于数字图像中的第一元素的计算得到的概率来向该第一元素自动分配该标记，其中该概率是通过利用被配置成推断第一域中的元素的标记的第一模型和被配置成推断第二域中的元素的标记的第二模型来计算得到的。第一模型接收标识第一域中的元素与第二域中的元素之间的所习得的关系的数据，并且该概率是至少部分基于所习得的关系通过第一模型计算得到的。

Description

基于跨域上下文来对图像加标签

背景

至少部分由于技术的不断进步和成本的持续降低，数码相机极其流行。例如，当前许多便携式蜂窝电话都配备有数码相机。数码相机允许用户随时间捕捉相对大量的图像并将它们存储在计算设备的数据储存库中。传统上，这些所捕捉的图像是基于捕捉每一相应图像的时间来自动组织的。图像的所有者可向图像手动提供名称，以提供关于图像内容的指示（例如，谁在特定图像中，等等）。

允许个人向图像提供标签或标记的数字图像组织应用在当前是可供使用的。例如，某一个人可审阅图像并向其分配指示该图像中捕捉到了特定人的标签。此后，该个人可以基于分配给这些图像的标签来组织图像。在一示例中，如果该个人希望向自己提供包括某一特定人的所有图像，则该个人可通过选择与该特定人相对应的图形图标来组织图像。这可使得向该个人呈现图像集合，其中该集合中的每一图像包括该特定人。

尽管允许用户对图像加标签是一种用于组织图像的相对高效的机制，但对大集合的图像中的图像加标签可能是相当耗时的。因此，脸部识别应用已被合并到图像组织应用中，以帮助基于图像中识别出的脸部来自动和/或半自动地对图像加标签。一般而言，可以分析图像，并且可以从中提取与该图像中的各人的身份有关的特征，如某一个人的眼睛颜色、所穿衣服的颜色、某一个人的鼻子形状、以及其他特征。这些特征被提供给用于脸部识别的数学模型，并且该数学模型被配置成以特定概率来输出图像中的脸部对应于特定人。尽管利用脸部识别应用来帮助自动对照片加标签在提高对图像加标签的效率方面是有益的，但脸部识别应用的准确性可能不尽如人意。

概述

以下是在本文更详细描述的主题的简要概述。本概述不旨在是关于权利要求的范围的限制。

本文描述了与通过使用一种稳健的框架来向图像自动及半自动分配标签有关的各种技术。本文描述的框架包括多个域的模型和所习得的这些域之间的关系模型。在一示例中，该框架可包括语义层和特征层。语义层可包括多个域的模型。例如，这些域可包括表示可被包括在某一图像集合中的人的人域、表示与图像相对应的一个或多个事件的事件域、以及表示与图像相对应的位置的位置域。每一图像可具有对应于域的一个或多个元素。例如，一图像可包括三个不同的个人，其中这些个人中的每一个都可以是人域中的元素。在另一示例中，该图像可对应于某一事件，其中该事件可以是事件域中的元素。类似地，该图像可与特定位置有关，其中该特定位置可以是位置域中的元素。

图像中的每一元素可具有与之相关联的合乎需要地推断出的标记。例如，该图像可包括多个个人，并且推断出这些个人中的每一个的名字可能是合乎需要的。在另一示例中，该图像可与特定事件有关，并且推断出这一事件的名称可能是合乎需要的。在对图像中的元素的标记进行推断方面，可使用来自补充源的信息。

第一源可以是某一图像集合中的各图像中的观察到的特征。例如，某一图像中的每一元素可由一个或多个观察到的特征来表征。例如，一个人可以由他或她的相貌和衣着来描述。类似地，对应于数字图像的时间戳可被用来表征该数字图像中捕捉的事件。在另一示例中，某一图像中观察到的活动可被用来表征事件。此外，GPS标签可以提供与捕捉该图像的位置有关的信息。在另一示例中，自动背景场景分析可被用来表征位置（例如，色彩签名可以表征位置）。

用来推断元素的标记的第二补充源可以是跨域上下文（例如，某一域中的某一元素的标记如何影响其他域中的元素标记）。具体而言，元素共同出现在某一图像中可构成语义上下文。由于习得的共同出现元素之间的关系，这些语义上下文可传达与要如何对元素进行标记有关的信息。因此，该框架在对图像中的不同域中的元素的标记进行推断方面利用该语义上下文。例如，该框架可被配置成考虑以下各项之间的关系：哪些人参加了哪个事件、哪些人往往处于同一图像中、哪个事件发生在哪个位置、以及哪些人处于特定位置。因而，该框架可包括关于特定域的多个概率模型，其中这些概率模型被用来推断元素在特定域中的标记。这些概率模型可利用从图像中提取的特征来作出这些推断，并且还可利用跨域所习得的元素之间的关系。

在操作中，可向该框架提供某一数字图像集合。此后，可从这些图像中提取特征，包括脸部特征、在数字图像中捕捉到的个人所穿的衣服的特征、对应于数字图像的时间戳、与数字图像中捕捉的背景场景有关的数据，等等。可邀请用户对与该数字图像集合中的图像相对应的一小组人、事件、以及位置手动地加标记。至少部分地基于所提取的特征和用户所提供的标记，可以至少部分基于用户所提供的标记和由概率模型为元素推断出的标记来按迭代的方式学习域之间的关系模型。

在阅读并理解了附图和描述后，将明白其他方面。

附图简述

图1是便于向一图像集合自动分配标记的示例系统的功能框图。

图2是示出多个语义模型和所习得的它们之间的关系模型的功能框图。

图3是不同的域的各元素之间的关系的示例描绘。

图4是示例关系表。

图5是在向图像分配标记方面可使用的示例图形用户界面。

图6是示出用于向图像自动分配标记的示例方法的流程图。

图7是示出用于向至少一个图像分配至少一个标记的示例方法的流程图。

图8是示例计算系统。

详细描述

现在将参考附图来描述关于向数字图像自动分配一个或多个标记的各种技术，在全部附图中相同的附图标记表示相同的元素。另外，本文出于解释的目的示出并描述了各示例系统的若干功能框图；然而要理解，被描述为由特定系统组件执行的功能可以由多个组件来执行。类似地，例如，一组件可被配置成执行被描述为由多个组件执行的功能。

参考图1，示出了便于向一图像集合中的至少一个图像自动或半自动分配一个或多个标记的示例系统100。系统100包括数据存储102，它可以是硬盘驱动器、存储器、便携式闪存驱动器、CD、DVD、或其他合适的计算机实现的数据存储。数据存储102包括图像104的集合、分配给这些图像104的多个标记106、以及标记跨图像104的子集的共同出现。如在下文中更详细地描述的，标记106的第一子集可由一个或多个用户分配给图像104的某一子集，且标记106的第二子集可通过机器学习和推断来自动分配给图像104的某一子集。

界面组件110可以访问数据存储102并检索图像104的子集以呈现给用户112。根据一示例，界面组件106可使得图形用户界面被生成并在计算设备的显示屏上显示给用户112，其中该图形用户界面便于从用户接收一图像或一系列图像的标记。界面组件110可以接收由用户分配给图像的标记，并且可使得这些标记与适当的图像相对应地被存储。例如，用户可a)向某一图像分配指示该图像中的一个或多个人的身份的第一标记；b)向某一图像分配指示对应于该图像的事件的第二标记；和/或c)向某一图像分配指示对应于该图像的位置的第三标记。界面组件110可被配置成向用户指示就一个或多个图像而言要分配多少标记。

用户112分配给图像104的子集的这些标记可被用于该系统中，以自动学习域之间的关系并自动推断分配给图像的标记。如本文所使用的，“域”可指某一类型的标记：例如，第一类型的标记可以是人的身份，第二类型的标记可以是对应于图像的事件，而第三类型的标记可以是对应于图像的位置。因而，界面组件110能以交互式的方式来操作，请求用户112向某些图像分配标记并向用户112提供与图像的标记有关的、用户112可以确认的猜测。这一交互性可以使得对图像的自动加标记能以更加用户友好且高效的方式来发生。

提取器组件114能访问数据存储102中的图像104，并且能从图像104中的一个或多个中提取一个或多个特征。可由提取器组件114提取的特征可包括与图像104中的人的身份相对应的特征、关于图像104所发生的事件、和/或关于图像104的位置。例如，提取器组件114可被配置成识别图像中存在的一个或多个脸部并可提取关于这些脸部的特征，包括例如眼睛颜色、一个或多个脸部特征的形状、发色，等等。另外，提取器组件114可被配置成提取与某些个人所穿的衣服有关的数据。此外，提取器组件114可以提取与对应于图像中的一个或多个图像的事件有关的数据，如图像的时间戳、图像中标识的活动（例如，某一个人正在奔跑或跳跃）等等。此外，提取器组件114可被配置成提取与对应于图像的位置有关的数据。例如，配备有GPS功能的数码相机可将地理坐标嵌入图像中，提取器组件114可被配置成从图像中提取这些坐标。在另一示例中，提取器组件114可被配置成生成与图像的背景场景有关的色彩签名或可指示关于图像的位置的其他特征。

系统100还包括可访问数据存储102并从中检索标记106和共同出现108的访问器组件116。共同出现指示图像具有对应于第一域的第一标记以及对应于第二域的第二标记。在一示例中，共同出现108可包括指示以下信息的数据：某一图像包括标识第一人的标记并包括该图像对应于第一事件的另一标记。因而，第一人和第一事件是该图像中的共同出现。这些共同出现108可以从由用户112分配给图像的标记中以及自动分配给数据存储102中的图像的标记中获得。

系统100还包括被配置成对某些域以及不同域的元素之间的关系进行建模的多个计算机实现的模型118。具体而言，多个模型118包括被配置成对两个不同的域进行建模的两个模型120-122。例如，模型120-122可以是隐马尔科夫模型、贝叶斯网络、分类器集合、或其他合适的模型。多个模型120-122可对应于任何合适的多个域。在一示例中，第一模型120可对应于人域而第二模型122可对应于事件域，使得第一模型120被配置成输出在图像中捕捉到的人的标记而第二模型122被配置成输出关于图像的事件的标记。对于任何图像，人域可具有例如多个元素（图像中捕捉的人）和这些元素的多个类（不同的可能标记）。在人域示例中，图像中的元素可以是人并且分类可以是这个人的名字。在事件域中，对于特定图像，元素可以是对应于该图像的事件，而类可以是该事件的可能标记（生日宴会、圣诞宴会、家庭团圆）。因而，至少部分基于由用户112分配给图像的子集的标记和特征提取器组件114所提取的特征，模型120和122可各自被配置成输出图像104中的元素的标记的概率推断，其中来自第一模型120的概率推断对应于第一域中的元素而来自第二模型122的概率推断对应于第二域中的元素。

多个模型118还包括对由模型120和122建模的域的各元素之间的关系进行建模的关系模型124。例如，第一模型120可以对人域进行建模，而第二模型122可以对事件域进行建模。在这一示例中，关系模型124可以指示哪些人可能参加关于图像的哪些事件（并还可指示在已知图像中的人的身份时在该图像中哪些事件可能被捕捉）。在一示例中，关系模型124可以是关系表的形式，其中该表的各值指示不同域的元素在一图像中彼此相对应的似然性。

可以用由访问器组件116访问的数据和由提取器组件114提取的特征来配置模型120和122以及关系模型124。具体而言，第一模型120和第二模型122可以接收数据存储102中的标记106、由提取器组件114从图像104中提取的特征、以及关系模型124的当前状态。在初始阶段，关系模型124的状态可以是某一常数（例如，0）。

推断组件126可以分析模型120和122的状态，并且可输出至少部分基于模型120和122的状态来为图像104中的元素推断出的标记。在一示例中，推断组件126可以输出概率推断。例如，推断组件126可以输出图像中的元素的标记连同该标记正确的概率的某一指示。这样的推断（连同相关联的概率）可与标记106一起被保留在数据存储102中，并且可至少部分基于这些标记（由用户112分配给图像的标记和推断组件126所输出的推断出的标记）来更新共同出现108。

系统100还可包括可被用来估计/学习关系模型124（例如，学习关系表的各值）的学习组件128。在一示例中，学习组件128可以接收来自数据存储102的标记106和共同出现108，并可基于这些标记106和共同出现108来估计/学习关系模型124。如上所示，由关系模型124表示的所习得的关系可被用来配置模型120和122，并且可至少部分基于所习得的关系来推断图像的标记。可至少部分基于推断出的标记来更新所习得的关系。这一过程可以迭代，直至以阈值概率推断出标记或对应于标记的概率收敛为止。

标记分配器组件130可以接收推断组件126所输出的推断，并且可至少部分基于这些推断来向数据存储102中的图像104的子集自动分配标记。在另一示例中，标记分配器组件130可在从用户112接收到标记正确的指示时向图像分配标记。例如，标记分配器组件118可从推断组件126接收关于图像中的某一元素的特定标记，其中该特定标记具有相对应的某一概率。标记分配器组件130可将这一概率与预定义阈值相比较，并且如果该概率高于阈值，则标记分配器组件130可以用推断组件126所输出的该标记来对元素加标记。如果该概率低于阈值，则标记分配器组件130可以与推断组件110进行通信，并且可通知推断组件110图像中的特定元素不能用该标记正确的足够高的概率来加标记。推断组件110随后可请求用户112向所标识的元素分配标记。

现在将提供关于提取器组件114的更多细节。如上所示，提取器组件114可被配置成从图像104提取特征。提取器组件114可以将所提取的特征之间的距离转换成表示特征之间的相似性的核心值。这可通过利用以下算法来进行：

在d(x₁，x₂)和k(x₁，x₂)分别是特征x₁和x₂之间的以核心值为单位的距离。可分别通过交叉确认来为不同类型的特征设置核心参数σ。如果提取器组件114所提取的特征是时间戳，则在各时间戳处于同一时间单位内时核心值可被设置成1，否则为0。可基于应用来设置时间单位。例如，时间单位可以是一天、一小时、一星期，等等。

现在，将关于生成包括域的模型以及关系模型的概率框架来提供更多细节。可以假定，存在M个域，并且第Y个域可由Y_u表示。Y_u中的元素和不同标记的数量可分别由N_u和K_u表示。Y_u中每一元素的标记可由随机变量y_u:i来建模，y_u:i可取值{1，...,K_u}，其中i是元素Y_u的下标。对应于元素y_u:i的特征可由x_u:i表示。此外，可假定，如果两个不同元素（不同域或同一域中）与同一图像相关联，则它们共同出现。元素在域Y_u和Y_v中的共同出现可由通过以下算法定义的指示符函数co_uv和co_vu来捕捉：

R_uv可表示域Y_U和Y_v（例如，由模型120和122所建模的域）之间的关系模型（例如，关系模型124），它可由大小为K_u×K_v的矩阵来参数化。条目R_uv(k，l)可以是域Y_u的类k与Y_v的类l之间的耦合系数。较大值的耦合系数可以指示对应类的元素与同一图像相关联的较高概率。

图册中各元素的标记可被认为是一个整体，并且可通过经由一系列潜在项来实施元素之间的统计相关性来用公式表示联合分布。联合概率分布的对数如下：

\log p (Y_{*} | X_{*}; R_{*}) = Σ_{u = 1}^{M} α_{u} Φ_{u} (Y_{u} | X_{u}) + Σ_{(u, v) : u &LeftRightArrow; v} α_{uv} Φ_{uv} (Y_{u}, Y_{v} | R_{uv} -

\log ZX *; R * - - - (2)

在此，Y_*、X_*和R_*分别表示标记、特征、和关系模型，而Y_u、X_u表示域Y_u的标记和特征。α_u和α_uv是可控制不同项在等式(2)中的贡献的正权重。

项Φ_u可被称为亲和势，它捕捉域Y_u中的元素之间的基于特征的亲和力。亲和势可被如下定义：

在此，w_u(i，j)是y_u，i和y_u，j之间基于特征的亲和力，它可被设为对应特征x_u，i和x_u，j之间的相似性值。

是指示符，其中在标记y_u，i和y_u，j基本相似时，

等于1，且其他情况下等于0。δ_k也是指示符，它由

来定义。亲和势Φ_u可以反映具有相似特征的元素可能处于同一类中的基本原理。

项Φ_uv可被称为关系势，它可捕捉域Y_u和YY_v之间的上下文关系。关系势可由以下算法给出：

Φ_{uv} (Y_{u}, Y_{v} | R_{uv}) = Σ_{i = 1}^{N_{u}} Σ_{j = 1}^{N_{v}} {co}_{uv} (i, j) φ_{uv} (y_{u : i}, y_{v : j}), - - - (4)

其中共同出现势Φ_uv可由以下算法给出：

Φ_{uv} (y_{u : i}, y_{v : j}) = Σ_{k = 1}^{K_{u}} Σ_{l = 1}^{K_{v}} R_{uv} (k, l) δ_{k} (y_{u : i}) δ_{l} (y_{v : j}) . - - - (5)

从等式(4)中可以看出，关系势是Y_u和Y_v之间所有共同出现对的势的总和。在元素被分配了具有高耦合系数的一对标记时，可获得高共同出现势Φ_uv(y_u:i，y_v:j)。因此，Φ_uv可被理解成标记分配对于关系模型117的遵从性。尽管在向图像加标签的上下文中描述了模型120和122以及关系模型124，将理解，利用关系模型来改进概率模型的输出可被应用于其他上下文。

上述公式隐式地假定同一类中的元素往往具有相似特征。尽管这对于诸如相貌等固有特征是合理的，但在以基本相似的方式来处理某些其他特征的情况下，它可能误导。例如，人在参与不同事件时可能穿不同的衣服。条件特征可被用来对这些情况进行建模。例如，只有当确定检测到的两个人在同一事件时（例如，通过模型114来确定在同一事件），才比较他们的衣服。因而，基于衣服特征的亲和势可如下定义：

在该示例中，Y_P和X_C分别表示人和衣服特征的标记，w_C(i，j)是第i和第j个人的衣服之间的相似性。e_i和e_j是与捕捉到这两个人的图像相关联的事件的标记。等式(6)和(3)之间的主要差别是等式(6)中包括因子

该因子可担当例如在跨事件来比较特征时将这些特征关闭的开关。

此外，一些特征实际上可能是不可用的。例如，由于遮挡而失去了脸部特征，或在图像传送和处理期间丢失了时间戳。在这种情况下，当第i或第j元素的对应特征不可用时，w(i，j)可被设为0。

现在将参考关系模型124来提供更多细节。关系模型124可能是事先未知的，并且可从用户给出的标记（标签）以及来自模型120和122的推断出的标记中习得。由于用户加标记的训练集合可能相对小，所以可以利用适当的正则化。例如，由于推断而错误发生的偶然共同出现可能导致不稳定或甚至虚假关系，这在被用于推断时可能误导。因而，关系模型124可只包括被事件的重复共同出现所充分证实的关系。共同出现元素之间的稀疏关系可通过实施稀疏性约束来过滤，这可例如通过结合L1正则化来完成。此外，在许多图像集合中，各个类的大小可能是不平衡的。例如，一些家庭成员可能出现多次，这可造成耦合系数的高度不均的值。结果，相对小的类中的许多元素可能被分类到大的类中。为了平衡系数，可以应用L2正则化。通过组合使用L1和L2正则化，关系模型124的先验模型可以如下：

其中||R||₁和||R||₂分别是耦合系数矩阵的L1和L2范数。

现在将提供关于推断组件126和学习组件128的更多细节。给定图像集合104以及用户112经由推断组件110提供的初始标记，学习组件128可以通过例如最大后验估计来学习关系模型124。在一示例中，就关系模型124而言可最大化以下对象：

J_{o} (R) = \log p (Y_{L} | X; R) + \log p (R) = \log Σ_{Y_{u}} p (Y_{L}, Y_{U} | X; R) + \log p (R) - - - (8)

在此，Y_L和Y_U可分别表示用户所标记的元素的标记和未标记元素的标记。推断组件126可以至少部分基于充分优化的R来推断Y_U的分布。系统100（学习组件128和推断组件126）的学习和推断阶段都可以利用多环概率网络上的Y_L的边际化，这在计算上是难以处理的。

这一计算上的难以处理性可通过采用变分方法来解决。例如，并非直接将J_o(R)最大化，学习组件128可以改为如下将变量下限最大化：

J (R, q) = Σ_{Y_{U}} q (Y_{U}) \log p (Y_{L}, Y_{U} | X; R) - Σ_{Y_{U}} q (Y_{U}) \log q (Y_{U}) -

\log Z (X; R) + \log p (R), - - - (9)

其中q是Y_U的分布。此外，可得到下式：

J (R, q) \leq J_{0} (R), &ForAll; q, - - - (10)

并且在q(Y_U)等于Y_U的后验（例如，p(Y_L，Y_U|X；R)）时，等式成立。因而，通过将变分目标J(R，q)充分最大化，学习组件128可以学习关系模型124并且推断组件126可以基本上同时推断出标记的后验分布。在一示例中，这可以经由坐标上升（coordinate ascent）策略来学习，这可如下迭代地更新R和q：

{\hat{q}}^{(t + 1)} = \arg \max_{q} J ({\hat{R}}^{(t)}, q) - - - (11)

{\hat{R}}^{(t + 1)} = \arg \max_{R} J (R, {\hat{q}}^{(t + 1)}) - - - (12)

这两个公式分别对应于标记推断（如推断组件126所进行的）和如学习组件128所进行的关系学习。因为这两个公式都对同一目标进行优化，所以可以保证收敛。

现在将描述与在输出对标记的推断方面使用的模型120或122中的一个或多个有关的更多细节。模型120和/或122可以通过将q约束成如下因式分解的分布来使得上述计算易于处理：

q (Y_{U}) = Π_{u = 1}^{M} q_{u} (Y_{u : U}) = Π_{u = 1}^{M} Π_{i &Element; U_{u}} q_{u : i (y_{u : i})}, - - - (13)

其中Y_u:U和U_u分别表示所有未标记元素的标记变量和索引。使用这样的因式分解的近似，对每一元素而言，可以在其他元素固定的情况下迭代地更新q_u:i。更新公式可如下导出：

{\hat{q}}_{u : i} (k) = \frac{\exp (ψ_{u : i} (k))}{Σ_{k^{'} = 1}^{K_{u}} \exp (ψ_{u : i} (k^{'}))}, - - - (14)

其中ψ_u:i(k)可被理解成将标记k分配给Y_u中的第i元素的权重，并且q_u:i(k)可以是ψ_u:i(k)的归一化指数。ψ_u:i(k)的值可以如下：

ψ_{u : i} (k) = α_{u} ψ_{u : i}^{(u)} (k) + Σ_{v = 1}^{M} α_{uv} ψ_{u : i}^{(v &RightArrow; u)} (k), - - - (15)

其中

可如下给出：

ψ_{u : i}^{(u)} (k) = Σ_{j = 1}^{N_{u}} w_{u} (i, j) q_{u : j} (k) - - - (16)

该项捕捉来自具有相似特征的元素的信息，并且将同一域中的其他元素的标记分布进行组合并根据特征亲和性来对它们的贡献进行加权。

对于上述条件特征，权重w_u(i，j)可以被修改成

换言之，可通过亲和性权重与基本上相似的事件相关联的概率来调制这些亲和性权重。如果存在被用来表征该域中的元素的多个特征，则亲和性权重可相加在一起。

项(k)可表示从域Y_v到Y_u的消息，它可由下式给出：

ψ_{u : i}^{(v &RightArrow; u)} (k) = Σ_{j = 1}^{N_{v}} {co}_{uv} (i, j) Σ_{l = 1}^{K_{v}} R (k, l) q_{v : j} (l) - - - (17)

这一公式可以如下被描述：该公式首先挑选出域Y_v中共同出现的元素（通过co_uv(i，j)），并随后检索它们的标记（由l表示）。将元素分配到类k的权重可由其与共同出现标记的耦合系数（由R(k，l)给出）来确定。该公式仅仅是这样的推理过程的概率版本。

现在提供关于关系模型124的附加细节。根据等式(12)，给定推断出的后验q，学习组件128可以通过最大化以下目标函数来学习关系模型124：

E_q{logp(Y_L，Y_U|X；R)}-logZ(X；R)+logp(R)(18)

在对这一问题求解时，面对了以下困难：对数分拆函数logZ(X；R)的计算是难以处理的。因为概率公式化是在指数族中，所以对数分拆函数logZ(X；R)的上限可以使用重置权重树近似（tree reweighted approximation）来导出。即，原始模型可被分成较简单子模型的凸组合，并且这些子模型的对数分拆函数的相应凸组合构成了原始对数分拆函数的上限。

更详细而言，概率网络可被分成域内亲和图和跨域关系图的凸组合。结果，logZ(X；R)的上限可如下获得：

Σ_{u = 1}^{M} θ_{u} A_{u} = Σ_{u &LeftRightArrow; v} θ_{uv} B_{uv} (R_{uv} / θ_{uv}) - - - (19)

在此，A_u是与域Y_U的域内亲和图相对应的对数分拆函数，它不依赖于关系模型。B_uv是与域Y_u和Y_v之间的跨域关系图相对应的对数分拆函数，它是R_uv的函数。θ_u和θ_uv是凸组合系数，它们满足

在一示例中，θ_u可被设为0，且

个关系。

如果共同出现图是稀疏的，则这样的图可以如下被近似：

B_{uv} (R) = Σ_{i = 1}^{N_{u}} Σ_{j = 1}^{N_{v}} {co}_{uv} (i, j) Σ_{k = 1}^{K_{u}} Σ_{l = 1}^{K_{v}} \exp (R_{uv} (k, l)) - - - (20)

B_uv(R)的复杂度是O(m_u，K_u，K_v)，其中m_u是Y_u和Y_v之间的共同出现对的数量。

用等式(19)中给出的logZ(X；R)的上限来替换logZ(X；R)造成了要将原始目标的凹下限最大化的变分学习问题。在该问题中，对每一关系模型的学习是分开的。具体而言，可通过将以下目标最大化来求解R_uv：

E_q{Φ_uv(Y_u，Y_v|R_uv)}-θ_uvB(R/θ_uv)+logp(R_uv),(21)

其中

E_{q} {Φ_{uv} (Y_{u}, Y_{v} | R_{uv})} =

Σ_{i = 1}^{N_{u}} Σ_{j = 1}^{N_{v}} {co}_{uv} (i, j) Σ_{k = 1}^{K_{u}} Σ_{l = 1}^{K_{v}} R (k, l) q_{u : i} (k) q_{v : j} (l) - - - (22)

在一示例中，可使用L-BFGS算法来求解这一问题。因为目标函数是凹的，所以保证了全局最大值。

总而言之，图1中描述的框架包括多个概率模型，这些概率模型中的至少两个被配置成对域进行建模，其中在推断某一域的元素的标记方面可使用每一模型。在使用概率模型来推断要分配给元素的标记时，可以学习提供跨域上下文的关系模型。这些概率模型可被配置成在执行推断方面利用跨域上下文，并且通过利用这些模型所生成的推断可被用来学习关系模型。这一框架可被用于各种设置。上述示例设置包括利用该框架来向图像分配标记（标签）。

现在参考图2，示出了可在对图像中的元素自动加标记方面使用的示例框架200。框架200包括关于事件域的第一概率模型202。即，在概率上推断对应于图像的事件方面使用第一概率模型202。框架200还包括关于人域的第二概率模型204（例如，在概率上推断图像集合中的图像中所捕捉的人的身份方面使用第二概率模型204）。框架200还包括关于位置域的第三概率模型206。具体而言，在概率上推断对应于图像集合中的图像的位置方面使用第三概率模型206。

位置/事件关系模型208被配置成对事件域和位置域中的元素之间的关系进行建模。例如，位置/事件关系模型208可被用来对事件与位置之间的关系进行建模（例如，假定图像对应于第一事件，那么该图像对应于特定位置的概率是多少？）。人/位置关系模型210可对人域中的元素与位置域中的元素之间的关系进行建模。例如，人/位置模型210可被用来指示特定人将出现在特定位置的概率（且反之亦然）。

事件/人关系模型212可被用来对事件域中的元素与人域中的元素之间的关系进行建模。例如，事件/人关系模型212可指示特定人可能参加特定事件（在图像集合中的图像中捕捉到的）的概率和/或特定事件可能包括特定一组人的概率。人/人关系模型214可对人域中的元素之间的关系进行建模。例如，人/人关系模型214可被用来指示特定人将一起出现在图像中的概率。例如，如果人X出现在图像中，则人Y有确实的概率也出现在该图像中。

关系模型208-214可以是关系表的形式，其内容可如上所述地习得。此外，要注意，人/人关系模型214对同一域中的元素之间的关系进行建模。分开的域的元素之间的这些所习得的关系（由关系模型208-214来表示）可被用来精制就分配给关于模型202-206的域的元素的标记而言通过利用模型202-206生成的推断。另外，通过利用模型202-206所生成的推断可被用来精制关系模型208-214。

现在参考图3，示出了分开的域的元素之间的关系的示例描绘300。在该示例中，示出了人域302中的元素和事件域304中的元素之间的关系。人域302包括四个人（元素）306、308、310、和312。这四个人中的每一个可出现在图像集合中的希望被分配标记/标签的图像中。具体而言，任何图像可包括人306-312中的一个或多个。

事件域304被示为包括两个事件（元素）314和316。因而，图像集合中的图像可关于事件314或316之一。如上所示，时间戳318可以是事件域304中的事件的特征，并且脸部特征320和衣着特征322可以是人域302中表示的人的特征。

如可查明的，存在着人域302和事件域304中的元素的共同出现。具体而言，如果第一事件314被检测到出现在某一图像中，发现第一人306和第二人308与第一事件314共同出现。类似地，第三人310和第四人312与第二事件316共同出现。因此，如果在图像中检测到第三人310，则存在着该图像对应于第二事件316的确实概率。

现在参考图4，描绘了表示不同域中的元素的共同出现的似然性的指示的示例关系表。关系表400描绘了在图3中图形地描绘的关系。具体而言，如果在图像中检测到第一人，关系表中的值（0.9）指示存在着该图像对应于第一事件的某一确实的似然性（例如，越高的数据值指示共同出现的越高似然性）。在另一示例中，如果在图像中检测到第三人，则关系表中的值（0）指示存在着第一事件对应于该图像的一不同似然性。

现在参考图5，示出了可结合上述框架使用的示例图形用户界面500。图形用户界面500包括显示来自图像集合的一个或多个图像的第一区502。第二区504可被用来接收来自用户的与对应于第一区502中示出的图像中的元素的标记有关的信息。例如，用户可以利用第二区504来输入关于第一区502中示出的至少一个图像中的人、对应于第一区502中示出的至少一个图像的事件、和/或对应于第一区502中示出的至少一个图像的位置的标记。图形用户界面500还可包括可被用户选择来向对应于图像的元素加标记的多个图形图标506。例如，图形图标506可以是对应于用户的联系人的图标，其中选择图标之一造成图像被标记为包括对应于所选图标的联系人。第三区508可包括对用户的关于该用户要如何对第一区502中示出的图像中的元素加标记以充分优化上述框架的性能的指示。例如，这些指示可包括用于对特定数量的人加标记的指示、请求用户对希望被自动加标记的每一个人加标记的指示、以及其他指示。此外，这些指示可包括与该框架所生成的标记的概率有关的信息。例如，第三区508可包括指示出某一实体已被以特定概率加了标记但需要来自用户的确认的文本。

现在参考图6-7，示出并描述了各示例方法。尽管各方法被描述为顺序地执行的一系列动作，但可以理解，这些方法不受该顺序的次序的限制。例如，一些动作能以与本文描述的不同的次序发生。另外，动作可以与另一动作同时发生。此外，在一些情况下，实现本文描述的方法并不需要所有动作。

此外，本文描述的动作可以是可由一个或多个处理器实现的和/或存储在一个或多个计算机可读介质上的计算机可执行指令。计算机可执行指令可包括例程、子例程、程序、执行线程等。另外，这些方法的动作的结果可以存储在计算机可读介质中、显示在显示设备上，等等。

现在参考图6，示出了便于向数字图像自动分配标记的方法600。方法600开始于602，并且在604接收数字图像。例如，可以从诸如CD、DVD、硬盘驱动器、计算设备的存储器、闪存驱动器等计算机可读媒质或介质接收数字图像。

在606，至少部分基于所习得的跨域关系来向数字图像自动分配标记。具体而言，至少部分基于关于标记对应于数字图像中的元素的计算得到的概率来分配该标记。可通过利用被配置成推断多个相应域（如人域、事件域、以及位置域）中的元素的标记的多个计算机实现的模型来计算概率。该概率还可通过利用对不同域的元素之间的关系（跨域上下文）进行建模的至少一个关系模型来计算。如上所示，各个域的计算机实现的模型中的每一个可被配置成计算与各个域中的每一个对应的元素的至少一个标记的概率。

现在参考图7，示出了用于向各域中的元素自动分配标记的示例方法700。方法700始于702，并且在704，接收一组标记，其中这些标记被用户分配给数字图像集合中的数字图像。例如，用户可以标识图像中的人、对应于图像的事件、和/或对应于图像的位置。

在706，从数字图像的集合中的至少一个数字图像提取一个或多个特征。所提取的特征可以例如是图像中的个人的脸部特征、关于图像中的个人所穿衣服的数据、分配给图像的时间戳、分配给图像的位置数据、图像的背景场景数据，等等。

在708，学习关系模型，其中该关系模型被配置成对不同域中的元素之间的关系进行建模。例如，该关系模型可以是指示不同域中的元素在任何特定图像中的共同出现的概率的关系表。

在710，至少部分基于在704用户所分配的标记、在706提取的至少一个特征、以及跨域的元素之间的至少一个习得的关系来推断至少一个域中的元素的标记。在712，根据该推断向至少一个数字图像分配至少一个标记。任选地，在向数字图像分配标记之前，用户可以确认该标记是正确的（或不正确的），并可使得关系模型基于这一输入而被精制。方法700在714完成。

现在参考图8，示出了可以根据本文公开的系统和方法使用的示例计算设备800的高级图示。例如，计算设备800可在支持对数字图像中的各元素自动加标记的系统中使用。在另一示例中，计算设备800的至少一部分可以用在支持从数字图像中自动提取特征的系统中。计算设备800包括执行存储在存储器804中的指令的至少一个处理器802。这些指令可以是例如用于实现被描述为由上述一个或多个组件执行的功能的指令或用于实现上述方法中的一个或多个方法的指令。处理器802可以通过系统总线806访问存储器804。除了存储可执行指令，存储器804还可存储关系模型、概率模型、数字图像等等。

计算设备800还包括可由处理器802通过系统总线806访问的数据存储808。数据存储808可以包括可执行指令、所习得的模型、数字图像等等。计算设备800还包括允许外部设备与计算设备800进行通信的输入接口810。例如，可以使用输入接口810来从外部计算机设备、从个人等接收指令。计算设备800还包括将计算设备800与一个或多个外部设备进行接口的输出接口812。例如，计算设备800可以通过输出接口812显示文本、图像等。

另外，尽管被示为单个系统，但可以理解，计算设备800可以是分布式系统。因此，例如，若干设备可以通过网络连接进行通信并且可共同执行被描述为由计算设备800执行的任务。

如此处所使用的，术语“组件”和“系统”旨在涵盖硬件、软件、或硬件和软件的组合。因此，例如，系统或组件可以是进程、在处理器上执行的进程、或处理器。此外，系统或组件可以是一系列晶体管或计算机存储器的一部分。另外，组件或系统可以位于单个设备上或分布在若干设备之间。

注意，出于解释目的提供了若干示例。这些示例不应被解释为限制所附权利要求书。另外，可以认识到，本文提供的示例可被完全改变而仍然落入权利要求的范围内。

Claims

1.一种方法，包括以下计算机可执行的动作：

接收数字图像，其中所述数字图像包括对应于第一域的第一元素和对应于第二域的第二元素；以及

至少部分基于一标记对应于所述数字图像中的所述第一元素的计算得到的概率来向该第一元素自动分配该标记，其中所述概率是通过利用被配置成推断所述第一域中的元素的标记的第一模型和被配置成推断所述第二域中的元素的标记的第二模型来计算得到的，其中所述第一模型接收标识所述第一域中的元素与所述第二域中的元素之间的所习得的关系的数据，并且其中所述概率是至少部分基于所习得的关系通过所述第一模型计算得到的。

2.如权利要求1所述的方法，其特征在于，还包括从所述数字图像提取特征，其中所述概率是至少部分基于所述特征来计算得到的。

3.如权利要求2所述的方法，其特征在于，所述特征是所述第一域中的元素的特征，其中所述特征被所述第一模型用来计算所述概率。

4.如权利要求2所述的方法，其特征在于，所述特征是所述第二域中的元素的特征，其中所述特征被所述第二模型用来计算所述第二元素要被分配第二标记的第二概率，并且其中所述第一域中的元素与所述第二域中的元素之间的所习得的关系是至少部分基于所述第二概率来计算得到的。

5.如权利要求2所述的方法，其特征在于，所述特征是以下之一：所述数字图像中的个人所穿的衣服、所述数字图像的色彩签名、分配给所述数字图像的时间戳、或分配给所述数字图像的位置数据。

6.如权利要求1所述的方法，其特征在于，所述第一模型被配置成在概率上推断人域、位置域、或事件域之一中的元素的标记方面被使用，并且所述第二模型被配置成在概率上推断所述人域、所述位置域、所述事件域之一中的元素的标记方面被使用。

7.如权利要求1所述的方法，其特征在于，所述标记标识以下各项之一：所述数字图像中的个人、对应于所述数字图像的事件、或关于所述数字图像的位置。

8.如权利要求1所述的方法，其特征在于，所习得的关系是通过最大化后验估计的方式来学习的。

9.如权利要求1所述的方法，其特征在于，还包括：

接收多个数字图像；以及

向所述多个图像中的每一图像自动分配标签。

10.一种系统，包括以下计算机可执行组件：

接收数字图像并从所述数字图像提取至少一个特征的提取器组件；以及

向所述数字图像中的元素自动分配标记的标记分配器组件，其中所述元素对应于第一域，并且其中所述标记分配器组件至少部分基于所述第一域中的元素与第二域中的元素之间的所习得的上下文关系来向所述数字图像分配所述标记。

11.如权利要求10所述的系统，其特征在于，所述第一域是以下之一：人域、事件域、或位置域，并且其中所述第二域是以下之一：人域、事件域、或位置域。

12.如权利要求10所述的系统，其特征在于，所述标记分配器组件至少部分基于所述第一域中的元素之间的所习得的关系来向所述数字图像中的元素自动分配所述标记。

13.如权利要求10所述的系统，其特征在于，所习得的关系包括不同域中的元素共同出现在所述数字图像中的概率。

14.如权利要求13所述的系统，其特征在于，还包括提供图形用户界面的界面组件，所述图形用户界面被配置成从人类接收与分配给多个数字图像中的元素的标记有关的输入。

15.如权利要求14所述的系统，其特征在于，所述界面组件被配置成接收确认分配给所述元素的标记正确的用户输入。