CN102414680A

CN102414680A - 利用跨域知识的语义事件检测

Info

Publication number: CN102414680A
Application number: CN2010800128804A
Authority: CN
Inventors: A·C·路易; W·江
Original assignee: Eastman Kodak Co
Current assignee: Mau new gate Venture Capital Co., Ltd.
Priority date: 2009-03-20
Filing date: 2010-03-09
Publication date: 2012-04-11
Anticipated expiration: 2030-03-09
Also published as: US8213725B2; US20090299999A1; CN108090232A; CN102414680B; EP2409250A1; WO2010107471A1

Abstract

本发明涉及一种利于对与事件相关的一组图像记录进行语义事件分类的方法。该方法利用事件检测器系统提供：从每个图像记录中提取多个视觉特征；其中，所述视觉特征包括将图像记录分割成许多区域，在所述许多区域中提取所述视觉特征；利用所述视觉特征为每个图像记录生成多个概念评分，其中每个概念评分对应于视觉概念，并且每个概念评分表示图像记录包括视觉概念的概率；基于所述图像记录的概念评分生成对应于事件的特征向量；和提供所述特征向量给事件分类器，该事件分类器识别对应于所述事件的至少一个语义事件分类器。

Description

利用跨域知识的语义事件检测

技术领域

本发明涉及分类数字内容记录，例如数字静止图像或视频。具体地，本发明涉及基于语义事件(semantic event)检测对数字内容记录的分类。

背景技术

低成本的电子消费品成像技术的出现已经导致由普通用户捕获的数字图像数显著增加。事实上，随着时间的推移各种形式的电子存储器已经越来越便宜，用户已经倾向于拍摄更多的数字静止图像和视频，并且保留他们之前会丢弃的数字静止图像和视频。因此，普通用户面临着为了存储和稍后检索而适当地识别和分类数字图像的逐渐增加的难题。一般地，这种识别和分类通常是手动执行的，对用户而言这是极其耗时的过程。

仅仅作为一个示例，用户可以在假期期间去许多不同的地点旅游。用户可以在每个具体地点拍摄图像，并且在与其他主题类别或事件相关的每个地点拍摄图像。例如，用户可以在每个地点拍摄家庭成员图像、在每个地点拍摄具体事件图像并且在每个地点拍摄历史建筑图像。一旦从旅途返回，用户可以期望基于诸如人物、生日、博物馆等的各种分组整理数字图像，并基于分组将数字图像存储在电子相册中。目前用户面临着手动整理数百张数字静止图像和视频片段，为的是通过具体事件识别图像和视频。

考虑到以上问题，近年来用户照片和视频的自动归类已经获得了巨大的兴趣。自动归类的一个受欢迎的方法是根据事件按照时间顺序和图像内容的视觉相似度来组织数字图像和视频。例如，2003年，IEEETrans.on Multimedia，5(3)：390-402，A.C.Loui和A.Savakis的“Automated event clustering and quality screening of consumer picturesfor digital albuming”中讨论了一组数字图像如何自动群集为事件，其内容被并入本发明作为参考。

尽管图像的基本群集可以将看起来与单个事件相关的图像分组，但是期望的是能够将语义的含义标注在群集的事件从而改善自动归类过程。然而，语义事件检测存在以下基本问题：首先，实际系统需要能够同时处理数字静止图像和视频，因为数字静止图像和视频两者通常存在于实际用户的图像全集中；第二，实际系统需要容纳实际用户全集中的不同语义内容，因而使其理想地提供包含检测不同的语义事件的一般方法而不是检测每个具体语义事件的具体的单独方法的系统；最后，实际系统需要是稳健的，可以预防识别和分类中的错误。

发明内容

根据本发明提供一种利于对与事件相关的一组图像记录进行语义事件分类的方法，所述方法利用事件检测器系统，以提供：

从每个图像记录中提取多个视觉特征；

其中，视觉特征包括将图像记录分割成许多区域，在区域中提取视觉特征；

利用视觉特征为每个图像记录生成多个概念评分，其中每个概念评分对应于视觉概念，每个概念评分表明图像记录包括视觉概念的概率；

基于图像记录的概念评分生成对应于事件的特征向量；以及

将特征向量供应给识别至少一个对应于该事件的语义事件分类器的事件分类器。

本发明提供一种数字图像内容记录中的语义事件检测的系统和方法。具体地，事件层次“特征包(Bag-of-Features)”(BOF)表示用于模拟(model)事件，基于BOF表示在概念空间而不是原始的低层次视觉特征空间中检测一般/通用语义事件(generic semantic event)。

本发明的一个特征是视觉特征包括将图像记录分割成许多区域，提取区域中的视觉特征。这提供了更多描述内容的信息，并提高了语义理解。

本发明的另一个特征是用于生成特征向量的跨域学习。跨域学习基于图像层次或区域层次特征。这提供提高语义理解的一组更丰富的概念检测。

在优选的实施例中，开发了事件层次表示(event-levelrepresentation)，其中由BOF特征向量模拟每个事件，基于BOF特征向量直接建立语义事件检测器。与图像层次特征向量用于训练分类器的过于简单的方法相比较，本发明对于事件内复杂的图像或错误地组织的图像方面更加稳健。例如，在任何给定的事件中，某些图像是很难去分类的。这些复杂图像通常使得判别边界复杂且难以模拟。通过采用事件层次特征表示，通过在测量事件层次的相似度时降低难懂的或错误的数字静止图像和视频片段的影响，能够避免敏感性问题。如将要示出的，利用支持向量机(SVM)分类器的少量的支持向量可以实现良好的检测性能，即，通过事件层次表示可以显著地简化分类问题。

附图说明

将参考本发明的某些优选实施例和附图描述本发明，在附图中：

图1是根据本发明的语义事件检测系统的示意性的方框图；

图2是示出生成由图1中所示的语义事件检测系统使用的基于词汇的事件表示的处理模块的流程图；

图3是示出生成用于训练图1中示出的语义事件检测系统的BOF事件词汇的处理模块的流程图；

图4是示出用于训练图1中所示系统中使用的概念检测器的处理模块的流程图；

图5是示出用于测试过程和包括详细定义的不同语义事件的表格；

图6是示出用于训练图1中所示的语义事件检测系统的处理模块的流程图；

图7是示出由图1中所示的语义事件检测系统使用的处理模块的流程图；

图8是示出用于训练区域层次概念检测器的处理模块的图；

图9是比较本发明中不同的单独类型的事件层次BOF表示在检测语义事件方面的性能的图表；

图10是比较合并不同类型的事件层次BOF表示与最好的单独类型的事件层次BOF表示在检测语义事件方面的结果的图表。

零件列表

100 系统

110 数据处理单元

120 外围单元

130 用户接口单元

140 存储器单元

200 数据输入模块

210 视觉特征提取模块

220 概念检测模块

222 概念评分检测模块

224 合并模块

230 bof模块

232 相似度检测模块

234 映射模块

241 分类器模块

250 特征包BOF事件层次表示(event-level representation)学习模块

252 谱群集(spectral clustering)模块

254 映射模块

260 分类器训练模块

270 概念训练模块

280 图像分割模块

290 区域层次视觉特征提取模块

300 区域层次概念检测模块

311 利用图像层次视觉特征模块的bog学习

312 利用图像层次概念评分模块的bof学习

313 利用区域层次概念评分模块的bof学习

314 利用区域层次视觉特征模块的bof学习

321 处理模块

322 模块

323 模块

324 处理模块

330 分类器训练模块

340 分类模块

350 区域层次概念训练模块

具体实施方式

复杂的语义事件通常由基本的视觉概念的同时存在而产生。例如，“婚礼”是与某些模式形成的(诸如“人”、“鲜花”、“公园”等)视觉概念相关联的语义事件。视觉概念一般被定义为图像的图像内容特性，且通常由比用于识别具体事件的字更广义的字来语义表示。因此，视觉概念形成可以有助于具体事件的图像内容特性的子集。

在本发明中，首先从图像检测基本的视觉概念，并且在概念空间中而不是原始低层次特征空间中建立语义事件检测器。这种方法的益处包括至少两个方面。第一，视觉概念是比原始低层次特征更高层次且更直观的描述符。正如S.Ebadollai等人2006年在IEEE ICME发表的“Visual event detection using multi-dimensional concept dynamics”中描述的(其内容被并入本发明作为参考)，概念评分(concept score)在模拟(model)语义事件方面是强大的。第二，本发明中的概念空间优选地由语义概念检测器形成，这在例如S.F.Chang等人2007年在ACM MIR发表的“Multimodal semantic concept detection for consumervideo benchmark”中有所描述(其内容被并入本文作为参考)，并且该语义检测器通过例如A.C.Loui等人2007年在ACM MIR的“Kodakconsumer video benchmark data set：concept definition and annotation”中描述的类型的已知用户电子图像数据集来训练，该文章的内容被并入本文作为参考。这些语义概念检测器在从先前图像数据集并入额外的信息以帮助检测当前图像数据集中的语义事件方面发挥重要的作用。

例如，假定以上描述的数据集包括来自真实用户的数字静止图像和视频片段，期望整个数据集首先被划分为一组宏观事件，且每个宏观事件进一步被划分为一组事件。通过利用以上描述的先前开发的事件群集算法(event clustering algorithm)，划分优选地基于视频片段的每个数字静止图像的捕获时间和每个静止图像之间的颜色相似度。例如，假设E_t表示含有

张照片和

个视频的第t个事件。和

表示E_t中的第i张照片和第j个视频。尽管使用该算法将图像分组或群集成事件，事件本身并不由语义的含义识别或不与语义含义相关联。因此，本发明的目标是将具体的语义含义，即语义事件S_E(诸如“婚礼”、“生日”)标注/加标签(tag)到具体的事件E_t和对应于事件的图像记录。

将假定语义事件是由例如“人”、“公园”和“花”等同时发生的视觉概念产生的，其中C₁，...，C_N表示N个视觉概念。利用以上描述的语义概念检测器，通过在应用的数据集上采用低层次的颜色、纹理和边缘视觉特征，优选地开发21个(N＝21)基于SVM的概念检测器。应用这些语义概念检测器生成每个图像

的21个单独的概念评分

然后这些概念评分用于形成特征向量，以将概念空间的图像

表示为：

f (I_{i}^{t}) = [p (C_{1}, I_{i}^{t}), . . ., p (C_{N}, I_{i}^{t})]^{T},

以下将更详细地描述。

由于来自真实用户的视频片段通常具有来自一次长拍的不同的视觉内容，每个视频优选地被划分为一组片段

其中每个片段具有给定长短(例如五秒钟)。然后从视频片段中周期性均匀地(例如每半秒钟)采样关键帧。例如，假设

是第k个片段中的第l帧，那么

也可以由概念空间中的特征向量

以相同的方式表示为数字静止图像。应当理解的是，可以容易地使用与以上所述不同的采样率。

数字静止图像和视频片段都被定义为由x表示的数据点。例如，事件Et包含总共

个数据点，其中是来自E_t中

个视频剪辑的整个视频片段数。然后基于这些数据点和由概念评分开发的相应的特征向量来执行语义事件检测。

已经证实BOF表示在检测图像的一般/通用概念(generic concept)方面是有效的。可以参考例如J.Sivic和A.Zisserman在2003年的“Videogoogle：a text retrieval approach to object matching in videos”，ICCV，pp 1470-1477，其内容被并入本发明作为参考。在BOF中，图像由一组无序的局部描述符来表示。通过群集技术(clustering technique)，构建中等层次视觉词汇，其中每个视觉词汇都由一组局部描述符形成。每个视觉词汇被认为是用于描述图像的稳健的且无噪声的视觉词语。

例如，假设S_E表示语义事件，如“婚礼”，并假设E₁，...，E_M表示含有该语义事件的M个事件。每个E_t由张照片和

个视频片段形成。与视觉词汇相似，通过将这些

(其中

)数据点群集成n个概念字来构建概念词汇。每个概念字被视为用于描述含有S_E的所有事件的共同特性的概念共同发生模式。具体地，为了同时容纳静止视频图像和视频数据点，采用谱群集算法(参考，例如，A.Y.Ng，M.Jordan和Y.Weiss，“On spectral clustering：analysis and algorithm，”Advances inNIPS，2001年，其内容并入本文以供参考)基于Earth Mover’s Distance(堆土机距离EMD)测量的成对相似度构建概念词汇，EMD在Y.Rubner，C.Tomasi和L.Guibas于2000年在IJCV的“The earth mover’s distance as ametric for image retrieval”中有所描述，其内容被并入本文作为参考。

每个数据点被视为一组图像，即静止视频图像的一个图像和视频片段的多个图像。然后EMD用于测量这两个数据点(图像组)之间的相似度。存在许多方法计算两个图像组之间的距离，如在这两组图像之间的最大/最小/平均距离。这些方法很容易受有噪声的异常值(noisyoutlier)图像影响，而EMD提供更加稳健的距离测度。EMD在受到权数标准化约束的两个图像组之间的所有成对距离之中找出最小加权距离，并允许数据点之间局部匹配，还可以减轻异常值图像的影响。

两组数据点之间的EMD计算方法如下。假定在数据点x₁和x₂中分别存在n₁和n₂个图像。x₁和x₂之间的EMD是由任何两个图像

之间的流

加权的水平距离(ground distance)的线性组合。

D (x_{1}, x_{2}) = \frac{Σ_{p = 1}^{n_{1}} Σ_{q = 1}^{n_{2}} d (I_{p}^{1}, I_{q}^{2}) f (I_{p}^{1}, I_{q}^{2})}{Σ_{p = 1}^{n_{1}} Σ_{q = 1}^{n_{2}} f (I_{p}^{1}, I_{q}^{2})} - - - (1)

其中，最佳流矩阵

是由下面的线性程序获得：

\min Σ_{p = 1}^{n_{1}} Σ_{q = 1}^{n_{2}} d (I_{p}^{1}, I_{q}^{2}) f (I_{p}^{1}, I_{q}^{2})

w . r . tf (I_{p}^{1}, I_{q}^{2}), 1 \leq p \leq n_{1}, 1 \leq q \leq n_{2}

s . t . f (I_{p}^{1}, I_{q}^{2}) &GreaterEqual; 0,

Σ_{q = 1}^{n_{2}} f (I_{p}^{1}, I_{q}^{2}) \leq w_{p}^{1},

Σ_{p = 1}^{n_{1}} f (I_{p}^{1}, I_{q}^{2}) \leq w_{q}^{2}

Σ_{p = 1}^{n_{1}} Σ_{q = 1}^{n_{2}} f (I_{p}^{1}, I_{q}^{2}) = \min {Σ_{p = 1}^{n_{1}} w_{p}^{1}, Σ_{q = 1}^{n_{2}} w_{q}^{2}}

其中，

和分别是数据点x₁和x₂中的图像

和的权数。这时可以使用相等权数：

关于概念评分特征的欧几里得距离(Euclidean distance)用作距离

根据公式(1)，EMD找出两个数据点中的最佳匹配图像对。权数标准化约束确保每个图像具有在其他数据集中的足够的匹配者。当x₁和x₂都是照片时，EMD仅仅是欧几里得距离。然后成对EMD由高斯函数(Gaussian function)被转换为成对相似度：S(x₁，x₂)＝exp(-D(x₁，x₂)/r)，其中r是所有训练的数据点之间的所有成对距离的平均值。

上面描述的谱群集是用于找出由一对数据点之间的相似度构成的数据集中的分组的技术。此处Ng等人开发的算法被采用并且被描述如下。给定相似度矩阵S(x_i，x_j)：

得到仿射矩阵(affine matrix)A_ij＝S(x_i，x_j)，如果i≠j，那么A_ii＝0。

定义对角矩阵D_ii＝∑_jA_ij。使得L＝D^-1/2AD^-1/2。

找出对应于n个最大特征值(eigenvalue)的L的特征向量u₁，...，u_n，并得到U＝[u₁，...，u_n]，其中n是由要保持的特征值的能量比确定的。

通过重新标准化U的行，使其具有单位长度而从U得到矩阵V。

将V中的每行视为Rⁿ中的点(对应于原始的第i个数据点的第i行)，并通过K平均算法将所有点群集成n个簇。

由谱群集算法获得的每个数据簇被称为概念字，并且所有簇形成表示和检测语义事件的概念词汇。假设

表示语义事件S_Ei得知的第j个词，

表示数据x和字

的相似度，其被计算为x和

中的元数据点之间的最大相似度：

其中以上面描述的相同方式定义S(x_k，x)。对于每个数据x，向量

被视为x的BOF特征向量。假定事件E_t含有m^t个数据点，并基于上述BOF特征向量，事件E_t也可以由BOF特征向量f_bof(E_t)表示为：

f_{bof} (E_{t}) = [\max_{x &Element; E_{t}} S (x, {W_{1}}^{i}), . . ., \max_{x &Element; E_{t}} S (x, {W_{n}}^{i})]^{T} .

最后，利用BOF特征f_bof，二进制1对所有的SVM分类器学会检测语义事件S_Ei。

现在参考图1，示出根据本发明实施例的数字内容记录的语义事件检测的系统100。系统100包括数据处理单元110、外围设备单元120、用户接口单元130和存储器单元140。存储器单元140、外围设备单元120和用户接口单元130通信连接到数据处理系统110。

数据处理系统110包括实现本发明各种实施例的过程的一个或多个数据处理设备，包括这里描述的图2-4中的实例过程。术语“数据处理设备”或“数据处理器”意在包括任何类型的数据处理设备，例如中央处理单元(“CPU”)、台式计算机、笔记本电脑、大型计算机、个人数字助理、黑莓^TM、数码相机、手机或用于处理数据、管理数据或操作数据的任何其他的设备，无论是用电子的、磁的、光的、生物的部件实现，或用其他方式。

存储器单元140包括配置为存储信息的一个或多于一个存储器设备，该信息包括执行本发明的各种实施例的过程所需的信息，各种实施例的过程包括本文描述的图2-4中的实例过程。存储器单元140可以是分布式处理器可存取的存储器系统，其包括通过多个计算机和/或设备通信连接到数据处理系统110的多个处理器可存取的存储器。另一方面，存储器单元140不需要是分布式处理器可存取的存储器系统，因此可以包括位于单个数据处理器或设备内的一个或多于一个处理器可存取的存储器。此外，术语“存储器单元”意在包括任何处理器可存取的数据存储设备，无论是易失性的或非易失性的、电子的、磁的、光的数据存储设备，或其他方式，包括但不限于，软盘、硬盘、光盘、DVD、闪存、ROM和RAM或任何其他的数字存储介质。

术语“通信连接”意在包括设备、数据处理器或可以通信数据的程序之间的任何类型的连接，无论是有线的或无线的。此外，术语“通信连接”意在包括单个数据处理器内的设备或程序之间的连接、位于不同的数据处理器的设备或程序之间的连接和根本不位于数据处理器内的设备之间的连接。就这一点而言，尽管示出的存储器单元140与数据处理系统110分离，本领域的技术人员将理解，存储器单元140可以实现为完全或部分位于数据处理系统110内。进一步就这一点而言，尽管示出的外围系统120和用户接口系统130与数据处理系统110分离，本领域的技术人员将理解，这些系统的一个或两者可以实现为完全或部分位于数据处理系统110内。

外围系统120可以包括配置为提供数字内容记录给数据处理系统110的一个或多个设备。例如，外围系统120可以包数码摄像机、手机、普通的数码相机或其他的数据处理器。此外，外围系统120可以包括必要的器械、设备、电路等用于将数据处理系统110连接至远程的数据源。例如，系统100可以通过因特网被连接至存储数据集的服务器。数据集可以包括用于训练系统100的数字内容记录的数据集或包括由系统100分析的数字内容记录的数据集。一旦接收到来自外围系统120中设备的数字内容记录后，数据处理系统110可以将这些数字内容记录存储在处理器可存取的存储器系统140中用于将来的处理，或如果有充足的处理能力，那么作为接收的数据流实时分析数字内容记录。

用户接口系统130可以包括鼠标、键盘、另一个计算机或数据从其中输入至数据处理系统110的任何设备或设备的组合。就这一点而言，尽管示出的外围系统120与用户接口系统130分离，外围系统120可以作为用户接口系统130的部分包括在用户接口系统130内。

用户接口系统130还可以包括显示设备、处理器可存取的存储器或数据由数据处理系统110输出至其中的任何设备或设备的组合。就这一点而言，如果用户接口系统130包括处理器可存取的存储器，尽管在图1中示出的用户接口系统130和存储器单元140是分离的，但是这种存储器可以是存储器单元140的部分。

现在将参考图2描述系统的基本操作，图2是示出由图1中所示的一个或多个单元实现的处理模块的流程图。应当理解，处理模块包含由系统100中提供的一个或多个单元实现的指令。在所示实例中，新事件(E₀)通过数据输入模块200提供给系统100，其中希望确定E₀属于具体的语义事件的概率。例如，基于经由用户接口单元130接收的操作员指令，数据处理单元110控制外围单元120的操作以将对应于E₀的数据下载至存储器单元140。在所示的实例中，每个事件包含多个数字内容记录，静止数字图像m_0，p和视频片段m_0，v，利用先前描述的群集方法根据捕获时间和颜色相似度将多个数字内容记录分组在一起。在静止数字图像和视频片段的数据集被提交给系统100之前，群集方法被应用于静止数字图像和视频片段的数据集。可替换地，数据集被提供给系统100，数据输入模块200作为数据处理单元110的一个操作元件执行群集操作，以便生成E₀。

例如，用户可使用电子照相机捕获由多种不同事件的一百张数字静止图像和视频构成的数据集。电子照相机的存储卡被提供给作为外围单元120一部分的读卡器单元。响应于由用户通过用户接口单元130输入的控制指令，数据处理单元110控制外围单元120的操作以将数据集从存储卡下载至存储器单元140。然后数据处理单元110继续执行对数据集的群集算法，以便将数字静止图像和视频分组成对应于多个事件的多个簇。因此，完成了数据输入模块200内提供的指令功能，并且许多数字静止图像和视频(例如100张原始图像中的10张)被识别为与E₀相关联。此时，尽管10张数字静止图像和视频已经与E₀相关联，但是E₀还要与诸如“婚礼”的具体语义事件相关联。

然后利用视觉特征提取模块210从E₀的视频片段中获取关键帧，从同时包含在E₀中的关键帧和数字静止图像中提取视觉特征。在所示的实例中，视觉特征提取模块210确定每个数字静止图像和视频的基于网格的颜色矩(moment)、Gabor纹理和边缘方向直方图。然而，应当理解，除了在所示的实例中使用的视觉特征以外，可以容易地使用其他的视觉特征。

根据视觉特征提取模块210内提供的指令，数据处理单元110利用常规技术对于包含在E₀中的每个数字静止图像和视频执行必要的关键帧和视觉特征提取。因此，现在对应于E₀的10张数字静止图像和视频中每个的三种视觉特征表示可用于进一步的分析。

特性提取模块210提取的三种视觉特征被概念检测模块220用来生成反映具体的关键帧或静止数字图像与具体的语义事件相关的概率的概念评分(concept score)。概念检测模块220利用两个步骤过程优选地确定概念评分。首先，提供概念评分检测模块220，其利用21个上述的SVM语义概念检测器(由数据处理单元110实现)为每个数字静止图像和关键帧生成基于每个视觉特征空间中的每个单独的分类器的概念评分。第二，然后通过合并模块(fuse module)224合并单独的概念评分(由数据处理单元110实现)，以生成具体的数字静止图像或关键帧的整体概念检测评分，因而降低了要进一步处理的数据量。

在优选的实施例中，合并模块224首先利用S形函数1/(1+exp(-D))标准化来自不同特性的不同分类输出，其中D是表示到判别边界的距离的SVM分类器的输出。通过对来自21个概念中每个概念的不同视觉特征的分类输出求平均，完成合并，从而生成整体概念检测评分。

在简化的实例中，将讨论三个概念“人”、“公园”和“花”。为10张E₀图像中每张的三种视觉特征表示中的每种生成“人”、“公园”和“花”的概念评分。例如，10张图像组中第一张图像的颜色特征表示可以具有90％的概率包含人、5％的概率包含公园和5％的概率包含花，第一张图像的纹理特征表示具有5％的概率包含人、80％的概率包含公园和15％的概率包含花，以及第一张图像的边缘检测特征具有10％的概率包含人、50％的概率包含公园和40％的概率包含鲜花。

假设10张图像三种视觉特征表示，将会生成30组概念评分(每个视觉特征表示一个概念评分)，其中每一组包含三个单独的概念评分(一个针对“人”、一个针对“公园”和一个针对“花”)。为了生成第一张图像的整体概念评分，每种视觉表示的每个概念的概率是均等的，这样使得第一张图像的整体概念评分将会是35％的概率包含人(人的概率的平均值，颜色90％、纹理5％和边缘5％)、30％的概率包含公园(公园的概率的平均值，颜色5％、纹理80％和边缘20％)和20％的概率包含鲜花(鲜花的概率的平均值，颜色5％、纹理15％和边缘40％)。

接着整体概念评分被提供给确定E₀的BOF向量的BOF模块230。通过首先利用各个数字静止图像和视频片段的整体概念评分确定包含在E₀内的每个数字静止图像和视频片段的单独的特征向量，获得E₀的BOF特征向量。在优选的实施例中，每个数字静止图像或视频片段被视为数据点，然后通过相似度检测模块232利用EMD来计算E₀中每个数据点的整体概念评分和给定语义事件(SE)(例如“婚礼”)的每个预先确定的正的训练数据点的整体概念评分之间的成对相似度。有效地获取包含在E₀内的每个数字静止图像和视频片段的单独的特征向量。然后映射模块234用于将E₀的每个单独的特征向量映射到语义事件的代码本(在下面更详细描述的训练过程期间先前开发的)，并基于映射的相似度生成E₀的事件特征向量。

现在事件特征向量可以供应到分类器模块241。在所示的实例中，分类器模块241使用SVM分类器生成E₀的事件检测评分。事件检测评分表示新事件E₀对应于给定的语义事件(诸如“婚礼”)的最终概率。然后事件检测评分优选地与预定阈值相比较，从而确定E₀是否应当归类为婚礼事件。预定阈值可以变化，这取决于在给定应用中系统100所需的准确度水平。

一旦E₀被适当地归类，用适当的语义事件分类器标注对应于E₀的静止数字图像和视频片段(或对其加标签)，并且对应于E₀的静止数字图像和视频片段被分类到合适的相册文件夹或文件中，并存储在存储器单元140中用于稍后的检索。可替换地，标注的/加标签的静止数字图像和视频片段通过外围单元120被写入图像存储介质中。用语义事件分类器标注静止数字图像和视频片段提供了能够通过搜索引擎容易地检索图像和视频片段的额外优势。

现在将参考图3描述系统100的训练。首先，利用数据输入模块200输入T个正的训练事件E₁，...，E_T。每个事件Et包含通过先前描述的群集方法根据捕获时间和颜色相似度分组到一起的m_t，p张照片和m_t，v个视频。然后视觉提取模块210用于从视频片段中提取关键帧，并且从关键帧和数字静止图像中提取视觉特征。如在以上描述的操作的情形中，视觉特征包括基于网格的颜色矩、Gabor纹理和边缘方向直方图。然后如以上所讨论的，概念检测模块220(由以上描述的概念评分检测模块222和合并模块224构成)用于生成关键帧和数字静止图像的整体概念评分。

接着BOF学习模块250用于训练系统100。首先，每个数字图像或视频片段被视为数据点，通过EMD利用先前描述的相似度检测模块232来计算每对数据点之间的成对相似度。基于该成对相似度矩阵，谱群集模块252用于应用谱群集将数据点分组成不同的簇，其中每簇对应于一个码字。为了训练用于检测语义事件SE的分类器，所有的训练事件E_i(E_i同时包含SE的正的训练事件和负的训练事件)都映射到上面的代码本，从而通过映射模块254生成每个训练事件的BOF特征向量。基于该BOF特征向量，分类器训练模块260用于训练二进制SVM分类器检测具体的语义事件SE。

图4描述了在概念评分检测模块222(图3中所示)中使用的视频概念检测器的训练过程的细节。对于概念C，通过数据输入模块200提供了来自基准用户视频数据集的N个正的训练视频。从视频中获取关键帧，并从关键帧中提取视觉特征，这如同利用视觉特征提取模块210的先前的实例。视觉特征包括基于网格的颜色矩、Gabor纹理和边缘方向直方图。然后概念训练模块270用于训练概念检测器。即，基于每种类型的视觉特征，每个关键帧都被表示为特征向量，并且二进制SVM分类器被训练为检测概念C。对在不同单独类型的特征的这些分类器的判别函数共同求平均，从而生成概念C的整体概念检测器。

区域层次表示提供有用的详细信息来描述图像内容，其是全局图像层次特征的补充。图6描述了用于学习图2中所示的语义事件检测系统的详细训练过程，其同时包括图像层次和区域层次学习模块。在区域方法中，每个图像被分割成一组区域r₁，...，r_n，如在图像分割模块280中描述的。每个区域由或是概念空间(通过利用区域层次概念检测模块300)或是低层次视觉空间(通过利用区域层次视觉特征提取模块290)中的特征向量来表示。通过简明的概括，在图3中的BOF学习模块250中描述的先前的特征包BOF事件层次表示学习框架使用区域层次特征来生成事件层次BOF表示，用于帮助语义事件检测。

如上所述，每个图像(静止照片或视频的关键帧)被视为单点特征组，其中在该单点组中的特征向量由整个图像上的概念检测分来形成。如果为每个分割区域提取特征向量，那么每个图像被视为由多个区域特征向量构成的多点组。仍可以应用相同的特征包BOF事件层次表示学习模块250，来获取语义事件检测的事件层次BOF特征向量，如描述在利用区域层次概念评分模块313的BOF学习和利用区域层次视觉特征模块314的BOF学习。

随着数码照片和视频的激增，未标记的测试数据量很大且在增长，同时可用的标记训练组的大小是固定的且很小。为了能够使在相对较少的数据上训练的事件检测器很好地用于大量未标记的数据，跨域学习(或域适应)技术被并入本系统，跨域学习在例如H.DauméIII于2007年在Annual Meeting of the Association of Computational Linguistics发表的“Frustratingly easy domain adaptation”中有所描述。

假定已被很好研究的旧域D^o(例如，一组广播新闻视频)和要分析的当前域D^c(例如，用户事件全集)根据本发明跨域学习，对接/移植(port)来自D^o的信息有助于分析D^c，通过借用来自旧域D^o的信息起到增加D^c的基本训练数据的作用。域适应的实例如下：基于旧域D^o建立一组模型，其生成当前域D^c中的数据的预测。然后预测用作在D^c中学习的特征，其中来自D^o的预测担任将信息移植到D^c中的角色。

与用户事件全集极其不同的两个外部数据源用于提供额外的知识帮助语义事件检测任务。第一个数据源是NIST TRECVID 2005广播新闻视频集。449个检测器在该数据集上训练，从而检测来自LSCOM本体(ontology)的449个概念。“LSCOM lexicon definitions andannotations V1.0”DTO Challenge Workshop on Large Scale ConceptOntology for Multimedia，Columbia Univ.ADVENT Tech.Report，2006中描述了LSCOM本体。在这些449个检测器中，对应于374个最频繁出现的概念的374个检测器被用作在旧TRECVID 2005域中建立的模型，其应用于用户事件数据从而通过利用图6中的图像层次概念检测模块220生成预测评分。这些跨域概念预测评分被输入特征包BOF事件层次表示学习框架中，以生成BOF事件层次特征(ELF)，如利用图像层次概念评分模块312的BOF学习中所描述。这些特征与从用户视频全集习得的原始的BOF事件层次特征(其描述在2007年，ACMMIR，A.Loui等人的“Kodak consumer video benchmark data set：Conceptdefinition and annotation”)相结合，从而有助于进行语义事件检测。在图3中描述了获取从这些用户视频中生成的BOF事件层次特征(ELF)的学习过程，在图3中概念检测模块220使用通过利用图4中的训练框架与用户视频一起训练的概念检测器。

第二个外部数据源是LHI图像分析地面实况数据集(免费版本)，这在2007年，EMMCVPR，B.Yao等人的“Introduction to a large scalegeneral purpose ground truth dataset：methodology，annotation tool&benchmark”的论文中有所描述。该数据集包含6种图像：人造对象、自然对象、场景中的对象、运输工具、空间图像和体育活动。这些图像被手动分割，并且区域被标记成247个概念。图8描述了学习区域层次概念检测器的训练过程。如在区域层次视觉特征提取模块290中所描述的，从每个区域中提取低层次视觉特征，如颜色矩、Gabor纹理和边缘方向直方图，并通过将每个区域用作检测247个区域层次概念的一个数据点来训练SVM分类器，如在区域层次概念训练模块350中描述。另一方面，通过利用图像分割模块280，我们的事件数据集中的图像被自动分割成基于颜色和纹理的均匀性的图像区域，并且通过利用区域层次视觉特征提取模块290，低层次视觉特征也被从所分割区域中提取出。然后应用通过区域层次概念检测模块300从LHI集所学的区域层次概念检测器，归类事件数据中的每个图像区域，这导致产生每个图像区域的一组概念检测评分。这些区域层次跨域概念预测评分也可以被提供到特征包BOF事件层次表示学习框架用于生成事件层次BOF特征，如在利用区域层次概念评分模块313的BOF学习中描述的。

以上描述了从通过概念检测器从诸如LSCOM和LHI的其他域中生成的图像层次或区域层次概念评分中习得的几种类型的事件层次BOF特征。在图像层次和区域层次两者上的低层次特征也可以用于将我们的事件数据中的图像(静止照片或视频的关键帧)描述为单点数据集或多点数据集。利用相同的特征包BOF事件层次表示学习框架，基于在利用图像层次视觉特征模块311的BOF学习中描述的简明(straightforward)的低层次图像层次特征，或基于在利用区域层次视觉特征模块314的BOF学习中描述的简明的低层次区域层次特征，生成事件层次BOF表示。所有这些事件层次BOF特征被合并在一起用于训练语义概念检测器，如在分类器训练模块330中描述的。

图7中描述了由图2中所示的语义事件检测系统使用用于分类新来临的事件的语义事件检测过程的细节。给定新事件E₀，通过图像层次视觉特征提取模块210，提取E₀中每个图像(照片或视频的关键帧)的图像层次特征。而且，应用图像分割模块280生成每个图像的区域，并使用区域层次视觉特征提取模块290获取一组区域层次特征。然后分别通过处理模块321和324，利用简明的图像层次视觉特征和区域层次视觉特征生成BOF事件层次特征。此外，应用图像层次概念检测模块220和区域层次概念检测模块300，分别获取图像层次概念检测评分和区域层次概念检测评分。然后通过分别利用模块322和323，利用图像层次概念评分和区域层次概念评分生成BOF事件层次特征。最后所有不同类型的BOF事件层次特征被合并在一起，提供到分类模块340，从而产生语义事件检测结果。

通过评估来自由A.Loui等人创建的上述用户数据集的1972个用户事件，来进行以上描述的语义检测系统和方法的测试，1972个用户事件被标记为10种不同的语义事件，其详细定义在图5中提供的表格中示出。随机选择总共1261个事件用于训练，剩下的事件则用于测试。训练数据和测试数据在宏观事件层次进行划分，即，来自相同宏观事件的事件共同被视为训练数据或测试数据。这避免了来自相同宏观事件的相似事件被分离的情况，这将简化分类问题。

平均精确度(AP)用作性能度量，其已经用作视频概念检测的官方度量。该指标计算在精确度-召回率曲线上的不同召回率点的平均精确度值，因此评估检测具体语义事件中的分类器的有效性。当考虑多个语义事件时，使用AP的平均值(MAP)。

利用不同的单独类型的事件层次BOF表示进行对语义事件检测的实验。图9给出了AP和MAP的比较。一般地，每种类型的事件层次BOF特征在检测不同的语义事件方面都有优势，且没有单个类型的事件层次BOF特征可以在性能上始终如一地胜过其他类型的事件层次BOF特征。从概念评分中习得的事件层次BOF表示很好地运行在由许多简单概念组成的复杂语义事件例如“游行”上，例如，游行是由人、街道、人群等构成。另一方面，从视觉特征中习得的事件层次BOF表示非常好地运行在由只有一个或几个概念(诸如“动物”)确定的语义事件上，对其他的构建概念的检测评分不是很有用。在图像层次概念评分方面，虽然采用与训练LSCOM检测器的TRECVID新数据相比与我们的用户事件数据更相似的用户视频来训练小型本体的概念检测器，但是大型本体(LSCOM)比小型本体执行得更好。

图10示出了最佳的单独类型的事件层次BOF方法和4种不同的合并方法的AP和MAP。在早期的合并中，所有类型的事件层次BOF特征连结到长向量用于训练SVM分类器。在后期的合并中，基于每种类型的事件层次BOF表示单独地训练SVM分类器，然后对来自不同类型的SVM的输出分类结果一起取平均，从而给出最终的检测结果。在选择性的早期合并中，通过顺向选择(forward selection)技术选择最佳类型的事件层次BOF特征用于生成连结的长特征向量。即，首先确定单个最佳类型，从所有剩余的类型中选择具有与第一种类型最佳组合性能的最佳类型，并从剩余类型中选择用于与前两个组合的最佳类型等。在选择性的后期合并中，选择最佳类型的单独的SVM分类结果，以类似的顺向选择技术方式进行组合。根据结果，当或是通过早期合并或通过后期合并组合不同类型的事件层次BOF表示时，实现每个语义事件的一致的性能改进。例如，与最佳执行的单独类型相比较，在相对基础上获得大约35％的MAP增加。此外，当选择性地组合这些不同类型的事件层次BOF特征时，获得进一步的性能提高。与最佳的单独类型的事件层次BOF表示相比较，选择性的合并方法在MAP方面获得多于70％的性能改进。

应当理解，示例性的实施例仅仅是为了说明本发明，以及在不偏离本发明的范畴的情况下，可以由本领域的技术人员对以上描述的实施例做出许多改变。因此，所有这些改变都包括在权利要求及其等价物的范畴内。

Claims

1.一种利于对与事件相关的一组图像记录进行语义事件分类的方法，所述方法利用事件检测器系统提供：

从每个所述图像记录中提取多个视觉特征；

其中，所述视觉特征包括将图像记录分割成许多区域，在所述许多区域中提取所述视觉特征；

利用所述视觉特征为每个所述图像记录生成多个概念评分，其中每个概念评分对应于视觉概念，并且每个概念评分表示所述图像记录包括所述视觉概念的概率；

基于所述图像记录的所述概念评分生成对应于所述事件的特征向量；以及

提供所述特征向量给事件分类器，所述事件分类器识别对应于所述事件的至少一个语义事件分类器。

2.根据权利要求1中所述的利于语义事件分类的方法，其中利用跨域学习生成所述特征向量。

3.根据权利要求2中所述的利于语义事件分类的方法，其中所述跨域学习基于图像层次特征或区域层次特征。

4.根据权利要求1中所述的利于语义事件分类的方法，其中所述图像记录包括至少一个数字静止图像和至少一个视频片段。

5.根据权利要求4中所述的利于语义事件分类的方法，其中提取多个视觉特征包括从所述视频片段中提取关键帧和从所述关键帧和所述数字静止图像两者中提取所述多个视觉特征。

6.根据权利要求5中所述的利于语义事件分类的方法，其中生成所述概念评分包括为对应于每个提取的视觉特征的每个关键帧和每个数字静止图像生成初始的概念评分。

7.根据权利要求6中所述的利于语义事件分类的方法，其中生成所述概念评分进一步包括基于所述初始的概念评分为每个关键帧和每个数字静止图像生成整体概念评分。

8.根据权利要求7中所述的利于语义事件分类的方法，其中所述整体概念评分是通过合并给定的关键帧或给定的数字静止图像的每个提取的视觉特征的单独概念评分生成的。

9.根据权利要求1中所述的利于语义事件分类的方法，进一步包含用所述语义事件分类器标注每个所述图像记录。

10.根据权利要求1中所述的利于语义事件分类的方法，其中生成所述特征向量包括计算所述图像记录的概念评分和预先确定的训练数据点的概念评分之间的成对相似度，从而生成每个所述图像记录的单独的特征向量。

11.根据权利要求10中所述的利于语义事件分类的方法，进一步包含将所述单独的向量映射到预先确定的语义事件代码本中。

12.根据权利要求11中所述的利于语义事件分类的方法，进一步包含：

确定对应于训练事件的多对数据点之间的成对相似度；通过应用谱群集基于所述预先确定的成对相似度将所述数据点分成不同的簇从而生成代码本，其中每簇对应于一个码字；

将所述训练事件映射到所述代码本，从而生成对应于每个训练事件的BOF特征向量；以及

基于所述对应于所述训练事件的BOF特征向量训练所述事件分类器。