CN101477633B

CN101477633B - 自动估计图像和视频的视觉显著度的方法

Info

Publication number: CN101477633B
Application number: CN2009100767811A
Authority: CN
Inventors: 田永鸿; 李甲; 李远宁; 黄铁军; 高文
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2009-01-21
Filing date: 2009-01-21
Publication date: 2010-08-25
Anticipated expiration: 2029-01-21
Also published as: CN101477633A

Abstract

本发明涉及一种图像和视频处理方法，特别是一种通过机器学习技术来自动估计视频内容的视觉显著程度的方法。本方法首先自动将训练样本分为若干类别，对每一类别学习得到最佳的“样本特征-显著度分布图”映射函数，并对每类训练样本的底层特征进行建模。对待估计样本，根据其底层特征判断其属于哪一类样本，再选取相应的“样本特征-显著度分布图”映射函数来计算其显著度分布图。根据本发明可以快捷有效的估计视频和图像等多种多媒体信息的视觉显著度分布图。

Description

自动估计图像和视频的视觉显著度的方法

技术领域

本发明涉及一种自动估计图像和视频的视觉显著度的方法，特别是一种通过机器学习技术来自动估计图像和视频内容的视觉显著程度的方法。

背景技术

随着电子技术的快速发展，数码照相机、摄像机等图像/视频采集设备迅速普及，数字视听产品已经成为个人和家庭消费的重要部分。随着网络通信技术的发展，网上照片分享、数字音乐、数字电视、宽带视频通信、互联网流媒体、移动多媒体等多媒体应用已经触手可及。据2008年7月发布的《中国互联网络发展状况统计报告》指出，网络视频是中国网民通过互联网娱乐的重要方式之一，至2008年6月30日止，其使用率达71％，用户量已经达到1.8亿人。而在国内外知名的视频网站“优酷网”、“YouTube”上，视频的数量也早已达到了百万量级。这些海量多媒体信息的存在以及用户对它们的迫切需求对有效的计算机自动分析和检索方法提出了更高的要求，即通过机器学习的方法来模拟人类视觉，从而自动定位多媒体信息中最有价值的信息进行分析和索引。

在机器视觉研究领域，为了更快捷有效的定位最有价值的信息，人们提出了显著度(Saliency)的概念。从心理学研究角度来讲，视觉的显著度是一种基于主观认知的定义。在观看图像和视频时，人们更倾向于关注“引人注目的”或“具有特殊性质的”物体。例如对一张人物照片，人们常常只选择性注意“前景”的人物，而忽略“背景”区域。因此，可以定义这些更能吸引主观注意的图片区域和视频窗口为“显著区域”(Salient regions，不失一般性，这里用“区域”来泛指前述各种情况)。相应地，对一个图片或视频数据来说，在其时/空域上的不同区域具有不同的显著度。可以用“显著度分布图”(Saliency map)来指代这些区域之间的相对显著程度的分布情况。例如，一个图片(如图1(a)所示)的显著分布图为一个二维空间中各点显著度的分布图，如图1(b)所示；而一段视频(图1(c)给出了其若干帧)的显著分布图则为一个时间连续的二维显著度分布图序列，如图1(d)所示。而如何有效自动计算各个区域的相对显著程度分布情况(即获得显著分布图)，进而提取最有价值的信息也成为了机器视觉领域的一个重要问题。

目前，显著度提取的研究主要是通过计算自底向上(Bottom-up)的视觉刺激(Visual Stimulus)来进行的。在现有方法中，常常将输入的视觉信息看作与认知无关的激励信号，而显著度计算则为在这些激励信号中寻找稀有或独一无二的信号，并赋予其较高的显著度。如在论文“A genericframework of user attention model and its application in video summarization”(一种用户注意力模型的泛化框架及其在视频摘要中的应用，Yu-Fei Ma等，IEEE Transactions on Multimedia，2005)中，从视频序列中提取运动、颜色对比度、人脸、摄像机运动等视觉特征，以及多种音频特征，进而通过线性/非线性加权的方式，获取一个泛化的视觉显著度模型以进行显著区域预测。论文“Visual attention detection in video sequences using spatiotemporal cues”(使用时空线索检测视频序列中的视觉注意力，Yun Zhai等，ACMMultimedia，2006)中，通过提取和匹配各帧的SIFT特征点来计算时域运动的显著度，并通过计算颜色对比度来计算空域的显著度，最后对时/空域显著性进行非线性组合来获取视觉显著区域。中国03134423.2号申请专利“一种基于显著兴趣点的图像检索方法”的主要思想在于通过底层特征计算每个象素点的兴趣测度，并选择兴趣测度较大的象素点为显著兴趣点，进而选择显著兴趣点周边特定大小的区域为显著区域。美国第7274741号专利“Systemsand methods for generating a comprehensive user attention model”(产生综合用户注意模型的方法和系统)的主要思想在于使用多侧面的显著度模型来检测不同特征下的显著度分布图，并将这些显著度分布图进行融合以检测最终的显著区域。

然而，上述方法的一个主要问题是上述现有技术无法确定在何种情况下采用何种底层特征来进行显著度的计算。一般来说，现有技术均为通过主观经验规则，来将各种底层特征中提取出的显著度分布图进行加权融合，从而模拟实际的显著度分布图。但是，当面对不同的视觉场景时，人们往往关注的视觉线索是不同的。例如在交通监控视频中，人们常常中关注运动的人物和车辆，而忽略掉复杂背景；而在一个风景纪录片中，人们又常常关注风景，而忽略掉偶尔被拍到的行人或车辆。这说明，在估计显著度时，除了采用自底向上的方式来提取不同视觉刺激的显著度外，还需要应用在相似情况下获得的先验知识，从而才能选择最有效的视觉特征进行显著度估计。

因此，为了有效的进行视觉的显著度估计，首先需要从用户对特定场景(图像、视频)的显著度估计结果中，学习出对该类场景的显著度估计最有效的一些底层特征，以及从这些底层特征出发估计显著度的方法。为此，需要一种基于学习的自动显著度估计方法。

发明内容

为了克服现有技术的不足，本发明所解决的技术问题是：通过机器学习的方法自动学习对特定视觉场景的显著度估计模型；同时，对新增的相似视觉场景，使用学习得到的显著度估计模型来自适应地预测其显著度分布图。

本发明提供一种自动估计图像和视频的视觉显著度的方法。该方法主要包括以下两个步骤：

学习步骤，自动将训练样本分为若干类别，对每一类别训练最佳的“样本特征-显著度分布图”映射函数，并对每类训练样本的底层特征进行建模。

预测步骤，对待估计样本，根据其底层特征判断其属于哪一类样本，再选取相应的“样本特征-显著度分布图”映射函数来计算其显著度分布图。

通过上述学习步骤和预测步骤，可以基于对已有训练样本的显著度估计来预测新样本的显著度分布图。其中，

所述学习步骤中训练样本的获取是通过对包含典型场景的图像或视频标注显著区域，并将标注的显著区域进行平均来获得最接近人类视觉注意的显著度分布模式。

所述学习步骤中所述的样本分类及最优映射函数计算主要包括以下几个步骤：

11)映射函数初始化：确定映射函数的形式，并随机选择若干组映射函数的参数。

12)训练样本分类：计算各样本与当前各类别映射函数的匹配度，进而计算各样本属于各类别的概率；

13)增加样本类别个数：计算各样本的总体分类误差。如果某样本的总体分类误差最大，且大于预定义的阈值，则通过最优化方法求取最适合该样本的映射函数，并尝试增加此映射函数及相应的样本类别。

14)减少样本类别个数：计算任意两个映射函数的差异度。若两个映射函数的差异度最小且小于预定义的阈值，则尝试移除其中与所有样本匹配度之和最小的映射函数以及相应的样本类别。

15)映射函数更新：固定当前样本的分类结果，使用最优化方法求取全局最优的映射函数来更新当前的映射函数。

通过迭代步骤12)至步骤15)至收敛(收敛的定义为：每次循环中，各样本总体分类误差之和改变值小于预定义的阈值)或达到一定迭代次数，可以将训练样本自动划分为若干类别，并对每类样本求取一个全局最优的映射函数。

所述步骤11)中所述的映射函数的形式包括且不限于各种样本特征的线性和非线性加权函数。

所述步骤12)中所述的样本与映射函数的匹配度是通过计算将该映射函数用于该样本的预测误差来计算的。

所述步骤13)中所述的样本的总体分类误差是通过计算使用现有各映射函数来预测某样本的所有预测误差之和来得到的。

所述步骤13)中所述的求取最适合的映射函数的最优化方法是通过梯度法或二次规划法等现有最优化算法，求取使样本预测误差最小的映射函数。

所述步骤14)中所述的两个映射函数的差异度计算方法是通过两个映射函数与所有训练样本的匹配度差异来获得的。

所述步骤15)中所述的全局最优的映射函数的求取方法是通过梯度法或二次规划法等现有最优化算法，求取使得某类别所有样本预测误差之和最小的映射函数。

所述学习步骤中训练样本类别底层特征建模，主要包括以下两个步骤：

特征降维步骤：将多种特征分布图组合为样本特征向量，若特征向量维度高于预定义的阈值，则对其进行降维处理。

特征建模步骤：对各样本类别所有样本的特征向量，使用统一的模型进行建模。

所述预测步骤中所述的待估计样本的显著度预测方法，主要包括以下几个步骤：

21)特征向量提取。使用与训练样本相同的方法提取多种特征分布图，并按照训练样本的降维方法进行同样的降维处理，并将结果组合为待估计样本的特征向量。

22)待估计样本分类。根据待估计样本的特征向量与现有各样本类别的模型进行匹配，并将待估计样本分类至匹配度最高的样本类别

23)显著度估计。选取相应类别的映射函数，从待估计样本的多种特征分布图估计出显著度分布图。

本发明的技术方案是：本发明在进行显著度估计时，同时考虑了底层特征激励以及先验知识对显著度的影响。通过计算多种底层特征激励，并从训练场景中求取对这些底层特征激励进行选择和融合的先验知识，进而指导对新来场景的显著度计算。

本发明的有益效果：给定任何多媒体信息，例如图像、视频等，均可以通过标注的显著区域，自动求取潜在的显著度模式，进而快速、准确的计算在多种多媒体信息(图像、视频等)中的显著度分布图。

附图说明

图1是常见图像、视频的显著度分布示意图。

图2是根据本发明所述的训练样本获取方法对视频帧进行标注所获取的显著度分布图示例图。

图3是根据本发明的基于学习的视频显著度估计方法架构图。

图4是根据本发明的潜在显著度模式的学习流程图。

图5是根据本发明的显著度预测流程图。

图6是根据本发明的显著度估计方法对视频帧的显著度估计结果示例图。

具体实施方式

以下通过实施例并结合附图对本发明的各方面进行详细描述。

图1是常见媒体的显著度分布示意图。其中图1(a)和图1(b)为图像及图像显著度分布图；图1(c)和图1(d)为视频及视频显著度分布图序列。

图2是根据本发明所述的训练样本获取方法对视频帧进行标注所获取的显著度分布图示例图，其中图(a)-(f)分别表示纪录片、广告、动画、新闻、电影、监控视频中的典型帧以及它们的显著度分布图(其中亮的区域为高显著度，下同)。

为了通过学习来进行显著度估计，需要寻找代表性的“样本特征-显著度分布图”的映射函数。为此，一方面需要提取样本中能够反应某方面显著度的特征，另一方面需要通过标注显著区域来获得最接近人类视觉注意的显著度分布模式。

在一个实施例中，要求23个用户观看431段短视频。在每个用户观看完某段短视频后，会被要求立即再观看该短视频的关键帧(关键帧可以按照一定时间间隔对视频进行帧采样得到)，并使用多个矩形框来标注出各关键帧中的显著区域。假设每个视频帧F_i都被划分为N个宏块，同时共有N_i个用户对F_i进行标注。若第j个宏块共被N_i，j个用户选择为显著区域，则该宏块的显著度计为：

g_{i, j} = \frac{N_{i, j}}{Σ_{k = 1}^{N} N_{i, k}}, - - - (1)

当获知各宏块的相对显著度后，可以将视频帧F_i中各宏块的显著度归一化表示为向量g_i＝[g_i，1，g_i，2，...，g_i，N]^T，

Σ_{j = 1}^{N} g_{i, j} = 1 .

同理，对图像，可以使用类似的方法来近似获得最接近人类视觉注意的显著度分布模式。对图像，由于不像视频一样具有时间上下文信息，则可以让用户使用矩形框直接对图像进行显著区域标注。对图像标注结果，可以使用式(1)来分别计算显著度图。典型的视频帧显著度分布图标注结果如图2所示。

对一批训练样本{F₁，F₂，...，F_M}，假设可以从L种特征来描述一个样本。对任意特征，可以通过自底向上的方法，寻找每个样本中该特征的分布情况。例如，对于视频帧，可以通过计算该视频帧各位置对亮度对比度算子的响应值来获得其亮度对比度特征的分布情况。亮度对比度算子可以设计为一个计算局部区域的亮度均值与该区域周边区域的亮度均值之差的系数模板。当获得第i个样本各位置在L种特征算子(包括但不限于亮度对比度算子、颜色对比度算子、运动对比度算子、边缘对比度算子等，算子的设计形式如前所述)下的响应后，可以将L种特征分布图归一化为向量s_i，1，s_i，2，...，s_i，L。

理论上，可以通过学习的方法，对每一个训练样本训练一个从样本特征分布s_i，1，s_i，2，...，s_i，L到实际显著度g_i的最优映射函数f_i(·)。即对第i个样本，寻找如下的映射函数：

f_{i} (\cdot) = \min_{f_{i} (\cdot)} Dist (f_{i} (s_{i, 1}, s_{i, 2}, . . ., s_{i, L}) - g_{i}), - - - (2)

其中Dist(·)为一种N维空间中的距离度量。在一个实施例中，假设上述映射函数可以表述为线性加权映射，且取Dist(·)为欧氏距离的平方，则(2)式可以写为：

v_{i} = \min_{v_{i}} | | ω_{i, 1} s_{i, 1} + ω_{i, 2} s_{i, 2} +, . . ., + ω_{i, K} s_{i, L} - g_{i} | | = \min_{v_{i}} {| | S_{i} v_{i} - g_{i} | |}^{2} = \min_{v_{i}} {(S_{i} v_{i} - g_{i})}^{T} (S_{i} v_{i} - g_{i})

s . t . Σ_{j = 1}^{L} ω_{i, j} = 1, - - - (3)

其中v_i＝[ω_i，1，ω_i，2，...，ω_i，L]^T。为了简化表述，记为S_i＝[s_i，1，s_i，2，...s_i，L]。在该实施例中，通过(3)式，可以对每一个训练样本求取一个最优的线性加权向量。对待估计样本，只需要计算其与训练集中所有样本的相似性，即可选取与其最相似的训练样本所对应的映射函数，并通过待估计样本的L种特征分布图求取其显著度分布图。然而，在这种方法下，训练集需要包括尽可能多的样本，以保证对每一个待估计样本，均可以找到一个非常匹配的训练样本。而当训练集的样本数目较大时，如果直接进行两两比对，则计算复杂度非常高。为此，需要将训练样本聚类成若干典型的样本类别，对每个样本类别求取一个最优的映射函数，并使用样本类别特征模型判断待估计样本所属类别，从而选取相应映射函数估计其显著度分布图。具体流程如图3所示。其中箭头表示数据流方向。

图3中，虚线上方代表本发明的基于学习的显著度估计方法用于视频实施例的学习阶段。其中标注显著区域是根据用户标注生成的训练样本显著度图。视频帧在本图中指代训练样本。在将视频帧输入显著度特征描述子(包括但不限于亮度对比度算子、颜色对比度算子、运动对比度算子、边缘对比度算子等，算子的设计形式如前所述)，以获取多种特征分布图。此后，对输入的视频帧进行聚类，通过迭代的方法将视频帧分为若干类。然后，将聚类得到的各类别视频帧(对应于图3中的视频帧类别1、2、K)及其标注显著区域输入到各类最优映射函数估计模块，对每类视频帧求取一个最优的映射函数。然后，将各类最优映射函数估计模块获得的结果输入到图3下部分中的显著度预测模块。同时，将各类别的视频帧输入到底层特征建模模块，对各类视频帧求取一个底层特征模型。然后将底层特征建模模块获得的结果也输入到图3下部分中的显著度预测模块。上述对应各类别的最优映射函数及底层特征建模结果即作为学习出的显著度估计模型。

虚线下方代表本发明的测试阶段。待预测视频帧输入到显著度特征描述子中，以提取多种特征分布图。然后，将提取出的特征分布图输入到所有样本类别的底层特征模型模块中(对应图3中的底层特征模型M₁、M₂、M_K)，并根据图3上部分学习阶段的底层特征建模模型的输出结果，进行分类处理，从而得到测试视频帧属于现有各样本类别的概率(对应图3中的P₁、P₂、P_K)。此后，通过这些概率，分别选择对应概率高的样本类别的映射函数(对应于图3中的f₁(·)，f₂(·)，...，f_K(·))。并将通过这些映射函数获得的显著度图使用上述概率进行加权处理，从而得到最后的显著度分布图。

在此，将上述对特定的样本类别所采用的映射函数定义为潜在显著度模式。其学习包括对训练样本的类别划分，以及对各样本类别的最优映射函数学习。如流程图4所示，潜在显著度模式的学习方法主要步骤如下，其中箭头表示执行方向：

步骤1：输入训练样本。

步骤2：随机初始化类别个数及各类别映射函数的参数。

步骤3：使用当前映射函数，计算各样本属于各类别的概率。

步骤4：计算各样本的分类误差。如果某样本的分类误差足够大，则增加新的类别，并增加相应的映射函数；否则进入步骤5。

步骤5：通过上述各样本属于各类别的概率，计算任意两个映射函数的相似性。

步骤6：判断映射函数相似性是否足够大。如果两个映射函数的相似性足够大，则合并他们对应的类别，并移除一个映射函数；否则进入步骤7。

步骤7：通过上述各样本属于各类别的概率，将各样本划分至其分类概率最大的类别。

步骤8：通过最优化方法(如梯度法等)，最优化各类别的映射函数。

步骤9：若上述步骤3至步骤8的迭代次数足够多，则进入步骤11，否则，进入步骤10。

步骤10：若在步骤3至步骤8的一次迭代中，各样本分类误差之和的变化量足够小，则认为算法收敛，进入步骤11。否则，进行步骤3，重复上述迭代过程。

步骤11：输入各样本类别及其映射函数，算法结束。

下面对上述潜在显著度学习方法进行详细描述。在样本划分类别时，因为难以事先确定最佳类别个数及样本相似性度量方法，提出一种迭代的方法来将训练样本划分为若干样本类别，并对每个类别求取最优映射函数。样本类别集合记为C＝{C₁，C₂，...，C_K}，而最优映射函数的集合记为f＝{f₁(·)，f₂(·)，...，f_K(·)}，可以通过最小化下式，来同时求取最优的类别个数、每类别对应的样本以及每类别对应的最优映射函数：

{f, C, K} = \min_{{f, C, K}} Σ_{i = 1}^{M} Σ_{k = 1}^{K} l_{i, k} Dist (f_{k} (s_{i, 1}, s_{i, 2}, . . ., s_{i, L}) - g_{i}) + T (K)

l_{i, k} = \{\begin{matrix} 1, & if F_{i} &Element; C_{k} \\ 0, & elsewise \end{matrix}, - - - (4)

其中T(K)为基于类别个数的惩罚项，其目的为获取尽可能少的样本类别个数以降低预测步骤的计算复杂性。在(4)式中，需要求解最优的类别个数K、各样本属于各样本类别的标号{l_i，k，i＝1，...，M，k＝1，...，K}以及每类别对应的最优映射函数f＝{f₁(·)，f₂(·)，...，f_K(·)}。一般来说，难以通过直接的方法同时求解这些参数。但若将(4)式重写为如下形式：

{f, C, K} = \min_{{f, C, K}} Σ_{i = 1}^{M} Σ_{k = 1}^{K} p (F_{i} &Element; C_{k}) Dist (f_{k} (s_{i, 1}, s_{i, 2}, . . ., s_{i, L}) - g_{i}) + T (K), - - - (5)

即可通过迭代的方法求解类别个数K、各样本属于各样本类别的概率{p(F_i∈C_k)，i＝1，...，M，k＝1，...，K}以及映射函数f＝{f₁(·)，f₂(·)，...，f_K(·)}。该求解方法共包括以下五个主要步骤：

步骤1)：初始化。随机选定任意个数的映射函数作为初值，记为

f^{(0)} = {f_{1}^{(0)} (\cdot), f_{2}^{(0)} (\cdot), . . ., f_{K}^{(0)} (\cdot)} .

步骤2)：在第n次迭代中，固定映射函数

f^{(n - 1)} = {f_{1}^{(n - 1)} (\cdot), f_{2}^{(n - 1)} (\cdot), . . ., f_{K}^{(n - 1)} (\cdot)},

对样本进行分类。由(2)式定义第i个样本F_i与第j个映射函数f_j ^(n-1)(·)的匹配度为：

MD (F_{i}, f_{j}^{(n - 1)}) = \frac{1}{Dist (f_{j} (s_{i, 1}, s_{i, 2}, . . ., s_{i, L}) - g_{i})} . - - - (6)

如果匹配度越高，则说明第i帧通过第j个映射函数计算出的显著度分布图与标注出的显著度分布图的相似性越大。通过(6)式，可以计算样本F_i属于样本类别C_j的概率如下：

p^{(n)} (F_{i} &Element; C_{j}) = \frac{MD (F_{i}, f_{j}^{(n - 1)})}{Σ_{k = 1}^{K} MD (F_{i}, f_{k}^{(n - 1)})} . - - - (7)

即如果一个样本与某个样本类别对应的映射函数的匹配度越高，则该样本属于该样本类别的概率就越大。

步骤3)增加样本类别个数。首先计算各样本的分类误差如下：

{Err}^{(n)} (F_{i}) = Σ_{k = 1}^{K} p^{(n)} (F_{i} &Element; C_{k}) Dist (f_{k}^{(n - 1)} (s_{i, 1}, s_{i, 2}, . . ., s_{i, L}) - g_{i}) . - - - (8)

若某样本的分类误差大于预定义的阈值且大于其他样本的分类误差，则说明现有各映射函数均不适用于此样本，则计算一个新的映射函数如下：

f_{Candidate} (\cdot) = \min_{f_{Candidate} (\cdot)} Dist (f_{Candidate} (s_{i, 1}, s_{i, 2}, . . ., s_{i, L}) - g_{i}) . - - - (9)

此后，尝试将f_Candidate(·)作为第K+1个类的映射函数f_K+1 ^(n-1)(·)，重复步骤.2通过(5)式计算当前全局误差如下：

E_{G} = Σ_{i = 1}^{M} Σ_{k = 1}^{K + 1} p (F_{i} &Element; C_{k}) Dist (f_{k}^{(n - 1)} (s_{i, 1}, s_{i, 2}, . . ., s_{i, L}) - g_{i}) + T (K + 1) . - - - (10)

若与只有K个样本类别时相比全局误差变小，则增加第K+1个类别，选取其映射函数

f_{K + 1}^{(n - 1)} (\cdot) = f_{Candidate} (\cdot),

并通过(7)式重新计算各样本属于各类别的概率。

步骤4)减少样本类别个数。选取任意两个映射函数f_ka ^(n-1)(·)，f_kb ^(n-1)(·)，计算其差异度如下：

Diff (f_{ka}^{(n - 1)} (\cdot), f_{kb}^{(n - 1)} (\cdot)) = \frac{1}{M} Σ_{i = 1}^{M} | p^{(n)} (F_{i} &Element; C_{ka}) - p^{(n)} (F_{i} &Element; C_{kb}) |, - - - (11)

若某两个映射函数差异度小于预定义的阈值，且小于其他任意两个映射函数的差异度，则说明两个映射函数f_ka ^(n-1)(·)，f_kb ^(n-1)(·)所代表的样本类别重复。可以通过(6)式计算某映射函数与所有样本适配度之和，并尝试移除适配度之和较小的映射函数。如果通过(10)式，移除此映射函数后全局误差变小，则移除此映射函数及对应的样本类别，并通过(7)式重新计算各样本属于各类别的概率。

5)更新映射函数。根据当前的样本分类情况，对每个样本类别，使用现有的最优化方法(如梯度法、二次规划法等最优化方法)来更新各映射函数：

f_{k}^{(n)} = \min_{f_{k}^{(n)}} Σ_{i = 1}^{M} p (F_{i} &Element; C_{k}) Dist (f_{k}^{(n)} (s_{i, 1}, s_{i, 2}, . . ., s_{i, L}) - g_{i}), - - - (12)

通过迭代步骤2)至步骤5)至算法收敛(即，每次循环中，各样本总体分类误差之和改变值小于预定义的阈值)或达到一定迭代次数。当迭代结束后，即可将各样本划分至其所属概率最大的样本类别，即通过概率集合{p(F_i∈C_k)，i＝1，...，M，k＝1，...，K}来确定类别标签{l_i，k}。最后，通过最优化方法(如梯度法、二次规划法等方法)对每类别的样本求取一个全局最优的映射函数：

f_{k}^{(n)} = \min_{f_{k}^{(n)}} Σ_{i = 1}^{M} l_{i, k} Dist (f_{k}^{(n)} (s_{i, 1}, s_{i, 2}, . . ., s_{i, L}) - g_{i}) . - - - (13)

在一个实施例中，将上述映射函数表述为线性加权向量，并将Dist(·)表示为欧氏距离的平方，则对上述各式中的最优化问题，可以直接通过二次规划方法来求解其最优解。在另一个实施例中，将上述映射函数表述为非线性多项式函数，进而通过梯度法来求解其每步的最优解。

当获取K个典型的样本类别后，为了显式的表述该样本类别的特征，需要对每个样本类别的底层特征进行建模。在此，使用各样本的L种特征分布图s_i，1，s_i，2，...，s_i，L来表述样本属性，即将每个样本表述为L×N维的特征向量。一般来说，该特征向量维数较高，需要首先将其降维，再使用统一的模型进行建模。由于现有公开的降维方法和建模方法很多(如主成份分析(PCA)、独立成份分析(ICA)和多维尺度变换(MDS)等)，在此不再详述降维和建模的过程。在一个实施例中，使用PCA(主成份分析方法)将每个样本的维数降低，并使用GMM(混合高斯模型)来对每个样本类别中的所有样本特征进行建模。

对待估计样本的显著度估计如图4所示，其中箭头表示执行方向。其主要步骤如下：

步骤1：输入待估计显著度的测试样本。

步骤2：通过各样本类别的底层特征模型，计算测试样本属于各类别的概率。

步骤3：若测试样本属于某样本类别的概率最大，则选择该样本类别的映射函数。

步骤4：提取测试样本在各种特征下的显著度分布图。

步骤5：使用选择的映射函数，将计算出的多种显著度分布图映射至最终的显著度分布图，以获得对待估计样本的显著度估计。

下面对待估计样本的显著度估计方法进行详细描述。对待估计样本，首先提取其L种特征分布图，并按类似的方法进行降维操作。此后，对降维后的特征向量，使用现有各样本类别的特征模型判断其所属的类别。最后使用相应类别的映射函数，从其L种特征分布图估计其显著性分布图。

在一个实施例中，对视频帧估计的典型显著度分布图以及标注的显著度分布图如图5所示，其中第一行为原始视频帧，第二行为根据标注得到的显著度分布图，第三行为按本发明的方法预测得到的显著度分布图，其中图(a)-(f)分别表示纪录片、广告、动画、新闻、电影、监控视频中的典型帧以及它们的显著度分布图(其中亮的区域为高显著度)。可见本发明可以很好的预测复杂视频帧的显著度分布图。由这些显著度分布图可以看出，本发明提出的基于学习的方法除了适用于传统的单显著物体预测外，还能同时预测多个显著区域。而且对于复杂区域，方法也可以很好的预测其显著度分布情况。这是因为如果对一个类似场景的样本进行了学习，则可以学习到哪些特征算子的结果更可靠，则对于新增的相似场景，使用相同的算子可以得到更加令人满意的结果。

此外，上述方法也适用于对图像的显著度估计。在图像的显著度计算中，其与视频显著度计算的唯一区别即为无法提取帧间特征，如运动信息等。除此之外，其他显著度计算方法均与上述对视频帧的显著度计算相同。因为视频本身也可以看成连续的图像序列，如果不提取视频帧的帧间变化特征、运动特征等样本特征，则相当于将视频帧作为图像进行处理。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些具体实施方式仅是举例说明，本领域的技术人员在不脱离本发明的原理和实质的情况下，可以对上述方法和系统的细节进行各种省略、替换和改变。例如，合并上述方法步骤，从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此，本发明的范围仅由所附权利要求书限定。

Claims

1.一种自动估计图像和视频的视觉显著度的方法，其特征在于，该方法包括以下步骤：

学习步骤：

自动将训练样本分为多个类别；

针对各类别的训练样本进行学习，并计算各类别的训练样本的最优的样本特征-显著度分布图映射函数；

对各类别的训练样本的底层特征进行建模；

预测步骤：

获取待估计样本的底层特征；

针对所述底层特征，判断所述待估计样本所属的样本类别；

根据判断出的所述待估计样本所属的样本类别，选择对应于所述待估计样本所属的样本类别的所述映射函数；

通过所述选择出来的所述映射函数，计算待估计样本的显著度分布图。

2.如权利要求1所述的方法，其特征在于，所述方法用于对图像或视频数据进行视觉显著度估计。

3.如权利要求1所述的方法，其特征在于，通过对包含典型场景的训练图像或视频数据标注显著区域，并将标注的所述显著区域进行平均，得到最接近人类视觉注意的显著性分布图，从而获得所述学习步骤中的训练样本。

4.如权利要求1所述的方法，其特征在于，所述学习步骤中所述将训练样本分为多个类别及所述映射函数的计算包括以下步骤：

11)映射函数初始化：确定所述样本特征-显著度分布图映射函数的形式，并随机选择多组映射函数的参数；

12)训练样本分类：计算各样本与当前各类别的所述映射函数的匹配度，进而计算各样本属于各类别的概率；

13)增加样本类别个数：计算各样本的总体分类误差，如果某个样本的总体分类误差最大且大于预定义的阈值，则通过最优化方法求取最适合该样本的映射函数，并增加此映射函数及相应的样本类别；

14)减少样本类别个数：计算任意两个映射函数的差异度，若两个映射函数的差异度最小且小于预定义的阈值，则移除其中与所有样本匹配度之和最小的映射函数以及相应的样本类别；

15)映射函数更新：固定当前样本的分类结果，使用最优化方法求取全局最优的映射函数来更新当前的映射函数；

迭代执行步骤12)至步骤15)至收敛或达到一定迭代次数，从而将所述训练样本自动划分为多个类别，并对每类样本求取一个全局最优的映射函数。

5.如权利要求4所述的方法，其特征在于，所述步骤11)中所述的映射函数的形式是各种样本特征的线性和非线性加权函数。

6.如权利要求4所述的方法，其特征在于，所述步骤12)中所述的样本与映射函数的匹配度是通过计算将该映射函数用于所述样本的预测误差而得到的。

7.如权利要求4所述的方法，其特征在于，所述步骤13)中所述的求取最适合的映射函数的最优化方法是通过梯度法或二次规划法，求取使某个样本预测误差最小的映射函数。

8.如权利要求4所述的方法，其特征在于，所述步骤14)中所述的两个映射函数的差异度计算方法是通过两个映射函数与所有训练样本的匹配度差异来获得的。

9.如权利要求4所述的方法，其特征在于，所述步骤15)中所述的全局最优的映射函数的求取方法是通过梯度法或二次规划法，求取使得某个类别所有样本预测误差之和最小的映射函数。

10.如权利要求1所述的方法，其特征在于，所述学习步骤中所述对各类别的训练样本的底层特征进行建模包括以下步骤：

特征降维步骤：将多种特征分布图组合为样本特征向量，如果所述样本特征向量的维度高于预定义的阈值，则对所述样本特征向量进行降维处理；

特征建模步骤：对各样本类别的所有样本的特征向量，使用统一的模型进行建模。

11.如权利要求1所述的方法，其特征在于，所述预测步骤中所述计算待估计样本的显著度分布图包括以下步骤：

21)特征向量提取：将所述预测步骤中获取的所述待估计样本的底层特征组合为待估计样本的特征向量；

22)待估计样本分类：根据所述待估计样本的特征向量与现有各样本类别的模型进行匹配，并将待估计样本分类至匹配度最高的样本类别；

23)显著度估计：选取相应类别的映射函数，从待估计样本的多种特征分布图估计出显著度分布图。