CN101247470A

CN101247470A - 用于检测视频中的场景边界的由计算机实现的方法

Info

Publication number: CN101247470A
Application number: CNA2008100013754A
Authority: CN
Inventors: 凯文·W·威尔森; 阿贾伊·迪瓦卡兰; 钮峰; 纳韦恩·戈埃拉; 大塚功
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2007-02-14
Filing date: 2008-01-16
Publication date: 2008-08-20
Anticipated expiration: 2028-01-16
Also published as: US7756338B2; JP2008199583A; EP1959393B1; EP1959393A2; CN101247470B; EP1959393A3; JP5174445B2; US20080193017A1

Abstract

一种由计算机实现的方法，其通过首先从不同种类的视频中提取特征向量来检测视频中的场景边界。然后使用支持向量机将特征向量分类为场景边界。所述支持向量机被训练为与所述视频的所述不同种类无关。

Description

用于检测视频中的场景边界的由计算机实现的方法

技术领域

本发明涉及检测视频中的场景边界，并且更具体地涉及使用听觉和视觉特征检测场景边界。

背景技术

在视频(和电影)中，镜头和场景边界提供了对理解、组织和浏览视频有用的结构。

当快门打开时出现镜头边界，并且当快门关闭时出现另一镜头边界。因此，镜头是连续的、不中断的帧序列。通常，用于戏剧、动作片、和情景喜剧的镜头在几秒的级别。

如这里定义的，场景是语义上有意义或内聚的帧序列。场景通常持续若干分钟。例如，普通的场景包括彼此交谈的演员。(多部)摄像机通常将场景呈现为若干特写镜头，其中依次示出在倾听或者在发言的每个演员，并且镜头偶尔将以中距离或远距离在场景中显示所有演员。

检测场景边界有挑战性，这是因为对于不同种类的场景边界，甚至同一种类中的场景边界也不一定具有任何明显的相似之处。

有剧本和无剧本的视频中的场景边界可以通过低层次(low level)视觉特征(如图像差异和运动向量)以及听觉特征(audio feature)的分布上的差异来检测。通常，在特征提取步骤后，需要与设置的阈值进行比较，参见Jiang等人的“Video segmentation with the support of audiosegmentation and classification”，Proc.IEEE ICME，2000；Lu等人的“Videosummarization by video structure analysis and graph optimization”，Proc.IEEE ICME，2004；Sundaram等人的“Video scene segmentation using videoand audio features”，Proc.IEEE ICME，2000；以及Sundaram等人的“Audioscene segmentation using multiple models，features and time scales，”IEEEICASSP，2000。所有上述技术是特定种类的。这意味着检测器是针对特定种类的视频而训练，并且对其他种类将不能起作用。期望提供一种对所有种类的视频有用的场景检测器。

由于以下多个因素而使得检测语义场景边界具有挑战性，这些因素包括：缺乏训练数据；难以针对多个种类定义场景边界；缺少刻画并比较不同特征的性能的系统的方法；以及难以确定手动调谐系统中的阈值。

发明内容

本发明的实施方式提供了一种用于检测种类无关的视频中的场景边界的方法。该方法提取视觉和听觉特征，该视觉和听觉特征可以用于检测与视频内容的种类无关的场景边界。

本发明提供了一种种类无关的支持向量机(SVM)，用于检测视频中的场景边界。SVM通过使得能够在不使用显式阈值的情况下自动地组合及比较从音频和视频流中提取的特征集，而作用于来自不同范围种类的内容。事实上，使用来自大量不同视频种类的已标注场景边界来生成用于训练SVM的正样本和负样本。

附图说明

图1是根据本发明一实施方式用于检测视频中的场景边界的方法的流程图；

图2是根据本发明一实施方式提取听觉特征的示意图；以及

图3是根据本发明一实施方式提取视觉特征的示意图。

具体实施方式

检测场景边界

图1示出了根据本发明的实施方式用于检测种类无关的视频中的场景边界的方法。该方法的输入是听觉-视觉流101。听觉-视觉流101包括音频信号(audio signal)102和帧(103)序列形式的视觉信号。从音频信号102中提取听觉特征111(200)，并从视频101的帧103中提取视觉特征121(300)。将听觉和视觉特征组合在一起以构造特征向量131(130)。由支持向量机(SVM)140对特征向量进行处理以检测场景边界109。可以由视频分割、索引和浏览应用使用场景边界。受试者工作曲线(ROC)136形式的反馈136可以用于测量性能，并基于可用的特征流设计更好的输入向量。

支持向量机

更具体地说，使用区分性高斯核(Gaussian-kernel)SVM，见Hastie等人的“The Elements of Statistical Learning：Data Mining，Inference，andPrediction”，Springer，2001年8月，通过引用将其合并于此。SVM是用于检测场景边界的二元分类器。SVM使用超平面来使属于两个不同类的数据之间的间隔最大化。

训练

在训练阶段145，利用训练向量135针对场景边界和非场景边界训练分类器140。即标注(label)训练向量。在一个实施方式中，该标注是人工进行的。该训练确定了用于分离组合后的特征向量131的最优并且可能是非线性的决策边界。

一个目标是确定可以在多种视频内容中区分场景边界与非场景边界的特征。换句话说，场景检测器不是种类相关的。另一个目标是特征向量131具有相对低的维数。此外，希望特征易于获得并且在计算上高效。

听觉特征

如图2所示，以44.1KHz对音频信号102进行采样，并从20ms音频帧中提取十二个Mel-频率倒谱系数(MFCC)201(210)。基于MFCC特征201，将音频信号的每一秒分类为四个语义类之一(220)：音乐、语音、笑声以及静音。注意，可以使用其他语义类。语音可以进一步分类为男声或女声。为了进行音频分类(220)，对高斯混合模型(GMM)进行最大似然(ML)估计，见Divakaran等人于2006年11月7日提交的美国专利申请No.11/593897，“Method and System for VideoSegmentation”，通过引用将其合并于此。根据音频训练数据估计每个语义类的GMM。这些语义类有助于检测例如在一些内容中通常伴随场景边界的小段音乐，或情景喜剧的场景结束时经常出现的笑声。

视觉特征

如图3所示，记录每个帧的帧号301，并且确定哪个帧号对应镜头边界302，见Lienhart的“Comparison of automatic shot boundary detectionalgorithms”，SPIE Vol.3656，pp290-301，1998，通过引用将其合并于此。还可以对视觉特征121在像素级别使用运动向量、图像差异以及颜色直方图。

针对场景(+)和非场景(-)边界将SVM 140的特征向量131定义为

X_i＝{x₁，x₂，x₃，...，x₁₁，x₁₂}，

即，特征有十二维。输入向量X_i描述了与视频内的特定时间点t(以秒为单位)有关的局部信息。注意，在给定帧频时(例如，约每秒30帧)，可以根据帧号直接确定时间。为了进行训练(145)，针对场景(+)和随机产生的非场景(-)确定人工标注的时间点的向量X_i。

向量X_i最先的九个元素是语义标注的直方图。接下来的两个元素表示在特定时间t之前和之后听觉分布的差，并且最后的元素基于视频镜头边界302。各元素定义如下：

前直方图：变量x₁，x₂，x₃。

前直方图表示在持续时间[t-W_L，t]的时间窗内，类集合{音乐，语音，笑声，静音}中的语义标注数量，其中W_L是所选的窗大小。将该直方图归一化为总和为1。我们可以从4D直方图中丢弃一维，因为其可以由其余的三个直方图值完全确定。

中直方图：变量x₄，x₅，x₆。

中直方图变量类似于前直方图，并且表示在持续时间

的窗内的语义标注。

后直方图：变量x₇，x₈，x₉。

后直方图表示窗

内的标注。

巴氏(Bhattacharyya)形状和距离：变量x₁₀，x₁₁。

针对窗[t-W_L，t]和窗[t，t+W_L]，确定根据低层次(low level)MFCC估计出的单高斯模型之间的巴氏形状和马氏(Mahalanobis)距离。巴氏形状是

D_{shape} = \frac{1}{2} \ln \frac{| \frac{C_{i} + C_{j}}{2} |}{| C_{i} |^{\frac{1}{2}} | C_{j} |^{\frac{1}{2}}},

并且 (1)

马氏距离是

D_{mahal} = \frac{1}{8} {(μ_{i} - μ_{j})}^{T} {(\frac{C_{i} + C_{j}}{2})}^{- 1} (μ_{i} - μ_{j}), - - - (2)

协方差矩阵C_i和C_j，以及均值μ_i和μ_j表示在时间点t之前和之后MFCC向量的对角协方差和均值。巴氏形状和马氏距离对MFCC分布的变化敏感。因此，这些特征提供了与视频变化有关的更低层次的提示。

例如，伴随着从男性说话人到女性说话人的变化的场景变化将产生大的MFCC马氏距离，即使语义直方图显示两个场景都主要包含语音。

平均镜头计数：变量x₁₂。

最后的元素是在窗[t-W_L，t+W_L]内的视频中呈现的镜头边界的平均数的两倍。

因为使用的是具有平滑带宽的基于核的SVM，其中该带宽沿所有维都相等，因此确保了向量X_i131的所有变量具有大致相同的方差。W_L＝14秒的最优窗长提供了足够的数据来估计巴氏距离和语义直方图。

SVM分类器

SVM是有监督的学习过程，其试图找到使两类数据(场景和非场景)分离的最大间隔超平面。给定数据点{X₀，X₁，…，X_N}和类标注{y₀，y₁，…，y_N}，y_i∈{-1，1}，SVM对推广良好的两个类构造决策边界。为此，SVM通常用作复杂的、噪声应用中的分类器。在本发明的情况下，这两个类是场景(+)和非场景(-)边界。数据点X_i是上述12D向量。用于构造基于SVM的分类模型的方法是公知的。

SVM的一个优点在于输入向量X可以经由核函数而变换到更高维的特征空间。数据可以在该空间中由超平面线性可分，该超平面实际上是原始输入空间中的非线性边界。在本实现中，采用径向基核(radial basiskernel)：

K (X_{i}, X_{j}) = e^{- γ D^{2} (X_{i}, X_{j})} - - - (3)

此处采用特征向量X131之间的欧氏(Euclidean，L₂)距离D，尽管也可以采用其他的距离函数。将核带宽的值固定为γ＝2.0，但是存在可用的额外训练数据时可以调整该值用于更小的平滑。由于训练样本的数量有限，因此希望具有平滑边界以解决噪声问题。噪声是以诸如不准确的听觉或视觉特征之类的各种方式引入的，例如，错误分类的语义标注、丢失的/错误的镜头边界、流的对准(alignment)、以及不正确的人工标注边界。

由于难以收集大量场景边界，大多数现有技术尚未关注用于场景检测的有监督学习。然而，将场景检测问题作为分类问题而提出的优点在于，由于是通过SVM 140调整决策边界，因此不需要变量的显式阈值。此外，能够基于特征的各种组合相对于训练数据的性能，快速地对特征的各种组合进行比较。SVM提供了用于对分离特征进行联合建模的统一框架。这使得能够根据需要增加特征以适应于多种种类无关的视频内容。

发明效果

本发明的各实施方式提供了基于SVM核的分类器，用于检测广泛的视频类(如情景喜剧、新闻节目、戏剧、指导视频、音乐视频、以及脱口秀)中的场景边界。换句话说，本发明的场景检测是种类无关的。

通过检测场景边界，我们可以改进消费电子设备的视频浏览能力，以使得用户能够更快并且更有效地管理视频内容。因此，用“场景改变”来表示语义上有意义的改变，该改变在视频和/或音频信号中可以有明显的表现也可以没有明显的表现。

此外，定义为每几分钟出现“场景改变”，认为这是对视频内容浏览有用的间隔大小。本发明的工作以人工标注为基础，所以场景改变的操作定义依赖于在训练视频中定位场景改变的人的观点。在情景喜剧和戏剧中，场景改变通常对应于拍摄位置的改变或对应于重要新角色的入场。对于新闻，场景改变对应于新闻情节之间的边界。对于脱口秀，场景改变对应于从一个或一群嘉宾到另一个或另一群嘉宾的改变。对于其他种类的视频有类似的对应。

尽管已经以优选实施方式为例描述了本发明，但是应理解的是，可以在本发明的精神和范围内做出各种其他的改变和修改。因此，附加的权利要求的目的在于涵盖落入本发明的真实精神和范围内的所有这样的变型和修改。

Claims

1.一种用于检测视频中的场景边界的由计算机实现的方法，该方法包括以下步骤：

从不同种类的视频中提取特征向量；以及

使用支持向量机将所述特征向量分类为场景边界，并且其中该支持向量机被训练为与所述视频的所述不同种类无关。

2.如权利要求1所述的方法，所述方法还包括以下步骤：

从所述视频的音频信号中提取听觉特征；

从所述视频的帧中提取视觉特征；以及

将所述听觉特征和所述视觉特征组合为所述特征向量。

3.如权利要求1所述的方法，其中所述视频被压缩。

4.如权利要求1所述的方法，所述方法还包括以下步骤：

反馈所述分类的结果以改进所述特征提取。

5.如权利要求1所述的方法，所述方法还包括以下步骤：

根据所述场景边界分割所述视频。

6.如权利要求1所述的方法，所述方法还包括以下步骤：

在训练视频中标注所述场景边界以训练所述支持向量机。

7.如权利要求2所述的方法，所述方法还包括以下步骤：

从所述音频信号中提取Mel频率倒谱系数(MFCC)；以及

将所述音频信号分类为语义类。

8.如权利要求7所述的方法，其中所述语义类包括音乐、语音、笑声和静音。

9.如权利要求8所述的方法，其中所述语音包括男声语音和女声语音。

10.如权利要求2所述的方法，其中所述视觉特征包括镜头边界。

11.如权利要求7所述的方法，其中每个特征向量包括：变量x₁，x₂，x₃，表示在持续时间[t-W_L，t]的时间窗内音频类标注的数量，其中W_L为大约14秒；变量x₄，x₅，x₆，表示在持续时间的窗内音频类的数目；以及变量x₇，x₈，x₉，表示在窗内的音频类的数目；变量x₁₀，x₁₁，分别是针对窗[t-W_L，t]和窗[t，t+W_L]的MFCC系数之间的巴氏形状和马氏距离；以及变量x₁₂，是在窗[t-W_L，t+W_L]中的视频内呈现的镜头边界的平均数的两倍。

12.如权利要求11所述的方法，其中所述巴氏形状为

D_{shape} = \frac{1}{2} \ln \frac{| \frac{C_{i} + C_{j}}{2} |}{| C_{i} |^{\frac{1}{2}} | C_{j} |^{\frac{1}{2}}},

并且

所述马氏距离为

D_{mahal} = \frac{1}{8} {(μ_{i} - μ_{j})}^{T} {(\frac{C_{i} + C_{j}}{2})}^{- 1} (μ_{i} - μ_{j}),

其中，协方差矩阵C_i和C_j，以及均值μ_i和μ_j表示在时间t之前和之后的MFCC向量的对角协方差以及均值。

13.如权利要求1所述的方法，所述方法还包括以下步骤：

使用核函数将所述特征向量变换到更高维的特征空间。

14.如权利要求13所述的方法，其中所述核函数是径向基核。