CN102509084A

CN102509084A - 一种基于多示例学习的恐怖视频场景识别方法

Info

Publication number: CN102509084A
Application number: CN2011103692890A
Authority: CN
Inventors: 胡卫明; 王建超; 李兵; 吴偶
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2011-11-18
Filing date: 2011-11-18
Publication date: 2012-06-20
Anticipated expiration: 2031-11-18
Also published as: CN102509084B

Abstract

本发明公开了一种基于多示例学习算法的视频恐怖场景识别方法。该方法包含：对视频场景进行镜头分割和关键帧选取，视频场景对应于多示例学习的“包”，镜头对应“包”中的示例，基于镜头和关键帧分别提取视觉特征、音频特征和颜色情感特征组成特征空间，在特征空间中训练相应的多示例学习分类器；对于一个待测试的视频样本，通过结构化分析，提取相关特征，通过训练的分类器的来预测视频样本的类别：恐怖或非恐怖。本发明提出了一种新的颜色情感特征并把此特征应用到恐怖电影场景识别方法中，该方法具有广阔的应用前景。

Description

一种基于多示例学习的恐怖视频场景识别方法

技术领域

本发明涉及模式识别和计算机网络内容安全领域，尤其涉及一种基于多示例学习的恐怖视频场景识别方法。

背景技术

随着互联网技术和应用的迅速发展，人们对互联网的认识和使用已越来越深入，同时，网络也给人们的生活带来了很多的便利，甚至改变了人们的生活方式。在互联网高速发展的基础上，色情、暴力、恐怖等有害信息的传播也变得越来越容易。心理学和生理学研究表明，互联网中的恐怖信息对青少年的身心健康产生的危害绝不亚于色情信息的危害。过多的恐怖信息可能使人长期处于极度的焦虑和恐惧中，甚至使人身心受到损害，容易产生心理失衡或障碍，严重时出现病理症状，导致各种恐怖症产生，甚至引发其它的精神疾病；过多恐怖信息的接触是恐惧症及其它心理病症的根源所在，同时，恐怖信息的过剩导致儿童、青少年的恐惧泛化，进而影响他们的社会认知及未来人格的健康发展；过多恐怖信息的接触将左右孩子的阅读取向，影响儿童青少年的审美情趣，可能引发学习不良问题，甚至引发犯罪。

网络恐怖信息过滤具有重要的社会意义。网络上的恐怖信息除了严重危害青少年的身心健康，还会引发青少年犯罪。网络上的恐怖图片、视频等很容易让一些未成年人模仿其中的情节，而走上极端。因此，有效地对互联网中的恐怖信息进行过滤，对于保护青少年的健康成长，降低青少年犯罪，维护社会稳定，以及抵制互联网低俗之风都具有重要的实际意义。网络恐怖信息过滤研究具有重要的学术意义。网络有害信息过滤的研究是一个多学科交叉的研究课题，涉及到网络内容安全、多媒体内容分析与理解、模式识别、机器学习等多个领域。而恐怖信息过滤又与传统的色情信息过滤有所不同，“恐怖”本身是一种情感的感知与感受，所以恐怖信息过滤还涉及到情感认知以及视觉心理学领域的相关研究。

网络不良信息的危害早已得到国际社会的广泛关注，现有的研究主要关注色情信息的过滤，虽然恐怖信息的危害不亚于色情信息，但在我们之前基本没有研究关注恐怖信息的过滤，我们主要关注恐怖视频场景的识别。

色情图像和色情视频的识别与过滤可以看作是一种基于内容的网络过滤；而恐怖图像和恐怖视频的过滤问题则更多地可以看成一种基于情感的网络过滤方法。恐怖电影是通过利用令人毛骨悚然的、不可思议的场景来激发观众的恐惧、厌恶及害怕等情绪的电影。由定义可以知道，恐怖视频识别跟视频的情感分析有很大的关系。电影视频是由视觉(视频)和听觉(音频)两部分组成，因此视频情感分析和图像情感分析与音频情感分析密切相关。

图像理解、计算美学等领域已经展开了图像情感理解方面的相关研究。1998年，日本学者试图利用情感词来构建新的基于感性信息(KanseiInformation)的图像检索系统，即情感语义图像检索(Emotional SemanticImage Retrieval，ESIR)。几乎与此同时，Colombo等也提出了一种利用情感对艺术图像进行标注的新方法。此外，2006年Ratta等利用机器学习的方法展开了图像美学计算的研究，利用图像的视觉特征来对图像的美学质量进行打分。现有的这些研究虽然没有直接地针对恐怖图像的过滤，但是都可以作为WEB恐怖图像识别的研究基础。

视频内容分析、视频分类等领域已经展开的视频情感分析的相关研究为恐怖视频识别研究打下了很好的基础。视频情感场景分类就是根据情感来对视频场景进行分类，现在大部分的方法主要集中于通过提取底层特征来检测视频的情感内容。Hee等提取大量有效的音、视频特征来帮助消除情感语义鸿沟并提出了一个整体的方法从音频流中提取情感信息，一个用于视频情感内容表征和建模的计算框架被提出，视频情感内容被映射到2维情感空间，这个情感空间的两个维度分别是激励(情感的强度)和效价(情感的类型)。Zeeshan等提出了一个只基于可计算的视觉特征的、把电影分成不同风格的框架。Kang先从视频中提取底层视觉特征，然后采用隐马尔科夫模型把视频场景分成三种不同的情感类别：高兴、恐惧和悲伤。Xu等提出了基于隐马尔科夫模型的方法来检测恐怖电影中的笑声和尖叫等类似的情感事件。

发明内容

有鉴于此，本发明的主要目的是提供一种自动的恐怖视频识别的方法。

为达到上述目的，本发明提供了一种有效的恐怖视频识别的方法，该方法包括：

步骤1：对视频场景进行结构化分析，得到视频场景中的每个镜头；

步骤2：提取每个镜头的情感特征；

步骤3：根据每个镜头的情感特征组成的特征空间，基于多示例学习算法对恐怖视频进行识别。

从上述技术方案可以看出，本发明具有以下优点：

1、本发明提供的这种恐怖视频识别方法，从三个方面来提取视频场景的特征：视觉特征、音频特征、颜色情感特征，三方面特征较为完整的描述了视频场景的语义内容，其中的颜色情感特征是我们首次提出的。

2、我们通过观察所收集的恐怖电影和非恐怖电影发现：恐怖视频场景中至少包含一个恐怖视频镜头，也有可能包含非恐怖视频镜头；非恐怖视频场景全部由非恐怖视频镜头组成，不可能包含恐怖视频镜头。这种特点刚好符合多示例学习要解决的问题。我们把视频场景当做多示例学习中的“包”，视频镜头作为“包”中的“示例”，基于镜头来对场景进行识别，这样我们创新地把恐怖视频识别问题转化为多示例学习问题。

附图说明

图1为本发明提供的基于多示例学习的恐怖视频场景识别方法流程图。

图2为采用MI-SVM方法的恐怖视频识别结果。

图3为采用miGraph方法的恐怖视频识别结果。

图4为大模板LDSP的示意图。

图5为小模板SDSP的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1为本发明提供的基于多示例学习算法的恐怖视频场景识别方法流程图，如图1所示，本发明提供的基于多示例学习算法的恐怖视频场景识别方法，具体包括以下步骤：

步骤1：对视频场景进行结构化分析，得到视频场景中的每个镜头。

对视频场景进行结构化分析进一步包括以下步骤：

步骤1.1，对视频场景进行镜头分割。

采用基于信息论互信息熵理论的镜头检测方法来检测镜头边界，具体地，该方法通过计算相邻帧之间的互信息和联合熵来检测镜头边界，即计算视频中相邻帧图像之间的相似度，当相似度低于所设的阈值时就判定发现一个镜头边界。这种检测方法在包含各种类型的镜头边界、有显著目标运动和摄像机运动的视频数据库上取得了很好的检测结果，因为该方法以更紧凑的方式利用了帧间信息。

基于检测出的镜头边界将视频场景分割成多个镜头。

步骤1.2，针对每个分割出的镜头提取关键帧来代表该镜头。

对于每个分割出的镜头我们选取两个关键帧来代表该镜头，其中，一个关键帧选取镜头正中间的一帧图像，另一个关键帧是基于下文介绍的颜色情感和颜色和谐度理论选取的情感异常帧。

步骤2：提取每个镜头的情感特征。

视频情感特征表示在恐怖视频识别框中起着最重要的作用，对最终的识别效果有决定作用。

在本发明中，使用上述在一个镜头中选取出的关键帧来代表该镜头，因此，该镜头的情感特征实为关键帧的情感特征，所述情感特征进一步包括：颜色情感强度、颜色和谐度、颜色情感特征、视觉特征、音频特征。下面对于这些具体的情感特征一一进行介绍。

2.1，颜色情感和颜色和谐度理论

颜色本身是没有灵魂的，也不会强迫人们对之作出某种反应，但人们却能感受到色彩的情感，受到色彩的影响。这些影响总是在不知不觉中发生，左右我们的情绪，精神及行动，如眼前一片绿草如茵、繁花似锦的景象，会感到心情舒畅，美不胜收。实验证明：在红色的环境中，受红色刺激而感到兴奋，人的脉搏有加快感，血压有所升高，情绪兴奋冲动，同时感到闷热；相反，在蓝色的环境中，有沉静感，脉搏有减慢的感觉，行动有迟钝感、寒冷感。但这些感觉与物理上的温度无关，都是色彩波及心理所致。艺术作品(如影视作品等)往往用某些色彩来表达心理与情感状态，因此，视频关键帧中的情感特征能从一定程度上反映该帧的情感状态。很多研究关注颜色情感，Ou等通过心理学实验获得了单颜色和两种颜色组合的颜色情感模型，在实验中，观察者在10个颜色情感范围评价多种单颜色，通过分析实验数据，颜色情感强度主要跟三个因素相关：活动性(activity)、重要性(weight)和热度(heat)：

activity = - 2.1 + 0.06 [{(L^{*} - 50)}^{2} + {(a^{*} - 3)}^{2} + {(\frac{b^{*} - 17}{1.4})}^{2}]^{1 / 2}

weight＝-1.8+0.04(100-L^*)+0.45cos(h-100°) (1)

heat＝-0.5+0.02(C^*)^1.07cos(h-50°)

其中，(L^*，a^*，b^*)和(^L*，C^*，h)分别是颜色空间CIELAB和CIELCH的颜色分量。

在颜色研究领域，颜色和谐的通常定义是“颜色和它的相邻区域的颜色放在一起让人产生愉悦的情感”。颜色和谐的研究已经在非常严格的颜色组合上进行了，Ou通过心理学实验对两种颜色组合的和谐度进行了深入的研究，并提出了一个颜色和谐度的定量的预测模型。这个模型包含三个相互独立的颜色和谐度因子：饱和度因子H_C(chromatic effect)、亮度因子H_L(lightness effect)和色调因子H_H(hue effect)，这三个因子联合起来可以得到整体的颜色和谐度值CH：

CH＝H_C+H_L+H_H (2)

其中，

H_C＝0.04+0.53tanh(0.8-0.045ΔC)

ΔC = {[{(Δ H_{ab}^{*})}^{2} + {(\frac{Δ C_{ab}^{*}}{1.46})}^{2}]}^{\frac{1}{2}}

H_L＝H_Lsum+H_ΔL

H_Lsum＝0.28+0.54tanh(-3.88+0.029ΔL_sum)

Δ L_{sum} = L_{1}^{*} + L_{2}^{*}

H_ΔL＝0.14+0.15tanh(-2+0.2ΔL)

ΔL = | L_{1}^{*} - L_{2}^{*} |

H_H＝H_SY1+H_SY2

H_SY＝E_C(H_S+E_Y)

E_{C} = 0.5 + 0.5 \tanh (- 2 + 0.5 C_{ab}^{*})

H_S＝0.08-0.14sin(h_ab+50°)-0.07sin(2h_ab+90°)

和h_ab分别是CIELAB颜色空间中的色饱和度和色调，

和

分别是两种颜色在CIELAB颜色空间中的色饱和度差值和色调差值，

和

分别是两种颜色在CIELAB颜色空间中的亮度值。

我们根据颜色情感强度和颜色和谐度来选取情感异常帧，首先根据公式(1)定义每一个像素的颜色情感强度EI如下：

EI (x, y) = \sqrt{{Activity}^{2} + {Weight}^{2} + {Heat}^{2}} - - - (3)

其中(x，y)表示像素点在图像中的坐标。根据公式(2)和公式(3)，我们得到镜头中每一个视频帧的颜色情感值E：E＝(EI+CH)/2，整个镜头的基本情感值我们采用镜头正中间的视频帧的情感值E_middle来表示，镜头的情感异常帧选取的是其情感值与整个镜头的基本情感值差异最大的视频帧。接下来我们基于关键帧来提取相关的特征。

2.2，颜色情感特征(Color Emotional Feature，EF)

从视频中提取出来的图像特征，主要分为三个层次：低层次、中层次和高层次。低层次的图像特征是形状、纹理、颜色、轮廓等图像某一方面的特征。中高层次的图像特征是在图像低层次特征基础上的再一次抽象，它赋予图像一定的语义信息，是图像所包含内容的一种抽象概括。我们基于上文介绍的颜色情感和颜色和谐度理论，提出了一种中高层次的图像特征，即颜色情感特征。

根据上面提到的颜色情感理论可知：颜色情感主要跟三个因素相关：活动性(activity)、重要性(weight)和热度(heat)，三因素的具体计算公式见公式(1)。每一个像素的颜色情感强度EI的计算见公式(3)。

由公式(3)我们可以得到关键帧图像的颜色情感强度直方图，这个直方图作为颜色情感特征的一个组成部分。

如上所述，颜色和谐度理论的模型如公式(2)所示，给定一帧图像I，根据公式(2)我们可以得到图像中每个像素点和他周围8邻域像素之间的和谐度值CH1及每个像素点和整幅图像之间的和谐度值CH2，我们定义每个像素点在图像中的整体和谐度值为：CH＝0.5(CH1+CH2)，进而得到关键帧图像的颜色和谐度直方图，颜色和谐度直方图也作为颜色情感特征的一个组成部分。

2.3，视觉特征(Visual Feature，VF)

所述视觉特征进一步包括：视频节奏、视频场景的颜色变化、颜色特征、纹理特征以及视频运动特征。

视频的镜头长度反映了视频的节奏，对于观看者来说，快速的镜头转换能够让人感受到动感、令人紧张和兴奋的情绪，视频场景的平均镜头长度可以通过计算场景镜头包含的平均图像帧数来得到，我们选择平均镜头长度作为一个特征。

经验告诉我们，视频场景中的颜色变化跟视频的风格有很大的关系，例如，喜剧常常用比较明亮的颜色，而恐怖电影比较多的用暗的色调。为了表示视频场景中用到的颜色的变化，我们用视频场景中关键帧图像Luv颜色空间三分量的协方差矩阵来量化，每一个关键帧图像的颜色变化可以通过计算Luv颜色空间三分量协方差矩阵的行列式得到：

Δ = \det (ρ) = \det ([\begin{matrix} σ_{L}^{2} & σ_{Lu}^{2} & σ_{Lv}^{2} \\ σ_{Lu}^{2} & σ_{u}^{2} & σ_{uv}^{2} \\ σ_{Lv}^{2} & σ_{uv}^{2} & σ_{v}^{2} \end{matrix}]) .

其中的σ²是相关分量的协方差。

图像的颜色特征是一种全局特征，描述了图像或图像区域所对应的景物的表面性质，为了描述图像的颜色特征，我们定义了每幅关键帧图像的平均色调、平均饱和度和平均亮度的语义描述。

图像的纹理特征也是一种全局特征，它也描述了图像或图像区域所对应景物的表面性质。在图像分类方面，纹理提供了重要的信息。材质不同，表面的组织构造便不同，给人的感觉也不一样。光滑给人以细腻感，柔软给人以温馨感，粗糙给人以苍老感，坚硬给人以刚强感，都可以产生不同的视觉心理效果，与人们情绪紧密相连。因此在确定高层情感语义时，纹理也发挥着重要作用。图像场景中的纹理分布遵循韦伯(Weibull)分布：

wb (x) = \frac{γ}{β} {(\frac{x}{β})}^{γ - 1} e^{- \frac{1}{γ} {(\frac{x}{β})}^{γ}},

其中，x是像素值，韦伯分布中的参数能够完全表示图像纹理的空间结构，参数β表示图像的对比度，参数γ表示图像的颗粒度，β越大表示对比度越大，而γ越大表示颗粒度越小。

视频中还包含运动信息，一般情况下，动作片和恐怖片在武打和恐怖场景中伴随着比较强烈的运动，强烈的运动容易让人产生激动、紧张的情绪，因此在恐怖视频表征中运动特征是一种非常重要的特征，我们采用菱形搜索算法来提取运动特征。菱形搜索算法采用了两种搜索模板，分别是有9个检测点的大模板LDSP(Large Diamond Search Pattern)和有5个检测点的小模板SDSP(Small Diamond Search Pattern)，如图4和图5所示。搜索时先用大模板LDSP在搜索区域中心及周围8个点处进行匹配计算，当最小误差MBD(Minimum Block Distortion)(即两块图像像素的差异最小)点出现在中心点时，将大模板LDSP换为SDSP，再进行匹配计算，这时5个点中的MBD点即为最优匹配点；否则，改变中心点位置，仍用LDSP重复计算。运动特征即为初始搜索中心到最优匹配点之间的距离。

2.4，音频特征(Audio Feature，AF)

众所周知，在有声电影中，电影编辑者用特殊的声音和音乐来烘托情感氛围和增强戏剧效果，虽然声音和音乐的情感语义是一个非常主观，并且与很多因素有关的东西，但是研究者发现，在一定的文化背景下，音乐对人们激发出的情感有一定的共同性。因此，我们采用了音频特征来提高恐怖视频的识别效果。

我们采用的音频特征具体如下：

过零率：“过零”是指语音信号的时域波形穿过零电平的横轴，表现在离散时间信号上就是相邻两个采样点异号。单位时间内“过零”发生的次数称作过零率，主要用于粗略地描述语音信号的频谱特性，区分清音与浊音、有声和无声。

短时能量：用来表示一段音频的能量大小。

DFT系数：音频帧的离散傅立叶变换系数。

频谱质心(Special Centroid)：也叫亮度(Brightness)，指一个音频帧的频谱能量分布的平均点。

Mel频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)：20世纪80年代，Davis和Mermelstein根据入耳的听觉特性，设计出了一种新颖的声学特征，称为“Mel频率倒谱系数”。他们提出：人耳对低频声音的感知能力与频率f_Hz成线性关系，但对高频部分的感知能力与频率f_Hz成对数关系；为了模拟人耳的这种听觉特性，需要定义一种新的频率，称为“Mel频率”，并且建立频率f_Hz和Mel频率f_Mel之间的转换关系：

f_Mel＝3322.23lg(1+0.001)f_Hz。

Mel频率倒谱系数的具体求解过程如下：

1.对已分帧且加窗的语音信号x(f)进行快速傅立叶变换，使其转换为频域信号x(m)。

2.计算信号x(m)的短时能量谱P(f)。

3.根据频率f_Hz和Mel频率f_Mel之间的转换关系

f_Mel＝3322.23lg(1+0.001)f_Hz，将频率轴上的P(f)转换成Mel频率轴上的P(M)。

4.在Mel频率轴上，配置由K个滤波器组成的三角带通滤波器组，计算Mel轴上的能量谱P(M)通过此滤波器组后的输出，并将输出换算成对数形式。

5.假设在上一步骤后，三角带通滤波器组中的第k个滤波器输出的对数能量为θ(M_k)，则Mel频率倒谱系数C_mel(n)可以通过下面离散余弦变换求得：

C_mel(n)＝∑θ(M_k)cos(nπ(k-0.5)/k)，n＝1，2，...，p，

其中，p为Mel频率倒谱系数的阶数。

步骤3：基于每个镜头的情感特征，基于多示例学习算法对恐怖视频进行识别。

所述采用多示例学习算法对恐怖视频进行识别的步骤进一步为采用加入了多示例学习约束的基于包的支持向量机来对恐怖视频进行分类识别。

对恐怖视频进行识别的方法具体包括基于包的支持向量机和基于图的多示例学习方法。

多示例学习算法

多示例学习算法可以被描述为：假设训练数据集中的每个数据是一个包，每个包都是一个示例集合，每个包都有一个训练标记，而包中的示例没有标记；如果包被赋予正标记，则包中至少存在一个正标记的示例；对于一个有负标记的包，其中所有的示例均为负标记。具体到本发明，每一个镜头的情感特征是多示例学习的一个“示例”，一个视频场景所有镜头的情感特征组成“包”。

基于包的支持向量机(MI-SVM)

在传统的二分类支持向量机(SVM)中，训练集可以表示为(x_i，y_i)∈R^d×y，其学习目标是构造一个分类器使未知样本尽可能的被准确的分类：f:R^d→y＝{-1，1}，但是在多示例学习问题中，这个模型的分类率非常低。因为在多示例中，虽然每个负包中的示例都为负示例，但在正包中至少存在一个正示例，而并非每个示例都是正的，所以对分类产生了干扰，针对这个问题，有关研究采用最大化边界提出基于包(MI-SVM)的方法使其能够应用到多示例中。

MI-SVM方法中最大化边界是基于包的，在原来的SVM基础上加入了多示例问题的约束，即正包中仅包含至少一个正示例，而负包中全为负示例。MI-SVM的基本思想为：寻找一条曲线，使得正包中有一个比较正的示例在正曲面，负包中有一个比较负的示例在负曲面，同时寻找最大的边界，所谓最大边界是指曲线能将两类样本无错误的分开，而且使两类之间的距离即分类间隔最大。一旦这个最正的示例找了，正包中的其它示例跟分类决策边界就没有关系了。

基上所述，对于负包中的每个样本，我们利用一个不等式限制和一个松弛变量ε_I，找边界的最大化，其中不等式为即基于包的目标函数为：

\min_{w, b, ϵ} \frac{1}{2} {| | w | |}^{2} + C \underset{I}{Σ} ϵ_{I} - - - (4)

s . t . &ForAll; I : Y_{I} \max_{i &Element; I} (< w, x_{i} > + b) &GreaterEqual; 1 - ϵ_{I}, ϵ_{I} &GreaterEqual; 0 .

其中，w，b是曲面的参数，ε_I是松弛变量，I是包中的示例，C是惩罚因子，Y_I∈{-1，1}，x_i为示例。

对于每个正包，我们引用一个选择器变量s(I)∈I，该选择器从正包中选择一个最像正样本的示例。具体我们可以从下面公式(5)得到：

\min_{s} \min_{w, b, ϵ} \frac{1}{2} {| | w | |}^{2} + C \underset{I}{Σ} ϵ_{I}

s . t . &ForAll; I : Y_{I} = - 1^- < w, x_{i} > - b &GreaterEqual; 1 - ϵ_{I}, &ForAll; i &Element; I, - - - (5)

orY_I＝1∧＜w，x_s(I)＞+b≥1-ε_I，ε_I≥0.

在公式(5)中，每个正包被最像正样本的单示例x_i≡x_x(I)表示，而那些非最像正样本的示例x_i则对分类没有影响。通过对公式(5)的求解，我们可以得到对正包和负包分类的分类曲面。

我们基于视频镜头的关键帧提取相关特征，采用MI-SVM方法能够通过视频镜头的关键帧特征来实现对恐怖视频场景的识别。

基于图的多示例学习方法(miGraph)

前面介绍的多示例学习方法都假设包中的示例是独立同分布的对象，但现实的多示例问题很少符合这个假设，为了解决这个矛盾，我们采用了基于图的多示例学习方法，基本的思想是把包看成一个整体，而包中的示例看成是整体有关联的组成部分。周志华提出了一个简单有效的方法：miGraph，在miGraph中，对于一个多示例的包X_i计算它的各个示例相互之间的距离，把得到的距离和一个指定的阈值δ比较，从而得到一个近似矩阵Wⁱ，例如，如果两个示例x_ia和x_ib之间的距离小于δ，则Wⁱ第a行第b列的元素

否则

采用高斯距离来计算包X_i的近似矩阵Wⁱ，δ的值设为包的示例间的平均距离。

根据近似矩阵Wⁱ，计算miGraph的核k_g，此核用来计算两个包之间的距离，从而构造实现输入空间不同类型的非线性决策面的分类器：

k_{g} (X_{i}, X_{j}) = \frac{Σ_{a = 1}^{n_{i}} Σ_{b = 1}^{n_{j}} W_{ia} W_{jb} k (x_{ia}, x_{jb})}{Σ_{a = 1}^{n_{i}} W_{ia} Σ_{b = 1}^{n_{j}} W_{jb}} - - - (6)

其中，

n_i，n_j是示例的特征向量的维数，k(x_ia，x_jb)是两个示例之间的相似度度量，定义如下：

k (x_{ia}, x_{jb}) = \exp (- \frac{{| | x_{ia} - x_{jb} | |}^{2}}{2 δ^{2}}) - - - (7)

其中，δ＞0，δ是为函数的宽度参数，控制了函数的径向作用范围，得到核k_g后，接下来就可以采用SVM分类器来进行训练和分类。

我们对训练集的所有视频场景提取颜色情感特征、视觉特征和音频特征，其中恐怖视频镜头的类标识为1，非恐怖视频镜头的类标识为-1，在我们提取的特征集上，我们训练支持向量机模型。支持向量机的原理是首先通过非线性变换将输入空间变换到一个高维空间，然后在这个新空间中求取最优线性分类面。经过优化求解，该最优分类超平面由式(8)给出：

S (x) = Σ_{i = 1}^{n} y_{i} w_{i} φ (x_{i}) φ (X) + b - - - (8)

其中，φ(·)是一个非线性的映射函数，X＝{x_i∈R^d}_i＝1...n和y_i＝{-1，1}分别表示相应的训练集合和相应的类标识，b是偏移量。其中任何一个对应于一个非零值w_i的样本x_i被称为支持向量。一般来说，采用不同的核函数将对最最终求得的最优超平面产生影响，我们采用的是公式(6)所示的核。

使用SVM进行数据集分类工作的过程为：第一步是通过预先选定的一些非线性映射将输入空间映射到高维特征空间，使得在高维属性空间中有可能对训练数据实现超平面的分割，避免了在原输入空间中进行非线性曲面分割计算。第二步是用训练得到的分类器对特征进行预测，输入的特征向量x带入训练得到的模型公式(8)，如果模型S(x)的值大于0则为恐怖视频，否则为非恐怖视频。

也就是说，本发明中对于对恐怖视频进行识别的方法可以总结为：

搜集一个由恐怖视频场景和非恐怖视频场景组成的数据库，对数据库中的每一个视频场景提取特征集合(即由镜头特征组成的“包”，镜头特征是“包”中的“示例”)，然后训练多示例学习的分类器。对于待测试的视频场景样本，首先提取颜色情感特征、视觉特征和音频特征，接下来把提取的特征输入到多示例分类器中，多示例分类器根据输入的特征来预测该视频场景样本的属性：恐怖或非恐怖。

实验结果

我们从互联网上下载了120部恐怖电影和120部非恐怖电影，这些电影分别由中国、美国，韩国及泰国等制作，非恐怖电影的风格包括：喜剧、动作、剧情和动画片。从这些电影中，我们截取了400个恐怖视频场景和400个非恐怖视频场景，这些视频场景被分成A和B两个集合，A包含200个恐怖视频场景和200个非恐怖视频场景，同样，B也包含200个恐怖视频场景和200个非恐怖视频场景，为了消除相关性，来自同一部电影的视频场景被分到同一个集合中。在实验中，A作为训练集则B作为测试集，反之，B作为训练集则A作为测试集。

实验结果采用查准率(P)、查全率(R)及F-测度(F₁)表示

F_{1} = \frac{2 \times P \times R}{P + R}

为了验证本发明的具体思想，我们在所收集的数据库上用两种多示例学习方法MI-SVM和miGraph对各种特征组合进行了实验，实验结果如附图2和图3所示，结果表明了我们方法的有效性。

如图2所示，采用MI-SVM方法时，三种特征联合取得了最好的识别结果，对恐怖视频场景识别的查准率达到80.7％，查全率达到82.8％；单特征情况下，音频特征(AF)取得了最好的识别结果，查准率达到81.3％，查全率达到81.7％。如图3所示，采用miGraph方法时，三种特征联合取得了最好的识别结果，对恐怖视频场景识别的查准率达到81.6％，查全率达到84.3％；单特征情况下，音频特征(AF)取得了最好的识别结果，查准率达到80.8％，查全率达到81.3％。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于多示例学习算法的恐怖视频场景识别方法，其特征在于，该方法包括以下步骤：

步骤2：提取每个镜头的情感特征；

2.根据权利要求1所述的方法，其特征在于，所述步骤1进一步包括以下步骤：

步骤1.1，基于信息论互信息熵理论来检测镜头边界，从而对视频场景进行镜头分割；

步骤1.2，针对每个分割出的镜头提取关键帧来代表该镜头。

3.根据权利要求2所述的方法，其特征在于，所述步骤1.2中所述关键帧有两个，一个为镜头正中间的一帧图像，另外一个为基于颜色情感强度和颜色和谐度理论选取的、其情感值与整个镜头的基本情感值差异最大的情感异常帧。

4.根据权利要求2所述的方法，其特征在于，所述情感异常帧的选取进一步包括以下步骤：

步骤1.2.1，计算每一个像素的颜色情感强度EI；

步骤1.2.2，计算每一个视频帧的颜色和谐度值CH；

步骤1.2.3，计算每一个视频帧的颜色情感值E：

E＝(EI+CH)/2；

步骤1.2.4，采用镜头正中间的视频帧的情感值E_middle来表示整个镜头的基本情感值；

步骤1.2.5，其情感值与整个镜头的基本情感值差异最大的视频帧为该镜头的情感异常帧。

5.根据权利要求1所述的方法，其特征在于，所述情感特征进一步包括：颜色情感强度、颜色和谐度、颜色情感特征、视觉特征和音频特征。

6.根据权利要求5所述的方法，其特征在于，所述颜色情感强度EI表示为：

EI (x, y) = \sqrt{{Activity}^{2} + {Weight}^{2} + {Heat}^{2}},

其中，(x，y)表示像素点在图像中的坐标，Activity表示活动性、Weight表示重要性，Heat表示热度：

activity = - 2.1 + 0.06 [{(L^{*} - 50)}^{2} + {(a^{*} - 3)}^{2} + {(\frac{b^{*} - 17}{1.4})}^{2}]^{1 / 2}

weight＝-1.8+0.04(100-L^*)+0.45cos(h-100°)，

heat＝-0.5+0.02(C^*)^1.07cos(h-50°)

其中，(L^*，a^*，b^*)和(L^*，C^*，h)分别是颜色空间CIELAB和CIELCH的颜色分量。

7.根据权利要求5所述的方法，其特征在于，颜色和谐度的定量预测模型表示为：

CH＝H_C+H_L+H_H，

其中，H_C为饱和度因子，H_L为亮度因子，H_H为色调因子。

8.根据权利要求5所述的方法，其特征在于，所述视觉特征进一步包括：视频节奏、视频场景的颜色变化、颜色特征、纹理特征以及运动特征。

9.根据权利要求5所述的方法，其特征在于，所述音频特征进一步包括：过零率、短时能量、DFT系数、频谱质心和Mel频率倒谱系数。

10.根据权利要求1所述的方法，其特征在于，所述步骤3中基于多示例学习算法对恐怖视频进行识别的步骤进一步为采用加入了多示例学习约束的基于包的支持向量机来对恐怖视频进行分类识别，所述每个镜头的情感特征是多示例学习的一个“示例”，一个视频场景所有镜头的情感特征组成多示例学习的一个“包”。