CN101834982B

CN101834982B - 基于多模态的暴力视频分层筛选方法

Info

Publication number: CN101834982B
Application number: CN2010101861048A
Authority: CN
Inventors: 孙锬锋; 蒋兴浩; 李荣杰; 冯冰; 傅光磊
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2010-05-28
Filing date: 2010-05-28
Publication date: 2012-04-25
Anticipated expiration: 2030-05-28
Also published as: CN101834982A

Abstract

一种多媒体处理技术领域的基于多模态的暴力视频分层筛选方法，本发明首先通过音频特征的快速筛选，能比较有效的排除一些健康视频，选出可能是暴力视频的候选镜头和视频。针对这些候选镜头，再利用视频运动检测和人脸检测进行二次筛选，对剩下的镜头提取关键帧，然后再进行图像特征的提取，并利用支持向量机进行匹配，能十分准确的分出暴力视频。本发明通过音频的快速处理特点，能有效的解决网络监管的实时性要求，判断时间小于视频长度的1％；对于候选镜头进行后续的视频精确分类方法，同时保证了视频分类的准确性要求，分类准确率不小于95％。

Description

基于多模态的暴力视频分层筛选方法

技术领域

本发明涉及的是一种多媒体处理技术领域的方法，具体是一种基于多模态的暴力视频分层筛选方法。

背景技术

随着互联网的迅速发展，各类多媒体应用不断涌现，如今网络视频已成为人们现在获取信息和娱乐的主要来源之一。随着视频网站规模的扩大和网络上各类视频的发布和分享，政府也越来越关注对于这些网站的监控和发布视频的检测。视频网站上的一些不良视频，尤其是一些暴力，色情视频等是严格受到禁止的。这些视频不仅严重影响到青少年的健康成长同时污秽了网络环境。网络视频的监管就是在这种需求上提出的，对网络上的视频进行分类分级能有效的对各种视频进行监管，对于一些充斥着暴力和色情情节的视频要在其发布前就得到相应的控制。

目前，常见的暴力视频中包含一些打斗，血腥，枪战爆炸，尖叫等情节。一段视频中如果大量包含这些场景就需要对其进行限制。常见的打斗场景有徒手打斗，使用不同的武器打斗等。血腥场景主要包含大量的流血，场面已鲜血为主。枪战场景以枪声为代表。而这些暴力场景中往往都充满了人的尖叫和呻吟声。

经过对现有技术的检索发现，中国专利文献号CN101604325，公开日2009-12-26，记载了一种“基于主场景镜头关键帧的体育视频分类方法”，该技术基于图论的自适应阈值提取视频中的主场景，对主场景中的关键帧进行特征分析和分类检测；中国专利文献号CN101316327，公开日2008-12-3，记载了一种“一种多模态融合的采访镜头检测方法”，该技术分别对原始视频中的视频流和音频流进行检测，对视频中的帧进行人脸检测，对音频流进行人声检测，融合检测结果最后判断是否是采访镜头。上述两种技术都涉及视频的分类方法，但仍然存在以下缺陷：在对视频的分类方法中仅仅采用视觉上的特征或者是简单的融合视频和音频特征，对于视频内容的检测和分类缺乏实时性，准确率较低。

发明内容

本发明的目的在于克服现有技术的上述不足，提供一种基于多模态的暴力视频分层筛选方法。本发明首先通过音频特征的快速筛选，能比较有效的排除一些健康视频，选出可能是暴力视频的候选镜头和视频。针对这些候选镜头，再利用视频运动检测和人脸检测进行二次筛选，对剩下的镜头提取关键帧，然后再进行图像特征的提取，并利用支持向量机进行匹配，能十分准确的分出暴力视频。

本发明是通过以下技术方案实现的，本发明包括以下步骤：

第一步，提取待筛选视频的音频流，并进行分割去除处理，得到若干处理后的视频片段。

所述的分割去除处理，包括以下步骤：

1)将提取的音频流均匀的分为若干段音频，得到若干视频片段；

2)提取每个视频片段中音频的低短时能量比，删除其中音频低短时能量比低于阈值T1的视频片段，从而得到若干处理后的视频片段。

所述的音频低短时能量比，具体是：

LER = \frac{1}{2 N} Σ_{n = 0}^{N - 1} [sgn (E (n) - 0.5 avE) + 1],

sgn(x)＝1，x＞0

其中：sgn(x)＝-1，x≤0，

LER是视频片段的音频低短时能量比，N表示该分段音频包含的音频帧的数目，E(n)表示该帧的音频能量，而avE表示整个音频片段的平均音频能量。

所述的阈值T₁的取值范围是：0.25≤T1≤0.3。

第二步，提取处理后的视频片段的音频特征和常见暴力场景的音频特征，并进行判断处理，得到候选的视频片段。

所述的音频特征包括：基音频率(PF)、带宽(Bandwidth)、频谱流量(SF)、Mel倒谱系数(MFCC)和声音功率(Audio Power，AP)。

所述的判断处理，包括以下步骤：

1)分别将处理后的视频片段的音频特征和常见暴力场景的音频特征进行音频特征融合，得到处理后的视频片段的融合音频特征和常见暴力场景的融合音频特征。

所述的常见暴力场景包括：枪声场景、爆炸场景、尖叫场景、打斗场景和流血场景。

2)利用分类器对常见暴力场景的融合音频特征和待筛选视频片段的融合音频特征进行比较判断，将融合音频特征属于常见暴力场景的融合音频特征的视频片段标记为候选的视频片段。

第三步，对候选的视频片段进行运动检测，得到候选的视频片段中每个镜头的运动强度特征，去除其中运动强度特征小于阈值T₂的镜头，并对剩余的每个镜头进行人脸检测，去除其中小于20％帧包括人脸的镜头，此时剩余的镜头就是包含人脸的候选镜头。

所述的运动检测，具体是：得到候选的视频片段中相邻帧之间的颜色直方图，比较相邻帧之间颜色直方图在R，G，B三个分量上的差值，得到候选的视频片段中每个镜头的运动强度特征，具体公式为：

M = Σ_{j = 2}^{t} \frac{M_{j}}{t - 1},

其中：

M_{j} = Σ_{i = 2}^{n} \frac{\sqrt{{(R_{i} - R_{i - 1})}^{2} + {(G_{i} - G_{i - 1})}^{2} + {(B_{i} - B_{i - 1})}^{2}}}{n_{j}},

M是候选的视频片段中一镜头的运动强度特征，M_j是该镜头中第j帧和第(j-1)帧的运动强度特征，R_i、G_i和B_i分别是第j帧中第i个像素的R，G，B分量，R_i-1、G_i-1和B_i-1分别是第j帧中第(i-1)个像素的R，G，B分量，n_j是第j帧的总像素数，t是该镜头包含的总帧数。

所述的阈值T₂的范围是：0.3≤T₂≤0.4。

所述的人脸检测，包括以下步骤：

a、采集若干人脸图片，建立人脸训练库，提取训练库中人脸图片的haar特征，训练得到haar分类器；

b、提取剩余的每个镜头的haar特征；

c、利用haar分类器对剩余的每个镜头的haar特征进行分类，得到该镜头中包含人脸的若干帧图像；

d、当该镜头中包含人脸的帧图像个数大于该镜头总的帧图像个数的80％时，该镜头就是包含人脸的候选镜头；否则，该镜头是不包含人脸的候选镜头。

第四步，对包含人脸的候选镜头的关键帧以及常见暴力场景镜头的关键帧进行图像特征提取和图像特征融合，利用支持向量机对两者特征向量进行匹配，得到包含暴力镜头的视频。

所述的关键帧是中间帧。

所述的图像特征包括：颜色直方图、局部二进制特征(LBP)和视觉词汇特征。

所述的视觉词汇特征是：利用SIFT特征提取关键帧中的特征点，然后通过Kmeans聚类和分类，得到表示关键帧的视觉词汇特征。

与现有技术相比，本发明的有益效果是：通过快速的音频筛选，得到一些候选的镜头片段，对于这些候选镜头进行视觉特征的提取。在视觉特征提取之前再进行运动检测和人脸检测，在提高了最后的分类准确率的同时，也大大去除了一些干扰镜头，能较大提高最后的图像特征提取和分类的速度，分类准确率不小于95％，判断时间小于视频长度的1％。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例

本实施例包括以下步骤：

所述的分割去除处理，包括以下步骤：

所述的音频低短时能量比，具体是：

LER = \frac{1}{2 N} Σ_{n = 0}^{N - 1} [sgn (E (n) - 0.5 avE) + 1],

sgn(x)＝1，x＞0

其中：sgn(x)＝-1，x≤0，

本实施例中T₁＝0.3，通过本步骤的粗筛选，主要去除了整段音频中能量比较低的音频片段，在暴力视频的常见音频，如打斗，爆炸，尖叫等往往是能量比较集中的音频片段。

第二步，提取处理后的视频片段的音频特征和常见暴力场景的音频特征，并对待筛选视频片段的音频特征进行判断处理，得到候选的视频片段。

所述的音频特征包括：基音频率、带宽、频谱流量、Mel倒谱系数和声音功率。声音功率是MPEG-7标准中定义的一个音频描述子，它描述了音频信号在时间轴上平滑过的瞬时功率，在数值上是此刻信号的波形值的平方。声音功率能够以较小的代价给出音频信号的大致描述，因此应用较为广泛。对于暴力场景而言，其声音特征与普通的视频场景有较大不同，常常伴随着尖叫、低吼或是爆炸等音效，这些都能从声音功率描述子中得到体现，从而进行识别。以上这些音频特征本实施例采用工具MPEG7AudioEnc来提取。

所述的判断处理，包括以下步骤：

1)分别将处理后的视频片段的音频特征和常见暴力场景的音频特征拼接成一个向量，得到处理后的视频片段的融合音频特征和常见暴力场景的融合音频特征。

M = Σ_{j = 2}^{t} \frac{M_{j}}{t - 1},

其中：

M_{j} = Σ_{i = 2}^{n} \frac{\sqrt{{(R_{i} - R_{i - 1})}^{2} + {(G_{i} - G_{i - 1})}^{2} + {(B_{i} - B_{i - 1})}^{2}}}{n_{j}},

本实施例中T₂＝0.4。

所述的人脸检测，包括以下步骤：

a、采用open-cv自带的人脸训练库及函数，提取训练库中人脸图片的haar特征，训练得到haar分类器；

b、提取剩余的每个镜头的haar特征；

d、当该镜头中包含人脸的帧图像个数大于该镜头总的帧图像个数时，该镜头就是包含人脸的候选镜头；否则，该镜头是不包含人脸的候选镜头。

本实施例中haar特征的提取和haar分类器的训练采用的是《OReilly-Learning OpenCV》第506-516页中记载的“人脸检测和haar分类器”方法。

第四步，对包含人脸的候选镜头的中间帧以及常见暴力场景镜头的中间帧进行图像特征提取和图像特征融合，利用支持向量机对两者特征向量进行匹配，得到包含暴力镜头的视频。

所述的图像特征包括：256维的颜色直方图、256维的局部二进制特征和200维视觉词汇特征。

所述的颜色直方图特征，具体是：首先把原彩色图像转换成灰度图像，公式如下：

Gray＝R*0.11+G*0.59+B*0.30，

其中：R、G、B分别为每个像素的彩色值，Gray为转换后的灰度值；

然后统计其每个灰度值出现的次数，即为该幅图像的颜色直方图。

所述的局部二进制特征，具体是：对于一幅图像中的任意像素f(x，y)，取该点灰度值gc为阈值，对其周围3×3窗口内的8个点g₀，……，g₇，的象素值进行二值化处理，并对该8位的二进制数，按像素不同位置进行加权求和，即可得到每个像素的LBP值，如下所示：

LBP (x_{c}, y_{c}) = Σ_{i = 0}^{7} s (g_{i} - g_{c}) 2^{i},

s(x)＝1，x＞0

其中：s(x)＝0，x≤0，

由于是8位二进制数，所以0≤LBP(x_c，y_c)≤255，统计整个图像所有像素的LBP值的直方图，即统计每个值出现的次数，这样就得到最后的256维LBP特征向量。

所述的图像特征融合是：把得到的不同图像特征向量拼接成一个大向量712维，然后输出给分类器进行后续的分类。

本实施例中支持向量机采用的是：网址为http://www.csie.ntu.edu.tw/～cjlin/libsvm/公开的开源SVM库。

由于在本实施例中采用了音频粗筛选过程，相同时间的视频，音频处理速度要比视觉处理快许多。经过了音频的快速筛选后，得到的候选片段长度比原始视频要短了许多。这给后续比较耗时的视觉节省了很多不必要的时间。同时本实施例在视觉特征的处理上也考虑了实时性的因素，在做最耗时的特征提取和分类器决策过程之前，对于候选镜头进行了运动检测和人脸检测两步筛选过程，大大减少了最后要进行特征提取的帧的数量。在提取了特征后又进行了特征融合，在分类器决策过程中采用了并行决策的机制，使得整个实施例的运算时间有比较大的减少。通过音频粗筛选和视频精分类的过程，本实施例中的算法整体时间应小于视频长度的百分之一，即对于一个长度为100分钟的视频，判别其是否是暴力场景的时间应小于1分钟。

本实施例所采用的训练库样本需要人工选择合适样本，对于暴力视频中常见的打斗，爆炸等场景需要人工选择，这将提高最后的分类准确率。同时训练库需要定期维护更新，随着新的视频的发布和分享，一些新的暴力场景会出现在网络上，对于这些新的场景，每一个月需要重新更新下训练库样本，添加一些最新的暴力特征向量。通过本实施例中对训练库的更新和选择，对于视频分类的准确率应不小于95％。

Claims

1.一种基于多模态的暴力视频分层筛选方法，其特征在于，包括以下步骤：

第一步，提取待筛选视频的音频流，并进行分割去除处理，得到若干处理后的视频片段；

所述的分割去除处理，包括以下步骤：

2)提取每个视频片段中音频的低短时能量比，删除其中音频低短时能量比低于阈值T₁的视频片段，从而得到若干处理后的视频片段；

第二步，提取处理后的视频片段的音频特征和常见暴力场景的音频特征，并进行判断处理，得到候选的视频片段；

所述的判断处理，包括以下步骤：

1)分别将处理后的视频片段的音频特征和常见暴力场景的音频特征进行音频特征融合，得到处理后的视频片段的融合音频特征和常见暴力场景的融合音频特征；

所述的常见暴力场景包括：枪声场景、爆炸场景、尖叫场景、打斗场景和流血场景；

2)利用分类器对常见暴力场景的融合音频特征和待筛选视频片段的融合音频特征进行比较判断，将融合音频特征属于常见暴力场景的融合音频特征的视频片段标记为候选的视频片段；

第三步，对候选的视频片段进行运动检测，得到候选的视频片段中每个镜头的运动强度特征，去除其中运动强度特征小于阈值T2的镜头，并对剩余的每个镜头进行人脸检测，去除其中小于20％帧包括人脸的镜头，此时剩余的镜头就是包含人脸的候选镜头；

M = Σ_{j = 2}^{t} \frac{M_{j}}{t - 1},

其中：

M_{j} = Σ_{i = 2}^{n} \frac{\sqrt{{(R_{i} - R_{i - 1})}^{2} + {(G_{i} - G_{i - 1})}^{2} + {(B_{i} - B_{i - 1})}^{2}}}{n_{j}},

M是候选的视频片段中一镜头的运动强度特征，M_j是该镜头中第j帧和第(j-1)帧的运动强度特征，R_i、G_i和B_i分别是第j帧中第i个像素的R，G，B分量，R_i-1、G_i-1和B_i-1分别是第j帧中第(i-1)个像素的R，G，B分量，n_j是第j帧的总像素数，t是该镜头包含的总帧数；

所述的人脸检测，包括以下步骤：

b、提取剩余的每个镜头的haar特征；

d、当该镜头中包含人脸的帧图像个数大于该镜头总的帧图像个数的80％时，该镜头就是包含人脸的候选镜头；否则，该镜头是不包含人脸的候选镜头；

2.根据权利要求1所述的基于多模态的暴力视频分层筛选方法，其特征是，所述的阈值T₁的取值范围是：0.25≤T₁≤0.3。

3.根据权利要求1所述的基于多模态的暴力视频分层筛选方法，其特征是，第二步中所述的音频特征包括：基音频率、带宽、频谱流量、Mel倒谱系数和声音功率。

4.根据权利要求1所述的基于多模态的暴力视频分层筛选方法，其特征是，第三步中所述的阈值T₂的范围是：0.3≤T₂≤0.4。

5.根据权利要求1所述的基于多模态的暴力视频分层筛选方法，其特征是，第四步中所述的关键帧是中间帧。

6.根据权利要求1所述的基于多模态的暴力视频分层筛选方法，其特征是，第四步中所述的图像特征包括：颜色直方图、局部二进制特征和视觉词汇特征。