CN103218608B

CN103218608B - 一种网络暴力视频的识别方法

Info

Publication number: CN103218608B
Application number: CN201310139552.6A
Authority: CN
Inventors: 胡卫明; 邹星宇; 吴偶
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Renmin Zhongke Beijing Intelligent Technology Co ltd
Priority date: 2013-04-19
Filing date: 2013-04-19
Publication date: 2017-05-10
Anticipated expiration: 2033-04-19
Also published as: CN103218608A

Abstract

本发明公开了一种基于多示例多特征的网络暴力视频识别方法，包括：从视频共享网站上抓取暴力视频与非暴力视频及其评论、简介构建一个视频数据训练集；从训练集的文本信息中提取文本特征组成文本特征向量来训练文本预分类器，该预分类器筛选出候选的暴力视频；采用基于自适应双阈值的镜头分割算法对所述候选的暴力视频的视频片段进行分割，对每一个镜头提取相关的视觉特征、音频特征来表示该镜头，每一个镜头是多示例学习的一个示例，视频片段是一个包；使用MILES算法将所述包转化为单示例，采用该特征向量训练分类器模型，采用该分类器模型对候选暴力视频进行分类。利用本发明，大大减轻了网络暴力视频不受限制传播的不良影响。

Description

一种网络暴力视频的识别方法

技术领域

本发明涉及模式识别和计算机网络内容安全领域，特别涉及视频分类问题。

背景技术

随着互联网技术和应用的迅速发展，人们对互联网的认识和使用已越来越深入，通过互联网人们可以获得丰富的信息与知识，可以便捷地交流，并享受到多样的娱乐活动。然而互联网是开放性的，它承载的海量信息也必然含有不良影响的，如色情、暴力、恐怖等有害信息也随着互联网广泛传播。而未成年人群体的生理与心理都处在成长阶段，容易受到外界的不良影响，有些甚至走上了犯罪道路并由此引发了很多社会问题，比如流行的古惑仔电影，导致不少的青少年走上了错误的道路。视频网站如雨后春笋般出现，网络视频用户增幅明显，是中国网民继即时通信、搜索、音乐、新闻之后的第五大应用。网络视频已经成为网民娱乐的主要方式之一，也成为不良信息的重要传播途径。网络暴力视频识别过滤具有重要的意义。网络上的暴力视频信息严重危害青少年的身心健康，还会引发青少年犯罪。因此，有效地对互联网中的暴力视频信息进行过滤，对于保护青少年的健康成长，降低青少年犯罪，维护社会稳定，都具有重要的实际意义。

目前暴力视频的识别方法主要基于视频信息与音频信息，使用单一模态或双模态特征。Datta等利用加速运动矢量来检测电影中打斗的暴力场景。Giannakopoulos等中提出了基于频域和时域的七种不同音频特征的视频分类方法。Nam等在检测时不但使用音频特征而且结合了视频特征来检测暴力场景中的典型的火焰、血液发生的等图像与声音。Smeaton等同样把视频与音频特征相结合来检测动作片中的暴力场景。这些暴力视频识别方法的研究对象多是一部电影或几部电影的视频片段，数据量较小，而针对网络海量的视频数据，这些方法的性能与处理速度都不同程度的下降。本方法引入文本信息，同时利用文本、视频、音频三种模态的信息，对网络海量的视频数据的处理具有不错的性能和速度。

发明内容

有鉴于此，本发明的主要目的是提供一种自动的暴力视频识别的方法。

为达到上述目的，本发明提供了一种有效的暴力视频识别的方法，该方法包括：步骤1：从视频共享网站上抓取暴力视频与非暴力视频及其评论、简介构建一个视频数据训练集；步骤2：从训练集的文本信息中提取文本特征组成文本特征向量来训练文本预分类器，该预分类器筛选出候选的暴力视频；步骤3：采用基于自适应双阈值的镜头分割算法对所述候选的暴力视频的视频片段进行分割，对每一个镜头提取相关的视觉特征、音频特征来表示该镜头，每一个镜头是多示例学习的一个示例，视频片段是一个包，该包映射到示例空间；步骤4：使用MILES算法将所述包转化为单示例，包由单示例的特征向量表达，采用该特征向量训练分类器模型，采用该分类器模型对候选暴力视频进行分类。

优选地，将视频与简介、评论这样的文本信息同时作为一个视频样本的组成部分。

优选地，将视频分类问题转化为多示例问题，镜头对应于示例，视频片段对应于包。

优选地，使用改进的MILES算法进行示例选择，使多示例问题转换为单示例监督学习问题。

优选地，改进的MILES算法，是将每一个包只选择与正包相似度最高的示例，即选择包中最有用的示例来表达该包。

利用本发明的方案，从三个方面来提取视频的特征：文本特征、视觉特征、音频特征，三模态特征较为完整的描述了视频场景的语义内容，我们首次将三个模态特征融合在一起来识别网络暴力视频。通过观察所收集的暴力视频和非暴力视频发现：暴力视频片段中至少包含一个暴力视频镜头；非暴力视频片段不包含暴力视频镜头，因此本发明将视频镜头作为示例，视频片段当做示例包，这样我们把暴力视频识别问题转化为多示例学习问题。本发明使用改进的MILES算法将包转化为单示例，降低了示例空间的维度和空间复杂度。

附图说明

图1为本发明的网络暴力视频的识别方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明提出了一种网络暴力视频的识别方法。在该方法中，收集视频共享网站中的暴力和非暴力视频及其简介、评论作为样本，建立视频训练集，从该训练集的文本信息中提取训练集视频相关的文本特征，从而利用文本特征向量训练预分类器模型，采用该预分类器对新视频样本进行分类得到候选暴力视频，将训练集中的视频片段进行镜头分割，提取镜头的视频、音频等底层特征组成特征向量来表示镜头，把镜头看作示例，把视频片段映射到示例空间，视频识别问题就成为多示例问题，使用改进的MILES算法将包转化为单示例，包由单示例的特征向量来表达，采用该特征向量来训练分类器模型，采用该分类器模型对候选暴力视频进行分类。

该方法的关键步骤是：1)镜头分割，对训练集中的视频进行镜头分割得到一组镜头；2)特征提取，对训练集中的文本信息提取文本特征；对视频镜头提取视觉、音频特征，将视频片段映射到示例空间，使用改进的MILES算法将包转化为单示例，包由单示例的特征向量来表达；3)模型训练及分类，利用文本特征向量对文本预分类器模型进行训练，分类后得到候选暴力视频。利用表达视频片段的视觉、音频特征向量对分类器模型进行训练，对候选暴力视频进行分类。

图1是本发明网络暴力视频的识别方法的详细流程图。参照图1，该方法包括以下各步骤：

步骤101：收集视频共享网站中的暴力视频与非暴力视频及其简介、评论，建立网络视频训练集。此步骤尽可能多地收集各种类型的暴力视频和非暴力视频。

步骤102：对该网络视频训练集的文本信息进行预处理后，以互信息(MutualInformation，简称MI)作为文本特征，互信息特征的公式如下：

一个词条t对类别c的MI值的计算公式如下：

在整个语料集上，词条t的MI值为一个平均值：

其中，p(t，c_i)表示训练集中既包含特征t又属于类别c_i的文本出现的概率，p(t)表示包含特征t的文本在训练集中出现的概率，p(c_i)表示训练集中属于类别c_i的文本的概率，m表示整个语料集上的类别总数。

根据互信息值选取一定数量(例如250个)的与暴力类别相关程度较高的特征词。文本可以用向量空间模型来表示，该模型把对文本内容的处理简化为向量空间中的向量运算，通过计算向量之间的相似度来度量语义的相似度，直观易懂。具体地，在向量空间模型中，每个文档D_i被看成是由一组特征词条向量(T₁，T₂，…，T_m)构成，每个词条项T_i即是文本经特征选择后的特征关键词，特征词条T_i之间无序且互不相同。并且对于每一个T_i，可根据其在文档中的重要性赋予相应的特征权值w_i，因此，每个文档被映射为一个特征向量，即V(D)＝(T₁，w₁；T₂，w₂；…；T_m，w_m)，其中权值w_i的获得一般是通过计算T_i在文档D中及其它文档中出现的频率来求得。对于特征项权重w_i的计算，使用较为广泛计算方法为TF-IDF(TermFrequency-Inverse Document Frequency)方法。设Tf_i为词条T_i在文档D中出现的频率，iDf_i为词条T_i的反文档频率，则词条T_i在文档D中的权重可计算如下：

其中，N为语料库包含的文档数，N_i为在语料库中包含词条T_i的文档数，M为特征词条总数。

得到文本的特征向量后，对支持向量机(SVM)分类器进行训练，分类后得到候选暴力视频。

步骤103：使用自适应的双阈值镜头分割算法来切割视频片段的镜头。两个阈值是基于两帧图像的颜色直方图的差值。假设相邻的两幅帧图像p和q(q＝p+1)的特征定义为f_p和f_p+1，距离测度函数为F，则两幅帧图像之间的差异表示为：

SD_p，q＝F(f_p，f_q) (4)

设置两个大小不同的阈值T_b和T_s(T_b＞T_s)，T_b是检测镜头之间切变的阈值，值较大。T_s是检测镜头之间渐变的阈值，值较小。

在双阈值镜头切割算法中关键性的问题就是T_b和T_s两个不同阈值的设定。而不同类型视频的差异是非常大的，所以阈值显然不是固定的，需要能自适应的调整。假设视频段内相邻帧之间的帧间差异的均值为μ，方差为σ，则两个阈值可表达为：

T_b＝μ+α₁σ，α₁∈[5，6] (5)

Ts＝μ+α₂σ，α₂∈[2，3] (6)

检测的基本流程如下：

1、假如SD_p，q＞T_b，p帧与q帧之间被认为发生了镜头的切变；

2、假如SD_p，q＜T_b，p帧与q帧之间被认为没有发生镜头变换；

3、假如T_b＞SD_p，q＞T_s，则q帧被标记为起始帧Fs。从该帧(q帧)起计算两类不同的帧之间的差异，一类是相邻的帧之间的差异，一类是起始帧和后续帧之间相隔帧之间的帧间差异SD_p，k(即累积帧间差异)。当从q帧开始相隔帧之间帧间差异不断增加时，在相邻帧之间的帧间差异大于T_s的前提下，只要相隔帧之间的帧间差异超过T_b时，则认为镜头发生了渐变切换。但需注意只有当相邻帧之间的帧间差异大于T_s时，SD_p，k累积帧间差才被计算。当相邻帧之间的帧间差异小于T_s，而累积帧间差SD_p，k小于T_b时，原来标注的起始帧F_s就被放弃，视之为假渐变。

然后，对镜头提取视频特征和音频特征，这些特征包括：

1)运动强度：镜头是一系列的运动图像，通过光流方法能得到运动的区域对象，用运动向量来描述运动目标属性，此处采用运动向量的大小即运动强度M，公式如下

公式(7)代表的是镜头第k帧的第i块的运动强度。

公式(8)代表的是镜头第k帧的平均运动强度。

公式(9)代表的是含有m帧的镜头的运动强度。

2)火焰：根据爆炸与枪击中火焰的特点：从无到有，变化较快。我们把火焰像素的变化速度作为特征的一维。

公式(10)中，M_f是镜头中含有火焰像素的帧总数，F_i是第i帧含有的火焰像素百分比。

3)血液：在三个典型暴力事件中，血液出现的概率都很大，血液特征也是暴力的一个重要的视觉特征。通过血液的颜色模版搜索到帧图像的血液像素，再根据暴力事件中血液的特点：从无到有。把火焰像素的变化速度作为特征的一维。

公式(11)中，M_b是镜头中含有血液像素的帧总数，B_i是第i帧含有的血液像素百分比。

4)镜头长度：根据电影的编辑规则，在常见的暴力电影中，通过镜头的快速转换是营造紧张气氛的一种重要方式，所以暴力视频通常镜头长度比较短。由此镜头长度即帧总数L也被选作特征向量的一维。

5)音频能量：在暴力事件中，都会伴随突然而剧烈的声音。这两种声音都变化突然而剧烈，比正常声音显示出更大的声音能量。因此，音频能量强度可以作为一维特征。

公式(12)中，x_i(n)是音频信号第n个采样点的值。E(i)是整个音频片段的能量。

公式(13)表示镜头m个音频片段的平均能量强度。

6)音频能量熵：暴力事件中突然而剧烈的声音，显示出强烈的能量曲线变化，为了衡量这一特性，选取音频能量熵作为特征的一维。

公式(14)中，是第i个音频片段的能量强度，I_n是第n个音频帧的能量熵。

公式(15)表示取n个音频帧能量熵的最小值作为镜头的音频能量熵。

7)Mel倒谱系数(Mel-frequency Cepstral Coefficients，MFCC)：Mel倒谱系数在语音识别中有着广泛的应用，它首先通过一系列的三角滤波器对傅立叶变换能量系数滤波而得，接着在频率中进行Mel变换，这样以便符合人的听觉特性。

Mel倒谱系数的计算过程如下：

(1)对音频信号进行快速傅立叶变换计算；

(2)通过滤波器组滤除杂波；

(3)Mel倒谱系数由离散余弦逆变换获得，计算公式如下：

其中K是三角滤波器的个数，S_K是信号通过第K个三角滤波器后的Mel加权频谱，L是倒频谱的阶数。这里，对镜头的音频信号取12阶Mel倒谱系数，成为镜头的12维特征。

在提取以上所述的镜头的视频、音频特征后，镜头x可以由特征向量表示。

镜头表达之后，可以作为示例，而视频片段就是包含有多个示例的包。每个包都是示例集合，即每个包由很多示例构成。每一个包都有一个训练标记，而包中的示例没有标记；如果是正包，则包中至少有一个示例对应的标签是正的；如果是负包，其中所有的示例均为负标签。将训练集中所有视频的镜头即示例构成一个集合C＝{x^k，k＝1，2，3..n}，B_i代表第i个包，其中n为训练集中所有示例的个数。然后将视频片段即包应用到这些示例构成的示例空间中：

m(B_i)＝[s(x¹，B_i)，s(x²，B_i)，...，s(xⁿ，B_i)]^T (17)

其中，s(x^k，B_i)表示包B_i在示例x^k处的权重。

对于给定的训练包中l⁺个正包，和l^-个负包，利用(17)就可以表示所有训练包在示例空间中的映射：

其中，Pr(x^k/B_i)表示B_i在x^k处的多样性密度，x_ij表示包B_i的第j个示例。每一列代表一个包，每一行代表某个示例与包之间的相似度，使用公式(19)来度量示例与包的相似度。如果一个示例与正包的相似度很高，而由于负包的相似度很低，则这个示例的信息是有用的。

传统的MILES算法通过选择有用的示例留下来表达包，然而通常一个包会有多个有用的示例来表达。为了降低示例空间的复杂度和便于处理，本发明对MILES算法进行了改进，对每一个包只选择与正包相似度最高的示例即选择包中最有用的示例来表达该包。这样就将包转化为单示例，将多示例问题转化为传统的单示例监督学习问题。假设包B_i中含有d个镜头示例(x^k+1，x^k+2，...，x^k+d)，其中x^m是包B_i中最有用的示例，满足如下条件：

如此，包B_i就可以用镜头示例x^m的特征向量来表示。

步骤104：利用得到包的特征向量对支持向量机分类器进行训练，得到分类器参数，利用训练好的支持向量机分类器模型对候选暴力视频片段分类，并输出分类结果。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于多示例多特征的网络暴力视频识别方法，该方法包括：

步骤1：从视频共享网站上抓取暴力视频与非暴力视频及其评论、简介构建一个视频数据训练集；

步骤2：从训练集的文本信息中提取文本特征组成文本特征向量来训练文本预分类器，该预分类器筛选出候选的暴力视频；

步骤3：采用基于自适应双阈值的镜头分割算法对所述候选的暴力视频的视频片段进行分割，对每一个镜头提取相关的视觉特征、音频特征来表示该镜头，每一个镜头是多示例学习的一个示例，视频片段是一个包括多个示例的包，该包映射到示例空间；

步骤4：使用MILES算法将所述包转化为单示例，包由单示例的特征向量表达，采用该特征向量训练分类器模型，采用该分类器模型对候选暴力视频进行分类；

其中，所提取的视觉特征和音频特征包括：运动强度特征火焰像素的变化速度特征血液像素的变化特征镜头长度L、音频能量音频能量熵I_s和Mel倒谱系数C_n；

其中，步骤4中使用改进的MILES算法进行示例选择，使多示例问题转换为单示例监督学习问题，所述改进的MILES算法，是将每一个包只选择与正包相似度最高的示例，即选择包中最有用的示例来表达；

其中，步骤3中包括：

假如视频段内相邻p帧与q帧之间的帧间差异SD_p，q的均值为μ，方差为σ，则两个阈值可表达为：

T_b＝μ+α₁σ，α₁∈[5，6]

Ts＝μ+α₂σ，α₂∈[2，3]

检测的基本流程如下：

1、假如SD_p，q＞T_b，p帧与q帧之间发生了镜头的切变；

2、假如SD_p，q＜T_b，p帧与q帧之间没有发生镜头变换；

3、假如T_b＞SD_p，q＞T_s，则q帧被标记为起始帧Fs，从该q帧起计算两类不同的帧之间的差异，一类是相邻的帧之间的差异，一类是起始帧和后续帧之间相隔帧之间的帧间差异SD_p，k，当从q帧开始相隔帧之间帧间差异不断增加时，在相邻帧之间的帧间差异大于T_s的前提下，只要相隔帧之间的帧间差异超过T_b时，则镜头发生了渐变切换；当相邻帧之间的帧间差异小于T_s，而累积帧间差SD_p，k小于T_b时，原来标注的起始帧F_s就被放弃；

然后对镜头提取视频特征和音频特征，包括：

1)运动强度：运动向量的大小即运动强度M，公式如下

M_{k} (i) = \sqrt{u^{2} (i) + v^{2} (i)}

M_k(i)是镜头第k帧的第i块的运动强度；

\overset{&OverBar;}{M_{k}} = \frac{1}{n} Σ_{i = 0}^{n - 1} M_{k} (i)

是镜头第k帧的平均运动强度；

\overset{&OverBar;}{M} = \frac{1}{m} Σ_{k = 0}^{m - 1} \overset{&OverBar;}{M_{k}}

是含有m帧的镜头的运动强度；

2)火焰：即火焰像素的变化速度

\overset{&OverBar;}{V_{f}} = \frac{1}{M_{f}} Σ_{i = 0}^{M_{f} - 1} | F_{i + 1} - F_{i} |

M_f是镜头中含有火焰像素的帧总数，F_i是第i帧含有的火焰像素百分比；

3)血液：

\overset{&OverBar;}{V_{b}} = \frac{1}{M_{b}} Σ_{i = 0}^{M_{b} - 1} | B_{i + 1} - B_{i} |

是血液像素变化特征，M_b是镜头中含有血液像素的帧总数，B_i是第i帧含有的血液像素百分比；

4)镜头长度：即帧总数L；

5)音频能量：

E (i) = Σ_{n = 1}^{N} x_{i}^{2} (n)

x_i(n)是音频信号第n个采样点的值，E(i)是整个音频片段的能量；

\overset{&OverBar;}{E} = \frac{1}{m} Σ_{i = 1}^{m} E (i)

表示镜头m个音频片段的平均能量强度；

6)音频能量熵：

I_{n} = - Σ_{i = 1}^{J} σ_{i}^{2} \log_{2} σ_{i}^{2}

是第i个音频片段的能量强度，I_n是第n个音频帧的能量熵；

I_{s} = \underset{n = 1, ... k}{m i n} I_{n}

I_s表示镜头的音频能量熵；

7)Mel倒谱系数，计算过程如下：

(1)对音频信号进行快速傅立叶变换计算；

(2)通过滤波器组滤除杂波；

(3)Mel倒谱系数由离散余弦逆变换获得，计算公式如下：

C_{n} = \sqrt{\frac{2}{K}} Σ_{K = 1}^{K} (\log S_{K}) c o s [n (K - 0.5) π / K], n = 1, 2, ..., L

其中K是三角滤波器的个数，S_K是信号通过第K个三角滤波器后的Mel加权频谱，L是倒频谱的阶数；

在提取以上所述的镜头的视频、音频特征后，镜头x由特征向量表示。

2.根据权利要求1所述的方法，其特征在于，在步骤1中，将视频与简介、评论这样的文本信息同时作为一个视频样本的组成部分。

3.根据权利要求1所述的方法，其特征在于，将视频分类问题转化为多示例问题，镜头对应于示例，视频片段对应于包。