CN103413125B

CN103413125B - 基于判别性示例选择多示例学习的恐怖视频识别方法

Info

Publication number: CN103413125B
Application number: CN201310376064.7A
Authority: CN
Inventors: 胡卫明; 丁昕苗; 李兵
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Renmin Zhongke Beijing Intelligent Technology Co ltd
Priority date: 2013-08-26
Filing date: 2013-08-26
Publication date: 2016-08-17
Anticipated expiration: 2033-08-26
Also published as: CN103413125A

Abstract

本发明公开一种基于判别性示例选择多示例学习的恐怖视频识别方法。该方法包括：提取训练视频集中每个视频的视频镜头，针对每个视频镜头选取情感代表帧和情感突变帧表示该镜头；提取对每个镜头的音频和视频特征作为视频示例，组成视频示例集合；从所述视频示例集合中选择出判别性视频示例；计算训练视频集合中每个视频示例与所述判别性视频示例之间的相似性距离，得到特征向量集合；将待识别视频的特征向量与训练视频集合对应的特征向量集合进行稀疏重构，根据重构误差识别视频的类别。本发明提出了一种新的基于判别性示例选择的多示例学习模型应用到恐怖电影场景识别中，该技术具有重要的学术意义和社会意义，并具有广阔的应用前景。

Description

基于判别性示例选择多示例学习的恐怖视频识别方法

技术领域

本发明涉及模式识别和计算机网络内容安全领域，特别涉及一种基于判别性示例选择多示例学习的恐怖视频识别方法。

背景技术

随着互联网技术和应用的迅速发展，人们对互联网的认识和使用已越来越深入，同时，网络也给人们的生活带来了很多的便利，甚至改变了人们的生活方式。在互联网高速发展的基础上，色情、暴力、恐怖等有害信息的传播也变得越来越容易。心理学和生理学研究表明，互联网中的恐怖信息对青少年的身心健康产生的危害绝不亚于色情信息的危害。过多的恐怖信息可能使人长期处于极度的焦虑和恐惧中，甚至使人身心受到损害，容易产生心理失衡或障碍，严重时出现病理症状，导致各种恐怖症产生，甚至引发其它的精神疾病；过多恐怖信息的接触是恐惧症及其它心理病症的根源所在，同时，恐怖信息的过剩导致儿童、青少年的恐惧泛化，进而影响他们的社会认知及未来人格的健康发展；过多恐怖信息的接触将左右孩子的阅读取向，影响儿童青少年的审美情趣，可能引发学习不良问题，甚至引发犯罪。因此，有效地对互联网中的恐怖信息进行过滤，对于保护青少年的健康成长，降低青少年犯罪，维护社会稳定，以及抵制互联网低俗之风都具有重要的实际意义。

网络恐怖信息过滤的研究是一个多学科交叉的研究课题，涉及到网络内容安全、多媒体内容分析与理解、模式识别、机器学习等多个领域。而恐怖信息过滤又与传统的色情信息过滤有所不同，“恐怖”本身是一种情感的感知与感受，所以恐怖信息过滤还涉及到情感认知以及视觉心理学领域的相关研究，其研究具有重要的学术意义。

恐怖视频由于其信息量大，形象生动，相比文字类或图片类的恐怖信息对青少年的危害更大，识别难度更高，是当前网络恐怖信息过滤中的难点之一。随着互联网过滤技术的发展，越来越多的研究者开始关注专门的恐怖视频识别技术。Wang等基于情感认知理论对每个恐怖视频的所有关键帧提取了一系列有效的音视频及情感特征，平均化后作为整个视频的情感特征，并使用支持向量机(Support Vector Machine，SVM)来进行恐怖视频的分类识别。由于恐怖视频并不是所有的帧都包含恐怖信息，提取整个恐怖视频的平均特征必将淡化恐怖视频帧的特征信息，从而导致识别率的下降。基于恐怖视频中一定会出现恐怖视频帧，而非恐怖视频中不会包含任何恐怖视频帧的特点，Wang等和Wu等将视频看作多示例学习中的包(bag)，视频中的关键帧看作包内的示例(instance)，提出采用多示例学习(Multi-Instance Learning，MIL)的方法来识别恐怖视频，并取得了较好的实验效果。而多示例学习问题中的难点在于无法知道包内示例的准确标签，正包中的某些负示例给包本身带来了冗余和干扰信息。同样地，通过对大量的恐怖视频的观察发现，恐怖视频中的非恐怖视频帧对视频识别带来了大量的冗余信息和噪声。如何能有效的剔除掉干扰，保留有判别力的帧信息对改进恐怖视频识别效果非常重要。

发明内容

(一)要解决的技术问题

有鉴于此，本发明的主要目的是提供一种可以剔除视频中的冗余干扰信息，提取视频包判别性特征的算法框架。

(二)技术方案

为达到上述目的，本发明提供了一种基于判别性示例选择多示例学习的恐怖视频识别方法，该方法包括：

步骤1、提取训练视频集中每个视频的视频镜头，针对每个视频镜头选取情感代表帧和情感突变帧表示该镜头；

步骤2、提取对每个镜头的音频和视频特征作为视频示例，组成视频示例集合；

步骤3、从所述视频示例集合中选择出判别性视频示例；

步骤4、计算训练视频集合中每个视频示例与所述判别性视频示例之间的相似性距离，得到训练视频的特征向量集合；

步骤5、将待识别视频的特征向量与训练视频集合的特征向量集合进行稀疏重构，根据重构误差识别待识别视频是否为恐怖视频类别。

其中，步骤1中每个镜头的情感代表帧和情感突变帧如下提取：

步骤1.1、以镜头为单位计算每个视频帧的颜色情感强度值；

步骤1.2、计算每个镜头内视频帧颜色情感强度值的平均值和方差值；

步骤1.3、选择情感强度值最接近平均值的视频帧作为情感代表帧；

步骤1.4、选择情感强度方差值最大的视频帧作为情感突变帧。

其中，所述视频帧的颜色情感强度值如下计算：

{EI}_{i} = \frac{1}{K \times L} Σ_{m = 1}^{K} Σ_{n = 1}^{L} EI (m, n)

其中，EI_i表示第i个视频帧的颜色情感强度值，EI(m，n)为第i个视频帧中第m行n列像素点的颜色情感强度值，计算如下：

EI (m, n) = \sqrt{{Activity}^{2} + {Weight}^{2} + {Heat}^{2}}

其中，Activity表示活动性，Weight表示重要性，Heat表示热度。

其中，步骤2中视频特征基于表示镜头的情感代表帧和情感突变帧提取。

其中，步骤3具体包括先从所述视频示例集合中选择出具有代表性的视频示例，再根据所选择的具有代表性的视频示例选择判别性示例。

其中，步骤3中具有代表性的视频示例如下选择：

步骤3.1、构建具有自表述能力的稀疏字典学习模型，进而得到字典线性表示系数，该稀疏字典学习模型的优化目标函数如下表示：

\min_{B} {| | Q - QB | |}_{F}^{2} + γ {| | B | |}_{2,1}, s . t . 1^{T} B = 1^{T}

其中，Q是所述视频示例集合中每个视频的视频示例按列排列得到的矩阵，即为示例字典，B是字典线性表示系数矩阵，γ为正则系数；

步骤3.2、根据所述稀疏字典学习模型的优化目标函数迭代计算得到所述字典线性表示系数矩阵B；

步骤3.3、选择所述字典线性表示系数矩阵中非零行序号对应的矩阵Q的列作为具有代表性的视频示例。

其中，所述判别性视频示例如下计算：

步骤3.4、将所述视频示例集合中的所有视频示例投影到所述具有代表性的视频示例，得到每个视频示例的代表性示例投影特征；

步骤3.5、计算每个视频示例的代表性示例投影特征的方差值；

步骤3.6、将选择方差值最大的代表性示例投影特征对应的具有代表性的视频示例作为判别性示例。

其中，所述步骤4中相似性距离如下计算：

S (X_{i}, x^{m}) = \max_{x_{ij} &Element; X_{i}} \exp (- θ {| | x_{ij} - x^{m} | |}^{2})

其中，X_i表示训练视频集合中的第i个视频，x^m代表第m个判别性示例，θ为相似性距离缩放尺度，视频X_i的特征向量集合如下表示：

f_{X_{i}} = {[s (X_{i}, x^{1}), s (X_{i}, x^{2}), \cdot \cdot \cdot, s (X_{i}, x^{k})]}^{T} .

其中，步骤5中按照如下视频重构优化目标函数进行稀疏重构：

\min_{α} \frac{1}{2} {| | f_{X^{'}} - Fα | |}_{2}^{2} + η {| | α | |}_{1}

其中，f_X′为待识别视频的特征向量，为训练视频集合中每个视频的特征向量集合，α为重构系数，η为正则系数，||·||₁表示l₁范式；

通过上式优化得到重构系数α，继而得到重构误差：

r_{c} = \frac{1}{2} {| | f_{X^{'}} - F δ_{c} (α) | |}_{2}^{2}, c = 1,2

其中，δ_c(α)为训练视频集合中第c个类别的视频对应的重构系数；待识别视频的类别选取重构误差r_c最小的类别。

其中，待识别视频的特征向量也通过计算与所述判别性视频示例之间的相似性距离得到。

(三)有益效果

从上述技术方案可以看出，本发明具有以下优点：

(1)本发明将具有自表述能力的稀疏字典学习引入到恐怖视频识别中，有效去除了冗余干扰数据。

(2)本发明提出向字典词汇投影的方式，将示例特征分解，并通过计算投影特征方差的方式，选取了判别性高的代表性示例，通过视频包与判别性示例的相似性距离构造包的特征，提高了包特征的判别性，进而提高了视频的分类识别率。

附图说明

图1为本发明中基于判别性示例选择多示例学习的视频场景识别方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

图1示出了本发明提供的基于判别性示例选择多示例学习的恐怖视频场景识别方法流程图。如图1所示，该方法具体包括以下步骤：

步骤1：对训练视频集中的视频进行结构化分析，采用基于信息论的互信息熵镜头分割算法提取每个视频的视频镜头，然后，针对每个镜头选取情感代表帧和情感突变帧来表示该镜头，具体提取步骤包括：

步骤1.1：以镜头为单位计算每个视频帧的颜色情感强度值；假设第i帧图像由K行L列像素组成，则该帧图像的情感强度值计算如下：

{EI}_{i} = \frac{1}{K \times L} Σ_{m = 1}^{K} Σ_{n = 1}^{L} EI (m, n)

其中，EI(m,n)为第m行n列像素点的颜色情感强度值，计算如下：

EI (m, n) = \sqrt{{Activity}^{2} + {Weight}^{2} + {Heat}^{2}}

Activity表示活动性、Weight表示重要性，Heat表示热度，其计算如下：

activity = - 2.1 + 0.06 {[{(L^{*} - 50)}^{2} + {(a^{*} - 3)}^{2} + {(\frac{b^{*} - 17}{1.4})}^{2}]}^{1 / 2}

weight=-1.8+0.04(100-L^*)+0.45cos(h-100°)

heat=-0.5+0.02(C^*)^1.07cos(h-50°)

其中，(L^*，a^*，b^*)和(L^*，C^*，h)分别是颜色空间CIELAB和CIELCH的颜色分量。

步骤1.2：计算每个镜头内视频帧颜色强度值的平均值和方差值；假设一个镜头包含N个视频帧图像，则镜头的颜色强度平均值计算如下：

{mean}_{EI} = \frac{1}{N} Σ_{i = 1}^{N} {EI}_{i}

该镜头内第i帧图像的颜色情感强度值的方差计算如下：

var_i=(EI_i-mean_EI)²

步骤1.3：选择情感强度值最接近平均值的视频帧作为情感代表帧；

步骤1.4：选择情感强度方差值最大的视频帧作为情感突变帧；

步骤2：以镜头为单位提取视频的视觉情感特征和音频情感特征，将一个视频场景看作一个视频包，该场景内的镜头音视频特征看作包内的“示例”，构成多示例学习框架数据结构。提取的音视频特征如表1所示。其中，音频情感特征以一个镜头长度提取，视觉情感特征则基于镜头提取的情感代表帧和情感突变帧提取。

表1特征汇总表

步骤3：构造具有自表述能力的字典学习模型，选择出具有代表性的视频包示例。具体内容包括：

步骤3.1：将所有视频提取的音视频特征构成的示例集合作为字典。即得到如下的字典形式：

M＝n₁+n₂+…+n_N

其中，X_i表示第i个视频包的特征矩阵，为所有视频示例特征，即在步骤2中所提取的音视频特征，特征值依据表1中所示特征由上到下排列为一列。n_i为第i个视频包X_i的示例数，N为视频训练集中视频包数量，M为所有示例数。

步骤3.2：构造具有自表述能力的稀疏字典学习模型，并学习得到字典线性表示系数。该稀疏字典模型优化目标函数如下：

\min_{B} {| | Q - QB | |}_{F}^{2} + γ {| | B | |}_{2,1}, s . t . 1^{T} B = 1^{T}

其中，Q是步骤3.1中将所有视频示例特征按列排列得到的矩阵，即为示例字典，B是Q中的每个示例用字典中词汇进行线性表示时对应的稀疏码，γ为正则系数，用来控制对稀疏码B的约束力度，γ越大，表示对B的要求越稀疏，反之亦然。通过迭代的ADMM(Alternating Direction Methodof Multipliers)优化过程可以求得B，即字典线性表示系数。

步骤3.3：挑选字典线性表示系数(步骤3.2学习得到的B)的非零行序号对应的示例字典(步骤3.1中的矩阵Q)的列作为代表性示例。

步骤4：选择具有判别性的示例。具体内容包括：

步骤4.1：将所有视频镜头的音视频特征，投影到步骤3选择出的代表性示例，得到每个示例的代表性示例投影特征。具体过程包括：

步骤4.1.1：假设步骤3选择出的代表性示例为q₁，q₂，…q_R，将任意示例x_ij的特征分解如下：

x_{ij} \approx {β_{l}}^{(1)} q_{1} + {β_{l}}^{(2)} q_{2} + \cdot \cdot \cdot + {β_{l}}^{(R)} q_{R}

步骤4.1.2：令t＝1，…，R，l＝1，…，M定义为示例x_ij在字典中代表性示例上的投影特征向量。

步骤4.2：计算每个代表性示例投影特征的方差值。具体计算如下：

σ^{t} = \frac{1}{M} Σ_{l = 1}^{M} {(p_{l}^{t} - {\overset{&OverBar;}{p}}^{t})}^{2}, t = 1, \cdot \cdot \cdot, R

其中，是投影特征向量的均值，M为所有训练视频示例数。

步骤4.3：将代表性示例投影特征的方差值按由大到小排序，选择最大的k个代表性示例投影特征对应的代表性示例作为判别性示例。

步骤5：计算训练视频集中视频包与每个判别性示例的相似性距离，组成每个视频包的特征向量。其中，视频包与判别性示例的相似性距离计算如下：

s (X_{i}, x^{m}) = \max_{x_{ij} &Element; X_{i}} \exp (- θ {| | x_{ij} - x^{m} | |}^{2})

其中，X_i表示第i个视频包，x^m代表步骤4挑选出的第m个判别性示例，θ为预先设置的相似性距离缩放尺度。由视频包与判别性示例相似性距离组成的视频包X_i的特征形式如下：

{f_{X}}_{i} = {[s (X_{i}, x^{1}), s (X_{i}, x^{2}), \cdot \cdot \cdot, s (X_{i}, x^{k})]}^{T}

其中，x¹，x²，…x^k是步骤4挑选出来的k个判别性示例。

步骤6：以与步骤5记载的同样的方式得到待识别视频特征向量，用步骤5中得到的视频包X_i的特征获取方式得到待识别视频X′的特征向量如下：

f_X′＝[s(X′，x¹)，s(X′，x²)，…，s(X′，x^k)]^T

并将待识别视频特征向量用训练视频特征向量集合稀疏重构，通过重构误差的大小来判断待识别视频的类别：恐怖或非恐怖。

其中，待识别视频重构优化形式如下：

\min_{α} \frac{1}{2} {| | f_{X^{'}} - Fα | |}_{2}^{2} + η {| | α | |}_{1}

其中，f_X′为待识别视频特征向量，为训练视频集合的特征向量集合，α为重构系数，η为正则系数，||·||₁表示l₁范式，通过FeatureSign Search(FSS)算法可以得到优化重构系数α，继而可得到重构误差的计算如下：

r_{c} = \frac{1}{2} {| | f_{X'} - {Fδ}_{c} (α) | |}_{2}^{2}

其中，δ_c(α)选取的是训练视频集合中为第c个类别的视频的重构系数，c＝1，2，分别表示恐怖类型和非恐怖类型。最后的待识别视频类别选取重构误差r_c最小的类别。即测试视频类别C：

C = \min_{c} r_{c}

其中，步骤5中的相似性距离缩放尺度θ和步骤6中的正则系数η的确定方式进一步描述如下：

将θ的取值范围设定为[0.01，0.1，0.5，1，1.5，2，2.5，3，3.5，4，4.5，5，5.5，6]，η的取值范围设定为[0.0001，0.001，0.01，0.1，1，10]。针对每一种参数取值组合，将训练视频集合分为三份，选择其中一份作为测试集合，另外两份作为训练集合，按照步骤1-6的方法进行测试集合的预测。重复3次该预测过程，每次选择不同的测试集合和训练集合，将3次预测结果进行平均，取最优的预测结果对应的参数取值作为θ和η的最终取值。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种恐怖视频识别方法，该方法包括：

步骤3、从所述视频示例集合中选择出判别性视频示例；

步骤5、将待识别视频的特征向量与训练视频集合的特征向量集合进行稀疏重构，根据重构误差识别待识别视频是否为恐怖视频类别；

\min_{α} \frac{1}{2} | | f_{X^{'}} - F α | |_{2}^{2} + η | | α | |_{1}

通过上式优化得到重构系数α，继而得到重构误差：

\begin{matrix} r_{c} = \frac{1}{2} | | f_{X^{'}} - {Fδ}_{c} (α) | |_{2}^{2} & c = 1, 2 \end{matrix}

2.如权利要求1所述的恐怖视频识别方法，其特征在于，步骤1中每个镜头的情感代表帧和情感突变帧如下提取：

步骤1.1、以镜头为单位计算每个视频帧的颜色情感强度值；

3.如权利要求2所述的恐怖视频识别方法，其特征在于，所述视频帧的颜色情感强度值如下计算：

{EI}_{i} = \frac{1}{K \times L} Σ_{m = 1}^{K} Σ_{n = 1}^{L} EI (m, n)

EI (m, n) = \sqrt{{Activity}^{2} + {Weight}^{2} + {Heat}^{2}}

其中，Activity表示活动性，Weight表示重要性，Heat表示热度。

4.如权利要求1-3任一项所述的恐怖视频识别方法，其特征在于，步骤2中视频特征基于表示镜头的情感代表帧和情感突变帧提取。

5.如权利要求1-3任一项所述的恐怖视频识别方法，其特征在于，步骤3具体包括先从所述视频示例集合中选择出具有代表性的视频示例，再根据所选择的具有代表性的视频示例选择判别性示例。

6.如权利要求5所述的恐怖视频识别方法，其特征在于，步骤3中具有代表性的视频示例如下选择：

\min_{B} {| | Q - QB | |}_{F}^{2} + γ {| | B | |}_{2,1} s . t . 1^{T} B = 1^{T}

7.如权利要求6所述的恐怖视频识别方法，其特征在于，所述判别性视频示例如下计算：

8.如权利要求1所述的恐怖视频识别方法，其特征在于，所述步骤4中相似性距离如下计算：

s (X_{i}, x^{m}) = \max_{x_{ij} &Element; X_{i}} \exp (- θ {| | x_{ij} - x^{m} | |}^{2})

f_{X_{i}} = {[s (X_{i}, x^{1}), s (X_{i}, x^{2}), . . ., s (X_{i}, x^{k})]}^{T} .

9.如权利要求1所述的恐怖视频识别方法，其特征在于，待识别视频的特征向量也通过计算与所述判别性视频示例之间的相似性距离得到。