CN103854014A

CN103854014A - 一种基于上下文稀疏表示的恐怖视频识别方法及装置

Info

Publication number: CN103854014A
Application number: CN201410065197.7A
Authority: CN
Inventors: 李兵; 胡卫明; 丁昕苗; 祝守宇
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2014-02-25
Filing date: 2014-02-25
Publication date: 2014-06-11

Abstract

本发明公开了一种基于上下文稀疏表示的恐怖视频识别方法及装置，该方法包括：对训练视频样本进行镜头分割，然后针对每个镜头选取一幅关键帧来代表该镜头；提取每个关键帧的视觉特征，并提取整个训练视频样本的音频特征；建立起每一个训练视频样本内部各个关键帧之间的上下文关系图；提取待识别视频的视觉特征、音频特征；构建待识别视频与训练视频样本之间的代价矩阵；基于上下文稀疏表示模型，利用所有训练视频样本对所述待识别视频进行重构，重构误差最小的训练视频样本的类别即为待识别视频的类别；其中所述上下文稀疏表示模块以所述训练视频样本的上下文关系图作为稀疏表示的词典，并利用所述代价矩阵对其进行约束。

Description

一种基于上下文稀疏表示的恐怖视频识别方法及装置

技术领域

本发明涉及模式识别和计算机网络内容安全领域，特别涉及一种基于上下文稀疏表示的恐怖视频识别方法及装置。

背景技术

随着互联网技术和应用的迅速发展，互联网也给人们的生活带来便利的同时，也给不良信息的传播提供了方便。在互联网高速发展的基础上，色情、暴力、恐怖等有害信息的传播也变得越来越容易。心理学和生理学研究表明，互联网中的恐怖信息对青少年的身心健康产生的危害绝不亚于色情信息的危害。过多的恐怖信息可能使人长期处于极度的焦虑和恐惧中，甚至使人身心受到损害，容易产生心理失衡或障碍，严重时出现病理症状，导致各种恐怖症产生，甚至引发其它的精神疾病。过多恐怖信息的接触是恐惧症及其它心理病症的根源所在。同时，恐怖信息的过剩导致儿童、青少年的恐惧泛化，进而影响他们的社会认知及未来人格的健康发展；过多恐怖信息的接触将左右孩子的阅读取向，影响儿童青少年的审美情趣，可能引发学习不良问题，甚至引发犯罪。

网络不良信息的危害早已得到国际社会的广泛关注，现有的研究主要关注色情信息的过滤。虽然恐怖信息的危害不亚于色情信息，但之前的研究主要关色情图像和色情视频的识别与过滤。目前尚未有太多的研究注恐怖信息的过滤。

发明内容

(一)要解决的技术问题

本发明的主要目的是提出一种可以兼顾关键帧之间上下文关系以及音视频融合的恐怖视频识别的方法。

(二)技术方案

为达到上述目的，本发明提供了一种基于上下文稀疏表示的恐怖视频识别方法，该方法包括：

步骤1：对训练视频样本进行镜头分割，然后针对每个镜头选取一幅关键帧来代表该镜头；

步骤2：提取每个关键帧的视觉特征，并提取整个训练视频样本的音频特征；

步骤3：利用ε-graph建图方法，建立起每一个训练视频样本内部各个关键帧之间的上下文关系图；

步骤4：对待识别视频进行镜头分割，并针对每个镜头选取一幅关键帧，提取所选取关键帧的视觉特征；并提取待识别视频的音频特征；

步骤5：构建待识别视频与训练视频样本之间的代价矩阵，其对角元素为待识别视频与各个训练视频样本的音频特征之间的距离；

步骤6：基于上下文稀疏表示模型，利用所有训练视频样本对所述待识别视频进行重构，重构误差最小的训练视频样本的类别即为待识别视频的类别；其中所述上下文稀疏表示模块以所述训练视频样本的上下文关系图作为稀疏表示的词典，并利用所述代价矩阵对其进行约束。

本发明还提供了一种基于上下文稀疏表示的恐怖视频识别装置，包括：

镜头提取模块，对训练视频样本进行镜头分割，然后针对每个镜头选取一幅关键帧来代表该镜头；

特征提取模块，提取每个关键帧的视觉特征，并提取整个训练视频样本的音频特征；

关系建立模块，利用ε-graph建图方法，建立起每一个训练视频样本内部各个关键帧之间的上下文关系图；

待识别视频特征提取模块，对待识别视频进行镜头分割，并针对每个镜头选取一幅关键帧，提取所选取关键帧的视觉特征；并提取待识别视频的音频特征；

距离构建模块，构建待识别视频与训练视频样本之间的代价矩阵，其对角元素为待识别视频与各个训练视频样本的音频特征之间的距离；

识别模块，基于上下文稀疏表示模型，利用所有训练视频样本对所述待识别视频进行重构，重构误差最小的训练视频样本的类别即为待识别视频的类别；其中所述上下文稀疏表示模块以所述训练视频样本的上下文关系图作为稀疏表示的词典，并利用所述代价矩阵对其进行约束。

(三)有益效果

从上述技术方案可以看出，本发明具有以下优点：

1、本发明提供的这种恐怖视频识别方法，首次将视频帧的上下文关系考虑进识别算法中。

2、本发明利用代价约束的方法有效地融合了音频和视觉信息。

3、本发明所提出的恐怖视频识别方法基于上下文稀疏表示模型，该模型无需学习过程，可扩充性强，能够快捷、高效地完成视频识别。

附图说明

图1为本发明提供的基于上下文稀疏表示的恐怖视频识别流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

图1示出了本发明提出的一种基于上下文稀疏表示的恐怖视频识别方法的过程示意图。如图1所述，该方法包括以下几方面内容：

步骤1：对每一个训练视频样本进行视频镜头分割和关键帧选取，然后提取关键帧的视觉特征，并提取整个视频场景的音频特征。将每个关键帧对应的视觉特征向量构成多示例学习中的示例，每个场景对应的所有的关键帧的特征向量集合构成一个示例包。

本发明采用基于信息论的镜头检测方法分割视频镜头，该方法通过计算相邻帧之间的互信息和联合熵来检测镜头边界，这种检测方法在包含各种类型的镜头边界、有显著目标运动和摄像机运动的视频数据库上取得了很好的检测结果。对于每个镜头选取镜头的中间帧作为关键帧。

特征提取在恐怖视频识别框中起着最重要的作用，本发明中主要提取了以下视音频特征：

表1特征汇总表

步骤2：利用ε-graph对每个场景内的所有关键帧构建一个上下文关系图，并得到图的邻接矩阵。

传统的多示例学习中，包中的示例都被假设是独立同分布的。但视频帧之间很难符合这个假设条件。为了解决这个矛盾，本发明中采用了图的结构来描述一个视频场景中关键帧之间的上下文关系。对于一个含有n_i个关键帧的视频包

其中v_i，k表示第k个关键帧的视觉特征。利用ε-graph来构建视频包V_i的上下文关系图为G_i及其对应的邻接矩阵为Wⁱ，其中上下文关系图G_i中的各个顶点为视频包V_i中所有关键帧，邻接矩阵Wⁱ中的各个元素为上下文关系图G_i中各个顶点对应的关键帧之间的距离。首先计算V_i内每一对示例v_i，k和v_i，l之间的欧氏距离。如果距离小于指定阈值ε，则设置矩阵Wⁱ第k行第l列以及第l行第k列的元素Wⁱ(k，l)=Wⁱ(l，k)=1，否则Wⁱ(k，l)=Wⁱ(l，k)=0。

步骤3：对待检测视频进行结构化分析，同样进行镜头分割和关键帧选取，并提取关键帧的视觉特征，提取整个视频场景的音频特征。利用ε-graph对测试视频内的所有关键帧构建一个上下文关系图，并得到对应图的邻接矩阵。

步骤4：以训练视频的上下文关系图作为稀疏表示的词典，根据待检测视频的音频特征到所有训练视频样本的音频特征之间的欧式距离构建一个代价矩阵。所述代价矩阵为对角矩阵，其对角线元素由待检测视频样本的音频特征与训练视频样本的音频特征之间的距离组成。

步骤5：基于本发明提出的上下文稀疏表示模型，利用所有的训练视频样本对所述待检测视频样本进行稀疏重构，分别计算待检测视频与训练视频中所有恐怖类和非恐怖类视频场景的重构误差，误差小的类别即判定为待检测视频的类别。

稀疏表示被广泛的应用于物体识别与分类问题中，其目标是用一系列的“基向量”稀疏地线性表示出输入向量。在本发明中，给定N个训练视频样本{(V₁，G₁，y₁)，...，(V_i，G_i，y_i)，...，(V_N，G_N，y_N)}和每个视频对应的音频特征为{a₁，...，a_i，...，a_N}。其中

表示一个视频包，其包含该视频的所有关键帧的视觉特征向量v_i，k。G_i表示V_i视频包内关键帧的上下文关系图，其对应邻接矩阵为Wⁱ，y_i为训练视频样本的类别标签，0表示非恐怖，1表示恐怖。

假设存在映射函数将图结构投影到高维特征空间

如果给定待检测视频样本(V′，G′，y′)和对应的音频特征a′，其中标签y′未知。我们可以得到上下文稀疏表示形式如下：

其中，

为待检测视频的上下文关系图对应的高维特征向量；公式(1)中的第一项为重构误差项，第二项λ||Dβ||₁则为正则化项，确保系数β的稀疏性，即确保β拥有尽可能少的非零项。对角矩阵D为代价矩阵，其对角线元素由待检测视频样本的音频特征与训练视频样本的音频特征之间的欧式距离组成，此代价矩阵可以根据待检测视频样本与训练视频样本的音频距离大小控制系数β的稀疏性，距离大者，系数更趋向于零，反之，则更趋于非零；||a_N-a′||为第N个训练视频样本的音频特征到待检测视频的音频特征之间的欧式距离。由此，该稀疏表示形式中，即考虑了视频内帧之间的上下文关系，也把音频特征和视觉特征的上下文关系通过代价矩阵融合到了一起。

公式(1)的求解过程如下：

首先，令γ=Dβ，则β=D^-1γ，公式(1)可改写为：

再令V=UD^-1，则公式(2)可改写为如下形式：

其中，

公式(3)为一般稀疏表示优化问题。只要求出公式(4)中的V^TV和

则可由Feature-Sign Search algorithm(FSS)算法求出稀疏系数γ。其中公式(4)可等价为以下形式：

其中K_g()表示各个图结构在高维空间中的点积，可以用一个图核函数来表示。在该发明中采用以下核函数：

其中，

Wⁱ和W^j分别是视频V_i和V_j的图结构的邻接矩阵。K(v_i，a，v_j，b)是高斯核函数，σ为可调参数。

有了核函数则可以求出矩阵K_UU和K_UG′，继而可以通过FSS算法求解稀疏系数γ。

求出系数γ以后，则可以分别求出待检测视频样本与训练视频样本中恐怖和非恐怖视频线性表示之间的重构误差如下：

\begin{matrix} r_{q} (G^{'}) = {| | φ (G^{'}) - {UD}^{- 1} δ_{q} (γ) | |}^{2} \\ = 1 + δ_{q} {(γ)}^{T} {(D^{- 1})}^{T} K_{UU} D^{- 1} δ_{q} (γ) - 2 δ_{q} {(γ)}^{T} K_{{UG}^{'}} \\ {[δ_{q} (γ)]}_{k} = \{\begin{matrix} γ_{k}, & y_{k} = q \\ 0, & y_{k} &NotEqual; q \end{matrix} \end{matrix} - - - (7)

其中，δ_q(γ)是一个系数选择器，仅选择与类别q={0，1}有关的系数。待检测视频样本的类别y′则由下式决定：

y^{'} = \underset{q}{\arg \min} (r_{q} (G^{'})) - - - (8)

本发明还提出了一种基于上下文稀疏表示的恐怖视频识别装置，包括：

由于该装置与上述方法对应一致，具体细节详见对方法的描述，在此不再赘述。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。