CN103473555B

CN103473555B - 基于多视角多示例学习的恐怖视频场景识别方法

Info

Publication number: CN103473555B
Application number: CN201310376618.3A
Authority: CN
Inventors: 胡卫明; 丁昕苗; 李兵
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Renmin Zhongke Beijing Intelligent Technology Co ltd
Priority date: 2013-08-26
Filing date: 2013-08-26
Publication date: 2016-09-21
Anticipated expiration: 2033-08-26
Also published as: CN103473555A

Abstract

本发明公开了一种基于多视角多示例学习的恐怖视频识别方法，其包括：对训练视频集合中的视频提取视频镜头，并针对每个视频镜头选取情感代表帧和情感突变帧；对训练视频集合中每个视频镜头提取音频和视觉特征，其中视觉特征基于所提取的情感代表帧和情感突变帧提取；对于每一个视频提取其四个视角特征向量，构成训练视频集合的多视角特征集合；对所得到的训练视频集合对应的多视角特征集合和待识别视频的多视角特征向量进行稀疏重构，得到稀疏重构系数；根据所述稀疏重构系数计算待识别视频的多视角特征向量与训练视频集合中恐怖视频集合与非恐怖视频集合分别对应的多视频特征集合的重构误差，进而确定待识别视频是否为恐怖视频。

Description

基于多视角多示例学习的恐怖视频场景识别方法

技术领域

本发明涉及模式识别和计算机网络内容安全领域，特别涉及一种基于多视角多示例学习的恐怖视频场景识别方法。

背景技术

随着互联网技术和应用的迅速发展，人们对互联网的认识和使用已越来越深入，同时，网络也给人们的生活带来了很多的便利，甚至改变了人们的生活方式。在互联网高速发展的基础上，色情、暴力、恐怖等有害信息的传播也变得越来越容易。心理学和生理学研究表明，互联网中的恐怖信息对青少年的身心健康产生的危害绝不亚于色情信息的危害。过多的恐怖信息可能使人长期处于极度的焦虑和恐惧中，甚至使人身心受到损害，容易产生心理失衡或障碍，严重时出现病理症状，导致各种恐怖症产生，甚至引发其它的精神疾病；过多恐怖信息的接触是恐惧症及其它心理病症的根源所在，同时，恐怖信息的过剩导致儿童、青少年的恐惧泛化，进而影响他们的社会认知及未来人格的健康发展；过多恐怖信息的接触将左右孩子的阅读取向，影响儿童青少年的审美情趣，可能引发学习不良问题，甚至引发犯罪。因此，有效地对互联网中的恐怖信息进行过滤，对于保护青少年的健康成长，降低青少年犯罪，维护社会稳定，以及抵制互联网低俗之风都具有重要的实际意义。

网络恐怖信息过滤的研究是一个多学科交叉的研究课题，涉及到网络内容安全、多媒体内容分析与理解、模式识别、机器学习等多个领域。而恐怖信息过滤又与传统的色情信息过滤有所不同，“恐怖”本身是一种情感的感知与感受，所以恐怖信息过滤还涉及到情感认知以及视觉心理学领域的相关研究，其研究具有重要的学术意义。

恐怖视频由于其信息量大，形象生动，相比文字类或图片类的恐怖信息对青少年的危害更大，识别难度更高，是当前网络恐怖信息过滤中的难点之一。随着互联网过滤技术的发展，越来越多的研究者开始关注专门的恐怖视频识别技术。Wang等基于情感认知理论对每个恐怖视频的所有关键帧提取了一系列有效的音视频及情感特征，平均化后作为整个视频的情感特征，并使用支持向量机(Support Vector Machine，SVM)来进行恐怖视频的分类识别。由于恐怖视频并不是所有的帧都包含恐怖信息，提取整个恐怖视频的平均特征必将淡化恐怖视频帧的特征信息，从而导致识别率的下降。基于恐怖视频中一定会出现恐怖视频帧，而非恐怖视频中不会包含任何恐怖视频帧的特点，Wang等和Wu等将视频看作多示例学习中的包(bag)，视频中的关键帧看作包内的示例(instance)，提出采用多示例学习(Multi-Instance Learning，MIL)的方法来识别恐怖视频，并取得了较好的实验效果。然而，在传统多示例学习框架中，示例之间被假定为相互独立的，这并不完全符合视频的特点，即视频中的关键帧之间存在一种上下文关系，另外，上下文关系只反映了恐怖视频一个视角特性，通过观察发现，恐怖视频包含多个视角特性，包括：独立视角特性、低层上下文视角特性、中层上下文特性、情感特征分布视角特性。多个视角特性融合可以有效提高视频的识别率。

发明内容

(一)要解决的技术问题

有鉴于此，本发明的主要目的是提供一种可以兼顾视频多个视角特性的算法框架。

(二)技术方案

为达到上述目的，本发明提供了一种基于多视角多示例学习的恐怖视频识别方法，其包括：

步骤1、对训练视频集合中的视频提取视频镜头，并针对每个视频镜头选取情感代表帧和情感突变帧；

步骤2、对训练视频集合中每个视频镜头提取音频和视觉特征，其中视觉特征基于所提取的情感代表帧和情感突变帧提取；

步骤3、对于每一个视频提取其四个视角特征向量，构成训练视频集合的多视角特征集合，所述四个视角特征包括独立视角特征、中层上下文视角特征、低层上下文视角特征、情感特征分布视角特征；

步骤4、对所得到的训练视频集合对应的多视角特征集合和待识别视频的多视角特征向量进行稀疏重构，得到稀疏重构系数；

步骤5、根据所述稀疏重构系数计算待识别视频的多视角特征向量与训练视频集合中恐怖视频集合与非恐怖视频集合分别对应的多视频特征集合的重构误差，进而确定待识别视频是否为恐怖视频。

其中，步骤1具体包括如下步骤：

步骤1.1、以镜头为单位计算每个视频帧的颜色情感强度值；

步骤1.2、计算每个镜头内视频帧颜色情感强度值的平均值和方差值；

步骤1.3、选择情感强度值最接近平均值的视频帧作为情感代表帧；

步骤1.4、选择情感强度方差值最大的视频帧作为情感突变帧。

其中，所述视频帧的颜色情感强度值如下计算：

{EI}_{i} = \frac{1}{K \times L} Σ_{m = 1}^{K} Σ_{n = 1}^{L} EI (m, n)

其中，EI_i表示第i个视频帧的颜色情感强度值，EI(m，n)为第i个视频帧中第m行n列像素点的颜色情感强度值，计算如下：

EI (m, n) = \sqrt{{Activity}^{2} + {weight}^{2} + {Heat}^{2}}

其中，Activity表示活动性，Weight表示重要性，Heat表示热度。

其中，步骤2中视频特征基于表示镜头的情感代表帧和情感突变帧提取。

其中，步骤3中每个视频的独立视角特征为每个视频的音频特征和视觉特征构成的特征集合。

其中，步骤3中每个视频的中层上下文视角特征如下获得：

步骤3.2.1、将每个视频按照镜头顺序排列其音频特征和视觉特征，得到音视频特征序列；

步骤3.2.2、将训练视频集合中所有视频分为恐怖视频集合和非恐怖视频集合，并分别训练两个HDP-HMM模型，得到相应的恐怖和非恐怖HDP-HMM模型参数；

步骤3.2.3、将所述视频特征序列输入所述两个训练好的HDP-HMM模型得到训练视频集合中每个视频中镜头的隐状态；

步骤3.2.4、统计每个视频出现的隐状态数量，构成该视频对应的状态分布图，得到该视频的中层上下文视角特征。

其中，步骤3中每个视频的低层上下文视角特征为每个视频对应的构造ε-graph图的权重矩阵，即计算每个视频的每两个音频、视觉特征之间的欧式距离，距离小于阈值ε，则这两个特征之间的边的权值为1，否则为0。

其中，步骤3中每个视频的情感特征分布视角特征如下获得：

步骤3.4.1、将对每个视频的音频、视觉特征进行聚类，得到聚类中心构成的视觉词典;

步骤3.4.2、统计每个视频中出现的视觉单词次数，得到视觉词包模型直方图分布，该视觉词包模型直方图分布即为情感特征分布视角特征。

其中，步骤4中稀疏重构系数根据下式获得：

\min_{A} \frac{1}{2} Σ_{i = 1}^{4} w^{i} {| | z_{test}^{i} - Z^{i} α^{i} | |}_{2}^{2} + λ {| | A | |}_{2,1}

其中，A=[α¹，α²，α³，α⁴]表示四种不同视角特征重构系数构成的矩阵，wⁱ，i＝1，2，3，4表示重构四种视角特征时的误差约束权重，为待识别视频的四种视角特征向量，Zⁱ，i＝1，2，3，4为根据训练视频集合对应的多视角特征集合得到的矩阵，其为将所述多视角特征集合中每种视角特征向量投影到高维空间得到的矩阵；λ为稀疏正则系数。

其中，步骤5中重构误差的计算方法如下：

r_{m} = Σ_{i = 1}^{4} w^{i} {| | z_{test}^{i} - Z^{i} α_{m}^{i} | |}_{2}^{2}

其中，表示与第m类对应的第i个视角特征的重构系数，为待识别视频的四种视角特征向量，wⁱ，i＝1，2，3，4表示重构四种视角特征时的误差约束权重，Zⁱ，i＝1，2，3，4为根据训练视频集合对应的多视角特征集合得到的矩阵，其为将所述多视角特征集合中每种视角特征向量投影到高维空间得到的矩阵。

其中，将所述多视角特征集合中每种视角特征向量投影到的高维空间对应的核函数分别如下所示：

(1)独立视角特征高维空间对应的核函数：

Ker (v_{i, a}, v_{j, b}) = \exp (- \frac{1}{σ_{1}} {| | v_{i, a} - v_{j, b} | |}^{2})

其中，V_i，V_j表示任意两个训练视频的独立视角特征，v_i，·，v_j，·分别代表V_i，V_j中的任一镜头的独立视角特征，n_i，n_j分别表示视频V_i，V_j包含的镜头数，Υ¹为将独立视角特征投影到高维空间的映射函数σ₁为核函数的宽度参数；投影后得到的高维空间独立视角特征为Z¹=[Υ¹(V₁)，Υ¹(V₂)，…，Υ¹(V_N)]，N为训练视频集合中的视频数；

(2)中层上下文视角特征高维空间对应的核函数：

其中，sem_hist_i，sem_hst_j表示任意两个训练视频的隐状态分布直方图，Υ²为将中层上下文视角特征投影到高维空间的映射函数Υ²：Dis_EMD(·)计算的是两个直方图分布的EMD距离，σ₂为核函数的宽度参数；投影后得到的高维空间中层上下文视角特征为Z²=[Υ²(sem_hist₁)，Υ²(sem_hist₂)，…，Υ²(sem_hist_N)]；

(3)低层上下文视角特征高维空间对应的核函数：

Ker (v_{i, a}, v_{j, b}) = \exp (- \frac{1}{σ_{3}} {| | v_{i, a} - v_{j, b} | |}^{2})

其中，G_i，G_j分别表示任意两个训练视频的低层上下文视角特征，v_i，·，v_j，·分别表示G_i，G_j中任一镜头对应的底层上下文视角特征，n_i，n_j分别为G_i，G_j对应视频所包含的镜头特征数，Υ³为将低层上下文视角特征投影到d₃维高维空间的映射函数

ω_{i, a} = 1 / Σ_{u = 1}^{n_{i}} W_{a, u}^{i}, ω_{j, b} = 1 / Σ_{u = 1}^{n_{i}} W_{b, u}^{j},

Wⁱ和W^j分别是G_i，G_j对应视频的ε-graph权重矩阵，σ₃为核函数的宽度参数，投影后得到的高维空间低层上下文视角特征为Z³=[Υ³(G₁)，Υ³(G₂)，…，Υ³(G_N)]；

(4)情感特征分布视角特征高维空间对应的核函数：

F ({b_{k}}_{1}, {b_{k}}_{2}) = \exp (- \frac{1}{σ_{4}} {| | {b_{k}}_{1} - {b_{k}}_{2} | |}^{2})

其中，Hist_i，Hist_j表示任意两个训练视频X_i，X_j的情感特征分布视角特征，Υ⁴为将低层上下文视角特征投影到d₄维高维空间的映射函数分别表示视频出现视觉单词和的频率，m_v是视觉词典中视觉单词的个数，σ₄为核函数的宽度参数；投影后得到的高维空间情感特征分布视角特征为Z⁴=[Υ⁴(Hist₁)，Υ⁴(Hist₂)，…，Υ⁴(Hist_N)]。

(三)有益效果

从上述技术方案可以看出，本发明具有以下优点：

(1)本发明首次提出恐怖视频的四个视角特性，包括：独立视角特性、低层上下文视角特性、中层上下文特性、情感特征分布视角特性。完善了恐怖视频的特征描述。

(2)本发明利用HDP-HMM(Hierarchical Dirichlet Process-HM)自动学习视频的隐藏状态，并通过状态分布实现了中层语义的提取，减小了低层特征到高层情感语义的鸿沟。

(3)本发明构造了多视角联合稀疏表示模型，在重构测试视频时可以同时兼顾多个视角特性。

(4)本发明所提出的算法基于稀疏表示模型，该模型无需学习过程，可扩充性强，能够更快捷，更高效的完成视频识别。

本发明提出了一种新的基于多视角的多示例学习模型应用到恐怖视频场景识别中，该技术具有重要的学术意义和社会意义，并具有广阔的应用前景。

附图说明

图1为本发明提供的基于多视角多示例学习的视频场景识别框架图；

图2为本发明提供的识别方法中训练的HDP-HMM模型示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

图1示出了本发明提供的基于多视角多示例学习的恐怖视频场景识别方法。如图1所示，该方法具体包括以下步骤：

步骤1：对视频进行结构化分析，采用基于信息论的互信息熵镜头分割算法提取视频镜头，然后，针对每个镜头选取情感代表帧和情感突变帧来表示该镜头，具体提取步骤包括：

步骤1.1：以镜头为单位计算每个视频帧的颜色情感强度值；假设第i帧图像由K行L列像素组成，则该帧图像的情感强度值计算如下：

{EI}_{i} = \frac{1}{K \times L} Σ_{m = 1}^{K} Σ_{n = 1}^{L} EI (m, n)

其中，EI(m,n)为第m行n列像素点的颜色情感强度值，计算如下：

EI (m, n) = \sqrt{{Activity}^{2} + {Weight}^{2} + {Heat}^{2}}

Activity表示活动性、Weight表示重要性，Heat表示热度，其计算如下：

activity = - 2.1 + 0.06 {[{(L^{*} - 50)}^{2} + {(a^{*} - 3)}^{2} + {(\frac{b^{*} - 17}{1.4})}^{2}]}^{1 / 2}

weight=-1.8+0.04(100-L^*)+0.45cos(h-100°)

heat=-0.5+0.02(C^*)^1.07cos(h-50°)

其中，(L^*，a^*，b^*)和(L^*，C^*，h)分别是颜色空间CIELAB和CIELCH的颜色分量。

步骤1.2：计算每个镜头内视频帧颜色情感强度值的平均值和方差值；假设一个镜头包含N个视频帧图像，则镜头的颜色强度平均值计算如下：

{mean}_{EI} = \frac{1}{N} Σ_{i = 1}^{N} {EI}_{i}

该镜头内第i帧图像的颜色情感强度值的方差计算如下：

var_i=(EI_i—mean_EI)²

步骤1.3：选择情感强度值最接近平均值的视频帧作为情感代表帧；

步骤1.4：选择情感强度方差值最大的视频帧作为情感突变帧；

步骤2：以镜头为单位提取视频的视觉和音频情感特征，将一个视频场景看作一个视频包，该视频包内的镜头音视频特征看作包内的“示例”，构成多示例学习框架数据结构。提取的音视频特征如表1所示。其中，音频特征以一个镜头长度提取，视觉特征则基于镜头提取的情感代表帧和情感突变帧提取。

表1特征汇总表

步骤3：建模步骤2所得到的视频包的四个视角特性，包括独立视角特性、中层上下文视角特性、低层上下文视角特性、情感特征分布视角特性。具体步骤包括：

步骤3.1：用视频包的镜头音视频特征集合，即将一个视频镜头的音视频特征作为一列组成的特征矩阵表示独立视角特征，将该独立视角特征投影到高维空间，并构造该空间核函数如下：

Ker (v_{i, a}, v_{j, b}) = \exp (- \frac{1}{σ_{1}} {| | v_{i, a} - v_{j, b} | |}^{2})

其中，V_i，V_j表示任意两个视频包的独立视角特征，v_i，·，v_j，·分别代表V_i，V_j中的任一镜头的独立视角特征，n_i，n_j分别表示视频包V_i，V_j包含的镜头数，Υ¹为将独立视角特征投影到d₁维高维空间的映射函数Υ¹：σ₁为核函数的宽度参数，控制了函数的径向作用范围。投影后得到的高维空间独立视角特征为Z¹=[Υ¹(V₁)，Υ¹(V₂)，…，Υ¹(V_N)]，N为训练视频集合中的视频数。

步骤3.2：训练HDP-HMM(Hierarchical Dirichlet Process-HM)模型，统计视频包的各隐状态分布得到中层上下文视角特征，将该中层上下文视角特征投影到高维空间，并构造该空间核函数。具体过程包括：

步骤3.2.1：将每个视频按照镜头顺序排列其音视频特征，得到视频特征序列；

步骤3.2.2：将训练视频集合中的多个视频按恐怖和非恐怖分为两个集合，分别训练两个HDP-HMM(Hierarchical Dirichlet Process-Hidden MarkovModels)模型，模型如图2所示，得到恐怖和非恐怖HDP-HMM模型参数π_k和φ_k。

步骤3.2.3：将步骤3.2.1中的视频特征序列输入已经训练好的两个HDP-HMM模型，记录模型预测的训练视频集合中多个视频中每个镜头的隐状态[V₁，…V_T]值。

步骤3.2.4：统计每个视频出现的隐状态数量，构成该视频对应的状态分布图，得到中层上下文视角特征。

步骤3.2.5：将中层上下文视角特征投影到高维空间，并设计核函数如下：

其中，sem_hist_i，sem_hist_j表示任意两个视频的隐状态分布直方图，Υ²为将中层上下文视角特征投影到d₂维高维空间的映射函数Dis_EMD(·)计算的是两个直方图分布的EMD(Earth-Movers-Distance)距离，σ₂的含义同步骤3.1中σ₁，为核函数的宽度参数，控制了函数的径向作用范围。投影后得到的高维空间中层上下文视角特征为Z²=[Υ²(sem_hist₁)，Υ²(sem_hist₂)，…，Υ²(sem_hist_N)]，N为训练视频集合中的视频数。

步骤3.3：对视频包内各镜头特征构造ε-graph图，用该图表示视频低层上下文视角特性，将该视角特征投影到高维空间，并构造该空间核函数。其中，具体过程包括：

步骤3.3.1：对每个视频构造ε-graph如下：

计算视频中每两个音视频特征之间的欧氏距离，如果距离小于阈值ε，则该两个特征之间建立一条边，权值设置为1，否则权值设置为0。

步骤3.3.2：将构造的ε-graph图结构作为视频的低层上下文视角特征，并投影到高维空间，在该空间构造核函数如下：

Ker (v_{i, a}, v_{j, b}) = \exp (- \frac{1}{σ_{3}} {| | v_{i, a} - v_{j, b} | |}^{2})

其中，G_i，G_j分别表示任意两个视频的低层上下文视角特征，v_i，·，v_j，·分别表示G_i，G_j中任一镜头对应的底层上下文视角特征，n_i，n_j分别为G_i，G_j对应视频所包含的镜头特征数，Υ³为将低层上下文视角特征投影到d₃维高维空间的映射函数

ω_{i, a} = 1 / Σ_{u = 1}^{n_{i}} W_{a, u}^{i}, ω_{j, b} = 1 / Σ_{u = 1}^{n_{i}} W_{b, u}^{j},

Wⁱ和W^j分别是G_i，G_j对应视频经步骤3.3.1得到的ε-graph权重矩阵，σ₃的含义同步骤3.1中σ₁，为核函数的宽度参数，控制了函数的径向作用范围。投影后得到的高维空间低层上下文视角特征为Z³=[Υ³(G₁)，Υ³(G₂)，…，Υ³(G_N)]，N为训练视频集合中的视频数。

步骤3.4：应用视觉词包模型，得到视频包内的情感特征直方图分布，表示该视频包情感特征分布视角特性，将该特征投影到高维空间，并构造相应的核函数。具体过程包括：

步骤3.4.1：将所有视频的镜头音视频特征利用K-means方法进行聚类，得到的聚类中心构成视觉词典，所述视觉词典包括多个视觉单词，每个单词对应一个音视频特征聚类中心。

步骤3.4.2：统计每个视频出现的视觉单词次数，得到视觉词包模型直方图分布，即情感特征分布视角特征。

步骤3.4.3：将情感特征分布视角特征投影到高维空间，并构造核函数如下：

F ({b_{k}}_{1}, {b_{k}}_{2}) = \exp (- \frac{1}{σ_{4}} {| | {b_{k}}_{1} - {b_{k}}_{2} | |}^{2})

其中，Hist_i，Hist_j表示任意两个视频X_i，X_j的情感特征分布视角特征，Υ⁴为将低层上下文视角特征投影到d₄维高维空间的映射函数h(k₁；·)，h(k₂；·)分别表示视频出现视觉单词和的频率，m_v是视觉词典中视觉单词的个数，σ₄的含义同步骤3.1中σ₁，为核函数的宽度参数，控制了函数的径向作用范围。投影后得到的高维空间情感特征分布视角特征为Z⁴=[Υ⁴(Hist₁)，Υ⁴(Hist₂)，…，Υ⁴(Hist_N)]，N为总视频场景数。

步骤4：构造多视角联合稀疏表示框架。在此框架中融合步骤3中视频包的四个视角，得到从四个视角重构测试视频包的稀疏重构系数。由步骤3得到训练视频的四个视角特征矩阵为：Zⁱ，i＝1，2，3，4，待识别视频的四个视角特征向量为：则多视角联合稀疏表示优化重构形式如下：

\min_{A} \frac{1}{2} Σ_{i = 1}^{4} w^{i} {| | z_{test}^{i} - Z^{i} α^{i} | |}_{2}^{2} + λ {| | A | |}_{2,1}

其中，A=[α¹，α²，α³，α⁴]表示四种不同视角特征重构系数构成的矩阵，wⁱ，i＝1，2，3，4表示重构四种视角特征时的误差约束权重，λ为稀疏正则系数，用来约束重构系数矩阵A的稀疏性。

其中，步骤4中误差约束权重wⁱ取值的确定方法，进一步说明如下：

将wⁱ的取值范围设置为[0.1，0.2，0.3，0.4，0.5,0.6，0.7，0.8,0.9，1]，且满足针对每一种wⁱ，i=1，2，3，4的取值组合，将训练视频集合分为三份，一份作为测试样本，其他两份为训练样本，用步骤3-5所述的多视角稀疏重构的方法得到样本分类结果，重复进行3次上述的分类过程，每次选择不同的测试样本，选取平均分类准确率最高的wⁱ，i＝1，2，3，4取值组合作为wⁱ的最终取值。

该多视角联合稀疏表示重构系数的优化求解可以通过基于l_2，1范式的加速近似梯度(Accelerated Proximal Gradient，APG)算法来求解，该算法的关键是求解两个内积和(Zⁱ)^TZⁱ，i=1，2，3，4，即待识别视频与训练视频样本四个视角特征的内积和训练样本自身四个视角特征的内积。上述两种内积的求解如下：

将步骤3.1种定义的核函数代入上述两式则可以求出独立视角对应的两个内积值。

将步骤3.2.5定义的核函数代入上述两式则可以求出中层上下文视角特征对应的两个内积值。

将步骤3.3.2定义的核函数代入则可以求出低层上下文视角特征对应的两个内积值。

将步骤3.4.3定义的核函数代入则可以求出情感特征分布视角特征对应的两个内积值。

步骤5：在步骤4所得到的重构系数基础上，分别计算待识别视频多视角特征与恐怖和非恐怖训练视频多视角特征的重构误差，误差小的视频类别即待识别视频的类别：恐怖或非恐怖。误差的计算方法如下：

r_{m} = Σ_{i = 1}^{4} w^{i} {| | z_{test}^{i} - Z^{i} α^{i} | |}_{2}^{2}

其中表示与第m类对应的第i个视角的重构系数，m=1，2，表示恐怖类型和非恐怖类型。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多视角多示例学习的恐怖视频识别方法，其包括：

步骤5、根据所述稀疏重构系数计算待识别视频的多视角特征向量与训练视频集合中恐怖视频集合与非恐怖视频集合分别对应的多视频特征集合的重构误差，进而确定待识别视频是否为恐怖视频；

步骤1具体包括如下步骤：

步骤1.1、以镜头为单位计算每个视频帧的颜色情感强度值；

2.如权利要求1所述的恐怖视频识别方法，其特征在于，所述视频帧的颜色情感强度值如下计算：

{EI}_{i} = \frac{1}{K \times L} Σ_{m = 1}^{K} Σ_{n = 1}^{L} E I (m, n)

其中，EI_i表示第i个视频帧的颜色情感强度值，EI(m，n)为第i个视频帧中第m行n列像素点的颜色情感强度值，所述K和L分别表示第i视频帧的行和列数，计算如下：

E I (m, n) = \sqrt{{Activity}^{2} + {Weight}^{2} + {Heat}^{2}}

其中，Activity表示活动性，Weight表示重要性，Heat表示热度。

3.如权利要求1-2任一项所述的恐怖视频识别方法，其特征在于，步骤2中视频特征基于表示镜头的情感代表帧和情感突变帧提取。

4.如权利要求1-2任一项所述的恐怖视频识别方法，其特征在于，步骤3中每个视频的独立视角特征为每个视频的音频特征和视觉特征构成的特征集合。

5.如权利要求1-2任一项所述的恐怖视频识别方法，其特征在于，步骤3中每个视频的中层上下文视角特征如下获得：

6.如权利要求1-2任一项所述的恐怖视频识别方法，其特征在于，步骤3中每个视频的低层上下文视角特征为每个视频对应的构造ε-graph图的权重矩阵，即计算每个视频的每两个音频、视觉特征之间的欧式距离，距离小于阈值ε，则这两个特征之间的边的权值为1，否则为0。

7.如权利要求1-2任一项所述的恐怖视频识别方法，其特征在于，步骤3中每个视频的情感特征分布视角特征如下获得：

步骤3.4.1、将对每个视频的音频、视觉特征进行聚类，得到聚类中心构成的视觉词典；

8.如权利要求1-2任一项所述的恐怖视频识别方法，其特征在于，步骤4中稀疏重构系数根据下式获得：

\underset{A}{m i n} \frac{1}{2} Σ_{i = 1}^{4} w^{i} | | z_{t e s t}^{i} - Z^{i} α^{i} | |_{2}^{2} + λ | | A | |_{2, 1}

其中，A＝[α¹，α²，α³，α⁴]表示四种不同视角特征重构系数构成的矩阵，αⁱ，i＝1，2，3，4表示第i种视角特征重构系数，wⁱ，i＝1，2，3，4表示重构四种视角特征时的误差约束权重，为待识别视频的四种视角特征向量，Zⁱ，i＝1，2，3，4为根据训练视频集合对应的多视角特征集合得到的矩阵，其为将所述多视角特征集合中每种视角特征向量投影到高维空间得到的矩阵；λ为稀疏正则系数。

9.如权利要求1-2任一项所述的恐怖视频识别方法，其特征在于，步骤5中重构误差的计算方法如下：

r_{m} = Σ_{i = 1}^{4} w^{i} | | z_{t e s t}^{i} - Z^{i} α_{m}^{i} | |_{2}^{2}

10.如权利要求8所述的恐怖视频识别方法，其特征在于，将所述多视角特征集合中每种视角特征向量投影到的高维空间对应的核函数分别如下所示：

(1)独立视角特征高维空间对应的核函数：

K e r (v_{i, a}, v_{j, b}) = \exp (- \frac{1}{σ_{1}} | | v_{i, a} - v_{j, b} | |^{2})

其中，V_i，V_j表示任意两个训练视频的独立视角特征，v_i，·，v_j，·分别代表V_i，V_j中的任一镜头的独立视角特征，n_i，n_j分别表示视频V_i，V_j包含的镜头数，Υ¹为将独立视角特征投影到高维空间的映射函数Υ¹：σ₁为核函数的宽度参数；投影后得到的高维空间独立视角特征为Z¹＝[Υ¹(V₁)，Υ¹(V₂)，…，Υ¹(V_N)]，N为训练视频集合中的视频数；

(2)中层上下文视角特征高维空间对应的核函数：

其中，sem_hist_i，sem-hist_j表示任意两个训练视频的隐状态分布直方图，Υ²为将中层上下文视角特征投影到高维空间的映射函数Υ²：DiS_EMD(·)计算的是两个直方图分布的EMD距离，σ₂为核函数的宽度参数；投影后得到的高维空间中层上下文视角特征为Z²＝[Υ²(sem_hist₁)，Υ²(sem_hist₂)，…，Υ²(sem_hist_N)]；

(3)低层上下文视角特征高维空间对应的核函数：

K e r (v_{i, a}, v_{j, b}) = \exp (- \frac{1}{σ_{3}} | | v_{i, a} - v_{j, b} | |^{2})

其中，G_i，G_j分别表示任意两个训练视频的低层上下文视角特征，v_i，·，v_j，·分别表示G_i，G_j中任一镜头对应的底层上下文视角特征，n_i，n_j分别为G_i，G_j对应视频所包含的镜头特征数，Υ³为将低层上下文视角特征投影到d₃维高维空间的映射函数Υ³： Wⁱ和W^j分别是G_i，G_j对应视频的ε-graph权重矩阵，σ₃为核函数的宽度参数，投影后得到的高维空间低层上下文视角特征为Z³＝[Υ³(G₁)，Υ³(G₂)，…，Υ³(G_N)]；

(4)情感特征分布视角特征高维空间对应的核函数：

F (b_{k_{1}}, b_{k_{2}}) = \exp (- \frac{1}{σ_{4}} | | b_{k_{1}} - b_{k_{2}} | |^{2})

其中，Hist_i，Hist_j表示任意两个训练视频X_i，X_j的情感特征分布视角特征，Υ⁴为将低层上下文视角特征投影到d₄维高维空间的映射函数Υ⁴：h(k₁；·)，h(k₂；·)分别表示视频出现视觉单词和的频率，m_v是视觉词典中视觉单词的个数，σ₄为核函数的宽度参数；投影后得到的高维空间情感特征分布视角特征为Z⁴＝[Υ⁴(Hist₁)，Υ⁴(Hist₂)，…，Υ⁴(Hist_N)]。