CN103473555A - 基于多视角多示例学习的恐怖视频场景识别方法 - Google Patents

基于多视角多示例学习的恐怖视频场景识别方法 Download PDF

Info

Publication number
CN103473555A
CN103473555A CN2013103766183A CN201310376618A CN103473555A CN 103473555 A CN103473555 A CN 103473555A CN 2013103766183 A CN2013103766183 A CN 2013103766183A CN 201310376618 A CN201310376618 A CN 201310376618A CN 103473555 A CN103473555 A CN 103473555A
Authority
CN
China
Prior art keywords
video
visual angle
angle characteristic
terrified
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103766183A
Other languages
English (en)
Other versions
CN103473555B (zh
Inventor
胡卫明
丁昕苗
李兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin Zhongke Beijing Intelligent Technology Co ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201310376618.3A priority Critical patent/CN103473555B/zh
Publication of CN103473555A publication Critical patent/CN103473555A/zh
Application granted granted Critical
Publication of CN103473555B publication Critical patent/CN103473555B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多视角多示例学习的恐怖视频识别方法,其包括:对训练视频集合中的视频提取视频镜头,并针对每个视频镜头选取情感代表帧和情感突变帧;对训练视频集合中每个视频镜头提取音频和视觉特征,其中视觉特征基于所提取的情感代表帧和情感突变帧提取;对于每一个视频提取其四个视角特征向量,构成训练视频集合的多视角特征集合;对所得到的训练视频集合对应的多视角特征集合和待识别视频的多视角特征向量进行稀疏重构,得到稀疏重构系数;根据所述稀疏重构系数计算待识别视频的多视角特征向量与训练视频集合中恐怖视频集合与非恐怖视频集合分别对应的多视频特征集合的重构误差,进而确定待识别视频是否为恐怖视频。

Description

基于多视角多示例学习的恐怖视频场景识别方法
技术领域
本发明涉及模式识别和计算机网络内容安全领域,特别涉及一种基于多视角多示例学习的恐怖视频场景识别方法。 
背景技术
随着互联网技术和应用的迅速发展,人们对互联网的认识和使用已越来越深入,同时,网络也给人们的生活带来了很多的便利,甚至改变了人们的生活方式。在互联网高速发展的基础上,色情、暴力、恐怖等有害信息的传播也变得越来越容易。心理学和生理学研究表明,互联网中的恐怖信息对青少年的身心健康产生的危害绝不亚于色情信息的危害。过多的恐怖信息可能使人长期处于极度的焦虑和恐惧中,甚至使人身心受到损害,容易产生心理失衡或障碍,严重时出现病理症状,导致各种恐怖症产生,甚至引发其它的精神疾病;过多恐怖信息的接触是恐惧症及其它心理病症的根源所在,同时,恐怖信息的过剩导致儿童、青少年的恐惧泛化,进而影响他们的社会认知及未来人格的健康发展;过多恐怖信息的接触将左右孩子的阅读取向,影响儿童青少年的审美情趣,可能引发学习不良问题,甚至引发犯罪。因此,有效地对互联网中的恐怖信息进行过滤,对于保护青少年的健康成长,降低青少年犯罪,维护社会稳定,以及抵制互联网低俗之风都具有重要的实际意义。 
网络恐怖信息过滤的研究是一个多学科交叉的研究课题,涉及到网络内容安全、多媒体内容分析与理解、模式识别、机器学习等多个领域。而恐怖信息过滤又与传统的色情信息过滤有所不同,“恐怖”本身是一种情感的感知与感受,所以恐怖信息过滤还涉及到情感认知以及视觉心理学领域的相关研究,其研究具有重要的学术意义。 
恐怖视频由于其信息量大,形象生动,相比文字类或图片类的恐怖信息对青少年的危害更大,识别难度更高,是当前网络恐怖信息过滤中的难 点之一。随着互联网过滤技术的发展,越来越多的研究者开始关注专门的恐怖视频识别技术。Wang等基于情感认知理论对每个恐怖视频的所有关键帧提取了一系列有效的音视频及情感特征,平均化后作为整个视频的情感特征,并使用支持向量机(Support Vector Machine,SVM)来进行恐怖视频的分类识别。由于恐怖视频并不是所有的帧都包含恐怖信息,提取整个恐怖视频的平均特征必将淡化恐怖视频帧的特征信息,从而导致识别率的下降。基于恐怖视频中一定会出现恐怖视频帧,而非恐怖视频中不会包含任何恐怖视频帧的特点,Wang等和Wu等将视频看作多示例学习中的包(bag),视频中的关键帧看作包内的示例(instance),提出采用多示例学习(Multi-Instance Learning,MIL)的方法来识别恐怖视频,并取得了较好的实验效果。然而,在传统多示例学习框架中,示例之间被假定为相互独立的,这并不完全符合视频的特点,即视频中的关键帧之间存在一种上下文关系,另外,上下文关系只反映了恐怖视频一个视角特性,通过观察发现,恐怖视频包含多个视角特性,包括:独立视角特性、低层上下文视角特性、中层上下文特性、情感特征分布视角特性。多个视角特性融合可以有效提高视频的识别率。 
发明内容
(一)要解决的技术问题 
有鉴于此,本发明的主要目的是提供一种可以兼顾视频多个视角特性的算法框架。 
(二)技术方案 
为达到上述目的,本发明提供了一种基于多视角多示例学习的恐怖视频识别方法,其包括: 
步骤1、对训练视频集合中的视频提取视频镜头,并针对每个视频镜头选取情感代表帧和情感突变帧; 
步骤2、对训练视频集合中每个视频镜头提取音频和视觉特征,其中视觉特征基于所提取的情感代表帧和情感突变帧提取; 
步骤3、对于每一个视频提取其四个视角特征向量,构成训练视频集合的多视角特征集合,所述四个视角特征包括独立视角特征、中层上下文视角特征、低层上下文视角特征、情感特征分布视角特征; 
步骤4、对所得到的训练视频集合对应的多视角特征集合和待识别视频的多视角特征向量进行稀疏重构,得到稀疏重构系数; 
步骤5、根据所述稀疏重构系数计算待识别视频的多视角特征向量与训练视频集合中恐怖视频集合与非恐怖视频集合分别对应的多视频特征集合的重构误差,进而确定待识别视频是否为恐怖视频。 
其中,步骤1具体包括如下步骤: 
步骤1.1、以镜头为单位计算每个视频帧的颜色情感强度值; 
步骤1.2、计算每个镜头内视频帧颜色情感强度值的平均值和方差值; 
步骤1.3、选择情感强度值最接近平均值的视频帧作为情感代表帧; 
步骤1.4、选择情感强度方差值最大的视频帧作为情感突变帧。 
其中,所述视频帧的颜色情感强度值如下计算: 
EI i = 1 K × L Σ m = 1 K Σ n = 1 L EI ( m , n )
其中,EIi表示第i个视频帧的颜色情感强度值,EI(m,n)为第i个视频帧中第m行n列像素点的颜色情感强度值,计算如下: 
EI ( m , n ) = Activity 2 + Weight 2 + Heat 2
其中,Activity表示活动性,Weight表示重要性,Heat表示热度。 
其中,步骤2中视频特征基于表示镜头的情感代表帧和情感突变帧提取。 
其中,步骤3中每个视频的独立视角特征为每个视频的音频特征和视觉特征构成的特征集合。 
其中,步骤3中每个视频的中层上下文视角特征如下获得: 
步骤3.2.1、将每个视频按照镜头顺序排列其音频特征和视觉特征,得到音视频特征序列; 
步骤3.2.2、将训练视频集合中所有视频分为恐怖视频集合和非恐怖视频集合,并分别训练两个HDP-HMM模型,得到相应的恐怖和非恐怖HDP-HMM模型参数; 
步骤3.2.3、将所述视频特征序列输入所述两个训练好的HDP-HMM模型得到训练视频集合中每个视频中镜头的隐状态; 
步骤3.2.4、统计每个视频出现的隐状态数量,构成该视频对应的状态分布图,得到该视频的中层上下文视角特征。 
其中,步骤3中每个视频的低层上下文视角特征为每个视频对应的构造ε-graph图的权重矩阵,即计算每个视频的每两个音频、视觉特征之间的欧式距离,距离小于阈值ε,则这两个特征之间的边的权值为1,否则为0。 
其中,步骤3中每个视频的情感特征分布视角特征如下获得: 
步骤3.4.1、将对每个视频的音频、视觉特征进行聚类,得到聚类中心构成的视觉词典; 
步骤3.4.2、统计每个视频中出现的视觉单词次数,得到视觉词包模型直方图分布,该视觉词包模型直方图分布即为情感特征分布视角特征。 
其中,步骤4中稀疏重构系数根据下式获得: 
min A 1 2 Σ i = 1 4 w i | | z test i - Z i α i | | 2 2 + λ | | A | | 2,1
其中,A=[α1,α2,α3,α4]表示四种不同视角特征重构系数构成的矩阵,wi,i=1,2,3,4表示重构四种视角特征时的误差约束权重,
Figure BDA0000372259210000042
为待识别视频的四种视角特征向量,Zi,i=1,2,3,4为根据训练视频集合对应的多视角特征集合得到的矩阵,其为将所述多视角特征集合中每种视角特征向量投影到高维空间得到的矩阵;λ为稀疏正则系数。 
其中,步骤5中重构误差的计算方法如下: 
r m = Σ i = 1 4 w i | | z test i - Z i α m i | | 2 2
其中,表示与第m类对应的第i个视角特征的重构系数,为待识别视频的四种视角特征向量,wi,i=1,2,3,4表示重构四种视角特征时的误差约束权重,Zi,i=1,2,3,4为根据训练视频集合对应的多视角特征集合得到的矩阵,其为将所述多视角特征集合中每种视角特征向量投影到高维空间得到的矩阵。 
其中,将所述多视角特征集合中每种视角特征向量投影到的高维空间对应的核函数分别如下所示: 
(1)独立视角特征高维空间对应的核函数: 
Figure BDA0000372259210000051
Ker ( v i , a , v j , b ) = exp ( - 1 σ 1 | | v i , a - v j , b | | 2 )
其中,Vi,Vj表示任意两个训练视频的独立视角特征,vi,·,vj,·分别代表Vi,Vj中的任一镜头的独立视角特征,ni,nj分别表示视频Vi,Vj包含的镜头数,为将独立视角特征投影到高维空间的映射函数σ1为核函数的宽度参数;投影后得到的高维空间独立视角特征为 N为训练视频集合中的视频数; 
(2)中层上下文视角特征高维空间对应的核函数: 
Figure BDA0000372259210000057
其中,sem_histi,sem_histj表示任意两个训练视频的隐状态分布直方图,
Figure BDA00003722592100000512
为将中层上下文视角特征投影到高维空间的映射函数 DisEMD(·)计算的是两个直方图分布的EMD距离,σ2为核函数的宽度参数;投影后得到的高维空间中层上下文视角特征为 
Figure BDA00003722592100000514
(3)低层上下文视角特征高维空间对应的核函数: 
Ker ( v i , a , v j , b ) = exp ( - 1 σ 3 | | v i , a - v j , b | | 2 )
其中,Gi,Gj分别表示任意两个训练视频的低层上下文视角特征,vi,·,vj,·分别表示Gi,Gj中任一镜头对应的底层上下文视角特征,ni,nj分别为Gi,Gj对应视频所包含的镜头特征数,
Figure BDA0000372259210000069
为将低层上下文视角特征投影到d3维高维空间的映射函数
Figure BDA0000372259210000065
Wi和Wj分别是Gi,Gj对应视频的ε-graph权重矩阵,σ3为核函数的宽度参数,投影后得到的高维空间低层上下文视角特征为 
(4)情感特征分布视角特征高维空间对应的核函数: 
Figure BDA0000372259210000063
F ( b k 1 , b k 2 ) = exp ( - 1 σ 4 | | b k 1 - b k 2 | | 2 )
其中,Histi,Histj表示任意两个训练视频Xi,Xj的情感特征分布视角特征,
Figure BDA00003722592100000611
为将低层上下文视角特征投影到d4维高维空间的映射函数
Figure BDA00003722592100000612
Figure BDA0000372259210000066
h(k1;·),h(k2;·)分别表示视频出现视觉单词
Figure BDA0000372259210000067
Figure BDA0000372259210000068
的频率,mv是视觉词典中视觉单词的个数,σ4为核函数的宽度参数;投影后得到的高维空间情感特征分布视角特征为
Figure BDA00003722592100000613
(三)有益效果 
从上述技术方案可以看出,本发明具有以下优点: 
(1)本发明首次提出恐怖视频的四个视角特性,包括:独立视角特性、低层上下文视角特性、中层上下文特性、情感特征分布视角特性。完善了恐怖视频的特征描述。 
(2)本发明利用HDP-HMM(Hierarchical Dirichlet Process-HMM)自动学习视频的隐藏状态,并通过状态分布实现了中层语义的提取,减小了低层特征到高层情感语义的鸿沟。 
(3)本发明构造了多视角联合稀疏表示模型,在重构测试视频时可以同时兼顾多个视角特性。 
(4)本发明所提出的算法基于稀疏表示模型,该模型无需学习过程,可扩充性强,能够更快捷,更高效的完成视频识别。 
本发明提出了一种新的基于多视角的多示例学习模型应用到恐怖视频场景识别中,该技术具有重要的学术意义和社会意义,并具有广阔的应用前景。 
附图说明
图1为本发明提供的基于多视角多示例学习的视频场景识别框架图。 
图2为本发明提供的识别方法中训练的HDP-HMM模型示意图。 
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。 
图1示出了本发明提供的基于多视角多示例学习的恐怖视频场景识别方法。如图1所示,该方法具体包括以下步骤: 
步骤1:对视频进行结构化分析,采用基于信息论的互信息熵镜头分割算法提取视频镜头,然后,针对每个镜头选取情感代表帧和情感突变帧来表示该镜头,具体提取步骤包括: 
步骤1.1:以镜头为单位计算每个视频帧的颜色情感强度值;假设第i帧图像由K行L列像素组成,则该帧图像的情感强度值计算如下: 
EI i = 1 K × L Σ m = 1 K Σ n = 1 L EI ( m , n )
其中,EI(m,n)为第m行n列像素点的颜色情感强度值,计算如下: 
EI ( m , n ) = Activity 2 + Weight 2 + Heat 2
Activity表示活动性、Weight表示重要性,Heat表示热度,其计算如下: 
activity = - 2.1 + 0.06 [ ( L * - 50 ) 2 + ( a * - 3 ) 2 + ( b * - 17 1.4 ) 2 ] 1 / 2
weight=-1.8+0.04(100-L*)+0.45cos(h-100°) 
heat=-0.5+0.02(C*)1.07cos(h-50°) 
其中,(L*,a*,b*)和(L*,C*,h)分别是颜色空间CIELAB和CIELCH的颜色分量。 
步骤1.2:计算每个镜头内视频帧颜色情感强度值的平均值和方差值;假设一个镜头包含N个视频帧图像,则镜头的颜色强度平均值计算如下: 
mean EI = 1 N Σ i = 1 N EI i
该镜头内第i帧图像的颜色情感强度值的方差计算如下: 
vari=(EIi-meanEI)2
步骤1.3:选择情感强度值最接近平均值的视频帧作为情感代表帧; 
步骤1.4:选择情感强度方差值最大的视频帧作为情感突变帧; 
步骤2:以镜头为单位提取视频的视觉和音频情感特征,将一个视频场景看作一个视频包,该视频包内的镜头音视频特征看作包内的“示例”,构成多示例学习框架数据结构。提取的音视频特征如表1所示。其中,音频特征以一个镜头长度提取,视觉特征则基于镜头提取的情感代表帧和情感突变帧提取。 
表1特征汇总表 
Figure BDA0000372259210000083
步骤3:建模步骤2所得到的视频包的四个视角特性,包括独立视角特性、中层上下文视角特性、低层上下文视角特性、情感特征分布视角特性。具体步骤包括: 
步骤3.1:用视频包的镜头音视频特征集合,即将一个视频镜头的音视频特征作为一列组成的特征矩阵表示独立视角特征,将该独立视角特征投影到高维空间,并构造该空间核函数如下: 
Figure BDA0000372259210000091
Ker ( v i , a , v j , b ) = exp ( - 1 σ 1 | | v i , a - v j , b | | 2 )
其中,Vi,Vj表示任意两个视频包的独立视角特征,vi,·,vj,·分别代表Vi,Vj中的任一镜头的独立视角特征,ni,nj分别表示视频包Vi,Vj包含的镜头数,
Figure BDA0000372259210000094
为将独立视角特征投影到d1维高维空间的映射函数
Figure BDA0000372259210000095
Figure BDA0000372259210000093
σ1为核函数的宽度参数,控制了函数的径向作用范围。投影后得到的高维空间独立视角特征为
Figure BDA0000372259210000096
,N为训练视频集合中的视频数。 
步骤3.2:训练HDP-HMM(Hierarchical Dirichlet Process-HMM)模型,统计视频包的各隐状态分布得到中层上下文视角特征,将该中层上下文视角特征投影到高维空间,并构造该空间核函数。具体过程包括: 
步骤3.2.1:将每个视频按照镜头顺序排列其音视频特征,得到视频特征序列; 
步骤3.2.2:将训练视频集合中的多个视频按恐怖和非恐怖分为两个集合,分别训练两个HDP-HMM(Hierarchical Dirichlet Process-Hidden Markov Models)模型,模型如图2所示,得到恐怖和非恐怖HDP-HMM模型参数πk和φk。 
步骤3.2.3:将步骤3.2.1中的视频特征序列输入已经训练好的两个HDP-HMM模型,记录模型预测的训练视频集合中多个视频中每个镜头的隐状态[V1,…VT]值。 
步骤3.2.4:统计每个视频出现的隐状态数量,构成该视频对应的状态分布图,得到中层上下文视角特征。 
步骤3.2.5:将中层上下文视角特征投影到高维空间,并设计核函数如下: 
Figure BDA0000372259210000103
其中,sem_histi,sem_histj表示任意两个视频的隐状态分布直方图,
Figure BDA0000372259210000105
为将中层上下文视角特征投影到d2维高维空间的映射函数
Figure BDA0000372259210000104
DisEMD(·)计算的是两个直方图分布的EMD(Earth-Movers-Distance)距离,σ2的含义同步骤3.1中σ1,为核函数的宽度参数,控制了函数的径向作用范围。投影后得到的高维空间中层上下文视角特征为 
Figure BDA0000372259210000106
,N为训练视频集合中的视频数。 
步骤3.3:对视频包内各镜头特征构造ε-graph图,用该图表示视频低层上下文视角特性,将该视角特征投影到高维空间,并构造该空间核函数。其中,具体过程包括: 
步骤3.3.1:对每个视频构造ε-graph如下: 
计算视频中每两个音视频特征之间的欧氏距离,如果距离小于阈值ε,则该两个特征之间建立一条边,权值设置为1,否则权值设置为0。 
步骤3.3.2:将构造的ε-graph图结构作为视频的低层上下文视角特征,并投影到高维空间,在该空间构造核函数如下: 
Figure BDA0000372259210000111
其中,Gi,Gj分别表示任意两个视频的低层上下文视角特征,vi,·,vj,·分别表示Gi,Gj中任一镜头对应的底层上下文视角特征,ni,nj分别为Gi,Gj对应视频所包含的镜头特征数,
Figure BDA0000372259210000117
为将低层上下文视角特征投影到d3维高维空间的映射函数
Figure BDA0000372259210000116
ω i , a = 1 / Σ u = 1 n i W a , u i , ω j , b = 1 / Σ u = 1 n i W b , u j , Wi和Wj分别是Gi,Gj对应视频经步骤3.3.1得到的ε-graph权重矩阵,σ3的含义同步骤3.1中σ1,为核函数的宽度参数,控制了函数的径向作用范围。投影后得到的高维空间低层上下文视角特征为
Figure BDA0000372259210000118
,N为训练视频集合中的视频数。 
步骤3.4:应用视觉词包模型,得到视频包内的情感特征直方图分布,表示该视频包情感特征分布视角特性,将该特征投影到高维空间,并构造相应的核函数。具体过程包括: 
步骤3.4.1:将所有视频的镜头音视频特征利用K-means方法进行聚类,得到的聚类中心构成视觉词典,所述视觉词典包括多个视觉单词,每个单词对应一个音视频特征聚类中心。 
步骤3.4.2:统计每个视频出现的视觉单词次数,得到视觉词包模型直方图分布,即情感特征分布视角特征。 
步骤3.4.3:将情感特征分布视角特征投影到高维空间,并构造核函数如下: 
Figure BDA0000372259210000113
Figure BDA0000372259210000114
F ( b k 1 , b k 2 ) = exp ( - 1 σ 4 | | b k 1 - b k 2 | | 2 )
其中,Histi,Histj表示任意两个视频Xi,Xj的情感特征分布视角特征, 
Figure BDA0000372259210000128
为将低层上下文视角特征投影到d4维高维空间的映射函数
Figure BDA0000372259210000127
,h(k1;·),h(k2;·)分别表示视频出现视觉单词
Figure BDA0000372259210000121
Figure BDA0000372259210000122
的频率,mv是视觉词典中视觉单词的个数,σ4的含义同步骤3.1中σ1,为核函数的宽度参数,控制了函数的径向作用范围。投影后得到的高维空间情感特征分布视角特征为 ,N为总视频场景数。 
步骤4:构造多视角联合稀疏表示框架。在此框架中融合步骤3中视频包的四个视角,得到从四个视角重构测试视频包的稀疏重构系数。由步骤3得到训练视频的四个视角特征矩阵为:Zi,i=1,2,3,4,待识别视频的四个视角特征向量为:则多视角联合稀疏表示优化重构形式如下: 
min A 1 2 Σ i = 1 4 w i | | z test i - Z i α i | | 2 2 + λ | | A | | 2,1
其中,A=[α1,α2,α3,α4]表示四种不同视角特征重构系数构成的矩阵,wi,i=1,2,3,4表示重构四种视角特征时的误差约束权重,λ为稀疏正则系数,用来约束重构系数矩阵A的稀疏性。 
其中,步骤4中误差约束权重wi取值的确定方法,进一步说明如下: 
将wi的取值范围设置为[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1],且满足 针对每一种wi,i=1,2,3,4的取值组合,将训练视频集合分为三份,一份作为测试样本,其他两份为训练样本,用步骤3-5所述的多视角稀疏重构的方法得到样本分类结果,重复进行3次上述的分类过程,每次选择不同的测试样本,选取平均分类准确率最高的wi,i=1,2,3,4取值组合作为wi的最终取值。 
该多视角联合稀疏表示重构系数的优化求解可以通过基于l2,1范式的加速近似梯度(Accelerated Proximal Gradient,APG)算法来求解,该算法的关键是求解两个内积
Figure BDA0000372259210000126
和(Zi)TZi,i=1,2,3,4,即待识别视频与训练视 频样本四个视角特征的内积和训练样本自身四个视角特征的内积。上述两种内积的求解如下: 
Figure BDA0000372259210000131
Figure BDA0000372259210000132
Figure BDA0000372259210000133
将步骤3.1种定义的核函数代入上述两式则可以求出独立视角对应的两个内积值。 
Figure BDA0000372259210000134
Figure BDA0000372259210000135
Figure BDA0000372259210000136
将步骤3.2.5定义的核函数代入上述两式则可以求出中层上下文视角特征对应的两个内积值。 
Figure BDA0000372259210000141
Figure BDA0000372259210000142
Figure BDA0000372259210000143
将步骤3.3.2定义的核函数代入则可以求出低层上下文视角特征对应的两个内积值。 
Figure BDA0000372259210000145
Figure BDA0000372259210000146
将步骤3.4.3定义的核函数代入则可以求出情感特征分布视角特征对应的两个内积值。 
步骤5:在步骤4所得到的重构系数基础上,分别计算待识别视频多视角特征与恐怖和非恐怖训练视频多视角特征的重构误差,误差小的视频类别即待识别视频的类别:恐怖或非恐怖。误差的计算方法如下: 
r m = Σ i = 1 4 w i | | z test i - Z i α i | | 2 2
其中
Figure BDA0000372259210000148
表示与第m类对应的第i个视角的重构系数,m=1,2,表示恐怖类型和非恐怖类型。 
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。 

Claims (11)

1.一种基于多视角多示例学习的恐怖视频识别方法,其包括:
步骤1、对训练视频集合中的视频提取视频镜头,并针对每个视频镜头选取情感代表帧和情感突变帧;
步骤2、对训练视频集合中每个视频镜头提取音频和视觉特征,其中视觉特征基于所提取的情感代表帧和情感突变帧提取;
步骤3、对于每一个视频提取其四个视角特征向量,构成训练视频集合的多视角特征集合,所述四个视角特征包括独立视角特征、中层上下文视角特征、低层上下文视角特征、情感特征分布视角特征;
步骤4、对所得到的训练视频集合对应的多视角特征集合和待识别视频的多视角特征向量进行稀疏重构,得到稀疏重构系数;
步骤5、根据所述稀疏重构系数计算待识别视频的多视角特征向量与训练视频集合中恐怖视频集合与非恐怖视频集合分别对应的多视频特征集合的重构误差,进而确定待识别视频是否为恐怖视频。
2.如权利要求1所述的恐怖视频识别方法,其特征在于,步骤1具体包括如下步骤:
步骤1.1、以镜头为单位计算每个视频帧的颜色情感强度值;
步骤1.2、计算每个镜头内视频帧颜色情感强度值的平均值和方差值;
步骤1.3、选择情感强度值最接近平均值的视频帧作为情感代表帧;
步骤1.4、选择情感强度方差值最大的视频帧作为情感突变帧。
3.如权利要求2所述的恐怖视频识别方法,其特征在于,所述视频帧的颜色情感强度值如下计算:
EI i = 1 K × L Σ m = 1 K Σ n = 1 L EI ( m , n )
其中,EIi表示第i个视频帧的颜色情感强度值,EI(m,n)为第i个视频帧中第m行n列像素点的颜色情感强度值,计算如下:
EI ( m , n ) = Activity 2 + Weight 2 + Heat 2
其中,Activity表示活动性,Weight表示重要性,Heat表示热度。
4.如权利要求1-3任一项所述的恐怖视频识别方法,其特征在于,步骤2中视频特征基于表示镜头的情感代表帧和情感突变帧提取。
5.如权利要求1-3任一项所述的恐怖视频识别方法,其特征在于,步骤3中每个视频的独立视角特征为每个视频的音频特征和视觉特征构成的特征集合。
6.如权利要求1-3任一项所述的恐怖视频识别方法,其特征在于,步骤3中每个视频的中层上下文视角特征如下获得:
步骤3.2.1、将每个视频按照镜头顺序排列其音频特征和视觉特征,得到音视频特征序列;
步骤3.2.2、将训练视频集合中所有视频分为恐怖视频集合和非恐怖视频集合,并分别训练两个HDP-HMM模型,得到相应的恐怖和非恐怖HDP-HMM模型参数;
步骤3.2.3、将所述视频特征序列输入所述两个训练好的HDP-HMM模型得到训练视频集合中每个视频中镜头的隐状态;
步骤3.2.4、统计每个视频出现的隐状态数量,构成该视频对应的状态分布图,得到该视频的中层上下文视角特征。
7.如权利要求1-3任一项所述的恐怖视频识别方法,其特征在于,步骤3中每个视频的低层上下文视角特征为每个视频对应的构造ε-graph图的权重矩阵,即计算每个视频的每两个音频、视觉特征之间的欧式距离,距离小于阈值ε,则这两个特征之间的边的权值为1,否则为0。
8.如权利要求1-3任一项所述的恐怖视频识别方法,其特征在于,步骤3中每个视频的情感特征分布视角特征如下获得:
步骤3.4.1、将对每个视频的音频、视觉特征进行聚类,得到聚类中心构成的视觉词典;
步骤3.4.2、统计每个视频中出现的视觉单词次数,得到视觉词包模型直方图分布,该视觉词包模型直方图分布即为情感特征分布视角特征。
9.如权利要求1-3任一项所述的恐怖视频识别方法,其特征在于,步骤4中稀疏重构系数根据下式获得:
min A 1 2 Σ i = 1 4 w i | | z test i - Z i α i | | 2 2 + λ | | A | | 2,1
其中,A=[α1,α2,α3,α4]表示四种不同视角特征重构系数构成的矩阵,wi,i=1,2,3,4表示重构四种视角特征时的误差约束权重,
Figure FDA0000372259200000034
i=1,2,3,4为待识别视频的四种视角特征向量,Zi,i=1,2,3,4为根据训练视频集合对应的多视角特征集合得到的矩阵,其为将所述多视角特征集合中每种视角特征向量投影到高维空间得到的矩阵;λ为稀疏正则系数。
10.如权利要求1-3任一项所述的恐怖视频识别方法,其特征在于,步骤5中重构误差的计算方法如下:
r m = Σ i = 1 4 w i | | z test i - Z i α m i | | 2 2
其中,
Figure FDA0000372259200000035
表示与第m类对应的第i个视角特征的重构系数,
Figure FDA0000372259200000036
i=1,2,3,4为待识别视频的四种视角特征向量,wi,i=1,2,3,4表示重构四种视角特征时的误差约束权重,Zi,i=1,2,3,4为根据训练视频集合对应的多视角特征集合得到的矩阵,其为将所述多视角特征集合中每种视角特征向量投影到高维空间得到的矩阵。
11.如权利要求9所述的恐怖视频识别方法,其特征在于,将所述多视角特征集合中每种视角特征向量投影到的高维空间对应的核函数分别如下所示:
(1)独立视角特征高维空间对应的核函数:
Ker ( v i , a , v j , b ) = exp ( - 1 σ 1 | | v i , a - v j , b | | 2 )
其中,Vi,Vj表示任意两个训练视频的独立视角特征,vi,·,vj,·分别代表Vi,Vj中的任一镜头的独立视角特征,ni,nj分别表示视频Vi,Vj包含的镜头数,
Figure FDA00003722592000000310
为将独立视角特征投影到高维空间的映射函数
Figure FDA0000372259200000038
σ1为核函数的宽度参数;投影后得到的高维空间独立视角特征为
Figure FDA0000372259200000039
N为训练视频集合中的视频数;
(2)中层上下文视角特征高维空间对应的核函数:
Figure FDA0000372259200000041
Figure FDA0000372259200000042
其中,sem_histi,sem_histj表示任意两个训练视频的隐状态分布直方图,
Figure FDA0000372259200000043
为将中层上下文视角特征投影到高维空间的映射函数
Figure FDA0000372259200000044
Figure FDA00003722592000000415
DisEMD(·)计算的是两个直方图分布的EMD距离,σ2为核函数的宽度参数;投影后得到的高维空间中层上下文视角特征为
Figure FDA0000372259200000045
(3)低层上下文视角特征高维空间对应的核函数:
Figure FDA0000372259200000046
Ker ( v i , a , v j , b ) = exp ( - 1 σ 3 | | v i , a - v j , b | | 2 )
其中,Gi,Gj分别表示任意两个训练视频的低层上下文视角特征,vi,·,vj,·分别表示Gi,Gj中任一镜头对应的底层上下文视角特征,ni,nj分别为Gi,Gj对应视频所包含的镜头特征数,
Figure FDA0000372259200000048
为将低层上下文视角特征投影到d3维高维空间的映射函数
Figure FDA0000372259200000049
ω i , a = 1 / Σ u = 1 n i W a , u i , ω j , b = 1 / Σ u = 1 n i W b , u j , Wi和Wj分别是Gi,Gj对应视频的ε-graph权重矩阵,σ3为核函数的宽度参数,投影后得到的高维空间低层上下文视角特征为
Figure FDA00003722592000000411
(4)情感特征分布视角特征高维空间对应的核函数:
Figure FDA00003722592000000412
Figure FDA00003722592000000413
F ( b k 1 , b k 2 ) = exp ( - 1 σ 4 | | b k 1 - b k 2 | | 2 )
其中,Histi,Histj表示任意两个训练视频Xi,Xj的情感特征分布视角特征,
Figure FDA0000372259200000051
为将低层上下文视角特征投影到d4维高维空间的映射函数
Figure FDA0000372259200000052
Figure FDA0000372259200000053
h(k1;·),h(k2;·)分别表示视频出现视觉单词
Figure FDA0000372259200000054
Figure FDA0000372259200000055
的频率,mv是视觉词典中视觉单词的个数,σ4为核函数的宽度参数;投影后得到的高维空间情感特征分布视角特征为
Figure FDA0000372259200000056
CN201310376618.3A 2013-08-26 2013-08-26 基于多视角多示例学习的恐怖视频场景识别方法 Active CN103473555B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310376618.3A CN103473555B (zh) 2013-08-26 2013-08-26 基于多视角多示例学习的恐怖视频场景识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310376618.3A CN103473555B (zh) 2013-08-26 2013-08-26 基于多视角多示例学习的恐怖视频场景识别方法

Publications (2)

Publication Number Publication Date
CN103473555A true CN103473555A (zh) 2013-12-25
CN103473555B CN103473555B (zh) 2016-09-21

Family

ID=49798399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310376618.3A Active CN103473555B (zh) 2013-08-26 2013-08-26 基于多视角多示例学习的恐怖视频场景识别方法

Country Status (1)

Country Link
CN (1) CN103473555B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657468A (zh) * 2015-02-12 2015-05-27 中国科学院自动化研究所 基于图像与文本的视频的快速分类方法
CN105512609A (zh) * 2015-11-25 2016-04-20 北京工业大学 一种基于核超限学习机的多模融合视频情感识别方法
CN105844239A (zh) * 2016-03-23 2016-08-10 北京邮电大学 一种基于cnn和lstm的暴恐视频检测方法
CN107027051A (zh) * 2016-07-26 2017-08-08 中国科学院自动化研究所 一种基于线性动态系统的视频关键帧提取方法
CN107464556A (zh) * 2016-06-02 2017-12-12 国家计算机网络与信息安全管理中心 一种基于稀疏编码的音频场景识别方法
CN108419094A (zh) * 2018-03-05 2018-08-17 腾讯科技(深圳)有限公司 视频处理方法、视频检索方法、装置、介质及服务器
CN108462708A (zh) * 2018-03-16 2018-08-28 西安电子科技大学 一种基于hdp-hmm的行为序列的建模和检测方法
CN110008365A (zh) * 2019-04-09 2019-07-12 广东工业大学 一种图像处理方法、装置、设备及可读存储介质
CN111368917A (zh) * 2020-03-04 2020-07-03 西安邮电大学 一种用于刑侦图像分类的多示例集成学习方法
US11450111B2 (en) 2020-08-27 2022-09-20 International Business Machines Corporation Deterministic learning video scene detection
CN115113781A (zh) * 2022-06-28 2022-09-27 广州博冠信息科技有限公司 互动图标显示方法、装置、介质与电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090016610A1 (en) * 2007-07-09 2009-01-15 Honeywell International Inc. Methods of Using Motion-Texture Analysis to Perform Activity Recognition and Detect Abnormal Patterns of Activities
CN101593273A (zh) * 2009-08-13 2009-12-02 北京邮电大学 一种基于模糊综合评价的视频情感内容识别方法
CN102034107A (zh) * 2010-12-02 2011-04-27 西安电子科技大学 基于鲁棒视觉注意特征与稀疏表示的不良图像判别方法
CN102262736A (zh) * 2011-07-21 2011-11-30 西北工业大学 空间目标图像分类与识别方法
CN102509084A (zh) * 2011-11-18 2012-06-20 中国科学院自动化研究所 一种基于多示例学习的恐怖视频场景识别方法
CN103226616A (zh) * 2013-05-16 2013-07-31 南京龙渊微电子科技有限公司 一种图像内容检索系统及其图像内容稀疏学习方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090016610A1 (en) * 2007-07-09 2009-01-15 Honeywell International Inc. Methods of Using Motion-Texture Analysis to Perform Activity Recognition and Detect Abnormal Patterns of Activities
CN101593273A (zh) * 2009-08-13 2009-12-02 北京邮电大学 一种基于模糊综合评价的视频情感内容识别方法
CN102034107A (zh) * 2010-12-02 2011-04-27 西安电子科技大学 基于鲁棒视觉注意特征与稀疏表示的不良图像判别方法
CN102262736A (zh) * 2011-07-21 2011-11-30 西北工业大学 空间目标图像分类与识别方法
CN102509084A (zh) * 2011-11-18 2012-06-20 中国科学院自动化研究所 一种基于多示例学习的恐怖视频场景识别方法
CN103226616A (zh) * 2013-05-16 2013-07-31 南京龙渊微电子科技有限公司 一种图像内容检索系统及其图像内容稀疏学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WANG J C等: "Horror movie scene recognition based on emotional perception", 《PROCEEDINGS OF IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING》 *
XINMIAO DING等: "Horror Video Scene Recognition based on Multi-View Multi-instance Learning", 《COMPUTER VISION–ACCV 2012》 *
ZHOU Z等: "Multi-instance learning by treating instances as non-i.i.d samples", 《PROCEEDINGS OF INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657468A (zh) * 2015-02-12 2015-05-27 中国科学院自动化研究所 基于图像与文本的视频的快速分类方法
CN104657468B (zh) * 2015-02-12 2018-07-31 中国科学院自动化研究所 基于图像与文本的视频的快速分类方法
CN105512609A (zh) * 2015-11-25 2016-04-20 北京工业大学 一种基于核超限学习机的多模融合视频情感识别方法
CN105512609B (zh) * 2015-11-25 2019-04-12 北京工业大学 一种基于核超限学习机的多模融合视频情感识别方法
CN105844239B (zh) * 2016-03-23 2019-03-29 北京邮电大学 一种基于cnn和lstm的暴恐视频检测方法
CN105844239A (zh) * 2016-03-23 2016-08-10 北京邮电大学 一种基于cnn和lstm的暴恐视频检测方法
CN107464556A (zh) * 2016-06-02 2017-12-12 国家计算机网络与信息安全管理中心 一种基于稀疏编码的音频场景识别方法
CN107027051A (zh) * 2016-07-26 2017-08-08 中国科学院自动化研究所 一种基于线性动态系统的视频关键帧提取方法
CN107027051B (zh) * 2016-07-26 2019-11-08 中国科学院自动化研究所 一种基于线性动态系统的视频关键帧提取方法
CN108419094A (zh) * 2018-03-05 2018-08-17 腾讯科技(深圳)有限公司 视频处理方法、视频检索方法、装置、介质及服务器
CN108419094B (zh) * 2018-03-05 2021-01-29 腾讯科技(深圳)有限公司 视频处理方法、视频检索方法、装置、介质及服务器
US11368705B2 (en) 2018-03-05 2022-06-21 Tencent Technology (Shenzhen) Company Limited Video feature extraction and video content understanding method, apparatus, storage medium and server
US11934454B2 (en) 2018-03-05 2024-03-19 Tencent Technology (Shenzhen) Company Limited Video processing method and apparatus, video retrieval method and apparatus, storage medium, and server
CN108462708A (zh) * 2018-03-16 2018-08-28 西安电子科技大学 一种基于hdp-hmm的行为序列的建模和检测方法
CN110008365A (zh) * 2019-04-09 2019-07-12 广东工业大学 一种图像处理方法、装置、设备及可读存储介质
CN110008365B (zh) * 2019-04-09 2023-02-07 广东工业大学 一种图像处理方法、装置、设备及可读存储介质
CN111368917A (zh) * 2020-03-04 2020-07-03 西安邮电大学 一种用于刑侦图像分类的多示例集成学习方法
US11450111B2 (en) 2020-08-27 2022-09-20 International Business Machines Corporation Deterministic learning video scene detection
CN115113781A (zh) * 2022-06-28 2022-09-27 广州博冠信息科技有限公司 互动图标显示方法、装置、介质与电子设备

Also Published As

Publication number Publication date
CN103473555B (zh) 2016-09-21

Similar Documents

Publication Publication Date Title
CN103473555A (zh) 基于多视角多示例学习的恐怖视频场景识别方法
Kollias et al. Aff-wild2: Extending the aff-wild database for affect recognition
Pei et al. Memory-attended recurrent network for video captioning
Krause et al. A hierarchical approach for generating descriptive image paragraphs
Castrejon et al. Learning aligned cross-modal representations from weakly aligned data
Zhang et al. Shallow convolutional neural network for implicit discourse relation recognition
CN109189925A (zh) 基于点互信息的词向量模型和基于cnn的文本分类方法
CN109508379A (zh) 一种基于加权词向量表示和组合相似度的短文本聚类方法
CN109508400A (zh) 图文摘要生成方法
CN103854014A (zh) 一种基于上下文稀疏表示的恐怖视频识别方法及装置
CN112364161B (zh) 基于异构社会媒体用户动态行为的微博主题挖掘方法
Zhang et al. Semantic sentence embeddings for paraphrasing and text summarization
Zhang et al. Enhancing video event recognition using automatically constructed semantic-visual knowledge base
Roy et al. Automated detection of substance use-related social media posts based on image and text analysis
Kumar et al. A survey of evolution of image captioning techniques
Frermann et al. Incremental bayesian category learning from natural language
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN103413125B (zh) 基于判别性示例选择多示例学习的恐怖视频识别方法
Kievit-Kylar et al. The semantic pictionary project
Zheng et al. Adaptive Driver Face Feature Fatigue Detection Algorithm Research
Taleb The roots of unfairness: The black swan in arts and literature
Khan et al. Fake news detection of South African COVID-19 related tweets using machine learning
Chen et al. When e-commerce meets social media: Identifying business on wechat moment using bilateral-attention lstm
Weng et al. Affective Image Filter: Reflecting Emotions from Text to Images
Wang et al. Comprehensive Framework of Early and Late Fusion for Image–Sentence Retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20191129

Address after: 250101 2F, Hanyu Jingu new media building, high tech Zone, Jinan City, Shandong Province

Patentee after: Renmin Zhongke (Shandong) Intelligent Technology Co.,Ltd.

Address before: 100190 Zhongguancun East Road, Beijing, No. 95, No.

Patentee before: Institute of Automation, Chinese Academy of Sciences

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200310

Address after: Room 201, 2 / F, Hanyu Jingu new media building, no.7000, Jingshi Road, Jinan City, Shandong Province, 250000

Patentee after: Renmin Zhongke (Jinan) Intelligent Technology Co.,Ltd.

Address before: 250101 2F, Hanyu Jingu new media building, high tech Zone, Jinan City, Shandong Province

Patentee before: Renmin Zhongke (Shandong) Intelligent Technology Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 100176 1401, 14th floor, building 8, No. 8 courtyard, No. 1 KEGU street, Beijing Economic and Technological Development Zone, Daxing District, Beijing (Yizhuang group, high-end industrial area, Beijing Pilot Free Trade Zone)

Patentee after: Renmin Zhongke (Beijing) Intelligent Technology Co.,Ltd.

Address before: Room 201, 2 / F, Hangu Jinggu new media building, 7000 Jingshi Road, Jinan City, Shandong Province

Patentee before: Renmin Zhongke (Jinan) Intelligent Technology Co.,Ltd.