CN103473555B - 基于多视角多示例学习的恐怖视频场景识别方法 - Google Patents

基于多视角多示例学习的恐怖视频场景识别方法 Download PDF

Info

Publication number
CN103473555B
CN103473555B CN201310376618.3A CN201310376618A CN103473555B CN 103473555 B CN103473555 B CN 103473555B CN 201310376618 A CN201310376618 A CN 201310376618A CN 103473555 B CN103473555 B CN 103473555B
Authority
CN
China
Prior art keywords
video
visual angle
angle characteristic
terrified
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310376618.3A
Other languages
English (en)
Other versions
CN103473555A (zh
Inventor
胡卫明
丁昕苗
李兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin Zhongke Beijing Intelligent Technology Co ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201310376618.3A priority Critical patent/CN103473555B/zh
Publication of CN103473555A publication Critical patent/CN103473555A/zh
Application granted granted Critical
Publication of CN103473555B publication Critical patent/CN103473555B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多视角多示例学习的恐怖视频识别方法,其包括:对训练视频集合中的视频提取视频镜头,并针对每个视频镜头选取情感代表帧和情感突变帧;对训练视频集合中每个视频镜头提取音频和视觉特征,其中视觉特征基于所提取的情感代表帧和情感突变帧提取;对于每一个视频提取其四个视角特征向量,构成训练视频集合的多视角特征集合;对所得到的训练视频集合对应的多视角特征集合和待识别视频的多视角特征向量进行稀疏重构,得到稀疏重构系数;根据所述稀疏重构系数计算待识别视频的多视角特征向量与训练视频集合中恐怖视频集合与非恐怖视频集合分别对应的多视频特征集合的重构误差,进而确定待识别视频是否为恐怖视频。

Description

基于多视角多示例学习的恐怖视频场景识别方法
技术领域
本发明涉及模式识别和计算机网络内容安全领域,特别涉及一种基于多视角多示例学习的恐怖视频场景识别方法。
背景技术
随着互联网技术和应用的迅速发展,人们对互联网的认识和使用已越来越深入,同时,网络也给人们的生活带来了很多的便利,甚至改变了人们的生活方式。在互联网高速发展的基础上,色情、暴力、恐怖等有害信息的传播也变得越来越容易。心理学和生理学研究表明,互联网中的恐怖信息对青少年的身心健康产生的危害绝不亚于色情信息的危害。过多的恐怖信息可能使人长期处于极度的焦虑和恐惧中,甚至使人身心受到损害,容易产生心理失衡或障碍,严重时出现病理症状,导致各种恐怖症产生,甚至引发其它的精神疾病;过多恐怖信息的接触是恐惧症及其它心理病症的根源所在,同时,恐怖信息的过剩导致儿童、青少年的恐惧泛化,进而影响他们的社会认知及未来人格的健康发展;过多恐怖信息的接触将左右孩子的阅读取向,影响儿童青少年的审美情趣,可能引发学习不良问题,甚至引发犯罪。因此,有效地对互联网中的恐怖信息进行过滤,对于保护青少年的健康成长,降低青少年犯罪,维护社会稳定,以及抵制互联网低俗之风都具有重要的实际意义。
网络恐怖信息过滤的研究是一个多学科交叉的研究课题,涉及到网络内容安全、多媒体内容分析与理解、模式识别、机器学习等多个领域。而恐怖信息过滤又与传统的色情信息过滤有所不同,“恐怖”本身是一种情感的感知与感受,所以恐怖信息过滤还涉及到情感认知以及视觉心理学领域的相关研究,其研究具有重要的学术意义。
恐怖视频由于其信息量大,形象生动,相比文字类或图片类的恐怖信息对青少年的危害更大,识别难度更高,是当前网络恐怖信息过滤中的难点之一。随着互联网过滤技术的发展,越来越多的研究者开始关注专门的恐怖视频识别技术。Wang等基于情感认知理论对每个恐怖视频的所有关键帧提取了一系列有效的音视频及情感特征,平均化后作为整个视频的情感特征,并使用支持向量机(Support Vector Machine,SVM)来进行恐怖视频的分类识别。由于恐怖视频并不是所有的帧都包含恐怖信息,提取整个恐怖视频的平均特征必将淡化恐怖视频帧的特征信息,从而导致识别率的下降。基于恐怖视频中一定会出现恐怖视频帧,而非恐怖视频中不会包含任何恐怖视频帧的特点,Wang等和Wu等将视频看作多示例学习中的包(bag),视频中的关键帧看作包内的示例(instance),提出采用多示例学习(Multi-Instance Learning,MIL)的方法来识别恐怖视频,并取得了较好的实验效果。然而,在传统多示例学习框架中,示例之间被假定为相互独立的,这并不完全符合视频的特点,即视频中的关键帧之间存在一种上下文关系,另外,上下文关系只反映了恐怖视频一个视角特性,通过观察发现,恐怖视频包含多个视角特性,包括:独立视角特性、低层上下文视角特性、中层上下文特性、情感特征分布视角特性。多个视角特性融合可以有效提高视频的识别率。
发明内容
(一)要解决的技术问题
有鉴于此,本发明的主要目的是提供一种可以兼顾视频多个视角特性的算法框架。
(二)技术方案
为达到上述目的,本发明提供了一种基于多视角多示例学习的恐怖视频识别方法,其包括:
步骤1、对训练视频集合中的视频提取视频镜头,并针对每个视频镜头选取情感代表帧和情感突变帧;
步骤2、对训练视频集合中每个视频镜头提取音频和视觉特征,其中视觉特征基于所提取的情感代表帧和情感突变帧提取;
步骤3、对于每一个视频提取其四个视角特征向量,构成训练视频集合的多视角特征集合,所述四个视角特征包括独立视角特征、中层上下文视角特征、低层上下文视角特征、情感特征分布视角特征;
步骤4、对所得到的训练视频集合对应的多视角特征集合和待识别视频的多视角特征向量进行稀疏重构,得到稀疏重构系数;
步骤5、根据所述稀疏重构系数计算待识别视频的多视角特征向量与训练视频集合中恐怖视频集合与非恐怖视频集合分别对应的多视频特征集合的重构误差,进而确定待识别视频是否为恐怖视频。
其中,步骤1具体包括如下步骤:
步骤1.1、以镜头为单位计算每个视频帧的颜色情感强度值;
步骤1.2、计算每个镜头内视频帧颜色情感强度值的平均值和方差值;
步骤1.3、选择情感强度值最接近平均值的视频帧作为情感代表帧;
步骤1.4、选择情感强度方差值最大的视频帧作为情感突变帧。
其中,所述视频帧的颜色情感强度值如下计算:
EI i = 1 K × L Σ m = 1 K Σ n = 1 L EI ( m , n )
其中,EIi表示第i个视频帧的颜色情感强度值,EI(m,n)为第i个视频帧中第m行n列像素点的颜色情感强度值,计算如下:
EI ( m , n ) = Activity 2 + weight 2 + Heat 2
其中,Activity表示活动性,Weight表示重要性,Heat表示热度。
其中,步骤2中视频特征基于表示镜头的情感代表帧和情感突变帧提取。
其中,步骤3中每个视频的独立视角特征为每个视频的音频特征和视觉特征构成的特征集合。
其中,步骤3中每个视频的中层上下文视角特征如下获得:
步骤3.2.1、将每个视频按照镜头顺序排列其音频特征和视觉特征,得到音视频特征序列;
步骤3.2.2、将训练视频集合中所有视频分为恐怖视频集合和非恐怖视频集合,并分别训练两个HDP-HMM模型,得到相应的恐怖和非恐怖HDP-HMM模型参数;
步骤3.2.3、将所述视频特征序列输入所述两个训练好的HDP-HMM模型得到训练视频集合中每个视频中镜头的隐状态;
步骤3.2.4、统计每个视频出现的隐状态数量,构成该视频对应的状态分布图,得到该视频的中层上下文视角特征。
其中,步骤3中每个视频的低层上下文视角特征为每个视频对应的构造ε-graph图的权重矩阵,即计算每个视频的每两个音频、视觉特征之间的欧式距离,距离小于阈值ε,则这两个特征之间的边的权值为1,否则为0。
其中,步骤3中每个视频的情感特征分布视角特征如下获得:
步骤3.4.1、将对每个视频的音频、视觉特征进行聚类,得到聚类中心构成的视觉词典;
步骤3.4.2、统计每个视频中出现的视觉单词次数,得到视觉词包模型直方图分布,该视觉词包模型直方图分布即为情感特征分布视角特征。
其中,步骤4中稀疏重构系数根据下式获得:
min A 1 2 Σ i = 1 4 w i | | z test i - Z i α i | | 2 2 + λ | | A | | 2,1
其中,A=[α1,α2,α3,α4]表示四种不同视角特征重构系数构成的矩阵,wi,i=1,2,3,4表示重构四种视角特征时的误差约束权重,为待识别视频的四种视角特征向量,Zi,i=1,2,3,4为根据训练视频集合对应的多视角特征集合得到的矩阵,其为将所述多视角特征集合中每种视角特征向量投影到高维空间得到的矩阵;λ为稀疏正则系数。
其中,步骤5中重构误差的计算方法如下:
r m = Σ i = 1 4 w i | | z test i - Z i α m i | | 2 2
其中,表示与第m类对应的第i个视角特征的重构系数,为待识别视频的四种视角特征向量,wi,i=1,2,3,4表示重构四种视角特征时的误差约束权重,Zi,i=1,2,3,4为根据训练视频集合对应的多视角特征集合得到的矩阵,其为将所述多视角特征集合中每种视角特征向量投影到高维空间得到的矩阵。
其中,将所述多视角特征集合中每种视角特征向量投影到的高维空间对应的核函数分别如下所示:
(1)独立视角特征高维空间对应的核函数:
Ker ( v i , a , v j , b ) = exp ( - 1 σ 1 | | v i , a - v j , b | | 2 )
其中,Vi,Vj表示任意两个训练视频的独立视角特征,vi,·,vj,·分别代表Vi,Vj中的任一镜头的独立视角特征,ni,nj分别表示视频Vi,Vj包含的镜头数,Υ1为将独立视角特征投影到高维空间的映射函数σ1为核函数的宽度参数;投影后得到的高维空间独立视角特征为Z1=[Υ1(V1),Υ1(V2),…,Υ1(VN)],N为训练视频集合中的视频数;
(2)中层上下文视角特征高维空间对应的核函数:
其中,sem_histi,sem_hstj表示任意两个训练视频的隐状态分布直方图,Υ2为将中层上下文视角特征投影到高维空间的映射函数Υ2DisEMD(·)计算的是两个直方图分布的EMD距离,σ2为核函数的宽度参数;投影后得到的高维空间中层上下文视角特征为Z2=[Υ2(sem_hist1),Υ2(sem_hist2),…,Υ2(sem_histN)];
(3)低层上下文视角特征高维空间对应的核函数:
Ker ( v i , a , v j , b ) = exp ( - 1 σ 3 | | v i , a - v j , b | | 2 )
其中,Gi,Gj分别表示任意两个训练视频的低层上下文视角特征,vi,·,vj,·分别表示Gi,Gj中任一镜头对应的底层上下文视角特征,ni,nj分别为Gi,Gj对应视频所包含的镜头特征数,Υ3为将低层上下文视角特征投影到d3维高维空间的映射函数 ω i , a = 1 / Σ u = 1 n i W a , u i , ω j , b = 1 / Σ u = 1 n i W b , u j , Wi和Wj分别是Gi,Gj对应视频的ε-graph权重矩阵,σ3为核函数的宽度参数,投影后得到的高维空间低层上下文视角特征为Z3=[Υ3(G1),Υ3(G2),…,Υ3(GN)];
(4)情感特征分布视角特征高维空间对应的核函数:
F ( b k 1 , b k 2 ) = exp ( - 1 σ 4 | | b k 1 - b k 2 | | 2 )
其中,Histi,Histj表示任意两个训练视频Xi,Xj的情感特征分布视角特征,Υ4为将低层上下文视角特征投影到d4维高维空间的映射函数 分别表示视频出现视觉单词的频率,mv是视觉词典中视觉单词的个数,σ4为核函数的宽度参数;投影后得到的高维空间情感特征分布视角特征为Z4=[Υ4(Hist1),Υ4(Hist2),…,Υ4(HistN)]。
(三)有益效果
从上述技术方案可以看出,本发明具有以下优点:
(1)本发明首次提出恐怖视频的四个视角特性,包括:独立视角特性、低层上下文视角特性、中层上下文特性、情感特征分布视角特性。完善了恐怖视频的特征描述。
(2)本发明利用HDP-HMM(Hierarchical Dirichlet Process-HM)自动学习视频的隐藏状态,并通过状态分布实现了中层语义的提取,减小了低层特征到高层情感语义的鸿沟。
(3)本发明构造了多视角联合稀疏表示模型,在重构测试视频时可以同时兼顾多个视角特性。
(4)本发明所提出的算法基于稀疏表示模型,该模型无需学习过程,可扩充性强,能够更快捷,更高效的完成视频识别。
本发明提出了一种新的基于多视角的多示例学习模型应用到恐怖视频场景识别中,该技术具有重要的学术意义和社会意义,并具有广阔的应用前景。
附图说明
图1为本发明提供的基于多视角多示例学习的视频场景识别框架图;
图2为本发明提供的识别方法中训练的HDP-HMM模型示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
图1示出了本发明提供的基于多视角多示例学习的恐怖视频场景识别方法。如图1所示,该方法具体包括以下步骤:
步骤1:对视频进行结构化分析,采用基于信息论的互信息熵镜头分割算法提取视频镜头,然后,针对每个镜头选取情感代表帧和情感突变帧来表示该镜头,具体提取步骤包括:
步骤1.1:以镜头为单位计算每个视频帧的颜色情感强度值;假设第i帧图像由K行L列像素组成,则该帧图像的情感强度值计算如下:
EI i = 1 K × L Σ m = 1 K Σ n = 1 L EI ( m , n )
其中,EI(m,n)为第m行n列像素点的颜色情感强度值,计算如下:
EI ( m , n ) = Activity 2 + Weight 2 + Heat 2
Activity表示活动性、Weight表示重要性,Heat表示热度,其计算如下:
activity = - 2.1 + 0.06 [ ( L * - 50 ) 2 + ( a * - 3 ) 2 + ( b * - 17 1.4 ) 2 ] 1 / 2
weight=-1.8+0.04(100-L*)+0.45cos(h-100°)
heat=-0.5+0.02(C*)1.07cos(h-50°)
其中,(L*,a*,b*)和(L*,C*,h)分别是颜色空间CIELAB和CIELCH的颜色分量。
步骤1.2:计算每个镜头内视频帧颜色情感强度值的平均值和方差值;假设一个镜头包含N个视频帧图像,则镜头的颜色强度平均值计算如下:
mean EI = 1 N Σ i = 1 N EI i
该镜头内第i帧图像的颜色情感强度值的方差计算如下:
vari=(EIi—meanEI)2
步骤1.3:选择情感强度值最接近平均值的视频帧作为情感代表帧;
步骤1.4:选择情感强度方差值最大的视频帧作为情感突变帧;
步骤2:以镜头为单位提取视频的视觉和音频情感特征,将一个视频场景看作一个视频包,该视频包内的镜头音视频特征看作包内的“示例”,构成多示例学习框架数据结构。提取的音视频特征如表1所示。其中,音频特征以一个镜头长度提取,视觉特征则基于镜头提取的情感代表帧和情感突变帧提取。
表1特征汇总表
步骤3:建模步骤2所得到的视频包的四个视角特性,包括独立视角特性、中层上下文视角特性、低层上下文视角特性、情感特征分布视角特性。具体步骤包括:
步骤3.1:用视频包的镜头音视频特征集合,即将一个视频镜头的音视频特征作为一列组成的特征矩阵表示独立视角特征,将该独立视角特征投影到高维空间,并构造该空间核函数如下:
Ker ( v i , a , v j , b ) = exp ( - 1 σ 1 | | v i , a - v j , b | | 2 )
其中,Vi,Vj表示任意两个视频包的独立视角特征,vi,·,vj,·分别代表Vi,Vj中的任一镜头的独立视角特征,ni,nj分别表示视频包Vi,Vj包含的镜头数,Υ1为将独立视角特征投影到d1维高维空间的映射函数Υ1σ1为核函数的宽度参数,控制了函数的径向作用范围。投影后得到的高维空间独立视角特征为Z1=[Υ1(V1),Υ1(V2),…,Υ1(VN)],N为训练视频集合中的视频数。
步骤3.2:训练HDP-HMM(Hierarchical Dirichlet Process-HM)模型,统计视频包的各隐状态分布得到中层上下文视角特征,将该中层上下文视角特征投影到高维空间,并构造该空间核函数。具体过程包括:
步骤3.2.1:将每个视频按照镜头顺序排列其音视频特征,得到视频特征序列;
步骤3.2.2:将训练视频集合中的多个视频按恐怖和非恐怖分为两个集合,分别训练两个HDP-HMM(Hierarchical Dirichlet Process-Hidden MarkovModels)模型,模型如图2所示,得到恐怖和非恐怖HDP-HMM模型参数πk和φk
步骤3.2.3:将步骤3.2.1中的视频特征序列输入已经训练好的两个HDP-HMM模型,记录模型预测的训练视频集合中多个视频中每个镜头的隐状态[V1,…VT]值。
步骤3.2.4:统计每个视频出现的隐状态数量,构成该视频对应的状态分布图,得到中层上下文视角特征。
步骤3.2.5:将中层上下文视角特征投影到高维空间,并设计核函数如下:
其中,sem_histi,sem_histj表示任意两个视频的隐状态分布直方图,Υ2为将中层上下文视角特征投影到d2维高维空间的映射函数DisEMD(·)计算的是两个直方图分布的EMD(Earth-Movers-Distance)距离,σ2的含义同步骤3.1中σ1,为核函数的宽度参数,控制了函数的径向作用范围。投影后得到的高维空间中层上下文视角特征为Z2=[Υ2(sem_hist1),Υ2(sem_hist2),…,Υ2(sem_histN)],N为训练视频集合中的视频数。
步骤3.3:对视频包内各镜头特征构造ε-graph图,用该图表示视频低层上下文视角特性,将该视角特征投影到高维空间,并构造该空间核函数。其中,具体过程包括:
步骤3.3.1:对每个视频构造ε-graph如下:
计算视频中每两个音视频特征之间的欧氏距离,如果距离小于阈值ε,则该两个特征之间建立一条边,权值设置为1,否则权值设置为0。
步骤3.3.2:将构造的ε-graph图结构作为视频的低层上下文视角特征,并投影到高维空间,在该空间构造核函数如下:
Ker ( v i , a , v j , b ) = exp ( - 1 σ 3 | | v i , a - v j , b | | 2 )
其中,Gi,Gj分别表示任意两个视频的低层上下文视角特征,vi,·,vj,·分别表示Gi,Gj中任一镜头对应的底层上下文视角特征,ni,nj分别为Gi,Gj对应视频所包含的镜头特征数,Υ3为将低层上下文视角特征投影到d3维高维空间的映射函数 ω i , a = 1 / Σ u = 1 n i W a , u i , ω j , b = 1 / Σ u = 1 n i W b , u j , Wi和Wj分别是Gi,Gj对应视频经步骤3.3.1得到的ε-graph权重矩阵,σ3的含义同步骤3.1中σ1,为核函数的宽度参数,控制了函数的径向作用范围。投影后得到的高维空间低层上下文视角特征为Z3=[Υ3(G1),Υ3(G2),…,Υ3(GN)],N为训练视频集合中的视频数。
步骤3.4:应用视觉词包模型,得到视频包内的情感特征直方图分布,表示该视频包情感特征分布视角特性,将该特征投影到高维空间,并构造相应的核函数。具体过程包括:
步骤3.4.1:将所有视频的镜头音视频特征利用K-means方法进行聚类,得到的聚类中心构成视觉词典,所述视觉词典包括多个视觉单词,每个单词对应一个音视频特征聚类中心。
步骤3.4.2:统计每个视频出现的视觉单词次数,得到视觉词包模型直方图分布,即情感特征分布视角特征。
步骤3.4.3:将情感特征分布视角特征投影到高维空间,并构造核函数如下:
F ( b k 1 , b k 2 ) = exp ( - 1 σ 4 | | b k 1 - b k 2 | | 2 )
其中,Histi,Histj表示任意两个视频Xi,Xj的情感特征分布视角特征,Υ4为将低层上下文视角特征投影到d4维高维空间的映射函数h(k1;·),h(k2;·)分别表示视频出现视觉单词的频率,mv是视觉词典中视觉单词的个数,σ4的含义同步骤3.1中σ1,为核函数的宽度参数,控制了函数的径向作用范围。投影后得到的高维空间情感特征分布视角特征为Z4=[Υ4(Hist1),Υ4(Hist2),…,Υ4(HistN)],N为总视频场景数。
步骤4:构造多视角联合稀疏表示框架。在此框架中融合步骤3中视频包的四个视角,得到从四个视角重构测试视频包的稀疏重构系数。由步骤3得到训练视频的四个视角特征矩阵为:Zi,i=1,2,3,4,待识别视频的四个视角特征向量为:则多视角联合稀疏表示优化重构形式如下:
min A 1 2 Σ i = 1 4 w i | | z test i - Z i α i | | 2 2 + λ | | A | | 2,1
其中,A=[α1,α2,α3,α4]表示四种不同视角特征重构系数构成的矩阵,wi,i=1,2,3,4表示重构四种视角特征时的误差约束权重,λ为稀疏正则系数,用来约束重构系数矩阵A的稀疏性。
其中,步骤4中误差约束权重wi取值的确定方法,进一步说明如下:
将wi的取值范围设置为[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1],且满足针对每一种wi,i=1,2,3,4的取值组合,将训练视频集合分为三份,一份作为测试样本,其他两份为训练样本,用步骤3-5所述的多视角稀疏重构的方法得到样本分类结果,重复进行3次上述的分类过程,每次选择不同的测试样本,选取平均分类准确率最高的wi,i=1,2,3,4取值组合作为wi的最终取值。
该多视角联合稀疏表示重构系数的优化求解可以通过基于l2,1范式的加速近似梯度(Accelerated Proximal Gradient,APG)算法来求解,该算法的关键是求解两个内积和(Zi)TZi,i=1,2,3,4,即待识别视频与训练视频样本四个视角特征的内积和训练样本自身四个视角特征的内积。上述两种内积的求解如下:
将步骤3.1种定义的核函数代入上述两式则可以求出独立视角对应的两个内积值。
将步骤3.2.5定义的核函数代入上述两式则可以求出中层上下文视角特征对应的两个内积值。
将步骤3.3.2定义的核函数代入则可以求出低层上下文视角特征对应的两个内积值。
将步骤3.4.3定义的核函数代入则可以求出情感特征分布视角特征对应的两个内积值。
步骤5:在步骤4所得到的重构系数基础上,分别计算待识别视频多视角特征与恐怖和非恐怖训练视频多视角特征的重构误差,误差小的视频类别即待识别视频的类别:恐怖或非恐怖。误差的计算方法如下:
r m = Σ i = 1 4 w i | | z test i - Z i α i | | 2 2
其中表示与第m类对应的第i个视角的重构系数,m=1,2,表示恐怖类型和非恐怖类型。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多视角多示例学习的恐怖视频识别方法,其包括:
步骤1、对训练视频集合中的视频提取视频镜头,并针对每个视频镜头选取情感代表帧和情感突变帧;
步骤2、对训练视频集合中每个视频镜头提取音频和视觉特征,其中视觉特征基于所提取的情感代表帧和情感突变帧提取;
步骤3、对于每一个视频提取其四个视角特征向量,构成训练视频集合的多视角特征集合,所述四个视角特征包括独立视角特征、中层上下文视角特征、低层上下文视角特征、情感特征分布视角特征;
步骤4、对所得到的训练视频集合对应的多视角特征集合和待识别视频的多视角特征向量进行稀疏重构,得到稀疏重构系数;
步骤5、根据所述稀疏重构系数计算待识别视频的多视角特征向量与训练视频集合中恐怖视频集合与非恐怖视频集合分别对应的多视频特征集合的重构误差,进而确定待识别视频是否为恐怖视频;
步骤1具体包括如下步骤:
步骤1.1、以镜头为单位计算每个视频帧的颜色情感强度值;
步骤1.2、计算每个镜头内视频帧颜色情感强度值的平均值和方差值;
步骤1.3、选择情感强度值最接近平均值的视频帧作为情感代表帧;
步骤1.4、选择情感强度方差值最大的视频帧作为情感突变帧。
2.如权利要求1所述的恐怖视频识别方法,其特征在于,所述视频帧的颜色情感强度值如下计算:
EI i = 1 K × L Σ m = 1 K Σ n = 1 L E I ( m , n )
其中,EIi表示第i个视频帧的颜色情感强度值,EI(m,n)为第i个视频帧中第m行n列像素点的颜色情感强度值,所述K和L分别表示第i视频帧的行和列数,计算如下:
E I ( m , n ) = Activity 2 + Weight 2 + Heat 2
其中,Activity表示活动性,Weight表示重要性,Heat表示热度。
3.如权利要求1-2任一项所述的恐怖视频识别方法,其特征在于,步骤2中视频特征基于表示镜头的情感代表帧和情感突变帧提取。
4.如权利要求1-2任一项所述的恐怖视频识别方法,其特征在于,步骤3中每个视频的独立视角特征为每个视频的音频特征和视觉特征构成的特征集合。
5.如权利要求1-2任一项所述的恐怖视频识别方法,其特征在于,步骤3中每个视频的中层上下文视角特征如下获得:
步骤3.2.1、将每个视频按照镜头顺序排列其音频特征和视觉特征,得到音视频特征序列;
步骤3.2.2、将训练视频集合中所有视频分为恐怖视频集合和非恐怖视频集合,并分别训练两个HDP-HMM模型,得到相应的恐怖和非恐怖HDP-HMM模型参数;
步骤3.2.3、将所述视频特征序列输入所述两个训练好的HDP-HMM模型得到训练视频集合中每个视频中镜头的隐状态;
步骤3.2.4、统计每个视频出现的隐状态数量,构成该视频对应的状态分布图,得到该视频的中层上下文视角特征。
6.如权利要求1-2任一项所述的恐怖视频识别方法,其特征在于,步骤3中每个视频的低层上下文视角特征为每个视频对应的构造ε-graph图的权重矩阵,即计算每个视频的每两个音频、视觉特征之间的欧式距离,距离小于阈值ε,则这两个特征之间的边的权值为1,否则为0。
7.如权利要求1-2任一项所述的恐怖视频识别方法,其特征在于,步骤3中每个视频的情感特征分布视角特征如下获得:
步骤3.4.1、将对每个视频的音频、视觉特征进行聚类,得到聚类中心构成的视觉词典;
步骤3.4.2、统计每个视频中出现的视觉单词次数,得到视觉词包模型直方图分布,该视觉词包模型直方图分布即为情感特征分布视角特征。
8.如权利要求1-2任一项所述的恐怖视频识别方法,其特征在于,步骤4中稀疏重构系数根据下式获得:
m i n A 1 2 Σ i = 1 4 w i | | z t e s t i - Z i α i | | 2 2 + λ | | A | | 2 , 1
其中,A=[α1,α2,α3,α4]表示四种不同视角特征重构系数构成的矩阵,αi,i=1,2,3,4表示第i种视角特征重构系数,wi,i=1,2,3,4表示重构四种视角特征时的误差约束权重,为待识别视频的四种视角特征向量,Zi,i=1,2,3,4为根据训练视频集合对应的多视角特征集合得到的矩阵,其为将所述多视角特征集合中每种视角特征向量投影到高维空间得到的矩阵;λ为稀疏正则系数。
9.如权利要求1-2任一项所述的恐怖视频识别方法,其特征在于,步骤5中重构误差的计算方法如下:
r m = Σ i = 1 4 w i | | z t e s t i - Z i α m i | | 2 2
其中,表示与第m类对应的第i个视角特征的重构系数,为待识别视频的四种视角特征向量,wi,i=1,2,3,4表示重构四种视角特征时的误差约束权重,Zi,i=1,2,3,4为根据训练视频集合对应的多视角特征集合得到的矩阵,其为将所述多视角特征集合中每种视角特征向量投影到高维空间得到的矩阵。
10.如权利要求8所述的恐怖视频识别方法,其特征在于,将所述多视角特征集合中每种视角特征向量投影到的高维空间对应的核函数分别如下所示:
(1)独立视角特征高维空间对应的核函数:
K e r ( v i , a , v j , b ) = exp ( - 1 σ 1 | | v i , a - v j , b | | 2 )
其中,Vi,Vj表示任意两个训练视频的独立视角特征,vi,·,vj,·分别代表Vi,Vj中的任一镜头的独立视角特征,ni,nj分别表示视频Vi,Vj包含的镜头数,Υ1为将独立视角特征投影到高维空间的映射函数Υ1σ1为核函数的宽度参数;投影后得到的高维空间独立视角特征为Z1=[Υ1(V1),Υ1(V2),…,Υ1(VN)],N为训练视频集合中的视频数;
(2)中层上下文视角特征高维空间对应的核函数:
其中,sem_histi,sem-histj表示任意两个训练视频的隐状态分布直方图,Υ2为将中层上下文视角特征投影到高维空间的映射函数Υ2DiSEMD(·)计算的是两个直方图分布的EMD距离,σ2为核函数的宽度参数;投影后得到的高维空间中层上下文视角特征为Z2=[Υ2(sem_hist1),Υ2(sem_hist2),…,Υ2(sem_histN)];
(3)低层上下文视角特征高维空间对应的核函数:
K e r ( v i , a , v j , b ) = exp ( - 1 σ 3 | | v i , a - v j , b | | 2 )
其中,Gi,Gj分别表示任意两个训练视频的低层上下文视角特征,vi,·,vj,·分别表示Gi,Gj中任一镜头对应的底层上下文视角特征,ni,nj分别为Gi,Gj对应视频所包含的镜头特征数,Υ3为将低层上下文视角特征投影到d3维高维空间的映射函数Υ3 Wi和Wj分别是Gi,Gj对应视频的ε-graph权重矩阵,σ3为核函数的宽度参数,投影后得到的高维空间低层上下文视角特征为Z3=[Υ3(G1),Υ3(G2),…,Υ3(GN)];
(4)情感特征分布视角特征高维空间对应的核函数:
F ( b k 1 , b k 2 ) = exp ( - 1 σ 4 | | b k 1 - b k 2 | | 2 )
其中,Histi,Histj表示任意两个训练视频Xi,Xj的情感特征分布视角特征,Υ4为将低层上下文视角特征投影到d4维高维空间的映射函数Υ4h(k1;·),h(k2;·)分别表示视频出现视觉单词的频率,mv是视觉词典中视觉单词的个数,σ4为核函数的宽度参数;投影后得到的高维空间情感特征分布视角特征为Z4=[Υ4(Hist1),Υ4(Hist2),…,Υ4(HistN)]。
CN201310376618.3A 2013-08-26 2013-08-26 基于多视角多示例学习的恐怖视频场景识别方法 Active CN103473555B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310376618.3A CN103473555B (zh) 2013-08-26 2013-08-26 基于多视角多示例学习的恐怖视频场景识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310376618.3A CN103473555B (zh) 2013-08-26 2013-08-26 基于多视角多示例学习的恐怖视频场景识别方法

Publications (2)

Publication Number Publication Date
CN103473555A CN103473555A (zh) 2013-12-25
CN103473555B true CN103473555B (zh) 2016-09-21

Family

ID=49798399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310376618.3A Active CN103473555B (zh) 2013-08-26 2013-08-26 基于多视角多示例学习的恐怖视频场景识别方法

Country Status (1)

Country Link
CN (1) CN103473555B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657468B (zh) * 2015-02-12 2018-07-31 中国科学院自动化研究所 基于图像与文本的视频的快速分类方法
CN105512609B (zh) * 2015-11-25 2019-04-12 北京工业大学 一种基于核超限学习机的多模融合视频情感识别方法
CN105844239B (zh) * 2016-03-23 2019-03-29 北京邮电大学 一种基于cnn和lstm的暴恐视频检测方法
CN107464556A (zh) * 2016-06-02 2017-12-12 国家计算机网络与信息安全管理中心 一种基于稀疏编码的音频场景识别方法
CN107027051B (zh) * 2016-07-26 2019-11-08 中国科学院自动化研究所 一种基于线性动态系统的视频关键帧提取方法
CN110475129B (zh) 2018-03-05 2021-05-28 腾讯科技(深圳)有限公司 视频处理方法、介质及服务器
CN108462708B (zh) * 2018-03-16 2020-12-08 西安电子科技大学 一种基于hdp-hmm的行为序列的检测方法
CN110008365B (zh) * 2019-04-09 2023-02-07 广东工业大学 一种图像处理方法、装置、设备及可读存储介质
CN111368917B (zh) * 2020-03-04 2023-06-09 西安邮电大学 一种用于刑侦图像分类的多示例集成学习方法
US11450111B2 (en) 2020-08-27 2022-09-20 International Business Machines Corporation Deterministic learning video scene detection
CN115113781A (zh) * 2022-06-28 2022-09-27 广州博冠信息科技有限公司 互动图标显示方法、装置、介质与电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593273A (zh) * 2009-08-13 2009-12-02 北京邮电大学 一种基于模糊综合评价的视频情感内容识别方法
CN102034107A (zh) * 2010-12-02 2011-04-27 西安电子科技大学 基于鲁棒视觉注意特征与稀疏表示的不良图像判别方法
CN102262736A (zh) * 2011-07-21 2011-11-30 西北工业大学 空间目标图像分类与识别方法
CN102509084A (zh) * 2011-11-18 2012-06-20 中国科学院自动化研究所 一种基于多示例学习的恐怖视频场景识别方法
CN103226616A (zh) * 2013-05-16 2013-07-31 南京龙渊微电子科技有限公司 一种图像内容检索系统及其图像内容稀疏学习方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090016610A1 (en) * 2007-07-09 2009-01-15 Honeywell International Inc. Methods of Using Motion-Texture Analysis to Perform Activity Recognition and Detect Abnormal Patterns of Activities

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593273A (zh) * 2009-08-13 2009-12-02 北京邮电大学 一种基于模糊综合评价的视频情感内容识别方法
CN102034107A (zh) * 2010-12-02 2011-04-27 西安电子科技大学 基于鲁棒视觉注意特征与稀疏表示的不良图像判别方法
CN102262736A (zh) * 2011-07-21 2011-11-30 西北工业大学 空间目标图像分类与识别方法
CN102509084A (zh) * 2011-11-18 2012-06-20 中国科学院自动化研究所 一种基于多示例学习的恐怖视频场景识别方法
CN103226616A (zh) * 2013-05-16 2013-07-31 南京龙渊微电子科技有限公司 一种图像内容检索系统及其图像内容稀疏学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Horror movie scene recognition based on emotional perception;Wang J C等;《Proceedings of IEEE International Conference On Image Processing》;20101231;第1489-1492页 *
Horror Video Scene Recognition based on Multi-View Multi-instance Learning;Xinmiao Ding等;《Computer Vision–ACCV 2012》;20121231;第559-610页 *
Multi-instance learning by treating instances as non-i.i.d samples;Zhou Z等;《Proceedings of International Conference on Machine Learning》;20091231;第1249-1256页 *

Also Published As

Publication number Publication date
CN103473555A (zh) 2013-12-25

Similar Documents

Publication Publication Date Title
CN103473555B (zh) 基于多视角多示例学习的恐怖视频场景识别方法
Kollias et al. Aff-wild2: Extending the aff-wild database for affect recognition
Feng et al. Dialogue discourse-aware graph model and data augmentation for meeting summarization
Stjernfelt Diagrammatology: An investigation on the borderlines of phenomenology, ontology, and semiotics
Dong et al. Dreamllm: Synergistic multimodal comprehension and creation
Khalidi Natural categories and human kinds: Classification in the natural and social sciences
Urbach et al. Quantifiers more or less quantify on-line: ERP evidence for partial incremental interpretation
Burton et al. Mental representations of familiar faces
CN102509084B (zh) 一种基于多示例学习的恐怖视频场景识别方法
Jiang et al. Probing the visual representation of faces with adaptation: A view from the other side of the mean
Cai The subject in crisis in contemporary Chinese literature
Aragon et al. Detecting mental disorders in social media through emotional patterns-the case of anorexia and depression
CN103854014A (zh) 一种基于上下文稀疏表示的恐怖视频识别方法及装置
Liu et al. An aesthetic measurement approach for evaluating product appearance design
Rosenfield Aristotle and information theory: A comparison of the influence of causal assumptions on two theories of communication
Tunde Asiru et al. A linguistic and literary analyses study of selected cartoons on the novel Covid-19 pandemic in Nigeria
CN103413125B (zh) 基于判别性示例选择多示例学习的恐怖视频识别方法
Li et al. [Retracted] Deep Learning and Improved HMM Training Algorithm and Its Analysis in Facial Expression Recognition of Sports Athletes
Wang et al. Neurocognition-inspired design with machine learning
Weng et al. Affective image filter: Reflecting emotions from text to images
Honkela et al. Subjects on objects in contexts: using GICA method to quantify epistemological subjectivity
Bassler Diagnosing contemporary philosophy with the Matrix movies
Srinivasan et al. Quantifying Confounding Bias in Generative Art: A Case Study
Wang et al. Comprehensive framework of early and late fusion for image–sentence retrieval
Catz et al. From theory to implementation: Building a multidimensional space for face recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20191129

Address after: 250101 2F, Hanyu Jingu new media building, high tech Zone, Jinan City, Shandong Province

Patentee after: Renmin Zhongke (Shandong) Intelligent Technology Co.,Ltd.

Address before: 100190 Zhongguancun East Road, Beijing, No. 95, No.

Patentee before: Institute of Automation, Chinese Academy of Sciences

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200310

Address after: Room 201, 2 / F, Hanyu Jingu new media building, no.7000, Jingshi Road, Jinan City, Shandong Province, 250000

Patentee after: Renmin Zhongke (Jinan) Intelligent Technology Co.,Ltd.

Address before: 250101 2F, Hanyu Jingu new media building, high tech Zone, Jinan City, Shandong Province

Patentee before: Renmin Zhongke (Shandong) Intelligent Technology Co.,Ltd.

TR01 Transfer of patent right
CP03 Change of name, title or address

Address after: 100176 1401, 14th floor, building 8, No. 8 courtyard, No. 1 KEGU street, Beijing Economic and Technological Development Zone, Daxing District, Beijing (Yizhuang group, high-end industrial area, Beijing Pilot Free Trade Zone)

Patentee after: Renmin Zhongke (Beijing) Intelligent Technology Co.,Ltd.

Address before: Room 201, 2 / F, Hangu Jinggu new media building, 7000 Jingshi Road, Jinan City, Shandong Province

Patentee before: Renmin Zhongke (Jinan) Intelligent Technology Co.,Ltd.

CP03 Change of name, title or address