CN103854014A - 一种基于上下文稀疏表示的恐怖视频识别方法及装置 - Google Patents

一种基于上下文稀疏表示的恐怖视频识别方法及装置 Download PDF

Info

Publication number
CN103854014A
CN103854014A CN201410065197.7A CN201410065197A CN103854014A CN 103854014 A CN103854014 A CN 103854014A CN 201410065197 A CN201410065197 A CN 201410065197A CN 103854014 A CN103854014 A CN 103854014A
Authority
CN
China
Prior art keywords
video
context
identified
camera lens
training video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410065197.7A
Other languages
English (en)
Inventor
李兵
胡卫明
丁昕苗
祝守宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201410065197.7A priority Critical patent/CN103854014A/zh
Publication of CN103854014A publication Critical patent/CN103854014A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于上下文稀疏表示的恐怖视频识别方法及装置,该方法包括:对训练视频样本进行镜头分割,然后针对每个镜头选取一幅关键帧来代表该镜头;提取每个关键帧的视觉特征,并提取整个训练视频样本的音频特征;建立起每一个训练视频样本内部各个关键帧之间的上下文关系图;提取待识别视频的视觉特征、音频特征;构建待识别视频与训练视频样本之间的代价矩阵;基于上下文稀疏表示模型,利用所有训练视频样本对所述待识别视频进行重构,重构误差最小的训练视频样本的类别即为待识别视频的类别;其中所述上下文稀疏表示模块以所述训练视频样本的上下文关系图作为稀疏表示的词典,并利用所述代价矩阵对其进行约束。

Description

一种基于上下文稀疏表示的恐怖视频识别方法及装置
技术领域
本发明涉及模式识别和计算机网络内容安全领域,特别涉及一种基于上下文稀疏表示的恐怖视频识别方法及装置。
背景技术
随着互联网技术和应用的迅速发展,互联网也给人们的生活带来便利的同时,也给不良信息的传播提供了方便。在互联网高速发展的基础上,色情、暴力、恐怖等有害信息的传播也变得越来越容易。心理学和生理学研究表明,互联网中的恐怖信息对青少年的身心健康产生的危害绝不亚于色情信息的危害。过多的恐怖信息可能使人长期处于极度的焦虑和恐惧中,甚至使人身心受到损害,容易产生心理失衡或障碍,严重时出现病理症状,导致各种恐怖症产生,甚至引发其它的精神疾病。过多恐怖信息的接触是恐惧症及其它心理病症的根源所在。同时,恐怖信息的过剩导致儿童、青少年的恐惧泛化,进而影响他们的社会认知及未来人格的健康发展;过多恐怖信息的接触将左右孩子的阅读取向,影响儿童青少年的审美情趣,可能引发学习不良问题,甚至引发犯罪。
网络不良信息的危害早已得到国际社会的广泛关注,现有的研究主要关注色情信息的过滤。虽然恐怖信息的危害不亚于色情信息,但之前的研究主要关色情图像和色情视频的识别与过滤。目前尚未有太多的研究注恐怖信息的过滤。
发明内容
(一)要解决的技术问题
本发明的主要目的是提出一种可以兼顾关键帧之间上下文关系以及音视频融合的恐怖视频识别的方法。
(二)技术方案
为达到上述目的,本发明提供了一种基于上下文稀疏表示的恐怖视频识别方法,该方法包括:
步骤1:对训练视频样本进行镜头分割,然后针对每个镜头选取一幅关键帧来代表该镜头;
步骤2:提取每个关键帧的视觉特征,并提取整个训练视频样本的音频特征;
步骤3:利用ε-graph建图方法,建立起每一个训练视频样本内部各个关键帧之间的上下文关系图;
步骤4:对待识别视频进行镜头分割,并针对每个镜头选取一幅关键帧,提取所选取关键帧的视觉特征;并提取待识别视频的音频特征;
步骤5:构建待识别视频与训练视频样本之间的代价矩阵,其对角元素为待识别视频与各个训练视频样本的音频特征之间的距离;
步骤6:基于上下文稀疏表示模型,利用所有训练视频样本对所述待识别视频进行重构,重构误差最小的训练视频样本的类别即为待识别视频的类别;其中所述上下文稀疏表示模块以所述训练视频样本的上下文关系图作为稀疏表示的词典,并利用所述代价矩阵对其进行约束。
本发明还提供了一种基于上下文稀疏表示的恐怖视频识别装置,包括:
镜头提取模块,对训练视频样本进行镜头分割,然后针对每个镜头选取一幅关键帧来代表该镜头;
特征提取模块,提取每个关键帧的视觉特征,并提取整个训练视频样本的音频特征;
关系建立模块,利用ε-graph建图方法,建立起每一个训练视频样本内部各个关键帧之间的上下文关系图;
待识别视频特征提取模块,对待识别视频进行镜头分割,并针对每个镜头选取一幅关键帧,提取所选取关键帧的视觉特征;并提取待识别视频的音频特征;
距离构建模块,构建待识别视频与训练视频样本之间的代价矩阵,其对角元素为待识别视频与各个训练视频样本的音频特征之间的距离;
识别模块,基于上下文稀疏表示模型,利用所有训练视频样本对所述待识别视频进行重构,重构误差最小的训练视频样本的类别即为待识别视频的类别;其中所述上下文稀疏表示模块以所述训练视频样本的上下文关系图作为稀疏表示的词典,并利用所述代价矩阵对其进行约束。
(三)有益效果
从上述技术方案可以看出,本发明具有以下优点:
1、本发明提供的这种恐怖视频识别方法,首次将视频帧的上下文关系考虑进识别算法中。
2、本发明利用代价约束的方法有效地融合了音频和视觉信息。
3、本发明所提出的恐怖视频识别方法基于上下文稀疏表示模型,该模型无需学习过程,可扩充性强,能够快捷、高效地完成视频识别。
附图说明
图1为本发明提供的基于上下文稀疏表示的恐怖视频识别流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
图1示出了本发明提出的一种基于上下文稀疏表示的恐怖视频识别方法的过程示意图。如图1所述,该方法包括以下几方面内容:
步骤1:对每一个训练视频样本进行视频镜头分割和关键帧选取,然后提取关键帧的视觉特征,并提取整个视频场景的音频特征。将每个关键帧对应的视觉特征向量构成多示例学习中的示例,每个场景对应的所有的关键帧的特征向量集合构成一个示例包。
本发明采用基于信息论的镜头检测方法分割视频镜头,该方法通过计算相邻帧之间的互信息和联合熵来检测镜头边界,这种检测方法在包含各种类型的镜头边界、有显著目标运动和摄像机运动的视频数据库上取得了很好的检测结果。对于每个镜头选取镜头的中间帧作为关键帧。
特征提取在恐怖视频识别框中起着最重要的作用,本发明中主要提取了以下视音频特征:
表1特征汇总表
Figure BDA0000469642940000041
步骤2:利用ε-graph对每个场景内的所有关键帧构建一个上下文关系图,并得到图的邻接矩阵。
传统的多示例学习中,包中的示例都被假设是独立同分布的。但视频帧之间很难符合这个假设条件。为了解决这个矛盾,本发明中采用了图的结构来描述一个视频场景中关键帧之间的上下文关系。对于一个含有ni个关键帧的视频包
Figure BDA0000469642940000042
其中vi,k表示第k个关键帧的视觉特征。利用ε-graph来构建视频包Vi的上下文关系图为Gi及其对应的邻接矩阵为Wi,其中上下文关系图Gi中的各个顶点为视频包Vi中所有关键帧,邻接矩阵Wi中的各个元素为上下文关系图Gi中各个顶点对应的关键帧之间的距离。首先计算Vi内每一对示例vi,k和vi,l之间的欧氏距离。如果距离小于指定阈值ε,则设置矩阵Wi第k行第l列以及第l行第k列的元素Wi(k,l)=Wi(l,k)=1,否则Wi(k,l)=Wi(l,k)=0。
步骤3:对待检测视频进行结构化分析,同样进行镜头分割和关键帧选取,并提取关键帧的视觉特征,提取整个视频场景的音频特征。利用ε-graph对测试视频内的所有关键帧构建一个上下文关系图,并得到对应图的邻接矩阵。
步骤4:以训练视频的上下文关系图作为稀疏表示的词典,根据待检测视频的音频特征到所有训练视频样本的音频特征之间的欧式距离构建一个代价矩阵。所述代价矩阵为对角矩阵,其对角线元素由待检测视频样本的音频特征与训练视频样本的音频特征之间的距离组成。
步骤5:基于本发明提出的上下文稀疏表示模型,利用所有的训练视频样本对所述待检测视频样本进行稀疏重构,分别计算待检测视频与训练视频中所有恐怖类和非恐怖类视频场景的重构误差,误差小的类别即判定为待检测视频的类别。
稀疏表示被广泛的应用于物体识别与分类问题中,其目标是用一系列的“基向量”稀疏地线性表示出输入向量。在本发明中,给定N个训练视频样本{(V1,G1,y1),...,(Vi,Gi,yi),...,(VN,GN,yN)}和每个视频对应的音频特征为{a1,...,ai,...,aN}。其中
Figure BDA0000469642940000056
表示一个视频包,其包含该视频的所有关键帧的视觉特征向量vi,k。Gi表示Vi视频包内关键帧的上下文关系图,其对应邻接矩阵为Wi,yi为训练视频样本的类别标签,0表示非恐怖,1表示恐怖。
假设存在映射函数将图结构投影到高维特征空间
Figure BDA0000469642940000052
如果给定待检测视频样本(V′,G′,y′)和对应的音频特征a′,其中标签y′未知。我们可以得到上下文稀疏表示形式如下:
其中,
Figure BDA0000469642940000054
为待检测视频的上下文关系图对应的高维特征向量;公式(1)中的第一项为重构误差项,第二项λ||Dβ||1则为正则化项,确保系数β的稀疏性,即确保β拥有尽可能少的非零项。对角矩阵D为代价矩阵,其对角线元素由待检测视频样本的音频特征与训练视频样本的音频特征之间的欧式距离组成,此代价矩阵可以根据待检测视频样本与训练视频样本的音频距离大小控制系数β的稀疏性,距离大者,系数更趋向于零,反之,则更趋于非零;||aN-a′||为第N个训练视频样本的音频特征到待检测视频的音频特征之间的欧式距离。由此,该稀疏表示形式中,即考虑了视频内帧之间的上下文关系,也把音频特征和视觉特征的上下文关系通过代价矩阵融合到了一起。
公式(1)的求解过程如下:
首先,令γ=Dβ,则β=D-1γ,公式(1)可改写为:
Figure BDA0000469642940000061
再令V=UD-1,则公式(2)可改写为如下形式:
Figure BDA0000469642940000062
其中,
Figure BDA0000469642940000063
公式(3)为一般稀疏表示优化问题。只要求出公式(4)中的VTV和
Figure BDA0000469642940000064
则可由Feature-Sign Search algorithm(FSS)算法求出稀疏系数γ。其中公式(4)可等价为以下形式:
Figure BDA0000469642940000065
其中Kg()表示各个图结构在高维空间中的点积,可以用一个图核函数来表示。在该发明中采用以下核函数:
Figure BDA0000469642940000071
其中,
Figure BDA0000469642940000072
Wi和Wj分别是视频Vi和Vj的图结构的邻接矩阵。K(vi,a,vj,b)是高斯核函数,σ为可调参数。
有了核函数则可以求出矩阵KUU和KUG′,继而可以通过FSS算法求解稀疏系数γ。
求出系数γ以后,则可以分别求出待检测视频样本与训练视频样本中恐怖和非恐怖视频线性表示之间的重构误差如下:
r q ( G ′ ) = | | φ ( G ′ ) - UD - 1 δ q ( γ ) | | 2 = 1 + δ q ( γ ) T ( D - 1 ) T K UU D - 1 δ q ( γ ) - 2 δ q ( γ ) T K UG ′ [ δ q ( γ ) ] k = γ k , y k = q 0 , y k ≠ q - - - ( 7 )
其中,δq(γ)是一个系数选择器,仅选择与类别q={0,1}有关的系数。待检测视频样本的类别y′则由下式决定:
y ′ = arg min q ( r q ( G ′ ) ) - - - ( 8 )
本发明还提出了一种基于上下文稀疏表示的恐怖视频识别装置,包括:
镜头提取模块,对训练视频样本进行镜头分割,然后针对每个镜头选取一幅关键帧来代表该镜头;
特征提取模块,提取每个关键帧的视觉特征,并提取整个训练视频样本的音频特征;
关系建立模块,利用ε-graph建图方法,建立起每一个训练视频样本内部各个关键帧之间的上下文关系图;
待识别视频特征提取模块,对待识别视频进行镜头分割,并针对每个镜头选取一幅关键帧,提取所选取关键帧的视觉特征;并提取待识别视频的音频特征;
距离构建模块,构建待识别视频与训练视频样本之间的代价矩阵,其对角元素为待识别视频与各个训练视频样本的音频特征之间的距离;
识别模块,基于上下文稀疏表示模型,利用所有训练视频样本对所述待识别视频进行重构,重构误差最小的训练视频样本的类别即为待识别视频的类别;其中所述上下文稀疏表示模块以所述训练视频样本的上下文关系图作为稀疏表示的词典,并利用所述代价矩阵对其进行约束。
由于该装置与上述方法对应一致,具体细节详见对方法的描述,在此不再赘述。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于上下文稀疏表示的恐怖视频识别方法,该方法包括:
步骤1:对训练视频样本进行镜头分割,然后针对每个镜头选取一幅关键帧来代表该镜头;
步骤2:提取每个关键帧的视觉特征,并提取整个训练视频样本的音频特征;
步骤3:利用ε-graph建图方法,建立起每一个训练视频样本内部各个关键帧之间的上下文关系图;
步骤4:对待识别视频进行镜头分割,并针对每个镜头选取一幅关键帧,提取所选取关键帧的视觉特征;并提取待识别视频的音频特征;
步骤5:构建待识别视频与训练视频样本之间的代价矩阵,其对角元素为待识别视频与各个训练视频样本的音频特征之间的距离;
步骤6:基于上下文稀疏表示模型,利用所有训练视频样本对所述待识别视频进行重构,重构误差最小的训练视频样本的类别即为待识别视频的类别;其中所述上下文稀疏表示模块以所述训练视频样本的上下文关系图作为稀疏表示的词典,并利用所述代价矩阵对其进行约束。
2.如权利要求1所述的方法,其特征在于,所述音频特征包括Mel频率倒谱系数、谱功率和频谱质心中的一种或几种的组合;所述视觉特征包括:情感强度、颜色和谐度、颜色变化、亮度基调和纹理特征中的一种或几种组合。
3.如权利要求1所述的方法,其特征在于,采用基于互信息熵的镜头分割算法对视频进行镜头分割。
4.如权利要求1所述的方法,其特征在于,所述上下文稀疏模型如下表示:
Figure FDA0000469642930000011
D=diag(||a1-a′||,…,||ai-a′||,…,||aN-a′||)
Figure FDA0000469642930000012
其中,G′表示待识别视频的上下文关系图;{G1,...,Gi,...,GN}表示训练视频样本的上下文关系图,
Figure FDA0000469642930000021
表示视频上下文关系图对应的高维特征向量;{a1,...,ai,...,aN}表示训练视频样本的音频特征,a′表示待识别视频的音频特征;β为上下文稀疏模型的系数,D为代价矩阵。
5.如权利要求4所述的方法,其特征在于,求解所述上下文稀疏模型时,通过图核函数Kg(Gi,Gj)来表达视频场景上下文图之间的相似度,所述图核函数如下表示:
Figure FDA0000469642930000022
K(vi,a,vj,b)=exp(-σ||vi,a-vj,b||2),
其中,
Figure FDA0000469642930000023
Gi和Gj表示训练视频样本或待识别视频的上下文关系图,vi,a,vj,b分别为Gi和Gj中的元素,ni,nj分别为Gi和Gj中的元素个数,Wi和Wj分别是Gi和Gj的邻接矩阵,K(vi,a,vj,b)是高斯核函数,σ为可调参数。
6.一种基于上下文稀疏表示的恐怖视频识别装置,包括:
镜头提取模块,对训练视频样本进行镜头分割,然后针对每个镜头选取一幅关键帧来代表该镜头;
特征提取模块,提取每个关键帧的视觉特征,并提取整个训练视频样本的音频特征;
关系建立模块,利用ε-graph建图方法,建立起每一个训练视频样本内部各个关键帧之间的上下文关系图;
待识别视频特征提取模块,对待识别视频进行镜头分割,并针对每个镜头选取一幅关键帧,提取所选取关键帧的视觉特征;并提取待识别视频的音频特征;
距离构建模块,构建待识别视频与训练视频样本之间的代价矩阵,其对角元素为待识别视频与各个训练视频样本的音频特征之间的距离;
识别模块,基于上下文稀疏表示模型,利用所有训练视频样本对所述待识别视频进行重构,重构误差最小的训练视频样本的类别即为待识别视频的类别;其中所述上下文稀疏表示模块以所述训练视频样本的上下文关系图作为稀疏表示的词典,并利用所述代价矩阵对其进行约束。
7.如权利要求6所述的装置,其特征在于,所述音频特征包括Mel频率倒谱系数、谱功率和频谱质心中的一种或几种的组合;所述视觉特征包括:情感强度、颜色和谐度、颜色变化、亮度基调和纹理特征中的一种或几种组合。
8.如权利要求6所述的装置,其特征在于,采用基于互信息熵的镜头分割算法对视频进行镜头分割。
9.如权利要求6所述的装置,其特征在于,所述上下文稀疏模型如下表示:
Figure FDA0000469642930000031
D=diag(||a1-a′||,…,||ai-a′||,…,||aN-a′||)
Figure FDA0000469642930000032
其中,G′表示待识别视频的上下文关系图;{G1,...,Gi,...,GN}表示训练视频样本的上下文关系图,
Figure FDA0000469642930000033
表示视频上下文关系图对应的高维特征向量;{a1,...,ai,...,aN}表示训练视频样本的音频特征,a′表示待识别视频的音频特征;β为上下文稀疏模型的系数,D为代价矩阵。
10.如权利要求9所述的装置,其特征在于,求解所述上下文稀疏模型时,通过图核函数Kg(Gi,Gj)来表达视频场景上下文图之间的相似度,所述图核函数如下表示:
Figure FDA0000469642930000034
K(vi,a,vj,b)=exp(-σ||vi,a-vj,b||2),
其中,
Figure FDA0000469642930000041
Gi和Gj表示训练视频样本或待识别视频的上下文关系图,vi,a,vj,b分别为Gi和Gj中的元素,ni,nj分别为Gi和Gj中的元素个数,Wi和Wj分别是Gi和Gj的邻接矩阵,K(vi,a,vj,b)是高斯核函数,σ为可调参数。
CN201410065197.7A 2014-02-25 2014-02-25 一种基于上下文稀疏表示的恐怖视频识别方法及装置 Pending CN103854014A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410065197.7A CN103854014A (zh) 2014-02-25 2014-02-25 一种基于上下文稀疏表示的恐怖视频识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410065197.7A CN103854014A (zh) 2014-02-25 2014-02-25 一种基于上下文稀疏表示的恐怖视频识别方法及装置

Publications (1)

Publication Number Publication Date
CN103854014A true CN103854014A (zh) 2014-06-11

Family

ID=50861648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410065197.7A Pending CN103854014A (zh) 2014-02-25 2014-02-25 一种基于上下文稀疏表示的恐怖视频识别方法及装置

Country Status (1)

Country Link
CN (1) CN103854014A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657468A (zh) * 2015-02-12 2015-05-27 中国科学院自动化研究所 基于图像与文本的视频的快速分类方法
CN105979359A (zh) * 2016-06-24 2016-09-28 中国人民解放军63888部队 基于内容检测的视频输出控制方法及装置
CN106228164A (zh) * 2016-07-26 2016-12-14 中国科学院自动化研究所 一种视频动态基元库的构建方法
CN107027051A (zh) * 2016-07-26 2017-08-08 中国科学院自动化研究所 一种基于线性动态系统的视频关键帧提取方法
CN108152789A (zh) * 2018-01-03 2018-06-12 电子科技大学 利用rss信息的无源多站多目标数据关联与定位方法
CN108280421A (zh) * 2018-01-22 2018-07-13 湘潭大学 基于多特征深度运动图的人体行为识别方法
CN108307229A (zh) * 2018-02-02 2018-07-20 新华智云科技有限公司 一种影音数据的处理方法及设备
CN108921002A (zh) * 2018-04-23 2018-11-30 中国科学院自动化研究所 基于多线索融合的暴恐音视频识别方法及装置
CN108965920A (zh) * 2018-08-08 2018-12-07 北京未来媒体科技股份有限公司 一种视频内容拆条方法及装置
CN109376603A (zh) * 2018-09-25 2019-02-22 北京周同科技有限公司 一种视频识别方法、装置、计算机设备及存储介质
CN109657096A (zh) * 2019-01-11 2019-04-19 杭州师范大学 一种基于低学龄教学音视频的辅助统计报告生成方法
CN110879952A (zh) * 2018-09-06 2020-03-13 阿里巴巴集团控股有限公司 一种视频帧序列的处理方法及装置
CN110971969A (zh) * 2019-12-09 2020-04-07 北京字节跳动网络技术有限公司 视频配乐方法、装置、电子设备及计算机可读存储介质
CN111090776A (zh) * 2019-12-20 2020-05-01 广州市百果园信息技术有限公司 一种视频审核的方法、装置、审核服务器和存储介质
CN114581749A (zh) * 2022-05-09 2022-06-03 城云科技(中国)有限公司 视听特征融合的目标行为识别方法、装置及应用

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657468A (zh) * 2015-02-12 2015-05-27 中国科学院自动化研究所 基于图像与文本的视频的快速分类方法
CN104657468B (zh) * 2015-02-12 2018-07-31 中国科学院自动化研究所 基于图像与文本的视频的快速分类方法
CN105979359A (zh) * 2016-06-24 2016-09-28 中国人民解放军63888部队 基于内容检测的视频输出控制方法及装置
CN105979359B (zh) * 2016-06-24 2022-08-30 中国人民解放军63888部队 基于内容检测的视频输出控制方法及装置
CN106228164A (zh) * 2016-07-26 2016-12-14 中国科学院自动化研究所 一种视频动态基元库的构建方法
CN107027051A (zh) * 2016-07-26 2017-08-08 中国科学院自动化研究所 一种基于线性动态系统的视频关键帧提取方法
CN107027051B (zh) * 2016-07-26 2019-11-08 中国科学院自动化研究所 一种基于线性动态系统的视频关键帧提取方法
CN108152789B (zh) * 2018-01-03 2019-11-01 电子科技大学 利用rss信息的无源多站多目标数据关联与定位方法
CN108152789A (zh) * 2018-01-03 2018-06-12 电子科技大学 利用rss信息的无源多站多目标数据关联与定位方法
CN108280421A (zh) * 2018-01-22 2018-07-13 湘潭大学 基于多特征深度运动图的人体行为识别方法
CN108280421B (zh) * 2018-01-22 2020-06-30 湘潭大学 基于多特征深度运动图的人体行为识别方法
CN108307229A (zh) * 2018-02-02 2018-07-20 新华智云科技有限公司 一种影音数据的处理方法及设备
CN108307229B (zh) * 2018-02-02 2023-12-22 新华智云科技有限公司 一种影音数据的处理方法及设备
CN108921002A (zh) * 2018-04-23 2018-11-30 中国科学院自动化研究所 基于多线索融合的暴恐音视频识别方法及装置
CN108965920A (zh) * 2018-08-08 2018-12-07 北京未来媒体科技股份有限公司 一种视频内容拆条方法及装置
CN110879952A (zh) * 2018-09-06 2020-03-13 阿里巴巴集团控股有限公司 一种视频帧序列的处理方法及装置
CN110879952B (zh) * 2018-09-06 2023-06-16 阿里巴巴集团控股有限公司 一种视频帧序列的处理方法及装置
CN109376603A (zh) * 2018-09-25 2019-02-22 北京周同科技有限公司 一种视频识别方法、装置、计算机设备及存储介质
CN109657096A (zh) * 2019-01-11 2019-04-19 杭州师范大学 一种基于低学龄教学音视频的辅助统计报告生成方法
CN109657096B (zh) * 2019-01-11 2021-06-08 杭州师范大学 一种基于低学龄教学音视频的辅助统计报告生成方法
CN110971969A (zh) * 2019-12-09 2020-04-07 北京字节跳动网络技术有限公司 视频配乐方法、装置、电子设备及计算机可读存储介质
CN110971969B (zh) * 2019-12-09 2021-09-07 北京字节跳动网络技术有限公司 视频配乐方法、装置、电子设备及计算机可读存储介质
CN111090776B (zh) * 2019-12-20 2023-06-30 广州市百果园信息技术有限公司 一种视频审核的方法、装置、审核服务器和存储介质
CN111090776A (zh) * 2019-12-20 2020-05-01 广州市百果园信息技术有限公司 一种视频审核的方法、装置、审核服务器和存储介质
CN114581749B (zh) * 2022-05-09 2022-07-26 城云科技(中国)有限公司 视听特征融合的目标行为识别方法、装置及应用
CN114581749A (zh) * 2022-05-09 2022-06-03 城云科技(中国)有限公司 视听特征融合的目标行为识别方法、装置及应用

Similar Documents

Publication Publication Date Title
CN103854014A (zh) 一种基于上下文稀疏表示的恐怖视频识别方法及装置
Selvaraju et al. Taking a hint: Leveraging explanations to make vision and language models more grounded
Zellers et al. Neural motifs: Scene graph parsing with global context
Kiros et al. Skip-thought vectors
Li et al. A model of coherence based on distributed sentence representation
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN106778921A (zh) 基于深度学习编码模型的人员再识别方法
CN103473555B (zh) 基于多视角多示例学习的恐怖视频场景识别方法
CN107293302A (zh) 一种用于语音测谎系统中的稀疏谱特征提取方法
Paik et al. The world of an octopus: How reporting bias influences a language model's perception of color
CN114528411B (zh) 一种中文医药知识图谱自动化构建方法、装置及介质
Xu et al. Intelligent emotion detection method based on deep learning in medical and health data
US20220180572A1 (en) Color representations for textual phrases
Wang et al. A max-affine spline perspective of recurrent neural networks
Yang et al. Classification of medical images with synergic graph convolutional networks
Zhuang et al. Visual tracking via shallow and deep collaborative model
Hong et al. Using graph representation learning with schema encoders to measure the severity of depressive symptoms
Gu et al. Towards facial expression recognition in the wild via noise-tolerant network
Wang et al. Varying face occlusion detection and iterative recovery for face recognition
Xie et al. Hyperspectral face recognition based on sparse spectral attention deep neural networks
Pak et al. Machine learning classifiers: Evaluation of the performance in online reviews
CN103413125B (zh) 基于判别性示例选择多示例学习的恐怖视频识别方法
CN106778589A (zh) 一种基于改进型LeNet的鲁棒蒙面人脸检测方法
AlDahoul et al. Local receptive field-extreme learning machine based adult content detection
Gujral et al. Leveraging transfer learning techniques for classifying infant vocalizations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140611