CN101834982B - 基于多模态的暴力视频分层筛选方法 - Google Patents
基于多模态的暴力视频分层筛选方法 Download PDFInfo
- Publication number
- CN101834982B CN101834982B CN2010101861048A CN201010186104A CN101834982B CN 101834982 B CN101834982 B CN 101834982B CN 2010101861048 A CN2010101861048 A CN 2010101861048A CN 201010186104 A CN201010186104 A CN 201010186104A CN 101834982 B CN101834982 B CN 101834982B
- Authority
- CN
- China
- Prior art keywords
- camera lens
- video
- audio frequency
- candidate
- people
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Image Analysis (AREA)
Abstract
一种多媒体处理技术领域的基于多模态的暴力视频分层筛选方法,本发明首先通过音频特征的快速筛选,能比较有效的排除一些健康视频,选出可能是暴力视频的候选镜头和视频。针对这些候选镜头,再利用视频运动检测和人脸检测进行二次筛选,对剩下的镜头提取关键帧,然后再进行图像特征的提取,并利用支持向量机进行匹配,能十分准确的分出暴力视频。本发明通过音频的快速处理特点,能有效的解决网络监管的实时性要求,判断时间小于视频长度的1%;对于候选镜头进行后续的视频精确分类方法,同时保证了视频分类的准确性要求,分类准确率不小于95%。
Description
技术领域
本发明涉及的是一种多媒体处理技术领域的方法,具体是一种基于多模态的暴力视频分层筛选方法。
背景技术
随着互联网的迅速发展,各类多媒体应用不断涌现,如今网络视频已成为人们现在获取信息和娱乐的主要来源之一。随着视频网站规模的扩大和网络上各类视频的发布和分享,政府也越来越关注对于这些网站的监控和发布视频的检测。视频网站上的一些不良视频,尤其是一些暴力,色情视频等是严格受到禁止的。这些视频不仅严重影响到青少年的健康成长同时污秽了网络环境。网络视频的监管就是在这种需求上提出的,对网络上的视频进行分类分级能有效的对各种视频进行监管,对于一些充斥着暴力和色情情节的视频要在其发布前就得到相应的控制。
目前,常见的暴力视频中包含一些打斗,血腥,枪战爆炸,尖叫等情节。一段视频中如果大量包含这些场景就需要对其进行限制。常见的打斗场景有徒手打斗,使用不同的武器打斗等。血腥场景主要包含大量的流血,场面已鲜血为主。枪战场景以枪声为代表。而这些暴力场景中往往都充满了人的尖叫和呻吟声。
经过对现有技术的检索发现,中国专利文献号CN101604325,公开日2009-12-26,记载了一种“基于主场景镜头关键帧的体育视频分类方法”,该技术基于图论的自适应阈值提取视频中的主场景,对主场景中的关键帧进行特征分析和分类检测;中国专利文献号CN101316327,公开日2008-12-3,记载了一种“一种多模态融合的采访镜头检测方法”,该技术分别对原始视频中的视频流和音频流进行检测,对视频中的帧进行人脸检测,对音频流进行人声检测,融合检测结果最后判断是否是采访镜头。上述两种技术都涉及视频的分类方法,但仍然存在以下缺陷:在对视频的分类方法中仅仅采用视觉上的特征或者是简单的融合视频和音频特征,对于视频内容的检测和分类缺乏实时性,准确率较低。
发明内容
本发明的目的在于克服现有技术的上述不足,提供一种基于多模态的暴力视频分层筛选方法。本发明首先通过音频特征的快速筛选,能比较有效的排除一些健康视频,选出可能是暴力视频的候选镜头和视频。针对这些候选镜头,再利用视频运动检测和人脸检测进行二次筛选,对剩下的镜头提取关键帧,然后再进行图像特征的提取,并利用支持向量机进行匹配,能十分准确的分出暴力视频。
本发明是通过以下技术方案实现的,本发明包括以下步骤:
第一步,提取待筛选视频的音频流,并进行分割去除处理,得到若干处理后的视频片段。
所述的分割去除处理,包括以下步骤:
1)将提取的音频流均匀的分为若干段音频,得到若干视频片段;
2)提取每个视频片段中音频的低短时能量比,删除其中音频低短时能量比低于阈值T1的视频片段,从而得到若干处理后的视频片段。
所述的音频低短时能量比,具体是:
sgn(x)=1,x>0
其中:sgn(x)=-1,x≤0,
LER是视频片段的音频低短时能量比,N表示该分段音频包含的音频帧的数目,E(n)表示该帧的音频能量,而avE表示整个音频片段的平均音频能量。
所述的阈值T1的取值范围是:0.25≤T1≤0.3。
第二步,提取处理后的视频片段的音频特征和常见暴力场景的音频特征,并进行判断处理,得到候选的视频片段。
所述的音频特征包括:基音频率(PF)、带宽(Bandwidth)、频谱流量(SF)、Mel倒谱系数(MFCC)和声音功率(Audio Power,AP)。
所述的判断处理,包括以下步骤:
1)分别将处理后的视频片段的音频特征和常见暴力场景的音频特征进行音频特征融合,得到处理后的视频片段的融合音频特征和常见暴力场景的融合音频特征。
所述的常见暴力场景包括:枪声场景、爆炸场景、尖叫场景、打斗场景和流血场景。
2)利用分类器对常见暴力场景的融合音频特征和待筛选视频片段的融合音频特征进行比较判断,将融合音频特征属于常见暴力场景的融合音频特征的视频片段标记为候选的视频片段。
第三步,对候选的视频片段进行运动检测,得到候选的视频片段中每个镜头的运动强度特征,去除其中运动强度特征小于阈值T2的镜头,并对剩余的每个镜头进行人脸检测,去除其中小于20%帧包括人脸的镜头,此时剩余的镜头就是包含人脸的候选镜头。
所述的运动检测,具体是:得到候选的视频片段中相邻帧之间的颜色直方图,比较相邻帧之间颜色直方图在R,G,B三个分量上的差值,得到候选的视频片段中每个镜头的运动强度特征,具体公式为:
其中:
M是候选的视频片段中一镜头的运动强度特征,Mj是该镜头中第j帧和第(j-1)帧的运动强度特征,Ri、Gi和Bi分别是第j帧中第i个像素的R,G,B分量,Ri-1、Gi-1和Bi-1分别是第j帧中第(i-1)个像素的R,G,B分量,nj是第j帧的总像素数,t是该镜头包含的总帧数。
所述的阈值T2的范围是:0.3≤T2≤0.4。
所述的人脸检测,包括以下步骤:
a、采集若干人脸图片,建立人脸训练库,提取训练库中人脸图片的haar特征,训练得到haar分类器;
b、提取剩余的每个镜头的haar特征;
c、利用haar分类器对剩余的每个镜头的haar特征进行分类,得到该镜头中包含人脸的若干帧图像;
d、当该镜头中包含人脸的帧图像个数大于该镜头总的帧图像个数的80%时,该镜头就是包含人脸的候选镜头;否则,该镜头是不包含人脸的候选镜头。
第四步,对包含人脸的候选镜头的关键帧以及常见暴力场景镜头的关键帧进行图像特征提取和图像特征融合,利用支持向量机对两者特征向量进行匹配,得到包含暴力镜头的视频。
所述的关键帧是中间帧。
所述的图像特征包括:颜色直方图、局部二进制特征(LBP)和视觉词汇特征。
所述的视觉词汇特征是:利用SIFT特征提取关键帧中的特征点,然后通过Kmeans聚类和分类,得到表示关键帧的视觉词汇特征。
与现有技术相比,本发明的有益效果是:通过快速的音频筛选,得到一些候选的镜头片段,对于这些候选镜头进行视觉特征的提取。在视觉特征提取之前再进行运动检测和人脸检测,在提高了最后的分类准确率的同时,也大大去除了一些干扰镜头,能较大提高最后的图像特征提取和分类的速度,分类准确率不小于95%,判断时间小于视频长度的1%。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
本实施例包括以下步骤:
第一步,提取待筛选视频的音频流,并进行分割去除处理,得到若干处理后的视频片段。
所述的分割去除处理,包括以下步骤:
1)将提取的音频流均匀的分为若干段音频,得到若干视频片段;
2)提取每个视频片段中音频的低短时能量比,删除其中音频低短时能量比低于阈值T1的视频片段,从而得到若干处理后的视频片段。
所述的音频低短时能量比,具体是:
sgn(x)=1,x>0
其中:sgn(x)=-1,x≤0,
LER是视频片段的音频低短时能量比,N表示该分段音频包含的音频帧的数目,E(n)表示该帧的音频能量,而avE表示整个音频片段的平均音频能量。
本实施例中T1=0.3,通过本步骤的粗筛选,主要去除了整段音频中能量比较低的音频片段,在暴力视频的常见音频,如打斗,爆炸,尖叫等往往是能量比较集中的音频片段。
第二步,提取处理后的视频片段的音频特征和常见暴力场景的音频特征,并对待筛选视频片段的音频特征进行判断处理,得到候选的视频片段。
所述的音频特征包括:基音频率、带宽、频谱流量、Mel倒谱系数和声音功率。声音功率是MPEG-7标准中定义的一个音频描述子,它描述了音频信号在时间轴上平滑过的瞬时功率,在数值上是此刻信号的波形值的平方。声音功率能够以较小的代价给出音频信号的大致描述,因此应用较为广泛。对于暴力场景而言,其声音特征与普通的视频场景有较大不同,常常伴随着尖叫、低吼或是爆炸等音效,这些都能从声音功率描述子中得到体现,从而进行识别。以上这些音频特征本实施例采用工具MPEG7AudioEnc来提取。
所述的判断处理,包括以下步骤:
1)分别将处理后的视频片段的音频特征和常见暴力场景的音频特征拼接成一个向量,得到处理后的视频片段的融合音频特征和常见暴力场景的融合音频特征。
所述的常见暴力场景包括:枪声场景、爆炸场景、尖叫场景、打斗场景和流血场景。
2)利用分类器对常见暴力场景的融合音频特征和待筛选视频片段的融合音频特征进行比较判断,将融合音频特征属于常见暴力场景的融合音频特征的视频片段标记为候选的视频片段。
第三步,对候选的视频片段进行运动检测,得到候选的视频片段中每个镜头的运动强度特征,去除其中运动强度特征小于阈值T2的镜头,并对剩余的每个镜头进行人脸检测,去除其中小于20%帧包括人脸的镜头,此时剩余的镜头就是包含人脸的候选镜头。
所述的运动检测,具体是:得到候选的视频片段中相邻帧之间的颜色直方图,比较相邻帧之间颜色直方图在R,G,B三个分量上的差值,得到候选的视频片段中每个镜头的运动强度特征,具体公式为:
其中:
M是候选的视频片段中一镜头的运动强度特征,Mj是该镜头中第j帧和第(j-1)帧的运动强度特征,Ri、Gi和Bi分别是第j帧中第i个像素的R,G,B分量,Ri-1、Gi-1和Bi-1分别是第j帧中第(i-1)个像素的R,G,B分量,nj是第j帧的总像素数,t是该镜头包含的总帧数。
本实施例中T2=0.4。
所述的人脸检测,包括以下步骤:
a、采用open-cv自带的人脸训练库及函数,提取训练库中人脸图片的haar特征,训练得到haar分类器;
b、提取剩余的每个镜头的haar特征;
c、利用haar分类器对剩余的每个镜头的haar特征进行分类,得到该镜头中包含人脸的若干帧图像;
d、当该镜头中包含人脸的帧图像个数大于该镜头总的帧图像个数时,该镜头就是包含人脸的候选镜头;否则,该镜头是不包含人脸的候选镜头。
本实施例中haar特征的提取和haar分类器的训练采用的是《OReilly-Learning OpenCV》第506-516页中记载的“人脸检测和haar分类器”方法。
第四步,对包含人脸的候选镜头的中间帧以及常见暴力场景镜头的中间帧进行图像特征提取和图像特征融合,利用支持向量机对两者特征向量进行匹配,得到包含暴力镜头的视频。
所述的图像特征包括:256维的颜色直方图、256维的局部二进制特征和200维视觉词汇特征。
所述的颜色直方图特征,具体是:首先把原彩色图像转换成灰度图像,公式如下:
Gray=R*0.11+G*0.59+B*0.30,
其中:R、G、B分别为每个像素的彩色值,Gray为转换后的灰度值;
然后统计其每个灰度值出现的次数,即为该幅图像的颜色直方图。
所述的局部二进制特征,具体是:对于一幅图像中的任意像素f(x,y),取该点灰度值gc为阈值,对其周围3×3窗口内的8个点g0,……,g7,的象素值进行二值化处理,并对该8位的二进制数,按像素不同位置进行加权求和,即可得到每个像素的LBP值,如下所示:
s(x)=1,x>0
其中:s(x)=0,x≤0,
由于是8位二进制数,所以0≤LBP(xc,yc)≤255,统计整个图像所有像素的LBP值的直方图,即统计每个值出现的次数,这样就得到最后的256维LBP特征向量。
所述的视觉词汇特征是:利用SIFT特征提取关键帧中的特征点,然后通过Kmeans聚类和分类,得到表示关键帧的视觉词汇特征。
所述的图像特征融合是:把得到的不同图像特征向量拼接成一个大向量712维,然后输出给分类器进行后续的分类。
本实施例中支持向量机采用的是:网址为http://www.csie.ntu.edu.tw/~cjlin/libsvm/公开的开源SVM库。
由于在本实施例中采用了音频粗筛选过程,相同时间的视频,音频处理速度要比视觉处理快许多。经过了音频的快速筛选后,得到的候选片段长度比原始视频要短了许多。这给后续比较耗时的视觉节省了很多不必要的时间。同时本实施例在视觉特征的处理上也考虑了实时性的因素,在做最耗时的特征提取和分类器决策过程之前,对于候选镜头进行了运动检测和人脸检测两步筛选过程,大大减少了最后要进行特征提取的帧的数量。在提取了特征后又进行了特征融合,在分类器决策过程中采用了并行决策的机制,使得整个实施例的运算时间有比较大的减少。通过音频粗筛选和视频精分类的过程,本实施例中的算法整体时间应小于视频长度的百分之一,即对于一个长度为100分钟的视频,判别其是否是暴力场景的时间应小于1分钟。
本实施例所采用的训练库样本需要人工选择合适样本,对于暴力视频中常见的打斗,爆炸等场景需要人工选择,这将提高最后的分类准确率。同时训练库需要定期维护更新,随着新的视频的发布和分享,一些新的暴力场景会出现在网络上,对于这些新的场景,每一个月需要重新更新下训练库样本,添加一些最新的暴力特征向量。通过本实施例中对训练库的更新和选择,对于视频分类的准确率应不小于95%。
Claims (6)
1.一种基于多模态的暴力视频分层筛选方法,其特征在于,包括以下步骤:
第一步,提取待筛选视频的音频流,并进行分割去除处理,得到若干处理后的视频片段;
所述的分割去除处理,包括以下步骤:
1)将提取的音频流均匀的分为若干段音频,得到若干视频片段;
2)提取每个视频片段中音频的低短时能量比,删除其中音频低短时能量比低于阈值T1的视频片段,从而得到若干处理后的视频片段;
第二步,提取处理后的视频片段的音频特征和常见暴力场景的音频特征,并进行判断处理,得到候选的视频片段;
所述的判断处理,包括以下步骤:
1)分别将处理后的视频片段的音频特征和常见暴力场景的音频特征进行音频特征融合,得到处理后的视频片段的融合音频特征和常见暴力场景的融合音频特征;
所述的常见暴力场景包括:枪声场景、爆炸场景、尖叫场景、打斗场景和流血场景;
2)利用分类器对常见暴力场景的融合音频特征和待筛选视频片段的融合音频特征进行比较判断,将融合音频特征属于常见暴力场景的融合音频特征的视频片段标记为候选的视频片段;
第三步,对候选的视频片段进行运动检测,得到候选的视频片段中每个镜头的运动强度特征,去除其中运动强度特征小于阈值T2的镜头,并对剩余的每个镜头进行人脸检测,去除其中小于20%帧包括人脸的镜头,此时剩余的镜头就是包含人脸的候选镜头;
所述的运动检测,具体是:得到候选的视频片段中相邻帧之间的颜色直方图,比较相邻帧之间颜色直方图在R,G,B三个分量上的差值,得到候选的视频片段中每个镜头的运动强度特征,具体公式为:
其中:
M是候选的视频片段中一镜头的运动强度特征,Mj是该镜头中第j帧和第(j-1)帧的运动强度特征,Ri、Gi和Bi分别是第j帧中第i个像素的R,G,B分量,Ri-1、Gi-1和Bi-1分别是第j帧中第(i-1)个像素的R,G,B分量,nj是第j帧的总像素数,t是该镜头包含的总帧数;
所述的人脸检测,包括以下步骤:
a、采集若干人脸图片,建立人脸训练库,提取训练库中人脸图片的haar特征,训练得到haar分类器;
b、提取剩余的每个镜头的haar特征;
c、利用haar分类器对剩余的每个镜头的haar特征进行分类,得到该镜头中包含人脸的若干帧图像;
d、当该镜头中包含人脸的帧图像个数大于该镜头总的帧图像个数的80%时,该镜头就是包含人脸的候选镜头;否则,该镜头是不包含人脸的候选镜头;
第四步,对包含人脸的候选镜头的关键帧以及常见暴力场景镜头的关键帧进行图像特征提取和图像特征融合,利用支持向量机对两者特征向量进行匹配,得到包含暴力镜头的视频。
2.根据权利要求1所述的基于多模态的暴力视频分层筛选方法,其特征是,所述的阈值T1的取值范围是:0.25≤T1≤0.3。
3.根据权利要求1所述的基于多模态的暴力视频分层筛选方法,其特征是,第二步中所述的音频特征包括:基音频率、带宽、频谱流量、Mel倒谱系数和声音功率。
4.根据权利要求1所述的基于多模态的暴力视频分层筛选方法,其特征是,第三步中所述的阈值T2的范围是:0.3≤T2≤0.4。
5.根据权利要求1所述的基于多模态的暴力视频分层筛选方法,其特征是,第四步中所述的关键帧是中间帧。
6.根据权利要求1所述的基于多模态的暴力视频分层筛选方法,其特征是,第四步中所述的图像特征包括:颜色直方图、局部二进制特征和视觉词汇特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101861048A CN101834982B (zh) | 2010-05-28 | 2010-05-28 | 基于多模态的暴力视频分层筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101861048A CN101834982B (zh) | 2010-05-28 | 2010-05-28 | 基于多模态的暴力视频分层筛选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101834982A CN101834982A (zh) | 2010-09-15 |
CN101834982B true CN101834982B (zh) | 2012-04-25 |
Family
ID=42718902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010101861048A Expired - Fee Related CN101834982B (zh) | 2010-05-28 | 2010-05-28 | 基于多模态的暴力视频分层筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101834982B (zh) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102360422A (zh) * | 2011-10-19 | 2012-02-22 | 湖南德顺电子科技有限公司 | 基于视频分析的暴力行为检测方法 |
CN102521582B (zh) * | 2011-12-28 | 2013-09-25 | 浙江大学 | 一种适用于低对比度视频的人体上半身检测及分割的方法 |
CN103049530B (zh) * | 2012-12-22 | 2015-12-23 | 深圳先进技术研究院 | 深入融合视频审查方法和系统 |
CN103021421A (zh) * | 2012-12-24 | 2013-04-03 | 天津大学 | 用于枪声的多级筛选检测识别方法 |
WO2015003341A1 (zh) * | 2013-07-10 | 2015-01-15 | 中国科学院自动化研究所 | 基于质量元数据的视频分类器构造方法 |
CN103617263A (zh) * | 2013-11-29 | 2014-03-05 | 安徽大学 | 一种基于多模态特征的电视广告片花自动检测方法 |
CN104008175B (zh) * | 2014-06-06 | 2017-03-08 | 福州大学 | 一种情感激励下的视频关键帧自适应提取方法 |
CN106610969A (zh) * | 2015-10-21 | 2017-05-03 | 上海文广互动电视有限公司 | 基于多模态信息的视频内容审查系统及方法 |
CN105512631B (zh) * | 2015-12-07 | 2019-01-25 | 上海交通大学 | 基于MoSIFT和CSD特征的暴恐视频检测方法 |
CN105654051B (zh) * | 2015-12-30 | 2019-02-22 | 北京奇艺世纪科技有限公司 | 一种视频检测方法及系统 |
CN105847860A (zh) * | 2016-03-29 | 2016-08-10 | 乐视控股(北京)有限公司 | 一种视频中暴力内容的检测方法及装置 |
CN106210784A (zh) * | 2016-08-05 | 2016-12-07 | 黄新勇 | 视频安全播放方法及系统 |
WO2018023711A1 (zh) * | 2016-08-05 | 2018-02-08 | 黄新勇 | 音频的广播网络中的实时监控方法及系统 |
WO2018023710A1 (zh) * | 2016-08-05 | 2018-02-08 | 黄新勇 | 视频安全播放方法及系统 |
CN106250765A (zh) * | 2016-08-05 | 2016-12-21 | 黄新勇 | 广播系统中的程序监控方法及系统 |
WO2018023708A1 (zh) * | 2016-08-05 | 2018-02-08 | 黄新勇 | 广播系统中的程序监控方法及系统 |
CN106375695B (zh) * | 2016-08-30 | 2019-03-05 | 百味迹忆(厦门)网络科技有限公司 | 音视频评分并存储的方法及装置 |
CN106973305B (zh) * | 2017-03-20 | 2020-02-07 | 广东小天才科技有限公司 | 一种视频中不良内容的检测方法及装置 |
CN109117756A (zh) * | 2018-07-25 | 2019-01-01 | 钱文浩 | 打斗程度计算机解析方法 |
CN111126115B (zh) * | 2018-11-01 | 2024-06-07 | 顺丰科技有限公司 | 暴力分拣行为识别方法和装置 |
CN109257622A (zh) * | 2018-11-01 | 2019-01-22 | 广州市百果园信息技术有限公司 | 一种音视频处理方法、装置、设备及介质 |
CN110414335A (zh) * | 2019-06-20 | 2019-11-05 | 北京奇艺世纪科技有限公司 | 视频识别方法、装置及计算机可读存储介质 |
CN112307821A (zh) * | 2019-07-29 | 2021-02-02 | 顺丰科技有限公司 | 一种视频流处理方法、装置、设备及存储介质 |
CN110769267B (zh) * | 2019-10-30 | 2022-02-08 | 北京达佳互联信息技术有限公司 | 一种视频的展示方法、装置、电子设备及存储介质 |
CN111901668B (zh) * | 2020-09-07 | 2022-06-24 | 三星电子(中国)研发中心 | 视频播放方法和装置 |
CN112325936B (zh) * | 2020-10-30 | 2023-01-24 | 北京印刷学院 | 一种物流环境检测识别方法及系统 |
CN112989950A (zh) * | 2021-02-11 | 2021-06-18 | 温州大学 | 一种面向多模态特征语义关联特征的暴力视频识别系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0777385A2 (en) * | 1995-12-06 | 1997-06-04 | International Business Machines Corporation | A method and apparatus for screening audio-visual materials presented to a subscriber |
CN101557506A (zh) * | 2009-05-19 | 2009-10-14 | 浙江工业大学 | 基于计算机视觉的电梯轿厢内暴力行为智能检测装置 |
CN101604325A (zh) * | 2009-07-17 | 2009-12-16 | 北京邮电大学 | 基于主场景镜头关键帧的体育视频分类方法 |
CN101316327B (zh) * | 2007-05-29 | 2010-05-26 | 中国科学院计算技术研究所 | 一种多模态融合的采访镜头检测方法 |
-
2010
- 2010-05-28 CN CN2010101861048A patent/CN101834982B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0777385A2 (en) * | 1995-12-06 | 1997-06-04 | International Business Machines Corporation | A method and apparatus for screening audio-visual materials presented to a subscriber |
CN101316327B (zh) * | 2007-05-29 | 2010-05-26 | 中国科学院计算技术研究所 | 一种多模态融合的采访镜头检测方法 |
CN101557506A (zh) * | 2009-05-19 | 2009-10-14 | 浙江工业大学 | 基于计算机视觉的电梯轿厢内暴力行为智能检测装置 |
CN101604325A (zh) * | 2009-07-17 | 2009-12-16 | 北京邮电大学 | 基于主场景镜头关键帧的体育视频分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101834982A (zh) | 2010-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101834982B (zh) | 基于多模态的暴力视频分层筛选方法 | |
US20220245945A1 (en) | Video anomaly detection method based on human-machine cooperation | |
CN107622258B (zh) | 一种结合静态底层特征和运动信息的快速行人检测方法 | |
CN105404847B (zh) | 一种遗留物实时检测方法 | |
CN103546667B (zh) | 一种面向海量广播电视监管的自动新闻拆条方法 | |
CN103246896B (zh) | 一种鲁棒性车辆实时检测与跟踪方法 | |
CN101835034B (zh) | 一种人群特征统计系统 | |
CN113239822A (zh) | 基于时空双流卷积神经网络的危险行为检测方法及系统 | |
CN109978034B (zh) | 一种基于数据增强的声场景辨识方法 | |
CN109063667B (zh) | 一种基于场景的视频识别方式优化及推送方法 | |
CN102073851A (zh) | 一种城市交通事故自动识别方法和系统 | |
CN107358141B (zh) | 数据识别的方法及装置 | |
CN111428589B (zh) | 一种渐变转场的识别方法及系统 | |
CN102073676A (zh) | 一种网络色情视频实时检测方法和系统 | |
JP2009043265A (ja) | 字幕領域抽出装置、字幕領域抽出方法および字幕領域抽出プログラム | |
CN103281473A (zh) | 基于视频像素时空相关性的通用视频隐写分析方法 | |
CN110688927A (zh) | 一种基于时序卷积建模的视频动作检测方法 | |
CN111488487A (zh) | 一种面向全媒体数据的广告检测方法及检测系统 | |
CN106851302A (zh) | 一种基于帧内编码压缩域的监控视频运动目标检测方法 | |
Jiang et al. | An Approach for Crowd Density and Crowd Size Estimation. | |
CN111191535A (zh) | 基于深度学习的行人检测模型构建方法及行人检测方法 | |
CN112989950A (zh) | 一种面向多模态特征语义关联特征的暴力视频识别系统 | |
Nasir et al. | Event detection and summarization of cricket videos | |
CN115410119A (zh) | 一种基于训练样本自适应生成的剧烈运动检测方法及系统 | |
CN114529894A (zh) | 一种融合空洞卷积的快速场景文本检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120425 |