CN101577824B - 基于邻近i帧dc图像相似度的压缩域关键帧提取方法 - Google Patents
基于邻近i帧dc图像相似度的压缩域关键帧提取方法 Download PDFInfo
- Publication number
- CN101577824B CN101577824B CN 200910022941 CN200910022941A CN101577824B CN 101577824 B CN101577824 B CN 101577824B CN 200910022941 CN200910022941 CN 200910022941 CN 200910022941 A CN200910022941 A CN 200910022941A CN 101577824 B CN101577824 B CN 101577824B
- Authority
- CN
- China
- Prior art keywords
- frame
- similarity
- image
- key frame
- adjacent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于邻近I帧DC图像相似度的压缩域关键帧提取方法,该方法首先计算原始视频中邻近I帧DC图像的相似度,形成相似度集合,其次利用聚类算法Kmeans对邻近I帧的DC图像相似度集合进行聚类,最后根据聚类结果中各I帧的相关度值进行关键帧提取。本发明充分利用相邻I帧相似度较大的特点,来减少计算次数以避免大量不必要的计算和应用聚类方法Kmeans对相似度集合Sdist在较短时间内完成聚类,改变了先镜头分割后提取关键帧的思路,简化了视频关键帧提取过程,并保证了结果的有效性;而且,本发明可处理多种类型视频文件的关键帧提取。
Description
技术领域
本发明属于网络视频内容分析技术领域,涉及一种基于邻近I帧DC图像相似度的压缩域关键帧提取方法。
背景技术
随着网络多媒体技术的深入发展,网络视频已逐渐成为信息表达的一种主流方式。在网络视频内容分析中,由于视频本身数据量较大,若对全部的视频帧进行分析需要花费大量的时间和空间,无法满足对实时性有一定要求的场合。由于视频内容在时空上具有一定的相关性,而关键帧通常能反应出视频的主要内容。因此,通过提取关键帧并进行分析,可以有效减少视频处理的数据量,降低计算的时空复杂度,提高网络视频内容分析的效率。
目前,对于关键帧的提取方法,国内外学者做了大量的研究工作,根据所处理的视频数据对象,可以将这些方法分为像素域的关键帧提取和压缩域的关键帧提取。针对像素域上的关键帧提取,可以通过对帧内像素进行光流分析来计算运动量,并选取单个镜头中运动量局部最小值处的帧作为关键帧。也可以通过利用帧的颜色直方图,边界方向直方图以及小波统计等特征来度量出帧与帧之间的差异,并选取两个连续差异较大帧的中间帧作为关键帧。还可以通过对帧间颜色直方图的差异应用低通滤波器来突出编辑持续效果,以此进行镜头分割,并在此基础上应用自适应时域采样方法提取关键帧。上述方法都是在视频完全解压缩后进行的,所以计算量比较大,效率较低难以满足实时性的要求。
压缩域视频处理技术是直接面向数据量较小的压缩视频数据,在不解压或者少解压的情况下对视频进行处理,可以大大提高视频的处理速度,因此压缩域上的关键帧提取方法研究也引起的广泛关注。有一种方法利用视频帧所包含各类型宏块的数量差异衡量帧与帧之间的差距,并应用高斯滤波和离散曲线进化方法进行关键帧的提取。另一种方法给出了利用压缩域运动向量的感知运动能量来选择关键帧的方法,并在基于MPEG-7的视频文件中取得了较好的效果。还有一种是针对在MPEG压缩视频域中基于DC系数图像直方图和运动矢量的关键帧提取方法,主要应用于视频检索中视频摘要的提取。这些方法的共同点是利用视频压缩域中的某些特征(如运动矢量MV、宏块类型等)来确定镜头边界,实现镜头分割,并从分割出的镜头中提取出关键帧,且所做的实验多数是针对MPEG系列视频压缩标准的。而目前开放的视频压缩标准比较多,上述方法在应用于其它视频压缩标准如H.261、H.263时处理速度的效果不明显。
发明内容
本发明的目的是提供一种基于邻近I帧DC图像相似度的压缩域关键帧提取方法,可以快速准确地完成网络视频关键帧提取过程,解决了现有关键帧提取方法存在的只能处理单一视频标准的缺点,简化了视频关键帧提取过程。
本发明所采用的技术方案是,一种基于邻近I帧DC图像相似度的压缩域关键帧提取方法,该方法按照以下步骤实施:
步骤1:假设VS为待处理的原始视频流,DCi为VS中第i个I帧所对应的DC图像,i=1,2,3,...,n,n为I帧总数,则相邻I帧DC图像的相似度dj定义为:
公式(1)中j=1,2,3,...,n-1;L=WDC×HDC,WDC,HDC分别为DC图像的宽度和高度;Sdist为所有VS中所有相似度dj构成的集合,即Sdist={d1,d2,...,di,...,dn-1},K为聚类总个数,RDC为I帧相关度集合,且Ri∈RDC,其中Ri为VS中第i个I帧的相关度,SRF为关键帧集合,且初始时SRF=φ,
利用公式(1)计算相邻DC图之间的距离dj,得到序列Sdist;
步骤2:设置聚类总个数K的值,K>0,并利用Kmeans方法对步骤1得到的Sdist进行聚类,
得到Class1,Class2,Classi,...,ClassK,i=1,2,...,K;
步骤3:按照公式(2)
计算VS中每个I帧的相关度Rj+1,
其中p,q=1,2,...,K;j=0,1,2...,n-1;R1=1,Rn=1;
所有VS中每个I帧的相关度Rj+1构成帧相关度集合RDC;
步骤4:对于帧相关度集合RDC,若s,t,e满足条件
其中s,e=1,2,...,n-1;s≤e且s≤t≤e;
则将s,t,e并入集合SRF中,即SRF=SRF∪{s,t,e};
步骤5:重复步骤4,直到找出所有满足条件的s、t、e为止,SRF即为最终所提取的关键帧集合。
本发明的方法,该方法在压缩域上直接进行关键帧提取,改变了先镜头分割后关键帧提取的思路,能够提高视频内容分析的速度,可以快速完成网络视频关键帧提取过程,并保证结果的有效性和准确性;本发明可处理多种类型视频文件的关键帧提取,能够应对视频文件种类多、压缩格式多等情况。
附图说明
图1是本发明方法实施例在5个不同的视频中,根据不同的聚类个数K值提取出的关键帧数量曲线图;
图2是本发明方法实施例针对图1中不同的5个视频和不同的聚类个数值的情况下关键帧提取过程所需的时间开销曲线图;
图3是本发明方法实施例在聚类个数值固定的情况下,对一段视频在不同的播放时间内所提取的关键帧数量曲线图;
图4是本发明方法实施例针对图3中视频各播放时间内关键帧提取过程所对应的时间开销曲线图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明方法考虑到存在多个视频压缩标准和网络视频内容审计的实时性等因素,利用压缩域内I帧的DC图像特征,给出了一种在压缩域内快速提取关键帧的方法。假设VS为待处理的原始视频流,DCi为VS中第i个I帧所对应的DC图像,i=1,2,3,...,n。n为I帧总数,则相邻I帧DC图像的相似度dj定义为:
公式(1)中j=1,2,3,...,n-1;L=WDC×HDC,WDC,HDC分别为DC图像的宽度和高度。为了方便描述,在这里做如下的约定:Sdist为VS中所有相似度dj构成的集合,即Sdist={d1,d2,...,di,...,dn-1}。K为聚类总个数。RDC为I帧相关度集合,且Ri∈RDC,Ri为VS中第i个I帧的相关度。帧相关度是指与某个I帧相关联的类的个数。SRF为关键帧集合,且初始时SRF=φ。本发明的基于邻近I帧DC图像相似度的压缩域关键帧提取方法(简称KSIDCIS)的具体实施步骤如下:
步骤1:利用公式dist(j,j+1)计算相邻DC图之间的距离dj,得到序列Sdist;
步骤2:设置聚类总个数为K(K>0),并利用Kmeans方法对Sdist进行聚类,得到Class1,Class2,Classi,...,ClassK,i=1,2,...,K;
步骤3:按照公式(2)
计算VS中每个I帧的相关度Rj+1,其中p,q=1,2,...,K;j=0,1,2...,n-1;R1=1,Rn=1;所有VS中每个I帧的相关度Rj+1构成帧相关度集合RDC;
步骤4:对于帧相关度集合RDC,若s,t,e满足条件
其中s,e=1,2,...,n-1;s≤e且s≤t≤e;则将s,t,e并入集合SRF中,即SRF=SRF∪{s,t,e}。
步骤5:重复步骤4,直到找出所有满足条件的s、t、e为止,且SRF为最终所提取的关键帧集合。
即本方法先利用公式(1)求出两个相邻I帧DC图像之间的相似度dj,然后执行步骤2,此时Kmeans聚类方法可将相似度集合Sdist中的所有元素dj聚集成不同的类,以确定相邻I帧是否相似,若连续的多个dj被分在同一个类中,则说明这些dj值大小接近,其所对应的多个连续I帧相似性也较强,此时可选取这些I帧中的任意一帧作为关键帧来代表这些连续I帧内容;若这些di被分散在多个不同的类中,则说明这些dj值大小变化剧烈,其所对应的多个连续I帧的内容差异较大(如发生镜头突变切换等),此时这些dj值被划分成多段,应选择分段点dj所对应的j帧作为关键帧。例如,对于一段连续的dj值d2~d10,若d2~d4,d5,d6~d10分别属于不同的类,则分段点为d5,此时应将第5号I帧作为关键帧。步骤3、步骤4和步骤5给出了选取关键帧的过程。其中,若dj,dj+1属于同一类,则第j+1个I帧的相关度Rj+1=1,否则,Rj+1=2,此时说明在第j+1个I帧处,帧内容发生了较大变化;且很容易得出R1和Rn分别为1。SRF为所提取的关键帧编号组成的集合。
从上述过程可以看出,本发明KSIDCIS方法的空间开销主要是存储DC图像的空间开销S,但在计算出相似度的集合Sdist后,后续步骤都没有涉及到S,则此时空间开销S可以被释放,可见,尽管S值较大,但由于它在执行过程中存在时间较短,且仅被使用一次,所以S对空间开销的影响是短暂的,因此本发明KSIDCIS方法的空间性能完全满足实际应用要求。
此外,本方法也具有较高的时间效率,从以下两方面可以看出:
(1)本发明KSIDCIS方法充分利用相邻I帧相似度较大的特点,只计算相邻I帧DC图像的相似度,而不是计算任意两个DC图像相似度,将计算次数从N*N次减少到N-1次,避免大量不必要的计算,节约了时间开销。
(2)通过结合聚类方法Kmeans收敛较快的特性,在选取适当K值的情况下,可对相似度集合Sdist在较短时间内完成聚类。由于集合Sdist中的各元素为一维向量,各聚类中心点的维数也为一维向量,这使得聚类方法计算量大大降低,提高了聚类处理效率。
表1和图1、2、3、4给出了本发明的实验结果,实验中的视频数据均来自于YouTube网站。表1中给出了6个具体实施例的视频文件的编号、视频文件的大小及播放时间、各视频中所含I帧的总数量以及视频的类别。表2给出了视频文件的原始URL地址。
表1
表2视频文件URL列表
V1 | http://www.youtube.com/watch?v=i1cC3dnfTkQ&feature=related |
V2 | http://www.youtube.com/watch?v=2BveRkLEIPs&feature=related |
V3 | http://www.youtube.com/watch?v=58wTwba9YOc&feature=ytn%3Amptnews |
V4 | http://www.youtube.com/watch?v=IbFdyzodS5o&feature=related |
V5 | http://www.youtube.com/watch?v=q1Y6iqePELk |
V6 | http://www.youtube.com/watch?v=eiQvAO42s98 |
图1是在5个不同的视频中,根据不同的聚类个数K值提取出的关键帧数量曲线图,图中横坐标表示视频的编号,纵坐标是关键帧数量;图2是本发明方法实施例针对图1中不同的5个视频和不同的聚类个数值的情况下关键帧提取过程所用的时间开销曲线图,图中横坐标表示视频的编号,纵坐标表示提取关键帧所花费的时间;图中,U表示视频中I帧的总数,K表示聚类的个数,时间坐标轴的单位是10-4秒。由图1、2可以看出,选取合适的聚类个数K值,能够在压缩域上提取出合适的可以反应视频主要内容的关键帧数量。
图3是在特定的聚类个数值下,一段特定的视频在不同的播放时间内关键帧数量曲线图,图中横坐标表示一段特定视频的播放时间(单位为分钟),纵坐标表示关键帧的数量;图4给出了各播放时间内关键帧提取过程所花费的时间,是针对图3中提取出的不同数量的关键帧所对应的时间开销曲线图,图中横坐标表示关键帧数量,纵坐标表示提取相应的关键帧所花费的时间,U表示视频中I帧的总数,K表示聚类的个数,时间坐标轴的单位是10-4秒。本发明对播放时间较长的视频文件V6,完成了在聚类K值为固定值时,取不同播放时间(间隔为2分钟)的情况下进行关键帧提取的实验。由图3、4可以看出,在特定的聚类个数K值固定的情况下,对于同一个视频,虽然随着视频播放时间的增加,关键帧的数目会增加,提取关键帧的时间开销会随着视频文件播放时间长度的增加呈总体上升趋势,但其时间开销保持在毫秒级,可以满足实时性要求。
本发明方法考虑到存在多个视频压缩标准和网络视频内容审计的实时性等因素,利用压缩域内I帧的DC图像特征,给出了一种在压缩域内快速提取关键帧的方法,改变了先镜头分割后关键帧提取的思路,在保证准确性的条件下,简化了视频关键帧提取过程,能够提高视频内容分析的速度,可以快速完成网络视频关键帧提取过程,并保证结果的有效性和准确性;同时,本发明可处理多种类型视频文件的关键帧提取,面向各种视频压缩标准(如MPEG-1/2/4、H.261、H.263等)的视频文件,解决了现有关键帧提取方法存在的只能处理单一视频标准的缺点,能够应对视频文件种类多、压缩格式多等情况。
Claims (1)
1.一种基于邻近I帧DC图像相似度的压缩域关键帧提取方法,其特征在于,所述的DC图像为直流分量图像,该方法按照以下步骤实施:
步骤1:假设VS为待处理的原始视频流,DCi为VS中第i个I帧所对应的DC图像,i=1,2,3,...,n,n为I帧总数,则相邻I帧DC图像的相似度dj定义为:
公式(1)中j=1,2,3,...,n-1;L=WDC×HDC,WDC,HDC分别为DC图像的宽度和高度;Sdist为VS中所有相似度dj构成的集合,即Sdist={d1,d2,…,di,…,dn-1},K为聚类总个数,RDC为I帧相关度集合,且Ri∈RDC,其中Ri为VS中第i个I帧的相关度,SRF为关键帧集合,且初始时SRF=φ,
利用公式(1)计算相邻DC图之间的距离dj,得到序列Sdist;
步骤2:设置聚类总个数K的值,K>0,并利用Kmeans方法对步骤1得到的Sdist进行聚类,
得到Class1,Class2,Classi,...,ClassK,i=1,2,...,K;
步骤3:按照公式(2)
计算VS中每个I帧的相关度Rj+1,
其中p,q=1,2,...,K;j=0,1,2...,n-1;R1=1,Rn=1;
所有VS中每个I帧的相关度Rj+1构成帧相关度集合RDC;
步骤4:对于帧相关度集合RDC,若s,t,e满足条件
其中的s,e=1,2,…,n-1;s≤e且s≤t≤e;
则将s,t,e并入集合SRF中,即SRF=SRF∪{s,t,e};
步骤5:重复步骤4,直到找出所有满足条件的s、t、e为止,SRF即为最终所提取的关键帧集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200910022941 CN101577824B (zh) | 2009-06-12 | 2009-06-12 | 基于邻近i帧dc图像相似度的压缩域关键帧提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200910022941 CN101577824B (zh) | 2009-06-12 | 2009-06-12 | 基于邻近i帧dc图像相似度的压缩域关键帧提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101577824A CN101577824A (zh) | 2009-11-11 |
CN101577824B true CN101577824B (zh) | 2011-01-19 |
Family
ID=41272584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200910022941 Expired - Fee Related CN101577824B (zh) | 2009-06-12 | 2009-06-12 | 基于邻近i帧dc图像相似度的压缩域关键帧提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101577824B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103065153B (zh) * | 2012-12-17 | 2016-06-15 | 西南科技大学 | 一种基于色彩量化和聚类的视频关键帧提取方法 |
CN104284198B (zh) * | 2014-10-27 | 2017-09-26 | 中国科学院寒区旱区环境与工程研究所 | 视频浓缩方法 |
CN106612468A (zh) * | 2015-10-21 | 2017-05-03 | 上海文广互动电视有限公司 | 视频摘要自动生成系统及方法 |
CN107748761B (zh) * | 2017-09-26 | 2021-10-19 | 广东工业大学 | 一种视频摘要的关键帧提取方法 |
CN109583340B (zh) * | 2018-11-15 | 2022-10-14 | 中山大学 | 一种基于深度学习的视频目标检测方法 |
CN111008978B (zh) * | 2019-12-06 | 2022-10-14 | 电子科技大学 | 基于深度学习的视频场景分割方法 |
CN111145185B (zh) * | 2019-12-17 | 2023-12-22 | 天津市肿瘤医院 | 一种基于聚类关键帧提取ct图像的肺实质分割方法 |
CN111400528B (zh) * | 2020-03-16 | 2023-09-01 | 南方科技大学 | 一种图像压缩方法、装置、服务器及存储介质 |
CN114786039B (zh) * | 2022-04-25 | 2024-03-26 | 海信电子科技(武汉)有限公司 | 服务器及视频预览图的制作方法 |
-
2009
- 2009-06-12 CN CN 200910022941 patent/CN101577824B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN101577824A (zh) | 2009-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101577824B (zh) | 基于邻近i帧dc图像相似度的压缩域关键帧提取方法 | |
Liu et al. | Teinet: Towards an efficient architecture for video recognition | |
EP3477506B1 (en) | Video detection method, server and storage medium | |
Li et al. | Efficient violence detection using 3d convolutional neural networks | |
Xu et al. | The big data analytics and applications of the surveillance system using video structured description technology | |
CN105677735A (zh) | 一种视频搜索方法及装置 | |
Ayed et al. | MapReduce based text detection in big data natural scene videos | |
CN107027051B (zh) | 一种基于线性动态系统的视频关键帧提取方法 | |
CN103440640A (zh) | 一种视频场景聚类及浏览方法 | |
CN101719144A (zh) | 一种联合字幕和视频图像信息进行场景分割和索引的方法 | |
Liu et al. | Key frame extraction of online video based on optimized frame difference | |
CN104376003A (zh) | 一种视频检索方法及装置 | |
Birinci et al. | A perceptual scheme for fully automatic video shot boundary detection | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN103559697A (zh) | 基于fft的碎纸片纵切拼接复原算法 | |
EP2383990A1 (en) | Time segment representative feature vector generation device | |
DE112009005002T5 (de) | Techniken zum Erkennen von Videokopien | |
CN103279473A (zh) | 海量视频内容检索方法、系统及移动终端 | |
Xie et al. | Sliding-window based scale-frequency map for bird sound classification using 2d-and 3d-cnn | |
CN109086830A (zh) | 基于样本惩罚的典型关联分析近重复视频检测方法 | |
CN100515048C (zh) | 一种快速检测在线视频流中静态叠加文字的方法及系统 | |
CN103020094A (zh) | 视频播放次数统计方法 | |
CN103578094B (zh) | 镜头分割方法 | |
Phan et al. | Multimedia event detection using segment-based approach for motion feature | |
Ye et al. | Acoustic scene classification using deep convolutional neural network via transfer learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20180528 Address after: 710048 No. 1 Xingqing Road, Beilin District, Xi'an, Shaanxi Patentee after: Xi'an Boyi Intelligent Technology Co., Ltd. Address before: 710048 No. 5 Jinhua South Road, Shaanxi, Xi'an Patentee before: Xi'an University of Technology |
|
TR01 | Transfer of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110119 Termination date: 20200612 |
|
CF01 | Termination of patent right due to non-payment of annual fee |