CN104683815A - 一种基于内容的h.264压缩域视频检索方法 - Google Patents

一种基于内容的h.264压缩域视频检索方法 Download PDF

Info

Publication number
CN104683815A
CN104683815A CN201410663715.5A CN201410663715A CN104683815A CN 104683815 A CN104683815 A CN 104683815A CN 201410663715 A CN201410663715 A CN 201410663715A CN 104683815 A CN104683815 A CN 104683815A
Authority
CN
China
Prior art keywords
video
prime
sigma
residual error
signatures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410663715.5A
Other languages
English (en)
Other versions
CN104683815B (zh
Inventor
王萍
种怡晨
黄华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Help You Electronic Technology Co., Ltd.
Original Assignee
Shenzhen Research Institute Beijing Institute Of Technology
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Research Institute Beijing Institute Of Technology, Xian Jiaotong University filed Critical Shenzhen Research Institute Beijing Institute Of Technology
Priority to CN201410663715.5A priority Critical patent/CN104683815B/zh
Publication of CN104683815A publication Critical patent/CN104683815A/zh
Application granted granted Critical
Publication of CN104683815B publication Critical patent/CN104683815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于内容的H.264压缩域视频检索方法,为了解决现有H.264压缩域视频检索中计算量大,以及检索准确率低的问题,本发明提出一种基于内容的H.264压缩域视频检索方法,属于视频处理领域。该方法针对H.264压缩视频,提出了直接从I帧编码码流中提取预测模式作为纹理特征,并结合残差DCT的能量直方图作为视频检索的特征签名,用夹角余弦的方法来衡量签名的相似性,有效地对H.264视频进行相似性检索。

Description

一种基于内容的H.264压缩域视频检索方法
技术领域
本发明涉及视频处理领域,尤其涉及一种基于内容的H.264压缩域视频检索方法。
背景技术
随着网络通信技术与多媒体技术的飞速发展,数字多媒体已广泛应用于教育、医学、公共信息、广告及娱乐等多个领域,众多的应用导致数字视频数量快速增加。如何对巨大的视频库进行有效的管理,对视频进行快速检索和查询,成为有效利用视频资源需解决的问题,而视频相似性分析是基于内容的视频检索的重要手段。
目前存储或传输视频多是以压缩形式出现,因此,研究压缩域的视频处理方法可以提高实时性与效率。由于具有比以往编码标准更出色的压缩性能,H.264已成为目前非常流行的编码标准。针对H.264压缩视频,如何充分利用其压缩域内信息提取表达视频内容的特征,并进行视频之间的相似性分析,具有重要理论意义和应用价值。
现有的视频相似性分析方面的工作已经有很多,近几年来已经提出了大量的CBR(基于内容的检索)算法。比如基于视频签名的视频相似性检索(LuBF,Can HB,Can Z.An efficient method for video similarity search with videosignature[C].International Conference on Computational and InformationSciences,2010,pp:713-716)和基于内容的快速视频检索(Cao Z,Zhu M.Anefficient video similarity search algorithm[J].IEEE Transactions onConsumerElectronics,2010,56(2):751-755)等。这两种方法在视频检索上取得了很好的效果,但需要对压缩码流全解码至像素域,并在像素域提取表征视频的特征,运算量及存储空间需求都很大。基于视频签名的视频相似性检索方法提取视频中每帧各像素的亮度Y和色度Cb、Cr信息,求均值后采用适当的权值组合来实现降维,最后将视频表示为一个特征签名:
s = 2 Σ i = 1 M Σ j = 1 N Y ij / MN + Σ i = 1 M Σ j = 1 N Cb ij / MN + 3 Σ i = 1 M Σ j = 1 N Cr ij / MN
v m = Σ i = 1 L s i / L v d = [ Σ i = 1 L ( s i - v m ) 2 / L ] 1 2
其中M、N分别为图像的宽和高,s代表每帧图像的签名,L为视频帧数,(vm,vd)表示最终的视频签名。采用视频签名的方法提高了检索效率,但需在像素域提取每帧图像的亮度及色度信息,运算量很大。
随着H.264编码标准的普及,许多学者也对H.264压缩视频的相似性检索展开了各种研究。(Zargari F,Mehrabi M,Moin M S.Compressed domaintexture retrieval based on I-frame coding in H.264[C]Proc of Intern ationalConference on Multimedia and Expo.Beijing:IEEE,2007:831—834.)中统计I帧预测模式信息进行视频检索,这种方法仅利用了压缩域中的模式信息,检索效果一般。从压缩码流中提取DC-picture进行视频检索(Mehrabi M,Zargari F,Ghanbari M.Compressed domain content based retrieval using H.264DC-pictures[J],Multimedia Tools and Applications,2012)的方法在压缩域中模拟DCT反变换过程,提取DCT系数中的直流分量,生成低分辨率的DC-pictures,最后利用DC图像的颜色直方图特征进行相似性度量。以上方法结合了像素域的特点,检索效果比较理想,但是特征维数高,检索时间略长,计算量的减少有限。
发明内容
针对上述缺陷或不足,本发明提出一种基于内容的H.264压缩域视频检索方法。该方法针对H.264压缩视频,通过部分解码从I帧压缩码流中提取预测模式直方图,并结合残差DCT的能量直方图生成视频检索的特征签名,用夹角余弦的方法来衡量两视频签名间的相似性,有效地对H.264视频进行相似性检索。
为达到以上目的,本发明的技术方案为:
包括以下步骤:
步骤一、提取I帧预测模式:
分别对库视频与查询视频的H.264压缩码流中提取I帧每个亮度块的预测模式;
步骤二、提取残差DCT系数:
分别从库视频与查询视频的H.264压缩码流中提取I帧每个亮度块的残差DCT系数;
步骤三、生成残差DCT能量:
根据残差DCT系数分别计算库视频残差DCT系数的方差,得到残差DCT能量;
步骤四、生成视频签名:
对库视频与查询视频的每一I帧图像分别统计预测模式、残差DCT能量两个直方图信息,并根据将两个直方图信息,得到视频签名
步骤五、获取库视频与查询视频的相似性度S:
S = Σ k ' = 0 23 ( H 1 [ k ' ] × H 2 [ k ' ] ) ( Σ k ' = 0 23 H 1 [ k ' ] 2 ) × ( Σ k ' = 0 23 H 2 [ k ' ] 2 )
其中,H1为查询视频签名,H2为视频库视频签名,k'=0,1,2.......,23,S取值范围为[0,1],代表查询视频签名与库中视频签名的夹角的余弦值,S越接近1则表明相似度越高,越接近0则相似度越低。
步骤六、获取匹配视频:
将查询视频与库视频的相似性度S进行降序排列,获取前m个库视频为所需检索的视频。
所述步骤四中预测模式直方图的生成过程具体为:
分别统计每一帧的13种预测模式直方图,记为HL[0,1,2......,12],并做归一化处理:
H L = [ k ] = ( Σ i ' = 1 h Σ j ' = 1 w mod e k ( f i ' j ' ) ) / ( w × h )
其中,k=0,1,2......,12,fi'j'代表第i'行第j'列4×4子块的预测模式,若fi'j'属于第k种模式,则modek(fi'j')=1,否则modek(fi'j')=0,h和w分别为图像在行和列方向的4×4子块个数。
所述步骤四中残差DCT能量直方图的生成具体过程为:
将DCT系数的方差均分为11个区间,并统计每一帧的直方图:
H DCT [ i ] = Σ i ' = 1 h Σ j ' = 1 w f ( p i ' j ' )
其中,i=0,1,2......,10,h和w分别为图像在行和列方向的4×4子块个数,pi'j'为第i'行第j'列4×4子块的残差DCT能量,当pi'j'<(i+1)*10时,f(pi'j')=1,否则f(pi'j')=0。
根据将两个直方图信息,得到视频签名具体过程为:
4.1)、对包含m帧的视频作取均值处理:
H L [ k ] = &Sigma; j = 1 m H Lj [ k ] / m
H DCT [ i ] = &Sigma; j = 1 m H DCTj [ i ] / m
4.2)、按照下式将两个直方图特征结合,得到长度为24的视频签名:
H=HLHDCT
与现有技术比较,本发明的有益效果为:
(1)现有的H.264视频检索方法没有充分利用压缩域的信息,所以检索的效果并不是很理想,而本发明结合了I帧编码预测模式与残差DCT能量作为特征向量,使检索结果更加精确。
(2)为了解决基于像素域视频检索的计算量大,检索时间长的问题,本发明直接在压缩域中进行处理,提取压缩视频码流中的丰富的视频特征,不需要进行完全解码,降低了计算复杂度,提高了处理速度,也节省了解压缩的时间和解压后所需要的存储空间。
附图说明
图1是本发明H.264压缩域视频检索方法的流程图;
图2分别为16×16和4×4两种宏块类型的预测模式的方向,其中,(a)为为4×4宏块类型,(b)16×16宏块类型(a)为16×16宏块类型的预测模式方向,(b)为4×4宏块类型的预测模式方向;
图3是使用本发明的方法进行视频检索的结果。
具体实施方式
下面结合附图1对本发明方法的实施方式做详细说明。
一种基于内容的H.264压缩域视频检索方法,该方法首先对H.264压缩视频进行部分解码,提取I帧压缩码流中的预测模式信息以及残差DCT信息,经过对这两种信息的统计和处理,得到视频的特征签名,通过计算查询视频和视频库中视频的特征签名的相似度,从而检索到相似视频。具体流程图如附图1所示。
基于H.264压缩域的快速视频检索方法,其具体实现过程如下:
步骤一、提取I帧预测模式
从H.264压缩码流中提取I帧每个亮度块的预测模式:如果当前宏块采取4×4类型,则直接提取其预测模式信息;如果当前宏块采取16×16类型,则看作16个4×4子块的预测模式相同,如图2所示,其中,(a)为16×16宏块类型的预测模式方向,(b)为4×4宏块类型的预测模式方向。
步骤二、提取残差DCT系数
从H.264压缩码流中提取I帧每个亮度块的残差DCT系数。
步骤三、生成残差DCT能量
残差DCT系数的方差反映了图像中某个区域的唯一性,与图像边缘也有很大联系。当方差很小时,表明边缘方向和当前块的预测方向一致,若方差很大,则表明预测方向和边缘方向有一定的偏差。
残差DCT能量定义为残差DCT系数的方差σ2。在H.264中,帧内编码并不直接采用DCT变换来进行,而是采用N×N(N=4)整数DCT变换,设每个4×4子块的亮度值为X=x(i,j)(i,j=0,1,2,3),则X的期望为:
m k = E ( X k ) = 1 N 2 &Sigma; i = 0 N - 1 &Sigma; j = 0 N - 1 x k ( i , j ) , ( k = 1 )
X的方差为:
σ2=E(X-EX)2=m2-m1 2
二维DCT变换的定义如下:
C ( u , v ) = 2 N a ( u ) a ( v ) &Sigma; i = 0 N - 1 &Sigma; j = 0 N - 1 x ( i , j ) &times; cos ( ( 2 i + 1 ) u&pi; 2 N ) cos ( ( 2 j + 1 ) v&pi; 2 N )
其中,u=0时,其他情况下a(u)=1,C(u,v)是DCT变换后(u,v)位置的残差DCT系数。
由以上式子可以推导出:
m 1 = 1 N C ( 0,0 )
m 2 = 1 N 2 &Sigma; u = 0 N - 1 &Sigma; v = 0 N - 1 C 2 ( u , v )
则由(7)、(8)两式可得出残差DCT系数的方差为:
&sigma; 2 = m 2 - m 1 2 = 1 N 2 &Sigma; u = 0 N - 1 &Sigma; v = 0 N - 1 C 2 ( u , v ) | ( u , v ) &NotEqual; ( 0,0 )
即DCT变换域中除直流外所有交流系数平方和的平均值。
步骤四、生成视频签名
对于压缩视频的每一I帧图像分别统计预测模式、残差DCT能量两个直方图信息。
预测模式直方图的生成:
对于H.264每个亮度块来说,16×16,4×4两种宏块类型共有13种预测模式,分别统计每一帧的预测模式直方图,记为HL[0,1,2......,12],并做归一化处理:
H L = [ k ] = ( &Sigma; i ' = 1 h &Sigma; j ' = 1 w mod e k ( f i ' j ' ) ) / ( w &times; h )
其中,k=0,1,2......,12,fi'j'代表第i'行第j'列4×4子块的预测模式,若fi'j'属于第k种模式,则modek(fi'j')=1,否则modek(fi'j')=0,h和w分别为图像在行和列方向的4×4子块个数。
残差DCT能量直方图的生成:
对于DCT系数的方差,我们将其均分为11个区间,并统计每一帧的直方图:
H DCT [ i ] = &Sigma; i ' = 1 h &Sigma; j ' = 1 w f ( p i ' j ' )
其中,i=0,1,2......,10,h和w分别为图像在行和列方向的4×4子块个数,pi'j'为第i'行第j'列4×4子块的残差DCT能量,当pi'j'<(i+1)*10时,f(pi'j')=1,否则f(pi'j')=0。
接着,为了得出视频的特征签名,需对一个包含m帧的视频作进一步的取均值处理:
H L [ k ] = &Sigma; j = 1 m H Lj [ k ] / m
H DCT [ i ] = &Sigma; j = 1 m H DCTj [ i ] / m
最后,按照下式将两个直方图特征结合,得到长度为24的视频签名:
H=HLHDCT
步骤五、相似性度量
用夹角余弦的方法来衡量视频签名的相似性:
S = &Sigma; k ' = 0 23 ( H 1 [ k ' ] &times; H 2 [ k ' ] ) ( &Sigma; k ' = 0 23 H 1 [ k ' ] 2 ) &times; ( &Sigma; k ' = 0 23 H 2 [ k ' ] 2 )
其中H1为查询视频,H2为视频库中的视频,k'=0,1,2.......,23S取值范围为[0,1],代表查询视频签名与库中视频签名的夹角的余弦值,S越接近1则表明相似度越高,越接近0则相似度越低。
步骤六、获取匹配视频:
将查询视频与库视频的相似性度S进行降序排列,获取前m个库视频为所需检索的视频。
如附图3所示,从视频库中选择一个视频作为查询,计算其特征直方图,并与视频库中的每一个视频进行相似性度量,取前5个视频作为检索结果。图3列出了部分视频的检索结果,其中最左边一列为查询视频,其余5列按相似性程度按相似度高低自左向右排列。从主观效果来看,检索的结果有效地选择了视频库中的同一类视频。
如表1、2所示,与现有的H.264压缩域的检索方法相比,本发明在相同的检索效果下大大降低了运算时间,提高了检索效率;与现有的视频签名方法相比,本发明的方法不仅降低了运算时间,提高了检索效率,同时检索效果也显著提高。
表1 查询结果的准确率列表以及MAP(mean average precision)值比较
现有的压缩域的检索方法 现有的视频签名算法 本发明
Rank1 100% 100% 100%
Rank2 100% 85% 100%
Rank3 90% 70% 85%
Rank4 80% 35% 80%
Rank5 65% 10% 60%
MAP 0.87 0.62 0.86
表2 特征提取的时间的比较
Feature 现有的压缩域的检索方法 现有的视频签名算法 本发明
时间(s) 0.219 0.365 0.160

Claims (4)

1.一种基于内容的H.264压缩域视频检索方法,其特征在于,包括以下步骤:
步骤一、提取I帧预测模式:
分别对库视频与查询视频的H.264压缩码流中提取I帧每个亮度块的预测模式;
步骤二、提取残差DCT系数:
分别从库视频与查询视频的H.264压缩码流中提取I帧每个亮度块的残差DCT系数;
步骤三、生成残差DCT能量:
根据残差DCT系数分别计算库视频残差DCT系数的方差,即得到残差DCT能量;
步骤四、生成视频签名:
对库视频与查询视频的每一I帧图像分别统计预测模式、残差DCT能量两个直方图信息,并根据将两个直方图信息,得到视频签名;
步骤五、获取库视频与查询视频的相似性度S:
S = &Sigma; k &prime; = 0 23 ( H 1 [ k &prime; ] &times; H 2 [ k &prime; ] ) ( &Sigma; k &prime; = 0 23 H 1 [ k &prime; ] 2 ) &times; ( &Sigma; k &prime; = 0 23 H 2 [ k &prime; ] 2 )
其中,H1为查询视频签名,H2为视频库视频签名,k'=0,1,2.......,23,S取值范围为[0,1],代表查询视频签名与库中视频签名的夹角余弦值;
步骤六、获取匹配视频:
将查询视频与库视频的相似性度S进行降序排列,获取前N个库视频为所需检索的视频,其中,N为正整数。
2.如权利要求1所述的一种基于内容的H.264压缩域视频检索方法,其特征在于:所述步骤四中预测模式直方图的生成过程具体为:
分别统计每一帧的13种预测模式直方图,记为HL[0,1,2......,12],并做归一化处理:
H L [ k ] = ( &Sigma; i &prime; = 1 h &Sigma; j &prime; = 1 w mod e k ( f i &prime; j &prime; ) ) / ( w &times; h )
其中,k=0,1,2......,12,fi'j'代表第i'行第j'列4×4子块的预测模式,若fi'j'属于第k种模式,则modek(fi'j')=1,否则modek(fi'j')=0,h和w分别为图像在行和列方向的4×4子块个数。
3.如权利要求2所述的一种基于内容的H.264压缩域视频检索方法,其特征在于:所述步骤四中残差DCT能量直方图的生成具体过程为:
将DCT系数的方差均分为11个区间,并统计每一帧的直方图:
H DCT [ i ] = &Sigma; i &prime; = 1 h &Sigma; j &prime; = 1 w f ( p i &prime; j &prime; )
其中,i=0,1,2......,10,h和w分别为图像在行和列方向的4×4子块个数,pi'j'为第i'行第j'列4×4子块的残差DCT能量,当pi'j'<(i+1)*10时,f(pi'j')=1,否则f(pi'j')=0。
4.如权利要求3所述的一种基于内容的H.264压缩域视频检索方法,其特征在于:根据两个直方图信息,得到视频签名具体过程为:
4.1)、对包含m帧的视频作取均值处理:
H L [ k ] = &Sigma; j = 1 m H Lj [ k ] / m
H DCT [ i ] = &Sigma; j = 1 m H DCTj [ i ] / m ;
4.2)、按照下式将两个直方图特征结合,得到长度为24的视频签名:
H=HLHDCT
CN201410663715.5A 2014-11-19 2014-11-19 一种基于内容的h.264压缩域视频检索方法 Active CN104683815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410663715.5A CN104683815B (zh) 2014-11-19 2014-11-19 一种基于内容的h.264压缩域视频检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410663715.5A CN104683815B (zh) 2014-11-19 2014-11-19 一种基于内容的h.264压缩域视频检索方法

Publications (2)

Publication Number Publication Date
CN104683815A true CN104683815A (zh) 2015-06-03
CN104683815B CN104683815B (zh) 2017-12-15

Family

ID=53318296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410663715.5A Active CN104683815B (zh) 2014-11-19 2014-11-19 一种基于内容的h.264压缩域视频检索方法

Country Status (1)

Country Link
CN (1) CN104683815B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126619A (zh) * 2016-06-20 2016-11-16 中山大学 一种基于视频内容的视频检索方法及系统
CN106777159A (zh) * 2016-12-20 2017-05-31 西安交通大学 一种基于内容的视频片段检索及定位方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1089280A2 (en) * 1999-07-08 2001-04-04 Hyundai Electronics Industries Co., Ltd. Method of indexing and searching moving picture data using a motion activity description method
CN102301697A (zh) * 2009-01-29 2011-12-28 日本电气株式会社 视频签名产生设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1089280A2 (en) * 1999-07-08 2001-04-04 Hyundai Electronics Industries Co., Ltd. Method of indexing and searching moving picture data using a motion activity description method
CN102301697A (zh) * 2009-01-29 2011-12-28 日本电气株式会社 视频签名产生设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126619A (zh) * 2016-06-20 2016-11-16 中山大学 一种基于视频内容的视频检索方法及系统
CN106777159A (zh) * 2016-12-20 2017-05-31 西安交通大学 一种基于内容的视频片段检索及定位方法
CN106777159B (zh) * 2016-12-20 2020-04-28 西安交通大学 一种基于内容的视频片段检索及定位方法

Also Published As

Publication number Publication date
CN104683815B (zh) 2017-12-15

Similar Documents

Publication Publication Date Title
Li et al. No-reference and robust image sharpness evaluation based on multiscale spatial and spectral features
Duan et al. Compact descriptors for visual search
Yue et al. Cloud-based image coding for mobile devices—Toward thousands to one compression
CN105933711B (zh) 基于分割的邻域最优概率视频隐写分析方法及系统
CN105049875A (zh) 一种基于混合特征与突变检测的精确关键帧提取方法
Duan et al. Optimizing JPEG quantization table for low bit rate mobile visual search
CN104869421A (zh) 基于全局运动估计的视频显著性检测方法
CN101827268B (zh) 一种基于对象的分形视频压缩与解压缩方法
CN106777159B (zh) 一种基于内容的视频片段检索及定位方法
CN103020138A (zh) 一种视频检索的方法和装置
CN104809248A (zh) 视频指纹提取及检索方法
CN101860753B (zh) 一种基于分形的视频压缩与解压缩方法
CN104683815A (zh) 一种基于内容的h.264压缩域视频检索方法
Liu et al. Key frame extraction from online video based on improved frame difference optimization
Liu et al. Pchm-net: A new point cloud compression framework for both human vision and machine vision
Zong et al. Key frame extraction based on dynamic color histogram and fast wavelet histogram
Mehrabi et al. Fast content access and retrieval of JPEG compressed images
He et al. Fast and accurate lane detection via frequency domain learning
CN104618723B (zh) 一种基于运动矢量投影矩阵的h.264/avc压缩域视频匹配方法
CN105335500B (zh) 协变局部特征聚集的图像特征表示法
CN102662955A (zh) 一种基于分形图像编码的图像检索方法
CN108712655A (zh) 一种用于相似图像集合并的群体图像编码方法
Wang et al. Fractal image encoding with flexible classification sets
CN103647969A (zh) 一种基于对象的快速分形视频压缩与解压缩方法
Duan et al. A natural image compression approach based on independent component analysis and visual saliency detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190820

Address after: Room 11504, Qindi Yashi Building, 21 Beiguan Zhengjie, Lianhu District, Xi'an City, Shaanxi Province, 710014

Patentee after: Shaanxi Help You Electronic Technology Co., Ltd.

Address before: Beilin District Xianning West Road 710049, Shaanxi city of Xi'an province No. 28

Co-patentee before: Shenzhen Research Institute, Beijing Institute of Technology

Patentee before: Xi'an Jiaotong University

TR01 Transfer of patent right