CN104683815A - 一种基于内容的h.264压缩域视频检索方法 - Google Patents
一种基于内容的h.264压缩域视频检索方法 Download PDFInfo
- Publication number
- CN104683815A CN104683815A CN201410663715.5A CN201410663715A CN104683815A CN 104683815 A CN104683815 A CN 104683815A CN 201410663715 A CN201410663715 A CN 201410663715A CN 104683815 A CN104683815 A CN 104683815A
- Authority
- CN
- China
- Prior art keywords
- video
- prime
- sigma
- residual error
- signatures
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于内容的H.264压缩域视频检索方法,为了解决现有H.264压缩域视频检索中计算量大,以及检索准确率低的问题,本发明提出一种基于内容的H.264压缩域视频检索方法,属于视频处理领域。该方法针对H.264压缩视频,提出了直接从I帧编码码流中提取预测模式作为纹理特征,并结合残差DCT的能量直方图作为视频检索的特征签名,用夹角余弦的方法来衡量签名的相似性,有效地对H.264视频进行相似性检索。
Description
技术领域
本发明涉及视频处理领域,尤其涉及一种基于内容的H.264压缩域视频检索方法。
背景技术
随着网络通信技术与多媒体技术的飞速发展,数字多媒体已广泛应用于教育、医学、公共信息、广告及娱乐等多个领域,众多的应用导致数字视频数量快速增加。如何对巨大的视频库进行有效的管理,对视频进行快速检索和查询,成为有效利用视频资源需解决的问题,而视频相似性分析是基于内容的视频检索的重要手段。
目前存储或传输视频多是以压缩形式出现,因此,研究压缩域的视频处理方法可以提高实时性与效率。由于具有比以往编码标准更出色的压缩性能,H.264已成为目前非常流行的编码标准。针对H.264压缩视频,如何充分利用其压缩域内信息提取表达视频内容的特征,并进行视频之间的相似性分析,具有重要理论意义和应用价值。
现有的视频相似性分析方面的工作已经有很多,近几年来已经提出了大量的CBR(基于内容的检索)算法。比如基于视频签名的视频相似性检索(LuBF,Can HB,Can Z.An efficient method for video similarity search with videosignature[C].International Conference on Computational and InformationSciences,2010,pp:713-716)和基于内容的快速视频检索(Cao Z,Zhu M.Anefficient video similarity search algorithm[J].IEEE Transactions onConsumerElectronics,2010,56(2):751-755)等。这两种方法在视频检索上取得了很好的效果,但需要对压缩码流全解码至像素域,并在像素域提取表征视频的特征,运算量及存储空间需求都很大。基于视频签名的视频相似性检索方法提取视频中每帧各像素的亮度Y和色度Cb、Cr信息,求均值后采用适当的权值组合来实现降维,最后将视频表示为一个特征签名:
其中M、N分别为图像的宽和高,s代表每帧图像的签名,L为视频帧数,(vm,vd)表示最终的视频签名。采用视频签名的方法提高了检索效率,但需在像素域提取每帧图像的亮度及色度信息,运算量很大。
随着H.264编码标准的普及,许多学者也对H.264压缩视频的相似性检索展开了各种研究。(Zargari F,Mehrabi M,Moin M S.Compressed domaintexture retrieval based on I-frame coding in H.264[C]Proc of Intern ationalConference on Multimedia and Expo.Beijing:IEEE,2007:831—834.)中统计I帧预测模式信息进行视频检索,这种方法仅利用了压缩域中的模式信息,检索效果一般。从压缩码流中提取DC-picture进行视频检索(Mehrabi M,Zargari F,Ghanbari M.Compressed domain content based retrieval using H.264DC-pictures[J],Multimedia Tools and Applications,2012)的方法在压缩域中模拟DCT反变换过程,提取DCT系数中的直流分量,生成低分辨率的DC-pictures,最后利用DC图像的颜色直方图特征进行相似性度量。以上方法结合了像素域的特点,检索效果比较理想,但是特征维数高,检索时间略长,计算量的减少有限。
发明内容
针对上述缺陷或不足,本发明提出一种基于内容的H.264压缩域视频检索方法。该方法针对H.264压缩视频,通过部分解码从I帧压缩码流中提取预测模式直方图,并结合残差DCT的能量直方图生成视频检索的特征签名,用夹角余弦的方法来衡量两视频签名间的相似性,有效地对H.264视频进行相似性检索。
为达到以上目的,本发明的技术方案为:
包括以下步骤:
步骤一、提取I帧预测模式:
分别对库视频与查询视频的H.264压缩码流中提取I帧每个亮度块的预测模式;
步骤二、提取残差DCT系数:
分别从库视频与查询视频的H.264压缩码流中提取I帧每个亮度块的残差DCT系数;
步骤三、生成残差DCT能量:
根据残差DCT系数分别计算库视频残差DCT系数的方差,得到残差DCT能量;
步骤四、生成视频签名:
对库视频与查询视频的每一I帧图像分别统计预测模式、残差DCT能量两个直方图信息,并根据将两个直方图信息,得到视频签名
步骤五、获取库视频与查询视频的相似性度S:
其中,H1为查询视频签名,H2为视频库视频签名,k'=0,1,2.......,23,S取值范围为[0,1],代表查询视频签名与库中视频签名的夹角的余弦值,S越接近1则表明相似度越高,越接近0则相似度越低。
步骤六、获取匹配视频:
将查询视频与库视频的相似性度S进行降序排列,获取前m个库视频为所需检索的视频。
所述步骤四中预测模式直方图的生成过程具体为:
分别统计每一帧的13种预测模式直方图,记为HL[0,1,2......,12],并做归一化处理:
其中,k=0,1,2......,12,fi'j'代表第i'行第j'列4×4子块的预测模式,若fi'j'属于第k种模式,则modek(fi'j')=1,否则modek(fi'j')=0,h和w分别为图像在行和列方向的4×4子块个数。
所述步骤四中残差DCT能量直方图的生成具体过程为:
将DCT系数的方差均分为11个区间,并统计每一帧的直方图:
其中,i=0,1,2......,10,h和w分别为图像在行和列方向的4×4子块个数,pi'j'为第i'行第j'列4×4子块的残差DCT能量,当pi'j'<(i+1)*10时,f(pi'j')=1,否则f(pi'j')=0。
根据将两个直方图信息,得到视频签名具体过程为:
4.1)、对包含m帧的视频作取均值处理:
4.2)、按照下式将两个直方图特征结合,得到长度为24的视频签名:
H=HLHDCT
与现有技术比较,本发明的有益效果为:
(1)现有的H.264视频检索方法没有充分利用压缩域的信息,所以检索的效果并不是很理想,而本发明结合了I帧编码预测模式与残差DCT能量作为特征向量,使检索结果更加精确。
(2)为了解决基于像素域视频检索的计算量大,检索时间长的问题,本发明直接在压缩域中进行处理,提取压缩视频码流中的丰富的视频特征,不需要进行完全解码,降低了计算复杂度,提高了处理速度,也节省了解压缩的时间和解压后所需要的存储空间。
附图说明
图1是本发明H.264压缩域视频检索方法的流程图;
图2分别为16×16和4×4两种宏块类型的预测模式的方向,其中,(a)为为4×4宏块类型,(b)16×16宏块类型(a)为16×16宏块类型的预测模式方向,(b)为4×4宏块类型的预测模式方向;
图3是使用本发明的方法进行视频检索的结果。
具体实施方式
下面结合附图1对本发明方法的实施方式做详细说明。
一种基于内容的H.264压缩域视频检索方法,该方法首先对H.264压缩视频进行部分解码,提取I帧压缩码流中的预测模式信息以及残差DCT信息,经过对这两种信息的统计和处理,得到视频的特征签名,通过计算查询视频和视频库中视频的特征签名的相似度,从而检索到相似视频。具体流程图如附图1所示。
基于H.264压缩域的快速视频检索方法,其具体实现过程如下:
步骤一、提取I帧预测模式
从H.264压缩码流中提取I帧每个亮度块的预测模式:如果当前宏块采取4×4类型,则直接提取其预测模式信息;如果当前宏块采取16×16类型,则看作16个4×4子块的预测模式相同,如图2所示,其中,(a)为16×16宏块类型的预测模式方向,(b)为4×4宏块类型的预测模式方向。
步骤二、提取残差DCT系数
从H.264压缩码流中提取I帧每个亮度块的残差DCT系数。
步骤三、生成残差DCT能量
残差DCT系数的方差反映了图像中某个区域的唯一性,与图像边缘也有很大联系。当方差很小时,表明边缘方向和当前块的预测方向一致,若方差很大,则表明预测方向和边缘方向有一定的偏差。
残差DCT能量定义为残差DCT系数的方差σ2。在H.264中,帧内编码并不直接采用DCT变换来进行,而是采用N×N(N=4)整数DCT变换,设每个4×4子块的亮度值为X=x(i,j)(i,j=0,1,2,3),则X的期望为:
X的方差为:
σ2=E(X-EX)2=m2-m1 2
二维DCT变换的定义如下:
其中,u=0时,其他情况下a(u)=1,C(u,v)是DCT变换后(u,v)位置的残差DCT系数。
由以上式子可以推导出:
则由(7)、(8)两式可得出残差DCT系数的方差为:
即DCT变换域中除直流外所有交流系数平方和的平均值。
步骤四、生成视频签名
对于压缩视频的每一I帧图像分别统计预测模式、残差DCT能量两个直方图信息。
预测模式直方图的生成:
对于H.264每个亮度块来说,16×16,4×4两种宏块类型共有13种预测模式,分别统计每一帧的预测模式直方图,记为HL[0,1,2......,12],并做归一化处理:
其中,k=0,1,2......,12,fi'j'代表第i'行第j'列4×4子块的预测模式,若fi'j'属于第k种模式,则modek(fi'j')=1,否则modek(fi'j')=0,h和w分别为图像在行和列方向的4×4子块个数。
残差DCT能量直方图的生成:
对于DCT系数的方差,我们将其均分为11个区间,并统计每一帧的直方图:
其中,i=0,1,2......,10,h和w分别为图像在行和列方向的4×4子块个数,pi'j'为第i'行第j'列4×4子块的残差DCT能量,当pi'j'<(i+1)*10时,f(pi'j')=1,否则f(pi'j')=0。
接着,为了得出视频的特征签名,需对一个包含m帧的视频作进一步的取均值处理:
最后,按照下式将两个直方图特征结合,得到长度为24的视频签名:
H=HLHDCT
步骤五、相似性度量
用夹角余弦的方法来衡量视频签名的相似性:
其中H1为查询视频,H2为视频库中的视频,k'=0,1,2.......,23S取值范围为[0,1],代表查询视频签名与库中视频签名的夹角的余弦值,S越接近1则表明相似度越高,越接近0则相似度越低。
步骤六、获取匹配视频:
将查询视频与库视频的相似性度S进行降序排列,获取前m个库视频为所需检索的视频。
如附图3所示,从视频库中选择一个视频作为查询,计算其特征直方图,并与视频库中的每一个视频进行相似性度量,取前5个视频作为检索结果。图3列出了部分视频的检索结果,其中最左边一列为查询视频,其余5列按相似性程度按相似度高低自左向右排列。从主观效果来看,检索的结果有效地选择了视频库中的同一类视频。
如表1、2所示,与现有的H.264压缩域的检索方法相比,本发明在相同的检索效果下大大降低了运算时间,提高了检索效率;与现有的视频签名方法相比,本发明的方法不仅降低了运算时间,提高了检索效率,同时检索效果也显著提高。
表1 查询结果的准确率列表以及MAP(mean average precision)值比较
现有的压缩域的检索方法 | 现有的视频签名算法 | 本发明 | |
Rank1 | 100% | 100% | 100% |
Rank2 | 100% | 85% | 100% |
Rank3 | 90% | 70% | 85% |
Rank4 | 80% | 35% | 80% |
Rank5 | 65% | 10% | 60% |
MAP | 0.87 | 0.62 | 0.86 |
表2 特征提取的时间的比较
Feature | 现有的压缩域的检索方法 | 现有的视频签名算法 | 本发明 |
时间(s) | 0.219 | 0.365 | 0.160 |
Claims (4)
1.一种基于内容的H.264压缩域视频检索方法,其特征在于,包括以下步骤:
步骤一、提取I帧预测模式:
分别对库视频与查询视频的H.264压缩码流中提取I帧每个亮度块的预测模式;
步骤二、提取残差DCT系数:
分别从库视频与查询视频的H.264压缩码流中提取I帧每个亮度块的残差DCT系数;
步骤三、生成残差DCT能量:
根据残差DCT系数分别计算库视频残差DCT系数的方差,即得到残差DCT能量;
步骤四、生成视频签名:
对库视频与查询视频的每一I帧图像分别统计预测模式、残差DCT能量两个直方图信息,并根据将两个直方图信息,得到视频签名;
步骤五、获取库视频与查询视频的相似性度S:
其中,H1为查询视频签名,H2为视频库视频签名,k'=0,1,2.......,23,S取值范围为[0,1],代表查询视频签名与库中视频签名的夹角余弦值;
步骤六、获取匹配视频:
将查询视频与库视频的相似性度S进行降序排列,获取前N个库视频为所需检索的视频,其中,N为正整数。
2.如权利要求1所述的一种基于内容的H.264压缩域视频检索方法,其特征在于:所述步骤四中预测模式直方图的生成过程具体为:
分别统计每一帧的13种预测模式直方图,记为HL[0,1,2......,12],并做归一化处理:
其中,k=0,1,2......,12,fi'j'代表第i'行第j'列4×4子块的预测模式,若fi'j'属于第k种模式,则modek(fi'j')=1,否则modek(fi'j')=0,h和w分别为图像在行和列方向的4×4子块个数。
3.如权利要求2所述的一种基于内容的H.264压缩域视频检索方法,其特征在于:所述步骤四中残差DCT能量直方图的生成具体过程为:
将DCT系数的方差均分为11个区间,并统计每一帧的直方图:
其中,i=0,1,2......,10,h和w分别为图像在行和列方向的4×4子块个数,pi'j'为第i'行第j'列4×4子块的残差DCT能量,当pi'j'<(i+1)*10时,f(pi'j')=1,否则f(pi'j')=0。
4.如权利要求3所述的一种基于内容的H.264压缩域视频检索方法,其特征在于:根据两个直方图信息,得到视频签名具体过程为:
4.1)、对包含m帧的视频作取均值处理:
4.2)、按照下式将两个直方图特征结合,得到长度为24的视频签名:
H=HLHDCT。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410663715.5A CN104683815B (zh) | 2014-11-19 | 2014-11-19 | 一种基于内容的h.264压缩域视频检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410663715.5A CN104683815B (zh) | 2014-11-19 | 2014-11-19 | 一种基于内容的h.264压缩域视频检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104683815A true CN104683815A (zh) | 2015-06-03 |
CN104683815B CN104683815B (zh) | 2017-12-15 |
Family
ID=53318296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410663715.5A Active CN104683815B (zh) | 2014-11-19 | 2014-11-19 | 一种基于内容的h.264压缩域视频检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104683815B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126619A (zh) * | 2016-06-20 | 2016-11-16 | 中山大学 | 一种基于视频内容的视频检索方法及系统 |
CN106777159A (zh) * | 2016-12-20 | 2017-05-31 | 西安交通大学 | 一种基于内容的视频片段检索及定位方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1089280A2 (en) * | 1999-07-08 | 2001-04-04 | Hyundai Electronics Industries Co., Ltd. | Method of indexing and searching moving picture data using a motion activity description method |
CN102301697A (zh) * | 2009-01-29 | 2011-12-28 | 日本电气株式会社 | 视频签名产生设备 |
-
2014
- 2014-11-19 CN CN201410663715.5A patent/CN104683815B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1089280A2 (en) * | 1999-07-08 | 2001-04-04 | Hyundai Electronics Industries Co., Ltd. | Method of indexing and searching moving picture data using a motion activity description method |
CN102301697A (zh) * | 2009-01-29 | 2011-12-28 | 日本电气株式会社 | 视频签名产生设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126619A (zh) * | 2016-06-20 | 2016-11-16 | 中山大学 | 一种基于视频内容的视频检索方法及系统 |
CN106777159A (zh) * | 2016-12-20 | 2017-05-31 | 西安交通大学 | 一种基于内容的视频片段检索及定位方法 |
CN106777159B (zh) * | 2016-12-20 | 2020-04-28 | 西安交通大学 | 一种基于内容的视频片段检索及定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104683815B (zh) | 2017-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | No-reference and robust image sharpness evaluation based on multiscale spatial and spectral features | |
Duan et al. | Compact descriptors for visual search | |
Yue et al. | Cloud-based image coding for mobile devices—Toward thousands to one compression | |
CN105933711B (zh) | 基于分割的邻域最优概率视频隐写分析方法及系统 | |
CN105049875A (zh) | 一种基于混合特征与突变检测的精确关键帧提取方法 | |
Duan et al. | Optimizing JPEG quantization table for low bit rate mobile visual search | |
CN104869421A (zh) | 基于全局运动估计的视频显著性检测方法 | |
CN101827268B (zh) | 一种基于对象的分形视频压缩与解压缩方法 | |
CN106777159B (zh) | 一种基于内容的视频片段检索及定位方法 | |
CN103020138A (zh) | 一种视频检索的方法和装置 | |
CN104809248A (zh) | 视频指纹提取及检索方法 | |
CN101860753B (zh) | 一种基于分形的视频压缩与解压缩方法 | |
CN104683815A (zh) | 一种基于内容的h.264压缩域视频检索方法 | |
Liu et al. | Key frame extraction from online video based on improved frame difference optimization | |
Liu et al. | Pchm-net: A new point cloud compression framework for both human vision and machine vision | |
Zong et al. | Key frame extraction based on dynamic color histogram and fast wavelet histogram | |
Mehrabi et al. | Fast content access and retrieval of JPEG compressed images | |
He et al. | Fast and accurate lane detection via frequency domain learning | |
CN104618723B (zh) | 一种基于运动矢量投影矩阵的h.264/avc压缩域视频匹配方法 | |
CN105335500B (zh) | 协变局部特征聚集的图像特征表示法 | |
CN102662955A (zh) | 一种基于分形图像编码的图像检索方法 | |
CN108712655A (zh) | 一种用于相似图像集合并的群体图像编码方法 | |
Wang et al. | Fractal image encoding with flexible classification sets | |
CN103647969A (zh) | 一种基于对象的快速分形视频压缩与解压缩方法 | |
Duan et al. | A natural image compression approach based on independent component analysis and visual saliency detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20190820 Address after: Room 11504, Qindi Yashi Building, 21 Beiguan Zhengjie, Lianhu District, Xi'an City, Shaanxi Province, 710014 Patentee after: Shaanxi Help You Electronic Technology Co., Ltd. Address before: Beilin District Xianning West Road 710049, Shaanxi city of Xi'an province No. 28 Co-patentee before: Shenzhen Research Institute, Beijing Institute of Technology Patentee before: Xi'an Jiaotong University |
|
TR01 | Transfer of patent right |