CN104683815A

CN104683815A - 一种基于内容的h.264压缩域视频检索方法

Info

Publication number: CN104683815A
Application number: CN201410663715.5A
Authority: CN
Inventors: 王萍; 种怡晨; 黄华
Original assignee: Shenzhen Research Institute Beijing Institute Of Technology; Xian Jiaotong University
Current assignee: Shaanxi Help You Electronic Technology Co., Ltd.
Priority date: 2014-11-19
Filing date: 2014-11-19
Publication date: 2015-06-03
Anticipated expiration: 2034-11-19
Also published as: CN104683815B

Abstract

本发明公开了一种基于内容的H.264压缩域视频检索方法，为了解决现有H.264压缩域视频检索中计算量大，以及检索准确率低的问题，本发明提出一种基于内容的H.264压缩域视频检索方法，属于视频处理领域。该方法针对H.264压缩视频，提出了直接从I帧编码码流中提取预测模式作为纹理特征，并结合残差DCT的能量直方图作为视频检索的特征签名，用夹角余弦的方法来衡量签名的相似性，有效地对H.264视频进行相似性检索。

Description

一种基于内容的H.264压缩域视频检索方法

技术领域

本发明涉及视频处理领域，尤其涉及一种基于内容的H.264压缩域视频检索方法。

背景技术

随着网络通信技术与多媒体技术的飞速发展，数字多媒体已广泛应用于教育、医学、公共信息、广告及娱乐等多个领域，众多的应用导致数字视频数量快速增加。如何对巨大的视频库进行有效的管理，对视频进行快速检索和查询，成为有效利用视频资源需解决的问题，而视频相似性分析是基于内容的视频检索的重要手段。

目前存储或传输视频多是以压缩形式出现，因此，研究压缩域的视频处理方法可以提高实时性与效率。由于具有比以往编码标准更出色的压缩性能，H.264已成为目前非常流行的编码标准。针对H.264压缩视频，如何充分利用其压缩域内信息提取表达视频内容的特征，并进行视频之间的相似性分析，具有重要理论意义和应用价值。

现有的视频相似性分析方面的工作已经有很多，近几年来已经提出了大量的CBR(基于内容的检索)算法。比如基于视频签名的视频相似性检索(LuBF,Can HB,Can Z.An efficient method for video similarity search with videosignature[C].International Conference on Computational and InformationSciences,2010,pp:713-716)和基于内容的快速视频检索(Cao Z,Zhu M.Anefficient video similarity search algorithm[J].IEEE Transactions onConsumerElectronics,2010,56(2):751-755)等。这两种方法在视频检索上取得了很好的效果，但需要对压缩码流全解码至像素域，并在像素域提取表征视频的特征，运算量及存储空间需求都很大。基于视频签名的视频相似性检索方法提取视频中每帧各像素的亮度Y和色度Cb、Cr信息，求均值后采用适当的权值组合来实现降维，最后将视频表示为一个特征签名：

s = 2 Σ_{i = 1}^{M} Σ_{j = 1}^{N} Y_{ij} / MN + Σ_{i = 1}^{M} Σ_{j = 1}^{N} {Cb}_{ij} / MN + 3 Σ_{i = 1}^{M} Σ_{j = 1}^{N} {Cr}_{ij} / MN

v_{m} = Σ_{i = 1}^{L} s_{i} / L

v_{d} = {[Σ_{i = 1}^{L} {(s_{i} - v_{m})}^{2} / L]}^{\frac{1}{2}}

其中M、N分别为图像的宽和高，s代表每帧图像的签名，L为视频帧数，(v_m,v_d)表示最终的视频签名。采用视频签名的方法提高了检索效率，但需在像素域提取每帧图像的亮度及色度信息，运算量很大。

随着H.264编码标准的普及，许多学者也对H.264压缩视频的相似性检索展开了各种研究。(Zargari F，Mehrabi M，Moin M S.Compressed domaintexture retrieval based on I-frame coding in H.264[C]Proc of Intern ationalConference on Multimedia and Expo.Beijing：IEEE，2007：831—834.)中统计I帧预测模式信息进行视频检索，这种方法仅利用了压缩域中的模式信息，检索效果一般。从压缩码流中提取DC-picture进行视频检索(Mehrabi M,Zargari F,Ghanbari M.Compressed domain content based retrieval using H.264DC-pictures[J],Multimedia Tools and Applications,2012)的方法在压缩域中模拟DCT反变换过程，提取DCT系数中的直流分量，生成低分辨率的DC-pictures，最后利用DC图像的颜色直方图特征进行相似性度量。以上方法结合了像素域的特点，检索效果比较理想，但是特征维数高，检索时间略长，计算量的减少有限。

发明内容

针对上述缺陷或不足，本发明提出一种基于内容的H.264压缩域视频检索方法。该方法针对H.264压缩视频，通过部分解码从I帧压缩码流中提取预测模式直方图，并结合残差DCT的能量直方图生成视频检索的特征签名，用夹角余弦的方法来衡量两视频签名间的相似性，有效地对H.264视频进行相似性检索。

为达到以上目的，本发明的技术方案为：

包括以下步骤：

步骤一、提取I帧预测模式：

分别对库视频与查询视频的H.264压缩码流中提取I帧每个亮度块的预测模式；

步骤二、提取残差DCT系数：

分别从库视频与查询视频的H.264压缩码流中提取I帧每个亮度块的残差DCT系数；

步骤三、生成残差DCT能量：

根据残差DCT系数分别计算库视频残差DCT系数的方差，得到残差DCT能量；

步骤四、生成视频签名：

对库视频与查询视频的每一I帧图像分别统计预测模式、残差DCT能量两个直方图信息，并根据将两个直方图信息，得到视频签名

步骤五、获取库视频与查询视频的相似性度S：

S = \frac{Σ_{k^{'} = 0}^{23} (H_{1} [k^{'}] \times H_{2} [k^{'}])}{\sqrt{(Σ_{k^{'} = 0}^{23} H_{1} {[k^{'}]}^{2}) \times (Σ_{k^{'} = 0}^{23} H_{2} {[k^{'}]}^{2})}}

其中，H₁为查询视频签名，H₂为视频库视频签名，k'＝0,1,2.......,23，S取值范围为[0,1]，代表查询视频签名与库中视频签名的夹角的余弦值，S越接近1则表明相似度越高，越接近0则相似度越低。

步骤六、获取匹配视频：

将查询视频与库视频的相似性度S进行降序排列，获取前m个库视频为所需检索的视频。

所述步骤四中预测模式直方图的生成过程具体为：

分别统计每一帧的13种预测模式直方图，记为HL[0,1,2......,12]，并做归一化处理：

H_{L} = [k] = (Σ_{i^{'} = 1}^{h} Σ_{j^{'} = 1}^{w} \mod e_{k} (f_{i^{'} j^{'}})) / (w \times h)

其中，k＝0,1,2......,12，f_i'j'代表第i'行第j'列4×4子块的预测模式，若f_i'j'属于第k种模式，则mode_k(f_i'j')＝1，否则mode_k(f_i'j')＝0，h和w分别为图像在行和列方向的4×4子块个数。

所述步骤四中残差DCT能量直方图的生成具体过程为：

将DCT系数的方差均分为11个区间，并统计每一帧的直方图：

H_{DCT} [i] = Σ_{i^{'} = 1}^{h} Σ_{j^{'} = 1}^{w} f (p_{i^{'} j^{'}})

其中，i＝0,1,2......,10，h和w分别为图像在行和列方向的4×4子块个数，p_i'j'为第i'行第j'列4×4子块的残差DCT能量，当p_i'j'<(i+1)*10时，f(p_i'j')＝1，否则f(p_i'j')＝0。

根据将两个直方图信息，得到视频签名具体过程为：

4.1)、对包含m帧的视频作取均值处理：

H_{L} [k] = Σ_{j = 1}^{m} H_{Lj} [k] / m

H_{DCT} [i] = Σ_{j = 1}^{m} H_{DCTj} [i] / m

4.2)、按照下式将两个直方图特征结合，得到长度为24的视频签名：

H＝H_LH_DCT

与现有技术比较，本发明的有益效果为：

(1)现有的H.264视频检索方法没有充分利用压缩域的信息，所以检索的效果并不是很理想，而本发明结合了I帧编码预测模式与残差DCT能量作为特征向量，使检索结果更加精确。

(2)为了解决基于像素域视频检索的计算量大，检索时间长的问题，本发明直接在压缩域中进行处理，提取压缩视频码流中的丰富的视频特征，不需要进行完全解码，降低了计算复杂度，提高了处理速度，也节省了解压缩的时间和解压后所需要的存储空间。

附图说明

图1是本发明H.264压缩域视频检索方法的流程图；

图2分别为16×16和4×4两种宏块类型的预测模式的方向，其中，(a)为为4×4宏块类型，(b)16×16宏块类型(a)为16×16宏块类型的预测模式方向，(b)为4×4宏块类型的预测模式方向；

图3是使用本发明的方法进行视频检索的结果。

具体实施方式

下面结合附图1对本发明方法的实施方式做详细说明。

一种基于内容的H.264压缩域视频检索方法，该方法首先对H.264压缩视频进行部分解码，提取I帧压缩码流中的预测模式信息以及残差DCT信息，经过对这两种信息的统计和处理，得到视频的特征签名，通过计算查询视频和视频库中视频的特征签名的相似度，从而检索到相似视频。具体流程图如附图1所示。

基于H.264压缩域的快速视频检索方法，其具体实现过程如下：

步骤一、提取I帧预测模式

从H.264压缩码流中提取I帧每个亮度块的预测模式：如果当前宏块采取4×4类型，则直接提取其预测模式信息；如果当前宏块采取16×16类型，则看作16个4×4子块的预测模式相同，如图2所示，其中，(a)为16×16宏块类型的预测模式方向，(b)为4×4宏块类型的预测模式方向。

步骤二、提取残差DCT系数

从H.264压缩码流中提取I帧每个亮度块的残差DCT系数。

步骤三、生成残差DCT能量

残差DCT系数的方差反映了图像中某个区域的唯一性，与图像边缘也有很大联系。当方差很小时，表明边缘方向和当前块的预测方向一致，若方差很大，则表明预测方向和边缘方向有一定的偏差。

残差DCT能量定义为残差DCT系数的方差σ²。在H.264中，帧内编码并不直接采用DCT变换来进行，而是采用N×N(N＝4)整数DCT变换，设每个4×4子块的亮度值为X＝x(i,j)(i,j＝0,1,2,3)，则X的期望为：

m_{k} = E (X^{k}) = \frac{1}{N^{2}} Σ_{i = 0}^{N - 1} Σ_{j = 0}^{N - 1} x^{k} (i, j), (k = 1)

X的方差为：

σ²＝E(X-EX)²＝m₂-m₁ ²

二维DCT变换的定义如下：

C (u, v) = \frac{2}{N} a (u) a (v) Σ_{i = 0}^{N - 1} Σ_{j = 0}^{N - 1} x (i, j) \times \cos (\frac{(2 i + 1) uπ}{2 N}) \cos (\frac{(2 j + 1) vπ}{2 N})

其中，u＝0时，其他情况下a(u)＝1，C(u,v)是DCT变换后(u,v)位置的残差DCT系数。

由以上式子可以推导出：

m_{1} = \frac{1}{N} C (0,0)

m_{2} = \frac{1}{N^{2}} Σ_{u = 0}^{N - 1} Σ_{v = 0}^{N - 1} C^{2} (u, v)

则由(7)、(8)两式可得出残差DCT系数的方差为：

σ^{2} = m_{2} - {m_{1}}^{2} = \frac{1}{N^{2}} Σ_{u = 0}^{N - 1} Σ_{v = 0}^{N - 1} C^{2} (u, v) |_{(u, v) &NotEqual; (0,0)}

即DCT变换域中除直流外所有交流系数平方和的平均值。

步骤四、生成视频签名

对于压缩视频的每一I帧图像分别统计预测模式、残差DCT能量两个直方图信息。

预测模式直方图的生成：

对于H.264每个亮度块来说，16×16,4×4两种宏块类型共有13种预测模式，分别统计每一帧的预测模式直方图，记为H_L[0,1,2......,12]，并做归一化处理：

H_{L} = [k] = (Σ_{i^{'} = 1}^{h} Σ_{j^{'} = 1}^{w} \mod e_{k} (f_{i^{'} j^{'}})) / (w \times h)

残差DCT能量直方图的生成：

对于DCT系数的方差，我们将其均分为11个区间，并统计每一帧的直方图：

H_{DCT} [i] = Σ_{i^{'} = 1}^{h} Σ_{j^{'} = 1}^{w} f (p_{i^{'} j^{'}})

接着，为了得出视频的特征签名，需对一个包含m帧的视频作进一步的取均值处理：

H_{L} [k] = Σ_{j = 1}^{m} H_{Lj} [k] / m

H_{DCT} [i] = Σ_{j = 1}^{m} H_{DCTj} [i] / m

最后，按照下式将两个直方图特征结合，得到长度为24的视频签名：

H＝H_LH_DCT

步骤五、相似性度量

用夹角余弦的方法来衡量视频签名的相似性：

S = \frac{Σ_{k^{'} = 0}^{23} (H_{1} [k^{'}] \times H_{2} [k^{'}])}{\sqrt{(Σ_{k^{'} = 0}^{23} H_{1} {[k^{'}]}^{2}) \times (Σ_{k^{'} = 0}^{23} H_{2} {[k^{'}]}^{2})}}

其中H₁为查询视频，H₂为视频库中的视频，k'＝0,1,2.......,23S取值范围为[0,1]，代表查询视频签名与库中视频签名的夹角的余弦值，S越接近1则表明相似度越高，越接近0则相似度越低。

步骤六、获取匹配视频：

如附图3所示，从视频库中选择一个视频作为查询，计算其特征直方图，并与视频库中的每一个视频进行相似性度量，取前5个视频作为检索结果。图3列出了部分视频的检索结果，其中最左边一列为查询视频，其余5列按相似性程度按相似度高低自左向右排列。从主观效果来看，检索的结果有效地选择了视频库中的同一类视频。

如表1、2所示，与现有的H.264压缩域的检索方法相比，本发明在相同的检索效果下大大降低了运算时间，提高了检索效率；与现有的视频签名方法相比，本发明的方法不仅降低了运算时间，提高了检索效率，同时检索效果也显著提高。

表1 查询结果的准确率列表以及MAP(mean average precision)值比较

	现有的压缩域的检索方法	现有的视频签名算法	本发明
				Rank1	100％	100％	100％
Rank2	100％	85％	100％
				Rank3	90％	70％	85％
Rank4	80％	35％	80％
				Rank5	65％	10％	60％
MAP	0.87	0.62	0.86

表2 特征提取的时间的比较

Feature	现有的压缩域的检索方法	现有的视频签名算法	本发明
				时间(s)	0.219	0.365	0.160

Claims

1.一种基于内容的H.264压缩域视频检索方法，其特征在于，包括以下步骤：

步骤一、提取I帧预测模式：

步骤二、提取残差DCT系数：

步骤三、生成残差DCT能量：

根据残差DCT系数分别计算库视频残差DCT系数的方差，即得到残差DCT能量；

步骤四、生成视频签名：

对库视频与查询视频的每一I帧图像分别统计预测模式、残差DCT能量两个直方图信息，并根据将两个直方图信息，得到视频签名；

步骤五、获取库视频与查询视频的相似性度S：

S = \frac{Σ_{k^{'} = 0}^{23} (H_{1} [k^{'}] \times H_{2} [k^{'}])}{\sqrt{(Σ_{k^{'} = 0}^{23} H_{1} {[k^{'}]}^{2}) \times (Σ_{k^{'} = 0}^{23} H_{2} {[k^{'}]}^{2})}}

其中，H₁为查询视频签名，H₂为视频库视频签名，k'＝0,1,2.......,23，S取值范围为[0,1]，代表查询视频签名与库中视频签名的夹角余弦值；

步骤六、获取匹配视频：

将查询视频与库视频的相似性度S进行降序排列，获取前N个库视频为所需检索的视频，其中，N为正整数。

2.如权利要求1所述的一种基于内容的H.264压缩域视频检索方法，其特征在于：所述步骤四中预测模式直方图的生成过程具体为：

分别统计每一帧的13种预测模式直方图，记为H_L[0,1,2......,12]，并做归一化处理：

H_{L} [k] = (Σ_{i^{'} = 1}^{h} Σ_{j^{'} = 1}^{w} \mod e_{k} (f_{i^{'} j^{'}})) / (w \times h)

3.如权利要求2所述的一种基于内容的H.264压缩域视频检索方法，其特征在于：所述步骤四中残差DCT能量直方图的生成具体过程为：

将DCT系数的方差均分为11个区间，并统计每一帧的直方图：

H_{DCT} [i] = Σ_{i^{'} = 1}^{h} Σ_{j^{'} = 1}^{w} f (p_{i^{'} j^{'}})

4.如权利要求3所述的一种基于内容的H.264压缩域视频检索方法，其特征在于：根据两个直方图信息，得到视频签名具体过程为：

4.1)、对包含m帧的视频作取均值处理：

H_{L} [k] = Σ_{j = 1}^{m} H_{Lj} [k] / m

H_{DCT} [i] = Σ_{j = 1}^{m} H_{DCTj} [i] / m;

H＝H_LH_DCT。