CN101527800A

CN101527800A - 一种获取基于h.264/avc压缩视频字幕的方法

Info

Publication number: CN101527800A
Application number: CN200910021769A
Authority: CN
Inventors: 钱学明; 刘贵忠; 李智; 王喆; 孙力; 南楠; 王琛; 汪欢
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2009-03-31
Filing date: 2009-03-31
Publication date: 2009-09-09
Anticipated expiration: 2029-03-31
Also published as: CN101527800B

Abstract

本发明公开了一种获取基于H.264/AVC压缩视频字幕的方法，包括如下步骤：执行步骤10“H.264/AVC码流解析”，从H.264/AVC压缩视频数据流中解码I帧的亮度分量图像部分解码AC系数；然后执行步骤20“熵解码与反量化”，将步骤10获得的AC系数进行熵解码和反量化以得到每个4×4和8×8块的DCT变换的AC系数；接着执行步骤30“基于块的纹理描述”，对步骤20所获得的AC系数分别对4×4和8×8块进行纹理描述；接着，执行步骤40“字幕块粗检测”，在对I帧中所有块进行纹理描述基础上，初步确认每个块是属于字幕块还是背景块；最后，执行步骤50“字幕条定位”，在字幕块粗检测所得出的模板TMAP获取的基础上进行字幕条的定位：重复步骤10～50，直到视频流结束位置，则执行步骤60“字幕检测结束”。

Description

一种获取基于H.264/AVC压缩视频字幕的方法

技术领域

本发明涉及应用电子技术领域，尤其涉及一种获取基于H.264/AVC压缩视频字幕的方法。

背景技术

视频字幕和视频节目内容密切相关，能够有效地辅助人们在视频欣赏中很好地把握节目的主题思想，进而理解视频的内容。视频字幕信息的检测和识别可以丰富基于文本的视频内容查询。因此对视频字幕信息进行有效的获取是一个必要的环节。由于视频数量巨大，一般在视频存储、传播过程中都要进行压缩，H.264/AVC是迄今最有效的视频压缩方法。在许多场合有重要的应用。

现有技术中，中国专利ZL02801652.1公开了一种“在视频信号中检测字幕”的技术方案，该方案的优点是计算的复杂度不是很高，但是其在技术实现上是假设字幕位置是固定在图像的中下部分，因此，该技术不能很多好地实现对视频节目中存在满屏幕字幕况以及位置不固定的情况下，字幕信息的高效检测及获取；如果字幕信息不在所制定的检测范围内，则字幕信息不能被很好地获取以及应用。

发明人在实现本发明过程中发现，现有技术中还存在一种技术方案，即字幕的检测是基于像素域的信息来进行检测的，但对于H.264/AVC压缩视频，其首先要进行解码，然后再进行检测，因此计算复杂度很高。

发明内容

本发明的目的是提供一种基于H.264/AVC压缩视频字幕的获取方法，从而在不限制字幕位置区域和对视频流完全解码的情况下，准确获取视频数据中的字幕信息。

为达到以上目的，本发明是采用如下技术方案予以实现的：

一种获取基于H.264/AVC压缩视频字幕的方法，其特征是，包括如下执行步骤：首先执行步骤10“H.264/AVC码流解析”，从H.264/AVC压缩视频数据流中解码I帧的亮度分量图像部分解码AC系数；然后执行步骤20“熵解码与反量化”，将步骤10获得的AC系数进行熵解码和反量化以得到每个4×4和8×8块的DCT变换的AC系数；接着执行步骤30“基于块的纹理描述”，对步骤20所获得的AC系数分别对4×4和8×8块进行纹理描述；接下来，执行步骤40“字幕块粗检测”，在对I帧中所有块进行纹理描述基础上，初步确认每个块是属于字幕块还是背景块；最后，执行步骤50“字幕条定位”，在字幕块粗检测所得出的模板TMAP获取的基础上进行字幕条的定位：重复步骤10～50，直到视频流结束位置，则执行步骤60“字幕检测结束”。

上述方案中，步骤10所述从H.264/AVC压缩视频数据流中解码I帧的亮度分量图像部分解码AC系数，对于P帧、B帧码流直接跳过，并且对I帧的色度分量的AC系数也直接跳过不进行解码；包括如下基本判断单元：

执行码流结束判断单元110，判断所解析的码流是否是结束，如果是码流结束标志则直接跳至步骤60结束字幕检测；否则执行单元120进行是否为I帧的头信息判断；

在单元120中所判断的头信息中，如果不是I帧头信息，则直接跳过并继续执行单元110和120，直到获得I帧头信息为止；如果为I帧的头信息，则执行该I帧图像的亮度分量AC系数判断单元130；

在单元130所判断的码流信息中，如果码流不属于亮度分量的AC系数则直接跳过步骤20～50，重复执行单元130，如果是I帧的亮度分量的AC系数则执行步骤20～50。

在步骤30中，所述纹理描述采用对N×N(N＝4，8)块的所有AC系数求绝对和的形式来进行计算。

在步骤40中，所述初步确认每个块是属于字幕块还是背景块采用一种与量化参数q自适应的阈值选取方法。

在步骤50中，所述在字幕块粗检测所得出的模板TMAP获取的基础上进行字幕条的定位是按如下所述的步骤来实现的：

1)基于形态学的字幕区域确认；

2)基于字幕块投影的字幕条定位方法。

由本发明所提供的技术方案可以看出，本发明通过对H.264/AVC压缩视频流中I帧的亮度分量图像部分解码AC系数进行的字幕检测，从而在不限制字幕位置区域和对视频流完全解码的情况下，准确获取视频数据中的字幕信息。

附图说明

图1为本发明方法的流程框图。

图2为图1中的步骤10的具体流程框图。

具体实施方式

以下结合附图及实施例对本发明做进一步的详细说明。

如附图1所示，一种基于H.264/AVC压缩视频字幕信息的获取方法，包括：

步骤10，H.264/AVC码流解析。

为了加快获取字幕信息的速度，本发明实施例具体可以从H.264/AVC压缩视频数据流中解码I帧的亮度分量图像部分解码AC系数。对于P帧，B帧码流直接跳过，并且对I帧的色度分量的AC系数也直接跳过不进行解码。其中包括如图2所示的基本判断单元：

执行码流结束判断单元110，判断所解析的码流是否是结束，如果是码流结束标志则直接跳至单元60结束字幕检测；否则执行单元120进行是否为I帧的头信息判断。

步骤20，AC系数的熵解码和反量化。是将步骤10中获得的AC系数进行熵解码和反量化以得到每个4×4和8×8块的DCT变换的AC系数；

步骤30，对步骤20中所获得的AC系数分别对4×4和8×8块进行纹理描述，在纹理描述中本发明中采用对N×N(N＝4，8)块的所有AC系数求绝对和的形式来进行计算，计算方法如下式子所示：

{Tcoef}^{N} (p, o) = \underset{\underset{u + v &NotEqual; 0}{0 \leq u, v \leq N - 1}}{Σ} | {Coef}^{N} (u, v) |

其中Coef^N(u，v)(0≤u，v≤N-1)表示N×N(N＝4，8)块的DCT系数，(p，o)表示块的坐标位置。

步骤40，进行字幕块粗检测。在对I帧中所有块进行纹理描述基础上，来初步确认每个块是属于字幕块还是非字幕块(背景块)。在字幕块粗检测中为了使方法适合后续字幕确认和字幕条定位，本发明中将块大小归结到4×4。判断一个进行4×4的DCT的块(i，j)是否属于字幕块的方法是

TMAP (i, j) = \{\begin{matrix} 1, & {Tcoef}^{4} (i, j) &GreaterEqual; {Tcoef}_{th}^{4} (q) \\ 0, & others \end{matrix}

判断8×8的块是否属于字幕块的方法是如果该块(s，t)的纹理值大于一个自适应确定的阈值，则其相对应的四个4×4块都设置成字幕块，判断方法如下：

TMAP (h (s), w (t)) = \{\begin{matrix} 1, & {Tcoef}^{8} (s, t) &GreaterEqual; {Tcoef}_{th}^{8} (q) \\ 0, & others \end{matrix}, s, t = 0,1,2,3

其中Tcoef_th ⁴(q)和Tcoef_th ⁸(q)分别表示对4×4，8×8块是否为字幕的自适应的纹理阈值，其中q表示量化该块所用的量化参数，该阈值的选择是按照如下的准则予以实现

{Tcoef}_{th}^{4} (q) = μ_{N} (α) + β_{N} (q) \times T_{N}, (N = 4,8)

其中T_N表示对N×N大小的DCT变换块所设定的阈值(本发明中T₄可选择的范围是[500，4000]，建议使用T₄＝2000，T₈可选择的范围是[1000，8000]，建议使用T₈＝4000)，μ_N(α)表示I帧中N×N块DCT中纹理最大的α*100％块的纹理均值；β_N(q)是一个与量化参数q相关的比例系数。因此，本发明在进行H.264/AVC压缩视频字幕检测时可以根据量化参数q自适应的确定阈值Tcoef_th ⁴(q)和Tcoef_th ⁸(q)。

在本发明中a的取值范围可以是[0.1，0.5]，本发明中建议使用a＝0.2；β_N(q)是通过大量统计不同类型的视频中的I帧在不同的量化参数q的情况下，I帧中4×4和8×8块DCT纹理属于最大的α*100％的那些块的纹理均值。本发明中将β_N(q)|_q＝25＝1，然后在其它q下的值是通过比较得到

β_{N} (q) = \frac{\overset{&OverBar;}{μ_{N} (α) |_{q}}}{\overset{&OverBar;}{μ_{N} (α) |_{q = 25}}} \times β_{N} (q) |_{q = 25}

为了自适应的获得任意给定q下β_N(q)的值，本发明中对5个视频序列中I帧的μ_N(α)|_q的均值在不同的量化参数q＝5，10，15，20，25，30，35，40，45，50，55的值；然后对这11个点(μ_N(α)|_q，q)采用曲线拟合的方法得到任意给定q下的μ_N(α)|_q，然后通过上面的式子获得在任意给定q下的比例系数β_N(q)。通过自适应的子块块粗检测，可以获得一个I帧中相应的字幕模板TMAP。

步骤50，进行字幕条定位。在字幕块粗检测所得出的模板TMAP获取的基础上执行如下所述的步骤来进行字幕条的定位，

1)基于形态学的字幕区域确认；

这里首先对TMAP进行算子为rxr(r＝3)的闭运算，并记录其结果为CMAP。然后对CMAP进行一个1×m(m＝5)的开运算得到OMAP。并根据开运算的结果对OMAP中每个连通域中的字幕块进行统计，并对字幕块数小于40的作为噪声予以剔除。

2)基于字幕块投影的字幕条定位方法。在步骤1)的基础上对每个连通的字幕区域确定其在高度方向的起始V_T(i)和终止位置V_B(i)i＝1，...，M；

然后，对OMAP和TMAP在属于V_T(i)-k和V_B(i)+k区域进行向Y轴方向的投影(k＝2)，分别得到相应的投影曲线OP(t)和TP(t)。

OP (t) = \{\begin{matrix} Σ_{s = 0}^{Wb} OMAP (s, t) & t &Element; [V_{T} (i) - k, V_{B} (i) + k] \\ 0 & others \end{matrix}

TP (t) = \{\begin{matrix} Σ_{s = 0}^{Wb} TMAP (s, t) & t &Element; [V_{T} (i) - k, V_{B} (i) + k] \\ 0 & others \end{matrix}

结合OP(t)和TP(t)可以得到相应的字幕条区域的方法如下：

其中N_th为一个设置的阈值，本发明中选用N_th＝5；通过上式得出一条字幕的高度方向的起始位置和终止位置，并且可以对字幕条进行分离并得到字幕条分离后的模板FMAP。该模板的获得方法如下：

FMAP(s，t)＝CTL(s，t)&CMAP(s，t)；s＝1，...，Wb；t＝Ts，...，Te；

根据FMAP可以确定字幕条在宽度方向上的起始和终止位置的方法是首先对FMAP采用一个1＊11的算子进行形态学闭运算，然后对闭运算后的区域采用的方法求该字幕条的在宽度方向上的起始位置SsP和终止位置SeP。

\{\begin{matrix} SeP = \max_{t} {Se (t)} \\ SsP = \min_{t} {Se (t)} \end{matrix}, t = Ts, \cdot \cdot \cdot, Te

通过上述步骤，可以得出I帧中一条字幕在模板图中的上下左右位置为(Ts，Te，SsP，SeP)，根据模板图和原始图的关系可以确定其在像素域中的对应位置为(Ts＊4-4，Te＊4，SsP＊4-4，SeP＊4)。

重复上述步骤10～50，直到视频流结束位置，则结束字幕检测。

由上述本发明实施例提供的技术方案可以看出，本发明实施例中，通过对H.264/AVC压缩视频流中I帧的亮度分量图像部分解码AC系数进行的字幕检测。从而在不限制字幕位置区域和对视频流完全解码的情况下，准确获取视频数据中的字幕信息。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施，但很多情况下前者是更佳的实施方式。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1、一种获取基于H.264/AVC压缩视频字幕的方法，其特征是，包括如下执行步骤：首先执行步骤10“H.264/AVC码流解析”，从H.264/AVC压缩视频数据流中解码I帧的亮度分量图像部分解码AC系数；然后执行步骤20“熵解码与反量化”，将步骤10获得的AC系数进行熵解码和反量化以得到每个4×4和8×8块的DCT变换的AC系数；接着执行步骤30“基于块的纹理描述”，对步骤20所获得的AC系数分别对4×4和8×8块进行纹理描述；接下来，执行步骤40“字幕块粗检测”，在对I帧中所有块进行纹理描述基础上，初步确认每个块是属于字幕块还是背景块；最后，执行步骤50“字幕条定位”，在字幕块粗检测所得出的模板TMAP获取的基础上进行字幕条的定位：重复步骤10～50，直到视频流结束位置，则执行步骤60“字幕检测结束”。

2、如权利要求1所述的获取基于H.264/AVC压缩视频字幕的方法，其特征是，步骤10所述从H.264/AVC压缩视频数据流中解码I帧的亮度分量图像部分解码AC系数，包括如下基本判断单元：

在单元130所判断的码流信息中，如果码流不属于亮度分量的AC系数则直接跳过步骤20～50，重复执行单元130，如果是I帧的亮度分量的AC系数则执行步骤20～50；

对于P帧、B帧码流直接跳过，并且对I帧的色度分量的AC系数也直接跳过不进行解码。

3、如权利要求1所述的获取基于H.264/AVC压缩视频字幕的方法，其特征是，在步骤30中，所述纹理描述采用对N×N(N＝4，8)块的所有AC系数求绝对和的形式来进行计算。

4、如权利要求1所述的获取基于H.264/AVC压缩视频字幕的方法，其特征是，在步骤40中，所述初步确认每个块是属于字幕块还是背景块采用一种与量化参数q自适应的阈值选取方法。

5、如权利要求1所述的获取基于H.264/AVC压缩视频字幕的方法，其特征是，在步骤50中，所述在字幕块粗检测所得出的模板TMAP获取的基础上进行字幕条的定位是按如下所述的步骤来实现的：

1)基于形态学的字幕区域确认；

2)基于字幕块投影的字幕条定位方法。