CN1224926C

CN1224926C - 压缩域体育视频定位标题文字的方法

Info

Publication number: CN1224926C
Application number: CN 02154399
Authority: CN
Inventors: 李豪杰; 张勇东; 林守勋
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2002-12-04
Filing date: 2002-12-04
Publication date: 2005-10-26
Anticipated expiration: 2022-12-04
Also published as: CN1504921A

Abstract

一种压缩域体育视频定位标题文字的方法，包括以下步骤：用8×8DCT块的高频系数能量检测出初步的文字区域；通过快速算法直接由8×8图像块的DCT系数得到其4个2×8子块的反映水平方向频率变化的高频DCT系数；由子块的高频系数的水平和垂直投影图将初检的文字区域分割成每块只含一行且水平方向相对独立的文字块；利用体育视频中文字的时间冗余特性过滤掉误检的文字块。本发明通过少量的运算在压缩域实现了文字的精确定位，具有很快的定位速度和较高的准确性，不仅可以用于体育视频，还可用于其他类视频如新闻视频中文字的定位。

Description

压缩域体育视频定位标题文字的方法

技术领域

本发明涉及一种在压缩域体育视频中定位标题文字的方法。

背景技术

在转播体育比赛时，一般都会在包含精彩镜头的片段中插入一些标题文字，这些文字是对视频内容的简单描述和说明，对于特定的运动，这些文字的数目和排列位置都具有一定的语义信息。如在足球比赛中，当出现射门动作时，会在屏幕上打出射门球员的号码、姓名、所属对别、比赛时间等；又如在跳水比赛中，在运动员跳水之前和出水之后也会打出一些相关信息。因此，快速的检测和定位到这些文字可以作为检测精彩镜头、提取视频内容的第一步。

视频中的文字定位一般有两类方法：非压缩域的方法和压缩域的方法。非压缩域的方法的优点是定位准确，错误率低，但是因为要对压缩视频进行完全的解码，所以运算量大，速度慢；而传统的压缩域的方法检测速度快，但是定位不准确，只能检测出成片的文字区域，而且错误率较高。

发明内容

本发明的目的是提供一种为了快速定位出体育比赛视频中的标题文字，为提取视频中的精彩片断和建立视频的语义索引提供一种快速的方法。

为实现上述目的，一种压缩域体育视频定位标题文字的方法，包括以下步骤：

用8×8DCT块的高频系数能量检测出初步的文字区域；

通过快速算法直接由8×8图像块的DCT系数得到其4个2×8子块的反映水平方向灰度变化的高频DCT系数；

由子块的高频系数的水平和垂直投影图将初检的文字区域分割成每块只含一行且水平方向相对独立的文字块；

利用体育视频中文字的时间冗余特性过滤掉误检的文字块，

其中，所述初步文字区域的检测包括下列步骤：

计算视频流中I帧的每个8×8DCT块的水平、垂直、倾斜方向的高频系数的绝对值之和，并与设定的阈值比较，若大于阈值，则认为此块是文字，否则为非文字；

包含每个文字区域的最小矩形记为初检的文字区域。

本发明针对体育视频中文字的特点，通过少量的运算在压缩域实现了文字的精确定位。本发明具有很快的定位速度和较高的准确性，不仅可以用于体育视频，还可用于其他类视频如新闻视频中文字的定位。

附图说明

图1是本发明的流程示意图。

图2是将8×8的图像块分为4个2×8的子块的示意图。

图3是直接由8×8的图像块的DCT矩阵得到4个2×8的子块的部分高频DCT系数的变换矩阵。

具体实施方式

本发明基于针对体育视频中文字的如下特点：

文字是有一定的尺寸界定的；

一行文字总是由一串水平方向排列的字符组成的，行间间隔超过3行像素；

文字通常与其背景有较大的灰度反差；

文字区域包含有丰富的拐角与边缘；

文字的显示时间一般超过4秒以上。

本发明在压缩域下定位文字，利用了以下两点：[1]图像DCT变换系数的特点。一个8×8的图像块经过DCT变换后得到的64个变换系数，反映了图像在频率域的局部特征。每个DCT系数F_uv都是块中所有像素值的线性组合，其中u代表水平频率，v代表垂直频率，F₀₀代表直流分量DC，其余的系数代表交流分量AC，DC反映了原图像块的平均灰度，而AC则反映了在某一方向上的灰度值变化及其变化率，其中第一行系数(除DC外)反映了水平方向频率，第一列(除DC外)反映了垂直方向频率，对角线上的系数反映了斜向能量。[2]文字区域的特点。文字区域一般包含有丰富的拐角与边缘，而且通常文字与其背景有较大的对比度，反映在频率域即压缩域，表现为其高频系数含有较高的能量，而非文字区的高频系数大部分为零或很小，因此利用高频系数便可以将文字区域和非文字区域分割开来。

文字区域的初步检测。视频流经过可变字长解码和反量化，得到I帧的DCT系数，对于每个8×8DCT块，计算其水平、垂直和对角方向的高频能量，其中

水平能量：

E_{h} = \underset{v 1 \leq v \leq v 2}{Σ} | F_{0 v} |, (v 1 = 4, v 2 = 6)

垂直能量：

E_{v} = \underset{u 1 \leq u \leq u 2}{Σ} | F_{u 0} |, (u 1 = 3, u 2 = 6)

斜向能量：E_D＝|F₄₄|+F₄₅|+|F₅₄|+|F₅₅|

总的能量值E＝E_h+E_v+E_D，通过实验确定出能量阈值E_Thresh1，若某块的能量E＞E_Thresh1，则认为该块是文字，否则视为非文字；同时文字的水平能量和垂直能量应满足一定的约束关系：

m \leq \frac{E_{h}}{E_{v}} \leq M .

为每一个含有文字的帧图像建立一个二值映射图，其大小为帧图像的1/64，每一点对应帧图像的一个8×8块，某点为1说明对应块为文字，为0说明是非文字；初步检测出的映射图中含有一些孤立块和拐角，需要消除这些孤立块和孤立的拐角，并且把间隔1～2个空白块的邻接块连接起来；下一步，对于检测出的每一块文字集中的区域用一个最小的外接矩形框起来，得到初步检测的文字区。

文字块的精确定位。初步检测的文字区中可能包含有多行文字，或者包含有一些非文字区域，因此，有必要进一步细化，从中分离出每一个文字行块(仅含一行的文字块)，以便挖掘它们的语义信息。但是在压缩域8×8的粒度上是很难进行细化的，除非行与行之间的间隔大于8，否则是无法提取文字行的。因此，以往压缩域文字检测方法只是检测出成片的文字区域而没有分离出其中的行。

为了分离出文字行，可以将检测的文字区变换到空间域，采用空间域的方法进行行的分割，但这样做的缺点是需要进行完全的逆DCT变换，运算量大，不能满足实时要求。本发明以较少的计算量完成了文字行的分割，效果令人满意。

将一个8×8的图像块分成4个2×8子块，每个子块包含2行(如图2所示)，如果某一子块是文字的一部分，则反映其水平方向变化频率的高频DCT系数能量必然较大，否则，必为0或很小，因此通过子块的高频DCT系数能量的水平和垂直投影图便可将文字区分割开来。本发明包含了得到子块高频DCT系数的快速算法。

设X为8×8的图像块，DCT(X)为其DCT系数矩阵，Y₁为仅含X的前2行像素的8×8块(其余元素为0，如图2)，DCT(Y₁)为Y₁的DCT系数矩阵，在此我们只需得到DCT(Y₁)的2个值：F₀₃和F₀₄。由X得到Y₁可以看作是：Y₁＝XH₁，其中H₁是一个8×8滤波器矩阵，其对角线上前2个元素是1，其余元素全为0，设T是8×8的DCT变换矩阵，则TT^t＝T^tT＝I，其中T^t代表T的转置，于是有

DCT(Y₁)＝DCT(H₁X)＝T(H₁X)T^t＝TH₁TT^tXT^t＝DCT(H₁)DCT(X)

而H₁是已知的，因此矩阵DCT(H₁)可以预先计算出来，又我们只需要DCT(Y₁)的第一行的2个值F₀₃和F₀₄，所以对于DCT(H₁)只需保存其第一行元素即可。因此要得到1个子块的2个系数需要16次乘法和16次加法，要得到4个子块的共8个系数则需要64次乘法和64次加法，相对于对1个8×8块做逆DCT变换(176次乘法，632次加法)，运算量减少了2/3。

通过以下的分析可以进一步降低运算量。利用上面的方法可以得到仅含X的第3，4行像素的8×8块Y₂和相应的H₂，仅含X的第5，6行像素的8×8块Y₃和相应的H₃，仅含X的第7，8行像素的8×8块Y₄和相应的H₄(如图4)。为了计算的方便，将H₁、H₂、H₃、H₄中的1替换成128，设H为由DCT(H_i)，(i＝1～4)的第一行元素构成的矩阵，则经过计算后得到变换矩阵H(如图3所示)。

很明显，矩阵H的行元素具有对称关系，且有1列元素为0，因此乘法的次数可以减少到22次，考虑到移位运算的高效性，我们用左移5为代替乘32，左移4为代替乘17，左移2为代替乘4，最终将乘法的次数降到了14次，仅为逆DCT运算的1/12(实际试验结果为1/11)。

为要分割的帧图像建立一个映射图，映射图的每一点代表帧图像的1个2×8子块，其值对应着子块的能量E_subblock：若E_subblock＝|F₀₃|+|F₀₄|≤E_Thresh1，则该点取值为0，若E_subblock≥E_Thresh2则取值为E_Thresh2，否则取值为E_subblock。对映射图中的每一个文字区域进行水平投影，利用投影值进行行的分割，从上往下，若连续两行像素的投影值大于Th_h(Th_h取文字区域中所有投影值的均值的1/2)，则视为文字行的开始，若连续两行像素的投影值小于Th_h，则视为文字行的结束，如此，直至行分割完毕。对得到的行进行垂直方向投影，利用相似的方法将每一行中相对独立的块分开。在分割的同时，应用了一些约束来消除误检块，这些约束有：文字行的高度＞minText_Height，文字块的宽度/文字块的高度＞ratio_WidthHeight，同时还对相邻的块进行了合并。用一个最小的外接矩形将每个文字块框起来，得到初步定位的文字块。

体育视频中嵌入的文字是为了注解特定的事件或场景，必须停留足够的时间以便让人眼观察清楚，即体育视频文字具有时间域的冗余性，利用这一点，可以消除一部分误检文字块，若某一文字块在连续的3个I帧上都存在，则认为是真正的文字块，否则，便认为是虚假文字块；同样，对于已经检测到的真文字块，只有在连续的2个I帧中都不出现时，才认为是消失了。这一特点能有效的降低误检率。最后得到正确定位的文字块。

Claims

1.一种压缩域体育视频定位标题文字的方法，包括下列步骤：

用8×8DCT块的高频系数能量检测出初步的文字区域；

利用体育视频中文字的时间冗余特性过滤掉误检的文字块，

其中，所述初步文字区域的检测包括下列步骤：

包含每个文字区域的最小矩形记为初检的文字区域。

2.如权利要求1的所述方法，其特征在于所述直接由8×8图像块的DCT系数得到其4个2×8子块的反映水平方向灰度变化的高频DCT系数包括下列步骤：

首先将8×8的图像块分成4个2×8的子块，得到4个变换矩阵；

分别计算它们的DCT系数矩阵，取每个DCT系数矩阵的第一行形成新的系数矩阵；

利用新的系数矩阵的对称性，并用左移位代替一部分乘法，减少乘法运算次数，得到每个2×8的子块的两个高频DCT系数F₀₃、F₀₄。

3.如权利要求2所述的方法，其特征在于所述的分割文字区域的步骤为：

建立2×8的子块的高频系数能量的水平和垂直投影图；

利用水平投影图将文字区域分割成行；

利用垂直投影图将文字行分割成相对独立的块；

重复以上分割，直到无法分割为止；

合并相邻的文字块；

用包含每个文字块的最小矩形框定文字块。

4.如权利要求3所述的方法，其特征在于所述水平和垂直投影图的建立步骤为：

对每个初步检测含有文字的I帧图像，建立一个映射图，其中的一个点代表一个2×8的子块；

计算每个子块的高频系数能量E＝|F₀₃|+|F₀₄|；若E＜阈值1，则映射图的对应点为0；

若E＞阈值2，则映射图的对应点为阈值2；否则，映射图的对应点为E；

对映射图进行水平方向即沿X轴方向投影，建立水平投影图；

沿Y轴方向投影，建立垂直投影图。

5.如权利要求1所述的方法，其特征在于所述利用体育视频中文字的时间冗余特性过滤掉误检的文字块包括下列步骤：

对定位的每个文字块进行跟踪，若连续三个I帧都出现，则认为是真正的文字块，否则作为虚假文字块过滤掉；

对确定为文字的每个块进行跟踪，只有连续超过两个I帧都消失，才认为是真正的消失了，否则认为没有消失。