CN101448100A

CN101448100A - 一种快速准确的视频字幕提取方法

Info

Publication number: CN101448100A
Application number: CNA2008102365033A
Authority: CN
Inventors: 刘贵忠; 李智; 钱学明; 姜龙
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2008-12-26
Filing date: 2008-12-26
Publication date: 2009-06-03
Anticipated expiration: 2028-12-26
Also published as: CN101448100B

Abstract

本发明公开一种快速准确的视频字幕提取方法，本发明的流程为：抽取视频关键帧亮度图像，纹理投影定位字幕条，确定字幕条起始帧和终止帧，以及提取文字。通过小波变换提取视频关键帧亮度图像的纹理图，利用纹理图投影方法来定位关键帧图像中字幕条的位置；利用字幕点匹配方法来判断两帧是否存在同一条字幕，并快速地确定字幕条在视频中的起始帧和终止帧，这样只调用一次定位，便可以确定字幕条的所有持续帧，用来提高字幕提取速度；用纹理去噪方法提取字幕条中的文字。

Description

一种快速准确的视频字幕提取方法

技术领域

本发明涉及多媒体视频分析领域，尤其涉及一种快速而准确的视频信号中字幕的提取方法。

背景技术

随着通信技术的迅速发展和多媒体视频资源以爆炸性速度的增加，产生了视频分析，视频检索，视频管理等技术。如何有效地对这些视频资源的内容进行描述，成为一个挑战性的研究课题。

视频的字幕信息直接地描述视频中的目标物和故事内容，使人能够更直观的来理解和欣赏视频的内容，因此是一种直接而有效的描述视频内容的特征。同时，字幕又提供了非常视频中很多重要信息，例如，人名，场景，日期，时间，比赛分数，节目介绍等等。现阶段，基于视频字幕的分析方法，比基于音频和图像内容的分析方法更加准确，因为字幕识别OCR系统比语音和图像内容识别系统更加可靠。视频的字幕信息可被广泛的应用于基于内容的视频分析等方面，例如图像搜索，视频字幕区域增强，视频的高级特征提取，视频检索等方面。因此，对视频字幕进行有效的提取是一个必要的环节。为了能够达到实时的处理要求，视频字幕提取的速度和检测性能都是非常重要的。

视频字幕的准确提取是一个难点，主要原因有以下几点：在不同视频中字幕大小，字体，颜色，和分布都是不一致的；字幕是嵌在视频场景中的，视频场景的不同也造成了字幕检测的难易程序，例如，字幕与场景的低对比度和纹理丰富场景中的字幕提取，是非常困难的；字幕是理解视频内容的一个辅助信息，所以一般情况下，字幕的分辨率会很低。

现阶段，视频中字幕区域的检测的方法，分为两大类，利用单帧的检测和利用多帧的检测。利用单帧的检测主要有：基于连通域的方法，基于边缘的方法，基于纹理的方法；基于多帧的检测主要有：多帧平均的方法。

基于连通域的方法是利用同一条字幕区域具有相近的颜色和大小等信息，将视频帧图像分割成许多小的连通域，然后再合并这些小的连通域形成一个大的连通域，例如文章“Q.Ye，Q.Huang，W.Gao，and D.Zhao，“Fast androbust text detection in images and video frames，”Image and Vision Computing，vol.23，pp.565-576，2005”。

基于边缘的方法是利用了字幕区域的边缘比较丰富，而背景区域的边缘相对简单，主要是利用边缘算子提取边缘，然后进行形态学滤波，将字幕区域确定出来，例如文章“C.W.Ngo and C.K.Chan，“Video text detection andsegmentation for optical character recognition，”Multimedia Systems，vol.10，no.3，pp.261-272，Mar，2005”。

基于纹理的方法是利用字幕区域具有特殊的纹理，主要是利用小波变换，Gabor变换，傅立叶变换等方法得到图像的纹理图，利用SVM分类器，K-means聚类，神经网络等方法将字幕区域和背景区域相区别。例如文章“D.Chen，J.Odobez，and H.Bourlard，“Text detection and recognition in images andvideo frames，”Pattern Recognition，vol.37，pp.595-607，2003”。

多帧平均的方法是利用多帧图像求平均图的方法来消失背景对字幕提取时带来的影响，例如文章“R.Wang，W.Jin，and L.Wu，“A novel video captiondetection approach using multi-frame integration，”International Conference onPattern Recognition，pp.449-452，2004”。

在专利ZL02801652.1中公开了《一种基于图像区域复杂度的字幕检测方法》，其在技术实现上是假设字幕区域是静止的，而且位置也是图像的中下部分。在专利ZL03123473.9中公开了《一种利用字幕位置等信息进行字幕提取的方法》并将提取的结果来有效使用以辅助残障者，但是该技术的一个局限性在于字幕出现在画面中的位置信息敏感，如果有用的信息不在所制定的检测范围内，则不能很好地应用。

现有技术至少存在以下缺陷：视频提取的速度和性能上不能兼优。

发明内容

本发明的目的在于克服上述现有技术不足，提出一种视频字幕提取方法，该方法能够提高视频字幕提取的准确率和速度。

本发明的技术方案是这样实现的：包括以下步骤：

首先，抽取视频中关键帧的亮度图像；

接着，对当前关键帧的亮度图像来定位字幕条位置：首先采样关键帧的亮度图像，生成纹理图；接着确定水平字幕条的位置：先进行垂直纹理图水平投影求差分，然后确定水平字幕条上下边框，再确定水平字幕条左右边框；接着确定垂直字幕条的位置：先进行水平纹理图垂直投影求差分，然后确定垂直字幕条左右边框，再确定垂直字幕条上下边框；最后进行字幕条去噪，确定字幕条位置；

然后，确定字幕条起始帧和终止帧：首先，判断当前关键帧是否有字幕：如果没有字幕，则继续进行下一个关键帧的字幕条定位，直到有字幕条出现；如果出现字幕条，设当前关键帧为字幕条关键帧，则在前一个关键帧和字幕条关键帧之间确定字幕条的起始帧，然后用字幕条关键帧的字幕条区域依次匹配后面的关键帧，如果匹配一致，将继续匹配，直到匹配不一致，则在前一个关键帧和当前关键帧确定字幕条的终止帧；

最后，利用纹理去噪方法提取视频中的文字信息：首先，求存在同一条字幕的多帧视频帧亮度图像的字幕条区域的平均和图像；接着，将平均和图像进行OTSU分割，生成只有黑白两种颜色连通域的字幕区域图像；然后，对OTSU分割后的图像确定哪种颜色为文字区域；最后，剔除非文字噪声。

所述的抽取视频关键帧亮度图像还包括：

关键帧的帧号KeyfrmNum＝Interval×n，其中(n＝1，2...)，Interval是关键帧的间隔，其取值范围为10～50，Interval的大小根据需求可以调整，取值越小，字幕条提取越准确，取值越大，字幕条提取速度越快。

所述的采样关键帧的亮度图像还包括：

设原始视频关键帧图像的亮度分量为I(x，y)，高度为H，宽度为W，将所有要进行字幕条定位的视频帧都采样到宽小于200以下，采样级数SN为：

采样后的图像I′(x，y)，高度为H′＝H/SN，宽度为W′＝W/SN，具体采样的方法是：

I′(x，y)＝I(SN×x，SN×y) (x＝1，2，....，H/SN；y＝1，2，....，W/SN)。

所述的生成纹理图还包括：

利用变换技术求出图像的水平方向纹理，垂直方向纹理，对角线方向纹理；然后生成水平纹理图，垂直纹理图，综合纹理图；

具体地，利用小波变换得到三个方向上的高频子带：水平高频子带记为CH，垂直高频子带记为CV，对角线高频子带记为CD，由得到的这三个高频子带，得到水平纹理图CHD，垂直纹理图CVD，综合纹理图CHVD，这三个子带的高度为H＂＝H′/2，宽度为W＂＝W′/2，具体生成方法如下：

\{\begin{matrix} CHD (x, y) = | CH (x, y) | + | CD (x, y) | \\ CVD (x, y) = | CV (x, y) | + | CD (x, y) | \\ CHVD (x, y) = | CH (x, y) | + | CV (x, y) | + | CD (x, y) | \end{matrix} (x = 1,2 . . . H''; y = 1,2 . . . W'')

其中，利用垂直纹理图CVD的水平投影，得到字幕条的上下边框；利用水平纹理图CHD的垂直投影，得到字幕条的左右边框。

所述的确定水平字幕条位置还包括：

首先，垂直纹理图CVD进行水平投影，得到水平投影纹理值Hor。再求水平投影纹理值Hor的一阶差分，并归一化，得到HorDiff；

然后，寻找HorDiff中所有满足条件的负峰值位置和正峰值位置，相邻的负正峰值对，是水平字幕条的上下边框，负峰值是水平字幕条的上边框，正峰值是水平字幕条的下边框；

最后，将水平纹理图CHD在上边框和下边框之间的纹理图进行垂直投影，再求水平投影纹理值的一阶差分，并归一化，得到TxtVerDiff，搜索满足条件TxtVerDiff>T的位置值构成一个集合，在此集合中，最小的位置值是该条字幕的左边框，最大的位置值是该条字幕的右边框。其中，T＝0.3。

所述的确定垂直字幕条位置还包括：

首先，水平纹理图CHD进行垂直投影，得到垂直投影纹理值Ver。再求垂直投影纹理值Ver的一阶差分，并归一化，得到VerDiff；

然后，寻找VerDiff中所有满足条件的负峰值位置和正峰值位置，相邻的负正峰值对，是垂直字幕条的左右边框，负峰值是垂直字幕条的左边框，正峰值是垂直字幕条的右边框；

最后，将垂直纹理图CVD在左边框和右边框之间的纹理图进行水平投影，再求水平投影纹理值的一阶差分，并归一化，得到TxtHorDiff，搜索满足条件TxtHorDiff>T的位置值构成一个集合，在此集合中，最小的位置值是该条字幕的上边框，最大的位置值是该条字幕的下边框，其中，T＝0.3。

所述的确定字幕条起始帧和终止帧还包括：

确定两个关键帧之间的字幕条的起始帧或终止帧方法，首先提取两个关键帧之间的中间帧，利用字幕条关键帧的字幕条信息与两个关键帧的中间帧进行匹配。

所述的确定字幕条起始帧和终止帧包括：

利用字幕条关键帧的纹理图确定字幕点的位置：当综合纹理图CHVD中某位置的纹理值大于某一域值时，则该位置是字幕点。也就是说，字幕点的位置(i，j)应该满足CHVD(i，j)>5×Ave，则统计视频帧中在字幕点位置处像素值的差异，作为两帧中是否有同一条字幕的匹配标准。

所述的确定文字区域颜色方法包括：

首先，确定OTSU分割后图像的黑白两种颜色区域位置；然后，针对黑色，求出相应位置的综合纹理图CHVD中纹理值均值，针对白色，求出相应位置的综合纹理图中纹理值均值；最后，如果黑色的纹理值均值大于白色的，说明黑色区域是文字区域，如果白色的纹理值均值大于黑色的，说明白色区域是文字区域。

所述的剔除非文字噪声方法还包括：

在确定了文字区域的颜色clr之后，针对每一个颜色为clr的连通域，计算综合纹理图CHVD中此连通域相应位置的纹理均值mean，如果mean>Ave，则说明此连通域为文字；如果mean≤Ave，则说明此连通域为背景。

本发明是根据视频帧分辨率的大小进行等比例采样，然后进行字幕条定位，大大提高了字幕条定位的速度；利用水平纹理图的垂直投影确定字幕条的左右边框，利用垂直纹理图的水平投影确定字幕条的上下边框，大大提高了字幕条定位准确率。利用字幕点匹配方法，快速地确定字幕条起始帧和终止帧，提高了字幕提取的速度。利用纹理去噪方法提取字幕条中的文字。利用以上技术，本发明达到了准确而快速的提取视频字幕。

附图说明

图1为本发明中快速准确视频字幕提取方法的系统结构框图；

图2为纹理投影字幕条定位方法的示意图；

图3为字幕条起始帧和终止帧确定方法的示意图；

图4为文字提取方法的示意图。

下面结合附图对本发明的内容作进一步详细说明。

具体实施方式

参照图1所示，其中包含如下执行步骤：首先执行抽取视频关键帧亮度图像10；然后执行纹理投影定位字幕条20，以确定字幕条在视频帧中的位置信息；接下来执行确定字幕条起始帧和终止帧30，以确定当前字幕条在视频中的起始帧和终止帧的帧号，以提高字幕提取的速度；最后执行提取文字40，利用当前字幕条的持续帧信息，将字幕条中的文字和背景分离，提取字幕条中的文字信息。

在上述步骤中的抽取视频关键帧亮度图像10，其实现方式按照一定规律从视频流中仅解码视频流中提取指定的帧的亮度图像。这里的压缩视频格式可以是MPEG-1/2/4或者AVI格式等，这些解码器是公知的。关键帧的帧号KeyfrmNum＝Interval×n，其中(n＝1，2...)，Interval是视频关键帧的间隔，其取值范围为10～50，Interval的大小根据需求可以调整，取值越小，字幕条提取越准确，取值越大，字幕条提取速度越快。

参照图2所示，首先采样关键帧的亮度图像；然后生成纹理图；接着确定水平字幕条的位置：先进行垂直纹理图水平投影求差分，然后确定水平字幕条上下边框，然后确定水平字幕条左右边框；接着确定垂直字幕条的位置：先进行水平纹理图垂直投影求差分，然后确定垂直字幕条左右边框，然后确定垂直字幕条上下边框；然后进行字幕条去噪；最后确定字幕条位置。

具体包括：

采样视频帧图像201，是根据不同视频帧的分辨率，对抽取的视频关键帧的亮度图像进行等比例采样，目的是为了加快字幕条定位的速度。另外，由于不同的视频具有不同的分辨率，在进行字幕定位时，视频帧的不同分辨率会对定位方法中域值参数的选取有很大的影响。所以，通过视频帧图像采样，将所有要进行字幕条定位的视频帧图像的大小限定在一定的范围内，对算法中域值的选取具有很强的鲁棒性。假设原始视频帧图像的亮度图像为I(x，y)，高度为H，宽度为W，将所有要进行字幕条定位的视频帧都采样到宽小于200以下，所以采样级数SN为：

I′(x，y)＝I(SN×x，SN×y)　　　　　　(x＝1，2，....，H/SN；y＝1，2，....，W/SN)

为了便于理解所述的视频字幕提取方法的后面流程，设视频帧图像左上角为原点，即(x，y)＝(1，1)。

生成纹理图202，是针对采样视频帧图像201得到的图像I′(x，y)，提取它的纹理图，可以采用小波变换，Gabor变换，Sobel算子变换等等技术。在本实施例中，采用两维的HAAR小波变换将视频帧图像变换到纹理域图像，然后将变换后的系数求绝对值，从而获得一个低频子带，和三个方向上的高频子带：水平高频子带记为CH，垂直高频子带记为CV，对角线高频子带记为CD。由得到的这三个方向的高频子带，生成水平纹理图CHD，垂直纹理图CVD，综合纹理图CHVD，这三个子带的高度为H＂＝H″/2，宽度为W＂＝W′/2，具体生成方法如下：

\{\begin{matrix} CHD (x, y) = | CH (x, y) | + | CD (x, y) | \\ CVD (x, y) = | CV (x, y) | + | CD (x, y) | \\ CHVD (x, y) = | CH (x, y) | + | CV (x, y) | + | CD (x, y) | \end{matrix} (x = 1,2 . . . H''; y = 1,2 . . . W'')

垂直纹理图水平投影求差分203，确定水平字幕条上下边框204，以及确定水平字幕条左右边框205是利用纹理图投影方法来确定在视频帧图像中水平分布的字幕条的位置信息。具体的方法如下：

垂直纹理图水平投影求差分203，将垂直纹理图CVD进行水平投影，按照水平方向求每一行纹理值的和，得到水平投影纹理值Hor：

\begin{matrix} Hor (x) = Σ_{y = 1}^{W^{*}} CVD (x, y) & (x = 1,2 . . . H'') \end{matrix}

再求水平投影纹理值Hor的一阶差分HorDiff：

HorDiff(x)＝Hor(x)-Hor(x+1) (x＝1，2...H＂-1)

设HorDiff中最大值为Max1，则得到归一化的HorDiff为：

HorDiff(x)＝HorDiff(x)/Max1 (x＝1，2...H＂-1)

确定水平字幕条上下边框204，利用HorDiff确定水平字幕条的上下边框位置。首先，寻找HorDiff的所有负峰值位置，且在此峰值处HorDiff<-T₁，记录所有的满足条件的负峰值位置为Top(k)，则该位置就是假设的第k条字幕的上边框位置。负峰值的总个数为K，而且满足下式，并且说明了假设的第k条字幕在第k+1条字幕的上边：

Top(k)<Top(k+1) k＝1，2...K-1

然后，确定假设的第k条字幕是否存在，若存在并确定它的下边框位置：在假设的第k条字幕的上边框位置Top(k)和假设的第k+1条字幕的上边框位置Top(k+1)之间，寻找HorDiff的正峰值位置，且在此峰值处HorDiff>T₁，若存在这样的峰值，说明假设的第k条字幕存在，则记录最靠近Top(k)位置的正峰值位置是Down(k)，它代表第k条字幕的下边框位置；若在Top(k)和Top(k+1)之间，寻找HorDiff>T₁的正峰值不存在，说明Top(k)是噪声，假设的第k条字幕不存在。其中T₁＝0.4。然后再依次判断第k+1条字幕的是否存在，若存在并确定它的下边框，直到判断完K条字幕为止。

确定水平字幕条左右边框205，利用字幕条上下边框位置及水平纹理图CHD的垂直投影来确定该条字幕的左右边框。首先，将水平纹理图CHD在上边框Top(k)和下边框Down(k)之间的纹理图进行垂直投影，按照垂直方向求Top(k)和Down(k)两行之间每一列纹理值的和，得到垂直投影纹理值TxtVer：

\begin{matrix} TxtVer (y) = Σ_{x = Top (k)}^{Down (k)} CHD (x, y) & (y = 1,2 . . . W'') \end{matrix}

再求水平投影纹理值TxtVer的一阶差分TxtVerDiff：

TxtVerDiff(y)＝TxtVer(y)-TxtVer(y+1) (y＝1，2...W＂-1)

设TxtVerDiff中最大值为Max2，则得到归一化的TxtVerDiff为：

TxtVerDiff(y)＝TxtVerDiff(y)/Max2 (y＝1，2...W＂-1)

最后，搜索满足TxtVerDiff(y)>T₂中所有的y位置构成一个集合，在此集合中，最小的y位置是第k条字幕的左边框Left(k)，最大的y位置是第k条字幕的右边框Right(k)。其中，T₂＝0.3。

水平纹理图垂直投影求差分206、确定垂直字幕条左右边框207、以及确定垂直字幕条上下边框208是利用纹理图投影方法来确定在视频帧图像中垂直分布的字幕条的位置信息。具体的方法如下：

水平纹理图垂直投影求差分206，将水平纹理图CHD进行垂直投影，按照垂直方向求每一列纹理值的和，得到垂直投影纹理值Ver：

\begin{matrix} Ver (y) = Σ_{x = 1}^{H''} CHD (x, y) & (y = 1,2 . . . W'') \end{matrix}

再求水平投影纹理值Ver的一阶差分VerDiff：

VerDiff(y)＝Ver(y)-Ver(y+1) (x＝1，2...W＂-1)

设VerDiff中最大值为Max3，则得到归一化的VerDiff为：

VerDiff(y)＝VerDiff(y)/Max3 (y＝1，2...W＂-1)

确定垂直字幕条左右边框207，利用VerDiff确定垂直字幕条左右边框位置。首先，寻找VerDiff的所有负峰值位置，且在此峰值位置VerDiff<-T₁，则该位置就是假设的第n条字幕的左边框位置。记录所有的满足条件的负峰值位置为Left(n)，负峰值的总个数为N，而且满足下式，并且说明了假设的第n条字幕在假设的第n+1条字幕的左边：

Left(n)<Left(n+1) n＝1，2...N-1

然后，确定假设的第n条字幕是否存在，若存在并确定它的右边框：在假设的第n条字幕的左边框位置Left(n)和假设的第n+1条字幕的左边框位置Left(n+1)之间，寻找VerDiff的正峰值位置，且在此峰值的VerDiff>T₁，若存在这样的峰值，说明假设的第n条字幕存在，则记录最靠近Left(n)位置的正峰值位置是Right(n)，它代表第n条字幕的右边框位置；若在Left(n)和Left(n+1)之间，寻找VerDiff>T₁的正峰值不存在，说明Left(n)是噪声，第n条字幕不存在。其中T₁＝0.4。然后再判断第n+1条字幕的是否存在，若存在并确定它的右边框。

确定垂直字幕条上下边框208，利用字幕条左右边框位置以及垂直纹理图CVD的水平投影来确定该条字幕的上下边框。首先，将垂直纹理图CVD在左边框Left(n)和右边框Right(n)之间的纹理图进行水平投影，按照水平方向求Left(n)和Right(n)两列之间的每一行纹理值的和，得到水平投影纹理值TxtHor：

\begin{matrix} TxtHor (x) = Σ_{y = Left (n)}^{Right (n)} CHD (x, y) & (x = 1,2 . . . H'') \end{matrix}

再求水平投影纹理值TxtHor的一阶差分TxtHorDiff：

TxtHorDiff(x)＝TxtHor(x)-TxtHor(x+1) (x＝1，2...H＂-1)

设TxtHorDiff中最大值为Max4，则得到归一化的TxtHorDiff为：

TxtHorDiff(x)＝TxtHorDiff(x)/Max4 (x＝1，2...H＂-1)

最后，搜索满足TxtHorDiff(x)>T₂中所有的x位置构成一个集合，在此集合中，最小的x位置是第n条字幕的上边框Top(n)，最大的x位置是第n条字幕的下边框Down(n)。其中，T₂＝0.3。

字幕条去噪单元209，利用综合纹理图CHVD去除错误的字幕条即去除噪声。将得到的水平字幕条和垂直字幕条的上下左右边框位置，统一记为Top(l)，Down(l)，Left(l)，Right(l)，代表第l条字幕的上下左右边框位置。则得到第l条字幕区域的面积TS(l)和综合纹理图CHVD中该区域的纹理均值TxtAve(l)为：

TS(l)＝(Down(l)-Top(l))×(Right(l)-Left(l))

TxtAve (l) = \frac{1}{TS (l)} \times Σ_{x = Top (l)}^{Down (l)} Σ_{y = Left (l)}^{Right (l)} CHVD (x, y)

整个综合纹理图CHVD的纹理均值Ave为：

Ave = \frac{1}{H'' \times W''} Σ_{x = 1}^{H''} Σ_{y = 1}^{W''} CHVD (x, y)

如果TxtAve(l)>Ave，则说明第l条字幕是真正的字幕；否则，说明第l条字幕是噪声区域，不是真正的字幕，则去除该条字幕。

确定字幕条位置210，来确定字幕条在原始视频帧图像中真正的位置。采样视频帧图像201，根据视频帧图像的大小对其进行采样，采样级数为SN，以上步骤得到的第l条字幕的上下左右边框位置Top(l)，Down(l)，Left(l)，Right(l)，是指针对采样视频帧图像的位置。所以，原始视频帧中真正的字幕条上下左右边框位置T(l)，D(l)，L(l)，R(l)：

T(l)＝Top(l)×2^SN

D(l)＝Down(l)×2^SN

L(l)＝Left(l)×2^SN

R(l)＝Right(l)×2^SN

参照图3所示，首先进行当前关键帧的字幕条定位。然后判断是否有字幕：如果没有字幕，则继续进行下一个关键帧的字幕条定位，直到有字幕条出现；如果出现字幕条，设当前关键帧为字幕条关键帧，则在前一个关键帧和当前关键帧之间确定字幕条的起始帧。然后用字幕条关键帧的字幕条区域依次匹配后面关键帧，如果一致，将继续匹配，直到匹配不一致，则在前一个关键帧和当前关键帧确定字幕条的终止帧。

关键帧字幕定位31，利用抽取视频关键帧亮度图像10抽取当前关键帧的灰度图像，并执行纹理投影定位字幕条20，关键帧的帧号KeyfrmNum＝Interval×n，其中(n＝1，2...)。

判断是否有字幕32，若没有字幕，则继续对下一个关键帧执行纹理投影定位字幕条，直到有字幕出现为止；若有字幕，设此关键帧为字幕条关键帧，并确定字幕条起始帧。

确定字幕条起始帧33，确定在关键帧中新出现的字幕条的起始帧。假设设当前字幕条关键帧的帧号为frm1，则前一个关键帧号frm2＝frm1-Interval，则说明该条字幕的起始帧StartFrm在frm2～frm1之间。首先，寻找位于frm2～frm1之间的中间帧frm3，其帧号如下：

frm 3 = frm 2 + \frac{frm 1 - frm 2}{2} = \frac{frm 1 + frm 2}{2}

利用字幕条关键帧frm1的字幕条信息，与中间帧frm3相应的字幕条位置里的信息进行匹配。1)如果匹配上了，说明frm1和frm3有同一条字幕，则字幕的起始帧在frm2～frm3之间，则利用frm1的字幕条信息，按照视频播放方向，从frm2开始一帧一帧的进行字幕条信息匹配，直到匹配上的时候，此帧就是字幕条的起始帧StartFrm；2)如果没有匹配上，说明frm3没有frm1中的字幕条，则字幕的起始帧在frm3～frm1之间，则利用frm1的字幕条信息，按照视频播放方向，从frm3开始一帧一帧的进行字幕条信息匹配，直到匹配上的时候，此帧就是字幕条的起始帧StartFrm。则说明，在StartFrm～frm1之间的视频帧图像中，该条字幕都是存在的。

具体的匹配方法，是利用字幕点匹配方法来判断两帧是否存在同一条字幕。因为当字幕持续时，如果字幕的背景发生剧烈的变化，例如发生场景变换和剧烈运动，两帧的字幕条匹配会有很大的影响，会发生匹配错误的情况。为了消除字幕背景的影响，利用字幕点匹配方法来判断两帧是否存在同一条字幕。首先，利用综合纹理图CHVD寻找字幕点的位置，综合纹理图CHVD中在字幕条内部的字幕点的位置(i，j)应该满足CHVD(i，j)>5×Ave，总个数设为N；然后，确定原始视频帧图像中字幕点的位置(i_o，j_o)＝(i，j)×2^SN+1；最后，计算两帧原始视频帧图像I₁和I₂在字幕点位置(i_o，j_o)处的差异值diff(I₁，I₂)：

diff (I_{1}, I_{2}) = \frac{1}{N} \underset{i_{o}, j_{o}}{Σ} | I_{1} (i_{o}, j_{o}) - I_{2} (i_{o}, j_{o}) |

如果diff(I₁，I₂)<10，则说明两帧视频帧图像中的字幕条位置信息匹配上了，即同时存在该条字幕；如果diff(I₁，I₂)>10，则说明两帧视频帧图像中的字幕条位置信息没有匹配上，即不同时存在该条字幕。

匹配关键帧字幕条34，利用字幕条关键帧的字幕条区域依次与后面的关键帧的字幕条信息进行匹配，利用上述的字幕点匹配方法。然后判断是否匹配，若匹配成功，则抽取下一个关键帧继续进行匹配，直到匹配不上，则说明该条字幕在两个关键帧之间消失了，即确定字幕条终止帧。

确定字幕条终止帧36，确定字幕条的终止帧，方法与确定字幕条起始帧类似。具体地，设当前关键帧消失了一条字幕，其帧号为f1，而前一个关键帧的存在该字幕条，其帧号为f2＝f1-Interval，则说明f2中的字幕条终止帧EndFrm在f2～f1之间。首先，寻找位于f2～f1之间的中间帧f3，其帧号如下：

f 3 = f 2 + \frac{f 1 - f 2}{2} = \frac{f 1 + f 2}{2}

利用前一个关键帧f2的字幕条信息，与中间帧f3相应的字幕条位置里的信息进行匹配。1)如果匹配上了，说明f2和f3有同一条字幕，则字幕的终止帧在f3～f1之间，则利用前一个关键帧f2的字幕条信息，按照视频播放方向，从f3开始一帧一帧的进行字幕条信息匹配，直到匹配不上的时候，此帧就是字幕条的终止帧EndFrm；2)如果没有匹配上，说明f3没有f2中的字幕条，则字幕的终止帧在f2～f3之间，则利用前一个关键帧f2的字幕条信息，按照视频播放方向，从f2开始一帧一帧的进行字幕条信息匹配，直到匹配不上的时候，此帧就是字幕条的终止帧EndFrm。则说明，在f2～EndFrm之间的视频帧图像中，该条字幕都是存在的。两帧视频帧图像是字幕条信息的匹配方法利用了确定字幕条起始帧33中描述的字幕点匹配方法。

通过确定字幕条起始帧33，匹配关键帧字幕条34，判断是否匹配35和确定字幕条终止帧36，确定了一条字幕的起始帧StartFrm和终止帧EndFrm，即从视频帧StartFrm到视频帧EndFrm存在同一条字幕信息，持续帧数DurFrm＝EndFrm-StartFrm。在字幕条持续期间，只调用了一次纹理投影定位字幕条20，而不是每一帧都调用纹理投影定位字幕条20，从而大大地提高了字幕提取的速度。

参照图4所示，目的是为了将持续帧中存在的字幕条，进行文字和背景的分离，好将白色背景黑色文字进行OCR文字识别。具体方法采用纹理去噪方法来进行文字提取，步骤如下：

首先，求字幕条存在的多帧连续视频帧亮度图像的字幕区域的平均和图像，例如可以采用6帧视频帧亮度图像的字幕区域。

接着，将平均和图像进行OTSU分割图像。OTSU方法(N.Otsu，“Athreshold selection method from gray-level histograms，”IEEE Trans.Syst.，Man，Cybernet.，vol.SMC-9，no.1，pp.62-66，Jan，1979.)，是根据图像本身的特点自适应的确定一个域值，大于这个域值的区域将变成白色，小于这个域值的将变成黑色。所以，将平均和图像分割成许多连通域。连通域的颜色只有黑色和白色两种：一个颜色的区域为文字区域，一颜色的区域为背景区域。

然后，确定文字区域颜色。确定OTSU分割后的图像哪种颜色为文字区域，哪种颜色为背景区域。由于，文字区域的亮度比背景区域的亮度暗还是亮，是未知的，所以OTSU二值化分割之后，文字区域是黑色还是白色也是未知的。采用以下方法进行区别：设OTSU分割图像后的字幕条图像中，所有的黑色连通区域的位置为black，所有的白色连通区域的位置为white。综合纹理图CHVD中的相应的black位置中所对应系数的均值是mean_black，它代表黑色连通区域的纹理均值；综合纹理图CHVD中的相应的white位置中所对应系数的均值是mean_white，它代表白色连通区域的纹理均值。如果mean_black>mean_white，则说明黑色连通区域是文字区域，白色连通区域是背景区域；如果mean_black≤mean_white，则说明白色连通区域是文字区域，黑色连通区域是背景区域。

最后，剔除非文字噪声。在确定了文字区域的颜色clr之后，此种颜色的连通区域，会有一些不是真正的字幕区域的噪声连通域，为了去除噪声，我们采用下面方法：针对每一个颜色为clr的连通域，计算综合纹理图CHVD中此连通域相应的位置的纹理均值mean，如果mean>Ave，则说明此连通域为文字；如果mean≤Ave、则说明此连通域为背景。

通过以上的实施例，视频中的字幕已经完全被提取出来。一方面，可以确定一条字幕的持续帧号和在视频帧中具体的位置信息，也就是可以确定视频中所有字幕在视频中的时间位置和空间位置；另一方面，可以准确的提取字幕条中的文字信息，也就是将视频中所有出现过的文字提取出来，这些文字可以进行OCR识别，进而可靠的分析视频的内容。视频字幕条的起始帧和终止帧之间的帧号，字幕条在视频帧中的空间位置以及视频中字幕条的文字内容，可以广泛用于视频中高级特征提取，视频摘要，视频检索，视频分析等方法和装置。

Claims

1、一种快速准确的视频字幕提取方法，其特征在于，包括以下步骤：

首先，抽取视频中关键帧的亮度图像；

2、根据权利要求1所述的快速准确的视频字幕提取方法，其特征在于，所述的抽取视频关键帧亮度图像还包括：关键帧的帧号KeyfrmNum＝Interval×n，其中(n＝1，2...)，Interval是关键帧的间隔，其取值范围为10～50，Interval的大小根据需求可以调整，取值越小，字幕条提取越准确，取值越大，字幕条提取速度越快。

3、根据权利要求1所述的快速准确的视频字幕提取方法，其特征在于，所述的采样关键帧的亮度图像还包括：设原始视频关键帧图像的亮度分量为I(x，y)，高度为H，宽度为W，将所有要进行字幕条定位的视频帧都采样到宽小于200以下，采样级数SN为：

I′(x，y)＝I(SN×x，SN×y)(x＝1，2，....，H/SN；y＝1，2，....，W/SN)。

4、根据权利要求1所述的快速准确的视频字幕提取方法，其特征在于，所述的生成纹理图还包括：利用变换技术求出图像的水平方向纹理，垂直方向纹理，对角线方向纹理；然后生成水平纹理图，垂直纹理图，综合纹理图；

具体地，利用小波变换技术得到三个方向上的高频子带：水平高频子带记为CH，垂直高频子带记为CV，对角线高频子带记为CD，由得到的这三个高频子带，得到水平纹理图CHD，垂直纹理图CVD，综合纹理图CHVD，这三个子带的高度为H＂＝H′/2，宽度为W＂＝W′/2，具体生成方法如下：

5、根据权利要求1所述的快速准确的视频字幕提取方法，其特征在于，所述的确定水平字幕条位置还包括：首先，垂直纹理图CVD进行水平投影，得到水平投影纹理值Hor，再求水平投影纹理值Hor的一阶差分，并归一化，得到HorDiff；

最后，将水平纹理图CHD在上边框和下边框之间的纹理图进行垂直投影，再求水平投影纹理值的一阶差分，并归一化，得到TxtVerDiff，搜索满足条件TxtVerDiff>T的位置值构成一个集合，在此集合中，最小的位置值是该条字幕的左边框，最大的位置值是该条字幕的右边框，其中，T＝0.3。

6、根据权利要求1所述的快速准确的视频字幕提取方法，其特征在于，所述的确定垂直字幕条位置还包括：首先，水平纹理图CHD进行垂直投影，得到垂直投影纹理值Ver，再求垂直投影纹理值Ver的一阶差分，并归一化，得到VerDiff；

7、根据权利要求1所述的快速准确的视频字幕提取方法，其特征在于，所述的确定字幕条起始帧和终止帧还包括：确定两个关键帧之间的字幕条的起始帧或终止帧，首先提取两个关键帧之间的中间帧，利用字幕条关键帧的字幕条信息与两个关键帧的中间帧进行匹配。

8、根据权利要求1所述的快速准确的视频字幕提取方法，其特征在于，所述的确定字幕条起始帧和终止帧包括：利用字幕条关键帧的纹理图确定字幕点的位置：当综合纹理图CHVD中某位置的纹理值大于某一域值时，则该位置是字幕点，也就是说，字幕点的位置(i，j)应该满足CHVD(i，j)>5×Ave，则统计视频帧中在字幕点位置处像素值的差异，作为两帧中是否有同一条字幕的匹配标准。

9、根据权利要求1所述的快速准确的视频字幕提取方法，其特征在于，所述的确定文字区域颜色方法包括：首先，确定OTSU分割后图像的黑白两种颜色区域位置；然后，针对黑色，求出相应位置的综合纹理图CHVD中纹理值均值，针对白色，求出相应位置的综合纹理图中纹理值均值；最后，如果黑色的纹理值均值大于白色的，说明黑色区域是文字区域，如果白色的纹理值均值大于黑色的，说明白色区域是文字区域。

10、根据权利要求1所述的快速准确的视频字幕提取方法，其特征在于，所述的剔除非文字噪声方法还包括：在确定了文字区域的颜色clr之后，针对每一个颜色为clr的连通域，计算综合纹理图CHVD中此连通域相应位置的纹理均值mean，如果mean>Ave，则说明此连通域为文字；如果mean≤Ave，则说明此连通域为背景。