CN100589532C

CN100589532C - 字幕区域提取装置和方法

Info

Publication number: CN100589532C
Application number: CN200710140327A
Authority: CN
Inventors: 白洪亮; 孙俊; 胜山裕; 藤本克仁; 直井聪
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-08-09
Filing date: 2007-08-09
Publication date: 2010-02-10
Anticipated expiration: 2027-08-09
Also published as: JP2009043265A; JP5067310B2; CN101365072A

Abstract

本发明提供了一种字幕区域提取装置和方法。本发明的目的是从视频信号中高效、精确地提取字幕区域。为此，本发明的字幕区域提取装置具有视频解码单元，其对所述视频信号进行解码，生成多帧图像；图像选择单元，其按照时间顺序把所述视频解码单元输出的所述多帧图像分成预定大小的图像组，对于每个图像组，基于边缘特征选择预定数量的图像；平均单元，其对于各个所述图像组，对所述图像选择单元选择的图像进行平均处理，得到平均图像；以及提取单元，其从所述平均图像中提取角点，基于所述角点从所述平均图像中提取出字幕区域。根据本发明，即使存在动态的背景，也能够鲁棒地提取出字幕区域。

Description

字幕区域提取装置和方法

技术领域

本发明涉及在视频中提取字幕区域的装置和方法。

背景技术

近年来，随着广播电视电影的发展，产生了大量的视频，同时随着数码相机和数码摄像机的普及，大众制作出各种视频，对这些视频进行分析和检索成为许多人的要求。视频中通常包含字幕信息，利用现有的图像和视频处理、光学字符识别技术提取字幕信息，为有效的视频分析和检索提供了重要的信息。字幕包括事件发生时间、地点、当事人、体育比赛的比分、天气预报、商品的价格等等。在提取字幕信息之前，首先要在视频中提取出字幕区域。目前人们已经提出了多种字幕区域提取方法，例如，参见文献1～8。

可以基于不同的特征来提取字幕区域。例如，连通域特征、边缘特征(参见文献1，2，3)和纹理特征(参见文献4)。基于连通域特征的方法算法简单，运算速度快，但很难适应复杂的背景情况。在基于边缘特征的方法中，有效的统计边缘特征是一个复杂问题。在基于纹理特征的方法中，运算时间消耗大，通常要利用视频解码算法，提取运动矢量信息，运动矢量的提取本身就是一个困难问题，所以使用这种特征的方法很少。

为了提高系统的处理速度，在字幕区域识别中，可以针对视频中的一帧图像进行识别。例如，在非专利文献3和4的方法中，仅处理视频中的某一特殊帧，比如Moving Picture Experts Group(MPEG)格式视频中的I帧，然后应用图像处理技术进行处理，提取出字幕区域。但是，如果字幕存在于复杂的背景之中，则很难鲁棒地检测字幕。另外，在文献3的方法中，字幕检测仅考虑单个尺度，不能有效地处理不同字体大小的情况。

由于字幕的背景是复杂的，仅仅依靠单幅图像很难满足实际需要。我们知道，单个字幕在视频中是存在一定的时间内，而且一般情况下，字幕的位置是不变的，所以充分利用这个特点，可以显著地提高字幕识别性能。目前，提出了在字幕识别中考虑字幕的时间信息，例如参见非专利文献5和6。但是，在非专利文献5和6的方法，不加选择地利用所有的帧，从提取效率方面来说，还存在不足。

专利文献1：伊藤清美，新倉康巨，特開2006-53802，映像種别判定方法、映像種别判定装置及び映像種别判定プログラム；

专利文献2：砂川伸一，松林一弘，特開平9-16769，画像処理装置および方法；

非专利文献3：Rainer Lienhart等，“Localizing and Segmenting Text inImage and Videos”，IEEE Transactions on Circuits and System for VideoTechnology，Vol.12，No.4，pp.256-268，2002；

非专利文献4：Yu Zhong等，“Automatic Caption Localization inCompressed Video”，IEEE Transaction on Pattern Analysis and MachineIntelligence，Vol.22，No.4，pp.385-392，2000；

非专利文献5：Xiaoou Tang等，“A Spatial-Temporal Approach forVideo Caption Detection and Recognition”，IEEE Transactions on NeuralNetwork，Vol.13，No.4，pp.961-971，2002；

非专利文献6：Toshio Sato等，“Video OCR for Digital News Archive”，Workshop on Content-Based Access of Image and Video Databases，pp52-60，1998。

发明内容

本发明针对现有的技术的缺点提出。本发明的目的是提供一种能够高效、精确地从视频中提取字幕区域的方法和装置。

在本发明中，利用多帧视频的信息来提取字幕区域，从而对于动态背景的视频，也可以增强背景和字幕的对比度，准确鲁棒地检测出字幕区域。

另外，在本发明中，对图像帧进行选择利用，从而可以更加高效、准确地提取字幕区域。

考虑到东方文字(如日文和中文)的笔画特点，角点特征非常明显，角点多发生在笔画的起点，交叉点和终点，而背景的角点特征不是很明显，所以在本发明中基于角点特征来提取字幕区域。

在本发明中，提供了以下的技术方案。

发明1：一种从视频信号中提取字幕区域的装置，该装置包括：

视频解码单元，其对所述视频信号进行解码，生成多帧图像；

图像选择单元，其按照时间顺序把所述视频解码单元输出的所述多帧图像分成预定大小的图像组，对于每个图像组，基于边缘特征选择预定数量的图像；

平均单元，其对于各个所述图像组，对所述图像选择单元选择的图像进行平均处理，得到平均图像；以及

提取单元，其从所述平均图像中提取角点，基于所述角点从所述平均图像中提取出字幕区域。

发明2：发明1所述的装置，其中，所述提取单元在多个尺度下、在水平和垂直方向上分别提取水平字幕区域和垂直字幕区域，并对所述多个尺度下提取的字幕区域进行聚类处理。

发明3：发明1所述的装置，其中，所述提取单元根据所述角点的密度提取特征直线，并根据所述特征直线的密度提取字幕区域。

发明4：发明3所述的装置，其中，所述提取单元从所述平均图像中提取Harris角点，对于每个Harris角点，计算以该Harris角点为中心的预定尺寸的窗口内的Harris角点的数目，若所述数目未达到预定的阈值，则抛弃该Harris角点。

发明5：发明1所述的装置，其中，所述提取单元在水平和垂直方向上分别提取水平字幕区域和垂直字幕区域，该装置进一步具有后处理单元，该后处理单元对所述提取单元提取的水平字幕区域和垂直字幕区域进行处理，使得所述水平字幕区域和垂直字幕区域不相互重叠。

发明6：一种从视频信号中提取字幕区域的方法，该方法包括以下步骤：

对所述视频信号进行解码，生成多帧图像；

按照时间顺序把所述多帧图像分成预定大小的图像组，对于每个图像组，基于边缘特征选择预定数量的图像；

对于各个所述图像组，对所述选择的图像进行平均处理，得到平均图像；以及

从所述平均图像中提取角点，基于所述角点从所述平均图像中提取出字幕区域。

发明7：发明6所述的方法，其中，在所述提取字幕区域的步骤中，在多个尺度下、在水平和垂直方向上分别提取水平字幕区域和垂直字幕区域，并对所述多个尺度下提取的字幕区域进行聚类处理。

发明8：发明6所述的方法，其中，在所述提取字幕区域的步骤中，根据所述角点的密度提取特征直线，并根据所述特征直线的密度提取字幕区域。

发明9：发明8所述的方法，其中，在所述提取字幕区域的步骤中，从所述平均图像中提取Harris角点，对于每个Harris角点，计算以该Harris角点为中心的预定尺寸的窗口内的Harris角点的数目，若所述数目未达到预定的阈值，则抛弃该Harris角点。

发明10：发明6所述的方法，其中，在所述提取字幕区域的步骤中，在水平和垂直方向上分别提取水平字幕区域和垂直字幕区域，该方法进一步包括后处理步骤，对所述水平字幕区域和垂直字幕区域进行处理，使得所述水平字幕区域和垂直字幕区域不相互重叠。

发明11：一种使信息处理设备执行以下步骤，以从视频信号中提取字幕区域的程序，所述的步骤包括：

对所述视频信号进行解码，生成多帧图像；

发明12：发明11所述的程序，其中，在所述提取字幕区域的步骤中，在多个尺度下、在水平和垂直方向上分别提取水平字幕区域和垂直字幕区域，并对所述多个尺度下提取的字幕区域进行聚类处理。

发明13：发明11所述的程序，其中，在所述提取字幕区域的步骤中，根据所述角点的密度提取特征直线，并根据所述特征直线的密度提取字幕区域。

发明14：发明13所述的程序，其中，在所述提取字幕区域的步骤中，从所述平均图像中提取Harris角点，计算以所述Harris角点为中心的窗口内的Harris角点的数目，抛弃所述数目未达到预定阈值的Harris角点。

发明15：发明11～14中任意一项所述的程序，其中，在所述提取字幕区域的步骤中，从所述平均图像中提取Harris角点，对于每个Harris角点，计算以该Harris角点为中心的预定尺寸的窗口内的Harris角点的数目，若所述数目未达到预定的阈值，则抛弃该Harris角点。

发明16：记载了发明11～15中任意一项所述的程序的计算机可读存储介质。

通过以下结合附图进行的详细说明，可以更好地理解本发明的特征和优点。

附图说明

所包括的附图用于进一步解释本发明，与说明书一起用于解释本发明的原理。

图1是字幕画面的一例的示意图。

图2是本发明的第一实施方式的字幕区域提取装置的示意框图。

图3是本发明的第一实施方式的字幕区域提取装置中的视频解码处理单元的示意框图。

图4是用于对字幕区域提取装置中的图像选择单元所进行的处理进行说明的示意图。

图5是字幕区域提取装置中的提取单元所进行的处理的概要流程图。

图6是提取单元识别Harris角点的过程的流程图。

图7是提取单元选择角点的过程的流程图。

图8是提取单元提取水平特征直线的过程的流程图。

图9是提取单元提取水平特征矩形的过程的流程图。

图10是提取单元提取垂直特征直线的过程的流程图。

图11是提取单元提取垂直特征矩形的过程的流程图。

图12是后处理单元进行的处理的流程图。

图13本发明的第二实施例中的提取单元所进行的处理的概要流程图。

具体实施方式

以下参考附图对本发明的具体实施例进行说明。

【第一实施例】

首先对本发明的第一实施例进行说明。图1示意性地示出了包含字幕的一帧画面，图2是示出本发明第一实施例的字幕区域提取装置10的总体结构的框图。

在图1所示的画面中，包含了三个典型的字幕“富士通ふじつ”，a是字幕小字体，b是垂直字体，c是水平字体。

如图2所示，本实施例的字幕提取装置10包含：视频解码单元11、图像选择单元12、平均单元13、提取单元14和后处理单元15。视频解码单元11对视频信号、包括视频文件或者视频流(来自视频采集设备的数据流)进行解码处理，生成多帧图像。图像选择单元12按照时间顺序把视频解码单元12输出的图像分成预定大小的图像组，对于每个图像组，基于边缘特征选择预定数量的图像。平均单元13对图像选择单元12选择的图像进行平均处理，得到平均图像。提取单元14基于Harris角点特征，从平均图像中提取出字幕区域。后处理单元15基于主颜色特征，对提取单元14输出的字幕区域进行处理，使得水平字幕区域与垂直字幕区域不会相互重叠。下面结合字幕提取装置10的工作流程，对各个单元进行详细的说明。

图3是视频解码单元11的示意图。在本实施例中，视频解码单元11采用了微软公司的

技术，该技术是微软

平台上的流媒体体系结构，提供多媒体视频和音频的捕捉和回放，DirectShow的基本框架包括很多部分，在本实施例中，只使用了其中的一部分模块，包括音频视频分离器111和视频解码器(FFMPEG解码器)112。当然，本发明不限于使用

技术，而且对于特定的视频编码格式可以使用相应的解码器。只要能够由视频信号输出位图形式的图像即可。

由此，视频解码单元11对输入的视频信号进行处理，输出图像序列。该图像序列被输入给图像选择单元12，对视频解码单元11输出的图像进行选择。

图4示出了图像选择单元12进行的处理的流程图。如图4所示，在步骤121中，图像选择单元12按照预定的最小视频片段(MVD：minimalvideo duration)(在本实施例中为20)，按顺序从视频解码单元11输出的图像序列中提取MVD＝20个图像。接着，在步骤122中，对这MVD＝20个图像两两组合而计算边缘图像，共得到190对边缘图像。

在步骤123中，例如，对于两个图像A和B，得到它们的一对边缘图像EA和EB。在边缘图像中，像素值的取值为0或255。计算在边缘位置处，边缘图像与原始图像之间的灰度变化D_A，B，如式(1)所示：

D_{A, B} = Σ \frac{| I_{A} (x, y) - I_{B} (x, y) |}{W \times H} - - - (1)

这里，(x，y)∈{(x，y)|I_EA(x，y)＝255||I_EB(x，y)＝255}，表示边缘图像EA和EB上的边缘点，I_EA，I_EB，I_A，I_B分别为图像EA，EB，A和B的灰度值，W表示图像的宽度，H表示图像的高度。

对于第i帧图像，如式(2)所示计算累计变化值D_i：

D_{i} = Σ_{j = 1}^{19} D_{i, j}

i＝1，...20，i≠j (2)

其中的D_i，j如式1所示计算。

在步骤124中，对所有的20个D_i排序，选择累计变化值D最大的前10帧图像，将这10帧图像传递给平均处理单元13。

平均处理单元13针对图像中的每个像素，按照下式3所示，对所选择的这10个图像进行平均，从而得到平均图像。

I_{average} (x, y) = \frac{1}{10} Σ_{i = 1}^{10} I_{i} (x, y) - - - (3)

其中，I_average(x，y)是平均图像的坐标(x，y)处的像素值，I_i(x，y)是图像选择单元12所选择的这10个图像中第i个图像的坐标(x，y)处的像素值。

由此，平均处理单元13对一个MVD中所选择的10帧图像进行平均处理，生成一帧平均图像。该平均图像被传送给提取单元14，从平均图像中提取出多个字幕区域。

图5是提取单元14从平均图像中提出字幕区域的处理的概略流程图。如图5所示，在步骤141中，在平均图像中提取Harris角点，在步骤142中，在步骤141所提取的角点中确定精选角点，在步骤143中，基于精选Harris角点提取特征直线，在步骤144中，基于特征直线提取特征矩形，在步骤145中，从步骤144所提取的特征矩形中确定出字幕区域。提取单元14按照该流程分别提取出水平字幕区域和垂直字幕区域。下面对提取单元14提取字幕区域的处理进行详细的说明。

首先说明从平均图像中提取Harris角点的处理。Harris角点是一个检测图像中兴趣点的一个重要特征，它具有对于旋转，尺度和光照变化的不变性。关于Harris角点提取的细节，可以下述参考文献：

C.Harris and M.J.Stephens，A combined corner and edge detector.InAlvey Vision Conference，pp.147-152，1988

在东方文字，比如日文和中文中，由于笔画特点而角点特征非常明显。角点多发生在笔画的起点，交叉点和终点，而背景的角点特征不是很明显。

另外，虽然在本说明书中基于Harris角点对本发明进行详细的说明，但是本发明并不限于Harris角点，也可以使用其他的角点。

图6是提取单元14从平均图像中提取Harris角点的处理的概要流程图。

平均处理单元13输出的是彩色图像，因此首先在步骤1411中，将彩色图像转换成灰度图像。关于将彩色图像转换成灰度图像的处理，可以采用任何已知的技术，这里不作详细的说明。

接着，在步骤1412中，计算灰度图像的水平方向梯度和垂直方向梯度，得到梯度图像。同样，关于灰度图像的取得，可以采用任何已知的技术，这里不作详细的说明。

在步骤1413中，基于所得到的梯度图像，对于平均图像中的每一点A(x，y)，计算基于自相关函数的矩阵M

M = [\begin{matrix} Σ_{W} {(I_{x} (x, y))}^{2} & Σ_{W} I_{x} (x, y) I_{y} (x, y) \\ Σ_{W} I_{x} (x, y) I_{y} (x, y) & Σ_{W} {(I_{y} (x, y))}^{2} \end{matrix}] - - - (4)

这里I_x(x，y)，I_y(x，y)分别表示平均图像中(x，y)处的水平梯度和垂直梯度，W表示以(x，y)为中心的窗口。

得到矩阵M后，计算其特征值。矩阵的特征值计算是公知的，例如可以参考：现代数学手册.经典数学卷，183页，2000年，武汉华中大学出版社。

接着在步骤1414中，对所得到的特征值与预先确定的阈值进行比较。如果特征值大于该阈值，则在步骤1415中判定为该点是Harris角点，如果不大于该阈值，则在步骤1416中判定为不是Harris角点，而是其它点，例如边界点。

然后，在步骤1417中判断是否对平均图像中所有的点进行了处理，如果否，则返回到步骤1413，对下一个点进行判断，如果是，则结束步骤141的处理。

由此，提取单元14从平均图像中提取出所有的Harris角点。接着进入步骤142，从所提取出的Harris角点中选择出精选Harris角点。

图7是提取单元14选择精选Harris角点的处理的流程图。

如图7所示，在步骤1421中，从上一步骤141得到的Harris角点集中选取一个角点，在步骤1422中，确定以该角点为中心的预定尺寸的窗口内的Harris角点数量Num_Corner。在步骤1423中，判断Num_Corner是否大于预定的阈值N_th。若为是，则在步骤1424中，判定为该Harris是精选角点，若为否，则在步骤1425中删除该角点。接着，在步骤1426中判断是否对Harris角点集中的所有角点进行了处理，若为否，则返回步骤1421，重复以下的步骤，若为是，则结束步骤142的处理。

接着进入步骤143，基于步骤142中确定的精选Harris角点提取特征直线。在第一实施例中，提取单元14提取水平字幕区域和垂直字幕区域这两者，下面分别进行说明。

图8是提取单元14提取水平特征直线的过程的流程图。如图8所示，首先在步骤14301H中，从步骤142中确定的精选Harris角点中任意地选取一个角点，把该Harris角点设为C0，并设为起点ST。接着在步骤14302H中，在水平方向上搜索下一个精选Harris角点，把搜索到的下一个精选Harris角点设为C1。在步骤14303H中，计算两个角点C1和C0之间的距离Dist_Refine_Corner，并在步骤14304H中判断该距离Dist_Refine_Corner是否小于预定的阈值DH0。如果判定为是，则在步骤14305H中将两个Harris角点C0和C1连接成直线，并在步骤14306H中把角点C1设为C0，并返回到步骤14302H，再次在水平方向上搜索下一个精选Harris角点，重复以下的处理。另一方面，如果步骤14304H中的判定结果为否，即Dist_Refine_Corner大于或等于阈值DH0，则进入步骤14307H，计算起点ST和角点C1之间的精选Harris角点的个数Num_Refine_Corner。在步骤14308H中，判断起点ST和角点C1之间的精选Harris角点的个数Num_Refine_Corner是否大于预定的阈值NH1，如果判定为是，则在步骤14309H中把连接起点ST和角点C1的直线确定为特征直线，如果判定为否，则在步骤14310H中抛弃这轮处理中所涉及的所有角点。接着在步骤14311H中判断是否对所有的精选Harris角点进行了上述处理。如果是，则结束步骤143的处理，如果还有未处理的精选Harris角点，则返回到步骤14301H，从还未处理的精选Harris角点中选取一个，重复以下的处理。

如此反复，直到对所有的精选Harris角点进行了处理，得到一系列水平特征直线。接着在步骤144中，基于这些水平特征直线提取水平特征矩形。

图9示出了提取单元14基于水平特征直线提取水平特征矩形的过程的流程图。

如图9所示，首先，提取单元14在步骤14401H中，从上一步骤143中提取的水平特征直线集中，选取任意的一条水平特征直线，设为L0，并设为起始直线STL。接着，在步骤14402H中，在垂直方向上搜索下一条特征直线，把搜索到的下一条特征直线设为L1。在步骤14403H中，计算两条特征直线L1和L0之间的距离Dist_Line，并在步骤14404H中判断该距离Dist_Line是否小于预定的阈值DH1。如果判定为是，则在步骤14405H中将两条特征直线L1和L0组成成一个矩形，并在步骤14406H中把特征直线L1设为L0，并返回到步骤14402H，再次在垂直方向上搜索下一条特征直线，重复以下的处理。另一方面，如果步骤14404H中的判定结果为否，即Dist_Line大于或等于阈值DH1，则进入步骤14407H，计算起始直线STL和直线L1之间的特征直线数Num_Line。在步骤14408H中，判断起始直线STL和特征直线L1之间的直线数Num_Line是否大于预定的阈值NH2，如果判定为是，则在步骤14409H中提取包含起始直线STL和直线L1之间所有特征直线的最小矩形，如果判定为否，则在步骤14410H中抛弃这轮处理中所涉及的所有特征直线。接着在步骤14411H中判断是否对所有的特征直线进行了上述处理。如果是，则结束步骤144的处理，如果还有未处理的特征直线，则返回到步骤14401H，从还未处理的特征直线中选取一个，重复以下的处理。

如此反复，直到对所有的特征直线进行了处理，得到一系列水平特征矩形。接着进入步骤145，在这些特征矩形中确定出字幕区域。

具体而言，提取单元14对于每一个特征矩形，分别计算其4个特征：长宽比、面积、宽度和高度，判别这些特征是否都处于预先确定的范围内。如果这4个特征分别都处于预定的范围内，则把该特征矩形确定为字幕区域，否则，抛弃该特征矩形。

同样地，提取单元14还可按照图5所示的流程，基于Harris角点提取垂直字幕区域。图10和图11示出了提取垂直字幕区域的处理。

图10示出了提取垂直字幕区域的特征直线的过程的流程图。如图10所示，首先在步骤14301V中，从步骤142中确定的精选Harris角点中任意地选取一个角点，把该Harris角点设为C0，并设为起点ST。接着在步骤14302V中，在垂直方向上搜索下一个精选Harris角点，把搜索到的下一个精选Harris角点设为C1。在步骤14303V中，计算两个角点C1和C0之间的距离Dist_Refine_Corner，并在步骤14304V中判断该距离Dist_Refine_Corner是否小于预定的阈值DH0。如果判定为是，则在步骤14305V中将两个Harris角点C0和C1连接成直线，并在步骤14306V中把角点C1设为C0，并返回到步骤14302V，再次在垂直方向上搜索下一个精选Harris角点，重复以下的处理。另一方面，如果步骤14304V中的判定结果为否，即Dist_Refine_Corner大于或等于阈值DH0，则进入步骤14307V，计算起点ST和角点C1之间的精选Harris角点的个数Num_Refine_Corner。在步骤14308V中，判断起点ST和角点C1之间的精选Harris角点的个数Num_Refine_Corner是否大于预定的阈值NH1，如果判定为是，则在步骤14309V中把连接起点ST和角点C1的直线确定为特征直线，如果判定为否，则在步骤14310V中抛弃这轮处理中所涉及的所有角点。接着在步骤14311V中判断是否对所有的精选Harris角点进行了上述处理。如果是，则结束步骤143的处理，如果还有未处理的精选Harris角点，则返回到步骤14301V，从还未处理的精选Harris角点中选取一个，重复以下的处理。

如此反复，直到对所有的精选Harris角点进行了处理，得到一系列垂直特征直线。接着进入步骤144，基于这些垂直特征直线提取垂直特征矩形。

图11示出了提取单元14基于垂直特征直线提取垂直特征矩形的过程的流程图。

如图11所示，首先，提取单元14在步骤14401V中，从上一步骤143中提取的垂直特征直线集中，选取任意的一条特征直线，设为L0，并设为起始直线STL。接着，在步骤14402V中，在水平方向上搜索下一条特征直线，把搜索到的下一条特征直线设为L1。在步骤14403V中，计算两条特征直线L1和L0之间的距离Dist_Line，并在步骤14404V中判断该距离Dist_Line是否小于预定的阈值DH1。如果判定为是，则在步骤14405V中将两条特征直线L1和L0组成成一个矩形，并在步骤14406V中把特征直线L1设为L0，并返回到步骤14402V，再次在水平方向上搜索下一条特征直线，重复以下的处理。另一方面，如果步骤14404V中的判定结果为否，即Dist_Line大于或等于阈值DH1，则进入步骤14407V，计算起始直线STL和直线L1之间的特征直线数Num_Line。在步骤14408V中，判断起始直线STL和特征直线L1之间的直线数Num_Line是否大于预定的阈值NH2，如果判定为是，则在步骤14409V中提取包含起始直线STL和直线L1之间所有特征直线的最小矩形，如果判定为否，则在步骤14410V中抛弃这轮处理中所涉及的所有特征直线。接着在步骤14411V中判断是否对所有的特征直线进行了上述处理。如果是，则结束步骤144的处理，如果还有未处理的特征直线，则返回到步骤14401V，从还未处理的特征直线中选取一个，重复以下的处理。

如此反复，直到对所有的垂直特征直线进行了处理，得到一系列垂直特征矩形。接着进入步骤145，在这些特征矩形中确定出字幕区域。

具体而言，提取单元14对于每一个垂直特征矩形，分别计算其4个特征：长宽比、面积、宽度和高度，判别这些特征是否都处于预先确定的范围内。如果这4个特征分别都处于预定的范围内，则把该垂直特征矩形确定为垂直字幕区域，否则，抛弃该特征矩形。

由此，得到了多个水平字幕区域和垂直字幕区域。可以将这些字幕区域直接输出。但是，根据情况，有可能检测出的水平字幕区域与垂直字幕区域存在重叠。因此，在本实施例中，还可以进一步通过后处理单元15对水平字幕区域与垂直字幕区域进行处理，使得水平字幕区域和垂直字幕区域完全分离而不重叠。

图12示出了后处理单元15进行的处理的示意流程图。如图12所示，首先，在步骤151中，从水平字幕区域中任意地选取一个，设为A，从垂直字幕区域中任意地选取一个，设为B。在步骤152中，判断这两个区域A和B是否相交，即A和B之间是否有重叠的部分。如果判定为否，则进入步骤158，判断是否对水平字幕区域与垂直字幕区域所有可能的配对进行了处理。如果152中判定为A和B之间有重叠部分，则进入步骤153，把区域A和B划分为3个区域C、A0和B0。其中，C是A和B的重叠区域，A0是区域A的除该重叠区域之外的区域，B0是区域B的除该重叠区域之外的区域。

接下来在步骤154中，计算这三个区域C、A0和B0中的主颜色。例如，在主颜色的确定中，首先确定预定数目的几种颜色，例如红，绿，黄，蓝，紫，棕，白，黑，灰，青等10种颜色。对于字幕区域内的各个像素，将其对应到这10种颜色中与自己最接近的颜色。对于各个字幕区域，确定在这10种颜色中，哪种颜色被对应的像素数最多，将该颜色确定为该字幕区域的主颜色。

在步骤155中，对C区域与其它两个区域A0和B0在颜色空间中的距离Dist_Color(A₀，C)和Dist_Color(B₀，C)之间的大小关系进行判断。颜色距离的计算方法为，

Dist_Color (A, B) = \sqrt{{(R_{A} - R_{B})}^{2} + {(G_{A} - G_{B})}^{2} + {(B_{A} - B_{B})}^{2}}

在这里，A和B为需要计算距离的两种颜色，R_A，G_A，B_A分别为A点的红，绿和蓝三个通道的值，R_B，G_B，B_B分别为B点的红，绿和蓝三个通道的值。

如果判定为区域A0与C的颜色距离Dist_Color(A₀，C)小于区域B0与C的颜色距离Dist_Color(B₀，C)，则认为重叠区域C属于区域A更好，在步骤156中，把区域B设定为原始的垂直字幕区域B除去重叠区域C之后的区域，而水平字幕区域A保持不变。如果判定为区域A0与C的颜色距离Dist_Color(A₀，C)大于或等于区域B0与C的颜色距离Dist_Color(B₀，C)，则认为重叠区域C属于区域B更好，在步骤157中，把区域A设定为原始的水平字幕区域A除去重叠区域C之后的区域，而垂直字幕区域B保持不变。由此，得到了互不重叠的水平字幕区域A和垂直字幕区域B。接下来在步骤158中，判断是否对水平字幕区域与垂直字幕区域所有可能的配对进行了上述处理。如果没有，则返回到步骤151，对水平字幕区域与垂直字幕区域的另一配对进行上述的处理，如果判定为已经对水平字幕区域与垂直字幕区域所有可能的配对进行了上述处理，则结束后处理单元15的处理，输出所提取出的水平字幕区域和垂直字幕区域。

根据本发明上述的第一实施例，对视频信号进行解码处理，生成时序的多帧图像；按照时间顺序把这多帧图像分成预定大小的图像组，对于每个图像组，基于边缘特征选择预定数量的图像；对所选择的图像进行平均处理，得到平均图像；然后基于角点特征，从平均图像中提取出字幕区域。由于利用了时序的多帧图像，并且基于边缘特征对这多帧图像进行选择来提取字幕区域，从而对于动态背景的视频，也可以增强背景和字幕的对比度，更加准确、鲁棒地检测出字幕区域。另外，由于基于角点特征来提取字幕区域，因此更加贴合东方文字的笔画特点，可以更加准确地检测中文、日文等的东方文字的字幕。

【第二实施例】

在本发明的示例性的第二实施例中，在多个尺度下提取字幕区域。

第二实施例的的字幕区域提取装置的基本结构与上述第一实施例相同，包括视频解码单元、图像选择单元、平均处理单元和提取单元，并可以包括与上述第一实施例同样的后处理单元。不同之处在于提取单元所进行的处理。下面对第二实施例中提取单元所进行的处理进行详细说明。在下面的说明中，对与第一实施例相同或相应的部分赋予相同的标号，并省略重复的说明。

在第二实施例中，假设由视频信号解码得到的图像的尺寸为720×480(像素)，提取单元14在720×480、360×240和180×120这三个尺度下分别提取出水平字幕区域和垂直字幕区域，并把所提取的各个区域归一化到720×480的尺度下，利用K均值聚类算法进行合并。

图13示出了第二实施例中字幕区域提取装置14所进行的处理的示意流程图。如图所示，提取单元14并行地在720×480、360×240和180×120这三个尺度下工作。720×480是原始的图像尺寸，而在360×240尺度下，提取单元14首先将原始的平均图像缩小为360×240，对于缩小后的360×240的图像，基于Harris角点提取水平字幕区域和垂直字幕区域，然后将提取的水平字幕区域和垂直字幕区域放大两倍，即放大成原始的720×480的尺度。同样地，在180×120尺度下，提取单元14首先将原始的平均图像缩小为180×120，对于缩小后的180×120的图像，基于Harris角点提取水平字幕区域和垂直字幕区域，然后将提取的水平字幕区域和垂直字幕区域放大四倍，即放大成原始的720×480的尺度。关于基于Harris角点提取水平字幕区域和垂直字幕区域的处理，与上述第一实施例中参照图6～图11描述的处理相同，这里为简洁起见而不再重复地说明。

这里，多尺度下的参数选择原则是在大尺度下尽量检测出小尺寸的字幕，在小尺度下尽量检测出大尺度的字幕。所以在大尺度下，特征直线和特征矩形选择的阈值可以相对小一些，而小尺度下，阈值可以相对大一些。

至此，得到了不同尺度、不同方向上的6组字幕区域。接着，提取单元14利用K均值聚类算法对这6组字幕区域进行合并，得到聚类后的字幕区域。

K均值算法是一种公知的简单的非监督学习算法，其基本步骤包括：(1)从所有的字幕区域中，任意选择K个(例如5个)矩形作为初始集合，求出集合的中心，(2)按照字幕区域的中心与对应集合的中心之间的欧式距离最近的原则，把所有字幕区域分配到这5个集合中，(3)对于各个集合，对集合中的所有字幕区域进行平均，把平均后的中心作为集合中心，(4)重复步骤(2)和(3)，直到集合中心位置不发生变化为止。由此，对不同尺度下提取出的字幕区域进行合并。

因为K均值算法是本领域公知的，因此为简明起见，这里不再对此进行详细的说明。

提取单元14之外的其他单元所进行的处理与上述第一实施例中描述的相同，因此这里不再重复说明。

根据本发明的第二实施例，在多个尺度下提取字幕区域，对提取的多组字幕区域进行聚类合并。因此，除了上述第一实施例中的优点之外，可以更加准确地提取出视频中存在的所有字幕。

以上根据示例性的实施例对本发明进行了说明，可见本发明的主旨在于提出了这样一种从视频信号中提取字幕区域的处理：对视频信号进行解码，生成多帧图像；按照时间顺序把所述多帧图像分成预定大小的图像组，对于每个图像组，基于边缘特征选择预定数量的图像；对于各个所述图像组，对所选择的图像进行平均处理，得到平均图像；以及从所述平均图像中提取角点，基于角点从所述平均图像中提取出字幕区域。应该理解的是，本发明不限于上述的各种细节。

例如，在以上的说明中，说明了基于Harris角点提取字幕区域，但是Harris角点仅仅是一个示例，本发明并不限于Harris角点，也可以利用其他的角点。

又例如，以上说明了通过K均值聚类算法对多个尺度下得到的字幕区域进行合并处理，但是，也可以采用其他的聚类算法。

又例如，在上述的第二实施例中，提取单元在3个尺度下进行字幕区域提取。但是，并不限于所述的3个尺度，可以在2个或4个以上的尺度下进行字幕区域提取并进行聚类处理。

上面根据本发明的字幕区域提取装置对本发明进行了说明，但是本发明同样可以实施为该字幕区域提取装置所实现的字幕区域提取方法，另外，还可以实施为使计算机执行该字幕区域提取方法的程序，以及记录了该程序的计算机可读存储介质。

Claims

1.一种从视频信号中提取字幕区域的装置，该装置包括：

2.如权利要求1所述的装置，其中，

所述提取单元在多个尺度下、在水平和垂直方向上分别提取水平字幕区域和垂直字幕区域，并对所述多个尺度下提取的字幕区域进行聚类处理。

3.如权利要求1所述的装置，其中，

所述提取单元根据所述角点的密度提取特征直线，并根据所述特征直线的密度提取字幕区域。

4.如权利要求3所述的装置，其中，

所述提取单元从所述平均图像中提取Harris角点，对于每个Harris角点，计算以该Harris角点为中心的预定尺寸的窗口内的Harris角点的数目，若所述数目未达到预定的阈值，则抛弃该Harris角点。

5.如权利要求1所述的装置，其中，

所述提取单元在水平和垂直方向上分别提取水平字幕区域和垂直字幕区域，

该装置进一步具有后处理单元，该后处理单元对所述提取单元提取的水平字幕区域和垂直字幕区域进行处理，使得所述水平字幕区域和垂直字幕区域不相互重叠。

6.一种从视频信号中提取字幕区域的方法，该方法包括以下步骤：

对所述视频信号进行解码，生成多帧图像；

7.如权利要求6所述的方法，其中，

在所述提取字幕区域的步骤中，在多个尺度下、在水平和垂直方向上分别提取水平字幕区域和垂直字幕区域，并对所述多个尺度下提取的字幕区域进行聚类处理。

8.如权利要求6所述的方法，其中，

在所述提取字幕区域的步骤中，根据所述角点的密度提取特征直线，并根据所述特征直线的密度提取字幕区域。

9.如权利要求8所述的方法，其中，

在所述提取字幕区域的步骤中，从所述平均图像中提取Harris角点，对于每个Harris角点，计算以该Harris角点为中心的预定尺寸的窗口内的Harris角点的数目，若所述数目未达到预定的阈值，则抛弃该Harris角点。

10.如权利要求6所述的方法，其中，

在所述提取字幕区域的步骤中，在水平和垂直方向上分别提取水平字幕区域和垂直字幕区域，

该方法进一步包括后处理步骤，对所述水平字幕区域和垂直字幕区域进行处理，使得所述水平字幕区域和垂直字幕区域不相互重叠。