CN101115151A

CN101115151A - 一种视频字幕提取的方法

Info

Publication number: CN101115151A
Application number: CNA2007101185950A
Authority: CN
Inventors: 李鸿; 彭宇新; 肖建国
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2007-07-10
Filing date: 2007-07-10
Publication date: 2008-01-30
Anticipated expiration: 2027-07-10
Also published as: CN100562074C

Abstract

本发明提供了一种视频字幕提取的方法，属于视频分析和检索技术领域。该方法包括以下步骤：(1)对视频字幕区域进行基于连通区统计的字幕颜色判断，确认字幕颜色是深色还是浅色，同时反转浅色字幕的灰度图片为深色字幕图片；(2)对步骤(1)获得的灰度图片进行基于局部窗口分析的灰度图片二值化；(3)进行OCR软件识别，提取字幕文本结果。相比现有方法而言，本发明使用了字幕文字颜色判断和局部阈值的方法，能取得较好的二值化效果。本发明还可以首先对字幕区域进行灰度值调整，并对获得的二值化图片进行周边融合去噪，因此进一步提高了本发明的字幕识别结果。

Description

一种视频字幕提取的方法

技术领域

本发明属于视频分析和检索技术领域，具体涉及一种视频字幕提取的方法。

背景技术

随着互联网视频内容的不断增加，以及数字图书馆、视频点播、远程教学等大量的多媒体应用，如何在海量视频中检索出所需要的资料显得至关重要。传统的基于关键词描述的视频检索因为描述能力有限、主观性强、手工标注等原因，已经不能满足海量视频检索的需求。因此从20世纪90年代开始，基于内容的视频检索技术成为研究的热点问题，而视频字幕的识别技术正是实现视频检索的关键技术，如果能够自动识别出视频中的字幕信息，则可以建立高效的文本索引结构，从而实现基于查询文本的视频检索。因此，该技术不仅是下一代搜索引擎的关键技术，也是互联网视频管理和监控的关键技术，具有十分重要的研究和应用价值。现有的视频字幕提取技术，一般都是针对特定的视频，没有考虑视频字幕的多样性和复杂性，以及视频在时间上的冗余信息，因此不能有效提取视频中的字幕信息。

2005年在IEEE Transactions on Circuits and Systems for VideoTechnology上发表的文献“A comprehensive method for multilingualvideo text detection，localization，and extraction”(作者是Michael R.Lyu，Jiqiang Song，Min Cai，页码是243-255)，提出了一种视频字幕提取的方法。

该文献首先利用边缘检测算子求得视频帧的边缘图，然后用分析边缘投影图的波峰和波谷的方法来找到可能的字幕区域。基于字幕区域检测的结果，该文献利用局部阈值对字幕区域进行二值化，并对得到的二值图片进行填充以去除噪声，进而从中提取出文字。该方法主要针对背景简单、文字对比度较强的字幕区域。而对于背景复杂、文字对比度较弱的字幕区域提取的效果较差。因此适应面并不广，视频字幕的提取效果还需要提高。

发明内容

针对现有技术的不足，本发明提出了一种视频字幕提取的方法，用于获取视频中的字幕信息。该方法可以有效地获取准确、清晰的二值化字幕图片，从而可以更好地利用OCR软件获取视频完整的字幕文本。

为达到以上目的，本发明的技术方案如下：

一种视频字幕提取的方法，用于把视频字幕区域检测结果由灰度图转换成二值图，并利用OCR软件获取字幕文字识别结果，包括以下步骤：

(1)对视频字幕区域进行基于连通区统计的字幕颜色判断，确认字幕颜色是深色还是浅色，同时反转浅色字幕的灰度图片为深色字幕图片；

(2)对步骤(1)获得的灰度图片进行基于局部窗口分析的灰度图片二值化；

(3)对步骤(2)中得到的二值图片进行OCR软件识别，提取字幕结果。该字幕结果可以是视频字幕文本。

进一步，上述的视频字幕提取的方法，所述步骤(1)之前增加如下灰度值调整的步骤。具体方法如下：

对字幕区域的每一个像素x，按照下列公式调整它的灰度值。

公式一：I’(x)＝128+(I(x)-med)×ratio

公式二：med＝(max-min)×0.5

公式三：ratio＝255/(max-min)

其中，I’(x)是经过调整后像素x的新灰度值，I(x)是调整之前像素x的灰度值，med是字幕区域内所有像素的最大灰度值max与最小灰度值min的平均值，ratio表示灰度值调整的幅度。

进一步，上述的视频字幕提取的方法，所述步骤(2)和(3)之间增加如下步骤：对所述步骤(2)获得的二值图片进行周边融合去噪。具体地，去除二值化图片背景噪声的方法可以按照如下步骤进行：

A：把二值图片周边一定像素宽的所有像素都变成黑色；

B：寻找有周边像素的连通区，把这个连通区转成和背景相同的白色。

进一步，上述的视频字幕提取的方法，所述步骤(1)的颜色判断的具体方法是：用Otsu方法把灰度图片二值化，然后查找白色和黑色的4连通块，去除连通块外接矩形的宽高都极小的那些连通块，最后统计出的白色连通块个数COM_white和黑色连通块个数COM_black。如果COM_white＞COM_black，则字幕是浅色的，反之则为深色。

进一步，上述的视频字幕提取的方法，所述步骤(2)的具体方法是：利用一个小窗口从左到右依次重叠扫描灰度字幕区域，然后对小窗口中的灰度值进行分析得到Otsu阈值，进行二值化。

进一步，上述的视频字幕提取的方法，所述步骤(3)的具体方法是：把步骤(2)中得到的二值图片，输入OCR软件进行识别以获取视频字幕文本。

本发明的效果在于：与现有方法相比，本发明可以取得更高的视频字幕的识别率，从而充分发挥视频字幕信息在视频检索和视频搜索引擎中的巨大作用。

本发明之所以具有上述发明效果，其原因在于：本发明提出了基于连通区统计的字幕文字颜色判断、基于局部窗口分析的灰度图片二值化方法，最后通过OCR软件识别字幕区域的二值化图片，以获取视频的字幕文本。相比现有方法而言，本发明使用了字幕文字颜色判断和局部阈值的方法，能取得较好的二值化效果。本发明还可以首先对字幕区域进行灰度值调整，并对获得的二值化图片进行周边融合去噪，因此进一步提高了本发明的字幕识别结果。

附图说明

图1是本发明的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述。

本实施方式中，首先通过一种定位视频字幕区域的方法对视频中的字幕区域进行检测，然后采用本发明的视频字幕提取方法进行字幕提取。当然，对于采用任何现有的其他方法获得的视频字幕区域，也可以采用本发明的方法进行字幕提取。

1、视频字幕区域检测，包括：

(1)抽取视频帧，把视频帧转换成边缘强度图。

利用改进后的Sobel边缘检测算子计算每个像素点的边缘强度值，公式如下：

S＝Max(|S_H|，|S_V|，|S_LD|，|S_RD|)

其中，S_H、S_V、S_LD、S_RD分别表示水平、垂直、左对角线、右对角线这四个方向上的Sobel边缘强度值，Max是计算最大值。

(2)根据背景的复杂程度自动调整分割尺度，多次应用水平和垂直投影的方法分割出字幕区域。

需要一个待处理区域集合S，刚开始时，集合S中只有当前抽取的视频帧的边缘强度图区域。在处理的过程中，每次在S中取一个区域A₀进行处理，直到集合S为空为止。对区域A₀处理的方法是：首先对区域A₀进行水平方向的投影，统计每行边缘像素的数目，然后根据A₀的水平投影图进行垂直方向的分割。如果A₀在垂直方向是不可分割的，就把它作为一个整体进行垂直方向的投影和水平方向的分割；否则，把所有从A_X中分割出来的区域A₁，A₂...A_n进行垂直方向的投影和水平方向的分割。如果区域A_i根据其垂直投影图不能再进行水平方向的分割，就把它放入结果集合R中，否则把从A_i分割出来的区域放入集合S中等待处理。

在上述过程中，对于一个待分割的区域，根据背景复杂程度自动调整分割尺度对其进行分割。方法描述如下：对于一个待分割的区域，垂直分割的方法是从下往上扫描边缘强度的水平投影图做分割。水平分割的方法是从左往右扫描边缘强度的垂直投影图做分割。上述水平和垂直分割在扫描的过程中，把强度相近的行归为一组，并随时更新这个组所有行的边缘像素数目的平均值。如果当前扫描行的边缘像素数目和当前组的平均值差别很大，就进行分割，然后继续扫描下一行。只有扫描行的强度值大于一个阈值时，才开始一个新的组。当扫描到最后一行时，对这个区域的分割就完成了。

(3)利用视频在时间上的冗余信息，对检测到的字幕区域进行过滤，去除误判为字幕区域的背景块和重复出现的字幕区域。

去除误判为字幕区域的背景块的具体方法是：在单帧字幕区域检测过程中，本发明首先在每6个连续视频帧抽取1帧，把5个抽取帧的结果放在一个队列中，先进先出，对于一个新的抽取帧结果，把它加入队尾，然后队首的抽取帧退出队列，对退出队列的抽取帧中所有检测到的字幕区域进行分析；如果某个字幕区域A在队列的后面连续3个视频抽取帧中找到相同的字幕区域，就通过验证，确认该区域A确实是字幕区域，同时删除队列中抽取帧的相同字幕区域(短时间内重复出现)，否则该区域A不能通过验证而确认为被误判为字幕区域的背景块并去除。

最后去除重复出现的字幕区域的具体方法是：把所有和当前抽取帧的播放时间点小于一定时间间隔的抽取帧中的所有字幕区域结果备份在一个缓存集合中，在检测下一个抽取帧时，定期清除此集合中超过预先定义时间间隔的字幕区域。对于每一个通过多帧确认的字幕区域，如果能在此集合中找到相同的字幕区域，则认为是短期内重复出现的，忽略此区域，确认该字幕区域为一个重复出现的字幕区域并去除。如果找不到，则表明此字幕区域在一段时间内没有出现，是新的区域，因此把此区域放入最终结果中，同时在所述缓存集合中保持一个备份。

上述去除误判为字幕区域的背景块和重复出现的字幕区域的步骤中，使用如下公式判断两个字幕区域是否相同，当下述三个公式同时满足时，确认字幕区域A和字幕区域B相同，否则不同：

公式1：abs(area(A)area(B))＜R1×max(area(A)，area(B)))

其中abs(area(A)，area(B))是字幕区域A与B的面积之差的绝

对值，max(area(A)，area(B)))是A与B中较大的面积；

公式2：Cord(SP)＞(R2×SameSec(A，B))

其中 SP＝{Pixel|(Pixel_a＝＝0&&Pixel_b＝＝0)||(Pixel_a＞0&&Pixel_b＞0)}，Cord(SP)表示集合SP中元素的数目；

公式3：Average(abs(Pixel_a Pixel_b)|Pixel∈SNZP)＜R3

其中SNZP＝{Pixel|(Pixel_a＞0&&Pixel_b＞0)}。

对于在不同视频帧的字幕区域A和字幕区域B，设它们左上角的坐标分别为(x_a，y_a)和(x_b，y_b)，宽高分别为[w_a，h_a]和[w_b，h_b]，设w＝min(w_a，w_b)，h＝min(h_a，h_b)，两个区域的重叠区域SameSec为区域A中的矩形(x_a，y_a)(x_a+w，y_a+h)和区域B中的矩形(X_b，y_b)(x_b+w，y_b+h)。Pixel_a，Pixel_b为重叠区域SameSec中的相应的像素对，R1、R2、R3为比率系数。

2、采用本发明的是视频字幕提取方法提取字幕结果，具体流程如图1所示，包括如下步骤：

(1)对定位得到的视频字幕区域进行灰度值调整。

对字幕区域的每一个像素x，按照下列公式调整它的灰度值。

公式一：I’(x)＝128+(I(x)-med)×ratio

公式二：med＝(max-min)×0.5

公式三：ratio＝255/(max-min)

(2)对视频字幕区域进行基于连通区统计的字幕颜色判断，确认字幕颜色是深色还是浅色，同时反转浅色字幕的灰度图片为深色字幕图片。

利用Otsu方法把灰度图片二值化，然后查找白色和黑色的4连通块，去除连通块外接矩形的宽高都极小的那些连通块，最后统计出的白色连通块个数COM_white和黑色连通块个数COM_black。如果COM_white＞COM_black，则字幕是浅色的，反之则为深色。同时反转浅色字幕的灰度图片为深色字幕图片。

(3)对步骤(2)获得的灰度图片进行基于局部窗口分析的灰度图片二值化处理。

利用一个小窗口从左到右依次重叠扫描灰度字幕区域，然后对小窗口中的灰度值进行分析得到Otsu阈值，进行二值化。其中，窗口的高取为字幕区域的高，窗口的宽取为字幕区域高度的一半，窗口从左往右扫描的步长是窗口宽度的一半。

(4)对步骤(3)获得的二值图片进行周边融合去噪。

具体方法为：

A：把二值图片周边2个像素宽的所有像素都变成黑色；

(5)OCR软件识别。

最后把处理后的字幕区域二值化图片输入给OCR软件进行识别，以得到视频字幕文本。

下面的实验结果表明，与现有方法相比，本发明可以取得更高的查全率和查准率，从而充分发挥视频字幕信息在视频检索和视频搜索引擎中的巨大作用。

本实施例中建立了25个小时的视频数据库，其中RMVB格式的视频有10个，大约15个小时，包括电影和记录片；MPEG格式的电视节目有6个，大约10个小时，包括新闻和电视剧等视频节目。这些视频内容丰富，字幕的字体特征、颜色风格和排列走向也变化多样，这些都有助于证明本文方法对各种情况的适应性以及最终结果的有效性。

为了确认本发明在视频字幕提取方面的有效性，我们共进行了五组对比试验：第一组是对定位的灰度视频字幕图片不做任何处理，直接送给OCR软件识别(NO-ALL)；接下来的三组试验是在处理过程中，都少做本发明视频字幕提取方法的一项操作，分别是：不进行字幕区域灰度值调整的预处理(NO-PRE)，不进行字幕文字颜色判断(NO-COLOR)和不进行二值化去噪(NO-BIN)；最后一组是执行本具体实施方式中提取方法的所有操作。用字幕提取率(Caption Recognition)作为评价标准，它的定义如下所示，字幕提取率的结果是越高越好。五组实验的最终统计结果如表2所示。

字幕提取率＝正确提取的字幕文字数目/视频中所有的字幕文字数目

表2视频字幕提取的五组实验对比结果

视频类型RMVB视频MPEG视频平均

NO-ALL0.190.100.15

NO-PRE0.720.590.66

NO-COLOR0.650.430.58

NO-BIN0.230.120.18

本发明0.830.700.77

从表2可以看出，因为目前的OCR软件都是针对文档图片设计的，所以把视频字幕图片直接送给OCR软件识别，效果会很差(NO-ALL)，只有15％的字幕文字能被正确识别出来。基于同样的原因，不进行二值化去噪(NO-BIN)的识别率也很低。在不进行字幕颜色判断(NO-COLOR)的实验中，因为不知道字幕颜色的深浅，导致一部分字幕图片二值化处理错误，影响OCR软件的提取效果。同样，不进行预处理(NO-PRE)的提取效果也不好。最终，如果执行本发明的所有操作，最终的平均提取率可以达到77％，取得了表2最好的结果，这充分说明本发明在字幕提取方面的有效性。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

注：本发明的工作，由国家自然科学基金资助(项目批准号：60503062)。

Claims

1.一种视频字幕提取的方法，用于把视频字幕区域检测结果由灰度图转换成二值图，并利用OCR软件获取字幕的识别结果，其特征在于，包括以下步骤：

(3)进行OCR软件识别，提取字幕结果。

2.如权利要求1所述的一种视频字幕提取的方法，其特征在于，所述步骤(1)之前增加字幕区域的灰度值调整步骤，按照下列公式调整字幕区域的每一个像素x的灰度值：

公式一：I’(x)＝128+(I(x)-med)×ratio

公式二：med＝(max-min)×0.5

公式三：ratio＝255/(max-min)

3.如权利要求1所述的一种视频字幕提取的方法，其特征在于，所述步骤(2)和(3)之间增加如下步骤：对所述步骤(2)获得的二值图片进行周边融合去噪，具体方法为：

(A)把二值图片周边一定像素宽的所有像素都变成黑色；

(B)寻找有周边像素的连通区，把这个连通区转成和背景相同的白色。

4.如权利要求1所述的一种视频字幕提取的方法，其特征在于，所述步骤(1)中颜色判断的具体方法是：用Otsu方法把灰度图片二值化，然后查找白色和黑色的4连通块，去除连通块外接矩形的宽高都极小的那些连通块，最后统计出白色连通块个数COM_white和黑色连通块个数COM_black，如果COM_white＞COM_black，则字幕是浅色的，反之则为深色。

5.如权利要求1所述的一种视频字幕提取的方法，其特征在于，所述步骤(2)的具体方法是：利用一个小窗口从左到右依次重叠扫描灰度字幕区域，然后对小窗口中的灰度值进行分析得到Otsu阈值，进行二值化。

6.如权利要求1所述的一种视频字幕提取的方法，其特征在于，所述步骤(3)中用OCR软件识别视频字幕区域的二值图片以获取视频字幕文本。