CN104244073B

CN104244073B - 一种视频中滚动字幕的自动检测和识别方法

Info

Publication number: CN104244073B
Application number: CN201410503515.3A
Authority: CN
Inventors: 汪阳; 张健; 彭宇新
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2014-09-26
Filing date: 2014-09-26
Publication date: 2017-05-17
Anticipated expiration: 2034-09-26
Also published as: CN104244073A

Abstract

本发明提供了一种视频中滚动字幕的检测和识别方法，属于视频检索领域。该方法包括以下步骤：(1)滚动字幕区域的检测；(2)采用自适应检测窗口的方法，对检测到的垂直滚动字幕区域进行过滤，以降低字幕识别的重复率；(3)将包含水平字幕的多帧图像拼接为一帧包含完整滚动字幕的图像，经过二值化操作后，作为OCR识别软件的输入进行字幕识别。本发明充分考虑了视频中滚动字幕的运动特性，能够区分出视频中的固定字幕和滚动字幕，对水平滚动字幕进行拼接，对垂直滚动字幕采用字幕选择区域算法进行过滤，因此可以取得更好的识别性能，包括更高的查全率、查准率以及更低的重复率，从而能够充分发挥视频滚动字幕信息在视频检索中的作用。

Description

一种视频中滚动字幕的自动检测和识别方法

技术领域

本发明属于视频内容检索技术领域，具体涉及一种视频中滚动字幕的检测和识别方法。

背景技术

随着互联网技术与多媒体技术的迅速发展，网络上出现了海量的视频内容。此外，电视台等业务单位及数字图书馆、远程教学、视频点播等多媒体应用也产生了大量的视频资料。面对如此海量的视频数据，如何进行分析和检索，使用户能够迅速检索到想要的内容，成为了一个亟待解决的问题。传统的方法基于人工标注的关键词进行检索，这种方法因为主观性强、手工标注等缺点，不能适用于海量视频内容的检索与管理。而大量视频包含了丰富的字幕信息，这些字幕文字信息一般同视频的内容密切相关，能够对之进行较为准确的描述，因此如果能够正确识别这些文字，将有利于计算机对视频内容的自动分析和检索。然而，由于视频背景复杂多变，如何从视频中识别字幕文字本身就是一个极为困难的问题。

现有的视频字幕识别方法一般包含四个模块，即视频字幕检测模块、视频字幕增强模块、视频字幕提取模块和OCR软件识别模块。其中：视频字幕检测模块对视频内容进行了分析，在视频帧中检测和定位字幕区域；视频字幕增强模块主要采用多帧融合的方法，对在多个视频帧中检测到的相同字幕区域进行融合，以得到背景更为平滑、笔画更为清晰的文字图像；视频字幕提取模块对字幕区域图像进行处理，把文字从背景中分割出来，转化成可供OCR软件识别的二值文字图像；OCR软件识别模块识别二值文字图像，完成文字图像到文本的转换。在这4个模块中，OCR是比较成熟的技术，在市场上已有成功的应用。因此，现有研究主要集中在视频字幕检测、基于多帧融合的视频字幕增强和视频字幕提取这三个模块上。

然而，现有的方法只针对视频中的固定字幕进行处理，忽略了视频中的滚动字幕。视频中的滚动字幕是大量存在的，例如新闻节目、体育节目等视频会存在大量的滚动字幕播放新闻消息和比赛结果，电视剧、电影结尾的演职员表等也是滚动字幕。这些滚动字幕中包含了大量的有用信息，若能够将其检测和识别出来，将能够更好地描述视频信息，为视频内容的检索提供更多的有用信息。

发明内容

针对目前缺乏对视频滚动字幕进行有效检测与识别的现状，本发明提出了一种视频中滚动字幕的自动检测和识别方法，用于检测视频中是否包含滚动字幕，并能够将滚动字幕中的文本信息自动识别出来。本发明具有如下三个优点：(1)对于视频中的水平滚动和垂直滚动字幕提出了一种检测和跟踪方法，能够区分出视频中的固定字幕和滚动字幕，并能够将出现在不同位置的滚动字幕检测出来，并实现滚动字幕的跟踪；(2)提出了一种对于滚动字幕的拼接算法，能够将水平滚动的字幕拼接起来进行识别，并能够进一步利用多帧信息来提高滚动字幕的识别效果；(3)传统的视频字幕识别技术一般主要用于固定字幕，直接用于滚动字幕检测和识别会造成大量的重复文本识别，影响识别结果的可读性和可用性，而本发明能够很好地跟踪滚动字幕，避免重复识别，具有重复率低的优点。

为了达到以上目的，本发明的技术方案如下：

一种视频中滚动字幕的自动检测和识别方法，用于对视频中的滚动字幕进行检测，并识别出其中的文字；包括如下步骤：

(1)滚动字幕区域的检测：目的是检测出视频帧图像中含有的字幕区域是否为滚动字幕，并进一步判断滚动字幕是水平滚动还是垂直滚动；

(2)垂直滚动字幕的过滤和识别：基于步骤(1)中检测到的多帧连续包含垂直滚动字幕的视频图像，采用自适应检测窗口的方法，对检测到的字幕区域进行过滤，以降低字幕识别的重复率；相同的字幕会出现多次，我们将相同字幕的多帧视频图像的字幕区域根据背景和文字信息，选择其中最清晰的一帧图像来进行后续的字幕分割与提取操作，并输入OCR识别软件；

(3)水平滚动字幕的拼接和识别：基于步骤(1)中检测到的多帧连续包含水平滚动字幕的图像，将多帧图像拼接为一帧包含完整滚动字幕的图像，经过二值化处理后，作为OCR识别软件的输入。

进一步，上述的一种视频中滚动字幕的自动检测和识别方法，所述步骤(1)中，滚动字幕区域检测的第一步是判断检测到的字幕区域是否为垂直滚动字幕。本发明利用字幕区域的位置信息、边缘分布信息以及相似度信息来判断是否为垂直滚动字幕。首先我们判断连续两帧视频图像的字幕区域是否有相交区域，并且相交区域的面积需要满足下列的公式一。

公式一：Overlap(B_a,B_b)>r₁×Max(area(B_a),area(B_b))；

其中，B_a，B_b表示连续视频帧中检测到的两个字幕区域，Overlap(B_a,B_b)表示B_a与B_b相交区域的面积，r₁的取值范围为0到1，area(B_a)与area(B_b)分别表示B_a与B_b的面积。如果公式一条件成立，则继续进行垂直滚动字幕的判定；否则进行下一步水平滚动字幕的判定。B_a与B_b判定为相交后，我们将B_a区域在垂直方向上移动offset偏移量，计算B_a与B_b相交区域的相似度，目的是得到能够使得相似度最大的偏移量offset。我们采用下列的公式二计算前后两帧视频图像字幕区域的相似度。

公式二：

其中，Same(B_a,B_b)表示B_a与B_b相交区域二值化后，对应像素点的值是否相同，相同则其值为1，否则值为0。Sum(Same(B_a,B_b))表示B_a与B_b相交区域二值化后具有相同像素值的像素点的总数。计算得到的offset即为垂直滚动字幕的垂直运动速度，offset值大于0则为垂直滚动字幕，否则进入下一步判断。

进一步，上述的一种视频中滚动字幕的自动检测和识别方法，所述步骤(1)中，滚动字幕区域检测的第二步是判断检测到的字幕区域是否为水平滚动字幕。在第一步判断为非垂直滚动字幕后，我们接着判断连续视频帧中的两个字幕区域B_a与B_b是否为水平滚动字幕。判断是否为水平滚动字幕的方法与判断垂直滚动字幕的方法基本相同，不同的地方在于：在垂直滚动字幕判定时的offset为垂直方向上的偏移量，而在水平滚动字幕判定时，offset为水平方向上的偏移量。同样的offset值大于0则为水平滚动字幕，否则为静态字幕。

进一步，上述的一种视频中滚动字幕的自动检测和识别方法，所述步骤(2)中，垂直滚动字幕过滤和识别的第一步是垂直滚动字幕的过滤。本发明利用检测到的字幕区域的位置信息和形状信息进行检测窗口的设定。首先，我们基于步骤(1)中判定为垂直滚动字幕的第一帧视频图像所检测到的字幕区域，计算得到靠近视频图像顶端最近的字幕区域的位置信息和形状信息。根据得到的字幕区域的位置信息和形状信息，将检测窗口中心设定在该字幕区域的中心，长度为视频图像的长度，高度为字幕区域高度的n倍，n的取值范围为2至4。检测窗口根据垂直滚动字幕的第一帧的字幕信息进行设定，当该垂直滚动字幕结束时，检测窗口撤销。将检测窗口区域外的字幕过滤掉，仅保留检测窗口区域内的字幕，这种方法能够有效降低滚动字幕识别的重复率。

进一步，上述的一种视频中滚动字幕的自动检测和识别方法，所述步骤(2)中，垂直滚动字幕过滤和识别的第二步是垂直滚动字幕组识别。同一文字的垂直滚动字幕会被检测到多次，即使经过检测窗口的过滤，含有相同字幕文字的视频帧也会出现多次，因此我们根据字幕区域的位置信息、边缘分布信息和相似度信息来判断连续视频帧的字幕区域是否含有相同的字幕区域。之后选取含有相同字幕区域的视频图像组中的某一帧去识别。

进一步，上述的一种视频中滚动字幕的自动检测和识别方法，所述步骤(3)中，水平滚动字幕的拼接首先要计算连续视频帧图像水平滚动字幕区域的拼接点。本发明采用上述步骤(1)中判断水平滚动字幕的方法计算得到offset偏移量，offset即为第二帧字幕区域需要拼接到第一帧图像的起始横坐标。根据计算得到的拼接点进行图像的拼接，拼接得到包含完整水平滚动字幕的视频图像，对其做二值化等处理后，作为OCR识别软件的输入进行字幕文字识别。

一种基于视频字幕信息进行视频检索的方法，其步骤包括：

(1)检测和识别视频中的固定字幕与滚动字幕，其中滚动字幕采用本发明的上述方法进行检测和识别；

(2)输入视频检索的关键词，可以将这个关键词和识别出的字幕文字信息进行匹配，这样不仅可以检索出含有检索关键词的视频，还可以进一步定位到含有检索关键词的视频帧，从而得到全面的视频检索结果。

本发明的主要有益效果在于：(1)能够对视频中滚动字幕进行有效的检测和跟踪；(2)能够支持不同滚动方式的视频字幕，包括新闻中的水平滚动字幕和电影电视剧演职员表的垂直滚动字幕等，对于这些滚动方式都能够较好地检测和识别；(3)对于滚动字幕的识别具有较高的准确率和较低的重复率。从而能够发挥本发明在视频检索中的重要作用。

本发明之所以具有上述好的效果，其原因在于：发明了一种对视频中滚动字幕的检测和跟踪方法，能够很好地判断出视频中的字幕区域是否滚动，并能够有效地跟踪滚动字幕，跟踪包含重复内容的滚动字幕能够避免重复识别，降低重复率；发明了一种滚动字幕的拼接方法，能够对水平滚动字幕进行有效地拼接，对于垂直滚动的字幕，则能够利用包含相同内容的不同字幕区域的多帧视频信息，选择出背景与文字对比度更高的一帧图像，在进一步降低重复率的同时，能够取得更好的识别效果。

附图说明

图1是本发明的视频中滚动字幕的检测与识别方法的简易流程图。

图2是本发明的视频中滚动字幕的检测与识别方法的具体流程图。

图3是实施例中滚动字幕检测方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述。

本发明的一种视频中滚动字幕的检测和识别方法，其简易流程图如图1所示，更具体的流程如图2所示，具体包含以下步骤：

1.视频字幕检测与定位

视频字幕检测与定位主要检测视频帧中是否包含字幕，并定位到字幕文字区域的位置。主要包含两个步骤：累积边缘图生成和文字区域定位与过滤。下面分别介绍这两个步骤的具体方法。

边缘检测是视频文字检测和识别的第一步。为了获得更好的边缘强度图，我们采用累积边缘图生成的方法来获取边缘强度图。累积边缘图由在原图的YUV各个分量上检测到的边缘图合并得到。设原图为I，I的累积边缘图E由公式三计算得到：

公式三：E(x,y)＝min(E_Y(x,y)+E_U(x,y)+E_v(x,y),255)

在公式三中，E_Y，E_U和E_V分别是图像的YUV分量上检测到的边缘图，分别由公式四计算得到：

公式四：E_κ＝max(S_H,S_V,S_LD,S_RD),κ∈{Y,U,V}

在公式四中，S_H,S_V,S_LD和S_RD分别是利用Sobel边缘检测算子计算得到的水平、垂直、左对角线和右对角线的边缘强度值。利用上述方法得到的累积边缘图中还包含了大量的背景边缘信息，进一步通过设定阈值T_b，若累积边缘图中的强度值小于T_b则认为是背景边缘，并把相应的E(x,y)置为0，这样能够去除背景中的边缘噪声，得到更加清晰的边缘强度图。

得到视频帧的累积边缘图后，进一步进行文字区域定位与过滤。本实施例采用文献“Lyu MR,Song JQ,Cai M.A comprehensive method for multilingual video textdetection,localization,and extraction[J].IEEE Trans.on CSVT,2005,15(2):243-255.”中的方法来进行文字区域定位，通过对累积边缘图进行不断的水平投影和垂直投影来定位文字区域。具体地，对每一个边缘子图E_i，首先对E_i进行水平投影，得到E_i中每一行的边缘像素数目，并对投影图进行垂直分割，得到n个子区域集合H；对上述集合中每一个子区域H_i，进一步对每一个H_i进行垂直投影，根据投影图进行水平分割，得到m个子区域集合V；对上述集合V中每一个子区域V_i，不断重复上述步骤进行水平投影和垂直投影，直到投影图不可分为止。这样即可定位出文字区域。在上述方法的分割过程中，本实施例采用基于局部阈值的方法，从下往上扫描投影图，把边缘强度相近的行归为一组，并随时更新这个组所有行的边缘像素数目平均值。如果当前扫描行的值和当前组的平均值差别很大，就进行分割。然后继续往上扫描，只有扫描行的值大于一个最低阈值时，才开始一个新的组。采用局部阈值的方法比全局阈值的方法具有更好的定位效果。

通过上述文字区域定位得到的区域中还存在着大量的错误区域，本实施例进一步采用基于SVM的方法过滤错误文字区域。首先对每一个文字区域提取特征表示，具体地，对检测得到的图像边缘图计算均值、方差、能量、熵、惯量以及同次性这六个特征；然后利用SVM训练文字区域的判断模型，能够准确地判断出正确的文字区域和错误的文字区域，提高文字区域检测和定位的准确率。

2.视频滚动字幕检测

视频滚动字幕检测主要是判断检测到的字幕是垂直滚动字幕、水平滚动字幕，还是静态字幕，并对滚动字幕进行拼接和过滤。主要包含3个部分：滚动字幕区域的检测、垂直滚动字幕的过滤和识别、和水平滚动字幕的拼接和识别。下面具体说明每个部分的实施方法。

(1)滚动字幕区域的检测

滚动字幕区域检测的方法流程如图3所示，第一步，判断检测到的字幕区域是否为垂直滚动字幕区域。首先我们判断连续两帧视频图像的字幕区域是否相交，并且相交区域的面积需要满足公式五。

公式五：Overlap(B_a,B_b)>r₁×Max(area(B_a),area(B_b))

其中，B_a，B_b表示连续视频帧中检测到的两个字幕区域，Overlap(B_a,B_b)表示B_a与B_b相交区域的面积，r₁的取值范围为0到1，area(B_a)与area(B_b)分别表示B_a与B_b的面积。如果公式五条件成立，则继续进行垂直滚动字幕的判定；否则，进行下一步水平滚动字幕的判定。B_a与B_b判定为相交后，我们将B_a区域在垂直方向上移动offset偏移量，计算B_a与B_b相交区域的相似度，目的是得到能够使得相似度最大的偏移量offset。我们采用公式六计算两个区域的相似度。

公式六：

其中，Same(B_a,B_b)表示B_a与B_b相交区域二值化后，对应像素点的值是否相同，相同则其值为1，否则值为0。Sum(Same(B_a,B_b))表示B_a与B_b相交区域二值化后具有相同像素值的像素点的总数。计算得到的offset即为垂直滚动字幕的垂直运动速度，offset值大于0则为垂直滚动字幕，否则进入下一步判断。这一步的方法流程如下所示。

第二步，判断检测到的字幕区域是否为水平滚动字幕。在第一步判断为非垂直滚动字幕后，我们接着判断连续视频帧中的两个字幕区域B_a与B_b是否为水平滚动字幕。判断是否为水平滚动字幕的方法与判断垂直滚动字幕的方法基本相同，不同点在于：在垂直滚动字幕判定时的offset为垂直方向上的偏移量，而在水平滚动字幕判定时offset为水平方向上的偏移量。同样的offset值大于0则为水平滚动字幕，否则为静态字幕。

(2)垂直滚动字幕的过滤和识别

第一步，设定自适应的检测窗口。基于步骤(1)中判定为垂直滚动字幕的第一帧视频图像所检测到的字幕区域，计算得到靠近视频图像顶端最近的字幕区域的位置信息和形状信息。根据得到的字幕区域的位置信息和形状信息，将检测窗口中心设定在该字幕区域的中心，长度为视频图像的长度，高度为字幕区域高度的n倍，n的取值范围为2至4。检测窗口根据垂直滚动字幕的第一帧的字幕信息进行设定，当该垂直滚动字幕结束时，检测窗口撤销。

第二步，垂直滚动字幕的过滤。根据上一步得到的检测窗口，对检测到的字幕区域进行过滤，在检测窗口内的字幕区域满足公式七。

公式七：Overlap(B_window,B_caption)>r₂×area(B_caption)

其中，B_window表示检测窗口，B_caption表示字幕区域，r₂的取值范围为0到1。满足公式七的字幕区域被保留，其他的字幕区域则被过滤掉，这有效地降低了识别的重复率。

第三步，判断字幕区域是否含有相同文字。首先，我们判断连续视频帧图像的字幕区域是否相交，且相交区域的面积是否满足公式八，其中r₃的取值范围为0到1。

公式八：Overlap(B_a,B_b)>r₃×Min(area(B_a),area(B_b))

如果满足公式八，则继续进行判定是否包含相同文字，否则判定为包含不同的文字。对于满足公式八的两个字幕区域，利用步骤1字幕检测时得到的边缘图计算其相似度，使用公式九计算两个区域的相似度。

公式九：Similar(B_a,B_b)＝Sum(|E_a(p)E_b(p)|),p∈B_a,p∈B_b

其中，E_a(p)和E_b(p)表示像素点的边缘强度。如果相似度满足公式十，则认为包含相同文字，否则包含不同文字。

公式十：Similar(B_a,B_b)<D×Overlap(B_a,B_b)

其中，D表示像素点的平均边缘强度差值。在进行识别时，选择具有相同文字字幕区域的视频帧组中的中间帧进行后续的字幕分割与提取。

(3)水平滚动字幕的拼接和识别

第一步，计算连续视频帧图像水平滚动字幕区域的拼接点。本发明采用上述步骤2第(1)步中判断水平滚动字幕的方法计算得到offset偏移量，offset即为第二帧字幕区域需要拼接到第一帧图像的起始横坐标。

第二步，两帧图像的拼接。通常滚动字幕持续的时间在1秒以上，而视频中一般1秒可以抽取24帧视频图像，因此没有必要将连续的两帧图像进行拼接，我们选取间隔M帧进行计算拼接点并进行两帧图像的拼接。为了综合考虑拼接的效率和效果，M的取值范围为24至72之间。我们将拼接得到的包含完整水平滚动字幕的视频图像进行二值化等处理后，作为OCR识别软件的输入进行字幕文字识别。

3.视频滚动字幕提取

在经过上述步骤得到拼接或多帧选择后的字幕区域之后，进一步进行视频滚动字幕提取，目的是获取清晰的滚动字幕二值图像，用于后续识别。主要分为两个步骤，即二值化和噪声去除，下面分别介绍。

在二值化部分，本实施例采用自适应选择颜色通道进行二值化的方法，首先我们通过公式十一来计算各个颜色通道的对比度：

公式十一：C_κ＝max(C_Y,C_U,C_V),κ∈{Y,U,V}

在公式十一中，C_Y，C_U和C_V分别是文字区域在YUV颜色分量上的对比度，它们分别由下列三个公式计算得到：

公式十二：

公式十三：

公式十四：

其中，E_Y，E_U和E_V分别是视频中图像的YUV分量上的边缘强度图，i和j分别是图像像素点的坐标，w和h分别是图像的宽和高。我们把E_Y，E_U和E_V中间部分的边缘强度值累加来作为C_Y，C_U和C_V的值。边缘强度图的高低代表了原图对比度的大小，并且文字一般出现在文字区域的中间部分，因此上述计算的C_Y，C_U和C_V的值能够反映文字区域对比度的大小。我们从中选取对比度最高的颜色通道来进行二值化，具体采用改进的Niblack方法来对图像进行二值化。对于图像中的每一个像素，根据像素周围区域的灰度值变化情况来自适应地计算得到局部阈值，通过这个阈值来进行二值化操作。

在噪声去除部分，本实施例首先采用连通分量分析和灰度一致性分析来去除一部分噪声，进一步在剩下的连通分量中，利用基于颜色的聚类方法来去除噪声。

最后把处理过后的文字区域二值化图像输入给OCR软件进行识别，以得到最终的滚动字幕的文字识别结果。

下面的实验结果表明，本发明能够对视频中的滚动字幕进行有效的检测与识别，并能够取得很好的识别效果。

本实施例中建立的数据库包含10段从多个著名网站上下载到的视频，如CNTV、优酷等，分辨率分别为480×360、632×472、688×384、1112×624，包含新闻、体育、电视剧三种类型的视频。经统计，这些视频中共包含1225条不同内容的滚动字幕，总字数为36876。这些视频中滚动字幕的滚动方向不一致，其中3个视频为垂直滚动字幕，7个视频为水平滚动字幕，而且滚动的字幕背景或有底色或为透明，因此对它们进行滚动字幕的检测和识别很困难，这有助于证明本发明方法的有效性。

为了同现有的方法进行比较，我们在视频滚动字幕的检测模块测试了以下两种不同的方法作为实验对比：

I.现有方法：2011年在《软件学报》上发表的文献“基于颜色聚类和多帧融合的视频文字识别方法”(作者是易剑，彭宇新和肖建国)，该方法即为本具体实施例中视频字幕检测与定位，视频滚动字幕提取模块和OCR识别模块。

II.本具体实施例：将本具体实施例的视频滚动字幕的检测模块加入到上述现有方法中，包括对垂直和水平滚动字幕进行检测、对水平滚动字幕进行拼接和对垂直滚动字幕进行自适应窗口过滤。

实验采用了三个评价指标，文字识别查全率(Recall)，文字识别查准率(Precision)和文字识别重复率(Repeat)。其中，文字识别查全率和文字识别查准率被用来衡量正确识别文字的能力，这两个指标都是越高越好；而文字识别重复率用来表示同一文字被重复识别的频率，这个指标则是越低越好。这三个指标的定义如下

Recall＝right/answer

Precision＝right/recognized

Repeat＝allright/right

其中，right是正确识别的文字字数，不包含重复识别的文字；answer是字幕答案的总字数；recognized是识别结果的总字数；allright是正确识别的所有文字的字数。

表1实验结果对比

从表1中可以看到，本发明方法II在文字查全率和查准率上都比现有方法I要高，在文字重复率上比现有方法I要低，这是因为，本发明考虑了滚动字幕的特点，加入了滚动字幕的检测和定位：一方面，本发明利用自适应检测窗口的方法，对垂直滚动字幕进行了跟踪和过滤，并进一步通过计算垂直滚动字幕区域的边缘强度相似性，识别出包含相同文字的滚动字幕区域，避免重复识别，降低重复率；另一方面，本发明通过字幕区域边缘强度图的相似度来计算水平滚动的距离，进一步对水平滚动字幕进行了拼接，将水平滚动字幕拼接成完整的字幕信息来进行识别，具有更好的识别效果。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种视频中滚动字幕的自动检测和识别方法，其特征在于，包括以下步骤：

(1)检测视频帧图像中的字幕区域，判断含有的字幕是否为滚动字幕，若为滚动字幕则进一步判断其是水平滚动还是垂直滚动；

该步骤利用字幕区域的位置信息、边缘分布信息以及相似度信息来判断是否为垂直滚动字幕；首先判断连续两帧视频图像的字幕区域是否有相交区域，而且相交区域的面积需要满足公式一：

Overlap(B_a,B_b)>r₁×Max(area(B_a),area(B_b))，

其中，B_a，B_b表示连续视频帧中检测到的两个字幕区域，Overlap(B_a,B_b)表示B_a与B_b相交区域的面积，r₁的取值范围为0到1，area(B_a)与area(B_b)分别表示B_a与B_b的面积；如果公式一条件成立，则继续进行垂直滚动字幕的判定；否则，进行下一步水平滚动字幕的判定；B_a与B_b判定为相交后，将B_a区域在垂直方向上移动offset偏移量，计算B_a与B_b相交区域的相似度，目的是得到能够使得相似度最大的偏移量offset；相似度的计算采用公式二：

S i m i l a r (B_{a}, B_{b}) = \frac{S u m (S a m e (B_{a}, B_{b}))}{O v e r l a p (B_{a}, B_{b})},

其中，Same(B_a,B_b)表示B_a与B_b相交区域二值化后，对应像素点的值是否相同，相同则其值为1，否则值为0；Sum(Same(B_a,B_b))表示B_a与B_b相交区域二值化后具有相同像素值的像素点的总数，计算得到的offset即为垂直滚动字幕的垂直运动速度，offset值大于0则为垂直滚动字幕；

(2)基于步骤(1)检测到的多帧连续包含垂直滚动字幕的视频图像，采用自适应检测窗口对检测到的字幕区域进行过滤，将相同字幕的多帧视频图像的字幕区域根据背景和文字信息，选择其中一帧作为OCR识别软件的输入；

(3)基于步骤(1)检测到的多帧连续包含水平滚动字幕的视频图像，将多帧图像拼接为一帧包含完整滚动字幕的视频图像，将该帧视频图像作为OCR识别软件的输入。

2.如权利要求1所述的方法，其特征在于，步骤(1)通过生成累积边缘图和文字区域定位与过滤，检测视频帧中是否包含字幕，并定位到字幕文字区域的位置。

3.如权利要求1所述的方法，其特征在于：所述步骤(1)在判断为非垂直滚动字幕后，接着判断连续视频帧中的两个字幕区域B_a与B_b是否为水平滚动字幕；判断是否为水平滚动字幕的方法与判断垂直滚动字幕的方法基本相同，不同的地方在于：在垂直滚动字幕判定时的offset为垂直方向上的偏移量，而在水平滚动字幕判定时offset为水平方向上的偏移量；同样的offset值大于0则为水平滚动字幕，否则为静态字幕。

4.如权利要求1所述的方法，其特征在于，所述步骤(2)进行垂直滚动字幕的过滤时，利用检测到的字幕区域的位置信息和形状信息进行检测窗口的设定，具体方法是：首先基于步骤(1)中判定为垂直滚动字幕的第一帧视频图像所检测到的字幕区域，计算得到靠近视频图像顶端最近的字幕区域的位置信息和形状信息，根据得到的字幕区域的位置信息和形状信息，将检测窗口中心设定在该字幕区域的中心，长度为视频图像的长度，高度为字幕区域高度的n倍，n的取值范围为2至4；检测窗口根据垂直滚动字幕的第一帧的字幕信息进行设定，当该垂直滚动字幕结束时，检测窗口撤销；将检测窗口区域外的字幕过滤掉，仅保留检测窗口区域内的字幕。

5.如权利要求4所述的方法，其特征在于，所述步骤(2)在垂直滚动字幕过滤之后进行垂直滚动字幕组识别；同一文字的垂直滚动字幕会被检测到多次，即使经过检测窗口的过滤，含有相同字幕文字的视频帧也会出现多次，因此首先根据字幕区域的位置信息、边缘分布信息和相似度信息来判断连续视频帧的字幕区域是否含有相同的字幕区域，之后选取含有相同字幕区域的视频图像组中的某一帧去识别。

6.如权利要求1所述的方法，其特征在于，所述步骤(3)中，水平滚动字幕的拼接首先要计算连续视频帧图像水平滚动字幕区域的拼接点；采用步骤(1)中判断水平滚动字幕的方法计算得到offset偏移量，offset即为第二帧字幕区域需要拼接到第一帧图像的起始横坐标，根据计算得到的拼接点进行图像的拼接，得到包含完整水平滚动字幕的视频图像。

7.如权利要求6所述的方法，其特征在于，所述步骤(3)选取间隔M帧进行计算拼接点并进行两帧图像的拼接，M的取值范围为24至72之间。

8.如权利要求1所述的方法，其特征在于，所述步骤(2)在垂直滚动字幕的过滤之后，以及所述步骤(3)在水平滚动字幕的拼接之后，进行二值化和噪声去除处理以获取清晰的滚动字幕二值图像，用于后续OCR识别。

9.一种基于视频字幕信息进行视频检索的方法，其步骤包括：

(1)检测和识别视频中的固定字幕与滚动字幕，其中滚动字幕采用权利要求1～8中任一权利要求所述方法进行检测和识别；

(2)输入视频检索的关键词，将该关键词和步骤(1)识别出的字幕文字信息进行匹配，检索出含有该关键词的视频，并进一步定位到含有该关键词的视频帧，从而得到全面的视频检索结果。