CN102332096A

CN102332096A - 一种视频字幕文本提取和识别的方法

Info

Publication number: CN102332096A
Application number: CN201110315054A
Authority: CN
Inventors: 刘成林; 白博; 殷飞
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Beijing Zhongke Yueshen Technology Co Ltd
Priority date: 2011-10-17
Filing date: 2011-10-17
Publication date: 2012-01-25
Anticipated expiration: 2031-10-17
Also published as: CN102332096B

Abstract

本发明公开了一种视频字幕文本提取和识别的方法，其步骤包括：输入视频中字幕区域的图像；将输入图像转化为灰度图；判断字幕区域中字符排列的方向；将竖直排列的字幕区域逆时针旋转90°得到水平字幕区域；对字幕区域进行分行得到单行字幕图像；对单行字幕区域图像自动判断前景颜色，得到单行字幕二值图像；对单行字幕二值图像进行过切分得到字符片段序列；对过切分后的单行字幕二值图像进行文本行识别。本方法能有效分割水平和竖直的视频字幕文本行，准确判断字符前景颜色并滤除噪声，并得到准确的字符切分与识别结果，可以适用于视频和图像内容编辑、索引与检索等多种用途。

Description

一种视频字幕文本提取和识别的方法

技术领域

本发明属于模式识别与计算机视觉领域，特别是涉及视频图像中的文本检测与识别的处理方法。

背景技术

视频作为一种最为流行的媒体形式，通过网络和电视广泛传播。为了使用户更方便、快捷地寻找到感兴趣的视频内容，视频检索与分类逐渐成为模式识别与计算机视觉领域研究的热点。在这其中，视频中的文本信息，特别是字幕信息对于视频的检索以及分类效果最为显著。这是因为：(1)视频中的文本信息与视频的当前内容密切相关；(2)视频中的字符有非常明显的视觉特征，便于提取；(3)字符识别(OCR)技术相对目前的语音识别和图像分类技术更为准确和成熟。因此，视频中的文本检测与识别引起了广泛的兴趣。

视频中的文本检测与识别过程主要包括以下三个步骤：(1)文本检测与定位；(2)文本提取；(3)字符识别。其中针对步骤(1)的研究较多，涌现出了许多适用的方法和技术，如中国知识产权局2005年8月24日公开的公开号为1658227的专利(“检测视频文本的方法和装置”)主要根据帧间图像变化检测文本区域。针对步骤(2)(3)的技术相对较少，如2008年1月30日公开的公开号为101115151的专利(“一种视频字幕提取的方法”)根据颜色判断文字极性并通过局部二值化提取文字，然后用OCR软件进行识别。总的来说，现有的视频字幕文字提取和识别的技术还不够完善，主要体现在：对于复杂多变的背景，特别是与前景颜色相似甚至相同的背景无法处理；对于多变的字体，如：宋体、黑体、楷体等的适应性不强；字符识别采用常规的OCR方法，对字符切分和字符图像噪声、低分辨率考虑不足。

针对上述未解决的技术问题，本发明提出了一种有效的用于视频中字幕区域文本提取与识别的方法。

发明内容

本发明的目的是为了克服视频中文本的背景颜色复杂、前景颜色的不确定性、字体多变性和字符切分的不确定性，从而提出了一种对字体、背景颜色具有鲁棒性、并且可以自动判断前景颜色的文本提取和识别方法，对视频字幕文本能够实现快速、准确的提取、切分与识别。

本发明提出的一种视频字幕文本提取和识别的方法采用的技术方案为：

步骤S1：输入视频中字幕区域的图像；

步骤S2：将输入图像转化为灰度图；

步骤S3：判断字幕区域中字符排列的方向；

步骤S4：如果字幕区域中字符排列的方向为竖直排列，则将竖直排列的字幕区域逆时针旋转90°得到水平字幕区域；

步骤S5：对字幕区域进行分行得到单行字幕图像；

步骤S6：对单行字幕图像自动判断前景颜色，并得到真实的单行字幕二值图像；

步骤S7：对单行字幕二值图像进行过切分得到字符片段序列；

步骤S8：对过切分后的单行字幕二值图像进行文本行识别。

本发明提出的视频字幕文本提取与识别方法的有益效果为：

(1)本发明提出的方法能同时处理水平和竖直的视频字幕文本行；

(2)本发明提出的方法能够对字幕图像区域进行自动分行，对多文本行的字幕图像进行处理与识别；

(3)本发明提出的方法通过对单行字幕图像的连通部件进行分析，自动确定字符前景颜色并滤除噪声连通部件，从而得到清晰的字符前景二值化图像；

(4)本发明提出的方法对文本行图像进行字符过切分得到候选切分方式，并结合候选字符的识别分数和语言上下文模型对候选切分方式进行评价，同时得到字符切分和识别结果，避免了字符宽度变化和间隔不均匀以及字符间笔画粘连造成的切分错误。

综合说来，本发明的视频字幕文字提取和识别方法能有效分割字幕文本行，准确判断字符前景颜色并滤除噪声，并得到准确的字符切分与识别结果，可以适用于视频和图像内容编辑、索引与检索等多种用途。

附图说明

图1是本发明提出的视频字幕文字提取和识别方法流程图。

图2是对字幕图像进行分行的流程图。

图3是对单行字幕图像进行自动判断前景并二值化的流程图。

图4是对二值单行字幕图像进行过切分的流程图。

图5是本发明方法的实现结构图。

图6是对单行字图像进行二值化和去噪后的图像示例。

图7是对二值单行字幕图像进行过切分的图像示例。

图8是对过切分后单行二值图像进行识别中候选切分网格生成的图像示例。

图9是一幅水平字幕区域图像的识别结果示例。

图10是一幅竖直字幕区域图像的识别结果示例。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明可在个人电脑、服务器等计算设备上实现。

本发明采用的技术方案为：将视频中的字幕区域进行分行，对每一行自动判断前景颜色并生成二值图像，对二值图像中的字符进行切分与识别，得到最终的文本识别结果。其中对于视频中字幕的定位不是本发明的内容，假设已经用别的方法定位得到了字幕区域。

参照图1，本发明提出的视频字幕文字提取和识别方法具体包括以下几个主要步骤：

步骤S1：输入视频中字幕区域的图像；

步骤S2：将输入的图像转化为灰度图；

将输入图像转化为灰度图的过程是：设输入图像中的每一个像素点的R、G、B值分别为r、g、b，则变换后的灰度图中该像素点的灰度值为gray＝0.299×r+0.587×g+0.114×b。

步骤S3：判断字幕区域中字符排列的方向；

对字幕区域中字符排列方向进行判断的过程是：比较输入图像的长和宽，当输入图像的长大于等于宽时，认为字幕是水平排列；当宽大于长时，认为字幕是竖直排列。

设原图像的宽、高分别为W₁、H₁，P₁(x，y)为原图像横坐标为x、纵坐标y的点所对应的灰度值；则旋转后的图像的宽、高分别为W₂＝H₁、H₂＝W₁，经过逆时针旋转90°，P₂(x，y)＝P₁(y，x)为旋转后图像横坐标为x、纵坐标y的点所对应的灰度值。

步骤S5：对字幕区域进行分行得到单行字幕图像；

参照图2，对字幕区域进行分行的具体过程包括如下步骤：

步骤S51：利用Sobel算子求取字幕区域中每个像素点的边缘强度，得到字幕区域边缘图像；

步骤S52：利用大津法(Otsu)对字幕区域边缘图像进行二值化得到二值图像，边缘图像中边缘强度超过阈值的像素点记为有效边缘点，置为1，否则置为0；

步骤S53：统计二值图像中每一行(指像素行，以下同)的有效边缘点数；设二值图像的高为H，有效边缘点总数为T，设有效边缘点数阈值为

从二值图像的起始行开始，按某一扫描方向逐行进行扫描，优选地，将二值图像平均分为上下等高的两个部分，分别统计上下两部分的有效边缘点个数，如果上半部分的有效边缘点数多，则以最上一行为起始行，扫描方向为从上至下；否则，以最下一行为起始行，扫描方向为从下至上。当某行中的有效边缘点数超过阈值TH时，则以该行为基准，按扫描方向的反方向倒退三行作为一个文本行的开始，然后按扫描方向跳跃20行，继续按扫描方向进行扫描；当某一行中所含的有效边缘点数低于阈值TH时，则以该行为基础，按扫描方向前进三行作为一个文本行的结束；重复以上过程，直至扫描完最后一行停止；最后就会得到所有的文本行区域。取每个文本行区域的原始灰度图像，即单行字幕图像，进行下面的前景颜色判断和二值化。

参照图3，对单行的字幕图像自动判断前景颜色，并得到真实的单行字幕二值图像的具体过程包括如下步骤：

步骤S61：对单行字幕图像进行局部二值化，局部二值化窗口为边长等于三分之一图像高度的正方形，在窗口内的阈值用大津法(Otsu)计算，如果窗口中心点的灰度值大于阈值，则二值化输出为1，低于或等于阈值则二值化输出为0；

步骤S62：计算两个全局的阈值：高亮度阈值ThH和低亮度阈值ThL，如果单行字幕图像所有像素点的平均灰度值为m，方差为v，则高亮度阈值为ThH＝m+0.3×v，低亮度阈值为ThL＝m-0.3×v；

步骤S63：对于单行字幕图像中的每一个像素点，如果其局部二值化的输出为1，并且本身灰度值高于高亮度阈值ThH，则记为前景候选1；如果其局部二值化的输出为0，并且本身灰度值低于低亮度阈值ThL，则记为前景候选2；其他不符合以上条件的像素点均不作为前景候选；

步骤S64：基于前景候选1和前景候选2分别生成二值图像，对每个二值图像分别进行去噪和是否为真实前景进行打分，分值为TM；取得分(TM)低的前景二值图像为最终的单行字幕二值图像。

所述步骤S64中对两种前景候选的二值图像分别进行去噪，并对每个像素是否为真实前景进行打分的具体过程包括如下步骤：

步骤S641：将所有对应当前前景候选(前景候选1或前景候选2)，且距离单行字幕图像边缘距离大于2的像素点记为1，其他像素点记为0，生成二值图像；

步骤S642：对所得二值图像的前景像素，即标记为1的像素点提取连通部件，进而利用每个连通部件与背景，即标记为0的像素点，的颜色对比度、几何形状、位置关系以及与字符的相似程度等信息，对步骤S641所得的二值图像进行去噪；

利用每个连通部件与背景的颜色对比度、几何形状、位置关系以及与字符的相似程度等信息，对S641所得的二值图像进行去噪的具体过程包括如下步骤：

步骤S6421：从生成的二值图像中提取连通部件，顺序分析和处理每一个连通部件；

步骤S6422：设第i个连通部件的top_i为所含像素点纵坐标的最小值，bottom_i为所含像素点纵坐标的最大值，left_i为所含像素点横坐标的最小值，right_i为所含像素点横坐标的最大值，设单行字幕图像的行高为h；

步骤S6423：对第i个连通部件的每个边缘点，计算其与相邻背景点的灰度值差δ，如果δ＞v(v为整行单行字幕灰度图像所有像素点灰度值的方差)，则将该边缘点记为合理边缘点；

步骤S6424：设第i个连通部件所含边缘点数为EN_i，合理边缘点数为REN_i，若满足条件

则删除该连通部件；

步骤S6425：设第i个连通部件的宽、高分别为w_i、h_i，若满足如下条件之一：(1)max(w_i，h_i)＜0.2×h∩min(w_i，h_i)＜0.1×h，(2)w_i＞2×h∩h_i＜0.4×h，则删除该连通部件；

步骤S6426：设第i个连通部件的垂直中心位置为

若满足CH_i＜0.2×h∪CH_i＞0.8×h，则删除该连通部件；

步骤S6427：设第i个连通部件的平均笔画宽度为SW_i，其计算方法如下：设连通部件所含像素点的个数为N_i，边缘点个数为C_i，则笔画宽度

设所有连通部件笔画宽度的平均值为SW，若第i个连通部件满足SW_i＞1.5×SW∩w_i＜h，则删除该连通部件。

步骤S643：对去噪后得到的二值图像进行形态打分，得到分值M；

对去噪后得到的二值图像进行形态打分，得到分值M的具体过程包括如下步骤：

步骤S6431：对M进行初始化，M＝0；

步骤S6432：统计步骤S642去噪处理后所有剩余连通部件的平均高度averageh、平均宽度averagew、最大高度maxh、最大宽度maxw、所有剩余连通部件的总跨度length，其中，length＝max(right_i)-min(left_i)，right_i为第i个连通部件中所有像素点横坐标的最大值，left_i为第i个连通部件中所有像素点横坐标的最小值，如果满足如下条件之一：(1)剩余连通部件的数目为0，(2)averagew＜0.3×h，(3)averageh＜0.3×h，(4)maxh＜0.5×h，(5)maxw＜0.5×h，该二值图像的形态打分分值M为1000；

步骤S6433：若M≠1000，估计二值图像中整行字的上边缘ET，下边缘EB，有效连通部件的数目usefulNum，有效连通部件所含像素点数目的均值averageNum，平均字符宽度averageWid，计算方法如下：ET为所有满足top_i＜0.3×h的连通部件的top_i的平均值，EB为所有满足bottom_i＞0.7×h的连通部件的bottom_i的平均值，usefulNum为二值图像中满足条件h_i＞0.3×h∩h_i＜0.9×h的连通部件的数目，averageNum为二值图像中满足条件h_i＞0.3×h∩h_i＜0.9×h的连通部件所含像素点数目的均值，averageWid为满足条件hi＞0.5×h∩h_i＜h的连通部件的hi的均值；

步骤S6434：如果该二值图像满足如下条件之一：(1)

usefulNum < 0.5 \times \frac{length}{averageWid},

(2)

usefulNum > 2 \times \frac{length}{averageWid},

则形态打分分值M为100；

步骤S6435：若M≠1000且M≠100，形态打分分值M的计算方法如下：设blackNum_i为第i个满足条件w_i＞0.3×h∩w_i＜0.9×h∩h_i＞0.3×h∩h_i＜0.9×h的连通部件所含像素点个数，

M = \frac{Σ_{i = 1}^{usefulNum} | {blackNum}_{i} - averageNum |}{averageNum \times usefulNum},

其中blackNum_i为第i个连通部件中所含像素点的个数。

步骤S644：对去噪后得到的二值图像进行笔画宽度一致性打分，得到分值T；

对去噪后得到的二值图像进行笔画宽度一致性打分，得到T的计算方法如下：设步骤S642处理后所有剩余连通部件的数目为N，第i个连通部件的笔画宽度为SW_i，所有连通部件笔画宽度的平均值为SW，则

T = \frac{1}{N} Σ_{i = 1}^{N} | {SW}_{i} - SW | .

步骤S645：最终该二值图像的前景真实度分值为TM＝0.6×T+0.4×M；

参照图4，对单行字幕二值图像进行过切分的方法具体包括如下步骤：

步骤S71：计算单行字幕二值图像的行高，当作平均字符高度和平均字符宽度，记为averageWid，averageWid＝EB-ET。

步骤S72：计算单行字幕二值图像在X轴上的投影(每一像素列的前景点个数)；投影为0的连续像素列构成一个投影为0的区间，投影不为0的连续像素列构成一个投影不为0的区间；将每一个投影为0的区间所在X轴的位置作为候选切分点(相邻字符可在候选切分点分隔开)；

步骤S73：对于每个投影不为0的区间，如果其宽度超过平均字符宽度的0.8倍，则对其进行过切分，在区间中寻找新的候选切分点，在新的候选切分点处再将该区间分成多个投影不为0的区间；

对于投影不为0的区间进行过切分的过程具体包括如下步骤：

步骤S731：计算该区间中每一列(指像素列)的切分置信度，第i列的切分置信度Conf_i计算方法如下：设第i列所有前景像素点纵坐标的最小值为FV_i，最大值为LV_i，该列前景像素点数为n_i，则

{Conf}_{i} = \frac{{(ET - {FV}_{i})}^{2} + {(EB - {LV}_{i})}^{2}}{{(ET - EB + 1)}^{2}} \times {1 + \exp [20 \times (0.25 - \frac{n_{i}}{ET - EB + 1})]},

其中，ET为单行字幕图像的上边缘估计，EB为下边缘估计，已在步骤S6432中描述；

步骤S732：从该区间的左端开始，沿文本行方向，每隔0.5×averageWid得到一个假设切分点，记为C_j；在以C_j为中心，0.15×averageWid为半径的区域内寻找最终切分置信度最大的列为切分位置；最终切分置信度计算如下：设第i列的切分置信度Conf_i，到C_j的水平距离为d_i，则第i列的最终切分置信度为：

{FC}_{i} = {Conf}_{i} \times (1 - {(\frac{d_{i}}{averageWid})}^{2});

步骤S74：将每个最终分出的投影不为0的区间的二值图像看作一个字符片段，将所有字符片段按从左到右的顺序进行排序。

步骤S8：对过切分后的单行字幕图像进行文本行识别。

对过切分后的单行字幕图像进行文本识别的目的是同时确定字幕中各个字符的最终切分位置和类别，即同时得到字符切分和识别结果，其具体过程包括如下步骤：

步骤S81：从左至右顺序考虑每一个字符片段，将字符片段分别与右边相邻的0个、1个、2个、3个片段合并，合并后构成的图像前景像素左、右、上、下边界分别表示为left，right，top，bottom，若该图像前景像素满足如下条件，则构成一个候选字符：(1)(right-left)＜1.5×averageWid，(2)max(right-lef，bottom-top)＞0.6×averageWid；将所有候选字符存储在一个候选切分网格中，其中每个节点对应一个候选切分位置，从起始节点(对应文字行的开始位置)到终止节点(对应文字行的结束位置)的每一条路径(称为候选切分路径)表示文本行的一种切分方式，路径上每一条边表示一个候选字符；

步骤S82：用一个字符分类器对每个候选字符进行识别，得到几个(比如10个)分数最大的候选类别以及对应的分数；

字符分类器从候选字符图像中提取特征，表示为特征矢量x_i，用一个统计分类器(比如最近原型分类器)对特征矢量进行分类，具体地，计算特征矢量到每一类别集c_i(类别集是事先指定的，包括常用汉字和英文字母、数字)原型的最近距离d_i＝d(x_i，c_i)，选择距离最近的10个类别，将其距离通过函数

转换为概率置信度，即字符识别分数；其中参数τ为字符分类器训练样本集上每类样本到本类别距离d(x，c)的均值，α经验性地设为2/τ。

步骤S83：对每一条候选切分路径，组合不同候选字符的多个候选类别，得到多条候选切分识别路径，该路径中同时包括候选字符及每个候选字符对应的类别；对每一条候选切分识别路径进行评价，得到该路径的评价分数。

所述步骤S83中对于候选切分识别路径的评价具体为结合候选类别的分数和统计语言模型(通常用Bi-gram)给出路径的评价分数：设候选切分路径X上有n个候选字符，对应的候选类别依次为C＝c₁c₂…c_n，候选切分识别路径的分数为

f (X, C) = Σ_{i = 1}^{n} [k_{i} \log P (c_{i} | x_{i}) + λ \log P (c_{i} | c_{i - 1})],

其中，k_i为构成候选字符(其对应的特征矢量为x_i)的字符片段个数，P(c_i |c_i-1)为事先得到的统计语言模型Bi-gram，λ为经验设定的权值(0到1之间)。

步骤S84：用动态规划算法搜索所有的候选切分识别路径，分数最高的路径给出的文本行字符切分和识别结果即为最终处理结果。

其中，字符分类器的特征提取和分类器设计在模式识别领域有很多公开的具体方法，因而不是本发明的主要内容，代表性的方法可参考文献：

[1]C.-L.Liu，K.Nakashima，H.Sako，H.Fujisawa，Handwritten digitrecognition：Investigation of normalization and feature extraction techniques，Pattern Recognition，37(2)：265-279，2004.

[2]X.-B.Jin，C.-L.Liu，X.Hou，Regularized margin-based conditionallog-likelihood loss for prototype learning，Pattern Recognition，43(7)：2428-2438，2010.

参照图5，本发明主要包括以下四个模块：字幕区域分行模块105、字符前景判断和二值化模块106、过切分模块107和文本行识别模块108，其他模块均为辅助的输入/输出或控制模块，其中：

字幕图像输入模块101，用于获取字幕区域图像，字幕区域由其他字幕定位技术对字幕进行检测和定位得到，或者假定视频图像中一个固定区域为字幕区域。

灰度图像转换模块102，利用公式gray＝0.299×r+0.587×g+0.114×b，将彩色图像转化成灰度图像。

字符排列方向判断模块103，通过比较输入图像的长、宽，来确定字符的排列方向，当输入图像的长度大于等于宽度时，判定字幕为水平方向；反之，则判定为垂直方向。

字幕旋转模块104，用于将字符垂直排列的图像转化成字符水平排列的图像。

字幕区域分行模块105，用于将字符水平排列的灰度图像进行细分，当该图像含有多行文本时，将其拆分成多个单行文本图像；当该图像只包含一行文本时，对该行文本进行位置修正，得到垂直方向上字符位置居中、外围包含3个像素单纯背景的文本图像。

字符前景判断和二值化模块106，对单行的字幕图像自动判断前景颜色，并得到真实的单行字幕二值图像。

过切分模块107，对二值化后的单行字幕图像进行过切分得到字符片段序列。

文本行识别模块108，对过切分后的单行字幕图像进行文本行识别。

本发明的具体实施效果如图6至图10所示。

参考图6，左边三个水平字幕行图像从上至下依次为：彩色字幕区域图像、局部二值化之后的图像、字符前景二值化图像；右边三个垂直字幕行图像从左至右分别为：彩色字幕区域图像、局部二值化之后的图像、字符前景二值化图像。

参考图7，左边和右边三个字幕分图像从上至下分别为：彩色字幕区域图像、字符前景二值化图像、字符过切分效果图(垂直白线表示候选切分位置)。

图8为候选切分网格，每一条折线表示一种切分路径，加粗的切分路径表示最终的字符切分结果。

图9是一个水平字幕行图像文字提取和识别的完整过程：第一行为输入彩色图像，第二行为两种候选前景色生成的二值图像，第三行为过切分效果图，第四行为最终的文本行识别结果。

图10是一个垂直字幕行图像文字提取和识别的完整过程：第一列为输入彩色图像，第二列为行分割结果，第三列分别为两种候选前景色生成的二值图像，第四列为过切分效果图，第五列为最终的文本行识别结果。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频字幕文本提取和识别的方法，其特征在于，该方法包括：

步骤S1：输入视频中字幕区域的图像；

步骤S2：将输入图像转化为灰度图；

步骤S3：判断字幕区域中字符排列的方向；

步骤S5：对字幕区域进行分行得到单行字幕图像；

步骤S8：对过切分后的单行字幕二值图像进行文本行识别。

2.如权利要求1所述的视频字幕文本提取和识别方法，其特征在于，步骤S5中对字幕区域进行分行具体包括如下步骤：

步骤S52：利用大津法Otsu对字幕区域边缘图像进行二值化得到二值图像；

步骤S53：统计二值图像中每一像素行的有效边缘点数；从所述二值图像的起始行开始，按某一扫描方向逐行进行扫描，当某行中有效边缘点数超过阈值时，以该行为基准，按扫描方向的反方向倒退三行作为一个文本行的开始，然后按扫描方向跳跃20行，继续按扫描方向进行扫描；当某一行中所含有效边缘点数低于阈值时，以该行为基础，按扫描方向前进三行作为一个文本行的结束；重复以上过程，直至扫描完最后一行停止；最后得到了所有的文本行区域。

3.如权利要求1所述的视频字幕文本提取和识别方法，其特征在于，步骤S6对单行的字幕区域自动判断字符前景颜色，并得到真实的单行字幕二值图像的具体过程包括如下步骤：

步骤S61：对单行字幕图像进行局部二值化；

步骤S62：计算两个全局阈值：高亮度阈值ThH和低亮度阈值ThL；

步骤S63：对于单行字幕图像中的每一个像素点，如果其局部二值化的输出为1，并且本身灰度值高于高亮度阈值ThH，则记为前景候选1；如果其局部二值化的输出为0，并且本身灰度值低于低亮度阈值ThL，记为前景候选2；其他不符合以上条件的像素点不作为前景候选；

步骤S64：基于前景候选1和前景候选2分别生成二值图像，对每个二值图像分别进行去噪和是否为真实前景进行打分；分低的二值图像为最终的单行字幕二值图像。

4.如权利要求3所述的视频字幕文本提取和识别方法，其特征在于，所述步骤S64中对两种前景候选的二值图像分别进行去噪和是否为真实前景进行打分的具体过程包括如下步骤：

步骤S641：将所有对应前景候选1或前景候选2、且距离单行字幕图像边缘距离大于2的像素点记为1，其他像素点记为0，生成二值图像；

步骤S642：利用每个连通部件与背景的颜色对比度、几何形状、位置关系以及与字符的相似程度等信息，对步骤S641所得的二值图像进行去噪；

步骤S645：最终该二值图像的前景真实度分值为TM＝0.6×T+0.4×M。

5.如权利要求4所述的视频字幕文本提取和识别方法，其特征在于，所述步骤S642中利用每个连通部件与背景，即标记为0的像素点，的颜色对比度、几何形状、位置关系以及与字符的相似程度，对S641所得的二值图像进行去噪包括如下步骤：

步骤S6421：从步骤S641得到的的二值图像中提取连通部件，顺序分析和处理每一个连通部件；

步骤S6422：设第i个连通部件的top_i为所含像素点纵坐标的最小值，bottom_i为所含像素点纵坐标的最大值，left_i为所含像素点横坐标的最小值，right_i为所含像素点横坐标的最大值，单行字幕图像的行高为h；

步骤S6423：对第i个连通部件的每个边缘点，计算其与相邻背景点的灰度值差δ，如果δ＞v，其中，v为整行图像像素点灰度值的方差，则将该边缘点记为合理边缘点；

则删除该连通部件；

步骤S6426：设第i个连通部件的垂直中心位置为若满足CH_i＜0.2×h∪CH_i＞0.8×h，则删除该连通部件；

步骤S6427：设第i个连通部件的平均笔画宽度为SW_i，所有连通部件笔画宽度的平均值为SW，若第i个连通部件满足SW_i＞1.5×SW ∩w_i＜h，则删除该连通部件。

6.如权利要求4所述的视频字幕文本提取和识别方法，其特征在于，所述步骤S643中对去噪后得到的二值图像进行形态打分，得到分值M的具体过程包括如下步骤：

步骤S6431：对M进行初始化，M＝0；

步骤S6432：统计步骤S642去噪处理后所有剩余连通部件的平均高度averageh、平均宽度averagew、最大高度maxh、最大宽度maxw、所有剩余连通部件的总跨度length，如果满足如下条件之一：(1)剩余连通部件的数目为0，(2)averagew＜0.3×h，(3)averageh＜0.3×h，(4)maxh＜0.5×h，(5)maxw＜0.5×h，其中，h为单行字幕图像的行高，则该二值图像的形态打分M为1000；

步骤S6433：若M≠1000，估计二值图像中整行字的上边缘ET，下边缘EB，有效连通部件的数目usefulNum，有效连通部件所含像素点数目的均值averageNum，平均字符宽度averageWid；

步骤S6434：如果该二值图像满足如下条件之一：(1)

usefulNum < 0.5 \times \frac{length}{averageWid},

(2)

usefulNum > 2 \times \frac{length}{averageWid},

则该二值图像的形态打分M为100；

步骤S6435：若M≠1000且M≠100，该二值图像的形态打分M为：

M = \frac{Σ_{i = 1}^{usefulNum} | {blackNum}_{i} - averageNum |}{averageNum \times usefulNum},

其中，blackNum_i为第i个满足条件w_i＞0.3×h∩w_i＜0.9×h∩h_i＞0.3×h∩h_i＜0.9×h的连通部件所含像素点个数，w_i、h_i分别为第i个连通部件的宽和高。

7.如权利要求4所述的视频字幕文本提取和识别方法，其特征在于，所述步骤S644中分值T的计算方法为：

T = \frac{1}{N} Σ_{i = 1}^{N} | {SW}_{i} - SW |,

其中，N为步骤S642处理后所有剩余连通部件的数目，SW_i为第i个连通部件的笔画宽度，SW为所有连通部件笔画宽度的平均值。

8.如权利要求1所述的视频字幕文本提取和识别方法，其特征在于，所述步骤S7中对单行字幕二值图像进行过切分的具体过程包括如下步骤：

步骤S71：计算单行字幕二值图像的行高averageWid，当作平均字符高度和平均字符宽度。

步骤S72：计算单行字幕二值图像在X轴上的投影，将每一个投影为0的区间所在X位置作为候选切分点；

步骤S74：每个投影不为0的区间的二值图像看作一个字符片段，将所有字符片段按从左到右的顺序排序。

9.如权利要求8所述的视频字幕文本提取和识别方法，其特征在于，所述步骤S73中对于投影不为0的区间进行过切分具体包括如下步骤：

步骤S731：计算该区间中每一像素列的切分置信度：

{Conf}_{i} = \frac{{(ET - {FV}_{i})}^{2} + {(EB - {LV}_{i})}^{2}}{{(ET - EB + 1)}^{2}} \times {1 + \exp [20 \times (0.25 - \frac{n_{i}}{ET - EB + 1})]},

其中，Conf_i为第i列像素的切分置信度，FV_i为第i列所有前景像素点纵坐标的最小值，LV_i为第i列所有前景像素点纵坐标的最大值，n_i为第i列前景像素点数，ET为单行字幕图像的上边缘估计，EB为下边缘估计；

步骤S732：从该区间的左端开始，沿文本行方向，每隔0.5×averageWid得到一个假设切分点，记为C_j；在以C_j为中心，0.15×averageWid为半径的区域内寻找最终切分置信度最大的列为切分位置；其中，最终切分置信度计算如下：设第i列的切分置信度为Conf_i，到C_j的水平距离为d_i，则第i列的最终切分置信度为：

{FC}_{i} = {Conf}_{i} \times (1 - {(\frac{d_{i}}{averageWid})}^{2}) .

10.如权利要求1所述的视频字幕文本提取和识别方法，其特征在于，所述步骤S8中对过切分后的单行字幕二值图像进行文本识别的具体过程包括如下步骤：

步骤S81：从左至右顺序考虑每一个字符片段，将字符片段分别与右边相邻的0个、1个、2个、3个片段合并，合并后构成的图像前景像素左、右、上、下边界分别表示为left，right，top，bottom，若该图像前景像素满足如下条件，则构成一个候选字符：(1)(right-left)＜1.5×averageWid，(2)max(right-lef，bottom-top)＞0.6×averageWid，其中，averageWid为单行字幕二值图像的平均字符宽度；将所有候选字符存储在一个候选切分网格中，其中每个节点对应一个候选切分位置，从起始节点到终止节点的每一条路径，即候选切分路径，表示文本行的一种切分方式，路径上的每一条边表示一个候选字符；

步骤S82：用一个字符分类器对每个候选字符进行识别，得到几个分数最大的候选类别以及对应的分数；

步骤S83：对每一条候选切分路径，组合不同候选字符的多个候选类别，得到多条候选切分识别路径；对每一条候选切分识别路径进行评价，得到该路径的评价分数。

步骤S84：用动态规划算法搜索所有的候选切分识别路径，分数最高的路径给出了最终的文本行字符切分和识别结果。