CN102915438B

CN102915438B - 一种视频字幕的提取方法及装置

Info

Publication number: CN102915438B
Application number: CN201210297750.0A
Authority: CN
Inventors: 苏鹏宇; 肖炳珠
Original assignee: BEIJING JETSEN TECHNOLOGY Co Ltd
Current assignee: BEIJING JETSEN TECHNOLOGY Co Ltd
Priority date: 2012-08-21
Filing date: 2012-08-21
Publication date: 2016-11-23
Anticipated expiration: 2032-08-21
Also published as: CN102915438A

Abstract

本发明实施例公开了一种视频字幕的提取方法及装置，属于图像处理领域。方法包括：将各图像帧进行叠加平均，则得到边缘强度图；在各边缘强度图中逐点扫描，统计边缘强度图中的笔画强度，并基于笔画强度将图像帧进行二值化；分析二值图中的连通域定位出对应的文字区域；在文字区域中拟合各颜色通道进行颜色聚类后滤波，从而在文字区域中提取对应的文字，进行OCR识别后得到视频中的字幕。本发明通过从图像增强后的各图像帧中定位文字区域，并以颜色聚类的方式提取文字区域中的文字后识别，通过颜色聚类在文字区域中有效地对视频帧中的文字进行了提取，不受文字区域中复杂背景的影响，从而提高了字幕的识别效果。

Description

一种视频字幕的提取方法及装置

技术领域

本发明涉及图像处理领域，尤其涉及一种视频字幕的提取方法及装置。

背景技术

随着数字化网络化的发展，数字图像和视频越来愈多。由于图片或视频中的文字能够提供直接的语义信息，因此，对文字进行检测有助于理解和管理视频图像。比如，检测和分析图片中文字内容，有助于为不良内容图片过滤和监控提供有效的特征；新闻视频中的标题通常标示的时间地点人物为新闻内容分析和检索提供了支撑，体育比赛视频中出现的比分、运动员号码等为视频内容的自动分析、瞬间检测具有重要作用。同样，自然场景中的图像也包含重要的文字信息，如对交通指示牌的内容进行分析可帮助外国游客理解中国的交通规则，通过文字转为语音可以帮助盲人在街道无障碍行走等，因此，对图片中的文字进行识别后检索一直都是非常具有意义和挑战性的工作。

由于视频或图像中的文字识别存在很多难点，比如，视频或图像的背景比较复杂时，对文字的检测和识别都比较困难。在实际拍摄视频或图像时，摄像机的位置姿态或者物体反光等原因会造成图片中的文字发生畸变，同样会影响检测和识别。

发明内容

本发明的实施例提供了一种视频字幕的提取方法及装置，通过从图像增强后的各图像帧中定位文字区域，并以颜色聚类的方式提取文字区域中的文字后识别，不受文字区域中复杂背景的影响，提高了文字检测的识别率。

为达到上述目的，采用如下技术方案：

一种视频字幕的提取方法，包括如下步骤：

抽取视频中的图像帧，将各图像帧进行叠加平均，则得到边缘强度图；

在各边缘强度图中逐点扫描，统计边缘强度图中的笔画强度，并基于笔画强度将图像帧进行二值化；

分析所述二值图中的连通域，从图像帧中定位出对应的文字区域；

在文字区域中拟合各颜色通道进行颜色聚类后滤波，从而按得到的类别在含有字幕的文字区域中提取对应的文字；

将所述文字进行OCR识别，得到视频中的字幕。

优选的，所述统计边缘强度图中的笔画强度时，统计边缘强度图中每个像素点的边缘强度值，得到图像帧对应的笔画强度图。

优选的，所述分析所述二值图中的连通域时，对所述二值图分别进行水平投影和垂直投影，选取长宽比在0.1至4.5之间的连通域作为文字区域。

优选的，所述从图像帧中定位出对应的文字区域时，对二值图像进行形态学滤波，滤除连通域中的噪声。

优选的，所述拟合各颜色通道进行颜色聚类时，

统计文字区域中各个颜色通道的直方图，并根据所述直方图中的波峰数量确定待聚类的类别数量；

按类别数量用FCM聚类算法进行颜色聚类，将各类别分别进行文字滤波；

统计各类别中的非零像素数，将非零像素数最多的对应类别图像作为包含字幕的文字区域。

特别的，所述将各类别分别进行文字滤波后，将与图像边缘粘连的连通域为非文字纹理滤除。

本发明还公开了一种视频字幕的提取装置，包括如下模块：

抽取模块，用于抽取视频中的图像帧，将各图像帧进行叠加平均，则得到边缘强度图；

统计模块，用于在各边缘强度图中逐点扫描，统计边缘强度图中的笔画强度，并基于笔画强度将图像帧进行二值化；

定位模块，用于分析所述二值图中的连通域，从图像帧中定位出对应的文字区域；

提取模块，用于在文字区域中拟合各颜色通道进行颜色聚类后滤波，从而按得到的类别在含有字幕的文字区域中提取对应的文字；

识别模块，用于将所述文字进行OCR识别，得到视频中的字幕。

优选的，所述抽取模块统计边缘强度图中的笔画强度时，统计边缘强度图中每个像素点的边缘强度值，得到图像帧对应的笔画强度图。

优选的，所述定位模块分析所述二值图中的连通域时，对所述二值图分别进行水平投影和垂直投影，选取长宽比在0.1至4.5之间的连通域作为文字区域。

优选的，所述提取模块拟合各颜色通道进行颜色聚类时，

本发明实施例提供的一种视频字幕的提取方法及装置，通过从图像增强后的各图像帧中定位文字区域，并以颜色聚类的方式提取文字区域中的文字后识别，通过颜色聚类在文字区域中有效地对视频帧中的文字进行了提取，不受文字区域中复杂背景的影响，从而提高了字幕的识别效果。

附图说明

图1为本发明实施例一提供的一种视频字幕的提取方法的流程图；

图2a、图2b为本发明实施例一提供的一种视频字幕的提取方法视频截图求反后得到的笔画强度图像；

图3为图2a对应的图像帧中形态学滤波后形成的文字区域；

图4a为本发明实施例一提供的一种视频字幕的提取方法对文字区域准备进行颜色聚类的原始图；

图4b为本发明实施例一提供的一种视频字幕的提取方法对文字区域进行颜色聚类后的结果图；

图4c为本发明实施例一提供的一种视频字幕的提取方法对文字区域进行连通域分析后剔除非文字连通域的结果图；

图5为本发明实施例二提供的一种视频字幕的提取装置的模块结构图。

具体实施方式

下面结合附图对本发明实施例一种视频字幕的提取方法和装置进行详细描述。

本发明的实施例一公开了一种视频字幕的提取方法，如图1所示，包括如下步骤：

步骤101、抽取视频中的图像帧，将各图像帧进行叠加平均，则得到边缘强度图；

本实施例中，提取一段视频中的各图像帧，将各图像帧的像素值进行叠加平均，由于图像帧中的边缘像素在相邻的几个图像帧中将保持相对稳定，因此各图像帧叠加平均后，可以得到同一像素位置对应的各边缘像素的均值，从而有效地将图像帧中对应的边缘强度值。

步骤102、在各边缘强度图中逐点扫描，统计边缘强度图中的笔画强度，并基于笔画强度将图像帧进行二值化；

所述统计边缘强度图中的笔画强度时，统计边缘强度图中每个像素点的边缘强度值，得到图像帧对应的笔画强度图。

由于视频帧中，笔画的纹理具有以下特性：

1)对比度较强；

2)笔画可认为是小于特定宽度的双边结构；

3)笔画以0，90，45，135四个角度为主。

因此，在选取笔画强度时，采用下面的做法，笔画强度的值为：

{DE}_{d}^{+} (p) = \max_{1 \leq i \leq w - 1} {\min {f_{d} (p - i), f_{d} (p + w - i)}} - f (p)

其中，d为选用的文字强度方向，w为在选用的文字强度方向上宽度，f(p)为图像p点的灰度值，则逐点扫描图像上所有点，并按下式给出笔画强度图像。

{DE}_{d} (p) = \{\begin{matrix} {DE}_{d}^{+} (p), & if {DE}_{d}^{+} (p) > 0 \\ 0 & otherwise \end{matrix}

最终像素p对应的笔画强度为：其中，d为四个方向上的极大值。

记原始灰度图像为F⁺，并计算F⁺的笔画强度图像P⁺，考虑到灰度图像中的文字一般为白底黑字或黑底白字类型，则将原始灰度图像求反，记为F^-，并同理计算F^-的笔画强度图像P^-。

如图2a和图2b所示，为视频截图求反后得到的笔画强度图像，从图中可以看出，视频中的文字边缘显示得非常清晰，能够实现对文字区域的定位。

由于视频图像中的文字区域一般的对比度强，可将笔画强度图像P进行二值化，进而实现文字定位。因此，本实施例中，采用基于熵阈值的将笔画强度图像P进行二值化。

1、计算图像各阶灰度对应的概率；

其中，N_i为对应于灰度i时的像素个数，w*h为图像的尺寸。

2、根据设定的既定灰度t(t＝0，1，，2，...255)，以t为阈值，将原始图像分为前景和背景两部分，并计算对应于阈值t的总信息熵H_t＝HB_t+HF_t；

其中，HB_t对应于背景像素的熵值，HF_t对应于前景像素的熵值，其熵值计算公式如下：

{HB}_{t} = - \underset{i < t, i = 0}{Σ} {Pro}_{i} * \log ({Pro}_{i}),

{HF}_{t} = - \underset{i > t, i = t}{Σ} {Pro}_{i} * \log ({Pro}_{i})

3、求的熵值最大对应的灰度阶T＝t，st.max(H_t)，并实现笔画强度图像的二值化：

G (x, y) = \{\begin{matrix} 255 & P (x, y) > T \\ 0 & P (x, y) < T \end{matrix}

步骤103、分析所述二值图中的连通域，从图像帧中定位出对应的文字区域；

由于视频中文字对比度较强，文字一般为双边结构特征等特点，利用这些文字特点提取文字强度图像，从而对视频中的文字区域进行定位，达到在图像中分割出可能的文字区域的目的。同时用连通域分析的方法，提取和去除一些非规则等的文字强度联通区域；再利用数学形态学中膨胀、腐蚀技术消除图像噪声，合并文字区域；最后利用连通图计算方法定位出文字区域位置包围的最大矩形框。

经过熵阈值分割后的二值图像，其中的连通域包含文字连通体也包含非文字连通像素，故经过如下的连通域分析过程：

A、考虑到汉字的结构信息，一般汉字结构分为上下，左右，包围和半包围结构，汉字包含的连通分量一般不超过3个，通过汉字的此种性质可以滤除非汉字结构信息对应的区域；

B、考虑到视频中文字的分布特点，视频对应的图像帧中文字一般是以行结构信息分布，同一行中的文字个数最少2个，文字高度一致，长宽比信息介于0.1至4.5之间。利用这些特点，提取类文字的连通区域。

对经过阈值分割的区域二值图像进行形态学滤波处理。非零区域包含了文字和非文字的区域，因此，在选择的非零区域会出现一些孤立或者内部有空洞的区域，通过形态学滤波的方式，文字区域中的像素经膨胀、腐蚀、开、闭运算，从而达到消除图像噪声和连通区域的目的.其中，在膨胀和腐蚀操作时，主要在图像的y方向进行，因为我们主要希望是将文字的行的方向上能够联通，从而在二值图像中得到平顺的文字区域。如图3所示，为图2a对应的图像帧中形态学滤波后形成的文字区域。

步骤104、在文字区域中拟合各颜色通道进行颜色聚类后滤波，从而按得到的类别在含有字幕的文字区域中提取对应的文字；

在提取到的文字区域中，由于视频中同一区域内的文字具有颜色一致性，因此本发明运用颜色聚类的方法提取文字区域中的文字。通过统计文字区域中各个颜色通道的直方图，并根据所述直方图中的波峰数量确定待聚类的类别数量。

本实施例中，采用模糊c均值进行颜色聚类，由于文字区域的背景像素的颜色趋于一致，文字区域的颜色往往也一致，即采用2类聚类方法即可。但由于图像的背景局域一般较为复杂，基于2类的分类方法往往并不能满足要求，因此，往往采用自适应计算图像聚类数cluster_num得到类别的数量，在进行颜色聚类。

对于需要待聚类的图片帧frame_i，通过拟合frame_i中各个颜色通道的直方图，并计算拟合后的波峰数量，即得到最终的类别数量。步骤如下：

1.计算待聚类的图片帧frame_i的每个颜色通道的直方图H_ch，ch＝1、2、...

2.用阶数为n的多项式拟合每个颜色直方图H_ch，并给出H_ch的波峰数量num_ch，则本实施例中，满足如下条件的值为波峰P_i：

H_t为一设定阈值，{P_i||P_i＞H_t，H_t∈H_ch，t∈[i-width，i+width]}

3.对比得出各个颜色通道的最大波峰数num，如果num＞max_cluster，max_cluster为最大聚类数，则类别数量cluster_num＝max_cluster，否则类别数量cluster_num＝num。

在提取文字图像时颜色聚类用模糊c聚类方法FCM，采用隶属度矩阵确定每个像素点属于某个聚类的程度。本实施例中，待聚类的数据为图像的RGB彩色空间。假定聚类颜色数据

本实施例中，FCM聚类的流程如下：

1.用值在0，1间的随机数初始化隶属度矩阵U和加权指数m∈[1，∞)，一般选择m＝2，初始化迭代次数i、t＝0满足

2.用下式计算c个聚类中心C_k，

C_{k} = \frac{Σ_{j = 1}^{n} u_{j, k} * {x_{i, j}}_{i, - 1,2,3}}{Σ_{j = 1}^{n} u_{j, k}}, k = 1 . . . c

3，计算距离函数d_j，k＝||c_k-{x_i，j}||，即每-点到聚类中心C_k的距离，并判断迭代结束条件(迭代次数it＞thres_it，或者最大距离d_j，k大于一给定距离thres_d)

4计算新的隶属度矩阵U，返回步骤2。

在本采用模糊c聚类算法时，迭代速度和聚类数和样本集的数量相关，为了加快迭代速度，采用降采样的方法，对需要聚类的样本图片降采样，降低样本集的数量，提高计算速度。

则将文字候选区域{region_i}中对视频文字进行提取时：

1)对于候选区域region_i，由确定的聚类算法给出region_i的类别数量c。

2)用模糊c聚类算法对region_i进行颜色聚类。

3)提取类别标签为label，label＝1..c的二值图像BW_label，进行文字滤波，由于与图像边缘粘连的连通域不是文字区域，则滤除；再用连通域分析的方法剔除一些非文字的连通域。

如图4a至图4c所示，分别为颜色聚类的原始图，颜色聚类后的结果图和连通域分析后剔除非文字连通域的结果图。

4)统计经过滤波后的各个类别BW_label的非零点像素数，提取包含非零点个数最多的类别图像为包含文字的图像BW_text。

步骤105、将所述文字进行OCR识别，得到视频中的字幕。

采用商用或者免费的OCR软件。本实施例中，采用微软提供的免费OCR识别软件将提取到的包含文字的二值图像提交到OCR识别引擎中进行OCR识别，得到文字区域中的对应的字符，将各图像帧依次处理，从而从视频中提取字幕。

本发明的实施例二还公开了一种视频字幕的提取装置，如图5所示，包括如下模块：

抽取模块501，用于抽取视频中的图像帧，将各图像帧进行叠加平均，则得到边缘强度图；

统计模块502，用于在各边缘强度图中逐点扫描，统计边缘强度图中的笔画强度，并基于笔画强度将图像帧进行二值化；

定位模块503，用于分析所述二值图中的连通域，从图像帧中定位出对应的文字区域；

提取模块504，用于在文字区域中拟合各颜色通道进行颜色聚类后滤波，从而按得到的类别在含有字幕的文字区域中提取对应的文字；

识别模块505，用于将所述文字进行OCR识别，得到视频中的字幕。

优选的，所述提取模块拟合各颜色通道进行颜色聚类时，

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频字幕的提取方法，其特征在于，包括如下步骤：

分析二值图中的连通域，从图像帧中定位出对应的文字区域；

在文字区域中拟合各颜色通道进行颜色聚类后滤波，所述拟合各颜色通道进行颜色聚类时，统计文字区域中各个颜色通道的直方图，并根据所述直方图中的波峰数量确定待聚类的类别数量，按类别数量用模糊C聚类算法进行颜色聚类，将各类别分别进行文字滤波，统计各类别中的非零像素数，将非零像素数最多的对应类别图像作为包含字幕的文字区域，从而按得到的类别在含有字幕的文字区域中提取对应的文字；

将所述文字进行OCR识别，得到视频中的字幕。

2.根据权利要求1所述的方法，其特征在于：所述统计边缘强度图中的笔画强度时，

统计边缘强度图中每个像素点的边缘强度值，得到图像帧对应的笔画强度图。

3.根据权利要求1所述的方法，其特征在于：所述分析所述二值图中的连通域时，

对所述二值图分别进行水平投影和垂直投影，选取长宽比在0.1至4.5之间的连通域作为文字区域。

4.根据权利要求1或3所述的方法，其特征在于：所述从图像帧中定位出对应的文字区域时，对二值图像进行形态学滤波，滤除连通域中的噪声。

5.根据权利要求1所述的方法，其特征在于：所述将各类别分别进行文字滤波后，

将与图像边缘粘连的为非文字纹理的连通域滤除。

6.一种视频字幕的提取装置，其特征在于，包括如下模块：

定位模块，用于分析二值图中的连通域，从图像帧中定位出对应的文字区域；

提取模块，用于在文字区域中拟合各颜色通道进行颜色聚类后滤波，所述提取模块拟合各颜色通道进行颜色聚类时，统计文字区域中各个颜色通道的直方图，并根据所述直方图中的波峰数量确定待聚类的类别数量，按类别数量用模糊C聚类算法进行颜色聚类，将各类别分别进行文字滤波，统计各类别中的非零像素数，将非零像素数最多的对应类别图像作为包含字幕的文字区域，从而按得到的类别在含有字幕的文字区域中提取对应的文字；

7.根据权利要求6所述的装置，其特征在于：所述抽取模块统计边缘强度图中的笔画强度时，统计边缘强度图中每个像素点的边缘强度值，得到图像帧对应的笔画强度图。

8.根据权利要求6所述的装置，其特征在于：所述定位模块分析所述二值图中的连通域时，对所述二值图分别进行水平投影和垂直投影，选取长宽比在0.1至4.5之间的连通域作为文字区域。