CN109271988A

CN109271988A - 一种基于图像分割及动态阈值的字幕提取方法

Info

Publication number: CN109271988A
Application number: CN201811001887.0A
Authority: CN
Inventors: 石民勇; 艾莫尔夫; 李春芳; 王冬
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2019-01-25

Abstract

本发明公开了一种基于图像分割及动态阈值的字幕提取方法，包括步骤：S1、遍历视频内某一时段含字幕的视频帧，做轮廓查找和划定轮廓外部矩形边界的操作；S2、分析矩形边界的特征，获取字幕区域的位置；S3、取定间隔的视频帧，对所述字幕区域进行图像分割；S4、对分割后的图形进行灰度化处理，根据灰度图像的像素直方分布获取二值化的动态阈值；S5、基于前序步骤中获得的动态阈值进行图像二值化操作，突出字幕图形，消除噪声像素点；S6、根据所述的动态阈值以及二值化图像进行判断，对不包含字幕的图像进行忽略，仅对包含字幕的图像进行字符识别；S7、汇总识别结果去重去冗，并将整个视频的字幕文本按照时间排列写入csv文件。实施本发明，能够有效滤除视频帧内的除字幕像素之外的干扰像素，实现字幕的抽取，并最终获得按时间排序的字幕文本文件。

Description

一种基于图像分割及动态阈值的字幕提取方法

技术领域

本发明涉及视频内的图像处理技术领域，特别涉及一种基于图像分割和动态阈值的字幕提取方法。

背景技术

视频是一种重要的文化载体，在视频中以字幕形式出现的字幕文本，为视频传播及理解提供了极大的便利。同时对于影视剧等视频媒体而言，翻译后的多语种平行字幕帮助了这一类文化产品的国际化传播。视频中的字幕文本在诸多领域都有着极高的价值，但是由于编码格式的限制，很多影视剧的流通格式都无法做到字幕分轨，导致字幕无法被单独作为物料抽离出来，对于学者的研究以及影视剧的特应性存储等方面提供了诸多阻碍。

随着字幕技术以及视频播放软件的发展，字幕与视频的结合方式也分为三种：外挂字幕、内挂字幕和内嵌字幕。外挂字幕和内挂字幕具备一个相同特点，即稍加操作可以分离出一个单独的字幕文件，而内嵌字幕的视频文件中字幕与视频的结合方式则不存在这样的特点。内嵌字幕的视频文件(以mp4格式为例)是指字幕轨道无法单独分离，并且字幕文本已与视频的每一帧画面融合在一起一类的视频文件。其在观赏过程中与上述的二者没有差异，然而这一类视频文件中却无法提取出单独的字幕文件。对于一些需要对影视剧的对白文本进行独立研究的领域而言，使用内嵌字幕的视频文件会对其研究带来阻碍。

视频内的字幕可以分为两种：(1)标注字幕：这种字幕是通过后期制作合成到视频流中去的,包含了对当前视频流内容的语义描述；(2)场景字幕：这种字幕是录制中环境和物体本身所携带的文字,如路牌上的路名、服装上的文字和产品上的商标等。场景字幕虽然包含了对视频内容的描述信息，但是对于视频内的语义描述并不具实际作用。一般地，需要进行提取的是视频内的标注字幕。

传统的字幕提取方法一般的流程包含字幕定位、字幕图像处理及字幕识别三个主要步骤。其中对于视频内的各类文字采取统一的定位方法，会同时判别出场景字幕及标注字幕，忽视了二者的主次关系，且提取结果混杂，不便于后续的处理及研究。根据我们的调查，目前流通的字幕提取方法及装置当中，虽然有可行的办法，但是其大多依赖于高性能的计算装置，或是对象视频较为单一不具备普适性。

发明内容

本发明的实施提供一种基于图像分割和动态阈值的字幕提取方法，主要面向以影视剧为代表的一类字幕定点的视频文件。

本发明主要解决的技术问题在于，如何以高普适度的方式过滤掉含字幕视频帧内的噪声像素。目的是获得纯净的文字图形，以便光学字符识别程序进行识别，并加以有序存储。

本发明的技术方案包含七个关键步骤：

S1、遍历视频内某一时段含字幕的视频帧，做轮廓查找和划定轮廓外部矩形边界的操作；

S2、分析矩形边界的特征，获取字幕区域的位置；

S3、取定间隔的视频帧，对所述字幕区域进行图像分割；

S4、对分割后的图形进行灰度化处理，根据灰度图像的颜色值的分布情况获取二值化的动态阈值；

S5、基于前序步骤中获得的动态阈值进行图像二值化操作，突出字幕图形，消除噪声像素点；

S6、根据所述的动态阈值以及二值化图像进行判断，对不包含字幕的图像进行忽略，仅对包含字幕的图像进行字符识别；

S7、汇总识别结果去重去冗，并将整个视频的字幕文本按照时间排列写入csv文件。

所述步骤S1遍历视频内某一时段含字幕的视频帧，做轮廓查找和划定轮廓外部矩形边界的操作，包括步骤：

S11、取视频内包含字幕的一串时间连续的视频帧，在每一帧内做图像内的轮廓查找操作；

S12、对轮廓区域做划定矩形边界操作，获取所有矩形边界框的纵坐标和高度。

所述步骤S2分析矩形边界的特征，获取字幕区域的位置，包括步骤：

S21、对S12所述的所有矩形边界框的纵坐标和高度的数值进行汇总并整理成数组；

S22、统计存储纵坐标数值的数组以及存储矩形框高度数值的数组内各数值出现的频率，得到出现频率最高的纵坐标数值以及高度值(由于字幕出现的频率远高于其余轮廓的图形，因而数组内频率最高的纵坐标数值和高度值对应为字幕矩形框的纵坐标和高度)；

所述步骤S3中的对所述字幕区域进行图像分割，包括步骤：

S31、通过S22步骤得到了字幕区域的纵坐标值以及高度值，由此便可确定字幕区域位置及大小，使用GrabCut方法对该区域进行运算，以确定作为前景的字幕图形区域的模型，同时确定背景的模型；

S32、将所述图像内的像素点与前景和背景模型进行比对，并确定一个蒙版数组，该数组内表征前景的元素取1，背景区域的元素取0；

S33、将蒙版数组与所述图像进行运算，实现图像分割，以达到将背景进行初步滤除的目标。

基于实践测算，所述步骤S3取定间隔的视频帧中，定间隔取600毫秒。

所述步骤S4中根据灰度图像的颜色值的分布情况获取二值化的动态阈值，包括步骤：

S41、用浮点型灰度计算法对S3步骤的分割后图像进行灰度化处理，获得灰度图像；

S42、确定S41步骤所得的灰度图形内所有像素点的颜色值的分布情况，根据分布判断图像内是否包含文字，并给二值化阈值参数赋值。不包含字幕的图像获阈值-1，包含字幕的图像根据颜色值的均值和标准差获得属于该图像的动态阈值。

所述步骤S5基于前序步骤中获得的动态阈值进行图像二值化操作，包括步骤：

S51、基于S42所述步骤，不包含字幕的图像阈值为-1，不进行二值化操作，包含字幕的图像则根据动态阈值进行二值化操作；

S52、二值化的过程当中，字幕像素点的值高于阈值，背景像素点的值低于阈值，二值化将字幕像素点的颜色值取255，背景像素点取0，达到将S41所述灰度图像内的低于阈值的噪声像素点进行去除的目的；

S53、基于S52所述步骤，将获得字幕纯白，背景纯黑的图像。进行反相操作，将文字像素点变为纯黑，背景更改为纯白。

所述步骤S6对不包含字幕的图像进行忽略，对包含字幕的图像进行字符识别时，包括步骤：

S61、基于S42步骤的阈值，可以判断出仅包含背景的图像阈值选取为-1，这一类图像不进行文字识别；

S62、基于S42步骤的阈值，当值不为-1时进行识别，使用开源光学字符识别软件Tesseract-OCR进行识别

所属步骤S7将整个视频的字幕文本按照时间排列写入csv文件，包括：

对所识别出的字幕文本按照时间顺序进行排列，并包含两项参数：字幕出现的时间点以及识别出的字幕文本。

附图说明

图1为依照本发明实施例的基于图像分割及动态阈值的字幕提取方法的流程示意图；

图2-1为依照本发明实施例的遍历含字幕视频帧，同时进行字幕区域轮廓查找并划定外部矩形边界的样例图；

图2-2为字幕位置及大小示意图；

图3-1至图3-5为依照本发明实施例的图像处理及字幕提取过程的步骤推进示意图。

具体实施方式

以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所提供的实施例仅仅用以解释本发明，并不用于限定本发明。另外，以下所提供的实施例是用于实施本发明的部分实施例，而非提供实施本发明的全部实施例，在本领域技术人员不付出创造性劳动的前提下，对以下实施例的技术方案进行重组所得的实施例、以及基于对发明所实施的其他实施例均属于本发明的保护范围。

如图1所示，本发明的技术方案包含七个关键步骤：

S2、分析矩形边界的特征，获取字幕区域的位置；

S3、取定间隔的视频帧，对所述字幕区域进行图像分割；

S7、汇总识别结果去重去冗，并将整个视频的字幕文本按照时间排列写入csv文件。按照目的可将这七个步骤分为三类：I定位字幕位置；II字幕图像处理；III文字识别并汇总结果。

I定位字幕位置：

定位字幕位置包括步骤S1和S2。

实施步骤S1的目的是获取到视频帧内轮廓显著的所有图形，并为这些图形划定矩形边界。由于视频帧内的字幕属于边缘轮廓清晰的图形元素，字幕的位置和高度一般情况下也是固定不变的，且字幕图形元素出现的频率要远远多于视频帧内其余的图形元素。根据字幕图形元素的位置固定以及高度一致的特征就可以实现对字幕的定位。为达到定位目的，首先要做的就是步骤S1，如图2-1的六个样例图所示，S1步骤的实施会将视频帧内的轮廓清晰的图形元素画出矩形边界，六个样例中的文字图形均被正确划定。

步骤S2在S1的基础上对矩形边界框做分析，从图2-1的六个样例中可以发现，标注字幕的出现的频率远高于其他图形元素，且标注字幕的矩形边界框也具有一致性。另外，如图2-2所示一般情况下字幕位置的横坐标值和字幕长度和是变化的，但字幕位置的纵坐标值和字幕的高度不变。因此步骤S2在S1的基础上，对所有的矩形框的纵坐标和高度做分析，先将所有矩形边界框的纵坐标值和高度存到数组之中，由于字幕的边界框的出现频率最高，所以数组内频率最高的纵坐标数值和高度值对应为字幕矩形框的纵坐标和高度，通过纵坐标值和高度便可以确定出需要提取的字幕的位置。

II字幕图像处理：

字幕图像处理包括步骤S3、S4及S5，其中三个步骤属于递进关系。

实施步骤S3的目的是过滤掉如图3-1所示的背景区域的像素，获得纯净的文字图形，这一过滤是基于GrabCut算法实现的。如公式(1)所示，GrabCut进行图像切割是在能量函数E的数据函数项U中引入高斯混合模型的组件向量k，将样本像素点z在高斯混合模型的计算下与表征前景或背景模型的θ进行比较，由此来将属于该点的蒙版值α取到表示前景的数值1或表示背景的数值0。能量函数E还引入了平滑项V，为了让切割更加平滑。

E(α，k，θ，z)＝U(α，k，θ，z)+V(α，z) (1)

能量函数依赖于高斯混合模型的组件参数k，其中数据项U需要参用颜色值的高斯混合模型，其定义如公式(2)所示，公式(2)中的函数D如公式(3)所示，其中函数p是高斯概率分布，函数π是混合的加权系数。

D(α_n，k_n，θ，z_n)＝-log p(z_n|α_n，k_n，θ)-logπ(α_n，k_n) (3)

根据上述内容，可知截取出的如图3-1的字幕图形内的像素点需要依次与表示前景和背景的模型θ比对，模型θ的表达式如公式(4)所示，其中的π代表权重、μ代表均值、∑代表协方差。

另外根据上述内容，GrabCut算法中引入的平滑项V的表达式如公式(5)所示，作用就是为了让分割变得更加平滑。其中γ和β是常量，β>0时有利于在高对比度区域降低平滑切割的倾向，经过广泛的研究实践γ等于50，β＝(2<(z_m-z_n)²>)^-1(<·>运算符在其中表示对图像样本求期望)。

θ＝{π(α，k)，μ(α，k)，∑(α，k)，α＝0，1，k＝1...K} (4)

经过上述的运算后，蒙版数组α便获得了前景像素点位置上取值为1、背景像素点位置上取值为0的赋值。用蒙版数组α与如图3-1所示的图像进行运算后便可获得如图3-2所示的背景几乎被滤除掉的图像。

但是由于实施S3所述的步骤获得的字符图像由于存在噪声像素，尚不能被识别，因而实施步骤S4，对如图3-2的图像进行灰度处理。图像灰度化的算法有许多种(如平均值法、仅取绿色法等等)，本发明将RGB图像转化为灰度图像时采用浮点算法，最终可以获得如图3-3所示的灰度图像。

确定灰度图形内所有像素点的颜色值的分布情况，根据分布判断图像内是否包含文字，并给二值化阈值参数赋值。根据实验可以发现在0-255灰度图像的颜色值的分布情况当中，若存在字幕，则图像在127-255区间内的分布呈折线式上升，若不存在字幕，则图像在127-255区间内的分布呈折线式下降。根据这一分布特征即可判断出一张图像内是否包含字幕。不包含字幕的图像获阈值-1，包含字幕的图像根据颜色值的均值和标准差获得属于该图像的动态阈值。

实施S4后获得了如图3-3的灰度图像及属于该图像的二值化阈值，由于每一张图像的阈值都不相同，因而称其为动态阈值。

基于步骤S4的阈值，S5步骤实施二值化。其中，字幕像素点的值高于阈值，背景像素点的值低于阈值，二值化将字幕像素点的颜色值取255，背景像素点取0，达到将如图3-3的灰度图像内的低于阈值的噪声像素点进行去除的目的。

二值化的过程如公式(6)所示，其中z是目标像素点的取值，t是所述的动态阈值，z′是目标像素点当前的灰度值。

经此操作，将获得字幕纯白，背景纯黑的图像。由于光学字符识别要求识别图像内的字符为黑色背景为白色，所以二值化的同时还需进行反相操作，将文字像素点变为纯黑，背景更改为纯白。反相后则会获得如图3-4所示的图像。

III文字识别并汇总结果：

在经过II字幕图像处理操作后，才能使用开源光学字符识别软件Tesseract-OCR进行文字识别，识别结果的示意效果如图3-5所示。文字识别的正确率的高低直接取决于对原始图像的处理是否达到了对噪声像素的最大化去除。

本发明根据选择可以识别多语种的字幕。使用python语言进行仿真，并进行了大量的实际测试，测试使用的视频的分辨率为1280x720。

实施本发明的提取结果如下所示：

time	text
		00:01.2	今天
00:02.4	在云南当地厨师中
		00:03.6	石烹器形有了改变
00:06.0	但仍然创造着美味
		00:09.6	将石锅敬在火上
00:10.8	空烧三十分钟
		00:13.2	灌入熠制八个多小时的高汤

表1：提取结果样例表

实施本发明的实例的汉语字符识别情况汇总如下：

表2：汉语字符识别实验结果

实施本发明的实例的英语字母识别情况汇总如下：

字幕包含字母总数	正确识别字母数	错误识别字母数	漏掉字母数
				5660	5629	23	8

表3：英语字母识别实验结果

从实例结果来看，本发明的汉字识别正确率为96.27％，英语识别正确率为99.45％。

通过结合附图对本发明具体实施例的描述，本发明的其它方面及特征对本领域的技术人员而言是显而易见的。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种基于图像分割及动态阈值的字幕提取方法，包括步骤：

S2、分析矩形边界的特征，获取字幕区域的位置；

S3、取定间隔的视频帧，对所述字幕区域进行图像分割；

2.如权利要求1所述的方法，其特征在于，所述步骤S1遍历视频内某一时段含字幕的视频帧，做轮廓查找和划定轮廓外部矩形边界的操作，包括：

3.如权利要求1所述的方法，其特征在于，所述步骤S2分析矩形边界的特征，获取字幕区域的位置，包括：

S22、统计存储纵坐标数值的数组以及存储矩形框高度数值的数组内各数值出现的频率，得到出现频率最高的纵坐标数值以及高度值(由于字幕出现的频率远高于其余轮廓的图形，因而数组内频率最高的纵坐标数值和高度值对应为字幕矩形框的纵坐标和高度)。

4.如权利要求1所述的方法，其特征在于，所述步骤S3取定间隔的视频帧，所述定间隔为600毫秒。

5.如权利要求1所述的方法，其特征在于，所述步骤S3对所述字幕区域进行图像分割，包括步骤：

S31、如权利要求3所述获取了字幕区域的纵坐标值以及高度值，由此便可确定字幕区域位置及大小，使用GrabCut方法对该区域进行运算，以确定作为前景的字幕图形区域的模型，同时确定背景的模型；

6.如权利要求1所述的方法，其特征在于，所述步骤S4中根据灰度图像的颜色值的分布情况获取二值化的动态阈值，包括步骤：

7.如权利要求1所述的方法，其特征在于，所述步骤S5基于前序步骤中获得的动态阈值进行图像二值化操作，包括步骤：

8.如权利要求1所述的方法，其特征在于，所述步骤S6对不包含字幕的图像进行忽略，对包含字幕的图像进行字符识别时，包括步骤：

S62、基于S42步骤的阈值，当值不为-1时进行识别，使用开源光学字符识别软件Tesseract-OCR进行识别。

9.如权利要求1所述的方法，其特征在于，所属步骤S7将整个视频的字幕文本按照时间排列写入csv文件，包括：