CN109409359A

CN109409359A - 一种基于深度学习的视频字幕提取方法

Info

Publication number: CN109409359A
Application number: CN201811116759.0A
Authority: CN
Inventors: 刘昱; 马翔宇
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-09-25
Filing date: 2018-09-25
Publication date: 2019-03-01

Abstract

本发明公开了一种基于深度学习的视频字幕提取方法，步骤(1)、以固定的采样频率挑选出含有字幕的图片作为训练数据集；步骤(2)、将每一张图片做二值化处理，把经过二值化处理后的图片作为标签；步骤(3)、使用训练数据集和对应的图片标签，构成CNN字幕提取模型；步骤(4)、将新的视频流以固定频率采样，获得新的含有字幕的有序图片；步骤(5)、将步骤(4)获得的新的含有字幕的有序图片输入到训练好的深度学习模型中，输出含有字幕的二值图片；步骤(6)、使用光学字符识别技术将模型输出的二值图片进行识别，生成对应的字幕文本文件。本发明为视频字幕编辑、翻译等工作提供一种获取字幕文本的方法。

Description

一种基于深度学习的视频字幕提取方法

技术领域

本发明涉及视频编码、光学字符识别、深度学习等多种领域，特别是涉及一种基于深度学习的视频字幕提取模型。

背景技术

随着科技的进步，社会的快速发展，身处信息时代的人们，每天都会接收到大量的信息。视频是信息传递的主要方式之一。来自不同国家、不同地区、不同语种的视频信息，可能会因为文化差异、语种不同等因素，造成信息传递有误。于是，字幕的辅助作用就很有意义了。各类视频可以通过字幕翻译或者字幕再编辑，转换为居民能够理解的视频信息。如果能将字幕从视频流中较为方便的提取出来，转化为能够编辑的文本文件，将为字幕翻译和字幕处理工作减轻很大的负担。

光学字符识(OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。光学字符识别技术被广泛运用于文档识别、车牌识别、证件识别等领域，具有识别效率高、识别准确率高等特点，可以很方便地把含有文字的图片翻译成计算机文字，便于后续的文字编辑处理。

深度学习(Deep Learning)是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。卷积神经网络是深度学习的一种方法，擅长于处理图像类型的数据，在处理图像方面，具有自主发现并提出有效特征、适应性强等特点，可以用来学习提取静态图片中的文字特征。

发明内容

基于以上的现有技术，本发明提出了一种基于深度学习的视频字幕提取方法，为字幕翻译和字幕处理工作提供了一种便捷的字幕文本提取方法，减轻了字幕工作的负担。

本发明的一种基于深度学习的视频字幕提取方法，该方法包括以下步骤：

步骤1、将含有字幕的视频流转换为有序静态图，以固定的采样频率挑选出含有字幕的图片作为训练数据集；

步骤2、将每一张图片做二值化处理，即把文字部分的像素值处理成1，其余部分的像素值处理为0，把经过二值化处理后的图片作为标签；

步骤3、使用步骤1中获得的训练数据集和对应的图片标签，先把图像通过一个卷积核大小为1x1的卷积层映射到多维特征空间，然后利用线性整流函数ReLU(RectifiedLinear Unit)作为激活函数为模型添加非线性因素，再通过卷积核大小分别为3x3、5x5和7x7的三通道卷积网络，逐级获取不同抽象程度的高维的特征，将三通道提取出的特征图依次进行堆叠，经过一个卷积核为1x1的卷积层，把高维度的特征图转换为含有字幕的图片作为输出，通过大量的数据训练之后，获得一个有效的CNN字幕提取模型；

步骤4、将新的视频流以固定频率采样，获得新的含有字幕的有序图片；

步骤5、将步骤4获得的新的含有字幕的有序图片输入到训练好的CNN字幕提取模型中，获得新的含有字幕的二值图片；

步骤6、使用光学字符识别技术将模型输出的二值图片进行识别，生成对应的字幕文本文件。

与现有技术相比，本次发明具有以下积极效果：

本发明结合视频编码技术和光学字符识别技术，基于深度学习技术，为视频字幕编辑、翻译等工作提供一种获取字幕文本的方法，减轻字幕编辑和字幕翻译工作的负担。

附图说明

图1为本发明的一种基于深度学习的视频字幕提取方法实施例流程图；

图2为本发明的CNN字幕提取模型。

具体实施方式

下面将结合示例对本发明的技术方案作进一步的详细描述。

本发明的主要思想是：1)利用卷积神经网络在图片特征提取方面的优势，将视频帧中含有字幕的子图提取出来，处理成只含有字幕文本的图片；2)结合深度学习技术与光学字符识别技术将含字幕的子图转换为文本文件，方便了字幕处理工作地进行。

下面将结合附图对本发明的实施方式作进一步的详细描述。

如图1所示的本发明的基于深度学习的视频字幕提取方法，该方法具体包括以下步骤：

步骤1、以固定的采样频率将含有字幕的视频流转换为有序的静态图片，从中挑选出含有字幕的图片作为训练数据集，不含字幕的图片抛弃不用；

步骤3、使用步骤1中获得的训练数据集和对应的图片标签，离线训练深度学习模型，如图2所示的CNN字幕提取模型。先把图像通过一个卷积核大小为1x1的卷积层映射到多维特征空间，然后利用线性整流函数ReLU(Rectified Linear Unit)作为激活函数为模型添加非线性因素，再通过一个具有不同卷积核大小(卷积核大小分别为3x3、5x5和7x7)的三通道卷积网络，逐级获取不同抽象程度的高维特征，将三通道提取出的特征图依次进行堆叠，经过一个卷积核为1x1的卷积层，把高维度的特征图转换为含有字幕的图片作为输出。通过大量的数据训练之后，获得一个有效的CN字幕提取模型。其中，使用下列公式进行卷积(以卷积核大小为5x5的卷积操作为例，其他的卷积操作类似)：

式中，m和n分别对应卷积核5x5的大小；w_m，n表示第m行n列的权重；x_i，j表示图像中第i行第j列的像素值；b表示偏置项；f表示激活函数，这里选取线性整流函数ReLU(Rectified Linear Unit)作为激活函数，为模型增加非线性因素，公式如下：

f(x)＝max(0，x)

步骤4、将新的含有字幕的待处理的视频流以固定频率采样，转化为新的含有字幕与新的不含字幕的有序图片；

步骤5、将步骤4获得的新的含有字幕的有序图片输入到训练好的深度学习模型(图1使用阶段中训练好的CNN字幕提取模型)中，输出含有字幕的二值图片；

步骤6、使用光学字符识别技术对模型输出的二值图片进行识别，生成对应的字幕文本文件，以便后续字幕处理。

本发明并不局限于前述的流程，任何将本发明所披露的特征或新的步骤的组合进行扩展的，皆落入本发明的保护范围。

Claims

1.一种基于深度学习的视频字幕提取方法，其特征在于，该方法包括以下步骤：

步骤(1)、将含有字幕的视频流转换为有序静态图，以固定的采样频率挑选出含有字幕的图片作为训练数据集；

步骤(2)、将每一张图片做二值化处理，即把文字部分的像素值处理成1，其余部分的像素值处理为0，把经过二值化处理后的图片作为标签；

步骤(3)、使用步骤(1)中获得的训练数据集和对应的图片标签，先把图像通过一个卷积核大小为1x1的卷积层映射到多维特征空间，然后利用线性整流函数ReLU作为激活函数为模型添加非线性因素，再通过卷积核大小分别为3x3、5x5和7x7的三通道卷积网络，逐级获取不同抽象程度的高维的特征，将三通道提取出的特征图依次进行堆叠，经过一个卷积核为1x1的卷积层，把高维度的特征图转换为含有字幕的图片作为输出，通过大量的数据训练之后，获得一个有效的CNN字幕提取模型；

步骤(4)、将新的视频流以固定频率采样，获得新的含有字幕的有序图片；

步骤(5)、将步骤4获得的新的含有字幕的有序图片输入到训练好的CNN字幕提取模型中，获得新的含有字幕的二值图片；

步骤(6)、使用光学字符识别技术将模型输出的二值图片进行识别，生成对应的字幕文本文件。