CN109409359A - 一种基于深度学习的视频字幕提取方法 - Google Patents

一种基于深度学习的视频字幕提取方法 Download PDF

Info

Publication number
CN109409359A
CN109409359A CN201811116759.0A CN201811116759A CN109409359A CN 109409359 A CN109409359 A CN 109409359A CN 201811116759 A CN201811116759 A CN 201811116759A CN 109409359 A CN109409359 A CN 109409359A
Authority
CN
China
Prior art keywords
picture
subtitle
containing subtitle
new
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811116759.0A
Other languages
English (en)
Inventor
刘昱
马翔宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201811116759.0A priority Critical patent/CN109409359A/zh
Publication of CN109409359A publication Critical patent/CN109409359A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明公开了一种基于深度学习的视频字幕提取方法,步骤(1)、以固定的采样频率挑选出含有字幕的图片作为训练数据集;步骤(2)、将每一张图片做二值化处理,把经过二值化处理后的图片作为标签;步骤(3)、使用训练数据集和对应的图片标签,构成CNN字幕提取模型;步骤(4)、将新的视频流以固定频率采样,获得新的含有字幕的有序图片;步骤(5)、将步骤(4)获得的新的含有字幕的有序图片输入到训练好的深度学习模型中,输出含有字幕的二值图片;步骤(6)、使用光学字符识别技术将模型输出的二值图片进行识别,生成对应的字幕文本文件。本发明为视频字幕编辑、翻译等工作提供一种获取字幕文本的方法。

Description

一种基于深度学习的视频字幕提取方法
技术领域
本发明涉及视频编码、光学字符识别、深度学习等多种领域,特别是涉及一种基于深度学习的视频字幕提取模型。
背景技术
随着科技的进步,社会的快速发展,身处信息时代的人们,每天都会接收到大量的信息。视频是信息传递的主要方式之一。来自不同国家、不同地区、不同语种的视频信息,可能会因为文化差异、语种不同等因素,造成信息传递有误。于是,字幕的辅助作用就很有意义了。各类视频可以通过字幕翻译或者字幕再编辑,转换为居民能够理解的视频信息。如果能将字幕从视频流中较为方便的提取出来,转化为能够编辑的文本文件,将为字幕翻译和字幕处理工作减轻很大的负担。
光学字符识(OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。光学字符识别技术被广泛运用于文档识别、车牌识别、证件识别等领域,具有识别效率高、识别准确率高等特点,可以很方便地把含有文字的图片翻译成计算机文字,便于后续的文字编辑处理。
深度学习(Deep Learning)是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。卷积神经网络是深度学习的一种方法,擅长于处理图像类型的数据,在处理图像方面,具有自主发现并提出有效特征、适应性强等特点,可以用来学习提取静态图片中的文字特征。
发明内容
基于以上的现有技术,本发明提出了一种基于深度学习的视频字幕提取方法,为字幕翻译和字幕处理工作提供了一种便捷的字幕文本提取方法,减轻了字幕工作的负担。
本发明的一种基于深度学习的视频字幕提取方法,该方法包括以下步骤:
步骤1、将含有字幕的视频流转换为有序静态图,以固定的采样频率挑选出含有字幕的图片作为训练数据集;
步骤2、将每一张图片做二值化处理,即把文字部分的像素值处理成1,其余部分的像素值处理为0,把经过二值化处理后的图片作为标签;
步骤3、使用步骤1中获得的训练数据集和对应的图片标签,先把图像通过一个卷积核大小为1x1的卷积层映射到多维特征空间,然后利用线性整流函数ReLU(RectifiedLinear Unit)作为激活函数为模型添加非线性因素,再通过卷积核大小分别为3x3、5x5和7x7的三通道卷积网络,逐级获取不同抽象程度的高维的特征,将三通道提取出的特征图依次进行堆叠,经过一个卷积核为1x1的卷积层,把高维度的特征图转换为含有字幕的图片作为输出,通过大量的数据训练之后,获得一个有效的CNN字幕提取模型;
步骤4、将新的视频流以固定频率采样,获得新的含有字幕的有序图片;
步骤5、将步骤4获得的新的含有字幕的有序图片输入到训练好的CNN字幕提取模型中,获得新的含有字幕的二值图片;
步骤6、使用光学字符识别技术将模型输出的二值图片进行识别,生成对应的字幕文本文件。
与现有技术相比,本次发明具有以下积极效果:
本发明结合视频编码技术和光学字符识别技术,基于深度学习技术,为视频字幕编辑、翻译等工作提供一种获取字幕文本的方法,减轻字幕编辑和字幕翻译工作的负担。
附图说明
图1为本发明的一种基于深度学习的视频字幕提取方法实施例流程图;
图2为本发明的CNN字幕提取模型。
具体实施方式
下面将结合示例对本发明的技术方案作进一步的详细描述。
本发明的主要思想是:1)利用卷积神经网络在图片特征提取方面的优势,将视频帧中含有字幕的子图提取出来,处理成只含有字幕文本的图片;2)结合深度学习技术与光学字符识别技术将含字幕的子图转换为文本文件,方便了字幕处理工作地进行。
下面将结合附图对本发明的实施方式作进一步的详细描述。
如图1所示的本发明的基于深度学习的视频字幕提取方法,该方法具体包括以下步骤:
步骤1、以固定的采样频率将含有字幕的视频流转换为有序的静态图片,从中挑选出含有字幕的图片作为训练数据集,不含字幕的图片抛弃不用;
步骤2、将每一张图片做二值化处理,即把文字部分的像素值处理成1,其余部分的像素值处理为0,把经过二值化处理后的图片作为标签;
步骤3、使用步骤1中获得的训练数据集和对应的图片标签,离线训练深度学习模型,如图2所示的CNN字幕提取模型。先把图像通过一个卷积核大小为1x1的卷积层映射到多维特征空间,然后利用线性整流函数ReLU(Rectified Linear Unit)作为激活函数为模型添加非线性因素,再通过一个具有不同卷积核大小(卷积核大小分别为3x3、5x5和7x7)的三通道卷积网络,逐级获取不同抽象程度的高维特征,将三通道提取出的特征图依次进行堆叠,经过一个卷积核为1x1的卷积层,把高维度的特征图转换为含有字幕的图片作为输出。通过大量的数据训练之后,获得一个有效的CN字幕提取模型。其中,使用下列公式进行卷积(以卷积核大小为5x5的卷积操作为例,其他的卷积操作类似):
式中,m和n分别对应卷积核5x5的大小;wm,n表示第m行n列的权重;xi,j表示图像中第i行第j列的像素值;b表示偏置项;f表示激活函数,这里选取线性整流函数ReLU(Rectified Linear Unit)作为激活函数,为模型增加非线性因素,公式如下:
f(x)=max(0,x)
步骤4、将新的含有字幕的待处理的视频流以固定频率采样,转化为新的含有字幕与新的不含字幕的有序图片;
步骤5、将步骤4获得的新的含有字幕的有序图片输入到训练好的深度学习模型(图1使用阶段中训练好的CNN字幕提取模型)中,输出含有字幕的二值图片;
步骤6、使用光学字符识别技术对模型输出的二值图片进行识别,生成对应的字幕文本文件,以便后续字幕处理。
本发明并不局限于前述的流程,任何将本发明所披露的特征或新的步骤的组合进行扩展的,皆落入本发明的保护范围。

Claims (1)

1.一种基于深度学习的视频字幕提取方法,其特征在于,该方法包括以下步骤:
步骤(1)、将含有字幕的视频流转换为有序静态图,以固定的采样频率挑选出含有字幕的图片作为训练数据集;
步骤(2)、将每一张图片做二值化处理,即把文字部分的像素值处理成1,其余部分的像素值处理为0,把经过二值化处理后的图片作为标签;
步骤(3)、使用步骤(1)中获得的训练数据集和对应的图片标签,先把图像通过一个卷积核大小为1x1的卷积层映射到多维特征空间,然后利用线性整流函数ReLU作为激活函数为模型添加非线性因素,再通过卷积核大小分别为3x3、5x5和7x7的三通道卷积网络,逐级获取不同抽象程度的高维的特征,将三通道提取出的特征图依次进行堆叠,经过一个卷积核为1x1的卷积层,把高维度的特征图转换为含有字幕的图片作为输出,通过大量的数据训练之后,获得一个有效的CNN字幕提取模型;
步骤(4)、将新的视频流以固定频率采样,获得新的含有字幕的有序图片;
步骤(5)、将步骤4获得的新的含有字幕的有序图片输入到训练好的CNN字幕提取模型中,获得新的含有字幕的二值图片;
步骤(6)、使用光学字符识别技术将模型输出的二值图片进行识别,生成对应的字幕文本文件。
CN201811116759.0A 2018-09-25 2018-09-25 一种基于深度学习的视频字幕提取方法 Pending CN109409359A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811116759.0A CN109409359A (zh) 2018-09-25 2018-09-25 一种基于深度学习的视频字幕提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811116759.0A CN109409359A (zh) 2018-09-25 2018-09-25 一种基于深度学习的视频字幕提取方法

Publications (1)

Publication Number Publication Date
CN109409359A true CN109409359A (zh) 2019-03-01

Family

ID=65465160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811116759.0A Pending CN109409359A (zh) 2018-09-25 2018-09-25 一种基于深度学习的视频字幕提取方法

Country Status (1)

Country Link
CN (1) CN109409359A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134830A (zh) * 2019-04-15 2019-08-16 深圳壹账通智能科技有限公司 视频信息数据处理方法、装置、计算机设备和存储介质
CN113361462A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 视频处理和字幕检测模型的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0720114A2 (en) * 1994-12-28 1996-07-03 Siemens Corporate Research, Inc. Method and apparatus for detecting and interpreting textual captions in digital video signals
CN106446954A (zh) * 2016-09-29 2017-02-22 南京维睛视空信息科技有限公司 一种基于深度学习的字符识别方法
CN106650721A (zh) * 2016-12-28 2017-05-10 吴晓军 一种基于卷积神经网络的工业字符识别方法
CN107862315A (zh) * 2017-11-02 2018-03-30 腾讯科技(深圳)有限公司 字幕提取方法、视频搜索方法、字幕分享方法及装置
CN108345886A (zh) * 2017-01-23 2018-07-31 北京搜狗科技发展有限公司 一种视频流文本识别方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0720114A2 (en) * 1994-12-28 1996-07-03 Siemens Corporate Research, Inc. Method and apparatus for detecting and interpreting textual captions in digital video signals
US6101274A (en) * 1994-12-28 2000-08-08 Siemens Corporate Research, Inc. Method and apparatus for detecting and interpreting textual captions in digital video signals
CN106446954A (zh) * 2016-09-29 2017-02-22 南京维睛视空信息科技有限公司 一种基于深度学习的字符识别方法
CN106650721A (zh) * 2016-12-28 2017-05-10 吴晓军 一种基于卷积神经网络的工业字符识别方法
CN108345886A (zh) * 2017-01-23 2018-07-31 北京搜狗科技发展有限公司 一种视频流文本识别方法和装置
CN107862315A (zh) * 2017-11-02 2018-03-30 腾讯科技(深圳)有限公司 字幕提取方法、视频搜索方法、字幕分享方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134830A (zh) * 2019-04-15 2019-08-16 深圳壹账通智能科技有限公司 视频信息数据处理方法、装置、计算机设备和存储介质
WO2020211392A1 (zh) * 2019-04-15 2020-10-22 深圳壹账通智能科技有限公司 视频信息数据处理方法、装置、计算机设备和存储介质
CN113361462A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 视频处理和字幕检测模型的方法及装置

Similar Documents

Publication Publication Date Title
CN108664996B (zh) 一种基于深度学习的古文字识别方法及系统
Wei et al. Improved optical character recognition with deep neural network
CN109670494B (zh) 一种附带识别置信度的文本检测方法及系统
CN107301414B (zh) 一种自然场景图像中的中文定位、分割和识别方法
US20060062460A1 (en) Character recognition apparatus and method for recognizing characters in an image
CN112613502A (zh) 文字识别方法及装置、存储介质、计算机设备
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
CN112818951A (zh) 一种票证识别的方法
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
CN111460782A (zh) 一种信息处理方法、装置及设备
CN112364883A (zh) 一种基于单阶段目标检测和deeptext识别网络的美式车牌识别方法
CN115393902A (zh) 一种基于对比语言图像预训练模型clip的行人重识别方法
CN109409359A (zh) 一种基于深度学习的视频字幕提取方法
CN116740723A (zh) 一种基于开源Paddle框架的PDF文档识别方法
CN105740903B (zh) 多属性识别方法及装置
Kumar Garai et al. A novel method for image to text extraction using tesseract-OCR
Almohri et al. A real-time DSP-based optical character recognition system for isolated Arabic characters using the TI TMS320C6416T
CN108537855B (zh) 一种草图一致的陶瓷花纸图案生成方法及装置
CN110750669A (zh) 一种图像字幕生成的方法及系统
Devi et al. Brahmi script recognition system using deep learning techniques
CN115203474A (zh) 一种数据库自动分类提取技术
CN108734167B (zh) 一种被污染的胶片文字识别方法
CN113052194A (zh) 一种基于深度学习的服装色彩认知系统及其认知方法
CN109739981A (zh) 一种pdf文件类别判定方法及文字提取方法
CN116303909B (zh) 一种电子投标文件与条款的匹配方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190301

WD01 Invention patent application deemed withdrawn after publication