CN104244107A - 一种基于字幕检测与识别的视频字幕还原方法 - Google Patents
一种基于字幕检测与识别的视频字幕还原方法 Download PDFInfo
- Publication number
- CN104244107A CN104244107A CN201410423647.5A CN201410423647A CN104244107A CN 104244107 A CN104244107 A CN 104244107A CN 201410423647 A CN201410423647 A CN 201410423647A CN 104244107 A CN104244107 A CN 104244107A
- Authority
- CN
- China
- Prior art keywords
- captions
- frame
- video
- sliding window
- caption
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Studio Circuits (AREA)
- Television Systems (AREA)
Abstract
本发明是一种基于字幕检测与识别的视频字幕还原方法,包括以下步骤:步骤1:将视频上传到分析设备;步骤2:检测每帧上的字幕区域;步骤3:通过滑动窗口检测字幕;步骤4:将检测出来的字幕,其中的某一帧,使用OCR技术,识别出文字,将文字与字幕的起始和截止时间,存储为文本字幕。本发明通过字幕检测,检测出视频上的硬字幕,并通过光学字符识别技术,识别出硬字幕中的内容,还原得到软字幕(文本字幕)。
Description
技术领域
本发明涉及视频字幕编辑技术领域,尤指一种基于字幕检测与识别的视频字幕还原方法。
背景技术
互联网上的视频很多都是硬字幕(字幕直接融合在视频图像之上),修正难度大,一旦出错必须整个视频文件重新制作,因为无法分离,限制了用户对字体风格个人喜好的修改。
发明内容
本发明的目的在于提供一种基于字幕检测与识别的视频字幕还原方法,解决现有技术存在的缺憾。
本发明是一种基于字幕检测与识别的视频字幕还原方法,包括以下步骤:
步骤1:将视频上传到分析设备;
步骤2: 检测每帧上的字幕区域;
步骤3: 通过滑动窗口检测字幕,滑动窗口里存储了最多连续的M帧图像的字幕候选区数据,并维护一个计数器。当滑动窗口为空时,直接将新帧放入。如果滑动窗口不为空且时,对于新帧,计算新帧与窗口内各帧的重叠区域,新帧与窗口内各帧的重叠区域均大于b%时,如果滑动窗口内帧数量小于M,则将新帧添加进滑动窗口中,若滑动窗口已满,则计数器加1。如果新帧与窗口内某一帧的重叠区域小于b%时。此时,如果计数器大于阈值N,则认为检测出一条字幕,该字幕的字幕起始时间为滑动窗口内第一帧所对应的时间,根据滑动窗口的大小和计数器值,可以计算该条字幕所跨越的帧的数量,得出字幕的截止时间。无论是否检测出字幕,都将新帧加入滑动窗口内,同时,计数器置为0,所述M、N、b为预先设置的固定值;
步骤4:将检测出来的字幕,其中的某一帧,使用OCR技术,识别出文字,将文字与字幕的起始和截止时间,存储为文本字幕。
所述步骤2包括以下流程:
(a) 对于视频的每一帧图像,取其底部一小部分来进行分析;
(b) 视频字幕通常为白色和蓝色,并且有比较强的边缘;检测出视频图像里的此类区域,存储为该帧视频的字幕候选区。
本发明的有益技术效果在于:本发明通过字幕检测,检测出视频上的硬字幕,并通过光学字符识别技术,识别出硬字幕中的内容,还原得到软字幕(文本字幕)。
具体实施方式
下面结合实施例,对本发明的具体实施方式作进一步详细描述。
本发明是一种基于字幕检测与识别的视频字幕还原方法, 包括以下步骤:
步骤1:将视频上传到分析设备;
步骤2: 检测每帧上的字幕区域;视频字幕的特点是,大多出现在视频下部区域,字体颜色单一,检测字幕区的流程为:
(a) 对于视频的每一帧图像,取其底部一小部分来进行分析;
(b) 视频字幕通常为白色和蓝色,并且有比较强的边缘;检测出视频图像里的此类区域,存储为该帧视频的字幕候选区。
步骤3: 通过滑动窗口检测字幕。所检测出来的字幕候选区域可能是字幕,也可能是其他和字幕颜色类似的区域。视频中字幕通常会在同一位置在多帧中出现,我们根据这一特性,设计了一个滑动窗口,来筛选字幕。
所述滑动窗口里存储了最多连续的M帧图像的字幕候选区数据,并维护一个计数器。当滑动窗口为空时,直接将新帧放入。如果滑动窗口不为空且时,对于新帧,计算新帧与窗口内各帧的重叠区域,新帧与窗口内各帧的重叠区域均大于b%时,如果滑动窗口内帧数量小于M,则将新帧添加进滑动窗口中,若滑动窗口已满,则计数器加1。如果新帧与窗口内某一帧的重叠区域小于b%时。此时,如果计数器大于阈值N,则认为检测出一条字幕,该字幕的字幕起始时间为滑动窗口内第一帧所对应的时间,根据滑动窗口的大小和计数器值,可以计算该条字幕所跨越的帧的数量,得出字幕的截止时间。无论是否检测出字幕,都将新帧加入滑动窗口内,同时,计数器置为0,所述M、N、b为预先设置的固定值;
步骤4:将检测出来的字幕,其中的某一帧,使用OCR技术,识别出文字,将文字与字幕的起始和截止时间,存储为文本字幕。
Claims (2)
1.一种基于字幕检测与识别的视频字幕还原方法,其特征在于, 包括以下步骤:
步骤1:将视频上传到分析设备;
步骤2: 检测每帧上的字幕区域;
步骤3: 通过滑动窗口检测字幕,滑动窗口里存储了最多连续的M帧图像的字幕候选区数据,并维护一个计数器;当滑动窗口为空时,直接将新帧放入;如果滑动窗口不为空且时,对于新帧,计算新帧与窗口内各帧的重叠区域,新帧与窗口内各帧的重叠区域均大于b%时,如果滑动窗口内帧数量小于M,则将新帧添加进滑动窗口中,若滑动窗口已满,则计数器加1;如果新帧与窗口内某一帧的重叠区域小于b%时;此时,如果计数器大于阈值N,则认为检测出一条字幕,该字幕的字幕起始时间为滑动窗口内第一帧所对应的时间,根据滑动窗口的大小和计数器值,可以计算该条字幕所跨越的帧的数量,得出字幕的截止时间;无论是否检测出字幕,都将新帧加入滑动窗口内,同时,计数器置为0,所述M、N、b为预先设置的固定值;
步骤4:将检测出来的字幕,其中的某一帧,使用OCR技术,识别出文字,将文字与字幕的起始和截止时间,存储为文本字幕。
2.根据权利要求1所述的一种基于字幕检测与识别的视频字幕还原方法,其特征在于,所述步骤2包括以下流程:
(a) 对于视频的每一帧图像,取其底部一小部分来进行分析;
(b) 视频字幕通常为白色和蓝色,并且有比较强的边缘;检测出视频图像里的此类区域,存储为该帧视频的字幕候选区。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410423647.5A CN104244107B (zh) | 2014-08-26 | 2014-08-26 | 一种基于字幕检测与识别的视频字幕还原方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410423647.5A CN104244107B (zh) | 2014-08-26 | 2014-08-26 | 一种基于字幕检测与识别的视频字幕还原方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104244107A true CN104244107A (zh) | 2014-12-24 |
CN104244107B CN104244107B (zh) | 2017-08-08 |
Family
ID=52231310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410423647.5A Active CN104244107B (zh) | 2014-08-26 | 2014-08-26 | 一种基于字幕检测与识别的视频字幕还原方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104244107B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104735521A (zh) * | 2015-03-30 | 2015-06-24 | 北京奇艺世纪科技有限公司 | 一种滚动字幕检测方法及装置 |
CN106295592A (zh) * | 2016-08-17 | 2017-01-04 | 北京金山安全软件有限公司 | 一种媒体文件字幕的识别方法、装置及电子设备 |
CN108769776A (zh) * | 2018-05-31 | 2018-11-06 | 北京奇艺世纪科技有限公司 | 标题字幕检测方法、装置及电子设备 |
CN109508217A (zh) * | 2018-10-22 | 2019-03-22 | 郑州云海信息技术有限公司 | 一种数据处理方法、装置、设备及介质 |
CN109583441A (zh) * | 2018-10-19 | 2019-04-05 | 天津大学 | 基于监控平台的字幕识别方法 |
CN110163129A (zh) * | 2019-05-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 视频处理的方法、装置、电子设备及计算机可读存储介质 |
CN111444823A (zh) * | 2020-03-25 | 2020-07-24 | 北京奇艺世纪科技有限公司 | 处理视频数据的方法、装置、计算机设备和存储介质 |
CN112488107A (zh) * | 2020-12-04 | 2021-03-12 | 北京华录新媒信息技术有限公司 | 一种视频字幕的处理方法及处理装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101115151A (zh) * | 2007-07-10 | 2008-01-30 | 北京大学 | 一种视频字幕提取的方法 |
CN101360193A (zh) * | 2008-09-04 | 2009-02-04 | 北京中星微电子有限公司 | 一种视频字幕处理装置及方法 |
CN101453575A (zh) * | 2007-12-05 | 2009-06-10 | 中国科学院计算技术研究所 | 一种视频字幕信息提取方法 |
CN101510260A (zh) * | 2008-02-14 | 2009-08-19 | 富士通株式会社 | 字幕存在时间确定装置和方法 |
US20110181773A1 (en) * | 2010-01-25 | 2011-07-28 | Kabushiki Kaisha Toshiba | Image processing apparatus |
CN102833638A (zh) * | 2012-07-26 | 2012-12-19 | 北京数视宇通技术有限公司 | 基于字幕信息的视频自动切分及标注方法及系统 |
US8355079B2 (en) * | 2009-02-10 | 2013-01-15 | Thomson Licensing | Temporally consistent caption detection on videos using a 3D spatiotemporal method |
CN103067775A (zh) * | 2013-01-28 | 2013-04-24 | Tcl集团股份有限公司 | 一种音视频终端的字幕显示方法、音视频终端及服务器 |
US20130279563A1 (en) * | 2012-04-19 | 2013-10-24 | Vixs Systems, Inc. | Detection of video feature based on variance metric |
CN103856689A (zh) * | 2013-10-31 | 2014-06-11 | 北京中科模识科技有限公司 | 面向新闻视频的人物对话字幕提取方法 |
-
2014
- 2014-08-26 CN CN201410423647.5A patent/CN104244107B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101115151A (zh) * | 2007-07-10 | 2008-01-30 | 北京大学 | 一种视频字幕提取的方法 |
CN101453575A (zh) * | 2007-12-05 | 2009-06-10 | 中国科学院计算技术研究所 | 一种视频字幕信息提取方法 |
CN101510260A (zh) * | 2008-02-14 | 2009-08-19 | 富士通株式会社 | 字幕存在时间确定装置和方法 |
CN101360193A (zh) * | 2008-09-04 | 2009-02-04 | 北京中星微电子有限公司 | 一种视频字幕处理装置及方法 |
US8355079B2 (en) * | 2009-02-10 | 2013-01-15 | Thomson Licensing | Temporally consistent caption detection on videos using a 3D spatiotemporal method |
US20110181773A1 (en) * | 2010-01-25 | 2011-07-28 | Kabushiki Kaisha Toshiba | Image processing apparatus |
US20130279563A1 (en) * | 2012-04-19 | 2013-10-24 | Vixs Systems, Inc. | Detection of video feature based on variance metric |
CN102833638A (zh) * | 2012-07-26 | 2012-12-19 | 北京数视宇通技术有限公司 | 基于字幕信息的视频自动切分及标注方法及系统 |
CN103067775A (zh) * | 2013-01-28 | 2013-04-24 | Tcl集团股份有限公司 | 一种音视频终端的字幕显示方法、音视频终端及服务器 |
CN103856689A (zh) * | 2013-10-31 | 2014-06-11 | 北京中科模识科技有限公司 | 面向新闻视频的人物对话字幕提取方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104735521A (zh) * | 2015-03-30 | 2015-06-24 | 北京奇艺世纪科技有限公司 | 一种滚动字幕检测方法及装置 |
CN104735521B (zh) * | 2015-03-30 | 2018-04-13 | 北京奇艺世纪科技有限公司 | 一种滚动字幕检测方法及装置 |
CN106295592A (zh) * | 2016-08-17 | 2017-01-04 | 北京金山安全软件有限公司 | 一种媒体文件字幕的识别方法、装置及电子设备 |
CN108769776A (zh) * | 2018-05-31 | 2018-11-06 | 北京奇艺世纪科技有限公司 | 标题字幕检测方法、装置及电子设备 |
CN108769776B (zh) * | 2018-05-31 | 2021-03-19 | 北京奇艺世纪科技有限公司 | 标题字幕检测方法、装置及电子设备 |
CN109583441A (zh) * | 2018-10-19 | 2019-04-05 | 天津大学 | 基于监控平台的字幕识别方法 |
CN109508217A (zh) * | 2018-10-22 | 2019-03-22 | 郑州云海信息技术有限公司 | 一种数据处理方法、装置、设备及介质 |
CN110163129A (zh) * | 2019-05-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 视频处理的方法、装置、电子设备及计算机可读存储介质 |
CN110163129B (zh) * | 2019-05-08 | 2024-02-13 | 腾讯科技(深圳)有限公司 | 视频处理的方法、装置、电子设备及计算机可读存储介质 |
CN111444823A (zh) * | 2020-03-25 | 2020-07-24 | 北京奇艺世纪科技有限公司 | 处理视频数据的方法、装置、计算机设备和存储介质 |
CN112488107A (zh) * | 2020-12-04 | 2021-03-12 | 北京华录新媒信息技术有限公司 | 一种视频字幕的处理方法及处理装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104244107B (zh) | 2017-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104244107A (zh) | 一种基于字幕检测与识别的视频字幕还原方法 | |
US10134441B2 (en) | Method and system for overlaying image in video stream | |
US8817339B2 (en) | Handheld device document imaging | |
EP3118772A1 (en) | Image content providing apparatus and image content providing method | |
KR100999056B1 (ko) | 이미지 컨텐츠에 대해 트리밍을 수행하기 위한 방법, 단말기 및 컴퓨터 판독 가능한 기록 매체 | |
US8355079B2 (en) | Temporally consistent caption detection on videos using a 3D spatiotemporal method | |
EP2709038A1 (en) | Device and method for detecting the presence of a logo in a picture | |
CN109766883B (zh) | 基于深度神经网络的网络视频字幕的快速提取方法 | |
CN104298982A (zh) | 一种文字识别方法及装置 | |
CN104735521B (zh) | 一种滚动字幕检测方法及装置 | |
CN105260428A (zh) | 图片处理方法和装置 | |
US20160078631A1 (en) | Information processing device, image modification method, and computer program product | |
CN103377272A (zh) | 相片数据夹的代表缩图的自动选择方法及自动选择系统 | |
CN103198311A (zh) | 基于拍摄的图像来识别字符的方法及装置 | |
US20220415008A1 (en) | Image box filtering for optical character recognition | |
US20170024005A1 (en) | Electronic device and facial expression operation method | |
WO2014065033A8 (ja) | 類似画像検索装置 | |
CN112822539B (zh) | 信息显示方法、装置、服务器及存储介质 | |
US20180336243A1 (en) | Image Search Method, Apparatus and Storage Medium | |
US20070061727A1 (en) | Adaptive key frame extraction from video data | |
Asif et al. | A novel hybrid method for text detection and extraction from news videos | |
CN104125487A (zh) | 一种上传图像数据的方法和装置 | |
KR102150543B1 (ko) | 동영상 색인 방법 및 장치 | |
CN108229476B (zh) | 标题区域检测方法及系统 | |
CN105260398A (zh) | 一种基于海报与剧情介绍的电影类型的快速分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: Room 7473, room No. 3, No. 3, Xijing Road, Badachu high tech park, Shijingshan District, Beijing Patentee after: Chinese translation language through Polytron Technologies Inc Address before: Room 7473, room No. 3, No. 3, Xijing Road, Badachu high tech park, Shijingshan District, Beijing Patentee before: Mandarin Technology (Beijing) Co., Ltd. |
|
CP01 | Change in the name or title of a patent holder |