CN104244107B - 一种基于字幕检测与识别的视频字幕还原方法 - Google Patents
一种基于字幕检测与识别的视频字幕还原方法 Download PDFInfo
- Publication number
- CN104244107B CN104244107B CN201410423647.5A CN201410423647A CN104244107B CN 104244107 B CN104244107 B CN 104244107B CN 201410423647 A CN201410423647 A CN 201410423647A CN 104244107 B CN104244107 B CN 104244107B
- Authority
- CN
- China
- Prior art keywords
- captions
- frame
- video
- sliding window
- caption
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Studio Circuits (AREA)
- Television Systems (AREA)
Abstract
本发明是一种基于字幕检测与识别的视频字幕还原方法,包括以下步骤:步骤1:将视频上传到分析设备;步骤2:检测每帧上的字幕区域;步骤3:通过滑动窗口检测字幕;步骤4:将检测出来的字幕,其中的某一帧,使用OCR技术,识别出文字,将文字与字幕的起始和截止时间,存储为文本字幕。本发明通过字幕检测,检测出视频上的硬字幕,并通过光学字符识别技术,识别出硬字幕中的内容,还原得到软字幕(文本字幕)。
Description
技术领域
本发明涉及视频字幕编辑技术领域,尤指一种基于字幕检测与识别的视频字幕还原方法。
背景技术
互联网上的视频很多都是硬字幕(字幕直接融合在视频图像之上),修正难度大,一旦出错必须整个视频文件重新制作,因为无法分离,限制了用户对字体风格个人喜好的修改。
发明内容
本发明的目的在于提供一种基于字幕检测与识别的视频字幕还原方法,解决现有技术存在的缺憾。
本发明是一种基于字幕检测与识别的视频字幕还原方法,包括以下步骤:
步骤1:将视频上传到分析设备;
步骤2: 检测每帧上的字幕区域;
步骤3: 通过滑动窗口检测字幕,滑动窗口里存储了最多连续的M帧图像的字幕候选区数据,并维护一个计数器。当滑动窗口为空时,直接将新帧放入。如果滑动窗口不为空且时,对于新帧,计算新帧与窗口内各帧的重叠区域,新帧与窗口内各帧的重叠区域均大于b%时,如果滑动窗口内帧数量小于M,则将新帧添加进滑动窗口中,若滑动窗口已满,则计数器加1。如果新帧与窗口内某一帧的重叠区域小于b%时。此时,如果计数器大于阈值N,则认为检测出一条字幕,该字幕的字幕起始时间为滑动窗口内第一帧所对应的时间,根据滑动窗口的大小和计数器值,可以计算该条字幕所跨越的帧的数量,得出字幕的截止时间。无论是否检测出字幕,都将新帧加入滑动窗口内,同时,计数器置为0,所述M、N、b为预先设置的固定值;
步骤4:将检测出来的字幕,其中的某一帧,使用OCR技术,识别出文字,将文字与字幕的起始和截止时间,存储为文本字幕。
所述步骤2包括以下流程:
(a) 对于视频的每一帧图像,取其底部一小部分来进行分析;
(b) 视频字幕通常为白色和蓝色,并且有比较强的边缘;检测出视频图像里的此类区域,存储为该帧视频的字幕候选区。
本发明的有益技术效果在于:本发明通过字幕检测,检测出视频上的硬字幕,并通过光学字符识别技术,识别出硬字幕中的内容,还原得到软字幕(文本字幕)。
具体实施方式
下面结合实施例,对本发明的具体实施方式作进一步详细描述。
本发明是一种基于字幕检测与识别的视频字幕还原方法, 包括以下步骤:
步骤1:将视频上传到分析设备;
步骤2: 检测每帧上的字幕区域;视频字幕的特点是,大多出现在视频下部区域,字体颜色单一,检测字幕区的流程为:
(a) 对于视频的每一帧图像,取其底部一小部分来进行分析;
(b) 视频字幕通常为白色和蓝色,并且有比较强的边缘;检测出视频图像里的此类区域,存储为该帧视频的字幕候选区。
步骤3: 通过滑动窗口检测字幕。所检测出来的字幕候选区域可能是字幕,也可能是其他和字幕颜色类似的区域。视频中字幕通常会在同一位置在多帧中出现,我们根据这一特性,设计了一个滑动窗口,来筛选字幕。
所述滑动窗口里存储了最多连续的M帧图像的字幕候选区数据,并维护一个计数器。当滑动窗口为空时,直接将新帧放入。如果滑动窗口不为空且时,对于新帧,计算新帧与窗口内各帧的重叠区域,新帧与窗口内各帧的重叠区域均大于b%时,如果滑动窗口内帧数量小于M,则将新帧添加进滑动窗口中,若滑动窗口已满,则计数器加1。如果新帧与窗口内某一帧的重叠区域小于b%时。此时,如果计数器大于阈值N,则认为检测出一条字幕,该字幕的字幕起始时间为滑动窗口内第一帧所对应的时间,根据滑动窗口的大小和计数器值,可以计算该条字幕所跨越的帧的数量,得出字幕的截止时间。无论是否检测出字幕,都将新帧加入滑动窗口内,同时,计数器置为0,所述M、N、b为预先设置的固定值;
步骤4:将检测出来的字幕,其中的某一帧,使用OCR技术,识别出文字,将文字与字幕的起始和截止时间,存储为文本字幕。
Claims (2)
1.一种基于字幕检测与识别的视频字幕还原方法,其特征在于, 包括以下步骤 :
步骤 1 :将视频上传到分析设备 ;
步骤 2 :检测每帧上的字幕区域 ;
步骤 3 :通过滑动窗口检测字幕,滑动窗口里存储了最多连续的 M 帧图像的字幕候选 区数据,并维护一个计数器 ;当滑动窗口为空时,直接将新帧放入 ;如果滑动窗口不空时,对于新帧,计算新帧与窗口内各帧的重叠区域,新帧与窗口内各帧的重叠区域均大于b% 时,如果滑动窗口内帧数量小于 M,则将新帧添加进滑动窗口中,若滑动窗口已满,则计数器 加 1 ;如果新帧与窗口内某一帧的重叠区域小于 b% 时 ;此时,如果计数器大于阈值 N,则认 为检测出一条字幕,该字幕的字幕起始时间为滑动窗口内第一帧所对应的时间,根据滑动窗口的大小和计数器值,可以计算该条字幕所跨越的帧的数量,得出字幕的截止时间;这种情况下,如果新帧与窗口内某一帧的重叠区域小于 b%,无论是否检测出字幕,都将新帧加入滑动窗口内,同时,计数器置为 0,所述 M、 N、 b 为预先设置的 固定值 ;
步骤 4 :将检测出来的字幕,其中的某一帧,使用 OCR 技术,识别出文字,将文字与字幕的起始和截止时间,存储为文本字幕。
2.根据权利要求 1 所述的一种基于字幕检测与识别的视频字幕还原方法,其特征在于,所述步骤 2 包括以下流程 :
(a) 对于视频的每一帧图像,取其底部一小部分来进行分析 ;
(b)视频字幕通常为白色和蓝色,并且有比较强的边缘 ;检测出视频图像里的此类区域,存储为该帧视频的字幕候选区。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410423647.5A CN104244107B (zh) | 2014-08-26 | 2014-08-26 | 一种基于字幕检测与识别的视频字幕还原方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410423647.5A CN104244107B (zh) | 2014-08-26 | 2014-08-26 | 一种基于字幕检测与识别的视频字幕还原方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104244107A CN104244107A (zh) | 2014-12-24 |
CN104244107B true CN104244107B (zh) | 2017-08-08 |
Family
ID=52231310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410423647.5A Active CN104244107B (zh) | 2014-08-26 | 2014-08-26 | 一种基于字幕检测与识别的视频字幕还原方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104244107B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104735521B (zh) * | 2015-03-30 | 2018-04-13 | 北京奇艺世纪科技有限公司 | 一种滚动字幕检测方法及装置 |
CN106295592A (zh) * | 2016-08-17 | 2017-01-04 | 北京金山安全软件有限公司 | 一种媒体文件字幕的识别方法、装置及电子设备 |
CN108769776B (zh) * | 2018-05-31 | 2021-03-19 | 北京奇艺世纪科技有限公司 | 标题字幕检测方法、装置及电子设备 |
CN109583441A (zh) * | 2018-10-19 | 2019-04-05 | 天津大学 | 基于监控平台的字幕识别方法 |
CN109508217B (zh) * | 2018-10-22 | 2022-03-08 | 郑州云海信息技术有限公司 | 一种数据处理方法、装置、设备及介质 |
CN110163129B (zh) * | 2019-05-08 | 2024-02-13 | 腾讯科技(深圳)有限公司 | 视频处理的方法、装置、电子设备及计算机可读存储介质 |
CN111444823A (zh) * | 2020-03-25 | 2020-07-24 | 北京奇艺世纪科技有限公司 | 处理视频数据的方法、装置、计算机设备和存储介质 |
CN112488107A (zh) * | 2020-12-04 | 2021-03-12 | 北京华录新媒信息技术有限公司 | 一种视频字幕的处理方法及处理装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101115151A (zh) * | 2007-07-10 | 2008-01-30 | 北京大学 | 一种视频字幕提取的方法 |
CN101360193A (zh) * | 2008-09-04 | 2009-02-04 | 北京中星微电子有限公司 | 一种视频字幕处理装置及方法 |
CN101453575A (zh) * | 2007-12-05 | 2009-06-10 | 中国科学院计算技术研究所 | 一种视频字幕信息提取方法 |
CN101510260A (zh) * | 2008-02-14 | 2009-08-19 | 富士通株式会社 | 字幕存在时间确定装置和方法 |
CN102833638A (zh) * | 2012-07-26 | 2012-12-19 | 北京数视宇通技术有限公司 | 基于字幕信息的视频自动切分及标注方法及系统 |
US8355079B2 (en) * | 2009-02-10 | 2013-01-15 | Thomson Licensing | Temporally consistent caption detection on videos using a 3D spatiotemporal method |
CN103067775A (zh) * | 2013-01-28 | 2013-04-24 | Tcl集团股份有限公司 | 一种音视频终端的字幕显示方法、音视频终端及服务器 |
CN103856689A (zh) * | 2013-10-31 | 2014-06-11 | 北京中科模识科技有限公司 | 面向新闻视频的人物对话字幕提取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5423425B2 (ja) * | 2010-01-25 | 2014-02-19 | 富士通モバイルコミュニケーションズ株式会社 | 画像処理装置 |
US9071842B2 (en) * | 2012-04-19 | 2015-06-30 | Vixs Systems Inc. | Detection of video feature based on variance metric |
-
2014
- 2014-08-26 CN CN201410423647.5A patent/CN104244107B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101115151A (zh) * | 2007-07-10 | 2008-01-30 | 北京大学 | 一种视频字幕提取的方法 |
CN101453575A (zh) * | 2007-12-05 | 2009-06-10 | 中国科学院计算技术研究所 | 一种视频字幕信息提取方法 |
CN101510260A (zh) * | 2008-02-14 | 2009-08-19 | 富士通株式会社 | 字幕存在时间确定装置和方法 |
CN101360193A (zh) * | 2008-09-04 | 2009-02-04 | 北京中星微电子有限公司 | 一种视频字幕处理装置及方法 |
US8355079B2 (en) * | 2009-02-10 | 2013-01-15 | Thomson Licensing | Temporally consistent caption detection on videos using a 3D spatiotemporal method |
CN102833638A (zh) * | 2012-07-26 | 2012-12-19 | 北京数视宇通技术有限公司 | 基于字幕信息的视频自动切分及标注方法及系统 |
CN103067775A (zh) * | 2013-01-28 | 2013-04-24 | Tcl集团股份有限公司 | 一种音视频终端的字幕显示方法、音视频终端及服务器 |
CN103856689A (zh) * | 2013-10-31 | 2014-06-11 | 北京中科模识科技有限公司 | 面向新闻视频的人物对话字幕提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104244107A (zh) | 2014-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104244107B (zh) | 一种基于字幕检测与识别的视频字幕还原方法 | |
US20220070405A1 (en) | Detection of Transitions Between Text and Non-Text Frames in a Video Stream | |
US20150382083A1 (en) | Pictorial summary for video | |
EP1986128A2 (en) | Image processing apparatus, imaging apparatus, image processing method, and computer program | |
US20160247024A1 (en) | Method for output creation based on video content characteristics | |
US11138171B2 (en) | Passenger flow information collection method and apparatus, and passenger flow information processing method and apparatus | |
US20140055826A1 (en) | Handheld device document imaging | |
US20160029106A1 (en) | Pictorial summary of a video | |
CN105323634A (zh) | 一种视频的缩略图生成方法及系统 | |
JP2008520152A (ja) | 画像中のテキストの検出および修正 | |
CN104735521B (zh) | 一种滚动字幕检测方法及装置 | |
US8947600B2 (en) | Methods, systems, and computer-readable media for detecting scene changes in a video | |
CN105100692B (zh) | 视频播放方法及其装置 | |
CN104123396A (zh) | 一种基于云电视的足球视频摘要生成方法及装置 | |
CN104700442A (zh) | 一种自动添加滤镜与文字的图像处理方法和系统 | |
CN106792005A (zh) | 一种基于音视频结合的内容检测方法 | |
CN107203763B (zh) | 文字识别方法和装置 | |
WO2014065033A8 (ja) | 類似画像検索装置 | |
JP2011203790A (ja) | 画像照合装置 | |
CN108985244B (zh) | 一种电视节目类型识别方法及装置 | |
KR102426089B1 (ko) | 전자 장치 및 전자 장치의 요약 영상 생성 방법 | |
CN112822539B (zh) | 信息显示方法、装置、服务器及存储介质 | |
KR101667011B1 (ko) | 입체 영상의 장면 전환 검출 장치 및 방법 | |
WO2008135945A1 (en) | Method and apparatus for detecting a transition between video segments | |
CN108388872B (zh) | 一种基于字体颜色的新闻标题识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: Room 7473, room No. 3, No. 3, Xijing Road, Badachu high tech park, Shijingshan District, Beijing Patentee after: Chinese translation language through Polytron Technologies Inc Address before: Room 7473, room No. 3, No. 3, Xijing Road, Badachu high tech park, Shijingshan District, Beijing Patentee before: Mandarin Technology (Beijing) Co., Ltd. |
|
CP01 | Change in the name or title of a patent holder |