CN105740760B - 一种视频字幕ocr识别的自动校正方法 - Google Patents

一种视频字幕ocr识别的自动校正方法 Download PDF

Info

Publication number
CN105740760B
CN105740760B CN201610039259.6A CN201610039259A CN105740760B CN 105740760 B CN105740760 B CN 105740760B CN 201610039259 A CN201610039259 A CN 201610039259A CN 105740760 B CN105740760 B CN 105740760B
Authority
CN
China
Prior art keywords
word
subtitle
recognition result
result
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610039259.6A
Other languages
English (en)
Other versions
CN105740760A (zh
Inventor
谢超平
吴春中
罗明利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sobey Digital Technology Co Ltd
Original Assignee
Chengdu Sobey Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sobey Digital Technology Co Ltd filed Critical Chengdu Sobey Digital Technology Co Ltd
Priority to CN201610039259.6A priority Critical patent/CN105740760B/zh
Publication of CN105740760A publication Critical patent/CN105740760A/zh
Application granted granted Critical
Publication of CN105740760B publication Critical patent/CN105740760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种视频字幕OCR识别的自动校正方法,包括以下步骤:S1.获取带字幕的原始视频图像,并对该原始视频图像进行二值化处理得到二值化图像;S2.分别对原始视频图像和二值化图像进行光学字符识别,得到多个参考识别结果;S3.根据所述多个参考识别结果获取最优识别结果。本发明能够智能的从多种视频文字识别结果中选取最优识别结果呈现给用户。

Description

一种视频字幕OCR识别的自动校正方法
技术领域
本发明涉及光学字符识别技术领域,特别是涉及一种视频字幕OCR识别的自动校正方法。
背景技术
现有的视频字幕识别通常只产生一种识别结果,但是由于不同的北京、字体颜色纹理以及字体结构特征导致误识率较高;虽然现在也出现了一些视频文字识别系统通过多种引擎能够产生多种识别结果,但是这些视频文字识别系统不能智能的选取最优结果呈现给用户。
发明内容
本发明的目的在于克服现有技术的不足,提供一种视频字幕OCR识别的自动校正方法,能够智能的从多种视频文字识别结果中选取最优识别结果。
本发明的目的是通过以下技术方案来实现的:一种视频字幕OCR识别的自动校正方法,包括以下步骤:
S1.获取带字幕的原始视频图像,并对该原始视频图像进行二值化处理得到二值化图像;
S2.分别对原始视频图像和二值化图像进行光学字符识别,得到多个参考识别结果;
S3.根据所述多个参考识别结果获取最优识别结果。
所述步骤S2包括以下子步骤:
S21.对原始视频图像进行光学字符识别,得到第一视频识别结果和第一文档识别结果;
S22.对二值化图像进行光学字符识别,得到第二视频识别结果和第二文档识别结果。
所述步骤S3包括以下子步骤:
S31.针对每个参考识别结果中的每个文字产生一个字幕矩形区域和一个置信度;
S32.对所有字幕矩形区域进行去除噪声处理;
S33.根据每个参考识别结果的置信度选取得到最可靠的参考识别结果,将该最可靠的参考识别结果作为备选识别结果,并计算该备选识别结果中文字的特征数据;
S34.根据文字的特征数据对备选识别结果进行字幕矩形区域划分检查;
S35.结合其它所有参考识别结果,对备选识别结果中的所有字幕矩形区域逐个进行判断,得到各字幕矩形区域对应的文字的最优结果,将备选识别结果中所有字幕矩形区域对应的文字的最优结果按照顺序组合成最优识别结果。
所述步骤S35中对备选识别结果中的字幕矩形区域进行判断的方式为:获取备选识别结果和其他所有参考识别结果在同一顺序处的字幕矩形区域对应的文字;将在该顺序处的字幕矩形区域对应的文字相同的识别结果分为同一类,当只有一类时,则将该类对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果;当有多类时,若各类中的识别结果的数量相同,则将所有识别结果的置信度进行加权计算,选取包含的识别结果的加权置信度最好的一类对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果,否则选取包含识别结果数量最多的一类对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果。
所述文字的特征数据包括文字的宽度、文字的高度和相邻文字的间距。
所述步骤S33中根据每个参考识别结果的置信度选取得到最可靠的参考识别结果的方式为:
S331.根据每个文字的矩形区域计算出每个文字的宽度;
S332.统计出所有的宽度以及该宽度对应的文字的个数;
S333.选取宽度相差最小的参考识别结果组作为最可靠的参考识别结果。
本发明的有益效果是:本发明能够智能的从多种视频文字识别结果中选取最优识别结果呈现给用户。
附图说明
图1为本发明一种视频字幕OCR识别的自动校正方法的流程图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种视频字幕OCR识别的自动校正方法,包括以下步骤:
S1.获取带字幕的原始视频图像,并对该原始视频图像进行二值化处理得到二值化图像。
S2.分别对原始视频图像和二值化图像进行光学字符识别,得到多个参考识别结果。本实施例中采用文通视频文字识别系统分别对原始视频图像和二值化图像进行光学字符识别。
所述步骤S2包括以下子步骤:
S21.对原始视频图像进行光学字符识别,得到第一视频识别结果和第一文档识别结果。
S22.对二值化图像进行光学字符识别,得到第二视频识别结果和第二文档识别结果。
S3.根据所述多个参考识别结果获取最优识别结果。
所述步骤S3包括以下子步骤:
S31.针对每个参考识别结果中的每个文字产生一个字幕矩形区域和一个置信度。在本实施例中,每个文字的置信度是文通识别引擎在生成识别结果的同时自动生成的。
S32.对所有字幕矩形区域进行去除噪声处理。
S33.根据每个参考识别结果的置信度选取得到最可靠的参考识别结果,将该最可靠的参考识别结果作为备选识别结果,并计算该备选识别结果中文字的特征数据。
所述文字的特征数据包括文字的宽度、文字的高度和相邻文字的间距。
所述步骤S33中根据每个参考识别结果的置信度选取得到最可靠的参考识别结果的方式为:文通识别引擎生成识别结果的同时自动生成每个文字的矩形区域;根据每个文字的矩形区域计算出每个文字的高度;统计出所有的宽度以及该宽度对应的文字的个数;由于每个文字的宽度都是一样的,从而判断出宽度相差最小的识别结果的置信度最高,因而选取宽度相差最小的参考识别结果组作为最可靠的参考识别结果。
S34.根据文字的特征数据对备选识别结果进行字幕矩形区域划分检查,例如,当两个字幕矩形区域的间距过大时需检查是否出现遗漏等,最终形成一个由字幕矩形区域以及字幕矩形区域对应的文字组成的备选识别结果。
S35.结合其它所有参考识别结果,对备选识别结果中的所有字幕矩形区域逐个进行判断,得到各字幕矩形区域对应的文字的最优结果,将备选识别结果中所有字幕矩形区域对应的文字的最优结果按照顺序组合成最优识别结果。
所述步骤S35中对备选识别结果中的字幕矩形区域进行判断的方式为:获取备选识别结果和其他所有参考识别结果在同一顺序处的字幕矩形区域对应的文字;将在该顺序处的字幕矩形区域对应的文字相同的识别结果分为同一类,当只有一类时,则将该类对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果;当有多类时,若各类中的识别结果的数量相同,则将所有识别结果的置信度进行加权计算,选取包含的识别结果的加权置信度最好的一类对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果,否则选取包含识别结果数量最多的一类对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果。对识别结果的置信度进行加权计算的方式为:根据字幕矩形区域的面积、置信度和相邻文字的置信度差异形成一个加权置信度。
实施例一:
一种视频字幕OCR识别的自动校正方法,包括以下步骤:
步骤一、获取带字幕的原始视频图像,并对该原始视频图像进行二值化处理得到二值化图像。
步骤二、对原始视频图像进行光学字符识别,得到第一视频识别结果和第一文档识别结果;对二值化图像进行光学字符识别,得到第二视频识别结果和第二文档识别结果,将第一视频识别结果、第一文档识别结果、第二视频识别结果和第二文档识别结果作为四个参考识别结果。
步骤三、针对每个参考识别结果中的每个文字产生一个字幕矩形区域和一个置信度;对所有字幕矩形区域进行去除噪声处理;根据每个参考识别结果的置信度选取得到参考识别结果,将该最可靠的参考识别结果作为备选识别结果,并计算该备选识别结果中文字的特征数据。
所述文字的特征数据包括文字的宽度、文字的高度和相邻文字的间距;根据文字的特征数据对备选结果进行字幕矩形区域划分检查,形成一个由字幕矩形区域以及字幕矩形区域对应的文字组成的备选识别结果;结合其它三个参考识别结果,对备选识别结果中的所有字幕矩形区域逐个进行判断,得到各字幕矩形区域对应的文字的最优结果,将备选识别结果中所有字幕矩形区域对应的文字的最优结果按照顺序组合成最优识别结果。
对备选识别结果中的字幕矩形区域进行判断的方式为:获取备选识别结果和其他三个参考识别结果在同一顺序处的字幕矩形区域对应的文字,得到第一文字、第二文字、第三文字和第四文字;
当第一文字、第二文字、第三文字和第四文字均相同时,则选取第一文字、第二文字、第三文字和第四文字中任意一个作为该顺序处的字幕矩形区域对应的文字的最优结果;
当第一文字、第二文字、第三文字和第四文字中有三个相同时,其中第一文字、第二文字和第三文字相同,则选取第一文字、第二文字和第三文字中任意一个作为该顺序处的字幕矩形区域对应的文字的最优结果;
当第一文字、第二文字、第三文字和第四文字两两相同时,其中第一文字和第二文字相同,第三文字和第四文字相同,将第一文字和第二文字对应的识别结果分为一组,将第三文字和第四文字对应的识别结果分为一组,将四个识别结果的置信度进行加权计算,选取加权置信度最好的一组对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果;
当第一文字、第二文字、第三文字和第四文字各不相同时,将四个识别结果的置信度进行加权计算,选取加权置信度最好的识别结果对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果。
将四个识别结果的置信度进行加权计算的方式为:根据字幕矩形区域面积、识别结果中文字的置信度、相邻参考文字的置信度差异形成一个加权置信度。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (5)

1.一种视频字幕OCR识别的自动校正方法,其特征在于:包括以下步骤:
S1.获取带字幕的原始视频图像,并对该原始视频图像进行二值化处理得到二值化图像;
S2.分别对原始视频图像和二值化图像进行光学字符识别,得到多个参考识别结果;
S3.根据所述多个参考识别结果获取最优识别结果;
所述步骤S3包括以下子步骤:
S31.针对每个参考识别结果中的每个文字产生一个字幕矩形区域和一个置信度;
S32.对所有字幕矩形区域进行去除噪声处理;
S33.根据每个参考识别结果的置信度选取得到最可靠的参考识别结果,将该最可靠的参考识别结果作为备选识别结果,并计算该备选识别结果中文字的特征数据;
S34.根据文字的特征数据对备选识别结果进行字幕矩形区域划分检查;
S35.结合其它所有参考识别结果,对备选识别结果中的所有字幕矩形区域逐个进行判断,得到各字幕矩形区域对应的文字的最优结果,将备选识别结果中所有字幕矩形区域对应的文字的最优结果按照顺序组合成最优识别结果。
2.根据权利要求1所述的一种视频字幕OCR识别的自动校正方法,其特征在于:所述步骤S2包括以下子步骤:
S21.对原始视频图像进行光学字符识别,得到第一视频识别结果和第一文档识别结果;
S22.对二值化图像进行光学字符识别,得到第二视频识别结果和第二文档识别结果。
3.根据权利要求1所述的一种视频字幕OCR识别的自动校正方法,其特征在于:所述步骤S35中对备选识别结果中的字幕矩形区域进行判断的方式为:获取备选识别结果和其他所有参考识别结果在同一顺序处的字幕矩形区域对应的文字;将在该顺序处的字幕矩形区域对应的文字相同的识别结果分为同一类,当只有一类时,则将该类对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果;当有多类时,若各类中的识别结果的数量相同,则将所有识别结果的置信度进行加权计算,选取包含的识别结果的加权置信度最好的一类对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果,否则选取包含识别结果数量最多的一类对应的文字作为该顺序处的字幕矩形区域对应的文字的最优结果。
4.根据权利要求1所述的一种视频字幕OCR识别的自动校正方法,其特征在于:所述文字的特征数据包括文字的宽度、文字的高度和相邻文字的间距。
5.根据权利要求1所述的一种视频字幕OCR识别的自动校正方法,其特征在于:所述步骤S33中根据每个参考识别结果的置信度选取得到最可靠的参考识别结果的方式为:
S331.根据每个文字的矩形区域计算出每个文字的宽度;
S332.统计出所有的宽度以及该宽度对应的文字的个数;
S333.选取宽度相差最小的参考识别结果组作为最可靠的参考识别结果。
CN201610039259.6A 2016-01-21 2016-01-21 一种视频字幕ocr识别的自动校正方法 Active CN105740760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610039259.6A CN105740760B (zh) 2016-01-21 2016-01-21 一种视频字幕ocr识别的自动校正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610039259.6A CN105740760B (zh) 2016-01-21 2016-01-21 一种视频字幕ocr识别的自动校正方法

Publications (2)

Publication Number Publication Date
CN105740760A CN105740760A (zh) 2016-07-06
CN105740760B true CN105740760B (zh) 2017-03-15

Family

ID=56246386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610039259.6A Active CN105740760B (zh) 2016-01-21 2016-01-21 一种视频字幕ocr识别的自动校正方法

Country Status (1)

Country Link
CN (1) CN105740760B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106454480A (zh) * 2016-09-30 2017-02-22 乐视控股(北京)有限公司 一种视频的播放控制方法和装置
CN108710855A (zh) * 2018-05-22 2018-10-26 山西同方知网数字出版技术有限公司 一种文字识别编校方法
CN109034040B (zh) * 2018-07-19 2021-11-23 北京影谱科技股份有限公司 一种基于演员表的人物识别方法、装置、设备和介质
CN108882033B (zh) * 2018-07-19 2021-12-14 上海影谱科技有限公司 一种基于视频语音的人物识别方法、装置、设备和介质
CN109165647A (zh) * 2018-08-22 2019-01-08 北京慕华信息科技有限公司 一种图像中文本信息量的计算方法及装置
CN109525890B (zh) * 2018-09-26 2021-07-13 北京雷石天地电子技术有限公司 一种基于字幕识别的mv字幕移植方法及装置
CN109583441A (zh) * 2018-10-19 2019-04-05 天津大学 基于监控平台的字幕识别方法
CN111652130B (zh) * 2020-06-02 2023-09-15 上海语识信息技术有限公司 一种非特定字体的数字、符号和字母组的识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7873218B2 (en) * 2004-04-26 2011-01-18 Canon Kabushiki Kaisha Function approximation processing method and image processing method
JP5647919B2 (ja) * 2011-03-07 2015-01-07 株式会社Nttドコモ 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム
CN104156706A (zh) * 2014-08-12 2014-11-19 华北电力大学句容研究中心 一种基于光学字符识别技术的中文字符识别方法
CN105117704B (zh) * 2015-08-25 2018-05-29 电子科技大学 一种基于多特征的文本图像一致性比较方法

Also Published As

Publication number Publication date
CN105740760A (zh) 2016-07-06

Similar Documents

Publication Publication Date Title
CN105740760B (zh) 一种视频字幕ocr识别的自动校正方法
US9530071B2 (en) Hierarchical interlinked multi-scale convolutional network for image parsing
US8120665B2 (en) Image processing method and apparatus, digital camera, and recording medium recording image processing program
US7359568B2 (en) Image processing apparatus and image processing method
CN110008950A (zh) 一种对形状鲁棒的自然场景中文本检测的方法
CN102870399B (zh) 在ocr过程中将词语位图分割为单个字符或字形
CN106875546A (zh) 一种增值税发票的识别方法
JP6890427B2 (ja) 車番認識装置
CN107705288A (zh) 伪目标运动强干扰下的危险气体泄漏红外视频检测方法
CN103093203A (zh) 一种人体再识别方法以及人体再识别系统
CN103745104A (zh) 一种基于增强现实技术的评卷方法
WO2012024830A1 (en) Stitched digital images
US20100172587A1 (en) Method and apparatus for setting a lip region for lip reading
CN106845513A (zh) 基于条件随机森林的人手检测器及方法
JP2004265264A (ja) 画像処理装置
CN105100895A (zh) 无视频分辨率信息的视频与屏幕分辨率的匹配方法及装置
CN105354570A (zh) 一种车牌左右边界精确定位的方法及系统
CN102915449A (zh) 一种照片分类方法
CN103106635A (zh) 数码迷彩信息隐藏方法及装置
CN109902751A (zh) 一种融合卷积神经网络和半字模板匹配的表盘数字字符识别方法
CN108416782A (zh) 基于视觉识别和光照矫正的烟叶评级方法及系统
Ju et al. Colour fringe detection and correction in YCbCr colour space
CN109948598B (zh) 文档版面智能化分析方法及装置
CN107748899B (zh) 一种基于lstm的二维图像的目标类别判识方法
CN105654017A (zh) 二维码传输方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant