CN103186780B

CN103186780B - 视频字幕识别方法及装置

Info

Publication number: CN103186780B
Application number: CN201110456310.0A
Authority: CN
Inventors: 贾杰; 赵容浩; 金文成
Original assignee: LG Electronics China Research and Development Center Co Ltd
Current assignee: LG Electronics China Research and Development Center Co Ltd
Priority date: 2011-12-30
Filing date: 2011-12-30
Publication date: 2018-01-26
Anticipated expiration: 2031-12-30
Also published as: WO2013097429A1; CN103186780A

Abstract

本发明公开了一种视频字幕识别方法及装置，其中方法包括：对视频中同一字幕的时间相邻两帧图像做差，得到残差图像；将残差图像取反，得到反残差图像；将反残差图像进行二值化处理；将二值化处理后的反残差图像与所述同一字幕的当前帧图像做与操作，得到所述同一字幕的字幕图像；对所述字幕图像进行字符识别。本发明可以实现对视频内容进行处理，获得字幕图像，并使字幕图像达到可以进行字符识别的程度，相对于已有的视频字幕识别方法而言，可以大幅提高视频字幕识别结果准确度；本发明还可应用于数字电视节目视频的手语配音视频处理，实现在图片字幕的情况下对数字电视节目内容的实时手语翻译处理。

Description

视频字幕识别方法及装置

技术领域

本发明涉及视频技术领域，尤其涉及视频字幕识别方法及装置。

背景技术

光学字符识别(Optical Character Recognition，OCR)是指对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程，已有30多年历史，近几年又出现了图像字符识别(Image Character Recognition，ICR)和智能字符识别(Intelligent CharacterRecognition，ICR)，实际上这三种字符识别技术的基本原理大致相同。

字符识别技术有三个重要的应用领域：办公自动化中的文本输入、邮件自动处理、与自动获取文本过程相关的其他领域。这些领域包括：零售价格识读，订单数据输入，单证、支票和文件识读，微电路及小件产品的状态及批号特征识读等。基于在识别手迹特征方面的进展，目前正探索在手迹分析及鉴定签名方面的应用。

随着数字媒体技术的高速发展，视频在人们的日常生活中已经成为不可或缺的一部分。由于视频的大量出现，迫切地需要一种有效的方法来分析视频中的信息。正由于这种需要，基于图像、声音等各种视频信息分析方法被大量提出，其中，视频中的字幕信息对于视频内容的理解起着举足轻重的作用。将字符识别技术应用于视频字幕识别，具有十分重要的研究和应用价值。如果能够自动识别视频中的字幕，则可以得到反映视频内容的文本信息。

已有的视频字幕识别方法可以分为三类：基于连通区域的视频字幕识别、基于纹理的视频字幕识别和基于边缘的视频字幕识别。然而已有的视频字幕识别方法均存在视频字幕识别结果准确度不高的问题。

发明内容

本发明实施例提供一种视频字幕识别方法，用以提高视频字幕识别结果准确度，该方法包括：

对视频中同一字幕的时间相邻两帧图像做差，得到残差图像；

将残差图像取反，得到反残差图像；

将反残差图像进行二值化处理；

将二值化处理后的反残差图像与所述同一字幕的当前帧图像做与操作，得到所述同一字幕的字幕图像；

对所述字幕图像进行字符识别。

本发明实施例还提供一种视频字幕识别装置，用以提高视频字幕识别结果准确度，该装置包括：

残差处理模块，用于对视频中同一字幕的时间相邻两帧图像做差，得到残差图像；

反残差处理模块，用于将残差图像取反，得到反残差图像；

二值化处理模块，用于将反残差图像进行二值化处理；

字幕处理模块，用于将二值化处理后的反残差图像与所述同一字幕的当前帧图像做与操作，得到所述同一字幕的字幕图像；

字符处理模块，用于对所述字幕图像进行字符识别。

本发明实施例中，对视频中同一字幕的时间相邻两帧图像做差，得到残差图像；将残差图像取反，得到反残差图像；将反残差图像进行二值化处理；将二值化处理后的反残差图像与所述同一字幕的当前帧图像做与操作，得到所述同一字幕的字幕图像；对所述字幕图像进行字符识别；相对于已有的视频字幕识别方法而言，可以大幅提高视频字幕识别结果准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中视频字幕识别方法的处理流程图；

图2为本发明实施例中基于独立区域字幕显示的视频字幕识别实例中同一字幕的第k-1帧图像的区域划分示意图；

图3为本发明实施例中基于独立区域字幕显示的视频字幕识别实例中同一字幕的第k帧图像的区域划分示意图；

图4为本发明实施例中基于独立区域字幕显示的视频字幕识别实例中同一字幕的第k-1帧图像的显示示意图；

图5为本发明实施例中基于独立区域字幕显示的视频字幕识别实例中同一字幕的第k帧图像的显示示意图；

图6为本发明实施例中基于独立区域字幕显示的视频字幕识别实例中残差图像的显示示意图；

图7为本发明实施例中基于独立区域字幕显示的视频字幕识别实例中反残差图像的显示示意图；

图8为本发明实施例中基于独立区域字幕显示的视频字幕识别实例中简化的反残差图像的显示示意图；

图9为本发明实施例中基于独立区域字幕显示的视频字幕识别实例中字幕图像的显示示意图；

图10为本发明实施例中基于非独立区域字幕显示的视频字幕识别实例中同一字幕的第k-1帧图像的区域划分示意图；

图11为本发明实施例中基于非独立区域字幕显示的视频字幕识别实例中同一字幕的第k帧图像的区域划分示意图；

图12为本发明实施例中基于非独立区域字幕显示的视频字幕识别实例中同一字幕的第k-1帧图像的显示示意图；

图13为本发明实施例中基于非独立区域字幕显示的视频字幕识别实例中同一字幕的第k帧图像的显示示意图；

图14为本发明实施例中基于非独立区域字幕显示的视频字幕识别实例中反残差图像的显示示意图；

图15为本发明实施例中基于非独立区域字幕显示的视频字幕识别实例中字幕图像的显示示意图；

图16为本发明实施例中将视频字幕识别应用于数字电视手语配音的一具体实例的示意图；

图17为本发明实施例中将视频字幕识别应用于数字电视手语配音的另一具体实例的示意图；

图18为本发明实施例中视频字幕识别装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

图1为本发明实施例中视频字幕识别方法的处理流程图，如图1所示，其处理流程可以包括：

步骤101、对视频中同一字幕的时间相邻两帧图像做差，得到残差图像；

步骤102、将残差图像取反，得到反残差图像；

步骤103、将反残差图像进行二值化处理；

步骤104、将二值化处理后的反残差图像与所述同一字幕的当前帧图像做与操作，得到所述同一字幕的字幕图像；

步骤105、对所述字幕图像进行字符识别。

由图1所示流程可以得知，本发明实施例的视频字幕识别方法，对视频内容进行处理，获得字幕图像，并使字幕图像达到可以进行字符识别的程度，相对于已有的视频字幕识别方法而言，可以大幅提高视频字幕识别结果准确度。

由于视频字幕的显示有其独有的特性：同一字幕为了能够使用户观看清楚通常有一段持续时间。该持续时间依据显示字幕内容的多少可以从500ms到上千ms。而视频图像，例如数字电视，通常的图像帧率是30帧/秒，所以通常相邻两帧的时间间隔是33ms。在同一个字幕的显示区间内，所有图像的字幕部分都是相同的。本发明实施例提出的视频字幕识别方法正是基于相邻帧图像处理。

具体实施时，对视频中同一字幕的时间相邻两帧图像做差，得到残差图像，可以包括：对视频中独立区域显示的同一字幕的时间相邻两帧图像做差，得到残差图像；或，对视频中非独立区域显示的同一字幕的时间相邻两帧图像做差，得到残差图像。因此，视频字幕识别方法大致可分为基于独立区域字幕显示和非独立区域字幕显示的视频字幕识别方法。

具体实施时，基于独立区域字幕显示的视频字幕识别方法中，对视频中独立区域显示的同一字幕的时间相邻两帧图像做差时，所述独立区域做差后得到全零区域。

下面举例说明基于独立区域字幕显示和非独立区域字幕显示的视频字幕识别方法。

本例说明基于独立区域字幕显示的视频字幕识别方法。

假设显示同一字幕的相邻两帧图像如图2和图3所示，其中图2为该同一字幕的第k-1帧图像的区域划分示意图；图3为该同一字幕的第k帧图像的区域划分示意图。本例中在独立区域显示的字幕识别可以按照如下步骤进行：

1、对视频中同一字幕的时间相邻两帧图像做差，得到残差图像。

其中，该同一字幕的时间相邻两帧图像如图4和图5所示，其中图4为该同一字幕的第k-1帧图像的显示示意图；图5为该同一字幕的第k帧图像的显示示意图；图6为做差得到的残差图像的显示示意图。图6中填黑部分表示全零值。因为相邻两帧图像中字幕显示区域完全相同，所以做差后得到全零区域。

2、将残差图像取反，得到反残差图像；图7为反残差图像的显示示意图。

3、将反残差图像二值化，得到简化的反残差图像；图8为简化的反残差图像的显示示意图。

4、将简化的反残差图像与该同一字幕的当前帧图像做与操作(&)，得到该同一字幕的字幕图像；其中，与操作可定义为1&A＝A，0&A＝0；图9为字幕图像的显示示意图。

5、利用字符识别技术对字幕图像进行识别，该字符识别技术为现有的字符识别技术。

本例说明基于非独立区域字幕显示的视频字幕识别方法。

假设显示同一字幕的相邻两帧图像如图10和图11所示，其中图10为该同一字幕的第k-1帧图像的区域划分示意图；图11为该同一字幕的第k帧图像的区域划分示意图。本例中在非独立区域显示的字幕识别可以按照如下步骤进行：

1、对视频中同一字幕的时间相邻两帧图像做差，得到残差图像；将残差图像取反，得到反残差图像。

其中，该同一字幕的时间相邻两帧图像如图12和图13所示，其中图12为该同一字幕的第k-1帧图像的显示示意图；图13为该同一字幕的第k帧图像的显示示意图；图14为反残差图像的显示示意图。

2、将反残差图像二值化，得到简化的反残差图像。

3、将简化的反残差图像与该同一字幕的当前帧图像做与操作(&)，得到该同一字幕的字幕图像；其中，与操作可定义为1&A＝A，0&A＝0；图15为字幕图像的显示示意图。

4、利用字符识别技术对字幕图像进行识别，该字符识别技术为现有的字符识别技术。

具体实施时，可以将上述视频字幕识别方法应用于数字电视节目视频的手语配音视频处理，实现在图片字幕的情况下对数字电视节目内容的实时手语翻译处理。实施时需先进行视频字幕识别，从而实现文字至手语的转换。

具体实施时，所述对视频中同一字幕的时间相邻两帧图像做差，可以包括：对数字电视节目视频中同一字幕的时间相邻两帧图像做差；则在对所述字幕图像进行字符识别之后，还可以包括：进行字幕提取；将提取的字幕进行文本至手语的转换，获得与数字电视节目视频相匹配的手语配音视频。

具体实施时，在获得所述手语配音视频之后，还可以包括：将数字电视节目视频的帧率与手语配音视频的帧率调整为相同的帧率；将手语配音视频嵌入数字电视节目视频，合成后输出至显示屏进行显示；显示前进行时移缓冲处理。

具体实施时，还可以在显示前检测显示屏上的非用户感兴趣区域，在显示时将手语配音视频显示在非用户感兴趣区域。

其中，将数字电视节目视频的帧率与手语配音视频的帧率调整为相同的帧率，可实现数字电视节目视频与手语配音视频的同步；在显示数字电视节目视频和手语配音视频之前进行时移缓冲处理，可以以时移电视的方式将数字电视节目视频和手语配音视频呈现给观众；还检测显示屏上的非用户感兴趣区域，将手语配音视频显示在非用户感兴趣区域，可以避免影响用户对数字电视节目内容的观看。

图16为本发明实施例中将视频字幕识别应用于数字电视手语配音的一具体实例的示意图。

如图16所示，经信源输入的媒体流传送至处理模块后，由处理模块进行媒体流字幕文本至手语的转换，以及进行手语同步处理，同步处理后获得的手语配音视频传送至显示模块进行显示。信源输入的媒体流可以是经服务器从网络下载的，或者，网络传输的媒体流直接送入处理模块进行字幕文本至手语的处理；实施时也可以从存储单元(例如存储有缓冲的数字电视节目视频传送流或从电视机外部存储设备读取的图像)获取传送流或图像送入处理模块，或者，也可以通过遥控器控制外部输入设备提供图像帧至处理模块。

图17为本发明实施例中将视频字幕识别应用于数字电视手语配音的另一具体实例的示意图。

如图17所示，信源输入后进行屏幕抓取处理，将抓取的图像进行字幕识别和字幕提取，将提取的字幕进行文本至手语的转换，获得手语配音视频，送入显示模块进行显示；在进行字幕识别和字幕提取的同时，还将抓取的图像进行非用户感兴趣区域检测及缓冲处理，以便将手语配音视频显示在非用户感兴趣区域；抓取的图像进行缓冲处理后，获得数字电视节目视频送入显示模块进行显示；显示前手语配音视频还与数字电视节目视频进行同步处理。

本发明实施例中还提供了一种视频字幕识别装置，如下面的实施例所述。由于视频字幕识别装置解决问题的原理与视频字幕识别方法相似，因此视频字幕识别装置的实施可以参见视频字幕识别方法的实施，重复之处不再赘述。

图18为本发明实施例中视频字幕识别装置的结构示意图。如图18所示，本发明实施例中视频字幕识别装置可以包括：

残差处理模块1801，用于对视频中同一字幕的时间相邻两帧图像做差，得到残差图像；

反残差处理模块1802，用于将残差图像取反，得到反残差图像；

二值化处理模块1803，用于将反残差图像进行二值化处理；

字幕处理模块1804，用于将二值化处理后的反残差图像与所述同一字幕的当前帧图像做与操作，得到所述同一字幕的字幕图像；

字符处理模块1805，用于对所述字幕图像进行字符识别。

一个实施例中，残差处理模块1801具体可以用于：

对视频中独立区域显示的同一字幕的时间相邻两帧图像做差，得到残差图像；

或，对视频中非独立区域显示的同一字幕的时间相邻两帧图像做差，得到残差图像。

一个实施例中，残差处理模块1801进一步可以用于：

对视频中独立区域显示的同一字幕的时间相邻两帧图像做差时，所述独立区域做差后得到全零区域。

一个实施例中，残差处理模块1801具体可以用于：

对数字电视节目视频中同一字幕的时间相邻两帧图像做差；

图18所示的视频字幕识别装置还可以包括：

字幕提取模块，用于在所述字符处理模块对所述字幕图像进行字符识别之后，进行字幕提取；

手语转换模块，用于将提取的字幕进行文本至手语的转换，获得与数字电视节目视频相匹配的手语配音视频。

一个实施例中，图18所示的视频字幕识别装置还可以包括：

同步处理模块，用于将数字电视节目视频的帧率与手语配音视频的帧率调整为相同的帧率；

显示处理模块，用于将手语配音视频嵌入数字电视节目视频，合成后输出至显示屏进行显示；显示前进行时移缓冲处理。

一个实施例中，显示处理模块可以进一步用于：

在显示前检测显示屏上的非用户感兴趣区域，在显示时将手语配音视频显示在非用户感兴趣区域。

综上所述，本发明实施例中，对视频中同一字幕的时间相邻两帧图像做差，得到残差图像；将残差图像取反，得到反残差图像；将反残差图像进行二值化处理；将二值化处理后的反残差图像与所述同一字幕的当前帧图像做与操作，得到所述同一字幕的字幕图像；对所述字幕图像进行字符识别；从而实现对视频内容进行处理，获得字幕图像，并使字幕图像达到可以进行字符识别的程度，相对于已有的视频字幕识别方法而言，可以大幅提高视频字幕识别结果准确度。

本发明实施例的视频字幕识别还可应用于数字电视节目视频的手语配音视频处理，实现在图片字幕的情况下对数字电视节目内容的实时手语翻译处理。实施时先进行视频字幕识别，从而实现文字至手语的转换。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频字幕识别方法，其特征在于，该方法包括：

将残差图像取反，得到反残差图像；

将反残差图像进行二值化处理；

对所述字幕图像进行字符识别。

2.如权利要求1所述的方法，其特征在于，所述对视频中同一字幕的时间相邻两帧图像做差，得到残差图像，包括：

3.如权利要求2所述的方法，其特征在于，对视频中独立区域显示的同一字幕的时间相邻两帧图像做差时，所述独立区域做差后得到全零区域。

4.如权利要求1所述的方法，其特征在于，所述对视频中同一字幕的时间相邻两帧图像做差，包括：

对数字电视节目视频中同一字幕的时间相邻两帧图像做差；

对所述字幕图像进行字符识别之后，还包括：

进行字幕提取；

将提取的字幕进行文本至手语的转换，获得与数字电视节目视频相匹配的手语配音视频。

5.如权利要求4所述的方法，其特征在于，获得所述手语配音视频之后，还包括：

将数字电视节目视频的帧率与手语配音视频的帧率调整为相同的帧率；

将手语配音视频嵌入数字电视节目视频，合成后输出至显示屏进行显示；显示前进行时移缓冲处理。

6.如权利要求1所述的方法，其特征在于，在显示前还检测显示屏上的非用户感兴趣区域，在显示时将手语配音视频显示在非用户感兴趣区域。

7.一种视频字幕识别装置，其特征在于，包括：

反残差处理模块，用于将残差图像取反，得到反残差图像；

二值化处理模块，用于将反残差图像进行二值化处理；

字符处理模块，用于对所述字幕图像进行字符识别。

8.如权利要求7所述的装置，其特征在于，所述残差处理模块具体用于：

9.如权利要求7所述的装置，其特征在于，所述残差处理模块进一步用于：对视频中独立区域显示的同一字幕的时间相邻两帧图像做差时，所述独立区域做差后得到全零区域。

10.如权利要求7所述的装置，其特征在于，所述残差处理模块具体用于：

对数字电视节目视频中同一字幕的时间相邻两帧图像做差；

所述装置还包括：

11.如权利要求10所述的装置，其特征在于，还包括：

12.如权利要求11所述的装置，其特征在于，所述显示处理模块进一步用于在显示前检测显示屏上的非用户感兴趣区域，在显示时将手语配音视频显示在非用户感兴趣区域。