CN103186780B - 视频字幕识别方法及装置 - Google Patents

视频字幕识别方法及装置 Download PDF

Info

Publication number
CN103186780B
CN103186780B CN201110456310.0A CN201110456310A CN103186780B CN 103186780 B CN103186780 B CN 103186780B CN 201110456310 A CN201110456310 A CN 201110456310A CN 103186780 B CN103186780 B CN 103186780B
Authority
CN
China
Prior art keywords
video
image
captions
residual image
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110456310.0A
Other languages
English (en)
Other versions
CN103186780A (zh
Inventor
贾杰
赵容浩
金文成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics China Research and Development Center Co Ltd
Original Assignee
LG Electronics China Research and Development Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics China Research and Development Center Co Ltd filed Critical LG Electronics China Research and Development Center Co Ltd
Priority to CN201110456310.0A priority Critical patent/CN103186780B/zh
Priority to PCT/CN2012/077618 priority patent/WO2013097429A1/en
Publication of CN103186780A publication Critical patent/CN103186780A/zh
Application granted granted Critical
Publication of CN103186780B publication Critical patent/CN103186780B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Studio Circuits (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明公开了一种视频字幕识别方法及装置,其中方法包括:对视频中同一字幕的时间相邻两帧图像做差,得到残差图像;将残差图像取反,得到反残差图像;将反残差图像进行二值化处理;将二值化处理后的反残差图像与所述同一字幕的当前帧图像做与操作,得到所述同一字幕的字幕图像;对所述字幕图像进行字符识别。本发明可以实现对视频内容进行处理,获得字幕图像,并使字幕图像达到可以进行字符识别的程度,相对于已有的视频字幕识别方法而言,可以大幅提高视频字幕识别结果准确度;本发明还可应用于数字电视节目视频的手语配音视频处理,实现在图片字幕的情况下对数字电视节目内容的实时手语翻译处理。

Description

视频字幕识别方法及装置
技术领域
本发明涉及视频技术领域,尤其涉及视频字幕识别方法及装置。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程,已有30多年历史,近几年又出现了图像字符识别(Image Character Recognition,ICR)和智能字符识别(Intelligent CharacterRecognition,ICR),实际上这三种字符识别技术的基本原理大致相同。
字符识别技术有三个重要的应用领域:办公自动化中的文本输入、邮件自动处理、与自动获取文本过程相关的其他领域。这些领域包括:零售价格识读,订单数据输入,单证、支票和文件识读,微电路及小件产品的状态及批号特征识读等。基于在识别手迹特征方面的进展,目前正探索在手迹分析及鉴定签名方面的应用。
随着数字媒体技术的高速发展,视频在人们的日常生活中已经成为不可或缺的一部分。由于视频的大量出现,迫切地需要一种有效的方法来分析视频中的信息。正由于这种需要,基于图像、声音等各种视频信息分析方法被大量提出,其中,视频中的字幕信息对于视频内容的理解起着举足轻重的作用。将字符识别技术应用于视频字幕识别,具有十分重要的研究和应用价值。如果能够自动识别视频中的字幕,则可以得到反映视频内容的文本信息。
已有的视频字幕识别方法可以分为三类:基于连通区域的视频字幕识别、基于纹理的视频字幕识别和基于边缘的视频字幕识别。然而已有的视频字幕识别方法均存在视频字幕识别结果准确度不高的问题。
发明内容
本发明实施例提供一种视频字幕识别方法,用以提高视频字幕识别结果准确度,该方法包括:
对视频中同一字幕的时间相邻两帧图像做差,得到残差图像;
将残差图像取反,得到反残差图像;
将反残差图像进行二值化处理;
将二值化处理后的反残差图像与所述同一字幕的当前帧图像做与操作,得到所述同一字幕的字幕图像;
对所述字幕图像进行字符识别。
本发明实施例还提供一种视频字幕识别装置,用以提高视频字幕识别结果准确度,该装置包括:
残差处理模块,用于对视频中同一字幕的时间相邻两帧图像做差,得到残差图像;
反残差处理模块,用于将残差图像取反,得到反残差图像;
二值化处理模块,用于将反残差图像进行二值化处理;
字幕处理模块,用于将二值化处理后的反残差图像与所述同一字幕的当前帧图像做与操作,得到所述同一字幕的字幕图像;
字符处理模块,用于对所述字幕图像进行字符识别。
本发明实施例中,对视频中同一字幕的时间相邻两帧图像做差,得到残差图像;将残差图像取反,得到反残差图像;将反残差图像进行二值化处理;将二值化处理后的反残差图像与所述同一字幕的当前帧图像做与操作,得到所述同一字幕的字幕图像;对所述字幕图像进行字符识别;相对于已有的视频字幕识别方法而言,可以大幅提高视频字幕识别结果准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中视频字幕识别方法的处理流程图;
图2为本发明实施例中基于独立区域字幕显示的视频字幕识别实例中同一字幕的第k-1帧图像的区域划分示意图;
图3为本发明实施例中基于独立区域字幕显示的视频字幕识别实例中同一字幕的第k帧图像的区域划分示意图;
图4为本发明实施例中基于独立区域字幕显示的视频字幕识别实例中同一字幕的第k-1帧图像的显示示意图;
图5为本发明实施例中基于独立区域字幕显示的视频字幕识别实例中同一字幕的第k帧图像的显示示意图;
图6为本发明实施例中基于独立区域字幕显示的视频字幕识别实例中残差图像的显示示意图;
图7为本发明实施例中基于独立区域字幕显示的视频字幕识别实例中反残差图像的显示示意图;
图8为本发明实施例中基于独立区域字幕显示的视频字幕识别实例中简化的反残差图像的显示示意图;
图9为本发明实施例中基于独立区域字幕显示的视频字幕识别实例中字幕图像的显示示意图;
图10为本发明实施例中基于非独立区域字幕显示的视频字幕识别实例中同一字幕的第k-1帧图像的区域划分示意图;
图11为本发明实施例中基于非独立区域字幕显示的视频字幕识别实例中同一字幕的第k帧图像的区域划分示意图;
图12为本发明实施例中基于非独立区域字幕显示的视频字幕识别实例中同一字幕的第k-1帧图像的显示示意图;
图13为本发明实施例中基于非独立区域字幕显示的视频字幕识别实例中同一字幕的第k帧图像的显示示意图;
图14为本发明实施例中基于非独立区域字幕显示的视频字幕识别实例中反残差图像的显示示意图;
图15为本发明实施例中基于非独立区域字幕显示的视频字幕识别实例中字幕图像的显示示意图;
图16为本发明实施例中将视频字幕识别应用于数字电视手语配音的一具体实例的示意图;
图17为本发明实施例中将视频字幕识别应用于数字电视手语配音的另一具体实例的示意图;
图18为本发明实施例中视频字幕识别装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
图1为本发明实施例中视频字幕识别方法的处理流程图,如图1所示,其处理流程可以包括:
步骤101、对视频中同一字幕的时间相邻两帧图像做差,得到残差图像;
步骤102、将残差图像取反,得到反残差图像;
步骤103、将反残差图像进行二值化处理;
步骤104、将二值化处理后的反残差图像与所述同一字幕的当前帧图像做与操作,得到所述同一字幕的字幕图像;
步骤105、对所述字幕图像进行字符识别。
由图1所示流程可以得知,本发明实施例的视频字幕识别方法,对视频内容进行处理,获得字幕图像,并使字幕图像达到可以进行字符识别的程度,相对于已有的视频字幕识别方法而言,可以大幅提高视频字幕识别结果准确度。
由于视频字幕的显示有其独有的特性:同一字幕为了能够使用户观看清楚通常有一段持续时间。该持续时间依据显示字幕内容的多少可以从500ms到上千ms。而视频图像,例如数字电视,通常的图像帧率是30帧/秒,所以通常相邻两帧的时间间隔是33ms。在同一个字幕的显示区间内,所有图像的字幕部分都是相同的。本发明实施例提出的视频字幕识别方法正是基于相邻帧图像处理。
具体实施时,对视频中同一字幕的时间相邻两帧图像做差,得到残差图像,可以包括:对视频中独立区域显示的同一字幕的时间相邻两帧图像做差,得到残差图像;或,对视频中非独立区域显示的同一字幕的时间相邻两帧图像做差,得到残差图像。因此,视频字幕识别方法大致可分为基于独立区域字幕显示和非独立区域字幕显示的视频字幕识别方法。
具体实施时,基于独立区域字幕显示的视频字幕识别方法中,对视频中独立区域显示的同一字幕的时间相邻两帧图像做差时,所述独立区域做差后得到全零区域。
下面举例说明基于独立区域字幕显示和非独立区域字幕显示的视频字幕识别方法。
本例说明基于独立区域字幕显示的视频字幕识别方法。
假设显示同一字幕的相邻两帧图像如图2和图3所示,其中图2为该同一字幕的第k-1帧图像的区域划分示意图;图3为该同一字幕的第k帧图像的区域划分示意图。本例中在独立区域显示的字幕识别可以按照如下步骤进行:
1、对视频中同一字幕的时间相邻两帧图像做差,得到残差图像。
其中,该同一字幕的时间相邻两帧图像如图4和图5所示,其中图4为该同一字幕的第k-1帧图像的显示示意图;图5为该同一字幕的第k帧图像的显示示意图;图6为做差得到的残差图像的显示示意图。图6中填黑部分表示全零值。因为相邻两帧图像中字幕显示区域完全相同,所以做差后得到全零区域。
2、将残差图像取反,得到反残差图像;图7为反残差图像的显示示意图。
3、将反残差图像二值化,得到简化的反残差图像;图8为简化的反残差图像的显示示意图。
4、将简化的反残差图像与该同一字幕的当前帧图像做与操作(&),得到该同一字幕的字幕图像;其中,与操作可定义为1&A=A,0&A=0;图9为字幕图像的显示示意图。
5、利用字符识别技术对字幕图像进行识别,该字符识别技术为现有的字符识别技术。
本例说明基于非独立区域字幕显示的视频字幕识别方法。
假设显示同一字幕的相邻两帧图像如图10和图11所示,其中图10为该同一字幕的第k-1帧图像的区域划分示意图;图11为该同一字幕的第k帧图像的区域划分示意图。本例中在非独立区域显示的字幕识别可以按照如下步骤进行:
1、对视频中同一字幕的时间相邻两帧图像做差,得到残差图像;将残差图像取反,得到反残差图像。
其中,该同一字幕的时间相邻两帧图像如图12和图13所示,其中图12为该同一字幕的第k-1帧图像的显示示意图;图13为该同一字幕的第k帧图像的显示示意图;图14为反残差图像的显示示意图。
2、将反残差图像二值化,得到简化的反残差图像。
3、将简化的反残差图像与该同一字幕的当前帧图像做与操作(&),得到该同一字幕的字幕图像;其中,与操作可定义为1&A=A,0&A=0;图15为字幕图像的显示示意图。
4、利用字符识别技术对字幕图像进行识别,该字符识别技术为现有的字符识别技术。
具体实施时,可以将上述视频字幕识别方法应用于数字电视节目视频的手语配音视频处理,实现在图片字幕的情况下对数字电视节目内容的实时手语翻译处理。实施时需先进行视频字幕识别,从而实现文字至手语的转换。
具体实施时,所述对视频中同一字幕的时间相邻两帧图像做差,可以包括:对数字电视节目视频中同一字幕的时间相邻两帧图像做差;则在对所述字幕图像进行字符识别之后,还可以包括:进行字幕提取;将提取的字幕进行文本至手语的转换,获得与数字电视节目视频相匹配的手语配音视频。
具体实施时,在获得所述手语配音视频之后,还可以包括:将数字电视节目视频的帧率与手语配音视频的帧率调整为相同的帧率;将手语配音视频嵌入数字电视节目视频,合成后输出至显示屏进行显示;显示前进行时移缓冲处理。
具体实施时,还可以在显示前检测显示屏上的非用户感兴趣区域,在显示时将手语配音视频显示在非用户感兴趣区域。
其中,将数字电视节目视频的帧率与手语配音视频的帧率调整为相同的帧率,可实现数字电视节目视频与手语配音视频的同步;在显示数字电视节目视频和手语配音视频之前进行时移缓冲处理,可以以时移电视的方式将数字电视节目视频和手语配音视频呈现给观众;还检测显示屏上的非用户感兴趣区域,将手语配音视频显示在非用户感兴趣区域,可以避免影响用户对数字电视节目内容的观看。
图16为本发明实施例中将视频字幕识别应用于数字电视手语配音的一具体实例的示意图。
如图16所示,经信源输入的媒体流传送至处理模块后,由处理模块进行媒体流字幕文本至手语的转换,以及进行手语同步处理,同步处理后获得的手语配音视频传送至显示模块进行显示。信源输入的媒体流可以是经服务器从网络下载的,或者,网络传输的媒体流直接送入处理模块进行字幕文本至手语的处理;实施时也可以从存储单元(例如存储有缓冲的数字电视节目视频传送流或从电视机外部存储设备读取的图像)获取传送流或图像送入处理模块,或者,也可以通过遥控器控制外部输入设备提供图像帧至处理模块。
图17为本发明实施例中将视频字幕识别应用于数字电视手语配音的另一具体实例的示意图。
如图17所示,信源输入后进行屏幕抓取处理,将抓取的图像进行字幕识别和字幕提取,将提取的字幕进行文本至手语的转换,获得手语配音视频,送入显示模块进行显示;在进行字幕识别和字幕提取的同时,还将抓取的图像进行非用户感兴趣区域检测及缓冲处理,以便将手语配音视频显示在非用户感兴趣区域;抓取的图像进行缓冲处理后,获得数字电视节目视频送入显示模块进行显示;显示前手语配音视频还与数字电视节目视频进行同步处理。
本发明实施例中还提供了一种视频字幕识别装置,如下面的实施例所述。由于视频字幕识别装置解决问题的原理与视频字幕识别方法相似,因此视频字幕识别装置的实施可以参见视频字幕识别方法的实施,重复之处不再赘述。
图18为本发明实施例中视频字幕识别装置的结构示意图。如图18所示,本发明实施例中视频字幕识别装置可以包括:
残差处理模块1801,用于对视频中同一字幕的时间相邻两帧图像做差,得到残差图像;
反残差处理模块1802,用于将残差图像取反,得到反残差图像;
二值化处理模块1803,用于将反残差图像进行二值化处理;
字幕处理模块1804,用于将二值化处理后的反残差图像与所述同一字幕的当前帧图像做与操作,得到所述同一字幕的字幕图像;
字符处理模块1805,用于对所述字幕图像进行字符识别。
一个实施例中,残差处理模块1801具体可以用于:
对视频中独立区域显示的同一字幕的时间相邻两帧图像做差,得到残差图像;
或,对视频中非独立区域显示的同一字幕的时间相邻两帧图像做差,得到残差图像。
一个实施例中,残差处理模块1801进一步可以用于:
对视频中独立区域显示的同一字幕的时间相邻两帧图像做差时,所述独立区域做差后得到全零区域。
一个实施例中,残差处理模块1801具体可以用于:
对数字电视节目视频中同一字幕的时间相邻两帧图像做差;
图18所示的视频字幕识别装置还可以包括:
字幕提取模块,用于在所述字符处理模块对所述字幕图像进行字符识别之后,进行字幕提取;
手语转换模块,用于将提取的字幕进行文本至手语的转换,获得与数字电视节目视频相匹配的手语配音视频。
一个实施例中,图18所示的视频字幕识别装置还可以包括:
同步处理模块,用于将数字电视节目视频的帧率与手语配音视频的帧率调整为相同的帧率;
显示处理模块,用于将手语配音视频嵌入数字电视节目视频,合成后输出至显示屏进行显示;显示前进行时移缓冲处理。
一个实施例中,显示处理模块可以进一步用于:
在显示前检测显示屏上的非用户感兴趣区域,在显示时将手语配音视频显示在非用户感兴趣区域。
综上所述,本发明实施例中,对视频中同一字幕的时间相邻两帧图像做差,得到残差图像;将残差图像取反,得到反残差图像;将反残差图像进行二值化处理;将二值化处理后的反残差图像与所述同一字幕的当前帧图像做与操作,得到所述同一字幕的字幕图像;对所述字幕图像进行字符识别;从而实现对视频内容进行处理,获得字幕图像,并使字幕图像达到可以进行字符识别的程度,相对于已有的视频字幕识别方法而言,可以大幅提高视频字幕识别结果准确度。
本发明实施例的视频字幕识别还可应用于数字电视节目视频的手语配音视频处理,实现在图片字幕的情况下对数字电视节目内容的实时手语翻译处理。实施时先进行视频字幕识别,从而实现文字至手语的转换。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种视频字幕识别方法,其特征在于,该方法包括:
对视频中同一字幕的时间相邻两帧图像做差,得到残差图像;
将残差图像取反,得到反残差图像;
将反残差图像进行二值化处理;
将二值化处理后的反残差图像与所述同一字幕的当前帧图像做与操作,得到所述同一字幕的字幕图像;
对所述字幕图像进行字符识别。
2.如权利要求1所述的方法,其特征在于,所述对视频中同一字幕的时间相邻两帧图像做差,得到残差图像,包括:
对视频中独立区域显示的同一字幕的时间相邻两帧图像做差,得到残差图像;
或,对视频中非独立区域显示的同一字幕的时间相邻两帧图像做差,得到残差图像。
3.如权利要求2所述的方法,其特征在于,对视频中独立区域显示的同一字幕的时间相邻两帧图像做差时,所述独立区域做差后得到全零区域。
4.如权利要求1所述的方法,其特征在于,所述对视频中同一字幕的时间相邻两帧图像做差,包括:
对数字电视节目视频中同一字幕的时间相邻两帧图像做差;
对所述字幕图像进行字符识别之后,还包括:
进行字幕提取;
将提取的字幕进行文本至手语的转换,获得与数字电视节目视频相匹配的手语配音视频。
5.如权利要求4所述的方法,其特征在于,获得所述手语配音视频之后,还包括:
将数字电视节目视频的帧率与手语配音视频的帧率调整为相同的帧率;
将手语配音视频嵌入数字电视节目视频,合成后输出至显示屏进行显示;显示前进行时移缓冲处理。
6.如权利要求1所述的方法,其特征在于,在显示前还检测显示屏上的非用户感兴趣区域,在显示时将手语配音视频显示在非用户感兴趣区域。
7.一种视频字幕识别装置,其特征在于,包括:
残差处理模块,用于对视频中同一字幕的时间相邻两帧图像做差,得到残差图像;
反残差处理模块,用于将残差图像取反,得到反残差图像;
二值化处理模块,用于将反残差图像进行二值化处理;
字幕处理模块,用于将二值化处理后的反残差图像与所述同一字幕的当前帧图像做与操作,得到所述同一字幕的字幕图像;
字符处理模块,用于对所述字幕图像进行字符识别。
8.如权利要求7所述的装置,其特征在于,所述残差处理模块具体用于:
对视频中独立区域显示的同一字幕的时间相邻两帧图像做差,得到残差图像;
或,对视频中非独立区域显示的同一字幕的时间相邻两帧图像做差,得到残差图像。
9.如权利要求7所述的装置,其特征在于,所述残差处理模块进一步用于:对视频中独立区域显示的同一字幕的时间相邻两帧图像做差时,所述独立区域做差后得到全零区域。
10.如权利要求7所述的装置,其特征在于,所述残差处理模块具体用于:
对数字电视节目视频中同一字幕的时间相邻两帧图像做差;
所述装置还包括:
字幕提取模块,用于在所述字符处理模块对所述字幕图像进行字符识别之后,进行字幕提取;
手语转换模块,用于将提取的字幕进行文本至手语的转换,获得与数字电视节目视频相匹配的手语配音视频。
11.如权利要求10所述的装置,其特征在于,还包括:
同步处理模块,用于将数字电视节目视频的帧率与手语配音视频的帧率调整为相同的帧率;
显示处理模块,用于将手语配音视频嵌入数字电视节目视频,合成后输出至显示屏进行显示;显示前进行时移缓冲处理。
12.如权利要求11所述的装置,其特征在于,所述显示处理模块进一步用于在显示前检测显示屏上的非用户感兴趣区域,在显示时将手语配音视频显示在非用户感兴趣区域。
CN201110456310.0A 2011-12-30 2011-12-30 视频字幕识别方法及装置 Expired - Fee Related CN103186780B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201110456310.0A CN103186780B (zh) 2011-12-30 2011-12-30 视频字幕识别方法及装置
PCT/CN2012/077618 WO2013097429A1 (en) 2011-12-30 2012-06-27 Method and apparatus for recognizing video captions

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110456310.0A CN103186780B (zh) 2011-12-30 2011-12-30 视频字幕识别方法及装置

Publications (2)

Publication Number Publication Date
CN103186780A CN103186780A (zh) 2013-07-03
CN103186780B true CN103186780B (zh) 2018-01-26

Family

ID=48677941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110456310.0A Expired - Fee Related CN103186780B (zh) 2011-12-30 2011-12-30 视频字幕识别方法及装置

Country Status (2)

Country Link
CN (1) CN103186780B (zh)
WO (1) WO2013097429A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295592A (zh) * 2016-08-17 2017-01-04 北京金山安全软件有限公司 一种媒体文件字幕的识别方法、装置及电子设备
CN109309844B (zh) * 2017-07-26 2022-02-22 腾讯科技(深圳)有限公司 视频台词处理方法、视频客户端及服务器
CN107454479A (zh) * 2017-08-22 2017-12-08 无锡天脉聚源传媒科技有限公司 一种多媒体数据的处理方法及装置
CN109271988A (zh) * 2018-08-30 2019-01-25 中国传媒大学 一种基于图像分割及动态阈值的字幕提取方法
CN109064494B (zh) * 2018-09-13 2021-09-21 北京字节跳动网络技术有限公司 视频漂浮纸片检测方法、装置和计算机可读存储介质
CN109766883B (zh) * 2018-12-24 2021-10-22 北京科技大学 基于深度神经网络的网络视频字幕的快速提取方法
CN111401315B (zh) * 2020-04-10 2023-08-22 浙江大华技术股份有限公司 基于视频的人脸识别方法、识别装置及存储装置
CN113450332A (zh) * 2021-06-30 2021-09-28 澳谱特科技(上海)有限公司 一种粉煤灰玻璃微珠识别方法与识别装置
CN113688283B (zh) * 2021-08-27 2023-09-05 北京奇艺世纪科技有限公司 一种视频字幕匹配程度的确定方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1369823A (zh) * 2001-02-16 2002-09-18 无敌科技(西安)有限公司 从文字到手语的播放方法及其系统
KR20080004755A (ko) * 2006-07-06 2008-01-10 주식회사 한국스테노 멀티형 수화 자막 수신장치 및 방법
CN101661374A (zh) * 2009-09-22 2010-03-03 深圳华为通信技术有限公司 一种输出手语的方法及终端
CN101727766A (zh) * 2009-12-04 2010-06-09 哈尔滨工业大学深圳研究生院 基于虚拟人的手语新闻播报方法
CN101877189A (zh) * 2010-05-31 2010-11-03 张红光 从汉语文本到手语机译方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4377887B2 (ja) * 2006-03-30 2009-12-02 株式会社東芝 映像分割装置
CN100477799C (zh) * 2006-10-18 2009-04-08 深圳创维数字技术股份有限公司 一种提高电视终端设备数字字幕数据处理效率的方法
JP4965980B2 (ja) * 2006-11-30 2012-07-04 株式会社東芝 字幕検出装置
CN101533474B (zh) * 2008-03-12 2014-06-04 三星电子株式会社 基于视频图像的字符和图像识别系统和方法
CN101299239B (zh) * 2008-06-06 2011-09-14 北京中星微电子有限公司 文字区域图像的获取方法及装置、文字识别系统
CN101673274A (zh) * 2008-09-12 2010-03-17 深圳富泰宏精密工业有限公司 影片字幕检索系统及方法
CN101448100B (zh) * 2008-12-26 2011-04-06 西安交通大学 一种快速准确的视频字幕提取方法
JP4459292B1 (ja) * 2009-05-29 2010-04-28 株式会社東芝 テレビショッピング番組の検出方法およびこの方法を用いる映像装置
JP5840130B2 (ja) * 2009-12-31 2016-01-06 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited テキストを含む映像領域の前処理方法及びシステム
CN102096808B (zh) * 2011-01-19 2013-01-30 南京农业大学 稻飞虱虫情自动测报方法
CN102202224B (zh) * 2011-06-22 2013-03-27 清华大学 用于平面视频立体转换的字幕去抖方法及字幕去抖装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1369823A (zh) * 2001-02-16 2002-09-18 无敌科技(西安)有限公司 从文字到手语的播放方法及其系统
KR20080004755A (ko) * 2006-07-06 2008-01-10 주식회사 한국스테노 멀티형 수화 자막 수신장치 및 방법
CN101661374A (zh) * 2009-09-22 2010-03-03 深圳华为通信技术有限公司 一种输出手语的方法及终端
CN101727766A (zh) * 2009-12-04 2010-06-09 哈尔滨工业大学深圳研究生院 基于虚拟人的手语新闻播报方法
CN101877189A (zh) * 2010-05-31 2010-11-03 张红光 从汉语文本到手语机译方法

Also Published As

Publication number Publication date
WO2013097429A1 (en) 2013-07-04
CN103186780A (zh) 2013-07-03

Similar Documents

Publication Publication Date Title
CN103186780B (zh) 视频字幕识别方法及装置
CN109803180B (zh) 视频预览图生成方法、装置、计算机设备及存储介质
CN111445902B (zh) 数据收集方法、装置、存储介质及电子设备
CN110119757A (zh) 模型训练方法、视频类别检测方法、装置、电子设备和计算机可读介质
CN107862315A (zh) 字幕提取方法、视频搜索方法、字幕分享方法及装置
US20170140226A1 (en) Apparatus and method for identifying a still image contained in moving image contents
JP7223056B2 (ja) 画像審査方法、装置、電子機器及び記憶媒体
US10891489B2 (en) Identifying and tracking words in a video recording of captioning session
US9549162B2 (en) Image processing apparatus, image processing method, and program
US10897658B1 (en) Techniques for annotating media content
CN110475139B (zh) 一种视频字幕的遮挡方法、装置、存储介质及电子设备
US8244005B2 (en) Electronic apparatus and image display method
CN112866776B (zh) 视频生成方法和装置
CN109729429A (zh) 视频播放方法、装置、设备和介质
CN115439614B (zh) 虚拟形象的生成方法、装置、电子设备和存储介质
KR101543287B1 (ko) 현실 객체의 물리적 동작-증강 현실 상호작용형 전자책 시스템 및 구현 방법
US20220201362A1 (en) Artificial intelligence and machine learning evaluation of elements in rendered video
CN117745589A (zh) 水印去除方法、装置及设备
US11556881B2 (en) Generation of business process model
CN106295592A (zh) 一种媒体文件字幕的识别方法、装置及电子设备
US11393507B1 (en) Automatic log creation of video recording of a device under test
CN103179464A (zh) 获取电视机外部输入设备中节目信息的方法和装置
CN109819271A (zh) 游戏直播间展示的方法及装置、存储介质、电子设备
CN114760444A (zh) 视频图像处理及确定方法、装置、电子设备及存储介质
CN102984601A (zh) 摄像头视频摘要生成系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180126

Termination date: 20191230

CF01 Termination of patent right due to non-payment of annual fee