CN102511048A - 一种用于预处理包括文本的视频区域的方法及系统 - Google Patents
一种用于预处理包括文本的视频区域的方法及系统 Download PDFInfo
- Publication number
- CN102511048A CN102511048A CN2010800420597A CN201080042059A CN102511048A CN 102511048 A CN102511048 A CN 102511048A CN 2010800420597 A CN2010800420597 A CN 2010800420597A CN 201080042059 A CN201080042059 A CN 201080042059A CN 102511048 A CN102511048 A CN 102511048A
- Authority
- CN
- China
- Prior art keywords
- text
- video area
- image
- binaryzation
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
一种用于预处理包括文本的视频区域的方法及系统。本发明提供了一种用于预处理包括文本的视频区域以改进光学字符识别输入的方法和系统。
Description
技术领域
本发明涉及广播领域。尤其是,本发明涉及一种用于预处理包括文本的视频区域的方法及系统。更具体地,本发明涉及一种用于预处理包括文本的视频区域以改进光学字符识别的输入的方法和系统。
背景技术
近年来使用诸如电视、计算机等装置进行信息动态传播有显著增长。这样的装置正在越来越多地用于获取与各领域相关的最新信息。通过这些装置的信息传播是以视频、音频、文本或其组合的形式进行的。新闻广播是以视频、音频、文本及其组合的形式进行的信息传播的最好示例。
在当前情况下,用户仅可以获得正在传播的信息。为了获得特定主题或感兴趣的领域的进一步相关信息,用户必须使用一些其它的信息源,例如因特网。用户必须进行手动搜索以获取例如电视的信息传播装置正在传播的信息以外的、所感兴趣的领域的相关信息。
为了获取信息传播装置上正在显示的信息以外的、用户所需的与感兴趣的领域相关的信息,需要具有一套使用当前的包括文本的视频区域以改进光学字符识别的性能并随后搜索的自动化系统。因此,应当有效地确定包括文本的视频区域,以改进光学字符识别的性能并利用所述文本进行随后搜索。
我们所知的能够进行基于文本的搜索、但不足以有效地确定包括文本的视频区域以改进光学字符识别的性能并随后搜索的一些现有方法和系统如下:
Kim等的专利US6766528提供了一种用于在电视节目中显示附加信息的装置和方法。其教导了一种用于从诸如因特网的外部源获取信息以及进一步显示给用户(如果提出要求)的方法。
Tomsen等的专利US20020083464提供了上下文敏感请求,其用于搜索与互动电视系统正显示的电视广播相关的补充内容。该专利没有教导预处理包括文本的视频区域以改进光学字符识别性能以及使用预处理后的包括文本的视频区域随后搜索相关信息。
Kim等的专利US20090019482提供了一种图像显示装置和利用该图像显示装置的信息提供方法。该专利讨论了所述图像显示装置,诸如数字电视机,根据播放时段将网络服务器提供的RSS(简易信息聚合)信息分类,并且在相应的播放时段显示预定类别的RSS信息。
Ullman等的专利US20020038344提供了一种用于将视频节目与互联网的大量的信息资源结合的系统。Ullman等教导了一种基于计算机的系统,该基于计算机的系统接收带有嵌入式统一资源定位符(URL)的视频节目。
Piotrowski的专利US2002188959提供了一种允许视频/电视节目的观看者自动地或按要求接收与所述视频/电视节目相关的同步的补充多媒体信息的系统和方法。所解决的问题尤其涉及补充多媒体信息,该补充多媒体信息作为一种例如使用同步多媒体集成语言(SMIL)的互联网文件被接收。从视频/电视节目接收/提取同步信息。此外,其涉及以虚拟网页显示视频/电视节目和补充多媒体信息。
Chen等在“GeoTV:navigating geocoded rss to create an IPTV experience”中教导了GeoTV,通过其中的架构,以有意义的方式展示和推行网页内容,为电视观众创造娱乐体验。
Farhi在“Broadband News Aggregator”中教导了从多信源传送新闻的宽带互动电视应用。
在我们自己的以前的专利2236/MUM/2008和出版物“Recognition oftrademarks from sports videos for channel hyper linking in consumer end”中公开一种从体育视频自动识别商标以通道超链接的系统。使用文本的一些特性定位文本区域,并且通过与来自受限商标数据库的形状不变特征和颜色特征相比较来识别商标。
以上提及的现有技术未公开一种可以预处理包括文本的视频区域以改进光学字符识别的性能并使用预处理后的包括文本的视频区域随后搜索相关的信息的有效方法和系统。因此,根据上述背景技术,可以看出,需要一种解决方案,该解决方案可以提供一种用于准确地预处理包括文本的视频区域以改进光学字符识别的性能并使用输出的预处理后的包括文本的视频区域随后搜索相关的信息的方法及系统。
发明目的
根据本发明,主要目的是提供一种用于预处理包括文本的视频区域以改进光学字符识别的性能的方法及系统。
本发明的另一目的是提供一种用于预处理包括文本的视频区域以随后搜索、获取并进一步显示与嵌入在视频流中的文本相关的信息的方法及系统。
发明内容
在描述本发明的方法、系统和硬件启用之前,应该明白,本发明不限于所描述的特定系统和方法,而可以有本发明的多种可能的实施方式,这些实施方式在本发明中未明确说明。还应该明白,在描述中所使用的术语仅用于描述特定的类型或实施方式,并不意图限制本发明的范围,本发明的范围仅由所附的权利要求所限定。
本发明提供一种用于预处理包括文本的视频区域以改进光学字符识别的性能的方法及系统。
在本发明的一个方面中,提供一种用于预处理包括文本的视频区域以改进光学字符识别的性能和随后搜索、获取以及进一步显示与嵌入在视频流中的文本相关的信息的方法及系统。
在本发明的另一方面中,可以自动地或由用户手动地确定包括嵌入在视频流中的文本的区域。
以上的所述方法和系统优选地用于预处理嵌入在视频流中的文本,该文本可以用作若干应用的输入。
附图说明
当结合附图阅读时,可以更好地理解上述发明内容和下文的优选实施方式的详细描述。为了说明本发明,在附图中示出本发明的示例性结构;然而,本发明并不限于所描述的特定方法及系统。在附图中:
图1是示出预处理包括文本的视频区域以改进光学字符识别的性能的流程图;
图2是示出定位包括文本的视频区域中的文本图像的传统的/现有技术的流程图;
图3是示出将包括文本的视频区域中的定位到的文本图像提高至更高分辨率的流程图;
图4是示出分割二值化的文本图像的至少两个粘连字符的流程图;
图5是示出将来自分割的文本图像的关键字确定为用于光学字符识别的改进的输入的流程图;
图6是示出搜索确定的关键字以随后显示并存储检索到的信息的流程图。
具体实施方式
现在将详细讨论说明本发明的所有特征的一些实施方式。
词语“包括”、“具有”、“含有”及“包含”及其他的形式意思相同并且是开放性的,因为这些词中的任意一词之后的一个项目或多个项目并不意味着是这样一个项目或多个项目的详尽的列表,或者并不意味着仅局限于所列出的一个项目或多个项目。
还需要指出,除非上下文明确地另有规定,说明书和所附权利要求中使用的单数形式“一”和“该”包括复数引用。虽然在本发明的实施方式的实施和测试中可以使用与本发明描述的系统和方法相似或相同的任何系统和方法,但现在描述优选的系统和方法。
所公开的实施方式仅是本发明的示例性实施方式,其可以以各种形式体现。
本发明实现了一种用于预处理包括文本的视频区域以改进光学字符识别的性能的方法和系统。在本发明的一个实施方式中,输出文本可以用于随后搜索,将预处理后的包括文本的视频区域用作输入来获取与这样的文本相关的进一步信息以及显示获取的搜索到的与所述文本相关的信息。
本发明提供一种用于预处理包括文本的视频区域以改进光学字符识别输入的方法,其中,通过计算机实现的下列步骤预处理所述包括文本的视频区域:
a.定位包括文本的视频区域中的文本图像;
b.将包括文本的视频区域中的所识别的文本图像提高至更高分辨率;
c.二值化提高的高分辨率文本图像;
d.分割二值化的文本图像的至少两个粘连字符;以及
e.将来自分割的文本图像的关键字确定为用于光学字符识别的改进的输入。
本发明还提出一种用于预处理包括文本的视频区域以改进光学字符识别输入的系统,其中,所述系统包括:
a.至少一个图像处理装置,所述图像处理装置能够定位文本图像、将定位到的文本图像提高至更高分辨率、之后二值化所述定位到的文本图像、分割二值化的文本图像的至少两个粘连字符以及将来自分割的文本图像的关键字确定为用于OCR(光学字符识别)的改进的输入;以及
b.至少一个光学字符识别装置,用于识别预处理后的文本输入;以及
c.以通信方式互相连接的至少一个数字存储装置和存储元件,用于存储预处理后的包括文本的视频区域。
参照图1,图1是示出预处理包括文本的视频区域以改进光学字符识别的性能的流程图。
该过程开始于步骤100,定位包括文本的视频区域中的文本图像。在步骤200中,通过使用图像处理装置,将包括文本的视频区域中的定位到的文本图像提高至更高分辨率。在步骤300中,通过使用图像处理装置,二值化提高的高分辨率文本图像,在步骤400中,通过使用图像处理装置,分割二值化的文本图像的至少两个粘连字符。该过程结束于步骤500,将来自分割的文本图像的关键字确定为用于光学字符识别的改进的输入。预处理包括文本的视频区域以改进光学字符识别输入和随后搜索、获取并显示与包括文本的视频区域相关的附加信息。
参照图2,图2是示出定位包括文本的视频区域中的文本图像的传统的/现有技术的流程图。其中,通过使用光学字符识别装置定位包括文本的视频区域中的文本图像。
该过程开始于步骤102,使用亮度的直流分量获得视频流中的高对比度的宏块。在步骤104中,获得视频流中的具有强垂直边缘的宏块。在步骤106中,去除视频流中不满足文本特性的宏块。在步骤108中,在时域中进行滤波以去除视频流中高光色候选宏块。在步骤110中,标记视频流中的文本区域。过程结束于步骤112,检测各候选文本区域的屏幕布局以定位包括文本的视频区域中的文本图像。
参照图3,图3是示出将包括文本的视频区域中的定位到的文本图像提高至更高分辨率的流程图。
在本发明的另一实施方式中,通过使用图像处理装置,将包括文本的视频区域中的定位到的文本图像提高至更高分辨率。
该过程开始于步骤202,应用具有滤波器系数的六抽头有限脉冲响应滤波器,将所关注的区域在高度和宽度上放大两倍。其中,所述滤波器系数为1、-5、20、20、-5、1。在步骤204中,应用插值技术进一步将所关注的区域在高度和宽度上放大两倍。在步骤206中,在所述更高分辨率图像中应用离散余弦变换。在步骤208中,通过应用巴特沃斯低通滤波器,摒除高频率分量。该过程结束于步骤210,应用反离散余弦变换重建更高分辨率的图像。
在本发明的另一实施方式中,通过使用图像处理装置,二值化提高的高分辨率文本图像。通过使用图像处理装置,将包括文本的视频区域中的识别的文本图像提高至更高的分辨率,然后,使用自适应阈值算法对输出进行二值化。可能有若干方法来实现二值化,使得可以分离文本图像的前景和背景。然而,因为相关的文本区域中存在的字符和背景不具有固定的灰度值,因此在用于二值化的该方法中使用自适应阈值转换法。为了获取阈值图像,该解决方案中使用最大类间方差(Otsu)法。
参照图4,图4是示出分割二值化的文本图像的至少两个粘连字符的流程图。
在本发明的另一实施方式中,分割二值化的文本图像的至少两个粘连字符。通过使用图像处理装置进行粘连字符分割。
通过使用图像处理装置,二值化提高的高分辨率文本图像。以二值化的图像的形式的输出用于粘连字符分割。一旦非常频繁地获得二值化的图像,可以看出,图像由许多粘连字符组成。这些粘连字符降低了任何光学字符识别装置的准确率。因此,要改进光学字符识别的性能,需要粘连字符分割。
该过程开始于步骤402,计算二值化的图像中各字符的宽度。假定具有显著宽度的每个连接单元是一字符。使第i个单元的字符宽度为WCi。在步骤404中,确定二值化的图像中的平均字符宽度。通过使用计算所述平均字符宽度。其中,n为所关注的区域中的字符的数量。在步骤406中,计算二值化的图像中的字符宽度的标准偏差。根据σWC=STDEV(WCi)计算字符宽度的标准偏差(σWC)。该过程结束于步骤408,限定二值化的图像中的字符长度的阈值。根据TWC=μWC+3σWC计算字符长度的阈值(TWC)。如果WCi>TWC,将所述第i个字符标记为候选粘连字符。根据计算第i个候选单元中粘连字符的数量。以ni个等间隔段分割WCi。
参照图5,图5是示出将来自分割的文本图像的关键字确定为用于光学字符识别的改进的输入的流程图。
在本发明的另一实施方式中,通过利用图像处理装置,将来自分割的文本图像的关键字确定为改进的输入,该改进的输入用于光学字符识别以及用于搜索、获取和显示与包括文本的视频区域相关的附加信息。
该过程开始于步骤502,从嵌入在视频流中的文本的分割的文本图像中选择全部字母为大写的关键字。在步骤504中,计算嵌入在视频流中的文本的分割的文本图像的一文本行中的字数。在步骤506中,如果一文本行中的字数大于用试探法获得的阈值,则所述文本行被认为是候选关键字。在步骤508中,从候选关键字中去除停用字。在步骤510中,连接候选关键字中的剩余字以产生搜索字符串。该过程结束于步骤512,所述连接的关键字用作改进的输入,该改进的输入用于光学字符识别和搜索字符串,所述搜索字符串用于搜索、随后获取和显示与嵌入在视频流中的文本相关的附加信息。
参照图6,图6是示出搜索确定的关键字以随后显示并存储检索出的信息的流程图。
在本发明的又一实施方式中,搜索来自分割的文本图像的关键字,以随后获取和显示与嵌入在视频流中的文本相关的附加信息。
该过程开始于步骤602,确定关键字。在步骤604中,在RSS源中或因特网上搜索确定的关键字。在步骤606中,在用户界面上显示检索到的信息。该过程结束于步骤608,将检索到的信息存储在可扩展标记语言文件中。
参照本发明的各个实施方式示出上述描述。本发明所属领域的技术人员将认识到,在意义上不脱离本发明的原理、精神和范围的情况下,可以对描述的操作过程和方法进行替换和改变。
本发明的操作的最佳模式/示例
在下文提供的示例中描述本发明,所述示例仅用于说明本发明且因此不应当解释为限制本发明的范围。
在一示例中,提供一种用于预处理联网电视中的包括文本的视频区域的方法和系统,所述方法和系统可以定位电视机上显示的新闻视频中的突发新闻或跑马灯新闻,以改进光学字符识别输入。所述方法和系统提供从因特网或RSS源随后搜索、获取与所述包括文本的视频区域相关的信息,并且进一步将与嵌入在视频流中的文本相关的信息显示在用户的电视机上。
所述方法和系统依照句法分析新闻视频,并产生搜索请求。而且,所述方法和系统使用诸如谷歌的搜索引擎来搜索产生的搜索请求。用于搜索的关键字识别基于试探法,所述试探法反过来基于一些观察,例如,突发新闻总是以大写字母出现,那些重要新闻的字体大小大于跑马灯文本的字体大小,所述跑马灯文本仅出现在中心区域上方或下方,在所述中心区域示出主持人、演播室或一些新闻简报。
以上所述的观察引起下面的用以确定关键字的方法:从光学字符识别的输出中选择识别出的所有字母为大写的字,得出文本行中的字数。如果文本行中的字数大于用试探法获取的阈值,则其被认为是候选文本区域。如果获得多个这样的文本行,则所述方法查明在视频帧的中间以上是否具有任何这样的文本行。如果在视频帧的中间以下获得多个这样的文本行,则选择较接近视频帧的中间的文本行并将其作为候选文本。所述方法和系统将该文本行用作搜索RSS源的输入。在下一步中,从候选文本中删除停用字,例如“一”、“该”、“用于”、“的”等。将剩余字进行连接,以产生因特网搜索引擎或RSS源的搜索字符串。在因特网或RSS源上搜索的、与突发新闻或跑马灯新闻相关的信息被检索出并在电视机上显示给用户。
根据所提供的方法和系统,尽管对来自视频的文本区域的定位可能有一些错误判断,但该定位可以在最小误差下进行。然而数据语义分析对这些错误判断进行处理。光学字符识别的输出也可能不准确,但是当使用最长公共子序列匹配和编辑距离从RSS源搜索相关的信息时,这些误差不会影响获得所需的结果。
Claims (19)
1.一种用于预处理包括文本的视频区域以改进光学字符识别输入的方法,其中,通过计算机实现的下列步骤来预处理所述包括文本的视频区域:
a.定位所述包括文本的视频区域中的文本图像;
b.将所述包括文本的视频区域中的所识别的文本图像提高至更高分辨率;
c.二值化提高的高分辨率文本图像;
d.分割二值化的文本图像中的至少两个粘连字符;以及
e.将来自分割的文本图像的关键字确定为用于光学字符识别的改进的输入。
2.如权利要求1所述的方法,其中,通过计算机实现的下列步骤定位所述包括文本的视频区域中的所述文本:
a.利用亮度的直流分量,获得所述包括文本的视频区域中的高对比度的宏块;
b.获得所述包括文本的视频区域中的具有强垂直边缘的宏块;
c.去除所述包括文本的视频区域中的不满足文本特性的宏块;
d.在时域中进行滤波以去除所述包括文本的视频区域中的高光色候选宏
块;
e.标记所述包括文本的视频区域中的文本区域;以及
f.检测每个候选文本区域的屏幕布局,以识别所述包括文本的视频区域中的文本图像。
3.如权利要求1所述的方法,其中,通过计算机实现的下列步骤,将所述包括文本的视频区域中的定位到的文本图像进一步提高至更高分辨率:
a.应用具有滤波器系数的六抽头有限脉冲响应滤波器,将所关注的区域在高度和宽度上放大两倍;
b.应用插值技术进一步将所关注的区域在高度和宽度上放大两倍;
c.在所述更高分辨率的图像上应用离散余弦变换;
d.通过应用巴特沃斯低通滤波器,摒除高频分量;以及
e.应用反离散余弦变换,重建所述更高分辨率的图像。
4.如权利要求1所述的方法,其中,通过自适应阈值转换法来二值化所述提高的高分辨率文本图像,以分离所述文本图像的前景和背景。
5.如权利要求1所述的方法,其中,通过计算机实现的下列步骤,分割二值化的图像的至少两个粘连字符:
a.获得所述二值化的图像中的每个字符的宽度;
b.确定所述二值化的图像中的平均字符宽度;
c.获得所述二值化的图像中的字符宽度的标准偏差;以及
d.限定所述二值化的图像中的字符长度的阈值。
6.如权利要求1所述的方法,其中,通过计算机实现的下列步骤,确定来自分割的文本图像的关键字:
a.从所述包括文本的视频区域的分割的文本图像中选择所有字母为大写的关键字;
b.获得所述包括文本的视频区域的分割的文本图像的文本行中的字数;
c.如果文本行中的字数大于用试探法获得的阈值,则将所述文本行作为候选关键字;
d.从所述候选关键字中去除停用字;
e.连接所述候选关键字中的剩余字以产生搜索字符串;
f.使用连接的关键字作为搜索字符串,以改进光学字符识别的性能。
7.如权利要求6所述的方法,其中,所述停用字选自由比如“一”、“该”、“用于”、“或”、“的”构成的组。
8.如权利要求1所述的方法,其中,来自分割的文本图像的所述关键字用作搜索请求,以搜索、获取并显示与嵌入在视频流中的文本相关的附加信息。
9.如权利要求1所述的方法,其中,预处理后的包括文本的视频区域还用于在包括相关信息的因特网或简易信息聚合源中搜索与所述文本相关的附加信息。
10.如权利要求9所述的方法,其中,搜索到的与所述预处理后的包括文本的视频区域相关的附加信息显示在用户界面上。
11.如权利要求10所述的方法,其中,搜索到并显示的与所述预处理后的包括文本的视频区域相关的附加信息被存储在可扩展标记语言文件中。
12.如权利要求8所述的方法,其中,处理后的、搜索到的、获取的并显示的与包括文本的视频区域相关的附加信息与看电视时的新闻有关。
13.如权利要求12所述的方法,其中,所述新闻选自包括突发新闻和跑马灯新闻的组。
14.一种用于预处理包括文本的视频区域以改进光学字符识别输入的系统,其中,所述系统包括:
a.至少一个图像处理装置,所述图像处理装置能够定位文本图像、将定位到的文本图像提高至更高分辨率、之后二值化、分割二值化的文本图像的至少两个粘连字符、以及将来自分割的文本图像的关键字确定为用于光学字符识别的改进的输入;以及
b.至少一个光学字符识别装置,用于识别预处理后的文本输入;以及
c.以通信方式相互连接的至少一个数字存储装置和存储元件,用于存储预处理后的包括文本的视频区域。
15.如权利要求14所述的系统,其中,利用所述图像处理装置,通过自适应阈值转换法来二值化提高的高分辨率文本图像以分离文本图像的前景和背景。
16.如权利要求14所述的系统,其中,来自分割的文本图像的关键字用作搜索请求,以搜索、获取并显示与嵌入在视频流中的文本相关的附加信息。
17.如权利要求14所述的系统,其中,预处理后的包括文本的视频区域还用于在包括相关信息的因特网或简易信息聚合源中搜索与所述文本相关的附加信息。
18.如权利要求17所述的系统,其中,搜索到的与所述预处理后的包括文本的视频区域相关的附加信息显示在用户界面上。
19.如权利要求18所述的系统,其中,搜索到并显示的与所述预处理后的包括文本的视频区域相关的附加信息以可扩展标记语言文件的形式存储在数字存储装置中。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN3039/MUM/2009 | 2009-12-31 | ||
IN3039MU2009 | 2009-12-31 | ||
PCT/IN2010/000864 WO2011080763A1 (en) | 2009-12-31 | 2010-12-29 | A method and system for preprocessing the region of video containing text |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102511048A true CN102511048A (zh) | 2012-06-20 |
CN102511048B CN102511048B (zh) | 2015-08-26 |
Family
ID=44009799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201080042059.7A Active CN102511048B (zh) | 2009-12-31 | 2010-12-29 | 一种用于预处理包括文本的视频区域的方法及系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8989491B2 (zh) |
EP (1) | EP2471025B1 (zh) |
JP (1) | JP5840130B2 (zh) |
CN (1) | CN102511048B (zh) |
WO (1) | WO2011080763A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8724928B2 (en) | 2009-08-31 | 2014-05-13 | Intellectual Ventures Fund 83 Llc | Using captured high and low resolution images |
EP2734956A4 (en) * | 2011-07-20 | 2014-12-31 | Tata Consultancy Services Ltd | METHOD AND SYSTEM FOR DIFFERENTIATION OF TEXT INFORMATION INTEGRATED IN VIDEO CONTENT INTERNET INFORMATION |
CN103186780B (zh) * | 2011-12-30 | 2018-01-26 | 乐金电子(中国)研究开发中心有限公司 | 视频字幕识别方法及装置 |
WO2013164849A2 (en) * | 2012-04-12 | 2013-11-07 | Tata Consultancy Services Limited | A system and method for detection and segmentation of touching characters for ocr |
US9645985B2 (en) * | 2013-03-15 | 2017-05-09 | Cyberlink Corp. | Systems and methods for customizing text in media content |
WO2015038749A1 (en) | 2013-09-13 | 2015-03-19 | Arris Enterprises, Inc. | Content based video content segmentation |
US9762950B1 (en) * | 2013-09-17 | 2017-09-12 | Amazon Technologies, Inc. | Automatic generation of network pages from extracted media content |
US9377949B2 (en) * | 2013-09-27 | 2016-06-28 | Xiaomi Inc. | Method and terminal device for selecting character |
US9251614B1 (en) * | 2014-08-29 | 2016-02-02 | Konica Minolta Laboratory U.S.A., Inc. | Background removal for document images |
CN106162328A (zh) * | 2015-04-28 | 2016-11-23 | 天脉聚源(北京)科技有限公司 | 一种视频同步信息展示方法及系统 |
CN106161873A (zh) * | 2015-04-28 | 2016-11-23 | 天脉聚源(北京)科技有限公司 | 一种视频信息提取推送方法及系统 |
CN109165647A (zh) * | 2018-08-22 | 2019-01-08 | 北京慕华信息科技有限公司 | 一种图像中文本信息量的计算方法及装置 |
CN111491177A (zh) * | 2019-01-28 | 2020-08-04 | 上海博泰悦臻电子设备制造有限公司 | 视频信息提取方法及其装置、系统 |
US11386687B2 (en) * | 2020-03-30 | 2022-07-12 | Wipro Limited | System and method for reconstructing an image |
KR102435962B1 (ko) * | 2021-11-03 | 2022-08-25 | 렉스젠(주) | 영상을 이용한 정보 분석 시스템 및 그에 관한 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1395220A (zh) * | 2001-06-26 | 2003-02-05 | 诺基亚有限公司 | 数字摄像机图像中字符定位的方法及装置 |
CN101097600A (zh) * | 2006-06-29 | 2008-01-02 | 北大方正集团有限公司 | 一种字体识别方法及系统 |
US20080123915A1 (en) * | 2006-05-10 | 2008-05-29 | Paul Nagy | Techniques for Converting Analog Medical Video to Digital Objects |
CN101251892A (zh) * | 2008-03-07 | 2008-08-27 | 北大方正集团有限公司 | 一种字符切分方法和装置 |
CN101593276A (zh) * | 2008-05-29 | 2009-12-02 | 汉王科技股份有限公司 | 一种视频ocr图文分离方法及系统 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04276885A (ja) * | 1991-03-04 | 1992-10-01 | Sumitomo Electric Ind Ltd | 文字切出し装置 |
US20020049832A1 (en) | 1996-03-08 | 2002-04-25 | Craig Ullman | Enhanced video programming system and method for incorporating and displaying retrieved integrated internet information segments |
US6766528B1 (en) | 1999-01-27 | 2004-07-20 | Lg Electronics Inc. | Apparatus and method for displaying additional information |
US6614930B1 (en) * | 1999-01-28 | 2003-09-02 | Koninklijke Philips Electronics N.V. | Video stream classifiable symbol isolation method and system |
US6470094B1 (en) * | 2000-03-14 | 2002-10-22 | Intel Corporation | Generalized text localization in images |
US20020083464A1 (en) | 2000-11-07 | 2002-06-27 | Mai-Ian Tomsen | System and method for unprompted, context-sensitive querying during a televison broadcast |
US20020188959A1 (en) | 2001-06-12 | 2002-12-12 | Koninklijke Philips Electronics N.V. | Parallel and synchronized display of augmented multimedia information |
AU2002351310A1 (en) * | 2001-12-06 | 2003-06-23 | The Trustees Of Columbia University In The City Of New York | System and method for extracting text captions from video and generating video summaries |
KR20040100735A (ko) * | 2003-05-24 | 2004-12-02 | 삼성전자주식회사 | 영상보간장치 및 영상보간방법 |
JP2007006194A (ja) * | 2005-06-24 | 2007-01-11 | Matsushita Electric Ind Co Ltd | 画像復号再生装置 |
CN100517374C (zh) * | 2005-12-29 | 2009-07-22 | 佳能株式会社 | 从复杂背景文档图像提取文本的装置、方法 |
TW200802137A (en) | 2006-06-16 | 2008-01-01 | Univ Nat Chiao Tung | Serial-type license plate recognition system |
KR100812347B1 (ko) | 2006-06-20 | 2008-03-11 | 삼성전자주식회사 | 스트록 필터를 이용한 문자 추출 방법 및 그 장치 |
JP4861845B2 (ja) * | 2007-02-05 | 2012-01-25 | 富士通株式会社 | テロップ文字抽出プログラム、記録媒体、方法及び装置 |
KR20090005681A (ko) | 2007-07-09 | 2009-01-14 | 삼성전자주식회사 | 영상표시장치 및 이를 이용한 정보 제공방법 |
JP2009130899A (ja) * | 2007-11-28 | 2009-06-11 | Mitsubishi Electric Corp | 画像再生装置 |
JP2009188886A (ja) * | 2008-02-08 | 2009-08-20 | Omron Corp | 情報処理装置および情報処理装置用のプログラム |
US8320674B2 (en) * | 2008-09-03 | 2012-11-27 | Sony Corporation | Text localization for image and video OCR |
-
2010
- 2010-12-29 EP EP10824255.3A patent/EP2471025B1/en active Active
- 2010-12-29 CN CN201080042059.7A patent/CN102511048B/zh active Active
- 2010-12-29 WO PCT/IN2010/000864 patent/WO2011080763A1/en active Application Filing
- 2010-12-29 US US13/395,754 patent/US8989491B2/en active Active
- 2010-12-29 JP JP2012533742A patent/JP5840130B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1395220A (zh) * | 2001-06-26 | 2003-02-05 | 诺基亚有限公司 | 数字摄像机图像中字符定位的方法及装置 |
US20080123915A1 (en) * | 2006-05-10 | 2008-05-29 | Paul Nagy | Techniques for Converting Analog Medical Video to Digital Objects |
CN101097600A (zh) * | 2006-06-29 | 2008-01-02 | 北大方正集团有限公司 | 一种字体识别方法及系统 |
CN101251892A (zh) * | 2008-03-07 | 2008-08-27 | 北大方正集团有限公司 | 一种字符切分方法和装置 |
CN101593276A (zh) * | 2008-05-29 | 2009-12-02 | 汉王科技股份有限公司 | 一种视频ocr图文分离方法及系统 |
Non-Patent Citations (3)
Title |
---|
STEPHAN KOPF, THOMAS HAENSELMANN, WOLFGANG EFFELSBERG: "Robust Character Recognition in Low-Resolution Images and Videos", 《REIHE INFORMATIK TR-05-002》, 30 April 2005 (2005-04-30) * |
安艳辉等: "粘连搭接字符切分方法研究", 《河北师范大学学报(自然科学版)》, vol. 29, no. 2, 31 March 2005 (2005-03-31), pages 137 - 140 * |
马小勇,谢萍、张宪民: "视频帧中提取文字区域的算法", 《计算机工程》, vol. 29, no. 9, 30 June 2003 (2003-06-30), pages 155 - 157 * |
Also Published As
Publication number | Publication date |
---|---|
EP2471025B1 (en) | 2019-06-05 |
US20120242897A1 (en) | 2012-09-27 |
JP2013508798A (ja) | 2013-03-07 |
EP2471025A1 (en) | 2012-07-04 |
JP5840130B2 (ja) | 2016-01-06 |
US8989491B2 (en) | 2015-03-24 |
CN102511048B (zh) | 2015-08-26 |
WO2011080763A1 (en) | 2011-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102511048B (zh) | 一种用于预处理包括文本的视频区域的方法及系统 | |
US11197036B2 (en) | Multimedia stream analysis and retrieval | |
US20220030305A1 (en) | Identification and presentation of content associated with currently playing television programs | |
US20180160200A1 (en) | Methods and systems for identifying, incorporating, streamlining viewer intent when consuming media | |
US20160358025A1 (en) | Enriching online videos by content detection, searching, and information aggregation | |
US9235557B2 (en) | System and method thereof for dynamically associating a link to an information resource with a multimedia content displayed in a web-page | |
EP2417767B1 (en) | Apparatus and method for providing information related to broadcasting programs | |
US20170235730A1 (en) | System and method for providing sequentially relevant content | |
US20160005085A1 (en) | System and method for matching advertisements to multimedia content elements | |
CN101673266B (zh) | 音频、视频内容的搜索方法 | |
US10229198B2 (en) | Video matching service to offline counterpart | |
EP2564331A1 (en) | Automatic image discovery and recommendation for displayed television content | |
US20130268261A1 (en) | Semantic enrichment by exploiting top-k processing | |
CN102523533A (zh) | 视频内容关联的在线视频广告管理方法 | |
JP2013080482A (ja) | 動画像検索サービス提供方法およびその装置 | |
US20130191323A1 (en) | System and method for identifying the context of multimedia content elements displayed in a web-page | |
WO2011106087A1 (en) | Method for processing auxilary information for topic generation | |
CN103530389A (zh) | 一种提高停用词搜索有效性的方法和装置 | |
CN103455572A (zh) | 获取网页中影视主体的方法及装置 | |
CN101673267B (zh) | 音频、视频内容的搜索方法 | |
US11954168B2 (en) | System and method thereof for dynamically associating a link to an information resource with a multimedia content displayed in a web-page | |
CN102402763A (zh) | 用于文档服务网站的广告投放方法 | |
CN117573902A (zh) | 一种新媒体运营管理数据采集分析系统 | |
CN101673265A (zh) | 视频内容的搜索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |