CN102511048B - 一种用于预处理包括文本的视频区域的方法及系统 - Google Patents

一种用于预处理包括文本的视频区域的方法及系统 Download PDF

Info

Publication number
CN102511048B
CN102511048B CN201080042059.7A CN201080042059A CN102511048B CN 102511048 B CN102511048 B CN 102511048B CN 201080042059 A CN201080042059 A CN 201080042059A CN 102511048 B CN102511048 B CN 102511048B
Authority
CN
China
Prior art keywords
text
character
text image
video area
binaryzation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201080042059.7A
Other languages
English (en)
Other versions
CN102511048A (zh
Inventor
T·查托帕迪亚
A·辛哈
A·帕尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tata Consultancy Services Ltd
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of CN102511048A publication Critical patent/CN102511048A/zh
Application granted granted Critical
Publication of CN102511048B publication Critical patent/CN102511048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

一种用于预处理包括文本的视频区域的方法及系统。本发明提供了一种用于预处理包括文本的视频区域以改进光学字符识别输入的方法和系统。

Description

一种用于预处理包括文本的视频区域的方法及系统
技术领域
本发明涉及广播领域。尤其是,本发明涉及一种用于预处理包括文本的视频区域的方法及系统。更具体地,本发明涉及一种用于预处理包括文本的视频区域以改进光学字符识别的输入的方法和系统。
背景技术
近年来使用诸如电视、计算机等装置进行信息动态传播有显著增长。这样的装置正在越来越多地用于获取与各领域相关的最新信息。通过这些装置的信息传播是以视频、音频、文本或其组合的形式进行的。新闻广播是以视频、音频、文本及其组合的形式进行的信息传播的最好示例。
在当前情况下,用户仅可以获得正在传播的信息。为了获得特定主题或感兴趣的领域的进一步相关信息,用户必须使用一些其它的信息源,例如因特网。用户必须进行手动搜索以获取例如电视的信息传播装置正在传播的信息以外的、所感兴趣的领域的相关信息。
为了获取信息传播装置上正在显示的信息以外的、用户所需的与感兴趣的领域相关的信息,需要具有一套使用当前的包括文本的视频区域以改进光学字符识别的性能并随后搜索的自动化系统。因此,应当有效地确定包括文本的视频区域,以改进光学字符识别的性能并利用所述文本进行随后搜索。
我们所知的能够进行基于文本的搜索、但不足以有效地确定包括文本的视频区域以改进光学字符识别的性能并随后搜索的一些现有方法和系统如下:
Kim等的专利US6766528提供了一种用于在电视节目中显示附加信息的装置和方法。其教导了一种用于从诸如因特网的外部源获取信息以及进一步显示给用户(如果提出要求)的方法。
Tomsen等的专利US20020083464提供了上下文敏感请求,其用于搜索与互动电视系统正显示的电视广播相关的补充内容。该专利没有教导预处理包括文本的视频区域以改进光学字符识别性能以及使用预处理后的包括文本的视频区域随后搜索相关信息。
Kim等的专利US20090019482提供了一种图像显示装置和利用该图像显示装置的信息提供方法。该专利讨论了所述图像显示装置,诸如数字电视机,根据播放时段将网络服务器提供的RSS(简易信息聚合)信息分类,并且在相应的播放时段显示预定类别的RSS信息。
Ullman等的专利US20020038344提供了一种用于将视频节目与互联网的大量的信息资源结合的系统。Ullman等教导了一种基于计算机的系统,该基于计算机的系统接收带有嵌入式统一资源定位符(URL)的视频节目。
Piotrowski的专利US2002188959提供了一种允许视频/电视节目的观看者自动地或按要求接收与所述视频/电视节目相关的同步的补充多媒体信息的系统和方法。所解决的问题尤其涉及补充多媒体信息,该补充多媒体信息作为一种例如使用同步多媒体集成语言(SMIL)的互联网文件被接收。从视频/电视节目接收/提取同步信息。此外,其涉及以虚拟网页显示视频/电视节目和补充多媒体信息。
Chen等在“GeoTV:navigating geocoded rss to create an IPTV experience”中教导了GeoTV,通过其中的架构,以有意义的方式展示和推行网页内容,为电视观众创造娱乐体验。
Farhi在“Broadband News Aggregator”中教导了从多信源传送新闻的宽带互动电视应用。
在我们自己的以前的专利2236/MUM/2008和出版物“Recognition oftrademarks from sports videos for channel hyper linking in consumer end”中公开一种从体育视频自动识别商标以通道超链接的系统。使用文本的一些特性定位文本区域,并且通过与来自受限商标数据库的形状不变特征和颜色特征相比较来识别商标。
以上提及的现有技术未公开一种可以预处理包括文本的视频区域以改进光学字符识别的性能并使用预处理后的包括文本的视频区域随后搜索相关的信息的有效方法和系统。因此,根据上述背景技术,可以看出,需要一种解决方案,该解决方案可以提供一种用于准确地预处理包括文本的视频区域以改进光学字符识别的性能并使用输出的预处理后的包括文本的视频区域随后搜索相关的信息的方法及系统。
发明目的
根据本发明,主要目的是提供一种用于预处理包括文本的视频区域以改进光学字符识别的性能的方法及系统。
本发明的另一目的是提供一种用于预处理包括文本的视频区域以随后搜索、获取并进一步显示与嵌入在视频流中的文本相关的信息的方法及系统。
发明内容
在描述本发明的方法、系统和硬件启用之前,应该明白,本发明不限于所描述的特定系统和方法,而可以有本发明的多种可能的实施方式,这些实施方式在本发明中未明确说明。还应该明白,在描述中所使用的术语仅用于描述特定的类型或实施方式,并不意图限制本发明的范围,本发明的范围仅由所附的权利要求所限定。
本发明提供一种用于预处理包括文本的视频区域以改进光学字符识别的性能的方法及系统。
在本发明的一个方面中,提供一种用于预处理包括文本的视频区域以改进光学字符识别的性能和随后搜索、获取以及进一步显示与嵌入在视频流中的文本相关的信息的方法及系统。
在本发明的另一方面中,可以自动地或由用户手动地确定包括嵌入在视频流中的文本的区域。
以上的所述方法和系统优选地用于预处理嵌入在视频流中的文本,该文本可以用作若干应用的输入。
附图说明
当结合附图阅读时,可以更好地理解上述发明内容和下文的优选实施方式的详细描述。为了说明本发明,在附图中示出本发明的示例性结构;然而,本发明并不限于所描述的特定方法及系统。在附图中:
图1是示出预处理包括文本的视频区域以改进光学字符识别的性能的流程图;
图2是示出定位包括文本的视频区域中的文本图像的传统的/现有技术的流程图;
图3是示出将包括文本的视频区域中的定位到的文本图像提高至更高分辨率的流程图;
图4是示出分割二值化的文本图像的至少两个粘连字符的流程图;
图5是示出将来自分割的文本图像的关键字确定为用于光学字符识别的改进的输入的流程图;
图6是示出搜索确定的关键字以随后显示并存储检索到的信息的流程图。
具体实施方式
现在将详细讨论说明本发明的所有特征的一些实施方式。
词语“包括”、“具有”、“含有”及“包含”及其他的形式意思相同并且是开放性的,因为这些词中的任意一词之后的一个项目或多个项目并不意味着是这样一个项目或多个项目的详尽的列表,或者并不意味着仅局限于所列出的一个项目或多个项目。
还需要指出,除非上下文明确地另有规定,说明书和所附权利要求中使用的单数形式“一”和“该”包括复数引用。虽然在本发明的实施方式的实施和测试中可以使用与本发明描述的系统和方法相似或相同的任何系统和方法,但现在描述优选的系统和方法。
所公开的实施方式仅是本发明的示例性实施方式,其可以以各种形式体现。
本发明实现了一种用于预处理包括文本的视频区域以改进光学字符识别的性能的方法和系统。在本发明的一个实施方式中,输出文本可以用于随后搜索,将预处理后的包括文本的视频区域用作输入来获取与这样的文本相关的进一步信息以及显示获取的搜索到的与所述文本相关的信息。
本发明提供一种用于预处理包括文本的视频区域以改进光学字符识别输入的方法,其中,通过计算机实现的下列步骤预处理所述包括文本的视频区域:
a.定位包括文本的视频区域中的文本图像;
b.将包括文本的视频区域中的所识别的文本图像提高至更高分辨率;
c.二值化提高的高分辨率文本图像;
d.分割二值化的文本图像的至少两个粘连字符;以及
e.将来自分割的文本图像的关键字确定为用于光学字符识别的改进的输入。
本发明还提出一种用于预处理包括文本的视频区域以改进光学字符识别输入的系统,其中,所述系统包括:
a.至少一个图像处理装置,所述图像处理装置能够定位文本图像、将定位到的文本图像提高至更高分辨率、之后二值化所述定位到的文本图像、分割二值化的文本图像的至少两个粘连字符以及将来自分割的文本图像的关键字确定为用于OCR(光学字符识别)的改进的输入;以及
b.至少一个光学字符识别装置,用于识别预处理后的文本输入;以及
c.以通信方式互相连接的至少一个数字存储装置和存储元件,用于存储预处理后的包括文本的视频区域。
参照图1,图1是示出预处理包括文本的视频区域以改进光学字符识别的性能的流程图。
该过程开始于步骤100,定位包括文本的视频区域中的文本图像。在步骤200中,通过使用图像处理装置,将包括文本的视频区域中的定位到的文本图像提高至更高分辨率。在步骤300中,通过使用图像处理装置,二值化提高的高分辨率文本图像,在步骤400中,通过使用图像处理装置,分割二值化的文本图像的至少两个粘连字符。该过程结束于步骤500,将来自分割的文本图像的关键字确定为用于光学字符识别的改进的输入。预处理包括文本的视频区域以改进光学字符识别输入和随后搜索、获取并显示与包括文本的视频区域相关的附加信息。
参照图2,图2是示出定位包括文本的视频区域中的文本图像的传统的/现有技术的流程图。其中,通过使用光学字符识别装置定位包括文本的视频区域中的文本图像。
该过程开始于步骤102,使用亮度的直流分量获得视频流中的高对比度的宏块。在步骤104中,获得视频流中的具有强垂直边缘的宏块。在步骤106中,去除视频流中不满足文本特性的宏块。在步骤108中,在时域中进行滤波以去除视频流中高光色候选宏块。在步骤110中,标记视频流中的文本区域。过程结束于步骤112,检测各候选文本区域的屏幕布局以定位包括文本的视频区域中的文本图像。
参照图3,图3是示出将包括文本的视频区域中的定位到的文本图像提高至更高分辨率的流程图。
在本发明的另一实施方式中,通过使用图像处理装置,将包括文本的视频区域中的定位到的文本图像提高至更高分辨率。
该过程开始于步骤202,应用具有滤波器系数的六抽头有限脉冲响应滤波器,将所关注的区域在高度和宽度上放大两倍。其中,所述滤波器系数为1、-5、20、20、-5、1。在步骤204中,应用插值技术进一步将所关注的区域在高度和宽度上放大两倍。在步骤206中,在所述更高分辨率图像中应用离散余弦变换。在步骤208中,通过应用巴特沃斯低通滤波器,摒除高频率分量。该过程结束于步骤210,应用反离散余弦变换重建更高分辨率的图像。
在本发明的另一实施方式中,通过使用图像处理装置,二值化提高的高分辨率文本图像。通过使用图像处理装置,将包括文本的视频区域中的识别的文本图像提高至更高的分辨率,然后,使用自适应阈值算法对输出进行二值化。可能有若干方法来实现二值化,使得可以分离文本图像的前景和背景。然而,因为相关的文本区域中存在的字符和背景不具有固定的灰度值,因此在用于二值化的该方法中使用自适应阈值转换法。为了获取阈值图像,该解决方案中使用最大类间方差(Otsu)法。
参照图4,图4是示出分割二值化的文本图像的至少两个粘连字符的流程图。
在本发明的另一实施方式中,分割二值化的文本图像的至少两个粘连字符。通过使用图像处理装置进行粘连字符分割。
通过使用图像处理装置,二值化提高的高分辨率文本图像。以二值化的图像的形式的输出用于粘连字符分割。一旦非常频繁地获得二值化的图像,可以看出,图像由许多粘连字符组成。这些粘连字符降低了任何光学字符识别装置的准确率。因此,要改进光学字符识别的性能,需要粘连字符分割。
该过程开始于步骤402,计算二值化的图像中各字符的宽度。假定具有显著宽度的每个连接单元是一字符。使第i个单元的字符宽度为WCi。在步骤404中,确定二值化的图像中的平均字符宽度。通过使用计算所述平均字符宽度。其中,n为所关注的区域中的字符的数量。在步骤406中,计算二值化的图像中的字符宽度的标准偏差。根据σWC=STDEV(WCi)计算字符宽度的标准偏差(σWC)。该过程结束于步骤408,限定二值化的图像中的字符长度的阈值。根据TWC=μWC+3σWC计算字符长度的阈值(TWC)。如果WCi>TWC,将所述第i个字符标记为候选粘连字符。根据计算第i个候选单元中粘连字符的数量。以ni个等间隔段分割WCi
参照图5,图5是示出将来自分割的文本图像的关键字确定为用于光学字符识别的改进的输入的流程图。
在本发明的另一实施方式中,通过利用图像处理装置,将来自分割的文本图像的关键字确定为改进的输入,该改进的输入用于光学字符识别以及用于搜索、获取和显示与包括文本的视频区域相关的附加信息。
该过程开始于步骤502,从嵌入在视频流中的文本的分割的文本图像中选择全部字母为大写的关键字。在步骤504中,计算嵌入在视频流中的文本的分割的文本图像的一文本行中的字数。在步骤506中,如果一文本行中的字数大于用试探法获得的阈值,则所述文本行被认为是候选关键字。在步骤508中,从候选关键字中去除停用字。在步骤510中,连接候选关键字中的剩余字以产生搜索字符串。该过程结束于步骤512,所述连接的关键字用作改进的输入,该改进的输入用于光学字符识别和搜索字符串,所述搜索字符串用于搜索、随后获取和显示与嵌入在视频流中的文本相关的附加信息。
参照图6,图6是示出搜索确定的关键字以随后显示并存储检索出的信息的流程图。
在本发明的又一实施方式中,搜索来自分割的文本图像的关键字,以随后获取和显示与嵌入在视频流中的文本相关的附加信息。
该过程开始于步骤602,确定关键字。在步骤604中,在RSS源中或因特网上搜索确定的关键字。在步骤606中,在用户界面上显示检索到的信息。该过程结束于步骤608,将检索到的信息存储在可扩展标记语言文件中。
参照本发明的各个实施方式示出上述描述。本发明所属领域的技术人员将认识到,在意义上不脱离本发明的原理、精神和范围的情况下,可以对描述的操作过程和方法进行替换和改变。
本发明的操作的最佳模式/示例
在下文提供的示例中描述本发明,所述示例仅用于说明本发明且因此不应当解释为限制本发明的范围。
在一示例中,提供一种用于预处理联网电视中的包括文本的视频区域的方法和系统,所述方法和系统可以定位电视机上显示的新闻视频中的突发新闻或跑马灯新闻,以改进光学字符识别输入。所述方法和系统提供从因特网或RSS源随后搜索、获取与所述包括文本的视频区域相关的信息,并且进一步将与嵌入在视频流中的文本相关的信息显示在用户的电视机上。
所述方法和系统依照句法分析新闻视频,并产生搜索请求。而且,所述方法和系统使用诸如谷歌的搜索引擎来搜索产生的搜索请求。用于搜索的关键字识别基于试探法,所述试探法反过来基于一些观察,例如,突发新闻总是以大写字母出现,那些重要新闻的字体大小大于跑马灯文本的字体大小,所述跑马灯文本仅出现在中心区域上方或下方,在所述中心区域示出主持人、演播室或一些新闻简报。
以上所述的观察引起下面的用以确定关键字的方法:从光学字符识别的输出中选择识别出的所有字母为大写的字,得出文本行中的字数。如果文本行中的字数大于用试探法获取的阈值,则其被认为是候选文本区域。如果获得多个这样的文本行,则所述方法查明在视频帧的中间以上是否具有任何这样的文本行。如果在视频帧的中间以下获得多个这样的文本行,则选择较接近视频帧的中间的文本行并将其作为候选文本。所述方法和系统将该文本行用作搜索RSS源的输入。在下一步中,从候选文本中删除停用字,例如“一”、“该”、“用于”、“的”等。将剩余字进行连接,以产生因特网搜索引擎或RSS源的搜索字符串。在因特网或RSS源上搜索的、与突发新闻或跑马灯新闻相关的信息被检索出并在电视机上显示给用户。
根据所提供的方法和系统,尽管对来自视频的文本区域的定位可能有一些错误判断,但该定位可以在最小误差下进行。然而数据语义分析对这些错误判断进行处理。光学字符识别的输出也可能不准确,但是当使用最长公共子序列匹配和编辑距离从RSS源搜索相关的信息时,这些误差不会影响获得所需的结果。

Claims (20)

1.一种用于预处理包括文本的视频区域以改进光学字符识别输入的方法,所述方法包括计算机实现的下列步骤:
定位所述包括文本的视频区域中的文本图像;
将所述包括文本的视频区域中的所述文本图像提高至更高分辨率;
二值化提高的高分辨率文本图像;
分割二值化的文本图像中的至少两个粘连字符;以及
将来自所分割的文本图像的关键字确定为用于光学字符识别的改进的输入,
其中,分割二值化的文本图像中的至少两个粘连字符包括:
a)计算存在于所述二值化的文本图像中的各字符的字符宽度WCi,其中,WCi表示所述二值化的文本图像中的第i个字符的字符宽度;
b)基于各字符的所述字符宽度确定存在于所述二值化的文本图像中的字符的平均字符宽度uWC
c)计算所述字符宽度的标准偏差σWC
d)基于所述平均字符宽度uWC和所述标准偏差σWC限定字符长度的阈值TWC
e)如果WCi>TWC,将该WCi对应的字符标记为一个或多个粘连字符;
f)基于所述字符宽度WCi和所述字符长度的阈值TWC,计算粘连的数量ni,其中,ni表示所述二值化的文本图像中的第i个字符中的所述粘连的数量;以及
g)以ni个等间隔段分割所述一个或多个粘连字符,
其中,将来自所分割的文本图像的关键字确定为用于光学字符识别的改进的输入包括:
1)从所述包括文本的视频区域的分割的文本图像中选择所有字母为大写的字;
2)获得所述包括文本的视频区域的分割的文本图像的文本行中的字数;
3)如果文本行中的字数大于用试探法获得的阈值,则将所述文本行作为候选关键字;
4)从所述候选关键字中去除停用字;
5)连接所述候选关键字中的剩余字以产生搜索字符串;
6)使用连接的关键字作为搜索字符串,用于搜索、获取并显示与嵌入在视频流中的文本相关的附加信息。
2.如权利要求1所述的方法,其中,通过计算机实现的下列步骤定位所述包括文本的视频区域中的所述文本:
利用亮度的直流分量,获得所述包括文本的视频区域中的高对比度的宏块;
获得所述包括文本的视频区域中的具有强垂直边缘的第一宏块;
去除所述包括文本的视频区域中的不满足文本特性的第二宏块;
在时域中进行滤波以去除所述包括文本的视频区域中的高光色候选宏块;
标记所述包括文本的视频区域中的文本区域;以及
检测每个候选文本区域的屏幕布局,以识别所述包括文本的视频区域中的文本图像。
3.如权利要求1所述的方法,其中,通过计算机实现的下列步骤,将所述包括文本的视频区域中的所述文本图像进一步提高至更高分辨率:
应用具有多个滤波器系数的六抽头有限脉冲响应滤波器,将所关注的区域在高度和宽度上放大两倍;
应用插值技术进一步将所关注的区域在高度和宽度上放大两倍;
在更高分辨率的所述文本图像上应用离散余弦变换;
通过应用巴特沃斯低通滤波器,摒除高频分量;以及
应用反离散余弦变换,重建更高分辨率的所述文本图像。
4.如权利要求1所述的方法,其中,通过自适应阈值转换法来二值化所述提高的高分辨率文本图像,以分离所述文本图像的前景和背景。
5.如权利要求1所述的方法,其中,所述停用字选自包括“一”、“该”、“用于”、“或”、“的”的组。
6.如权利要求1所述的方法,其中,预处理后的包括文本的视频区域还用于在包括相关信息的因特网或简易信息聚合源中搜索与所述文本相关的附加信息。
7.如权利要求6所述的方法,其中,搜索到的与所述预处理后的包括文本的视频区域相关的附加信息显示在用户界面上。
8.如权利要求7所述的方法,其中,搜索到并显示的与所述预处理后的包括文本的视频区域相关的附加信息被存储在可扩展标记语言文件中。
9.如权利要求1所述的方法,其中,处理后的、搜索到的、获取的并显示的与包括文本的视频区域相关的附加信息与看电视时的新闻有关。
10.如权利要求9所述的方法,其中,所述新闻选自包括突发新闻和跑马灯新闻的组。
11.如权利要求1所述的方法,其中,通过计算所述平均字符宽度uWC,其中,n表示所述二值化的文本图像中的字符的数量。
12.如权利要求1所述的方法,其中,通过σWC=STDEV(WCi)计算所述标准偏差σWC
13.如权利要求1所述的方法,其中,通过μWC+3σWC限定所述字符长度的阈值TWC
14.如权利要求1所述的方法,其中,通过计算所述粘连的数量。
15.一种用于预处理包括文本的视频区域以改进光学字符识别输入的系统,其中,所述系统包括:
用于定位所述包括文本的视频区域中的文本图像的定位模块、用于将所述文本图像提高至更高分辨率的提高模块、用于二值化所提高的高分辨率文本图像的二值化模块、用于分割被二值化的文本图像中的至少两个粘连字符的分割模块、以及用于将来自所分割的文本图像的关键字确定为用于光学字符识别的改进的输入的确定模块,
其中,所述分割模块具体用于
a)计算存在于所述二值化的文本图像中的各字符的字符宽度WCi,其中,WCi表示所述二值化的文本图像中的第i个字符的字符宽度;
b)基于各字符的所述字符宽度确定存在于所述二值化的文本图像中的字符的平均字符宽度uWC
c)计算所述字符宽度的标准偏差σWC
d)基于所述平均字符宽度uWC和所述标准偏差σWC限定字符长度的阈值TWC
e)如果WCi>TWC,将该WCi对应的字符标记为一个或多个粘连字符;
f)基于所述字符宽度WCi和所述字符长度的阈值TWC,计算粘连的数量ni,其中,ni表示所述二值化的文本图像中的第i个字符中的所述粘连的数量;以及
g)以ni个等间隔段分割所述一个或多个粘连字符,
其中,所述确定模块具体用于:
1)从所述包括文本的视频区域的分割的文本图像中选择所有字母为大写的字;
2)获得所述包括文本的视频区域的分割的文本图像的文本行中的字数;
3)如果文本行中的字数大于用试探法获得的阈值,则将所述文本行作为候选关键字;
4)从所述候选关键字中去除停用字;
5)连接所述候选关键字中的剩余字以产生搜索字符串;
6)使用连接的关键字作为搜索字符串,用于搜索、获取并显示与嵌入在视频流中的文本相关的附加信息。
16.如权利要求15所述的系统,其中,所述二值化模块通过自适应阈值转换法来二值化提高的高分辨率文本图像以分离文本图像的前景和背景。
17.如权利要求15所述的系统,其中,所述系统还包括搜索模块,所述搜索模块用于利用所述关键字搜索、获取并显示与嵌入在视频流中的所述文本相关的附加信息。
18.如权利要求17所述的系统,其中,所述搜索模块还用于利用预处理后的所述包括文本的视频区域在包括相关信息的因特网或简易信息聚合源中搜索与所述文本相关的附加信息。
19.如权利要求18所述的系统,其中,所述系统还包括显示模块,所述显示模块用于将所述附加信息显示在用户界面上。
20.如权利要求18所述的系统,其中,所述系统还包括存储模块,所述存储模块用于以可扩展标记语言文件的形式存储所述附加信息。
CN201080042059.7A 2009-12-31 2010-12-29 一种用于预处理包括文本的视频区域的方法及系统 Active CN102511048B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IN3039/MUM/2009 2009-12-31
IN3039MU2009 2009-12-31
PCT/IN2010/000864 WO2011080763A1 (en) 2009-12-31 2010-12-29 A method and system for preprocessing the region of video containing text

Publications (2)

Publication Number Publication Date
CN102511048A CN102511048A (zh) 2012-06-20
CN102511048B true CN102511048B (zh) 2015-08-26

Family

ID=44009799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080042059.7A Active CN102511048B (zh) 2009-12-31 2010-12-29 一种用于预处理包括文本的视频区域的方法及系统

Country Status (5)

Country Link
US (1) US8989491B2 (zh)
EP (1) EP2471025B1 (zh)
JP (1) JP5840130B2 (zh)
CN (1) CN102511048B (zh)
WO (1) WO2011080763A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8724928B2 (en) * 2009-08-31 2014-05-13 Intellectual Ventures Fund 83 Llc Using captured high and low resolution images
EP2734956A4 (en) * 2011-07-20 2014-12-31 Tata Consultancy Services Ltd METHOD AND SYSTEM FOR DIFFERENTIATION OF TEXT INFORMATION INTEGRATED IN VIDEO CONTENT INTERNET INFORMATION
CN103186780B (zh) * 2011-12-30 2018-01-26 乐金电子(中国)研究开发中心有限公司 视频字幕识别方法及装置
US9922263B2 (en) * 2012-04-12 2018-03-20 Tata Consultancy Services Limited System and method for detection and segmentation of touching characters for OCR
US9645985B2 (en) * 2013-03-15 2017-05-09 Cyberlink Corp. Systems and methods for customizing text in media content
MX349609B (es) 2013-09-13 2017-08-04 Arris Entpr Llc Segmentacion de contenido de video basado en contenido.
US9762950B1 (en) 2013-09-17 2017-09-12 Amazon Technologies, Inc. Automatic generation of network pages from extracted media content
US9377949B2 (en) * 2013-09-27 2016-06-28 Xiaomi Inc. Method and terminal device for selecting character
US9251614B1 (en) * 2014-08-29 2016-02-02 Konica Minolta Laboratory U.S.A., Inc. Background removal for document images
CN106161873A (zh) * 2015-04-28 2016-11-23 天脉聚源(北京)科技有限公司 一种视频信息提取推送方法及系统
CN106162328A (zh) * 2015-04-28 2016-11-23 天脉聚源(北京)科技有限公司 一种视频同步信息展示方法及系统
CN109165647A (zh) * 2018-08-22 2019-01-08 北京慕华信息科技有限公司 一种图像中文本信息量的计算方法及装置
CN111491177A (zh) * 2019-01-28 2020-08-04 上海博泰悦臻电子设备制造有限公司 视频信息提取方法及其装置、系统
US11386687B2 (en) * 2020-03-30 2022-07-12 Wipro Limited System and method for reconstructing an image
KR102435962B1 (ko) * 2021-11-03 2022-08-25 렉스젠(주) 영상을 이용한 정보 분석 시스템 및 그에 관한 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101097600A (zh) * 2006-06-29 2008-01-02 北大方正集团有限公司 一种字体识别方法及系统
CN101251892A (zh) * 2008-03-07 2008-08-27 北大方正集团有限公司 一种字符切分方法和装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04276885A (ja) * 1991-03-04 1992-10-01 Sumitomo Electric Ind Ltd 文字切出し装置
US20020049832A1 (en) 1996-03-08 2002-04-25 Craig Ullman Enhanced video programming system and method for incorporating and displaying retrieved integrated internet information segments
US6766528B1 (en) 1999-01-27 2004-07-20 Lg Electronics Inc. Apparatus and method for displaying additional information
US6614930B1 (en) * 1999-01-28 2003-09-02 Koninklijke Philips Electronics N.V. Video stream classifiable symbol isolation method and system
US6470094B1 (en) * 2000-03-14 2002-10-22 Intel Corporation Generalized text localization in images
US20020083464A1 (en) 2000-11-07 2002-06-27 Mai-Ian Tomsen System and method for unprompted, context-sensitive querying during a televison broadcast
US20020188959A1 (en) 2001-06-12 2002-12-12 Koninklijke Philips Electronics N.V. Parallel and synchronized display of augmented multimedia information
EP1271403B1 (en) * 2001-06-26 2005-03-09 Nokia Corporation Method and device for character location in images from digital camera
US7339992B2 (en) * 2001-12-06 2008-03-04 The Trustees Of Columbia University In The City Of New York System and method for extracting text captions from video and generating video summaries
KR20040100735A (ko) * 2003-05-24 2004-12-02 삼성전자주식회사 영상보간장치 및 영상보간방법
JP2007006194A (ja) * 2005-06-24 2007-01-11 Matsushita Electric Ind Co Ltd 画像復号再生装置
CN100517374C (zh) * 2005-12-29 2009-07-22 佳能株式会社 从复杂背景文档图像提取文本的装置、方法
US7949192B2 (en) * 2006-05-10 2011-05-24 University Of Maryland, Baltimore Techniques for converting analog medical video to digital objects
TW200802137A (en) * 2006-06-16 2008-01-01 Univ Nat Chiao Tung Serial-type license plate recognition system
KR100812347B1 (ko) 2006-06-20 2008-03-11 삼성전자주식회사 스트록 필터를 이용한 문자 추출 방법 및 그 장치
JP4861845B2 (ja) 2007-02-05 2012-01-25 富士通株式会社 テロップ文字抽出プログラム、記録媒体、方法及び装置
KR20090005681A (ko) 2007-07-09 2009-01-14 삼성전자주식회사 영상표시장치 및 이를 이용한 정보 제공방법
JP2009130899A (ja) * 2007-11-28 2009-06-11 Mitsubishi Electric Corp 画像再生装置
JP2009188886A (ja) * 2008-02-08 2009-08-20 Omron Corp 情報処理装置および情報処理装置用のプログラム
CN101593276B (zh) * 2008-05-29 2011-10-12 汉王科技股份有限公司 一种视频ocr图文分离方法及系统
US8320674B2 (en) * 2008-09-03 2012-11-27 Sony Corporation Text localization for image and video OCR

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101097600A (zh) * 2006-06-29 2008-01-02 北大方正集团有限公司 一种字体识别方法及系统
CN101251892A (zh) * 2008-03-07 2008-08-27 北大方正集团有限公司 一种字符切分方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
安艳辉等.粘连搭接字符切分方法研究.《河北师范大学学报(自然科学版)》.2005,第29卷(第2期),137-140. *

Also Published As

Publication number Publication date
WO2011080763A1 (en) 2011-07-07
US8989491B2 (en) 2015-03-24
EP2471025A1 (en) 2012-07-04
US20120242897A1 (en) 2012-09-27
JP2013508798A (ja) 2013-03-07
EP2471025B1 (en) 2019-06-05
CN102511048A (zh) 2012-06-20
JP5840130B2 (ja) 2016-01-06

Similar Documents

Publication Publication Date Title
CN102511048B (zh) 一种用于预处理包括文本的视频区域的方法及系统
US9646006B2 (en) System and method for capturing a multimedia content item by a mobile device and matching sequentially relevant content to the multimedia content item
US10075742B2 (en) System for social media tag extraction
US9235557B2 (en) System and method thereof for dynamically associating a link to an information resource with a multimedia content displayed in a web-page
US20160358025A1 (en) Enriching online videos by content detection, searching, and information aggregation
US9218606B2 (en) System and method for brand monitoring and trend analysis based on deep-content-classification
US9191626B2 (en) System and methods thereof for visual analysis of an image on a web-page and matching an advertisement thereto
US20090083260A1 (en) System and Method for Providing Community Network Based Video Searching and Correlation
CN101673266B (zh) 音频、视频内容的搜索方法
CN103942337A (zh) 一种基于图像识别与匹配的视频搜索系统
US10380267B2 (en) System and method for tagging multimedia content elements
JP5226784B2 (ja) 動画像検索サービス提供方法およびその装置
CN1582444A (zh) 选择性媒体流广告技术
US10380623B2 (en) System and method for generating an advertisement effectiveness performance score
US20130191323A1 (en) System and method for identifying the context of multimedia content elements displayed in a web-page
CN101673267B (zh) 音频、视频内容的搜索方法
Kumar et al. Sports video summarization using priority curve algorithm
US11954168B2 (en) System and method thereof for dynamically associating a link to an information resource with a multimedia content displayed in a web-page
US20170192973A1 (en) System and method for recommending trending content based on context
CN101673265A (zh) 视频内容的搜索装置
CN117573902A (zh) 一种新媒体运营管理数据采集分析系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant