CN102511048A

CN102511048A - 一种用于预处理包括文本的视频区域的方法及系统

Info

Publication number: CN102511048A
Application number: CN2010800420597A
Authority: CN
Inventors: T·查托帕迪亚; A·辛哈; A·帕尔
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2009-12-31
Filing date: 2010-12-29
Publication date: 2012-06-20
Anticipated expiration: 2030-12-29
Also published as: EP2471025B1; US20120242897A1; JP2013508798A; EP2471025A1; JP5840130B2; US8989491B2; CN102511048B; WO2011080763A1

Abstract

一种用于预处理包括文本的视频区域的方法及系统。本发明提供了一种用于预处理包括文本的视频区域以改进光学字符识别输入的方法和系统。

Description

一种用于预处理包括文本的视频区域的方法及系统

技术领域

本发明涉及广播领域。尤其是，本发明涉及一种用于预处理包括文本的视频区域的方法及系统。更具体地，本发明涉及一种用于预处理包括文本的视频区域以改进光学字符识别的输入的方法和系统。

背景技术

近年来使用诸如电视、计算机等装置进行信息动态传播有显著增长。这样的装置正在越来越多地用于获取与各领域相关的最新信息。通过这些装置的信息传播是以视频、音频、文本或其组合的形式进行的。新闻广播是以视频、音频、文本及其组合的形式进行的信息传播的最好示例。

在当前情况下，用户仅可以获得正在传播的信息。为了获得特定主题或感兴趣的领域的进一步相关信息，用户必须使用一些其它的信息源，例如因特网。用户必须进行手动搜索以获取例如电视的信息传播装置正在传播的信息以外的、所感兴趣的领域的相关信息。

为了获取信息传播装置上正在显示的信息以外的、用户所需的与感兴趣的领域相关的信息，需要具有一套使用当前的包括文本的视频区域以改进光学字符识别的性能并随后搜索的自动化系统。因此，应当有效地确定包括文本的视频区域，以改进光学字符识别的性能并利用所述文本进行随后搜索。

我们所知的能够进行基于文本的搜索、但不足以有效地确定包括文本的视频区域以改进光学字符识别的性能并随后搜索的一些现有方法和系统如下：

Kim等的专利US6766528提供了一种用于在电视节目中显示附加信息的装置和方法。其教导了一种用于从诸如因特网的外部源获取信息以及进一步显示给用户(如果提出要求)的方法。

Tomsen等的专利US20020083464提供了上下文敏感请求，其用于搜索与互动电视系统正显示的电视广播相关的补充内容。该专利没有教导预处理包括文本的视频区域以改进光学字符识别性能以及使用预处理后的包括文本的视频区域随后搜索相关信息。

Kim等的专利US20090019482提供了一种图像显示装置和利用该图像显示装置的信息提供方法。该专利讨论了所述图像显示装置，诸如数字电视机，根据播放时段将网络服务器提供的RSS(简易信息聚合)信息分类，并且在相应的播放时段显示预定类别的RSS信息。

Ullman等的专利US20020038344提供了一种用于将视频节目与互联网的大量的信息资源结合的系统。Ullman等教导了一种基于计算机的系统，该基于计算机的系统接收带有嵌入式统一资源定位符(URL)的视频节目。

Piotrowski的专利US2002188959提供了一种允许视频/电视节目的观看者自动地或按要求接收与所述视频/电视节目相关的同步的补充多媒体信息的系统和方法。所解决的问题尤其涉及补充多媒体信息，该补充多媒体信息作为一种例如使用同步多媒体集成语言(SMIL)的互联网文件被接收。从视频/电视节目接收/提取同步信息。此外，其涉及以虚拟网页显示视频/电视节目和补充多媒体信息。

Chen等在“GeoTV：navigating geocoded rss to create an IPTV experience”中教导了GeoTV，通过其中的架构，以有意义的方式展示和推行网页内容，为电视观众创造娱乐体验。

Farhi在“Broadband News Aggregator”中教导了从多信源传送新闻的宽带互动电视应用。

在我们自己的以前的专利2236/MUM/2008和出版物“Recognition oftrademarks from sports videos for channel hyper linking in consumer end”中公开一种从体育视频自动识别商标以通道超链接的系统。使用文本的一些特性定位文本区域，并且通过与来自受限商标数据库的形状不变特征和颜色特征相比较来识别商标。

以上提及的现有技术未公开一种可以预处理包括文本的视频区域以改进光学字符识别的性能并使用预处理后的包括文本的视频区域随后搜索相关的信息的有效方法和系统。因此，根据上述背景技术，可以看出，需要一种解决方案，该解决方案可以提供一种用于准确地预处理包括文本的视频区域以改进光学字符识别的性能并使用输出的预处理后的包括文本的视频区域随后搜索相关的信息的方法及系统。

发明目的

根据本发明，主要目的是提供一种用于预处理包括文本的视频区域以改进光学字符识别的性能的方法及系统。

本发明的另一目的是提供一种用于预处理包括文本的视频区域以随后搜索、获取并进一步显示与嵌入在视频流中的文本相关的信息的方法及系统。

发明内容

在描述本发明的方法、系统和硬件启用之前，应该明白，本发明不限于所描述的特定系统和方法，而可以有本发明的多种可能的实施方式，这些实施方式在本发明中未明确说明。还应该明白，在描述中所使用的术语仅用于描述特定的类型或实施方式，并不意图限制本发明的范围，本发明的范围仅由所附的权利要求所限定。

本发明提供一种用于预处理包括文本的视频区域以改进光学字符识别的性能的方法及系统。

在本发明的一个方面中，提供一种用于预处理包括文本的视频区域以改进光学字符识别的性能和随后搜索、获取以及进一步显示与嵌入在视频流中的文本相关的信息的方法及系统。

在本发明的另一方面中，可以自动地或由用户手动地确定包括嵌入在视频流中的文本的区域。

以上的所述方法和系统优选地用于预处理嵌入在视频流中的文本，该文本可以用作若干应用的输入。

附图说明

当结合附图阅读时，可以更好地理解上述发明内容和下文的优选实施方式的详细描述。为了说明本发明，在附图中示出本发明的示例性结构；然而，本发明并不限于所描述的特定方法及系统。在附图中：

图1是示出预处理包括文本的视频区域以改进光学字符识别的性能的流程图；

图2是示出定位包括文本的视频区域中的文本图像的传统的/现有技术的流程图；

图3是示出将包括文本的视频区域中的定位到的文本图像提高至更高分辨率的流程图；

图4是示出分割二值化的文本图像的至少两个粘连字符的流程图；

图5是示出将来自分割的文本图像的关键字确定为用于光学字符识别的改进的输入的流程图；

图6是示出搜索确定的关键字以随后显示并存储检索到的信息的流程图。

具体实施方式

现在将详细讨论说明本发明的所有特征的一些实施方式。

词语“包括”、“具有”、“含有”及“包含”及其他的形式意思相同并且是开放性的，因为这些词中的任意一词之后的一个项目或多个项目并不意味着是这样一个项目或多个项目的详尽的列表，或者并不意味着仅局限于所列出的一个项目或多个项目。

还需要指出，除非上下文明确地另有规定，说明书和所附权利要求中使用的单数形式“一”和“该”包括复数引用。虽然在本发明的实施方式的实施和测试中可以使用与本发明描述的系统和方法相似或相同的任何系统和方法，但现在描述优选的系统和方法。

所公开的实施方式仅是本发明的示例性实施方式，其可以以各种形式体现。

本发明实现了一种用于预处理包括文本的视频区域以改进光学字符识别的性能的方法和系统。在本发明的一个实施方式中，输出文本可以用于随后搜索，将预处理后的包括文本的视频区域用作输入来获取与这样的文本相关的进一步信息以及显示获取的搜索到的与所述文本相关的信息。

本发明提供一种用于预处理包括文本的视频区域以改进光学字符识别输入的方法，其中，通过计算机实现的下列步骤预处理所述包括文本的视频区域：

a.定位包括文本的视频区域中的文本图像；

b.将包括文本的视频区域中的所识别的文本图像提高至更高分辨率；

c.二值化提高的高分辨率文本图像；

d.分割二值化的文本图像的至少两个粘连字符；以及

e.将来自分割的文本图像的关键字确定为用于光学字符识别的改进的输入。

本发明还提出一种用于预处理包括文本的视频区域以改进光学字符识别输入的系统，其中，所述系统包括：

a.至少一个图像处理装置，所述图像处理装置能够定位文本图像、将定位到的文本图像提高至更高分辨率、之后二值化所述定位到的文本图像、分割二值化的文本图像的至少两个粘连字符以及将来自分割的文本图像的关键字确定为用于OCR(光学字符识别)的改进的输入；以及

b.至少一个光学字符识别装置，用于识别预处理后的文本输入；以及

c.以通信方式互相连接的至少一个数字存储装置和存储元件，用于存储预处理后的包括文本的视频区域。

参照图1，图1是示出预处理包括文本的视频区域以改进光学字符识别的性能的流程图。

该过程开始于步骤100，定位包括文本的视频区域中的文本图像。在步骤200中，通过使用图像处理装置，将包括文本的视频区域中的定位到的文本图像提高至更高分辨率。在步骤300中，通过使用图像处理装置，二值化提高的高分辨率文本图像，在步骤400中，通过使用图像处理装置，分割二值化的文本图像的至少两个粘连字符。该过程结束于步骤500，将来自分割的文本图像的关键字确定为用于光学字符识别的改进的输入。预处理包括文本的视频区域以改进光学字符识别输入和随后搜索、获取并显示与包括文本的视频区域相关的附加信息。

参照图2，图2是示出定位包括文本的视频区域中的文本图像的传统的/现有技术的流程图。其中，通过使用光学字符识别装置定位包括文本的视频区域中的文本图像。

该过程开始于步骤102，使用亮度的直流分量获得视频流中的高对比度的宏块。在步骤104中，获得视频流中的具有强垂直边缘的宏块。在步骤106中，去除视频流中不满足文本特性的宏块。在步骤108中，在时域中进行滤波以去除视频流中高光色候选宏块。在步骤110中，标记视频流中的文本区域。过程结束于步骤112，检测各候选文本区域的屏幕布局以定位包括文本的视频区域中的文本图像。

参照图3，图3是示出将包括文本的视频区域中的定位到的文本图像提高至更高分辨率的流程图。

在本发明的另一实施方式中，通过使用图像处理装置，将包括文本的视频区域中的定位到的文本图像提高至更高分辨率。

该过程开始于步骤202，应用具有滤波器系数的六抽头有限脉冲响应滤波器，将所关注的区域在高度和宽度上放大两倍。其中，所述滤波器系数为1、-5、20、20、-5、1。在步骤204中，应用插值技术进一步将所关注的区域在高度和宽度上放大两倍。在步骤206中，在所述更高分辨率图像中应用离散余弦变换。在步骤208中，通过应用巴特沃斯低通滤波器，摒除高频率分量。该过程结束于步骤210，应用反离散余弦变换重建更高分辨率的图像。

在本发明的另一实施方式中，通过使用图像处理装置，二值化提高的高分辨率文本图像。通过使用图像处理装置，将包括文本的视频区域中的识别的文本图像提高至更高的分辨率，然后，使用自适应阈值算法对输出进行二值化。可能有若干方法来实现二值化，使得可以分离文本图像的前景和背景。然而，因为相关的文本区域中存在的字符和背景不具有固定的灰度值，因此在用于二值化的该方法中使用自适应阈值转换法。为了获取阈值图像，该解决方案中使用最大类间方差(Otsu)法。

参照图4，图4是示出分割二值化的文本图像的至少两个粘连字符的流程图。

在本发明的另一实施方式中，分割二值化的文本图像的至少两个粘连字符。通过使用图像处理装置进行粘连字符分割。

通过使用图像处理装置，二值化提高的高分辨率文本图像。以二值化的图像的形式的输出用于粘连字符分割。一旦非常频繁地获得二值化的图像，可以看出，图像由许多粘连字符组成。这些粘连字符降低了任何光学字符识别装置的准确率。因此，要改进光学字符识别的性能，需要粘连字符分割。

该过程开始于步骤402，计算二值化的图像中各字符的宽度。假定具有显著宽度的每个连接单元是一字符。使第i个单元的字符宽度为WC_i。在步骤404中，确定二值化的图像中的平均字符宽度。通过使用计算所述平均字符宽度。其中，n为所关注的区域中的字符的数量。在步骤406中，计算二值化的图像中的字符宽度的标准偏差。根据σ_WC＝STDEV(WC_i)计算字符宽度的标准偏差(σ_WC)。该过程结束于步骤408，限定二值化的图像中的字符长度的阈值。根据T_WC＝μ_WC+3σ_WC计算字符长度的阈值(T_WC)。如果WC_i＞T_WC，将所述第i个字符标记为候选粘连字符。根据

计算第i个候选单元中粘连字符的数量。以n_i个等间隔段分割WC_i。

参照图5，图5是示出将来自分割的文本图像的关键字确定为用于光学字符识别的改进的输入的流程图。

在本发明的另一实施方式中，通过利用图像处理装置，将来自分割的文本图像的关键字确定为改进的输入，该改进的输入用于光学字符识别以及用于搜索、获取和显示与包括文本的视频区域相关的附加信息。

该过程开始于步骤502，从嵌入在视频流中的文本的分割的文本图像中选择全部字母为大写的关键字。在步骤504中，计算嵌入在视频流中的文本的分割的文本图像的一文本行中的字数。在步骤506中，如果一文本行中的字数大于用试探法获得的阈值，则所述文本行被认为是候选关键字。在步骤508中，从候选关键字中去除停用字。在步骤510中，连接候选关键字中的剩余字以产生搜索字符串。该过程结束于步骤512，所述连接的关键字用作改进的输入，该改进的输入用于光学字符识别和搜索字符串，所述搜索字符串用于搜索、随后获取和显示与嵌入在视频流中的文本相关的附加信息。

参照图6，图6是示出搜索确定的关键字以随后显示并存储检索出的信息的流程图。

在本发明的又一实施方式中，搜索来自分割的文本图像的关键字，以随后获取和显示与嵌入在视频流中的文本相关的附加信息。

该过程开始于步骤602，确定关键字。在步骤604中，在RSS源中或因特网上搜索确定的关键字。在步骤606中，在用户界面上显示检索到的信息。该过程结束于步骤608，将检索到的信息存储在可扩展标记语言文件中。

参照本发明的各个实施方式示出上述描述。本发明所属领域的技术人员将认识到，在意义上不脱离本发明的原理、精神和范围的情况下，可以对描述的操作过程和方法进行替换和改变。

本发明的操作的最佳模式/示例

在下文提供的示例中描述本发明，所述示例仅用于说明本发明且因此不应当解释为限制本发明的范围。

在一示例中，提供一种用于预处理联网电视中的包括文本的视频区域的方法和系统，所述方法和系统可以定位电视机上显示的新闻视频中的突发新闻或跑马灯新闻，以改进光学字符识别输入。所述方法和系统提供从因特网或RSS源随后搜索、获取与所述包括文本的视频区域相关的信息，并且进一步将与嵌入在视频流中的文本相关的信息显示在用户的电视机上。

所述方法和系统依照句法分析新闻视频，并产生搜索请求。而且，所述方法和系统使用诸如谷歌的搜索引擎来搜索产生的搜索请求。用于搜索的关键字识别基于试探法，所述试探法反过来基于一些观察，例如，突发新闻总是以大写字母出现，那些重要新闻的字体大小大于跑马灯文本的字体大小，所述跑马灯文本仅出现在中心区域上方或下方，在所述中心区域示出主持人、演播室或一些新闻简报。

以上所述的观察引起下面的用以确定关键字的方法：从光学字符识别的输出中选择识别出的所有字母为大写的字，得出文本行中的字数。如果文本行中的字数大于用试探法获取的阈值，则其被认为是候选文本区域。如果获得多个这样的文本行，则所述方法查明在视频帧的中间以上是否具有任何这样的文本行。如果在视频帧的中间以下获得多个这样的文本行，则选择较接近视频帧的中间的文本行并将其作为候选文本。所述方法和系统将该文本行用作搜索RSS源的输入。在下一步中，从候选文本中删除停用字，例如“一”、“该”、“用于”、“的”等。将剩余字进行连接，以产生因特网搜索引擎或RSS源的搜索字符串。在因特网或RSS源上搜索的、与突发新闻或跑马灯新闻相关的信息被检索出并在电视机上显示给用户。

根据所提供的方法和系统，尽管对来自视频的文本区域的定位可能有一些错误判断，但该定位可以在最小误差下进行。然而数据语义分析对这些错误判断进行处理。光学字符识别的输出也可能不准确，但是当使用最长公共子序列匹配和编辑距离从RSS源搜索相关的信息时，这些误差不会影响获得所需的结果。

Claims

1.一种用于预处理包括文本的视频区域以改进光学字符识别输入的方法，其中，通过计算机实现的下列步骤来预处理所述包括文本的视频区域：

a.定位所述包括文本的视频区域中的文本图像；

b.将所述包括文本的视频区域中的所识别的文本图像提高至更高分辨率；

c.二值化提高的高分辨率文本图像；

d.分割二值化的文本图像中的至少两个粘连字符；以及

2.如权利要求1所述的方法，其中，通过计算机实现的下列步骤定位所述包括文本的视频区域中的所述文本：

a.利用亮度的直流分量，获得所述包括文本的视频区域中的高对比度的宏块；

b.获得所述包括文本的视频区域中的具有强垂直边缘的宏块；

c.去除所述包括文本的视频区域中的不满足文本特性的宏块；

d.在时域中进行滤波以去除所述包括文本的视频区域中的高光色候选宏

块；

e.标记所述包括文本的视频区域中的文本区域；以及

f.检测每个候选文本区域的屏幕布局，以识别所述包括文本的视频区域中的文本图像。

3.如权利要求1所述的方法，其中，通过计算机实现的下列步骤，将所述包括文本的视频区域中的定位到的文本图像进一步提高至更高分辨率：

a.应用具有滤波器系数的六抽头有限脉冲响应滤波器，将所关注的区域在高度和宽度上放大两倍；

b.应用插值技术进一步将所关注的区域在高度和宽度上放大两倍；

c.在所述更高分辨率的图像上应用离散余弦变换；

d.通过应用巴特沃斯低通滤波器，摒除高频分量；以及

e.应用反离散余弦变换，重建所述更高分辨率的图像。

4.如权利要求1所述的方法，其中，通过自适应阈值转换法来二值化所述提高的高分辨率文本图像，以分离所述文本图像的前景和背景。

5.如权利要求1所述的方法，其中，通过计算机实现的下列步骤，分割二值化的图像的至少两个粘连字符：

a.获得所述二值化的图像中的每个字符的宽度；

b.确定所述二值化的图像中的平均字符宽度；

c.获得所述二值化的图像中的字符宽度的标准偏差；以及

d.限定所述二值化的图像中的字符长度的阈值。

6.如权利要求1所述的方法，其中，通过计算机实现的下列步骤，确定来自分割的文本图像的关键字：

a.从所述包括文本的视频区域的分割的文本图像中选择所有字母为大写的关键字；

b.获得所述包括文本的视频区域的分割的文本图像的文本行中的字数；

c.如果文本行中的字数大于用试探法获得的阈值，则将所述文本行作为候选关键字；

d.从所述候选关键字中去除停用字；

e.连接所述候选关键字中的剩余字以产生搜索字符串；

f.使用连接的关键字作为搜索字符串，以改进光学字符识别的性能。

7.如权利要求6所述的方法，其中，所述停用字选自由比如“一”、“该”、“用于”、“或”、“的”构成的组。

8.如权利要求1所述的方法，其中，来自分割的文本图像的所述关键字用作搜索请求，以搜索、获取并显示与嵌入在视频流中的文本相关的附加信息。

9.如权利要求1所述的方法，其中，预处理后的包括文本的视频区域还用于在包括相关信息的因特网或简易信息聚合源中搜索与所述文本相关的附加信息。

10.如权利要求9所述的方法，其中，搜索到的与所述预处理后的包括文本的视频区域相关的附加信息显示在用户界面上。

11.如权利要求10所述的方法，其中，搜索到并显示的与所述预处理后的包括文本的视频区域相关的附加信息被存储在可扩展标记语言文件中。

12.如权利要求8所述的方法，其中，处理后的、搜索到的、获取的并显示的与包括文本的视频区域相关的附加信息与看电视时的新闻有关。

13.如权利要求12所述的方法，其中，所述新闻选自包括突发新闻和跑马灯新闻的组。

14.一种用于预处理包括文本的视频区域以改进光学字符识别输入的系统，其中，所述系统包括：

a.至少一个图像处理装置，所述图像处理装置能够定位文本图像、将定位到的文本图像提高至更高分辨率、之后二值化、分割二值化的文本图像的至少两个粘连字符、以及将来自分割的文本图像的关键字确定为用于光学字符识别的改进的输入；以及

c.以通信方式相互连接的至少一个数字存储装置和存储元件，用于存储预处理后的包括文本的视频区域。

15.如权利要求14所述的系统，其中，利用所述图像处理装置，通过自适应阈值转换法来二值化提高的高分辨率文本图像以分离文本图像的前景和背景。

16.如权利要求14所述的系统，其中，来自分割的文本图像的关键字用作搜索请求，以搜索、获取并显示与嵌入在视频流中的文本相关的附加信息。

17.如权利要求14所述的系统，其中，预处理后的包括文本的视频区域还用于在包括相关信息的因特网或简易信息聚合源中搜索与所述文本相关的附加信息。

18.如权利要求17所述的系统，其中，搜索到的与所述预处理后的包括文本的视频区域相关的附加信息显示在用户界面上。

19.如权利要求18所述的系统，其中，搜索到并显示的与所述预处理后的包括文本的视频区域相关的附加信息以可扩展标记语言文件的形式存储在数字存储装置中。