CN101057247A

CN101057247A - 检测及修改图像中的文字

Info

Publication number: CN101057247A
Application number: CNA2005800389521A
Authority: CN
Inventors: A·埃金; R·贾辛施
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-11-15
Filing date: 2005-11-08
Publication date: 2007-10-17
Also published as: WO2006051482A1; US20080095442A1; JP2008520152A

Abstract

本发明的方法包括两个适配图像的步骤：识别该图像中的文字以及修改所述文字的印刷外表。本发明的电子设备适于执行本发明的方法。本发明还涉及用于使得编程设备适于执行本发明的方法的控制软件以及用在本发明的设备中的电子电路。

Description

检测及修改图像中的文字

本发明涉及一种图像适配方法。

本发明还涉及用于使得可编程设备适于执行所述方法的控制软件。

本发明还涉及一种包括适于对图像进行适配的电子电路的电子设备。

本发明还涉及用在所述设备中的电子电路。

所述方法的一个例子可以从US 2003/0021586获知。该已知方法对于光学或其他记录/再现设备和电视的组合系统控制隐藏屏幕文字(closed caption)和字幕(subtitle)的显示。该已知方法确保都作为ASCII格式的文本存在的所显示的隐藏屏幕文字和字幕不发生重叠。该已知方法的缺陷在于，如果所述字幕形成图像的一个整体部分，则该方法不能被用来控制隐藏屏幕文字和字幕的显示。

本发明的第一个目的是提供一种在开头段落中描述的那类方法，该方法可以被用来控制形成图像的整体部分的文字的显示。

本发明的第二个目的是提供一种在开头段落中描述的那类电子设备，该电子设备可以被用来控制形成图像的整体部分的文字的显示。

根据本发明，实现第一目的是在于，所述方法包括以下步骤：识别图像中的文字，其中所述文字具有印刷外表(typographical aspect)；以及修改所述文字的所述印刷外表。模拟视频素材(例如模拟视频广播或模拟录像带)常常包含重叠的屏幕文字和/或字幕。本发明的方法使得有可能定制显示器上的重叠文字的外观。

在本发明的方法的一个实施例中，所述印刷外表包括字体尺寸。所述印刷外表例如可以附加地或者替换地包括字体类型和/或字体颜色。增大字体尺寸使得有阅读困难和/或使用带有小显示器的设备(例如移动电话)的人们能够更容易地阅读所述文字。

识别图像中的文字的步骤可以包括：通过确定多条图像线当中的哪些图像线包括最大数量的水平边缘来检测水平文字线边界。这样做改进了所述识别步骤的文字检测性能。通过首先检测水平文字线边界，在所述文字检测算法的下一步骤中必须被处理的区域可以相对较小。本发明的检测水平文字线边界以便减小必须被处理的区域的思想以及该思想的实施例可以在无需修改所述文字的印刷外表的情况下被使用，例如当其被使用在多媒体索引和取回应用中的时候。

识别图像中的文字的步骤可以进一步包括：确定一组仅仅出现在所述各水平文字线边界之间的像素值，并且如果像素具有来自该组像素值当中的值则把所述像素识别为文字像素。与某些其他的文字检测算法不同，该文字检测算法使得有可能检测反转的文字以及正常文字。

识别图像中的文字的步骤可以进一步包括：通过对于所识别出的文字像素执行形态闭合运算来确定单词边界，并且如果另外的像素位于所述单词边界内则把所述另外的像素识别为文字像素。这样做确保可以正确地识别视频图像中的大量文字像素。

修改文字的印刷外表的步骤可以包括：处理形成所述文字的文字像素，并且把经过处理的像素重叠在所述图像上。这对于适配由像素构成的图像而言是很有用的。

本发明的方法可以进一步包括利用替换像素来替换至少其中一个文字像素的步骤，该替换像素的值是基于一个非文字像素的值，所述非文字像素即不形成所述文字的像素。如果经过重新格式化的文字与原始文字不完全重叠，那么去除原始文字就可能是必要的。通过使用替换像素，减少了可见伪像的数量，其中所述替换像素是基于非文字像素的值。本发明的去除文字的方式导致较低数量的伪像，并且在任何去除文字的应用中都是有用的。如果用户由于可以理解所说的语言而只想去除字幕，那么就没有必要修改所述字幕的印刷外表。

所述替换像素的值可以基于在所述至少一个文字像素的邻域内的各非文字像素的中值颜色。在测试中，通过这种做法所产生的替换像素比起利用其他算法所确定的替换像素来说不那么引人注意。

本发明的方法可以进一步包括利用另一个替换像素来替换所述替换像素的邻域内的另一个文字像素的步骤，该另一个替换像素的值至少部分地基于所述替换像素。如果文字像素在其邻域内具有少于预定数量的非文字像素，那么简单地增大邻域尺寸并不恰当，这是因为如果使用了较远的背景像素的话，那么所估计的颜色可能不准确，并且所述邻域尺寸越大，所需要的计算量就越大。如果所述另一个替换像素的值至少部分地基于所述替换像素，尤其是如果所述另一个替换像素的值是基于所述另一个替换像素的邻域内的多个替换像素的话，那么相对较小的邻域尺寸就足以实现可见伪像的良好减少。

修改文字的印刷外表的步骤可以包括：在后续图像中滚动所述文字。如果经过放大的字幕或屏幕文字必须全部被容纳在视频图像中，那么对所述字幕或屏幕文字的放大就被限制到某一最大值。该最大值对于某些人来说可能是不足够的。通过在后续视频图像中滚动经过重新格式化的文字像素，所述文字的尺寸可以被进一步放大。

本发明的方法可以进一步包括使得用户能够定义所述文字将被滚动的速率的步骤。这样做允许用户调节所述速率以配合他的阅读速度。

根据本发明，实现第二个目的是在于，所述电子电路在功能上包括：用于识别图像中的文字的识别器，所述文字具有印刷外表；以及用于修改所述文字的印刷外表的修改器。所述电子设备例如可以是PC、电视、机顶盒、视频记录器、视频播放器或者移动电话。

参照附图，本发明的这些和其他方面将变得显而易见，并且将以举例的方式进一步进行阐述，附图中：

图1是本发明的方法的流程图；

图2是本发明的电子设备的方框图；

图3示出了视频图像的一个例子，其中字幕已经被放大；

图4示出了视频图像的一个例子，其中字幕已经被转换成移动文字；

图5示出了被用在所述方法的一个实施例的文字检测步骤中的一个等式和两个掩模；

图6示出了在视频图像中检测到的文字的一个例子；

图7示出了所述方法的一个实施例中的识别感兴趣的区域内的文字的步骤；

图8示出了对于图7的例子计算的水平边缘投影；以及

图9示出了视频图像的一个例子，其中已经从该视频图像中去除了所识别出的文字像素。

在附图中，相应的元件由相同的附图标记表示。

参见图1，本发明的方法包括：识别图像中的文字的步骤1，其中所述文字具有印刷外表；以及修改所述文字的所述印刷外表的步骤3。存在许多对所述文字进行重新格式化的可能性，其中包括改变颜色、字体尺寸、位置等等。图3示出了一个例子，其中改变了文字的尺寸，并且因而改变了文字的位置。这在小显示器屏幕(例如移动电话显示器)上是特别有利的。图3的左半部分示出了带有字幕的原始图像的经过重新缩放的版本(在水平和垂直方向上的子采样因子都是4)。在该经过重新缩放的图像中的字幕的字符尺寸变小很多，有些用户阅读起来可能会很困难。图3的右半部分中的图像是带有大尺寸字幕的相同图像。有利地，例如电视、视频记录器、掌上电脑或者移动电话的消费者电子设备可以执行本发明的方法。或者，一个发送电子设备执行所述方法的一部分，并且一个接收(消费者)电子设备执行所述方法的另一部分。在这种情况下，在由所述发送电子设备执行的所述方法中，修改所述文字的所述印刷外表的步骤3可以由以下步骤替换：把带有修改过的印刷外表的文字发送到一个电子设备，该电子设备能够把带有所述修改过的印刷外表的所述文字重叠在所述图像上。

修改所述文字的所述印刷外表的步骤3可以包括：在后续图像中滚动所述文字。在图4中，通过把静态文字转换成移动文字，使得在经过子采样的图像中的文字尺寸甚至大于原始图像中的字幕文字尺寸。如图4中的4幅图像所表明的那样，原来是静态的字幕文字被变换成具有一种或多种不同颜色的更大的移动文字。所述方法可以进一步包括允许用户定义所述文字将被滚动的速率的步骤。这使得用户有可能在特定时间段内放慢所述滚动文字的速度。由于所述滚动文字的速度的降低导致相对于实时的延迟，因此，滞后于实时文字断续器(ticker)的文字数据必须被存储在一个先进先出(FIFO)存储器中。该FIFO存储器将具有有限的尺寸；因此，所述放慢操作的持续时间将受到限制，除非用户同意丢失一些文字断续器信息以便赶上实时断续器。FIFO存储器可以被用来存储滞后文字数据，并且可以使用多种算法来利用参数计算用光整个FIFO存储器的时间段，所述参数例如是移动文字的字体尺寸、新速度与原始文字速度的大小的比值以及存储器尺寸。可以关于此类限制对用户进行提示或者向用户请求反馈。

由于对自动视频索引工具的需求越来越多，因此视频中的重叠文字检测近来变得越来越流行。全部的现有文字检测算法都以一种方式或另一种方式利用重叠文字区域的高对比度属性。在一种有利的文字检测算法中，首先计算将在其中检测文字的帧的水平和垂直导数，以便增强高对比度区域。在图像和视频处理文献中公知的是，简单的掩模(比如图5的掩模61和63)对图像的导数进行近似。在对于每个颜色通道(或者是强度和色度通道，这取决于所选择的颜色空间)计算了所述导数之后，通过图5的等式65计算边缘指向特征，其中Dⁱ _x(x，y)和Dⁱ _y(x，y)是在像素位置(x，y)处的第i个颜色通道的水平和垂直导数，并且C表示所选颜色空间的所有通道的集合。所述边缘指向特征首先由Rainer Lienhart和Axel Wernicke的“Localizing and Segmenting Textin Images，Video and Web Pages(对图像、视频和web页面中的文字进行定位和分割)”(IEEE Transactions on Circuits and Systems for VideoTechnology，Vol.12，No.4，pp.256-268，2002年4月)提出。

可以使用一个统计学习工具来找到最佳的文字/非文字分类器。支持矢量机(SVM)导致二元分类器，并且具有良好的推广能力。利用1000个文字块以及最多3000个非文字块(为之计算边缘指向特征)训练的基于SVM的分类器在实验中提供了良好的结果。由于很难找到代表性的难于分类的非文字实例，因此可以遵循流行的自举(bootstrapping)方法，所述自举方法由K.K.Sung和T.Poggio在“Example-based learning for view-based human face detection(对于基于视图的人面部检测的基于实例的学习)”(IEEE Trans.PatternAnalysis and Machine Intelligence，vol.20，no.1，pp.39-51，1998年1月)引入。基于自举的训练在几次迭代中完成，并且在每次迭代中，在一些不包含文字的图像上测试所得到的分类器。关于该数据集的假警报表示当前的分类器无法正确分类的很难的非文字实例。这些非文字样本被添加到所述训练集；因此，非文字训练数据集增大，并且利用该扩大的数据集重新训练所述分类器。当对分类器进行训练时，需要做出决定的一个重要的问题是被馈送到所述分类器的图像块的尺寸，这是因为所述块的高度决定最小可检测字体尺寸，而所述块的宽度则决定最小可检测文字宽度。用于训练所述SVM分类器的12×12块提供良好的结果，这是因为在具有400像素的高度的典型的帧中，很少能找到小于12的字体尺寸。通过在多个分辨率上运行具有12×12的窗口尺寸的所述分类器而实现字体尺寸独立性，并且通过在水平和垂直方向上移动所述窗口以在整个图像上评估所述分类器而实现位置独立性。所描述的文字检测算法导致如图6所示的基于块的文字区域。所检测到的文字结果被显示为绿色块，并且是从2×2(水平子采样率×垂直子采样率)的子采样的视频获得的；因此，它们对应于原始帧中的24×24的块(对应于子采样的帧的12×12的块尺寸)。

识别图像中的文字的步骤1可以包括：通过确定多条图像线当中的哪些图像线包括最大数量的水平边缘来检测水平文字线边界。获得像素精确的文字掩模的一种方式是通过特别地定位文字线和单词边界(主要是为了能够在多条线中显示文字并且为更精确地提取所述文字掩模)以及提取所述二元文字掩模。在已经组合了同一条线以及相邻各行中的文字区域以便产生将被处理的单一联合区域之后，可以执行形态分析。图7的ROI 71示出了通过逐列和逐行合并程序从图6中提取的感兴趣区域(ROI)。首先，在该ROI中执行边缘检测，以便找出高频像素，预期这些高频像素当中的大多数是文字。ROI 73示出了白色的边缘，所述边缘由本领域中已知的Prewitt检测器检测到。由于所述ROI主要是由文字占主导地位，因此预期文字线的顶部将表明边缘数量的增加，而文字线的底部将显示出边缘数量的相应的降低。沿着水平和/或垂直方向的投影是用来容易地确定所述位置的有效的描述符。与用在许多文字分割算法中的强度投影相对照，边缘投影对于文字的颜色变化较为鲁棒。图8中示出的水平边缘投影是通过找出沿着每条图像线的边缘像素的平均数量而计算的，这在图7的ROI 73中示出。图7的ROI 71中的两条文字线导致所述投影中的两个可以容易地提取的边缘区域。图7的ROI 75示出了用自动计算的红线和绿线标记的两条所提取的线。每条文字线的4线语义遵循拉丁文字的属性。最上面的线表示文字线的顶部；然而，在更加详细的层级上，最上面的线对应于向上伸长的字符(比如“t”和“k”)的顶端。从上面数的第二条线表示非伸长字符(比如“a”和“e”)的顶端。类似地，下面的两条线表示非伸长字符的底部以及向下伸长的字符(比如“p”和“y”)的末端或者标点符号(比如“，”)。

识别图像中的文字的步骤1可以进一步包括：确定一组仅仅出现在所述各水平文字线边界之间的像素值，并且如果像素具有来自该组像素值当中的值则把所述像素识别为文字像素。在检测出各条文字线以后，自动计算一个阈值T_binarization，以便找出所述二元的并且逐像素地更为精确的文字掩模。该参数T_binarization被设置成使得没有如图7的ROI 75所示的所检测出的文字线之外的像素被指定为文字像素(例如白色)。所得到的文字像素在图7的ROI 77中示出。

识别图像中的文字的步骤1可以进一步包括：通过对于所识别出的文字像素执行形态闭合运算来确定单词边界，并且如果另外的像素位于所述单词边界内则把所述另外的像素识别为文字像素。对所得到的文字掩模应用形态闭合运算(其结果在图7的ROI 79中示出)以及连接组成部分标记算法，以便对各个单词进行分割。所述闭合运算联合单词中的单独的字符，而连接组成部分标记算法则提取连接的区域(在本例中是单词)。

修改文字的印刷外表的步骤1可以包括：处理形成所述文字的文字像素，并且把经过处理的像素重叠在所述图像上。在把所述经过处理的像素重叠在所述图像上之后或之前，可以执行利用替换像素来替换至少其中一个文字像素的步骤9，该替换像素的值是基于一个非文字像素的值。所述替换像素的值可以基于在所述至少一个文字像素的邻域内的各非文字像素的中值颜色。如图7的ROI 79所示出的放大的文字掩模可以被用来去除文字。图7的ROI 79中所示出的该放大的文字掩模是在对于图7的ROI 77中的原始文字掩模应用了所述形态闭合运算之后获得的。使用放大的掩模的主要原因在于，原始掩模可能比实际的文字线更细，因此在从图像中去除原始文字时，可能导致所述图像中的视觉上令人不舒服的文字片段。为了填充文字区域，在所述像素的足够大的邻域(例如对于720×576的图像是23×23的窗口)中使用各非文字像素的中值颜色。

本发明的方法可以进一步包括利用另一个替换像素来替换所述替换像素的邻域内的另一个文字像素的步骤，该另一个替换像素的值至少部分地基于所述替换像素。如果所述文字像素离所述文字掩模的边界较远，那么即使是较大的窗口可能也不具有足够的非文字像素来近似将被用于填充在所述文字像素中的颜色。此外，对于这些像素使用大窗口是不适当的，这是因为：1)它们远离背景，因此如果使用远距离的背景像素，那么所估计的颜色可能不精确；以及2)窗口尺寸越大，所需要的计算量就越大。在这些情况下，在当前文字像素的较小的(例如3×3)邻域内的这些像素的中值颜色被指定为该当前文字像素的颜色。根据处理方向来定义该邻域，从而该邻域内的所有文字像素都已经被指定了颜色。应当注意到，该小窗口中的所有像素的颜色值都被使用，而不管它们原来是文字像素还是非文字像素。在图9中示出了该文字检测算法的结果。

参见图2，本发明的电子设备21包括电子电路23。该电子电路23在功能上包括：用于识别图像中的文字的识别器25，所述文字具有印刷外表；以及用于修改所述文字的印刷外表的修改器27。该电子设备21例如可以是PC、电视、机顶盒、视频记录器、视频播放器或者移动电话。该电子电路23例如可以是Philips Trimedia媒体处理器、PhilipsNexperia音频视频输入处理器、以及AMD Athlon CPU或者IntelPentium CPU。有利地，所述识别器25和修改器27是一个计算机程序的功能组件。该电子设备21可以进一步包括输入端31，其例如是SCART、复合、SVHS或组件插座或者TV调谐器。该电子设备21可以进一步包括输出端33，其例如是SCART、复合、SVHS或组件插座或者无线发送器。该电子设备21可以包括与所述电子电路23相耦合的显示器(未示出)。该电子设备21还可以包括存储装置35。存储装置35例如可以被用来存储未经处理的视频图像和/或用于存储经过处理的视频图像。该电子设备21可以包括光学字符辨识(OCR)单元和文本到语音转换(TTS)单元。OCR的使用对于TTS的操作来说是必要的，这是因为到TTS的输入是单词和句子形式的ASCII文本。所述OCR和TTS单元的一种应用是：阅读能力较差的用户可以选择以他自己的母语收听自动产生的语音片段，而不是阅读字幕。为了防止来自原始音频的干扰，在这些情况下优选地关断原始音频。此外，通过OCR引擎辨识字符还允许对视频内容进行自动索引，这使得许多应用成为可能。该电子设备21还可以通过两个电子设备来实现。在第一电子设备中，其电子电路在功能上包括：用于识别图像中的文字的识别器，所述文字具有印刷外表；以及发送器，其用于把具有经过修改的印刷外表的文字和标识所述图像的标识发送到一个电子设备，该电子设备能够把具有经过修改的印刷外表的所述文字重叠在所述图像上。在第二电子设备中，其电子电路在功能上包括：接收器，其用于接收具有经过修改的印刷外表的文字和标识图像的标识；以及重叠器，其用于把具有经过修改的印刷外表的所述文字重叠在所述图像上。例如，所述两个电子设备都可以是相同的家用网络的一部分，或者第一电子设备可以远程地位于服务提供商的位置处，而第二电子设备则位于家用网络中。

虽然结合有利实施例描述了本发明，但是应当理解，本领域技术人员可以明显看出在上面概述的原理内对所述有利实施例的修改，因此本发明不限于所述有利实施例，而是意图包含这种修改。本发明在于每一种新颖特征以及每一种特征组合。权利要求中的附图标记不限制其保护范围。“包括”一词及其动词变化不排除在权利要求中列出的元件之外的其他元件的存在。元件前面的“一个”不排除多个这种元件的存在。

本发明可以通过包括几个不同元件的硬件来实现，并且可以通过适当编程的设备来实现。“控制软件”应当被理解成意味着存储在计算机可读介质(比如软盘)上的、可以经由网络(比如因特网)下载的或者可以以任何方式买到的任何软件产品。

Claims

1、一种适配图像的方法，该方法包括以下步骤：

-识别(1)该图像中的文字，其中所述文字具有印刷外表；以及

-修改(3)所述文字的所述印刷外表。

2、如权利要求1所述的方法，其特征在于，所述印刷外表包括字体尺寸。

3、如权利要求1所述的方法，其特征在于，识别所述图像中的文字的步骤(1)包括：通过确定多条图像线当中的哪些图像线包括最大数量的水平边缘来检测水平文字线边界。

4、如权利要求3所述的方法，其特征在于，识别所述图像中的文字的步骤(1)进一步包括：确定一组仅仅出现在所述各水平文字线边界之间的像素值，并且如果像素具有来自该组像素值当中的值则把所述像素识别为文字像素。

5、如权利要求4所述的方法，其特征在于，识别所述图像中的文字的步骤(1)进一步包括：通过对于所识别出的文字像素执行形态闭合运算来确定单词边界，并且如果另外的像素位于所述单词边界内则把所述另外的像素识别为文字像素。

6、如权利要求1所述的方法，其特征在于，修改所述文字的所述印刷外表的步骤包括：处理(5)形成所述文字的文字像素，并且把经过处理的像素重叠(7)在所述图像上。

7、如权利要求6所述的方法，进一步包括利用替换像素来替换(9)至少其中一个所述文字像素的步骤，该替换像素的值是基于非文字像素的值。

8、如权利要求7所述的方法，其特征在于，所述替换像素的值是基于在所述至少一个文字像素的邻域内的各非文字像素的中值颜色。

9、如权利要求7所述的方法，进一步包括利用另一个替换像素来替换所述替换像素的邻域内的另一个文字像素的步骤，该另一个替换像素的值至少部分地基于所述替换像素。

10、如权利要求1所述的方法，其特征在于，修改(3)所述文字的所述印刷外表的步骤包括：滚动后续图像中的所述文字。

11、如权利要求10所述的方法，进一步包括允许用户定义所述文字将被滚动的速率的步骤。

12、一种允许适配图像的方法，该方法包括以下步骤：

-识别(1)该图像中的文字，其中所述文字具有印刷外表；以及

-把带有修改过的印刷外表的所述文字发送到电子设备，该电子设备能够把带有所述修改过的印刷外表的所述文字重叠在所述图像上。

13、用于使得可编程设备适于执行权利要求1的方法的控制软件。

14、一种包括电子电路(23)的电子设备(21)，该电子电路(23)在功能上包括：

-用于识别该图像中的文字的识别器(25)，其中所述文字具有印刷外表；以及

-用于修改所述文字的所述印刷外表的修改器(27)。

15、一种包括电子电路的电子设备，该电子电路在功能上包括：

-接收器，其用于接收具有修改过的印刷外表的文字和标识图像的标识；以及

-重叠器，其用于把具有所述修改过的印刷外表的所述文字重叠在所述图像上。

16、一种包括电子电路的电子设备，该电子电路在功能上包括：

-用于识别图像中的文字的识别器，其中所述文字具有印刷外表；以及

-发送器，其用于把具有修改过的印刷外表的所述文字和标识所述图像的标识发送到电子设备，该电子设备能够把具有所述修改过的印刷外表的所述文字重叠在所述图像上。

17、用在权利要求14、15或16的电子设备中的电子电路。