CN101057247A - 检测及修改图像中的文字 - Google Patents

检测及修改图像中的文字 Download PDF

Info

Publication number
CN101057247A
CN101057247A CNA2005800389521A CN200580038952A CN101057247A CN 101057247 A CN101057247 A CN 101057247A CN A2005800389521 A CNA2005800389521 A CN A2005800389521A CN 200580038952 A CN200580038952 A CN 200580038952A CN 101057247 A CN101057247 A CN 101057247A
Authority
CN
China
Prior art keywords
literal
pixel
image
text
typographical aspect
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005800389521A
Other languages
English (en)
Inventor
A·埃金
R·贾辛施
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN101057247A publication Critical patent/CN101057247A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Studio Circuits (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明的方法包括两个适配图像的步骤:识别该图像中的文字以及修改所述文字的印刷外表。本发明的电子设备适于执行本发明的方法。本发明还涉及用于使得编程设备适于执行本发明的方法的控制软件以及用在本发明的设备中的电子电路。

Description

检测及修改图像中的文字
本发明涉及一种图像适配方法。
本发明还涉及用于使得可编程设备适于执行所述方法的控制软件。
本发明还涉及一种包括适于对图像进行适配的电子电路的电子设备。
本发明还涉及用在所述设备中的电子电路。
所述方法的一个例子可以从US 2003/0021586获知。该已知方法对于光学或其他记录/再现设备和电视的组合系统控制隐藏屏幕文字(closed caption)和字幕(subtitle)的显示。该已知方法确保都作为ASCII格式的文本存在的所显示的隐藏屏幕文字和字幕不发生重叠。该已知方法的缺陷在于,如果所述字幕形成图像的一个整体部分,则该方法不能被用来控制隐藏屏幕文字和字幕的显示。
本发明的第一个目的是提供一种在开头段落中描述的那类方法,该方法可以被用来控制形成图像的整体部分的文字的显示。
本发明的第二个目的是提供一种在开头段落中描述的那类电子设备,该电子设备可以被用来控制形成图像的整体部分的文字的显示。
根据本发明,实现第一目的是在于,所述方法包括以下步骤:识别图像中的文字,其中所述文字具有印刷外表(typographical aspect);以及修改所述文字的所述印刷外表。模拟视频素材(例如模拟视频广播或模拟录像带)常常包含重叠的屏幕文字和/或字幕。本发明的方法使得有可能定制显示器上的重叠文字的外观。
在本发明的方法的一个实施例中,所述印刷外表包括字体尺寸。所述印刷外表例如可以附加地或者替换地包括字体类型和/或字体颜色。增大字体尺寸使得有阅读困难和/或使用带有小显示器的设备(例如移动电话)的人们能够更容易地阅读所述文字。
识别图像中的文字的步骤可以包括:通过确定多条图像线当中的哪些图像线包括最大数量的水平边缘来检测水平文字线边界。这样做改进了所述识别步骤的文字检测性能。通过首先检测水平文字线边界,在所述文字检测算法的下一步骤中必须被处理的区域可以相对较小。本发明的检测水平文字线边界以便减小必须被处理的区域的思想以及该思想的实施例可以在无需修改所述文字的印刷外表的情况下被使用,例如当其被使用在多媒体索引和取回应用中的时候。
识别图像中的文字的步骤可以进一步包括:确定一组仅仅出现在所述各水平文字线边界之间的像素值,并且如果像素具有来自该组像素值当中的值则把所述像素识别为文字像素。与某些其他的文字检测算法不同,该文字检测算法使得有可能检测反转的文字以及正常文字。
识别图像中的文字的步骤可以进一步包括:通过对于所识别出的文字像素执行形态闭合运算来确定单词边界,并且如果另外的像素位于所述单词边界内则把所述另外的像素识别为文字像素。这样做确保可以正确地识别视频图像中的大量文字像素。
修改文字的印刷外表的步骤可以包括:处理形成所述文字的文字像素,并且把经过处理的像素重叠在所述图像上。这对于适配由像素构成的图像而言是很有用的。
本发明的方法可以进一步包括利用替换像素来替换至少其中一个文字像素的步骤,该替换像素的值是基于一个非文字像素的值,所述非文字像素即不形成所述文字的像素。如果经过重新格式化的文字与原始文字不完全重叠,那么去除原始文字就可能是必要的。通过使用替换像素,减少了可见伪像的数量,其中所述替换像素是基于非文字像素的值。本发明的去除文字的方式导致较低数量的伪像,并且在任何去除文字的应用中都是有用的。如果用户由于可以理解所说的语言而只想去除字幕,那么就没有必要修改所述字幕的印刷外表。
所述替换像素的值可以基于在所述至少一个文字像素的邻域内的各非文字像素的中值颜色。在测试中,通过这种做法所产生的替换像素比起利用其他算法所确定的替换像素来说不那么引人注意。
本发明的方法可以进一步包括利用另一个替换像素来替换所述替换像素的邻域内的另一个文字像素的步骤,该另一个替换像素的值至少部分地基于所述替换像素。如果文字像素在其邻域内具有少于预定数量的非文字像素,那么简单地增大邻域尺寸并不恰当,这是因为如果使用了较远的背景像素的话,那么所估计的颜色可能不准确,并且所述邻域尺寸越大,所需要的计算量就越大。如果所述另一个替换像素的值至少部分地基于所述替换像素,尤其是如果所述另一个替换像素的值是基于所述另一个替换像素的邻域内的多个替换像素的话,那么相对较小的邻域尺寸就足以实现可见伪像的良好减少。
修改文字的印刷外表的步骤可以包括:在后续图像中滚动所述文字。如果经过放大的字幕或屏幕文字必须全部被容纳在视频图像中,那么对所述字幕或屏幕文字的放大就被限制到某一最大值。该最大值对于某些人来说可能是不足够的。通过在后续视频图像中滚动经过重新格式化的文字像素,所述文字的尺寸可以被进一步放大。
本发明的方法可以进一步包括使得用户能够定义所述文字将被滚动的速率的步骤。这样做允许用户调节所述速率以配合他的阅读速度。
根据本发明,实现第二个目的是在于,所述电子电路在功能上包括:用于识别图像中的文字的识别器,所述文字具有印刷外表;以及用于修改所述文字的印刷外表的修改器。所述电子设备例如可以是PC、电视、机顶盒、视频记录器、视频播放器或者移动电话。
参照附图,本发明的这些和其他方面将变得显而易见,并且将以举例的方式进一步进行阐述,附图中:
图1是本发明的方法的流程图;
图2是本发明的电子设备的方框图;
图3示出了视频图像的一个例子,其中字幕已经被放大;
图4示出了视频图像的一个例子,其中字幕已经被转换成移动文字;
图5示出了被用在所述方法的一个实施例的文字检测步骤中的一个等式和两个掩模;
图6示出了在视频图像中检测到的文字的一个例子;
图7示出了所述方法的一个实施例中的识别感兴趣的区域内的文字的步骤;
图8示出了对于图7的例子计算的水平边缘投影;以及
图9示出了视频图像的一个例子,其中已经从该视频图像中去除了所识别出的文字像素。
在附图中,相应的元件由相同的附图标记表示。
参见图1,本发明的方法包括:识别图像中的文字的步骤1,其中所述文字具有印刷外表;以及修改所述文字的所述印刷外表的步骤3。存在许多对所述文字进行重新格式化的可能性,其中包括改变颜色、字体尺寸、位置等等。图3示出了一个例子,其中改变了文字的尺寸,并且因而改变了文字的位置。这在小显示器屏幕(例如移动电话显示器)上是特别有利的。图3的左半部分示出了带有字幕的原始图像的经过重新缩放的版本(在水平和垂直方向上的子采样因子都是4)。在该经过重新缩放的图像中的字幕的字符尺寸变小很多,有些用户阅读起来可能会很困难。图3的右半部分中的图像是带有大尺寸字幕的相同图像。有利地,例如电视、视频记录器、掌上电脑或者移动电话的消费者电子设备可以执行本发明的方法。或者,一个发送电子设备执行所述方法的一部分,并且一个接收(消费者)电子设备执行所述方法的另一部分。在这种情况下,在由所述发送电子设备执行的所述方法中,修改所述文字的所述印刷外表的步骤3可以由以下步骤替换:把带有修改过的印刷外表的文字发送到一个电子设备,该电子设备能够把带有所述修改过的印刷外表的所述文字重叠在所述图像上。
修改所述文字的所述印刷外表的步骤3可以包括:在后续图像中滚动所述文字。在图4中,通过把静态文字转换成移动文字,使得在经过子采样的图像中的文字尺寸甚至大于原始图像中的字幕文字尺寸。如图4中的4幅图像所表明的那样,原来是静态的字幕文字被变换成具有一种或多种不同颜色的更大的移动文字。所述方法可以进一步包括允许用户定义所述文字将被滚动的速率的步骤。这使得用户有可能在特定时间段内放慢所述滚动文字的速度。由于所述滚动文字的速度的降低导致相对于实时的延迟,因此,滞后于实时文字断续器(ticker)的文字数据必须被存储在一个先进先出(FIFO)存储器中。该FIFO存储器将具有有限的尺寸;因此,所述放慢操作的持续时间将受到限制,除非用户同意丢失一些文字断续器信息以便赶上实时断续器。FIFO存储器可以被用来存储滞后文字数据,并且可以使用多种算法来利用参数计算用光整个FIFO存储器的时间段,所述参数例如是移动文字的字体尺寸、新速度与原始文字速度的大小的比值以及存储器尺寸。可以关于此类限制对用户进行提示或者向用户请求反馈。
由于对自动视频索引工具的需求越来越多,因此视频中的重叠文字检测近来变得越来越流行。全部的现有文字检测算法都以一种方式或另一种方式利用重叠文字区域的高对比度属性。在一种有利的文字检测算法中,首先计算将在其中检测文字的帧的水平和垂直导数,以便增强高对比度区域。在图像和视频处理文献中公知的是,简单的掩模(比如图5的掩模61和63)对图像的导数进行近似。在对于每个颜色通道(或者是强度和色度通道,这取决于所选择的颜色空间)计算了所述导数之后,通过图5的等式65计算边缘指向特征,其中Di x(x,y)和Di y(x,y)是在像素位置(x,y)处的第i个颜色通道的水平和垂直导数,并且C表示所选颜色空间的所有通道的集合。所述边缘指向特征首先由Rainer Lienhart和Axel Wernicke的“Localizing and Segmenting Textin Images,Video and Web Pages(对图像、视频和web页面中的文字进行定位和分割)”(IEEE Transactions on Circuits and Systems for VideoTechnology,Vol.12,No.4,pp.256-268,2002年4月)提出。
可以使用一个统计学习工具来找到最佳的文字/非文字分类器。支持矢量机(SVM)导致二元分类器,并且具有良好的推广能力。利用1000个文字块以及最多3000个非文字块(为之计算边缘指向特征)训练的基于SVM的分类器在实验中提供了良好的结果。由于很难找到代表性的难于分类的非文字实例,因此可以遵循流行的自举(bootstrapping)方法,所述自举方法由K.K.Sung和T.Poggio在“Example-based learning for view-based human face detection(对于基于视图的人面部检测的基于实例的学习)”(IEEE Trans.PatternAnalysis and Machine Intelligence,vol.20,no.1,pp.39-51,1998年1月)引入。基于自举的训练在几次迭代中完成,并且在每次迭代中,在一些不包含文字的图像上测试所得到的分类器。关于该数据集的假警报表示当前的分类器无法正确分类的很难的非文字实例。这些非文字样本被添加到所述训练集;因此,非文字训练数据集增大,并且利用该扩大的数据集重新训练所述分类器。当对分类器进行训练时,需要做出决定的一个重要的问题是被馈送到所述分类器的图像块的尺寸,这是因为所述块的高度决定最小可检测字体尺寸,而所述块的宽度则决定最小可检测文字宽度。用于训练所述SVM分类器的12×12块提供良好的结果,这是因为在具有400像素的高度的典型的帧中,很少能找到小于12的字体尺寸。通过在多个分辨率上运行具有12×12的窗口尺寸的所述分类器而实现字体尺寸独立性,并且通过在水平和垂直方向上移动所述窗口以在整个图像上评估所述分类器而实现位置独立性。所描述的文字检测算法导致如图6所示的基于块的文字区域。所检测到的文字结果被显示为绿色块,并且是从2×2(水平子采样率×垂直子采样率)的子采样的视频获得的;因此,它们对应于原始帧中的24×24的块(对应于子采样的帧的12×12的块尺寸)。
识别图像中的文字的步骤1可以包括:通过确定多条图像线当中的哪些图像线包括最大数量的水平边缘来检测水平文字线边界。获得像素精确的文字掩模的一种方式是通过特别地定位文字线和单词边界(主要是为了能够在多条线中显示文字并且为更精确地提取所述文字掩模)以及提取所述二元文字掩模。在已经组合了同一条线以及相邻各行中的文字区域以便产生将被处理的单一联合区域之后,可以执行形态分析。图7的ROI 71示出了通过逐列和逐行合并程序从图6中提取的感兴趣区域(ROI)。首先,在该ROI中执行边缘检测,以便找出高频像素,预期这些高频像素当中的大多数是文字。ROI 73示出了白色的边缘,所述边缘由本领域中已知的Prewitt检测器检测到。由于所述ROI主要是由文字占主导地位,因此预期文字线的顶部将表明边缘数量的增加,而文字线的底部将显示出边缘数量的相应的降低。沿着水平和/或垂直方向的投影是用来容易地确定所述位置的有效的描述符。与用在许多文字分割算法中的强度投影相对照,边缘投影对于文字的颜色变化较为鲁棒。图8中示出的水平边缘投影是通过找出沿着每条图像线的边缘像素的平均数量而计算的,这在图7的ROI 73中示出。图7的ROI 71中的两条文字线导致所述投影中的两个可以容易地提取的边缘区域。图7的ROI 75示出了用自动计算的红线和绿线标记的两条所提取的线。每条文字线的4线语义遵循拉丁文字的属性。最上面的线表示文字线的顶部;然而,在更加详细的层级上,最上面的线对应于向上伸长的字符(比如“t”和“k”)的顶端。从上面数的第二条线表示非伸长字符(比如“a”和“e”)的顶端。类似地,下面的两条线表示非伸长字符的底部以及向下伸长的字符(比如“p”和“y”)的末端或者标点符号(比如“,”)。
识别图像中的文字的步骤1可以进一步包括:确定一组仅仅出现在所述各水平文字线边界之间的像素值,并且如果像素具有来自该组像素值当中的值则把所述像素识别为文字像素。在检测出各条文字线以后,自动计算一个阈值Tbinarization,以便找出所述二元的并且逐像素地更为精确的文字掩模。该参数Tbinarization被设置成使得没有如图7的ROI 75所示的所检测出的文字线之外的像素被指定为文字像素(例如白色)。所得到的文字像素在图7的ROI 77中示出。
识别图像中的文字的步骤1可以进一步包括:通过对于所识别出的文字像素执行形态闭合运算来确定单词边界,并且如果另外的像素位于所述单词边界内则把所述另外的像素识别为文字像素。对所得到的文字掩模应用形态闭合运算(其结果在图7的ROI 79中示出)以及连接组成部分标记算法,以便对各个单词进行分割。所述闭合运算联合单词中的单独的字符,而连接组成部分标记算法则提取连接的区域(在本例中是单词)。
修改文字的印刷外表的步骤1可以包括:处理形成所述文字的文字像素,并且把经过处理的像素重叠在所述图像上。在把所述经过处理的像素重叠在所述图像上之后或之前,可以执行利用替换像素来替换至少其中一个文字像素的步骤9,该替换像素的值是基于一个非文字像素的值。所述替换像素的值可以基于在所述至少一个文字像素的邻域内的各非文字像素的中值颜色。如图7的ROI 79所示出的放大的文字掩模可以被用来去除文字。图7的ROI 79中所示出的该放大的文字掩模是在对于图7的ROI 77中的原始文字掩模应用了所述形态闭合运算之后获得的。使用放大的掩模的主要原因在于,原始掩模可能比实际的文字线更细,因此在从图像中去除原始文字时,可能导致所述图像中的视觉上令人不舒服的文字片段。为了填充文字区域,在所述像素的足够大的邻域(例如对于720×576的图像是23×23的窗口)中使用各非文字像素的中值颜色。
本发明的方法可以进一步包括利用另一个替换像素来替换所述替换像素的邻域内的另一个文字像素的步骤,该另一个替换像素的值至少部分地基于所述替换像素。如果所述文字像素离所述文字掩模的边界较远,那么即使是较大的窗口可能也不具有足够的非文字像素来近似将被用于填充在所述文字像素中的颜色。此外,对于这些像素使用大窗口是不适当的,这是因为:1)它们远离背景,因此如果使用远距离的背景像素,那么所估计的颜色可能不精确;以及2)窗口尺寸越大,所需要的计算量就越大。在这些情况下,在当前文字像素的较小的(例如3×3)邻域内的这些像素的中值颜色被指定为该当前文字像素的颜色。根据处理方向来定义该邻域,从而该邻域内的所有文字像素都已经被指定了颜色。应当注意到,该小窗口中的所有像素的颜色值都被使用,而不管它们原来是文字像素还是非文字像素。在图9中示出了该文字检测算法的结果。
参见图2,本发明的电子设备21包括电子电路23。该电子电路23在功能上包括:用于识别图像中的文字的识别器25,所述文字具有印刷外表;以及用于修改所述文字的印刷外表的修改器27。该电子设备21例如可以是PC、电视、机顶盒、视频记录器、视频播放器或者移动电话。该电子电路23例如可以是Philips Trimedia媒体处理器、PhilipsNexperia音频视频输入处理器、以及AMD Athlon CPU或者IntelPentium CPU。有利地,所述识别器25和修改器27是一个计算机程序的功能组件。该电子设备21可以进一步包括输入端31,其例如是SCART、复合、SVHS或组件插座或者TV调谐器。该电子设备21可以进一步包括输出端33,其例如是SCART、复合、SVHS或组件插座或者无线发送器。该电子设备21可以包括与所述电子电路23相耦合的显示器(未示出)。该电子设备21还可以包括存储装置35。存储装置35例如可以被用来存储未经处理的视频图像和/或用于存储经过处理的视频图像。该电子设备21可以包括光学字符辨识(OCR)单元和文本到语音转换(TTS)单元。OCR的使用对于TTS的操作来说是必要的,这是因为到TTS的输入是单词和句子形式的ASCII文本。所述OCR和TTS单元的一种应用是:阅读能力较差的用户可以选择以他自己的母语收听自动产生的语音片段,而不是阅读字幕。为了防止来自原始音频的干扰,在这些情况下优选地关断原始音频。此外,通过OCR引擎辨识字符还允许对视频内容进行自动索引,这使得许多应用成为可能。该电子设备21还可以通过两个电子设备来实现。在第一电子设备中,其电子电路在功能上包括:用于识别图像中的文字的识别器,所述文字具有印刷外表;以及发送器,其用于把具有经过修改的印刷外表的文字和标识所述图像的标识发送到一个电子设备,该电子设备能够把具有经过修改的印刷外表的所述文字重叠在所述图像上。在第二电子设备中,其电子电路在功能上包括:接收器,其用于接收具有经过修改的印刷外表的文字和标识图像的标识;以及重叠器,其用于把具有经过修改的印刷外表的所述文字重叠在所述图像上。例如,所述两个电子设备都可以是相同的家用网络的一部分,或者第一电子设备可以远程地位于服务提供商的位置处,而第二电子设备则位于家用网络中。
虽然结合有利实施例描述了本发明,但是应当理解,本领域技术人员可以明显看出在上面概述的原理内对所述有利实施例的修改,因此本发明不限于所述有利实施例,而是意图包含这种修改。本发明在于每一种新颖特征以及每一种特征组合。权利要求中的附图标记不限制其保护范围。“包括”一词及其动词变化不排除在权利要求中列出的元件之外的其他元件的存在。元件前面的“一个”不排除多个这种元件的存在。
本发明可以通过包括几个不同元件的硬件来实现,并且可以通过适当编程的设备来实现。“控制软件”应当被理解成意味着存储在计算机可读介质(比如软盘)上的、可以经由网络(比如因特网)下载的或者可以以任何方式买到的任何软件产品。

Claims (17)

1、一种适配图像的方法,该方法包括以下步骤:
-识别(1)该图像中的文字,其中所述文字具有印刷外表;以及
-修改(3)所述文字的所述印刷外表。
2、如权利要求1所述的方法,其特征在于,所述印刷外表包括字体尺寸。
3、如权利要求1所述的方法,其特征在于,识别所述图像中的文字的步骤(1)包括:通过确定多条图像线当中的哪些图像线包括最大数量的水平边缘来检测水平文字线边界。
4、如权利要求3所述的方法,其特征在于,识别所述图像中的文字的步骤(1)进一步包括:确定一组仅仅出现在所述各水平文字线边界之间的像素值,并且如果像素具有来自该组像素值当中的值则把所述像素识别为文字像素。
5、如权利要求4所述的方法,其特征在于,识别所述图像中的文字的步骤(1)进一步包括:通过对于所识别出的文字像素执行形态闭合运算来确定单词边界,并且如果另外的像素位于所述单词边界内则把所述另外的像素识别为文字像素。
6、如权利要求1所述的方法,其特征在于,修改所述文字的所述印刷外表的步骤包括:处理(5)形成所述文字的文字像素,并且把经过处理的像素重叠(7)在所述图像上。
7、如权利要求6所述的方法,进一步包括利用替换像素来替换(9)至少其中一个所述文字像素的步骤,该替换像素的值是基于非文字像素的值。
8、如权利要求7所述的方法,其特征在于,所述替换像素的值是基于在所述至少一个文字像素的邻域内的各非文字像素的中值颜色。
9、如权利要求7所述的方法,进一步包括利用另一个替换像素来替换所述替换像素的邻域内的另一个文字像素的步骤,该另一个替换像素的值至少部分地基于所述替换像素。
10、如权利要求1所述的方法,其特征在于,修改(3)所述文字的所述印刷外表的步骤包括:滚动后续图像中的所述文字。
11、如权利要求10所述的方法,进一步包括允许用户定义所述文字将被滚动的速率的步骤。
12、一种允许适配图像的方法,该方法包括以下步骤:
-识别(1)该图像中的文字,其中所述文字具有印刷外表;以及
-把带有修改过的印刷外表的所述文字发送到电子设备,该电子设备能够把带有所述修改过的印刷外表的所述文字重叠在所述图像上。
13、用于使得可编程设备适于执行权利要求1的方法的控制软件。
14、一种包括电子电路(23)的电子设备(21),该电子电路(23)在功能上包括:
-用于识别该图像中的文字的识别器(25),其中所述文字具有印刷外表;以及
-用于修改所述文字的所述印刷外表的修改器(27)。
15、一种包括电子电路的电子设备,该电子电路在功能上包括:
-接收器,其用于接收具有修改过的印刷外表的文字和标识图像的标识;以及
-重叠器,其用于把具有所述修改过的印刷外表的所述文字重叠在所述图像上。
16、一种包括电子电路的电子设备,该电子电路在功能上包括:
-用于识别图像中的文字的识别器,其中所述文字具有印刷外表;以及
-发送器,其用于把具有修改过的印刷外表的所述文字和标识所述图像的标识发送到电子设备,该电子设备能够把具有所述修改过的印刷外表的所述文字重叠在所述图像上。
17、用在权利要求14、15或16的电子设备中的电子电路。
CNA2005800389521A 2004-11-15 2005-11-08 检测及修改图像中的文字 Pending CN101057247A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04105759 2004-11-15
EP04105759.7 2004-11-15

Publications (1)

Publication Number Publication Date
CN101057247A true CN101057247A (zh) 2007-10-17

Family

ID=35809646

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2005800389521A Pending CN101057247A (zh) 2004-11-15 2005-11-08 检测及修改图像中的文字

Country Status (4)

Country Link
US (1) US20080095442A1 (zh)
JP (1) JP2008520152A (zh)
CN (1) CN101057247A (zh)
WO (1) WO2006051482A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102147863A (zh) * 2010-02-10 2011-08-10 中国科学院自动化研究所 一种网络动画中的文字定位及识别方法
CN104463103A (zh) * 2014-11-10 2015-03-25 小米科技有限责任公司 图像处理方法及装置
CN106650727A (zh) * 2016-12-08 2017-05-10 宇龙计算机通信科技(深圳)有限公司 一种信息显示方法以及ar设备
CN109522900A (zh) * 2018-10-30 2019-03-26 北京陌上花科技有限公司 自然场景文字识别方法及装置
TWI783718B (zh) * 2021-10-07 2022-11-11 瑞昱半導體股份有限公司 可應用於在顯示裝置中進行實時視頻內容文字檢測和語音自動生成之顯示控制積體電路
CN115661183A (zh) * 2022-12-27 2023-01-31 南京功夫豆信息科技有限公司 一种基于边缘计算的智能扫描管理系统及方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3101737U (ja) * 2003-11-18 2004-06-17 船井電機株式会社 Dvd一体型テレビ
JP2005216223A (ja) * 2004-02-02 2005-08-11 Oki Data Corp 印刷制御方法及び画像形成装置
KR100836197B1 (ko) * 2006-12-14 2008-06-09 삼성전자주식회사 동영상 자막 검출 장치 및 그 방법
DE102007010603B4 (de) * 2007-03-05 2009-01-15 Siemens Ag Verfahren für Fernübertragung von Anzeigedaten zwischen zwei Rechnern
US8640024B2 (en) * 2007-10-30 2014-01-28 Adobe Systems Incorporated Visually distinct text formatting
US8457448B2 (en) * 2008-02-04 2013-06-04 Hewlett-Packard Development Company, L.P. Removing inserted text from an image using extrapolation for replacement pixels after optical character recognition
US8644611B2 (en) * 2009-06-03 2014-02-04 Raytheon Bbn Technologies Corp. Segmental rescoring in text recognition
JP5328510B2 (ja) * 2009-06-24 2013-10-30 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
US20120056896A1 (en) * 2010-09-02 2012-03-08 Border John N Presenting information on a see-though display
WO2012177160A1 (en) * 2011-06-22 2012-12-27 General Instrument Corporation Method and apparatus for processing and displaying multiple captions superimposed on video images
US20150082159A1 (en) 2013-09-17 2015-03-19 International Business Machines Corporation Text resizing within an embedded image
US9432671B2 (en) * 2014-05-22 2016-08-30 Xerox Corporation Method and apparatus for classifying machine printed text and handwritten text
US10372981B1 (en) * 2015-09-23 2019-08-06 Evernote Corporation Fast identification of text intensive pages from photographs
CN108171104B (zh) * 2016-12-08 2022-05-10 腾讯科技(深圳)有限公司 一种文字检测方法及装置
US10459620B2 (en) * 2018-02-09 2019-10-29 Nedelco, Inc. Caption rate control

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4965670A (en) * 1989-08-15 1990-10-23 Research, Incorporated Adjustable overlay display controller
US5436981A (en) * 1992-06-24 1995-07-25 Canon Kabushiki Kaisha Image processing method, and apparatus therefor
US5438630A (en) * 1992-12-17 1995-08-01 Xerox Corporation Word spotting in bitmap images using word bounding boxes and hidden Markov models
US5877781A (en) * 1995-11-29 1999-03-02 Roland Kabushiki Kaisha Memory control device for video editor
CN1181668C (zh) * 2000-03-31 2004-12-22 皇家菲利浦电子有限公司 检测视频信号中的文本的方法和设备
WO2002025575A2 (en) * 2000-09-22 2002-03-28 Sri International Method and apparatus for portably recognizing text in an image sequence of scene imagery
US7031553B2 (en) * 2000-09-22 2006-04-18 Sri International Method and apparatus for recognizing text in an image sequence of scene imagery
US6934413B2 (en) * 2001-06-25 2005-08-23 International Business Machines Corporation Segmentation of text lines in digitized images
US20030043172A1 (en) * 2001-08-24 2003-03-06 Huiping Li Extraction of textual and graphic overlays from video
JP2003334740A (ja) * 2002-05-15 2003-11-25 Mitsubishi Electric Corp 許容速度決定方法および速度制御装置
US7054804B2 (en) * 2002-05-20 2006-05-30 International Buisness Machines Corporation Method and apparatus for performing real-time subtitles translation

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102147863A (zh) * 2010-02-10 2011-08-10 中国科学院自动化研究所 一种网络动画中的文字定位及识别方法
CN102147863B (zh) * 2010-02-10 2013-03-06 中国科学院自动化研究所 一种网络动画中的文字定位及识别方法
CN104463103A (zh) * 2014-11-10 2015-03-25 小米科技有限责任公司 图像处理方法及装置
CN104463103B (zh) * 2014-11-10 2018-09-04 小米科技有限责任公司 图像处理方法及装置
CN106650727A (zh) * 2016-12-08 2017-05-10 宇龙计算机通信科技(深圳)有限公司 一种信息显示方法以及ar设备
CN106650727B (zh) * 2016-12-08 2020-12-18 宇龙计算机通信科技(深圳)有限公司 一种信息显示方法以及ar设备
CN109522900A (zh) * 2018-10-30 2019-03-26 北京陌上花科技有限公司 自然场景文字识别方法及装置
CN109522900B (zh) * 2018-10-30 2020-12-18 北京陌上花科技有限公司 自然场景文字识别方法及装置
TWI783718B (zh) * 2021-10-07 2022-11-11 瑞昱半導體股份有限公司 可應用於在顯示裝置中進行實時視頻內容文字檢測和語音自動生成之顯示控制積體電路
CN115661183A (zh) * 2022-12-27 2023-01-31 南京功夫豆信息科技有限公司 一种基于边缘计算的智能扫描管理系统及方法

Also Published As

Publication number Publication date
WO2006051482A1 (en) 2006-05-18
US20080095442A1 (en) 2008-04-24
JP2008520152A (ja) 2008-06-12

Similar Documents

Publication Publication Date Title
CN101057247A (zh) 检测及修改图像中的文字
US6101274A (en) Method and apparatus for detecting and interpreting textual captions in digital video signals
Gllavata et al. A robust algorithm for text detection in images
US6470094B1 (en) Generalized text localization in images
US6473522B1 (en) Estimating text color and segmentation of images
JP4643829B2 (ja) ビデオフレーム中の検出されたテキストを使用してビデオコンテンツを分析するシステム及び方法
WO2018028583A1 (zh) 字幕提取方法及装置、存储介质
US7620268B2 (en) Method and apparatus for recognizing text in an image sequence of scene imagery
US6614930B1 (en) Video stream classifiable symbol isolation method and system
Yang et al. Automatic lecture video indexing using video OCR technology
US20080143880A1 (en) Method and apparatus for detecting caption of video
Chen et al. Text area detection from video frames
CN113435438B (zh) 一种图像和字幕融合的视频报幕板提取及视频切分方法
Ghorpade et al. Extracting text from video
Chattopadhyay et al. Mash up of breaking news and contextual web information: a novel service for connected television
Zhang et al. A new edge-based text verification approach for video
Zhang et al. Accurate overlay text extraction for digital video analysis
Tsai et al. A comprehensive motion videotext detection localization and extraction method
Arai et al. Text extraction from TV commercial using blob extraction method
Arai et al. Method for extracting product information from TV commercial
Li et al. An integration text extraction approach in video frame
JP2001076094A (ja) 文字列情報抽出装置及び方法及びその方法を記録した記録媒体
JP2007164253A (ja) 映像中文字認識装置、映像中文字認識方法、プログラム、及び記録媒体
Al-Asadi et al. Arabic-text extraction from video images
Hsia et al. A High-Performance Videotext Detection Algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication