CN102144236A - 用于图像和视频ocr的文本定位 - Google Patents

用于图像和视频ocr的文本定位 Download PDF

Info

Publication number
CN102144236A
CN102144236A CN200980134487XA CN200980134487A CN102144236A CN 102144236 A CN102144236 A CN 102144236A CN 200980134487X A CN200980134487X A CN 200980134487XA CN 200980134487 A CN200980134487 A CN 200980134487A CN 102144236 A CN102144236 A CN 102144236A
Authority
CN
China
Prior art keywords
text
feature
threshold value
edge
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200980134487XA
Other languages
English (en)
Other versions
CN102144236B (zh
Inventor
珍-皮埃尔·古伊洛
郁杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Electronics Inc
Original Assignee
Sony Corp
Sony Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Electronics Inc filed Critical Sony Corp
Publication of CN102144236A publication Critical patent/CN102144236A/zh
Application granted granted Critical
Publication of CN102144236B publication Critical patent/CN102144236B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

根据符合本发明的实施例,从图像和视频中识别文本时的第一个动作是准确地定位文本在图像和视频中的位置。然后,定位到的有可能是低分辨率的文本可被提取、增强和二元化。最后,现有的OCR技术可被应用到被二元化的文本以便识别。本摘要不应被认为是限制性的,因为其他实施例可偏离本摘要中描述的特征。

Description

用于图像和视频OCR的文本定位
相关文献的交叉引用
本申请与2008年9月30日提交的发明人为Yu等人的美国临时专利申请No.61/190,992相关并要求其优先权,特此通过引用将该申请全部并入在此。本申请与发明人均为Candelore的2/14/2007提交的美国专利申请No.11/706,919、2/14/2007提交的美国专利申请No.11/706,890、3/8/2007提交的美国专利申请No.11/715,856以及2/14/2007提交的美国专利申请No.11/706,529相关,特此通过引用将这些申请全部并入在此。
著作权和商标通告
本专利文献的公开的一部分包含受著作权保护的素材。著作权所有人不反对对专利文献或专利公开以其出现在专利商标局专利文件或记录中的形式进行复制再现,但除此之外保留一切著作权权利。商标是其各自的所有人的财产。
背景技术
在TV视频中,经常存在文本,这些文本提供了重要的内容信息,例如所广告的产品的名称、相关信息的URL(通用资源定位符)、发言人或比赛者的姓名、事件的位置和日期等等。被人工添加作为闭合字幕或者嵌入在场景中的文本可用于索引和检索图像和视频、分析观看者对视频内容的兴趣、或者提供可从因特网访问的观看者相关内容。然而,嵌入在普通电视或视频图像中的文本在文本标识和识别方面造成了特殊问题,而当在传统文档中执行文本识别时是不存在这些问题的。
附图说明
通过参考以下结合附图来理解的详细描述,可最好地理解例示出构造和操作方法以及目的和优点的某些例示性实施例,附图中:
图1是符合本发明某些实施例的文本定位(text localization)过程的示例性流程图。
图2由图2A和图2B构成,是在以符合本发明某些实施例的方式进行处理之前和之后的示例性图像。
图3图示了在符合本发明某些实施例的示例性实现方式的合并组中使用的参数。
图4示出了在以符合本发明某些实施例的方式预处理图2B的分割图像之后提取的一些区域。
图5由图5A和图5B构成,示出了以符合本发明某些实施例的方式使用的笔划(stroke)宽度参数。
图6由图6A至图6F构成,示出了符合本发明某些实施例的若干示例的二元化结果。
参考文献
在以下详细描述中参考以下文献:
[1]Rainer Lienhart.Video OCR:A survey and practitioner’s guide,InVideo Mining,Kluwer Academic Publisher,pp.155-184,Oct.2003.
[2]Keechul Jung,Kwang In Kim,and Anil K.Jain,Text informationextraction in images and video:a survey,Pattern Recognition,37,pp.977-997,2004.
[3]Jian Liang,David Doermann,and Huiping Li.Camera-basedanalysis of text and documents:a survey,IJDAR,vol 7,No 2-3,2005.
[4]Anil K.Jain and Bin Yu.Automatic text location in images andvideo frames,Pattern Recognition,Vol.31,No 12,1998.
[5]Shio J.Ohya and S.Akamatsu.Recognizing characters in sceneimages,IEEE Trans.On Pattern Analysis and Machine Intelligence,Vol 16,No2,1994,pp 214-220.
[6]C.M.Lee,A.Kankanhalli,Automatic extraction of characters incomplex images,Int.J.Pattern Recognition Artif.Intell.9(1),1995,pp67-82.
[7]M.A.Smith,T.Kanade,Video skimming for quick browsing basedon audio and image characterization,Technical Report CMU-CS-95-186,Carnegie Mellon University,July 1995.
[8]D.Chen,K.Shearer and H.Bourlard,Text enhancement withasymmetric filter for video OCR.Proceedings of International Conference onImage Analysis and Processing,Palermo,Italy,2001,pp.192-197.
[9]H.Li,D.Doermann,O.Kia,Automatic text detection and trackingin digital video,IEEE Trans.Image Process.9(1),2001,pp.147-156.
[10]D.Chen,H.Boulard,J-P.Thiran.Text identification in complexbackground using SVM,Proceedings of IEEE Conference on Computer Visionand Pattern Recognition,Vol.2,2001,pp.621-626.
[11]Xiangrong Che,Alan L.Yuille,Detecting and reading text innatural scenes,Proceedings of IEEE Conference on Computer Vision andPattern Recognition,Vol.2,2004,pp.366-373.
[12]Edward K.Wong and Minya Chen,A new robust algorithm forvideo text extraction,Pattern Recognition.No.36,2003,pp.1398-1406.
[13]K.Subramanian,P.Natarajan,M.Decerbo and D.Castanon,Character-stroke detection for text-localization and extraction,Proceedings ofIEEE Document Analysis and Recognition.Vo.1,2007,pp.23-26.
[14]Richard Nock and Frank Nielsen,Statistical Region Merging,IEEETrans.On Pattern Analysis and Machine Intelligence,Vol.26,No.11,2004,pp.1452-1458.
[15]V.Vapnik,“Statistical learning theory”,John Wiley and Sons,1998.
[16]Chih-Chung Chang and Chih-Jen Lin,LIB SVM:a library forsupport vector machines,2001.Software available athttp://www.csie.ntu.edu.tw/~cjlin/libsv
[17]W.Niblack.An Introduction to Digital Image Processing.pp.115-116,Prentice Hall,1986.
[18]N.Otsu.A threshold selection method from gray-level histograms.IEEE Trans.On Systems,Man and Cybernetics,Vol.9,No.1,pp.62-66,1979.
[19]S.D.Yanowitz and A.M.Bruckstein,A new method for imagesegmentation,Computer Vision,Graphics and Image Prcoessing CVGIP,Vol.46,no.1,pp.82-95,1989.
[20]S.M.Lucas,A.Panaretos,L.Sosa,A.Tang,S.Wong and R.Young.ICDAR 2003 robust reading competitions,In 7th InternationalConference on Document Analysis and Recognition-ICDAR2003,2003
[21]S.M.Lucas,ICDAR 2005 Text locating competition results,ICDAR 2005,pp.80-84.
具体实施方式
虽然本发明可允许许多不同形式的实施例,但是在附图中示出并且在这里将详细描述特定的实施例,要理解这里对这种实施例的公开应被认为是原理的示例而并不意欲将本发明限制到所示出和描述的特定实施例。在以下描述中,相似的标号在若干附图中用于描述相同、相似或相应的部件。
这里使用的术语“一”被定义为一个或多于一个。这里使用的术语“多个”被定义为两个或多于两个。这里使用的术语“另一”被定义为至少另外一个或另外多个。这里使用的术语“包括”和/或“具有”被定义为包含(即,开放语言)。这里使用的术语“耦合”被定义为连接,但不一定是直接的,也不一定是机械式的。这里使用的术语“程序”(program)或“计算机程序”(computer program)或类似术语被定义为被设计用于在计算机系统上执行的指令序列。“程序”或“计算机程序”可包括被设计用于在计算机系统上执行的子例程、函数、过程、对象方法、对象实现、可执行应用、小应用程序、小服务程序、源代码、目标代码、共享库/动态加载库和/或其他指令序列。这里使用的术语“节目”(program)也可用在第二上下文中(以上定义是针对第一上下文的)。在第二上下文中,该术语是在“电视节目”的意义上使用的。在此上下文中,该术语用于指音频视频内容的任何连贯序列,例如在电子节目指南(EPG)中将被解释和报告为单个电视节目的那些,无论内容是电影、体育赛事、多部分系列剧的一段还是新闻广播等等。该术语也可被解释为涵盖插播的商业广告和其他类似节目的内容,它们在电子节目指南中可能不会被报告为节目。
本文献中提及“一个实施例”、“某些实施例”、“一实施例”或类似术语的意思是联系该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。从而,在整个本说明书的各处出现的这种短语不一定都指的是同一实施例。另外,特定的特征、结构或特性可以没有限制地在一个或多个实施例中以任何适当的方式被组合。
这里使用的术语“或”应被解释为包含性或,意思是任何一个或任何组合。因此,“A、B或C”的意思是“以下各项中的任何一个:A;B;C;A和B;A和C;B和C;A、B和C”。此定义的例外只出现在元件、功能、步骤或动作的组合在某些方面固有地相互排斥时。在整个本文献中,各种阈值被用于某些过程中的比较。这里参考以上参考材料公开的阈值是为了联系当前给出的示例性实施例作为参考,而并不意欲限制符合其他实现方式的其他过程。
在TV视频中,经常存在文本,这些文本提供了重要的内容信息,例如所广告的产品的名称、相关信息的URL(通用资源定位符)、发言人或比赛者的姓名、事件的位置和日期等等。被人工添加作为闭合字幕或者嵌入在场景中的文本可用于索引和检索图像和视频、分析观看者对视频内容的兴趣、或者提供可从因特网访问的观看者相关内容。然而,嵌入在普通电视或视频图像中的文本在文本标识和识别方面造成了特殊问题,而当在传统文档中执行文本识别时是不存在这些问题的。即使是相对高清晰度的视频,文本也经常可能是以相对低清晰度来呈现的,而与利用传统光学字符识别来识别打印文本的通常情况相比,机器更难以识别这种以相对低清晰度呈现的文本。
光学字符识别(OCR)技术可用于从文本文档中自动识别文本,在该文本文档中清晰度足够高(例如高于300dpi),并且前景文本最好是在简单结构的白背景上呈黑色的。然而,在图像或视频中,分辨率一般低得多(例如50dpi或甚至更低)。图像的恶劣质量也源于由传感器引起的噪声、不均匀的光照或者压缩等等。除此之外,还存在由透视、广角镜头、非平整表面、照明等等引起的失真。最终,文本可能在复杂的背景上,周围有运动的对象。简言之,当处理诸如视频图像或其中的帧之类的图像时,存在传统的OCR技术无法解决的许多变数。所有这些问题常常使得很难或者甚至不可能将OCR技术直接应用到图像和视频数据。
根据符合本发明的实施例,从图像和视频中识别文本时的第一个动作是准确地定位文本在图像和视频中的位置。结果这是一个非常复杂的问题。在此之后,定位到的有可能是低分辨率的文本可被提取、增强和二元化。最后,现有的OCR技术可被应用到被二元化的文本以便识别。
在图像和视频数据中定位文本的问题已被以若干种方式来处理。在以上参考文献中有对文本定位和提取算法的综合评述。在以下的详细描述中参考以下文献:上述的[1]、[2]和[3]。方法经常被分类为基于区域的、基于边缘的和基于纹理的方法。
在参考文献[4]、[5]、[6]中描述的基于区域的方法中,假定文本中的字符具有相同颜色。通过连接成分分析、集群化或分割算法来生成区域。然后,采用诸如大小、区域的高度/宽度比或者基线之类的试探(heuristics)来过滤掉非文本区域。最后,通过试探约束或经训练的分类器来将剩余的区域分类为文本或非文本。
参考文献[7]和[8]中描述的基于边缘的方法是基于观察到的以下事实:文本在背景上表现出强边缘,因此文本区域是边缘的集群,所以第一步是边缘检测。然后,通过平滑和合并,边缘被集群化。最后,通过试探约束或经训练的分类器将这些集群分类为文本或非文本。
基于纹理的方法利用纹理特征来判定像素或区域是否属于文本。整个图像被逐像素或逐块地扫描以提取纹理特征,例如局部空间方差、水平方差、二阶统计、频率特征、局部能量或小波变换的高阶动差,等等。这些特征随后被馈送到分类器中(神经网络[9]、支持向量机[10]或自适应增强[11]),以将像素或块分类为文本或非文本。最后,像素或块被合并以生成最终文本区域。
这里描述的技术可被广泛地表征为基于区域的文本定位方法。首先利用快速且有效的图像分割算法来提取相似颜色的区域。在应用试探来过滤掉不应是文本的区域的预处理之后,分析每个区域的特征。基于文本中的笔划往往具有相似的宽度这个观察到的事实,提取笔划特征。此外,减去重要的边缘特征和填充因子特征。最后,训练支持向量机(SVM)分类器(分类器分离具有不同分组的对象)来将区域分类成文本和非文本。SVM被用于最大化文本与非文本之间的差异。
采用笔划特征来辅助标识文本。注意到一般来说文本中的笔划的宽度在水平和垂直方向上都是相似的。在参考文献[12]和[13]中,也使用了笔划特征,然而为了文本检测只检查了水平笔划宽度。在这里,提取了水平和垂直方向上的笔划宽度的特征。此外,结合了边缘和其他重要特征来进行分类。
1.系统和过程概述
图1是符合某些实施例的视频OCR过程100的示例性流程图,其开始于104。此图也可被看作是系统图,其中该图的每个块表示系统的功能块,该功能块可利用编程的处理器和/或状态机和/或专用硬件来实现。在108,系统接收输入的图像或关键帧。然后,在112,将图像分割成相似颜色的区域。如果这些区域被指派以代表性颜色,则所得到的图像类似于以有限数目的颜色着色的那种图像,并且该图像在颜色区域的边界处具有块状的外观。在预处理块116,通过诸如大小、宽高比、填充因子等等之类的试探约束来对这些区域进行过滤。在120,提取剩余区域的特征。在124,将这些特征馈送到SVM分类器中,该分类器将区域分类成文本区域和非文本区域。在128,对这些文本区域进行增强和二元化。最后,在132,在可以以编程的处理器的形式实现的OCR引擎中执行OCR处理。OCR引擎作用于被二元化的区域并且以识别出的文本的形式输出识别结果,并且过程在136结束。在下文中更详细描述图1的各种要素。
II.通过SVM进行的文本定位
A.分割
根据某些实现方式,将参考文献[4]中描述的统计区域合并算法应用到输入图像以得到相似颜色的区域,但是也可使用其他算法。就本文献而言,术语“相似颜色”当在这里的一个示例性实现方式中使用时指的是两个区域的平均红、绿、蓝(R、G、B)值的绝对差(其中一个区域由撇号标示,并且上划线表示平均值)在合并阈值内,这可以用公式表述如下:
( R &OverBar; - R &prime; &OverBar; ) 2 < T dev , ( G &OverBar; - G &prime; &OverBar; ) 2 < T dev , ( B &OverBar; - B &prime; &OverBar; ) 2 < T dev
其中Tdev是合并阈值,例如参考文献[14]中提供的那些。其他合并阈值和相似颜色的其他定义在其他实现方式中也可能是适当的。与或多或少地使用了关于分布的限制性假设的大多数其他已知分割算法不同,此算法在目前是优选的,因为它是基于只具有很少假设的图像生成模型的,这使得该算法在所有种类的情形中都是有效的。该算法是在三个阶段中执行的。第一阶段是计算相邻像素的颜色差。第二阶段包括根据其颜色差来整理像素。第三阶段包括合并具有小于阈值的颜色差的像素以生成区域。已经证实,该算法只会有过度合并误差,而很大概率会实现低的分割误差。最后,可以在线性时间/空间中高效地近似该算法,从而带来了快速分割算法。以上引用的临时专利申请61/190,992的图2示出了分割算法的示例性输出,并且在这里被再现为图2A和图2B。
B.预处理
在分割之后,获得相似颜色的区域。目标是将这些区域分类成文本区域和非文本区域。为了提高分类的效率,首先去除那些很不可能是文本的区域。因此在一种实现方式中检查以下条件:
(1)如果region_height(区域高度)小于某个阈值T_low,或者region_height大于某个阈值T_high,则该区域被丢弃;
(2)如果region_area(区域面积)小于某个阈值T_area,则该区域被丢弃;
(3)如果区域接触了图像边界的四边之一,并且其高度大于阈值T,则区域被丢弃;
(4)如果如下定义的fill_factor(填充因子)低于阈值T_fill,则其被丢弃。
Figure BPA00001328170700091
以上阈值是经验选择的。在此示例性实现方式中,使用的值如下:
T_low=10
T_high=HEIGHT*0.9(HEIGHT是图像大小的高度)
T_area=12
T=HEIGHT/2
T_fill=0.1
其他值也可适合于其他实现方式,并且当前值可被进一步经验优化。
字符往往是以集群方式出现的,并且对字符的集群分类要容易得多。同一个单词中的字符通常具有相同的颜色,并且大多数时间它们是水平对齐的。由于以上事实,如果区域的大小和颜色相似并且其水平位置在某一阈值内,则这些区域被分组。图3示出了在本示例性实现方式中对区域进行合并或分组时使用的参数Dregion、Dtop和Dbottom,如下:
示例性实现方式中使用的合并或分组规则如下,
规则1:
Figure BPA00001328170700092
其中HEIGHT1和HEIGHT2是两个区域的高度。
规则2:(颜色相似性)
Figure BPA00001328170700093
其中
Figure BPA00001328170700095
是两个区域的平均颜色。
规则3:(区域距离)Dregion<Tregion
其中Dregion是两个区域的水平距离。
规则4:(水平对齐)Dtop<Talign或Dbttom<Talign
其中Dtop和Dbottom是上边界和下边界之间的垂直距离。关于Dregion、Dtop和Dbottom的定义,请参考图3。阈值被经验地设定如下,但其他设定也可适合于其他实现方式、规则和规则修改,并且这些阈值可被进一步优化:
Theight_sim=2.5
Tcolor=80
Tregion=HEIGHT1+HEIGHT2
T align = max ( 1,0.4 &CenterDot; HEIGHT 1 + HEIGHT 2 2 )
图4示出了在对临时专利申请的图2(图2)中的分割图像进行预处理之后所提取的一些区域。在图4中,方框表示围绕每个示例性区域的方框的边界,黑色区域是前景区域,并且白色区域是背景区域。下一个任务是将这些区域分类成文本区域和非文本区域。
C.特征提取
随后提取剩余区域的特征。我们使用的特征是笔划宽度特征、边缘特征和填充因子特征,对其的详述如下。
笔划宽度特征
由图5A-5B构成的图5示出了笔划宽度的概念。对于本文献而言,笔划宽度被认为是一个笔划的两个边缘之间的水平方向上的以像素为单位的宽度。在使用其笔划宽度的方差在阈值内的邻域的百分比的本方法中,实际宽度不是特别重要。
笔划宽度特征是基于观察到的以下事实的:文本元素内的笔划宽度往往在垂直方向和水平方向上都是相似的,这在图5中示出。图5A示出了字母“F”中的示例性笔划的宽度在由括号140限定的垂直领域中是近似恒定的。箭头示出了字符F的这个区域中的宽度。图5B示出了在水平方向上笔划具有相似的宽度(即近似相等)或者可被集群化成具有相似宽度的群组。在此图中,标号144、148、152和156中的每一个示出了近似相同的宽度。
本上下文中使用的术语“邻域”(neighborhood)是包含笔划的垂直距离的某个范围,并且当说到文本元素在垂直方向上相似时,意味着宽度在垂直邻域内。对于水平方向,笔划宽度在同一行中或者在y坐标相同的情况下被比较。
反映近似恒定的垂直笔划宽度的特征是如下计算的。首先计算的是垂直邻域中的笔划宽度的标准偏差。对于区域内的每一个像素(c,r)∈[ROWregion,HEIGHTregion],这里使用的垂直邻域被定义为具有坐标(x,y)的像素,其中x=c,r≤y≤r+Tn。特征值s1是整个区域中的如下邻域的百分比:这种邻域的笔划宽度的标准偏差在某个阈值内。
类似地,也计算水平笔划宽度的特征。一行中的笔划宽度被计算和集群化,其中“行”被定义为具有相同y坐标的像素。在此示例中具有少于3的成员数的那些集群,其中成员数是集群中的成员的数目,或者具有相似笔划宽度的笔划的数目,因为集群是根据笔划宽度的相似性而获得的。那些具有很少成员的集群或者换言之具有很少相似笔划宽度的笔划被认为是有噪声的或者是异常者(outlier),因此被从考虑中排除,从而不被考虑。这样,排除了异常者,其中异常者被定义为具有很少成员的集群(在这里是少于3个成员,或者具有少于3个具有相似笔划宽度的笔划的笔划集群)。集群化的另一个原因是一行中可能有不同笔划。例如,在图5B的上方行中,存在被标记为148、152和156的不同笔划宽度的三个集群。反映恒定水平笔划宽度的特征值s2是如下行的百分比:这些行的水平笔划宽度的标准偏差在某一阈值内,或者可被集群化成群组并且每个群组中的水平笔划宽度的标准偏差在某个阈值内。
基于文本的笔划之间存在某个阈值这个观察到的事实,作为当前笔划宽度与当前笔划到下一相邻笔划的距离的平均比,提取特征值s3
最后的笔划特征s4是最常出现的两个笔划宽度之比。
以下是在示例性实现方式中用于提取笔划宽度特征的过程的伪代码的示例:
提取笔划宽度特征s1,s2,s3,s4的伪代码
特征s1:恒定垂直笔划宽度的度量
s1=VerticalConstStrokeWidth(img)
输入:
img:要被分类为文本或非文本的二元图像:前景是黑色的,背景是白色的,即img(foreground)=0,img(background)=1,图像中的行的数目是HEIGHT,图像中的列的数目是WIDTH
输出:
s1:衡量恒定垂直笔划宽度的特征值
1.对于img中的每个像素(x,y),计算笔划宽度阵列StrokeWidthMap
a.对于背景中的像素(x,y),笔划宽度是0:
StrokeWidthMap(x,y)=0;
b.对于前景中的像素,笔划宽度是当前笔划的边缘之间的距离。例如,在图A中,红色线中的像素都将具有笔划宽度30-10=20,即StrokeWidthMap(10:30,60)=20。(注意:10:30指的是从10到30的坐标)
2.获得每个像素(x,y)的笔划宽度地图的阵列StrokeWidthMap(注意:StrokeWidthMap具有与img相同的尺寸)
3.对于(x,y∈[r,r+Tn]),(换言之,对于每一列x,并且对于Tn行的每个邻域,其中Tn被定义为
Tn=max(2,ceil(HEIGHT/10))
a.计算笔划宽度的中值:
medianW=median(StrokeWidthMap(x,r:r+Tn)
b.计算笔划宽度的标准偏差
stdW=std(StrokeWidthMap(x,r:r+Tn)).
c.如果满足以下条件
medianW<WIDTH/3(中值笔划宽度不太大)
stdW<medianW*0.5(标准偏差小)
则此邻域具有恒定垂直笔划宽度,因此
constStrokeNum=constStrokeNum+1.
4.特征s1是具有恒定垂直笔划宽度的邻域的比率:
s1=constStrokeNum/total,
其中total是具有笔划的邻域的数目
特征s2:恒定水平笔划宽度的度量
s2=HorizontalConstStrokeWidth(img)
输入:
img:要被分类为文本或非文本的二元图像:前景是黑色的,背景是白色的,即img(foreground)=0,img(background)=1,图像中的行的数目是HEIGHT,图像中的列的数目是WIDTH
输出:
s2:衡量恒定垂直笔划宽度的特征值
1.对于img中的每一行y,计算当前行的笔划宽度并且得到阵列StrokeWidth(StrokeWidth具有与img相同的行数,并且每一行具有当前行中的笔划的笔划宽度);
2.对于StrokeWidth中的每一行y:
a.计算StrokeWidth的中值:
medianW=median(StrokeWidth(y));
b.计算StrokeWidth的标准偏差:
stdW=std(StrokeWidth(y));
c.如果笔划宽度的标准偏差与中值之比小于阈值,即
stdW/medianW<WidthStdT(阈值WidthStdT=0.5)
则其被计数为具有水平恒定笔划宽度的行,即
constStrokeNum=constStrokeNum+1
d.否则,将StrokeWidth(y)集群化。如果集群中的任何一个具有多于3个成员(不是异常者)并且其中值和标准偏差满足
stdW/medianW<WidthStdT
则它被计数为具有水平恒定笔划宽度的行,即
constStrokeNum=constStrokeNum+1;
3.特征s2为
s2=constStrokeNum/total
其中total是图像中具有多于一个笔划的行的数目
特征s3:当前笔划到下一相邻笔划的距离与笔划宽度之比
s3=RatioStrokeDistWidth(img)
输入:
img:要被分类为文本或非文本的二元图像:前景是黑色的,背景是白色的,即img(foreground)=0,img(background)=1,图像中的行的数目是HEIGHT,图像中的列的数目是WIDTH
输出:
s3:当前笔划到下一相邻笔划的距离与笔划宽度之比
1.计算笔划宽度StrokeWidth(其与提取特征s2时的那个相同);
2.计算当前笔划到下一相邻笔划的距离StrokeDist;
3.计算ratio
ratio=StrokeDist/StrokeWidth;
4.将ratio放在阵列StrokeDistWidthRatio中
5.特征s3=median(StrokeDistWidthRatio)
特征s4:最常见的笔划宽度之比
s4=RatioMostStrokeWidth(img)
输入:
img:要被分类为文本或非文本的二元图像:前景是黑色的,背景是白色的,即img(foreground)=0,img(background)=1,图像中的行的数目是HEIGHT,图像中的列的数目是WIDTH
输出:
s4:最常见的笔划宽度之比
1.计算笔划宽度阵列StrokeWidth的柱状图H:[H,Xw]=hist(StrokeWidth,10),其中10是用于计算柱状图的柱条数,H是柱条的柱状图或频率,Xw是柱条位置;
2.整理柱状图[sH,sI]=sort(H),其中sH是经整理的柱状图,并且sI是索引,即sH=H(sI);
3.如果sH(1)/sum(sH)==1(只有一个笔划宽度),则s4=0;
4.否则,s4=Xw(sI(1))/Xw(sI(2)),sI(1)和sI(2)是最常见的笔划宽度的索引。
在上述每种情况中,文本宽度是以像素为单位衡量的,但其他衡量单位也是可能的。
边缘特征
在示例性实现方式中还使用了一组边缘特征(e1,e2,e3)。在文本中,存在许多边缘。因此边缘特征可用于辅助文本定位。第一个边缘特征e1是基于文本字符一般具有平滑边缘这个事实的。特征值e1是以具有相同方向的5×5邻域亦即具有平滑方向的块的比率的形式来计算的。边缘特征e2是基于文本字符通常具有所有方向上的边缘这个观察到的事实的。特征值e2是最常出现的分割方向的频率。如果该频率太大,则很有可能它不是文本,因为通常文本字符具有所有方向的边缘。这是它为什么被选作用于区分文本和非文本区域的特征的原因。最后是总边缘长度与区域面积之比,其可表征文本具有的边缘的量。
以下是在示例性实现方式中用于提取边缘特征的伪代码:
提取边缘特征(e1,e2,e3)的伪代码
特征e1:边缘平滑性
e1=EdgeSmoothness(img)
输入
img:要被分类为文本或非文本的二元图像:前景是黑色的,背景是白色的,即img(foreground)=0,img(background)=1,图像中的行的数目是HEIGHT,图像中的列的数目是WIDTH。
输出:
e1:衡量边缘的平滑性的特征
1.边缘提取:利用Sobel边缘检测提取8个方向(0,π/4,π/2,3π/4,π,5π/4,3π/2,7π/4)的边缘:
Edge=SobelEdge(img)
其中Edge具有与img相同的尺寸,并且在边缘处取决于边缘的方向其具有1到8的值,而在非边缘处其具有值0;
2.对于满足Edge(x,y)≠0的(x,y)
a.定义neighborhood:neighborhood=edge([x-w:x+w],[y-w:y+w]),其中
Figure BPA00001328170700161
b.获得当前方向:curDir=Edge(x,y)
c.获得具有当前方向的像素的数目curDirNum
d.获得邻域中的边缘像素的数目,即
neighborEdgeNum=Length(neighborhood≠0)
e.计算具有相同方向的边缘像素的比率:
R(x,y)=curDirNum/neighborEdgeNum;
3.计算边缘平滑性特征
e1=length(R>T)/length(Edge≠0).
特征e2:边缘方向的统一性
e2=EdgeUniformity(img)
输入:
img:要被分类为文本或非文本的二元图像:前景是黑色的,背景是白色的,即img(foreground)=0,img(background)=1,图像中的行的数目是HEIGHT,图像中的列的数目是WIDTH。
输出:
e2:衡量边缘的统一性的特征
1.把特征e1的步骤1中提取的8个边缘方向量化成4个方向Edge4,即Edge中的(5π/4,3π/2,7π/4)将变成Edge4中的(π/4,π/2,3π/4);
2.计算4个方向的柱状图:H=hist(Edge4(Edge4≠0));
3.计算H的极大元:maxH=max(H),因此maxH是该方向出现的最大次数;
4.计算边缘统一性特征
e2=maxH/sum(H)
特征e3:边缘的量
e3=EdgeAmount(img)
输入:
img:要被分类为文本或非文本的二元图像:前景是黑色的,背景是白色的,即img(foreground)=0,img(background)=1,图像中的行的数目是HEIGHT,图像中的列的数目是WIDTH
输出:
e2:衡量边缘的量的特征
1.边缘提取:利用Sobel边缘检测提取8个方向(0,π/4,π/2,3π/4,π,5π/4,3π/2,7π/4)的边缘
Edge=SobelEdge(img)
其中Edge具有与img相同的尺寸,并且在边缘处取决于边缘的方向其具有1到8的值,而在非边缘处其具有值0;
2.计算边缘的长度:EdgeLength=length(Edge≠0);
3.计算img的前景面积;
4.ForeArea=length(img(foreground));
5.计算填充因子AreaFill:
6.AreaFill=ForeArea/(WIDTH*HEIGHT);
7.计算特征e3=EdgeLength/AreaFill。
填充特征
在此示例性实现方式中还使用了一组填充因子特征(f1,f2)。这组特征是基于文本的前景填充在限界框(bounding box)中这个事实的。它不填充整个限界框,或者说只填充限界框的很小部分。另外,在小邻域中,它具有如下属性:前景不填充整个邻域。
第一个填充因子特征f1描述了整个区域的填充特征。因此它是以前景面积与区域的限界框的面积之比的形式来计算的。第二个填充因子特征f2描述了局部邻域的填充特征。首先计算一邻域中的前景面积之比。特征值f2是前景面积之比大于某一阈值的邻域的百分比。
以下是在示例性实现方式中使用的用于提取填充因子特征的伪代码:
提取填充因子特征f1、f2的伪代码
特征f1:整个区域的填充特征
f1=FillFactorWhole(img)
img:要被分类为文本或非文本的二元图像:前景是黑色的,背景是白色的,即img(foreground)=0,img(background)=1,图像中的行的数目是HEIGHT,图像中的列的数目是WIDTH。
输出:
f1:衡量候选图像的填充因子的特征
1.计算img的前景面积:
2.ForeArea=length(img(foreground));
3.计算img的总面积:WholeArea=WIDTHxHEIGHT;
4.计算特征f1=ForeArea/WholeArea。
特征f2:局部邻域的填充特征
f2=FillFactorNeighborhood(img)
img:要被分类为文本或非文本的二元图像:前景是黑色的,背景是白色的,即img(foreground)=0,img(background)=1,图像中的行的数目是HEIGHT,图像中的列的数目是WIDTH。
输出:
f2:衡量候选图像的局部邻域中的填充因子的特征
1.对于(x,y),其中x,y按stepSize=HEIGHT/3增大
a.获得当前邻域:curN=img(x:x+stepSize,y:y+stepSize);
b.计算当前邻域中的前景的面积:
AreaN=length(curN(foreground));
c.计算邻域的填充因子:FillFactorN(j)=AreaN/Area(curN)其中j是当前邻域的索引;
2.获得具有大填充因子的邻域的数目
N=length(FillFactorN>T);
3.特征f2是具有大填充因子的那些块的百分比:
f2=N/length(FillFactorN)
D.基于SVM的分类
SVM在参考文献[15]中记载并且是统计学习理论所激发的一种技术并已被成功应用到许多分类任务。关键思想是利用具有最大边距的判决表面来分开两个类。它最小化了高维空间中的模型的归纳误差而不是训练误差上的界限。在SVM中,学习任务对于正类和负类中的训练例的相对数目是不敏感的(在这里的检测任务中,负类的样本数比正类的多得多)。因此,SVM被选择为此示例性实现方式的优选分类器。
分类问题是二元分类问题,具有m个标记的训练样本:(x1,y1),(x2,y2),...,(xm,ym),其中xi=[s1 i,s2 i,s3 i,s4 i,e1 i,e2 i,e3 i,f1 i,f2 i],其中每个分量的定义如第C.节中所述,这是一个9维特征向量,yi=±1,指示正(文本)和负(非文本)类(i=1,2,...,m)。SVM尝试解决以下问题:
min w , b , &xi; i 1 2 w T w + C &Sigma; i = 1 l &xi; i - - - ( 2 )
条件为yi(wTφ(xi)+b)≥1-ξi             (3)
其对偶(dual)为
min &alpha; 1 2 &alpha; T Q&alpha; - e T &alpha; - - - ( 4 )
条件为yTα=0(0≤αi≤C,i=1,...,l)  (5)
其中e是全1向量,C>0是上界并且是通过交叉验证来决定的,Q是1×1半正定矩阵,Qij≡yiyjK(xi,xj)并且
Figure BPA00001328170700203
是内核,w、α和b是决定分离平面的参数并且应当是通过优化过程来解出的。通过选择非线性内核函数,特征向量xi可被函数
Figure BPA00001328170700204
映射到更高维的空间中。我们使用的内核是径向基函数内核
K ( X , X j ) = exp { - | | X - X j | | 2 2 &sigma; 2 } - - - ( 6 )
其中内核带宽σ是通过交叉验证来确定的。一旦决定了参数w、α和b,就可以使用以下判决函数来对区域分类
sgn ( &Sigma; i = 1 l y i &alpha; i K ( x i , x ) + b ) . - - - ( 7 )
利用名为LIBSVM的软件包[16],在被标记为文本或非文本的一组样本上训练SVM。交叉验证审美观点用于决定σ和C的内核带宽。训练和测试结果将在下一节中报告。
E.增强和二元化
在标识了文本区域之后,应当对其进行增强和二元化,以便OCR软件可以容易地识别文本。大多数OCR软件只能识别具有足够大的分辨率的文本。因此,如果文本的高度小于大约75个像素(目前),则可能需要按比例增大。在按比例增大之前,可以应用一些增强,例如柱状图均衡、锐化等等。
然后向增强的图像应用二元化。存在不同种类的二元化算法,例如Niblack的适应性二元化算法[17]、Otsu的方法[18]以及Yanowitz-Bruchstein的方法[19]等等。在这些方法之中,Niblack的方法和Otsu的方法被广泛使用,但也可使用其他二元化方法适应于符合本发明的实现方式。在Niblack的方法中,根据大小为r的局部窗口内的强度统计,为每个像素适应性地确定阈值T
Tr(x)=μr(x)+kσr(x)    (8)
其中μ和σ是该窗口内的像素强度的均值和标准偏差。标题参数k是权重,其被设定为-0.2。窗口大小r可以是固定值或者是适应性选择的。在[11]中,提出了窗口大小r被选择为
r ( x ) = min r ( &sigma; r ( x ) > T &sigma; ) - - - ( 9 )
其中Tσ是固定阈值。Tσ的值被选择为使得具有小于Tσ的标准偏差的窗口是平滑区域。这里我们将Tσ设定为检测到的文本区域的背景面积的标准偏差。在Otsu的方法[18]中,二元化阈值是通过鉴别标准来找到的,即在类方差之间最大化,在类方差内最小化。Otsu的方法可被应用到整个文本区域或者固定大小的窗口或者像(9)中那样是适应性的。由于在图像中背景是复杂的这个事实,如果二元化被应用到整个图像,则背景中的非文本对象可能也会出现在最终的经二元化的图像中。为了避免这种情况,二元化也被应用到检测到的文本区域中的连接的成分。
由图6A-6F构成的图6示出了当Otsu的方法和Niblack的方法被应用到个体成分、固定窗口、适应性窗口和整个限界框时的二元化结果。检测到的文本是来自图2下部所示的示例的。图6A示出了在检测到的区域中的每个连接的成分上的Otsu的二元化。图6B示出了在适应性窗口中的Niblack的二元化。图6C示出了在适应性窗口中的Otsu的二元化。图6D示出了在整个限界框中的Otsu的二元化。图6E示出了在固定窗口中的Niblack的二元化。图6F示出了在固定窗口中的Otsu的二元化。
从图6可以看出,不同二元化方法的性能不同。它显示出在整个限界框中应用的Otsu的方法在此示例中是最好的。在不同的图像中尝试了这些方法,并且确定了没有一个方法能够在所有图像上都给出最好结果。因此,在实践中,一种可能的方案是将不同二元化方法的结果馈送到OCR软件中,然后组合识别结果。
III.实验和结果
在两个数据集合上测试了这里的算法。一个是ICDAR2003的文本定位竞争数据集合[20]。在ICDAR2003的数据集合中,在训练集合中有248个图像,在测试集合中有251个图像。在每个集合中,存在大约1000个文本片段。该数据集合中的图像大多数是利用手持设备在室外拍摄的。另一数据集合是从TV节目收集的,包括来自新闻、商业广告、体育比赛等等的图像。在该数据集合中有489个图像,其中有接近5000个文本片段。
首先在ICDAR2003的数据集合上应用算法。首先分割和预处理图像。在训练数据集合中,在分割和预处理之后,存在841个文本区域片段和3373个非文本区域片段。注意到,文本片段的数目小于认定实况。这部分是由于其中一些文本片段未被正确分割的分割误差引起的,部分是由于其中一些文本片段被合并在一起的预处理引起的。在经处理的数据集合上训练SVM。用交叉验证来选择SVM的参数。(6)中的最优带宽σ是0.5并且(2)中的参数C是32。将经训练的SVM模型应用在测试数据集合上。从测试文本样本获得了90.02%的正确检测率,其中假阳性为6.45%。为了与其他文本定位算法相比较,表1总结了本算法的性能和ICDAR 2003和ICDAR 2005中的胜者的性能。本算法排第3位。相信如果在我们的算法中仔细地调整参数,性能可得到进一步改善。在表1中,f被定义为
Figure BPA00001328170700221
其中p是精度,并且r是查全率(recall)。有关精度和查全率的详细定义,请参考[20]和[21]。
  系统   精度   查全率   f
  Hinnerk Becker   0.62   0.67   0.62
  Alex Chen   0.60   0.60   0.58
  我们的算法   0.58   0.45   0.51
  Ashida   0.55   0.46   0.50
表1-与ICDAR2003[20]和ICDAR2005[21]的胜者的比较
接下来,将算法应用到TV数据集合。该数据集合被分成两个集合,一个用于训练(具有245个图像),另一个用于测试(具有244个图像)。在分割和预处理之后,在训练集合中有1100个文本区域片段和7200个非文本区域片段。在训练集合上训练SVM。用交叉验证来选择SVM的参数。(6)中的最优带宽σ是1并且(2)中的参数C是16。将经训练的SVM模型应用在测试数据集合上,其中有大约850个文本区域片段和6500个非文本区域片段。文本的检测率为88.29%,假阳性为9.34%。上述临时专利申请的图7示出了来自TV数据集合中的图像的示例性检测结果。
检测到的文本区域如上所述被增强和二元化。然后,经二元化的图像被馈送到OCR软件中供识别。例如,图6中的经二元化的图像被馈送到Scansoft的OmnipageTM Pro 12中以便识别。识别出的结果在以下的表2中列出。表2表明OCR软件可以识别出几乎所有文本。通过组合来自不同二元化方案的识别结果并且在字典中查找结果,通常能够获得正确的识别结果。
Figure BPA00001328170700231
Figure BPA00001328170700241
表2  Scansoft的Omnipage Pro 12的识别结果
如上所述,基于区域的方法被用于在图像或视频中定位文本。分割被用于获得不同颜色的区域。然后,每个区域的特征被提取。这里提取的特征是笔划特征、边缘特征和填充因子特征。这些特征在检测文本时非常有效。提取的特征向量被用于训练将区域分类为文本区域或非文本区域的SVM模型。已证明算法在公共可得的数据集合和其他数据集合上的性能都非常好。
从而,根据某些示例性实现方式,一种视频图像中的文本检测的方法包括:在图像处理器处接收可能包含文本的视频帧;将该图像分割成具有相似颜色的区域;从具有相似颜色的区域中标识高可能性非文本区域并且丢弃高可能性非文本区域;基于剩余区域的大小和颜色及其水平位置的对齐来合并剩余区域;在合并的区域上执行特征提取过程以提取笔划特征、边缘特征和填充因子特征;使每个区域的所提取的特征向量经过经训练的二元分类器以判定哪些区域是文本以及哪些区域是非文本。
在某些实现方式中,该方法还包括使经二元化分类的文本区域经过光学字符读取器。在某些实现方式中,将图像分割成相似颜色的区域是通过确定两个区域的平均红、绿、蓝(R、G、B)值的绝对差均小于合并阈值来执行的。在某些实现方式中,分割包括计算相邻像素的颜色差;根据像素的颜色差来整理像素;以及合并具有小于阈值的颜色差的像素,以生成区域。在某些实现方式中,二元分类器包括基于支持向量机(SVM)的分类器。在某些实现方式中,如果笔划宽度值在阈值内则认为笔划宽度相似。在某些实现方式中,笔划宽度特征包括表示图像中的其笔划宽度的标准偏差在阈值内的邻域的百分比的特征值,其中笔划宽度值如果在该阈值内则被认为是相似的。在某些实现方式中,笔划宽度特征包括如下行的百分比:这种行的水平笔划宽度的标准偏差在阈值内,或者这种行能够被集群化成群组并且每个群组中的水平笔划宽度的标准偏差在阈值内,或者这种行具有笔划宽度相似的笔划。在某些实现方式中,笔划宽度特征包括当前笔划宽度与当前笔划到相邻笔划的距离的平均比。在某些实现方式中,笔划宽度特征包括最频繁出现的两个笔划宽度之比。在某些实现方式中,边缘特征是候选图像中的边缘的平滑性、边缘的统一性和边缘的量的度量,其中边缘的平滑性由具有相同方向的邻域的百分比表示,边缘的统一性是以最常出现的边缘方向的频率的形式来计算的,并且边缘的数目是由总边缘长度与区域面积之比来衡量的。在某些实现方式中,既在整个候选图像中也按邻域提取填充因子特征。
在某些实现方式中,预处理过程进行操作以确定:
(1)如果region_height小于某个阈值T_low,或者region_height大于某个阈值T_high,或者
(2)如果region_area小于某个阈值T_area,或者
(3)如果区域接触图像边界的四边之一,并且其高度大于阈值T,或者
(4)如果如下定义的fill_factor低于阈值
Figure BPA00001328170700251
则区域被认为是高可能性非文本区域。在某些实现方式中,利用多个二元化方法来执行二元化,其中每个经二元化的输出被光学字符读取器处理以产生多个输出,这些输出被组合。
符合某些实现方式的另一文本检测过程包括通过利用统计区域合并进行分割以去除一定不是文本的区域并且基于如下定义的高度相似性、颜色相似性、区域距离和水平对齐的标准对区域分组,从而来预处理图像:
高度相似性被定义为
Figure BPA00001328170700261
其中HEIGHT1和HEIGHT2是两个区域的高度;
颜色相似性被定义为
D ( c 1 , c 2 ) = ( R 1 &OverBar; - R 2 &OverBar; ) 2 + ( G 1 &OverBar; - G 2 &OverBar; ) 2 + ( B 1 &OverBar; - B 2 &OverBar; ) 2 < T coloc ,
其中
Figure BPA00001328170700263
Figure BPA00001328170700264
是两个区域的平均颜色;
区域距离被定义为Dregion<Tregion
其中Dregion是两个区域的水平距离,并且
水平对齐被定义为Dtop<Talign或者Dbottom<Talign,其中Dtop和Dbottom是上边界和下边界之间的垂直距离;
执行特征提取过程以描述每个剩余区域,其中每个特征由该区域的笔划特征、边缘特征和填充因子特征表示;以及
通过使用支持向量机(SVM)分类器引擎来对特征向量分类,该引擎利用以下式子来输出区域是否是文本:
sgn ( &Sigma; i = 1 l y i &alpha; i K ( x i , x ) + b )
以获得分类输出,其中1表明存在文本,-1表明不存在文本。
在某些实现方式中,笔划特征包括具有相似笔划宽度的垂直邻域和行的百分比。在某些实现方式中,填充因子特征既是在整个候选图像中提取的也是按邻域提取的。在某些实现方式中,预处理进行操作以确定:
(1)如果region_height小于某个阈值T_low,或者region_height大于某个阈值T_high,或者
(2)如果region_area小于某个阈值T_area,或者
(3)如果区域接触图像边界的四边之一,并且其高度大于阈值T,或者
(4)如果如下定义的fill_factor低于阈值,
Figure BPA00001328170700271
则区域被认为是高可能性非文本区域。在某些实现方式中,利用多个二元化方法来执行二元化,其中每个经二元化的输出被光学字符读取器处理以产生多个输出,这些输出被组合。
在考虑上述教导后,本领域的技术人员将会认识到,上述示例性实施例中的某些是基于对运行可如图1所示那样布置的各种软件模块的一个或多个编程的处理器的使用的。然而,本发明并不限于这种示例性实施例,因为其他实施例可利用诸如专用硬件和/或专用处理器或状态机之类的硬件组件等同物来实现。类似地,通用计算机、基于微处理器的计算机、微控制器、光学计算机、模拟计算机、专用处理器、专用集成电路和/或专用硬连线逻辑可用于构造替换的等同实施例。
虽然已经描述了某些例示性实施例,但是很明显根据以上描述本领域的技术人员将清楚许多替换、修改、置换和变化。

Claims (18)

1.一种视频图像中的文本检测的方法,包括:
在图像处理器处接收可能包含文本的视频帧;
将所述图像分割成具有相似颜色的区域;
从具有相似颜色的区域中标识高可能性非文本区域并且丢弃所述高可能性非文本区域;
合并剩余区域中的大小和颜色相似并且水平位置在阈值内的区域;
通过执行特征提取过程以提取笔划特征、边缘特征和填充因子特征,来利用特征描述区域;以及
使剩余区域经过经训练的二元分类器以获得最终文本区域,这些最终文本区域能够被二元化并被OCR软件识别。
2.根据权利要求1所述的方法,还包括使经二元化的最高可能性文本区域经过光学字符读取器。
3.根据权利要求1所述的方法,其中,将所述图像分割成相似颜色的区域是通过确定两个区域的平均红、绿、蓝(R、G、B)值的绝对差均小于合并阈值来执行的。
4.根据权利要求1所述的方法,其中,所述分割包括:
计算相邻像素的颜色差;根据像素的颜色差来整理像素;以及合并具有小于阈值的颜色差的像素,以生成区域。
5.根据权利要求1所述的方法,其中,所述二元分类器包括基于支持向量机(SVM)的分类器。
6.根据权利要求1所述的方法,其中,如果笔划宽度在阈值内则认为笔划宽度值相似。
7.根据权利要求1所述的方法,其中,笔划宽度特征包括表示所述图像中的笔划宽度的标准偏差在阈值内的邻域的百分比或者在垂直方向上具有相似的笔划宽度的邻域的百分比的特征值。
8.根据权利要求1所述的方法,其中,笔划宽度特征包括表示如下行的百分比的特征值:这种行的水平笔划宽度的标准偏差在阈值内,或者这种行能够被集群化成群组并且每个群组中的水平笔划宽度的标准偏差在阈值内,或者这种行具有相似的笔划宽度或相似笔划宽度的集群。
9.根据权利要求1所述的方法,其中,笔划宽度特征包括当前笔划宽度与当前笔划到相邻笔划的距离的平均比。
10.根据权利要求1所述的方法,其中,笔划宽度特征包括最频繁出现的两个笔划宽度之比。
11.根据权利要求1所述的方法,其中,边缘特征是候选区域中的边缘的平滑性、边缘的统一性和边缘的量的度量,其中边缘的平滑性由具有相同方向的邻域的百分比表示,边缘的统一性是以最常出现的边缘方向的频率的形式来计算的,并且边缘的量是由总边缘长度与区域面积之比来衡量的。
12.根据权利要求1所述的方法,其中,填充因子特征既是在整个候选图像中提取的也是按邻域提取的。
13.根据权利要求1所述的方法,其中,通过以下步骤来决定有很高可能不是文本的区域:
(1)如果region_height小于某个阈值T_low,或者region_height大于某个阈值T_high,或者
(2)如果region_area小于某个阈值T_area,或者
(3)如果区域接触图像边界的四边之一,并且其高度大于阈值T,或者
(4)如果如下定义的fill_factor低于阈值
Figure FPA00001328170600021
则区域被认为是高可能性非文本区域。
14.根据权利要求1所述的方法,其中,二元化是利用多个二元化方法来执行的,其中每个经二元化的输出被光学字符读取器处理以产生多个输出,这些输出被组合。
15.一种文本检测过程,包括:
通过利用统计区域合并进行分割以去除一定不是文本的区域并且基于如下定义的高度相似性、颜色相似性、区域距离和水平对齐的标准对区域分组,从而来预处理图像:
高度相似性被定义为
Figure FPA00001328170600031
其中HEIGHT1和HEIGHT2是两个区域的高度;
颜色相似性被定义为
D ( c 1 , c 2 ) = ( R 1 &OverBar; - R 2 &OverBar; ) 2 + ( G 1 &OverBar; - G 2 &OverBar; ) 2 + ( B 1 &OverBar; - B 2 &OverBar; ) 2 < T coloc ,
其中
Figure FPA00001328170600033
Figure FPA00001328170600034
是两个区域的平均颜色;
区域距离被定义为Dregion<Tregion
其中Dregion是两个区域的水平距离,并且
水平对齐被定义为Dtop<Talign或者Dbottom<Talign,其中Dtop和Dbottom是上边界和下边界之间的垂直距离;
执行特征提取过程以描述每个剩余区域,其中每个特征由该区域的笔划特征、边缘特征和填充因子特征表示;以及
通过使用支持向量机(SVM)分类器引擎来对特征向量分类,该引擎利用以下式子来输出区域是否是文本:
sgn ( &Sigma; i = 1 l y i &alpha; i K ( x i , x ) + b ) ,
以获得分类输出,其中1表明存在文本,-1表明不存在文本,其中(xi,yi)是训练样本的特征向量和认定实况标签,x是要分类的区域的特征向量,αi和b是通过解定义为并条件为yTα=0(0≤αi≤C,i=1,...,l)的最优化问题而获得的参数,K被定义为
16.根据权利要求15所述的方法,其中填充因子特征既是在整个候选图像中提取的也是按邻域提取的。
17.根据权利要求15所述的方法,其中预处理进行操作以确定:
(1)如果region_height小于某个阈值T_low,或者region_height大于某个阈值T_high,或者
(2)如果region_area小于某个阈值T_area,或者
(3)如果区域接触图像边界的四边之一,并且其高度大于阈值T,或者
(4)如果如下定义的fill_factor低于阈值,
Figure FPA00001328170600041
则区域被认为是高可能性非文本区域并能够被排除而不被进一步处理。
18.根据权利要求15所述的方法,其中,二元化是利用多个二元化方法来执行的,其中每个经二元化的输出被光学字符读取器处理以产生多个输出,这些输出被组合。
CN200980134487XA 2008-09-03 2009-08-31 用于图像和视频ocr的文本定位 Expired - Fee Related CN102144236B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US19099208P 2008-09-03 2008-09-03
US61/190,992 2008-09-03
US12/380,394 2009-02-26
US12/380,394 US8320674B2 (en) 2008-09-03 2009-02-26 Text localization for image and video OCR
PCT/US2009/055496 WO2010027933A1 (en) 2008-09-03 2009-08-31 Text localization for image and video ocr

Publications (2)

Publication Number Publication Date
CN102144236A true CN102144236A (zh) 2011-08-03
CN102144236B CN102144236B (zh) 2013-08-21

Family

ID=41725535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980134487XA Expired - Fee Related CN102144236B (zh) 2008-09-03 2009-08-31 用于图像和视频ocr的文本定位

Country Status (8)

Country Link
US (1) US8320674B2 (zh)
EP (1) EP2321767A1 (zh)
JP (1) JP5588987B2 (zh)
KR (1) KR101452562B1 (zh)
CN (1) CN102144236B (zh)
CA (1) CA2735824A1 (zh)
MX (1) MX2011002293A (zh)
WO (1) WO2010027933A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077556A (zh) * 2013-03-26 2014-10-01 现代自动车株式会社 识别模压字符的设备和方法,和利用所述设备和方法检测字符的模压深度的系统
CN104106078A (zh) * 2012-01-09 2014-10-15 高通股份有限公司 光学字符辨识(ocr)高速缓冲存储器更新
CN104751142A (zh) * 2015-04-01 2015-07-01 电子科技大学 一种基于笔划特征的自然场景文本检测算法
CN105095899A (zh) * 2015-08-23 2015-11-25 华南理工大学 一种图片中相关文本的自动框选方法
CN109284751A (zh) * 2018-10-31 2019-01-29 河南科技大学 基于频谱分析和svm的文字定位的非文本滤除方法
US10755594B2 (en) 2015-11-20 2020-08-25 Chrysus Intellectual Properties Limited Method and system for analyzing a piece of text

Families Citing this family (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8306327B2 (en) * 2008-12-30 2012-11-06 International Business Machines Corporation Adaptive partial character recognition
JP4998496B2 (ja) * 2009-03-16 2012-08-15 富士ゼロックス株式会社 画像処理装置、情報処理装置および画像読取装置
US20110082735A1 (en) * 2009-10-06 2011-04-07 Qualcomm Incorporated Systems and methods for merchandising transactions via image matching in a content delivery system
CN102511048B (zh) * 2009-12-31 2015-08-26 塔塔咨询服务有限公司 一种用于预处理包括文本的视频区域的方法及系统
US8526732B2 (en) * 2010-03-10 2013-09-03 Microsoft Corporation Text enhancement of a textual image undergoing optical character recognition
US8509534B2 (en) * 2010-03-10 2013-08-13 Microsoft Corporation Document page segmentation in optical character recognition
US8660371B2 (en) * 2010-05-06 2014-02-25 Abbyy Development Llc Accuracy of recognition by means of a combination of classifiers
US9076068B2 (en) * 2010-10-04 2015-07-07 Datacolor Holding Ag Method and apparatus for evaluating color in an image
KR101506446B1 (ko) * 2010-12-15 2015-04-08 에스케이 텔레콤주식회사 움직임정보 병합을 이용한 부호움직임정보생성/움직임정보복원 방법 및 장치와 그를 이용한 영상 부호화/복호화 방법 및 장치
CN102622724A (zh) * 2011-01-27 2012-08-01 鸿富锦精密工业(深圳)有限公司 外观专利图像切割方法及系统
EP2734956A4 (en) * 2011-07-20 2014-12-31 Tata Consultancy Services Ltd METHOD AND SYSTEM FOR DIFFERENTIATION OF TEXT INFORMATION INTEGRATED IN VIDEO CONTENT INTERNET INFORMATION
JP5776419B2 (ja) * 2011-07-29 2015-09-09 ブラザー工業株式会社 画像処理装置、画像処理プラグラム
JP5842441B2 (ja) 2011-07-29 2016-01-13 ブラザー工業株式会社 画像処理装置およびプログラム
JP5853470B2 (ja) 2011-07-29 2016-02-09 ブラザー工業株式会社 画像処理装置、画像処理プラグラム
JP5796392B2 (ja) 2011-07-29 2015-10-21 ブラザー工業株式会社 画像処理装置、および、コンピュータプラグラム
FI20115821A0 (fi) * 2011-08-24 2011-08-24 Syslore Oy Laite ja menetelmä kuljetusobjektissa olevien kiinnostusalueiden havaitsemiseen
US8494284B2 (en) 2011-11-21 2013-07-23 Nokia Corporation Methods and apparatuses for facilitating detection of text within an image
US9349066B2 (en) 2012-01-06 2016-05-24 Qualcomm Incorporated Object tracking and processing
RU2609069C2 (ru) * 2012-01-31 2017-01-30 Хьюлетт-Паккард Дивелопмент Компани, Л.П. Обнаружение текста в изображениях графических пользовательских интерфейсов
US20130205213A1 (en) * 2012-02-06 2013-08-08 edX Inc. Caption-based navigation for a video player
US8897565B1 (en) 2012-06-29 2014-11-25 Google Inc. Extracting documents from a natural scene image
CN103577817B (zh) * 2012-07-24 2017-03-01 阿里巴巴集团控股有限公司 表单识别方法与装置
US20140193029A1 (en) * 2013-01-08 2014-07-10 Natalia Vassilieva Text Detection in Images of Graphical User Interfaces
CN103049750B (zh) * 2013-01-11 2016-06-15 广州广电运通金融电子股份有限公司 字符识别方法
US8712566B1 (en) * 2013-03-14 2014-04-29 Zazzle Inc. Segmentation of a product markup image based on color and color differences
US9148675B2 (en) * 2013-06-05 2015-09-29 Tveyes Inc. System for social media tag extraction
US9070183B2 (en) * 2013-06-28 2015-06-30 Google Inc. Extracting card data with linear and nonlinear transformations
US9171224B2 (en) * 2013-07-04 2015-10-27 Qualcomm Incorporated Method of improving contrast for text extraction and recognition applications
US9292763B2 (en) * 2013-07-25 2016-03-22 Analog Devices Global System, method, and medium for image object and contour feature extraction
US9076056B2 (en) * 2013-08-20 2015-07-07 Adobe Systems Incorporated Text detection in natural images
US9762950B1 (en) 2013-09-17 2017-09-12 Amazon Technologies, Inc. Automatic generation of network pages from extracted media content
KR20150037061A (ko) 2013-09-30 2015-04-08 삼성전자주식회사 디스플레이장치 및 그 제어방법
US10297287B2 (en) 2013-10-21 2019-05-21 Thuuz, Inc. Dynamic media recording
CN103595861A (zh) * 2013-10-23 2014-02-19 南京邮电大学 一种终端识别电话号码自动拨号或发送短信的方法
US9560449B2 (en) 2014-01-17 2017-01-31 Sony Corporation Distributed wireless speaker system
US9288597B2 (en) 2014-01-20 2016-03-15 Sony Corporation Distributed wireless speaker system with automatic configuration determination when new speakers are added
US9426551B2 (en) 2014-01-24 2016-08-23 Sony Corporation Distributed wireless speaker system with light show
US9369801B2 (en) 2014-01-24 2016-06-14 Sony Corporation Wireless speaker system with noise cancelation
US9866986B2 (en) 2014-01-24 2018-01-09 Sony Corporation Audio speaker system with virtual music performance
US9232335B2 (en) 2014-03-06 2016-01-05 Sony Corporation Networked speaker system with follow me
US9483997B2 (en) 2014-03-10 2016-11-01 Sony Corporation Proximity detection of candidate companion display device in same room as primary display using infrared signaling
US9496922B2 (en) 2014-04-21 2016-11-15 Sony Corporation Presentation of content on companion display device based on content presented on primary display device
US9583149B2 (en) 2014-04-23 2017-02-28 Daniel Stieglitz Automated video logging methods and systems
US9696414B2 (en) 2014-05-15 2017-07-04 Sony Corporation Proximity detection of candidate companion display device in same room as primary display using sonic signaling
US10070291B2 (en) 2014-05-19 2018-09-04 Sony Corporation Proximity detection of candidate companion display device in same room as primary display using low energy bluetooth
US9036083B1 (en) * 2014-05-28 2015-05-19 Gracenote, Inc. Text detection in video
CN104036292A (zh) * 2014-06-12 2014-09-10 西安华海盈泰医疗信息技术有限公司 一种医学影像数字胶片中文字区域提取方法及提取系统
US9904956B2 (en) 2014-07-15 2018-02-27 Google Llc Identifying payment card categories based on optical character recognition of images of the payment cards
US9235757B1 (en) * 2014-07-24 2016-01-12 Amazon Technologies, Inc. Fast text detection
US10419830B2 (en) 2014-10-09 2019-09-17 Thuuz, Inc. Generating a customized highlight sequence depicting an event
US10433030B2 (en) 2014-10-09 2019-10-01 Thuuz, Inc. Generating a customized highlight sequence depicting multiple events
US11863848B1 (en) 2014-10-09 2024-01-02 Stats Llc User interface for interaction with customized highlight shows
US10536758B2 (en) 2014-10-09 2020-01-14 Thuuz, Inc. Customized generation of highlight show with narrative component
US9830508B1 (en) 2015-01-30 2017-11-28 Quest Consultants LLC Systems and methods of extracting text from a digital image
CN104657468B (zh) * 2015-02-12 2018-07-31 中国科学院自动化研究所 基于图像与文本的视频的快速分类方法
US9864734B2 (en) 2015-08-12 2018-01-09 International Business Machines Corporation Clickable links within live collaborative web meetings
US9552527B1 (en) * 2015-08-27 2017-01-24 Lead Technologies, Inc. Apparatus, method, and computer-readable storage medium for determining a rotation angle of text
US9693168B1 (en) 2016-02-08 2017-06-27 Sony Corporation Ultrasonic speaker assembly for audio spatial effect
US9501696B1 (en) 2016-02-09 2016-11-22 William Cabán System and method for metadata extraction, mapping and execution
US9826332B2 (en) 2016-02-09 2017-11-21 Sony Corporation Centralized wireless speaker system
US9826330B2 (en) 2016-03-14 2017-11-21 Sony Corporation Gimbal-mounted linear ultrasonic speaker assembly
US9693169B1 (en) 2016-03-16 2017-06-27 Sony Corporation Ultrasonic speaker assembly with ultrasonic room mapping
US9794724B1 (en) 2016-07-20 2017-10-17 Sony Corporation Ultrasonic speaker assembly using variable carrier frequency to establish third dimension sound locating
US9924286B1 (en) 2016-10-20 2018-03-20 Sony Corporation Networked speaker system with LED-based wireless communication and personal identifier
US9854362B1 (en) 2016-10-20 2017-12-26 Sony Corporation Networked speaker system with LED-based wireless communication and object detection
US10075791B2 (en) 2016-10-20 2018-09-11 Sony Corporation Networked speaker system with LED-based wireless communication and room mapping
US10652592B2 (en) 2017-07-02 2020-05-12 Comigo Ltd. Named entity disambiguation for providing TV content enrichment
US10417516B2 (en) 2017-08-24 2019-09-17 Vastec, Inc. System and method for preprocessing images to improve OCR efficacy
US10572760B1 (en) * 2017-11-13 2020-02-25 Amazon Technologies, Inc. Image text localization
US11594028B2 (en) 2018-05-18 2023-02-28 Stats Llc Video processing for enabling sports highlights generation
US11264048B1 (en) 2018-06-05 2022-03-01 Stats Llc Audio processing for detecting occurrences of loud sound characterized by brief audio bursts
US11025985B2 (en) 2018-06-05 2021-06-01 Stats Llc Audio processing for detecting occurrences of crowd noise in sporting event television programming
CN109271999B (zh) * 2018-09-06 2020-12-22 北京京东尚科信息技术有限公司 图像的处理方法、装置和计算机可读存储介质
US10623859B1 (en) 2018-10-23 2020-04-14 Sony Corporation Networked speaker system with combined power over Ethernet and audio delivery
WO2020163972A1 (en) * 2019-02-17 2020-08-20 Vizetto Inc. Systems and methods for generating documents from video content
US11176410B2 (en) * 2019-10-27 2021-11-16 John Snow Labs Inc. Preprocessing images for OCR using character pixel height estimation and cycle generative adversarial networks for better character recognition
US11521400B2 (en) 2019-12-06 2022-12-06 Synamedia Limited Systems and methods for detecting logos in a video stream
CN111062365B (zh) * 2019-12-30 2023-05-26 上海肇观电子科技有限公司 识别混合排版文字的方法、设备、芯片电路和计算机可读存储介质
US20230145252A1 (en) * 2020-01-24 2023-05-11 Oswego Innovations Two Inc. Portable tire scanners and related methods and systems
CN111798542B (zh) * 2020-09-10 2020-12-22 北京易真学思教育科技有限公司 模型训练方法、数据处理方法及装置、设备、存储介质
US11544828B2 (en) 2020-11-18 2023-01-03 Disney Enterprises, Inc. Automatic occlusion detection
US11494944B2 (en) 2020-11-18 2022-11-08 Disney Enterprises, Inc. Automatic low contrast detection
JP2022092119A (ja) * 2020-12-10 2022-06-22 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
CN112949755B (zh) * 2021-03-29 2022-09-13 中国科学院合肥物质科学研究院 一种基于图像结构信息的ocr数据合成方法
CN113362319A (zh) * 2021-06-30 2021-09-07 深圳市创想三维科技股份有限公司 基于图像处理的激光打印方法和装置、激光打印机、计算机可读存储介质
US20240046669A1 (en) * 2022-08-08 2024-02-08 Capital One Services, Llc Systems and methods for extracting in-video moving text in live video streams

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1146478A2 (en) * 2000-03-29 2001-10-17 Matsushita Electrical Ind. Co. A method for extracting titles from digital images
CN1418354A (zh) * 2000-03-14 2003-05-14 英特尔公司 通用的图像中的文本定位
US6614930B1 (en) * 1999-01-28 2003-09-02 Koninklijke Philips Electronics N.V. Video stream classifiable symbol isolation method and system

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3361124B2 (ja) 1991-07-30 2003-01-07 ゼロックス・コーポレーション テキストを含む2次元画像上での画像処理方法と画像処理装置
US6400996B1 (en) 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
ATE203844T1 (de) * 1992-03-20 2001-08-15 Commw Scient Ind Res Org Gegenstands-überwachungsystem
US5262860A (en) 1992-04-23 1993-11-16 International Business Machines Corporation Method and system communication establishment utilizing captured and processed visually perceptible data within a broadcast video signal
DE69519980T2 (de) 1994-12-28 2001-06-07 Siemens Corp Res Inc Verfahren und Gerät zur Detektion und Interpretation von Untertiteln in digitalen Videosignalen
JP2007058882A (ja) * 1996-09-27 2007-03-08 Fujitsu Ltd パターン認識装置
US6175844B1 (en) * 1997-05-29 2001-01-16 Adobe Systems Incorporated Ordering groups of text in an image
US6587586B1 (en) 1997-06-12 2003-07-01 Siemens Corporate Research, Inc. Extracting textual information from a video sequence
US6658662B1 (en) 1997-06-30 2003-12-02 Sun Microsystems, Inc. Retrieving information from a broadcast signal
US6249283B1 (en) 1997-07-15 2001-06-19 International Business Machines Corporation Using OCR to enter graphics as text into a clipboard
US6219453B1 (en) 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6100941A (en) 1998-07-28 2000-08-08 U.S. Philips Corporation Apparatus and method for locating a commercial disposed within a video data stream
US6204842B1 (en) 1998-10-06 2001-03-20 Sony Corporation System and method for a user interface to input URL addresses from captured video frames
GB2352915A (en) 1999-08-06 2001-02-07 Television Monitoring Services A method of retrieving text data from a broadcast image
US6469749B1 (en) 1999-10-13 2002-10-22 Koninklijke Philips Electronics N.V. Automatic signature-based spotting, learning and extracting of commercials and other video content
US8528019B1 (en) 1999-11-18 2013-09-03 Koninklijke Philips N.V. Method and apparatus for audio/data/visual information
JP2003528498A (ja) 2000-03-21 2003-09-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチメディア出力装置の自動コンテンツ増強のためのシステム及び方法
JP3923243B2 (ja) * 2000-07-24 2007-05-30 独立行政法人科学技術振興機構 カラー文書画像からの文字抽出方法
AU2001293001A1 (en) 2000-09-22 2002-04-02 Sri International Method and apparatus for portably recognizing text in an image sequence of scene imagery
US20020083464A1 (en) 2000-11-07 2002-06-27 Mai-Ian Tomsen System and method for unprompted, context-sensitive querying during a televison broadcast
US6778700B2 (en) 2001-03-14 2004-08-17 Electronics For Imaging, Inc. Method and apparatus for text detection
JP2003101774A (ja) * 2001-09-25 2003-04-04 Ricoh Co Ltd 画像処理装置
US7339992B2 (en) 2001-12-06 2008-03-04 The Trustees Of Columbia University In The City Of New York System and method for extracting text captions from video and generating video summaries
US7073193B2 (en) 2002-04-16 2006-07-04 Microsoft Corporation Media content descriptions
KR100483451B1 (ko) 2002-05-27 2005-04-15 주식회사 아이큐브 컨텐츠 파일과 네비게이션 정보의 편집처리방법 및 그 방법에 의하여 정보가 기록된 기록매체
US20040117405A1 (en) 2002-08-26 2004-06-17 Gordon Short Relating media to information in a workflow system
CN1714566A (zh) 2002-11-22 2005-12-28 皇家飞利浦电子股份有限公司 用于接收包含可以用于编程所述接收的文本信息的信号的设备
RU2234734C1 (ru) 2002-12-17 2004-08-20 Аби Софтвер Лтд. Способ многоэтапного анализа информации растрового изображения
JP4112968B2 (ja) * 2002-12-26 2008-07-02 富士通株式会社 ビデオテキスト処理装置
US7139033B2 (en) 2003-02-19 2006-11-21 Sharp Laboratories Of America, Inc. System and method for television frame capture and display
US8285727B2 (en) 2003-03-06 2012-10-09 Thomson Licensing S.A. Simplified searching for media services using a control device
EP1463301A1 (en) * 2003-03-19 2004-09-29 Thomson Licensing S.A. Method for identification of tokens in video sequences
US7921449B2 (en) 2003-03-27 2011-04-05 Sony Corporation Smooth still image capture
US20050246747A1 (en) 2003-03-31 2005-11-03 Matsushita Electric Industrial Co., Ltd. Utilization of data broadcasting technology with handheld control apparatus
KR100487538B1 (ko) 2003-05-01 2005-05-03 주식회사 알티캐스트 Tv 플라자 기능을 갖는 셋톱박스를 이용한 정보브라우징 방법
US20070028282A1 (en) 2003-09-12 2007-02-01 Koninklijke Philips Electronics N.V. Start up method for a television apparatus
US20060008260A1 (en) 2004-01-12 2006-01-12 Yu-Chi Chen Disk player, display control method thereof, data analyzing method thereof
US8132204B2 (en) 2004-04-07 2012-03-06 Visible World, Inc. System and method for enhanced video selection and categorization using metadata
US20060053470A1 (en) 2004-04-30 2006-03-09 Vulcan Inc. Management and non-linear presentation of augmented broadcasted or streamed multimedia content
US20060047704A1 (en) 2004-08-31 2006-03-02 Kumar Chitra Gopalakrishnan Method and system for providing information services relevant to visual imagery
US7716714B2 (en) 2004-12-01 2010-05-11 At&T Intellectual Property I, L.P. System and method for recording television content at a set top box
US20060179453A1 (en) 2005-02-07 2006-08-10 Microsoft Corporation Image and other analysis for contextual ads
US7570816B2 (en) * 2005-03-31 2009-08-04 Microsoft Corporation Systems and methods for detecting text
US7607582B2 (en) 2005-04-22 2009-10-27 Microsoft Corporation Aggregation and synchronization of nearby media
US7734092B2 (en) * 2006-03-07 2010-06-08 Ancestry.Com Operations Inc. Multiple image input for optical character recognition processing systems and methods
JP2008079190A (ja) 2006-09-25 2008-04-03 Olympus Corp テレビジョン画像キャプチャシステム
US20080091713A1 (en) * 2006-10-16 2008-04-17 Candelore Brant L Capture of television metadata via OCR
TWI351877B (en) 2006-11-28 2011-11-01 Mstar Semiconductor Inc System and method for tv frame capture and printin

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6614930B1 (en) * 1999-01-28 2003-09-02 Koninklijke Philips Electronics N.V. Video stream classifiable symbol isolation method and system
CN1418354A (zh) * 2000-03-14 2003-05-14 英特尔公司 通用的图像中的文本定位
EP1146478A2 (en) * 2000-03-29 2001-10-17 Matsushita Electrical Ind. Co. A method for extracting titles from digital images

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104106078A (zh) * 2012-01-09 2014-10-15 高通股份有限公司 光学字符辨识(ocr)高速缓冲存储器更新
CN104077556A (zh) * 2013-03-26 2014-10-01 现代自动车株式会社 识别模压字符的设备和方法,和利用所述设备和方法检测字符的模压深度的系统
CN104077556B (zh) * 2013-03-26 2019-06-04 现代自动车株式会社 识别凹雕字符的系统
CN104751142A (zh) * 2015-04-01 2015-07-01 电子科技大学 一种基于笔划特征的自然场景文本检测算法
CN105095899A (zh) * 2015-08-23 2015-11-25 华南理工大学 一种图片中相关文本的自动框选方法
CN105095899B (zh) * 2015-08-23 2018-10-09 华南理工大学 一种图片中相关文本的自动框选方法
US10755594B2 (en) 2015-11-20 2020-08-25 Chrysus Intellectual Properties Limited Method and system for analyzing a piece of text
CN109284751A (zh) * 2018-10-31 2019-01-29 河南科技大学 基于频谱分析和svm的文字定位的非文本滤除方法

Also Published As

Publication number Publication date
EP2321767A1 (en) 2011-05-18
US8320674B2 (en) 2012-11-27
KR20110056380A (ko) 2011-05-27
WO2010027933A1 (en) 2010-03-11
KR101452562B1 (ko) 2014-10-21
WO2010027933A9 (en) 2010-11-04
CN102144236B (zh) 2013-08-21
JP2012502359A (ja) 2012-01-26
CA2735824A1 (en) 2010-03-11
US20100054585A1 (en) 2010-03-04
MX2011002293A (es) 2011-05-24
JP5588987B2 (ja) 2014-09-10

Similar Documents

Publication Publication Date Title
CN102144236B (zh) 用于图像和视频ocr的文本定位
Gllavata et al. A robust algorithm for text detection in images
US7120318B2 (en) Automatic document reading system for technical drawings
Korus et al. Multi-scale fusion for improved localization of malicious tampering in digital images
CN101122953B (zh) 一种图片文字分割的方法
JP5050075B2 (ja) 画像判別方法
US8249343B2 (en) Representing documents with runlength histograms
US7171042B2 (en) System and method for classification of images and videos
CN102332096B (zh) 一种视频字幕文本提取和识别的方法
Yang et al. A framework for improved video text detection and recognition
Anthimopoulos et al. Detection of artificial and scene text in images and video frames
CA2502529A1 (en) Model of documents and method for automatically classifying a document
CN104182722A (zh) 文本检测方法和装置以及文本信息提取方法和系统
CN115131590B (zh) 目标检测模型的训练方法、目标检测方法及相关设备
JP5796107B2 (ja) テキスト検出の方法及び装置
CN104182744A (zh) 文本检测方法和装置以及文本信息提取方法和系统
Karanje et al. Survey on text detection, segmentation and recognition from a natural scene images
Grover et al. Text extraction from document images using edge information
Lue et al. A novel character segmentation method for text images captured by cameras
JP5283267B2 (ja) コンテンツ識別方法及び装置
Hamdoun et al. Image Processing in Automatic License Plate Recognition Using Combined Methods
Boiangiu et al. Automatic Correction of OCR Results Using Similarity Detection for Words and Fonts
Cheng et al. Caption location and extraction in digital video based on SVM
Zhiguo et al. An automatic system for text location and extraction in digital video based using SVM
SANDANAKISHNAN Enhancing LBP Features for Object Recognition using Machine Learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130821

Termination date: 20150831

EXPY Termination of patent right or utility model