CN103765441A - 使用图像区域的文本检测 - Google Patents

使用图像区域的文本检测 Download PDF

Info

Publication number
CN103765441A
CN103765441A CN201280041787.5A CN201280041787A CN103765441A CN 103765441 A CN103765441 A CN 103765441A CN 201280041787 A CN201280041787 A CN 201280041787A CN 103765441 A CN103765441 A CN 103765441A
Authority
CN
China
Prior art keywords
image
region
geometric
group
spot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201280041787.5A
Other languages
English (en)
Inventor
丘衡一
延奇宣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN103765441A publication Critical patent/CN103765441A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

一种方法包含接收在图像数据中识别的一组图像区域的指示。所述方法进一步包含从所述组图像区域中选择若干图像区域以用于至少部分基于图像区域稳定性进行文本提取。

Description

使用图像区域的文本检测
本申请案要求2011年9月6日申请的第61/531,547号美国临时专利申请案、2011年10月5日申请的第61/543,548号美国临时专利申请案和2012年3月6日申请的第13/412,853号美国非临时申请案的优先权,所述申请案中的每一者以全文引用的方式并入本文中。
技术领域
本发明总地来说涉及图像处理。
背景技术
技术进步已经产生更小且更强大的计算装置。举例来说,当前存在多种便携式个人计算装置,包含无线计算装置,例如便携式无线电话、个人数字助理(PDA)和寻呼装置,其体积小,重量轻,且易于由用户携带。更具体来说,例如蜂窝电话和因特网协议(IP)电话等便携式无线电话可经由无线网络传达语音和数据包。此外,许多此类无线电话包含并入其中的其它类型的装置。举例来说,无线电话还可包含数码照像机、数码摄像机、数码记录器,和音频文件播放器。
计算装置可以执行文本检测以识别已通过装置的相机俘获的图像中的文本。常规文本检测可能明确地或隐含地必需图像中的文本的色彩不同于图像的背景色彩。此常规文本检测可能无法可靠地检测具有与图像的背景基本上相同色彩的文本。或者,可以使用色彩分段方法来进行文本检测。色彩分段可以实现对于具有与图像背景基本上相同色彩的文本的文本检测。但是,色彩分段对于基于个人计算机的实施方案往往在计算方面要求很高,而且可能不适合例如无线电话等便携型电子装置。
在执行二进制化进程以产生将输入图像的检测到的文本部分与输入图像的非文本部分对比的二值图像之后,可以对二值图像应用投影轮廓分析,以便估计文本行的歪斜(例如文本行偏离于水平方向的角度)和/或估计文本的倾斜(例如比如斜体文本的文本倾斜角度)。对于倾斜和歪斜的补偿可以实现对文本的更加稳固的字符辨识。但是,二值图像中的文本的精确的投影轮廓分析同样在计算方面要求很高,并且可能不适合便携型电子装置。
发明内容
基于斑点的文本提取包含将图像中的文本斑点定位为稳定的、曲线的及非重叠的斑点。可在投影轮廓分析之前执行斑点抽象化以减少投影轮廓分析的计算负荷。可基于投影轮廓分析来补偿文本的倾斜和歪斜以用于后续的字符辨识处理。
在特定实施例中,一种方法包含接收在图像数据中识别的一组图像区域的指示,以及从所述组图像区域选择若干图像区域以用于至少部分基于图像区域稳定性进行文本提取。在一些实施例中,可进一步至少部分基于图像区域曲线性来选择所述图像区域。
在另一特定实施例中,一种设备包含图像区域提取器,其经配置以产生在图像数据中识别的一组图像区域的指示。所述设备还包含文本图像区域选择器,其经配置以从所述组图像区域选择若干图像区域以用于至少部分基于图像区域稳定性进行文本提取。
在另一特定实施例中,一种方法包含识别对应于图像区域的几何图形。所述图像区域对应于所述在图像数据中识别的文本的至少一部分。所述方法进一步包含至少部分基于所述几何图形而确定文本的限定框。
在一些实施例中,可利用配合错误。举例来说,响应于第一几何图形相对于图像区域的第一配合错误超过阈值,所述方法可包含识别对应于所述图像区域的多个几何图形。
在一些实施例中,可利用投影轮廓分析。举例来说,所述方法可包含使用多个投影线来确定所述几何图形的投影轮廓。所述投影轮廓的值可对应于每一特定投影线,且可基于所述特定投影线与几何图形的相交点之间的距离。
在另一特定实施例中,所述方法可包含识别对应于图像区域的多个几何图形,所述图像区域中的每一者对应于文本的至少一部分。可确定所述多个几何图形的第一投影轮廓来估计所述文本的歪斜。可确定所述多个几何图形的第二投影轮廓来估计所述文本的倾斜。
在另一特定实施例中,所述方法可包含从一组图像区域提取若干图像区域,所述图像区域中的每一者对应于所述文本的至少一部分。所述方法可进一步包含将所述所提取的图像区域分割为多个群集,且独立于其它群集中的每一者来确定每一群集的投影轮廓。
在另一特定实施例中,所述方法可包含对对应于在在图像数据中识别的图像区域的第一组几何图形执行第一投影轮廓分析。所述第一投影轮廓分析可将所述第一组几何图形分割为第二组几何图形和第三组几何图形。所述方法可进一步包含对所述第二组几何图形执行第二投影轮廓分析。所述第二投影轮廓分析可将所述第二组几何图形分割为第四组几何图形和第五组几何图形。
由所揭示的实施例中的至少一者提供的特定优点包含与通常需要与背景色彩有区别的文本色彩的常规二值化技术相比,在不需要与背景色彩有区别的文本色彩的情况下辨识图像内的文本的能力,以及与色彩分段技术相比减小的计算需求。
在检视整个申请案后,将明白本发明的其它方面、优点和特征,申请案包含以下部分:附图说明、具体实施方式和权利要求书。
附图说明
图1是用以提供文本检测的系统的特定实施例的框图;
图2是图1的系统可以执行的文本检测方法的流程图;
图3图解说明包含图1的系统可以检测到的文本的图像的实例;
图4是描绘图1的系统可以执行的斑点提取的说明性实例的图;
图5是描绘图4的斑点提取的结果的说明性实例的图;
图6图解说明图1的系统可以检测到的文本图像数据的实例;
图7是描绘图1的系统可以执行的投影轮廓分析的说明性实例的图;
图8是描绘图1的系统可以执行的斑点抽象化的说明性实例的图;
图9图解说明图1的系统可以执行的文本效果补偿的实例;
图10图解说明图1的系统可以执行的文本效果补偿的另外实例;
图11是描绘图1的系统可以执行的倾斜补偿的说明性实例的图;
图12是描绘图1的系统可以检测和校正的文本歪斜和倾斜的说明性实例的图;
图13图解说明图1的系统可以执行的对抽象化斑点的中心线处理的特定实施例;
图14是描绘图1的系统可以执行的笔划宽度确定的说明性实例的图;
图15描绘基于斑点的文本检测的特定说明性实施例的流程图;
图16图解说明图1的系统可以执行的斑点抽象化的实例;
图17描绘图1的系统可以执行的使用几何图形的斑点抽象化方法的特定说明性实施例的流程图;
图18是描绘图1的系统可以执行的斑点投影的说明性实例的图;
图19描绘图1的系统可以执行的使用几何图形的斑点投影方法的特定说明性实施例的流程图;
图20是描绘图1的系统可以执行的投影轮廓分析的说明性实例的图;
图21描绘图1的系统可以执行的投影轮廓分析方法的特定说明性实施例的流程图;
图22是描绘图1的系统可以执行的分割一组斑点的说明性实例的图;
图23描绘图1的系统可以执行的分割一组斑点的方法的特定说明性实施例的流程图;
图24是描绘图1的系统可以执行的对于几何图形的多个投影轮廓分析的说明性实例的图;
图25描绘图1的系统可以执行的对于几何图形执行多个投影分析的方法的特定说明性实施例的流程图;以及
图26是包含基于斑点的文本提取器的便携型装置的框图。
具体实施方式
参看图1,图解说明包含基于图像区域的文本检测(例如斑点提取)的系统100的特定实施例。系统100包含文本斑点提取器104,其耦合到斑点抽象化器112。斑点抽象化器112耦合到文本区域检测器和二进制化引擎114。文本斑点提取器104经配置以接收图像数据102并且在斑点提取器106处识别斑点。“斑点”是图像数据102的基本上均质的区域。举例来说,斑点提取器106可经配置以扫描图像数据102,并且识别图像数据102的具有基本上不变的像素色彩值或强度的区域。为了说明,可以识别图像色彩空间的区域,并且具有经识别的色彩空间内的像素值的一组连续像素可以被识别为斑点。斑点提取器106可以是“通用”斑点提取器,其经配置以识别图像数据中的斑点,而未具体经配置以检测任何斑点是文本候选还是非文本候选。可以向文本斑点选择器107提供斑点提取器106识别的斑点的指示105。举例来说,所述指示105可包含经识别的斑点的列表,例如每一经识别的斑点的索引和对应于每一经识别的斑点的图像数据102的像素的列表。作为另一实例,所述指示105可包含指向斑点像素数据的指针的列表或阵列。作为另一实例,所述指示105可包含图像数据102或图像数据102的子集,并且针对每一像素可以指示所述像素所属于的每一斑点(如果存在的话)。
在特定实施例中,文本斑点选择器107包含稳定并且曲线的斑点选择器108和重叠区域移除器110。文本斑点选择器107可经配置以接收斑点提取器106所识别的斑点的指示105并且选择稳定并且曲线的一组斑点。举例来说,斑点的稳定性可以指示斑点的大小不会随阈值的变化而大幅改变。为了说明,阈值可以对应于图像色彩空间中的一个区域的边界,并且色彩空间区域的边界中的较小变化可能导致稳定斑点的大小的相对较小变化,而不稳定斑点可能会响应于色彩空间区域边界中的较小变化而显著改变大小。在定位了一个或一个以上稳定斑点后,稳定并且曲线的斑点选择器108即刻可经配置以确定所识别稳定斑点是否也是曲线的。如本文所使用,“曲线的”对应于具有与斑点的大小相比较小的笔划宽度。举例来说,包含字母“s”的斑点可以具有对应于字母“s”的外部尺寸的大小,并且可以具有对应于字母的横截面的厚度的笔划宽度。因为文本往往是曲线的(例如,字母和字符往往是由可以通过笔或其它书写工具形成的直线和曲线形成的),所以不是曲线的斑点可能不被视为文本候选。稳定并且曲线的斑点选择器108在识别出满足稳定性要求并且进一步满足曲线性要求的斑点后,即刻可以向重叠区域移除器110提供所识别的斑点的指示。
重叠区域移除器110可以移除被斑点提取器106识别的并且与稳定并且曲线的斑点选择器108选择的特定稳定并且曲线的斑点重叠的斑点。为了说明,斑点提取器106可以识别图像的单个区域内可以彼此重叠的多个斑点。因为重叠斑点可能会在文本检测中引入模糊,所以一旦识别出可能对应于辨识出的字母或对应于其它文本的稳定并且曲线的斑点,重叠区域移除器110就定位和移除所有其它与经识别的稳定并且曲线的斑点重叠的斑点。可假设图像数据102中出现的字母或其它文本不彼此重叠。因此,一旦一个斑点被选择为满足字母或文本的准则,就可以移除任何与所选的斑点重叠的斑点。在重叠区域移除器110已经移除重叠斑点之后,稳定并且曲线的斑点选择器108就可以继续处理斑点提取器106所识别的所述组斑点中的其余斑点,以便识别符合稳定性和曲线要求的另外斑点,直到文本斑点选择器107已经识别出一组稳定、曲线的并且不重叠的斑点为止。文本斑点提取器104输出这组被识别为很可能对应于图像数据102中的文本的斑点。
在特定实施例中,斑点抽象化器112经配置以对从文本斑点提取器104接收到的斑点执行一个或一个以上计算,并且执行分析以辅助文本区域检测器和二进制化引擎114处的操作。举例来说,如相对于图8所解释,斑点抽象化器112可经配置以确定对应于所识别的斑点的一组几何形状,并且处理所述几何形状以确定歪斜、倾斜或其它可能会影响后来的光学字符辨识(OCR)处理的文本辨识的效果。举例来说,通过将所识别的斑点抽象化成几何图形而不是成组的像素,可以显著减少计算要求。减少的计算要求可以使得能够在手持式装置或其它与桌上型计算系统相比可以具有相对有限处理资源的装置上执行文本提取。
文本区域检测器和二进制化引擎114经配置以从斑点提取器112接收输出,并且执行文本区域检测和二进制化。举例来说,文本区域检测器和二进制化引擎114可经配置以定位图像数据102中的对应于文本的区域,并且产生具有对应于具有一值的文本区域的像素和对应于具有另一值的非文本区域的像素的二值图像,例如具有黑色背景上的白色文本或白色背景上的黑色文本的黑白图像。文本区域检测器和二进制化引擎114可以产生文本图像数据116,其可包含将检测到的文本与图像的非文本区域对比的二值图像。图9到11中图解说明文本图像数据的实例。
参看图2,使用斑点的文本辨识方法的特定实施例被描绘并且总地来说标示为200。可以在基于斑点的图像处理文本引擎(例如图1的系统100)处执行方法200。方法200包含在202处识别斑点。举例来说,可以接收图像数据,并且可以对接收到的图像数据执行一个或一个以上测试或过滤,以便识别图像的基本上均质的区域。为了说明,可以选择像素值的一个或一个以上范围,并且可以将成组的像素识别为在连续区域中并且具有在所选范围中的值。作为另一实例,可以识别特定像素,并且可以定位邻近于具有在所识别的像素的像素值的预定义范围内的像素值的所识别像素的其它像素。以此方式,可以将图像的具有基本上均质的像素值或色彩空间值的区域识别为斑点。
在204-212处,在处理环路中对所识别的斑点进行处理以便识别测试候选(相对于图4描绘另一实例)。在204处选择所识别的斑点中的最稳定的斑点。举例来说,可以处理所述斑点中的每一者以便确定每一斑点的特定稳定性值。为了说明,可以使用不同阈值多次执行一个可以类似于二进制化的进程。可以确定响应于所识别斑点中的每一者的阈值变化的斑点大小变化。举例来说,斑点的大小相对于阈值变化的变化程度或衍生值可以被识别并且用作稳定性的测量标准。在识别出所识别斑点中的最稳定斑点之后,在206处确定斑点是否为曲线的。举例来说,可以将斑点的笔划宽度与斑点的大小比较。相对于图14图解说明斑点曲线确定的实例。
响应于在206处确定所识别斑点是曲线的,在208处移除重叠的斑点。举例来说,在208处可以移除任何与被曲线的斑点占据的区域重叠的斑点。因此,在假设文本不与图像内的其它文本重叠的情况下,可以移除所识别的斑点组中的重叠斑点所引起的模糊。响应于在206处确定斑点不是曲线的,或在208处移除所识别曲线的斑点的区域中的重叠斑点之后,在210处处理继续以确定是否剩下任何更多的所识别斑点有待处理。响应于在210处确定剩下更多的斑点有待处理,在212处选择下一个最稳定斑点,并且在206处处理继续以确定下一个最稳定斑点是否为曲线的。处理可以一直继续,直到在202处识别的所有斑点都已经被处理并且被识别为稳定的曲线的斑点或被移除为止。
在处理期间,可以响应于在206处确定斑点不是曲线的或响应于确定斑点与被确定为曲线的另一斑点重叠而在208处从所述组所识别的斑点中移除一个斑点。在其它实施例中,可以响应于确定斑点不是稳定的来移除斑点。当在210处确定了没有更多的斑点有待处理时(例如每个所识别的斑点已经在206处被确定为曲线的或已被移除),在214处对其余的斑点(即尚未移除的斑点)进行抽象化。举例来说,可以识别对应于所述斑点的参数化的几何形状以进行额外图像文本处理,如相对于图8描述。在214处对其余的斑点进行抽象化之后,在216处检测一个文本区域并且产生一个或一个以上归一化的二值图像。可以基于对其余的斑点进行抽象化的结果来执行检测文本区域和产生归一化的二值图像。举例来说,作为说明性实例,归一化可包含处理图像数据以移除包含歪斜和倾斜的文本效果。
通过使用斑点识别和应用选择曲线的并且稳定的斑点的准则来执行文本提取,方法200能够在与基于色彩分段的方法相比大幅减少的处理复杂度下检测输入图像的字符类型的区域。举例来说,色彩分段可能必需对于基于个人计算机的实施方案在计算方面要求很高的处理。此外,通过执行斑点提取和斑点抽象化,可以高效地产生归一化的二值图像,而并不明确地或隐含地要求图像数据具有单个背景色彩和不同于所述背景色彩的单个文本色彩。而是,基于图像的满足非重叠的、稳定的并且曲线的准则的均质区域(均质区域可以是任何色彩)来识别文本。图3中图解说明其中可以使用图1的系统100或通过执行图2的方法200来识别文本的图像的实例。
图3图解说明含有可以使用斑点提取检测的文本的图像302、304和306。图像302包含其中文本色彩和背景色彩相同的文本。不基于斑点提取的二进制化引擎(例如基于色彩的二进制化)可能无法正确地识别第一图像302中的文本,因为二进制化引擎可能预期文本色彩不同于背景色彩。但是,相对于图1和图2描述的斑点提取和抽象化可以将字母中的每一者识别为不同色彩的边界内的均质区域,并且因而可以正确地识别图像302中的文本。
图像304包含具有基本上类似于图像背景色彩的色彩并且与不同色彩的区域交界的亚洲字符文本。常规文本提取引擎可能难以识别与图像背景共享相同色彩并且被不同色彩的像素的大型区域包围的文本字符。
图像306包含叠加在具有复杂色彩方案(具有许多边缘和各种色彩)的背景图象上的白色文本的标志。因为图像306中的文本的背景具有多种色彩并且比较复杂,并且因为文本的色彩(例如词语“fish”中的“ish”)类似于背景的部分,所以常规二进制化和文本提取可能不能够区分所述文本。但是,图2的基于斑点的方法200使得能够识别图像306中的文本,如相对于图4所图解说明。
参看图4,图解说明图2的方法200的应用的总图被图解说明并且总地来说标示为400。检查对应于图3的图像306的图像402以进行文本提取。在处理期间,可以识别一组斑点并且评估其稳定性。举例来说,对图像402的区域404的处理可能会引起识别多个斑点。可以将斑点406识别为所识别斑点中最稳定的斑点。斑点406对应于图像402中基本上类似色彩的大型区域。斑点406可以是涵盖来自图像402中的短语“fish &chips”的字母“ish”和“&”的多个重叠斑点中的最大斑点。
在将斑点406识别为图像402中或区域404中的一组所识别斑点中的最稳定斑点之后,确定408斑点406是否为曲线的。因为斑点406的笔划宽度与斑点406的大小相比较大(如相对于图14更详细描述),所以确定斑点406不大可能对应于图像402中的文本。
识别所述组所识别斑点中的下一个最稳定斑点。举例来说,另一斑点410(与斑点406重叠)可以被识别为下一个最稳定斑点。斑点410被检查并且被确定为不是曲线的。因此,移除斑点410不予考虑。可以基于斑点410的稳定性并且独立于斑点410是否与先前检查的斑点406重叠来选择斑点410进行曲线测试。
当另一斑点412被识别为下一个最稳定斑点时,检查斑点412的曲线性。确定斑点412不满足曲线性的约束,并且将其移除而不予考虑。当斑点416(接近地对应于词语“fish”中的字母“s”)被识别为下一个最稳定斑点时,测试斑点416的曲线性,并且确定414斑点416是曲线的。因为斑点416是稳定的曲线的斑点,所以斑点416可能很可能对应于文本并且与斑点416重叠的斑点被移除。类似地,当斑点418(对应于字母“i”)被识别为下一个最稳定斑点并且被确定为是曲线的时,移除与斑点418重叠的斑点而不予考虑。
可以将斑点420识别为下一个最稳定斑点。斑点420包含字母“c”并且还包含图像背景的具有与字母“c”基本上类似色彩的部分。斑点420被识别为不是曲线的,并且被移除而不予考虑。斑点420与仅含有字母“c”的斑点重叠,所述斑点可以被确定为下一个最稳定斑点并且被确定为是曲线的。因此,保留含有字母“c”的斑点作为文本的候选物。以此方式,使用稳定性和曲线准则的斑点提取可以成功地识别图像402的与类似色彩的背景重叠的字母,从而显露出对应于区域404中的文本的斑点。
虽然斑点406被描述为最稳定的斑点,并且重叠斑点410、412和416被描述为连续的下一个最稳定斑点,但是应理解,斑点稳定性的确定可以与斑点大小和/或重叠无关。举例来说,可以确定斑点406是最稳定斑点。在确定斑点406不是曲线的之后,可以确定斑点416是下一个最稳定斑点。在这个实例中,在确定斑点416是曲线的之后,因为与曲线的斑点416重叠,所以重叠斑点410和412被移除而不予考虑,而无需测试斑点410或412是否为曲线的。作为另一实例,可以确定斑点416(而非斑点406)是最稳定斑点。在确定斑点416是曲线的之后,移除与斑点416重叠的斑点406、410和412而不予考虑,而无需确定斑点406、410和410中的任一者是否为曲线的。
参看图5,图解说明对应于图4的图像402的图像502和根据图2的方法200执行图像504的区的斑点提取的结果。一组斑点506对应于图像502的稳定的、曲线的并且非重叠的区段。在执行文本区域检测和产生归一化的二值图像之前,可以向斑点抽象化器提供所述组斑点506以便进行抽象化,如相对于图8更详细地描述。
参看图6,基于斑点的文本提取的实例600包含第一图像602和第一图像602的斑点提取/归一化结果,图解说明为斑点组603。所述斑点组603图解说明已经根据斑点提取和稳定性、曲线性和非重叠准则的应用而识别了第一图像602中的标志中存在的字母中的每一者。已经通过移除文本效果以产生所述组斑点603而将所识别的斑点归一化。
实例600进一步包含第二图像604,其包含具有与背景不同色彩的第一组字母“boo”和具有与背景相同色彩并且具有画出每一字母的白色边界的第二组字母“hoo”。相对于图1-5描述的斑点提取进程可以产生提取出的斑点,通过移除文本效果可以将所述斑点归一化以产生斑点组605。斑点组605包含对应于字母“boo”的第一组斑点和对应于字母“hoo”的第二组斑点。
参看图7,投影轮廓分析的实例被图解说明并且总地来说标示为700。第一实例702图解说明使用遵循第一投影方向(其与一系列经识别的斑点交叉)的第一组投影线706的投影轮廓分析,并且产生文本行的投影轮廓708。投影轮廓分析的第二实例704图解说明遵循第二投影方向的第二组投影线710,从而产生文本行的较大投影轮廓712。
可以对通过图1的文本斑点提取器104识别或相对于图2的方法200的斑点提取部分描述的斑点执行投影轮廓分析。投影轮廓分析可包含选择多个待测试的方向(例如M个方向),并且可以对图像的具有宽度W和高度H的区域的每一像素执行投影轮廓分析,从而产生大约W×H×M的执行投影轮廓分析的总复杂度。投影轮廓分析可包含选择最小所确定的投影轮廓(例如选择小于投影轮廓712的投影轮廓708),并且可包含识别对应于投影轮廓的线(即产生最小计算投影轮廓的线)相对于水平方向的角度的文本歪斜。虽然可以对作为像素群组提取的斑点执行图7中图解说明的投影轮廓分析,但是通过在投影轮廓分析之前执行斑点抽象化可以显著减少确定文本歪斜和倾斜的计算复杂度,如相对于图8更详细解释。
参看图8,斑点抽象化的实例被描绘并且总地来说标示为800。图像802包含具有数字和韩语字符的文本。对应于图像802的斑点提取产生图像804中图解说明的斑点的识别。图像804将所提取的斑点图解说明为白色像素对照黑色背景。可以通过斑点抽象化进程处理图像804中提取的斑点,以便产生图像806中的经抽象化的斑点。
可以通过定位基本上覆盖或涵盖所识别的斑点中的每一者的椭圆形(或其它形状)来执行斑点抽象化。可以使用参数图形,例如椭圆形、三角形、矩形或其它可以使用相对很少数目的参数来识别的形状,作为使用所识别的斑点作为各个像素的集合(并且因而具有等于每一斑点中的像素数目的数目个参数)的计算成本较低的替代方案。如图像806中描绘的斑点抽象化结果中图解说明,已经使来自斑点提取的每一斑点与椭圆形(例如代表性椭圆形807)配合。可以根据能量最小化技术、最小平方误差技术或一个或一个以上其它技术来选择椭圆形,以便获得几何形状与其对应斑点的配合,使得几何形状总地来说对应于与斑点相同的跨距和倾斜角度。
图8包含一个包含文本的图像808的第二实例。在包含对应于图像808中的文本的斑点并且还包含一个或一个以上其它非文本斑点的图像810中提供斑点提取的结果。在图像812中描绘执行斑点抽象化的结果。如图解说明,图像812中的斑点抽象化的结果包含一组椭圆形,每一椭圆形总地来说对应于对应斑点的大小,并且具有基本上与其对应斑点的定向对准的定向(即长轴)。已经因为非文本斑点的对应椭圆形无法满足一个或一个以上最小大小阈值而排除非文本斑点。
在执行斑点抽象化之后,在一个实施例中可以通过使用在所识别的几何图形内封闭的像素(例如在图8中图解说明的椭圆形内的像素)执行投影轮廓分析而在计算方面简化投影轮廓分析。在另一实施例中,通过根据描述几何图形的等式确定几何图形中的每一者的投影值,可以更加显著地减少计算复杂度。举例来说,确定椭圆形的投影值的计算相对直接,从而产生复杂度为nxM的总投影轮廓分析,其中n对应于抽象化的斑点的数目(即椭圆形的数目),并且其中M对应于待测试的文本投影角度的数目。
与直接对所提取的斑点执行投影轮廓分析相比,通过在投影轮廓分析之前使用斑点抽象化可以节省的计算循环,使得可以执行额外处理操作,而不会在文本提取期间引入大量延迟。举例来说,虽然投影轮廓分析可以实现文本行的歪斜的确定(例如相对于图12更详细描述),但是也可以执行其它处理,例如估计倾斜、对于微弱透视失真的补偿和多重歪斜处置,相对于图10更详细地描述其中的每一者。
参看图9,描绘图像中的基于斑点抽象化的文本歪斜和倾斜校正的实例900。图像902被图解说明为具有文本,所述文本被识别为在被图解说明为平行四边形的文本区域内。所述文本具有倾斜,这指示每一字母是倾斜的(例如使用斜体),并且文本总地来说遵循水平文本行并且因而具有极少或没有歪斜。可以使用斑点提取来识别图像902中的文本,并且将其抽象化成椭圆形或其它参数形状。可以执行投影轮廓分析以识别斑点中的每一者的倾斜量(即所识别文本中的字母中的每一者的倾斜),并且可以补偿针对斑点中的每一者识别的倾斜,以便产生经补偿的斑点组903。经补偿的斑点组903被图解说明为基本上没有倾斜。因此,通过排除因为倾斜而引起的字符重叠,可以用提高的可靠性来执行字符辨识,如相对于图11更详细地描述。
图9图解说明包含所识别文本区域内的字符的第二图像904。在斑点提取、抽象化和歪斜与倾斜补偿之后,将所识别文本区域内的字符图解说明为经补偿的斑点组905。图9图解说明包含两个文本区的第三图像906。提供应用于第三图像906的斑点抽象化、提取和补偿的结果作为经补偿的斑点组907。
参看图10,图解说明输入图像以及对应斑点提取、抽象化和补偿结果的第一实例1002。第一实例1002图解说明应用于文本“Software That Sees”并且还应用于文本“HOME”和“ENTERTAINMENT”的倾斜补偿。在倾斜补偿之后,可以用更大可靠性执行光学字符辨识。第二实例1004图解说明微弱透视补偿。微弱透视可以是可能在远处的对象的图像俘获期间引起的相对常见失真。对于微弱透视效果的补偿可以类似于歪斜检测和补偿以及倾斜检测和补偿。第三实例1006图解说明文本行分离,其使得能够通过将图像的区域识别为分开的文本行来检测多个文本行。第四实例1008提供多重歪斜处置的实例。实例1008中的图像具有三个文本行,前两个文本行具有第一歪斜方向,并且第三文本行具有第二歪斜方向。多重歪斜处置可以执行第一投影轮廓分析,其将文本的底部行识别为单个文本行并且将两个上部文本行识别为另一文本行,所述两行均具有水平偏斜。对图像的上部部分的二级投影轮廓分析可以识别两个分开的文本行,其中的每一者具有类似的非水平歪斜。实例1002-1008图解说明倾斜补偿、透视补偿、文本行分离和多重歪斜处置,其因为斑点抽象化所产生的效率而具有减少的计算要求。
参看图11,图解说明包含倾斜的图像文本的实例1102。图像文本的每一字母是倾斜的,使得识别对应于每一有待检查的字母的垂直间隙的字符分段例程可能未识别字母之间的清晰分离。举例来说,字母“f”1106的分段可能会省略“f”的两端,从而导致“f”在光学字符辨识期间不可辨识。类似地,还可能归因于与“f”重叠而误识别邻近于“f”的字母“o”和“t”。作为另一实例,字母“h”1110的分段可能在光学字符辨识期间产生误差,因为“h”的左侧部分已被切掉。
经倾斜补偿的文本的实例1104可能起因于应用于具有倾斜的文本的实例1102的相对于图8图解说明和描述的斑点抽象化。举例来说,可以对在实例1102中图解说明的斑点执行斑点抽象化和投影轮廓分析以便估计斑点的倾斜,并且可以基于估计的倾斜来修改斑点,以便产生实例1104的经倾斜补偿的文本。经倾斜补偿的文本图解说明字母“f”1108和字母“h”1112的字符分段在倾斜补偿之后可以更准确地区分字母。
参看图12,描绘文本的歪斜和倾斜的说明性实例1200,其可以被检测和补偿以便在相对于图1到11描述的投影轮廓分析之前使用基于斑点的文本提取和斑点抽象化。文本1202图解说明为具有基线1204。基线1204总地来说对应于文本1202的字母中的每一者的底部。基线1204相对于水平线1208形成一个角度1210。角度1210被称作文本1202的歪斜。此外,文本1202的每一字符形成相对于垂直于基线1204的行1206的角度1214。字符相对于垂直于基线1204的行1206的角度1214被称作字符的倾斜度。如本文中图解说明和描述,可以检测字符歪斜和倾斜两者,并且对其进行补偿以便在投影轮廓分析之前使用由于斑点提取和斑点抽象化而引起的减少的处理复杂度。
图13描绘一个展示文本图像和斑点提取和抽象化结果1310的实例1300。在实例1300中,将文本图解说明为韩语字符。已提取文本,并且已经根据被图解说明为椭圆形的代表性斑点抽象化1304对所识别的斑点进行抽象化。因为许多类型的文本(例如亚洲字符和其它字母表)可能不严密符合压头线和基线(例如图12中图解说明的基线),所以可以补充或代替其它对准准则而使用中心线识别。
举例来说,第一抽象化斑点1304具有比第二抽象化斑点1306显著小的大小。因此,基础分析可能未产生对文本1302的文本行的正确识别。但是,发现穿过斑点的中心的行1308(例如使用最小均方分析)可以产生对中心线的识别以便实现歪斜估计。
可以根据所揭示的系统和方法使用的歪斜估计方法的其它实例包含基线/压头线配合(这可能对于字母表是有效的)、投影轮廓歪斜估计(例如相对于图7描述,这可能对于多个行的文本是有效的),和基于斑点抽象化的中心线配合,如在图13中图解说明。因为使用抽象化斑点的歪斜估计方法中的每一者的计算负荷可能相对较小,所以可以执行多个歪斜估计方法,并且可以使用所述多个歪斜估计方法的最有意义的结果或最佳结果作为所选歪斜以用于进一步处理。
图14提供使用笔划宽度确定曲线性的方法的说明性实施例1400。实施例1400图解说明一个斑点,其包含具有多个像素的字母A,所述像素例如是第一代表性像素p1、第二代表性像素p2和第三代表性像素p3。字母A横跨具有宽度W和高度H的像素区。可以例如根据随机或伪随机选择来选择一组点(例如包含p1,p2,p3)。作为一实例,可以选择一百个点。对于每一所选点,可以通过确定穿过所选点的一组行(例如图解说明为穿过p1的代表性的一组行1404)而获得对笔划宽度的估计。每一行W可以成不同角度,并且具有穿过第i个所选点的最短长度的行可以对应于穿过所选点(si)的笔划宽度:
si=min{w1,w2,w3…}
为了说明,穿过像素p1的图解说明的代表性行1404的组中的最短行1402指示在像素p1处的斑点的笔划宽度。类似地,可以针对每一所选点确定笔划宽度,并且可以将平均笔划宽度确定为针对所选点所确定的笔划宽度的算术平均值。举例来说,可以通过下式确定平均笔划宽度:
s ‾ = 1 N Σ i s i
在确定斑点的笔划宽度之后,可以将斑点的曲线性计算为斑点的大小与斑点的笔划宽度相比的比率。举例来说,可以如下计算曲线性:
W + H s ‾
在确定斑点的笔划宽度和曲线性之后,可以通过确定曲线性是否满足阈值而将斑点识别为文本斑点的候选者。举例来说,阈值可以确定为提供整个文本的良好通用结果的阈值,或可以为很可能会遇到的特定类型的字母表提供特定的阈值。举例来说,预期会用于一个区域以识别使用亚洲文字的文本的装置可以具有一个可以对亚洲文字比对拉丁字母检测更有效的阈值,而预期会用于确定使用拉丁字母表的文本的装置可以具有可能在检测亚洲文字的斑点时不如第一阈值有效的第二阈值。
图15描绘方法1500的特定实施例。方法1500包含在1502处接收在图像数据中识别的一组斑点的指示。举例来说,可以通过图1的斑点提取器106识别所述组斑点,并且可以在图1的文本斑点选择器107处接收图1的斑点提取器106所识别的所述组斑点的指示。所述组斑点中的每一斑点可以是图像数据的具有基本上类似的像素值的相连像素的群组。为了说明,当对于群组中的任何两个像素存在群组内的连接两个像素的不间断的路径(例如路径的每一步是从第一像素到邻近于第一像素的第二像素)时,可以将像素群组视为“相连”。
基于斑点大小与斑点笔划宽度的比较来确定斑点曲线性。举例来说,图1的稳定并且曲线的斑点选择器108可以确定所述组斑点中的一个或一个以上斑点的曲线性测量值。为了说明,曲线性测量可以基于斑点大小与斑点的笔划宽度相比的比率,如相对于图14所描述。
在1504处,至少部分基于斑点稳定性和斑点曲线性从用于文本提取的所述组斑点中选择斑点。选择斑点可包含识别所述组斑点中满足稳定性准则的斑点以及确定所述最稳定斑点是否满足曲线准则。举例来说,稳定并且曲线的斑点选择器108可以确定一个或一个以上斑点满足稳定性准则和曲线性准则。为了说明,可以确定所述组斑点中的每一斑点的稳定性测量值。每一所确定的稳定性测量值可以指示斑点大小相对于阈值变化的变化。
可以通过基于所确定的稳定性测量值的比较选择所述组斑点中的最稳定斑点而将一个斑点识别为满足稳定性准则。如相对于图4所描述,稳定性准则可以是没有其它斑点比所选斑点更稳定,并且被确定为所述组斑点中的最稳定斑点的斑点可以满足稳定性准则。
在确定最稳定斑点满足曲线准则之后,可以从所述组斑点中移除所有与最稳定斑点重叠的斑点。为了说明,所述组斑点中的至少一个斑点可以与所述组斑点中的另一斑点重叠。图1的重叠区域移除器110可以从所选斑点的稳定并且曲线的斑点选择器108接收指示,并且重叠区域移除器110可以移除所有与所选斑点重叠(例如与其具有一个或一个以上相同像素)的斑点。在特定实施例中,可以选择所述组斑点中的至少一个斑点以进行文本提取,并且可以不选择所述组斑点中的至少另一斑点以进行文本提取。
可以确定对应于所选斑点的一组几何图形。举例来说,图1的斑点抽象化器112可以将椭圆形或其它几何图形与从文本斑点提取器104接收到的一组斑点配合。可以确定所述组几何图形的投影轮廓,例如相对于图7到8所描述。
参看图16,可以通过图1的斑点抽象化器112执行的斑点抽象化的实例被描绘并且总地来说标示为1600。图像1602包含文字文本。对应于图像1602的斑点提取产生对图像1605中图解说明的斑点1604的识别。可以通过图1的斑点提取器104执行对应于图像1602的斑点提取。图像1605将所提取的斑点1604图解说明为黑色像素对照白色背景。
可以通过识别对应于在图像1602中识别的斑点1604的第一几何图形1606来执行斑点抽象化。可通过计算斑点1604的参数、通过从几何图形的表或数据库选择预定几何图形、通过一个或一个以上其它技术或其任何组合来识别第一几何图形1606。可以使用参数图形,例如椭圆形、三角形、矩形或其它可以使用相对很少数目的参数来识别的形状,作为使用所识别的斑点作为各个像素的集合(并且因而具有等于每一斑点中的像素数目的数目个参数)的计算成本较低的替代方案。
可以确定第一几何图形1606的第一配合误差,并且将其与阈值比较。第一配合误差可以对应于在图像1605中图解说明的斑点1604的位于第一几何图形1606外部的部分与斑点1604的整个面积的比较。响应于第一几何图形1606的配合误差超过阈值,可以通过识别对应于斑点1604的多个几何图形1608、1610来执行第二抽象化。可通过计算斑点1604的参数、通过从几何图形的表或数据库选择预定几何图形、通过一个或一个以上其它技术或其任何组合来识别所述多个几何图形1608、1610。
可以确定所述多个几何图形1608、1610的第二配合误差。响应于对于所述多个几何图形1608、1610的第二配合误差小于第一几何图形1606的第一配合误差的确定,可以执行对所述多个几何图形1608、1610的投影轮廓分析。否则,可以将第一几何图形1606选择为斑点1604的更好配合,并且可以执行对第一几何图形1606的投影轮廓分析。在特定实施例中,第一几何图形1606可包含椭圆形,并且所述多个几何图形1608、1610可包含多个椭圆形。
参看图17,描绘使用几何图形的斑点抽象化方法的特定实施例,且其大体上标示为1700。可以在斑点抽象化器(例如图1的斑点抽象化器112)处执行方法1700。方法1700包含在1702处识别对应于图像数据中所识别的斑点的第一几何图形。为了说明,图1的斑点抽象化器112可以识别图16的对应于图像数据1602中的斑点1604的第一几何图形1606。可通过计算斑点1604的参数、通过从几何图形的表或数据库选择预定几何图形、通过一个或一个以上其它技术或其任何组合来识别第一几何图形1606。
可以在1704处确定几何图形相对于斑点的第一配合误差。举例来说,可以将斑点1604的位于第一几何图形1606外部的面积与斑点1604的整个面积比较。可以在1706处确定几何图形的第一配合误差是否超出阈值。如果第一配合误差不超过阈值,那么方法在1710处结束。如果第一配合误差的确超过阈值,那么在1708处识别对应于斑点的多个几何图形。为了说明,斑点抽象化器112可以识别包含对应于斑点1604的几何图形1608、1610的所述多个几何图形。可通过计算斑点1604的参数、通过从几何图形的表或数据库选择预定几何图形、通过一个或一个以上其它技术或其任何组合来识别所述多个几何图形1608、1610。
参考图18,描绘斑点投影的实例,且其大体上标示为1800。第一实例1802说明与几何图形1804相交的代表性投影线1808。几何图形1804可为图16的几何图形1606。在第一实例1802中,如果投影线1808与几何图形1804相交,那么在投影轮廓1806的对应投影处指派二进制“1”。如果投影线1808不与几何图形1804相交,那么在投影轮廓1806的对应投影处指派二进制“0”。多个投影线(例如,图7的多个投影线702)可用以确定几何图形1804的投影轮廓1806。举例来说,与几何图形1804相交的多个投影线中的投影线的每一例子(例如代表性投影线1808)导致在投影轮廓1806的对应点处指派二进制“1”。
第二实例1810说明与几何图形1812相交的投影线1816。几何图形1812可为图16的几何图形1606。在第二实例1810中,投影线1816展示为在两个不同相交点1818、1820处与几何图形1812相交。计算两个相交点1818、1820之间的距离,且使用其来确定几何图形1812的投影轮廓1814的对应投影。多个投影线(例如,图7的所述组投影线706)可用以确定几何图形1812的投影轮廓1814。举例来说,对于与几何图形1812相交的多个投影线中的投影线1816的每一例子,可确定投影线1816是否与第二例子处的几何图形1812相交。如果一投影线在两个不同相交点(例如,例子1818、1820)处与几何图形1812相交,那么所述两个不同相交点1818、1820之间的距离可指派给所述几何图形的投影轮廓1814的对应投影(例如,投影1822)。如果投影线不与几何图形1812相交或仅在单个例子中与几何图形1812相交,那么可将二进制“0”指派给几何图形1812的投影轮廓1814的对应投影。
根据图18的第二实例1810投影斑点可比根据第一实例1802投影斑点导致斑点的更准确反映。举例来说,根据第二实例1810投影斑点可比根据第一实例1802投影斑点更准确地反映相连字符(例如草书和印度文字)的形状。
参考图19,描绘使用几何图形的斑点投影方法的特定实施例,且其大体上标示为1900。可在图1的文本区域检测器和二进制化引擎114处执行方法1900。方法1900包含在1902处识别对应于图像数据中所识别的斑点的几何图形。为进行说明,所述几何图形可对应于图18的几何图形1812。可通过计算斑点的参数、通过从几何图形的表或数据库选择预定几何图形、通过一个或一个以上其它技术或其任何组合来识别几何图形1812。
在1904处,可使用多个投影线确定几何图形的投影轮廓,其中投影轮廓的对应于每一特定投影线的值是基于所述特定投影线与所述几何图形的相交点之间的距离。为进行说明,可确定几何图形1812的图18的投影轮廓1814。投影轮廓的对应于每一特定投影线的值可基于所述特定投影线与几何图形的相交点之间的距离。举例来说,投影1822是基于相交点1818、1820之间的距离1816。
参考图20,描绘投影轮廓分析的实例,且其大体上标示为2000。经由多个几何图形2036(说明为椭圆形)投影第一组平行投影线2030(包含代表性投影线2014、2016),所述多个几何图形2036对应于识别为图像数据中的文本的斑点,例如代表性几何图形2020、2022、及2024。所述第一组平行投影线2030对应于第一角度2018,且经由所述多个几何图形2036投影以确定所述多个几何图形2036的第一投影轮廓2012。文本的偏斜对应于所述第一组平行投影线2030与水平参考的第一角度2018。可通过投影对应于与所述多个几何图形2036相交的多组平行投影线的角度的多个投影轮廓来确定第一投影轮廓2012。可通过从多个投影轮廓选择小于所述多个投影轮廓中的任何其它投影轮廓的投影轮廓(例如,源自于与所述多个几何图形2036相交的较少数目的平行投影线)来确定第一投影轮廓2012。
经由所述多个几何图形2036投影第二组平行投影线2032(包含代表性投影线2004、2006、2008)。所述第二组平行投影线2032对应于第二角度2010,且经由所述多个几何图形2036投影以确定所述多个几何图形2036的第二投影轮廓2002。文本的倾斜对应于所述第二组平行投影线2032的第二角度2010,其指示与文本线的垂向(例如,垂直于投影线2014)的偏差。可通过投影对应于与所述多个几何图形2036相交的多组平行投影线的角度的多个投影轮廓来确定第二投影轮廓2012。可通过从多个投影轮廓选择与所述多个投影轮廓中的任何其它投影轮廓相比具有较少的平行投影线与所述多个几何图形2036的相交点的投影轮廓来确定第二投影轮廓2002。
可估计限定框2026。可选择限定框2026以涵盖文本。限定框可具有至少6个自由度。6个自由度的实例包含限定框2026的“x”和“y”坐标位置、限定框2026的高度和宽度、及第一角度2016和第二角度2010。
参考图21,描绘投影轮廓分析方法的特定实施例,且其大体上标示为2100。可在图1的文本区域检测器和二进制化引擎114处执行方法2100。方法2100包含在2102处识别对应于识别为图像数据中的文本的斑点的多个几何图形。为进行说明,所述多个几何图形可为图20的多个几何图形2036。可通过计算斑点的参数、通过从几何图形的表或数据库选择预定几何图形、通过一个或一个以上其它技术或其任何组合来识别所述多个几何图形2036。
在2104处,可确定所述多个几何图形的第一投影轮廓以估计文本的偏斜。为进行说明,对应于多组平行投影线的角度的多个投影轮廓可经投影以与图20的所述多个几何图形2036相交。可通过从多个投影轮廓选择具有最紧凑支持区(support)的投影轮廓来确定第一投影轮廓2012,其中支持区被定义为投影轮廓结果不为零的区域。
在2106处,可确定所述多个几何图形的第二投影轮廓以估计文本的倾斜。为进行说明,可通过投影对应于与所述多个几何图形2036相交的多组平行投影线的角度的多个投影轮廓且通过从所述多个投影轮廓选择具有最紧凑支持区的投影轮廓来确定图20的第二投影轮廓2002。
参考图22,描绘分割一组斑点的实例,且其大体标示为2200。图像数据中所识别的第一组所提取斑点2202包含两个相异字体(例如,笔划宽度)的短语“Hello World”。第一组所提取斑点2202可分割成多个群集,例如两个群集2204、2212。所述分割可至少基于斑点2202的文本的笔划宽度。举例来说,字母“H”2206的笔划宽度类似于第一群集2204中的字母“W”2208的笔划宽度。在一替代实例中,字母“H”2214的笔划宽度类似于第二群集2212的字母“W”2216的笔划宽度。替代地或此外,所述分割可至少部分基于斑点的色彩相似度、基于斑点的一个或一个以上特性或其任何组合。
可分别针对第一群集2204和第二群集2212单独地确定第一及第二投影轮廓2210、2218,使得第一群集2204不干扰第二投影轮廓2218,且第二群集2212不干扰第一投影轮廓2210。在一特定实施例中,可根据图19的方法1900、图21的方法2100或其组合确定投影轮廓2210、2218。
应了解,根据图22分割一组斑点可导致与对斑点2202的未分割群集执行投影轮廓分析相比以更可靠方式发现文本线。还将了解,其它图像分量(包含非文本斑点)较不可能干扰给定群集的文本线抽取。
参考图23,描绘分割一组斑点的方法的特定实施例,且其大体上标示为2300。可在图1的文本区域检测器和二进制化引擎114处执行方法2300。方法2300包含在2302处,从图像数据中所识别的一组斑点提取斑点。为进行说明,可作为文本候选者从图像数据中所识别的一组斑点提取图22的所述组斑点2202。
在2304处,可将所提取的斑点分割成多个群集。为进行说明,可将所述组斑点2202分割成第一群集2204和第二群集2212。所述分割可至少部分基于所述组斑点2202中的个别斑点的文本的笔划宽度。举例来说,对应于字母“H”2206的个别斑点的笔划宽度类似于对应于第一群集2204中的字母“W”2208的个别斑点的笔划宽度。在一替代实例中,对应于字母“H”2214的个别斑点的笔划宽度类似于对应于第二群集2212的字母“W”2216的个别斑点的笔划宽度。替代地或此外,所述分割可至少部分基于斑点的色彩相似度、基于斑点的一个或一个以上特性或其任何组合。
在2306处,可独立于其它群集中的每一者而确定每一群集的投影轮廓。为进行说明,可分别针对第一群集2204和第二群集2212单独地确定第一及第二投影轮廓2210、2218,使得第一群集2204不干扰第二投影轮廓2218,且第二群集2212不干扰第一投影轮廓2210。可根据图21的方法2100确定投影轮廓2210、2218。
应了解,图23的集群方法可导致与对图22的斑点2202的未分割群集执行投影轮廓分析相比以更可靠方式发现文本线。还将了解,其它图像分量(包含非文本斑点)较不可能干扰给定群集的文本线抽取。
参考图24,描绘对几何图形执行多个投影轮廓分析的实例,且其大体标示为2400。第一图像可包含对应于图像数据中所识别的斑点的第一组几何图形2402。可对所述第一组几何图形2402执行第一投影轮廓分析2420以将所述第一组几何图形2402分割成第二组几何图形2404及第三组几何图形2406。可根据图21的方法2100执行第一投影轮廓分析2420。
可对所述第二组几何图形2404执行第二投影轮廓分析2422以将所述第二组几何图形2404分割成第四组几何图形2408和第五组几何图形2410。可根据图21的方法2100执行第二投影轮廓分析2422。在一特定实施例中,所述第三组几何图形2406可对应于第一文本线,所述第四组几何图形2408可对应于第二文本线,且所述第五组几何图形2410可对应于第三文本线。
应了解,如图24中所说明而执行多个投影轮廓分析可导致发现具有类似笔划宽度和色彩但具有不同偏斜的文本线。
参考图25,描绘对几何图形执行多个投影轮廓分析的方法,且其大体标示为2500。可在图1的文本区域检测器和二进制化引擎114处执行方法2500。方法2500包含在2502处,对对应于图像数据中所识别的斑点的第一组几何图形执行第一投影轮廓分析,以将所述第一组几何图形分割成第二组几何图形和第三组几何图形。为进行说明,可对图24的所述第一组几何图形2402执行第一投影轮廓分析以将所述第一组几何图形2402分割成第二组几何图形2404及第三组几何图形2406。可根据图21的方法2100执行第一投影轮廓分析。
在2504处,可对所述第二组几何图形执行第二投影轮廓分析以将所述第二组几何图形分割成第四组几何图形和第五组几何图形。为进行说明,可对图24的所述第二组几何图形2404执行第二投影轮廓分析以将所述第二组几何图形2404分割成第四组几何图形2408和第五组几何图形2410。可根据图21的方法2100执行第二投影轮廓分析。可至少部分基于对应于一字符的个别斑点的宽度、斑点内的字符的色彩、斑点的一个或一个以上特性或其任何组合来对所述第三、第四、及第五组几何图形2406、2408、2410执行额外投影轮廓分析。可执行额外投影轮廓分析直到所得组几何图形不能进一步分离成相异的文本线为止。
参考图26,描绘包含基于斑点的文本提取器2664的电子装置的特定说明性实施例的方块图,且其大体标示为2600。装置2600包含处理器,例如耦合到存储器2632的数字信号处理器(DSP)2610。在一说明性实例中,基于斑点的文本提取器2664可包含图1的系统100,或可根据图2到25中的任何一者或一者以上或其任何组合而操作。
在一特定实施例中,基于斑点的文本提取器2264可集成到处理器2610中,且可包含专用电路或其它逻辑以执行相对于图1所描述的功能性的至少一部分。在一特定实施例中,存储器2632包含指令2656,所述指令2656可由处理器2610执行以致使处理器2610执行相对于图1到25中的任一者所描述的功能性的至少一部分。举例来说,指令2656可包含可由计算机(处理器2610)执行以致使所述计算机执行图2的方法200、图15的方法1500、图17的方法1700、图19的方法1900、图21的方法2100、图23的方法2300、图25的方法2500或其任何组合的指令。为进行说明,指令2656可包含用于接收在图像数据中所识别的一组图像区域(例如,一组斑点)的指示的代码和用于至少部分基于稳定性和曲线性从所述组图像区域选择用于进行文本抽取的图像区域的代码。
图26说明相机2642,所述相机可耦合到相机控制器2660,且可将图像数据提供给基于斑点的提取器2664以供基于斑点的文本提取器2664检测从相机2642接收的图像数据或视频数据中的文本。图26还展示显示器控制器2626,所述显示器控制器耦合到处理器2610以及显示器2628。译码器/解码器(CODEC)2634也可耦合到处理器2610。扬声器2636和麦克风2638可耦合到CODEC2634。
图26还指示无线控制器2640,所述无线控制器可耦合到处理器2610以及无线天线2698。在一特定实施例中,处理器2610、相机控制器2660、显示器控制器2626、存储器2632、CODEC2634和无线控制器2640包含于系统级封装或系统芯片装置2622中。在一特定实施例中,输入装置2630和电力供应器2644耦合到系统芯片装置2622。此外,在一特定实施例中,如图26中所说明,显示器2628、相机2642、输入装置2630、扬声器2636、麦克风2638、无线天线2698及电力供应器2044在系统芯片装置2622外部。然而,显示器2628、相机2642、输入装置2630、扬声器2636、麦克风2638、无线天线2698和电力供应器2644中的每一者可耦合到系统芯片装置2622的一组件,例如接口或控制器。
结合所描述的系统和方法,一种执行斑点抽象化的方法可包含在估计投影之前将斑点转换为经简化的几何形式,其中估计所述投影是基于所述经简化的几何形式的参数。举例来说,可通过图1的斑点抽象化器112来执行所述方法。被转换为经简化的几何形式的斑点可为从文本斑点提取器接收的像素域斑点,例如文本斑点提取器104或图1。然而,在其它实施例中,可使用尚未基于关于图1所描述的曲线性、稳定性和/或重叠准则中的一者或一者以上而选择且可替代地从一股的斑点提取器(例如,图1的一股的斑点提取器106)接收的斑点来执行所述方法。
所述经简化的几何形式可为任何类型的几何形式或几何形式的组合,例如椭圆形、卵形、梯形、平行四边形、菱形、矩形、三角形、任何其它类型的多边形或其任何组合,其可使用少于斑点中的像素的数目的数目的参数来描述,例如关于图8所描述。在一些实施例中,斑点抽象化包含通过应用一种或一种以上技术来将斑点“转换”为经简化的几何形式,以基于斑点的特性来确定经简化的几何形式的参数而不需要更改斑点自身。在确定经简化的几何形式之后,可使用经简化的几何形式来执行投影轮廓分析以估计与斑点相关联的歪斜、倾斜、歪斜和倾斜两者,或一个或一个以上其它特性。可更改所述斑点以补偿使用经简化的几何形式所确定的特性。举例来说,当基于经简化的几何形式的一个或一个以上所估计的投影来确定对应于斑点的文本的所估计倾斜时,可通过向所述斑点应用旋转变换来修改所述斑点以大体上补偿所估计的倾斜。
结合所描述的系统和方法,揭示一种设备,其包含用于识别图像数据中的一组图像区域的装置,例如图1的斑点提取器106或经配置以识别图1的图像数据102中的一个或一个以上图像区域的任何其它电路或处理器。一种设备还包含用于从所述组斑点选择若干图像区域以用于至少部分基于斑点稳定性进行文本提取的装置。作为说明性实例,所述设备可包含图1的稳定和曲线斑点选择器108或经配置以应用例如关于图1到2和4所描述的稳定性处理的任何其它电路或处理器。还可应用例如关于图1到2、4和14所描述的曲线性处理。
结合所描述的系统和方法,揭示一种设备,其包含用于识别对应于图像区域的几何图形的装置,所述图像区域对应于在图像数据中识别的文本的至少一部分。所述设备可包含图1的斑点抽象化器112、经编程以执行图26的指令2656的处理器2610,或经配置以识别对应于图像区域的几何图形的任何其它电路或处理器,所述图像区域对应于在图像数据中识别的文本的至少一部分。所述设备还包含用于至少部分基于所述几何图形而确定文本的限定框的装置。所述设备可包含图1的斑点抽象化器112、图1的文本区域检测器和二值化引擎114、经编程以执行图26的指令2656的处理器2610,或经配置以至少部分基于所述几何图形而确定文本的限定框的任何其它电路或处理器。
一种设备可包含用于响应于几何图形的第一配合错误超过阈值而识别对应于所述图像区域的多个几何图形的装置。所述设备可包含图1的斑点抽象化器112、经编程以执行图26的指令2656的处理器2610,或经配置以响应于几何图形的第一配合错误超过阈值而识别对应于所述图像区域的多个几何图形的任何其它电路或处理器。
一种设备可包含用于使用多个投影线来确定所述几何图形的投影轮廓的装置,其中对应于每一特定投影线的所述投影轮廓的值是基于所述特定投影线与几何图形的相交点之间的距离。所述设备可包含图1的文本区域检测器和二值化引擎114、经编程以执行图26的指令2656的处理器2610,或经配置以使用多个投影线来确定所述几何图形的投影轮廓的任何其它电路或处理器。
一种设备可包含用于识别对应于图像区域的多个几何图形的装置,所述图像区域中的每一者对应于文本的至少一部分。所述设备可包含图1的斑点抽象化器112、经编程以执行图26的指令2656的处理器2610,或经配置以识别对应于被识别为图像数据中的文本的斑点的多个几何图形的任何其它电路或处理器。一种设备还可包含用于确定所述多个几何图形的第一投影轮廓以估计文本的歪斜的装置以及用于确定所述多个几何图形的第二投影轮廓以估计文本的倾斜的装置。所述设备可包含图1的文本区域检测器和二值化引擎114、经编程以执行图26的指令2656的处理器2610,或经配置以确定所述多个几何图形的投影轮廓以估计文本的歪斜和倾斜的任何其它电路或处理器。
一种设备可包含用于从一组图像区域提取若干图像区域的装置,所述图像区域中的每一者对应于所述文本的至少一部分,例如图1的文本区域检测器和二值化引擎114、经编程以执行图26的指令2656的处理器2610,或经配置以从在图像数据中识别的一组斑点提取斑点的任何其它电路或处理器。一种设备还可包含用于将所述所提取的图像区域分割为多个群集的装置,以及用于独立于其它群集中的每一者来确定每一群集的投影轮廓的装置。所述设备可包含图1的文本区域检测器和二值化引擎114、经编程以执行图26的指令2656的处理器2610,或经配置以将所述所提取的斑点分割为多个群集且独立于其它群集中的每一者来确定每一群集的投影轮廓的任何其它电路或处理器。
一种设备可包含用于对对应于在在图像数据中识别的图像区域的第一组几何图形执行第一投影轮廓分析以将所述第一组几何图形分割为第二组和第三组几何图形的装置。所述设备可包含图1的文本区域检测器和二值化引擎114、经编程以执行图26的指令2656的处理器2610,或经配置以对第一组几何图形执行第一投影轮廓分析的任何其它电路或处理器。一种设备还可包含用于对第二组几何图形执行第二投影轮廓分析以将所述第二组几何图形分割为第四组几何图形和第五组几何图形的装置。所述设备可包含图1的文本区域检测器和二值化引擎114、经编程以执行图26的指令2656的处理器2610,或经配置以对第二组几何图形执行第二投影轮廓分析以将所述第二组几何图形分割为第四组几何图形和第五组几何图形的任何其它电路或处理器。
虽然关于斑点描述了各个方面,但在其它实施例中,文本提取可至少部分基于非斑点图像区域。举例来说,一种方法可包含接收在图像数据中识别的一组图像区域的指示,以及从所述组图像区域选择若干图像区域以用于至少部分基于一个或一个以上准则进行文本提取。在特定实施例中,所述方法包含从所述组图像区域选择若干图像区域以用于至少部分基于图像区域稳定性进行文本提取。在一些实施例中,所述图像区域可为斑点(例如,可为具有大体上类似的像素值的相连的像素群组)。在其它实施例中,所述图像区域中的一者或一者以上(或全部)可不为斑点,且可替代地为根据一个或一个以上选择准则所识别且可针对文本相关特性(例如,稳定性)进行进一步处理的可能重叠的图像数据区域。
所属领域的技术人员将进一步了解,可将结合本文所揭示的实施例而描述的各种说明性逻辑块、配置、模块、电路和算法步骤实施为电子硬件、计算机软件或两者的组合。上文已大体在其功能性方面描述各种说明性组件、块、配置、模块、电路和步骤。所述功能性是实施为硬件还是软件取决于特定应用及强加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以不同方式实施所描述的功能性,但所述实施方案决策不应被解释为导致偏离本发明的范围。
可直接以硬件、以由处理器执行的软件模块或以上述两者的组合实施结合本文所揭示的实施例而描述的方法或算法的步骤。软件模块可驻留于随机存取存储器(RAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、U盘、只读光碟(CD-ROM),或此项技术中已知的任何其它形式的存储媒体中。示范性非暂时性(例如,有形)存储媒体耦合到处理器,使得处理器可从所述存储媒体读取信息以及将信息写入到所述存储媒体。在替代方案中,存储媒体可与处理器成一体式。处理器及存储媒体可驻留在专用集成电路(ASIC)中。ASIC可驻留在计算装置或用户终端中。在替代方案中,处理器及存储媒体可作为离散组件驻留在计算装置或用户终端中。
提供对所揭示的实施例的先前描述以使所属领域的技术人员能够制作或使用所揭示的实施例。对于所属领域的技术人员来说,对这些实施例的各种修改将为显而易见的,且可在不偏离本发明的范围的情况下将本文中所界定的原理应用于其它实施例。因此,本发明无意限于本文中所展示的实施例,而是将赋予本发明与如由所附权利要求书界定的原理和新颖特征一致的可能的最广范围。

Claims (42)

1.一种计算机实施的方法,其包括:
接收在图像数据中识别的一组图像区域的指示;以及
从所述组图像区域中选择若干图像区域以用于至少部分基于图像区域稳定性进行文本提取。
2.根据权利要求1所述的计算机实施的方法,其中所述组图像区域中的每一图像区域是对应于所述图像数据的具有大体上类似的像素值的相连像素群组的斑点。
3.根据权利要求1所述的计算机实施的方法,其中至少部分基于图像区域曲线性来进一步选择所述图像区域。
4.根据权利要求3所述的计算机实施的方法,其中至少部分基于图像区域大小与图像区域笔划宽度的比较来确定所述图像区域曲线性。
5.根据权利要求3所述的计算机实施的方法,其中选择所述图像区域包含:
识别所述组图像区域中的满足稳定性准则的一图像区域;
以及确定所述所识别的图像区域是否满足曲线性准则。
6.根据权利要求5所述的计算机实施的方法,其进一步包括确定所述组图像区域中的每一图像区域的稳定性量度,且其中识别满足所述稳定性准则的所述图像区域包括基于所述所确定的稳定性量度的比较来选择所述组图像区域中的最稳定图像区域。
7.根据权利要求6所述的计算机实施的方法,其中每一所确定的稳定性量度指示相对于阈值中的改变的图像区域大小中的改变。
8.根据权利要求5所述的计算机实施的方法,其中选择所述图像区域进一步包含,在确定所述所识别的图像区域满足所述曲线性准则之后,从所述组图像区域移除与所述所识别的图像区域重叠的所有图像区域。
9.根据权利要求1所述的计算机实施的方法,其进一步包括:
确定对应于所述选定的图像区域的一组几何图形;
以及确定所述组几何图形的投影轮廓。
10.根据权利要求1所述的计算机实施的方法,其中选择所述组图像区域中的至少一个图像区域以用于文本提取,且其中不选择所述组图像区域中的至少另一图像区域以用于文本提取。
11.根据权利要求1所述的计算机实施的方法,其中所述组图像区域中的至少一个图像区域与所述组图像区域中的另一图像区域重叠。
12.一种设备,其包括:
图像区域提取器,其经配置以产生在图像数据中识别的一组图像区域的指示;以及文本图像区域选择器,其经配置以从所述组图像区域中选择若干图像区域以用于至少部分基于图像区域稳定性进行文本提取。
13.根据权利要求12所述的设备,其中所述文本图像区域选择器进一步经配置以至少部分基于图像区域曲线性来选择所述图像区域。
14.根据权利要求13所述的设备,其中所述文本图像区域选择器包含:
选择器,其经配置以从所述组图像区域中选择稳定且曲线的图像区域;以及重叠区域移除器,其经配置以从所述组图像区域移除与所述选定的稳定且曲线的图像区域重叠的图像区域。
15.根据权利要求12所述的设备,其进一步包括图像区域抽象化器,其经配置以确定对应于所述选定的图像区域的一组几何图形。
16.根据权利要求12所述的设备,其进一步包括文本区域检测器,所述文本区域检测器经配置以确定所述组几何图形的投影轮廓。
17.一种设备,其包括:
用于识别图像数据中的一组图像区域的装置;以及
用于从所述组图像区域中选择若干图像区域以用于至少部分基于图像区域稳定性进行文本提取的装置。
18.根据权利要求17所述的设备,其中所述图像区域是至少部分基于图像区域曲线性而进一步选择。
19.一种计算机可读存储媒体,其存储可由处理器执行的程序指令,所述程序指令包括:
用于接收在图像数据中识别的一组图像区域的指示的代码;以及
用于从所述组图像区域中选择若干图像区域以用于至少部分基于图像区域稳定性进行文本提取的代码。
20.根据权利要求19所述的计算机可读存储媒体,其中所述程序指令进一步包括用于至少部分基于图像区域曲线性来进一步选择所述图像区域的代码。
21.一种计算机实施的方法,其包括:
识别对应于图像区域的几何图形,所述图像区域对应于在图像数据中识别的文本的至少一部分;以及至少部分基于所述几何图形而确定所述文本的限定框。
22.根据权利要求21所述的计算机实施的方法,其进一步包括:
响应于所述几何图形相对于所述图像区域的第一配合错误超过阈值,识别对应于所述图像区域的多个几何图形。
23.根据权利要求22所述的计算机实施的方法,其中所述第一配合错误对应于与所述图像区域的总面积相比位于所述几何图形之外的所述图像区域的面积。
24.根据权利要求22所述的计算机实施的方法,其进一步包括响应于所述多个几何图形的第二配合错误小于所述第一配合错误而对所述多个几何图形执行投影轮廓分析。
25.根据权利要求22所述的计算机实施的方法,其中所述多个几何图形是由两个几何图形组成。
26.根据权利要求22所述的计算机实施的方法,其中所述几何图形是椭圆形且其中所述多个几何图形包含多个椭圆形。
27.根据权利要求21所述的计算机实施的方法,其进一步包括:
使用多个投影线来确定所述几何图形的投影轮廓,其中对应于每一特定投影线的所述投影轮廓的值是基于所述特定投影线与所述几何图形的相交点之间的距离。
28.根据权利要求21所述的计算机实施的方法,其进一步包括:
识别对应于图像区域的多个几何图形,所述图像区域中的每一者对应于所述文本的至少一部分;
确定所述多个几何图形的第一投影轮廓来估计所述文本的偏斜;以及
确定所述多个几何图形的第二投影轮廓来估计所述文本的倾斜。
29.根据权利要求28所述的计算机实施的方法,其中确定所述第一投影轮廓包含确定对应于多组平行投影线与所述多个几何图形相交的角度的多个投影线,以及从所述多个投影轮廓中选择小于所述多个投影轮廓中的任何其它投影轮廓的一投影轮廓。
30.根据权利要求29所述的计算机实施的方法,其中所述偏斜对应于与水平参考相对应的所述平行投影线的所述角度。
31.根据权利要求28所述的计算机实施的方法,其中确定所述第二投影轮廓包含确定对应于多组平行投影线与所述多个几何图形相交的角度的多个投影线,以及从所述多个投影轮廓中选择具有比所述多个投影轮廓中的任何其它投影轮廓少的平行投影线与所述多个几何图形的相交点的一投影轮廓。
32.根据权利要求21所述的计算机实施的方法,其进一步包括:
从一组图像区域中提取若干图像区域,所述图像区域中的每一者对应于所述文本的至少一部分;
将所述所提取的图像区域分割为多个群集;以及
独立于其它群集中的每一者来确定每一群集的投影轮廓。
33.根据权利要求32所述的计算机实施的方法,其中分割所述所提取的图像区域是至少部分基于所述文本的笔划宽度。
34.根据权利要求32所述的计算机实施的方法,其中分割所述所提取的图像区域是至少部分基于所述文本的色彩。
35.根据权利要求21所述的计算机实施的方法,其进一步包括:
对对应于在所述图像数据中识别的图像区域的第一组几何图形执行第一投影轮廓分析以将所述第一组几何图形分割为第二组几何图形和第三组几何图形;以及对所述第二组几何图形执行第二投影轮廓分析以将所述第二组几何图形分割为第四组几何图形和第五组几何图形。
36.根据权利要求35所述的计算机实施的方法,其中所述第三组几何图形对应于所述文本的第一条线,其中所述第四组几何图形对应于所述文本的第二条线,且其中所述第五组几何图形对应于所述文本的第三条线。
37.一种设备,其包括:
处理器;以及
存储器,其存储可由所述处理器执行以进行以下操作的指令:
识别对应于图像区域的几何图形,所述图像区域对应于在图像数据中识别的文本的至少一部分;以及
至少部分基于所述几何图形而确定所述文本的限定框。
38.根据权利要求37所述的设备,其中所述指令进一步可由所述处理器执行以响应于所述几何图形相对于所述图像区域的第一配合错误超过阈值,识别对应于所述图像区域的多个几何图形。
39.根据权利要求27所述的设备,其中所述指令进一步可由所述处理器执行以使用多个投影线来确定所述几何图形的投影轮廓,其中对应于每一特定投影线的所述投影轮廓的值是基于所述特定投影线与所述几何图形的相交点之间的距离。
40.根据权利要求27所述的设备,其中所述指令进一步可由所述处理器执行以:
识别对应于图像区域的多个几何图形,所述图像区域中的每一者对应于所述文本的至少一部分;
确定所述多个几何图形的第一投影轮廓来估计所述文本的偏斜;以及
确定所述多个几何图形的第二投影轮廓来估计所述文本的倾斜。
41.根据权利要求27所述的设备,其中所述指令进一步可由所述处理器执行以:
从一组图像区域中提取若干图像区域,所述图像区域中的每一者对应于所述文本的至少一部分;
将所述所提取的图像区域分割为多个群集;以及
独立于其它群集中的每一者来确定每一群集的投影轮廓。
42.根据权利要求27所述的设备,其中所述指令进一步可由所述处理器执行以:
对对应于在所述图像数据中识别的图像区域的第一组几何图形执行第一投影轮廓分析以将所述第一组几何图形分割为第二组几何图形和第三组几何图形;以及对所述第二组几何图形执行第二投影轮廓分析以将所述第二组几何图形分割为第四组几何图形和第五组几何图形。
CN201280041787.5A 2011-09-06 2012-07-31 使用图像区域的文本检测 Pending CN103765441A (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201161531547P 2011-09-06 2011-09-06
US61/531,547 2011-09-06
US201161543548P 2011-10-05 2011-10-05
US61/543,548 2011-10-05
US13/412,853 2012-03-06
US13/412,853 US8942484B2 (en) 2011-09-06 2012-03-06 Text detection using image regions
PCT/US2012/048974 WO2013036329A1 (en) 2011-09-06 2012-07-31 Text detection using image regions

Publications (1)

Publication Number Publication Date
CN103765441A true CN103765441A (zh) 2014-04-30

Family

ID=47753234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280041787.5A Pending CN103765441A (zh) 2011-09-06 2012-07-31 使用图像区域的文本检测

Country Status (6)

Country Link
US (1) US8942484B2 (zh)
EP (1) EP2754097A1 (zh)
JP (1) JP5837205B2 (zh)
KR (1) KR20140045573A (zh)
CN (1) CN103765441A (zh)
WO (1) WO2013036329A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481253A (zh) * 2017-08-03 2017-12-15 上海音乐学院 一种基于边缘的斑点检测方法
CN109409356A (zh) * 2018-08-23 2019-03-01 浙江理工大学 一种基于swt的多方向中文印刷体文字检测方法
CN110135408A (zh) * 2019-03-26 2019-08-16 北京捷通华声科技股份有限公司 文本图像检测方法、网络以及设备
CN113420167A (zh) * 2021-05-14 2021-09-21 北京达佳互联信息技术有限公司 多媒体资源处理方法、装置、电子设备及存储介质

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9251144B2 (en) * 2011-10-19 2016-02-02 Microsoft Technology Licensing, Llc Translating language characters in media content
US9064191B2 (en) 2012-01-26 2015-06-23 Qualcomm Incorporated Lower modifier detection and extraction from devanagari text images to improve OCR performance
US8831381B2 (en) 2012-01-26 2014-09-09 Qualcomm Incorporated Detecting and correcting skew in regions of text in natural images
US9076242B2 (en) * 2012-07-19 2015-07-07 Qualcomm Incorporated Automatic correction of skew in natural images and video
US9047540B2 (en) 2012-07-19 2015-06-02 Qualcomm Incorporated Trellis based word decoder with reverse pass
US9141874B2 (en) 2012-07-19 2015-09-22 Qualcomm Incorporated Feature extraction and use with a probability density function (PDF) divergence metric
US9183458B2 (en) 2012-07-19 2015-11-10 Qualcomm Incorporated Parameter selection and coarse localization of interest regions for MSER processing
US9262699B2 (en) 2012-07-19 2016-02-16 Qualcomm Incorporated Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR
US20140193029A1 (en) * 2013-01-08 2014-07-10 Natalia Vassilieva Text Detection in Images of Graphical User Interfaces
US10296933B2 (en) * 2013-04-12 2019-05-21 Facebook, Inc. Identifying content in electronic images
US9245192B2 (en) * 2013-09-20 2016-01-26 Here Global B.V. Ad collateral detection
US9329692B2 (en) 2013-09-27 2016-05-03 Microsoft Technology Licensing, Llc Actionable content displayed on a touch screen
US9245341B2 (en) 2014-04-14 2016-01-26 Intuit Inc. Image acquisition using a level-indication icon
KR20160032586A (ko) * 2014-09-16 2016-03-24 삼성전자주식회사 관심영역 크기 전이 모델 기반의 컴퓨터 보조 진단 장치 및 방법
KR200483242Y1 (ko) * 2015-10-23 2017-05-02 김우섭 모바일 디바이스를 이용한 신분증 인식 장치
KR102598104B1 (ko) 2018-02-23 2023-11-06 삼성전자주식회사 외부 전자 장치로부터 텍스트 정보를 수신하는 시간 동안에 발생된 움직임을 보상하여 이미지에 포함된 객체 위에 텍스트 정보를 표시하는 방법 및 그 전자 장치
JP7067262B2 (ja) * 2018-05-21 2022-05-16 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11017258B2 (en) * 2018-06-05 2021-05-25 Microsoft Technology Licensing, Llc Alignment of user input on a screen
CN110807807B (zh) * 2018-08-01 2022-08-05 深圳市优必选科技有限公司 一种单目视觉的目标定位的图案、方法、装置及设备
US11023720B1 (en) * 2018-10-30 2021-06-01 Workday, Inc. Document parsing using multistage machine learning
CN111401110A (zh) * 2019-01-03 2020-07-10 百度在线网络技术(北京)有限公司 用于提取信息的方法和装置
CN111695381B (zh) * 2019-03-13 2024-02-02 杭州海康威视数字技术股份有限公司 一种文本特征提取方法、装置、电子设备及可读存储介质
GB2595412B8 (en) * 2019-03-28 2023-10-11 Nielsen Consumer Llc Methods and apparatus to detect a text region of interest in a digital image using machine-based analysis
US11410446B2 (en) 2019-11-22 2022-08-09 Nielsen Consumer Llc Methods, systems, apparatus and articles of manufacture for receipt decoding
US11810380B2 (en) 2020-06-30 2023-11-07 Nielsen Consumer Llc Methods and apparatus to decode documents based on images using artificial intelligence
CN112200181B (zh) * 2020-08-19 2023-10-10 西安理工大学 一种基于粒子群优化算法的文字形状逼近方法
US11822216B2 (en) 2021-06-11 2023-11-21 Nielsen Consumer Llc Methods, systems, apparatus, and articles of manufacture for document scanning
US11625930B2 (en) 2021-06-30 2023-04-11 Nielsen Consumer Llc Methods, systems, articles of manufacture and apparatus to decode receipts based on neural graph architecture
WO2024043602A1 (ko) * 2022-08-26 2024-02-29 삼성전자 주식회사 이미지로부터 텍스트를 획득하는 방법 및 서버

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5442715A (en) * 1992-04-06 1995-08-15 Eastman Kodak Company Method and apparatus for cursive script recognition
US20030142106A1 (en) * 2002-01-25 2003-07-31 Xerox Corporation Method and apparatus to convert bitmapped images for use in a structured text/graphics editor
CN1512439A (zh) * 2002-12-26 2004-07-14 ��ʿͨ��ʽ���� 视频文本处理装置
CN101155239A (zh) * 2006-09-28 2008-04-02 富士通株式会社 电子水印嵌入装置及检测装置
CN101300824A (zh) * 2005-11-18 2008-11-05 国际商业机器公司 用斑点图案标记文本的图像
CN101587540A (zh) * 2009-04-16 2009-11-25 大连理工大学 一种利用页面文档几何失真检测文档来源的打印机取证方法
CN101593278A (zh) * 2008-05-27 2009-12-02 佳能株式会社 文档图像的语言判别方法和系统
CN101894154A (zh) * 2010-07-13 2010-11-24 重庆大学 一种图像文档关键图案的提取方法
CN101930587A (zh) * 2009-06-19 2010-12-29 株式会社理光 水印信息扩展编码、嵌入、评估、检测提取方法和装置
CN102084378A (zh) * 2008-05-06 2011-06-01 计算机连接管理中心公司 基于照相机的文档成像

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3733161B2 (ja) * 1995-08-01 2006-01-11 キヤノン株式会社 画像処理装置および方法
JPH1021332A (ja) 1996-07-03 1998-01-23 Tamura Electric Works Ltd 非線形正規化方法
JP3077745B2 (ja) * 1997-07-31 2000-08-14 日本電気株式会社 データ処理方法および装置、情報記憶媒体
JP3639126B2 (ja) 1998-01-22 2005-04-20 富士通株式会社 住所認識装置及び住所認識方法
JP3904840B2 (ja) * 2000-08-15 2007-04-11 富士通株式会社 多値画像から罫線を抽出する罫線抽出装置
JP4421134B2 (ja) 2001-04-18 2010-02-24 富士通株式会社 文書画像検索装置
US20030164819A1 (en) * 2002-03-04 2003-09-04 Alex Waibel Portable object identification and translation system
US7542610B2 (en) 2005-05-09 2009-06-02 Like.Com System and method for use of images with recognition analysis
US8031940B2 (en) 2006-06-29 2011-10-04 Google Inc. Recognizing text in images using ranging data
WO2009093324A1 (ja) * 2008-01-24 2009-07-30 Fujitsu Limited 画像処理装置、画像処理方法、画像処理プログラムおよび画像補正装置
US8520983B2 (en) 2009-10-07 2013-08-27 Google Inc. Gesture-based selective text recognition
KR101645994B1 (ko) 2009-12-29 2016-08-05 삼성전자주식회사 문자 인식 영역 검출 장치 및 문자 인식 방법

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5442715A (en) * 1992-04-06 1995-08-15 Eastman Kodak Company Method and apparatus for cursive script recognition
US20030142106A1 (en) * 2002-01-25 2003-07-31 Xerox Corporation Method and apparatus to convert bitmapped images for use in a structured text/graphics editor
CN1512439A (zh) * 2002-12-26 2004-07-14 ��ʿͨ��ʽ���� 视频文本处理装置
CN101300824A (zh) * 2005-11-18 2008-11-05 国际商业机器公司 用斑点图案标记文本的图像
CN101155239A (zh) * 2006-09-28 2008-04-02 富士通株式会社 电子水印嵌入装置及检测装置
CN102084378A (zh) * 2008-05-06 2011-06-01 计算机连接管理中心公司 基于照相机的文档成像
CN101593278A (zh) * 2008-05-27 2009-12-02 佳能株式会社 文档图像的语言判别方法和系统
CN101587540A (zh) * 2009-04-16 2009-11-25 大连理工大学 一种利用页面文档几何失真检测文档来源的打印机取证方法
CN101930587A (zh) * 2009-06-19 2010-12-29 株式会社理光 水印信息扩展编码、嵌入、评估、检测提取方法和装置
CN101894154A (zh) * 2010-07-13 2010-11-24 重庆大学 一种图像文档关键图案的提取方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481253A (zh) * 2017-08-03 2017-12-15 上海音乐学院 一种基于边缘的斑点检测方法
CN109409356A (zh) * 2018-08-23 2019-03-01 浙江理工大学 一种基于swt的多方向中文印刷体文字检测方法
CN110135408A (zh) * 2019-03-26 2019-08-16 北京捷通华声科技股份有限公司 文本图像检测方法、网络以及设备
CN110135408B (zh) * 2019-03-26 2021-02-19 北京捷通华声科技股份有限公司 文本图像检测方法、网络以及设备
CN113420167A (zh) * 2021-05-14 2021-09-21 北京达佳互联信息技术有限公司 多媒体资源处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US8942484B2 (en) 2015-01-27
KR20140045573A (ko) 2014-04-16
JP2014525626A (ja) 2014-09-29
EP2754097A1 (en) 2014-07-16
US20130058575A1 (en) 2013-03-07
JP5837205B2 (ja) 2015-12-24
WO2013036329A1 (en) 2013-03-14

Similar Documents

Publication Publication Date Title
CN103765441A (zh) 使用图像区域的文本检测
US9430704B2 (en) Image processing system with layout analysis and method of operation thereof
CN110175609B (zh) 界面元素检测方法、装置及设备
US20130194448A1 (en) Rules for merging blocks of connected components in natural images
US8218890B2 (en) Method and apparatus for cropping images
US20120128249A1 (en) Script-agnostic text reflow for document images
US6169822B1 (en) Method for correcting direction of document image
CN111881757B (zh) 一种行人重识别方法、装置、设备及介质
IL198507A (en) Analyze media data of consecutive sections in the article
CN111340020B (zh) 一种公式识别方法、装置、设备及存储介质
CN102870399A (zh) 在ocr过程中将词语位图分割为单个字符或字形
CN111738252B (zh) 图像中的文本行检测方法、装置及计算机系统
Salvi et al. Handwritten text segmentation using average longest path algorithm
JP2019102061A (ja) テキスト線の区分化方法
CN109389115A (zh) 文本识别方法、装置、存储介质和计算机设备
US9047528B1 (en) Identifying characters in grid-based text
US8977057B1 (en) Detection of diacritics in OCR systems with assignment to the correct text line
US20070041643A1 (en) Character recognition apparatus and character recognition method
US20200372278A1 (en) Handwriting Recognition for Receipt
Yuan et al. A method for text line detection in natural images
US20150178559A1 (en) Chinese, japanese, or korean language detection
CN110490021B (zh) 二维码定位方法、介质、装置和计算设备
US9378428B2 (en) Incomplete patterns
CN114387600A (zh) 文本特征识别方法、装置、计算机设备和存储介质
JP3607753B2 (ja) 文書画像の領域分割方法および装置、並びに段組種類判別方法および装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140430