CN103608823B - 用于从图像确定文本信息的并行处理方法和设备 - Google Patents

用于从图像确定文本信息的并行处理方法和设备 Download PDF

Info

Publication number
CN103608823B
CN103608823B CN201280029600.XA CN201280029600A CN103608823B CN 103608823 B CN103608823 B CN 103608823B CN 201280029600 A CN201280029600 A CN 201280029600A CN 103608823 B CN103608823 B CN 103608823B
Authority
CN
China
Prior art keywords
text area
text
candidate
image
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201280029600.XA
Other languages
English (en)
Other versions
CN103608823A (zh
Inventor
延奇宣
丘衡
丘衡一
朝玄默
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN103608823A publication Critical patent/CN103608823A/zh
Application granted granted Critical
Publication of CN103608823B publication Critical patent/CN103608823B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • G06V30/133Evaluation of quality of the acquired characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明揭示一种用于处理多通道图像的方法。所述方法包含从所述多通道图像产生多个灰度级图像。在所述多个灰度级图像中识别至少一个文本区,且从所述至少一个文本区确定文本区信息。所述方法基于所述文本区信息而产生所述多通道图像的文本信息。在所述至少一个文本区包含多个文本区的情况下,合并来自所述多个文本区的文本区信息以产生所述文本信息。并行地处理所述多个所述灰度级图像。在识别所述至少一个文本区的过程中,可在所述多个灰度级图像中识别至少一个候选文本区,且可在所述所识别的候选文本区中识别所述至少一个文本区。

Description

用于从图像确定文本信息的并行处理方法和设备
相关申请案的交叉参考
本申请案主张2011年7月8日申请的第61/505,984号美国临时专利申请案以及2012年7月2日申请的第13/539,797号美国非临时申请案中的每一者的优先权,且以引用的方式并入。
技术领域
本发明大体上涉及处理图像。更具体来说,本发明涉及通过并行处理通道从多通道图像产生文本信息。
背景技术
数字图像可含有多种对象,例如包含字符、数字和符号的文本对象以及非文本对象。在这些对象中,文本对象可提供上下文信息,这对于用户是特别有意义和有用的。常规的算法常使用常使用标量像素值来处理此些数字图像。举例来说,包含SIFT(尺度不变特征变换)和MSER(最稳定外部区)的常规算法已用于基于标量像素值来检测数字图像中的文本对象。
如今使用的大多数数字图像是彩色图像。彩色图像通常包含色彩信息,例如图像中的每一像素的RGB值、CMY值或色调、亮度和色度值的组合。一股来说,数字彩色图像中的色彩是由多维向量(例如,RGB值或CMY值)表示。因此,使用处理图像的标量值的常规算法一股不适合辨识彩色图像中的文本对象。替代地,已经使用使用彩色图像中的像素的向量值来辨识文本对象的算法,例如MSCR(最稳定色彩区)。然而,此些基于向量的算法一股比基于标量的算法复杂得多并且需要多得多的计算资源。
为了减少复杂度和计算资源,常规的方案已经使用基于标量的算法来提高彩色图像中的处理速度。举例来说,通过将原始彩色图像转换为具有标量像素值的图像而从原始彩色图像辨识出文本对象中的个别字符。然而,此过程可导致一些文本对象与其背景之间的对比度的损失,使得可能不会正确地辨识出文本对象中的字符。
发明内容
本发明提供用于处理多通道图像以产生与所述多通道图像相关联的文本信息的方法和设备。在这些方法和设备中,从所述多通道图像产生多个灰度级图像。随后通过并行地处理所述灰度级图像而产生文本信息。
根据本发明的一个方面,揭示一种用于处理多通道图像的方法。所述方法包含从所述多通道图像产生多个灰度级图像。在所述多个灰度级图像中识别至少一个文本区,且从所述至少一个文本区确定文本区信息。所述方法随后基于所述文本区信息而产生所述多通道图像的文本信息。本发明还描述与此方法相关的设备、装置的组合,以及计算机可读媒体。
根据本发明的另一方面,揭示一种用于处理多通道图像的设备。所述设备包含至少一个图像转换器、多个文本区检测器以及一合并单元。所述至少一个图像转换器从所述多通道图像产生多个灰度级图像。所述多个文本区检测器经配置以在所述多个灰度级图像中识别至少一个文本区,且从所述至少一个文本区确定文本区信息。通过所述合并单元基于所述文本区信息而产生所述多通道图像的文本信息。
根据本发明的又一方面,揭示用于处理多通道图像的另一方法。所述方法从所述多通道图像产生第一和第二灰度级图像。在所述第一灰度级图像中识别第一文本区且在所述第二灰度级图像中识别第二文本区。另外,分别从所述第一文本区和所述第二文本区确定第一和第二文本区信息。所述方法基于所述第一和第二文本区信息而产生所述多通道图像的文本信息。本发明还描述与此方法相关的设备、装置的组合,以及计算机可读媒体。
根据本发明的再一方面,揭示用于处理多通道图像的另一设备。所述设备包含至少一个图像转换器、第一文本区检测器和第二文本区检测器以及合并单元。所述至少一个图像转换器从所述多通道图像产生第一和第二灰度级图像。所述第一文本区检测器经配置以在所述第一灰度级图像中识别第一文本区且从所述第一文本区确定第一文本区信息。所述第二文本区检测器经配置以在所述第二灰度级图像中识别第二文本区且从所述第二文本区确定第二文本区信息。通过所述合并单元基于所述第一和第二文本区信息而产生所述多通道图像的文本信息。
附图说明
图1说明根据本发明的一个实施例的经配置以接收图像且从所接收的图像产生文本信息的图像处理设备。
图2说明根据本发明的一个实施例的经配置以接收图像且从所接收的图像产生文本信息的另一图像处理设备。
图3说明根据本发明的一个实施例的经配置以接收图像且从所接收的图像产生文本信息的又一图像处理设备。
图4表示根据本发明的一个实施例的由图像处理设备执行的用于接收图像且从所接收的图像产生文本信息的方法的流程图。
图5说明根据本发明的一个实施例的使用并行布置的处理通道从多通道图像产生文本信息的图。
图6说明确定与处理通道的文本区相关联的文本区信息的更详细图。
图7说明由文本区检测器执行的通过团点检测技术在灰度级图像中识别出文本区的操作。
图8说明确定与用于处理通道的灰度级图像中的文本区相关联的文本区信息的更详细图。
图9说明确定与用于另一处理通道的另一灰度级图像中的另一文本区相关联的文本区信息的更详细图。
图10说明由合并单元执行的合并文本区信息以产生文本信息的操作。
图11说明分别在不同灰度级图像中识别出的两个文本区在位置上重叠时产生文本信息的图。
图12说明分别在不同灰度级图像中识别出的两个文本区在位置上重叠时产生文本信息的另一图。
图13说明根据本发明的一个实施例的经配置以通过确定候选文本区而从图像产生文本信息的图像处理设备。
图14表示根据本发明的一个实施例的由图像处理设备执行的用于接收图像且通过识别出候选文本区而从所接收的图像产生文本信息的方法的流程图。
图15是根据本发明的一个实施例的使用并行布置的处理通道从多通道图像产生文本信息的图。
图16说明确定与用于处理通道的候选文本区相关联的候选文本区定位符的更详细图。
图17说明确定与用于另一处理通道的另一候选文本区相关联的另一候选文本区定位符的更详细图。
图18说明由控制器执行的通过识别出灰度级图像中的非候选文本区的共同部分来调整候选文本区的操作。
图19说明根据本发明的一个实施例的经配置以通过调整处理通道之间的处理负荷而从图像产生文本信息的图像处理设备。
图20表示根据本发明的一个实施例的由图像处理设备执行的用于在基于所估计的处理负荷而调整的候选文本区中识别出文本区的方法的流程图。
图21是使用并行布置的处理通道以及用于处理通道之间的负荷平衡的负荷控制器从多通道图像产生文本信息的图。
图22说明确定与用于处理通道的候选文本区相关联的候选文本区定位符的更详细图。
图23说明确定用于另一处理通道的另一候选文本区定位符的更详细图。
图24说明通过负荷控制器产生负荷平衡的候选文本区且将所述候选文本区指派给文本区检测器的更详细图。
图25是示范性移动计算装置的框图,可在所述移动计算装置中实施根据本发明的一些实施例的本发明的图像处理设备和方法。
具体实施方式
现在参考图式来描述各种实施例,其中相同参考标号始终用于指代相同元件。在以下描述中,出于解释的目的,阐述许多特定细节以便提供对一个或一个以上实施例的彻底理解。然而,可显而易见,可在无这些特定细节的情况下实践此类实施例。在其它情况下,以框图形式展示众所周知的结构和装置,以便促进描述一个或一个以上实施例。
图1说明根据本发明的一个实施例的经配置以接收图像且从所接收的图像产生文本信息的图像处理设备100。图像处理设备100包含图像转换器110、文本区检测器120和130以及合并单元140。所接收的图像是包含多个通道的多通道图像且含有具有文本或字符的一个或一个以上文本区。多通道图像的一些实例是包含RGB、YUV或YCrCb通道的三通道图像或包含对所述三个通道的额外的红外通道的四通道图像。
图像转换器110接收多通道图像且将所述多通道图像转换为一对灰度级图像以由一对处理通道CH1和CH2进行处理。经转换的图像可存储在存储器(未图示)中,文本区检测器120和130和/或合并单元140可存取所述存储器以用于处理所存储的图像。每一灰度级图像是单通道图像,其中每一像素的标量值指示根据通道的像素的强度。通常灰度级图像中的每一像素是由选自两个以上灰度水平的阴影水平呈现,且不同于黑白二进制图像,其中所述灰度水平在最弱强度的黑色与最强强度的白色之间变化。举例来说,在RGB多通道图像的情况下,可从R通道和G通道产生一对灰度级图像。替代地或另外地,可通过对不同通道的像素值进行加权且组合经加权的像素值来产生灰度级图像。
从图像转换器110产生的所述对不同灰度级图像分别被输入到文本区检测器120和130。举例来说,由R通道中的像素值构成的一个灰度级图像可被输入到文本区检测器120,而由G通道中的像素值构成的另一灰度级图像可被输入到文本区检测器130。虽然图1说明两个灰度级图像以及两个文本区检测器120和130,但仅通过实例的方式来呈现所述数目,且因此图像处理设备100可被配置有任何合适数目的此类灰度级图像和文本区检测器。
文本区检测器120和130经配置以识别相应灰度级图像中的一个或一个以上文本区。由于文本区检测器120和130接收多通道图像的不同灰度级图像,所以所识别的文本区可彼此相同或不同。文本区检测器120和130进一步经配置以确定与相应的文本区相关联的文本区信息。所述文本区信息包含与相关联的文本区相关的任何合适的信息,例如灰度级图像中的文本区的位置信息以及在文本区中所检测和辨识出的任何文本的文本辨识信息。随后从文本区检测器120和130将文本区信息输出到合并单元140。
在图1中,如果文本区检测器120在所接收的灰度级图像中识别出两个或两个以上文本区,那么文本区检测器120确定并输出与所识别的文本区中的全部相关联的文本区信息。另一方面,如果未识别出文本区,那么文本区检测器120可输出灰度级图像不具有所识别的文本区的指示。文本区检测器130以与文本区检测器120类似的方式操作。图像处理设备100中的文本区检测器120和130界定并行处理通道CH1和CH2。因此,并行地执行文本区检测器120和130的操作。
合并单元140经配置以合并从文本区检测器120和130接收的文本区信息且产生与多通道图像相关联的文本信息。在其中处理通道CH1和CH2中的所识别的文本区不同的情况下,通过组合从文本区检测器120和130接收的文本区信息而产生文本信息。另一方面,如果所识别的文本区的位置是相同的,那么基于具有更大的文本辨识准确度或文本区识别准确度的可能性的文本区信息而产生文本信息,这将在下文更详细地描述。
可执行例如OCR或手写辨识等文本辨识操作来辨识文本区检测器120和130中的所识别的文本区中的文本。在替代性实施例中,可在合并单元140而不是文本区检测器120和130中执行此类文本辨识操作。在此情况下,合并单元140可存取并处理存储于存储器中的灰度级图像以辨识所识别的文本区中的文本。
图2说明根据本发明的另一实施例的经配置以接收图像且从所接收的图像产生文本信息的图像处理设备200。图像处理设备200包含文本区检测器120和130以及合并单元140,其是与图1的图像处理设备100中所包含的单元相同或类似的单元。图像处理设备200进一步包含图像转换器210和220来取代图像处理设备100的图像转换器110。如图2中所描绘,图像转换器210和220中的每一者接收多通道图像且产生灰度级图像。由于图像转换器210和220使用不同的转换方法,所以所产生的灰度级图像可彼此不同。所产生的灰度级图像分别被输入到文本区检测器120和130。虽然图2说明两个图像转换器210和220以及两个文本区检测器120和130,但仅通过实例的方式来呈现所述数目,且因此图像处理设备200可被配置有任何合适数目的此类图像转换器和文本区检测器。
可以与参考图1所描述的方式相同的方式来执行文本区检测器120和130以及合并单元140的操作。在此实施例中,通过一个处理通道CH1来执行文本区检测器120的操作,而通过另一处理通道CH2来执行文本区检测器130的操作。因此,可以彼此并行地执行相应的灰度级图像上的操作。
图1的实施例可适合于其中产生多个灰度级图像的过程是彼此相关联的情况,而图2的实施例可适合于其中此类过程彼此几乎不相关联的情况。举例来说,从多个通道产生不同的灰度级图像的过程可在彼此之间共享中间处理信息(例如,与通道相关联的某些参数或值)。在此情况下,如果单个单元(即,图1中所描绘的图像转换器110)共同地执行灰度级图像产生过程同时共享过程之间的相关联的信息,那么可提高整个操作的处理量。
图3说明根据本发明的又一实施例的经配置以接收图像且从所接收的图像产生文本信息的图像处理设备300。图像处理设备300包含图像转换器110、文本区检测器120和130以及合并单元140,其是与图1的图像处理设备100中所包含的单元相同或类似的单元。图像处理设备300进一步包含图像转换器310和文本区检测器320、330和340。如图3中所描绘,图像转换器110接收多通道图像且产生两个灰度级图像。图像转换器310也接收多通道图像且产生三个灰度级图像。由于使用不同的转换方法,所以五个灰度级图像可彼此不同。从图像转换器110产生的两个级图像分别被输入到文本区检测器120和130。另外,从图像转换器310产生的三个级图像分别被输入到文本区检测器320、330和340。虽然图3说明两个图像转换器110和310以及五个文本区检测器120、130、320、330和340,但仅通过实例的方式来呈现所述数目,且因此图像处理设备300可被配置有任何合适数目的此类图像转换器和文本区检测器。
文本区检测器120、130、320、330和340识别相应的灰度级图像中的文本区且确定与相应的所识别文本区相关联的文本区信息。如图3中所示,文本区检测器120、130、320、330和340可通过相应的处理通道CH1到CH5来并行地执行上文提及的识别和确定操作。合并单元140从文本区检测器120、130、320、330和340接收所确定的文本区信息,且合并所接收的文本区信息以产生文本信息。图像处理设备100、200和300中的上述单元可由在计算装置或系统中的一个或一个以上处理器中执行的硬件、软件和/或其组合来实施。
图4表示由图像处理设备100执行的用于接收图像且从所接收的图像产生文本信息的方法400的流程图。首先,图像转换器110在410处接收多通道图像。其后,在420处,图像转换器110通过使用多种图像转换方法从所接收的多通道图像产生多个灰度级图像。在430处,不同的灰度级图像被输入到对应的文本区检测器120和130,且每一文本区检测器识别其所接收的灰度级图像中的文本区。在440处,文本区检测器120和130中的每一者进一步确定与其所识别的文本区相关联的文本区信息。在450处,合并单元140从文本区检测器120和130接收文本区信息且通过合并所接收的文本区信息而产生文本信息。还可在设备200和300中使用上述单元来执行参考图4所描述的以上操作。
图5说明根据本发明的一个实施例的使用并行布置的处理通道CH1和CH2从多通道图像510产生文本信息560的图。多通道图像510包含两个文本部分,一个在上部部分(“上部文本”),且另一个在下部部分(“下部文本”)。图像转换器110通过使用如上文所描述的不同图像转换方法将多通道图像510转换为分别用于处理通道CH1和CH2的两个不同的灰度级图像520和540。将多通道图像转换为不同灰度级图像可使得一些文本部分变得更突出以用于更容易的检测,而一些其它部分可变得在灰度级图像中较不突出。在经转换的灰度级图像520中,上部部分“上部文本”中的文本保持突出,而下部部分“下部文本”中的文本可不容易与背景区别开。相比而言,在经转换的灰度级图像540中,下部部分“下部文本”中的文本相对于背景更突出,而上部部分“上部文本”中的文本可不容易与背景区别开。
在接收到灰度级图像520之后,处理通道CH1中的文本区检测器120即刻处理图像520以识别图像520中含有“上部文本”的文本区530。同样,处理通道CH2中的文本区检测器130处理图像540以识别图像540中含有“下部文本”的文本区550。因此,不将不含有任何可辨识文本的部分(例如,灰度级图像520中的下部部分和灰度级图像540中的上部部分)识别为文本区。另外,文本区检测器120和130分别确定和输出与所识别的文本区530和550相关联的文本区信息。
分别从处理通道CH1和CH2将与文本区530和550相关联的文本区信息提供给合并单元140。合并单元140随后合并来自处理通道CH1和CH2的文本区信息以产生用于多通道图像510的文本信息560。还可在设备200和300中使用上述单元来执行参考图5所描述的以上操作。
图6说明确定与处理通道CH1的文本区530相关联的文本区信息610的更详细图。如上文所陈述,灰度级图像520的上部部分中的“上部文本”与其背景不同。在本发明中,此类不同的文本(或彼此靠近定位的一组字符)被称作文本分量且可被识别为文本区。因此,文本区检测器120将含有文本分量的区(即,“上部文本”)识别为文本区530。在识别文本区530的过程中,文本区530的边界经配置以根据文本分量中的字符的布置而包含文本分量。
一旦已识别出文本区530,文本区检测器120便确定与文本区530相关联的文本区信息610。举例来说,文本区信息610包含指示灰度级图像520中的文本区530的位置的位置信息(例如,文本区530的顶点的坐标)以及指示所识别的文本区530的置信度值的区置信度信息(例如,从0.0到1.0或从0%到100%的数值)。举例来说,区置信度信息可为指示所识别的文本区530含有文本分量的准确度的值。
在其中文本区检测器120对所识别的文本区530执行文本辨识操作的情况下,文本区信息610可进一步包含指示文本区530中的所辨识的文本(在此实例中,“上部文本”)的文本辨识信息以及指示所辨识的文本的置信度值的文本置信度信息(例如,从0.0到1.0或从0%到100%的数值)。举例来说,文本置信度信息可为指示所辨识的文本的准确度的值。可通过使用常规的OCR技术来辨识文本且可计算其置信度值。在确定文本区信息610的过程中,可仅对文本区530,而不是整个灰度级图像520,执行文本辨识操作。通过仅对所识别的文本区530执行文本辨识,可实质上减少在上面执行文本辨识操作的区域,使得处理时间和所需的计算资源会减少。
图7说明由文本区检测器120执行的使用团点检测技术在灰度级图像520中识别出文本区530的操作。灰度级图像520包含其上部部分中的不同文本分量“上部文本”。文本区检测器120执行团点检测操作以确定文本区中的个别字符的团点。具体来说,文本区检测器120识别同质区以确定团点。举例来说,在图7中,字符“U”、“E”、“T”或“X”具有由所述字符的外部边界画出轮廓的单个同质区。另一方面,字符“P”或“R”具有两个同质区,其中所述两个同质区中的一者是由所述字符的外部边界画出轮廓,且另一同质区是由(圆圈状)内部边界画出轮廓。基于所识别的同质区,文本区检测器120随后将某些同质区确定为表示字符的团点。
随后执行团点群集操作以确定含有如上文所确定的团点的簇710。团点群集操作可利用团点的位置、强度和/或笔划宽度信息。举例来说,从单个文本导出的团点将位于彼此的紧密附近内。另外,此类团点可具有相同或类似的强度或笔划宽度。因此,如果某些团点满足以上要求,那么可将这些团点合并为簇,如图7中的簇710。
随后,可执行投影轮廓分析以确定沿其对准文本分量中的字符的方向。举例来说,沿着平行于箭头A的方向的水平线720来计算团点中的像素的强度值的总和。此外,沿着额外的平行水平线730、740、750和760中的每一者来计算像素强度值的总和。另外,沿着平行于箭头B的方向的垂直线中的每一者并且还沿着平行于箭头C的方向的倾斜线中的每一者来计算像素强度值的总和。给定团点内的像素的强度值高于团点外的像素的强度值,由于线730和750穿过团点且线720、740和760未穿过团点,如图7中所示,所以沿着线730和750的像素强度值的总和将大于沿着剩余三条线720、740和760的像素强度值的总和
在一实施例中,可将沿着线的强度值的总和与预定参考值进行比较,使得在所述总和超过预定参考值时,确定沿着所述线存在团点。相比而言,如果所述总和未超过预定参考值,那么确定沿着所述线不存在团点。在图7的实例中,沿着线730和750的像素强度值的总和可大于预定参考值,而沿着线720、740和760的总和可小于预定参考值。在垂直线的情况下,这些线中的大多数穿过团点,且沿着这些垂直线的总和将大于预定参考值。类似地,在倾斜线的情况下,这些线中的大多数穿过团点,且沿着这些倾斜直线的总和将大于预定参考值。随后确定文本分量在水平方向上对准,因为沿着水平线的像素强度值的总和包含大于预定参考值的最小数目的总和。一旦已确定文本分量的方向,便可根据众所周知的文本区检测算法来识别文本区530。
此外,可通过使用机器学习技术来确定用于指示所识别的文本区530的准确度的区置信度值。文本分量和非文本分量在其形状、大小规则性、宽度和长度等方面来看具有不同的特性。举例来说,从文本分量确定的团点可具有相当规则的笔划宽度,而从非文本分量确定的团点可具有不同的笔划宽度。因此,可使用常规的机器学习技术从一组训练文本/非文本分量样本提取文本分量和非文本分量的此些特性,且可将此些特性存储在机器学习数据库中。举例来说,所述数据库可包含文本分量和非文本分量的若干参考特性。一旦如上文那股识别出文本区530,数据库可将文本区530的特性与参考特性进行比较,且随后通过反映文本区530有多符合或匹配文本分量的参考特性而确定区置信度值。
图8说明确定与用于处理通道CH1的灰度级图像520中的文本区810相关联的文本区信息820的另一更详细图。在图8中,文本区检测器120将含有文本分量的区(即,上部部分中的“上部文本”)识别为文本区810。然而,不同于图6的实施例,文本区810的边界是矩形形状。举例来说,所述矩形可为能够含有文本分量的最小矩形。文本区检测器120随后确定并输出与文本区810相关联的文本区信息820。类似于图6,文本区信息820可包含位置信息、区置信度信息、文本辨识信息以及文本置信度信息。
图8说明确定与用于处理通道CH2的灰度级图像540中的文本区550相关联的文本区信息910的更详细图。以与参考图6所描述的方式相同的方式,文本区检测器130将含有文本分量的区(即,下部部分中的“下部文本”)识别为文本区550。文本区检测器130随后确定并输出与文本区550相关联的文本区信息910。类似地,文本区信息910可包含位置信息、区置信度信息、文本辨识信息以及文本置信度信息。
图10说明由合并单元140执行的合并文本区信息610和910以产生文本信息560的操作。合并单元140分别从文本区检测器120和130接收文本区信息610和910,如图6和9中所描述。随后合并文本区信息610和910以产生用于多通道图像510的文本信息560。举例来说,由于多通道图像510含有两个文本区530和550,所以文本信息560可具有表示为“文本1”和“文本2”的两个文本信息子集。具体来说,“文本1”的文本信息包含来自文本区信息610的信息,例如图6中的位置信息、区置信度信息、文本辨识信息以及文本置信度信息。类似地,“文本2”的文本信息包含来自文本区信息910的信息,例如图9中的位置信息、区置信度信息、文本辨识信息以及文本置信度信息。根据图像处理设备100的设计和要求,除了上述信息之外,文本信息560还可包含其它信息,例如与多通道图像510相关联的元数据。另外地或替代地,文本信息560可省略一些上述信息,例如区置信度信息。
在另一实施例中,在合并单元140而不是文本区检测器120和130中执行对所识别的文本区530和550的文本辨识。在此情况下,合并单元140从文本区检测器120和130接收不具有文本辨识信息和文本置信度信息的文本区信息,以产生用于多通道图像510的文本信息560。类似于以上实施例中所描述的合并操作,合并单元140产生包含分别用于文本区信息610和910的两个子集“文本1”和“文本2”的文本信息560。每一子集包含来自文本区信息610或910的相关联的位置信息和区置信度信息。另外,基于从文本区检测器120接收到的文本区信息的位置信息,合并单元140辨识由位置信息界定的灰度级图像520的区中的文本,且确定所辨识的文本的文本置信度值。类似地,基于从文本区检测器130接收到的文本区信息的位置信息,合并单元140辨识由位置信息界定的灰度级图像540的区中的文本,且确定所辨识的文本的文本置信度值。随后,将来自灰度级图像520和540的所辨识的文本以及其文本置信度值添加到文本信息560的相应子集,即“文本1”和“文本2”。
图11说明分别在不同灰度级图像520和1110中识别出的文本区530和1120在位置上重叠时产生文本信息1140的图。在此实施例中,在文本区检测器120和130中执行文本区530和1120上的文本辨识操作以产生文本区信息610和1130。不同于图5、6、8和9中所描述的实施例,由文本区检测器120和130识别出的文本区530和1120彼此重叠。因此,由文本区检测器120和130产生的文本区信息可具有带有文本区530和1120两者的相同或不同的区置信度信息、文本辨识信息和文本置信度信息的相同位置信息。
在图11的实例中,文本区检测器120从所识别的文本区530辨识出文本“上部文本”。文本区检测器120进一步确定所辨识的文本的文本置信度值,其可为例如0.9的数值。同样,文本区检测器130从所识别的文本区1120辨识出文本“上部文本”且确定所辨识的文本的文本置信度值,例如0.8。基于以上文本区信息610和1130,合并单元140确定文本区530和1120彼此重叠,但所辨识的文本“上部文本”和“上部文本”是不同的。在此情况下,合并单元140基于其文本置信度值来确定所辨识的文本中的哪一者更准确。举例来说,由于具有0.9的文本置信度值的“上部文本”具有比具有0.8的文本置信度值的“上部文本”高的置信度值,所以合并单元140选择与“上部文本”相关联的文本区信息610来产生用于多通道图像510的文本信息1140。虽然在此实例中两个文本区530和1120彼此重叠,但三个或三个以上文本区可彼此重叠,且随后合并单元140将选择对应于相关联的文本置信度值中最高的文本置信度值的文本区信息。
根据另一实施例,文本区可仅部分重叠。合并单元140选择文本区中具有最高文本置信度值的一个文本区以产生多通道图像的文本信息的一部分。另外,合并单元140确定其它文本区中的非重叠部分,且将与非重叠部分相关联的文本区信息添加到部分产生的文本信息以产生用于多通道图像的文本信息。可从与文本区相关联或根据每一文本区的适当分布而加权的文本区信息中的任一者来选择文本信息的文本置信度信息。
图12说明由合并单元140执行的分别在不同灰度级图像520和1210中识别出的文本区530和1220在位置上重叠时产生文本信息1240的另一图。在此实施例中,在合并单元140而不是文本区检测器120和130中执行对文本区530和1220的文本辨识操作。文本区检测器120识别灰度级图像520中的文本区530。类似地,文本区检测器130识别另一灰度级图像1210中的文本区1220。如图12中所示,由于由文本区检测器120和130识别的文本区530和1220彼此部分重叠,所以由文本区检测器120和130产生的文本区信息包含不同的位置信息。文本区检测器120进一步确定所识别的文本530的区置信度值,其可为例如0.9的数值。同样,文本区检测器130确定所识别的文本区1220的区置信度值,例如0.5。文本区检测器120和130随后分别产生并输出包含相关联的位置信息和区置信度信息的文本区信息610和1230。
基于分别从文本区检测器120和130接收的文本区信息610和1230,合并单元140执行合并操作。在合并操作中,合并单元140基于包含在文本区信息610和1230中的文本区530和1220的位置信息而确定文本区530和1220彼此部分重叠。在此情况下,合并单元140基于其区置信度值来确定所识别的文本区中的哪一者更准确。举例来说,由于具有0.9的区置信度值的文本区530具有比具有0.5的区置信度值的文本区1220高的置信度值,所以合并单元140选择文本区信息610。合并单元140随后辨识由选定的文本区信息610的位置信息界定的灰度级图像520中的区中的文本。虽然在此实例中两个文本区530和1220重叠,但三个或三个以上文本区可重叠,且随后合并单元140将选择对应于相关联的区置信度值中最高的区置信度值的文本区信息。因此,根据本发明的以上实施例,可通过合并从多通道图像提取的多个灰度级图像的文本辨识结果来提高多通道图像的文本辨识准确度。此外,由于多个灰度级图像上的文本辨识操作是并行地执行的,所以将不会与灰度级图像的数目成比例地增加总处理时间。而且,可将总处理时间控制成不大于多通道图像所需的处理时间。
图13说明根据本发明的一个实施例的经配置以通过确定候选文本区而从图像产生文本信息的图像处理设备1300。图像处理设备1300包含图像转换器110、文本区检测器120和130以及合并单元140,其以与以上图1中所示的设备100相同的方式操作。图像处理设备1300进一步包含经配置以识别灰度级图像中的候选文本区的候选文本区检测器1310和1320,和经配置以调整候选文本区以防止遗漏文本区信息的控制器1330,这将在稍后描述。
在图像处理设备1300中,图像转换器110接收多通道图像且产生一对灰度级图像,将所述对灰度级图像分别提供给候选文本区检测器1310和1320。候选文本区检测器1310和1320经配置以识别相应灰度级图像中的一个或一个以上候选文本区。在每一候选文本区检测器中,将在其所接收的灰度级图像中含有文本分量和/或类文本分量的区识别为候选文本区。此外,类文本分量是指不是由字符而是由具有与字符类似的特性的图案或对象构成以使得它们有可能被错误地辨识为字符的分量。举例来说,此些图案或对象是由一个或一个以上垂直、水平或倾斜直线和/或曲线或其组合形成。将在图15中说明类文本分量的实例。如将在下文更详细地描述,与识别文本区的操作相比,可以在文本辨识准确度方面较粗糙或不精确的方式来执行识别候选文本区的操作。然而,与文本区的识别相比,可以相当短的时间来执行候选文本区的识别,且不需要大量计算资源。
候选文本区检测器1310和1320进一步经配置以分别确定与所识别的候选文本区相关联的候选文本区定位符。举例来说,候选文本区定位符指示灰度级图像中的相关联的候选文本区的位置,且包含候选文本区的顶点的坐标。
如果候选文本区检测器1310在所接收的灰度级图像中识别出两个或两个以上候选文本区,那么候选文本区检测器1310确定并输出与候选文本区中的全部相关联的候选文本区定位符。另一方面,如果未识别出候选文本区,那么候选文本区检测器1310可输出指示灰度级图像不具有所识别的候选文本区的候选文本区定位符。候选文本区检测器1320以与候选文本区检测器1310类似的方式操作。
文本区检测器120和130分别从候选文本区检测器1310和1320接收候选文本区定位符。基于相应的候选文本区定位符,文本区检测器120和130中的每一者存取候选文本区且确定在候选文本区中所识别的文本区的文本区信息。随后分别从文本区检测器120和130将文本区信息输出到合并单元140。合并单元140合并文本区信息且产生用于多通道图像的文本信息。
在此实施例中,候选文本区检测器1310和文本区检测器120界定处理通道CH1,且候选文本区检测器1320和文本区检测器130界定另一处理通道CH2。因此,通过处理通道CH1和CH2的操作是并行地执行的。虽然图13说明通过两个处理通道来识别候选文本区,但图像处理设备1300可被配置有任何合适数目的包含候选文本区检测器和文本区检测器的处理通道。图像处理设备1300中的上述单元可由计算装置和系统的一个或一个以上处理器执行的硬件、软件和/或其组合来实施。
图14表示由图像处理设备1300执行的用于接收图像且基于所识别的候选文本区而产生文本信息的方法1400的流程图。首先,图像转换器110在1410处接收多通道图像。在1420处,图像转换器110随后通过使用多种图像转换方法而产生多个不同灰度级图像。在1430处,将所产生的灰度级图像分别输入到候选文本区检测器1310和1320,且候选文本区检测器1310和1320中的每一者识别所接收的灰度级图像中的候选文本区。此外,候选文本区检测器1310和1320确定识别相应的候选文本区的位置的候选文本区定位符。在1440处,通过使用相应的候选文本区定位符,文本区检测器120和130中的每一者随后从相关联的候选文本区识别出文本区。在1450处,文本区检测器120和130进一步确定与相应的所识别的文本区的文本区信息。在1460处,合并单元140从文本区检测器120和130接收文本区信息且通过合并所接收的文本区信息而产生文本信息。
图15是根据本发明的一个实施例的使用并行布置的处理通道CH1和CH2从包含类文本分量的多通道图像1510产生文本信息1580的图。多通道图像1510包含两个文本部分,一个在上部部分(“上部文本”),且另一个在下部部分(“下部文本”)。图像1510进一步包含中间部分中的图案,所述图案看似由一连串“#”构成且可被称作如上文所描述的类文本分量。通过使用不同图像转换方法将多通道图像1510转换为分别用于处理通道CH1和CH2的两个不同的灰度级图像1520和1550。在经转换的灰度级图像1520中,上部部分“上部文本”中的文本以及中间部分中的图案保持突出,而下部部分“下部文本”中的文本可不容易与背景区别开。相比而言,在经转换的灰度级图像1550中,下部部分“下部文本”中的文本以及中间部分中的图案显得更突出,而上部部分“上部文本”中的文本可不容易与背景区别开。
在接收到灰度级图像1520之后,处理通道CH1中的候选文本区检测器1310即刻识别图像1520中含有“上部文本”以及图案(或类文本分量)的候选文本区1530。同样,处理通道CH2中的候选文本区检测器1320识别图像1550中含有“下部文本”以及图案的候选文本区1560。候选文本区检测器1310和1320随后分别确定与所识别的候选文本区1530和1560相关联的候选文本区定位符。候选文本区定位符分别指示灰度级图像1520和1550中的候选文本区1530和1560的位置。
基于从候选文本区检测器1310接收到的候选文本区定位符,处理通道CH1中的文本区检测器120识别候选文本区1530中含有文本分量“上部文本”的文本区1540。同样,基于从候选文本区检测器1320接收到的候选文本区定位符,处理通道CH2中的文本区检测器130识别候选文本区1560中含有文本分量“下部文本”的文本区1570。因此,中间部分中的图案不含有任何文本分量,而是仅含有类文本分量,且不被识别为文本区。另外,文本区检测器120和130分别确定和输出与所识别的文本区1540和1570相关联的文本区信息。在识别文本区1540和1570的过程中,可仅对候选文本区1530和1560,而不是整个灰度级图像1520和1550,执行识别操作。通过仅对所识别的候选文本区1530和1560执行识别操作,可实质上减少在上面执行识别操作的区域。而且,虽然额外地在识别文本区1540和1570之前执行用于识别候选文本区1530和1560的操作,但与整个处理时间相比,此类额外操作所需的处理时间不显著,使得整个处理时间和所需的计算资源会减少。
分别从处理通道CH1和CH2中的文本区检测器120和130将与文本区1540和1570相关联的文本区信息提供给合并单元140。合并单元140随后合并来自处理通道CH1和CH2的文本区信息以产生用于多通道图像1510的文本信息1580。文本信息1580可包含分别对应于文本区1540和1570的两个子集,文本信息1580的每一子集包含位置信息、区置信度信息、文本辨识信息以及文本置信度信息。
图16说明确定与处理通道中的候选文本区1530相关联的候选文本区定位符1610的更详细图。如上文所陈述,灰度级图像1520的上部部分中的“上部文本”以及中间部分中的图案与其背景不同。在此情况下,“上部文本”对应于文本分量且图案对应于类文本分量。因此,因为候选文本区检测器1310经配置以不区别文本分量与类文本分量,所以候选文本区检测器1310确定候选文本区1530含有文本分量和类文本分量两者。
为了识别此候选文本区,可对灰度级图像执行扫描操作以评估灰度级图像中的强度变化。一股来说,文本分量和/或类文本分量与其背景不同,且文本分量和/或类文本分量与背景之间的强度变化与背景相比是相对大的。因此,举例来说,当在从左侧到右侧的方向上扫描灰度级图像时,计算出在相邻像素的强度值之间的一阶倒数,且所述候选文本区包含其中可观察到较大的强度变化的区。举例来说,在图16中,扫描操作将再现在背景与上部部分中的“上部文本”和中间部分中的图案之间具有高强度变化的候选文本区1530。
一旦已识别出候选文本区1530,候选文本区检测器1310便确定与候选文本区1530相关联的候选文本区定位符1610。候选文本区定位符1610指示灰度级图像1520中的候选文本区1530的位置,且可包含候选文本区1530的顶点的坐标。将把所确定的候选文本区定位符1610提供给合并单元140。
图17说明确定与处理通道CH2中的灰度级图像1550中的候选文本区1560相关联的候选文本区定位符1710的更详细图。以与参考图16所描述的方式相同的方式,候选文本区检测器1320将含有文本分量(即,下部部分中的“下部文本”)以及中间部分中的类文本分量的区识别为候选文本区1560。随后,候选文本区检测器1320确定并输出与候选文本区1560相关联的候选文本区定位符1710。与上文一样,候选文本区定位符1710指示灰度级图像1550中的候选文本区1560的位置,且将被提供给合并单元140。
图18说明由控制器1330执行的通过识别出灰度级图像1520和1550中的非候选文本区的共同部分来调整候选文本区1530和1560的操作。控制器1330经配置以分别从候选文本区检测器1310和1320接收与候选文本区1530和1560相关联的候选文本区定位符1610和1710。基于指示候选文本区1530和1560的位置的所接收的候选文本区定位符1610和1710,控制器1330处理灰度级图像1520和1550以识别非候选文本区。非候选文本区对应于图像1520和1550中除了候选文本区1530和1560之外的剩余区。因此,此些非候选文本区不包含文本分量和类文本分量。在由图18说明的实例中,控制器1330从灰度级图像1520识别出非候选文本区1812和1814。类似地,控制器1330还从灰度级图像1550识别出非候选文本区1822和1824。
控制器1330将非候选文本区1812和1814与非候选文本区1822和1824进行比较,且识别出共同部分1832和1834,在所述共同部分处,来自灰度级图像1520和1550的非候选文本区彼此重叠。控制器1330随后将共同部分1832和1834添加到候选文本区1530以产生经调整的候选文本区1840。同样,控制器1330将共同部分1832和1834添加到候选文本区1560以产生另一经调整的候选文本区1850。控制器1330进一步确定与经调整的候选文本区1840和1850相关联的经调整的候选文本区定位符。将经调整的候选文本区定位符分别提供给文本区检测器120和130。基于经调整的候选文本区定位符,文本区检测器120和130分别识别经调整的候选文本区1840和1850中的文本区,且确定相关联的文本区信息。
对于一些灰度级图像来说,即使灰度级图像含有文本分量和/或类文本分量,两个候选文本区检测器1310和1320也可能会错误地将此类区辨识为候选文本区。在此情况下,与含有文本分量和/或类文本分量的某些区相关联的信息将不由文本区检测器120和130中的任一者处理,且关于所述区的文本辨识信息将丢失。在图18的实例中,如果共同部分1832和1834含有文本分量,且被错误地从候选文本区1530和1560丢弃,那么部分1832和1834将不由文本区检测器120和130中的任一者处理。因此,为了防止文本辨识信息的此类丢失,控制器1330识别共同部分1832和1834且产生包含共同部分1832和1834的经调整的候选文本区1840和1850,使得文本区检测器120和130可执行完整的文本区检测操作。
图19说明根据本发明的一个实施例的经配置以通过调整处理通道CH1和CH2之间的处理负荷而从图像产生文本信息的图像处理设备1900。图像处理设备1900包含图像转换器110、候选文本区检测器1310和1320、文本区检测器120和130以及合并单元140,其以与以上图13中所示的设备1300相同的方式操作。图像处理设备1900进一步包含负荷控制器1910以用于调整处理通道CH1和CH2之间的处理负荷。
在图像处理设备1900中,图像转换器110接收多通道图像且产生用于候选文本区检测器1310和1320中的每一者的灰度级图像。候选文本区检测器1310和1320识别相应的灰度级图像中的一个或一个以上候选文本区且确定与所述候选文本区相关联的候选文本区定位符。候选文本区检测器1310和1320将候选文本区定位符提供给负荷控制器1910,所述负荷控制器基于相关联的候选文本区定位符来估计每一候选文本区的处理负荷。举例来说,可基于来自相关联的候选文本区定位符的候选文本区的大小来估计用于确定来自每一候选文本区的文本区的处理负荷。基于所估计的处理负荷,负荷控制器1910调整候选文本区的大小以产生负荷平衡的候选文本区,如下文更详细地描述。另外,负荷控制器1910新确定负荷平衡的候选文本区的候选文本区定位符。新确定的候选文本区定位符随后分别输出到并行处理通道CH1和CH2中的文本区检测器120和130。
基于来自负荷控制器1910的候选文本区定位符,文本区检测器120和130中的每一者存取负荷平衡的候选文本区且确定在负荷平衡的候选文本区中所识别的文本区的文本区信息。随后从文本区检测器120和130将文本区信息输出到合并单元140。合并单元140合并与由文本区检测器120和130识别的文本区相关联的信息,且产生用于多通道图像的文本信息。
在图像处理设备1900中,候选文本区检测器1310和文本区检测器120界定处理通道CH1,而候选文本区检测器1320和文本区检测器130界定另一处理通道CH2。因此,处理通道CH1和CH2的操作是并行地执行的。虽然图19说明平衡两个处理通道之间的处理负荷,但图像处理设备1900可被配置有任何合适数目的包含候选文本区检测器和文本区检测器的处理通道。图像处理设备1900中的上述单元可由计算装置和系统的一个或一个以上处理器执行的硬件、软件和/或其组合来实施。
图20表示由图像处理设备1900执行的用于在基于所估计的处理负荷而调整的候选文本区中识别出文本区的方法的流程图。图20的操作可为用于识别文本区的图14的操作1440的子操作。在2010处,在从候选文本区检测器1310和1320接收到候选文本区定位符之后,负荷控制器1910估计候选文本区中的每一者的处理负荷。在2020处,一旦估计出候选文本区的处理负荷,负荷控制器1910基于所估计的处理负荷来调整候选文本区以产生分别用于处理通道CH1和CH2的负荷平衡的候选文本区。负荷控制器1910随后新确定负荷平衡的候选文本区的候选文本区定位符。在2030处,将负荷平衡的候选文本区指派给文本区检测器120和130以进行处理。新确定的候选文本区定位符随后分别输出到并行处理通道CH1和CH2中的文本区检测器120和130。在2040处,文本区检测器120和130随后识别其相应的所指派的负荷平衡的候选文本区中的文本区。
图21是使用并行布置的处理通道CH1和CH2以及用于处理通道CH1和CH2之间的负荷平衡的负荷控制器1910从多通道图像2110产生文本信息2190的图。多通道图像2110包含两个文本分量,一个在上部部分(“上部文本”),且另一个在下部部分(“文本”)。图像2110进一步包含中间部分中的类文本分量,所述类文本分量看似由一连串重叠的“O”构成。通过使用不同图像转换方法将多通道图像2110转换为分别用于处理通道CH1和CH2的两个不同的灰度级图像2120和2140。在经转换的灰度级图像2120中,文本分量“上部文本”以及“文本”以及类文本分量全部与背景不同。相比而言,在经转换的灰度级图像2140中,从背景找不到不同的分量。
在接收到灰度级图像2120之后,处理通道CH1中的候选文本区检测器1310即刻处理图像2120以识别图像2120中含有全部文本分量和类文本分量的候选文本区2130。另外,候选文本区检测器1310确定指示灰度级图像2120中的候选文本区2130的位置的用于候选文本区2130的候选文本区定位符。另一方面,处理通道CH2中的候选文本区检测器1320处理灰度级图像2140且无法识别任何候选文本区。因此,候选文本区检测器1320确定指示灰度级图像2140中不存在所识别的候选文本区的用于灰度级图像2140的候选文本区定位符。
从候选文本区检测器1310和1320将候选文本区定位符提供给负荷控制器1910。基于从候选文本区检测器1310接收到的候选文本区定位符,负荷控制器1910估计候选文本区2130的大小以及处理通道CH1的对应处理负荷。另一方面,基于从候选文本区检测器1320接收到的候选文本区定位符,负荷控制器1910确定处理通道CH2的处理负荷是零。
为了平衡处理通道CH1和CH2之间的处理负荷,负荷控制器1910基于所估计的处理负荷来调整候选文本区2130。举例来说,如图21中所示,因为处理通道CH2中的灰度级图像2140不包含任何所识别的候选文本区,所以处理通道CH1中的处理负荷大于处理通道CH2中的处理负荷。因此,负荷控制器1910通过将候选文本区2130分割为负荷平衡的候选文本区2150和2160来减小处理通道CH1中的处理负荷。另外,负荷控制器1910新确定分别与负荷平衡的候选文本区2150和2160相关联的候选文本区定位符。随后,负荷控制器1910将新确定的候选文本区定位符分别指派给处理通道CH1和CH2。具体来说,处理通道CH1的文本区检测器120接收与负荷平衡的候选文本区2150相关联的负荷平衡的候选文本区定位符,且识别区2150中的文本区2170。类似地,处理通道CH2的文本区检测器130接收与负荷平衡的候选文本区2160相关联的候选文本区定位符,且识别区2160中的文本区2180。另外,文本区检测器120和130分别确定与文本区2170和2180相关联的文本区信息且将所述文本区信息输出到合并单元140。在合并单元140中,通过合并所确定的文本区信息来产生文本信息2190。
图22说明确定与处理通道CH1的候选文本区2130相关联的候选文本区定位符2210的更详细图。灰度级图像2120含有文本分量“上部文本”和“文本”以及中间部分中的类文本分量。候选文本区检测器1310将环绕文本分量和类文本分量的区识别为候选文本区2130。候选文本区检测器1310随后确定指示灰度级图像2120中的所识别的候选文本区2130的位置信息的候选文本区定位符2210。
图23说明确定用于处理通道CH2的候选文本区定位符2310的更详细图。与灰度级图像2120相比,灰度级图像2140不含有文本分量和类文本分量。因此,从灰度级图像2140确定没有区是候选文本区。因此,候选文本区检测器1320确定指示灰度级图像2140中不存在所识别的候选文本区的候选文本区定位符2310。
图24说明通过负荷控制器1910产生负荷平衡的候选文本区2150和2160且将所述候选文本区指派给文本区检测器120和130的更详细图。如以上图22和23中所描述,产生灰度级图像2120和2140的候选文本区定位符2210和2310,且将其提供给负荷控制器1910。在所说明的实施例中,灰度级图像2120具有所识别的候选文本区2130,而灰度级图像2140不具有所识别的候选文本区。因此,负荷控制器1910基于所识别的区2130的大小来估计处理通道CH1的处理负荷,且将零处理负荷指派给处理通道CH2。然而,如果灰度级图像2140具有所识别的候选文本区,那么也将基于所识别的候选文本区的大小来估计其处理负荷。
为了产生文本区检测器120和130的负荷平衡的候选文本区,负荷控制器1910分割具有较大的处理负荷的候选文本区2130。举例来说,负荷控制器1910将候选文本区2130分割为两个负荷平衡的候选文本区2150和2160,且分别确定与经分割的区2150和2160相关联的候选文本区定位符。将与区2150相关联的候选文本区定位符提供给处理通道CH1中的文本区检测器120。类似地,将与区2160相关联的候选文本区定位符提供给处理通道CH2中的文本区检测器130。
图25是示范性移动计算装置2500的框图,可在所述移动计算装置中实施根据本发明的一些实施例的本发明的图像处理设备和方法。移动计算装置2500的配置可实施于图像处理设备100、200、300、1300和1900中。移动装置2500可以是蜂窝式电话、终端、手持机、个人数字助理(PDA)、无线调制解调器、无绳电话等。无线通信系统可以是码分多址(CDMA)系统、全球移动通信系统(GSM)系统、宽带CDMA(W-CDMA)系统、长期演进(LTE)系统、LTE高级系统等。此外,移动装置2500可例如使用Wi-Fi直接、蓝牙或FlashLinq技术与另一移动装置直接通信。
移动装置2500能够经由接收路径和发射路径提供双向通信。在接收路径上,由基站发射的信号被天线2512接收且被提供给接收器(RCVR)2514。接收器2514调节并数字化所接收的信号,且将经调节和数字化的信号提供给数字区段2520以进行进一步处理。在发射路径上,发射器(TMTR)2516接收将从数字区段2520发射的数据、处理并调节所述数据,且产生调制信号,所述调制信号经由天线2512而被发射到基站。接收器2514和发射器2516可以是可支持CDMA、GSM、W-CDMA、LTE、LTE高级等的收发器的一部分。
数字区段2520包含各种处理、接口和存储器单元,例如,调制解调器处理器2522、精简指令集计算机/数字信号处理器(RISC/DSP)2524、控制器/处理器2526、内部存储器2528、一股化音频编码器2532、一股化音频解码器2534、图形/显示处理器2536和外部总线接口(EBI)2538。调制解调器处理器2522可处理数据发射和接收,例如,编码、调制、解调和解码。RISC/DSP2524可执行用于移动装置2500的一股和专门的处理。控制器/处理器2526可控制数字区段2520内的各种处理和接口单元的操作。内部存储器2528可将用于各种单元的数据和/或指令存储在数字区段2520内。
一股化音频编码器2532可执行用于来自音频源2542、麦克风2543等的输入信号的编码。一股化音频解码器2534可解码经译码的音频数据,且可将经解码的输出信号提供给扬声器/耳机2544。应注意,不一定需要一股化音频编码器2532和一股化音频解码器2534来与音频源、麦克风2543和扬声器/耳机2544介接,且因此可在移动装置2500中省略。图形/显示处理器2536可处理图形、视频、图像和文本,其可呈现给显示单元2546。EBI2538可促进在数字区段2520与主存储器2548之间传递数据。
可用一个或一个以上处理器、DSP、微处理器、RISC等实施数字区段2520。数字区段2520还可被制造在一个或一个以上专用集成电路(ASIC)和/或一些其它类型的集成电路(IC)上。
一股来说,本文中所描述的任何装置可表示各种类型的装置,例如无线电话、蜂窝式电话、膝上型计算机、无线多媒体装置、无线通信个人计算机(PC)卡、PDA、外部或内部调制解调器、通过无线信道进行通信的装置等。装置可具有各种名称,例如接入终端(AT)、接入单元、订户单元、移动台、移动装置、移动单元、移动电话、移动体、远程站、远程终端、远程单元、用户装置、用户设备、手持式装置等。本文中所描述的任何装置可具有用于存储指令和数据的存储器,以及硬件、软件、固件或其组合。
本文中所描述的技术可由各种装置实施。举例来说,可以硬件、固件、软件或其组合来实施这些技术。所属领域的技术人员将进一步了解,结合本文中的揭示内容而描述的各种说明性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件,或两者的组合。为清楚说明硬件与软件的此互换性,上文已大致关于其功能性而描述了各种说明性组件、块、模块、电路及步骤。所述功能性是实施为硬件还是软件取决于特定应用及强加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以不同方式实施所描述的功能性,但所述实施决策不应被解释为导致偏离本发明的范围。
对于硬件实施方案来说,用以执行所述技术的处理单元可实施于一个或一个以上ASIC、DSP、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文中所描述的功能的其它电子单元、计算机,或其组合中。
可使用通用处理器、DSP、ASIC、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件,或其经设计以执行本文中所描述的功能的任何组合来实施或执行结合本文中的揭示内容而描述的各种说明性逻辑块、模块和电路。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器的组合、一个或一个以上微处理器与DSP核心的联合,或任何其它此配置。
对于固件和/或软件实施方案来说,所述技术可作为指令而体现于处理器可读媒体上,例如,随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、可编程只读存储器(PROM)、电可擦除PROM(EEPROM)、快闪存储器、压缩光盘(CD)、磁性或光学数据存储装置等。所述指令可由一个或一个以上处理器执行且可致使所述处理器执行本文中所描述的功能性的某些方面。
如果实施于软件中,则可将功能作为计算机可读媒体上的一个或一个以上指令或代码而加以存储或传输。计算机可读媒体包括计算机存储媒体与包括促进将计算机程序从一处传递到另一处的任何媒体的通信媒体两者。存储媒体可为可由计算机存取的任何可用媒体。以实例方式(且并非作为限制),所述计算机可读媒体可包含RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用于载送或存储呈指令或数据结构的形式的所要程序码且可由计算机存取的任何其它媒体。而且,恰当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波的无线技术从网站、服务器或其它远程源传输软件,则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波的无线技术包括于媒体的定义中。如本文中所使用,磁盘及光盘包括压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘及蓝光光盘,其中磁盘通常磁性地再现数据,而光盘使用激光光学地再现数据。以上各者的组合也应包括在计算机可读媒体的范围内。
软件模块可驻留在RAM存储器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸磁盘、CD-ROM,或此项技术中已知的任一其它形式的存储媒体中。示范性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息并将信息写入到存储媒体。替代地,存储媒体可与处理器成一体式。处理器及存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。替代地,处理器及存储媒体可作为离散组件驻留于用户终端中。
提供本发明的先前描述以使所属领域的技术人员能够制作或使用本发明。所属领域的技术人员将容易了解对本发明的各种修改,且本文中界定的一股原理可应用于其它变化而不背离本发明的精神或范围。因此,本发明无意限于本文中所描述的实例,而是应被赋予与本文中所揭示的原理和新颖特征一致的最广泛范围。
虽然示范性实施方案可能涉及在一个或一个以上独立计算机系统的背景下利用目前揭示的标的物的若干方面,但标的物不受如此限制,而是可结合任何计算环境来实施,例如网络或分布式计算环境。此外,目前揭示的标的物的若干方面可实施于多个处理芯片或装置中或上,且可在多个装置上类似地实现存储。此些装置可包含PC、网络服务器和手持式装置。
尽管已用结构特征和/或方法动作特有的语言描述了标的物,但应理解,所附权利要求书中所界定的标的物不一定限于上文所描述的特定特征或动作。而是,上文所描述的特定特征和动作是作为实施权利要求书的实例形式而揭示的。

Claims (39)

1.一种处理图像的方法,所述方法包括:
从多通道图像产生多个灰度级图像,所述多个灰度级图像包括第一灰度级图像和第二灰度级图像,所述第一灰度级图像与所述第二灰度级图像不同;
在所述多个灰度级图像中识别至少一个文本区;
从所述至少一个文本区确定文本区信息;以及
基于所述文本区信息而产生所述多通道图像的文本信息。
2.根据权利要求1所述的方法,其中产生所述多通道图像的所述文本信息包含:
在所述多个灰度级图像中的两者或多者中识别出所述至少一个文本区中的包括第一文本区和第二文本区的两个或多个文本区的情况下,合并来自所述第一文本区的第一文本区信息和来自所述第二文本区的第二文本区信息。
3.根据权利要求1所述的方法,进一步包括:
在所述第一灰度级图像中识别一个或多个第一同质区;以及
基于所述一个或多个第一同质区而识别第一候选文本区。
4.根据权利要求1所述的方法,其中识别所述至少一个文本区包含:
在所述多个灰度级图像中识别至少一个候选文本区;以及
在所述所识别的至少一个候选文本区中识别所述至少一个文本区。
5.根据权利要求1所述的方法,其中识别所述至少一个文本区包含:
在所述多个灰度级图像中识别至少一个非候选文本区;
在所述多个灰度级图像中的两者或多者中识别出所述至少一个非候选文本区中的两个或多个非候选文本区的情况下,识别所述两个或多个非候选文本区的共同部分;以及
将所述共同部分添加到在所述多个灰度级图像中识别的至少一个候选文本区。
6.根据权利要求1所述的方法,其中确定所述文本区信息包含:
识别所述至少一个文本区的每一区的位置;
辨识所述至少一个文本区的每一区的文本以确定一组经辨识的文本;以及
响应于识别在所述多个灰度级图像中的两者或多者中包括所述至少一个文本区中的两个或多个文本区,而确定两个或多个所识别的文本区中的每一文本区中的所辨识的文本的文本置信度值。
7.根据权利要求6所述的方法,其中产生所述多通道图像的所述文本信息包含,响应于确定所述两个或多个所识别的文本区中的至少两者的所识别的位置至少部分重叠,而从所述至少两个重叠文本区选择所述一组经辨识的文本中的一个经辨识文本以作为所选择的文本,其中所选择的文本的特定文本置信度值是所确定的文本置信度值中的最高值。
8.根据权利要求1所述的方法,其中确定所述文本区信息包含:
确定所述至少一个文本区的每一区的区置信度值。
9.根据权利要求8所述的方法,其中确定所述多通道图像的所述文本区信息进一步包含:
识别所述至少一个文本区的每一区的位置;
响应于确定在所述多个灰度级图像中的两者或多者中包括所述至少一个文本区中的两个或多个文本区且所识别的文本区中的至少两者的所识别的位置至少部分重叠,而选择所述至少两个重叠文本区中的一个文本区作为所选择的文本区,其中所选择的文本区的特定区置信度值是所确定的区置信度值的最高值;以及
辨识所选择的文本区中的文本。
10.根据权利要求1所述的方法,其中所述多个灰度级图像中的每一灰度级图像使用所述多通道图像的不同通道而产生。
11.根据权利要求1所述的方法,其中所述多通道图像包括第一数目的通道,所述多个灰度级图像包括第二数目的灰度级图像,且所述第二数目小于或等于所述第一数目。
12.一种设备,所述设备包括:
至少一个图像转换器,其经配置以从多通道图像产生多个灰度级图像,所述多个灰度级图像包括第一灰度级图像和第二灰度级图像,所述第一灰度级图像与所述第二灰度级图像不同;
多个文本区检测器,其经配置以在所述多个灰度级图像中识别至少一个文本区,且从所述至少一个文本区确定文本区信息;以及
合并单元,其经配置以基于所述文本区信息而产生所述多通道图像的文本信息。
13.根据权利要求12所述的设备,其中所述文本区信息包括第一文本区信息和第二文本区信息,所述第一文本区信息包括第一候选文本区的第一位置信息且所述第二文本区信息包括第二候选文本区的第二位置信息。
14.根据权利要求12所述的设备,其中所述多个文本区检测器经配置以:
在所述多个灰度级图像中识别至少一个非候选文本区;以及
响应于在所述多个灰度级图像中的两者或多者中识别出所述至少一个非候选文本区中的两个或多个非候选文本区,识别所述两个或多个非候选文本区的共同部分。
15.根据权利要求14所述的设备,其中所述多个文本区检测器进一步经配置以将所述共同部分添加到至少一个候选文本区以创建经调整的候选文本区。
16.根据权利要求12所述的设备,其中所述多个文本区检测器经配置以:响应于在所述多个灰度级图像中的两者或多者中识别出所述至少一个文本区中的两个或多个文本区,而确定在所识别的文本区中的每一者中的所识别的文本的文本置信度值。
17.根据权利要求12所述的设备,其中所述多个文本区检测器经配置以确定所述至少一个文本区的每一文本区的区置信度值。
18.根据权利要求17所述的设备,其中所述多个文本区检测器进一步经配置以识别所述至少一个文本区的每一文本区的位置,且其中所述合并单元经配置以:
响应于确定在所述多个灰度级图像中的两者或多者中识别出所述至少一个文本区中的两个或多个文本区且所识别的文本区中的至少两者的所识别的位置至少部分重叠,而选择所述至少两个重叠文本区中的一者以作为所选择的文本区;以及
辨识所选择的文本区中的文本。
19.一种设备,所述设备包括:
用于从多通道图像产生多个灰度级图像的装置,所述多个灰度级图像包括第一灰度级图像和第二灰度级图像,所述第一灰度级图像与所述第二灰度级图像不同;
用于在所述多个灰度级图像中识别至少一个文本区且从所述至少一个文本区确定文本区信息的装置;以及
用于基于所述文本区信息而产生所述多通道图像的文本信息的装置。
20.根据权利要求19所述的设备,进一步包括用于合并来自所述至少一个文本区的两个或多个文本区的所述文本区信息的装置,所述两个或多个文本区在所述多个灰度级图像中的两者或多者中被识别,且其中所述用于识别所述至少一个文本区的装置经配置以并行地处理所述多个灰度级图像。
21.一种处理图像的方法,所述方法包括:
使用与多通道图像相关联的多通道图像数据的第一通道数据产生第一灰度级图像数据;
使用所述多通道图像数据的第二通道数据产生第二灰度级图像数据,所述第一灰度级图像数据与所述第二灰度级图像数据不同;
在所述第一灰度级图像数据中识别第一文本区数据;
在所述第二灰度级图像数据中识别第二文本区数据;
从所述第一文本区数据确定第一文本区信息且从所述第二文本区数据确定第二文本区信息;以及
基于所述第一文本区信息和所述第二文本区信息而产生所述多通道图像的文本信息。
22.根据权利要求21所述的方法,其中产生所述文本信息包含合并所述第一文本区信息和所述第二文本区信息,其中所述第一通道对应所述多通道图像的第一色彩通道,且其中所述第二通道对应于所述多通道图像的第二色彩通道。
23.根据权利要求21所述的方法,进一步包括:
基于所述第一灰度级图像数据,识别对应于所述第一灰度级图像数据的灰度级图像的一个或多个第一同质区;以及
基于所述一个或多个第一同质区而在所述第一灰度级图像数据中识别第一候选文本区数据。
24.根据权利要求21所述的方法,其中并行地执行识别所述第一文本区数据和识别所述第二文本区数据,且其中识别所述第一文本区数据包含:
在所述第一灰度级图像数据中识别第一候选文本区数据;以及
在所述所识别的第一候选文本区数据中识别所述第一文本区数据,且
其中识别所述第二文本区数据包含:
在所述第二灰度级图像数据中识别第二候选文本区数据;以及
在所述所识别的第二候选文本区数据中识别所述第二文本区数据。
25.根据权利要求21所述的方法,其进一步包括:
估计用以处理第一候选文本区数据的第一负荷;以及
估计用以处理第二候选文本区数据的第二负荷。
26.根据权利要求25所述的方法,其进一步包括:
基于所述第一负荷和所述第二负荷来调整所述第一候选文本区数据和所述第二候选文本区数据以产生第一负荷平衡的候选文本区数据和第二负荷平衡的候选文本区数据,其中在所述第一负荷平衡的候选文本区数据中识别所述第一文本区数据。
27.根据权利要求26所述的方法,其中通过将所述第一候选文本区数据的一部分从所述第一候选文本区数据中移除且将所述第一候选文本区数据的所述一部分添加到所述第二候选文本区数据来调整所述第一候选文本区数据和所述第二候选文本区数据。
28.根据权利要求21所述的方法,进一步包括在从所述第一文本区数据和所述第二文本区数据确定文本区信息之前将所述第一文本区数据的一部分移除且将该部分添加到所述第二文本区数据。
29.根据权利要求21所述的方法,其中所述第一灰度级图像数据独立于所述第二通道而产生,且其中所述第二灰度级图像数据与所述第一灰度级图像数据被并行地处理。
30.一种设备,所述设备包括:
至少一个图像转换器,其经配置以使用与多通道图像相关联的多通道图像数据中的第一通道数据产生第一灰度级图像数据,所述至少一个图像转换器进一步经配置以使用所述多通道图像数据的第二通道数据产生第二灰度级图像数据,所述第一灰度级图像数据与所述第二灰度级图像数据不同;
第一文本区检测器,其经配置以在所述第一灰度级图像数据中识别第一文本区数据且从所述第一文本区数据确定第一文本区信息;
第二文本区检测器,其经配置以在所述第二灰度级图像数据中识别第二文本区数据且从所述第二文本区数据确定第二文本区信息;以及
合并单元,其经配置以基于所述第一文本区信息和所述第二文本区信息而产生所述多通道图像的文本信息。
31.根据权利要求30所述的设备,其中所述合并单元经配置以合并所述第一文本区信息和所述第二文本区信息,且其中所述第一文本区检测器经配置以处理所述第一灰度级图像数据,所述第二文本区检测器经配置以处理所述第二灰度级图像数据。
32.根据权利要求30所述的设备,其中所述第一文本区信息包括第一候选文本区数据的第一位置信息且所述第二文本区信息包括第二候选文本区数据的第二位置信息。
33.根据权利要求30所述的设备,其中所述第一文本区检测器经配置以:
在所述第一灰度级图像数据中识别第一候选文本区数据;以及
在所述所识别的第一候选文本区数据中识别所述第一文本区数据,且
其中所述第二文本区检测器经配置以:
在所述第二灰度级图像数据中识别第二候选文本区数据;以及
在所述所识别的第二候选文本区数据中识别所述第二文本区数据。
34.根据权利要求30所述的设备,其进一步包括负荷控制器,所述负荷控制器经配置以:
基于第一所估计的负荷和第二所估计的负荷来调整第一候选文本区数据和第二候选文本区数据以产生第一负荷平衡的候选文本区数据和第二负荷平衡的候选文本区数据。
35.根据权利要求34所述的设备,其中所述负荷控制器经配置以通过将所述第一候选文本区数据的一部分从所述第一候选文本区数据中移除且将所述第一候选文本区数据的所述一部分添加到所述第二候选文本区数据来调整所述第一候选文本区数据和所述第二候选文本区数据。
36.根据权利要求30所述的设备,其中所述至少一个图像转换器包括经配置以产生所述第一灰度级图像数据的第一图像转换器和经配置以产生所述第二灰度级图像数据的第二图像转换器。
37.一种设备,所述设备包括:
用于从与多通道图像相关联的多通道图像数据产生第一灰度级图像数据和第二灰度级图像数据的装置,其中所述第一灰度级图像数据使用所述多通道图像数据的第一通道数据产生,所述第二灰度级图像数据使用所述多通道图像数据的第二通道数据产生,所述第一灰度级图像数据与所述第二灰度级图像数据不同;
用于在所述第一灰度级图像数据中识别第一文本区数据且从所述第一文本区数据确定第一文本区信息的装置;
用于在所述第二灰度级图像数据中识别第二文本区数据且从所述第二文本区数据确定第二文本区信息的装置;以及
用于基于所述第一文本区信息和所述第二文本区信息而产生所述多通道图像的文本信息的装置。
38.根据权利要求37所述的设备,其进一步包括:
用于在所述第一灰度级图像中识别第一候选文本区数据的装置。
39.根据权利要求38所述的设备,其进一步包括:
用于基于第一所估计的负荷来调整所述第一候选文本区数据以产生第一负荷平衡的候选文本区数据的装置。
CN201280029600.XA 2011-07-08 2012-07-03 用于从图像确定文本信息的并行处理方法和设备 Expired - Fee Related CN103608823B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161505984P 2011-07-08 2011-07-08
US61/505,984 2011-07-08
US13/539,797 2012-07-02
US13/539,797 US9202127B2 (en) 2011-07-08 2012-07-02 Parallel processing method and apparatus for determining text information from an image
PCT/US2012/045354 WO2013009530A1 (en) 2011-07-08 2012-07-03 Parallel processing method and apparatus for determining text information from an image

Publications (2)

Publication Number Publication Date
CN103608823A CN103608823A (zh) 2014-02-26
CN103608823B true CN103608823B (zh) 2017-09-01

Family

ID=47438696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280029600.XA Expired - Fee Related CN103608823B (zh) 2011-07-08 2012-07-03 用于从图像确定文本信息的并行处理方法和设备

Country Status (6)

Country Link
US (1) US9202127B2 (zh)
EP (1) EP2729899A1 (zh)
JP (1) JP2014523036A (zh)
KR (1) KR101490071B1 (zh)
CN (1) CN103608823B (zh)
WO (1) WO2013009530A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8818092B1 (en) * 2011-09-29 2014-08-26 Google, Inc. Multi-threaded text rendering
US9171224B2 (en) * 2013-07-04 2015-10-27 Qualcomm Incorporated Method of improving contrast for text extraction and recognition applications
US9576196B1 (en) * 2014-08-20 2017-02-21 Amazon Technologies, Inc. Leveraging image context for improved glyph classification
KR102411890B1 (ko) 2014-09-02 2022-06-23 삼성전자주식회사 컨텐츠를 처리하는 방법 및 이를 위한 전자 장치
WO2016086023A1 (en) * 2014-11-24 2016-06-02 Massachusetts Institute Of Technology Systems, apparatus, and methods for analyzing blood cell dynamics
JP2017151768A (ja) * 2016-02-25 2017-08-31 富士ゼロックス株式会社 翻訳プログラム及び情報処理装置
US10430649B2 (en) * 2017-07-14 2019-10-01 Adobe Inc. Text region detection in digital images using image tag filtering
US11244452B2 (en) 2017-10-16 2022-02-08 Massachusetts Institute Of Technology Systems, devices and methods for non-invasive hematological measurements
CN108257179B (zh) * 2018-02-02 2020-04-17 四川康吉笙科技有限公司 一种图像处理方法
JP6791191B2 (ja) 2018-04-02 2020-11-25 日本電気株式会社 画像処理装置、画像処理方法およびプログラム
TWI706336B (zh) * 2018-11-19 2020-10-01 中華電信股份有限公司 影像處理裝置及其偵測與過濾文字物件的方法
CN114401669B (zh) 2019-07-24 2023-01-17 麻省理工学院 用于甲襞成像装置的手指插入件
CN110717899A (zh) * 2019-09-25 2020-01-21 武汉易视维科技有限公司 一种透明滤棒爆珠缺陷在线视觉检测方法
JP7565493B2 (ja) 2020-05-28 2024-10-11 レウコ・ラボズ・インコーポレイテッド 非侵襲的毛細血管ビデオから白血球および/または白血球サブタイプを検出するための方法、ならびに非侵襲的毛細血管ビデオから赤血球の濃度を判定するための方法
JP7137170B1 (ja) 2021-03-22 2022-09-14 楽天グループ株式会社 情報処理装置、情報処理方法およびプログラム
WO2024180609A1 (ja) * 2023-02-27 2024-09-06 株式会社日立国際電気 画像解析システム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101433075A (zh) * 2006-04-28 2009-05-13 伊斯曼柯达公司 从所扫描的彩色图像生成双色调图像
CN101742123A (zh) * 2008-11-19 2010-06-16 三星电子株式会社 图像处理设备和方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05501778A (ja) 1990-07-24 1993-04-02 イーストマン・コダック・カンパニー 事前印刷書式の光学式文字認識のために多数ドロップアウトカラーの自動的な電子的フィルタリングを用いた自動的本文分離のための方法及び装置
JP3335009B2 (ja) 1994-09-08 2002-10-15 キヤノン株式会社 画像処理方法及び画像処理装置
JP2000148908A (ja) 1998-11-17 2000-05-30 Ricoh Co Ltd 文書画像処理方法、装置および記録媒体
US6741724B1 (en) 2000-03-24 2004-05-25 Siemens Dematic Postal Automation, L.P. Method and system for form processing
JP3661774B2 (ja) 2001-02-09 2005-06-22 日本電気株式会社 文字列認識方法、文字認識装置およびプログラム
EP1384195A4 (en) 2001-03-30 2006-12-27 Siemens Dematic Postal Automat METHOD AND SYSTEM FOR IMAGE PROCESSING
FR2851357B1 (fr) 2003-02-19 2005-04-22 Solystic Procede pour la reconnaissance optique d'envois postaux utilisant plusieurs images
KR101421704B1 (ko) 2006-06-29 2014-07-22 구글 인코포레이티드 이미지의 텍스트 인식
US8098934B2 (en) 2006-06-29 2012-01-17 Google Inc. Using extracted image text
ITMI20062316A1 (it) 2006-11-30 2008-06-01 Itex Di Marco Gregnanin Metodo e apparato per riconoscere testo in una immagine digitale.
KR101023389B1 (ko) 2009-02-23 2011-03-18 삼성전자주식회사 문자 인식 성능을 향상시키기 위한 장치 및 방법
US20100331043A1 (en) 2009-06-23 2010-12-30 K-Nfb Reading Technology, Inc. Document and image processing
DE102009058605A1 (de) 2009-12-17 2011-06-22 Mühlbauer AG, 93426 Verfahren und Vorrichtung zum Erhöhen des Kontrastes eines Grauwertebildes
US8509534B2 (en) 2010-03-10 2013-08-13 Microsoft Corporation Document page segmentation in optical character recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101433075A (zh) * 2006-04-28 2009-05-13 伊斯曼柯达公司 从所扫描的彩色图像生成双色调图像
CN101742123A (zh) * 2008-11-19 2010-06-16 三星电子株式会社 图像处理设备和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Scene text detection suitable for parallelizing on multi-core;Jin Man Park;《INTERNATIONAL CONFERENCE ON IEEE》;20091107;第2.1.2、2.2节,附图1 *

Also Published As

Publication number Publication date
EP2729899A1 (en) 2014-05-14
US9202127B2 (en) 2015-12-01
KR101490071B1 (ko) 2015-02-04
WO2013009530A1 (en) 2013-01-17
CN103608823A (zh) 2014-02-26
KR20140021031A (ko) 2014-02-19
JP2014523036A (ja) 2014-09-08
US20130011055A1 (en) 2013-01-10

Similar Documents

Publication Publication Date Title
CN103608823B (zh) 用于从图像确定文本信息的并行处理方法和设备
US20160295287A1 (en) Method and apparatus for identifying television channel information
CN105740402A (zh) 数字图像的语义标签的获取方法及装置
CN103455806B (zh) 文档处理装置、文档处理方法以及扫描仪
KR101606469B1 (ko) 이미지 분석방법, 특히 이동 단말기용 이미지 분석방법
US9171224B2 (en) Method of improving contrast for text extraction and recognition applications
CN112749696B (zh) 一种文本检测方法及装置
CN112836692B (zh) 用于处理图像的方法、装置、设备和介质
CN111985465A (zh) 文本识别方法、装置、设备及存储介质
CN101930532A (zh) 基于手机摄像头快速响应矩阵码识读方法
CN113763370B (zh) 数字病理图像的处理方法、装置、电子设备及存储介质
CN103854019A (zh) 图像中的字段提取方法及装置
JP2018018173A (ja) 画像処理装置、画像処理方法、コンピュータプログラム
CN107506767A (zh) 一种图片内数字粘连识别的方法和装置
CN103854020A (zh) 文字识别方法及装置
Vidhyalakshmi et al. Text detection in natural images with hybrid stroke feature transform and high performance deep Convnet computing
CN110263779A (zh) 文本区域检测方法及装置、文本检测方法、计算机可读介质
Meng et al. IRIS: smart phone aided intelligent reimbursement system using deep learning
CN113408517B (zh) 一种图像显示方法及装置、电子设备
CN113761209B (zh) 文本拼接方法及装置、电子设备、存储介质
CN115331057A (zh) 图像处理方法、装置、电子设备及存储介质
CN114495058A (zh) 交通标志检测方法和装置
CN111126151A (zh) 识别票据图像中的字段的方法、装置、设备和介质
CN112288685B (zh) 抗酸杆菌的检测方法、装置、终端设备及可读存储介质
CN118672695A (zh) 控件位置的识别方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170901

Termination date: 20180703

CF01 Termination of patent right due to non-payment of annual fee