CN106326895B - 图像处理装置和图像处理方法 - Google Patents

图像处理装置和图像处理方法 Download PDF

Info

Publication number
CN106326895B
CN106326895B CN201510333843.8A CN201510333843A CN106326895B CN 106326895 B CN106326895 B CN 106326895B CN 201510333843 A CN201510333843 A CN 201510333843A CN 106326895 B CN106326895 B CN 106326895B
Authority
CN
China
Prior art keywords
center
region
image
foreground
background
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510333843.8A
Other languages
English (en)
Other versions
CN106326895A (zh
Inventor
范伟
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201510333843.8A priority Critical patent/CN106326895B/zh
Publication of CN106326895A publication Critical patent/CN106326895A/zh
Application granted granted Critical
Publication of CN106326895B publication Critical patent/CN106326895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了图像处理装置和图像处理方法。该图像处理装置包括:提取单元,其从彩色图像中提取文字区域;识别单元,其将所述文字区域识别为前景区域,并且将所述彩色图像中的所述文字区域外围的区域识别为背景区域;计算单元,其计算颜色空间中的前景中心和背景中心,其中所述前景中心代表所述前景区域的像素的集合在所述颜色空间中的位置,而所述背景中心代表所述背景区域的像素的集合在所述颜色空间中的位置;获得单元,其通过计算所述彩色图像的每个像素的灰度值来获得所述彩色图像的灰度图像,所述灰度值取决于所述颜色空间中所述像素在所述前景中心和所述背景中心的连线上的投影位置;和二值化单元,其对当前获得的所述灰度图像进行二值化。

Description

图像处理装置和图像处理方法
技术领域
本公开总体上涉及图像处理装置和图像处理方法,具体而言,涉及能够用于文字识别的图像处理装置和图像处理方法。
背景技术
目前,存在从文档图像中提取出文字区域以进行文字识别和分析的技术。对于文字打印在简单平滑背景上的普通文档图像,诸如表格、发票、账单、论文等,可采用传统的全局二值化方法(如最大类间方差法Otsu)或局部二值化方法(如Niblac二值化、Sauvola二值化)将文字从背景中分离。然而,对于复杂背景中的文本(诸如自然场景中的文字、食品外包装上的文字),传统方法可能会出现错误,导致无法准确分离文字。
在上述技术中,期望能够从复杂背景中准确地分离文字。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于现有技术的上述缺陷,本发明的目的之一是提供一种能够用于文字识别的图像处理装置和图像处理方法,以至少克服现有的问题。
根据本公开的一个方面,提供一种图像处理装置,包括:提取单元,其从彩色图像中提取文字区域;识别单元,其将所述文字区域识别为前景区域,并且将所述彩色图像中的所述文字区域外围的区域识别为背景区域;计算单元,其计算颜色空间中的前景中心和背景中心,其中所述前景中心代表所述前景区域的像素的集合在所述颜色空间中的位置,而所述背景中心代表所述背景区域的像素的集合在所述颜色空间中的位置;获得单元,其通过计算所述彩色图像的每个像素的灰度值来获得所述彩色图像的灰度图像,所述灰度值取决于所述颜色空间中所述像素在所述前景中心和所述背景中心的连线上的投影位置;和二值化单元,其对当前获得的所述灰度图像进行二值化。
根据本公开的另一方面,提供一种图像处理方法,包括步骤:a)从彩色图像中提取文字区域;b)将所述文字区域识别为前景区域,并且将所述彩色图像中的所述文字区域外围的区域识别为背景区域;c)计算颜色空间中的前景中心和背景中心,其中所述前景中心代表所述前景区域的像素的集合在所述颜色空间中的位置,而所述背景中心代表所述背景区域的像素的集合在所述颜色空间中的位置;d)通过计算所述彩色图像的每个像素的灰度值来获得所述彩色图像的灰度图像,所述灰度值取决于所述颜色空间中所述像素在所述前景中心和所述背景中心的连线上的投影位置;和e)对当前获得的所述灰度图像进行二值化。
依据本公开的其它方面,还提供了一种使得计算机用作如上所述的图像处理装置的程序。
依据本公开的又一方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,该计算机程序在执行时能够使计算设备执行上述图像处理方法。
上述根据本公开实施例的各个方面,至少能够获得以下益处:利用文字颜色趋于一致或近似这一特性,将彩色图像转换为强化了文字区域(本文中也称为前景区域)与文字区域外围的区域(本文中也称为背景区域)之间的差异的灰度图像以供二值化处理,从而更清晰地分离文字和背景。
通过以下结合附图对本公开的最佳实施例的详细说明,本公开的这些以及其他优点将更加明显。
附图说明
本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示意性地示出根据本公开实施例的图像处理装置的示例结构的框图。
图2是用于说明根据本公开实施例的图像处理装置的提取单元所进行的示例处理的说明图。
图3是用于说明根据本公开实施例的图像处理装置的识别单元所进行的示例处理的说明图。
图4是用于说明根据本公开实施例的图像处理装置的计算单元所进行的示例处理的说明图。
图5是用于说明根据本公开实施例的图像处理装置的获得单元所进行的示例处理的说明图。
图6是示意性地示出根据本公开实施例的图像处理装置的另一示例结构的框图。
图7A和图7B是用于比较根据本公开实施例的图像处理装置与现有技术的处理效果的说明图。
图8是示出了根据本公开实施例的图像处理方法的示例流程的流程图。
图9是示出了根据本公开实施例的图像处理方法的另一示例流程的流程图。
图10是示出了可用来实现根据本公开实施例的图像处理装置和方法的一种可能的硬件配置的结构简图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
本发明人发现,在现有的文字识别技术中,直接对文档图像进行全局二值化或局部二值化处理以分离文字和背景。然而,对于复杂背景的文本,诸如自然场景中的文字、商品外包装上的文字等,在直接进行二值化处理之后得到的图像中,没有清晰地分离文字和背景。这可能导致在后续提取文字时出现错误,例如部分背景元素被当作文字提取出来,甚至整个背景层被当作文字提取出来。
基于此,本公开提出了一种能够用于文字识别的图像处理装置和图像处理方法,其能够利用文字稳定的颜色信息(或者文字颜色趋于近似或一致的特性),将彩色图像转换为强化了文字区域与文字区域外围的区域之间的差异的灰度图像以供二值化处理,从而更清晰地分离文字和背景。
根据本公开的一个方面,提供了一种图像处理装置。图1是示意性地示出根据本公开实施例的图像处理装置的示例结构的框图。
如图1所示,图像处理装置10包括:提取单元101,其从彩色图像中提取文字区域;识别单元102,其将文字区域识别为前景区域,并且将彩色图像中的文字区域外围的区域识别为背景区域;计算单元103,其计算颜色空间中的前景中心和背景中心,其中前景中心代表前景区域的像素的集合在颜色空间中的位置,而背景中心代表背景区域的像素的集合在颜色空间中的位置;获得单元104,其通过计算彩色图像的每个像素的灰度值来获得彩色图像的灰度图像,该灰度值取决于颜色空间中该像素在前景中心和背景中心的连线上的投影位置;和二值化单元105,其对当前获得的灰度图像进行二值化。
本实施例的提取单元101可以利用各种现有技术方案从彩色图像中提取文字区域。在一个优选实施例中,提取单元101可以先对输入图像进行各种预处理以得到合适的彩色图像。例如,提取单元101可以先从输入图像中提取感兴趣区域,诸如将输入图像中的文字的外接矩形识别为感兴趣区域等。此外,提取单元101可以选择图像质量较高的、较清晰的区域。例如,由于文本边缘的像素的平均梯度强度体现了图像的清晰度,因此提取单元101可以统计该平均梯度强度,并选择平均梯度强度较高的区域。提取单元101基于文本边缘清晰的图像区域来提取文字区域将会有利于图像处理装置10的处理。
在本实施例中,识别单元102将彩色图像中的文字区域外围的区域、而非除文字区域以外的全部区域识别为背景区域,因此使得图像处理装置10中的相关单元的处理关于彩色图像中的文字区域与非文字区域之间的过渡地带的针对性更强。即,计算单元103所计算的前景中心和背景中心、以及获得单元104所利用的前景中心和背景中心的连线都针对文字区域与非文字区域之间的过渡地带,而非泛泛地针对广义上的背景区域(即全部非文字区域),从而有利于准确分离文字区域和非文字区域。
此外,计算单元103计算分别代表了前景区域和背景区域的像素的集合在颜色空间中的相应位置的前景中心和背景中心,使得获得单元104可以将这两个中心的连线作为投影轴而对彩色图像的像素进行投影以得到灰度图像。由于矢量空间中前景中心和背景中心的连线能够表示这两个中心之间的差,因此以该连线作为投影轴而得到的灰度图像强化了作为文字区域的前景区域与作为文字区域外围的区域的背景区域之间的差异,从而能够比原始的彩色图像更清晰地分离文字和背景。
本实施例的二值化单元105可以利用各种现有技术方法对当前获得的灰度图像进行二值化,例如全局二值化方法和局部二值化方法。由于本实施中获得单元104获得的灰度图像已经强化了作为文字区域的前景区域与作为文字区域外围的区域的背景区域之间的差异,因此,即使二值化单元105使用简单的全局二值化方法,所获得的二值化图像也能够清晰地分离文字区域和非文字区域。
以下参照图2至图5描述本公开优选实施例中图像处理装置10的各个组成单元所进行的示例处理。
在一个优选实施例中,图像处理装置10的提取单元101被配置为从彩色图像中提取具有最高出现频率的笔划宽度的区域作为文字区域。提取单元101的该配置利用了文本图像中的笔划宽度的一致性:在大多数文本图像中,目标文字的笔划宽度是一致的。当然,这种一致性不意味着目标文字的笔划宽度只有一种,而是可能具有两个甚至更多个出现频率较高的笔划宽度。例如,包括正文和标题的新闻图像、或者包括多种语言的文字图像中的文字可能使用不同的字体,因而具有一个以上出现频率较高的笔划宽度。相应地,提取单元101可以提取具有最高的一个或更多个出现频率的笔划宽度的区域。
图2是用于说明根据本公开实施例的图像处理装置的提取单元所进行的示例处理的说明图,其中上图为输入的彩色图像,中图为稍后将详细说明的笔划宽度图,下图为经过过滤处理的笔划宽度图。
在一个示例处理中,针对如图2中的上图所示的彩色图像,提取单元101可以首先通过估计获得如图2中的下图所示的笔划宽度图,该笔划宽度图中每个像素的灰度值表示彩色图像中该点所处笔划的宽度估计值,其中大于预定阈值的像素的灰度值被置为零,以表示这些像素对应于彩色图像中的非文字笔划区域。可以通过各种现有方法估计彩色图像中的每个像素所处笔划的宽度估计值并获得笔划宽度图,在这不进行进一步的详细说明。
在获得笔划宽度图之后,提取单元101可以统计该图中各个笔划宽度的出现频率,并获得最高的一个或多个出现频率。可以通过各种方式进行这种统计,例如构建笔划宽度直方图等,这里不再进行详细描述。
接着,提取单元101对笔划宽度图进行过滤处理,仅保留其中与一个或多个最高出现频率的笔划宽度相对应的像素,得到如图2中的下图所示的过滤后的笔划宽度图。然后,提取单元101从彩色图像中提取与过滤后的笔划宽度图中保留的像素相对应的区域,作为文字区域。
在一个优选实施例中,图像处理装置10的识别单元102被配置为将经过腐蚀的文字区域识别为初始前景区域,并且将经过膨胀的文字区域外围的区域识别为初始背景区域。
图3是用于说明根据本公开实施例的图像处理装置的识别单元所进行的示例处理的说明图,其中上图为图像处理装置的提取单元已提取的文字区域,中图为经过腐蚀的文字区域,下图为经过膨胀的文字区域。
从图3的上图中可以看出,图像处理装置10的提取单元101所提取的文字区域包含文字边缘区域,这些区域通常含有文本与非文本之间的过渡颜色。为了获取精确的文字笔划颜色估计,图像处理装置的识别单元102可以对已提取的文字区域实施腐蚀和膨胀操作,分别得到图3的中图中经过腐蚀的文字区域和图3的下图中经过膨胀的文字区域。然后,识别单元102可以将经过腐蚀的文字区域识别为前景区域,并将经过膨胀的文字区域外围的区域(该外围区域例如为经过膨胀的文字区域减去已提取的文字区域,对应于图3的下图中的白色边缘部分)识别为背景区域。
这样得到的前景区域比未经过腐蚀的文字区域更集中地体现了文字部分的颜色一致性,而这样得到的背景区域比未经过膨胀的文字区域外围的区域更好地涵盖了文字部分与非文字部分之间的过渡颜色,因此有利于计算单元103计算更准确的前景中心和背景中心。
在一个优选实施例中,图像处理装置10的计算单元103被配置为计算颜色空间中前景区域的像素的集合的质心作为前景中心,并且计算颜色空间中背景区域的像素的集合的质心作为背景中心。
图4是用于说明根据本公开实施例的图像处理装置的计算单元所进行的示例处理的说明图,其中左图为颜色空间中前景区域的像素的集合,右图为颜色空间中背景区域的像素的集合。
在本示例处理中,颜色空间为RGB颜色空间,因此3个坐标轴分别为R轴、G轴、B轴。应注意,RGB颜色空间仅作为示例,本公开实施例所涉及的颜色空间可以是任何其他适合的彩色模型。本示例中的文字颜色趋于近似或相同,因此,颜色空间中前景区域的像素的集合趋向于一个聚类,而背景区域的像素的集合趋于分散,大致可视为两个聚类。计算单元103计算这两个集合各自的质心,以分别作为前景中心和背景中心。
在一个优选实施例中,图像处理装置10的获得单元104被配置为通过彩色图像的每个像素在前景中心和背景中心的连线上的投影点相对于前景中心或背景中心的距离来表征该像素的投影位置,以作为该像素的灰度值,从而获得彩色图像的灰度图像。
图5是用于说明根据本公开实施例的图像处理装置的获得单元所进行的示例处理的说明图。图5中以点划线示出了颜色空间(例如RGB颜色空间)的坐标系,并且以两个圆形分别示出了图像处理装置10的计算单元103所计算的该颜色空间中的前景中心和背景中心。对于彩色图像的任意像素,获得单元104可以通过该像素在前景中心和背景中心的连线上的投影点相对于背景中心的距离来表征该像素的投影位置,以作为该像素的灰度值,从而获得彩色图像的灰度图像。
在一个优选实施例中,获得单元104在获得彩色图像的各个像素的投影位置之后,可以对所有像素的投影位置进行归一化,并以归一化之后的投影位置作为每个像素的灰度值。例如,从图5中可以看出,如果像素在颜色空间中处于背景中心的远离前景中心的那一侧,则该像素的投影位置可能被表示为负数。而在归一化处理之后,所有像素的投影位置都可以被表示为0到255的灰度值。
图6是示意性地示出根据本公开实施例的图像处理装置的另一示例结构的框图,该图中的(A)示出了本实施例的图像处理装置10’,(B)示出了本实施例的判断及使能单元106,(C)示出了本实施例的提取单元101。如图6中的(A)所示,在该实施例中,除了参照图1所示的图像处理装置10的提取单元101、识别单元102、计算单元103、获得单元104、二值化单元105之外,图像处理装置10’还包括判断及使能单元106。注意,本实施例的图像处理装置10’中的各个单元101-105例如可以包括与以上参照图1至图5所描述的相应单元的功能和处理相同或相似的功能或处理,在此不再重复描述;以下描述将集中于第一实施例中没有的判断及使能单元106以及相较于第一实施例中具有额外功能的提取单元101。
本实施例的判断及使能单元106包括:第一判断子单元1061,其判断计算单元10当前计算的前景中心和背景中心是否为首次计算;第二判断子单元1062,其在第一判断子单元1061判断非首次计算的情况下,判断计算单元10当前计算的前景中心和/或背景中心相对于上次计算的前景中心和/或背景中心的位移量是否超过阈值;以及使能子单元1063,当获得单元104执行了其处理之后,如果第一判断子单元1061判断首次计算或第二判断子单元1062判断位移量超过阈值,则使能子单元1063使得提取单元101、识别单元102、计算单元103、获得单元104再次执行其各自的处理;否则,使能子单元1063使得二值化单元105执行其处理。
在本优选实施例中,提取单元101包括:第三判断子单元1011,其判断是否存在获得单元104上次获得的灰度图像,以及提取子单元1012,在第三判断子单元1011判断存在上次获得的灰度图像的情况下,提取子单元1012从该灰度图像中提取文字区域,并从彩色图像中提取与灰度图像中的该文字区域位置相同的区域作为彩色图像的文字区域。
在一个具体示例中,在第三判断子单元1011判断不存在获得单元104上次获得的灰度图像的情况下,提取子单元1012从直接从彩色图像中提取文字区域。
利用上述的判断及使能单元106和提取单元101,本优选实施例的图像处理装置10’能够以一种迭代的方式从彩色图像中提取文字区域,并对该文字区域进行相关处理,以将彩色图像转换为最优的灰度图像。
更具体地,本优选实施例中的提取单元101可以将获得单元104上次获得的、已经强调了前景区域与背景区域之间的差异的灰度图像用于从彩色图像中再次提取文字区域,并且识别单元102可利用这样提取的文字区域再次识别前景区域和背景区域,计算单元103可再次计算前景中心和背景中心,获得单元104可再次利用前景中心和背景中心的连线作为投影轴而获得更加强调前景区域与背景区域之间的差异的灰度图像,直到获得最优的投影轴、进而获得最优地分离了前景区域与背景区域的灰度图像为止。
本优选实施例中的使能子单元1063所利用的迭代停止条件为前景中心和/或背景中心相对于上次计算的前景中心和/或背景中心的位移量不超过阈值。即,如果在当前计算与上次计算之间,前景中心和/或背景中心位置的相对改变不超过阈值,则意味着已经得到最优的前景中心和/或背景中心的位置、即最优的投影轴,因而利用该投影轴即能获得最优的灰度图像。因此,在该条件下,使能子单元1063不再使提取单元101、识别单元102、计算单元103、获得单元104执行其各自的处理,而是使得二值化单元105对目前得到的最优的灰度图像进行二值化,以得到二值化的图像。
在一个优选实施中,在提取单元101的第三判断子单元1011判断存在上次获得的灰度图像的情况下,提取单元101的提取子单元1012被配置为从该灰度图像中提取具有最高出现频率的笔划宽度的区域作为灰度图像的文字区域,并从彩色图像中提取与该文字区域位置相同的区域作为彩色图像的文字区域。
这里,提取子单元1012从灰度图像中提取具有最高出现频率的笔划宽度的区域以作为灰度图像的文字区域的处理可以包括与以上参照图2描述的提取单元101进行的处理类似的处理,并可实现类似的效果,在此不再详细描述。
在一个优选实施中,判断及使能单元106的第二判断子单元1062被配置为通过当前计算的背景中心和前景中心的连线与上次计算的背景中心和前景中心的连线之间的夹角来表征这两次计算的前景中心和/或背景中心之间的位移量。
颜色空间中背景中心和前景中心的连线表示前景中心与背景中线之间的差异,并被获得单元104用作投影轴以对彩色图像的像素进行投影,而影响投影结果的是投影轴的方向。只要该连线的方向、或投影轴的方向不变,则经过归一化处理之后,各个像素的投影位置也不会改变。因此,可以通过两次计算的连线之间的夹角来衡量两次计算的前景中心和/或背景中心之间的位移量。
以上参照图1至图6描述了根据本公开实施例的图像处理装置的示例结构及其各个组成单元进行的示例处理。利用本公开实施例的图像处理装置对包括文字的彩色图像进行处理,可以将彩色图像转换为强化了文字区域与文字区域外围的区域之间的差异的灰度图像以供二值化处理,从而更清晰地分离文字和背景,获得比现有技术更好的分离效果。
图7A和图7B是用于比较根据本公开实施例的图像处理装置与现有技术的处理效果的说明图。图7A和图7B中分别示出了(I)-(II)和(III)-(IV)共四组对比图,其中,每组中第一张图是输入的彩色图像,第二张图是利用现有技术中的Sauvola局部二值化处理得到的二值化图像,第三张图是利用本公开实施例的图像处理装置得到的二值化图像。从图7A和图7B中可以看出,对于具有复杂背景的文字,本公开实施例的图像处理装置比现有技术更准确清晰地分离了文字和背景。
根据本公开的另一方面,提供了一种图像处理方法。图8是示出了根据本公开实施例的图像处理方法的示例流程的流程图。
图8示出了根据本公开实施例的图像处理方法800的示例流程。如图8所示,图像处理方法800包括下述步骤:提取步骤S801,从彩色图像中提取文字区域;识别步骤S803,将文字区域识别为前景区域,并且将彩色图像中的文字区域外围的区域识别为背景区域;计算步骤S805,计算颜色空间中的前景中心和背景中心,其中前景中心代表前景区域的像素的集合在颜色空间中的位置,而背景中心代表背景区域的像素的集合在颜色空间中的位置;获得步骤S807,通过计算彩色图像的每个像素的灰度值来获得彩色图像的灰度图像,该灰度值取决于颜色空间中该像素在前景中心和背景中心的连线上的投影位置;和二值化步骤S809,对当前获得的灰度图像进行二值化。
图像处理方法800及其各个步骤S801-S809可以包括以上参照图1至图5描述的图像处理装置10及其相应单元101-105中进行的各种处理,并且可以获得与参照图1至图5描述的相应单元类似的效果,这些处理和效果的具体细节在此不再赘述。
在一个优选实施例中,在提取步骤S801中,提取具有最高出现频率的笔划宽度的区域作为文字区域。
在一个优选实施例中,在识别步骤S803中,将经过腐蚀的文字区域识别为初始前景区域,并且将经过膨胀的文字区域外围的区域识别为初始背景区域。
在一个优选实施例中,在计算步骤S805中,计算颜色空间中前景区域的像素的集合的质心作为前景中心,并且计算颜色空间中背景区域的像素的集合的质心作为背景中心。
在一个优选实施例中,在获得步骤S807中,通过彩色图像中的像素在前景中心和背景中心的连线上的投影点相对于前景中心或背景中心的距离来表征该像素的投影位置,以作为该像素的灰度值,从而获得彩色图像的灰度图像。
图9是示出了根据本公开实施例的图像处理方法的另一示例流程的流程图。图9示出了根据本公开实施例的图像处理方法800’的示例流程。如图9所示,除了以上参照图8说明的图像处理方法800中的提取步骤S801、识别步骤S803、计算步骤S805、获得步骤S807、二值化步骤S809之外,图像处理方法800’还包括:第一判断子步骤S808-1,判断计算步骤S805当前计算的前景中心和背景中心是否为首次计算;以及第二判断子步骤S808-2,在第一判断子步骤S808-1判断非首次计算的情况下,判断计算步骤S805当前计算的前景中心和/或背景中心相对于上次计算的前景中心和/或背景中心的位移量是否超过阈值,其中,当执行了步骤S807之后,如果第一判断子步骤S808-1判断首次计算或第二判断子步骤S808-2判断位移量超过阈值,则返回执行提取步骤S801至获得步骤S807,否则,执行二值化步骤S809。
此外,图像处理方法800’中的提取步骤S801包括:第三判断子步骤S801-1,判断是否存在获得步骤S807上次获得的灰度图像;以及提取子步骤S801-2,在判断存在获得步骤S807上次获得的灰度图像的情况下,从该灰度图像中提取文字区域,并从彩色图像中提取与灰度图像中的文字区域位置相同的区域作为彩色图像的文字区域。
图像处理方法800’及其各个步骤可以包括以上参照图6描述的图像处理装置10’及其相应单元中进行的各种处理,并且可以获得与参照图6描述的相应单元类似的效果,这些处理和效果的具体细节在此不再赘述。
在一个优选实施例中,在图像处理方法800’的提取步骤S801中,在第三判断子步骤S801-1判断存在上次获得的灰度图像的情况下,在提取子步骤S801-2中从灰度图像中提取具有最高出现频率的笔划宽度的区域作为灰度图像的文字区域,并从彩色图像中提取与灰度图像中的该文字区域位置相同的区域作为彩色图像的文字区域。
在一个优选实施例中,在图像处理方法800’的第二判断子步骤S808-2中,通过当前计算的背景中心和前景中心的连线与上次计算的背景中心和前景中心的连线之间的夹角来表征这两次计算的前景中心和/或背景中心之间的位移量。
上述根据本公开实施例的图像处理装置(例如图1、图6中所示的图像处理装置10、10’)以及其中的各个组成单元等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的机器安装构成该软件或固件的程序,该机器在安装有各种程序时,能够执行上述各组成装置的各种功能。
图10是示出了可用来实现根据本公开实施例的图像处理装置和方法的一种可能的硬件配置的结构简图。
在图10中,中央处理单元(CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机存取存储器(RAM)1003的程序执行各种处理。在RAM1003中,还根据需要存储当CPU 1001执行各种处理等等时所需的数据。CPU1001、ROM 1002和RAM 1003经由总线1004彼此连接。输入/输出接口1005也连接到总线1004。
下述部件也连接到输入/输出接口1005:输入部分1006(包括键盘、鼠标等等)、输出部分1007(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1008(包括硬盘等)、通信部分1009(包括网络接口卡例如LAN卡、调制解调器等)。通信部分1009经由网络例如因特网执行通信处理。根据需要,驱动器1010也可连接到输入/输出接口1005。可拆卸介质1011例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1010上,使得从中读出的计算机程序可根据需要被安装到存储部分1008中。
此外,本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时,可执行上述根据本公开实施例的图像处理方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。
在上面对本公开具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
此外,本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。
此外,显然,根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本公开的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
此时,只要该系统或者设备具有执行程序的功能,则本公开的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,客户信息处理终端通过连接到因特网上的相应网站,并且将依据本公开的计算机程序代码下载和安装到信息处理终端中然后执行该程序,也可以实现本公开的各实施例。
综上,在根据本公开实施例中,本公开提供了如下方案,但不限于此:
方案1.一种图像处理装置,包括:
提取单元,其从彩色图像中提取文字区域;
识别单元,其将所述文字区域识别为前景区域,并且将所述彩色图像中的所述文字区域外围的区域识别为背景区域;
计算单元,其计算颜色空间中的前景中心和背景中心,其中所述前景中心代表所述前景区域的像素的集合在所述颜色空间中的位置,而所述背景中心代表所述背景区域的像素的集合在所述颜色空间中的位置;
获得单元,其通过计算所述彩色图像的每个像素的灰度值来获得所述彩色图像的灰度图像,所述灰度值取决于所述颜色空间中所述像素在所述前景中心和所述背景中心的连线上的投影位置;和
二值化单元,其对当前获得的所述灰度图像进行二值化。
方案2.根据方案1所述的图像处理装置,还包括判断及使能单元,
其中,所述判断及使能单元包括:
第一判断子单元,其判断当前计算的前景中心和背景中心是否为首次计算;
第二判断子单元,其在所述第一判断子单元判断非首次计算的情况下,判断当前计算的前景中心和/或背景中心相对于上次计算的前景中心和/或背景中心的位移量是否超过阈值;以及
使能子单元,当所述获得单元执行了其处理之后,如果所述第一判断子单元判断首次计算或所述第二判断子单元判断位移量超过阈值,则所述使能子单元使得所述提取单元、所述识别单元、所述计算单元、所述获得单元再次执行其各自的处理;否则,所述使能子单元使得所述二值化单元执行其处理,以及
其中,所述提取单元包括:
第三判断子单元,其判断是否存在上次获得的灰度图像,以及,
提取子单元,在所述第三判断子单元判断存在上次获得的灰度图像的情况下,所述提取子单元从所述灰度图像中提取文字区域,并从所述彩色图像中提取与所述灰度图像中的文字区域位置相同的区域作为所述彩色图像的文字区域。
方案3.根据方案1所述的图像处理装置,其中,所述提取单元被配置为从所述彩色图像中提取具有最高出现频率的笔划宽度的区域作为所述文字区域。
方案4.根据方案2所述的图像处理装置,其中,所述提取子单元被配置为从所述灰度图像中提取具有最高出现频率的笔划宽度的区域作为所述灰度图像中的文字区域。
方案5.根据方案1或2所述的图像处理装置,其中,所述识别单元被配置为将经过腐蚀的所述文字区域识别为初始前景区域,并且将经过膨胀的所述文字区域外围的区域识别为初始背景区域。
方案6.根据方案1或2所述的图像处理装置,其中,所述计算单元被配置为计算所述颜色空间中所述前景区域的像素的集合的质心作为所述前景中心,并且计算所述颜色空间中所述背景区域的像素的集合的质心作为所述背景中心。
方案7.根据方案2所述的图像处理装置,其中,所述第二判断子单元被配置为通过当前计算的背景中心和前景中心的连线与上次计算的背景中心和前景中心的连线之间的夹角来表征所述位移量。
方案8.根据方案1或2所述的图像处理装置,其中,所述获得单元被配置为通过所述像素在所述前景中心和所述背景中心的连线上的投影点相对于所述前景中心或所述背景中心的距离来表征所述投影位置。
方案9.一种图像处理方法,包括步骤:
a)从彩色图像中提取文字区域;
b)将所述文字区域识别为前景区域,并且将所述彩色图像中的所述文字区域外围的区域识别为背景区域;
c)计算颜色空间中的前景中心和背景中心,其中所述前景中心代表所述前景区域的像素的集合在所述颜色空间中的位置,而所述背景中心代表所述背景区域的像素的集合在所述颜色空间中的位置;
d)通过计算所述彩色图像的每个像素的灰度值来获得所述彩色图像的灰度图像,所述灰度值取决于所述颜色空间中所述像素在所述前景中心和所述背景中心的连线上的投影位置;和
e)对当前获得的所述灰度图像进行二值化。
方案10.根据方案9所述的图像处理方法,还包括步骤:
f1)判断当前计算的前景中心和背景中心是否为首次计算;以及
f2)在步骤f1)判断非首次计算的情况下,判断当前计算的前景中心和/或背景中心相对于上次计算的前景中心和/或背景中心的位移量是否超过阈值,
其中,当执行了步骤d)之后,如果步骤f1)判断首次计算或步骤f2)判断位移量超过阈值,则返回执行步骤a)至步骤d),否则,执行步骤e),以及
其中,所述步骤a)包括:
判断是否存在上次获得的灰度图像,以及,
在判断存在上次获得的灰度图像的情况下,从所述灰度图像中提取文字区域,并从所述彩色图像中提取与所述灰度图像中的文字区域位置相同的区域作为所述彩色图像的文字区域。
方案11.根据方案9所述的图像处理方法,其中,在步骤a)中,提取具有最高出现频率的笔划宽度的区域作为所述文字区域。
方案12.根据方案10所述的图像处理方法,其中,在步骤a)中判断存在上次获得的灰度图像的情况下,从所述灰度图像中提取具有最高出现频率的笔划宽度的区域作为所述灰度图像的文字区域。
方案13.根据方案9或10所述的图像处理方法,其中,在步骤b)中,
将经过腐蚀的所述文字区域识别为初始前景区域,并且将经过膨胀的所述文字区域外围的区域识别为初始背景区域。
方案14.根据方案9或10所述的图像处理方法,其中,在步骤c)中,计算所述颜色空间中所述前景区域的像素的集合的质心作为所述前景中心,并且计算所述颜色空间中所述背景区域的像素的集合的质心作为所述背景中心。
方案15.根据方案10所述的图像处理方法,其中,在步骤f2)中,通过当前计算的背景中心和前景中心的连线与上次计算的背景中心和前景中心的连线之间的夹角来表征所述位移量。
方案16.根据方案9或10所述的图像处理方法,其中,在步骤d)中,通过所述像素在所述前景中心和所述背景中心的连线上的投影点相对于所述前景中心或所述背景中心的距离来表征所述投影位置。
最后,还需要说明的是,在本公开中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露,但是,应该理解,本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。

Claims (6)

1.一种图像处理装置,包括:
提取单元,其从彩色图像中提取文字区域;
识别单元,其将所述文字区域识别为前景区域,并且将所述彩色图像中的所述文字区域外围的区域识别为背景区域;
计算单元,其计算颜色空间中的前景中心和背景中心,其中所述前景中心代表所述前景区域的像素的集合在所述颜色空间中的位置,而所述背景中心代表所述背景区域的像素的集合在所述颜色空间中的位置;
获得单元,其通过计算所述彩色图像的每个像素的灰度值来获得所述彩色图像的灰度图像,所述灰度值取决于所述颜色空间中所述像素在所述前景中心和所述背景中心的连线上的投影位置;
二值化单元,其对当前获得的所述灰度图像进行二值化;和
判断及使能单元,
其中,所述判断及使能单元包括:
第一判断子单元,其判断当前计算的前景中心和背景中心是否为首次计算;
第二判断子单元,其在所述第一判断子单元判断非首次计算的情况下,判断当前计算的前景中心和/或背景中心相对于上次计算的前景中心和/或背景中心的位移量是否超过阈值,其中,所述第二判断子单元被配置为通过当前计算的背景中心和前景中心的连线与上次计算的背景中心和前景中心的连线之间的夹角来表征所述位移量;以及
使能子单元,当所述获得单元执行了其处理之后,如果所述第一判断子单元判断首次计算或所述第二判断子单元判断位移量超过阈值,则所述使能子单元使得所述提取单元、所述识别单元、所述计算单元、所述获得单元再次执行其各自的处理;否则,所述使能子单元使得所述二值化单元执行其处理,以及
其中,所述提取单元包括:
第三判断子单元,其判断是否存在上次获得的灰度图像,以及,
提取子单元,在所述第三判断子单元判断存在上次获得的灰度图像的情况下,所述提取子单元从所述灰度图像中提取文字区域,并从所述彩色图像中提取与所述灰度图像中的文字区域位置相同的区域作为所述彩色图像的文字区域。
2.根据权利要求1所述的图像处理装置,其中,所述提取子单元被配置为从所述灰度图像中提取具有最高出现频率的笔划宽度的区域作为所述灰度图像中的文字区域。
3.根据权利要求1所述的图像处理装置,其中,所述识别单元被配置为将经过腐蚀的所述文字区域识别为初始前景区域,并且将经过膨胀的所述文字区域外围的区域识别为初始背景区域。
4.根据权利要求1所述的图像处理装置,其中,所述计算单元被配置为计算所述颜色空间中所述前景区域的像素的集合的质心作为所述前景中心,并且计算所述颜色空间中所述背景区域的像素的集合的质心作为所述背景中心。
5.根据权利要求1所述的图像处理装置,其中,所述获得单元被配置为通过所述像素在所述前景中心和所述背景中心的连线上的投影点相对于所述前景中心或所述背景中心的距离来表征所述投影位置。
6.一种图像处理方法,包括步骤:
a)从彩色图像中提取文字区域;
b)将所述文字区域识别为前景区域,并且将所述彩色图像中的所述文字区域外围的区域识别为背景区域;
c)计算颜色空间中的前景中心和背景中心,其中所述前景中心代表所述前景区域的像素的集合在所述颜色空间中的位置,而所述背景中心代表所述背景区域的像素的集合在所述颜色空间中的位置;
d)通过计算所述彩色图像的每个像素的灰度值来获得所述彩色图像的灰度图像,所述灰度值取决于所述颜色空间中所述像素在所述前景中心和所述背景中心的连线上的投影位置;
e)对当前获得的所述灰度图像进行二值化;
f1)判断当前计算的前景中心和背景中心是否为首次计算;以及
f2)在步骤f1)判断非首次计算的情况下,判断当前计算的前景中心和/或背景中心相对于上次计算的前景中心和/或背景中心的位移量是否超过阈值,其中,通过当前计算的背景中心和前景中心的连线与上次计算的背景中心和前景中心的连线之间的夹角来表征所述位移量,
其中,当执行了步骤d)之后,如果步骤f1)判断首次计算或步骤f2)判断位移量超过阈值,则返回执行步骤a)至步骤d),否则,执行步骤e),以及
其中,所述步骤a)包括:
判断是否存在上次获得的灰度图像,以及,
在判断存在上次获得的灰度图像的情况下,从所述灰度图像中提取文字区域,并从所述彩色图像中提取与所述灰度图像中的文字区域位置相同的区域作为所述彩色图像的文字区域。
CN201510333843.8A 2015-06-16 2015-06-16 图像处理装置和图像处理方法 Active CN106326895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510333843.8A CN106326895B (zh) 2015-06-16 2015-06-16 图像处理装置和图像处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510333843.8A CN106326895B (zh) 2015-06-16 2015-06-16 图像处理装置和图像处理方法

Publications (2)

Publication Number Publication Date
CN106326895A CN106326895A (zh) 2017-01-11
CN106326895B true CN106326895B (zh) 2020-07-07

Family

ID=57731948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510333843.8A Active CN106326895B (zh) 2015-06-16 2015-06-16 图像处理装置和图像处理方法

Country Status (1)

Country Link
CN (1) CN106326895B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609553A (zh) * 2017-09-12 2018-01-19 网易有道信息技术(北京)有限公司 图像处理方法、介质、装置和计算设备
CN108154188B (zh) * 2018-01-08 2021-11-19 天津大学 基于fcm的复杂背景下人工文本提取方法
CN108550101B (zh) * 2018-04-19 2023-07-25 腾讯科技(深圳)有限公司 图像处理方法、装置及存储介质
CN110533049B (zh) * 2018-05-23 2023-05-02 富士通株式会社 提取印章图像的方法和装置
CN109409377B (zh) * 2018-12-03 2020-06-02 龙马智芯(珠海横琴)科技有限公司 图像中文字的检测方法及装置
CN109814977B (zh) * 2019-02-02 2022-10-14 珠海金山数字网络科技有限公司 一种文字显示方法、装置、计算设备及存储介质
CN111476243A (zh) * 2020-04-13 2020-07-31 中国工商银行股份有限公司 影像文字识别方法及装置
CN114219946B (zh) * 2021-12-29 2022-11-15 北京百度网讯科技有限公司 文本图像的二值化方法及装置、电子设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102881001A (zh) * 2011-07-13 2013-01-16 富士通株式会社 将彩色图像转换为灰度图像的装置和方法
CN103632361A (zh) * 2012-08-20 2014-03-12 阿里巴巴集团控股有限公司 一种图像分割方法和系统
CN104298982A (zh) * 2013-07-16 2015-01-21 深圳市腾讯计算机系统有限公司 一种文字识别方法及装置
CN104598907A (zh) * 2013-10-31 2015-05-06 同济大学 一种基于笔画宽度图的图像中文字数据提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102881001A (zh) * 2011-07-13 2013-01-16 富士通株式会社 将彩色图像转换为灰度图像的装置和方法
CN103632361A (zh) * 2012-08-20 2014-03-12 阿里巴巴集团控股有限公司 一种图像分割方法和系统
CN104298982A (zh) * 2013-07-16 2015-01-21 深圳市腾讯计算机系统有限公司 一种文字识别方法及装置
CN104598907A (zh) * 2013-10-31 2015-05-06 同济大学 一种基于笔画宽度图的图像中文字数据提取方法

Also Published As

Publication number Publication date
CN106326895A (zh) 2017-01-11

Similar Documents

Publication Publication Date Title
CN106326895B (zh) 图像处理装置和图像处理方法
US9070035B2 (en) Document processing apparatus, document processing method and scanner
US9430704B2 (en) Image processing system with layout analysis and method of operation thereof
KR102208683B1 (ko) 문자 인식 방법 및 그 장치
US9275030B1 (en) Horizontal and vertical line detection and removal for document images
US9449222B2 (en) Image processing device and method
US9235755B2 (en) Removal of underlines and table lines in document images while preserving intersecting character strokes
JP6352695B2 (ja) 文字検出装置、方法およびプログラム
RU2581786C1 (ru) Определение преобразований изображения для повышения качества оптического распознавания символов
WO2011128777A2 (en) Segmentation of textual lines in an image that include western characters and hieroglyphic characters
US20180089525A1 (en) Method for line and word segmentation for handwritten text images
CN107977658B (zh) 图像文字区域的识别方法、电视机和可读存储介质
Cohen et al. Using scale-space anisotropic smoothing for text line extraction in historical documents
KR100923935B1 (ko) Ocr을 위한 문서 영상의 자동 평가 방법 및 시스템
CN108256518B (zh) 文字区域检测方法及装置
EP3561725B1 (en) Optical character recognition of connected characters
KR102167433B1 (ko) 다중 패턴 문자 영상 자동 생성 기반 문자 인식 장치 및 그 방법
US10049309B2 (en) Character recognition device, character recognition method and program
Feild et al. Scene text recognition with bilateral regression
JP6686460B2 (ja) 文書画像におけるマークの除去方法及び除去装置
Boiangiu et al. Handwritten documents text line segmentation based on information energy
CN116030472A (zh) 文字坐标确定方法及装置
Zeng et al. An algorithm for colour-based natural scene text segmentation
Datta Credit Card Processing Using Cell Phone Images
JP2012222581A (ja) 画像処理装置、画像処理方法、プログラム、及び記憶媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant