CN104137119A - 图像处理装置及图像处理方法 - Google Patents

图像处理装置及图像处理方法 Download PDF

Info

Publication number
CN104137119A
CN104137119A CN201280070746.9A CN201280070746A CN104137119A CN 104137119 A CN104137119 A CN 104137119A CN 201280070746 A CN201280070746 A CN 201280070746A CN 104137119 A CN104137119 A CN 104137119A
Authority
CN
China
Prior art keywords
mentioned
character
composition
pixel
character candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280070746.9A
Other languages
English (en)
Other versions
CN104137119B (zh
Inventor
长田邦男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Publication of CN104137119A publication Critical patent/CN104137119A/zh
Application granted granted Critical
Publication of CN104137119B publication Critical patent/CN104137119B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/155Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18086Extraction of features or characteristics of the image by performing operations within image blocks or by using histograms
    • G06V30/18095Summing image-intensity values; Projection and histogram analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

一种图像处理装置,在字符像素数最多的灰阶的字符像素数与字符像素数为第2多的灰阶的字符像素数之间存在有意义的差异的情况下,选择将像素数最多的灰阶中的非字符成分除去后的字符候选成分作为输出图像,并且在字符像素数最多的灰阶的字符像素数与字符像素数为第2多的灰阶的字符像素数之间没有有意义的差异的情况下,选择将边缘像素数最少的灰阶中的非字符成分除去后的字符候选成分作为输出图像。

Description

图像处理装置及图像处理方法
技术领域
本发明的实施方式涉及从图像数据提取字符的图像处理装置及图像处理方法。
背景技术
以往,已知有在图像数据中包含有被修边的字符的情况下、将修边部分除去而提取字符的技术。作为具体的方法,有以下的技术:在将图像数据向二值图像变换后,按照各灰阶将字符切取,判定切取后的字符是通常字符还是中空字符,在是中空字符的情况下,进行向通常字符变换的图像修正,取得字符。此外,也存在如下技术:对于图像数据,参照多个字符识别词典而执行字符识别,计算作为各自的执行结果的字符的可靠度,选择可靠度较高的识别结果。
现有技术文献
专利文献
专利文献1:日本特开平11-161739号公报
专利文献2:日本特开2009-199276号公报
发明概要
发明要解决的课题
但是,在通过以往的图像处理的字符提取时,在修边较粗的情况下、或字符彼此接触的情况下,存在字符的切取较困难的情况。此外,在使用字符识别词典的情况下,由于将多个字符识别词典组合而进行计算,所以计算量有增大的趋势。
发明内容
本发明是鉴于上述情况而做出的,目的是提供一种不论修边的状态如何、都能够从图像数据适当地提取字符的图像处理装置。
用于解决课题的手段
为了解决上述课题、达到目的,本发明的图像处理装置具备:取得部,取得图像数据;提取部,基于预先设定的第1基准,从图像数据按照该图像数据的灰阶来提取字符候选成分的集合;除去部,基于预先设定的第2基准,从字符候选成分的集合将非字符成分除去。
此外,图像处理装置具备:字符计测部,对表示将非字符成分除去后的字符候选成分所包含的像素数的字符像素数进行计测;边缘计测部,对表示与将非字符成分除去后的字符候选成分邻接的边缘像素的像素数的边缘像素数进行计测;
并且,图像处理装置在字符像素数最多的灰阶的字符像素数与字符像素数为第2多的灰阶的字符像素数之间存在有意义的差异的情况下,选择将非字符成分除去后的像素数最多的灰阶中的字符候选成分作为输出图像。此外,图像处理装置在字符像素数最多的灰阶的字符像素数与字符像素数为第2多的灰阶的字符像素数之间没有有意义的差异的情况下,选择将非字符成分除去后的边缘像素数最少的灰阶中的字符候选成分作为输出图像。并且,图像处理装置将所选择的输出图像输出。
附图说明
图1是在实施方式中包括图像处理装置的图像处理系统的功能块图。
图2是在实施方式中表示图像处理的流程的流程图。
图3是在实施方式中表示图像数据的一例的图。
图4是在实施方式中表示划分处理的流程的流程图。
图5是在实施方式中表示被分割为小区域的图像数据的一例的图。
图6是在实施区域中表示被划分为划分区域的图像数据的一例的图。
图7是在实施方式中表示字符像素提取处理的流程的流程图。
图8是在实施方式中表示进行字符像素提取处理时的变换图像的状态的推移的图。
图9是在实施方式中表示变换图像的状态的一例的图。
图10是在实施方式中表示变换图像的状态的一例的图。
图11是在实施方式中表示生成输出图像的处理的流程的图。
图12是在实施方式中表示变换图像的边缘像素的图。
图13是在实施方式中表示输出的输出图像的图。
图14是在实施方式中表示图像数据的一例的图。
图15是在实施方式中表示进行字符像素提取处理时的变换图像的状态的推移的图。
图16是在实施方式中表示图像数据的一例的图。
图17是在实施方式中表示进行字符像素提取处理时的变换图像的状态的推移的图。
图18是在实施方式中表示图像数据的一例的图。
具体实施方式
以下,基于附图详细地说明有关本发明的图像处理装置的实施方式。另外,不通过本实施方式限定本发明。图1是表示包括本实施方式的图像处理装置10的图像处理系统100的结构的块图。
如图1所示,该图像处理系统100对于图像处理装置10连接着作为输入装置的扫描仪1、手写输入部2及HDD记录器3等。对于图像处理装置10输入来自这些输入装置的图像数据。
图像处理装置10具备CPU、存储器、硬盘、输入输出接口等的通用的硬件。图像处理装置10具备图像取得部21、存储部22、划分部23、提取部24、除去部25、像素计测部26、边缘计测部27及输出部28。存储部22由存储器或硬盘实现。此外,图像取得部21、划分部23、提取部24、除去部25、像素计测部26、边缘计测部27及输出部28例如作为存储在硬盘中的图像处理程序的功能实现。
图像取得部21取得从输入装置输入的处理对象的图像数据,将所取得的图像数据向存储部22写入。划分部23从存储部22读出图像数据,将图像数据划分为1个以上的划分区域。划分部23将划分后的图像数据的各个的划分区域中的开始位置及结束位置的坐标信息向存储部22写入。
提取部24将图像数据以及各划分区域的开始位置和结束位置从存储部22读出,从各个划分区域中包含的图像数据提取字符像素,向存储部22写入。除去部25从提取部24提取的字符像素将修边及非字符成分等除去,将除去后的字符像素向存储部22写入。像素计测部26及边缘计测部27对字符候选成分中包含的像素数进行计测,与提取部24协同发挥功能。关于详细情况在后面叙述。输出部28从存储部22读出字符像素作为输出图像,向能够识别OHP等的字符的字符识别装置30输出。
接着,参照图2说明实施方式的图像处理系统的处理的流程。图像处理装置10如果从输入装置取得字符串的图像数据,则将所取得的图像数据向存储部22写入(步骤S100)。图3表示图像数据的一例,是横宽为1100像素、高度为215像素、能够取的像素值是0以上且255以下的灰度范围的图像。另外,图像数据也可以是彩色图像或二值图像。接着,划分部23从存储部22将图像数据读出,将图像数据划分为1个以上的划分区域,将图像数据中的各个划分区域的开始位置、结束位置向存储部22写出(步骤S101)。
接着,提取部24从存储部22选择1个划分区域(步骤S102)。在本实施方式中,以写入到存储部22中的顺序选择划分区域。接着,提取部24从在步骤S102中选择的划分区域内,提取后述的字符候选成分的集合,在除去部25从字符候选成分将后述的非字符成分除去后,实施将构成该字符候选成分的字符像素向存储部22写出的字符像素提取处理(步骤S103)。接着,提取部24将在步骤S102中选择的划分区域从存储部22消除(步骤S104)。通过将字符像素提取处理完成后的划分区域消除,在下个步骤S102的划分区域的选择时,选择在存储部22中接着存储的划分区域。另外,也可以不是消除字符像素提取处理完成的划分区域,而是例如能够通过变更存储器地址的指针来选择下个划分区域。
接着,提取部24判定是否在全部的划分区域中实施了字符像素提取处理(步骤S105)。在判定为在全部的划分区域中实施了字符像素提取处理的情况下(步骤S105:是),输出部28从存储部22将字符像素读出,作为输出图像向字符识别装置30输出,结束处理(步骤S106)。另一方面,在判定为没有在全部的划分区域中实施字符像素提取处理的情况下(步骤S105:否),再次重复从步骤S102起的处理。
接着,使用图4对步骤S101中的将图像数据划分为多个划分区域的处理进行说明。为了进行将图像数据划分为划分区域的处理,例如可以采用将以一定间隔分隔图像数据而得到的区域作为划分区域、或从图像数据中提取包含预先设定的颜色的区域而将所提取的区域分别作为划分区域、或将预先设定的位置或预先设定的形状的区域作为划分区域等的方法。
在本实施方式中,将图像数据的像素值连续而类似的区域作为图像数据的划分区域。如图4所示,首先划分部23进行初始化处理(步骤S201)。在初始化处理中,划分部23按照图像数据中的读取方向,将图像数据向小区域数为NR个的、以等间隔划分且比划分区域小的小区域分割。分割时的间隔及分割数只要在小区域的大小比划分区域小的范围内适当设定就可以。字符的读取方向既可以预先设定,也可以自动地判定。在本实施方式中,如果图像数据的长边是上边及下边,则将读取方向判定为横方向,如果图像数据的长边是左边及右边,则将读取方向判定为纵方向。在图3的图像数据中,由于图像的长边是上边及下边,所以读取方向是横方向。
此外,作为参数,将表示当前处理中的小区域的号码的变量即i设为0。此外,将表示划分区域的边界的小区域的位置的变量即b设为0。此外,将表示划分区域的号码的变量即s设为0。
图5表示被分割为小区域的图像数据500的状态。如图5所示,图像数据500被分隔为0~14的合计15个小区域。小区域数既可以是预先设定的值,也可以使用图像数据的值计算。在本实施方式中,使用以下的式1计算小区域数NR
[数学式1]
N R = integer ( 1 r R s ) · · · ( 1 )
在式1中,s是图像数据的短边的长度,l是图像的长边的长度,rR是作为参数而预先设定的值,integer是将输入值变换为整数的函数。在本实施方式中,s是215像素,l是1100像素,作为rR而设定0.34,计算的结果为15。另外,在图5中表示将图像数据分割为相互不重复的矩形的区域的例子,但作为其他例子,也可以使小区域相互重复,也可以不分割为矩形、而分割为椭圆或三角形等其他形状的区域。
接着,划分部23关于被分割为NR个的小区域,生成各个区域的像素值的直方图(步骤S201)。在图5中,由标号501、502表示的曲线图作为例子而示意地表示第0个和第5个小区域中的像素值的直方图。以后,将关于第i个小区域的直方图表示为Hi,将关于从第0个到第NR-1个的小区域的直方图的集合表示为H。
接着,划分部23计算将第b个到第i-1个直方图平均化后的直方图与第i个直方图的差异度d(步骤S202)。此时,由于b是表示进行当前处理的划分区域的开始位置的变量,所以该计算出的值是表示在某个小区域的直方图与属于划分区域的该小区域之前的小区域为止的直方图之间,是否有较大的像素值的趋势的变化的值。这里,作为例子而在差异度d的计算中使用式2。
[数学式2]
d=D(Hi,M(H,b,i-1)) ...(2)
M(H,b,i-1)是在i>0的情况下输出将直方图Hb,Hb+1,···,Hi -1平均化后的直方图,并在i=0的情况下不保证输出值的函数。D是输出由第1自变量和第2自变量给出的两个直方图的差异度的函数。为了将多个直方图平均化,通过对直方图的各柱(bin)的值计算平均值及中间值来实现。在本实施方式中,作为例子对各柱赋予平均值。此外,在本实施方式中,作为例子而如式3那样实现函数D。
[数学式3]
D ( H A , H B ) = ∑ j = 0 N H ( H A , j - H B , j ) 2 · · · ( 3 )
在式3中HA,j是指直方图HA的第j个柱的值,HB,j是指直方图HB的第j个柱的值。但是,j是0<j<NH的整数,NH是直方图的柱数。
接着,划分部23判定是否i比0大、并且步骤计算出的差异度d是否是预先设定的阈值td以上(步骤S203)。在判定为i比0大、差异度d是预先设定的阈值td以上的情况下(步骤S203:是),直方图的趋势变化,所以将一个之前的小区域的集合作为划分区域,划分部23决定第s个划分区域的开始位置和结束位置,向存储部22写出(步骤S204)。作为开始位置和结束位置的计算方法,在本实施方式中使用式4。
[数学式4]
P s = { 0 , ( i + a ) 1 N R } if s = 0 { 1 - 2 a 1 N R } + P s - 1,1 , min ( 1 , i 1 N R ) otherwise &CenterDot; &CenterDot; &CenterDot; ( 4 )
在式4中,Ps是划分区域的开始位置和结束位置的集合,即Ps={开始位置,结束位置},Ps-1,1是第s-1个划分区域的结束位置,a是由调整开始位置及结束位置的参数预先设定的值,min是将自变量之内最小的值输出的函数。
接着,划分部23作为下个划分区域的开始位置,对b的值代入当前的i的变量,并对作为划分区域的号码的S加1(步骤S205)。并且,向步骤S206转移。此外,在判定为i是0、或者差异度d不是预先设定的阈值td以上的情况下(步骤S203:否),也向步骤S206转移。
在步骤S206中,划分部23将i增加1,向对于下个小区域的处理转移(步骤S206)。接着,划分部23判定i是否与NR同值(步骤S207)。在判定为i与NR同值,即对全部小区域的划分处理结束的情况下(步骤S207:是),划分部23与步骤204同样,计算划分区域的开始位置和结束位置的值,向存储部22写出,并将作为当前的划分数的s+1作为划分区域的总数向存储部22写出,结束处理(步骤S208)。另一方面,在判定为i不是与NR同值的情况下(步骤S207:否),重复从步骤S202起的处理。
在图3是图像数据的情况下,图5的分割后的第5个之前的小区域彼此根据字符及修边、背景的亮度计算的直方图的趋势类似,所以在i为0≦i≦4之间,步骤S202中的差异度d为比较小的值。另一方面,第6个小区域与从左起第5个为止的小区域相比,字符及修边、背景的亮度不同。因此,当i=5时,差异度d成为比0≦i≦4时大的值。因而,在0≦i≦4的情况下,d低于预先设定的阈值td,在i=5的情况下d为Td以上,所以如图6所示,在该例中能够得到最初的第1划分区域510和第2划分区域520。
接着,参照图7,对步骤S103中的字符像素提取处理进行说明。如图7所示,首先,提取部24从存储部22读出图像数据、以及在步骤S102中选择的划分区域的开始位置和结束位置,将图像数据的划分区域的范围变换为二值图像(步骤S300)。以后,将变换后的图像数据作为变换图像IB。在图像的变换中,既可以使用例如周知的颜色聚类方法,也可以使用周知的图像二值化方法,或者也可以使用别的图像的二值化方法或多值化方法。另外,也可以不变换为二值图像,而变换为彩色图像或灰度范围的图像。
在本实施方式中,作为例子,如果处于划分区域的范围的像素的像素值不足预先设定的阈值则变换为像素值0,如果满足预先设定的阈值则变换为像素值1,将变换的结果作为变换图像IB写出。
接着,提取部24将表示当前正在对怎样的像素值的变换图像IB进行处理的变量(即i)初始化为0(步骤S301)。即,在i是0的情况下,意味着对像素值0的变换图像进行处理,在i为1的情况下,意味着对像素值1的变换图像进行处理。在本实施方式中,由于是二值图像,所以i的最大值是1,而在彩色图像的情况下,i的值比1大。
接着,提取部24从变换图像IB提取字符候选成分,取得字符候选成分的集合(步骤S302)。字符候选成分是基于预先设定的第1基准而作为字符信息识别的被判定为候选的像素。在本实施方式中,以第1基准为例,根据周知的图像的连结成分提取方法设定,提取字符候选成分。此时,通过在变换图像中以像素值为i(在本实施方式中是0或1)的像素为对象,提取连结成分,从而将包含像素值是i的像素在内的连结成分的集合作为字符候选成分。此外,提取部24对字符候选成分分配从0开始的连续的识别号码。
这样,在本实施方式中,在变换图像IB中提取像素值相同的像素彼此的连结成分作为字符候选成分,但也可以提取像素值类似的像素彼此的连结成分,也可以提取像素值为奇数的像素彼此或偶数的像素彼此的连结成分等,通过别的基准来决定提取连结成分的对象。
图8是表示实施本实施方式的字符像素提取处理时的变换图像IB的状态变迁的图。在将步骤S302的处理实施后的状态下,如图8(a)所示,在i=0的情况下,从划分区域提取的字符候选成分由黑像素构成,字符候选成分以外的部分由白像素构成。从变换图像IB提取从0号到9号为止的合计10个字符候选成分。
之后,将通过步骤S302的字符候选成分的提取处理得到的像素值为i时的字符候选成分的集合表示为Ci。将字符候选成分的集合作为字符候选成分集合。
接着,在步骤S303~步骤S306的处理中,进行从字符候选成分集合Ci将不像字符的部分的字符候选成分即非字符成分除去的处理。在本实施方式中,作为第2基准,使用如下基准,即:字符候选成分的图像数据中的位置与其他字符候选成分相比是否为例外、字符候选成分的大小与其他字符候选成分相比是否为例外、字符候选成分的线宽与其他字符候选成分相比是否为例外、以及字符候选成分中包含的像素数与其他字符候选成分相比是否为例外。但是,在各步骤中没有要除去的非字符成分的情况下不进行处理。
除去部25进行将位置为例外的非字符成分从字符候选成分集合Ci除去的外接成分除去处理(步骤S303)。在本实施方式中,作为例子,将在变换图像IB的左端、右端、上端及下端这样的图像的4端的某个端部包含像素的字符候选成分,作为非字符成分从字符候选成分集合Ci除去。即,在通常的字符的情况下,可以认为不会有字符的一部分挂到变换图像IB的上下左右的端部的情况,所以将这样的在端部的位置包含像素的字符候选成分判定为非字符成分。在图8(a)中,由于没有包含左端、右端、上端及下端的像素的字符候选成分,所以不将字符候选成分除去,而向下个步骤前进。
接着,除去部25进行将大小为例外的字符候选成分作为非字符成分而从字符候选成分集合Ci除去的尺寸基准除去(步骤S304)。在本实施方式中,作为例子,将对各个字符候选成分的周围进行包围的外接矩形的长边的长度为阈值以上的字符候选成分,从字符候选成分集合Ci中除去。该阈值既可以是预先设定的值,也可以自动地求出。在本实施方式中,外接矩形的长边的长度的阈值tw使用数学式5计算。
[数学式5]
tw=srw ···(5)
在数学式5中,s是图像数据的短边的长度,rw是作为参数而预先设定的实数的值,在本实施方式中是0.9。在此情况下,在图3中表示的图像数据的短边的长度s是215像素,所以如果代入到式5中,则为tw=193。
图9将提取出的字符候选成分中的、外接矩形的长边的长度较大的两个字符候选成分的外接矩形用点线表示,此外记载了外接矩形的长边的长度。根据图9,由于字符候选成分0的外接矩形的长边的长度是210,超过tw,字符候选成分1的长边的长度是165不超过tw,所以在步骤S304中将字符候选成分0除去。
接着,除去部25进行将线宽为例外的字符候选成分从字符候选成分集合Ci除去的线宽除去处理(步骤S305)。在本实施方式中,作为例子,将线宽超过上限的阈值或低于下限的阈值的字符候选成分从字符候选成分集合Ci中除去。在线宽的计算中使用例如周知的近似性的计算方法(参考文献:電子信息通信学会技术研究报告PRMU2010-237-PRMU2010-296,P112记载)。具体而言,使用式6计算Ci的第j个(0≦j≦9的整数)字符候选成分Ci,j的线宽wi,j
[数学式6]
w i , j = 2 S i , j L i , j &CenterDot; &CenterDot; &CenterDot; ( 6 )
在数学式6中,Si,j是构成字符候选成分Ci,j的像素数,Li,j是字符候选成分Ci,j的周长。周长例如是与变换图像IB的白像素接触的黑像素的个数。线宽的上限的阈值及下限的阈值既可以是预先设定的值,也可以自动地求出。在本实施方式中,作为例子,通过式7及式8计算线宽的上限的阈值tu及下限的阈值tb
[数学式7]
t u = r u | C i | &Sum; j = 0 | C i | - 1 w i , j &CenterDot; &CenterDot; &CenterDot; ( 7 )
[数学式8]
t b = r b | C i | &Sum; j = 0 | C i | - 1 w i , j &CenterDot; &CenterDot; &CenterDot; ( 8 )
在式7及式8中,ru和rb是参数,是预先设定的值。在本实施方式中,ru是2.0,rb是0.6。
图10图示了紧接着步骤S304的字符候选成分,字符候选成分6是线宽最大的字符候选成分,字符候选成分9是线宽最小的字符候选成分。字符候选成分6由1380个黑像素构成,与白像素接触的黑像素的数量是150个。此外,字符候选成分9由250个黑像素构成,与白像素接触的黑像素的数量是160个。因而,根据式6,字符候选成分6的线宽是大约18,字符候选成分9的线宽是大约3。同样,如果计算其他字符候选成分的线宽,则其他字符候选成分的线宽分别是大约5。因而,在设ru为2.0、设rb为0.6的情况下,tu的值为约12.4,tb的值为约3.7,所以在本实施方式中,字符候选成分6和字符候选成分9在步骤S305中被消除。图8(b)表示将步骤S305的处理结束后的变换图像的状态。
接着,除去部25进行颜色基准除去处理,即:从属于字符候选成分集合Ci的字符候选成分,将步骤s300的变换处理前的图像数据500中的像素值以某个值为基准而含有较多作为例外的值的像素的字符候选成分除去(步骤S306)。图像数据500中的像素值,是与构成字符候选成分的像素处于相同位置的图像数据500的像素的值。即,当设图像数据的任意的坐标(x,y)的像素值为I(x,y),设划分区域的开始位置的坐标为(xs,ys)时,能够将处于坐标(x,y)的IB的像素的图像数据中的像素值表示为I(x+xs,y+ys)。作为判定I(x+xs,y+ys)是否是例外的值的方法,在本实施方式中,可以使用如下方法来判定,即:计算构成属于Ci的全部字符候选成分的像素的图像数据中的像素值的均值mi,并根据mi与I(x+xs,y+ys)的差的绝对值是否是预先设定的阈值tm以上来判定。在mi的计算中使用式9。
[数学式9]
m i = &Sum; x &Sum; yI ( x , y ) I B ( x , y ) &Sum; x &Sum; y I B ( x , y ) &CenterDot; &CenterDot; &CenterDot; ( 9 )
计算这样计算出的均值mi与I(x+xs,y+ys)中的像素值的差异,将图像数据中的像素值为例外的像素表示为例外像素。此外,作为判定字符候选成分Ci,j是否包含较多例外像素的例子,在本实施方式中根据使用式10得到的实数ro是否超过预先设定的阈值to来判定。在该实施方式中,将tm决定为40,将to决定为0.5。
[数学式10]
r 0 = e i , j S i , j &CenterDot; &CenterDot; &CenterDot; ( 10 )
在式10中,ei,j是构成字符候选成分Ci,j的例外像素的个数。图8(c)是对表示步骤S305的处理结果的图8(b)叠加图像数据500而得到的图,但由于构成变换图像的字符候选成分的像素全部是相同的亮度,所以没有例外像素。因而,在变换图像IB是图8(a)的情况下,在步骤S306中将哪个字符候选成分都不除去。另外,为了判别是否是例外像素,也可以不利用均值mi,而是利用像素值的中间值或预先设定的参数。
接着,提取部24在将表示当前正在处理的像素值的变量即i增加1后(步骤S307),提取部24判定i是否不足变换图像中的像素值的最大值NC(步骤S308)。由于变换图像在该实施方式中是二值的图像,所以是NC=2。
在判定为i不足变换图像中的像素值的最大值NC的情况下(步骤S308:是),再次重复从步骤S302起的处理。另一方面,在i不足变换图像中的像素值的最大值NC的情况下(步骤S308:否),提取部24从没有被消除的字符候选成分中提取字符像素,将字符像素作为输出图像向存储部22写出(步骤S309)。
在i=1的情况下,在步骤S302的字符候选成分的提取处理中,提取图8(e)所示那样的字符候选成分。图8(e)是将i=1时的字符候选成分用黑像素表示、将字符候选成分以外用白像素表示的图。
在步骤S303的外接成分的除去处理中,除去部25将包含变换图像IB的左端、右端、上端及下端的像素的字符候选成分除去。此外,在步骤S304中,由于没有外接矩形的长边的长度超过阈值的字符候选成分,所以哪个字符候选成分都不被消除。此外,由于在步骤S305中没有线宽超过上限的阈值或低于下限的阈值的字符候选成分,所以哪个字符候选成分都不被消除。图8(f)是图示当i=1时经过了到步骤S305为止的处理的状态下的字符候选成分的图。
在接着的步骤S306中,将包含较多例外像素的字符候选成分消除。图8(g)是对图8(f)的变换图像叠加了图像数据而得到的图,在此情况下,构成字符候选成分16、17、18的全部的像素的像素值是54,构成字符候选成分12、13、14、15的全部的像素的像素值是194,mi是68。即,对于构成字符候选成分12、13、14、15的全部的像素而言,其像素值与mi之差的绝对值是tm=40以上,所以关于字符候选成分12、13、14、15,各自在式10中算出的ro是1.0,超过to=0.5。因而,在步骤S306中,除去部25将包含较多例外像素的字符候选成分12、13、14、15除去。不将其他字符候选成分消除。图8(h)是图示在步骤S306的处理后残留的字符候选成分的图。在该阶段中,在i=0及1的情况下,分别得到将非字符成分除去后的字符候选成分集合Ci
接着,使用图11对图7中的步骤S309的输出图像生成处理进行说明。提取部24将输出图像中的划分区域内的像素值初始化(步骤S400)。划分区域是在步骤S102中划分部23选择的划分区域。此外,输出图像是宽度和高度与图像数据相同的图像,输出图像中的划分区域的开始位置和结束位置的值与图像数据相同。此外,在输出图像的初始化时,对像素值代入0。
接着,像素计测部26关于全部的像素值的灰阶的字符候选成分的集合C0,C1,···,CNC-1,计算构成属于各个字符候选成分集合的字符候选成分的像素的总数。并且,提取部24判断在像素数最多的像素值的灰阶中的变换图像IB的总像素数与像素数第2多的像素值的灰阶中的变换图像IB的总像素数之间是否有充分的差异(步骤S401)。像素的总数具体而言通过式11计算。
[数学式11]
S i = &Sum; j = 0 | C i | S i , j &CenterDot; &CenterDot; &CenterDot; ( 11 )
在式11中,Si,j是构成字符候选成分Ci,j的像素数,Si是像素值为i的情况下的、字符候选成分集合Ci的像素数的总数。各像素值的字符候选成分集合Ci中的最大的像素数与第2大的像素数的差异既可以是总数的最大值与第2大的总数之差的绝对值,也可以是总数的最大值与第2大的总数之比,也可以是表示总数的最大值与其他的总数彼此的大小的差异的其他值。
是否有充分的差异,在本实施方式中根据求出的差异是否超过阈值来判定。阈值既可以是预先设定的值,也可以自动地求出。在本实施方式中,作为例子而使用式12来求出阈值ts
[数学式12]
t s = r s ma x 0 &le; i &le; N C ( S i ) &CenterDot; &CenterDot; &CenterDot; ( 12 )
在式12中,rs是预先设定的参数,在本实施方式中是0.2。max是自变量中输出最大的值的函数。即,式12中的max函数将有Nc个的像素值的总数中的最大值输出。在本实施方式中,Nc=2,图8(d)表示字符候选成分集合C0,图8(h)表示字符候选成分集合C1
图8(d)所示的字符候选成分集合C0中的黑像素的个数是14500个,图8(h)所示的字符候选成分C1中的黑像素的个数是12700个,S0=14500,S1=12700。在此情况下,作为阈值的ts是2900,另一方面,由于差异是|S0-S1|=1800,所以S0与S1的差异为阈值以下。
在判定为像素的总数的差异是阈值以下的情况下(步骤S401:是),边缘像素计测部27对构成属于各个字符候选成分集合Ci的字符候选成分的像素的边缘像素进行计数,计算该边缘像素的总数(步骤S402)。所谓边缘像素,是将构成字符候选成分的像素的边缘及轮廓等表现的像素。在本实施方式中,作为例子,将不属于字符候选成分集合Ci的像素中的与字符候选成分Ci,j邻接的像素作为字符候选成分Ci,j的边缘像素。
图12(a)表示属于字符候选成分集合C0的字符候选成分Ci,j的边缘像素。此外,图12(b)表示属于字符候选成分集合C1的字符候选成分Ci, j的边缘像素。此时,如果将表示各边缘像素的像素数的变量设为Ei,则是E0=5600,E1=2800。
接着,提取部24基于边缘像素的像素数的值选择向输出图像写出的字符候选成分的集合(步骤S403)。具体而言,提取部24选择边缘像素的总数最小的字符候选成分集合Ci。在本实施方式中,选择字符候选成分集合C1
另一方面,在判定为像素的总数的差异不是阈值以下的情况下(步骤S401:否),提取部24基于像素数的值,选择向输出图像写出的字符候选成分的集合(步骤S404)。具体而言,提取部24选择构成属于字符候选成分集合Ci的字符候选成分的像素的总数为最大的字符候选成分集合Ci
提取部24进行将构成所选择的字符候选成分集合Ci的像素作为提取出的字符像素向存储部22上的输出图像写出的绘图(plot)处理(步骤S405)。在本实施方式中,当设划分区域的开始位置的坐标为(xs,ys),设变换图像IB中构成字符候选成分Ci,j的全部的像素的坐标为(x,y)时,在输出图像中的坐标(x+xs,y+ys)的像素值中代入1。在本实施方式中,由图89(h)表示的图像作为由步骤S405写出的输出图像被绘图。
如果对图6中的划分区域520也进行同样的字符像素提取处理,则将图13所示的图像数据整体的输出图像向存储部22写出。
此外,使用图14,说明对别的图像数据进行了处理的结果。图14是不同的字符的修边发生了接触的情况。在此情况下,通过划分部23将图像整体划分为1个划分区域。并且,在i=0的情况下,通过提取部24,得到从图15的(a)的状态到(d)所示的字符候选成分集合C0,在i=1的情况下,通过提取部24得到从图15的(e)的状态到(h)所示的字符候选成分集合C1。并且,在此情况下,将由图15(h)表示的图像最终作为输出图像向存储部22写出。
此外,作为另一例,对图16所示那样的情况进行说明。在此情况下,通过划分部23将图像整体划分为1个划分区域。并且,在i=0的情况下,通过提取部24得到从图17的(a)的状态到(d)所示的字符候选成分集合C0,在i=1的情况下,通过提取部24得到从图17的(e)的状态到(h)所示的字符候选成分集合C1。并且,在此情况下,将由图17(d)表示的图像最终作为输出图像向存储部22写出。
此外,图18表示被输入手写的字符的图像数据的情况下的图像数据。在本实施方式中,从图18(a)所示的有修边的图像数据得到图18(b)所示的通常字符的输出图像。
在以上所示的本实施方式的图像处理装置10中,在像素数最多的灰阶中的变换图像的字符像素数与像素数第2多的灰阶中的变换图像的字符像素数之间存在有意义的差异的情况下,选择将像素数最多的灰阶中的非字符成分除去后的字符候选成分作为输出图像。此外,在像素数最多的灰阶中的变换图像的字符像素数与像素数第2多的灰阶中的变换图像的字符像素数之间没有有意义的差异的情况下,选择将边缘像素数最少的灰阶中的变换图像的非字符成分除去后的字符候选成分作为输出图像。
在这样选择输出图像的情况下,即使是修边重复的情况,也能够得到基于适当地除去了修边的通常字符的输出图像。此外,由于在处理时不需要使用字符识别词典进行计算,所以也能够减轻处理负担。
进而,由于按照像素的趋势不同的区域来划分,并进行图像的变换处理,所以能够有效地进行字符候选成分的提取及非字符成分的除去。
以上,说明了本发明的实施方式,但这些实施方式是作为例子提示的,并不意味着限定发明的范围。这些新的实施方式能够以其他各种各样的形态实施,在不脱离发明的主旨的范围内能够进行各种省略、替换、变更。这些实施方式及其变形包含在发明的范围及主旨中,并且包含在权利要求所记载的发明和其等价的范围中。
标号说明
1 扫描仪
2 手写输入部
3 记录器
10 图像处理装置
21 图像取得部
22 存储部
23 划分部
24 提取部
25 像素计测部
26 边缘计测部
27 输出部
30 字符识别装置
500 图像数据
510 划分区域
520 划分区域

Claims (6)

1.一种图像处理装置,其特征在于,具备:
取得部,取得图像数据;
提取部,基于预先设定的第1基准,从上述图像数据按照该图像数据的每个灰阶来提取字符候选成分的集合;
除去部,基于预先设定的第2基准,从上述字符候选成分的集合将非字符成分除去;
字符计测部,对表示将上述非字符成分除去后的上述字符候选成分所包含的像素数的字符像素数进行计测;
边缘计测部,对表示与将上述非字符成分除去后的上述字符候选成分邻接的边缘像素的像素数的边缘像素数进行计测;
输出图像选择部,在上述字符像素数最多的上述灰阶的上述字符像素数与上述字符像素数为第2多的上述灰阶的上述字符像素数之间存在有意义的差异的情况下,选择将上述像素数最多的灰阶中的上述非字符成分除去后的上述字符候选成分作为输出图像,并且在上述字符像素数最多的上述灰阶的上述字符像素数与上述字符像素数为第2多的上述灰阶的上述字符像素数之间没有有意义的差异的情况下,选择将上述边缘像素数最少的灰阶中的上述非字符成分除去后的上述字符候选成分作为输出图像;以及
输出部,将所选择的上述输出图像输出。
2.如权利要求1所述的图像处理装置,其特征在于,
上述除去部,在上述字符候选成分的上述图像数据中的位置与其他上述字符候选成分相比为例外的情况、上述字符候选成分的大小与其他上述字符候选成分相比为例外的情况、上述字符候选成分的线宽与其他上述字符候选成分相比为例外的情况、以及上述字符候选成分中包含的上述像素数与其他上述字符候选成分相比为例外的情况的至少一个情况下,将例外的上述字符候选成分作为上述非字符成分从上述集合除去。
3.如权利要求1所述的图像处理装置,其特征在于,
还具备将所取得的上述图像数据向二值图像变换的变换部。
4.如权利要求1~3中任一项所述的图像处理装置,其特征在于,
还具备将所取得的上述图像数据向按照像素值的每个趋势进行了分组的1个以上的划分区域分割的划分部,
上述提取部按照每个上述划分区域进行上述字符候选成分的提取,
上述除去部按照每个上述划分区域进行上述字符候选成分的除去。
5.如权利要求4所述的图像处理装置,其特征在于,
上述划分部在将上述图像数据向比上述划分区域细小的1个以上的小区域分割后,按照每个上述小区域,生成上述像素值的直方图,将上述直方图的值类似的上述小区域的集合作为上述划分区域。
6.一种图像处理方法,其特征在于,实施如下步骤:
取得步骤,取得图像数据;
提取步骤,基于预先设定的第1基准,从上述图像数据按照该图像数据的每个灰阶来提取字符候选成分的集合;
除去步骤,基于预先设定的第2基准,从上述字符候选成分的集合将非字符成分除去;
字符计测步骤,对将上述非字符成分除去后的上述集合所包含的像素数进行计测;
边缘计测步骤,对作为与将上述非字符成分除去后的上述集合邻接的像素的边缘像素的像素数进行计测;
输出图像选择步骤,在上述字符像素数最多的上述灰阶的上述字符像素数与上述字符像素数为第2多的上述灰阶的上述字符像素数之间存在有意义的差异的情况下,选择将上述像素数最多的灰阶中的上述非字符成分除去后的上述字符候选成分作为输出图像,并且在上述字符像素数最多的上述灰阶的上述字符像素数与上述字符像素数为第2多的上述灰阶的上述字符像素数之间没有有意义的差异的情况下,选择将上述边缘像素数最少的灰阶中的上述非字符成分除去后的上述字符候选成分作为输出图像;
输出步骤,输出上述输出图像。
CN201280070746.9A 2012-03-16 2012-07-23 图像处理装置及图像处理方法 Expired - Fee Related CN104137119B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012-060447 2012-03-16
JP2012060447A JP5547226B2 (ja) 2012-03-16 2012-03-16 画像処理装置、及び画像処理方法
PCT/JP2012/068631 WO2013136546A1 (ja) 2012-03-16 2012-07-23 画像処理装置、及び画像処理方法

Publications (2)

Publication Number Publication Date
CN104137119A true CN104137119A (zh) 2014-11-05
CN104137119B CN104137119B (zh) 2017-10-13

Family

ID=49160505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280070746.9A Expired - Fee Related CN104137119B (zh) 2012-03-16 2012-07-23 图像处理装置及图像处理方法

Country Status (4)

Country Link
US (1) US9275279B2 (zh)
JP (1) JP5547226B2 (zh)
CN (1) CN104137119B (zh)
WO (1) WO2013136546A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6303671B2 (ja) * 2014-03-20 2018-04-04 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP6370080B2 (ja) * 2014-04-02 2018-08-08 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム。
US9183636B1 (en) * 2014-04-16 2015-11-10 I.R.I.S. Line segmentation method
CN107680028B (zh) * 2016-08-01 2020-04-21 北京百度网讯科技有限公司 用于缩放图像的处理器和方法
JP6671613B2 (ja) * 2017-03-15 2020-03-25 ソフネック株式会社 文字認識方法及びコンピュータプログラム
JP6903966B2 (ja) * 2017-03-16 2021-07-14 富士フイルムビジネスイノベーション株式会社 情報処理装置、情報処理システム及びプログラム
CN108876351A (zh) * 2018-07-05 2018-11-23 周爱霞 公交车即时金额支付系统
US11961316B2 (en) * 2022-05-10 2024-04-16 Capital One Services, Llc Text extraction using optical character recognition

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004030188A (ja) * 2002-06-25 2004-01-29 Matsushita Electric Works Ltd 画像の領域分割方法、画像の領域分割装置、画像の領域分割プログラム
CN1622120A (zh) * 2003-11-28 2005-06-01 佳能株式会社 用于增强文档图像和字符识别的方法、装置和存储介质
US20080187225A1 (en) * 2007-02-05 2008-08-07 Fujitsu Limited Computer-readable record medium in which a telop character extraction program is recorded, telop character extraction method and telop character extraction apparatus
CN101262549A (zh) * 2007-03-09 2008-09-10 夏普株式会社 图像处理装置及处理方法、图像形成装置及记录介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11161739A (ja) 1997-11-25 1999-06-18 Oki Electric Ind Co Ltd 文字認識装置
EP1104174A4 (en) * 1998-06-09 2006-08-02 Matsushita Electric Ind Co Ltd IMAGE CODERS, IMAGE DECODERS, CHARACTERS AND DATA STORAGE MEDIUM
JP4240296B2 (ja) * 2003-06-10 2009-03-18 株式会社リコー 画像処理装置、画像処理方法及び該方法の実行に用いるプログラム
JP3990375B2 (ja) 2004-03-30 2007-10-10 東芝ソリューション株式会社 画像処理装置および画像処理方法
JP5029412B2 (ja) 2008-02-20 2012-09-19 富士通株式会社 テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法
JP5672059B2 (ja) * 2011-02-24 2015-02-18 富士通株式会社 文字認識処理装置および方法並びに文字認識処理プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004030188A (ja) * 2002-06-25 2004-01-29 Matsushita Electric Works Ltd 画像の領域分割方法、画像の領域分割装置、画像の領域分割プログラム
CN1622120A (zh) * 2003-11-28 2005-06-01 佳能株式会社 用于增强文档图像和字符识别的方法、装置和存储介质
US20080187225A1 (en) * 2007-02-05 2008-08-07 Fujitsu Limited Computer-readable record medium in which a telop character extraction program is recorded, telop character extraction method and telop character extraction apparatus
CN101262549A (zh) * 2007-03-09 2008-09-10 夏普株式会社 图像处理装置及处理方法、图像形成装置及记录介质

Also Published As

Publication number Publication date
CN104137119B (zh) 2017-10-13
WO2013136546A1 (ja) 2013-09-19
JP2013196136A (ja) 2013-09-30
US20140355896A1 (en) 2014-12-04
JP5547226B2 (ja) 2014-07-09
US9275279B2 (en) 2016-03-01

Similar Documents

Publication Publication Date Title
CN104137119A (zh) 图像处理装置及图像处理方法
Nicolaou et al. Handwritten text line segmentation by shredding text into its lines
US8542926B2 (en) Script-agnostic text reflow for document images
CN104516891B (zh) 一种版面分析方法及系统
CN102693420B (zh) 一种指纹模板自动更新的方法
CN111401371A (zh) 一种文本检测识别方法、系统及计算机设备
EP2461290A1 (en) Image processing device, image processing method, and program
CN104933747B (zh) 将矢量动画转换为位图动画的方法及装置
CN103679195A (zh) 基于局部边缘模式的纹理图像分类方法及系统
JP4791295B2 (ja) 罫線抽出プログラム、罫線抽出装置、罫線抽出方法
CN111368695A (zh) 一种表格结构提取方法
CN106339481A (zh) 基于最大置信度的中文复合新词发现方法
CN105631033A (zh) 一种视频数据的挖掘方法和装置
CN105589908A (zh) 用于事务集合的关联规则计算方法
CN111062854A (zh) 检测水印的方法、装置、终端及存储介质
CN105336035A (zh) 一种脏污冠字号图像分类的方法与系统
CN111553442B (zh) 一种分类器链标签序列的优化方法及系统
Suwa Segmentation of connected handwritten numerals by graph representation
CN106251004B (zh) 基于改进空间距离划分的目标分群方法
JP4748333B2 (ja) 画像処理装置および画像処理プログラム
CN115471849A (zh) 一种手写汉字图像评估方法及系统
US11461372B1 (en) Data clustering in logic devices using unsupervised learning
CN114937279A (zh) 基于rpa和ai实现ia的bom识别方法及装置
JPH08320914A (ja) 表認識方法および装置
CN103426146A (zh) 图像处理设备、图像处理方法以及程序

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171013

CF01 Termination of patent right due to non-payment of annual fee