CN104094283B - 字符切取方法、使用该方法的字符识别装置 - Google Patents

字符切取方法、使用该方法的字符识别装置 Download PDF

Info

Publication number
CN104094283B
CN104094283B CN201280069152.6A CN201280069152A CN104094283B CN 104094283 B CN104094283 B CN 104094283B CN 201280069152 A CN201280069152 A CN 201280069152A CN 104094283 B CN104094283 B CN 104094283B
Authority
CN
China
Prior art keywords
character
projection
straight line
line segment
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280069152.6A
Other languages
English (en)
Other versions
CN104094283A (zh
Inventor
藤枝紫朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Publication of CN104094283A publication Critical patent/CN104094283A/zh
Application granted granted Critical
Publication of CN104094283B publication Critical patent/CN104094283B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18086Extraction of features or characteristics of the image by performing operations within image blocks or by using histograms
    • G06V30/18095Summing image-intensity values; Projection and histogram analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/22Cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • G06V30/127Detection or correction of errors, e.g. by rescanning the pattern with the intervention of an operator

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)

Abstract

一种有关从字符串的浓淡图像中切取字符串内的各个字符的方法及装置的发明,使执行以下步骤:第1步骤,变更投影对象位置并反复执行向沿着浓淡图像中的字符串的轴向的投影处理;第2步骤,从所生成的投影图案(P)中提取极大值和极小值,在极大值的变动范围和极小值的变动范围之间设定具有与这些值的变化对应的斜率的直线(M);以及第3步骤,设定切取对象范围并切取该范围的图像。在浓淡图像中的字符比背景暗的情况下,在第1步骤中对沿着字符串的线段中的最小浓度进行投影,在第3步骤中将投影图案(P)中的比直线(M)低的浓度的投影范围作为切取对象范围。在浓淡图像中的字符比背景亮的情况下,在第1步骤中对沿着字符串的线段中的最大浓度进行投影,在第3步骤中将投影图案(P)中的比直线(M)高的浓度的投影范围作为切取对象范围。

Description

字符切取方法、使用该方法的字符识别装置
技术领域
本发明涉及基于图像处理的字符识别处理,尤其涉及用于从处理对象的图像中逐个字符地切取识别对象的字符的技术。
背景技术
在字符识别处理中,通常从拍摄字符串而生成的浓淡图像中切取各个字符,对切取出的每个字符实施使用了各种字符模型的匹配处理(模型匹配),从而识别字符串的内容。在字符的切取处理中,将处理对象的图像的2值化数据或者浓淡数据向x轴方向、y轴方向分别进行投影,从在各轴生成的投影图案中提取与字符对应的部位,由此确定与各个字符对应的区域(以下称为“字符区域”)。
作为有关字符识别处理的现有技术,在专利文献1中记载了这样的内容,将从通过投影处理而得到的浓度直方图中切取出的字符的宽度与阈值进行比较,在字符宽度大于阈值的情况下,视为有可能多个字符接触,并再次进行切取(参照第0024~0027段等。)。另外,还记载了这样的内容,在切取后的识别处理结果的可靠度较低的情况下、或核对对象的图像与表示字符的一部分的模型(汉字的偏旁的模型等)一致的情况下等,再次执行切取处理(参照第0037段等。)。
另外,在专利文献2中记载了这样的内容,在切取字符后进行暂时匹配处理而计算匹配可靠度,根据满足匹配可靠度为规定的基准值以上等条件的候选字符来决定全角字符的标准字符长度,以匹配可靠度低于固定值的区域为对象执行基于标准字符长度的半角字符切取处理(参照第0061段、第0078~第0085段等)。
现有技术文献
专利文献
专利文献1:日本公开专利公报1997-282417号公报
专利文献2:日本公开专利公报2010-44485号公报
发明内容
发明要解决的问题
在通常的字符切取处理中,采取将沿着投影方向的一条线段内的图像数据(2值或者多值)进行累计的方法。但是,由于印刷有识别对象的字符串的介质的样式和阴影等,背景部分的浓度的不均匀增大,导致背景部分的投影值与字符部分的投影值之差减小,进而切取的精度下降。
另外,在处理对象的字符串的字符之间的间距和字符宽度不一致、或相邻的字符之间的间隙微小时,即使是在投影图案中,也存在与字符对应的部位与与背景部分对应的部位的差异不明确而导致字符的切取失败的情况。
这样在切取字符的处理产生失败时,在以后的匹配处理中也产生错误识别,因而字符的识别精度下降。
关于上述问题,在专利文献1、2中披露了这样的技术思想:在切取字符后进行识别处理,以识别的精度较差的部位为对象再次进行切取,但是在这种方法中,处理复杂且花费时间,因而不适合于被要求处理的高速化的用途。
本发明的课题是着眼于上述问题,通过简单的处理高精度地切分字符串中的各个字符,并高速地进行稳定的切取处理。
用于解决问题的手段
为了解决上述问题,在基于本发明的字符切取方法中执行以下的第1步骤、第2步骤、第3步骤。
在第1步骤中,关于将沿着横穿处理对象的浓淡图像中的字符串的方向的线段中的最大浓度或者最小浓度投影到沿着字符串的轴上的投影处理,在浓淡图像中的字符比背景暗的情况下,选择最小浓度使投影对象位置沿着字符串移动并反复进行投影处理,在浓淡图像中的字符比背景亮的情况下,选择最大浓度使投影对象位置沿着字符串移动并反复进行投影处理。
在第2步骤中,从通过第1步骤而生成的投影图案中提取极大值和极小值,在极大值的变动范围和极小值的变动范围之间设定具有与这些值的变化对应的斜率的直线。在第3步骤中,当在第1步骤中对最大浓度进行了投影的情况下,将投影图案中的比直线高的浓度的投影范围作为切取对象范围,切取浓淡图像中的切取对象范围的图像,当在第1步骤中对最小浓度进行了投影的情况下,将投影图案中的比直线低的浓度的投影范围作为切取对象范围,切取浓淡图像中的切取对象范围的图像。
根据上述的方法,例如在将字符比背景暗的状态的图像作为处理对象的情况下,在第1步骤的投影处理中,将沿着横穿字符串的方向的线段中的最小浓度投影到沿着字符串的轴上。使投影对象位置沿顺着字符串的轴移动并反复执行该处理,由此生成与字符对应的部位成为谷底、与字符之间的间隙对应的部位成为山脊的投影图案。将在该投影图案的极小值(字符部分)的变动范围和极大值(字符之间的间隙部分)的变动范围之间设定的直线作为切取范围的特定的基准,由此能够根据部位变更切取用的基准值。
因此,即使是根据样式等在背景中产生浓淡不均的图像,也能够在相对于该浓度的偏差范围具有足够余量的位置设定直线。并且,即使是字符串的一部分由于阴影等的影响而变暗的情况下,也能够设定具有与浓度的变化对应的斜率的直线,因而无论在沿着字符串的哪个部位,都能够准确判别字符的切取的范围。
在基于上述方法的第一方式中,在第1步骤中,对于与沿着字符串的轴垂直且通过投影对象位置的线段,针对以该线段内的一点为中心旋转规定的角度时的旋转范围中所包含的多条线段,分别提取该线段内的最大浓度及最小浓度中的与所述选择对应的浓度,在选择了最大浓度的情况下,将在各条线段中提取的值中的最小值投影于投影对象位置,在选择了最小浓度的情况下,将在各条线段中提取的值中的最大值投影于投影对象位置。
在仅将横穿字符串的一条线段作为投影的对象时,在字符之间的间隔狭窄的字符串中,字符之间的间隙部分的相邻的字符的一部分在间隙内凸出,该凸出部分落在投影对象的线段上,有可能导致字符部分的浓度被投影。但是,根据上述的方式,在针对字符之间的间隙部分的投影处理中,能够对从所设定的多条线段中未承载字符的图像的线段提取出的浓度进行投影,因而能够提高字符的切取的精度。
在基于第二方式的方法中,将在第2步骤中设定的直线与通过第1步骤而生成的投影图案一起显示,按照变更操作来变更直线相对于投影图案的高度或者斜率。
根据该方法,用户自身能够确认投影图案与直线的关系,并将直线变更为适合于切分各极大值的组和各极小值的组的状态,因而能够提高字符的切取的精度。
本发明的字符识别装置具备这样的功能:输入通过拍摄字符串而生成的浓淡图像作为识别对象,在切取该图像中的字符串内的各个字符后,将切取出的字符分别与预先登记的模型核对来识别各字符。
另外,为了实施上述的字符切取方法,该字符识别装置具备:投影处理单元,其使投影对象位置沿着字符串移动并反复进行投影处理,在该投影处理中将沿着横穿识别对象浓淡图像中的字符串的方向的线段中的最大浓度或者最小浓度投影到沿着字符串的轴上;直线设定单元,其从通过投影处理而生成的投影图案中提取极大值和极小值,在极大值的变动范围和极小值的变动范围之间设定具有与这些值的变化对应的斜率的直线;以及切取处理单元,在投影处理单元对最大浓度进行了投影的情况下,将投影图案中的比直线高的浓度的投影范围作为切取对象范围,切取所述浓淡图像中的切取对象范围的图像,在投影处理单元对最小浓度进行了投影的情况下,将投影图案中的比直线低的浓度的投影范围作为切取对象范围,切取所述浓淡图像中的切取对象范围的图像。
投影处理单元被设定成,在识别对象浓淡图像中的字符比背景暗的情况下选择最小浓度,在识别对象浓淡图像中的字符比背景亮的情况下选择最大浓度。
上述的字符识别装置的一个实施方式的投影处理单元针对与沿着字符串的轴向垂直且通过投影对象位置的线段,设定以该线段内的一点为中心旋转规定的角度时的旋转范围中所包含的多条线段,按照这些线段分别提取线段内的最大浓度或者最小浓度,当在各条线段中提取了最大浓度的情况下,将所提取的值中的最小值投影于所述投影对象位置,当在各条线段中提取了最小浓度的情况下,将所提取的值中的最大值投影于所述投影对象位置。根据该实施方式,能够在沿着字符串的方向中高精度地实施用于独立地切取与各字符对应的范围的处理。
另一个实施方式的字符识别装置还具有变更操作受理单元,该变更操作受理单元受理这样的操作:将通过直线设定单元而设定的直线与通过所述投影处理单元而生成的投影图案一起显示,并变更直线相对于显示画面中的投影图案的高度或者斜率。并且,对直线设定单元设有这样的功能:按照变更操作受理单元受理的操作来变更直线相对于所述投影图案的高度或者斜率。根据这种结构,用户能够确认显示中的投影图案与直线的关系来变更基准直线,使得切取的精度提高。
在另一个实施方式的字符识别装置中还设有指定输入受理单元,该指定输入受理单元受理用于指定使投影处理单元选择最大浓度和最小浓度中哪一方的输入。根据该单元,能够按照处理对象的图像中的字符与背景部分的明暗的关系变更投影的对象,因而便利性提高。
另外,本发明提供用于使计算机作为字符识别装置而工作的程序,该字符识别装置具有上述的投影处理单元、直线设定单元、和切取处理单元。
发明效果
根据本发明,由于能够通过简单的处理高精度地实施从字符串的图像中切取各个字符的处理,因而能够使字符识别装置高速化。并且,在处理对象的图像中包含因复杂的样式或阴影等而形成的噪声的情况下,也能够不受该噪声的影响地实施稳定的处理。
附图说明
图1是示出字符识别装置的结构例的框图。
图2是将在字符识别处理中显示的画面的示例和与处理对应的显示的变化一起示出的图。
图3是示出字符识别处理的步骤的流程图。
图4是示出用于向沿着字符串的方向的投影处理而设定的线段的概念的图。
图5是示出相对于投影图案的基准直线的设定方法的图。
图6是示出向沿着字符串的方向的投影处理(图3的步骤S5)的具体步骤的流程图。
图7是示出在字符识别处理中产生了错误识别时的画面、将产生了错误识别的字符区域内的图像登记为模型的登记用窗口、表示在登记后进行的再次识别处理的结果的画面的各示例的图。
图8是示出模型登记处理的步骤的流程图。
具体实施方式
图1示出应用本发明的字符识别处理装置的结构例。
该字符识别处理装置是以字符串为对象进行拍摄,读取所生成的图像中的字符而输出其读取结果的装置,由包括控制部10的主体部1、摄影用的摄像机2、显示部3、操作部4等构成。显示部3例如由液晶监视器构成,操作部4包括鼠标和键盘。
主体部1是通用的计算机装置(个人电脑),除包括CPU的控制部10外,还具有主存储部11、图像存储器12、摄像接口13、显示用接口14、输入用接口15、外部接口16、外部盘用读取部17等。
主存储部11例如是硬盘,图像存储器12例如是RAM板。在主存储部11中登记了由外部盘用读取部17从外部硬盘18读取的专用的程序、在字符识别处理中使用的字体数据等。从摄像机2输出的图像被取入到摄像接口13中进行数字变换,然后,变换后的图像数据被存储在图像存储器12中。
对控制部10设定了以下功能:按照存储在主存储部11中的程序,从存储在图像存储器12中的图像中逐字符地切取出字符的功能;和识别切取出的字符的内容的功能。另外,也对控制部10设定了作为在这些处理中提示给用户的图形用户界面的功能。根据该功能,控制部10通过显示用接口14在显示部3显示包括处理对象的图像的画面,通过输入用接口15受理操作部4的操作。
在该实施例的字符识别处理装置中,在显示处理对象的图像的画面中,在受理了指示字符的读取的操作后,通过后述的图3的处理来识别图像中的字符,将识别结果显示在画面中。并且,也能够通过外部接口16将识别结果输出给外部的设备。
图2示出在显示部3显示的用于字符识别处理的画面的示例。
在该示例的画面30中包含识别对象的字符串的图像的显示栏31、分析结果的显示栏32、读取按钮33、模型登记按钮34等。另外,在该示例中,假设在图像的右端部产生了阴影,并用斜线表示阴影。
图2(1)是读取处理开始前的画面,在图像显示栏31内的图像中显示有示出由用户设定的处理对象区域的矩形框35。用户通过操作鼠标等设定矩形框35的位置和尺寸,由此设定处理对象区域,然后操作读取按钮33。根据该操作,控制部10将与矩形框35对应的区域识别为处理对象区域,并对该区域内的图像实施字符识别处理(包括字符的切取和匹配处理),使画面按照图2(2)所示变化。
在识别处理后的画面30的图像显示栏31中,各字符分别被表示通过切取处理而确定的字符区域的框36包围。并且,在各框36的左上位置显示有从该框36内的图像中读取的字符。另外,在图像显示栏31的右侧的余白中显示有从每个字符区域的识别结果中导出的字符串,作为读取结果。并且,在字符串的下方显示有最适合于该字符串的字体的名称(F1)。
在处于空白状态的分析结果的显示栏32中,通过字符切取用的投影处理而生成的投影图案P、与作为切取的基准而设定的直线M(以下称为“基准直线M”)一起显示出来。
下面,以将字符比背景暗的横排的字符串作为识别对象为前提,详细说明在该示例中实施的识别处理。
图3示出由控制部10实施的用于字符识别的处理的概略步骤。
该处理通过在图2示出的画面中设定处理对象区域,进而操作读取按钮33而开始。首先,控制部10根据矩形框35的位置信息取得处理对象区域内的图像(步骤S1)。
在图2的示例中,假设指定了包括一列量的字符串的范围来进行说明,但实际上也存在指定包括多列字符串的范围的情况。考虑到这一点,在步骤S2,首先进行向y轴的投影处理,按照所生成的投影图案逐列地切分字符串(步骤S2)。
然后,将被切分后的字符串依次设定为处理对象,执行从步骤S4开始的处理。
在步骤S4,根据先前的字符串的切分处理的结果,设定y轴中的处理范围的上限值y1和下限值y2(将被判别为与字符串对应的范围的稍微外侧的y坐标设为y1、y2。)。在步骤S5,以从这些y1到y2的范围内的图像为对象,执行向x轴的投影处理。
在通过上述的处理生成沿着x轴方向的投影图案时,在步骤S6从投影图案中提取极大值和极小值,然后在步骤S7,导出与极大值的分布近似的直线和与极小值的分布近似的直线。另外,在步骤S8,根据这两条近似直线设定用于确定切取对象范围的基准直线M。
在步骤S9,将投影图案内的各值与上述的基准直线M核对,并确定切取对象范围。并且,对于每个切取对象范围,根据表示该范围的左右端缘的x坐标和y坐标的处理对象范围的坐标y1、y2,提取字符区域(步骤S10),并执行使用了各种字体数据中所包含的字符模型的匹配处理(步骤S11)。
然后,返回步骤S3,在具有未处理的字符串的情况下(步骤S3:否),对未处理的一个字符串执行步骤S4~S11。在针对所有字符串的处理结束时(步骤S3:是),进入步骤S12,输出识别结果。根据该输出,针对用户的指示的处理结束。
在上述的处理中,在向y轴的投影处理(步骤S2)中,对于处理对象区域内的沿着x轴的每条线段,对该线段内的最小浓度进行投影。通过这样处理,从即使是1像素也包含字符的图像的线段投影字符的图像的浓度,只从完全不包含字符的图像的线段投影背景部分的浓度,因而在y轴方向中能够高精度地提取包含字符串整体的范围。
在向沿着字符串的x轴的投影处理(步骤S5)中,对于每个投影对象位置设定斜率不同的多条线段,提取各条线段的最小浓度,采用所提取的最小浓度中的最大值作为投影值。这种线段的设定方法如图4所示。图中的xi表示投影对象位置的x坐标,y1、y2表示y轴中的处理范围的上限值和下限值(在步骤S4求出的上限值和下限值)。
参照图4说明对坐标xi设定的投影用的线段的概念,在使通过坐标xi且与y轴平行的线段L0在以点(xi、y1)和点(xi、y2)的中点为轴左右旋转规定角度α的范围内产生的各线段,分别成为针对坐标xi的投影用的线段。在控制部10执行的算法中,使用距y轴方向的处理对象范围y1、y2的位置处的坐标xi的距离d,变更线段的斜率,因而设定距离d的最大值Dα替代角度α。
如通常的投影处理那样,在仅将沿着y轴的线段L0作为投影的方向的情况下,如图4的示例那样,字符之间的间隙狭窄,相邻的字符的一部分在该狭窄的间隙中凸出,有时形成该凸出部分落在线段L0上的状态。因此,根据与向y轴的投影处理相同的方法,将沿着y轴的线段L0内的最小浓度投影于xi,导致字符的浓度被投影于图4的示例的xi。
鉴于这种情况,在该实施例中,设定各种斜率的线段,对于每条线段提取该线段的最小浓度,并采用所提取的浓度中的最大值作为向坐标xi的投影值。在背景部分比字符亮的图像中,如图4中的线段L2那样,在仅通过间隙部分的线段中提取的最小浓度达到最大,因而该最大的浓度被投影于坐标xi。因此,字符之间的间隙部分的浓度被体现出来,生成与字符对应的部位成为谷底、与间隙部分对应的部位成为山脊的投影图案。
图5将通过上述的投影处理而生成的投影图案P的示例(以x坐标为横轴,以浓度为纵轴的投影图案)、与设定基准直线M的方法一起示出。
图中的M1、M2是在图3的步骤S7求出的近似直线。如前面说明的那样,在该步骤S7,求出与投影图案中的极大值的变化近似的直线M1和与极小值的变化近似的直线M2。在后面的步骤S8,例如使x坐标逐个移动,将各直线M1、M2的与关注中的x坐标对应的各个点进行组合,求出这些点的中点(基于各点的浓度的平均值),设定与各中点的分布近似的直线,将该第3近似直线设为基准直线M。
基准直线M的设定方法不限于上述的方法。例如,也可以采用如下的简易方法设定基准直线M:仅将处理对象区域的两端点的坐标x1、x2作为对象,求出直线M1上的对应点与直线M2上的对应点的中点并连接各中点。或者,也可以不设定直线M1、M2,而根据极大值和极小值的分布的图案,决定直线M的高度和斜率。
图5的投影图案与图2(2)的栏32内所示的投影图案相同,因而再次参照图2(2)。在该实施例中,在作为识别对象的图像中,在右侧端缘部产生了阴影,因而投影图案P内的山脊也随着从左向右而变低,表示字符的谷底部分与山脊部分之差也缩小。但是,与该浓度的变化对应地,基准曲线M也从左上部朝向右下部倾斜,在阴影的产生部位中,基准直线M位于能够切分体现间隙部分的山脊和体现字符的谷底的位置。因此,能够根据基准直线M切取与各个字符对应的范围,而且不受阴影的浓度变化的影响。
图6示出向x轴的投影处理(相当于图3的步骤S5)的具体步骤。下面,除该图6外,也一并参照前面的图4、图5来说明投影处理的步骤。
在图6中,对应图4的示例,将x轴上的投影对象位置的坐标设为xi。对该xi设定处理对象区域的左端缘的x坐标x1作为初始值(步骤S101)。然后,使xi逐次移动1像素并执行以下的处理,直到xi成为处理对象区域的右端缘的x坐标的x2(步骤ST110、111)。
首先,在步骤S102,对最小浓度的最大值MAX设定初始值0,并且对偏移量d设定-Dα作为初始值。在假设Dα是正的值时,d的初始值成为负的值。
在步骤S103,设定连接坐标(xi+d、y1)和坐标(xi-d、y2)的线段。根据在步骤S101、S102中设定的xi、d的初始值,第一次设定的线段成为图4的线段L1。另一方面,在d=Dα时,设定图4的线段L2。
因此,将d逐次加1直到偏移量d成为Dα(步骤S107、108),对于每次的d执行步骤S103,由此在从线段L1到L2的范围内每次设定不同斜率的线段。并且,在步骤S104,提取所设定的线段内的最小浓度Imin。另外,在Imin超过最大值MAX的情况下,MAX被改写为Imin(步骤S105、106)。在Imin为MAX以下的情况下(ST105:否),MAX维持当前值。
这样,对于投影对象的一点xi设定斜率不同的多条线段,对每条线段求出最小浓度,并且提取其中的最大值MAX。在对所有线段的处理结束时(S108:是),该时刻的最大值MAX被设定为坐标xi的投影值P(xi)(S109)。
对每个时刻的坐标xi执行上述的处理,在xi被设定为终点即x2,上述的投影值的设定结束时,步骤S111成为“是”,结束投影处理。
另外,与上述的示例相反,在将字符比背景亮的图像设为处理对象的情况下,在各线段中分别提取该线段中的最大浓度,并选择所提取的浓度中的最小值作为投影值。由此,生成与字符对应的部位成为山脊、与间隙部分对应的部位成为谷底的投影图案。按照与图5所示的方法相同的方法,对该投影图案设定两条近似直线M1、M2,在这些直线M1、M2的中间位置设定基准直线M,但切取的对象范围成为投影图案中的浓度高于基准直线M的范围。
在图1的主存储部11中登记的识别处理用的程序被设定成对字符比背景暗的图像执行处理,但也可以装入用于对字符比背景亮的图像执行处理的程序,根据用户的选择决定执行基于哪个程序的识别处理。
另外,在上述的示例中,在极大值的分布范围与极小值的分布范围的大致正中央设定基准曲线M,但也可以根据预先设定的偏置值调整基准直线M的高度。
另外,在该实施例中,在图2所示的画面中,用户通过拖拽栏32内的基准直线的操作,能够变更基准直线M的高度和斜率。因此,在对字符的自动切取处理失败的情况下,用户根据栏32内的投影图案的山脊和谷底的关系变更基准直线M,然后再次操作读取按钮33,由此能够得到正确的识别结果。
如以上叙述的那样,在该实施例中,在字符之间即使存在微小间隙,也能够高精度地切分该间隙和字符。但是,如果各字符之间的间隔足够,即使是在仅沿着y轴的方向的投影处理中,也能够确保字符的切取的精度。鉴于这种情况,也可以预先在主存储部11中登记用于进行仅沿着y轴的方向的投影的简单投影模式用的程序、和进行图6所示的投影处理的详细投影模式用的程序,让用户根据识别对象的字符串的状态来选择要执行的模式。
但是,无论在简单投影模式、详细投影模式的哪种模式中,不仅与线段内的对应字符的像素的数相应的值,而且字符的图像的浓度也被投影,因而在连接相邻的各个字符时,将不能逐个字符地切分这些字符。
例如,在西语的小写字母的字符串(“tt”、“rt”等)中,存在字符相连接的情况,因而需要能够正确识别这种结构的字符串。
图7以下面的情况为例来示出针对上述问题的应对方式,即利用与图2相同结构的画面30,以将单词“Schimitt”的末尾的两个“t”连接的形式所表示的字符串为对象进行处理的情况。
图7(1)的画面是根据读取按钮35的操作来实施先前的图3所示的处理,并显示读取结果的阶段的显示例。在图像显示栏31中,与图2(2)的示例相同地,显示了表示通过切取处理而确定的字符区域的框36和被识别出的字符,但如图中的框36A所示,包括字符串的末尾的“tt”的范围被作为一个字符区域提取出来。并且,在读取结果的显示中,利用记号ER表示不存在与对应该框36A的字符相应的字符的情况。
在产生了这样的错误识别的情况下,在该实施例的用户界面中,按照模型登记按钮34的操作,调用模型登记用的窗口300。在该窗口300中显示有从被错误提取的字符区域(相当于框36A)中提取的图像301、用于指定登记地点的字体的组合框302、与图像对应的字符串的输入框303、OK按钮304、取消按钮305等。
用户在栏303内输入与图像301对应的字符串并操作OK按钮304后,控制部10将图像301与所输入的字符串关联起来进行登记。另外,在组合框302中自动设定了通过匹配处理而识别出的字体(F2),但用户能够任意变更该设定,并变更登记地点。
在上述的登记处理后,在用户再次操作了原来的画面30的读取按钮35时,控制部10再次执行图3的处理。图7(3)是示出显示有该再次识别处理的结果的画面的图,通过与先前登记的模型的核对,“tt”也被正确识别出来。
图8示出由控制部10执行的上述的模型登记处理的步骤。
该处理是在先前的图3所示的处理之后,响应于示出其处理结果的画面30内的模型登记按钮304被操作而开始的。
首先,参照匹配处理的结果,取得针对字符模型的识别对象的字符串的倍率Q和产生了错误识别的字符区域的图像(步骤S21、22)。另外,在匹配处理中,对字符模型设定多种倍率,按照每种倍率与字符区域内的图像进行核对,将能够得到最高的相似度时的字符模型对应于字符区域,将适合于该字符区域的字符模型的倍率识别为上述的倍率Q。
步骤S22的图像的取得不限于自动取得,也可以根据选择被切取出的字符区域中的一个字符区域这样的用户操作,获取被选择的区域内的图像。
在步骤S23,示出上述的倍率Q和图像的登记处理用的窗口300开启。在该窗口300内的输入栏303中输入字符串并操作OK按钮304后(步骤S24:“是”),取得被输入栏303中的字符串(步骤S25)。
另外,在步骤S26,通过将所取得的图像设为1/Q倍,使该图像的尺寸与登记对象的字体数据的尺寸一致(步骤S26),将尺寸变更后的图像与所输入的字符串相对应地进行登记(步骤S27)。
当在窗口300开启后操作了取消按钮305的情况下(步骤S24:“否”,步骤S28:“是”),关闭窗口300并结束处理。
通过上述的登记处理,如图7(3)所示,即使是多个字符相连接的部位,也能够正确读取各字符,因而便利性进一步提高。
另外,即使是在进行基于一般的投影处理的字符切取的字符识别处理装置中,也能够实施该模型登记处理。
标号说明
1 主体部;2 摄像机;3 显示部;4 操作部;10 控制部;11 主存储部;30 画面;P投影图案;M 基准直线。

Claims (5)

1.一种字符切取方法,从拍摄字符串而生成的浓淡图像中切取所述字符串内的各个字符,以便进行识别,其特征在于,该字符切取方法包括以下步骤:
第1步骤,关于将沿着横穿所述浓淡图像中的字符串的方向的线段中的最大浓度或者最小浓度投影到沿着所述字符串的轴上的投影处理,在浓淡图像中的字符比背景暗的情况下,选择最小浓度使投影对象位置沿着字符串移动并反复进行投影处理,在所述浓淡图像中的字符比背景亮的情况下,选择最大浓度使投影对象位置沿着字符串移动并反复进行投影处理;
第2步骤,从通过所述第1步骤而生成的投影图案中提取极大值和极小值,在极大值的变动范围和极小值的变动范围之间设定具有与这些值的变化对应的斜率的直线;以及
第3步骤,当在所述第1步骤中对最大浓度进行了投影的情况下,将所述投影图案中的比直线高的浓度的投影范围作为切取对象范围,切取所述浓淡图像中的切取对象范围的图像,当在第1步骤中对最小浓度进行了投影的情况下,将所述投影图案中的比直线低的浓度的投影范围作为切取对象范围,切取所述浓淡图像中的切取对象范围的图像,
在所述第1步骤中,对于与沿着所述字符串的轴垂直且通过投影对象位置的线段,针对以该线段内的一点为中心旋转规定的角度时的旋转范围中所包含的多条线段,分别提取该线段内的最大浓度及最小浓度中的与所述选择对应的浓度,在选择了最大浓度的情况下,将在各条线段中提取的值中的最小值投影于所述投影对象位置,在选择了最小浓度的情况下,将在各条线段中提取的值中的最大值投影于所述投影对象位置。
2.根据权利要求1所述的字符切取方法,其特征在于,
将在所述第2步骤中设定的直线与通过所述第1步骤而生成的投影图案一起显示,按照变更操作来变更直线相对于投影图案的高度或者斜率。
3.一种字符识别装置,输入通过拍摄字符串而生成的浓淡图像作为识别对象,在切取该图像中的字符串内的各个字符后,将切取出的字符分别与预先登记的模型核对来识别各字符,其特征在于,该字符识别装置具备:
投影处理单元,其使投影对象位置沿着字符串移动并反复进行投影处理,在该投影处理中将沿着横穿识别对象浓淡图像中的字符串的方向的线段中的最大浓度或者最小浓度投影到沿着所述字符串的轴上;
直线设定单元,其从通过所述投影处理而生成的投影图案中提取极大值和极小值,在极大值的变动范围和极小值的变动范围之间设定具有与这些值的变化对应的斜率的直线;以及
切取处理单元,在所述投影处理单元对最大浓度进行了投影的情况下,将所述投影图案中的比直线高的浓度的投影范围作为切取对象范围,切取所述浓淡图像中的切取对象范围的图像,在所述投影处理单元对最小浓度进行了投影的情况下,将所述投影图案中的比直线低的浓度的投影范围作为切取对象范围,切取所述浓淡图像中的切取对象范围的图像,
所述投影处理单元被设定成,在识别对象浓淡图像中的字符比背景暗的情况下选择最小浓度,在所述浓淡图像中的字符比背景亮的情况下选择最大浓度,
所述投影处理单元针对与沿着所述字符串的轴垂直且通过投影对象位置的线段,设定以该线段内的一点为中心旋转规定的角度时的旋转范围中所包含的多条线段,按照这些线段分别提取线段内的最大浓度或者最小浓度,当在各条线段中提取了最大浓度的情况下,将所提取的值中的最小值投影于所述投影对象位置,当在各条线段中提取了最小浓度的情况下,将所提取的值中的最大值投影于所述投影对象位置。
4.根据权利要求3所述的字符识别装置,其特征在于,
所述字符识别装置还具有变更操作受理单元,该变更操作受理单元受理这样的操作:将通过所述直线设定单元而设定的直线与通过所述投影处理单元而生成的投影图案一起显示,并变更直线相对于显示画面中的投影图案的高度或者斜率,
所述直线设定单元按照变更操作受理单元受理的操作来变更直线相对于所述投影图案的高度或者斜率。
5.根据权利要求3或4所述的字符识别装置,其特征在于,
所述字符识别装置还具有指定输入受理单元,该指定输入受理单元受理用于指定使所述投影处理单元选择最大浓度和最小浓度中哪一方的输入。
CN201280069152.6A 2012-02-17 2012-11-28 字符切取方法、使用该方法的字符识别装置 Active CN104094283B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012-032888 2012-02-17
JP2012032888A JP5906788B2 (ja) 2012-02-17 2012-02-17 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム
PCT/JP2012/080701 WO2013121647A1 (ja) 2012-02-17 2012-11-28 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム

Publications (2)

Publication Number Publication Date
CN104094283A CN104094283A (zh) 2014-10-08
CN104094283B true CN104094283B (zh) 2017-05-10

Family

ID=48983789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280069152.6A Active CN104094283B (zh) 2012-02-17 2012-11-28 字符切取方法、使用该方法的字符识别装置

Country Status (5)

Country Link
US (1) US9710945B2 (zh)
EP (1) EP2816504A4 (zh)
JP (1) JP5906788B2 (zh)
CN (1) CN104094283B (zh)
WO (1) WO2013121647A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5821994B2 (ja) * 2014-04-21 2015-11-24 富士ゼロックス株式会社 画像処理装置、画像形成装置およびプログラム
CN105975542A (zh) * 2016-04-29 2016-09-28 乐视控股(北京)有限公司 一种字符串的输入方法及装置
CN106778759A (zh) * 2016-12-29 2017-05-31 成都数联铭品科技有限公司 用于图像文字识别的特征图片自动生成系统
CN107392093B (zh) * 2017-06-14 2019-01-01 北京遥感设备研究所 一种基于机器学习和灰度投影算法相结合的铁轨识别系统
CN108549896B (zh) * 2018-04-24 2020-08-04 大连民族大学 满文部件切分中删除多余候选切分行的方法
JP2021189952A (ja) * 2020-06-03 2021-12-13 株式会社リコー 画像処理装置、方法およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101325642A (zh) * 2007-06-15 2008-12-17 佳能株式会社 信息处理装置及其方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5856079A (ja) * 1981-09-29 1983-04-02 Ricoh Co Ltd 光学文字読取装置における文字切出装置
JPH01201786A (ja) * 1988-02-08 1989-08-14 Toshiba Corp 文字読取装置
TW197509B (zh) * 1990-01-31 1993-01-01 Hitachi Seisakusyo Kk
JPH0444187A (ja) * 1990-06-11 1992-02-13 Fuji Facom Corp 文字認識装置
JPH05307640A (ja) * 1992-04-30 1993-11-19 Toshiba Corp 文字読取装置
JPH06348895A (ja) * 1993-06-02 1994-12-22 Nec Corp X線フィルム上の文字切り出し方法
DE69516751T2 (de) * 1994-04-15 2000-10-05 Canon Kk Bildvorverarbeitung für Zeichenerkennungsanlage
JPH09282417A (ja) 1996-04-18 1997-10-31 Matsushita Electric Ind Co Ltd 文字認識装置
JPH1125222A (ja) * 1997-07-08 1999-01-29 Sharp Corp 文字切り出し方法及び文字切り出し装置
JP3428494B2 (ja) * 1999-05-19 2003-07-22 日本電気株式会社 文字認識装置及びその文字認識方法並びにその制御プログラムを記録した記録媒体
JP4658848B2 (ja) * 2006-03-30 2011-03-23 日本電産サンキョー株式会社 文字列認識方法及び文字列認識装置
JP4712613B2 (ja) * 2006-05-25 2011-06-29 富士通株式会社 情報処理装置、情報処理方法およびプログラム
JP5034398B2 (ja) * 2006-09-14 2012-09-26 富士通株式会社 文字認識プログラム、文字認識方法および文字認識装置
JP5146190B2 (ja) * 2008-08-11 2013-02-20 オムロン株式会社 文字認識装置、文字認識プログラム、および文字認識方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101325642A (zh) * 2007-06-15 2008-12-17 佳能株式会社 信息处理装置及其方法

Also Published As

Publication number Publication date
EP2816504A4 (en) 2016-12-07
WO2013121647A1 (ja) 2013-08-22
US20150015603A1 (en) 2015-01-15
JP2013171309A (ja) 2013-09-02
CN104094283A (zh) 2014-10-08
US9710945B2 (en) 2017-07-18
JP5906788B2 (ja) 2016-04-20
EP2816504A1 (en) 2014-12-24

Similar Documents

Publication Publication Date Title
CN104094283B (zh) 字符切取方法、使用该方法的字符识别装置
CN108416279B (zh) 文档图像中的表格解析方法及装置
CN108399386B (zh) 饼图中的信息提取方法及装置
US10191889B2 (en) Systems, apparatuses and methods for generating a user interface by performing computer vision and optical character recognition on a graphical representation
CN104094288B (zh) 字符识别方法、使用该方法的字符识别装置
US7970213B1 (en) Method and system for improving the recognition of text in an image
US20230027412A1 (en) Method and apparatus for recognizing subtitle region, device, and storage medium
JP2000090195A (ja) 表認識方法及び装置
CN107622497A (zh) 图像裁剪方法、装置、计算机可读存储介质和计算机设备
CN110867243B (zh) 一种图像标注方法、装置、计算机系统及可读存储介质
CN113920038A (zh) 一种割轮廓提取方法、装置系统及介质
Yang et al. MIDI passage retrieval using cell phone pictures of sheet music
CN113159035B (zh) 图像处理方法、装置、设备及存储介质
CN111783881A (zh) 基于预训练模型的场景适配学习方法及系统
CN105719296A (zh) 基于地址-事件表示的高速图像二值连通域标记方法
CN112541505B (zh) 文本识别方法、装置以及计算机可读存储介质
CN111243058B (zh) 物件模拟图像生成方法及计算机可读存储介质
CN111179284B (zh) 交互式图像分割方法、系统及终端
CN113468906A (zh) 图形码提取模型构建方法、识别方法、装置、设备和介质
CN113688834A (zh) 车票识别方法、车票识别系统及计算机可读存储介质
JP6175904B2 (ja) 照合対象抽出システム、照合対象抽出方法、照合対象抽出プログラム
JP2004094427A (ja) 帳票画像処理装置及び該装置を実現するためのプログラム
CN116962816B (zh) 设置植入标识的方法、装置、电子设备及存储介质
CN112801046B (zh) 图像处理方法、装置、电子设备和计算机存储介质
CN117635763A (zh) 基于人像部件分析的自动换装方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant