CN102982328A - 字符识别装置和字符识别方法 - Google Patents

字符识别装置和字符识别方法 Download PDF

Info

Publication number
CN102982328A
CN102982328A CN2012102763075A CN201210276307A CN102982328A CN 102982328 A CN102982328 A CN 102982328A CN 2012102763075 A CN2012102763075 A CN 2012102763075A CN 201210276307 A CN201210276307 A CN 201210276307A CN 102982328 A CN102982328 A CN 102982328A
Authority
CN
China
Prior art keywords
character
font
circumscribed rectangle
blank
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012102763075A
Other languages
English (en)
Inventor
佐田以知子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of CN102982328A publication Critical patent/CN102982328A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供字符识别装置和字符识别方法。字符识别装置在从被读取的文件原稿中识别字符、并将空白字符作为间隔按单词单位对字符识别结果的字符串进行校正。上述字符识别装置包括:外切矩形形成部,其对各个被识别出的字母字符串形成外切矩形;等倍字体判定部,其根据相邻的外切矩形的宽度方向中央线之间的距离,对是否为等倍字体进行判定;剩余空白字符判定部,其在判定为等倍字体的情况下,基于字符串中的空白字符的宽度比规定的宽度窄的情况,判定该空白字符是剩余空白字符;和删除部,其从字符串删除被判定为剩余的空白字符。

Description

字符识别装置和字符识别方法
技术领域
本发明涉及从作为图像被读取的文件原稿中识别字符并将空白字符作为间隔、按单词单位对字符识别结果的字符串进行校正的字符识别装置和字符识别方法。
背景技术
提案有将印刷有利用文字处理机等制作成的字符的文件原稿数字化,使得能够利用计算机等信息处理装置对其进行处理的字符识别的技术。在字符识别技术中,利用图像扫描器等读入文件原稿,并对字符进行识别,将字符转换为字母数字、平假名或汉字等字符代码并保存。
而且,一般进行如下处理:对识别后的字符串进行语言处理式的分析处理,以校正字符的识别错误。作为该校正处理,基本上一般为如下方法:将与单词辞典进行基于开头一致的对照后结果为一致的辞典上的候选、或进行词素分析等语言分析的结果是被评价为恰当的候选作为正确候选,对字符识别结果的字符串进行修正。
但是,在日语帐票(商务表格)的文件原稿等字符在规定的框内以一定间隔配置的文件原稿的情况下,即,在字符被均等分配的文件原稿的情况下,会将实际上不是单词间隔的字符与字符之间的空白看做单词间隔,因此不能顺利地进行与单词辞典的对照,不能充分地得到校正处理的效果。
作为解决该问题的技术,在日本特开平8-263587号公报中公开有以下的技术。即,公开有如下技术:检测出从表示一行字符串的字符串图像中切出的一个字符的图像和与其相邻的一个字符的图像之间的空白,在该检测出的空白大于规定的大小的情况下,判别为上述一个字符的图像和与其相邻的一个字符的图像分别为属于不同的单词的字符,对于取入的文件的图像中的规定区域内的字符串图像,令上述的判别结果无效。
不仅在上述日语帐票的文件原稿的情况下,本来在包含适合于日文等的显示和印刷的MS Gothic等等倍字体的字符的文件原稿中也存在同样的问题。具体而言,存在如下问题:等倍字体中字符宽度相对较窄的字符(“i”)等的前后的空白虽然不是单词间隔的空白字符,但是也被识别为单词间隔的空白字符,因此不能充分得到校正处理的效果。
在日本特开平8-263587号公报中,关于该问题没有任何公开和暗示。
发明内容
本发明的目的在于提供一种字符识别装置和字符识别方法,根据该字符识别装置和字符识别方法,在包含以MS Gothic等等倍字体构成的洋文(罗马字)字符的图像数据的字符识别之时,对在原稿中存在并被识别的本来的空白字符和在原稿中不存在而由于是字符宽度相对较窄的字符(“i”等)的前后所以被误识别的空白字符进行判别,仅将后者的错误的空白字符删除。
本发明的目的在于提供一种字符识别装置,其特征在于:
其是从作为图像被读取的文件原稿中识别字符、并将空白字符作为间隔按单词单位对字符识别结果的字符串进行校正的字符识别装置,
上述字符识别装置包括:
外切矩形形成部,其对各个被识别的字母字符串形成外切矩形;
等倍字体判定部,其根据相邻的上述外切矩形的宽度方向中央线之间的距离,判定上述字符串的字体是否为等倍字体;
剩余空白字符判定部,其在判定为等倍字体的情况下,基于上述字符串中的空白字符的字符宽度比规定的宽度窄的情况,判定该空白字符是剩余空白字符;和
剩余空白字符删除部,其从上述字符串中删除被判定为上述剩余空白字符的空白字符。
本发明的另一目的在于提供一种字符识别装置,其特征在于:
上述等倍字体判定部,以第一个上述外切矩形的宽度方向中央线与第二个上述外切矩形的宽度方向中央线之间的距离为基准值,在其它相邻的上述外切矩形的宽度方向中央线之间的距离为基于上述基准值确定的规定的范围内的情况下,判定上述字符串的字体为等倍字体。
本发明的另一目的在于提供一种字符识别装置,其特征在于:
上述等倍字体判定部,取上述相邻的外切矩形的宽度方向中央线之间的距离的柱状图,在该柱状图中存在中央化倾向的情况下,判定上述字符串的字体是等倍字体。
本发明的另一目的在于提供一种字符识别装置,其特征在于:
上述等倍字体判定部基于上述字符串的一部分判定上述字符串的字体是否为等倍字体。
本发明的另一目的在于提供一种字符识别装置,其特征在于:
上述等倍字体判定部,基于上述字符串中被判定为字符尺寸相等的部分,判定上述字符串的字体是否为等倍字体。
本发明的另一目的在于提供一种字符识别装置,该字符识别装置的特征在于:
上述规定的宽度基于上述外切矩形的宽度方向中央线之间的距离决定。
本发明的另一目的在于提供一种字符识别装置,该字符识别装置的特征在于:
上述规定的宽度基于上述字符串的空白字符的宽度的柱状图决定。
本发明的另一目的在于提供一种字符识别方法,其特征在于:
其是从作为图像被读取的文件原稿中识别字符、并将空白字符作为间隔按单词单位对字符识别结果的字符串进行校正的字符识别方法,对各个被识别出的字母字符串形成外切矩形,根据相邻的上述外切矩形的宽度方向中央线之间的距离,判定上述字符串的字体是否为等倍字体,在判定为等倍字体的情况下,基于上述字符串中的空白字符的字符宽度比规定的宽度窄的情况,判定该空白字符是剩余空白字符,从上述字符串中删除被判定为上述剩余空白字符的剩余空白字符。
附图说明
图1是表示本发明的字符识别装置的一个例子的内部结构的框图。
图2是表示图1的字符识别装置所执行的处理的一个例子的流程图。
图3是表示成为图1的字符识别装置的字符识别对象的原文件的一个例子的示意图。
图4是说明识别字符串数据的一个例子的图。
图5是表示外切矩形形成部所执行的外切矩形形成的样子的示意图。
图6是表示识别字符串数据和识别字符附属信息数据的一个例子的表。
图7是表示外切矩形中央线导出部所执行的字符外切矩形中央线形成的样子的示意图。
图8是表示从所识别的字符串中除去剩余空白字符而得到的字符串的一个例子的图。
图9是说明图2的步骤S105的字体信息取得处理的流程图。
图10是说明图2的步骤S107的剩余空白字符判定、删除处理的流程图。
具体实施方式
以下对本发明的字符识别装置和字符识别方法根据表示其实施方式的附图进行详细说明。另外,在以下的实施方式中,对通过使公知的个人计算机、服务器计算机等读取并使个人计算机或服务器计算机的CPU(Central Processing Unit:中央处理器)等执行本发明所涉及的程序来实现本发明的字符识别装置的结构进行说明。但是,也可以通过发挥等效作用的硬件来实现本发明的字符识别装置。
图1是表示本发明的字符识别装置的一个例子的内部结构的框图。
本发明的字符识别装置是从作为图像被读取的文件原稿中识别字符、按将空白字符作为间隔的单词单位对字符识别结果进行校正的装置,如以图1的参照附图标记10例示的那样,包括控制部11、网络I/F部12、存储部13、图像取得部14、布局分析部15、字符识别部16、外切矩形形成部17、外切矩形中央线导出部18、等倍字体判定部19、剩余空白字符判定部20、剩余空白字符删除部21和字符识别校正部22。
控制部11是CPU、MPU(Micro Processing Unit:微处理器)等,对上述那样的各部进行控制,并且适当地执行存储在存储部13中的控制程序。
网络I/F部12是用于与LAN(Local Area Network:局域网)或WAN(Wide Area Network:广域网)等IP(Internet Protocol:互联网协议)网络连接的端口。网络I/F部12通过IP网络在与外部装置之间进行信息的接收和发送。
存储部13是闪存ROM(Read Only Memory:只读存储器)、EEPROM(Electrically Erasable and Programmable ROM:电可擦除可编程只读存储器)、HD(Hard Disk:硬盘)等存储装置。该存储部13存储为了使字符识别装置10进行动作所需的各种控制程序、在控制部11执行控制程序时产生的各种数据等。
作为控制程序,存储部13例如存储有按将空白字符作为间隔的单词单位对字符识别结果进行校正的字符识别校正程序13a、删除不需要的空白字符的数据的空白删除程序13h。
此外,作为在控制部11执行控制程序时产生的各种数据,存储部13存储有原文件图像数据13b、布局分析数据13c、识别字符串数据13d、识别字符附属信息数据13e、空白字符删除后字符串数据13f、字符识别校正后字符串数据13g等。
图像取得部14例如是扫描器,取得记载有字符的原文件图像的图像数据,使存储部13将其作为原文件图像数据13b进行存储。
布局分析部15对由图像取得部14取得的原文件图像的布局进行分析,对原文件图像中所含的字符区域、图像区域、余白等的分配进行分析,并且确定各区域的位置和尺寸等,使存储部13将其作为布局分析数据13c进行存储。
字符识别部16对由布局分析部15抽出的各个字符区域中所含的字符进行识别,取得字符串,并且确定原文件图像中的字符的位置和尺寸等,使存储部13将其作为识别字符串数据13d和识别字符附属信息数据13e进行存储。
外切矩形形成部17利用作为字符识别结果的识别字符串数据13d和识别字符附属信息数据13e,对构成被识别的字符串的各字母字符形成字符外切矩形。
外切矩形中央线导出部18计算所形成的字符外切矩形各自的宽度方向的中央线的位置。
等倍字体判定部19使用字符外切矩形的宽度方向的中央线的位置信息,基于相邻的字符外切矩形的宽度方向的中央线之间的距离,判定字符串中使用的字体是否为等倍字体。例如,以第一个外切矩形的宽度方向中央线和第二个外切矩形的宽度方向中央线之间的距离为基准值,在其它相邻的外切矩形的宽度方向的中央线之间的距离为基于上述基准值确定的规定的范围内的情况下,判定为是等倍字体。另外,上述规定的范围是指,在令上述基准值为X的情况下,例如为X/1.1~1.1X,或为假定插入有真的空白字符的情况下的2X/1.1~2.2X。此外,在取相邻的外切矩形的宽度方向中央线之间的距离的柱状图、在该柱状图中存在中央化倾向的情况下,也可以判定为字符串的字体是等倍字体。在这种情况下,能够期待概观某一定区间的字符串中的各个字符的宽度的无偏倚(无偏重)的判定处理。
此外,对是否为等倍字体的判定也可以基于所识别的字符串的一部分进行。由此,能够提高判定处理的速度。
进一步,上述判定也可以基于所识别的字符串中的被判定为字符尺寸相等的部分进行。由此,在一个文件中混有各种各样的字符尺寸的情况下也能够提高判定处理的精度。另外,即使在所被读取的原稿中字符尺寸相同,也存在所读取的字符尺寸稍有不同的情况。因此,即使所识别的字符尺寸稍有不同,在字符识别装置10中也判定为所识别的字符尺寸相等。
另外,在包含行头或行尾的字符的外切矩形中央线之间,与其以外的部分相比,有可能不能得到正确的距离,因此,行头和行尾的字符也可以在求取等倍字体判定时的基准值时从等倍字体判定对象中除去。
在字符串中使用的字体为等倍字体的情况下,剩余空白字符判定部20对作为字符识别部16的结果的识别字符串数据13d中存在的空白字符中的各个字符,基于该空白字符的字符宽度比规定的宽度窄的情况判定该空白字符是剩余空白字符。上述规定的宽度例如既可以基于相邻的外切矩形的宽度方向的中央线之间的距离确定,也可以基于字符串的空白字符的宽度的柱状图确定。在后者的情况下,能够期待概观某一定区间的空白字符中的各个字符的宽度的无偏倚的判定处理。
剩余空白字符删除部21仅将空白字符中被剩余空白字符判定部20判定为剩余空白字符的空白字符从识别字符串数据13d中删除,使存储部13将其结果作为空白字符删除后字符串数据13f存储。
根据上述那样的结构,字符识别装置10在被进行字符识别而得到的字符串的字体为MS Gothic等等倍字体的情况下,能够删除在“i”等宽度窄的字符的前后、在字符识别时被误插入的空白字符。
另外,字符识别校正部22,使用单词辞典,基于空白字符删除后字符串数据,按以空白字符为间隔的单词单位对字符识别结果进行校正,使存储部13将其结果作为字符识别校正后字符串数据13g进行存储。在该校正时,也可以使用单词辞典对删除剩余空白字符前的字符串和删除剩余空白字符后的字符串中的各个字符串进行校正,输出能够得到更恰当的校正结果的那个校正结果。
使用图2~图8说明图1的字符识别装置10执行的处理的一个例子。图2是表示上述处理的一个例子的流程图。图3是表示成为图1的字符识别装置10的字符识别对象的原文件的一个例子的示意图。图4是说明识别字符串数据13d的一个例子的图。图5是表示外切矩形形成部17执行的外切矩形形成的样子的示意图。图6是表示识别字符串数据13d和识别字符附属信息数据13e的一个例子的表。图7是表示外切矩形中央线导出部18执行的字符外切矩形中央线形成的样子的示意图。图8是表示从所识别的字符串中除去剩余空白字符后的字符串的一个例子的图。
控制部11通过图像取得部14取得记载有字符的原文件的图像数据,使存储部13将其作为原文件图像数据13b进行存储(步骤S100)。此处,将包括使用了作为图3的等倍字体的MS Gothic的“Thepresentation data”这一字符串I的原文件作为字符识别对象。
当在步骤S100中取得原文件图像数据时,控制部11通过布局分析部15对原文件图像的布局进行分析,分析原文件图像中所含的字符区域、图像区域、余白等的分配,并且确定各区域的位置和尺寸等,使存储部13将其作为布局分析数据13c进行存储(步骤S101)。
然后,控制部11通过字符识别部16,对在布局分析中抽出的各个字符区域中所含的字符进行识别、作为字符串取得,并且确定原文件图像中的字符的位置和尺寸等,使存储部13将其作为识别字符串数据13d和识别字符附属信息数据13e进行存储(S102)。字符识别部16从包括图3的MS Gothic的“The presentation data”这一字符串I的原文件中取得图4的“The presentati on data”这一字符串L。在图4的字符串L中,在字符“i”与字符“o”之间插入有原文件中没有的空白字符。以下,作为字符识别结果,将图4的字符串L作为所取得的字符串进行说明。
控制部11,通过外切矩形形成部17,利用作为字符识别结果的识别字符串数据13d和识别字符附属信息数据13e,如图5所示那样对各字母字符形成字符外切矩形S(步骤S103)。例如,图6的表T中的字符序号为“0”的字符“T”的外切矩形,通过作为该字符“T”的坐标值,取得左X坐标=97、上Y坐标=592、右X坐标=110、下Y坐标=568而形成。
此外,控制部11通过外切矩形中央线导出部18,对各个字符外切矩形求取字符外切矩形中央线C(参照图7)的位置信息即该矩形中央的宽度方向的坐标值(S104)。例如,字符序号为“0”的字符“T”的外切矩形中央的宽度方向的坐标值为左X坐标=97与右X坐标=110的平均值的“X坐标=103.5”。
然后,控制部11通过等倍字体判定部19,基于各字符的外切矩形中央的宽度方向的坐标值(中央线C),取得表示该字符串是否为等倍字体的字体信息(步骤S105),基于该字体信息,进行是否为等倍字体的判定(步骤S106)。在不是等倍字体的情况下(NO的情况下)直接结束处理,在是等倍字体的情况下(YES)的情况下,通过剩余空白字符判定部20,基于各空白字符的宽度进行该空白字符是否为剩余空白字符的判定,在判定为剩余空白的情况下,通过剩余空白字符删除部21删除该剩余空白字符(步骤S107)。由此,能够取得从图4的MS Gothic的“The presentati on data”这一字符串L中除去剩余空白字符后的图8的“The presentation data”这一字符串M。
图9是说明图2的步骤S105的字体信息取得处理的流程图。
控制部11通过等倍字体判定部19,将外切矩形中央线的关注指针设定为第一个外切矩形中央线(步骤S200),判定是否存在第二个外切矩形中央线(步骤S201)。在不存在的情况下(NO的情况下),结束字体信息取得处理,图2的主处理也不进行步骤S105~S107的处理而结束,另一方面,在存在的情况下(YES的情况下),将外切矩形中央线的关注指针前进一个(步骤S202)。
然后,利用在步骤S104中求得的各字符的外切矩形中央线的位置信息,求取第一个外切矩形中央线与第二个外切矩形中央线之间的距离,设定为基准值(步骤S203)。例如,第一个外切矩形中央线即作为图6的第一个字符的字符序号“0”的字符“T”的外切矩形的中央线为“X坐标=103.5”,第二个外切矩形中央线即作为图6的第二个字符的字符序号“1”的“h”的外切矩形的中央线为“X坐标=120”,根据它们求得上述外切矩形中央线之间的距离120-103.5=16.5,设定为基准值。
接着,进行下一个外切矩形中央线是否存在的判定(步骤S204)。在存在的情况下(YES的情况下),将外切矩形中央线的关注指针前进一个(步骤S205),利用在步骤S104中求得的各字符的外切矩形中央线的位置信息,求取上述指针所示的现在关注的外切矩形中央线与前一个外切矩形中央线的距离(步骤S206)。
例如,在上述指针被设定在第三个的情况下,从第二个外切矩形中央线即作为图6的第二个字符的字符序号“1”的字符“h”的外切矩形的中央线的“X坐标=120”与第三个外切矩形中央线即作为图6的第三个字符的字符序号“2”的“e”的外切矩形的中央线的“X坐标=136”,求得第三个字符外切矩形中央线与第二个字符外切矩形中央线的距离136-120=16。
此外,例如在上述指针被设定在第四个的情况下,从第四个外切矩形中央线即作为图6的第五个字符的字符序号“4”的字符“p”的外切矩形的中央线的“X坐标=167.5”与第三个外切矩形中央线即作为图6的第三个字符的字符序号“2”的“e”的外切矩形的中央线的“X坐标=136”,求得第四个字符外切矩形中央线与第三个字符外切矩形中央线的距离167.5-136=31.5。
然后,根据在S206中求得的外切矩形中央线的关注指针所示的现在关注的外切矩形中央线与前一个外切矩形中央线的距离是否为基于在步骤S203中求得的基准值确定的规定的范围内进行判定(步骤S207)。另外,所谓的规定的范围,如上所述,在令基准值为X的情况下,例如为X/1.1~1.1X,或为假定插入有真的空白字符的情况下的2X/1.1~2.2X。
在步骤S207,在现在关注的外切矩形中央线与前一个外切矩形中央线的距离为规定的范围内的情况下,即,在上述距离为在步骤S203中求得的基准值的整数倍的情况下(YES的情况下),将“是等倍字体”这样的判定结果存储在等倍字体综合评价用缓冲存储器中,返回步骤S204(步骤S208)。
此外,在步骤S207,在现在关注的外切矩形中央线与前一个外切矩形中央线的距离不在规定的范围内的情况下,即,在上述距离不是在步骤S203中求得的基准值的整数倍的情况下(NO的情况下),将“不是等倍字体”这样的判定结果存储在等倍字体综合评价用缓冲存储器中,返回步骤S204(步骤S209)。
例如,在上述指针被设定在第三个的情况下,在步骤S206中求得的第三个字符外切矩形中央线与第二个字符外切矩形中央线的距离16为基于在步骤S203求得的基准值16.5的规定的范围15~18.15的范围内,因此,在步骤S208中,将“等倍字体”这样的判定结果存储在等倍字体综合评价用缓冲存储器中,返回步骤S204。
此外,例如在上述指针被设定在第四个的情况下,在步骤S206中求得的第四个字符外切矩形中央线与第三个字符外切矩形中央线的距离31.5为基于在步骤S203中求得的基准值16.5的规定的范围30~36.3的范围内,因此,在步骤S208,将“等倍字体”这样的判定结果存储在等倍字体综合评价用缓冲存储器中,返回步骤S204。
在步骤S204,在判定为不存在下一个外切矩形中央线的情况下(NO的情况下),基于存储在等倍综合评价用缓冲存储器中的“是等倍字体”这样的判定结果和“不是等倍字体”这样的判定结果,输出表示该字符串是否为等倍字体的字体信息(步骤S210),进入图2的步骤S106。在步骤S210中,例如,如果“是等倍字体”这样的判定结果占90%以上,则输出该字符串是等倍字体这样的字体信息。
图10是说明图2的步骤S107的剩余空白字符判定、删除处理的流程图。
首先,控制部11通过剩余空白字符判定部20,判定现在关注的空白字符的宽度是否为规定的宽度以下(步骤S300),在不是规定的宽度以下、该空白字符是真的空白字符的情况下(NO的情况下),进入步骤S302,在是规定的宽度以下、该空白字符是剩余空白字符的情况下(YES的情况下),进入步骤S301。所谓的规定的宽度,例如,在令在步骤S203中求得的基准值为X的情况下,例如为X/1.2。
例如,在现在关注的空白字符为图6的字符序号“3”的空白字符的情况下,该空白字符的宽度为从字符序号“4”的字符的左X坐标(=161)减去字符序号“2”的字符的右X坐标(=142)而得到的值“19”,不是基于在步骤S203中求得的基准值(=16.5)的规定的宽度(=13.75)以下,因此进入步骤S302。
例如,在现在关注的空白字符为图6的字符序号“14”的空白字符的情况下,该空白字符的宽度为从字符序号“15”的字符的左X坐标(=321)减去字符序号“13”的字符的右X坐标(=312)而得到的值“9”,是上述规定的宽度(=13.75)以下,因此进入步骤S301。
在步骤S301,删除被判定为剩余空白字符的空白字符,进入步骤S302。例如,图6的字符序号为“14”的空白字符被删除。
在步骤S402,判定是否存在现在关注的空白字符的下一个空白字符,在存在下一个空白字符的情况下(YES的情况下),将关注空白字符指针前进一个(步骤S303),返回步骤S304,在不存在的情况下(NO的情况下)结束处理。
以上,根据本发明的字符识别装置,能够在进行包含由MS Gothic等等倍字体构成的洋文字符的图像数据的字符识别时,对原稿中存在并被识别的本来的空白字符、和原稿中不存在而由于是字符宽度相对较窄的字符的前后所以被误识别的空白字符进行判别,仅删除后者的错误的空白字符。因此,能够以空白字符为间隔按单词单位恰当地校正字符识别结果的字符串。

Claims (8)

1.一种字符识别装置,其特征在于:
其是从作为图像被读取的文件原稿中识别字符、并将空白字符作为间隔按单词单位对字符识别结果的字符串进行校正的字符识别装置,
所述字符识别装置包括:
外切矩形形成部,其对各个被识别出的字母字符串形成外切矩形;
等倍字体判定部,其根据相邻的所述外切矩形的宽度方向中央线之间的距离,判定所述字符串的字体是否为等倍字体;
剩余空白字符判定部,其在判定为等倍字体的情况下,基于所述字符串中的空白字符的字符宽度比规定的宽度窄的情况,判定该空白字符是剩余空白字符;和
剩余空白字符删除部,其从所述字符串中删除被判定为所述剩余空白字符的空白字符。
2.如权利要求1所述的字符识别装置,其特征在于:
所述等倍字体判定部,以第一个所述外切矩形的宽度方向中央线与第二个所述外切矩形的宽度方向中央线之间的距离为基准值,在其它相邻的所述外切矩形的宽度方向中央线之间的距离为基于所述基准值确定的规定的范围内的情况下,判定所述字符串的字体为等倍字体。
3.如权利要求1所述的字符识别装置,其特征在于:
所述等倍字体判定部,取所述相邻的外切矩形的宽度方向中央线之间的距离的柱状图,在该柱状图中存在中央化倾向的情况下,判定所述字符串的字体是等倍字体。
4.如权利要求1~3中任一项所述的字符识别装置,其特征在于:
所述等倍字体判定部基于所述字符串的一部分判定所述字符串的字体是否为等倍字体。
5.如权利要求4所述的字符识别装置,其特征在于:
所述等倍字体判定部,基于所述字符串中被判定为字符尺寸相等的部分,判定所述字符串的字体是否为等倍字体。
6.如权利要求1所述的字符识别装置,其特征在于:
所述规定的宽度基于所述外切矩形的宽度方向中央线之间的距离决定。
7.如权利要求1所述的字符识别装置,其特征在于:
所述规定的宽度基于所述字符串的空白字符的宽度的柱状图决定。
8.一种字符识别方法,其特征在于:
其是从作为图像被读取的文件原稿中识别字符、并将空白字符作为间隔按单词单位对字符识别结果的字符串进行校正的字符识别方法,
对各个被识别出的字母字符串形成外切矩形,
根据相邻的所述外切矩形的宽度方向中央线之间的距离,判定所述字符串的字体是否为等倍字体,
在判定为等倍字体的情况下,基于所述字符串中的空白字符的字符宽度比规定的宽度窄的情况,判定该空白字符是剩余空白字符,
从所述字符串中删除被判定为所述剩余空白字符的剩余空白字符。
CN2012102763075A 2011-08-03 2012-08-03 字符识别装置和字符识别方法 Pending CN102982328A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011169895A JP5508359B2 (ja) 2011-08-03 2011-08-03 文字認識装置、文字認識方法及びプログラム
JP2011-169895 2011-08-03

Publications (1)

Publication Number Publication Date
CN102982328A true CN102982328A (zh) 2013-03-20

Family

ID=47626990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012102763075A Pending CN102982328A (zh) 2011-08-03 2012-08-03 字符识别装置和字符识别方法

Country Status (3)

Country Link
US (1) US8861862B2 (zh)
JP (1) JP5508359B2 (zh)
CN (1) CN102982328A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516859A (zh) * 2013-09-27 2015-04-15 北大方正集团有限公司 一种文字修正方法及系统
CN105608453A (zh) * 2014-11-17 2016-05-25 株式会社日立信息通信工程 字符识别系统及字符识别方法
CN106104516A (zh) * 2014-03-25 2016-11-09 富士通株式会社 终端装置、显示控制方法以及程序
CN106156772A (zh) * 2015-03-25 2016-11-23 佳能株式会社 用于确定词间距的方法和设备以及用于分词的方法和系统
CN108564078A (zh) * 2018-04-24 2018-09-21 大连民族大学 提取满文单词图像中轴线的方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8850350B2 (en) 2012-10-16 2014-09-30 Google Inc. Partial gesture text entry
US8843845B2 (en) 2012-10-16 2014-09-23 Google Inc. Multi-gesture text input prediction
US8819574B2 (en) * 2012-10-22 2014-08-26 Google Inc. Space prediction for text input
US8832589B2 (en) 2013-01-15 2014-09-09 Google Inc. Touch keyboard using language and spatial models
JP6003705B2 (ja) * 2013-02-14 2016-10-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
GB2572386B (en) * 2018-03-28 2021-05-19 Canon Europa Nv An image processing system and an image processing method
CN109766885B (zh) * 2018-12-29 2022-01-18 北京旷视科技有限公司 一种文字检测方法、装置、电子设备及存储介质
JP7283755B2 (ja) * 2020-04-16 2023-05-30 株式会社ミラボ 情報処理装置、及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04353989A (ja) * 1991-05-30 1992-12-08 Sharp Corp 単語切り出し方式
JPH06348911A (ja) * 1993-06-07 1994-12-22 Matsushita Electric Ind Co Ltd 英文字認識装置
US20080131001A1 (en) * 2004-07-06 2008-06-05 Yoram Hofman Multi-level neural network based characters identification method and system
CN101251892A (zh) * 2008-03-07 2008-08-27 北大方正集团有限公司 一种字符切分方法和装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58112176A (ja) * 1981-12-26 1983-07-04 Toshiba Corp 光学的文字読取装置
US4635290A (en) * 1983-12-20 1987-01-06 Nec Corporation Sectioning apparatus and method for optical character reader systems
JPS63158678A (ja) * 1986-12-23 1988-07-01 Sharp Corp 単語間スペ−ス検出方法
US5131053A (en) * 1988-08-10 1992-07-14 Caere Corporation Optical character recognition method and apparatus
JP2963465B2 (ja) * 1989-06-23 1999-10-18 株式会社リコー スペース検出方法
JP2753094B2 (ja) * 1990-01-31 1998-05-18 沖電気工業株式会社 単語切り出し装置
JP2915175B2 (ja) * 1990-10-01 1999-07-05 株式会社エフ・エフ・シー 単語間スペース検出方法
JPH0567237A (ja) 1991-05-13 1993-03-19 Hitachi Eng Co Ltd 空白認識方法、空白認識装置、文字認識装置、英日翻 訳装置
JPH08221576A (ja) * 1994-12-12 1996-08-30 Toshiba Corp 文字列における直線検出方式、直線除去方式および宛名領域判別装置
JPH08263587A (ja) 1995-03-20 1996-10-11 Matsushita Electric Ind Co Ltd 文書入力方法および文書入力装置
US5689585A (en) * 1995-04-28 1997-11-18 Xerox Corporation Method for aligning a text image to a transcription of the image
CA2176691C (en) * 1995-05-15 2004-04-13 Junji Tanaka Hand-written character recognition apparatus and facsimile apparatus
JP3537570B2 (ja) * 1995-12-18 2004-06-14 株式会社リコー 日英混在文書のスペース検出方法、ピッチ書式判定方法及び定ピッチ英数文字列のスペース検出方法
US5803629A (en) * 1997-03-14 1998-09-08 Paul H. Neville Method and apparatus for automatic, shape-based character spacing
GB9711022D0 (en) * 1997-05-28 1997-07-23 Rank Xerox Ltd Text/image selection from document images
JP3880044B2 (ja) * 2002-02-22 2007-02-14 富士通株式会社 手書き文字入力支援装置及び方法
US8094973B2 (en) * 2008-10-06 2012-01-10 Xerox Corporation Content aware image resizing for text and contone images
US8515176B1 (en) * 2011-12-20 2013-08-20 Amazon Technologies, Inc. Identification of text-block frames

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04353989A (ja) * 1991-05-30 1992-12-08 Sharp Corp 単語切り出し方式
JPH06348911A (ja) * 1993-06-07 1994-12-22 Matsushita Electric Ind Co Ltd 英文字認識装置
US20080131001A1 (en) * 2004-07-06 2008-06-05 Yoram Hofman Multi-level neural network based characters identification method and system
CN101251892A (zh) * 2008-03-07 2008-08-27 北大方正集团有限公司 一种字符切分方法和装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516859A (zh) * 2013-09-27 2015-04-15 北大方正集团有限公司 一种文字修正方法及系统
CN104516859B (zh) * 2013-09-27 2018-02-13 北大方正集团有限公司 一种文字修正方法及系统
CN106104516A (zh) * 2014-03-25 2016-11-09 富士通株式会社 终端装置、显示控制方法以及程序
CN106104516B (zh) * 2014-03-25 2019-06-28 富士通株式会社 终端装置、显示控制方法以及程序
CN105608453A (zh) * 2014-11-17 2016-05-25 株式会社日立信息通信工程 字符识别系统及字符识别方法
CN105608453B (zh) * 2014-11-17 2019-05-03 株式会社日立信息通信工程 字符识别系统及字符识别方法
CN106156772A (zh) * 2015-03-25 2016-11-23 佳能株式会社 用于确定词间距的方法和设备以及用于分词的方法和系统
CN106156772B (zh) * 2015-03-25 2019-08-02 佳能株式会社 用于确定词间距的方法和设备以及用于分词的方法和系统
CN108564078A (zh) * 2018-04-24 2018-09-21 大连民族大学 提取满文单词图像中轴线的方法
CN108564078B (zh) * 2018-04-24 2020-11-13 大连民族大学 提取满文单词图像中轴线的方法

Also Published As

Publication number Publication date
JP5508359B2 (ja) 2014-05-28
US8861862B2 (en) 2014-10-14
JP2013033416A (ja) 2013-02-14
US20130034302A1 (en) 2013-02-07

Similar Documents

Publication Publication Date Title
CN102982328A (zh) 字符识别装置和字符识别方法
US8645819B2 (en) Detection and extraction of elements constituting images in unstructured document files
US5848191A (en) Automatic method of generating thematic summaries from a document image without performing character recognition
JP3919617B2 (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
EP0779592B1 (en) Automatic method of identifying drop words in a document image without performing OCR
EA001689B1 (ru) Система автоматической идентификации языка для многоязычного оптического распознавания символов
JP2002352191A (ja) 手書き判別能力を持つプリンティング制御インターフェースシステムとその方法
CN111984589A (zh) 文档处理方法、文档处理装置和电子设备
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
CN110674811A (zh) 图像识别的方法及装置
JP2000315247A (ja) 文字認識装置
CN114565927A (zh) 表格识别方法、装置、电子设备及存储介质
Xiang et al. Effective page segmentation combining pattern analysis and visual separators for browsing on small screens
US11551461B2 (en) Text classification
CN111857703A (zh) 一种界面中图层的匹配方法、装置及电子设备
CN115797955A (zh) 基于单元格约束的表格结构识别方法及其应用
CN112699634B (zh) 电子书的排版处理方法、电子设备及存储介质
JP4109738B2 (ja) 画像処理方法及び装置及びその記憶媒体
JPH04352295A (ja) 文字列方向判別装置
JP2002297638A (ja) 文書画像からのタイトル抽出方法
JPH0944605A (ja) 文書画像解析装置
JP2576080B2 (ja) 文字切出し方法
JP2003030585A (ja) 画像処理装置、方法、プログラム及び記憶媒体
CN115131806A (zh) 一种基于深度学习的各类证件ocr图像信息识别方法、系统
JP6528927B2 (ja) 文書処理装置及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20161019

C20 Patent right or utility model deemed to be abandoned or is abandoned