CN103198291B - 信息处理装置 - Google Patents
信息处理装置 Download PDFInfo
- Publication number
- CN103198291B CN103198291B CN201210281080.3A CN201210281080A CN103198291B CN 103198291 B CN103198291 B CN 103198291B CN 201210281080 A CN201210281080 A CN 201210281080A CN 103198291 B CN103198291 B CN 103198291B
- Authority
- CN
- China
- Prior art keywords
- character
- character string
- quasi
- module
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本发明提供一种信息处理装置,其即使是暂时被误判为包含在字符串中的准字符,也可以正确地判断出其包含在其后形成的字符串中,并且,可以抑制正确地判断出包含在字符串中的准字符,被误判为包含在其后形成的字符串中。信息处理装置的准字符选择单元,从字符串要素内选择包含在作为对象的字符串中的准字符,字符串形成单元通过将选择的准字符包含在作为对象的字符串中而形成字符串,特征量赋予单元计算出字符串的表示字符串可能性的特征量,将该特征量向包含在该字符串中的准字符赋予,作为通过准字符选择单元选择的对象的准字符,包含已在字符串中包含的准字符,准字符选择单元根据赋予准字符的特征量,选择包含在作为对象的字符串中的准字符。
Description
技术领域
本发明涉及信息处理装置。
背景技术
已存在提取字符串的技术。
作为与之相关的技术,例如,在专利文献1中,关于具有文档图像的行和段的提取功能的文档图像识别装置,公示了下述技术,其以可以高速且高精度地进行横行与纵行混合存在的文档图像的行·段提取为课题,文档图像斜率检测部参照文档图像,提取构成字符的成分的集合,并据此提取横向及纵向的行候补,对于上述各个行候补推定可靠度,根据推定的行可靠度提取正确度较高的行的集合,根据其结果,使用正确度较高的行的集合的字符成分的配置推定斜率,布局解析部从构成文档图像的基础要素的集合提取行方向已确定的行集合,基于行之间的关联交互地执行段提取和约束段的行的提取,从而将行和段提取出。
另外,例如,在专利文献2中,公示了下述技术,其以正确无误地合并在字符识别中成为误识别原因的分离字符串,防止由分离字符引起的误识别为课题,从文档图像中提取字符串矩形,合并字符串矩形内的分离字符串矩形,然后,按照下述方式对分离为大于或等于2个字符串矩形的分离字符串进行合并,即,关注字符串矩形内的字符数较少的字符串矩形,将位于该字符串矩形的上下(横写)或左右(竖写)的字符串,以推定字符串尺寸进行临时合并,对重新合并形成的字符矩形进行字符识别,判定字符识别的评估值(例如,距离值)是否满足一定基准,验证分离字符串的临时合并结果。
另外,例如,在专利文献3中,关于用于生成、识别独立的字符成分的字符分割方法,公示了下述技术,其以提供独立的字符成分的提取、识别为目的,由以下7个过程构成,即:第1过程,其搜索文章中全部的像素连结成分;第2过程,其将第1像素连结成分与将第1像素连结成分完全包含在内部的第2像素连结成分结合为1个;第3过程,其设定字宽、字距、行宽、及行距的参考值;第4过程,其将与参考值的规定一致而属于同一个字符成分的像素连结成分结合为1个;第5过程,其根据像素连结成分的结合状况,判定是否重复执行第2至第4过程;第6过程,其通过包含第5过程的反馈式连结成分结合运算方法,使像素连结成分结合,形成多个独立的字符成分;以及第7过程,其将字符成分排列。
另外,例如,在非专利文献1、非专利文献2中公示了下述技术,其中2值图像的连结成分为准字符,而在准字符的合并中,在准字符接近的基础上,利用字符串的尺寸和方向,从准字符的集合推定此时字符串的方向,所谓用于推定的准字符的集合,是指根据从输入图像得到的全部准字符生成的局部集合,相对于各自的局部集合,赋予字符串的尺寸和方向。
专利文献1:日本特开2008-217833号公报
专利文献2:日本特开2002-015283号公报
专利文献3:日本特开平08-263589号公报
非专利文献1:岩田基,黄濑浩一,松本啓之亮,“Segmentation of page imagesusing the area Voronoidiagram,”情報処理学会論文誌,Vol.49,No.8,pp.3239-3248,Aug 1999.
非专利文献2:Daniel M,Oliveira,Rafael D.Lins,Gabriel Torreao,Jian Fan,Marcelo Thielo,“A New Method for Text-Line Segmentation for WarpedDocuments,”in Proc.Of Int.Conf.on Image Analysis and Recognition,Povoa deVarzim,Protugal,pp.398-408,2010.
发明内容
本发明目的在于提供一种信息处理装置,即使是暂时被误判为包含在字符串中的准字符,其也可以正确地判断出包含在其后形成的字符串中,并且,抑制将正确地判断为包含在字符串中的准字符误判为包含在其后形成的字符串中。
作为用于实现上述目的的本发明的主旨,存在于以下各项发明中。
技术方案1的发明是一种信息处理装置,其特征在于,具有:准字符选择单元,其从作为字符串构成要素的准字符的集合即字符串要素内,选择在作为对象的字符串中包含的准字符;字符串形成单元,其通过使由上述准字符选择单元选择的准字符包含在上述作为对象的字符串中,从而形成字符串;以及特征量赋予单元,其计算表示由上述字符串形成单元形成的字符串的字符串可能性的特征量,将该特征量向包含在该字符串中的准字符赋予,作为成为由上述准字符选择单元选择的对象的准字符,包含由上述字符串形成单元形成的字符串中的准字符,上述准字符选择单元根据由上述特征量赋予单元向准字符赋予的特征量,选择在上述作为对象的字符串中包含的准字符。
技术方案2的发明为,如技术方案1所述,其特征在于,还具有范围设定单元,其设定可由上述准字符选择单元从上述字符串要素内选择的准字符所存在的范围,上述准字符选择单元从处于由上述范围设定单元设定的范围中的字符串要素内,选择在作为对象的字符串中包含的准字符。
技术方案3的发明为,如技术方案1或2所述,其特征在于,上述准字符选择单元,对由上述字符串形成单元形成的过程中的字符串的特征量和向在已经形成的字符串中包含的准字符赋予的特征量进行比较,选择在作为对象的字符串中包含的准字符。
技术方案4的发明为,如技术方案1至3中任意一项所述,其特征在于,上述特征量赋予单元计算出字符串的长度、字符串的粗细、字符串的斜率、包含在字符串中的准字符或多个准字符组之间的距离、字符串的偏斜、字符串的长细比中的任意一个或它们的组合,作为特征量。
技术方案5的发明为,如技术方案1至4中任意一项所述,其特征在于,还具有字符识别单元,其识别由上述字符串形成单元形成的字符串内的字符,并输出字符识别结果。
技术方案6的发明为,如技术方案1至4中任意一项所述,其特征在于,还具有:偏斜计算单元,其计算出由上述字符串形成单元形成的字符串的偏斜;以及校正单元,其根据由上述偏斜计算单元计算出的偏斜,对包含上述字符串的文档的偏斜进行校正。
发明的效果
根据技术方案1的信息处理装置,即使是暂时被误判为包含在字符串中的准字符,也可以正确地判断出其包含在其后形成的字符串中,并且,可以抑制将已正确判断为包含在字符串中的准字符误判为包含在其后形成的字符串中的情况。
根据技术方案2的信息处理装置,可以设定应该包含在字符串内的准字符的选择范围。
根据技术方案3的信息处理装置,可以根据形成过程中的字符串的特征,确定选择准字符的范围。
根据技术方案4的信息处理装置,可以根据字符串的长度、字符串的粗细、字符串的斜率、包含在字符串中的准字符或多个准字符组之间的距离、字符串的偏斜中的任意一个或它们的组合,选择包含在字符串中的准字符。
根据技术方案5的信息处理装置,可以输出字符串的字符识别结果。
根据技术方案6的信息处理装置,可以根据字符串的偏斜,对文档的偏斜进行校正。
附图说明
图1是第1实施方式的结构例相关的概念性模块结构图。
图2是表示作为对象的文档图像例子的说明图。
图3是表示错误的字符串提取例的说明图。
图4是表示错误的字符串提取例的说明图。
图5是表示本实施方式涉及的准字符的选择处理例的说明图。
图6是表示本实施方式涉及的处理例的说明图。
图7是表示第1实施方式涉及的处理例的流程图。
图8是第2实施方式的结构例相关的概念性模块结构图。
图9是表示第2实施方式涉及的处理例的流程图。
图10是第3实施方式的结构例相关的概念性模块结构图。
图11是第4实施方式的结构例相关的概念性模块结构图。
图12是第5实施方式的结构例相关的概念性模块结构图。
图13是表示实现本实施方式的计算的硬件结构例的框图。
具体实施方式
首先,在说明实施方式之前,对于作为本实施方式的前提的字符串提取技术进行说明。
所谓字符串提取技术,是指提取文档图像(位图图像、笔划图像、矢量图像)中的各个字符串的技术。
本实施方式特别地,属于自下而上指向的字符串提取技术,即,将构成1个字符串的各个要素(以下称为“准字符”)合并而形成字符串。字符串提取也可以说是字符串切出、字符串检测,在本实施方式的说明中,所谓“形成字符串”与字符串提取、字符串切出、字符串检测意思相同。
字符串提取技术作为文档图像的字符识别或偏斜校正等的基础技术而使用。
图2中表示文档图像的例子。通常,在文档图像中存在多个字符串。此外,字符串分别具有固有的形状(尺寸、方向、偏斜等)。字符串提取技术的目的在于,从文档图像中提取各个字符串。在图2所示的例子中,应提取2个字符串。
对于字符串提取的一般技术进行说明。对于专利文献1、专利文献2、专利文献3公示的技术,均属于通过将构成1个字符串的各个要素合并而提取字符串的自下而上指向的字符串提取技术。
准字符,例如在字符是图像的情况下(文档图像(位图图像)内的字符的情况下),相当于连结像素块(通过4连或8连而连结的像素块)。另外,在文档图像(笔划图、矢量图)内的字符的情况下,相当于手写字符的笔划(具体地说,是笔的移动、触摸屏上手指的移动等中一笔所对应的轨迹)。准字符也存在图2的例子中所示的文档图像200内的准字符201这种表示单字符的情况,但并不限定于单字符,也存在由准字符202(宝盖儿部分)、准字符203(宝盖儿下面的“子”部分)这种一个字符由多个准字符构成的情况。另外,与其相对地,也存在一个准字符由多个单字符构成的情况。
自下而上指向的字符串提取技术,因为相对于各个字符串分别进行合并,所以大多出于分别提取具有固有形状的字符串的目的而使用。
在专利文献3、非专利文献1公示的技术中,会产生前面提取的错误的字符串中的准字符在后面的字符串提取中无法正确合并的情况。这是因为,每当提取1个字符串,则会从准字符的集合(作为可能包含在字符串中的候补的准字符的集合)中去除已被提取的字符串中的准字符。
图3中表示一个例子。图3所示的例子是提取错误的字符串。如图3的例子中所示的字符串301所示,因为前面提取了错误的字符串,该字符串中的准字符被从准字符集合中去除,所以后面也会提取错误的字符串(即,字符串302、303、304)。
专利文献2、非专利文献2中公示的技术是一种将提取的各个字符串合并,提取正确的字符串的方法。但是,在字符串301、字符串304这种错误地作为字符串提取的准字符的集合不是构成真正的字符串的准字符的部分集合的情况下,会发生提取错误的字符串的情况。
这些问题是由在准字符属于单一字符串的条件下提取字符串引起。
专利文献1公示的技术是一种在单个准字符可能属于多个字符串的条件下,可以得到多种字符串提取结果的假定值的方法。但是,在该方法中,可能会发生将前面提取的正确的字符串中的准字符,在后面的字符串提取中被错误合并的情况。即,提取错误的字符串的比例也会增加。
图4中表示一个例子。图4所示的例子提取了错误的字符串。如图4所示的字符串401所示,前面已提取了错误的字符串,但因为允许一个准字符属于多个字符串,所以如字符串402所示(“文字列の切り出し”的字符串),可以正确地提取字符串。但是,出于同样的原因,如字符串403、404、405、406所示,也会提取到错误的字符串。在图4的例子中,作为字符串提取结果,对于下段的字符串不存在正确的提取结果。
特别地,在专利文献3、非专利文献1、非专利文献2公示的技术这种追踪型字符串提取技术中,上述现象会频繁出现。在这里,所谓追踪型是指1个字符串的提取是通过重复下述处理而成的方法,即,根据已经合并的准字符,预测随后应该合并的准字符所应存在的范围,根据其结果观测准字符。
另外,在该方法中,产生对于字符串提取结果的假定值进行取舍选择的后处理。提取对象的字符串的形状自由度越高,则提取的字符串的假定值的个数越多,从而取舍选择的负荷也增加。
在下面所示的实施方式中,在单个准字符可能属于多个字符串的条件下,每当提取1个字符串,则对于上述字符串中的准字符,赋予基于上述字符串的特征量。并且,在后面的字符串提取中的准字符使用/不使用判别中,参照上述特征量。此外,所谓基于字符串的特征量,是字符串的表示字符串可能性的值,即,是用于评价提取的字符串的正确性的值。另外,在本实施方式中,不需要对于字符串提取结果的假定值进行取舍选择的后处理。
图5中表示一个例子。通过字符串提取,提取字符串511、512。字符串511、字符串512分别是错误的字符串和正确的字符串。
在后面的字符串提取中,作为能够包含在与准字符501相同的字符串中而合并的准字符,存在准字符502和准字符503这两个候补。这时,对准字符501和准字符503的准字符进行合并是错误的。这相当于字符串403、字符串404这种错误的字符串提取。
在本实施方式中,通过参照向准字符赋予的特征量,评价出与字符串511相比,字符串512的字符串是正确的。即,在对向字符串511内的准字符赋予的特征量和向字符串512内的准字符赋予的特征量进行比较的情况下,向字符串512内的准字符赋予的特征量是表示更可能是字符串的特征量。因此,准字符503的准字符已经包含在正确的字符串512中的可能性较高,虽然准字符502包含在字符串511中,但因为其作为正确的字符串被提取的可能性较低,所以在这种情况下,判断应该合并准字符502。其结果,得到图6的例子中所示的正确的字符串(字符串611、612)的提取结果。
下面,根据附图,对于实现本发明的过程中优选的各种实施方式的例子进行说明。
图1是表示第1实施方式的结构例相关的概念性模块结构图。
此外,所谓模块,是指通常在理论上无法分离的软件(计算机程序)、硬件等的部件。因此,本实施方式中的模块不仅是计算机程序中的模块,也指硬件结构中的模块。因此,本实施方式也包括使其作为各种模块起作用的计算机程序(用于使计算机执行各个顺序的程序、使计算机作为各个单元起作用的程序、使计算机实现各个功能的程序)、系统及方法的说明。其中,为了说明方便,使用“存储”、“使其存储”、及与之等价的用语,这些用语在实施方式是计算机程序的情况下,是使存储装置进行存储或控制使得存储装置进行存储的意思。另外,模块也可以与功能一一对应,但实际上,可以由1个程序构成1个模块,也可以由1个程序构成多个模块,反之,还可以由多个程序构成1个模块。另外,多个模块可以通过1台计算机执行,也可以通过分散或并行环境中的计算机,使1个模块由多台计算机执行。此外,也可以在1个模块中包含其他模块。另外,下述“连接”除了物理连接之外,也可以在逻辑连接(数据收发、指令、数据间的参照关系等)的情况下使用。所谓“预先设定”是指在作为对象的处理之前确定,本实施方式涉及的处理开始之前当然算,也包含在本实施方式涉及的处理开始之后,只要是作为对象的处理之前即可,对应于当时的状况·状态或之前的状况·状态确定的意思。另外,具有“在其为A的情况下进行B”的意思的记载,作为“判断是否为A,在判断为A的情况下进行B”的意思使用。其中,不包括不需要进行是否为A的判断的情况。
另外,所谓系统或装置,除了是多个计算机、硬件、装置等通过网络(包含一一对应的通信连接)等的通信单元连接而构成,也包含通过1台计算机、硬件、装置等实现的情况。所谓“装置”和“系统”,作为彼此意义相同的术语使用。当然,“系统”并不包含取决于人为的社会性“结构”(社会系统)这种意义。
另外,针对由各个模块进行的处理,或在模块内进行多个处理的情况下针对该处理,从存储装置读取作为对象的信息,在进行该处理之后,将处理结果写入存储装置中。因此,对于从处理前的存储装置的读入、向处理后的存储装置的写入,有时会省略说明。此外,这里的存储装置也可以包含硬盘、RAM(Random Access Memory)、外部存储介质、经由通信回路的存储装置、CPU(Central Processing Unit)内的寄存器等。
作为第1实施方式的信息处理装置,是提取字符串的装置,如图1的例子所示,具有结束判别模块110、范围设定模块120、选择模块130、字符串形成模块140、字符串输出模块150、特征量计算模块160、字符串要素保持模块170、及准字符保持模块180。
第1实施方式对于准字符的集合检测多个字符串。另外,在图7中表示由图1的例子所示的实施方式涉及的处理流程例。此外,图1、图7的例子中的虚线部内的模块、处理,是进行1个字符串检测的。
作为第1实施方式,每当检测出1个字符串,则对该字符串中包含的准字符赋予基于该字符串的特征量。并且,在后面的字符串提取中,在对是否选择应包含在提取的字符串中的准字符进行判别中,参照上述特征量。
所谓字符串要素,是准字符的集合。在上述专利文献、非专利文献所示的技术中,字符串要素相当于1个准字符。另外,也可以是任意个数的准字符。例如,文档图像内包含的准字符即为这种情况。
结束判别模块110与范围设定模块120、准字符保持模块180连接。结束判别模块110如果接收到开始信号108,则从准字符保持模块180中检测用于开始字符串检测的字符串要素即开始字符串要素112,向范围设定模块120输出。开始字符串要素112的检测,是检测字符串开头的准字符,例如,作为开头,在横写的情况下,只要检测位于文档图像内左上方的准字符即可,在竖写的情况下,只要检测位于文档图像内右上方的准字符即可。并且,在通过字符串输出模块150输出1个字符串之后,只要检测下一个字符串的开头的准字符即可。例如,在横写的情况下,只要在除了已输出的字符串之外的区域检测位于左上方的准字符即可,在竖写的情况下,只要在除了已输出的字符串之外的区域检测位于右上方的准字符即可。
另外,如果没有检测到开始字符串要素112,则输出结束信号114。即,结束该第1实施方式涉及的处理。
范围设定模块120与结束判别模块110、选择模块130连接。范围设定模块120设定可以通过选择模块130从字符串要素内选择的准字符所存在的范围。即,将应随后合并的准字符所存在的范围122向选择模块130输出。例如,在横写的情况下,只要将作为对象的准字符右侧且在预先设定的距离内作为范围即可。另外,在竖写的情况下,只要将作为对象的准字符的下侧且在预先设定的距离内作为范围即可。位于该范围内的准字符,成为是否由选择模块130选择作为应该包含在字符串内的准字符的判别对象。
选择模块130与范围设定模块120、字符串形成模块140、准字符保持模块180连接。选择模块130从作为字符串结构要素的准字符的集合即字符串要素内,选择包含在作为对象的字符串中的准字符。并且,选择模块130根据通过特征量计算模块160向准字符赋予的特征量,选择包含在作为对象的字符串中的准字符。此外,作为通过选择模块130而成为选择对象的准字符,包含在通过字符串形成模块140形成的字符串中所包含的准字符。
即,选择模块130根据范围122,从准字符保持模块180选择满足条件的准字符并输出。这时,参照向准字符赋予的特征量。
另外,选择模块130也可以从位于通过范围设定模块120设定的范围内的字符串要素内,选择包含在作为对象的字符串中的准字符。
其中,所谓“根据特征量”,是指使用向准字符赋予的特征量,相当于评价该准字符所属的字符串的正确性。其可以使用与专利文献1等中公示的技术相同的方法。
例如,可以是对于作为对象的字符串,其斜率或间距越大,或长度或长细比越小,或偏斜越大,则其为正确的字符串的可能性(即,评价值)越低等。可以通过将任意一个评价值与预先设定的值进行比较,判别作为对象的包含准字符的字符串是否正确,也可以通过神经网络或boosting算法的方法,机械性学习地设计。
具体地说,存在下述字符串正确性的判别方法。
(1)根据上述特征量,计算出1个评价值,通过其大小进行判别。
(2)将上述特征量进行组合,决定性地判别。
然后,在判别了作为对象的准字符所处的字符串的正确性之后,从多个准字符的候补中选择满足预先设定的条件的准字符。
可以按照上述评价值的顺序,使用前面N(预先设定的值)个准字符,也可以通过与预先设定的阈值进行比较,判断是否选择准字符。此外,可以将与预先设定的阈值参照和选择前面N个准字符的方式进行组合,限制选择的准字符个数。
此外,作为各个准字符的特征值的初始值,可以设定上述评价值为最小的值。
字符串形成模块140与选择模块130、字符串输出模块150、字符串要素保持模块170连接。字符串形成模块140通过使由选择模块130选择的准字符包含在作为对象的字符串中,从而形成字符串。
即,字符串形成模块140将接收的准字符132合并为字符串要素142,向范围设定模块120和字符串要素保持模块170输出。在不存在准字符的情况下,或未合并出适当的字符串要素的情况下,将观测失败信号144向字符串输出模块150输出。
重复进行从范围设定模块120到字符串形成模块140进行的处理,直至输出观测失败信号144。
字符串输出模块150与字符串形成模块140、特征量计算模块160、字符串要素保持模块170连接。字符串输出模块150如果接收到观测失败信号144,则将字符串要素保持模块170内的字符串要素142合并,并输出字符串152。在这里,所谓输出,例如包括存储到存储卡等存储介质中,以及向其他信息处理装置(例如,图11例示的字符串识别装置1120、图12例示的偏斜量推定模块1220、偏斜校正模块1230)传送等。
特征量计算模块160与字符串输出模块150、准字符保持模块180连接。特征量计算模块160计算出表示通过字符串形成模块140形成的字符串的字符串可能性,将该特征量向包含在上述字符串中的准字符赋予。由此,如果参照准字符,则也可以参照向该准字符赋予的特征量。更具体地说,将计算出的特征量向存储在准字符保持模块180中的准字符赋予。
即,特征量计算模块160对于接收到的字符串152的准字符,赋予基于字符串152的特征量(特征量赋予162)。另外,接收1个字符串检测结束的信息,将用于开始下一个字符串检测的信号向结束判别模块110输出。
另外,特征量计算模块160也可以计算出字符串的长度、字符串的粗细、字符串的斜率、字符串中包含的准字符或多个准字符的准字符组之间的距离、字符串偏斜中的任意一个或其组合,作为特征量。
计算出的特征量被选择模块130使用,例如,存在下述特征量。提取其中任意一个或其组合。
(1)字符串的长度
例如,在横写的情况下相当于字符串的外接矩形的宽度,在竖写的情况下,相当于字符串的外接矩形的纵向长度。或者,也可以是连接字符行的起点(一个端部)的中心与终点(另一个端部)的中心的直线距离。或者,也可以是在该字符串中包含的准字符或多个准字符组(所谓的单字符)的个数。
(2)字符串的粗细
例如,在横写的情况下相当于字符串的外接矩形的纵向长度,在竖写的情况下相当于字符串的外接矩形的宽度。或者,在横写的情况下相当于字符串的每个预先设定的距离的纵向长度的统计量(例如,是指平均值、最大频率值、中值、最大值等。以下相同),即,除了空白区域之外的位置的纵向长度统计量,而在竖写的情况下,相当于字符串每个预先设定距离的宽度的统计量,即,除了空白区域之外的位置的宽度的统计量。
(3)字符串的斜率
例如,相当于连结字符行的起点(一个端部)的中心与终点(另一个端部)的中心的直线的斜率。
(4)字符串的间距(字符串中包含的准字符或多个准字符组之间的距离)
例如,相当于在该字符串中包含的准字符中的相邻的准字符(或准字符的外接矩形)间的距离。或者,在多个准字符中,在该准字符的外接矩形重叠的情况下,指重叠的准字符组之间的距离。
(5)字符串的偏斜
例如,相当于连结包含在该字符串中的准字符中的相邻的准字符(或准字符的外接矩形)的中心间的直线的斜率的微分值(也可以是斜率的差值)的合计值。或者,除了斜率之外,也可以是准字符或单字符间的粗细、位置、间距间的微分值。
(6)字符串的长细比
例如,相当于上述字符串的长度与字符串的粗细的比值。
重复进行从结束判别模块110到特征量计算模块160的处理,直至输出结束信号114。
字符串要素保持模块170与字符串形成模块140、字符串输出模块150连接。字符串要素保持模块170存储通过字符串形成模块140形成的1个字符串的字符串要素142(准字符)。并且,在形成1个字符串的情况下(输出观测失败信号144的情况下),通过字符串输出模块150,读取存储的字符串要素142。
准字符保持模块180与结束判别模块110、选择模块130、特征量计算模块160连接。准字符保持模块180存储包含在文档图像内的准字符即字符串要素。并且,通过特征量赋予162对该准字符赋予特征量。另外,通过结束判别模块110、选择模块130读取存储的准字符、及向该准字符赋予的特征量。
图7是表示第1实施方式涉及的处理例的流程图。
在步骤S702中,结束判别模块110判断是否已生成开始字符串要素,在已生成的情况下,进入步骤S704,在其他情况下,结束处理(步骤S799)。
在步骤S704中,范围设定模块120接收开始字符串要素。
在步骤S706中,范围设定模块120根据字符串要素设定范围。
在步骤S708中,选择模块130从已设定的范围中的准字符选择应包含在字符串中的准字符。
在步骤S710中,字符串形成模块140根据选择的准字符形成字符串。
在步骤S712中,字符串形成模块140判断是否未观测到字符串要素,在未观测到的情况下进入步骤S714,在其他情况下进入步骤S718。
在步骤S714中,字符串输出模块150进行字符串输出。
在步骤S716中,特征量计算模块160进行特征量计算。
在步骤S718中,范围设定模块120接收字符串要素。
图8是关于第2实施方式的结构例的概念性模块结构图。第2实施方式具有结束判别模块110、范围设定模块820、选择模块830、字符串形成模块140、字符串输出模块150、特征量计算模块160、字符串要素保持模块170、准字符保持模块180。并且,对与第1实施方式同类的部位标记相同的标号,省略重复的说明。
第2实施方式相对于准字符的集合检测多个字符串。另外,在图9中表示图8的例子所示的实施方式涉及的处理流程例。此外,图8、图9的例子中的虚线部内的模块、处理,是检测1个字符串。
结束判别模块110与范围设定模块820、准字符保持模块180连接。
范围设定模块820与结束判别模块110、选择模块830连接。范围设定模块820进行与第1实施方式中的范围设定模块120相同的处理。并且,向选择模块830而传输合并参数824。所谓合并参数,是指在1个字符串的形成中,用于预测随后应选择的准字符所应存在的范围的参数。例如,相当于在通过字符串形成模块140形成过程中的字符串的特征量。这里的特征量相当于特征量计算模块160计算出的特征量,具体地说,包括上述字符串的长度、字符串的粗细、字符串的斜率、字符串中包含的准字符或多个准字符组之间的距离、字符串偏斜中的任意一个或它们的组合。另外,该特征量向处于形成过程中的字符串赋予。
选择模块830与范围设定模块820、字符串形成模块140、准字符保持模块180连接。选择模块830在第1实施方式的选择模块130进行的处理的基础上,对字符串形成模块140形成过程中的字符串的特征量,和向包含在已形成的字符串中的准字符赋予的特征量进行比较,选择包含在作为对象的字符串中的准字符。即,选择模块830参照合并参数824而选择准字符。另外,所谓成为与合并参数824的比较对象的“已形成的字符串”,是指已经通过字符串形成模块140形成的字符串,相当于通过字符串输出模块160输出的字符串。即,在第1实施方式中,根据向应选择的准字符赋予的特征量进行判断,而在第2实施方式中,通过将向应选择的准字符赋予的特征量与形成过程中的字符串的特征量进行比较,判别是否可以选择准字符。
另外,选择模块830还可以将使用合并参数824的选择与预先设定的阈值参照、或选择前面N个准字符的方式进行组合,而限制所选择的准字符数量。
字符串形成模块140与选择模块830、字符串输出模块150、字符串要素保持模块170连接。
准字符保持模块180与结束判别模块110、选择模块830、特征量计算模块160连接。
图9是表示第2实施方式涉及的处理例的流程图。
在步骤S902中,结束判别模块110判别是否已生成开始字符串要素,在生成的情况下进入步骤S904,在其他情况下结束处理(步骤S999)。
在步骤S904中,范围设定模块820接收开始字符串要素。
在步骤S906中,范围设定模块820根据字符串要素设定范围,将合并参数824传递至选择模块830。
在步骤S908中,选择模块830根据合并参数824,从设定的范围中的准字符选择应包含在字符串中的准字符。
在步骤S910中,字符串形成模块140根据所选择的准字符形成字符串。
在步骤S912中,字符串形成模块140判断是否未观测到字符串要素,在未观测到的情况下进入步骤S914,在其他情况下进入步骤S918。
在步骤S914中,字符串输出模块150进行字符串输出。
在步骤S916中,特征量计算模块160进行特征量计算。
在步骤S918中,范围设定模块820接收字符串要素。
图10是第3实施方式涉及的结构例的概念性模块结构图。第3实施方式的字符串处理装置1000具有:准字符生成模块1010、字符串切出模块1020、准字符保持模块1030。第3实施方式使用第1实施方式或第2实施方式中的任意一个,检测文档图像1008内的字符串。
准字符生成模块1010与字符串切出模块1020、准字符保持模块1030连接。
字符串切出模块1020与准字符生成模块1010、准字符保持模块1030连接。
准字符保持模块1030与准字符生成模块1010、字符串切出模块1020连接。
字符串切出模块1020与第1实施方式或第2实施方式中的任意一个相当。为了进行说明,将第1实施方式或第2实施方式的准字符保持模块180取出,作为准字符保持模块1030图示(即,准字符保持模块1030与准字符保持模块180等价)。
准字符生成模块1010从接收到的文档图像1008提取准字符1014,使准字符保持模块1030存储该准字符1014。在将文档图像1008中的全部准字符提取结束时,将开始信号1012向字符串切出模块1020输出。
此外,图10内的字符串1022与图1、8内的字符串152相当,图10内的特征量赋予1024与图1、8内的特征量赋予162相当,图10内的结束信号1026与图1、8内的结束信号114相当。
图11是第4实施方式的结构例涉及的概念性模块结构图。第4实施方式具有字符串处理装置1000、字符串识别装置1120,并在字符识别中使用第3实施方式。第4实施方式为,字符串识别装置1120接收第3实施方式的字符串处理装置1000的输出即字符串1112(图10内的字符串1022),并进行字符识别。
字符串处理装置1000与字符串识别装置1120连接。
字符串识别装置1120与字符串处理装置1000连接。字符串识别装置1120识别通过字符串处理装置1000的字符串形成模块140形成的字符串1112内的字符,并输出该字符串内的字符识别结果1122。所谓字符识别结果1122,是由每一个单字符相对于字符串1112的位置和文本编码构成。
图12是表示第5实施方式的结构例涉及的概念性模块结构图。第5实施方式具有字符串处理装置1000、偏斜量推定模块1220、偏斜校正模块1230,并在文档图像的偏斜校正中使用第3实施方式。第5实施方式为,偏斜量推定模块1220接收第3实施方式的字符串处理装置1000的输出,偏斜校正模块1230接收偏斜量推定模块1220的输出,对文档图像1208的偏斜进行校正。例如,将第5实施方式内置在带照相机的便携信息处理装置中,利用该照相机拍摄文档,对拍摄结果即文档图像1208进行校正。
字符串处理装置1000与偏斜量推定单元1220、偏斜校正模块1230连接。
偏斜量推定单元1220与字符串处理装置1000、偏斜校正模块1220连接。偏斜量推定模块1220计算出通过字符串处理装置1000的字符串形成模块140形成的字符串的偏斜量。即,从字符串处理装置1000接收字符串1212,推定校正所需的字符串偏斜量1222。
偏斜校正模块1230与字符串处理装置1000、偏斜量推定模块1220连接。偏斜校正模块1230根据通过偏斜量推定模块1220计算出的偏斜量1222,对包含该字符串在内的文档图像1208进行校正。即,偏斜校正模块1230因为以多个字符串的偏斜作为对象,所以如果字符串处理装置1000输出表示已经检测完全部字符串的结束信号1214,则开始进行处理。根据通过偏斜量推定模块1220推定的偏斜量1222,对文档图像1208的偏斜进行校正,并输出偏斜校正文档图像1232。
此外,所谓“根据字符串偏斜”,是指进行校正以消除各个字符串的偏斜统计量。
参照图13,对本实施方式的信息处理装置的硬件结构例进行说明。图13所示的结构,例如是由个人计算机(PC)等构成,表示具有扫描仪等数据读取部1317、打印机等数据输出部1318的硬件结构例。
CPU(Central Processing Unit)1301是控制部,其执行按照记述了上述实施方式中说明的各个模块的执行次序的计算机程序的处理,上述模块包括结束判别模块110、范围设定模块120、选择模块130、字符串形成模块140、字符串输出模块150、特征量计算模块160、范围设定模块820、选择模块830、字符串处理装置1000、准字符生成模块1010、字符串切出模块1020、字符串识别装置1120、偏斜量推定模块1220、偏斜校正模块1230等各个模块。
ROM(Read Only Memory)1302存储CPU 1301所使用的程序或运算参数等。RAM(Random Access Memory)1303存储CPU 1301在执行中使用的程序,或在其执行过程中适当变化的参数等。这两部分通过由CPU总线等构成的主机总线1304彼此连接。
主机总线1304经由网桥1305与PCI(Peripheral Component Interconnect/Interface)总线等外部总线1306连接。
键盘1308、鼠标等定位设备1309是通过操作者操作的输入设备。显示装置1310包括液晶显示或CRT(Cathode Ray Tube)等,将各种信息显示为文本或图像信息。
HDD(Hard Disk Drive)1311内置有硬盘,对硬盘进行驱动,记录或再生通过CPU1301执行的程序或信息。在硬盘中存储成为对象的文档图像、形成的字符串等。此外,存储其他各种数据处理程序等、各种计算机程序。
驱动器1312读取所安装的磁盘、光盘、光磁盘、或半导体存储器等可移动记录介质1313中记录的数据或程序,该数据或程序供给至经由接口1307、外部总线1306、网桥1305、及主机总线1304连接的RAM 1303。可移动记录介质1303也可以作为与硬盘同样的数据记录区域使用。
连接端口1314是连接外部连接设备1315的端口,具有USB、IEEE 1394等连接部。连接端口1314经由接口1307、及外部总线1306、网桥1305、主机总线1304等与CPU 1301等连接。通信部1316与通信回路连接,执行与外部的数据通信处理。数据读取部1317例如是扫描仪,执行文档的读取处理。数据输出部1318例如是打印机,执行文档数据的输出处理。
此外,在上述实施方式中进行1次字符串的提取,但也可以重复进行多次该处理。例如,第2次以后的字符串提取可以从与上一次字符串提取方向相反的方向提取字符串。即,在第2次以后,结束判别模块110检测上一次提取的字符串的终端,作为开始字符串要素112。并且,范围设定模块120设定在与上一次相反的方向选择准字符的范围122。并且,作为结束条件,如果上一次的起点与本次的终点一致,则可以结束,也可以进行预先设定次数的重复处理。
此外,图13所示的信息处理装置的硬件结构表示1个结构例,本实施方式并不限于图13所示的结果,只要是可以执行在本实施方式中说明的模块的结构即可。例如,可以由专用的硬件(例如,特定用途集成电路(Application Specific Integrated Circuit:ASIC等)构成一部分模块,也可以是一部分模块在外部系统内而通过通信回路连接的方式,此外,也可以是图13所示的系统通过多个通信回路连接而彼此协同动作。另外,也可以组装到复印机、传真机、扫描仪、打印机、复合机(具有扫描仪、打印机、复印机、传真机等大于或等于2种任意功能的图像处理装置)等上。
此外,对于说明的程序,可以存储在记录介质中而提供,另外,也可以通过通信单元提供该程序。在这种情况下,例如,对于上述说明的程序,可以理解为“记录程序的计算机可读取记录介质”的发明。
所谓“记录程序的计算机可读取记录介质”,是指可以利用用于程序安装、执行、程序流通等的,可以通过记录有程序的计算机进行读取的记录介质。
此外,作为记录介质,例如,包含数字通用光盘(DVD)、DVD协会制定的标准即“DVD-R、DVD-RW、DVD-RAM等”、由DVD+RW制定的标准即“DVD+R、DVD+RW等”、光盘(CD)、只读存储器(CD-ROM)、一次写入CD(CD-R)、可擦写CD(CD-RW)等、蓝光光盘(Blu-ray Disc(注册商标))、光磁盘(MO)、闪盘(FD)、磁带、硬盘、读取专用存储器(ROM)、电可擦除只读存储器(EEPROM(注册商标))、随机存储器(RAM)、SD(Secure Digital)存储卡等。
并且,上述程序或其一部分可以记录在上述记录介质中保存或使其流通。另外,可以通过通信,例如,使用局域网(LAN)、城域网(MAN)、广域网(WAN)、互联网、内联网、外联网等使用的有线网络、或无线通信网络,及其组合等的传输介质进行传输,另外,也可以通过载波进行传输。
此外,上述程序可以是其他程序的一部分,或者,也可以是与其他程序一起记录在记录介质中。另外,也可以分开记录在多个记录介质。另外,也可以进行压缩或加密等,只要可以复原即可,可以用任意方式记录。
Claims (5)
1.一种信息处理装置,其特征在于,具有:
准字符选择单元,其从作为字符串构成要素的准字符的集合即字符串要素内,选择在作为对象的字符串中包含的准字符;
字符串形成单元,其通过将由上述准字符选择单元选择的准字符包含在上述作为对象的字符串中,从而形成字符串;以及
特征量赋予单元,其计算表示由上述字符串形成单元形成的字符串的字符串可能性的特征量,将该特征量向包含在该字符串中的准字符赋予,
作为成为由上述准字符选择单元选择的对象的准字符,包含由上述字符串形成单元形成的字符串中的准字符,
上述准字符选择单元根据由上述特征量赋予单元向准字符赋予的特征量,选择在上述作为对象的字符串中包含的准字符,
上述准字符选择单元,对由上述字符串形成单元形成的过程中的字符串的特征量和向在已经形成的字符串中包含的准字符赋予的特征量进行比较,选择在作为对象的字符串中包含的准字符。
2.如权利要求1所述的信息处理装置,其特征在于,
还具有范围设定单元,其设定可由上述准字符选择单元从上述字符串要素内选择的准字符所存在的范围,
上述准字符选择单元从处于由上述范围设定单元设定的范围中的字符串要素内,选择在作为对象的字符串中包含的准字符。
3.如权利要求1或2所述的信息处理装置,其特征在于,
上述特征量赋予单元计算出字符串的长度、字符串的粗细、字符串的斜率、包含在字符串中的准字符或多个准字符组之间的距离、字符串的偏斜、字符串的长细比中的任意一个或它们的组合,作为特征量。
4.如权利要求1或2所述的信息处理装置,其特征在于,
还具有字符识别单元,其识别由上述字符串形成单元形成的字符串内的字符,并输出字符识别结果。
5.如权利要求1或2所述的信息处理装置,其特征在于,还具有:
偏斜计算单元,其计算出由上述字符串形成单元形成的字符串的偏斜;以及
校正单元,其根据由上述偏斜计算单元计算出的偏斜,对包含上述字符串的文档的偏斜进行校正。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012-000231 | 2012-01-04 | ||
JP2012000231A JP5935324B2 (ja) | 2012-01-04 | 2012-01-04 | 情報処理装置及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103198291A CN103198291A (zh) | 2013-07-10 |
CN103198291B true CN103198291B (zh) | 2017-11-28 |
Family
ID=48720829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210281080.3A Active CN103198291B (zh) | 2012-01-04 | 2012-08-08 | 信息处理装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5935324B2 (zh) |
CN (1) | CN103198291B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1258894A (zh) * | 1998-12-16 | 2000-07-05 | 富士通株式会社 | 用于识别字符的装置和方法 |
CN101520851A (zh) * | 2008-02-29 | 2009-09-02 | 富士通株式会社 | 字符信息识别装置和方法 |
CN102222241A (zh) * | 2010-04-19 | 2011-10-19 | 日本电产三协株式会社 | 字符串识别装置及字符串识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3585143B2 (ja) * | 1996-07-17 | 2004-11-04 | 日本電信電話株式会社 | 文字列抽出方法および装置 |
JPH1196288A (ja) * | 1997-09-18 | 1999-04-09 | Hitachi Ltd | 文字行方向検出方法および文字行方向検出装置 |
JP4395188B2 (ja) * | 1997-11-28 | 2010-01-06 | 富士通株式会社 | 文書画像認識装置および文書画像認識プログラムの記憶媒体 |
JP2004038530A (ja) * | 2002-07-03 | 2004-02-05 | Ricoh Co Ltd | 画像処理方法、同方法の実行に用いるプログラム及び画像処理装置 |
JP5488077B2 (ja) * | 2010-03-15 | 2014-05-14 | オムロン株式会社 | 文字列検知装置、文字評価装置、画像処理装置、文字列検知方法、文字評価方法、制御プログラムおよび記録媒体 |
-
2012
- 2012-01-04 JP JP2012000231A patent/JP5935324B2/ja active Active
- 2012-08-08 CN CN201210281080.3A patent/CN103198291B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1258894A (zh) * | 1998-12-16 | 2000-07-05 | 富士通株式会社 | 用于识别字符的装置和方法 |
CN101520851A (zh) * | 2008-02-29 | 2009-09-02 | 富士通株式会社 | 字符信息识别装置和方法 |
CN102222241A (zh) * | 2010-04-19 | 2011-10-19 | 日本电产三协株式会社 | 字符串识别装置及字符串识别方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2013140487A (ja) | 2013-07-18 |
CN103198291A (zh) | 2013-07-10 |
JP5935324B2 (ja) | 2016-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7925082B2 (en) | Information processing apparatus, information processing method, computer readable medium, and computer data signal | |
US8059896B2 (en) | Character recognition processing system and computer readable medium storing program for character recognition processing | |
US8391607B2 (en) | Image processor and computer readable medium | |
CN103425974A (zh) | 图像处理装置和图像处理方法 | |
CN103995816B (zh) | 信息处理设备和信息处理方法 | |
US20150213332A1 (en) | Image processing apparatus, non-transitory computer readable medium, and image processing method | |
US9171218B2 (en) | Image processing apparatus, image processing method, and computer readable medium that recognize overlapping elements in handwritten input | |
JP2015169978A (ja) | 画像処理装置及び画像処理プログラム | |
US11670067B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
RU2595557C2 (ru) | Выявление снимков экрана на изображениях документов | |
US8749854B2 (en) | Image processing apparatus, method for performing image processing and computer readable medium | |
CN103198291B (zh) | 信息处理装置 | |
US9378428B2 (en) | Incomplete patterns | |
JP6303671B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5720182B2 (ja) | 画像処理装置及び画像処理プログラム | |
US20150043832A1 (en) | Information processing apparatus, information processing method, and computer readable medium | |
JP6187307B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP2017010187A (ja) | 画像処理装置及び画像処理プログラム | |
JP6007720B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP4882929B2 (ja) | 画像処理装置及び画像処理プログラム | |
US8736912B2 (en) | Image processing apparatus, image processing method and computer readable medium | |
CN102486828A (zh) | 图像处理设备和图像处理方法 | |
JP6229254B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2017111720A (ja) | 画像処理装置及び画像処理プログラム | |
CN102456139A (zh) | 图像处理设备和图像处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: Tokyo Patentee after: Fuji film business innovation Co.,Ltd. Address before: Tokyo Patentee before: Fuji Xerox Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |