CN101814141A - 存储介质、字符识别方法以及字符识别设备 - Google Patents
存储介质、字符识别方法以及字符识别设备 Download PDFInfo
- Publication number
- CN101814141A CN101814141A CN201010120503A CN201010120503A CN101814141A CN 101814141 A CN101814141 A CN 101814141A CN 201010120503 A CN201010120503 A CN 201010120503A CN 201010120503 A CN201010120503 A CN 201010120503A CN 101814141 A CN101814141 A CN 101814141A
- Authority
- CN
- China
- Prior art keywords
- pattern
- target pattern
- character
- monocase
- summit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19013—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
- G06V30/1902—Shifting or otherwise transforming the patterns to accommodate for positional errors
- G06V30/1904—Shifting or otherwise transforming the patterns to accommodate for positional errors involving a deformation of the sample or reference pattern; Elastic matching
- G06V30/19047—Shifting or otherwise transforming the patterns to accommodate for positional errors involving a deformation of the sample or reference pattern; Elastic matching based on a local optimisation criterion, e.g. "snakes", i.e. active contour models of the pattern to be recognised
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种存储介质、字符识别方法以及字符识别设备,其中该存储介质存储用于使计算机执行如下过程的字符识别程序,所述过程包括:将被看作一个字符的目标图案的结构与存储在存储部件中的单字符图案的结构进行比较;以及基于比较的结果,确定目标图案是否是包括多个字符的图案。
Description
相关申请的交叉引用
本申请基于并且要求2009年2月25日提交的在先日本专利申请第2009-42278号的优先权,在此通过引用将其全部内容合并于此。
技术领域
这里所描述的各个实施例涉及存储字符识别程序的存储介质、字符识别方法、以及字符识别设备。
背景技术
光学上读取手写或者印刷字符,并且将所读取的字符与之前存储的图案进行比较以便识别所读取的字符的OCR(光学字符阅读器)功能是公知的。
要读取的字符串可包括与另一字符粘连(touching)的粘连字符以及作为单个字符的孤立字符。
典型的OCR功能包括确定图案是可与另一字符粘连的粘连图案候选还是非常有可能是单字符的孤立字符图案候选,以便增加识别效率或者避免由于字符提取候选数量的增加的提取错误。
如果确定图案是孤立字符图案候选,则直接对该图案进行单字符识别。
另一方面,如果确定图案是粘连图案候选,则对该图案进行分割(提取和识别)。
在已知的用于确定图案是否是粘连图案候选的方法当中包括确定沿字符串方向的长度等于或者大于阈值的目标图案是粘连图案候选的方法以及确定如下目标图案是粘连图案候选的方法:在该目标图案中,W/H>K,其中W是图案的宽度,H是其高度,并且K是常数。
上述方法使用沿字符串方向的长度一般大于孤立字符图案长度的粘连图案的特性。
然而,存在如下情况:在该情况下,尽管图案是粘连图案,但是不能基于沿字符串方向的长度或者宽高比(W/H)将该图案与孤立字符图案相区分。在该情况下,不能确定图是粘连图案候选,从而引起错误的字符识别。
如果降低阈值以避免这种错误确定,则在某种程度上增加了确定图案是粘连图案候选的概率。然而,相应地增加了粘连图案候选的数量。因此,要提取的字符数量增加,从而可能会选择错误的分割结果。
发明内容
一种存储用于使计算机执行如下过程的字符识别程序的存储介质,该过程包括:将被看作单字符的目标图案的结构与存储在存储部件中的单字符图案的结构进行比较;以及基于比较的结果确定目标图案是否是包括多个字符的图案。
将利用尤其在权利要求中指出的元件和组合来实现并且获得各个实施例的目的和优点。
如所声明的那样,要理解的是,上述概括描述和以下的详细描述都是示例性的和说明性的,并且不受各个实施例限制。
附图说明
图1是示意性地示出根据本发明实施例的字符识别设备的图;
图2是示出字符识别设备的示例硬件构造的图;
图3是示出字符识别设备的功能的功能框图;
图4示出字符识别字典的数据构成的图;
图5是示出变形模型图的数据构成的图;
图6是示出变形模型图创建部件的构造的图;
图7A是示出图的整形的图;
图7B是示出图的整形的图;
图7C是示出图的整形的图;
图7D是示出图的整形的图;
图7E是示出图的整形的图;
图8是示出由变形模型图显示部件执行的过程的图;
图9是示出粘连图案候选确定部件的构造的图;
图10是示出粘连图案候选确定过程的流程图;
图11A是示出G图示例的图;
图11B是示出执行匹配的示例的图;
图11C是示出执行匹配的示例的图;
图11D是示出执行匹配的另一示例的图;
图12是示出最高匹配度的图;
图13是示出图的边长度的图;
图14是示出变形模型图的匹配度的图;以及
图15是示出变形模型图的匹配度的图。
具体实施方式
在下文中,将参照附图详细描述本发明的各个实施例。
首先,将描述根据实施例的字符识别设备,然后将更具体地描述该实施例。
图1是示意性地示出根据该实施例的字符识别设备的图。
字符识别设备(计算机)1用作比较装置2和确定装置3。比较装置2将被看作是单字符的图案的结构与存储在存储部件4中的单字符图案结构进行比较。单字符图案结构是预先准备的,并且如果目标图案是单字符,则使用单字符图案结构来识别该目标图案。存储部件4可设置在字符识别设备1中或者设置在该设备外面。
例如,图1示出了自由地写在非框架区域中的目标图案5,其中没有印刷单字符框架,并且其中手写“2”与手写数字“6”粘连。目标图案5是被看作是单字符的图案,尽管该图案是数字“2”与数字“6”粘连的图案。
目标图案5根据稍后要描述的规则进行整形,并且用作具有顶点和边的结构6。
在图1中,存储部件4存储三个用于识别数字“6”的单字符图案结构4a、4b和4c。
比较装置2将结构6与单字符图案结构4a、4b和4c进行比较。例如,比较装置2确定结构6是否包括具有与结构4a、4b和4c中的每个的部分相同形状的部分。
在图1中,比较装置2确定结构6是否包括具有与结构4b的部分相同形状的部分。然后,比较装置2计算结构4b与结构6匹配的程度作为相似度。
基于由比较装置2进行的比较的结果,确定装置3确定目标图案是否是单字符。
在图1中,确定装置3使用相似度“0.67”以及大小信息(图案的宽度与其高度的比率)确定目标图案5是否是单字符,其中相似度“0.67”是由比较装置2进行的比较的结果。例如,如果相似度“0.67”等于或者高于预定阈值并且如果上述比率等于或者高于预定阈值,则确定装置3确定目标图案5是单字符。否则,确定装置3确定目标图案5是粘连图案。
在图1中,确定目标图案5是粘连图案。
如所看到的那样,字符识别设备1可以通过比较结构而准确地确定字符是否是粘连图案。
在下文中,将更具体地描述实施例。
图2是示出字符识别设备的示例硬件构造的图。
整个字符识别设备10由CPU(中央处理单元)101控制。经由总线109连接到CPU 101的有RAM(随机存取存储器)102、硬盘驱动器(HDD)103、图形处理单元104、输入接口105和106、外部辅助存储单元107、以及通信接口108。
RAM 102临时存储要由CPU 101执行的OS(操作系统)程序和应用程序中的至少一些。另外,RAM 102存储由CPU 101执行的处理所需的各种类型的数据。HDD 103存储OS和应用程序。另外,HDD 103存储程序文件。
连接到图形处理单元104的是监视器104a。图形处理单元104根据CPU 101发出的命令在监视器104a的屏幕上显示图像。连接到控制部件105的是键盘105a和鼠标105b。输入接口105将从键盘105a或者鼠标105b发送的信号经由总线109发送到CPU 101。
输入接口106连接到图像扫描仪106a。输入接口106将从图像扫描仪106a发送的信号(例如,通过将表格图像转换成电子数据获得的图像信号)经由总线109发送到CPU 101。
外部辅助存储单元107读取写入到存储介质中的信息,或者将信息写入到存储介质中。外部辅助存储单元107可读或者可写的存储介质的示例包括磁存储单元、光盘、磁光存储介质、以及半导体存储器。磁存储单元的示例包括HDD、软盘(FD)、以及磁带。光盘的示例包括DVD(数字多功能盘)、DVD-RAM、CD-ROM(致密盘只读存储器)、CD-R(可记录)/CD-RW(可重写)。磁光存储介质的示例包括MO(磁光盘)。
通信接口108连接到网络30。通信接口108经由网络30与其它计算机进行发送或者接收数据。
上述硬件构造可以实现根据该实施例的处理功能。具有上述硬件构造的字符识别设备10具有以下功能。
图3是示出字符识别设备的功能的功能框图。
字符识别设备10包括二值化部件11、线提取部件12、标注部件13、字符识别字典存储部件14、字符识别部件15、变形模型图创建部件16、变形模型图存储部件17、粘连图案候选确定部件18、粘连图案分割部件19、以及输出部件20。
二值化部件11对在图像扫描仪106a将表格图像转换成电子数据时获得的图像进行二值化。
线提取部件12从由二值化部件11二值化的表格图像提取字符的线(字符线)。在下文中,包括在所提取的字符线中的字符图案将被称作“目标图案”。
标注部件13对目标图案的不同连通构件进行标注(编号)。此时,如果必要,标注部件13检查连接构件的外接矩形之间的重叠,以组合标注。
字符识别字典存储部件14存储用于字符识别的字典。
字符识别部件15读取存储在字符识别字典存储部件14中的字符识别字典,以对与每个标注对应的目标图案执行字符识别。
变形模型图创建部件16创建针对每个字符类别的变形模型图,并且将所创建的变形模型图存储在变形模型图存储部件17中,其中字符类别用于确定目标图案是否是粘连图案候选。稍后将详细描述变形模型图及其创建方法。
基于由字符识别部件15对目标图案执行的字符识别的结果,粘连图案候选确定部件18使用存储在变形模型图存储部件17中的变形模型图,确定目标图案是否是粘连图案候选。
如果确定了目标图案是粘连图案候选,则粘连图案分割部件19检测目标图案中的粘连部分,并且提取该粘连部分,以获得目标图案的识别结果。
输出部件20将目标图案的字符识别结果输出到监视器104a。
接下来,将描述存储在字符识别字典存储部件14中的字符识别字典的数据构成。
图4是示出字符识别字典的数据构成的图。
在该实施例中,示出了将数据存储为如表中所列出那样的示例。
在数据表14a中,针对每个字符类别设置变形模型图的数量。另外,每个变形模型图被分配了用于标识变形模型图的编号。针对每个变形模型图设置模型顶点数量、模型边数量、模型顶点邻接矩阵、以及模型顶点/边连接矩阵。
模型顶点邻接矩阵指的是使用“1”和“2”表示顶点间邻接关系的矩阵。例如,当顶点数量是“n”时,模型顶点邻接矩阵是具有n行和n列的矩阵。
模型顶点/边连接矩阵指的是使用“0”和“1”表示顶点/边连接关系的矩阵。例如,当顶点数量是“n”并且边数量是“m”时,模型顶点/边连接矩阵是具有n行和m列的矩阵。
接下来,将描述存储在变形模型图存储部件17中的变形模型图的数据构成。
图5是示出变形模型图的数据构成的图。
在该实施例中,在数据表17a中,针对每个字符类别设置模板(字典)的数量。另外,针对每个模板设置用于标识向量的分量的信息。
接下来,将详细描述变形模型图创建部件16的构造。
图6是示出变形模型图创建部件的构造的图。
变形模型图创建部件16包括字符类别指定接收部件161、数据读取部件162、字符线宽估计部件163、线窄化部件164、图化部件165、图整形部件166、变形模型图创建/登记部件167、变形模型图显示部件168、删除指定接收部件169、以及不正确变形模型图删除部件170。
字符类别指定接收部件161接收由用户做出的字符类别的指定(输入),其中用户期望创建关于该字符类别的变形模型图。
数据读取部件162例如从预先准备的数据库读取由字符类别指定接收部件161接收的字符类别的用于学习的二进制单字符图像数据。在下文中,包括在单字符图像数据中的字符图案将被称作“单字符图案”。
字符线宽估计部件163估计单字符图案的字符线的宽度。
线窄化部件164使单字符图案的线窄化。
图化部件165从线已被线窄化部件164窄化的单字符图案提取顶点和顶点间的边。然后,获得在所提取的边和顶点之间的连接关系和邻接关系,以便用图表示单字符图案。
图整形部件166根据预定规则对图化部件165绘制的图进行整形,以便防止每个字符类别的变形模型图的数量增加以及由此产生的执行匹配的频率的增加。
变形模型图创建/登记部件167无条件地将第一个单字符图案的图登记为变形模型图。至于第二个和之后的单字符图案图,变形模型图创建/登记部件167将这些图与每个所登记的变形模型图进行匹配。如果任一图案图都不满足匹配条件,则变形模型图创建/登记部件167确定该图案图是不同的变形,并且将其登记为新的变形模型图。稍后将详细描述该过程。
变形模型图显示部件168显示被登记为指定字符类别的变形模型图的所有变形模型图,并且在变形模型图附近显示用于删除的复选框。
删除指定接收部件169接收基于由用户使用鼠标105b等对复选框做出的勾选而指定的删除信息。
基于由删除指定接收部件169接收的删除信息,不正确变形模型图删除部件170从所登记的变形模型图数据删除与指定了删除的变形模型图对应的数据。另外,不正确变形模型图删除部件170修改剩余变形模型图的模型编号。
接下来,将详细描述由变形模型图创建部件16执行的过程。
<图化部件>
图化部件165使用图表示由线窄化部件164获得的窄化单字符图案。具体地,首先,从窄化的单字符图案获得顶点坐标和度数。接下来,追踪顶点间的边,以获得边上的点的坐标、边的长度、以及连接到边的顶点的编号。另外,获得连接到顶点的边的编号。
使用关于边和顶点的信息,计算顶点邻接矩阵。邻接矩阵是以顶点数×顶点数表示的矩阵。如果顶点和顶点由边连接,则顶点具有值“1”。否则,顶点具有值“0”。这些相当于图理论的一般定义。
具体地,图化部件165计算以下数据,并且将所获得的多条数据存储在为这些数据准备的结构中。
(1)图信息
对形成图的边和顶点的编号、顶点邻接矩阵、以及边/顶点连接矩阵进行计算,并且将其存储在图信息结构中。
(2)边信息
对每条边的长度、连接到每条边的两个顶点的编号、以及每个边的轨迹的坐标进行计算,并且将其存储在边信息结构中。
(3)顶点信息
对每个顶点的坐标和度数、以及连接到每个顶点的边的编号进行计算,并且将其存储在顶点信息结构中。
该结构可被构造成例如如下。
<边信息结构>
struct Edge_inf{
short*vertexNo; 所连接的顶点编号的矩阵
short*xcood; 边上的点(轨迹)的x坐标矩阵指针
short*ycood; 边上的点(轨迹)的y坐标矩阵指针
short length; 边的长度
short vn1,vn2;连接到边的两个顶点的编号
};
<顶点信息结构>
Struct Vertex_inf{
short x,y; 顶点的x、y坐标
short degree; 顶点的度数
short*edgeNo;
所连接的边的编号的矩阵指针
short counter;追踪边时使用的计数器};
<图信息结构>
struct Graph_inf{
Struct Edge_inf*edge; 边信息结构指针
short edgeNo; 边的编号
Struct Vertex_inf*vertex;顶点信息结构指针
short vertexNo; 顶点的编号
short *smatrix; 连接矩阵指针
short *bmatrix; 邻接矩阵指针};
<图整形部件>
图整形部件166对从单字符图案获得的图进行整形。
参考Filatov,Gitis,和Kil,″Graph-based Handwritten Digit StringRecognition″,Third International Conference on Document Analysis andRecognition(ICDAR′95),卷2,第845至848页,章节5.1中描述的图变形技术对图进行整形。根据本实施例的图变形技术不同于在上述文献中描述的技术之处在于其将具有度数2的顶点添加到图的环。
用于整形的规则如下。
图7A至7E是示出图的整形的图。图整形部件166对由图化部件165获得的具有边和顶点的结构执行删除、分割、以及添加,以便重新计算邻接矩阵和连接矩阵。
具体地,如图7A所示,由于由线窄化部件164执行的处理,因此字符线上的凹凸可能在单字符图案图上产生凸起。必须消除这些凸起。
具体地,从单字符图案图删除具有某一长度或者更短长度并且连接到具有度数“1”的顶点(端点)的所有边。在该情况下,消除凸起直至字符线宽大约减小到之前计算的宽度。
在图7B所示的示例中,边e3变成删除的对象。边e3连接到具有度数“3”的顶点v2以及具有度数“1”的顶点v3。
在该情况下,删除具有度数“1”的顶点v3。随后,从另一顶点的度数减去“1”。即,如图7C所示,删除对应于边e3的边信息结构,并且对应于顶点v2的顶点信息结构的成员的度数从“3”减小到“2”。另外,从所连接边的编号的矩阵消去所删除的边的编号。这是因为所连接的边的数量减少了。
接下来,消去其度数在上述过程中变成“2”的所有顶点。
在图7D所示的示例中,消去顶点v2,并且边e4并入边e2。即,删除对应于顶点v2的顶点信息结构,并且合并边e2和e4的边信息结构。
接下来,将具有度数“2”的两个任意顶点添加到环上的任意位置,以使得一条边必然连接到两个顶点。因此,环的边被分成三条边。
在图7E所示的示例中,具有度数“2”的顶点v2和v3被添加到环,并且边e1被分成边e1a、边e3、以及边e4。即,创建对应于顶点v2和v3的顶点信息结构,并且其位置坐标被定义为边e1的边信息结构的边上的点当中的任意两点。因此,对应于边e1的边信息结构被分成对应于边e1a、e3和e4的三个边信息结构。
最后,根据所获得的边信息结构和顶点信息结构重新计算邻接矩阵和连接矩阵。
接下来,将详细描述由变形模型图创建/登记部件167执行的过程。
<变形模型图创建/登记部件>
变形模型图创建/登记部件167无条件地将第一个整形图案图登记为目标字符类别的变形模型图,并且将对应于该字符类别的变形模型图的数量设置为“1”。
至于第二个和之后的图案图,执行与在第一图案图上执行的过程相同的过程,直至完成图的整形。然而,变形模型图创建/登记部件167确定第二个和之后的图案图是否与所登记的变形模型图同构。如果任一图案图不是同构的,则变形模型图创建/登记部件167将该图案图登记为新的变形模型图,并且使变形模型图的数量增加“1”。“同构”意味着图案图与任一变形模型图完全匹配。
<变形模型图显示部件>
图8是示出由变形模型图显示部件执行的过程的图。
在对所有创建目标图案执行了上述过程并且创建且登记了变形模型图之后,如图8所示,变形模型图显示部件168显示被登记为指定字符类别(图8中的“6”)的变形模型图的所有变形模型图以及用于删除的复选框。
这是因为在诸如具有噪声(诸如污点)的图案与用于学习的创建目标图案混合或者错误混合另一字符类别的图案的情况下,创建了不正确的变形模型图,并且因此必须消除。
如上所述,当删除指定接收部件169接收到由用户使用鼠标105b等对不正确的变形模型图的删除复选框所做出的勾选时,其将该变形模型图指定为删除对象。
不正确变形模型图删除部件170从在变形模型图创建/登记部件167中登记的变形模型图中删除与被指定为删除对象的变形模型图对应的数据。同时,不正确模型图删除部件170修改剩余的变形模型图的模型编号。
图8示出了由变形模型图创建/登记部件167所创建的、关于字符类别“6”的四个变形模型图。
从图8的左边开始的第三变形模型图是已被错误混合的不同字符类别的单字符图像。从左边开始的第四变形模型图是根据其上具有噪声的图案创建的变形模型图。
如果接收到用户对第三和第四变形模型图的复选框所做出的勾选,则从由变形模型图创建/登记部件167登记的变形模型图删除相应的变形模型图。结果,第一和第二变形模型图被看作对应于字符类别“6”的变形模型图。注意,图1所示的单字符图案结构4a、4b和4c对应于删除后剩下的变形模型图。
接下来,将描述粘连图案候选确定部件18的构造。
图9是示出粘连图案候选确定部件的构造的图。
粘连图案候选确定部件18包括变形模型图读取部件181、大小计算部件182、字符线宽估计部件183、线窄化部件184、图化部件185、图整形部件186、模型匹配部件187、以及确定部件188。
变形模型图读取部件181读取对应于字符识别结果中的第一位置字符类别(认为最可能的字符类别)的变形模型图。例如,如果字符识别结果中的第一位置字符类别是“6”,则变形模型图读取部件181读取“6”的变形模型图。
大小计算部件182获得目标图案的宽度、高度、以及宽高比。
字符线宽估计部件183估计目标图案的字符线的宽度。
线窄化部件184、图化部件185、以及图整形部件186具有与线窄化部件164、图化部件165、以及图整形部件166的功能类似的功能。
具体地,线窄化部件184使目标图案的线窄化。
图化部件185从窄化的图案提取顶点和顶点间的边。然后,图化部件185获得所提取的边和顶点间的连接关系和邻接关系,以便绘制图。
图整形部件186根据预定规则对由图化部件185绘制的图进行整形。
模型匹配部件187将对应于字符识别结果中的第一位置字符类别的所有变形模型图与由图整形部件186整形的图进行匹配。具体地,模型匹配部件187计算由图整形部件186整形的图和每个变形模型图之间的相似度,并且从算出的相似度当中获得最高匹配度(最高相似度)。
基于由模型匹配部件187计算的变形模型图的匹配度以及由大小计算部件182计算的目标图案的宽高比,确定部件188确定目标图案是否是粘连图案候选。
接下来,将描述由粘连图案候选确定部件18执行的过程(粘连图案候选确定过程)。
图10是示出粘连图案候选确定过程的流程图。
首先,变形模型图读取部件181接收由字符识别部件15执行的字符识别的结果(步骤S1)。
接下来,变形模型图读取部件181从变形模型图存储部件17读取对应于字符识别结果中的第一位置字符类别的变形模型图(步骤S2)。
接下来,大小计算部件182、字符线宽估计部件183、线窄化部件184、图化部件185、以及图整形部件186执行其过程,以便创建作为目标图案的整形结果的图(步骤S3)。
接下来,模型匹配部件187计算最高匹配度(步骤S4)。
接下来,基于算出的最高匹配度和宽高比,确定部件188确定目标图案是否是粘连图案候选(步骤S5)。
如果目标图案是粘连图案候选(步骤S5为“是”),则确定部件188确定目标图案是粘连图案候选(步骤S6)。
相反,如果目标图案不是粘连图案候选(步骤S5为“否”),则确定部件188确定目标图案是单字符候选(步骤S7)。
粘连图案候选确定过程在这里结束。
接下来,将具体描述在步骤S4中由模型匹配部件187执行的过程(模型匹配过程)以及在步骤S5中由确定部件188执行的过程(确定过程)。
<模型匹配过程>
作为示例,将使用利用Ullmann,″An Algorithm for SubgraphIsomorphism,″Journal of the Association for Computing Machinery(1976),卷23,No.1,第31至42页中描述的子图同构确定的匹配技术。该技术是用于检查输入图案图的子图是否与变形模型图同构的技术。
存在多种用于构造模型图的技术。在该示例中,一个变形模型图具有信息:模型的编号;模型的边数量;模型的顶点数量;模型的顶点连接矩阵;模型的顶点/边邻接矩阵;以及模型的字符类别。例如,可使用仅包括以下结构struct Model_inf所示的邻接关系作为信息的图作为该变形模型图。
struct Model_inf{
short model ID;模型编号
short edgeNo; 边数量
short vertexNo; 顶点数量
short *smatrix;连接矩阵指针
short *bmatrix;邻接矩阵指针
short category; 模型的字符类别
};
模型匹配部件187使用根据目标图案创建的图的顶点邻接矩阵和变形模型图的顶点邻接矩阵执行匹配。具体地,模型匹配部件187计算根据目标图案创建的图和变形模型图之间的同构部分。然后,模型匹配部件187获得作为匹配结果的对应关系矩阵。
在该情况下,一个变形模型图可与根据目标图案创建的图的多个子图同构。因此,匹配结果采取如下矩阵形式:在该矩阵中,变形模型图的模型编号、匹配的数量、以及与根据目标图案创建的图匹配的变形模型图的顶点相互对应。
图11A至11D是示出执行匹配的示例的图。
在下文中,根据目标图案创建的图将以“G”表示,对应于目标图案的字符识别结果中的第一位置字符类别C的变形模型图的数量将以“NC”表示,并且变形模型图将以gC i(i=1,...,NC)表示。
在图11中,将图G与对应于目标图案的字符识别结果中的第一位置字符类别C的变形模型图进行比较。
图11A所示的图G的顶点邻接矩阵Sp以及图11B所示的变形模型图g6 1的顶点邻接矩阵Sm以下面公式(1)和(2)表示。
公式1
公式2
顶点邻接矩阵Sp的大小是图G的顶点数量乘以顶点数量。顶点邻接矩阵Sm的大小是变形模型图g6 1的顶点数量乘以顶点数量。在每个矩阵中,当顶点由边来链接时,顶点和顶点具有值“1”;否则,它们具有值“0”。例如,图11A所示的图G的顶点v1(第一行)通过边仅链接到顶点v2。因此,仅第二列是“1”,而其它列都是“0”。顶点v2(第二行)通过边链接到顶点v1、v3和v5。因此,第一、第三和第五列是“1”,而其它列都是“0”。
对于对应关系矩阵,其行数对应于变形模型图的顶点数量,并且其列数对应于目标图的顶点数量。在对应关系矩阵中,如果顶点和顶点相互对应,则顶点以“1”表示;否则,它们以“0”表示。
当在图11A所示的图G和图11B所示的变形模型图g6 1之间执行子图同构确定时,获得图11C所示的匹配结果。在图11C中,粗边表示与变形模型图g6 1匹配的部分。
图11C示出了如下匹配结果:在该匹配结果中,顶点V1对应于顶点v1,顶点V2对应于顶点v2,顶点V3对应于顶点v3,并且顶点V4对应于顶点v5。
尽管在图11C中未示出,但是也可以获得如下匹配结果:在该匹配结果中,顶点V1对应于顶点v1,顶点V2对应于顶点v2,顶点V3对应于顶点v5,并且顶点V4对应于顶点v3。
类似地,图11C示出了如下匹配结果:在该匹配结果中,顶点V1对应于顶点v6,顶点V2对应于顶点v5,顶点V3对应于顶点v2,并且顶点V4对应于顶点v3。
尽管在图11C中未示出,但是也可以获得如下匹配结果:在该匹配结果中,顶点V1对应于顶点v6,顶点V2对应于顶点v5,顶点V3对应于顶点v3,并且顶点V4对应于顶点v2。
如所看到的那样,在图11C所示的示例中,匹配的数量是“4”。所得到的对应关系矩阵M1至M4以公式(3)至(6)表示。矩阵M1是表示通过执行第一(k=1)子图同构确定获得的匹配结果的对应关系矩阵。矩阵M2是表示通过执行第二(k=2)子图同构确定获得的匹配结果的对应关系矩阵。矩阵M3是表示通过执行第三(k=3)子图同构确定获得的匹配结果的对应关系矩阵。矩阵M4是表示通过执行第四(k=4)子图同构确定获得的匹配结果的对应关系矩阵。
公式3
公式4
公式5
公式6
匹配结果(即,匹配模型的编号、匹配的数量、以及对应于匹配数量的对应关系矩阵)分别存储在匹配结果存储结构中。匹配结果存储结构可以是例如以下面struct Matched_result表示的结构。
struct Matched_result{
short model ID; 模型编号
short No; 匹配数量
short **mmatrix;No个顶点对应关系矩阵
};
接下来,基于所获得的匹配结果,模型匹配部件187获得图G和对应于字符识别结果中的第一位置字符类别的每个变形模型图之间的匹配度,并且获得与每个变形模型图的匹配度中的最高匹配度。另外,模型匹配部件187从变形模型图当中获得具有最高值的变形模型图,并且将该变形模型图的最高值看作最高匹配度。
图12是示出最高匹配度的图。
为了描述最高匹配度,示出了“6”的另一变形模型图g6 2。
首先,将描述获得与对应于字符识别结果中的第一位置字符类别的模型的匹配度的过程。
假设图G和第i个变形模型图gC i之间的匹配数量是ni,则在图G和变形模型图gC i之间执行第k次子图同构确定时获得的匹配度被定义为“mCik(k=1,...,ni)”。
如果图G的边或者顶点的数量小于对应于字符类别C的第i个变形模型图gC i的边或者顶点的数量,则匹配度mCik是“-1”。否则,匹配度mCik是在图G和对应于字符类别C的第i个变形模型图gC i之间执行第k次子图同构确定时匹配的边的长度之和与图G的所有边的长度之和的比率。
如果在图G和变形模型图gC i之间执行第k次子图同构确定时匹配的边的长度之和由“Iik”来表示,并且图G的所有边的长度之和由“L”来表示,则建立以下公式(7)和(8)。
mCik=lik/L…(7)
0≤mCik≤1,mCik=-1…(8)
图G的边的长度是之前获得的。另外,边和顶点之间的连接关系是之前获得的。例如,之前已知顶点V1和V2之间存在边e1。因此,通过将这些值代入公式,获得匹配度mCik。
图13是示出图的边长度的图。
如图13所示,存储对应于每个边标注的长度。
图14和15是示出变形模型图的匹配度的图。
如上所述,当使用子图同构确定技术时,变形模型图g6 1和图G的子图之间的匹配数量是“4”。因此,针对每个匹配编号(k)计算匹配边的长度之和。
例如,根据对应关系矩阵M1,可以理解对应顶点是顶点v1、v2、v3和v5。因此,匹配边的长度之和l11是顶点v1和2之间的边e1、顶点v2和v3之间的边e2、顶点v3和v5之间的边e3、以及顶点v5和v2之间的边e4之和(=54)。
匹配度m611是l1k/L=54/(22+10+12+10+7+13+7)=0.67。
类似地,当使用子图同构确定技术时,变形模型图g6 2和图G的子图之间的匹配数量是“7”。因此,针对每个匹配编号(k)计算匹配边的长度之和。
最高匹配度mCik被定义为图G和变形模型图gC i之间的匹配度MD(G,gC i)。获得关于所有变形模型图gC i(i=1,...,NC)的匹配度(G,gC i)。最高匹配度MD被定义为图G和对应于字符类别C的变形模型图之间的最高匹配度MDC(G)。这些以下面公式(9)至(11)表示。
公式9
公式10
公式11
MDC(G)=MD(G,gC k)…(11)
在图14所示的示例中,匹配度MD(G,g6 1)=max{0.67,0.67,0.48,0.48}=0.67。
在图15所示的示例中,匹配度MD(G,g6 2)=max{0.27,0.12,0.15,0.12,0.09,0.16,0.09}=0.27。
接下来,获得给出最高值当中最大的模型编号。当对所获得的匹配度0.67和0.27进行比较时,0.67较大,因此模型编号是“2”。
即,argmax={MD(G,g6 1),MD(G,g6 2)}=argmax{0.27,0.67}=2。
因此,图G与变形模型图之间g6 1和g6 2之间的最高匹配度MD6(G)=MD(G,g6 2)=0.67。
<确定过程>
确定部件188基于由模型匹配计算部件187计算的、图G和对应于字符类别C的变形模型图之间的最高匹配度MDC(G),以及由大小计算部件182计算的目标图案的宽高比R,确定目标图案是否是粘连图案候选。
图案的宽高比被定义为图案的宽度W与其高度H的比率W/H。在使用水平线方向的情况下,如果图案相对于最高匹配度MDC(G)具有等于或者低于阈值MDth且高于“0”的匹配度,或者具有等于或者高于阈值Rth的宽高比R,则确定部件188确定该图案是粘连图案候选。
即,如果识别结果的字符类别C正确,则匹配度较高。相反,对于粘连图案,其匹配度变得更低。因此,如果图案具有等于或者小于阈值MDth的匹配度,则确定该图案是粘连图案候选。然而,如果图G的大小小于具有匹配度“0”的变形模型图,则确定该图案不是粘连图案候选。
注意,例如,如果在使用水平线方向时图案具有较大的宽高比R(水平方向上长)而与匹配度是多少无关,则该图案可能是粘连图案候选。这以下面公式(12)表示。
(MDC(G)≤MDth)∧(MDC(G)>0)∨(R>Rth)…(12)
确定部件188确定对于具有较低匹配度MDC(G)的图案来说,图案的识别结果的可靠性降低,并且存在该图案是粘连图案候选的高概率。
如上所述,通过将通过执行单字符识别获得的类别与变形模型进行匹配,字符识别设备10在结构上检查该类别是否正确。这使得有可能在不增加候选数量的情况下确定字符是否是粘连图案。
另外,变形模型图创建部件16使用图同构确定等自动创建初始变形模型图,然后监视器104a在监视器104a上显示该初始变形模型图,从而催促用户接受或者拒绝该初始变形模型图。这使得有可能消除不正确的变形模型图,从而增加关于图案是否是粘连图案的确定的准确性。
另外,由字符识别设备10执行的过程可由多个设备以分布方式执行。例如,一个设备可创建变形模型图,而另一设备可使用该模型图确定图案是否是粘连图案。
尽管到此为止基于所示出的实施例描述了字符识别程序、字符识别方法、以及字符识别设备,但是各个实施例不限于所示出的实施例。其元件可用具有类似功能的任何元件来代替。另外,任何其它元件或者步骤可被添加到各个实施例。
另外,各个实施例可以是上述实施例的任何两个或者更多个构造(特征)的组合。
另外,上述处理功能可由计算机来实现。在该情况下,提供描述由字符识别设备10的功能执行的过程内容的程序。通过使用计算机执行该程序,由计算机来实现上述处理功能。描述过程的程序可存储在计算机可读存储介质中。计算机可读存储介质的示例包括磁存储单元、光盘、磁光存储介质、以及半导体存储器。磁存储单元的示例包括硬盘驱动器(HDD)、软盘(FD)、以及磁带。光盘的示例是DVD(数字多功能盘)、DVD-RAM(DVD随机存取存储器)、CD-ROM(致密盘只读存储器)、以及CD-R(CD可读)/CD-RW(CD可重写)。磁光存储介质的示例包括MO(磁光盘)。
为了分发上述程序,例如,出售存储该程序的可移动存储介质(诸如DVD或者CD-ROM)。另外,上述程序可预先存储在服务器计算机的存储单元中,并且可从服务器计算机经由网络传输到另一计算机。
另一计算机(即,用于执行字符识别程序的计算机)将记录在可移动存储介质中的、或者从服务器计算机传输的程序存储在例如其存储单元中。然后,计算机从存储单元读取程序,并且根据该程序执行过程。可替选地,计算机可直接从可移动存储介质读取程序并且根据该程序执行过程。可替选地,每次计算机从服务器计算机接收到程序时,其可根据该程序执行过程。
这里所叙述的所有示例和条件语言旨在用于教导目的,以帮助读者理解本发明的原理以及由发明人为推进技术而提出的概念,并且被解释成不限于这些具体叙述的示例和条件,本说明书中这些示例的组织也不涉及各个实施例的优劣性。尽管详细描述了各个实施例,但是应该理解,在不背离各个实施例的精神和范围的情况下,可以对其进行各种改变、替代、以及变更。
Claims (15)
1.一种存储用于使计算机执行过程的字符识别程序的存储介质,所述过程包括:
将被看作单字符的目标图案的结构与存储在存储部件中的单字符图案的结构进行比较;以及
基于所述比较,确定所述目标图案是否是包括多个字符的图案。
2.根据权利要求1所述的存储字符识别程序的存储介质,其中
所述比较通过计算每个单字符图案与所述目标图案的结构匹配的百分比作为相似度,将所述目标图案的结构与存储在存储部件中的多个单字符图案的结构进行比较,并且
所述确定在所述相似度等于或者低于阈值时确定所述目标图案是包括多个字符的图案。
3.根据权利要求2所述的存储字符识别程序的存储介质,其中
所述比较通过将根据每个单字符图案创建的图的顶点间的邻接关系与根据所述目标图案创建的图的顶点间的邻接关系相关联,计算所述相似度。
4.根据权利要求2所述的存储字符识别程序的存储介质,其中
所述比较计算与根据所述目标图案创建的图的顶点间边匹配的、根据每个单字符图案创建的图的顶点间边的长度之和与根据所述目标图案创建的所述图的所有顶点间边的长度之和的比率作为所述相似度。
5.根据权利要求1所述的存储字符识别程序的存储介质,所述过程还包括:
获得所述目标图案的宽高比,其中
所述确定基于所述宽高比和所述比较的结果,确定所述目标图案是否与其它字符粘连。
6.一种字符识别方法,包括:
由处理器将被看作单字符的目标图案的结构与存储在存储部件中的多个单字符图案的结构进行比较;以及
基于所述比较,确定所述目标图案是否是包括多个字符的图案。
7.根据权利要求6所述的字符识别方法,其中
所述比较通过计算每个单字符图案与所述目标图案的结构匹配的百分比作为相似度,将所述目标图案的结构与存储在存储部件中的多个单字符图案的结构进行比较,并且
所述确定在所述相似度等于或者低于阈值时确定所述目标图案是包括多个字符的图案。
8.根据权利要求7所述的字符识别方法,其中
所述比较通过将根据每个单字符图案创建的图的顶点间的邻接关系与根据所述目标图案创建的图的顶点间的邻接关系相关联,计算所述相似度。
9.根据权利要求7所述的字符识别方法,其中
所述比较计算与根据所述目标图案创建的图的顶点间边匹配的、根据每个单字符图案创建的图的顶点间边的长度之和与根据所述目标图案创建的所述图的所有顶点间边的长度之和的比率作为所述相似度。
10.根据权利要求6所述的字符识别方法,还包括:
获取所述目标图案的宽高比,其中
所述确定基于所述宽高比和所述比较的结果,确定所述目标图案是否与其它字符粘连。
11.一种字符识别设备,包括:
比较部件,其将被看作单字符的目标图案的结构与存储在存储部件中的多个单字符图案的结构进行比较;以及
确定部件,其基于由所述比较部件进行的比较的结果,确定所述目标图案是否是包括多个字符的图案。
12.根据权利要求11所述的字符识别设备,其中
所述比较部件通过计算每个单字符图案与所述目标图案的结构匹配的百分比作为相似度,将所述目标图案的结构与存储在存储部件中的多个单字符图案的结构进行比较,并且
所述确定部件在所述相似度等于或者低于阈值时确定所述目标图案是包括多个字符的图案。
13.根据权利要求12所述的字符识别设备,其中
所述比较部件通过将根据每个单字符图案创建的图的顶点间的邻接关系与根据所述目标图案创建的图的顶点间的邻接关系相关联,计算所述相似度。
14.根据权利要求12所述的字符识别设备,其中
所述比较部件还计算与根据所述目标图案创建的图的顶点间边匹配的、根据每个单字符图案创建的图的顶点间边的长度之和与根据所述目标图案创建的所述图的所有顶点间边的长度之和的比率作为所述相似度。
15.根据权利要求11所述的字符识别设备,还包括:
获取部件,其获得所述目标图案的宽高比,其中
所述确定部件基于所述宽高比以及由所述比较部件进行的比较的结果,确定所述目标图案是否与其它字符粘连。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009042278A JP5343617B2 (ja) | 2009-02-25 | 2009-02-25 | 文字認識プログラム、文字認識方法および文字認識装置 |
JP2009-042278 | 2009-02-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101814141A true CN101814141A (zh) | 2010-08-25 |
Family
ID=42621392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010120503A Pending CN101814141A (zh) | 2009-02-25 | 2010-02-24 | 存储介质、字符识别方法以及字符识别设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8401298B2 (zh) |
JP (1) | JP5343617B2 (zh) |
CN (1) | CN101814141A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871847A (zh) * | 2019-03-13 | 2019-06-11 | 厦门商集网络科技有限责任公司 | 一种ocr识别方法及终端 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102385707A (zh) * | 2010-08-30 | 2012-03-21 | 阿里巴巴集团控股有限公司 | 一种数字图像识别的方法、装置及爬虫服务器 |
JP6080586B2 (ja) * | 2013-02-13 | 2017-02-15 | 株式会社ファインデックス | 文字認識システム、文字認識プログラム及び文字認識方法 |
CN104200236B (zh) * | 2014-08-22 | 2018-10-26 | 浙江生辉照明有限公司 | 基于dpm的快速目标检测方法 |
US10438098B2 (en) * | 2017-05-19 | 2019-10-08 | Hand Held Products, Inc. | High-speed OCR decode using depleted centerlines |
CN110851925B (zh) * | 2019-10-31 | 2024-02-20 | 武汉科技大学 | 基于改进邻接矩阵的行星轮系同构判定方法、系统和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5131053A (en) * | 1988-08-10 | 1992-07-14 | Caere Corporation | Optical character recognition method and apparatus |
CN1128073A (zh) * | 1994-05-10 | 1996-07-31 | 摩托罗拉公司 | 识别手写输入的方法 |
CN1315024A (zh) * | 1998-08-26 | 2001-09-26 | 德库玛股份公司 | 字符识别 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0337782A (ja) | 1989-07-04 | 1991-02-19 | Mitsubishi Electric Corp | 文字パターン切り出し装置 |
JPH05346974A (ja) * | 1992-06-16 | 1993-12-27 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
JPH06150062A (ja) * | 1992-11-05 | 1994-05-31 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
JP2630261B2 (ja) | 1994-06-29 | 1997-07-16 | 日本電気株式会社 | 文字認識装置 |
US6104833A (en) * | 1996-01-09 | 2000-08-15 | Fujitsu Limited | Pattern recognizing apparatus and method |
US6111976A (en) * | 1996-11-04 | 2000-08-29 | Rylander; John E. | System and method for handwritten character recognition and qualification |
US6057845A (en) * | 1997-11-14 | 2000-05-02 | Sensiva, Inc. | System, method, and apparatus for generation and recognizing universal commands |
JP4454789B2 (ja) * | 1999-05-13 | 2010-04-21 | キヤノン株式会社 | 帳票分類方法及び装置 |
JP3798179B2 (ja) * | 1999-05-14 | 2006-07-19 | 富士通株式会社 | パターン抽出装置及び文字切り出し装置 |
JP2002063385A (ja) * | 2000-08-22 | 2002-02-28 | Sony Corp | 情報処理装置および方法、並びに記録媒体 |
JP4543675B2 (ja) * | 2003-12-22 | 2010-09-15 | パナソニック電工株式会社 | 文字・図形の認識方法 |
-
2009
- 2009-02-25 JP JP2009042278A patent/JP5343617B2/ja not_active Expired - Fee Related
-
2010
- 2010-01-28 US US12/695,351 patent/US8401298B2/en active Active
- 2010-02-24 CN CN201010120503A patent/CN101814141A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5131053A (en) * | 1988-08-10 | 1992-07-14 | Caere Corporation | Optical character recognition method and apparatus |
CN1128073A (zh) * | 1994-05-10 | 1996-07-31 | 摩托罗拉公司 | 识别手写输入的方法 |
CN1315024A (zh) * | 1998-08-26 | 2001-09-26 | 德库玛股份公司 | 字符识别 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871847A (zh) * | 2019-03-13 | 2019-06-11 | 厦门商集网络科技有限责任公司 | 一种ocr识别方法及终端 |
CN109871847B (zh) * | 2019-03-13 | 2022-09-30 | 厦门商集网络科技有限责任公司 | 一种ocr识别方法及终端 |
Also Published As
Publication number | Publication date |
---|---|
US8401298B2 (en) | 2013-03-19 |
JP2010198308A (ja) | 2010-09-09 |
US20100215276A1 (en) | 2010-08-26 |
JP5343617B2 (ja) | 2013-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Siddiqui et al. | Rethinking semantic segmentation for table structure recognition in documents | |
Weinman et al. | Scene text recognition using similarity and a lexicon with sparse belief propagation | |
US8467614B2 (en) | Method for processing optical character recognition (OCR) data, wherein the output comprises visually impaired character images | |
Harouni et al. | Online Persian/Arabic script classification without contextual information | |
CN102982330B (zh) | 文字图像中字符识别方法和识别装置 | |
CN110909725A (zh) | 识别文本的方法、装置、设备及存储介质 | |
US8693790B2 (en) | Form template definition method and form template definition apparatus | |
JPH05303618A (ja) | 画像生成器 | |
JPWO2007080642A1 (ja) | 帳票処理プログラムおよび帳票処理装置 | |
CN101814141A (zh) | 存储介质、字符识别方法以及字符识别设备 | |
CN113469067B (zh) | 一种文档解析方法、装置、计算机设备和存储介质 | |
CN103995816A (zh) | 信息处理设备和信息处理方法 | |
Colter et al. | Tablext: A combined neural network and heuristic based table extractor | |
Machanavajjhala et al. | Collective extraction from heterogeneous web lists | |
Tsai et al. | Generalized traffic sign detection model for developing a sign inventory | |
JP3917349B2 (ja) | 文字認識結果を利用して情報を検索する検索装置および方法 | |
Gal et al. | Cardinal graph convolution framework for document information extraction | |
Wang et al. | A study on the document zone content classification problem | |
CN110032716B (zh) | 文字编码方法和装置、可读存储介质及电子设备 | |
Hirayama et al. | Development of template-free form recognition system | |
CN110147516A (zh) | 页面设计中前端代码的智能识别方法及相关设备 | |
Hamza et al. | A case-based reasoning approach for invoice structure extraction | |
Pirlo et al. | Layout-based document-retrieval system by radon transform using dynamic time warping | |
Peng et al. | Document image matching based on component blocks | |
Dinh et al. | Fast lyric area extraction from images of printed Korean music scores |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20100825 |