CN106339704A - 字符识别方法和字符识别设备 - Google Patents
字符识别方法和字符识别设备 Download PDFInfo
- Publication number
- CN106339704A CN106339704A CN201510413366.6A CN201510413366A CN106339704A CN 106339704 A CN106339704 A CN 106339704A CN 201510413366 A CN201510413366 A CN 201510413366A CN 106339704 A CN106339704 A CN 106339704A
- Authority
- CN
- China
- Prior art keywords
- character
- hurdle
- cutting
- string
- occupy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
公开了一种字符识别方法和字符识别设备。该字符识别方法包括:字符栏提取步骤,用于提取包括若干行字符串的字符栏;字符占位宽度和字符空白间隔确定步骤,用于对字符栏中的预定行字符串进行字符切分,通过投票确定字符占位宽度和字符空白间隔;字符切分模板生成步骤,用于基于字符占位宽度和字符空白间隔生成字符切分模板;字符串切分步骤,用于使用字符切分模板对字符栏中的除预定行字符串之外的字符串或全部字符串进行切分;以及字符识别步骤,用于对通过切分得到的字符进行识别。根据本公开的实施例,能够提高字符识别的速度和准确率。
Description
技术领域
本公开涉及数据处理技术领域,更具体地,涉及一种利用字符切分模板对字符串进行切分并对所切分的字符进行识别的字符识别方法和字符识别设备。
背景技术
在现代电子信息时代,对于包括若干行字符串的字符栏进行切分和识别的需求越来越多。
特别地,基于栏对齐的打印数字串在流水单和医疗单是常见的。比较典型的例子是日期栏、金额栏、以及号码栏。图1是示出字符栏示例的图。在图1中,左侧为日期栏(其为两端对齐),中间为金额栏(其为右对齐),右侧为号码栏(其为左对齐)。如图1所示,金额串里面除了10个数字以外,还可能出现小数点(“.”)、千分位逗号(“,”)、负号(“-”)和正号(“+”)。日期串里面除了10个数字以外,还可能出现分隔符号(“-”)和斜杠符号(“/”)。综上所述,共有15类字符需要进行识别。
传统的字符识别方法基于单个字符串进行字符切分和识别,这样比较耗时,同时对于粘连字符和破裂字符的切分容易出错,从而导致对字符识别的准确率较低。
发明内容
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
鉴于以上问题,本公开的目的是提供一种字符识别方法和字符识别设备,其可以利用字符切分模板对字符串进行切分并对所切分的字符进行识别,可以提高字符切分的速度和准确率,从而提高字符识别的速度和准确率。
根据本公开的一方面,提供了一种字符识别方法,包括:字符栏提取步骤,用于提取包括若干行字符串的字符栏;字符占位宽度和字符空白间隔确定步骤,用于对字符栏中的预定行字符串进行字符切分,通过投票确定字符占位宽度和字符空白间隔;字符切分模板生成步骤,用于基于字符占位宽度和字符空白间隔生成字符切分模板;字符串切分步骤,用于使用字符切分模板对字符栏中的除预定行字符串之外的字符串或全部字符串进行切分;以及字符识别步骤,用于对通过切分得到的字符进行识别。
根据本公开的另一方面,还提供了一种字符识别设备,包括:字符栏提取单元,被配置成提取包括若干行字符串的字符栏;字符占位宽度和字符空白间隔确定单元,被配置成对字符栏中的预定行字符串进行字符切分,通过投票确定字符占位宽度和字符空白间隔;字符切分模板生成单元,被配置成基于字符占位宽度和字符空白间隔生成字符切分模板;字符串切分单元,被配置成使用字符切分模板对字符栏中的除预定行字符串之外的字符串或全部字符串进行切分;以及字符识别单元,被配置成对通过切分得到的字符进行识别。
根据本公开的其它方面,还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品以及其上记录有该用于实现上述根据本公开的方法的计算机程序代码的计算机可读存储介质。
在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。
附图说明
本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示出字符栏示例的图;
图2是示出根据本公开的实施例的字符识别方法的流程示例的流程图;
图3是示出根据本公开的实施例的字符占位宽度和字符空白间隔的直方图的示例的图;
图4是示出根据本公开的实施例的日期字符串及其相应的字符切分模板的示例的图;
图5是示出根据本公开的实施例的对字符切分位置进行微调的示例的图;
图6是示出根据本公开的实施例的确定字符栏对齐类型的示例的图;
图7是示出字符栏中的噪声的示例的图;
图8是示出金额字符串的示例的图;
图9是示出根据本公开的实施例的在检测特定字符中使用的特征的示例的图;
图10是示出根据本公开的实施例的金额字符串及其相应的字符切分模板的示例的图;
图11是示出根据本公开的实施例的字符识别设备的功能配置示例的框图;以及
图12是示出作为本公开的实施例中可采用的信息处理设备的个人计算机的示例结构的框图。
具体实施方式
在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其它细节。
下面结合附图详细说明根据本公开的实施例。
首先,将参照图2描述根据本公开的实施例的字符识别方法的流程示例。图2是示出根据本公开的实施例的字符识别方法的流程示例的流程图。
如图2所示,根据本公开的实施例的字符识别方法可包括字符栏提取步骤S202、字符占位宽度和字符空白间隔确定步骤S204、字符切分模板生成步骤S206、字符串切分步骤S208、以及字符识别步骤S210。以下将分别详细描述各个步骤中的处理。
首先,在字符栏提取步骤S202中,可以提取包括若干行字符串的字符栏。在该步骤中,可以利用本领域公知技术,正确提取出所有字符栏。
在字符占位宽度和字符空白间隔确定步骤S204中,可以对字符栏中的预定行字符串进行字符切分,通过投票确定字符占位宽度和字符空白间隔。
优选地,在该步骤中,上述预定行字符串可以是字符栏中的所有行的字符串,或者如果字符栏中的行数较多,则上述预定行字符串可以是字符栏中的部分行的字符串。
优选地,可以通过直方图统计得到字符占位宽度和字符空白间隔。具体地,对预定行字符串进行基于竖直投影的字符切分,竖直投影为0的区域即为字符空白间隔CG,两个字符空白间隔的中间部分即对应一个字符,其宽度即对应字符的外接框的宽度BbW。对于机打数字,一般而言,字符占位宽度CW=BbW+CG为一个常数。但由于二值化等因素的影响,CW值会有少量的变动。把所有的字符空白间隔CG和字符占位宽度CW进行直方图统计。图3是示出根据本公开的实施例的字符占位宽度和字符空白间隔的直方图的示例的图。如图3所示,顶部直方图表示字符空白间隔CG,底部直方图表示字符占位宽度CW,选取两个直方图中各自的最大值作为所确定的字符占位宽度和字符空白间隔。使用基于直方图所确定的CG和CW生成字符切分模板,可以克服字符串可能出现的粘连、噪声干扰、破裂的影响。
另外,除了通过直方图统计之外,本领域技术人员还可以容易想到通过投票确定字符占位宽度和字符空白间隔的其他方法,本公开对此不作限制。
在字符切分模板生成步骤S206中,可以基于字符占位宽度和字符空白间隔生成字符切分模板。
优选地,可以基于字符占位宽度和字符空白间隔生成字符等宽切分模板。
图4是示出根据本公开的实施例的日期字符串及其相应的字符切分模板的示例的图。图4的上部示出了一个日期字符串的示例。图4的下部示出了该日期字符串的字符等宽切分模板(示出了字符占位宽度CW和字符间隔CG)。如图4所示,在所生成的模板中,每个字符的字符占位宽度相同,并且字符之间的字符空白间隔相同。
优选地,在字符切分模板生成步骤S206中,可以基于字符占位宽度和字符空白间隔生成预定数量的字符等宽切分模板。
具体地,为了应对可能出现的字符宽度的变化,可以通过调整字符占位宽度和字符空白间隔产生几个字符等宽切分模板。例如,可以通过使字符占位宽度和字符空白间隔分别加一或减一来生成如下5个等宽切分模板:CW_CG、(CW-1)_CG、(CW+1)_CG、(CW-1)_(CG-1)、以及(CW+1)_(CG+1)。为了后续的字符切分比较鲁棒,可以产生较多的等宽切分模板。
在字符串切分步骤S208中,可以使用字符切分模板对字符栏中的除预定行字符串之外的字符串或全部字符串进行切分。
在字符串切分步骤S208中,如果上述预定行字符串是字符栏中的所有行的字符串,则可以使用字符切分模板对字符栏中的全部字符串进行切分;而如果上述预定行字符串是字符栏中的部分行的字符串,则可以使用字符切分模板对字符栏中除上述预定行字符串之外的字符串进行切分或对字符栏中的全部字符串进行切分。
优选地,在字符串切分步骤S208中,可以选择预定数量的字符等宽切分模板中的最优字符切分模板,并使用最优字符切分模板对字符栏中的除预定行字符串之外的字符串或全部字符串进行切分。
字符切分模板的选择是通过若干个字符串的字符识别的置信度最大进行选择。字符识别OCR引擎是业内公知的技术。例如,可以对前面5个字符串的字符切分并利用OCR引擎对字符进行识别。通过不同字符切分模板输出的识别结果的置信度对比来选择具有最大置信度的模板,由此确定最优的字符切分模板。
优选地,根据本公开的实施例的字符识别方法还可以包括微调步骤,用于针对字符栏中的要用字符切分模板进行切分的字符串,根据预定的优化准则来对字符切分模板的切分位置进行微调。
具体地,为了应对二值化结果不稳定、个别字符偏窄、字符粘连、字符间噪声等因素,针对字符切分模板给出的初始切分位置,对每个字符的切分位置(即每个字符切分位置的左右边界)进行微调。
优选地,在对每个字符的切分位置进行微调时,可以计算每次微调对应的优化准则的得分值。
优选地,优化准则可以是所有字符外接框内部的前景像素的竖直投影值的和(即黑色像素的和)尽可能大,而相邻字符外接框之间的背景像素的竖直投影值的和(即白色像素的和)尽可能大。若用B(i,y)表示第i次微调中位置y处的黑色像素,则第i次微调中上述黑色像素的和可以表示为Sum(B(i,y)),若用W(i,y)表示第i次微调中位置y处的白色像素,则第i次微调中上述白色像素的和可以表示为Sum(W(i,y))。记录第i次微调的得分值Score(i)=Sum(B(i,y))+Sum(W(i,y)),然后选择得分Score(i)最大对应的第i次的字符切分位置作为最终的字符切分位置。
优选地,优化准则可以是识别置信度尽可能高。具体地,对于每次微调,记录利用识别器对字符串进行识别的得分,然后选择得分最高(即,识别置信度最高)对应的第i次的字符切分位置作为最终的字符切分位置。
图5是示出根据本公开的实施例的对字符切分位置进行微调的示例的图。如图5所示,基于字符切分模板的初始位置、对第一个字符切分位置的右边界进行微调。在图5中,L1、R1、L2分别表示第一个字符切分位置的左边界、第一个字符切分位置的右边界、第二个字符切分位置的左边界。其中,L2-L1=CW,L2-R1=CG。此外,Xmin、Xmax分别表示第一个字符切分位置的右边界能够被微调到的最左侧位置和最右侧位置。若用bias(0<bias<=CG/2)表示微调所允许的偏置,则Xmin=R1–bias,Xmax=R1+bias。由上可知,可以对字符切分位置的右边界进行(2*bias+1)次微调。由于可以对字符切分位置的左边界和右边界分别进行微调,因此对一个字符的切分位置总共进行2*(2*bias+1)次微调。
优选地,可以对一行字符串中包含的所有字符的切分位置进行微调。假设一行字符串中包含n个字符,则对一行字符串的切分位置总共进行2*(2*bias+1)*n次微调。
优选地,可以对微调的步长进行调整。例如,可以将微调的步长设置为bias、bias/2等,以适应不同的运算速度需求。
最后,在字符识别步骤S210中,可以对通过切分得到的字符进行识别。例如,在字符识别步骤S210中,可以调用OCR识别引擎对通过切分得到的字符进行识别。
接下来,将描述根据本公开的其他实施例的字符识别方法。
基于栏对齐的打印字符串在流水单和医疗单(诸如日期栏、金额栏、号码栏)是常见的,如果能利用一栏中字符串对齐的上下文信息,则可以进一步提高字符切分的速度和准确率,从而进一步提高字符识别的速度和准确率。
优选地,根据本公开的实施例的字符识别方法还可以包括对齐类型确定步骤,用于基于字符栏中的所有字符串的外接框的边界位置,通过投票确定字符栏的对齐类型。
图6是示出根据本公开的实施例的确定字符栏对齐类型的示例的图。如图6所示,确定字符栏的对齐类型的过程如下:统计所有字符串的外接框的左边界位置,得到其直方图分布。如果直方图最大值对应的左边界位置及其左右邻域对应的直方图值的和大于总的串数的一定比例a(0.5<a<1),则认为该字符栏是左对齐的,把直方图最大值对应的左边界位置的左邻域作为字符栏的左边界。类似地,统计所有串的外接框的右边界位置,得到其直方图分布。如果直方图最大值对应的右边界位置及其左右邻域对应的直方图值的和大于总的串数的一定比例a(0.5<a<1),则认为该字符栏是右对齐的,把直方图最大值对应的右边界位置的右邻域作为字符栏的右边界。如果该字符栏既是左对齐,又是右对齐,则判断该字符栏是居中对齐(串等宽)的情形。对于居中对齐(串不等宽)以及未对齐的情形,我们不再区分判断,采用传统的基于单个串的字符切分和识别算法。
优选地,根据本公开的实施例的字符识别方法还可以包括字符串格式确定步骤,用于基于字符栏的对齐类型以及相关先验知识,确定字符栏中的字符串的格式。
以日期栏为例,日期栏一般为串等宽的居中对齐方式,即日期栏既是左对齐,又是右对齐。日期栏中所有字符串包含的字符个数是相同的,但具体的总数是未知的。在流水单和医疗单中,日期栏中相邻行的日期比较接近。日期栏中可能出现四种格式:YYYYMMDD(例如20120821)、YYYY/MM/DD(例如2012/08/21)、YYYY-MM-DD(例如2012-08-21)、MM-DD(例如08-21);MMDD(0821)。由此,基于串等宽的居中对齐方式、字符串的字符个数、以及诸如相邻行的字符比较接近等相关先验知识,可以确定字符栏为日期栏并且从以上四种格式中选择一种日期栏格式作为字符串的格式。
优选地,根据本公开的实施例的字符识别方法还可以包括后处理步骤,用于基于字符栏中的字符串的格式,对识别出的字符进行后处理。
仍以日期栏为例,假设确定日期栏的格式为YYYY/MM/DD(例如2012/08/21)。若默认处理的是年份为2000年之后的数据,则在发现识别出的第一个字符为“9”(即表示年份的第一个字符为“9”)的情况下,根据关于日期的先验知识,可以将该字符“9”修改为字符“2”。另外,若发现识别出的倒数第三个字符为“1”,则根据日期栏的格式“YYYY/MM/DD”,可以将该字符“1”修改为字符“/”。经过上述后处理,可以提高字符识别的正确率。
优选地,根据本公开的实施例的字符识别方法还可以包括噪声去除步骤,用于在使用字符切分模板对字符串进行切分时,利用字符栏的对齐类型的信息去除字符栏中的噪声。
图7是示出字符栏中的噪声的示例的图。如图7所示,在字符栏(例如,日期栏)的左侧出现黑色装订孔噪声。根据本公开的实施例的字符识别方法,如果字符栏的左侧出现黑色装订孔,则该方法可以利用整个栏的左对齐信息,去除这些噪声。类似地,如果右侧出现手写标记,则根据本公开的实施例的字符识别方法可以利用整个栏的右对齐信息,去除这些手写标记噪声。从而,根据本公开的实施例的字符识别方法可以去除噪声(例如装订孔、手写标记)的影响,提高字符识别的正确率。
优选地,根据本公开的实施例的字符识别方法还可以包括特定字符检测和占位宽度确定步骤,用于在通过投票确定字符占位宽度和字符空白间隔之前,检测预定行字符串中的特定字符,并通过投票确定特定字符的占位宽度。
以金额栏为例,金额栏相对于纯数字栏,有其特殊之处,即一个金额串中一般都会存在小数点符号(“.”)。除此之外,还可能出现千分位的逗号(“,”)、负号(“-”)和正号(“+”)。因为一些关于金额串的格式可以利用,比如:小数点后一般是两位数字,小数点和千分位逗号之间是三位数字,因此对于小数点符号和千分位逗号的检测,有利于提高金额字符串的切分精度。
图8是示出了金额字符串的示例的图。如图8所示,特定字符(即标点符号诸如小数点、逗号)的字符占位宽度和数字的字符占位宽度有所不同。同时,数字可能出现粘连和断裂等情形,造成字符切分困难,而标点符号一般位于字符串的底部,一般不会粘连或断裂,因此标点符号更容易检测、切分和识别。
优选地,可以采用如下算法来检测特定字符(即标点符号诸如负号、逗号、小数点)。首先,将字符串根据竖直投影分析,切分成若干个小块。然后提取小块的几何特征。图9是示出根据本公开的实施例的在检测特定字符中使用的特征的示例的图。在图9中,示出了如下几何特征:字符的边界框的顶部位置C-Top/L-Height、底部位置C-Bottom/L-Height、高度C-Height/L-Height以及宽度C-Width/L-Height。最后,将所提取的几何特征输入到事先训练好的标点符号分类器中,如果分类器置信度较高,则判断为标点符号。
用于检测特定字符的特征不限于图9所示的上述几何特征。优选地,可以基于以下特征中的至少一个、使用经训练的分类器来检测特定字符:字符的边界框的顶部位置、底部位置、高度、宽度、宽高比、前景像素比、面积、对角线长度、重心到几何中心的水平方向距离、重心到几何中心的竖直方向距离、重心到左边界的水平方向距离以及重心到上边界的竖直方向距离。此外,本领域技术人员还可以容易想到在检测特定字符中使用的其他特征,本公开对此不作限制。
优选地,检测标点符号(诸如负号、逗号、小数点)的分类器是基于二次判别函数,如下给出其定义。对于特征向量x,三类别二次函数分类器的输出如下:
其中,μi、∑i分别是第i(i=1,2,3)类别的均值向量和协方差矩阵。为了简单,我们将协方差矩阵设置为对角矩阵,并且没有观察到性能损失。对于每个类别,在高斯假设的前提下,从训练样本估计均值和协方差。对于输入样本,将标签分配给具有最小距离的类别。如果距离大于阈值,则样本认为不是标点符号。
如果判断为标点符号,则记录该特定字符的占位宽度SW,统计其直方图。选择其直方图最大值对应的SW作为该栏的特定字符的占位宽度。另外,除了通过直方图统计之外,本领域技术人员还可以容易想到通过投票确定特定字符的占位宽度的其他方法,本公开对此不作限制。
在根据本公开的实施例的字符识别方法中,优选地,在字符切分模板生成步骤中,除了字符占位宽度和字符空白间隔之外,还可以基于字符栏的对齐类型、特定字符的占位宽度以及有关特定字符的先验格式信息生成字符切分模板。
以金额字符串为例,在检测到特定字符(诸如逗号、小数点)之后,在生成字符切分模板时,除了字符占位宽度和字符空白间隔之外,还可以利用字符栏的对齐类型、特定字符的占位宽度以及如下有关特定字符的先验格式信息:小数点后一般是两位数字,小数点和千分位逗号之间是三位数字。具体地,对于金额字符串,字符切分模板的总宽度设置为字符栏的宽度,字符切分模板的格式可以根据字符栏的对齐类型、所确定的字符切分相关的参数值(CW、CG和SW)、特定符号检测位置以及上述有关特定字符的先验格式信息确定。
图10是示出根据本公开的实施例的金额字符串及其相应的字符切分模板的示例的图。图10的上部示出了一个金额字符串的示例。图10的下部示出了该金额字符串的字符切分模板(示出了字符占位宽度CW、字符间隔CG以及特定字符的占位宽度SW)。为了简单,图10仅示出了不包含千分位逗号的金额字符串及其相应的字符切分模板的示例。为了应对可能出现的字符宽度的变化以及为了后续的字符切分比较鲁棒,可以产生多个字符切分模板,比如CW_CG_SW、以及CW-1_CG_SW等。另外,为了应对二值化结果不稳定等因素,可以针对字符切分模板给出的初始切分位置,根据单个串的竖直投影进行字符切分位置的微调。如上所述,利用如上所生成的字符切分模板对诸如金额字符串的字符串进行切分,可以进一步提高字符切分的速度和准确率。
根据以上描述可知,根据本公开的实施例的字符识别方法可以提高字符切分的速度和准确率,从而提高字符识别的速度和准确率。
与上述方法实施例相对应地,本公开还提供了以下设备实施例。
图11是示出根据本公开的实施例的字符识别设备1100的功能配置示例的框图。
如图11所示,根据本公开的实施例的字符识别设备1100可以包括字符栏提取单元1102、字符占位宽度和字符空白间隔确定单元1104、字符切分模板生成单元1106、字符串切分单元1108、以及字符识别单元1110。接下来将描述各个单元的功能配置示例。
字符栏提取单元1102可以被配置成提取包括若干行字符串的字符栏。在该单元中,可以利用本领域公知技术,正确提取出所有字符栏。
字符占位宽度和字符空白间隔确定单元1104可以被配置成对字符栏中的预定行字符串进行字符切分,通过投票确定字符占位宽度和字符空白间隔。
优选地,上述预定行字符串可以是字符栏中的所有行的字符串,或者如果字符栏中的行数较多,则上述预定行字符串可以是字符栏中的部分行的字符串。
优选地,可以通过直方图统计得到字符占位宽度和字符空白间隔。通过直方图统计得到字符占位宽度和字符空白间隔的具体方法可参见以上方法实施例中相应位置的描述,在此不再重复。
另外,除了通过直方图统计之外,本领域技术人员还可以容易想到通过投票确定字符占位宽度和字符空白间隔的其他方法,本公开对此不作限制。
字符切分模板生成单元1106可以被配置成基于字符占位宽度和字符空白间隔生成字符切分模板。
优选地,可以基于字符占位宽度和字符空白间隔生成字符等宽切分模板。
优选地,在字符切分模板生成单元1106中,可以基于字符占位宽度和字符空白间隔生成预定数量的字符等宽切分模板。
具体地,为了应对可能出现的字符宽度的变化,可以通过调整字符占位宽度和字符空白间隔产生几个字符等宽切分模板。例如,可以通过使字符占位宽度和字符空白间隔分别加一或减一来生成如下5个等宽切分模板:CW_CG、(CW-1)_CG、(CW+1)_CG、(CW-1)_(CG-1)、以及(CW+1)_(CG+1)。为了后续的字符切分比较鲁棒,可以产生较多的等宽切分模板。
字符串切分单元1108可以被配置成使用字符切分模板对字符栏中的除预定行字符串之外的字符串或全部字符串进行切分。
在字符串切分单元1108中,如果上述预定行字符串是字符栏中的所有行的字符串,则可以使用字符切分模板对字符栏中的全部字符串进行切分;而如果上述预定行字符串是字符栏中的部分行的字符串,则可以使用字符切分模板对字符栏中除上述预定行字符串之外的字符串进行切分或对字符栏中的全部字符串进行切分。
优选地,在字符串切分单元1108中,可以选择预定数量的字符等宽切分模板中的最优字符切分模板,并使用最优字符切分模板对字符栏中的除预定行字符串之外的字符串或全部字符串进行切分。
字符切分模板的选择是通过若干个字符串的字符识别的置信度最大进行选择。字符识别OCR引擎是业内公知的技术。例如,可以对前面5个字符串的字符切分并利用OCR引擎对字符进行识别。通过不同字符切分模板输出的识别结果的置信度对比来选择具有最大置信度的模板,由此确定最优的字符切分模板。
优选地,根据本公开的实施例的字符识别设备还可以包括微调单元,该微调单元可以被配置成针对字符栏中的要用字符切分模板进行切分的字符串,根据预定的优化准则来对字符切分模板的切分位置进行微调。
具体地,为了应对二值化结果不稳定、个别字符偏窄、字符粘连、字符间噪声等因素,针对字符切分模板给出的初始切分位置,对每个字符的切分位置(即每个字符切分位置的左右边界)进行微调。
具体的优化准则和微调方法可参见以上方法实施例中相应位置的描述,在此不再重复。
字符识别单元1110可以被配置成对通过切分得到的字符进行识别。例如,在字符识别单元1110中,可以调用OCR识别引擎对通过切分得到的字符进行识别。
接下来,将描述根据本公开的其他实施例的字符识别设备。
优选地,根据本公开的实施例的字符识别设备还可以包括对齐类型确定单元,该对齐类型确定单元可以被配置成基于字符栏中的所有字符串的外接框的边界位置,通过投票确定字符栏的对齐类型。
确定字符栏的对齐类型的具体方法可参见以上方法实施例中相应位置的描述,在此不再重复。
优选地,根据本公开的实施例的字符识别设备还可以包括字符串格式确定单元,该字符串格式确定单元可以被配置成基于字符栏的对齐类型以及相关先验知识,确定字符栏中的字符串的格式。
确定字符栏中的字符串的格式的具体方法可参见以上方法实施例中相应位置的描述,在此不再重复。
优选地,根据本公开的实施例的字符识别设备还可以包括后处理单元,该后处理单元可以被配置成基于字符栏中的字符串的格式,对识别出的字符进行后处理。
对识别出的字符进行后处理的具体方法可参见以上方法实施例中相应位置的描述,在此不再重复。
优选地,根据本公开的实施例的字符识别设备还可以包括噪声去除单元,该噪声去除单元可以被配置成在使用字符切分模板对字符串进行切分时,利用字符栏的对齐类型的信息去除字符栏中的噪声。
利用字符栏的对齐类型的信息去除字符栏中的噪声的具体方法可参见以上方法实施例中相应位置的描述,在此不再重复。
优选地,根据本公开的实施例的字符识别设备还可以包括特定字符检测和占位宽度确定单元,该特定字符检测和占位宽度确定单元可以被配置成在通过投票确定字符占位宽度和字符空白间隔之前,检测预定行字符串中的特定字符,并通过投票确定特定字符的占位宽度。
特定字符检测和占位宽度确定的具体方法可参见以上方法实施例中相应位置的描述,在此不再重复。
优选地,可以基于以下特征中的至少一个、使用经训练的分类器来检测特定字符:字符的边界框的顶部位置、底部位置、高度、宽度、宽高比、前景像素比、面积、对角线长度、重心到几何中心的水平方向距离、重心到几何中心的竖直方向距离、重心到左边界的水平方向距离以及重心到上边界的竖直方向距离。
根据本公开的实施例的字符识别设备中,优选地,在字符切分模板生成单元中,除了字符占位宽度和字符空白间隔之外,还可以基于字符栏的对齐类型、特定字符的占位宽度以及有关特定字符的先验格式信息生成字符切分模板。
基于字符占位宽度、字符空白间隔、字符栏的对齐类型、特定字符的占位宽度以及有关特定字符的先验格式信息生成字符切分模板的具体方法可参见以上方法实施例中相应位置的描述,在此不再重复。
根据以上描述可知,根据本公开的实施例的字符识别设备可以提高字符切分的速度和准确率,从而提高字符识别的速度和准确率。
应指出,尽管以上描述了根据本公开的实施例的字符识别设备的功能配置,但是这仅是示例而非限制,并且本领域技术人员可根据本公开的原理对以上实施例进行修改,例如可对各个实施例中的功能模块进行添加、删除或者组合等,并且这样的修改均落入本公开的范围内。
此外,还应指出,这里的装置实施例是与上述方法实施例相对应的,因此在装置实施例中未详细描述的内容可参见方法实施例中相应位置的描述,在此不再重复描述。
应理解,根据本公开的实施例的存储介质和程序产品中的机器可执行的指令还可以被配置成执行上述字符识别方法,因此在此未详细描述的内容可参考先前相应位置的描述,在此不再重复进行描述。
相应地,用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
另外,还应该指出的是,上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图12所示的通用个人计算机1200安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图12中,中央处理单元(CPU)1201根据只读存储器(ROM)1202中存储的程序或从存储部分1208加载到随机存取存储器(RAM)1203的程序执行各种处理。在RAM 1203中,也根据需要存储当CPU 1201执行各种处理等时所需的数据。
CPU 1201、ROM 1202和RAM 1203经由总线1204彼此连接。输入/输出接口1205也连接到总线1204。
下述部件连接到输入/输出接口1205:输入部分1206,包括键盘、鼠标等;输出部分1207,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等;存储部分1208,包括硬盘等;和通信部分1209,包括网络接口卡比如LAN卡、调制解调器等。通信部分1209经由网络比如因特网执行通信处理。
根据需要,驱动器1210也连接到输入/输出接口1205。可拆卸介质1211比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1210上,使得从中读出的计算机程序根据需要被安装到存储部分1208中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1211安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图12所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1211。可拆卸介质1211的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1202、存储部分1208中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
以上参照附图描述了本公开的优选实施例,但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改,并且应理解这些变更和修改自然将落入本公开的技术范围内。
例如,在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地,在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外,以上功能之一可由多个单元来实现。无需说,这样的配置包括在本公开的技术范围内。
在该说明书中,流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理,而且包括并行地或单独地而不是必须按时间序列执行的处理。此外,甚至在按时间序列处理的步骤中,无需说,也可以适当地改变该顺序。
另外,根据本公开的技术还可以如下进行配置。
附记1.一种字符识别方法,包括:
字符栏提取步骤,用于提取包括若干行字符串的字符栏;
字符占位宽度和字符空白间隔确定步骤,用于对所述字符栏中的预定行字符串进行字符切分,通过投票确定字符占位宽度和字符空白间隔;
字符切分模板生成步骤,用于基于所述字符占位宽度和所述字符空白间隔生成字符切分模板;
字符串切分步骤,用于使用所述字符切分模板对所述字符栏中的除所述预定行字符串之外的字符串或全部字符串进行切分;以及
字符识别步骤,用于对通过切分得到的字符进行识别。
附记2.根据附记1所述的字符识别方法,还包括对齐类型确定步骤,用于基于所述字符栏中的所有字符串的外接框的边界位置,通过投票确定所述字符栏的对齐类型。
附记3.根据附记2所述的字符识别方法,还包括字符串格式确定步骤,用于基于所述字符栏的对齐类型以及相关先验知识,确定所述字符栏中的字符串的格式。
附记4.根据附记3所述的字符识别方法,还包括后处理步骤,用于基于所述字符栏中的字符串的格式,对识别出的字符进行后处理。
附记5.根据附记2所述的字符识别方法,还包括噪声去除步骤,用于在使用所述字符切分模板对所述字符串进行切分时,利用所述字符栏的对齐类型的信息去除所述字符栏中的噪声。
附记6.根据附记1所述的字符识别方法,还包括微调步骤,用于针对所述字符栏中的要用所述字符切分模板进行切分的字符串,根据预定的优化准则来对所述字符切分模板的切分位置进行微调。
附记7.根据附记2所述的字符识别方法,还包括特定字符检测和占位宽度确定步骤,用于在通过投票确定字符占位宽度和字符空白间隔之前,检测所述预定行字符串中的特定字符,并通过投票确定所述特定字符的占位宽度。
附记8.根据附记7所述的字符识别方法,其中,在所述字符切分模板生成步骤中,除了所述字符占位宽度和所述字符空白间隔之外,还基于所述字符栏的对齐类型、所述特定字符的占位宽度以及有关特定字符的先验格式信息生成所述字符切分模板。
附记9.根据附记7所述的字符识别方法,其中,基于以下特征中的至少一个、使用经训练的分类器来检测所述特定字符:字符的边界框的顶部位置、底部位置、高度、宽度、宽高比、前景像素比、面积、对角线长度、重心到几何中心的水平方向距离、重心到几何中心的竖直方向距离、重心到左边界的水平方向距离以及重心到上边界的竖直方向距离。
附记10.根据附记1所述的字符识别方法,在所述字符切分模板生成步骤中,基于所述字符占位宽度和所述字符空白间隔生成预定数量的字符等宽切分模板。
附记11.一种字符识别设备,包括:
字符栏提取单元,被配置成提取包括若干行字符串的字符栏;
字符占位宽度和字符空白间隔确定单元,被配置成对所述字符栏中的预定行字符串进行字符切分,通过投票确定字符占位宽度和字符空白间隔;
字符切分模板生成单元,被配置成基于所述字符占位宽度和所述字符空白间隔生成字符切分模板;
字符串切分单元,被配置成使用所述字符切分模板对所述字符栏中的除所述预定行字符串之外的字符串或全部字符串进行切分;以及
字符识别单元,被配置成对通过切分得到的字符进行识别。
附记12.根据附记11所述的字符识别设备,还包括对齐类型确定单元,被配置成基于所述字符栏中的所有字符串的外接框的边界位置,通过投票确定所述字符栏的对齐类型。
附记13.根据附记12所述的字符识别设备,还包括字符串格式确定单元,被配置成基于所述字符栏的对齐类型以及相关先验知识,确定所述字符栏中的字符串的格式。
附记14.根据附记13所述的字符识别设备,还包括后处理单元,被配置成基于所述字符栏中的字符串的格式,对识别出的字符进行后处理。
附记15.根据附记12所述的字符识别设备,还包括噪声去除单元,被配置成在使用所述字符切分模板对所述字符串进行切分时,利用所述字符栏的对齐类型的信息去除所述字符栏中的噪声。
附记16.根据附记11所述的字符识别设备,还包括微调单元,被配置成针对所述字符栏中的要用所述字符切分模板进行切分的字符串,根据预定的优化准则来对所述字符切分模板的切分位置进行微调。
附记17.根据附记12所述的字符识别设备,还包括特定字符检测和占位宽度确定单元,被配置成在通过投票确定字符占位宽度和字符空白间隔之前,检测所述预定行字符串中的特定字符,并通过投票确定所述特定字符的占位宽度。
附记18.根据附记17所述的字符识别设备,其中,在所述字符切分模板生成单元中,除了所述字符占位宽度和所述字符空白间隔之外,还基于所述字符栏的对齐类型、所述特定字符的占位宽度以及有关特定字符的先验格式信息生成所述字符切分模板。
附记19.根据附记17所述的字符识别设备,其中,基于以下特征中的至少一个、使用经训练的分类器来检测所述特定字符:字符的边界框的顶部位置、底部位置、高度、宽度、宽高比、前景像素比、面积、对角线长度、重心到几何中心的水平方向距离、重心到几何中心的竖直方向距离、重心到左边界的水平方向距离以及重心到上边界的竖直方向距离。
附记20.根据附记11所述的字符识别设备,其中,在所述字符切分模板生成单元中,基于所述字符占位宽度和所述字符空白间隔生成预定数量的字符等宽切分模板。
Claims (10)
1.一种字符识别方法,包括:
字符栏提取步骤,用于提取包括若干行字符串的字符栏;
字符占位宽度和字符空白间隔确定步骤,用于对所述字符栏中的预定行字符串进行字符切分,通过投票确定字符占位宽度和字符空白间隔;
字符切分模板生成步骤,用于基于所述字符占位宽度和所述字符空白间隔生成字符切分模板;
字符串切分步骤,用于使用所述字符切分模板对所述字符栏中的除所述预定行字符串之外的字符串或全部字符串进行切分;以及
字符识别步骤,用于对通过切分得到的字符进行识别。
2.根据权利要求1所述的字符识别方法,还包括对齐类型确定步骤,用于基于所述字符栏中的所有字符串的外接框的边界位置,通过投票确定所述字符栏的对齐类型。
3.根据权利要求2所述的字符识别方法,还包括字符串格式确定步骤,用于基于所述字符栏的对齐类型以及相关先验知识,确定所述字符栏中的字符串的格式。
4.根据权利要求3所述的字符识别方法,还包括后处理步骤,用于基于所述字符栏中的字符串的格式,对识别出的字符进行后处理。
5.根据权利要求2所述的字符识别方法,还包括噪声去除步骤,用于在使用所述字符切分模板对所述字符串进行切分时,利用所述字符栏的对齐类型的信息去除所述字符栏中的噪声。
6.根据权利要求1所述的字符识别方法,还包括微调步骤,用于针对所述字符栏中的要用所述字符切分模板进行切分的字符串,根据预定的优化准则来对所述字符切分模板的切分位置进行微调。
7.根据权利要求2所述的字符识别方法,还包括特定字符检测和占位宽度确定步骤,用于在通过投票确定字符占位宽度和字符空白间隔之前,检测所述预定行字符串中的特定字符,并通过投票确定所述特定字符的占位宽度。
8.根据权利要求7所述的字符识别方法,其中,在所述字符切分模板生成步骤中,除了所述字符占位宽度和所述字符空白间隔之外,还基于所述字符栏的对齐类型、所述特定字符的占位宽度以及有关特定字符的先验格式信息生成所述字符切分模板。
9.根据权利要求7所述的字符识别方法,其中,基于以下特征中的至少一个、使用经训练的分类器来检测所述特定字符:字符的边界框的顶部位置、底部位置、高度、宽度、宽高比、前景像素比、面积、对角线长度、重心到几何中心的水平方向距离、重心到几何中心的竖直方向距离、重心到左边界的水平方向距离以及重心到上边界的竖直方向距离。
10.一种字符识别设备,包括:
字符栏提取单元,被配置成提取包括若干行字符串的字符栏;
字符占位宽度和字符空白间隔确定单元,被配置成对所述字符栏中的预定行字符串进行字符切分,通过投票确定字符占位宽度和字符空白间隔;
字符切分模板生成单元,被配置成基于所述字符占位宽度和所述字符空白间隔生成字符切分模板;
字符串切分单元,被配置成使用所述字符切分模板对所述字符栏中的除所述预定行字符串之外的字符串或全部字符串进行切分;以及
字符识别单元,被配置成对通过切分得到的字符进行识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510413366.6A CN106339704A (zh) | 2015-07-14 | 2015-07-14 | 字符识别方法和字符识别设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510413366.6A CN106339704A (zh) | 2015-07-14 | 2015-07-14 | 字符识别方法和字符识别设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106339704A true CN106339704A (zh) | 2017-01-18 |
Family
ID=57826153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510413366.6A Pending CN106339704A (zh) | 2015-07-14 | 2015-07-14 | 字符识别方法和字符识别设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106339704A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107767531A (zh) * | 2017-10-24 | 2018-03-06 | 深圳怡化电脑股份有限公司 | 纸币识别方法及系统 |
CN108734845A (zh) * | 2017-04-20 | 2018-11-02 | 深圳怡化电脑股份有限公司 | 检测纸币冠字号的方法及装置 |
CN109993749A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 提取目标图像的方法和装置 |
CN110378347A (zh) * | 2019-07-04 | 2019-10-25 | 北京爱医生智慧医疗科技有限公司 | 一种医疗检验单的关键信息提取方法及装置 |
CN110443251A (zh) * | 2019-08-13 | 2019-11-12 | 树根互联技术有限公司 | 仪表图像识别方法及装置 |
CN112784125A (zh) * | 2021-01-14 | 2021-05-11 | 辽宁工程技术大学 | 一种输入信息的模式识别方法和装置 |
TWI775634B (zh) * | 2021-10-07 | 2022-08-21 | 博相科技股份有限公司 | 英文字體影像辨識方法 |
CN117689213A (zh) * | 2024-01-31 | 2024-03-12 | 四川省华地建设工程有限责任公司 | 基于人工智能的泥石流风险评估方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000040122A (ja) * | 1998-07-23 | 2000-02-08 | Ricoh Co Ltd | 文字切り出し方法 |
CN101251892A (zh) * | 2008-03-07 | 2008-08-27 | 北大方正集团有限公司 | 一种字符切分方法和装置 |
CN102156865A (zh) * | 2010-12-14 | 2011-08-17 | 上海合合信息科技发展有限公司 | 手写文本行字符切分方法、识别方法 |
CN102456138A (zh) * | 2010-11-03 | 2012-05-16 | 汉王科技股份有限公司 | 印刷体阿拉伯字符预处理方法和装置 |
CN103093224A (zh) * | 2011-11-08 | 2013-05-08 | 佳能株式会社 | 确定平均字符宽度的方法和装置及字符切分方法和设备 |
CN104616009A (zh) * | 2015-02-13 | 2015-05-13 | 广州广电运通金融电子股份有限公司 | 一种字符切割识别方法 |
CN104715252A (zh) * | 2015-03-12 | 2015-06-17 | 电子科技大学 | 一种动态模板结合像素点的车牌字符分割方法 |
-
2015
- 2015-07-14 CN CN201510413366.6A patent/CN106339704A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000040122A (ja) * | 1998-07-23 | 2000-02-08 | Ricoh Co Ltd | 文字切り出し方法 |
CN101251892A (zh) * | 2008-03-07 | 2008-08-27 | 北大方正集团有限公司 | 一种字符切分方法和装置 |
CN102456138A (zh) * | 2010-11-03 | 2012-05-16 | 汉王科技股份有限公司 | 印刷体阿拉伯字符预处理方法和装置 |
CN102156865A (zh) * | 2010-12-14 | 2011-08-17 | 上海合合信息科技发展有限公司 | 手写文本行字符切分方法、识别方法 |
CN103093224A (zh) * | 2011-11-08 | 2013-05-08 | 佳能株式会社 | 确定平均字符宽度的方法和装置及字符切分方法和设备 |
CN104616009A (zh) * | 2015-02-13 | 2015-05-13 | 广州广电运通金融电子股份有限公司 | 一种字符切割识别方法 |
CN104715252A (zh) * | 2015-03-12 | 2015-06-17 | 电子科技大学 | 一种动态模板结合像素点的车牌字符分割方法 |
Non-Patent Citations (1)
Title |
---|
张美璟: "基于字符综合特征的车牌字符分割算法", 《电脑知识与技术》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108734845A (zh) * | 2017-04-20 | 2018-11-02 | 深圳怡化电脑股份有限公司 | 检测纸币冠字号的方法及装置 |
CN108734845B (zh) * | 2017-04-20 | 2021-01-01 | 深圳怡化电脑股份有限公司 | 检测纸币冠字号的方法及装置 |
CN107767531A (zh) * | 2017-10-24 | 2018-03-06 | 深圳怡化电脑股份有限公司 | 纸币识别方法及系统 |
CN109993749A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 提取目标图像的方法和装置 |
CN110378347A (zh) * | 2019-07-04 | 2019-10-25 | 北京爱医生智慧医疗科技有限公司 | 一种医疗检验单的关键信息提取方法及装置 |
CN110378347B (zh) * | 2019-07-04 | 2021-10-08 | 北京爱医生智慧医疗科技有限公司 | 一种医疗检验单的关键信息提取方法及装置 |
CN110443251A (zh) * | 2019-08-13 | 2019-11-12 | 树根互联技术有限公司 | 仪表图像识别方法及装置 |
CN112784125A (zh) * | 2021-01-14 | 2021-05-11 | 辽宁工程技术大学 | 一种输入信息的模式识别方法和装置 |
TWI775634B (zh) * | 2021-10-07 | 2022-08-21 | 博相科技股份有限公司 | 英文字體影像辨識方法 |
CN117689213A (zh) * | 2024-01-31 | 2024-03-12 | 四川省华地建设工程有限责任公司 | 基于人工智能的泥石流风险评估方法及系统 |
CN117689213B (zh) * | 2024-01-31 | 2024-04-05 | 四川省华地建设工程有限责任公司 | 基于人工智能的泥石流风险评估方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106339704A (zh) | 字符识别方法和字符识别设备 | |
US8131087B2 (en) | Program and apparatus for forms processing | |
CN104751187B (zh) | 抄表图像自动识别方法 | |
US6249605B1 (en) | Key character extraction and lexicon reduction for cursive text recognition | |
US20180374098A1 (en) | Modeling method and device for machine learning model | |
US8224092B2 (en) | Word detection method and system | |
EP2166488B1 (en) | Handwritten word spotter using synthesized typed queries | |
US8005294B2 (en) | Cursive character handwriting recognition system and method | |
CN111046784A (zh) | 文档版面分析识别方法、装置、电子设备和存储介质 | |
JP4172584B2 (ja) | 文字認識結果出力装置、文字認識装置、その方法及びプログラム | |
CN106156766A (zh) | 文本行分类器的生成方法及装置 | |
Assabie et al. | Offline handwritten Amharic word recognition | |
WO2023038722A1 (en) | Entry detection and recognition for custom forms | |
US8340428B2 (en) | Unsupervised writer style adaptation for handwritten word spotting | |
US8401298B2 (en) | Storage medium storing character recognition program, character recognition method, and character recognition apparatus | |
CN103310209A (zh) | 识别图像中的字符串的方法和装置 | |
US8805076B2 (en) | Image processing apparatus, image processing method and computer readable medium | |
CN113837255A (zh) | 预测以细胞为基质的抗体核型类别的方法、设备和介质 | |
Toselli et al. | Viterbi based alignment between text images and their transcripts | |
Toselli et al. | Alignment between text images and their transcripts for handwritten documents | |
Rao et al. | Orthographic properties based Telugu text recognition using hidden Markov models | |
Sturgeon | Unsupervised extraction of training data for pre-modern Chinese OCR | |
Shreekanth et al. | A novel data independent approach for conversion of hand punched Kannada braille script to text and speech | |
JPH11184976A (ja) | 辞書学習方式および文字認識装置 | |
JP2001236467A (ja) | パターン認識方法、装置、およびパターン認識プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170118 |