CN100501764C - 字符识别系统及方法 - Google Patents

字符识别系统及方法 Download PDF

Info

Publication number
CN100501764C
CN100501764C CNB018026621A CN01802662A CN100501764C CN 100501764 C CN100501764 C CN 100501764C CN B018026621 A CNB018026621 A CN B018026621A CN 01802662 A CN01802662 A CN 01802662A CN 100501764 C CN100501764 C CN 100501764C
Authority
CN
China
Prior art keywords
character
distance
classification
reference vector
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB018026621A
Other languages
English (en)
Other versions
CN1388947A (zh
Inventor
S·纳卡迦瓦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of CN1388947A publication Critical patent/CN1388947A/zh
Application granted granted Critical
Publication of CN100501764C publication Critical patent/CN100501764C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1912Selecting the most significant subset of features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)

Abstract

在先有技术中,在对具有大量字符的语言,如日语的字符识别中,从一个输入图案中提取一个特征向量,计算该特征向量与参考向量之间的距离,并将与具有最小距离值的参考向量相对应的字符选择为识别出的字符。然而,在对具有大量字符的语言的字符识别中,由于要被比较的参考向量的数目巨大,限制了字符识别处理速度的提高。在本发明中,根据字符出现频率将与目标字符相应的参考向量分类为多个类别。当计算特征向量与参考向量之间的距离时,按顺序从具有高字符出现频率的类别的参考向量进行比较,这样字符识别的处理速度就得到了提高。

Description

字符识别系统及方法
技术领域
本发明涉及对于一种带有大量字符的语言的字符识别,如日语、汉语或者韩语。
背景技术
在对如日语、汉语或韩语这样的具有大量字符的语言进行的字符识别中,采用了这样一种方法,从输入图案中提取特征,以提取出特征向量,特征向量与事先为所有将要被识别的目标字符提取的参考向量之间的距离被计算出来,并且与具有最小距离值的参考向量相对应的字符被选中为识别出的字符。
日本专利未审查的公开No.Hei.2-186490中公开了一种系统,用于通过计算从输入字符的图案中提取的向量与从事先储存的目标字符中提取出的参考向量之间的距离来进行字符识别。在该系统中,输入图案的向量与参考向量之间的欧几里得距离(Euclidean distance)被计算出来并与一个预定的阈值进行比较,以执行字符识别。
日本专利未审查的公开No.Hei.4-286087中公开了一种系统,用于通过从输入字符图案中提取一个特征向量并计算与储存在一个特征字典中的参考向量的欧几里得距离来执行字符识别,其中,特征字典针对各个相近的字符类别被分为多个群组,输入图案的特征向量与代表每个群组的参考向量之间的距离被计算出来,并对属于具有最小距离的一个群组的相近字符的参考向量进行详细的识别处理。
一般来说,在具有大量字符的语言中,如日语、汉语或韩语中,有很大量的特征,例如几百或几千种特征被使用,以提高识别的精确性。在基于与每个候选字符相应的参考向量的距离的字符识别系统中,通常所花费的计算时间与候选字符的数目和特征的数目的成比例的,这样,识别速度的下降就成为了一个问题。具体地,作为距离,存在着欧几里得距离
Figure C01802662D00091
加权欧几里得距离
Figure C01802662D00092
城市街区距离(cityblock distance) Σ i = 1 m | x i - r i | , 其中,
X=(x1,...,xm):输入图案的特征向量
Rj=(rj1,...,rjm):第j个候选字符的参考向量
W=(w1,...,wm):特征的加权向量
m:特征的数目
n:目标字符的数目
在任何情况下,针对各自特征对距离元素(xi-ri)2,|xi-ri|进行n×m次计算,也就是说,计算次数为(候选字符数目)×(特征数目)。
在前述的日本专利未审查的公开No.Hei.4-286087中,欧几里得距离的计算被限定在相近字符群组,这样处理速度得到了提高。然而,这预示着,很难适当地确定一个代表性的向量作为相近字符群组的选择标准,并且预示着识别精确度依据代表向量的质量而有所降低。
发明内容
本发明的一个目的是提高字符识别的速度而不降低识别精确度,即使是在一种包含的候选字符数目很大的语言中被使用的特征数目非常大的情况下。
依据本发明的一个方面,提供了一种具有下列结构的字符识别系统。即,在通过比较一个从输入图案中提取出的特征向量与事先储存的目标字符的参考向量之间的差距来进行字符识别的字符识别系统中,其特征在于:所有字符根据目标字符的出现频率被分类为多个类别;所述字符识别系统,包括:字典存储设备,用于储存每个类别的参考向量;以及字符候选对象选择部,用于计算特征向量与属于多个类别中具有最高字符出现频率的类别的多个字符的参考向量之间的距离,并且在存在小于为该类别确定的类别阈值的距离时,选择与该距离对应的参考向量的字符作为字符候选对象。作为与参考向量的距离,虽然欧几里得距离、加权欧几里得距离、城市街区距离等被使用,这里通称为名词“距离”。
通过来自一组数量巨大的文本格式文件(这被称为文本语言资料库)的统计信息来计算目标字符的出现频率,例如旧新闻文章,本发明人从对于每种语言由大约两千万个字符组成的文本语言资料库(corpus)中获得出现频率并使用它们。依据本发明,所有字符被根据目标字符的出现频率分类为多个类别,参考向量被储存在每个类别的字典中,距离计算是在从输入字符图案中提取出的特征向量与属于多个类别中字符出现频率最高的类别的多个字符的参考向量之间进行的,当一个距离值满足一个特定阈值之内,该字符被选择为字符候选对象。依据发明人获得的统计数字,例如,在日语中,属于出现频率最高的类别的382个字符占了文本语言资料库的80%左右。因此,可以预期,同样在文件中,大约80%的字符被包含在最高频率类别的382个字符中。本发明这样利用统计字符出现频率的倾向。首先,只针对属于出现频率最高的类别的一个字符集进行识别,当获得出色的识别结果时,对于其余低出现频率字符集的识别处理被省略,这样字符识别处理的速度就被提高了。实际上,进行编程,以使目标字符集被分为多个目标字符集,识别处理是按高频率的顺序进行的,并且省略对频率低于已获得出色结果的字符集的字符集的识别处理。
依据本发明的另一个方面,当没有距离小于类别阈值时,特征向量与属于具有次高字符出现频率的类别的多个字符的参考向量之间的距离被计算出来,而当距离小于为该类别确定的第二类别阈值时,与该距离相对应的参考向量的字符被选择为字符候选对象。
依据本发明的又一个方面,出于在对参考向量之一的距离计算上同样提高速度的目的,进行一个通过累计对于所有特征的距离元素来计算距离值的过程,使用n个特征元素的累计进行对一个累计距离值的计算,(1)累计距离值被与一个字符候选对象选择阈值进行比较,(2)如果它不大于该阈值,则下n个特征元素的距离元素被累计地计算,(1)和(2)的过程反复进行,当累计距离值超过字符候选对象选择阈值时,判定参考向量被排除出候选对象,并开始进行与下一个参考向量的比较,以使处理时间缩短。进而,依据本发明,通过改变累计距离元素的顺序,可以有效地根据累计距离值来进行对距离计算处理的省略。具体地,使用所有目标字符的全部训练图案,获得针对各个特征的距离元素分布,并按其平均值降序进行距离元素的累计。对于这样的距离元素的排序,存在一种方法可以对所有目标字符的参考向量进行一种通用排序,存在一种方法可以以距离元素的平均分布按降序对每个参考向量进行排序,以及类似方法。
特征向量是从所有目标字符的一种训练图案中提取出来的,并且参考向量被准备为例如针对日语的数百维的向量。当观察了针对所有字符的每一维(即每种特征)的距离元素分布时,距离元素的均值很大就意味着该维特征的作用导致了所有距离值的增长。在正确字符的情况下,由于期望距离值变得很小,可以说,这样的维特征对于在早期判定一个字符处于候选对象之外是有效的。因此,针对构成参考向量的所有字符每维的距离元素均值被提前从训练数据中提取出来,并准备这样的向量,其中各自参考向量的特征值被按平均值降序排列。同样针对从输入图案中提取的特征向量,按这种顺序排序的向量被准备,并且在一个参考向量和该特征向量的距离计算中,以这个顺序来进行距离元素的累计。例如,首先,其中累计了最高到50维的距离元素的累计距离值被计算出来,如果这达到了阈值,则判定这个参考向量是在候选对象之外的字符,并开始与下一个参考向量的比较。通过这种作法,由于可以不计算所有数百维的距离元素来进行识别处理,识别处理的时间可以得到缩短。
进而,依据本发明的另一个方面,对计算机进行编程,使其动态地将具有第m个(m是要被选择的字符候选对象的数目)最小距离值的字符候选对象的距离值设置为字符候选对象选择阈值。
进而,依据本发明的另一个方面,还包括一个用于为任意字符提供具有相近特征字符的相近字符字典,并且对计算机进行编程,使其响应多个字符候选对象的选择,从相近字符字典中取出与每个字符候选对象相近的字符,计算要被识别的特征向量与相近字符的参考向量之间的距离,对多个字符候选对象的距离值和相近字符的距离值进行排序,并以距离升序选择预定数目的字符作为识别字符候选对象。通过这种处理,同样在正确字符存在于已经被省略掉的低频率字符候选对象类别中时,就有可能使其作为相近字符被包含在候选对象中,这样可以抑制识别精确度的下降。
附图说明
图1是一个功能方块图,显示了本发明的一个实施例的字符识别系统的整体结构。
图2是一个方块图,用于解释在本发明的一个实施例中使用的字典的概念。
图3是一个流程图,显示了从类别1的参考向量中选择字符候选对象的处理过程。
图4是一个流程图,显示了从类别2的参考向量中选择字符候选对象的处理过程。
图5是一个流程图,显示了从类别3的参考向量中选择字符候选对象的处理过程。
图6是一个流程图,显示了相近字符处理的处理过程。
具体实施方式
下面将参照附图对本发明的实施例进行描述。图1是一个功能方块图,显示了在本发明中使用的一个日语字符识别系统示例的整体结构。这个系统是通过在一个一般用途个人计算机或工作站上运行的程序来实现的。一般来说,这种程序被称为OCR(光学字符识别)程序。该系统的一种典型输入图案是通过由一个光学扫描仪对文件进行扫描而得到的图像数据。
当输入图案被接收,OCR程序的字符分段部11对出自位图格式数据的字符进行分段。字符分段本身是一种包含在传统OCR程序中的功能。在一个字符单元中被分段的图像数据被发送到一个特征提取部12,并且字符线的倾斜度、宽度、曲率、面积及其他特征被提取出来。在本实施例中,针对日语,对一个字符提取200个特征。因此,输入图案被一个200维的向量所表示,如下面的表达式,并且被称为特征向量。
[数字表达式1]
x=(x1,x2,...,x200)
以这种方式提取的特征向量被发送到特征排序部13,按照基于后面要描述的平均距离的元素列表对特征进行排序,以生成一个新向量,它被发送到字符候选对象选择部14,计算对于储存在参考字符字典15中的多个目标字符的每个参考向量的加权欧几里得距离。
这里,将参照图2对参考字符字典15进行叙述。通过针对字符的各种不同字样和尺寸的图像图案提取特征向量并取其均值,可以获得对于某一特定字符的一个参考向量。此时,为每个特征值计算偏差(variance),并将其用于加权欧几里得距离的计算,其中其倒数(inverse)成为加权系数。
该方法自身是被常规使用的。所有目标字符的参考向量和加权向量被储存在字典23中。使用对这样储存的字典23的所有参考向量的全部训练图案作为每个特征元素计算距离元素的平均值,并准备一个基于平均距离的特征元素列表24,其中特征的各维被按平均值降序排列。在字典23中保存的各个参考向量和加权向量的各个特征元素被按照列表以距离元素平均值的降序排列。当距离元素平均值很大时,预期候选字符的特征元素中的距离元素值也变大。这样,在后面要解释的距离计算中,距离计算按距离元素平均值的降序被执行。为此,对于从输入图案中提取的特征向量,在特征排序部13中,基于平均距离按特征元素列表对特征元素进行排序。
图2的文本语言资料库是一个通常在社会上使用并被构造为文本格式的文献集合,例如,来自象在线新闻这样的信息源的文献。每个字符的出现频率被从文献集合中计算出来,字符被根据出现频率分类为三个类别。依据发明人的观察结果,使用由大约两千万个字符组成的文本语言资料库对汉语、日语和韩语进行分类,如下表所示。
[表1]
Figure C01802662D00141
也就是说,对于日语来说,被分类为类别1的最高出现频率的382个字符占了文本语言资料库的80.01%,而当出现频率次高的类别2的1126个字符被加入这些中时,它们占了文本语言资料库的99.00%。进而,将被分类到类别3中的低出现频率的1459个字符被加入这些中,它们可以覆盖文本语言资料库的99.96%。这意味着,当构造具有最高到JIS(日本工业标准)二级的大约6000个字符的日语字符识别系统时,即使针对它们当中的2967个字符,候选对象之外的字符比例最多也只有0.04%,实际上的损失并不很严重。此外,可以理解到,在这2967个字符中,在统计频率上还存在着相当大的倾斜。类似的观察结果也可以在汉语和韩语中看到。
在本发明的实施例中,基于这样的观察结果,包含在参考向量字典15中的参考向量被根据表1分类为三个类别。在与输入图案特征向量距离的计算中,首先,对于类别1的各个参考向量的距离被计算出来,当存在具有足够小的距离,即,足够高的接近程度的参考向量时,识别处理在对类别1的参考向量的距离计算内结束,并且不进行对类别2和类别3的参考向量的距离计算。在这种情况下,距离计算在对382个参考向量的距离计算之内结束,而对类别2的1126个参考向量和类别3的1459个参考向量的距离计算被省略掉了,这样为特征向量所执行的距离计算的时间可以被大大缩短。
作为输入图案特征向量与类别1的382个参考向量的距离计算结果,当不存在具有足够小的距离值的参考向量时,执行对类别2的1508个参考向量的距离计算,当存在具有足够小的距离值的参考向量时,计算在对类别2的参考向量的距离计算之内结束,不执行对类别3的参考向量的距离计算。通过这种处理,距离计算的时间可以得到缩短。
由于最高到类别2的字符占了文本语言资料库的99%,可以预期在给定文本中,有1%的字符不能通过对类别1和类别2的距离计算找出合适的字符候选对象。针对大约1%的输入图案特征向量,经过对类别1和类别2的参考向量的距离计算,开始对类别3的参考向量进行距离计算。以这种方式,在类别3的参考向量当中,一个具有较小距离的参考向量被选择为字符候选对象。
当字符候选对象选择部14以这种方式选择出字符候选对象时,处理过程进行到相近字符的处理部16。相近字符处理部16参考一个相近字符字典17来提高字符识别的精确度。在相近字符字典中,为每个字符准备一个在字符识别中易于被混淆的字符列表。当相近字符处理部16从字符候选对象选择部14接收一个或多个字符候选对象时,它对每个字符候选对象参考相近字符字典,以读出相近字符,并从参考向量字典15中读出相近字符的参考向量。
从输入图案中提取的特征向量与多个相近字符的参考向量的距离计算被执行,预定数目的字符被输出为最终字符候选对象,它们是按包含字符候选对象的集合与相近字符之间的距离升序排列的。这里,名词“最终”意味着借助距离计算进行的字符识别阶段结束了。在实际的字符识别系统中,其后,还执行一个通常被称为后处理的处理过程。该后处理用于基于上下文分析、相邻关系分析、相邻字符出现概率等来确定字符候选对象的优先级顺序。由于后处理本身是一种常规使用的技术,详细描述在此省略。
类别1字符候选对象选择处理过程
接着,将参考图3对本发明的实施例的字符识别系统的处理流程进行描述。这是一个用于从类别1的候选字符集中选择出10个候选字符的处理过程。当通过扫描仪扫描而获得的输入图案被传送给本发明实施例的字符识别程序时(301),在字符分段部11(图1)中将图像数据分段为各个字符区域,并在特征提取部12(图1)中针对各个字符区域进行如上所述的特征提取(302)。以这种方式提取的特征向量被发送到特征排序部13,并根据结合图2所解释的平均距离在特征元素列表中对特征进行排序(303)。接下来,针对所有维数,为前10个参考向量分别计算10个距离值(304),并且阈值Th被设定为以这种方式计算出的10个距离值中最高的距离值(314)。使用加权欧几里得距离作为距离值,并如下面所示的表达式2,计算j=1到200时的距离值。然后,从参考向量字典15读出的类别1的参考向量的数目i被设为11,变量的初始值被设为k=0和m=0(305),包含在距离计算中的特征向量与参考向量的维数j为j=m+50×k,并且m从1到50进行变化(306)。以这种方式,参考向量与特征向量之间对维数1到50的距离Di被从下列表达式中计算出来(307)
[数字表达式2]
Di=∑wj(xj-rj)2
(j=1到50)
这里,wj为结合图2的参考向量字典23所解释的每个参考向量中一个加权向量中的每个元素。xj表示从输入图案中提取的特征向量的每个元素,而rj表示参考向量的每个元素。从表达式2所得的值的平方根的值为被称为加权欧几里得距离的距离值。这里,为了简化,将在求平方根之前的值用作加权欧几里得距离的标准,并被称为距离。当对于一个参考向量的距离Di超过阈值Th时(321),判定这个参考向量作为对这个特征向量的一个字符候选对象是不合格的。此时,在步骤312判断对于类别1的所有382个参考向量的距离比较是否已经结束,如果没有结束,则i被递增加1,并进行对下一个参考向量的距离Di的计算(307)。当对参考向量的距离Di为阈值(Th)或小于它时(321),检查维数j是否达到了200(308),如果不到200,则k被递增加1(309),对维数j从51到100的距离进行计算。以这种方式,对j=51到100计算距离并将其与先前计算的j=1到50的距离相加,j=1到100的距离Di被计算出来(307)。
作为结果,当Di超过Th,i通过步骤312被递增加1,处理过程进行到与下一个参考向量的比较。如果Di为Th或小于它,则k通过步骤309被递增加1,距离Di,即对j=100到150的距离Di被计算(307)。这个处理被重复进行,当j达到200而Di处于Th或小于它的状态时,也就是说,如果包括所有维数在内的距离Di为阈值或小于它时,在这时与该参考向量相对应的字符被储存到存储器中作为字符候选对象,成为系统输出的候选对象(310)。在该存储器中,储存了在处理过程中的前10个参考向量的字符代码与距离值。新字符候选对象被输入到该存储器中,在先前已储存的字符代码中具有最大距离值的字符被从存储器中删除。以这种方式,在该存储器中,10个字符候选对象被按距离升序排列储存。然后,在这10个字符候选对象的距离值中,最大值被设为一个新的阈值Th(311)。作为与后续参考向量的比较结果,当一个新字符候选对象被传送到存储器时,在先前储存在存储器中的10个字符候选对象当中,具有最大距离值的字符候选对象被从存储器中删除,改新字符候选对象被加到该存储器中。然后,新的10个字符候选对象中的最大距离值被设为阈值Th。
象这样,在字符候选对象的数目达到10之后,在方块307中进行判断所用的阈值被动态地改变。在方块312中,当i=382被满足时,即当对类别1的所有参考向量的距离计算结束时,判断储存在存储器中的10个字符候选对象当中的最小距离值Dbest是否小于事先为类别1的字符候选对象选择而设置的类别阈值Thstage1(318)。在本实施例中,Thstage1被设为,例如120,000。存在满足该条件的字符候选对象意味着在类别1中的字符候选对象选择处理中获得了具有足够高的接近程度的字符候选对象。因此,在这种情况下,储存在存储器中的10个字符候选对象被发送到相近字符处理部16中,对该输入图案的特征向量的字符候选对象选择处理(14)就结束了。
类别2字符候选对象选择处理过程
当方块318的条件没有被满足时,开始一个从类别2的参考向量中选择字符候选对象的处理过程(320)。下面将参照图4对类别2的字符候选对象选择处理进行描述。现在,由于进行的是日语的字符识别,1126个目标字符的参考向量与加权向量在参考向量字典15中被储存为类别2的参考向量。当开始类别2的字符候选对象选择处理过程时,执行初始设置使i=1,k=0,且m=0(502),距离计算的特征向量与参考向量的维数j为j=m+50×k,m从1到50变化(503),并执行第i个参考向量和从输入图案中提取的特征向量之间的距离值Di的计算(504)。当距离值Di大于阈值Th时(515),并且i没有达到i=1126(510)时,i被递增加1(511),处理过程进行到对下一个参考向量的距离值的计算。
当距离值Di为阈值或小于它时,k被增量加1,为下50维计算距离值,即,j=51到100,并且该值被与前面对j=1到50计算的距离值相加,以计算j=1到100的距离值Di(504)。当距离值Di超过Th并且i没有达到i=1126时(510),i被增量加1,处理过程进行到对下一个参考向量的距离计算(511)。当Di没有超过Th时,k被增量加1,j被增加到下50维,并通过与上面相同的处理过程来计算j=1到150的距离值Di(504)。当这个处理过程被重复进行并且j达到j=200而Di处于没有超过Th的状态时(505),与该参考向量相对应的字符代码被输入到存储器(508)。在存储器中,在前面的类别1字符候选对象选择处理过程中被选择的字符候选对象被储存起来。如果字符候选对象的数目达到10,具有最大距离值的字符候选对象被从存储器中删除,并且加入一个新的字符候选对象,以使字符候选对象的数目保持在10个。然后,在10个候选对象的距离值中的最大距离值成为新的阈值Th(509)。
此后,当参考向量通过方块515的测试并被输入到存储器时(508),进行与上面相似的字符候选对象替换,并且动态地改变阈值Th。当在方块510中满足i=1126时,也就是说,当对类别2的全部1126个参考向量执行了字符候选对象选择处理过程时,判断储存在存储器中的10个字符候选对象的最小距离值是否小于类别2的类别阈值Thstage2(512),如果是小于的话,字符候选对象选择处理(14)结束,这10个字符候选对象被发送到相近字符处理部16(图1)。在本实施例中,Thstage2被设为,例如,大于Thstage1 150,000。也就是说,类别2的类别阈值比类别1的阈值更加宽松。当方块512的条件没有被满足时,处理过程进行到对类别3的参考向量的字符候选对象选择处理过程。
类别3字符候选对象选择处理过程
图5是对类别3的1459个参考向量的字符候选对象选择处理过程。除了方块610的判断是类别3的参考向量数目1459之外,方块602到610与图4的方块502到510相同。因此,对这些方块的解释就被省略了。当在方块610中满足i=1459并且对类别3的全部1459个参考向量的字符候选对象选择处理过程结束时,字符候选对象选择处理过程就结束了,储存在存储器中的10个字符候选对象被发送到相近字符处理部16。此时,当存储器中储存的字符候选对象数目小于10时,所有字符候选对象被发送到相近字符处理部16。
相近字符处理过程
接下来,将参照图6对相近字符处理过程进行描述。当图1的相近字符处理部16从字符选择候选对象选择部14接收到10个字符候选对象时,它对每个字符候选对象参照相近字符字典,并读出相近字符(41)。相近字符的参考向量和加权向量被从参考向量字典15中读出,并计算与从输入图案中提取的特征向量的距离值(42)。在对所有读出的相近字符进行了加权欧几里得距离的计算之后,10个字符候选对象的距离值和这些相近字符被排序,并按距离值以升序选择10个字符(43)。
在以这种方式获得的10个最终候选对象中,具有最小距离值的一个被输出为识别出的字符,其余9个候选对象被输出为替补候选对象。这里,虽然字符候选对象的选择是以只进行参考向量对目标字符的比较为基础而进行的,但在字符候选对象选择的中途阶段,或者在字符选择对象选择的完成阶段,最好根据文本的语法分析、单词的相邻关系、字符之间的从属关系等来改变字符候选对象的优先级,也就是说,执行所谓的后处理过程。
作为OCR程序的输出,文本作为以这种方式获得的最高优先级的字符集合被提交给用户。用户可以根据文本的上下文在OCR输出中找出识别错误。在这种情况下,当用户点击错误字符时,以下拉形式显示9个替补字符,当用户点击其中之一时,用该字符替代错误字符。
虽然对本发明在具体实施例上进行了描述,但本发明并不局限于类似这种实施例。

Claims (18)

1.一种用于通过比较从一个输入图案中提取的特征向量与预先储存的目标字符的参考向量之间的距离来进行字符识别的字符识别系统,其特征在于:
所有字符根据目标字符的出现频率被分类为多个类别;
所述字符识别系统,包括:
字典存储设备,用于储存每个类别的参考向量;以及
字符候选对象选择部,用于计算特征向量与属于多个类别中具有最高字符出现频率的类别的多个字符的参考向量之间的距离,并且在存在小于为该类别确定的类别阈值的距离时,选择与该距离对应的参考向量的字符作为字符候选对象;在没有小于该类别阈值的距离时,计算特征向量与属于具有次高字符出现频率的类别的多个字符的参考向量之间的距离,并在存在小于为该类别确定的第二类别阈值的距离时,选择与该距离对应的参考向量的字符作为候选字符。
2.依据权利要求1的字符识别系统,其特征在于:还包括一个表示多个参考向量的特征的平均距离顺序的列表;以及
用于将在从输入图案提取的特征向量的特征按照列表以平均距离降序排序的特征排序部;
其中,所述字符候选对象选择部,对最高到第n个特征的特征与参考向量之一计算对相应特征的距离,(1)将该距离与字符候选对象选择阈值进行比较,(2)如果该距离不大于该阈值,则包括下n个特征的距离被计算,过程(1)和(2)被重复进行,而且当该距离超过字符候选对象选择阈值时,开始与下一个参考向量进行比较,其中,n是大于零的自然数。
3.依据权利要求2的字符识别系统,其特征在于:还包括存储器部,用于当基于所有特征的距离值不超过字符候选对象选择阈值时,将一个与作为比较对象的参考向量相对应的字符储存为一个字符候选对象。
4.依据权利要求3的字符识别系统,其特征在于:所述字符候选对象选择部,动态地将具有第m个最小距离值的字符候选对象的距离值设为字符候选对象选择阈值,m为要选择的字符候选对象数目,其中,m是大于零的自然数。
5.依据权利要求4的字符识别系统,其特征在于:所述字符候选对象选择部,当对属于具有最高字符出现频率类别的参考向量与特征向量的距离计算完成时,并且当这些距离中的一个或多个距离小于为该类别确定的阈值时,选择与从最小距离到第m个最小距离的参考向量相对应的m个字符作为字符候选对象,其中,m是大于零的自然数。
6.依据权利要求1的字符识别系统,其特征在于,还包括:一个相近字符字典,用于向任意字符提供具有相近关系的字符;以及
相近字符处理部,用于响应多个字符候选对象的选择,从相近字符字典中取出与各个字符候选对象相近的字符,计算要被识别的特征向量与相近字符的参考向量之间的距离,对多个字符候选对象的距离值和相近字符距离值进行排序,并按距离升序选择预定数目的字符作为识别字符候选对象。
7.依据权利要求1的字符识别系统,其特征在于:所述字符候选对象选择部,当没有小于次高字符出现频率类别的类别阈值的距离时,计算特征向量与属于具有第三高字符出现频率的类别的多个字符的参考向量之间的距离,当存在小于为该类别确定的类别阈值的距离时,将与该距离相对应的参考向量的字符选择为字符候选对象。
8.依据权利要求1的字符识别系统,其特征在于,还包括:相近字符字典,用于为任意字符提供具有相近关系的字符;以及
相近字符处理部,用于响应多个字符候选对象的选择,从相近字符字典中取出与各个字符候选对象相近的字符,计算要被识别的特征向量与相近字符的参考向量之间的距离,对多个字符候选对象的距离值和相近字符的距离值进行排序,并按距离升序输出预定数目的字符作为识别字符候选对象。
9.一个通过比较从一个输入字符图案中提取的特征向量与预先储存的目标字符图案的参考向量之间的距离来进行字符识别的字符识别系统,其特征在于,包括:
字典存储设备,用于储存通过对充分遍及全部字符的目标字符的参考向量特征与参考向量的平均距离值进行计算而准备的表示平均距离下降顺序的信息;以及
字符候选对象选择部,用于计算输入字符特征向量与多个参考向量的每一个之间的距离,将计算出的距离值中相对小的距离值设为一个阈值,计算下一个参考向量与最高到预定中途维数的特征向量之间的距离,当在该维的距离值超过阈值时停止对该参考向量的距离计算,并进行对下一个参考向量的距离计算,当在中途维数的距离值不超过阈值时,计算最高到第二中途维数的距离值,并当在第二中途维数的距离值超过阈值时停止对参考向量的距离计算并进行对下一个参考向量的距离计算。
10.一个通过比较从一个输入字符图案中提取的特征向量与预先储存的目标字符的参考向量之间的距离来进行字符识别的字符识别系统,包括:
字典存储设备,其中所有字符被根据目标字符的出现频率分类为多个类别并且参考向量被与分类信息储存在一起;
距离计算装置,用于计算特征向量与属于在多个类别中具有最高字符出现频率的类别的多个字符的参考向量之间的距离;以及
选择装置,用于当由距离计算装置对属于具有最高字符出现频率的类别的一个或多个字符计算的距离小于一个预定阈值时,根据对属于具有最高字符出现频率的类别的字符的参考向量的距离计算来选择字符候选对象;
其中,当由距离计算装置对属于具有最高字符出现频率的类别的一个或多个字符计算的距离大于预定阈值时,距离计算装置计算特征向量与属于具有次高字符出现频率的类别的多个字符的参考向量之间的距离,当对属于具有次高字符出现频率的类别的一个或多个字符计算的距离小于预定阈值时,根据对属于具有次高字符出现频率的类别的字符的参考向量的距离计算来选择字符候选对象。
11.一种字符识别方法,其中根据目标字符的出现频率将所有字符分类为多个类别,使用一个带有字典存储设备的计算机,该字典存储设备用于储存对每个类别的参考向量,并且对从输入图案中提取的特征向量与预先储存的目标字符的参考向量之间的距离进行比较来进行字符识别,该方法包括以下步骤:
(a)计算特征向量与属于多个类别中具有最高字符出现频率的类别的多个字符的参考向量之间的距离;
(b)在存在小于为该类别确定的类别阈值的距离时,选择与该距离相对应的参考向量的字符作为候选字符;
(c)当没有小于类别阈值的距离时,计算特征向量与属于具有次高字符出现频率的类别的多个字符的参考向量之间的距离;并且
(d)当存在小于为该类别确定的第二类别阈值的距离时,选择与该距离相对应的参考向量的字符作为候选字符。
12.依据权利要求11的字符识别方法,其中使用了一个表示多个参考向量特征的平均距离顺序的列表,并且该方法还包括以下步骤:
(a)根据按平均距离降序排列的列表对从输入图案中提取的特征向量的特征进行排序,然后,针对参考向量中的一个并且针对最高到第n个特征的特征计算与相应特征的距离;并且
(b)重复进行下面的步骤(b-1)和(b-2),并在距离超过一个字符候选对象选择阈值时进行与下一个参考向量的比较,
(b-1)比较与该字符候选对象选择阈值的距离,并且
(b-2)如果该距离不大于该阈值,则计算包括下n个特征的距离,其中,n是大于零的自然数。
13.依据权利要求12的字符识别方法,其中当包括所有特征的距离不超过字符候选对象选择阈值时,与作为比较对象的参考向量相对应的字符在一个存储器中被储存为一个字符候选对象。
14.依据权利要求13的字符识别方法,还包括动态地将具有第m个最小距离值的字符候选对象的距离值设为字符候选对象选择阈值的步骤,m为要被选择的字符候选对象的数目,其中,m是大于零的自然数。
15.依据权利要求14的字符识别方法,其中当对属于具有最高字符出现频率的类别的参考向量的特征向量距离计算完成时,当这些距离中的一个或多个距离小于为该类别确定的一个阈值时,与具有从最小距离到第m个最小距离的参考向量相对应的m个字符被选择为字符候选对象,其中,m是大于零的自然数。
16.依据权利要求11的字符识别方法,其中使用一个用于为任意字符提供具有相近关系的字符的相近字符字典,并且该方法还包括以下步骤:
(a)响应多个字符候选对象的选择,从相近字符字典中取出与各个字符候选对象相近的字符;
(b)计算要被识别的特征向量与相近字符的参考向量之间的距离;
(c)对多个字符候选对象的距离值与相近字符的距离值进行排序;并且
(d)按距离升序输出预定数目的字符作为识别字符候选对象。
17.依据权利要求11的字符识别方法,还包括以下步骤:
(a)当没有距离小于具有次高字符出现频率的类别的类别阈值时,计算特征向量与属于具有第三高字符出现频率的类别的多个字符的参考向量之间的距离;并且
(b)当存在小于为该类别确定的类别阈值的距离时,选择与该距离相对应的参考向量的字符作为字符候选对象。
18.依据权利要求11的字符识别方法,其中使用了一个用于为任意字符提供具有相近关系的字符的相近字符字典,并且该方法还包括以下步骤:
(a)响应多个字符候选对象的选择从相近字符字典中取出与各个字符候选对象相近的字符,计算要被识别的特征向量与相近字符的参考向量之间的距离;并且
(b)排序多个字符候选对象的距离值与相近字符的距离值,并按距离升序输出预定数目的字符作为识别字符候选对象。
CNB018026621A 2000-08-31 2001-08-30 字符识别系统及方法 Expired - Fee Related CN100501764C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP262096/00 2000-08-31
JP2000262096A JP4674778B2 (ja) 2000-08-31 2000-08-31 文字認識システム

Publications (2)

Publication Number Publication Date
CN1388947A CN1388947A (zh) 2003-01-01
CN100501764C true CN100501764C (zh) 2009-06-17

Family

ID=18749827

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB018026621A Expired - Fee Related CN100501764C (zh) 2000-08-31 2001-08-30 字符识别系统及方法

Country Status (7)

Country Link
EP (1) EP1314129B1 (zh)
JP (1) JP4674778B2 (zh)
KR (1) KR100843504B1 (zh)
CN (1) CN100501764C (zh)
DE (1) DE60128706T2 (zh)
TW (1) TW540007B (zh)
WO (1) WO2002019248A2 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1305003C (zh) 2003-09-29 2007-03-14 摩托罗拉公司 用户界面上的书写标记识别
CN1619583B (zh) * 2003-11-20 2010-05-05 摩托罗拉公司 手写识别的方法和系统
CN1308889C (zh) * 2003-11-28 2007-04-04 佳能株式会社 字符识别方法和装置
CN101645134B (zh) * 2005-07-29 2013-01-02 富士通株式会社 整体地名识别方法和整体地名识别装置
JP5020513B2 (ja) * 2006-01-11 2012-09-05 シャープ株式会社 パターン認識装置、パターン認識方法、パターン認識プログラム、および記録媒体
KR100641791B1 (ko) 2006-02-14 2006-11-02 (주)올라웍스 디지털 데이터에 대한 태깅 방법 및 시스템
JP5239419B2 (ja) * 2008-03-14 2013-07-17 オムロン株式会社 文字認識プログラム、文字認識電子部品、文字認識装置、文字認識方法、およびデータ構造
KR100921689B1 (ko) * 2008-05-08 2009-10-15 엔에이치엔(주) 언어 인식을 이용하여 이종의 언어를 포함하는 문서의문자를 분할하기 위한 방법, 시스템 및 컴퓨터 판독 가능한기록 매체
CN101593278B (zh) * 2008-05-27 2013-01-16 佳能株式会社 文档图像的语言判别方法和系统
NZ589039A (en) * 2009-09-24 2013-04-26 Nec Corp Recognition of a word image with a plurality of characters by way of comparing two possible candidates based on an evaluation value
CN102129560B (zh) * 2010-01-18 2013-11-06 富士通株式会社 字符识别的方法和设备
JP6003492B2 (ja) * 2012-10-01 2016-10-05 富士ゼロックス株式会社 文字認識装置及びプログラム
CN103761477A (zh) * 2014-01-07 2014-04-30 北京奇虎科技有限公司 一种病毒程序样本的获取方法和设备
CN106557766B (zh) * 2016-11-22 2020-05-19 宇龙计算机通信科技(深圳)有限公司 模糊字符处理方法、系统及电子设备
KR20200010777A (ko) * 2018-07-23 2020-01-31 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. 유사 문자의 과거 인식 결과를 이용하는 문자 인식
CN111507400B (zh) * 2020-04-16 2023-10-31 腾讯科技(深圳)有限公司 应用分类方法、装置、电子设备以及存储介质
CN111783766B (zh) * 2020-07-10 2023-02-14 上海淇毓信息科技有限公司 一种分步识别图像字符的方法、装置和电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4589142A (en) * 1983-12-28 1986-05-13 International Business Machines Corp. (Ibm) Method and apparatus for character recognition based upon the frequency of occurrence of said characters
JPS6282486A (ja) 1985-10-08 1987-04-15 Hitachi Ltd オンライン手書き図形認識装置
US4773099A (en) 1985-10-10 1988-09-20 The Palantir Corporation Pattern classification means for use in a pattern recognition system
EP0498978A1 (en) 1991-02-13 1992-08-19 International Business Machines Corporation Mechanical recognition of characters in cursive script
US5479523A (en) * 1994-03-16 1995-12-26 Eastman Kodak Company Constructing classification weights matrices for pattern recognition systems using reduced element feature subsets
JP2986074B2 (ja) 1995-07-26 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 近傍点検出方法及びパターン認識装置
US6345119B1 (en) * 1996-02-19 2002-02-05 Fujitsu Limited Handwritten character recognition apparatus and method using a clustering algorithm
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
JPH10143613A (ja) * 1996-10-30 1998-05-29 Hewlett Packard Co <Hp> パタン認識方法
SG98366A1 (en) * 1997-07-11 2003-09-19 Matsushita Electric Ind Co Ltd Recording medium of character data of full text and character string collating apparatus

Also Published As

Publication number Publication date
TW540007B (en) 2003-07-01
CN1388947A (zh) 2003-01-01
WO2002019248A2 (en) 2002-03-07
EP1314129A2 (en) 2003-05-28
KR100843504B1 (ko) 2008-07-04
WO2002019248A9 (en) 2002-07-11
EP1314129A4 (en) 2005-06-01
KR20020081210A (ko) 2002-10-26
WO2002019248A3 (en) 2002-05-16
DE60128706T2 (de) 2008-01-24
JP4674778B2 (ja) 2011-04-20
JP2002074268A (ja) 2002-03-15
EP1314129B1 (en) 2007-05-30
DE60128706D1 (de) 2007-07-12

Similar Documents

Publication Publication Date Title
CN100501764C (zh) 字符识别系统及方法
US7254269B2 (en) Character recognition system
US6970601B1 (en) Form search apparatus and method
US5267332A (en) Image recognition system
US6125362A (en) Data processing method and apparatus for identifying classification to which data belongs
US7426509B2 (en) Method and apparatus for document filtering using ensemble filters
US6907141B1 (en) Image data sorting device and image data sorting method
US4989258A (en) Character recognition apparatus
CN109522544A (zh) 基于卡方检验的句向量计算方法、文本分类方法及系统
CN111144399A (zh) 处理图像的装置和方法
CN114663002A (zh) 一种自动化匹配绩效考核指标的方法及设备
US5426711A (en) Online handwritten character recognition
JP3482191B2 (ja) 住所読み取りのための方法
JP2986074B2 (ja) 近傍点検出方法及びパターン認識装置
CN108062563A (zh) 一种基于类别均衡的代表样本发现方法
CN116630790B (zh) 一种基于边缘精度评价的分类结果优化方法
EP0650136B1 (en) A comparison inequality function based method and apparatus for accelerated OCR correlation
EP0519737A2 (en) Image recognition system
KR900007727B1 (ko) 문자 인식 장치
JP2766205B2 (ja) 文字認識装置
CN114048366A (zh) 基于LightGBM模型的大数据平台海量数据分类方法及系统
CN117315681A (zh) 一种训练集优化方法、装置及存储介质
CN113947079A (zh) 一种企业行业标签的生成方法及装置
CN114971517A (zh) 一种产业园区招商项目线索的智能核查方法及系统
CN115731555A (zh) 一种单据分类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090617

Termination date: 20100830