CN1035844C

CN1035844C - 在字符识别系统中选取候选字符的方法

Info

Publication number: CN1035844C
Application number: CN92111432A
Authority: CN
Inventors: 崔宰均
Original assignee: Gold Star Co Ltd
Current assignee: LG Electronics Inc
Priority date: 1991-10-09
Filing date: 1992-10-09
Publication date: 1997-09-10
Anticipated expiration: 2007-10-09
Also published as: KR0186025B1; TW231344B; JPH05225394A; US5596657A; CN1071527A; KR930008669A

Abstract

一种在字符识别系统中选取候选字符的方法，包括：字符特征提取步骤，以字符的串长度信息为基础，提取字符的特处；字符分布提取步骤，在提取的字符特征基础上确定字符的位置信息；字符分类基准数据存储步骤，在存储器中存储作为字符分类基准数据的确定的字符位置信息；以及候选字符选取步骤，选取属于存储在存储器中的与要识别的输入字符的特征相对应的一个具体位置的字符作为输入字符的候选字符。与现有技术相比，依照本发明，字符识别时间为减少，而字符识别的准确率为增加。

Description

在字符识别系统中选取候选字符的方法

本发明总的来说涉及在字符识别系统中选取候选字符的方法，即利用统计的方式识别字符，更具体地说，涉及这样的在字符识别系统中选取候选字符的方法，它能够在串长(run-lengths)的基础上对组合型字符如朝语，汉语字符通过选取字符特征，迅速准确地选出候选字符。

根据现有技术的一种统计字符识别系统中对候选字符的识别是这样的，首先根据所有字符得出基本特征，然后，根据基本特征的相似性将这些字符划分成树形结构。然后，输入要识别的字符，得到输入字符的基本特征，然后在基本特征的基础上，沿着预先存储的树，找出对应于输入字符的候选字符。也就是说，在树上与要识别的输入字符相对应的位置的字符(或字符组)被确定作为输入字符的候选字符。

对于根据所有字符获得基本特征以及根据基本特征的相似性将这些字符分成树形结构的方法，下面几种是人所周知的，即利用网格字符分类法，根据字符的象素距离利用平行特征的字符分类法，以及利用时间/频率变换的字符分类法等。

参见图1，这里显示了根据现有技术利用网格对字符分类的方法。如该图所示，每个字符都被n×n个格子形空间所覆盖，这些格子形空间称为网格。包括在单个网格中的每个字符的象素(例如黑色象素)的个数被计算出来。计算出的数值被作为字符的基本特征。在对应的网格单元中即可得出字符的基本特征的相似性。然后，这些字符被划分成如图2所示的在基本特征相似性的基础上形成的树形结构。

例如，n×n个网格都标上数字，而且每个字符都被标有数字的n×n个网格所覆盖。根据从1到NN(在n×n个的情形)的每个相同数字的网格的基本特征，计算出不同字符的相似性。在相似性的基础上，将这些字符划分到同一类别的字符中。划分到同一类别的字符再分成从第2个到第N×N个的组，从而形成如图2所示的顾大的树形结构。计算相同数字的每个网格的字符的相似性的方法有几种，主要是利用费雪(Fisher)定律，欧氏(Euclidian)距离，马氏(Mahal-anobis)距离等进行计算。

因此，根据输入的未知字符，将输入字符覆盖网格，该网格已标有数字，然后根据网格中输入字符的象素数，得出输入字符的基本特征。根据该未知字符的基本特征，在先前限定的如图2所示的树形结构中检索，找出属于未知字符的在树中的位置。当与未知字符最相似的树位置被找到后，在选取的树位置的字符(字符组)即被确定为未知字符的候选字符。

另外，可以选取少数最确定的特征来取代使用n×n个的总体特征，这样可以减少树的数量。并可使字符分类实现高速。

参见图3，这里显示了在字符象素距离基础上利用平行特征的字符分类法。如该图所示，从围住每个字符的框的左边到每个字符的第一个象素(例如黑色象素)被以线的单位选取出作为分类特征(平行特征)。因此，上述方法即是以上述方式得到的分类特征为基础对字符分类。在该方法中，测量点是根据在限定字符的框上互相之间以恒定的间隔选择的，直线由字符限制框的测量点画到字符的第一象素。直线的长度作为字符的基本特征。

参见图4，这里显示了利用时间/频率变换的字符分类方法。如该图所示，上述方法强调每个字符都具有的特征，利用付氏(Fouri-er)变换，或拉氏(Laplace)变换在二维平面上将时域。因此，上述方法就是根据由上述变换强调的字符特征来区分字符。

但是，利用网格的字符分类法遇到的困难是找出分割并覆盖一个字符的最有效个数的网格。尽管分割的网格的个数越多，字符分类越准确，但网格个数增加会引起更多的时间损失用于获取相似性。从而使字符识别速度降低。由于这个原因，在朝语的大部分情况下，主要使用8×8(64)个网格，而在汉语的情况下，主要使用16×16(256)个网格。如果个数高于所述，则字符识别速度下降。

利用网格的字符分类法还有另一个不利之处，即当字符趋于失真变形时，字符可能被误认，由于树形结构是先前限定的，而字符的候选字符是在树形结构的基础上确定的。也就是说，在某个字符趋于失真变形时，一个或多个字符网格的特征超出临界值，树形结构中搜索出一个非正常的树位置。因此，搜索落入该局部最小值，造成字符的误识。

而且，利用网格的字符分类法还有一个缺点，就是由于较高次的网格增加了特征的个数，所以需要更多的时间进行处理。另外，由于在输入字符的周围混有干扰，在字符限制框的大小不同于输入字符的原来大小时，因在网格的位置上的变化，输入字符误识的可能性变高。

如图3所示的利用平行特征的字符分类法的优点在于与利用网格的字符分类法比，特征个数被减少了。这可使树形结构简化并减少字符识别处理时间。但是，利用平行特征的字符分类法的缺点在于字符分类特征的分支的个数很小。这可造成字符分类不准确。与利用网格的字符分类法类似，由于当字符中有干扰时，字符限制框的大小是变化的，在对字符限制框定位中会引起瓶颈效应。

利用时间/频率变换的字符分类法的优点在于字符的特征可确切地分类，但是缺点是在变换中需要较长时间。而且在组合型字符如朝语、汉语等字符的情况下，由于字符的结构问题，特征位置不能确切地区别。

因此，本发明就是考虑到上述问题而作出的，本发明的目的在于提供一种在字符识别系统中选出候选字符的方法，与现有技术相比它能够减少字符识别时间并增加字符识别的准确率。

按照本发明，上述目的可以通过这样一种在字符识别系统中选出候选字符的方法实现，包括在字符的串长信息基础上取出字符的基本特征的取出字符的基本特征的步骤；在取出的字符的基本特征的基础上确定字符的位置信息的分布选取步骤；在存储器中将字符的确定的位置作为字符分类基准数据器存储的字符分类基准数据存储步骤；取出属于在存储器中存储的与要识别的输入字符相对应的位置的一个具体的字符作为输入字符的候选字符的候选字符选取步骤。

本发明的上述的以及其它的目的、特征和优点从下面的结构附图的详细描述中将会得到更好的理解：

图1显示了根据现有技术的利用网格的字符分类方法，其中字符被8×8个网格所覆盖；

图2显示了根据现有技术的树形结构；

图3显示了根据现有技术的利用平行特征的字符分类法；

图4显示了根据本发明的利用时间/频率变换的字符分类方法；

图5为根据本发明的统计字符识别系统的方框图；

图6为根据本发明显示字符特征选取操作的流程图；

图7为根据本发明显示候选字符选取操作的流程图；

图8为根据本发明显示统计字符识别控制操作的流程图；

图9为根据本发明显示X-Y坐标上字符特征图；

图10显示了根据本发明的以X-Y矩形图基础得到的字符分布空间；以及

图11显示了根据本发明最终得到的候选字符区域。

在传统的统计字符识别方法中，对输入字符的识别是通过从所有的预先存储的字符中选取出与输入字符最相似的特征。因此，对于组合型字符，如朝语和汉语，需预先存储的字符数达14000个，其中2350个是目前使用的。基于这个原因，需要大量时间将输入字符与预先存储的字符逐个比较。这造成了识别速度的降低。而且也需较大容量的存储器。

因而，本发明就是针对以上问题而提出的。根据本发明，作为要被识别的客体的所有字符的特征首先被选取出来，然后，这些字符被分成具有相同特征的组。分成具有相同特征的组的字符被在组单元中预先存储。然后，输入要识别的字符，随后，输入的字符与相同特征的字符组的代表值比较以找出与输入字符最相近的字符组。最相近的字符组找到后，属于找到的组的字符被选出并划分为输入字符的候选字符。然后，通过将输入字符的特征与候选字符的每一个特征比较，进行字符识别处理。

根据本发明，在字符识别系统中选取候选字符的方法，包括取出字符特征，在取出的特征的基础上得出分类基准数据及存储得到的分类基准数据的字符识别处理前序步骤，以及取出要识别字符的特征及在取出的特征的基础上在特征基准数据中选取出候选字符的字符识别处理步骤。

字符识别处理的前序步骤包括字符特征取出步骤10，形成限制字符的框，在字符限制框中得出在水平(X轴)和垂直(Y轴)方向相继的白色素的长度(以下列为白色串)信息以及相继的黑色象素的长度(以下称黑色串)信息，根据得到的信息得出X轴特征和Y轴特征，这些特征表示定位于X-Y坐标的字符的特征点，并对所有字符进行上述操作。将这些字符特征表示成为X-Y坐标值，字符分布选取步骤20得出X-Y坐标值的矩形图，并一个经验得出的临界值去除得到的X-Y坐标值的矩形图，将其划分成字符分布空间，字符就分布在这些空间中，还包括一个分类基准数据存储步骤30，存储将在字符分布选取步骤20划分的字符分布空间的位置坐标以及属于字符分布空间的字符。

在字符识别处理前序步骤以上述方式准备分类基准数据之后，即进行字符识别处理步骤。字符识别处理步骤包括针对输入字符进行字符特征提取步骤10的候选字符的选取步骤40，以获得输入字符在X-Y坐标上的位置特征，提取与获得的输入字符的位置特征相对应的位置的一个字符分布空间，选取属于提取的字符分布空间的字符作为输入字符的候选字符。

字符特征提取步骤10包括：字符限制框形成步骤10，形成准确包围字符的框；白色/黑色串检测步骤12，在字符限制框内从左到右以线为单位扫描字符象素以检测白色串及相继的字符的黑色串并存储检测值(象素数)(Wx(i)，Bx(i)〕(这里i当随着白色串之后检测到黑色串时以1递增的变量)；白-黑色串对值检测步骤13，如果在白/黑色串检测步骤12在X轴方向扫描字符完成后，检测字符的白色串+黑白串对值(WBx(i)＝Wx(i)+Bx(i)〕；X轴特征提取步骤14，在检测的白色串值，黑色串值和白-黑色串对值的基础上，得出字符的X轴特征，可由下述等式表示：

F (x) = \underset{i}{Σ} (Wx (i) / \underset{i}{Σ} (WBx (i)]

Y轴特征提取步骤15，在字符限制框内从上到下以线为单位扫描字符象素，以上述相同的方式获得字符的Y轴特征；步骤16，对同一字符重复进行上述步骤以获得平均位置矢量(Fak(X)，Fak(Y))及字符的标准偏差(Δk(X)，Δk(Y))(其中a代表平均，k第k个字符，Δ标准偏差)；步骤17，以上述相同的方式针对所有字符获得X轴和Y轴特征，以字样的平均位置矢量和标准偏差为基础，确定在X-Y平面上表示的字符的位置坐标。

字符分布提取步骤20包括步骤21，以获得字符的平均标准偏差(Δ_T(X)，Δ_T(Y))，并可用下述等式表示：

Δ_{T} (X) = (Σ_{i = 0}^{m} Δi (X)) / m

Δ_{T} (Y) = (Σ_{i = 0}^{m} Δi (Y)) / m

其中，m代表字符的总数，

Δ_T表示平均标准偏差，还包括步骤22，在字符的平均标准偏差的基础上得到X轴和Y轴矩形图，并用经验得到的临界值去除得到的矩形图，将它们分成字符分布的字符分布空间。

参见图5，这里显示了利用根据本发明的选取候选字符的方法的字符识别系统的框图。如该图所示，该字符识别系统包括一个通用计算机10用来控制字符识别处理过程，一个字符识别处理器20用于在通用计算机控制下进行字符识别，以及一个字符输入单元30用于在通用计算机10控制下扫描文件阅读字符图象。

通用计算机10包括用于键入的键盘11，一个主处器12用于控制字符识别处理，一个主接口单元14，用于与来自主处理器口的数据信号D和控制信号接口，一个用于显示图象的图象显示单元13及辅助存储单元15。

字符识别处理器20包括数据信号处理器21用于字符识别的候选字符选取操作，一个缓冲器22用于缓冲输入/输出字符数据，一个数据存储单元24用于存储字符数据以及还有一个解码器23用于对来自通用计算机10中的主处理器12的地址信息解码，给数据存储单元24编址。

字符输入单元30提供有扫描器接口31和扫描器32，用于在通用计算机10控制下扫描文件以阅读字符图象。

这里标号DS代表数据选择信号，IS代表输入/输出选择信号，ST代表选通信号，INT代表输入信号，ENB代表启动信号，S代表选择信号。

下面描述根据本发明利用上述结构的字符识别系统的选取候选字符的方法。

首先，为了得出字符分类基准数据，用户将所有字符装入扫描器32，并通过键盘11给通用计算机10中的主处理器12一个字符识别处理前序步骤指令，伴随系统的总体操作的控制，主处理器12进行字符识别处理前序步骤。

即，当接收到通过键盘发出的开始命令后，主处理器12进行控制使得进行的情况通过图象显示单元13进行显示，并且一个字符输入指令通过主接口单元14传递到字符输入单元30。

扫描器启动信号/ENB被送到扫描器接口31，于是，该信息通过扫描器接口31加到扫描器32。由于施加了扫描器启动信号/ENB，扫描器32阅读字符图象数据D。

阅读的图象数据D通过缓冲器22传送到数据存储器单元24及辅助存储单元15。

然后，当扫描器32的扫描完成以后，一个来自扫描器接口31的扫描完成信号通过主接口单元14传送到主处理器12。随着扫描完成信号的传送，主处理器12输出地址信号A给地址解码器23，给数据存储单元24编址。结果，存储在数据存储单元24的已编址的位置的字符图象数据通过缓冲器22被加到数据信号处理器21。于是，字符特征提取步骤S10得以进行以得出字符分类基准数据。

在如图6所示的由数据信号处理器21执行的字符特征提取步骤S10，首先进行步骤S11，输入字符图象数据并形成准确围住字符的框。

然后进行步骤S12，在字符限制框中从左到右以线为单位扫描字符象素，以检测白色串和相继的字符的黑色串并存储检测值(象素个数)〔Wx(i)，Bx(i)〕(这里之为当在白色串后检测到黑色串时以1递增的变量)。

如果在白/黑色串检测步骤S12在X轴对字符扫描完成，在步骤S13检测字符的白色串+黑色串对值〔Wx(i)，Bx(i)〕。

然后进行步骤14，在检测的白色串值，黑色串值和白色-黑色串对值的基础上得出字符的X轴特征，可用下述等式表示：

F (y) = \underset{i}{Σ} (Wi (i) / \underset{i}{Σ} (WBi (i)]

这里i为白-黑串对个数。

然后进行步骤S15，在字符限制框内从上到下以线为单位扫描字符象素，以获得字符的X轴特征相同的方式得出字符的Y轴特征。即，在字符限制框中从上到下以线为单位扫描字符象素，以检测字符的白色串值Wy(i)，相继的黑色串值By(i)和白色串-黑色串对值〔Wx(i)，Bx(i)〕。在检测的白色串值、黑色串值和白-黑色串对值的基础上，提取出字符串的Y轴特征，可以用下式表示：

F (y) = \underset{i}{Σ} (Wy (i) \times Wy (i)) . / \underset{i}{Σ} (WBy (i)) .

在步骤16，上述步骤针对同一字符重复进行以获得字符的平均位置矢量(Fak(X)，Fak(Y))和标准偏差(Δ_k(X)，Δ_k(Y))(这里，a表示平均，k表示k个字符，Δ表示标准偏差)。这样，字符的特征被提取出作为X-Y坐标上的点。

对同一字符重复进行上述步骤的原因是由于划分基准数据到一定程度需具有客体。即，要针对同一字符的不同体和大小进行分类程序，并在平均值的基础上确定该相同的字符特征标准。

提取的字符特征表示为两维特征，即X-Y坐标上的点。

然后，进行步骤17，针对所有的字符以上述描述的相同的方式取得X轴和Y轴特征(F(X)，F(Y))，在字符的平均位置矢量和标准矢量的基础上，检测在X-Y平面上表示的字符的位置坐标。结果，字符的特征可以如图9所示那样分别被表示成两维平面上的点。

如果所有字符的特征都以上述方式检测后，则进行步骤20，在检测到的字符的特征的基础上形成字符分布的字符分布空间。

在步骤20后首先进行步骤21，得到字符的平均标准偏差(Δ_T(X)，Δ_T(Y))，并可用下式表示：

Δ_{T} (X) = (Σ_{i = 0}^{m} Δi (X)) / m

Δ_{T} (Y) = (Σ_{i = 0}^{m} Δi (Y)) / m

其中，m代表字符数，

Δ_T代表平均标准偏差。

在步骤22，在字符的标准偏差的基础上得到X轴和Y轴矩形图，然后用一个经验得到的临界值去除得到的矩形图，将其分成字符分布的字符分布空间。该临界值是个由经验得到的常数，使得X轴和Y轴矩形图的总和分别高于一个预定值(例如，50)。被经验得到的临界值除以后，矩形图被分成如图10所示的字符分布空间。很明显，在字符分布较密位置，划分的字符分布空间即小到该程度。相应地，在字符分布不密集的位置，划分的字符分布空间也大到该程度。

在步骤30，在字符识别处理前序步骤中得到的字符分布空间的位置坐标以及属于该字符分布空间的字符被作为字符分类基准数据存入辅助存储单元15中。

然后在字符识别处理步骤，字符分类基准数据被从辅助存储单元15中读出并存入数据存储单元中，用于选取出要识别的字符的候选字符。

在字符识别处理中，用户将要识别的字符装入扫描器32，并通过键盘10向通用计算机10发出字符识别指令。响应于用户发出的字符识别指令，通过计算机10首先进行控制，使字符图象数据被扫描器32读出，然后存储到数据存储单元24。在该情况下，通用计算机10控制字符识别处理。

在字符识别处理步骤，以与获得字符分类基准数据相同方式提取要识别字符的特征。然后，取出处于与要识别的字符的已提取的特征相对应的位置字符分布空间的一个。结果，属于已提取的字符分布空间的字符作为待识别字符的候选字符。

字符识别处理步骤包括候选字符处理步骤40，如图7所示由数据信号处理器21进行。在要识别的字符图象信输入后，首先形成准确围住字符的框。通过在X和Y方向扫描字符限制框，检测出字符的白色串值，黑色串值，和白-黑色串对值。在从X轴方向检测的白色串值和黑色串值，及白-黑串对值的基础上，提取出字符的X轴特征。在从Y轴方向检测的白色串值，黑色串值和白-黑色串值的基础上，提取出字符的Y轴特征。

然后，搜索与要识别字符的提取的X-Y轴特征相对应的位置的一个字符分布空间。也就是说，作为字符分类基准数据的字符分布空间被搜索出来作为要识别字符所属的位置。如图11所示，如果对应的空间的大小小于ΔX，ΔY，属于包含在距离ΔX，ΔY之内的所有空间的字符被选出来作为候选字符(其中，Xn，Yn代表输入字符的坐标值；ΔX，ΔY代表先前得到的标准偏差；Z代表最终的候选字符区)。

然后，如图11所示，在字符所属位置的可变范围基础上，最终候选字符位置Z被提取出。结果，属于最终候选字符位置Z的字符被选取出作为要识别字符的候选字符。

如前面所述，根据本发明，提供了一种在字符识别系统中选取候选字符的方法，它将字符的特征表示成坐标以得出字符分类基准数据，预先存储得出的字符分类基准数据并在预先存储的字符分类基准数据基础上迅速选出要识别字符的候选字符。因此，在组合字符，如朝语和汉语字符情况下，字符可被迅速识别。而且也只需相对较小的存储容量取得经济的效果。

尽管本发明的最佳实施例为显示的目的而进行了描述，本领域技术人员可进行各种改进补充和替换，而不脱离本发明的精神和范围。

Claims

1.一种在字符识别系统中选取候选字符的方法，包括：

字符特征提取步骤，以字符的串长信息为基础、提取字符的特征；

字符分布提取步骤，在提取的字符特征基础上确定字符的位置信息；

字符分类基准数据存储步骤，在存储器中存储作为字符分类基准数据的确定的字符位置信息；以及

候选字符选取步骤，选取属于存储在存储器中的与要识别的输入字符的特征相对应的一个具体位置的字符作为输入字符的候选字符。

2.如权利要求1的方法，其中所述的字符特征提取步骤包括：

字符限制框形成步骤，形成一个准确围住通过扫描器输入的一个字符的框；

白/黑色串检测步骤，在字符限制框中从左到右以线为单位扫描字符象素，检测字符的白色串和黑色串并存储检测值(象素数)〔Wx(i)，Bx(i)〕(这里i为当在白色串之后检测到黑色串时以1递增的变量)；

白—黑色串对值检测步骤，如果在白/黑色串检测步骤在x轴方向字符的扫描完成以后，检测字符的白色串+黑色串对值〔Wx(i)，Bx(i)〕；

X轴特征提取步骤，在检测的白色串值，黑白串值和白-黑色串对值的基础上得出字符的X轴特征，并可由下述等式表示：

F (x) = \underset{i}{Σ} (Wx (i) \times Wx (i)) / \underset{i}{Σ} (WBx (i));

Y轴特征提取步骤，在字符限制框内从上到下以线为单位扫描字符象素以与获得字符X轴特征相同方式获得字符Y轴特征；

针对同一字符重复进行上述步骤的步骤，以获得字符的平均位置矢量(Fak(X)，Fak(Y))和标准偏差(Δ_K(X)Δ_K(Y))(这里，a代表平均，k代表k个字符，Δ代表标准偏差)；以及

针对由扫描器输入的所有字符以上述相同的方式得出x轴和Y轴特征(F(X)，F(Y)的步骤，并在字符的平均位置矢量和标准偏差的基础上，检测表示在X-Y平面上的字符的位置坐标。

3.如权利要求1的方法，其中所述的字符分布提取步骤包括：

取得由扫描器输入的所有字符的平均标准偏差(Δ_T(X)，Δ_T(Y)的步骤，并可表示如下：

Δ_{T} (X) = (Σ_{i = 0}^{m} Δi (X)) / m .

Δ_{T} (Y) = (Σ_{i = 0}^{m} Δi (Y)) / m

其中：m代表字符数，

Δ_T代表平均标准偏差；以及

在字符的平均标准偏差的基础上获得X轴和Y轴矩形图的步骤，并用一个经验得到的临界值去除得到的X轴Y轴矩形图，将它们分成字符分布的字符分布空间。