CN101615251A

CN101615251A - 字符识别设备中用于识别字符的方法和设备

Info

Publication number: CN101615251A
Application number: CN200910150322A
Authority: CN
Inventors: 吴尚昱; 黄星泽; 金尚镐; 郑熙远
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2008-06-24
Filing date: 2009-06-23
Publication date: 2009-12-30
Anticipated expiration: 2029-06-23
Also published as: US20090324081A1; EP2138955A2; US8331672B2; EP2138955A3; KR101015663B1; CN101615251B; KR20100000190A

Abstract

公开了用于识别字符并有效去除误识别字符的方法和设备。所述方法包括：在输入图像中检测包括至少一个字符的字符区域；将输入图像转换为二值图像；区分字符和非字符；将包括的字符数目等于或小于阈值的字符区域重新分类为非字符区域；以及仅输出存在于字符区域中的字符。

Description

字符识别设备中用于识别字符的方法和设备

技术领域

本发明一般涉及字符识别设备中用于识别字符的方法和设备，更具体而言，涉及字符识别设备中用于识别字符的方法和设备，其中，当识别包括在输入图像中的字符时，能够有效去除误识别的字符。

背景技术

字符识别在文档被扫描并转换为文本文件或电子文档时使用。近来照相机技术的发展引起了通过照相机与移动装置(诸个人数字助理(PDA)和蜂窝电话)结合来处理字符图像的需求的增长。

与输入典型纸张文档的扫描仪不同，照相机通过获取任何类型的字符信息来执行字符识别。使用照相机的字符识别可识别诸如游客位置、各种材料、纪念碑、广告牌、名片和菜单的任何信息。使用照相机的字符识别可以通过便携式照相机容易地获得并识别字符，而不管记录有将被输入的字符的介质为何，因此，对使用照相机的字符识别的研究正在积极进行。

然而，其缺点在于，与基于扫描仪的字符识别方案相反，输入图像的条件不受限制，导致通过照相机识别的图像受周围光线的影响很大。此外，基于照相机的字符识别方案不受环境的影响。因此，各类字符均是识别的对象，因而对字符的误识别率增加，使得识别设备很难稳定地运行。

根据传统字符识别方案中的后处理方法，字符识别设备在诸如字典的数据库中搜索包括通过扫描仪识别的字符的字(word)。如果在该数据库中不存在相应的字，则设备将该字确定为误识别字符。字符识别设备搜索与通过扫描仪识别的字符最相似的字。

通常，在使用照相机识别字符时，文档的背景连同该文档一起被拍摄，并且所拍摄的图像包括文档和背景二者。因此，字符识别设备或程序接收包括背景的文档图像，并且不能将文档区域与背景区域区分开。于是，其甚至打算识别出背景区域中的字符。具体而言，字符识别设备将背景中具有与字符类似特征的部分误识别为字符，并且将误识别字符包括在字符识别结果中。因此，产生了根据该识别结果的破碎字符结构。

前述基于照相机的字符识别方案因为需要用户手动搜索并删除每个背景中的误识别结果，所以降低了字符识别的总体速率。这种删除误识别字符的手动工作是不方便的，且不必要地耗费了时间。作为另一个缺点，手动工作需要用户直接选择所拍摄图像中的文档区域。此外，照相机中用于接收用户输入的设备局限于按钮或触摸屏。因为许多小型或自动照相机甚至不包括触摸屏，所以用户必须承受用有限数量的按钮来选择文档区域的不便。此外，如果文档区域是多边形的形式而不是矩形，更增大了用户仅选择文档区域的难度。

因此，为了改进基于照相机的字符识别方案的性能，需要一种用于识别字符的方法和设备，其具有能够标识出由照相机拍摄的字符是否被正确识别且改正误识别字符的后处理功能。

发明内容

因此，本发明的一个方面是要解决在现有技术中出现的上述问题，并且本发明的目的是提供用于识别字符的方法和设备，其中，当识别在输入图像中包括的字符时，误识别字符被有效去除。

根据本发明的一个方面，提供一种用于在字符识别设备中识别字符的方法，包括：将输入图像转换为二值图像，并区分每个都包括至少一个字符的字符区域和非字符区域；确定在字符区域中是否包括无效字符区域，并将无效字符区域分类为非字符区域，其中，所述无效字符区域包括预存储或更少数目的字符(即，字符数目等于或小于阈值)；以及通过从字符区域中去除无效字符区域来确定验证字符区域，并且输出在验证字符区域中包括的字符。

根据本发明的另一个方面，提供一种字符识别设备，包括：字符区域检测单元，用于在输入图像中检测每个都包括至少一个字符的字符区域；二值图像转换单元，用于将输入图像转换为二值图像，并区分字符区域和不包括字符的非字符区域；控制单元，用于确定在字符区域中是否存在无效字符区域，如果存在无效字符区域，则将无效字符区域重新分类为非字符区域，其中，所述无效字符区域包括的字符数目等于或小于阈值；以及字符输出单元，用于输出在通过从字符区域中去除无效字符区域而得到的验证字符区域中包括的字符。

根据本发明的再一个方面，提供一种用于在字符识别设备中识别字符的方法，该方法包括：在输入图像中检测每个都包括至少一个字符的字符区域，并存储关于每个字符区域的位置信息；生成大小与输入图像相同的复制图像；将复制图像转换为二值图像，并分别用黑色和白色来区分字符区域和不包括字符的非字符区域；对字符区域执行形态学运算中的膨胀运算，并放大每个字符区域；确定在字符区域中是否存在无效字符区域，其中，所述无效字符区域包括阈值或更少数目的字符；如果存在无效字符区域，则通过从字符区域中去除无效字符区域来确定验证字符区域；以及输出在验证字符区域中包括的字符。

附图说明

通过参照附图进行的下述具体描述，本发明的上述和其他方面、特征和优点将更加显而易见，附图中：

图1示出了根据本发明的字符识别设备；

图2示出了根据本发明的在字符识别设备中识别字符的方法；

图3A示出了根据本发明的输入图像；

图3B示出了根据本发明当由字符区域检测单元检测字符区域时的输入图像；

图3C示出了根据本发明的、图3A和图3B的图像被二值图像转换单元转换成的二值图像；

图3D示出了通过对图3C的二值图像的每个字符区域应用形态学运算(morphology operation)中的膨胀运算(dilatation operation)而得到的结果；

图3E示出了根据本发明的被控制单元重新分类为非字符区域的B区的字符区域；

图3F示出了根据本发明的最终划分的字符区域和非字符区域；以及

图4示出了根据本发明的用于在字符识别设备中识别字符的方法。

具体实施方式

此后，将参照附图描述本发明的优选实施例。在说明书和附图的通篇中，相同的参考数字指代相同的元素。在下面的描述中，为了清楚和简明的目的，省略了对公知相关功能和结构的具体解释。

根据本发明，输入图像中被识别为具有至少一个字符的每个区域被称为字符区域，不包括字符的区域被称为非字符区域。此外，如果区域中的字符并非输入图像中的真实字符，但是该字符在字符识别处理中被误识别为字符，结果又被重新分类为非字符，那么每个这样的区域被称为无效字符区域，而仅包括去除字符区域中的无效字符区域后的字符的区域被称为验证字符区域。

图1示出了根据本发明的字符识别设备。

字符识别设备10包括字符区域检测单元12、二值图像转换单元14、字符输出单元16、控制单元11、显示单元22、存储器24和字符数据库26。

字符区域检测单元12从通过字符识别设备10输入的图像、即输入图像中检测字符区域。此时，字符区域包括包含至少一个字符的每个区域，而非字符区域包括不包含字符的区域，并且输入图像包括用于字符识别的、通过字符识别设备10输入的每个图像。

在另一实施例中，字符区域检测单元12从输入图像中检测字符区域，并且提取关于字符区域的位置信息。字符区域检测单元12可以在控制单元11(稍后将在这里描述)的控制下，将位置信息存储在存储器24中。

通过将输入图像转换为灰度图像或者通过字符识别所需的识别预处理(诸如校正字符梯度(gradient)或分离单个字符)来实现字符区域的检测。识别预处理过程是本领域技术人员所公知的，并且本发明涉及的是执行识别预处理之后的识别后处理。因而，将省略对识别预处理的描述。

二值图像转换单元14对通过字符识别设备10输入的图像进行二值处理，并将其转换成由黑和白表示的二值图像。如果字符区域检测单元12检测到字符区域，则二值图像转换单元14转换输入图像，以便使字符区域和除字符区域之外的其他区域、即不包含字符的非字符区域分别具有不同的二元值。例如，如果字符区域的值为“0(黑)”，则非字符区域的值为“1(白)”，相反，如果字符区域的值为“1”，则非字符区域的值为“0”。

此外，二值图像转换单元14在控制单元11(稍后描述)的控制下，对二值图像之中的每个字符区域执行形态学运算中的膨胀运算，以增加字符区域的大小。如果字符区域的大小被增加，则会产生字符区域之间的距离缩短的字符区域或具有接触点的连接的字符区域。二值图像转换单元14在控制单元11的控制下重复膨胀运算多次，重复次数预存储在存储器24中，以使得相邻的字符区域相互连接以产生至少一个集群、即至少一个字符区域组。字符区域包括不与其它字符区域连接的单个字符区域或由彼此连接的字符区域组成的字符区域组。

根据本发明的另一实施例的二值图像转换单元14在控制单元11(稍后描述)的控制下，生成大小与通过字符识别设备10输入的图像相同的复制图像，并将该复制图像转换为二值图像。此时，二值图像转换单元14使用由字符区域检测单元12提取的关于各个字符区域的位置信息来将所述复制图像转换为二值图像。

如果一个区域具有与关于输入图像的字符区域的位置信息的位置值相同的位置值，则二值图像转换单元14在控制单元11的控制下将该区域当作字符区域，并且如果一个区域不具有与关于输入图像的字符区域的位置信息的位置值相同的位置值，则二值图像转换单元14将该区域当作非字符区域。二值图像转换单元14以黑和白对字符区域和非字符区域进行二值处理。

字符输出单元16通过使用稍后描述的字符数据库26输出包括在字符区域中的字符，并且以句子或类似形式输出包括在通过连接多个字符区域产生的字符区域组中的字符。字符输出单元16搜索字符数据库26，并且，如果存在其形式与包括在字符区域中的字符相对应的字符，则字符输出单元16将该要输出的字符识别为字，并输出该字。

控制单元11确定在被分类为字符区域的区域中，是否存在包括阈值或更少数量的字符的无效字符区域。如果存在无效字符区域，则控制单元11将相应的无效字符区域重新分类为非字符区域。无效字符区域包括不与其它区域相连的单个无效字符区域或由彼此连接的无效字符区域组成的无效字符区域组。

确定所述阈值的方法包括接收用户输入并确定阈值的被动确定方法，以及通过用于字符识别的计算算法自动确定阈值的自动确定方法。此外，自动确定方法包括不论输入图像如何均具有相同阈值的固定阈值确定方法，以及根据输入图像灵活改变阈值的可变阈值确定方法。

由控制单元11将无效字符区域重新确定为非字符区域利用了下述特征：在通常的文档中，具有均匀排列或距离的多个字符聚集在一起。包括阈值或更少数目的字符的无效字符区域对应于在输入图像的背景、即在拍摄过程中与文档一起被拍摄的背景中包括的字符，而不是要通过字符识别设备10识别的字符。因此，控制单元11必须去除这类字符。

当二值图像转换单元14将输入图像转换为二值图像时，根据本发明的控制单元11控制二值图像转换单元14对字符区域执行二值图像形态学运算中的膨胀运算。通过如此，字符区域的大小变得大于输入图像的实际大小。此外，当字符区域的大小增加时，每个字符区域与另外的相邻的字符区域结合。控制单元11控制二值图像转换单元14放大每个字符区域，直到相邻的字符区域结合到一起为止。例如，可以将每个字符区域放大到范围在原始大小的150％至300％的预存储大小。在图3D中，每个字符区域被放大到原始大小的200％。

此时，字符区域之间的距离和预存储大小是预存储在存储器24(稍后描述)中的值，或者是根据由用户输入的图像的特征而任意确定的值。

显示单元22显示通过字符输出单元16输出的字符，以向用户提供输出字符。此外，显示单元22显示由二值图像转换单元14转换的二值图像。

存储器24包括程序存储器和数据存储器。存储器存储控制字符识别设备10的操作所需的各种信息。存储器24存储控制单元11用来将字符区域中实质上为非字符区域的无效字符区域重新分类的阈值。此外，存储器24存储由字符区域检测单元12提取的关于各个字符的位置信息。

字符数据库26存储能够通过字符输出单元16输出的每个字符。字符输出单元16进行搜索以确定在字符数据库26中是否存在形式与包括在各个字符区域中的字符相同的字符，并且，如果存在，则字符输出单元16以相应的字符输出包括在字符区域中的字符。例如，假设包括在字符区域中的字符具有

的形式，则字符输出单元16搜索形式与包括在字符区域中的

相同的字符、即在字符数据库26中被存储为

的字符。因此，字符输出单元16根据搜索结果将在字符区域中包括的字符输出为

图2示出了根据本发明的在字符识别设备中识别字符的方法。

在步骤S32中，字符识别设备10的字符区域检测单元12从输入图像中检测字符区域，并将其划分为字符区域和非字符区域。然后，在步骤S34中，二值图像转换单元14将输入图像转换为二值图像。例如，二值图像转换单元14以值为“1”的白色表示字符区域，以值为“0”的黑色表示非字符区域，并且对输入图像进行二值处理和转换。

二值图像转换单元14在控制单元11的控制下对字符区域执行形态学运算，并且放大和连接字符区域。优选地，二值图像转换单元14对字符区域应用形态学运算中的膨胀运算，以增加能够在步骤S34中被转换的二值图像中显示的字符区域的实际大小。此外，由于放大了字符区域，所以各个字符区域中的相邻字符区域彼此连接，因而可能产生接触点。

二值图像转换单元14可以通过扩大字符区域以连接和结合在预定距离内相邻的字符区域来产生字符区域组。同样，字符识别设备10将需要识别的字符统一成一个集群，以将该集群与非字符区域相区分，并且控制单元11可以将一个字符区域组当作一个字符区域。

如上所述，如果划分了字符区域和非字符区域，则在步骤S38中，控制单元11确定是否存在包括阈值或更少数目的字符(即字符的数目等于或少于阈值)的无效字符区域。如果不存在无效字符区域，则在步骤S42中，控制单元11控制字符输出单元16并输出在字符区域中包括的字符。

如果存在包括的字符数目等于或小于阈值的无效字符区域，则因为在步骤S32中被分类为字符区域的部分区域是非字符区域，所以在步骤S40中，控制单元11将相应的无效字符区域重新分类为非字符区域。如果在字符区域中存在在存储器24中预存储的距离之内相邻的另一字符区域，则即使所述字符区域通过步骤S36被放大，控制单元11也确定字符不包括在所述字符区域中。

在典型的文档结构中，由于各个字符之间的距离缩短并且字符的排列是均匀的，所以当在步骤S36中放大字符区域时，字所占据的字符区域扩大，从而产生接触点或字符区域组。因此，如果字符区域和另一字符区域之间的距离等于或大于预存储值(此后称为阈值距离)，则即使已经执行了放大字符区域的处理，控制单元11也确定该字符区域并不实际包括字符，从而将该字符区域重新确定为非字符区域。

此时，用于确定在字符区域中是否实际包括字符的阈值距离可以是预存储在存储器24中的值。此外，即使产生了字符区域和另一字符区域之间的接触点，如果字符区域的距离或排列并不是均匀的，控制单元11也可以将该字符区域重新确定为非字符区域，因为在典型文档结构中字符的排列是均匀和规则的。

在步骤S42中，控制单元11控制字符输出单元16输出仅包括在字符区域中的字符，该字符区域是除去了在步骤S40中被重新分类为非字符区域的字符区域之后的字符区域。

图3A到图3F示出了根据本发明，在字符识别的处理过程中应用字符识别的字符图像。

图3A示出了根据本发明的输入图像。输入图像可以通过例如照相机(未示出)而被输入到字符识别设备10中。假设根据本发明的字符识别设备10应当识别A区52中包括的字符52A。

图3B示出了根据本发明的、当字符区域检测单元12检测到字符区域时的输入图像。参照图3B，在A区52和B区54中都检测到字符区域52B和54B。B区54中的日历作为背景被包括在输入图像中。字符区域检测单元12将日历中的数字识别为字符，并且如果其也将B区54中的数字识别为字符，则在字符输出过程中可能发生错误。于是，优选的是去除B区54中的字符区域54B。

图3C示出了根据本发明的、图3A和图3B的图像被二值图像转换单元14转换成的二值图像。参照图3A，二值图像转换单元14转换输入图像，以使得字符区域52C和54C具有值“1(白色)”，并且非字符区域具有值“0(黑色)”。

图3D示出了通过对图3C的二值图像中的字符区域52C和54C中的每个应用形态学运算中的膨胀运算而得到的结果。参照图3D，所有字符区域52D彼此连接，从而在A区52中形成一个集群，其中聚集了将被字符识别设备10识别的字符。即使放大B区54的字符区域54D，各个字符仍然是分散的。因此，字符与非字符被区分开来。控制单元11将B区的字符区域54D重新分类为非字符区域。

图3E示出了根据本发明的、被控制单元11重新分类为非字符区域的B区54的字符区域。参照图3E，全部B区54具有值“0”。字符识别设备10的控制单元11控制二值图像转换单元14对被重新分类为非字符区域的区域的输入图像进行重新转换，以使其具有值“0”。

图3F示出了根据本发明的最终划分的字符区域和非字符区域。参照图3F，A区52中的所有字符被表示为字符区域52B，且B区54中的每个字符54A被分类为非字符区域，从而使B区54的日历成为背景。

在步骤S62中，字符区域检测单元12从输入的原始图像中检测字符区域，并提取关于各个字符区域的位置信息，且将所提取的位置信息存储在存储器24中。在步骤S64中，二值图像转换单元14生成大小与输入原始图像相同的复制图像，并且在步骤S66中，字符区域检测单元12在控制单元11的控制下，使用存储在存储器24中的位置信息将复制图像划分为字符区域和非字符区域。

当输入原始图像具有“1024×768像素”的分辨率时，复制图像具有相同的分辨率，这表示相同的大小。因此，如果对输入原始图像和复制图像应用相同的坐标轴，则关于输入原始图像的位置的位置信息可以被应用到复制图像。也就是说，如果输入原始原始图像具有坐标点(3，3)，则复制图像也具有坐标点(3，3)。这样，输入原始图像和复制图像具有相同的大小，使得字符识别设备10可以在复制图像中精确地识别与输入原始图像的字符区域对应的区域。此外，字符识别设备10精确地识别输入原始图像的字符区域，从而即使在复制区域中也能将其与非字符区域相区分，进而显示字符区域。

在步骤S68中，二值图像转换单元14将复制图像转换为二值图像，以使得字符区域和非字符区域具有不同的值。二值图像转换单元14参考存储在存储器24中的关于各个字符区域的位置信息，并将位置与关于输入原始图像的字符区域的位置信息相同的复制图像的区域显示为字符区域。在步骤S70中，二值图像转换单元14在控制单元11的控制下，对复制图像的各个字符区域执行形态学运算，并放大和连接各个字符区域。

在步骤S72中，控制单元11确定在与复制图像的各个字符区域对应的输入图像的字符区域中，是否存在包括阈值数目或更少数目的字符的无效字符区域。控制单元11使用与复制图像的各个字符区域相对应的位置信息来确定在与输入原始图像的位置信息相对应的区域中包括的字符数目是否等于或小于阈值。在步骤S70中，当通过形态学运算放大了各个字符区域且相邻的字符区域连接为一个集群时，控制单元11将该集群当作一个字符区域。

作为步骤S72中的确定的结果，如果在字符区域中包括阈值或更少数目的字符，则在步骤S74中，控制单元11将相应的字符区域重新分类为非字符区域。控制单元11从存储在存储器24中的位置信息中删除与已在步骤S74中被重新分类为非字符区域的无效字符区域相对应的位置信息。这样，不必要的信息被删除，在字符识别设备10中仅留下了关于包括要输出的字符的字符区域的位置信息。在步骤S76中，控制单元11控制字符输出单元16输出包括在字符区域中的字符。字符输出单元16参考存储在存储器24中的位置信息，仅输出包括在相应区域中的字符。

作为步骤S72中的确定的结果，如果在字符区域中并非包括阈值或更少数目的字符，则在步骤S76中，控制单元11控制字符输出单元16输出步骤S62中被分类为字符区域中包括的所有字符。

因此，本发明提供了一种用于在字符识别设备中识别字符的方法和设备，其中当识别包括在输入图像中的字符时，有效地去除了误识别字符。

此外，通过去除误识别字符，本发明通过输出正确的、去除了错误的字符而减少了在输入图像处理期间的错误。

虽然已参照本发明的优选实施例及其附图示出并描述了本发明，但是本领域技术人员应当明白，可以在其中做出形式上和细节上的各种改变，而不会背离由所附权利要求书所限定的本发明的精神和范围。

Claims

1.一种用于在字符识别设备中识别字符的方法，该方法包括：

将输入图像转换为二值图像，并区分每个都包括至少一个字符的字符区域和不包括字符的非字符区域；

确定在字符区域中是否包括无效字符区域，并将无效字符区域分类为非字符区域，其中，所述无效字符区域具有的字符数目等于或小于阈值；以及

通过从字符区域中去除无效字符区域来确定验证字符区域，并且输出在验证字符区域中包括的字符。

2.根据权利要求1所述的方法，其中，区分字符区域和非字符区域包括：通过不同于以白色表示的非字符区域、以黑色表示字符区域来对字符区域和非字符区域进行黑白处理。

3.根据权利要求1所述的方法，其中，区分字符区域和非字符区域包括：通过不同于以黑色表示的非字符区域、以白色表示字符区域来对字符区域和非字符区域进行黑白处理。

4.根据权利要求1所述的方法，其中，区分字符区域和非字符区域包括：

放大每个字符区域；并且

将字符区域相互连接以形成至少一个字符区域组。

5.根据权利要求1所述的方法，还包括：如果在字符区域中不存在包括的字符数目等于或小于阈值的无效字符区域，则输出包括在字符区域中的字符。

6.一种字符识别设备，包括：

字符区域检测单元，用于在输入图像中检测每个都包括至少一个字符的字符区域；

二值图像转换单元，用于将输入图像转换为二值图像，并区分字符区域和不包括字符的非字符区域；

控制单元，用于确定在字符区域中是否存在无效字符区域，如果存在无效字符区域，则将无效字符区域重新分类为非字符区域，其中，所述无效字符区域包括的字符数目等于或小于阈值；以及

字符输出单元，用于输出在通过从字符区域中去除无效字符区域而得到的验证字符区域中包括的字符。

7.根据权利要求6所述的字符识别设备，其中，所述二值图像转换单元以黑色来表示字符区域，并以白色来表示非字符区域。

8.根据权利要求6所述的字符识别设备，其中，所述二值图像转换单元以白色来表示字符区域，并以黑色来表示非字符区域。

9.根据权利要求6所述的字符识别设备，其中，所述二值图像转换单元放大与各个字符相对应的字符区域，并将字符区域相互连接以形成至少一个字符区域组。

10.根据权利要求9所述的字符识别设备，其中，所述二值图像转换单元对字符区域执行形态学运算中的膨胀运算，以形成所述字符区域组。

11.根据权利要求6所述的字符识别设备，其中，如果在字符区域中不存在包括的字符数目等于或小于阈值的无效字符区域，则所述控制单元控制所述字符输出单元输出包括在字符区域中的每个字符区域内的字符。

12.一种用于在字符识别设备中识别字符的方法，该方法包括：

在输入图像中检测每个都包括至少一个字符的字符区域，并存储关于字符区域的每个区域的位置信息；

生成大小与输入图像相同的复制图像；

将复制图像转换为二值图像，并分别用黑色和白色来区分字符区域和不包括字符的非字符区域；

对字符区域执行形态学运算中的膨胀运算，并放大每个字符区域；

确定在字符区域中是否存在无效字符区域，其中，所述无效字符区域包括的字符数目等于或小于阈值；

如果存在无效字符区域，则通过从字符区域中去除无效字符区域来确定验证字符区域；以及

输出在验证字符区域中包括的字符。

13.根据权利要求12所述的方法，还包括：如果在字符区域中不存在包括的字符数目等于或小于阈值的无效字符区域，则输出包括在字符区域中的每个字符。