CN1808468A

CN1808468A - 光学字符识别方法及系统

Info

Publication number: CN1808468A
Application number: CN 200510002097
Authority: CN
Inventors: 李献; 胡欧
Original assignee: Canon Information Technology Beijing Co Ltd
Current assignee: Canon Information Technology Beijing Co Ltd
Priority date: 2005-01-17
Filing date: 2005-01-17
Publication date: 2006-07-26

Abstract

本发明涉及一种对两种语言混排的图像进行识别的方法及系统，其中这两种语言分别称为第一语言和第二语言。所述方法包括以下步骤：接收待识别的两种语言混排的图像；使用第一识别引擎对所述两种语言混排的图像进行识别，其中第一识别引擎用于对第一语言进行识别；根据第一识别引擎识别的结果确定第二语言字符；以所确定的第二语言字符为基点，沿至少第一方向扩张确定第二语言区域；使用第二识别引擎识别所述确定的第二语言区域；输出第一语言和第二语言识别结果。使用根据本发明的识别方法和系统，可以提高两种语言混排的图像中字符的识别率。

Description

光学字符识别方法及系统

技术领域

本发明涉及光学字符识别(OCR)方法及系统，并且尤其涉及对两种语言混排的文本图像进行识别的光学字符识别方法及系统。

背景技术

在现有的中文(包括简体和繁体中文)光学字符识别系统中，对于中英文混排的文本图像、尤其是对于在大量中文字符中掺杂少量英文字符的文本图像来说，一般使用中文识别引擎将其作为中文字符块进行切分和识别。

虽然中文识别引擎中包括英文字符集，但是由于英文字符的字体与中文字符有较明显的差异，例如，英文字符的宽度和高度不均一而且有较多粘连情况等，针对中文字符的切分程序很可能会错误地切分英文字符。此外，中文识别引擎中包含大量的中文字符集，英文字符只占其中很小的一部分，因此，当其中包括英文字符的文本图像的质量不高时，使用中文识别引擎识别英文字符，很容易出现英文字符被误识的情况。

在现有的光学字符识别系统中，除了以上提到的中英文混排图像外，在其它两种语言混排的图像、例如中文和日文混排的图像等中也存在类似的问题，很容易出现其中某种语言字符被误识的情况，从而使得字符识别准确率降低。

发明内容

本发明要解决的技术问题是提供一种新的针对两种语言混排的文本图像的OCR方法及系统，它能够克服现有技术中的缺陷，提高字符的识别率。

根据本发明的一个方面，提供了一种对两种语言混排的图像进行识别的方法，其中这两种语言分别称为第一语言和第二语言，该方法包括以下步骤：接收待识别的两种语言混排的图像；使用第一识别引擎对所述两种语言混排的图像进行识别，其中第一识别引擎用于对第一语言进行识别；根据第一识别引擎识别的结果，确定第二语言字符；以所确定的第二语言字符为基点，沿至少第一方向扩张确定第二语言区域；使用第二识别引擎识别所确定的第二语言区域；输出第一语言和第二语言识别结果。

根据本发明的另一个方面，提供了一种对两种语言混排的图像进行识别的系统，包括：接收装置，用于接收待识别的两种语言混排的图像；第一识别引擎，用于对所述两种语言混排的图像进行识别，其中第一识别引擎用于对第一语言进行识别；第二语言区域确定装置，用于根据第一识别引擎识别的结果确定第二语言字符，并以所述确定的第二语言字符为基点，沿至少第一方向扩张确定第二语言区域；第二识别引擎，用于识别所确定的第二语言区域；输出装置，用于输出第一语言和第二语言识别结果。

根据本发明的一个实施例，其中所述第一语言为中文，所述第二语言为英文。

利用本发明中的OCR方法及系统，首先使用第一识别引擎对图像进行识别，然后利用识别结果分析并确定图像中可能是第二语言字符的区域，对可能的第二语言区域(即第二语言怀疑区域)使用第二识别引擎进行识别，再根据第二识别引擎的识别结果判断该怀疑区域是否为第二语言区域，最后对确定的第二语言区域使用第二识别引擎进行切分和识别，从而达到提高第二语言字符识别率的目的。

结合附图阅读本发明实施方式的详细描述后，本发明的其他特点和优点将变得更加清楚。

附图说明

图1是根据本发明一个实施例的OCR方法的流程图。

图2是图1中的步骤S107的详细处理流程图。

图3是根据本发明的OCR系统。

图4显示了待识别的中英文混排文本图像的一个例子。

图5显示了采用现有技术对如图4所示的中英文混排文本图像进行识别后的识别结果。

图6显示了采用本发明的OCR方法对如图4所示的中英文混排文本图像进行识别后的识别结果。

具体实施方式

下面结合附图详细描述本发明的具体实施方式。

图1是根据本发明一个优选实施例的OCR方法的流程图。为了便于描述和解释本发明的技术方案，下面以中英文文本按行方向混排的图像(以下简称行图像)为例，对根据本发明的OCR方法进行介绍。

如图1所示，在步骤S101，OCR方法的处理流程开始。

在步骤S102，首先使用中文识别引擎对通过扫描仪等设备获得的待识别的中英文混排文本图像进行识别。尽管在本实施例中采用的是中英文混排的行图像，但是本发明并不局限于此。

接着，如图1所示，在步骤S103，确定行图像中一个待处理的行。

下面以该行中的第K(K为自然数，并且K大于等于1小于等于该行中的总字符数N)个字符为例(以下简称字符K)进行说明。在步骤S104，从行图像的识别结果中获取字符K的内码及其置信度信息(为中文字符置信度信息)。

在步骤S105，根据字符K的内码，判断字符K是否被中文识别引擎识别为英文字符。应当注意的是，本发明中提及的“英文字符”不仅仅局限于英文字母、英文短语等，它包括英文识别引擎所含字符集中的任意集合的字符。

如果在步骤S105中断定字符K被识别为英文字符，则OCR方法的处理流程转到步骤S107，否则处理流程转到步骤S106。

在步骤S106，判断在步骤S104中获得的字符K的中文字符置信度是否小于一个给定的中文字符置信度阈值T1。其中阈值T1是使用中文识别引擎经试验得到的阈值，它表示中文字符置信度小于阈值T1的字符很可能是英文字符。

如果在步骤S106中确定字符K的中文字符置信度小于阈值T1，这表示字符K可能是英文字符，则处理流程转到步骤S107，否则处理流程转到步骤S109。

在步骤S107，在一行中向字符K的右方及左方扩张，确定以字符K为基点的英文区域(以下简称字符K的英文区域)。该步骤的具体处理流程参见图2，将在下文中对其进行详细描述。

在步骤S108，使用英文识别引擎对在步骤S107中确定的英文区域进行识别。

接下来，在步骤S109，判断待处理行中的所有字符是否已处理完毕。

如果在步骤S109中确定待处理行中的所有字符还没有处理完毕，则处理流程返回到步骤S104，并重复执行上述步骤S104-S109，直至遍历待处理行中的所有字符为止。

也就是说，在实际的处理流程中需要对待处理的一行中的所有字符逐字进行上述处理(对于已经被判定为某个字符K的英文区域的字符除外，以避免重复判断)，从而确定出该行中的所有英文区域。

如果在步骤S109中确定待处理行中的所有字符都已经处理完毕，则处理流程转到步骤S110，判断行图像中所有的行是否都已识别完毕。

如果在步骤S110中确定未全部识别完所有的行，则处理流程返回到步骤S103，并重复执行上述步骤S103-S110，对行图像的识别结果逐行进行上述处理，直至所有的行都已识别完毕后，处理流程才转到步骤S111。

在步骤S111中，输出行图像的最终识别结果。

随后，处理流程在步骤S112结束。

下面参见图2对图1中的步骤S107(即在一行中确定字符K的英文区域的步骤)的处理流程进行详细说明。

如图2所示，在步骤S201中，该处理流程开始。

在步骤S202，设置变量M＝K，并且将字符K的英文区域初始化为字符K。

然后，在步骤S203，以字符K为基点向右扩张，获取字符K向右方向的相邻字符——第K+1个字符(以下简称字符K+1)的识别结果，即获取字符K+1的内码及其置信度信息(为中文字符置信度信息)。

接着，在步骤S204，根据字符K+1的内码，判断字符K+1是否被中文识别引擎识别为英文字符。

如果在步骤S204中确定字符K+1被中文识别引擎识别为英文字符，则处理流程转到步骤S205，否则处理流程转到步骤S207。

在步骤S205中，将字符K+1加入到字符K的英文区域中。

在步骤S207中，判断字符K+1的中文字符置信度是否小于一个给定的中文字符置信度阈值T2。其中阈值T2是使用中文识别引擎经试验得到的阈值，它表示中文字符置信度小于T2的字符K+1可能是英文字符。

如果在步骤S207中确定字符K+1的中文字符置信度小于阈值T2，则处理流程转到步骤S208，否则处理流程转到步骤S210。

在步骤S208，用英文识别引擎识别由字符K和字符K+1组成的英文怀疑区域(即，可能是英文的区域)。

接着，在步骤S209，判断使用英文识别引擎对英文怀疑区域进行识别后的识别结果的平均置信度(为英文字符置信度)是否小于一个给定的英文字符置信度阈值T3。其中阈值T3是使用英文识别引擎经试验得到的阈值，它表示平均英文字符置信度小于阈值T3的区域不是英文区域。

如果在步骤S209中确定平均英文字符置信度小于阈值T3，则处理流程转到步骤S210。

在步骤S210中，结束向右方向的英文区域扩张。

如果在步骤S209中确定平均英文字符置信度不小于阈值T3，则处理流程转到步骤S205，将字符K+1加入到字符K的英文区域中。

在步骤S205之后，在步骤S206，使K+1＝K。

接着，处理流程返回步骤S203，并重复执行上述步骤，以确定向右方向的下一个字符是否为英文字符，直至结束字符K的英文区域的向右扩张为止。

在步骤S210之后，处理流程进行到步骤S211，使K＝M。

随后，如图2所示，在步骤S212-S219中，执行以字符K为基点的向左方向的英文区域扩张，具体描述如下。

在步骤S212，以字符K为基点向左扩张，获取字符K向左方向的相邻字符——第K-1个字符(以下简称字符K-1)的识别结果，即获取字符K-1的内码及其置信度信息(为中文字符置信度信息)。

接着，在步骤S213，根据字符K-1的内码，判断字符K-1是否被中文识别引擎识别为英文字符。

如果在步骤S213中确定字符K-1被中文识别引擎识别为英文字符，则处理流程转到步骤S214，否则处理流程转到步骤S216。

在步骤S214中，将字符K-1加入到字符K的英文区域中。

在步骤S216中，判断字符K-1的中文字符置信度是否小于一个给定的中文字符置信度阈值T2。

如果在步骤S216中确定字符K-1的中文字符置信度小于阈值T2，则处理流程转到步骤S217，否则处理流程转到步骤S219。

在步骤S217，用英文识别引擎识别由字符K和字符K-1组成的英文怀疑区域(即，可能是英文的区域)。

接着，在步骤S218，判断使用英文识别引擎对英文怀疑区域进行识别后的识别结果的平均置信度(为英文字符置信度)是否小于一个给定的英文字符置信度阈值T3。

如果在步骤S218中确定平均英文字符置信度小于阈值T3，这表示字符K-1不是英文字符，则处理流程转到步骤S219。

在步骤S219中，结束向左方向的英文区域扩张。

如果在步骤S218中确定平均英文字符置信度不小于阈值T3，这表示字符K-1是英文字符，则处理流程转到步骤S214，将字符K-1加入到字符K的英文区域中。

在步骤S214之后，在步骤S215，使K-1＝K。

接着，处理流程返回步骤S212，并重复执行上述步骤，以确定向左方向的下一个字符是否为英文字符，直至结束字符K的英文区域的向左扩张为止。

虽然以上结合图1和图2以中英文混排的行图像为例对本发明的OCR方法的处理流程进行了介绍，但是本领域技术人员应当明白，本发明也同样适用于中英文混排的列图像。列图像的处理方法与行图像的处理方法类似，区别仅在于：以列为单位逐列进行识别；以字符K为基点，沿列方向向上和向下进行扩张以确定英文区域。

图3显示了根据本发明的OCR系统300。如图3所示，根据本发明的OCR系统300包括：接收装置301、中文OCR引擎302、英文区域确定装置303、存储器304、英文OCR引擎305、输出装置306。

接收装置301从扫描仪1等类似设备接收待识别的中英文混排图像，可以包括中英文混排的行图像和列图像。

中文OCR引擎302对所接收的中英文混排图像进行识别，并且将包括字符内码和中文字符置信度信息等的识别结果输出给英文区域确定装置303。

英文区域确定装置303根据来自中文OCR引擎的识别结果，例如，根据字符内码和中文字符置信度信息，确定图像中的字符K是否为英文字符。此外，在确定字符K为英文字符后，英文区域确定装置303以字符K为基点，沿向右方向和向左方向(对于列图像，沿向上方向和向下方向)扩张确定英文区域。英文区域确定装置303确定英文字符和英文区域的具体处理可参见图2，故在此省略对其的具体介绍。

存储器304用于存储依据经验确定的中文字符置信度阈值T1、T2以及英文字符置信度阈值T3。

英文OCR引擎305负责对英文怀疑区域和英文区域进行识别，并且输出包括英文字符置信度信息等的识别结果。

输出装置用于输出由OCR系统300识别的最终结果。

为了具体说明根据本发明的OCR方法和系统的优点，选取其中包含较多中英文混排图像的繁体中文图像作为实验对象，分别采用现有技术中的OCR方法和系统、以及根据本发明的OCR方法和系统对其进行识别，并且对识别率进行了统计对比。

将待识别的中英文混排的繁体中文图像材料按噪音多少分为高质量和低质量2组，其中高质量图像约1.5万字，其中英文约占12.9％，低质量图像约2.1万字，其中英文约占10.2％。

在此采用的中、英文识别引擎是目前市场上可以获得的任何OCR引擎，例如，由佳能信息技术(北京)有限公司开发的OCR引擎，其具体版本信息如下：

中文简体OCR引擎(GB2312字符集)：cn_ocr version 6

中文繁体OCR引擎(BIG5字符集)：ct_ocr version 6

英文OCR引擎：MEL-OCR version 2.0.0.2

使用现有技术和本发明进行识别的试验结果，如下表所示。

图像质量	使用现有技术识别的英文字符的识别率	使用本发明识别的英文字符的识别率	提高的识别率
图像质量	使用现有技术识别的英文字符的识别率	使用本发明识别的英文字符的识别率	提高的识别率	高质量	83.41％	95.93％	12.52％
低质量	71.19％	90.74％	19.55％	高质量	83.41％	95.93％	12.52％

从上表中可以看出，通过使用根据本发明的方法对中英文混排的图像进行识别，英文字符的识别率得到了明显的提高，高质量图像中英文识别率提高了12.52％，低质量图像中英文识别率提高了19.55％。

下面通过一个例子进一步说明本发明中OCR方法和系统的优点。

图4显示了待识别的中英文混排文本图像的一个例子。图5显示了采用现有技术对如图4所示的中英文混排文本图像进行识别后的识别结果。图6显示了采用本发明的OCR方法对如图4所示的中英文混排文本图像进行识别后的识别结果。

通过以上的实验结果和上述这个例子可以发现，采用了本发明后，对于中英文混排的图像，英文识别率有了相当大程度的提高。

以上虽然为了解释和说明的目的，结合最佳实施例对本发明作了描述，但是这种描述是非穷尽的，并且本发明不局限于所公开的优选实施例的形式。对于本领域技术人员来说，许多修改或者变形都将是显而易见的。例如，可以采用上述方法对中文和数字混排的图像、以及中英文和数字混排的图像等进行识别。因此，本发明不仅仅适用于对中文和英文混排图像的识别，还可以适用于中文和英文识别引擎所含字符集中的任意集合的字符的混排图像的识别。而且，除中英文混排的图像之外，本发明也可以适用于对其它两种语言混排的图像进行识别。例如，可以对中文和日文混排的图像、中文和拉丁文混排的图像、日文和拉丁文混排的图像等进行识别。当根据说明书的描述对本发明进行的替代、修改和变化落入由所附权利要求限定的范围时，这些替代、修改和变化也应当被包括在本发明中。

Claims

1.一种对两种语言混排的图像进行识别的方法，其中这两种语言分别称为第一语言和第二语言，其特征在于该方法包括以下步骤：

接收待识别的两种语言混排的图像；

使用第一识别引擎对所述两种语言混排的图像进行识别，其中第一识别引擎用于对第一语言进行识别；

根据第一识别引擎识别的结果，确定第二语言字符；

以所确定的第二语言字符为基点，沿至少第一方向扩张确定第二语言区域；

使用第二识别引擎识别所确定的第二语言区域；

输出第一语言和第二语言识别结果。

2.根据权利要求1所述的方法，其特征在于，所述确定第二语言字符的步骤包括以下步骤：

根据经第一识别引擎识别得到的内码，判断图像中的某一字符是否被识别为第二语言字符；

如果根据所述内码确定所述字符未被识别为第二语言字符，则根据所述字符的第一语言字符置信度信息，确定所述字符是否为第二语言字符。

3.根据权利要求1所述的方法，其特征在于，所述沿至少第一方向扩张确定第二语言区域的步骤包括：

以所确定的第二语言字符为基点，沿至少第一方向逐字执行以下处理：

判断与确定是第二语言字符的那个字符相邻的字符是否为

第二语言字符；

在所述相邻字符可能是第二语言字符时，使用第二语言识别引擎对由所确定的字符和所述相邻字符组成的第二语言怀疑区域进行识别，并且根据所述第二语言怀疑区域的平均第二语言字符置信度信息，判断所述相邻字符是否为第二语言字符；

在所述相邻字符是第二语言字符时，将所述相邻字符加入到第二语言区域中，否则停止沿至少第一方向的扩张。

4.如权利要求1至3中任一个所述的方法，其特征在于，所述沿至少第一方向扩张确定第二语言区域的步骤还包括步骤：

以所确定的第二语言字符为基点，沿第二方向扩张确定第二语言区域。

5.如权利要求4所述的方法，其特征在于：

当所述两种语言混排的图像为行图像时，所述第一方向和所述第二方向分别是向右和向左方向；

当所述两种语言混排的图像为列图像时，所述第一方向和所述第二方向分别是向上和向下方向；

所述第一语言为中文，所述第二语言为英文。

6.一种对两种语言混排的图像进行识别的系统，其特征在于包括：

接收装置，用于接收待识别的两种语言混排的图像；

第一识别引擎，用于对所述两种语言混排的图像进行识别，其中第一识别引擎用于对第一语言进行识别；

第二语言区域确定装置，用于根据第一识别引擎识别的结果确定第二语言字符，并以所述确定的第二语言字符为基点，沿至少第一方向扩张确定第二语言区域；

第二识别引擎，用于识别所确定的第二语言区域；

输出装置，用于输出第一语言和第二语言识别结果。

7.根据权利要求6所述的系统，其特征在于，所述第二语言区域确定装置包括：

用于根据经第一识别引擎识别得到的内码和第一语言字符置信度信息确定字符是否为第二语言字符的装置。

8.根据权利要求6所述的系统，其特征在于，所述第二语言区域确定装置进一步包括：

用于判断沿至少第一方向的相邻字符是否为第二语言字符的装置；

用于如果所述相邻字符为第二语言字符则将所述相邻字符加入到第二语言区域中的装置。

9.如权利要求6至8中任一个所述的系统，其特征在于，所述第二语言区域确定装置进一步包括：

用于以所确定的第二语言字符为基点沿第二方向扩张确定第二语言区域的装置。

10.如权利要求9所述的系统，其特征在于：

所述第一语言为中文，所述第二语言为英文。