CN102822845B

CN102822845B - 在包括西文字符和象形字符的图像中文本行的分割

Info

Publication number: CN102822845B
Application number: CN201180017874.2A
Authority: CN
Inventors: I.米蒂克
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-03-31
Filing date: 2011-03-25
Publication date: 2015-04-22
Anticipated expiration: 2031-03-25
Also published as: US20130136359A1; HK1178653A1; CN102822845A; WO2011128777A2; US8385652B2; US20110243444A1; EP2553626A4; EP2553626B1; WO2011128777A3; EP2553626A2; US8768059B2

Abstract

一种图像处理设备分割文本行中的西文和象形部分。该设备包括接收具有至少一个文本行的输入图像的输入部件（102）。该设备还包括识别候选字符间中断的字符间中断标识符部件（104）和字符间中断分类器部件。字符间中断分类器部件（104）将候选字符间中断中的每一个分类为实际中断、非中断或不确定中断。字符识别部件（108）至少部分基于从每个相应候选字符提取的特征组识别所述候选字符。西文和象形文本分类器部件（114）发现文本行片段并将其分类为西文文本片段或象形文本片段。

Description

在包括西文字符和象形字符的图像中文本行的分割

背景技术

光学字符识别（OCR）是一种基于计算机的转换，其一般以标准编码方案中将文本的图像转换成如机器可编辑文本那样的数字形式。这个过程消除了向计算机系统中人工键入文档的需要。OCR过程典型地通过获得承载印刷文本消息的物理文档的电子文件并利用诸如光学扫描仪之类的装置扫描文档开始。这样的装置产生原始文档的电子图像。然后将输出图像供应给计算机或其他处理装置，并处理被扫描文档的图像以在图像和文本之间进行区分，并确定明亮和黑暗区域中代表的是什么字母。

越来越多地使用计算机和因特网的结果是，与更频繁地在全世界使用英语结合，发现包括西文文字和东亚（例如中国、日本、韩国）文本组合的文本图像变得很常见，其形式常常是西文文字混合在东亚文本选集中。因此，用于东亚文本的OCR引擎应当理想地能够识别具有东亚和西文文本混合的文本行。

发明内容

为了支持OCR过程，需要识别仅有东亚文本字符间中断和个体字符的东亚或象形文本行。此外，对于既有西文又有东亚文本的文本行，需要将文本的西文和东亚片段彼此分开，并且需要向每个片段应用适当的文本识别逻辑。

在一种实施方式中，提供了一种方法和设备，用于对包括文本行的输入图像进行字符识别。该方法沿着文本行识别候选字符间中断并将每个候选字符间中断分类为实际中断、非中断或不确定中断。至少部分基于每个相应候选字符间中断和与其相邻的字符划界框的几何性质实现字符间中断分类。至少部分基于从每个相应候选字符提取的特征组识别所述候选字符。可以用于字符识别的一个特定特征组是Gabor特征组。

在另一种实施方式中，提供了一种图像处理设备用于分割文本行的西文和象形部分。该设备包括接收具有至少一个文本行的输入图像的输入部件。该设备还包括沿着文本行识别候选字符间中断的字符间中断标识符部件和字符间中断分类器部件。字符间中断分类器部件至少部分基于每个相应候选字符间中断和与其相邻的字符划界框的几何性质，将每个候选字符间中断分类为实际中断、非中断或不确定中断。字符识别部件至少部分基于从每个相应候选字符提取的特征组识别所述候选字符。西文和象形文本分类器部件将文本行分割成西文文本片段或象形文本片段，并向输出部件输出结果。

提供本发明内容是为了以简化形式介绍在下面具体实施方式中将进一步论述的概念的选择。本发明内容并非要标识所要求保护的主题的关键特征或必要特征，也并非要用作在确定所要求保护的主题范围时的辅助。

附图说明

图1和2分别示出了西文和东亚文本的文本行。

图3示出了包含西文和象形文本的混合的文本行。

图4示出了图像处理设备的一个范例，图像处理设备执行分割文本行的西文和象形部分的过程。

图5a和5b示出了东亚文本字符的范例，该东亚文本字符被它们的相应划界框和它们之间候选字符间中断围绕。

图6a示出了预处理之前的字符图像，连同其划界框的宽度和高度；图6b示出了已经拉伸之后的字符。

图7-12示出了经历文本分割过程时的文本行。

图13为示出了将文本行分成西文和象形文本片段的过程的一个范例的流程图。

具体实施方式

光学字符识别（OCR）过程的一种重要方面是行识别和分割。不过，行的概念对于西文文本和东亚文本（或者更一般地，任何基于象形的文本，其中单个书写字符表示单词）而言具有不同含义。可以在图1和2中看出这种区别，它们分别示出了西文和东亚文本的文本行。具体而言，对于象形文本行而言，仅有字符的概念，而对于西文文本行而言，还有单词的概念。在其他情况下，例如这里论述的那些情况，文本行包含西文和象形文本的混合（图3）。

为了支持用于西文和东亚或象形文本混合的OCR过程，需要解决若干问题。具体而言，对于仅有东亚文本的文本行，需要识别正确的字符间中断和个体字符。此外，对于既有西文文本又有东亚文本的文本行，必须要将文本行适当分割成西文和东亚文本片段。这些问题中的每一个都将得到逐一解决。

图4示出了图像处理设备100的一个范例，图像处理设备可以执行分割文本行的西文和象形部分的过程。可以并入OCR引擎中的该设备可以由OCR引擎用于识别文本行中的西文和东亚或其他象形字符。该设备包括输入部件102，用于接收包括至少一个文本行的输入图像。字符间中断标识符部件104沿文本行识别候选字符间中断，并且字符间中断分类器部件106将候选字符间中断的每一个分成实际中断、非中断或不确定中断。该设备还包括字符识别引擎108，用于至少部分基于从每个相应候选字符提取的特征组识别候选字符。字符识别引擎108包括字符预处理部件110、字符特征提取部件112和字符分类部件113。西文和象形文本分类器部件114将文本行分割成西文文本片段和东亚或其他象形文本片段。该设备100还包括输出部件116，其从西文和象形文本分类器部件接收结果并产生关于文本行的信息，该信息的形式允许其由OCR引擎的后续部件采用。

下面将论述上述部件中的每一个。

字符间中断

字符间中断标识符部件104能够利用公知的垂直投影技术识别东亚或象形字符之间的候选中断，垂直投影技术可以包括用于分开彼此接触的符号的技术。图5a和5b示出了东亚文本中的字符间中断范例。不过，并非通过这种方式识别的所有候选字符间中断都是真实的中断。例如，在个体字符之间可能没有清楚的空间区别。相反，在个体字符之内可能会显现小的空间区别，其可能被错误识别为字符间中断。因此，需要一种方法确定哪些候选字符间中断最有可能是实际的字符间中断。

由字符间中断分类器部件106将每个候选字符间中断分类成中断点、非中断点或不确定或未定点。中断点是两个字符之间的实际中断，而非中断点位于个体字符之内。因此，非中断点不是真实的字符间中断。换言之，字符不能跨越中断点，且字符不能开始或结束于非中断点。不过，字符能够跨越、起始于或结束于不确定点。

为了对候选字符间中断分类，计算每个候选者的概率并设置两个阈值，一个针对中断，一个针对非中断。如果p(x)是候选者x代表实际中断的概率，然后如果p（x）>BREAK（中断），x将被分类为中断，如果p（x）<NON_BREAK，x将被分类为非中断，且在NON_BREAK<=p（x）<=BREAK时，候选者被分类为未定点，其可以在处理的稍后阶段中被分类。

存在从上述字符间中断分类方案的使用产生的若干优点。例如，在后续处理步骤中移除分类为非中断的所有字符间候选中断，导致更好的性能和精确度。此外，分类为中断的所有字符间候选中断仅能够被视作字符开始或结束的点，这也导致更好的性能和精确度。

在建立可用于将候选字符间中断分类成中断点、非中断点或未定点的字符间候选中断的特性或特征时，以下术语将是有用的。可以由字符间中断分类器部件106确定包括字符划界框的这些特征。

Bi-第i个中断。每个中断都由两个x坐标（Bi.start和Bi.end）定义，且Bi.size=Bi.end-Bi.start+1。

BBpi-第i个字符间中断前的划界框（图5a和5b中矩形划界框是可见的）

BBsi-第i个字符间中断后的划界框

BBsi.top和BBsi.bottom-分别为划界框BBsi的顶部和底部坐标

BBpi.top和BBpi.bottom-分别为划界框BBpi的顶部和底部坐标

BBpi.width，BBpi.height-分别为划界框BBpi的宽度和高度

BBsi.width，BBps.height-分别为划界框BBsi的宽度和高度

MBS-给定行的中断大小的中值

ECH-给定行的估计字符高度（或者如果没有更好的估计，是划界框高度的中值）

ECW-估计的字符宽度（如果没有更好的估计，其可以与ECH一起估计）

Bpi-x坐标最接近BBpi.right-ECW的前一中断的索引

Bsi-x坐标最接近BBsi.left+ECW的后一中断的索引

给定这些定义，字符间中断分类器部件106可以使用以下特性或特征将字符间候选中断分类为中断点、非中断点或未定点：

f1	BBpi.width /ECH
		f2	BBpi.height/ECH
f3	BBsi. width / ECH
		f4	BBsi.height /ECH
f5	BBpi. top /ECH
		f6	BBpi. bottom / ECH
f7	BBsi. top /ECH
		f8	BBsi. bottom /ECH

f9	Bi. size /MBS
		F10	Bi-1.size /MBS
f11	Bi+1.size /MBS
		f12	(Bi.start - Bpi.start) /ECW
F13	Bpi.size /MBS
		f14	(Bsi.start - Bi.start) /ECW
f15	Bsi.size/MBS

表1

最后四个特征用于建立东亚文本的规则性。在仅包含东亚字符的行中，字符中断彼此间间距相等。于是，如果在位置x有中断，可以预计另一个中断位于在当前中断左方的位置x-ECW处以及当前中断右方的位置x+ECW处。于是，如果在位置x有中断，可以预计在位置x-ECW和x+ECW附近有相邻中断。特征f12和f14代表中断间这种规则性的度量或程度。识别最接近预期它们所在位置的中断并根据它们与其预期位置匹配多好来表达。为完整起见包括特征f13和f15，因为它们提供了关于中断大小的信息。

应当指出，在为了再现缺失的中断而分开彼此接触的符号的那些情况下，中断大小等于1（Bi.size=Bi.end-Bi.start+1=1）。

可以利用训练模式确定以上特征的分布以建立表征中断点、非中断点和未定点的特征值的各种组合。一旦确定了这一点，就可以使用这些特征的值针对经历OCR的未知图像中的文本行对字符间候选中断分类。尽管一般将从检查所有这些特征实现最大的精确度，但在一些情况下，检查各种子组合可能就够了。

可以利用其他类似几何特征扩展上文给出的所建议的一组特征，以进一步改善分类精确度。可以通过检查分类中发生的错误来实现扩展过程，以确定发生这种错误时的情形。

字符间中断分类器部件106能够采用任何可用的分类技术（神经网络、决策树等）执行实际分类。在可以采用之前，一些分类器将需要利用可用的特征组进行训练。可以使用神经网络，例如时间延迟神经网络（TDNN）进一步改善分类精确度。在这种方法中，并非简单使用上述特征对特定候选者分类，在分类过程中也可以使用一些（例如1-3个）先前或后续中断点的一组特征的值。

字符识别

在向字符特征提取部件112发送上面识别的个体字符之前，对字符进行一些预处理，以便改善精确度。结合图6a和6b示出了这个步骤。图6a示出了原始字符的图像连同其划界框的宽度和高度。在图6b所示的第一步骤中，通过字符预处理部件108拉伸原始字符，使得在每个维度上，它都扩展到其划界框的边缘或边界，现在其具有固定尺寸。在一些情况下，拉伸步骤可以包括改变字符的高宽比，在这种情况下，保留原始高宽比的值以备将来之用。执行图6b中所示步骤的一个原因是移除不同字体的相同字符的各种特征之间的不一致性。

在已经适当拉伸字符之后，下一步是利用字符特征提取部件112执行特征提取。提取的特征可以是任何适当的特征组，例如Gabor特征或直方图特征，或适用于字符识别的任何其他特征组。如果使用Gabor特征，特征提取引擎包括一组Gabor过滤器，以识别可以在频域中有效表征的重复结构。由于OCR引擎基于灰度级图像，这意味着并非在每个像素位置使用0或1的像素值，而是可以采用Gabor、直方图或任何其他特征的公式中使用的0和255之间的像素值。此外，可以执行特征标准化步骤。例如，在某些范例中，特征可以由其最大特征值来标准化。如前所述，可能已经保留了关于原始字符高宽比的信息。可以向所采用的特征组增加这种信息作为额外特征。

在已经执行上述预处理步骤和特征计算步骤之后，字符分类部件113基于从字符特征提取部件112接收的输入特征组来执行分类。字符分类部件112能够采用任何可用的分类技术（神经网络、决策树等）执行实际分类。这些分类器的一些可能需要在它们可以被采用之前利用可用特征组进行训练。字符识别引擎108针对每个候选字符输出一组字符猜测，连同每个猜测的概率。

将行分割成西文和象形文本片段

将结合图7-12中所示的文本行和图13中所示的流程图例示将文本行分成西文和象形文本片段的过程。首先，在步骤310中，字符间中断标识符部件104和字符间中断分类器部件106执行上述字符中断过程，以识别中断点、非中断点和未定点。在图7中用线B表示中断点，用线N表示非中断点，以及用线U表示未定点。

在步骤320中使用的西文和象形文本分类器部件114识别文本中的个体字符，既有西文的又有象形字符。首先，移除所有非中断点。基于字符识别引擎108计算的个体字符的置信水平，分辨未定的中断点。可以通过应用公知的定向搜索算法来执行分辨过程，该算法将计算两个相继中断点之间的最佳字符序列。如在图8中可以看出，已经分辨了未定的中断点并移除了非中断点。可以看出，图7中的第一个未定中断点在图8中被不正确地移除了。在这个时间点上，已经针对给定行识别了字符序列，并指定了它们的置信水平。此外，已经通过移除一些中断点并确认某些其他中断点更新了该组中断点。

西文和象形文本分类器部件114在步骤330中通过运行各种公知西文单词中断引擎的任一种来继续行分割过程，以获得给定文本行中的单词间中断。由图9中的线C表示单词间中断。在这个步骤的过程期间，现在将先前识别为字符间中断的一些中断点分类为单词间中断。从这一点开始，将使用单词间中断表示不同文本片段彼此分开的点。

在步骤340中，西文和象形文本分类器部件114在步骤320中已识别为置信水平高于某阈值的象形字符的那些字符周围放置单词间中断。可以通过经验确定阈值。在一些实施方式中，可以在识别为象形字符的一些字符周围放置单词间中断，即使它们的置信水平低于阈值。这可以通过检查一些附加字符特征来实现，例如相对于其左右字符高度的字符高度，其左右字符的身份以及相对于行高的字符高度。通过这种方式，可能将一些附加字符识别为象形字符，即使它们最初置信水平低于某预定义阈值。图10示出了放在满足上述条件的象形字符周围的单词间中断。

接下来，在步骤350中，西文和象形文本分类器部件114计数位于所有相继单词间中断之间的字符总数N以及纯西文字符的总数W。如果比值W/N大于某经验确定的阈值，这个文本片段将被分类为西文文本片段，否则其将被分类为象形文本片段。如果将文本片段分类为西文文本片段，在步骤360中将调用多种公知西文单词识别器引擎的任一种。如果西文单词识别器提供的已识别单词的置信水平低于某个阈值，将把文本片段重新分类为象形文本片段。如果置信水平高于阈值，文本片段将维持其西文文本片段分类。在图11中，单词“Grand”和“Challenge”满足这个条件，并且以具有高于预定义阈值的置信度西文被单词识别器识别，结果，所述单词被分类为西文文本片段。还应当注意，即使在字符“a”和“n”之间没有中断，也可以正确地识别单词“Grand”，这意味着西文单词识别器有其自己的逻辑用于发现字符间中断并识别个体字符和单词。从字码识别器获得的高于先前确定的阈值的单词识别结果被保存为对应文本片段的最终识别结果，并稍后传递到输出部件116。

对于剩余文本片段（其被假定全为象形文本片段），在步骤370中，通过将任何剩余象形字符周围的所有中断表示为单词间中断来执行最终的分割过程。在图12中示出了这个步骤。通过这种方式，两个相继单词间中断之间的字符表示单个单词，其中一串字符对于西文文本片段而言表示西文单词，而对于象形文本片段而言表示单个字符的单词。

将所有的识别结果连同单词间中断的位置传递到输出部件116。对于西文文本片段而言，将西文单词识别过程的结果传递到输出部件，而对于象形文本片段而言，将步骤320中分辨的字符识别引擎108的结果传递到输出部件。

如本申请中使用的，术语“部件”、“模块”、“引擎”、“系统”、“设备”、“接口”等一般是指计算机相关的实体，硬件、硬件和软件的组合、软件或执行中的软件。例如，部件可以是，但不限于处理器上运行的过程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。作为例示，控制器上运行的应用和控制器都可以是部件。一个或多个部件可以存在于过程和/或执行的线程之内，并且部件可以定位在一个计算机上和/或分布于两个或更多计算机之间。

此外，可以利用标准的编程和/或工程技术将要求保护的主题实现为方法、设备或制品，以产生软件、固件、硬件或其任何组合以控制计算机实施公开的主题。这里使用的术语“制品”意在涵盖可以从任何计算机可读装置、载体或介质访问的计算机程序。例如，计算机可读介质可以包括，但不限于磁存储装置（例如，硬盘、软盘、磁条…）、光盘（例如，紧致盘（CD）、数字多用盘（DVD）…）、智能卡和闪速存储装置（例如，卡、棒、键驱动…）。当然，本领域的技术人员将认识到可以对这种配置做很多修改而不脱离要求保护的主题的范围或精神。

尽管已经以特定于结构特征和/或方法动作的语言描述了主题，但要理解，所附权利要求中界定的主题未必限于上述具体特征或动作。相反，上述具体特征和动作作为实现权利要求的范例形式而被公开。

Claims

1.一种用于对输入图像执行字符识别的方法，包括：

在图像处理设备处接收包括至少一个文本行的输入图像；

沿着所述文本行，使用所述图像处理设备识别候选字符间中断；

至少部分基于每个相应候选字符间中断和与其相邻的字符划界框的几何性质，使用所述图像处理设备将每个候选字符间中断分类为实际中断、非中断或不确定中断；以及

至少部分基于从每个相应候选字符提取的特征组，使用所述图像处理设备识别所述候选字符。

2.根据权利要求1所述的方法，其中对每个候选字符间中断分类所依据的几何性质包括相邻字符划界框相对于估计的文本行字符高度的尺寸和位置。

3.根据权利要求2所述的方法，其中对每个候选字符间中断分类所依据的几何性质还包括相应候选字符间中断及其相邻中断相对于文本行平均中断尺寸的尺寸。

4.根据权利要求3所述的方法，其中对每个候选字符间中断分类所依据的几何性质还包括针对文本行中候选字符的估计字符宽度的规则程度。

5.根据权利要求1所述的方法，其中识别所述候选字符包括在输入灰度图像上拉伸候选字符。

6.根据权利要求1所述的方法，其中识别所述候选字符包括利用字符特征组执行特征计算并通过利用任何当前或将来的分类算法基于字符特征组执行分类。

7.一种用于分割文本行的西文和象形部分的图像处理设备，包括：

输入部件，其接收包括至少一个文本行的输入图像；

字符间中断标识符部件，其沿着所述文本行识别候选字符间中断；

字符间中断分类器部件，其至少部分基于每个相应候选字符间中断和与其相邻的字符划界框的几何性质将每个候选字符间中断分类为实际中断、非中断或不确定中断；

字符识别部件，其至少部分基于从每个相应候选字符提取的特征组识别所述候选字符；

西文和象形文本分类器部件，其将所述文本行分割成西文文本片段和象形文本片段；以及

输出部件，其接收行分割和识别结果。

8.根据权利要求7所述的图像处理设备，其中所述西文和象形文本分类器部件被配置成移除非中断点并分辨未定点且识别个体西文和象形字符。

9.根据权利要求8所述的图像处理设备，其中所述西文和象形文本分类器部件还被配置成基于西文单词中断算法识别文本行中的单词间中断。

10.根据权利要求9所述的图像处理设备，其中所述西文和象形文本分类器部件被配置成在已经被识别为置信水平大于阈值水平的象形字符的每个字符周围放置单词间中断。

11.根据权利要求10所述的图像处理设备，其中所述西文和象形文本分类器部件被配置成，通过检查至少一个附加字符特征，在已经被识别为置信水平低于阈值水平的象形字符的每个附加字符周围放置单词间中断。

12.根据权利要求11所述的图像处理设备，其中所述附加字符特征包括相对于该字符左边和右边的字符的高度的字符高度、该字符左边和右边的字符的身份以及相对于行高的字符高度。

13.根据权利要求12所述的图像处理设备，其中所述西文和象形文本分类器部件被配置成确定位于相继单词间中断之间的文本片段中的西文字符的数量与文本片段中字符总数的比率，并且如果所述比率超过预定阈值，将所述文本片段分类为西文文本片段，否则将其分类为象形文本片段。

14.根据权利要求13所述的图像处理设备，还包括西文单词识别器引擎，用于识别西文文本片段中的单词。

15.根据权利要求14所述的图像处理设备，其中所述西文单词识别器引擎提供西文单词识别结果和与其关联的置信水平，其中所述置信水平表示所识别单词被正确识别的概率，且其中所述西文和象形文本分类器部件还被配置成，如果所述置信水平低于阈值水平，将所述西文文本片段重新分类为象形文本片段。