CN110134924A

CN110134924A - 重叠文本组件提取方法和装置、文本识别系统及存储介质

Info

Publication number: CN110134924A
Application number: CN201810128377.3A
Authority: CN
Inventors: 马彬; 李献
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-02-08
Filing date: 2018-02-08
Publication date: 2019-08-16
Anticipated expiration: 2038-02-08
Also published as: CN110134924B

Abstract

本发明公开了一种重叠文本组件提取方法和装置、文本识别系统及存储介质。所述重叠文本组件提取装置包括：组件提取单元，被构造为从文本图像的表格提取表格组件和单元组件；单元外轮廓提取组件，被构造为根据所述表格组件或所述单元组件提取单元外轮廓；候选区域确定单元，被构造为根据所述单元外轮廓确定候选区域；以及重叠文本组件提取单元，被构造为通过保留所述表格组件的位于所述候选区域中的像素来提取所述候选区域中的重叠文本组件。根据本发明，文本检测的准确性将得到提高。

Description

重叠文本组件提取方法和装置、文本识别系统及存储介质

技术领域

本发明涉及文档图像内容处理，尤其涉及例如能够提取文档图像中与表格重叠的文本的重叠文本提取方法和装置。

背景技术

当前，对于自动分析包含表格的文档图像(例如，银行支票、保险单、购物发票等图像)的内容有巨大的需求。然而，由于在打印文本过程中与表格模板的错位，打印文本可能与表格重叠(即，打印文本的像素与表格格线的像素空间上连接)。

通常，在文本与表格重叠的情况下，表格的像素由两部分构成：表格格线的像素以及重叠文本的像素。如何将这两部分像素分开是一项极具挑战的任务。传统方法通过从表格图像中检测表格格线并移除表格格线的像素，将剩余像素视为重叠文本的像素来解决该问题。为了便于表格格线的提取，传统方法提出了关于表格格线形状的先验假定，诸如，几乎水平或垂直的长直线。美国专利US 8625895中公开了一种用于提取与表格重叠的文本的方法的示例性技术，所述方法包括：从输入的二值图像提取表格组件，通过游程分析从表格组件提取格线组件，以及通过从表格组件减去格线组件的像素来提取重叠文本组件。因此，剩余像素为提取的重叠文本组件。

然而，传统方法因如上所述的关于表格格线形状的先验假定的限制而无法处理任意畸变情况下与表格重叠的文本。此外，即使将传统方法与某些可将偏斜表格修正为正平行视图的预处理方法或某些先进的格线组件提取技术结合使用，仍无法在任意畸变情况下准确地提取格线组件。因此，在图像修正或表格格线提取几乎不可行的任意畸变情况下，提取与表格重叠的文本仍是一个待解决的问题。

发明内容

因此，鉴于上面的背景技术中的记载，本公开内容旨在解决上述问题。

根据本发明的一个方面，提供一种重叠文本提取装置，所述装置包括：组件提取单元，被构造为从文本图像中的表格提取表格组件和单元组件(cell component)；单元外轮廓提取单元(cell external contour extraction unit)，被构造为根据所述表格组件或所述单元组件提取单元外轮廓；候选区域确定单元，被构造为根据所述单元外轮廓确定候选区域；以及重叠文本组件提取单元，被构造为通过保留所述表格组件的位于所述候选区域中的像素来提取所述候选区域中的重叠文本组件。

利用本发明，重叠文本提取的方法不仅适用于具有水平和垂直格线组件的规则表格，也适用于具有常规技术可能难以解决的任意畸变的表格。

根据以下参照附图的描述，本发明的其他特性特征和优点将显而易见。

附图说明

包含在说明书中并构成本说明书的一部分的附图例示本发明的实施例，并与文字描述一起用于解释本发明的原理。

图1A示意性地示出包含重叠文本和非重叠文本的表格的示例。

图1B示意性地示出根据图1A的表格组件的示例，其中，由于重叠文本的像素与格线组件的像素连接，因此重叠文本为表格组件的一部分。

图1C示意性地示出根据图1A的格线组件的示例。

图1D示意性地示出根据图1A的单元组件的示例，其中，单元组件的像素从白色转成黑色以便于观察。文本内部所包围的小的背景区域并非单元组件的一部分。

图1E示意性地示出来自原始图像的表格的单元的示例。

图1F示意性地示出根据图1E的单元组件的示例。

图1G示意性地示出根据图1F的单元组件的单元外轮廓的示例。

图1H示意性地示出根据图1E中所示的表格提取的重叠文本的示例。

图2是示意性地示出可实现根据本发明实施例的技术的硬件结构的框图。

图3是例示根据本发明第一实施例的重叠文本组件提取装置的结构的框图。

图4示意性地示出根据本发明第一实施例的重叠文本组件提取处理的流程图。

图5示意性地示出图4中所示的步骤S420的单元外轮廓提取的详细过程的流程图。

图6A示意性地示出部分表格的示例。

图6B示意性地示出从图6A中所示的表格提取的表格组件的示例。

图6C示意性地示出从图6B中所示的表格组件提取的轮廓的示例。

图6D示意性地示出直接从图6A中所示的表格提取的轮廓的示例。

图7示意性地示出图6C和/或图6D中的单元外轮廓的一个凸包(convex hull)的示例。

图8示意性地示出从图7中的单元外轮廓提取的两个凸缺陷区域的示例。

图9示意性地示出从图6B的单元外轮廓提取的所有凸缺陷区域的示例。

图10示意性地示出从图6A的表格提取的重叠文本组件的示例。

图11A示意性地示出表格的一部分的表格单元(table cell)的示例。

图11B示意性地示出从图11A确定的候选区域的示例。

图11C示意性地示出根据图11B中的候选区域提取的重叠文本组件的示例。

图12示意性地示出根据本发明第四实施例的重叠文本提取处理的流程图。

图13A示意性地示出图11B中的候选区域的原始始点和终点的示例。

图13B示意性地示出在细化候选区域之后与图13A对应的候选区域的新始点和终点的示例。

图14示意性地示出根据本发明第五实施例的重叠文本提取处理的流程图。

图15A示意性地示出单元外轮廓的示例。

图15B示意性地示出根据图15A过滤规则单元外轮廓之后剩余的单元外轮廓的示例。

图16示意性地示出根据本发明第六实施例的重叠文本提取处理的流程图。

图17A示意性地示出文档图像中的表格组件的示例。

图17B示意性地示出表格组件的外轮廓的示例。

图17C示意性地示出外轮廓的凸缺陷区域的示例。

图17D示意性地示出所鉴别的具有相似的与单元组件对应的形状特征的凸缺陷区域的示例。

图18A至图18D示意性地示出根据本发明的针对表格的重叠文本提取处理的示例。

图19示意性地例示根据本发明的示例性重叠文本识别系统的布置。

具体实施方式

(术语解释)

以下术语频繁出现于本发明中，下面将对其进行详细定义：

组件通常表示一组空间上连接的像素，所述像素具有相似颜色、相似性质或相似笔划宽度并且空间上彼此连接，其中“连接(connected)”意味着在3×3的邻域中毗邻。

表格组件是指由物理表格的所有像素及与所述物理表格连接的任何其他像素构成的组件。图1B示意性地示出根据图1A的表格组件的示例。即，图1B例示与图1A的表格对应的表格组件。

格线组件是指形成物理表格的各个物理线条。图1C示意性地示出根据图1A的格线组件的示例。换言之，图1C例示与图1A中所示的表格对应的6个格线组件。

重叠文本组件是指由空间上与格线组件的像素连接的文本的像素构成的组件。例如，图1B示意性地示出根据图1A的表格组件的示例，其中，由于重叠文本的像素与格线组件的像素连接，因此重叠文本为表格组件的一部分。即，图1B中所示的字符“Overlap Text”表示11个重叠文本组件。

非重叠文本组件是指由空间上不与格线组件的像素连接的文本的像素构成的组件。例如，图1A示意性地示出包含重叠文本和非重叠文本的表格的示例。其中，字符“Non-Overlap Text”表示15个非重叠文本组件。

单元组件是指由与格线组件所包围的单个连通区域对应的背景像素构成的组件。例如，图1D示意性地示出根据图1A的单元组件的示例，此处，单元组件的像素从白色转成黑色以便于观察，但是文本内部所包围的小的背景区域并非单元组件的一部分。如图1D中所示，有4个与图1A的表格对应的单元组件。

单元外轮廓是指单元组件的外轮廓或者由格线组件所包围的背景区域的外轮廓。如图1G中所示，图1G示意性地示出图1F中所示的单元组件的单元外轮廓的示例。

下面将参照附图详细描述本发明的示例性实施例。应注意，下面的描述实质上仅为说明性和示例性的，并且决不意图限制本发明及其应用或用途。除非另有具体说明，否则实施例中阐述的组件和步骤的相对布置、数值表达式和数值并不限制本发明的范围。另外，本领域技术人员已知的技术、方法和设备可能不会被详细地讨论，但在适当的情况下其应当是本说明书的一部分。

请注意，相似的附图标记和字母指代附图中相似的项目，因此，一旦一个项目在一个附图中被定义，则不必在下面的附图中对其进行讨论。

接下来将描述本发明的示例性实施例，将具有至少一个表格的二值图像视为用于重叠文本提取的文档图像。然而，在将二值图像替换为包括任何与表格重叠的文本的任何其他文档图像时，仍可应用本发明的示例性实施例。

在学习并分析了传统方法之后，发明人发现传统方法可能难以处理任意畸变情况的主要原因是传统方法对格线组件的提取和移除的依赖。因此，发明人将从一个新的视角，通过根据本发明避免格线组件提取来解决该问题。

此外，发明人将集中分析单元外轮廓而非格线组件的形状性质以提取与表格重叠的文本。本发明的特性是基于“与表格重叠的文本不可避免地会破坏单元外轮廓的形状规则度”的假设。因此，本发明的核心思想是检测单元外轮廓的不规则部分，并使用所述不规则部分来确定从中提取重叠文本的候选区域。通过单元外轮廓分析，本发明不依赖关于格线组件形状的特定先验知识，具体来说，即格线组件是水平、垂直、弯曲还是褶皱。

因此，本发明不仅适用于提取具有水平和垂直格线组件的规则表格中的重叠文本，也适用于提取具有常规技术可能难以解决的任意畸变的表格中的重叠文本。

本发明的基本原理是基于单元外轮廓的凸缺陷区域的重叠文本提取，将结合图1E至图1H进行解释，图1E至图1H示意性地示出从表格提取重叠文本的示例。为了便于解释，图1E仅示意性地示出来自原始文档图像的表格的表格单元。首先，本发明从图1E中所示的表格单元提取图1F中所示的单元组件。如上所述，单元组件为与格线组件所包围的单个连通区域对应的背景像素。然后，本发明基于单元组件提取图1G中所示的单元外轮廓。最后，本发明确定凸缺陷区域，所述凸缺陷区域为单元组件的单元外轮廓与单元组件的凸包之间的差异区域。作为几何概念，凸缺陷区域是指多边形的外轮廓与多边形的凸包之间的差异区域。凸包是指包围原始多边形的所有点的最小多边形。因此，确定的凸缺陷区域为重叠文本。图1H示意性地示出根据图1E中所示的单元外轮廓提取的重叠文本组件的示例。即，提取的重叠文本为图1H中所示的字符“00012”。

(硬件结构)

首先，将参照图2描述可实现下文中描述的技术的硬件结构。图2是示意性地示出可实现根据本发明实施例的技术的硬件结构200的框图。

硬件结构200例如包括中央处理单元(CPU)210、随机存取存储器(RAM)220、只读存储器(ROM)230、硬盘240、输入设备250、输出设备260、网络接口270和系统总线280。此外，硬件结构200可通过诸如个人数字助理(PDA)、移动电话、相机、笔记本电脑、台式电脑、平板电脑或其他合适的电子设备来实现。

在第一实现方式中，根据本发明的重叠文本组件提取处理和文本识别处理由硬件或固件构造并且用作硬件结构200的模块或组件。例如，将在下文参照图3详细描述的重叠文本组件提取装置300和将在下文参照图19详细描述的重叠文本识别系统1900用作硬件结构200的模块或组件。

在第二实现方式中，根据本发明的重叠文本组件提取处理、重叠文本提取处理、重叠文本检测处理和重叠文本识别处理由存储在ROM 230或硬盘240中且由CPU 210执行的软件构造。例如，将在下文参照图4、图5、图12、图14和图16详细描述的重叠文本组件提取过程400、500、1200、1400和1600用作存储在ROM 230或硬盘240中的程序。

CPU 210是任何合适的可编程控制设备(诸如，处理器)，并且可通过执行存储在ROM 230或硬盘240(诸如，存储器)中的各种应用程序来执行下文中要描述的各种功能。RAM220用于临时存储从ROM 230或硬盘240加载的程序或数据，并且还用作CPU 210在其中执行各种程序(诸如，执行将在下文参照图4至图18A-18D详细描述的公开技术)以及其他可用功能的空间。硬盘240存储多种类型的信息，诸如操作系统(OS)、各种应用、控制程序和制造商预存储或预生成的数据，其中，所述数据可以是例如将在下文描述的阈值(THs)。

在一种实现方式中，输入设备250允许用户与硬件结构200交互。在一个实例中，用户被允许通过输入设备250输入具有表格的文档图像、文档图像、视频或数据。在另一实例中，用户可通过输入设备250触发本发明的对应重叠文本提取处理和/或对应识别处理。此外，输入设备250可采用多种形式，诸如按钮、键盘或触摸屏。在另一种实现方式中，输入设备250用于接收从诸如数码相机、摄像机和/或网络摄像机等专门电子设备输出的图像或视频。

在一种实现方式中，输出设备260用于向用户显示文本提取结果(诸如，针对输入图像的重叠文本组件、重叠文本或非重叠文本)。并且，输出设备可采用多种形式，诸如阴极射线管(CRT)或液晶显示器。在另一种实现方式中，输出设备260用于将提取的文本输出到存储设备(例如，ROM 230、硬盘240或外部服务器)，或者用于将提取的文本组件输出到后续操作，诸如重叠文本提取、文本检测和/或文本识别处理。

网络接口270提供用于将硬件结构200连接到网络的接口。例如，硬件结构200可经由网络接口270与经由网络连接的其他电子设备(诸如，图19中所示的图像获取装置1910)进行数据通信。另一选择是，可为硬件结构200提供无线接口，以进行无线数据通信。

系统总线280提供用于在CPU 210、RAM 220、ROM 230、硬盘240、输入设备250、输出设备260和网络接口270等之间相互传输数据的数据传输路径。虽然被称为总线，但是系统总线280并不限于任何特定的数据传输技术。

上述硬件结构200仅为说明性的，并且决不意图限制本发明、其应用或用途。而且，为了简明起见，在图2中只示出一个硬件结构。但是，根据需要也可使用多个硬件结构。

(重叠文本组件提取处理)

接下来，将参照图3至图18D描述根据本发明的重叠文本组件提取处理(尤其是单元外轮廓提取)。

(第一实施例)

图3是例示根据本发明第一实施例的重叠文本组件提取装置300的结构的框图。其中，图3中所示的部分或全部模块可由专用硬件实现。图4中所示的流程图400是图3中所示的装置300的对应过程。

如图3中所示，重叠文本组件提取装置300包括组件提取单元310、单元外轮廓提取单元320、候选区域确定单元330和重叠文本组件提取单元340。

在该实施例中，首先，如上所述，图2中所示的输入设备250可从图像获取装置(诸如，数码相机)获取文档图像(诸如，灰度图像或彩色图像)中的表格。此处，表格可包含任意畸变。接着，输入设备250可经由系统总线280将获取的表格传输到组件提取单元310。然后，如图3中所示，组件提取单元310可通过系统总线280从输入设备250获得表格。

此外，组件提取单元310执行图4中所示的组件提取步骤S410以根据文档图像中的表格提取表格组件和单元组件。如图4中所示，在组件提取步骤S410中，组件提取单元310从文档图像中的表格提取表格组件和单元组件。

在第一实施例中，在组件提取步骤S410中，组件提取单元310从文档图像中的表格提取表格组件。首先，组件提取单元310从接收到的表格提取组件，并且针对给定的表格，有许多提取表格组件的公知方法，诸如颜色聚类、MSER、自适应二值化。在该实施例中，Sauvola自适应二值化方法之后接着使用连通域分析(Connected Component Analysis，下文称为“CCA”)来提取组件，其中，组件提取单元310对前景通道执行CCA，即具有黑色像素的组件来自暗通道，而具有白色像素的组件来自亮通道。亮通道和暗通道互为反向通道。

然后，组件提取单元310基于公知形状特征从提取的组件鉴别表格组件。在该实施例中，以下诸如针对每个组件的面积特征(即，组件的宽*高)或密实度特征(solidityfeature)(即，组件的像素数/组件的面积)的特征可用于鉴别提取的组件是否为表格组件。在面积特征值大于预定义阈值(即，面积>TH1)且密实度特征值小于预定义阈值(即，密实度<TH2)的情况下，组件提取单元310将提取的组件鉴别为表格组件。此处，TH1和TH2是基于关于表格中的表格组件的最小可能尺寸的先验知识确定的阈值。在该实施例中，假设表格中字符的最小可能尺寸为20*20个像素、表格包含至少两个单元并且每个单元包含至少两个字符而选择TH1。同时，考虑到表格单元中的空白空间和任意畸变对单元面积的影响，将TH1设置为2000。基于表格组件的像素密度通常较低的经验，将TH2设置为0.1。

然后，组件提取单元310从文档图像中的表格提取表格组件。然后，单元外轮廓提取单元320通过系统总线280从组件提取单元310获得表格组件。

因此，单元外轮廓提取单元320执行图4中所示的单元外轮廓提取步骤S420，以基于表格组件提取单元外轮廓。

在一种实现方式中，单元外轮廓提取单元320根据表格组件提取单元外轮廓，接下来将结合图5至图7进行描述。

图5中所示的流程图500是根据本发明的图4中所示的单元外轮廓提取步骤S420的对应过程。图6A至图6D示出提取单元外轮廓的结果。

接下来，将以包含任意畸变的表格或局部表格为例描述本发明的示例性实施例，例如，图6A示意性地示出局部表格的示例。

现在，转到图5，图5示意性地示出图4中所示的步骤S420的单元外轮廓提取的详细过程的流程图。

在轮廓提取步骤S510中，单元外轮廓提取单元320提取表格组件的外轮廓和内轮廓。在一种实现方式中，图6B示意性地示出从图6A中所示的表格提取的表格组件的示例。然后，根据图6B中所示的表格组件，单元外轮廓提取单元320通过可用于完成该任务的某种公知算法(诸如，Suzuki,S.和Abe,K.在Topological Structural Analysis of DigitizedBinary Images by Border Following.CVGIP 30 1,pp 32-46(1985)中公开的技术)提取表格组件的层次轮廓。

因此，通过层次信息组织从表格组件提取的轮廓。例如，图6C示意性地示出从图6B中所示的表格组件提取的轮廓的示例。如图6C中所示，单元外轮廓提取单元320提取9个轮廓，所述9个轮廓如下被组织在两个层级中：一个层级是表格组件的外轮廓(例如，图6C中所示的外轮廓0-100)；另一个层级是表格组件的内轮廓(例如，图6C中所示的8个内轮廓1-100、1-200、1-300、1-400、1-500、1-600、1-700、1-800)。

在单元外轮廓鉴别步骤S520中，单元外轮廓提取单元320从提取的表格组件的内轮廓鉴别单元外轮廓。首先，单元外轮廓提取单元320挑出表格组件的所有内轮廓；并且针对每个内轮廓计算以下形状特征：轮廓面积特征(即，外轮廓所包围的面积)、轮廓边界框面积特征(即，内轮廓边界框的宽*高)及轮廓占空比特征(即，轮廓面积/轮廓边界框面积)。

然后，单元外轮廓提取单元320根据以下条件鉴别内轮廓是否为单元外轮廓：

1)轮廓面积>TH3

2)轮廓边界框面积>TH4

3)轮廓占空比>TH5

其中，TH3、TH4和TH5为预定义阈值。在本发明中，假设文档图像中可能的最小字符尺寸为约20*20个像素并且表格单元应足够大以包含至少两个字符。因此，将TH3设置为800。考虑到轮廓边界框面积大于轮廓面积，将TH4设置为1000。基于经验将TH5设置为0.5。

在内轮廓满足所述三个条件的情况下，单元外轮廓提取单元320将内轮廓鉴别为单元外轮廓。例如，图6C中所示的内轮廓1-200中的一个被鉴别为单元外轮廓。

在另一种实现方式中，单元外轮廓提取单元320可直接从表格提取单元外轮廓。首先，单元外轮廓提取单元320对表格(例如，图6A)而非表格组件(例如，图6B)执行与上述相同的轮廓提取方法(步骤S510)，以提取图6D中所示的具有层次信息的轮廓，图6D示意性地示出直接从根据图6A的表格提取的轮廓的示例。如图6D中所示，单元外轮廓提取单元320提取12个轮廓，所述12个轮廓如下被组织在4个层级中：第一层级是表格组件的外轮廓(例如，图6D中所示的外轮廓0-100)；第二层级是表格组件的内轮廓(例如，图6C中所示的8个内轮廓1-100、1-200、1-300、1-400、1-500、1-600、1-700、1-800)；第三层级是非重叠文本组件的外轮廓(例如，图6D中所示的2个内轮廓2-100和2-200)；第四层级是非重叠文本组件的内轮廓(例如，图6D中所示的内轮廓3-100)。

然后，单元外轮廓提取单元320使用与上述相同的方法从提取的表格组件的内轮廓鉴别单元外轮廓。(步骤S520)

获得单元外轮廓之后，在凸包提取步骤S530中，单元外轮廓提取单元320可进一步提取单元外轮廓的凸包。针对所鉴别的单元外轮廓中的每一个，单元外轮廓提取单元320提取单元外轮廓的凸包。例如，此处可采用Sklansky,J.在Finding the Convex Hull of aSimple Polygon.PRL,pp79-83(1982)中公开的公知方法。图7示意性地示出图6C和/或图6D中的单元外轮廓的凸包的示例。即，图7例示单元外轮廓1-200的凸包1-201。所有其余单元外轮廓以相同方式处理。因此，在步骤S530的处理之后，每个单元外轮廓具有一个对应的凸包。

在单元外轮廓提取之后，单元外轮廓提取单元320获得单元外轮廓和单元外轮廓的凸包。然后，候选区域确定单元330通过系统总线280从单元外轮廓提取单元320获得单元外轮廓和单元外轮廓的凸包。

因此，候选区域确定单元330可根据单元外轮廓执行候选区域确定步骤S430以确定候选区域。

在一种实现方式中，在步骤S430中，候选区域确定单元330基于单元外轮廓与单元外轮廓的凸包之间的差异区域确定候选区域。对确定候选区域的基本假设是：在某一文本与表格重叠的情况下，重叠的文本将破坏单元外轮廓的形状规则度。因此，检测单元外轮廓的不规则形状区域可确定候选区域。

在一种实现方式中，候选区域确定单元330将以凸缺陷区域为例来确定候选区域。详细处理步骤如下：首先，候选区域确定单元330用CANDIDATE_MARK标记凸包内部的所有像素；接着，候选区域确定单元330擦除单元外轮廓内部像素的CANDIDATE_MARK；然后，候选区域确定单元330对剩余的具有CANDIDATE_MARK的像素执行连通域分析；以及最后，候选区域确定单元330输出具有CANDIDATE_MARK的像素的每一个连通域作为候选区域。

每个单元外轮廓可由多个凸缺陷区域构成，并且所有单元外轮廓的凸缺陷区域被确定为用于提取重叠文本组件的最终候选区域。例如，图8示意性地示出从图7中的单元外轮廓提取的两个凸缺陷区域(例如，1-211、1-212)的示例。图9示意性地示出从图6B中所示的表格组件的单元外轮廓提取的所有凸缺陷区域的示例。即，所有6个凸缺陷区域(1-211、1-212、1-311、1-511、1-611、1-612)被确定为候选区域。

因此，候选区域确定单元330确定候选区域，所述候选区域指示存在与表格重叠的文本的可能区域。即，输出将被用作步骤S440中重叠文本组件提取单元340用来执行提取重叠文本组件的感兴趣区域。

在候选区域确定处理之后，候选区域确定单元330获得用于重叠文本组件提取处理的候选区域。然后，重叠文本组件提取单元340通过系统总线280从候选区域确定单元330获得候选区域。

因此，重叠文本组件提取单元340在候选区域中提取重叠文本组件并且通过系统总线280将所述重叠文本组件输出到输出设备260用于进一步处理。

重叠文本组件提取单元340根据候选区域执行图4中所示的重叠文本组件提取步骤S440以提取重叠文本组件。

在重叠文本组件提取步骤S440中，重叠文本组件提取单元340通过保留表格组件的位于确定的候选区域中的像素来提取重叠文本组件。在一种实现方式中，对于提取的表格组件和确定的候选区域，重叠文本组件提取单元340从表格组件减去候选区域外部的像素，然后仅保留表格组件的位于候选区域中的像素。图10示意性地示出从图6A的表格提取的重叠文本组件的示例。

因此，重叠文本组件提取单元340提取表格中的重叠文本组件并且输出设备260可通过系统总线280显示重叠文本组件用于进一步处理。例如，重叠文本组件提取单元340向显示器输出重叠文本组件并且用户可使用所述重叠文本组件进行将在下文描述的后续操作，诸如文本提取、文本检测、文本识别或用于进一步处理，诸如提取的重叠文本组件可与非重叠文本结合使用以完成原始输入图像中的布局分析或OCR任务。此外，重叠文本组件提取单元340可将重叠文本组件存储在RAM 220、ROM230或硬盘240中。

(第二实施例)

在本发明的第二实施例中，组件提取单元310被构造为从表格提取单元组件；并且单元外轮廓提取单元320被构造为根据单元组件提取单元外轮廓。其他步骤与第一实施例相同。因此，在该实施例中，本发明提供一种替换方法来达成与第一实施例相似的效果。

在组件提取步骤S410中，组件提取单元310对表格的背景通道执行CCA来提取单元组件。换言之，针对在白色背景像素上具有黑色文本像素的表格，在第一实施例中，组件提取单元310提取黑色像素形成的组件，而在第二实施例中，组件提取单元310提取白色像素形成的组件；反之亦然。用于提取组件的方法可为一些公知方法，诸如颜色聚类、MSER、自适应二值化。此处的组件提取方法不必与第一实施例中所使用的方法相同。

从表格提取一组组件之后，组件提取单元310基于公知形状特征从提取的组件鉴别单元组件。在该实施例中，以下诸如针对每个组件的面积特征(即，组件的宽*高)或密实度特征(即，组件的像素数/组件的面积)的特征可用于鉴别提取的组件是否为单元组件。在面积特征值大于预定义阈值(即，面积>TH6)并且密实度特征值小于预定义阈值(即，密实度<TH7)的情况下，组件提取单元310将提取的组件鉴别为单元组件。此处，TH6与关于表格中的单元的最小面积的先验知识相关。在该实施例中，假设字符的最小尺寸为约20*20个像素，并且最小单元应包含至少两个字符，因此相对较小的阈值TH6＝1000被选中。在假设单元中至少80％的像素为背景像素的情况下，将TH7设置为0.8。

在单元外轮廓提取步骤S420中，单元外轮廓提取单元320根据单元组件提取单元外轮廓。此处，第一实施例与第二实施例之间的差异如下：在第一实施例中，单元外轮廓提取单元320基于表格组件的内轮廓提取单元外轮廓，另一方面，在第二实施例中，由于已提取单元组件，因此单元外轮廓提取单元320可直接从表格的每一个单元组件提取单元外轮廓。

获得单元外轮廓之后，其余操作与上述第一实施例中的操作相同。因此，本发明可提供基于表格组件或基于单元组件提取单元外轮廓的方法和装置，来提取文档图像中与表格重叠的文本。

(第三实施例)

在表格包含任意畸变的情况下，基本上，除了重叠文本组件，表格的任意畸变也可导致单元外轮廓的凸缺陷。因此，如图10中所例示，将提取一些格线组件的像素以及重叠文本组件的像素，诸如图10中所示的线条噪声像素。因此，在本发明的第三实施例中，装置300如图3中所示进一步包括过滤单元350，所述过滤器单元被构造为从提取的重叠文本组件过滤非文本像素。

在该实施例中，过滤单元350执行图4的流程400中所示的过滤步骤S450。过滤单元350旨在过滤提取的重叠文本组件中的非文本像素(即，剩余的格线组件的像素)，所述提取的重叠文本组件是从重叠文本组件提取单元340获得的。

在一种实现方式中，使用形态学开运算(morphology open operation)，基于格线组件的笔划宽度与文本的笔划宽度不同的假设，来过滤剩余的格线组件的像素。可从非重叠文本组件来估算用于形态学开运算的模板尺寸参数。

在另一替代实现方式中，可使用Harris角点响应来过滤剩余的格线组件的像素。详细步骤如下：首先，过滤单元350使用Harris函数对提取的重叠文本组件计算每个像素的角点响应值；接着，过滤单元350根据角点响应值生成高响应掩码，在像素的角点响应值高于预定义阈值(TH8)的情况下，将高响应掩码中的对应像素设置为255，否则设置为0；然后，过滤单元350对高响应掩码进行形态学闭运算(morphology close operation)；最后，过滤单元350移除所有未被高响应掩码覆盖的像素。因此，过滤单元350输出保留的像素作为提取的重叠文本组件的最终结果。

(第四实施例)

在候选区域确定步骤S430中，候选区域确定单元330根据单元外轮廓确定候选区域。换言之，单元外轮廓的凸缺陷区域被直接用作用于提取重叠文本组件的候选区域。然而，在凸缺陷区域包含重叠文本组件和格线组件两者的情况下，将提取重叠文本组件及不期望的格线组件。接下来，将在图11A至图11C中例示示例。图11A示意性地示出表格的一部分的表格单元的示例。图11B示意性地示出从图11A确定的候选区域的示例。图11C示意性地示出根据图11B中的候选区域提取的重叠文本组件的示例。

在本发明的第四实施例中，在重叠文本组件提取单元340从候选区域确定单元330获得候选区域之后，重叠文本组件提取单元340将通过轮廓平滑来细化候选区域。装置300执行的其他步骤与第一实施例相同。

在一种实现方式中，图12中所示的流程图1200示意性地示出根据本发明的该实施例的重叠文本组件提取处理的流程图。与第一实施例相比，在第四实施例中，在候选区域确定步骤S430与重叠文本组件提取步骤S440之间添加了候选区域细化步骤S1210，用于细化候选区域中包含非重叠文本组件的子区域。

本发明假设单元外轮廓由顶点是一系列轮廓点(例如，P₁、P₂、…、P_n，其中，n是轮廓点的总数)的多边形表示。顺时针或逆时针沿轮廓对轮廓点进行分类并以圆形形式记录。因此，对于第k个轮廓点，其下一个相邻的轮廓点为P_(k+1)％n。为了便于描述，在以下描述中，本发明使用P_(k+1)代替P_(k+1)％n来表示P_k的下一个相邻的轮廓点，并且使用P_(k-1)代替P_(k-1)％n来表示P_k的前一个相邻的轮廓点。

通常，建议使用多边形逼近(polygon approximation)以在基本上保持轮廓形状的同时减少轮廓点的数量。在上述定义的基础上，凸缺陷可由一对轮廓点之间的轮廓片段表示：<P_start,P_end>＝{P_startP_start+1,P_start+1P_start+2,…,P_end-1P_end}，其中，P_start表示凸缺陷的轮廓始点，P_end表示凸缺陷的轮廓终点，并且P_iP_j表示端点为P_i和P_j的线段，其中start≤i≤j≤end是轮廓点的顺序索引。

凸缺陷区域最终被表示为如下所包围的区域：<P_start,P_end>和P_endP_start

可根据诸如在OpenCV中实施的公知方法确定P_start和P_end。

候选区域确定单元330输出一组由单元外轮廓的凸缺陷表示的候选区域，其中，每个单独的候选区域由从P_start到P_end的一序列单元轮廓点表示。在候选区域细化步骤S1210中，重叠文本组件提取单元340基于P_start和P_end重新计算点对P_start’和P_end’，以过滤候选区域中包含非重叠文本组件的子区域，并且然后提供用于提取重叠文本组件的细化候选区域。在该实施例中，由于重叠文本组件提取单元340在步骤S1210中分别细化每个候选区域，因此，作为示例性描述，本发明仅描述对单个候选区域的处理。其余候选区域以相同方式处理。

给定一组序列轮廓点{P_start,P_start+1,…P_k,…,P_end-1,P_end}，其中，start≤k≤end为轮廓点在轮廓点序列中的索引。首先，搜索新始点P_start’的处理如下：

步骤1)设置i＝start+1。

步骤2)基于轮廓平滑度的测度，如下计算P_i处局部轮廓形状规则度度量M：

其中，<P_i-1P_i>指示从P_i-1到P_i的向量，|P_i-1P_i|指示P_i-1与P_i之间的线段长度。局部轮廓形状规则度度量是[-1,1]范围内的实值。度量的物理意义反映两个向量的方向差。在M＝1的情况下，所述两个向量方向完全相同；在M＝0的情况下，所述两个向量彼此垂直(即，具有90度夹角的不同方向)；在M＝-1的情况下，所述两个向量方向相反。两个向量的方向差越小表明轮廓的平滑度越高。

在另一替代实现方式中，可如下基于轮廓的深度特征来计算局部轮廓形状规则度度量M：

其中，depth(P_i)＝dist(P_i,<P_start P_end>)指示轮廓点P_i的深度，所述深度是通过P_i到P_start和P_end确定的向量的点线距离计算的。

步骤3)在局部轮廓形状规则度度量值高于平滑度阈值(TH9)并且i+1<end的情况下，设置start＝i并且进入步骤1。此处，将TH9设置为(0,1)，在该实施例中，将其设置为0.8。

步骤4)否则，重叠文本组件提取单元340输出新始点的索引：start’＝i。

然后，搜索新终点P_end’的处理类似，但是在横向相反方向上进行，因此处理如下：

步骤1)设置j＝end-1。

步骤2)计算Pi处的局部轮廓形状规则度度量M。

步骤3)在局部轮廓形状规则度度量值高于平滑度阈值TH9并且j-1>start的情况下，设置end＝j并且进入步骤1。

步骤4)否则，重叠文本组件提取单元340输出新终点的索引：end’＝j。

请注意，搜索新始点和搜索新终点的处理顺序不会影响结果，可一个接一个地处理也可同时处理。

图13A示意性地示出图11B中的候选区域的原始始点和终点的示例。图13B示意性地示出在细化候选区域之后与图13A对应的候选区域的新始点和终点的示例。其中，实线圆圈指示原始候选区域的轮廓点。虚线圆圈指示通过如上所述的候选区域细化处理(步骤S1210)移除的轮廓点。

然后，在细化处理之后，重叠文本组件提取单元340输出新的轮廓始点(P_start’)和轮廓终点(P_end’)。在P_start’与P_end’之间没有其他轮廓点的情况下，即start’+1＝end’，意味着细化的候选区域的面积为空。在该情况下，抛弃所述细化的候选区域。因此，根据细化的候选区域，重叠文本组件提取单元340可在更精确区域内提取重叠文本组件，即，重叠文本组件提取单元340可避免随重叠文本像素一起提取格线组件像素。

(第五实施例)

在单元外轮廓提取步骤S420中，单元外轮廓提取单元320基于表格组件或单元组件提取单元外轮廓。换言之，实际情况下常见的是大多数单元外轮廓是包含非重叠文本的规则单元外轮廓。将这些单元外轮廓传递到后续重叠文本处理将导致计算资源浪费并且将生成更多噪声。

在本发明的第五实施例中，在从提取的表格组件的内轮廓鉴别到单元外轮廓之后，单元外轮廓提取单元320将基于形状规则度过滤规则单元外轮廓。装置300执行的其他步骤与第一实施例相同。

在一种实现方式中，图14中所示的流程图1400示意性地示出根据本发明的该实施例的单元外轮廓过滤处理的流程图。与第一实施例相比，在第五实施例中，在单元外轮廓鉴别步骤S520与凸包提取步骤S530之间添加了单元外轮廓过滤步骤S1410，用于过滤包含非重叠文本的规则单元外轮廓。

图15A示意性地示出由单元外轮廓提取单元320鉴别的单元外轮廓的示例。如图15A中所示，有6个与图6C或图6D中所例示的单元外轮廓(即，1-100、1-200、1-300、1-400、1-500和1-600)相同的单元外轮廓。第五实施例的目标是在前期过滤包含非重叠文本的规则单元外轮廓并且减少发送用于后续处理的数据，以达成增加总体处理速度和减少噪声的效果。

由于表格包含任意畸变，因此用于鉴别规则表格单元的传统特征(诸如，矩形度、边界框占空比、水平和/或垂直游程的变化)几乎不适用。在该实施例中，如上所述，重叠文本对单元外轮廓的形状规则度的影响比任意畸变更大。因此，使用以下特征来描述单元外轮廓的形状规则度：缺陷周长比(即，外轮廓周长/凸包周长)、缺陷面积(即，外轮廓与凸包之间的差异面积的像素数)、缺陷面积比(即，外轮廓与凸包之间的差异面积中的像素数/凸包面积中的像素数)。此处，缺陷周常比和缺陷面积比为[0,1]范围内的实值，值越大表明形状规则度越高。缺陷面积为[0,+∞)范围内的整数值，值越小表明形状规则度越高。这三个特征可分别使用或结合使用来设计启发式过滤规则(heuristic filtering rule)或训练分类器。在该实施例中，利用启发式过滤规则。

在所述三个特征满足以下条件的情况下，单元外轮廓被鉴别为规则单元外轮廓：

缺陷周长比>TH10或缺陷面积比>TH11，并且缺陷面积>TH12

此处，TH10、TH11和TH12为预定义阈值。在该实施例中，基于以下事实选择TH10＝0.95、TH11＝0.95：即使单元外轮廓的形状受到任意畸变的影响，规则单元外轮廓的缺陷周长比和缺陷面积比仍保持接近1.0的相对高值；而对于包含重叠文档的单元外轮廓，缺陷周长比和缺陷面积比急剧下降到小于0.95的值。在该实施例中，基于以下假设将TH12设置为400：凸缺陷区域的面积值应至少足够包含一个边界框尺寸为20*20个像素的字符。

图15B示意性地示出根据图15A过滤规则单元外轮廓之后剩余的单元外轮廓的示例。如图15B中所示，剩余2个与图6C或图6D中所例示的单元外轮廓(即，1-200和1-600)相同的单元外轮廓。

(第六实施例)

在单元外轮廓提取步骤S420中，单元外轮廓提取单元320基于表格组件或单元组件提取单元外轮廓。换言之，假设单元外轮廓由格线组件完全包围，因此不能提取未被格线组件完全包围的单元外轮廓。例如，图17A示意性地示出表格的表格组件的示例。如图17A中所示，表格第一列和最后一列中的四个表格单元缺乏垂直线。

在本发明的第六实施例中，在从提取的表格组件的内轮廓鉴别到单元外轮廓之后，单元外轮廓提取单元320将提取未被格线组件完全包围的单元外轮廓。装置300执行的其他步骤与第一实施例相同。

在一种实现方式中，图16中所示的流程图1600示意性地示出重叠文本提取的流程图。与第一实施例相比，在第六实施例中，在单元外轮廓鉴别步骤S520与凸包提取步骤S530之间添加了非封闭单元外轮廓提取步骤S1610，用于提取未被格线组件完全包围的单元外轮廓(即，非封闭单元外轮廓)。

在非封闭单元外轮廓提取步骤S1610中，单元外轮廓提取单元320如下执行详细处理：

首先，单元外轮廓提取单元320从表格组件的外轮廓和内轮廓鉴别外轮廓。图17B示意性地示出表格组件的外轮廓的示例。

接着，单元外轮廓提取单元320基于与上述用于确定单元外轮廓的凸缺陷区域相同的方法提取表格组件的外轮廓的凸缺陷区域。图17C示意性地示出外轮廓的凸缺陷区域的示例。

然后，单元外轮廓提取单元320使用相似的与上述单元组件对应的形状特征鉴别凸缺陷区域。图17D示意性地示出所鉴别的具有相似的与单元组件对应的形状特征的凸缺陷区域的示例。

最后，单元外轮廓提取单元320提取所鉴别的凸缺陷区域的单元外轮廓作为提取的单元外轮廓。

(发明应用)

(重叠文本区域提取)

图18A至图18D示意性地示出根据本发明的针对文档图像中的表格的重叠文本提取处理的示例。所示示例为便于理解本发明的效果的直观示例。如图18A中所示，表格具有任意畸变。如图18B中所示，装置300通过保留表格组件的位于候选区域中的像素来提取重叠文本组件。由于任意畸变较强，因此还提取了大量线条噪声像素。如图18C中所示，装置300可进一步过滤提取的重叠文本组件并移除非文本像素。然后，如图18D中所示，重叠文本组件生成单元被构造为根据相似的外观和/或线性对齐关系将重叠文本组件生成重叠文本组件组。此外，在生成所有重叠文本组件组之后，重叠文本区域生成单元被构造为基于重叠文本组件组生成重叠文本区域。然后，重叠文本区域可经由系统总线280被传输到图2中所示的输出设备260，用于向用户显示文本提取结果或用于进一步处理，诸如文本识别。

(文本识别)

如上所述，重叠文本提取结果可进一步用于文本识别。因此，作为上述重叠文本提取的示例性应用，接下来将参照图19描述示例性重叠文本识别系统。图19例示根据本发明的示例性重叠文本识别系统1900的布置。

如图19中所示，根据本发明的重叠文本识别系统1900包括图像获取装置1910、上述重叠文本组件提取装置300、文本提取装置1920以及文本识别装置1930。

如上所述，图像获取装置1910可捕获文档图像中的表格。图像获取装置1910可直接或例如经由网络(未示出)与装置300连接。并且，图像获取装置1910可以是任何类型的电子设备，只要所述电子设备可捕获图像即可，诸如相机、网络相机、数码相机、移动电话、PDA、笔记本电脑或其他合适的电子设备。

图像获取装置1910捕获的图像可被传送到装置300的输入设备250。并且，装置300可根据上述参照图3至图18的描述提取所获取图像中的重叠文本组件。

文本提取装置1920可从对由重叠文本组件和非重叠文本组件进行分组而得到的文本区域提取文本。在一个实例中，文本提取装置1920可将文本的前景与文本区域的背景分开。然后，文本识别装置1930可通过如下引用的参考文档中公开的常规技术识别提取的文本：

[1]D.R.Ramesh Babu,Manishi Kumar Aakashi Raj and Kevin Wadera,“Recognition of Machine Printed Broken Characters based on Gradient Patternsand Its Spatial RelationshipOn”,IEEE,pp.673-676,2010。

[2]Abdol Hamid Pilevar and Mohammad Taher Pilevar,“Broken andTouching Characters Recognition in Persian Text Documents”,World AppliedSciences Journal 13(6):1459-1464,2011。

[3]Chaivatna Sumetphong and Supachai Tangwongsan,“Modeling brokencharacters recognition as a set-partitioning problem”,Pattern RecognitionLetters 33(2012)2270-2279。

此外，文本识别装置1930还可基于一些其他方法来识别提取的文本，例如，统计鉴别方法和/或深度学习方法。

文本识别结果可被传送到重叠文本识别系统1900的输出设备(未示出)，其中，重叠文本识别系统1900的输出设备可为扬声器和/或显示器，并且输出设备可直接或例如经由网络(未示出)与重叠文本识别系统1900连接。在输出设备为扬声器的情况下，文本识别结果可被转换成对应的语音，并且扬声器可向用户输出对应的语音。在输出设备为显示器的情况下，显示器可直接向用户显示文本识别结果。

如上所述，使用本发明可提高文本提取的准确性，因此，使用本发明也可提高重叠文本识别系统1900的文本识别准确性。

上述所有单元都是用于实现本公开内容中所述的处理的示例性和/或优选模块。这些单元可以是硬件单元(诸如，现场可编程门阵列(FPGA)、数字信号处理器、专用集成电路等)和/或软件模块(诸如，计算机可读程序)。以上没有详尽描述用于实现各步骤的单元。然而，当有执行某一处理的步骤的情况下，可以有用于实现该同一处理的对应的功能模块或单元(由硬件和/或软件实现)。描述的步骤和对应于这些步骤的单元的所有组合的技术方案均包括在本申请的公开内容中，只要它们所构成的技术方案是完整的、适用的即可。

可以以多种方式来实施本发明的方法和装置。例如，可以通过软件、硬件、固件或其任何组合来实施本发明的方法和装置。除非另有具体说明，否则上述方法的步骤顺序仅旨在是说明性的，并且本发明的方法的步骤不局限于上述具体描述的顺序。此外，在一些实施例中，本发明还可以被实施为记录在记录介质中的程序，包括用于实现根据本发明的方法的机器可读指令。因此，本发明也涵盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已经通过示例详细展示了本发明的一些具体实施例，但是本领域的技术人员应该理解，上述示例仅旨在是说明性的，并不限制本发明的范围。本领域的技术人员应该理解，上述实施例可以在不脱离本发明的范围和精神的情况下被修改。本发明的范围由所附权利要求限定。

Claims

1.一种重叠文本组件提取方法，所述方法包括：

组件提取步骤，用于从文档图像中的表格提取表格组件和单元组件；

单元外轮廓提取步骤，用于根据所述表格组件或所述单元组件提取单元外轮廓；

候选区域确定步骤，用于根据所述单元外轮廓确定候选区域；以及

重叠文本组件提取步骤，用于通过保留所述表格组件的位于所述候选区域中的像素来提取所述候选区域中的重叠文本组件。

2.根据权利要求1所述的方法，其中，所述候选区域为所述单元外轮廓与所述单元外轮廓的凸包之间的差异。

3.根据权利要求1所述的方法，其中，所述文档图像为具有至少一个表格的二值图像。

4.根据权利要求1所述的方法，其中，在根据所述表格组件提取所述单元外轮廓的情况下，所述单元外轮廓提取步骤包括：

提取所述表格组件的外轮廓和内轮廓；

从提取的表格组件的内轮廓鉴别所述单元外轮廓。

5.根据权利要求1的方法，所述方法进一步包括过滤步骤，用于从所述重叠文本组件中过滤非文本像素。

6.根据权利要求1所述的方法，其中，所述候选区域确定步骤进一步包括通过轮廓平滑细化所述候选区域的步骤。

7.根据权利要求4所述的方法，其中，所述单元外轮廓提取步骤进一步包括基于形状规则度过滤规则单元外轮廓的步骤。

8.根据权利要求4所述的方法，其中，所述单元外轮廓提取步骤进一步包括从所述提取的表格组件的外轮廓提取非封闭单元外轮廓的步骤。

9.根据权利要求7所述的方法，其中，所述形状规则度为缺陷周长比、缺陷面积或缺陷面积比中的至少一个。

10.一种重叠文本组件提取装置，所述装置包括：

组件提取单元，被构造为从文档图像中的表格提取表格组件和单元组件；

单元外轮廓提取单元，被构造为根据所述表格组件或所述单元组件提取单元外轮廓；

候选区域确定单元，被构造为根据所述单元外轮廓确定候选区域；以及

重叠文本组件提取单元，被构造为通过保留所述表格组件的位于所述候选区域中的像素来提取所述候选区域中的重叠文本组件。

11.根据权利要求10所述的装置，其中，所述候选区域为所述单元外轮廓与所述单元外轮廓的凸包之间的差异。

12.根据权利要求10所述的装置，其中，在根据所述表格组件提取所述单元外轮廓的情况下，所述单元外轮廓提取单元包括：

被构造为提取所述表格组件的外轮廓和内轮廓的单元；

被构造为从提取的表格组件的内轮廓鉴别所述单元外轮廓的单元。

13.一种文本识别系统，所述系统包括：

图像获取装置，被构造为获取文档图像；

根据权利要求10至12中任一项所述的重叠文本组件提取装置，被构造为在获取的文档图像中提取重叠文本组件；

文本提取装置，被构造为从对由从所述文档图像获得的所述重叠文本组件和非重叠文本组件进行分组而得到的文本区域提取文本；以及

文本识别装置，被构造为识别提取的文本。

14.一种用于存储指令的存储介质，所述指令在通过处理器执行时能够执行根据权利要求1至9中任一项所述的方法的操作。