CN109685052A

CN109685052A - 文本图像处理方法、装置、电子设备及计算机可读介质

Info

Publication number: CN109685052A
Application number: CN201811486458.7A
Authority: CN
Inventors: 丁笑天; 刘岩
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2019-04-26

Abstract

本公开涉及一种文本图像处理方法、装置、电子设备及计算机可读介质。该方法包括：对原始文本图像进行文本区域检测，生成多个文本区域块；对所述原始文本图像进行表格线检测，生成表格线；基于所述表格线将所述多个文本区域块进行合并处理，生成目标文本图像；以及通过所述目标文本图像进行光学字符识别。本公开涉及的文本图像处理方法、装置、电子设备及计算机可读介质，能够将属于同一行、同一单元格的文本作为整体输出，从而能够提升光学字符算法中文本识别的正确率。

Description

文本图像处理方法、装置、电子设备及计算机可读介质

技术领域

本公开涉及计算机信息处理领域，具体而言，涉及一种文本图像处理方法、装置、电子设备及计算机可读介质。

背景技术

在公司办公流程中，扫描文档应用十分频繁，例如签发公文、发票信息、归档电子档案等；很多情况下人们需要从扫描文档中(即扫描仪输出的图片)提取出文字信息，从而便于修改、存储、检索、利用及传输。因此如何高效地获取扫描文档的文字信息，具有重要的意义。

光学字符识别(Optical Character Recognition,OCR)技术，是通过对图片中的文字进行提取识别，转换成可检索的数据的过程。当前 OCR技术已经成为扫描文档识别最重要的手段之一。然而，现今的OCR 技术并未发展完善，其识别正确率受诸多因素影响。其中，OCR技术中的文本检测分割包括字符区域检测和字符切分。不同文档的字符区域位置、字体、字号、语言(中文、英文、其他语言等)都不尽相同；并且不同文档本身的背景也很大可能不同。文本识别分类器的性能，会依赖于快速准确的文本(及文本行)处理和定位算法。文本(及文本行)处理和定位的精度，往往能决定整个OCR识别过程的正确率。

而且，银行、保险行业中涉及的很多扫描文件都是表格形式的文本，例如体检表格、各种票据等。在文本行处理和分割过程中，需要根据文件中的表格关系，组织文本的输出，以形成结构化文字输出。由于带有表格的文本图像比普通文本更加复杂，现有技术中的对带有表格的文本图像的文本行处理和定位具有很大的缺陷。

因此，需要一种新的文本图像处理方法、装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本公开提供一种文本图像处理方法、装置、电子设备及计算机可读介质，能够将属于同一行、同一单元格的文本作为整体输出，从而能够提升光学字符算法中的文本识别的正确率。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提出一种文本图像处理方法，该方法包括：对原始文本图像进行文本区域检测，生成多个文本区域块；对所述原始文本图像进行表格线检测，生成表格线；基于所述表格线将所述多个文本区域块进行合并处理，生成目标文本图像；以及通过光学字符识别方法对所述目标文本图像进行文字识别。

在本公开的一种示例性实施例中，对原始文本图像进行文本区域检测，生成多个文本区域块包括：通过区域特征提取算法确定所述原始文本图像中的目标区域；以及提取带有文本的目标区域以生成所述多个文本区域块。

在本公开的一种示例性实施例中，提取带有文本的目标区域以生成所述多个文本区域块包括：获取目标区域；通过像素投影方法获取所述目标区域在预定方向上的投影数据；通过滑动窗口检测法与投影数据提取确定所述目标区域中带有文本的部分目标区域；以及通过带有文本的部分目标区域生成所述多个文本区域块。

在本公开的一种示例性实施例中，通过滑动窗口检测法与投影数据提取确定所述目标区域中带有文本的部分目标区域包括：通过滑动窗口检测法与投影数据提取获取带有文本的目标区域；以及通过文本特征方法由提取带有文本的部分目标区域。

在本公开的一种示例性实施例中，对所述原始文本图像进行表格线检测，生成表格线包括：通过霍夫变换对所述原始文本图像进行表格线检测，生成线段，对所述多个线段进行过滤生成所述表格线，所述表格线包括垂直表格线与水平表格线。

在本公开的一种示例性实施例中，基于所述将所述多个文本区域块进行合并处理，生成目标文本图像包括：提取多个文本区域块中的两个文本区域块；确定两个文本区域块的位置信息；根据所述位置信息与所述表格线确定所述两个文本区域块是否满足合并条件；以及在所述两个文本区域块满足合并条件时，将所述两个文本区域块进行合并，生成行文本图像。

在本公开的一种示例性实施例中，基于所述表格线将所述多个文本区域块进行合并处理，生成目标文本图像还包括：遍历所述多个文本区域块；将满足合并条件的文本区域块进行合并，生成多个行文本图像；以及通过所述多个行文本图像生成所述目标文本图像。

在本公开的一种示例性实施例中，根据所述位置信息与所述表格线确定所述两个文本区域块是否满足合并条件包括：所述两个文本区域块的位置处于相同文本行，且所述两个文本区域块之间不存在表格线时，确定所述两个文本区域块满足合并条件。

在本公开的一种示例性实施例中通过所述目标文本图像进行光学字符文本识别包括：依次将所述目标文本图像中的行文本图像输入光学字符文本识别模型中，以进行文本识别。

在本公开的一种示例性实施例中，还包括：对文本图像进行倾斜纠正以生成所述原始文本图像。

根据本公开的一方面，提出一种文本图像处理装置，该装置包括：文本检测模块，用于对原始文本图像进行文本区域检测，生成多个文本区域块；表格线检测模块，用于对所述原始文本图像进行表格线检测，生成表格线；合并模块，用于基于所述表格线将所述多个文本区域块进行合并处理，生成目标文本图像；以及文本识别模块，用于通过光学字符识别方法对所述目标文本图像进行文字识别。

根据本公开的一方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上文的方法。

根据本公开的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中的方法。

根据本公开的文本图像处理方法、装置、电子设备及计算机可读介质，能够将属于同一行、同一单元格的文本作为整体输出，从而能够提升光学字符算法中的文本识别的正确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种文本图像处理方法及装置的应用场景示意图。

图2是根据一示例性实施例示出的一种文本图像处理方法及装置的应用场景示意图

图3是根据一示例性实施例示出的一种文本图像处理方法的流程图。

图4是根据一示例性实施例示出的一种文本图像处理方法的流程图。

图5是根据另一示例性实施例示出的一种文本图像处理方法的示意图。

图6是根据一示例性实施例示出的一种文本图像处理方法的流程图。

图7是根据另一示例性实施例示出的一种文本图像处理方法的示意图。

图8是根据一示例性实施例示出的一种文本图像处理方法的流程图。

图9A与图9B是根据另一示例性实施例示出的一种文本图像处理方法的示意图。

图10是根据一示例性实施例示出的一种文本图像处理装置的框图。

图11是根据一示例性实施例示出的一种电子设备的框图。

图12是根据一示例性实施例示出一种计算机可读存储介质示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用，术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本公开所必须的，因此不能用于限制本公开的保护范围。

本申请的发明人发现，一个典型的OCR识别流程包括：

(1)版面分析+预处理

原始扫描文件常常带有倾斜、噪点、对比度低等干扰。因此在识别文字前，需要对原始图片进行预处理，以对图像进行纠偏、增强文字特征、抑制其他特征等；通常使用的手段包括：灰度化、二值化、降噪、倾斜矫正等。

(2)文本检测和分割

文本检测分割包括字符区域检测和字符切分。不同文档的字符区域位置、字体、字号、语言(中文、英文、其他语言等)都不尽相同；并且不同文档本身的背景也很大可能不同。因此就要求文本检测和分割算法更具有通用性、鲁棒性。

(3)文本识别

检测到的文本区域，通常切割为单个字符的方式，输入到一个分类器(Classifier)中，以判定这个区域是哪个字。通常用的分类器包括基于模板匹配的分类器，基于SVM(支持向量机)的特征设计、特征提取、特征分类的字符分类器等。

基于深度学习的分类器往往较传统分类器有更高的识别正确率，并且能够支持中、西文以及数字混合识别。尤其是循环神经网络和LSTM(长短期记忆网络)的出现，让分类器能够利用字符上下文关系，从而使分类结果能够更准确，更贴近于自然语言。基于深度学习的分类器不仅能够输入单个字符，而且也能够输入一整行文字进行识别，以充分利用字符间关系。

通过上面的总结可以看出，文本识别分类器的性能，会依赖于快速准确的文本(及文本行)处理和定位算法。文本(及文本行)处理和定位的精度，往往能决定整个OCR识别过程的正确率。

因此在以往OCR技术的基础上，本发明公开提出了一种文本图像处理方法及装置，具有快速、通用、鲁棒性好的特点，能够用于带有表格的扫描图像文本行处理，处理完的结果能够组织成完整一行的形式进行输出。

如图1所示，系统架构100可以包括终端设备101。用户可以使用终端设备101接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

用户可以通过终端设备101对所浏览的图像进行处理，终端设备101 浏览的图像可称之为原始图像，终端设备101可对原始文本图像进行文本区域检测，生成多个文本区域块；终端设备101可例如对所述原始文本图像进行表格线检测，生成表格线；终端设备101可例如基于所述表格线将所述多个文本区域块进行合并处理，生成目标文本图像；终端设备101可例如通过光学字符识别方法对所述目标文本图像进行文字识别。

终端设备101可以是一个实体的设备，还可例如为多个电子设备组成。需要说明的是，本公开实施例所提供的文本图像处理方法可以由终端设备101执行，相应地，文本图像处理装置可以设置于终端设备101 中。

用户将原始图像输入终端设备101后，经过终端设备101的处理，输出辅助进行字符文本识别的结果。

图2是根据一示例性实施例示出的一种文本图像处理方法及装置的应用场景示意图。

如图2所示，系统架构200可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105 交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站或使用的应用提供支持的后台服务器。服务器105可以对接收到的图片数据进行分析等处理，并将处理结果反馈给终端设备。

用户通过终端设备101、102、103浏览的图像可称之为原始图像，用户可以通过终端设备101将原始图像上传至服务器105进行处理，服务器105可例如对原始文本图像进行文本区域检测，生成多个文本区域块；服务器105可例如对所述原始文本图像进行表格线检测，生成表格线；服务器105可例如基于所述表格线将所述多个文本区域块进行合并处理，生成目标文本图像；服务器105可例如通过光学字符识别方法对所述目标文本图像进行文字识别。服务器105还可例如将识别结果返回终端设备101、102、103。

服务器105可以是一个实体的服务器，还可例如为多个服务器组成，需要说明的是，本公开实施例所提供的文本图像处理方法可以由服务器 105执行，相应地，文本图像处理装置可以设置于服务器105中。而提供给用户进行图像浏览的网页端与应用端一般位于终端设备101、102、103中。

用户将原始图像输入终端设备101后，终端设备101可将原始图像发送至服务器105，服务器105对原始图像进行图像处理，输出经过文字识别的结果，服务器105再将文字识别结果发送至终端设备101以进行图像显示。

根据本公开的文本图像处理方法及装置，通过对原始文本图像进行文本区域检测和表格线检测，生成多个文本区域块和生成表格线；并基于所述表格线将所述多个文本区域块进行合并处理，以辅助进行文字识别的方式，能够将属于同一行、同一单元格的文本作为整体输出，从而能够提升光学字符算法中的文本识别的正确率。

图3是根据一示例性实施例示出的一种文本图像处理方法的流程图。文本图像处理方法30至少包括步骤S302至S308。

如图3所示，在S302中，对原始文本图像进行文本区域检测，生成多个文本区域块。包括：通过区域特征提取算法确定所述原始文本图像中的目标区域；以及提取带有文本的目标区域以生成所述多个文本区域块。

在一个实施例中，提取带有文本的目标区域以生成所述多个文本区域块包括：获取目标区域；通过像素投影方法获取所述目标区域在预定方向上的投影数据；通过滑动窗口检测法与投影数据提取确定所述目标区域中带有文本的部分目标区域；以及通过带有文本的部分目标区域生成所述多个文本区域块。

在一个实施例中，通过滑动窗口检测法与投影数据提取确定所述目标区域中带有文本的部分目标区域包括：通过滑动窗口检测法与投影数据提取获取带有文本的目标区域；以及通过文本特征方法由提取带有文本的部分目标区域。关于滑动窗口检测法与投影数据提取确定所述目标区域中带有文本的部分目标区域的内容将在图4与图5对应的实施例中进行详细描述。

在S304中，对所述原始文本图像进行表格线检测，生成表格线。可例如：通过霍夫变换对所述原始文本图像进行表格线检测，生成多个线段；对所述多个线段进行过滤生成所述表格线，所述表格线包括垂直表格线与水平表格线。

通过文本区域的检测和过滤，得到的是离散的文本区域块。在将它们重新组织成一行文字或一段文字之前，还需要考虑表格的影响因素。也就是说，如果几个文本区域块即使在同一行，它们中间有线段分隔的话，仍要考虑将它们分开输出。可通过直线霍夫变换方法，找到文档中存在的水平和竖直线段(连同它们的起点和终点)，并储存在计算机程序存储容器中。

垂直表格线与水平表格线进行储存时的分组原则是：

a.如果一条直线线段满足：长度大于某个阈值，并且起点y值约等于终点y值，那么它是水平表格线；

b.相似地，如果一条直线线段满足，长度大于某个阈值，并且起点x值约等于终点x值，那么它是竖直表格线。

c.如果直线线段a与直线线段b近似平行，并且在图像范围内的最大距离(这里的距离指第一条直线上的某一点到另外一条直线的垂线距离)不超过某一个阈值，那么认为这两条直线是重合的，作合并处理；

d.其余线段作丢弃处理。

经过以上步骤，多个线段被分为两类(水平、竖直)并储存在容器中供调用。

在S306中，基于所述表格线将所述多个文本区域块进行合并处理，生成目标文本图像。

在一个实施例中，基于所述表格线将所述多个文本区域块进行合并处理，生成目标文本图像包括：提取多个文本区域块中的两个文本区域块；确定两个文本区域块的位置信息；根据所述位置信息与所述表格线确定所述两个文本区域块是否满足合并条件；以及在所述两个文本区域块满足合并条件时，将所述两个文本区域块进行合并，生成行文本图像。

在一个实施例中，基于所述表格线将所述多个文本区域块进行合并处理，生成目标文本图像还包括：遍历所述多个文本区域块；将满足合并条件的文本区域块进行合并，生成多个行文本图像；以及通过所述多个行文本图像生成所述目标文本图像。

在一个实施例中，在所述两个文本区域块的位置处于相同文本行，且所述两个文本区域块之间不存在表格线时，确定所述两个文本区域块满足合并条件。关于基于所述表格线将所述多个文本区域块进行合并处理的内容将在图6与图7对应的实施例中进行详细描述。

在S308中，通过光学字符识别方法对所述目标文本图像进行文字识别。包括：依次将所述目标文本图像中的行文本图像输入光学字符文本识别模型中，以进行文本识别。

其中，光学字符文本识别模型可例如为深度卷积神经网络模型。可通过数据对深度卷积神经网络模型进行训练，以获取效果优良的深度卷积神经网络模型作为光学字符文本识别模型。

根据本公开的文本图像处理方法，能够快速检测并过滤出扫描图像中的文本，在大量噪声存在的情况下鲁棒性好；

根据本公开的文本图像处理方法，通过对扫描图像中表格线检测和表格线进行分类，能够快速定位文档中存在的表格线并对其进行过滤、分类；

根据本公开的文本图像处理方法，根据行关系和表格关系重新组织离散文本区域块，能够将属于同一行、同一单元格的文本作为整体输出。从而能够优化OCR识别模块的识别正确率。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施例。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

图4是根据一示例性实施例示出的一种文本图像处理方法的流程图。如图4所示的文本图像处理方法40是对文本图像处理方法30中“对原始文本图像进行文本区域检测，生成多个文本区域块”的详细描述。

其中，通过区域特征提取算法(例如使用MSER算法)确定所述原始文本图像中的目标区域；以及提取带有文本的目标区域以生成所述多个文本区域块。使用MSER方法对文本检测较为稳定，并且具有仿射不变性的特征，通过MSER方法检测原始图像中可能的文字区域，然后进行过滤，以过滤掉非文本区域、分离粘连的多行文本。

首先，使用MSER算法找出可能的文本区域，它们在图像上表现为多个离散的区域。由于MSER输出的区域不可避免地包含有多行文本粘连和非文本区域的情形，为了对这些区域进行过滤，继续如下处理流程：

如图4所示，在S402中，读取目标文本区域块；

在S404中，利用Y向投影方法分割多行文本。

由于文本行间距通常要远大于字间距，因此使用像素投影方法区分不同行的文本非常简单易行。因此读取一个识别出的MSER区域后，将其像素值在Y方向上进行投影，如图6所示的示意图中有两行文本，其Y 向像素值为左侧的投影曲线，扫描图像中存在的噪声，在像素值投影中也有所反映。

传统投影区分文本算法往往不考虑噪声的影响，即认为投影值不为 0的区域即文字区域，而投影值为0的区域为行与行之间的空白区域，这在实际应用中显然是不足的。

在本发明所述算法中，使用滑移窗口的方法，来从带有噪声的像素值投影曲线中区分出文本行和非文本行区域。如图4中的投影曲线中，从起始位置初始化一个固定大小的窗口，例如，大小为5像素。这个窗口逐次向下滑动，当以下情形发生时，说明当前文本区域、非文本区域的状态发生了变化：

a.当窗口的5个值都有像素投影值，且超过一定阈值时，窗口开始完全进入文字区域；

b.当窗口的5个值都没有像素投影值，或者有像素投影值但没有超过一定阈值时，窗口开始完全进入非文字区域。

c.当窗口某些值超过阈值，而另外一些像素投影值没有超过阈值时，根据上一步是处于文字区域还是非文字区域进行判断。

最终，每一个MSER区域的多行文本间都会检测到(文本区域/非文本区域/文本区域)这样的层叠结构，进而在它们的界限处进行分割，然后丢弃非文本区域，保留文本区域进入下一阶段处理步骤。

以上滑移窗口的方法能够较好的抑制噪声(例如，文本行之间的空隙，出现一个尖锐的Y向投影峰值；或是Y向投影的文本区域中，出现一个很窄的缝隙)，在实际应用中效果较好。

在S406中，通过特征判断确定该区域是否有文字。

原始输出的MSER区域经过2.2.1Y向投影分割多行文本步骤后，成为离散的，可能包含单行文本的区域。了从这些可能区域中提取出文本区域，需要根据这些区域的文本特征进行过滤，在本发明中使用的特征包括：

MSER面积(MSER区域的像素数量)；

MSER像素区域边界的周长(Perimeter)；

偏心率(Eccentricity)；

欧拉数(一个几何拓扑量)(Euler number)；

孔隙率(MSER区域孔洞面积/MSER面积)；

凸包率(MSER区域凸包面积/MSER面积)；

转折点个数(MSER像素区域边界折点的个数)；

对于文字来说，其MSER像素区域边界的周长/面积应适中；其偏心率应接近0；其孔隙率、凸包率应较大，其转折点个数应较多。

在S408中，储存到容器中。通过以上多特征过滤，文本区域和非文本区域得以分离，最后分离出的文本区域储存在容器(即计算机内存区域)中，进行下一部分操作，而非文本区域则丢弃。

根据本公开的文本图像处理方法，能够快速检测并过滤出扫描图像中的文本，在大量噪声存在的情况下鲁棒性好。

图6是根据一示例性实施例示出的一种文本图像处理方法的流程图。如图6所示的文本图像处理方法60是对文本图像处理方法30中“基于所述表格线将所述多个文本区域块进行合并处理，生成目标文本图像。

如图6所示，在S602中，从容器中取出第i个(i＝1,2...)文本区域块，进入子循环。

在S604中，判断文本区域块是否已被访问。

在S606中，从容器中取出第j个(j＝i+1,i+2...)文本区域块。

在S608中，判断文本区域块是否已被访问。

在S610中，从容器中取出第1,2...n个表格线。

在S612中，判断第i个和第j个文本区域块是否处于同一行且未被表格线分隔。

在S614中，合并i、j文本区域块，标记文本区域块j为已访问， j+1继续下一子循环，直至最后一个文本区域块。

在S616中，i+1继续下一循环，直至最后一个文本区域块。

从容器中依次取出第i(i＝1,2...)个文本区域块，进入循环 L1；L1_1：如果文本区域块[i]已经访问过，那么i+1并进入L1下一循环；L1_2：

如果文本区域块[i]未访问过，那么取出第j(j＝i+1,i+2...) 个MSER文本区域块，进入循环L2；L2_1：如果文本区域块[j]已经访问过，那么j+1并进入L2下一循环；L2_2：如果文本区域块[j]未访问过，比较文本区域块[i]和文本区域块[j]的位置关系，判断它们是否处于同一行，如果属于同一行，则依次从容器中访问表格线[n](n＝1,2,...)，并通过表格线的水平、垂直属性以及表格线的端点位置，来判断文本区域块[i]和文本区域块[j]是否被表格线分隔，判断准则如图7所示。 L2_3：如文本区域块[i]和文本区域块[j]处于同一行且未被任何表格线分隔，则合并这两个文本区域块，同时标记文本区域块[j]为已访问，j+1 进入L2下一循环；L2_4：如文本块[i]和文本块[j]不在同一行或者它们被表格线分隔，则j+1进入L2下一循环；L2_5：如果j已经到达容器的尾部，那么退出循环L2；

L1_3：如果i已经到达容器的尾部，那么退出循环L1；

图7为两文本区域块合并示意图。如图7中所示，文本区域块A和文本区域块B为同一行，且处在表格线L的同一侧(即没有被L分隔开)，那么文本区域块A和B合并到一起；文本区域块AB和C虽然处于同一行，但它们被表格线L分隔，因此不进行合并；文本区域块D和E处于同一行，且表格线L并未能分隔D和E，因此D和E合并。

经过以上步骤，所有处于同一行并且未被表格线分隔的文本区域块都被合并为一整行。

根据本公开的文本图像处理方法，通过滑移窗口的方式，在Y向投影上分割多行文本；以及通过MSER区域特征(包括孔隙率、凸包率等) 对文本区域进行过滤的方法。

根据本公开的文本图像处理方法，根据方向和顶点坐标关系分成横向表格线和纵向表格线，以有助于后续文本块重组织。

根据本公开的文本图像处理方法，根据行关系和表格关系重新组织离散文本块的方法，能够适用于带有表格的文档。

在一个实施例中，还包括：对文本图像进行倾斜纠正以生成所述原始文本图像。图8是根据一示例性实施例示出的一种文本图像处理方法的流程图。如图8所示的文本图像处理方法80对一个包括图像倾斜纠正的文本图像处理方法的全过程。

如图8所示，在S802中，读取文件。

在S804中，倾斜矫正。

在S806中，检测文本区域。

在S808中，过滤文本区域。

在S810中，检测表格线。

在S812中，表格线分类。

在S814中，重组织文本。

扫描影像中往往存在倾斜，而倾斜的文本输入到OCR识别过程中，会影响识别正确率。而且，要检测文本中的表格信息，也需要纠正有旋转的图像，以使表格线水平和竖直，方便表格线的跟踪和处理。

首先可例如，获取原始图像的频域原点和像素幅值；通过所述频域原点对所述原始图像进行调整以生成调整图像；基于所述调整图像，通过所述像素幅值确定所述调整图像的基准线；以及基于所述基准线对所述调整图像进行倾斜纠正以生成目标图像。其他文本区域检测的步骤可参考上文中的描述，本申请在此不再赘述。

图9是根据另一示例性实施例示出的一种文本图像处理方法的示意图。图9示例性的描述了通过本申请中的文本图像处理方法得到的结果示意图。根据本公开的文本图像处理方法，能够在原有经典算法的基础上进一步提高识别正确率，并且能够一次输入一行或一段话，利用文本的上下文内容进行识别。根据本公开的文本图像处理方法，能够非常高效的处理各种文本图像，并且能够普遍适用于常见的体检档案和医院票据类扫描图像；对扫描质量差的图像和噪声较大的图像鲁棒性较好，节省了大量人力物力成本。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图10是根据一示例性实施例示出的一种文本图像处理装置的框图。文本图像处理装置1000包括：文本检测模块1002，表格线检测模块1004，合并模块1006，以及文本识别模块1008。

文本检测模块1002用于对原始文本图像进行文本区域检测，生成多个文本区域块；包括：通过区域特征提取算法确定所述原始文本图像中的目标区域；以及提取带有文本的目标区域以生成所述多个文本区域块。

表格线检测模块1004用于对所述原始文本图像进行表格线检测，生成表格线；可例如：通过霍夫变换对所述原始文本图像进行表格线检测，生成表格线，所述表格线包括垂直表格线与水平表格线。

合并模块1006用于基于所述表格线将所述多个文本区域块进行合并处理，生成目标文本图像；提取多个文本区域块中的两个文本区域块；确定两个文本区域块的位置信息；根据所述位置信息与所述表格线确定所述两个文本区域块是否满足合并条件；以及在所述两个文本区域块满足合并条件时，将所述两个文本区域块进行合并，生成行文本图像。

文本识别模块1008用于通过所述目标文本图像进行光学字符文本识别。依次将所述目标文本图像中的行文本图像输入光学字符文本识别模型中，以进行文本识别。

根据本公开的文本图像处理装置，能够快速检测并过滤出扫描图像中的文本，在大量噪声存在的情况下鲁棒性好。

下面参照图11来描述根据本公开的这种实施方式的电子设备200。图11显示的电子设备200仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图11所示，电子设备200以通用计算设备的形式表现。电子设备 200的组件可以包括但不限于：至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线 230、显示单元240等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元210执行，使得所述处理单元210执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元210可以执行如图3，图4，图6，与图8中所示的步骤。

所述存储单元220可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202，还可以进一步包括只读存储单元(ROM)2203。

所述存储单元220还可以包括具有一组(至少一个)程序模块2205 的程序/实用工具2204，这样的程序模块2205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线230可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且，电子设备200 还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID 系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。

图12示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。

参考图12所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品400，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如下功能：对原始文本图像进行文本区域检测，生成多个文本区域块；对所述原始文本图像进行表格线检测，生成表格线；基于所述表格线将所述多个文本区域块进行合并处理，生成目标文本图像；以及通过所述目标文本图像进行光学字符文本识别。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种文本图像处理方法，其特征在于，包括：

对原始文本图像进行文本区域检测，生成多个文本区域块；

对所述原始文本图像进行表格线检测，生成表格线；

基于所述表格线将所述多个文本区域块进行合并处理，生成目标文本图像；以及

通过光学字符识别方法对所述目标文本图像进行文字识别。

2.如权利要求1所述的方法，其特征在于，对原始文本图像进行文本区域检测，生成多个文本区域块包括：

通过区域特征提取算法确定所述原始文本图像中的目标区域；以及

提取带有文本的目标区域以生成所述多个文本区域块。

3.如权利要求2所述的方法，其特征在于，提取带有文本的目标区域以生成所述多个文本区域块包括：

获取目标区域；

通过像素投影方法获取所述目标区域在预定方向上的投影数据；

通过滑动窗口检测法与投影数据确定所述目标区域中带有文本的部分目标区域；以及

通过带有文本的部分目标区域生成所述多个文本区域块。

4.如权利要求3所述的方法，其特征在于，通过滑动窗口检测法与投影数据确定所述目标区域中带有文本的部分目标区域包括：

通过滑动窗口检测法与投影数据获取带有文本的目标区域；以及

通过文本特征方法过滤出所有目标区域中提取带有文本的部分目标区域。

5.如权利要求1所述的方法，其特征在于，对所述原始文本图像进行表格线检测，生成表格线包括：

通过霍夫变换对所述原始文本图像进行表格线检测，生成多个线段；

对所述多个线段进行过滤生成所述表格线，所述表格线包括垂直表格线与水平表格线。

6.如权利要求1所述的方法，其特征在于，基于所述将所述多个文本区域块进行合并处理，生成目标文本图像包括：

提取多个文本区域块中的两个文本区域块；

确定两个文本区域块的位置信息；

根据所述位置信息与所述表格线确定所述两个文本区域块是否满足合并条件；以及

在所述两个文本区域块满足合并条件时，将所述两个文本区域块进行合并，生成行文本图像。

7.如权利要求6所述的方法，其特征在于，基于所述表格线将所述多个文本区域块进行合并处理，生成目标文本图像还包括：

遍历所述多个文本区域块；

将满足合并条件的文本区域块进行合并，生成多个行文本图像；以及

通过所述多个行文本图像生成所述目标文本图像。

8.如权利要求6所述的方法，其特征在于，根据所述位置信息与所述表格线确定所述两个文本区域块是否满足合并条件包括：

在所述两个文本区域块的位置处于相同文本行，且所述两个文本区域块之间不存在表格线时，确定所述两个文本区域块满足合并条件。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。