CN109614923A

CN109614923A - Ocr文档识别方法及其装置

Info

Publication number: CN109614923A
Application number: CN201811493531.3A
Authority: CN
Inventors: 张波; 陈成才
Original assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2019-04-12
Anticipated expiration: 2038-12-07
Also published as: CN109614923B

Abstract

本发明提供一种OCR文档识别方法、OCR文档识别装置、计算机设备以及计算机可读存储介质。所述方法包括：提供待识别的OCR文档；判断所述OCR文档中是否包括表格；当所述OCR文档中包括表格时，对所述OCR文档进行文字检测，并判断检测框中是否包括直线；当包括直线时，对所述OCR文档进行放大处理，直至检测框中不包括直线；对所述放大后的OCR文档进行文字识别处理。由于将OCR文档中的表格放大至合适位置，消除了表格的直线对检测造成的影响，因此提高了文档中表格内的文字识别准确率。

Description

OCR文档识别方法及其装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种OCR文档识别方法、OCR文档识别装置、计算机设备以及计算机可读存储介质。

背景技术

随着资讯的发展，图文资料广泛传播，基于图像的文字识别得到了广泛应用。基于计算机视觉的OCR(Optical Character Recognition，光学字符识别)文档识别已经被广泛应用于商业领域，如常见的身份证、银行卡、驾驶证识别等。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来，并转换成一种计算机能够接受、人又可以理解的格式。

现有技术中OCR文档识别一般包括文字检测与文字识别两个步骤，其中文字检测主要是….,文字识别则主要是对检测框中的文字进行识别处理。

文字检测主要通过深度学习或机器学习等方法，检测出图像中的文字区域，为后续的文字识别模块提供初始图像。

但是现有技术在处理包含表格的文档时，表格中文字的识别准确率相对比较低，因此如何进一步提高OCR文档的文字识别准确率成为本领域技术人员亟待解决的技术问题。

发明内容

本发明解决的问题是如何提高包括表格的OCR文档的识别准确率。

为解决上述问题，本发明提供一种OCR文档识别方法，包括：

提供待识别的OCR文档；

判断所述OCR文档中是否包括表格；

当所述OCR文档中包括表格时，对所述OCR文档进行文字检测，并判断检测框中是否包括直线；

当包括直线时，对所述OCR文档进行放大处理，直至检测框中不包括直线；

对所述放大后的OCR文档进行文字识别处理。

可选地，通过以下方法判断所述OCR文档中是否包括表格：

对所述OCR文档进行边缘检测处理，得到边缘图像；

计算所述边缘图像的边缘密集程度；

当边缘密集程度大于预设值时，判断OCR文档中存在表格；

当边缘密集程度小于预设值时，判断OCR文档中不存在表格。

可选地，所述边缘检测处理采用Soble、Canny和Laplacian等边缘检测方法中的一种或多种组合。

可选地，所述边缘密集程度为所述边缘图像横向投影平均值和纵向投影平均值的比值，所述预设值的取值范围包括2-4。

可选地，所述直线检测采用霍夫变换、Freeman和LSD等直线检测方法中的一种或多种组合。

可选地，所述放大处理采用放大倍数递减或放大倍数固定的方式实现，所述放大倍数的取值范围包括1.05-1.2。

可选地，所述方法还包括：当不包括表格或不包括直线时，对所述OCR文档进行文字识别处理。

为解决上述技术问题，本发明实施例还提供了一种OCR文档识别装置，包括：

输入模块，用于提供待识别的OCR文档；

文字检测模块，用于对所述OCR文档进行文字检测；

表格判断模块，用于判断所述OCR文档中是否包括表格；

直线判断模块，用于判断检测框中是否包括直线；

放大模块，用于对OCR文档进行放大处理；

控制模块，用于当所述OCR文档中包括表格时控制所述直线检测模块判断检测框中是否包括直线，当包括直线时控制所述放大模块对所述OCR文档进行放大处理，直至所述直线检测模块判断检测框中不包括直线；

文字识别模块，用于对所述放大后的OCR文档进行文字识别处理。

为解决上述技术问题，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的OCR文档识别方法。

为解决上述技术问题，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的OCR文档识别方法。

与现有技术相比，本发明的技术方案具有以下优点：

本发明实施例在进行检测过程中，先判断OCR文档中是否包括表格，并在OCR文档中包括表格时进一步判断检测框中是否包括直线，从而在OCR文档中包括表格且检测框中包括直线时，对OCR文档进行放大处理，以使检测框中不包括直线为止，最后对放大后的OCR文档进行识别处理。由于将OCR文档中的表格放大至合适位置，消除了表格的直线对识别造成的影响，因此提高了文档中表格内的文字识别准确率。

附图说明

图1是一个OCR文档的具体例子示意图；

图2是实施例中OCR文档识别方法的步骤示意图。

具体实施方式

如背景技术部分所述，现有技术中OCR文档识别包括检测和识别两个步骤，其不会判断是否包括表格，即对有表格和没有表格的情况采用相同的处理方式。

发明人经过创造性劳动发现：文档图像中，表格设计具有较大的随机性，即长度和宽度各异。现有技术中的OCR检测识别方法对于表格的适应性有限，当表格长宽比较大时，能够有效检测出其中的文字区域；而当表格长宽比较小时，文字检测框容易包含表格中的线条，即表格中的线条会成为待检测文字的一部分，从而容易引起识别误差，导致表格中文字的识别准确率下降。

在采用现有技术的一个具体例子中，当对图1(a)中的文档进行识别时，容易将其中图1(b)中的“日、不、旦”识别为“旦、丕、旦”，将其中图1(c)中的“日、不、旦”识别为“日、不、亘”。

经过上面的分析，发明人发现在对OCR文档进行文字识别时，有效去除检测框中的直线，如图1(d)所示，就可以显著提高表格中文字的识别准确度。

因此，本发明实施例在进行检测过程中，先判断OCR文档中是否包括表格，并在OCR文档中包括表格时进一步判断检测框中是否包括直线，从而在OCR文档中包括表格且检测框中包括直线时，对OCR文档进行放大处理，以使检测框中不包括直线为止，最后对放大后的OCR文档进行识别处理。由于将OCR文档中的表格放大至合适位置，消除了表格的直线对检测造成的影响，因此提高了文档中表格内的文字识别准确率。

下面进行详细说明。

如图2所示，本发明实施例提供了一种OCR文档识别方法，具体可以包括以下步骤：

步骤S1，提供待识别的OCR文档。

所述OCR文档可以是对应不同的图像格式，也可以对应不同的存储格式，还可以对应不同的压缩方式，其都是在本发明的保护范围内。

在进行后续步骤之前，还可以对所述OCR文档进行预处理，如：二值化处理、噪声去除、倾斜校正等处理，其对于本领域技术人员是熟知的，在此不再赘述。

步骤S2，判断所述OCR文档中是否包括表格，当所述OCR文档中包括表格时，执行步骤S3；否则，执行步骤S6。

本实施例中可以采用以下方式判断所述OCR文档中是否包括表格，具体包括以下步骤：

1)对所述OCR文档进行边缘检测处理，得到边缘图像。

作为一个具体例子，所述边缘检测处理可以采用Soble、Canny和Laplacian等边缘检测方法中的一种或多种组合，其可以检测到OCR文档的边缘，进而获取OCR文档对应的边缘图像。

2)计算所述边缘图像的边缘密集程度。

所述边缘密集程度可以为所述边缘图像横向投影与纵向投影的比值，比如：其中边缘图像的横向投影可以取其平均值，边缘图像的纵向投影也可以取其平均值。

图1(a)所示的OCR文档对应的边缘图像的横向投影如图1(e)所示，图1(a)所示的OCR文档对应的边缘图像的纵向投影如图1(f)所示。

本实施例中当存在表格时，则其边缘密集程度比较大；否则，其边缘密集程度比较小。

3)将计算得到的边缘密集程度与提前设置好的预设值进行比较，当边缘密集程度大于预设值时，判断OCR文档中存在表格；当边缘密集程度小于预设值时，则判断OCR文档中不存在表格。

本实施例中所述预设值的取值范围可以包括2-4，如：2、2.5、3、3.5或4等。

对于边缘密集程度等于预设值的情况，既可以判定此时OCR文档中存在表格，也可以判定此时OCR文档中不存在表格。

需要说明的是，在本发明的其它实施例中，还可以采用其它方式进行表格判断，其不影响本发明的保护范围。

步骤S3，当所述OCR文档中包括表格时，对所述OCR文档进行文字检测，并通过直线检测判断检测框中是否包括直线；当所述检测框中包括直线时，执行步骤S4；否则，执行步骤S6。

本实施例在获知所述OCR文档中包括表格时，就对所述OCR文档进行文字检测，通过文字检测就可以获知检测框对应的内容，接着对检测框对应的内容进行直线检测，即判断检测框对应的内容中是否包括直线，如果检测框对应的内容中包括直线，则表明此时表格长宽比较小，在后续文字识别中直线会成为影响识别准确率的干扰因素，因此需要去除直线这一干扰因素，即继续执行步骤S4；如果检测框对应的内容中不包括直线，则表明此时表格长宽比较大，后续文字识别中不存在直线的干扰，无需额外处理，即直接执行步骤S6。

所述直线检测可以采用霍夫变换、Freeman和LSD等直线检测方法中的一种或多种组合，其还可以采用其它任意直线检测方法，本发明对此不做限制。

所述文字检测可以采用任意现有方法，只要能获知检测框对应的内容即可。

步骤S4，当检测框中包括直线时，对所述OCR文档进行放大处理，直至检测框中不包括直线。

本步骤是一个迭代的过程，即当通过步骤S3获知检测框中包括直线时(步骤S3中的文字检测为第一次文字检测，获得的检测框是第一检测框，进行的直线检测是第一次直线检测)：

第一次迭代过程：先对所述OCR文档进行第一次放大处理，然后对第一次放大处理后的OCR文档进行第二次文字检测并获得第二检测框，此时第二检测框中的内容是第一检测框中的部分内容放大后的结果，通过第二次直线检测判断第二检测框是否包括直线；

如果此时第二检测框中不包括直线，则执行步骤S5，对第一次放大处理后的OCR文档进行文字识别处理；

如果此时第二检测框中仍然包括直线，则进行第二次迭代过程；

第二次迭代过程：继续对第一次放大处理后的OCR文档进行第二次放大处理，并对第二次放大处理后的OCR文档进行第三次文字检测并获得第三检测框，通过第三次直线检测判断第三检测框是否包括直线；

如果此时第三检测框中不包括直线，则执行步骤S5，对第二次放大处理后的OCR文档进行文字识别处理；

如果此时第三检测框中仍然包括直线，则进行第三次迭代过程；

……

不断重复上述迭代过程，直至第N检测框中不包括直线为止，然后执行步骤S5，对第N次放大处理后的OCR文档进行文字识别处理。

上述迭代过程中的放大处理可以采用放大倍数递减或放大倍数固定的方式实现。

所述放大倍数的取值范围具体可以包括1.05-1.2，如：1.05、1.1、1.05和1.2。

当采用放大倍数递减方式进行放大处理时，第N-1次放大处理的放大倍数大于第N次放大处理的放大倍数，即开始时放大倍数比较大，为了防止放大过度，后面的放大倍数则越来越小，保证放大后的检测框只是去除了直线，而没有去除检测框中文字的有效组成部分，最终提高识别准确度。比如：第一次放大处理的放大倍数为1.2，第二次放大处理的放大倍数为1.15，第三次放大处理的放大倍数为1.1。

当采用放大倍数固定的方式进行放大处理时，则计算比较简单，计算速度快，即每次放大处理的放大倍数均为固定值。比如：第一次放大处理的放大倍数为1.1，第二次放大处理的放大倍数为1.1，第三次放大处理的放大倍数为1.1。

步骤S5，对所述放大后的OCR文档进行文字识别处理。

步骤S6，对所述OCR文档进行文字识别处理。

步骤S5和步骤S6进行处理的对象的不同，但具体文字识别处理均可以采用现有技术中任意的文字识别方法，其对于本领域技术人员是熟知的，在此不再赘述。

本实施例在进行文字识别处理之后，还可以对处理结果进行一系列后处理，本发明对此不做限制。

经过上述步骤的处理，就可以将图1(b)和图1(c)中的检测框调整为图1(d)的检测框，此时图1(d)中检测框中不再有直线，从而去除了后续识别过程中直线的干扰，大大提高了识别准确率。

本实施例在进行检测过程中，先判断OCR文档中是否包括表格，并在OCR文档中包括表格时进一步判断检测框中是否包括直线，从而在OCR文档中包括表格且检测框中包括直线时，对OCR文档进行放大处理，以使检测框中不包括直线为止，最后对放大后的OCR文档进行识别处理。由于将OCR文档中的表格放大至合适位置，消除了表格的直线对检测造成的影响，因此大大提高了文档中表格内的文字识别准确率。

相应地，本发明实施例还提供了一种OCR文档识别装置，包括：

输入模块，用于提供待识别的OCR文档；

文字检测模块，用于对所述OCR文档进行文字检测；

表格判断模块，用于判断所述OCR文档中是否包括表格；

直线判断模块，用于判断检测框中是否包括直线；

放大模块，用于对OCR文档进行放大处理；

在一个具体例子中，所述表格判断模块可以包括：

边缘检测单元，用于对所述OCR文档进行边缘检测处理，得到边缘图像；

边缘密集计算单元，用于计算所述边缘图像的边缘密集程度；

比较判断单元，用于比较所述边缘密集程度与预设值，当边缘密集程度大于预设值时，判断OCR文档中存在表格；当边缘密集程度小于预设值时，判断OCR文档中不存在表格。

其中，所述边缘检测处理可以采用Soble、Canny和Laplacian等边缘检测方法中的一种或多种组合。

其中，所述边缘密集程度可以为所述边缘图像横向投影平均值和纵向投影平均值的比值，所述预设值的取值范围可以包括2-4。

在一个具体例子中，所述直线检测采用霍夫变换、Freeman和LSD等直线检测方法中的一种或多种组合。

在一个具体例子中，所述放大处理可以采用放大倍数递减或放大倍数固定的方式实现，所述放大倍数的取值范围可以包括1.05-1.2。

此外，本实施例中当不包括表格或不包括直线时，所述控制模块控制所述文字识别模块对所述OCR文档进行文字识别处理。

所述OCR文档识别装置的具体实现方式可以参考上面的方法，在此不再赘述。

本实施例在实现OCR文档识别时，先通过表格判断模块判断OCR文档中是否包括表格，并在OCR文档中包括表格时控制模块进一步控制直线判断模块判断检测框中是否包括直线，从而在OCR文档中包括表格且检测框中包括直线时，控制放大模块对OCR文档进行放大处理，以使检测框中不包括直线为止，最后控制文字识别模块对放大后的OCR文档进行识别处理。由于将OCR文档中的表格放大至合适位置，消除了表格的直线对检测造成的影响，因此大大提高了文档中表格内的文字识别准确率。

相应地，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下OCR文档识别方法：

提供待识别的OCR文档；

判断所述OCR文档中是否包括表格；

对所述放大后的OCR文档进行文字识别处理。

其中，可以通过以下方法判断所述OCR文档中是否包括表格：

对所述OCR文档进行边缘检测处理，得到边缘图像；

计算所述边缘图像的边缘密集程度；

当边缘密集程度大于预设值时，判断OCR文档中存在表格；

当边缘密集程度小于预设值时，判断OCR文档中不存在表格。

其中，所述直线检测可以采用霍夫变换、Freeman和LSD等直线检测方法中的一种或多种组合。

其中，所述放大处理可以采用放大倍数递减或放大倍数固定的方式实现，所述放大倍数的取值范围可以包括1.05-1.2。

其中，所述方法还可以包括：当不包括表格或不包括直线时，对所述OCR文档进行文字识别处理。

存储器作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的OCR文档识别方法以及OCR文档识别方法对应的程序指令/模块(例如，OCR文档识别装置中的输入模块、文字检测模块、表格判断模块、直线判断模块、放大模块、控制模块以及文字识别模块)。处理器通过运行存储在存储器中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的OCR文档识别方法。

存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

相应地，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的OCR文档识别方法，具体请参见上面方法部分，在此不再赘述。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述OCR文档识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种OCR文档识别方法，其特征在于，包括：

提供待识别的OCR文档；

判断所述OCR文档中是否包括表格；

对所述放大后的OCR文档进行文字识别处理。

2.如权利要求1所述的方法，其特征在于，通过以下方法判断所述OCR文档中是否包括表格：

对所述OCR文档进行边缘检测处理，得到边缘图像；

计算所述边缘图像的边缘密集程度；

当边缘密集程度大于预设值时，判断OCR文档中存在表格；

当边缘密集程度小于预设值时，判断OCR文档中不存在表格。

3.如权利要求2所述的方法，其特征在于，所述边缘检测处理采用Soble、Canny和Laplacian中的一种或多种组合。

4.如权利要求2所述的方法，其特征在于，所述边缘密集程度为所述边缘图像横向投影平均值和纵向投影平均值的比值，所述预设值的取值范围包括2-4。

5.如权利要求1所述的方法，其特征在于，所述直线检测采用霍夫变换、Freeman和LSD中的一种或多种组合。

6.如权利要求1所述的方法，其特征在于，所述放大处理采用放大倍数递减或放大倍数固定的方式实现，所述放大倍数的取值范围包括1.05-1.2。

7.如权利要求1所述的方法，其特征在于，还包括：当不包括表格或不包括直线时，对所述OCR文档进行文字识别处理。

8.一种OCR文档识别装置，其特征在于，包括：

输入模块，用于提供待识别的OCR文档；

文字检测模块，用于对所述OCR文档进行文字检测；

表格判断模块，用于判断所述OCR文档中是否包括表格；

直线判断模块，用于判断检测框中是否包括直线；

放大模块，用于对OCR文档进行放大处理；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的OCR文档识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任一项所述的OCR文档识别方法。