CN113435449A

CN113435449A - 基于深度学习的ocr图像文字识别与段落输出方法

Info

Publication number: CN113435449A
Application number: CN202110884424.9A
Authority: CN
Inventors: 卢红波
Original assignee: Quanzhi Technology Hangzhou Co ltd
Current assignee: Quanzhi Technology Hangzhou Co ltd
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-09-24
Anticipated expiration: 2041-08-03
Also published as: CN113435449B

Abstract

本发明公开了基于深度学习的OCR图像文字识别与段落输出方法，具体涉及OCR文字识别领域，具体操作步骤如下：S1、读入图像：将待识别的图像上传/导入，得到可编辑图像；S2、图像预处理：将步骤S1中得到的可编辑图像进行编辑，调整该图像到指定大小；S3、加载CTPN预训练模型：加载CTPN模型，先通过VGG16提取图像中的局部图像特征，再使用BLSTM提取上下文特征，然后用全连接层和多预测分支得到坐标值和概率值，最后合并字符为文本检测框。本发明在深度学习检测模型CTPN的基础上，对复杂图像进行分栏分段识别；在复杂的多栏场景下对图像中的文字进行识别并段落输出，根本上解决已有OCR识别中的结果杂糅问题，大大提升结果的可读性。

Description

基于深度学习的OCR图像文字识别与段落输出方法

技术领域

本发明涉及OCR文字识别技术领域，更具体地说，本发明涉及基于深度学习的OCR图像文字识别与段落输出方法。

背景技术

OCR技术是光学字符识别的缩写(Optical Character Recognition)，是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。相对一般文本，通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据；而相对于表格及票据，通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。

OCR技术已经成熟的运用在多个领域，如，单栏图像场景下，OCR文字识别工具的准确率较高，甚至超过9成，然而，在双栏，多栏期刊及其他复杂场景下，多栏的文字距离过近，不同段落之间的联系过于紧密等杂糅现象，使得OCR识别结果准确率低，或者是多栏的识别结果混杂起来，可读性较差，通过人工进行粘贴复制也将耗费大量时间。

发明内容

为了克服现有技术的上述缺陷，本发明的实施例提供基于深度学习的OCR图像文字识别与段落输出方法，本发明所要解决的技术问题是：现有OCR识别中的结果杂糅问题，结果的可读性较差。

为实现上述目的，本发明提供如下技术方案：基于深度学习的OCR图像文字识别与段落输出方法，具体操作步骤如下：

S1、读入图像：将待识别的图像上传/导入，得到可编辑图像；

S2、图像预处理：将步骤S1中得到的可编辑图像进行编辑，调整该图像到指定大小，如：1000*1000*3；

S3、加载CTPN预训练模型：加载CTPN模型，先通过VGG16提取图像中的局部图像特征，再使用BLSTM提取上下文特征，然后用全连接层和多预测分支得到坐标值和概率值，最后合并字符为文本检测框；

S4：将步骤S2中预处理后得到图像读入步骤S3中加载的CTPN模型，得到一系列文本检测框；

S5、将步骤S4中得到的文本检测框优化并生成文本框数组，数组的每个元素为一个段落，具体步骤如下：

S5.1：在多栏文本的复杂文本中，先将文本检测框正确分栏；得到文本检测框数组，每个数组元素均为一栏；

S5.2：考虑到部分文本检测框过长，包含多栏的情况，为此，对这些“长文本检测框”作切割操作；“长文本检测框”的切割已完成，每个文本检测框仅包含一栏；

S5.3：由于步骤S5.2中添加和修改了文本检测框，每栏的文本检测框数量发生了改变，因此，再做一遍步骤S5.1的操作；由此，得到优化后的文本检测框数组；

S5.4：最后，聚合每栏的文本检测框，生成段落；由此，文本框数组已全部生成，数组的每个元素即一个段落；

S6：文本识别，对文本框数组的每个元素依次识别；由此，得到由段落组成的文本内容。

在一个优选地实施方式中，所述步骤S2中调节步骤为：先通过RGB通道分别减去均值102.9801,115.9465,122.7717，再做max-min 0-1均一化处理。

在一个优选地实施方式中，所述步骤S5.1中分栏的详细操作：沿用CTPN中的anchor，即字符的宽度为16像素，设定5个字符长度为分栏的阈值，并记每个文本检测框的横坐标最小值为X_MIN；将文本检测框按X_MIN升序排列，遍历所有文本检测框，当X_MIN的极差不超过5个字符长度时，为一栏。

在一个优选地实施方式中，特别的，这里将大小标题各当做一栏处理。

在一个优选地实施方式中，所述步骤S5.2中切割操作的详细操作：首先记每栏中文本检测框合理的横坐标的最小最大值分别为X_LEFT，X_RIGHT，每个文本检测框的横坐标最小最大值分别为X_MIN，X_MAX，设定将该栏中X_MIN，X_MAX的众数分别作为X_LEFT，X_RIGHT。

在一个优选地实施方式中，遍历每栏的文本检测框，当X_MAX-X_RIGHT的差大于2个字符长度时，将文本检测框切割为2个文本检测框，其中第一个文本检测框的X_MIN＝X_MIN，X_MAX＝X_RIGHT，第二个文本检测框的X_MIN＝X_MAX+16*2，X_MAX＝X_MAX。

在一个优选地实施方式中，所述步骤S5.4中聚合的详细操作：首先，记每个文本检测框的纵坐标的最小值为Y_MIN，对每一栏，将文本检测框按Y_MIN升序排列；记每个文本检测框的缩进和行尾空白分别为INDENT1，INDENT2,以每栏的X_LEFT，X_RIGHT为对照，计算文本检测框的INDENT1＝X_MIN-X_LEFT，INDENT2＝X_RIGHT-X_MAX；设定当文本检测框的INDENT1和上一个文本检测框的INDENT2之和，即INDENT1+INDENT2<＝3字符长度时，为一个段落。

在一个优选地实施方式中，由于CTPN得到的文本检测框存在一定的不精准问题，在文本检测框判定段落的同时，设置X_MIN＝X_LEFT，从而解决文本检测框字符覆盖不完全的问题。

本发明的技术效果和优点：

本发明在深度学习检测模型CTPN的基础上，对复杂图像进行分栏分段识别；在复杂的多栏场景下对图像中的文字进行识别并段落输出，根本上解决已有OCR识别中的结果杂糅问题，大大提升结果的可读性。

附图说明

图1为本发明的段落生成模型图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了基于深度学习的OCR图像文字识别与段落输出方法，具体操作步骤如下：

S2、图像预处理：将步骤S1中得到的可编辑图像进行编辑，调整该图像到指定大小，如：1000*1000*3；RGB通道分别减去均值102.9801,115.9465,122.7717，再做max-min0-1均一化处理；

S5.1：在多栏文本的复杂文本中，先将文本检测框正确分栏；详细操作：沿用CTPN中的anchor，即字符的宽度为16像素，设定5个字符长度为分栏的阈值，并记每个文本检测框的横坐标最小值为X_MIN；将文本检测框按X_MIN升序排列，遍历所有文本检测框，当X_MIN的极差不超过5个字符长度时，为一栏，特别的，这里将大小标题各当做一栏处理；得到文本检测框数组，每个数组元素均为一栏；

S5.2：考虑到部分文本检测框过长，包含多栏的情况，为此，对这些“长文本检测框”作切割操作；详细操作：首先记每栏中文本检测框合理的横坐标的最小最大值分别为X_LEFT，X_RIGHT，每个文本检测框的横坐标最小最大值分别为X_MIN，X_MAX，设定将该栏中X_MIN，X_MAX的众数分别作为X_LEFT，X_RIGHT，遍历每栏的文本检测框，当X_MAX-X_RIGHT的差大于2个字符长度时，将文本检测框切割为2个文本检测框，其中第一个文本检测框的X_MIN＝X_MIN，X_MAX＝X_RIGHT，第二个文本检测框的X_MIN＝X_MAX+16*2，X_MAX＝X_MAX；“长文本检测框”的切割已完成，每个文本检测框仅包含一栏；

S5.4：最后，聚合每栏的文本检测框，生成段落；详细操作：首先，记每个文本检测框的纵坐标的最小值为Y_MIN，对每一栏，将文本检测框按Y_MIN升序排列；记每个文本检测框的缩进和行尾空白分别为INDENT1，INDENT2,以每栏的X_LEFT，X_RIGHT为对照，计算文本检测框的INDENT1＝X_MIN-X_LEFT，INDENT2＝X_RIGHT-X_MAX；设定当文本检测框的INDENT1和上一个文本检测框的INDENT2之和，即INDENT1+INDENT2<＝3字符长度时，为一个段落，由于CTPN得到的文本检测框存在一定的不精准问题，在文本检测框判定段落的同时，设置X_MIN＝X_LEFT，从而解决文本检测框字符覆盖不完全的问题；由此，文本框数组已全部生成，数组的每个元素即一个段落；

如图1所示的，实施方式具体为：

1.文本检测模型在复杂多栏场景下，单个文本检测框同时覆盖多栏文本内容的情况较为常见，这很大程度增加了后处理的复杂度；本方法中，以“栏+段落”的检测方法基本解决上述问题，具体操作：从多栏的角度出发，每个文本框的句首和句末会受到该栏的宽度限制；为此，通过同栏的文本框比对，将横坐标的最小最大值出现频次最多的坐标作为合理的横坐标的最小最大值，即得到更为准确的句首和句末；遍历每栏的文本框，当横坐标的最大值超出合理的句末时，对横坐标作切割，并以合理的最大值作为新的句末，并将剩余部分添加至后面的栏中，直到所有文本框的句末都在合理最大值的范围中；

2.文本检测模型在复杂多栏场景下，文本框的检测精度会受到明显影响；本方法中，文本框精度问题明显缓解，具体操作：通过同栏的文本框的比对，将横坐标的最小最大值出现频次最多的坐标作为合理的横坐标的最小最大值，即得到更为准确的句首和句末；遍历该栏的所有文本框，对精度不高的文本框的横坐标作修正，修正为合理的句首和句末，保证文本框可全部覆盖文本内容；

3.文本检测模型在复杂多栏场景下，其输出通常也是按行输出而不考虑段落，在可读性上存在较大问题；本方法中，按照内容书写的自然规律，根据段落前的末尾空格和段落开头的自然缩进，作自动化的段落识别；此外大小标题也会作为单独的段落输出；由此，段落输出的结果展示大大提高了可读性。

最后应说明的几点是：首先，在本申请的描述中，需要说明的是，除非另有规定和限定，术语“安装”、“相连”、“连接”应做广义理解，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变，则相对位置关系可能发生改变；

其次：本发明公开实施例附图中，只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计，在不冲突情况下，本发明同一实施例及不同实施例可以相互组合；

最后：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于深度学习的OCR图像文字识别与段落输出方法，其特征在于：具体操作步骤如下：

S2、图像预处理：将步骤S1中得到的可编辑图像进行编辑，调整该图像到指定大小；

2.根据权利要求1所述的基于深度学习的OCR图像文字识别与段落输出方法，其特征在于：所述步骤S2中调节步骤为：先通过RGB通道分别减去均值102.9801,115.9465,122.7717，再做max-min 0-1均一化处理。

3.根据权利要求1所述的基于深度学习的OCR图像文字识别与段落输出方法，其特征在于：所述步骤S5.1中分栏的详细操作：沿用CTPN中的anchor，即字符的宽度为16像素，设定5个字符长度为分栏的阈值，并记每个文本检测框的横坐标最小值为X_MIN；将文本检测框按X_MIN升序排列，遍历所有文本检测框，当X_MIN的极差不超过5个字符长度时，为一栏。

4.根据权利要求3所述的基于深度学习的OCR图像文字识别与段落输出方法，其特征在于：特别的，这里将大小标题各当做一栏处理。

5.根据权利要求4所述的基于深度学习的OCR图像文字识别与段落输出方法，其特征在于：所述步骤S5.2中切割操作的详细操作：首先记每栏中文本检测框合理的横坐标的最小最大值分别为X_LEFT，X_RIGHT，每个文本检测框的横坐标最小最大值分别为X_MIN，X_MAX，设定将该栏中X_MIN，X_MAX的众数分别作为X_LEFT，X_RIGHT。

6.根据权利要求5所述的基于深度学习的OCR图像文字识别与段落输出方法，其特征在于：遍历每栏的文本检测框，当X_MAX-X_RIGHT的差大于2个字符长度时，将文本检测框切割为2个文本检测框，其中第一个文本检测框的X_MIN＝X_MIN，X_MAX＝X_RIGHT，第二个文本检测框的X_MIN＝X_MAX+16*2，X_MAX＝X_MAX。

7.根据权利要求6所述的基于深度学习的OCR图像文字识别与段落输出方法，其特征在于：所述步骤S5.4中聚合的详细操作：首先，记每个文本检测框的纵坐标的最小值为Y_MIN，对每一栏，将文本检测框按Y_MIN升序排列；记每个文本检测框的缩进和行尾空白分别为INDENT1，INDENT2,以每栏的X_LEFT，X_RIGHT为对照，计算文本检测框的INDENT1＝X_MIN-X_LEFT，INDENT2＝X_RIGHT-X_MAX；设定当文本检测框的INDENT1和上一个文本检测框的INDENT2之和，即INDENT1+INDENT2<＝3字符长度时，为一个段落。

8.根据权利要求7所述的基于深度学习的OCR图像文字识别与段落输出方法，其特征在于：由于CTPN得到的文本检测框存在一定的不精准问题，在文本检测框判定段落的同时，设置X_MIN＝X_LEFT。