CN113139535A

CN113139535A - 一种ocr文档识别方法

Info

Publication number: CN113139535A
Application number: CN202110498492.1A
Authority: CN
Inventors: 李俊
Original assignee: Shanghai Chiyan Information Technology Co ltd
Current assignee: Shanghai Chiyan Information Technology Co ltd
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2021-07-20

Abstract

本发明公开了一种OCR文档识别方法，包括以下步骤：1)OCR深度学习模型训练；2)图像获取；3)图像预处理；4)表格判断；5)表格交点检测；6)子图片文字识别。本发明属于文档识别技术领域，具体是提供了一种通过对样本文档图片进行采集并作为训练集进行深度学习训练，得到基于卷积神经网络模型的OCR深度学习模型，通过对文档图像进行多重预处理，识别表格中是否存在表格，有效提高文档识别结果精准度特别是提高表格文档识别精度的OCR文档识别方法。

Description

一种OCR文档识别方法

技术领域

本发明属于文档识别技术领域，具体是指一种OCR文档识别方法。

背景技术

光学字符识别(Optical Character Recognition，OCR)方法是指通过电子设备(例如扫描仪或数码相机)获得纸质文档的电子文档，将电子文档中的字符串切分开，形成包含单个字符的小图片，然后使用一定的方法对切分后的文字进行识别。现有的OCR识别方法因为待识别图片中字符排版多样等因素，只能较为准确的识别身份证、银行卡等字符排版固定的图片，但是对其他文档的图片识别效果较差。随着资讯的发展，图文资料广泛传播，基于图像的文字识别得到了广泛应用。

现有技术中OCR文档识别主要通过深度学习或机器学习等方法，检测出图像中的文字区域，为后续的文字识别模块提供初始图像。但是现有技术在处理包含表格的文档时，表格中文字的识别准确率相对比较低，因此如何进一步提高OCR文档的文字识别准确率成为本领域技术人员亟待解决的技术问题。

发明内容

为解决上述现有难题，本发明提供了一种通过对基于卷积神经网络模型的OCR深度学习模型进行训练学习，通过对文档图像进行多重预处理，识别表格中是否存在表格，能够有效提高文档识别结果精准度特别是提高表格文档识别精度的OCR文档识别方法。

本发明采用的技术方案如下：一种OCR文档识别方法，包括以下步骤：

1)OCR深度学习模型训练：采集不同指定排版方式的样本文档图片，对样本文档图片进行去噪和二值化处理后保存建立第一字符图像训练样本集，对第一字符图像训练样本集中的字符信息进行整理并将每个字符形成字符图像，对字符图像进行变换，增加字符的字体种类，形成OCR字符识别训练样本集，通过OCR字符识别训练样本集进行深度学习训练，得到OCR深度学习模型；

2)图像获取：获取纸质文档的正投影视图图像，得文档图像；

3)图像预处理：通过OpenCV开源的代码库调节文档图像的亮度和对比度，并对图像进行去噪处理和二值化处理；计算图像的倾斜角度并对图像进行角度校正，使图像中的文字处于水平竖直状态得预处理图像；

4)表格判断：对预处理图像进行边缘检测得到边缘图像；计算所述边缘图像的边缘密集程度，根据边缘密集程度判断所述预处理图像中是否包括表格，若预处理图像中存在表格则执行步骤5)，若预处理图像中不存在表格则执行步骤6)；

5)表格交点检测：采用基于深度学习的物体检测方法对所述预处理图像中的表格的角点坐标进行检测，检测出所述预处理图像中的单元格，将各单元格中的内容作为一个整体切分出来，形成对应的子图片；

6)子图片文字识别：对子图片进行字符分割，然后采用OCR深度学习模型对子图片或预处理图像中的文字进行检测识别并输出识别结果。

进一步地，步骤1)所述通过OCR字符识别训练样本集对OCR深度学习模型进行深度学习训练，包括如下步骤：

11)获取OCR字符识别训练样本集的目标样本字符；

12)通过OCR学习模型对OCR字符识别训练样本集进行识别，得到样本字符；

13)对目标样本字符与样本字符进行收敛，以调整所述识别模型的参数，得到OCR深度学习模型。

进一步地，步骤2)所述去噪处理采用小波去噪法对图像进行去噪处理，保持图像细节，去噪处理包括如下步骤：

21)对图像信号进行小波分解；

22)对经过层次分解后的高频系统进行阈值量化；

23)利用二维小波重构图像信号。

进一步地，步骤2)所述二值化处理采用基于局部均值自适应的二值化算法，以像素点局部区域的均值作为阈值，将图像上点的灰度置为0或255，实现图像的二值化。

进一步地，步骤4)所述的OCR深度学习模型采用卷积神经网络模型。

进一步地，步骤6)对字图片进行字符分割的具体过程为：

61)通过宽度为单像素大小的竖直的检测线从左向右扫描所述子图片，检测所述检测线上的像素点的数量并与第二阈值进行比较，若高于所述第二阈值，则认为为字符的中间部分，反之，则为非字符部分，依次对子图片上的字符进行分割；

62)判断经初步字符分割得到的字符宽度与字符高度，若字符宽度大于字符高度，则提高所述第二阈值，执行步骤61)，直至字符宽度小于字符高度；

63)判断分割后的字符是否过分割，并对过分割的字符进行合并处理。

采用上述方案本发明取得有益效果如下：本发明OCR文档识别方法,通过对样本文档图片进行采集并作为训练集进行深度学习训练，得到基于卷积神经网络模型的OCR深度学习模型，通过对文档图像进行多重预处理，识别表格中是否存在表格，对于存在表格的文档采用基于深度学习的物体检测方法对文档图像进行划分，有效提高OCR深度学习模型的准确度。

附图说明

图1为本发明一种OCR文档识别方法的流程图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

一种OCR文档识别方法，其特征在于，包括以下步骤：

其中，步骤1)所述通过OCR字符识别训练样本集对OCR深度学习模型进行深度学习训练，包括如下步骤：

11)获取OCR字符识别训练样本集的目标样本字符；

步骤2)所述去噪处理采用小波去噪法对图像进行去噪处理，保持图像细节，去噪处理包括如下步骤：

21)对图像信号进行小波分解；

22)对经过层次分解后的高频系统进行阈值量化；

23)利用二维小波重构图像信号。

步骤2)所述二值化处理采用基于局部均值自适应的二值化算法，以像素点局部区域的均值作为阈值，将图像上点的灰度置为0或255，实现图像的二值化。

步骤4)所述的OCR深度学习模型采用卷积神经网络模型。

步骤6)对字图片进行字符分割的具体过程为：

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种OCR文档识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种OCR文档识别方法，其特征在于，步骤1)所述通过OCR字符识别训练样本集对OCR深度学习模型进行深度学习训练，包括如下步骤：

11)获取OCR字符识别训练样本集的目标样本字符；

3.根据权利要求1所述的一种OCR文档识别方法，其特征在于，步骤2)所述去噪处理采用小波去噪法对图像进行去噪处理，保持图像细节，去噪处理包括如下步骤：

21)对图像信号进行小波分解；

22)对经过层次分解后的高频系统进行阈值量化；

23)利用二维小波重构图像信号。

4.根据权利要求1所述的一种OCR文档识别方法，其特征在于，步骤2)所述二值化处理采用基于局部均值自适应的二值化算法，以像素点局部区域的均值作为阈值，将图像上点的灰度置为0或255，实现图像的二值化。

5.根据权利要求1所述的一种OCR文档识别方法，其特征在于，步骤4)所述的OCR深度学习模型采用卷积神经网络模型。

6.根据权利要求1所述的一种OCR文档识别方法，其特征在于，步骤6)对字图片进行字符分割的具体过程为：