CN109376658B

CN109376658B - 一种基于深度学习的ocr方法

Info

Publication number: CN109376658B
Application number: CN201811257203.3A
Authority: CN
Inventors: 王慜骊; 林路; 桂晓雷; 安通鉴; 林康; 陈立强
Original assignee: Anhui Xinyada Software Engineering Co ltd; Sinyada Technology Co ltd
Current assignee: Anhui xinyada Software Engineering Co., Ltd; Sinyada Technology Co.,Ltd.
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2022-03-08
Anticipated expiration: 2038-10-26
Also published as: CN109376658A

Abstract

本发明公开了一种基于深度学习的OCR方法,包含如下步骤：获取待识别图像；对待识别图像进行缩放，然后对缩放后的图像进行预处理，所述的预处理为锐化、灰度化、二值化、矫正倾斜、降噪、去公章中的任意一项或多项；将预处理后的图像放入深度学习神经网络中，得到缩放处理后图像的多个候选文本区域；将缩放处理后图像的多个候选文本区域放入基于深度学习神经网络中，将候选文字区域中的内容转换为计算机可读的文本；将上述计算机可读的文本放入深度学习语言模型中，对文本识别结果进行校正。本发明可以实现影像的文字内容的智能提取，为各行业人员提供了快速检索以及快速获取信息的服务，提升了工作效率，识别字段准确率高，提高处理速度。

Description

一种基于深度学习的OCR方法

技术领域

本发明涉及计算机软件中图像识别技术领域，尤其涉及一种基于深度学习的OCR方法。

背景技术

基于光学字符识别(以下简称OCR)的针对文字区域检测定位识别技术是指通过计算机等设备，利用OCR技术将纸质材料中的有效信息自动提取和识别出来，并进行相应处理，它是实现无纸化的计算机自动处理的关键技术之一。而传统的图像文字识别即为OCR，即将待识别纸质文件扫描成电子图像的基础上进行识别。但是考虑到扫描效果的好坏、纸质文件本身的品质(比如印刷质量、字体清晰度，字体规范度等)、内容布局(文字的排列情况，比普通文本与表格文本和票据)的差异，OCR的实际效果不总是让人满意。而针对不同的纸质文档的识别准确率的要求有差异，比如票据的识别，对准确率的要求是非常高的，因为如果一个数字识别错误就可能导致致命的后果，传统的OCR识别不能满足这样高精度的识别要求。面对巨大的识别需要急需能够快速高效的图像文字识别方法。

发明内容

针对现有技术的不足，本发明提出一种基于深度学习的OCR方法，该方法的具体步骤如下：

一种基于深度学习的OCR方法，其特征在于，该方法包括如下步骤：

S1：获取待识别图像；

S2:对待识别图像进行缩放，然后对缩放后的图像进行预处理，所述的预处理为锐化、灰度化、二值化、矫正倾斜、降噪、去公章中的任意一项或多项；

S3:将预处理后的图像放入深度学习神经网络中，得到缩放处理后图像的多个候选文本区域；

S4:将缩放处理后图像的多个候选文本区域放入基于深度学习神经网络中，将候选文字区域中的内容转换为计算机可读的文本；

S5:将上述计算机可读的文本放入深度学习语言模型中，对文本识别结果进行校正。

进一步地，所述步骤S2中图像预处理的去公章采用如下方法：

S2.1：将待识别图像由RGB颜色空间模型转化到HSI颜色空间模型，采用阈值控制法提取红色分量，并把彩色图像灰度化,然后采用图像细化算法对图像进行细化得到骨架图；

S2.2：采用椭圆、圆形和矩形三种形状检测算法对S2.1得到的骨架图进行形状检测，从而定位获取包围公章的最小的矩形轮廓和公章在待识别的图像中的位置，并将印章提取出来；

S2.3：将包围公章的最小的矩形轮廓从待识别的图像中分离，然后将剩余的彩色图像灰度化，并使用图像修复算法，获得无印章的图像。

进一步地，所述的S3具体为：

S3.1：生成文本区域候选框，以缩放处理后的图像作为inception-RPN网络的输入，在VGG16模型的卷积特征响应图上滑动一个inception网络，并在每个滑动位置辅助一套文本特征先验框，计算每一个候选文本区域的得分；其中，所述的RPN网络是在CNN上增加全卷积层的分类层和边框回归层的全卷积网络，Inception Module中包含3种1x1,3x3,5x5的不同尺寸的卷积和一个最大3x3池化层，所述的Inception-RPN网络，是模仿Inception结构构造RPN网络，并只用了单层结构的Inception来提取候选文本区域；

S3.2：并入文本类别监督信息，融入多层次的区域下采样信息；

S3.3：将每一行的文本特征输入到LSTM网络模型中，对文本的高度、文本的起始位置和结束位置进行判断，以一种端到端的方式训练候选文本区域生成网络；

S3.4：对所述的候选文本区域位置进行修正，获得具有一定方向的倾斜文本候选文本区域；

S3.5：使用候选框过滤算法对候选文本区域进行过滤，移除远超出实际文本区域的多余的候选区域。

进一步地，所述的S4具体为：

S4.1：使用全深度卷积神经网络对每个候选文本区域进行文本图像特征提取，把每个候选文本区域表示成特征向量；

S4.2：采用双层循环神经网络对所述的特征向量进行处理，并输出一个关于字符集的概率分布；

S4.3：采用CTC网络作为转录层，将关于字符集的概率分布使用前向计算和反向梯度传播的动态规划算法，输出计算机可读文本；其中，所述的CTC网络有一个softmax输出层，除了序列的输出外，还增加一个额外的输出单元，最开始激励的|L|个单元被解释成在这个时刻对应标签的观察概率，激励的额外的单元是一个空白的观察概率或者无标签的观察概率，这些输出定义为在给定输入序列的情况下，所有可能的对齐所有标记序列的方式；标记序列的概率是所有可能对齐方式的概率和。

进一步地，所述S5具体为：

S5.1：建立语料库，并用语料库训练词向量和语言模型；

S5.2:将S4得到的计算机可读文本放入训练后的语言模型中，并将集束搜索方式嵌入所述的语言模型中，输出修正后的文本。

进一步地，所述的步骤S2.3具体为：

(1)将包围公章的最小的矩形轮廓从待识别的图像中分离，然后将剩余的彩色图像灰度化和全局二值化；

(2)使用图像膨胀处理覆盖掉印章的边缘轮廓；

(3)选用FMM图像的修复算法，进一步修复印章的边缘轮廓的残留痕迹，获得无印章的图像。

本发明的有益效果为：

(1)本发明的基于深度学习的OCR方法，是一种基于端到端的图片文字识别方法，应用了卷积神经网络(CNN)和递归神经网络(RNN)的技术，通过深度学习确定文本框位置，然后将文字特征送入CRNN的框架中，实现了连续输出文字的目的。

(2)本发明可以实现影像的文字内容的智能提取，为各行业人员提供了快速检索以及快速获取信息的服务，提升了工作效率，识别字段准确率高，处理速度快。

附图说明

图1为本发明的基于深度学习的OCR方法的工作流程图。

具体实施方式

下面根据附图和优选实施例详细描述本发明，本发明的目的和效果将变得更加明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明的基于深度学习的OCR方法，其包括如下步骤：

S1：获取待识别图像；

图像预处理的去公章采用如下方法：

S2.1：将待识别图像由RGB颜色空间模型转化到HSI颜色空间模型，采用阈值控制法提取红色分量，并把彩色图像灰度化，然后采用图像细化算法对图像进行细化得到骨架图；

S2.3：将包围公章的最小的矩形轮廓从待识别的图像中分离，然后将剩余的彩色图像灰度化，并使用图像修复算法，获得无印章的图像，具体为：

(2)使用图像膨胀处理覆盖掉印章的边缘轮廓；

S3.3：将每一行的文本特征输入到LSTM网络模型中，对文本的高度、文本的起始位置和结束位置进行判断，以一种端到端的方式训练inception候选文本区域生成网络；

S3.5：使用候选框过滤算法对候选文本区域进行过滤，移除远超出实际文本区域的多余的候选区域。因为之前的网络进行快速预测文字区域,有效地减少了候选框的搜索范围,然后针对文字特性对候选框的EdgeBox算法进行改进,使之适用于本实例中的文字提取。

S4.3：采用CTC网络作为转录层,将关于字符集的概率分布使用前向计算和反向梯度传播的动态规划算法，输出计算机可读文本；其中，所述的CTC网络有一个softmax输出层，除了序列的输出外，还增加一个额外的输出单元，最开始激励的|L|个单元被解释成在这个时刻对应标签的观察概率，激励的额外的单元是一个空白的观察概率或者无标签的观察概率，这些输出定义为在给定输入序列的情况下，所有可能的对齐所有标记序列的方式；标记序列的概率是所有可能对齐方式的概率和。

S5.1：建立语料库，并用语料库训练词向量和语言模型；

本领域普通技术人员可以理解，以上所述仅为发明的优选实例而已，并不用于限制发明，尽管参照前述实例对发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims

1.一种基于深度学习的OCR方法，其特征在于，该方法包括如下步骤：S1：获取待识别图像；

去公章采用如下方法：S2.1：将待识别图像由RGB颜色空间模型转化到HSI颜色空间模型，采用阈值控制法提取红色分量，并把彩色图像灰度化，然后采用图像细化算法对图像进行细化得到骨架图；

(2)使用图像膨胀处理覆盖掉印章的边缘轮廓；

(3)选用FMM图像的修复算法，进一步修复印章的边缘轮廓的残留痕迹，获得无印章的图像；

2.根据权利要求1所述的方法，其特征在于，所述的S3具体为：

3.根据权利要求1所述的方法，其特征在于，所述的S4具体为：

4.根据权利要求1所述的方法，其特征在于，所述S5具体为：

S5.1：建立语料库，并用语料库训练词向量和语言模型；