CN112016547A

CN112016547A - 基于深度学习的图像文字识别方法、系统及介质

Info

Publication number: CN112016547A
Application number: CN202010845724.1A
Authority: CN
Inventors: 高铭; 叶君峰; 吉振领; 连云娟
Original assignee: Shanghai Tianran Intelligent Technology Co ltd
Current assignee: Shanghai Tianran Intelligent Technology Co ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2020-12-01

Abstract

本发明提供了一种基于深度学习的图像文字识别方法、系统及介质，包括：判断图像的来源类别；通过卷积神经网络提取图像目标区域并对目标区域进行分类；对目标区域的图像进行朝向矫正，将图像旋转至正向朝向，并通过线段检测和频域信号分析法计算图像的倾斜角度；使用目标检测算法，用深度卷积网络计算图像的特征图，对文本行进行目标分割进行文字识别；根据CRNN算法将深度卷积网络和双向循环网络相结合，进行端到端的网络训练；通过训练得到图片中文字所在的位置及模型识别内容，提取文字信息。本发明通过采用计算机视觉及文字识别技术，解决了金融领域智能审核流程内票据卡证、表格文档数据的识别问题。

Description

基于深度学习的图像文字识别方法、系统及介质

技术领域

本发明涉及深度学习及图像识别技术领域，具体地，涉及一种基于深度学习的图像文字识别方法、系统及介质。

背景技术

随着智能手机和移动设备的普及，图片作为信息传播的载体在越来越多的场景中被使用。原有业务流程内手动对证照票据关键信息进行提取往往因为字段冗长而效率不高，因此随之而来的也有越来越多的图片文字识别的需求。通过OCR技术完成对票据、表格内关键信息的提取，成为一种提升信息录入效率手段。

传统OCR处理流程包括文本检测、单字符分割、单字符识别、后处理等过程，比较有代表性的为谷歌公司提出的PhotoOCR算法，包含文字区域检测、文本行归并、过分割、基于Beam Search的分割区域组合、基于HOG特征和全链接神经网络的单字符分类等内容，但该方法需要将OCR系统割裂成过多环节，需要在每个环节上引入过多的人工干预，需要根据场景设定方法集成，难以做到端对端的训练及部署，使用成本过高。

并且在识别服务生产流程中，原始系统间割裂导致数据采集流程长时间成本高，上下游信息传递效率差导致技术应用缓慢。

专利文献CN110532855A(申请号：201910630252.5)公开了一种基于深度学习的自然场景证件图像文字识别方法，实现的步骤为：(1)构建图像特征提取模块；(2)构建文字前景预测模块；(3)构建文字区域定位模块；(4)组成文字定位网络；(5)构建字符特征提取模块；(6)组成文字识别网络；(7)构建文字定位数据集；(8)构建文字识别数据集；(9)训练文字定位网络；(10)训练文字识别网络；(11)识别证件图像中的文字。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于深度学习的图像文字识别方法、系统及介质。

根据本发明提供的基于深度学习的图像文字识别方法，包括：

步骤1：对图像进行频域分析、边缘检测、亮度和色彩饱和度分析，判断图像的来源类别；

步骤2：根据图像的来源类别，通过卷积神经网络提取图像目标区域并对目标区域进行分类，获得一个或多个目标区域以及分类；

步骤3：通过卷积神经网络构建四分类分类器对目标区域的图像进行朝向矫正，将图像旋转至正向朝向，并通过线段检测和频域信号分析法计算图像的倾斜角度，实行角度矫正后，进行文字检测；

步骤4：使用目标检测算法，用深度卷积网络计算图像的特征图，对文本行进行目标分割，将每一行文本送入到训练好的识别模型中进行文字识别；

步骤5：根据CRNN算法将深度卷积网络和双向循环网络相结合，进行端到端的网络训练；

步骤6：通过训练得到图片中文字所在的位置及模型识别内容，并进行锚点定位、图片缩放和摆正、模板匹配、干扰文本过滤和识别文本二次纠正，提取文字信息。

优选的，所述步骤4中目标检测算法的骨架网络采用残差网络的FPN版本，在多尺寸的特征图上进行RPN目标提取，由RPN网络输出目标区域，再经分类定位的多任务损失判断目标的坐标和类别。

优选的，所述步骤5中CRNN算法，以CNN特征作为输入，通过注意力模型对RNN的状态和上一状态的注意力权重计算出新状态的注意力的权重，再将CNN特征和权重输入RNN，通过编码和解码得到训练结果。

优选的，所述步骤6中的锚点定位，通过一张正摆放的图片用于制作模板，把所在位置和内容固定的文本作为锚点，和当前图片中识别出来的文本进行比对，根据文本的相似度、文本规则完成锚点的定位。

优选的，所述步骤6中的图片缩放和摆正，在模板匹配的基础上根据图片中匹配的锚点与模板图上的锚点计算透视矩阵，对图片进行缩放和投影变换，完成图片的摆正。

优选的，所述步骤6中的模板匹配，使用摆正后图片新的透视投影矩阵与模板四顶点矩阵距离来计算匹配程度，当匹配程度较低时，进行再次摆正。

优选的，所述步骤6中的干扰文本过滤，根据字段所标注的待识别矩形框与匹配到的矩形框交并比来判断，匹配到的矩形框内文字是否属于某个字段，同时对匹配到文字根据字段类型进行过滤。

优选的，所述步骤6中的识别文本二次纠正，当文本过滤完成后，所保留识别结果置信度较低时，对该行文本使用识别模型进行二次识别，识别过程中引入上下文信息，并通过文本库对识别结果进行纠正，完成最终结构化信息的提取。

根据本发明提供的基于深度学习的图像文字识别系统，包括：

模块M1：对图像进行频域分析、边缘检测、亮度和色彩饱和度分析，判断图像的来源类别；

模块M2：根据图像的来源类别，通过卷积神经网络提取图像目标区域并对目标区域进行分类，获得一个或多个目标区域以及分类；

模块M3：通过卷积神经网络构建四分类分类器对目标区域的图像进行朝向矫正，将图像旋转至正向朝向，并通过线段检测和频域信号分析法计算图像的倾斜角度，实行角度矫正后，进行文字检测；

模块M4：使用目标检测算法，用深度卷积网络计算图像的特征图，对文本行进行目标分割，将每一行文本送入到训练好的识别模型中进行文字识别；

模块M5：根据CRNN算法将深度卷积网络和双向循环网络相结合，进行端到端的网络训练；

模块M6：通过训练得到图片中文字所在的位置及模型识别内容，并进行锚点定位、图片缩放和摆正、模板匹配、干扰文本过滤和识别文本二次纠正，提取文字信息。

根据本发明提供的一种存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现上述的方法的步骤。

与现有技术相比，本发明具有如下的有益效果：

1、本发明通过采用计算机视觉及文字识别技术，解决了金融领域智能审核流程内票据卡证、表格文档数据的识别问题；

2、本发明使用CRNN算法，将深度卷积网络和双向循环网络相结合，形成端到端的网络训练；

3、本发明通过CRNN算法引入上下文信息，可以用于长宽比不固定的文字框，并可以兼顾文字内容的上下文影响，进行更精准的文字识别。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明方法流程图；

图2为本发明的结构化信息提取步骤。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例：

根据本发明提供的基于深度学习的通用文档、票证等图像信息提取的方法，该方法操作步骤如下：

步骤1：通过对图像进行频域分析、边缘检测、亮度和色彩饱和度分析等方法，判断图片分别是否属于对屏拍摄、模糊图片、过曝图片、复印件图片。

步骤2：通过卷积神经网络提取输入图像中目标区域并实现对目标区域的分类，获得一个或者多个目标区域以及分类。

步骤3：通过卷积神经网络构建四分类分类器对目标区域的图像进行朝向矫正。将图像旋转至正向朝向，并通过线段检测、频域信号分析等方法计算图像的倾斜角度，实行角度矫正后，进行文字检测。

步骤4：使用目标检测算法，用深度卷积网络计算图像的特征图，对文本行进行目标分割；最后再将每一行文本送入到训练好的识别模型中进行文字识别。

步骤4.1：所述步骤中目标检测算法的骨架网络采用残差网络的FPN版本，可在多尺寸的特征图上进行RPN目标提取。由RPN网络输出目标区域，再经分类定位的多任务损失判断目标的精确坐标和类别。其中，FPN中的上卷积和侧连接设计，使金字塔网络中的高分辨率层依然保有良好的语义信息。RPN中的锚框设置使得检测范围可覆盖大小不同、长宽比不一致的各类目标，不受制于场景。整个网络流程可共享卷积神经网络提取的特征信息。

步骤5：传统方法通过识别每个字符以实现全文识别，这一过程导致了上下文信息的丢失，对于单个字符虽具有较高准确率但识别条目准确率难以保证，本专利中使用CRNN算法，CRNN算法将深度卷积网络和双向循环网络相结合，形成端到端的网络训练，引入上下文信息，可以用于长宽比不固定的文字框，并可以兼顾文字内容的上下文影响，进行更精准的文字识别。

步骤5.1：所述步骤中CRNN算法，以CNN特征作为输入，通过注意力模型对RNN的状态和上一状态的注意力权重计算出新状态的注意力的权重，之后将CNN特征和权重输入RNN，也提高了模型的泛化能力，通过编码和解码得到更加准确的结果。

步骤6：通过上述检测和识别步骤，可获得图片中文字所在的位置及模型识别内容。然后通过锚点定位、图片缩放和摆正、模板匹配、干扰文本过滤、识别文本二次纠正等步骤，最终实现结构化信息提取。

步骤6.1：所述步骤所涉及的锚点定位，支持通过一张摆放较正的图片用于制作模板，把所在位置和内容固定的文本作为锚点，和当前图片中识别出来的文本进行比对，根据文本的相似度、文本规则完成锚点的定位。

步骤6.2：所述步骤所涉及的图片缩放和摆正，在模板匹配的基础上根据图片中匹配的锚点与模板图上的锚点计算透视矩阵，对图片进行缩放和投影变换，完成图片的摆正。

步骤6.3：所述步骤所涉及的模板匹配，支持使用摆正后图片新的透视投影矩阵与模板四顶点矩阵距离来计算匹配程度。当匹配程度较低时，系统内部可进行再次摆正。

步骤6.4：所述步骤所涉及的干扰文本过滤，根据字段所标注的待识别矩形框与匹配到的矩形框交并比来判断，匹配到的矩形框内文字是否属于某个字段。同时支持对匹配到文字根据其字段类型对其进行过滤，增加信息提取准确性。

步骤6.5：所述步骤所涉及的识别文本二次纠正，当文本过滤完成后，所保留识别结果置信度较低时。支持对该行文本使用识别模型进行二次识别，识别过程中引入上下文信息，并支持通过文本库对识别结果进行纠正，完成最终结构化信息的提取。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于深度学习的图像文字识别方法，其特征在于，包括：

2.根据权利要求1所述的基于深度学习的图像文字识别方法，其特征在于，所述步骤4中目标检测算法的骨架网络采用残差网络的FPN版本，在多尺寸的特征图上进行RPN目标提取，由RPN网络输出目标区域，再经分类定位的多任务损失判断目标的坐标和类别。

3.根据权利要求1所述的基于深度学习的图像文字识别方法，其特征在于，所述步骤5中CRNN算法，以CNN特征作为输入，通过注意力模型对RNN的状态和上一状态的注意力权重计算出新状态的注意力的权重，再将CNN特征和权重输入RNN，通过编码和解码得到训练结果。

4.根据权利要求1所述的基于深度学习的图像文字识别方法，其特征在于，所述步骤6中的锚点定位，通过一张正摆放的图片用于制作模板，把所在位置和内容固定的文本作为锚点，和当前图片中识别出来的文本进行比对，根据文本的相似度、文本规则完成锚点的定位。

5.根据权利要求4所述的基于深度学习的图像文字识别方法，其特征在于，所述步骤6中的图片缩放和摆正，在模板匹配的基础上根据图片中匹配的锚点与模板图上的锚点计算透视矩阵，对图片进行缩放和投影变换，完成图片的摆正。

6.根据权利要求5所述的基于深度学习的图像文字识别方法，其特征在于，所述步骤6中的模板匹配，使用摆正后图片新的透视投影矩阵与模板四顶点矩阵距离来计算匹配程度，当匹配程度较低时，进行再次摆正。

7.根据权利要求6所述的基于深度学习的图像文字识别方法，其特征在于，所述步骤6中的干扰文本过滤，根据字段所标注的待识别矩形框与匹配到的矩形框交并比来判断，匹配到的矩形框内文字是否属于某个字段，同时对匹配到文字根据字段类型进行过滤。

8.根据权利要求7所述的基于深度学习的图像文字识别方法，其特征在于，所述步骤6中的识别文本二次纠正，当文本过滤完成后，所保留识别结果置信度较低时，对该行文本使用识别模型进行二次识别，识别过程中引入上下文信息，并通过文本库对识别结果进行纠正，完成最终结构化信息的提取。

9.一种基于深度学习的图像文字识别系统，其特征在于，采用权利要求1-8中任一种或任多种所述的基于深度学习的图像文字识别方法，包括：

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。