CN113378821B

CN113378821B - 基于深度学习的公章文字识别方法、系统、设备及存储介质

Info

Publication number: CN113378821B
Application number: CN202110753306.4A
Authority: CN
Inventors: 李君波; 王坚; 游强; 李兵; 余昊楠
Original assignee: Renmin Zhongke Jinan Intelligent Technology Co ltd
Current assignee: Renmin Zhongke Beijing Intelligent Technology Co ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2023-02-28
Anticipated expiration: 2041-07-02
Also published as: CN113378821A

Abstract

本发明公开了基于深度学习的公章文字识别方法、系统、设备及存储介质，用以解决现有图像识别技术无法对自然场景中的公章文字进行准确识别的问题。方法包括：对公章原图的外环进行图像分割，得到外环区域；对外环区域进行椭圆拟合，得到矫正信息；根据矫正信息，对公章原图进行透视变换，得到公章矫正图；对公章矫正图中的文字区域的起止点位置进行回归；将回归后的起止点位置之间的扇形区域转换为矩形图片；对矩形图片中水平文字进行检测分割；识别图中的文字。系统包括：分割模块、矫正信息获取模块、透视变换模块、回归模块、矩形变换模块、水平文字裁剪模块和识别模块。本发明实现了对自然场景公章进行准确检测和识别。

Description

基于深度学习的公章文字识别方法、系统、设备及存储介质

技术领域

本发明涉及计算机机器视觉技术领域，特别涉及基于深度学习的公章文字识别方法、系统、设备及存储介质。

背景技术

目前对公章进行识别主要包含2条思路。

一种思路为，利用图像霍夫圆变换技术，检测出公章位置，进行截取，利用神经网络技术提取公章特征向量，与数据库中特征向量进行比对，实际上是多分类任务。这种思路有3个明显缺陷：第一，霍夫圆变换适合规则圆形图案，对于自然场景不规则圆形公章，检测效果不好。第二，需要维护一个存储公章向量数据库，对于新出现公章不具备识别能力，必须将公章特征向量先放入数据库，再进行对比。由于公章千差万别，实现较高准确率前提是，数据库中存放大量公章信息，随着数据库中数据增多，查询效率降低。第三，模型对于相近图像特征提取能力有限。对于相似公章，比如说两个公章仅仅相差一个字，很难得到有效区分，会带来精度问题。

另一种思路为，利用yolo,fast-rcnn，图像热处理等技术，检测单个字符，截取单个字符区域，再对每个字符区域进行多分类。这种思路有两个明显问题。首先，检测字符位置，适合字符间距较大场景，而且容易受到背景噪点的干扰。对于文字较多，字符较密集情况，容易截取相邻文字。其次对于每个字符区域截取分类，丢失字符与字符之间语义信息，降低准确率。

综上，现有图像识别技术无法对自然场景中形状不规则、背景干扰信息多，纹理不清晰的公章文字进行准确的识别。

发明内容

本发明提供了基于深度学习的公章文字识别方法、系统、设备及存储介质，用以解决现有图像识别技术无法对自然场景中形状不规则、背景干扰信息多，纹理不清晰的公章文字进行准确识别的问题。

为达到上述目的，本发明提供以下技术方案：

第一部分，本发明实施例的一种基于深度学习的公章文字识别方法，包括下列步骤：S1、对公章原图的外环进行图像分割，得到外环区域；S2、对所述的外环区域进行椭圆拟合，得到矫正信息；S3、根据所述的矫正信息，对所述的公章原图进行透视变换，得到公章矫正图；S4、对所述公章矫正图中的文字区域的起止点位置进行回归；S5、根据回归后的所述起止点位置，将回归后的所述起止点位置之间的扇形区域转换为矩形图片，具体包括：已知所述矩形图片上任意点坐标(x,y)，求该点对应到所述扇形区域上的点坐标(a,b)，通过像素遍历，得到所述矩形图片上各点与所述扇形区域上各点之间的一一对应关系，完成扇形区域转换为矩形图片，公式如下：

a＝ρ*cos(θ)+a0；

b＝ρ*sin(θ)+b0；

x＝ρ*(θ-θ0)；

y＝ρ-ρ0；

变换得到：

a＝(y+ρ0)*cos(x/(y+ρ0)+θ0)+a0；

b＝(y+ρ0)*sin(x/(y+ρ0)+θ0)+b0；

其中：(x,y)是矩形图片坐标，(a,b)是扇形区域坐标，(a0,b0)是扇形圆心坐标，θ0是扇形起始极坐标角度，θ是扇形(a,b)极坐标角度，ρ0是扇形起始半径，这里ρ0＝0，ρ是扇形(a,b)极坐标半径；S6、对所述的矩形图片中水平文字进行检测分割，得到矩形文字图片；S7、识别所述矩形文字图片中的文字。

优选的，所述步骤S2中对外环区域进行椭圆拟合，得到矫正信息，具体包括：获取所述外环区域的最小外接椭圆；获取所述最小外接椭圆的椭圆信息；根据所述的椭圆信息，获取所述外环区域的最小外接矩形，以及获取与所述最小外接矩形长边长度相等的正方形；获取所述最小外接矩形的矩形信息，以及获取所述正方形的正方形信息。

更为优选的，所述最小外接矩形的倾斜角度等于所述最小外接椭圆的倾斜角度；所述最小外接矩形的长等于所述最小外接椭圆长轴半径的两倍；所述最小外接矩形的宽等于所述最小外接椭圆短轴半径的两倍；所述最小外接矩形的中心点与所述最小外接椭圆的中心点重合；所述最小外接矩形长边长度相等的正方形的倾斜角度等于所述最小外接椭圆的倾斜角度；所述最小外接矩形长边长度相等的正方形的边长等于所述最小外接椭圆长轴半径的两倍；所述最小外接矩形长边长度相等的正方形的中心点与所述最小外接椭圆的中心点重合。

优选的，所述步骤S3中根据矫正信息，对所述的公章原图进行透视变换，具体包括：根据所述最小外接矩形的矩形信息得出该矩形的四个顶点坐标，以及根据所述正方形的正方形信息得出该正方形的四个顶点坐标；根据所述最小外接矩形的四个顶点坐标与所述正方形的四个顶点坐标的对应关系，得出透视变换矩阵；根据所述的透视变换矩阵，得出所述公章原图上每一坐标点变换后的坐标点；各所述变换后坐标点的像素组成所述公章矫正图，完成对所述的公章原图矫正。

优选的，所述步骤S4中对公章矫正图中的文字区域的起止点位置进行回归，具体包括：利用神经网络获取起点位置为文字区域第一个字左边界中点位置；利用神经网络获取止点位置为文字区域最后一个字右边界中点位置；或利用神经网络获取起点位置为文字区域第一个字左边界任意一点位置；利用神经网络获取止点位置为文字区域最后一个字右边界相应点的位置。

优选的，所述步骤S6中对矩形图片中水平文字进行检测分割，得到矩形文字图片，具体包括：将所述的矩形图片按照高度方向拼接至少2倍，并检测文字区域；从检测出的若干文字区域中，选出宽度最大的区域进行图片分割。

优选的，所述步骤S1中具体是利用分割网络，对公章原图的外环进行图像分割，得到外环区域。

第二部分，本发明实施例的一种基于深度学习的公章文字识别系统，包括：分割模块，用于对公章原图的外环进行图像分割，得到外环区域；矫正信息获取模块，用于对所述的外环区域进行椭圆拟合，得到矫正信息；透视变换模块，用于根据所述的矫正信息，对所述的公章原图进行透视变换，得到公章矫正图；回归模块，用于对所述公章矫正图中的文字区域的起止点位置进行回归；矩形变换模块，用于根据回归后的所述起止点位置，将回归后的所述起止点位置之间的扇形区域转换为矩形图片，在转换时，已知所述矩形图片上任意点坐标(x,y)，求该点对应到所述扇形区域上的点坐标(a,b)，通过像素遍历，得到所述矩形图片上各点与所述扇形区域上各点之间的一一对应关系，完成扇形区域转换为矩形图片，矩形变换模块采用的公式如下：

a＝ρ*cos(θ)+a0；

b＝ρ*sin(θ)+b0；

x＝ρ*(θ-θ0)；

y＝ρ-ρ0；

变换得到：

a＝(y+ρ0)*cos(x/(y+ρ0)+θ0)+a0；

b＝(y+ρ0)*sin(x/(y+ρ0)+θ0)+b0；

其中：(x,y)是矩形图片坐标，(a,b)是扇形区域坐标，(a0,b0)是扇形圆心坐标，θ0是扇形起始极坐标角度，θ是扇形(a,b)极坐标角度，ρ0是扇形起始半径，ρ是扇形(a,b)极坐标半径；水平文字裁剪模块，用于对所述矩形图片中的水平文字进行检测分割，得到矩形文字图片；识别模块，用于识别所述矩形文字图片中的文字。

优选的，所述的矫正信息获取模块获取所述外环区域的最小外接椭圆；获取所述最小外接椭圆的椭圆信息；根据所述的椭圆信息，获取所述外环区域的最小外接矩形，以及所述最小外接矩形长边长度相等的正方形；以及获取所述最小外接矩形的矩形信息，和获取所述正方形的正方形信息。

优选的，所述的透视变换模块根据所述最小外接矩形的矩形信息得出该矩形的四个顶点坐标，以及根据所述正方形的正方形信息得出该正方形的四个顶点坐标；根据所述最小外接矩形的四个顶点坐标与所述正方形的四个顶点坐标的对应关系，得出透视变换矩阵；根据所述的透视变换矩阵，得出所述公章原图上每一坐标点变换后的坐标点；各所述变换后坐标点的像素组成所述公章矫正图，完成对所述的公章原图矫正。

优选的，所述的回归模块以所述公章矫正图的圆心为原点坐标，利用神经网络获取起点位置为文字区域第一个字左边界中点位置；利用神经网络获取止点位置为文字区域最后一个字右边界中点位置；或利用神经网络获取起点位置为文字区域第一个字左边界任意一点位置；利用神经网络获取止点位置为文字区域最后一个字右边界相应点的位置。

优选的，所述的水平文字裁剪模块将所述矩形图片按照高度方向拼接至少2倍，并检测文字区域；从检测出的若干文字区域中，选出宽度最大的区域进行图片分割。

第三部分，本发明实施例的一种计算机设备，包括：存储器、处理器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明任意实施例所述的基于深度学习的公章文字识别方法。

第四部分，本发明实施例的一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本发明任意实施例所述的基于深度学习的公章文字识别方法。

本发明实现了对自然场景公章进行准确检测和识别，并将公章内容进行记录。本发明直接对公章文字进行识别，效率快，精度高，对于新出现公章能够做到有效辨认，相似公章能够做到有效区分。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例1的基于深度学习的公章文字识别方法的流程图；

图2为本发明实施例1中对公章外环进行图像分割，得到外环区域的过程示意图；

图3为本发明实施例1中将扇形区域转换为矩形图片的示意图；

图4为本发明实施例2的基于深度学习的公章文字识别系统的结构示意图；

图5为本发明实施例3的计算机设备的结构示意图。

具体实施方式

为了实现对自然场景公章进行准确检测和识别，发明人经过研究提出了基于深度学习的公章文字识别方法、系统、设备及存储介质，以下通过实施例具体详述。

实施例1、本实施例的基于深度学习的公章文字识别方法，参见图1所示，包括下列主要步骤：

步骤110、对公章原图的外环进行图像分割，得到外环区域。

其中，利用分割网络，例如：psenet网络；实现对公章外环进行图像分割，得到外环区域，具体参见图2所示。

首先将公章图片输入网络模型，例如：PSEnet网络模型，进行特征提取，得到C2，C3，C4，C5四个初始特征层。将高层特征和低层特征融合后得到P2，P3，P4，P5四个融合特征层，其中每个特征层的channel通道数量为256，具体融合过程例如：C5做卷积得到P5；P5上采样和C4在通道层面拼接，做卷积得到P4；P4上采样和C3在通道层面拼接，做卷积得到P3；P3上采样和C2在通道层面拼接，做卷积得到P2。之后将四个融合特征层concat(拼接)得到F，即将四个融合特征层在通道层面进行拼接，得到拼接后特征层F，其中F＝C(P2,P3,P4,P5)＝P2||Upx2(P3)||Upx4(P4)||Upx8(P5)，其中的||就代表concat。x2,x4,x8分别代表2倍、4倍和8倍的上采样。将F送入Conv(3,3)-BN-ReLU(卷积层+归一化层+激活层)层，并将特征层的channel数量变为256。之后再将F送入n个Conv(1,1)-Up-Sigmod(卷积层+上采样层+激活层)层来得到n个分割结果S1,S2,...Sn，其中的Up代表上采样。将分割结果进行渐进式扩展，即S1以S2区域扩展，得到新S2；新S2以S3区域扩展，得到新S3；以此类推，最终新Sn-1以Sn区域扩展，得到新Sn。新Sn即为输出结果，定义为R，即外环区域。

步骤120、对外环区域进行椭圆拟合，得到矫正信息。

本实施例中采用opencv函数fitEllipse，对分割出来的外环区域进行椭圆拟合，得到矫正信息。获取外环区域的最小外接椭圆，以及该椭圆信息包括但不限于：中心点横坐标、中心点纵坐标、长轴长度、短轴长度、倾斜角度。具体先初始化椭圆信息，包括中心点横坐标、中心点纵坐标、长轴长度、短轴长度、倾斜角度等，计算图中坐标点点集到椭圆边界距离，通过更新迭代椭圆参数信息，缩短距离，最终获得椭圆信息。

根据椭圆信息，获取最小外接矩形和对应正方形。

其中最小外接矩形：倾斜角度＝椭圆倾斜角度；

长＝椭圆长轴半径*2；

宽＝椭圆短轴半径*2；

中心点＝椭圆中心点。

正方形：倾斜角度＝椭圆倾斜角度；

长＝椭圆长轴半径*2；

中心点＝椭圆中心点。

得到最小外接矩形和对应正方形后，再获取最小外接矩形信息，包括但不限于：中心点横坐标、中心点纵坐标、长边长度、短边长度、倾斜角度，以及获取正方形信息，包括但不限于：中心点横坐标、中心点纵坐标、边长、倾斜角度。

本实施例的矫正信息包括上述最小外接椭圆信息、最小外接矩形信息和与最小外接矩形长边长度相等的正方形信息。

步骤130、根据矫正信息，对公章原图进行透视变换，得到公章矫正图。

其中，根据最小外接矩形的矩形信息得出该矩形的四个顶点坐标，以及根据正方形的正方形信息得出该正方形的四个顶点坐标。根据最小外接矩形的四个顶点坐标与正方形的四个顶点坐标的对应关系，计算得出透视变换矩阵，透视变换矩阵表达了公章原图与矫正图每一个坐标点的对应关系，即根据透视变换矩阵，得出公章原图上每一坐标点变换后的坐标点。各变换后坐标点的像素组成公章矫正图，对该公章矫正图进行存储，完成对公章原图矫正。至此步骤，本实施例的方法已将自然场景中非正圆公章原图矫正为正圆公章图，利于后续对公章图中文字的检测和识别的准确性。

步骤140、对公章矫正图中的文字区域的起止点位置进行回归。

利用神经网络mobilenet_v2+liner获取起点位置为文字区域第一个字左边界中点位置，以及获取止点位置为文字区域最后一个字右边界中点位置。当然获取起点位置也可以为文字区域第一个字左边界的任一点位置，则获取止点位置为文字区域最后一个字右边界相应点的位置。

步骤150、根据回归后的起止点位置，通过像素遍历，将回归后的起止点位置之间的扇形区域转换为矩形图片。

具体的，给矩形图片某一个点赋像素值，求出该点对应到扇形区域的位置，通过像素遍历，即可得到矩形图片上各点与扇形区域上各点之间的一一对应关系，进而实现扇形区域转换为矩形图片。

参见图3所示，其中(x,y)是矩形坐标，(a,b)是扇形坐标，(x,y)是已知，求对应的(a，b)，具体公式如下：

a＝ρ*cos(θ)+a0；

b＝ρ*sin(θ)+b0；

x＝ρ*(θ-θ0)；

y＝ρ-ρ0；

变换得到：

a＝(y+ρ0)*cos(x/(y+ρ0)+θ0)+a0；

b＝(y+ρ0)*sin(x/(y+ρ0)+θ0)+b0；

其中：(x,y)是矩形图片坐标，(a,b)是扇形区域坐标，(a0,b0)是扇形圆心坐标，θ0是扇形起始极坐标角度，θ是扇形(a,b)极坐标角度，ρ0是扇形起始半径，ρ是扇形(a,b)极坐标半径。这样，每一组(x,y)就对应一组(a,b)。

步骤160、对矩形图片中水平文字进行检测分割，得到矩形文字图片。

如上所述，将回归后的起止点位置之间的扇形区域转换为矩形图片后，需要将矩形图片中的如背景色等与公章文字无关的干扰部分去除，因此需要对矩形图片中水平文字进行检测分割，得到矩形文字图片。

具体的，将矩形图片按照高度方向拼接四倍，即将四张相同的矩形图片按高度方向上下拼接，再利用psenet网络检测文字区域，拼接四次是为了满足psenet网络下采样过程中感受野大小限制。将检测出的若干文字区域，挑选出宽度最大的区域进行图片裁剪，这样可进一步优化psenet网络感受野大小限制，避免对唯一文字区域进行检测，可能导致的文字区域裁剪不完整，进而避免后续无法正常识别的情况，当然也可拼接其它张数(倍数)也应在本发明保护范围之内。

步骤170、识别矩形文字图片中的文字。

本实施例中采用CRNN网络模型识别矩形文字图片中的文字，CRNN网络模型可以兼容图像纹理结构和文字语义关系。

本实施例中，先对公章原图的外环进行图像分割，得到外环区域，然后对外环区域进行椭圆拟合，得到矫正信息，再根据矫正信息，对公章原图进行透视变换，得到公章矫正图，为后续准确识别公章中的文字打下了基础。之后再确定公章矫正图中文字区域的起止点位置，将扇形文字区域转换为矩形图片的形式，最后即可准确识别矩形图片中的文字。本实施例的方法对不规整的公章原图、新出现的公章原图等，都能够做到有效辨认，相似公章能够做到有效区分。

实施例2、本实施例的基于深度学习的公章文字识别系统，参见图4所示，包括：分割模块210、矫正信息获取模块220、透视变换模块230、回归模块240、矩形变换模块250、水平文字裁剪模块260和识别模块270。

分割模块210，用于对公章原图的外环进行图像分割，得到外环区域。具体利用分割网络，例如：psenet网络；实现对公章外环进行图像分割，得到外环区域。首先将公章图片输入网络模型，例如：PSEnet网络模型，进行特征提取，得到C2，C3，C4，C5四个初始特征层。将高层特征和低层特征融合后得到P2，P3，P4，P5四个融合特征层，其中每个特征层的channel通道数量为256，具体融合过程例如：C5做卷积得到P5；P5上采样和C4在通道层面拼接，做卷积得到P4；P4上采样和C3在通道层面拼接，做卷积得到P3；P3上采样和C2在通道层面拼接，做卷积得到P2。之后将四个融合特征层concat(拼接)得到F，即将四个融合特征层在通道层面进行拼接，得到拼接后特征层F，其中F＝C(P2,P3,P4,P5)＝P2||Upx2(P3)||Upx4(P4)||Upx8(P5)，其中的||就代表concat。x2,x4,x8分别代表2倍、4倍和8倍的上采样。将F送入Conv(3,3)-BN-ReLU(卷积层+归一化层+激活层)层，并将特征层的channel数量变为256。之后再将F送入n个Conv(1,1)-Up-Sigmod(卷积层+上采样层+激活层)层来得到n个分割结果S1,S2,...Sn，其中的Up代表上采样。将分割结果进行渐进式扩展，即S1以S2区域扩展，得到新S2；新S2以S3区域扩展，得到新S3；以此类推，最终新Sn-1以Sn区域扩展，得到新Sn。新Sn即为输出结果，定义为R，即外环区域。

矫正信息获取模块220，用于对外环区域进行椭圆拟合，得到矫正信息。具体的本实施例中采用opencv函数fitEllipse，对分割出来的外环区域进行椭圆拟合，得到矫正信息。获取外环区域的最小外接椭圆，以及该椭圆信息包括但不限于：中心点横坐标、中心点纵坐标、长轴长度、短轴长度、倾斜角度。具体先初始化椭圆信息，包括中心点横坐标、中心点纵坐标、长轴长度、短轴长度、倾斜角度等，计算图中坐标点点集到椭圆边界距离，通过更新迭代椭圆参数信息，缩短距离，最终获得椭圆信息。根据椭圆信息，获取最小外接矩形和对应正方形。最小外接矩形的倾斜角度等于最小外接椭圆的倾斜角度；最小外接矩形的长等于最小外接椭圆长轴半径的两倍；最小外接矩形的宽等于最小外接椭圆短轴半径的两倍；最小外接矩形的中心点与最小外接椭圆的中心点重合；最小外接矩形长边长度相等的正方形的倾斜角度等于最小外接椭圆的倾斜角度；最小外接矩形长边长度相等的正方形的边长等于最小外接椭圆长轴半径的两倍；最小外接矩形长边长度相等的正方形的中心点与最小外接椭圆的中心点重合。得到最小外接矩形和对应正方形后，再获取最小外接矩形信息，包括但不限于：中心点横坐标、中心点纵坐标、长边长度、短边长度、倾斜角度，以及获取正方形信息，包括但不限于：中心点横坐标、中心点纵坐标、边长、倾斜角度。本实施例的矫正信息包括上述最小外接椭圆信息、最小外接矩形信息和与最小外接矩形长边长度相等的正方形信息。

透视变换模块230，用于根据矫正信息，对公章原图进行透视变换，得到公章矫正图。具体的，根据最小外接矩形的矩形信息得出该矩形的四个顶点坐标，以及根据正方形的正方形信息得出该正方形的四个顶点坐标。根据最小外接矩形的四个顶点坐标与正方形的四个顶点坐标的对应关系，计算得出透视变换矩阵，透视变换矩阵表达了公章原图与矫正图每一个坐标点的对应关系，即根据透视变换矩阵，得出公章原图上每一坐标点变换后的坐标点。各变换后坐标点的像素组成公章矫正图，对该公章矫正图进行存储，完成对公章原图矫正。至此，本实施例的系统已将自然场景中非正圆公章原图矫正为正圆公章图，利于后续对公章图中文字的检测和识别的准确性。

回归模块240，用于对公章矫正图中的文字区域的起止点位置进行回归。具体的，利用神经网络mobilenet_v2+liner获取起点位置为文字区域第一个字左边界中点位置，以及获取止点位置为文字区域最后一个字右边界中点位置。当然获取起点位置也可以为文字区域第一个字左边界的任一点位置，则获取止点位置为文字区域最后一个字右边界相应点的位置。

矩形变换模块250，用于根据回归后的所述起止点位置，通过像素遍历，将回归后的起止点位置之间的扇形区域转换为矩形图片。具体的，给矩形图片某一个点赋像素值，求出该点对应到扇形区域的位置，通过像素遍历，即可得到矩形图片上各点与扇形区域上各点之间的一一对应关系，进而实现扇形区域转换为矩形图片。矩形变换模块250采用的公式如下：

a＝ρ*cos(θ)+a0；

b＝ρ*sin(θ)+b0；

x＝ρ*(θ-θ0)；

y＝ρ-ρ0；

变换得到：

a＝(y+ρ0)*cos(x/(y+ρ0)+θ0)+a0；

b＝(y+ρ0)*sin(x/(y+ρ0)+θ0)+b0；

水平文字裁剪模块260，用于对矩形图片中的水平文字进行检测分割，得到矩形文字图片。如上所述，将回归后的起止点位置之间的扇形区域转换为矩形图片后，需要将矩形图片中的如背景色等与公章文字无关的干扰部分去除，因此需要对矩形图片中水平文字进行检测分割，得到矩形文字图片。具体的，将矩形图片按照高度方向拼接四倍，即将四张相同的矩形图片按高度方向上下拼接，再利用psenet网络检测文字区域，拼接四次是为了满足psenet网络下采样过程中感受野大小限制。将检测出的若干文字区域，挑选出宽度最大的区域进行图片裁剪，这样可进一步优化psenet网络感受野大小限制，避免对唯一文字区域进行检测，可能导致的文字区域裁剪不完整，进而避免后续无法正常识别的情况，当然也可拼接其它张数(倍数)也应在本发明保护范围之内。

识别模块270，用于识别矩形文字图片中的文字。具体的本实施例中采用CRNN网络模型识别矩形文字图片中的文字，CRNN网络模型可以兼容图像纹理结构和文字语义关系。

本实施例中，先通过分割模块210对公章原图的外环进行图像分割，得到外环区域，然后通过矫正信息获取模块220对外环区域进行椭圆拟合，得到矫正信息，再由透视变换模块230根据矫正信息，对公章原图进行透视变换，得到公章矫正图，为后续准确识别公章中的文字打下了基础。之后再通过回归模块240确定公章矫正图中文字区域的起止点位置，通过矩形变换模块250将扇形文字区域转换为矩形图片的形式，最后即可通过识别模块260准确识别矩形图片中的文字。本实施例的系统对不规整的公章原图、新出现的公章原图等，都能够做到有效辨认，相似公章能够做到有效区分。

实施例3、本实施例的计算机设备，参见图5所示，显示的计算机设备300仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机设备300以通用计算设备的形式表现。计算机设备300的组件可以包括但不限于：一个或者多个处理器或者处理单元301，系统存储器302，连接不同系统组件(包括系统存储器302和处理单元301)的总线303。

总线303表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备300典型的包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备300访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器302可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)304和/或高速缓存305。计算机设备300可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统306可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线303相连。系统存储器302可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块307的程序/实用工具308，可以存储在例如系统存储器302中，这样的程序模块307包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块307通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备300也可以与一个显示器310或多个外部设备309(例如键盘、指向设备、等)通信，还可与一个或者多个使得用户能与该计算机设备300交互的设备通信，和/或与使得该计算机设备300能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口311进行。并且，计算机设备300还可以通过网络适配器312与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网通信。如图5所示，网络适配器312通过总线303与计算机设备300的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元301通过运行存储在系统存储器302中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的基于深度学习的公章文字识别方法，包括下列步骤：对公章原图的外环进行图像分割，得到外环区域；对所述的外环区域进行椭圆拟合，得到矫正信息；根据所述的矫正信息，对所述的公章原图进行透视变换，得到公章矫正图；对所述公章矫正图中的文字区域的起止点位置进行回归；根据回归后的所述起止点位置，将回归后的所述起止点位置之间的扇形区域转换为矩形图片；对所述的矩形图片中水平文字进行检测分割，得到矩形文字图片；识别所述矩形文字图片中的文字。

实施例4、本实施例的包含计算机可执行指令的存储介质，其内部存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的基于深度学习的公章文字识别方法，包括下列步骤：对公章原图的外环进行图像分割，得到外环区域；对所述的外环区域进行椭圆拟合，得到矫正信息；根据所述的矫正信息，对所述的公章原图进行透视变换，得到公章矫正图；对所述公章矫正图中的文字区域的起止点位置进行回归；根据回归后的所述起止点位置，将回归后的所述起止点位置之间的扇形区域转换为矩形图片；对所述的矩形图片中水平文字进行检测分割，得到矩形文字图片；识别所述矩形文字图片中的文字。

本实施例的包含计算机可执行指令的存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于深度学习的公章文字识别方法，其特征在于，包括下列步骤：

S1、对公章原图的外环进行图像分割，得到外环区域；

S2、对所述的外环区域进行椭圆拟合，得到矫正信息；

S3、根据所述的矫正信息，对所述的公章原图进行透视变换，得到公章矫正图；

S4、对所述公章矫正图中的文字区域的起止点位置进行回归；

S5、根据回归后的所述起止点位置，将回归后的所述起止点位置之间的扇形区域转换为矩形图片，具体包括：已知所述矩形图片上任意点坐标(x,y)，求该点对应到所述扇形区域上的点坐标(a,b)，通过像素遍历，得到所述矩形图片上各点与所述扇形区域上各点之间的一一对应关系，完成扇形区域转换为矩形图片，公式如下：

a＝ρ*cos(θ)+a0；

b＝ρ*sin(θ)+b0；

x＝ρ*(θ-θ0)；

y＝ρ-ρ0；

变换得到：

a＝(y+ρ0)*cos(x/(y+ρ0)+θ0)+a0；

b＝(y+ρ0)*sin(x/(y+ρ0)+θ0)+b0；

其中：(x,y)是矩形图片坐标，(a,b)是扇形区域坐标，(a0,b0)是扇形圆心坐标，θ0是扇形起始极坐标角度，θ是扇形(a,b)极坐标角度，ρ0是扇形起始半径，这里ρ0＝0，ρ是扇形(a,b)极坐标半径；

S6、对所述的矩形图片中水平文字进行检测分割，得到矩形文字图片；

S7、识别所述矩形文字图片中的文字。

2.如权利要求1所述的基于深度学习的公章文字识别方法，其特征在于，所述步骤S2中对外环区域进行椭圆拟合，得到矫正信息，具体包括：

获取所述外环区域的最小外接椭圆；

获取所述最小外接椭圆的椭圆信息；

根据所述的椭圆信息，获取所述外环区域的最小外接矩形，以及获取与所述最小外接矩形长边长度相等的正方形；

获取所述最小外接矩形的矩形信息，以及获取所述正方形的正方形信息。

3.如权利要求2所述的基于深度学习的公章文字识别方法，其特征在于，

所述最小外接矩形的倾斜角度等于所述最小外接椭圆的倾斜角度；

所述最小外接矩形的长等于所述最小外接椭圆长轴半径的两倍；

所述最小外接矩形的宽等于所述最小外接椭圆短轴半径的两倍；

所述最小外接矩形的中心点与所述最小外接椭圆的中心点重合；

所述最小外接矩形长边长度相等的正方形的倾斜角度等于所述最小外接椭圆的倾斜角度；

所述最小外接矩形长边长度相等的正方形的边长等于所述最小外接椭圆长轴半径的两倍；

所述最小外接矩形长边长度相等的正方形的中心点与所述最小外接椭圆的中心点重合。

4.如权利要求2所述的基于深度学习的公章文字识别方法，其特征在于，所述步骤S3中根据矫正信息，对所述的公章原图进行透视变换，具体包括：

根据所述最小外接矩形的矩形信息得出该矩形的四个顶点坐标，以及根据所述正方形的正方形信息得出该正方形四个顶点坐标；

根据所述最小外接矩形的四个顶点坐标与所述正方形的四个顶点坐标的对应关系，得出透视变换矩阵；

根据所述的透视变换矩阵，得出所述公章原图上每一坐标点变换后的坐标点；

各所述变换后坐标点的像素组成所述公章矫正图，完成对所述的公章原图矫正。

5.如权利要求1所述的基于深度学习的公章文字识别方法，其特征在于，所述步骤S4中对公章矫正图中的文字区域的起止点位置进行回归，具体包括：

利用神经网络获取起点位置为文字区域第一个字左边界中点位置；

利用神经网络获取止点位置为文字区域最后一个字右边界中点位置；或

利用神经网络获取起点位置为文字区域第一个字左边界任意一点位置；

利用神经网络获取止点位置为文字区域最后一个字右边界相应点的位置。

6.如权利要求1所述的基于深度学习的公章文字识别方法，其特征在于，所述步骤S6中对矩形图片中水平文字进行检测分割，得到矩形文字图片，具体包括：

将所述的矩形图片按照高度方向拼接至少2倍，并检测文字区域；

从检测出的若干文字区域中，选出宽度最大的区域进行图片分割。

7.如权利要求1所述的基于深度学习的公章文字识别方法，其特征在于，所述步骤S1中具体是利用分割网络，对公章原图的外环进行图像分割，得到外环区域。

8.一种基于深度学习的公章文字识别系统，其特征在于，包括：

分割模块，用于对公章原图的外环进行图像分割，得到外环区域；

矫正信息获取模块，用于对所述的外环区域进行椭圆拟合，得到矫正信息；

透视变换模块，用于根据所述的矫正信息，对所述的公章原图进行透视变换，得到公章矫正图；

回归模块，用于对所述公章矫正图中的文字区域的起止点位置进行回归；

矩形变换模块，用于根据回归后的所述起止点位置，将回归后的所述起止点位置之间的扇形区域转换为矩形图片，在转换时，已知所述矩形图片上任意点坐标(x,y)，求该点对应到所述扇形区域上的点坐标(a,b)，通过像素遍历，得到所述矩形图片上各点与所述扇形区域上各点之间的一一对应关系，完成扇形区域转换为矩形图片，矩形变换模块采用的公式如下：

a＝ρ*cos(θ)+a0；

b＝ρ*sin(θ)+b0；

x＝ρ*(θ-θ0)；

y＝ρ-ρ0；

变换得到：

a＝(y+ρ0)*cos(x/(y+ρ0)+θ0)+a0；

b＝(y+ρ0)*sin(x/(y+ρ0)+θ0)+b0；

其中：(x,y)是矩形图片坐标，(a,b)是扇形区域坐标，(a0,b0)是扇形圆心坐标，θ0是扇形起始极坐标角度，θ是扇形(a,b)极坐标角度，ρ0是扇形起始半径，ρ是扇形(a,b)极坐标半径；

水平文字裁剪模块，用于对所述矩形图片中的水平文字进行检测分割，得到矩形文字图片；

识别模块，用于识别所述矩形文字图片中的文字。

9.如权利要求8所述的基于深度学习的公章文字识别系统，其特征在于，所述的矫正信息获取模块获取所述外环区域的最小外接椭圆；获取所述最小外接椭圆的椭圆信息；根据所述的椭圆信息，获取所述外环区域的最小外接矩形，以及所述最小外接矩形长边长度相等的正方形；以及获取所述最小外接矩形的矩形信息，和获取所述正方形的正方形信息。

10.如权利要求9所述的基于深度学习的公章文字识别系统，其特征在于，所述的透视变换模块根据所述最小外接矩形的矩形信息得出该矩形的四个顶点坐标，以及根据所述正方形的正方形信息得出该正方形的四个顶点坐标；根据所述最小外接矩形的四个顶点坐标与所述正方形的四个顶点坐标的对应关系，得出透视变换矩阵；根据所述的透视变换矩阵，得出所述公章原图上每一坐标点变换后的坐标点；各所述变换后坐标点的像素组成所述公章矫正图，完成对所述的公章原图矫正。

11.如权利要求8所述的基于深度学习的公章文字识别系统，其特征在于，利用神经网络获取起点位置为文字区域第一个字左边界中点位置；利用神经网络获取止点位置为文字区域最后一个字右边界中点位置；或利用神经网络获取起点位置为文字区域第一个字左边界任意一点位置；利用神经网络获取止点位置为文字区域最后一个字右边界相应点的位置。

12.如权利要求8所述的基于深度学习的公章文字识别系统，其特征在于，所述的水平文字裁剪模块将所述矩形图片按照高度方向拼接至少2倍，并检测文字区域；从检测出的若干文字区域中，选出宽度最大的区域进行图片分割。

13.一种计算机设备，包括：存储器、处理器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的基于深度学习的公章文字识别方法。

14.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7任一项所述的基于深度学习的公章文字识别方法。