CN111652205A - 基于深度学习的文本矫正方法、装置、设备和介质 - Google Patents
基于深度学习的文本矫正方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN111652205A CN111652205A CN202010498269.2A CN202010498269A CN111652205A CN 111652205 A CN111652205 A CN 111652205A CN 202010498269 A CN202010498269 A CN 202010498269A CN 111652205 A CN111652205 A CN 111652205A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- line
- target
- target text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Abstract
本发明实施例涉及图像处理技术领域,公开了一种基于深度学习的文本矫正方法、装置、设备和介质。该方法包括:获取目标文本图像;利用深度学习的文本行检测网络模型,得到目标文本图像各个文本行的轮廓以及轮廓对应的文本中线;计算文本中线的长度与目标文本图像水平方向长度的比例,根据比例获取有效文本中线;获取有效文本中线与目标文本图像水平方向的夹角,利用夹角旋转目标文本图像。实施本发明实施例,针对纸面拍摄场景下的文字整页倾斜的问题,采用深度学习的文本行检测网络模型进行文本行检测,检测结果对光照、颜色、纹理、模糊等情况具有很强的鲁棒性。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于深度学习的文本矫正方法、装置、电子设备和存储介质。
背景技术
当前存在文字矫正算法大多是基于传统方法,如对原图进行二值化后,使用形态学操作进而构建连通域、外接矩形、霍夫变换等进行矫正,传统方法受环境影响较大,对光照、纹理等影响较为敏感,当纸面存在手写或者拍摄情况较为复杂时,矫正效果往往不理想。少数采用深度学习的方法是直接通过端到端训练得到角度,这种方法受到训练样本的影响较大,目前并没有非常成熟的针对纸面拍摄场景下的相关矫正算法。
发明内容
针对所述缺陷,本发明实施例公开了一种基于深度学习的文本矫正方法、装置、电子设备和存储介质,其深度学习的方法进行文本行检测,检测结果具有很强的鲁棒性。
本发明实施例第一方面公开一种基于深度学习的文本矫正方法,所述方法包括:
获取目标文本图像;
利用深度学习的文本行检测网络模型,得到目标文本图像各个文本行的轮廓以及所述轮廓对应的文本中线;
计算所述文本中线的长度与目标文本图像水平方向长度的比例,根据所述比例获取有效文本中线;
获取所述有效文本中线与目标文本图像水平方向的夹角,利用所述夹角旋转所述目标文本图像。
作为一种可选的实施方式,在本发明实施例第一方面中,利用深度学习的文本行检测网络模型,得到目标文本图像各个文本行的轮廓以及所述轮廓对应的文本中线,包括:
创建并训练PseNet文本行检测网络模型;
将所述目标文本图像输入所述PseNet文本行检测网络模型,得到所述目标文本图像的文本行区域掩码;
利用所述文本行区域掩码得到所述轮廓;
利用所述PseNet文本行检测网络模型或所述轮廓确定每个文本行的文本中线。
作为一种可选的实施方式,在本发明实施例第一方面中,计算所述文本中线的长度与目标文本图像水平方向长度的比例,根据所述比例获取有效文本中线,包括:
计算所述文本中线的长度与目标文本图像水平方向长度的比例;
在所述比例大于或等于预设阈值时,将所述比例大于或等于预设阈值的文本中线定义为有效文本中线;
如果所有的比例均小于预设阈值,则将所有的文本中线均作为有效文本中线。
作为一种可选的实施方式,在本发明实施例第一方面中,计算所述文本中线的长度与目标文本图像水平方向长度的比例,包括:
获取所述文本中线的第一像素点数以及目标文本图像水平方向的第二像素点数;
将所述第一像素点数除以第二像素点数得到所述比例。
作为一种可选的实施方式,在本发明实施例第一方面中,获取所述有效文本中线与目标文本图像水平方向的夹角,包括:
对所述有效文本中线进行线性拟合;
确定所述线性拟合后的每条有效文本中线与目标文本图像水平方向的夹角;
计算所有夹角的平均值,得到平均夹角。
作为一种可选的实施方式,在本发明实施例第一方面中,利用所述夹角旋转所述目标文本图像,包括:
确定所述目标文本图像的中心点;
以所述中心点为旋转点,以所述平均夹角形成的旋转矩阵对所述目标文本图像进行旋转,得到矫正后的文本图像。
本发明实施例第二方面公开一种基于深度学习的文本矫正装置,所述装置包括:
获取单元,用于获取目标文本图像;
识别单元,用于利用深度学习的文本行检测网络模型,得到目标文本图像各个文本行的轮廓以及所述轮廓对应的文本中线;
计算单元,用于计算所述文本中线的长度与目标文本图像水平方向长度的比例,根据所述比例获取有效文本中线;
旋转单元,用于获取所述有效文本中线与目标文本图像水平方向的夹角,利用所述夹角旋转所述目标文本图像。
作为一种可选的实施方式,在本发明实施例第二方面中,所述识别单元,包括:
创建子单元,用于创建并训练PseNet文本行检测网络模型;
输出子单元,用于将所述目标文本图像输入所述PseNet文本行检测网络模型,得到所述目标文本图像的文本行区域掩码;
轮廓获取子单元,用于利用所述文本行区域掩码得到所述轮廓;
文本中线获取子单元,用于利用所述PseNet文本行检测网络模型或所述轮廓确定每个文本行的文本中线。
作为一种可选的实施方式,在本发明实施例第二方面中,所述计算单元,包括:
比例计算子单元,用于计算所述文本中线的长度与目标文本图像水平方向长度的比例;
第一判断子单元,用于在所述比例大于或等于预设阈值时,将所述比例大于或等于预设阈值的文本中线定义为有效文本中线;
第二判断子单元,用于如果所有的比例均小于预设阈值,则将所有的文本中线均作为有效文本中线。
作为一种可选的实施方式,在本发明实施例第二方面中,所述比例计算子单元,包括:
第一孙单元,用于获取所述文本中线的第一像素点数以及目标文本图像水平方向的第二像素点数;
第二孙单元,用于将所述第一像素点数除以第二像素点数得到所述比例。
作为一种可选的实施方式,在本发明实施例第二方面中,所述旋转单元,包括:
拟合子单元,用于对所述有效文本中线进行线性拟合;
夹角确定子单元,用于确定所述线性拟合后的每条有效文本中线与目标文本图像水平方向的夹角;
平均夹角计算子单元,用于计算所有夹角的平均值,得到平均夹角。
作为一种可选的实施方式,在本发明实施例第二方面中,所述旋转单元,还包括:
中心点确定子单元,用于确定所述目标文本图像的中心点;
图像旋转子单元,用于以所述中心点为旋转点,以所述平均夹角形成的旋转矩阵对所述目标文本图像进行旋转,得到矫正后的文本图像。
本发明实施例第三方面公开一种电子设备,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行本发明实施例第一方面公开的一种基于深度学习的文本矫正方法的部分或全部步骤。
本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的一种基于深度学习的文本矫正方法的部分或全部步骤。
本发明实施例第五方面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本发明实施例第一方面公开的一种基于深度学习的文本矫正方法的部分或全部步骤。
本发明实施例第六方面公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本发明实施例第一方面公开的一种基于深度学习的文本矫正方法的部分或全部步骤。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,获取目标文本图像;利用深度学习的文本行检测网络模型,得到目标文本图像各个文本行的轮廓以及所述轮廓对应的文本中线;计算所述文本中线的长度与目标文本图像水平方向长度的比例,根据所述比例获取有效文本中线;获取所述有效文本中线与目标文本图像水平方向的夹角,利用所述夹角旋转所述目标文本图像。可见,实施本发明实施例,其针对纸面拍摄场景下的文字整页倾斜的问题,采用PseNet进行文本行检测,检测结果对光照、颜色、纹理、模糊等情况具有很强的鲁棒性,同时控制训练素材,达到只检测印刷体文本,所以对含大量手写的文本图像也具有很好的鲁棒性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种基于深度学习的文本矫正方法的流程示意图;
图2为本发明实施例公开的目标文本图像的示意图;
图3为本发明实施例公开的mask图像的示意图;
图4为本发明实施例公开的有效文本中线的示意图;
图5是本发明实施例公开的矫正后的文本图像的示意图;
图6是本发明实施例公开的一种基于深度学习的文本矫正装置的结构示意图;
图7是本发明实施例公开的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象,而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,示例性地,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开了一种基于深度学习的文本矫正方法、装置、电子设备和存储介质,其针对纸面拍摄场景下的文字整页倾斜的问题,采用PseNet进行文本行检测,检测结果对光照、颜色、纹理、模糊等情况具有很强的鲁棒性,以下结合附图进行详细描述。
实施例一
请参阅图1,图1是本发明实施例公开的一种文本矫正方法的流程示意图。如图1所示,该文本矫正方法包括以下步骤:
110、获取目标文本图像。
目标文本图像为用户通过电子设备输入的图像,示例性地,目标文本图像可以是用户通过图像采集装置对文档进行拍照后传送至智能设备的图像。图像采集装置可以集成于智能设备中,例如通过智能设备的前置摄像头对纸面进行拍照,也可以分立于智能设备外,与智能设备建立相应的通讯连接以传送所述目标文本图像。目标文本图像可以是图像采集装置拍照得到的整张图片,也可以是经过一定的处理后分割出的拍照图片中的部分图像。
目标文本图像包括一个或多个文本行,将对目标文本图像进行识别前,可以对目标文本图像进行预处理,预处理包括但不限于图像增强和图像校正,图像校正主要是基于图像采集装置得到的非矩形图像(例如梯形图像)进行拉伸操作,使目标文本图像的外边框转换成矩形。
120、利用深度学习的文本行检测网络模型,得到目标文本图像各个文本行的轮廓以及所述轮廓对应的文本中线。
文本行检测网络模型可以采用YOLO、CTPN、PSENet等任意的深度学习网络。在本发明实施例中,采用PSENet文本行检测网络模型,使得检测结果对光照、颜色、纹理、模糊等情况具有很强的鲁棒性。
创建PSENet文本行检测网络模型后,通过样本集合对其进行训练,训练的样本可以是印刷字体样本,也可以是印刷字体和手写字体结合的样本,样本的标签为印刷字体文本行的外接框,外接框可以是矩形或多边形。从而训练后的PSENet文本行检测网络模型只检测印刷字体的文本,所以对含大量手写字体的文本也具有很好的鲁棒性。
将目标文本图像输入该PSENet文本行检测网络模型中,可以得到目标文本图像每个文本行的文本行区域掩码,根据该文本行区域掩码,可以通过Opencv中的findContours函数,针对每个文本行区域进行遍历,以找出每个文本行区域的轮廓。
每个轮廓对应的文本中线可以通过PSENet文本行检测网络模型得到,示例性地,在模型训练时,对样本中每个文本行的中线进行人工标注,在PSENet文本行检测网络模型增加几何信息回归模块,输出文本中线信息。还可以将每个文本行对应的轮廓通过边界收缩的方式得到文本中线信息。
将文本行的轮廓和文本中线信息集合到一个mask图像中,该mask图像与目标文本图像的大小和形状完全相同。mask图像初始时,所有的像素点的值均为0,即一张全黑图像,然后将上述得到的轮廓的像素点对应转换到mask图像中,并将mask图像中这些像素点的值置为1,同样地,将文本中线的像素点对应转换到mask图像中,并将mask图像中这些像素点的值也置为1。图2为一种输入的目标文本图像,图3为经过PSENet文本行检测网络模型后得到的mask图像20,图3中,存在多个框21对应文本行轮廓,以及每个框21中的线22对应文本中线。
130、计算所述文本中线的长度与目标文本图像水平方向长度的比例,根据所述比例获取有效文本中线。
因为深度学习得到的文本中线,存在一些较短的文本中线不能反映目标文本图像的整体倾斜走向,需要对这些中线进行滤除,在本发明实施例中,通过计算文本总线长度与目标文本图像水平方向长度的比例,来确定能够稳定反映目标文本图像整体倾斜走向的文本中线,将这些文本中线定义为有效文本中线。
获取所述比例的方式有以下两种:第一种是将每条文本中线的像素点和目标文本图像水平方向的所有像素点进行统计,分别得到第一像素点数和第二像素点数,然后将第一像素点数和第二像素点数相除,得到所述比例;第二种是将每条文本中线的起始点和结束点的像素点相连,得到每条文本中线对应的线性中线,然后统计每个线性中线和目标文本图像水平方向的所有像素点,分别得到第一像素点数和第二像素点数,然后将第一像素点数和第二像素点数相除,得到所述比例。
当所述比例大于预设阈值例如40%时,则这个比例对应的文本中线记为有效文本中线。例如,将图3中的各条文本中线进行上述计算,可以得到如图4所示的5条有效文本中线。
如果所有的文本中线长度与目标文本图像水平方向长度之间的比例均小于预设阈值,则说明目标文本图像对应的纸面可能是多版排版方式,可以将所有的文本中线均定义为有效文本中线,进行下述步骤的操作。
140、获取所述有效文本中线与目标文本图像水平方向的夹角,利用所述夹角旋转所述目标文本图像。
根据有效文本中线的倾斜情况,来反映目标文本图像的倾斜方向,从而得到倾斜角,基于该倾斜角对目标文本图像进行矫正。
具体地,由于有效文本中线可能是非线性,因此,可以对有效文本中线进行线性拟合,得到拟合后的有效文本中线。示例性地,可以采用最小二乘法实现线性拟合。拟合后的有效文本中线与目标文本图像水平方向的夹角θ的计算方式可以是:
tanθ=(y2-y1)/(x2-x1)
其中,(x1,y1)和(x2,y2)分别为拟合后的有效文本中线的起始像素点坐标和结束像素点坐标。
另外,还可以对有效文本中线进行分段(每段有效文本中线可以进行线性拟合)计算与目标文本图像水平方向的夹角,然后将分段计算的夹角求平均,将计算得到的夹角平均值记为该有效文本中线与目标文本图像水平方向的夹角。分段方式根据需要的精度进行设置,一般地,可以将有效文本中线分成5段进行计算。
通过上述任一种方式得到所有有效文本中线与目标文本图像水平方向的夹角,然后将这些夹角求平均,得到平均夹角Aavg,然后基于该平均夹角Aavg构建旋转矩阵P:
以目标文本图像的中心点为旋转中心,以旋转矩阵P对目标文本图像进行旋转,得到矫正后的文本图像。图2所示的目标文本图像经过矫正后,可以得到图5所示的矫正后的文本图像。
实施本发明实施例,其针对纸面拍摄场景下的文字整页倾斜的问题,采用PseNet进行文本行检测,检测结果对光照、颜色、纹理、模糊等情况具有很强的鲁棒性,同时控制训练素材,达到只检测印刷体文本,所以对含大量手写的文本图像也具有很好的鲁棒性。
实施例二
请参阅图6,图6是本发明实施例公开的一种文本矫正装置的结构示意图。如图6所示,该文本矫正装置可以包括:
获取单元310,用于获取目标文本图像;
识别单元320,用于利用深度学习的文本行检测网络模型,得到目标文本图像各个文本行的轮廓以及所述轮廓对应的文本中线;
计算单元330,用于计算所述文本中线的长度与目标文本图像水平方向长度的比例,根据所述比例获取有效文本中线;
旋转单元340,用于获取所述有效文本中线与目标文本图像水平方向的夹角,利用所述夹角旋转所述目标文本图像。
作为一种可选的实施方式,所述识别单元320,可以包括:
创建子单元321,用于创建并训练PseNet文本行检测网络模型;
输出子单元322,用于将所述目标文本图像输入所述PseNet文本行检测网络模型,得到所述目标文本图像的文本行区域掩码;
轮廓获取子单元323,用于利用所述文本行区域掩码得到所述轮廓;
文本中线获取子单元324,用于利用所述PseNet文本行检测网络模型或所述轮廓确定每个文本行的文本中线。
作为一种可选的实施方式,所述计算单元330,可以包括:
比例计算子单元331,用于计算所述文本中线的长度与目标文本图像水平方向长度的比例;
第一判断子单元332,用于在所述比例大于或等于预设阈值时,将所述比例大于或等于预设阈值的文本中线定义为有效文本中线;
第二判断子单元333,用于如果所有的比例均小于预设阈值,则将所有的文本中线均作为有效文本中线。
作为一种可选的实施方式,所述比例计算子单元331,可以包括:
第一孙单元3311,用于获取所述文本中线的第一像素点数以及目标文本图像水平方向的第二像素点数;
第二孙单元3312,用于将所述第一像素点数除以第二像素点数得到所述比例。
作为一种可选的实施方式,所述旋转单元340,可以包括:
拟合子单元341,用于对所述有效文本中线进行线性拟合;
夹角确定子单元342,用于确定所述线性拟合后的每条有效文本中线与目标文本图像水平方向的夹角;
平均夹角计算子单元343,用于计算所有夹角的平均值,得到平均夹角。
作为一种可选的实施方式,所述旋转单元340,还可以包括:
中心点确定子单元344,用于确定所述目标文本图像的中心点;
图像旋转子单元345,用于以所述中心点为旋转点,以所述平均夹角形成的旋转矩阵对所述目标文本图像进行旋转,得到矫正后的文本图像。
图6所示的文本矫正装置,针对纸面拍摄场景下的文字整页倾斜的问题,采用PseNet进行文本行检测,检测结果对光照、颜色、纹理、模糊等情况具有很强的鲁棒性,同时控制训练素材,达到只检测印刷体文本,所以对含大量手写的文本图像也具有很好的鲁棒性。
实施例三
请参阅图7,图7是本发明实施例公开的一种电子设备的结构示意图。如图7所示,该电子设备可以包括:
存储有可执行程序代码的存储器410;
与存储器410耦合的处理器420;
其中,处理器420调用存储器410中存储的可执行程序代码,执行实施例一的基于深度学习的文本矫正方法中的部分或全部步骤。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行实施例一的基于深度学习的文本矫正方法中的部分或全部步骤。
本发明实施例还公开一种计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一的基于深度学习的文本矫正方法中的部分或全部步骤。
本发明实施例还公开一种应用发布平台,其中,应用发布平台用于发布计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一的基于深度学习的文本矫正方法中的部分或全部步骤。
在本发明的各种实施例中,应理解,所述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物单元,即可位于一个地方,或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。
在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
本领域普通技术人员可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的一种基于深度学习的文本矫正方法、装置、电子设备和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (14)
1.一种基于深度学习的文本矫正方法,其特征在于,包括:
获取目标文本图像;
利用深度学习的文本行检测网络模型,得到目标文本图像各个文本行的轮廓以及所述轮廓对应的文本中线;
计算所述文本中线的长度与目标文本图像水平方向长度的比例,根据所述比例获取有效文本中线;
获取所述有效文本中线与目标文本图像水平方向的夹角,利用所述夹角旋转所述目标文本图像。
2.根据权利要求1所述的文本矫正方法,其特征在于,利用深度学习的文本行检测网络模型,得到目标文本图像各个文本行的轮廓以及所述轮廓对应的文本中线,包括:
创建并训练PseNet文本行检测网络模型;
将所述目标文本图像输入所述PseNet文本行检测网络模型,得到所述目标文本图像的文本行区域掩码;
利用所述文本行区域掩码得到所述轮廓;
利用所述PseNet文本行检测网络模型或所述轮廓确定每个文本行的文本中线。
3.根据权利要求1所述的文本矫正方法,其特征在于,计算所述文本中线的长度与目标文本图像水平方向长度的比例,根据所述比例获取有效文本中线,包括:
计算所述文本中线的长度与目标文本图像水平方向长度的比例;
在所述比例大于或等于预设阈值时,将所述比例大于或等于预设阈值的文本中线定义为有效文本中线;
如果所有的比例均小于预设阈值,则将所有的文本中线均作为有效文本中线。
4.根据权利要求3所述的文本矫正方法,其特征在于,计算所述文本中线的长度与目标文本图像水平方向长度的比例,包括:
获取所述文本中线的第一像素点数以及目标文本图像水平方向的第二像素点数;
将所述第一像素点数除以第二像素点数得到所述比例。
5.根据权利要求1-4任一项所述的文本矫正方法,其特征在于,获取所述有效文本中线与目标文本图像水平方向的夹角,包括:
对所述有效文本中线进行线性拟合;
确定所述线性拟合后的每条有效文本中线与目标文本图像水平方向的夹角;
计算所有夹角的平均值,得到平均夹角。
6.根据权利要求5所述的文本矫正方法,其特征在于,利用所述夹角旋转所述目标文本图像,包括:
确定所述目标文本图像的中心点;
以所述中心点为旋转点,以所述平均夹角形成的旋转矩阵对所述目标文本图像进行旋转,得到矫正后的文本图像。
7.一种基于深度学习的文本矫正装置,其特征在于,所述装置包括:
获取单元,用于获取目标文本图像;
识别单元,用于利用深度学习的文本行检测网络模型,得到目标文本图像各个文本行的轮廓以及所述轮廓对应的文本中线;
计算单元,用于计算所述文本中线的长度与目标文本图像水平方向长度的比例,根据所述比例获取有效文本中线;
旋转单元,用于获取所述有效文本中线与目标文本图像水平方向的夹角,利用所述夹角旋转所述目标文本图像。
8.根据权利要求7所述的文本矫正装置,其特征在于,所述识别单元,包括:
创建子单元,用于创建并训练PseNet文本行检测网络模型;
输出子单元,用于将所述目标文本图像输入所述PseNet文本行检测网络模型,得到所述目标文本图像的文本行区域掩码;
轮廓获取子单元,用于利用所述文本行区域掩码得到所述轮廓;
文本中线获取子单元,用于利用所述PseNet文本行检测网络模型或所述轮廓确定每个文本行的文本中线。
9.根据权利要求7所述的文本矫正装置,其特征在于,所述计算单元,包括:
比例计算子单元,用于计算所述文本中线的长度与目标文本图像水平方向长度的比例;
第一判断子单元,用于在所述比例大于或等于预设阈值时,将所述比例大于或等于预设阈值的文本中线定义为有效文本中线;
第二判断子单元,用于如果所有的比例均小于预设阈值,则将所有的文本中线均作为有效文本中线。
10.根据权利要求9所述的文本矫正装置,其特征在于,所述比例计算子单元,包括:
第一孙单元,用于获取所述文本中线的第一像素点数以及目标文本图像水平方向的第二像素点数;
第二孙单元,用于将所述第一像素点数除以第二像素点数得到所述比例。
11.根据权利要求7-10任一项所述的文本矫正装置,其特征在于,所述旋转单元,包括:
拟合子单元,用于对所述有效文本中线进行线性拟合;
夹角确定子单元,用于确定所述线性拟合后的每条有效文本中线与目标文本图像水平方向的夹角;
平均夹角计算子单元,用于计算所有夹角的平均值,得到平均夹角。
12.根据权利要求11所述的文本矫正装置,其特征在于,所述旋转单元,还包括:
中心点确定子单元,用于确定所述目标文本图像的中心点;
图像旋转子单元,用于以所述中心点为旋转点,以所述平均夹角形成的旋转矩阵对所述目标文本图像进行旋转,得到矫正后的文本图像。
13.一种电子设备,其特征在于,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行权利要求1至6任一项所述的基于深度学习的文本矫正方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1至6任一项所述的基于深度学习的文本矫正方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010498269.2A CN111652205B (zh) | 2020-06-04 | 2020-06-04 | 基于深度学习的文本矫正方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010498269.2A CN111652205B (zh) | 2020-06-04 | 2020-06-04 | 基于深度学习的文本矫正方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111652205A true CN111652205A (zh) | 2020-09-11 |
CN111652205B CN111652205B (zh) | 2023-05-16 |
Family
ID=72347476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010498269.2A Active CN111652205B (zh) | 2020-06-04 | 2020-06-04 | 基于深度学习的文本矫正方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111652205B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528776A (zh) * | 2020-11-27 | 2021-03-19 | 京东数字科技控股股份有限公司 | 文本行校正方法和装置 |
CN113420762A (zh) * | 2021-07-01 | 2021-09-21 | 京东科技控股股份有限公司 | 一种图像处理方法、系统、电子设备及存储介质 |
CN115359065A (zh) * | 2022-10-24 | 2022-11-18 | 广州市玄武无线科技股份有限公司 | 一种排面图像的倾斜检测方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102782705A (zh) * | 2010-03-09 | 2012-11-14 | 微软公司 | 包括经历ocr处理的文本的图像的分辨率调整 |
CN109376658A (zh) * | 2018-10-26 | 2019-02-22 | 信雅达系统工程股份有限公司 | 一种基于深度学习的ocr方法 |
CN109829437A (zh) * | 2019-02-01 | 2019-05-31 | 北京旷视科技有限公司 | 图像处理方法、文本识别方法、装置和电子系统 |
CN110211048A (zh) * | 2019-05-28 | 2019-09-06 | 湖北华中电力科技开发有限责任公司 | 一种基于卷积神经网络的复杂档案图像倾斜矫正方法 |
CN110363199A (zh) * | 2019-07-16 | 2019-10-22 | 济南浪潮高新科技投资发展有限公司 | 基于深度学习的证件图像文本识别方法及系统 |
CN110363196A (zh) * | 2019-06-20 | 2019-10-22 | 吴晓东 | 一种倾斜文本的文字精准识别的方法 |
-
2020
- 2020-06-04 CN CN202010498269.2A patent/CN111652205B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102782705A (zh) * | 2010-03-09 | 2012-11-14 | 微软公司 | 包括经历ocr处理的文本的图像的分辨率调整 |
CN109376658A (zh) * | 2018-10-26 | 2019-02-22 | 信雅达系统工程股份有限公司 | 一种基于深度学习的ocr方法 |
CN109829437A (zh) * | 2019-02-01 | 2019-05-31 | 北京旷视科技有限公司 | 图像处理方法、文本识别方法、装置和电子系统 |
CN110211048A (zh) * | 2019-05-28 | 2019-09-06 | 湖北华中电力科技开发有限责任公司 | 一种基于卷积神经网络的复杂档案图像倾斜矫正方法 |
CN110363196A (zh) * | 2019-06-20 | 2019-10-22 | 吴晓东 | 一种倾斜文本的文字精准识别的方法 |
CN110363199A (zh) * | 2019-07-16 | 2019-10-22 | 济南浪潮高新科技投资发展有限公司 | 基于深度学习的证件图像文本识别方法及系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528776A (zh) * | 2020-11-27 | 2021-03-19 | 京东数字科技控股股份有限公司 | 文本行校正方法和装置 |
CN112528776B (zh) * | 2020-11-27 | 2024-04-09 | 京东科技控股股份有限公司 | 文本行校正方法和装置 |
CN113420762A (zh) * | 2021-07-01 | 2021-09-21 | 京东科技控股股份有限公司 | 一种图像处理方法、系统、电子设备及存储介质 |
CN113420762B (zh) * | 2021-07-01 | 2024-02-06 | 京东科技控股股份有限公司 | 一种图像处理方法、系统、电子设备及存储介质 |
CN115359065A (zh) * | 2022-10-24 | 2022-11-18 | 广州市玄武无线科技股份有限公司 | 一种排面图像的倾斜检测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111652205B (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111652205A (zh) | 基于深度学习的文本矫正方法、装置、设备和介质 | |
JP5972468B2 (ja) | 画像からのラベルの検出 | |
CN108830133B (zh) | 合同影像图片的识别方法、电子装置及可读存储介质 | |
CN111291629A (zh) | 图像中文本的识别方法、装置、计算机设备及计算机存储介质 | |
CN110659647A (zh) | 印章图像识别方法及装置、智能发票识别设备和存储介质 | |
WO2021147631A1 (zh) | 手写内容去除方法、手写内容去除装置、存储介质 | |
JP4738469B2 (ja) | 画像処理装置、画像処理プログラムおよび画像処理方法 | |
CN110647882A (zh) | 图像校正方法、装置、设备及存储介质 | |
CN112183038A (zh) | 一种表格识别套打方法、计算机设备及计算机可读存储介质 | |
CN103714327A (zh) | 一种图像方向校正方法及系统 | |
CN114283156B (zh) | 一种用于去除文档图像颜色及手写笔迹的方法及装置 | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN113903024A (zh) | 一种手写票据数值信息识别方法、系统、介质及装置 | |
TW202006597A (zh) | 影像處理系統、影像處理方法及程式產品 | |
CN112419207A (zh) | 一种图像矫正方法及装置、系统 | |
CN110210467B (zh) | 一种文本图像的公式定位方法、图像处理装置、存储介质 | |
WO2022082431A1 (en) | Systems and methods for extracting information from paper media based on depth information | |
EP3786844A1 (en) | Image processing system, image processing method, and program | |
CN111340040B (zh) | 一种纸张字符识别方法、装置、电子设备及存储介质 | |
Fan et al. | Skew detection in document images based on rectangular active contour | |
CN109635798B (zh) | 一种信息提取方法及装置 | |
CN115457585A (zh) | 作业批改的处理方法、装置、计算机设备及可读存储介质 | |
CN110852994B (zh) | 一种喷印卡片的视觉检测方法及其系统 | |
CN110782439B (zh) | 一种辅助检测图像标注质量的方法及装置 | |
CN114627457A (zh) | 一种票面信息识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |