CN115457559B - 一种将文本及证照类图片智能摆正的方法、装置和设备 - Google Patents
一种将文本及证照类图片智能摆正的方法、装置和设备 Download PDFInfo
- Publication number
- CN115457559B CN115457559B CN202211005535.9A CN202211005535A CN115457559B CN 115457559 B CN115457559 B CN 115457559B CN 202211005535 A CN202211005535 A CN 202211005535A CN 115457559 B CN115457559 B CN 115457559B
- Authority
- CN
- China
- Prior art keywords
- rectangular
- text
- text box
- calculating
- angle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000009466 transformation Effects 0.000 claims abstract description 25
- 238000001514 detection method Methods 0.000 claims abstract description 9
- 238000012937 correction Methods 0.000 claims abstract description 6
- 238000001914 filtration Methods 0.000 claims description 11
- 238000003709 image segmentation Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 239000000463 material Substances 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1463—Orientation detection or correction, e.g. rotation of multiples of 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/147—Determination of region of interest
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Character Input (AREA)
Abstract
本申请公开了一种将文本及证照类图片智能摆正的方法、装置和设备,所述方法包括:利用文本检测模型识别出原始图像的文本区域,并将文本区域转化为矩形文本框;按照第一预设规则重新排列每个矩形文本框的四个顶点的坐标顺序;按照第二预设规则找到一个代表性的矩形文本框,以其第一个点为中心计算出其长边逆时针旋转到与X轴平行所需的旋转角度A;在原始图像上将代表性的矩形文本框利用透视变换校正截取出一个矩形小图;判断截取出的矩形小图是0°还是180°,记作角度C;结合旋转角度A和角度C计算出原始图像的摆正角度K,K=A+C,并旋转摆正。本申请实现了文本及证照类图片的智能摆正,提高了政务服务过程中材料治理的图片质量。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种将文本及证照类图片智能摆正的方法、装置和设备。
背景技术
目前,越来越多的场景需要对图片上的文字进行识别提取。在政务领域,光能识别出图片上的文字还不行,还需要能够将识别出来的文字进行结构化的排序输出。这个时候就需要识别出图片的旋转角度,并将其摆正。在材料治理中,需要将用户上传文本及证照类图片进行归档,这个也需要归档的图片是正向的。目前市面上有一些基于图像分类的方式识别文本类图片的方向,但是只能识别文件是正向,顺时针旋转过90度,顺时针旋转过180度,顺时针旋转过270度这四种情况,而且正确率不高,模型泛化能力很差,不能精确到度,在政务领域达不到落地要求。
因此,如何检测文本及证照类图片的旋转角度,并将图片摆正,以提高政务服务过程中材料治理的图片质量,以及辅助后续对图片进行OCR识别时文本的结构化排序输出,是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种将文本及证照类图片智能摆正的方法、装置和设备,以解决上述技术背景中提出的问题。
为实现上述目的,本发明采用以下技术方案:
本申请第一个方面提供了一种将文本及证照类图片智能摆正的方法,包括:S1,利用文本检测模型识别出原始图像的文本区域,并将文本区域转化为矩形文本框;
S2,按照第一预设规则重新排列每个矩形文本框的四个顶点的坐标顺序;
S3,按照第二预设规则找到一个代表性的矩形文本框,以其第一个点为中心计算出该矩形文本框的长边逆时针旋转到与X轴平行所需要的旋转角度A;
S4,在原始图像上将找到的代表性的矩形文本框利用透视变换,截取出一个矩形小图,对透视变换后矩形小图进行长宽判断,如果高度像素大于宽度像素,则将矩形小图逆时针旋转90°;
S5,利用二分类图像方向判断器,判断步骤S4中得到的矩形小图是0°还是180°,记作角度C;
S6,结合旋转角度A和角度C,计算出原始图像最终的摆正角度K,K=A+C,并旋转摆正。
优选地,步骤S1包括如下步骤:
采用图像分割模型DBnet,经过数据集准备、模型训练后,利用所述图像分割模型DBnet对原始图像进行预测,输出文本区域概率图,所述文本区域概率图即原始图像上每个像素点属于文本区域的概率;
使用第一预设阈值将概率图做二值化处理,得到文本区域的二值化图,即概率大于第一预设阈值的认为属于文本区域,否则为非文本区域;
计算每个文本连通区域的最小外接矩形,并对每个最小外接矩形放大预设倍数,使放大后的矩形框中文本区域;
计算所有矩形的面积,当面积小于第二预设阈值时,过滤掉该矩形,最后得到文本区域的矩形文本框。
优选地,步骤S2中,所述第一预设规则包括:
当文本处于正向时,按读取习惯从上到下从左到右的顺序对每个矩形文本框的四个点重新排序;
计算出四个点中纵坐标y最小的点,如果y最小的点有两个,那么横坐标x最小的那个点设定为第一个点,逆时针推导出剩下三个点的顺序。
优选地,步骤S3中,所述第二预设规则包括:
S31,过滤掉图片中的两种矩形文本框:一种是单字文本框,另一种是与图片方向不一致的水印文本框,具体包括如下步骤:
计算出所有矩形文本框长边的长度,即第一个点到第二个点的距离和第一个点到第四个点的距离,哪个距离长就以此作为该矩形文本框的长边长度,然后过滤掉所有长边长度小于均值的矩形文本框;
计算出剩下的每个矩形文本框的长边与X轴的夹角a,并按照正负误差在2度以内的进行归类;
S32,计算包含矩形文本框最多的类别的所有夹角a的均值,离均值最近的夹角a的矩形文本框就是要找的代表性的矩形文本框,如果是多个,再从这多个里面找出长边的长度离均值最近的矩形文本框。
优选地,步骤S3中,所述旋转角度A的计算方法包括如下步骤:
假设代表性的矩形文本框排序后的四个顶点的坐标依次是:point1(x1,y1),point2(x2,y2),point3(x3,y3),point4(x4,y4);
计算y=y4-y1,x=x4-x1;
采用atan2函数进行角度计算,该函数的值域为(-π,π],具体公式如下:
将求出的atan2(y,x)转换为角度,求出旋转角度A的大小,即A=atan2(y,x)×180÷π。
优选地,步骤S4中的所述透视变换,具体包括如下步骤:
透视变换采用如下变换公式:
其中,u,v代表原始图像坐标,w为原始图像的旋转角度,x,y为经过透视变换后的图片坐标,为变换矩阵;
变换后的x和y的表达式为:
优选地,步骤S5包括如下步骤:
采用小网络模型(例如MobileNet)作为二分类图像方向判断器;
将步骤S4中得到的矩形小图送到二分类图像方向判断器中,预测出角度C,角度C只有0°和180°两种可能。
优选地,所述步骤S6包括如下步骤:
设原始图像需要经过逆时针旋转K度进行摆正,那么K=A+C;
对原始图像进行不裁剪逆时针旋转K度,新增像素点用白色补充;
对旋转后的图片,最外围的四个方向从外到内,如果整行或整列都是白色像素时进行剪除,当有一行或列出现非全白像素值时停止该方向的裁剪,得到最终的图片。
本申请第二个方面提供了一种将文本及证照类图片智能摆正的装置,包括:检测模块,用于利用文本检测模型识别出原始图像的文本区域,并将文本区域转化为矩形文本框;
坐标排序模块,用于按照第一预设规则重新排列每个矩形文本框的四个顶点的坐标顺序;
第一计算模块,用于按照第二预设规则找到一个代表性的矩形文本框,以其第一个点为中心计算出该矩形文本框的长边逆时针旋转到与X轴平行所需要的旋转角度A;
透视变换矫正模块,用于在原始图像上将找到的代表性的矩形文本框利用透视变换截取出一个矩形小图,并对透视变换后矩形小图进行长宽判断,如果高度像素大于宽度像素,则将矩形小图逆时针旋转90°;
第二计算模块,用于利用二分类图像方向判断器,判断所述透视变换矫正模块得到的矩形小图是0°还是180°,记作角度C;
摆正模块,用于结合旋转角度A和角度C,计算出原始图像最终的摆正角度K,K=A+C,并旋转摆正。
本申请第三个方面提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述的一种将文本及证照类图片智能摆正的方法。
与现有技术相比,本发明的技术方案具有以下有益效果:
本申请用于检测文本及证照类图片的旋转角度,并将图片摆正,提高了政务服务过程中材料治理的图片质量,同时可以辅助后续对图片进行OCR识别时文本的结构化排序输出。
附图说明
构成本申请的一部分附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本发明一种将文本及证照类图片智能摆正的方法的实现流程示意图;
图2是本发明实施例提供的原始图像的示意图;
图3是本发明实施例提供的原始图像做二值化处理后得到的文本区域的二值化图的示例图;
图4是本发明实施例中将文本区域的二值化图的每个最小外接矩形放大一倍后形成的矩形文本框的示例图;
图5是本发明实施例中经过步骤S1处理后得到的文本区域的矩形文本框的示例图;
图6是本发明实施例的步骤S2中对矩形文本框的四个顶点按照第一规则进行重新排列的示例图;
图7是本发明实施例的步骤S3中查找出单字文本框和与图片方向不一致的水印文本框,以及找出代表性的矩形文本框的旋转角度A的示例图;
图8是本发明实施例的步骤S4中将找出的代表性的矩形文本框经过透视变换后得到一个矩形小图的示例图;
图9是本发明实施例中将文本及证照类图片智能摆正的整个处理过程的示例图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序,应该理解这样使用的数据在适当情况下可以互换。此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例
图1是本发明一种将文本及证照类图片智能摆正的方法的实现流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括如下步骤:
步骤S1:利用文本检测模型识别出原始图片的文本区域,并将文本区域转化为矩形文本框。具体如下:
S1.1,文本检测模型有很多,这里使用的是图像分割模型DBnet,经过数据集准备、模型训练后,就可以用图像分割模型DBnet对原始图像进行预测,该模型会输出文本区域概率图。文本区域概率图就是原始图像上每个像素点属于文本区域的概率。
S1.2,使用固定阈值0.3将本区域概率图做二值化处理,可以得到文本区域的二值化图,也就是概率大于0.3的认为属于文本区域,否则为非文本区域。如图2~3所示,图2为原始图像的示例图,图3是将文本区域概率图做二值化处理得到的文本区域的二值化图,其中,文本区域二值图中白色部分为模型识别出的文本区域。
S1.3,计算每个文本连通区域的最小外接矩形,并对每个最小外接矩形放大1倍,放大倍数由训练的模型决定。参阅图4所示,这里,图像分割模型DBnet预测的结果放大一倍可以正好框中文字区域。
S1.4、计算所有矩形的面积,当面积小于某阈值时,过滤掉。参阅图5中的P部分,部分文字区域可能出现识别遗漏的现象,可以通过模型训练进行优化。如图5,经过处理已经可以得到文本区域的矩形文本框。
步骤S2:制定第一规则,重新排列每个矩形文本框的四个顶点的坐标。具体如下:
S2.1,当文本处于正向时,按读取习惯从上到下从左到右的顺序对每个矩形文本框的四个顶点重新排序。
S2.2,计算出四个顶点中y最小的点,如果y最小的点有两个,那么x最小的那个点设定为第一个点,逆时针推导出剩下三个点的顺序。如图6所示,假设第一个点的坐标为points1=(x0,y0),然后逆时针推导出剩下三个点分别是points2,points3,points4。
步骤S3:按照第二规则找到一个代表性的矩形,以第一个点为中心计算出这个矩形的长边逆时针旋转到与X轴平行所需要的旋转角度A。具体如下:
S3.1,图片上的文本框有两种情况是需要过滤掉的,一种是单字文本框,另一种是与图片方向不一致的水印文本框。
S3.2,计算出所有文本框长边的长度,也就是第一个点到第二个点的距离和第一个点到第四个点的距离,哪个距离长就以此作为该文本框的长边长度。然后过滤掉所有长边长度小于均值的文本框。主要是过滤掉单字等小文本框,如图7中的M部分。
S3.3,再计算剩下的每个文本框的长边与X轴的夹角a,并按照正负误差在2度以内的进行归类。主要是过滤掉与图片方向不一的水印文本框,如图7中的N部分。
S3.4,计算包含文本框最多的类别的所有夹角a的均值,离均值最近的夹角a的文本框就是要找的代表性矩形,如果是多个,在从这几个里面找长边的长度离均值最近的矩形。
S3.5,以这个矩形第一个点为中心计算出这个矩形的长边逆时针旋转到与X轴平行所需要的旋转角度A,如图7所示的夹角A。
S3.6,角度计算公式采用atan2,该函数的值域为(-π,π]。如图7中的point1(x1,y1)和point4(x4,y4)所在的直线。计算y=y4-y1,x=x4-x1,因为每个矩形框的点是经过规则排过序的,y只能是大于等于0,y=0时角度A=0,y>0时atan2的取值范围是(0,π]。求出atan2后需要转换为角度,公式为A=atan2(y,x)×180÷π,即求出旋转角度A的大小。
步骤S4:在原始图像上将上一步得到的矩形利用透视变换校正,截取出一个矩形小图。具体如下:
S4.1,透视变换是指利用透视中心、像点、目标点三点共线的条件,按透视旋转定律使承影面也就是透视面绕透视轴旋转某一角度,破坏原有的投影光线束,仍能保持乘影面上投影几何图形不变的变换。简言之就是将一个平面通过一个投影矩阵投影到指定平面上。
透视变换通用的变换公式如下:
其中,u,v代表原始图像坐标,w为原始图像的旋转角度,x,y为经过透视变换后的图片坐标,为变换矩阵;
变换后的x和y的表达式为:
S4.2,对透视变换后的矩形小图进行长宽判断,如果高度像素大于宽度像素就将矩形小图逆时针旋转90°,如图8所示。
步骤S5:训练一个二分类图像方向判断器,判断截取出的小图是0度还是180度。具体如下:
S5.1,这里只需要用一些小网络模型如MobileNet等就可以,只需要预测截取的文本小图片是0°还是180°的状态就行。
S5.2,步骤S4中得到的矩形小图送到二分类图像方向判断器中,预测出角度C,角度C只有0°和180°两种可能。
步骤S6:结合旋转角度A和角度C,计算出原始图像最终的摆正角度K,K=A+C,并旋转摆正。
S6.1,设原图需要经过逆时针旋转K度可以摆正,那么K=A+C。
6.2、对原始图像进行不裁剪逆时针旋转K度,新增像素点用白色补充。
6.3、对旋转后的图片,最外围的四个方向从外到内,如果整行或整列都是白色像素时进行剪除,当有一行或列出现非全白像素值时停止该方向的裁剪,得到最终的图片。
本实施例中将文本及证照类图片智能摆正的整个处理过程的逻辑图参阅图9所示。
另一方面,本申请还提供了一种电子设备,所述电子设备包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述的一种将文本及证照类图片智能摆正的方法的步骤。
综上所述,本申请公开了一种将文本及证照类图片智能摆正的方法、装置和设备,用于检测文本及证照类图片的旋转角度,并将图片摆正,提高了政务服务过程中材料治理的图片质量,同时可以辅助后续对图片进行OCR识别时文本的结构化排序输出。
以上对本发明的具体实施例进行了详细描述,但其只是作为范例,本发明并不限制于以上描述的具体实施例。对于本领域技术人员而言,任何对本发明进行的等同修改和替代也都在本发明的范畴之中。因此,在不脱离本发明的精神和范围下所作的均等变换和修改,都应涵盖在本发明的范围内。
Claims (7)
1.一种将文本及证照类图片智能摆正的方法,其特征在于,包括:
S1,利用文本检测模型识别出原始图像的文本区域,并将文本区域转化为矩形文本框;
S2,按照第一预设规则重新排列每个矩形文本框的四个顶点的坐标顺序;
S3,按照第二预设规则找到一个代表性的矩形文本框,以其第一个点为中心计算出该矩形文本框的长边逆时针旋转到与X轴平行所需要的旋转角度A;
S4,在原始图像上将找到的代表性的矩形文本框利用透视变换,截取出一个矩形小图,对透视变换后矩形小图进行长宽判断,如果高度像素大于宽度像素,则将矩形小图逆时针旋转90°;
S5,利用二分类图像方向判断器,判断步骤S4中得到的矩形小图是0°还是180°,记作角度C;
S6,结合旋转角度A和角度C,计算出原始图像最终的摆正角度K,K=A+C,并旋转摆正;
其中,步骤S2中,所述第一预设规则包括:
当文本处于正向时,按读取习惯从上到下从左到右的顺序对每个矩形文本框的四个点重新排序;
计算出四个点中纵坐标y最小的点,如果y最小的点有两个,那么横坐标x最小的那个点设定为第一个点,逆时针推导出剩下三个点的顺序;
其中,步骤S3中,所述第二预设规则包括:
S31,过滤掉图片中的两种矩形文本框:一种是单字文本框,另一种是与图片方向不一致的水印文本框,具体包括如下步骤:
计算出所有矩形文本框长边的长度,即第一个点到第二个点的距离和第一个点到第四个点的距离,哪个距离长就以此作为该矩形文本框的长边长度,然后过滤掉所有长边长度小于均值的矩形文本框;
计算出剩下的每个矩形文本框的长边与X轴的夹角a,并按照正负误差在2度以内的进行归类;
S32,计算包含矩形文本框最多的类别的所有夹角a的均值,离均值最近的夹角a的矩形文本框就是要找的代表性的矩形文本框,如果是多个,再从这多个里面找出长边的长度离均值最近的矩形文本框。
2.根据权利要求1所述的一种将文本及证照类图片智能摆正的方法,其特征在于,步骤S1包括如下步骤:
采用图像分割模型DBnet,经过数据集准备、模型训练后,利用所述图像分割模型DBnet对原始图像进行预测,输出文本区域概率图,所述文本区域概率图即原始图像上每个像素点属于文本区域的概率;
使用第一预设阈值将概率图做二值化处理,得到文本区域的二值化图,即概率大于第一预设阈值的认为属于文本区域,否则为非文本区域;
计算每个文本连通区域的最小外接矩形,并对每个最小外接矩形放大预设倍数,使放大后的矩形框中文本区域;
计算所有矩形的面积,当面积小于第二预设阈值时,过滤掉该矩形,最后得到文本区域的矩形文本框。
3.根据权利要求1所述的一种将文本及证照类图片智能摆正的方法,其特征在于,步骤S3中,所述旋转角度A的计算方法包括如下步骤:
假设代表性的矩形文本框排序后的四个顶点的坐标依次是:point1(x1,y1),point2(x2,y2),point3(x3,y3),point4(x4,y4);
计算y=y4-y1,x=x4-x1;
采用atan2函数进行角度计算,该函数的值域为(-π,π],具体公式如下:
将求出的atan2(y,x)转换为角度,求出旋转角度A的大小,即A=atan2(y,x)×180÷π。
4.根据权利要求1所述的一种将文本及证照类图片智能摆正的方法,其特征在于,步骤S5包括如下步骤:
采用MobileNet网络模型作为二分类图像方向判断器;
将步骤S4中得到的矩形小图送到二分类图像方向判断器中,预测出角度C,角度C只有0°和180°两种可能。
5.根据权利要求1所述的一种将文本及证照类图片智能摆正的方法,其特征在于,所述步骤S6包括如下步骤:
设原始图像需要经过逆时针旋转K度进行摆正,那么K=A+C;
对原始图像进行不裁剪逆时针旋转K度,新增像素点用白色补充;
对旋转后的图片,最外围的四个方向从外到内,如果整行或整列都是白色像素时进行剪除,当有一行或列出现非全白像素值时停止该方向的裁剪,得到最终的图片。
6.一种将文本及证照类图片智能摆正的装置,其特征在于,包括:
检测模块,用于利用文本检测模型识别出原始图像的文本区域,并将文本区域转化为矩形文本框;
坐标排序模块,用于按照第一预设规则重新排列每个矩形文本框的四个顶点的坐标顺序;
第一计算模块,用于按照第二预设规则找到一个代表性的矩形文本框,以其第一个点为中心计算出该矩形文本框的长边逆时针旋转到与X轴平行所需要的旋转角度A;
透视变换矫正模块,用于在原始图像上将找到的代表性的矩形文本框利用透视变换截取出一个矩形小图,并对透视变换后矩形小图进行长宽判断,如果高度像素大于宽度像素,则将矩形小图逆时针旋转90°;
第二计算模块,用于利用二分类图像方向判断器,判断所述透视变换矫正模块得到的矩形小图是0°还是180°,记作角度C;
摆正模块,用于结合旋转角度A和角度C,计算出原始图像最终的摆正角度K,K=A+C,并旋转摆正;
其中,所述第一预设规则包括:
当文本处于正向时,按读取习惯从上到下从左到右的顺序对每个矩形文本框的四个点重新排序;
计算出四个点中纵坐标y最小的点,如果y最小的点有两个,那么横坐标x最小的那个点设定为第一个点,逆时针推导出剩下三个点的顺序;
其中,所述第二预设规则包括:
S31,过滤掉图片中的两种矩形文本框:一种是单字文本框,另一种是与图片方向不一致的水印文本框,具体包括如下步骤:
计算出所有矩形文本框长边的长度,即第一个点到第二个点的距离和第一个点到第四个点的距离,哪个距离长就以此作为该矩形文本框的长边长度,然后过滤掉所有长边长度小于均值的矩形文本框;
计算出剩下的每个矩形文本框的长边与X轴的夹角a,并按照正负误差在2度以内的进行归类;
S32,计算包含矩形文本框最多的类别的所有夹角a的均值,离均值最近的夹角a的矩形文本框就是要找的代表性的矩形文本框,如果是多个,再从这多个里面找出长边的长度离均值最近的矩形文本框。
7.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1~5任一项所述的一种将文本及证照类图片智能摆正的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211005535.9A CN115457559B (zh) | 2022-08-19 | 2022-08-19 | 一种将文本及证照类图片智能摆正的方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211005535.9A CN115457559B (zh) | 2022-08-19 | 2022-08-19 | 一种将文本及证照类图片智能摆正的方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115457559A CN115457559A (zh) | 2022-12-09 |
CN115457559B true CN115457559B (zh) | 2024-01-16 |
Family
ID=84297864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211005535.9A Active CN115457559B (zh) | 2022-08-19 | 2022-08-19 | 一种将文本及证照类图片智能摆正的方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115457559B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116843626A (zh) * | 2023-06-08 | 2023-10-03 | 江苏苏港智能装备产业创新中心有限公司 | 一种基于多特征融合的机器视觉钢丝绳表面缺陷检测方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170006014A (ko) * | 2015-07-07 | 2017-01-17 | 엘지전자 주식회사 | 이동단말기 및 그 제어방법 |
CN110866871A (zh) * | 2019-11-15 | 2020-03-06 | 深圳市华云中盛科技股份有限公司 | 文本图像矫正方法、装置、计算机设备及存储介质 |
CN111260569A (zh) * | 2020-01-10 | 2020-06-09 | 百度在线网络技术(北京)有限公司 | 图像倾斜校正的方法、装置、电子设备和存储介质 |
CN111768344A (zh) * | 2020-05-12 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 身份证正面图像的校正方法、装置、设备及存储介质 |
CN111768346A (zh) * | 2020-05-12 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 身份证背面图像的校正方法、装置、设备及存储介质 |
CN111768345A (zh) * | 2020-05-12 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 身份证背面图像的校正方法、装置、设备及存储介质 |
CN111860527A (zh) * | 2019-10-24 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 图像校正方法、图像校正装置、计算机设备及存储介质 |
WO2020223859A1 (zh) * | 2019-05-05 | 2020-11-12 | 华为技术有限公司 | 一种检测倾斜文字的方法、装置及设备 |
CN112348815A (zh) * | 2021-01-07 | 2021-02-09 | 新东方教育科技集团有限公司 | 图像处理方法、图像处理装置以及非瞬时性存储介质 |
CN113627428A (zh) * | 2021-08-11 | 2021-11-09 | Oppo广东移动通信有限公司 | 文档图像矫正方法、装置、存储介质及智能终端设备 |
CN113936288A (zh) * | 2021-11-01 | 2022-01-14 | 阳光保险集团股份有限公司 | 倾斜文本方向分类方法、装置、终端设备和可读存储介质 |
CN114140794A (zh) * | 2021-11-26 | 2022-03-04 | 北京比特易湃信息技术有限公司 | 一种基于ocr的通用图像校正方法 |
CN114220108A (zh) * | 2021-12-20 | 2022-03-22 | 盛视科技股份有限公司 | 自然场景的文本识别方法、可读存储介质及文本识别装置 |
CN114267046A (zh) * | 2021-12-31 | 2022-04-01 | 上海合合信息科技股份有限公司 | 一种文档图像的方向校正方法与装置 |
WO2022121039A1 (zh) * | 2020-12-10 | 2022-06-16 | 广州广电运通金融电子股份有限公司 | 银行卡倾斜矫正检测方法、装置、可读存储介质和终端 |
-
2022
- 2022-08-19 CN CN202211005535.9A patent/CN115457559B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170006014A (ko) * | 2015-07-07 | 2017-01-17 | 엘지전자 주식회사 | 이동단말기 및 그 제어방법 |
CN113785305A (zh) * | 2019-05-05 | 2021-12-10 | 华为技术有限公司 | 一种检测倾斜文字的方法、装置及设备 |
WO2020223859A1 (zh) * | 2019-05-05 | 2020-11-12 | 华为技术有限公司 | 一种检测倾斜文字的方法、装置及设备 |
CN111860527A (zh) * | 2019-10-24 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 图像校正方法、图像校正装置、计算机设备及存储介质 |
CN110866871A (zh) * | 2019-11-15 | 2020-03-06 | 深圳市华云中盛科技股份有限公司 | 文本图像矫正方法、装置、计算机设备及存储介质 |
CN111260569A (zh) * | 2020-01-10 | 2020-06-09 | 百度在线网络技术(北京)有限公司 | 图像倾斜校正的方法、装置、电子设备和存储介质 |
CN111768344A (zh) * | 2020-05-12 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 身份证正面图像的校正方法、装置、设备及存储介质 |
CN111768346A (zh) * | 2020-05-12 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 身份证背面图像的校正方法、装置、设备及存储介质 |
CN111768345A (zh) * | 2020-05-12 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 身份证背面图像的校正方法、装置、设备及存储介质 |
WO2022121039A1 (zh) * | 2020-12-10 | 2022-06-16 | 广州广电运通金融电子股份有限公司 | 银行卡倾斜矫正检测方法、装置、可读存储介质和终端 |
CN112348815A (zh) * | 2021-01-07 | 2021-02-09 | 新东方教育科技集团有限公司 | 图像处理方法、图像处理装置以及非瞬时性存储介质 |
CN113627428A (zh) * | 2021-08-11 | 2021-11-09 | Oppo广东移动通信有限公司 | 文档图像矫正方法、装置、存储介质及智能终端设备 |
CN113936288A (zh) * | 2021-11-01 | 2022-01-14 | 阳光保险集团股份有限公司 | 倾斜文本方向分类方法、装置、终端设备和可读存储介质 |
CN114140794A (zh) * | 2021-11-26 | 2022-03-04 | 北京比特易湃信息技术有限公司 | 一种基于ocr的通用图像校正方法 |
CN114220108A (zh) * | 2021-12-20 | 2022-03-22 | 盛视科技股份有限公司 | 自然场景的文本识别方法、可读存储介质及文本识别装置 |
CN114267046A (zh) * | 2021-12-31 | 2022-04-01 | 上海合合信息科技股份有限公司 | 一种文档图像的方向校正方法与装置 |
Non-Patent Citations (3)
Title |
---|
S.S.C. Wu.Digital image transformation and rectification of spacecraft and radar images.Photogrammetria.1985,第40卷(第2期),第119-134页. * |
张再银 ; 童立靖 ; 湛健 ; 沈冲.基于文本域分割和文本行检测的扭曲文档图像校正.电脑与信息技术.2015,(第1期),第17-19页. * |
田文利.基于霍夫直线检测与二维透视变换的图像校正恢复算法.电子测量技术.2017,(第9期),第135-138页. * |
Also Published As
Publication number | Publication date |
---|---|
CN115457559A (zh) | 2022-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814722B (zh) | 一种图像中的表格识别方法、装置、电子设备及存储介质 | |
CN110414507B (zh) | 车牌识别方法、装置、计算机设备和存储介质 | |
US11164027B2 (en) | Deep learning based license plate identification method, device, equipment, and storage medium | |
CN108985137B (zh) | 一种车牌识别方法、装置及系统 | |
CN110210400B (zh) | 一种表格文件检测方法及设备 | |
CN111353961B (zh) | 一种文档曲面校正方法及装置 | |
JPH08241411A (ja) | 文書画像を評価するシステムおよびその方法 | |
CN110210297B (zh) | 报关单图像中文字定位与提取的方法 | |
CN115457565A (zh) | 一种ocr文字识别方法、电子设备及存储介质 | |
WO2021051527A1 (zh) | 基于图像分割的文字定位方法、装置、设备及存储介质 | |
CN115457559B (zh) | 一种将文本及证照类图片智能摆正的方法、装置和设备 | |
CN113971809A (zh) | 一种基于深度学习的文本识别方法、设备及存储介质 | |
CN112541504A (zh) | 一种针对文本中单个字符目标的检测方法 | |
CN110288040B (zh) | 一种基于拓扑验证的图像相似评判方法及设备 | |
CN111291752A (zh) | 一种发票识别方法及设备、介质 | |
CN111968115B (zh) | 基于栅格化图像处理方法的骨科耗材检测方法及系统 | |
CN112036294B (zh) | 一种纸质表格结构自动识别的方法及装置 | |
CN112053407B (zh) | 一种交通执法影像中基于ai技术的车道线自动检测方法 | |
CN112418210B (zh) | 一种杆塔巡检信息智能分类方法 | |
JP3303246B2 (ja) | 画像処理装置 | |
CN114821582A (zh) | 基于深度学习的ocr识别方法 | |
CN113159031A (zh) | 一种手写文本检测方法、装置及存储介质 | |
CN110738268A (zh) | 一种基于sift和ddis的智能立体仓库货物自动识别方法 | |
US11900643B2 (en) | Object detection method and object detection system | |
CN112825141B (zh) | 识别文本的方法、装置、识别设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 200435 11th Floor, Building 27, Lane 99, Shouyang Road, Jing'an District, Shanghai Applicant after: Shanghai Tongban Information Service Co.,Ltd. Address before: No. 11, Lane 100, Zhengtong Road, Yangpu District, Shanghai 200082 (centralized registration place) Applicant before: Shanghai Tongban Information Service Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |