CN115457559B

CN115457559B - 一种将文本及证照类图片智能摆正的方法、装置和设备

Info

Publication number: CN115457559B
Application number: CN202211005535.9A
Authority: CN
Inventors: 郭大勇; 张海龙; 兰永
Original assignee: Shanghai Tongban Information Service Co ltd
Current assignee: Shanghai Tongban Information Service Co ltd
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2024-01-16
Anticipated expiration: 2042-08-19
Also published as: CN115457559A

Abstract

本申请公开了一种将文本及证照类图片智能摆正的方法、装置和设备，所述方法包括：利用文本检测模型识别出原始图像的文本区域，并将文本区域转化为矩形文本框；按照第一预设规则重新排列每个矩形文本框的四个顶点的坐标顺序；按照第二预设规则找到一个代表性的矩形文本框，以其第一个点为中心计算出其长边逆时针旋转到与X轴平行所需的旋转角度A；在原始图像上将代表性的矩形文本框利用透视变换校正截取出一个矩形小图；判断截取出的矩形小图是0°还是180°，记作角度C；结合旋转角度A和角度C计算出原始图像的摆正角度K，K＝A+C，并旋转摆正。本申请实现了文本及证照类图片的智能摆正，提高了政务服务过程中材料治理的图片质量。

Description

一种将文本及证照类图片智能摆正的方法、装置和设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种将文本及证照类图片智能摆正的方法、装置和设备。

背景技术

目前，越来越多的场景需要对图片上的文字进行识别提取。在政务领域，光能识别出图片上的文字还不行，还需要能够将识别出来的文字进行结构化的排序输出。这个时候就需要识别出图片的旋转角度，并将其摆正。在材料治理中，需要将用户上传文本及证照类图片进行归档，这个也需要归档的图片是正向的。目前市面上有一些基于图像分类的方式识别文本类图片的方向，但是只能识别文件是正向，顺时针旋转过90度，顺时针旋转过180度，顺时针旋转过270度这四种情况，而且正确率不高，模型泛化能力很差，不能精确到度，在政务领域达不到落地要求。

因此，如何检测文本及证照类图片的旋转角度，并将图片摆正，以提高政务服务过程中材料治理的图片质量，以及辅助后续对图片进行OCR识别时文本的结构化排序输出，是本领域技术人员需要解决的问题。

发明内容

本发明的目的在于提供一种将文本及证照类图片智能摆正的方法、装置和设备，以解决上述技术背景中提出的问题。

为实现上述目的，本发明采用以下技术方案：

本申请第一个方面提供了一种将文本及证照类图片智能摆正的方法，包括：S1，利用文本检测模型识别出原始图像的文本区域，并将文本区域转化为矩形文本框；

S2，按照第一预设规则重新排列每个矩形文本框的四个顶点的坐标顺序；

S3，按照第二预设规则找到一个代表性的矩形文本框，以其第一个点为中心计算出该矩形文本框的长边逆时针旋转到与X轴平行所需要的旋转角度A；

S4，在原始图像上将找到的代表性的矩形文本框利用透视变换，截取出一个矩形小图，对透视变换后矩形小图进行长宽判断，如果高度像素大于宽度像素，则将矩形小图逆时针旋转90°；

S5，利用二分类图像方向判断器，判断步骤S4中得到的矩形小图是0°还是180°，记作角度C；

S6，结合旋转角度A和角度C，计算出原始图像最终的摆正角度K，K＝A+C，并旋转摆正。

优选地，步骤S1包括如下步骤：

采用图像分割模型DBnet，经过数据集准备、模型训练后，利用所述图像分割模型DBnet对原始图像进行预测，输出文本区域概率图，所述文本区域概率图即原始图像上每个像素点属于文本区域的概率；

使用第一预设阈值将概率图做二值化处理，得到文本区域的二值化图，即概率大于第一预设阈值的认为属于文本区域，否则为非文本区域；

计算每个文本连通区域的最小外接矩形，并对每个最小外接矩形放大预设倍数，使放大后的矩形框中文本区域；

计算所有矩形的面积，当面积小于第二预设阈值时，过滤掉该矩形，最后得到文本区域的矩形文本框。

优选地，步骤S2中，所述第一预设规则包括：

当文本处于正向时，按读取习惯从上到下从左到右的顺序对每个矩形文本框的四个点重新排序；

计算出四个点中纵坐标y最小的点，如果y最小的点有两个，那么横坐标x最小的那个点设定为第一个点，逆时针推导出剩下三个点的顺序。

优选地，步骤S3中，所述第二预设规则包括：

S31，过滤掉图片中的两种矩形文本框：一种是单字文本框，另一种是与图片方向不一致的水印文本框，具体包括如下步骤：

计算出所有矩形文本框长边的长度，即第一个点到第二个点的距离和第一个点到第四个点的距离，哪个距离长就以此作为该矩形文本框的长边长度，然后过滤掉所有长边长度小于均值的矩形文本框；

计算出剩下的每个矩形文本框的长边与X轴的夹角a，并按照正负误差在2度以内的进行归类；

S32，计算包含矩形文本框最多的类别的所有夹角a的均值，离均值最近的夹角a的矩形文本框就是要找的代表性的矩形文本框，如果是多个，再从这多个里面找出长边的长度离均值最近的矩形文本框。

优选地，步骤S3中，所述旋转角度A的计算方法包括如下步骤：

假设代表性的矩形文本框排序后的四个顶点的坐标依次是：point1(x1,y1)，point2(x2,y2)，point3(x3,y3)，point4(x4,y4)；

计算y＝y4-y1，x＝x4-x1；

采用atan2函数进行角度计算，该函数的值域为(-π,π]，具体公式如下：

将求出的atan2(y,x)转换为角度，求出旋转角度A的大小，即A＝atan2(y,x)×180÷π。

优选地，步骤S4中的所述透视变换，具体包括如下步骤：

透视变换采用如下变换公式：

其中，u，v代表原始图像坐标，w为原始图像的旋转角度，x，y为经过透视变换后的图片坐标，为变换矩阵；

变换后的x和y的表达式为：

优选地，步骤S5包括如下步骤：

采用小网络模型(例如MobileNet)作为二分类图像方向判断器；

将步骤S4中得到的矩形小图送到二分类图像方向判断器中，预测出角度C，角度C只有0°和180°两种可能。

优选地，所述步骤S6包括如下步骤：

设原始图像需要经过逆时针旋转K度进行摆正，那么K＝A+C；

对原始图像进行不裁剪逆时针旋转K度，新增像素点用白色补充；

对旋转后的图片，最外围的四个方向从外到内，如果整行或整列都是白色像素时进行剪除，当有一行或列出现非全白像素值时停止该方向的裁剪，得到最终的图片。

本申请第二个方面提供了一种将文本及证照类图片智能摆正的装置，包括：检测模块，用于利用文本检测模型识别出原始图像的文本区域，并将文本区域转化为矩形文本框；

坐标排序模块，用于按照第一预设规则重新排列每个矩形文本框的四个顶点的坐标顺序；

第一计算模块，用于按照第二预设规则找到一个代表性的矩形文本框，以其第一个点为中心计算出该矩形文本框的长边逆时针旋转到与X轴平行所需要的旋转角度A；

透视变换矫正模块，用于在原始图像上将找到的代表性的矩形文本框利用透视变换截取出一个矩形小图，并对透视变换后矩形小图进行长宽判断，如果高度像素大于宽度像素，则将矩形小图逆时针旋转90°；

第二计算模块，用于利用二分类图像方向判断器，判断所述透视变换矫正模块得到的矩形小图是0°还是180°，记作角度C；

摆正模块，用于结合旋转角度A和角度C，计算出原始图像最终的摆正角度K，K＝A+C，并旋转摆正。

本申请第三个方面提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述的一种将文本及证照类图片智能摆正的方法。

与现有技术相比，本发明的技术方案具有以下有益效果：

本申请用于检测文本及证照类图片的旋转角度，并将图片摆正，提高了政务服务过程中材料治理的图片质量，同时可以辅助后续对图片进行OCR识别时文本的结构化排序输出。

附图说明

构成本申请的一部分附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本发明一种将文本及证照类图片智能摆正的方法的实现流程示意图；

图2是本发明实施例提供的原始图像的示意图；

图3是本发明实施例提供的原始图像做二值化处理后得到的文本区域的二值化图的示例图；

图4是本发明实施例中将文本区域的二值化图的每个最小外接矩形放大一倍后形成的矩形文本框的示例图；

图5是本发明实施例中经过步骤S1处理后得到的文本区域的矩形文本框的示例图；

图6是本发明实施例的步骤S2中对矩形文本框的四个顶点按照第一规则进行重新排列的示例图；

图7是本发明实施例的步骤S3中查找出单字文本框和与图片方向不一致的水印文本框，以及找出代表性的矩形文本框的旋转角度A的示例图；

图8是本发明实施例的步骤S4中将找出的代表性的矩形文本框经过透视变换后得到一个矩形小图的示例图；

图9是本发明实施例中将文本及证照类图片智能摆正的整个处理过程的示例图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序，应该理解这样使用的数据在适当情况下可以互换。此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例

图1是本发明一种将文本及证照类图片智能摆正的方法的实现流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括如下步骤：

步骤S1：利用文本检测模型识别出原始图片的文本区域，并将文本区域转化为矩形文本框。具体如下：

S1.1，文本检测模型有很多，这里使用的是图像分割模型DBnet，经过数据集准备、模型训练后，就可以用图像分割模型DBnet对原始图像进行预测，该模型会输出文本区域概率图。文本区域概率图就是原始图像上每个像素点属于文本区域的概率。

S1.2，使用固定阈值0.3将本区域概率图做二值化处理，可以得到文本区域的二值化图，也就是概率大于0.3的认为属于文本区域，否则为非文本区域。如图2～3所示，图2为原始图像的示例图，图3是将文本区域概率图做二值化处理得到的文本区域的二值化图，其中，文本区域二值图中白色部分为模型识别出的文本区域。

S1.3，计算每个文本连通区域的最小外接矩形，并对每个最小外接矩形放大1倍，放大倍数由训练的模型决定。参阅图4所示，这里，图像分割模型DBnet预测的结果放大一倍可以正好框中文字区域。

S1.4、计算所有矩形的面积，当面积小于某阈值时，过滤掉。参阅图5中的P部分，部分文字区域可能出现识别遗漏的现象，可以通过模型训练进行优化。如图5，经过处理已经可以得到文本区域的矩形文本框。

步骤S2：制定第一规则，重新排列每个矩形文本框的四个顶点的坐标。具体如下：

S2.1，当文本处于正向时，按读取习惯从上到下从左到右的顺序对每个矩形文本框的四个顶点重新排序。

S2.2，计算出四个顶点中y最小的点，如果y最小的点有两个，那么x最小的那个点设定为第一个点，逆时针推导出剩下三个点的顺序。如图6所示，假设第一个点的坐标为points1＝(x0,y0)，然后逆时针推导出剩下三个点分别是points2，points3，points4。

步骤S3：按照第二规则找到一个代表性的矩形，以第一个点为中心计算出这个矩形的长边逆时针旋转到与X轴平行所需要的旋转角度A。具体如下：

S3.1，图片上的文本框有两种情况是需要过滤掉的，一种是单字文本框，另一种是与图片方向不一致的水印文本框。

S3.2，计算出所有文本框长边的长度，也就是第一个点到第二个点的距离和第一个点到第四个点的距离，哪个距离长就以此作为该文本框的长边长度。然后过滤掉所有长边长度小于均值的文本框。主要是过滤掉单字等小文本框，如图7中的M部分。

S3.3，再计算剩下的每个文本框的长边与X轴的夹角a，并按照正负误差在2度以内的进行归类。主要是过滤掉与图片方向不一的水印文本框，如图7中的N部分。

S3.4，计算包含文本框最多的类别的所有夹角a的均值，离均值最近的夹角a的文本框就是要找的代表性矩形，如果是多个，在从这几个里面找长边的长度离均值最近的矩形。

S3.5，以这个矩形第一个点为中心计算出这个矩形的长边逆时针旋转到与X轴平行所需要的旋转角度A，如图7所示的夹角A。

S3.6，角度计算公式采用atan2，该函数的值域为(-π,π]。如图7中的point1(x1,y1)和point4(x4,y4)所在的直线。计算y＝y4-y1，x＝x4-x1，因为每个矩形框的点是经过规则排过序的，y只能是大于等于0，y＝0时角度A＝0，y>0时atan2的取值范围是(0,π]。求出atan2后需要转换为角度，公式为A＝atan2(y,x)×180÷π，即求出旋转角度A的大小。

步骤S4：在原始图像上将上一步得到的矩形利用透视变换校正，截取出一个矩形小图。具体如下：

S4.1，透视变换是指利用透视中心、像点、目标点三点共线的条件，按透视旋转定律使承影面也就是透视面绕透视轴旋转某一角度，破坏原有的投影光线束，仍能保持乘影面上投影几何图形不变的变换。简言之就是将一个平面通过一个投影矩阵投影到指定平面上。

透视变换通用的变换公式如下：

变换后的x和y的表达式为：

S4.2，对透视变换后的矩形小图进行长宽判断，如果高度像素大于宽度像素就将矩形小图逆时针旋转90°，如图8所示。

步骤S5：训练一个二分类图像方向判断器，判断截取出的小图是0度还是180度。具体如下：

S5.1，这里只需要用一些小网络模型如MobileNet等就可以，只需要预测截取的文本小图片是0°还是180°的状态就行。

S5.2，步骤S4中得到的矩形小图送到二分类图像方向判断器中，预测出角度C，角度C只有0°和180°两种可能。

步骤S6：结合旋转角度A和角度C，计算出原始图像最终的摆正角度K，K＝A+C，并旋转摆正。

S6.1，设原图需要经过逆时针旋转K度可以摆正，那么K＝A+C。

6.2、对原始图像进行不裁剪逆时针旋转K度，新增像素点用白色补充。

6.3、对旋转后的图片，最外围的四个方向从外到内，如果整行或整列都是白色像素时进行剪除，当有一行或列出现非全白像素值时停止该方向的裁剪，得到最终的图片。

本实施例中将文本及证照类图片智能摆正的整个处理过程的逻辑图参阅图9所示。

另一方面，本申请还提供了一种电子设备，所述电子设备包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述的一种将文本及证照类图片智能摆正的方法的步骤。

综上所述，本申请公开了一种将文本及证照类图片智能摆正的方法、装置和设备，用于检测文本及证照类图片的旋转角度，并将图片摆正，提高了政务服务过程中材料治理的图片质量，同时可以辅助后续对图片进行OCR识别时文本的结构化排序输出。

以上对本发明的具体实施例进行了详细描述，但其只是作为范例，本发明并不限制于以上描述的具体实施例。对于本领域技术人员而言，任何对本发明进行的等同修改和替代也都在本发明的范畴之中。因此，在不脱离本发明的精神和范围下所作的均等变换和修改，都应涵盖在本发明的范围内。

Claims

1.一种将文本及证照类图片智能摆正的方法，其特征在于，包括：

S1，利用文本检测模型识别出原始图像的文本区域，并将文本区域转化为矩形文本框；

S6，结合旋转角度A和角度C，计算出原始图像最终的摆正角度K，K＝A+C，并旋转摆正；

其中，步骤S2中，所述第一预设规则包括：

计算出四个点中纵坐标y最小的点，如果y最小的点有两个，那么横坐标x最小的那个点设定为第一个点，逆时针推导出剩下三个点的顺序；

其中，步骤S3中，所述第二预设规则包括：

2.根据权利要求1所述的一种将文本及证照类图片智能摆正的方法，其特征在于，步骤S1包括如下步骤：

3.根据权利要求1所述的一种将文本及证照类图片智能摆正的方法，其特征在于，步骤S3中，所述旋转角度A的计算方法包括如下步骤：

计算y＝y4-y1，x＝x4-x1；

4.根据权利要求1所述的一种将文本及证照类图片智能摆正的方法，其特征在于，步骤S5包括如下步骤：

采用MobileNet网络模型作为二分类图像方向判断器；

5.根据权利要求1所述的一种将文本及证照类图片智能摆正的方法，其特征在于，所述步骤S6包括如下步骤：

设原始图像需要经过逆时针旋转K度进行摆正，那么K＝A+C；

6.一种将文本及证照类图片智能摆正的装置，其特征在于，包括：

检测模块，用于利用文本检测模型识别出原始图像的文本区域，并将文本区域转化为矩形文本框；

摆正模块，用于结合旋转角度A和角度C，计算出原始图像最终的摆正角度K，K＝A+C，并旋转摆正；

其中，所述第一预设规则包括：

其中，所述第二预设规则包括：

7.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1～5任一项所述的一种将文本及证照类图片智能摆正的方法。