CN111402168A

CN111402168A - 图像目标矫正方法及装置、终端、存储介质

Info

Publication number: CN111402168A
Application number: CN202010198231.3A
Authority: CN
Inventors: 陈利军; 邱君华; 李宏宇; 李晓林; 朱帆
Original assignee: Tongdun Holdings Co Ltd
Current assignee: Tongdun Holdings Co Ltd
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2020-07-10
Anticipated expiration: 2040-03-19
Also published as: CN111402168B

Abstract

本发明公开一种图像目标矫正方法及装置、终端、存储介质，其中方法主要包括：采用图像分类器对待矫正目标进行粗粒度的方向矫正；基于图像分割算法获取方向矫正后的多边形目标区域；根据多边形目标区域的边缘点确定多边形的最佳顶点；根据最佳顶点对目标进行仿射变换或透视变换，生成矫正后的图像。采用本发明，通过粗粒度的方向矫正结合基于图像分割的细粒度矫正，在提高矫正效果的基础上可以提高矫正模型的泛化能力。

Description

图像目标矫正方法及装置、终端、存储介质

技术领域

本发明涉及图像识别技术领域，尤其涉及一种图像目标矫正方法及装置、终端、存储介质。

背景技术

图像识别技术已经非常成熟，在工业检测、安防、金融、电子政务等应用场景中取得了显著的效果。然而，在诸如身份证识别、社保卡识别、驾驶证识别、发票识别等场景中，对于图像的质量有一定的要求。但由于用户采集图像条件的限制，造成图像目标尺寸的大小以及几何形状发生变化，这些变化严重影响到算法对目标的识别的效果。因而，在这类场景中，常需要对图像识别的目标进行提取和矫正。目前，对于多边形目标的矫正方法，主要是通过模板匹配和关键部位的目标检测方法(如社保卡证件的四个角检测)。这类方法获取的目标区域和姿态信息有限，在复杂背景下容易出现误检或漏检，对目标的提取和矫正效果并不理想。

发明内容

本发明实施例提供一种图像目标矫正方法及装置、终端、存储介质，通过粗粒度的方向矫正结合基于图像分割的细粒度矫正，在提高矫正效果的基础上可以提高矫正模型的泛化能力。

本发明实施例第一方面提供了一种图像目标矫正方法，可包括：

采用图像分类器对待矫正目标进行粗粒度的方向矫正；

基于图像分割算法获取方向矫正后的多边形目标区域；

根据多边形目标区域的边缘点确定多边形的最佳顶点；

根据最佳顶点对目标进行仿射变换或透视变换，生成矫正后的图像。

进一步的，根据多边形目标区域的边缘点确定多边形的最佳顶点，包括：

基于预设选点方法确定多边形目标区域的各边缘点对应的两临近点；

根据两临近点计算对应的边缘点的置信度；

根据置信度滤除相同或相近的边缘点，得到多边形的最佳顶点。

进一步的，多边形目标区域的任一边缘点为F，F对应的两临近点为A和B；预设选点方法对应的选点规则为d/2<＝|FA|<d，d/2<＝|FB|<d，其中d为先验参数。

进一步的，d为多边形最短边的边长。

进一步的，根据两临近点计算对应的边缘点的置信度，包括：

根据边缘点与两临近点分别组成的边之间的夹角计算边缘点的置信度。

进一步的，多边形的两个边FA和FB之间的夹角为α，边缘点F的置信度为(cosα+1)/2。

本发明实施例第二方面提供了一种图像目标矫正装置，可包括：

方向矫正模块，用于采用图像分类器对待矫正目标进行粗粒度的方向矫正；

图像分割模块，用于基于图像分割算法获取方向矫正后的多边形目标区域；

最佳顶点确定模块，用于根据多边形目标区域的边缘点确定多边形的最佳顶点；

矫正变换模块，用于根据最佳顶点对目标进行仿射变换或透视变换，生成矫正后的图像。

进一步的，最佳顶点确定模块，包括：

临近点确定单元，用于基于预设选点方法确定多边形目标区域的各边缘点对应的两临近点；

置信度计算单元，用于根据两临近点计算对应的边缘点的置信度；

最佳顶点确定单元，用于根据置信度滤除相同或相近的边缘点，得到多边形的最佳顶点。

进一步的，d为多边形最短边的边长。

进一步的，最佳顶点确定单元具体用于根据边缘点与两临近点分别组成的边之间的夹角计算边缘点的置信度。

本发明实施例第三方面提供了一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行以下步骤：

采用图像分类器对待矫正目标进行粗粒度的方向矫正；

基于图像分割算法获取方向矫正后的多边形目标区域；

根据所述多边形目标区域的边缘点确定多边形的最佳顶点；

根据所述最佳顶点对目标进行仿射变换或透视变换，生成矫正后的图像。

本发明实施例第四方面提供了一种终端，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行以下步骤：

采用图像分类器对待矫正目标进行粗粒度的方向矫正；

基于图像分割算法获取方向矫正后的多边形目标区域；

根据所述多边形目标区域的边缘点确定多边形的最佳顶点；

本发明的有益效果：在图像目标矫正的过程中，首先采用基于图像分类进行粗粒度的方向矫正，在采用图像分割技术对矫正目标进行精细的定位，通过粗细结合的两级矫正方式提高了矫正模型的泛化能力，使其适应场景更广；同时在细粒度矫正时通过寻找最佳顶点的方式使确定的目标轮廓更加精确，提高了目标矫正的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种图像目标矫正方法的流程示意图；

图2是本发明实施例提供的多边形顶点检测示意图

图3-图7是本发明实施例提供的社保卡OCR识别的各过程中社保卡证件的图片；

图8是本发明实施例提供的一种图像目标矫正装置的结构示意图；

图9是本发明实施例提供的最佳顶点确定模块的结构示意图；

图10是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明实施例涉及的终端可以是大型计算机、PC机、平板电脑、掌上电脑以及移动互联网设备(MID)等其他具备数据处理能力的终端设备。

如图1所示，在本申请的第一个实施例中，图像目标矫正方法至少包括以下步骤：

S101，采用图像分类器对待矫正目标进行粗粒度的方向矫正。

具体实现中，装置可以采用VGG16、ResNet、DenseNet等深度学习图像分类器或者传统算法的图像分类器，对待矫正目标进行主方向的矫正，例如，目标的上、下、左、右的朝向。

需要说明的是，针对目标的方向矫正属于粗粒度的矫正方式，通过粗粒度的方向矫正对当前场景下的目标进行位置方向的调整，避免由于当前场景下目标的方向不正，影响后续细粒度矫正的效果。例如，图3所示的社保卡证件照片是倾斜的，字体和国徽都是倒置的，如不进行方向矫正，后续在细粒度矫正后得到的证件虽然不再倾斜，但可能国徽和字体还是倒置的，就达不到图像目标矫正的效果。

可以理解的是，除了方向矫正，其他任何能够消除场景对目标矫正影响的矫正方式，都属于本申请所述的粗粒度矫正。

S102，基于图像分割算法获取方向矫正后的多边形目标区域。

具体实现中，为得到实时精准的目标矫正结果，可以使用实时的实例分割算法，例如YOLACT，其处理550x550大小的图片耗时低至35毫秒。可以理解的是，通过图像分割后多边形目标区域是由一系列的边缘点围成的多边形区域。

S103，根据多边形目标区域的边缘点确定多边形的最佳顶点。

可以理解的是，所谓的最佳顶点是所有边缘点中最能代表多边形目标区域的点，可以是多边形中任两个边的连接点，例如长方形的社保卡证件的四个拐角处的顶点。

具体实现中，可以基于预设选点方法确定多边形目标区域的各边缘点对应的两临近点；然后根据两临近点计算对应的边缘点的置信度；再根据置信度滤除相同或相近的边缘点，得到多边形的最佳顶点。如图2所示，假设边缘点为F，可以采用如式d/2<＝|FA|<d，d/2<＝|FB|<d所示的选取规则确定F点的两个临近点A，B，其中|FA|和|FB|为边缘点F与两个临近点之间的距离，d为先验参数，优选的，d为多边形最短边的边长值。而边缘点F的置信度可以由FA和FB两个边之间的夹角α决定，α越小F点的置信度越大，具体的F点的置信度为(cosα+1)/2。进一步的，在计算出边缘点的置信度之后可以通过非最大值抑制方法(Non-maximum suppression，NMS)过滤掉相同或相近的边缘点，过滤后保留下来的就是最佳顶点。

需要说明的是，一般多边形有几条边就有几个最佳顶点，如四边形由4个最佳顶点。

S104，根据最佳顶点对目标进行仿射变换或透视变换，生成矫正后的图像。

下面将以社保卡证件OCR识别为例，阐述采用本申请所示的图像目标矫正方法时，完成社保卡证件目标提取和矫正的过程。

由图2可知，待识别的社保卡证件存在肉眼可见的倒置和倾斜，可以采用图像分类器进行粗粒度的方向矫正，矫正方向后的社保卡证件图片如图4所示。

进一步的，将图4所示的图片送入YOLACT模型，得到图片的分类和社保卡证件分割区域，效果如图5所示。进一步的，可以根据分割结果裁剪出社保卡证件的区域，并利用本申请提供的多边形最佳顶点搜索算法搜索出社保卡证件四个角的顶点位置，如图6所示，图6中的白色小亮点代表顶点的置信度，白色大亮点表示四个顶点。进一步的，可以使用仿射变换或透视变换将社保卡证件区域的图像进行矫正得到矫正后的社保卡证件图片，如图7所示。

在本发明实施例中，在图像目标矫正的过程中，首先采用基于图像分类进行粗粒度的方向矫正，在采用图像分割技术对矫正目标进行精细的定位，通过粗细结合的两级矫正方式提高了矫正模型的泛化能力，使其适应场景更广；同时在细粒度矫正时通过寻找最佳顶点的方式使确定的目标轮廓更加精确，提高了目标矫正的效果。

下面将结合附图8和附图9，对本发明实施例提供的图像目标矫正装置进行详细介绍。需要说明的是，附图8和附图9所示的图像目标矫正装置，用于执行本发明图1-图7所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图1-图7所示的实施例。

请参见图8，为本发明实施例提供了一种图像目标矫正装置的结构示意图。如图8所示，本发明实施例的所述图像目标矫正装置10可以包括：方向矫正模块101、图像分割模块102、最佳顶点确定模块103和矫正变换模块104。其中，最佳顶点确定模块103如图9所示，包括临近点确定单元1031、置信度计算单元1032和最佳顶点确定单元1033。

方向矫正模块101，用于采用图像分类器对待矫正目标进行粗粒度的方向矫正；

图像分割模块102，用于基于图像分割算法获取方向矫正后的多边形目标区域；

最佳顶点确定模块103，用于根据所述多边形目标区域的边缘点确定多边形的最佳顶点；

在可选实施例中，最佳顶点确定模块103包括以下单元：

临近点确定单元1031，用于基于预设选点方法确定所述多边形目标区域的各边缘点对应的两临近点；

置信度计算单元1032，用于根据所述两临近点计算对应的边缘点的置信度；

具体实现中，置信度计算单元1032具体用于根据所述边缘点与所述两临近点分别组成的边之间的夹角计算所述边缘点的置信度。

最佳顶点确定单元1033，用于根据所述置信度滤除相同或相近的边缘点，得到多边形的最佳顶点。

矫正变换模块104，用于根据所述最佳顶点对目标进行仿射变换或透视变换，生成矫正后的图像。

在一种具体的实现方式中，假设多边形目标区域的任一边缘点为F，F对应的两临近点为A和B。优选的，预设选点方法对应的选点规则为d/2<＝|FA|<d， d/2<＝|FB|<d，其中d为先验参数，可设定为多边形最短边的边长值。

在计算边缘点的置信度时，假设多边形的两个边FA和FB之间的夹角为α，边缘点F的置信度为(cosα+1)/2。

需要说明的是，上述系统中各模块和单元的详细执行过程可以参见上述方法实施例中的描述，处不再赘述。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1-图7所示实施例的方法步骤，具体执行过程可以参见图1-图7所示实施例的具体说明，在此不进行赘述。

请参见图10，为本发明实施例提供了一种终端的结构示意图。如图10所示，所述终端1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口 (如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及图像目标矫正应用程序。

在图10所示的终端1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；网络接口1004用于与用户终端进行数据通信；而处理器1001可以用于调用存储器1005中存储的图像目标矫正应用程序，并具体执行以下操作：

采用图像分类器对待矫正目标进行粗粒度的方向矫正；

基于图像分割算法获取方向矫正后的多边形目标区域；

根据所述多边形目标区域的边缘点确定多边形的最佳顶点；

在一些实施例中，处理器1001在根据所述多边形目标区域的边缘点确定多边形的最佳顶点时，具体执行以下操作：

基于预设选点方法确定所述多边形目标区域的各边缘点对应的两临近点；

根据所述两临近点计算对应的边缘点的置信度；

根据所述置信度滤除相同或相近的边缘点，得到多边形的最佳顶点。

在一些实施例中，所述多边形目标区域的任一边缘点为F，F对应的两临近点为A和B；所述预设选点方法对应的选点规则为d/2<＝|FA|<d，d/2<＝|FB|< d，其中d为先验参数。

在一些实施例中，d为多边形最短边的边长。

在一些实施例中，处理器1001在根据所述两临近点计算对应的边缘点的置信度时，具体执行以下操作：

根据所述边缘点与所述两临近点分别组成的边之间的夹角计算所述边缘点的置信度。

在一些实施例中，多边形的两个边FA和FB之间的夹角为α，边缘点F的置信度为(cosα+1)/2。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory， ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种图像目标矫正方法，其特征在于，包括：

采用图像分类器对待矫正目标进行粗粒度的方向矫正；

基于图像分割算法获取方向矫正后的多边形目标区域；

根据所述多边形目标区域的边缘点确定多边形的最佳顶点；

2.根据权利要求1所述的图像目标矫正方法，其特征在于，所述根据所述多边形目标区域的边缘点确定多边形的最佳顶点，包括：

根据所述两临近点计算对应的边缘点的置信度；

3.根据权利要求2所述的图像目标矫正方法，其特征在于，

所述多边形目标区域的任一边缘点为F，F对应的两临近点为A和B；

所述预设选点方法对应的选点规则为d/2<＝|FA|<d，d/2<＝|FB|<d，其中d为先验参数。

4.根据权利要求3所述的图像目标矫正方法，其特征在于，d为多边形最短边的边长。

5.根据权利要求2所述的图像目标矫正方法，其特征在于，所述根据所述两临近点计算对应的边缘点的置信度，包括：

6.根据权利要求3所述的图像目标矫正方法，其特征在于，所述多边形的两个边FA和FB之间的夹角为α，边缘点F的置信度为(cosα+1)/2。

7.一种图像目标矫正装置，其特征在于，包括：

最佳顶点确定模块，用于根据所述多边形目标区域的边缘点确定多边形的最佳顶点；

矫正变换模块，用于根据所述最佳顶点对目标进行仿射变换或透视变换，生成矫正后的图像。

8.根据权利要求7所述的图像目标矫正装置法，其特征在于，所述最佳顶点确定模块，包括：

临近点确定单元，用于基于预设选点方法确定所述多边形目标区域的各边缘点对应的两临近点；

置信度计算单元，用于根据所述两临近点计算对应的边缘点的置信度；

最佳顶点确定单元，用于根据所述置信度滤除相同或相近的边缘点，得到多边形的最佳顶点。

9.一种终端，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行以下步骤：

采用图像分类器对待矫正目标进行粗粒度的方向矫正；

基于图像分割算法获取方向矫正后的多边形目标区域；

根据所述多边形目标区域的边缘点确定多边形的最佳顶点；

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行以下步骤：

采用图像分类器对待矫正目标进行粗粒度的方向矫正；

基于图像分割算法获取方向矫正后的多边形目标区域；

根据所述多边形目标区域的边缘点确定多边形的最佳顶点；