CN112364863A

CN112364863A - 证照文档的文字定位方法及系统

Info

Publication number: CN112364863A
Application number: CN202011127259.4A
Authority: CN
Inventors: 王元
Original assignee: Suning Financial Technology Nanjing Co Ltd
Current assignee: Suning Financial Technology Nanjing Co Ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-02-12
Anticipated expiration: 2040-10-20
Also published as: CA3135111A1; CN112364863B

Abstract

本发明公开了一种证照文档的文字定位方法及系统，所述方法包括：输入待测图片至深度学习模型后，输出经过拼接融合的特征图；对以不同索引标记的所述特征图进行图像差值运算得到特征图差值；对所述特征图差值进行二值化计算；根据二值化计算结果对图像进行连通域标记；遍历所有的连通域并转为定位坐标后输出坐标集合。本发明实现了证照文档文字的自动化识别，且定位精度高，并支持任意方向的文字检测。

Description

证照文档的文字定位方法及系统

技术领域

本发明涉及计算机图像处理和深度学习技术领域，具体地说，是一种证照文档的文字定位方法及系统。

背景技术

在金融业务中，经常会涉及到证照文档的审核和检验工作。例如，在企业向金融机构申请贷款时，需提供企业营业执照，以原件，或复印件、扫描件等形式发给金融机构，金融机构的信贷审批人员针对其文字信息，核实企业证照的真实性、唯一性、合法性，并将信息准确的录入到金融机构的业务系统中，进行后续的风控管理流程。

在业界，这类证照审核和录入工作，有2种方式开展。一种是人工的方式，一种是机器自动化的方式。

人工方式是最常见的操作方式。一名业务员审核一个证照通常耗时为5分钟，且该工作属于高度重复性工作，易产生人为错误和操作风险。人工方式带来的另一个问题是随着业务量的上升，人力资源也随之上升，无法有效规模化，经济成本均无法实现边际递减。

另一种处理该类工作的方式是自动化方式，即利用计算机程序自动获取证照的电子版，然后通过图像处理、文字定位等计算机技术，自动定位文字所在位置、识别文字信息，并且自动提取其对应内容，审核并录入到金融机构的业务系统中，整个过程无人工参与。

其中，基于深度学习的文字定位系统，因为其鲁棒性和准确率的优势已成为主流技术，在目前的图像识别中应用越来越广泛，但是，目前的基于深度学习的证照文档识别系统，往往不能够精确定位到证照文件中的文字所在位置，尤其是针对不是规整方向排列的文字而言，其识别率不高，定位也不准确。

发明内容

本发明的目的是，提供一种证照文档的文字定位方法，以解决现有的证照文档识别系统对文字的定位精度不高的问题。

本发明采用的技术方案如下：

一种证照文档的文字定位方法，所述方法包括：

输入待测图片至深度学习模型后，输出经过拼接融合的特征图；

对以不同索引标记的所述特征图进行图像差值运算得到特征图差值；

对所述特征图差值进行二值化计算；

根据二值化计算结果对图像进行连通域标记；

遍历所有的连通域并转为定位坐标后输出坐标集合。

进一步地，将所述连通域转为所述定位坐标包括：

计算连通域集合内的每一个元素的面积与图像差值运算后的特征图的面积的相对值；

对相对值不大于预设阈值的元素进行抠图；

计算被抠出元素的外包络轮廓；

对被抠出的元素进行像素点缩放量化误差补偿，形成新的外包络轮廓；

对新的所述外包络轮廓坐标进行尺寸变换，将坐标值转换成输入的所述待测图片对应的坐标系；

计算最小旋转矩形的包络坐标并输出所述连通域中每一个元素的坐标。

进一步地，所述深度学习模块包括后端模型、中段模型及头部模型，输入的所述待测图片依次经过后端模型、中段模型的处理后进入所述头部模型，所述头部模型对进入的特征图按照3层1*1的卷积运算后，形成三类特征图，其中，对三类特征图分别加上标引，以第一索引值代表文字像素二分类的特征图，以第二索引值代表文字区域包络的特征图，以第三索引值代表二维高斯核分布的特征图。

进一步地，对从所述深度模型输出的特征图先进行切片处理，根据提取切片后图像的第一索引值和第二索引值，分布计算sigmoid函数，在信道维度上，计算出二者的差值，再将所述差值放大调整到先前图片缩放时的像素点大小，然后对特征图的像素点进行二值化计算。

进一步地，在对被抠出的元素进行像素点缩放误差补偿后，再进行外包络扩展计算，得到能够完全包络住文字边缘的所述新的外包络轮廓。

进一步地，根据二值化计算结果，进行8向连通域标记计算，得到连通域域集合，并将所有的连通域根据面积大小进行倒序排列。

进一步地，输入的所述待测图片进入深度学习模型前，先进行图片缩放和图片预处理。

本发明的另一方面，还提供了一种证照文档的文字定位系统，包括：

特征图融合模块，用于对经深度学习模型处理的特征图进行拼接融合；

图像差值运算模块，用于对以不同索引标记的所述特征图进行图像差值运算得到特征图差值；

二值化计算模块，对所述特征图差值进行二值化计算；

连通域标记模块，根据二值化计算结果对图像进行连通域标记；

定位坐标转换模块，遍历所有的连通域并转为定位坐标后输出坐标集合。

进一步地，所述定位坐标转换模块包括：

抠图模块，对相对值不大于预设阈值的元素进行抠图；

外包络轮廓计算模块，用于计算被抠出元素的外包络轮廓；

误差补偿模块，对被抠出的元素进行像素点缩放误差补偿，形成新的外包络轮廓；

尺寸变换模块，对新的所述外包络轮廓坐标进行尺寸变换，将坐标值转换成输入的所述待测图片对应的坐标系；

连通域坐标计算模块，用于计算最小旋转矩形的包络坐标并输出所述连通域中每一个元素的坐标。

与现有技术相比，本发明所公开的一种证照文档的文字定位方法及系统，通过融合的特征图输出、计算特征图差值、图片缩放量误差补偿、文字外包络扩展、取最小矩形包络，实现了证照文档的自动化文字定位，且支持任意方向的文字检测和识别，并提高了定位精度。

附图说明

图1为本发明实施例中的证照文档的文字定位方法的流程示意图。

图2为本发明实施例中的特征图后处理的流程图。

图3为本发明实施例中的深度学习模型的结构图。

图4为本发明实施例中的证照文档的文字定位系统的架构图。

图5为本发明实施例中的定位坐标转换模块的架构图。

具体实施方式

以下结合附图对本发明作进一步详细说明，但不作为对本发明的限定。

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。

参照图1～图3所示，本发明实施例公开了一种证照文档的文字定位方法，该方法包括：

步骤S1、将待测图片img0进行缩放处理，缩放为2的N次方倍，优选为32倍，计算待测图片img0的缩放比例scale；

步骤S2、输入缩放后的图片，得到图片img_scaled；

步骤S3、对输入的图片进行图像预处理，其中，预处理包括：边缘检测、旋转摆正；质量评估；颜色处理；平滑处理等。在进入模型前对输入的图片进行预处理，主要目的是消除图像中无关的信息，恢复有用的真实信息，增强有关信息的可检测性和最大限度地简化数据，从而改进特征抽取、图像分割、匹配和识别的可靠性。

步骤S4、将预处理完毕的图像输入事先训练好的深度学习模型，模型输出经过拼接融合的特征图。

参照图3所示，本实施例中的深度学习模型采用3端结构，即后端模型(Backbone)，中段模型(Neck)和头部模型(Head)。输入的经过预处理的图片依次经过后端模型、中段模型和头部模型后输出相应的特征图。

其中，后端模型采用预训练的图像分类模型，主要用于对图像特征的提取，采用的模型结构可以为VGG或ResNet结构，图像语义的分割采用Fully Convolutional Network(FCN)网络框架。由于用到了CNN(卷积神经网络)，所以最后提取的特征的尺度是变小的，具体为长宽均变小、信道变多。为了让CNN提取出来的尺度能到原图大小，FCN网络利用上采样和反卷积到原图像大小；然后做像素级的分类，输入原图，经过VGG16网络，得到特征map，然后将特征map上采样回去；再将预测结果和ground truth每个像素一一对应分类，做像素级别分类，也就是说将分割问题变成分类问题，便于深度学习。

中段模型采用深度学习分割网络UNet，UNet包括两部分，第一部分，特征提取，每经过一个池化层就形成一个尺度，具备多尺度；第二部分，上采样，每上采样一次，就和特征提取部分对应的通道数相同尺度融合，此处的融合也即拼接。由于分割的时候不可能将原图大小输入网络，所以需要切成一张一张的小patch，在切图时需要包含周围区域，并为分割区域边缘部分提供纹理等信息。

头部模型，使用32层3x3卷积层，3层1x1卷积层，索引0代表文字像素2分类特征图，索引1代表文字区域包络的特征图，索引2代表2D高斯核分布的特征图，输出特征图为以上3层1x1卷积层的经过拼接融合的三信道的特征图。采用该头部模型结构，能提升模型的学习能力，并为后续像素级的文字检测提供检测基础。

经过检测模型的三段推理之后，将进入下述步骤的特征图后处理流程。

步骤S5、对从深度学习模型输出的特征图进行切片处理，由于先前三信道的特征图被索引标记，分别提取索引0和索引1，针对特征图的索引0，计算sigmoid函数，得到f_map_0；针对特征图的索引1，计算sigmoid函数，得到f_map_1，在信道维度上，计算f_map_1–f_map_0，得到差值diff；

步骤S6、针对差值diff值，进行图像差值计算，将diff维度差值到img_scaled的大小，也就是对图片的像素点进行放大，形成调整后的图像diff_scaled。

步骤S7、针对diff_scaled，进行二值化运算，阈值可以人工预设，也可以使用自适应阈值设置，大于阈值的像素点设为1，反之设为0。经过图像的二值化处理后，将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的只有黑和白的视觉效果。

步骤S8、进行8向(8-connectivity)连通域标记计算，如果像素x在其上、下、左、右、左上、右上、左下、右下这8个方向上存在一样的像素y，即认为x像素和y像素是连通的。这样，会将图像分成多个多边形区域，这些多边形区域的形状可以相同或不同，面积大小可以相同或不同，最后得到连通域区域集合region_list。

步骤S9、将region_list里头所有元素的区域按照面积大小倒排，面积最大的区域排第一，面积最小的排最后；这样，后续进程将异步化优先处理面积最大区域的坐标，减少系统等待时间，提高效率。

步骤S10、针对连通域区域集合region_list中的每一个元素，进行连通域转定位坐标的处理和计算，其中，该步骤具体包括如下：

步骤S101、计算每一个区域元素与diff_scaled的相对面积值；

步骤S102、忽略相对面积大于预设阈值的元素；

步骤S103、对于相对面积小于或等于预设阈值的元素，对其进行抠图，得到抠图cut_img；

步骤S104、计算抠出的图cut_img的外包络轮廓convex_hull；

步骤S105、图片缩放误差补偿；由于在实际图像处理中，像素点的位置会出现偏差，而如果不经过扩展计算直接进入到后面的坐标转换放大，则误差会放大，在本步骤中，先进行图片缩放的误差补偿，使得每个像素点坐标位置更贴近实际的像素点位置，即使后续进行坐标扩展或尺寸放大，也保证了每一个像素点位置的精确性。

步骤S106、进行外包络扩展计算，得到文字位置包络坐标。通过外包络扩展计算，将外包络轮廓向外扩展，尽量能够包裹住全部的文字。

步骤S107、对文字包络坐标进行尺寸变换，将坐标值转换成img0对应坐标系；由于待测图片进入深度学习模型前，图片进行过缩放，长宽比例会缩小，此步骤将还原成原来的尺寸大小。

步骤S108、计算得到最小旋转矩形包络坐标，该坐标作为该连通域所代表的文字区域集合的最终输出坐标；由于先前的文字包络为多边形，为了方便后续计算机识别处理，计算出最小矩形包络坐标，根据不同的外包络轮廓，其可以是不同角度的矩形。

步骤S109、重复以上S101～S108的各步骤，直至每一个连通域集合内的所有元素的坐标均输出完毕。

步骤S11、去除空坐标，重新返回所有的代表文字位置的全部元素的坐标集合，完成文字位置坐标检测的全部流程。

步骤S12，文字坐标位置检测出来后，将分配给不同的进程去识别框内的所有文字。

与现有技术相比，本发明实施例所公开的一种证照文档的文字定位方法，通过融合的特征图输出、计算特征图差值、图片缩放量误差补偿、文字外包络扩展、取最小矩形包络，实现了证照文档的自动化文字定位，且支持任意方向的文字检测和识别，并提高了定位精度。

与上述实施例中的方法相对应地，配合参照图4、图5所示，本发明的另一实施例还提供了一种证照文档的文字定位系统，该系统包括：

二值化计算模块，对所述特征图差值进行二值化计算；

其中，所述定位转换模块包括：

抠图模块，对相对值不大于预设阈值的元素进行抠图；

外包络轮廓计算模块，用于计算被抠出元素的外包络轮廓；

误差补偿模块，对被抠出的元素进行像素点缩放量化误差补偿，形成新的外包络轮廓；

本发明实施例所公开的证照文档的文字定位系统，通过特征图融合模块、图像差值运算模块、二值化计算模块、连通域标记模块、定位坐标转换模块的配合，实现了证照文档的文字定位和自动化识别，且提高了进度，并支持任意方向的文字。

上述各模块的具体执行步骤，已经在有关该方法的实施例中进行了详细说明。本实施例中未详尽之处，请参阅上述方法实施例。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种证照文档的文字定位方法，其特征在于，所述方法包括：

对所述特征图差值进行二值化计算；

根据二值化计算结果对图像进行连通域标记；

遍历所有的连通域并转为定位坐标后输出坐标集合。

2.如权利要求1所述的文字定位方法，其特征在于，将所述连通域转为定位坐标包括：

对相对值不大于预设阈值的元素进行抠图；

计算被抠出元素的外包络轮廓；

对被抠出的元素进行像素点缩放误差补偿，形成新的外包络轮廓；

3.如权利要求1或2所述的文字定位方法，其特征在于，所述深度学习模块包括后端模型、中段模型及头部模型，输入的所述待测图片依次经过后端模型、中段模型的处理后进入所述头部模型，所述头部模型对进入的特征图按照3层1*1的卷积运算后，形成具有索引标记的三层特征图。

4.如权利要求3所述的文字定位方法，其特征在于，对从所述深度模型输出的特征图先进行切片处理，根据提取切片后图像的第一索引值和第二索引值，分布计算sigmoid函数，在信道维度上，计算出二者的差值，再将所述差值放大调整到先前图片缩放时的像素点大小，然后对特征图的像素点进行二值化计算。

5.如权利要求2所述的文字定位方法，其特征在于，在对被抠出的元素进行像素点缩放误差补偿后，再进行外包络扩展计算，得到能够完全包络住文字边缘的所述新的外包络轮廓。

6.如权利要求4所述的文字定位方法，其特征在于，根据二值化计算结果，进行8向连通域标记计算，得到连通域域集合，并将所有的连通域根据面积大小进行倒序排列。

7.如权利要求3所述的文字定位方法，其特征在于，输入的所述待测图片进入深度学习模型前，先进行图片缩放和图片预处理，其中，缩放为2的N次方倍。

8.如权利要求4所述的文字定位方法，其特征在于，所述第一索引值标记为文字像素二分类的特征图，所述第二索引值标记为文字区域包络的特征图。

9.一种证照文档的文字定位系统，其特征在于，所述系统包括：

二值化计算模块，用于对所述特征图差值进行二值化计算；

连通域标记模块，根据二值化计算结果对图像进行连通域标记，形成由多个连通域组成的连通域集合；

定位坐标转换模块，用于遍历所有的连通域并转为定位坐标后输出坐标集合。

10.如权利要求9所述的文字定位系统，其特征在于，所述定位坐标转换模块包括：

抠图模块，对相对值不大于预设阈值的元素进行抠图；

外包络轮廓计算模块，用于计算被抠出元素的外包络轮廓；

连通域坐标计算模块，用于计算最小旋转矩形的包络坐标并输出连通域集合中每一个元素的坐标。