CN112132054A

CN112132054A - 一种基于深度学习的文档定位和分割方法

Info

Publication number: CN112132054A
Application number: CN202011017876.9A
Authority: CN
Inventors: 王诗言; 王伟
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2020-12-25

Abstract

本发明涉及一种基于深度学习的文档定位和分割方法，属于计算机技术领域。该方法包括：S1：输入图像，并使用卷积神经网络提取该图像的特征；S2：将提取到的特征图采用卷积核大小为1的卷积层进行降维；S3：将降维之后的特征图分离成四个通道；S4：将分离出的四个特征图分别输入关键点预测模块，分别预测左上、左下、右上、右下四个顶点的坐标；S5：根据得到的四个顶点坐标对文档图像进行校正和分割。本发明相较于目前的基于边缘检测的文档边缘检测方法，不易受到背景复杂线条的影响，对文档四个顶点的定位更加准确。

Description

一种基于深度学习的文档定位和分割方法

技术领域

本发明属于计算机技术领域，涉及机器学习和深度学习技术领域，具体涉及一种基于深度学习的文档定位和分割方法。

背景技术

目前越来越多的人使用手机、平板等移动设备对文档文件进行拍摄，相比较传统的扫描仪去完成文档文件的数字化更加的方便快捷。但用户进行拍摄时存在使用扫描仪不会出现的问题：(1)拍摄的图片文档只占据中心的部分，需要去除无用的背景，将文档分割出来。(2)因为拍摄的角度与距离，拍摄的图片存在几何失真，需要进行校正。

在市场现有的软件中，文档的四个顶点有些是要求用户去手动指定的，这种模式需要用户的配合，用户体验较差，且不适用于处理大量图片。也有部分软件通过图像处理的方法自动定位文档的四个顶点，但是由于算法方面的局限性，经常出现误判，成功率较低。

因此，现有技术存在缺陷，亟需一种针对手机、平板等移动设备拍摄图像的有效识别方法。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度学习的文档定位和分割方法，能够处理较复杂文档类型，对文档顶点进行精确定位，并对文档进行准确有效的校正和分割。

为达到上述目的，本发明提供如下技术方案：

一种基于深度学习的文档定位和分割方法，具体包括以下步骤：

S1：输入图像，并使用卷积神经网络提取该图像的特征；

S2：将提取到的特征图采用卷积核大小为1的卷积层进行降维；

S3：将降维之后的特征图分离成四个通道；

S4：将分离出的四个特征图分别输入关键点预测模块，分别预测左上、左下、右上、右下四个顶点的坐标；

S5：根据得到的四个顶点坐标对文档图像进行校正和分割。

进一步，步骤S4中，所述关键点预测模块的处理步骤为：

S41：对分离出的每一个通道输出的特征图进行归一化；

S42：对归一化之后的特征图转换为坐标点。

进一步，所述步骤S41具体包括：采用SoftMax函数作为归一化函数对分离出的每一个通道输出的特征图进行归一化：Z＝φ(z)。

进一步，所述步骤S42具体包括以下步骤：

S421：定义两个矩阵X和Y，其宽高和输入的特征图一致，具体数值计算为：

其中，w表示输入特征图的宽，h表示输入特征图的高；i＝1...w,j＝1...h；

这样可以将X和Y的坐标值归一化到(-1,1)之间。

S422：对归一化之后的特征图转换为坐标点，通过对归一化之后的特征图和定义的矩阵求得F范数，具体数值计算为：

x＝<Z,X>_F

y＝<Z,Y>_F

经过上述步骤后，得到顶点坐标点为：

μ＝[<Z,X>_F,<Z,Y>_F]

S423：关键点预测模块的总Loss为误差平方和Loss与正则Loss，总Loss计算公式为：

L(Z,p)＝L_MSE(μ,p)+λL_D(Z,p)

其中，λ为正则化系数，用来设置正则化的强度；误差平方和Loss为：

L_MSE(μ,p)＝||p-μ||₂

其中，p为真实值，μ为模块预测值；

为了使网络可以学习到小方差的高斯热图，采用正则Loss，对正则项引入高斯热图先验。正则Loss采用JS散度，JS散度广泛应用于衡量两个分布相似性上。正则Loss为：

其中，p(c)表示真实值，

表示二元高斯分布，D(·||·)表示JS散度。

进一步，所述步骤S5具体包括：利用文档的四个顶点坐标计算单应性矩阵H，利用单应性矩阵H进行透视变换，将几何失真的文档图像投影到新的平面进行视角校正。

进一步，所述特征图为高斯热图。

本发明的有益效果在于：本发明使用卷积神经网络提取深度特征，然后利用高斯热图回归坐标点的方法检测文档的四个顶点，通过四个顶点的坐标对文档图像进行视角校正。这是一种端到端的方法，容易在移动端设备上进行部署。本发明相较于目前的基于边缘检测的文档边缘检测方法，不易受到背景复杂线条的影响，对文档四个顶点的定位更加准确。本发明适合应用于对移动设备拍摄的文档图像进行提取保存的应用中，也可以作为文档识别的预处理步骤。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明基于深度学习的文档定位和分割方法的具体实施流程图；

图2为本发明方法用于名片的分割效果图，(a)名片的原始拍摄图片，(b)对名片的定位图，(c)名片的最终分割效果图；

图3为本发明方法用于发票的分割效果图，(a)发票的原始拍摄图片，(b)对发票的定位图，(c)发票的最终分割效果图；

图4为本发明方法用于文件的分割效果图，(a)文件的原始拍摄图片，(b)对文件的定位图，(c)文件的最终分割效果图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图4，图1为本发明基于深度学习的文档定位和分割方法，具体包括以下的步骤：

S1：输入图像；

S2：使用卷积神经网络进行特征提取；

(1)使用MobilenetV2网络作为特征提取网络进行特征提取；

(2)网络输入为600×800×3的三通道彩色图像，网络输出为MobilenetV2网络最后一个卷积层的特征图。

S3：将提取到的特征图用卷积核大小为1的卷积层降维到4个通道；

(1)特征图大小为25×19×1280；

(2)设置卷积层参数：strides为1、filter为4、ksize为1。

S4：将降维之后的特征图分离成四个通道；

降维之后的特征图大小为25×19×4。

S5：将分离出的四个特征图分别输入关键点预测模块分别预测左上、左下、右上、右下四个顶点的坐标；

(1)采用SoftMax函数作为归一化函数对分离出的每一个通道输出的高斯热图进行归一化：Z＝φ(z)；

(2)定义两个矩阵X和Y，其宽高和输入的特征图一致，具体数值计算为：

其中，w表示输入特征图的宽，h表示输入特征图的高，i＝1...w,j＝1...h；

这样可以将X和Y的坐标值归一化到(-1,1)之间。

(3)对归一化之后的高斯热图转换为坐标点，通过对归一化之后的高斯热图和定义的矩阵求得F范数，具体数值计算为：

x＝<Z,X>_F

y＝<Z,Y>_F

经过上述步骤后，得到顶点坐标点为：

μ＝[<Z,X>_F,<Z,Y>_F]

(4)关键点预测模块的总Loss为误差平方和Loss与正则项Loss，总Loss为：

L(Z,p)＝L_MSE(μ,p)+λL_D(Z,p)

误差平方和Loss为：

L_MSE(μ,p)＝||p-μ||₂

其中，p为真实值，μ为模块预测值；

其中，p(c)表示真实值，

表示二元高斯分布，D(·||·)表示JS散度。

S6：根据得到的四个顶点坐标对文档图像进行校正和分割。

用文档的四个顶点坐标计算单应性矩阵H，利用单应性矩阵H进行透视变换，将几何失真的文档图像投影到新的平面进行视角校正。

本发明方法通过对图像进行特征提取、关键点预测两个步骤自动确定文档图像中顶点的坐标。本发明可以将图像内的文档进行快速定位和分割，且不易受到复杂背景的干扰。本发明适合应用于对移动设备拍摄的文档图像进行提取保存的应用中，也可以作为文档识别的预处理步骤。具体的，采用本发明方法分别对名片、不同版本的发票进行识别，如图2～4所示，最终识别的效果清晰且无变形，证明了本发明对文档定位和分割的有效性。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度学习的文档定位和分割方法，其特征在于，该方法具体包括以下步骤：

S1：输入图像，并使用卷积神经网络提取该图像的特征；

S3：将降维之后的特征图分离成四个通道；

S5：根据得到的四个顶点坐标对文档图像进行校正和分割。

2.根据权利要求1所述的文档定位和分割方法，其特征在于，步骤S4中，所述关键点预测模块的处理步骤为：

S41：对分离出的每一个通道输出的特征图进行归一化；

S42：对归一化之后的特征图转换为坐标点。

3.根据权利要求2所述的文档定位和分割方法，其特征在于，所述步骤S41具体包括：采用SoftMax函数作为归一化函数对分离出的每一个通道输出的特征图进行归一化：Z＝φ(z)。

4.根据权利要求3所述的文档定位和分割方法，其特征在于，所述步骤S42具体包括以下步骤：

x＝<Z,X>_F

y＝<Z,Y>_F

得到顶点坐标点为：

μ＝[<Z,X>_F,<Z,Y>_F]

L(Z,p)＝L_MSE(μ,p)+λL_D(Z,p)

L_MSE(μ,p)＝||p-μ||₂

其中，p为真实值，μ为模块预测值；

正则Loss为：

其中，p(c)表示真实值，

表示二元高斯分布，D(·||·)表示JS散度。

5.根据权利要求4所述的文档定位和分割方法，其特征在于，所述步骤S5具体包括：利用文档的四个顶点坐标计算单应性矩阵H，利用单应性矩阵H进行透视变换，将几何失真的文档图像投影到新的平面进行视角校正。

6.根据权利要求1～4中任意一项所述的文档定位和分割方法，其特征在于，所述特征图为高斯热图。