CN108022243A

CN108022243A - 一种基于深度学习的图像中纸张检测方法

Info

Publication number: CN108022243A
Application number: CN201711181082.4A
Authority: CN
Inventors: 李世东; 苗长龙
Original assignee: Yangtze Delta Region Institute of Tsinghua University Zhejiang
Current assignee: Yangtze Delta Region Institute of Tsinghua University Zhejiang
Priority date: 2017-11-23
Filing date: 2017-11-23
Publication date: 2018-05-11

Abstract

本发明涉及图像识别与分割技术领域，具体公开了一种基于深度学习的图像中纸张检测方法，可以将复杂的自然场景下的图像中的纸张检测并分割出来，包括以下步骤：步骤1：用端到端的深度卷积网络对输入图像进行检测，得到图像中纸张较为精确的位置信息，将纸张从原始图像中分割；步骤2：在分割后的图像上通过轮廓检测算法得到其轮廓图像；步骤3：在轮廓图像上使用多边形拟合算法得到纸张的4个顶点的坐标信息；步骤4：利用坐标信息将原始图像上的纸张部分进行变换，求得变换矩阵，并一定程度地消除其透视变化；步骤5：利用变换矩阵进行图像变换得到从原始图像中分割出来的纸张的正面图像。

Description

一种基于深度学习的图像中纸张检测方法

技术领域

本发明涉及图像识别与分割技术领域，特别涉及一种基于深度学习的图像中纸张检测方法。

背景技术

近年来，得益于深度学习技术，计算机视觉领域有了突破性的进展。如在目标检测和识别方面，都比传统算法取得了更好的成绩，甚至在某些领域取得了超越人类能力的结果，如人脸识别问题等。逐渐地，深度学习技术也被应用于图像分割领域，也得到了超过传统算法的结果，如图像语义分割问题等。在图像分割领域，端到端的深度卷积网络有较好的结果，该网络以任意尺寸的图像为输入，输出原尺寸的分割结果，同时有较高的图像分割结果，由于该网络是一种端到端的网络，易于训练和测试，实用性强。

对于图像中的纸张的检测有较大的应用价值，如检测到纸张并将其从原始图像上分割出来后，可以对纸张上的文字或者图画内容做进一步的检测、识别和提取。在日常场景下，拍照得到的照片通常包含复杂的背景，增加了纸张检测的难度，同时，图像中的纸张通常不会处于完全水平放置的情况，而且拍照时也会存在视角倾斜的情况，导致了图像中纸张存在一定的透视变换，这就一定程度的增加了之后对纸张内容的检测和识别的难度。

目前存在一些纸张检测的手机软件应用，可以通过手机摄像头获取纸张的内容，进而可以将其转换成PDF格式的文件，但是这些软件应用在获取纸张的照片时有较高的要求，如手机摄像头要放在正对着纸张的位置，距离要求适中，同时纸张要摆放的较为整齐，这一定程度的导致了图像中纸张检测应用的局限性和实用性。

发明内容

针对上述现有技术的缺陷及存在的技术问题，本发明提供了一种精确度、实用性高的基于深度学习的图像中纸张检测方法。

本发明解决其技术问题所采用的技术方案是：一种基于深度学习的图像中纸张检测方法，可以将复杂的自然场景下的图像中的纸张检测并分割出来包括以下步骤：

步骤1：使用端到端的深度卷积网络对输入图像进行检测，得到图像中纸张较为精确的位置信息，并将纸张从原始图像中分割出来，得到纸张分割后的图像；

步骤2：在步骤1所得的分割后的图像上通过轮廓检测算法得到其轮廓图像；

步骤3：在步骤2所得的轮廓图像上使用多边形拟合算法得到纸张的4个顶点的坐标信息；

步骤4：利用步骤3所得的坐标信息将原始图像上的纸张部分进行变换，求得变换矩阵，并一定程度地消除其透视变化；

步骤5：利用步骤4所得变换矩阵进行图像变换得到从原始图像中分割出来的纸张的正面图像。

本发明的有益效果是：对比现有技术，本发明的一种基于深度学习的图像中纸张检测方法，利用深度卷积网络从复杂的自然场景下获取的照片中精确地将纸张检测并分割出来，通过图像变换一定程度地消除其透视变换，最终得到从原始图像上分割出来的纸张的正面图像。

附图说明

图1为本发明的整体示意图。

图2为基于端到端的深度卷积网络的纸张分割方法的示意图。

图3为一定程度地消除纸张仿射变换方法的示意图。

其中：a为原始图像，b为使用深度卷积网络得到的分割图像，c为得到纸张4个顶点坐标信息的图像，d为最终得到从原始图像上分割出来的纸张的正面图像，e为纸张，f为背景，g为训练阶段，h为测试阶段，i为训练图像，j为真值，k为测试图像，l为分割结果，m为分割图像的轮廓图像。

具体实施方式

下面结合附图对本发明的具体实施方式作详细说明，进一步阐明本发明的优点及相对于现有技术的突出贡献，可以理解的，下述的实施例仅是对本发明较佳实施方案的详细说明，不应该解释为对本发明技术方案的任何限制。在不脱离本发明设计构思的前提下，本领域普通人员对本发明的技术方案做出的各种变型和改进，均应落入到本发明的保护范围，本发明请求保护的技术内容，已经全部记载在权利要求书中。

如图1所示，本发明实施例的一种基于深度学习的图像中纸张检测方法的实施步骤如下：

如图2所示，基于端到端的深度卷积网络的图像中纸张分割方法包含训练阶段和测试阶段，在训练阶段，首先收集包含纸张图像的数据库，并对数据库中的图像进行人工标注；标注方法为将原始图像中的纸张部位像素值标定为1，背景部分的像素值标定为0，最后将得到一幅二值图像，即为原始图像的真值；选择一个合适的端到端的深度卷积网络模型，如DeepLab网络和FCN网络；然后使用数据库中的训练图像和真值对该网络模型进行训练；当网络收敛后得到该网络训练好的模型；在测试阶段中，使用训练阶段得到的模型，即可对输入的图像进行测试，得到纸张的分割结果。

如图3所示，得到原始图像中纸张的分割结果后，需要消除图像中的纸张的透视变化，得到其正面图像，首先检测出分割结果图像的轮廓，得到其轮廓图像，该图像为一幅二值图像，其中轮廓是一个由坐标点组成的向量，按照顺时针储存；然后在轮廓图像上使用多边形拟合函数，如OpenCV库中的approxPolyDP函数，得到纸张4个顶点的坐标信息；并对4个点进行编号，距离图像原点，即(0,0)点，最近的点为1号点，剩下三个点按照其在储存轮廓的向量中的先后顺序依次为2、3和4号；计算得出d1为1、2号点之间的位置距离，d2为1、4号点之间的位置距离；最后将1、2、3和4号点依次对应(0,0)、(d1,0)、(d1，d2)和(0，d2)4个坐标点，使用图像变换公式可得出变换矩阵T，由公式：

表示，其中x和y为变换后的坐标，u和v为原始图像的坐标，T为图像变换矩阵。

最后利用变换矩阵T可得到消除透视变换的纸张，最后可以得到从原始图像上分割出来的纸张的正面图像。

Claims

1.一种基于深度学习的图像中纸张检测方法，其特征在于：包括以下步骤：

步骤2：在步骤(1)所得的分割后的图像上通过轮廓检测算法得到其轮廓图像；

步骤3：在步骤(2)所得的轮廓图像上使用多边形拟合算法得到纸张的4个顶点的坐标信息；

步骤4：利用步骤(3)所得的坐标信息将原始图像上的纸张部分进行变换，求得变换矩阵，并一定程度地消除其透视变化；

步骤5：利用步骤(4)所得变换矩阵进行图像变换得到从原始图像中分割出来的纸张的正面图像。

2.根据权利要求1所述的一种基于深度学习的图像中纸张检测方法，其特征在于：所述步骤(1)中端到端的深度卷积网络，包括DeepLab网络和FCN网络，是一种处理图像分割领域的深度卷积网络，可以端到端的对图像进行训练，输入为一张图像并输出原尺寸大小的分割图像，图像中的纸张检测问题属于两分类的语义分割问题。

3.根据权利要求1所述的一种基于深度学习的图像中纸张检测方法，其特征在于：所述步骤(1)中的纸张分割后的图像是一幅二值图像，所述步骤(2)中使用轮廓检测算法可以得到该二值图像的轮廓信息，并将轮廓点按照顺时针储存在一个向量中。

4.根据权利要求1所述的一种基于深度学习的图像中纸张检测方法，其特征在于：所述步骤(3)中使用多边形拟合算法，包括OpenCV库中的approxPolyDP函数，可以从原始图像的纸张轮廓图像上得到四边形的4个顶点的坐标信息，即纸张4个顶点的坐标信息。

5.根据权利要求1所述的一种基于深度学习的图像中纸张检测方法，其特征在于：所述步骤(4)中变换矩阵的求解过程为：对纸张4个点进行编号，距离图像原点，即(0,0)点，距离最小的点为1号点，剩下三个点按照其在储存轮廓的向量中的先后顺序依次为2、3和4号；计算得出d1为1、2号点之间的位置距离，d2为1、4号点之间的位置距离；最后将1、2、3和4号点依次对应(0,0)、(d1,0)、(d1，d2)和(0，d2)4个坐标点，使用图像变换公式可得出变换矩阵T，由公式：

6.根据权利要求1所述的一种基于深度学习的图像中纸张检测方法，其特征在于：所述步骤(5)中利用变换矩阵T，可以将原始图像中纸张部分转换得到纸张的正面图像。