CN111626941A

CN111626941A - 一种基于深度学习语义分割的文档矫正方法

Info

Publication number: CN111626941A
Application number: CN202010393536.XA
Authority: CN
Inventors: 涂旭平; 林浩泓; 黄斐
Original assignee: Dongguan Qibaoshu Education Technology Co ltd
Current assignee: Dongguan Qibaoshu Education Technology Co ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2020-09-04

Abstract

本发明涉及图像处理技术领域，具体涉及一种基于深度学习语义分割的文档矫正方法，包括利用深度神经网络模型对待矫正图像的文档像素分类，获得文档语义分割特征图；对文档进行轮廓分析，确定待矫正图像中的文档形变信息；构造辅助矫正平面，并获取待矫正图像中的文档形变信息在辅助矫正平面上的变换关系，通过变换关系进行图像矫正，以此取消了额外的硬件设备来获取足够的拍摄自由度，突破了操作门槛、应用场景等因素导致的局限性，而且面对复杂文档或带复杂背景的文档时仍能精准可靠地进行图像矫正。

Description

一种基于深度学习语义分割的文档矫正方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于深度学习语义分割的文档矫正方法。

背景技术

移动产品日益渗透人们的日常生活，使用移动端进行文档扫描已经成为一种趋势，应用市场中解决此类需求的软件产品亦越来越多。但追求移动端文档扫描带来的便利时，亦遭遇其技术实现层面上的各种局限，如镜片引起光路折射带来的镜头畸变、三维空间投影到成像平面带来的透视畸变、文档平面本身凹凸的扭曲等，这些因素成为移动端文档扫描普及的一个重大阻碍。

目前，传统的针对扭曲文档图像的矫正算法一般主要包括基于硬件矫正以及基于3D建模矫正。对于基于硬件矫正的方法，通常使用特制的硬件设备扫描纸张的三维形状信息，比如采用结构光源来对文档进行扫描从而获取文档的三维信息即深度信息，然后根据深度信息对文档图像进行矫正。由于硬件设备体积较大且占用空间，不仅不便于携带，而且当遇到空间较小的场景时，不足以提供硬件设备工作的空间，从而限制了方案的应用场合、自由度和便利度。对于基于3D建模矫正的方法，主要从造成文档扭曲的因素出发并根据实际情况应用假设完成数学建模，这些因素包括文档摆放角度、光源位置、图像采集设备参数(如镜头畸变)等，通过对这些因素的建模和求取参数，完成其图像逆运算即矫正。这种方法往往需要多角度采集图像，才能获得足够求解方程组重建文档图像的3D模型，同样会受到运用场景的限制。

因此，行业内亟需一种能解决上述问题的方案。

发明内容

本发明的目的在于针对现有技术的不足而提供一种基于深度学习语义分割的文档矫正方法。本发明的目的可以通过如下所述技术方案来实现。

一种基于深度学习语义分割的文档矫正方法，包括：

利用深度神经网络模型对待矫正图像的文档像素分类，获得文档语义分割特征图；

根据文档语义分割特征图对文档进行轮廓分析，确定待矫正图像中的文档形变信息；

构造辅助矫正平面，并获取待矫正图像中的文档形变信息在辅助矫正平面上的变换关系，通过变换关系进行图像矫正。

作为优选地，在利用深度神经网络对待矫正图像进行特征提取之前进行深度神经网络模型的训练，具体包括：

采集训练样本图像；

对训练样本图像进行打标，描绘出文档在图像中的轮廓，并将打标后的图像转换成训练标签数据；

利用训练样本图像和训练标签数据进行深度学习训练，构建一可从样本图像中计算出标签数据的深度神经网络模型；

对深度神经网络模型进行多次训练，使深度神经网络模型的损失值下降至预定范围内。

作为优选地，根据文档语义分割特征图对文档进行轮廓分析，确定待矫正图像中的文档形变信息，具体包括：

对待矫正图像进行顶层轮廓检测；

对文档语义分割特征图进行文档目标区域检测，将检测出来的文档目标区域集合建立文档目标信息列表，记录各个文档目标区域的信息；

对文档语义分割特征图中的进行直线检测，将检测到的直线拟合出来，并将拟合出的直线集合建立直线信息列表，记录各个直线的信息；

将直线归类到对应的文档目标区域中并进行编码；

对文档目标区域及文档目标区域内的直线进行筛选，确定真实的文档区域及其边角信息。

作为优选地，记录各个文档目标区域的信息包括文档目标区域的中心位置、文档目标区域的范围及文档目标区域的大小；记录各个直线的信息至少包括直线的位置、直线段长及直线斜率。

作为优选地，对文档目标区域及文档目标区域内的直线进行筛选，确定真实的文档区域及其边角信息，具体包括：

通过文档目标区域的中心位置、文档目标区域的范围及文档目标区域的大小来区分真实的文档区域和干扰的文档区域；其中，目标区域的中心位置较靠近待矫正图像中心位置的、文档目标区域的范围较广的及文档目标区域的大小较大的为真实的文档区域；

获取真实的文档区域内的直线，通过直线的位置、直线段长并结合直线斜率对应的关系来确定真实的文档区域边线；

通过真实的文档区域边线确定其边角信息。

作为优选地，构造辅助矫正平面，并获取待矫正图像中的文档形变信息在辅助矫正平面上的变换关系，通过变换关系进行图像矫正，具体包括：

选取采集待矫正图像的尺寸构造辅助矫正平面；

将文档形变信息投射在辅助矫正平面上，并计算出文档形变信息在投射在辅助矫正平面上的透视变换矩阵；

将待矫正图像重映射到辅助矫正平面上，应用透视变换矩阵进行矫正图像。

一种计算机可读存储设备，存储有计算机程序，所述计算机程序被处理器执行以实上述的基于深度学习语义分割的文档矫正方法。

一种移动终端，包括：

处理器，适于执行程序指令；

存储设备，适于存储程序指令，所述程序指令适于由处理器加载并执行以实现上述的基于深度学习语义分割的文档矫正方法。

一种基于深度学习语义分割的文档矫正方法的系统，包括服务器；

服务器包括处理器和存储设备；

处理器，适于执行程序指令；

与现有技术比，本发明的有益效果：

本发明研发了一种基于深度学习语义分割的文档矫正方法，借助深度学习图像技术来识别出图像中的文档形变信息，再通过计算获得文档形变信息在辅助矫正平面上的变换关系，通过变换关系进行图像矫正，以此取消了额外的硬件设备来获取足够的拍摄自由度，突破了操作门槛、应用场景等因素导致的局限性，而且面对复杂文档或带复杂背景的文档时仍能精准可靠地进行图像矫正。

附图说明

图1为本发明实施例中的流程示意图；

图2为本发明实施例中的待矫正图像的示意图；

图3为图2转化后的文档语义分割特征图的示意图；

图4为本发明实施例中顶层轮廓检测的示意图；

图5为本发明实施例中文档目标信息列表的示意图；

图6为本发明实施例中直线信息列表的示意图；

图7为本发明实施例中出现断边时的直线信息列表的示意图；

图8为本发明实施例中图2矫正后的图像的示意图。

具体实施方式

下面将结合具体实施例，对本发明的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通的技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本发明的保护范围。

针对现有的扭曲文档图像的矫正算法中，需要对物体进行多方面拍摄并结合一系列参数进行图像矫正的方法，容易受到操作门槛、应用场景等因素的制约，本发明提供一种基于深度学习语义分割的文档矫正方法，无需额外的硬件设备及其系统标定等支撑，手机等移动设备可获取足够的拍摄自由度，降低了移动端文档扫描用户的操作门槛。并且本发明借助深度学习图像识别技术，面对复杂文档和复杂拍摄背景时仍表现出良好的可靠性和准确度，突破了当前移动端文档扫描的技术瓶颈和场景限制，扩展了更多的可支持场景，具备良好可靠的文档识别能力，可以省去一些当前的补救措施，如主流的措施是让用户调整文档边角点信息的操作环节，从而提高移动端文档扫描的工作效率。适应移动技术时代的发展，实用性高，通过降低操作门槛、扩展应用场景、提高效率等真正推进了移动技术带来的便利性。

一种基于深度学习语义分割的文档矫正方法，如图1所示，可以应用于包括试卷图像在内的不同的文档图像，在进行图像矫正前，先通过相机、扫描仪等扫描设备对图像进行采集，为了更好地体现本发明可适用于复杂背景的文档矫正，本实施例中以如图2所示的一文档放置在复杂背景中的图像为例做说明。在图2中，该文档背景复杂且文档图像较为歪斜，需要矫正。

首先将图2的图像进行图像深度特征分析。具体地，深度神经网络模型包括深度特征提取网络和文档像素分类器，可将图2的图像利用深度神经网络模型对待矫正图像的文档像素分类，划分成文档范围内的像素和文档范围外的干扰像素，进而获得文档语义分割特征图。经过处理后，图2的图像可转化为如图3所示的文档语义分割特征图。与传统的技术方案相比，该文档语义分割特征图能很好的反映文档的语义信息，做到可靠地将文档跟复杂背景分离出来。该模块的输出是一个高维数组，数值为浮点数值。这里将该数组进行可视化处理，转化为计算机视觉中常见的二值图像以供观察，并将其与原图进行图像混合，以查看其像素级别的识别能力。

当然，为了使神经网络模型获取的文档语义分割特征图与待矫正的图像较为贴切、精准，在利用深度神经网络对待矫正图像进行特征提取之前进行深度神经网络模型的训练。进行深度神经网络模型训练时，先采集一定量的文档图像作为训练样本图像，此处的数量可根据实际情况进行选取，应当可以理解，当进行训练越多其效果越好。随后对训练样本图像进行打标，其目的在于描绘出文档在图像中的轮廓，然后将打标后的图像转换成训练标签数据。再利用训练样本图像和训练标签数据进行深度学习训练，也即让该深度神经网络模型通过练样本图像和训练标签数据的对照训练获取从图像中识别出文档的技能，从而构建一可从样本图像中计算出标签数据的深度神经网络模型，以便使用。由于可能会跟实际图像中的文档存在误差，因此可大量多次重复上述步骤的训练，使得深度神经网络模型的损失值下降至预定范围内，使得文档语义分割特征图较为贴近待矫正的图像且不会影响后续的矫正。

获取的文档语义分割特征图是文档在图像中的像素子集，为了完成矫正任务，则需要对文档的姿势作进一步分析，以知道待矫正图像中的文档具体产生何种变形。获取文档语义分割特征图后，根据文档语义分割特征图进行文档建模与分析，根据文档语义分割特征图对文档进行轮廓分析，确定待矫正图像中的文档形变信息。

具体地，如图4所示，有可能文档中的内容存在污迹、表格等等干扰因素，为了减少干扰因素的影响，先对待矫正图像进行顶层轮廓检测。一般而言，文档作为扫描的目标物体，即使出现歪斜等现象，其在图像中占据的比例也应较大，其轮廓也靠近图像边缘，因此通过顶层轮廓检测可避免文档自身内容的干扰。

针对一个待矫正图像中存在多个文档目标区域的问题，对文档语义分割特征图进行文档目标区域检测，确定待矫正图像中有多少个文档区域，将检测出来的文档目标区域集合建立文档目标信息列表，记录各个文档目标区域的信息。如图5所示，记录第0个文档目标区域至第3个文档目标区域的信息，记录各个文档目标区域的信息至少包括文档目标区域的中心位置、文档目标区域的范围及文档目标区域的大小，从而汇集成目标区域的中心位置-文档目标区域的范围-文档目标区域的大小(占比)信息关联集合，方便后续获取相关信息。

对文档语义分割特征图中的进行直线检测，将检测到的直线拟合出来，并将拟合出的直线集合建立直线信息列表，记录各个直线的信息。记录各个直线的信息至少包括直线的位置、直线段长及直线斜率。如图6所示，在轮廓分析中进行直线检测和拟合操作，得到图像中的直线信息列表，从左往右分别是直线第一个断点的横坐标、纵坐标，直线第二个断点的横坐标、纵坐标，直线段长，斜率以及通过False/True表示该直线属于文档的水平线还是竖直线。

将直线归类到对应的文档目标区域中，如图7所示，从文档目标信息列表和直线信息列表就可以对文档语义分割特征图中的所有直线进行编码。一般而言文档具有四条边，而在实际的检测和编码结果中，文档的边缘可能出现折断的情况，一条边被分成多个线段，当原图不能完整包含文档时还会出现缺失边的情况。如图7所示，side表示文档中具体哪一边的编码，当side出现两个相同标记4，说明文档的第4边的边缘可能出现折断的情况而被分为两段，需对文档目标区域及文档目标区域内的直线进行筛选，确定真实的文档区域及其边角信息，让直线附带其所属文档目标的信息，以及每一条直线具体是文档中哪一条边的信息。也就是说对一边多直线的情况进行筛选，从而使得文档各边最多只有一条合适的拟合直线，则可得原图中文档的姿势和形状，借此计算文档的四个边角点以供线性变换模块使用来获取变换关系来矫正。

作为优选地，通过文档目标区域的中心位置、文档目标区域的范围及文档目标区域的大小来区分真实的文档区域和干扰的文档区域；其中，目标区域的中心位置较靠近待矫正图像中心位置的、文档目标区域的范围较广的及文档目标区域的大小较大的为真实的文档区域。获取真实的文档区域内的直线，通过直线的位置、直线段长并结合直线斜率对应的关系来确定真实的文档区域边线，通过真实的文档区域边线确定其边角信息。

确定好相关信息后，就可进行畸变与矫正。首先构造辅助矫正平面，并获取待矫正图像中的文档形变信息在辅助矫正平面上的变换关系，通过变换关系进行图像矫正。具体地，选取采集待矫正图像的尺寸构造辅助矫正平面，可借助相机、扫描仪采集的图像尺寸构造辅助平面，如此在图像重映射时可以更高效率的确保矫正图的清晰度。将文档形变信息投射在辅助矫正平面上，并计算出文档形变信息在投射在辅助矫正平面上的透视变换矩阵，将待矫正图像重映射到辅助矫正平面上，应用透视变换矩阵进行矫正图像，可以理解为利用变换关系的进行逆变换来恢复原来的图像。图2通过矫正后的图像如图8所示，可以获得更稳妥保守的映射结果，此技巧降低了计算量和计算复杂度。

另外，本领域普通技术人员可以理解：实现上述方法实施的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序指令可以存储于一计算机可读取存储介质或存储设备中，该程序指令在执行时，执行上述基于深度学习语义分割的文档矫正方法的步骤；而前述存储介质或存储设备包括但不限于：ROM、RAM、磁盘或者光盘等各种可以存储程序代码的介质。

因此相应地，本发明实施例还提供了一种计算机可读存储设备，存储有计算机程序，所述计算机程序被处理器执行以实现所述基于深度学习语义分割的文档矫正方法。

进一步地，本发明还配套提供了一种相应的移动终端、系统来实现上述基于深度学习语义分割的文档矫正方法，具体为：

一种移动终端，包括：

处理器，适于执行程序指令；

存储设备，适于存储程序指令，所述程序指令适于由处理器加载并执行以实现所述的基于深度学习语义分割的文档矫正方法。

一种基于深度学习语义分割的文档矫正方法的系统，包括服务器；服务器包括处理器和存储设备；

处理器，适于执行程序指令；

以上借助具体实施例对本发明做了进一步描述，但是应该理解的是，这里具体的描述，不应理解为对本发明的实质和范围的限定，本领域内的普通技术人员在阅读本说明书后对上述实施例做出的各种修改，都属于本发明所保护的范围。

Claims

1.一种基于深度学习语义分割的文档矫正方法，其特征在于，包括：

2.根据权利要求1所述的一种基于深度学习语义分割的文档矫正方法，其特征在于，在利用深度神经网络对待矫正图像进行特征提取之前进行深度神经网络模型的训练，具体包括：

采集训练样本图像；

3.根据权利要求1所述的一种基于深度学习语义分割的文档矫正方法，其特征在于，根据文档语义分割特征图对文档进行轮廓分析，确定待矫正图像中的文档形变信息，具体包括：

对待矫正图像进行顶层轮廓检测；

将直线归类到对应的文档目标区域中并进行编码；

4.根据权利要求3所述的一种基于深度学习语义分割的文档矫正方法，其特征在于，记录各个文档目标区域的信息包括文档目标区域的中心位置、文档目标区域的范围及文档目标区域的大小；记录各个直线的信息至少包括直线的位置、直线段长及直线斜率。

5.根据权利要求4所述的一种基于深度学习语义分割的文档矫正方法，其特征在于，对文档目标区域及文档目标区域内的直线进行筛选，确定真实的文档区域及其边角信息，具体包括：

通过真实的文档区域边线确定其边角信息。

6.根据权利要求1所述的一种基于深度学习语义分割的文档矫正方法，其特征在于，构造辅助矫正平面，并获取待矫正图像中的文档形变信息在辅助矫正平面上的变换关系，通过变换关系进行图像矫正，具体包括：

选取采集待矫正图像的尺寸构造辅助矫正平面；

7.一种计算机可读存储设备，存储有计算机程序，其特征在于，所述计算机程序被处理器执行以实现权利要求1至6任意一项所述的基于深度学习语义分割的文档矫正方法。

8.一种移动终端，其特征在于，包括：

处理器，适于执行程序指令；

存储设备，适于存储程序指令，所述程序指令适于由处理器加载并执行以实现权利要求1至6任意一项所述的基于深度学习语义分割的文档矫正方法。

9.一种基于深度学习语义分割的文档矫正方法的系统，其特征在于，包括服务器；

服务器包括处理器和存储设备；

处理器，适于执行程序指令；