CN113591528A

CN113591528A - 文档矫正方法、装置、计算机设备和存储介质

Info

Publication number: CN113591528A
Application number: CN202110163026.8A
Authority: CN
Inventors: 胡益清; 李鑫; 董帅帅; 郑岩; 姜德强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-11-02

Abstract

本申请涉及一种文档矫正方法、装置、计算机设备和存储介质，方法包括：获取待矫正图像；对待矫正图像进行逐层下采样，得到不同尺度的下采样图像特征；基于训练确定的深度学习神经网络提取待矫正图像的图像特征，并根据待矫正图像的图像特征确定待矫正图像的像素偏移矩阵；深度学习神经网络包括级联的第一unet网络和第二unet网络；将第一unet网络的输出结果进行归一化处理后，将归一化处理得到的特征与第一unet网络的输出结果拼接，将得到的拼接特征作为第二unet网络的输入；基于像素偏移矩阵对待矫正图像进行映射，得到待矫正图像的矫正后图像。上述方法无需依赖环境参数，仅需一次处理可获得像素偏移矩阵，处理过程简单，计算量小。

Description

文档矫正方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种文档矫正方法、装置、计算机设备和存储介质。

背景技术

随着技术的发展，出现了将纸质文档转换为电子文档的技术，通过将纸质文档转换为电子文档，可以由线下处理转为线上处理，提高处理效率，便于远距离传递和存档等等。将纸质文档转为电子文档通常采取扫描、拍照等方式，然而在扫描、拍照过程中，可能出现图像扭曲、倾斜等情况，针对出现的这种情况，需将出现扭曲、倾斜的文档图像进行矫正。

相关技术中利用矫正前源图像及摄像环境参数作为先验知识，计算垂直变形系数和水平变形系数，最终矫正源图像。该方法依赖环境参数的设定学习，处理过程复杂，计算量大。

发明内容

基于此，有必要针对上述技术问题，提供一种不依赖环境参数设定的文档矫正方法、装置、计算机设备和存储介质。

一种文档矫正方法，所述方法包括：

获取待矫正图像；

基于训练确定的深度学习神经网络提取所述待矫正图像的图像特征，并根据所述待矫正图像的图像特征确定所述待矫正图像的像素偏移矩阵；所述深度学习神经网络包括级联的第一unet网络和第二unet网络；将所述第一unet网络的输出结果进行归一化处理后，将归一化处理得到的特征与所述第一unet网络的输出结果拼接，将得到的拼接特征作为所述第二unet网络的输入；

基于所述像素偏移矩阵对所述待矫正图像进行映射，得到所述待矫正图像的矫正后图像。

一种文档矫正装置，所述装置包括：

获取模块，用于获取待矫正图像；

像素偏移矩阵确定模块，用于基于训练确定的深度学习神经网络提取所述待矫正图像的图像特征，并根据所述待矫正图像的图像特征确定所述待矫正图像的像素偏移矩阵；所述深度学习神经网络包括级联的第一unet网络和第二unet网络；将所述第一unet网络的输出结果进行归一化处理后，将归一化处理得到的特征与所述第一unet网络的输出结果拼接，将得到的拼接特征作为所述第二unet网络的输入；

映射模块，用于基于所述像素偏移矩阵对所述待矫正图像进行映射，得到所述待矫正图像的矫正后图像。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待矫正图像；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待矫正图像；

上述文档矫正方法、装置、计算机设备和存储介质，基于训练确定的深度学习神经网络对于获取的待矫正图像进行图像特征的提取，并基于提取的图像特征确定待矫正图像的像素偏移矩阵，然后利用该像素偏移矩阵对待矫正图像进行映射，得到对应的矫正后图像；其中，深度学习神经网络由两个级联的unet网络构成，将第一unet网络的输出结果进行归一化后，归一化结果与第一unet网络的输出结果拼接，得到的拼接特征作为第二unet网络的输入；第二unet网络的输出结果为深度学习神经网络的输出结果，即像素偏移矩阵。上述方法通过一个由级联的两个unet网络构成的深度学习神经网络对待矫正图像提取图像特征，并基于提取的图像特征确定对应的像素偏移矩阵，而深度学习神经网络经训练确定，可以很好的学习到扭曲的待矫正图像与对应的基准图像之间的偏移，从而生成待矫正图像的像素偏移矩阵，进而基于像素偏移矩阵对待矫正图像进行像素映射，最终得到矫正后图像。该方法无需依赖环境参数，仅需一次处理可获得像素偏移矩阵，处理过程简单，计算量小。

附图说明

图1为一个实施例中文档矫正方法的应用环境图；

图2为一个实施例中文档矫正方法的流程示意图；

图3为一个具体实施例中级联的两个unet网络的结构示意图；

图4为另一个实施例中文档矫正方法的流程示意图；

图5(1)为一个具体实施例中待矫正图像的示意图；

图5(2)为一个具体实施例中矫正后图像的示意图；

图6为一个实施例中深度学习神经网络的训练过程的流程示意图；

图7(1)为一个具体实施例中构造得到的扭曲样本图像的示意图；

图7(2)为另一个具体实施例中构造得到的扭曲样本图像的示意图；

图8为一个具体实施例中待矫正图像、矫正后图像以及各平滑处理得到的图像结果示意图；

图9为一个实施例中文档矫正装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的文档矫正方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。

在其中的一些实施例中，该应用环境可同时涉及终端102和服务器104。服务器104获取通过终端102输入的待矫正图片，对于待矫正图像进行逐层下采样，然后对于下采样的最后一个层次的图像特征进行逐层上采样，将下采样和上采样中属于同一层次的图像特征合并，得到待矫正图像的像素偏移矩阵，然后利用该像素偏移矩阵对待矫正图像进行映射，得到对应的矫正后图像。进一步地，服务器104还可以将矫正后图像反馈给终端102。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在另一些实施例中，也可以是终端102获取到待矫正图像之后，由终端102对图像进行下采样、上采样和合并等操作，得到待矫正图像的像素偏移矩阵，然后利用像素偏移矩阵对待矫正图像进行映射得到矫正后图像。

在一个实施例中，如图2所示，提供了一种文档矫正方法，以该方法应用于图1中的服务器为例进行说明，包括步骤S210至步骤S230。

步骤S210，获取待矫正图像。

待矫正图像为需要进行矫正的图像，在一个实施例中，待矫正图像包括扭曲图像、倾斜图像等等。

步骤S220，基于训练确定的深度学习神经网络提取待矫正图像的图像特征，并根据待矫正图像的图像特征确定待矫正图像的像素偏移矩阵；深度学习神经网络包括级联的第一unet网络和第二unet网络；将第一unet网络的输出结果进行归一化处理后，将归一化处理得到的特征与第一unet网络的输出结果拼接，将得到的拼接特征作为第二unet网络的输入。

在本实施例中，unet网络包括预设数目层下采样模块和预设数目层上采样模块，其中，预设数目层下采样模块对输入图像/输入图像特征进行逐层下采样，得到不同尺度的下采样图像；预设数目层上采样模块对最后一层下采样模块输出的下采样图像特征进行逐层上采样，得到不同尺度的上采样图像特征，并将属于同一尺度的上采样图像特征和下采样图像特征进行跨层连接，得到跨层连接图像特征。其中，下采样模块和上采样模块输出的图像特征的尺度一一对应。

其中，下采样(subsampled)，也即降采样(downsampled)，下采样的主要目的有两个：使得图像符合显示区域的大小；生成对应图像的缩略图。下采样的原理：对于一幅图像I尺寸为M*N，对其进行s倍下采样，即得到尺寸为(M/s)*(N/s)的分辨率图像，s为M和N的公约数；如果考虑的是矩阵形式的图像，就是把原始图像s*s窗口内的图像变成一个像素，这个像素点的值就是窗口内所有像素的均值。在一个实施例中，逐层下采样最终输出的图像特征为预设大小的图像特征，例如逐层下采样最终输出的图像特征的大小为1*1。

其中，在一个实施例中，unet网络中的任意一层下采样模块的结构可以是完全相同的，也可以是不完全相同的。在一个实施例中，各层下采样模块的结构相同；下采样模块包括泄露性线性矫正单元、卷积单元和批正规化单元；进一步地，在其中的一个具体实施例中，下采样模块的卷积单元的卷积核大小为4，步长为2。

上采样(upsampling)的主要目的是放大原图像，从而可以显示在更高分辨率的显示设备上。上采样的原理：图像放大几乎都是采用内插值方法，即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。

其中，在一个实施例中，unet网络中的任意一层上采样模块的结构可以是完全相同的，也可以是不完全相同的。在一个实施例中，各层上采样模块的结构相同，上采样模块包括线性矫正单元、反卷积单元、批正规化单元和合并单元；进一步地，在其中的一个具体实施例中，反卷积单元的卷积核大小为4，步长为2。

在本实施例中，对最后一个尺度的下采样图像特征进行逐层上采样之后，得到不同尺度的上采样图像特征。进一步地，上采样特征图像的各尺度分别与下采样图像特征的各尺度对应。

进一步地，在得到各尺度的下采样图像特征和各尺度的上采样图像特征之后，各层上采样模块还将本层输出的上采样图像特征与属于同一尺度的下采样图像特征进行跨层连接，从而得到跨层连接图像特征。在一个实施例中，对同一尺度的下采样图像特征和上采样图像特征进行跨层连接可以通过任意一种方式实现。

进一步地，在一个实施例中，将属于同一尺度的下采样图像特征和上采样图像特征进行跨层连接之后，还包括：对跨层连接图像特征进行区间矫正。在一个实施例中，可以采用激活函数对跨层连接图像特征进行区间矫正。在一个具体实施例中，通过双曲正切单元(tanh)对合并的输出结果进行区间矫正，得到[-1,1]之间的输出结果。

如图3所示为一个具体实施例中级联的两个unet网络的深度学习神经网络的结构示意图。

步骤S230，基于像素偏移矩阵对待矫正图像进行映射，得到待矫正图像的矫正后图像。

其中，矫正后图像为本实施例中对待矫正图像进行矫正后输出的图像。在得到待矫正图像的像素偏移矩阵之后，利用像素偏移矩阵对待矫正图像进行逐像素映射，即可得到待矫正图像对应的矫正后图像。

在一个实施例中，如图4所示，在基于像素偏移矩阵对待矫正图像进行映射，得到待矫正图像的矫正后图像之前，还包括步骤S410：对像素偏移矩阵进行平滑处理，得到平滑后偏移矩阵；在本实施例中，基于像素偏移矩阵对待矫正图像进行映射，得到待矫正图像的矫正后图像包括S420：基于平滑后偏移矩阵对待矫正图像进行映射，得到矫正后图像。

平滑，也可叫滤波，或者合在一起叫平滑滤波，平滑滤波是低频增强的空间域滤波技术。它的目的有两类：一类是模糊；另一类是消除噪音。在本实施例中，对像素偏移矩阵进行平滑处理的目的是消除噪音。在一个实施例中，平滑处理包括均值滤波、中值滤波、高斯滤波和双边滤波，等等处理方式。

进一步地，在一个实施例中，对像素偏移矩阵进行平滑处理，得到平滑后偏移矩阵包括：以第一预设大小的窗口对像素偏移矩阵进行高斯平滑处理，得到高斯平滑偏移矩阵；以第二预设大小的窗口对高斯平滑偏移矩阵进行平均平滑，得到平滑后偏移矩阵。

高斯平滑滤波是一种线性平滑滤波，适用于消除高斯噪声，广泛应用于图像处理的减噪过程。通俗的讲，高斯滤波就是对整幅图像进行加权平均的过程，每一个像素点的值，都由其本身和邻域内的其他像素值经过加权平均后得到。高斯滤波的常规操作是：用一个模板(或称卷积、掩模)扫描图像中的每一个像素，用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值。在本实施例中，采用第一预设大小的窗口对像素偏移矩阵进行平滑处理。进一步地，在一个具体实施例中，高斯平滑处理时采用的窗口中横向窗口大小为h/2，纵向窗口大小为w/3，其中，h和w分别表示待矫正图像的高和宽。

在一个具体实施例中，平均平滑的第二预设窗口中横向窗口大小为h/2，纵向窗口大小为w/3，其中，h和w分别表示待矫正图像的高和宽。进一步地，在一个实施例中，对高斯平滑偏移矩阵可以进行多次平均平滑操作，重复操作可得到更好的矫正后图像的恢复效果。

在本实施例中，通过对像素偏移矩阵进行平滑处理之后，再对待矫正图像进行映射，尽可能的去除逐层下采样、逐层上采样的过程在像素偏移矩阵带来的噪声，避免利用该像素偏移矩阵进行矫正时，在矫正后矩阵中带来的局部不连续，主观评估有人工感等问题；利用平滑处理后的像素偏移矩阵进行矫正，得到的矫正后图像中文本文字接近水平，无局部扭曲，且人眼主观评估无人工感。如图5(1)所示为待矫正图像的示意图，如图5(2)所示为一个具体实施例中对待矫正图像进行矫正后输出的矫正后图像。

上述文档矫正方法，基于训练确定的深度学习神经网络对于获取的待矫正图像进行图像特征的提取，并基于提取的图像特征确定待矫正图像的像素偏移矩阵，然后利用该像素偏移矩阵对待矫正图像进行映射，得到对应的矫正后图像；其中，深度学习神经网络由两个级联的unet网络构成，将第一unet网络的输出结果进行归一化后，归一化结果与第一unet网络的输出结果拼接，得到的拼接特征作为第二unet网络的输入；第二unet网络的输出结果为深度学习神经网络的输出结果，即像素偏移矩阵。上述方法通过一个由级联的两个unet网络构成的深度学习神经网络对待矫正图像提取图像特征，并基于提取的图像特征确定对应的像素偏移矩阵，而深度学习神经网络经训练确定，可以很好的学习到扭曲的待矫正图像与对应的基准图像之间的偏移，从而生成待矫正图像的像素偏移矩阵，进而基于像素偏移矩阵对待矫正图像进行像素映射，最终得到矫正后图像。该方法无需依赖环境参数，仅需一次处理可获得像素偏移矩阵，处理过程简单，计算量小。

在一个实施例中，如图6所示，深度学习神经网络的训练过程包括步骤S610至步骤S640。

步骤S610，将扭曲样本图像输入预设深度学习神经网络框架。

深度学习(Machine Learning,ML)是机器学习领域中的一个新的研究方向；机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

步骤S620，获取预设深度学习神经网络框架输出的扭曲样本图像的预测像素偏移矩阵。

预设深度学习神经网络框架为预先设定的，通过对预设深度学习神经网络进行训练得到深度学习神经网络。在一个实施例中，预设深度学习神经网络框架包括级联的两个unet网络，unet网络包括依次连接的预设数目层下采样模块、依次连接的预设数目层上采样模块；其中，每一个下采样模块包括泄露性线性矫正单元、卷积单元和批正规化单元。每一个上采样模块包括线性矫正单元、反卷积单元、批正规化单元和合并单元；合并单元将所在层的上采样图像特征与对应尺度的下采样图像特征进行跨尺度连接，得到跨尺度连接图像特征。

在另一个实施例中，合并单元也可以独立于上采样模块单独设置，即上采样模块仅包括线性矫正单元、反卷积单元和批正规化单元，上采样模块输出上采样图像特征之后，再由合并单元对上采样图像特征和同一尺度的下采样图像特征进行跨尺度连接，得到跨尺度连接图像特征。

进一步地，在另一个实施例中，unet网络在上采样模块之后还包括双曲正切单元，双曲正切单元用于对跨尺度连接特征进行区间矫正，将合并单元的输出结果矫正至[-1,1]的区间中。

在另一个实施例中，预设深度学习神经网络包括级联的两个unet网络，将第一个unet网络的输出和最后一个尺度的上采样图像特征拼接之后，作为第二个unet网络的输入。

级联两个unet网络作为深度学习神经网络框架，可在训练过程中更好的学习样本图像组之间复杂的映射关系，使训练确定的深度学习神经网络达到更好的学习效果。

步骤S630，基于预测像素偏移矩阵、预设损失函数确定损失函数值。

损失函数(loss function)或代价函数(cost function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在机器学习中损失函数通常被用于模型的参数估计，利用损失函数确定模型的效果，进而基于损失函数在训练过程中对模型进行调整。在本实施例中，深度学习神经网络的训练过程中采用的损失函数包括：单像素预测损失、相邻像素偏移差损失和完全变化损失。

将预设深度学习神经网络框架输出的扭曲样本图像对应的预测像素偏移矩阵输入预设损失函数，获得对应的损失函数值。

步骤S640，根据损失函数值对预设深度学习神经网络框架进行训练，直至获得深度学习神经网络。

在得到预测像素偏移矩阵之后，可根据预测像素偏移矩阵和真实像素偏移矩阵之间的差异确定损失函数值，并结合损失函数值对预设深度学习神经网络进行训练，直至获得深度学习神经网络。其中，对预设深度学习神经网络进行训练的训练终止条件可以根据实际情况进行设置。

进一步地，在一个实施例中，单像素预测损失包括：预测像素偏移矩阵与真实像素偏移矩阵中对应各像素偏移值之间的距离；真实像素偏移矩阵由扭曲样本图像与对应的正常样本图像确定。

在一个实施例中，对预设深度学习神经网络进行训练所用的扭曲样本图像为基于正常样本图像进行扭曲变换得到，因此对于扭曲样本图像的真实像素偏移矩阵可根据扭曲样本图像和正常样本图像确定。

进一步地，预测像素偏移矩阵与真实像素偏移矩阵中对应各像素偏移值之间的距离，包括：预测像素偏移矩阵和真实像素偏移矩阵中同一位置的像素偏移值之间的距离。更进一步地，在一个实施例中，计算两个像素偏移值之间的距离可采用任意一种方式计算；例如计算两个像素偏移值之间的L1距离。

在一个实施例中，相邻像素偏移差损失包括：预测像素偏移矩阵中相邻两像素偏移值之间的距离。

在真实场景中，位置接近的像素偏移方向相似的概率大，即偏移存在局部聚集的可能，因此在本实施例中，对于预测像素矩阵中计算两两相邻像素偏移值之间的距离，作为相邻像素偏移差损失项。

在一个实施例中，完全变化损失包括：将预测像素偏移矩阵移向预设方向移动得到移动后偏移矩阵；将预测像素偏移矩阵与移动后偏移矩阵中对应元素计算得到残差矩阵；计算残差矩阵中所有元素的平方和作为完全变化损失。

为了进一步强化偏移的局部聚集特征，本实施例中，还引入了完全变化损失，通过计算位置移动之后的预测像素矩阵与预测像素矩阵之间的差值，本实施例中记为残差矩阵，然后计算残差矩阵中各元素的平方和作为完全变化损失。

本实施例中，采用包括单像素预测损失、相邻像素偏移差损失和完全变化损失在内的损失函数对预设深度学习神经网络框架进行训练，可提升模型学习效果。

在一个实施例中，扭曲样本图像的构建包括：获取正常目标物体图像；从扭曲函数集合中随机选取目标扭曲函数；基于目标扭曲函数对正常目标物体图像进行映射，得到对应的扭曲目标物体图像；将扭曲目标物体图像与随机背景组合，得到扭曲样本图像。

其中，目标物体是指用于进行偏移的物体，可以是任意一种物体，例如可以是文档、表格等等。正常目标物体图像即表示目标物体的无扭曲、倾斜情况的图像。

扭曲函数集合用于对正常目标物体图像进行扭曲处理，以得到正常目标图像对应的扭曲目标物体图像。在一个实施例中，扭曲函数集合包括扭曲函数序列和折叠函数序列；从扭曲函数集合中随机选取目标扭曲函数包括：依次从扭曲函数序列和折叠函数序列中随机选取函数，作为目标扭曲函数。

其中，扭曲函数和折叠函数分别为两种对图像中像素点产生作用力，在一个实施例中，该作用力使作用于的像素点在新的图像中的位置发生变化。扭曲函数和折叠函数可以根据实际情况进行设置。

在利用选取的目标扭曲函数对正常目标物体图像进行扭曲处理之后，可得到对应的正常目标物体图像对应的扭曲目标物体图像。由于真实场景中很大一部分扭曲图像均为对目标物体进行拍摄得到，而拍摄场景中还包含其他物体，即背景图像信息，因此在本实施例中，在构造得到扭曲目标物体图像之后，将扭曲目标物体图像与背景图像进行组合，得到扭曲样本图像。

进一步地，将扭曲目标物体图像与随机背景组合，得到扭曲样本图像具体可以通过以下方式实现：从背景图像数据库中随机抽取背景图像，将扭曲目标物体图像贴于所选取的背景图像上，得到扭曲样本图像；可以理解地，在本实施例中，背景图像的尺寸大于扭曲样本图像的尺寸。

在本实施例中，通过选取扭曲函数和折叠函数对正常目标物体图像进行处理，以得到目标物体的扭曲图像，然后将扭曲图像随机与背景结合得到的图像作为训练深度学习神经网络的扭曲样本图像，可增加数据的泛化能力。

在一个实施例中，基于目标扭曲函数对正常目标物体图像进行映射，得到对应的扭曲目标物体图像，包括：在正常目标物体图像中选取变换中心点；随机生成经过变换中心点的偏移源向量；分别计算正常目标物体图像中各像素与偏移源向量之间的像素距离；基于目标扭曲函数确定各像素距离的目标函数值；对于正常目标物体图像中各像素点，分别以对应像素距离的目标函数值进行偏移，得到扭曲目标物体图像。

如图7所示，为一个具体实施例中采用上述方法构造得到的扭曲样本图像的示意图。在另一个实施例中，也可以采用对抗生成网络基于正常样本图像构造生成对应的扭曲样本图像。

本实施例中，通过选取扭曲函数和折叠函数，并利用选取的扭曲函数和折叠函数对正常的目标物体的图像进行扭曲处理，可以得到目标物体的扭曲图像，进而将扭曲图像与背景进行随机组合，可构造得到扭曲样本图像，用于对预设深度学习神经网络框架进行训练，简化了训练用的样本数据的构建流程，相较于传统方式中人工构造扭曲样本图像而言，减少了人力，提高的处理效率。

本申请还提供一种应用场景，该应用场景应用上述的文档矫正方法。具体地，该文档矫正方法在该应用场景应用于核保类文档图像的矫正，在其它实施例中，上述文档矫正方法也可以应用于其它图像的矫正。其中，核保表示保险核保，保险核保是指保险人在对投保的标的信息全面掌握、核实的基础上，对可保风险进行评判与分类，进而决定是否承保、以什么样的条件承保的过程。在核保过程中，核保人员会按标的物的不同风险类别给予不同的承保条件，保证业务质量，保证保险经营的稳定性。而核保类文档则表示在核保过程中产生的文档数据；在一个实施例中，核保类文档包括：保险公司出具给投保人的保险相关文件的文档、投保人在医院进行体检时医院提供的体检单以及单据等等。上述文档矫正方法应用于核保类文档的场景时，在以上至少三种类型的异源核保类文档上可获得较好的矫正率。

以unet网络为基础网络结构，构建预设深度学习神经网络框架；具体将两个unet网络级联作为预设深度学习神经网络框架。

其中，针对第一个unet网络，结构包括：多个下采样模块、多个上采样模块和双曲正切单元。其中，第一个unet网络的各下采样模块用于对输入的图像进行逐层下采样，得到不同尺度下的上采样图像特征；各上采样模块用于对最后一个尺度的下采样图像特征进行逐层上采样，得到不同尺度下的上采样图像特征，并将同一尺度的下采样图像特征与上采样图像特征进行合并，得到合并后的图像特征；最后由双曲正切单元对合并后的图像特征进行区间调整，将合并后的图像特征矫正到[-1,1]区间中。

针对第二个unet网络：将第一个unet网络的双曲正切单元的输出和最后一个尺度的上采样图像特征，进行拼接得到的输出结果作为第二个unet网络的输入。第二个unet网络通过利用多个下采样模块对输入进行逐层下采样，然后利用多个上采样模块进行逐层上采样，并将同一尺度的下采样图像特征和上采样图像特征进行合并，得到合并后的图像特征，再利用第二个unet网络的双曲正切单元将第二个unet网络合并后的图像特征矫正到[-1,1]区间中。在一个实施例中，第一个unet网络和第二个unet网络的结构相同。

构建预设深度学习神经网络框架之后，需利用样本图像对该神经网络框架进行训练。不同于其他常见深度学习任务，当前任务难以通过常用的人工图片标注方法来建立训练数据：标注人员需要人工制造真实图片的扭曲，拍照获取扭曲图像，同时得到扭曲变换的偏移矩阵。该方式需要耗费大量人力，且正常图片和扭曲图片间的映射关系是复杂的非线性变换，难以精准获取。鉴于此，基于图形学相关知识，设计了以下流程来构造扭曲样本：

设计扭曲函数集合G＝{{d},{c}}，其中{d}是扭曲函数序列，{c}是折叠函数序列。对每一张输入的正常目标物体图像，从{d}中随机选取若干个函数，从{c}中随机选取若干个函数，对一张正常目标物体图像上的每一个像素，依次应用选取的扭曲函数和/或折叠函数进行映射，将正常目标物体图像上的每一个像素映射到一张空白图片上来构造扭曲图片。其中，这两种函数序列的实现如下：首先随机在正常目标物体图像上选择一个点p＝(p_x,p_y)作为变换中心，同时随机生成一个过该点的偏移源向量v＝{v_x,v_y}。以变换中心p为核心，正常目标物体图像全图的所有像素(x,y)计算自身到偏移向量v的距离d，然后偏移到(f(d)+x,f(d)+y)。影响函数f(d)可以是选取的扭曲函数或者折叠函数；对扭曲函数序列来说，影响函数f(d)为变量d的正比例函数，对折叠函数序列来说，影响函数g(d)为变量d的反比例函数。影响具体函数形式可基于具体场景调整。在产生扭曲目标物体图像的同时，同时记录正常目标物体图像的像素偏移矩阵，偏移矩阵中的每一个元素是正常目标物体图像中像素到扭曲目标物体图像中像素的偏移(△x,△y)。最后，将生成的扭曲目标物体图像贴在随机背景上，得到扭曲样本图像，用以增强数据的泛化能力。

利用构造得到的扭曲样本图像对预设深度学习神经网络框架进行训练：将扭曲样本图像输入预设深度学习神经网络框架中，输出扭曲样本图像的预测像素偏移矩阵，将预测像素偏移矩阵与真实像素偏移矩阵进行比较确定损失函数值，然后对预设深度学习神经网络框架进行训练，得到深度学习神经网络。

其中，训练所使用的损失函数包括1)单像素预测损失与2)相邻像素偏移差损失与3)完全变化损失。其中，单像素预测损失直接计算预测矩阵中每个像素偏移d_r与真实偏移d_g间的L1距离。相邻像素偏移差计算两两像素偏移d_r1与d_r2之间的L1距离，针对真实场景中偏移的局部聚集特征(位置接近的像素偏移方向相似的概率大)。完全变化损失函数计算所输入偏移矩阵相邻行/列之间的残差矩阵(预测像素偏移矩阵减去预测像素偏移矩阵向右/下移动一列/行)，并对残差矩阵中的每一个元素的平方距离求和作为输出。将三部分的损失求和作为本实施例中训练深度学习神经网络的最终损失函数。

训练完成后，得到训练确定的深度学习神经网络。将获取的待矫正图像输入训练确定的神经网络模型，经由级联的两个unet网络提取图像特征，输出待矫正图像的像素偏移矩阵。

利用像素偏移矩阵M对待矫正图像进行逐像素映射map(D,M)，即可得到矫正后图像。但由于学习任务的复杂性，逐像素回归往往存在噪声，体现到恢复图上往往暴露出局部区域不连续，主观评估有明显人工感(artificial)等问题。为了解决这些问题，对输出的像素偏移矩阵进行平滑，之后再对图像进行映射，map(D,smooth(M))。具体为先采用高斯平滑，然后采用多次平均平滑，得到平滑后偏移矩阵。然后利用平滑后偏移矩阵对待矫正图像进行逐像素映射，得到矫正后图像。其中，高斯平滑的横向窗口大小为h/2，纵向窗口大小为w/3,其中h，w为图像的高和宽。平均平滑的横向窗口大小为h/2，纵向窗口大小为w/3。高斯平滑有效地平滑了局部噪声，重复若干次平均平滑操作可达到良好的恢复效果。最终输出图片中，文本文字接近水平，输出图像无局部扭曲，人眼主观评估无人工感。如图8所示为一个具体实施例中，待矫正图像、矫正后图像以及各平滑处理得到的图像结果示意图。

上述方法中，采用深度学习神经网络对待矫正图像输出像素偏移矩阵，并对像素偏移矩阵进行平滑处理之后，基于平滑处理后的像素偏移矩阵对待矫正图像进行扭曲恢复，可获得高质量的矫正后图像；矫正后图像无局部扭曲，其中的文本文字接近水平，提高了矫正后图像的质量。

本申请还提供一种应用场景，该应用场景应用上述的文档矫正方法。具体的，在应用上述文档矫正方法对待矫正图像进行矫正后，获得矫正后图像，可更好地保障图片质量；进一步地，对获得的矫正后图像进行光学字符识别，可提高光学字符识别及后续信息提取的效果，为光学字符识别和信息提取提供有力技术支撑。

进一步地，在另一个实施例中，将上述文档矫正方法融合成为光学字符识别网络的一部分，从而使得深度学习网络实现端到端的整个流程，减少中间结果转换处理的开销。

应该理解的是，虽然上述任意一个实施例中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述任意一个实施例中的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种文档矫正装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块910、像素偏移矩阵确定模块920和映射模块930，其中：

获取模块910，用于获取待矫正图像；

像素偏移矩阵确定模块920，用于基于训练确定的深度学习神经网络提取待矫正图像的图像特征，并根据待矫正图像的图像特征确定待矫正图像的像素偏移矩阵；深度学习神经网络包括级联的第一unet网络和第二unet网络；将第一unet网络的输出结果进行归一化处理后，将归一化处理得到的特征与第一unet网络的输出结果拼接，将得到的拼接特征作为第二unet网络的输入；

映射模块930，用于基于像素偏移矩阵对待矫正图像进行映射，得到待矫正图像的矫正后图像。

上述文档矫正装置，基于训练确定的深度学习神经网络对于获取的待矫正图像进行图像特征的提取，并基于提取的图像特征确定待矫正图像的像素偏移矩阵，然后利用该像素偏移矩阵对待矫正图像进行映射，得到对应的矫正后图像；其中，深度学习神经网络由两个级联的unet网络构成，将第一unet网络的输出结果进行归一化后，归一化结果与第一unet网络的输出结果拼接，得到的拼接特征作为第二unet网络的输入；第二unet网络的输出结果为深度学习神经网络的输出结果，即像素偏移矩阵。上述装置通过一个由级联的两个unet网络构成的深度学习神经网络对待矫正图像提取图像特征，并基于提取的图像特征确定对应的像素偏移矩阵，而深度学习神经网络经训练确定，可以很好的学习到扭曲的待矫正图像与对应的基准图像之间的偏移，从而生成待矫正图像的像素偏移矩阵，进而基于像素偏移矩阵对待矫正图像进行像素映射，最终得到矫正后图像。该方法无需依赖环境参数，仅需一次处理可获得像素偏移矩阵，处理过程简单，计算量小。

在一个实施例中，上述装置还包括：平滑处理模块，用于对像素偏移矩阵进行平滑处理，得到平滑后偏移矩阵；在本实施例中，上述装置的映射模块930具体用于：基于平滑后偏移矩阵对待矫正图像进行映射，得到矫正后图像。

在一个实施例中，上述装置的平滑处理模块包括：高斯平滑单元，用于：以第一预设大小的窗口对像素偏移矩阵进行高斯平滑处理，得到高斯平滑偏移矩阵；平均平滑单元，用于以第二预设大小的窗口对高斯平滑偏移矩阵进行平均平滑，得到平滑后偏移矩阵。

在一个实施例中，上述装置还包括训练模块，用于：将扭曲样本图像输入预设深度学习神经网络框架；获取预设深度学习神经网络框架输出的扭曲样本图像的预测像素偏移矩阵；基于预测像素偏移矩阵、预设损失函数确定损失函数值；根据损失函数值对预设深度学习神经网络框架进行训练，直至获得深度学习神经网络。

在一个实施例中，上述装置中预设损失函数包括：单像素预测损失、相邻像素偏移差损失和完全变化损失。

在一个实施例中，单像素预测损失包括：预测像素偏移矩阵与真实像素偏移矩阵中对应各像素偏移值之间的距离；真实像素偏移矩阵由扭曲样本图像与对应的正常样本图像确定。

在一个实施例中，上述装置还包括：扭曲样本图像构建模块，包括：正常图像获取单元用于：获取正常目标物体图像；函数选取单元，用于从扭曲函数集合中随机选取目标扭曲函数；映射单元，用于：基于目标扭曲函数对正常目标物体图像进行映射，得到对应的扭曲目标物体图像；背景组合单元，用于将扭曲目标物体图像与随机背景组合，得到扭曲样本图像。

在一个实施例中，上述装置的映射单元，包括：中心点选取子单元，用于在正常目标物体图像中选取变换中心点；向量生成子单元，用于随机生成经过变换中心点的偏移源向量；距离计算子单元，用于分别计算正常目标物体图像中各像素与偏移源向量之间的像素距离；函数值确定子单元，用于基于目标扭曲函数确定各像素距离的目标函数值；偏移处理子单元，用于对于正常目标物体图像中各像素点，分别以对应像素距离的目标函数值进行偏移，得到扭曲目标物体图像。

关于文档矫正装置的具体限定可以参见上文中对于文档矫正方法的限定，在此不再赘述。上述文档矫正装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文档矫正方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文档矫正方法，其特征在于，所述方法包括：

获取待矫正图像；

2.根据权利要求1所述的文档矫正方法，其特征在于，在基于所述像素偏移矩阵对所述待矫正图像进行映射，得到所述待矫正图像的矫正后图像之前，还包括：对所述像素偏移矩阵进行平滑处理，得到平滑后偏移矩阵；

所述基于所述像素偏移矩阵对所述待矫正图像进行映射，得到所述待矫正图像的矫正后图像，包括：基于所述平滑后偏移矩阵对所述待矫正图像进行映射，得到所述矫正后图像。

3.根据权利要求2所述的文档矫正方法，其特征在于，所述对所述像素偏移矩阵进行平滑处理，得到平滑后偏移矩阵包括：

以第一预设大小的窗口对所述像素偏移矩阵进行高斯平滑处理，得到高斯平滑偏移矩阵；

以第二预设大小的窗口对所述高斯平滑偏移矩阵进行平均平滑，得到所述平滑后偏移矩阵。

4.根据权利要求1所述的文档矫正方法，其特征在于，所述深度学习神经网络的训练过程包括：

将扭曲样本图像输入预设深度学习神经网络框架；

获取所述预设深度学习神经网络框架输出的所述扭曲样本图像的预测像素偏移矩阵；

基于所述预测像素偏移矩阵、预设损失函数确定损失函数值；

根据所述损失函数值对所述预设深度学习神经网络框架进行训练，直至获得所述深度学习神经网络。

5.根据权利要求4所述的文档矫正方法，其特征在于，所述预设损失函数包括：单像素预测损失、相邻像素偏移差损失和完全变化损失。

6.根据权利要求5所述的文档矫正方法，其特征在于，包括以下至少一项：

第一项，

所述单像素预测损失包括：所述预测像素偏移矩阵与真实像素偏移矩阵中对应各像素偏移值之间的距离；所述真实像素偏移矩阵由所述扭曲样本图像与对应的正常样本图像确定；

第二项，

所述相邻像素偏移差损失包括：所述预测像素偏移矩阵中相邻两像素偏移值之间的距离；

第三项，

所述完全变化损失包括：将所述预测像素偏移矩阵移向预设方向移动得到移动后偏移矩阵；将所述预测像素偏移矩阵与所述移动后偏移矩阵中对应元素计算得到残差矩阵；计算所述残差矩阵中所有元素的平方和作为所述完全变化损失。

7.根据权利要求4所述的文档矫正方法，其特征在于，所述扭曲样本图像的构建包括：

获取正常目标物体图像；

从扭曲函数集合中随机选取目标扭曲函数；

基于所述目标扭曲函数对所述正常目标物体图像进行映射，得到对应的扭曲目标物体图像；

将所述扭曲目标物体图像与随机背景组合，得到所述扭曲样本图像。

8.根据权利要求7所述的文档矫正方法，其特征在于，所述基于所述目标扭曲函数对所述正常目标物体图像进行映射，得到对应的扭曲目标物体图像，包括：

在所述正常目标物体图像中选取变换中心点；

随机生成经过所述变换中心点的偏移源向量；

分别计算所述正常目标物体图像中各像素与所述偏移源向量之间的像素距离；

基于所述目标扭曲函数确定各所述像素距离的目标函数值；

对于所述正常目标物体图像中各像素点，分别以对应像素距离的目标函数值进行偏移，得到所述扭曲目标物体图像。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。