CN116309162A

CN116309162A - 文档图片校正方法及装置

Info

Publication number: CN116309162A
Application number: CN202310275070.7A
Authority: CN
Inventors: 梁增龑
Original assignee: Beijing Feixiang Xingxing Technology Co ltd
Current assignee: Beijing Feixiang Xingxing Technology Co ltd
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-06-23

Abstract

本说明书提供文档图片校正方法及装置，其中文档图片校正方法包括：获取待校正图片和对应的参考图片，其中，待校正图片和参考图片均为文档对应的图片，参考图片不包括手写内容，且参考图片中印刷内容与待校正图片一致；将待校正图片与参考图片进行匹配，确定待校正图片中的手写文字区域；将手写文字区域渲染在参考图片中对应的渲染位置，获得待校正图片校正后的目标图片。这种情况下，可以将待校正图片和参考图片进行匹配，提取出待校正图片中的手写文字区域，并将提取获得的手写文字区域渲染到参考图片上的对应位置处，达到校正文档图片的目的，保证了文档图片的校正效果。

Description

文档图片校正方法及装置

技术领域

本说明书涉及图像处理技术领域，特别涉及一种文档图片校正方法。本说明书同时涉及一种文档图片校正装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

近年来随着计算机技术、互联网产业、网络基建和终端设备的高速发展和迭代，图像处理技术也随之高速发展，各种纸质版的文档可以通过拍摄装置拍摄为文档图片，便于对大量的文档进行存储、管理和一些自动化处理。用户上传的文档图片往往存在光照不均、阴影、褶皱、噪点、暗光、色偏等问题，导致后续对文档图片进行自动化处理的效率和准确率较低。

现有技术中，往往是通过预先训练好的语义分割模型，对用户上传的文档图片进行美化，从而有效去除文档图片中的光照不均、阴影、褶皱、噪点、暗光、色偏等问题。

然而，有些文档图片因拍摄角度还可能存在形状畸变、旋转、平移等问题，通过预先训练好的语义分割模型对文档图片进行美化，并不能解决这些问题，同时美化后还有可能出现图画镂空、字体粗等问题，导致文档图片校正效果差，进而影响后续对文档图片进行自动化处理的效率和准确率。

发明内容

有鉴于此，本说明书实施例提供了一种文档图片校正方法。本说明书同时涉及一种文档图片校正装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种文档图片校正方法，包括：

获取待校正图片和对应的参考图片，其中，待校正图片和参考图片均为文档对应的图片，参考图片不包括手写内容，且参考图片中印刷内容与待校正图片一致；

将待校正图片与参考图片进行匹配，确定待校正图片中的手写文字区域；

将手写文字区域渲染在参考图片中对应的渲染位置，获得待校正图片校正后的目标图片。

根据本说明书实施例的第二方面，提供了一种文档图片校正装置，包括：

获取模块，被配置为获取待校正图片和对应的参考图片，其中，待校正图片和参考图片均为文档对应的图片，参考图片不包括手写内容，且参考图片中印刷内容与待校正图片一致；

匹配模块，被配置为将待校正图片与参考图片进行匹配，确定待校正图片中的手写文字区域；

渲染模块，被配置为将手写文字区域渲染在参考图片中对应的渲染位置，获得待校正图片校正后的目标图片。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

存储器用于存储计算机可执行指令，处理器用于执行计算机可执行指令，以实现上述的文档图片校正方法的步骤。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述的文档图片校正方法的步骤。

根据本说明书实施例的第五方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述的文档图片校正方法的步骤。

本说明书实施例提供的文档图片校正方法，获取待校正图片和对应的参考图片，其中，待校正图片和参考图片均为文档对应的图片，参考图片不包括手写内容，且参考图片中印刷内容与待校正图片一致；将待校正图片与参考图片进行匹配，确定待校正图片中的手写文字区域；将手写文字区域渲染在参考图片中对应的渲染位置，获得待校正图片校正后的目标图片。这种情况下，可以将待校正图片和参考图片进行匹配，提取出待校正图片中的手写文字区域，并将提取获得的手写文字区域渲染到参考图片上的对应位置处，从而彻底解决文档图片形状畸变、旋转、平移等问题，以及基于预先训练好的语义分割模型对文档进行美化后出现的图画片镂空、字体粗等问题，达到校正文档图片的目的，保证了文档图片的校正效果，进而保证了后续对文档图片进行自动化处理的效率和准确率。

附图说明

图1a是本说明书一实施例提供的一种语义分割模型的结构示意图；

图1b是本说明书一实施例提供的第一种用户上传的试卷图片的示意图；

图1c是本说明书一实施例提供的第二种用户上传的试卷图片的示意图；

图1d是本说明书一实施例提供的第三种用户上传的试卷图片的示意图；

图1e是本说明书一实施例提供的第四种用户上传的试卷图片的示意图；

图2a是本说明书一实施例提供的第一种美化试卷图片的示意图；

图2b是本说明书一实施例提供的第二种美化试卷图片的示意图；

图2c是本说明书一实施例提供的第三种美化试卷图片的示意图；

图2d是本说明书一实施例提供的第四种美化试卷图片的示意图；

图3是本说明书一实施例提供的一种文档图片校正方法的流程图；

图4是本说明书一实施例提供的一种手写文字区域的提取过程的可视化示意图；

图5是本说明书一实施例提供的一种应用于教育场景下的文档图片校正方法的处理流程图；

图6是本说明书一实施例提供的一种文档图片校正方法的处理过程的可视化示意图；

图7是本说明书一实施例提供的一种文档图片校正装置的结构示意图；

图8是本说明书一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

U2Net：一个两层嵌套的U型结构，用于显著目标检测，其中，U代表的就是在输入上提取和编码多尺度特征，嵌套的U型结构可以更有效的提取图片内的多尺度特征和聚集阶段的多层次特征。

KeyNet模型：关键点检测网络，在全尺寸图片的多尺度表示上运行，并返回一个包含每个像素关键点得分的响应图，具体的，可以对输入图片的三个尺度级别进行模糊处理，其模糊和下采样因子为1.2，然后对来自所有尺度级别的特征映射进行上采样、级联和馈送到最后一个卷积滤波器，以获得最终的响应映射。

HardNet模型：一种CNN(Convolutional Neural Network，卷积神经网络)模型，用于图像分割和目标检测，突出的特点是低内存占用率。随着更强的计算能力和更大的数据集，能够训练更加复杂的网络。对于实时应用，面临的问题是如何在提高计算效率的同时，降低功耗。在这种情况下，提出了HarDNet在两者之间寻求最佳平衡。

单应矩阵：单应矩阵描述的是空间中同一平面上的三维点在两张图片中的对应关系。单应矩阵可以应用在图片矫正、图片配准拼接、视角转换以及计算两张图片的相机运动(旋转和平移)上。

RANSC：随机抽样一致性算法，可以在一组包含“外点”的数据集中，采用不断迭代的方法，寻找最优参数模型，不符合最优模型的点，被定义为“外点”，在图片配准以及拼接上得到广泛的应用。

透视变换(Perspective Transformation)：本质是将图片投影到一个新的视平面。

特征点描述子(Scale-invariant feature transform，SIFT)：是指尺度不变特征转换，是用于图像处理领域的一种描述子，这种描述子具有尺度不变性，可在图像中检测出关键点，是一种基于尺度空间、图片缩放、旋转甚至是仿射变换保持不变性的局部特征描述算子。特征点描述子对尺度、旋转以及一定视角和光照变化等图像变化都具有不变性，且特征点描述子具有很轻的可区分性。

需要说明的是，通常用户上传的文档图片拍照效果参差不齐，存在光照不均、阴影、褶皱、噪点、暗光、色偏等问题，为了更好的展示用户在文档中的书写情况，期望基于图像处理技术对用户上传的文档图片进行美化处理，以此得到干净的文档页面，对文档图片美化处理后，可以有效去除文档图片中的光照不均、阴影、褶皱、噪点、暗光、色偏等问题。

实际应用中，可以通过语义分割模型U2Net对用户上传的文档图片进行美化处理。图1a是本说明书一实施例提供的一种语义分割模型的结构示意图，将用户上传的文档图片输入至预先训练好的图1a所示的语义分割模型中，可以获得美化后的文档图片。该语义分割模型的标签(label)包含2类，第一类是背景，用0代表，第二类是前景(包括文档中的所有文字、数字、字母、线条，表格、图形、图画等等)，用1表示。

U2Net是一个两层嵌套的U型结构，如图1a所示，它的顶层是一个由11个stages(阶段)(如图1a中的立方体)组成的大U型结构，每一stage由一个配置良好的RSU填充。因此，嵌套的U结构可以更有效的提取stage内的多尺度特征和聚集阶段的多层次特征。

如图1a所示，U2Net网络由三部分构成：六级编码器、五级解码器、与解码器和最后一级编码器相连的显著图融合模型。其中，编码器En_1、En_2、En_3和En_4阶段中，分别使用RSU-7，RSU-6，RSU-5，RSU-4的RSU结构，前面的数字如7、6、5、4是RSU的高度L，L通常根据输入特征图的空间分辨率进行配置。在En_5和En_6中，特征图的分辨率相对较低，进一步对这些特征图进行下采样会导致有用上下文的丢失。因此，在RSU-5和RSU-6阶段，使用RSU-4F，其中F表示RSU是一个扩展的版本，用扩展卷积来代替合并和上采样操作，这意味着RSU-4F的所有中间特征图都与其输入的特征图具有相同的分辨率。

解码阶段具有与En_6中对称编码阶段相似的结构。在De_5中，还使用了扩展板的RSU-4F，这与在编码阶段En_5，En_6中使用的类似。每个解码器阶段将来自前一级的上采样特征映射和来自其对称编码器阶段的特征映射的级联作为输入，见图1a。

最后一部分是显著图融合模块，用于生成显著概率图。U2Net网络首先通过3x3卷积和Sigmoid函数从En_6、De_5、De_4、De_3、De_2和De_1生成6个输出显著概率图

然后，将输出的显著图的逻辑图(卷积输出，Sigmoid函数之前)向上采样至与输入图像大小一致，并通过级联操作相融合，然后通过1x1卷积层和一个Sigmoid函数，以生成最终的显著性概率映射图S_fuse。

语义分割模型U2Net的初始训练参数如下所示：模型共训练100000轮(也即epoch_num＝100000)，训练的批处理数据为5(batch_size_train＝5)，测试的批处理数据为1(batch_size_val＝1)，每迭代2000次保存一次模型(save_frq＝2000)，模型采用Adam优化器，初始学习率是0.01(lr＝0.01)，训练样本尺寸是768，训练硬件是2块NVIDIAV100显卡并行训练，进行文档图片美化选用的模型是迭代了196000次的模型。

示例的，以应用于教育场景为例，该文档图片为试卷图片，图1b-图1e是用户上传的试卷图片的示意图，图1b所示的试卷图片存在光照不均问题，图1c所示的试卷图片存在阴影，图1d所示的试卷图片存在褶皱，图1e所示的试卷图片存在噪点、暗光等问题。将图1b-图1e所示的试卷图片输入至上述训练好的语义分割模型中进行美化处理，可以获得如图2a-图2d所示的美化试卷图片的示意图。

需要说明的是，除了光照不均、阴影、褶皱、噪点、暗光、色偏等问题，有些文档图片因拍摄角度还可能存在形状畸变、旋转、平移等问题，美化并不能解决这些问题。同时，对于文档图片中的图画，美化后还有可能出现图画镂空、字体粗等问题。

因而，本说明实施例中将待校正图片和参考图片进行匹配，提取出待校正图片中的手写文字区域，并将提取获得的手写文字区域渲染到参考图片上的对应位置处，从而彻底解决文档图片形状畸变、旋转、平移等问题，以及基于预先训练好的语义分割模型对文档进行美化后出现的图画片镂空、字体粗等问题，达到校正文档图片的目的，保证了文档图片的校正效果，进而保证了后续对文档图片进行自动化处理的效率和准确率。

在本说明书中，提供了一种文档图片校正方法，本说明书同时涉及一种文档图片校正装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图3示出了根据本说明书一实施例提供的一种文档图片校正方法的流程图，具体包括以下步骤：

步骤302：获取待校正图片和对应的参考图片，其中，待校正图片和参考图片均为文档对应的图片，参考图片不包括手写内容，且参考图片中印刷内容与待校正图片一致。

需要说明的是，待校正图片是用户在空白文档上书写内容，获得书写后的文档，然后对该书写后的文档拍摄获得。参考图片是图片库中预先录入的空白文档的图片，该参考图片不包括手写内容，且参考图片中印刷内容与待校正图片一致。

其中，该文档可以是指各种应用场景下、需要用户书写相应内容的文档，如试卷、调查问卷、学习资料等，用户在试卷上书写答案，完成后拍摄获得该待校正图片，对应的空白试卷作为参考图片；用户在调查问卷上回答问题，完成后拍摄获得该待校正图片，对应的空白问卷作为参考图片；用户在学习资料上记录笔记，完成后拍摄获得该待校正图片，对应的空白资料作为参考图片。

实际应用中，待校正图片由用户上传，参考图片从图片库中获取。具体的，预先录入多个空白文档图片，存储在图片库中，每个空白文档图片均携带有对应的文档标识，该文档标识用于标识对应的空白文档图片，如该文档标识可以为文档编号、二维码等。获取到待校正图片后，可以对待校正图片进行图像识别，获得其中的文档标识，基于该文档标识从图片库中获取对应的空白文档图片作为参考图片。

本实施例一个可选的实施方式中，除了可以直接将用户拍摄上传的文档图片作为待校正图片之外，还可以先对用户拍摄上传的文档图片进行初步美化，将美化后的文档图片作为待校正图片，也即是获取待校正图片，具体实现过程可以如下：

获取用户上传的初始图片；

通过语义分割模型对初始图片进行初始校正操作，获得待校正图片。

其中，语义分割模型是指U2Net模型，该U2Net模型是一个两层嵌套的U型结构，可以用于显著目标检测，U代表的就是在输入上提取和编码多尺度特征，嵌套的U型结构可以更有效的提取图片内的多尺度特征和聚集阶段的多层次特征。

实际应用中，语义分割模型的初始训练参数可以如下所示：模型共训练100000轮(也即epoch_num＝100000)，训练的批处理数据为5(batch_size_train＝5)，测试的批处理数据为1(batch_size_val＝1)，每迭代2000次保存一次模型(save_frq＝2000)，模型采用Adam优化器，初始学习率是0.01(lr＝0.01)，训练样本尺寸是768，训练硬件是2块NVIDIAV100显卡并行训练，如进行文档图片美化选用的语义分割模型可以是迭代了196000次的模型。

需要说明的是，可以将用户上传的初始图片输入至训练完成的语义分割模型，该语义分割模型可以输出初步美化后的文档图片，该初步美化后的文档图片可能存在轻微畸变、字体粗、图画镂空等问题，为了解决因拍摄角度导致的形状畸变、旋转、平移等问题，以及美化后可能出现图画镂空、字体粗等问题，可以将该初步美化后的文档图片作为待校正图片，再进一步对该初步美化后的文档图片进行校正，以保证文档图片的校正效果，进而保证后续对文档图片进行自动化处理的效率和准确率。

步骤304：将待校正图片与参考图片进行匹配，确定待校正图片中的手写文字区域。

需要说明的是，待校正图片与参考图片对应同一文档，待校正图片中包括有用户手写的内容，而参考图片为空白文档，该空白文档是预先录入至图片库中的，不是用户拍摄上传的，也即该参考图片为高质量、准确的空白文档图片，因而可以将待校正图片与参考图片进行匹配，确定待校正图片中的手写文字区域，后续可以重新渲染到参考图片上，达到最终校正文档图片的效果。

本实施例一个可选的实施方式中，将待校正图片与参考图片进行匹配，确定待校正图片中的手写文字区域，具体实现过程可以如下：

对待校正图片进行透视变换，获得变换后的初始校正图片；

确定初始校正图片中的有损手写文字区域；

根据有损手写文字区域生成对应的手写文字掩膜；

根据手写文字掩膜，确定初始校正图片中的手写文字区域。

需要说明的是，可以先基于待校正图片和参考图片中的特征匹配，对待校正图片进行透视变换，将待校正图片变换至参考图片的坐标系下，获得变换后的初始校正图片。然后，识别始校正图片中的有损手写文字区域，该有损手写文字区域是指消除印刷内容的边缘痕迹的基础上获得的手写文字区域，也即该手写文字区域损失了某部分的手写文字内容；之后，再根据有损手写文字区域生成对应的手写文字掩膜，基于该手写文字掩膜，可以提取出初始校正图片中的手写文字区域。如此，便于后续将提取出的手写文字区域重新渲染至参考图片中的相应位置处，实现文档图片校正。

进一步地，在将待校正图片与参考图片进行匹配，确定待校正图片中的手写文字区域之前，也即对待校正图片进行透视变换，获得变换后的初始校正图片之前，还可以对待校正图片与参考图片的尺寸进行归一化处理，将待校正图片与参考图片处理为统一的设定尺寸。其中，该设定尺寸包括宽度和长度，宽度可以设定为数值，长度可以通过计算获得，例如该设定尺寸包括的宽度为720，长度通过如下公式(1)计算获得：

L＝(720*height)/width (1)

其中，height是待校正图片的长度，width是待校正图片的宽度。

需要说明的是，由于后续需要对待校正图片和参考图片进行特征分析，而特征分析往往是针对灰度图，因而可以在灰度模式读入待校正图片和参考图片，也即待校正图片和参考图片为灰度图片。然后，对待校正图片和参考图片进行尺度变化，将待校正图片和参考图片的尺寸均统一至规定的设定尺寸，从而加快后续算法的处理过程。

本实施例一个可选的实施方式中，可以通过特征点匹配，对待校正图片进行透视变换，也即对待校正图片进行透视变换，获得变换后的初始校正图片，具体实现过程可以如下：

确定待校正图片和参考图片中匹配的特征点对；

根据特征点对，生成待校正图片和参考图片的单应矩阵；

利用单应矩阵对待校正图片进行透视变换，获得变换后的初始校正图片。

具体的，该特征点为对图片划分获得的特征区域，例如可以将待校正图片和参考图片划分为设定数值个特征区域，每个特征区域是一个特征点，不同特征点的形状、尺寸等属性参数可以相同，也可以不同。

实际应用中，可以对待校正图片和参考图片的特征点进行匹配，获得特征点对，一个特征点对包括一个第一候选特征点和一个第二候选特征点，第一候选特征点为待校正图片中的特征点，第二候选特征点为参考图片中的特征点，且第一候选特征点和第二候选特征点对应，也即第一候选特征点和第二候选特征点指示不同图片中的同一个特征区域。

另外，透视变换本质是将图片投影到一个新的视平面，因而匹配获得特征点对后，可以基于特征点对生成待校正图片和参考图片的单应矩阵，该单应矩阵可以描述空间中同一平面上的三维点在两张图片中的对应关系，从而可以利用该单应矩阵对待校正图片进行透视变换，获得变换后的初始校正图片。具体实现时，可以将单应矩阵输入透视变换函数，获得变换后的元素坐标，具体的可以通过如下公式(2)获得变换后的初始校正图片：

其中，

表示透视变换后的元素w的坐标；/>

表示单应矩阵；/>

表示待校正图片中元素W的坐标。通过该公式(2)可以获得透视变换后各个元素的坐标，从而获得变换后的初始校正图片。

本说明书实施例中，可以先确定待校正图片和参考图片中匹配的特征点对，然后根据特征点对，生成待校正图片和参考图片的单应矩阵，利用该单应矩阵表示两张图片中的对应关系，对待校正图片进行透视变换，获得变换后的初始校正图片，从而将待校正图片变换至参考图片的坐标系下，便于提取出手写文字区域，后续可以重新渲染到参考图片上，达到最终校正文档图片的效果。本实施例一个可选的实施方式中，可以通过获取待校正图片和参考图片中的特征点和特征点描述子，对待校正图片和参考图片进行匹配，也即确定待校正图片和参考图片中匹配的特征点对，具体实现过程可以如下：

获取待校正图片的第一特征点和第一特征点描述子，并获取参考图片的第二特征点和第二特征点描述子；

对第一特征点描述子和第二特征点描述子进行匹配，确定待校正图片中的第一候选特征点，以及参考图片中的第二候选特征点；

计算第一候选特征点和第二候选特征点的距离，将距离小于距离阈值的第一候选特征点和第二候选特征点作为特征点对。

具体的，特征点描述子是指尺度不变特征转换，这种描述子具有尺度不变性，可在图像中检测出关键点。

需要说明的是，图片匹配的核心问题是将同一目标在不同时间、不同分辨率、不同光照、不同位姿情况下所成的像相对应，由于特征点描述子对尺度、旋转以及一定视角和光照变化等图像变化都具有不变性，且特征点描述子具有很轻的可区分性，因而可以基于特征点描述子，对待校正图片和参考图片进行匹配。

实际应用中，可以采用KeyNet模型提取待校正图片的第一特征点以及参考图片的第二特征点，采用HardNet模型提取待校正图片的第一特征点描述子以及参考图片的第二特征点描述子。其中，第一特征点描述子和第二特征点描述子的大小均可以是32*32。

具体实现时，可以对第一特征点描述子和第二特征点描述子进行匹配，确定待校正图片和参考图片中相似的第一候选特征点和第二候选特征点，也即第一候选特征点和第二候选特征点特征相似，可能对应同一区域，如可以将待校正图片中圆形的特征点作为第一候选特征点，将参考图片中圆形的特征点作为第二候选特征点。然后，再分别计算各个第一候选特征点和各个第二候选特征点的欧式距离，若该欧式距离足够小，则说明两个候选特征点较大概率对应不同图片中的同一区域，因而可以选择小于距离阈值的第一候选特征点和第二候选特征点作为特征点对。

本说明书实施例中，可以通过获取待校正图片和参考图片中的特征点和特征点描述子，对待校正图片和参考图片进行匹配，确定出特征点对，便于后续基于特征点对，对待校正图片进行透视变换，获得变换后的初始校正图片，从而提取出手写文字区域，后续可以重新渲染到参考图片上，达到最终校正文档图片的效果。

本实施例一个可选的实施方式中，在生成单应矩阵时，还可以对获得的特征点对进行优化，去除置信度低的噪声点，也即根据特征点对，生成待校正图片和参考图片的单应矩阵，具体实现过程可以如下：

根据特征点对和噪点优化算法，去除特征点对中的噪声点对，获得优化特征点对；

根据优化特征点对，生成待校正图片和参考图片的单应矩阵。

具体的，单应矩阵描述的是空间中同一平面上的三维点在两张图片中的对应关系，单应矩阵大小可以是3*3。噪点优化算法可以是指能够去除置信度低的特征点的算法，如噪点优化算法可以为随机抽样一致性算法RANSC，通过该RANSC算法，可以在一组包含“外点”的数据集中，采用不断迭代的方法，寻找最优参数模型不符合最优模型的点，被定义为“外点”滤除。

实际应用中，可以直接将获得的特征点对输入至单应矩阵生成算法中，获得对应的单应矩阵，该单应矩阵生成算法是指集成有计算单应矩阵的各个函数的算法。另外，还可以在单应矩阵生成算法中集成随机抽样一致性算法RANSC，将获得的特征点对输入至单应矩阵生成算法中，通过该单应矩阵生成算法中的RANSC优化算法先对各个特征点对进行处理，滤除噪声点对，获得优化特征点对，具体的采用RANSAC算法寻找一个最佳单应性矩阵H，矩阵大小为3×3，RANSAC目的是找到最优的参数矩阵使得满足该矩阵的数据点个数最多，通常令单应性矩阵H的第三行第三类的元素为1来归一化矩阵。

本说明书实施例中，结合噪点优化算法，去除特征点对中的噪声点对，获得优化特征点对，基于该优化特征点对，生成待校正图片和参考图片的单应矩阵，使得生成单应矩阵的特征点对最多，且均置信度较高，保证了生成的单应矩阵的准确性。

本实施例一个可选的实施方式中，可以通过二值化操作提取有损手写文字区域，也即确定初始校正图片中的有损手写文字区域，具体实现过程可以如下：

分别对初始校正图片和参考图片进行二值化处理；

对二值化后的参考图片进行形态学腐蚀操作，获得损失参考图；

将二值化后的初始校正图片减去损失参考图，获得有损手写文字区域。

具体的，图片的二值化就是将图片上的像素点的灰度值设置为0或255，也就是将整个图片呈现出明显的只有黑和白的视觉效果。

需要说明的是，可以分别对初始校正图片和参考图片进行二值化处理，将像素值小于二值化阈值的像素设置为0，将像素值不小于二值化阈值的像素设置为255，从而将手写文字区域对应的像素点的值全部置为0，而将其他区域的像素点的值全部置为255。其中，二值化阈值可以预先自定义，该二值化阈值可以设置的较大，从而对字迹较浅的手写文字区域也能识别出来，如该二值化阈值可以设置为230。

另外，形态学即数学形态学(Mathematical Morphology)，是图片处理过程中一个非常重要的研究方向，形态学主要从图片内提取分量信息，该分量信息通常对于表达和描绘图片的形状具有重要意义，通常是图片理解时所使用的最本质的形状特征。形态学操作主要包含腐蚀和膨胀。腐蚀是最基本的形态学操作之一，它能够将图片的边界点消除，使图片沿着边界向内收缩，也可以将小于指定结构体元素的部分去除。腐蚀可以用来“收缩”或者“细化”二值图像中的前景，借此实现去除噪声、元素分割等功能。

实际应用中，可以对二值化后的参考图片进行形态学腐蚀操作，进行两次腐蚀，形态学描述子为5*5的矩形，获得损失参考图，以消除印刷内容的边缘痕迹。

实际应用中，可以通过如下公式(3)计算确定出有损手写文字区域：

lost_write_words_img＝Binary(warp_img)-Erode(Binary(reference_img))^2(3)

其中，lost_write_words_img是有损手写文字区域，warp_img是初始校正图片，reference_img是参考图片，Binary指二值化，Erode指形态学腐蚀，2指进行两次腐蚀操作。

本说明书实施例中，可以通过形态学腐蚀操作，获得有损手写文字区域，以消除印刷内容的边缘痕迹，实现去除噪声。

本实施例一个可选的实施方式中，可以基于提取出的有损手写文字区域中的连通分量，构建对应的掩膜，也即根据有损手写文字区域生成对应的手写文字掩膜，具体实现过程可以如下：

对有损手写文字区域进行形态学腐蚀操作，获得恢复手写文字区域；

对恢复手写文字区域进行按位取反操作，并计算按位取反操作后的恢复手写文字区域的连通分量，获得每个连通分量的矩形坐标；

基于初始校正图片的尺寸生成对应的手写文字掩膜；

根据每个连通分量的矩形坐标，对手写文字掩模进行矩形填充。

需要说明的是，由于有损手写文字区域是消除印刷内容的边缘痕迹获得的，可能会导致有些手写文字区域不完整，因而可以对有损手写文字区域再进行一次形态学腐蚀操作，获得恢复手写文字区域，形态学描述子也为5*5的矩形。

另外，连通分量可以确定从图中的一个顶点是否能到达图中的另一个顶点，也就是说，图中任意两个顶点之间是否有路径可达，因而可以计算按位取反操作后的恢复的手写文字区域的连通分量，该连通分量可以指示恢复的手写文字区域的矩形框的坐标，在图片中确定出手写文字区域的位置。具体实现时，可以对恢复的手写文字区域进行按位取反操作，并计算按位取反操作后的恢复手写文字区域的连通分量，获得每个连通分量的矩形坐标，该连通分量的矩形坐标即为恢复的手写文字区域的矩形框的坐标。

实际应用中，可以通过如下公式(4)获得按位取反结果：

其中，q(i,j)是8bit按位取反结果，p(i,j)是恢复手写文字区域。

具体实现时，可以先生成一个全零矩阵作为手写文字掩模，其大小与初始校正图片的尺寸一致，也即与初始校正图片尺寸一致的全黑图片，然后对该全黑图片进行矩形填充。具体的，每个连通分量区域的矩形坐标为手写文字区域的坐标，因而可以对生成的全黑图片中各个连通分量区域的矩形坐标指示的矩形区域进行填充，将该矩形区域内的像素置为255，以获得手写文字掩膜，也即该手写文字掩膜中手写文字区域为白色，非手写文字区域为黑色。

另外，有些噪声点可能会被误识别为手写文字区域，如阴影、杂质、脏点等，因而可以排除连通分量区域的矩形面积小于设定面积阈值的噪点区域，该设定面积阈值可以基于经验设置，如可以设置为100，排除连通分量区域的矩形面积小于100的噪点区域。

本说明书实施例中，可以先生成一个全零矩阵作为手写文字掩模，也即全黑的一幅图片，基于连通分量的矩形坐标，将该全黑图片中相应区域内的像素值填充为255，也即将连通分量的矩形区域置为白色，该白色区域即为获得的手写文字掩模中的手写文字区域，后续可以直接将该手写文字掩膜作用于初始校正图片，即可提取出初始校正图片中的手写文字区域，后续可以重新渲染到参考图片上，达到最终校正文档图片的效果。

本实施例一个可选的实施方式中，根据手写文字掩膜，确定初始校正图片中的手写文字区域，具体实现过程可以如下：

根据手写文字掩膜，对初始校正图片进行拷贝，获得手写文字区域。

需要说明的是，手写文字掩膜中手写文字区域为白色，非手写文字区域为黑色，因而可以直接根据手写文字掩膜，对初始校正图片进行拷贝，将初始校正图片中白色区域对应的内容提取出来，即可获得初始校正图片中的手写文字区域。

示例的，图4是本说明书一实施例提供的一种手写文字区域的提取过程的可视化示意图，如图4所示，以教育场景下的试卷为例，待校正图片为美化后的试卷图，参考图为从题库中获取到的空白试卷。结合空白试卷对该美化后的试卷图进行透视变换，可以获得变换后的初始校正图片，然后可以通过二值化操作提取初始校正图片中的有损手写文字区域，基于该有损手写文字区域生成对应的手写文字掩膜，将该手写文字掩膜作用于该初始校正图片，可以获得对应的手写文字区域。

步骤306：将手写文字区域渲染在参考图片中对应的渲染位置，获得待校正图片校正后的目标图片。

需要说明的是，该手写文字区域是待校正图片中用户手写的内容，可以直接将该手写文字区域渲染在参考图片中对应的渲染位置，获得待校正图片校正后的目标图片，也即是从待校正图片中截取用户手写内容的区域，直接将截取的区域重新叠加渲染在参考图片中对应的位置处，即可获得待校正图片校正后的目标图片。

本实施例一个可选的实施方式中，将手写文字区域渲染在参考图片中对应的渲染位置，获得待校正图片校正后的目标图片，具体实现过程可以如下：

根据手写文字区域的区域坐标，在参考图片中确定对应的渲染坐标；

将手写文字区域渲染在渲染坐标指示的渲染位置处，获得待校正图片校正后的目标图片。

需要说明的是，待校正图片和参考图片是对应的，只是待校正图片中包括了用户书写的手写内容，而参考图片是空白的，因而可以根据手写文字区域的区域坐标，在参考图片中确定对应的渲染坐标，将该手写文字区域渲染在渲染坐标指示的渲染位置处，即可获得待校正图片校正后的目标图片。

下述结合附图5，以本说明书提供的文档图片校正方法在教育场景下的应用为例，对文档图片校正方法进行进一步说明。其中，图5示出了本说明书一实施例提供的一种应用于教育场景下的文档图片校正方法的处理流程图，具体包括以下步骤：

步骤502：获取学生上传的作答试卷图，对该作答试卷图进行识别，获得试卷标识，根据该试卷标识从试卷库中获得对应的空白试卷参考图。

步骤504：将学生上传的作答试卷图输入至U2Net模型进行图片美化，获得美化作答试卷图。

步骤506：以灰度模式读入美化作答试卷图与空白试卷参考图，对美化作答试卷图与空白试卷参考图进行尺度变化，将美化作答试卷图与空白试卷参考图统一至设定尺寸。

步骤508：采用KeyNet模型提取美化作答试卷图和空白试卷参考图中的特征点，采用HardNet模型提取美化作答试卷图和空白试卷参考图中的特征点描述子，根据特征点描述子，对美化作答试卷图和空白试卷参考图中的特征点进行匹配，获得特征点对。

步骤510：利用该特征点对生成美化作答试卷图和空白试卷参考图的单应矩阵。

其中，在生成美化作答试卷图和空白试卷参考图的单应矩阵时还可以通过RANSC算法进行优化。

步骤512：利用单应矩阵对美化作答试卷图进行透视变换，获得变换后的初始校正图片。

步骤514：分别对初始校正图片和空白试卷参考图进行二值化处理，将初始校正图片和空白试卷参考图中像素值小于230的像素点置为0，并将不小于230的像素点置为255。

步骤516：对二值化后的空白试卷参考图进行两次形态学腐蚀操作，获得损失参考图，将二值化后的初始校正图片减去损失参考图，获得有损手写文字区域。

步骤518：对上一步得到的有损手写文字区域再进行一次形态学腐蚀操作，获得恢复手写文字区域。

步骤520：对恢复手写文字区域进行按位取反操作，并计算按位取反操作后的恢复手写文字区域的连通分量，获得每个连通分量的矩形坐标；生成与初始校正图片的尺寸一致的全零矩阵，根据每个连通分量的矩形坐标，将该全零矩阵中对应的矩形区域填充为255，并排除连通分量区域的矩形面积小于100像素的噪点区域。

步骤522：根据上一步生成的手写文字掩模，对初始校正图片进行拷贝，只保留手写文字掩模为255的像素值，得到手写文字区域。

步骤524：根据手写文字区域的区域坐标，在空白试卷参考图中确定对应的渲染坐标，将手写文字区域渲染在渲染坐标指示的渲染位置处，获得校正后的目标试卷图片。

示例的，图6是本说明书一实施例提供的一种文档图片校正方法的处理过程的可视化示意图，如图6所示，获取学生上传的作答试卷图和空白试卷参考图，对该作答试卷图进行美化，获得美化作答试卷图；基于美化作答试卷图和空白试卷参考图确定手写文字区域，将该手写文字区域渲染在空白试卷参考图，获得渲染图片。

本说明书实施例提供的文档图片校正方法，可以将美化作答试卷图和空白试卷参考图进行匹配，提取出美化作答试卷图中的手写文字区域，并将提取获得的手写文字区域渲染到空白试卷参考图上的对应位置处，从而彻底解决试卷图形状畸变、旋转、平移等问题，以及基于预先训练好的语义分割模型对试卷图进行美化后出现的图画片镂空、字体粗等问题，达到校正试卷图的目的，保证了试卷图的校正效果，进而保证了后续对试卷图进行自动化处理的效率和准确率。

与上述方法实施例相对应，本说明书还提供了文档图片校正装置实施例，图7示出了本说明书一实施例提供的一种文档图片校正装置的结构示意图。如图7所示，该装置包括：

获取模块702，被配置为获取待校正图片和对应的参考图片，其中，待校正图片和参考图片均为文档对应的图片，参考图片不包括手写内容，且参考图片中印刷内容与待校正图片一致；

匹配模块704，被配置为将待校正图片与参考图片进行匹配，确定待校正图片中的手写文字区域；

渲染模块706，被配置为将手写文字区域渲染在参考图片中对应的渲染位置，获得待校正图片校正后的目标图片。

可选地，匹配模块704，进一步被配置为：

对待校正图片进行透视变换，获得变换后的初始校正图片；

确定初始校正图片中的有损手写文字区域；

根据有损手写文字区域生成对应的手写文字掩膜；

根据手写文字掩膜，确定初始校正图片中的手写文字区域。

可选地，匹配模块704，进一步被配置为：

确定待校正图片和参考图片中匹配的特征点对；

根据特征点对，生成待校正图片和参考图片的单应矩阵；

可选地，匹配模块704，进一步被配置为：

分别对初始校正图片和参考图片进行二值化处理；

可选地，匹配模块704，进一步被配置为：

基于初始校正图片的尺寸生成对应的手写文字掩膜；

可选地，匹配模块704，进一步被配置为：

可选地，获取模块702，进一步被配置为：

获取用户上传的初始图片；

可选地，渲染模块706，进一步被配置为：

本说明书实施例提供的文档图片校正装置，可以将待校正图片和参考图片进行匹配，提取出待校正图片中的手写文字区域，并将提取获得的手写文字区域渲染到参考图片上的对应位置处，从而彻底解决文档图片形状畸变、旋转、平移等问题，以及基于预先训练好的语义分割模型对文档进行美化后出现的图画片镂空、字体粗等问题，达到校正文档图片的目的，保证了文档图片的校正效果，进而保证了后续对文档图片进行自动化处理的效率和准确率。

上述为本实施例的一种文档图片校正装置的示意性方案。需要说明的是，该文档图片校正装置的技术方案与上述的文档图片校正方法的技术方案属于同一构思，文档图片校正装置的技术方案未详细描述的细节内容，均可以参见上述文档图片校正方法的技术方案的描述。

图8示出了根据本说明书一实施例提供的一种计算设备的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接，数据库850用于保存数据。

计算设备800还包括接入设备840，接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN，Public SwitchedTelephone Network)、局域网(LAN，LocalAreaNetwork)、广域网(WAN，WideAreaNetwork)、个域网(PAN，PersonalAreaNetwork)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC，Network InterfaceController))中的一个或多个，诸如IEEE802.11无线局域网(WLAN，WirelessLocalAreaNetworks)无线接口、全球微波互联接入(Wi-MAX，Worldwide InteroperabilityforMicrowave Access)接口、以太网接口、通用串行总线(USB，Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC，NearField Communication)接口，等等。

在本说明书的一个实施例中，计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图8所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备800可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备800还可以是移动式或静止式的服务器。

其中，处理器820用于执行如下计算机可执行指令，以实现上述的文档图片校正方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的文档图片校正方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述文档图片校正方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于实现上述的文档图片校正方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的文档图片校正方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述文档图片校正方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述的文档图片校正方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的文档图片校正方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述的文档图片校正方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

计算机指令包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书并不受所描述的动作顺序的限制，因为依据本说明书，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种文档图片校正方法，其特征在于，所述方法包括：

获取待校正图片和对应的参考图片，其中，所述待校正图片和所述参考图片均为文档对应的图片，所述参考图片不包括手写内容，且所述参考图片中印刷内容与所述待校正图片一致；

将所述待校正图片与所述参考图片进行匹配，确定所述待校正图片中的手写文字区域；

将所述手写文字区域渲染在所述参考图片中对应的渲染位置，获得所述待校正图片校正后的目标图片。

2.根据权利要求1所述的文档图片校正方法，其特征在于，所述将所述待校正图片与所述参考图片进行匹配，确定所述待校正图片中的手写文字区域，包括：

对所述待校正图片进行透视变换，获得变换后的初始校正图片；

确定所述初始校正图片中的有损手写文字区域；

根据所述有损手写文字区域生成对应的手写文字掩膜；

根据所述手写文字掩膜，确定所述初始校正图片中的手写文字区域。

3.根据权利要求2所述的文档图片校正方法，其特征在于，所述对所述待校正图片进行透视变换，获得变换后的初始校正图片，包括：

确定所述待校正图片和所述参考图片中匹配的特征点对；

根据所述特征点对，生成所述待校正图片和所述参考图片的单应矩阵；

利用所述单应矩阵对所述待校正图片进行透视变换，获得所述变换后的初始校正图片。

4.根据权利要求3所述的文档图片校正方法，其特征在于，所述确定所述待校正图片和所述参考图片中匹配的特征点对，包括：

获取所述待校正图片的第一特征点和第一特征点描述子，并获取所述参考图片的第二特征点和第二特征点描述子；

对所述第一特征点描述子和所述第二特征点描述子进行匹配，确定所述待校正图片中的第一候选特征点，以及所述参考图片中的第二候选特征点；

计算所述第一候选特征点和所述第二候选特征点的距离，将距离小于距离阈值的第一候选特征点和第二候选特征点作为所述特征点对。

5.根据权利要求3所述的文档图片校正方法，其特征在于，所述根据所述特征点对，生成所述待校正图片和所述参考图片的单应矩阵，包括：

根据所述特征点对和噪点优化算法，去除所述特征点对中的噪声点对，获得优化特征点对；

根据所述优化特征点对，生成所述待校正图片和所述参考图片的单应矩阵。

6.根据权利要求2所述的文档图片校正方法，其特征在于，所述确定所述初始校正图片中的有损手写文字区域，包括：

分别对所述初始校正图片和所述参考图片进行二值化处理；

将二值化后的初始校正图片减去所述损失参考图，获得所述有损手写文字区域。

7.根据权利要求2所述的文档图片校正方法，其特征在于，所述根据所述有损手写文字区域生成对应的手写文字掩膜，包括：

对所述有损手写文字区域进行形态学腐蚀操作，获得恢复手写文字区域；

对所述恢复手写文字区域进行按位取反操作，并计算按位取反操作后的恢复手写文字区域的连通分量，获得每个连通分量的矩形坐标；

基于所述初始校正图片的尺寸生成对应的手写文字掩膜；

根据所述每个连通分量的矩形坐标，对所述手写文字掩模进行矩形填充。

8.根据权利要求2所述的文档图片校正方法，其特征在于，所述根据所述手写文字掩膜，确定所述初始校正图片中的手写文字区域，包括：

根据所述手写文字掩膜，对所述初始校正图片进行拷贝，获得所述手写文字区域。

9.根据权利要求1-7任一项所述的文档图片校正方法，其特征在于，所述获取待校正图片，包括：

获取用户上传的初始图片；

通过语义分割模型对所述初始图片进行初始校正操作，获得所述待校正图片。

10.根据权利要求1-7任一项所述的文档图片校正方法，其特征在于，所述将所述手写文字区域渲染在所述参考图片中对应的渲染位置，获得所述待校正图片校正后的目标图片，包括：

根据所述手写文字区域的区域坐标，在所述参考图片中确定对应的渲染坐标；

将所述手写文字区域渲染在所述渲染坐标指示的渲染位置处，获得所述待校正图片校正后的目标图片。

11.一种文档图片校正装置，其特征在于，所述装置包括：

获取模块，被配置为获取待校正图片和对应的参考图片，其中，所述待校正图片和所述参考图片均为文档对应的图片，所述参考图片不包括手写内容，且所述参考图片中印刷内容与所述待校正图片一致；

匹配模块，被配置为将所述待校正图片与所述参考图片进行匹配，确定所述待校正图片中的手写文字区域；

渲染模块，被配置为将所述手写文字区域渲染在所述参考图片中对应的渲染位置，获得所述待校正图片校正后的目标图片。

12.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现上述权利要求1-10任一项所述的文档图片校正方法的步骤。

13.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现上述权利要求1-10任一项所述的文档图片校正方法的步骤。