CN114255337A

CN114255337A - 文档图像的矫正方法、装置、电子设备及存储介质

Info

Publication number: CN114255337A
Application number: CN202111293825.3A
Authority: CN
Inventors: 谢群义; 钦夏孟; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2022-03-29

Abstract

本公开提供了一种文档图像的矫正方法、装置、电子设备及存储介质，涉及人工智能技术领域，具体为计算机视觉和深度学习技术领域，可应用于光学字符识别等场景下。具体实现方案为：基于拍摄文档图像的扭曲图，提取所述扭曲图中的所述文档图像的矫正三维坐标；基于所述文档图像的矫正三维坐标，获取所述文档图像的所述矫正三维坐标到矫正二维坐标的第一映射关系；基于所述第一映射关系，获取所述文档图像的所述矫正二维坐标到所述文档图像在所述扭曲图中的扭曲二维坐标的第二映射关系；基于所述第二映射关系和所述扭曲图中的所述文档图像，恢复矫正文档图像。本公开的技术，能够有效地提高文档图像进行数字化过程中的准确性。

Description

文档图像的矫正方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，具体涉及人工智能技术领域，具体为计算机视觉和深度学习技术领域，可应用于光学字符识别(Optical Character Recognition；OCR)等场景下，尤其涉及一种文档图像的矫正方法、装置、电子设备及存储介质。

背景技术

文档数字化是保存现有打印文档的一个非常重要的手段，数字化的文档更容易随时随地访问和存储。传统方法使用平板扫描仪对文档进行数字化处理，这需要非便携式且昂贵的设备。

近年来，随着手机、相机等智能电子产品的日益普及，实体文档的拍照成为了扫描实体文档最简单的方式。图像被捕获后，可以通过文本检测和识别进一步处理以进行内容分析和信息提取。

发明内容

本公开提供了一种文档图像的矫正方法、装置、电子设备及存储介质。

根据本公开的一方面，提供了一种文档图像的矫正方法，包括：

基于拍摄文档图像的扭曲图，提取所述扭曲图中的所述文档图像的矫正三维坐标；

基于所述文档图像的矫正三维坐标，获取所述文档图像的所述矫正三维坐标到矫正二维坐标的第一映射关系；

基于所述第一映射关系，获取所述文档图像的所述矫正二维坐标到所述文档图像在所述扭曲图中的扭曲二维坐标的第二映射关系；

基于所述第二映射关系和所述扭曲图中的所述文档图像，恢复矫正文档图像。

根据本公开的另一方面，提供了一种文档图像的矫正装置，包括：

提取模块，用于基于拍摄文档图像的扭曲图，提取所述扭曲图中的所述文档图像的矫正三维坐标；

第一获取模块，用于基于所述文档图像的矫正三维坐标，获取所述文档图像的所述矫正三维坐标到矫正二维坐标的第一映射关系；

第二获取模块，用于基于所述第一映射关系，获取所述文档图像的所述矫正二维坐标到所述文档图像在所述扭曲图中的扭曲二维坐标的第二映射关系；

恢复模块，用于基于所述第二映射关系和所述扭曲图中的所述文档图像，恢复矫正文档图像。

根据本公开的再一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。

根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。

根据本公开的再另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。

根据本公开的技术，能够有效地提高文档图像进行数字化过程中的准确性、以及文档数字化的效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是本实施例提供的一种扭曲图的示意图；

图4是图3所示实施例的前景与背景信息的示意图；

图5是图3所示的扭曲图对应的矫正文档图像的示意图；

图6是根据本公开第三实施例的示意图；

图7是根据本公开第四实施例的示意图；

图8是用来实现本公开实施例的文档图像的矫正方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

需要说明的是，本公开实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(TabletComputer)等智能设备；显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

拍摄文档图像时一个常见的实际问题是文档页不是处于理想的扫描状态：它们可能弯曲、折叠或弄皱，或者放置在复杂的背景上。所有这些因素都可能导致自动文档图像分析的结果出现问题，希望在捕获的图像中对此类文档进行数字化处理。例如，现有技术中，可以考虑基于三维重建的方法来对扫描的文档图像进行矫正，但是该方案要求扭曲纸张的三维平面必须可以估算，并曲面必须在不引入畸变的情况下展平，实时性和现实性得不到满足。

图1是根据本公开第一实施例的示意图；如图1所示，本实施例提供一种文档图像的矫正方法，可以应用于能够拍摄文档图像的手机、相机等移动终端内，具体可以包括如下步骤：

S101、基于拍摄文档图像的扭曲图，提取扭曲图中的文档图像的矫正三维坐标；

本实施例的应用场景中，扭曲图可以为用户手持手机、或者相机等具有拍摄功能的移动终端设备，拍摄一个纸质的文档，但是由于该拍摄不是扫描，用户的拍摄过程中难免会拍摄到其他背景。而且该拍摄过程中，纸质的文档图像难免会出现扭曲或者褶皱等现象，本实施例中，将拍摄得到的包含有背景、以及扭曲或者褶皱的文档图像的拍摄图像，称之为扭曲图。

为了保证后续基于光学字符识别(Optical Character Recognition；OCR)等技术，对文档图像中的文字进行准确地识别。本实施例中，需要先对扭曲图中的文档图像进行矫正，本实施例中，基于该思想，先提取扭曲图中的文档图像的矫正三维坐标，即表示该扭曲图中的文档图像内的各个像素点对应的真实的三维空间中的三维坐标。

S102、基于文档图像的矫正三维坐标，获取文档图像的矫正三维坐标到矫正二维坐标的第一映射关系；

具体地，该第一映射关系，即表示将文档图像的矫正三维坐标映射至二维空间的坐标下，即得到矫正三维坐标到矫正二维坐标的映射关系。由于文档图像的矫正三维坐标，表示该扭曲图中的文档图像内的各个像素点对应的真实的三维空间中的三维坐标，则该第一映射关系，可以理解为扭曲图中的文档图像内的各个像素点的矫正三维坐标到矫正二维坐标的映射关系，也可以称之为前向图。此时该前向图并非为一张类似于图片的实体图，而是一张包含文档图像内各个像素点的第一映射关系的图。

S103、基于第一映射关系，获取文档图像的矫正二维坐标到文档图像在扭曲图中的扭曲二维坐标的第二映射关系；

由于第一映射关系中包括了扭曲图中的文档图像内的各个像素点的矫正三维坐标到矫正二维坐标的映射关系，基于该第一映射关系，可以再将文档图像的矫正二维坐标映射至文档图像在扭曲图中的扭曲二维坐标下，进而得到文档图像中的每个像素点的矫正二维坐标至文档图像在扭曲图中的扭曲二维坐标的第二映射关系。

该第二映射关系也可以称之为后向图。与前向图相似，该后向图也不是一个真实的实体图，而是一张包含文档图像内各个像素点的第二映射关系的图。

S104、基于第二映射关系和扭曲图中的文档图像，恢复矫正文档图像。

由于该第二映射关系中包括文档图像的矫正二维坐标至文档图像在扭曲图中的扭曲二维坐标的映射关系，再参考扭曲图中的文档图像，可以将扭曲图中的文档图像的各个像素点回恢复至一个矫正图中，得到文档图像对应的矫正文档图像。

通过采用本实施例的文档图像的矫正方法，可以对用户拍摄的带有背景、以及扭曲或者褶皱的文档图像的拍摄图像进行处理，最终得到展平的文档图像，即矫正文档图像。由于矫正文档图像相当于水平方向平整放置的文档图像，没有扭曲，也没有褶皱，非常方便对文本图像中的文字进行识别和提取，如可以基于OCR技术实现文字的识别和提取。

本实施例的文档图像的矫正方法，通过采用上述技术方案，通过基于第一映射关系和第二映射关系，实现对扭曲的文档图像进行有效地矫正，得到矫正文档图像，方便后续对矫正文档图像中的文字进行有效地识别和提取，能够有效地提高文档图像进行数字化过程中的准确性以及文档的数字化效率。

图2是根据本公开第二实施例的示意图；本实施例的文档图像的矫正方法，在上述图1所示实施例的基础上，进一步更加详细地介绍本公开的技术方案。如图2所示，本实施例的文档图像的矫正方法，具体可以包括如下步骤：

S201、基于拍摄文档图像的扭曲图，采用预先训练的信息提取模型，获取扭曲图的原始三维坐标和扭曲图中的前景与背景信息；

本实施例的扭曲图的原始三维坐标即为扭曲图在拍摄时，文档图像发生扭曲或者褶皱时，对应的扭曲图中的各个像素点的原始三维坐标。

本实施例的信息提取模型可以为形状网络(Shape Network；Shape-Net)，该形状网络可以用于逐像素预测扭曲图的原始三维坐标即原始3D坐标、以及前景与背景信息，该前景与背景信息可以标识扭曲图中的前景与背景的分割结果。其中前景即为扭曲图中的文档图像，背景为扭曲图中文档图像之外的其他部分。

基于以上所述，可以得知本实施例的信息提取模型在预测时包括有两个分支，一个分支用于预测扭曲图的原始三维坐标；另一个分支用于预测扭曲图中的前景与背景信息。例如，在预测扭曲图中的前景与背景信息时，可以逐像素点的分析，若为前景部分可以将对应位置的值设置为1，若为背景部分，可以将对应位置的值设置为0，进而可以将前景与背景进行分割。

例如图3是本实施例提供的一种扭曲图的示意图。图4是图3所示实施例的前景与背景信息的示意图。如图4所示，该前景与背景信息中可以将图3所示的扭曲图中的前景和背景进行分割。

S202、基于扭曲图的原始三维坐标，采用预先训练的坐标矫正模型，获取扭曲图的矫正三维坐标；

本实施例的坐标矫正模型可以采用Forwordmap Network；简称Fm-Net。该坐标矫正模型用于基于扭曲图的原始三维坐标，预测该扭曲图中的文档图像被展开拉平之后的矫正三维坐标。

S203、基于扭曲图的矫正三维坐标和扭曲图中的前景与背景信息，获取扭曲图中的文档图像的矫正三维坐标；

例如，具体地，可以将上述步骤S201中信息提取模型预测的扭曲图中的前景与背景信息、与步骤S202中坐标矫正模型预测的扭曲图的矫正三维坐标进行相乘操作，可以提取出扭曲图的前景部分的矫正3D坐标。

该步骤可以认为是用于对扭曲图中的前景和背景进行分割处理，使得矫正后的信息中包括较少或者不包括背景信息，进而使得最终的矫正结果更加接近真值。

上述步骤S201-S203为上述图1所示实施例的步骤S101的一种具体实现方式。采用该方式，能够对扭曲图中的前景与背景进行分割，并采用坐标矫正模型基于信息提取模型提取的扭曲图的原始三维坐标，进一步获取扭曲图的矫正三维坐标，并参考信息提取模型提取的扭曲图中的前景与背景，实现扭曲图中的文档图像的矫正三维坐标的获取，能够有效地保证获取的扭曲图中的文档图像的矫正三维坐标的准确性。

实际应用中，还可以采用其他方式进行提取文档图像的矫正三维坐标。例如，可以直接训练一个端到端的模型，实现基于扭曲图，提取文档图像的矫正三维坐标。

S204、对文档图像的矫正三维坐标进行归一化计算，得到文档图像的矫正三维坐标到矫正二维坐标的第一映射关系；

对于文档图像中的每个像素点，都对应一个第一映射关系，即整个文档图像的像素点对应的第一映射关系，即为一个前向图。

例如，本实施例中，可以通过以下公式(1)(2)计算得到前向图，即第一映射关系，能够有效地保证得到的前向图的准确性。

假定文档图像的四角点为左上:C1左下:C2右下:C3右上:C4，且每个顶点具有对应的矫正三维坐标。根据其真值的生成方式，可以设定此四个角点对应的矫正3D坐标，在坐标矫正模型预测的3D矫正坐标中。假设扭曲图中的文档图像内任意一点P点的矫正3D坐标为(x，y，z)，要计算的前向图中的矫正2D坐标为(x₁,y₁)那么P点对应的矫正2D坐标可以表示为：

其中width和height为设定的文本图像的宽度值和高度值。P为对应P点的3D坐标，C₁为对应的角点C1的3D坐标；C₂为对应的角点C2的3D坐标；C₃为对应的角点C3的3D坐标；C₄为对应的角点C4的3D坐标。

S205、采用双线性插值的方式，基于第一映射关系，获取文档图像的矫正二维坐标到扭曲二维坐标的第二映射关系；

具体地，本实施例中，可以使用双线性插值方法由第一映射关系标识的前向图，生成第二映射关系标识的后向图，能够有效地保证生成的第二映射关系即后向图的准确性。而且对于一些空洞的像素点，也可以采用该双线性差值方式，确保每一个像素点都能找到对应的第二映射关系。

S206、对第二映射关系进行平滑处理；

例如，可以采用中值滤波的方式对第二映射关系进行平滑处理，消除第二映射关系中的噪声。

中值滤波是一种非线性图像处理方法，是统计排序滤波器的一种典型应用。与其他均值处理的思想有所不同，中值滤波是通过对邻域内像素按灰度排序的结果决定中心像素的灰度。具体的操作过程如下：用一个奇数点的移动窗口，将窗口中心点的值用窗口内各点的中值代替。假设窗口内有5个点，其值为1,2,3,4和5，那么此窗口内各点的中值即为3，也就是用3来代替中心点的像素值。

中值滤波对于滤除脉冲干扰及图像扫描噪声最为有效，还可以克服线性滤波器(如领域简单平滑滤波)带来的图像细节模糊。这种方法不仅对孤立杂点的消除效果显著，对稍密集的杂点也有很好的去除效果。而且经试验表明，对比简单平滑的结果，中值滤波对消除离散型杂点的显著效果。

通过研究和分析发现，对于后向图中的少量噪声可以通过该中值滤波的方式可以有效改善。

S207、采用双线性采样的方式，基于第二映射关系和扭曲图中的文档图像，恢复矫正文档图像。

具体地，可以第二映射关系标识的文档图像的矫正二维坐标到扭曲二维坐标的映射关系，可以采样扭曲图中的文档图像中各个像素点的像素值，并填充至对应的矫正二维坐标的像素点上，进而可以恢复出矫正文档图像，作为扭曲图中的文档图像的展开并拉平的版本，整个过程。例如，图5是图3所示的扭曲图对应的矫正文档图像的示意图。如图5所示，按照本实施例的方式，可以将图2所示的扭曲图中扭曲的文档图像拉平，得到平铺的文档图像，非常方便后续进行文档图像内的文字进行检测和提取。

本实施例的上述信息提取模型在训练时，可以使用开源的Doc3D合成数据集进行训练。具体地，该Doc3D合成数据集中有可用于训练的80000张2D扭曲图像以及每张图的3D坐标标注信息、深度图标注信息、法向量标注信息、后向图标注信息等等。相应的使用3D坐标图的逐像素L1范数误差，梯度误差，以及前景背景与真值的误差作为监督信息对信息提取模型进行训练。经过在验证集上验证，训练好的该信息提取模型对背景和前景分对的正确率为99.51％，mIou为0.993。

本实施例的上述坐标矫正模型，在训练时用到的监督信息如扭曲图的3D矫正坐标，可以由Doc3D数据集提供的后向图信息生成出来的。具体方法为：将Doc3D数据集中的后向图插值为前向图，同时根据后向图添加z轴信息并去除背景得到矫正3D坐标，由前向图和矫正3D坐标生成扭曲图的矫正3D坐标，作为矫正坐标预测网络的监督信息。其中，通过实验对比，此过程中的插值方式使用线性插值效果最佳。

本实施例中对信息提取模型和坐标矫正模型的训练，均使用接近真实场景的文档图像变形数据集，通过大量的定性和定量评估证明了模型的最新性能。在扭曲文档图像的基准数据集上，坐标矫正模型显着改善了矫正结果和真值的图像相似度指标，有效的改善了矫正结果的少量噪声问题，去除了背景对于矫正结果的影响，对于一些复杂形变的图像的矫正也有所提升。

在最大的文档图像数据集Doc3D数据集上训练上述的信息提取模型和坐标矫正模型。通过对真实文档扫描的感知相似度评估，本公开的上述文档图像的矫正方法可以提高多尺度结构相似度(multi-scale structural similarity；MS-SSIM)，并且降低局部失真以及OCR字符错误率。

本实施例的文档图像的矫正方法，通过采用上述技术方案，能够进一步提高矫正文档图像的准确性，方便后续对矫正文档图像中的文字进行有效地识别和提取，能够进一步有效地提高文档图像进行数字化过程中的准确性和文档数字化的效率。

图6是根据本公开第三实施例的示意图；如图6所示，本实施例提供一种文档图像的矫正装置600，可以应用于手机、相机等移动终端内，具体可以包括：

提取模块601，用于基于拍摄文档图像的扭曲图，提取扭曲图中的文档图像的矫正三维坐标；

第一获取模块602，用于基于文档图像的矫正三维坐标，获取文档图像的矫正三维坐标到矫正二维坐标的第一映射关系；

第二获取模块603，用于基于第一映射关系，获取文档图像的矫正二维坐标到文档图像在扭曲图中的扭曲二维坐标的第二映射关系；

恢复模块604，用于基于第二映射关系和扭曲图中的文档图像，恢复矫正文档图像。

本实施例的文档图像的矫正装置600，通过采用上述模块实现文档图像的矫正的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述方法实施例的相关记载，在此不再赘述。

图7是根据本公开第四实施例的示意图；如图7所示，本实施例提供一种文档图像的矫正装置700，包括与上述图6所示实施例的同名、同功能模块，如提取模块701、第一获取模块702、第二获取模块703和恢复模块704。

进一步地，如图7所示，在本公开的一个实施例中，提取模块701，包括：

第一获取单元7011，用于基于扭曲图，采用预先训练的信息提取模型，获取扭曲图的原始三维坐标和扭曲图中的前景与背景信息；

第二获取单元7012，用于基于扭曲图的原始三维坐标，采用预先训练的坐标矫正模型，获取扭曲图的矫正三维坐标；

第三获取单元7013，用于基于扭曲图的矫正三维坐标和扭曲图中的前景与背景信息，获取扭曲图中的文档图像的矫正三维坐标。

进一步可选地，在本公开的一个实施例中，第一获取模块702，用于：

对文档图像的矫正三维坐标进行归一化计算，得到文档图像的矫正三维坐标到矫正二维坐标的第一映射关系。

进一步可选地，如图7所示，在本公开的一个实施例中，文档图像的矫正装置700还包括；

平滑处理模块705，用于对第二映射关系进行平滑处理。

进一步可选地，在本公开的一个实施例中，平滑处理模块705，用于：

采用中值滤波的方式对第二映射关系进行平滑处理。

进一步可选地，在本公开的一个实施例中，第二获取模块703，用于：

采用双线性插值的方式，基于第一映射关系，获取文档图像的矫正二维坐标到扭曲二维坐标的第二映射关系。

进一步可选地，在本公开的一个实施例中，恢复模块704，用于：

采用双线性采样的方式，基于第二映射关系和扭曲图中的文档图像，恢复矫正文档图像。

本实施例的文档图像的矫正装置700，通过采用上述模块实现文档图像的矫正的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述方法实施例的相关记载，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如本公开的上述文档图像的矫正方法。例如，在一些实施例中，本公开的上述文档图像的矫正方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的本公开的上述文档图像的矫正方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行本公开的上述文档图像的矫正方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文档图像的矫正方法，包括：

2.根据权利要求1所述的方法，其中，基于拍摄文档图像的扭曲图，提取所述扭曲图中的所述文档图像的矫正三维坐标，包括：

基于所述扭曲图，采用预先训练的信息提取模型，获取所述扭曲图的原始三维坐标和所述扭曲图中的前景与背景信息；

基于所述扭曲图的原始三维坐标，采用预先训练的坐标矫正模型，获取所述扭曲图的矫正三维坐标；

基于所述扭曲图的矫正三维坐标和所述扭曲图中的前景与背景信息，获取所述扭曲图中的所述文档图像的矫正三维坐标。

3.根据权利要求1所述的方法，其中，基于所述文档图像的矫正三维坐标，获取所述文档图像的所述矫正三维坐标到矫正二维坐标的第一映射关系，包括：

对所述文档图像的矫正三维坐标进行归一化计算，得到所述文档图像的所述矫正三维坐标到所述矫正二维坐标的所述第一映射关系。

4.根据权利要求1所述的方法，其中，基于所述第一映射关系，获取所述文档图像的所述矫正二维坐标到所述文档图像在所述扭曲图中的扭曲二维坐标的第二映射关系之后，基于所述第二映射关系和所述扭曲图中的所述文档图像，恢复矫正文档图像之前，所述方法还包括；

对所述第二映射关系进行平滑处理。

5.根据权利要求4所述的方法，其中，对所述第二映射关系进行平滑处理，包括：

采用中值滤波的方式对所述第二映射关系进行平滑处理。

6.根据权利要求1所述的方法，其中，基于所述第一映射关系，获取所述文档图像的所述矫正二维坐标到所述文档图像在所述扭曲图中的扭曲二维坐标的第二映射关系，包括：

采用双线性插值的方式，基于所述第一映射关系，获取所述文档图像的所述矫正二维坐标到所述扭曲二维坐标的所述第二映射关系。

7.根据权利要求1-6任一所述的方法，其中，基于所述第二映射关系和所述扭曲图中的所述文档图像，恢复矫正文档图像，包括：

采用双线性采样的方式，基于所述第二映射关系和所述扭曲图中的所述文档图像，恢复所述矫正文档图像。

8.一种文档图像的矫正装置，包括：

9.根据权利要求8所述的装置，其中，所述提取模块，包括：

第一获取单元，用于基于所述扭曲图，采用预先训练的信息提取模型，获取所述扭曲图的原始三维坐标和所述扭曲图中的前景与背景信息；

第二获取单元，用于基于所述扭曲图的原始三维坐标，采用预先训练的坐标矫正模型，获取所述扭曲图的矫正三维坐标；

第三获取单元，用于基于所述扭曲图的矫正三维坐标和所述扭曲图中的前景与背景信息，获取所述扭曲图中的所述文档图像的矫正三维坐标。

10.根据权利要求8所述的装置，其中，所述第一获取模块，用于：

11.根据权利要求8所述的装置，其中，所述装置还包括；

平滑处理模块，用于对所述第二映射关系进行平滑处理。

12.根据权利要求11所述的装置，其中，所述平滑处理模块，用于：

采用中值滤波的方式对所述第二映射关系进行平滑处理。

13.根据权利要求8所述的装置，其中，所述第二获取模块，用于：

14.根据权利要求8-13任一所述的装置，其中，所述恢复模块，用于：

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。