CN113205090A

CN113205090A - 图片矫正方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN113205090A
Application number: CN202110477871.2A
Authority: CN
Inventors: 韩光耀; 姜泽青; 陈禹燊; 李治平
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-08-03
Anticipated expiration: 2041-04-29
Also published as: CN113205090B

Abstract

本公开提供了图片矫正方法、装置、电子设备及计算机可读存储介质，涉及自然语言处理、深度学习及计算机视觉等人工智能领域，其中的方法可包括：对待处理的原始图片进行文字检测，得到检测出的文字框；根据文字框生成文本行；确定出文本行中的关键点，并根据关键点对预定参数进行更新；根据更新后的预定参数对原始图片进行重映射，得到矫正后的图片。本公开所述方案具有普遍适用性，并确保了处理结果的准确性。

Description

图片矫正方法、装置、电子设备及计算机可读存储介质

技术领域

本公开涉及人工智能技术领域，特别涉及自然语言处理、深度学习及计算机视觉等领域的图片矫正方法、装置、电子设备及计算机可读存储介质。

背景技术

在对表格图片进行光学字符识别(OCR，Optical Character Recognition)时，对识别结果影响较大的一个因素即是由于拍照角度等导致的图片的扭曲或歪斜等。

为提升识别结果的准确性，可先对表格图片进行矫正。目前，通常采用基于深度学习的图片矫正方式。这种方式需要进行深度学习模型的训练，但对于训练得到的深度学习模型，通常仅对和训练集类似的图片具有较好的矫正效果，而对于其它图片的矫正效果则较差，即不具有普遍适用性。

发明内容

本公开提供了图片矫正方法、装置、电子设备及计算机可读存储介质。

根据本公开的一个方面，提供了一种图片矫正方法，包括：

对待处理的原始图片进行文字检测，得到检测出的文字框；

根据所述文字框生成文本行；

确定出所述文本行中的关键点，并根据所述关键点对预定参数进行更新；

根据更新后的预定参数对所述原始图片进行重映射，得到矫正后的图片。

根据本公开的一个方面，提供了一种图片矫正装置，包括：检测模块、生成模块、优化模块以及重映射模块；

所述检测模块，用于对待处理的原始图片进行文字检测，得到检测出的文字框；

所述生成模块，用于根据所述文字框生成文本行；

所述优化模块，用于确定出所述文本行中的关键点，并根据所述关键点对预定参数进行更新；

所述重映射模块，用于根据更新后的预定参数对所述原始图片进行重映射，得到矫正后的图片。

根据本公开的一个方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如以上所述的方法。

根据本公开的一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行如以上所述的方法。

根据本公开的一个方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如以上所述的方法。

上述公开中的一个实施例具有如下优点或有益效果：无需借助于深度学习模型来实现图片矫正，对于各种情况均有较好的适用性，并确保了处理结果的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开图片矫正方法实施例的流程图；

图2为本公开根据获取到的关键点对预定参数进行更新的方法实施例的流程图；

图3为本公开对原始图片进行重映射的方法实施例的流程图；

图4为本公开图片矫正装置实施例400的组成结构示意图；

图5示出了可以用来实施本公开的实施例的电子设备500的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

另外，应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本公开图片矫正方法实施例的流程图。如图1所示，包括以下具体实现步骤。

在步骤101中，对待处理的原始图片进行文字检测，得到检测出的文字框(contours)。

在步骤102中，根据检测出的文字框生成文本行(span)。

在步骤103中，确定出文本行中的关键点，并根据关键点对预定参数进行更新。

在步骤104中，根据更新后的预定参数对原始图片进行重映射，得到矫正后的图片。

上述方法实施例所述方案中，无需借助于深度学习模型来实现图片矫正，对于各种情况均有较好的适用性，并确保了处理结果的准确性等。

另外，本公开所述原始图片可为表格图片，也可为其它类型的图片，对于不同类型的图片均可适用。

针对原始图片，可首先对其进行文字检测，从而得到检测出的文字框。如何对原始图片进行文字检测不作限制，比如，可采用预先训练得到的检测模型来对原始图片进行文字检测。所述文字框通常为包围单一文字的最小矩形框。

根据检测出的文字框，可进一步生成文本行。需要说明的是，本公开所述的“文本行”是一个相对的概念，比如，文字以列的形式呈现，那么每一列则是一个文本行。

具体地，可首先按预定方式对检测出的各文字框进行排序，之后可针对排序后的每两个相邻的文字框，分别将其作为一个组合，并可确定组合中的两个文字框是否为相匹配的文字框，进而可结合各组合的确定结果生成文本行。

其中，可按照各文字框中的预定顶点坐标中的指定坐标轴数值从小到大的顺序，对各文字框进行排序，预定顶点可包括：左上角顶点、左下角顶点、右上角顶点或右下角顶点。可选地，指定坐标轴可以是y轴，如可根据各文字框中的左上角顶点坐标中的y值，按照从小到大的顺序对各文字框进行排序。

举例说明：假设共检测出10个文字框，为便于表述，将排序后的各文字框分别称为文字框1～文字框10，那么，可将文字框1和文字框2作为一个组合，将文字框2和文字框3作为一个组合，将文字框3和文字框4作为一个组合，以此类推。

针对每个组合，可分别判断其中的两个文字框是否为相匹配的文字框。具体地，针对任一组合，可分别获取组合中的两个文字框投影到指定坐标轴上的投影结果之间的重合区域、两个文字框之间的距离以及两个文字框之间的角度(夹角)，并可分别将获取到的重合区域、距离以及角度与对应的阈值进行比较，根据比较结果确定出组合中的两个文字框是否为相匹配的文字框。

比如，若重合区域大于第一阈值、距离小于第二阈值且角度小于第三阈值，则可确定组合中的两个文字框为相匹配的文字框。

以指定坐标轴为y轴为例，如何将文字框投影到y轴上为相关技术。通常来说，如果两个文字框在一个文本行(即一行)中，两个文字框投影到y轴上的投影结果之间的重合区域会较大，反之，则较小甚至不存在重合区域。两个文字框之间的距离可以是指两个文字框的左上角顶点坐标中的x值之间的距离等。

可将获取到的重合区域、距离和角度分别与对应的第一阈值、第二阈值和第三阈值进行比较，第一阈值、第二阈值和第三阈值的具体取值均可根据实际需要而定，若重合区域大于第一阈值，距离小于第二阈值，并且角度小于第三阈值，则可确定组合中的两个文字框为相匹配的文字框，否则，可确定组合中的两个文字框为不相匹配的文字框。

进一步地，可结合各组合的判断结果生成文本行。具体地，可将排序后处于第一位的文字框作为待处理的文字框，针对待处理的文字框，执行以下预定处理：确定相邻文字框与待处理的文字框是否为相匹配的文字框，相邻文字框为排序后处于待处理的文字框下一位的文字框；若是，则可将相邻文字框加入到待处理的文字框所在的文字框集合中，并可将相邻文字框作为待处理的文字框，重复执行所述预定处理；若否，则可利用待处理的文字框所在的文字框集合中的文字框组成一个文本行，并可将相邻文字框加入新的文字框集合，以及将相邻文字框作为待处理的文字框，重复执行所述预定处理。

举例说明：假设共检测出10个文字框，为便于表述，将排序后的各文字框分别称为文字框1～文字框10，首先将文字框1作为待处理的文字框，假设文字框2与文字框1为相匹配的文字框，那么可将文字框2加入到文字框1所在的文字框集合中，之后可将文字框2作为待处理的文字框，假设文字框3与文字框2为相匹配的文字框，那么可将文字框3加入到文字框2所在的文字框集合中，之后可将文字框3作为待处理的文字框，假设文字框4与文字框3不为相匹配的文字框，那么可利用文字框3所在的文字框集合中的文字框(即文字框1、文字框2和文字框3)组成一个文本行，之后，可将文字框4作为待处理的文字框，重复上述过程，以便生成下一个文本行，直到不存在相邻文字框。

通过上述方式，可准确高效地确定出各文本行，从而为后续处理奠定了良好的基础等。

针对得到的每个文本行，还可分别确定出其中的关键点。如何确定出文本行中的关键点不作限制，可根据实际需要而定。比如，针对任一文本行，可分别将该文本行中的各文字框的中心点作为关键点。

进一步地，还可根据获取到的关键点对预定参数进行更新。本公开所述预定参数是指用于进行空间转换的参数。

相应地，针对任一关键点，可分别进行以下处理：获取该关键点的修正后的二维坐标；根据修正后的二维坐标以及预定参数确定出该关键点的三维坐标；将该关键点的三维坐标映射到二维空间，得到该关键点的映射后的二维坐标，根据各关键点在原始图片中的二维坐标及映射后的二维坐标，利用预定的优化算法确定出更新后的参数。

其中，可分别获取各文本行的主轴方向向量，并可将获取到的各文本行的主轴方向向量进行加权求和，得到第一方向信息，另外，还可按照预设规则对第一方向信息进行变换，得到第二方向信息，这样，针对任一关键点，可分别根据该关键点在原始图片中的二维坐标以及第一方向信息和第二方向信息，确定出该关键点的修正后的二维坐标。

所述预定参数可为多项式参数，相应地，针对任一关键点，可根据该关键点的修正后的二维坐标以及所述多项式参数，通过多项式运算确定出该关键点的三维坐标。

另外，针对任一关键点，还可根据预先确定的旋转矩阵以及平移矩阵，将该关键点的三维坐标映射到二维空间。

为此，需要预先获取旋转矩阵和平移矩阵。具体地，可从原始图片中选定四个点，这四个点构成一个矩形框，矩形框的宽度小于原始图片的宽度，矩形框的高度小于原始图片的高度，根据四个点在原始图片中的二维坐标以及第一方向信息和第二方向信息，确定出四个点的修正后的二维坐标，根据四个点的修正后的二维坐标确定出修正后的矩形框的宽度和高度，根据修正后的矩形框的宽度和高度构建出四个点的三维坐标，根据四个点的三维坐标以及四个点的修正后的二维坐标确定出所需的旋转矩阵以及平移矩阵。

基于上述介绍，图2为本公开根据获取到的关键点对预定参数进行更新的方法实施例的流程图。如图2所示，包括以下具体实现步骤。

在步骤201中，分别获取各文本行的主轴方向向量。

比如，某一文本行中包括四个关键点，可通过对这四个关键点的二维坐标进行主成分分析(PCA，Principal Component Analysis)降维处理等，得到其主轴方向向量。

在步骤202中，将获取到的各主轴方向向量进行加权求和，得到第一方向信息，并按照预设规则对第一方向信息进行变换，得到第二方向信息。

各文本行的主轴方向向量分别对应的权重可根据实际需要而定，而且可以相同，也可以不同。

假设通过加权求和后得到的第一方向信息为[0.99990427，0.01341391]，那么可通过对[0.99990427，0.01341391]进行变换，得到第二方向信息，如第二方向信息可为[-0.01341391，0.99990427]。

在步骤203中，从原始图片中选定四个点，四个点构成一个矩形框，矩形框的宽度小于原始图片的宽度，矩形框的高度小于原始图片的高度。

比如，相比于原始图片，矩形框的宽度从左右两个方向上分别减少了PAGE_MARGIN_X大小，矩形框的高度从上下两个方向上分别减少了PAGE_MARGIN_Y大小，PAGE_MARGIN_X和PAGE_MARGIN_Y的具体取值均可根据实际需要而定。

在步骤204中，根据四个点在原始图片中的二维坐标以及第一方向信息和第二方向信息，确定出四个点的修正后的二维坐标。

可获取四个点在原始图片中的二维坐标，如可分别为(按预定方式如归一化等进行处理/变换后的坐标)：

[0.97429306，-0.7159383]

[0.97429306，0.7159383]

[-0.97429306，0.7159383]

[-0.97429306，-0.7159383]；

可结合第一方向信息以及第二方向信息，确定出四个点的修正后的二维坐标。

比如，根据上述二维坐标以及第一方向信息和第二方向信息，首先得到如下坐标信息：

px_coords：[0.96459626 0.98380332 -0.96459626 -0.98380332]

py_coords：[-0.72893884 0.70280069 0.72893884 -0.70280069]；

其中，px_coords中为各点对应的x坐标，py_coords中为各点对应的y坐标。

以0.96459626为例，假设第一方向信息为[0.99990427，0.01341391]，那么可通过0.97429306*0.99990427-0.7159383*0.01341391计算(即将该点的二维坐标与第一方向信息中的对应值相乘相加)得到0.96459626，以-0.72893884为例，假设第二方向信息为[-0.01341391，0.99990427]，那么可通过0.97429306*-0.01341391-0.7159383*0.99990427计算得到-0.72893884，其它不再赘述。

进一步地，可根据px_coords和py_coords以及第一方向信息和第二方向信息，通过调用开源的跨平台计算机视觉和机器学习软件库(OpenCV)中的以下函数：在竖直方向上堆叠(np.vstack)函数和重塑(reshape)函数等，确定出四个点的修正后的二维坐标。

在实际应用中，图片中的文字(文本行)由于拍摄时的手机角度等问题可能存在歪斜的情况，通过上述处理，可对矩形框进行修正，如修正后的矩形框存在一定的歪斜，从而使得修正后的矩形框与其中的文字的歪斜角度相匹配等，以便于后续处理，并且，以用手机拍摄得到的表格图片为例，原始图片中的边缘部分通常不包括任何内容，即为空白区域，通过生成小于原始图片的矩形框，为上述矫正提供了空余空间，使得矫正后的矩形框不会超出原始图片的坐标范围等。

在步骤205中，根据四个点的修正后的二维坐标确定出修正后的矩形框的宽度和高度。

在步骤206中，根据修正后的矩形框的宽度和高度构建出四个点的三维坐标，并根据四个点的三维坐标以及四个点的修正后的二维坐标确定出旋转矩阵以及平移矩阵。

比如，构建出的四个点的三维坐标可分别为：

[0，0，0]

[width，0，0]

[width，height，0]

[0，height，0]；

其中，width表示修正后的矩形框的宽度，height表示修正后的矩形框的高度。

根据四个点的三维坐标以及修正后的二维坐标，可按照现有方式确定出对应的几何变换，即确定出旋转矩阵以及平移矩阵。

在步骤207中，针对任一关键点，根据该关键点在原始图片中的二维坐标以及第一方向信息和第二方向信息，确定出该关键点的修正后的二维坐标。

比如，针对任一文本行中的各关键点，可分别将各关键点的二维坐标与第一方向信息中的对应值相乘相加，并可将计算结果减去px0后作为各关键点的x坐标，另外，还可分别将各关键点的二维坐标与第二方向信息中的对应值相乘相加，并可获取各计算结果的均值，将所述均值减去py0后分别作为各关键点的y坐标，其中，px0可为上述px_coords中的最小值，py0可为上述py_coords中的最小值。

在步骤208中，根据该关键点的修正后的二维坐标以及多项式参数，通过多项式运算确定出该关键点的三维坐标。

多项式参数可包括alpha(即α)和beta(即β)，具体的多项式公式可为：

poly＝[

alpha+beta，

-2*alpha-beta，

alpha，

0]；

根据上述多项式公式以及关键点的修正后的二维坐标，可计算出关键点的z坐标，从而得到关键点的三维坐标。

在步骤209中，根据旋转矩阵以及平移矩阵，将该关键点的三维坐标映射到二维空间，得到该关键点的映射后的二维坐标。

在步骤210中，根据各关键点在原始图片中的二维坐标及映射后的二维坐标，利用预定的优化算法确定出更新后的多项式参数。

比如，可使用鲍威尔(powell)优化算法，按照使得各关键点的二维坐标及映射后的二维坐标之间的欧式距离尽量小的原则，即按照使得各关键点的二维坐标与映射后的二维坐标在二维空间上尽可能重合的原则，对多项式参数进行优化，从而得到更新后的多项式参数。

上述处理过程也可称为初始化参数过程，对于每张原始图片，均可进行上述处理。相应地，更新前的多项式参数的取值可为默认值，或为对上一张图片进行处理后的值。

另外，通过上述处理，使得得到的多项式参数为与当前处理的原始图片相对应的多项式参数，基于得到的多项式参数进行后续处理，可相应地提升后续处理结果的准确性等。

根据更新后的多项式参数，可对原始图片进行重映射，以得到矫正后的图片。

图3为本公开对原始图片进行重映射的方法实施例的流程图。如图3所示，包括以下具体步骤。

在步骤301中，获取原始图片对应的网格点坐标矩阵。

比如，可通过网格点坐标矩阵生成(numpy.meshgrid)函数，生成原始图片对应的网格点坐标矩阵。

相应地，可分别获取到各网格点的二维坐标。

在步骤302中，根据更新后的多项式参数，分别获取网格点坐标矩阵中的各网格点的三维坐标。

如可根据上述多项式公式以及各网格点的二维坐标，分别得到各网格点的三维坐标。

在步骤303中，将各网格点的三维坐标映射到二维空间，得到各网格点的映射后的二维坐标。

如可根据上述旋转矩阵以及平移矩阵，将各网格点的三维坐标映射到二维空间。

在步骤304中，根据原始图片以及各网格点的映射后的二维坐标进行重映射，得到矫正后的图片。

如可通过OpenCV的重映射(remap)函数，根据原始图片以及各网格点的映射后的二维坐标进行重映射，以得到最终所需的矫正后的图片。

综合上述介绍可以看出，采用本公开所述图片矫正方式，无需采用深度学习的方式来进行图片矫正，相应地，也就无需训练对应的深度学习模型，从而避免了相关技术中普遍适用性差的问题，本公开实施例对于各种情况均有较好的适用性，并确保了处理结果的准确性。

需要说明的是，对于前述的各方法实施例，为了简单描述，将其表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本公开所必须的。

以上是关于方法实施例的介绍，下面提供了本公开的装置实施例，装置实施例用于实现上述任一方法实施例。

图4为本公开图片矫正装置实施例400的组成结构示意图。如图4所示，包括：检测模块401、生成模块402、优化模块403以及重映射模块404。

检测模块401，用于对待处理的原始图片进行文字检测，得到检测出的文字框。

生成模块402，用于根据检测出的文字框生成文本行。

优化模块403，用于确定出文本行中的关键点，并根据关键点对预定参数进行更新。

重映射模块404，用于根据更新后的预定参数对原始图片进行重映射，得到矫正后的图片。

上述装置实施例所述方案中，无需借助于深度学习模型来实现图片矫正，对于各种情况均有较好的适用性，并确保了处理结果的准确性等。

其中，生成模块402可对检测出的各文字框进行排序，针对排序后的每两个相邻的文字框，分别将其作为一个组合，并确定组合中的两个文字框是否为相匹配的文字框，根据各组合的确定结果生成文本行。

具体地，生成模块402可按各文字框中的预定顶点坐标中的指定坐标轴数值从小到大的顺序，对各文字框进行排序，预定顶点包括：左上角顶点、左下角顶点、右上角顶点或右下角顶点。

另外，针对任一组合，生成模块402可分别获取组合中的两个文字框投影到指定坐标轴上的投影结果之间的重合区域、两个文字框之间的距离以及两个文字框之间的角度，分别将重合区域、距离以及角度与对应的阈值进行比较，根据比较结果确定出组合中的两个文字框是否为相匹配的文字框。

生成模块402还可将排序后处于第一位的文字框作为待处理的文字框，针对待处理的文字框，执行以下预定处理：确定相邻文字框与待处理的文字框是否为相匹配的文字框，相邻文字框为排序后处于待处理的文字框下一位的文字框；若是，则将相邻文字框加入到待处理的文字框所在的文字框集合中，并将相邻文字框作为待处理的文字框，重复执行预定处理；若否，则利用待处理的文字框所在的文字框集合中的文字框组成一个文本行，将相邻文字框加入新的文字框集合，并将相邻文字框作为待处理的文字框，重复执行所述预定处理。

优化模块403可确定出文本行中的关键点，并可根据关键点对预定参数进行更新。

其中，优化模块403可针对任一关键点，分别进行以下处理：获取该关键点的修正后的二维坐标；根据修正后的二维坐标以及预定参数确定出该关键点的三维坐标；将该关键点的三维坐标映射到二维空间，得到该关键点的映射后的二维坐标；根据各关键点在原始图片中的二维坐标及映射后的二维坐标，利用预定的优化算法确定出更新后的预定参数。

具体地，优化模块403可分别获取各文本行的主轴方向向量，将获取到的各主轴方向向量进行加权求和，得到第一方向信息，并可按照预设规则对第一方向信息进行变换，得到第二方向信息，针对任一关键点，可根据该关键点在原始图片中的二维坐标以及第一方向信息和第二方向信息，确定出该关键点的修正后的二维坐标。

上述预定参数可以是指多项式参数。相应地，优化模块403可针对任一关键点，根据该关键点的修正后的二维坐标以及多项式参数，通过多项式运算确定出该关键点的三维坐标。

优化模块403还可通过以下方式确定出旋转矩阵和平移矩阵：从原始图片中选定四个点，四个点构成一个矩形框，矩形框的宽度小于原始图片的宽度，矩形框的高度小于原始图片的高度；根据四个点在原始图片中的二维坐标以及第一方向信息和第二方向信息，确定出四个点的修正后的二维坐标；根据四个点的修正后的二维坐标确定出修正后的矩形框的宽度和高度；根据修正后的矩形框的宽度和高度构建出四个点的三维坐标，并根据四个点的三维坐标以及四个点的修正后的二维坐标确定出旋转矩阵以及平移矩阵。相应地，针对任一关键点，可根据旋转矩阵以及平移矩阵，将该关键点的三维坐标映射到二维空间。

在完成上述处理之后，重映射模块404可获取原始图片对应的网格点坐标矩阵，并可根据更新后的预定参数，分别获取网格点坐标矩阵中的各网格点的三维坐标，并可将各网格点的三维坐标映射到二维空间，得到各网格点的映射后的二维坐标，进而可根据原始图片以及各网格点的映射后的二维坐标进行重映射，得到矫正后的图片。

图4所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明，不再赘述。

总之，采用本公开装置实施例所述方案，无需采用深度学习的方式来进行图片矫正，相应地，也就无需训练对应的深度学习模型，从而避免了相关技术中普遍适用性差的问题，对于各种情况均有较好的适用性，并确保了处理结果的准确性等。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如本公开所述的方法。例如，在一些实施例中，本公开所述的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行本公开所述的方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行本公开所述的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。云计算指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以以按需、自服务的方式对资源进行部署和管理的技术体系，通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

需要说明的是，本公开所述方案可应用于人工智能领域，特别涉及自然语言处理、深度学习及计算机视觉等领域。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术，人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术，人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

Claims

1.一种图片矫正方法，包括：

对待处理的原始图片进行文字检测，得到检测出的文字框；

根据所述文字框生成文本行；

2.根据权利要求1所述的方法，其中，所述根据所述文字框生成文本行包括：

对检测出的各文字框进行排序；

针对排序后的每两个相邻的文字框，分别将其作为一个组合，并确定所述组合中的两个文字框是否为相匹配的文字框；

根据各组合的确定结果生成所述文本行。

3.根据权利要求2所述的方法，其中，

所述对检测出的各文字框进行排序包括：按各文字框中的预定顶点坐标中的指定坐标轴数值从小到大的顺序，对各文字框进行排序，所述预定顶点包括：左上角顶点、左下角顶点、右上角顶点或右下角顶点；

所述确定所述组合中的两个文字框是否为相匹配的文字框包括：分别获取所述组合中的两个文字框投影到所述指定坐标轴上的投影结果之间的重合区域、两个文字框之间的距离以及两个文字框之间的角度，分别将所述重合区域、所述距离以及所述角度与对应的阈值进行比较，根据比较结果确定出所述组合中的两个文字框是否为相匹配的文字框。

4.根据权利要求2或3所述的方法，其中，所述根据各组合的确定结果生成所述文本行包括：

将排序后处于第一位的文字框作为待处理的文字框，针对所述待处理的文字框，执行以下预定处理：

确定相邻文字框与所述待处理的文字框是否为相匹配的文字框，所述相邻文字框为排序后处于所述待处理的文字框下一位的文字框；

若是，则将所述相邻文字框加入到所述待处理的文字框所在的文字框集合中，并将所述相邻文字框作为所述待处理的文字框，重复执行所述预定处理；

若否，则利用所述待处理的文字框所在的文字框集合中的文字框组成一个文本行，将所述相邻文字框加入新的文字框集合，并将所述相邻文字框作为所述待处理的文字框，重复执行所述预定处理。

5.根据权利要求1所述的方法，其中，所述根据所述关键点对预定参数进行更新包括：

针对任一关键点，分别进行以下处理：获取所述关键点的修正后的二维坐标；根据所述修正后的二维坐标以及所述预定参数确定出所述关键点的三维坐标；将所述关键点的三维坐标映射到二维空间，得到所述关键点的映射后的二维坐标；

根据各关键点在所述原始图片中的二维坐标及映射后的二维坐标，利用预定的优化算法确定出更新后的预定参数。

6.根据权利要求5所述的方法，其中，所述获取所述关键点的修正后的二维坐标包括：

分别获取各文本行的主轴方向向量；

将获取到的各主轴方向向量进行加权求和，得到第一方向信息，并按照预设规则对所述第一方向信息进行变换，得到第二方向信息；

根据所述关键点在所述原始图片中的二维坐标以及所述第一方向信息和所述第二方向信息，确定出所述关键点的修正后的二维坐标。

7.根据权利要求5所述的方法，其中，

所述预定参数包括：多项式参数；

所述根据所述修正后的二维坐标以及所述预定参数确定出所述关键点的三维坐标包括：

根据所述修正后的二维坐标以及所述多项式参数，通过多项式运算确定出所述关键点的三维坐标。

8.根据权利要求6所述的方法，其中，所述将所述关键点的三维坐标映射到二维空间包括：

通过以下方式确定旋转矩阵和平移矩阵：

从所述原始图片中选定四个点，所述四个点构成一个矩形框，所述矩形框的宽度小于所述原始图片的宽度，所述矩形框的高度小于所述原始图片的高度；

根据所述四个点在所述原始图片中的二维坐标以及所述第一方向信息和所述第二方向信息，确定出所述四个点的修正后的二维坐标；

根据所述四个点的修正后的二维坐标确定出修正后的所述矩形框的宽度和高度；

根据修正后的所述矩形框的宽度和高度构建出所述四个点的三维坐标，并根据所述四个点的三维坐标以及所述四个点的修正后的二维坐标确定出所述旋转矩阵以及所述平移矩阵；

根据所述旋转矩阵以及所述平移矩阵，将所述关键点的三维坐标映射到二维空间。

9.根据权利要求1～8中任一项所述的方法，其中，所述根据更新后的预定参数对所述原始图片进行重映射包括：

获取所述原始图片对应的网格点坐标矩阵；

根据所述更新后的预定参数，分别获取所述网格点坐标矩阵中的各网格点的三维坐标；

将各网格点的三维坐标映射到二维空间，得到各网格点的映射后的二维坐标；

根据所述原始图片以及各网格点的映射后的二维坐标进行重映射，得到所述矫正后的图片。

10.一种图片矫正装置，包括：检测模块、生成模块、优化模块以及重映射模块；

所述生成模块，用于根据所述文字框生成文本行；

11.根据权利要求10所述的装置，其中，

所述生成模块还用于对检测出的各文字框进行排序，针对排序后的每两个相邻的文字框，分别将其作为一个组合，并确定所述组合中的两个文字框是否为相匹配的文字框，根据各组合的确定结果生成所述文本行。

12.根据权利要求11所述的装置，其中，

所述生成模块还用于按各文字框中的预定顶点坐标中的指定坐标轴数值从小到大的顺序，对各文字框进行排序，所述预定顶点包括：左上角顶点、左下角顶点、右上角顶点或右下角顶点；

所述生成模块还用于针对任一组合，分别获取所述组合中的两个文字框投影到所述指定坐标轴上的投影结果之间的重合区域、两个文字框之间的距离以及两个文字框之间的角度，分别将所述重合区域、所述距离以及所述角度与对应的阈值进行比较，根据比较结果确定出所述组合中的两个文字框是否为相匹配的文字框。

13.根据权利要求11或12所述的装置，其中，

所述生成模块还用于将排序后处于第一位的文字框作为待处理的文字框，针对所述待处理的文字框，执行以下预定处理：确定相邻文字框与所述待处理的文字框是否为相匹配的文字框，所述相邻文字框为排序后处于所述待处理的文字框下一位的文字框；若是，则将所述相邻文字框加入到所述待处理的文字框所在的文字框集合中，并将所述相邻文字框作为所述待处理的文字框，重复执行所述预定处理；若否，则利用所述待处理的文字框所在的文字框集合中的文字框组成一个文本行，将所述相邻文字框加入新的文字框集合，并将所述相邻文字框作为所述待处理的文字框，重复执行所述预定处理。

14.根据权利要求10所述的装置，其中，

所述优化模块还用于针对任一关键点，分别进行以下处理：获取所述关键点的修正后的二维坐标；根据所述修正后的二维坐标以及所述预定参数确定出所述关键点的三维坐标；将所述关键点的三维坐标映射到二维空间，得到所述关键点的映射后的二维坐标；根据各关键点在所述原始图片中的二维坐标及映射后的二维坐标，利用预定的优化算法确定出更新后的预定参数。

15.根据权利要求14所述的装置，其中，

所述优化模块还用于分别获取各文本行的主轴方向向量，将获取到的各主轴方向向量进行加权求和，得到第一方向信息，并按照预设规则对所述第一方向信息进行变换，得到第二方向信息，根据所述关键点在所述原始图片中的二维坐标以及所述第一方向信息和所述第二方向信息，确定出所述关键点的修正后的二维坐标。

16.根据权利要求14所述的装置，其中，

所述预定参数包括：多项式参数；

所述优化模块还用于针对任一关键点，根据所述关键点的修正后的二维坐标以及所述多项式参数，通过多项式运算确定出所述关键点的三维坐标。

17.根据权利要求15所述的装置，其中，

所述优化模块还用于：通过以下方式确定旋转矩阵和平移矩阵：从所述原始图片中选定四个点，所述四个点构成一个矩形框，所述矩形框的宽度小于所述原始图片的宽度，所述矩形框的高度小于所述原始图片的高度；根据所述四个点在所述原始图片中的二维坐标以及所述第一方向信息和所述第二方向信息，确定出所述四个点的修正后的二维坐标；根据所述四个点的修正后的二维坐标确定出修正后的所述矩形框的宽度和高度；根据修正后的所述矩形框的宽度和高度构建出所述四个点的三维坐标，并根据所述四个点的三维坐标以及所述四个点的修正后的二维坐标确定出所述旋转矩阵以及所述平移矩阵；以及，根据所述旋转矩阵以及所述平移矩阵，将所述关键点的三维坐标映射到二维空间。

18.根据权利要求10～17中任一项所述的装置，其中，

所述重映射模块还用于获取所述原始图片对应的网格点坐标矩阵，根据所述更新后的预定参数，分别获取所述网格点坐标矩阵中的各网格点的三维坐标，将各网格点的三维坐标映射到二维空间，得到各网格点的映射后的二维坐标，根据所述原始图片以及各网格点的映射后的二维坐标进行重映射，得到所述矫正后的图片。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。