CN111695554A

CN111695554A - 一种文本矫正的方法、装置、电子设备和存储介质

Info

Publication number: CN111695554A
Application number: CN202010517203.3A
Authority: CN
Inventors: 韦文杰; 许多; 邓小兵
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2020-09-22
Anticipated expiration: 2040-06-09
Also published as: CN111695554B

Abstract

本发明实施例涉及图像处理技术领域，公开了一种文本矫正的方法、装置、电子设备和存储介质。该方法包括：获取目标文本图像；将所述目标文本图像输入基于深度学习的文本行检测网络模型，得到所述目标文本图像对应的掩码图；利用所述掩码图确定文本行轮廓及每个文本行轮廓对应的文本中线；利用所述掩码图设置对应目标文本图像的第一控制点；根据所述第一控制点设置第二控制点；将所述目标文本图像、以及第一控制点和第二控制点输入图像矫正网络，得到矫正图像。实施本发明实施例，使用文本行检测算法和图像矫正网络相结合，对检测出的文本行进行插值，进而根据结果进行扭曲矫正。

Description

一种文本矫正的方法、装置、电子设备和存储介质

技术领域

本发明涉及图像处理技术领域，具体涉及一种文本矫正的方法、装置、电子设备和存储介质。

背景技术

当前存在扭曲文字矫正算法大多是基于传统方法，使用角点检测、连通域检测、霍夫变换等进行矫正，有些还需要进行相机标定等。传统方法受环鲁棒性较差，对颜色、纹理、动态模糊等影响较为敏感，当拍摄得到的文本行情况复杂时，矫正效果往往不理想。目前并没有非常成熟的针对拍摄图片的场景下的扭曲文本行的矫正算法。

发明内容

针对所述缺陷，本发明实施例公开了一种文本矫正的方法、装置、电子设备和存储介质，其可以很好地检测出扭曲文本，因此对各种复杂情况有较好的鲁棒性。

本发明实施例第一方面公开一种文本矫正的方法，所述方法包括：

获取目标文本图像；

将所述目标文本图像输入基于深度学习的文本行检测网络模型，得到所述目标文本图像对应的掩码图；利用所述掩码图确定文本行轮廓及每个文本行轮廓对应的文本中线；

利用所述掩码图设置对应目标文本图像的第一控制点，所述第一控制点包括文本采样点和边框采样点，所述第二控制点包括第一源点集合和第二源点集合；在所述文本中线上选取多个文本采样点，构建每个文本中线的文本采样点集合；在所述掩码图中距离掩码图边缘最近距离为预设距离的位置设置多个边框采样点，形成边框采样点集合；

根据所述第一控制点设置第二控制点；所述第二控制点包括第一源点集合和第二源点集合，所述第一源点集合包括多个文本源点子集合，且所述文本源点子集合和文本采样点集合一一对应，每个文本源点子集合中文本源点的个数与对应文本采样点集合中的文本采样点的个数相同，所述第二源点集合中源点个数与所述边框采样点集合中的边框采样点的个数相同；

将所述目标文本图像、以及第一控制点和第二控制点输入图像矫正网络，得到矫正图像。

作为一种可选的实施方式，在本发明实施例第一方面中，将所述目标文本图像输入基于深度学习的文本行检测网络模型，得到所述目标文本图像对应的掩码图；利用所述掩码图确定文本行轮廓及每个文本行轮廓对应的文本中线，包括：

将所述目标文本图像输入预先训练的基于深度学习的文本行检测网络模型，输出所述目标文本图像对应的掩码图；所述掩码图与所述目标文本图像的尺寸相同，且所述掩码图中包括多个文本区域掩码；

利用所述文本区域掩码得到对应的文本行轮廓；

利用轮廓收缩的方式确定每个文本行轮廓对应的文本中线。

作为一种可选的实施方式，在本发明实施例第一方面中，在所述文本中线上选取多个文本采样点，构建每个文本中线的文本采样点集合，包括：

在所述文本中线上选取多个像素点作为文本采样点，同一文本中线任意两个相邻的文本采样点之间间隔相同；

利用同一文本中线中所有文本采样点构建文本采样点集合，利用文本采样点集合中所有文本采样点的坐标构建文本采样点矩阵。

作为一种可选的实施方式，在本发明实施例第一方面中，所述第一源点集合包括多个文本源点子集合，且所述文本源点子集合和文本采样点集合一一对应，每个文本源点子集合中文本源点的个数与对应文本采样点集合中的文本采样点的个数相同，包括：

创建一张空白掩码图，所述空白掩码图与掩码图的尺寸相同；

在所述空白掩码图中构建每个文本采样点集合对应的文本源点子集合；所述文本源点子集合中的文本源点数量与对应文本采样点集合中的文本采样点的个数相同；同一文本源点子集合中的文本源点之间的连线与空白掩码图的水平方向平行，且同一文本源点子集合中的相邻文本源点之间的间隔相同；

确定同一文本源点子集合中所有文本源点的坐标，并利用所述同一文本源点子集合中的所有文本源点的坐标构建文本源点矩阵。

作为一种可选的实施方式，在本发明实施例第一方面中，所述第二源点集合中源点个数与所述边框采样点集合中的边框采样点的个数相同，包括：

在所述空白掩码图中构建所述边框采样点集合对应的第二源点集合，第二源点集合中源点个数与所述边框采样点集合中的边框采样点的个数相同，且所述第二源点集合中的源点位于所述空白掩码图的边缘；

利用所述第二源点集合中所有源点的坐标构建第二源点矩阵。

作为一种可选的实施方式，在本发明实施例第一方面中，将所述目标文本图像、以及第一控制点和第二控制点输入图像矫正网络，得到矫正图像，包括：

将所述目标文本图像、以及第一控制点和第二控制点输入TPS矫正网络中；

所述TPS矫正网络根据第一控制点和第二控制点的坐标信息确定TPS变换矩阵；

创建一个空白图像，所述空白图像和目标文本图像的尺寸相同，且目标文本图像和空白图像分别对应第一控制点和第二控制点；

利用所述TPS变换矩阵确定所述空白图像的每一个位置点在所述目标文本图像中的坐标点，并利用所述目标文本图像中的坐标点附近像素点的像素值插值得到矫正像素值，将所述矫正像素值填充至所述空白图像中，得到矫正图像。

本发明实施例第二方面公开一种文本矫正的装置，所述装置包括：

获取单元，用于获取目标文本图像；

识别单元，用于将所述目标文本图像输入基于深度学习的文本行检测网络模型，得到所述目标文本图像对应的掩码图；利用所述掩码图确定文本行轮廓及每个文本行轮廓对应的文本中线；

采样点构建单元，用于利用所述掩码图设置对应目标文本图像的第一控制点，所述第一控制点包括文本采样点和边框采样点，所述第二控制点包括第一源点集合和第二源点集合；在所述文本中线上选取多个文本采样点，构建每个文本中线的文本采样点集合；在所述掩码图中距离掩码图边缘最近距离为预设距离的位置设置多个边框采样点，形成边框采样点集合；

源点构建单元，用于根据所述第一控制点设置第二控制点；所述第二控制点包括第一源点集合和第二源点集合，所述第一源点集合包括多个文本源点子集合，且所述文本源点子集合和文本采样点集合一一对应，每个文本源点子集合中文本源点的个数与对应文本采样点集合中的文本采样点的个数相同，所述第二源点集合中源点个数与所述边框采样点集合中的边框采样点的个数相同；

矫正单元，用于将所述目标文本图像、以及第一控制点和第二控制点输入图像矫正网络，得到矫正图像。

作为一种可选的实施方式，在本发明实施例第二方面中，所述识别单元，包括：

掩码生成子单元，用于将所述目标文本图像输入预先训练的基于深度学习的文本行检测网络模型，输出所述目标文本图像对应的掩码图；所述掩码图与所述目标文本图像的尺寸相同，且所述掩码图中包括多个文本区域掩码；

轮廓获取子单元，用于利用所述文本区域掩码得到对应的文本行轮廓；

中线获取子单元，用于利用轮廓收缩的方式确定每个文本行轮廓对应的文本中线。

作为一种可选的实施方式，在本发明实施例第二方面中，所述采样点构建单元，包括：

采样点选取子单元，用于在所述文本中线上选取多个像素点作为文本采样点，同一文本中线任意两个相邻的文本采样点之间的间隔相同；

采样点矩阵构建子单元，利用同一文本中线中所有文本采样点构建文本采样点集合，利用文本采样点集合中所有文本采样点的坐标构建文本采样点矩阵。

作为一种可选的实施方式，在本发明实施例第二方面中，所述源点构建单元，包括：

创建子单元，用于创建一张空白掩码图，所述空白掩码图与掩码图的尺寸相同；

第一源点选取子单元，用于在所述空白掩码图中构建每个文本采样点集合对应的文本源点子集合；所述文本源点子集合中的文本源点数量与对应文本采样点集合中的文本采样点的个数相同；同一文本源点子集合中的文本源点之间的连线与空白掩码图的水平方向平行，且同一文本源点子集合中的相邻文本源点之间的间隔相同；

第一源点矩阵构建子单元，用于确定同一文本源点子集合中所有文本源点的坐标，并利用所述同一文本源点子集合中的所有文本源点的坐标构建文本源点矩阵。

作为一种可选的实施方式，在本发明实施例第二方面中，所述源点构建单元，还包括：

第二源点选取子单元，用于在所述空白掩码图中构建所述边框采样点集合对应的第二源点集合，第二源点集合中源点个数与所述边框采样点集合中的边框采样点的个数相同，且所述第二源点集合中的源点位于所述空白掩码图的边缘；

第二源点矩阵构建子单元，用于利用所述第二源点集合中所有源点的坐标构建第二源点矩阵。

作为一种可选的实施方式，在本发明实施例第二方面中，所述矫正单元，包括：

输入子单元，用于将所述目标文本图像、以及第一控制点和第二控制点输入TPS矫正网络中；

变换矩阵确定子单元，用于所述TPS矫正网络根据第一控制点和第二控制点的坐标信息确定TPS变换矩阵；

空白图像创建子单元，用于创建一个空白图像，所述空白图像和目标文本图像的尺寸相同，且目标文本图像和空白图像分别对应第一控制点和第二控制点；

插值子单元，用于利用所述TPS变换矩阵确定所述空白图像的每一个位置点在所述目标文本图像中的坐标点，并利用所述目标文本图像中的坐标点附近像素点的像素值插值得到矫正像素值，将所述矫正像素值填充至所述空白图像中，得到矫正图像。

本发明实施例第三方面公开一种电子设备，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行本发明实施例第一方面公开的一种文本矫正的方法的部分或全部步骤。

本发明实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的一种文本矫正的方法的部分或全部步骤。

本发明实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的一种文本矫正的方法的部分或全部步骤。

本发明实施例第六方面公开一种应用发布平台，所述应用发布平台用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的一种文本矫正的方法的部分或全部步骤。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，获取目标文本图像；将所述目标文本图像输入基于深度学习的文本行检测网络模型，得到所述目标文本图像对应的掩码图；利用所述掩码图确定文本行轮廓及每个文本行轮廓对应的文本中线；利用所述掩码图设置对应目标文本图像的第一控制点；根据所述第一控制点设置第二控制点；将所述目标文本图像、以及第一控制点和第二控制点输入图像矫正网络，得到矫正图像。可见，实施本发明实施例，其使用文本行检测算法和图像矫正网络相结合，对检测出的文本行进行插值，进而根据结果进行扭曲矫正。进一步地，采用深度学习的文本行检测算法，可以很好地检测出扭曲文本，对各种复杂情况有较好的鲁棒性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种文本矫正的方法的流程示意图；

图2为本发明实施例公开的文本行轮廓获取的方法的流程示意图；

图3为本发明实施例公开的一个掩码图的示意图；

图4为图3的掩码图经过逐行相减运算后的新值示意图；

图5为基于图4的新值确定的文本行轮廓的示意图；

图6为本发明实施例公开的另一个掩码图的示意图；

图7为图6的掩码图经过逐行相减运算后的新值示意图；

图8为基于图7的新值确定的文本行轮廓的示意图；

图9为本发明实施例公开的文本行轮廓的示意图；

图10为基于图9确定的文本中线的示意图；

图11为基于图10设置的第一控制点的示意图；

图12为本发明实施例公开的绘制的第二控制点的示意图；

图13为本发明实施例公开的一种文本矫正的装置的结构示意图；

图14为本发明实施例公开的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象，而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，示例性地，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例公开了一种文本矫正的方法、装置、电子设备和存储介质，其使用文本行检测算法和图像矫正网络相结合，对检测出的文本行进行插值，进而根据结果进行扭曲矫正。进一步地，采用深度学习的文本行检测算法，可以很好地检测出扭曲文本，对各种复杂情况有较好的鲁棒性，以下结合附图进行详细描述。

实施例一

请参阅图1，图1是本发明实施例公开的一种文本矫正方法的流程示意图。如图1所示，该文本矫正方法包括以下步骤：

110、获取目标文本图像。

目标文本图像为具有一定程度扭曲的文本图像，可以是用户输入的图像，也可以是从网上下载的图像。示例性地，用户通过图像采集装置对文档进行拍照得到的图像。目标文本图像中存在一个或多个文本行。

获取目标文本图像后，可以对其进行预处理，预处理包括但不限于图像增强和形状矫正。其中，形状矫正主要是将目标文本图像的外形调整为矩形，其方法包括但不限于霍夫变换。当然，也可以使用传统方法对目标文本图像进行初步的文字矫正，例如使用角点检测、连通域检测、霍夫变换等进行矫正。最后得到的目标文本图像执行步骤120-150的操作。

120、将所述目标文本图像输入基于深度学习的文本行检测网络模型，得到所述目标文本图像对应的掩码图；利用所述掩码图确定文本行轮廓及每个文本行轮廓对应的文本中线。

文本行检测网络模型主要对目标文本图像中的各个文本行进行检测，得到文本行区域掩码的掩码图。获取目标文本图像的文本行区域掩码的方式可以有多种，在本发明实施例中，采用基于深度学习的文本行检测网络模型实现，文本行检测网络模型可以采用YOLO、CTPN、PseNet等任意的深度学习网络。示例性地，采用PseNet文本行检测网络模型，使得检测结果对光照、颜色、纹理、模糊等情况具有很强的鲁棒性。

创建PseNet文本行检测网络模型后，通过样本集合对其进行训练，样本的标签为每个文本行的外接框。将目标文本图像输入PseNet文本行检测网络模型，通过FPN检测出各个文本行区域，然后在基于PSE的后处理，即渐进式尺度扩展算法后，输出的是一个针对文本区域和背景多分类的掩码(mask)图。

掩码图的尺寸与目标文本图像的尺寸相同，即具有相同数量的像素，如果以像素点坐标为基础，则二者的坐标可以通过简单映射到对方对应的位置上。

获取掩码图后，需要确定掩码图的文本行轮廓，文本行轮廓的获取方式可以是通过Opencv中的findContours函数，针对每个文本行区域掩码进行遍历，以找出每个文本行区域的轮廓范围。

示例性地，请参照图2所示，文本行轮廓还可以通过以下步骤实现：

121、确定所述掩码图中各个像素点的值，在编号为i的文本行区域掩码中，其文本行区域掩码内的各个像素点的值为i，掩码图中文本行区域掩码外的其余像素点的值为0；1≤i≤M，M为目标文本图像对应的文本行区域掩码的总数。

掩码图为一个尺寸与目标文本图像相同的只有一个通道的矩阵的呈现方式，该矩阵为N*m的二维矩阵，其中，N为目标文本图像和掩码图的像素点的行数，m为目标文本图像和掩码图的像素点的列数，每个像素点的值为0、1、2......M，表明目标文本图像中为背景或者是文本区域，掩码图中的各个值及其位置对应相应的文本行区域掩码，例如值为1的点的集合对应目标文本图像的第一个文本行区域掩码，值为0的点的集合对应目标文本图像的背景区域。

对于用户而言，由于矩阵无法直观显示各个文本行区域掩码，事实上，PseNet文本行检测网络模型最终的结果为掩码图，每个文本行区域掩码的值不同，所以呈现多分类的不同颜色的文本行区域掩码

基于以上原理，可以得到掩码图中所有像素点的值，以各个像素点的值的不同，为每个文本行区域掩码进行编号，其中，编号为i的文本行区域掩码中的各个像素点的值均为i，编号为k的文本行区域掩码中的各个像素点的值均为k。掩码图中文本行区域掩码外的其余像素点的值为0。1≤i≤M，M为目标文本图像对应由PseNet文本行检测网络模型识别到的文本行区域掩码的总数。

122、将掩码图中第j行像素点的值减去第j+1行对应像素点的值，得到第j行或第j+1行像素点的新值，其中，1≤j≤N，N为掩码图的总行数。

新值计算可以使用python的科学计算库numpy中的高效的矩阵运算方法实现，将掩码图对应的N*m的二维矩阵进行逐行相减，得到一个新值矩阵。具体地，将掩码图中第j行像素点的值减去第j+1行对应像素点的值，得到第j行或第j+1行像素点的新值，其中，1≤j≤N，N为掩码图的总行数。

第j行像素点的值减去第j+1行对应像素点的值是指将第j行每个像素点的值减去第j行每个像素点所在列的第j+1行对应像素点的值。

可以将掩码图首行作为第一行，则上述新值的计算为从上到下实现逐步相减操作。也可以将掩码图的尾行作为第一行，则上述新值的计算为从下到上实现逐步相减操作。当然，二者也可以相互转换，例如如果以掩码图首行为第一行，将掩码图中第j行像素点的值减去第j-1行对应像素点的值，得到第j行或第j-1行像素点的新值，则该新值的计算也是从下到上实现逐步相减操作。相减得到的差值作为相减的两行中任意一行的新值，最后无新值的一行取值为0，例如，从下往上实现相减操作，尾行的一行减去倒数第二行的差值作为尾行的新值，则首行无新值，将首行的值均置于0，如果差值作为倒数第二行的新值，则尾行没有新值，最下面一行的值均置于0。

类似的方式，还可以通过相邻的列相减得到新值来确定各个文本行的轮廓。

123、所述新值中等于-i的像素点的集合，形成编号为i的文本行区域掩码对应的第一边界信息，所述新值中等于i的像素点的集合，形成编号为i的文本行区域掩码对应的第二边界信息。

这里以自下而上的逐行相减方式，得到编号为i的文本行区域掩码的新值为例，确定编号为i的文本行区域掩码对应的第一边界信息(即下边界信息，如果自上而下，则第一边界信息为上边界信息)和第二边界信息(即上边界信息，如果自上而下，则第二边界信息为下边界信息)。

具体地，请参照图3所示含有一个矩形文本行区域掩码的掩码图(i＝7)，通过自下而上逐行相减得到图4的新值，图4的新值中，新值为-7的像素点构成下边界信息，新值为7的像素点构成上边界信息。

124、根据所述第一边界信息和第二边界信息确定编号为i的文本行区域掩码对应的上、下、左、右边界。

将所述新值中等于-i的像素点依次相连，形成编号为i的文本行区域掩码对应的第一边界；将所述新值中等于i的像素点依次相连，形成编号为i的文本行区域掩码对应的第二边界。仍以图3所示掩码图为例，采用图4所示的自下而上的逐行相减算法，通过新值像素点相连的方式可以得到图5中上边界为线段AB的第二边界以及下边界为线段EF的第一边界。

然后确定所述新值等于-i的像素点中横坐标最小的像素点为第一像素点，确定所述新值等于i的像素点中横坐标最小的像素点为第二像素点；确定所述新值等于-i的像素点中横坐标最大的像素点为第三像素点，确定所述新值等于i的像素点中横坐标最大的像素点为第四像素点。将第一像素点和第二像素点连接作为编号为i的文本行区域掩码对应的左边界；将第三像素点和第四像素点连接作为编号为i的文本行区域掩码的右边界。

因为采用逐行相减方式，则每个第一像素点和第二像素点的纵坐标相同，第三像素点和第四像素点的纵坐标相同。将第一像素点和第二像素点相连，将第三像素点和第四像素点相连后，可以得到图5中上边界为线段AF的左边界以及下边界为线段BE的右边界。

125、基于所述编号为i的文本行区域掩码对应的上、下、左、右边界构造编号为i的文本行区域掩码对应的文本行轮廓。

将左边界、第一边界、右边界以及第二边界构成的闭合框形成所述编号为7的文本行区域掩码对应的文本行轮廓，即图5中的线段AB、BE、EF、AF构成的闭合框作为编号7的文本行区域掩码对应的文本行轮廓。

在图5中，ABCD构成的闭合框可以认为是理论上编号7的文本行区域掩码对应的文本行轮廓，由此可以看出，本发明方式得到的文本行轮廓相对于其而言，囊括了理论上文本行轮廓且仅仅大了一行像素点位置，这种偏离相对于整个掩码图而言，可以忽略，因为一般两个文本行之间的像素点远远大于1行像素点，但是计算速度却提升了数倍。

同样的方式，本发明实施例也可以适用于具有弯曲文本行的轮廓的确定，图6-8为对于编号为8的弯曲文本行实现逐行相减并确定其文本行轮廓的示意图。从图8可以看出，本发明实施例确定的文本行轮廓(细线部分)包裹了理论上文本行轮廓(粗线部分)，且仅仅在部分区域，向外侧偏离了一个像素点的位置，这种偏离可以忽略，但是计算速度却提升了数倍。

针对文本行区域和背景多分类的掩码图进行逐行相减运算，通过此找出对应文本行的上下边界，从而计算出对应文本行的轮廓信息，极大程度上降低了该模块的耗时，使其不受文本行区域的密集程度影响，将找轮廓的平均耗时降低到了50ms以内。

相同方式得到每个文本行区域掩码对应的文本行轮廓，将所有的文本行轮廓与掩码图架构结合，形成新的掩码图(为示区分，可以将上述的通过文本行检测网络模型得到的掩码图称为基础掩码图)，该新的掩码图中仅仅包括所有的文本行轮廓，图9示出了一个仅包括文本行轮廓的掩码图(示出了TextLine-1和TextLine-2两个文本行轮廓)，为了显示方便，在图中，掩码图的整个图像以灰色代替，文本行轮廓以黑色代替。

获取到文本行轮廓后，可以基于文本行轮廓通过边框(轮廓)收缩的方式得到图10所示的文本中线(虚线部分示出了与图9中TextLine-1和TextLine-2两个文本行轮廓分别对应的centerLine-1和centerLine-2两个文本中线)。

130、利用所述掩码图设置对应目标文本图像的第一控制点。

所述第一控制点包括文本采样点和边框采样点，所述第二控制点包括第一源点集合和第二源点集合；在所述文本中线上选取多个文本采样点，构建每个文本中线的文本采样点集合；在所述掩码图中距离掩码图边缘最近距离为预设距离的位置设置多个边框采样点，形成边框采样点集合。

之所以采用文本中线设置文本采样点，其因为相对于通过轮廓外围设置的采样点，其数量较少，可以提高计算速度，同时，为了使得矫正效果更好，也可以在牺牲一定计算速度的情况下，每个文本中线设置更多个文本采样点，当然，这种情况下，其处理速度仍比使用轮廓设置采样点快。

具体地，在所述文本中线上选取多个像素点作为文本采样点，为了使得插值效果更好，可以使同一文本中线任意两个相邻的文本采样点之间间隔相同，具体可以是同一文本中线任意两个相邻的文本采样点之间间隔相同数量的像素点，或者同一文本中线任意两个相邻的文本采样点之间的欧氏距离(或曼哈顿距离)相等。不同文本中线选取的文本采样点数量可以相同，也可以不同，例如，可以设置所有文本中线的任意两个相邻的文本采样点之间间隔均相同等。

利用同一文本中线中所有文本采样点构建文本采样点集合，利用文本采样点集合中所有文本采样点的坐标构建文本采样点矩阵。文本采样点矩阵为每个文本中线中所有文本采样点的坐标的拼接。

另外，通过边框采样点与文本采样点进行结合形成第一控制点，其在矫正时，比纯粹使用文本采样点的效果更好，边框采样点在掩码图的边缘(对应目标文本图像的边缘)选取。为了避免目标文本图像部分边缘出现凸起或凹陷，在本发明实施例中，将边框采样点设置于距离掩码图边缘预设距离的位置上，为目标文本图像边缘出现异形留有一定的弹性空间，预设距离可以根据具体需要进行调整。图11示出了各个文本中线对应的文本采样点和掩码图对应的边框采样点，在图11中，边框采样点距离掩码图的边缘的最近距离均等于δ。另外，优选边框采样点之间的连线为一个矩形，即与目标文本图像的形状相同，同时，相邻边框采样点的间距也优选相等，这种边框采样关键点的选取方式，更有助于矫正。将确定的所有文本采样点矩阵和边框采样点的坐标拼接的边框采样点矩阵再次拼接，得到第一控制点矩阵。

140、根据所述第一控制点设置第二控制点。

第二控制点为输出的矫正图像的与第一控制点对应的坐标点，即校正图像中，第二控制点的像素值与第一控制点对应的目标文本图像的像素点相同，第二控制点周边的像素值是通过第一控制点在目标文本图像中像素点的插值确定的，因此，第二控制点的数量需要与第一控制点的数量相同，且一一对应，第二控制点矩阵和第一控制点矩阵对应的坐标点在相同的矩阵位置中。

具体地，所述第二控制点包括第一源点集合和第二源点集合，所述第一源点集合包括多个文本源点子集合，且所述文本源点子集合和文本采样点集合一一对应，每个文本源点子集合中文本源点的个数与对应文本采样点集合中的文本采样点的个数相同，所述第二源点集合中源点个数与所述边框采样点集合中的边框采样点的个数相同。

可以创建一张空白掩码图，空白掩码图的尺寸与上述的掩码图的尺寸相同，同样为了便于映射二者之间的坐标，为后续获取变换矩阵提供基础。

在所述空白掩码图中构建每个文本采样点集合对应的文本源点子集合；所述文本源点子集合中的文本源点数量与对应文本采样点集合中的文本采样点的个数相同；同一文本源点子集合中的文本源点之间的连线与空白掩码图的水平方向平行，且同一文本源点子集合中的相邻文本源点之间的间隔相同。相应地，文本源点子集合对应的文本行在掩码图的顺序不发生变化，这样使得整体的目标文本图像的内容不会出现位置变化，当然，也可以改变文本源点子集合的位置，例如，将图12中靠上的文本源点子集合对应图11中靠下的文本采样点，这种情况下，得到的矫正图像会将文本内容进行调整。确定同一文本源点子集合中所有文本源点的坐标，并利用所述同一文本源点子集合中的所有文本源点的坐标构建文本源点矩阵。

第二源点集合对于第一控制点中的边框采样点集合，为了矫正后图像的整体更为协调，在本发明实施例中，第二源点集合设置于空白掩码图的边缘上，因为上述边框采样点的连线形成矩形结构，因此，第二源点集合中，存在四个第二源点位于空白掩码图的四个角上，如图12所示。利用所述第二源点集合中所有源点的坐标构建第二源点矩阵。所有的文本源点矩阵和第二源点矩阵进行拼接，得到第二控制点矩阵。

150、将所述目标文本图像、以及第一控制点和第二控制点输入图像矫正网络，得到矫正图像。

在本发明实施例中，图像矫正网络采用TPS矫正网络。TPS算法采用能量最小化的原则，使目标文本图像尽量趋于理想的设定的矫正状态。

TPS矫正网络内置采样网格产生器，可以根据第一控制点和第二控制点的位置坐标确定TPS变换矩阵，可以对目标文本图像所有像素点进行插值，求得插值之后的位置，通过TPS变换矩阵进行像素值映射就可以得到矫正图像，具体是：创建一个空白图像，所述空白图像和目标文本图像的尺寸相同，且目标文本图像和空白图像分别对应第一控制点和第二控制点，利用所述TPS变换矩阵确定所述空白图像的每一个位置点在所述目标文本图像中的坐标点，并利用所述目标文本图像中的坐标点附近像素点的像素值插值得到矫正像素值，将所述矫正像素值填充至所述空白图像中，得到矫正图像。

实施本发明实施例，使用TPS薄板样条插值算法和PseNet文本行检测算法，对检测出的文本行进行插值，进而根据结果进行扭曲矫正。因为PseNet是一种深度学习的文本行检测算法，可以很好地检测出扭曲文本，因此对各种复杂情况有较好的鲁棒性。

实施例二

请参阅图13，图13是本发明实施例公开的一种文本矫正装置的结构示意图。如图13所示，该文本矫正装置可以包括：

获取单元210，用于获取目标文本图像；

识别单元220，用于将所述目标文本图像输入基于深度学习的文本行检测网络模型，得到所述目标文本图像对应的掩码图；利用所述掩码图确定文本行轮廓及每个文本行轮廓对应的文本中线；

采样点构建单元230，用于利用所述掩码图设置对应目标文本图像的第一控制点，所述第一控制点包括文本采样点和边框采样点，所述第二控制点包括第一源点集合和第二源点集合；在所述文本中线上选取多个文本采样点，构建每个文本中线的文本采样点集合；在所述掩码图中距离掩码图边缘最近距离为预设距离的位置设置多个边框采样点，形成边框采样点集合；

源点构建单元240，用于根据所述第一控制点设置第二控制点；所述第二控制点包括第一源点集合和第二源点集合，所述第一源点集合包括多个文本源点子集合，且所述文本源点子集合和文本采样点集合一一对应，每个文本源点子集合中文本源点的个数与对应文本采样点集合中的文本采样点的个数相同，所述第二源点集合中源点个数与所述边框采样点集合中的边框采样点的个数相同；

矫正单元250，用于将所述目标文本图像、以及第一控制点和第二控制点输入图像矫正网络，得到矫正图像。

作为一种可选的实施方式，所述识别单元220，包括：

掩码生成子单元221，用于将所述目标文本图像输入预先训练的基于深度学习的文本行检测网络模型，输出所述目标文本图像对应的掩码图；所述掩码图与所述目标文本图像的尺寸相同，且所述掩码图中包括多个文本区域掩码；

轮廓获取子单元222，用于利用所述文本区域掩码得到对应的文本行轮廓；

中线获取子单元223，用于利用轮廓收缩的方式确定每个文本行轮廓对应的文本中线。

作为一种可选的实施方式，所述采样点构建单元230，包括：

采样点选取子单元231，用于在所述文本中线上选取多个像素点作为文本采样点，同一文本中线任意两个相邻的文本采样点之间的间隔相同；

采样点矩阵构建子单元232，利用同一文本中线中所有文本采样点构建文本采样点集合，利用文本采样点集合中所有文本采样点的坐标构建文本采样点矩阵。

作为一种可选的实施方式，所述源点构建单元240，包括：

创建子单元241，用于创建一张空白掩码图，所述空白掩码图与掩码图的尺寸相同；

第一源点选取子单元242，用于在所述空白掩码图中构建每个文本采样点集合对应的文本源点子集合；所述文本源点子集合中的文本源点数量与对应文本采样点集合中的文本采样点的个数相同；同一文本源点子集合中的文本源点之间的连线与空白掩码图的水平方向平行，且同一文本源点子集合中的相邻文本源点之间的间隔相同；

第一源点矩阵构建子单元243，用于确定同一文本源点子集合中所有文本源点的坐标，并利用所述同一文本源点子集合中的所有文本源点的坐标构建文本源点矩阵。

作为一种可选的实施方式，所述源点构建单元240，还包括：

第二源点选取子单元244，用于在所述空白掩码图中构建所述边框采样点集合对应的第二源点集合，第二源点集合中源点个数与所述边框采样点集合中的边框采样点的个数相同，且所述第二源点集合中的源点位于所述空白掩码图的边缘；

第二源点矩阵构建子单元245，用于利用所述第二源点集合中所有源点的坐标构建第二源点矩阵。

作为一种可选的实施方式，所述矫正单元250，包括：

输入子单元251，用于将所述目标文本图像、以及第一控制点和第二控制点输入TPS矫正网络中；

变换矩阵确定子单元252，用于所述TPS矫正网络根据第一控制点和第二控制点的坐标信息确定TPS变换矩阵；

空白图像创建子单元253，用于创建一个空白图像，所述空白图像和目标文本图像的尺寸相同，且目标文本图像和空白图像分别对应第一控制点和第二控制点；

插值子单元254，用于利用所述TPS变换矩阵确定所述空白图像的每一个位置点在所述目标文本图像中的坐标点，并利用所述目标文本图像中的坐标点附近像素点的像素值插值得到矫正像素值，将所述矫正像素值填充至所述空白图像中，得到矫正图像。

图13所示的文本矫正装置，使用TPS薄板样条插值算法和PseNet文本行检测算法，对检测出的文本行进行插值，进而根据结果进行扭曲矫正。因为PseNet是一种深度学习的文本行检测算法，可以很好地检测出扭曲文本，因此对各种复杂情况有较好的鲁棒性。

实施例三

请参阅图14，图14是本发明实施例公开的一种电子设备的结构示意图。如图14所示，该电子设备可以包括：

存储有可执行程序代码的存储器310；

与存储器310耦合的处理器320；

其中，处理器320调用存储器310中存储的可执行程序代码，执行实施例一中文本矫正的方法中的部分或全部步骤。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行实施例一中文本矫正的方法中的部分或全部步骤。

本发明实施例还公开一种计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一中文本矫正的方法中的部分或全部步骤。

本发明实施例还公开一种应用发布平台，其中，应用发布平台用于发布计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一中文本矫正的方法中的部分或全部步骤。

在本发明的各种实施例中，应理解，所述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。

在本发明所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

本领域普通技术人员可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种文本矫正的方法、装置、电子设备和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本矫正的方法，其特征在于，包括：

获取目标文本图像；

利用所述掩码图设置对应目标文本图像的第一控制点；所述第一控制点包括文本采样点和边框采样点，在所述文本中线上选取多个文本采样点，构建每个文本中线的文本采样点集合；在所述掩码图中距离掩码图边缘最近距离为预设距离的位置设置多个边框采样点，形成边框采样点集合；

2.根据权利要求1所述的方法，其特征在于，将所述目标文本图像输入基于深度学习的文本行检测网络模型，得到所述目标文本图像对应的掩码图；利用所述掩码图确定文本行轮廓及每个文本行轮廓对应的文本中线，包括：

利用所述文本区域掩码得到对应的文本行轮廓；

利用轮廓收缩的方式确定每个文本行轮廓对应的文本中线。

3.根据权利要求1所述的方法，其特征在于，在所述文本中线上选取多个文本采样点，构建每个文本中线的文本采样点集合，包括：

4.根据权利要求3所述的方法，其特征在于，所述第一源点集合包括多个文本源点子集合，且所述文本源点子集合和文本采样点集合一一对应，每个文本源点子集合中文本源点的个数与对应文本采样点集合中的文本采样点的个数相同，包括：

5.根据权利要求4所述的方法，其特征在于，所述第二源点集合中源点个数与所述边框采样点集合中的边框采样点的个数相同，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，将所述目标文本图像、以及第一控制点和第二控制点输入图像矫正网络，得到矫正图像，包括：

7.一种文本矫正的装置，其特征在于，所述装置包括：

获取单元，用于获取目标文本图像；

采样点构建单元，用于利用所述掩码图设置对应目标文本图像的第一控制点；所述第一控制点包括文本采样点和边框采样点，在所述文本中线上选取多个文本采样点，构建每个文本中线的文本采样点集合；在所述掩码图中距离掩码图边缘最近距离为预设距离的位置设置多个边框采样点，形成边框采样点集合；

8.根据权利要求7所述的装置，其特征在于，所述识别单元，包括：

9.根据权利要求7所述的装置，其特征在于，所述采样点构建单元，包括：

10.根据权利要求9所述的装置，其特征在于，所述源点构建单元，包括：

11.根据权利要求10所述的装置，其特征在于，所述源点构建单元，还包括：

12.根据权利要求7-11任一项所述的装置，其特征在于，所述矫正单元，包括：

13.一种电子设备，其特征在于，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行权利要求1至6任一项所述的一种文本矫正的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求1至6任一项所述的一种文本矫正的方法。