CN111507333B

CN111507333B - 一种图像矫正方法、装置、电子设备和存储介质

Info

Publication number: CN111507333B
Application number: CN202010315801.2A
Authority: CN
Inventors: 刘皓
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2023-09-15
Anticipated expiration: 2040-04-21
Also published as: CN111507333A

Abstract

本申请公开了一种图像矫正方法、装置、电子设备和存储介质；本申请可以获取目标文本图像；对所述目标文本图像进行文本片段区域识别；获取参考图，所述参考图关注与所述文本片段区域位置对应的区域；将所述参考图与所述目标文本图像中的所述文本片段区域进行融合，得到关注每个文本片段区域的全局文本区域关注图；根据全局文本区域关注图和所述目标文本图像，得到所述目标文本图像对应的文本矫正位移信息；基于所述文本矫正位移信息对所述目标文本图像进行文本矫正处理，得到矫正后图像。本申请可以基于对目标文本图像的文本片段区域的关注，能够对目标文本图像更好地矫正，有利于提升文本识别的精确度。

Description

一种图像矫正方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种图像矫正方法、装置、电子设备和存储介质。

背景技术

随着科技的发展，便捷式照相机和智能手机日益普及，用户可以通过拍照将纸质文档转化为数字化文档，以对纸质文档进行存档、检索和共享，并用于进一步处理、交换、信息提取和内容分析。然而，不同于使用平台式扫描仪对纸质文档进行扫描，对于移动设备，由于纸张的物理变形、拍摄设备的限制和光照条件等不可控因素，拍摄到的文档图像往往不可避免地存在某种程度的失真。因此，需要对这些文档图像进行矫正，才可以进行后续的文字识别。

在目前的相关技术中，一般通过对纸张进行三维形状重建的方法或者通过纸张二维形状估计方法，来对文档图像进行矫正。在纸张三维形状重建方法中，可使用点云采集设备以及深度摄像机等采集纸张的三维数据，以重建纸张的三维形状，进而来矫正文档图像，然而，该方法对采集设备的要求比较高，不具备普适性。对于纸张二维形状估计方法，利用的是纸张的低层次特征，如光照和阴影，但是由于这种特征的建模不是数据驱动的，往往对于角度和场景十分敏感，因此也不具有普适性。

发明内容

本申请实施例提供一种图像矫正方法、装置、电子设备和存储介质，能够对目标文本图像更好地矫正，有利于提升文本识别的精确度。

本申请实施例提供一种图像矫正方法，包括：

获取目标文本图像；

对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域；

获取关注预设文本区域的参考图，所述预设文本区域为与所述文本片段区域位置对应的区域；

将所述参考图与所述目标文本图像中的所述文本片段区域进行融合，得到关注每个文本片段区域的全局文本区域关注图；

根据所述全局文本区域关注图和所述目标文本图像，得到所述目标文本图像对应的文本矫正位移信息；

基于所述文本矫正位移信息对所述目标文本图像进行文本矫正处理，得到矫正后图像。

相应的，本申请实施例提供一种图像矫正装置，包括：

第一获取单元，用于获取目标文本图像；

识别单元，用于对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域；

第二获取单元，用于获取关注预设文本区域的参考图，所述预设文本区域为与所述文本片段区域位置对应的区域；

融合单元，用于将所述参考图与所述目标文本图像中的所述文本片段区域进行融合，得到关注每个文本片段区域的全局文本区域关注图；

修正单元，用于根据所述全局文本区域关注图和所述目标文本图像，得到所述目标文本图像对应的文本矫正位移信息；

矫正单元，用于基于所述文本矫正位移信息对所述目标文本图像进行文本矫正处理，得到矫正后图像。

可选的，在本申请的一些实施例中，所述识别单元可以包括提取子单元和识别子单元，如下：

所述提取子单元，用于对所述目标文本图像进行特征提取，得到所述目标文本图像的特征图；

识别子单元，用于基于滑动的文本窗口对所述特征图进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域。

可选的，在一些实施例中，所述目标文本图像的特征图包括多尺度的特征图；所述识别子单元具体可以用于通过滑动的文本窗口对每个尺度下的特征图进行文本片段区域识别，得到每个尺度下的特征图的候选文本片段区域；将各个尺度的候选文本片段区域进行融合，以确定所述目标文本图像的至少一个文本片段区域。

其中，可选的，一些实施例中，步骤“通过滑动的文本窗口对每个尺度下的特征图进行文本片段区域识别，得到每个尺度下的特征图的候选文本片段区域”，具体可以包括：

确定目标尺度下的特征图对应的至少一个目标文本窗口；

基于至少一个目标文本窗口，在目标尺度下的特征图上进行滑动；

在识别到目标文本窗口中的内容为文本内容时，确定所述目标文本窗口对应的区域为所述目标尺度下的特征图的候选文本片段区域，得到每个尺度下的特征图的候选文本片段区域。

可选的，在一些实施例中，所述提取子单元具体可以用于对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的多个尺度的特征图。

其中，可选的，一些实施例中，步骤“对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的多个尺度的特征图”，具体可以包括：

对所述目标文本图像进行多次下采样处理，得到所述目标文本图像多个尺度下的下采样特征图；

对目标尺度的下采样特征图进行多次上采样处理，得到所述目标文本图像多个尺度下的上采样融合特征图，其中，每个尺度的上采样输入为相邻尺度的上采样特征图和下采样特征图融合得到的融合特征；

对每个尺度的上采样融合特征图进行卷积操作，得到所述目标文本图像的每个尺度下的特征图。

可选的，在本申请的一些实施例中，所述融合单元可以包括第一调整子单元，第二调整子单元和获取子单元，如下：

所述第一调整子单元，用于基于所述参考图对所述文本片段区域中像素的像素值进行调整，得到关注所述文本片段区域的局部文本区域关注图；

第二调整子单元，用于将目标文本图像中的非文本片段区域中像素的像素值调整为预设值，其中，所述非文本片段区域为目标文本图像中除文本片段区域外的其他区域；

获取子单元，用于基于每个文本片段区域的局部文本区域关注图和所述非文本片段区域中像素的像素值，得到关注每个文本片段区域的全局文本区域关注图。

可选的，在本申请的一些实施例中，所述修正单元可以包括处理子单元和修正子单元，如下：

所述处理子单元，用于对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的矫正位移信息图；

修正子单元，用于根据所述全局文本区域关注图，对所述矫正位移信息图进行修正，得到所述目标文本图像对应的文本矫正位移信息。

可选的，在本申请的一些实施例中，步骤“对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的矫正位移信息图”，可以包括：

对所述目标文本图像进行多次下采样处理，得到所述目标文本图像多个尺度下的下采样矫正特征图；

对目标尺度的下采样矫正特征图进行多次上采样处理，得到所述目标文本图像多个尺度下的上采样融合矫正特征图，其中，每个尺度的上采样输入为相邻尺度的上采样矫正特征图和下采样矫正特征图融合得到的融合特征；

从各个尺度的上采样融合矫正特征图中确定所述目标文本图像的矫正位移信息图。

可选的，在一些实施例中，所述识别单元可以包括通过第一图像矫正模型对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域。

可选的，在一些实施例中，所述处理子单元可以包括通过第二图像矫正模型对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的矫正位移信息图。

可选的，在本申请的一些实施例中，所述图像矫正装置的识别单元还可以包括第一训练子单元，如下：

所述第一训练子单元，用于获取第一训练数据，所述第一训练数据包括待矫正文本图像和所述待矫正文本图像的实际文本片段区域；通过第一预设图像矫正模型，对所述待矫正文本图像进行文本片段区域识别，以确定所述待矫正文本图像的预测文本片段区域；计算所述实际文本片段区域和所述预测文本片段区域之间的片段区域识别损失；基于所述片段区域识别损失，对第一预设图像矫正模型的参数进行调整，得到第一图像矫正模型。

可选的，在本申请的一些实施例中，所述图像矫正装置的修正单元还可以包括第二训练子单元，如下：

所述第二训练子单元，用于获取第二训练数据，所述第二训练数据包括待矫正文本图像和所述待矫正文本图像对应的实际矫正位移信息图；通过第二预设图像矫正模型，对所述待矫正文本图像进行多次下采样和上采样处理，得到所述待矫正文本图像的预测矫正位移信息图；计算所述预测矫正位移信息图和所述实际矫正位移信息图之间的矫正位移损失；基于所述矫正位移损失，对第二预设图像矫正模型的参数进行调整，得到第二图像矫正模型。

本申请实施例提供的一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器加载所述指令，以执行本申请实施例提供的图像矫正方法中的步骤。

此外，本申请实施例还提供一种存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现本申请实施例提供的图像矫正方法中的步骤。

本申请实施例提供了一种图像矫正方法、装置、电子设备和存储介质，可以获取目标文本图像；对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域；获取关注预设文本区域的参考图，所述预设文本区域为与所述文本片段区域位置对应的区域；将所述参考图与所述目标文本图像中的所述文本片段区域进行融合，得到关注每个文本片段区域的全局文本区域关注图；根据所述全局文本区域关注图和所述目标文本图像，得到所述目标文本图像对应的文本矫正位移信息；基于所述文本矫正位移信息对所述目标文本图像进行文本矫正处理，得到矫正后图像。本申请可以基于对目标文本图像的文本片段区域的关注，能够对目标文本图像更好地矫正，有利于提升文本识别的精确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的图像矫正方法的场景示意图；

图1b是本申请实施例提供的图像矫正方法的流程图；

图1c是本申请实施例提供的图像矫正方法的说明图；

图1d是本申请实施例提供的图像矫正方法的过程示意图；

图1e是本申请实施例提供的图像矫正方法的另一过程示意图；

图2是本申请实施例提供的图像矫正方法的另一流程图；

图3a是本申请实施例提供的图像矫正装置的结构示意图；

图3b是本申请实施例提供的图像矫正装置的另一结构示意图；

图3c是本申请实施例提供的图像矫正装置的另一结构示意图；

图3d是本申请实施例提供的图像矫正装置的另一结构示意图；

图3e是本申请实施例提供的图像矫正装置的另一结构示意图；

图3f是本申请实施例提供的图像矫正装置的另一结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种图像矫正方法、装置、电子设备和存储介质。具体地，本申请实施例提供适用于电子设备的图像矫正装置，该电子设备可以为终端或服务器等设备。

可以理解的是，本实施例的图像矫正方法可以是在终端上执行的，也可以是在服务器上执行的，还可以是由终端和服务器共同执行的。

参考图1a，以终端和服务器共同执行图像矫正方法为例。本申请实施例提供的图像矫正系统包括终端10和服务器11等；终端10与服务器11之间通过网络连接，比如，通过有线或无线网络连接等，其中，图像矫正装置可以集成在服务器中。

其中，终端10可以通过输入模块获取需要矫正的目标文本图像，并将该目标文本图像发送给服务器11，以便于服务器11基于对该目标文本图像的文本片段区域的关注，来矫正该目标文本图像，再将矫正后图像返回给终端10；或者，在服务器11接收到终端10发送的目标文本图像，还可以基于对该目标文本图像的文本片段区域的关注，来矫正该目标文本图像，并对矫正后图像进行文本识别，得到文本识别结果，再返回该文本识别结果给终端10。其中，终端10可以包括手机、智能电视、平板电脑、笔记本电脑、或个人计算机(PC，Personal Computer)等。终端10上还可以设置客户端，该客户端可以是应用程序客户端或者浏览器客户端等等，用于供用户选取需要矫正的文本图像或者需要矫正和文本识别的文本图像。

服务器11，可以用于：确定目标文本图像；对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域；获取关注预设文本区域的参考图，所述预设文本区域为与所述文本片段区域位置对应的区域；将所述参考图与所述目标文本图像中的所述文本片段区域进行融合，得到关注每个文本片段区域的全局文本区域关注图；根据所述全局文本区域关注图和所述目标文本图像，得到所述目标文本图像对应的文本矫正位移信息；基于所述文本矫正位移信息对所述目标文本图像进行文本矫正处理，得到矫正后图像；再将矫正后图像发送给终端10。其中，服务器11可以是单台服务器，也可以是由多个服务器组成的服务器集群。

上述服务器11矫正目标文本图像的过程，也可以由终端10执行。

本申请实施例提供的图像矫正方法涉及人工智能(AI,ArtificialIntellegence)领域中的计算机视觉技术(CV，Computer Vision)，具体涉及计算机视觉技术中的图像处理(Image Processing)领域下的图像矫正(Image rectification)方向。本申请实施例可以基于对目标文本图像的文本片段区域的关注，能够对目标文本图像更好地矫正，有利于提升文本识别的精确度。

其中，人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等方向。

其中，计算机视觉技术(CV，Computer Vision)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

其中，图像处理(Image Processing)，是用计算机对图像进行分析，以达到所需结果的技术，又称影像处理。图像处理一般指数字图像处理。数字图像是指用工业相机、摄像机、扫描仪等设备经过拍摄得到的一个大的二维数组，该数组的元素称为像素，其值称为灰度值。图像处理技术一般可以包括图像压缩，增强和复原三个部分。

其中，图像矫正(Image rectification)是指对失真图像进行的复原性处理。引起图像失真的原因有很多，如光照、运动模糊和成像系统的限制等，可以根据图像失真原因，建立相应的数学模型，从畸变的图像信号中提取所需要的信息，沿着使图像失真的逆过程恢复图像本来面貌。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本申请实施例将从图像矫正装置的角度进行描述，该图像矫正装置具体可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

本申请实施例的图像矫正方法可以应用于各种需要矫正文本图像的场景中，例如，通过手机对纸质文档进行拍摄，由于光照分布、纸张的物理变形以及拍摄设备的限制等因素，拍摄到的文档图像往往存在某种程度的失真，如文字变形扭曲，可以通过本实施例提供的图像矫正方法，来对拍摄到的文档图像进行矫正，通过该方法能够较好地矫正文档图像，且该方法对矫正设备的要求较低，具有普适性。

如图1b所示，该图像矫正方法的具体流程如下所述，该图像矫正方法可以由服务器执行，也可以由终端来执行，本实施例对此不作限制。

101、获取目标文本图像。

本实施例中，目标文本图像为需要矫正的文本图像，即待矫正文本图像，该目标文本图像的图像内容包含文本。目标文本图像可以是静态图，也可以是动态图，本实施例对此不做限制。

其中，获取目标文本图像的方式有多种。

例如，可以由电子设备上的图像获取设备来获取目标文本图像，比如，在接收到拍摄指令时，开启图像获取设备拍摄图像，将拍摄到的图像作为目标文本图像，其中，图像获取设备可以是摄像头等。

例如，也可以从电子设备本地的图库来获取目标文本图像，比如，目标文本图像存储在电子设备本地的图库中，则在接收到获取目标文本图像的指令时，可以直接从该电子设备本地的图库中获取目标文本图像，其中，本地指该电子设备。

例如，也可以通过互联网来获取目标文本图像，进而提供给该图像矫正装置，比如，通过互联网下载得到该目标文本图像。

例如，还可以通过其他设备来获取目标文本图像，进而提供给该图像矫正装置，即，图像矫正装置具体可以接收其他设备如其他终端发送的目标文本图像。

对于电子设备为服务器的场景，获取目标文本图像，可以包括：接收终端发送的目标文本图像。

102、对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域。

可选的，步骤“对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域”，可以包括：

对所述目标文本图像进行特征提取，得到所述目标文本图像的特征图；

基于滑动的文本窗口对所述特征图进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域。

其中，在另一些实施例中，也可以通过图像分割对特征图进行文本片段区域识别。

其中，步骤“对所述目标文本图像进行特征提取，得到所述目标文本图像的特征图”可以包括：

对所述目标文本图像进行多尺度的特征提取，得到所述目标文本图像的多个尺度下的特征图。

具体地，可以通过神经网络对所述目标文本图像进行特征提取，得到所述目标文本图像的特征图。该神经网络可以是残差网络(ResNet，Residual Network)、密集连接卷积网络(DenseNet，Dense Convolutional Network)和特征金字塔网络(FPN，FeaturePyramid Network)等。但是应当理解的是，本实施例的神经网络并不仅限于上述列举的几种类型。

可选的，一些实施例中，步骤“对所述目标文本图像进行特征提取，得到所述目标文本图像的特征图”，可以包括：

对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的多个尺度的特征图。

可选的，步骤“对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的多个尺度的特征图”，具体可以包括：

在进行采样的过程中，通常是分为上采样和下采样的。对于低分辨率的特征图，可以采用上采样的方式将它还原高分辨率，上采样可以将最后得到的输出上采样到原图的大小；上采样的实质是放大图像和图像插值，插值方法可以是最邻近法、双线性内插法以及三次卷积内插法等。下采样则为缩小图像，它可以使得图像符合显示区域的大小，能够生成应图像对的缩略图。

其中，目标尺度为多个尺度中最低的尺度。步骤“每个尺度的上采样输入为相邻尺度的上采样特征图和下采样特征图融合得到的融合特征”，具体包括：每个尺度的上采样输入为相邻尺度的上采样融合特征图，即相邻尺度的上采样特征图和下采样特征图融合得到的融合特征，为相邻尺度的上采样融合特征图，其中，每个尺度的上采样特征图为通过对相邻尺度的上采样融合特征图进行上采样处理得到的。如，目标文本图像经过多次下采样后，得到大小为原图大小1/2、1/4、1/8、1/16和1/32的下采样特征图，再对1/32的下采样特征图进行多次上采样，得到目标文本图像多个尺度下的上采样融合特征图；对于尺度为1/8的上采样特征图，其上采样输入为尺度为1/16的上采样融合特征图，因为对尺度为1/16的上采样融合特征图进行上采样，可以得到尺度为1/8的上采样特征图；而尺度为1/16的上采样融合特征图是由尺度为1/16的上采样特征图和尺度为1/16的下采样特征图进行融合而得到的。某个尺度的相邻尺度可以指在比这个尺度小的尺度中的最大尺度，具体地，也可以指这个尺度的二分之一的尺度，如存在尺度1/2、1/4、1/8、1/16和1/32，其中，1/8的相邻尺度为1/16。

其中，融合指的是特征融合，融合不同尺度的特征能够提高特征的表征能力。低层特征的分辨率比较高，包含更多的细节信息，但由于经过的卷积少，其噪声较多，语义性低；高层特征则具有较强的语义信息，但是其分辨率低，细节丢失比较多。融合多层的特征，即融合多尺度的特征，能够提升图像矫正的精确度。融合的方式有多种。比如，可以将相同尺度下的上采样特征图与下采样特征图进行拼接；也可以将相同尺度下的上采样特征图和下采样特征图对应的像素进行相加。可以理解的是，融合的方式并不仅限于以上举例，本实施例对此不作限制。

具体地，在一些实施例中，步骤“对目标尺度的下采样特征图进行多次上采样处理，得到所述目标文本图像多个尺度下的上采样融合特征图，其中，每个尺度的上采样输入为相邻尺度的上采样特征图和下采样特征图融合得到的融合特征”，可以包括：

基于对多个尺度中尺度最低的下采样特征图的处理，得到与所述尺度最低的下采样特征图相同尺度的当前特征图；

对所述当前特征图进行上采样，得到上采样特征图，并将所述上采样特征图和与其相同尺度的下采样特征图进行融合，得到所述目标文本图像的上采样融合特征图；

将所述上采样融合特征图作为新的当前特征图，返回执行所述对所述当前特征图进行上采样，得到上采样特征图，并将所述上采样特征图和与其相同尺度的下采样特征图进行融合，得到所述目标文本图像的上采样融合特征图的步骤，以获取所述目标文本图像的各个尺度的上采样融合特征图。

其中，对尺度最低的下采样特征图的处理具体可以是卷积操作等，对尺度最低的下采样特征图使用1*1的卷积核进行卷积运算，得到与其相同尺度的当前特征图。

例如，当该神经网络为特征金字塔网络FPN时，其提取特征图的过程可以参考上述实施例的具体描述。特征金字塔网络FPN本质上为信号的多尺度表示法，对图像信号进行多次下采样，产生不同尺度下的多组图像(信号)以进行后续的处理。其中，下采样是降低信号或图像的采样率的过程，通常用于减少数据量。在每次下采样后，得到的图像的尺寸是下采样前图像的二分之一。在特征金字塔网络中，深层特征和浅层特征的融合可以是通过对应像素相加的方式实现。

具体地，上述目标文本图像的特征图的获取过程大致可以分为下采样处理、上采样处理和特征融合这三步。其中，可以由残差网络来进行下采样处理的过程，然后由特征金字塔来进行上采样和特征融合的过程；或者，也可以完全由特征金字塔网络来获取目标文本图像的特征图，即特征金字塔网络可以通过下采样处理、上采样处理和特征融合，得到目标文本图像的特征图，在这个过程中，也可以说，残差网络为特征金字塔的一部分，用来对目标文本图像进行下采样。

在一具体的实施例中，下采样处理过程可以使用50层残差网络(Res50)或101层残差网络ResNet101，如通过Res50，对目标文本图像进行多次下采样，得到多个尺度的下采样特征图，比如获得大小为原图大小1/2、1/4、1/8、1/16和1/32的下采样特征图。上采样和特征融合的过程可以使用特征金字塔网络FPN，具体地，通过特征金字塔网络，可以对尺度为1/32的下采样特征图进行处理，得到尺度为原图大小1/32的特征图，可将其视为尺度为1/32的上采样融合特征图，对该尺度1/32的上采样融合特征图进行上采样，得到尺度为1/16的上采样特征图，并将其与相同尺度的下采样特征图(即尺度为1/16的下采样特征图)相融合，得到尺度为1/16的上采样融合特征图；对尺度为1/16的上采样融合特征图进行上采样，得到尺度为1/8的上采样特征图，并将其与相同尺度的下采样特征图(即尺度为1/8的下采样特征图)相融合，得到尺度为1/8的上采样融合特征图……以此类推，可以得到尺度为原图大小1/4、1/8、1/16、1/32的上采样融合特征图，并对各个尺度的上采样融合特征图进行卷积操作，得到所述目标文本图像的各个尺度下的特征图，即得到所述目标文本图像的尺度为原图大小1/4、1/8、1/16、1/32的特征图。

本实施例中，步骤“基于滑动的文本窗口对所述特征图进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域”中，具体可以包括：基于滑动的文本窗口，在特征图上进行滑动，即对特征图进行遍历，文本窗口的长宽比、尺寸和角度可以是预先设置好的，当检测到文本窗口中的内容为文本内容，且该文本内容的属性信息满足预设条件时，该预设条件可以是文本内容倾斜角度(扭曲角度)与该文本窗口的角度大致相同，可确定此时该文本窗口对应的区域为该特征图的文本片段区域。

其中，滑动的文本窗口可以包括多种的长宽比、尺寸和角度，长宽比、尺寸和角度可以根据实际情况进行设置，本实施例对此不作限制。例如可以设置三种尺寸、三种长宽比和六种角度的文本窗口，如图1c所示，为不同尺寸、不同长宽比和不同角度的文本窗口，其中，可以水平方向为基准方向，即文本窗口为水平方向的角度为0。

可选的，在一些实施例中，所述目标文本图像的特征图包括多尺度的特征图；步骤“基于滑动的文本窗口对所述特征图进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域”，可以包括：

通过滑动的文本窗口对每个尺度下的特征图进行文本片段区域识别，得到每个尺度下的特征图的候选文本片段区域；

将各个尺度的候选文本片段区域进行融合，以确定所述目标文本图像的至少一个文本片段区域。

其中，对于不同尺度的特征图，可以采用不同尺寸的文本窗口，比如，对于尺度较大的特征图，可采用大尺寸的文本窗口；对于尺度较小的特征图，可采用小尺寸的文本窗口。在一些实施例中，对于某一尺度下的特征图，也可以使用不同尺寸的文本窗口。各个尺度的候选文本片段区域的融合方式可以是将所有尺度的候选文本片段区域确定为所述目标文本图像的文本片段区域，或者，也可以选取部分候选文本片段区域，作为所述目标文本图像的文本片段区域。

可选的，一些实施例中，步骤“通过滑动的文本窗口对每个尺度下的特征图进行文本片段区域识别，得到每个尺度下的特征图的候选文本片段区域”，可以包括：

确定目标尺度下的特征图对应的至少一个目标文本窗口；

其中，文本窗口的长宽比、尺寸和角度可不同，可基于特征图的尺度大小，从文本窗口中选取目标文本窗口。

可选的，一些实施例中，可以采用标准的50层残差网络(Res50)和特征金字塔网络FPN来对目标文本图像进行特征提取。具体地，通过Res50对目标文本图像进行下采样，得到大小为原图大小1/2、1/4、1/8、1/16和1/32的下采样特征图，再使用特征金字塔网络对下采样特征图进行上采样和特征融合，得到大小为原图大小1/4、1/8、1/16、1/32的特征图。对为原图大小1/4、1/8、1/16、1/32的特征图进行带角度的文本片段区域S＝(x,y,w,h,θ)预测，这里(x,y)表示文本片段区域的中心点，w和h则分别表示文本片段区域的宽和高，θ表示文本片段区域的角度，S也可视为文本窗口，文本窗口的参数w，h和θ可以根据实际需求进行设置。对文本片段区域预测的子网络可以采用旋转区域建议网络(RRPN，Rotation RegionProposal Networks)。RRPN提出了使用带角度的锚点(Anchor)来处理文字检测中的倾斜问题，其中，锚点指滑动的文本窗口。和区域建议网络(RPN，RegionProposalNetwork)相比，RRPN添加了对相对角度θ的预测，利用RRPN可以产生带角度的候选文本片段区域。

103、获取关注预设文本区域的参考图，所述预设文本区域为与所述文本片段区域位置对应的区域。

其中，参考图可以认为是一种软注意力(soft-attention)，它表明了预设文本区域受关注的程度，其中，参考图的尺寸大小为预设文本区域的大小。参考图具体可以为图像中像素具有某种预设数学分布的图像，基于该数学分布，可以使该参考图关注于预设文本区域，在预设文本区域内，不同区域的关注度也可不同。该数学分布可以根据实际需求进行设置，本实施例对此不作限制。例如，该数学分布可以是二维高斯分布，即参考图中像素的像素值是二维高斯分布的，该参考图也可称为二维高斯图。高斯分布的中心位于文本片段的中心，对于高斯分布的参考图，参考图中间受关注的程度高于参考图边缘受关注的程度。

可选的，对于每个文本片段区域，可对其上下左右进行扩展，得到扩展后的文本片段区域。如将文本片段区域的上下左右各扩展框高(文本片段区域高度)的0.3倍，具体扩展大小可根据实际情况进行设置，本实施例对此不作限制。

本实施例中，可以获取初始参考图，初始参考图的尺寸大小与文本片段区域的大小可能不同，需要对初始参考图的尺寸大小进行调整，将其尺寸大小调整为文本片段区域的尺寸大小。其中，对初始参考图的尺寸进行调整，具体可以直接缩放初始参考图到文本片段区域的大小，缩放方法可以双线性插值法，以得到符合要求的参考图。可选的，在一些实施例中，也可将初始参考图的尺寸调整为扩展后文本片段区域的大小。

104、将所述参考图与所述目标文本图像中的所述文本片段区域进行融合，得到关注每个文本片段区域的全局文本区域关注图。

可选的，一些实施例中，步骤“将所述参考图与所述目标文本图像中的所述文本片段区域进行融合，得到关注每个文本片段区域的全局文本区域关注图”，可以包括：

基于所述参考图对所述文本片段区域中像素的像素值进行调整，得到关注所述文本片段区域的局部文本区域关注图；

将目标文本图像中的非文本片段区域中像素的像素值调整为预设值，其中，所述非文本片段区域为目标文本图像中除文本片段区域外的其他区域；

基于每个文本片段区域的局部文本区域关注图和所述非文本片段区域中像素的像素值，得到关注每个文本片段区域的全局文本区域关注图。

其中，经过步骤102可得到文本片段区域集合S＝{S₁,S₂…S_N}，其中，S₁,S₂…S_N为所述目标文本图像的各个文本片段区域，N为文本片段区域的个数。可将各个文本片段区域与各自对应的参考图进行融合，得到局部文本区域关注图，其中，与文本片段区域融合的参考图的尺度大小和该文本片段区域的尺度大小相同。

其中，步骤“基于所述参考图对所述文本片段区域中像素的像素值进行调整”中，由于参考图和文本片段区域的尺寸相同，可以将参考图和文本片段区域中对应点的像素分别进行融合，该融合方式可以是将对应点像素进行相乘，也可以是其他的融合方式，本实施例对此不作限制。

可选的，在一些实施例中，可对文本片段区域进行扩展，得到扩展后的文本片段区域，并将参考图的尺寸调整为扩展后文本片段区域的大小，然后，再将调整后的参考图与扩展后的文本片段区域进行融合，得到关注文本片段区域的局部文本区域关注图。对文本片段区域进行扩展，可以提高文本片段区域的边缘的关注度，参见图1d所示，其中，该参考图具体可以为二维高斯图。

可选的，本实施例中，对于非文本片段区域，可将其像素的像素值调整为预设值，该预设值可以根据实际情况进行设置，本实施例对此不作限制，比如，可以将其设置为0或-1，表示非文本片段区域中的像素为不受关注的像素，或者关注度较低的像素。

其中，全局文本区域关注图中，非文本片段区域对应的区域中的像素值为预设值，各个文本片段区域对应的区域中的像素的值与局部文本区域关注图中的相同。即全局文本区域关注图是由每个文本片段区域的局部文本区域关注图和所述非文本片段区域中像素的像素值映射得到的。

105、根据所述全局文本区域关注图和所述目标文本图像，得到所述目标文本图像对应的文本矫正位移信息。

可选的，本实施例中，步骤“根据所述全局文本区域关注图和所述目标文本图像，得到所述目标文本图像对应的文本矫正位移信息”，可以包括：

对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的矫正位移信息图；

根据所述全局文本区域关注图，对所述矫正位移信息图进行修正，得到所述目标文本图像对应的文本矫正位移信息。

其中，矫正位移信息图可以包含对目标文本图像的预矫正位移信息，全局文本区域关注图包含了文本片段区域和非文本片段区域对应位置的关注度，可以基于关注度的大小，来对矫正位移信息图进行修正。对于关注度较小的区域，如非文本片段区域对应的区域的可不矫正。

其中，所述全局文本区域关注图包括融合后文本片段区域、以及融合后文本片段区域的属性信息，其中，所述融合后文本片段区域中像素的值表征对所述文本片段区域的关注度。其中，融合后文本片段区域即文本片段区域在全局文本区域关注图中的位置对应的区域。

可选的，步骤“根据所述全局文本区域关注图，对所述矫正位移信息图进行修正，得到所述目标文本图像对应的文本矫正位移信息”，可以包括：

根据所述全局文本区域关注图的融合后文本片段区域的属性信息，对所述矫正位移信息图进行修正，得到所述目标文本图像对应的文本矫正位移信息。

其中，矫正位移信息图可以包括目标文本图像中内容的预矫正角度信息和预矫正尺寸信息。基于文本片段区域的属性信息，可获取融合后文本片段区域的属性信息；属性信息可以包括目标文本图像中文本需要矫正的角度信息和尺寸信息。

其中，文本矫正位移信息可以包含对目标文本图像中文本片段区域中的各个像素的需要矫正的信息。

步骤“根据所述全局文本区域关注图的融合后文本片段区域的属性信息，对所述矫正位移信息图进行修正”，具体可以包括：

根据所述全局文本区域关注图的融合后文本片段区域的角度信息，对所述矫正位移信息图进行修正；

根据所述全局文本区域关注图的融合后文本片段区域的尺寸信息，对所述矫正位移信息图进行修正。

其中，融合后文本片段区域的角度信息包含文本片段区域的角度信息，即目标文本图像中的文本倾斜程度，基于文本倾斜程度，可得到文本需要矫正的角度；融合后文本片段区域的尺寸信息包含文本片段区域的尺寸信息，可以为目标文本图像中文本的尺寸扭曲程度大小，基于文本的尺寸扭曲程度大小，可得到文本需要矫正的尺寸大小。

其中，步骤“对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的矫正位移信息图”，可以包括：通过神经网络对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的矫正位移信息图。

其中，该神经网络可以是残差网络(ResNet，Residual Network)、生成对抗网络(GAN,Generative Adversarial Network)和U形网络(U-Net，U-Network)等，但是应当理解的是，本实施例的神经网络并不仅限于上述列举的几种类型。

可选的，本实施例中，在步骤“对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的矫正位移信息图”，可以包括：

其中，目标尺度为多个尺度中最低的尺度。步骤“每个尺度的上采样输入为相邻尺度的上采样矫正特征图和下采样矫正特征图融合得到的融合特征”具体包括：每个尺度的上采样输入为相邻尺度的上采样融合矫正特征图，即相邻尺度的上采样矫正特征图和下采样矫正特征图进行融合，可以得到相邻尺度的上采样融合矫正特征图，其中，每个尺度的上采样矫正特征图为通过对相邻尺度的上采样融合矫正特征图进行上采样处理得到的。如，目标文本图像经过多次下采样后，得到大小为原图大小1/2、1/4、1/8和1/16的下采样矫正特征图，再对1/16的下采样矫正特征图进行多次上采样，得到目标文本图像多个尺度下的上采样融合矫正特征图；对于1/4尺度下的上采样矫正特征图，其上采样输入为尺度为1/8的上采样融合矫正特征图，因为对尺度为1/8的上采样融合矫正特征图进行上采样，可以得到尺度为1/4的上采样矫正特征图；而尺度为1/8的上采样融合矫正特征图是由尺度为1/8的上采样矫正特征图和尺度为1/8的下采样矫正特征图进行融合而得到的。某个尺度的相邻尺度可以指在比这个尺度小的尺度中的最大尺度，具体地，也可以指这个尺度的二分之一的尺度。如存在尺度1/2、1/4、1/8、1/16和1/32，其中，1/8的相邻尺度为1/16。

其中，融合指的是特征融合，融合不同尺度的特征能够提高特征的表征能力。低层特征的分辨率比较高，包含更多的细节信息，但由于经过的卷积少，其噪声较多，语义性低；高层特征则具有较强的语义信息，但是其分辨率低，细节丢失比较多。融合多层的特征，即融合多尺度的特征，能够提升图像矫正的精确度。融合的方式有多种。比如，可以将相同尺度下的上采样矫正特征图与下采样矫正特征图进行拼接；也可以将相同尺度下的上采样矫正特征图和下采样矫正特征图对应的像素进行相加。可以理解的是，融合的方式并不仅限于以上举例，本实施例对此不作限制。

可选的，本实施例中，可以将与目标文本图像尺度相同的上采样融合矫正特征图确定为目标文本图像的矫正位移信息图。

具体地，在一些实施例中，步骤“对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的矫正位移信息图”，可以包括：

对所述目标文本图像进行多次下采样，得到所述目标文本图像多个尺度下的下采样矫正特征图；

基于对多个尺度中尺度最低的下采样矫正特征图的处理，得到与所述尺度最低的下采样矫正特征图相同尺度的当前矫正特征图；

对所述当前矫正特征图进行上采样，得到上采样矫正特征图，并将所述上采样矫正特征图和与其相同尺度的下采样矫正特征图进行融合，得到所述目标文本图像的上采样融合矫正特征图；

将所述上采样融合矫正特征图作为新的当前矫正特征图，返回执行所述对所述当前矫正特征图进行上采样，得到上采样矫正特征图，并将所述上采样矫正特征图和与其相同尺度的下采样矫正特征图进行融合，得到所述目标文本图像的上采样融合矫正特征图的步骤，直到上采样融合矫正特征图与所述目标文本图像的尺寸大小相同，并将所述上采样融合矫正特征图确定为所述目标文本图像的矫正位移信息图。

其中，对尺度最低的下采样矫正特征图的处理具体可以是卷积操作等。

例如，当该神经网络为U-Net时，其提取矫正位移信息图的过程可以参考上述实施例的具体描述。U-Net是U形对称结构，具体为对称的encoder-decoder(编码器-解码器)结构，这个结构可以更方便地进行相同分辨率的特征融合，其中，encoder主要由卷积层和池化层组成，目的在于实现特征的提取或者说捕捉语义，而decoder主要通过反卷积和跳跃连接(即特征融合)实现，主要目的是实现上采样，由于池化操作进行了下采样导致图像维度下降，而反卷积可以让特征图的维度变大，从而恢复到原图的大小，在这过程中，一般还通过跳跃连接将浅层的特征和上采样之后的特征进行连接(融合)。其中，在每次下采样后，得到的图像的尺寸是下采样前图像的二分之一。在U-Net中，深层信息和浅层信息的融合可以是通过拼接的方式来实现的。

具体地，上述目标文本图像的矫正位移信息图的获取过程大致可以分为下采样处理、上采样处理和特征融合这三步。其中，可以由残差网络来进行下采样处理的过程，然后由U-Net来进行上采样和特征融合的过程；或者，也可以完全由U-Net来获取目标文本图像的矫正位移信息图，即U-Net可以通过下采样处理、上采样处理和特征融合，得到目标文本图像的矫正位移信息图，在这个过程中，也可以说，残差网络为U-Net的一部分，用来对目标文本图像进行下采样。

在一具体实施例中，下采样的过程可以使用50层残差网络(Res50)或ResNet101。如通过Res50，对目标文本图像进行多次下采样，得到多个尺度的下采样矫正特征图，比如获得大小为原图大小1/2、1/4、1/8和1/16的下采样矫正特征图。上采样和特征融合的过程可以使用U-Net，以获取目标文本图像的矫正位移信息图。具体地，通过U-Net，对尺度为1/16的下采样矫正特征图进行处理，得到尺度为原图大小1/16的特征图，可将其视为尺度为1/16的上采样融合矫正特征图，对该尺度1/16的上采样融合矫正特征图进行上采样，得到尺度为1/8的上采样矫正特征图，并将其与相同尺度的下采样矫正特征图(即尺度为1/8的下采样矫正特征图)相融合，得到尺度为1/8的上采样融合矫正特征图；对尺度为1/8的上采样融合矫正特征图进行上采样，得到尺度为1/4的上采样矫正特征图，并将其与相同尺度的下采样矫正特征图(即尺度为1/4的下采样矫正特征图)相融合，得到尺度为1/4的上采样融合矫正特征图……以此类推，可以得到尺度为原图大小的上采样融合矫正特征图，并将该上采样融合矫正特征图确定为目标文本图像的矫正位移信息图。

其中，该50层残差网络可以仍使用文本片段区域预测时的Res50，并且与其共享参数。具体地，U-Net的上采样部分，则采用独立的3层反卷积层(反卷积层即上采样层或解码器)，最后一层的输出为原图大小，通道数为2的特征图F∈R^W×H×2(即矫正位移信息图)，每个位置的两个通道表示该位置像素的矫正位移，R表示实数域，两个通道可以分别表示横坐标和纵坐标的矫正位移，W和H分别表示目标文本图像的宽和高，F∈R^W×H×2表征特征图F包含目标文本图像中各个像素点的纵坐标和横坐标的预矫正位移。

可选的，全局文本区域关注图A∈R^W×H×1可以被作用在特征图F上作为最终的文本矫正位移图P＝F⊙A，P∈R^W×H×2，这里⊙表示元素向点乘(element-wise product)。该文本矫正位移图包含文本矫正位移信息。其中，全局文本区域关注图A∈R^W×H×1中包含对目标文本图像的各个像素点的关注度，每个位置像素的通道表示对该位置像素的关注度。

106、基于所述文本矫正位移信息对所述目标文本图像进行文本矫正处理，得到矫正后图像。

其中，文本矫正位移信息包含对目标文本图像中文本片段区域中各个像素的矫正信息，矫正信息具体可以包括需要矫正的角度信息和尺寸信息，基于对文本片段区域中各个像素进行矫正，可以得到矫正后图像。

可选的，在本实施例中，可以通过一个图像矫正模型来执行上述图像矫正方法中的步骤，即通过图像矫正模型，可以对所述目标文本图像进行文本矫正处理，得到矫正后图像。具体地，该图像矫正模型可以包括残差网络、特征金字塔网络和U-Net等。

需要说明的是，该图像矫正模型具体可以由其他设备进行训练后，提供给该图像矫正装置，或者，也可以由该图像矫正装置自行进行训练。

若由该图像矫正装置自行进行训练，则在步骤“通过图像矫正模型，对所述目标文本图像进行文本矫正处理，得到矫正后图像”之前，该图像矫正方法还可以包括：

获取样本文本图像，并对所述样本文本图像进行扭曲处理，得到待矫正文本图像，将所述待矫正文本图像作为训练数据；

通过图像矫正模型，对所述待矫正文本图像进行文本矫正处理，得到矫正后样本文本图像；

基于所述样本文本图像中像素在所述矫正后样本文本图像中的对应位置，计算所述样本文本图像和所述矫正后样本文本图像对应的损失函数；

基于所述损失函数，对图像矫正模型的参数进行调整，以使矫正后样本文本图像和所述样本文本图像对应的损失函数满足预设条件，从而得到训练好的图像矫正模型。

其中，样本文本图像为文本内容没有倾斜和扭曲的图像，可以对样本文本图像进行多种扭曲处理，得到多张待矫正文本图像，即多个训练数据。

其中，该预设条件可以是矫正后样本文本图像和所述样本文本图像对应的损失值小于预设损失值，该预设值可以根据实际情况进行设置，本实施例对此没有限制。例如，可以根据对矫正后图像的要求来进行设置。若要求较高，则该预设值越小。

可选的，一些实施例中，损失函数可以包括绝对元素位移损失函数和相对位移损失函数，其中，绝对元素位移损失函数的计算过程如式子(1)所示：

其中，L_A表示绝对元素位移损失，n表示像素的个数，v_i表示第i个像素的位移预测值，则表示该位置的位移基本真实(GT，ground truth)值。相对位移损失函数的计算过程如式子(2)所示：

其中，L_B表示相对位移损失函数，n表示像素的个数，v_i表示第i个像素的位移预测值，则表示该位置的位移基本真实(GT，ground truth)值。j表示第i个像素的邻近像素——第j个像素，v_j表示v_i的邻近像素值，领域范围由扩展文本片段框确定。类似地，对于GT，/>表示/>邻域内的像素值。

其中，对于不关注区域，如非文本片段区域，在上述实施例提及将非文本片段区域中的像素值置为-1，本方法在训练时可以将其损失值置为0。

最终的损失函数L可以表示为L＝L_A+L_B。

可选的，本实施例中，也可以对本图像矫正方法中的各个步骤分别使用单独的模型来进行处理。

例如，步骤“对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域”，可以包括：

通过第一图像矫正模型对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域。

例如，步骤“对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的矫正位移信息图”，可以包括：

通过第二图像矫正模型对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的矫正位移信息图。

需要说明的是，该第一图像矫正模型和第二图像矫正模型具体可以由其他设备进行训练后，提供给该图像矫正装置，或者，也可以由该图像矫正装置自行进行训练。

若由该图像矫正装置自行进行训练，则在步骤“通过第一图像矫正模型对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域”之前，该图像矫正方法还可以包括：

获取第一训练数据，所述第一训练数据包括待矫正文本图像和所述待矫正文本图像的实际文本片段区域；

通过第一预设图像矫正模型，对所述待矫正文本图像进行文本片段区域识别，以确定所述待矫正文本图像的预测文本片段区域；

计算所述实际文本片段区域和所述预测文本片段区域之间的片段区域识别损失；

基于所述片段区域识别损失，对第一预设图像矫正模型的参数进行调整，得到第一图像矫正模型。

其中，片段区域识别损失具体可以表示实际文本片段区域和预测文本片段区域之间的位置偏移程度。

其中，步骤“基于所述片段区域识别损失，对第一预设图像矫正模型的参数进行调整，得到第一图像矫正模型”，具体可以包括：基于所述片段区域识别损失，对第一预设图像矫正模型的参数进行调整，以使预测文本片段区域和所述实际文本片段区域之间的片段区域识别损失小于第一预设值，从而得到第一图像矫正模型。

其中，第一预设值可以根据实际情况进行设置，本实施例对此不做限制。

若由该图像矫正装置自行进行训练，则在步骤“通过第二图像矫正模型对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的矫正位移信息图”之前，该图像矫正方法还可以包括：

获取第二训练数据，所述第二训练数据包括待矫正文本图像和所述待矫正文本图像对应的实际矫正位移信息图；

通过第二预设图像矫正模型，对所述待矫正文本图像进行多次下采样和上采样处理，得到所述待矫正文本图像的预测矫正位移信息图；

计算所述预测矫正位移信息图和所述实际矫正位移信息图之间的矫正位移损失；

基于所述矫正位移损失，对第二预设图像矫正模型的参数进行调整，得到第二图像矫正模型。

其中，实际矫正位移信息图包含待矫正文本图像中各像素实际需要矫正的位移信息，可以基于矫正位移损失，通过反向传播不断调整第二预设图像矫正模型的参数，以使预测矫正位移信息图和实际矫正位移信息图之间的损失值越小。

其中，步骤“基于所述矫正位移损失，对第二预设图像矫正模型的参数进行调整，得到第二图像矫正模型”，可以包括：基于所述矫正位移损失，对第二预设图像矫正模型的参数进行调整，以使预测矫正位移信息图和所述实际矫正位移信息图之间的矫正位移损失小于第二预设值，从而得到第二图像矫正模型。其中，第二预设值可以根据实际情况进行设置，本实施例对此不做限制。

通过本实施例可以矫正处理包含任意形状、任意长度的文本内容的文档图像，又能够将矫正的关注度更多的放在文本区域，一定程度上解决了计算文本矫正位移信息时文本区域和非文本区域受到相同关注度从而导致文本区域的过位移和欠位移问题。在文档图像矫正的标准数据集上，多层级结构相似性(MS-SSIM，Multi-Scale-StructuralSimilarity Index)和位移偏差度相较于目前的图像矫正方法有较大提升。MS-SSIM反映了与GT值的接近程度，该值越大越好，而位移偏差度的值越小越好。同时，本图像矫正方法也提高了自有文字识别测试集上的光学字符识别(Optical Character Recognition,OCR)性能，矫正后的图像对于OCR精度和召回均有程度可观的提升。

如图1e所示，为本实施例的过程示意图，具体过程在上述实施例已详细描述。其中，对待矫正文档图像(目标文本图像)的矫正过程主要可以分为两部分，一部分可以对待矫正文档图像进行文本片段区域的预测，一部分用于获取文本矫正位移信息。具体地，可以通过基础网络对待矫正文档图像进行特征图的提取，其中，基础网络可以包括残差网络和特征金字塔网络，残差网络对待矫正文档图像进行多次下采样，得到下采样特征图，特征金字塔网络则对下采样特征图进行上采样和特征融合；然后，对提取到的特征图进行文本片段区域的识别，再将参考图和待矫正文档图像中的文本片段区域进行融合，得到全局文本区域关注图；在另一支路，可通过U-Net对待矫正文档图像进行上采样和下采样处理，得到待矫正文档图像的矫正位移信息图(矫正位移信息图包含预矫正位移信息)；接着，将全局文本区域关注图作用于矫正位移信息图，得到文本矫正位移信息，最后，基于文本矫正位移信息对待矫正文档图像进行文本矫正处理，得到矫正后文档图像。

本实施例将目标文本图像中的文本区域分解为粒度更小的文本片段区域，文本片段区域可以看作文本区域的基本组成单元，基于文本片段区域，可以处理任意形状的文本区域，特别是曲线形文本。同时基于文本片段区域，将模型关注度集中在文字区域，对文字区域的像素赋予更大的权重，生成对文字区域保留更友好的矫正位移图，从而提升了文本图像矫正算法的效果，也进一步提升了文字识别的性能指标。

此外，本图像矫正方法是端到端算法，可以十分高效的进行训练，在训练完成后也可直接作为OCR系统的前端，同后端的文本检测以及文本识别系统连起来，为实现全自动化的智能OCR系统提供了可能性。

由上可知，本实施例可以获取目标文本图像；对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域；获取关注预设文本区域的参考图，所述预设文本区域为与所述文本片段区域位置对应的区域；将所述参考图与所述目标文本图像中的所述文本片段区域进行融合，得到关注每个文本片段区域的全局文本区域关注图；根据所述全局文本区域关注图和所述目标文本图像，得到所述目标文本图像对应的文本矫正位移信息；基于所述文本矫正位移信息对所述目标文本图像进行文本矫正处理，得到矫正后图像。本申请可以基于对目标文本图像的文本片段区域的关注，能够对目标文本图像更好地矫正，有利于提升文本识别的精确度。

根据前面实施例所描述的方法，以下将以该图像矫正装置具体集成在服务器举例作进一步详细说明。

本申请实施例提供一种图像矫正方法，如图2所示，该图像矫正方法的具体流程可以如下：

201、服务器接收终端发送的目标文本图像。

202、服务器对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域。

可选的，步骤“服务器对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域”，可以包括：

确定目标尺度下的特征图对应的至少一个目标文本窗口；

203、服务器获取关注预设文本区域的参考图，所述预设文本区域为与所述文本片段区域位置对应的区域。

204、服务器将所述参考图与所述目标文本图像中的所述文本片段区域进行融合，得到关注每个文本片段区域的全局文本区域关注图。

可选的，一些实施例中，步骤“服务器将所述参考图与所述目标文本图像中的所述文本片段区域进行融合，得到关注每个文本片段区域的全局文本区域关注图”，可以包括：

205、服务器根据所述全局文本区域关注图和所述目标文本图像，得到所述目标文本图像对应的文本矫正位移信息。

可选的，在步骤“对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的矫正位移信息图”，具体还可以包括：

其中，融合指的是特征融合，融合不同尺度的特征能够提高特征的表征能力。低层特征的分辨率比较高，包含更多的细节信息，但由于经过的卷积少，其噪声较多，语义性低；高层特征则具有较强的语义信息，但是其分辨率低，细节丢失比较多。融合多层的特征，即融合多尺度的特征，能够提升图像矫正的精确度。

206、服务器基于所述文本矫正位移信息对所述目标文本图像进行文本矫正处理，得到矫正后图像。

207、服务器向终端发送所述矫正后图像。

由上可知，本实施例可以通过服务器接收终端发送的目标文本图像，对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域，获取关注预设文本区域的参考图，所述预设文本区域为与所述文本片段区域位置对应的区域；将所述参考图与所述目标文本图像中的所述文本片段区域进行融合，得到关注每个文本片段区域的全局文本区域关注图；根据所述全局文本区域关注图和所述目标文本图像，得到所述目标文本图像对应的文本矫正位移信息；基于所述文本矫正位移信息对所述目标文本图像进行文本矫正处理，得到矫正后图像；服务器向终端发送所述矫正后图像。本申请可以基于对目标文本图像的文本片段区域的关注，能够对目标文本图像更好地矫正，有利于提升文本识别的精确度。

为了更好地实施以上方法，本申请实施例还提供一种图像矫正装置，如图3a所示，该图像矫正装置可以包括第一获取单元301、识别单元302、第二获取单元303、融合单元304、修正单元305和矫正单元306，如下：

(1)第一获取单元301；

第一获取单元301，用于获取目标文本图像。

(2)识别单元302；

识别单元302，用于对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域。

可选的，在本申请的一些实施例中，所述识别单元302可以包括提取子单元3021和识别子单元3022，参见图3b，如下：

所述提取子单元3021，用于对所述目标文本图像进行特征提取，得到所述目标文本图像的特征图；

识别子单元3022，用于基于滑动的文本窗口对所述特征图进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域。

可选的，在一些实施例中，所述目标文本图像的特征图包括多尺度的特征图；所述识别子单元3022具体可以用于通过滑动的文本窗口对每个尺度下的特征图进行文本片段区域识别，得到每个尺度下的特征图的候选文本片段区域；将各个尺度的候选文本片段区域进行融合，以确定所述目标文本图像的至少一个文本片段区域。

确定目标尺度下的特征图对应的至少一个目标文本窗口；

可选的，在一些实施例中，所述提取子单元3021具体可以用于对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的多个尺度的特征图。

可选的，在一些实施例中，所述识别单元302可以包括通过第一图像矫正模型对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域。

(3)第二获取单元303；

第二获取单元303，用于获取关注预设文本区域的参考图，所述预设文本区域为与所述文本片段区域位置对应的区域。

(4)融合单元304；

融合单元304，用于将所述参考图与所述目标文本图像中的所述文本片段区域进行融合，得到关注每个文本片段区域的全局文本区域关注图。

可选的，在本申请的一些实施例中，所述融合单元304可以包括第一调整子单元3041，第二调整子单元3042和获取子单元3043，参见图3c，如下：

所述第一调整子单元3041，用于基于所述参考图对所述文本片段区域中像素的像素值进行调整，得到关注所述文本片段区域的局部文本区域关注图；

第二调整子单元3042，用于将目标文本图像中的非文本片段区域中像素的像素值调整为预设值，其中，所述非文本片段区域为目标文本图像中除文本片段区域外的其他区域；

获取子单元3043，用于基于每个文本片段区域的局部文本区域关注图和所述非文本片段区域中像素的像素值，得到关注每个文本片段区域的全局文本区域关注图。

(5)修正单元305；

修正单元305，用于根据所述全局文本区域关注图和所述目标文本图像，得到所述目标文本图像对应的文本矫正位移信息。

可选的，在本申请的一些实施例中，所述修正单元305可以包括处理子单元3051和修正子单元3052，参见图3d，如下：

所述处理子单元3051，用于对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的矫正位移信息图；

修正子单元3052，用于根据所述全局文本区域关注图，对所述矫正位移信息图进行修正，得到所述目标文本图像对应的文本矫正位移信息。

可选的，在一些实施例中，所述处理子单元3051可以包括通过第二图像矫正模型对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的矫正位移信息图。

可选的，在本申请的一些实施例中，步骤“对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的矫正位移信息图”，可以具体包括：

(6)矫正单元306；

矫正单元306，用于基于所述文本矫正位移信息对所述目标文本图像进行文本矫正处理，得到矫正后图像。

可选的，在本申请的一些实施例中，所述图像矫正装置的识别单元302还可以包括第一训练子单元3023，参见图3e，如下：

所述第一训练子单元3023，用于获取第一训练数据，所述第一训练数据包括待矫正文本图像和所述待矫正文本图像的实际文本片段区域；通过第一预设图像矫正模型，对所述待矫正文本图像进行文本片段区域识别，以确定所述待矫正文本图像的预测文本片段区域；计算所述实际文本片段区域和所述预测文本片段区域之间的片段区域识别损失；基于所述片段区域识别损失，对第一预设图像矫正模型的参数进行调整，得到第一图像矫正模型。

可选的，在本申请的一些实施例中，所述图像矫正装置的修正单元305还可以包括第二训练子单元3053，参见图3f，如下：

所述第二训练子单元3053，用于获取第二训练数据，所述第二训练数据包括待矫正文本图像和所述待矫正文本图像对应的实际矫正位移信息图；通过第二预设图像矫正模型，对所述待矫正文本图像进行多次下采样和上采样处理，得到所述待矫正文本图像的预测矫正位移信息图；计算所述预测矫正位移信息图和所述实际矫正位移信息图之间的矫正位移损失；基于所述矫正位移损失，对第二预设图像矫正模型的参数进行调整，得到第二图像矫正模型。

由上可知，本实施例可以由第一获取单元301获取目标文本图像；通过识别单元302对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域；由第二获取单元303获取关注预设文本区域的参考图，所述预设文本区域为与所述文本片段区域位置对应的区域；通过融合单元304将所述参考图与所述目标文本图像中的所述文本片段区域进行融合，得到关注每个文本片段区域的全局文本区域关注图；基于修正单元305，根据所述全局文本区域关注图和所述目标文本图像，得到所述目标文本图像对应的文本矫正位移信息；基于所述文本矫正位移信息，由矫正单元306对所述目标文本图像进行文本矫正处理，得到矫正后图像。本申请可以基于对目标文本图像的文本片段区域的关注，能够对目标文本图像更好地矫正，有利于提升文本识别的精确度。

本申请实施例还提供一种电子设备，如图4所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取目标文本图像；对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域；获取关注预设文本区域的参考图，所述预设文本区域为与所述文本片段区域位置对应的区域；将所述参考图与所述目标文本图像中的所述文本片段区域进行融合，得到关注每个文本片段区域的全局文本区域关注图；根据所述全局文本区域关注图和所述目标文本图像，得到所述目标文本图像对应的文本矫正位移信息；基于所述文本矫正位移信息对所述目标文本图像进行文本矫正处理，得到矫正后图像。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种图像矫正方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种图像矫正方法中的步骤，因此，可以实现本申请实施例所提供的任一种图像矫正方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种图像矫正方法、装置、电子设备和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像矫正方法，其特征在于，包括：

获取目标文本图像；

将所述参考图与所述目标文本图像中的所述文本片段区域进行融合，得到关注每个文本片段区域的全局文本区域关注图，所述全局文本区域关注图包括融合后文本片段区域、以及所述融合后文本片段区域的属性信息，所述属性信息包括所述目标文本图像中文本需要矫正的角度信息和尺寸信息，所述融合后文本片段区域的属性信息是基于所述文本片段区域的属性信息获取得到的；

对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的矫正位移信息图，所述矫正位移信息图包括所述目标文本图像中内容的预矫正角度信息和预矫正尺寸信息；

根据所述全局文本区域关注图，对所述矫正位移信息图进行修正，得到所述目标文本图像对应的文本矫正位移信息；

2.根据权利要求1所述的方法，其特征在于，所述对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域，包括：

3.根据权利要求2所述的方法，其特征在于，所述目标文本图像的特征图包括多尺度的特征图；所述基于滑动的文本窗口对所述特征图进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域，包括：

4.根据权利要求3所述的方法，其特征在于，所述通过滑动的文本窗口对每个尺度下的特征图进行文本片段区域识别，得到每个尺度下的特征图的候选文本片段区域，包括：

确定目标尺度下的特征图对应的至少一个目标文本窗口；

5.根据权利要求2所述的方法，其特征在于，所述对所述目标文本图像进行特征提取，得到所述目标文本图像的特征图，包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的多个尺度的特征图，包括：

7.根据权利要求1所述的方法，其特征在于，所述将所述参考图与所述目标文本图像中的所述文本片段区域进行融合，得到关注每个文本片段区域的全局文本区域关注图，包括：

8.根据权利要求1所述的方法，其特征在于，所述对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的矫正位移信息图，包括：

9.根据权利要求1所述的方法，其特征在于，所述对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域，包括：

通过第一图像矫正模型对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域；

所述对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的矫正位移信息图，包括：

10.根据权利要求9所述的方法，其特征在于，所述通过第一图像矫正模型对所述目标文本图像进行文本片段区域识别，以确定所述目标文本图像的至少一个文本片段区域之前，还包括：

11.根据权利要求9所述的方法，其特征在于，所述通过第二图像矫正模型对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的矫正位移信息图之前，还包括：

12.一种图像矫正装置，其特征在于，包括：

第一获取单元，用于获取目标文本图像；

融合单元，用于将所述参考图与所述目标文本图像中的所述文本片段区域进行融合，得到关注每个文本片段区域的全局文本区域关注图，所述全局文本区域关注图包括融合后文本片段区域、以及所述融合后文本片段区域的属性信息，所述属性信息包括所述目标文本图像中文本需要矫正的角度信息和尺寸信息，所述融合后文本片段区域的属性信息是基于所述文本片段区域的属性信息获取得到的；

修正单元，用于对所述目标文本图像进行多次下采样和上采样处理，得到所述目标文本图像的矫正位移信息图；根据所述全局文本区域关注图，对所述矫正位移信息图进行修正，得到所述目标文本图像对应的文本矫正位移信息；所述矫正位移信息图包括所述目标文本图像中内容的预矫正角度信息和预矫正尺寸信息；

13.一种电子设备，其特征在于，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至11任一项所述的图像矫正方法中的操作。

14.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至11任一项所述的图像矫正方法中的步骤。