CN113283423B

CN113283423B - 基于生成网络的自然场景扭曲文本图像矫正方法及系统

Info

Publication number: CN113283423B
Application number: CN202110126410.0A
Authority: CN
Inventors: 茅耀斌; 刁洁; 项文波; 卓一; 韩翊; 徐安丽; 吴敏杰; 张伟
Original assignee: Nanjing University of Science and Technology; Zhejiang Huayun Information Technology Co Ltd
Current assignee: Nanjing University of Science and Technology; Zhejiang Huayun Information Technology Co Ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2022-08-16
Anticipated expiration: 2041-01-29
Also published as: CN113283423A

Abstract

本发明公开了一种基于生成网络的自然场景扭曲文本图像矫正方法及系统，方法包括：1)扭曲数据增广。在平展文本图像上设置基准点，增广模块通过基准点的运动变换扭曲图像，代理网络与识别网络共同优化使扭曲文本识别难度较大，数据增广以后可获得成对的“平展‑扭曲”文本图像。2)搭建矫正网络。包括平展生成器、判别器，扭曲生成器、判别器，同时在损失函数中引入梯度先验损失，生成清晰度更高的矫正后图像。3)训练矫正网络。使用双向循环方式训练矫正网络。4)应用推理。利用训练后的矫正网络将待处理的自然场景扭曲文本矫正为平展文本。本发明能够有效消除自然场景文本的空间扭曲变形，得到的平展文本清晰度较高，提升了后续识别的精度。

Description

基于生成网络的自然场景扭曲文本图像矫正方法及系统

技术领域

本发明属于机器学习及图像处理技术领域，特别是一种基于生成网络的自然场景扭曲文本图像矫正方法及系统。

背景技术

自然场景中的文本形状丰富、方向多变，常见水平文本、多方向文本、平面弯曲文本和空间扭曲文本，检测与识别的难度依次递增。空间上存在扭曲的文本与其他文本在检测与识别阶段有很大不同：检测阶段，扭曲文本需要更多的标签信息帮助模型准确定位，其中坐标信息理想情况下需要达到三维；识别阶段，因为扭曲会使文本变形，给识别带来很大挑战。正常文本通常采用先检测后识别或端到端检测识别的流程，扭曲文本为了保证识别的准确率，往往需要在检测与识别之间加入矫正机制。本发明针对自然场景扭曲文本，旨在提供一种稳健性强、所需标签信息少的矫正方法。

扭曲文本矫正问题主要有以下几类常见的解决方案：

基于文本局部信息。利用文本行(如文献“Robust Document Image DewarpingMethod Using Text-Lines and Line Segments”、“基于局部信息的文档图像校正方法”)、文本图像的角点(如文献“扭曲文档图像的校正方法”)等局部信息获得处理单元，再针对每个单元进行倾斜矫正，这种方法不适用于背景复杂或扭曲程度复杂的文本。

基于多视角图像。多角度拍摄得到扭曲文本图像(如文献“Camera-baseddocument digitization using multiple images”、“基于移动终端的多视角扭曲文档图像几何校正方法”)，将多视角文本图像进行特征点匹配，根据相机标定参数计算各角度下相机的旋转矩阵、平移向量等，计算扭曲三维坐标点构建曲面模型，最终向二维平面投射。但现实场景中获取多视角图像比较麻烦，并且每次矫正都需要进行特征点匹配、三维信息计算、曲面建模等步骤，计算资源消耗大且用时久。

基于其他设备获得点云数据进行三维建模。利用3D扫描仪获取点云数据(如文献“Document restoration using 3D shape:a general deskewing algorithm forarbitrarily warped documents”)，利用结构光获取点云数据(如文献“ImageRestoration of Arbitrarily Warped Documents.”IEEE Transactions on PatternAnalysis and Machine Intelligence”)，以点云为基本单位构建3D模型并进行矫正。这种方法的推广存在一定瓶颈，一方面3D信息获取设备难以携带，不适用于移动场景，另一方面矫正时需要的数据量巨大。

基于深度卷积网络构建矫正模型。ASTER(文献“Aster:An attentional scenetext recognizer with flexible rectification”)通过薄板样条(Thin Plate Spline,TPS)变换，自适应地将输入图像转换为新图像；Char-Net(文献“Char-net:A character-aware neural network for distorted scene text recognition”)包括一个单词级别编码器，一个字符级别编码器和一个基于LSTM的解码器，使用简单的局部空间转换来检测和纠正单个字符；文献“扭曲文档图像的矫正方法和装置”的矫正网络包含至少两级串联连接的形变参数预测子模块，两个子模块都是U型结构，最后输出图像样本中每个像素的形变参数。

综上，这些方法基于二维或三维信息，进行扭曲文本矫正的缺点在于以下四点：(1)传统的二维方法需要获取文本中心线或文本边界等信息，不适用于背景复杂的图像；(2)建立常见的弯曲模型，如圆柱模型、圆锥模型，无法拟合现实场景中多变的扭曲情况；(3)借助诸如3D摄影机、结构光等设备，矫正效果优劣依赖所用设备的精度且相关设备成本较高；(4)构建深度卷积网络，需要较多坐标信息且矫正效果有限。

发明内容

本发明的目的在于针对自然场景下部分文本空间扭曲程度复杂的情况，提供一种基于生成网络的自然场景扭曲文本图像矫正方法及系统。

实现本发明目的的技术解决方案为：一种基于生成网络的自然场景扭曲文本图像矫正方法，所述方法包括以下步骤：

步骤1，基于增广模块、代理网络和识别网络进行扭曲文本数据增广；所述增广模块，用于通过基准点的运动变换扭曲文本图像，所述代理网络为一个轻量级卷积网络，用于预测基准点运动状态，所述识别网络为一个文本识别网络，用于识别增广模块输出的扭曲文本图像；

步骤2，搭建用于矫正自然场景扭曲文本图像的矫正网络；

步骤3，基于扭曲文本数据训练矫正网络；

步骤4，利用训练后的矫正网络将待处理的自然场景扭曲文本矫正为平展文本。

进一步地，步骤1所述进行扭曲文本数据增广，具体过程包括：

步骤1-1，在采集的原始平展文本图像上设置若干基准点；

步骤1-2，基于相似性变换，利用代理网络预测基准点的运动状态，并对其中一些运动状态进行随机变换生成随机运动状态，之后将运动状态和随机运动状态反馈到增广模块；

步骤1-3，增广模块在原始平展文本图像上基于所述运动状态和随机运动状态移动基准点，生成每个运动状态对应的扭曲文本图像；

步骤1-4，识别网络识别扭曲文本图像上的文本字符串，计算识别结果和真实标签即真实文本字符串之间的编辑距离；

步骤1-5，以最大编辑距离对应的运动状态为优化目标，更新优化代理网络的参数。

进一步地，步骤1-1所述在采集的原始平展文本图像上设置若干基准点，具体包括：

对原始平展文本图像进行n等分，在图像的边界和等分边界上设置若干基准点。

进一步地，步骤2所述搭建用于矫正自然场景扭曲文本图像的矫正网络，具体包括：

步骤2-1，搭建用于将扭曲文本图像转换为平展文本图像的平展网络，包括：平展生成器和平展判别器；

所述平展生成器，其输入为扭曲文本图像，输出为伪平展文本图像；

所述平展判别器，其输入为伪平展文本图像或真实平展文本图像，输出为一个0到1之间的数字，用于判断图像是平展生成器的输出还是真实的平展文本；

步骤2-2，搭建用于将平展文本图像转换为扭曲文本图像的扭曲网络，包括：扭曲生成器和扭曲判别器；

所述扭曲生成器，其输入为平展文本图像，输出为伪扭曲文本图像；

所述扭曲判别器，其输入是伪扭曲文本图像或真实扭曲文本图像，输出为一个0到1之间的数字，用于判断图像是扭曲生成器的输出还是真实的扭曲文本；

步骤2-3，定义损失函数L，引入梯度先验损失L_GP，具体地：

损失函数L包括平展损失L₁、扭曲损失L₂、循环一致性损失L₃和梯度先验损失L_GP，表达式为：

L＝L₁+L₂+L₃+L_GP

所述平展损失L₁，其目的在于平展生成器必须使平展判别器允许通过所有伪平展文本，表达式为：

式中，

用于计算平展文本的概率，

用于计算扭曲文本的概率，X～P_data(x)表示扭曲文本满足的分布，Y～P_data(y)表示平展文本满足的分布，映射关系G:X→Y，将文本图像从源域X即扭曲文本图像集合转换到目标域Y即平展文本图像集合，y表示平展文本图像，x表示扭曲文本图像，G(x)表示伪平展文本图像，D_Y表示平展判别器，用于区分y和G(x)；

所述扭曲损失L₂，其目的在于扭曲生成器必须使扭曲判别器允许通过所有伪扭曲文本，表达式为：

式中，映射关系F:Y→X，将文本图像从目标域Y转换到源域X，扭曲判别器D_X用于区分扭曲文本图像x和伪扭曲文本图像F(y)；

所述循环一致性损失L₃，其目的在于使扭曲文本和平展文本能够相互转换，防止模型把某一类中的所有图像转化成另一类中的某一张图像，表达式为：

式中，||F(G(x))-x||₁计算伪扭曲文本图像和真实扭曲文本图像之间的L₁损失，||G(F(y))-y||₁计算伪平展文本图像和真实平展文本图像之间的L₁损失；

所述梯度先验损失L_GP，其目的在于克服文本重建时的文本模糊问题，使矫正后的伪平展文本边缘更加清晰，保留更多细节，表达式为：

式中，

表示事先采集的平展文本图像的梯度场，

表示伪平展文本图像的梯度场，

计算两者之间的L₁损失。

进一步地，步骤3所述基于扭曲文本数据训练矫正网络，具体过程包括：

步骤3-1，设置矫正网络的初始参数；

步骤3-2，将扭曲文本输入平展生成器，生成伪平展文本，之后将伪平展文本与平展文本送到平展判别器，计算平展损失L₁；

步骤3-3，将伪平展文本输入扭曲生成器，生成伪扭曲文本，之后将伪扭曲文本与扭曲文本送到扭曲判别器，计算扭曲损失L₂；

步骤3-4，利用扭曲文本和伪扭曲文本计算循环一致性损失L₃中的

步骤3-5，将平展文本输入扭曲生成器，生成伪扭曲文本，之后将伪扭曲文本与扭曲文本送到扭曲判别器，计算扭曲损失L₂；

步骤3-6，将伪扭曲文本输入平展生成器，生成伪平展文本，之后将伪平展文本与平展文本送到平展判别器，计算平展损失L₁；

步骤3-7，利用平展文本和伪平展文本计算循环一致性损失L₃中的

步骤3-8，将事先收集的平展文本图像的梯度场

当作标签，用L_GP约束矫正后伪平展图像的梯度场

步骤3-9，判断当前迭代次数是否小于设定阈值，若是，重复步骤3-2至步骤3-8，否则结束矫正网络的训练。

一种基于生成网络的自然场景扭曲文本图像矫正系统，所述系统包括：

扭曲文本数据扩充模块，用于基于增广模块、代理网络和识别网络进行扭曲文本数据增广；所述增广模块，用于通过基准点的运动变换扭曲文本图像，所述代理网络为一个轻量级卷积网络，用于预测基准点运动状态，所述识别网络为一个文本识别网络，用于识别增广模块输出的扭曲文本图像；

网络构建模块，用于搭建用于矫正自然场景扭曲文本图像的矫正网络；

网络训练模块，用于基于扭曲文本数据训练矫正网络；

矫正模块，用于利用训练后的矫正网络将待处理的自然场景扭曲文本矫正为平展文本。

本发明与现有技术相比，其显著优点为：1)基于基准点运动变换产生扭曲角度丰富且接近真实场景中扭曲文本的样本，代理网络和识别网络共同优化获得识别难度较大的扭曲文本图像，可以提升矫正网络的稳健性；2)现实生活中的扭曲文本难以获得对应的平展标签，并且获取二维或三维标签信息成本颇高，本发明的矫正网络只需要“平展-扭曲”图像对作为输入，增广前的平展文本可作为增广后的扭曲文本的标签；3)通过双向循环方式训练矫正网络，不需要建立复杂的几何模型也能显著提高矫正的成功率和稳健性，同时引入的梯度先验损失能够保证矫正生成的平展图像具有较高的清晰度，保留更加丰富的文本细节。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为一个实施例中自然场景扭曲文本图像矫正方法流程图。

图2为一个实施例中扭曲数据增广框架图。

图3为一个实施例中扭曲数据增广过程示意图。

图4为一个实施例中双向循环训练矫正网络过程图。

图5为一个实施例中使用矫正网络进行扭曲矫正的结果图，其中图5(a)为扭曲文本，图5(b)为矫正后的文本，图5(c)为原始图像。

具体实施方式

为了更加清晰地阐述本申请的目的、技术方案及优点，以下结合附图及实施例，对本申请的内容进一步详细说明。应当理解，此处描述的具体实施例仅用于解释本申请，而不限定于本申请。

需要说明的是，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

在一个实施例中，结合图1，提供了一种基于生成网络的自然场景扭曲文本图像矫正方法，所述方法包括以下步骤：

步骤2，搭建用于矫正自然场景扭曲文本图像的矫正网络；

步骤3，基于扭曲文本数据训练矫正网络；

进一步地，在其中一个实施例中，结合图2，步骤1所述进行扭曲文本数据增广，具体过程包括：

步骤1-1，在采集的原始平展文本图像上设置若干基准点；

这里优选地，对原始平展文本图像进行n等分，在图像的边界和等分边界上设置若干基准点；

这里，作为一种具体实例，结合图3，将图片平均分成3等份，设置上下边界各4个点，共8个基准点，这8个基准点的运动半径为R。

步骤1-4，识别网络识别扭曲文本图像上的文本字符串，计算识别结果和真实标签即真实文本字符串之间的编辑距离，以此衡量识别的难度；

步骤1-5，以最大编辑距离对应的运动状态为优化目标，更新优化代理网络的参数。增广后结果图如图3右侧所示。

进一步地，在其中一个实施例中，步骤2所述搭建用于矫正自然场景扭曲文本图像的矫正网络，具体包括：

这里，作为一种具体实例，输入、输出都是256×256的三通道图像，平展生成器采用残差网络，主要包含三个卷积层、九个残差块、两个步幅为12的分数步卷积层以及一个将特征映射到RGB空间的卷积层；

所述平展判别器，其输入为伪平展文本图像或真实平展文本图像，输出为一个0到1之间的数字，用于判断图像是平展生成器的输出还是真实的平展文本；若输出的数值小于预设阈值，则图像是平展生成器的输出，否则为真实的平展文本。优选地，所述阈值取0.5。

这里，作为一种具体实例，平展判别器采用了PatchGAN，将图像划分为N×N大小的补丁，并判断每个补丁图像是真是假，再对整个图像进行卷积运算，对所有响应求平均值作为判别器的最终输出。N在比图像整体尺寸小得多的情况下，仍然可以产生高质量的结果。较小的PatchGAN具有较少的参数，运行速度更快，并可应用于任意大的图像；

这里，作为一种具体实例，输入、输出都是256×256的三通道图像，扭曲生成器采用残差网络，主要包含三个卷积层、九个残差块、两个步幅为12的分数步卷积层以及一个将特征映射到RGB空间的卷积层。

这里，作为一种具体实例，扭曲判别器采用了PatchGAN，将图像划分为N×N大小的补丁，并判断每个补丁图像是真是假，再对整个图像进行卷积运算，对所有响应求平均值作为判别器的最终输出；

步骤2-3，定义损失函数L，引入梯度先验损失L_GP，具体地：

L＝L₁+L₂+L₃+L_GP

式中，

用于计算平展文本的概率，

式中，

表示事先采集的平展文本图像的梯度场，

表示伪平展文本图像的梯度场，

计算两者之间的L₁损失。

进一步地，在其中一个实施例中，结合图4，步骤3所述基于扭曲文本数据训练矫正网络，具体过程包括：

步骤3-1，设置矫正网络的初始参数；

步骤3-8，将事先收集的平展文本图像的梯度场

当作标签，用L_GP约束矫正后伪平展图像的梯度场

示例性地，使用矫正网络进行扭曲矫正，结果如图5所示。

本发明提出的基于生成网络的自然场景扭曲文本图像矫正方法，不依赖于文本的形态学信息，可应用于背景复杂的自然场景扭曲文本图像；矫正网络只需要“平展-扭曲”图像对作为输入，使用本发明的扭曲增广方法即可获得，不需要其他二维或三维标签信息；通过双向循环方式训练矫正网络，不需要建立复杂的几何模型也能显著提高矫正的成功率和稳健性；引入的梯度先验损失能够保证矫正生成的平展图像有较高的清晰度，保留更加丰富的文本细节。

在一个实施例中，提供了一种基于生成网络的自然场景扭曲文本图像矫正系统，所述系统包括：

网络训练模块，用于基于扭曲文本数据训练矫正网络；

进一步地，在其中一个实施例中，所述扭曲文本数据扩充模块包括：

基准点设置单元，用于在采集的原始平展文本图像上设置若干基准点；

运动状态生成单元，用于基于相似性变换，利用代理网络预测基准点的运动状态，并对其中一些运动状态进行随机变换生成随机运动状态，之后将运动状态和随机运动状态反馈到增广模块；

扭曲单元，用于由增广模块在原始平展文本图像上基于所述运动状态和随机运动状态移动基准点，生成每个运动状态对应的扭曲文本图像；

识别计算单元，用于由识别网络识别扭曲文本图像上的文本字符串，计算识别结果和真实标签即真实文本字符串之间的编辑距离；

优化单元，用于以最大编辑距离对应的运动状态为优化目标，更新优化代理网络的参数。

进一步地，在其中一个实施例中，所述网络构建模块包括：

第一网络构建单元，用于搭建用于将扭曲文本图像转换为平展文本图像的平展网络，包括：平展生成器和平展判别器；

第二网络构建单元，用于搭建用于将平展文本图像转换为扭曲文本图像的扭曲网络，包括：扭曲生成器和扭曲判别器；

定义单元，用于定义损失函数L，引入梯度先验损失L_GP，具体地：

L＝L₁+L₂+L₃+L_GP

式中，

用于计算平展文本的概率，

式中，

表示事先采集的平展文本图像的梯度场，

表示伪平展文本图像的梯度场，

计算两者之间的L₁损失。

进一步地，在其中一个实施例中，所述网络训练模块包括依次执行的：

初始化单元，用于设置矫正网络的初始参数；

第一损失计算单元，用于将扭曲文本输入平展生成器，生成伪平展文本，之后将伪平展文本与平展文本送到平展判别器，计算平展损失L₁；

第二损失计算单元，用于将伪平展文本输入扭曲生成器，生成伪扭曲文本，之后将伪扭曲文本与扭曲文本送到扭曲判别器，计算扭曲损失L₂；

第三损失计算单元，用于利用扭曲文本和伪扭曲文本计算循环一致性损失L₃中的

第四损失计算单元，用于将平展文本输入扭曲生成器，生成伪扭曲文本，之后将伪扭曲文本与扭曲文本送到扭曲判别器，计算扭曲损失L₂；

第五损失计算单元，用于将伪扭曲文本输入平展生成器，生成伪平展文本，之后将伪平展文本与平展文本送到平展判别器，计算平展损失L₁；

第六损失计算单元，用于利用平展文本和伪平展文本计算循环一致性损失L₃中的

约束矫正单元，用于将事先收集的平展文本图像的梯度场

当作标签，用L_GP约束矫正后伪平展图像的梯度场

判断单元，用于判断当前迭代次数是否小于设定阈值，若是，重复第一损失计算单元至约束矫正单元，否则结束矫正网络的训练。

综上，本发明在进行扭曲数据增广之后，将成对“平展-扭曲”样本送至矫正网络训练，训练时不需要其他标签信息。使用训练出来的矫正网络进行推理，能够有效消除自然场景文本的空间扭曲变形，得到的平展文本清晰度较高，提升了后续识别的精度。

上述对实施例的描述是为便于该技术领域的普通技术人员能理解和使用本发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明专利的揭示，不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。