CN113283423B - 基于生成网络的自然场景扭曲文本图像矫正方法及系统 - Google Patents
基于生成网络的自然场景扭曲文本图像矫正方法及系统 Download PDFInfo
- Publication number
- CN113283423B CN113283423B CN202110126410.0A CN202110126410A CN113283423B CN 113283423 B CN113283423 B CN 113283423B CN 202110126410 A CN202110126410 A CN 202110126410A CN 113283423 B CN113283423 B CN 113283423B
- Authority
- CN
- China
- Prior art keywords
- text
- flat
- pseudo
- image
- distorted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000003702 image correction Methods 0.000 title claims abstract description 7
- 238000012937 correction Methods 0.000 claims abstract description 62
- 230000033001 locomotion Effects 0.000 claims abstract description 62
- 230000003416 augmentation Effects 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000013434 data augmentation Methods 0.000 claims abstract description 7
- 230000003190 augmentative effect Effects 0.000 claims abstract 2
- 238000005457 optimization Methods 0.000 claims description 13
- 230000001131 transforming effect Effects 0.000 claims description 11
- 150000001875 compounds Chemical class 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 4
- 241001522296 Erithacus rubecula Species 0.000 abstract 1
- 238000001514 detection method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005452 bending Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于生成网络的自然场景扭曲文本图像矫正方法及系统,方法包括:1)扭曲数据增广。在平展文本图像上设置基准点,增广模块通过基准点的运动变换扭曲图像,代理网络与识别网络共同优化使扭曲文本识别难度较大,数据增广以后可获得成对的“平展‑扭曲”文本图像。2)搭建矫正网络。包括平展生成器、判别器,扭曲生成器、判别器,同时在损失函数中引入梯度先验损失,生成清晰度更高的矫正后图像。3)训练矫正网络。使用双向循环方式训练矫正网络。4)应用推理。利用训练后的矫正网络将待处理的自然场景扭曲文本矫正为平展文本。本发明能够有效消除自然场景文本的空间扭曲变形,得到的平展文本清晰度较高,提升了后续识别的精度。
Description
技术领域
本发明属于机器学习及图像处理技术领域,特别是一种基于生成网络的自然场景扭曲文本图像矫正方法及系统。
背景技术
自然场景中的文本形状丰富、方向多变,常见水平文本、多方向文本、平面弯曲文本和空间扭曲文本,检测与识别的难度依次递增。空间上存在扭曲的文本与其他文本在检测与识别阶段有很大不同:检测阶段,扭曲文本需要更多的标签信息帮助模型准确定位,其中坐标信息理想情况下需要达到三维;识别阶段,因为扭曲会使文本变形,给识别带来很大挑战。正常文本通常采用先检测后识别或端到端检测识别的流程,扭曲文本为了保证识别的准确率,往往需要在检测与识别之间加入矫正机制。本发明针对自然场景扭曲文本,旨在提供一种稳健性强、所需标签信息少的矫正方法。
扭曲文本矫正问题主要有以下几类常见的解决方案:
基于文本局部信息。利用文本行(如文献“Robust Document Image DewarpingMethod Using Text-Lines and Line Segments”、“基于局部信息的文档图像校正方法”)、文本图像的角点(如文献“扭曲文档图像的校正方法”)等局部信息获得处理单元,再针对每个单元进行倾斜矫正,这种方法不适用于背景复杂或扭曲程度复杂的文本。
基于多视角图像。多角度拍摄得到扭曲文本图像(如文献“Camera-baseddocument digitization using multiple images”、“基于移动终端的多视角扭曲文档图像几何校正方法”),将多视角文本图像进行特征点匹配,根据相机标定参数计算各角度下相机的旋转矩阵、平移向量等,计算扭曲三维坐标点构建曲面模型,最终向二维平面投射。但现实场景中获取多视角图像比较麻烦,并且每次矫正都需要进行特征点匹配、三维信息计算、曲面建模等步骤,计算资源消耗大且用时久。
基于其他设备获得点云数据进行三维建模。利用3D扫描仪获取点云数据(如文献“Document restoration using 3D shape:a general deskewing algorithm forarbitrarily warped documents”),利用结构光获取点云数据(如文献“ImageRestoration of Arbitrarily Warped Documents.”IEEE Transactions on PatternAnalysis and Machine Intelligence”),以点云为基本单位构建3D模型并进行矫正。这种方法的推广存在一定瓶颈,一方面3D信息获取设备难以携带,不适用于移动场景,另一方面矫正时需要的数据量巨大。
基于深度卷积网络构建矫正模型。ASTER(文献“Aster:An attentional scenetext recognizer with flexible rectification”)通过薄板样条(Thin Plate Spline,TPS)变换,自适应地将输入图像转换为新图像;Char-Net(文献“Char-net:A character-aware neural network for distorted scene text recognition”)包括一个单词级别编码器,一个字符级别编码器和一个基于LSTM的解码器,使用简单的局部空间转换来检测和纠正单个字符;文献“扭曲文档图像的矫正方法和装置”的矫正网络包含至少两级串联连接的形变参数预测子模块,两个子模块都是U型结构,最后输出图像样本中每个像素的形变参数。
综上,这些方法基于二维或三维信息,进行扭曲文本矫正的缺点在于以下四点:(1)传统的二维方法需要获取文本中心线或文本边界等信息,不适用于背景复杂的图像;(2)建立常见的弯曲模型,如圆柱模型、圆锥模型,无法拟合现实场景中多变的扭曲情况;(3)借助诸如3D摄影机、结构光等设备,矫正效果优劣依赖所用设备的精度且相关设备成本较高;(4)构建深度卷积网络,需要较多坐标信息且矫正效果有限。
发明内容
本发明的目的在于针对自然场景下部分文本空间扭曲程度复杂的情况,提供一种基于生成网络的自然场景扭曲文本图像矫正方法及系统。
实现本发明目的的技术解决方案为:一种基于生成网络的自然场景扭曲文本图像矫正方法,所述方法包括以下步骤:
步骤1,基于增广模块、代理网络和识别网络进行扭曲文本数据增广;所述增广模块,用于通过基准点的运动变换扭曲文本图像,所述代理网络为一个轻量级卷积网络,用于预测基准点运动状态,所述识别网络为一个文本识别网络,用于识别增广模块输出的扭曲文本图像;
步骤2,搭建用于矫正自然场景扭曲文本图像的矫正网络;
步骤3,基于扭曲文本数据训练矫正网络;
步骤4,利用训练后的矫正网络将待处理的自然场景扭曲文本矫正为平展文本。
进一步地,步骤1所述进行扭曲文本数据增广,具体过程包括:
步骤1-1,在采集的原始平展文本图像上设置若干基准点;
步骤1-2,基于相似性变换,利用代理网络预测基准点的运动状态,并对其中一些运动状态进行随机变换生成随机运动状态,之后将运动状态和随机运动状态反馈到增广模块;
步骤1-3,增广模块在原始平展文本图像上基于所述运动状态和随机运动状态移动基准点,生成每个运动状态对应的扭曲文本图像;
步骤1-4,识别网络识别扭曲文本图像上的文本字符串,计算识别结果和真实标签即真实文本字符串之间的编辑距离;
步骤1-5,以最大编辑距离对应的运动状态为优化目标,更新优化代理网络的参数。
进一步地,步骤1-1所述在采集的原始平展文本图像上设置若干基准点,具体包括:
对原始平展文本图像进行n等分,在图像的边界和等分边界上设置若干基准点。
进一步地,步骤2所述搭建用于矫正自然场景扭曲文本图像的矫正网络,具体包括:
步骤2-1,搭建用于将扭曲文本图像转换为平展文本图像的平展网络,包括:平展生成器和平展判别器;
所述平展生成器,其输入为扭曲文本图像,输出为伪平展文本图像;
所述平展判别器,其输入为伪平展文本图像或真实平展文本图像,输出为一个0到1之间的数字,用于判断图像是平展生成器的输出还是真实的平展文本;
步骤2-2,搭建用于将平展文本图像转换为扭曲文本图像的扭曲网络,包括:扭曲生成器和扭曲判别器;
所述扭曲生成器,其输入为平展文本图像,输出为伪扭曲文本图像;
所述扭曲判别器,其输入是伪扭曲文本图像或真实扭曲文本图像,输出为一个0到1之间的数字,用于判断图像是扭曲生成器的输出还是真实的扭曲文本;
步骤2-3,定义损失函数L,引入梯度先验损失LGP,具体地:
损失函数L包括平展损失L1、扭曲损失L2、循环一致性损失L3和梯度先验损失LGP,表达式为:
L=L1+L2+L3+LGP
所述平展损失L1,其目的在于平展生成器必须使平展判别器允许通过所有伪平展文本,表达式为:
式中,用于计算平展文本的概率,用于计算扭曲文本的概率,X~Pdata(x)表示扭曲文本满足的分布,Y~Pdata(y)表示平展文本满足的分布,映射关系G:X→Y,将文本图像从源域X即扭曲文本图像集合转换到目标域Y即平展文本图像集合,y表示平展文本图像,x表示扭曲文本图像,G(x)表示伪平展文本图像,DY表示平展判别器,用于区分y和G(x);
所述扭曲损失L2,其目的在于扭曲生成器必须使扭曲判别器允许通过所有伪扭曲文本,表达式为:
式中,映射关系F:Y→X,将文本图像从目标域Y转换到源域X,扭曲判别器DX用于区分扭曲文本图像x和伪扭曲文本图像F(y);
所述循环一致性损失L3,其目的在于使扭曲文本和平展文本能够相互转换,防止模型把某一类中的所有图像转化成另一类中的某一张图像,表达式为:
式中,||F(G(x))-x||1计算伪扭曲文本图像和真实扭曲文本图像之间的L1损失,||G(F(y))-y||1计算伪平展文本图像和真实平展文本图像之间的L1损失;
所述梯度先验损失LGP,其目的在于克服文本重建时的文本模糊问题,使矫正后的伪平展文本边缘更加清晰,保留更多细节,表达式为:
进一步地,步骤3所述基于扭曲文本数据训练矫正网络,具体过程包括:
步骤3-1,设置矫正网络的初始参数;
步骤3-2,将扭曲文本输入平展生成器,生成伪平展文本,之后将伪平展文本与平展文本送到平展判别器,计算平展损失L1;
步骤3-3,将伪平展文本输入扭曲生成器,生成伪扭曲文本,之后将伪扭曲文本与扭曲文本送到扭曲判别器,计算扭曲损失L2;
步骤3-5,将平展文本输入扭曲生成器,生成伪扭曲文本,之后将伪扭曲文本与扭曲文本送到扭曲判别器,计算扭曲损失L2;
步骤3-6,将伪扭曲文本输入平展生成器,生成伪平展文本,之后将伪平展文本与平展文本送到平展判别器,计算平展损失L1;
步骤3-9,判断当前迭代次数是否小于设定阈值,若是,重复步骤3-2至步骤3-8,否则结束矫正网络的训练。
一种基于生成网络的自然场景扭曲文本图像矫正系统,所述系统包括:
扭曲文本数据扩充模块,用于基于增广模块、代理网络和识别网络进行扭曲文本数据增广;所述增广模块,用于通过基准点的运动变换扭曲文本图像,所述代理网络为一个轻量级卷积网络,用于预测基准点运动状态,所述识别网络为一个文本识别网络,用于识别增广模块输出的扭曲文本图像;
网络构建模块,用于搭建用于矫正自然场景扭曲文本图像的矫正网络;
网络训练模块,用于基于扭曲文本数据训练矫正网络;
矫正模块,用于利用训练后的矫正网络将待处理的自然场景扭曲文本矫正为平展文本。
本发明与现有技术相比,其显著优点为:1)基于基准点运动变换产生扭曲角度丰富且接近真实场景中扭曲文本的样本,代理网络和识别网络共同优化获得识别难度较大的扭曲文本图像,可以提升矫正网络的稳健性;2)现实生活中的扭曲文本难以获得对应的平展标签,并且获取二维或三维标签信息成本颇高,本发明的矫正网络只需要“平展-扭曲”图像对作为输入,增广前的平展文本可作为增广后的扭曲文本的标签;3)通过双向循环方式训练矫正网络,不需要建立复杂的几何模型也能显著提高矫正的成功率和稳健性,同时引入的梯度先验损失能够保证矫正生成的平展图像具有较高的清晰度,保留更加丰富的文本细节。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为一个实施例中自然场景扭曲文本图像矫正方法流程图。
图2为一个实施例中扭曲数据增广框架图。
图3为一个实施例中扭曲数据增广过程示意图。
图4为一个实施例中双向循环训练矫正网络过程图。
图5为一个实施例中使用矫正网络进行扭曲矫正的结果图,其中图5(a)为扭曲文本,图5(b)为矫正后的文本,图5(c)为原始图像。
具体实施方式
为了更加清晰地阐述本申请的目的、技术方案及优点,以下结合附图及实施例,对本申请的内容进一步详细说明。应当理解,此处描述的具体实施例仅用于解释本申请,而不限定于本申请。
需要说明的是,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
在一个实施例中,结合图1,提供了一种基于生成网络的自然场景扭曲文本图像矫正方法,所述方法包括以下步骤:
步骤1,基于增广模块、代理网络和识别网络进行扭曲文本数据增广;所述增广模块,用于通过基准点的运动变换扭曲文本图像,所述代理网络为一个轻量级卷积网络,用于预测基准点运动状态,所述识别网络为一个文本识别网络,用于识别增广模块输出的扭曲文本图像;
步骤2,搭建用于矫正自然场景扭曲文本图像的矫正网络;
步骤3,基于扭曲文本数据训练矫正网络;
步骤4,利用训练后的矫正网络将待处理的自然场景扭曲文本矫正为平展文本。
进一步地,在其中一个实施例中,结合图2,步骤1所述进行扭曲文本数据增广,具体过程包括:
步骤1-1,在采集的原始平展文本图像上设置若干基准点;
这里优选地,对原始平展文本图像进行n等分,在图像的边界和等分边界上设置若干基准点;
这里,作为一种具体实例,结合图3,将图片平均分成3等份,设置上下边界各4个点,共8个基准点,这8个基准点的运动半径为R。
步骤1-2,基于相似性变换,利用代理网络预测基准点的运动状态,并对其中一些运动状态进行随机变换生成随机运动状态,之后将运动状态和随机运动状态反馈到增广模块;
步骤1-3,增广模块在原始平展文本图像上基于所述运动状态和随机运动状态移动基准点,生成每个运动状态对应的扭曲文本图像;
步骤1-4,识别网络识别扭曲文本图像上的文本字符串,计算识别结果和真实标签即真实文本字符串之间的编辑距离,以此衡量识别的难度;
步骤1-5,以最大编辑距离对应的运动状态为优化目标,更新优化代理网络的参数。增广后结果图如图3右侧所示。
进一步地,在其中一个实施例中,步骤2所述搭建用于矫正自然场景扭曲文本图像的矫正网络,具体包括:
步骤2-1,搭建用于将扭曲文本图像转换为平展文本图像的平展网络,包括:平展生成器和平展判别器;
所述平展生成器,其输入为扭曲文本图像,输出为伪平展文本图像;
这里,作为一种具体实例,输入、输出都是256×256的三通道图像,平展生成器采用残差网络,主要包含三个卷积层、九个残差块、两个步幅为12的分数步卷积层以及一个将特征映射到RGB空间的卷积层;
所述平展判别器,其输入为伪平展文本图像或真实平展文本图像,输出为一个0到1之间的数字,用于判断图像是平展生成器的输出还是真实的平展文本;若输出的数值小于预设阈值,则图像是平展生成器的输出,否则为真实的平展文本。优选地,所述阈值取0.5。
这里,作为一种具体实例,平展判别器采用了PatchGAN,将图像划分为N×N大小的补丁,并判断每个补丁图像是真是假,再对整个图像进行卷积运算,对所有响应求平均值作为判别器的最终输出。N在比图像整体尺寸小得多的情况下,仍然可以产生高质量的结果。较小的PatchGAN具有较少的参数,运行速度更快,并可应用于任意大的图像;
步骤2-2,搭建用于将平展文本图像转换为扭曲文本图像的扭曲网络,包括:扭曲生成器和扭曲判别器;
所述扭曲生成器,其输入为平展文本图像,输出为伪扭曲文本图像;
这里,作为一种具体实例,输入、输出都是256×256的三通道图像,扭曲生成器采用残差网络,主要包含三个卷积层、九个残差块、两个步幅为12的分数步卷积层以及一个将特征映射到RGB空间的卷积层。
所述扭曲判别器,其输入是伪扭曲文本图像或真实扭曲文本图像,输出为一个0到1之间的数字,用于判断图像是扭曲生成器的输出还是真实的扭曲文本;
这里,作为一种具体实例,扭曲判别器采用了PatchGAN,将图像划分为N×N大小的补丁,并判断每个补丁图像是真是假,再对整个图像进行卷积运算,对所有响应求平均值作为判别器的最终输出;
步骤2-3,定义损失函数L,引入梯度先验损失LGP,具体地:
损失函数L包括平展损失L1、扭曲损失L2、循环一致性损失L3和梯度先验损失LGP,表达式为:
L=L1+L2+L3+LGP
所述平展损失L1,其目的在于平展生成器必须使平展判别器允许通过所有伪平展文本,表达式为:
式中,用于计算平展文本的概率,用于计算扭曲文本的概率,X~Pdata(x)表示扭曲文本满足的分布,Y~Pdata(y)表示平展文本满足的分布,映射关系G:X→Y,将文本图像从源域X即扭曲文本图像集合转换到目标域Y即平展文本图像集合,y表示平展文本图像,x表示扭曲文本图像,G(x)表示伪平展文本图像,DY表示平展判别器,用于区分y和G(x);
所述扭曲损失L2,其目的在于扭曲生成器必须使扭曲判别器允许通过所有伪扭曲文本,表达式为:
式中,映射关系F:Y→X,将文本图像从目标域Y转换到源域X,扭曲判别器DX用于区分扭曲文本图像x和伪扭曲文本图像F(y);
所述循环一致性损失L3,其目的在于使扭曲文本和平展文本能够相互转换,防止模型把某一类中的所有图像转化成另一类中的某一张图像,表达式为:
式中,||F(G(x))-x||1计算伪扭曲文本图像和真实扭曲文本图像之间的L1损失,||G(F(y))-y||1计算伪平展文本图像和真实平展文本图像之间的L1损失;
所述梯度先验损失LGP,其目的在于克服文本重建时的文本模糊问题,使矫正后的伪平展文本边缘更加清晰,保留更多细节,表达式为:
进一步地,在其中一个实施例中,结合图4,步骤3所述基于扭曲文本数据训练矫正网络,具体过程包括:
步骤3-1,设置矫正网络的初始参数;
步骤3-2,将扭曲文本输入平展生成器,生成伪平展文本,之后将伪平展文本与平展文本送到平展判别器,计算平展损失L1;
步骤3-3,将伪平展文本输入扭曲生成器,生成伪扭曲文本,之后将伪扭曲文本与扭曲文本送到扭曲判别器,计算扭曲损失L2;
步骤3-5,将平展文本输入扭曲生成器,生成伪扭曲文本,之后将伪扭曲文本与扭曲文本送到扭曲判别器,计算扭曲损失L2;
步骤3-6,将伪扭曲文本输入平展生成器,生成伪平展文本,之后将伪平展文本与平展文本送到平展判别器,计算平展损失L1;
步骤3-9,判断当前迭代次数是否小于设定阈值,若是,重复步骤3-2至步骤3-8,否则结束矫正网络的训练。
示例性地,使用矫正网络进行扭曲矫正,结果如图5所示。
本发明提出的基于生成网络的自然场景扭曲文本图像矫正方法,不依赖于文本的形态学信息,可应用于背景复杂的自然场景扭曲文本图像;矫正网络只需要“平展-扭曲”图像对作为输入,使用本发明的扭曲增广方法即可获得,不需要其他二维或三维标签信息;通过双向循环方式训练矫正网络,不需要建立复杂的几何模型也能显著提高矫正的成功率和稳健性;引入的梯度先验损失能够保证矫正生成的平展图像有较高的清晰度,保留更加丰富的文本细节。
在一个实施例中,提供了一种基于生成网络的自然场景扭曲文本图像矫正系统,所述系统包括:
扭曲文本数据扩充模块,用于基于增广模块、代理网络和识别网络进行扭曲文本数据增广;所述增广模块,用于通过基准点的运动变换扭曲文本图像,所述代理网络为一个轻量级卷积网络,用于预测基准点运动状态,所述识别网络为一个文本识别网络,用于识别增广模块输出的扭曲文本图像;
网络构建模块,用于搭建用于矫正自然场景扭曲文本图像的矫正网络;
网络训练模块,用于基于扭曲文本数据训练矫正网络;
矫正模块,用于利用训练后的矫正网络将待处理的自然场景扭曲文本矫正为平展文本。
进一步地,在其中一个实施例中,所述扭曲文本数据扩充模块包括:
基准点设置单元,用于在采集的原始平展文本图像上设置若干基准点;
运动状态生成单元,用于基于相似性变换,利用代理网络预测基准点的运动状态,并对其中一些运动状态进行随机变换生成随机运动状态,之后将运动状态和随机运动状态反馈到增广模块;
扭曲单元,用于由增广模块在原始平展文本图像上基于所述运动状态和随机运动状态移动基准点,生成每个运动状态对应的扭曲文本图像;
识别计算单元,用于由识别网络识别扭曲文本图像上的文本字符串,计算识别结果和真实标签即真实文本字符串之间的编辑距离;
优化单元,用于以最大编辑距离对应的运动状态为优化目标,更新优化代理网络的参数。
进一步地,在其中一个实施例中,所述网络构建模块包括:
第一网络构建单元,用于搭建用于将扭曲文本图像转换为平展文本图像的平展网络,包括:平展生成器和平展判别器;
所述平展生成器,其输入为扭曲文本图像,输出为伪平展文本图像;
所述平展判别器,其输入为伪平展文本图像或真实平展文本图像,输出为一个0到1之间的数字,用于判断图像是平展生成器的输出还是真实的平展文本;
第二网络构建单元,用于搭建用于将平展文本图像转换为扭曲文本图像的扭曲网络,包括:扭曲生成器和扭曲判别器;
所述扭曲生成器,其输入为平展文本图像,输出为伪扭曲文本图像;
所述扭曲判别器,其输入是伪扭曲文本图像或真实扭曲文本图像,输出为一个0到1之间的数字,用于判断图像是扭曲生成器的输出还是真实的扭曲文本;
定义单元,用于定义损失函数L,引入梯度先验损失LGP,具体地:
损失函数L包括平展损失L1、扭曲损失L2、循环一致性损失L3和梯度先验损失LGP,表达式为:
L=L1+L2+L3+LGP
所述平展损失L1,其目的在于平展生成器必须使平展判别器允许通过所有伪平展文本,表达式为:
式中,用于计算平展文本的概率,用于计算扭曲文本的概率,X~Pdata(x)表示扭曲文本满足的分布,Y~Pdata(y)表示平展文本满足的分布,映射关系G:X→Y,将文本图像从源域X即扭曲文本图像集合转换到目标域Y即平展文本图像集合,y表示平展文本图像,x表示扭曲文本图像,G(x)表示伪平展文本图像,DY表示平展判别器,用于区分y和G(x);
所述扭曲损失L2,其目的在于扭曲生成器必须使扭曲判别器允许通过所有伪扭曲文本,表达式为:
式中,映射关系F:Y→X,将文本图像从目标域Y转换到源域X,扭曲判别器DX用于区分扭曲文本图像x和伪扭曲文本图像F(y);
所述循环一致性损失L3,其目的在于使扭曲文本和平展文本能够相互转换,防止模型把某一类中的所有图像转化成另一类中的某一张图像,表达式为:
式中,||F(G(x))-x||1计算伪扭曲文本图像和真实扭曲文本图像之间的L1损失,||G(F(y))-y||1计算伪平展文本图像和真实平展文本图像之间的L1损失;
所述梯度先验损失LGP,其目的在于克服文本重建时的文本模糊问题,使矫正后的伪平展文本边缘更加清晰,保留更多细节,表达式为:
进一步地,在其中一个实施例中,所述网络训练模块包括依次执行的:
初始化单元,用于设置矫正网络的初始参数;
第一损失计算单元,用于将扭曲文本输入平展生成器,生成伪平展文本,之后将伪平展文本与平展文本送到平展判别器,计算平展损失L1;
第二损失计算单元,用于将伪平展文本输入扭曲生成器,生成伪扭曲文本,之后将伪扭曲文本与扭曲文本送到扭曲判别器,计算扭曲损失L2;
第四损失计算单元,用于将平展文本输入扭曲生成器,生成伪扭曲文本,之后将伪扭曲文本与扭曲文本送到扭曲判别器,计算扭曲损失L2;
第五损失计算单元,用于将伪扭曲文本输入平展生成器,生成伪平展文本,之后将伪平展文本与平展文本送到平展判别器,计算平展损失L1;
判断单元,用于判断当前迭代次数是否小于设定阈值,若是,重复第一损失计算单元至约束矫正单元,否则结束矫正网络的训练。
综上,本发明在进行扭曲数据增广之后,将成对“平展-扭曲”样本送至矫正网络训练,训练时不需要其他标签信息。使用训练出来的矫正网络进行推理,能够有效消除自然场景文本的空间扭曲变形,得到的平展文本清晰度较高,提升了后续识别的精度。
上述对实施例的描述是为便于该技术领域的普通技术人员能理解和使用本发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明专利的揭示,不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。
Claims (8)
1.一种基于生成网络的自然场景扭曲文本图像矫正方法,其特征在于,所述方法包括以下步骤:
步骤1,基于增广模块、代理网络和识别网络进行扭曲文本数据增广;所述增广模块,用于通过基准点的运动变换扭曲文本图像,所述代理网络为一个轻量级卷积网络,用于预测基准点运动状态,所述识别网络为一个文本识别网络,用于识别增广模块输出的扭曲文本图像;
步骤2,搭建用于矫正自然场景扭曲文本图像的矫正网络;具体包括:
步骤2-1,搭建用于将扭曲文本图像转换为平展文本图像的平展网络,包括:平展生成器和平展判别器;
所述平展生成器,其输入为扭曲文本图像,输出为伪平展文本图像;
所述平展判别器,其输入为伪平展文本图像或真实平展文本图像,输出为一个0到1之间的数字,用于判断图像是平展生成器的输出还是真实的平展文本;
步骤2-2,搭建用于将平展文本图像转换为扭曲文本图像的扭曲网络,包括:扭曲生成器和扭曲判别器;
所述扭曲生成器,其输入为平展文本图像,输出为伪扭曲文本图像;
所述扭曲判别器,其输入是伪扭曲文本图像或真实扭曲文本图像,输出为一个0到1之间的数字,用于判断图像是扭曲生成器的输出还是真实的扭曲文本;
步骤2-3,定义损失函数L,引入梯度先验损失LGP,具体地:
损失函数L包括平展损失L1、扭曲损失L2、循环一致性损失L3和梯度先验损失LGP,表达式为:
L=L1+L2+L3+LGP
所述平展损失L1,其目的在于平展生成器必须使平展判别器允许通过所有伪平展文本,表达式为:
式中,用于计算平展文本的概率,用于计算扭曲文本的概率,X~Pdata(x)表示扭曲文本满足的分布,Y~Pdata(y)表示平展文本满足的分布,映射关系G:X→Y,将文本图像从源域X即扭曲文本图像集合转换到目标域Y即平展文本图像集合,y表示平展文本图像,x表示扭曲文本图像,G(x)表示伪平展文本图像,DY表示平展判别器,用于区分y和G(x);
所述扭曲损失L2,其目的在于扭曲生成器必须使扭曲判别器允许通过所有伪扭曲文本,表达式为:
式中,映射关系F:Y→X,将文本图像从目标域Y转换到源域X,扭曲判别器DX用于区分扭曲文本图像x和伪扭曲文本图像F(y);
所述循环一致性损失L3,其目的在于使扭曲文本和平展文本能够相互转换,防止模型把某一类中的所有图像转化成另一类中的某一张图像,表达式为:
式中,||F(G(x))-x||1计算伪扭曲文本图像和真实扭曲文本图像之间的L1损失,||G(F(y))-y||1计算伪平展文本图像和真实平展文本图像之间的L1损失;
所述梯度先验损失LGP,其目的在于克服文本重建时的文本模糊问题,使矫正后的伪平展文本边缘更加清晰,保留更多细节,表达式为:
步骤3,基于扭曲文本数据训练矫正网络;
步骤4,利用训练后的矫正网络将待处理的自然场景扭曲文本矫正为平展文本。
2.根据权利要求1所述的基于生成网络的自然场景扭曲文本图像矫正方法,其特征在于,步骤1所述进行扭曲文本数据增广,具体过程包括:
步骤1-1,在采集的原始平展文本图像上设置若干基准点;
步骤1-2,基于相似性变换,利用代理网络预测基准点的运动状态,并对其中一些运动状态进行随机变换生成随机运动状态,之后将运动状态和随机运动状态反馈到增广模块;
步骤1-3,增广模块在原始平展文本图像上基于所述运动状态和随机运动状态移动基准点,生成每个运动状态对应的扭曲文本图像;
步骤1-4,识别网络识别扭曲文本图像上的文本字符串,计算识别结果和真实标签即真实文本字符串之间的编辑距离;
步骤1-5,以最大编辑距离对应的运动状态为优化目标,更新优化代理网络的参数。
3.根据权利要求2所述的基于生成网络的自然场景扭曲文本图像矫正方法,其特征在于,步骤1-1所述在采集的原始平展文本图像上设置若干基准点,具体包括:
对原始平展文本图像进行n等分,在图像的边界和等分边界上设置若干基准点。
4.根据权利要求1所述的基于生成网络的自然场景扭曲文本图像矫正方法,其特征在于,步骤3所述基于扭曲文本数据训练矫正网络,具体过程包括:
步骤3-1,设置矫正网络的初始参数;
步骤3-2,将扭曲文本输入平展生成器,生成伪平展文本,之后将伪平展文本与平展文本送到平展判别器,计算平展损失L1;
步骤3-3,将伪平展文本输入扭曲生成器,生成伪扭曲文本,之后将伪扭曲文本与扭曲文本送到扭曲判别器,计算扭曲损失L2;
步骤3-5,将平展文本输入扭曲生成器,生成伪扭曲文本,之后将伪扭曲文本与扭曲文本送到扭曲判别器,计算扭曲损失L2;
步骤3-6,将伪扭曲文本输入平展生成器,生成伪平展文本,之后将伪平展文本与平展文本送到平展判别器,计算平展损失L1;
步骤3-9,判断当前迭代次数是否小于设定阈值,若是,重复步骤3-2至步骤3-8,否则结束矫正网络的训练。
5.实现权利要求1至4任意一项所述方法的基于生成网络的自然场景扭曲文本图像矫正系统,其特征在于,所述系统包括:
扭曲文本数据扩充模块,用于基于增广模块、代理网络和识别网络进行扭曲文本数据增广;所述增广模块,用于通过基准点的运动变换扭曲文本图像,所述代理网络为一个轻量级卷积网络,用于预测基准点运动状态,所述识别网络为一个文本识别网络,用于识别增广模块输出的扭曲文本图像;
网络构建模块,用于搭建用于矫正自然场景扭曲文本图像的矫正网络;
网络训练模块,用于基于扭曲文本数据训练矫正网络;
矫正模块,用于利用训练后的矫正网络将待处理的自然场景扭曲文本矫正为平展文本。
6.根据权利要求5所述的基于生成网络的自然场景扭曲文本图像矫正系统,其特征在于,所述扭曲文本数据扩充模块包括:
基准点设置单元,用于在采集的原始平展文本图像上设置若干基准点;
运动状态生成单元,用于基于相似性变换,利用代理网络预测基准点的运动状态,并对其中一些运动状态进行随机变换生成随机运动状态,之后将运动状态和随机运动状态反馈到增广模块;
扭曲单元,用于由增广模块在原始平展文本图像上基于所述运动状态和随机运动状态移动基准点,生成每个运动状态对应的扭曲文本图像;
识别计算单元,用于由识别网络识别扭曲文本图像上的文本字符串,计算识别结果和真实标签即真实文本字符串之间的编辑距离;
优化单元,用于以最大编辑距离对应的运动状态为优化目标,更新优化代理网络的参数。
7.根据权利要求6所述的基于生成网络的自然场景扭曲文本图像矫正系统,其特征在于,所述网络构建模块包括:
第一网络构建单元,用于搭建用于将扭曲文本图像转换为平展文本图像的平展网络,包括:平展生成器和平展判别器;
所述平展生成器,其输入为扭曲文本图像,输出为伪平展文本图像;
所述平展判别器,其输入为伪平展文本图像或真实平展文本图像,输出为一个0到1之间的数字,用于判断图像是平展生成器的输出还是真实的平展文本;
第二网络构建单元,用于搭建用于将平展文本图像转换为扭曲文本图像的扭曲网络,包括:扭曲生成器和扭曲判别器;
所述扭曲生成器,其输入为平展文本图像,输出为伪扭曲文本图像;
所述扭曲判别器,其输入是伪扭曲文本图像或真实扭曲文本图像,输出为一个0到1之间的数字,用于判断图像是扭曲生成器的输出还是真实的扭曲文本;
定义单元,用于定义损失函数L,引入梯度先验损失LGP,具体地:
损失函数L包括平展损失L1、扭曲损失L2、循环一致性损失L3和梯度先验损失LGP,表达式为:
L=L1+L2+L3+LGP
所述平展损失L1,其目的在于平展生成器必须使平展判别器允许通过所有伪平展文本,表达式为:
式中,用于计算平展文本的概率,用于计算扭曲文本的概率,X~Pdata(x)表示扭曲文本满足的分布,Y~Pdata(y)表示平展文本满足的分布,映射关系G:X→Y,将文本图像从源域X即扭曲文本图像集合转换到目标域Y即平展文本图像集合,y表示平展文本图像,x表示扭曲文本图像,G(x)表示伪平展文本图像,DY表示平展判别器,用于区分y和G(x);
所述扭曲损失L2,其目的在于扭曲生成器必须使扭曲判别器允许通过所有伪扭曲文本,表达式为:
式中,映射关系F:Y→X,将文本图像从目标域Y转换到源域X,扭曲判别器DX用于区分扭曲文本图像x和伪扭曲文本图像F(y);
所述循环一致性损失L3,其目的在于使扭曲文本和平展文本能够相互转换,防止模型把某一类中的所有图像转化成另一类中的某一张图像,表达式为:
式中,||F(G(x))-x||1计算伪扭曲文本图像和真实扭曲文本图像之间的L1损失,||G(F(y))-y||1计算伪平展文本图像和真实平展文本图像之间的L1损失;
所述梯度先验损失LGP,其目的在于克服文本重建时的文本模糊问题,使矫正后的伪平展文本边缘更加清晰,保留更多细节,表达式为:
8.根据权利要求7所述的基于生成网络的自然场景扭曲文本图像矫正系统,其特征在于,所述网络训练模块包括依次执行的:
初始化单元,用于设置矫正网络的初始参数;
第一损失计算单元,用于将扭曲文本输入平展生成器,生成伪平展文本,之后将伪平展文本与平展文本送到平展判别器,计算平展损失L1;
第二损失计算单元,用于将伪平展文本输入扭曲生成器,生成伪扭曲文本,之后将伪扭曲文本与扭曲文本送到扭曲判别器,计算扭曲损失L2;
第四损失计算单元,用于将平展文本输入扭曲生成器,生成伪扭曲文本,之后将伪扭曲文本与扭曲文本送到扭曲判别器,计算扭曲损失L2;
第五损失计算单元,用于将伪扭曲文本输入平展生成器,生成伪平展文本,之后将伪平展文本与平展文本送到平展判别器,计算平展损失L1;
判断单元,用于判断当前迭代次数是否小于设定阈值,若是,重复第一损失计算单元至约束矫正单元,否则结束矫正网络的训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110126410.0A CN113283423B (zh) | 2021-01-29 | 2021-01-29 | 基于生成网络的自然场景扭曲文本图像矫正方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110126410.0A CN113283423B (zh) | 2021-01-29 | 2021-01-29 | 基于生成网络的自然场景扭曲文本图像矫正方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113283423A CN113283423A (zh) | 2021-08-20 |
CN113283423B true CN113283423B (zh) | 2022-08-16 |
Family
ID=77275530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110126410.0A Active CN113283423B (zh) | 2021-01-29 | 2021-01-29 | 基于生成网络的自然场景扭曲文本图像矫正方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113283423B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723289B (zh) * | 2021-08-30 | 2024-03-08 | 平安科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287960A (zh) * | 2019-07-02 | 2019-09-27 | 中国科学院信息工程研究所 | 自然场景图像中曲线文字的检测识别方法 |
CN111476294A (zh) * | 2020-04-07 | 2020-07-31 | 南昌航空大学 | 一种基于生成对抗网络的零样本图像识别方法及系统 |
-
2021
- 2021-01-29 CN CN202110126410.0A patent/CN113283423B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287960A (zh) * | 2019-07-02 | 2019-09-27 | 中国科学院信息工程研究所 | 自然场景图像中曲线文字的检测识别方法 |
CN111476294A (zh) * | 2020-04-07 | 2020-07-31 | 南昌航空大学 | 一种基于生成对抗网络的零样本图像识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113283423A (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022002150A1 (zh) | 一种视觉点云地图的构建方法、装置 | |
CN111950453B (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN108701234A (zh) | 车牌识别方法及云系统 | |
WO2015139574A1 (zh) | 一种静态物体重建方法和系统 | |
CN111652292B (zh) | 一种基于ncs、ms的相似物体实时检测方法及系统 | |
CN111091075B (zh) | 人脸识别方法、装置、电子设备及存储介质 | |
CN112200057B (zh) | 人脸活体检测方法、装置、电子设备及存储介质 | |
CN112102294B (zh) | 生成对抗网络的训练方法及装置、图像配准方法及装置 | |
CN108154066B (zh) | 一种基于曲率特征递归神经网络的三维目标识别方法 | |
CN110059625B (zh) | 一种基于mixup的人脸训练与识别方法 | |
CN112926475B (zh) | 一种人体三维关键点提取方法 | |
CN112580515A (zh) | 一种基于高斯热图回归的轻量级人脸关键点检测方法 | |
CN115376024A (zh) | 一种输电线路电力配件语义分割方法 | |
CN114332942A (zh) | 基于改进YOLOv3的夜间红外行人检测方法及系统 | |
CN115063768A (zh) | 三维目标检测方法、编码器及解码器 | |
CN113283423B (zh) | 基于生成网络的自然场景扭曲文本图像矫正方法及系统 | |
CN111523586A (zh) | 一种基于噪声可知的全网络监督目标检测方法 | |
CN113724329A (zh) | 融合平面与立体信息的目标姿态估计方法、系统和介质 | |
CN115984949B (zh) | 一种带有注意力机制的低质量人脸图像识别方法及设备 | |
CN116416649A (zh) | 一种基于多尺度分辨率对齐的视频行人重识别方法 | |
CN116958027A (zh) | 三维工业异常检测方法、装置、存储介质及电子设备 | |
CN111861878A (zh) | 通过潜在空间正则化对监督式生成对抗网络进行优化 | |
JPH09245168A (ja) | 画像認識装置 | |
CN112784800B (zh) | 一种基于神经网络和形状约束的人脸关键点检测方法 | |
CN111382654A (zh) | 图像处理方法和装置以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |