CN112419174B

CN112419174B - 基于门循环单元的图像文字去除方法、系统及装置

Info

Publication number: CN112419174B
Application number: CN202011216320.2A
Authority: CN
Inventors: 全卫泽; 王超群; 侯诗玉; 张晓鹏; 严冬明
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2022-09-20
Anticipated expiration: 2040-11-04
Also published as: CN112419174A

Abstract

本发明属于计算机图形学与计算机视觉领域，具体涉及了一种基于门循环单元的图像文字去除方法、系统及装置，旨在解决现有技术无法提取出准确的文字笔画，从而无法有效地去除图像中的文字的问题。本发明包括：基于一个或多个串联的逆残差模块和门循环单元构建笔画级二值掩膜生成模型，并基于输入图像和文字区域掩膜，获取输入图像的笔画级二值掩膜；基于一个或多个编码器、一个或多个解码器以及特征处理模块构建文字去除模型，并基于输入图像、文字区域掩膜和笔画级二值掩膜的融合特征，获取文字去除后的图像。本发明可以获得精细的笔画级文字掩膜，从而有效地指导模型高质量地去除文字，提升文字去除过程中渲染回填的效果。

Description

基于门循环单元的图像文字去除方法、系统及装置

技术领域

本发明属于计算机图形学与计算机视觉领域，具体涉及了一种基于门循环单元的图像文字去除方法、系统及装置。

背景技术

随着社会的发展进步，图像作为重要的信息传递形式无处不在。其在传递有价值的信息的时候，也会造成私人信息泄漏。比如拍摄照片或收集数据时，不可避免地会在图像中出现一些个人信息(包括证件号码、电话号码等)。图像文字去除技术则能通过去除图像中的敏感信息，起到保护隐私的作用，同时该技术还广泛应用于图像视频编辑、文字翻译等任务。

早期的图像文字去除方法主要基于颜色直方图或者阈值。 Khodadadi等人基于颜色直方图来估计候选块中的背景和文字颜色[1]，然后基于匹配修复算法高效地重构文字区域中的图像内容。Modha等人则结合形态学的方法，定位出文字区域，然后用图像修复算法，对文字进行去除[2]。Wagh等人通过对笔画特征的提取找到文字的区域，然后使用最邻近匹配算法，对文字去除后的区域进行填充[3]，该方法需要反复迭代地进行文字区域的填充，因此算法的效率不高。除了上述对静态图像文字去除的方法，也有一些工作研究去除视频帧的字幕和标题。Lee等人利用不同帧之间的文字和背景差异，在连续帧对时序的光流信息进行恢复和在当前帧对空间信息进行恢复，以此来替换文字区域的像素达到去除文字的目的，实现了视频序列中文字的自动检测和去除[4]。Mosleh等人则对笔画宽度变换得到的连通成分进行无监督聚类，找到每帧中的文字位置，然后通过图像修复算法对文字区域进行修复[5]。然而，这些方法着重于对图像数字化文字的去除，而图像数字化这种文字模式较为单一。在真实的场景文字图像中，因为环境、光照等各种因素，造成文字模式十分复杂，这些方法通常无法很好地去除真实场景中的文字。

借鉴深度学习方法在计算机视觉任务中的巨大成功，基于卷积神经网络(CNN，convolutional neural network)的方法使得文字去除任务有了很大改进。其中，Nakamura等人最先提出使用CNN从自然场景图像中去除文字[6]，其使用滑动窗口的方法将图像分成若干小块，并使用 U-Net网络去除文字。该方法的文字去除过程是在各个图像块上进行，然后将处理后的图像块合并在一起。但是这种基于图像块的处理机制会导致结果图像的结构一致性降低，并且也限制了图像的处理速度。随后的研究工作又将生成对抗网络(GAN，generative adversarial networks)引入到场景文字去除任务中。Zhang等人将GAN和U-Net形状的网络结构结合起来使用[7]，并通过风格损失、内容损失、总变分损失等损失函数使得文字去除效果取得更进一步地提升。但是该方法使用的训练数据是通过文字合成技术得到的，这使得模型在真实场景下的泛化能力不足对背景复杂的情况处理效果不佳，并且这种方法因为缺乏对文字区域信息的获取，所以无法对指定的部分文字区域进行去除。之后Tursun等人引入文字区域二值掩膜作为网络的附加输入，使得用户能够选择他们需要去除的文字区域[8]。但他们使用的文字区域掩膜不够精细，使得文字笔画之间、文字和文字之间的大量可利用的背景信息被忽略，这意味着模型处理区域明显大于实际文字所占区域，导致在文字区域较大或者文字笔画分散的情况下，出现文字去除不干净的现象。

实际应用中，如果能够提取出准确的文字笔画，则意味着可以尽可能地保留输入图像的原始内容，继而可以获得更好的结果。但是，这样的精确区域很难获得，鲜有相关研究工作集中于区分文字笔画和非笔画区域。另外，随着循环神经网络(RNN，recurrentneural network)的发展，Qian等人利用长短期记忆网络(LSTM，long short-termmemory)获得注意力图，将模型的注意力集中在雨水上，进而为雨水的去除起到很好的辅助作用[9]，但是LSTM计算复杂，所以模型的效率较低。该方法与文字去除有所不同，该方法是针对全局图像进行雨水的去除，而图像的文字去除方法则只针对文字区域。同时，如果可以获得笔画级的精细文字掩膜，就可以有效地指导模型更好地去除文字。

总的来说，传统的以及现有的图像文字去除方法还存在上述的一系列问题，本领域还急需一种图像文字去除方法，可以实现图像中文字的快速、准确去除。

[1]Khodadadi M,Behrad A.Text localization,extraction and inpaintingin color images[C]//20th Iranian Conference on Electrical Engineering(ICEE2012).IEEE,2012:1035-1040.

[2]Modha U,Dave P.Image inpainting-automatic detection and removal oftext from images[J].International Journal of Engineering Research andApplications(IJERA),ISSN,2014:2248-9622.

[3]Wagh P D,Patil D R.Text detection and removal from image usinginpainting with smoothing[C]//2015International Conference on PervasiveComputing(ICPC).IEEE,2015:1-4.

[4]Lee C W,Jung K，Kim H J.Automatic text detection and removal invideo sequences[J].Pattern Recognition Letters,2003,24(15): 2607-2623.

[5]Mosleh A,Bouguila N,Hamza A B.Automatic inpainting scheme forvideo text detection and removal[J].IEEE Transactions on image processing,2013,22(11):4460-4472.

[6]Nakamura T,Zhu A,Yanai K,et al.Scene text eraser[C]//2017 14thIAPR International Conference on Document Analysis and Recognition(ICDAR).IEEE,2017,1:832-837.

[7]Zhang S,Liu Y,Jin L,et al.Ensnet:Ensconce text in the wild[C]//Proceedings of the AAAI Conference on Artificial Intelligence.2019,33:801-808.

[8]Tursun O,Zeng R,Denman S,et al.MTRNet:A Generic Scene Text Eraser[J].arXiv preprint arXiv:1903.04092,2019.

[9]Qian R,Tan R T,Yang W,et al.Attentive generative adversarialnetwork for raindrop removal from a single image[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2018:2482-2491.

发明内容

为了解决现有技术中的上述问题，即现有技术无法提取出准确的文字笔画，因而无法有效地去除图像中的文字的问题，本发明提供了一种基于门循环单元的图像文字去除方法，该方法包括以下步骤：

本发明的第一方面提出了一种基于门循环单元的图像文字去除方法，该方法包括以下步骤：

步骤S100，获取带有文字的图像作为待处理图像，并获取所述待处理图像对应的文字区域掩膜；

步骤S200，基于一个或多个串联的逆残差模块和门循环单元构建笔画级二值掩膜生成模型，并基于所述待处理图像和文字区域掩膜通过所述笔画级二值掩膜生成模型获取所述待处理图像的笔画级二值掩膜；

步骤S300，进行所述待处理图像、文字区域掩膜和笔画级二值掩膜的特征融合，获得融合特征；

步骤S400，基于一个或多个编码器、一个或多个解码器以及特征处理模块构建文字去除模型，并通过所述文字去除模型对所述融合特征进行编码和解码，获得文字去除后的图像。

在一些优选的实施例中，所述逆残差模块包括一个或者多个逆残差结构；

所述逆残差结构包括顺次连接的一个核为1×1的点卷积层，一个核为3×3的深度卷积层和一个核为1×1的点卷积层。

在一些优选的实施例中，所述的门循环单元包括更新门和重置门；

所述更新门包括顺次连接的一个核为1×1的卷积层和一个 sigmoid激活函数；

所述重置门包括顺次连接的一个核为1×1的卷积层和一个 sigmoid激活函数。

在一些优选的实施例中，步骤S200中基于所述待处理图像和文字区域掩膜通过所述笔画级二值掩膜生成模型获取所述待处理图像的笔画级二值掩膜，其方法为：

步骤S210，进行所述待处理图像和文字区域掩膜的特征融合，并通过所述笔画级二值掩膜生成模型中的逆残差模块进行融合后的特征的高维特征提取，获得逆残差特征；

步骤S220，通过所述笔画级二值掩膜生成模型中的门循环单元在所述逆残差特征的前后关系上进行建模，获得待处理图像的笔画级二值掩膜。

在一些优选的实施例中，所述笔画级二值掩膜生成模型，其训练过程中的损失函数为笔画级掩膜损失函数L_m；

所述笔画级掩膜损失函数L_m为：

其中，L_m({O},M)代表笔画级二值掩膜特征的集合与其对应的笔画级二值掩膜标签之间的笔画级掩膜损失，{O}为笔画级二值掩膜特征的集合，M为笔画级二值掩膜标签，O_t代表第t个笔画级二值掩膜特征，N 为笔画级二值掩膜生成模型中串联的逆残差模块和门循环单元的个数，λ 为笔画级二值掩膜生成模型中每个串联的逆残差模块和门循环单元与笔画级二值掩膜标签的损失的权重，||·||₂代表L₂范数。

在一些优选的实施例中，所述的文字去除模型为U型网络，包括一个或多个编码器、一个或多个解码器以及特征处理模块；

所述编码器为一个下采样模块，包括一个或者多个卷积层，用于对文字去除模型的输入特征进行编码；

所述特征处理模块包括一个或者多个卷积层，用于对编码器编码后的特征进行深度特征提取；

所述解码器为一个上采样模块，包括一个或者多个卷积层，用于对特征处理模块深度特征提取后的特征进行解码。

在一些优选的实施例中，步骤S400中通过所述文字去除模型对所述融合特征进行编码和解码，获得文字去除后的图像，其方法为：

步骤S410，通过所述文字去除模型中的编码器对所述融合特征进行下采样的编码，获得第一特征信息；

步骤S420，通过所述文字去除模型中的特征处理模块对所述第一特征信息进行深度特征提取，获得第二特征信息；

步骤S430，通过所述文字去除模型中的解码器对所述第二特征信息进行上采样的解码，获得文字去除后的图像。

在一些优选的实施例中，所述文字去除模型的训练过程中的损失函数包括文字损失函数L_T和图像亮度损失函数L_Y；

所述文字损失函数L_T，其公式表示为：

L_T＝αL_text+βL_no-text

L_text(I_out,I_gt,M_t)＝||M_t⊙(I_out-I_gt)||₁

L_no-text(I_out,I_gt,M_t)＝||(1-M_t)⊙(I_out-I_gt)||₁

其中，L_text代表文字区域的文字损失函数，L_no-text代表非文字区域的文字损失函数，I_out代表文字去除模型的输出，I_gt为图像对应的无文字的标签图像，M_t为第t个笔画级二值掩膜的标签，1为与M_t具有相同形状的值均为1的图像，⊙代表逐像素相乘，α和β分别代表文字区域的文字损失和非文字区域的文字损失在总的文字损失中所占的权重；

所述亮度损失函数为：

L_Y(Y_out,Y_gt)＝||Y_out-Y_gt||₁

其中，Y_out和Y_gt为分别将I_out和I_gt从RGB空间映射到 YCrCb颜色空间后从亮度通道分离出来的图像，L_Y(Y_out,Y_gt)代表Y_out和 Y_gt之间的亮度损失，||·||₁代表L₁范数。

在一些优选的实施例中，该方法还包括图像文字去除效果评估和模型更新的步骤，其方法为：

将待处理图像对应的无文字标签图像和通过上述的基于门循环单元的图像文字去除方法获取的待处理图像对应的文字去除后的图像输入鉴别器，获得用于指示图像之间差异的评估结果：

若所述评估结果大于设定阈值，则调整模型结构和参数，并重新进行笔画级二值掩膜生成模型和文字去除模型的训练，直至达到设定的训练结束条件，获得更新后的笔画级二值掩膜生成模型和文字去除模型。

本发明的另一方面，提出了一种基于门循环单元的图像文字去除系统，基于上述的基于门循环单元的图像文字去除方法，该系统包括以下模块：

图像获取模块，用于获取带有文字的图像作为待处理图像，并获取所述待处理图像对应的文字区域掩膜；

笔画级二值掩膜生成模块，用于基于所述待处理图像和文字区域掩膜通过笔画级二值掩膜生成模型获取所述待处理图像的笔画级二值掩膜；

特征融合模块，用于进行所述待处理图像、文字区域掩膜和笔画级二值掩膜的特征融合，获得融合特征；

文字去除模块，用于通过文字去除模型对所述融合特征进行编码和解码，获得文字去除后的图像。

本发明的有益效果：

(1)本发明基于门循环单元的图像文字去除方法，先通过由逆残差模块和门循环单元组成的笔画级二值文字掩膜生成模型精确地获得输入原始图像的笔画级二值掩膜，然后将得到的笔画级二值掩膜作为辅助信息,输入到文字去除模型中,以实现对文字高质量去除，在峰值信噪比、结构相似性等性能指标上均比现有方法表现更优。

(2)本发明基于门循环单元的图像文字去除方法，将门循环单元和逆残差结构相结合，提取输入原始图像的特征，可以在大幅减小模型参数量的前提下，保证笔画级二值文字掩膜生成的效果，能够有效改善图像文字去除不干净以及文字去除后的区域与背景不一致的问题。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于门循环单元的图像文字去除方法的流程示意图；

图2是本发明基于门循环单元的图像文字去除方法一种实施例的深度卷积步长分别为1和2的逆残差结构示意图；

图3是本发明基于门循环单元的图像文字去除方法一种实施例的门循环单元结构示意图；

图4是本发明基于门循环单元的图像文字去除方法一种实施例的笔画级二值掩膜生成模型和文字去除模型结构示意图；

图5是本发明基于门循环单元的图像文字去除方法一种实施例的本发明方法与不同网络变体结构算法在测试集上的结果对比图；

图6是本发明基于门循环单元的图像文字去除方法一种实施例的笔画级二值掩膜在生成器和鉴别器网络中的应用效果对比图；

图7是本发明基于门循环单元的图像文字去除方法一种实施例的本发明方法与MTR方法进行部分文字去除的效果对比图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供一种基于门循环单元的图像文字去除方法，通过串联的逆残差模块和门循环单元获取精细的笔画级文字掩膜，从而有效地指导文字去除模型更好地进行图像中文字的去除，提升文字去除过程中渲染回填的效果，进一步提升了图像文字去除的效果和效率。

本发明的一种基于门循环单元的图像文字去除方法，该方法包括以下步骤：

为了更清晰地对本发明基于门循环单元的图像文字去除方法进行说明，下面结合图1对本发明实施例中各步骤展开详述。

本发明第一实施例的基于门循环单元的图像文字去除方法，包括步骤S100-步骤S400，各步骤详细描述如下：

步骤S100，获取带有文字的图像作为待处理图像，并获取所述待处理图像对应的文字区域掩膜。

步骤S200，基于一个或多个串联的逆残差模块和门循环单元构建笔画级二值掩膜生成模型，并基于所述待处理图像和文字区域掩膜通过所述笔画级二值掩膜生成模型获取所述待处理图像的笔画级二值掩膜。

笔画级二值掩膜生成模型包括一个或多个串联的逆残差模块和门循环单元。

其中，基于所述特征图和文字区域掩膜通过所述笔画级二值掩膜生成模型获取所述待处理图像的笔画级二值掩膜，其方法为：

步骤S210，进行所述待处理图像和文字区域掩膜的特征融合，并通过所述笔画级二值掩膜生成模型中的逆残差模块进行融合后的特征的高维特征提取，获得逆残差特征。

逆残差模块包括一个或多个逆残差结构，逆残差结构包括顺次连接的一个核为1×1的点卷积层，一个核为3×3的深度卷积层和一个核为1×1的点卷积层。如图2所示，为本发明基于门循环单元的图像文字去除方法一种实施例的深度卷积步长分别为1和2的逆残差结构示意图，逆残差结构的处理过程包括：先用一个卷积核为1×1的点卷积操作扩大输入特征图的维度,防止因为维度过低导致通过激活函数后丢失过多的信息；然后使用卷积核为3×3的深度卷积对特征进行提取；最后再使用一个 1×1的点卷积压缩特征的通道数。

本发明一个实施例中，逆残差模块由5个逆残差结构纵向串联而成，其输入由原始图像的特征图、文字区域掩膜和/或上一阶段生成的笔画级二值掩膜融合而成。

门循环单元包括更新门和重置门，更新门包括顺次连接的一个核为1×1的卷积层和一个sigmoid激活函数，重置门包括顺次连接的一个核为1×1的卷积层和一个sigmoid激活函数。如图3所示，为本发明基于门循环单元的图像文字去除方法一种实施例的门循环单元结构示意图，其处理方法包括：更新门输入特征为当前阶段的逆残差特征以及上一个阶段的门循环单元输出的门循环单元特征融合而成，通过卷积和激活函数形成特征一；重置门输入特征为当前阶段的逆残差特征以及上一个阶段的门循环单元输出的门循环单元特征，通过卷积和激活函数形成的临时特征，将临时特征与当前阶段的逆残差特征和上一个阶段的门循环单元输出的门循环单元特征进行融合，并经过tanh激活函数输出特征二；特征一和特征二以及上一阶段的门循环特征融合后，得到当前阶段的门循环特征。

构成门循环单元的更新门u_t和重置门r_t，其门与门之间沿着时间维度的相互关系定义如式(1)：

其中，X_t是由逆残差层提取的特征，H_t是经过门循环单元之后的输出特征，符号⊙代表逐元素相乘，符号*代表卷积操作，σ为sigmoid 激活函数。在得到门循环单元的输出特征H_t之后，将其进行一次卷积操作，就可以得到一个笔画级的文字掩膜特征图O_t，在每个模块结束后，将当前时刻得到的笔画级二值掩膜特征图和输入的图像进行融合,然后输入到下一个时刻的门循环单元模块中。

如图4所示，为本发明基于门循环单元的图像文字去除方法一种实施例的笔画级二值掩膜生成模型和文字去除模型结构示意图，图4 上半部分给出了笔画级二值掩膜生成模型的结构示意，在本实施例中，笔画级二值掩膜生成模型包括了5个逆残差模块和5个门循环单元(GRU)，少于5个逆残差模块和5个门循环单元的笔画级二值掩膜生成模型，其获取的笔画级二值掩膜会出现部分笔画无法生成的问题，而多于5个逆残差模块和5个门循环单元的笔画级二值掩膜生成模型，与5个逆残差模块和5 个门循环单元的笔画级二值掩膜生成模型效果一致，而计算量增加，因此，由5个逆残差模块和5个门循环单元构成的笔画级二值掩膜生成模型在笔画二值掩膜生成中表现最优。

本发明利用门循环单元构成的笔画级二值掩膜生成模型生成精确的笔画级二值掩膜，显著提升了文字去除效果，用逆残差结构代替普通卷积，从而达到了模型去除文字的性能和模型参数量之间的平衡。

笔画级二值掩膜生成模型，其训练过程中的损失函数为笔画级掩膜损失函数L_m；

笔画级掩膜损失函数L_m是针对笔画级二值掩膜计算的L₂损失，其公式表示如式(2)：

N为循环逆残差模块和门循环单元模块的个数，N越大最后得到的笔画级二值掩膜会越准确，但是计算量也会更大，在本发明中N取值为5。λ为每个逆残差模块和门循环单元生成的笔画级二值掩膜和对应掩膜标签的损失的权重，越早产生的损失值贡献越小，在本发明中λ取值为0.7。

步骤S300，进行所述待处理图像、文字区域掩膜和笔画级二值掩膜的特征融合，获得融合特征。

其中，通过所述文字去除模型对所述融合特征进行编码和解码，获得文字去除后的图像，其方法为：

步骤S410，通过所述文字去除模型中的编码器对所述融合特征进行下采样的编码，获得第一特征信息。

步骤S420，通过所述文字去除模型中的特征处理模块对所述第一特征信息进行深度特征提取，获得第二特征信息。

文字去除模型对文字区域掩膜、原始图像(即上述的待处理图像)和笔画级二值掩膜融合的特征进行编码和解码操作，用于在原始图像中去除文字，得到目标图像(即文字去除后的图像)，文字去除模型的结构如图4下半部分所示。

文字去除模型为U型网络，包括一个或多个编码器、一个或多个解码器以及特征处理模块。

编码器为一个下采样模块，包括一个或者多个卷积层，用于对文字去除模型的输入特征进行编码。本发明一个实施例中，下采样模块包括一个步长为2和一个步长为1的卷积层，每次下采样后，特征的高度和宽度减半，通道数加倍。

特征处理模块包括一个或者多个卷积层，用于对编码器编码后的特征进行深度特征提取。本发明一个实施例中，特征处理模块包括4 个步长为1的卷积层，目的是为了加深网络，提取深层次的特征。

解码器为一个上采样模块，包括一个或者多个卷积层，用于对特征处理模块深度特征提取后的特征进行解码。本发明一个实施例中，上采样模块包括一个步长为2的反卷积层和一个步长为1的卷积层，同时，为了加强文字去除模型对纹理细节和结构的恢复以及为了避免模糊结果的发生，本发明采用跳跃连接，将编码器的浅层特征信息输入到解码器的对应层，是的浅层特征更好地被利用，从而保证文字去除模型恢复出更多的细节特征。最后，使用一个步长为1，卷积核为3×3的卷积层获取最终的目标图像(即文字去除后的图像)。

文字去除模型的训练过程中的损失函数包括文字损失函数 L_T和图像亮度损失函数L_Y。

文字损失函数L_T是为了尽可能地在去除文字的同时,保留非文字区域的信息，所以本发明将更多的注意力放在文字区域。具体地，对文字区域和非文字区域使用逐像素的L₁损失函数。

文字损失函数L_T，其公式表示为式(3)：

L_T＝αL_text+βL_no-text (3)

其中，L_text代表文字区域的文字损失函数，L_no-text代表非文字区域的文字损失函数，α和β分别代表文字区域的文字损失和非文字区域的文字损失在总的文字损失中所占的权重。本发明一个实施例中，α 取值为10，β取值为1，将更多的注意力放在了文字区域的文字损失上。

文字区域的文字损失，其公式表示为式(4)：

L_text(I_out,I_gt,M_t)＝||M_t⊙(I_out-I_gt)||₁ (4)

非文字区域的文字损失，其公式表示为式(5)：

L_no-text(I_out,I_gt,M_t)＝||(1-M_t)⊙(I_out-I_gt)||₁ (5)

其中，I_out代表文字去除模型的输出，I_gt为图像对应的无文字的标签图像，M_t为第t个笔画级二值掩膜的标签，1为与M_t具有相同形状的值均为1的图像，⊙代表逐像素相乘，||·||₁代表L₁范数。

因为人眼对图像的亮度变化更为敏感，因此，将目标图像和对应的标签图像从RGB空间映射到YCrCb颜色空间，然后将亮度通道分离出来得到Y_out和Y_gt，对两者使用L₁损失函数，从而得到亮度损失函数L_Y，其公式表示为式(6)：

L_Y(Y_out,Y_gt)＝||Y_out-Y_gt||₁ (6)

其中，Y_out和Y_gt为分别将I_out和I_gt从RGB空间映射到 YCrCb颜色空间后从亮度通道分离出来的图像，L_Y(Y_out,Y_gt)代表Y_out和 Y_gt之间的亮度损失，||·||₁代表L₁范数。。

本实施例的基于门循环单元的图像文字去除方法的笔画级二值掩膜生成模型和文字去除模型，在应用前需要通过训练样本进行训练，训练样本包括成对的带文字的原始图像、没有文字的干净的标签图像和文字区域掩膜图像，训练时分别从带文字的原始图像样本集、没有文字的干净的标签图像样本集和文字区域掩膜图像样本集中提取特定数量的样本构成样本集合对模型进行训练。

本发明基于门循环单元的图像文字去除方法还包括图像文字去除效果评估和模型更新的步骤，其方法为：

为了证明本发明基于门循环单元的图像文字去除方法的优越性，本发明进行了实验验证，实验所使用的硬件环境为： Intel(R)Xeon(R)E5-2690 v4 2.60GHz的CPU，NVIDIA TITAN RTX(24G 显存)，256G的内存；实验所使用的软件环境为：Ubuntu16.04.6LTS 的操作系统，Tensorflow 1.13.1的深度学习框架，V10.0版本的CUDA，尺寸为256×256的输入图片。

对于图像文字去除任务，实验需要成对的带文字的原始图像和没有文字的干净的标签图像以及文字区域掩膜图像来训练模型，然而，在自然场景中很难同时获得这种成对的数据。本发明使用的实验数据来源分为两类，第一类使用文字合成方法来获取大量训练数据，这种合成的训练数据，虽然能模拟真实场景中的文字，但是始终和真实环境下带文字的图像是有差异的。因此，本发明构建了一种类真实的数据集，具体地是从ICDAR2017MLT(Nayef N,Yin F,Bizid I,et al.ICDAR2017 robust reading challenge on multi-lingual scene text detection and script identification-rrc-mlt[C]//2017 14thIAPR International Conference on Document Analysis and Recognition(ICDAR).IEEE,2017,1:1454-1459.) 数据集中收集了5,070张真实环境中带文字的图像，这些图像采集自各种各样的场景，并且包含多种语言文字，同时本发明从日常的生活环境中，拍摄了1,970张照片，然后将搜集的带文字的真实图片去除掉文字得到干净的标签图像，通过该方法获得7,040组真实的训练数据，与此同时为了增加数据集的多样性，本发明也使用文字合成的方法合成了4,000组高真实感的数据，最终，本发明使用的训练集数据总共是11,040组。对于测试集,本发明另外准备了1,080组真实数据和1,000组合成数据。

本发明和不同网络变体结构算法Scene text eraser(以下简称为STE),EnsNet,MTR进行对比分析。其中EnsNet使用的是官方提供的源代码进行训练和测试，而STE和MTR算法的复现是严格按照其论文所述方法进行训练和测试。

为了保证公平，所有模型都训练到收敛。其中，EnsNet和 STE方法没有使用文字区域掩膜，所以模型无法准确地知道需要去除的文字的区域，得到的结果会有明显的文字轮廓和文字笔画的残留，而本发明方法能将文字去除的很干净。

另外，MTR方法虽然使用了文字区域掩膜，但是这种掩膜覆盖的区域较大，所以会出现明显的过平滑现象，导致在视觉感受上和周围背景不一致。而本发明方法因为能得到笔画级的二值掩膜，所以能更好地利用文字笔画之间、文字和文字之间的有用信息，从而在图像的细节恢复上取得很好的效果。

表1是本发明基于门循环单元的图像文字去除方法一种实施例的本发明方法与不同网络变体结构算法在测试集上的图像质量指标和文字检测指标对比：

表1

从表1中可看出，本发明方法在图像质量指标(PSNR、SSIM) 和文字检测指标(R、P、F)上均表现最好，证明了本发明的图像文字去除方法的优越性。

如图5所示，为本发明基于门循环单元的图像文字去除方法一种实施例的本发明方法与不同网络变体结构算法在测试集上的结果对比图，可以看出，本发明的方法能很好地还原出背景图像的结构，这些结果表明，在文字区域掩膜的基础上，通过检测笔画级二值掩膜，能在引导模型去除文字区域的内容的同时，还能更好地保留非文字区域的信息，从而得到细节更丰富、图像结构更为合理的结果。

为了比较笔画级二值掩膜对图像文字去除效果的影响，本发明在保持输入数据和其他训练参数不变的条件下，分别进行了如下两组实验：(1)使用生成器和鉴别器网络对图像文字进行去除，用TE_GD表示； (2)在(1)的基础上，加上笔画级二值掩膜生成模块，用TE_GDM表示。

如图6所示，为本发明基于门循环单元的图像文字去除方法一种实施例的笔画级二值掩膜在生成器和鉴别器网络中的应用效果对比图，从第二列展示的结果可看出，TE_GD在文字区域较大的情况下，出现颜色混乱和过平滑的现象，对非文字区域的细节保留的不理想，而第三列的结果明显优于TE_GD。

表2本发明基于门循环单元的图像文字去除方法一种实施例的笔画级二值掩膜在生成器和鉴别器网络中的应用效果指标对比：

表2

方法	PSNR/dB	SSIM	R	P	F
						TE_GD	34.48	0.9650	0.52	15.84	1.00
TE_GDM	37.57	0.9663	0.48	14.36	0.93

从表2中可以看出，添加了笔画级二值掩膜后，在图像质量指标(PSNR、SSIM)和文字检测指标(R、P、F)上的指标均有提升。

如图7所示，为本发明基于门循环单元的图像文字去除方法一种实施例的本发明方法与MTR方法进行部分文字去除的效果对比图，其中矩形框中的文字是需要去除的部分.可以看到本发明方法能很好的去除被选中部分的文字，而未被选中的文字则能很好的保留。

综上所述，本发明结合门循环单元来进行笔画级二值掩膜的生成，并以此为重要的引导信息，引导文字去除模型对图像的文字进行去除，在图像文字去除领域具有重要的应用价值。

本发明的第二实施例的基于门循环单元的图像文字去除系统，基于上述的基于门循环单元的图像文字去除方法，该系统包括以下模块：

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于门循环单元的图像文字去除系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于门循环单元的图像文字去除方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于门循环单元的图像文字去除方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程 ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于门循环单元的图像文字去除方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于门循环单元的图像文字去除方法，其特征在于，所述逆残差模块包括一个或者多个逆残差结构；

3.根据权利要求1所述的基于门循环单元的图像文字去除方法，其特征在于，所述的门循环单元包括更新门和重置门；

所述更新门包括顺次连接的一个核为1×1的卷积层和一个sigmoid激活函数；

所述重置门包括顺次连接的一个核为1×1的卷积层和一个sigmoid激活函数。

4.根据权利要求1所述的基于门循环单元的图像文字去除方法，其特征在于，步骤S200中基于所述待处理图像和文字区域掩膜通过所述笔画级二值掩膜生成模型获取所述待处理图像的笔画级二值掩膜，其方法为：

5.根据权利要求1所述的基于门循环单元的图像文字去除方法，其特征在于，所述笔画级二值掩膜生成模型，其训练过程中的损失函数为笔画级掩膜损失函数L_m；

所述笔画级掩膜损失函数L_m为：

其中，L_m({O},M)代表笔画级二值掩膜特征的集合与其对应的笔画级二值掩膜标签之间的笔画级掩膜损失，{O}为笔画级二值掩膜特征的集合，M为笔画级二值掩膜标签，O_t代表第t个笔画级二值掩膜特征，N为笔画级二值掩膜生成模型中串联的逆残差模块和门循环单元的个数，λ为笔画级二值掩膜生成模型中每个串联的逆残差模块和门循环单元与笔画级二值掩膜标签的损失的权重，||·||₂代表L₂范数。

6.根据权利要求1所述的基于门循环单元的图像文字去除方法，其特征在于，所述的文字去除模型为U型网络，包括一个或多个编码器、一个或多个解码器以及特征处理模块；

7.根据权利要求6所述的基于门循环单元的图像文字去除方法，其特征在于，步骤S400中通过所述文字去除模型对所述融合特征进行编码和解码，获得文字去除后的图像，其方法为：

8.根据权利要求7所述的基于门循环单元的图像文字去除方法，其特征在于，所述文字去除模型的训练过程中的损失函数包括文字损失函数L_T和图像亮度损失函数L_Y；

所述文字损失函数L_T，其公式表示为：

L_T＝αL_text+βL_no-text

L_text(I_out,I_gt,M_t)＝||M_t⊙(I_out-I_gt)||₁

L_no-text(I_out,I_gt,M_t)＝||(1-M_t)⊙(I_out-I_gt)||₁

所述亮度损失函数为：

L_Y(Y_out,Y_gt)＝||Y_out-Y_gt||₁

其中，Y_out和Y_gt为分别将I_out和I_gt从RGB空间映射到YCrCb颜色空间后从亮度通道分离出来的图像，L_Y(Y_out,Y_gt)代表Y_out和Y_gt之间的亮度损失，||·||₁代表L₁范数。

9.根据权利要求1-8任一项所述的基于门循环单元的图像文字去除方法，其特征在于，该方法还包括图像文字去除效果评估和模型更新的步骤，其方法为：

将待处理图像对应的无文字标签图像和通过1-8任一项所述的基于门循环单元的图像文字去除方法获取的待处理图像对应的文字去除后的图像输入鉴别器，获得用于指示图像之间差异的评估结果：

10.一种基于门循环单元的图像文字去除系统，其特征在于，基于权利要求1-8任一项所述的基于门循环单元的图像文字去除方法，该系统包括以下模块：