CN112419174B - 基于门循环单元的图像文字去除方法、系统及装置 - Google Patents
基于门循环单元的图像文字去除方法、系统及装置 Download PDFInfo
- Publication number
- CN112419174B CN112419174B CN202011216320.2A CN202011216320A CN112419174B CN 112419174 B CN112419174 B CN 112419174B CN 202011216320 A CN202011216320 A CN 202011216320A CN 112419174 B CN112419174 B CN 112419174B
- Authority
- CN
- China
- Prior art keywords
- image
- character
- stroke
- text
- binary mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 120
- 230000004927 fusion Effects 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 25
- 230000000694 effects Effects 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 241000234435 Lilium Species 0.000 claims 1
- 238000009877 rendering Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 34
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 241000288105 Grus Species 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机图形学与计算机视觉领域,具体涉及了一种基于门循环单元的图像文字去除方法、系统及装置,旨在解决现有技术无法提取出准确的文字笔画,从而无法有效地去除图像中的文字的问题。本发明包括:基于一个或多个串联的逆残差模块和门循环单元构建笔画级二值掩膜生成模型,并基于输入图像和文字区域掩膜,获取输入图像的笔画级二值掩膜;基于一个或多个编码器、一个或多个解码器以及特征处理模块构建文字去除模型,并基于输入图像、文字区域掩膜和笔画级二值掩膜的融合特征,获取文字去除后的图像。本发明可以获得精细的笔画级文字掩膜,从而有效地指导模型高质量地去除文字,提升文字去除过程中渲染回填的效果。
Description
技术领域
本发明属于计算机图形学与计算机视觉领域,具体涉及了一 种基于门循环单元的图像文字去除方法、系统及装置。
背景技术
随着社会的发展进步,图像作为重要的信息传递形式无处不 在。其在传递有价值的信息的时候,也会造成私人信息泄漏。比如拍摄 照片或收集数据时,不可避免地会在图像中出现一些个人信息(包括证件 号码、电话号码等)。图像文字去除技术则能通过去除图像中的敏感信息, 起到保护隐私的作用,同时该技术还广泛应用于图像视频编辑、文字翻译等任务。
早期的图像文字去除方法主要基于颜色直方图或者阈值。 Khodadadi等人基于颜色直方图来估计候选块中的背景和文字颜色[1],然 后基于匹配修复算法高效地重构文字区域中的图像内容。Modha等人则 结合形态学的方法,定位出文字区域,然后用图像修复算法,对文字进 行去除[2]。Wagh等人通过对笔画特征的提取找到文字的区域,然后使用 最邻近匹配算法,对文字去除后的区域进行填充[3],该方法需要反复迭 代地进行文字区域的填充,因此算法的效率不高。除了上述对静态图像 文字去除的方法,也有一些工作研究去除视频帧的字幕和标题。Lee等人 利用不同帧之间的文字和背景差异,在连续帧对时序的光流信息进行恢 复和在当前帧对空间信息进行恢复,以此来替换文字区域的像素达到去 除文字的目的,实现了视频序列中文字的自动检测和去除[4]。Mosleh等 人则对笔画宽度变换得到的连通成分进行无监督聚类,找到每帧中的文 字位置,然后通过图像修复算法对文字区域进行修复[5]。然而,这些方 法着重于对图像数字化文字的去除,而图像数字化这种文字模式较为单 一。在真实的场景文字图像中,因为环境、光照等各种因素,造成文字模式十分复杂,这些方法通常无法很好地去除真实场景中的文字。
借鉴深度学习方法在计算机视觉任务中的巨大成功,基于卷 积神经网络(CNN,convolutional neural network)的方法使得文字去除任务 有了很大改进。其中,Nakamura等人最先提出使用CNN从自然场景图 像中去除文字[6],其使用滑动窗口的方法将图像分成若干小块,并使用 U-Net网络去除文字。该方法的文字去除过程是在各个图像块上进行,然 后将处理后的图像块合并在一起。但是这种基于图像块的处理机制会导 致结果图像的结构一致性降低,并且也限制了图像的处理速度。随后的 研究工作又将生成对抗网络(GAN,generative adversarial networks)引入到 场景文字去除任务中。Zhang等人将GAN和U-Net形状的网络结构结合 起来使用[7],并通过风格损失、内容损失、总变分损失等损失函数使得 文字去除效果取得更进一步地提升。但是该方法使用的训练数据是通过 文字合成技术得到的,这使得模型在真实场景下的泛化能力不足对背景 复杂的情况处理效果不佳,并且这种方法因为缺乏对文字区域信息的获 取,所以无法对指定的部分文字区域进行去除。之后Tursun等人引入文 字区域二值掩膜作为网络的附加输入,使得用户能够选择他们需要去除 的文字区域[8]。但他们使用的文字区域掩膜不够精细,使得文字笔画之 间、文字和文字之间的大量可利用的背景信息被忽略,这意味着模型处 理区域明显大于实际文字所占区域,导致在文字区域较大或者文字笔画 分散的情况下,出现文字去除不干净的现象。
实际应用中,如果能够提取出准确的文字笔画,则意味着可 以尽可能地保留输入图像的原始内容,继而可以获得更好的结果。但是, 这样的精确区域很难获得,鲜有相关研究工作集中于区分文字笔画和非 笔画区域。另外,随着循环神经网络(RNN,recurrentneural network)的发 展,Qian等人利用长短期记忆网络(LSTM,long short-termmemory)获得 注意力图,将模型的注意力集中在雨水上,进而为雨水的去除起到很好 的辅助作用[9],但是LSTM计算复杂,所以模型的效率较低。该方法与 文字去除有所不同,该方法是针对全局图像进行雨水的去除,而图像的 文字去除方法则只针对文字区域。同时,如果可以获得笔画级的精细文 字掩膜,就可以有效地指导模型更好地去除文字。
总的来说,传统的以及现有的图像文字去除方法还存在上述 的一系列问题,本领域还急需一种图像文字去除方法,可以实现图像中 文字的快速、准确去除。
[1]Khodadadi M,Behrad A.Text localization,extraction and inpaintingin color images[C]//20th Iranian Conference on Electrical Engineering(ICEE2012).IEEE,2012:1035-1040.
[2]Modha U,Dave P.Image inpainting-automatic detection and removal oftext from images[J].International Journal of Engineering Research andApplications(IJERA),ISSN,2014:2248-9622.
[3]Wagh P D,Patil D R.Text detection and removal from image usinginpainting with smoothing[C]//2015International Conference on PervasiveComputing(ICPC).IEEE,2015:1-4.
[4]Lee C W,Jung K,Kim H J.Automatic text detection and removal invideo sequences[J].Pattern Recognition Letters,2003,24(15): 2607-2623.
[5]Mosleh A,Bouguila N,Hamza A B.Automatic inpainting scheme forvideo text detection and removal[J].IEEE Transactions on image processing,2013,22(11):4460-4472.
[6]Nakamura T,Zhu A,Yanai K,et al.Scene text eraser[C]//2017 14thIAPR International Conference on Document Analysis and Recognition(ICDAR).IEEE,2017,1:832-837.
[7]Zhang S,Liu Y,Jin L,et al.Ensnet:Ensconce text in the wild[C]//Proceedings of the AAAI Conference on Artificial Intelligence.2019,33:801-808.
[8]Tursun O,Zeng R,Denman S,et al.MTRNet:A Generic Scene Text Eraser[J].arXiv preprint arXiv:1903.04092,2019.
[9]Qian R,Tan R T,Yang W,et al.Attentive generative adversarialnetwork for raindrop removal from a single image[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2018:2482-2491.
发明内容
为了解决现有技术中的上述问题,即现有技术无法提取出准 确的文字笔画,因而无法有效地去除图像中的文字的问题,本发明提供 了一种基于门循环单元的图像文字去除方法,该方法包括以下步骤:
本发明的第一方面提出了一种基于门循环单元的图像文字 去除方法,该方法包括以下步骤:
步骤S100,获取带有文字的图像作为待处理图像,并获取所 述待处理图像对应的文字区域掩膜;
步骤S200,基于一个或多个串联的逆残差模块和门循环单元 构建笔画级二值掩膜生成模型,并基于所述待处理图像和文字区域掩膜 通过所述笔画级二值掩膜生成模型获取所述待处理图像的笔画级二值掩 膜;
步骤S300,进行所述待处理图像、文字区域掩膜和笔画级二 值掩膜的特征融合,获得融合特征;
步骤S400,基于一个或多个编码器、一个或多个解码器以及 特征处理模块构建文字去除模型,并通过所述文字去除模型对所述融合 特征进行编码和解码,获得文字去除后的图像。
在一些优选的实施例中,所述逆残差模块包括一个或者多个 逆残差结构;
所述逆残差结构包括顺次连接的一个核为1×1的点卷积层, 一个核为3×3的深度卷积层和一个核为1×1的点卷积层。
在一些优选的实施例中,所述的门循环单元包括更新门和重 置门;
所述更新门包括顺次连接的一个核为1×1的卷积层和一个 sigmoid激活函数;
所述重置门包括顺次连接的一个核为1×1的卷积层和一个 sigmoid激活函数。
在一些优选的实施例中,步骤S200中基于所述待处理图像和 文字区域掩膜通过所述笔画级二值掩膜生成模型获取所述待处理图像的 笔画级二值掩膜,其方法为:
步骤S210,进行所述待处理图像和文字区域掩膜的特征融合, 并通过所述笔画级二值掩膜生成模型中的逆残差模块进行融合后的特征 的高维特征提取,获得逆残差特征;
步骤S220,通过所述笔画级二值掩膜生成模型中的门循环单 元在所述逆残差特征的前后关系上进行建模,获得待处理图像的笔画级 二值掩膜。
在一些优选的实施例中,所述笔画级二值掩膜生成模型,其 训练过程中的损失函数为笔画级掩膜损失函数Lm;
所述笔画级掩膜损失函数Lm为:
其中,Lm({O},M)代表笔画级二值掩膜特征的集合与其对应的 笔画级二值掩膜标签之间的笔画级掩膜损失,{O}为笔画级二值掩膜特征 的集合,M为笔画级二值掩膜标签,Ot代表第t个笔画级二值掩膜特征,N 为笔画级二值掩膜生成模型中串联的逆残差模块和门循环单元的个数,λ 为笔画级二值掩膜生成模型中每个串联的逆残差模块和门循环单元与笔 画级二值掩膜标签的损失的权重,||·||2代表L2范数。
在一些优选的实施例中,所述的文字去除模型为U型网络, 包括一个或多个编码器、一个或多个解码器以及特征处理模块;
所述编码器为一个下采样模块,包括一个或者多个卷积层, 用于对文字去除模型的输入特征进行编码;
所述特征处理模块包括一个或者多个卷积层,用于对编码器 编码后的特征进行深度特征提取;
所述解码器为一个上采样模块,包括一个或者多个卷积层, 用于对特征处理模块深度特征提取后的特征进行解码。
在一些优选的实施例中,步骤S400中通过所述文字去除模型 对所述融合特征进行编码和解码,获得文字去除后的图像,其方法为:
步骤S410,通过所述文字去除模型中的编码器对所述融合特 征进行下采样的编码,获得第一特征信息;
步骤S420,通过所述文字去除模型中的特征处理模块对所述 第一特征信息进行深度特征提取,获得第二特征信息;
步骤S430,通过所述文字去除模型中的解码器对所述第二特 征信息进行上采样的解码,获得文字去除后的图像。
在一些优选的实施例中,所述文字去除模型的训练过程中的 损失函数包括文字损失函数LT和图像亮度损失函数LY;
所述文字损失函数LT,其公式表示为:
LT=αLtext+βLno-text
Ltext(Iout,Igt,Mt)=||Mt⊙(Iout-Igt)||1
Lno-text(Iout,Igt,Mt)=||(1-Mt)⊙(Iout-Igt)||1
其中,Ltext代表文字区域的文字损失函数,Lno-text代表非文 字区域的文字损失函数,Iout代表文字去除模型的输出,Igt为图像对应 的无文字的标签图像,Mt为第t个笔画级二值掩膜的标签,1为与Mt具 有相同形状的值均为1的图像,⊙代表逐像素相乘,α和β分别代表文 字区域的文字损失和非文字区域的文字损失在总的文字损失中所占的权 重;
所述亮度损失函数为:
LY(Yout,Ygt)=||Yout-Ygt||1
其中,Yout和Ygt为分别将Iout和Igt从RGB空间映射到 YCrCb颜色空间后从亮度通道分离出来的图像,LY(Yout,Ygt)代表Yout和 Ygt之间的亮度损失,||·||1代表L1范数。
在一些优选的实施例中,该方法还包括图像文字去除效果评 估和模型更新的步骤,其方法为:
将待处理图像对应的无文字标签图像和通过上述的基于门 循环单元的图像文字去除方法获取的待处理图像对应的文字去除后的图 像输入鉴别器,获得用于指示图像之间差异的评估结果:
若所述评估结果大于设定阈值,则调整模型结构和参数,并 重新进行笔画级二值掩膜生成模型和文字去除模型的训练,直至达到设 定的训练结束条件,获得更新后的笔画级二值掩膜生成模型和文字去除 模型。
本发明的另一方面,提出了一种基于门循环单元的图像文字 去除系统,基于上述的基于门循环单元的图像文字去除方法,该系统包 括以下模块:
图像获取模块,用于获取带有文字的图像作为待处理图像, 并获取所述待处理图像对应的文字区域掩膜;
笔画级二值掩膜生成模块,用于基于所述待处理图像和文字 区域掩膜通过笔画级二值掩膜生成模型获取所述待处理图像的笔画级二 值掩膜;
特征融合模块,用于进行所述待处理图像、文字区域掩膜和 笔画级二值掩膜的特征融合,获得融合特征;
文字去除模块,用于通过文字去除模型对所述融合特征进行 编码和解码,获得文字去除后的图像。
本发明的有益效果:
(1)本发明基于门循环单元的图像文字去除方法,先通过 由逆残差模块和门循环单元组成的笔画级二值文字掩膜生成模型精确地 获得输入原始图像的笔画级二值掩膜,然后将得到的笔画级二值掩膜作 为辅助信息,输入到文字去除模型中,以实现对文字高质量去除,在峰值 信噪比、结构相似性等性能指标上均比现有方法表现更优。
(2)本发明基于门循环单元的图像文字去除方法,将门循 环单元和逆残差结构相结合,提取输入原始图像的特征,可以在大幅减 小模型参数量的前提下,保证笔画级二值文字掩膜生成的效果,能够有 效改善图像文字去除不干净以及文字去除后的区域与背景不一致的问题。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详 细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于门循环单元的图像文字去除方法的流程 示意图;
图2是本发明基于门循环单元的图像文字去除方法一种实 施例的深度卷积步长分别为1和2的逆残差结构示意图;
图3是本发明基于门循环单元的图像文字去除方法一种实 施例的门循环单元结构示意图;
图4是本发明基于门循环单元的图像文字去除方法一种实 施例的笔画级二值掩膜生成模型和文字去除模型结构示意图;
图5是本发明基于门循环单元的图像文字去除方法一种实 施例的本发明方法与不同网络变体结构算法在测试集上的结果对比图;
图6是本发明基于门循环单元的图像文字去除方法一种实 施例的笔画级二值掩膜在生成器和鉴别器网络中的应用效果对比图;
图7是本发明基于门循环单元的图像文字去除方法一种实 施例的本发明方法与MTR方法进行部分文字去除的效果对比图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以 理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发 明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有 关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实 施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明 本申请。
本发明提供一种基于门循环单元的图像文字去除方法,通过 串联的逆残差模块和门循环单元获取精细的笔画级文字掩膜,从而有效 地指导文字去除模型更好地进行图像中文字的去除,提升文字去除过程 中渲染回填的效果,进一步提升了图像文字去除的效果和效率。
本发明的一种基于门循环单元的图像文字去除方法,该方法 包括以下步骤:
步骤S100,获取带有文字的图像作为待处理图像,并获取所 述待处理图像对应的文字区域掩膜;
步骤S200,基于一个或多个串联的逆残差模块和门循环单元 构建笔画级二值掩膜生成模型,并基于所述待处理图像和文字区域掩膜 通过所述笔画级二值掩膜生成模型获取所述待处理图像的笔画级二值掩 膜;
步骤S300,进行所述待处理图像、文字区域掩膜和笔画级二 值掩膜的特征融合,获得融合特征;
步骤S400,基于一个或多个编码器、一个或多个解码器以 及特征处理模块构建文字去除模型,并通过所述文字去除模型对所述融 合特征进行编码和解码,获得文字去除后的图像。
为了更清晰地对本发明基于门循环单元的图像文字去除方 法进行说明,下面结合图1对本发明实施例中各步骤展开详述。
本发明第一实施例的基于门循环单元的图像文字去除方法, 包括步骤S100-步骤S400,各步骤详细描述如下:
步骤S100,获取带有文字的图像作为待处理图像,并获取所 述待处理图像对应的文字区域掩膜。
步骤S200,基于一个或多个串联的逆残差模块和门循环单元 构建笔画级二值掩膜生成模型,并基于所述待处理图像和文字区域掩膜 通过所述笔画级二值掩膜生成模型获取所述待处理图像的笔画级二值掩 膜。
笔画级二值掩膜生成模型包括一个或多个串联的逆残差模 块和门循环单元。
其中,基于所述特征图和文字区域掩膜通过所述笔画级二值 掩膜生成模型获取所述待处理图像的笔画级二值掩膜,其方法为:
步骤S210,进行所述待处理图像和文字区域掩膜的特征融合, 并通过所述笔画级二值掩膜生成模型中的逆残差模块进行融合后的特征 的高维特征提取,获得逆残差特征。
步骤S220,通过所述笔画级二值掩膜生成模型中的门循环单 元在所述逆残差特征的前后关系上进行建模,获得待处理图像的笔画级 二值掩膜。
逆残差模块包括一个或多个逆残差结构,逆残差结构包括顺 次连接的一个核为1×1的点卷积层,一个核为3×3的深度卷积层和一个 核为1×1的点卷积层。如图2所示,为本发明基于门循环单元的图像文字 去除方法一种实施例的深度卷积步长分别为1和2的逆残差结构示意图, 逆残差结构的处理过程包括:先用一个卷积核为1×1的点卷积操作扩大输 入特征图的维度,防止因为维度过低导致通过激活函数后丢失过多的信 息;然后使用卷积核为3×3的深度卷积对特征进行提取;最后再使用一个 1×1的点卷积压缩特征的通道数。
本发明一个实施例中,逆残差模块由5个逆残差结构纵向串 联而成,其输入由原始图像的特征图、文字区域掩膜和/或上一阶段生成 的笔画级二值掩膜融合而成。
门循环单元包括更新门和重置门,更新门包括顺次连接的一 个核为1×1的卷积层和一个sigmoid激活函数,重置门包括顺次连接的一 个核为1×1的卷积层和一个sigmoid激活函数。如图3所示,为本发明基于 门循环单元的图像文字去除方法一种实施例的门循环单元结构示意图, 其处理方法包括:更新门输入特征为当前阶段的逆残差特征以及上一个 阶段的门循环单元输出的门循环单元特征融合而成,通过卷积和激活函 数形成特征一;重置门输入特征为当前阶段的逆残差特征以及上一个阶 段的门循环单元输出的门循环单元特征,通过卷积和激活函数形成的临 时特征,将临时特征与当前阶段的逆残差特征和上一个阶段的门循环单 元输出的门循环单元特征进行融合,并经过tanh激活函数输出特征二;特 征一和特征二以及上一阶段的门循环特征融合后,得到当前阶段的门循环特征。
构成门循环单元的更新门ut和重置门rt,其门与门之间沿着 时间维度的相互关系定义如式(1):
其中,Xt是由逆残差层提取的特征,Ht是经过门循环单元之 后的输出特征,符号⊙代表逐元素相乘,符号*代表卷积操作,σ为sigmoid 激活函数。在得到门循环单元的输出特征Ht之后,将其进行一次卷积操 作,就可以得到一个笔画级的文字掩膜特征图Ot,在每个模块结束后, 将当前时刻得到的笔画级二值掩膜特征图和输入的图像进行融合,然后 输入到下一个时刻的门循环单元模块中。
如图4所示,为本发明基于门循环单元的图像文字去除方法 一种实施例的笔画级二值掩膜生成模型和文字去除模型结构示意图,图4 上半部分给出了笔画级二值掩膜生成模型的结构示意,在本实施例中, 笔画级二值掩膜生成模型包括了5个逆残差模块和5个门循环单元(GRU), 少于5个逆残差模块和5个门循环单元的笔画级二值掩膜生成模型,其获取的笔画级二值掩膜会出现部分笔画无法生成的问题,而多于5个逆残差 模块和5个门循环单元的笔画级二值掩膜生成模型,与5个逆残差模块和5 个门循环单元的笔画级二值掩膜生成模型效果一致,而计算量增加,因 此,由5个逆残差模块和5个门循环单元构成的笔画级二值掩膜生成模型 在笔画二值掩膜生成中表现最优。
本发明利用门循环单元构成的笔画级二值掩膜生成模型生 成精确的笔画级二值掩膜,显著提升了文字去除效果,用逆残差结构代 替普通卷积,从而达到了模型去除文字的性能和模型参数量之间的平衡。
笔画级二值掩膜生成模型,其训练过程中的损失函数为笔画 级掩膜损失函数Lm;
笔画级掩膜损失函数Lm是针对笔画级二值掩膜计算的L2损 失,其公式表示如式(2):
其中,Lm({O},M)代表笔画级二值掩膜特征的集合与其对应的 笔画级二值掩膜标签之间的笔画级掩膜损失,{O}为笔画级二值掩膜特征 的集合,M为笔画级二值掩膜标签,Ot代表第t个笔画级二值掩膜特征,N 为笔画级二值掩膜生成模型中串联的逆残差模块和门循环单元的个数,λ 为笔画级二值掩膜生成模型中每个串联的逆残差模块和门循环单元与笔 画级二值掩膜标签的损失的权重,||·||2代表L2范数。
N为循环逆残差模块和门循环单元模块的个数,N越大最后 得到的笔画级二值掩膜会越准确,但是计算量也会更大,在本发明中N取 值为5。λ为每个逆残差模块和门循环单元生成的笔画级二值掩膜和对应 掩膜标签的损失的权重,越早产生的损失值贡献越小,在本发明中λ取值 为0.7。
步骤S300,进行所述待处理图像、文字区域掩膜和笔画级二 值掩膜的特征融合,获得融合特征。
步骤S400,基于一个或多个编码器、一个或多个解码器以 及特征处理模块构建文字去除模型,并通过所述文字去除模型对所述融 合特征进行编码和解码,获得文字去除后的图像。
其中,通过所述文字去除模型对所述融合特征进行编码和解 码,获得文字去除后的图像,其方法为:
步骤S410,通过所述文字去除模型中的编码器对所述融合 特征进行下采样的编码,获得第一特征信息。
步骤S420,通过所述文字去除模型中的特征处理模块对所 述第一特征信息进行深度特征提取,获得第二特征信息。
步骤S430,通过所述文字去除模型中的解码器对所述第二 特征信息进行上采样的解码,获得文字去除后的图像。
文字去除模型对文字区域掩膜、原始图像(即上述的待处理 图像)和笔画级二值掩膜融合的特征进行编码和解码操作,用于在原始 图像中去除文字,得到目标图像(即文字去除后的图像),文字去除模 型的结构如图4下半部分所示。
文字去除模型为U型网络,包括一个或多个编码器、一个 或多个解码器以及特征处理模块。
编码器为一个下采样模块,包括一个或者多个卷积层,用于 对文字去除模型的输入特征进行编码。本发明一个实施例中,下采样模 块包括一个步长为2和一个步长为1的卷积层,每次下采样后,特征的 高度和宽度减半,通道数加倍。
特征处理模块包括一个或者多个卷积层,用于对编码器编码 后的特征进行深度特征提取。本发明一个实施例中,特征处理模块包括4 个步长为1的卷积层,目的是为了加深网络,提取深层次的特征。
解码器为一个上采样模块,包括一个或者多个卷积层,用于 对特征处理模块深度特征提取后的特征进行解码。本发明一个实施例中, 上采样模块包括一个步长为2的反卷积层和一个步长为1的卷积层,同 时,为了加强文字去除模型对纹理细节和结构的恢复以及为了避免模糊 结果的发生,本发明采用跳跃连接,将编码器的浅层特征信息输入到解码器的对应层,是的浅层特征更好地被利用,从而保证文字去除模型恢 复出更多的细节特征。最后,使用一个步长为1,卷积核为3×3的卷积 层获取最终的目标图像(即文字去除后的图像)。
文字去除模型的训练过程中的损失函数包括文字损失函数 LT和图像亮度损失函数LY。
文字损失函数LT是为了尽可能地在去除文字的同时,保留 非文字区域的信息,所以本发明将更多的注意力放在文字区域。具体地, 对文字区域和非文字区域使用逐像素的L1损失函数。
文字损失函数LT,其公式表示为式(3):
LT=αLtext+βLno-text (3)
其中,Ltext代表文字区域的文字损失函数,Lno-text代表非文 字区域的文字损失函数,α和β分别代表文字区域的文字损失和非文字 区域的文字损失在总的文字损失中所占的权重。本发明一个实施例中,α 取值为10,β取值为1,将更多的注意力放在了文字区域的文字损失上。
文字区域的文字损失,其公式表示为式(4):
Ltext(Iout,Igt,Mt)=||Mt⊙(Iout-Igt)||1 (4)
非文字区域的文字损失,其公式表示为式(5):
Lno-text(Iout,Igt,Mt)=||(1-Mt)⊙(Iout-Igt)||1 (5)
其中,Iout代表文字去除模型的输出,Igt为图像对应的无 文字的标签图像,Mt为第t个笔画级二值掩膜的标签,1为与Mt具有相 同形状的值均为1的图像,⊙代表逐像素相乘,||·||1代表L1范数。
因为人眼对图像的亮度变化更为敏感,因此,将目标图像和 对应的标签图像从RGB空间映射到YCrCb颜色空间,然后将亮度通道分 离出来得到Yout和Ygt,对两者使用L1损失函数,从而得到亮度损失函数LY, 其公式表示为式(6):
LY(Yout,Ygt)=||Yout-Ygt||1 (6)
其中,Yout和Ygt为分别将Iout和Igt从RGB空间映射到 YCrCb颜色空间后从亮度通道分离出来的图像,LY(Yout,Ygt)代表Yout和 Ygt之间的亮度损失,||·||1代表L1范数。。
本实施例的基于门循环单元的图像文字去除方法的笔画级 二值掩膜生成模型和文字去除模型,在应用前需要通过训练样本进行训 练,训练样本包括成对的带文字的原始图像、没有文字的干净的标签图 像和文字区域掩膜图像,训练时分别从带文字的原始图像样本集、没有 文字的干净的标签图像样本集和文字区域掩膜图像样本集中提取特定数 量的样本构成样本集合对模型进行训练。
本发明基于门循环单元的图像文字去除方法还包括图像文 字去除效果评估和模型更新的步骤,其方法为:
将待处理图像对应的无文字标签图像和通过上述的基于门 循环单元的图像文字去除方法获取的待处理图像对应的文字去除后的图 像输入鉴别器,获得用于指示图像之间差异的评估结果:
若所述评估结果大于设定阈值,则调整模型结构和参数,并 重新进行笔画级二值掩膜生成模型和文字去除模型的训练,直至达到设 定的训练结束条件,获得更新后的笔画级二值掩膜生成模型和文字去除 模型。
为了证明本发明基于门循环单元的图像文字去除方法的优 越性,本发明进行了实验验证,实验所使用的硬件环境为: Intel(R)Xeon(R)E5-2690 v4 2.60GHz的CPU,NVIDIA TITAN RTX(24G 显存),256G的内存;实验所使用的软件环境为:Ubuntu16.04.6LTS 的操作系统,Tensorflow 1.13.1的深度学习框架,V10.0版本的CUDA, 尺寸为256×256的输入图片。
对于图像文字去除任务,实验需要成对的带文字的原始图像 和没有文字的干净的标签图像以及文字区域掩膜图像来训练模型,然而, 在自然场景中很难同时获得这种成对的数据。本发明使用的实验数据来 源分为两类,第一类使用文字合成方法来获取大量训练数据,这种合成 的训练数据,虽然能模拟真实场景中的文字,但是始终和真实环境下带文字的图像是有差异的。因此,本发明构建了一种类真实的数据集,具 体地是从ICDAR2017MLT(Nayef N,Yin F,Bizid I,et al.ICDAR2017 robust reading challenge on multi-lingual scene text detection and script identification-rrc-mlt[C]//2017 14thIAPR International Conference on Document Analysis and Recognition(ICDAR).IEEE,2017,1:1454-1459.) 数据集中收集了5,070张真实环境中带文字的图像,这些图像采集自各种 各样的场景,并且包含多种语言文字,同时本发明从日常的生活环境中, 拍摄了1,970张照片,然后将搜集的带文字的真实图片去除掉文字得到干 净的标签图像,通过该方法获得7,040组真实的训练数据,与此同时为了 增加数据集的多样性,本发明也使用文字合成的方法合成了4,000组高真 实感的数据,最终,本发明使用的训练集数据总共是11,040组。对于测 试集,本发明另外准备了1,080组真实数据和1,000组合成数据。
本发明和不同网络变体结构算法Scene text eraser(以下简称 为STE),EnsNet,MTR进行对比分析。其中EnsNet使用的是官方提供的 源代码进行训练和测试,而STE和MTR算法的复现是严格按照其论文所 述方法进行训练和测试。
为了保证公平,所有模型都训练到收敛。其中,EnsNet和 STE方法没有使用文字区域掩膜,所以模型无法准确地知道需要去除的 文字的区域,得到的结果会有明显的文字轮廓和文字笔画的残留,而本 发明方法能将文字去除的很干净。
另外,MTR方法虽然使用了文字区域掩膜,但是这种掩膜 覆盖的区域较大,所以会出现明显的过平滑现象,导致在视觉感受上和 周围背景不一致。而本发明方法因为能得到笔画级的二值掩膜,所以能 更好地利用文字笔画之间、文字和文字之间的有用信息,从而在图像的 细节恢复上取得很好的效果。
表1是本发明基于门循环单元的图像文字去除方法一种实 施例的本发明方法与不同网络变体结构算法在测试集上的图像质量指标 和文字检测指标对比:
表1
从表1中可看出,本发明方法在图像质量指标(PSNR、SSIM) 和文字检测指标(R、P、F)上均表现最好,证明了本发明的图像文字去 除方法的优越性。
如图5所示,为本发明基于门循环单元的图像文字去除方法 一种实施例的本发明方法与不同网络变体结构算法在测试集上的结果对 比图,可以看出,本发明的方法能很好地还原出背景图像的结构,这些 结果表明,在文字区域掩膜的基础上,通过检测笔画级二值掩膜,能在 引导模型去除文字区域的内容的同时,还能更好地保留非文字区域的信 息,从而得到细节更丰富、图像结构更为合理的结果。
为了比较笔画级二值掩膜对图像文字去除效果的影响,本发 明在保持输入数据和其他训练参数不变的条件下,分别进行了如下两组 实验:(1)使用生成器和鉴别器网络对图像文字进行去除,用TE_GD表示; (2)在(1)的基础上,加上笔画级二值掩膜生成模块,用TE_GDM表示。
如图6所示,为本发明基于门循环单元的图像文字去除方法 一种实施例的笔画级二值掩膜在生成器和鉴别器网络中的应用效果对比 图,从第二列展示的结果可看出,TE_GD在文字区域较大的情况下,出 现颜色混乱和过平滑的现象,对非文字区域的细节保留的不理想,而第 三列的结果明显优于TE_GD。
表2本发明基于门循环单元的图像文字去除方法一种实施 例的笔画级二值掩膜在生成器和鉴别器网络中的应用效果指标对比:
表2
方法 | PSNR/dB | SSIM | R | P | F |
TE_GD | 34.48 | 0.9650 | 0.52 | 15.84 | 1.00 |
TE_GDM | 37.57 | 0.9663 | 0.48 | 14.36 | 0.93 |
从表2中可以看出,添加了笔画级二值掩膜后,在图像质量 指标(PSNR、SSIM)和文字检测指标(R、P、F)上的指标均有提升。
如图7所示,为本发明基于门循环单元的图像文字去除方法 一种实施例的本发明方法与MTR方法进行部分文字去除的效果对比图, 其中矩形框中的文字是需要去除的部分.可以看到本发明方法能很好的 去除被选中部分的文字,而未被选中的文字则能很好的保留。
综上所述,本发明结合门循环单元来进行笔画级二值掩膜的 生成,并以此为重要的引导信息,引导文字去除模型对图像的文字进行 去除,在图像文字去除领域具有重要的应用价值。
本发明的第二实施例的基于门循环单元的图像文字去除系 统,基于上述的基于门循环单元的图像文字去除方法,该系统包括以下 模块:
图像获取模块,用于获取带有文字的图像作为待处理图像, 并获取所述待处理图像对应的文字区域掩膜;
笔画级二值掩膜生成模块,用于基于所述待处理图像和文字 区域掩膜通过笔画级二值掩膜生成模型获取所述待处理图像的笔画级二 值掩膜;
特征融合模块,用于进行所述待处理图像、文字区域掩膜和 笔画级二值掩膜的特征融合,获得融合特征;
文字去除模块,用于通过文字去除模型对所述融合特征进行 编码和解码,获得文字去除后的图像。
所属技术领域的技术人员可以清楚地了解到,为描述的方便 和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方 法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于门循环单元的图像文 字去除系统,仅以上述各功能模块的划分进行举例说明,在实际应用中, 可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明 实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可 以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称, 仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序, 所述程序适于由处理器加载并执行以实现上述的基于门循环单元的图像 文字去除方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置; 处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序 适于由处理器加载并执行以实现上述的基于门循环单元的图像文字去除 方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便 和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明, 可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施 例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者 二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储 器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程 ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的 任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换 性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。 这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定 应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不 同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是 用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包 含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包 括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过 程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技 术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然 不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域 技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换 之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种基于门循环单元的图像文字去除方法,其特征在于,该方法包括以下步骤:
步骤S100,获取带有文字的图像作为待处理图像,并获取所述待处理图像对应的文字区域掩膜;
步骤S200,基于一个或多个串联的逆残差模块和门循环单元构建笔画级二值掩膜生成模型,并基于所述待处理图像和文字区域掩膜通过所述笔画级二值掩膜生成模型获取所述待处理图像的笔画级二值掩膜;
步骤S300,进行所述待处理图像、文字区域掩膜和笔画级二值掩膜的特征融合,获得融合特征;
步骤S400,基于一个或多个编码器、一个或多个解码器以及特征处理模块构建文字去除模型,并通过所述文字去除模型对所述融合特征进行编码和解码,获得文字去除后的图像。
2.根据权利要求1所述的基于门循环单元的图像文字去除方法,其特征在于,所述逆残差模块包括一个或者多个逆残差结构;
所述逆残差结构包括顺次连接的一个核为1×1的点卷积层,一个核为3×3的深度卷积层和一个核为1×1的点卷积层。
3.根据权利要求1所述的基于门循环单元的图像文字去除方法,其特征在于,所述的门循环单元包括更新门和重置门;
所述更新门包括顺次连接的一个核为1×1的卷积层和一个sigmoid激活函数;
所述重置门包括顺次连接的一个核为1×1的卷积层和一个sigmoid激活函数。
4.根据权利要求1所述的基于门循环单元的图像文字去除方法,其特征在于,步骤S200中基于所述待处理图像和文字区域掩膜通过所述笔画级二值掩膜生成模型获取所述待处理图像的笔画级二值掩膜,其方法为:
步骤S210,进行所述待处理图像和文字区域掩膜的特征融合,并通过所述笔画级二值掩膜生成模型中的逆残差模块进行融合后的特征的高维特征提取,获得逆残差特征;
步骤S220,通过所述笔画级二值掩膜生成模型中的门循环单元在所述逆残差特征的前后关系上进行建模,获得待处理图像的笔画级二值掩膜。
6.根据权利要求1所述的基于门循环单元的图像文字去除方法,其特征在于,所述的文字去除模型为U型网络,包括一个或多个编码器、一个或多个解码器以及特征处理模块;
所述编码器为一个下采样模块,包括一个或者多个卷积层,用于对文字去除模型的输入特征进行编码;
所述特征处理模块包括一个或者多个卷积层,用于对编码器编码后的特征进行深度特征提取;
所述解码器为一个上采样模块,包括一个或者多个卷积层,用于对特征处理模块深度特征提取后的特征进行解码。
7.根据权利要求6所述的基于门循环单元的图像文字去除方法,其特征在于,步骤S400中通过所述文字去除模型对所述融合特征进行编码和解码,获得文字去除后的图像,其方法为:
步骤S410,通过所述文字去除模型中的编码器对所述融合特征进行下采样的编码,获得第一特征信息;
步骤S420,通过所述文字去除模型中的特征处理模块对所述第一特征信息进行深度特征提取,获得第二特征信息;
步骤S430,通过所述文字去除模型中的解码器对所述第二特征信息进行上采样的解码,获得文字去除后的图像。
8.根据权利要求7所述的基于门循环单元的图像文字去除方法,其特征在于,所述文字去除模型的训练过程中的损失函数包括文字损失函数LT和图像亮度损失函数LY;
所述文字损失函数LT,其公式表示为:
LT=αLtext+βLno-text
Ltext(Iout,Igt,Mt)=||Mt⊙(Iout-Igt)||1
Lno-text(Iout,Igt,Mt)=||(1-Mt)⊙(Iout-Igt)||1
其中,Ltext代表文字区域的文字损失函数,Lno-text代表非文字区域的文字损失函数,Iout代表文字去除模型的输出,Igt为图像对应的无文字的标签图像,Mt为第t个笔画级二值掩膜的标签,1为与Mt具有相同形状的值均为1的图像,⊙代表逐像素相乘,α和β分别代表文字区域的文字损失和非文字区域的文字损失在总的文字损失中所占的权重;
所述亮度损失函数为:
LY(Yout,Ygt)=||Yout-Ygt||1
其中,Yout和Ygt为分别将Iout和Igt从RGB空间映射到YCrCb颜色空间后从亮度通道分离出来的图像,LY(Yout,Ygt)代表Yout和Ygt之间的亮度损失,||·||1代表L1范数。
9.根据权利要求1-8任一项所述的基于门循环单元的图像文字去除方法,其特征在于,该方法还包括图像文字去除效果评估和模型更新的步骤,其方法为:
将待处理图像对应的无文字标签图像和通过1-8任一项所述的基于门循环单元的图像文字去除方法获取的待处理图像对应的文字去除后的图像输入鉴别器,获得用于指示图像之间差异的评估结果:
若所述评估结果大于设定阈值,则调整模型结构和参数,并重新进行笔画级二值掩膜生成模型和文字去除模型的训练,直至达到设定的训练结束条件,获得更新后的笔画级二值掩膜生成模型和文字去除模型。
10.一种基于门循环单元的图像文字去除系统,其特征在于,基于权利要求1-8任一项所述的基于门循环单元的图像文字去除方法,该系统包括以下模块:
图像获取模块,用于获取带有文字的图像作为待处理图像,并获取所述待处理图像对应的文字区域掩膜;
笔画级二值掩膜生成模块,用于基于所述待处理图像和文字区域掩膜通过笔画级二值掩膜生成模型获取所述待处理图像的笔画级二值掩膜;
特征融合模块,用于进行所述待处理图像、文字区域掩膜和笔画级二值掩膜的特征融合,获得融合特征;
文字去除模块,用于通过文字去除模型对所述融合特征进行编码和解码,获得文字去除后的图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011216320.2A CN112419174B (zh) | 2020-11-04 | 2020-11-04 | 基于门循环单元的图像文字去除方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011216320.2A CN112419174B (zh) | 2020-11-04 | 2020-11-04 | 基于门循环单元的图像文字去除方法、系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112419174A CN112419174A (zh) | 2021-02-26 |
CN112419174B true CN112419174B (zh) | 2022-09-20 |
Family
ID=74827952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011216320.2A Active CN112419174B (zh) | 2020-11-04 | 2020-11-04 | 基于门循环单元的图像文字去除方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112419174B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113628127B (zh) * | 2021-07-09 | 2023-11-17 | 中国科学院自动化研究所 | 文字图像高光去除、文字识别方法及装置 |
CN113553797A (zh) * | 2021-08-04 | 2021-10-26 | 哈尔滨工业大学 | 一种端到端的风格一致的文字图像生成方法 |
CN114331903B (zh) * | 2021-12-31 | 2023-05-12 | 电子科技大学 | 一种图像修复方法及存储介质 |
CN115862030B (zh) * | 2023-02-24 | 2023-05-16 | 城云科技(中国)有限公司 | 清除图像中文本的算法模型及其构建方法、装置及应用 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013016168A (ja) * | 2011-06-30 | 2013-01-24 | Fujitsu Ltd | 画像におけるテキスト領域を位置決めする方法及び装置 |
CN108492281A (zh) * | 2018-03-06 | 2018-09-04 | 陕西师范大学 | 一种基于生成式对抗网络的桥梁裂缝图像障碍物检测与去除的方法 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
-
2020
- 2020-11-04 CN CN202011216320.2A patent/CN112419174B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013016168A (ja) * | 2011-06-30 | 2013-01-24 | Fujitsu Ltd | 画像におけるテキスト領域を位置決めする方法及び装置 |
CN108492281A (zh) * | 2018-03-06 | 2018-09-04 | 陕西师范大学 | 一种基于生成式对抗网络的桥梁裂缝图像障碍物检测与去除的方法 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
Non-Patent Citations (2)
Title |
---|
EraseNet: End-to-End Text Removal in the Wild;Chongyu Liu 等;《IEEE Transactions on Image Processing》;20200828;第29卷;全文 * |
结合门循环单元和生成对抗网络的图像文字去除;王超群 等;《中国图像图形学报》;20220428;第27卷(第4期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112419174A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112419174B (zh) | 基于门循环单元的图像文字去除方法、系统及装置 | |
Elharrouss et al. | Image inpainting: A review | |
CN112200750B (zh) | 一种超声图像去噪模型建立方法及超声图像去噪方法 | |
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
Mittal et al. | Sync-draw: Automatic video generation using deep recurrent attentive architectures | |
CN113569865B (zh) | 一种基于类别原型学习的单样本图像分割方法 | |
CN109447137B (zh) | 一种基于分解因子的图像局部风格迁移方法 | |
Anvari et al. | Dehaze-GLCGAN: unpaired single image de-hazing via adversarial training | |
Guo et al. | Shadowformer: Global context helps image shadow removal | |
Ju et al. | Fusing global and local features for generalized ai-synthesized image detection | |
CN104077742B (zh) | 基于Gabor特征的人脸素描合成方法及系统 | |
Wang et al. | Multiscale deep alternative neural network for large-scale video classification | |
CN111127354A (zh) | 一种基于多尺度字典学习的单图像去雨方法 | |
Yang et al. | Diffusion model as representation learner | |
CN115393396B (zh) | 一种基于掩码预训练的无人机目标跟踪方法 | |
Khan et al. | Face segmentation: A journey from classical to deep learning paradigm, approaches, trends, and directions | |
CN113379597A (zh) | 人脸超分辨率重构方法 | |
CN114973383A (zh) | 一种微表情识别方法、装置、电子设备及存储介质 | |
CN113689434A (zh) | 一种基于条带池化的图像语义分割方法 | |
Fan et al. | Global sensing and measurements reuse for image compressed sensing | |
Guo et al. | ShadowFormer: Global context helps shadow removal | |
Gao | A method for face image inpainting based on generative adversarial networks | |
Wang et al. | Coarse-to-fine image dehashing using deep pyramidal residual learning | |
Zhang et al. | Deciphering'What'and'Where'Visual Pathways from Spectral Clustering of Layer-Distributed Neural Representations | |
CN115393491A (zh) | 一种基于实例分割和参考帧的水墨视频生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |