CN112733861B - 基于u型残差网络的文本擦除和抠字方法 - Google Patents

基于u型残差网络的文本擦除和抠字方法 Download PDF

Info

Publication number
CN112733861B
CN112733861B CN202110117567.7A CN202110117567A CN112733861B CN 112733861 B CN112733861 B CN 112733861B CN 202110117567 A CN202110117567 A CN 202110117567A CN 112733861 B CN112733861 B CN 112733861B
Authority
CN
China
Prior art keywords
image
module
relu
residual error
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110117567.7A
Other languages
English (en)
Other versions
CN112733861A (zh
Inventor
许勇
余博西
黄艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110117567.7A priority Critical patent/CN112733861B/zh
Publication of CN112733861A publication Critical patent/CN112733861A/zh
Application granted granted Critical
Publication of CN112733861B publication Critical patent/CN112733861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了基于U型残差网络的文本擦除和抠字方法,方法包括以下步骤:构建训练集及标准答案图,制造含文字的自然场景图像,生成标准答案图;训练集预处理;提取特征,将含文字的自然场景图片输入U型残差网络进行训练,提取信息;图像重构,将多个U型残差网络的输出特征进行拼接后,通过残差连接保留图像的低频信息,结合经过自动编码器解析的高频信息,输出图像;深层监督,优化U型残差网络;循环训练网络,直至得到所需标准。本发明基于U型残差网络和自动编码器的架构,解决了文本图像定位和图像域变换的基本问题,可以应对复杂文本的文本擦除和扣字。

Description

基于U型残差网络的文本擦除和抠字方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于U型残差网络的文本擦除和抠字方法。
背景技术
目前,场景文字编辑面临两个主要挑战:文字样式转移和背景纹理保留。特别是文字样式由多种因素组成,例如语言,字体,颜色,方向,笔触大小和空间角度,使得难以精确捕获源代码中的完整文本样式;同时,也难以保持编辑背景的一致性,尤其是当文本出现在某些复杂的场景,例如菜单和街头商店的标志时。
深度学习中的自动编码器能够实现图像域的风格转换,这一技术很大程度地加深了图像自动编辑的研究。但是图像的低频信息在经过多层神经网络的时候会有非常大的损失。而U型残差网络很好地解决了这个问题,它给自动编码器添加了网络跳跃连接,从而能够将低频信息通过跳跃连接的方式传递到神经网络后面的层中。
另外,生成对抗网络(GAN)和像素到像素的风格迁移方法极大的加速了不同文字的风格迁移的研究,但是专门针对于在场景中直接编辑文字,而不是编辑一些独立于背景中的文字的研究则很少,难度也十分大。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提出一种基于U型残差网络的文本擦除和抠字方法,方法基于U型残差网络和自动编码器的架构,解决了文本图像定位和图像域变换的基本问题,可以很好地应对复杂文本的文本擦除和扣字功能。
为了达到上述目的,本发明采用以下技术方案:
基于U型残差网络的文本擦除和抠字方法,包括以下步骤:
构建训练集及标准答案图,利用已有的自然图像库,结合图像RGB通道叠加和掩膜叠加技术,合成含文字的自然场景图像,并生成后续U型残差网络训练的标准答案图;
训练集预处理,从训练集中随机选取图像对,进行变换、切片以及正则化操作;
提取特征,将含文字的自然场景图像输入U型残差网络进行训练,提取能表达场景中文字位置和形状信息的掩膜,使用该掩膜与原本输入场景中的含文字的自然场景图片组成六通道的张量,将其输入U型残差网络并提取信息;
图像重构,将U型残差网络多个输出特征进行拼接后,通过残差连接保留图像的低频信息,结合经过自动编码器解析的高频信息,输出图像;
深层监督,使用在合成的标准答案图对U型残差网络输出图像进行判别,使用GAN进行对抗损失计算,优化U型残差网络;
循环执行提取特征、图像重构以及深层监督步骤,直至U型残差网络输出图像达到实际使用所需标准,将U型残差网络用于实际文本擦除和抠字。
进一步的,所述训练集具体通过以下方式构建:
收集含有纹理的图像数据集以增加背景和文字纹理的种类;
使用python语言生成文本的掩膜并使用计算机图形学的操作制作不同形态的掩膜,结合计算机图形学的渲染功能制造文本纹理;使用图像的RGB通道叠加自然的纹理制造出含文字的自然场景图像。
进一步的,所述预处理具体为:
随机选取训练数据集的图像对,将图像对进行变换操作,所述变换操作包括旋转、放大以及缩小;
随机切取图像对,对图像进行切片,得到裁剪后为64*128大小的图像块,并将图像对进行正则化处理。
进一步的,正则化处理具体为:
对输入图像进行归一化处理,对于输入图像I:
Inorm=I/255
其中,Inorm为归一化后图像。
进一步的,所述U型残差网络由自动编码器Module0、Module1以及Module2残差连接组成;
所述Module0具体包括6个C-BN-RELU模块以及1个残差模块Res-Block,Res-Block设置在6个C-BN-RELU模块中间,左右各3个C-BN-RELU模块;
所述Module0、Module1以及Module2具有相同的结构;
所述C-BN-RELU模块具体包含一个卷积层,卷积层的卷积核大小为3*3,步长为1,卷积层后面接一个批量归一化层,批量归一化层之后接一个激活函数RELU;
所述残差模块Res-Block包括四个卷积层,首尾有残差连接保留低频信息。
进一步的,提取特征具体包括以下步骤:
使用自动编码器Module0生成图像特征Image3,输入图像Image0将Iamge0经过一个卷积核大小为3*3,步长为1的卷积层conv0,得到输出特征X0;
将X0输入第一个C-BN-RELU模块中,该C-BN-RELU模块的输出特征拷贝一份X1拷贝一份进入到第二个C-BN-RELU模块,额外拷贝一份与第六个C-BN-RELU模块进行通道合并,然后输出最终的图像;
将X1输入第二个C-BN-RELU模块中,该C-BN-RELU模块的输出特征X2进入到第二个C-BN-RELU模块,额外拷贝一份与第五个C-BN-RELU模块进行通道合并;
将X2输入第三个C-BN-RELU中,C-BN-RELU模块的输出特征X3拷贝一份进入到Res-Block模块,额外拷贝一份与第四个C-BN-RELU模块进行通道合并;
将X3输入残差模块Res-Block中,最终输出X4进入第四个C-BN-RELU模块;
将特征X4与X3进行通道合并输入第四个C-BN-RELU模块中,第四个C-BN-RELU模块的输出特征X5;
将特征X5与X2进行通道合并输入第五个C-BN-RELU模块中,第五个C-BN-RELU模块的输出特征X6;
将特征X6与X1进行通道合并输入第六个C-BN-RELU模块中,第六个C-BN-RELU的输出特征X7;
将输出特征X7输入卷积核大小为3*3,步长为1的卷积层Conv3中,卷积层后接一个RELU激活函数,得到输出图片特征Image3;
所述自动编码器Module1和Module2提取特征步骤与Module0相同。
进一步的,进行图像重构具体为:
将得到的图像特征Image3分别与另外两个输入图像Image1和Image2组成六通道特征张量,将两个六通道特征张量分别输入到独立参数的Module1和Module2;
其中,输入图像Image0、Image1以及Image2相同;
经过Module1和Module2提取特征后,分别得到图像特征Image4和Image5;
所述Module0的输出特征Image3,为输入图像中文本的掩膜,所述Module1的输出特征Image4为抠出来的文本,所述Module2的输出特征Image5为擦除文本后的场景背景;
将输出特征Image3、Image4以及Image5拼接后,得到3通道的彩色图像,即最终复原的图像。
进一步的,所述U型残差网络架构自动编码器的每个module采用同样的损失函数,为生成损失GANLOSS+L1损失L1LOSS,从而保证对低频和高频信息同等效力的判别。
进一步的,所述生成损失GANLOSS具体表示为:
logD(I标准答案,I输入图像)]+log[1-D(I输出图像,I输入图像)],
其中,D为判别器,采用二进制交叉熵函数,判断输入的六通道张量是否为真;I标准答案为标准答案图,I输入图像为输入图像;
所述L1损失L1LOSS具体表示为:
|I输出图像-I标准答案|1
进一步的,所述深监督具体为:
在损失函数中,对每个模块的输出都与标准答案图求均方差,然后将梯度反向传播到U型残差网络中。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明可以很好地应对复杂文本的文本擦除和扣字功能,目前的方法仅仅能够处理纯色的文本。
2、本发明引入批量归一化来克服梯度消失问题,在每一个卷积层之后,采用的是批量归一化,主要是为了在网络加深的时候,避免梯度消失的问题。
3、本发明可以很好地保证原图像的细节信息,自动编码器采用了U型残差网络的结构。采用跳跃连接使得低层的特征,即保留了大量细节信息的特征可以传输到网络后面,以免细节信息的过度丢失。
4、本发明采用了基于谱优化的生成对抗网络来使得网络可以找到更优解,网络对输入的多通道张量特征进行判别并监督。谱优化生成对抗网络可以使得网络向着更好的方向去学习。
附图说明
图1是本发明方法的整体流程图;
图2是本发明提取特征和图像重构步骤的流程示意图;
图3是本发明U型残差网络处理图像的流程图;
图4是训练集的图像样本;
图5是U型残差网络的结构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本发明,基于U型残差网络的文本擦除和抠字方法,包括以下步骤:
S1、构建训练集及标准答案图,利用计算机视觉任务中已有的自然图像库,结合图像RGB通道叠加和掩膜叠加等技术,合成含文字的自然场景图像,并生成后续U型残差网络训练的标准答案图,具体为:
收集含有丰富纹理的图像数据集增加背景和文字纹理的种类,使得训练出的模型更加具有鲁棒性;使用python语言生成文本的掩膜并使用计算机图形学的腐蚀变形等制作不同形态的掩膜,结合计算机图形学的渲染功能制造各种丰富的文本纹理;使用图像的RGB通道叠加自然的纹理制造出具有自然纹理特征的文本和背景图,如图4所示。
S2、训练集预处理,具体为:
S21、随机选取训练数据集的图像对,将图像对进行变换,如旋转,放大,缩小;
S22、随机切取图像对,得到裁剪后为64*128的大小的图像块,并将图像对进行正则化处理;
S23、将图像对进行正则化处理,由于图像的取值范围是0-255,网络直接学习[0,255]到[0,255]的映射的话,会比学习[0,1]到[0,1]的映射收敛更慢,因此采用以下的归一化手段,对于输入图像I:
Inorm=I/255
其中,Inorm为归一化后的图像。
S3、提取特征,进行网络训练,具体为:
将含文字的自然场景图片输入U型残差网络进行训练,提取出能表达场景中文字位置和形状信息的掩膜,然后使用该掩膜与原本输入场景中的含文字的自然场景图像组成六通道的张量,将其输入U型残差网络并提取信息。
如图3所示,本实施例中,U型残差网络由三个自动编码器残差连接组成,三个自动编码器分别为Module0、Module1以及Module2;
所述三个自动编码器具体包括6个C-BN-RELU模块以及1个残差模块Res-Block,Res-Block设置在6个C-BN-RELU模块中间,左右各3个C-BN-RELU模块;
所述C-BN-RELU模块具体包含一个卷积层,卷积层的卷积核大小为3*3,步长为1,卷积层后面接一个批量归一化层,批量归一化层之后接一个激活函数RELU;
如图5所示,三个自动编码器的网络机构似U型,故称为U型残差网络的自动编码器,具体为:
所述Module0具体包括C-BN-RELU0、C-BN-RELU1、C-BN-RELU2、C-BN-RELU3、C-BN-RELU4、C-BN-RELU5以及Res-Block0;
所述Module1具体包括C-BN-RELU6、C-BN-RELU7、C-BN-RELU8、C-BN-RELU9、C-BN-RELU10、C-BN-RELU11以及Res-Block1;
所述Module2具体包括C-BN-RELU12、C-BN-RELU13、C-BN-RELU14、C-BN-RELU15、C-BN-RELU16、C-BN-RELU17以及Res-Block2。
如图3所示,提取特征具体为:
三个自动编码器提取特征的步骤相同,下面以Module0生成Image3图像特征为例;
输入图像Image0,Iamge0经过一个卷积核大小为3*3,步长为1的卷积层conv0,得到输出特征X0;
将X0输入C-BN-RELU0模块中,C-BN-RELU0的输出特征拷贝一份X1拷贝一份进入到C-BN-RELU1模块,额外拷贝一份与C-BN-RELU5模块进行通道合并,然后输出最终的图像;
将X1输入C-BN-RELU1模块中,C-BN-RELU1的输出特征X2进入到C-BN-RELU2模块,额外拷贝一份与C-BN-RELU4模块进行通道合并;
将X2输入C-BN-RELU2中,C-BN-RELU2的输出特征X3拷贝一份进入到Res-Block0模块,额外拷贝一份与C-BN-RELU3模块进行通道合并;
将X3输入残差模块Res-Block0中,最终输出X4进入C-BN-RELU3模块;
将特征X4与X3进行通道合并输入C-BN-RELU3模块中,C-BN-RELU3模块的输出特征X5;
将特征X5与X2进行通道合并输入C-BN-RELU4模块中,C-BN-RELU4模块的输出特征X6;
将特征X6与X1进行通道合并输入C-BN-RELU5模块中,C-BN-RELU5的输出特征X7;
特征X7输入卷积核大小为3*3,步长为1的卷积层Conv3中,卷积层后接一个RELU激活函数,得到输出图片特征Image3。
U型残差网络架构自动编码器的每个module采用同样的损失函数,为GANLOSS+L1LOSS,从而保证对低频和高频信息同等效力的判别;
所述GANLOSS具体为:
logD(I标准答案,I输入图像)]+log[1-D(I输出图像,I输入图像)],
其中,D为判别器,采用二进制交叉熵函数,判断输入的六通道张量是否为真;I标准答案为标准答案图,I输入图像为输入图像;
所述L1LOSS具体为:
|I输出图像-I标准答案|1
S4、图像重构,具体为:
如图2所示,将得到的图像特征Image3分别与输入图像Image1和Image2组成六通道特征张量,将两个六通道特征张量分别输入到独立参数的Module1和Module2;
其中,输入图像Image0、Image1以及Image2相同;
经过Module1和Module2提取特征后,分别得到图像特征Image4和Image5;
所述Module0的输出特征Image3,为输入图像中文本的掩膜,所述Module1的输出特征Image4为抠出来的文本,所述Module2的输出特征Image5为擦除文本后的场景背景;
将输出特征Image3、Image4以及Image5拼接后,通过残差连接保留图像的低频信息,结合经过自动编码器解析的高频信息,得到3通道的彩色图像,即最终复原的图像。
S5、使用在合成的标准答案图对生成的仅含文字的图Image4和仅含背景的图Image5进行判别,使用GAN进行对抗损失计算,即深层监督以优化网络参数;
所述深监督具体为在损失函数中,对每个模块的输出都与干净图像求均方差,然后将梯度反向传播到网络中。
S6、循环执行步骤S3-S5,直至U型残差网络输出图像达到所需标准,将U型残差网络用于实际文本擦除和抠字。
还需要说明的是,在本说明书中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.基于U型残差网络的文本擦除和抠字方法,其特征在于,包括以下步骤:
构建训练集及标准答案图,利用已有的自然图像库,结合图像RGB通道叠加和掩膜叠加技术,合成含文字的自然场景图像,并生成后续U型残差网络训练的标准答案图;
训练集预处理,从训练集中随机选取图像对,进行变换、切片以及正则化操作;
提取特征,将含文字的自然场景图像输入U型残差网络进行训练,提取能表达场景中文字位置和形状信息的掩膜,使用该掩膜与原本输入场景中的含文字的自然场景图片组成六通道的张量,将其输入U型残差网络并提取信息;
U型残差网络由自动编码器Module0、Module1以及Module2残差连接组成;
所述Module0具体包括6个C-BN-RELU模块以及1个残差模块Res-Block,Res-Block设置在6个C-BN-RELU模块中间,左右各3个C-BN-RELU模块;
所述Module0、Module1以及Module2具有相同的结构;
所述C-BN-RELU模块具体包含一个卷积层,卷积层的卷积核大小为3*3,步长为1,卷积层后面接一个批量归一化层,批量归一化层之后接一个激活函数RELU;
所述残差模块Res-Block包括四个卷积层,首尾有残差连接保留低频信息;
提取特征具体包括以下步骤:
使用自动编码器Module0生成图像特征Image3,输入图像Image0将Iamge0经过一个卷积核大小为3*3,步长为1的卷积层conv0,得到输出特征X0;
将X0输入第一个C-BN-RELU模块中,该C-BN-RELU模块的输出特征拷贝一份X1拷贝一份进入到第二个C-BN-RELU模块,额外拷贝一份与第六个C-BN-RELU模块进行通道合并,然后输出最终的图像;
将X1输入第二个C-BN-RELU模块中,该C-BN-RELU模块的输出特征X2进入到第二个C-BN-RELU模块,额外拷贝一份与第五个C-BN-RELU模块进行通道合并;
将X2输入第三个C-BN-RELU中,C-BN-RELU模块的输出特征X3拷贝一份进入到Res-Block模块,额外拷贝一份与第四个C-BN-RELU模块进行通道合并;
将X3输入残差模块Res-Block中,最终输出X4进入第四个C-BN-RELU模块;
将特征X4与X3进行通道合并输入第四个C-BN-RELU模块中,第四个C-BN-RELU模块的输出特征X5;
将特征X5与X2进行通道合并输入第五个C-BN-RELU模块中,第五个C-BN-RELU模块的输出特征X6;
将特征X6与X1进行通道合并输入第六个C-BN-RELU模块中,第六个C-BN-RELU的输出特征X7;
将输出特征X7输入卷积核大小为3*3,步长为1的卷积层Conv3中,卷积层后接一个RELU激活函数,得到输出图片特征Image3;
所述自动编码器Module1和Module2提取特征步骤与Module0相同;
图像重构,将U型残差网络多个输出特征进行拼接后,通过残差连接保留图像的低频信息,结合经过自动编码器解析的高频信息,输出图像;
深层监督,使用在合成的标准答案图对U型残差网络输出图像进行判别,使用GAN进行对抗损失计算,优化U型残差网络;
循环执行提取特征、图像重构以及深层监督步骤,直至U型残差网络输出图像达到实际使用所需标准,将U型残差网络用于实际文本擦除和抠字。
2.根据权利要求1所述的基于U型残差网络的文本擦除和抠字方法,其特征在于,所述训练集具体通过以下方式构建:
收集含有纹理的图像数据集以增加背景和文字纹理的种类;
使用python语言生成文本的掩膜并使用计算机图形学的操作制作不同形态的掩膜,结合计算机图形学的渲染功能制造文本纹理;使用图像的RGB通道叠加自然的纹理制造出含文字的自然场景图像。
3.根据权利要求1所述的基于U型残差网络的文本擦除和抠字方法,其特征在于,所述预处理具体为:
随机选取训练数据集的图像对,将图像对进行变换操作,所述变换操作包括旋转、放大以及缩小;
随机切取图像对,对图像进行切片,得到裁剪后为64*128大小的图像块,并将图像对进行正则化处理。
4.根据权利要求3所述的基于U型残差网络的文本擦除和抠字方法,其特征在于,正则化处理具体为:
对输入图像进行归一化处理,对于输入图像I:
Inorm=I/255
其中,Inorm为归一化后图像。
5.根据权利要求1所述的基于U型残差网络的文本擦除和抠字方法,其特征在于,进行图像重构具体为:
将得到的图像特征Image3分别与另外两个输入图像Image1和Image2组成六通道特征张量,将两个六通道特征张量分别输入到独立参数的Module1和Module2;
其中,输入图像Image0、Image1以及Image2相同;
经过Module1和Module2提取特征后,分别得到图像特征Image4和Image5;
所述Module0的输出特征Image3,为输入图像中文本的掩膜,所述Module1的输出特征Image4为抠出来的文本,所述Module2的输出特征Image5为擦除文本后的场景背景;
将输出特征Image3、Image4以及Image5拼接后,得到3通道的彩色图像,即最终复原的图像。
6.根据权利要求5所述的基于U型残差网络的文本擦除和抠字方法,其特征在于,所述U型残差网络架构自动编码器的每个module采用同样的损失函数,为生成损失GANLOSS+L1损失L1LOSS,从而保证对低频和高频信息同等效力的判别。
7.根据权利要求6所述的基于U型残差网络的文本擦除和抠字方法,其特征在于,所述生成损失GANLOSS具体表示为:
logD(I标准答案,I输入图像)]+log[1-D(I输出图像,I输入图像)],
其中,D为判别器,采用二进制交叉熵函数,判断输入的六通道张量是否为真;I标准答案为标准答案图,I输入图像为输入图像;
所述L1损失L1LOSS具体表示为:
|I输出图像-I标准答案|1
8.根据权利要求6所述的基于U型残差网络的文本擦除和抠字方法,其特征在于,所述深层监督具体为:
在损失函数中,对每个模块的输出都与标准答案图求均方差,然后将梯度反向传播到U型残差网络中。
CN202110117567.7A 2021-01-28 2021-01-28 基于u型残差网络的文本擦除和抠字方法 Active CN112733861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110117567.7A CN112733861B (zh) 2021-01-28 2021-01-28 基于u型残差网络的文本擦除和抠字方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110117567.7A CN112733861B (zh) 2021-01-28 2021-01-28 基于u型残差网络的文本擦除和抠字方法

Publications (2)

Publication Number Publication Date
CN112733861A CN112733861A (zh) 2021-04-30
CN112733861B true CN112733861B (zh) 2022-04-22

Family

ID=75594367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110117567.7A Active CN112733861B (zh) 2021-01-28 2021-01-28 基于u型残差网络的文本擦除和抠字方法

Country Status (1)

Country Link
CN (1) CN112733861B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553797A (zh) * 2021-08-04 2021-10-26 哈尔滨工业大学 一种端到端的风格一致的文字图像生成方法
CN116051686B (zh) * 2023-01-13 2023-08-01 中国科学技术大学 图上文字擦除方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463786A (zh) * 2014-12-03 2015-03-25 中国科学院自动化研究所 一种移动机器人图像拼接方法及装置
CN111062892A (zh) * 2019-12-26 2020-04-24 华南理工大学 一种基于复合残差网络和深层监督的单幅图像去雨方法
CN111524205A (zh) * 2020-04-23 2020-08-11 北京信息科技大学 基于循环生成对抗网络的图像着色处理方法及装置
CN111784560A (zh) * 2019-04-04 2020-10-16 复旦大学 基于级联残差生成对抗网络的sar和光学图像双向翻译方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11232541B2 (en) * 2018-10-08 2022-01-25 Rensselaer Polytechnic Institute CT super-resolution GAN constrained by the identical, residual and cycle learning ensemble (GAN-circle)
CN110378334B (zh) * 2019-06-14 2023-04-18 华南理工大学 一种基于二维特征注意力机制的自然场景文本识别方法
AU2020101229A4 (en) * 2020-07-02 2020-08-06 South China University Of Technology A Text Line Recognition Method in Chinese Scenes Based on Residual Convolutional and Recurrent Neural Networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463786A (zh) * 2014-12-03 2015-03-25 中国科学院自动化研究所 一种移动机器人图像拼接方法及装置
CN111784560A (zh) * 2019-04-04 2020-10-16 复旦大学 基于级联残差生成对抗网络的sar和光学图像双向翻译方法
CN111062892A (zh) * 2019-12-26 2020-04-24 华南理工大学 一种基于复合残差网络和深层监督的单幅图像去雨方法
CN111524205A (zh) * 2020-04-23 2020-08-11 北京信息科技大学 基于循环生成对抗网络的图像着色处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向图像复原的残差密集生成对抗网络新方法;李烨 等;《小型微型计算机系统》;20200430;第40卷(第4期);第830-836页 *

Also Published As

Publication number Publication date
CN112733861A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN110322495B (zh) 一种基于弱监督深度学习的场景文本分割方法
CN109190722B (zh) 基于满文字符图片的字体风格迁移变换方法
CN108805015B (zh) 加权卷积自编码长短期记忆网络人群异常检测方法
CN112308860A (zh) 基于自监督学习的对地观测图像语义分割方法
CN112070158B (zh) 一种基于卷积神经网络和双边滤波的面部瑕疵检测方法
Kadam et al. Detection and localization of multiple image splicing using MobileNet V1
CN112733861B (zh) 基于u型残差网络的文本擦除和抠字方法
CN115601549A (zh) 基于可变形卷积和自注意力模型的河湖遥感图像分割方法
CN110866938B (zh) 一种全自动视频运动目标分割方法
CN117079139B (zh) 一种基于多尺度语义特征的遥感图像目标检测方法及系统
Liu et al. Discovering Distinctive" Semantics" in Super-Resolution Networks
CN115311130A (zh) 一种多风格中国书法文字图像风格迁移方法、系统及终端
CN116740527A (zh) U型网络与自注意力机制结合的遥感图像变化检测方法
CN112884758A (zh) 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统
CN113052759B (zh) 基于mask和自动编码器的场景复杂文本图像编辑方法
CN112418235A (zh) 一种基于膨胀最近邻特征增强的点云语义分割方法
CN117409192B (zh) 一种基于数据增强的红外小目标检测方法及装置
Gao A method for face image inpainting based on generative adversarial networks
Shit et al. An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection
Lai et al. Generative focused feedback residual networks for image steganalysis and hidden information reconstruction
CN113554655B (zh) 基于多特征增强的光学遥感图像分割方法及装置
CN115909378A (zh) 单据文本检测模型的训练方法及单据文本检测方法
CN114708591A (zh) 基于单字连接的文档图像中文字符检测方法
CN114581789A (zh) 一种高光谱图像分类方法及系统
CN113688715A (zh) 面部表情识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant