CN112733861B

CN112733861B - 基于u型残差网络的文本擦除和抠字方法

Info

Publication number: CN112733861B
Application number: CN202110117567.7A
Authority: CN
Inventors: 许勇; 余博西; 黄艳
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2022-04-22
Anticipated expiration: 2041-01-28
Also published as: CN112733861A

Abstract

本发明公开了基于U型残差网络的文本擦除和抠字方法，方法包括以下步骤：构建训练集及标准答案图，制造含文字的自然场景图像，生成标准答案图；训练集预处理；提取特征，将含文字的自然场景图片输入U型残差网络进行训练，提取信息；图像重构，将多个U型残差网络的输出特征进行拼接后，通过残差连接保留图像的低频信息，结合经过自动编码器解析的高频信息，输出图像；深层监督，优化U型残差网络；循环训练网络，直至得到所需标准。本发明基于U型残差网络和自动编码器的架构，解决了文本图像定位和图像域变换的基本问题，可以应对复杂文本的文本擦除和扣字。

Description

基于U型残差网络的文本擦除和抠字方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于U型残差网络的文本擦除和抠字方法。

背景技术

目前，场景文字编辑面临两个主要挑战：文字样式转移和背景纹理保留。特别是文字样式由多种因素组成，例如语言，字体，颜色，方向，笔触大小和空间角度，使得难以精确捕获源代码中的完整文本样式；同时，也难以保持编辑背景的一致性，尤其是当文本出现在某些复杂的场景，例如菜单和街头商店的标志时。

深度学习中的自动编码器能够实现图像域的风格转换，这一技术很大程度地加深了图像自动编辑的研究。但是图像的低频信息在经过多层神经网络的时候会有非常大的损失。而U型残差网络很好地解决了这个问题，它给自动编码器添加了网络跳跃连接，从而能够将低频信息通过跳跃连接的方式传递到神经网络后面的层中。

另外，生成对抗网络(GAN)和像素到像素的风格迁移方法极大的加速了不同文字的风格迁移的研究，但是专门针对于在场景中直接编辑文字，而不是编辑一些独立于背景中的文字的研究则很少，难度也十分大。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提出一种基于U型残差网络的文本擦除和抠字方法，方法基于U型残差网络和自动编码器的架构，解决了文本图像定位和图像域变换的基本问题，可以很好地应对复杂文本的文本擦除和扣字功能。

为了达到上述目的，本发明采用以下技术方案：

基于U型残差网络的文本擦除和抠字方法，包括以下步骤：

构建训练集及标准答案图，利用已有的自然图像库，结合图像RGB通道叠加和掩膜叠加技术，合成含文字的自然场景图像，并生成后续U型残差网络训练的标准答案图；

训练集预处理，从训练集中随机选取图像对，进行变换、切片以及正则化操作；

提取特征，将含文字的自然场景图像输入U型残差网络进行训练，提取能表达场景中文字位置和形状信息的掩膜，使用该掩膜与原本输入场景中的含文字的自然场景图片组成六通道的张量，将其输入U型残差网络并提取信息；

图像重构，将U型残差网络多个输出特征进行拼接后，通过残差连接保留图像的低频信息，结合经过自动编码器解析的高频信息，输出图像；

深层监督，使用在合成的标准答案图对U型残差网络输出图像进行判别，使用GAN进行对抗损失计算，优化U型残差网络；

循环执行提取特征、图像重构以及深层监督步骤，直至U型残差网络输出图像达到实际使用所需标准，将U型残差网络用于实际文本擦除和抠字。

进一步的，所述训练集具体通过以下方式构建：

收集含有纹理的图像数据集以增加背景和文字纹理的种类；

使用python语言生成文本的掩膜并使用计算机图形学的操作制作不同形态的掩膜，结合计算机图形学的渲染功能制造文本纹理；使用图像的RGB通道叠加自然的纹理制造出含文字的自然场景图像。

进一步的，所述预处理具体为：

随机选取训练数据集的图像对，将图像对进行变换操作，所述变换操作包括旋转、放大以及缩小；

随机切取图像对，对图像进行切片，得到裁剪后为64*128大小的图像块，并将图像对进行正则化处理。

进一步的，正则化处理具体为：

对输入图像进行归一化处理，对于输入图像I：

I_norm＝I/255

其中，I_norm为归一化后图像。

进一步的，所述U型残差网络由自动编码器Module0、Module1以及Module2残差连接组成；

所述Module0具体包括6个C-BN-RELU模块以及1个残差模块Res-Block，Res-Block设置在6个C-BN-RELU模块中间，左右各3个C-BN-RELU模块；

所述Module0、Module1以及Module2具有相同的结构；

所述C-BN-RELU模块具体包含一个卷积层，卷积层的卷积核大小为3*3，步长为1，卷积层后面接一个批量归一化层，批量归一化层之后接一个激活函数RELU；

所述残差模块Res-Block包括四个卷积层，首尾有残差连接保留低频信息。

进一步的，提取特征具体包括以下步骤：

使用自动编码器Module0生成图像特征Image3，输入图像Image0将Iamge0经过一个卷积核大小为3*3，步长为1的卷积层conv0，得到输出特征X0；

将X0输入第一个C-BN-RELU模块中，该C-BN-RELU模块的输出特征拷贝一份X1拷贝一份进入到第二个C-BN-RELU模块，额外拷贝一份与第六个C-BN-RELU模块进行通道合并，然后输出最终的图像；

将X1输入第二个C-BN-RELU模块中，该C-BN-RELU模块的输出特征X2进入到第二个C-BN-RELU模块，额外拷贝一份与第五个C-BN-RELU模块进行通道合并；

将X2输入第三个C-BN-RELU中，C-BN-RELU模块的输出特征X3拷贝一份进入到Res-Block模块，额外拷贝一份与第四个C-BN-RELU模块进行通道合并；

将X3输入残差模块Res-Block中，最终输出X4进入第四个C-BN-RELU模块；

将特征X4与X3进行通道合并输入第四个C-BN-RELU模块中，第四个C-BN-RELU模块的输出特征X5；

将特征X5与X2进行通道合并输入第五个C-BN-RELU模块中，第五个C-BN-RELU模块的输出特征X6；

将特征X6与X1进行通道合并输入第六个C-BN-RELU模块中，第六个C-BN-RELU的输出特征X7；

将输出特征X7输入卷积核大小为3*3，步长为1的卷积层Conv3中，卷积层后接一个RELU激活函数，得到输出图片特征Image3；

所述自动编码器Module1和Module2提取特征步骤与Module0相同。

进一步的，进行图像重构具体为：

将得到的图像特征Image3分别与另外两个输入图像Image1和Image2组成六通道特征张量，将两个六通道特征张量分别输入到独立参数的Module1和Module2；

其中，输入图像Image0、Image1以及Image2相同；

经过Module1和Module2提取特征后，分别得到图像特征Image4和Image5；

所述Module0的输出特征Image3，为输入图像中文本的掩膜，所述Module1的输出特征Image4为抠出来的文本，所述Module2的输出特征Image5为擦除文本后的场景背景；

将输出特征Image3、Image4以及Image5拼接后，得到3通道的彩色图像，即最终复原的图像。

进一步的，所述U型残差网络架构自动编码器的每个module采用同样的损失函数，为生成损失GANLOSS+L1损失L1LOSS，从而保证对低频和高频信息同等效力的判别。

进一步的，所述生成损失GANLOSS具体表示为：

logD(I_标准答案,I_输入图像)]+log[1-D(I_输出图像,I_输入图像)],

其中，D为判别器，采用二进制交叉熵函数，判断输入的六通道张量是否为真；I_标准答案为标准答案图，I_输入图像为输入图像；

所述L1损失L1LOSS具体表示为：

|I_输出图像-I_标准答案|₁。

进一步的，所述深监督具体为：

在损失函数中，对每个模块的输出都与标准答案图求均方差，然后将梯度反向传播到U型残差网络中。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明可以很好地应对复杂文本的文本擦除和扣字功能，目前的方法仅仅能够处理纯色的文本。

2、本发明引入批量归一化来克服梯度消失问题，在每一个卷积层之后，采用的是批量归一化，主要是为了在网络加深的时候，避免梯度消失的问题。

3、本发明可以很好地保证原图像的细节信息，自动编码器采用了U型残差网络的结构。采用跳跃连接使得低层的特征，即保留了大量细节信息的特征可以传输到网络后面，以免细节信息的过度丢失。

4、本发明采用了基于谱优化的生成对抗网络来使得网络可以找到更优解，网络对输入的多通道张量特征进行判别并监督。谱优化生成对抗网络可以使得网络向着更好的方向去学习。

附图说明

图1是本发明方法的整体流程图；

图2是本发明提取特征和图像重构步骤的流程示意图；

图3是本发明U型残差网络处理图像的流程图；

图4是训练集的图像样本；

图5是U型残差网络的结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本发明，基于U型残差网络的文本擦除和抠字方法，包括以下步骤：

S1、构建训练集及标准答案图，利用计算机视觉任务中已有的自然图像库，结合图像RGB通道叠加和掩膜叠加等技术，合成含文字的自然场景图像，并生成后续U型残差网络训练的标准答案图，具体为：

收集含有丰富纹理的图像数据集增加背景和文字纹理的种类，使得训练出的模型更加具有鲁棒性；使用python语言生成文本的掩膜并使用计算机图形学的腐蚀变形等制作不同形态的掩膜，结合计算机图形学的渲染功能制造各种丰富的文本纹理；使用图像的RGB通道叠加自然的纹理制造出具有自然纹理特征的文本和背景图，如图4所示。

S2、训练集预处理，具体为：

S21、随机选取训练数据集的图像对，将图像对进行变换，如旋转，放大，缩小；

S22、随机切取图像对，得到裁剪后为64*128的大小的图像块，并将图像对进行正则化处理；

S23、将图像对进行正则化处理，由于图像的取值范围是0-255，网络直接学习[0，255]到[0，255]的映射的话，会比学习[0，1]到[0，1]的映射收敛更慢，因此采用以下的归一化手段，对于输入图像I：

I_norm＝I/255

其中，I_norm为归一化后的图像。

S3、提取特征，进行网络训练，具体为：

将含文字的自然场景图片输入U型残差网络进行训练，提取出能表达场景中文字位置和形状信息的掩膜，然后使用该掩膜与原本输入场景中的含文字的自然场景图像组成六通道的张量，将其输入U型残差网络并提取信息。

如图3所示，本实施例中，U型残差网络由三个自动编码器残差连接组成，三个自动编码器分别为Module0、Module1以及Module2；

所述三个自动编码器具体包括6个C-BN-RELU模块以及1个残差模块Res-Block，Res-Block设置在6个C-BN-RELU模块中间，左右各3个C-BN-RELU模块；

如图5所示，三个自动编码器的网络机构似U型，故称为U型残差网络的自动编码器，具体为：

所述Module0具体包括C-BN-RELU0、C-BN-RELU1、C-BN-RELU2、C-BN-RELU3、C-BN-RELU4、C-BN-RELU5以及Res-Block0；

所述Module1具体包括C-BN-RELU6、C-BN-RELU7、C-BN-RELU8、C-BN-RELU9、C-BN-RELU10、C-BN-RELU11以及Res-Block1；

所述Module2具体包括C-BN-RELU12、C-BN-RELU13、C-BN-RELU14、C-BN-RELU15、C-BN-RELU16、C-BN-RELU17以及Res-Block2。

如图3所示，提取特征具体为：

三个自动编码器提取特征的步骤相同，下面以Module0生成Image3图像特征为例；

输入图像Image0，Iamge0经过一个卷积核大小为3*3，步长为1的卷积层conv0，得到输出特征X0；

将X0输入C-BN-RELU0模块中，C-BN-RELU0的输出特征拷贝一份X1拷贝一份进入到C-BN-RELU1模块，额外拷贝一份与C-BN-RELU5模块进行通道合并，然后输出最终的图像；

将X1输入C-BN-RELU1模块中，C-BN-RELU1的输出特征X2进入到C-BN-RELU2模块，额外拷贝一份与C-BN-RELU4模块进行通道合并；

将X2输入C-BN-RELU2中，C-BN-RELU2的输出特征X3拷贝一份进入到Res-Block0模块，额外拷贝一份与C-BN-RELU3模块进行通道合并；

将X3输入残差模块Res-Block0中，最终输出X4进入C-BN-RELU3模块；

将特征X4与X3进行通道合并输入C-BN-RELU3模块中，C-BN-RELU3模块的输出特征X5；

将特征X5与X2进行通道合并输入C-BN-RELU4模块中，C-BN-RELU4模块的输出特征X6；

将特征X6与X1进行通道合并输入C-BN-RELU5模块中，C-BN-RELU5的输出特征X7；

特征X7输入卷积核大小为3*3，步长为1的卷积层Conv3中，卷积层后接一个RELU激活函数，得到输出图片特征Image3。

U型残差网络架构自动编码器的每个module采用同样的损失函数，为GANLOSS+L1LOSS，从而保证对低频和高频信息同等效力的判别；

所述GANLOSS具体为：

logD(I_标准答案,I_输入图像)]+log[1-D(I_输出图像,I_输入图像)],

所述L1LOSS具体为：

|I_输出图像-I_标准答案|₁。

S4、图像重构，具体为：

如图2所示，将得到的图像特征Image3分别与输入图像Image1和Image2组成六通道特征张量，将两个六通道特征张量分别输入到独立参数的Module1和Module2；

其中，输入图像Image0、Image1以及Image2相同；

将输出特征Image3、Image4以及Image5拼接后，通过残差连接保留图像的低频信息，结合经过自动编码器解析的高频信息，得到3通道的彩色图像，即最终复原的图像。

S5、使用在合成的标准答案图对生成的仅含文字的图Image4和仅含背景的图Image5进行判别，使用GAN进行对抗损失计算，即深层监督以优化网络参数；

所述深监督具体为在损失函数中，对每个模块的输出都与干净图像求均方差，然后将梯度反向传播到网络中。

S6、循环执行步骤S3-S5，直至U型残差网络输出图像达到所需标准，将U型残差网络用于实际文本擦除和抠字。

还需要说明的是，在本说明书中，诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.基于U型残差网络的文本擦除和抠字方法，其特征在于，包括以下步骤：

U型残差网络由自动编码器Module0、Module1以及Module2残差连接组成；

所述Module0、Module1以及Module2具有相同的结构；

所述残差模块Res-Block包括四个卷积层，首尾有残差连接保留低频信息；

提取特征具体包括以下步骤：

所述自动编码器Module1和Module2提取特征步骤与Module0相同；

2.根据权利要求1所述的基于U型残差网络的文本擦除和抠字方法，其特征在于，所述训练集具体通过以下方式构建：

收集含有纹理的图像数据集以增加背景和文字纹理的种类；

3.根据权利要求1所述的基于U型残差网络的文本擦除和抠字方法，其特征在于，所述预处理具体为：

4.根据权利要求3所述的基于U型残差网络的文本擦除和抠字方法，其特征在于，正则化处理具体为：

对输入图像进行归一化处理，对于输入图像I：

I_norm＝I/255

其中，I_norm为归一化后图像。

5.根据权利要求1所述的基于U型残差网络的文本擦除和抠字方法，其特征在于，进行图像重构具体为：

其中，输入图像Image0、Image1以及Image2相同；

6.根据权利要求5所述的基于U型残差网络的文本擦除和抠字方法，其特征在于，所述U型残差网络架构自动编码器的每个module采用同样的损失函数，为生成损失GANLOSS+L1损失L1LOSS，从而保证对低频和高频信息同等效力的判别。

7.根据权利要求6所述的基于U型残差网络的文本擦除和抠字方法，其特征在于，所述生成损失GANLOSS具体表示为：

logD(I_标准答案，I_输入图像)]+log[1-D(I_输出图像，I_输入图像)]，

所述L1损失L1LOSS具体表示为：

|I_输出图像-I_标准答案|₁。

8.根据权利要求6所述的基于U型残差网络的文本擦除和抠字方法，其特征在于，所述深层监督具体为：