CN113052759B

CN113052759B - 基于mask和自动编码器的场景复杂文本图像编辑方法

Info

Publication number: CN113052759B
Application number: CN202110347033.3A
Authority: CN
Inventors: 许勇; 余博西; 黄艳
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2023-03-21
Anticipated expiration: 2041-03-31
Also published as: CN113052759A

Abstract

本发明公开了基于MASK和自动编码器的场景复杂文本图像编辑方法，包括以下步骤：通过数据获取模块获取mask数据集，基于mask数据集构建训练集；对训练集进行预处理，并将预处理后的训练集中随机选取图像作为网络输入；进行网络特征提取，即对预处理后的训练集图像进行初步特征提取，得到初步特征，将初步特征输入包含若干个残差模块的复合残差网络中进行处理，得到多层次特征；对图像进行重构，即将多层次特征进行拼接，并进行卷积层处理得到三通道图像；通过三通道图像进行残差模块的输出进行监督，进而优化网络参数；本发明在能够实现场景中复杂效果的文本编辑，对增强现实渲染，艺术设计具有十分显著的意义。

Description

基于MASK和自动编码器的场景复杂文本图像编辑方法

技术领域

本发明涉及图像处理和增强现实的研究领域，特别涉及基于MASK和自动编码器的场景复杂文本图像编辑方法。

背景技术

随着技术和媒体的飞速发展，丰富的文本在Internet和我们的生活中无处不在，其中包括各种图像和视频。它们具有不同的角色效果，并且放置在不同的场景中。生成对抗网络(GAN)和像素间样式转移方法极大地加快了对各种文本样式转移的研究，但是与其直接编辑背景无关的文本，不如直接编辑场景中的文本。

图像/视频文本或场景文本包含大量的语义信息，这在许多多媒体应用程序中非常有用。在过去的十年中，场景文本阅读及其应用取得了长足的进步。在本文中，我们将专注于与场景文本相关的新任务，即编辑场景文本。场景文本编辑在学术界和工业界越来越受到关注，并受到诸如文本图像合成，广告照片编辑，文本图像，更正和增强现实翻译等实际应用的推动。现场面临两个主要挑战。文本编辑：传输文本样式并保存背景纹理。特别是，文本样式由多种元素组成，例如语言，字体，颜色，方向，笔画大小，空间角度等，因此源代码可以准确地捕获整个文本样式图像并将其传输到目标文本。那很难。同时，保持一致的编辑背景也很困难，尤其是当文本出现在某些复杂的场景(例如菜单)或街道商店的招牌上时。

生成对抗网络(GAN)和像素间样式转移方法极大地加快了对各种文本样式转移的研究，但与其直接编辑背景无关的文本，不如直接编辑场景中的文本。这是特别针对的。很少而且非常困难。GAN可以用于图像样式转换，结构生成或两者。这些算法中的一些在生成字体结构方面已经取得了令人鼓舞的结果，而其他算法则有可能生成复杂的彩色字体。据我们所知，这些生成算法可以用在使用设计软件生成的文本图像中，并且未知它们是否适合编辑真实场景图像。另外，大多数算法都需要显式识别源字符，以便生成隐藏的字符集。场景图像本身的文本识别是一个困难的问题，这会引起问题，因为识别步骤中的错误会破坏整个生成过程。对于场景图像，从多个观察结果生成字符也很困难。这是因为观察字体可能不同，并且缩放比例和透视失真也可能不同。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于MASK和自动编码器的场景复杂文本图像编辑方法，在场景中复杂文本编辑的实现自动化方法功能，从而能够协助艺术家进行文本工作创作，或者增强现实中的渲染功能；

首先对输入图片进行放射变换，随机切片，归一化处理，预处理完成后输入到网络中。该网络的每个module单元是U型残差网络架构的自动编码器，并且对其中的每个卷积网络层之后加上Batch Normalization，其中作用一个是可以使网络避免梯度消失的问题，另一个是对于图像处理问题来说，可以更好地保证原图的细节信息的保留。经过多个残差模块的处理之后，每个残差模块都输出对于的特征图，这些特征图来自网络不同深层处，提取到的信息不一样，最后，该网络的训练不仅仅对最后的输出图像进行监督，而是将每个残差模块的输出特征输入到不同的卷积层中得到多张三通道的输出图，显然，越浅层的输出图像带有更多的雨线，然后对所有这些图像进行监督来达到对网络进行深层监督的目的。

本发明的目的通过以下的技术方案实现：

基于MASK和自动编码器的场景复杂文本图像编辑方法，包括以下步骤，通过数据获取模块获取mask数据集，基于mask数据集构建训练集；

对训练集进行预处理，并将预处理后的训练集中随机选取图像作为网络输入；

进行网络特征提取，即对预处理后的训练集图像进行初步特征提取，得到初步特征，将初步特征输入包含若干个残差模块的复合残差网络中进行处理，得到多层次特征；

对图像进行重构，即将多层次特征进行拼接，并进行卷积层处理得到三通道图像。即mask；

通过三通道图像进行残差模块的输出进行监督，进而优化网络参数；

进一步地，所述通过数据获取模块获取mask数据集，基于mask数据集构建训练集，具体为：通过计算机语言生成文本的mask，使用计算机图形学制作不同形态的mask，并通过计算机图形学制造不同文本纹理；使用图像的RGB通道叠加自然纹理制造出具有自然纹理特征的文本和背景图；使用软件包增广生成的数据集，将mask的RGB是哪个通道编入不同信息。

进一步地，所述通过数据获取模块获取mask数据集，基于mask数据集构建训练集，具体为：通过使用python语言生成文本的mask，并使用计算机图形学的腐蚀变形来制作不同形态的mask，结合计算机图形学的渲染功能制造各种丰富的文本纹理；使用图像的RGB通道叠加自然的纹理制造出具有自然纹理特征的文本和背景图；使用Augmentor python软件包增广生成的数据集；将mask的RGB三个通道编入不同的信息。

进一步地，所述对训练集进行预处理，具体为：

随机选取训练数据集的图像对，将图像进行变换；

随机窃切取图像对，得到64*128大小的图像块；

将图像对进行正则化处理，得到预处理后的训练集中随机选取图像；对于输入图像I，则有：

I_norm＝I/255，

其中，I_norm为归一化后的图像。

进一步地，所述进行网络特征提取，即对预处理后的训练集图像进行初步特征提取，得到初步特征，将初步特征输入包含若干个残差模块的复合残差网络中进行处理，得到多层次特征，具体为：将预处理后的含文本自然场景图片输入自动编码器，自动编码器提出包含文本位置和形状信息的mask，即初步特征；将所述mask与原本输入场景中的含本文的自然场景图片组多通道的Tensor，将其输入自动编码器并提取信息，即得到多层次特征。

进一步地，所述自动编码器包括六个自动编码器模块，每个自动编码器模块的输出作为另外一个自动编码器模块的输入。

进一步地，所述自动编码器包括六个自动编码器模块，具体包括：

第一自动编码器模块，第一自动编码器模块由三个下采样编码器、三个上采样编码器以及U-Net结构组成；第一自动编码器模块输入Is为场景中为文本图像；

第二自动编码器模块，与第一自动编码器模块结构相同，输入为Is和输出Omask1的concatenation，通道数为六通道，输出为不带文本的背景Ob；

第三自动编码器模块，与第一自动编码器模块结构相同，输入为Is输出Omask1的concatenation，通道数为六通道，输出为只有文本的图片Ot1；

第四自动编码器模块，用于完成字体形态的变换，将标准的字体变换为具有原图像Is中文本部分的字体风格；

第五自动编码器模块，将Omask1和Ot1进行concatenate之后作为辅助信息注入该模块的自动编码器中间的网络层，从而指导字体纹理的渲染；

第六自动编码器模块，将干净的北京Ob、目标字mask、目标字字效作为9通道的输入进入该模块的自动编码器，该自动编码器与第一自动编码器模块具有相同的结构；该编码器的最终输出Ot为最终目标；完成了原图像Is中的文本替换，并且保留文本和背景的风格特征。

进一步地，将所述第一自动编码器模块、第二自动编码器模块、第三自动编码器模块、第五自动编码器模块、第六自动编码器模块的判别损失设置为L1loss+GANloss；将第四自动编码器模块损失均设置为L1loss+diceloss。

进一步地，所述对图像进行重构，即将多层次特征进行拼接，并进行卷积层处理得到三通道图像，具体为：将每个残差模块的输出特征进行拼接后，输入到一个卷积层后得到三通道图像，取这个三通道图像为最终的复原图像。

进一步地，通过三通道图像进行残差模块的输出进行监督，进而优化网络参数，具体为：三通道图像被加入到神经网络模型的每个输入变量中，作为辅助信息参与神经网络的训练，从而优化神经网路参数。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明引入Batch Normalization来克服梯度消失问题，在每一个卷积层之后，采用的是Batch Normalization，主要是为了在网络加深的时候，避免梯度消失的问题；

2、本发明可以很好地保证原图像的细节信息，自动编码器采用了U型残差网络的结构。采用跳接的主要原因是使得低层的特征，即保留了大量细节信息的特征可以传输到网络后面，以免细节信息的过度丢失。

3、本发明采用了基于谱优化的生成对抗网络来使得网络可以找到更优解，网络对输入的多通道Tensor特征进行判别并监督。谱优化生成对抗网络可以使得网络向着更好的方向去学习。

4、本发明可以很好地应对场景中复杂文本的风格迁移功能。

附图说明

图1是本发明所述一种基于MASK和自动编码器的场景中复杂文本编辑方法流程图；

图2是本发明所述实施例中mask组成形图；

图3是本发明所述实施例中人工合成数据集上对场景中的复杂文本进行编辑示意图；

图4是本发明所述实施例中ICDAR数据集上对场景中的复杂文本进行编辑示意图；

图5是本发明所述实施例中U型残差网络的结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

一种基于MASK和自动编码器的场景中复杂文本编辑方法，如图1所示，包括以下步骤：

在构建训练集时，使用python语言生成文本的mask并使用计算机图形学的腐蚀变形等制作不同形态的mask，结合计算机图形学的渲染功能制造各种丰富的文本纹理；使用图像的RGB通道叠加自然的纹理制造出具有自然纹理特征的文本和背景图；图2为mask组成形图；

对输入进行预处理时，首先从训练集中随机选取图像，但不是直接将图像放入网络中进行训练，而是事先对图像进行合理的处理。为了提高网络对于不同图像的鲁棒性，首先将图像进行仿射变换，比如旋转，放大和缩小。然后，对得到的图像进行切片，切片大小为64*128。最后，为了使得网络可以更好地收敛，还必须对图像进行归一化处理。

网络提取特征，首先将经过预处理的图像输入到一个卷积层中进行初步的特征提取，然后将该特征输入到包含多个残差模块的复合残差网络中进行处理，每个残差模块输出对应到网络中不同深层的特征，浅层的特征更好地保留了原图像的细节信息，而深层特征得到的是图像的寓意信息，在相同层次中，不同通道对应的是图像中不同模式，因此该复合残差网络后可以得到多层次特征；

对图像进行重构，得到了多层次特征后，仍然不是最终需要的复原图像，需要将这些特征进行处理来重构需要的图像。具体做法是，将每个残差模块的输出特征进行拼接后，输入到一个卷积层后得到三通道图像，取这个三通道图像为最终的复原图像；

图3为人工合成数据集上对场景中的复杂文本进行编辑示意图；图4为ICDAR数据集上对场景中的复杂文本进行编辑示意图；

使用干净图像对每个模块的输出进行监督，即深层监督，以优化网络参数。

具体过程如下：

1、目前已经有制作场景中文本的开源代码，但是其图形变换和mask种类依旧不能满足神经网络训练对数据集的要求，即种类有限。本发明采用了更多的计算机图形学算法，并增加了文本的mask的种类，并且采用随机颜色随机深度叠加的机制，极大程度地丰富了数据集地组成，更加有效的地利用了现有的纹理数据集。增加的mask在RGB三个通道分别表述不同地结构和位置信息，从而能更加有效的辅助提取场景中文本的信息，完成文本擦除和抠字的效果。

2、训练样本预处理，训练样本如果直接输入网络中训练，会产生两个主要的问题，一个是图像尺寸过大，在训练过程种处理一张图像需要消耗过多计算资源；另一个问题是图像的像素取值范围是[0,255]，直接采用这个取值范围的输入不利于网络的收敛，因此，在将图像输入到网络前，需要采取以下两个预处理步骤：

(1)随机选取训练数据集的图像对，将图像对进行变换，如旋转，放大，缩小，这样处理相当于对训练数据集进行扩充，因为在实际情况中，由于各种原因，可以收集到的数据集往往很少，而训练集的缺乏是对网络训练非常不利的，因此需要进行这样一个预处理步骤使得数据集可以增加，使得训练出来的网络可以降低过拟合的风险；

(2)随机切取图像对，得到裁剪后为64*128的大小的图像块，这是由于原图像大小较大，在同样的计算资源下，切块后的图像可以增加每一次训练的批量个数，这对应使用批量梯度下降算法进行优化的网络来说是有利的；

(3)将图像对进行正则化处理，这是由于图像的取值范围是0-255，网络直接学习[0,255]到[0,255]的映射的话，会比学习[0,1]到[0,1]的映射收敛更慢，所以可以采用以下的归一化手段，对于输入图像I：

I_norm-I/255

其中I_norm为归一化后的图像。

3、提取图像的多层次特征，将含文本的自然场景图片输入自动编码器，提取出能表达场景中文本位置和形状信息的mask的，然后使用该mask与原本输入场景中的含文本的自然场景图片组成六通道的Tensor,将其输入自动编码器并提取信息。此处共三个自动编码器，从而组成完整的文本擦除和抠字效果，算法步骤如下：

1)、本发明的一种基于MASK和自动编码器的场景中复杂文本编辑方法，由六个自动编码器模块组成，其中每个自动编码器的输出作为另外一些自动编码器的输入。

2)、第一个自动编码器模块Mask Generating Module输入Is为场景中的文本图像，该自动编码器由三个下采样的编码器和三个上采样的编码器组成，加上类似说明书附图5中的U-Net结构，保留一定的低频信息，确保图像边缘信息的保留。图5为U型残差网络的结构图。

3)、第二个和第三个自动编码器模块Background inpainting module和Textinpainting module和Mask Generating module采取同样的结构但是他们的输入都是Is和Mask Generating module的输出Omask1的concatenation，通道数翻倍，为6通道；他们的输出分别为不带文本的背景Ob和只有文本的图片Ot1。

4)、第四个自动编码器模块Mask deformation module不使用说明书附图图5中的残差链接模式，因为该模块中的编码器不需要保留太多低频信息。该模块的功能是完成字体形态的变换，将标准的字体变换为具有原图像Is中文本部分的字体风格。

5)、第五个自动编码器模块Style Transfer module将Omask1和Ot1进行concatenate之后作为辅助信息注入该模块的自动编码器中间的网络层，从而指导字体纹理的渲染。

6)、第六个自动编码器模块Fusion module将干净的北京Ob、目标字mask、目标字字效作为9通道的输入进入该模块的自动编码器，该自动编码器与Mask Generatingmodule具有相同的结构。该编码器的最终输出Ot为我们的最终目标。完成了原图像Is中的文本替换，并且保留文本和背景的风格特征。

7)、除Mask deformation module以外的五个自动编码器模块判别器的损失均设置为L1loss+GANloss。

8)、Mask deformation module采用L1loss+diceloss，从而增加对形状变换的约束。

9)、每个自动编码器模块先分别独立训练，等到每个子模块的效果足够好的时候，对整个网络进行协同训练。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于MASK和自动编码器的场景复杂文本图像编辑方法，其特征在于，包括以下步骤：

通过数据获取模块获取MASK数据集，基于MASK数据集构建训练集；

对图像进行重构，即将多层次特征进行拼接，并进行卷积层处理得到三通道图像，即MASK；

使用三通道图像对残差模块的输出在神经网络的训练进行监督，进而优化网络参数；

所述进行网络特征提取，即对预处理后的训练集图像进行初步特征提取，得到初步特征，将初步特征输入包含若干个残差模块的复合残差网络中进行处理，得到多层次特征，具体为：将预处理后的含文本自然场景图片输入自动编码器，自动编码器提出包含文本位置和形状信息的MASK，即初步特征；将所述MASK与原本输入场景中的含文本自然场景图片组成多通道的Tensor(张量)，将其输入自动编码器并提取信息，即得到多层次特征；

所述自动编码器包括六个自动编码器模块，每个自动编码器模块的输出作为另外一个自动编码器模块的输入；

所述自动编码器包括六个自动编码器模块，具体包括：

第一自动编码器模块，第一自动编码器模块由三个下采样编码器、三个上采样编码器以及U-Net结构组成；第一自动编码器模块输入的图像Is为场景中的文本图像；

第二自动编码器模块，与第一自动编码器模块结构相同，输入为Is、Omask1的concatenation，通道数为六通道，输出为不带文本的背景Ob；

第三自动编码器模块，与第一自动编码器模块结构相同，输入为Is、Omask1的concatenation，通道数为六通道，输出为只有文本的图片Ot1；

第五自动编码器模块，将Omask1和Ot1进行连接之后作为辅助信息注入该模块的自动编码器中间的网络层，从而指导字体纹理的渲染；

第六自动编码器模块，通道数为九通道，将干净的背景Ob、目标字MASK、目标字的字效作为输入进入该模块的自动编码器，该自动编码器与第一自动编码器模块具有相同的结构；该编码器的最终输出Ot为最终目标；完成了原图像Is中的文本替换，并且保留文本和背景的风格特征。

2.根据权利要求1所述的基于MASK和自动编码器的场景复杂文本图像编辑方法，其特征在于，所述对训练集进行预处理，具体为：

随机选取训练数据集的图像对，将图像进行变换；

随机切取图像对，得到64*128大小的图像块；

I_norm＝I/255，

其中，I_norm为归一化后的图像。

3.根据权利要求1所述的基于MASK和自动编码器的场景复杂文本图像编辑方法，其特征在于，所述对图像进行重构，即将多层次特征进行拼接，并进行卷积层处理得到三通道图像，具体为：将每个残差模块的输出特征进行拼接后，输入到一个卷积层后得到三通道图像，取这个三通道图像为最终的复原图像。