CN114863441A

CN114863441A - 一种基于文字属性引导的文本图像编辑方法及系统

Info

Publication number: CN114863441A
Application number: CN202210426530.7A
Authority: CN
Inventors: 陈靖超; 徐树公
Original assignee: Foshan Zhiyouren Technology Co ltd; University of Shanghai for Science and Technology
Current assignee: Foshan Zhiyouren Technology Co ltd; University of Shanghai for Science and Technology
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-08-05

Abstract

本发明公开了一种基于文字属性引导的文本图像编辑方法及系统，其方法包括：通过文本图像合成方法合成训练所需的成对文本图像数据；训练前景变换网络，将待编辑文本图像与新文本内容作为输入，生成新文本内容的前景；训练背景修复网络，将待编辑的原始图像作为输入，得到纯背景图像结果；训练前背景融合网络，得到最终的编辑结果；编辑结果图会和标签图一起输入字体字符分类网络，通过交叉熵损失与感知损失对编辑网络模型参数正则化；在各子网络分别训练优化过后，将整个编辑网络进行端到端的训练微调优化。本发明提出使用合成成对文本图像数据集，解决文本图像编辑任务数据难以获取的问题，降低了文本图像编辑任务数据获取的难度。

Description

一种基于文字属性引导的文本图像编辑方法及系统

技术领域

本发明主要涉及图像处理技术领域，具体涉及一种基于文字属性引导的文本图像编辑方法及系统。

背景技术

文字在人类的历史发展中一直都占据了一个相当重要的地位，成为了人们个体沟通与文化传承的载体。随着近几年计算机视觉与深度学习的飞速发展，文字图像也被越来越多的研究人员关注，其中最主要的方向包括场景文本检测与识别，文本的字体生成，文本擦除与编辑等任务。日常生活中，有很多文字图像的场景，海报、广告、游戏、视频的插图都往往以文字为主，多媒体工作者们对于这些文字图像的自动化编辑有着非常巨大的需求，可以在不使用一些专业化软件的低门槛下设计得到属于自己的海报等内容。

场景文本图像编辑任务在学术界和工业界也受到了更多关注，应用领域涉及文本图像生成、海报广告编辑、增强现实翻译等。该任务主要面临两方面的挑战：前景文字的风格迁移和背景文字的擦除修复。其中前景文字的风格包含有很多种属性，包括字体、颜色、几何变形、模糊、阴影、边界线等。要想让新的文字前景与被替换前的风格一致是非常有挑战性的。在迁移文字风格的同时，算法还需要保证背景纹理信息的保留以及空白区域的修复与周围的内容保持连贯性，尤其是在一些复杂的场景之下，例如街道上的标志牌、行驶中的车辆车牌等。

目前的文本图像编辑技术主要是一些字体样式迁移方法以及针对简单的场景文本进行编辑，无法做到完全迁移原有的文字样式。这些方法主要基于对抗生成网络(GAN)。而且大部分已有的技术都需要识别出图像中的字符内容以便生成对应的字符集合。而场景文本图像的复杂场景可能会导致识别出现错误，从而也会影响后续的编辑生成操作。

现有技术中使用基于transformer网络的文本图像编辑，其将待编辑的文本内容图像与参考的风格图像同时划分为多个小的文本图像块，然后通过transformer编码器转化为相应的文本图像块和风格图像块特征，同时在文本图像块上添加对应的图像块位置信息。然后将文本内容与风格参照图像两者的特征输入进transformer解码器之中，得到内容与风格聚合的特征，最终输出文本图像。这种技术可以在准确定位到待编辑文本框位置之后，将参考风格图像上的字体样式风格迁移到新的文本内容上，并生成在目标的背景图像上。但是该方法非常依赖于模型生成图像之前对于文本框精细位置的定位。除此之外，该方法对于输入的参考风格图像的要求上比较严苛，其与待编辑文本图像的背景在几何位置与纹理信息上需要几乎一致。然而对于一些场景只能采集到单张样本而没有参考图像，该方法无法适用。

现有技术中采用基于MASK和自动编码器的文本图像编辑方法，这种方案针对文本特殊效果(阴影、边界线等)设计了一个MASK生成模块，预测一个三通道特征图，分别表示文本主体、边界线与阴影。而预测的MASK图还会辅助将原图的前景文本部分与纯背景纹理部分分割开来。然后这张预测的MASK图和新的文本内容输入通过MASK变形模块生成新文本对应的MASK。而风格迁移模块则将原有图像前景文本部分的颜色纹理信息迁移到新MASK对应位置上，得到新的文本前景图像。最后的融合模块则会将新的文本前景图像与分离出的纯背景融合生成为最终的编辑结果。这种方法在训练阶段将整个任务分为了六个子网络，需要在训练阶段分别进行训练，训练过程相对较为繁琐。由于该方法主要针对具有特殊文本效果的文本图像，如果将一般的无文本效果的场景文本图像输入网络进行推理时，得到的编辑结果在字形上生成不够自然，与周围的其他字符有较为显著的割裂感。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于文字属性引导的文本图像编辑方法及系统，提出使用合成成对文本图像数据集，解决文本图像编辑任务数据难以获取的问题，降低了文本图像编辑任务数据获取的难度。

本发明提供了一种基于文字属性引导的文本图像编辑方法，所述方法包括：

通过文本图像合成方法合成训练所需的成对文本图像数据，并将数据集划分为训练集与测试集；

训练前景变换网络，将待编辑文本图像与新文本内容作为输入，生成新文本内容的前景；

训练背景修复网络，将待编辑的原始图像作为输入，去除掉文本所在的区域，得到纯背景图像结果；

训练前背景融合网络，将前两个子网络的输出新文本前景与纯背景图像进行融合，得到最终的编辑结果；

编辑结果图会和标签图一起输入字体字符分类网络，通过交叉熵损失与感知损失对编辑网络模型参数正则化；

在各子网络分别训练优化过后，将整个编辑网络进行端到端的训练微调优化。

所述前景变换网络的输入为原始待编辑的文本图像，所述前景变换网络的输出为迁移了原图文字样式的新文本内容的前景图像，所述前景变换网络的子网络由两个编码器与两个加码器组成。

所述两个编码器分别通过三个下采样卷积块提取出原图的文本风格特征和新文本的语义内容特征；然后将两者在通道维度进行聚合，通过一个解码器进行图像生成与输出。

编码器是由步长为2的下采样卷积块组成，解码器则是镜像式的步长为2的上采样转置卷积块组成。

所述背景修复网络的输入为原始待编辑的文本图像，所述背景修复网络的输出为去除了文本内容的纯净背景图像；所述背景修复网络的子网络主体是一个带有跳跃连接的编码器解码器结构，再加上扩张卷积扩大网络的感受野。

所述前背景融合网络的输入为前两个子网络的结果，所述前背景融合网络的输出为最终的编辑图像，所述前背景融合网络由编码器与解码器组成，将前景变换的新文本图像与纯背景图像进行融合，得到编辑结果。

所述字体字符属性引导网络的输入为编辑图像与对应的标签图像，所述字体分类器与字符分类器均是由相应数据集预训练得到的，通过交叉熵损失与感知损失正则化编辑网络的模型参数，使生成的图像在字体字形与内容语义上生成更加准确。

相应的，本发明还提供了一种文本图像编辑系统，所述系统包括：

数据集处理模块，用于通过文本图像合成方法合成训练所需的成对文本图像数据，并将数据集划分为训练集与测试集；

前景变换网络模块，用于训练前景变换网络，将待编辑文本图像与新文本内容作为输入，生成新文本内容的前景；

背景修复网络模块，用于训练背景修复网络，将待编辑的原始图像作为输入，去除掉文本所在的区域，得到纯背景图像结果；

前背景融合网络模块，用于训练前背景融合网络，将前两个子网络的输出新文本前景与纯背景图像进行融合，得到最终的编辑结果；

字体字符分类网络模块，用于编辑结果图会和标签图一起输入字体字符分类网络，通过交叉熵损失与感知损失对编辑网络模型参数正则化；

训练微调化模块，用于在各子网络分别训练优化过后，将整个编辑网络进行端到端的训练微调优化。

所述前景变换网络的输入为原始待编辑的文本图像，所述前景变换网络的输出为迁移了原图文字样式的新文本内容的前景图像，所述前景变换网络的子网络由两个编码器与两个解码器组成。

本发明实施例达到较高的生成指标(PSNR、SSIM、L2误差)，在测试集上能达到25.48的PSNR、0.842的SSIM和0.0043的L2误差；本发明实施例通过字体分类器的引导，准确完成大量不同字体风格的文本图像编辑，涵盖所有常用字体；本发明实施例通过字符识别器的引导，对于新字符的生成上具有更高的语义可读性；本发明使用成对的合成数据集训练文本图像编辑网络模型，解决了文本图像编辑任务成对数据采集难题。本发明实施例使用的文字编辑方法可以应用于各种专用场景文字图像数据生成上，解决数据集样本量少或类别不均衡的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的基于文字属性引导的文本图像编辑方法流程图；

图2是本发明实施例中的基于文字属性引导的文本图像编辑的算法原理示意图；

图3是本发明实施例中的生成的文本编辑数据集样本示意图；

图4是本发明实施例中的消融实验可视化结果示意图；

图5是本发明实施例中的真实场景图像编辑可视化示意图；

图6是本发明实施例中的文本图像编辑系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例使用分阶段的编辑模型将复杂的文本图像编辑任务进行分解，降低整体网络的训练难度，无需额外参考图像输入；使用字体分类器以交叉熵损失与感知损失正则化编辑网络模型参数，使生成结果在字体字形上更加符合真实，与前后字符可视化效果更具有连贯性；使用字符分类器以交叉熵损失辅助编辑网络的输出图像，使得其中的文字更具有可读性；提出分阶段编辑网络的训练策略，先对所有子网络冻结其他参数分开训练优化，最后进行端到端整体网络微调优化；提出使用合成成对文本图像数据集，解决文本图像编辑任务数据难以获取的问题，降低了文本图像编辑任务数据获取的难度。

本发明实施例中的基于文字属性引导的文本图像编辑方法，编辑网络训练流程如图1所示，具体步骤如下：

S101、通过文本图像合成方法获取成对数据集，并将数据集划分为训练集与测试集；

这里通过文本图像合成方法合成训练所需的成对文本图像数据即通过文本图像合成方法获取成对数据集，并将数据集划分为训练集与测试集。

具体实施过程中，所有的实验在实验测试平台(CPU：Intel Xeon Gold6226R，GPU：RTX3090)上进行，使用深度学习框架为Pytorch。字体分类网络基于ResNet18，字符分类网络基于TRBA。

S102、训练前景变换网络，输入待编辑图像与新文本内容得到新文本图像；

S102步骤具体为：训练前景变换网络，将待编辑文本图像与新文本内容作为输入，生成新文本内容的前景；

具体实施过程中，图2示出了本发明实施例中的基于文字属性引导的文本图像编辑的算法原理示意图，该前景变换网络，输入为原始待编辑的文本图像，输出为迁移了原图文字样式的新文本内容的前景图像。该子网络由两个编码器与两个解码器组成。其中两个编码器分别通过三个下采样卷积块提取出原图的文本风格特征和新文本的语义内容特征。然后将两者在通道维度进行聚合，通过一个解码器进行图像生成与输出。骨架解码器则是通过文字的骨架属性引导网络在字形生成上更加精准。

具体实施过程中，本发明实施中的前景变换网络包括两个共享相同结构不共享参数的编码器和解码器。编码器主要是由步长为2的下采样卷积块组成，解码器则是镜像式的步长为2的上采样转置卷积块组成。每个下采样或者上采样卷积块除了一个带步长的卷积之外，还包括2个步长为1的3×3卷积，用于升降通道数，以便编解码特征。输入待编辑图像为I_S∈R^C×H×W、I_t∈R^C×H×W，其中W为图像宽度，H为图像高度，C为待编辑图像的颜色通道数。编码器的三个下采样卷积块分别将图像转化成大小为

解码器的三个上采样卷积块将缩小的特征图通过三个上采样卷积块逐步恢复为原来的尺寸，最终输出一个迁移了原图文本样式的前景O_fg∈R^C×H×W。而额外的一个解码器则是输出一个文本骨架的单通道MASK图O_sk∈R^1×H×W，这个骨架图输出用于引导前景文本图像结果的字形生成更加准确。损失函数使用像素点级的L1损失以及单通道的骨架输出图提供的diceloss(交并比损失)进行约束。

S103、训练背景修复网络，将待编辑图像分离出去除文字内容区域的纯背景图像；

S103步骤具体为：训练背景修复网络，将待编辑的原始图像作为输入，去除掉文本所在的区域，得到纯背景图像结果；

具体的，背景修复网络，输入为原始待编辑的文本图像，输出为去除了文本内容的纯净背景图像。该子网络主体是一个带有跳跃连接的编码器解码器结构，再加上扩张卷积扩大网络的感受野。这样使得网络在修复文本区域时能参照更大感受野区域的纹理信息。同时跳跃连接将下采样阶段丢失的细节信息补充回生成的图像中。

具体实施过程中，本发明实施中的背景修复网络主体是一个带有跳跃连接的编码器解码器结构。输入是待编辑图像I_S∈R^C×H×W。编码器结构与解码器结构同样是三个下采样与上采样卷积块。编码后的特征图

还会通过三个扩张卷积块扩大感受野，进行更深层的特征信息聚合，这样可以使解码后的纯背景输出图的文本擦除空缺区域被修复得更加连贯。除此之外，背景修复网络还使用了一个局部判别器网络进行对抗训练，使生成的纯背景图像在可视化效果上更加真实。该判别器网络结构包括四个下采样卷积单元，预测每个16×16的局部区域的生成效果是否真实。该判别器在训练阶段与背景修复的生成器网络交替训练，形成一个对抗式的学习优化。损失函数则是像素点级的L1损失和判别器的对抗损失。

S104、训练前背景融合网络，将生成的新文本内容与原图的纯背景生成得到编辑结果；

S104步骤具体为：训练前背景融合网络，将前两个子网络的输出新文本前景与纯背景图像进行融合，得到最终的编辑结果。

具体的，前背景融合网络，输入为前两个子网络的结果，输出为最终的编辑图像。由编码器与解码器组成，将前景变换的新文本图像与纯背景图像进行融合，得到编辑结果。

具体实施过程中，前背景融合网络，将前两个子网络的结果O_fg∈R^C×H×W与O_bg∈R^C ^×H×W在通道维度上拼接作为输入，从而生成最终的编辑结果。网络结构是一个有跳跃连接的编码器解码器结构。损失函数也是使用了有监督的像素点级L1损失和判别器的对抗损失。

S105、将编辑结果输入预训练的字体与字符分类网络，通过损失函数正则化编辑网络参数；

S105步骤具体为：编辑结果图会和标签图一起输入字体字符分类网络，通过交叉熵损失与感知损失对编辑网络模型参数正则化；

具体的，字体字符属性引导网络，输入为编辑图像与对应的标签图像。字体分类器与字符分类器均是由相应数据集预训练得到的。通过交叉熵损失与感知损失正则化编辑网络的模型参数，使生成的图像在字体字形与内容语义上生成更加准确。

具体实施过程中，字体字符属性引导网络包括字体分类器和字符分类器两个网络。两个分类器网络都使用了相应的字体字符数据集进行预训练。在文本图像编辑网络训练过程中使用冻结参数的预训练网络进行引导优化。其中字体分类器是一个以ResNet18为骨干网络的分类器，使用文本图像数据集与对应的字体标签训练。而字符分类器则是TRBA的字符识别器，使用公开场景文本图像数据集进行预训练。字体字符属性引导网络的输入是前背景融合网络的输出结果以及对应的标签图像。损失函数则是使用两个分类网络的交叉熵损失进行约束，引导编辑网络在生成过程中在字体字形与字符语义可读性上得到更好的生成效果。除此之外，字体字符属性引导网络把字体分类网络作为感知损失的特征提取网络，使编辑图像与标签图像在特征层面更加具有一致性。

S106、将各部分子网络模型结合在一起进行端到端的训练微调优化。

S106步骤具体为：在各子网络分别训练优化过后，将整个编辑网络进行端到端的训练微调优化。

本发明使用数据合成的方式制作成对的文本图像编辑任务数据集，用以解决成对文本图像数据的缺失。通过对不同文本序列执行参数相同的合成渲染步骤得到对应的成对训练图像。同时在文本图像合成过程中，加入模拟真实场景的增强方法以增加对于各种复杂场景文本图像编辑的鲁棒性。生成结果如图3所示，从上到下分别是作为输入的风格与内容输入、单通道骨架图、迁移文字样式的前景、擦除文字的纯背景、编辑替换新文字的结果。

需要说明的是，网络的训练阶段均是使用成对的合成数据集，包括了网络各阶段输出的标签，使用有监督的L1损失、对抗损失以及字体字符分类损失进行约束。

这里需要对数据集量化评估及结果展示进行说明如下：在量化评估的消融实验中，在基线模型上逐步加上字体分类器引导、字符分类器引导、分阶段训练之后的端到端微调。如表1所示，可以看到每一个模块的添加在图像编辑的三项指标上都有一定的优化提升，最终的模型可以在PSNR指标上达到25.48、SSIM指标上达到0.842、L2误差达到0.0043。而在图4中的消融实验可视化效果上，前两行分别为风格与内容的输入，三到六行为消融实验的不同模型输出的结果，包括基线模型、加上字体分类器、加上字符分类器、使用端到端微调策略，最后一行则是标签图像。通过比较可以看出，最终的模型相比于其他的结果都更接近标签图像，在可视化效果上也能体现出很大优势，例如RICHLY中的C，crumple的r，HIGHEST的H，semis的m。而在真实的场景文本图像中，本发明实施例也能做到无缝的文本图像编辑，得到一个比较好的可视化结果。可以看到图5红框中的FACHES替换为了POSHER，Yarmouth替换为了APOSTLES，都保持了原图像文字的风格样式以及背景细节。

表1消融实验量化评估

图6示出了本发明实施例中的文本图像编辑系统结构示意图，该系统包括：

需要说明的是，本发明可以用于完成场景文字图像的无缝替换编辑，可以用于手机应用的拍照翻译上，将本方法与文字翻译技术结合，可以让身处异国的使用者更好地理解场景中的外文内容，例如通过路牌确认当前位置与方向。由于本方法在模型设计上将编辑任务拆分为了文字擦除与替换的步骤，所以本方法也可以单独执行文字擦除的功能。对于最容易泄露个人隐私的照片中的文字内容，本方法中的背景修复模型可切分出来单独使用，用于在编辑社交账号内容之前进行文字隐私内容擦除处理。本方法的文字擦除功能可以轻易地保留原照片图像的除文字外内容，不影响照片的正常使用。

综上，本发明实施例达到较高的生成指标(PSNR、SSIM、L2误差)，在测试集上能达到25.48的PSNR、0.842的SSIM和0.0043的L2误差；本发明实施例通过字体分类器的引导，准确完成大量不同字体风格的文本图像编辑，涵盖所有常用字体；本发明实施例通过字符识别器的引导，对于新字符的生成上具有更高的语义可读性；本发明使用成对的合成数据集训练文本图像编辑网络模型，解决了文本图像编辑任务成对数据采集难题。本发明实施例使用的文字编辑方法可以应用于各种专用场景文字图像数据生成上，解决数据集样本量少或类别不均衡的问题。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，ReadOnly Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或光盘等。

另外，以上对本发明实施例进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于文字属性引导的文本图像编辑方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于文字属性引导的文本图像编辑方法，其特征在于，所述前景变换网络的输入为原始待编辑的文本图像，所述前景变换网络的输出为迁移了原图文字样式的新文本内容的前景图像，所述前景变换网络的子网络由两个编码器与两个解码器组成。

3.如权利要求2所述的基于文字属性引导的文本图像编辑方法，其特征在于，所述两个编码器分别通过三个下采样卷积块提取出原图的文本风格特征和新文本的语义内容特征；然后将两者在通道维度进行聚合，通过一个解码器进行图像生成与输出。

4.如权利要求3所述的基于文字属性引导的文本图像编辑方法，其特征在于，编码器是由步长为2的下采样卷积块组成，解码器则是镜像式的步长为2的上采样转置卷积块组成。

5.如权利要求4所述的基于文字属性引导的文本图像编辑方法，其特征在于，所述背景修复网络的输入为原始待编辑的文本图像，所述背景修复网络的输出为去除了文本内容的纯净背景图像；所述背景修复网络的子网络主体是一个带有跳跃连接的编码器解码器结构，再加上扩张卷积扩大网络的感受野。

6.如权利要求5所述的基于文字属性引导的文本图像编辑方法，其特征在于，所述前背景融合网络的输入为前两个子网络的结果，所述前背景融合网络的输出为最终的编辑图像，所述前背景融合网络由编码器与解码器组成，将前景变换的新文本图像与纯背景图像进行融合，得到编辑结果。

7.如权利要求6所述的基于文字属性引导的文本图像编辑方法，其特征在于，所述字体字符属性引导网络的输入为编辑图像与对应的标签图像，所述字体分类器与字符分类器均是由相应数据集预训练得到的，通过交叉熵损失与感知损失正则化编辑网络的模型参数，使生成的图像在字体字形与内容语义上生成更加准确。

8.一种文本图像编辑系统，其特征在于，所述系统包括：

9.如权利要求8所述的文本图像编辑系统，其特征在于，所述前景变换网络的输入为原始待编辑的文本图像，所述前景变换网络的输出为迁移了原图文字样式的新文本内容的前景图像，所述前景变换网络的子网络由两个编码器与两个解码器组成。

10.如权利要求9所述的文本图像编辑系统，其特征在于，所述两个编码器分别通过三个下采样卷积块提取出原图的文本风格特征和新文本的语义内容特征；然后将两者在通道维度进行聚合，通过一个解码器进行图像生成与输出。