CN117635771A

CN117635771A - 一种基于半监督对比学习的场景文本编辑方法和装置

Info

Publication number: CN117635771A
Application number: CN202311690794.4A
Authority: CN
Inventors: 殷敏; 梁浩然; 谢亮; 赵邢; 梁荣华
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-03-01

Abstract

一种基于半监督对比学习的场景文本编辑方法和装置，其方法包括：准备训练数据，包含样式文本图像I_s和标准内容文本图像I_c以及合成图像相应的标签；对样式文本图像I_s中的文本进行擦除，得到无文本的背景图O_b以及I_s对应的掩码图Mask_s；对样式文本图像l_s和标准内容文本图像I_c进行预变换，即对I_s进行背景过滤和样式增强得到I′_s，并对I_c的文本方向进行调整，使其和I_s的文本方向一致得到I′_c；对I′_s中的文本进行编辑，使其具有I′_c的文本内容，并与背景特征融合得到初步的目标文本图像与其对应的掩码图Mask_t；训练时，再结合对比学习策略对所得结果进行优化；在推理过程中，将与Mask_t以及O_b执行一种笔划级别的修改，得到最终编辑完成的目标文本图像O_t。

Description

一种基于半监督对比学习的场景文本编辑方法和装置

技术领域

本发明属于计算机视觉图像处理领域，具体涉及一种基于半监督对比学习的场景文本编辑方法和装置。

背景技术

文字在社会交流中扮演着重要的角色，不仅是文化表达和思想交流的工具，也是信息传递的媒介。在视觉设计领域，文字作为重要的视觉元素，对整体设计起着关键作用。设计师们需要巧妙运用字体风格、颜色和排列方式，使得文字与其他设计元素和谐统一，达到视觉上的平衡和美感。

近年来，随着人工智能技术的迅猛发展和社交媒体的不断进步，场景文本编辑技术逐渐崭露头角。该技术的目标是在保持文本的样式(字体、颜色、纹理等)和背景纹理不变的前提下，对图片中的文本内容进行修改。这一技术已广泛应用于场景文本图像修复、文本图像合成、隐私信息保护、增强现实翻译以及广告图像编辑等领域，极大地降低了对专业软件和人工操作的需求，因此对于场景文本编辑技术的研究具有极其重要的实际意义。

目前存在两种主要的场景文本编辑方法，根据修改的字符数量不同分为字符级别和单词级别。字符级别的编辑方法由于无法使用不同长度的文本内容对原文本进行修改，因而在实际应用中受到一定的限制。相对而言，单词级别的编辑方法可以使用长度任意的文本来对原文本进行修改。因此，大多数现有的场景文本编辑方法更倾向于基于单词级别的操作。现有的很多基于单词级别的场景文本编辑方法都将文本编辑任务看作是图像到图像的转换任务，在图像上修改所有的像素，导致文本样式视觉效果不佳。而基于笔划级别的修改(Stroke-Level Modification,SLM)方法，可以过滤掉复杂的背景区域，明确地引导模型对文本区域进行编辑，使得在文本编辑时更加专注于模仿文本的样式，从而增强了模型的样式模仿能力。生成对抗网络(Generative Adversarial Network,GAN)作为主流的一种生成模型，在风格迁移、图像转换、姿势估计等方面受到越来越多的关注或发展，因此现有大多数基于单词级别的场景文本编辑方法也是基于GAN。

针对当前大多数场景文本编辑方法存在的问题，由于背景纹理的复杂性，使得在保持背景纹理不变的前提下有效地模仿文本样式成为一项挑战。这些方法普遍存在字体样式模仿能力不足、颜色失真以及生成图像模糊等问题。此外，这些方法通常只能使用带标签的合成图像进行训练。由于合成图像和真实场景文本图像之间存在领域差异，这种训练方式导致使用无标签的真实场景文本图像进行推理时效果不佳。对于现有的半监督混合学习的方法，该方法同时利用合成图像和真实场景文本图像进行训练。在这种方法中，通过确保编辑前后文本内容不发生变化，并将编辑前的真实场景文本图像作为真实标签引入训练。然而，这种方式可能会导致网络退化为恒等映射网络，即生成的目标文本图像和输入的样式文本图像一致。因此，如何提升模型的样式模仿能力同时使用无标签的真实场景文本图像进行有效训练而不退化为恒等网络是一个十分重要的问题。

发明内容

本发明的要克服现有技术存在的上述问题，提出一种半监督对比学习的场景文本编辑方法和装置，以提升模型对文本样式的模仿能力，同时能有效地使用无标签的真实场景文本图像进行训练从而避免恒等网络的问题。

本发明的一种基于半监督对比学习的场景文本编辑方法，构建了一个新颖的文本编辑模块，采用半监督混合学习方式，并结合对比学习策略，以提升模型对样式的模仿能力生成高质量的文本图像。同时，该方法有效地利用不同的文本内容对真实场景文本图像进行编辑从而解决了网络可能退化成恒等网络的问题。

本发明的第一个方面涉及一种半监督对比学习的场景文本编辑方法，其具体步骤如下：

(1)准备训练数据，包含样式文本图像I_s和标准内容文本图像I_c以及合成图像相应的标签，并对训练数据进行初步预处理，具体过程如下：

(1-1)准备150k张带标签的合成图像和34625张无标签的真实场景文本图像作为样式文本图像I_s。

(1-2)从单词库中抽取不同于真实场景文本图像的单词作为内容文本，在输入模型前，使用统一的字体(arial.ttf)和PIL(Python Image Library)来生成标准内容文本图像I_c。

(1-3)在输入模型前，将所有的训练数据调整成256x64的大小。

(1-4)批次大小设置为16，包含14张带标签的合成图像和2张无标签的真实场景文本图像，以此方式进行半监督混合学习，能够同时使用合成图像和真实场景文本图像进行训练。

(2)对样式文本图像I_s中的文本进行擦除，得到无文本的背景图O_b以及I_s对应的掩码图Mask_s，具体过程如下：

(2-1)将样式文本图像I_s输入编码器ε进行编码，再通过PSP模块进行处理，最后通过解码器进行解码，得到初步的无文本背景图/>和样式文本图像对应的掩码图Mask_s。其中编码器是由三个下采样层和四个残差块组成，解码器则由三个上采样层组成。在PSP模块中，首先并联了四个不同尺寸的金字塔池化层(1×1、2×2、3×3、6×6)，对输入特征进行自适应平均池化，获得每个不同尺度的特征图。随后，对这些特征图分别进行自适应平均池化，并插值调整大小以匹配原始特征图的尺寸。最终，将所有金字塔池化层的输出与原始特征图进行串联输入解码器。

(2-2)将步骤(2-1)得到的和掩码图Mask_s以及样式文本图像I_s进行笔划级别的修改(Stroke-Level Modification,SLM)，得到最终的无文本背景图O_b。

(2-3)将步骤(2-2)得到的O_b使用对抗损失以及L2损失进行优化，而步骤(2-1)得到的掩码图Mask_s使用dice损失进行优化。判别器使用与PatchGAN相同的结构，由5个卷积层组成，用来判别O_b和真实的目标背景是否相似。

(3)对样式文本图像I_s和标准内容文本图像I_c进行预变换，即对I_s进行背景过滤和样式增强得到I′_s，并对I_c的文本方向进行调整，使其和I_s的文本方向一致得到I′_c，具体过程如下：

(3-1)将步骤(2-1)得到的掩码图Mask_s和样式文本图像I_s逐元素相乘，得到背景过滤后的样式文本图像以去除复杂背景对编辑过程的干扰。

(3-2)在训练过程中，将步骤(3-1)中得到的采用[-15°,15°]的随机旋转以及0.5的概率进行随机翻转等操作以进行样式增强，得到样式增强后的样式文本图像I′_s。

(3-3)将样式文本图像I_s输入空间位置变换(Space Position Module,SPT)模块获取文本轮廓的控制点信息，然后结合薄板样条插值算法(Thin Plate Splines,TPS)对标准内容文本图像I_c的文本方向进行调整，使其与I_s具有相同的文本方向，得到转换文本方向后的内容文本图像I′_c。其中SPT模块包括一个编码器和两个全连接层，编码器同样是由三个下采样和四个残差块组成，然后将编码得到的特征图分别通过两个全连接层得到文本轮廓的控制点信息。

(4)对I′_s中的文本进行编辑，使其具有I′_c的文本内容，但是其样式(字体、颜色、纹理等)保持不变，并与背景特征进行融合得到初步的目标文本图像与其对应的掩码图Mask_t。训练时，再结合对比学习策略不断对所得结果进行优化，具体过程如下：

(4-1)将步骤(3-2)的得到的I′_s和步骤(3-3)得到的I′_c分别输入风格编码器ε_s和内容编码器ε_c中进行编码，得到对应的风格特征图F_s和内容特征图F_c。其中风格编码器和内容编码器均由三个下采样和四个残差块组成，风格编码器使用普通的卷积，而在内容编码器的下采样层引入的可变形卷积，并且都使用实例归一化(Instance Normalization,IN)作为归一化的方式。

(4-2)将步骤(4-1)得到的F_s和F_c通过多层感知机(Multi-Layer Perception,MLP)分别转换为对应的风格向量V_s和内容向量V_c，其中V_c仅用于后续的对比学习过程。

(4-3)将步骤(4-1)得到的F_s和F_c在通道级别上进行连接输入解码器中，并将步骤(4-2)得到的V_s通过自适应实例归一化(Adaptive Instance Normalization,AdaIN)层输入解码器中，同时解码器的每一个上采样层连接着内容编码器对应分辨率的下采样层。将这些特征与背景特征进行融合，通过解码器解码后得到初步的目标文本图像与其对应的掩码图Mask_t。其中，解码器具有4个卷积块，每个卷积块包含两个卷积层，在前三个卷积块的第二层引入了可变形卷积，其余卷积层均使用普通卷积，并在每一个普通卷积层后面都使用了AdaIN层。

(4-4)训练过程中，将步骤(4-3)得到的与Mask_t逐元素相乘，得到背景过滤后的目标文本图像/>

(4-5)将步骤(4-4)得到分别输入到ε′_s和ε′_c中，其中ε′_s和ε′_c分别与风格编码器ε_s和内容编码器ε_c具有相同的结构，它们在前向传播的过程中分别与ε_s以及ε_c共享参数。通过ε′_s和ε′_c后可以得到相应的风格特征图和内容特征图，再采用步骤(4-2)相同的方式将特征图转化成相应的风格特征向量V′_s和内容特征向量V′_c，其中V′_s和V′_c分别用于计算风格对比损失和内容对比损失。

(4-6)使用对比学习策略，将与对应的/>作为其风格正样本，而批次中其余样式文本图像/>作为其负样本，使得其与正样本在特征空间中的距离更近而与负样本在特征空间的距离更远。其中风格对比损失使用InfoNCE损失。

(4-7)与步骤(4-6)过程类似，将与对应的/>作为其内容正样本，而批次中其余内容文本图像/>作为其负样本，使得生成文本的内容正确性。其中内容对比损失也使用InfoNCE损失。

(4-8)在带标签的合成图像上，对于步骤(4-3)得到的初步目标文本图像使用对抗损失、L2损失、VGG损失以及识别损失进行优化，判别器也使用PatchGAN相同的结构，包括5个卷积层，用来判别/>和真实的目标文本图像是否相似。其中VGG损失包含感知损失和风格损失。而在无标签的真实场景文本图像上，仅使用识别损失进行优化。掩码图Mask_t使用dice损失进行优化。对于步骤(4-4)所得/>在合成图像和真实场景文本图像上，都使用风格对比损失和内容对比损失进行优化，进而对/>和Mask_t进行间接优化。

(5)在推理过程中，将步骤(4)得到的初步的目标文本图像与其对应的掩码图Mask_t以及步骤(2)得到的无文本背景图像O_b执行一种笔划级别的修改，得到最终编辑完成的目标文本图像O_t，具体过程如下：

(5-1)将步骤(4-3)得到的初步编辑的目标文本图像与其对应的掩码图Mask_t以及步骤(2-2)得到的无文本背景图像O_b执行笔划级别的修改(Stroke-LevelModification,SLM)，得到最终编辑完成的目标文本图像O_t，该步骤是对/>的进一步细化，使得最终编辑完成的目标文本图像的背景直接源自样式文本图像，以最大程度保证背景的不变性。

本发明的第二个方面涉及一种基于半监督对比学习的场景文本编辑装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现本发明的一种基于半监督对比学习的场景文本编辑方法。

本发明的第三个方面涉及一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现本发明的一种基于半监督对比学习的场景文本编辑方法。

本发明提出了一种新颖的文本编辑模块，训练时采用半监督混合学习的方式，并引入对比学习，训练出一种基于半监督对比学习的场景文本编辑网络模型，使得在生成高质量文本图像的同时能有效地利用不同的文本内容对真实场景文本图像进行编辑从而解决了网络可能退化成恒等网络的问题。与现有技术相比，本发明的积极效果：

1.本发明提出了一种新颖的文本编辑模块，通过在文本编辑模块中使用可变形卷积以及自适应实例归一化，以提高模型对文本样式的模仿能力，生成高质量的文本图像，可以解决现有场景文本编辑方法中对文本的字体样式模仿能力不佳、颜色失真以及生成的文本与背景融合不自然的问题。

2.本发明提出了一种新的半监督混合式学习方法，并引入对比学习策略，在训练中同时采用内容对比损失和风格对比损失对初步的编辑结果进行优化，可以同时使用带标签的合成图像和无标签的真实场景文本图像进行混合训练。并且与现有的半监督场景文本编辑方法不同，本发明允许使用与真实场景文本图像不同的文本内容对其进行编辑，使用了对比学习来确保编辑后的目标文本图像内容和风格的准确性，因此本发明在使用无标签的真实场景文本图像进行训练的同时又能完全解决现有半监督方法中网络可能退化为恒等网络的问题。

3.本发明提出的方法是首次尝试使用对比学习在场景文本编辑任务上的工作，推动了场景文本编辑工作的进步。

4.本发明评估了提出的新模型，实验结果表明该方法在合成图像上以及真实场景文本图像上定性和定量的结果都优于现有基于GAN的场景文本编辑方法。

附图说明

图1为本发明所述一种基于半监督对比学习的场景文本编辑方法流程图。

图2为本发明方法训练时生成网络模型图。

图3为本发明提出的一种新颖的文本编辑模块的结构示意图。

图4为本发明方法推理时网络模型图。

图5为本发明方法在合成图像上编辑后的结果示例图。

图6为本发明方法在真实场景文本图像上编辑后的结果示例图。

具体实施方案

下面将结合本申请实施例中附图，对本发明的技术方案进行清晰、完整的描述。此处描述的具体实施仅用于解释本发明，并不用于限定本发明。

实施例1

本发明的具体流程参考图1，训练时生成网络模型图参考图2，本申请实施例提供一种基于半监督对比学习的场景文本编辑方法，包括如下步骤：

(1-1)准备150k张带标签的合成图像和34625张无标签的真实场景文本图像作为样式文本图像I_s。其中合成图像总共使用了300种字体和12000张背景图像进行合成，并进行了随机旋转、曲线和透视变换，而真实场景文本图像使用MLT-2017数据集。

(1-2)从单词库中抽取不同于样式文本图像的单词作为内容文本，在输入模型前，使用统一的字体(arial.ttf)和PIL(Python Image Library)来生成标准内容文本图像I_c。

(1-3)在输入模型前，将所有的训练数据调整成256x64的大小。

(2-1)将样式文本图像I_s输入编码器ε进行编码，再通过PSP模块进行处理，最后通过解码器进行解码，得到初步的无文本背景图/>和样式文本图像对应的掩码图Mask_s。其中编码器是由三个下采样层和四个残差块组成，解码器则由三个上采样层组成。在PSP模块中，首先并联了四个不同尺寸的金字塔池化层(1×1、2×2、3×3、6×6)，对输入特征进行自适应平均池化，获得每个不同尺度的特征图。随后，对这些特征图分别进行自适应平均池化，并插值调整大小以匹配原始特征图的尺寸。最终，将所有金字塔池化层的输出与原始特征图进行串联输入解码器，PSP模块的应用能够有效地捕获编码器在不同尺度上的信息。

(2-2)将步骤(2-1)得到的和掩码图Mask_s以及样式文本图像I_s进行笔划级别的修改(Stroke-Level Modification,SLM)，得到最终的无文本背景图O_b。其中笔划级别修改过程如下：

使用笔划级别的修改的优点可以最大程度的保持背景纹理的不变性。

(3-1)将步骤(2-1)得到的掩码图Mask_s和样式文本图像I_s逐元素相乘，得到背景过滤后的样式文本图像以去除复杂背景对编辑过程的干扰。通过此方式可以让模型在文本编辑的过程中更加专注于对文本样式进行模仿。

(3-2)在训练过程中，将步骤(3-1)中得到的采用[-15°,15°]的随机旋转以及0.5的概率进行随机翻转等操作以进行样式增强，得到样式增强后的样式文本图像I′_s。样式增强的目的是让编码器学习到更加鲁棒的样式特征。

通过此方式可以将文本的其他样式(字体、颜色和纹理等)与文本的空间位置信息解耦，使得模型能够专注于对文本的字体、颜色和纹理等样式进行模仿。

(4)对I′_s中的文本进行编辑，使其具有I′_c的文本内容，但是其样式(字体、颜色、纹理等)保持不变，并与背景特征进行融合得到初步的目标文本图像与其对应的掩码图Mask_t。训练时，再结合对比学习策略不断对所得结果进行优化。如图2和图3所示，具体过程如下：

(4-1)将步骤(3-2)的得到的I′_s和步骤(3-3)得到的I′_c分别输入风格编码器ε_s和内容编码器ε_c中进行编码，得到对应的风格特征图F_s和内容特征图F_c。其中风格编码器和内容编码器均由三个下采样和四个残差块组成，风格编码器使用普通的卷积，而在内容编码器的下采样层引入的可变形卷积，并且都使用实例归一化(Instance Normalization,IN)作为归一化的方式。相较于批量归一化(Batch Normalization,BN)，更加适合小批次数据的训练，且IN对每个样本进行归一化，而BN对整个批次进行归一化，这使得IN更适用于场景文本编辑这种对样本之间存在差异的任务。

(4-3)将步骤(4-1)得到的F_s和F_s在通道级别上进行连接输入解码器中，并将步骤(4-2)得到的V_s通过自适应实例归一化(Adaptive Instance Normalization,AdaIN)层输入解码器中，同时解码器的每一个上采样层连接着内容编码器对应分辨率的下采样层。将这些特征与背景特征进行融合，通过解码器解码后得到初步的目标文本图像与其对应的掩码图Mask_t。其中，解码器具有4个卷积块，每个卷积块包含两个卷积层，在前三个卷积块的第二层引入了可变形卷积，其余卷积层均使用普通卷积，并在每一个普通卷积层后面都使用了AdaIN层。

由于可变形卷积相较于普通卷积，更加适合文本这种几何形变较大的物体，因为它的采样位置更密切地与文本的形状和大小对齐，有助于更准确地模仿样式文本的字体样式和大小。而AdaIN的使用能够更好的对齐文本颜色以及纹理，通过引入可变形卷积以及AdaIN可以增强文本编辑模块对于文本样式的模仿能力。同时为了使得生成的图像更加清晰，本发明在文本编辑模块使用了预训练好的文本识别器。如图2所示，阻隔梯度，只传背景特征数据是为了让原始文本擦除的更加彻底，使得生成的目标文本能够更加清晰。

(4-4)训练过程中，将步骤(4-3)得到的与Mask_t逐元素相乘，得到背景过滤后的目标文本图像/>以过滤掉复杂的背景纹理，简化对比学习过程，在进行对比学习时，只需要关注文本样式或者文本内容就能对正负样本进行区分。

(4-5)将步骤(4-4)得到分别输入到ε′_s和ε′_c中，其中ε′_s和ε′_c分别与风格编码器ε_s和内容编码器ε_c具有相同的结构，它们在前向传播的过程中分别与ε_s以及ε_c共享参数。通过ρ′_s和ρ′_c后可以得到相应的风格特征图和内容特征图，再采用步骤(4-2)相同的方式将特征图转化成相应的风格特征向量V′_s和内容特征向量V′_c，其中V′_s和V′_c分别用于计算风格对比损失和内容对比损失。

(4-6)使用对比学习策略，将与对应的/>作为其风格正样本，而批次中其余样式文本图像/>作为其负样本，使得其与正样本在特征空间中的距离更近而与负样本在特征空间的距离更远。其中风格对比损失使用InfoNCE损失，其计算过程如下：

其中表示风格对比损失，/>包括正样本/>和所有负样本/>n表示batch的大小，其值被设置成16，cosine表示余弦相似度，l_s表示获取对应图像的风格特征向量，以及/>分别代表/>和/>

(4-7)与步骤(4-6)过程类似，将与对应的/>作为其内容正样本，而批次中其余内容文本图像/>作为其负样本，使得生成文本的内容正确性。其中内容对比损失也使用InfoNCE损失，其计算过程如下：

其中表示内容对比损失，/>包含正样本/>和所有的负样本/>l_c表示获取对应图像的内容特征向量，/>以及/>分别代表/>和/>

将对比学习过程应用在上而非/>上其一可以过滤掉复杂的背景，简化对比学习过程，其二这样也能间接地对掩码图mask_t进行优化，确保其内容和字体样式的正确性。由于真实的场景文本图像上没有与mask_t对应的标签，很难保证生成的mask_t生成的内容和字体样式的正确性，在现有的半监督场景文本编辑方法中，往往生成的mask_t笔划不清晰或者文本内容不正确，而Mask_t对于之后的推理过程生成最终的编辑目标文本十分重要。因此，本发明将对比学习过程应用在/>上，有效确保/>和mask_t的文本内容和文本样式的准确性。

(5)如图4所示，在推理过程中，将步骤(4)得到的初步的目标文本图像与其对应的掩码图Mask_t以及步骤(2)得到的无文本背景图像O_b执行一种笔划级别的修改，得到最终编辑完成的目标文本图像O_t，具体过程如下：

(5-1)将步骤(4-3)得到的初步编辑的目标文本图像与其对应的掩码图Mask_t以及步骤(2-2)得到的无文本背景图像O_b执行笔划级别的修改(Stroke-LevelModification,SLM)，得到最终编辑完成的目标文本图像O_t，该步骤是对/>的进一步细化，使得最终编辑完成的目标文本图像的背景直接源自样式文本图像，以最大程度保证背景的不变性。其整个过程可表示为：

采用本发明的方法进行文本编辑的效果图参考图5和图6，其证明了本发明提出的方法具有可行性，编辑后的目标文本图像清晰，内容和样式准确，并且能够与背景自然的进行融合。

实施例2

本实施例涉及一种基于半监督对比学习的场景文本编辑装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现实施例1的一种基于半监督对比学习的场景文本编辑方法。

实施例3

本实施例涉及一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现实施例1的一种基于半监督对比学习的场景文本编辑方法。

本发明能够生成更高质量的文本图像，首次尝试在场景文本编辑工作中引入对比学习，推动了场景文本编辑工作的进步。

本领域普通技术人员可以理解，以上所述仅为发明的优选实例而已，并不用于限制发明，尽管参照前述实例对发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims

1.一种基于半监督对比学习的场景文本编辑方法，其特征在于，包括以下步骤：

(1)准备训练数据，包含样式文本图像I_s和标准内容文本图像I_c以及合成图像相应的标签,并对训练数据进行初步预处理；

(2)对样式文本图像I_s中的文本进行擦除，得到无文本的背景图O_b以及I_s对应的掩码图Mask_s；

(3)对样式文本图像I_s和标准内容文本图像I_c进行预变换，即对I_s进行背景过滤和样式增强得到I′_s，并对I_c的文本方向进行调整，使其和I_s的文本方向一致得到I′_c；

(4)对I′_s中的文本进行编辑，使其具有I′_c的文本内容，但是其样式(字体、颜色、纹理等)保持不变，并与背景特征进行融合得到初步的目标文本图像与其对应的掩码图Mask_t；训练时，再结合对比学习策略不断对所得结果进行优化；

(5)在推理过程中，将步骤(4)得到的初步的目标文本图像与其对应的掩码图Mask_t以及步骤(2)得到的无文本背景图像O_b执行一种笔划级别的修改，得到最终编辑完成的目标文本图像O_t。

2.如权利要求1所述的方法，其特征在于，步骤(1)所述的准备训练数据，并对其进行初步预处理的方法包括如下步骤：

(1-1)准备150k张带标签的合成图像和34625张无标签的真实场景文本图像作为样式文本图像I_s；

(1-2)从单词库中抽取不同于真实场景文本图像的单词作为内容文本，在输入模型前，使用统一的字体(arial.ttf)和PIL(Python Image Library)来生成标准内容文本图像I_c；

(1-3)在输入模型前，将所有的训练数据调整成256x64的大小；

(1-4)批次大小设置为16，包含14张带标签的合成图像和2张无标签的真实场景文本图像，以此方式进行半监督混合学习。

3.如权利要求1所述的方法，其特征在于，步骤(2)所述的对样式文本图像I_s中的文本进行擦除对包括如下步骤：

(2-1)将样式文本图像I_s输入编码器ε进行编码，再通过PSP模块进行处理，最后通过解码器进行解码，得到初步的无文本背景图/>和样式文本图像对应的掩码图Mask_s；其中编码器是由三个下采样层和四个残差块组成，解码器则由三个上采样层组成；在PSP模块中，首先并联了四个不同尺寸的金字塔池化层(1×1、2×2、3×3、6×6)，对输入特征进行自适应平均池化，获得每个不同尺度的特征图；随后，对这些特征图分别进行自适应平均池化，并插值调整大小以匹配原始特征图的尺寸；最终，将所有金字塔池化层的输出与原始特征图进行串联输入解码器；(2-2)将步骤(2-1)得到的/>和掩码图Mask_s以及样式文本图像I_s进行笔划级别的修改(Stroke-Level Modification,SLM)，得到最终的无文本背景图O_b；其中笔划级别修改过程如下：

(2-3)将步骤(2-2)得到的O_b使用对抗损失以及L2损失进行优化，而步骤(2-1)得到的掩码图Mask_s使用dice损失进行优化；判别器使用与PatchGAN相同的结构，由5个卷积层组成，用来判别O_b和目标背景是否相似。

4.如权利要求1所述的方法，其特征在于，步骤(3)所述的对样式文本图像I_s和标准内容文本图像I_c进行预变换的操作，包括如下步骤：

(3-1)将步骤(2-1)得到的掩码图Mask_s和样式文本图像I_s逐元素相乘，得到背景过滤后的样式文本图像以去除复杂背景对编辑过程的干扰；

(3-2)在训练过程中，将步骤(3-1)中得到的采用[-15°,15°]的随机旋转以及0.5的概率进行随机翻转等操作以进行样式增强，得到样式增强后的样式文本图像I′_s；

(3-3)将样式文本图像I_s输入空间位置变换(Space Position Module,SPT)模块获取文本轮廓的控制点信息，然后结合薄板样条插值算法(Thin Plate Splines,TPS)对标准内容文本图像I_c的文本方向进行调整，使其与I_s具有相同的文本方向，得到转换文本方向后的内容文本图像I′_c；其中SPT模块包括一个编码器和两个全连接层，编码器同样是由三个下采样和四个残差块组成，然后将编码得到的特征图分别通过两个全连接层得到文本轮廓的控制点信息。

5.如权利要求1所述的方法，其特征在于，步骤(4)所述的对I′_s中的文本进行编辑的过程包括如下步骤：

(4-1)将步骤(3-2)的得到的I′_s和步骤(3-3)得到的I′_c分别输入风格编码器ε_s和内容编码器ε_c中进行编码，得到对应的风格特征图F_s和内容特征图F_c；其中风格编码器和内容编码器均由三个下采样和四个残差块组成，风格编码器使用普通的卷积，而在内容编码器的下采样层引入的可变形卷积，并且都使用实例归一化(Instance Normalization,IN)作为归一化的方式；

(4-2)将步骤(4-1)得到的F_s和F_c通过多层感知机(Multi-Layer Perception,MLP)分别转换为对应的风格向量V_s和内容向量V_c，其中V_c仅用于后续的对比学习过程；(4-3)将步骤(4-1)得到的F_s和F_c在通道级别上进行连接输入解码器中，并将步骤(4-2)得到的V_s通过自适应实例归一化(Adaptive Instance Normalization,AdaIN)层输入解码器中，同时解码器的每一个上采样层连接着内容编码器对应分辨率的下采样层；将这些特征与背景特征进行融合，通过解码器解码后得到初步的目标文本图像与其对应的掩码图Mask_t；其中，解码器具有4个卷积块，每个卷积块包含两个卷积层，在前三个卷积块的第二层引入了可变形卷积，其余卷积层均使用普通卷积，并在每一个普通卷积层后面都使用了AdaIN层；

(4-5)将步骤(4-4)得到分别输入到ε′_s和ε′_c中，其中ε′_s和ε′_c分别与风格编码器ε_s和内容编码器ε_c具有相同的结构，它们在前向传播的过程中分别与ε_s以及ε_c共享参数；通过ε′_s和ε′_c后可以得到相应的风格特征图和内容特征图，再采用步骤(4-2)相同的方式将特征图转化成相应的风格特征向量V′_s和内容特征向量V′_c，其中V′_s和V′_c分别用于计算风格对比损失和内容对比损失；

(4-6)使用对比学习策略，将与对应的/>作为其风格正样本，而批次中其余样式文本图像/>作为其负样本，使得其与正样本在特征空间中的距离更近而与负样本在特征空间的距离更远；其中风格对比损失使用InfoNCE损失，其计算过程如下：

(4-7)与步骤(4-6)过程类似，将与对应的/>作为其内容正样本，而批次中其余内容文本图像/>作为其负样本，使得生成文本的内容正确性；其中内容对比损失也使用InfoNCE损失，其计算过程如下：

其中表示内容对比损失，/>包含正样本/>和所有的负样本/>l_c表示获取对应图像的内容特征向量，/>以及/>分别代表/>和/>(4-8)在带标签的合成图像上，对于步骤(4-3)得到的初步目标文本图像/>使用对抗损失、L2损失、VGG损失以及识别损失进行优化，判别器也使用PatchGAN相同的结构，包括5个卷积层，用来判别/>和真实的目标文本图像是否相似；其中VGG损失包含感知损失和风格损失；而在无标签的真实场景文本图像上，仅使用识别损失进行优化；掩码图Mask_t使用dice损失进行优化；对于步骤(4-4)所得/>在合成图像和真实场景文本图像上，都使用风格对比损失和内容对比损失进行优化，进而对/>和Mask_t进行间接优化。

6.如权利要求1所述的方法，其特征在于，步骤(5)所述模型的推理过程包含如下步骤：

(5-1)将步骤(4-3)得到的初步编辑的目标文本图像与其对应的掩码图Mask_t以及步骤(2-2)得到的无文本背景图像O_b执行笔划级别的修改(Stroke-Level Modification,SLM)，得到最终编辑完成的目标文本图像O_t，该步骤是对/>的进一步细化；其整个过程可表示为：

7.一种基于半监督对比学习的场景文本编辑装置，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-6中任一项所述的一种基于半监督对比学习的场景文本编辑方法。

8.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1-6中任一项所述的一种基于半监督对比学习的场景文本编辑方法。