CN116402067A

CN116402067A - 面向多语种文字风格保持的跨语言自监督生成方法

Info

Publication number: CN116402067A
Application number: CN202310359660.8A
Authority: CN
Inventors: 苏统华; 杨富祥; 周翔; 李松泽; 陈鄞; 王忠杰; 涂志莹; 徐汉川; 马樱
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-07-07
Anticipated expiration: 2043-04-06
Also published as: CN116402067B

Abstract

本发明公开了一种面向多语种的自监督跨语言文字风格保持生成方法，所述方法包括如下步骤：一、建立用于实现跨语言生成任务的条件生成对抗网络模型；二、条件生成对抗网络模型在多语言真实数据中进行自监督训练，且在自监督训练过程使用识别器和条件生成对抗网络模型联合训练，提升最终的风格文本图像可辨读性。本发明综合利用风格迁移、生成对抗网络、图像修复、场景文字擦除和图像文字识别等技术，面向多语种实施跨语言文字风格保持生成，将图像的文本内容修改为另一种语言的新文本，同时保留图像中文字风格和背景纹理，能够解决图像翻译后的结果面临替换前后文本风格不一致、背景纹理不协调等问题，给用户带来更好的图像翻译体验。

Description

面向多语种文字风格保持的跨语言自监督生成方法

技术领域

本发明涉及一种跨语言自监督生成方法，具体涉及一种面向多语种文字风格保持的跨语言自监督生成方法。

背景技术

人工智能生成内容(AI Generated Content，AIGC)被认为是继专业内容生产(PGC)、用户内容生产(UGC)之后的新型内容创作方式。其中一个常见应用场景是图片翻译任务，它将图像中的文本风格保持的替换为新的译文。目前有多家公司推出了图片翻译服务，但图像翻译后的结果面临着替换前后文本风格不一致、背景纹理不协调等问题。

现有的生成方法应用到自然场景文字场合时，会面临很大的挑战，主要问题在于自然场景文本图像的复杂性，具体来说可分为以下几点：1)场景文本图像缺少成对的数据，即文本风格一致但文本内容不同的一对图像；2)场景图像文本具有不同的大小、字体、颜色、亮度、对比度等，且存在弯曲、旋转、扭曲等风格；3)背景纹理极其多样，且文字区域附近存在复杂的干扰纹理。除此之外，由于是跨语言风格保持生成，还面临着严重问题：当不同语言的字符结构差异很大时，如何有效的传递文本风格。

目前文字风格保持生成技术需要综合利用风格迁移、生成对抗网络(GAN)、图像文字识别、图像修复和场景文字擦除等技术，其中：

风格迁移通常是将图片的风格从一个风格转换到另外一个风格，同时使得新生成的图片具有源图片风格。

生成对抗网络(GAN)由一个生成网络和一个判别网络组成。两个模型通过对抗过程同时训练。生成网络学习创造逼真的样本，判别网络则学习如何辨别真实样本与生成的“假样本”。StyleGAN系列模型是目前比较先进的生成对抗网络架构，许多文字图像的风格保持生成算法就是基于StyleGAN设计。

图像文字识别算法大多包括四个阶段：图像校正、视觉特征提取、序列特征提取和预测模块。典型的架构为STN+ResNet+BiLSTM+CTC/Attention。文字识别算法可以作为生成模型结果的内容层面的监督信号，常常使用CTC损失、交叉熵损失等提高生成结果的可辨读性。

图像修复和场景文字擦除主要擦除图像中的文本区域，填充合理的背景纹理，并且要保证非文本区域的真实性。

Wu等人公开了一种针对同语言实现风格文字保持生成方法(Wu L,Zhang C,LiuJ,et al.Editing text in the wild[C]//Proceedings of the 27th ACMinternational Conference on Multimedia.2019,pp1500-1508)，该方法首次实现对自然场景下图像中的单词进行编辑替换，其存在以下问题：

(1)无法处理自然场景的复杂文字图像，由于架构限制，模型只能在合成数据训练，因此面对真实场景的复杂数据效果急剧下降。

(2)没有针对多语种跨语言生成的处理，无法适用于多语种跨语言场景。

(3)生成过程只是利用了图像特征，没有使用文本信息，面对多语种场景生成结果文字可辨读性受到严重影响。

发明内容

本发明的目的是提供一种面向多语种文字风格保持的跨语言自监督生成方法，综合利用风格迁移、生成对抗网络、图像修复、场景文字擦除和图像文字识别等技术，面向多语种实施跨语言文字风格保持生成，将图像的文本内容修改为另一种语言的新文本，同时保留图像中文字风格和背景纹理。本发明能够解决图像翻译后的结果面临替换前后文本风格不一致、背景纹理不协调等问题，给用户带来更好的图像翻译体验。

本发明的目的是通过以下技术方案实现的：

一种面向多语种的自监督跨语言文字风格保持生成方法，包括如下步骤：

步骤一、建立用于实现跨语言生成任务的条件生成对抗网络模型

所述条件生成对抗网络模型包括生成器和鉴别器两部分，鉴别器采用常规PatchGAN结构，生成器包括文本嵌入器TE、内容编码器E_C、风格编码器E_S、映射网络MAP、背景恢复网络BR和重写生成器RG六部分，其中：

所述文本嵌入器TE用于将目标文本T_t编码为文本信息特征；

所述内容编码器E_C用于从目标内容图像T_c提取文本内容图像特征；

所述风格编码器E_S用于将风格文本图像I_s的文本风格向量化；

所述映射网络MAP用于将风格向量不同属性解耦合；

所述背景恢复网络用于擦除文本图像I_Ls中的文字并填充适当的背景纹理G_b，恢复文本区域像素；

所述重写生成器RG用于收集文本嵌入器TE、内容编码器E_C、映射网络MAP和背景恢复网络BR的信息在背景纹理图重写新的风格文本，合成最终的风格文本图像G_c；

步骤二、条件生成对抗网络模型在多语言真实数据中进行自监督训练，且在自监督训练过程使用识别器和条件生成对抗网络模型联合训练，提升最终的风格文本图像G_c可辨读性，其中：

所述自监督训练用于实现让条件生成对抗网络模型在真实场景非成对数据上进行训练，具体实现过程可分为训练推理设计和模型设计：

训练推理设计：由于真实场景未成对数据的限制，需要仔细设计训练推理流程，具体要求如下：训练过程中目标内容图像T_c和目标文本T_t的文本内容和风格文本图像I_s的文本内容一致，最终的风格文本图像G_c也以风格文本图像I_s作为真值，输出结果是以输入作为监督；推理时将改变目标内容图像T_c和目标文本T_t为另一种语言的文本内容，即可实现跨语言风格保真生成；

模型设计：此为自监督训练的基础，主要根据步骤二一的训练推理流程来设计模型，主要包括两项关键设计：1)背景修复网络的输入图像已经去除了风格文本图像I_s；2)合成过程使用AdaIN来引入风格文本图像I_s的风格信息，这样，合成过程所依赖的文本内容特征只能来自目标内容图像T_c和目标文本T_t；

所述联合训练的具体实现过程如下：识别器和条件生成对抗网络模型(包括生成器和鉴别器)都从随机初始化开始，不加载预训练模型，然后依次迭代更新识别器、鉴别器和生成器直至达到最大迭代次数，其中：更新识别器时，需要使用真实数据和文本标签来计算CTC损失，生成器的训练需要使用更新后的识别器。

相比于现有技术，本发明具有如下优点：

1、本发明提出了通用的面向多语种的跨语言生成模型，在跨语言场景风格保持生成效果更好。

2、本发明设计了新的自监督训练方法，模型能够在无标记、不成对真实数据进行训练，在复杂自然场景生成效果更强。

3、本发明针对多语种字符结构相差悬殊的问题，在生成过程使用了图像特征和文本信息多模态特征，并且引入识别器，让识别器从零开始和生成器联合训练，监督生成结果，有利于生成文本更易辨读的图像。

4、本发明支持韩语、俄语、泰语、缅甸语等多语种和中英文间的图像文本互译，特别适合于不同国家、不同地区的拍照翻译场景，能够促进人工智能技术与经济社会的深度融合。

附图说明

图1为本发明设计的跨语言生成网络架构图；

图2为文本嵌入器内部细节；

图3为识别器和条件生成对抗网络联合训练；

图4为跨语言文字风格保持生成案例1：从中文生成俄文；

图5为跨语言文字风格保持生成案例2：从英文生成韩文；

图6为跨语言文字风格保持生成案例3：从英文生成中文；

图7为真实数据实例。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

本发明提供了一种面向多语种的自监督跨语言文字风格保持生成方法，包括跨语言生成、自监督训练、多语种增强三项技术，每个技术的详细要点如下：

1、跨语言生成技术

跨语言生成技术实现了跨语言生成任务。如图1所示，本发明设计了一个条件生成对抗网络(GAN)，其生成器可分为六个部分：文本嵌入器TE(编码文本字符信息，这一结构既是跨语言生成模型的基础组件，也是多语种增强的关键技术)、内容编码器E_C(编码文本内容图像特征)、风格编码器E_S(编码文本风格)、映射网络MAP(将风格向量不同属性解耦合)、背景恢复网络BR(恢复文本区域像素)和重写生成器RG(收集前述其他组件的信息在背景纹理图重写新的风格文本)。其中，T_t是目标文本，T_c是目标内容图像，两者共同用作生成图像的文本内容条件；I_s是风格文本图像，提供文本风格；I_Ls是在原始图像中以较大范围裁剪的文本图像，通常是文本区域的若干倍；I_Ms是I_Ls中的文本位置的二进制掩码图像；G_b是背景恢复网络在文本区域中恢复的适当背景纹理，大小与I_s相同；G_c是由模型生成的最终风格文本图像。

针对跨语言场景进行优化设计，合理的网络架构设计让模型具备了跨语言生成能力。首先，背景和前景被分别处理，背景恢复网络BR被设计为根据文本区域周围的像素恢复内部纹理，因此独立于文本，文本相关处理侧重于前景风格文本合成。其次，前景风格文本合成过程将文本内容和文本风格分离，文本风格将独立于文本内容。

本发明将跨语言生成问题形式化。重写生成器RG以三个条件作为输入：文字内容条件

文字风格条件/>

背景纹理条件/>

由于背景恢复网络BR抠除文本然后再恢复背景纹理，因此和语言无关，可以去除lang标志。整个生成过程可以以条件GAN的形式编写，

其中，lang_i＝en，zh，...。由于真实场景没有跨语言标注的成对数据，因此训练过程使用相同的语言：lang₁＝lang₂＝en或lang₁＝lang₂＝zh。但该模型需要能够适应lang₁＝en，lang₂＝zh或lang₁＝zh，lang₂＝en的情况。从公式(1)中可以看出，如果文本风格编码器E_S提取的风格特征独立于文本内容和语种，则跨语言文本生成将退化为训练期间遇到的同语言情况。具体而言，如果是从中文编辑为英文，即lang₁＝en，lang₂＝zh，由于E_S提取的特征独立于中文，因此该模型可以利用训练期间遇到的lang₁＝lang₂＝en的情况来生成合理的结果。

本发明提出的跨语言生成技术可以解决“针对同语言实现风格文字保持生成方法”跨语言生成效果差的问题。

2、自监督训练技术

自监督训练技术让模型能够在真实场景非成对数据上开展训练。由于真实场景中缺少标记的配对数据，因此训练过程是自监督的。生成的图像G_c只能使用I_s作为真值来实施监督(主要使用3个损失：L1损失

感知损失/>

生成对抗损失/>

)，并辅以文本识别模型从文本内容的角度进行监督(识别结果CTC损失/>

)。但是，这样的训练过程很容易使模型欠拟合，也就是说，它不是学习基于文本内容、风格和背景合成图像的过程，而是直接输出I_s作为结果。

两个关键设计解决了这个问题：1)背景修复网络的输入图像已经去除了文本区域I_s；2)合成过程使用AdaIN来引入I_s的风格信息。这样，合成过程所依赖的文本内容特征只能来自T_c和T_t。尽管训练过程T_c和T_t的文本内容和风格图像I_s一致，生成结果G_c也以I_s作为真值，但是推理时将改变T_c和T_t为另一种语言的文本内容，即可实现跨语言风格保持生成。

本发明提出的自监督训练技术为新设计的自监督训练方法，能够实现让模型在真实场景非成对数据上进行训练，突破训练时自己生成自己的限制，可以生成具备全新的文本内容的图像，可以解决“针对同语言实现风格文字保持生成方法”无法在真实场景训练的问题。

3、多语种增强技术

多语种增强技术帮助模型全面提升生成多语种图像质量。不同语种的字符结构可能存在一定差异，如中文为方块字，英文为拉丁字母，缅甸语书写呈圆形等等，生成技术需要适配这些字符结构相差悬殊的语言的生成。主要有两个方法：一是引入文本字符编码信息，二是生成器和识别器联合训练。

1)引入文本字符编码信息。先前的生成过程全部使用的都是图像信息，没有文本特征。如果在生成过程就直接引入文本字符编码信息，对最后生成结果的辨识度将有所帮助。如图1所示，本发明在模型中使用了文本嵌入器来编码文本特征并与文字图像特征融合的多模态信息，其内部细节如图2所示，每个字符编码为一个向量，然后横向复制，再纵向复制，最后和内容编码器编码的图像内容特征拼接，确保文本字符编码信息和内容特征图对齐。

2)识别器和条件生成对抗网络联合训练。在中英场景中有预训练好的文本识别器的参与，能够提升生成结果的识别精度，在其他语种场景缺少对应语种的识别器，因此本发明将文本识别器从零开始训练，与生成对抗网络一起学习和成长，识别器采用经典的CRNN模型。联合训练具体流程如图3所示，识别器、生成器和鉴别器都从随机初始化开始，不加载预训练模型，然后依次迭代更新识别器、鉴别器和生成器直至达到最大迭代次数。其中更新识别器，需要使用真实数据和文本标签来计算CTC损失，生成器的训练需要使用更新后的识别器。

本发明提出的多语种增强技术主要面向多语种生成，提升生成多语种图像的质量，主要使用文本嵌入器在生成过程引入文本字符编码信息，并使用识别器和生成器联合训练，提升生成图像文本可辨读性，可以解决“针对同语言实现风格文字保持生成方法”多语种生成效果差、生成图像文字不可辨读的问题。

实施例：

下面将结合自然场景图像对本实施例做详细说明。

系统开发平台为Linux操作系统CentOS7.2，GPU为一块NVIDIA GeForce GTXTITAN X GPU，程序用Python3.9编写，使用PyTorch1.11框架。

下面主要介绍训练所使用的数据集和一些训练实现细节。

1、训练数据

本实施例需要构建多语种数据集。由于除中英外其他语种真实数据不够丰富，需要对每个语种合成大量数据集，表1所示为5个语种合成数据样例。

表1

除此之外，还需要收集更多真实多语言场景数据集，目前开源数据集主要有MLT2017和MLT2019，前者包括中文、日文、韩文、英文、法文、阿拉伯文、意大利文、德文和印地文9个语种，后者增加了孟加拉语至10个语种，合计裁剪后单个文本框有17万，平均每个语种有上万个真实样例。这些数据集具有详细的文本框位置注释和文本内容标签。根据文本框的位置进行剪切以获得I_s，将文本内容标签渲染为图像以获得T_c，扩大文本框，然后再次剪切以获得I_Ls，I_Ms是标记I_Ls的文本区域的二进制掩码。图7所示为中英真实数据实例。

2、训练实现细节

模型体系结构如图1所示。其中，T_t是目标文本，T_c是目标内容图像，两者共同用作生成图像的文本内容条件；I_s是风格文本图像，提供文本风格；I_Ls是在原始图像中以较大范围裁剪的文本图像，通常是文本区域的1.3～3倍；I_Ms是I_Ls中的文本位置的二进制掩码图像；G_b是背景恢复网络在文本区域中恢复的适当背景纹理，大小与I_s相同；G_c是由模型生成的最终风格文本图像。

内容编码器使用ResNet34，从目标内容图像T_c提取文本内容图像特征。文本嵌入器结构如图2所示，将目标文本T_t编码为文本信息特征。每个字符编码为一个向量，然后横向复制，再纵向复制，直到和内容编码器提取的特征图尺寸一致。最后和内容编码器编码的图像内容特征进行拼接，确保文本字符编码信息和内容特征图对齐，得到融合内容特征F_c。

风格编码器同样采用ResNet34，将文本风格向量化，它以风格文本图像I_s作为输入，使用ResNet34提取风格特征，然后使用一个池化层将特征图转化为一个512维的向量z。

背景恢复网络旨在擦除I_Ls中的文字并填充适当的背景纹理，主要包括背景补全结构(background completion structure)以及背景编码器(background encoder)。背景补全结构使用具有9个残差块的LaMa-Fourier模型，具有全局感受野，能够更好的填充缺失部分像素。首先，将掩码图像I_Ms和抠除文本区域的图像I_Ls⊙(1-I_Ms)堆叠在一起，得到一个四通道的张量stack(I_Ls⊙(1-I_Ms)，I_Ms)，并且该张量被归一化到[0，1]区间。经过背景补全结构后，得到恢复文本区域的大图，然后使用RoI Align算子裁剪得到背景图像G_b，接着将其放缩到和I_s相同的尺寸。背景编码器将使用步长为2，卷积核为3的Conv2d，将G_b编码为背景特征图F_b作为后续重写生成器的输入。

映射网络和重写生成器主要参考StyleGAN。映射网络包括4个全连接层，它使用一系列仿射变换将z转换为w，然后通过线性层将w转换为文本风格y＝(y_s，y_b)。文本风格y通过AdaIN注入到重写生成器。重写生成器使用5个残差块，每个残差块使用核为3、步长为2的转置卷积。特征图通道的数量为512个，最后一层将通道数量减少到3个，并使用Tanh激活函数。重写生成器逐渐对输入内容特征图F_c进行上采样，同时使用AdaIN来引入文本样式信息z，并通过连接背景特征F_b和第4残差块输出的特征图来引入背景纹理，并最终合成风格文本图像G_c。

损失函数使用L1损失，感知损失，鉴别器损失和文本识别损失。

L1损失度量I_s和G_c图像像素空间的距离，写为：

感知损失评估特征空间的感知相似度：

鉴别器采用PatchGAN架构，让生成结果更真实：

文本识别损失使用CRNN模型R，其从零开始和生成器联合训练(训练流程如图3所示)。评估识别文本序列

和标签/>

的CTC损失：

总损失可写为：

在训练阶段，将合成配对数据和真实世界数据混合用于端到端训练。此外，为了加快训练速度，对于合成数据，G_b直接使用真值而不是模型来生成结果。本实施例使用RMSprop优化器，学习率以初始值0.002呈指数衰减，批量大小为16。不同损失的权重设置为：λ₁＝10，λ₂＝1，λ₃＝1，λ₄＝0.1.训练将迭代100万次，面向多语种混合数据，最终结果如图4-图6所示。由图4-图6可知，本发明的方法能够实现跨语言风格保持生成，面向韩语、中文、英文等都有很好的效果。

Claims

1.一种面向多语种的自监督跨语言文字风格保持生成方法，其特征在于所述方法包括如下步骤：

所述条件生成对抗网络模型包括生成器和鉴别器两部分，生成器包括文本嵌入器TE、内容编码器E_C、风格编码器E_S、映射网络MAP、背景恢复网络BR和重写生成器RG，其中：

所述文本嵌入器TE用于将目标文本T_t编码为文本信息特征；

所述映射网络MAP用于将风格向量不同属性解耦合；

步骤二、条件生成对抗网络模型在多语言真实数据中进行自监督训练，且在自监督训练过程使用识别器和条件生成对抗网络模型联合训练，提升最终的风格文本图像G_c可辨读性。

2.根据权利要求1所述的面向多语种的自监督跨语言文字风格保持生成方法，其特征在于所述重写生成器RG以三个条件作为输入：文字内容条件

文字风格条件/>

背景纹理条件/>

3.根据权利要求1所述的面向多语种的自监督跨语言文字风格保持生成方法，其特征在于所述自监督训练用于实现让条件生成对抗网络模型在真实场景非成对数据上进行训练，具体实现过程分为训练推理设计和模型设计：

训练推理设计：训练过程中目标内容图像T_c和目标文本T_t的文本内容和风格文本图像I_s的文本内容一致，最终的风格文本图像G_c也以风格文本图像I_s作为真值，输出结果是以输入作为监督；推理时将改变目标内容图像T_c和目标文本T_t为另一种语言的文本内容，即可实现跨语言风格保真生成；

模型设计：1)背景修复网络的输入图像已经去除了风格文本图像I_s；2)合成过程使用AdaIN来引入风格文本图像I_s的风格信息，这样，合成过程所依赖的文本内容特征只能来自目标内容图像T_c和目标文本T_t。

4.根据权利要求1所述的面向多语种的自监督跨语言文字风格保持生成方法，其特征在于所述联合训练的具体实现过程如下：识别器和条件生成对抗网络模型都从随机初始化开始，不加载预训练模型，然后依次迭代更新识别器、鉴别器和生成器直至达到最大迭代次数。

5.根据权利要求4所述的面向多语种的自监督跨语言文字风格保持生成方法，其特征在于所述更新识别器时，需要使用真实数据和文本标签来计算CTC损失，生成器的训练需要使用更新后的识别器。