CN116402067A - 面向多语种文字风格保持的跨语言自监督生成方法 - Google Patents
面向多语种文字风格保持的跨语言自监督生成方法 Download PDFInfo
- Publication number
- CN116402067A CN116402067A CN202310359660.8A CN202310359660A CN116402067A CN 116402067 A CN116402067 A CN 116402067A CN 202310359660 A CN202310359660 A CN 202310359660A CN 116402067 A CN116402067 A CN 116402067A
- Authority
- CN
- China
- Prior art keywords
- text
- style
- image
- language
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000014759 maintenance of location Effects 0.000 title claims description 14
- 238000012549 training Methods 0.000 claims abstract description 55
- 230000008569 process Effects 0.000 claims abstract description 28
- 238000013461 design Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 4
- 238000011084 recovery Methods 0.000 claims description 4
- 230000008439 repair process Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 13
- 238000013519 translation Methods 0.000 abstract description 8
- 238000013508 migration Methods 0.000 abstract description 4
- 230000005012 migration Effects 0.000 abstract description 4
- 238000012423 maintenance Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 102100032202 Cornulin Human genes 0.000 description 2
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003702 image correction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19167—Active pattern learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向多语种的自监督跨语言文字风格保持生成方法,所述方法包括如下步骤:一、建立用于实现跨语言生成任务的条件生成对抗网络模型;二、条件生成对抗网络模型在多语言真实数据中进行自监督训练,且在自监督训练过程使用识别器和条件生成对抗网络模型联合训练,提升最终的风格文本图像可辨读性。本发明综合利用风格迁移、生成对抗网络、图像修复、场景文字擦除和图像文字识别等技术,面向多语种实施跨语言文字风格保持生成,将图像的文本内容修改为另一种语言的新文本,同时保留图像中文字风格和背景纹理,能够解决图像翻译后的结果面临替换前后文本风格不一致、背景纹理不协调等问题,给用户带来更好的图像翻译体验。
Description
技术领域
本发明涉及一种跨语言自监督生成方法,具体涉及一种面向多语种文字风格保持的跨语言自监督生成方法。
背景技术
人工智能生成内容(AI Generated Content,AIGC)被认为是继专业内容生产(PGC)、用户内容生产(UGC)之后的新型内容创作方式。其中一个常见应用场景是图片翻译任务,它将图像中的文本风格保持的替换为新的译文。目前有多家公司推出了图片翻译服务,但图像翻译后的结果面临着替换前后文本风格不一致、背景纹理不协调等问题。
现有的生成方法应用到自然场景文字场合时,会面临很大的挑战,主要问题在于自然场景文本图像的复杂性,具体来说可分为以下几点:1)场景文本图像缺少成对的数据,即文本风格一致但文本内容不同的一对图像;2)场景图像文本具有不同的大小、字体、颜色、亮度、对比度等,且存在弯曲、旋转、扭曲等风格;3)背景纹理极其多样,且文字区域附近存在复杂的干扰纹理。除此之外,由于是跨语言风格保持生成,还面临着严重问题:当不同语言的字符结构差异很大时,如何有效的传递文本风格。
目前文字风格保持生成技术需要综合利用风格迁移、生成对抗网络(GAN)、图像文字识别、图像修复和场景文字擦除等技术,其中:
风格迁移通常是将图片的风格从一个风格转换到另外一个风格,同时使得新生成的图片具有源图片风格。
生成对抗网络(GAN)由一个生成网络和一个判别网络组成。两个模型通过对抗过程同时训练。生成网络学习创造逼真的样本,判别网络则学习如何辨别真实样本与生成的“假样本”。StyleGAN系列模型是目前比较先进的生成对抗网络架构,许多文字图像的风格保持生成算法就是基于StyleGAN设计。
图像文字识别算法大多包括四个阶段:图像校正、视觉特征提取、序列特征提取和预测模块。典型的架构为STN+ResNet+BiLSTM+CTC/Attention。文字识别算法可以作为生成模型结果的内容层面的监督信号,常常使用CTC损失、交叉熵损失等提高生成结果的可辨读性。
图像修复和场景文字擦除主要擦除图像中的文本区域,填充合理的背景纹理,并且要保证非文本区域的真实性。
Wu等人公开了一种针对同语言实现风格文字保持生成方法(Wu L,Zhang C,LiuJ,et al.Editing text in the wild[C]//Proceedings of the 27th ACMinternational Conference on Multimedia.2019,pp1500-1508),该方法首次实现对自然场景下图像中的单词进行编辑替换,其存在以下问题:
(1)无法处理自然场景的复杂文字图像,由于架构限制,模型只能在合成数据训练,因此面对真实场景的复杂数据效果急剧下降。
(2)没有针对多语种跨语言生成的处理,无法适用于多语种跨语言场景。
(3)生成过程只是利用了图像特征,没有使用文本信息,面对多语种场景生成结果文字可辨读性受到严重影响。
发明内容
本发明的目的是提供一种面向多语种文字风格保持的跨语言自监督生成方法,综合利用风格迁移、生成对抗网络、图像修复、场景文字擦除和图像文字识别等技术,面向多语种实施跨语言文字风格保持生成,将图像的文本内容修改为另一种语言的新文本,同时保留图像中文字风格和背景纹理。本发明能够解决图像翻译后的结果面临替换前后文本风格不一致、背景纹理不协调等问题,给用户带来更好的图像翻译体验。
本发明的目的是通过以下技术方案实现的:
一种面向多语种的自监督跨语言文字风格保持生成方法,包括如下步骤:
步骤一、建立用于实现跨语言生成任务的条件生成对抗网络模型
所述条件生成对抗网络模型包括生成器和鉴别器两部分,鉴别器采用常规PatchGAN结构,生成器包括文本嵌入器TE、内容编码器EC、风格编码器ES、映射网络MAP、背景恢复网络BR和重写生成器RG六部分,其中:
所述文本嵌入器TE用于将目标文本Tt编码为文本信息特征;
所述内容编码器EC用于从目标内容图像Tc提取文本内容图像特征;
所述风格编码器ES用于将风格文本图像Is的文本风格向量化;
所述映射网络MAP用于将风格向量不同属性解耦合;
所述背景恢复网络用于擦除文本图像ILs中的文字并填充适当的背景纹理Gb,恢复文本区域像素;
所述重写生成器RG用于收集文本嵌入器TE、内容编码器EC、映射网络MAP和背景恢复网络BR的信息在背景纹理图重写新的风格文本,合成最终的风格文本图像Gc;
步骤二、条件生成对抗网络模型在多语言真实数据中进行自监督训练,且在自监督训练过程使用识别器和条件生成对抗网络模型联合训练,提升最终的风格文本图像Gc可辨读性,其中:
所述自监督训练用于实现让条件生成对抗网络模型在真实场景非成对数据上进行训练,具体实现过程可分为训练推理设计和模型设计:
训练推理设计:由于真实场景未成对数据的限制,需要仔细设计训练推理流程,具体要求如下:训练过程中目标内容图像Tc和目标文本Tt的文本内容和风格文本图像Is的文本内容一致,最终的风格文本图像Gc也以风格文本图像Is作为真值,输出结果是以输入作为监督;推理时将改变目标内容图像Tc和目标文本Tt为另一种语言的文本内容,即可实现跨语言风格保真生成;
模型设计:此为自监督训练的基础,主要根据步骤二一的训练推理流程来设计模型,主要包括两项关键设计:1)背景修复网络的输入图像已经去除了风格文本图像Is;2)合成过程使用AdaIN来引入风格文本图像Is的风格信息,这样,合成过程所依赖的文本内容特征只能来自目标内容图像Tc和目标文本Tt;
所述联合训练的具体实现过程如下:识别器和条件生成对抗网络模型(包括生成器和鉴别器)都从随机初始化开始,不加载预训练模型,然后依次迭代更新识别器、鉴别器和生成器直至达到最大迭代次数,其中:更新识别器时,需要使用真实数据和文本标签来计算CTC损失,生成器的训练需要使用更新后的识别器。
相比于现有技术,本发明具有如下优点:
1、本发明提出了通用的面向多语种的跨语言生成模型,在跨语言场景风格保持生成效果更好。
2、本发明设计了新的自监督训练方法,模型能够在无标记、不成对真实数据进行训练,在复杂自然场景生成效果更强。
3、本发明针对多语种字符结构相差悬殊的问题,在生成过程使用了图像特征和文本信息多模态特征,并且引入识别器,让识别器从零开始和生成器联合训练,监督生成结果,有利于生成文本更易辨读的图像。
4、本发明支持韩语、俄语、泰语、缅甸语等多语种和中英文间的图像文本互译,特别适合于不同国家、不同地区的拍照翻译场景,能够促进人工智能技术与经济社会的深度融合。
附图说明
图1为本发明设计的跨语言生成网络架构图;
图2为文本嵌入器内部细节;
图3为识别器和条件生成对抗网络联合训练;
图4为跨语言文字风格保持生成案例1:从中文生成俄文;
图5为跨语言文字风格保持生成案例2:从英文生成韩文;
图6为跨语言文字风格保持生成案例3:从英文生成中文;
图7为真实数据实例。
具体实施方式
下面结合附图对本发明的技术方案作进一步的说明,但并不局限于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
本发明提供了一种面向多语种的自监督跨语言文字风格保持生成方法,包括跨语言生成、自监督训练、多语种增强三项技术,每个技术的详细要点如下:
1、跨语言生成技术
跨语言生成技术实现了跨语言生成任务。如图1所示,本发明设计了一个条件生成对抗网络(GAN),其生成器可分为六个部分:文本嵌入器TE(编码文本字符信息,这一结构既是跨语言生成模型的基础组件,也是多语种增强的关键技术)、内容编码器EC(编码文本内容图像特征)、风格编码器ES(编码文本风格)、映射网络MAP(将风格向量不同属性解耦合)、背景恢复网络BR(恢复文本区域像素)和重写生成器RG(收集前述其他组件的信息在背景纹理图重写新的风格文本)。其中,Tt是目标文本,Tc是目标内容图像,两者共同用作生成图像的文本内容条件;Is是风格文本图像,提供文本风格;ILs是在原始图像中以较大范围裁剪的文本图像,通常是文本区域的若干倍;IMs是ILs中的文本位置的二进制掩码图像;Gb是背景恢复网络在文本区域中恢复的适当背景纹理,大小与Is相同;Gc是由模型生成的最终风格文本图像。
针对跨语言场景进行优化设计,合理的网络架构设计让模型具备了跨语言生成能力。首先,背景和前景被分别处理,背景恢复网络BR被设计为根据文本区域周围的像素恢复内部纹理,因此独立于文本,文本相关处理侧重于前景风格文本合成。其次,前景风格文本合成过程将文本内容和文本风格分离,文本风格将独立于文本内容。
本发明将跨语言生成问题形式化。重写生成器RG以三个条件作为输入:文字内容条件文字风格条件/>背景纹理条件/>由于背景恢复网络BR抠除文本然后再恢复背景纹理,因此和语言无关,可以去除lang标志。整个生成过程可以以条件GAN的形式编写,
其中,langi=en,zh,...。由于真实场景没有跨语言标注的成对数据,因此训练过程使用相同的语言:lang1=lang2=en或lang1=lang2=zh。但该模型需要能够适应lang1=en,lang2=zh或lang1=zh,lang2=en的情况。从公式(1)中可以看出,如果文本风格编码器ES提取的风格特征独立于文本内容和语种,则跨语言文本生成将退化为训练期间遇到的同语言情况。具体而言,如果是从中文编辑为英文,即lang1=en,lang2=zh,由于ES提取的特征独立于中文,因此该模型可以利用训练期间遇到的lang1=lang2=en的情况来生成合理的结果。
本发明提出的跨语言生成技术可以解决“针对同语言实现风格文字保持生成方法”跨语言生成效果差的问题。
2、自监督训练技术
自监督训练技术让模型能够在真实场景非成对数据上开展训练。由于真实场景中缺少标记的配对数据,因此训练过程是自监督的。生成的图像Gc只能使用Is作为真值来实施监督(主要使用3个损失:L1损失感知损失/>生成对抗损失/>),并辅以文本识别模型从文本内容的角度进行监督(识别结果CTC损失/>)。但是,这样的训练过程很容易使模型欠拟合,也就是说,它不是学习基于文本内容、风格和背景合成图像的过程,而是直接输出Is作为结果。
两个关键设计解决了这个问题:1)背景修复网络的输入图像已经去除了文本区域Is;2)合成过程使用AdaIN来引入Is的风格信息。这样,合成过程所依赖的文本内容特征只能来自Tc和Tt。尽管训练过程Tc和Tt的文本内容和风格图像Is一致,生成结果Gc也以Is作为真值,但是推理时将改变Tc和Tt为另一种语言的文本内容,即可实现跨语言风格保持生成。
本发明提出的自监督训练技术为新设计的自监督训练方法,能够实现让模型在真实场景非成对数据上进行训练,突破训练时自己生成自己的限制,可以生成具备全新的文本内容的图像,可以解决“针对同语言实现风格文字保持生成方法”无法在真实场景训练的问题。
3、多语种增强技术
多语种增强技术帮助模型全面提升生成多语种图像质量。不同语种的字符结构可能存在一定差异,如中文为方块字,英文为拉丁字母,缅甸语书写呈圆形等等,生成技术需要适配这些字符结构相差悬殊的语言的生成。主要有两个方法:一是引入文本字符编码信息,二是生成器和识别器联合训练。
1)引入文本字符编码信息。先前的生成过程全部使用的都是图像信息,没有文本特征。如果在生成过程就直接引入文本字符编码信息,对最后生成结果的辨识度将有所帮助。如图1所示,本发明在模型中使用了文本嵌入器来编码文本特征并与文字图像特征融合的多模态信息,其内部细节如图2所示,每个字符编码为一个向量,然后横向复制,再纵向复制,最后和内容编码器编码的图像内容特征拼接,确保文本字符编码信息和内容特征图对齐。
2)识别器和条件生成对抗网络联合训练。在中英场景中有预训练好的文本识别器的参与,能够提升生成结果的识别精度,在其他语种场景缺少对应语种的识别器,因此本发明将文本识别器从零开始训练,与生成对抗网络一起学习和成长,识别器采用经典的CRNN模型。联合训练具体流程如图3所示,识别器、生成器和鉴别器都从随机初始化开始,不加载预训练模型,然后依次迭代更新识别器、鉴别器和生成器直至达到最大迭代次数。其中更新识别器,需要使用真实数据和文本标签来计算CTC损失,生成器的训练需要使用更新后的识别器。
本发明提出的多语种增强技术主要面向多语种生成,提升生成多语种图像的质量,主要使用文本嵌入器在生成过程引入文本字符编码信息,并使用识别器和生成器联合训练,提升生成图像文本可辨读性,可以解决“针对同语言实现风格文字保持生成方法”多语种生成效果差、生成图像文字不可辨读的问题。
实施例:
下面将结合自然场景图像对本实施例做详细说明。
系统开发平台为Linux操作系统CentOS7.2,GPU为一块NVIDIA GeForce GTXTITAN X GPU,程序用Python3.9编写,使用PyTorch1.11框架。
下面主要介绍训练所使用的数据集和一些训练实现细节。
1、训练数据
本实施例需要构建多语种数据集。由于除中英外其他语种真实数据不够丰富,需要对每个语种合成大量数据集,表1所示为5个语种合成数据样例。
表1
除此之外,还需要收集更多真实多语言场景数据集,目前开源数据集主要有MLT2017和MLT2019,前者包括中文、日文、韩文、英文、法文、阿拉伯文、意大利文、德文和印地文9个语种,后者增加了孟加拉语至10个语种,合计裁剪后单个文本框有17万,平均每个语种有上万个真实样例。这些数据集具有详细的文本框位置注释和文本内容标签。根据文本框的位置进行剪切以获得Is,将文本内容标签渲染为图像以获得Tc,扩大文本框,然后再次剪切以获得ILs,IMs是标记ILs的文本区域的二进制掩码。图7所示为中英真实数据实例。
2、训练实现细节
模型体系结构如图1所示。其中,Tt是目标文本,Tc是目标内容图像,两者共同用作生成图像的文本内容条件;Is是风格文本图像,提供文本风格;ILs是在原始图像中以较大范围裁剪的文本图像,通常是文本区域的1.3~3倍;IMs是ILs中的文本位置的二进制掩码图像;Gb是背景恢复网络在文本区域中恢复的适当背景纹理,大小与Is相同;Gc是由模型生成的最终风格文本图像。
内容编码器使用ResNet34,从目标内容图像Tc提取文本内容图像特征。文本嵌入器结构如图2所示,将目标文本Tt编码为文本信息特征。每个字符编码为一个向量,然后横向复制,再纵向复制,直到和内容编码器提取的特征图尺寸一致。最后和内容编码器编码的图像内容特征进行拼接,确保文本字符编码信息和内容特征图对齐,得到融合内容特征Fc。
风格编码器同样采用ResNet34,将文本风格向量化,它以风格文本图像Is作为输入,使用ResNet34提取风格特征,然后使用一个池化层将特征图转化为一个512维的向量z。
背景恢复网络旨在擦除ILs中的文字并填充适当的背景纹理,主要包括背景补全结构(background completion structure)以及背景编码器(background encoder)。背景补全结构使用具有9个残差块的LaMa-Fourier模型,具有全局感受野,能够更好的填充缺失部分像素。首先,将掩码图像IMs和抠除文本区域的图像ILs⊙(1-IMs)堆叠在一起,得到一个四通道的张量stack(ILs⊙(1-IMs),IMs),并且该张量被归一化到[0,1]区间。经过背景补全结构后,得到恢复文本区域的大图,然后使用RoI Align算子裁剪得到背景图像Gb,接着将其放缩到和Is相同的尺寸。背景编码器将使用步长为2,卷积核为3的Conv2d,将Gb编码为背景特征图Fb作为后续重写生成器的输入。
映射网络和重写生成器主要参考StyleGAN。映射网络包括4个全连接层,它使用一系列仿射变换将z转换为w,然后通过线性层将w转换为文本风格y=(ys,yb)。文本风格y通过AdaIN注入到重写生成器。重写生成器使用5个残差块,每个残差块使用核为3、步长为2的转置卷积。特征图通道的数量为512个,最后一层将通道数量减少到3个,并使用Tanh激活函数。重写生成器逐渐对输入内容特征图Fc进行上采样,同时使用AdaIN来引入文本样式信息z,并通过连接背景特征Fb和第4残差块输出的特征图来引入背景纹理,并最终合成风格文本图像Gc。
损失函数使用L1损失,感知损失,鉴别器损失和文本识别损失。
L1损失度量Is和Gc图像像素空间的距离,写为:
感知损失评估特征空间的感知相似度:
鉴别器采用PatchGAN架构,让生成结果更真实:
总损失可写为:
在训练阶段,将合成配对数据和真实世界数据混合用于端到端训练。此外,为了加快训练速度,对于合成数据,Gb直接使用真值而不是模型来生成结果。本实施例使用RMSprop优化器,学习率以初始值0.002呈指数衰减,批量大小为16。不同损失的权重设置为:λ1=10,λ2=1,λ3=1,λ4=0.1.训练将迭代100万次,面向多语种混合数据,最终结果如图4-图6所示。由图4-图6可知,本发明的方法能够实现跨语言风格保持生成,面向韩语、中文、英文等都有很好的效果。
Claims (5)
1.一种面向多语种的自监督跨语言文字风格保持生成方法,其特征在于所述方法包括如下步骤:
步骤一、建立用于实现跨语言生成任务的条件生成对抗网络模型
所述条件生成对抗网络模型包括生成器和鉴别器两部分,生成器包括文本嵌入器TE、内容编码器EC、风格编码器ES、映射网络MAP、背景恢复网络BR和重写生成器RG,其中:
所述文本嵌入器TE用于将目标文本Tt编码为文本信息特征;
所述内容编码器EC用于从目标内容图像Tc提取文本内容图像特征;
所述风格编码器ES用于将风格文本图像Is的文本风格向量化;
所述映射网络MAP用于将风格向量不同属性解耦合;
所述背景恢复网络用于擦除文本图像ILS中的文字并填充适当的背景纹理Gb,恢复文本区域像素;
所述重写生成器RG用于收集文本嵌入器TE、内容编码器EC、映射网络MAP和背景恢复网络BR的信息在背景纹理图重写新的风格文本,合成最终的风格文本图像Gc;
步骤二、条件生成对抗网络模型在多语言真实数据中进行自监督训练,且在自监督训练过程使用识别器和条件生成对抗网络模型联合训练,提升最终的风格文本图像Gc可辨读性。
3.根据权利要求1所述的面向多语种的自监督跨语言文字风格保持生成方法,其特征在于所述自监督训练用于实现让条件生成对抗网络模型在真实场景非成对数据上进行训练,具体实现过程分为训练推理设计和模型设计:
训练推理设计:训练过程中目标内容图像Tc和目标文本Tt的文本内容和风格文本图像Is的文本内容一致,最终的风格文本图像Gc也以风格文本图像Is作为真值,输出结果是以输入作为监督;推理时将改变目标内容图像Tc和目标文本Tt为另一种语言的文本内容,即可实现跨语言风格保真生成;
模型设计:1)背景修复网络的输入图像已经去除了风格文本图像Is;2)合成过程使用AdaIN来引入风格文本图像Is的风格信息,这样,合成过程所依赖的文本内容特征只能来自目标内容图像Tc和目标文本Tt。
4.根据权利要求1所述的面向多语种的自监督跨语言文字风格保持生成方法,其特征在于所述联合训练的具体实现过程如下:识别器和条件生成对抗网络模型都从随机初始化开始,不加载预训练模型,然后依次迭代更新识别器、鉴别器和生成器直至达到最大迭代次数。
5.根据权利要求4所述的面向多语种的自监督跨语言文字风格保持生成方法,其特征在于所述更新识别器时,需要使用真实数据和文本标签来计算CTC损失,生成器的训练需要使用更新后的识别器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310359660.8A CN116402067B (zh) | 2023-04-06 | 2023-04-06 | 面向多语种文字风格保持的跨语言自监督生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310359660.8A CN116402067B (zh) | 2023-04-06 | 2023-04-06 | 面向多语种文字风格保持的跨语言自监督生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116402067A true CN116402067A (zh) | 2023-07-07 |
CN116402067B CN116402067B (zh) | 2024-01-30 |
Family
ID=87019467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310359660.8A Active CN116402067B (zh) | 2023-04-06 | 2023-04-06 | 面向多语种文字风格保持的跨语言自监督生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116402067B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117632098A (zh) * | 2024-01-25 | 2024-03-01 | 中国建筑设计研究院有限公司 | 一种基于aigc的建筑智能设计系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200097554A1 (en) * | 2018-09-26 | 2020-03-26 | Huawei Technologies Co., Ltd. | Systems and methods for multilingual text generation field |
CN111723585A (zh) * | 2020-06-08 | 2020-09-29 | 中国石油大学(华东) | 一种风格可控的图像文本实时翻译与转换方法 |
CN113393370A (zh) * | 2021-06-02 | 2021-09-14 | 西北大学 | 中国书法文字图像风格迁移的方法、系统、智能终端 |
CN113553797A (zh) * | 2021-08-04 | 2021-10-26 | 哈尔滨工业大学 | 一种端到端的风格一致的文字图像生成方法 |
CN114139495A (zh) * | 2021-11-29 | 2022-03-04 | 合肥高维数据技术有限公司 | 基于自适应生成对抗网络的中文字体风格迁移方法 |
WO2022048182A1 (zh) * | 2020-09-02 | 2022-03-10 | 北京邮电大学 | 一种图像风格转换及模型训练的方法及装置 |
US20230022550A1 (en) * | 2021-10-12 | 2023-01-26 | Beijing Baidu Netcom Science Technology Co., Ltd. | Image processing method, method for training image processing model devices and storage medium |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065417A (zh) * | 2021-03-17 | 2021-07-02 | 国网河北省电力有限公司 | 基于生成对抗式风格迁移的场景文本识别方法 |
CN115311130A (zh) * | 2022-07-16 | 2022-11-08 | 西北大学 | 一种多风格中国书法文字图像风格迁移方法、系统及终端 |
-
2023
- 2023-04-06 CN CN202310359660.8A patent/CN116402067B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200097554A1 (en) * | 2018-09-26 | 2020-03-26 | Huawei Technologies Co., Ltd. | Systems and methods for multilingual text generation field |
CN111723585A (zh) * | 2020-06-08 | 2020-09-29 | 中国石油大学(华东) | 一种风格可控的图像文本实时翻译与转换方法 |
WO2022048182A1 (zh) * | 2020-09-02 | 2022-03-10 | 北京邮电大学 | 一种图像风格转换及模型训练的方法及装置 |
CN113393370A (zh) * | 2021-06-02 | 2021-09-14 | 西北大学 | 中国书法文字图像风格迁移的方法、系统、智能终端 |
CN113553797A (zh) * | 2021-08-04 | 2021-10-26 | 哈尔滨工业大学 | 一种端到端的风格一致的文字图像生成方法 |
US20230022550A1 (en) * | 2021-10-12 | 2023-01-26 | Beijing Baidu Netcom Science Technology Co., Ltd. | Image processing method, method for training image processing model devices and storage medium |
CN114139495A (zh) * | 2021-11-29 | 2022-03-04 | 合肥高维数据技术有限公司 | 基于自适应生成对抗网络的中文字体风格迁移方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117632098A (zh) * | 2024-01-25 | 2024-03-01 | 中国建筑设计研究院有限公司 | 一种基于aigc的建筑智能设计系统 |
CN117632098B (zh) * | 2024-01-25 | 2024-04-23 | 中国建筑设计研究院有限公司 | 一种基于aigc的建筑智能设计系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116402067B (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111340122B (zh) | 一种多模态特征融合的文本引导图像修复方法 | |
CN108520503A (zh) | 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法 | |
CN109829959B (zh) | 基于人脸解析的表情编辑方法及装置 | |
CN113505772B (zh) | 基于生成对抗网络的车牌图像生成方法及系统 | |
CN116402067B (zh) | 面向多语种文字风格保持的跨语言自监督生成方法 | |
CN114742714A (zh) | 一种基于骨架提取及对抗学习的汉字图像修复算法 | |
CN112884758B (zh) | 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统 | |
CN113963409A (zh) | 一种人脸属性编辑模型的训练以及人脸属性编辑方法 | |
CN108537753A (zh) | 一种基于上下文特征空间约束的图像修复方法 | |
CN113553797A (zh) | 一种端到端的风格一致的文字图像生成方法 | |
CN115049556A (zh) | 一种基于StyleGAN的人脸图像修复方法 | |
CN113486956A (zh) | 目标分割系统及其训练方法、目标分割方法及设备 | |
CN113837290A (zh) | 一种基于注意力生成器网络的无监督非成对图像翻译方法 | |
CN115115744A (zh) | 图像处理方法、装置、设备、存储介质和程序产品 | |
CN113052759B (zh) | 基于mask和自动编码器的场景复杂文本图像编辑方法 | |
Sun et al. | TSINIT: a two-stage Inpainting network for incomplete text | |
CN116385289B (zh) | 一种基于渐进式的碑文文字图像修复模型及修复方法 | |
CN112733861A (zh) | 基于u型残差网络的文本擦除和抠字方法 | |
CN116563422A (zh) | 一种文字图像风格的细粒度编辑方法 | |
CN116523985A (zh) | 一种结构和纹理特征引导的双编码器图像修复方法 | |
CN113554549B (zh) | 文本图像的生成方法、装置、计算机设备和存储介质 | |
CN115797171A (zh) | 合成图像的生成方法、装置、电子设备及存储介质 | |
CN113554655B (zh) | 基于多特征增强的光学遥感图像分割方法及装置 | |
CN116311275B (zh) | 一种基于seq2seq语言模型的文字识别方法及系统 | |
Yang et al. | Self-Supervised Cross-Language Scene Text Editing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |