CN113792849B - 字符生成模型的训练方法、字符生成方法、装置和设备 - Google Patents

字符生成模型的训练方法、字符生成方法、装置和设备 Download PDF

Info

Publication number
CN113792849B
CN113792849B CN202111056555.4A CN202111056555A CN113792849B CN 113792849 B CN113792849 B CN 113792849B CN 202111056555 A CN202111056555 A CN 202111056555A CN 113792849 B CN113792849 B CN 113792849B
Authority
CN
China
Prior art keywords
word
model
loss
character
generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111056555.4A
Other languages
English (en)
Other versions
CN113792849A (zh
Inventor
唐礼承
刘家铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111056555.4A priority Critical patent/CN113792849B/zh
Publication of CN113792849A publication Critical patent/CN113792849A/zh
Priority to JP2022007357A priority patent/JP2023039891A/ja
Priority to EP22158687.8A priority patent/EP4012668A3/en
Priority to US17/682,295 priority patent/US20230154077A1/en
Priority to KR1020220026093A priority patent/KR20220034077A/ko
Application granted granted Critical
Publication of CN113792849B publication Critical patent/CN113792849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/203Drawing of straight lines or curves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • G06T3/04
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)
  • Image Processing (AREA)

Abstract

本公开提供了字符生成模型训练方法、字符生成方法、装置和设备,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域。具体实现方案为:将第一训练样本输入到目标模型中,计算第一损失,所述第一训练样本包括第一源域样本字和第一目标域样本字,所述第一源域样本字的内容和所述第一目标域样本字的内容不同;将第二训练样本输入到所述目标模型中,计算第二损失,所述第二训练样本包括第二源域样本字和第二目标域样本字,所述第二源域样本字的内容和所述第二目标域样本字的内容相同;根据所述第一损失和所述第二损失调整所述字符生成模型的参数。本公开实施例可以提高字符生成模型生成的字体的准确率。

Description

字符生成模型的训练方法、字符生成方法、装置和设备
技术领域
本公开涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,尤其涉及字符生成模型的训练方法、字符生成方法、装置和设备。
背景技术
图像处理是一种具有巨大的社会和经济效益的实用技术,被广泛应用于各行各业以及人们日常生活中。
图像的风格转换,是指将一种风格从一幅图像迁移至另一幅图像,合成一幅新的艺术图像。
发明内容
本公开提供了一种字符生成模型的训练方法、字符生成方法、装置和设备。
根据本公开的一方面,提供了一种字符生成模型的训练方法,包括:
将第一训练样本输入到目标模型中,计算第一损失,所述目标网络包括字符生成模型和预先训练的字符分类模型,所述第一训练样本包括第一源域样本字和第一目标域样本字,所述第一源域样本字的内容和所述第一目标域样本字的内容不同;
将第二训练样本输入到所述目标模型中,计算第二损失,所述第二训练样本包括第二源域样本字和第二目标域样本字,所述第二源域样本字的内容和所述第二目标域样本字的内容相同;
根据所述第一损失和所述第二损失调整所述字符生成模型的参数。
根据本公开的另一方面,提供了一种字符生成方法,包括:
将源域输入字输入到字符生成模型中第一生成模型中,得到目标域新字;其中,所述字符生成模型根据如本公开任一实施例所述的方法训练得到。
根据本公开的另一方面,提供了一种字符生成模型的训练装置,包括:
第一损失计算模块,用于将第一训练样本输入到目标模型中,计算第一损失,所述目标网络包括字符生成模型和预先训练的字符分类模型,所述第一训练样本包括第一源域样本字和第一目标域样本字,所述第一源域样本字的内容和所述第一目标域样本字的内容不同;
第二损失计算模块,用于将第二训练样本输入到所述目标模型中,计算第二损失,所述第二训练样本包括第二源域样本字和第二目标域样本字,所述第二源域样本字的内容和所述第二目标域样本字的内容相同;
第一参数调整模块,用于根据所述第一损失和所述第二损失调整所述字符生成模型的参数。
根据本公开的另一方面,提供了一种字符生成装置,包括:
字符生成模块,用于将源域输入字输入到字符生成模型中第一生成模型中,得到目标域新字;其中,所述字符生成模型根据如本公开任一实施例所述的字符生成模型的训练方法得到。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任一实施例所述的字符生成模型的训练方法,或执行本公开任一实施例所述的字符生成方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开任一实施例所述的字符生成模型的训练方法,或执行本公开任一实施例所述的字符生成方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开任一实施例所述的字符生成模型的训练方法,或执行本公开任一实施例所述的字符生成方法。
本公开实施例可以提高字符生成模型生成的字体的准确率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例提供的一种字符生成模型的训练方法的示意图;
图2是根据本公开实施例提供的一种字符生成模型的训练方法的示意图;
图3是根据本公开实施例提供的一种使用错字损失约束字符生成模型所生成的字的效果图;
图4是根据本公开实施例提供的一种使用特征损失约束字符生成模型所生成的字的效果图;
图5是根据本公开实施例提供的又一种使用特征损失约束字符生成模型所生成的字的效果图;
图6是根据本公开实施例提供的一种使用不同层的特征损失约束字符生成模型所生成的字的效果对比图;
图7是根据本公开实施例提供的一种字符生成模型的训练方法的示意图;
图8是根据本公开实施例提供的一种基于第一训练样本的字符生成模型的训练方法的原理图;
图9是根据本公开实施例提供的一种基于第二训练样本的字符生成模型的训练方法的原理图;
图10是根据本公开实施例提供的一种字符生成模型的结构原理图;
图11是根据本公开实施例提供的又一种字符生成模型的结构原理图;
图12是根据本公开实施例提供的一种使用生成损失约束的字符生成模型的训练方法的原理图;
图13是根据本公开实施例提供的一种第一生成模型的训练方法的示意图;
图14是根据本公开实施例提供的一种生成字的效果图;
图15是根据本公开实施例提供的一种样本字的效果图;
图16是根据本公开实施例提供的一种字符生成方法的示意图;
图17是根据本公开实施例提供的一种字符生成模型的训练装置的示意图;
图18是根据本公开实施例提供的一种字符生成装置的示意图;
图19是用来实现本公开实施例的字符生成模型的训练方法和/或字符生成方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开实施例公开的一种字符生成模型的训练方法的流程图,本实施例可以适用于训练字符生成模型,其中,字符生成模型用于将源域风格的字转换为目标域风格的字的情况。本实施例方法可以由字符生成模型的训练装置来执行,该装置可采用软件和/或硬件的方式实现,并具体配置于具有一定数据运算能力的电子设备中,该电子设备可以是客户端设备或服务器设备,客户端设备例如手机、平板电脑、车载终端和台式电脑等。
S101,将第一训练样本输入到目标模型中,计算第一损失,所述目标网络包括字符生成模型和预先训练的字符分类模型,所述第一训练样本包括第一源域样本字和第一目标域样本字,所述第一源域样本字的内容和所述第一目标域样本字的内容不同。
字符生成模型CycleGAN(Cycle Generative Adversarial Networks,循环生成对抗网络,简称循环生成网络)用于在源域和目标域之间,实现风格转换。字符分类模型用于引入损失,约束训练字符生成模型。
在本公开的实施例中,字符生成模型能够字符生成模型包括两个生成模型和两个判别模型。两个生成模型分别是GeneratorA2B和GeneratorB2A,GeneratorA2B用于将风格A的图像转换为风格B的图像,GeneratorB2A用于将风格B的图像转换为风格A的图像。两个判别模型分别是Discriminator A和Discriminator B,Discriminator A用于判别转换后的图像是否是属于风格A的图像,Discriminator B用于判别转换后的图像是否是属于风格B的图像。
在字符生成模型的训练过程中,两个生成模型的训练目标就是尽量生成具有目标域风格(或源域风格)的图像,而判别模型的训练目标是尽量将生成模型生成的图像与真实的目标域图像(或源域图像)区分开来。在训练过程中不断更新和优化生成模型和判别模型,使得两个生成模型实现风格转换的能力越来越强,且两个判别模型判别生成图像和真实图像的能力也越来越强。
在本公开实施例中,字符生成模型用于实现源域和目标域之间的风格转换。将源域样本字输入至字符生成模型的GeneratorA2B中,得到源域样本字对应的目标域生成字;将目标域样本字输入至字符生成模型的GeneratorB2A中,得到目标域样本字对应的源域生成字。其中,源域样本字和源域生成字可以是指具有源域字体风格的图像,源域字体风格可以是指字符的常规字体,又可以称为印刷字体,例如中文字符中的楷体、宋体或黑体等字体,又如西文字符的新罗马(Times New Roman)或Calibri等字体,此外,字符还可以包括数字字符。西文字符可以包括英文、德文、俄文或意大利文等字符,对此不做具体限制。目标域生成字和目标域样本字可以是指具有目标域字体风格的图像。目标域字体风格可以是字符的用户手写字体风格或者其他艺术字字体风格。源域样本字和对应的目标域生成字的图像内容相同,风格类型不同。目标域样本字和对应的源域生成字的图像内容相同,风格类型不同。需要说明的是,本公开实施例中的字,实际都是指字符。
在一个具体的例子中,例如,将包含楷体字“做”的图像输入到字符生成模型,字符生成模型可以输出包含手写字“做”的图像。
字符分类模型用于判别目标生成字和目标域样本字是否是错字。例如,预先训练的字符分类模型可以是采用VGG19(Visual Geometry Group19)网络训练得到的。字符分类模型的训练样本可以是包含多种字体的图像,例如训练样本可以是包含了80多种字体和6700多个字的约45万张的图像,经实验,训练完成的字符分类模型在该数据集上获得98%的分类准确率。
将第一样本组中第一源域样本字输入到目标模型的字符生成模型中,得到第一目标域生成字,将第一目标域生成字和第一目标域样本字输入至字符分类模型,计算第一损失。第一训练样本包括第一源域样本字和第一目标域样本字,第一源域样本字和第一目标域样本字的内容和风格类型均不同。第一源域样本字和第一目标域生成字的内容相同,风格类型不同;第一目标域生成字和第一目标域样本字的内容不同,风格类型相同。其中,字的内容不同实际是指不同字,例如,第一源域样本字为“做”,第一目标域样本字为“你”。
第一样本组包括内容不同的第一源域样本字和第一目标域样本字,采用内容不同的第一源域样本字和第一目标域样本字的不配对数据作为模型的输入,以训练模型,可以增加模型对未知字体(不属于训练数据集)的风格转换的能力,针对未知字体生成准确的风格转换字,提高模型的泛化能力,并且增加训练数据的数量,提高模型的风格转换准确率,降低训练数据的生成成本,提高模型训练效率。
内容不同的第一源域样本字和第一目标域样本字,可以不需要根据第一源域样本字,随机获取第一目标域样本字,从而,第一源域样本字和第一目标域样本字可以理解为未配对的样本对,即第一样本组为未配对的训练样本。
S102,将第二训练样本输入到所述目标模型中,计算第二损失,所述第二训练样本包括第二源域样本字和第二目标域样本字,所述第二源域样本字的内容和所述第二目标域样本字的内容相同。
将第二样本组中第二源域样本字输入到目标模型的字符生成模型中,得到第三目标域生成字,将第三目标域生成字和第二目标域样本字输入至字符分类模型,计算第一损失。第二训练样本包括第二源域样本字和第二目标域样本字,第二源域样本字和第二目标域样本字的内容和风格类型均不同。第二源域样本字、第二目标域样本字和第三目标域生成字的内容相同,第二源域样本字和第三目标域生成字,风格类型不同,第二目标域样本字和第三目标域生成字风格类型相同。
第二样本组包括内容相同的第二源域样本字和第二目标域样本字,采用内容相同的第二源域样本字和第一目标域样本字的配对数据作为模型的输入,以训练模型,可以增加模型学习风格转换的能力,提高模型的风格转换准确率。
内容相同的第二源域样本字和第二目标域样本字,需要根据第二源域样本字,查询对应的第二目标域样本字,从而,第二源域样本字和第二目标域样本字可以理解为配对的样本对,即第二样本组为配对的训练样本。此外,目标域字体风格为用户手写字,相应的,查询对应的第二目标域样本字之前,还需要获取用户经授权提供的用户手写字,增加生成训练样本的人工成本。
S103,根据所述第一损失和所述第二损失调整所述字符生成模型的参数。
根据第一损失和第二损失调整字符生成模型的参数,得到更新的字符生成模型。针对下一组训练样本,使用更新的字符生成模型,返回操作S101,重复进行训练,直至达到预设的训练停止条件,则停止调整字符生成模型的参数,得到训练完成的字符生成模型。训练停止条件可以包括前述损失之和收敛、各项损失均收敛或迭代次数大于等于设定次数阈值等。
由于真实世界的手写字风格迥异,无法在训练集中涵盖现实中的所有情况。由于训练样本的覆盖范围小,导致据此训练的模型对未知字体的风格转换的能力较差。
根据本公开的技术方案,通过基于不配对的第一训练样本和配对的第二训练样本,训练目标模型中的字符生成模型,通过增加不配对的第一训练样本,增加训练样本的数量和范围,可以增加字符生成模型对未知字体的风格转换的能力,提高模型的泛化能力,并且结合配对的的训练样本对字符生成模型进行训练,可以兼顾提高模型准确实现风格转换的能力,提高模型的风格转换准确率。
图2是根据本公开实施例公开的另一种字符生成模型的训练方法的流程图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。所述字符生成模型的训练方法,优化为:获取训练集,所述训练集包括数量相同的第一训练样本和第二训练样本;从所述训练集中提取第一训练样本和第二训练样本。相应的,方法包括:
S201,获取训练集,所述训练集包括数量相同的第一训练样本和第二训练样本。
训练集可以是对目标模型进行训练的样本的集合,具体可以是在当前迭代轮次对目标模型进行训练的样本的集合。在训练过程中,对目标模型进行多轮训练。针对每一迭代轮次,都配置有对应的训练集,以在该迭代轮次,对目标模型进行训练。在当前迭代轮次,可以获取该当前迭代轮次对应的训练集对目标模型进行训练,也即实际是在各迭代轮次中,采用相同数量的第一训练样本和第二训练样本,对目标模型进行训练。其中,对目标模型进行训练可以是对目标模型中的字符生成模型进行训练。
第一训练样本为未配对数据,第二训练样本为配对数据。针对第二训练样本,字符生成模型可以学习第二源域样本字和配对的第二目标域样本字之间的相同的字体内容特征。而针对第一训练样本,第一源域样本字和第一目标域样本字之间的字体内容特征不同,字符生成模型无法学习字体内容特征。也就是说,非配对的第一训练样本的数量比配对的第二训练样本的数量多,导致字体内容特征的学习在训练中的占比较小,导致模型无法训练出字体内容的特征。通过配置第一训练样本的数量和第二训练样本的数量相同,可以平衡配对数据和未配对数据,在提高泛化能力的情况下,兼顾提高风格转换内容不变的准确率。
示例性的,训练集包括的组数为10个,第一训练样本的组数为5个,第二训练样本的组数为5个。
此外,还可以配置在训练集,所述训练集包括第一训练样本的组数略小于第二训练样本的组数,即组数之差小于等于预设组数阈值,例如组数阈值为2。示例性的,训练集包括的组数为10个,第一训练样本的数量为4个,第二训练样本的数量为6个。又如,训练集包括的组数为11个,第一训练样本的数量为5个,第二训练样本的数量为6个.
S202,从所述训练集中提取第一训练样本和第二训练样本。
获取训练集中包括的第一训练样本和第二训练样本,可以并行或串行输入至目标模型中,对字符生成模型进行训练。
S203,将第一训练样本输入到目标模型中,计算第一损失,所述目标网络包括字符生成模型和预先训练的字符分类模型,所述第一训练样本包括第一源域样本字和第一目标域样本字,所述第一源域样本字的内容和所述第一目标域样本字的内容不同。
S204,将第二训练样本输入到所述目标模型中,计算第二损失,所述第二训练样本包括第二源域样本字和第二目标域样本字,所述第二源域样本字的内容和所述第二目标域样本字的内容相同。
S205,根据所述第一损失和所述第二损失调整所述字符生成模型的参数。
可选的,所述第一损失包括第一错字损失,所述第二损失包括第二错字损失和特征损失。
其中,第一训练样本输入到目标模型中不会计算特征损失。在训练集中,在第一训练样本的占比大于第二训练样本的占比的情况下,导致特征损失在总损失的占比较小,从而对字符生成模型的训练的影响程度较小,导致字符生成模型无法训练出目标域的字体特征的学习能力。从而,在训练集中配置数量相同的第一训练样本和第二训练样本,可以平衡训练数据中配对数据和未配对数据,使得字符生成模型可以很好的学习目标域的字体特征,从而提高风格转换的准确率。错字损失用于约束字符生成模型输出的目标域生成字的错字率,具体是指字与正确字之间的差异。特征损失是指样本字与生成字之间的差异,具体是真实手写字与模型的生成字之间的差异。
将第一源域样本字输入至字符生成模型,得到第一目标域生成字;将第二源域样本字输入至字符生成模型,得到第二目标域生成字。字符分类模型用于检测目标域样本字是否为错字。第一训练样本和第二训练样本均可以计算错字损失,可以将第一错字损失和第二错字损失统称为错字损失,并将第一目标域生成字和第二目标域生成字统称为目标域生成字。将目标域生成字输入到字符分类模型,计算错字损失。
将目标域生成字输入到字符分类模型,得到该目标域生成字的生成字符向量其中,向量/>中每个元素可以表示训练样本中的一个字符,则n表示训练样本中的字符个数,例如,训练样本具有6761个字,则n可以等于6760。针对上述第一目标域生成字,预设有标准字符向量/>其中,/>中每个元素可以表示训练样本中的一个字符,则n表示训练样本中的字符个数,例如,训练样本具有6761个字,则n可以等于6760。
标准字符向量表示将目标域生成字输入到上述字符分类模型,上述字符分类模型应该输出的向量。例如,目标域生成字是“做”字,“做”字在训练样本中的n个字中位于第一个,则“做”字的标准字符向量可以表示为/>根据第一目标域生成字的生成字符向量/>和标准字符向量/>之间的交叉熵,可以确定错字损失。错字损失可以用如下等式(1)表示:
其中,LC表示错字损失,xi表示生成字符向量中下标为i的元素,yi表示标准字符向量中下标为i的元素,i为大于等于0并且小于等于n的整数,n表示生成字符向量和标准字符向量中的元素个数。
根据本公开的实施例,错字损失可以用来约束字符生成模型输出的目标域生成字的错字率,从而减少字符生成模型生成错字的概率。
针对第二训练样本,可以将第二目标域样本字字和第二目标域生成字输入到字符分类模型,计算特征损失。将第二目标域生成字输入到字符分类模型,得到字符分类模型的特征层输出的生成特征图;将第二目标域样本字输入到字符分类模型,得到字符分类模型的特征层输出的样本特征图;根据至少一个特征层的生成特征图和样本特征图之间的差异,计算所述字符生成模型的特征损失。
字符分类模型包括至少一个特征层,可以从中选择至少一个特征层,并针对选择的任意特征层,可以计算该特征层的生成特征图和该特征层的样本特征图之间的差异。该差异用于描述生成特征图和样本特征图之间的不同程度,以评估模型的生成字是否与真实手写的样本字的相似程度。根据该差异计算特征损失,可以从特征的维度,更加细节的描述出模型的生成字是否与真实手写的样本字之间的不同程度。
其中,选择的特征层可以根据需要进行设定,例如,可以选择多个特征层的中位数特征层的生成特征图和样本特征图之间的差异,计算所述字符生成模型的特征损失,如总数为90个特征层,中位数为第45特征层和第46特征层。选择的特征层的数量为一个,可以将特征层的生成特征图和样本特征图之间的差异直接作为特征损失;选择的特征层的数量为至少两个,可以将多个特征层的差异进行数值计算,得到特征损失,其中,数值计算可以是求和计算、乘积计算或加权平均计算等。
根据本公开的实施例,特征损失可以用来约束字符生成模型输出的目标域生成字是否与目标域样本字的相似程度,从而提高字符生成模型风格转换的准确率。
可选的,所述计算特征损失,包括:针对所述字符分类模型包括的至少一个特征层中的每一特征层,计算所述特征层的生成特征图和样本特征图之间的像素差异,得到所述特征层的像素损失;根据所述至少一个特征层的像素损失,计算特征损失。
同一特征层输出的特征图的尺寸相同,可以根据构成特征图的像素,计算像素差异,以从像素维度计算图像之间的差异,作为特征层的像素损失。根据特征层的像素损失,计算特征损失,具体可以是:特征层的数量为一个,将像素损失作为特征损失;特征层的数量为至少两个,计算像素损失之和,作为特征损失。
示例性的,每个特征层的像素损失可以根据L1范数损失函数计算,即计算真实字和生成字中相同位置的像素之间的绝对差值的总和。
通过将生成特征图和样本特征图之间的像素差异作为生成特征图和样本特征图之间的差异,计算像素损失,并确定特征损失,可以从像素维度计算特征损失,控制特征损失的计算细粒度,从像素细节描述出模型的生成字是否与真实手写的样本字之间的不同程度,并计算特征损失来调整字符生成模型的参数,以使字符生成模型学习更加细化的样本字的字体风格细节,提高字符生成模型的生成字的准确率。
可选的,所述计算该特征层的生成特征图和样本特征图之间的像素差异,包括:针对所述特征层的生成特征图中的每个位置的像素点,计算所述像素点的像素值与所述样本特征图中对应位置的像素点的像素值之间的差值的绝对值,得到每个位置的像素点的差异;根据多个位置的像素点的差异,确定所述特征层的生成特征图和样本特征图之间的像素差异。
针对该特征层,计算相同位置的生成特征图中的像素点的像素值与样本特征图中的像素点的像素值的差值的绝对值,确定为该位置的像素点的差异。生成特征图和样本特征图的尺寸相同,特征图中包括的像素数量相同,也即特征图包括的位置的数量相同,将多个位置的像素点的差异之和,确定为该特征层的生成特征图和样本特征图之间的像素差异。多个位置可以是该特征图输出的特征图包括的全部位置,也可以是筛选的部分位置。
在一个具体的例子中,生成特征图和样本特征图的大小均为64*64,包括4096个位置,可以针对每个位置计算生成特征图的像素点和样本特征图像素点之间的像素值差值的绝对值,得到4096个差值绝对值,统计4096个差值绝对值之和,得到该特征层的生成特征图和样本特征图之间的像素差异。需要说明的是,像素差异实际是采用L1范数损失函数计算,L1范数损失函数的元素为特征图中第i个位置的像素点的像素值。
通过计算两个特征图在每个位置的对应的像素点之间的像素值差值绝对值,并根据多个位置的绝对值,确定该特征层的像素差异,将相同位置的像素点的像素值,作为L1范数损失函数的元素,计算L1范数损失,可以提高字符生成模型的鲁棒性。
根据本公开的技术方案,通过计算字符分类模型中至少一个特征图的生成特征图和样本特征图之间的差异,并确定特征损失,可以从特征的维度,更加细节的描述出模型的生成字是否与真实手写的样本字之间的不同程度,并根据该不同程度计算的特征损失调整字符生成模型的参数,可以使字符生成模型学习出真实手写的样本字的更多的字体细节,最终使字符生成模型的生成字与真实手写的样本字更加相似,提高字符生成模型的生成字的准确率。
根据本公开的技术方案,通过配置在每迭代轮次的训练中使用数量相同的第一训练样本和第二训练样本,对目标模型中的字符生成模型进行训练,可以保持配对数据和未配对数据的平衡,在提高字符生成模型的泛化能力的同时,兼顾学习配对数据中相同的字体内容特征,以提高风格转换内容不变的准确率。
图3是根据本公开的一个实施例的使用错字损失的效果对比图。如图3所示,图像301是没有使用错字损失约束字符生成模型而生成的包含手写字“伶”、“暗”、“博”和“撼”的图像。图像302是使用错字损失约束字符生成模型而生成的包含手写字“伶”、“暗”、“博”和“撼”的图像。图像301中的“伶”、“暗”、“博”和“撼”字分别相比于正确的“伶”、“暗”、“博”和“撼”字少了一点,而图像302中的“伶”、“暗”、“博”和“撼”字则是正确的“伶”、“暗”、“博”和“撼”字。因此,使用错字损失约束字符生成模型能够学习到正确的字,降低错字率。
图4是根据本公开实施例提供的一个实施例的使用特征损失约束字符生成模型的可视化效果图。如图4所示,第二目标域样本字401是真实的包含手写字“神”的图像,即第二目标域样本字401中的“神”字是用户的真实手写字。第二目标域生成字402为字符生成模型生成的包含手写字“神”的图像,第二目标域样本字401和第二目标域生成字402的大小均为256*256。第二目标域样本字404是真实的包含手写字“褂”的图像,即第二目标域样本字404中的“褂”字是用户的真实手写字。第二目标域生成字405为字符生成模型生成的包含手写字“褂”的图像,第二目标域样本字401、目标域生成字402、第二目标域样本字404和第二目标域生成字405的大小均为256*256。第二目标域样本字401、第二目标域生成字402、第二目标域样本字404和第二目标域生成字405输入到字符分类模型,在字符分类模型的第一预设层(例如第30特征层)分别输出样本特征图和样本特征图,样本特征图和样本特征图的大小均为64*64,将这两张64*64的图像进行像素差异计算后,得到表示该两张图像之间差异的热力效果图403和406。热力效果图403和406也是64*64的图像,热力效果图403中颜色越深的地方表示第二目标域样本字401和第二目标域生成字402之间的差别越大,热力效果图406中颜色越深的地方表示第二目标域样本字404和第二目标域生成字405之间的差别越大,可以使得字符生成模型更加专注于学习热力效果图403和406中颜色较深的部位的特征,来提高字符生成模型学习特征的能力。
图5是根据本公开实施例提供的另一个实施例的使用特征损失约束字符生成模型的可视化效果图。如图5所示,目标域样本字501、目标域生成字502、目标域样本字504和目标域生成字505输入到字符分类模型,在字符分类模型的第二预设层(如第31特征层)分别输出样本特征图和样本特征图,样本特征图和样本特征图的大小均为32*32,将这两张32*32的图像进行像素差异计算后,得到表示该两张图像之间差异的热力效果图503和506。热力效果图503和506也是32*32的图像,热力效果图503中颜色越深的地方表示目标域样本字501和目标域生成字502之间的差别越大,热力效果图506中颜色越深的地方表示目标域样本字504和目标域生成字505之间的差别越大,可以使得字符生成模型更加专注于学习热力效果图503和506中颜色较深的部位的特征,来提高字符生成模型学习特征的能力。
可以理解,可以结合热力效果图403和503,共同使得字符生成模型学习目标域样本字401和目标域生成字402之间的差别较大的特征,以及学习目标域样本字501和目标域生成字502之间的差别较大的特征,并且可以结合热力效果图406和506,学习目标域样本字404和目标域生成字405之间的差别较大的特征,以及学习目标域样本字504和目标域生成字505之间的差别较大的特征,来提高字符生成模型学习特征的能力。
图6是根据本公开实施例提供的一种使用不同层的特征损失约束字符生成模型所生成的字的效果对比图。如图6所示,图像601是使用非中间特征层计算的特征损失约束字符生成模型而生成的包含手写字“打”、“佛”和“彤”的图像。图像602是真实的包含手写字“打”、“佛”和“彤”的图像,即图像602中的“打”、“佛”和“彤”字是用户的真实手写字。图像603是使用中间特征层计算的特征损失约束字符生成模型而生成的包含手写字“打”、“佛”和“彤”的图像。示例性的,字符分类模型包括50个特征层,非中间特征层可以是6层、7层和8层;中间特征层包括24层、26层和26层。经实验,相比于图像601中的“打”、“佛”和“彤”字,图像603中的“打”、“佛”和“彤”字学习到了真实用户手写的“打”、“佛”和“彤”字(即图像602中的“打”、“佛”和“彤”字)更多的特征,与真实用户手写的“打”、“佛”和“彤”字更相似。
图7是根据本公开实施例公开的另一种字符生成模型的训练方法的流程图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。所述计算第一损失,具体化为:将第一训练样本输入到所述字符生成模型,得到第一目标域生成字;将所述第一目标域生成字输入到所述字符分类模型,计算所述字符生成模型的第一错字损失。相应的,方法包括:
S701,将第一训练样本输入到目标模型中字符生成模型,得到第一目标域生成字;所述目标网络包括字符生成模型和预先训练的字符分类模型,所述第一训练样本包括第一源域样本字和第一目标域样本字,所述第一源域样本字的内容和所述第一目标域样本字的内容不同。
S702,将所述第一目标域生成字输入到所述字符分类模型,计算所述字符生成模型的第一错字损失。
针对第一训练样本,字符分类模型不计算特征损失。可以预先在训练集中标注第一训练样本和第二训练样本,实现区分第一训练样本和第二训练样本,不将第一训练样本中第一目标域样本字输入至字符分类模型,从而字符分类模型不针对第一目标域样本字,计算特征损失,以及仅根据第一目标域生成字,不进行特征损失计算。
S703,将第二训练样本输入到所述目标模型中,计算第二损失,所述第二训练样本包括第二源域样本字和第二目标域样本字,所述第二源域样本字的内容和所述第二目标域样本字的内容相同。
相应的,将第二训练样本输入到字符生成模型,得到第二目标域生成字,将第二目标域生成字输入到字符分类模型,计算字符生成模型的第二错字损失。将第二目标域样本字字和第二目标域生成字输入到字符分类模型,计算特征损失。
S704,根据所述第一损失和所述第二损失调整所述字符生成模型的参数。
可选的,所述字符生成模型包括第一生成模型和第二生成模型;所述将第一训练样本输入到字符生成模型,得到第一目标域生成字,包括:将第一源域样本字输入到所述第一生成模型,得到所述第一目标域生成字;所述方法还包括:将所述第一目标域生成字输入到所述第二生成模型,得到第一源域生成字;将所述第一目标域样本字输入到所述第二生成模型,得到第二源域生成字,并将所述第二源域生成字输入到所述第一生成模型,得到第二目标域生成字;根据所述第一训练样本、所述第一目标域生成字、所述第一源域生成字、所述第二目标域生成字和所述第二源域生成字,计算所述字符生成模型的第一生成损失;根据所述第一生成损失调整所述第一生成模型的参数。
字符生成模型包括第一生成模型、第二生成模型、第一判别模型和第二判别模型。第一生成模型用于将源域字体风格的图像转换为目标域字体风格的图像,第二生成模型用于将目标域字体风格的图像转换为源域字体风格的图像。第一判别模型用于判别转换后的图像是否是属于源域字体风格的图像,第二判别模型用于判别转换后的图像是否是属于目标域字体风格的图像。
基于上述字符生成模型的结构,字符生成模型可以包括两个循环工作过程。字符生成模型的第一个循环工作过程:将第一源域样本字输入到第一生成模型,得到第一目标域生成字,并将第一目标域生成字输入到第二生成模型,得到第一源域生成字。字符生成模型的第二个循环工作过程:将第一目标域样本字输入到第二生成模型,得到第二源域生成字,并将第二源域生成字输入到第一生成模型,得到第二目标域生成字。
实际上,字符生成模型包括生成模型和判别模型,相应的,字符生成模型的损失包括生成损失和判别损失。其中,判别损失用于训练判别模型,而生成损失用于训练生成模型,在字符生成模型中最终应用于图像风格转换的模型为生成模型,也即需要计算生成损失用于生成模型进行训练。实际上,可以理解为,第一损失还包括第一生成损失;第二损失还包括第二生成损失。以第二训练样本为例,字符生成模型还用于计算生成损失,实际上,第一训练样本输入至字符生成模型中,同样计算生成损失,此处不再赘述。其中,生成损失可以是指对判别模型对字关于生成字和样本字的分类结果与真值分类结果之间的差异,以及样本字与生成字之间的差异。
下面针对第一训练样本,对字符生成模型的生成损失和判别损失进行说明。实际上,第二训练样本也是同样原理,此处不再赘述。
字符生成模型的第一个循环工作过程:将第一源域样本字(例如包含楷体字的图像,简称楷体字图像)输入到第一生成模型,得到第一目标域生成字(例如包含手写字的图像,简称手写字图像)。将第一目标域生成字(手写字图像)输入到第二生成模型,得到第一源域生成字(楷体字图像)。
在第一个循环工作过程中,第一源域样本字是真实的楷体字图像,而第一源域生成字是模型生成的楷体字图像,可以称为假的楷体字图像。第一目标域生成字是模型生成的手写字图像,可以称为假的手写字图像。在训练过程中,可以标注第一源域样本字为真Real(例如值为1),标注第一目标域生成字为假Fake(例如值为0)。
将第一源域样本字输入到第一判别模型,对于第一判别模型来说,预期输出应为1。如果第一判别模型实际输出为X,使用均方差计算第一判别模型的损失,则第一判别模型的一部分损失可以表示为(X-1)2
将第一目标域生成字输入到第二判别模型,对于第二判别模型来说,预期输出应为0。如果第二判别模型实际输出为Y*(为便于区分,可以使用带*的参数表示该参数与模型生成的图像相关,不带*的参数表示该参数与真实的图像相关),使用均方差计算第二判别模型的损失,则第二判别模型的一部分损失可以表示为(Y*-0)2
将第一目标域生成字输入到第二判别模型,对于第一生成模型来说,期望第二判别模型输出为1。如果第二判别模型实际输出为Y*,使用均方差计算第一生成模型的损失,则第一生成模型的一部分损失可以表示为(Y*-1)2
为了保证将第一源域样本字输入到第一生成模型得到的第一源域生成字仅仅是风格转换,内容保持不变,可以针对第一生成模型增加一个循环一致性损失(cycle-consistency loss)。该损失可以根据第一源域样本字和第一源域生成字之间的差异计算得到。例如,将第一源域样本字和第一源域生成字这两张图像的每个对应像素点的像素值作差,并求绝对值,得到每个像素点的差异,将所有像素点的差异求和得到第一生成模型的循环一致性损失,可以记为L1A2B
因此,第一生成模型的一部分损失为(Y*-1)2,另一部分损失为L1A2B,这两部分损失之和作为第一生成模型的总体损失LA2B,第一生成模型的总体损失LA2B可以用如下等式(2)表示:
LA2B=(Y*-1)2+L1A2B (2)
字符生成模型的第二个循环工作过程:将第一目标域样本字(例如包含手写字的图像,简称手写字图像)输入到第二生成模型,得到第二源域生成字(例如包含楷体字的图像,简称楷体字图像)。将第二源域生成字(楷体字图像)输入到第一生成模型,得到第二目标域生成字(手写字图像)。
在第二个循环工作过程中,第一目标域样本字是真实手写字图像,第二目标域生成字是模型生成的手写字图像,可以称为假的手写字图像。第二源域生成字是模型生成的楷体字图像,可以称为假的楷体字图像。在训练过程中,可以标注第一目标域样本字为真Real(例如值为1),标注第二源域生成字为假Fake(例如值为0)。
将第一目标域样本字输入到第二判别模型,对于第二判别模型来说,预期输出应为1,如果第二判别模型实际输出为Y,使用均方差计算第二判别模型的损失,则第二判别模型的一部分损失可以表示为(Y-1)2
将第二源域生成字输入到第一判别模型,对于第一判别模型来说,预期输出应为0。如果第一判别模型实际输出为X*,使用均方差计算第一判别模型的损失,则第一判别模型的一部分损失可以表示为(X*-0)2
将第二源域生成字输入到第一判别模型,对于第二生成模型来说,期望第一判别模型输出为1。如果第一判别模型实际输出为X*,使用均方差计算第二生成模型的损失,则第二生成模型的一部分损失可以表示为(X*-1)2
为了保证将第一目标域样本字输入到第二生成模型得到的第二目标域生成字仅仅是风格转换,内容保持不变,可以针对第二生成模型增加一个cycle-consistency loss。该损失可以根据第一目标域样本字和第二目标域生成字之间的差异计算得到。例如,将第一目标域样本字和第二目标域生成字这两张图像的每个对应像素点的像素值作差,并求绝对值,得到每个像素点的差异,将所有像素点的差异求和得到第二生成模型的循环一致性损失,可以记为L1B2A
因此,第二生成模型的一部分损失为(X*-1)2,另一部分损失为L1B2A,这两部分损失之和作为第二生成模型的总体损失LB2A,第二生成模型的总体损失LB2A可以用如下等式(3)表示:
LB2A=(X*-1)2+L1B2A (3)
第一生成模型的总体损失LA2B以及第二生成模型的总体损失LB2A之和可以作为字符生成模型的生成损失,生成损失可以用如下等式(4)表示:
LG=(Y*-1)2+L1A2B+(X*-1)2+L1B2A (4)
其中,LG表示字符生成模型的生成损失,可以用于调整第一生成模型和第二生成模型的参数。
字符生成模型的判别损失包括第一判别模型的判别损失和第二判别模型的判别损失。
计算出第一判别模型的一部分损失为(X-1)2,以及计算出第一判别模型的另一部分损失为(X*-0)2,则两部分损失之和可以作为第一判别模型的判别损失,第一判别模型的判别损失LA可以用如下等式(5)表示:
LA=(X-1)2+(X*-0)2 (5)
第一判别模型的判别损失LA可用于调整第一判别模型的参数。
类似地,计算出第二判别模型的一部分损失为(Y*-0)2,以及计算出第二判别模型的另一部分损失为(Y-1)2,则两部分损失之和可以作为第二判别模型的判别损失,第二判别模型的判别损失LB可以用如下等式(6)表示:
LB=(Y-1)2+(Y*-0)2 (6)
第二判别模型的判别损失LB可用于调整第二判别模型的参数。
通过采用生成损失约束第一生成模型,可以使第一生成模型输出的图像的字体风格更为贴合目标域字体风格,在目标域字体风格为手写字的情况下,可以使生成字的字体风格和真实手写字的字体风格基本一致,提高输出的手写字的真实性,从而提高风格转换的准确率。
可选的,所述根据所述第一损失和所述第二损失调整所述字符生成模型的参数,包括:根据所述第一损失和所述第二损失调整所述第一生成模型的参数。
实际上,训练完成的字符生成模型中的第一生成模型会应用于风格转换的字符生成。第一生成模型用于实现图像从源域风格到目标域风格的转换。通过第一损失和第二损失调整第一生成模型,可以准确实现图像从源域风格到目标域风格的转换准确率。
可选的,所述源域样本字为具有源域字体风格的图像,所述目标域样本字为具有目标域字体风格的图像。
源域样本字为具有源域字体风格的字所生成的图像。目标域样本字为具有目标域字体风格的字所生成的图像。源域字体风格与目标域字体风格不同。示例性的,源域字体风格为印刷字体,例如,针对中文字符的字体,源域字体风格为宋体、楷体、黑体或隶书等;目标域字体风格为用户真实手写字体风格等艺术字体风格。
通过配置源域样本字为具有源域字体风格的图像以及目标域样本字为具有目标域字体风格的图像,可以实现不同字体风格的转换,增加新风格的字体数量。
通过使用第一生成模型基于源域样本字来生成目标域生成字,能够实现多种风格的字体生成,引入循环一致性损失,提高第一生成模型降低模型生成字和目标字之间的像素级别差异,同时使用判别模型引入生成损失,可以使模型生成字的字体风格更加符合目标域的字体风格,且使用字符分类模型引入错字损失和特征损失,能够提高第一生成模型学习字体特征的能力,并减少生成错字的概率。
根据本公开的技术方案,通过配置在每迭代轮次的训练中使用数量相同的第一训练样本和第二训练样本,对目标模型中的字符生成模型进行训练,可以保持配对数据和未配对数据的平衡,在提高字符生成模型的泛化能力的同时,兼顾学习配对数据中相同的字体内容特征,以提高风格转换内容不变的准确率。
图8是根据本公开实施例提供的一种基于第一训练样本的字符生成模型的训练方法的原理图,如图8所示,第一训练样本中第一源域样本字801输入至字符生成模型810,得到第一目标域生成字802,将第一目标域生成字802和第一训练样本中第一目标域样本字803输入至字符分类模型820,计算第一错字损失8201。
图9是根据本公开实施例提供的一种基于第二训练样本的字符生成模型的训练方法的原理图,如图9所示,第二训练样本中第二源域样本字901输入至字符生成模型910,得到第二目标域生成字902,将第二目标域生成字902和第二训练样本中第二目标域样本字903输入至字符分类模型920,计算第二错字损失9201和特征损失9202。
图10是根据本公开实施例提供的一种字符生成模型的结构原理图;图11是根据本公开实施例提供的又一种字符生成模型的结构原理图。图10和图11实际是字符生成模型的两个循环工作过程的原理图。
如图10所示,字符生成模型1010包括第一生成模型1011、第二生成模型1012、第一判别模型1013和第二判别模型1014。图10所示为字符生成模型1010的第一个循环工作过程:将第一源域样本字1001输入到第一生成模型1011,得到第一目标域生成字1002,并将第一目标域生成字输入到第二生成模型1012,得到第一源域生成字1003。将第一源域样本字1001输入到第一判别模型1013,对于第一判别模型1013来说,预期输出应为1。如果第一判别模型1013实际输出为X,使用均方差计算第一判别模型的损失,则第一判别模型1013的一部分损失可以表示为(X-1)2。将第一目标域生成字1002输入到第二判别模型1014,对于第二判别模型1014来说,预期输出应为0。如果第二判别模型1014实际输出为Y*,使用均方差计算第二判别模型1014的损失,则第二判别模型的一部分损失可以表示为(Y*-0)2。将第一目标域生成字1003输入到第二判别模型1014,对于第一生成模型1011来说,期望第二判别模型1014输出为1。如果第二判别模型1014实际输出为Y*,使用均方差计算第一生成模型1011的损失,则第一生成模型1011的一部分损失可以表示为(Y*-1)2
如图11所示,字符生成模型1111包括第一生成模型1111、第二生成模型1112、第一判别模型1113和第二判别模型1114。图11所示为字符生成模型1110的第二个循环工作过程:将第一目标域样本字1101输入到第二生成模型1112,得到第二源域生成字1102,并将第二源域生成字1101输入到第一生成模型1111,得到第二目标域生成字1103。将第一目标域样本字1101输入到第二判别模型1114,对于第二判别模型1114来说,预期输出应为1,如果第二判别模型1114实际输出为Y,使用均方差计算第二判别模型1114的损失,则第二判别模型1114的一部分损失可以表示为(Y-1)2。将第二源域生成字1102输入到第一判别模型1113,对于第一判别模型1113来说,预期输出应为0。如果第一判别模型1113实际输出为X*,使用均方差计算第一判别模型1113的损失,则第一判别模型1113的一部分损失可以表示为(X*-0)2。将第二源域生成字1103输入到第一判别模型1113,对于第二生成模型1112来说,期望第一判别模型1113输出为1。如果第一判别模型1113实际输出为X*,使用均方差计算第二生成模型1112的损失,则第二生成模型1112的一部分损失可以表示为(X*-1)2
图12是根据本公开实施例提供的一种使用生成损失约束的字符生成模型的训练方法的原理图,如图12所示,以第二训练样本1201为例,字符生成模型1210还用于计算生成损失12101,实际上,第一训练样本输入至字符生成模型1210中,同样计算生成损失,但不计算特征损失,此处不再赘述。
图13是根据本公开实施例提供的一种第一生成模型的训练方法的示意图,如图13所示,在一个迭代轮次中,将第一训练样本的汉字输入到第一生成模型中,得到第一损失,并调整第一生成模型;将第二训练样本的汉字输入到第一生成模型中,得到第二损失,并调整第一生成模型。同时,可以调整第一训练样本和第二训练样本的数量比值为1:1,相应的,如图13所示,汉字1、汉字3、汉字5、汉字7和汉字9为第一训练样本;汉字2、汉字4、汉字6、汉字8和汉字10为第二训练样本,分别输入到第一生成模型中,计算得到的第一损失的数量和第二损失的数量为1:1。第一损失可以包括第一生成损失和第一错字损失;第二损失可以包括第二生成损失、第二错字损失和特征损失。根据第一损失和第二损失调整第一生成模型,可以提高第一生成模型的泛化能力,并兼顾风格转换准确率。
图14是根据本公开实施例提供的一种生成字的效果图,图15是根据本公开实施例提供的一种样本字的效果图。如图14-图15所示,图14所示的字是第一生成模型生成的字,图15所示的字是用户真实手写的字,图14中的字具有用户真实手写的字的字体风格。图14中的生成字的字体风格和图15中真实手写字的字体风格基本一致,并且针对很潦草的手写字,风格迁移模型也能生成正确的字。
图16是根据本公开实施例公开的一种字符生成方法的流程图,本实施例可以适用于根据训练字符生成模型,将源域风格的字转换为目标域风格的字,以生成新字的情况。本实施例方法可以由字符生成装置来执行,该装置可采用软件和/或硬件的方式实现,并具体配置于具有一定数据运算能力的电子设备中,该电子设备可以是客户端设备或服务器设备,客户端设备例如手机、平板电脑、车载终端和台式电脑等。
S1601,将源域输入字输入到字符生成模型中第一生成模型中,得到目标域新字,其中,所述字符生成模型根据如本公开任一项实施例所述的字符生成模型的训练方法训练得到。
源域输入字可以是指需要转换为目标域字体风格的字所形成的图像。
字符生成模型是根据字符生成模型的训练方法训练得到的。目标域新字可以是指源域输入字对应的内容的目标域字体风格的字。例如,源域输入字为楷体字图像,目标域新字为手写字图像,将楷体字图像输入到字符生成模型,可以得到手写字图像,即目标域新字。
在得到目标域新字的情况下,可以基于目标域新字建立字库。例如,将字符生成模型生成的新字进行存储,建立得到具有手写字体风格的字库,该字库可应用于输入法,用户使用基于该字库的输入法可以直接获取具有手写字体风格的字,能够满足用户多样化的需求,提高用户体验。
根据本公开的技术方案,通过获取源域输入字,并输入到字符生成模型中第一生成模型中,得到目标域新字,可以实现准确将源域输入字转换为目标域新字,提高目标域新字的生成准确率,提高目标域新字的生成效率,降低提高目标域新字的生成人工成本。
根据本公开的实施例,图17是本公开实施例中的字符生成模型的训练装置的结构图,本公开实施例适用于训练字符生成模型,其中,字符生成模型用于将源域风格的字转换为目标域风格的字的情况。该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
如图17所示的一种字符生成模型的训练装置1700,包括:第一损失计算模块1701、第二损失计算模块1702和第一参数调整模块1703;其中,
第一损失计算模块1701,用于将第一训练样本输入到目标模型中,计算第一损失,所述目标网络包括字符生成模型和预先训练的字符分类模型,所述第一训练样本包括第一源域样本字和第一目标域样本字,所述第一源域样本字的内容和所述第一目标域样本字的内容不同;
第二损失计算模块1702,用于将第二训练样本输入到所述目标模型中,计算第二损失,所述第二训练样本包括第二源域样本字和第二目标域样本字,所述第二源域样本字的内容和所述第二目标域样本字的内容相同;
第一参数调整模块1703,用于根据所述第一损失和所述第二损失调整所述字符生成模型的参数。
根据本公开的技术方案,通过基于不配对的第一训练样本和配对的第二训练样本,训练目标模型中的字符生成模型,通过增加不配对的第一训练样本,增加训练样本的数量和范围,可以增加字符生成模型对未知字体的风格转换的能力,提高模型的泛化能力,并且结合配对的的训练样本对字符生成模型进行训练,可以兼顾提高模型准确实现风格转换的能力,提高模型的风格转换准确率。
进一步的,所述字符生成模型的训练装置,还包括:训练集获取模块,用于获取训练集,所述训练集包括数量相同的第一训练样本和第二训练样本;训练样本获取模块,用于从所述训练集中提取第一训练样本和第二训练样本。
进一步的,所述第一损失包括第一错字损失,所述第二损失包括第二错字损失和特征损失。
进一步的,所述第一损失计算模块1701,包括:第一目标域生成字输出单元,用于将第一训练样本输入到所述字符生成模型,得到第一目标域生成字;第一错字损失计算单元,用于将所述第一目标域生成字输入到所述字符分类模型,计算所述字符生成模型的第一错字损失。
进一步的,所述字符生成模型包括第一生成模型和第二生成模型;
所述第一错字损失计算单元,包括:第一源域生成字输出子单元,用于将第一源域样本字输入到所述第一生成模型,得到所述第一目标域生成字;
所述字符生成模型的训练装置,还包括:第一源域生成字生成模块,用于将所述第一目标域生成字输入到所述第二生成模型,得到第一源域生成字;第二目标域生成字输出模块,用于将所述第一目标域样本字输入到所述第二生成模型,得到第二源域生成字,并将所述第二源域生成字输入到所述第一生成模型,得到第二目标域生成字;第一生成损失计算模块,用于根据所述第一训练样本、所述第一目标域生成字、所述第一源域生成字、所述第二目标域生成字和所述第二源域生成字,计算所述字符生成模型的第一生成损失;第二参数调整模块,用于根据所述第一生成损失调整所述第一生成模型的参数。
进一步的,所述第一参数调整模块1703,包括:第一生成模型参数调整单元,用于根据所述第一损失和所述第二损失调整所述第一生成模型的参数。
进一步的,所述源域样本字为具有源域字体风格的图像,所述目标域样本字为具有目标域字体风格的图像。
上述字符生成模型的训练装置可执行本公开任意实施例所提供的字符生成模型的训练方法,具备执行字符生成模型的训练方法相应的功能模块和有益效果。
根据本公开的实施例,图18是本公开实施例中的字符生成装置的结构图,本公开实施例适用于根据训练字符生成模型,将源域风格的字转换为目标域风格的字,以生成新字的情况。该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
如图18所示的一种字符生成装置1800,包括:字符生成模块1801;其中,
字符生成模块1801,用于将源域输入字输入到字符生成模型中第一生成模型中,得到目标域新字;其中,所述字符生成模型根据如本公开任一实施例所述的字符生成模型的训练方法训练得到。
根据本公开的技术方案,通过获取源域输入字,并输入到字符生成模型中第一生成模型中,得到目标域新字,可以实现准确将源域输入字转换为目标域新字,提高目标域新字的生成准确率,提高目标域新字的生成效率,降低提高目标域新字的生成人工成本。
上述字符生成装置可执行本公开任意实施例所提供的字符生成方法,具备执行字符生成方法相应的功能模块和有益效果。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图19示出了可以用来实施本公开的实施例的示例电子设备1900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图19所示,设备1900包括计算单元1901,其可以根据存储在只读存储器(ROM)1902中的计算机程序或者从存储单元1908加载到随机访问存储器(RAM)1903中的计算机程序,来执行各种适当的动作和处理。在RAM 1903中,还可存储设备1900操作所需的各种程序和数据。计算单元1901、ROM 1902以及RAM 1903通过总线1904彼此相连。输入/输出(I/O)接口1905也连接至总线1904。
设备1900中的多个部件连接至I/O接口1905,包括:输入单元1906,例如键盘、鼠标等;输出单元1907,例如各种类型的显示器、扬声器等;存储单元1908,例如磁盘、光盘等;以及通信单元1909,例如网卡、调制解调器、无线通信收发机等。通信单元1909允许设备1900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1901执行上文所描述的各个方法和处理,例如字符生成模型的训练方法或字符生成方法。例如,在一些实施例中,字符生成模型的训练方法或字符生成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1902和/或通信单元1909而被载入和/或安装到设备1900上。当计算机程序加载到RAM 1903并由计算单元1901执行时,可以执行上文描述的字符生成模型的训练方法或字符生成方法的一个或多个步骤。备选地,在其他实施例中,计算单元1901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行字符生成模型的训练方法或字符生成方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (16)

1.一种字符生成模型的训练方法,包括:
将第一训练样本输入到目标模型中,得到第一目标域生成字,并计算第一损失,所述目标模型包括字符生成模型和预先训练的字符分类模型,所述第一训练样本包括第一源域样本字和第一目标域样本字,所述第一源域样本字的内容和所述第一目标域样本字的内容不同;所述字符生成模型包括第一生成模型和第二生成模型;所述第一目标域生成字通过所述第一源域样本字输入到所述第一生成模型中得到;
将第二训练样本输入到所述目标模型中,计算第二损失,所述第二训练样本包括第二源域样本字和第二目标域样本字,所述第二源域样本字的内容和所述第二目标域样本字的内容相同;
根据所述第一损失和所述第二损失调整所述字符生成模型的参数;
将所述第一目标域生成字输入到所述第二生成模型,得到第一源域生成字;
将所述第一目标域样本字输入到所述第二生成模型,得到第二源域生成字,并将所述第二源域生成字输入到所述第一生成模型,得到第二目标域生成字;
根据所述第一训练样本、所述第一目标域生成字、所述第一源域生成字、所述第二目标域生成字和所述第二源域生成字,计算所述字符生成模型的第一生成损失;
根据所述第一生成损失调整所述第一生成模型的参数。
2.根据权利要求1所述的方法,还包括:
获取训练集,所述训练集包括数量相同的第一训练样本和第二训练样本;
从所述训练集中提取第一训练样本和第二训练样本。
3.根据权利要求1所述的方法,其中,所述第一损失包括第一错字损失,所述第二损失包括第二错字损失和特征损失。
4.根据权利要求1所述的方法,其中,所述计算第一损失,包括:
将第一训练样本输入到所述字符生成模型,得到第一目标域生成字;
将所述第一目标域生成字输入到所述字符分类模型,计算所述字符生成模型的第一错字损失。
5.根据权利要求1所述的方法,其中,所述根据所述第一损失和所述第二损失调整所述字符生成模型的参数,包括:
根据所述第一损失和所述第二损失调整所述第一生成模型的参数。
6.根据权利要求1至5中任一项所述的方法,其中,所述源域样本字为具有源域字体风格的图像,所述目标域样本字为具有目标域字体风格的图像。
7. 一种字符生成方法,包括:
将源域输入字输入到字符生成模型中第一生成模型中,得到目标域新字; 其中,所述字符生成模型根据如权利要求1至6中任一项所述的字符生成模型的训练方法训练得到。
8.一种字符生成模型的训练装置,包括:
第一损失计算模块,用于将第一训练样本输入到目标模型中,得到第一目标域生成字,并计算第一损失,所述目标模型包括字符生成模型和预先训练的字符分类模型,所述第一训练样本包括第一源域样本字和第一目标域样本字,所述第一源域样本字的内容和所述第一目标域样本字的内容不同;所述字符生成模型包括第一生成模型和第二生成模型;所述第一目标域生成字通过所述第一源域样本字输入到所述第一生成模型中得到;
第二损失计算模块,用于将第二训练样本输入到所述目标模型中,计算第二损失,所述第二训练样本包括第二源域样本字和第二目标域样本字,所述第二源域样本字的内容和所述第二目标域样本字的内容相同;
第一参数调整模块,用于根据所述第一损失和所述第二损失调整所述字符生成模型的参数;
第一源域生成字生成模块,用于将所述第一目标域生成字输入到所述第二生成模型,得到第一源域生成字;
第二目标域生成字输出模块,用于将所述第一目标域样本字输入到所述第二生成模型,得到第二源域生成字,并将所述第二源域生成字输入到所述第一生成模型,得到第二目标域生成字;
第一生成损失计算模块,用于根据所述第一训练样本、所述第一目标域生成字、所述第一源域生成字、所述第二目标域生成字和所述第二源域生成字,计算所述字符生成模型的第一生成损失;
第二参数调整模块,用于根据所述第一生成损失调整所述第一生成模型的参数。
9.根据权利要求8所述的装置,还包括:
训练集获取模块,用于获取训练集,所述训练集包括数量相同的第一训练样本和第二训练样本;
训练样本获取模块,用于从所述训练集中提取第一训练样本和第二训练样本。
10.根据权利要求8所述的装置,其中,所述第一损失包括第一错字损失,所述第二损失包括第二错字损失和特征损失。
11.根据权利要求8所述的装置,其中,所述第一损失计算模块,包括:
第一目标域生成字输出单元,用于将第一训练样本输入到所述字符生成模型,得到第一目标域生成字;
第一错字损失计算单元,用于将所述第一目标域生成字输入到所述字符分类模型,计算所述字符生成模型的第一错字损失。
12.根据权利要求8所述的装置,其中,所述第一参数调整模块,包括:
第一生成模型参数调整单元,用于根据所述第一损失和所述第二损失调整所述第一生成模型的参数。
13.根据权利要求8至12中任一项所述的装置,其中,所述源域样本字为具有源域字体风格的图像,所述目标域样本字为具有目标域字体风格的图像。
14.一种字符生成装置,包括:
字符生成模块,用于将源域输入字输入到字符生成模型中第一生成模型中,得到目标域新字; 其中,所述字符生成模型根据如权利要求1至6中任一项所述的字符生成模型的训练方法训练得到。
15. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的字符生成模型的训练方法,或执行权利要求7所述的字符生成方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的字符生成模型的训练方法,或执行权利要求7所述的字符生成方法。
CN202111056555.4A 2021-09-09 2021-09-09 字符生成模型的训练方法、字符生成方法、装置和设备 Active CN113792849B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202111056555.4A CN113792849B (zh) 2021-09-09 2021-09-09 字符生成模型的训练方法、字符生成方法、装置和设备
JP2022007357A JP2023039891A (ja) 2021-09-09 2022-01-20 文字生成モデルのトレーニング方法、文字生成方法、装置および機器
EP22158687.8A EP4012668A3 (en) 2021-09-09 2022-02-25 Training method for character generation model, character generation method, apparatus and device
US17/682,295 US20230154077A1 (en) 2021-09-09 2022-02-28 Training method for character generation model, character generation method, apparatus and storage medium
KR1020220026093A KR20220034077A (ko) 2021-09-09 2022-02-28 문자 생성 모델의 트레이닝 방법, 문자 생성 방법, 장치 및 설비

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111056555.4A CN113792849B (zh) 2021-09-09 2021-09-09 字符生成模型的训练方法、字符生成方法、装置和设备

Publications (2)

Publication Number Publication Date
CN113792849A CN113792849A (zh) 2021-12-14
CN113792849B true CN113792849B (zh) 2023-09-01

Family

ID=78879816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111056555.4A Active CN113792849B (zh) 2021-09-09 2021-09-09 字符生成模型的训练方法、字符生成方法、装置和设备

Country Status (5)

Country Link
US (1) US20230154077A1 (zh)
EP (1) EP4012668A3 (zh)
JP (1) JP2023039891A (zh)
KR (1) KR20220034077A (zh)
CN (1) CN113792849B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115909354B (zh) * 2022-11-11 2023-11-10 北京百度网讯科技有限公司 文本生成模型的训练方法、文本获取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000348061A (ja) * 1998-06-10 2000-12-15 Nippon Telegr & Teleph Corp <Ntt> 半構造化文書情報統合検索装置および半構造化文書情報抽出装置、その方法、ならびにそのプログラムを格納する記録媒体
CN110503598A (zh) * 2019-07-30 2019-11-26 西安理工大学 基于条件循环一致性生成对抗网络的字体风格迁移方法
CN111476216A (zh) * 2020-05-26 2020-07-31 上海眼控科技股份有限公司 人脸识别方法、装置、计算机设备和可读存储介质
CN112861806A (zh) * 2021-03-17 2021-05-28 网易(杭州)网络有限公司 基于生成对抗网络的字体数据处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000348061A (ja) * 1998-06-10 2000-12-15 Nippon Telegr & Teleph Corp <Ntt> 半構造化文書情報統合検索装置および半構造化文書情報抽出装置、その方法、ならびにそのプログラムを格納する記録媒体
CN110503598A (zh) * 2019-07-30 2019-11-26 西安理工大学 基于条件循环一致性生成对抗网络的字体风格迁移方法
CN111476216A (zh) * 2020-05-26 2020-07-31 上海眼控科技股份有限公司 人脸识别方法、装置、计算机设备和可读存储介质
CN112861806A (zh) * 2021-03-17 2021-05-28 网易(杭州)网络有限公司 基于生成对抗网络的字体数据处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Unified Framework for Generalizable Style Transfer: Style and Content Separation;Yexun Zhang et al.;《IEEE TRANSACTIONS ON IMAGE PROCESSING》;第4085-4097页 *

Also Published As

Publication number Publication date
KR20220034077A (ko) 2022-03-17
CN113792849A (zh) 2021-12-14
US20230154077A1 (en) 2023-05-18
JP2023039891A (ja) 2023-03-22
EP4012668A2 (en) 2022-06-15
EP4012668A3 (en) 2022-08-31

Similar Documents

Publication Publication Date Title
CN113140017B (zh) 训练对抗网络模型的方法、建立字库的方法、装置和设备
CN113657397B (zh) 循环生成网络模型的训练方法、建立字库的方法和装置
CN113792851B (zh) 字体生成模型训练方法、字库建立方法、装置及设备
CN114186632B (zh) 关键点检测模型的训练方法、装置、设备、存储介质
CN113792526B (zh) 字符生成模型的训练方法、字符生成方法、装置和设备和介质
CN112966742A (zh) 模型训练方法、目标检测方法、装置和电子设备
CN113792850B (zh) 字体生成模型训练方法、字库建立方法、装置及设备
CN113792853B (zh) 字符生成模型的训练方法、字符生成方法、装置和设备
CN114677565B (zh) 特征提取网络的训练方法和图像处理方法、装置
CN115690443B (zh) 特征提取模型训练方法、图像分类方法及相关装置
CN112580732A (zh) 模型训练方法、装置、设备、存储介质和程序产品
CN112580666A (zh) 图像特征的提取方法、训练方法、装置、电子设备及介质
CN113792849B (zh) 字符生成模型的训练方法、字符生成方法、装置和设备
CN113537192B (zh) 图像检测方法、装置、电子设备及存储介质
CN116188917B (zh) 缺陷数据生成模型训练方法、缺陷数据生成方法及装置
CN116935368A (zh) 深度学习模型训练方法、文本行检测方法、装置及设备
CN113903071A (zh) 人脸识别方法、装置、电子设备和存储介质
CN114078274A (zh) 人脸图像检测方法、装置、电子设备以及存储介质
CN114463361A (zh) 网络模型训练方法、装置、设备、介质及程序产品
CN113887630A (zh) 图像分类方法、装置、电子设备和存储介质
CN113591969B (zh) 面部相似度评测方法、装置、设备以及存储介质
CN116071625B (zh) 深度学习模型的训练方法、目标检测方法及装置
CN115147902B (zh) 人脸活体检测模型的训练方法、装置及计算机程序产品
CN117743617A (zh) 人物交互检测方法、模型训练方法及装置
CN115171225A (zh) 图像检测方法和图像检测模型的训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant