CN113792526A - 字符生成模型的训练方法、字符生成方法、装置和设备和介质 - Google Patents

字符生成模型的训练方法、字符生成方法、装置和设备和介质 Download PDF

Info

Publication number
CN113792526A
CN113792526A CN202111057838.0A CN202111057838A CN113792526A CN 113792526 A CN113792526 A CN 113792526A CN 202111057838 A CN202111057838 A CN 202111057838A CN 113792526 A CN113792526 A CN 113792526A
Authority
CN
China
Prior art keywords
character
target domain
loss
word
style
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111057838.0A
Other languages
English (en)
Other versions
CN113792526B (zh
Inventor
唐礼承
刘家铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111057838.0A priority Critical patent/CN113792526B/zh
Publication of CN113792526A publication Critical patent/CN113792526A/zh
Priority to JP2022007458A priority patent/JP7384943B2/ja
Priority to EP22158653.0A priority patent/EP4148685A1/en
Priority to KR1020220025545A priority patent/KR20220032538A/ko
Priority to US17/682,232 priority patent/US20220189083A1/en
Application granted granted Critical
Publication of CN113792526B publication Critical patent/CN113792526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/203Drawing of straight lines or curves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19013Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19127Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1916Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/245Font recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)
  • Image Processing (AREA)
  • Machine Translation (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本公开提供了字符生成模型的训练方法、字符生成方法、装置和设备,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域。具体实现方案为:将源域样本字和目标域风格字输入至字符生成模型,得到目标域生成字;将所述目标域生成字和目标域样本字输入至预先训练的字符分类模型,计算所述字符生成模型的特征损失;根据所述特征损失调整所述字符生成模型的参数。本公开实施例可以提高字符生成模型生成的字体的准确率。

Description

字符生成模型的训练方法、字符生成方法、装置和设备和介质
技术领域
本公开涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,尤其涉及字符生成模型的训练方法、字符生成方法、装置和设备和介质。
背景技术
图像处理是一种具有巨大的社会和经济效益的实用技术,被广泛应用于各行各业以及人们日常生活中。
图像的风格迁移,是指一幅图像的内容保持不变,风格从该图像迁移至另一幅图像,形成一幅新的艺术图像。
发明内容
本公开提供了一种字符生成模型的训练方法、字符生成方法、装置和设备和介质。
根据本公开的一方面,提供了一种字符生成模型的训练方法,包括:
将源域样本字和目标域风格字输入至字符生成模型,得到目标域生成字;
将所述目标域生成字和目标域样本字输入至预先训练的字符分类模型,计算所述字符生成模型的特征损失;
根据所述特征损失调整所述字符生成模型的参数。
根据本公开的另一方面,提供了一种字符生成方法,包括:
获取源域输入字,和对应的目标域输入字;
将所述源域输入字和所述目标输入字输入到字符生成模型中,得到目标域新字;其中,所述字符生成模型根据如本公开任一实施例所述的方法训练得到。
根据本公开的一方面,提供了一种字符生成模型的训练装置,包括:
目标域生成字获取模块,用于将源域样本字和目标域风格字输入至字符生成模型,得到目标域生成字;
特征损失计算模块,用于将所述目标域生成字和目标域样本字输入至预先训练的字符分类模型,计算所述字符生成模型的特征损失;
第一损失调整模块,用于根据所述特征损失调整所述字符生成模型的参数。
根据本公开的另一方面,提供了一种字符生成装置,包括:
输入字获取模块,用于获取源域输入字,和对应的目标域输入字;
字符生成模块,用于将所述源域输入字和所述目标输入字输入到字符生成模型中,得到目标域新字;其中,所述字符生成模型根据如本公开任一实施例所述的字符生成模型的训练方法得到。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任一实施例所述的字符生成模型的训练方法,或执行本公开任一实施例所述的字符生成方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开任一实施例所述的字符生成模型的训练方法,或执行本公开任一实施例所述的字符生成方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开任一实施例所述的字符生成模型的训练方法,或执行本公开任一实施例所述的字符生成方法。
本公开实施例可以提高字符生成模型生成的字体的准确率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例提供的一种字符生成模型的训练方法的示意图;
图2是根据本公开实施例提供的一种字符生成模型的示意图;
图3是根据本公开实施例提供的另一种字符生成模型的训练方法的示意图;
图4是根据本公开实施例提供的一个实施例的使用特征损失约束字符生成模型的可视化效果图;
图5是根据本公开实施例提供的另一个实施例的使用特征损失约束字符生成模型的可视化效果图;
图6是根据本公开实施例提供的一种使用特征损失约束字符生成模型的生成结果效果对比图;
图7是根据本公开实施例提供的一种字符生成模型生成字的效果图;
图8是根据本公开实施例提供的另一种字符生成模型的训练方法的示意图;
图9是根据本公开实施例提供的一种字符生成模型的训练方法的场景图;
图10是根据本公开实施例提供的一种字符生成方法的示意图;
图11是根据本公开实施例提供的一种字符生成模型的训练装置的示意图;
图12是根据本公开实施例提供的一种字符生成装置的示意图;
图13是用来实现本公开实施例的字符生成模型的训练方法或字符生成方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开实施例公开的一种字符生成模型的训练方法的流程图,本实施例可以适用于训练字符生成模型,其中,字符生成模型用于将源域风格的字符转换为目标域风格的字符的情况。本实施例方法可以由字符生成模型的训练装置来执行,该装置可采用软件和/或硬件的方式实现,并具体配置于具有一定数据运算能力的电子设备中,该电子设备可以是客户端设备或服务器设备,客户端设备例如手机、平板电脑、车载终端和台式电脑等。
S101,将源域样本字和目标域风格字输入至字符生成模型,得到目标域生成字。
源域样本字可以是指具有源域字体风格的图像,源域字体风格可以是指字符的常规字体,又可以称为印刷字体,例如中文字符中的楷体、宋体或黑体等字体,又如西文字符的新罗马(Times New Roman)或Calibri等字体,此外,字符还可以包括数字字符。西文字符可以包括英文、德文、俄文或意大利文等字符,对此不做具体限制。目标域风格字可以是指具有目标域字体风格的图像。目标域生成字可以是指具有目标域字体风格的图像。目标域字体风格可以是字符的用户手写字体风格或者其他艺术字字体风格。需要说明的是,本公开实施例中的字,实际都是指字符。源域样本字和目标域生成字的图像内容相同,风格不同。目标域风格字和源域样本字具有相同的部分图像内容,风格不同,目标域风格字和目标域生成字具有相同的部分图像内容,风格相同。字符可以由至少一个组件组成,具有相同的部分图像内容可以是指具有相同组件,实际上,风格标准字、源域样本字和目标域生成字具有相同的至少一个组件。其中,组件可以是中文字符的偏旁部首,还可以是英文字符的词根等。例如,“你”可以由组件“亻”和组件“尔”组成;做可以由组件“亻”和组件“故”组成,或者可以由组件“亻”、组件“古”和组件“攵”组成;衣可以由组件“衣”组成。
其中,可以根据源域样本字,确定源域样本字包括的至少一个组件,根据各组件,在预先获取的目标域字体风格的字形成的集合中,查询包括至少一个组件的字,确定为目标域风格字。
在一个具体的例子中,源域样本字为楷体“你”所生成的图像,目标域生成字为模型生成的手写字“你”所生成图像。“你”可以拆分为组件“亻”和组件“尔”。目标域风格字为真实手写的手写字“称”所生成的图像,以及真实手写的手写字“佳”所生成的图像。其中,“称”包括组件“尔”,与“你”中的“尔”组件相同;“佳”包括组件“亻”,与“你”中的“亻”组件相同。
字符生成模型用于将源域样本字转换为目标域生成字。例如,将包含楷体字“你”的图像输入到字符生成模型,字符生成模型可以输出包含手写字“你”的图像。
S102,将所述目标域生成字和目标域样本字输入至预先训练的字符分类模型,计算所述字符生成模型的特征损失。
目标域样本字为源域样本字对应的真值。例如,目标域生成字是字符生成模型生成的包含手写字“做”的图像,目标域样本字是真实的包含手写字“做”字的图像,该真实的包含手写字“做”的图像可以是用户真实手写的字所生成图像。此外,前文中,目标域风格字同样是用户真实手写的字所生成图像。需要说明的是,目标域风格字和目标域样本字,即用户手写字体风格的图像,可以基于公开数据集,或者是经过用户的授权获取用户真实手写的字所生成图像。
字符分类模型用于判别目标生成字和目标域样本字是否是错字。字符分类模型可以是采用ResNet-18(Residual Network,残差网络)结构,其中,ResNet18结构的模型包括17个卷积层和1个全连接层。例如,训练样本为500个字体,每个字体6763个字符的数据集,经实验,训练完成的字符分类模型在该数据集上获得97%的分类准确率。
字符分类模型可以包括多个特征层(例如90个特征层),将目标域生成字输入到字符分类模型,可以得到每一层输出的生成特征图。将目标域样本字输入到字符分类模型,可以得到每一层输出的样本特征图。
根据每一层特征层输出的生成特征图和样本特征图之间的差异,可以确定该层的特征损失。示例性的,可以选取多层特征层中的至少一个预设层(例如第41层和第42层)的特征损失之和作为总体的特征损失。在一个具体的例子中,可以选取多层特征层的中间层(例如第45层)的特征损失作为总体的特征损失。
S103,根据所述特征损失调整所述字符生成模型的参数。
根据特征损失调整字符生成模型的参数,得到更新的字符生成模型。针对下一个源域样本字,确定对应的目标域风格字,使用更新的字符生成模型,返回操作S101,重复进行训练,直至达到预设的训练停止条件,则停止调整字符生成模型的参数,得到训练完成的字符生成模型。训练停止条件可以包括特征损失收敛或迭代次数大于等于设定次数阈值等。
根据本公开的技术方案,通过使用字符生成模型基于源域样本字和目标域风格字生成目标域生成字,能够实现多种风格的字体生成,并且,通过使用字符分类模型引入特征损失,使字符生成模型学习目标域生成字和目标域样本字之间差别较大的特征,从而使字符生成模型学习出更多的字体细节,能够提高字符生成模型学习字体特征的能力,提高字符生成模型生成的目标域字体风格的字的准确率。
图2是根据本公开实施例提供的一种字符生成模型的示意图。如图2所示,字符生成模型204包括风格编码器205、内容编码器206和解码器207。风格编码器205用于对目标域风格字202进行编码,内容编码器206用于对源域样本字201进行编码,将编码得到的两个结果进行融合,并将融合的结果输入至解码器207,得到目标域生成字203,其中,根据源域样本字201确定目标域风格字202。
图3是根据本公开实施例公开的另一种字符生成模型的训练方法的流程图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。所述将所述目标域生成字和目标域样本字输入至预先训练的字符分类模型,计算所述字符生成模型的特征损失,具体化为:将所述目标域生成字输入到所述字符分类模型,得到所述字符分类模型的至少一个特征层输出的生成特征图;将所述目标域样本字输入到所述字符分类模型,得到所述字符分类模型的所述至少一个特征层输出的样本特征图;根据所述至少一个特征层的生成特征图和样本特征图之间的差异,计算所述字符生成模型的特征损失。
S301,将源域样本字和目标域风格字输入至字符生成模型,得到目标域生成字。
S302,将所述目标域生成字输入到所述字符分类模型,得到所述字符分类模型的至少一个特征层输出的生成特征图。
生成特征图为将目标域生成字作为字符分类模型的输入特征图,字符分类模型中的任意特征层输出的特征图。字符分类模型每个特征层均可以对应输出一个特征图。目标域生成字为字符生成模型生成的目标域字体风格的字的图像,作为输入特征图输入至到字符分类模型中。在字符分类模型,第1特征层对目标域生成字进行处理,得到第1特征层对应的输出特征图;第i特征层(i大于1)对第i-1特征层输出的输出特征图进行处理,得到第i特征层对应的输出特征图。
S303,将所述目标域样本字输入到所述字符分类模型,得到所述字符分类模型的所述至少一个特征层输出的样本特征图。
样本特征图为将目标域样本字作为字符分类模型的输入特征图,字符分类模型中的任意特征层输出的特征图。字符分类模型每个特征层均可以对应输出一个特征图。目标域样本字为真实手写的目标域字体风格的字的图像,作为输入特征图输入至到字符分类模型中。在字符分类模型,第1特征层对目标域样本字进行处理,得到第1特征层对应的输出特征图;第i特征层(i大于1)对第i-1特征层输出的输出特征图进行处理,得到第i特征层对应的输出特征图。
可选的,所述源域样本字为具有源域字体风格的图像,所述目标域样本字为具有目标域字体风格的图像。
源域样本字为具有源域字体风格的字所生成的图像。目标域样本字为具有目标域字体风格的字所生成的图像。源域字体风格与目标域字体风格不同。示例性的,源域字体风格为印刷字体,例如,针对中文字符字体,源域字体风格为宋体、楷体、黑体或隶书等;目标域字体风格为用户真实手写字体风格等艺术字体风格。
通过配置源域样本字为具有源域字体风格的图像以及目标域样本字为具有目标域字体风格的图像,可以实现不同字体风格的转换,增加新风格的字体数量。
S304,根据所述至少一个特征层的生成特征图和样本特征图之间的差异,计算所述字符生成模型的特征损失。
字符分类模型包括至少一个特征层,可以从中选择至少一个特征层,并针对选择的任意特征层,可以计算该特征层的生成特征图和该特征层的样本特征图之间的差异。该差异用于描述生成特征图和样本特征图之间的不同程度,以评估模型的生成字是否与真实手写的样本字的相似程度。根据该差异计算特征损失,可以从特征的维度,更加细节的描述出模型的生成字是否与真实手写的样本字之间的不同程度。
根据本公开的实施例,特征损失可以用来约束循环生成网络模型输出的目标域生成字是否与目标域样本字的相似程度,从而提高循环生成网络模型风格迁移的准确率。
其中,选择的特征层可以根据需要进行设定,例如,可以选择多个特征层的中位数特征层的生成特征图和样本特征图之间的差异,计算所述字符生成模型的特征损失,如总数为90个特征层,中位数为第45特征层和第46特征层。选择的特征层的数量为一个,可以将特征层的生成特征图和样本特征图之间的差异直接作为特征损失;选择的特征层的数量为至少两个,可以将多个特征层的差异进行数值计算,得到特征损失,其中,数值计算可以是求和计算、乘积计算或加权平均计算等。
可选的,所述计算所述字符生成模型的特征损失,包括:针对所述至少一个特征层中的每一特征层,计算所述特征层的生成特征图和样本特征图之间的像素差异,得到所述特征层的像素损失;根据所述至少一个特征层的像素损失,计算所述字符生成模型的特征损失。
同一特征层输出的特征图的尺寸相同,可以根据构成特征图的像素,计算像素差异,以从像素维度计算图像之间的差异,作为特征层的像素损失。根据特征层的像素损失,计算特征损失,具体可以是:特征层的数量为一个,将像素损失作为特征损失;特征层的数量为至少两个,计算像素损失之和,作为特征损失。
示例性的,每个特征层的像素损失可以根据L1范数损失函数计算,即计算真实字和生成字中相同位置的像素之间的绝对差值的总和。
通过将生成特征图和样本特征图之间的像素差异作为生成特征图和样本特征图之间的差异,计算像素损失,并确定特征损失,可以从像素维度计算特征损失,控制特征损失的计算细粒度,从像素细节描述出模型的生成字是否与真实手写的样本字之间的不同程度,并计算特征损失来调整字符生成模型的参数,以使字符生成模型学习更加细化的样本字的字体风格细节,提高字符生成模型的生成字的准确率。
可选的,所述计算该特征层的生成特征图和样本特征图之间的像素差异,包括:针对所述特征层的生成特征图中的每个位置的像素点,计算所述像素点的像素值与所述样本特征图中对应位置的像素点的像素值之间的差值的绝对值,得到每个位置的像素点的差异;根据多个位置的像素点的差异,确定所述特征层的生成特征图和样本特征图之间的像素差异。
针对该特征层,计算相同位置的生成特征图中的像素点的像素值与样本特征图中的像素点的像素值的差值的绝对值,确定为该位置的像素点的差异。生成特征图和样本特征图的尺寸相同,特征图中包括的像素数量相同,也即特征图包括的位置的数量相同,将多个位置的像素点的差异之和,确定为该特征层的生成特征图和样本特征图之间的像素差异。多个位置可以是该特征图输出的特征图包括的全部位置,也可以是筛选的部分位置。
在一个具体的例子中,生成特征图和样本特征图的大小均为64*64,包括4096个位置,可以针对每个位置计算生成特征图的像素点和样本特征图像素点之间的像素值差值的绝对值,得到4096个差值绝对值,统计4096个差值绝对值之和,得到该特征层的生成特征图和样本特征图之间的像素差异。需要说明的是,像素差异实际是采用L1范数损失函数计算,L1范数损失函数的元素为特征图中第i个位置的像素点的像素值。
通过计算两个特征图在每个位置的对应的像素点之间的像素值差值绝对值,并根据多个位置的绝对值,确定该特征层的像素差异,将相同位置的像素点的像素值,作为L1范数损失函数的元素,计算L1范数损失,可以提高字符生成模型的鲁棒性。
S305,根据所述特征损失调整所述字符生成模型的参数。
根据差异计算的特征损失调整字符生成模型的参数,可以学习出真实手写的样本字的更多的字体细节。示例性的,根据特征损失调整参数,可以参照,L1范数损失函数调整模型参数的方式,调整参数,直至使真实字和生成字的绝对差值的总和最小化。
根据本公开的技术方案,通过计算字符分类模型中至少一个特征图的生成特征图和样本特征图之间的差异,并确定特征损失,可以从特征的维度,更加细节的描述出模型的生成字是否与真实手写的样本字之间的不同程度,并根据该不同程度计算的特征损失调整字符生成模型的参数,可以使字符生成模型学习出真实手写的样本字的更多的字体细节,最终使字符生成模型的生成字与真实手写的样本字更加相似,提高字符生成模型的生成字的准确率。
图4是根据本公开实施例提供的一个实施例的使用特征损失约束字符生成模型的可视化效果图。如图4所示,目标域样本字401是真实的包含手写字“神”的图像,即目标域样本字401中的“神”字是用户的真实手写字。目标域生成字402为字符生成模型生成的包含手写字“神”的图像,目标域样本字401和目标域生成字402的大小均为256*256。目标域样本字404是真实的包含手写字“褂”的图像,即目标域样本字404中的“褂”字是用户的真实手写字。目标域生成字405为字符生成模型生成的包含手写字“褂”的图像,目标域样本字401、目标域生成字402、目标域样本字404和目标域生成字405的大小均为256*256。目标域样本字401、目标域生成字402、目标域样本字404和目标域生成字405输入到字符分类模型,在字符分类模型的第一预设层(例如第30特征层)分别输出样本特征图和样本特征图,样本特征图和样本特征图的大小均为64*64,将这两张64*64的图像进行像素差异计算后,得到表示该两张图像之间差异的热力效果图403和406。热力效果图403和406也是64*64的图像,热力效果图403中颜色越深的地方表示目标域样本字401和目标域生成字402之间的差别越大,热力效果图406中颜色越深的地方表示目标域样本字404和目标域生成字405之间的差别越大,可以使得字符生成模型更加专注于学习热力效果图403和406中颜色较深的部位的特征,来提高字符生成模型学习特征的能力。
图5是根据本公开实施例提供的另一个实施例的使用特征损失约束字符生成模型的可视化效果图。如图5所示,目标域样本字501、目标域生成字502、目标域样本字504和目标域生成字505输入到字符分类模型,在字符分类模型的第二预设层(如第31特征层)分别输出样本特征图和样本特征图,样本特征图和样本特征图的大小均为32*32,将这两张32*32的图像进行像素差异计算后,得到表示该两张图像之间差异的热力效果图503和506。热力效果图503和506也是32*32的图像,热力效果图503中颜色越深的地方表示目标域样本字501和目标域生成字502之间的差别越大,热力效果图506中颜色越深的地方表示目标域样本字504和目标域生成字505之间的差别越大,可以使得字符生成模型更加专注于学习热力效果图503和506中颜色较深的部位的特征,来提高字符生成模型学习特征的能力。
可以理解,可以结合热力效果图403和503,共同使得字符生成模型学习目标域样本字401和目标域生成字402之间的差别较大的特征,以及学习目标域样本字501和目标域生成字502之间的差别较大的特征,并且可以结合热力效果图406和506,学习目标域样本字404和目标域生成字405之间的差别较大的特征,以及学习目标域样本字504和目标域生成字505之间的差别较大的特征,来提高字符生成模型学习特征的能力。
图6是根据本公开的一个实施例的使用特征损失的效果对比图。如图6所示,图像601是真实的包含手写字“彤”的图像,即图像601中的“彤”字是用户的真实手写字。图像602是没有使用特征损失约束字符生成模型而生成的包含手写字“彤”的图像。图像603是使用特征损失约束字符生成模型而生成的包含手写字“彤”的图像。经实验,相比于图像602中的“彤”字,图像603中的“彤”字学习到了真实用户手写的“彤”字(即图像601中的“彤”字)更多的特征,与真实用户手写的“彤”字更相似。
图7是根据本公开的一个实施例的使用特征损失约束字符生成模型,训练完成的字符生成模型生成字的效果图。其中,框里面的字为真实手写字,而不位于框中的字为字符生成模型的生成字。由此可知,字符生成模型的生成字的字体风格和真实手写字的字体风格基本一致。
图8是根据本公开实施例公开的另一种字符生成模型的训练方法的流程图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。将字符生成模型的训练方法优化为:将所述目标域风格字输入至字符生成模型,得到所述目标域风格字的第一风格特征向量;将所述目标域生成字输入至所述字符生成模型中,得到所述目标域生成字的第二风格特征向量;将所述第二风格特征向量和所述第一风格特征向量输入至组件分类模型中,计算组件分类损失;将所述目标域样本字和所述目标域生成字输入至鉴别模型中,计算字符对抗损失和风格对抗损失;将所述目标域生成字输入至所述字符分类模型,计算错字损失;根据所述组件分类损失、所述字符对抗损失、所述风格对抗损失和所述错字损失,调整所述字符生成模型的参数。
S801,将源域样本字和目标域风格字输入至字符生成模型,得到目标域生成字,和所述目标域风格字的第一风格特征向量。
目标域风格字的第一风格特征向量是指风格编码器对目标域风格字进行编码得到的特征向量。
将源域样本字和目标域风格字输入至字符生成模型,具体是将源域样本字发送至内容编码器,得到内容特征向量,将目标域风格字发送至风格编码器,得到第一风格特征向量。目标域风格字的数量有多个,第一风格特征向量的数量对应有多个,将多个第一风格特征向量进行融合,得到融合风格特征向量,将融合风格特征向量与内容特征向量进行融合,得到目标特征向量,将目标特征向量发送至解码器进行解码,得到目标域生成字。其中,将多个第一风格特征向量进行融合,得到融合风格特征向量,可以是针对第一风格特征向量,将每个位置的向量元素的数值进行求和平均,得到该位置的向量元素数值,根据全部位置的向量元素数值,确定融合风格特征向量。将融合风格特征向量与内容特征向量进行融合,得到目标融合特征向量,可以是针对融合风格特征向量,将每个位置的向量元素的数值与相应位置的内容特征向量的向量元素的数值进行求和,得到该位置的向量元素数值,根据全部位置的向量元素数值,确定目标融合特征向量。
S802,将所述目标域生成字和目标域样本字输入至预先训练的字符分类模型,计算所述字符生成模型的特征损失。
S803,将所述目标域生成字输入至所述字符生成模型中,得到所述目标域生成字的第二风格特征向量。
目标域生成字的第二风格特征向量是指风格编码器对目标域生成字进行编码得到的特征向量。将目标域生成字输入至字符生成模型中,是将目标域生成字输入至风格编码器中,得到目标域生成字的第二风格特征向量。
S804,将所述第二风格特征向量和所述第一风格特征向量输入至组件分类模型中,计算组件分类损失。
组件分类模型用于检测风格特征向量对应的字包括的组件中是否存在与源域样本字包括的组件相同的组件,即组件分类模型用于检测风格特征向量对应的字中是否存在与源域样本字的偏旁部首的偏旁部首。将第二风格特征向量和第一风格特征向量输入至组件分类模型中,计算组件分类损失。组件分类损失用于约束字符生成模型输出的目标域生成字包括组件的准确率,具体用于判断字包括的组件是否正确。实际上,组件分类损失是指字识别出的包括的组件与该字包括的正确组件之间的差异。
示例性的,第一风格特征向量
Figure BDA0003255389620000131
Figure BDA0003255389620000132
中每个元素可以表示组件表中的一个组件,第二风格特征向量
Figure BDA0003255389620000133
Figure BDA0003255389620000134
中每个元素可以表示组件表中的一个组件,m表示组件表中的组件个数。例如,组件表具有100个组件,针对中文字符,组件为偏旁部首,组件表具有100个偏旁部首,则m可以等于99。例如,目标域风格字是“佳”字,“佳”字可以由组件“亻”和组件“圭”组成,分别在组件表的m个字中位于第2个和第3个,则“佳”字的第一风格特征向量可以表示为
Figure BDA0003255389620000135
又如,目标域生成字是“你”字,“你”字可以由组件“亻”和组件“尔”组成,分别在组件表的m个字中位于第2个和第5个,则“你”字的第二风格特征向量可以表示为
Figure BDA0003255389620000136
针对目标域风格字,预设有目标第一风格特征向量
Figure BDA0003255389620000137
Figure BDA0003255389620000138
其中,
Figure BDA0003255389620000139
中每个元素可以表示组件表中的一个组件。针对目标域生成字,预设有目标第二风格特征向量
Figure BDA00032553896200001310
其中,
Figure BDA00032553896200001311
中每个元素可以表示组件表中的一个组件。目标第一风格特征向量
Figure BDA00032553896200001312
表示将目标域风格字输入到字符分类模型,字符分类模型应该输出的向量。例如,目标域风格字是“佳”字,“佳”字可以由组件“亻”和组件“圭”组成,分别在组件表的m个字中位于第2个和第3个,则“佳”字的目标第一风格特征向量可表示
Figure BDA00032553896200001313
相应的,目标第二风格特征向量
Figure BDA00032553896200001314
表示将目标域生成字输入到字符分类模型,字符分类模型应该输出的向量。例如,目标生成字是“你”字,“你”字可以由组件“亻”和组件“尔”组成,分别在组件表的m个字中位于第2个和第5个,则目标第二风格特征向量可以表示为
Figure BDA0003255389620000141
根据目标域风格字的第一风格特征向量
Figure BDA0003255389620000142
和目标第一风格特征向量
Figure BDA0003255389620000143
之间的交叉熵,可以确定第一组件分类损失。第一组件分类损失可以用如下等式(1)表示:
Figure BDA0003255389620000144
其中,Lcls1表示第一组件分类损失,ai表示第一风格特征向量中下标为i的元素,a*i表示目标第一风格特征向量中下标为i的元素,i为大于等于0并且小于等于m的整数,m表示第一风格特征向量和目标第一风格特征向量中的元素个数。
根据目标域生成字的第二风格特征向量
Figure BDA0003255389620000145
和目标第二风格特征向量
Figure BDA0003255389620000146
之间的交叉熵,可以确定第二组件分类损失。第二组件分类损失可以用如下等式(2)表示:
Figure BDA0003255389620000147
其中,Lcls2表示第二组件分类损失,bi表示第二风格特征向量中下标为i的元素,b*i表示目标第二风格特征向量中下标为i的元素,i为大于等于0并且小于等于m的整数,m表示第二风格特征向量和目标第二风格特征向量中的元素个数。
可以根据第一组件分类损失和第二组件分类损失,确定字符生成模型的组件分类损失。字符生成模型的组件分类损失可以用如下等式(3)表示:
Figure BDA0003255389620000148
Lcls表示字符生成模型的组件分类损失。
根据本公开的实施例,组件分类损失可以用来约束字符生成模型输出的目标域生成字包括组件的准确率,从而减少字符生成模型生成错误组件构成的生成字的概率。
S805,将所述目标域样本字和所述目标域生成字输入至鉴别模型中,计算字符对抗损失和风格对抗损失。
源域样本字是真实的手写字图像,而目标域样本字是模型生成的字图像,可以称为假的字图像。目标域生成字是模型生成的手写字图像,可以称为假的手写字图像。在训练过程中,可以标注目标域样本字为真Real(例如值为1),标注目标域生成字为假Fake(例如值为0)。检测目标域样本字和目标域生成字是否为真实手写字,实际上是检测是否是模型生成字,在字符生成模型生成的字通过鉴别模型输出的结果为真的情况下,表明,字符生成模型生成的字与手写字非常相似,可以以假乱真。
鉴别模型用于检测目标域样本字和目标域生成字是否为真实手写字,对字符类型进行分类、对风格类型进行分类以及检测目标域生成字是否为期望生成的目标域样本字。其中,字符对抗损失用于对字进行字符分类,以及字是否为真实手写字;风格对抗损失用于对字进行风格分类,以及字是否为真实手写字。字符对抗损失是指字的字符分类与该字的正确字符类型的之间的差异,以及字与真实手写字之间的差异;风格对抗损失是指字的风格类型与该字的正确风格类型之间的差异,以及字与真实手写字之间的差异。
针对鉴别模型用于检测目标域样本字和目标域生成字是否为真实手写字,以及对字符类型进行分类。将目标域样本字输入至鉴别模型中,得到目标域样本字的第一字符对抗向量,将目标域生成字输入至鉴别模型中,得到目标域生成字的第二字符对抗向量。
示例性的,第一字符对抗向量
Figure BDA0003255389620000151
Figure BDA0003255389620000152
中每个元素可以表示字符表中的一个字符,第二字符对抗向量
Figure BDA0003255389620000153
Figure BDA0003255389620000154
中每个元素可以表示字符表中的一个字符,j表示字符表中的字符个数。例如,字符表具有6000个字符,针对中文字符,字符表包括6000个中文字符,则j可以等于5999。并且,元素为1,表示对应的字为真实手写字,元素为-1,表示对应的字为模型生成字。例如,目标域样本字是“你”字,“你”字在字符表中位于第1个,且目标域样本字为真实手写字,对应第1个元素的数值为1,则“你”字的第一字符对抗向量表示为
Figure BDA0003255389620000155
Figure BDA0003255389620000156
又如,目标域生成字是“佳”字,“佳”字在字符表中位于第2个,且目标域生成字为模型生成字,对应第2个元素的数值为-1,则“佳”字的第二字符对抗向量可以表示为
Figure BDA0003255389620000157
针对目标域样本字,预设有目标第一字符对抗向量
Figure BDA0003255389620000158
Figure BDA0003255389620000159
其中,
Figure BDA00032553896200001510
中每个元素可以表示字符表中的一个字符。针对目标域生成字,预设有目标第二字符对抗向量
Figure BDA00032553896200001511
其中,
Figure BDA0003255389620000161
中每个元素可以表示字符表中的一个字符。目标第一字符对抗向量
Figure BDA0003255389620000162
表示将目标域样本字输入到鉴别模型,鉴别模型应该输出的向量。例如,目标域样本字为“你”字,“你”字在字符表中位于第1个,且目标域样本字为真实手写字,对应第1个元素的数值为1,则“你”字的第一字符对抗向量表示为
Figure BDA0003255389620000163
相应的,目标第二字符对抗向量
Figure BDA0003255389620000164
表示将目标域生成字输入到鉴别模型,鉴别模型应该输出的向量。例如,目标生成字是“佳”字,“佳”字在字符表中位于第2个,且目标域生成字为模型生成字,对应第2个元素的数值为-1,则“佳”字的第二字符对抗向量可以表示为
Figure BDA0003255389620000165
根据目标域样本字的第一字符对抗向量
Figure BDA00032553896200001614
和目标第一字符对抗向量
Figure BDA0003255389620000166
之间的交叉熵,可以确定第一字符对抗损失。第一字符对抗损失可以用如下等式(4)表示:
Figure BDA0003255389620000167
其中,
Figure BDA0003255389620000168
表示第一字符对抗损失,ci表示第一字符对抗向量中下标为i的元素,c*i表示目标第一字符对抗向量中下标为i的元素,i为大于等于0并且小于等于j的整数,j表示第一字符对抗向量和目标第一字符对抗向量中的元素个数。
根据目标域生成字的第二字符对抗向量
Figure BDA0003255389620000169
和目标第一字符对抗向量
Figure BDA00032553896200001610
之间的交叉熵,可以确定第二字符对抗损失。第二字符对抗损失可以用如下等式(5)表示:
Figure BDA00032553896200001611
其中,
Figure BDA00032553896200001612
表示第二字符对抗损失,di表示第二字符对抗向量中下标为i的元素,d*i表示目标第二字符对抗向量中下标为i的元素,i为大于等于0并且小于等于j的整数,j表示第二字符对抗向量和目标第二字符对抗向量中的元素个数。
可以根据第一字符对抗损失和第二字符对抗损失,确定字符生成模型的字符对抗损失。字符生成模型的字符对抗损失可以用如下等式(6)表示:
Figure BDA00032553896200001613
Figure BDA0003255389620000171
表示字符生成模型的字符对抗损失。
鉴别模型用于检测目标域样本字和目标域生成字是否为真实手写字,以及对风格类型进行分类。将目标域样本字输入至鉴别模型中,得到目标域样本字的第一风格对抗向量,将目标域生成字输入至鉴别模型中,得到目标域生成字的第二风格对抗向量。
示例性的,第一风格对抗向量
Figure BDA0003255389620000172
Figure BDA0003255389620000173
中每个元素可以表示风格表中的一个风格类型,第二风格对抗向量
Figure BDA0003255389620000174
Figure BDA0003255389620000175
中每个元素可以表示风格表中的一个风格类型,k表示风格表中的风格类型的个数。例如,风格表具有1000个风格类型,针对手写字,风格表包括1000个手写字体,则k可以等于999。并且,元素为1,表示对应的字为真实手写字,元素为-1,表示对应的字为模型生成字。例如,目标域样本字是“你”字,“你”字的风格类型在风格表中位于第998个,且目标域样本字为真实手写字,对应第998个元素的数值为1,则“你”字的第一风格对抗向量表示为
Figure BDA0003255389620000176
又如,目标域生成字是“佳”字,“佳”字的风格类型在风格表中位于第999个,且目标域生成字为模型生成字,对应第999个元素的数值为-1,则“佳”字的第二风格对抗向量可以表示为
Figure BDA0003255389620000177
针对目标域样本字,预设有目标第一风格对抗向量
Figure BDA0003255389620000178
Figure BDA0003255389620000179
其中,
Figure BDA00032553896200001710
中每个元素可以表示风格表中的一个风格类型。针对目标域生成字,预设有目标第二风格对抗向量
Figure BDA00032553896200001711
Figure BDA00032553896200001712
其中,
Figure BDA00032553896200001713
中每个元素可以表示风格表中的一个风格类型。目标第一风格对抗向量
Figure BDA00032553896200001714
表示将目标域样本字输入到鉴别模型,鉴别模型应该输出的向量。例如,目标域样本字为“你”字,“你”字的风格类型在风格表中位于第998个,且目标域样本字为真实手写字,对应第998个元素的数值为1,则“你”字的第一风格对抗向量表示为
Figure BDA00032553896200001715
相应的,目标第二风格对抗向量
Figure BDA00032553896200001716
表示将目标域生成字输入到鉴别模型,鉴别模型应该输出的向量。例如,目标生成字是“佳”字,“佳”字的风格类型在风格表中位于第999个,且目标域生成字为模型生成字,对应第999个元素的数值为-1,则“佳”字的第二风格对抗向量可以表示为
Figure BDA00032553896200001717
根据目标域样本字的第一风格对抗向量
Figure BDA0003255389620000181
和目标第一风格对抗向量
Figure BDA0003255389620000182
之间的交叉熵,可以确定第一风格对抗损失。第一风格对抗损失可以用如下等式(7)表示:
Figure BDA0003255389620000183
其中,
Figure BDA0003255389620000184
表示第一风格对抗损失,ei表示第一风格对抗向量中下标为i的元素,e*i表示目标第一风格对抗向量中下标为i的元素,i为大于等于0并且小于等于k的整数,k表示第一风格对抗向量和目标第一风格对抗向量中的元素个数。
根据目标域生成字的第二风格对抗向量
Figure BDA0003255389620000185
和目标第二风格对抗向量
Figure BDA0003255389620000186
之间的交叉熵,可以确定第二风格对抗损失。第二风格对抗损失可以用如下等式(8)表示:
Figure BDA0003255389620000187
其中,
Figure BDA0003255389620000188
表示第二风格对抗损失,fi表示第二风格对抗向量中下标为i的元素,f*i表示目标第二风格对抗向量中下标为i的元素,i为大于等于0并且小于等于k的整数,k表示第二风格对抗向量和目标第二风格对抗向量中的元素个数。
可以根据第一风格对抗损失和第二风格对抗损失,确定字符生成模型的风格对抗损失。字符生成模型的风格对抗损失可以用如下等式(9)表示:
Figure BDA0003255389620000189
Figure BDA00032553896200001810
表示字符生成模型的风格对抗损失。
鉴别模型用于检测目标域生成字是否为期望生成的目标域样本字。将目标域样本字和目标域生成字输入至鉴别模型中,得到一致性损失。
为了保证将源域样本字输入到字符生成模型得到的目标域生成字仅仅是风格转换,内容保持不变,可以针对字符生成模型增加一个一致性损失(cycle-consistencyloss)。该损失可以根据目标域样本字和目标域生成字之间的差异计算得到。例如,将目标域样本字和目标域生成字这两张图像的每个对应像素点的像素值作差,并求绝对值,得到每个像素点的差异,将所有像素点的差异求和得到字符生成模型的循环一致性损失,可以记为L1A2B
可选的,字符生成模型的训练方法,还包括:将所述目标域样本字和所述目标域生成字输入至鉴别模型中,计算一致性损失;根据所述一致性损失,调整所述字符生成模型的参数。
S806,将所述目标域生成字输入至所述字符分类模型,计算错字损失。
字符分类模型用于检测目标域生成字是否为错字。错字损失用于约束字符生成模型输出的目标域生成字的错字率,具体是指字与正确字之间的差异。
将目标域生成字输入到字符分类模型,得到该目标域生成字的生成字符向量
Figure BDA0003255389620000191
其中,向量
Figure BDA0003255389620000192
中每个元素可以表示训练样本中的一个字符,则n表示训练样本中的字符个数,例如,训练样本具有6761个字,则n可以等于6760。针对上述第一目标域生成字,预设有标准字符向量
Figure BDA0003255389620000193
其中,
Figure BDA0003255389620000194
中每个元素可以表示训练样本中的一个字符,则n表示训练样本中的字符个数,例如,训练样本具有6761个字,则n可以等于6760。
标准字符向量
Figure BDA0003255389620000195
表示将目标域生成字输入到上述字符分类模型,上述字符分类模型应该输出的向量。例如,目标域生成字是“做”字,“做”字在训练样本中的n个字中位于第一个,则“做”字的标准字符向量可以表示为
Figure BDA0003255389620000196
根据第一目标域生成字的生成字符向量
Figure BDA0003255389620000197
和标准字符向量
Figure BDA0003255389620000198
之间的交叉熵,可以确定错字损失。错字损失可以用如下等式(10)表示:
Figure BDA0003255389620000199
其中,LC表示错字损失,xi表示生成字符向量中下标为i的元素,yi表示标准字符向量中下标为i的元素,i为大于等于0并且小于等于n的整数,n表示生成字符向量和标准字符向量中的元素个数。
根据本公开的实施例,错字损失可以用来约束字符生成模型输出的目标域生成字的错字率,从而减少字符生成模型生成错字的概率。
需要说明的是,鉴别模型和组件分类模型可以和字符生成模型共同训练,在后期应用时,可以仅使用训练完成的字符生成模型实现图像的风格迁移。
S807,根据所述特征损失、所述组件分类损失、所述字符对抗损失、所述风格对抗损失和所述错字损失,调整所述字符生成模型的参数。
根据本公开的技术方案,通过使用字符生成模型基于源域样本字来生成目标域生成字,能够实现多种风格的字体生成,并且,通过使用组件分类模型引入组件分类损失,增加字体风格的学习范围,提高字体风格的迁移准确率;通过使用鉴别模型,引入字符对抗损失和风格对抗损失,能够提高字符生成模型的学习正确字体的能力和学习字体风格的能力;通过使用字符分类模型引入错字损失和特征损失,能够提高字符生成模型学习字体特征的能力,并减少生成错字的概率。
图9是根据本公开实施例提供的一种字符生成模型的训练方法的场景图。如图9所示,根据本公开实施例公开的一种字符生成模型的训练方法的场景图,字符生成模型包括风格编码器910、内容编码器911和解码器912。将源域样本字901发送至内容编码器911,得到内容特征向量,根据源域样本字901确定目标域风格字902,将目标域风格字902发送至风格编码器910,得到第一风格特征向量。目标域风格字902的数量有多个,第一风格特征向量的数量对应有多个,将多个第一风格特征向量进行融合,得到融合风格特征向量,将融合风格特征向量与内容特征向量进行融合,得到目标特征向量,将目标特征向量发送至解码器912进行解码,得到目标域生成字903。将目标域生成字903输入至风格编码器910中,得到目标域生成字903的第二风格特征向量。将第二风格特征向量和第一风格特征向量输入至组件分类模型913中,计算组件分类损失905。将目标域样本字904和目标域生成字903输入至鉴别模型914中,计算字符对抗损失906和风格对抗损失907。将目标域生成字903和目标域样本字904输入至预先训练的字符分类模型915,计算字符生成模型的特征损失909。将目标域生成字903输入到字符分类模型915,计算错字损失908。
图10是根据本公开实施例公开的一种字符生成方法的流程图,本实施例可以适用于根据训练字符生成模型,将源域风格的字转换为目标域风格的字,以生成新的字符的情况。本实施例方法可以由字符生成装置来执行,该装置可采用软件和/或硬件的方式实现,并具体配置于具有一定数据运算能力的电子设备中,该电子设备可以是客户端设备或服务器设备,客户端设备例如手机、平板电脑、车载终端和台式电脑等。
S1001,获取源域输入字,和对应的目标域输入字。
源域输入字可以是指需要转换为目标域字体风格的字所形成的图像。目标域输入字可以是指目标域字体风格的字所形成的图像。对源域输入字进行组件拆分,确定构成源域输入字的至少一个组件,并根据每个组件,在预先生成的目标域输入字的集合中筛选出与源域输入字对应的目标域输入字。目标域输入字的数量为至少一个。
可以预先获取目标域字体风格的字形成的图像,并形成目标域输入字的集合。该集合为预先获取的覆盖全组件的目标域字体风格的字所形成的图像。示例性的,针对中文字符,目标域字体风格为用户手写字体风格,可以预先获取用户授权提供的手写字体风格的字的图像,生成目标域输入字的集合。更具体的,可以预先配置覆盖有全偏旁部首的100个字,并提示用户针对该100个覆盖有全部偏旁部首的字,授权提供手写字体风格的字,生成目标域输入字的集合。
S1002,将所述源域输入字和所述目标输入字输入到字符生成模型中,得到目标域新字;其中,所述字符生成模型根据如本公开任一项实施例所述的字符生成模型的训练方法训练得到。
字符生成模型是根据字符生成模型的训练方法训练得到的。目标域新字可以是指源域输入字对应的内容的目标域字体风格的字。例如,源域输入字为楷体字图像,目标域新字为手写字图像,将楷体字图像输入到字符生成模型,可以得到手写字图像,即目标域新字。
在得到目标域新字的情况下,可以基于目标域新字建立字库。例如,将字符生成模型生成的新字进行存储,建立得到具有手写字体风格的字库,该字库可应用于输入法,用户使用基于该字库的输入法可以直接获取具有手写字体风格的字,能够满足用户多样化的需求,提高用户体验。
通过获取源域输入字和对应的目标域输入字,并输入到字符生成模型中,得到目标域新字,可以实现准确将源域输入字转换为目标域新字,提高目标域新字的生成准确率,提高目标域新字的生成效率,降低提高目标域新字的生成人工成本。
根据本公开的实施例,图11是本公开实施例中的字符生成模型的训练装置的结构图,本公开实施例适用于训练字符生成模型,其中,字符生成模型用于将源域风格的字转换为目标域风格的字的情况。该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
如图11所示的一种字符生成模型的训练装置1100,包括:目标域生成字获取模块1101、特征损失计算模块1102和第一损失调整模块1103;其中,
目标域生成字获取模块1101,用于将源域样本字和目标域风格字输入至字符生成模型,得到目标域生成字;
特征损失计算模块1102,用于将所述目标域生成字和目标域样本字输入至预先训练的字符分类模型,计算所述字符生成模型的特征损失;
第一损失调整模块1103,用于根据所述特征损失调整所述字符生成模型的参数。
根据本公开的技术方案,通过使用字符生成模型基于源域样本字和目标域风格字生成目标域生成字,能够实现多种风格的字体生成,并且,通过使用字符分类模型引入特征损失,使字符生成模型学习目标域生成字和目标域样本字之间差别较大的特征,从而使字符生成模型学习出更多的字体细节,能够提高字符生成模型学习字体特征的能力,提高字符生成模型生成的目标域字体风格的字的准确率。
进一步的,所述特征损失计算模块1102,包括:第一特征图生成单元,用于将所述目标域生成字输入到所述字符分类模型,得到所述字符分类模型的至少一个特征层输出的生成特征图;第二特征图生成单元,用于将所述目标域样本字输入到所述字符分类模型,得到所述字符分类模型的所述至少一个特征层输出的样本特征图;特征损失计算单元,用于根据所述至少一个特征层的生成特征图和样本特征图之间的差异,计算所述字符生成模型的特征损失。
进一步的,所述特征损失计算单元,包括:像素损失计算子单元,用于针对所述至少一个特征层中的每一特征层,计算所述特征层的生成特征图和样本特征图之间的像素差异,得到所述特征层的像素损失;特征损失计算子单元,用于根据所述至少一个特征层的像素损失,计算所述字符生成模型的特征损失。
进一步的,所述像素损失计算子单元,用于:针对所述特征层的生成特征图中的每个位置的像素点,计算所述像素点的像素值与所述样本特征图中对应位置的像素点的像素值之间的差值的绝对值,得到每个位置的像素点的差异;根据多个位置的像素点的差异,确定所述特征层的生成特征图和样本特征图之间的像素差异。
进一步的,所述字符生成模型的训练装置,还包括:第一特征向量计算模块,用于将所述目标域风格字输入至字符生成模型,得到所述目标域风格字的第一风格特征向量;第二特征向量计算模块,用于将所述目标域生成字输入至所述字符生成模型中,得到所述目标域生成字的第二风格特征向量;组件分类损失计算模块,用于将所述第二风格特征向量和所述第一风格特征向量输入至组件分类模型中,计算组件分类损失;对抗损失计算模块,用于将所述目标域样本字和所述目标域生成字输入至鉴别模型中,计算字符对抗损失和风格对抗损失;错字损失计算模块,用于将所述目标域生成字输入至所述字符分类模型,计算错字损失;第二损失调整模块,用于根据所述组件分类损失、所述字符对抗损失、所述风格对抗损失和所述错字损失,调整所述字符生成模型的参数。
进一步的,所述源域样本字为具有源域字体风格的图像,所述目标域样本字为具有目标域字体风格的图像。
上述字符生成模型的训练装置可执行本公开任意实施例所提供的字符生成模型的训练方法,具备执行字符生成模型的训练方法相应的功能模块和有益效果。
根据本公开的实施例,图12是本公开实施例中的字符生成装置的结构图,本公开实施例适用于根据训练字符生成模型,将源域风格的字转换为目标域风格的字,以生成新的字符的情况。该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
如图12所示的一种字符生成装置1200,包括:输入字获取模块1201和字符生成模块1202;其中,
输入字获取模块1201,用于获取源域输入字,和对应的目标域输入字;
字符生成模块1202,用于将所述源域输入字和所述目标输入字输入到字符生成模型中,得到目标域新字;其中,所述字符生成模型根据如本公开任一实施例所述的字符生成模型的训练方法训练得到。
通过获取源域输入字和对应的目标域输入字,并输入到字符生成模型中,得到目标域新字,可以实现准确将源域输入字转换为目标域新字,提高目标域新字的生成准确率,提高目标域新字的生成效率,降低提高目标域新字的生成人工成本。
上述字符生成装置可执行本公开任意实施例所提供的字符生成方法,具备执行字符生成方法相应的功能模块和有益效果。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图13示出了可以用来实施本公开的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图13所示,设备1300包括计算单元1301,其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序,来执行各种适当的动作和处理。在RAM 1303中,还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。
设备1300中的多个部件连接至I/O接口1305,包括:输入单元1306,例如键盘、鼠标等;输出单元1307,例如各种类型的显示器、扬声器等;存储单元1308,例如磁盘、光盘等;以及通信单元1309,例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理,例如字符生成模型的训练方法或字符生成方法。例如,在一些实施例中,字符生成模型的训练方法或字符生成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1308。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时,可以执行上文描述的字符生成模型的训练方法或字符生成方法的一个或多个步骤。备选地,在其他实施例中,计算单元1301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行字符生成模型的训练方法或字符生成方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (17)

1.一种字符生成模型的训练方法,包括:
将源域样本字和目标域风格字输入至字符生成模型,得到目标域生成字;
将所述目标域生成字和目标域样本字输入至预先训练的字符分类模型,计算所述字符生成模型的特征损失;
根据所述特征损失调整所述字符生成模型的参数。
2.根据权利要求1所述的方法,其中,所述将所述目标域生成字和目标域样本字输入至预先训练的字符分类模型,计算所述字符生成模型的特征损失,包括:
将所述目标域生成字输入到所述字符分类模型,得到所述字符分类模型的至少一个特征层输出的生成特征图;
将所述目标域样本字输入到所述字符分类模型,得到所述字符分类模型的所述至少一个特征层输出的样本特征图;
根据所述至少一个特征层的生成特征图和样本特征图之间的差异,计算所述字符生成模型的特征损失。
3.根据权利要求2所述的方法,其中,所述计算所述字符生成模型的特征损失,包括:
针对所述至少一个特征层中的每一特征层,计算所述特征层的生成特征图和样本特征图之间的像素差异,得到所述特征层的像素损失;
根据所述至少一个特征层的像素损失,计算所述字符生成模型的特征损失。
4.根据权利要求3所述的方法,其中,所述计算所述特征层的生成特征图和样本特征图之间的像素差异,包括:
针对所述特征层的生成特征图中的每个位置的像素点,计算所述像素点的像素值与所述样本特征图中对应位置的像素点的像素值之间的差值的绝对值,得到每个位置的像素点的差异;
根据多个位置的像素点的差异,确定所述特征层的生成特征图和样本特征图之间的像素差异。
5.根据权利要求1所述的方法,还包括:
将所述目标域风格字输入至字符生成模型,得到所述目标域风格字的第一风格特征向量;
将所述目标域生成字输入至所述字符生成模型中,得到所述目标域生成字的第二风格特征向量;
将所述第二风格特征向量和所述第一风格特征向量输入至组件分类模型中,计算组件分类损失;
将所述目标域样本字和所述目标域生成字输入至鉴别模型中,计算字符对抗损失和风格对抗损失;
将所述目标域生成字输入至所述字符分类模型,计算错字损失;
根据所述组件分类损失、所述字符对抗损失、所述风格对抗损失和所述错字损失,调整所述字符生成模型的参数。
6.根据权利要求1至5中任一项所述的方法,其中,所述源域样本字为具有源域字体风格的图像,所述目标域样本字为具有目标域字体风格的图像。
7.一种字符生成方法,包括:
获取源域输入字,和对应的目标域输入字;
将所述源域输入字和所述目标输入字输入到字符生成模型中,得到目标域新字;其中,所述字符生成模型根据如权利要求1至6中任一项所述的字符生成模型的训练方法训练得到。
8.一种字符生成模型的训练装置,包括:
目标域生成字获取模块,用于将源域样本字和目标域风格字输入至字符生成模型,得到目标域生成字;
特征损失计算模块,用于将所述目标域生成字和目标域样本字输入至预先训练的字符分类模型,计算所述字符生成模型的特征损失;
第一损失调整模块,用于根据所述特征损失调整所述字符生成模型的参数。
9.根据权利要求8所述的装置,其中,所述特征损失计算模块,包括:
第一特征图生成单元,用于将所述目标域生成字输入到所述字符分类模型,得到所述字符分类模型的至少一个特征层输出的生成特征图;
第二特征图生成单元,用于将所述目标域样本字输入到所述字符分类模型,得到所述字符分类模型的所述至少一个特征层输出的样本特征图;
特征损失计算单元,用于根据所述至少一个特征层的生成特征图和样本特征图之间的差异,计算所述字符生成模型的特征损失。
10.根据权利要求9所述的装置,其中,所述特征损失计算单元,包括:
像素损失计算子单元,用于针对所述至少一个特征层中的每一特征层,计算所述特征层的生成特征图和样本特征图之间的像素差异,得到所述特征层的像素损失;
特征损失计算子单元,用于根据所述至少一个特征层的像素损失,计算所述字符生成模型的特征损失。
11.根据权利要求10所述的装置,其中,所述像素损失计算子单元,用于:针对所述特征层的生成特征图中的每个位置的像素点,计算所述像素点的像素值与所述样本特征图中对应位置的像素点的像素值之间的差值的绝对值,得到每个位置的像素点的差异;根据多个位置的像素点的差异,确定所述特征层的生成特征图和样本特征图之间的像素差异。
12.根据权利要求8所述的装置,还包括:
第一特征向量计算模块,用于将所述目标域风格字输入至字符生成模型,得到所述目标域风格字的第一风格特征向量;
第二特征向量计算模块,用于将所述目标域生成字输入至所述字符生成模型中,得到所述目标域生成字的第二风格特征向量;
组件分类损失计算模块,用于将所述第二风格特征向量和所述第一风格特征向量输入至组件分类模型中,计算组件分类损失;
对抗损失计算模块,用于将所述目标域样本字和所述目标域生成字输入至鉴别模型中,计算字符对抗损失和风格对抗损失;
错字损失计算模块,用于将所述目标域生成字输入至所述字符分类模型,计算错字损失;
第二损失调整模块,用于根据所述组件分类损失、所述字符对抗损失、所述风格对抗损失和所述错字损失,调整所述字符生成模型的参数。
13.根据权利要求8至12中任一项所述的装置,其中,所述源域样本字为具有源域字体风格的图像,所述目标域样本字为具有目标域字体风格的图像。
14.一种字符生成装置,包括:
输入字获取模块,用于获取源域输入字,和对应的目标域输入字;
字符生成模块,用于将所述源域输入字和所述目标输入字输入到字符生成模型中,得到目标域新字;其中,所述字符生成模型根据如权利要求1至6中任一项所述的字符生成模型的训练方法训练得到。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的字符生成模型的训练方法,或执行权利要求7所述的字符生成方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的字符生成模型的训练方法,或执行权利要求7所述的字符生成方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的字符生成模型的训练方法,或执行权利要求7所述的字符生成方法。
CN202111057838.0A 2021-09-09 2021-09-09 字符生成模型的训练方法、字符生成方法、装置和设备和介质 Active CN113792526B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202111057838.0A CN113792526B (zh) 2021-09-09 2021-09-09 字符生成模型的训练方法、字符生成方法、装置和设备和介质
JP2022007458A JP7384943B2 (ja) 2021-09-09 2022-01-20 文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体
EP22158653.0A EP4148685A1 (en) 2021-09-09 2022-02-24 Method, training method, apparatus, device, medium and computer program for character generation
KR1020220025545A KR20220032538A (ko) 2021-09-09 2022-02-25 문자부호 생성 모델의 훈련 방법, 문자부호 생성 방법, 장치, 설비 및 매체
US17/682,232 US20220189083A1 (en) 2021-09-09 2022-02-28 Training method for character generation model, character generation method, apparatus, and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111057838.0A CN113792526B (zh) 2021-09-09 2021-09-09 字符生成模型的训练方法、字符生成方法、装置和设备和介质

Publications (2)

Publication Number Publication Date
CN113792526A true CN113792526A (zh) 2021-12-14
CN113792526B CN113792526B (zh) 2024-02-09

Family

ID=78879834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111057838.0A Active CN113792526B (zh) 2021-09-09 2021-09-09 字符生成模型的训练方法、字符生成方法、装置和设备和介质

Country Status (5)

Country Link
US (1) US20220189083A1 (zh)
EP (1) EP4148685A1 (zh)
JP (1) JP7384943B2 (zh)
KR (1) KR20220032538A (zh)
CN (1) CN113792526B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114820867A (zh) * 2022-04-22 2022-07-29 北京百度网讯科技有限公司 字形生成方法、字形生成模型的训练方法及装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11995906B2 (en) * 2022-03-02 2024-05-28 Capital One Services, Llc Techniques for generation of synthetic data with simulated handwriting
CN114882372A (zh) * 2022-07-11 2022-08-09 浙江大华技术股份有限公司 一种目标检测的方法及设备
CN115661304B (zh) * 2022-10-11 2024-05-03 北京汉仪创新科技股份有限公司 基于帧插值的字库生成方法、电子设备、存储介质和系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767328A (zh) * 2017-10-13 2018-03-06 上海交通大学 基于少量样本生成的任意风格和内容的迁移方法和系统
CN109165376A (zh) * 2018-06-28 2019-01-08 西交利物浦大学 基于少量样本的风格字符生成方法
CN110443864A (zh) * 2019-07-24 2019-11-12 北京大学 一种基于单阶段少量样本学习的艺术字体自动生成方法
CN110503598A (zh) * 2019-07-30 2019-11-26 西安理工大学 基于条件循环一致性生成对抗网络的字体风格迁移方法
CN111325660A (zh) * 2020-02-20 2020-06-23 中国地质大学(武汉) 一种基于文本数据的遥感图像风格转换方法
CN112364860A (zh) * 2020-11-05 2021-02-12 北京字跳网络技术有限公司 字符识别模型的训练方法、装置和电子设备
CN112861806A (zh) * 2021-03-17 2021-05-28 网易(杭州)网络有限公司 基于生成对抗网络的字体数据处理方法及装置
WO2021114130A1 (zh) * 2019-12-11 2021-06-17 中国科学院深圳先进技术研究院 一种无监督自适应乳腺病变分割方法
CN113140017A (zh) * 2021-04-30 2021-07-20 北京百度网讯科技有限公司 训练对抗网络模型的方法、建立字库的方法、装置和设备
CN113140018A (zh) * 2021-04-30 2021-07-20 北京百度网讯科技有限公司 训练对抗网络模型的方法、建立字库的方法、装置和设备
CN113343683A (zh) * 2021-06-18 2021-09-03 山东大学 一种融合自编码器和对抗训练的中文新词发现方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6358471B2 (ja) * 2015-05-29 2018-07-18 京セラドキュメントソリューションズ株式会社 画像形成装置
US11250252B2 (en) * 2019-12-03 2022-02-15 Adobe Inc. Simulated handwriting image generator
US11157693B2 (en) * 2020-02-25 2021-10-26 Adobe Inc. Stylistic text rewriting for a target author

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767328A (zh) * 2017-10-13 2018-03-06 上海交通大学 基于少量样本生成的任意风格和内容的迁移方法和系统
CN109165376A (zh) * 2018-06-28 2019-01-08 西交利物浦大学 基于少量样本的风格字符生成方法
CN110443864A (zh) * 2019-07-24 2019-11-12 北京大学 一种基于单阶段少量样本学习的艺术字体自动生成方法
CN110503598A (zh) * 2019-07-30 2019-11-26 西安理工大学 基于条件循环一致性生成对抗网络的字体风格迁移方法
WO2021114130A1 (zh) * 2019-12-11 2021-06-17 中国科学院深圳先进技术研究院 一种无监督自适应乳腺病变分割方法
CN111325660A (zh) * 2020-02-20 2020-06-23 中国地质大学(武汉) 一种基于文本数据的遥感图像风格转换方法
CN112364860A (zh) * 2020-11-05 2021-02-12 北京字跳网络技术有限公司 字符识别模型的训练方法、装置和电子设备
CN112861806A (zh) * 2021-03-17 2021-05-28 网易(杭州)网络有限公司 基于生成对抗网络的字体数据处理方法及装置
CN113140017A (zh) * 2021-04-30 2021-07-20 北京百度网讯科技有限公司 训练对抗网络模型的方法、建立字库的方法、装置和设备
CN113140018A (zh) * 2021-04-30 2021-07-20 北京百度网讯科技有限公司 训练对抗网络模型的方法、建立字库的方法、装置和设备
CN113343683A (zh) * 2021-06-18 2021-09-03 山东大学 一种融合自编码器和对抗训练的中文新词发现方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SONG PARK ET AL.: ""Few一shot Font Generation with Localized Style Representations and Factorization"", 《ARXIV》, pages 1 - 12 *
XIYAN LIU ET AL.: ""FontGAN: A Unified Generative Framework for Chinese Character Stylization and De-stylization"", 《ARXIV》, pages 1 - 10 *
李泽军;潘杰;韩丽;: "基于字典对齐的迁移稀疏编码图像分类", 电讯技术, no. 08, pages 12 - 18 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114820867A (zh) * 2022-04-22 2022-07-29 北京百度网讯科技有限公司 字形生成方法、字形生成模型的训练方法及装置
CN114820867B (zh) * 2022-04-22 2022-12-13 北京百度网讯科技有限公司 字形生成方法、字形生成模型的训练方法及装置

Also Published As

Publication number Publication date
KR20220032538A (ko) 2022-03-15
US20220189083A1 (en) 2022-06-16
JP7384943B2 (ja) 2023-11-21
JP2023039892A (ja) 2023-03-22
CN113792526B (zh) 2024-02-09
EP4148685A1 (en) 2023-03-15

Similar Documents

Publication Publication Date Title
CN113657390B (zh) 文本检测模型的训练方法和检测文本方法、装置和设备
CN113792526A (zh) 字符生成模型的训练方法、字符生成方法、装置和设备和介质
CN108229353B (zh) 人体图像的分类方法和装置、电子设备、存储介质、程序
CN113792853B (zh) 字符生成模型的训练方法、字符生成方法、装置和设备
CN113222916A (zh) 采用目标检测模型检测图像的方法、装置、设备和介质
CN113792854A (zh) 一种模型训练及字库建立方法、装置、设备及存储介质
CN113792851B (zh) 字体生成模型训练方法、字库建立方法、装置及设备
EP3998583A2 (en) Method and apparatus of training cycle generative networks model, and method and apparatus of building character library
CN114494784A (zh) 深度学习模型的训练方法、图像处理方法和对象识别方法
CN115578735B (zh) 文本检测方法和文本检测模型的训练方法、装置
CN114863437B (zh) 文本识别方法、装置、电子设备和存储介质
CN113177449B (zh) 人脸识别的方法、装置、计算机设备及存储介质
CN113591566A (zh) 图像识别模型的训练方法、装置、电子设备和存储介质
CN114565513A (zh) 对抗图像的生成方法、装置、电子设备和存储介质
US20230154077A1 (en) Training method for character generation model, character generation method, apparatus and storage medium
CN115880506A (zh) 图像生成方法、模型的训练方法、装置及电子设备
CN114926322A (zh) 图像生成方法、装置、电子设备和存储介质
CN114419327A (zh) 图像检测方法和图像检测模型的训练方法、装置
CN113903071A (zh) 人脸识别方法、装置、电子设备和存储介质
CN113947195A (zh) 模型确定方法、装置、电子设备和存储器
CN113657353B (zh) 公式识别方法、装置、电子设备及存储介质
CN115147850A (zh) 文字生成模型的训练方法、文字生成方法及其装置
CN114140319A (zh) 图像迁移方法和图像迁移模型的训练方法、装置
CN114937194A (zh) 图像模型的训练方法、图像降噪方法、装置、设备及介质
CN114842485A (zh) 一种字幕去除方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant