CN113792854A - 一种模型训练及字库建立方法、装置、设备及存储介质 - Google Patents
一种模型训练及字库建立方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113792854A CN113792854A CN202111057836.1A CN202111057836A CN113792854A CN 113792854 A CN113792854 A CN 113792854A CN 202111057836 A CN202111057836 A CN 202111057836A CN 113792854 A CN113792854 A CN 113792854A
- Authority
- CN
- China
- Prior art keywords
- target domain
- word
- style
- character
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 238000012549 training Methods 0.000 title claims abstract description 88
- 230000007246 mechanism Effects 0.000 claims abstract description 35
- 238000004458 analytical method Methods 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 61
- 230000008447 perception Effects 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 239000000126 substance Substances 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000012015 optical character recognition Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 15
- 230000005012 migration Effects 0.000 description 15
- 238000013508 migration Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 101001014572 Homo sapiens MARCKS-related protein Proteins 0.000 description 5
- 102100032514 MARCKS-related protein Human genes 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 102100028162 ATP-binding cassette sub-family C member 3 Human genes 0.000 description 2
- 102100028187 ATP-binding cassette sub-family C member 6 Human genes 0.000 description 2
- 101000986633 Homo sapiens ATP-binding cassette sub-family C member 3 Proteins 0.000 description 2
- 101000986621 Homo sapiens ATP-binding cassette sub-family C member 6 Proteins 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003924 mental process Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/244—Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Document Processing Apparatus (AREA)
- Controls And Circuits For Display Device (AREA)
- Character Discrimination (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种模型训练及字库建立方法、装置、设备和存储介质,涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域,可应用于OCR光学字符识别等场景。训练方法为:将源域样本字和源域样本字的目标域关联字输入到字体生成模型的编码器网络,得到样本字内容特征和关联字风格特征;将样本字内容特征和关联字风格特征输入字体生成模型的注意力机制网络,得到目标域风格特征;将样本字内容特征和目标域风格特征输入字体生成模型的解码器网络,得到目标域生成字;将目标域样本字和目标域关联字中的至少一项,以及目标域生成字输入到字体生成模型的损失分析网络,得到模型损失,并根据模型损失调整字体生成模型的参数。提高模型的准确性。
Description
技术领域
本公开涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域,可应用于OCR光学字符识别等场景。
背景技术
随着互联网的发展,以及人们个性化需求的增加,自定义风格字体的生成逐渐兴起。
字体生成的过程实质是图像风格迁移的过程,即将一张图像在保持内容不变的情况下,转换成另一种风格,例如,将标准楷体风格的“你”字转换成用户手写体风格的“你”。
发明内容
本公开提供了一种模型训练及字库建立方法、装置、设备和存储介质。
根据本公开的一方面,提供了一种字体生成模型的训练方法,包括:
将源域样本字和源域样本字的目标域关联字输入到字体生成模型的编码器网络,得到样本字内容特征和关联字风格特征;
将样本字内容特征和关联字风格特征输入字体生成模型的注意力机制网络,得到目标域风格特征;
将样本字内容特征和目标域风格特征输入字体生成模型的解码器网络,得到目标域生成字;
将目标域样本字和目标域关联字中的至少一项,以及目标域生成字输入到字体生成模型的损失分析网络,得到模型损失,并根据模型损失调整字体生成模型的参数。
根据本公开的另一方面,提供了一种字库建立方法,包括:
将源域输入字输入到字体生成模型,得到目标域新字;以及
基于目标域新字建立字库;
其中,字体生成模型是根据本公开任一实施例的字体生成模型的训练方法训练得到。
根据本公开的另一方面,提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开任一实施例的字体生成模型的训练和/或字库建立方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开任一实施例的字体生成模型的训练和/或字库建立方法。
根据本公开的技术,为少样本训练字体生成模型提供了一种新思路,提高了模型训练的准确性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开的一个实施例的可以应用字体生成模型的训练方法和/或字库建立方法的示例性系统架构示意图;
图2A是根据本公开实施例提供的一种字体生成模型的训练方法的流程图;
图2B是根据本公开实施例提供的一种字体生成模型的结构示意图;
图3A是根据本公开实施例提供的字体生成模型的注意力机制网络的内部结构示意图;
图3B是根据本公开实施例提供的另一种字体生成模型的训练方法的流程图;
图4A是根据本公开实施例提供的另一种字体生成模型的结构示意图;
图4B是根据本公开实施例提供的另一种字体生成模型的训练方法的流程图;
图5是根据本公开实施例提供的一种字库建立方法的流程图;
图6是根据本公开实施例提供的一种字体生成模型的训练装置的结构示意图;
图7是根据本公开实施例提供的一种字库建立装置的结构示意图;
图8是用来实现本公开实施例的字体生成模型的训练方法和/或字库建立方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
字体生成是图像风格迁移领域中的一项新兴任务,图像风格迁移是将一张图像在保持内容不变的情况下转换成另外一种风格,是深度学习应用的热门研究方向。
目前可以采用GAN(Generative Adversarial Networks,生成式对抗网络)模型来实现字体生成。但是在基于GAN模型的字体生成方案中,利用偏小数据量训练的网络,只能学习出一些相对较弱的特征,类似倾斜、大小、部分笔画的特征,无法学习出最具有用户风格的特征。也可以使用较大数据量训练的网络,虽然在风格上较强,但在训练集之外的汉字易产生错字。这些主流的研究成果,都很难达到字体级别的效果。
本公开的实施例提出了一种字体生成模型的训练方法以及使用该字体生成模型来建立字库的方法。在训练字体生成模型执行源域和目标域的字体风格迁移任务的过程中,引入注意力机制网络来确定目标域的整体风格特征,即目标域风格特征,提高了目标域风格特征的准确性。进而提高字体生成模型执行字体风格迁移的能力,在目标域样本数据较少,或源域字体不符合字体分布的风格字时,仍可生成美观又正确的字体,提高了模型的准确性。
图1是根据本公开的一个实施例的可以应用字体生成模型的训练方法和/或字库建立方法的示例性系统架构示意图。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括多个终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101通过网络102与服务器103进行交互,以接收或发送消息等。终端设备101可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机等等。
本公开实施例所提供的字体生成模型的训练方法和/或字库建立方法中的至少之一一般可以由服务器103执行。相应地,本公开实施例所提供的字体生成模型的训练装置和/或字库建立的装置一般可以设置于服务器103中。本公开实施例所提供的字体生成模型的训练方法和/或字库建立方法也可以由不同于服务器103且能够与终端设备101和/或服务器103通信的服务器或服务器集群执行。相应地,本公开实施例所提供的字体生成模型的训练装置和/或字库建立的装置也可以设置于不同于服务器103且能够与终端设备101和/或服务器103通信的服务器或服务器集群中。
图2A是根据本公开实施例提供的一种字体生成模型的训练方法的流程图;图2B是根据本公开实施例提供的一种字体生成模型的结构示意图。本公开实施例适用于训练执行字体风格迁移任务的字体生成模型的情况,尤其适用于基于少样本数据训练执行字体风格迁移任务的字体生成模型的情况。该方法可以由字体生成模型的训练装置来执行,该装置可以采用软件和/或硬件的方式实现。如图2A-2B所示,本实施例提供的字体生成模型的训练方法可以包括:
S201,将源域样本字和源域样本字的目标域关联字输入到字体生成模型的编码器网络,得到样本字内容特征和关联字风格特征。
其中,源域样本字可以是具有源域字体风格的图像,源域字体风格可以是楷体、宋体或黑体等常规字体。目标域关联字可以是具有目标域字体风格,且可以覆盖源域样本字的偏旁部首的图像。目标域字体风格可以是用户手写字体风格或者其他艺术字字体风格。需要说明的是,本实例中目标域关联字的个数可以是一个或多个,优选为多个。例如,若源域样本字为“你”,其对应的偏旁部首包括“亻”和“尔”,则目标域关联字可以是具有目标域字体风格,且包含“亻”和“尔”的所有字的图像,如“称”和“佳”。样本字内容特征可以是表征源域样本字的字体内容(如字符类别和组件类别)的特征。关联字风格特征可以是表征各个目标域关联字体的字体风格的特征。
如图2B所示,本实施例的字体风格模型2是将源域样本字从源域风格字体迁移到目标域风格字体的神经网络模型。该字体生成模型2可以包括字体生成网络20和损失分析网络21。其中,字体生成网络20用于执行字体风格迁移的任务,即字体生成模型的主干网络;其具体包括:编码器网络201、注意力机制网络202和解码器网络203。其中,编码器网络201用于对源域样本字的内容特征进行编码,以及对目标域关联字的风格特征进行编码,所以该编码器网络201又进一步可以包括内容编码子网络2011和风格编码子网络2012。注意力机制网络202用于解析目标域风格特征中各风格分类头位置的重要性,来精准确定目标域风格特征。解码器网络204用于基于内容特征和风格特征,解码得到风格迁移后的生成字。损失分析网络21用于在模型训练阶段,计算训练过程中模型的损失函数,以便模型基于该损失函数进行参数的调整。
可选的,本实施例在执行一次迭代训练任务时,可以是先基于源域样本字,获取一批覆盖该源域样本字偏旁部首的目标域关联字,然后将源域样本字和目标域关联字输入到字体生成模型2的字体生成网络20的编码器网络201,具体的,可以将源域样本字输入到编码器网络201的内容编码子网络2011,将目标域关联字输入到编码器网络201的风格编码子网络2012,该内容编码子网络2011就会对输入的源域样本字的字体内容进行编码,得到样本字内容特征。该风格编码子网络2012就会对输入的目标域关联字的字体风格进行编码,得到关联字风格特征。需要说明的是,本实施例要为每个目标域关联字都确定其对应的关联字风格特征。例如,图2B所示,将宋体风格字体“你”(即源域样本字)输入到的内容编码子网络2011,得到宋体风格字体“你”的内容特征;将手写风格字体“称”和“佳”(即目标域关联字)输入到风格编码子网络2012,分别得到手写风格字体“称”的关联字风格特征1,以及手写风格字体“佳”的关联字风格特征2。
S202,将样本字内容特征和关联字风格特征输入字体生成模型的注意力机制网络,得到目标域风格特征。
其中,目标域风格特征可以是表征目标域整体风格的特征。
如图2B所示,由于关联字风格特征是每个目标关联字对应于目标域的风格特征,其只能代表目标域的部分风格特征,本实施例需要基于注意力机制网络202,对各目标关联字对应于目标域的风格特征进行整合,得到该目标域的整体风格特征,即目标域风格特征。具体的,可以是将编码器网络201编码出的样本字内容特征和关联字风格特征都输入到注意力机制网络202,注意力机制网络202就会基于样本字内容特征依次分析各关联字风格特征,进而将各关联字风格特征整合为一个表征目标域风格的特征向量,即目标域风格特征。
S203,将样本字内容特征和目标域风格特征输入字体生成模型的解码器网络,得到目标域生成字。
其中,目标域生成字可以是字体生成模型生成的具有源域样本字的内容,和目标域关联字的字体风格的图像。例如,若源域样本字为“你”,目标域字体风格是用户手写字体风格,则目标域生成字可以是用户手写字体风格的“你”。
如图2B所示,本实施例可以将编码器网络201(具体为内容编码子网络2011)编码的样本字内容特征,以及注意力机制网络202整合的目标域风格特征都输入到解码器网络203,解码器网络203就会对目标域风格特征和样本字内容特征进行解码,进而基于解码结果,融合得到具有源域样本字的内容,和目标域关联字的字体风格的目标域生成字(如手写风格的“你”)。
S204,将目标域样本字和目标域关联字中的至少一项,以及目标域生成字输入到字体生成模型的损失分析网络,得到模型损失,并根据模型损失调整字体生成模型的参数。
其中,目标域样本字可以是真实存在的具有源域样本字的内容,和目标域关联字的字体风格的图像。其是目标域生成字对应的标准字。例如,若样本字为“你”,目标域为用户手写风格字体,则该目标域样本字可以是用户真实手写的“你”字。目标域生成字,是字体生成模型预测出来的用户手写的“你”字。模型损失为S201-S203基于目标域关联字和源域样本字对模型训练时计算的损失函数。
本实施例的字体生成模型中的损失分析网络可以包括解析至少一种类型损失函数的至少一个子网络,也就是说,基于该损失分析网络确定的模型损失中可包含至少一种类型的损失函数值。例如,字体生成模型的损失分析网络,可以分析目标域样本字和目标域生成字的字符内容的一致性,生成字符分类损失;分析目标域样本字和目标域生成字的字体风格的一致性,生成风格分类损失;分析目标域关联字和目标域生成字的偏旁部首(即组件)的一致性,生成组件分类损失;分析目标域生成字是否为错字的错字损失等。本实施例在通过损失分析网络计算出模型损失后,基于该模型损失来调整字体生成模型的参数值。
需要说明的是,本申请实施例的方案,需要基于多组源域样本字,对模型进行多次迭代训练,直至达到预设的训练停止条件,则停止调整字体生成模型的参数,得到经训练的字体生成模型。训练停止条件可以包括:训练次数达到预设次数,或者模型损失收敛等。
还需要说明的是,输入到字体生成模型的字(如源域样本字、目标域关联字和目标域样本字)可以是以图像的形式输入的,且输入到字体生成模型的字所对应的图像可以来自于公开数据集,或者是经过了相关授权后获取。
本申请实施例的方案,在对字体生成模型进行训练的过程中,基于编码器网络确定的目标域的关联字特征和样本字内容特征需要输入到注意力机制网络,来确定目标域风格特征,进而基于目标域风格特征和样本字内容特征来得到目标域生成字。并基于目标域样本字和目标域关联字中的至少一项,以及目标域生成字计算模型损失,调整模型参数。本方案在训练字体生成模型执行源域和目标域的字体风格迁移任务的过程中,引入注意力机制网络来确定目标域的整体风格特征,即目标域风格特征,提高了目标域风格特征的准确性。进而提高字体生成模型执行字体风格迁移的能力,在目标域样本数据较少,或源域字体不符合字体分布的风格字时,仍可生成美观又正确的字体,提高了模型的准确性。为少样本训练字体生成模型提供了一种新思路。
图3A是根据本公开实施例提供的字体生成模型的注意力机制网络的内部结构示意图。如图3A所示,本实施例的注意力网络302包括内容特征感知层3021、风格特征感知层3022、激活层3023和全连接层3024。图3B是根据本公开实施例提供的一种字体生成模型的训练方法的流程图。本公开实施例在上述实施例的基础上,结合图3A所示的注意力机制网络302,进一步对如何“将样本字内容特征和关联字风格特征输入字体生成模型的注意力机制网络,得到目标域风格特征”进行详细解释说明,如图3A-3B所示,本实施例提供的字体生成模型的训练方法可以包括:
S301,将源域样本字和源域样本字的目标域关联字输入到字体生成模型的编码器网络,得到样本字内容特征和关联字风格特征。
S302,将样本字内容特征输入内容特征感知层,得到内容感知值。
其中,内容特征感知层MLP1可以由多个全连接层首尾连接构成,用于对样本字内容特征进行抽象提取,得到一个感知值,即内容感知值。
具体的,如图3A所示,可以将S301通过编码器网络得到的样本字内容特征Zx输入到内容特征感知网络层MLP1 3021,此时该内容特征感知层MLP1 3021会从样本字内容特征中抽样提取出内容感知值Q,即Q=MLP1(Zx)。
S303,将关联字风格特征输入风格特征感知层,得到风格感知值。
其中,风格特征感知层MLP2也可以由多个全连接层首尾连接构成,其与内容特征感知层MLP1的层结构可以相同,也可以不同。该风格特征感知层MLP2用于对关联字风格特征进行抽象提取,得到风格感知值。
具体的,如图3A所示,由于本实施例中的目标域关联字可能为多个,S301通过编码器网络为每个目标域关联字都生成了一个关联字风格特征,假设目标关联字的个数为K个,则输入风格特征感知层3022的关联字风格特征为Z'i,其中,i=1,2,...,K。相应的,风格特征感知层3022会基于每个关联字风格特征Z'i都生成一个风格感知值Keyi,其中,i=1,2,...,K,即Keyi=MLP2(z'i)。
S304,将内容感知值和风格感知值输入激活层,得到目标域的特征权重。
具体的,如图3A所示,将内容感知值Q,以及风格感知值Keyi输入到激活层3023,激活层3023会将内容感知值Q依次与各风格感知值Keyi进行卷积以及归一化处理,得到目标域的特征权重Wi,其中,i=1,2,...,K;即Wi=softmax(Q*Keyi)。
S305,将特征权重和关联字风格特征输入全连接层,得到目标域风格特征。
具体的,如图3A所示,将目标域的特征权重Wi和关联字风格特征Z'i输入到全连接层3024,全连接层3024将各关联字风格特征与其对应的特征权重进行加权求和处理,得到目标域风格特征。
S306,将样本字内容特征和目标域风格特征输入字体生成模型的解码器网络,得到目标域生成字。
S307,将目标域样本字和目标域关联字中的至少一项,以及目标域生成字输入到字体生成模型的损失分析网络,得到模型损失,并根据模型损失调整字体生成模型的参数。
本实施例的方案,通过包含感知层、激活层和全连接层的注意力机制,来解析目标域风格特征中位置元素的权重值,结合权重值确定目标域风格特征,相比于求均值等方式确定目标域风格特征,极大的降低了目标域关联字的非样本字组件对目标域风格特征的影响,提高了目标域风格特征的精准性,进而提高字体生成模型执行字体风格迁移的准确性。
图4A是根据本公开实施例提供的另一种字体生成模型的结构示意图。如图4A所示,本申请实施例的字体生成模型4的损失分析网络41包括:组件分类器网络411、字符判别器网络412、风格判别器网络413和字符分类器网络414中的至少一个。其中,组件分类器网络411用于计算组件分类损失;字符判别器网络412用于计算字符分类损失;风格判别器网络413用于计算风格分类损失;字符分类器网络414用于计算错字损失。因此,本实施例的模型损失包括:组件分类损失、字符分类损失、风格分类损失和错字损失中的至少一个。这样设置的好处是,通过多种不同类型的损失来对模型进行训练,极大的提高模型训练结果的精准性。
图4B是根据本公开实施例提供的一种字体生成模型的训练方法的流程图。本公开实施例在上述实施例的基础上,结合图4A所示的损失分析网络41,进一步对如何计算模型损失以及如何基于模型损失调整字体生成模型的参数进行详细解释说明,如图4A-4B所示,本实施例提供的字体生成模型的训练方法可以包括:
S401,将源域样本字和源域样本字的目标域关联字输入到字体生成模型的编码器网络,得到样本字内容特征和关联字风格特征。
S402,将样本字内容特征和关联字风格特征输入字体生成模型的注意力机制网络,得到目标域风格特征。
S403,将样本字内容特征和目标域风格特征输入字体生成模型的解码器网络,得到目标域生成字。
S404,将目标域样本字和目标域关联字中的至少一项,以及目标域生成字输入到字体生成模型的损失分析网络,得到组件分类损失、字符分类损失、风格分类损失和错字损失中的至少一个,并根据组件分类损失、字符分类损失、风格分类损失和错字损失中的至少一个调整字体生成模型的参数。
接下来,依次对S404中各类型损失的计算方法,以及基于该损失如何对模型进行训练的过程进行介绍。
(一)、确定组件分类损失的过程可以包括:将目标域关联字和目标域生成字输入到组件分类器网络,得到目标域生成字的组件向量和目标域关联字的组件向量;根据目标域生成字的组件向量和目标域关联字的组件向量之间的差异,确定组件分类损失。
其中,组件向量可以是一个N维的向量,N为组件表中包含的所有组件,即所有偏旁部首的数量值。组件向量中的每个元素代表组件表中的一个组件,若输入的字中包含该组件,则该元素为第一数值(如1),否则为第二数值(如0)。因此,组件分类器网络可通过生成的组件向量来预测输入的字中是否包含预设的偏旁部首(即组件)。
具体的,本实施例可以将目标域关联字和目标域生成字输入到组件分类器网络411,组件分类器网络411就会针对输入的目标域关联字和目标域生成字,各生成一个N维的组件向量,如组件向量1和组件向量2,进而基于N维组件向量1和N维组件向量2之间的差异,来计算组件分类损失值。例如,通过计算两组件向量的交叉熵作为分类损失值。在计算出该组件分类损失值后,可以以该组件分类损失值为约束来调整字体生成模型4的参数,以使得所有风格的字经过该组件分类器网络411后都可以正确进行组件分类。本实施例在字体生成模型的训练过程中,引入组件分类损失,能够保证所有风格的字经过该组件分类器网络后都可以正确进行组件分类,进而保证目标域生成字保留了目标域关联字的组件(即多个目标关联字共有的组件)。
(二)、确定字符分类损失的过程可以包括:
子步骤A、将目标域样本字和目标域生成字输入到字符判别器网络,得到字符分类损失的第一字符损失值,并基于第一字符损失值,调整字符判别器网络的参数。
具体的,如图4A所示,本子步骤可以是将目标域样本字和目标域生成字输入到字符判别器网络412,得到目标域生成字的字符分类头位置和目标域样本字的字符分类头位置;并根据目标域生成字的字符分类头位置和目标域样本字的字符分类头位置,确定字符分类损失的第一字符损失值。
在本实施例中,训练样本可以包含M个(如6700个)字的图像。M个字可以构成一个M维的向量,即字符分类头向量,向量中的每个元素对应一个字,该元素在字符分类头向量中的位置即为字符分类头位置。本实施例的字符判别器网络412会为目标域样本字确定其对应的字符分类头位置X,为目标域生成字确定其对应的字符分类头位置X*。并基于下述公式(1)来计算字符分类损失的第一字符损失值。在确定出第一字符损失值后,基于该第一字符损失值对字符判别器网络412的参数进行一次参数调整。
子步骤B、将目标域生成字输入到调整后的字符判别器网络,得到字符分类损失的第二字符损失值,并基于第二字符损失值,调整字体生成网络的参数。
具体的,如图4A所示,本子步骤可以是将目标域生成字输入到调整后的字符判别器网络412,更新目标域生成字的字符分类头位置;并根据更新后的字符分类头位置,确定字符分类损失的第二字符损失值。
在本实施例中,通过子步骤A对字符判别器网络412的参数进行一次更新后,更新后的字符判别器网络412会重新执行确定目标域生成字的字符分类头位置的操作,即更新字符分类头位置X*。并基于下述公式(2)来计算字符分类损失的第二字符损失值。在确定出第二字符损失值后,基于该第二字符损失值对字体生成网络40的参数进行一次参数调整。其中,该字体生成网络40包括编码器网络401、注意力机制网络402和解码器网络403;该编码器网络401又包括内容编码子网络4011和风格编码子网络4012。
子步骤C、将目标域样本字和基于调整后的字体生成网络更新的目标域生成字输入到调整后的字符判别器网络,更新第一字符损失值,并基于更新后的第一字符损失值,再次调整字符判别器网络的参数。
具体的,如图4A所示,本步骤可以是将源域样本字和目标域关联字再次输入到子步骤B调整后的字体生成网络40,来更新目标域生成字,然后将更新后的目标域生成字和目标域样本字再次输入到子步骤A调整后字符判别器网络412中,更新目标域生成字的字符分类头位置X*和目标域样本字的字符分类头位置X,进而基于公式(1)更新第一字符损失值,进而基于更新后的第一字符损失值来再次返回调整字符判别器网络412的参数。
本实施例在字体生成模型的训练过程中,引入字符分类损失,并对字符判别器网络412和字体生成网络40交替迭代训练,极大的提高了字体生成网络40和字符判别器网络412的参数的准确性。
(三)、确定风格分类损失的过程可以包括:
子步骤D、将目标域样本字和目标域生成字输入到风格判别器网络,得到风格分类损失的第一风格损失值,并基于第一风格损失值,调整风格判别器网络的参数。
具体的,如图4A所示,本子步骤可以是将目标域样本字和目标域生成字输入到风格判别器网络413,得到目标域生成字的风格分类头位置和目标域样本字的风格分类头位置;并根据目标域生成字的风格分类头位置和目标域样本字的风格分类头位置,确定风格分类损失的第一风格损失值。
在本实施例中,训练样本可以包含S种(如80种)风格字体。S种风格可以构成一个S维的向量,即风格分类头向量,向量中的每个元素对应一种风格,该元素在风格分类头向量中的位置即为风格分类头位置。本实施例的风格判别器网络413会为目标域样本字确定其对应的风格分类头位置Y,为目标域生成字确定其对应的风格分类头位置Y*。并基于下述公式(3)来计算风格分类损失的第一风格损失值。在确定出第一风格损失值后,基于该第一风格损失值对风格判别器网络413的参数进行一次参数调整。
子步骤E、将目标域生成字输入到调整后的风格判别器网络,得到风格分类损失的第二风格损失值,并基于第二风格损失值,调整字体生成网络的参数。
具体的,如图4A所示,本子步骤可以是将目标域生成字输入到调整后的风格判别器网络413,更新目标域生成字的风格分类头位置;并根据更新后的风格分类头位置,确定风格分类损失的第二风格损失值。
在本实施例中,通过子步骤D对风格判别器网络413的参数进行一次更新后,更新后的风格判别器网络413会重新执行确定目标域生成字的风格分类头位置的操作,即更新风格分类头位置Y*。并基于下述公式(4)来计算风格分类损失的第二风格损失值。在确定出第二风格损失值后,基于该第二风格损失值对字体生成网络40的参数进行一次参数调整。其中,该字体生成网络40包括编码器网络401、注意力机制网络402和解码器网络403;该编码器网络401又包括内容编码子网络4011和风格编码子网络4012。
子步骤F、将目标域样本字和基于调整后的字体生成网络更新的目标域生成字输入到调整后的风格判别器网络,更新第一风格损失值,并基于更新后的第一风格损失值,再次调整风格判别器网络的参数。
具体的,如图4A所示,本步骤可以是将源域样本字和目标域关联字再次输入到子步骤E调整后的字体生成网络40,来更新目标域生成字,然后将更新后的目标域生成字和目标域样本字再次输入到子步骤D调整后风格判别器网络413中,更新目标域生成字的风格分类头位置Y*和目标域样本字的风格分类头位置Y,进而基于公式(3)更新第一风格损失值,进而基于更新后的第一风格损失值来再次返回调整风格判别器网络413的参数。
本实施例在字体生成模型的训练过程中,引入风格分类损失,并对风格判别器网络413和字体生成网络40交替迭代训练,极大的提高了字体生成网络40和风格判别器网络413的参数的准确性。
(四)、确定错字损失的过程可以包括:将目标域样本字和目标域生成字输入到字符分类器网络,得到目标域样本字的字符分类头向量和目标域生成字的字符分类头向量;并根据目标域样本字的字符分类头向量和目标域生成字的字符分类头向量之间的差异,确定错字损失。
具体的,如图4A所示,将目标域样本字和目标域生成字输入到字符分类器网络414,字符分类器网络414会为目标域样本字确定其对应的字符分类头向量为目标域生成字确定其对应的字符分类头向量其中,向量和中每个元素可以表示训练样本中的一个字符,则m表示训练样本中的字符个数,例如,训练样本具有6761个字,则m可以等于6760。然后基于分类头向量和字符分类头向量之间的差异,计算错字损失。例如,可以根据基于分类头向量和字符分类头向量之间的交叉熵,按照如下公式(5),计算错字损失。在确定出错字损失后,基于该错字损失对字体生成网络40的参数进行一次参数调整。
其中,表示错字损失,xi表示目标域样本字的字符分类头向量中下标为i的元素,yi表示目标域生成字的字符分类头向量中下标为i的元素,i为大于等于0并且小于等于m的整数,m表示字符类分头向量中的元素个数。本实施例在字体生成模型的训练过程中,引入错字损失,来约束字体生成网络40输出的目标域生成字的错字率,从而减少字体生成模型生成错字的概率。
需要说明的是,本实施例可以生成上述四种损失中的至少一种,来调整字体生成模型的参数,以完成对字体生成模型的训练。
还需要说明的是,为便于区分,本实施例使用带*的参数表示该参数与模型生成的图像相关,不带*的参数表示该参数与真实的图像相关。
本申请实施例的方案,在对字体生成模型进行训练的过程中,引入了多种类型损失,由多种类型损失共同约束模型训练,极大的提高了模型训练的准确性。
图5是根据本公开实施例提供的一种字库建立方法的流程图。本公开实施例适用于基于上述实施例训练的字体生成模型来构建字库的情况。该方法可以由字库建立装置来执行,该装置可以采用软件和/或硬件的方式实现。如图5所示,本实施例提供的字库建立方法可以包括:
S501,将源域输入字输入到字体生成模型,得到目标域新字。
其中,字体生成模型可以是基于上述实施例训练的字体生成模型。
例如,源域输入字为宋体字图像,新字为手写字图像,将宋体字图像输入到字体生成模型,可以得到手写字图像。
S502,基于目标域新字建立字库。
本实施例可以将字体生成模型生成的新字进行存储,建立得到具有手写字体风格的字库,该字库可应用于输入法,用户使用基于该字库的输入法可以直接获取具有手写字体风格的字,能够满足了用户多样化的需求,提高了用户体验。
图6是根据本公开实施例提供的一种字体生成模型的训练装置的结构示意图。本公开实施例适用于训练执行字体风格迁移任务的字体生成模型的情况,尤其适用于基于少样本数据训练执行字体风格迁移任务的字体生成模型的情况。该装置可以采用软件和/或硬件来实现,该装置可以实现本公开任意实施例的字体生成模型的训练方法。如图6所示,该字体生成模型的训练装置包括:
第一特征确定模块601,用于将源域样本字和源域样本字的目标域关联字输入到字体生成模型的编码器网络,得到样本字内容特征和关联字风格特征;
第二特征确定模块602,用于将样本字内容特征和关联字风格特征输入字体生成模型的注意力机制网络,得到目标域风格特征;
生成字确定模块603,用于将样本字内容特征和目标域风格特征输入字体生成模型的解码器网络,得到目标域生成字;
模型训练模块604,用于将目标域样本字和目标域关联字中的至少一项,以及目标域生成字输入到字体生成模型的损失分析网络,得到模型损失,并根据模型损失调整字体生成模型的参数。
本申请实施例的方案,在对字体生成模型进行训练的过程中,基于编码器网络确定的目标域的关联字特征和样本字内容特征需要输入到注意力机制网络,来确定目标域风格特征,进而基于目标域风格特征和样本字内容特征来得到目标域生成字。并基于目标域样本字和目标域关联字中的至少一项,以及目标域生成字计算模型损失,调整模型参数。本方案在训练字体生成模型执行源域和目标域的字体风格迁移任务的过程中,引入注意力机制网络来确定目标域的整体风格特征,即目标域风格特征,提高了目标域风格特征的准确性。进而提高字体生成模型执行字体风格迁移的能力,在目标域样本数据较少,或源域字体不符合字体分布的风格字时,仍可生成美观又正确的字体,提高了模型的准确性。为少样本训练字体生成模型提供了一种新思路。
进一步的,上述注意力机制网络包括:内容特征感知层、风格特征感知层、激活层和全连接层;
相应的,上述第二特征确定模块602具体用于:
将样本字内容特征输入内容特征感知层,得到内容感知值;
将关联字风格特征输入风格特征感知层,得到风格感知值;
将内容感知值和风格感知值输入激活层,得到目标域的特征权重;
将特征权重和关联字风格特征输入全连接层,得到目标域风格特征。
进一步的,上述损失分析网络包括:组件分类器网络、字符判别器网络、风格判别器网络和字符分类器网络中的至少一个;上述模型损失包括:组件分类损失、字符分类损失、风格分类损失和错字损失中的至少一个。
进一步的,上述模型训练模块604,包括:
第一字符损失计算单元,用于将目标域样本字和目标域生成字输入到字符判别器网络,得到字符分类损失的第一字符损失值;
字符判别器调整单元,用于基于第一字符损失值,调整字符判别器网络的参数;
第二字符损失计算单元,用于将目标域生成字输入到调整后的字符判别器网络,得到字符分类损失的第二字符损失值;
字体生成网络调整单元,用于基于第二字符损失值,调整字体生成网络的参数;其中,字体生成网络包括编码器网络、注意力机制网络和解码器网络;
上述第一字符损失计算单元,还用于将目标域样本字和基于调整后的字体生成网络更新的目标域生成字输入到调整后的字符判别器网络,更新第一字符损失值;
上述字符判别器调整单元,还用于基于更新后的第一字符损失值,再次调整字符判别器网络的参数。
进一步的,上述第一字符损失计算单元具体用于:
将目标域样本字和目标域生成字输入到字符判别器网络,得到目标域生成字的字符分类头位置和目标域样本字的字符分类头位置;
根据目标域生成字的字符分类头位置和目标域样本字的字符分类头位置,确定字符分类损失的第一字符损失值。
进一步的,上述第二字符损失计算单元具体用于:
将目标域生成字输入到调整后的字符判别器网络,更新目标域生成字的字符分类头位置;
根据更新后的字符分类头位置,确定字符分类损失的第二字符损失值。
进一步的,上述模型训练模块604,还包括:
第一风格损失计算单元,用于将目标域样本字和目标域生成字输入到风格判别器网络,得到风格分类损失的第一风格损失值;
风格判别器调整单元,用于基于第一风格损失值,调整风格判别器网络的参数;
第二风格损失计算单元,用于将目标域生成字输入到调整后的风格判别器网络,得到风格分类损失的第二风格损失值;
字体生成网络调整单元,用于基于第二风格损失值,调整字体生成网络的参数;其中,字体生成网络包括编码器网络、注意力机制网络和解码器网络;
上述第一风格损失计算单元,还用于将目标域样本字和基于调整后的字体生成网络更新的目标域生成字输入到调整后的风格判别器网络,更新第一风格损失值;
上述风格判别器调整单元,还用于基于更新后的第一风格损失值,再次调整风格判别器网络的参数。
进一步的,上述第一风格损失计算单元具体用于:
将目标域样本字和目标域生成字输入到风格判别器网络,得到目标域生成字的风格分类头位置和目标域样本字的风格分类头位置;
根据目标域生成字的风格分类头位置和目标域样本字的风格分类头位置,确定风格分类损失的第一风格损失值。
进一步的,上述第二风格损失计算单元具体用于:
将目标域生成字输入到调整后的风格判别器网络,更新目标域生成字的风格分类头位置;
根据更新后的风格分类头位置,确定风格分类损失的第二风格损失值。
进一步的,上述模型训练模块604,还包括:
组件分类损失计算单元,用于将目标域关联字和目标域生成字输入到组件分类器网络,得到目标域生成字的组件向量和目标域关联字的组件向量;根据目标域生成字的组件向量和目标域关联字的组件向量之间的差异,确定组件分类损失。
进一步的,上述模型训练模块604,还包括:
错字损失计算单元,用于将目标域样本字和目标域生成字输入到字符分类器网络,得到目标域样本字的字符分类头向量和目标域生成字的字符分类头向量;根据目标域样本字的字符分类头向量和目标域生成字的字符分类头向量之间的差异,确定错字损失。
图7是根据本公开实施例提供的一种字库建立装置的结构示意图。本公开实施例适用于基于上述实施例训练的字体生成模型来构建字库的情况。该装置可以采用软件和/或硬件来实现,该装置可以实现本公开任意实施例的字库建立方法。如图7所示,该字库建立装置包括:
新字生成模块701,用于将源域输入字输入到字体生成模型,得到目标域新字;以及
字库建立模块702,用于基于目标域新字建立字库;
其中,字体生成模型是根据本公开任一实施例的字体生成模型的训练方法来训练得到的。
本实施例可以将字体生成模型生成的新字进行存储,建立得到具有手写字体风格的字库,该字库可应用于输入法,用户使用基于该字库的输入法可以直接获取具有手写字体风格的字,能够满足了用户多样化的需求,提高了用户体验。
上述产品可执行本公开任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
应注意,本公开的技术方案中,所涉及的字体图像的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如字体生成模型的训练方法和/或字库建立方法。例如,在一些实施例中,字体生成模型的训练方法和/或字库建立方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的字体生成模型的训练方法和/或字库建立方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行字体生成模型的训练方法和/或字库建立方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (27)
1.一种字体生成模型的训练方法,包括:
将源域样本字和所述源域样本字的目标域关联字输入到字体生成模型的编码器网络,得到样本字内容特征和关联字风格特征;
将所述样本字内容特征和关联字风格特征输入所述字体生成模型的注意力机制网络,得到目标域风格特征;
将所述样本字内容特征和所述目标域风格特征输入所述字体生成模型的解码器网络,得到目标域生成字;
将目标域样本字和所述目标域关联字中的至少一项,以及所述目标域生成字输入到所述字体生成模型的损失分析网络,得到模型损失,并根据所述模型损失调整所述字体生成模型的参数。
2.根据权利要求1所述的方法,其中,所述注意力机制网络包括:内容特征感知层、风格特征感知层、激活层和全连接层;
相应的,所述将所述样本字内容特征和关联字风格特征输入所述字体生成模型的注意力机制网络,得到目标域风格特征,包括:
将所述样本字内容特征输入所述内容特征感知层,得到内容感知值;
将所述关联字风格特征输入所述风格特征感知层,得到风格感知值;
将所述内容感知值和所述风格感知值输入所述激活层,得到目标域的特征权重;
将所述特征权重和所述关联字风格特征输入所述全连接层,得到目标域风格特征。
3.根据权利要求1所述的方法,其中,所述损失分析网络包括:组件分类器网络、字符判别器网络、风格判别器网络和字符分类器网络中的至少一个;所述模型损失包括:组件分类损失、字符分类损失、风格分类损失和错字损失中的至少一个。
4.根据权利要求3所述的方法,其中,所述将目标域样本字和所述目标域关联字中的至少一项,以及所述目标域生成字输入到所述字体生成模型的损失分析网络,得到模型损失,并根据所述模型损失调整所述字体生成模型的参数,包括:
将目标域样本字和所述目标域生成字输入到所述字符判别器网络,得到字符分类损失的第一字符损失值,并基于所述第一字符损失值,调整所述字符判别器网络的参数;
将所述目标域生成字输入到调整后的字符判别器网络,得到字符分类损失的第二字符损失值,并基于所述第二字符损失值,调整字体生成网络的参数;其中,所述字体生成网络包括编码器网络、注意力机制网络和解码器网络;
将目标域样本字和基于调整后的字体生成网络更新的目标域生成字输入到调整后的字符判别器网络,更新所述第一字符损失值,并基于更新后的第一字符损失值,再次调整字符判别器网络的参数。
5.根据权利要求4所述的方法,其中,所述将目标域样本字和所述目标域生成字输入到所述字符判别器网络,得到字符分类损失的第一字符损失值,包括:
将目标域样本字和所述目标域生成字输入到所述字符判别器网络,得到目标域生成字的字符分类头位置和目标域样本字的字符分类头位置;
根据目标域生成字的字符分类头位置和目标域样本字的字符分类头位置,确定字符分类损失的第一字符损失值。
6.根据权利要求4所述的方法,其中,所述将所述目标域生成字输入到调整后的字符判别器网络,得到字符分类损失的第二字符损失值,包括:
将所述目标域生成字输入到调整后的字符判别器网络,更新目标域生成字的字符分类头位置;
根据更新后的字符分类头位置,确定字符分类损失的第二字符损失值。
7.根据权利要求3所述的方法,其中,所述将目标域样本字和所述目标域关联字中的至少一项,以及所述目标域生成字输入到所述字体生成模型的损失分析网络,得到模型损失,并根据所述模型损失调整所述字体生成模型的参数,包括:
将目标域样本字和所述目标域生成字输入到所述风格判别器网络,得到风格分类损失的第一风格损失值,并基于所述第一风格损失值,调整所述风格判别器网络的参数;
将所述目标域生成字输入到调整后的风格判别器网络,得到风格分类损失的第二风格损失值,并基于所述第二风格损失值,调整所述字体生成网络的参数;其中,所述字体生成网络包括编码器网络、注意力机制网络和解码器网络;
将目标域样本字和基于调整后的字体生成网络更新的目标域生成字输入到调整后的风格判别器网络,更新所述第一风格损失值,并基于更新后的第一风格损失值,再次调整风格判别器网络的参数。
8.根据权利要求7所述的方法,其中,所述将目标域样本字和所述目标域生成字输入到所述风格判别器网络,得到风格分类损失的第一风格损失值,包括:
将目标域样本字和所述目标域生成字输入到所述风格判别器网络,得到目标域生成字的风格分类头位置和目标域样本字的风格分类头位置;
根据目标域生成字的风格分类头位置和目标域样本字的风格分类头位置,确定风格分类损失的第一风格损失值。
9.根据权利要求7所述的方法,其中,所述将所述目标域生成字输入到调整后的风格判别器网络,得到风格分类损失的第二风格损失值,包括:
将所述目标域生成字输入到调整后的风格判别器网络,更新目标域生成字的风格分类头位置;
根据更新后的风格分类头位置,确定风格分类损失的第二风格损失值。
10.根据权利要求3所述的方法,其中,所述将目标域样本字和所述目标域关联字中的至少一项,以及所述目标域生成字输入到所述字体生成模型的损失分析网络,得到模型损失,包括:
将所述目标域关联字和所述目标域生成字输入到所述组件分类器网络,得到所述目标域生成字的组件向量和所述目标域关联字的组件向量;
根据所述目标域生成字的组件向量和所述目标域关联字的组件向量之间的差异,确定组件分类损失。
11.根据权利要求3所述的方法,其中,所述将目标域样本字和所述目标域关联字中的至少一项,以及所述目标域生成字输入到所述字体生成模型的损失分析网络,得到模型损失,包括:
将目标域样本字和所述目标域生成字输入到所述字符分类器网络,得到目标域样本字的字符分类头向量和所述目标域生成字的字符分类头向量;
根据目标域样本字的字符分类头向量和所述目标域生成字的字符分类头向量之间的差异,确定错字损失。
12.一种字库建立方法,包括:
将源域输入字输入到字体生成模型,得到目标域新字;以及
基于所述目标域新字建立字库;
其中,所述字体生成模型是根据如权利要求1至11中任一项所述的方法来训练得到的。
13.一种字体生成模型的训练装置,包括:
第一特征确定模块,用于将源域样本字和所述源域样本字的目标域关联字输入到字体生成模型的编码器网络,得到样本字内容特征和关联字风格特征;
第二特征确定模块,用于将所述样本字内容特征和关联字风格特征输入所述字体生成模型的注意力机制网络,得到目标域风格特征;
生成字确定模块,用于将所述样本字内容特征和所述目标域风格特征输入所述字体生成模型的解码器网络,得到目标域生成字;
模型训练模块,用于将目标域样本字和所述目标域关联字中的至少一项,以及所述目标域生成字输入到所述字体生成模型的损失分析网络,得到模型损失,并根据所述模型损失调整所述字体生成模型的参数。
14.根据权利要求13所述的装置,其中,所述注意力机制网络包括:内容特征感知层、风格特征感知层、激活层和全连接层;
相应的,所述第二特征确定模块具体用于:
将所述样本字内容特征输入所述内容特征感知层,得到内容感知值;
将所述关联字风格特征输入所述风格特征感知层,得到风格感知值;
将所述内容感知值和所述风格感知值输入所述激活层,得到目标域的特征权重;
将所述特征权重和所述关联字风格特征输入所述全连接层,得到目标域风格特征。
15.根据权利要求13所述的装置,其中,所述损失分析网络包括:组件分类器网络、字符判别器网络、风格判别器网络和字符分类器网络中的至少一个;所述模型损失包括:组件分类损失、字符分类损失、风格分类损失和错字损失中的至少一个。
16.根据权利要求15所述的装置,其中,所述模型训练模块,包括:
第一字符损失计算单元,用于将目标域样本字和所述目标域生成字输入到所述字符判别器网络,得到字符分类损失的第一字符损失值;
字符判别器调整单元,用于基于所述第一字符损失值,调整所述字符判别器网络的参数;
第二字符损失计算单元,用于将所述目标域生成字输入到调整后的字符判别器网络,得到字符分类损失的第二字符损失值;
字体生成网络调整单元,用于基于所述第二字符损失值,调整字体生成网络的参数;其中,所述字体生成网络包括编码器网络、注意力机制网络和解码器网络;
所述第一字符损失计算单元,还用于将目标域样本字和基于调整后的字体生成网络更新的目标域生成字输入到调整后的字符判别器网络,更新所述第一字符损失值;
所述字符判别器调整单元,还用于基于更新后的第一字符损失值,再次调整字符判别器网络的参数。
17.根据权利要求16所述的装置,其中,所述第一字符损失计算单元具体用于:
将目标域样本字和所述目标域生成字输入到所述字符判别器网络,得到目标域生成字的字符分类头位置和目标域样本字的字符分类头位置;
根据目标域生成字的字符分类头位置和目标域样本字的字符分类头位置,确定字符分类损失的第一字符损失值。
18.根据权利要求16所述的装置,其中,所述第二字符损失计算单元具体用于:
将所述目标域生成字输入到调整后的字符判别器网络,更新目标域生成字的字符分类头位置;
根据更新后的字符分类头位置,确定字符分类损失的第二字符损失值。
19.根据权利要求15所述的装置,其中,所述模型训练模块,还包括:
第一风格损失计算单元,用于将目标域样本字和所述目标域生成字输入到所述风格判别器网络,得到风格分类损失的第一风格损失值;
风格判别器调整单元,用于基于所述第一风格损失值,调整所述风格判别器网络的参数;
第二风格损失计算单元,用于将所述目标域生成字输入到调整后的风格判别器网络,得到风格分类损失的第二风格损失值;
字体生成网络调整单元,用于基于所述第二风格损失值,调整所述字体生成网络的参数;其中,所述字体生成网络包括编码器网络、注意力机制网络和解码器网络;
所述第一风格损失计算单元,还用于将目标域样本字和基于调整后的字体生成网络更新的目标域生成字输入到调整后的风格判别器网络,更新所述第一风格损失值;
所述风格判别器调整单元,还用于基于更新后的第一风格损失值,再次调整风格判别器网络的参数。
20.根据权利要求19所述的装置,其中,所述第一风格损失计算单元具体用于:
将目标域样本字和所述目标域生成字输入到所述风格判别器网络,得到目标域生成字的风格分类头位置和目标域样本字的风格分类头位置;
根据目标域生成字的风格分类头位置和目标域样本字的风格分类头位置,确定风格分类损失的第一风格损失值。
21.根据权利要求19所述的装置,其中,所述第二风格损失计算单元具体用于:
将所述目标域生成字输入到调整后的风格判别器网络,更新目标域生成字的风格分类头位置;
根据更新后的风格分类头位置,确定风格分类损失的第二风格损失值。
22.根据权利要求15所述的装置,其中,所述模型训练模块,还包括:
组件分类损失计算单元,用于将所述目标域关联字和所述目标域生成字输入到所述组件分类器网络,得到所述目标域生成字的组件向量和所述目标域关联字的组件向量;根据所述目标域生成字的组件向量和所述目标域关联字的组件向量之间的差异,确定组件分类损失。
23.根据权利要求15所述的装置,其中,所述模型训练模块,还包括:
错字损失计算单元,用于将目标域样本字和所述目标域生成字输入到所述字符分类器网络,得到目标域样本字的字符分类头向量和所述目标域生成字的字符分类头向量;根据目标域样本字的字符分类头向量和所述目标域生成字的字符分类头向量之间的差异,确定错字损失。
24.一种字库建立装置,包括:
新字生成模块,用于将源域输入字输入到字体生成模型,得到目标域新字;以及
字库建立模块,用于基于所述目标域新字建立字库;
其中,所述字体生成模型是根据如权利要求1至11中任一项所述的方法来训练得到的。
25.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的字体生成模型的训练方法,和/或执行根据权利要求12所述的字库建立方法。
26.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-11中任一项所述的字体生成模型的训练方法,和/或执行根据权利要求12所述的字库建立方法。
27.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-11中任一项所述的字体生成模型的训练方法,和/或执行根据权利要求12所述的字库建立方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111057836.1A CN113792854B (zh) | 2021-09-09 | 2021-09-09 | 一种模型训练及字库建立方法、装置、设备及存储介质 |
JP2022007187A JP2023039889A (ja) | 2021-09-09 | 2022-01-20 | モデルトレーニング方法および字庫作成方法、デバイス、設備ならびに記憶媒体 |
US17/583,263 US20220147695A1 (en) | 2021-09-09 | 2022-01-25 | Model training method and apparatus, font library establishment method and apparatus, and storage medium |
EP22159078.9A EP4050569A1 (en) | 2021-09-09 | 2022-02-28 | Model training method and apparatus, font library establishment method and apparatus, device and storage medium |
KR1020220025906A KR20220034069A (ko) | 2021-09-09 | 2022-02-28 | 모델 훈련 및 폰트 라이브러리 구축 방법, 장치, 설비 및 저장 매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111057836.1A CN113792854B (zh) | 2021-09-09 | 2021-09-09 | 一种模型训练及字库建立方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113792854A true CN113792854A (zh) | 2021-12-14 |
CN113792854B CN113792854B (zh) | 2024-02-13 |
Family
ID=78879801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111057836.1A Active CN113792854B (zh) | 2021-09-09 | 2021-09-09 | 一种模型训练及字库建立方法、装置、设备及存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220147695A1 (zh) |
EP (1) | EP4050569A1 (zh) |
JP (1) | JP2023039889A (zh) |
KR (1) | KR20220034069A (zh) |
CN (1) | CN113792854B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114399772A (zh) * | 2021-12-20 | 2022-04-26 | 北京百度网讯科技有限公司 | 样本生成、模型训练和轨迹识别方法、装置、设备和介质 |
CN114781556A (zh) * | 2022-06-22 | 2022-07-22 | 北京汉仪创新科技股份有限公司 | 基于字符部件信息的字体生成方法、系统、设备和介质 |
CN114820871A (zh) * | 2022-06-29 | 2022-07-29 | 北京百度网讯科技有限公司 | 字体生成方法、模型的训练方法、装置、设备和介质 |
CN114973279A (zh) * | 2022-06-17 | 2022-08-30 | 北京百度网讯科技有限公司 | 手写文本图像生成模型的训练方法、装置和存储介质 |
CN115147850A (zh) * | 2022-06-30 | 2022-10-04 | 北京百度网讯科技有限公司 | 文字生成模型的训练方法、文字生成方法及其装置 |
CN115146587A (zh) * | 2022-06-28 | 2022-10-04 | 北京汉仪创新科技股份有限公司 | 一种手写中文字库生成方法、系统、电子设备和存储介质 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114821602B (zh) * | 2022-06-28 | 2022-09-09 | 北京汉仪创新科技股份有限公司 | 训练对抗神经网络生成字库的方法、系统、设备和介质 |
KR102516560B1 (ko) * | 2022-07-12 | 2023-03-31 | 망고클라우드 주식회사 | 수기로 작성된 문서의 관리 시스템 |
CN117236284A (zh) * | 2023-11-13 | 2023-12-15 | 江西师范大学 | 基于风格信息与内容信息适配的字体生成方法及装置 |
CN117555489B (zh) * | 2024-01-11 | 2024-06-07 | 烟台大学 | 物联网数据存储交易异常检测方法、系统、设备和介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533737A (zh) * | 2019-08-19 | 2019-12-03 | 大连民族大学 | 基于结构引导汉字字体生成的方法 |
US20200285916A1 (en) * | 2019-03-06 | 2020-09-10 | Adobe Inc. | Tag-based font recognition by utilizing an implicit font classification attention neural network |
US20200311538A1 (en) * | 2019-03-26 | 2020-10-01 | Alibaba Group Holding Limited | Methods and systems for text sequence style transfer by two encoder decoders |
CN112364860A (zh) * | 2020-11-05 | 2021-02-12 | 北京字跳网络技术有限公司 | 字符识别模型的训练方法、装置和电子设备 |
US20210118035A1 (en) * | 2019-10-18 | 2021-04-22 | Fuji Xerox Co., Ltd. | Generation device and non-transitory computer readable medium |
WO2021098689A1 (zh) * | 2019-11-20 | 2021-05-27 | 中国科学院深圳先进技术研究院 | 自然场景的文本识别方法、存储装置和计算机设备 |
CN113269189A (zh) * | 2021-07-20 | 2021-08-17 | 北京世纪好未来教育科技有限公司 | 文本识别模型的构建方法、文本识别方法、装置及设备 |
CN113313022A (zh) * | 2021-05-27 | 2021-08-27 | 北京百度网讯科技有限公司 | 文字识别模型的训练方法和识别图像中文字的方法 |
-
2021
- 2021-09-09 CN CN202111057836.1A patent/CN113792854B/zh active Active
-
2022
- 2022-01-20 JP JP2022007187A patent/JP2023039889A/ja active Pending
- 2022-01-25 US US17/583,263 patent/US20220147695A1/en not_active Abandoned
- 2022-02-28 EP EP22159078.9A patent/EP4050569A1/en not_active Withdrawn
- 2022-02-28 KR KR1020220025906A patent/KR20220034069A/ko unknown
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200285916A1 (en) * | 2019-03-06 | 2020-09-10 | Adobe Inc. | Tag-based font recognition by utilizing an implicit font classification attention neural network |
US20200311538A1 (en) * | 2019-03-26 | 2020-10-01 | Alibaba Group Holding Limited | Methods and systems for text sequence style transfer by two encoder decoders |
CN110533737A (zh) * | 2019-08-19 | 2019-12-03 | 大连民族大学 | 基于结构引导汉字字体生成的方法 |
US20210118035A1 (en) * | 2019-10-18 | 2021-04-22 | Fuji Xerox Co., Ltd. | Generation device and non-transitory computer readable medium |
WO2021098689A1 (zh) * | 2019-11-20 | 2021-05-27 | 中国科学院深圳先进技术研究院 | 自然场景的文本识别方法、存储装置和计算机设备 |
CN112364860A (zh) * | 2020-11-05 | 2021-02-12 | 北京字跳网络技术有限公司 | 字符识别模型的训练方法、装置和电子设备 |
CN113313022A (zh) * | 2021-05-27 | 2021-08-27 | 北京百度网讯科技有限公司 | 文字识别模型的训练方法和识别图像中文字的方法 |
CN113269189A (zh) * | 2021-07-20 | 2021-08-17 | 北京世纪好未来教育科技有限公司 | 文本识别模型的构建方法、文本识别方法、装置及设备 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114399772A (zh) * | 2021-12-20 | 2022-04-26 | 北京百度网讯科技有限公司 | 样本生成、模型训练和轨迹识别方法、装置、设备和介质 |
CN114399772B (zh) * | 2021-12-20 | 2024-02-27 | 北京百度网讯科技有限公司 | 样本生成、模型训练和轨迹识别方法、装置、设备和介质 |
CN114973279A (zh) * | 2022-06-17 | 2022-08-30 | 北京百度网讯科技有限公司 | 手写文本图像生成模型的训练方法、装置和存储介质 |
CN114973279B (zh) * | 2022-06-17 | 2023-02-17 | 北京百度网讯科技有限公司 | 手写文本图像生成模型的训练方法、装置和存储介质 |
CN114781556A (zh) * | 2022-06-22 | 2022-07-22 | 北京汉仪创新科技股份有限公司 | 基于字符部件信息的字体生成方法、系统、设备和介质 |
CN114781556B (zh) * | 2022-06-22 | 2022-09-02 | 北京汉仪创新科技股份有限公司 | 基于字符部件信息的字体生成方法、系统、设备和介质 |
CN115146587A (zh) * | 2022-06-28 | 2022-10-04 | 北京汉仪创新科技股份有限公司 | 一种手写中文字库生成方法、系统、电子设备和存储介质 |
CN114820871A (zh) * | 2022-06-29 | 2022-07-29 | 北京百度网讯科技有限公司 | 字体生成方法、模型的训练方法、装置、设备和介质 |
CN114820871B (zh) * | 2022-06-29 | 2022-12-16 | 北京百度网讯科技有限公司 | 字体生成方法、模型的训练方法、装置、设备和介质 |
CN115147850A (zh) * | 2022-06-30 | 2022-10-04 | 北京百度网讯科技有限公司 | 文字生成模型的训练方法、文字生成方法及其装置 |
Also Published As
Publication number | Publication date |
---|---|
US20220147695A1 (en) | 2022-05-12 |
JP2023039889A (ja) | 2023-03-22 |
KR20220034069A (ko) | 2022-03-17 |
EP4050569A1 (en) | 2022-08-31 |
CN113792854B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113792854B (zh) | 一种模型训练及字库建立方法、装置、设备及存储介质 | |
CN113553864B (zh) | 翻译模型的训练方法、装置、电子设备及存储介质 | |
CN113792855B (zh) | 一种模型训练及字库建立方法、装置、设备和存储介质 | |
CN113313022A (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
US20220189189A1 (en) | Method of training cycle generative networks model, and method of building character library | |
CN114820871B (zh) | 字体生成方法、模型的训练方法、装置、设备和介质 | |
CN114494784A (zh) | 深度学习模型的训练方法、图像处理方法和对象识别方法 | |
CN116152833B (zh) | 基于图像的表格还原模型的训练方法及表格还原方法 | |
CN113177449A (zh) | 人脸识别的方法、装置、计算机设备及存储介质 | |
CN115063875A (zh) | 模型训练方法、图像处理方法、装置和电子设备 | |
CN115640520B (zh) | 跨语言跨模态模型的预训练方法、设备和存储介质 | |
US20230102804A1 (en) | Method of rectifying text image, training method, electronic device, and medium | |
CN113435208A (zh) | 学生模型的训练方法、装置及电子设备 | |
CN113792526A (zh) | 字符生成模型的训练方法、字符生成方法、装置和设备和介质 | |
CN114611532B (zh) | 语言模型训练方法及装置、目标翻译错误检测方法及装置 | |
CN113468857B (zh) | 风格转换模型的训练方法、装置、电子设备以及存储介质 | |
CN114022887A (zh) | 文本识别模型训练及文本识别方法、装置、电子设备 | |
CN113360683A (zh) | 训练跨模态检索模型的方法以及跨模态检索方法和装置 | |
CN112949818A (zh) | 模型蒸馏方法、装置、设备以及存储介质 | |
CN115631502A (zh) | 文字识别方法、装置、模型训练方法、电子设备及介质 | |
CN114973333A (zh) | 人物交互检测方法、装置、设备以及存储介质 | |
CN114419327A (zh) | 图像检测方法和图像检测模型的训练方法、装置 | |
CN114330576A (zh) | 模型处理方法、装置、图像识别方法及装置 | |
CN114067805A (zh) | 声纹识别模型的训练与声纹识别方法及装置 | |
CN113361621A (zh) | 用于训练模型的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |