CN116469111A - 一种文字生成模型训练方法及目标文字生成方法 - Google Patents
一种文字生成模型训练方法及目标文字生成方法 Download PDFInfo
- Publication number
- CN116469111A CN116469111A CN202310676846.6A CN202310676846A CN116469111A CN 116469111 A CN116469111 A CN 116469111A CN 202310676846 A CN202310676846 A CN 202310676846A CN 116469111 A CN116469111 A CN 116469111A
- Authority
- CN
- China
- Prior art keywords
- text
- sample
- image
- font
- loss value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000012549 training Methods 0.000 title claims abstract description 69
- 230000008569 process Effects 0.000 claims abstract description 33
- 230000009466 transformation Effects 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 241000251468 Actinopterygii Species 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007847 structural defect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Document Processing Apparatus (AREA)
Abstract
本公开涉及一种文字生成模型训练方法及目标文字生成方法,文字生成模型训练方法包括:将样本字体信息和样本文本信息输入预设文字生成模型,分别得到样本字体特征和样本文本特征;融合样本字体特征和样本文本特征,得到样本目标文字信息;对样本目标文字信息进行不同的结构变换处理,分别得到第一样本文字图像和第二样本文字图像;将第一样本文字图像和第二样本文字图像分别与第一比对图像进行对比分析,得到第二损失值;基于第一损失值和第二损失值,训练预设文字生成模型,得到训练好的文字生成模型。本申请通过将两个样本文字图像与第一比对图像的对比差异引入预设文字生成模型的训练过程,进而能够提升模型的性能。
Description
技术领域
本发明涉及文字生成技术领域,特别涉及一种文字生成模型训练方法及目标文字生成方法。
背景技术
近年来,文字的自动生成一直是一个被广泛讨论的话题。然而,设计一个特定字体下的文字需要大量的人力和资源。随着深度学习的发展,特别是在图像转换领域,特定字体下的文字生成可以通过图像转换来完成,从而提高文字生成的效率。然而,相关技术中生成的文字通常存在结构上的缺陷,如笔画的缺失、增多,或文字偏旁部首的位置出现错误,甚至生成的文字在字体风格上与实际需求差异较大。
发明内容
为了解决上述提出的至少一个技术问题,本公开提出了一种文字生成模型训练方法及目标文字生成方法。
一方面,本公开提供了一种文字生成模型训练方法,包括:
获取样本字体信息和样本文本信息,样本字体信息和样本文本信息分别携带有字体标签和文本标签;
将样本字体信息和样本文本信息输入预设文字生成模型,分别得到样本字体特征和样本文本特征;
根据样本字体特征、样本文本特征、字体标签和文本标签确定第一损失值;
融合样本字体特征和样本文本特征,得到样本目标文字信息;
对样本目标文字信息进行不同的结构变换处理,分别得到第一样本文字图像和第二样本文字图像;
获取第一比对图像,第一比对图像为与第一参考文字图像字体或文本内容不同的文字图像,第一参考文字图像为第一样本文字图像和第二样本文字图像;
将第一样本文字图像和第二样本文字图像分别与第一比对图像进行对比分析,得到第二损失值;
基于第一损失值和第二损失值,训练预设文字生成模型,得到训练好的文字生成模型。
在一个可选的实施例中,将第一样本文字图像和第二样本文字图像分别与第一比对图像进行对比分析,得到第二损失值,包括:
将第一样本文字图像输入预设对比模型,得到第一样本图像字体特征和第一样本图像文本特征;以及,将第二样本文字图像输入预设对比模型,得到第二样本图像字体特征和第二样本图像文本特征;
确定第一比对图像对应的第一比对图像字体特征和第一比对图像对应的第一比对图像文本特征;
根据第一样本图像字体特征、第二样本图像字体特征分别相对于第一比对图像字体特征的差异,确定第一字体对比损失值;
根据第一样本图像文本特征、第二样本图像文本特征分别相对于第一比对图像文本特征的差异,确定第一文本对比损失值;
根据第一字体对比损失值和第一文本对比损失值,确定第二损失值。
在一个可选的实施例中,方法还包括得到预设对比模型的训练过程,训练过程包括:
构建初始模型;
获取第二参考文字图像和第二比对图像,第二参考文字图像包括字体及文本内容相同,但文字图像结构不同的第三样本文字图像和第四样本文字图像,第二比对图像为与第二参考文字图像字体或文本内容不同的文字图像;
将第三样本文字图像输入初始模型,得到第三样本图像字体特征和第三样本图像文本特征;以及,将第四样本文字图像输入初始模型,得到第四样本图像字体特征和第四样本图像文本特征;
确定第二比对图像对应的第二比对图像字体特征和第二比对图像对应的第二比对图像文本特征;
根据第三样本图像字体特征、第四样本图像字体特征分别相对于第二比对图像字体特征的差异,确定第二字体对比损失值;
根据第三样本图像文本特征、第四样本图像文本特征分别相对于第二比对图像文本特征的差异,确定第二文本对比损失值;
根据第二字体对比损失值和第二文本对比损失值,确定第三损失值;
基于第三损失值,训练初始模型,得到预设对比模型。
在一个可选的实施例中,根据样本字体特征、样本文本特征、字体标签和文本标签确定第一损失值,包括:
对样本字体特征和样本文本特征分别进行分类处理,分别得到预测字体类型和预测文本类型;
根据预测字体类型和字体标签之间的差异,得到字体损失值;
根据预测文本类型和文本标签的差异,确定文本损失值;
根据字体损失值和文本损失值,确定第一损失值。
第二方面,本发明还提供了一种目标文字生成方法,包括:
获取目标字体信息和目标文本信息;
通过将目标字体信息和目标文本信息输入文字生成模型,得到目标文字信息,文字生成模型上述文字生成模型训练方法训练得到。
在一个可选的实施例中,通过将目标字体信息和目标文本信息输入文字生成模型,得到目标文字信息,包括:
将目标字体信息和目标文本信息输入文字生成模型,得到目标字体特征和目标文本特征;
融合目标字体特征和目标文本特征,得到目标文字信息。
第三方面,本发明还提供了一种文字生成模型训练装置,包括:
第一获取模块,用于获取样本字体信息和样本文本信息,样本字体信息和样本文本信息分别携带有字体标签和文本标签;
样本特征模块,用于将样本字体信息和样本文本信息输入预设文字生成模型,分别得到样本字体特征和样本文本特征;
第一计算模块,用于根据样本字体特征、样本文本特征、字体标签和文本标签确定第一损失值;
融合模块,用于融合样本字体特征和样本文本特征,得到样本目标文字信息;
结构变换模块,用于对样本目标文字信息进行不同的结构变换处理,分别得到第一样本文字图像和第二样本文字图像;
第二获取模块,用于获取第一比对图像,第一比对图像为与第一参考文字图像字体或文本内容不同的文字图像,第一参考文字图像为第一样本文字图像和第二样本文字图像;
第二计算模块,用于将第一样本文字图像和第二样本文字图像分别与第一比对图像进行对比分析,得到第二损失值;
训练模块,用于基于第一损失值和第二损失值,训练预设文字生成模型。
第四方面,本发明还提供了一种目标文字生成装置,包括:
第三获取模块,用于获取目标字体信息和目标文本信息;
目标文字生成模块,用于通过将目标字体信息和目标文本信息输入文字生成模型,得到目标文字信息,文字生成模型根据上述文字生成模型训练方法训练得到。
第五方面,本发明还提供了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器用于执行指令,以实现上述文字生成模型训练方法或上述目标文字生成方法。
第六方面,本发明还提供了一种存储介质,当存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述文字生成模型训练方法或上述目标文字生成方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。
实施本公开,具有以下有益效果:
获取样本字体信息和样本文本信息,样本字体信息和样本文本信息分别携带有字体标签和文本标签;将样本字体信息和样本文本信息输入预设文字生成模型,分别得到样本字体特征和样本文本特征;根据样本字体特征、样本文本特征、字体标签和文本标签确定第一损失值;融合样本字体特征和样本文本特征,得到样本目标文字信息;对样本目标文字信息进行不同的结构变换处理,分别得到第一样本文字图像和第二样本文字图像;获取第一比对图像,第一比对图像为与第一参考文字图像字体或文本内容不同的文字图像,第一参考文字图像为第一样本文字图像和第二样本文字图像;将第一样本文字图像和第二样本文字图像分别与第一比对图像进行对比分析,得到第二损失值;基于第一损失值和第二损失值,训练预设文字生成模型。
本申请通过对样本目标文字信息进行不同的结构变换处理,分别得到的第一样本文字图像和第二样本文字图像,能够将样本目标文字信息的结构信息引入预设文字生成模型的训练过程,使生成的文字结构更加完整;通过将第一样本文字图像和第二样本文字图像分别与第一比对图像进行对比分析,能够将样本图像与第一比对图像的对比差异引入预设文字生成模型的训练过程,以提升模型的性能。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的实施环境示意图;
图2是根据一示例性实施例示出的一种文字生成模型训练方法的流程图;
图3是根据一示例性实施例示出的一种结构变换的示意图;
图4是根据一示例性实施例示出的一种目标文字生成方法的流程图;
图5是根据一示例性实施例示出的一种文字生成模型训练方法框图;
图6是根据一示例性实施例示出的一种生成结果对比图;
图7是根据一示例性实施例示出的另一种生成结果对比图;
图8是根据一示例性实施例示出的一种文字生成模型训练装置框图;
图9是根据一示例性实施例示出的一种目标文字生成装置框图;
图10是根据一示例性实施例示出的一种用于文字生成模型训练的电子设备的框图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
另外,为了更好地说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
相关技术中,文字生成通通过图像转换模型来完成,然而,相关技术中生成的文字通常存在结构上的缺陷,如笔画的缺失、增多,或文字偏旁部首的位置出现错误,甚至生成的文字在字体风格上与实际需求差异较大。
为了使模型的输出结果更加接近标准汉字,本公开实施例提供一种文字生成模型训练方法。
请参阅图1,图1是根据一示例性实施例示出的一种应用环境的示意图,如图1所示,该应用环境可以包括服务器01和终端02。
在一个可选的实施例中,服务器01可以用于文字生成模型训练方法进行计算处理。具体的,服务器01可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一个可选的实施例中,终端02可以结合服务器01的文字生成模型训练方法进行计算处理。具体的,终端02可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能可穿戴设备等类型的电子设备。可选的,电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、Linux系统、Windows系统、Unix系统等。
例如,在终端02上输入样本字体信息、样本文本信息和第一比对图像,样本字体信息和样本文本信息分别携带有字体标签和文本标签,第一比对图像为与第一参考文字图像字体或文本内容不同的文字图像,第一参考文字图像为第一样本文字图像和第二样本文字图像;服务器01获取终端02上的样本字体信息、样本文本信息和第一比对图像;将样本字体信息和样本文本信息输入预设文字生成模型,分别得到样本字体特征和样本文本特征;根据样本字体特征、样本文本特征、字体标签和文本标签确定第一损失值;融合样本字体特征和样本文本特征,得到样本目标文字信息;对样本目标文字信息进行不同的结构变换处理,分别得到第一样本文字图像和第二样本文字图像;将第一样本文字图像和第二样本文字图像分别与第一比对图像进行对比分析,得到第二损失值;基于第一损失值和第二损失值,训练预设文字生成模型,得到训练好的文字生成模型;最后将训练结果传输到终端02上。
此外,需要说明的是,图1所示的仅仅是本公开提供的一种应用环境,在实际应用中,还可以包括其他应用环境。
本说明书实施例中,上述服务器01以及终端02可以通过有线或无线通信方式进行直接或间接地连接,本公开在此不做限制。
图2是根据一示例性实施例示出的一种文字生成模型训练方法的流程图,如图2所示,文字生成模型训练方法,包括以下:
步骤S201:获取样本字体信息和样本文本信息,样本字体信息和样本文本信息分别携带有字体标签和文本标签。
本公开实施例中,样本字体信息和样本文本信息均包括至少一张样本文字图像,样本字体信息的至少一张样本文字图像可以是同一字体下的各样本文字图像,如楷体字体下的“淡”、“伯”、“拔”、“守”等文字的图像,或隶书字体下的“淡”、“伯”、“拔”、“守”等文字的图像,或黑体字体下的“淡”、“伯”、“拔”、“守”等文字的图像;样本文本信息的至少一张样本文字图像可以是各个文字的图像,如包含“晓”、“真”、“亚”等文本的文字图像;样本字体信息携带的字体标签能够指示各样本文字图像中的文字所对应的字体,或指示各样本文字图像中组成文字的偏旁部首所对应的字体;样本文本信息携带的文本标签能够指示各样本文字图像中的文字所对应的文本内容,如文字图像对应的文字含义,或组成文字的偏旁部首。
步骤S202:将样本字体信息和样本文本信息输入预设文字生成模型,分别得到样本字体特征和样本文本特征。
本公开实施例中,预设文字生成模型包括多个局部专家,分别提取样本字体信息和样本文本信息中各文字不同部分的特征,再结合不同部分的特征分别对应的字体权重和文本权重分别计算样本字体特征和样本文本特征。可选的,若预设文字生成模型包括6个局部专家~/>,各局部专家提取到的各文字局部特征分别表示为/>~/>,第i个局部专家/>提取到的文字的局部特征表示为/>,再以两个线性权重/>和/>分别与/>相乘,分别得到局部字体特征和局部文本特征,由此,可将各文字图像中文字所对应的字体特征和文本特征解耦。将样本字体信息对应的各局部字体特征确定为样本字体特征,将样本文本信息对应的局部文本特征确定为样本文本特征。
计算局部字体特征和局部文本特征的具体过程如下式(1):
(1)
上式(1)中,为第i个局部专家提取到的文字局部特征,/>为/>所对应的字体权重,/>为经第i个局部专家提取到的局部字体特征,/>为/>所对应的文本权重,/>为经第i个局部专家提取到的局部文本特征。
步骤S203:根据样本字体特征、样本文本特征、字体标签和文本标签确定第一损失值。
本公开实施例中,根据样本字体特征、样本文本特征、字体标签和文本标签确定第一损失值,包括:
步骤S2031:对样本字体特征和样本文本特征分别进行分类处理,分别得到预测字体类型和预测文本类型。
本公开实施例中,预设文字生成模型还包括两个特征分类器,其中一个特征分类器为字体特征分类器,用于对样本字体特征进行分类,另一个特征分类器为文本特征分类器,用于对样本文本特征进行分类。对样本字体特征和样本文本特征分别进行分类处理可以是将样本字体特征和样本文本特征输入两个特征分类器,对于字体特征分类器,若输入为样本文本特征则无输出,对于文本特征分类器,若输入为样本字体特征则无输出。因此,可将样本字体特征和样本文本特征输入两个特征分类器,字体特征分类器根据输入的样本字体特征计算样本字体特征对应的字体概率,根据得到的字体概率确定预测字体类型;文本特征分类器根据输入的样本文本特征计算样本文本特征对应的文本概率,根据得到的文本概率确定预测文本类型。以预测文本类型为例,若样本文本信息中的一张样本文本图像为“拾”字的文本图像,则样本文本信息输入预设文字生成模型后,得到的样本文本特征包括“扌”“人”“一”“口”等偏旁部首各自对应的局部文本特征,将各局部文本特征输入文本特征分类器,得到各局部文本特征分别对应的概率值,将概率值与对应的预设概率阈值进行比较,若概率值大于预设概率阈值,则确定该局部文本特征对应的预测文本类型为“扌”“人”“一”“口”等偏旁部首。
步骤S2032:根据预测字体类型和字体标签之间的差异,得到字体损失值。
本公开实施例中,由于特征提取和分类的过程中会产生误差,造成预测字体类型和字体标签之间可能存在差异,一些相近字体,如宋体和仿宋,可能会因误差导致宋体字的预测字体类型被判定为仿宋,因此,可根据预测字体类型和字体标签之间的差异,确定字体损失值。
步骤S2033:根据预测文本类型和文本标签的差异,确定文本损失值。
本公开实施例中,由于特征提取和分类的过程中会产生误差,造成预测文本类型和文本标签之间可能存在差异,如“行”的偏旁“彳”与偏旁“亻”相近,“彳”的预测文本类型被判定为“亻”,因此,可根据预测文本类型和文本标签之间的差异,确定文本损失值。
步骤S2034:根据字体损失值和文本损失值,确定第一损失值。
本公开实施例中,根据字体损失值和文本损失值,确定第一损失值可以是将字体损失值和文本损失值组合为损失数组,得到第一损失值;或对字体损失值和文本损失值分别赋予对应的权值,根据字体损失值、文本损失值和各自对应的权值计算第一损失值。
基于上述可知,本公开实施例通过根据样本字体特征对应的预测字体类型和字体标签的差异,得到的字体损失值,能够反映字体特征提取和分类的过程中产生的误差;通过根据样本文本特征对应的预测文本类型和文本标签的差异,得到的文本损失值,能够反映文本特征提取和分类的过程中产生的误差;根据字体损失值和文本损失值确定的第一损失值能够综合反映字体和文本特征提取过程中的误差。
步骤S204:融合样本字体特征和样本文本特征,得到样本目标文字信息。
本公开实施例中,融合样本字体特征和样本文本特征可通过文字生成器实现,将样本字体特征和样本文本特征输入生成器G,通过生成器G的计算处理,得到样本目标文字信息,样本目标文字信息为融合样本字体信息的字体风格和样本文本信息的文本内容的文字图像。得到样本目标文字信息的过程如下式(2):
(2)
上式(2)中,为经第1个局部专家提取到的局部字体特征,/>为经第1个局部专家提取到的局部文本特征,/>为经第k个局部专家提取到的局部字体特征,/>为经第k个局部专家提取到的局部文本特征,/>表示concatenate(拼接)运算,G表示文字生成器,/>为样本目标文字信息。
步骤S205:对样本目标文字信息进行不同的结构变换处理,分别得到第一样本文字图像和第二样本文字图像。
本公开实施例中,样本目标文字信息进行不同的结构变换处理,可以是对样本目标文字信息进行田字格变换。具体地,在样本目标文字信息为样本目标文字图像时,以穿过样本目标文字图像左右两侧边的中轴线为第一轴线,以穿过样本目标文字图像上下两侧边的中轴线为第二轴线,沿第一轴线和第二轴线将样本目标文字图像分为四块区域,以上侧边、左侧边、第一轴线和第二轴线合围形成的区域为第一区域图像,以上侧边、第二轴线、第一轴线和右侧边合围形成的区域为第二区域图像,以第一轴线、左侧边、下侧边和第二轴线合围形成的区域为第三区域图像,以第一轴线、第二轴线、下侧边和右侧边合围形成的区域为第四区域图像。将各区域图像的位置进行不同的调换处理,如图3所示,如将第一区域图像和第二区域图像的位置调换、第三区域图像和第四区域图像的位置调换,得到一张调换位置后的图像;将第一区域图像和第三区域图像的位置调换、第二区域图像和第四区域图像的位置调换,再次得到一张调换位置后的图像;将第二区域图像和第三区域图像的位置调换,第一区域图像和第四区域图像的位置不变,再次得到一张调换位置后的图像等,其他位置调换方式在此不做赘述。由此,得到多张调换位置后的图像,第一样本文字图像和第二样本文字图像为上述多张调换位置后的图像中的任意两张图像。
步骤S206:获取第一比对图像,第一比对图像为与第一参考文字图像字体或文本内容不同的文字图像,第一参考文字图像为第一样本文字图像和第二样本文字图像。
本公开实施例中,第一比对图像包括至少一张与第一参考文字图像的字体或文本内容不同的文字图像。例如,在第一样本文字图像和第二样本文字图像为楷体的“字”的文字图像时,第一比对图像可以是黑体的“串”、“京”、“们”,宋体的“重”、“至”等文字的文字图像。
步骤S207:将第一样本文字图像和第二样本文字图像分别与第一比对图像进行对比分析,得到第二损失值。
本公开实施例中,将第一样本文字图像和第二样本文字图像分别与第一比对图像进行对比分析,得到第二损失值,包括:
步骤S2071:将第一样本文字图像输入预设对比模型,得到第一样本图像字体特征和第一样本图像文本特征;以及,将第二样本文字图像输入预设对比模型,得到第二样本图像字体特征和第二样本图像文本特征。
本公开实施例中,预设对比模型包括两个子对比模型,其中一个子对比模型用于提取第一样本文字图像对应的字体特征和第二样本文字图像对应的字体特征,另一子对比模型用于提取第一样本文字图像对应的文本特征/>和第二样本文字图像对应的文本特征/>。可选的,两个子对比模型可以是编码器。
步骤S2072:确定第一比对图像对应的第一比对图像字体特征和第一比对图像对应的第一比对图像文本特征。
本公开实施例中,第一比对图像对应的第一比对图像字体特征,0≤i<k能够反映第一比对图像中各文字的字体风格,第一比对图像对应的第一比对图像文本特征,0≤i<k能够反映第一比对图像中各文字的文本内容。
步骤S2073:根据第一样本图像字体特征、第二样本图像字体特征分别相对于第一比对图像字体特征的差异,确定第一字体对比损失值。
本公开实施例中,将第一样本图像字体特征和第二样本图像字体特征作为正性样本,大小为N,将第一样本图像字体特征/>和第一比对图像字体特征/>,0≤i<k作为负性样本,大小为/>,将正负样本拼接在一起形成大小为的整个样本,使用softmax(exp)和交叉熵计算损失第一字体对比损失值。具体计算过程如下式(3):
(3)
上式(3)中,为第一样本图像字体特征,/>为第二样本图像字体特征,为第i个第一比对图像字体特征(0≤i<k),t为参数,/>为第一字体对比损失值。
步骤S2074:根据第一样本图像文本特征、第二样本图像文本特征分别相对于第一比对图像文本特征的差异,确定第一文本对比损失值。
本公开实施例中,将第一样本图像文本特征和第二样本图像文本特征作为正性样本,大小为N,将第一样本图像文本特征/>和第一比对图像文本特征/>,0≤i<k作为负性样本,大小为/>,将正负样本拼接在一起形成大小为的整个样本,使用softmax(exp)和交叉熵计算损失第一文本对比损失值。具体计算过程如下式(4):
(4)
上式(4)中,为第一样本图像文本特征,/>为第二样本图像文本特征,为第i个第一比对图像文本特征(0≤i<k),t为参数,/>为第一文本对比损失值。
步骤S2075:根据第一字体对比损失值和第一文本对比损失值,确定第二损失值。
本公开实施例中,根据第一字体对比损失值和第一文本对比损失值,确定第二损失值可以是将第一字体对比损失值和第一文本对比损失值组合为损失数组,得到第二损失值;或对第一字体对比损失值和第一文本对比损失值分别赋予对应的权值,根据第一字体对比损失值、第一文本对比损失值和各自对应的权值计算第二损失值。
基于上述可知,本公开实施例通过根据第一样本文字图像和第二样本文字图像的字体特征分别与第一比对图像字体特征的差异,得到的第一文本对比损失值,能够反映第一样本文字图像和第二样本文字图像与第一比对图像在字体风格上的相似度;通过根据第一样本文字图像和第二样本文字图像的文本特征分别与第一比对图像文本特征的差异,得到的第一文本对比损失值,能够反映第一样本文字图像和第二样本文字图像与第一比对图像在文本内容上的相似度。
步骤S208:基于第一损失值和第二损失值,训练预设文字生成模型,得到训练好的文字生成模型。
本公开实施例中,基于第一损失值和第二损失值,训练预设文字生成模型可以是根据第一损失值和第二损失值调整预设文字生成模型中的参数,直至预设文字生成模型的输出满足预设条件,得到训练好的文字生成模型。可选的,预设文字生成模型中的参数包括各局部专家的参数和各特征分类器的参数。
在一个可选的实施例中,上述方法还包括得到预设对比模型的训练过程,训练过程包括:
步骤S301:构建初始模型。
本公开实施例中,构建初始模型包括设置该模型的初始参数及损失函数,该模型的初始参数可以包括输出的向量维度、网络层数等。
步骤S302:获取第二参考文字图像和第二比对图像,第二参考文字图像包括字体及文本内容相同,但文字图像结构不同的第三样本文字图像和第四样本文字图像,第二比对图像为与第二参考文字图像字体或文本内容不同的文字图像。
本公开实施例中,第三样本文字图像和第四样本文字图像可以是对同一图像进行不同的田字格变换所得到的两张图像。具体变换方式如上述田字格变换方式,在此不做赘述。第二比对图像为与第二参考文字图像字体或文本内容不同的文字图像。第二比对图像包括至少一张与第二参考文字图像的字体或文本内容不同的文字图像。例如,在第三样本文字图像和第四样本文字图像为楷体的“字”的文字图像时,第二比对图像可以是黑体的“串”、“京”、“们”,宋体的“重”、“至”等文字的文字图像。
步骤S303:将第三样本文字图像输入初始模型,得到第三样本图像字体特征和第三样本图像文本特征;以及,将第四样本文字图像输入初始模型,得到第四样本图像字体特征和第四样本图像文本特征。
本公开实施例中,初始模型包括两个初始子对比模型,其中一个初始子对比模型用于提取第三样本文字图像对应的字体特征和第四样本文字图像对应的字体特征,另一初始子对比模型用于提取第三样本图像对应的文本特征/>和第四样本文字图像对应的文本特征/>。可选的,两个初始子对比模型可以是编码器。
步骤S304:确定第二比对图像对应的第二比对图像字体特征和第二比对图像对应的第二比对图像文本特征。
本公开实施例中,第二比对图像对应的第二比对图像字体特征,0≤i<k能够反映第二比对图像中各文字的字体风格,第二比对图像对应的第二比对图像文本特征,0≤i<k能够反映第二比对图像中各文字的文本内容。
步骤S305:根据第三样本图像字体特征、第四样本图像字体特征分别相对于第二比对图像字体特征的差异,确定第二字体对比损失值。
本公开实施例中,将第三样本图像字体特征和第四样本图像字体特征作为正性样本,大小为N,将第三样本图像字体特征/>和第二比对图像字体特征/>,0≤i<k作为负性样本,大小为/>,将正负样本拼接在一起形成大小为的整个样本,使用softmax(exp)和交叉熵计算损失第二字体对比损失值。具体计算过程如下式(5):
(5)
上式(5)中,为第三样本图像字体特征,/>为第四样本图像字体特征,/>为第i个第二比对图像字体特征(0≤i<k),t为参数,/>为第二字体对比损失值。
步骤S306:根据第三样本图像文本特征、第四样本图像文本特征分别相对于第二比对图像文本特征的差异,确定第二文本对比损失值。
本公开实施例中,将第三样本图像文本特征和第四样本图像文本特征作为正性样本,大小为N,将第三样本图像文本特征/>和第二比对图像文本特征/>,0≤i<k作为负性样本,大小为/>,将正负样本拼接在一起形成大小为的整个样本,使用softmax(exp)和交叉熵计算损失第二文本对比损失值。具体计算过程如下式(6):
(6)
上式(6)中,为第三样本图像文本特征,/>为第四样本图像文本特征,/>为第i个第二比对图像文本特征(0≤i<k),t为参数,/> 第二文本对比损失值。
步骤S307:根据第二字体对比损失值和第二文本对比损失值,确定第三损失值。
本公开实施例中,根据第二字体对比损失值和第二文本对比损失值,确定第三损失值可以是将第二字体对比损失值和第二文本对比损失值组合为损失数组,得到第三损失值;或对第二字体对比损失值和第二文本对比损失值分别赋予对应的权值,根据第二字体对比损失值、第二文本对比损失值和各自对应的权值计算第三损失值。
步骤S308:基于第三损失值,训练初始模型,得到预设对比模型。
本公开实施例中,基于第三损失值,训练初始模型可以是首先根据第三损失值调整初始模型中提取第三样本文字图像对应的字体特征和第四样本文字图像对应的字体特征/>的初始子对比模型的参数/>,以动量更新的方式调整初始模型中用于提取第三样本图像对应的文本特征/>和第四样本文字图像对应的文本特征/>的初始子对比模型的参数/>,直至第三损失值满足预设阈值。可选的,动量更新方式如式:/>,其中,m为动态参量,取(0.9-1)内的任意值,如0.999。可选的,初始模型中的参数包括各初始子对比模型的参数。
基于上述可知,本公开实施例通过根据第三样本文字图像和第四样本文字图像的字体特征分别与第二比对图像字体特征的差异,得到的第二文本对比损失值,能够反映第三样本文字图像和第四样本文字图像与第二比对图像在字体风格上的相似度;通过根据第三样本文字图像和第四样本文字图像的文本特征分别与第二比对图像文本特征的差异,得到的第二文本对比损失值,能够反映第三样本文字图像和第四样本文字图像与第二比对图像在文本内容上的相似度。
图4是根据一示例性实施例示出的一种目标文字生成方法的流程图,如图4所示,目标文字生成方法,包括以下:
步骤S401:获取目标字体信息和目标文本信息。
本公开实施例中,目标字体信息和目标文本信息均包括至少一张目标文字图像,目标字体信息的至少一张目标文字图像可以是同一字体下的各文字图像,如楷体字体下的“镇”、“面”、“鱼”等文字的图像,或隶书字体下的“镇”、“面”、“鱼”等文字的图像,或黑体字体下的“镇”、“面”、“鱼”等文字的图像;目标文本信息的至少一张目标文字图像可以是各个文字的图像,如包含“负”、“醉”、“关”等文本的文字图像。
步骤S402:通过将目标字体信息和目标文本信息输入文字生成模型,得到目标文字信息,文字生成模型根据上述文字生成模型训练方法训练得到。
本公开实施例中,通过将目标字体信息和目标文本信息输入文字生成模型,得到目标文字信息,包括:
步骤S4021:将目标字体信息和目标文本信息输入文字生成模型,得到目标字体特征和目标文本特征。
本公开实施例中,将目标字体信息和目标文本信息输入文字生成模型后,由文字生成模型包括的多个局部专家,分别提取目标字体信息和目标文本信息中各文字不同部分的特征,再结合不同部分的特征分别对应的字体权重和文本权重分别计算目标字体特征和目标文本特征。
步骤S4022:融合目标字体特征和目标文本特征,得到目标文字信息。
本公开实施例中,融合目标字体特征和目标文本特征可通过文字生成器实现,将目标字体特征和目标文本特征输入生成器G,通过生成器G的计算处理,得到目标文字信息,目标文字信息为融合目标字体信息的字体风格和目标文本信息的文本内容的文字图像。
基于上述可知,本公开实施例通过将目标字体信息和目标文本信息输入经上述训练过程得到的文字生成模型,进而得到目标文字信息,能够使目标文字信息在文字结构更加完整,减少笔画缺失、增多,以及偏旁部首错位现象的发生,并且,生成的目标文字信息在文本内容和字体风格上与标准文字模板更加接近。
在一个具体地实施方式中,上述文字生成模型训练方法的实施过程如图5所示:
获取样本字体信息和样本文本信息,样本字体信息和样本文本信息分别携带有字体标签和文本标签;将样本字体信息和样本文本信息输入预设文字生成模型,分别得到样本字体特征和样本文本特征;具体地,根据样本字体特征、样本文本特征、字体标签和文本标签确定第一损失值,包括:对样本字体特征和样本文本特征分别进行分类处理,分别得到预测字体类型和预测文本类型;根据预测字体类型和字体标签之间的差异,得到字体损失值;根据预测文本类型和文本标签的差异,确定文本损失值;根据字体损失值和文本损失值,确定第一损失值。融合样本字体特征和样本文本特征,得到样本目标文字信息;对样本目标文字信息进行不同的结构变换处理,分别得到第一样本文字图像和第二样本文字图像;获取第一比对图像,第一比对图像为与第一参考文字图像字体或文本内容不同的文字图像,第一参考文字图像为第一样本文字图像和第二样本文字图像;将第一样本文字图像和第二样本文字图像分别与第一比对图像进行对比分析,得到第二损失值;具体地,将第一样本文字图像和第二样本文字图像分别与第一比对图像进行对比分析,得到第二损失值,包括:将第一样本文字图像输入预设对比模型,得到第一样本图像字体特征和第一样本图像文本特征;以及,将第二样本文字图像输入预设对比模型,得到第二样本图像字体特征和第二样本图像文本特征;确定第一比对图像对应的第一比对图像字体特征和第一比对图像对应的第一比对图像文本特征;根据第一样本图像字体特征、第二样本图像字体特征分别相对于第一比对图像字体特征的差异,确定第一字体对比损失值;根据第一样本图像文本特征、第二样本图像文本特征分别相对于第一比对图像文本特征的差异,确定第一文本对比损失值;根据第一字体对比损失值和第一文本对比损失值,确定第二损失值。基于第一损失值和第二损失值,训练预设文字生成模型,得到训练好的文字生成模型。
在一个可选的实施例中,上述具体实施过程还包括得到预设对比模型的训练过程,训练过程包括:构建初始模型,包括字体编码器和文本编码器;获取第二参考文字图像和第二比对图像,第二参考文字图像包括字体及文本内容相同,但文字图像结构不同的第三样本文字图像和第四样本文字图像,第二比对图像为与第二参考文字图像字体或文本内容不同的文字图像;将第三样本文字图像输入初始模型,得到第三样本图像字体特征和第三样本图像文本特征;以及,将第四样本文字图像输入初始模型,得到第四样本图像字体特征和第四样本图像文本特征;确定第二比对图像对应的第二比对图像字体特征和第二比对图像对应的第二比对图像文本特征;根据第三样本图像字体特征、第四样本图像字体特征分别相对于第二比对图像字体特征的差异,确定第二字体对比损失值;根据第三样本图像文本特征、第四样本图像文本特征分别相对于第二比对图像文本特征的差异,确定第二文本对比损失值;根据第二字体对比损失值和第二文本对比损失值,确定第三损失值;基于第三损失值,训练初始模型,得到预设对比模型。
如图6所示,是本申请与其他相关技术方案在生成的书法汉字文本内容上的对比,可见,本申请生成的书法汉字出现笔画缺失或增多等异常情况的现象较少。
如图7所示,是本申请与其他相关技术方案在生成的书法汉字字体风格上的对比,可见,本申请生成的书法汉字在字体风格上与标准汉字更加接近。
图8是根据一示例性实施例示出的一种文字生成模型训练装置框图,参照图8,该装置包括第一获取模块801,样本特征模块802,第一计算模块803,融合模块804,结构变换模块805,第二获取模块806,第二计算模块807和训练模块808,其中,
第一获取模块801,用于获取样本字体信息和样本文本信息,样本字体信息和样本文本信息分别携带有字体标签和文本标签;
样本特征模块802,用于将样本字体信息和样本文本信息输入预设文字生成模型,分别得到样本字体特征和样本文本特征;
第一计算模块803,用于根据样本字体特征、样本文本特征、字体标签和文本标签确定第一损失值;
融合模块804,用于融合样本字体特征和样本文本特征,得到样本目标文字信息;
结构变换模块805,用于对样本目标文字信息进行不同的结构变换处理,分别得到第一样本文字图像和第二样本文字图像;
第二获取模块806,用于获取第一比对图像,第一比对图像为与第一参考文字图像字体或文本内容不同的文字图像,第一参考文字图像为第一样本文字图像和第二样本文字图像;
第二计算模块807,用于将第一样本文字图像和第二样本文字图像分别与第一比对图像进行对比分析,得到第二损失值;
训练模块808,用于基于第一损失值和第二损失值,训练预设文字生成模型,得到训练好的文字生成模型。
在一个可选的实施例中,第二计算模块807,包括:
第一样本图像特征模块,用于将第一样本文字图像输入预设对比模型,得到第一样本图像字体特征和第一样本图像文本特征;以及,将第二样本文字图像输入预设对比模型,得到第二样本图像字体特征和第二样本图像文本特征;
第一比对图像特征模块,用于确定第一比对图像对应的第一比对图像字体特征和第一比对图像对应的第一比对图像文本特征;
第一字体对比模块,用于根据第一样本图像字体特征、第二样本图像字体特征分别相对于第一比对图像字体特征的差异,确定第一字体对比损失值;
第一文本对比模块,用于根据第一样本图像文本特征、第二样本图像文本特征分别相对于第一比对图像文本特征的差异,确定第一文本对比损失值;
第二计算子模块,用于根据第一字体对比损失值和第一文本对比损失值,确定第二损失值。
在一个可选的实施例中,上述装置还包括:
构建模块,用于构建初始模型;
第四获取模块,用于获取第二参考文字图像和第二比对图像,第二参考文字图像包括字体及文本内容相同,但文字图像结构不同的第三样本文字图像和第四样本文字图像,第二比对图像为与第二参考文字图像字体或文本内容不同的文字图像;
第二样本图像特征模块,用于将第三样本文字图像输入初始模型,得到第三样本图像字体特征和第三样本图像文本特征;以及,将第四样本文字图像输入初始模型,得到第四样本图像字体特征和第四样本图像文本特征;
第二比对图像特征模块,用于确定第二比对图像对应的第二比对图像字体特征和第二比对图像对应的第二比对图像文本特征;
第二字体对比模块,用于根据第三样本图像字体特征、第四样本图像字体特征分别相对于第二比对图像字体特征的差异,确定第二字体对比损失值;
第二文本对比模块,用于根据第三样本图像文本特征、第四样本图像文本特征分别相对于第二比对图像文本特征的差异,确定第二文本对比损失值;
第三计算模块,用于根据第二字体对比损失值和第二文本对比损失值,确定第三损失值;
初始模型训练模块,用于基于第三损失值,训练初始模型,得到预设对比模型。
在一个可选的实施例中,第一计算模块803,包括:
分类模块,用于对样本字体特征和样本文本特征分别进行分类处理,分别得到预测字体类型和预测文本类型;
字体损失模块,用于根据预测字体类型和字体标签之间的差异,得到字体损失值;
文本损失模块,用于根据预测文本类型和文本标签的差异,确定文本损失值;
第一计算子模块,用于根据字体损失值和文本损失值,确定第一损失值。
图9是根据一示例性实施例示出的一种目标文字生成装置框图,参照图9,该装置包括第三获取模块901和目标文字生成模块902,其中,
第三获取模块901,用于获取目标字体信息和目标文本信息;
目标文字生成模块902,用于通过将目标字体信息和目标文本信息输入文字生成模型,得到目标文字信息,文字生成模型根据上述任一文字生成模型训练方法训练得到。
在一个可选的实施例中,目标文字生成模块902,包括:
目标特征模块,用于将目标字体信息和目标文本信息输入文字生成模型,得到目标字体特征和目标文本特征;
目标文字模块,用于融合目标字体特征和目标文本特征,得到目标文字信息。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种电子设备,包括:处理器;用于存储该处理器可执行指令的存储器;其中,该处理器用于该指令,以实现如本公开实施例中的文字生成模型训练方法。
图10是根据一示例性实施例示出的一种用于文字生成模型训练的电子设备的框图,该电子设备可以是终端,其内部结构图可以如图10所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文字生成模型训练方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在示例性实施例中,还提供了一种存储介质,当该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例中的文字生成模型训练方法。
在示例性实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本公开实施例中的文字生成模型训练方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种文字生成模型训练方法,其特征在于,所述方法包括:
获取样本字体信息和样本文本信息,所述样本字体信息和所述样本文本信息分别携带有字体标签和文本标签;
将所述样本字体信息和所述样本文本信息输入预设文字生成模型,分别得到样本字体特征和样本文本特征;
根据所述样本字体特征、所述样本文本特征、所述字体标签和所述文本标签确定第一损失值;
融合所述样本字体特征和所述样本文本特征,得到样本目标文字信息;
对所述样本目标文字信息进行不同的结构变换处理,分别得到第一样本文字图像和第二样本文字图像;
获取第一比对图像,所述第一比对图像为与第一参考文字图像字体或文本内容不同的文字图像,所述第一参考文字图像为所述第一样本文字图像和所述第二样本文字图像;
将所述第一样本文字图像和所述第二样本文字图像分别与所述第一比对图像进行对比分析,得到第二损失值;
基于所述第一损失值和所述第二损失值,训练所述预设文字生成模型,得到训练好的文字生成模型。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一样本文字图像和所述第二样本文字图像分别与所述第一比对图像进行对比分析,得到第二损失值,包括:
将所述第一样本文字图像输入预设对比模型,得到第一样本图像字体特征和第一样本图像文本特征;以及,将所述第二样本文字图像输入所述预设对比模型,得到第二样本图像字体特征和第二样本图像文本特征;
确定所述第一比对图像对应的第一比对图像字体特征和所述第一比对图像对应的第一比对图像文本特征;
根据所述第一样本图像字体特征、所述第二样本图像字体特征分别相对于所述第一比对图像字体特征的差异,确定第一字体对比损失值;
根据所述第一样本图像文本特征、所述第二样本图像文本特征分别相对于所述第一比对图像文本特征的差异,确定第一文本对比损失值;
根据所述第一字体对比损失值和所述第一文本对比损失值,确定所述第二损失值。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括得到所述预设对比模型的训练过程,所述训练过程包括:
构建初始模型;
获取第二参考文字图像和第二比对图像,所述第二参考文字图像包括字体及文本内容相同,但文字图像结构不同的第三样本文字图像和第四样本文字图像,所述第二比对图像为与所述第二参考文字图像字体或文本内容不同的文字图像;
将所述第三样本文字图像输入所述初始模型,得到第三样本图像字体特征和第三样本图像文本特征;以及,将所述第四样本文字图像输入所述初始模型,得到第四样本图像字体特征和第四样本图像文本特征;
确定所述第二比对图像对应的第二比对图像字体特征和所述第二比对图像对应的第二比对图像文本特征;
根据所述第三样本图像字体特征、所述第四样本图像字体特征分别相对于所述第二比对图像字体特征的差异,确定第二字体对比损失值;
根据所述第三样本图像文本特征、所述第四样本图像文本特征分别相对于所述第二比对图像文本特征的差异,确定第二文本对比损失值;
根据所述第二字体对比损失值和所述第二文本对比损失值,确定第三损失值;
基于所述第三损失值,训练所述初始模型,得到所述预设对比模型。
4.根据权利要求1所述的方法,其特征在于,所述根据所述样本字体特征、所述样本文本特征、所述字体标签和所述文本标签确定第一损失值,包括:
对所述样本字体特征和所述样本文本特征分别进行分类处理,分别得到预测字体类型和预测文本类型;
根据所述预测字体类型和所述字体标签之间的差异,得到字体损失值;
根据所述预测文本类型和所述文本标签的差异,确定文本损失值;
根据所述字体损失值和所述文本损失值,确定所述第一损失值。
5.一种目标文字生成方法,其特征在于,包括:
获取目标字体信息和目标文本信息;
通过将所述目标字体信息和所述目标文本信息输入文字生成模型,得到目标文字信息,所述文字生成模型根据权利要求1-4中任一文字生成模型训练方法训练得到。
6.根据权利要求5所述的方法,其特征在于,所述通过将所述目标字体信息和所述目标文本信息输入文字生成模型,得到目标文字信息,包括:
将所述目标字体信息和所述目标文本信息输入文字生成模型,得到目标字体特征和目标文本特征;
融合所述目标字体特征和所述目标文本特征,得到所述目标文字信息。
7.一种文字生成模型训练装置,其特征在于,包括:
第一获取模块,用于获取样本字体信息和样本文本信息,所述样本字体信息和所述样本文本信息分别携带有字体标签和文本标签;
样本特征模块,用于将所述样本字体信息和所述样本文本信息输入预设文字生成模型,分别得到样本字体特征和样本文本特征;
第一计算模块,用于根据所述样本字体特征、所述样本文本特征、所述字体标签和所述文本标签确定第一损失值;
融合模块,用于融合所述样本字体特征和所述样本文本特征,得到样本目标文字信息;
结构变换模块,用于对所述样本目标文字信息进行不同的结构变换处理,分别得到第一样本文字图像和第二样本文字图像;
第二获取模块,用于获取第一比对图像,所述第一比对图像为与第一参考文字图像字体或文本内容不同的文字图像,所述第一参考文字图像为所述第一样本文字图像和所述第二样本文字图像;
第二计算模块,用于将所述第一样本文字图像和所述第二样本文字图像分别与所述第一比对图像进行对比分析,得到第二损失值;
训练模块,用于基于所述第一损失值和所述第二损失值,训练所述预设文字生成模型,得到训练好的文字生成模型。
8.一种目标文字生成装置,其特征在于,包括:
第三获取模块,用于获取目标字体信息和目标文本信息;
目标文字生成模块,用于通过将所述目标字体信息和所述目标文本信息输入文字生成模型,得到目标文字信息,所述文字生成模型根据权利要求1-4中任一文字生成模型训练方法训练得到。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器用于所述指令,以实现如权利要求1-4中任一项所述的文字生成模型训练方法,或实现如权利要求5或6所述的目标文字生成方法。
10.一种存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-4中任一项所述的文字生成模型训练方法,或实现如权利要求5或6所述的目标文字生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310676846.6A CN116469111B (zh) | 2023-06-08 | 2023-06-08 | 一种文字生成模型训练方法及目标文字生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310676846.6A CN116469111B (zh) | 2023-06-08 | 2023-06-08 | 一种文字生成模型训练方法及目标文字生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116469111A true CN116469111A (zh) | 2023-07-21 |
CN116469111B CN116469111B (zh) | 2023-09-15 |
Family
ID=87177431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310676846.6A Active CN116469111B (zh) | 2023-06-08 | 2023-06-08 | 一种文字生成模型训练方法及目标文字生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116469111B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117236284A (zh) * | 2023-11-13 | 2023-12-15 | 江西师范大学 | 基于风格信息与内容信息适配的字体生成方法及装置 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012109941A (ja) * | 2010-11-15 | 2012-06-07 | Konica Minolta Laboratory Usa Inc | ハーフトーンパターンで印刷されたグレーまたは淡色テキストを含む、スキャンされた文書画像を2値化するための方法 |
CN112966712A (zh) * | 2021-02-01 | 2021-06-15 | 北京三快在线科技有限公司 | 语言模型训练方法、装置、电子设备和计算机可读介质 |
CN113313022A (zh) * | 2021-05-27 | 2021-08-27 | 北京百度网讯科技有限公司 | 文字识别模型的训练方法和识别图像中文字的方法 |
CN113688232A (zh) * | 2021-07-09 | 2021-11-23 | 杭州未名信科科技有限公司 | 招标文本分类方法、装置、存储介质及终端 |
CN113705568A (zh) * | 2021-08-27 | 2021-11-26 | 深圳市商汤科技有限公司 | 文字识别网络训练方法、装置、计算机设备及存储介质 |
CN113962192A (zh) * | 2021-04-28 | 2022-01-21 | 江西师范大学 | 汉字字体生成模型的生成方法、汉字字体生成方法及装置 |
WO2022142014A1 (zh) * | 2020-12-29 | 2022-07-07 | 平安科技(深圳)有限公司 | 基于多模态信息融合的文本分类方法、及其相关设备 |
WO2022161380A1 (zh) * | 2021-01-30 | 2022-08-04 | 华为技术有限公司 | 一种训练模型的方法、图像检索的方法以及装置 |
CN114998670A (zh) * | 2022-04-14 | 2022-09-02 | 哈尔滨工业大学重庆研究院 | 多模态信息预训练方法及系统 |
CN115019295A (zh) * | 2022-06-27 | 2022-09-06 | 北京爱奇艺科技有限公司 | 模型训练方法、文本行确定方法及装置 |
CN115017178A (zh) * | 2022-05-26 | 2022-09-06 | 阿里巴巴(中国)有限公司 | 数据到文本生成模型的训练方法和装置 |
US20220415071A1 (en) * | 2022-03-21 | 2022-12-29 | Beijing Baidu Netcom Science Technology Co., Ltd. | Training method of text recognition model, text recognition method, and apparatus |
CN115599953A (zh) * | 2022-09-27 | 2023-01-13 | 北京达佳互联信息技术有限公司(Cn) | 视频文本检索模型的训练方法、检索方法及相关设备 |
CN116090463A (zh) * | 2021-11-03 | 2023-05-09 | 中移(苏州)软件技术有限公司 | 一种名片信息抽取系统训练方法及装置、存储介质 |
-
2023
- 2023-06-08 CN CN202310676846.6A patent/CN116469111B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102592126A (zh) * | 2010-11-15 | 2012-07-18 | 柯尼卡美能达美国研究所有限公司 | 用于二值化扫描文档图像的方法 |
JP2012109941A (ja) * | 2010-11-15 | 2012-06-07 | Konica Minolta Laboratory Usa Inc | ハーフトーンパターンで印刷されたグレーまたは淡色テキストを含む、スキャンされた文書画像を2値化するための方法 |
WO2022142014A1 (zh) * | 2020-12-29 | 2022-07-07 | 平安科技(深圳)有限公司 | 基于多模态信息融合的文本分类方法、及其相关设备 |
WO2022161380A1 (zh) * | 2021-01-30 | 2022-08-04 | 华为技术有限公司 | 一种训练模型的方法、图像检索的方法以及装置 |
CN112966712A (zh) * | 2021-02-01 | 2021-06-15 | 北京三快在线科技有限公司 | 语言模型训练方法、装置、电子设备和计算机可读介质 |
CN113962192A (zh) * | 2021-04-28 | 2022-01-21 | 江西师范大学 | 汉字字体生成模型的生成方法、汉字字体生成方法及装置 |
CN113313022A (zh) * | 2021-05-27 | 2021-08-27 | 北京百度网讯科技有限公司 | 文字识别模型的训练方法和识别图像中文字的方法 |
CN113688232A (zh) * | 2021-07-09 | 2021-11-23 | 杭州未名信科科技有限公司 | 招标文本分类方法、装置、存储介质及终端 |
CN113705568A (zh) * | 2021-08-27 | 2021-11-26 | 深圳市商汤科技有限公司 | 文字识别网络训练方法、装置、计算机设备及存储介质 |
CN116090463A (zh) * | 2021-11-03 | 2023-05-09 | 中移(苏州)软件技术有限公司 | 一种名片信息抽取系统训练方法及装置、存储介质 |
US20220415071A1 (en) * | 2022-03-21 | 2022-12-29 | Beijing Baidu Netcom Science Technology Co., Ltd. | Training method of text recognition model, text recognition method, and apparatus |
CN114998670A (zh) * | 2022-04-14 | 2022-09-02 | 哈尔滨工业大学重庆研究院 | 多模态信息预训练方法及系统 |
CN115017178A (zh) * | 2022-05-26 | 2022-09-06 | 阿里巴巴(中国)有限公司 | 数据到文本生成模型的训练方法和装置 |
CN115019295A (zh) * | 2022-06-27 | 2022-09-06 | 北京爱奇艺科技有限公司 | 模型训练方法、文本行确定方法及装置 |
CN115599953A (zh) * | 2022-09-27 | 2023-01-13 | 北京达佳互联信息技术有限公司(Cn) | 视频文本检索模型的训练方法、检索方法及相关设备 |
Non-Patent Citations (3)
Title |
---|
ALBARAA ABUOBIEDA; NAOMIE SALIM: "《Text summarization features selection method using pseudo Genetic-based model》", 《2012 INTERNATIONAL CONFERENCE ON INFORMATION RETRIEVAL & KNOWLEDGE MANAGEMENT》 * |
段荧; 龙华; 瞿于荃; 杜庆治; 邵玉斌: "《文字图像不规则干扰修复算法研究》", 《小型微型计算机系统 》 * |
田萱;王子亚;王建新;: "基于语义分割的食品标签文本检测", 农业机械学报, no. 08 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117236284A (zh) * | 2023-11-13 | 2023-12-15 | 江西师范大学 | 基于风格信息与内容信息适配的字体生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116469111B (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111651992A (zh) | 命名实体标注方法、装置、计算机设备和存储介质 | |
CN109948149A (zh) | 一种文本分类方法及装置 | |
CN111667066A (zh) | 网络模型的训练、文字识别方法、装置和电子设备 | |
CN112863683A (zh) | 基于人工智能的病历质控方法、装置、计算机设备及存储介质 | |
CN112861662B (zh) | 基于人脸和交互文本的目标对象行为预测方法及相关设备 | |
CN116469111B (zh) | 一种文字生成模型训练方法及目标文字生成方法 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN112084752A (zh) | 基于自然语言的语句标注方法、装置、设备及存储介质 | |
CN113204659A (zh) | 多媒体资源的标签分类方法、装置、电子设备及存储介质 | |
CN114357174A (zh) | 基于ocr和机器学习的代码分类系统及方法 | |
WO2022126917A1 (zh) | 基于深度学习的人脸图像评估方法、装置、设备及介质 | |
CN112839185B (zh) | 用于处理图像的方法、装置、设备和介质 | |
CN111460224B (zh) | 评论数据的质量标注方法、装置、设备及存储介质 | |
CN115309862A (zh) | 基于图卷积网络和对比学习的因果关系识别方法及装置 | |
CN110222693B (zh) | 构建字符识别模型与识别字符的方法和装置 | |
CN113420869A (zh) | 基于全方向注意力的翻译方法及其相关设备 | |
CN116778505B (zh) | 一种汉字识别方法、装置、电子设备及存储介质 | |
CN116975298B (zh) | 一种基于nlp的现代化社会治理调度系统及方法 | |
CN116701640B (zh) | 水印识别模型生成方法、水印识别方法、装置及电子设备 | |
CN117725960B (zh) | 基于知识蒸馏的语言模型训练方法、文本分类方法及设备 | |
CN117854094A (zh) | 一种凭证信息识别方法、装置、计算机设备和存储介质 | |
CN114328809A (zh) | 一种数据处理方法、装置、计算机设备以及存储介质 | |
CN114385814A (zh) | 一种信息检索的方法、装置、计算机设备及存储介质 | |
CN115457572A (zh) | 模型训练方法、装置、计算机设备及计算机可读存储介质 | |
CN117634422A (zh) | 基于人工智能的字体生成方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |