CN113516136A - 一种手写图像生成方法、模型训练方法、装置及设备 - Google Patents

一种手写图像生成方法、模型训练方法、装置及设备 Download PDF

Info

Publication number
CN113516136A
CN113516136A CN202110779401.1A CN202110779401A CN113516136A CN 113516136 A CN113516136 A CN 113516136A CN 202110779401 A CN202110779401 A CN 202110779401A CN 113516136 A CN113516136 A CN 113516136A
Authority
CN
China
Prior art keywords
handwriting
sample
handwritten
image
style
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110779401.1A
Other languages
English (en)
Inventor
李颢宇
裴洪斌
马超
赵滢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110779401.1A priority Critical patent/CN113516136A/zh
Publication of CN113516136A publication Critical patent/CN113516136A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本说明书实施例提供一种手写图像生成方法、模型训练方法、装置及设备,可应用于人工智能技术领域。所述方法包括:获取手写样本图像;所述手写样本图像对应有手写文字内容;提取所述手写样本图像的样本手写风格特征;所述样本手写风格特征用于表示所述手写文字内容对应的风格;将手写文字内容和样本手写风格特征输入扩散模型中得到对应于所述手写样本图像的至少两个目标样本图像;所述扩散模型用于根据噪声调整所生成的目标样本图像。上述方法提高了目标手写图像的多样性,在利用目标手写图像对相应模型进行训练时,保证了训练得到的模型对不同风格的手写图像识别时的准确度。

Description

一种手写图像生成方法、模型训练方法、装置及设备
技术领域
本说明书实施例涉及人工智能技术领域,特别涉及一种手写图像生成方法、模型训练方法、装置及设备。
背景技术
随着近些年来人工智能技术的发展,基于相应的人工智能模型可以实现越来越多的功能,从而帮助用户对业务进行处理,以改善工作处理效果,提升业务处理效率。具体的,可以借助OCR技术实现对于图像中的文字的识别,从而便于计算机针对图像中的文字进行处理。
目前在进行文字识别时,不仅需要考虑对于印刷字体的识别,还需要考虑对于包含手写字体的图像的识别。手写字体相较于印刷字体,具有更为复杂的形态、格式,而且由于不同人具有不同的书写风格,使得在对图像中的手写字体进行识别时,需要考虑书写风格对文字的影响,相应的也具有更高的复杂度。
在对手写文字进行识别时,一般需要先利用训练样本数据对识别模型进行训练,以利用训练后的模型实现手写文字识别。但是,由于手写文字风格的多样性,所获取到训练样本数据往往无法涵盖大部分的手写风格,进而使得训练得到的识别模型针对一般的手写图像往往无法获取到较好的识别效果,相应地影响后续业务的处理。因此,目前亟需一种能够生成多样化的手写图像的技术方案。
发明内容
本说明书实施例的目的是提供一种手写图像生成方法、模型训练方法、装置及设备,以解决如何生成多样化的手写图像的问题。
为解决上述技术问题,本说明书实施例提供一种手写图像生成方法,包括:获取手写样本图像;所述手写样本图像对应有手写文字内容;提取所述手写样本图像的样本手写风格特征;所述样本手写风格特征用于表示所述手写文字内容对应的风格;将手写文字内容和样本手写风格特征输入扩散模型中得到对应于所述手写样本图像的至少两个目标样本图像;所述扩散模型用于根据噪声调整所生成的目标样本图像;所述目标样本图像之间具有不同的手写风格特征。
本说明书实施例还提出一种手写图像生成装置,包括:手写样本图像获取模块,用于获取手写样本图像;所述手写样本图像对应有手写文字内容;样本手写风格特征提取模块,用于提取所述手写样本图像的样本手写风格特征;所述样本手写风格特征用于表示所述手写文字内容对应的风格;目标样本图像获取模块,用于将手写文字内容和样本手写风格特征输入扩散模型中得到对应于所述手写样本图像的至少两个目标样本图像;所述扩散模型用于根据噪声调整所生成的目标样本图像;所述目标样本图像之间具有不同的手写风格特征。
本说明书实施例还提出一种手写图像生成设备,包括存储器和处理器;所述存储器,用于存储计算机程序指令;所述处理器,用于执行所述计算机程序指令以实现以下步骤:获取手写样本图像;所述手写样本图像对应有手写文字内容;提取所述手写样本图像的样本手写风格特征;所述样本手写风格特征用于表示所述手写文字内容对应的风格;将手写文字内容和样本手写风格特征输入扩散模型中得到对应于所述手写样本图像的至少两个目标样本图像;所述扩散模型用于根据噪声调整所生成的目标样本图像;所述目标样本图像之间具有不同的手写风格特征。
为了解决上述技术问题,本说明书实施例还提出一种模型训练方法,包括:获取手写训练图像;所述手写训练图像通过以下方式获取:获取手写样本图像;所述手写样本图像对应有手写文字内容;提取所述手写样本图像的样本手写风格特征;所述样本手写风格特征用于表示所述手写文字内容对应的风格;将手写文字内容和样本手写风格特征输入扩散模型中得到对应于所述手写样本图像的至少两个手写训练图像;所述扩散模型用于根据噪声调整所生成的目标样本图像;所述目标样本图像之间具有不同的手写风格特征;利用所述手写训练图像进行图像识别模型的训练;所述图像识别模型用于识别图像中的手写内容。
本说明书实施例还提出一种模型训练装置,包括:手写训练图像获取模块,用于获取手写训练图像;所述手写训练图像通过以下方式获取:获取手写样本图像;所述手写样本图像对应有手写文字内容;提取所述手写样本图像的样本手写风格特征;所述样本手写风格特征用于表示所述手写文字内容对应的风格;将手写文字内容和样本手写风格特征输入扩散模型中得到对应于所述手写样本图像的至少两个手写训练图像;所述扩散模型用于根据噪声调整所生成的目标样本图像;所述目标样本图像之间具有不同的手写风格特征;图像识别模型训练模块,用于利用所述手写训练图像进行图像识别模型的训练;所述图像识别模型用于识别图像中的手写内容。
本说明书实施例还提出一种模型训练设备,包括存储器和处理器;所述存储器,用于存储计算机程序指令;所述处理器,用于执行所述计算机程序指令以实现以下步骤:获取手写训练图像;所述手写训练图像通过以下方式获取:获取手写样本图像;所述手写样本图像对应有手写文字内容;提取所述手写样本图像的样本手写风格特征;所述样本手写风格特征用于表示所述手写文字内容对应的风格;将手写文字内容和样本手写风格特征输入扩散模型中得到对应于所述手写样本图像的至少两个手写训练图像;所述扩散模型用于根据噪声调整所生成的目标样本图像;所述目标样本图像之间具有不同的手写风格特征;利用所述手写训练图像进行图像识别模型的训练;所述图像识别模型用于识别图像中的手写内容。
由以上本说明书实施例提供的技术方案可见,本说明书实施例在生成手写图像时,可以先获取手写样本图像,并从手写样本图像中提取样本手写风格特征,从而直接利用所述样本手写风格特征来表现手写文字内容的风格。之后,通过将手写文字内容和样本手写风格特征输入扩散模型中,通过所述扩散模型利用噪声进行调整,最终得到至少两个目标样本图像。通过上述方法不仅有效扩大了手写样本图像的数量,也保证了目标手写图像与真实的手写图像之间的吻合程度,并保证了目标手写图像对应的风格不局限于训练用的样本数据的风格,提高了目标手写图像的多样性,在利用目标手写图像对相应模型进行训练时,保证了训练得到的模型对不同风格的手写图像识别时的准确度。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例一种手写图像生成方法的流程图;
图2为本说明书实施例一种扩散模型的结构示意图;
图3为本说明书实施例一种手写图像生成场景的流程图;
图4为本说明书实施例一种模型训练方法的流程图;
图5为本说明书实施例一种手写图像生成装置的模块图;
图6为本说明书实施例一种模型训练装置的模块图;
图7为本说明书实施例一种手写图像生成设备的结构图;
图8为本说明书实施例一种模型训练设备的结构图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
为了解决上述技术问题,介绍本说明书实施例一种手写图像生成方法。所述手写图像生成方法的执行主体为手写图像生成设备,所述手写图像生成设备包括但不限于服务器、工控机、PC机等。如图1所示,所述手写图像生成方法可以包括以下具体实施步骤。
S110:获取手写样本图像;所述手写样本图像对应有手写文字内容。
手写样本图像可以是包含有手写文字的图像。具体的,所述手写样本图像可以是通过拍摄、扫描等方式,针对手写文字所获取到的图像。相应的,所述手写文字可以是收集到的一些样本用户的书写文字。由于不同用户的书写风格均不相同,因此所获取到的手写样本图像均具备一定的差异性。
由于在利用包含手写内容的图像进行模型训练时,为了保证模型识别的效果以及准确率,需要利用到大量的手写样本图像进行训练。而直接通过上述方式来获取手写样本图像,显然无法满足实际应用中对于手写样本图像的数量需求。
所述手写样本图像可以对应有手写文字内容。所述手写文字内容即为所述手写样本图像中的手写文字所对应的真实文字内容。具体的,所述手写文字内容可以是有用户预先针对手写样本图像标注得到的内容,例如用户直接进行识别并标注得到的内容。也可以是利用其他的一些图像文本识别模型来获取所述手写文字内容。实际应用中可以根据需要设置获取所述手写文字内容的方式,在此不再赘述。
S120:提取所述手写样本图像的样本手写风格特征;所述样本手写风格特征用于表示所述手写文字内容对应的风格。
在获取到所述手写样本图像后,可以提取所述手写样本图像对应的样本手写风格特征。所述样本手写风格特征可以用于表示图像中的手写文字内容所对应的风格。具体的,所述样本手写风格特征可以用于表示字体类型、文字大小、文字间距、字体潦草程度等特征。实际应用中对于所述样本手写风格特征的具体类型不做限制,在此不再赘述。
具体的确定所述样本手写风格特征例如可以是比对手写文字与预设多个模板之间的相似程度,并将最为相似的模板所对应的风格特征作为所述手写样本图像的样本手写风格特征。
在一些实施方式中,获取所述样本手写风格特征可以是利用风格提取模型来提取所述手写样本图像中的样本手写风格特征。
具体的,所述风格提取模型可以是基于ResNet50架构的孪生网络。
相应的,在获取所述风格提取模型时,可以先获取至少一个训练样本集;所述训练样本集中包括两个第一用户手写图像和一个第二用户手写图像;所述第一用户手写图像包括由第一用户手写得到的数据,再利用预先构建的风格提取模型分别提取所述训练样本集中的手写图像的训练风格特征,并依次计算每两个训练风格特征的风格相同概率;所述风格相同概率用于表示两种训练风格特征对应于同一用户的概率,最终基于所述风格相同概率对所述风格提取模型进行优化。
利用一个具体的示例进行说明,训练时,将训练样本分为三张手写图片一组,其中两张图片A1、A2出自同一人之手,第三张图片B1来自不同的人。训练时同一组内三张图片经过ResNet,将最后一层卷积层输出的特征图展平为三个一维的特征向量分别为ya1、ya2、yb1作为三张图片里的手写风格特征。其中每两个向量一组拼接成一个新向量(如[ya1 T,ya2 T]T)传入全连接层并输出一个范围在0~1之间的预测概率p。令来自同一人的拼接向量最终输出的ground truth为1表示风格相同,反之则为0,计算网络输出概率p与ground truth之间的交叉熵损失作为损失函数,用随机梯度下降的方式训练网络直至收敛,得到需要的手写特征提取网络。以这样的三元组数据对网络进行训练,能使得网络在进行特征抽取时更注重于手写风格而非具体文字内容上。
S130:将手写文字内容和样本手写风格特征输入扩散模型中得到对应于所述手写样本图像的至少两个目标样本图像;所述扩散模型用于根据噪声调整所生成的目标样本图像;所述目标样本图像之间具有不同的手写风格特征。
在获取到手写文字内容和样本手写风格特征后,可以将其输入扩散模型中。所述扩散模型可以基于噪声对手写样本图像进行调整,使其在不改变对应的文字内容的情况下,改变自身的手写风格,从而在扩大样本图像的数量,并保证样本图像之间的手写风格不相同,加强样本图像在模型训练中的利用效果。
在一个具体的示例中,所述扩散模型可以是基于unet结构和StyleGan的生成模型。如图2所示,为所述扩散模型一种结构示意图。下面基于所述扩散模型的结构示意图对生成目标样本图像的过程进行说明。
如图2中的生成模型的结构所示,采用以unet结构堆叠的卷积以及反卷积层作为概率扩散模型单步迭代中的生成模型,同时使用StyleGan中的AdaIN层,将风格特征向量以及文本向量引入生成过程中。训练时,令某人的书写风格特征所对应的向量为y(对应图中的手写风格特征),同一人物的真实手写图片为x0。图片对应的真实文本向量为gt(对应图中的手写文字内容),gt由如下方式得到:将真实文本转为对应的ASCII码,对空各部分以及末尾长度不足的地方补0后,进行归一化得到gt。令该生成模型为εθ,概率扩散模型总迭代次数为T=200,t符合{0,...,T}的均匀分布,ε为服从N(0,I)正态分布的高斯噪声,噪声系数为βt=β0+t*(βT0)/T,其中β0取0.0001,βT取0.02。训练过程可以与步骤S120中的概率扩散模型的通用训练方法一致:输入为原始图像x0(即样本图像),风格向量y,文本向量gt,高斯噪声ε,计算经过εθ输出图像与ε之间的均方差作为损失函数,迭代更新εθ直到收敛,写作公式可表示为:
Figure BDA0003155708270000061
其中
Figure BDA0003155708270000062
在一些实施方式中,为了保证所获取到的目标样本图像之间的风格进一步地形成差别,在获取到样本手写风格特征之后,还可以利用至少两个样本手写风格特征构建特征集合,再针对所述特征集合进行施密特正交化变化得到正交特征集合,最终将所述手写文字内容和正交特征集合输入扩散模型中得到对应于所述手写样本图像的至少两个目标样本图像。
利用一个具体的示例进行说明,将各个样本手写风格特征所对应的特征向量组成一个特征向量组{y1,...,yN},其中向量数量N远大于特征向量y的维度。向量组中的每一个向量可以表示为yn=[an1,...,anS]T,其中S为向量的维度。将该向量组的每一维特征组成新的向量,组成一个数量等于特征维度的新向量组{y'1,...,y'S},其中。将该向量组进行施密特正交化变换,得到一组正交向量组{z1,...,zS}。其中:
Figure BDA0003155708270000063
将变换过程中的参数存为{e21,e31,e32,...,eS(S-1)},其中
Figure BDA0003155708270000064
上述过程是为了使各维度特征相互正交,分布独立。在随机生成新的风格特征向量时,只需要随机生成一个和原特征维度相同的单位向量zfake=[α1,...,αS]T,||zfake||=1,再利用存储的参数将其进行反变换,则能得到接近真实手写特征向量分布的随机特征向量z'fake=[α′1,...,α'S]T。其中:
α′1=α1
α′2=α2+e21α1
α′m=αm+em1z1+...+em(m-1)zm-1.
基于上述过程生成目标样本图像时,可以生成一个随机的手写风格向量z'fake,代替原本的样本手写风格特征。生成图像(即从噪声中抽样生成目标图像)的步骤如下:随机生成一个高斯噪声xT~N(0,I),从时刻t=T开始进行抽样,直到t=0。对于时刻t而言,抽样过程如下:随机生成一个高斯噪声n~N(0,I);输出时刻t的采样结果
Figure BDA0003155708270000071
其中
Figure BDA0003155708270000072
重复以上步骤直至t=0,所得到的x0即是我们最终需要的目标样本图像。
在一些实施方式中,为了提高所得到的目标手写图像的真实性,还可以获取真实样本图像,其中所述真实样本图像中包含有真实手写内容。之后可以利用风格提取模型获取所述真实样本图像对应的真实手写风格特征,具体的,所述真实手写风格特征例如可以是实际书写时所展现出的光照、阴影、纸张特性等特征。最终将所述真实手写风格特征融合至所述目标手写图像中得到优化手写图像。
具体的获取真实手写风格特征的方式可以参照步骤S120中利用风格提取模型来获取样本手写特征的方式。在具体实施时,扩散模型的输入为生成样本图像以及一张真实的样本图片,经过风格迁移网络将提取真实样本图片中的场景风格,并将风格迁移至生成的样本图像上,并输出最终需要的、人工生成的手写数据样本。
下面结合附图3利用一个具体的场景示例进行说明,在获取到训练样本之后,可以将训练样本输入ResNet50模型中,实现风格特征向量的提取。之后,通过随机生成手写特征向量,并对这些特征向量进行施密特反变换,结合随机文本序列、所述训练样本和风格特征向量,利用概率扩散模型生成对应的手写图像。再利用风格迁移网络提取不同风格的真实样本与所生成的手写图像相结合,最终得到不同风格的生成样本。
基于上述实施例和场景示例的介绍,可以看出,所述方法在生成手写图像时,可以先获取手写样本图像,并从手写样本图像中提取样本手写风格特征,从而直接利用所述样本手写风格特征来表现手写文字内容的风格。之后,通过将手写文字内容和样本手写风格特征输入扩散模型中,通过所述扩散模型利用噪声进行调整,最终得到至少两个目标样本图像。通过上述方法不仅有效扩大了手写样本图像的数量,也保证了目标手写图像与真实的手写图像之间的吻合程度,并保证了目标手写图像对应的风格不局限于训练用的样本数据的风格,提高了目标手写图像的多样性,在利用目标手写图像对相应模型进行训练时,保证了训练得到的模型对不同风格的手写图像识别时的准确度。
基于图1所对应的手写图像生成方法,介绍本说明书实施例一种模型训练方法。所述模型训练方法的执行主体为模型训练设备,所述模型训练设备包括但不限于服务器、工控机、PC机等。所述模型训练设备可以与手写图像生成设备是同一设备,也可以是不同的设备。如图4所示,所述模型训练方法可以包括以下具体实施步骤。
S410:获取手写训练图像;所述手写训练图像通过以下方式获取:获取手写样本图像;所述手写样本图像对应有手写文字内容;提取所述手写样本图像的样本手写风格特征;所述样本手写风格特征用于表示所述手写文字内容对应的风格;将手写文字内容和样本手写风格特征输入扩散模型中得到对应于所述手写样本图像的至少两个手写训练图像;所述扩散模型用于根据噪声调整所生成的目标样本图像;所述目标样本图像之间具有不同的手写风格特征。
手写训练图像可以是用于进行模型训练的图像。所述手写训练图像可以是对应于手写文字的图像。具体的,所述手写训练图像可以是基于一定的手写样本图像训练得到的图像。由于不同用户书写文字时具有不同的风格,因此为了保证识别效果,所述手写训练图像可以分别具备不同的手写风格,以使得训练得到的模型能够基于不同类型的手写风格实现图像中的文字识别。
优选的,所述手写训练图像可以对应有批注,用于指示所述手写训练图像中的手写文字的具体内容,以更好地实现模型的训练和优化。
所述手写训练图像的具体生成过程可以参照图1所对应的实施例中的描述,在此不再赘述。
S420:利用所述手写训练图像进行图像识别模型的训练;所述图像识别模型用于识别图像中的手写内容。
图像识别模型可以是预先构建的用于识别图像中的字符的模型,例如基于OCR的模型。具体的,在该实施例中,所述图形识别模型可以主要用于实现图像中的手写文字的识别。
因此,在获取到手写训练图像之后,可以利用所述手写训练图像对图像识别模型进行训练,以改善所述图像识别模型的识别效果和识别的准确率。
具体的利用手写训练图像对图像识别模型进行训练的过程可以结合图像识别模型自身的结构以及实际应用的需求进行训练,在此不再赘述。
基于图1所对应的手写图像生成方法,介绍本说明书实施例一种手写图像生成装置。所述手写图像生成装置设置于手写图像生成设备。如图5所示,所述手写图像生成装置包括以下模块。
手写样本图像获取模块510,用于获取手写样本图像;所述手写样本图像对应有手写文字内容。
样本手写风格特征提取模块520,用于提取所述手写样本图像的样本手写风格特征;所述样本手写风格特征用于表示所述手写文字内容对应的风格。
目标样本图像获取模块530,用于将手写文字内容和样本手写风格特征输入扩散模型中得到对应于所述手写样本图像的至少两个目标样本图像;所述扩散模型用于根据噪声调整所生成的目标样本图像;所述目标样本图像之间具有不同的手写风格特征。
基于图4所对应的模型训练方法,介绍本说明书实施例一种模型训练装置。所述模型训练装置设置于所述模型训练设备。如图6所示,所述模型训练装置包括以下模块。
手写训练图像获取模块610,用于获取手写训练图像;所述手写训练图像通过以下方式获取:获取手写样本图像;所述手写样本图像对应有手写文字内容;提取所述手写样本图像的样本手写风格特征;所述样本手写风格特征用于表示所述手写文字内容对应的风格;将手写文字内容和样本手写风格特征输入扩散模型中得到对应于所述手写样本图像的至少两个手写训练图像;所述扩散模型用于根据噪声调整所生成的目标样本图像;所述目标样本图像之间具有不同的手写风格特征。
图像识别模型训练模块620,用于利用所述手写训练图像进行图像识别模型的训练;所述图像识别模型用于识别图像中的手写内容。
基于图1所对应的手写图像生成方法,本说明书实施例提供一种手写图像生成设备。如图7所示,所述手写图像生成设备可以包括存储器和处理器。
在本实施例中,所述存储器可以按任何适当的方式实现。例如,所述存储器可以为只读存储器、机械硬盘、固态硬盘、或U盘等。所述存储器可以用于存储计算机程序指令。
在本实施例中,所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以执行所述计算机程序指令实现以下步骤:获取手写样本图像;所述手写样本图像对应有手写文字内容;提取所述手写样本图像的样本手写风格特征;所述样本手写风格特征用于表示所述手写文字内容对应的风格;将手写文字内容和样本手写风格特征输入扩散模型中得到对应于所述手写样本图像的至少两个目标样本图像;所述扩散模型用于根据噪声调整所生成的目标样本图像;所述目标样本图像之间具有不同的手写风格特征。
基于图4所对应的模型训练方法,本说明书实施例提供一种模型训练设备。如图8所示,所述模型训练设备可以包括存储器和处理器。
在本实施例中,所述存储器可以按任何适当的方式实现。例如,所述存储器可以为只读存储器、机械硬盘、固态硬盘、或U盘等。所述存储器可以用于存储计算机程序指令。
在本实施例中,所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以执行所述计算机程序指令实现以下步骤:获取手写训练图像;所述手写训练图像通过以下方式获取:获取手写样本图像;所述手写样本图像对应有手写文字内容;提取所述手写样本图像的样本手写风格特征;所述样本手写风格特征用于表示所述手写文字内容对应的风格;将手写文字内容和样本手写风格特征输入扩散模型中得到对应于所述手写样本图像的至少两个手写训练图像;所述扩散模型用于根据噪声调整所生成的目标样本图像;所述目标样本图像之间具有不同的手写风格特征;利用所述手写训练图像进行图像识别模型的训练;所述图像识别模型用于识别图像中的手写内容。
需要说明的是,上述手写图像生成方法、模型训练方法、装置及设备可以应用于人工智能技术领域,也可以应用至除人工智能技术领域外的其他技术领域,对此不做限制。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的第一硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书可用于众多第一或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims (12)

1.一种手写图像生成方法,其特征在于,包括:
获取手写样本图像;所述手写样本图像对应有手写文字内容;
提取所述手写样本图像的样本手写风格特征;所述样本手写风格特征用于表示所述手写文字内容对应的风格;
将手写文字内容和样本手写风格特征输入扩散模型中得到对应于所述手写样本图像的至少两个目标样本图像;所述扩散模型用于根据噪声调整所生成的目标样本图像;所述目标样本图像之间具有不同的手写风格特征。
2.如权利要求1所述的方法,其特征在于,所述扩散模型包括基于unet结构和StyleGan的生成模型。
3.如权利要求1所述的方法,其特征在于,所述提取所述手写样本图像的样本手写风格特征,包括:
利用风格提取模型提取所述手写样本图像中的样本手写风格特征。
4.如权利要求3所述的方法,其特征在于,所述风格提取模型通过以下方式获取:
获取至少一个训练样本集;所述训练样本集中包括两个第一用户手写图像和一个第二用户手写图像;所述第一用户手写图像包括由第一用户手写得到的数据;
利用预先构建的风格提取模型分别提取所述训练样本集中的手写图像的训练风格特征;
依次计算每两个训练风格特征的风格相同概率;所述风格相同概率用于表示两种训练风格特征对应于同一用户的概率;
基于所述风格相同概率对所述风格提取模型进行优化。
5.如权利要求3所述的方法,其特征在于,所述风格提取模型包括基于ResNet50架构的孪生网络。
6.如权利要求1所述的方法,其特征在于,所述将手写文字内容和样本手写风格特征输入扩散模型中得到对应于所述手写样本图像的至少两个目标样本图像之后,还包括:
获取真实样本图像;所述真实样本图像中包含有真实手写内容;
利用风格提取模型获取所述真实样本图像对应的真实手写风格特征;
将所述真实手写风格特征融合至所述目标样本图像中得到优化手写图像。
7.如权利要求1所述的方法,其特征在于,将手写文字内容和样本手写风格特征输入扩散模型中得到对应于所述手写样本图像的至少两个目标样本图像,包括:
利用至少两个样本手写风格特征构建特征集合;
针对所述特征集合进行施密特正交化变化得到正交特征集合;
将所述手写文字内容和正交特征集合输入扩散模型中得到对应于所述手写样本图像的至少两个目标样本图像。
8.一种手写图像生成装置,其特征在于,包括:
手写样本图像获取模块,用于获取手写样本图像;所述手写样本图像对应有手写文字内容;
样本手写风格特征提取模块,用于提取所述手写样本图像的样本手写风格特征;所述样本手写风格特征用于表示所述手写文字内容对应的风格;
目标样本图像获取模块,用于将手写文字内容和样本手写风格特征输入扩散模型中得到对应于所述手写样本图像的至少两个目标样本图像;所述扩散模型用于根据噪声调整所生成的目标样本图像;所述目标样本图像之间具有不同的手写风格特征。
9.一种手写图像生成设备,包括存储器和处理器;
所述存储器,用于存储计算机程序指令;
所述处理器,用于执行所述计算机程序指令以实现以下步骤:获取手写样本图像;所述手写样本图像对应有手写文字内容;提取所述手写样本图像的样本手写风格特征;所述样本手写风格特征用于表示所述手写文字内容对应的风格;将手写文字内容和样本手写风格特征输入扩散模型中得到对应于所述手写样本图像的至少两个目标样本图像;所述扩散模型用于根据噪声调整所生成的目标样本图像;所述目标样本图像之间具有不同的手写风格特征。
10.一种模型训练方法,其特征在于,包括:
获取手写训练图像;所述手写训练图像通过以下方式获取:获取手写样本图像;所述手写样本图像对应有手写文字内容;提取所述手写样本图像的样本手写风格特征;所述样本手写风格特征用于表示所述手写文字内容对应的风格;将手写文字内容和样本手写风格特征输入扩散模型中得到对应于所述手写样本图像的至少两个手写训练图像;所述扩散模型用于根据噪声调整所生成的目标样本图像;所述目标样本图像之间具有不同的手写风格特征;
利用所述手写训练图像进行图像识别模型的训练;所述图像识别模型用于识别图像中的手写内容。
11.一种模型训练装置,其特征在于,包括:
手写训练图像获取模块,用于获取手写训练图像;所述手写训练图像通过以下方式获取:获取手写样本图像;所述手写样本图像对应有手写文字内容;提取所述手写样本图像的样本手写风格特征;所述样本手写风格特征用于表示所述手写文字内容对应的风格;将手写文字内容和样本手写风格特征输入扩散模型中得到对应于所述手写样本图像的至少两个手写训练图像;所述扩散模型用于根据噪声调整所生成的目标样本图像;所述目标样本图像之间具有不同的手写风格特征;
图像识别模型训练模块,用于利用所述手写训练图像进行图像识别模型的训练;所述图像识别模型用于识别图像中的手写内容。
12.一种模型训练设备,包括存储器和处理器;
所述存储器,用于存储计算机程序指令;
所述处理器,用于执行所述计算机程序指令以实现以下步骤:获取手写训练图像;所述手写训练图像通过以下方式获取:获取手写样本图像;所述手写样本图像对应有手写文字内容;提取所述手写样本图像的样本手写风格特征;所述样本手写风格特征用于表示所述手写文字内容对应的风格;将手写文字内容和样本手写风格特征输入扩散模型中得到对应于所述手写样本图像的至少两个手写训练图像;所述扩散模型用于根据噪声调整所生成的目标样本图像;所述目标样本图像之间具有不同的手写风格特征;利用所述手写训练图像进行图像识别模型的训练;所述图像识别模型用于识别图像中的手写内容。
CN202110779401.1A 2021-07-09 2021-07-09 一种手写图像生成方法、模型训练方法、装置及设备 Pending CN113516136A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110779401.1A CN113516136A (zh) 2021-07-09 2021-07-09 一种手写图像生成方法、模型训练方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110779401.1A CN113516136A (zh) 2021-07-09 2021-07-09 一种手写图像生成方法、模型训练方法、装置及设备

Publications (1)

Publication Number Publication Date
CN113516136A true CN113516136A (zh) 2021-10-19

Family

ID=78067137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110779401.1A Pending CN113516136A (zh) 2021-07-09 2021-07-09 一种手写图像生成方法、模型训练方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113516136A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114820398A (zh) * 2022-07-01 2022-07-29 北京汉仪创新科技股份有限公司 基于扩散模型的图片字体替换方法、系统、设备和介质
CN115810215A (zh) * 2023-02-08 2023-03-17 科大讯飞股份有限公司 面部图像生成方法、装置、设备及存储介质
CN116306496A (zh) * 2023-03-17 2023-06-23 北京百度网讯科技有限公司 字符生成方法、字符生成模型的训练方法和装置
US11769239B1 (en) * 2023-05-08 2023-09-26 Intuit Inc. Model based document image enhancement

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114820398A (zh) * 2022-07-01 2022-07-29 北京汉仪创新科技股份有限公司 基于扩散模型的图片字体替换方法、系统、设备和介质
CN114820398B (zh) * 2022-07-01 2022-11-04 北京汉仪创新科技股份有限公司 基于扩散模型的图片字体替换方法、系统、设备和介质
CN115810215A (zh) * 2023-02-08 2023-03-17 科大讯飞股份有限公司 面部图像生成方法、装置、设备及存储介质
CN116306496A (zh) * 2023-03-17 2023-06-23 北京百度网讯科技有限公司 字符生成方法、字符生成模型的训练方法和装置
CN116306496B (zh) * 2023-03-17 2024-02-02 北京百度网讯科技有限公司 字符生成方法、字符生成模型的训练方法和装置
US11769239B1 (en) * 2023-05-08 2023-09-26 Intuit Inc. Model based document image enhancement

Similar Documents

Publication Publication Date Title
CN113516136A (zh) 一种手写图像生成方法、模型训练方法、装置及设备
CN111615702B (zh) 一种从图像中提取结构化数据的方法、装置和设备
JP7482783B2 (ja) フォント作成装置、フォント作成方法及びフォント作成プログラム
US11599727B2 (en) Intelligent text cleaning method and apparatus, and computer-readable storage medium
CN110968697B (zh) 文本分类方法、装置、设备及可读存储介质
CN110956678B (zh) 字形的处理方法和装置
CN111612081B (zh) 识别模型的训练方法、装置、设备及存储介质
Lin et al. Font generation based on least squares conditional generative adversarial nets
CN112084794A (zh) 一种藏汉翻译方法和装置
CN111985525A (zh) 基于多模态信息融合处理的文本识别方法
Inunganbi et al. Handwritten Meitei Mayek recognition using three‐channel convolution neural network of gradients and gray
CN108090044B (zh) 联系方式的识别方法和装置
Wicht et al. Mixed handwritten and printed digit recognition in Sudoku with Convolutional Deep Belief Network
CN115545009B (zh) 一种获取目标文本的数据处理系统
Sasipriyaa et al. Design and simulation of handwritten detection via generative adversarial networks and convolutional neural network
Desai et al. Adversarial Network for Photographic Image Synthesis from Fine-grained Captions
CN113128496B (zh) 一种从图像中提取结构化数据的方法、装置和设备
Wang et al. Font transfer based on parallel auto-encoder for glyph perturbation via strokes moving
Hu et al. Mathematical formula detection in document images: A new dataset and a new approach
CN109933969B (zh) 验证码识别方法、装置、电子设备及可读存储介质
Yin et al. Yi Characters Online Handwriting Recognition Models Based on Recurrent Neural Network: RnnNet-Yi and ParallelRnnNet-Yi
Wang et al. Deep learning for font recognition and retrieval
CN114399782B (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
CN113688803B (zh) 公式识别方法、装置、电子设备及存储介质
Wang et al. Letter Embedding Guidance Diffusion Model for Scene Text Editing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination