CN112614197A - 图像生成方法、装置、计算机设备和存储介质 - Google Patents

图像生成方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112614197A
CN112614197A CN202011320171.4A CN202011320171A CN112614197A CN 112614197 A CN112614197 A CN 112614197A CN 202011320171 A CN202011320171 A CN 202011320171A CN 112614197 A CN112614197 A CN 112614197A
Authority
CN
China
Prior art keywords
training
target
corpus information
images
augmented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011320171.4A
Other languages
English (en)
Inventor
孟云龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Eye Control Technology Co Ltd
Original Assignee
Shanghai Eye Control Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eye Control Technology Co Ltd filed Critical Shanghai Eye Control Technology Co Ltd
Priority to CN202011320171.4A priority Critical patent/CN112614197A/zh
Publication of CN112614197A publication Critical patent/CN112614197A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种图像生成方法、装置、计算机设备和存储介质。方法包括:获取目标语料信息,对所述目标语料信息进行扩增处理得到至少两个扩增语料信息;将至少两个所述扩增语料信息分别输入至预先训练的对抗网络中,以根据所述对抗网络模型中预先确定的模型参数对各所述扩增语料信息进行处理得到至少两个内容模态不同的目标图像,所述对抗网络是基于预设的调控函数确定的差异指标训练生成。采用本方法能够提高生成的目标图像的多样性。

Description

图像生成方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种图像生成方法、装置、计算机设备和存储介质。
背景技术
随着大数据技术的发展,在应用大数据技术时,会需要大批量数据,以进行后续的数据应用。例如,在有些场景下需要获取文字语料对应的多个图像数据。
在传统方式中,根据一个文字语料只能得到一个图像数据,存在输出的图像数据较为单一,缺乏多样性。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高图像生成多样性的图像生成方法、装置、计算机设备和存储介质。
一种图像生成方法,方法包括:
获取目标语料信息,对目标语料信息进行扩增处理得到至少两个扩增语料信息;
将至少两个扩增语料信息分别输入至预先训练的对抗网络中,以根据对抗网络模型中预先确定的模型参数对各扩增语料信息进行处理得到至少两个内容模态不同的目标图像,对抗网络是基于预设的调控函数确定的差异指标训练生成。
在一个实施例中,对目标语料信息进行扩增处理得到至少两个扩增语料信息,包括:
从分布序列中读取的至少两个不相等的向量作为潜向量,潜向量的数量与目标图像的数量一致,目标图像的数量至少为两个,分布序列的积分值为预设值;
将各潜向量与目标语料信息进行拼接处理,得到每一个目标语料信息对应的扩增语料信息。
在一个实施例中,将至少两个扩增语料信息分别输入至预先训练的对抗网络中,以根据对抗网络模型中预先确定的模型参数对各扩增语料信息进行处理得到至少两个内容模态不同的目标图像,对抗网络是基于预设的调控函数确定的差异指标训练生成,包括:
将训练扩增语料信息分别输入模式增广条件生成的对抗网络中,输出对应各扩增语料信息分别对应的目标图像,多个目标图像的内容模态不同,模式增广条件生成的对抗网络是基于预设的调控函数确定的差异指标训练生成,预设的调控函数是根据各不同内容模态的目标图像以及对应各不同内容模态的目标图像的潜向量确定的。
在一个实施例中,对抗网络的训练方式,包括:
获取训练语料信息,基于模式增广条件对训练语料信息进行扩增处理得到训练扩增语料信息;
将训练扩增语料信息输入至对抗网络中,以根据对抗网络的当前训练参数对各训练扩增语料信息进行处理得到每一个训练扩增语料信息对应的训练图像;
基于预设的调控函数确定不同的训练图像之间的差异值;
根据差异值确定不同的训练图像之间的差异指标,将差异指标最大时对应的当前训练参数作为目标训练参数,并根据目标训练参数得到训练好的对抗网络。
在一个实施例中,基于预设的调控函数确定不同的训练图像之间的差异值,包括:
根据训练图像之间的差值确定第一差值;
根据训练图像对应的潜向量之间的差值确定第二差值;
根据第一差值与第二差值的相对值确定训练图像之间的差异值。
在一个实施例中,对抗网络模型的训练方式包括:
将各扩增语料信息输入至对抗网络模型的生成器中,根据生成器中预设的初始生成器参数对扩增语料信息进行处理得到实景图像;
将实景图像与目标语料信息进行配对处理得到配对图像;
将配对图像输入至对抗网络中的鉴别器中,以根据鉴别器中预设的初始鉴别器参数对配对图像进行真伪鉴别得到鉴别结果;
根据鉴别结果确定损失值,根据损失值确定的参数梯度对对抗网络的鉴别器进行训练得到目标鉴别器。
在一个实施例中,对抗网络模型的训练方式包括:
将配对图像输入至对抗网络中的目标鉴别器中,以根据目标鉴别器中预设的目标鉴别器参数对配对图像进行真伪鉴别得到鉴别结果;
根据鉴别结果确定损失值,根据损失值确定的参数梯度对对抗网络的生成器进行训练得到目标生成器。
一种图像生成装置,装置包括:
获取模块,用于获取目标语料信息,对目标语料信息进行扩增处理得到至少两个扩增语料信息;
生成模块,用于将至少两个扩增语料信息分别输入至预先训练的对抗网络中,以根据对抗网络模型中预先确定的模型参数对各扩增语料信息进行处理得到至少两个内容模态不同的目标图像,对抗网络是基于预设的调控函数确定的差异指标训练生成。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序实现上述各方法实施例中的步骤。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
上述图像生成方法、装置、计算机设备和存储介质,获取目标语料信息,通过对目标语料信息进行扩增处理得到至少两个扩增语料信息,并将至少两个扩增语料信息分别输入至预先训练的对抗网络中,以根据对抗网络中预先确定的模型参数对各扩增语料信息进行处理得到至少两个内容模态不同的目标图像。由于对抗网络是基于预设的调控函数确定的差异指标训练生成的,进而保证了根据一个语料信息就可以得到至少两个内容模态不同的目标图像的目的,提高了输出目标图像的多样性。
附图说明
图1为一个实施例中图像生成方法的应用环境图;
图2为一个实施例中图像生成方法的流程示意图;
图3为一个实施例中提供的一种对抗网络的训练方式流程示意图;
图4为一个实施例中提供的一种基于对抗网络生成多个模态不同的目标图像的示意图;
图5为一个实施例中图像生成装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的图像生成方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104获取目标语料信息,对目标语料信息进行扩增处理得到至少两个扩增语料信息;将至少两个扩增语料信息分别输入至预先训练的对抗网络中,以根据对抗网络模型中预先确定的模型参数对各扩增语料信息进行处理得到至少两个内容模态不同的目标图像,对抗网络是基于预设的调控函数确定的差异指标训练生成。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种图像生成方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,获取目标语料信息,对目标语料信息进行扩增处理得到至少两个扩增语料信息。
其中,目标语料信息可以是一个语义描述信息,如“大雨”、“大雾”以及“树上一只鸟”等。扩增语料信息是对目标语料信息进行扩增处理后得到的信息,如扩增处理具体是将目标语料转换为编码信息,在一个实施例中根据自然语言处理算法将目标语料转换为编码信息,扩增处理还可以包括获取干扰信息,根据干扰信息以及图像信息的组合得到扩增语料信息。
在一个实施例中,扩增语料信息是对目标语料信息的进一步描述,在不改变目标语料基本语义的基础上对目标语料的进一步修饰,具体可以是通过对目标语料的进一步扩展以在目标语料信息的基础上增加或者减少部分信息。如对目标语料“树上一只鸟”进行扩增处理得到的扩增语料信息可以是“树上一只白色的鸟”等。如还可以是对目标语料信息首先进行自然语言处理得到图像信息,然后对图像信息进一步扩展处理得到扩增语料信息,具体可以是在图像信息的基础上增加一个随机序列,根据图像信息以及随机序列得到目标扩增信息,或者还可以是对图像信息对应的像素矩阵进行扩展处理等,在此不作限制。
具体地,服务器获取输入数据即文字语料库,将文字语料库中的语料作为目标语料x,并对输入的目标语料x执行条件扩增处理得到c,然后获取至少两个随机向量z1以及z2,并根据每一个随机向量分别与目标语料x进行组合,得到与随机向量个数相同的组合数据(c,z1)以及(c,z2),并根据组合数据确定扩增语料信息。
步骤S203,将至少两个扩增语料信息分别输入至预先训练的对抗网络中,以根据对抗网络模型中预先确定的模型参数对各扩增语料信息进行处理得到至少两个内容模态不同的目标图像,对抗网络是基于预设的调控函数确定的差异指标训练生成。
其中,内容模态可以用目标图像的图像内容来表征,一般来说,目标图像之间的差异大于预设值时,可以认为是内容模态不同的两张目标图像。也就是说,内容模态不同的图像之间的色彩、亮度等信息存在一定的差异性。调控函数是一个自定义的函数,是一个用于表征不同目标图像之间差异值的函数,其中差异值的差异程度可以根据差异指标来确定,一般差异指标越大,说明目标图像之间的差别程度越大,越能表示是内容模态不同的两张图像。其中,对抗网络的训练过程是基于预设的调控函数确定的差异指标确定的,故而得到的训练好的对抗网络就能输出差异指标较大的不同目标图像,进而实现根据一个目标语料输出多张内容模态不同的目标图像的技术目的,提高输出图像的多样性。
具体地,服务器将至少两个扩增语料信息分别输入至预先训练的机器学习模型中,以根据机器学习模型中预先确定的模型参数对各扩增语料信息进行处理得到至少两个目标图像,机器学习模型是通过模式增广条件生成的对抗网络。
其中,机器学习模型是预先训练得到的,具体地机器学习模型可以是通过模式增广条件生成的对抗网络。模式增广条件是指利用扩增处理得到的扩增语料信息作为训练集训练得到的网络。对抗网络是一个具有生成器和鉴别器的网络,通过生成器和鉴别器的配合操作实现对目标扩增语料的处理得到预测的目标图像。
具体地,将确定的扩增语料信息(c,z1)以及(c,z2)输入堆叠生成的对抗网络的生成器,生成语料信息对应的图像数据G1(c,z1)以及G2(c,z2)。生成的图像数据G1(c,z1)以及G2(c,z2)和对抗网络生成的变换后实景图像构成配对图像{x,G1(c,z1)}以及{x,G2(c,z2)},将配对图像{x,G1(c,z1)}以及{x,G2(c,z2)}输入鉴别器D,判断输入配对的真伪。
生成对抗网络存在模型的模式坍塌问题,在条件生成对抗网络(GAN,GenerativeAdversarial Networks)中,模式坍塌问题更加凸显,严重限制了生成图像的多样性,在实际应用中,如何同时保证生成图像的视觉质量和图像的多样性是一项有挑战行的工作。基于条件生成对抗网络将文字转换图像的过程中,同时保持生成图像的视觉质量和图像多样性是非常有必要的。本申请提出了模式增广条件生成对抗网络来缓解传统的经典条件生成对抗网络中可能存在的严重模式坍塌问题,改善生成图像的质量和多样性。本申请基于模式增广条件生成对抗网络在将文字语料信息转换为图像时,可以生成多模态图像结果,扩增了生成图像结果的多样性,同时增加图像的视觉效果。
上述图像生成方法,获取目标语料信息,通过对目标语料信息进行扩增处理得到至少两个扩增语料信息,并将至少两个扩增语料信息分别输入至预先训练的机器学习模型中,以根据机器学习模型中预先确定的图像生成参数对各目标语料信息进行处理得到至少两个目标图像,进而实现了根据一个语料信息就可以得到至少两个目标图像的目的,提高了输出目标图像的多样性。
在一个实施例中,对目标语料信息进行扩增处理得到至少两个扩增语料信息,包括:获取潜向量,潜向量的数量与目标图像的数量一致,目标图像的数量至少为两个;将各潜向量与目标语料信息进行拼接处理,得到每一个目标语料信息对应的扩增语料信息。
其中潜向量可以是从符合正态分布的数据中提取得到的,并且提取得到的潜向量的个数与要得到的目标图像的数量一致。如在一个实施例中,要想获取两个目标图像,那么需要从正太分布数据中提取至少两个潜向量,以根据至少两个潜向量分别对目标语料信息进行扩增处理得到至少两个扩增语料信息,进而根据至少两个扩增语料信息得到与之对应的至少两个目标图像。
其中,符合正太分布的数据可以是高斯分布数据等,在此不做限制。具体是从高斯分布中随机采样抽出两个潜向量z,变更将潜向量与目标语料进行拼接得到(c,z1)以及(c,z2)。
在一个实施例中,获取潜向量,包括:从分布序列中读取至少两个不相等的向量作为潜向量,分布序列的积分值为预设值。
分布序列的积分可以是1,其中分布序列具体可以是高斯分布序列以及均匀分布序列等,在此不作限制。
上述实施例中,通过配置不同的潜向量作为调整参数,并基于调整参数对目标语料进行扩增处理,生成对应目标语料的多个扩增语料信息,可以使得生成的目标图像各不相同。具体是利用潜向量对目标语料进行扩增处理,进而实现对目标语料的扩增处理以得到扩增语料信息,使得输入至对抗网络中的扩增语料信息的信息量更加丰富,以得到更加多样的目标图像。并且,上述实施例中的潜向量获取简单、高效、灵活,也使得本申请中的方案可以适用于更多的场景。
在一个实施例中,将至少两个扩增语料信息分别输入至预先训练的对抗网络中,以根据对抗网络模型中预先确定的模型参数对各扩增语料信息进行处理得到至少两个内容模态不同的目标图像,对抗网络是基于预设的调控函数确定的差异指标训练生成,包括:将训练扩增语料信息分别输入模式增广条件生成的对抗网络中,输出对应各扩增语料信息分别对应的目标图像,多个目标图像的内容模态不同,模式增广条件生成的对抗网络是基于预设的调控函数确定的差异指标训练生成,预设的调控函数是根据各不同内容模态的目标图像以及对应各不同内容模态的目标图像的潜向量确定的。
如图3,图3为一个实施例中提供的一种对抗网络的训练方式流程示意图,包括:
步骤302,获取训练语料信息,基于模式增广条件对训练语料信息进行扩增处理得到训练扩增语料。
具体地,服务器获取训练语料信息作为输入的训练样本数据,具体是准备一批配对的文字语料库以及图像数据,训练样本的数据格式与上述在具体使用过程中的目标语料信息以及目标图像的格式一致。
步骤304,将训练扩增语料信息输入至对抗网络中,以根据对抗网络的当前训练参数对各训练扩增语料信息进行处理得到每一个训练扩增语料信息对应的训练图像。
具体地,服务器根据预设的扩增处理算法对目标语料信息进行扩增处理得到扩增语料信息,具体是对输入的文字语料库的目标语料信息进行条件扩增得到c,然后从高斯分布中随机采样抽出两个潜向量z1以及z2,并将c与z1以及z2分别进行拼接得到(c,z1)以及(c,z2)。然后将得到的(c,z1)以及(c,z2)分别输入至对抗网络中,利用对抗网络中当前的训练参数对输入的数据进行处理得到训练图像。
步骤306,基于预设的调控函数确定不同的训练图像之间的差异值。
步骤308,根据差异值确定不同的训练图像之间的差异指标,将差异指标最大时对应的当前训练参数作为目标训练参数,并根据目标训练参数得到训练好的对抗网络。
其中,差异值是用于度量不同训练图像之间差异程度的数值,差异值可以同通过计算训练图像之间的像素值差值得到。具体地,服务器计算得到的训练图像之间的差异值,具体是当输出两个训练图像时,服务器计算两个训练图像之间的差异值,在其他实施例中,当输出的训练图像包括多于两个的图像时,还包括分别计算多个图像之间的差异值,以使得多个图像之间的差异值最大化,进而保证最后得到的目标图像之间的差异性最大,实现得到的目标图像的多样性。
上述实施例中,通过控制不同训练图像之间的差异值来控制对抗网络的训练参数,并且当得到的差异值最大化时,将此时的训练参数作为目标训练参数,进而保证通过目标训练参数确定的对抗网络能够输出差异化最大的目标图像,进而保证输出图像的全面以及多样性。
在一个实施例中,基于预设的调控函数确定不同的训练图像之间的差异值,包括:根据训练图像之间的差值确定第一差值;根据训练图像对应的潜向量之间的差值确定第二差值;根据第一差值与第二差值的相对值确定训练图像之间的差异值。
具体地,服务器获取不同训练图像分别对应的图像矩阵,计算图像矩阵之间的差值得到第一差值。具体可以分别计算不同训练图像的平均像素值,根据平均像素值确定不同训练图像之间的差值,或者还可以对不同训练图像进行分区处理,根据各分区图像对应的差值确定不同训练图像之间的差值。需要说明的是,在通过分区处理计算差异值时,还可以包括对不同分区设置不同的权重,以使得最关注的区域可以具有较高的权重,再计算差异值时能够占比更大,因为人眼对最关注区域图像比较敏感,通过设置更大的权重能够使得差异值的确定更加符合实际情况,也更加精准。在另外的实施例中,还可以计算不同训练图像之间的相似值,根据相似值确定不同训练图像之间的差值。其中相似值的计算方式包括但不限于结构相似度算法、余弦相似度算法、互信息相似度算法以及指纹相似度算法等。需要说明的是,通过计算不同训练图像之间的相似度确定不同训练图像之间的差值,可以从多个维度来度量不同训练图像的差异性,使得差异性的获取更加精准以及可靠。
同理,计算潜向量之间的差值的方式包括但不限于直接计算潜向量中每一个数据之间的差值,根据每一个数据之间的差值确定第二差值,也可以是根据潜向量的数据分布情况计算潜向量之间差值,或者也可以是通过其他方式计算潜向量之间的差值,在此不作限制。
然后服务器获取第一差值以及第二差值计算相对值,根据相对值确定训练图像之间的差异性。其中,相对值可以是第一差值与第二差值的比值,或者也可以是第一差值与第二差值之间的其他数学计算值。如公式(1)所示,为一个实施例中提供的一种计算不同训练图像之间差异值的计算公式。
Figure BDA0002792619700000101
具体地,服务器随机从正态分布N(0,1)中取两个不相等的潜向量z1,z2,在编码器和解码器之间的潜空间输入,要求生成器对应的输出实景图像G(E(x),z1)和G(E(x),z2),并且根据公式(1)计算实景图像之间的差异值D,并且当差异值对应的数值D为最大时,将当前的训练参数作为目标训练参数。
上述实施例中,服务器在对多模态条件生成对抗网络进行训练的时候,使得调控函数确定的差异指标的数值尽可能大,即使得输出训练图像G(E(x),z1)和G(E(x),z2)差异性尽可能大,以使得通过训练后的多模态条件生成对抗网络可以生成差异性较大的多个目标图像,可以提升生成的目标图像的多样性。
并且,根据获取到的训练样本对机器学习模型进行训练,当达到训练结束条件时,结束训练得到训练好的机器学习模型。其中训练结束条件包括但不限于训练的迭代次数达到预设次数或者训练精度达到预设精度或者训练时间达到预设时间等。
上述实施例中,在训练机器学习模型的过程中,通过预定义一个差异计算公式来限定模型训练的过程,进而可以得到差异化最大的训练图像,以及得到的机器学习模型更加符合实际的需求,得到的目标图像之间的差异最大化,实现目标图像的多样性以及全面性。
在一个实施例中,机器学习模型是通过模式增广条件生成的对抗网络模型;对抗网络模型的训练方式包括:将各扩增语料信息输入至对抗网络模型的生成器中,根据生成器中预设的初始生成器参数对扩增语料信息进行处理得到实景图像;将实景图像与目标语料信息进行配对处理得到配对图像;将配对图像输入至对抗网络中的鉴别器中,以根据鉴别器中预设的初始鉴别器参数对配对图像进行真伪鉴别得到鉴别结果;根据鉴别结果确定损失值,根据损失值确定的参数梯度对对抗网络的鉴别器进行训练得到目标鉴别器。
具体地,训练对抗网络的过程包括训练对抗网络中的鉴别器以及对抗网络中的生成器。其中训练鉴别器网络D的过程包括:将拼接为(c,z)的数据输入至堆叠生成对抗网络的生成器G中,得到生成的实景图像G(c,z),将输入文字语料库和生成的图像G(c,z)进行配对,得到配对图像{x,G(c,z)}。并将配对图像输入鉴别器网络D,输出配对真伪结果D(x,G(c,z)),根据鉴别器输出标签结果计算损失函数,得到对应梯度,再通过反向传播技术对网络进行优化,从而使鉴别器网络D得到训练。
在一个实施例中,对抗网络模型的训练方式包括:将配对图像输入至对抗网络中的目标鉴别器中,以根据目标鉴别器中预设的目标鉴别器参数对配对图像进行真伪鉴别得到鉴别结果;根据鉴别结果确定损失值,根据损失值确定的参数梯度对对抗网络的生成器进行训练得到目标生成器。
具体地,在服务器中训练生成器网络G的步骤包括:获取目标鉴别器,并维持目标鉴别器网络D的权重不变,将输入的文字语料库和生成的图像G(c,z)进行配对,得到配对图像{x,G(c,z)},并将配对图像输入鉴别器网络D,输出配对真伪结果D(x,G(c,z))),根据鉴别器输出标签结果计算损失函数,得到对应梯度,再通过反向传播技术对网络进行优化,从而训练生成器网络G。
上述实施例中,通过逐步训练对抗网络中的鉴别器以及生成器,进而得到训练好的对抗网络,提高了网络的训练效率以及训练精度。
在一个具体地实施例中,本申请提供的方法的步骤包括:服务器获取终端输入的文字信息如目标语料x,然后对目标语料执行条件扩增得到至少两个目标扩增信息(c,z1)以及(c,z2),其中条件扩增是指通过高斯分布添加随机扰动。然后将至少两个目标扩增信息(c,z1)以及(c,z2)输入至模型中,并根据自定义的max函数限制最终得到的两幅目标图像的差别为最大的,这样就可以得到至少两张的目标图像了。需要说明的是,对于多于两张目标图像的获取方法与两张目标图像的获取方法类似,在此不作赘述。
传统的经典条件生成对抗网络(cGANs)在训练存在模式坍塌的问题(modecollapse problem),直接运用条件生成对抗网络进行文字到图像的变换,结果通常是一对一的(one-to-one mapping),这与通常人类的直觉是不一致的,人类本身构建图像变换是一对多(one-to-many mapping)或者多对多(many-to-many mapping)的输出结果。本申请设计的模式增广条件生成对抗网络通过调控潜向量,要求潜向量不同时,输出的目标图像的结果差异化最大,实现了多模态文字图像生成增强,增加了生成图像的多样性,同时保证了生成图像具备较好的图像质量。
如图4,图4为一个实施例中提供的一种基于对抗网络生成多个模态不同的目标图像的示意图,从图4中可以看出,基于输入的目标语料c,并基于潜向量z1以及z2对目标语料进行扩增处理后得到的扩增语料信息输入至对抗网络中,进而得到两张内容模态不同的目标图像I1以及I2。其中,对抗网络是基于预先设置的调控函数进行训练得到的。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种图像生成装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:
获取模块502,用于获取目标语料信息,对目标语料信息进行扩增处理得到至少两个扩增语料信息。
生成模块504,用于将至少两个扩增语料信息分别输入至预先训练的对抗网络中,以根据对抗网络模型中预先确定的模型参数对各扩增语料信息进行处理得到至少两个内容模态不同的目标图像,对抗网络是基于预设的调控函数确定的差异指标训练生成。
在一个实施例中,获取模块502还用于从分布序列中读取的至少两个不相等的向量作为潜向量,潜向量的数量与目标图像的数量一致,目标图像的数量至少为两个,分布序列的积分值为预设值;将各潜向量与目标语料信息进行拼接处理,得到每一个目标语料信息对应的扩增语料信息。
在一个实施例中,生成模块504还用于将训练扩增语料信息分别输入模式增广条件生成的对抗网络中,输出对应各扩增语料信息分别对应的目标图像,多个目标图像的内容模态不同,模式增广条件生成的对抗网络是基于预设的调控函数确定的差异指标训练生成,预设的调控函数是根据各不同内容模态的目标图像以及对应各不同内容模态的目标图像的潜向量确定的。
在一个实施例中,图像生成装置还包括训练模块,训练模块用于获取训练语料信息,基于模式增广条件对训练语料信息进行扩增处理得到训练扩增语料信息;将训练扩增语料信息输入至对抗网络中,以根据对抗网络的当前训练参数对各训练扩增语料信息进行处理得到每一个训练扩增语料信息对应的训练图像;基于预设的调控函数确定不同的训练图像之间的差异值;根据差异值确定不同的训练图像之间的差异指标,将差异指标最大时对应的当前训练参数作为目标训练参数,并根据目标训练参数得到训练好的对抗网络。
在一个实施例中,训练模块还用于根据训练图像之间的差值确定第一差值;根据训练图像对应的潜向量之间的差值确定第二差值;根据第一差值与第二差值的相对值确定训练图像之间的差异值。
在一个实施例中,图像生成装置还包括训练模块还用于将各扩增语料信息输入至对抗网络模型的生成器中,根据生成器中预设的初始生成器参数对扩增语料信息进行处理得到实景图像;将实景图像与目标语料信息进行配对处理得到配对图像;将配对图像输入至对抗网络中的鉴别器中,以根据鉴别器中预设的初始鉴别器参数对配对图像进行真伪鉴别得到鉴别结果;根据鉴别结果确定损失值,根据损失值确定的参数梯度对对抗网络的鉴别器进行训练得到目标鉴别器。
在一个实施例中,图像生成装置还包括训练模块还用于将配对图像输入至对抗网络中的目标鉴别器中,以根据目标鉴别器中预设的目标鉴别器参数对配对图像进行真伪鉴别得到鉴别结果;根据鉴别结果确定损失值,根据损失值确定的参数梯度对对抗网络的生成器进行训练得到目标生成器。
关于图像生成装置的具体限定可以参见上文中对于图像生成方法的限定,在此不再赘述。上述图像生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像生成数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像生成方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现:获取目标语料信息,对目标语料信息进行扩增处理得到至少两个扩增语料信息;将至少两个扩增语料信息分别输入至预先训练的对抗网络中,以根据对抗网络模型中预先确定的模型参数对各扩增语料信息进行处理得到至少两个内容模态不同的目标图像,对抗网络是基于预设的调控函数确定的差异指标训练生成。
在一个实施例中,处理器执行计算机程序时还用于实现:从分布序列中读取的至少两个不相等的向量作为潜向量,潜向量的数量与目标图像的数量一致,目标图像的数量至少为两个,分布序列的积分值为预设值;将各潜向量与目标语料信息进行拼接处理,得到每一个目标语料信息对应的扩增语料信息。
在一个实施例中,处理器执行计算机程序时还用于实现:将训练扩增语料信息分别输入模式增广条件生成的对抗网络中,输出对应各扩增语料信息分别对应的目标图像,多个目标图像的内容模态不同,模式增广条件生成的对抗网络是基于预设的调控函数确定的差异指标训练生成,预设的调控函数是根据各不同内容模态的目标图像以及对应各不同内容模态的目标图像的潜向量确定的。
在一个实施例中,在一个实施例中,处理器执行计算机程序时还用于实现:获取训练语料信息,基于模式增广条件对训练语料信息进行扩增处理得到训练扩增语料信息;将训练扩增语料信息输入至对抗网络中,以根据对抗网络的当前训练参数对各训练扩增语料信息进行处理得到每一个训练扩增语料信息对应的训练图像;基于预设的调控函数确定不同的训练图像之间的差异值;根据差异值确定不同的训练图像之间的差异指标,将差异指标最大时对应的当前训练参数作为目标训练参数,并根据目标训练参数得到训练好的对抗网络。
在一个实施例中,在一个实施例中,处理器执行计算机程序时还用于实现:根据训练图像之间的差值确定第一差值;根据训练图像对应的潜向量之间的差值确定第二差值;根据第一差值与第二差值的相对值确定训练图像之间的差异值。
在一个实施例中,在一个实施例中,处理器执行计算机程序时还用于实现:将各扩增语料信息输入至对抗网络模型的生成器中,根据生成器中预设的初始生成器参数对扩增语料信息进行处理得到实景图像;将实景图像与目标语料信息进行配对处理得到配对图像;将配对图像输入至对抗网络中的鉴别器中,以根据鉴别器中预设的初始鉴别器参数对配对图像进行真伪鉴别得到鉴别结果;根据鉴别结果确定损失值,根据损失值确定的参数梯度对对抗网络的鉴别器进行训练得到目标鉴别器。
在一个实施例中,在一个实施例中,处理器执行计算机程序时还用于实现:将配对图像输入至对抗网络中的目标鉴别器中,以根据目标鉴别器中预设的目标鉴别器参数对配对图像进行真伪鉴别得到鉴别结果;根据鉴别结果确定损失值,根据损失值确定的参数梯度对对抗网络的生成器进行训练得到目标生成器。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现:获取目标语料信息,对目标语料信息进行扩增处理得到至少两个扩增语料信息;将至少两个扩增语料信息分别输入至预先训练的对抗网络中,以根据对抗网络模型中预先确定的模型参数对各扩增语料信息进行处理得到至少两个内容模态不同的目标图像,对抗网络是基于预设的调控函数确定的差异指标训练生成。
在一个实施例中,计算机程序被处理器执行时还用于实现:从分布序列中读取的至少两个不相等的向量作为潜向量,潜向量的数量与目标图像的数量一致,目标图像的数量至少为两个,分布序列的积分值为预设值;将各潜向量与目标语料信息进行拼接处理,得到每一个目标语料信息对应的扩增语料信息。
在一个实施例中,计算机程序被处理器执行时还用于实现:将训练扩增语料信息分别输入模式增广条件生成的对抗网络中,输出对应各扩增语料信息分别对应的目标图像,多个目标图像的内容模态不同,模式增广条件生成的对抗网络是基于预设的调控函数确定的差异指标训练生成,预设的调控函数是根据各不同内容模态的目标图像以及对应各不同内容模态的目标图像的潜向量确定的。
在一个实施例中,计算机程序被处理器执行时还用于实现:获取训练语料信息,基于模式增广条件对训练语料信息进行扩增处理得到训练扩增语料信息;将训练扩增语料信息输入至对抗网络中,以根据对抗网络的当前训练参数对各训练扩增语料信息进行处理得到每一个训练扩增语料信息对应的训练图像;基于预设的调控函数确定不同的训练图像之间的差异值;根据差异值确定不同的训练图像之间的差异指标,将差异指标最大时对应的当前训练参数作为目标训练参数,并根据目标训练参数得到训练好的对抗网络。
在一个实施例中,计算机程序被处理器执行时还用于实现:根据训练图像之间的差值确定第一差值;根据训练图像对应的潜向量之间的差值确定第二差值;根据第一差值与第二差值的相对值确定训练图像之间的差异值。
在一个实施例中,计算机程序被处理器执行时还用于实现:将各扩增语料信息输入至对抗网络模型的生成器中,根据生成器中预设的初始生成器参数对扩增语料信息进行处理得到实景图像;将实景图像与目标语料信息进行配对处理得到配对图像;将配对图像输入至对抗网络中的鉴别器中,以根据鉴别器中预设的初始鉴别器参数对配对图像进行真伪鉴别得到鉴别结果;根据鉴别结果确定损失值,根据损失值确定的参数梯度对对抗网络的鉴别器进行训练得到目标鉴别器。
在一个实施例中,计算机程序被处理器执行时还用于实现:将配对图像输入至对抗网络中的目标鉴别器中,以根据目标鉴别器中预设的目标鉴别器参数对配对图像进行真伪鉴别得到鉴别结果;根据鉴别结果确定损失值,根据损失值确定的参数梯度对对抗网络的生成器进行训练得到目标生成器。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种图像生成方法,其特征在于,所述方法包括:
获取目标语料信息,对所述目标语料信息进行扩增处理得到至少两个扩增语料信息;
将至少两个所述扩增语料信息分别输入至预先训练的对抗网络中,以根据所述对抗网络模型中预先确定的模型参数对各所述扩增语料信息进行处理得到至少两个内容模态不同的目标图像,所述对抗网络是基于预设的调控函数确定的差异指标训练生成。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标语料信息进行扩增处理得到至少两个扩增语料信息,包括:
从分布序列中读取的至少两个不相等的向量作为潜向量,所述潜向量的数量与所述目标图像的数量一致,所述目标图像的数量至少为两个,所述分布序列的积分值为预设值;
将各所述潜向量与所述目标语料信息进行拼接处理,得到每一个所述目标语料信息对应的扩增语料信息。
3.根据权利要求2所述的方法,其特征在于,所述将至少两个所述扩增语料信息分别输入至预先训练的对抗网络中,以根据所述对抗网络模型中预先确定的模型参数对各所述扩增语料信息进行处理得到至少两个内容模态不同的目标图像,所述对抗网络是基于预设的调控函数确定的差异指标训练生成,包括:
将所述训练扩增语料信息分别输入模式增广条件生成的对抗网络中,输出对应各所述扩增语料信息分别对应的目标图像,多个所述目标图像的内容模态不同,所述模式增广条件生成的所述对抗网络是基于预设的调控函数确定的差异指标训练生成,预设的所述调控函数是根据各不同内容模态的所述目标图像以及对应各不同内容模态的所述目标图像的所述潜向量确定的。
4.根据权利要求1所述的方法,其特征在于,所述对抗网络的训练方式,包括:
获取训练语料信息,基于模式增广条件对所述训练语料信息进行扩增处理得到训练扩增语料信息;
将所述训练扩增语料信息输入至对抗网络中,以根据所述对抗网络的当前训练参数对各所述训练扩增语料信息进行处理得到每一个所述训练扩增语料信息对应的训练图像;
基于预设的调控函数确定不同的所述训练图像之间的差异值;
根据所述差异值确定不同的所述训练图像之间的差异指标,将所述差异指标最大时对应的当前训练参数作为目标训练参数,并根据所述目标训练参数得到训练好的对抗网络。
5.根据权利要求4所述的方法,其特征在于,所述基于预设的调控函数确定不同的所述训练图像之间的差异值,包括:
根据所述训练图像之间的差值确定第一差值;
根据所述训练图像对应的潜向量之间的差值确定第二差值;
根据所述第一差值与所述第二差值的相对值确定所述训练图像之间的差异值。
6.根据权利要求4所述的方法,其特征在于,所述对抗网络模型的训练方式包括:
将各所述扩增语料信息输入至对所述抗网络模型的生成器中,根据所述生成器中预设的初始生成器参数对所述扩增语料信息进行处理得到实景图像;
将所述实景图像与所述目标语料信息进行配对处理得到配对图像;
将所述配对图像输入至对抗网络中的鉴别器中,以根据所述鉴别器中预设的初始鉴别器参数对所述配对图像进行真伪鉴别得到鉴别结果;
根据所述鉴别结果确定损失值,根据所述损失值确定的参数梯度对所述对抗网络的所述鉴别器进行训练得到目标鉴别器。
7.根据权利要求6所述的方法,其特征在于,所述对抗网络模型的训练方式包括:
将所述配对图像输入至所述对抗网络中的所述目标鉴别器中,以根据所述目标鉴别器中预设的目标鉴别器参数对所述配对图像进行真伪鉴别得到鉴别结果;
根据所述鉴别结果确定损失值,根据所述损失值确定的参数梯度对所述对抗网络的生成器进行训练得到目标生成器。
8.一种图像生成装置,其特征在于,所述装置包括:
获取模块,用于获取目标语料信息,对所述目标语料信息进行扩增处理得到至少两个扩增语料信息;
生成模块,用于将至少两个所述扩增语料信息分别输入至预先训练的对抗网络中,以根据所述对抗网络模型中预先确定的模型参数对各所述扩增语料信息进行处理得到至少两个内容模态不同的目标图像,所述对抗网络是基于预设的调控函数确定的差异指标训练生成。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011320171.4A 2020-11-23 2020-11-23 图像生成方法、装置、计算机设备和存储介质 Pending CN112614197A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011320171.4A CN112614197A (zh) 2020-11-23 2020-11-23 图像生成方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011320171.4A CN112614197A (zh) 2020-11-23 2020-11-23 图像生成方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN112614197A true CN112614197A (zh) 2021-04-06

Family

ID=75224942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011320171.4A Pending CN112614197A (zh) 2020-11-23 2020-11-23 图像生成方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112614197A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591917A (zh) * 2021-06-29 2021-11-02 深圳市捷顺科技实业股份有限公司 一种数据增强的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275780A (zh) * 2020-01-09 2020-06-12 北京搜狐新媒体信息技术有限公司 人物图像的生成方法及装置
US20200335086A1 (en) * 2019-04-19 2020-10-22 Behavioral Signal Technologies, Inc. Speech data augmentation
CN111860555A (zh) * 2019-04-30 2020-10-30 北京京东尚科信息技术有限公司 图像处理方法、装置以及存储介质
CN111859092A (zh) * 2020-07-29 2020-10-30 苏州思必驰信息科技有限公司 文本语料扩增方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200335086A1 (en) * 2019-04-19 2020-10-22 Behavioral Signal Technologies, Inc. Speech data augmentation
CN111860555A (zh) * 2019-04-30 2020-10-30 北京京东尚科信息技术有限公司 图像处理方法、装置以及存储介质
CN111275780A (zh) * 2020-01-09 2020-06-12 北京搜狐新媒体信息技术有限公司 人物图像的生成方法及装置
CN111859092A (zh) * 2020-07-29 2020-10-30 苏州思必驰信息科技有限公司 文本语料扩增方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591917A (zh) * 2021-06-29 2021-11-02 深圳市捷顺科技实业股份有限公司 一种数据增强的方法及装置
CN113591917B (zh) * 2021-06-29 2024-04-09 深圳市捷顺科技实业股份有限公司 一种数据增强的方法及装置

Similar Documents

Publication Publication Date Title
CN111950638B (zh) 基于模型蒸馏的图像分类方法、装置和电子设备
CN114140603B (zh) 虚拟形象生成模型的训练方法和虚拟形象生成方法
CN114943789A (zh) 一种图像处理方法、模型训练方法及相关装置
CN113434699B (zh) 用于文本匹配的bert模型的预训练方法、计算机装置和存储介质
CN111898735A (zh) 蒸馏学习方法、装置、计算机设备和存储介质
CN111325322A (zh) 基于隐私保护的深度学习方法、系统、服务器及存储介质
CN113610232A (zh) 网络模型量化方法、装置、计算机设备以及存储介质
CN113822953A (zh) 图像生成器的处理方法、图像生成方法及装置
US20230021551A1 (en) Using training images and scaled training images to train an image segmentation model
CN113761220A (zh) 信息获取方法、装置、设备及存储介质
CN114612290A (zh) 图像编辑模型的训练方法和图像编辑方法
CN111125408A (zh) 基于特征提取的搜索方法、装置、计算机设备和存储介质
CN113641797A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN114972010A (zh) 图像处理方法、装置、计算机设备、存储介质及程序产品
CN112614197A (zh) 图像生成方法、装置、计算机设备和存储介质
JP7414357B2 (ja) テキスト処理方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体
CN117216591A (zh) 三维模型匹配、多模态特征映射模型的训练方法及装置
CN112183303A (zh) 变电设备图像分类方法、装置、计算机设备和介质
CN107403145B (zh) 图像特征点定位方法及装置
CN113361510B (zh) 超分网络模型训练方法、装置、电子设备以及存储介质
CN113743593B (zh) 神经网络量化方法、系统、存储介质及终端
CN111754589A (zh) 配色方法、装置、计算机设备及存储介质
US20230244929A1 (en) Learning device, generation method, inference device, inference method, and program
CN110502715B (zh) 点击概率的预测方法及装置
CN113836266A (zh) 基于bert的自然语言处理方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination