CN116704066A

CN116704066A - 图像生成模型的训练方法、装置、终端及存储介质

Info

Publication number: CN116704066A
Application number: CN202310720625.4A
Authority: CN
Inventors: 郑喜民; 黄嘉铉; 舒畅; 陈又新
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-09-05

Abstract

本申请实施例涉及数字医疗技术领域，具体提供了一种图像生成模型的训练方法、装置、终端以及存储介质。该方法包括：获得第一图像、第一文本目及图像匹配数据，将第一文本和第一图像输入至数据转换网络获得第一文本向量和第一图像向量；将第一文本向量和第一图像向量输入至图像生成网络获得第二图像并根据第一图像和第二图像获得损失函数；根据损失函数对图像生成模型进行迭代更新得到初调图像生成模型；将第一文本输入至初调图像生成模型获得第三图像；将第三图像和图像匹配数据输入至初调图像生成模型得到匹配结果；根据匹配结果对初调图像生成模型进行迭代更新得到目标图像生成模型。解决了生成图像丢失细节的问题，提高了生成图像的真实性。

Description

图像生成模型的训练方法、装置、终端及存储介质

技术领域

本申请涉及数字医疗技术领域，尤其涉及一种图像生成模型的训练方法、装置、终端及存储介质。

背景技术

近年来，受益于深度学习的突飞猛进，图像处理技术与计算机视觉应用在近年来取得了较大的进步，图像生成是计算机视觉领域的重要研究主题。其中生成对抗网络在图像生成方面取得了重大成果，高度拟合真实数据分布，因此广受到学术界和工业界的青睐。生成对抗网络在金融领域和数字医疗领域也备受关注，深度神经网络的成功更是让生成对抗网络的衍生模型层出不穷。

但是在生成精细化图像时，需要的模型环境资源要求高，对于个人或中小企业的经济压力比较大，降低模型参数进行模型训练所需要的计算资源低，虽然能保证生成图像的质量和合理性。但是模型生成的图像中，人脸和物体常常会丢失一些细节，例如，人脸的五官更容易出现扭曲，导致生成图像缺乏真实性。

发明内容

本申请实施例的主要目的在于提供一种图像生成模型的训练方法、装置、终端及存储介质，旨在解决在医疗领域中医生根据患者情况利用图像生成模型生成图像时，在降低图像生成模型训练所需的计算资源后，模型生成的图像中目标对象丢失细节的问题，进而提高图像生成模型在生成图像时的真实性。

第一方面，本申请实施例提供一种图像生成模型的训练方法，包括：

获得与目标对象类别匹配的目标图文配对数据集及图像匹配数据，其中，所述目标图文配对数据集包括第一图像和第一文本，所述第一文本用于描述所述第一图像，所述图像匹配数据用于存储所述目标对象类别对应的图像。

将所述第一文本和所述第一图像输入至初始图像生成模型的数据转换网络，获得所述第一文本对应的第一文本向量和所述第一图像对应的第一图像向量。

将所述第一文本向量和所述第一图像向量输入至所述初始图像生成模型的图像生成网络，获得所述第一文本向量对应的第二图像，并根据所述第一图像和所述第二图像获得损失函数。

基于所述目标图文配对数据集和所述损失函数对所述初始图像生成模型进行迭代更新，得到初调图像生成模型。

将所述第一文本输入至所述初调图像生成模型获得第三图像。

将所述第三图像和所述图像匹配数据输入至初调图像生成模型，得到匹配结果，所述匹配结果用于表征所述第三图像中所述目标对象类别对应的目标对象和所述图像匹配数据的相似度。

根据所述匹配结果对初调图像生成模型进行迭代更新得到目标图像生成模型。

第二方面，本申请实施例还提供一种图像生成模型训练装置，包括：

数据获取模块，用于获得与目标对象类别匹配的目标图文配对数据集及图像匹配数据，其中，所述目标图文配对数据集包括第一图像和第一文本，所述第一文本用于描述所述第一图像，所述图像匹配数据用于存储所述目标对象类别对应的图像。

数据转换模块，用于将所述第一文本和所述第一图像输入至初始图像生成模型的数据转换网络，获得所述第一文本对应的第一文本向量和所述第一图像对应的第一图像向量。

第一数据生成模块，用于将所述第一文本向量和所述第一图像向量输入至所述初始图像生成模型的图像生成网络，获得所述第一文本向量对应的第二图像，并根据所述第一图像和所述第二图像获得损失函数。

第一数据更新模块，用于基于所述目标图文配对数据集和所述损失函数对所述初始图像生成模型进行迭代更新，得到初调图像生成模型。

第二数据生成模块，用于将所述第一文本输入至所述初调图像生成模型获得第三图像。

数据计算模块，用于将所述第三图像和所述图像匹配数据输入至初调图像生成模型，得到匹配结果，所述匹配结果用于表征所述第三图像中所述目标对象类别对应的目标对象和所述图像匹配数据的相似度。

第二数据更新模块，用于根据所述匹配结果对初调图像生成模型进行迭代更新得到目标图像生成模型。

第三方面，本申请实施例还提供一种终端设备，终端包括处理器、存储器、存储在存储器上并可被处理器执行的计算机程序以及用于实现处理器和存储器之间的连接通信的数据总线，其中计算机程序被处理器执行时，实现如本申请说明书提供的任一项图像生成模型的训练方法的步骤。

第四方面，本申请实施例还提供一种存储介质，用于计算机可读存储，其特征在于，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现如本申请说明书提供的任一项的图像生成模型的训练方法的步骤。

本申请实施例提供一种图像生成模型的训练方法、装置、终端以及存储介质，其中，该训练方法包括获得与目标对象类别匹配的目标图文配对数据集及图像匹配数据，其中，目标图文配对数据集包括第一图像和第一文本，第一文本用于描述第一图像，图像匹配数据用于存储目标对象类别对应的图像；将第一文本和第一图像输入至初始图像生成模型的数据转换网络，进而将第一文本和第一图像转换为机器可以识别的信息，得到第一文本对应的第一文本向量和第一图像对应的第一图像向量；将第一文本向量和第一图像向量输入至初始图像生成模型的图像生成网络，根据第一文本向量将第一图像向量不断调整，生成与第一文本向量匹配的图像，进而获得第一文本向量对应的第二图像，并根据第一图像和第二图像获得损失函数；基于目标图文配对数据集和损失函数对初始图像生成模型进行迭代更新，得到初调图像生成模型；将第一文本输入至初调图像生成模型获得第三图像；将第三图像和图像匹配数据输入至初调图像生成模型，通过处理第三图像和图像匹配数据之间的相似度得到匹配结果，匹配结果用于表征第三图像中目标对象类别对应的目标对象和图像匹配数据的相似度；根据匹配结果对初调图像生成模型进行迭代更新得到目标图像生成模型，从而可以在医生根据患者情况依据图像生成模型生成图像时，若降低图像生成模型在训练所需的计算资源，获得的图像生成模型的基础上，对图像生成模型进行再次优化，解决了降低计算资源图像生成模型的生成图像中目标对象丢失细节的问题，也提高了图像生成模型在生成图像时的真实性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种图像生成模型的训练方法的流程示意图；

图2为本申请实施例提供的一种数据转换网络的结构示意图；

图3为本申请实施例提供的一种图像生成网络的结构示意图；

图4为本申请实施例提供的一种图像生成模型的结构示意图；

图5为本申请实施例提供的一种图像生成模型的训练装置的模块结构示意图；

图6为本申请实施例提供的一种终端设备的结构示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

本申请实施例提供一种图像生成模型的训练方法、装置、终端以及存储介质。其中，该图像生成模型的训练方法可应用于终端设备，该终端设备可以为平板电脑、笔记本电脑、个人数字助理、穿戴式设备或服务器，其中，服务器可以为独立的服务器，也可以为服务器集群。

其中，本申请实施例提供一种图像生成模型的训练方法、装置、终端以及存储介质，其中，该训练方法包括获得与目标对象类别匹配的目标图文配对数据集及图像匹配数据，其中，目标图文配对数据集包括第一图像和第一文本，第一文本用于描述第一图像，图像匹配数据用于存储目标对象类别对应的图像；将第一文本和第一图像输入至初始图像生成模型的数据转换网络，进而将第一文本和第一图像转换为机器可以识别的信息，得到第一文本对应的第一文本向量和第一图像对应的第一图像向量；将第一文本向量和第一图像向量输入至初始图像生成模型的图像生成网络，根据第一文本向量将第一图像向量不断调整，生成与第一文本向量匹配的图像，进而获得第一文本向量对应的第二图像，并根据第一图像和第二图像获得损失函数；基于目标图文配对数据集和损失函数对初始图像生成模型进行迭代更新，得到初调图像生成模型；将第一文本输入至初调图像生成模型获得第三图像；将第三图像和图像匹配数据输入至初调图像生成模型，通过处理第三图像和图像匹配数据之间的相似度得到匹配结果，匹配结果用于表征第三图像中目标对象类别对应的目标对象和图像匹配数据的相似度；根据匹配结果对初调图像生成模型进行迭代更新得到目标图像生成模型，从而可以在医生根据患者情况依据图像生成模型生成图像时，若降低图像生成模型在训练所需的计算资源时，获得的图像生成模型的基础上，对图像生成模型进行再次优化，解决了降低计算资源图像生成模型的生成图像中目标对象丢失细节的问题，也提高了图像生成模型在生成图像时的真实性和精确性。

下面结合附图，对本申请的一些实施例作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请实施例提供的一种图像生成模型的训练方法的流程示意图。

如图1所示，该图像生成模型的训练方法包括步骤S1至步骤S7。

步骤S1：获得与目标对象类别匹配的目标图文配对数据集及图像匹配数据，其中，所述目标图文配对数据集包括第一图像和第一文本，所述第一文本用于描述所述第一图像，所述图像匹配数据用于存储所述目标对象类别对应的图像。

示例性地，近年来，图像生成领域为深度学习的重要研究方向之一，从生成对抗网络提出以来，通过模型生成想要的图片已经不是难题，对于大型模型来说，如stablediffusion，图像的精细程度已经非常高，但是对于一般企业或者个人而言，对于训练这样一个大型模型，经济成本要求非常高，是一般企业或个人无法负担的，因此，对于他们而言只能使用有限数据来训练轻量化的模型，如latent diffusion。轻量化模型相比原始的大型模型训练所需的计算资源更低，也能保证生成图像的质量和合理性。但轻量化图像对人脸和精细物体生成时常常丢失一定的细节，如人脸的五官更是容易出现扭曲、器官生成较为变形。

为了解决图像生成模型在降低计算资源时，带来生成图像中丢失细节的问题。本申请提出一种在获得的图像生成模型的基础上，对图像生成模型进行再次优化。

示例性地，获得与目标对象类别匹配的目标图文配对数据集及图像匹配数据，其中，所述目标图文配对数据集包括第一图像和第一文本，所述第一文本用于描述所述第一图像，所述图像匹配数据用于存储所述目标对象类别对应的图像。获得图像生成模型的训练数据，训练数据包括图像和文本，文本是用于描述图像，图像和文本是成对出现。为了支撑后续对图像中的目标对象进行细节增强，需要确定与目标对象类别对应的图像匹配数据，方便后续生成图像中的目标对象与图像匹配数据进行运算。

例如，目标对象类别可以是人脸或猫或人体器官，若目标对象类别为肾脏时，获得图文配对数据集中有关肾脏的数据作为训练数据，并且根据目标对象类别准备相应的图像匹配数据。例如，若目标对象类别为肾脏，则图像匹配数据中的图像数据均为肾脏相关数据，若目标对象类别为心脏，则图像匹配数据中的图像数据均为心脏相关数据。

在一些实施方式中，所述获得与目标对象类别匹配的目标图文配对数据集及图像匹配数据，包括：确定目标对象类别及与目标对象类别对应的图像匹配数据，获得初始图文配对数据集，所述图文配对数据集包括初始图像和初始文本，所述初始文本用于描述所述初始图像；根据所述初始图像和目标检测模型，获得所述初始图像中对应的第一目标对象类别，并根据所述初始文本和命名实体识别模型，获得所述初始文本对应的第二目标对象类别；根据所述第一目标对象类别、所述第二目标对象类别和所述目标对象类别确定所述初始图文配对数据集中与目标对象类别匹配的目标图文配对数据集。

示例性地，确定目标对象类别，进而根据目标对象类别确定图像生成模型优化的方向，如目标对象类别为肾脏，则图像生成模型优化的是关于肾脏的细节，并且图像匹配数据中图像数据的内容均为肾脏相关的图像。

示例性地，图文配对数据集可以从开源数据集中获得，但是开源数据中数据质量参差不齐，或者存在冗余图像数据，需要根据图像-文本的内容对其进行过滤。进而提高图文配对数据集的质量，为后续图像生成模型的训练提供良好的支撑。

将图文配对数据集中的初始图像进行目标对象识别，获得初始图像中的目标对象类别，并将图文配对数据集中的初始文本进行文本识别，获得初始文本中的目标对象类别。根据初始图像中的目标对象类别和初始文本中的目标对象类别进行匹配，当两者不一致时可以判定图文数据不匹配，不能够作为目标图文配对数据集，当两者数据一致时则可以判定图文数据相匹配，可以作为目标图文配对数据集。同时为了保证目标图文配对数据集中存在目标对象类别对应的数据，需要将目标对象类别和初始图像中的目标对象类别或初始文本中的目标对象类别进行比对，进而保证目标图文配对数据集中存在目标对象类别对应的数据。

例如，对初始图像进行目标对象识别，检测出初始图像中的目标对象，并对目标对象进行分类识别出目标对象的类别。利用命名实体识别模型对初始文本中的实体进行识别，识别出初始文本中相应实体类别的词语。当初始图像中目标对象的类别和初始文本中词语的实体类别一致时，则该初始文本和初始图像对可以作为训练数据。

此外，为增强图像生成模型的泛化能力，在获得目标图文配对数据集时，也可以增加一些初始文本和初始图像对不匹配的数据对作为负样本，具体数据量根据需求设定即可。

在一些实施方式中，所述目标检测模型包括目标识别网络、位置检测网络，所述根据所述初始图像和目标检测模型，获得所述初始图像中对应的第一目标对象类别，包括：将所述初始图像输入至所述目标识别网络，利用所述目标识别网络获得所述初始图像中的预测目标对象类别；将所述初始图像和所述预测目标对象类别输入至所述位置检测网络，利用所述位置检测网络获得所述初始图像中的预测目标对象类别的第一位置信息；根据所述预测目标对象类别和所述第一位置信息，确定所述初始图像中对应的第一目标对象类别。

示例性地，目标检测模型主要包括两个任务，首先识别出初始图像中有哪些目标对象，其次检测出目标对象在图像中的位置，最后，根据目标对象和目标对象在图像中的位置，确定所述初始图像中对应的第一目标对象类别。

例如，目标检测模型可以由卷积层和分类功能的全连接层组成目标识别网络，当初始图像输入目标识别网络后可以识别出初始图像中目标对象属于哪一类。由卷积层和回归功能的全连接层组成位置检测网络，将初始图像和目标对象类别输入至位置检测网络后可以识别出初始图像中目标对象的位置信息，位置信息可以表征目标对象在初始图像中的方框位置。

步骤S2：将所述第一文本和所述第一图像输入至初始图像生成模型的数据转换网络，获得所述第一文本对应的第一文本向量和所述第一图像对应的第一图像向量。

示例性地，将目标图文配对数据集中的第一文本和第一图像，输入至初始图像生成模型的数据转换网络，将第一文本和第一图像数据转化为机器可以识别的语言。将输入的第一文本转换为一个向量表示，这个向量表示包含了第一文本的语义信息。第一图像本身就是机器可以读取的数据类型，经过数据转换网络对第一图像添加一些随机噪声获得第一图像向量，将添加随机噪声的第一图像向量和编码后的第一文本向量，生成一个扩散样本通过多次扩散步骤，图像生成模型逐渐生成出与第一图像相同的图像。

例如，将第一文本转换为机器识别语言使用的编码网络可以由若干个Transformer编码器组成，每个编码器包含了若干个自注意力层和若干个全连接层。这些层的作用是逐渐提取文本的特征，从而获得更高层次的语义信息。

在一些实施方式中，所述数据转换网络包括文本嵌入层、第一自注意力层、第一全连接层、图像编码层，所述将所述第一文本和所述第一图像输入至初始图像生成模型的数据转换网络，获得所述第一文本对应的第一文本向量和所述第一图像对应的第一图像向量，包括：将所述第一文本输入至所述文本嵌入层，利用所述文本嵌入层对所述第一文本进行向量表示，获得所述第一文本的第一特征向量；将所述第一特征向量输入至所述第一自注意力层，利用所述第一自注意力层提取所述第一文本不同位置之间的依赖关系，获得所述第一文本的第二特征向量；将所述第二特征向量输入至所述第一全连接层，利用所述第一全连接层将所述第一文本中不同位置的特征进行融合，获得所述第一文本对应的第一文本向量；将所述第一图像输入至所述图像编码层，利用所述图像编码层将所述第一图像转换为向量表达，并对所述向量表达添加随机噪声，获得所述第一图像对应的第一图像向量。

示例性地，数据转换网络主要用于实现将第一文本转化为机器可以识别的语言，第一图像添加随机噪声，以使得后续的图像生成网络能够将添加随机噪声的第一图像恢复出原有样式，进而达到图像生成的目的。其中，数据转换网络的结构示意图，如图2所示。

示例性地，将第一文本输入至文本嵌入层，利用文本嵌入层对第一文本进行向量表示，此时是对第一文本中的文本单词进行向量表示，可以利用onehot、word embedding等方式，将第一文本中的文本单词进行向量表示获得第一特征向量。将第一特征向量输入至第一自注意力层让模型关注文本中不同位置之间的依赖关系，从而更好地利用文本的上下文信息，进而获得第一文本的第二特征向量。再将第二特征向量输入至第一全连接层，利用第一全连接层将第一文本中不同位置的特征进行融合起来，从而获得更全局的语义信息，获得第一文本对应的第一文本向量。

示例性地，将第一图像输入至图像编码层，利用图像编码层将第一图像转换为向量表达，并对向量表达添加随机噪声，获得第一图像对应的第一图像向量，或者直接由图像编码层生成一个随机向量(噪声)作为第一图像对应的第一图像向量。

步骤S3：将所述第一文本向量和所述第一图像向量输入至所述初始图像生成模型的图像生成网络，获得所述第一文本向量对应的第二图像，并根据所述第一图像和所述第二图像获得损失函数。

示例性地，将第一文本向量和第一图像向量输入到图像生成网络中，根据第一文本向量限制图像生成的方向，进而不断调整第一图像向量，逐渐将第一图像向量表示转换为目标图像，即第二图像。当第二图像越来越接近第一图像时，表示图像生成模型已经满足需求，若第二图像和第一图像相差较大时，则表明该模型的误差很大，不足以满足需求。

在一些实施方式中，所述图像生成网络包括第二自注意力层、第二全连接层、卷积网络层，所述将所述第一文本向量和所述第一图像向量输入至所述初始图像生成模型的图像生成网络，获得所述第一文本向量对应的第二图像，包括：将所述第一文本向量和所述第一图像向量进行向量拼接，获得第一拼接向量；将所述第一拼接向量输入至所述图像生成网络的第二自注意力层，利用所述第二自注意力层提取所述第一拼接向量不同位置之间的依赖关系，获得所述第一拼接向量的第三特征向量；将所述第三特征向量输入至所述图像生成网络的第二全连接层，利用所述第二全连接层将所述第一拼接向量中不同位置的特征进行融合，获得所述第一拼接向量对应的第四特征向量；将所述第四特征向量输入至所述图像生成网络的卷积网络层，利用所述卷积网络层将所述第四特征向量转化为图像信息，进而获得所述第一文本向量对应的第二图像。

示例性地，如图3所示。图像生成网络包括第二自注意力层、第二全连接层、卷积网络层，首先，对输入的第一文本向量述第一图像向量进行向量拼接，获得第一拼接向量，将第一拼接向量输入到第二自注意力层中学习不同位置之间的依赖关系，获得第三特征向量。将第三特征向量输入至第二全连接层将不同位置的特征进行融合，获得第四特征向量；将第四特征向量输入至卷积网络层，卷积网络层用于逐渐将第四特征向量转换为一张图像。最终，生成的图像会通过一个sigmoid函数进行激活，从而得到像素值在0到1之间的输出图像。

例如，图像生成网络的结构可以是Transformer解码器，进而利用Transformer解码器获得第一文本向量对应的第二图像。

步骤S4：基于所述目标图文配对数据集和所述损失函数对所述初始图像生成模型进行迭代更新，得到初调图像生成模型。

示例性地，根据目标图文配对数据集不断更新初始图像生成模型的参数，当模型训练轮次满足预设轮次，或者损失函数满足设置的阈值时，则停止迭代更新，得到初调图像生成模型。

例如，根据模型评估结果分析得出模型缺乏泛化能力，则此时需要增加目标训练数据或者增加训练轮次；若根据模型评估结果分析得出模型过拟合，则此时需要降低训练轮次。

步骤S5：将所述第一文本输入至所述初调图像生成模型获得第三图像。

示例性地，获得初调图像生成模型之后，利用初调图像生成模型根据文本输出图像，此时，将第一文本输入初调图像生成模型获得第三图像，为模型训练后，图像生成模型在第一文本输入下，输出的图像样式。

例如，当第一文本经过初调图像生成模型获得的第三图像，第三图像与第二图像相同时，则认为初调图像生成模型已经达到最优，但是由于环境条件的限制或者模型训练的轮次等原因，第三图像与第二图像还是会存在一些差距，此时，需要根据第三图像进行优化使其不断接近于第二图像。

步骤S6：将所述第三图像和所述图像匹配数据输入至初调图像生成模型，得到匹配结果，所述匹配结果用于表征所述第三图像中所述目标对象类别对应的目标对象和所述图像匹配数据的相似度。

示例性地，训练所需资源较少，但缺点为生成图片的清晰度不足，一般需要进行后期超分处理，而且模型一般对生成物体的大致元素把握较好，但细节描绘较差，例如心脏与真实心脏有较大差距，而且训练过程中没有判别器，所以容易丢失细节。为了提升生成图像的真实程度，需要加入损失函数来指导模型对图片细节的生成。

将第三图像和图像匹配数据输入至初调图像生成模型，获得第三图像中目标对象类别对应的目标对象的位置信息，根据位置信息获得目标对象类别在第三图像中的数据信息，根据目标对象类别在第三图像中的数据信息与图像匹配数据中的数据进行相似度计算，获得第三图像和图像匹配数据的匹配结果。

例如，目标对象类别为心脏，图像匹配数据中的图像数据均为心脏。第三图像输入初调图像生成模型获得第三图像中心脏的位置信息并根据位置信息获得第三图像中心脏的数据信息，将数据信息跟图像匹配数据中的数据进行相似度计算。相似度计算方式可以采用余弦相似度。由于图像匹配数据中存在多张图像，可以将数据信息跟图像匹配数据中每一张图片均进行相似度计算之后，进行求和取平均即可作为匹配结果。

在一些实施方式中，所述初调图像生成模型还包括图像矫正网络，所述图像矫正网络包括目标检测层、图像计算层，所述将所述第三图像和所述图像匹配数据输入至初调图像生成模型，得到匹配结果，包括：将所述第三图像输入至所述目标检测层，得到所述第三图像中与所述目标对象类别匹配的图像信息；将所述图像信息和所述图像匹配数据输入至所述图像计算层，利用所述图像计算层对所述图像信息和所述图像匹配数据进行相似度计算，得到所述第三图像和所述图像匹配数据的所述匹配结果。

示例性地，如图4所示，图像生成模型包括数据转换网络、图像生成网络、图像矫正网络，在对初始图像生成模型进行训练获得初调图像生成模型时，只使用图像生成模型中的数据转换网络和图像生成网络；当需要对初调图像生成模型进行生成图像的细节训练时，需要数据传输至将图像矫正网络进行初调图像生成模型的继续训练。

示例性地，利用目标检测层获得第三图像中与目标对象类别匹配的图像信息；再根据图像计算层将图像信息和图像匹配数据进行相似度计算，第三图像和图像匹配数据的匹配结果。

例如，第一文本中有心脏的描述，则目标检测层对生成的第三图像做心脏检测，若未检测到心脏，将相似度置0。若检测到心脏，将心脏区域与图像匹配数据进行比对，比对过程计算生成心脏与图像匹配数据中心脏的余弦相似度，该相似度计算图片特征向量间的余弦距离，距离越小越相似。

步骤S7：根据所述匹配结果对初调图像生成模型进行迭代更新得到目标图像生成模型。

示例性地，当匹配结果越大，则第三图像和图像匹配数据越相似，损失越小。需要注意的是，期望生成的图片中，目标对象类别的图像数据不应该与图像匹配数据过于相似，否则容易失去模型的创造性，此时可以设置一个阈值，如0.20<损失<0.4，在保证生成的图像相对真实但并不影响模型的创造性。

在一些实施方式中，所述根据所述匹配结果对初调图像生成模型进行迭代更新得到目标图像生成模型，包括:当所述匹配结果满足预设范围时，则停止对所述初调图像生成模型进行迭代更新，得到目标图像生成模型；当所述匹配结果不满足预设范围时，则更新所述初调图像生成模型的参数，继续对所述初调图像生成模型进行优化。

示例性地，为了在保证图像生成模型的生成图像具有相对真实但并不降低图像生成模型的创造性条件下，匹配结果并不是越小越好，需要在合理的范围内，使图像生成模型既提高了生成图像的真实性或细节信息，又保留了图像生成模型的创造力。

例如，图像生成图像获得生成图像后，开始检测图片中的目标对象类别，如人脸，同时与图像匹配数据进行比较，计算余弦相似度来计算损失，若有多个人脸，则分别计算每个人脸与图像匹配数据的相似度，再求取均值或者只取最大值作为整张图的相似度，所有图片的相似度计算完毕后，根据相似度确定损失值，再根据设置的损失阈值条件决定是否终止训练，判断完毕后根据损失值更新模型的参数，开始新一轮训练。最终获得目标图像生成模型。

目标图像生成模型解决了现有模型生成图像中局部经常会出现反常识和不自然的情况，比如手部的指头数量异常，面部扭曲等问题。新损失函数的加入将使得输出的图像更加真实自然，精细度也得到提升，这样生成的图片能满足一定程度的商业使用。

其中，目标图像生成模型可以应用在数字医疗领域中，根据文字生成相关图像用于数字医疗领域的知识宣传或者病例演示。

当医生需要根据患者自身情况，生成与之相匹配的器官状态时，可以利用目标图像生成模型进行生成，输入与患者自身情况相关的文本信息，进而根据目标图像生成模型获得清晰不变形的器官图片，进而更好的辅助医生向患者讲述患者自身的问题，更能引起患者自己更加重视自身状态，从而可以更好的辅助医生。

或者，在医院需要进行医学知识宣讲时，若直接采用患者的病例照片可能会造成患者的隐私泄漏，此时，就可以采用目标图像生成模型生成相关的图片，进而帮助医院更好的宣传医学知识，也让公众更加清楚直观的了解医学知识。

请参阅图5，图5为本申请实施例提供的一种图像生成模型训练装置200，该图像生成模型训练装置200包括数据获取模块201、数据转换模块202、第一数据生成模块203、第一数据更新模块204、第二数据生成模块205、数据计算模块206、第二数据更新模块207，其中，数据获取模块201，用于获得与目标对象类别匹配的目标图文配对数据集及图像匹配数据，其中，所述目标图文配对数据集包括第一图像和第一文本，所述第一文本用于描述所述第一图像，所述图像匹配数据用于存储所述目标对象类别对应的图像；数据转换模块202，用于将所述第一文本和所述第一图像输入至初始图像生成模型的数据转换网络，获得所述第一文本对应的第一文本向量和所述第一图像对应的第一图像向量；第一数据生成模块203，用于将所述第一文本向量和所述第一图像向量输入至所述初始图像生成模型的图像生成网络，获得所述第一文本向量对应的第二图像，并根据所述第一图像和所述第二图像获得损失函数；第一数据更新模块204，用于基于所述目标图文配对数据集和所述损失函数对所述初始图像生成模型进行迭代更新，得到初调图像生成模型；第二数据生成模块205，用于将所述第一文本输入至所述初调图像生成模型获得第三图像；数据计算模块206，用于将所述第三图像和所述图像匹配数据输入至初调图像生成模型，得到匹配结果，所述匹配结果用于表征所述第三图像中所述目标对象类别对应的目标对象和所述图像匹配数据的相似度；第二数据更新模块207，用于根据所述匹配结果对初调图像生成模型进行迭代更新得到目标图像生成模型。

在一些实施方式中，数据获取模块201在所述获得与目标对象类别匹配的目标图文配对数据集及图像匹配数据过程中，执行：

确定目标对象类别及与目标对象类别对应的图像匹配数据，获得初始图文配对数据集，所述图文配对数据集包括初始图像和初始文本，所述初始文本用于描述所述初始图像；

根据所述初始图像和目标检测模型，获得所述初始图像中对应的第一目标对象类别，并根据所述初始文本和命名实体识别模型，获得所述初始文本对应的第二目标对象类别；

根据所述第一目标对象类别、所述第二目标对象类别和所述目标对象类别确定所述初始图文配对数据集中与目标对象类别匹配的目标图文配对数据集。

在一些实施方式中，数据获取模块201在所述目标检测模型包括目标识别网络、位置检测网络，所述根据所述初始图像和目标检测模型，获得所述初始图像中对应的第一目标对象类别过程中，执行：

将所述初始图像输入至所述目标识别网络，利用所述目标识别网络获得所述初始图像中的预测目标对象类别；

将所述初始图像和所述预测目标对象类别输入至所述位置检测网络，利用所述位置检测网络获得所述初始图像中的预测目标对象类别的第一位置信息；

根据所述预测目标对象类别和所述第一位置信息，确定所述初始图像中对应的第一目标对象类别。

在一些实施方式中，数据转换模块202在所述数据转换网络包括文本嵌入层、第一自注意力层、第一全连接层、图像编码层，所述将所述第一文本和所述第一图像输入至初始图像生成模型的数据转换网络，获得所述第一文本对应的第一文本向量和所述第一图像对应的第一图像向量过程中，执行：

将所述第一文本输入至所述文本嵌入层，利用所述文本嵌入层对所述第一文本进行向量表示，获得所述第一文本的第一特征向量；

将所述第一特征向量输入至所述第一自注意力层，利用所述第一自注意力层提取所述第一文本不同位置之间的依赖关系，获得所述第一文本的第二特征向量；

将所述第二特征向量输入至所述第一全连接层，利用所述第一全连接层将所述第一文本中不同位置的特征进行融合，获得所述第一文本对应的第一文本向量；

将所述第一图像输入至所述图像编码层，利用所述图像编码层将所述第一图像转换为向量表达，并对所述向量表达添加随机噪声，获得所述第一图像对应的第一图像向量。

在一些实施方式中，第一数据生成模块203在所述图像生成网络包括第二自注意力层、第二全连接层、卷积网络层，所述将所述第一文本向量和所述第一图像向量输入至所述初始图像生成模型的图像生成网络，获得所述第一文本向量对应的第二图像过程中，执行：

将所述第一文本向量和所述第一图像向量进行向量拼接，获得第一拼接向量；

将所述第一拼接向量输入至所述图像生成网络的第二自注意力层，利用所述第二自注意力层提取所述第一拼接向量不同位置之间的依赖关系，获得所述第一拼接向量的第三特征向量；

将所述第三特征向量输入至所述图像生成网络的第二全连接层，利用所述第二全连接层将所述第一拼接向量中不同位置的特征进行融合，获得所述第一拼接向量对应的第四特征向量；

将所述第四特征向量输入至所述图像生成网络的卷积网络层，利用所述卷积网络层将所述第四特征向量转化为图像信息，进而获得所述第一文本向量对应的第二图像。

在一些实施方式中，第二数据生成模块205在所述初调图像生成模型还包括图像矫正网络，所述图像矫正网络包括目标检测层、图像计算层，所述将所述第三图像和所述图像匹配数据输入至初调图像生成模型，得到匹配结果过程中，执行：

将所述第三图像输入至所述目标检测层，得到所述第三图像中与所述目标对象类别匹配的图像信息；

将所述图像信息和所述图像匹配数据输入至所述图像计算层，利用所述图像计算层对所述图像信息和所述图像匹配数据进行相似度计算，得到所述第三图像和所述图像匹配数据的所述匹配结果。

在一些实施方式中，数据计算模块206在所述根据所述匹配结果对初调图像生成模型进行迭代更新得到目标图像生成模型过程中，执行:

当所述匹配结果满足预设范围时，则停止对所述初调图像生成模型进行迭代更新，得到目标图像生成模型；

当所述匹配结果不满足预设范围时，则更新所述初调图像生成模型的参数，继续对所述初调图像生成模型进行优化。

在一些实施方式中，图像生成模型训练装置200应用于终端设备。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述图像生成模型的训练方法实施例中的对应过程，在此不再赘述。

请参阅图6，图6为本申请实施例提供的终端设备的结构示意性框图。

如图6所示，终端设备300包括处理器301和存储器302，处理器301和存储器302通过总线303连接，该总线比如为I2C(Inter-integrated Circuit)总线。

具体地，处理器301用于提供计算和控制能力，支撑整个服务器的运行。处理器301可以是中央处理单元(Central Processing Unit，CPU)，该处理器301还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

具体地，存储器302可以是Flash芯片、只读存储器(ROM，Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请实施例方案相关的部分结构的框图，并不构成对本申请实施例方案所应用于其上的终端设备的限定，具体的终端设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，处理器301用于运行存储在存储器中的计算机程序，并在执行计算机程序时实现本申请任一实施例提供的图像生成模型的训练方法。

在一些实施方式中，处理器301用于运行存储在存储器中的计算机程序，应用于终端设备，并在执行计算机程序时实现如下步骤：

获得与目标对象类别匹配的目标图文配对数据集及图像匹配数据，其中，所述目标图文配对数据集包括第一图像和第一文本，所述第一文本用于描述所述第一图像，所述图像匹配数据用于存储所述目标对象类别对应的图像；

将所述第一文本和所述第一图像输入至初始图像生成模型的数据转换网络，获得所述第一文本对应的第一文本向量和所述第一图像对应的第一图像向量；

将所述第一文本向量和所述第一图像向量输入至所述初始图像生成模型的图像生成网络，获得所述第一文本向量对应的第二图像，并根据所述第一图像和所述第二图像获得损失函数；

基于所述目标图文配对数据集和所述损失函数对所述初始图像生成模型进行迭代更新，得到初调图像生成模型；

将所述第一文本输入至所述初调图像生成模型获得第三图像；

将所述第三图像和所述图像匹配数据输入至初调图像生成模型，得到匹配结果，所述匹配结果用于表征所述第三图像中所述目标对象类别对应的目标对象和所述图像匹配数据的相似度；

在一些实施方式中，处理器301在所述获得与目标对象类别匹配的目标图文配对数据集及图像匹配数据过程中，执行：

在一些实施方式中，所述目标检测模型包括目标识别网络、位置检测网络，处理器301在所述根据所述初始图像和目标检测模型，获得所述初始图像中对应的第一目标对象类别过程中，执行：

在一些实施方式中，所述数据转换网络包括文本嵌入层、第一自注意力层、第一全连接层、图像编码层，处理器301在所述将所述第一文本和所述第一图像输入至初始图像生成模型的数据转换网络，获得所述第一文本对应的第一文本向量和所述第一图像对应的第一图像向量过程中，执行：

在一些实施方式中，所述图像生成网络包括第二自注意力层、第二全连接层、卷积网络层，处理器301在所述将所述第一文本向量和所述第一图像向量输入至所述初始图像生成模型的图像生成网络，获得所述第一文本向量对应的第二图像过程中，执行：

在一些实施方式中，所述初调图像生成模型还包括图像矫正网络，所述图像矫正网络包括目标检测层、图像计算层，处理器301在所述将所述第三图像和所述图像匹配数据输入至初调图像生成模型，得到匹配结果过程中，执行：

在一些实施方式中，处理器301在所述根据所述匹配结果对初调图像生成模型进行迭代更新得到目标图像生成模型过程中，执行:

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的终端设备的具体工作过程，可以参考前述图像生成模型的训练方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种存储介质，用于计算机可读存储，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现如本申请说明书实施例提供的任一项图像生成模型的训练方法的步骤。

其中，存储介质可以是前述实施例的终端设备的内部存储单元，例如终端设备内存。存储介质也可以是终端设备的外部存储设备，例如终端设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施例中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上，仅为本申请的具体实施例，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像生成模型的训练方法，其特征在于，所述训练方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获得与目标对象类别匹配的目标图文配对数据集及图像匹配数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述目标检测模型包括目标识别网络、位置检测网络，所述根据所述初始图像和目标检测模型，获得所述初始图像中对应的第一目标对象类别，包括：

4.根据权利要求1所述的方法，其特征在于，所述数据转换网络包括文本嵌入层、第一自注意力层、第一全连接层、图像编码层，所述将所述第一文本和所述第一图像输入至初始图像生成模型的数据转换网络，获得所述第一文本对应的第一文本向量和所述第一图像对应的第一图像向量，包括：

5.根据权利要求1所述的方法，其特征在于，所述图像生成网络包括第二自注意力层、第二全连接层、卷积网络层，所述将所述第一文本向量和所述第一图像向量输入至所述初始图像生成模型的图像生成网络，获得所述第一文本向量对应的第二图像，包括：

6.根据权利要求1所述的方法，其特征在于，所述初调图像生成模型还包括图像矫正网络，所述图像矫正网络包括目标检测层、图像计算层，所述将所述第三图像和所述图像匹配数据输入至初调图像生成模型，得到匹配结果，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述匹配结果对初调图像生成模型进行迭代更新得到目标图像生成模型，包括:

8.一种图像生成模型的训练装置，其特征在于，包括：

数据获取模块，用于获得与目标对象类别匹配的目标图文配对数据集及图像匹配数据，其中，所述目标图文配对数据集包括第一图像和第一文本，所述第一文本用于描述所述第一图像，所述图像匹配数据用于存储所述目标对象类别对应的图像；

数据转换模块，用于将所述第一文本和所述第一图像输入至初始图像生成模型的数据转换网络，获得所述第一文本对应的第一文本向量和所述第一图像对应的第一图像向量；

第一数据生成模块，用于将所述第一文本向量和所述第一图像向量输入至所述初始图像生成模型的图像生成网络，获得所述第一文本向量对应的第二图像，并根据所述第一图像和所述第二图像获得损失函数；

第一数据更新模块，用于基于所述目标图文配对数据集和所述损失函数对所述初始图像生成模型进行迭代更新，得到初调图像生成模型；

第二数据生成模块，用于将所述第一文本输入至所述初调图像生成模型获得第三图像；

数据计算模块，用于将所述第三图像和所述图像匹配数据输入至初调图像生成模型，得到匹配结果，所述匹配结果用于表征所述第三图像中所述目标对象类别对应的目标对象和所述图像匹配数据的相似度；

9.一种终端设备，其特征在于，所述终端设备包括处理器、存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7中任一项所述的图像生成模型的训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项所述的图像生成模型的训练方法步骤的步骤。