CN115631261A

CN115631261A - 图像生成模型的训练方法、图像生成方法和装置

Info

Publication number: CN115631261A
Application number: CN202211269934.6A
Authority: CN
Inventors: 冯智达; 张振宇; 余欣彤; 李岚欣; 方晔玮; 陈徐屹; 刘佳祥; 尹维冲; 冯仕堃; 孙宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2023-01-20
Anticipated expiration: 2042-10-17
Also published as: CN115631261B

Abstract

本公开提供了一种图像生成模型的训练方法、图像生成方法和装置，涉及人工智能技术领域，尤其涉及自然语言处理、深度学习、计算机视觉技术领域。具体实现方案为：获取训练数据；其中，训练数据包括设置有词性标注信息的样本文本，以及样本文本对应的样本图像；在图像生成模型中，根据设置有词性标注信息的样本文本，确定图像生成模型输出的预测图像；根据预测图像以及样本文本对应的样本图像，对图像生成模型进行训练。由此，根据设置有词性标注信息的样本文本，确定图像生成模型输出的预测图像，根据预测图像以及样本图像，训练图像生成模型，提高训练得到的图像生成模型的准确度。

Description

图像生成模型的训练方法、图像生成方法和装置

技术领域

本公开涉及人工智能技术领域，尤其涉及自然语言处理、深度学习、计算机视觉技术领域，尤其涉及一种图像生成模型的训练方法、图像生成方法和装置。

背景技术

目前，根据文本合成图像的方案为，图像生成模型基于提供的文本，对文本进行语义理解，得到语义表示；结合语义表示，生成文本对应的图像。

上述方案中，针对复杂乃至反事实的文本描述，例如“黑色的苹果”等，图像生成模型学习的较少，有很大可能会生成绿色苹果图像，导致生成的图像不符合文本的描述，准确度低。

发明内容

本公开提供了一种图像生成模型的训练方法、图像生成方法和装置。

根据本公开的一方面，提供了一种图像生成模型的训练方法，包括：获取训练数据；其中，所述训练数据包括设置有词性标注信息的样本文本，以及所述样本文本对应的样本图像；在图像生成模型中，根据设置有词性标注信息的样本文本，确定所述图像生成模型输出的预测图像；根据所述预测图像以及所述样本文本对应的样本图像，对所述图像生成模型进行训练。

根据本公开的另一方面，提供了一种图像生成方法，包括：获取待处理的文本；将所述文本输入预设的图像生成模型，以获取所述图像生成模型输出的所述文本对应的图像；其中，所述图像生成模型，结合设置有词性标注信息的样本文本以及所述样本文本对应的样本图像训练得到。

根据本公开的另一方面，提供了一种图像生成模型的训练装置，包括：获取模块，用于获取训练数据；其中，所述训练数据包括设置有词性标注信息的样本文本，以及所述样本文本对应的样本图像；确定模块，用于在图像生成模型中，根据设置有词性标注信息的样本文本，确定所述图像生成模型输出的预测图像；训练模块，用于根据所述预测图像以及所述样本文本对应的样本图像，对所述图像生成模型进行训练。

根据本公开的另一方面，提供了一种图像生成装置，包括：获取模块，用于获取待处理的文本；处理模块，用于将所述文本输入预设的图像生成模型，以获取所述图像生成模型输出的所述文本对应的图像；其中，所述图像生成模型，结合设置有词性标注信息的样本文本以及所述样本文本对应的样本图像训练得到。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行图像生成模型的训练方法，或者，执行图像生成方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行图像生成模型的训练方法，或者，执行图像生成方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现图像生成模型的训练方法的步骤，或者，实现图像生成方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是图像生成模型的训练过程的示意图；

图5是根据本公开第四实施例的示意图；

图6是根据本公开第五实施例的示意图；

图7是根据本公开第六实施例的示意图；

图8是用来实现本公开实施例的模型训练方法或者图像生成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

针对上述问题，本公开提出一种图像生成模型的训练方法、图像生成方法和装置。

图1是根据本公开第一实施例的示意图，需要说明的是，本公开实施例的图像生成模型的训练方法可应用于图像生成模型的训练装置，该装置可被配置于电子设备中，以使该电子设备可以执行图像生成模型的训练功能。

其中，电子设备可以为任一具有计算能力的设备，例如可以为个人电脑(PersonalComputer，简称PC)、移动终端、服务器等，移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图1所示，该图像生成模型的训练方法可以包括如下步骤：

步骤101，获取训练数据；其中，训练数据包括设置有词性标注信息的样本文本，以及样本文本对应的样本图像。

其中，样本文本指的是训练图像生成模型时输入的描述性句子，例如“黑色的苹果在桌上”，样本文本可以是单个描述性句子，也可以是多个描述性句子，此处不作任何限定，可以根据实际的输入进行确定。

其中，词性标注信息可以包括：名词标注信息、动词标注信息、形容词标注信息、数词标注信息、量词标注信息、代词标注信息等信息，本公开对此不做任何限定，可以根据实际需要进行确定。

其中，设置有词性标注信息的样本文本可以是经过词性标注处理得到的样本文本。可选地，词性标注处理的过程可以是确定样本文本中的词语及词语的词性，例如名词、动词、形容词、数词、量词、代词等，在词语中的各个文本字符之前加入词性的标识(比如名词n、动词V、形容词adj等)。

步骤102，在图像生成模型中，根据设置有词性标注信息的样本文本，确定图像生成模型输出的预测图像。

在本公开实施例中，在图像生成模型包括多个图像生成层时，可以根据前一个图像生成层输出的输出图像以及设置有词性标注信息的样本文本，确定当前图像生成层的输出图像，直至得到最后一个图像生成层的输出图像，将该输出图像作为图像生成模型输出的预测图像。

步骤103，根据预测图像以及样本文本对应的样本图像，对图像生成模型进行训练。

在本公开实施例中，根据预测图像以及样本文本对应的样本图像，确定图像生成模型的损失函数的数值，根据损失函数的数值，对图像生成模型中的系数进行调整，实现图像生成模型的训练。

本公开实施例的图像生成模型的训练方法，通过获取训练数据；其中，训练数据包括设置有词性标注信息的样本文本，以及样本文本对应的样本图像；在图像生成模型中，根据设置有词性标注信息的样本文本，确定图像生成模型输出的预测图像；根据预测图像以及样本文本对应的样本图像，对图像生成模型进行训练。由此，根据设置有词性标注信息的样本文本，确定图像生成模型输出的预测图像，进而根据预测图像以及样本图像，训练图像生成模型，使得图像生成模型在训练过程中能够学习到样本文本中的重要信息，从而使预测图像符合样本文本的描述，提高训练得到的图像生成模型的准确度。

在上述实施例中，根据预测图像以及样本文本对应的样本图像，对图像生成模型进行训练的过程例如可以为，根据预测图像、样本文本对应的样本图像以及图像生成模型的损失函数，确定损失函数的数值；根据损失函数的数值，对图像生成模型中的系数进行调整，实现训练。

由此，通过确定损失函数的数值，根据损失函数的数值，对图像生成模型中的系数进行调整，得到训练好的图像生成模型，提高图像生成模型的准确度。

为了在图像生成模型中，根据设置有词性标注信息的样本文本，准确确定图像生成模型输出的预测图像，如图2所示，图2是根据本公开第二实施例的示意图，在本公开实施例中，根据前一个图像生成层的输出图像以及样本文本，确定当前图像生成层的输出图像，直至确定图像生成模型的预测图像。图2所示实施例可以包括以下步骤：

步骤201，获取训练数据；其中，训练数据包括设置有词性标注信息的样本文本，以及样本文本对应的样本图像。

需要说明的是，步骤201的详细内容，可以参考本公开实施例中的相关内容，这里不再赘述。

步骤202，在图像生成模型的第i个图像生成层中，根据第i-1个图像生成层的输出图像以及样本文本，确定第i个图像生成层的输出图像；其中，i为大于1且小于或者等于N的正整数，N为图像生成网络中图像生成层的层数。

在一些实施例中，图像生成模型的训练装置执行步骤202的过程例如可以为，确定样本文本中各个文本字符的语义表示向量；在图像生成模型的第i个图像生成层中，根据第i-1个图像生成层的输出图像中各个像素点的像素值、样本文本中各个文本字符的语义表示向量以及词性标注信息，确定第i个图像生成层的权重矩阵；根据第i个图像生成层的权重矩阵以及样本文本中各个文本字符的语义表示向量，确定第i个图像生成层的输出图像。

在本公开实施例中，样本文本中各个文本字符的语义表示向量的确定方式例如可以根据word2vec(词向量模型)确定，此处对此不作具体限定。

在本公开实施例中，权重矩阵包括：第i-1个图像生成层的输出图像中像素点上各个文本字符的权重，作为一种实施方式，图像生成模型的训练装置确定第i个图像生成层的权重矩阵的过程例如可以为，在图像生成模型的第i个图像生成层中，根据第i-1个图像生成层的输出图像中各个像素点的像素值、样本文本中各个文本字符的语义表示向量，确定第i个图像生成层的初始权重矩阵；根据词性标注信息，对初始权重矩阵中像素点上标记有词性的文本字符的权重进行调整处理，得到第i个图像生成层的权重矩阵。

可选地，根据词性标注信息，对初始权重矩阵中像素点上标记有词性的文本字符的权重进行调整处理，即可以对初始权重矩阵中像素点上标记有词性的文本字符的权重进行增大处理，其中，增大处理的方式可以为对文本字符的权重进行加预设值处理，也可以是对文本字符的权重进行加指定神经网络参数的数值处理，此处对此不作具体限定，可根据实际需要进行选择。

其中，预设值可以根据实际需要进行设定，例如预设值为3，此处不作具体限定。其中，指定神经网络参数的数值可以是利用反向传播算法(Back Propagation，BP)进行学习的数值，也可以利用其它算法进行学习，此处不作具体限定。

其中，权重矩阵可以表示为：

其中，w_α为输出图像中像素点上各个文本字符的权重，Q为输出图像，K为样本文本中各个文本字符的语义表示向量，K^T为样本文本中各个文本字符的语义表示向量的转置向量，

为缩放因子，softmax(x)为归一化指数函数。

因此，通过确定第i个图像生成层的初始权重矩阵，并根据词性标注信息，对初始权重矩阵中像素点上标记有词性的文本字符的权重进行调整处理，得到第i个图像生成层的权重矩阵，使得图像生成模型训练时更加关注像素点上标记有词性的文本字符，进而使得图像生成模型更容易学到如何生成与样本文本更加契合的图像。

在一种实施方式中，根据词性标注信息，对初始权重矩阵中像素点上标记有词性的文本字符的权重进行调整处理，得到第i个图像生成层的权重矩阵的过程例如可以为，根据词性标注信息，确定样本文本中标记有词性的文本字符；针对第i-1个图像生成层的输出图像中的像素点，针对样本文本中标记有词性的每个文本字符，对像素点上文本字符的权重进行加预设值处理。

在本公开实施例中，预设值可以是预先设定的，直接根据预先设定的预设值对像素点上文本字符的权重进行调整处理，无需对预设值进行确定的操作，从而简化调整处理的过程，提高权重矩阵的的确定效率，进而提高图像生成模型的训练效率。

在另一种实施方式中，根据词性标注信息，对初始权重矩阵中像素点上标记有词性的文本字符的权重进行调整处理，得到第i个图像生成层的权重矩阵的过程例如可以为，根据词性标注信息，确定样本文本中标记有词性的文本字符；获取第i个图像生成层中指定神经网络参数的数值，其中，指定神经网络参数的数值可自动学习；针对第i-1个图像生成层的输出图像中的像素点，针对样本文本中标记有词性的每个文本字符，对像素点上文本字符的权重进行加数值处理。

在本公开实施例中，指定神经网络参数的数值可自动学习，能够根据图像生成模型的需要，学习相适应的指定神经网络参数的数值，从而根据与图像生成模型需要相适应的指定神经网络参数的数值，对像素点上文本字符的权重进行调整处理，得到准确度更高的权重矩阵，进而提高图像生成模型的准确度。

在本公开实施例中，根据权重矩阵和语义表示向量确定输出图像的方式可以为，将第i个图像生成层的权重矩阵与样本文本中各个文本字符的语义表示向量进行相乘，得到第i个图像生成层的输出图像。

在一些实施例中，在i为1时，在图像生成模型的第1个图像生成层中，根据随机图像以及样本文本，确定第2个图像生成层的输出图像。

其中，随机图像中各个像素点的像素值也都是随机的。

步骤203，对i进行加1处理，并重复确定第i个图像生成层的输出图像的步骤，直至获取到第N个图像生成层的输出图像。

在本公开实施例中，对i进行加1处理，得到i+1，根据第i个图像生成层的输出图像以及样本文本，确定第i+1个图像生成层的输出图像；对i+1进行加1处理，得到i+2，根据第i+1个图像生成层的输出图像以及样本文本，确定第i+2个图像生成层的输出图像；对i+2进行加1处理，得到i+3，根据第i+2个图像生成层的输出图像以及样本文本，确定第i+2个图像生成层的输出图像，以此类推，直至获取到第N个图像生成层的输出图像。

步骤204，将第N个图像生成层的输出图像，作为图像生成模型输出的预测图像。

在本公开实施例中，在获取到第N个图像生成层的输出图像时，即获取到图像生成模型输出的预测图像。

步骤205，根据预测图像以及样本文本对应的样本图像，对图像生成模型进行训练。

需要说明的是，步骤205的详细内容，可以参考本公开实施例中的相关内容，这里不再赘述。

本公开实施例的图像生成模型的训练方法，通过获取训练数据；其中，训练数据包括设置有词性标注信息的样本文本，以及样本文本对应的样本图像；在图像生成模型的第i个图像生成层中，根据第i-1个图像生成层的输出图像以及样本文本，确定第i个图像生成层的输出图像；其中，i为大于1且小于或者等于N的正整数，N为图像生成网络中图像生成层的层数；对i进行加1处理，并重复确定第i个图像生成层的输出图像的步骤，直至获取到第N个图像生成层的输出图像；将第N个图像生成层的输出图像，作为图像生成模型输出的预测图像；根据预测图像以及样本文本对应的样本图像，对图像生成模型进行训练。由此，根据设置有词性标注信息的样本文本，确定图像生成模型输出的预测图像，进而根据预测图像以及样本图像，训练图像生成模型，使得图像生成模型在训练过程中能够学习到样本文本中的重要信息，从而使预测图像符合样本文本的描述，提高训练得到的图像生成模型的准确度。

为了准确获取训练数据，如图3所示，图3是根据本公开第三实施例的示意图，在本公开实施例中，确定设置有词性标注信息的样本文本，根据设置有词性标注信息的样本文本以及样本文本对应的样本图像、原始样本文本以及原始样本文本对应的样本图像，生成训练数据。图3所示实施例可以包括以下步骤：

步骤301，获取多个原始样本文本，以及原始样本文本对应的样本图像。

其中，原始样本文本以及原始样本文本对应的样本图像可以是从训练数据库中获取的。

步骤302，对初始训练数据中的部分原始样本文本进行词性标注处理，得到设置有词性标注信息的样本文本。

其中，部分原始样本文本可以是从多个原始样本文本中随机选取的，随时选取的概率例如可以为50％，此处不作具体限定，可以根据实际需要进行设定。

在一种实施方式中，图像生成模型的训练装置执行步骤302的过程例如可以为，针对部分原始样本文本中的每个原始样本文本，确定原始样本文本中的词语以及词语的词性；对原始样本文本中具有指定词性的词语中的各个文本字符进行词性标注处理，得到设置有词性标注信息的样本文本。

其中，词语的词性可以包括：名词、动词、形容词、数词、量词、代词等。

在一些实施例中，图像生成模型的训练装置对原始样本文本中具有指定词性的词语中的各个文本字符进行词性标注处理，得到设置有词性标注信息的样本文本的过程例如可以为，针对原始样本文本中具有指定词性的每个词语，在原始样本文本中的词语之前插入指定词性的标识，得到设置有词性标注信息的样本文本。

其中，指定词性的标识可以包括：名词n、动词V、形容词adj等，例如样本文本为“黑色的苹果在桌上”，设置有词性标注信息的样本文本可以为“adj黑色的n苹果在n桌上”。

因此，具有词性的词语通常是含有关键信息的词语，通过确定原始样本文本中的词语以及词语的词性，对原始样本文本中具有指定词性的词语中的各个文本字符进行词性标注处理，以便得到设置有词性标注信息的样本文本，进而得到突出关键信息的训练数据，提高图像生成模型的准确度。

步骤303，根据设置有词性标注信息的样本文本以及样本文本对应的样本图像、原始样本文本以及原始样本文本对应的样本图像，生成训练数据。

在本公开实施例中，原始样本文本可以是未设置有词性标注信息的样本文本，训练数据中可以包括：设置有词性标注信息的样本文本以及对应的样本图像，未设置有词性标注信息的原始样本文本以及原始样本文本以及对应的样本图像。

步骤304，在图像生成模型中，根据设置有词性标注信息的样本文本，确定图像生成模型输出的预测图像。

需要说明的是，步骤304的详细内容，可以参考本公开实施例中的相关内容，这里不再赘述。

步骤305，根据预测图像以及样本文本对应的样本图像，对图像生成模型进行训练。

需要说明的是，步骤305的详细内容，可以参考本公开实施例中的相关内容，这里不再赘述。

本公开实施例中的图像生成模型的训练方法，通过获取多个原始样本文本，以及原始样本文本对应的样本图像；对初始训练数据中的部分原始样本文本进行词性标注处理，得到设置有词性标注信息的样本文本；根据设置有词性标注信息的样本文本以及样本文本对应的样本图像、原始样本文本以及原始样本文本对应的样本图像，生成训练数据；在图像生成模型中，根据设置有词性标注信息的样本文本，确定图像生成模型输出的预测图像；根据预测图像以及样本文本对应的样本图像，对图像生成模型进行训练。由此，根据设置有词性标注信息的样本文本，确定图像生成模型输出的预测图像，进而根据预测图像以及样本图像，训练图像生成模型，使得图像生成模型在训练过程中能够学习到样本文本中的重要信息，从而使预测图像符合样本文本的描述，提高训练得到的图像生成模型的准确度。

举例而言，图4是图像生成模型的训练过程示意图，在图4中，随机选择部分原始样本文本，对该部分原始样本文本进行词性标注处理，即确定部分原始样本文本中的词语及词语的词性，例如名词、动词、形容词、数词、量词、代词等，在词语之前加入词性标识，得到设置有词性标注信息的样本文本，样本文本可以为“adj黑色的n苹果在n桌上”，adj为形容词的词性标识，n为名词的词性标识。

在图像生成模型的第i个图像生成层中，根据第i-1个图像生成层的输出图像以及样本文本，确定第i个图像生成层的输出图像；其中，i为大于1且小于或者等于N的正整数，N为图像生成网络中图像生成层的层数，可选地，确定样本文本中各个文本字符的语义表示向量，根据第i-1个图像生成层的输出图像中各个像素点的像素值、样本文本中各个文本字符的语义表示向量，确定第i个图像生成层的初始权重矩阵；根据词性标注信息，对初始权重矩阵中像素点上标记有词性的文本字符的权重进行调整处理，得到第i个图像生成层的权重矩阵。

其中，权重矩阵可以表示为：

其中，w_α为输出图像中像素点上各个文本字符的权重，Q为输出图像，K^T为样本文本中各个文本字符的语义表示向量的转置向量，

为缩放因子，softmax(x)为归一化指数函数。

其中，输出图像中像素点上第j个文本字符的权重可以为

即：

其中，if token_j∈key words为如果第j个文本字符属于关键词，则

的取值为1+w，其中，w为预设值或者指定神经网络参数的数值，指定神经网络参数可自动学习；如果第j个文本字符不属于关键词，则

的取值为1。

其中，判断输出图像中像素点上的文本字符是否属于关键词的方式为，确定文本字符是否为标记有词性的词语中的字符，若为标记有词性的词语中的字符，则文本字符属于关键词；否则不属于。

将第i个图像生成层的权重矩阵以及样本文本中各个文本字符的语义表示向量进行相乘，得到第i个图像生成层的输出图像，即输出图像Attention(Q，K，K)可以表示为：

其中，K为样本文本中各个文本字符的语义表示向量，Attention(注意力机制)，在文本知识增强中，可以根据词性标注信息，增大像素点上标记有词性的文本字符在注意力机制的权重，能够突出样本文本中的重点信息。

对i进行加1处理，并重复确定第i个图像生成层的输出图像的步骤，直至获取到第N个图像生成层的输出图像，将第N个图像生成层的输出图像，作为图像生成模型输出的预测图像，确定损失函数的数值，根据损失函数的数值，对图像生成模型中的系数进行调整，实现训练，图像生成模型的训练过程中更加关注设置有词性标注信息的词语，使得到的训练好的图像生成模型学会如何生成与文本更加契合的图像。

图5是根据本公开第四实施例的示意图，如图5所示，该图像生成方法包括：

步骤501，获取待处理的文本。

需要说明的是，本公开实施例的图像生成方法的执行主体可为具有生成图像能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选地，执行主体可包括服务器，计算机、移动终端及其他智能设备。其中，移动终端包括但不限于手机、电脑、车载终端、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备等。

其中，待处理的文本可以是单个句子，也可以是多个句子，此处不做具体限定，例如，待处理的文本可以为“黑色的苹果在桌上”。其中，待处理的文本可以是人工输入的。

其中，待处理的文本不设置词性标注信息，即无需对待处理的文本进行词性标注处理，能够减少图像预测时计算的复杂度。

步骤502，将文本输入预设的图像生成模型，以获取图像生成模型输出的文本对应的图像；其中，图像生成模型，结合设置有词性标注信息的样本文本以及样本文本对应的样本图像训练得到。

需要说明的是，图像生成模型可采用图1至图4的图像生成模型的训练方法得到，这里不再赘述。

本公开实施例的图像生成方法，通过获取待处理的文本；将文本输入预设的图像生成模型，以获取图像生成模型输出的文本对应的图像；其中，图像生成模型，结合设置有词性标注信息的样本文本以及样本文本对应的样本图像训练得到。由此，通过将待处理的文本输入图像生成模型，得到图像生成模型输出的文本对应的图像，图像生成模型采用图像生成模型的训练方法得到，图像生成模型的准确度高，使得图像生成模型生成的图像符合文本的描述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均在征得用户同意的前提下进行，并且均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种图像生成模型的训练装置，图6是根据本公开第五实施例的示意图，如图6所示，该图像生成模型的训练装置600包括：包括：获取模块610、确定模块620和训练模块630。

获取模块610，用于获取训练数据；其中，训练数据包括设置有词性标注信息的样本文本，以及样本文本对应的样本图像；确定模块620，用于在图像生成模型中，根据设置有词性标注信息的样本文本，确定图像生成模型输出的预测图像；训练模块630，用于根据预测图像以及样本文本对应的样本图像，对图像生成模型进行训练。

作为本公开实施例的一种可能实现方式，确定模块620包括：第一确定单元、第二确定单元和处理单元；第一确定单元，用于在图像生成模型的第i个图像生成层中，根据第i-1个图像生成层的输出图像以及样本文本，确定第i个图像生成层的输出图像；其中，i为大于1且小于或者等于N的正整数，N为图像生成网络中图像生成层的层数；第二确定单元，用于对i进行加1处理，并重复确定第i个图像生成层的输出图像的步骤，直至获取到第N个图像生成层的输出图像；处理单元，用于将第N个图像生成层的输出图像，作为图像生成模型输出的预测图像。

作为本公开实施例的一种可能实现方式，第一确定单元具体用于，确定样本文本中各个文本字符的语义表示向量；在图像生成模型的第i个图像生成层中，根据第i-1个图像生成层的输出图像中各个像素点的像素值、样本文本中各个文本字符的语义表示向量以及词性标注信息，确定第i个图像生成层的权重矩阵；根据第i个图像生成层的权重矩阵以及样本文本中各个文本字符的语义表示向量，确定第i个图像生成层的输出图像。

作为本公开实施例的一种可能实现方式，权重矩阵包括：第i-1个图像生成层的输出图像中像素点上各个文本字符的权重；第一确定单元具体用于，在图像生成模型的第i个图像生成层中，根据第i-1个图像生成层的输出图像中各个像素点的像素值、样本文本中各个文本字符的语义表示向量，确定第i个图像生成层的初始权重矩阵；根据词性标注信息，对初始权重矩阵中像素点上标记有词性的文本字符的权重进行调整处理，得到第i个图像生成层的权重矩阵。

作为本公开实施例的一种可能实现方式，第一确定单元具体用于，根据词性标注信息，确定样本文本中标记有词性的文本字符；针对第i-1个图像生成层的输出图像中的像素点，针对样本文本中标记有词性的每个文本字符，对像素点上文本字符的权重进行加预设值处理。

作为本公开实施例的一种可能实现方式，第一确定单元具体用于，根据词性标注信息，确定样本文本中标记有词性的文本字符；获取第i个图像生成层中指定神经网络参数的数值，其中，指定神经网络参数的数值可自动学习；针对第i-1个图像生成层的输出图像中的像素点，针对样本文本中标记有词性的每个文本字符，对像素点上文本字符的权重进行加数值处理。

作为本公开实施例的一种可能实现方式，第一确定单元还用于，在图像生成模型的第1个图像生成层中，根据随机图像以及样本文本，确定第2个图像生成层的输出图像。

作为本公开实施例的一种可能实现方式，获取模块610包括：获取单元、标注处理单元和生成单元；获取单元，用于获取多个原始样本文本，以及原始样本文本对应的样本图像；标注处理单元，用于对初始训练数据中的部分原始样本文本进行词性标注处理，得到设置有词性标注信息的样本文本；生成单元，用于根据设置有词性标注信息的样本文本以及样本文本对应的样本图像、原始样本文本以及原始样本文本对应的样本图像，生成训练数据。

作为本公开实施例的一种可能实现方式，标注处理单元具体用于，针对部分原始样本文本中的每个原始样本文本，确定原始样本文本中的词语以及词语的词性；对原始样本文本中具有指定词性的词语中的各个文本字符进行词性标注处理，得到设置有词性标注信息的样本文本。

作为本公开实施例的一种可能实现方式，标注处理单元具体用于，针对原始样本文本中具有指定词性的每个词语，在原始样本文本中的词语之前插入指定词性的标识，得到设置有词性标注信息的样本文本。

作为本公开实施例的一种可能实现方式，训练模块630具体用于，根据预测图像、第样本文本对应的样本图像以及图像生成模型的损失函数，确定损失函数的数值；根据损失函数的数值，对图像生成模型中的系数进行调整，实现训练。

本公开实施例的图像生成模型的训练装置，通过获取训练数据；其中，训练数据包括设置有词性标注信息的样本文本，以及样本文本对应的样本图像；在图像生成模型中，根据设置有词性标注信息的样本文本，确定图像生成模型输出的预测图像；根据预测图像以及样本文本对应的样本图像，对图像生成模型进行训练。由此，根据设置有词性标注信息的样本文本，确定图像生成模型输出的预测图像，进而根据预测图像以及样本图像，训练图像生成模型，使得图像生成模型在训练过程中能够学习到样本文本中的重要信息，从而使预测图像符合样本文本的描述，提高训练得到的图像生成模型的准确度。

根据本公开的实施例，本公开还提供了一种图像生成模型的训练装置，图7是根据本公开第六实施例的示意图，如图7所示，该图像生成模型的训练装置700包括：包括：获取模块710和处理模块720。

获取模块710，用于获取待处理的文本；处理模块720，用于将文本输入预设的图像生成模型，以获取图像生成模型输出的文本对应的图像；其中，图像生成模型，结合设置有词性标注信息的样本文本以及样本文本对应的样本图像训练得到。

本公开实施例的图像生成装置，通过获取待处理的文本；将文本输入预设的图像生成模型，以获取图像生成模型输出的文本对应的图像；其中，图像生成模型，结合设置有词性标注信息的样本文本以及样本文本对应的样本图像训练得到。由此，通过将待处理的文本输入图像生成模型，得到图像生成模型输出的文本对应的图像，图像生成模型采用图像生成模型的训练方法得到，图像生成模型的准确度高，使得图像生成模型生成的图像符合文本的描述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如图像生成模型的训练方法，或者，图像生成方法。例如，在一些实施例中，图像生成模型的训练方法，或者，图像生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的图像生成模型的训练方法，或者，图像生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像生成模型的训练方法，或者，图像生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像生成模型的训练方法，包括：

获取训练数据；其中，所述训练数据包括设置有词性标注信息的样本文本，以及所述样本文本对应的样本图像；

在图像生成模型中，根据设置有词性标注信息的样本文本，确定所述图像生成模型输出的预测图像；

根据所述预测图像以及所述样本文本对应的样本图像，对所述图像生成模型进行训练。

2.根据权利要求1所述的方法，其中，所述在图像生成模型中，根据设置有词性标注信息的样本文本，确定所述图像生成模型输出的预测图像，包括：

在图像生成模型的第i个图像生成层中，根据第i－1个图像生成层的输出图像以及所述样本文本，确定所述第i个图像生成层的输出图像；其中，i为大于1且小于或者等于N的正整数，所述N为所述图像生成网络中图像生成层的层数；

对所述i进行加1处理，并重复确定第i个图像生成层的输出图像的步骤，直至获取到第N个图像生成层的输出图像；

将所述第N个图像生成层的输出图像，作为所述图像生成模型输出的所述预测图像。

3.根据权利要求2所述的方法，其中，所述在图像生成模型的第i个图像生成层中，根据第i－1个图像生成层的输出图像以及所述样本文本，确定所述第i个图像生成层的输出图像，包括：

确定所述样本文本中各个文本字符的语义表示向量；

在图像生成模型的第i个图像生成层中，根据第i－1个图像生成层的输出图像中各个像素点的像素值、所述样本文本中各个文本字符的语义表示向量以及所述词性标注信息，确定第i个图像生成层的权重矩阵；

根据第i个图像生成层的权重矩阵以及所述样本文本中各个文本字符的语义表示向量，确定所述第i个图像生成层的输出图像。

4.根据权利要求3所述的方法，其中，所述权重矩阵包括：第i－1个图像生成层的输出图像中像素点上各个所述文本字符的权重；

所述在图像生成模型的第i个图像生成层中，根据第i－1个图像生成层的输出图像中各个像素点的像素值、所述样本文本中各个文本字符的语义表示向量以及所述词性标注信息，确定第i个图像生成层的权重矩阵，包括：

在图像生成模型的第i个图像生成层中，根据第i－1个图像生成层的输出图像中各个像素点的像素值、所述样本文本中各个文本字符的语义表示向量，确定第i个图像生成层的初始权重矩阵；

根据所述词性标注信息，对所述初始权重矩阵中像素点上标记有词性的文本字符的权重进行调整处理，得到第i个图像生成层的权重矩阵。

5.根据权利要求4所述的方法，其中，所述根据所述词性标注信息，对所述初始权重矩阵中像素点上标记有词性的文本字符的权重进行调整处理，得到第i个图像生成层的权重矩阵，包括：

根据所述词性标注信息，确定所述样本文本中标记有词性的文本字符；

针对第i－1个图像生成层的输出图像中的像素点，针对所述样本文本中标记有词性的每个文本字符，对所述像素点上所述文本字符的权重进行加预设值处理。

6.根据权利要求4所述的方法，其中，所述根据所述词性标注信息，对所述初始权重矩阵中像素点上标记有词性的文本字符的权重进行调整处理，得到第i个图像生成层的权重矩阵，包括：

获取所述第i个图像生成层中指定神经网络参数的数值，其中，所述指定神经网络参数的数值可自动学习；

针对第i－1个图像生成层的输出图像中的像素点，针对所述样本文本中标记有词性的每个文本字符，对所述像素点上所述文本字符的权重进行加所述数值处理。

7.根据权利要求2所述的方法，其中，所述方法还包括：

在所述图像生成模型的第1个图像生成层中，根据随机图像以及所述样本文本，确定第2个图像生成层的输出图像。

8.根据权利要求1所述的方法，其中，所述获取训练数据，包括：

获取多个原始样本文本，以及所述原始样本文本对应的样本图像；

对所述初始训练数据中的部分原始样本文本进行词性标注处理，得到设置有词性标注信息的样本文本；

根据所述设置有词性标注信息的样本文本以及所述样本文本对应的样本图像、所述原始样本文本以及所述原始样本文本对应的样本图像，生成所述训练数据。

9.根据权利要求8所述的方法，其中，所述对所述初始训练数据中的部分原始样本文本进行词性标注处理，得到设置有词性标注信息的样本文本，包括：

针对所述部分原始样本文本中的每个原始样本文本，确定所述原始样本文本中的词语以及所述词语的词性；

对所述原始样本文本中具有指定词性的词语中的各个文本字符进行词性标注处理，得到设置有词性标注信息的样本文本。

10.根据权利要求9所述的方法，其中，所述对所述原始样本文本中具有指定词性的词语中的各个文本字符进行词性标注处理，得到设置有词性标注信息的样本文本，包括：

针对所述原始样本文本中具有所述指定词性的每个词语，在所述原始样本文本中的所述词语之前插入所述指定词性的标识，得到设置有词性标注信息的样本文本。

11.根据权利要求1所述的方法，其中，所述根据所述预测图像以及所述样本文本对应的样本图像，对所述图像生成模型进行训练，包括：

根据所述预测图像、所述样本文本对应的样本图像以及所述图像生成模型的损失函数，确定所述损失函数的数值；

根据所述损失函数的数值，对所述图像生成模型中的系数进行调整，实现训练。

12.一种图像生成方法，包括：

获取待处理的文本；

将所述文本输入预设的图像生成模型，以获取所述图像生成模型输出的所述文本对应的图像；其中，所述图像生成模型，结合设置有词性标注信息的样本文本以及所述样本文本对应的样本图像训练得到。

13.一种图像生成模型的训练装置，包括：

获取模块，用于获取训练数据；其中，所述训练数据包括设置有词性标注信息的样本文本，以及所述样本文本对应的样本图像；

确定模块，用于在图像生成模型中，根据设置有词性标注信息的样本文本，确定所述图像生成模型输出的预测图像；

训练模块，用于根据所述预测图像以及所述样本文本对应的样本图像，对所述图像生成模型进行训练。

14.根据权利要求13所述的装置，其中，所述确定模块包括：第一确定单元、第二确定单元和处理单元；

所述第一确定单元，用于在图像生成模型的第i个图像生成层中，根据第i－1个图像生成层的输出图像以及所述样本文本，确定所述第i个图像生成层的输出图像；其中，i为大于1且小于或者等于N的正整数，所述N为所述图像生成网络中图像生成层的层数；

所述第二确定单元，用于对所述i进行加1处理，并重复确定第i个图像生成层的输出图像的步骤，直至获取到第N个图像生成层的输出图像；

所述处理单元，用于将所述第N个图像生成层的输出图像，作为所述图像生成模型输出的所述预测图像。

15.根据权利要求14所述的装置，其中，所述第一确定单元具体用于，

确定所述样本文本中各个文本字符的语义表示向量；

16.根据权利要求15所述的装置，其中，所述权重矩阵包括：第i－1个图像生成层的输出图像中像素点上各个所述文本字符的权重；所述第一确定单元具体用于，

17.根据权利要求16所述的装置，其中，所述第一确定单元具体用于，

18.根据权利要求16所述的装置，其中，所述第一确定单元具体用于，

19.根据权利要求14所述的装置，其中，所述第一确定单元还用于，

20.根据权利要求13所述的装置，其中，所述获取模块包括：获取单元、标注处理单元和生成单元；

所述获取单元，用于获取多个原始样本文本，以及所述原始样本文本对应的样本图像；

所述标注处理单元，用于对所述初始训练数据中的部分原始样本文本进行词性标注处理，得到设置有词性标注信息的样本文本；

所述生成单元，用于根据所述设置有词性标注信息的样本文本以及所述样本文本对应的样本图像、所述原始样本文本以及所述原始样本文本对应的样本图像，生成所述训练数据。

21.根据权利要求20所述的装置，其中，所述标注处理单元具体用于，

22.根据权利要求21所述的装置，其中，所述标注处理单元具体用于，

23.根据权利要求13所述的装置，其中，所述训练模块具体用于，

根据所述预测图像、所述第样本文本对应的样本图像以及所述图像生成模型的损失函数，确定所述损失函数的数值；

24.一种图像生成装置，包括：

获取模块，用于获取待处理的文本；

处理模块，用于将所述文本输入预设的图像生成模型，以获取所述图像生成模型输出的所述文本对应的图像；其中，所述图像生成模型，结合设置有词性标注信息的样本文本以及所述样本文本对应的样本图像训练得到。

25.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1－11中任一项所述的图像生成模型的训练方法，或者，执行权利要求12所述的图像生成方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1－11中任一项所述的图像生成模型的训练方法，或者，执行权利要求12所述的图像生成方法。

27.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1－11中任一项所述图像生成模型的训练方法的步骤，或者，实现权利要求12所述的图像生成方法。