CN117333880A

CN117333880A - 模型训练方法及装置、图像生成方法、电子设备

Info

Publication number: CN117333880A
Application number: CN202311289632.XA
Authority: CN
Inventors: 马建; 陈宸
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2023-10-08
Filing date: 2023-10-08
Publication date: 2024-01-02

Abstract

本发明公开了一种模型训练方法及装置、图像生成方法、电子设备、存储介质；所述方法包括：获取目标数据集，所述目标数据集包括多个目标图文对数据，每个所述目标图文对数据包括原始图像、第一语言图像描述信息和第二语言图像描述信息；通过所述目标数据集对初始的文生图模型进行训练，得到训练好的文生图模型，所述训练好的文生图模型的输入数据包括采用所述第一语言或者所述第二语言描述的文本信息。所述方法能够训练出双语的文生图模型，不需要引入额外的翻译工具即可通过其他语言的文本描述信息生成高质量的图片，同时也支持原生语言的文本描述信息。

Description

模型训练方法及装置、图像生成方法、电子设备

技术领域

本申请实施例涉及模型训练技术领域，涉及但不限于一种模型训练方法及装置、图像生成方法、电子设备、存储介质。

背景技术

近些年文本生成图像T2I领域发展迅猛，基于文本的图像生成技术在很多场景上具有广泛应用，包括手机主题商个性化壁纸创作，PPT创意图像素材获取，虚拟空间中的内容创造，多模态的对话交互系统等。

目前文本生成图像模型即文生图模型的主要挑战在于只支持英文输入，非英文使用者只能借助一些翻译工具，而这样就会导致一些翻译带来的误差，特别对于一些文化差异较大的描述。比如中文描述“鸡蛋灌饼”会被翻译成“Egg cake”，这种错误翻译出来的描述生成的图片没有办法满足我们的需求。

发明内容

有鉴于此，本申请实施例提供的模型训练方法及装置、图像生成方法、电子设备、存储介质，能够训练出双语的文生图模型，不需要引入额外的翻译工具即可通过其他语言的文本描述信息生成高质量的图片，同时也支持原生语言的文本描述信息。

第一方面，本申请实施例提供的模型训练方法，包括：

获取目标数据集，所述目标数据集包括多个目标图文对数据，每个所述目标图文对数据包括原始图像、第一语言图像描述信息和第二语言图像描述信息，所述第一语言图像描述信息采用第一语言，所述第二语言图像描述信息采用第二语言，所述第一语言与所述第二语言不同；

通过所述目标数据集对初始的文生图模型进行训练，得到训练好的文生图模型，所述训练好的文生图模型的输入数据包括采用所述第一语言或者所述第二语言描述的文本信息。

第二方面，本申请实施例提供的图像生成方法，包括：

获取目标文本信息，所述目标文本信息采用第一语言或者第二语言；

将所述目标文本信息输入训练好的文生图模型，得到与所述目标文本信息对应的目标图像，所述训练好的文生图模型是采用本申请实施例第一方面提供的所述模型训练方法进行训练得到的。

第三方面，本申请实施例提供的模型训练装置，包括：

数据集获取模块，用于获取目标数据集，所述目标数据集包括多个目标图文对数据，每个所述目标图文对数据包括原始图像、第一语言图像描述信息和第二语言图像描述信息，所述第一语言图像描述信息采用第一语言，所述第二语言图像描述信息采用第二语言，所述第一语言与所述第二语言不同；

模型训练模块，用于通过所述目标数据集对初始的文生图模型进行训练，得到训练好的文生图模型，所述训练好的文生图模型的输入数据包括采用所述第一语言或者所述第二语言描述的文本信息。

第四方面，本申请实施例提供的电子设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本申请实施例第一方面提供的所述模型训练方法的步骤。

第五方面，本申请实施例提供的计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本申请实施例第一方面提供的所述模型训练方法的步骤。

本申请实施例所提供的模型训练方法、装置、图像生成方法、电子设备和计算机可读存储介质，能够训练出双语的文生图模型，不需要引入额外的翻译工具即可通过其他语言的文本描述信息生成高质量的图片，同时也支持原生语言的文本描述信息，从而解决背景技术中所提出的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1为本申请实施例提供的一种模型训练方法的实现流程示意图；

图2为本申请实施例提供的一种获取目标数据集的流程示意图；

图3为本申请实施例提供的一种得到目标数据集的流程示意图；

图4为本申请实施例提供的一种训练文生图模型的方法流程示意图；

图5为本申请实施例提供的一种数据构造的流程示意图；

图6为本申请实施例提供的一种模型训练方法的整体框架图；

图7为本申请实施例提供的一种模型训练装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的具体技术方案做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

需要指出，本申请实施例所涉及的术语“第一\第二\第三”用以区别类似或不同的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

近些年文本生成图像T2I领域发展迅猛，基于文本的图像生成技术在很多的场景上具有广泛应用，包括手机主题商个性化壁纸创作，PPT创意图像素材获取，虚拟空间中的内容创造，多模态的对话交互系统等。

目前文本生成图像模型即文生图模型主要挑战在于只支持英文输入，非英文使用者只能借助一些翻译工具，而这样就会导致一些翻译带来的误差，特别对于一些文化差异较大的描述。比如中文描述“鸡蛋灌饼”会被翻译成“Egg cake”，这种错误翻译出来的描述生成的图片没有办法满足我们的需求。

有鉴于此，本申请实施例提供一种模型训练方法，通过获取目标数据集，所述目标数据集包括多个目标图文对数据，每个所述目标图文对数据包括原始图像、第一语言图像描述信息和第二语言图像描述信息，所述第一语言图像描述信息采用第一语言，所述第二语言图像描述信息采用第二语言，所述第一语言与所述第二语言不同；通过所述目标数据集对初始的文生图模型进行训练，得到训练好的文生图模型，所述训练好的文生图模型的输入数据包括采用所述第一语言或者所述第二语言描述的文本信息。能够训练出双语的文生图模型，不需要引入额外的翻译工具即可通过其他语言的文本描述信息生成高质量的图片，同时也支持原生语言的文本描述信息。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

图1为本申请实施例提供的一种模型训练方法的实现流程示意图。所述模型训练方法可以应用于电子设备，该电子设备在实施的过程中可以为各种类型的具有信息处理能力的设备。例如，所述电子设备可以包括个人计算机、笔记本电脑、掌上电脑或服务器等；该电子设备还可以为移动终端，例如所述移动终端可以包括手机、车载电脑、平板电脑或投影仪等。如图1所示，该方法可以包括以下步骤101至步骤102：

步骤101：获取目标数据集，所述目标数据集包括多个目标图文对数据，每个所述目标图文对数据包括原始图像、第一语言图像描述信息和第二语言图像描述信息，所述第一语言图像描述信息采用第一语言，所述第二语言图像描述信息采用第二语言，所述第一语言与所述第二语言不同。

需要说明的是，首先获取用于训练初始的文生图模型的目标数据集，目标数据集包括多个目标图文对数据，每个图文对数据包括原始图像，与原始图像对应的第一语言描述信息和第二语言图像描述信息。可以理解的是，获取目标数据集对初始的文生图模型进行训练，能够使训练好的文生图模型支持输入两种语言的文本描述信息。

其中，获取目标数据集的方法很多，例如可以获取目标图像后生成两种语言的图像描述信息，也可以是获取目标图像以及对应的原始图像描述信息，再根据原始图像描述信息生成另一种语言的图像描述信息等。本申请实施例对获取目标数据集的方式不做限定。

步骤102：通过所述目标数据集对初始的文生图模型进行训练，得到训练好的文生图模型，所述训练好的文生图模型的输入数据包括采用所述第一语言或者所述第二语言描述的文本信息。

需要说明的是，通过目标数据集对初始的文生图模型进行训练，就可以得到支持两种语言的训练好的文生图模型。其中，通过所述目标数据集对初始的文生图模型进行训练的方式很多，例如批量梯度下降、小批量梯度下降和随机梯度下降等方式。本申请实施例对通过所述目标数据集对初始的文生图模型进行训练的方法不做限定。

本申请实施例提出的针对文生图模型的模型训练方法，通过构造双语的大规模图文对数据集对初始的文生图模型进行训练，能够训练出支持双语的文生图模型，不需要引入额外的翻译工具即可通过其他语言的文本描述生成高质量的图片，同时也支持原生语言输入。

在一些实施例中，可以对获取的初始数据集进行过滤得到过滤后的数据集，通过提升数据集的质量提升训练效果。

图2为本申请实施例提供一种获取目标数据集的流程示意图。如图2所示，所述步骤101获取目标数据集，可以包括：

步骤1011：获取初始数据集，所述初始数据集包括多个初始图文对数据，每个所述初始图文对数据包括所述原始图像和原始图像描述信息，所述原始图像描述信息采用所述第一语言。

其中，获取初始的数据集，初始的数据集可以包括多个初始图文对数据，每个所述初始图文对数据包括所述原始图像和与原始图像对应的原始图像描述信息，原始图像描述信息采用的是第一语言。

示例性的，初始的数据集可以包括平台数据数据集，比如laion数据，悟空数据，coyo数据，以及自己爬取的数据。其中laion数据包括laion5B部分数据，laion400M数据。通过从不同平台获取数据，可以获取初始的数据集，即获得大量的图文对数据。

在一些实施例中，为了提升数据集质量，可以对获取的大量的图文对数据进行数据清洗，筛选等。

在本申请实施例中，在获取大量的图文对数据后，可以对其进行筛选，筛选出图文对数据中的原始图像满足图像筛选要求的图文对数据，组成初始的数据集。图像筛选要求可以是根据图像分辨率进行筛选。

示例性的，所述每个初始图文对数据包括的所述原始图像的分辨率满足预设分辨率要求，所述预设分辨率要求为水平像素点数量以及垂直像素点数量均大于或者等于预设像素点数量。即为了保证训练效果，可以要求图像分辨率的水平像素点数量以及垂直像素点数量均大于或者等于预设像素点数量，即要求图像足够清晰。

步骤1012：在所述初始数据集中筛选出所述原始图像符合预设图像要求的多个初始图文对数据，得到过滤后的数据集，所述预设图像要求包括图像美学要求、图像水印要求和图文匹配度要求中的至少一种，所述图文匹配度用于指示所述原始图像与所述原始图像描述信息之间的匹配度。

需要说明的是，对初始数据集中的图文对数据进行筛选时，可以根据图像美学要求、图像水印要求和图文匹配度要求中的至少一种进行筛选，例如可以根据其中的一种要求进行筛选，也可以根据其中的两种要求进行筛选，还可以根据这三种要求进行筛选得到过滤后的数据集，本申请实施例对筛选的方式不做限定。

其中，根据图像美学要求进行筛选可以引入美学评分模型，选择美学分数大于预设美学分数的图像对应的图文对数据，根据图像水印要求进行筛选可以引入水印评分模型，选择水印评分分数小于预设水印分数的图像对应的图文对数据，根据图文匹配度要求进行筛选可以引入一种目前主流的图文模态融合框架CLIP模型得到相似度分数，选择相似度分数大于预设相似度分数的图像对应的图文对数据。示例性的，CLIP模型可以为BLIP2模型。其中，BLIP为通过在视觉语言任务的训练，输入图片生成图片的相关描述。

步骤1013：根据所述过滤后的数据集中各个初始图文对数据对应的所述原始图像和所述原始图像描述信息，得到所述目标数据集。

其中，在获取到过滤后的数据集后，可以根据各个初始图文对数据对应的所述原始图像和所述原始图像描述信息得到目标数据集。本申请实施例对得到目标数据集的方式不做限定。

图3为本申请实施例提供一种得到目标数据集的流程示意图。如图3所示，所述根据所述过滤后的数据集中各个初始图文对数据对应的所述原始图像和原始图像描述信息，得到所述目标数据集，可以包括：

步骤201：对所述各个初始图文对数据中的原始图像描述信息进行翻译，生成翻译后的图像描述信息，所述翻译后的图像描述信息采用所述第二语言。

其中，对原始图像描述信息进行翻译，可以采用翻译模型。本申请实施例对所述各个初始图文对数据中的原始图像描述信息进行翻译的方法不做限定。

步骤202：根据所述各个初始图文对数据中的原始图像，生成第一目标描述信息和第二目标描述信息，所述第一目标描述信息采用所述第一语言，所述第二目标描述信息采用所述第二语言，所述第一语言图像描述信息包括所述原始图像描述信息和所述第一目标描述信息，所述第二语言图像描述信息包括所述翻译后的图像描述信息和所述第二目标描述信息。

其中，根据所述各个初始图文对数据中的原始图像，生成第一目标描述信息和第二目标描述信息的方法可以是将原始图像输入BLIP模型生成第一目标描述信息，再将第一目标描述信息输入翻译模型，得到第二目标描述信息。本申请实施例对根据所述各个初始图文对数据中的原始图像，生成第一目标描述信息和第二目标描述信息的方法不做限定。

可以理解的是，为了提升模型训练质量，第一语言图像描述信息和第二语言图像描述信息可以包括两组信息，即所述第一语言图像描述信息包括所述原始图像描述信息和所述第一目标描述信息，所述第二语言图像描述信息包括所述翻译后的图像描述信息和所述第二目标描述信息。

综上，本申请实施例构造了高质量的大规模的双语图文对，能够有效的帮助模型训练，获得双语的图文对模型。

在一些实施例中，本实施例采用最先进的自然语言处理模型sota模型：一种目前最先进的文生图框架SDXL进行训练，为了避免破坏模型本身的语言表征能力，以及发生灾难性遗忘，只对模型进行微调。

在本申请实施例中，所述初始的文生图模型包括目标UNET模型，所述目标UNET模型包括基于注意力机制层的K，V矩阵，以及时间嵌入层，所述通过所述目标数据集对初始的文生图模型进行训练，得到训练好的文生图模型，可以包括：通过所述目标数据集对所述目标UNET模型的所述基于注意力机制层的K，V矩阵，以及所述时间嵌入层进行训练，得到所述训练好的文生图模型。

需要说明的是，模型训练阶段我们基于sota模型：目前最先进的文生图框架SDXL。模型训练分为三个阶段，第一个阶段在固定的512分辨率进行训练，只微调UNET层注意力机制的cross attention的K,V矩阵，以及时间嵌入层time_embedding相关层。第二个阶段构造数据分桶进行模型训练。第三个阶段调整指标阈值进一步提升数据的质量进行模型训练。

其中，cross attention是要通过训练得到一个加权，自注意力机制就是要通过权重矩阵来自发地找到词与词之间的关系。其中Q是词的查询向量，K是“被查”向量，V是内容向量。Q是最适合查找目标的，K是最适合接收查找的，V就是内容，这三者不一定要一致，通过设置三个向量，学习出最适合的Q、K、V，以增强网络的能力。本申请实施例中对K，V矩阵进行调整，能够通过训练提升模型能力。Time embedding的作用是告诉UNET现在reversediffusion在第几步了，改进time_embedding能够明显的提升模型能力。

图4为本申请实施例提供的一种训练文生图模型的方法流程示意图，如图4所示，所述通过所述目标数据集对所述目标UNET模型的所述基于注意力机制层的K，V矩阵，以及所述时间嵌入层进行训练，得到所述训练好的文生图模型，包括：

步骤301：将所述目标数据集的所述原始图像和所述第一语言图像描述信息输入到训练UNET模型，以及，将所述目标数据集的所述原始图像和所述第二语言图像描述信息输入到所述目标UNET模型。

需要说明的是，训练UNET模型作为教师模型，目标UNET模型作为学生模型。其中UNET模型即为原始UNET模型，在输入为第一语言的文本信息时，能够输出满足要求的图像信息。通过训练UNET模型引导目标UNET模型进行训练，可以使得目标UNET模型不仅具有教师模型的能力，即对原生语言/第一语言的文本信息输出对应的图像的能力，还训练出新的能力，即对第二语言的文本信息输出对应的图像的能力。

在一些实施例中，所述将所述目标数据集的所述原始图像和所述第一语言图像描述信息输入到训练UNET模型，以及，将所述目标数据集的所述原始图像和所述第二语言图像描述信息输入到所述目标UNET模型，可以包括：将所述原始图像与预设噪声叠加，得到加噪后的图像；将所述加噪后的图像和所述第一语言图像描述信息输入到训练UNET模型，以及，将所述加噪后的图像和所述第二语言图像描述信息输入到所述目标UNET模型。

需要说明的是，对原始图像加入噪音进行训练，在得到训练结果后可以根据噪音确定损失函数，以调整模型参数。这里的原始图像可以是经过文本编码器后得到的原始图像对应的编码信息，这里不再赘述。

步骤302：通过预设的损失函数以及所述训练UNET模型，对所述目标UNET模型的所述基于注意力机制层的K，V矩阵，以及所述时间嵌入层进行调整。

需要说明的是，通过预设的损失函数，以及作为教师模型的训练UNET模型，可以对目标UNET模型的所述基于注意力机制层的K，V矩阵，以及所述时间嵌入层进行调整，以满足预设损失函数的要求。

步骤303：在所述预设的损失函数收敛的情况下，得到所述训练好的文生图模型。

其中，当损失函数收敛的情况下，就可以得到训练好的文生图模型。

在一些实施例中，为了对目标UNET模型的训练加上了知识引导策略，可以基于SDXL原始模型的输出进行训练。

本申请实施例中，所述预设的损失函数包括第一损失函数、第二损失函数以及第三损失函数，所述第一损失函数是根据所述预设噪声以及所述目标UNET模型的输出结果的噪声确定的，所述第二损失函数是根据所述训练UNET模型的输出结果与所述目标UNET模型的输出结果的差异确定的，所述第三损失函数是所述训练UNET模型与所述目标UNET模型中各个相对应的层的特征差异确定的。

其中，本申请实施例利用知识引导策略将教师模型的知识迁移到学生模型当中，最终的训练损失函数包括三部分，第一部分实际添加的噪声和学生模型预测的噪声均方误差mse损失，即原始稳定扩散模型stablediffusion损失函数；第二部分教师模型预测的噪声和学生模型预测的噪声的mse损失；第三部分是教师和学生模型对应的UNET不同层之间的特征之间的mse损失。通过三个损失函数同时学习，来保证学生模型高效的进行语境迁移。本申请实施例采用了知识引导的语境迁移策略，实现了最大程度对齐SDXL模型的效果。

本申请实施例还提供一种图像生成方法，通过获取目标文本信息，所述目标文本信息采用第一语言或者第二语言；将所述目标文本信息输入训练好的文生图模型，得到与所述目标文本信息对应的目标图像，所述训练好的文生图模型是采用上述模型训练方法进行训练得到的。该方法能够采用其他语言的文本描述信息输入训练好的文生图模型生成高质量的图片，同时也支持输入原生语言的文本描述信息。

下面将说明本申请实施例在一个实际的应用场景中的示例性应用。原始模型为支持英文的SDXL模型，训练目标为生成同时支持英文和中文的SDXL模型。

为了对初始的文生图模型进行训练，首先获取大量的图文对数据，本申请实施例采用的数据源包括laion数据，悟空数据，coyo数据，自己爬取的数据。其中laion数据包括laion5B部分数据，laion400M数据。图文对数据包括原始图像和原始图像描述信息。

图5为本申请实施例提供的一种数据构造的流程示意图。如图5所示，首先通过分辨率过滤掉长或者宽小于256的原始图像对应的图文对数据，接着引入三个模型，美学评分模型，水印评分模型，CLIP模型，分别对原始图像进行过滤，阈值选择为美学大于5分，水印小于0.8分的图像，CLIP相似度第一阶段不做过滤，同时保留模型打分结果，用于后面阶段的过滤，例如第三阶段筛选。进一步的引入BLIP2模型对于筛选之后的图片进行描述生成，同时翻译为中文描述，原始的说明文字caption描述也翻译为对应另一种语言的描述。数据统计情况表1所示。

数据源	Laion	悟空	COYO	自爬	总计
						原始数据	1.1B	100M	400M	100M	1.7B
清洗之后数据	240M	40M	100M	20M	400M

表1训练数据统计结果

图6为本申请实施例提供的一种模型训练方法的整体框架图。如图6所示，本方案在模型训练过程中冻结一种先进的多语言CLIP模型CLIP-M部分，只训练UNET网络层的部分结构，由于SDXL增加了三个额外的条件输入，第一个条件是将图像的原始尺寸(width和height)作为条件嵌入UNET模型中，这相当于让模型学到了图像分辨率参数，第二个条件是将训练过程中裁剪的左上定点坐标作为额外的条件注入到UNET中，这个注入方式采用和图像原始尺寸一样的方式，即通过傅立叶编码并加在时间嵌入层time embedding上。第三个条件是文本池嵌入层text pooling embedding，进一步提升语义表征能力。由于我们的输入的数据和文本描述不同于SDXL，同时为了避免发生灾难性遗忘，本方案只微调了和UNET的最相关的层，包括时间嵌入层time embedding，注意力机制的cross attension的K，V矩阵。

其中，模型训练分为三个阶段，第一个阶段通过图像伸缩resize，图像剪切crop操作固定图像分辨率，保持在512分辨率。第二个阶段进行分桶操作，即放弃统一对数据进行resize，crop成512，而先定义多种分辨率桶，这样可以保证数据完整性，同时也支持生成多种分辨率的图像。本方案首先统计数据图像的分辨率分布情况。

根据分布确定桶的个数和大小，桶的平均分辨率可以设在640*640(中位数)，绝大部分图像的长宽比为1和1.5，分辨率比例桶从0.4到2.5比较合适，即[[384,1088],[448,896],[448,832],[512,768],[576,704],[640,640],[704,576],[768,512],[832,448],[896,448],[960,384],[1088,384]]，然后训练样本批次batch将近似比例数据归到相关桶进行训练。第三个阶段提高到美学评分5.5，同时只保留水印分数小于0.5的，以及图文匹配比高于预设值的，以提升数据质量进一步训练。

本申请实施例提供的实验细节如下，目前可训练参数只包括cross attension的K，V矩阵和time embedding矩阵，参数量366M；batch设置为10*8*24，机器型号NVIDIAA100-SXM4-80GB，学习率3e-5；半精度训练+训练模型deepspeed节省内存；第一阶段训练200000steps，第二阶段和第三阶段分别训练100000steps。

训练完成后选择的评测指标包括4个，第一个指标CLIPScore，CLIP模型同样使用CLIP-M，主要用来评测文本和图片语义信息的对齐；后面三个指标分别是ImageReward,pickscore，HPSv2，都是基于人类反馈训练的reward model，主要用来评测图像的生成和人类的偏好的对齐性。测试数据我们选择了200个比较有代表意义的中文和对应英文的提示Prompts。

将基模型的测试结果对比训练后的SDXl 0.9和SDXl1.0模型的测试结果，结果如下，

模型样本	CLIPScore	ImageReward	pickscore	HPSv2
					SDXL0.9	0.4858	1.0425	0.2428	0.2713
SDXL1.0	0.4812	1.0985	0.2544	0.2710
					OURS_zh	0.4367	0.6452	0.2053	0.2648
OURS_en	0.4597	0.8150	0.2241	0.2686

表2基模型与SDXL模型的结果对比

可以看到训练后的SDXL模型的2个版本，在四个评测指标上的分数，都优于基模型的得分，可见模型训练效果不错。

本方案提出了基于知识引导的语境迁移，基于目前sota开源的SDXL框架训练了双语的文生图模型，不需要引入额外的翻译工具即可通过中文描述生成高质量的图片，同时也支持原生的英文模型。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，所述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

基于前述的实施例，本申请实施例提供一种模型训练装置，该装置所包括的各模块、以及各模块所包括的各单元，可以通过处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。

图7为本申请实施例提供的一种模型训练装置的结构示意图。如图7所示，所述装置400包括数据集获取模块401和模型训练模块402，其中：

数据集获取模块401，用于获取目标数据集，所述目标数据集包括多个目标图文对数据，每个所述目标图文对数据包括原始图像、第一语言图像描述信息和第二语言图像描述信息，所述第一语言图像描述信息采用第一语言，所述第二语言图像描述信息采用第二语言，所述第一语言与所述第二语言不同；

模型训练模块402，用于通过所述目标数据集对初始的文生图模型进行训练，得到训练好的文生图模型，所述训练好的文生图模型的输入数据包括采用所述第一语言或者所述第二语言描述的文本信息。

在一些实施例中，所述数据集获取模块401包括采集单元、过滤单和生成单元，其中，

采集单元，用于获取初始数据集，所述初始数据集包括多个初始图文对数据，每个所述初始图文对数据包括所述原始图像和原始图像描述信息，所述原始图像描述信息采用所述第一语言；

过滤单元，用于在所述初始数据集中筛选出所述原始图像符合预设图像要求的多个初始图文对数据，得到过滤后的数据集，所述预设图像要求包括图像美学要求、图像水印要求和图文匹配度要求中的至少一种，所述图文匹配度用于指示所述原始图像与所述原始图像描述信息之间的匹配度；

获取单元，用于根据所述过滤后的数据集中各个初始图文对数据对应的所述原始图像和所述原始图像描述信息，得到所述目标数据集。

在一些实施例中，所述获取单元具体用于：对所述各个初始图文对数据中的原始图像描述信息进行翻译，生成翻译后的图像描述信息，所述翻译后的图像描述信息采用所述第二语言；根据所述各个初始图文对数据中的原始图像，生成第一目标描述信息和第二目标描述信息，所述第一目标描述信息采用所述第一语言，所述第二目标描述信息采用所述第二语言，所述第一语言图像描述信息包括所述原始图像描述信息和所述第一目标描述信息，所述第二语言图像描述信息包括所述翻译后的图像描述信息和所述第二目标描述信息。

在一些实施例中，所述初始的文生图模型包括目标UNET模型，所述目标UNET模型包括基于注意力机制层的K，V矩阵，以及时间嵌入层，所述模型训练模块402具体用于：所述训练单元用于通过所述目标数据集对所述目标UNET模型的所述基于注意力机制层的K，V矩阵，以及所述时间嵌入层进行训练，得到所述训练好的文生图模型。

在一些实施例中，所述模型训练模块402包括训练单元、调整单元和结束单元，其中，训练单元，用于将所述目标数据集的所述原始图像和所述第一语言图像描述信息输入到训练UNET模型，以及，将所述目标数据集的所述原始图像和所述第二语言图像描述信息输入到所述目标UNET模型；调整单元，用于通过预设的损失函数以及所述训练UNET模型，对所述目标UNET模型的所述基于注意力机制层的K，V矩阵，以及所述时间嵌入层进行调整；结束单元，用于在所述预设的损失函数收敛的情况下，得到所述训练好的文生图模型。

在一些实施例中，所述训练单元具体用于：将所述原始图像与预设噪声叠加，得到加噪后的图像；将所述加噪后的图像和所述第一语言图像描述信息输入到训练UNET模型，以及，将所述加噪后的图像和所述第二语言图像描述信息输入到所述目标UNET模型。

在本申请实施例中，能够训练出双语的文生图模型，不需要引入额外的翻译工具即可通过其他语言的文本描述信息生成高质量的图片，同时也支持原生语言的文本描述信息。

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中图7所示的模型训练装置对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。也可以采用软件和硬件结合的形式实现。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得电子设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

图8为本申请实施例提供的一种电子设备的结构示意图。如图8所示，电子设备可以包括处理器501，存储器502，通信接口503和总线504。存储器502用于存储指令，该处理器501用于执行该存储器502存储的指令。处理器501、存储器502和通信接口503通过总线504实现彼此之间的通信连接。

处理器501可以包括一个或多个处理单元。例如，处理器501是一个中央处理器(central processing unit，CPU)，也可以是特定集成电路(application specificintegrated circuit，ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路，例如：一个或多个微处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

存储器502可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器502可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，视频数据等)等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器501通过运行存储在存储器502的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种功能应用以及数据处理。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中提供的模型训练方法或者图像生成方法中的步骤。

上述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(readonly memory，ROM)、可擦式可编程只读存储器(erasable programmable read onlymemory，EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、射频(radio frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本说明书操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(localarea network，LAN)或广域网(wide area network，WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述方法实施例提供的模型训练方法或者图像生成方法中的步骤。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

这里需要指出的是：以上存储介质、程序产品和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质、存储介质和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”或“一些实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”或“在一些实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如对象A和/或对象B，可以表示：单独存在对象A，同时存在对象A和对象B，单独存在对象B这三种情况。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个模块或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或模块的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的模块可以是、或也可以不是物理上分开的，作为模块显示的部件可以是、或也可以不是物理模块；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部模块来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能模块可以全部集成在一个处理单元中，也可以是各模块分别单独作为一个单元，也可以两个或两个以上模块集成在一个单元中；上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得电子设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取目标数据集，包括：

获取初始数据集，所述初始数据集包括多个初始图文对数据，每个所述初始图文对数据包括所述原始图像和原始图像描述信息，所述原始图像描述信息采用所述第一语言；

在所述初始数据集中筛选出所述原始图像符合预设图像要求的多个初始图文对数据，得到过滤后的数据集，所述预设图像要求包括图像美学要求、图像水印要求和图文匹配度要求中的至少一种，所述图文匹配度用于指示所述原始图像与所述原始图像描述信息之间的匹配度；

根据所述过滤后的数据集中各个初始图文对数据对应的所述原始图像和所述原始图像描述信息，得到所述目标数据集。

3.根据权利要求2所述的方法，其特征在于，所述每个初始图文对数据包括的所述原始图像的分辨率满足预设分辨率要求，所述预设分辨率要求为水平像素点数量以及垂直像素点数量均大于或者等于预设像素点数量。

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述过滤后的数据集中各个初始图文对数据对应的所述原始图像和原始图像描述信息，得到所述目标数据集，包括：

对所述各个初始图文对数据中的原始图像描述信息进行翻译，生成翻译后的图像描述信息，所述翻译后的图像描述信息采用所述第二语言；

根据所述各个初始图文对数据中的原始图像，生成第一目标描述信息和第二目标描述信息，所述第一目标描述信息采用所述第一语言，所述第二目标描述信息采用所述第二语言，所述第一语言图像描述信息包括所述原始图像描述信息和所述第一目标描述信息，所述第二语言图像描述信息包括所述翻译后的图像描述信息和所述第二目标描述信息。

5.根据权利要求1所述的方法，其特征在于，所述初始的文生图模型包括目标UNET模型，所述目标UNET模型包括基于注意力机制层的K，V矩阵，以及时间嵌入层，所述通过所述目标数据集对初始的文生图模型进行训练，得到训练好的文生图模型，包括：

通过所述目标数据集对所述目标UNET模型的所述基于注意力机制层的K，V矩阵，以及所述时间嵌入层进行训练，得到所述训练好的文生图模型。

6.根据权利要求5所述的方法，其特征在于，所述通过所述目标数据集对所述目标UNET模型的所述基于注意力机制层的K，V矩阵，以及所述时间嵌入层进行训练，得到所述训练好的文生图模型，包括：

将所述目标数据集的所述原始图像和所述第一语言图像描述信息输入到训练UNET模型，以及，将所述目标数据集的所述原始图像和所述第二语言图像描述信息输入到所述目标UNET模型；

通过预设的损失函数以及所述训练UNET模型，对所述目标UNET模型的所述基于注意力机制层的K，V矩阵，以及所述时间嵌入层进行调整；

在所述预设的损失函数收敛的情况下，得到所述训练好的文生图模型。

7.根据权利要求6所述的方法，其特征在于，所述将所述目标数据集的所述原始图像和所述第一语言图像描述信息输入到训练UNET模型，以及，将所述目标数据集的所述原始图像和所述第二语言图像描述信息输入到所述目标UNET模型，包括：

将所述原始图像与预设噪声叠加，得到加噪后的图像；

将所述加噪后的图像和所述第一语言图像描述信息输入到训练UNET模型，以及，将所述加噪后的图像和所述第二语言图像描述信息输入到所述目标UNET模型。

8.根据权利要求7所述的方法，其特征在于，所述预设的损失函数包括第一损失函数、第二损失函数以及第三损失函数，所述第一损失函数是根据所述预设噪声以及所述目标UNET模型的输出结果的噪声确定的，所述第二损失函数是根据所述训练UNET模型的输出结果与所述目标UNET模型的输出结果的差异确定的，所述第三损失函数是所述训练UNET模型与所述目标UNET模型中各个相对应的层的特征差异确定的。

9.一种图像生成方法，其特征在于，包括：

将所述目标文本信息输入训练好的文生图模型，得到与所述目标文本信息对应的目标图像，所述训练好的文生图模型是采用权利要求1至权8任一项所述模型训练方法进行训练得到的。

10.一种模型训练装置，其特征在于，包括：

11.一种电子设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8任一项所述模型训练方法的步骤，或者实现权利要求9所述图像生成方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至8任一项所述模型训练方法的步骤，或者实现权利要求9所述图像生成方法的步骤。