CN117994376A

CN117994376A - 基于文生图的图像生成方法及装置

Info

Publication number: CN117994376A
Application number: CN202410175932.3A
Authority: CN
Inventors: 赵必美; 梁寿愚; 姚森敬; 卢志良; 董召杰; 敖榜; 刘懋; 吴石松; 姜诚; 任正国; 郭尧; 杨伟; 王鹏凯; 陈骞; 陈元峰; 郑桦; 李成
Original assignee: China Southern Power Grid Artificial Intelligence Technology Co ltd
Current assignee: China Southern Power Grid Artificial Intelligence Technology Co ltd
Priority date: 2024-02-07
Filing date: 2024-02-07
Publication date: 2024-05-07

Abstract

本发明公开了一种基于文生图的图像生成方法及装置。其中，该方法包括：获取用户输入的文本描述信息和用户的标签信息；对文本描述信息和标签信息进行文本扩充，以得到包含用户画像特征和语义特征的完整文本描述；获取完整文本描述信息对应的图片信息生成向量；将图片信息生成向量输入至文生图模型中，以利用文生图模型对图片信息生成向量进行处理，得到多张图片；对多张图片进行打分，得到多张图片中每一张图片的打分值；将多张图片中打分值大于预定分值的部分图片发送至终端设备；获取用户基于终端设备对部分图片的反馈信息，并基于反馈信息确定目标图像。本发明解决了相关技术中文生图技术无法为用户生成个性化风格的图片的技术问题。

Description

基于文生图的图像生成方法及装置

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种基于文生图的图像生成方法及装置。

背景技术

“文生图”这种系统通常指将用户输入的文本描述生成为对应的图像。这里面需首先利用自然语言处理(NLP)对输入的文本进行解析，分析理解词汇、句法结构和语义关系，以提取文本中的语义信息。然后再利用计算机视觉技术，如潜在扩散模型Stablediffusion，利用自动编码器将输入的样本图像压缩到1atent空间，转化为压缩的特征图，在特征图的基础上加噪、去噪，最终进行解码来生成高质量的图像。

现在市场上的文生图产品，生成的数据虽然多样，但难以保证结果是适合用户的。比如对于同样的prompt输入，不同年龄、性别、兴趣的用户，生成的偏好也可能不一样。如儿童偏好于卡通风格；年轻人可能更偏好二次元风格的图片输出；老人可能喜欢写实、照片风格；男生可能喜欢硬朗风格，女生喜欢可爱温馨风格；IT工作者可能喜欢科技感、机械感的图片；传统文化工作者的可能喜欢水墨画风格。

针对上述相关技术中文生图技术无法为用户生成个性化风格的图片的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种基于文生图的图像生成方法及装置，以至少解决相关技术中文生图技术无法为用户生成个性化风格的图片的技术问题。

根据本发明实施例的一个方面，提供了一种基于文生图的图像生成方法，包括：获取用户输入的文本描述信息和所述用户的标签信息，其中，所述文本描述信息是所述用户对需要生成的目标图像的描述信息，所述标签信息用于描述所述用户的特征；对所述文本描述信息和所述标签信息进行文本扩充，以得到包含用户画像特征和语义特征的完整文本描述；获取所述完整文本描述信息对应的图片信息生成向量；将所述图片信息生成向量输入至文生图模型中，以利用所述文生图模型对所述图片信息生成向量进行处理，得到多张图片，其中，所述文生图模型是使用多组训练数据通过机器学习训练得到的模型，所述多组训练数据中的每一组均包括：样本图片信息生成向量和与所述样本图片信息生成向量对应的样本图片；对所述多张图片进行打分，得到所述多张图片中每一张图片的打分值；将所述多张图片中所述打分值大于预定分值的部分图片发送至终端设备；获取所述用户基于所述终端设备对所述部分图片的反馈信息，并基于所述反馈信息确定所述目标图像。

可选地，对所述文本描述信息和所述标签信息进行文本扩充，以得到包含用户画像特征和语义特征的完整文本描述，包括：根据所述文本描述信息和所述标签信息确定所述文本描述信息的细节描述信息；利用所述细节描述信息对所述文本描述信息和所述标签信息进行文本扩充，以得到包含所述用户画像特征和所述语义特征的所述完整文本描述。

可选地，获取所述完整文本描述信息对应的图片信息生成向量，包括：对所述完整文本描述信息进行特征提取，以得到所述完整文本描述信息的特征信息；对所述特征信息进行编码，得到初始图片信息生成向量；利用图片编码器对所述初始图片信息生成向量进行去噪处理，得到所述图片信息生成向量。

可选地，将所述图片信息生成向量输入至文生图模型中，以利用所述文生图模型对所述图片信息生成向量进行处理，得到多张图片，包括：利用图片解码器对所述图片信息生成向量进行解码，得到所述图片信息生成向量对应的可视化图像；将所述可视化图片输入至所述文生图模型中，以利用所述文生图模型对所述可视化图片进行处理，得到所述多张图片。

可选地，对所述多张图片进行打分，得到所述多张图片中每一张图片的打分值，包括：将所述多张图片和所述文本描述信息输入至奖惩模型中，以利用所述奖惩模型对所述多张图片和所述文本描述信息进行处理，以得到所述多张图片中每一张图片的所述打分值，其中，所述奖惩模型是使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的每一组均包括：样本多张图片、样本文本描述信息以及与所述样本多张图片和所述样本文本描述信息对应的样本打分值。

可选地，将所述多张图片中所述打分值大于预定分值的部分图片发送至终端设备，包括：将所述多张图片中每一组图片的所述打分值分别与所述预定分值进行比对，得到所述分值大于所述预定分值的所述部分图片；将所述部分图片发送至所述终端设备。

可选地，获取所述用户基于所述终端设备对所述部分图片的反馈信息，并基于所述反馈信息确定所述目标图像，包括：对所述反馈信息进行解析，得到所述用户从所述部分图片中选择的满足用户需求的图片；确定所述图片为所述目标图像。

可选地，在获取所述用户基于所述终端设备对所述部分图片的反馈信息，并基于所述反馈信息确定所述目标图像之后，该基于文生图的图像生成方法还包括：对所述反馈信息进行解析，得到所述用户从所述部分图片中选择的最满意图片和最不满意图片；将所述最满意图片与所述多张图片中的第一张图片进行比较，并将所述最不满意图片与所述多张图片中的最后一张图片进行比较，得到比较结果；在所述比较结果表示所述最满意图片与所述第一张图片一致时，则对所述文生图模型进行分值奖励，反之则对所述文生图模型进行分值惩罚；在所述比较结果表示所述最不满意图片与所述最后一张图片一致时，则对所述文生图模型进行分值奖励，反之则对所述文生图模型进行分值惩罚；在确定所述文生图模型的累计分值小于分值阈值时，对所述文生图模型进行优化。

根据本发明实施例的另外一个方面，还提供了一种基于文生图的图像生成装置，包括：第一获取单元，用于获取用户输入的文本描述信息和所述用户的标签信息，其中，所述文本描述信息是所述用户对需要生成的目标图像的描述信息，所述标签信息用于描述所述用户的特征；扩充单元，用于对所述文本描述信息和所述标签信息进行文本扩充，以得到包含用户画像特征和语义特征的完整文本描述；第二获取单元，用于获取所述完整文本描述信息对应的图片信息生成向量；处理单元，用于将所述图片信息生成向量输入至文生图模型中，以利用所述文生图模型对所述图片信息生成向量进行处理，得到多张图片，其中，所述文生图模型是使用多组训练数据通过机器学习训练得到的模型，所述多组训练数据中的每一组均包括：样本图片信息生成向量和与所述样本图片信息生成向量对应的样本图片；打分单元，用于对所述多张图片进行打分，得到所述多张图片中每一张图片的打分值；发送单元，用于将所述多张图片中所述打分值大于预定分值的部分图片发送至终端设备；确定单元，用于获取所述用户基于所述终端设备对所述部分图片的反馈信息，并基于所述反馈信息确定所述目标图像。

可选地，所述扩充单元，包括：第一确定模块，用于根据所述文本描述信息和所述标签信息确定所述文本描述信息的细节描述信息；扩充模块，用于利用所述细节描述信息对所述文本描述信息和所述标签信息进行文本扩充，以得到包含所述用户画像特征和所述语义特征的所述完整文本描述。

可选地，所述第二获取单元，包括：提取模块，用于对所述完整文本描述信息进行特征提取，以得到所述完整文本描述信息的特征信息；编码模块，用于对所述特征信息进行编码，得到初始图片信息生成向量；去噪模块，用于利用图片编码器对所述初始图片信息生成向量进行去噪处理，得到所述图片信息生成向量。

可选地，所述处理单元，包括：解码模块，用于利用图片解码器对所述图片信息生成向量进行解码，得到所述图片信息生成向量对应的可视化图像；第一处理模块，用于将所述可视化图片输入至所述文生图模型中，以利用所述文生图模型对所述可视化图片进行处理，得到所述多张图片。

可选地，所述打分单元，包括：第二处理模块，用于将所述多张图片和所述文本描述信息输入至奖惩模型中，以利用所述奖惩模型对所述多张图片和所述文本描述信息进行处理，以得到所述多张图片中每一张图片的所述打分值，其中，所述奖惩模型是使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的每一组均包括：样本多张图片、样本文本描述信息以及与所述样本多张图片和所述样本文本描述信息对应的样本打分值。

可选地，所述发送单元，包括：比对模块，用于将所述多张图片中每一组图片的所述打分值分别与所述预定分值进行比对，得到所述分值大于所述预定分值的所述部分图片；发送模块，用于将所述部分图片发送至所述终端设备。

可选地，所述确定单元，包括：解析模块，用于对所述反馈信息进行解析，得到所述用户从所述部分图片中选择的满足用户需求的图片；第二确定模块，用于确定所述图片为所述目标图像。

可选地，该基于文生图的图像生成装置还包括：解析单元，用于在获取所述用户基于所述终端设备对所述部分图片的反馈信息，并基于所述反馈信息确定所述目标图像之后，对所述反馈信息进行解析，得到所述用户从所述部分图片中选择的最满意图片和最不满意图片；比较单元，用于将所述最满意图片与所述多张图片中的第一张图片进行比较，并将所述最不满意图片与所述多张图片中的最后一张图片进行比较，得到比较结果；第一奖惩单元，用于在所述比较结果表示所述最满意图片与所述第一张图片一致时，则对所述文生图模型进行分值奖励，反之则对所述文生图模型进行分值惩罚；第二奖惩单元，用于在所述比较结果表示所述最不满意图片与所述最后一张图片一致时，则对所述文生图模型进行分值奖励，反之则对所述文生图模型进行分值惩罚；优化单元，用于在确定所述文生图模型的累计分值小于分值阈值时，对所述文生图模型进行优化。

根据本发明实施例的另外一个方面，还提供了一种用户画像生成系统，所述用户画像生成系统使用上述中任一项所述的基于文生图的图像生成方法。

根据本发明实施例的另外一个方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行上述中任意一项所述的基于文生图的图像生成方法。

根据本发明实施例的另外一个方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述中任意一项所述的基于文生图的图像生成方法。

在本发明实施例中，获取用户输入的文本描述信息和用户的标签信息，其中，文本描述信息是用户对需要生成的目标图像的描述信息，标签信息用于描述用户的特征；对文本描述信息和标签信息进行文本扩充，以得到包含用户画像特征和语义特征的完整文本描述；获取完整文本描述信息对应的图片信息生成向量；将图片信息生成向量输入至文生图模型中，以利用文生图模型对图片信息生成向量进行处理，得到多张图片，其中，文生图模型是使用多组训练数据通过机器学习训练得到的模型，多组训练数据中的每一组均包括：样本图片信息生成向量和与样本图片信息生成向量对应的样本图片；对多张图片进行打分，得到多张图片中每一张图片的打分值；将多张图片中打分值大于预定分值的部分图片发送至终端设备；获取用户基于终端设备对部分图片的反馈信息，并基于反馈信息确定目标图像。通过本发明提供的技术方案，实现了将用户画像与文生图相结合，实现个性化图像的生成的目的，达到提升用户画像生成的准确性的技术效果，进而解决了相关技术中文生图技术无法为用户生成个性化风格的图片的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种基于文生图的图像生成方法的移动终端的硬件结构框图；

图2是根据本发明实施例的基于文生图的图像生成方法的流程图；

图3是根据本发明实施例的基于文生图的图像生成装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

正如背景技术中所介绍的，相关技术中用户画像生成方式难以保证结果是适合用户的，例如，对于同样的prompt输入，不同年龄、性别、兴趣的用户，生成的偏好也可能不一样。如儿童偏好于卡通风格；年轻人可能更偏好二次元风格的图片输出；老人可能喜欢写实、照片风格；男生可能喜欢硬朗风格，女生喜欢可爱温馨风格；IT工作者可能喜欢科技感、机械感的图片；传统文化工作者的可能喜欢水墨画风格。针对上述缺陷，在本发明的实施例中提供了一种基于文生图的图像生成方法及装置、移用户画像生成系统、计算机可读存储介质以及处理器。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明实施例中所提供的装置实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种基于文生图的图像生成方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的基于文生图的图像生成方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的装置。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Contro11er，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Ra dio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

根据本发明实施例，提供了一种基于文生图的图像生成方法的装置实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图2是根据本发明实施例的基于文生图的图像生成方法的流程图，如图2所示，该基于文生图的图像生成方法包括如下步骤：

步骤S202，获取用户输入的文本描述信息和用户的标签信息，其中，文本描述信息是用户对需要生成的目标图像的描述信息，标签信息用于描述用户的特征。

在该实施例中，用户若需要生成用户画像，首先需要提供想要生成的用户画像的文本描述信息；此外，为了使得生成的用户画像能够满足用户的需求，还可以获取用户的标签信息，这里的标签信息是用于描述用户的特征的信息。

这里可以利用自然语言处理模块NLP对文本描述信息进行预处理，例如，去除不必要的字符、分词、标点符号的去除、词性标注等，这有助于将文本转化为计算机可处理的形式。

此外，在该实施例中，实体识别模块可以识别文本描述信息中的关键实体，例如，人名、地点、组织等，这些实体的识别有助于理解文本的上下文和关系。

进一步地，可以利用语义分析模块可分析文本的语义关系，包括：主谓宾关系、时间序列、情感分析等。这些语义信息用于后续的图像生成，以确保生成的图像与文本描述相关联。

步骤s204，对文本描述信息和标签信息进行文本扩充，以得到包含用户画像特征和语义特征的完整文本描述。

在该实施例中，可以对文本描述信息进行文本扩充，从而额可以包含用户画像特征和语义特征的完整文本描述。

步骤S206，获取完整文本描述信息对应的图片信息生成向量。

步骤S208，将图片信息生成向量输入至文生图模型中，以利用文生图模型对图片信息生成向量进行处理，得到多张图片，其中，文生图模型是使用多组训练数据通过机器学习训练得到的模型，多组训练数据中的每一组均包括：样本图片信息生成向量和与样本图片信息生成向量对应的样本图片。

步骤S210，对多张图片进行打分，得到多张图片中每一张图片的打分值。

步骤S212，将多张图片中打分值大于预定分值的部分图片发送至终端设备。

步骤S214，获取用户基于终端设备对部分图片的反馈信息，并基于反馈信息确定目标图像。

由上述可知，在本发明实施例中，可以获取用户输入的文本描述信息和用户的标签信息，其中，文本描述信息是用户对需要生成的目标图像的描述信息，标签信息用于描述用户的特征；对文本描述信息和标签信息进行文本扩充，以得到包含用户画像特征和语义特征的完整文本描述；获取完整文本描述信息对应的图片信息生成向量；将图片信息生成向量输入至文生图模型中，以利用文生图模型对图片信息生成向量进行处理，得到多张图片，其中，文生图模型是使用多组训练数据通过机器学习训练得到的模型，多组训练数据中的每一组均包括：样本图片信息生成向量和与样本图片信息生成向量对应的样本图片；对多张图片进行打分，得到多张图片中每一张图片的打分值；将多张图片中打分值大于预定分值的部分图片发送至终端设备；获取用户基于终端设备对部分图片的反馈信息，并基于反馈信息确定目标图像，实现了将用户画像与文生图相结合，实现个性化图像的生成的目的，达到提升用户画像生成的准确性的技术效果。

通过本发明上述实施例提供的技术方案，解决了相关技术中文生图技术无法为用户生成个性化风格的图片的技术问题。

在本发明实施例中，可以利用用户画像数据库模块进行用户画像的创建。用户画像的创建是基于文生图的图像生成方法的基础，它利用用户的个性化数据来构建用户特征的数学表示，设计数据的收集、处理和建模。

其中，在本发明实施例中，用户画像包括了基础画像和动态画像。

针对基础画像，基础画像是利用各模块采集用户的基本信息，构建的用户基础画像，将定期采集的以下交互信息，完成基础画像迭代，即，基于文生图的图像生成方法的系统的学习。

这里交互系统有采集声音的模块，可根据用户的历史语音，通过声纹信息判断性别和年龄，无需用户填入；交互系统有图像采集的模块，根据人脸可推断用户年龄，地域，情绪等信息；交互系统有对话模块，通过历史对话信息，可能包括用户的喜好生成的实体对象、生成喜好、风格偏好等信息。

上述这些非结构化数据可能包含大量无关信息，需要过滤、处理掉噪声数据，再把数据进行标准化处理，送入特征提取模块，用一个固定长度N维向量表示。这个N维向量矩阵的每一位取值为0或1，可以把用户信息如用户的性别，地域，职业，年龄，爱好，口头禅，地点等信息编码到这个向量矩阵中，并生成关于这个用户的基础知识图谱，这里的基础知识图谱记录了用户的各个特征维度，也即是，用户画像的标签信息。

上述基础画像生成步骤如下：步骤一，通过交互系统采集的信息，将实体信息、用户的喜好信息等，送入实体关系预测模块；步骤二，对实体信息进行关系预测，得到实体关系，将预测到的实体关系送入用户图谱构建模块；步骤三，用户图谱构建模块将接收到的实体关系以三元组的形式存储在图数据库中，完成用户基础知识库(即用户基础画像)的构建。

针对动态画像，其是在基础画像外，在每轮对话交互过程中产生的新用户画像，它可以随着用户行为的变化而更新，具有动态和临时性。系统在每轮对话都会搜集用户的交互数据，用以更新当前对话的临时用户画像，并将在之后的每一轮对话中使用新的用户画像，用以生成更符合用户喜好的图片。在整个对话结束后，释放临时用户动态画像。以下是生成步骤：①步骤一，通过实体识别模块识别对话过程中的实体、用户的喜好信息，并将识别到的实体信息送入实体关系预测模块；步骤二，对实体信息进行关系预测，得到实体关系，将预测到的实体关系送入用户图谱构建模块；步骤三，用户图谱构建模块将接收到的实体关系以三元组的形式存储在图数据库中；通过知识图谱扩展模块引入知识库，根据实体信息扩充背景知识，构建基于用户实时更新的知识图谱，并推送到个性化图像生成模块。

此外，在本发明实施例中，可以利用个性化图像生成模块在多轮用户输入对话时，将NLP理解的用户的真实意图和用户画像(基础画像和动态画像)一并输入到图像生成模块，由该模块负责进行图像生成，图像生成过程是系统的核心部分。这一过程使用深度学习技术来将文本的语义映射到图像特征。

根据本发明上述实施例，对文本描述信息和标签信息进行文本扩充，以得到包含用户画像特征和语义特征的完整文本描述，可以包括：根据文本描述信息和标签信息确定文本描述信息的细节描述信息；利用细节描述信息对文本描述信息和标签信息进行文本扩充，以得到包含用户画像特征和语义特征的完整文本描述。

在该实施例中，可以对用户输入的文本的语义信息和用户标签信息进行文本扩充。扩展成一个同时包含了用户画像特征和语义特征的完整的描述文本。这里通过对文本描述信息进行扩充，使得用于生成用户画像的文本描述更加丰富，进而也确保了生成的用户的准确性。

根据本发明上述实施例，获取完整文本描述信息对应的图片信息生成向量，可以包括：对完整文本描述信息进行特征提取，以得到完整文本描述信息的特征信息；对特征信息进行编码，得到初始图片信息生成向量；利用图片编码器对初始图片信息生成向量进行去噪处理，得到图片信息生成向量。

在该实施例中，可以将完整文本描述信息进行特征提取，并基于提取的特征将完整文本描述信息编码成一个向量，并将该向量输入到深度学习模型的图片编码器中，并进行潜在的噪声去除处理，得到图片信息生成向量。

根据本发明上述实施例，将图片信息生成向量输入至文生图模型中，以利用文生图模型对图片信息生成向量进行处理，得到多张图片，可以包括：利用图片解码器对图片信息生成向量进行解码，得到图片信息生成向量对应的可视化图像；将可视化图片输入至文生图模型中，以利用文生图模型对可视化图片进行处理，得到多张图片。

在该实施例中，可以将图片信息生成向量输入到深度学习模型的图片解码器，从而将图片信息生成向量转换成可视化图像，并利用文生图模型生成基于文本语义和风格特征的组合图片。

根据本发明上述实施例，对多张图片进行打分，得到多张图片中每一张图片的打分值，包括：将多张图片和文本描述信息输入至奖惩模型中，以利用奖惩模型对多张图片和文本描述信息进行处理，以得到多张图片中每一张图片的打分值，其中，奖惩模型是使用多组训练数据通过机器学习训练得到的，多组训练数据中的每一组均包括：样本多张图片、样本文本描述信息以及与样本多张图片和样本文本描述信息对应的样本打分值。

在该实施例中，利用预训练好的奖励、惩罚模型，基于输入的文本和对应的生成图片进行打分，奖惩模型的打分体现着人类的喜好，如针对儿童用户的输入“画一辆小汽车”，漫画卡通风格、画面温暖、情感正向的打分奖励模型得分可能为10分；若生成写实照片、画面阴鸷、情感负面的打分，惩罚模型得分可能为10分。奖惩励打分可按照0-10分梯度给分。这里基础的奖惩模型可由大量的高质量人工图片经过提前训练获得。

根据本发明上述实施例，将多张图片中打分值大于预定分值的部分图片发送至终端设备，可以包括：将多张图片中每一组图片的打分值分别与预定分值进行比对，得到分值大于预定分值的部分图片；将部分图片发送至终端设备。

在该实施例中，将文生图模型生成的部分图片(例如Top5)给到用户。这一步可引入交互式体验的元素。用户可通过界面互动，自由选择、比较，以更直观的方式参与到图像选择的过程中，用户可从中挑选一张他们最满意和最不满意的图片。

根据本发明上述实施例，获取用户基于终端设备对部分图片的反馈信息，并基于反馈信息确定目标图像，包括：对反馈信息进行解析，得到用户从部分图片中选择的满足用户需求的图片；确定图片为目标图像。

在该实施例中，可以基于用户的反馈信息来确定出用户从部分图片中选择的满足用户需求的图片，从而可以确定该图片为目标图像。

根据本发明上述实施例，在获取用户基于终端设备对部分图片的反馈信息，并基于反馈信息确定目标图像之后，该基于文生图的图像生成方法还包括：对反馈信息进行解析，得到用户从部分图片中选择的最满意图片和最不满意图片；将最满意图片与多张图片中的第一张图片进行比较，并将最不满意图片与多张图片中的最后一张图片进行比较，得到比较结果；在比较结果表示最满意图片与第一张图片一致时，则对文生图模型进行分值奖励，反之则对文生图模型进行分值惩罚；在比较结果表示最不满意图片与最后一张图片一致时，则对文生图模型进行分值奖励，反之则对文生图模型进行分值惩罚；在确定文生图模型的累计分值小于分值阈值时，对文生图模型进行优化。

在该实施例中，可将用户挑选的最满意、最不满意的图片，和文生图模型的T0P1比较，若最满意的TOP1一样，则予以奖励；反之，予以惩罚。提取当前对话的实体词信息、偏好信息，构建用户动态画像。

其中，在后续的对每一轮话中，均利用用户的真实意图和最新的用户动态画像，输入到对话步骤一(即，对用户输入的文本的语义信息和用户标签信息进行文本扩充。扩展成一个同时包含了用户画像特征和语义特征的完整的描述文本，这个文本将被编码成一个向量。将向量输入到所述深度学习模型的图片编码器，并进行潜在噪声去除，得到图片信息生成向量；将所述图片信息生成向量输入到所述深度学习模型的图片解码器，利用文生图模型生成基于文本语义和风格特征的组合图片。)的图像生成模块中，继续执行步骤二(即，利用预训练好的奖励、惩罚模型，基于输入的文本和对应的生成图片进行打分，奖惩模型的打分体现着人类的喜好，如针对儿童用户的输入“画一辆小汽车”，漫画卡通风格、画面温暖、情感正向的打分奖励模型得分可能为10分；若生成写实照片、画面阴鸷、情感负面的打分，惩罚模型得分可能为10分。奖惩励打分可按照0-10分梯度给分。基础的奖惩模型可由大量的高质量人工图片经过提前训练获得)、步骤三(即，将文生图模型生成的图片Top5给到用户。这一步可引入交互式体验的元素。用户可通过界面互动，自由选择、比较，以更直观的方式参与到图像选择的过程中，用户可从中挑选一张他们最满意和最不满意的图片)、步骤四(即，将用户挑选的最满意、最不满意的图片，和文生图模型的TOP1比较，若最满意的TOP1一样，则予以奖励；反之，予以惩罚。提取当前对话的实体词信息、偏好信息，构建用户动态画像)。

此外，在本发明实施例中，需定期搜集用户业务实际反馈的图片，对用户选择背后意图的深度学习分析，以更好地理解用户的偏好和需求，从而进一步调整模型的生成策略。把用户反馈数据添加到原奖励模型训练集中，用以训练新奖励模型，和通过强化学习调整参数，使得能够生成更高奖励的得分、更低的惩罚得分的模型。在整个过程中，将文生图模型去噪生成图片步骤作为强化学习轨迹，以奖励信号控制整个生成过程，令模型向累计奖励高、惩罚低的方向优化。

通过本发明实施例提供的技术方案，将用户画像与文生图系统相结合，实现个性化图像生成。这种创新改善了传统的图像生成的方式，为用户提供了更富有创意的体验。

需要说明的是，对于前述的各装置实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的装置可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的装置。

根据本发明实施例，还提供了一种用于实施上述基于文生图的图像生成方法的基于文生图的图像生成装置，图3是根据本发明实施例的基于文生图的图像生成装置的示意图，如图3所示，该装置包括：第一获取单元301，扩充单元303，第二获取单元305，处理单元307，打分单元309、发送单元311以及确定单元313。下面对该基于文生图的图像生成装置进行说明。

第一获取单元301，用于获取用户输入的文本描述信息和用户的标签信息，其中，文本描述信息是用户对需要生成的目标图像的描述信息，标签信息用于描述用户的特征。

扩充单元303，用于对文本描述信息和标签信息进行文本扩充，以得到包含用户画像特征和语义特征的完整文本描述。

第二获取单元305，用于获取完整文本描述信息对应的图片信息生成向量。

处理单元307，用于将图片信息生成向量输入至文生图模型中，以利用文生图模型对图片信息生成向量进行处理，得到多张图片，其中，文生图模型是使用多组训练数据通过机器学习训练得到的模型，多组训练数据中的每一组均包括：样本图片信息生成向量和与样本图片信息生成向量对应的样本图片。

打分单元309，用于对多张图片进行打分，得到多张图片中每一张图片的打分值。

发送单元311，用于将多张图片中打分值大于预定分值的部分图片发送至终端设备。

确定单元313，用于获取用户基于终端设备对部分图片的反馈信息，并基于反馈信息确定目标图像。

此处需要说明的是，上述第一获取单元301，扩充单元303，第二获取单元305，处理单元307，打分单元309、发送单元311以及确定单元313对应于上述实施例中的步骤S202至步骤S214，七个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例所公开的内容。

由上可知，本发明上述实施例记载的方案中，可以利用第一获取单元获取用户输入的文本描述信息和用户的标签信息，其中，文本描述信息是用户对需要生成的目标图像的描述信息，标签信息用于描述用户的特征；接着利用扩充单元对文本描述信息和标签信息进行文本扩充，以得到包含用户画像特征和语义特征的完整文本描述；第二获取单元，用于获取完整文本描述信息对应的图片信息生成向量；利用处理单元将图片信息生成向量输入至文生图模型中，以利用文生图模型对图片信息生成向量进行处理，得到多张图片，其中，文生图模型是使用多组训练数据通过机器学习训练得到的模型，多组训练数据中的每一组均包括：样本图片信息生成向量和与样本图片信息生成向量对应的样本图片；利用打分单元对多张图片进行打分，得到多张图片中每一张图片的打分值；利用发送单元将多张图片中打分值大于预定分值的部分图片发送至终端设备；并利用确定单元获取用户基于终端设备对部分图片的反馈信息，并基于反馈信息确定目标图像，实现了将用户画像与文生图相结合，实现个性化图像的生成的目的，达到提升用户画像生成的准确性的技术效果。

可选地，扩充单元，包括：第一确定模块，用于根据文本描述信息和标签信息确定文本描述信息的细节描述信息；扩充模块，用于利用细节描述信息对文本描述信息和标签信息进行文本扩充，以得到包含用户画像特征和语义特征的完整文本描述。

可选地，第二获取单元，包括：提取模块，用于对完整文本描述信息进行特征提取，以得到完整文本描述信息的特征信息；编码模块，用于对特征信息进行编码，得到初始图片信息生成向量；去噪模块，用于利用图片编码器对初始图片信息生成向量进行去噪处理，得到图片信息生成向量。

可选地，处理单元，包括：解码模块，用于利用图片解码器对图片信息生成向量进行解码，得到图片信息生成向量对应的可视化图像；第一处理模块，用于将可视化图片输入至文生图模型中，以利用文生图模型对可视化图片进行处理，得到多张图片。

可选地，打分单元，包括：第二处理模块，用于将多张图片和文本描述信息输入至奖惩模型中，以利用奖惩模型对多张图片和文本描述信息进行处理，以得到多张图片中每一张图片的打分值，其中，奖惩模型是使用多组训练数据通过机器学习训练得到的，多组训练数据中的每一组均包括：样本多张图片、样本文本描述信息以及与样本多张图片和样本文本描述信息对应的样本打分值。

可选地，发送单元，包括：比对模块，用于将多张图片中每一组图片的打分值分别与预定分值进行比对，得到分值大于预定分值的部分图片；发送模块，用于将部分图片发送至终端设备。

可选地，确定单元，包括：解析模块，用于对反馈信息进行解析，得到用户从部分图片中选择的满足用户需求的图片；第二确定模块，用于确定图片为目标图像。

可选地，该基于文生图的图像生成装置还包括：解析单元，用于在获取用户基于终端设备对部分图片的反馈信息，并基于反馈信息确定目标图像之后，对反馈信息进行解析，得到用户从部分图片中选择的最满意图片和最不满意图片；比较单元，用于将最满意图片与多张图片中的第一张图片进行比较，并将最不满意图片与多张图片中的最后一张图片进行比较，得到比较结果；第一奖惩单元，用于在比较结果表示最满意图片与第一张图片一致时，则对文生图模型进行分值奖励，反之则对文生图模型进行分值惩罚；第二奖惩单元，用于在比较结果表示最不满意图片与最后一张图片一致时，则对文生图模型进行分值奖励，反之则对文生图模型进行分值惩罚；优化单元，用于在确定文生图模型的累计分值小于分值阈值时，对文生图模型进行优化。

根据本发明实施例的另外一个方面，还提供了一种用户画像生成系统，用户画像生成系统使用上述中任一项的基于文生图的图像生成方法。

根据本发明实施例的另外一个方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，程序执行上述中任意一项的基于文生图的图像生成方法。

可选地，在本实施例中，上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于通信设备群中的任意一个通信设备中。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取用户输入的文本描述信息和用户的标签信息，其中，文本描述信息是用户对需要生成的目标图像的描述信息，标签信息用于描述用户的特征；对文本描述信息和标签信息进行文本扩充，以得到包含用户画像特征和语义特征的完整文本描述；获取完整文本描述信息对应的图片信息生成向量；将图片信息生成向量输入至文生图模型中，以利用文生图模型对图片信息生成向量进行处理，得到多张图片，其中，文生图模型是使用多组训练数据通过机器学习训练得到的模型，多组训练数据中的每一组均包括：样本图片信息生成向量和与样本图片信息生成向量对应的样本图片；对多张图片进行打分，得到多张图片中每一张图片的打分值；将多张图片中打分值大于预定分值的部分图片发送至终端设备；获取用户基于终端设备对部分图片的反馈信息，并基于反馈信息确定目标图像。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：根据文本描述信息和标签信息确定文本描述信息的细节描述信息；利用细节描述信息对文本描述信息和标签信息进行文本扩充，以得到包含用户画像特征和语义特征的完整文本描述。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：对完整文本描述信息进行特征提取，以得到完整文本描述信息的特征信息；对特征信息进行编码，得到初始图片信息生成向量；利用图片编码器对初始图片信息生成向量进行去噪处理，得到图片信息生成向量。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：利用图片解码器对图片信息生成向量进行解码，得到图片信息生成向量对应的可视化图像；将可视化图片输入至文生图模型中，以利用文生图模型对可视化图片进行处理，得到多张图片。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：将多张图片和文本描述信息输入至奖惩模型中，以利用奖惩模型对多张图片和文本描述信息进行处理，以得到多张图片中每一张图片的打分值，其中，奖惩模型是使用多组训练数据通过机器学习训练得到的，多组训练数据中的每一组均包括：样本多张图片、样本文本描述信息以及与样本多张图片和样本文本描述信息对应的样本打分值。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：将多张图片中每一组图片的打分值分别与预定分值进行比对，得到分值大于预定分值的部分图片；将部分图片发送至终端设备。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：对反馈信息进行解析，得到用户从部分图片中选择的满足用户需求的图片；确定图片为目标图像。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：在获取用户基于终端设备对部分图片的反馈信息，并基于反馈信息确定目标图像之后，对反馈信息进行解析，得到用户从部分图片中选择的最满意图片和最不满意图片；将最满意图片与多张图片中的第一张图片进行比较，并将最不满意图片与多张图片中的最后一张图片进行比较，得到比较结果；在比较结果表示最满意图片与第一张图片一致时，则对文生图模型进行分值奖励，反之则对文生图模型进行分值惩罚；在比较结果表示最不满意图片与最后一张图片一致时，则对文生图模型进行分值奖励，反之则对文生图模型进行分值惩罚；在确定文生图模型的累计分值小于分值阈值时，对文生图模型进行优化。

根据本发明实施例的另外一个方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述中任意一项的基于文生图的图像生成方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述装置的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-0nly Memory)、随机存取存储器(RAM，Random Acces s Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于文生图的图像生成方法，其特征在于，包括：

获取用户输入的文本描述信息和所述用户的标签信息，其中，所述文本描述信息是所述用户对需要生成的目标图像的描述信息，所述标签信息用于描述所述用户的特征；

对所述文本描述信息和所述标签信息进行文本扩充，以得到包含用户画像特征和语义特征的完整文本描述；

获取所述完整文本描述信息对应的图片信息生成向量；

将所述图片信息生成向量输入至文生图模型中，以利用所述文生图模型对所述图片信息生成向量进行处理，得到多张图片，其中，所述文生图模型是使用多组训练数据通过机器学习训练得到的模型，所述多组训练数据中的每一组均包括：样本图片信息生成向量和与所述样本图片信息生成向量对应的样本图片；

对所述多张图片进行打分，得到所述多张图片中每一张图片的打分值；

将所述多张图片中所述打分值大于预定分值的部分图片发送至终端设备；

获取所述用户基于所述终端设备对所述部分图片的反馈信息，并基于所述反馈信息确定所述目标图像。

2.根据权利要求1所述的基于文生图的图像生成方法，其特征在于，对所述文本描述信息和所述标签信息进行文本扩充，以得到包含用户画像特征和语义特征的完整文本描述，包括：

根据所述文本描述信息和所述标签信息确定所述文本描述信息的细节描述信息；

利用所述细节描述信息对所述文本描述信息和所述标签信息进行文本扩充，以得到包含所述用户画像特征和所述语义特征的所述完整文本描述。

3.根据权利要求1所述的基于文生图的图像生成方法，其特征在于，获取所述完整文本描述信息对应的图片信息生成向量，包括：

对所述完整文本描述信息进行特征提取，以得到所述完整文本描述信息的特征信息；

对所述特征信息进行编码，得到初始图片信息生成向量；

利用图片编码器对所述初始图片信息生成向量进行去噪处理，得到所述图片信息生成向量。

4.根据权利要求1所述的基于文生图的图像生成方法，其特征在于，将所述图片信息生成向量输入至文生图模型中，以利用所述文生图模型对所述图片信息生成向量进行处理，得到多张图片，包括：

利用图片解码器对所述图片信息生成向量进行解码，得到所述图片信息生成向量对应的可视化图像；

将所述可视化图片输入至所述文生图模型中，以利用所述文生图模型对所述可视化图片进行处理，得到所述多张图片。

5.根据权利要求1所述的基于文生图的图像生成方法，其特征在于，对所述多张图片进行打分，得到所述多张图片中每一张图片的打分值，包括：

将所述多张图片和所述文本描述信息输入至奖惩模型中，以利用所述奖惩模型对所述多张图片和所述文本描述信息进行处理，以得到所述多张图片中每一张图片的所述打分值，其中，所述奖惩模型是使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的每一组均包括：样本多张图片、样本文本描述信息以及与所述样本多张图片和所述样本文本描述信息对应的样本打分值。

6.根据权利要求1所述的基于文生图的图像生成方法，其特征在于，将所述多张图片中所述打分值大于预定分值的部分图片发送至终端设备，包括：

将所述多张图片中每一组图片的所述打分值分别与所述预定分值进行比对，得到所述分值大于所述预定分值的所述部分图片；

将所述部分图片发送至所述终端设备。

7.根据权利要求1所述的基于文生图的图像生成方法，其特征在于，获取所述用户基于所述终端设备对所述部分图片的反馈信息，并基于所述反馈信息确定所述目标图像，包括：

对所述反馈信息进行解析，得到所述用户从所述部分图片中选择的满足用户需求的图片；

确定所述图片为所述目标图像。

8.根据权利要求1所述的基于文生图的图像生成方法，其特征在于，在获取所述用户基于所述终端设备对所述部分图片的反馈信息，并基于所述反馈信息确定所述目标图像之后，还包括：

对所述反馈信息进行解析，得到所述用户从所述部分图片中选择的最满意图片和最不满意图片；

将所述最满意图片与所述多张图片中的第一张图片进行比较，并将所述最不满意图片与所述多张图片中的最后一张图片进行比较，得到比较结果；

在所述比较结果表示所述最满意图片与所述第一张图片一致时，则对所述文生图模型进行分值奖励，反之则对所述文生图模型进行分值惩罚；

在所述比较结果表示所述最不满意图片与所述最后一张图片一致时，则对所述文生图模型进行分值奖励，反之则对所述文生图模型进行分值惩罚；

在确定所述文生图模型的累计分值小于分值阈值时，对所述文生图模型进行优化。

9.一种基于文生图的图像生成装置，其特征在于，包括：

第一获取单元，用于获取用户输入的文本描述信息和所述用户的标签信息，其中，所述文本描述信息是所述用户对需要生成的目标图像的描述信息，所述标签信息用于描述所述用户的特征；

扩充单元，用于对所述文本描述信息和所述标签信息进行文本扩充，以得到包含用户画像特征和语义特征的完整文本描述；

第二获取单元，用于获取所述完整文本描述信息对应的图片信息生成向量；

处理单元，用于将所述图片信息生成向量输入至文生图模型中，以利用所述文生图模型对所述图片信息生成向量进行处理，得到多张图片，其中，所述文生图模型是使用多组训练数据通过机器学习训练得到的模型，所述多组训练数据中的每一组均包括：样本图片信息生成向量和与所述样本图片信息生成向量对应的样本图片；

打分单元，用于对所述多张图片进行打分，得到所述多张图片中每一张图片的打分值；

发送单元，用于将所述多张图片中所述打分值大于预定分值的部分图片发送至终端设备；

确定单元，用于获取所述用户基于所述终端设备对所述部分图片的反馈信息，并基于所述反馈信息确定所述目标图像。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，所述程序执行权利要求1至8中任意一项所述的基于文生图的图像生成方法。