CN117668187A - 图像生成、自动问答以及条件控制模型训练方法 - Google Patents

图像生成、自动问答以及条件控制模型训练方法 Download PDF

Info

Publication number
CN117668187A
CN117668187A CN202311643115.8A CN202311643115A CN117668187A CN 117668187 A CN117668187 A CN 117668187A CN 202311643115 A CN202311643115 A CN 202311643115A CN 117668187 A CN117668187 A CN 117668187A
Authority
CN
China
Prior art keywords
sample
image
condition
text
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311643115.8A
Other languages
English (en)
Inventor
肖杰
朱凯
张晗
刘志恒
沈宇军
刘宇
傅雪阳
查正军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Alibaba Cloud Feitian Information Technology Co ltd
Original Assignee
Hangzhou Alibaba Cloud Feitian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Alibaba Cloud Feitian Information Technology Co ltd filed Critical Hangzhou Alibaba Cloud Feitian Information Technology Co ltd
Priority to CN202311643115.8A priority Critical patent/CN117668187A/zh
Publication of CN117668187A publication Critical patent/CN117668187A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本说明书实施例提供图像生成、自动问答以及条件控制模型训练方法,其中所述图像生成方法包括:获取图像描述文本和图像生成条件;对图像描述文本进行特征提取,获得文本特征;将图像生成条件输入条件控制模型,获得条件特征,其中,条件控制模型基于多个样本图文对和多个样本生成条件训练得到,样本图文对和样本生成条件一一对应;将文本特征和条件特征输入图像生成模型,获得目标图像。通过在图像生成过程中引入图像生成条件,进而实现了对图像生成的语义控制,提高了目标图像的精准性,并且,由于条件控制模型是独立于图像生成模型的,从而可以在图像生成过程中即插即用,增强了条件控制模型的泛化性和复用性。

Description

图像生成、自动问答以及条件控制模型训练方法
技术领域
本说明书实施例涉及计算机技术领域,特别涉及图像生成、自动问答以及条件控制模型训练方法。
背景技术
随着计算机技术的发展,文生图技术逐渐成为人工智能生成领域(AIGC,AIGenerated Content)的核心技术。文生图技术可以通过文本描述来生成图像,并且能够根据用户的要求和输入内容进行变换和调整,从而使用户更轻松地创作出具有独特风格的艺术作品,并在数字艺术领域中得到了广泛的应用。
目前,一致性模型(CMs,Consistency Models)在高效、高质量地创建视觉内容方面显示出了前景。然而,随着用户对文生图过程的限制条件越来越多,导致一致性模型生成的图像准确性较低,因此,亟需一种准确性高的图像生成方案。
发明内容
有鉴于此,本说明书实施例提供了一种图像生成方法。本说明书一个或者多个实施例同时涉及一种自动问答方法,一种条件控制模型训练方法,一种图像生成装置,一种自动问答装置,一种条件控制模型训练装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种图像生成方法,包括:
获取图像描述文本和图像生成条件;
对图像描述文本进行特征提取,获得文本特征;
将图像生成条件输入条件控制模型,获得条件特征,其中,条件控制模型基于多个样本图文对和多个样本生成条件训练得到,样本图文对和样本生成条件一一对应;
将文本特征和条件特征输入图像生成模型,获得目标图像。
根据本说明书实施例的第二方面,提供了一种自动问答方法,包括:
接收图像问答请求,其中,图像问答请求携带图像描述文本和图像生成条件;
对图像描述文本进行特征提取,获得文本特征;
将图像生成条件输入条件控制模型,获得条件特征,其中,条件控制模型基于多个样本图文对和多个样本生成条件训练得到,样本图文对和样本生成条件一一对应;
将文本特征和条件特征输入图像生成模型,获得图像问答请求对应的答复图像。
根据本说明书实施例的第三方面,提供了一种条件控制模型训练方法,应用于云侧设备,包括:
获取多个样本图文对和多个样本生成条件,其中,样本图文对和样本生成条件一一对应,多个样本生成条件包括至少两种不同的生成条件,样本图文对包括样本图像和样本描述文本;
对样本图像进行特征提取,获得样本图像特征,并对样本描述文本进行特征提取,获得样本文本特征;
将样本生成条件输入条件控制模型中的条件控制单元,获得初始样本条件特征;
将初始样本条件特征输入条件控制模型中的线性映射单元,获得第二样本条件特征;
根据样本图像特征、样本文本特征和第二样本条件特征,调整线性映射单元的单元参数,获得训练完成的条件控制模型。
根据本说明书实施例的第四方面,提供了一种图像生成装置,包括:
第一获取模块,被配置为获取图像描述文本和图像生成条件;
第一提取模块,被配置为对图像描述文本进行特征提取,获得文本特征;
第一输入模块,被配置为将图像生成条件输入条件控制模型,获得条件特征,其中,条件控制模型基于多个样本图文对和多个样本生成条件训练得到,样本图文对和样本生成条件一一对应;
第二输入模块,被配置为将文本特征和条件特征输入图像生成模型,获得目标图像。
根据本说明书实施例的第五方面,提供了一种自动问答装置,包括:
第一接收模块,被配置为接收图像问答请求,其中,图像问答请求携带图像描述文本和图像生成条件;
第二提取模块,被配置为对图像描述文本进行特征提取,获得文本特征;
第三输入模块,被配置为将图像生成条件输入条件控制模型,获得条件特征,其中,条件控制模型基于多个样本图文对和多个样本生成条件训练得到,样本图文对和样本生成条件一一对应;
第四输入模块,被配置为将文本特征和条件特征输入图像生成模型,获得图像问答请求对应的答复图像。
根据本说明书实施例的第六方面,提供了一种条件控制模型训练装置,应用于云侧设备,包括:
第二获取模块,被配置为获取多个样本图文对和多个样本生成条件,其中,样本图文对和样本生成条件一一对应,多个样本生成条件包括至少两种不同的生成条件,样本图文对包括样本图像和样本描述文本;
第三提取模块,被配置为对样本图像进行特征提取,获得样本图像特征,并对样本描述文本进行特征提取,获得样本文本特征;
第五输入模块,被配置为将样本生成条件输入条件控制模型中的条件控制单元,获得初始样本条件特征;
第六输入模块,被配置为将初始样本条件特征输入条件控制模型中的线性映射单元,获得第二样本条件特征;
第一调整模块,被配置为根据样本图像特征、样本文本特征和第二样本条件特征,调整线性映射单元的单元参数,获得训练完成的条件控制模型。
根据本说明书实施例的第七方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述第一方面或者第二方面或者第三方面所提供方法的步骤。
根据本说明书实施例的第八方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述第一方面或者第二方面或者第三方面所提供方法的步骤。
根据本说明书实施例的第九方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述第一方面或者第二方面或者第三方面所提供方法的步骤。
本说明书一个实施例提供的图像生成方法,获取图像描述文本和图像生成条件;对图像描述文本进行特征提取,获得文本特征;将图像生成条件输入条件控制模型,获得条件特征,其中,条件控制模型基于多个样本图文对和多个样本生成条件训练得到,样本图文对和样本生成条件一一对应;将文本特征和条件特征输入图像生成模型,获得目标图像。通过在图像生成过程中引入图像生成条件,进而实现了对图像生成的语义控制,提高了目标图像的精准性,并且,由于条件控制模型是独立于图像生成模型的,从而可以在图像生成过程中即插即用,增强了条件控制模型的泛化性和复用性。
附图说明
图1是本说明书一个实施例提供的一种图像生成系统的架构图;
图2是本说明书一个实施例提供的另一种图像生成系统的架构图;
图3是本说明书一个实施例提供的一种图像生成方法的流程图;
图4是本说明书一个实施例提供的一种条件控制模型的训练过程示意图;
图5是本说明书一个实施例提供的另一种条件控制模型的训练过程示意图;
图6是本说明书一个实施例提供的一种自动问答方法的流程图;
图7是本说明书一个实施例提供的一种条件控制模型训练方法的流程图;
图8是本说明书一个实施例提供的一种图像生成界面的界面示意图;
图9是本说明书一个实施例提供的一种图像生成装置的结构示意图;
图10是本说明书一个实施例提供的一种自动问答装置的结构示意图;
图11是本说明书一个实施例提供的一种条件控制模型训练装置的结构示意图;
图12是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
此外,需要说明的是,本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
一致性模型:以一条常微分方程(ODE,Ordinary Differential Equation)上任意一点作为一致性模型的输入,其输出都是一致的常微分方程的终点,也即高质量图像。
扩散模型:扩散模型(DM,Diffusion Model)是一种机器学习领域的生成模型,主要用于生成自然语言文本和图像数据。它的基本思想是从高斯噪声开始,并逐步引入更多的结构和细节,从而产生真实世界中的样本。
一致性模型已成为一系列具有竞争力的生成模型家族,其可以在一步或少数几步生成高质量的图像。然而,随着用户对文生图过程的限制条件越来越多,导致一致性模型生成的图像准确性较低。
为了解决上述问题,本说明书实施例提出了一种条件控制模型作为图像生成过程的旁路分支,以在图像生成过程中添加条件控制,满足用户的图像生成需求,进一步提高图像生成的准确性。具体地,本说明书实施例提出了一种图像生成方法,获取图像描述文本和图像生成条件;对图像描述文本进行特征提取,获得文本特征;将图像生成条件输入条件控制模型,获得条件特征,其中,条件控制模型基于多个样本图文对和多个样本生成条件训练得到,样本图文对和样本生成条件一一对应;将文本特征和条件特征输入图像生成模型,获得目标图像。通过在图像生成过程中引入图像生成条件,进而实现了对图像生成的语义控制,提高了目标图像的精准性,并且,由于条件控制模型是独立于图像生成模型的,从而可以独立优化,提高了图像生成的效率,同时,条件控制模型还可以在图像生成过程中即插即用,增强了条件控制模型的泛化性和复用性。
在本说明书中,提供了一种图像生成方法,本说明书同时涉及一种自动问答方法,一种条件控制模型训练方法,一种图像生成装置,一种自动问答装置,一种条件控制模型训练装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了本说明书一个实施例提供的一种图像生成系统的架构图,图像生成系统可以包括客户端100和服务端200;
客户端100,用于向服务端200发送图像描述文本和图像生成条件;
服务端200,用于对图像描述文本进行特征提取,获得文本特征;将图像生成条件输入条件控制模型,获得条件特征,其中,条件控制模型基于多个样本图文对和多个样本生成条件训练得到,样本图文对和样本生成条件一一对应;将文本特征和条件特征输入图像生成模型,获得目标图像;向客户端100发送目标图像;
客户端100,还用于接收服务端200发送的目标图像。
应用本说明书实施例的方案,通过在图像生成过程中引入图像生成条件,进而实现了对图像生成的语义控制,提高了目标图像的精准性,并且,由于条件控制模型是独立于图像生成模型的,从而可以在图像生成过程中即插即用,增强了条件控制模型的泛化性和复用性。
参见图2,图2示出了本说明书一个实施例提供的另一种图像生成系统的架构图,图像生成系统可以包括多个客户端100以及服务端200,其中,客户端100可以包括端侧设备,服务端200可以包括云侧设备。多个客户端100之间通过服务端200可以建立通信连接,在图像生成场景中,服务端200即用来在多个客户端100之间提供图像生成服务,多个客户端100可以分别作为发送端或接收端,通过服务端200实现通信。
用户通过客户端100可与服务端200进行交互以接收其它客户端100发送的数据,或将数据发送至其它客户端100等。在图像生成场景中,可以是用户通过客户端100向服务端200发布数据流,服务端200根据该数据流生成目标图像,并将目标图像推送至其他建立通信的客户端中。
其中,客户端100与服务端200之间通过网络建立连接。网络为客户端100与服务端200之间提供了通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。客户端100所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至服务端200。
客户端100可以为浏览器、APP(Application,应用程序)、或网页应用如H5(HyperText Markup Language5,超文本标记语言第5版)应用、或轻应用(也被称为小程序,一种轻量级应用程序)或云应用等,客户端100可以基于服务端200提供的相应服务的软件开发工具包(SDK,Software Development Kit),如基于实时通信(RTC,Real TimeCommunication)SDK开发获得等。客户端100可以部署在电子设备中,需要依赖设备运行或者设备中的某些APP而运行等。电子设备例如可以具有显示屏并支持信息浏览等,如可以是个人移动终端如手机、平板电脑、个人计算机等。在电子设备中通常还可以配置各种其它类应用,例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
服务端200可以包括提供各种服务的服务器,例如为多个客户端提供通信服务的服务器,又如为客户端上使用的模型提供支持的用于后台训练的服务器,又如对客户端发送的数据进行处理的服务器等。需要说明的是,服务端200可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,Content DeliveryNetwork)以及大数据和人工智能平台等基础云计算服务的云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
值得说明的是,本说明书实施例中提供的图像生成方法一般由服务端执行,但是,在本说明书的其它实施例中,客户端也可以与服务端具有相似的功能,从而执行本说明书实施例所提供的图像生成方法。在其它实施例中,本说明书实施例所提供的图像生成方法还可以是由客户端与服务端共同执行。
参见图3,图3示出了本说明书一个实施例提供的一种图像生成方法的流程图,具体包括以下步骤:
步骤302:获取图像描述文本和图像生成条件。
本说明书一个或多个实施例中,图像生成开始时,可以获取图像描述文本和图像生成条件,基于图像描述文本和图像生成条件生成符合用户实际需求的目标图像。
具体地,图像描述文本和图像生成条件表征了用户的图像生成需求。图像描述文本和图像生成条件可以是不同语言的描述文本,如英文描述文本、中文描述文本等等。图像描述文本用于描述图像内容,例如,图像描述文本可以是“一个小女孩在沙滩上奔跑”。图像生成条件用于图像样式,如空间上的精细图像特征。图像生成条件包括但不限于边缘信息、深度图、人体姿态、低分辨率图像和掩码图像等等,具体根据实际情况进行选择,本说明书实施例对此不做任何限定。
需要说明的是,本说明书实施例提出的图像生成方法,可以应用于不同条件控制的文生图任务中,例如图像修复任务(图像生成条件可以是掩码图像)、线稿上色任务(图像生成条件可以是边缘信息)、虚拟形象生成任务(条件生成条件可以是角色姿态)。
实际应用中,获取图像描述文本和图像生成条件的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不做任何限定。本说明书一种可能的实现方式中,可以接收用户通过客户端发送的图像描述文本和图像生成条件。本说明书另一种可能的实现方式中,可以从其他数据获取设备或数据库中读取图像描述文本和图像生成条件。
步骤304:对图像描述文本进行特征提取,获得文本特征。
本说明书一个或多个实施例中,获取图像描述文本和图像生成条件之后,进一步地,可以对图像描述文本进行特征提取,获得文本特征。
具体地,特征提取是指从图像描述文本中提取高维向量的过程,因此,文本特征可以理解为图像描述文本的高维文本向量。通过对图像描述文本进行特征提取,可以将图像描述文本转换成计算机可以理解和处理的形式,从而进行更深入的分析和处理。
需要说明的是,可以通过以下公式(1)生成文本特征:
ctxt=CLIP(text) (1)
其中,ctxt表示文本特征,text表示图像描述文本,CLIP表示特征提取操作。
实际应用中,对图像描述文本进行特征提取的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。本说明书一种可能的实现方式中,可以将图像描述文本输入文本编码器中,获得文本特征。本说明书另一种可能的实现方式中,可以利用深度学习的词嵌入模型(Word2Vec)对图像描述文本进行特征提取,获得文本特征。
步骤306:将图像生成条件输入条件控制模型,获得条件特征,其中,条件控制模型基于多个样本图文对和多个样本生成条件训练得到,样本图文对和样本生成条件一一对应。
本说明书一个或多个实施例中,获取图像描述文本和图像生成条件;对图像描述文本进行特征提取,获得文本特征之后,进一步地,可以将图像生成条件输入条件控制模型,获得条件特征,其中,条件控制模型基于多个样本图文对和多个样本生成条件训练得到,样本图文对和样本生成条件一一对应。
需要说明的是,由于文生图的过程中,文字对控制的表达能力有限,例如,用户想要生成一只狗的图像,但图像生成过程中,模型无法确定狗的姿态、狗在图像中的位置等信息,此时,引入条件控制模型,对用户输入的图像生成条件进行处理,从而为图像生成模型提供更加精细的空间控制,以保证生成的图像更加满足用户的需求。
具体地,条件控制模型(control net)用于提取图像生成条件的条件特征,从而将条件特征加到图像生成模型的各层级特征上,实现图像控制生成。条件特征可以理解为图像生成条件的高维条件向量,可以通过以下公式(2)生成条件特征:
其中,cctrl表示条件特征,control表示图像生成条件,g表示条件控制模型,表示当前时间步对应的带有高斯噪声的图像。
实际应用中,条件控制模型的训练方式有多种,具体根据实际情况进行选择,本说明书实施例对此不做任何限定。
本说明书一种可能的实现方式中,由于扩散模型和图像生成模型结构上一致,且条件控制模型本质上是独立优化的,具有即插即用的特性。因此,本说明书实施例中,可以基于扩散模型训练得到图像生成模型,将训练得到图像生成模型和每个样本生成条件的条件控制模型都视为一个独立的模型,通过一致性训练方式来优化各个条件控制模型,最后,直接将训练得到的条件控制模型迁移至图像生成模型上进行使用。实验证明,该方式可以成功地从头开始训练条件控制模型,而不需要依赖扩散模型的监督。
需要说明的是,由于扩散模型和图像生成模型之间仍然是存在差距的,直接将条件控制模型迁移至图像生成模型上,可能会导致条件控制模型无法实现低级精细控制,因此,本说明书实施例中,可以将扩散模型作为中间代理训练得到条件控制模型,然后依赖条件控制模型强大的泛化能力,将条件控制模型转移到图像生成模型上。进一步地,由于不同的样本生成条件从扩散模型迁移至图像生成模型时,生成的图像可能会呈现相似的颜色漂移(失真)现象,因此,在条件控制模型中可以引入线性映射单元解决上述弊端,其中,线性映射单元可以称为漂移单元。
本说明书另一种可能的实现方式中,考虑到不同样本生成条件具有相近的漂移特性,可以基于训练得到的图像生成模型和在扩散模型上训练得到的条件控制单元,从不同的样本生成条件中随机提取特征,优化同一个线性映射单元,实现了轻量且具有泛化性的一致性控制。
进一步地,对应于上述条件控制模型训练方式的不同,将图像生成条件输入条件控制模型,获得条件特征的方式也有多种,具体根据实际情况进行选择,本说明书实施例对此不做任何限定。本说明书一种可能的实现方式中,可以直接将图像生成条件输入条件控制模型,获得条件特征。
本说明书另一种可能的实现方式中,条件控制模型包括条件控制单元和线性映射单元上述将图像生成条件输入条件控制模型,获得条件特征,可以包括以下步骤:
经条件控制单元,对图像生成条件进行编码,获得初始条件特征;
经线性映射单元,对初始条件特征进行线性映射,获得条件特征。
具体地,条件控制单元基于多个样本图文对和多个样本生成条件对预训练的扩散模型训练得到。线性映射单元的训练过程中,图像生成模型和条件控制单元的参数固定不变。
应用本说明书实施例的方案,经条件控制单元,对图像生成条件进行编码,获得初始条件特征;经线性映射单元,对初始条件特征进行线性映射,获得条件特征,从而通过线性映射单元可以解决图像漂移问题,提高了图像生成的准确性。
步骤308:将文本特征和条件特征输入图像生成模型,获得目标图像。
本说明书一个或多个实施例中,获取图像描述文本和图像生成条件;对图像描述文本进行特征提取,获得文本特征;将图像生成条件输入条件控制模型,获得条件特征之后,进一步地,可以将文本特征和条件特征输入图像生成模型,获得目标图像。
具体地,图像生成模型可以是一致性模型,还可以基于多个样本图文对对扩散模型蒸馏得到。目标图像是指符合图像描述文本和图像生成条件的图像,目标图像可以是黑白图像,也可以是彩色图像(RGB Image),具体根据实际情况进行选择,本说明书实施例对此不做任何限定。
需要说明的是,假设采样时间步数M=4,获得采样时间序列如以下公式(3)所示,进一步采样时间步对应的随机高斯噪声将条件特征、文本特征、当前时间步以及当前时间步对应的随机高斯噪声输入图像生成模型,图像生成模型的输出如以下公式(4)所示。
Tlist=(T,(M-1)/M,...,T/M) (3)
其中,i表示当前时间步,i=[0,1,…,M-1],Tlist表示采样时间序列,表示图像生成模型的输出,f表示图像生成模型,xti表示当前时间步对应的带有随机高斯噪声的图像,ctxt表示文本特征,cctrl表示条件特征,ti表示当前时间步,ti=Tlist[i]。
值得说明的是,获得图像生成模型的输出之后,若i!=M-1,则可以根据时间步规划序列对加噪声得到时间步i+1对应的带有随机高斯噪声的图像/>并返回将条件特征、文本特征、时间步i+1以及时间步i+1对应的随机高斯噪声输入图像生成模型,获得图像生成模型的输出;否则,将/>作为目标图像。
应用本说明书实施例的方案,通过在图像生成过程中引入图像生成条件,进而实现了对图像生成的语义控制,提高了目标图像的精准性,并且,由于条件控制模型是独立于图像生成模型的,从而可以在图像生成过程中即插即用,增强了条件控制模型的泛化性和复用性。
本说明书一种可选的实施例中,上述将图像生成条件输入条件控制模型,获得条件特征之前,还可以包括以下步骤:
获取多个样本图文对和多个样本生成条件,其中,多个样本生成条件至少包括与图像生成条件相同的条件;
根据多个样本图文对和多个样本生成条件,调整初始条件控制模型的模型参数,获得训练完成的条件控制模型。
具体地,初始条件控制模型是指未经训练的条件控制模型。样本图文对包括样本图像和样本描述文本,样本描述文本和样本生成条件的定义与上述图像描述文本和图像生成条件的定义相同。“获取多个样本图文对和多个样本生成条件”的方式可参见上述“获取图像描述文本和图像生成条件”的实现方式,本说明书实施例便不再进行赘述。
应用本说明书实施例的方案,通过多个样本图文对和多个样本生成条件训练初始条件控制模型,进一步提高了条件控制模型的精准性。
本说明书一种可选的实施例中,可以将各样本生成条件对应的条件控制模型都视为一个独立的模型,通过一致性训练方式为与图像生成条件相同的样本生成条件训练专属的条件控制模型,也即多个样本生成条件与图像生成条件相同,样本图文对包括样本图像和样本描述文本;上述根据多个样本图文对和多个样本生成条件,调整初始条件控制模型的模型参数,获得训练完成的条件控制模型,可以包括以下步骤:
对样本图像进行特征提取,获得样本图像特征,并对样本描述文本进行特征提取,获得样本文本特征;
将样本生成条件输入初始条件控制模型,获得第一样本条件特征;
根据样本图像特征、样本文本特征以及第一样本条件特征,调整初始条件控制模型的模型参数,获得训练完成的条件控制模型。
实际应用中,“对样本描述文本进行特征提取,获得样本文本特征”的方式可参见上述“对图像描述文本进行特征提取,获得文本特征”的实现方式,本说明书实施例便不再进行赘述。对样本图像进行特征提取,获得样本图像特征的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不做任何限定。本说明书一种可能的实现方式中,可以采用量化编码的方式获得样本图像特征。本说明书另一种可能的实现方式中,可以利用自编码模型对样本图像编码得到样本图像特征。
应用本说明书实施例的方案,根据样本图像特征、样本文本特征以及第一样本条件特征,调整初始条件控制模型的模型参数,获得训练完成的条件控制模型,从而得到了仅适用于图像生成条件的专属条件控制模型。
本说明书一种可选的实施例中,上述根据样本图像特征、样本文本特征以及第一样本条件特征,调整初始条件控制模型的模型参数,获得训练完成的条件控制模型,可以包括以下步骤:
从样本图像特征中,采样得到第一时间步的第一样本图像特征和第二时间步的第二样本图像特征,其中,第一时间步和第二时间步从时间步规划序列中随机采样得到;
将第一样本图像特征、第一时间步、第一样本条件特征以及样本文本特征输入图像生成模型,获得第一预测图像;
将第二样本图像特征、第二时间步、第一样本条件特征以及样本文本特征输入图像生成模型,获得第二预测图像;
根据第一预测图像和第二预测图像,调整初始条件控制模型的模型参数,获得训练完成的条件控制模型。
需要说明的是,时间步是基于常微分方程的生成模型的输入参数之一,表示常微分方程在每个迭代步骤中的时间增量。条件控制模型训练过程中,可以设置用于定义时间步噪声程度的噪声规划器,噪声规划器中包括时间步规划序列。首先,从时间步规划序列中随机采样邻近的第一时间步t-1和第二时间步t,并从样本图像特征中,采样得到第一时间步的第一样本图像特征zt-1和第二时间步的第二样本图像特征zt,将第一样本图像特征、第一时间步、第一样本条件特征以及样本文本特征输入图像生成模型,获得时间步0的第一预测图像如以下公式(5)所示,将第二样本图像特征、第二时间步、第一样本条件特征以及样本文本特征输入图像生成模型,获得时间步0的第二预测图像如以下公式(6)所示,获得第一预测图像和第二预测图像之后,可以通过以下公式(7)计算第一损失值:
其中,表示第一预测图像,f表示图像生成模型,ctxt表示样本文本特征,cctrl表示第一样本条件特征,ti表示当前时间步,xt-1表示第一样本图像特征,xt表示第二样本图像特征,stopgrad表示截断梯度传播。/>表示损失值计算函数,/>表示条件控制模型的可调整模型参数,x表示样本图像,xt表示高斯噪声图像,θ表示图像生成模型的可调整模型参数,tn表示时间步n,tn+1表示时间步n+1,λ表示损失值计算系数,d表示距离度量函数,d可以为L1范数和L2范数。
进一步地,可以根据第一损失值调整初始条件控制模型的模型参数,直至达到第一预设停止条件的情况下,获得训练完成的条件控制模型,其中,第一预设停止条件包括但不限于第一损失值小于等于预设阈值、第一迭代次数达到第一预设迭代次数,具体根据实际情况进行选择,本说明书实施例对此不做任何限定。
参见图4,图4示出了本说明书一个实施例提供的一种条件控制模型的训练过程示意图,对样本图像进行特征提取,获得样本图像特征,并对样本描述文本进行特征提取,获得样本文本特征;将样本生成条件输入初始条件控制模型,获得第一样本条件特征,根据高斯噪声图像、样本图像特征、样本文本特征以及第一样本条件特征计算第一损失值,利用第一损失值调整初始条件控制模型的模型参数时,如图4中的圆圈(表示参数固定)和四角星(表示参数可调整)所示,固定图像生成模型的模型参数,仅对条件控制模型的模型参数进行调整,获得训练完成的条件控制模型。
应用本说明书实施例的方案,根据第一预测图像和第二预测图像,调整初始条件控制模型的模型参数,获得训练完成的条件控制模型,从而得到了仅适用于图像生成条件的专属条件控制模型。
本说明书一种可选的实施例中,可以基于训练得到的图像生成模型和在扩散模型上训练得到的条件控制单元,从不同的样本生成条件中随机提取特征,优化同一个线性映射单元,获得条件控制模型,也即,条件控制模型包括条件控制单元和线性映射单元,多个样本生成条件包括与图像生成条件相同的条件以及与图像生成条件不同的条件,样本图文对包括样本图像和样本描述文本;上述根据多个样本图文对和多个样本生成条件,调整初始条件控制模型的模型参数,获得训练完成的条件控制模型,可以包括以下步骤:
对样本图像进行特征提取,获得样本图像特征,并对样本描述文本进行特征提取,获得样本文本特征;
将样本生成条件输入条件控制单元,获得初始样本条件特征;
将初始样本条件特征输入线性映射单元,获得第二样本条件特征;
根据样本图像特征、样本文本特征和第二样本条件特征,调整线性映射单元的单元参数,获得训练完成的条件控制模型。
需要说明的是,将样本生成条件输入条件控制单元时,可以在每次参数调整迭代过程中随机从多种样本生成条件中提取一个样本生成条件输入条件控制单元,获得初始样本条件特征,进一步地,获得初始样本条件特征之后,可以通过以下公式(8)对初始样本条件特征进行矫正统计,生成第二样本条件特征:
c'ctrl=s(cctrl) (8)
其中,c’ctrl表示第二样本条件特征,s表示线性映射单元,cctrl表示初始样本条件特征。
实际应用中,“根据样本图像特征、样本文本特征和第二样本条件特征,调整线性映射单元的单元参数”的方式与上述“根据第一预测图像和第二预测图像,调整初始条件控制模型的模型参数”的方式类似,区别在于参数调整对象不同,第一种方式优化的是初始条件控制模型的模型参数,而这里的第二种方式中固定了图像生成模型以及条件控制单元的参数,仅优化线性映射单元的单元参数,从而可以获得可以被不同样本生成条件共享的线性映射单元,进一步实现利用训练完成的条件控制模型可以处理不同的图像生成条件。
参见图5,图5示出了本说明书一个实施例提供的另一种条件控制模型的训练过程示意图,对样本图像进行特征提取,获得样本图像特征,并对样本描述文本进行特征提取,获得样本文本特征;将样本生成条件输入条件控制单元,获得初始样本条件特征;将初始样本条件特征输入线性映射单元,获得第二样本条件特征;根据高斯噪声图像、样本图像特征、样本文本特征以及第二样本条件特征通过以上公式(7)计算第二损失值,利用第二损失值调整线性映射单元的单元参数时,如图5中的圆圈(表示参数固定)和四角星(表示参数可调整)所示,固定图像生成模型的模型参数,固定条件控制单元的单元参数,仅对线性映射单元的单元参数进行调整,获得训练完成的条件控制模型。
应用本说明书实施例的方案,根据样本图像特征、样本文本特征和第二样本条件特征,调整线性映射单元的单元参数,获得训练完成的条件控制模型,从而得到了适用于处理不同图像生成条件的条件控制模型,同时,在损失计算过程中融入了样本生成条件,实现了高质量、高分辨率的条件控制模型的训练。
本说明书一种可选的实施例中,获取多个样本图文对和多个样本生成条件,其中,样本图文对包括样本图像和样本描述文本;对样本图像进行特征提取,获得样本图像特征,并对样本描述文本进行特征提取,获得样本文本特征之后,可以利用样本图像特征、样本文本特征、样本生成条件在扩散模型上训练得到条件控制单元,也即,上述将样本生成条件输入条件控制单元,获得初始样本条件特征之前,还可以包括以下步骤:
将样本生成条件输入初始条件控制单元,获得第三样本条件特征;
根据前向扩散系数和样本图像特征,确定第三时间步的第三样本图像特征和第四时间步的第四样本图像特征,其中,前向扩散系数基于第四时间步得到,第三时间步和第四时间步从时间步规划序列中随机采样得到;
将第三样本条件特征、第四样本图像特征、样本文本特征和第四时间步输入扩散模型,获得第三时间步的第一预测特征;
根据第三样本图像特征和第一预测特征,调整初始条件控制单元的单元参数,获得训练完成的条件控制单元。
需要说明的是,利用样本图像特征、样本文本特征、样本生成条件在扩散模型上训练得到条件控制单元时,首先,可以将样本生成条件输入初始条件控制单元,获得第三样本条件特征;其次,基于第四时间步从噪声规划器中获取前向扩散系数,并向样本图像特征中注入噪声,确定第三时间步的第三样本图像特征和第四时间步的第四样本图像特征;然后,将第三样本条件特征、第四样本图像特征、样本文本特征和第四时间步输入扩散模型,获得第三时间步的第一预测特征;最后,根据第三样本图像特征和第一预测特征计算均方误差得到第三损失值,以最小化噪声预测误差为目的,固定扩散模型的模型参数,优化初始条件控制单元的单元参数,获得训练完成的条件控制单元。
应用本说明书实施例的方案,根据第三样本图像特征和第一预测特征,调整初始条件控制单元的单元参数,获得训练完成的条件控制单元,从而为条件控制模型的训练奠定基础,实现了训练得到多种图像生成条件适配的条件控制模型。
本说明书一种可选的实施例中,上述将第三样本条件特征、第四样本图像特征、样本文本特征和第四时间步输入扩散模型,获得第三时间步的第一预测特征之前,还可以包括以下步骤:
将第四样本图像特征、样本文本特征和第四时间步输入基础扩散模型,获得第三时间步的第二预测特征;
根据第三样本图像特征和第二预测特征,调整基础扩散模型的模型参数,获得训练完成的扩散模型。
需要说明的是,获取多个样本图文对和多个样本生成条件,其中,样本图文对包括样本图像和样本描述文本;对样本图像进行特征提取,获得样本图像特征,并对样本描述文本进行特征提取,获得样本文本特征;将样本生成条件输入初始条件控制单元,获得第三样本条件特征;根据前向扩散系数和样本图像特征,确定第三时间步(如k-1)的第三样本图像特征和第四时间步(如k)的第四样本图像特征之后,可以将第四样本图像特征、样本文本特征和第四时间步输入基础扩散模型,获得第三时间步的第二预测特征,进一步根据第三时间步的第二预测特征和第三时间步的第三样本图像特征计算均方误差得到第四损失值,以最小化噪声预测误差为目的,优化基础扩散模型的模型参数,获得训练完成的扩散模型。
应用本说明书实施例的方案,将第四样本图像特征、样本文本特征和第四时间步输入基础扩散模型,获得第三时间步的第二预测特征;根据第三样本图像特征和第二预测特征,调整基础扩散模型的模型参数,获得训练完成的扩散模型。从而为条件控制单元以及图像生成模型的训练奠定基础,从而训练得到精准的条件控制模型以及图像生成模型。
本说明书一种可选的实施例中,上述将文本特征和条件特征输入图像生成模型,获得目标图像之前,还可以包括以下步骤:
获取多个样本图文对,其中,样本图文对包括样本图像和样本描述文本;
对样本图像进行特征提取,获得样本图像特征,并对样本描述文本进行特征提取,获得样本文本特征;
从样本图像特征中,采样得到第五时间步的第五样本图像特征,并将第五样本图像特征输入扩散模型,获得第六时间步的第六样本图像特征,其中,第五时间步和第六时间步从时间步规划序列中随机采样得到;
根据样本文本特征、第五样本图像特征和第六样本图像特征,调整初始图像生成模型的模型参数,获得训练完成的图像生成模型。
需要说明的是,“获取多个样本图文对”的方式可以参考上述“获取图像描述文本和图像生成条件”的实现方式,“从样本图像特征中,采样得到第五时间步的第五样本图像特征”的方式可以参考上述“从样本图像特征中,采样得到第一时间步的第一样本图像特征和第二时间步的第二样本图像特征”的实现方式,本说明书实施例便不再进行赘述。
进一步地,采样得到第五时间步(如h)的第五样本图像特征之后,可以将第五样本图像特征输入扩散模型,并利用步长为零的双曲形能量最小化算法,单步迭代生成第六时间步(如h-1)的第六样本图像特征,最后根据样本文本特征、第五样本图像特征和第六样本图像特征,调整初始图像生成模型的模型参数,获得训练完成的图像生成模型。
应用本说明书实施例的方案,根据样本文本特征、第五样本图像特征和第六样本图像特征,调整初始图像生成模型的模型参数,获得训练完成的图像生成模型,从而获得了精准的图像生成模型。
本说明书一种可选的实施例中,上述根据样本文本特征、第五样本图像特征和第六样本图像特征,调整初始图像生成模型的模型参数,获得训练完成的图像生成模型,可以包括以下步骤:
将第五样本图像特征、第五时间步、样本文本特征输入初始图像生成模型,获得第三预测图像;
将第六样本图像特征、第六时间步、样本文本特征输入初始图像生成模型,获得第四预测图像;
根据第三预测图像和第四预测图像,调整初始图像生成模型的模型参数,获得训练完成的图像生成模型。
需要说明的是,可以通过以下公式(9)生成第三预测图像,通过以下公式(10)生成第四预测图像:
其中,表示第四预测图像,/>表示第三预测图像,f表示图像生成模型,ctxt表示样本文本特征,xh-1表示第六样本图像特征,xh表示第五样本图像特征,stopgrad表示截断梯度传播,L表示第五损失值计算函数。
进一步地,获得第三预测图像和第四预测图像之后,可以通过以上公式(11)计算第五损失值,根据第五损失值调整初始图像生成模型的模型参数,获得训练完成的图像生成模型。
应用本说明书实施例的方案,将第五样本图像特征、第五时间步、样本文本特征输入初始图像生成模型,获得第三预测图像;将第六样本图像特征、第六时间步、样本文本特征输入初始图像生成模型,获得第四预测图像;根据第三预测图像和第四预测图像,调整初始图像生成模型的模型参数,获得训练完成的图像生成模型,从而获得了精准的图像生成模型。
参见图6,图6示出了本说明书一个实施例提供的一种自动问答方法的流程图,具体包括以下步骤:
步骤602:接收图像问答请求,其中,图像问答请求携带图像描述文本和图像生成条件。
步骤604:对图像描述文本进行特征提取,获得文本特征。
步骤606:将图像生成条件输入条件控制模型,获得条件特征,其中,条件控制模型基于多个样本图文对和多个样本生成条件训练得到,样本图文对和样本生成条件一一对应。
步骤608:将文本特征和条件特征输入图像生成模型,获得图像问答请求对应的答复图像。
需要说明的是,步骤602至步骤608的实现方式详见上述步骤302至步骤308,本说明书实施例对此不做任何限定。
应用本说明书实施例的方案,通过在图像生成过程中引入图像生成条件,进而实现了对图像生成的语义控制,提高了答复图像的精准性,并且,由于条件控制模型是独立于图像生成模型的,从而可以在图像生成过程中即插即用,增强了条件控制模型的泛化性和复用性。
参见图7,图7示出了本说明书一个实施例提供的一种条件控制模型训练方法的流程图,条件控制模型训练方法应用于云侧设备,具体包括以下步骤:
步骤702:获取多个样本图文对和多个样本生成条件,其中,样本图文对和样本生成条件一一对应,多个样本生成条件包括至少两种不同的生成条件,样本图文对包括样本图像和样本描述文本。
步骤704:对样本图像进行特征提取,获得样本图像特征,并对样本描述文本进行特征提取,获得样本文本特征。
步骤706:将样本生成条件输入条件控制模型中的条件控制单元,获得初始样本条件特征。
步骤708:将初始样本条件特征输入条件控制模型中的线性映射单元,获得第二样本条件特征。
步骤710:根据样本图像特征、样本文本特征和第二样本条件特征,调整线性映射单元的单元参数,获得训练完成的条件控制模型。
需要说明的是,步骤702至步骤710的实现方式详见上述图像生成方法中条件控制模型的训练方式,本说明书实施例对此不做任何限定。
实际应用中,获得训练完成的条件控制模型之后,可以将训练完成的条件控制模型的模型参数发送至端侧设备,以使用户基于模型参数在本地构建条件控制模型,进行条件控制下的图像生成。
应用本说明书实施例的方案,根据样本图像特征、样本文本特征和第二样本条件特征,调整线性映射单元的单元参数,获得训练完成的条件控制模型,通过基于训练得到的图像生成模型和在扩散模型上训练得到的条件控制单元,从不同的样本生成条件中随机提取特征,优化同一个线性映射单元,解决了图像生成过程中不同样本生成条件导致的图像漂移问题,实现了轻量且具有泛化性的一致性图像生成。
参见图8,图8示出了本说明书一个实施例提供的一种图像生成界面的界面示意图。图像生成界面分为请求输入界面和结果展示界面。请求输入界面中包括请求输入框、“确定”控件以及“取消”控件。结果展示界面中包括结果展示框。
用户通过客户端显示的请求输入框输入图像生成请求,其中,图像生成请求携带图像描述文本和图像生成条件,点选“确定”控件,服务端接收客户端发送的图像描述文本和图像生成条件,对图像描述文本进行特征提取,获得文本特征;将图像生成条件输入条件控制模型,获得条件特征,其中,条件控制模型基于多个样本图文对和多个样本生成条件训练得到,样本图文对和样本生成条件一一对应;将文本特征和条件特征输入图像生成模型,获得目标图像,并将目标图像发送至客户端。客户端在结果展示框中显示目标图像。
实际应用中,用户对控件进行操作的方式包括点击、双击、触控、鼠标悬停、滑动、长按、语音控制或摇一摇等任一方式,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
与上述图像生成方法实施例相对应,本说明书还提供了图像生成装置实施例,图9示出了本说明书一个实施例提供的一种图像生成装置的结构示意图。如图9所示,该装置包括:
第一获取模块902,被配置为获取图像描述文本和图像生成条件;
第一提取模块904,被配置为对图像描述文本进行特征提取,获得文本特征;
第一输入模块906,被配置为将图像生成条件输入条件控制模型,获得条件特征,其中,条件控制模型基于多个样本图文对和多个样本生成条件训练得到,样本图文对和样本生成条件一一对应;
第二输入模块908,被配置为将文本特征和条件特征输入图像生成模型,获得目标图像。
可选地,条件控制模型包括条件控制单元和线性映射单元;第一输入模块906,进一步被配置为经条件控制单元,对图像生成条件进行编码,获得初始条件特征;经线性映射单元,对初始条件特征进行线性映射,获得条件特征。
可选地,该装置还包括:第一训练模块,被配置为获取多个样本图文对和多个样本生成条件,其中,多个样本生成条件至少包括与图像生成条件相同的条件;根据多个样本图文对和多个样本生成条件,调整初始条件控制模型的模型参数,获得训练完成的条件控制模型。
可选地,多个样本生成条件与图像生成条件相同,样本图文对包括样本图像和样本描述文本;第一训练模块,进一步被配置为对样本图像进行特征提取,获得样本图像特征,并对样本描述文本进行特征提取,获得样本文本特征;将样本生成条件输入初始条件控制模型,获得第一样本条件特征;根据样本图像特征、样本文本特征以及第一样本条件特征,调整初始条件控制模型的模型参数,获得训练完成的条件控制模型。
可选地,第一训练模块,进一步被配置为从样本图像特征中,采样得到第一时间步的第一样本图像特征和第二时间步的第二样本图像特征,其中,第一时间步和第二时间步从时间步规划序列中随机采样得到;将第一样本图像特征、第一时间步、第一样本条件特征以及样本文本特征输入图像生成模型,获得第一预测图像;将第二样本图像特征、第二时间步、第一样本条件特征以及样本文本特征输入图像生成模型,获得第二预测图像;根据第一预测图像和第二预测图像,调整初始条件控制模型的模型参数,获得训练完成的条件控制模型。
可选地,条件控制模型包括条件控制单元和线性映射单元,多个样本生成条件包括与图像生成条件相同的条件以及与图像生成条件不同的条件,样本图文对包括样本图像和样本描述文本;第一训练模块,进一步被配置为对样本图像进行特征提取,获得样本图像特征,并对样本描述文本进行特征提取,获得样本文本特征;将样本生成条件输入条件控制单元,获得初始样本条件特征;将初始样本条件特征输入线性映射单元,获得第二样本条件特征;根据样本图像特征、样本文本特征和第二样本条件特征,调整线性映射单元的单元参数,获得训练完成的条件控制模型。
可选地,该装置还包括:第二训练模块,被配置为将样本生成条件输入初始条件控制单元,获得第三样本条件特征;根据前向扩散系数和样本图像特征,确定第三时间步的第三样本图像特征和第四时间步的第四样本图像特征,其中,前向扩散系数基于第四时间步得到,第三时间步和第四时间步从时间步规划序列中随机采样得到;将第三样本条件特征、第四样本图像特征、样本文本特征和第四时间步输入扩散模型,获得第三时间步的第一预测特征;根据第三样本图像特征和第一预测特征,调整初始条件控制单元的单元参数,获得训练完成的条件控制单元。
可选地,该装置还包括:第三训练模块,被配置为将第四样本图像特征、样本文本特征和第四时间步输入基础扩散模型,获得第三时间步的第二预测特征;根据第三样本图像特征和第二预测特征,调整基础扩散模型的模型参数,获得训练完成的扩散模型。
可选地,该装置还包括:第四训练模块,被配置为获取多个样本图文对,其中,样本图文对包括样本图像和样本描述文本;对样本图像进行特征提取,获得样本图像特征,并对样本描述文本进行特征提取,获得样本文本特征;从样本图像特征中,采样得到第五时间步的第五样本图像特征,并将第五样本图像特征输入扩散模型,获得第六时间步的第六样本图像特征,其中,第五时间步和第六时间步从时间步规划序列中随机采样得到;根据样本文本特征、第五样本图像特征和第六样本图像特征,调整初始图像生成模型的模型参数,获得训练完成的图像生成模型。
可选地,第四训练模块,进一步被配置为将第五样本图像特征、第五时间步、样本文本特征输入初始图像生成模型,获得第三预测图像;将第六样本图像特征、第六时间步、样本文本特征输入初始图像生成模型,获得第四预测图像;根据第三预测图像和第四预测图像,调整初始图像生成模型的模型参数,获得训练完成的图像生成模型。
应用本说明书实施例的方案,通过在图像生成过程中引入图像生成条件,进而实现了对图像生成的语义控制,提高了目标图像的精准性,并且,由于条件控制模型是独立于图像生成模型的,从而可以在图像生成过程中即插即用,增强了条件控制模型的泛化性和复用性。
上述为本实施例的一种图像生成装置的示意性方案。需要说明的是,该图像生成装置的技术方案与上述的图像生成方法的技术方案属于同一构思,图像生成装置的技术方案未详细描述的细节内容,均可以参见上述图像生成方法的技术方案的描述。
与上述自动问答方法实施例相对应,本说明书还提供了自动问答装置实施例,图10示出了本说明书一个实施例提供的一种自动问答装置的结构示意图。如图10所示,该装置包括:
第一接收模块1002,被配置为接收图像问答请求,其中,图像问答请求携带图像描述文本和图像生成条件;
第二提取模块1004,被配置为对图像描述文本进行特征提取,获得文本特征;
第三输入模块1006,被配置为将图像生成条件输入条件控制模型,获得条件特征,其中,条件控制模型基于多个样本图文对和多个样本生成条件训练得到,样本图文对和样本生成条件一一对应;
第四输入模块1008,被配置为将文本特征和条件特征输入图像生成模型,获得图像问答请求对应的答复图像。
应用本说明书实施例的方案,通过在图像生成过程中引入图像生成条件,进而实现了对图像生成的语义控制,提高了答复图像的精准性,并且,由于条件控制模型是独立于图像生成模型的,从而可以在图像生成过程中即插即用,增强了条件控制模型的泛化性和复用性。
上述为本实施例的一种自动问答装置的示意性方案。需要说明的是,该自动问答装置的技术方案与上述的自动问答方法的技术方案属于同一构思,自动问答装置的技术方案未详细描述的细节内容,均可以参见上述自动问答方法的技术方案的描述。
与上述条件控制模型训练方法实施例相对应,本说明书还提供了条件控制模型训练装置实施例,图11示出了本说明书一个实施例提供的一种条件控制模型训练装置的结构示意图。如图11所示,条件控制模型训练装置应用于云侧设备,该装置包括:
第二获取模块1102,被配置为获取多个样本图文对和多个样本生成条件,其中,样本图文对和样本生成条件一一对应,多个样本生成条件包括至少两种不同的生成条件,样本图文对包括样本图像和样本描述文本;
第三提取模块1104,被配置为对样本图像进行特征提取,获得样本图像特征,并对样本描述文本进行特征提取,获得样本文本特征;
第五输入模块1106,被配置为将样本生成条件输入条件控制模型中的条件控制单元,获得初始样本条件特征;
第六输入模块1108,被配置为将初始样本条件特征输入条件控制模型中的线性映射单元,获得第二样本条件特征;
第一调整模块1110,被配置为根据样本图像特征、样本文本特征和第二样本条件特征,调整线性映射单元的单元参数,获得训练完成的条件控制模型。
应用本说明书实施例的方案,根据样本图像特征、样本文本特征和第二样本条件特征,调整线性映射单元的单元参数,获得训练完成的条件控制模型,通过基于训练得到的图像生成模型和在扩散模型上训练得到的条件控制单元,从不同的样本生成条件中随机提取特征,优化同一个线性映射单元,解决了图像生成过程中不同样本生成条件导致的图像漂移问题,实现了轻量且具有泛化性的一致性图像生成。
上述为本实施例的一种条件控制模型训练装置的示意性方案。需要说明的是,该条件控制模型训练装置的技术方案与上述的条件控制模型训练方法的技术方案属于同一构思,条件控制模型训练装置的技术方案未详细描述的细节内容,均可以参见上述条件控制模型训练方法的技术方案的描述。
图12示出了本说明书一个实施例提供的一种计算设备的结构框图。该计算设备1200的部件包括但不限于存储器1210和处理器1220。处理器1220与存储器1210通过总线1230相连接,数据库1250用于保存数据。
计算设备1200还包括接入设备1240,接入设备1240使得计算设备1200能够经由一个或多个网络1260通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备1240可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,NetworkInterface Card))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,Wireless LocalArea Networks)无线接口、全球微波互联接入(Wi-MAX,World Interoperability forMicrowave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near Field Communication)接口,等等。
在本说明书的一个实施例中,计算设备1200的上述部件以及图12中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图12所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1200可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,Personal Computer)的静止计算设备。计算设备1200还可以是移动式或静止式的服务器。
其中,处理器1220用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述图像生成方法或者自动问答方法或者条件控制模型训练方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的图像生成方法、自动问答方法以及条件控制模型训练方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述图像生成方法或者自动问答方法或者条件控制模型训练方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述图像生成方法或者自动问答方法或者条件控制模型训练方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的图像生成方法、自动问答方法以及条件控制模型训练方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述图像生成方法或者自动问答方法或者条件控制模型训练方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述图像生成方法或者自动问答方法或者条件控制模型训练方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的图像生成方法、自动问答方法以及条件控制模型训练方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述图像生成方法或者自动问答方法或者条件控制模型训练方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减,例如在某些地区,根据专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (14)

1.一种图像生成方法,包括:
获取图像描述文本和图像生成条件;
对所述图像描述文本进行特征提取,获得文本特征;
将所述图像生成条件输入条件控制模型,获得条件特征,其中,所述条件控制模型基于多个样本图文对和多个样本生成条件训练得到,所述样本图文对和所述样本生成条件一一对应;
将所述文本特征和所述条件特征输入图像生成模型,获得目标图像。
2.根据权利要求1所述的方法,所述条件控制模型包括条件控制单元和线性映射单元;
所述将所述图像生成条件输入条件控制模型,获得条件特征,包括:
经所述条件控制单元,对所述图像生成条件进行编码,获得初始条件特征;
经所述线性映射单元,对所述初始条件特征进行线性映射,获得条件特征。
3.根据权利要求1所述的方法,所述将所述图像生成条件输入条件控制模型,获得条件特征之前,还包括:
获取多个样本图文对和多个样本生成条件,其中,所述多个样本生成条件至少包括与所述图像生成条件相同的条件;
根据所述多个样本图文对和所述多个样本生成条件,调整初始条件控制模型的模型参数,获得训练完成的条件控制模型。
4.根据权利要求3所述的方法,所述多个样本生成条件与所述图像生成条件相同,所述样本图文对包括样本图像和样本描述文本;
所述根据所述多个样本图文对和所述多个样本生成条件,调整初始条件控制模型的模型参数,获得训练完成的条件控制模型,包括:
对所述样本图像进行特征提取,获得样本图像特征,并对所述样本描述文本进行特征提取,获得样本文本特征;
将所述样本生成条件输入初始条件控制模型,获得第一样本条件特征;
根据所述样本图像特征、所述样本文本特征以及所述第一样本条件特征,调整所述初始条件控制模型的模型参数,获得训练完成的条件控制模型。
5.根据权利要求4所述的方法,所述根据所述样本图像特征、所述样本文本特征以及所述第一样本条件特征,调整所述初始条件控制模型的模型参数,获得训练完成的条件控制模型,包括:
从所述样本图像特征中,采样得到第一时间步的第一样本图像特征和第二时间步的第二样本图像特征,其中,所述第一时间步和所述第二时间步从时间步规划序列中随机采样得到;
将所述第一样本图像特征、所述第一时间步、所述第一样本条件特征以及所述样本文本特征输入图像生成模型,获得第一预测图像;
将所述第二样本图像特征、所述第二时间步、所述第一样本条件特征以及所述样本文本特征输入所述图像生成模型,获得第二预测图像;
根据所述第一预测图像和所述第二预测图像,调整所述初始条件控制模型的模型参数,获得训练完成的条件控制模型。
6.根据权利要求3所述的方法,所述条件控制模型包括条件控制单元和线性映射单元,所述多个样本生成条件包括与所述图像生成条件相同的条件以及与所述图像生成条件不同的条件,所述样本图文对包括样本图像和样本描述文本;
所述根据所述多个样本图文对和所述多个样本生成条件,调整初始条件控制模型的模型参数,获得训练完成的条件控制模型,包括:
对所述样本图像进行特征提取,获得样本图像特征,并对所述样本描述文本进行特征提取,获得样本文本特征;
将所述样本生成条件输入所述条件控制单元,获得初始样本条件特征;
将所述初始样本条件特征输入所述线性映射单元,获得第二样本条件特征;
根据所述样本图像特征、所述样本文本特征和所述第二样本条件特征,调整所述线性映射单元的单元参数,获得训练完成的条件控制模型。
7.根据权利要求6所述的方法,所述将所述样本生成条件输入所述条件控制单元,获得初始样本条件特征之前,还包括:
将所述样本生成条件输入初始条件控制单元,获得第三样本条件特征;
根据前向扩散系数和所述样本图像特征,确定第三时间步的第三样本图像特征和第四时间步的第四样本图像特征,其中,所述前向扩散系数基于所述第四时间步得到,所述第三时间步和所述第四时间步从时间步规划序列中随机采样得到;
将所述第三样本条件特征、所述第四样本图像特征、所述样本文本特征和所述第四时间步输入扩散模型,获得所述第三时间步的第一预测特征;
根据所述第三样本图像特征和所述第一预测特征,调整所述初始条件控制单元的单元参数,获得训练完成的条件控制单元。
8.根据权利要求7所述的方法,所述将所述第三样本条件特征、所述第四样本图像特征、所述样本文本特征和所述第四时间步输入扩散模型,获得所述第三时间步的第一预测特征之前,还包括:
将所述第四样本图像特征、所述样本文本特征和所述第四时间步输入基础扩散模型,获得所述第三时间步的第二预测特征;
根据所述第三样本图像特征和所述第二预测特征,调整所述基础扩散模型的模型参数,获得训练完成的扩散模型。
9.根据权利要求1所述的方法,所述将所述文本特征和所述条件特征输入图像生成模型,获得目标图像之前,还包括:
获取多个样本图文对,其中,所述样本图文对包括样本图像和样本描述文本;
对所述样本图像进行特征提取,获得样本图像特征,并对所述样本描述文本进行特征提取,获得样本文本特征;
从所述样本图像特征中,采样得到第五时间步的第五样本图像特征,并将所述第五样本图像特征输入扩散模型,获得第六时间步的第六样本图像特征,其中,所述第五时间步和所述第六时间步从时间步规划序列中随机采样得到;
根据所述样本文本特征、所述第五样本图像特征和所述第六样本图像特征,调整初始图像生成模型的模型参数,获得训练完成的图像生成模型。
10.根据权利要求9所述的方法,所述根据所述样本文本特征、所述第五样本图像特征和所述第六样本图像特征,调整初始图像生成模型的模型参数,获得训练完成的图像生成模型,包括:
将所述第五样本图像特征、所述第五时间步、所述样本文本特征输入初始图像生成模型,获得第三预测图像;
将所述第六样本图像特征、所述第六时间步、所述样本文本特征输入所述初始图像生成模型,获得第四预测图像;
根据所述第三预测图像和所述第四预测图像,调整所述初始图像生成模型的模型参数,获得训练完成的图像生成模型。
11.一种自动问答方法,包括:
接收图像问答请求,其中,所述图像问答请求携带图像描述文本和图像生成条件;
对所述图像描述文本进行特征提取,获得文本特征;
将所述图像生成条件输入条件控制模型,获得条件特征,其中,所述条件控制模型基于多个样本图文对和多个样本生成条件训练得到,所述样本图文对和所述样本生成条件一一对应;
将所述文本特征和所述条件特征输入图像生成模型,获得所述图像问答请求对应的答复图像。
12.一种条件控制模型训练方法,应用于云侧设备,包括:
获取多个样本图文对和多个样本生成条件,其中,所述样本图文对和所述样本生成条件一一对应,所述多个样本生成条件包括至少两种不同的生成条件,所述样本图文对包括样本图像和样本描述文本;
对所述样本图像进行特征提取,获得样本图像特征,并对所述样本描述文本进行特征提取,获得样本文本特征;
将所述样本生成条件输入条件控制模型中的条件控制单元,获得初始样本条件特征;
将所述初始样本条件特征输入所述条件控制模型中的线性映射单元,获得第二样本条件特征;
根据所述样本图像特征、所述样本文本特征和所述第二样本条件特征,调整所述线性映射单元的单元参数,获得训练完成的条件控制模型。
13.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至10任意一项或者权利要求11或者权利要求12所述方法的步骤。
14.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至10任意一项或者权利要求11或者权利要求12所述方法的步骤。
CN202311643115.8A 2023-12-01 2023-12-01 图像生成、自动问答以及条件控制模型训练方法 Pending CN117668187A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311643115.8A CN117668187A (zh) 2023-12-01 2023-12-01 图像生成、自动问答以及条件控制模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311643115.8A CN117668187A (zh) 2023-12-01 2023-12-01 图像生成、自动问答以及条件控制模型训练方法

Publications (1)

Publication Number Publication Date
CN117668187A true CN117668187A (zh) 2024-03-08

Family

ID=90065575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311643115.8A Pending CN117668187A (zh) 2023-12-01 2023-12-01 图像生成、自动问答以及条件控制模型训练方法

Country Status (1)

Country Link
CN (1) CN117668187A (zh)

Similar Documents

Publication Publication Date Title
EP4050569A1 (en) Model training method and apparatus, font library establishment method and apparatus, device and storage medium
EP4044127A2 (en) Model training method and apparatus, font library establishment method and apparatus, device and storage medium
US20230114293A1 (en) Method for training a font generation model, method for establishing a font library, and device
EP3998583A2 (en) Method and apparatus of training cycle generative networks model, and method and apparatus of building character library
US20220237935A1 (en) Method for training a font generation model, method for establishing a font library, and device
CN116797868A (zh) 文本图像生成方法以及扩散生成模型训练方法
CN113793398A (zh) 基于语音交互的绘画方法与装置、存储介质和电子设备
CN115601485A (zh) 任务处理模型的数据处理方法及虚拟人物动画生成方法
CN115661829A (zh) 图文识别方法及图文识别模型的数据处理方法
CN116303558A (zh) 查询语句生成方法、数据查询方法及生成模型训练方法
CN117971420A (zh) 任务处理、交通任务处理以及任务处理模型训练方法
KR102562387B1 (ko) 이미지의 특징 추출 및 합성 시스템의 학습 방법
CN117668187A (zh) 图像生成、自动问答以及条件控制模型训练方法
CN115860013A (zh) 对话消息处理方法、装置、系统、设备及介质
CN115936972B (zh) 图像生成方法、遥感图像风格迁移方法以及装置
CN117830447A (zh) 图像生成、自动问答以及参数生成模型训练方法
CN116778011B (zh) 图像生成方法
CN116842966A (zh) 在线翻译模型训练、翻译样本对构建及在线翻译方法
CN115796405B (zh) 针对优化模型的求解报告生成方法及计算设备
CN118312689A (zh) 页面渲染方法以及页面渲染装置
CN117893652A (zh) 视频生成方法以及参数生成模型训练方法
CN116932742A (zh) 摘要提取方法以及装置
CN118212460A (zh) 图像分类方法、自动问答方法、图像类别特征融合模型训练方法及基于深度学习模型的信息处理方法
CN118013246A (zh) 数据处理方法及计算设备、计算机可读存储介质
CN118132988A (zh) 机器学习模型训练方法、基于文本的图像搜索方法、自动问答方法、计算设备、计算机可读存储介质及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination