CN117095083A - 一种文本-图像生成方法、系统、装置和存储介质 - Google Patents
一种文本-图像生成方法、系统、装置和存储介质 Download PDFInfo
- Publication number
- CN117095083A CN117095083A CN202311341907.XA CN202311341907A CN117095083A CN 117095083 A CN117095083 A CN 117095083A CN 202311341907 A CN202311341907 A CN 202311341907A CN 117095083 A CN117095083 A CN 117095083A
- Authority
- CN
- China
- Prior art keywords
- model
- text
- evaluator
- image
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 241000282414 Homo sapiens Species 0.000 claims abstract description 70
- 238000012549 training Methods 0.000 claims abstract description 54
- 231100000956 nontoxicity Toxicity 0.000 claims abstract description 23
- 230000002787 reinforcement Effects 0.000 claims abstract description 20
- 231100000252 nontoxic Toxicity 0.000 claims abstract description 15
- 230000003000 nontoxic effect Effects 0.000 claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 238000005457 optimization Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000009792 diffusion process Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种文本‑图像生成方法、系统、装置和存储介质,属于深度学习、强化学习和计算机视觉等技术领域。其中方法包括:训练一个根据文本生成图像的模型作为基座模型;构建符合人类偏好的美学数据集、真实性数据集以及无毒性数据集;根据构建获得的数据集训练人类偏好奖励模型,该人类偏好奖励模型包括三个结构相同的评估器:美学评估器、真实性评估器和无毒性评估器;根据近端策略优化算法和人类偏好奖励模型,对基座模型进行微调,以获得符合人类偏好的文本‑图像生成模型。本发明通过利用人类偏好的反馈,采用强化学习来进一步微调文本‑图像生成模型,以确保根据文本生成的图像在美学、真实性和无毒性三个方面符合人类的偏好。
Description
技术领域
本发明涉及深度学习、强化学习和计算机视觉等技术领域,尤其涉及一种文本-图像生成方法、系统、装置和存储介质。
背景技术
随着深度学习技术的不断发展,深度生成模型取得了显著的进展,尤其是在文本到图像的生成技术方面。这项技术在电子商务和广告营销等领域得到了广泛的应用。
在计算机视觉领域,生成对抗网络、流模型和扩散模型等新的生成模型的出现,为文本到图像的生成带来了重大的突破。生成对抗网络通过训练生成器和判别器之间的博弈来生成逼真的图像。流模型通过学习数据分布的变换来实现图像生成。扩散模型则利用扩散过程来生成图像,可以有效地控制图像的细节和结构。然而,尽管这些模型在文本到图像的生成上取得了很大进步,但现有模型生成的图像往往与人类偏好存在差异,这限制了文本到图像生成技术在实际应用场景中的应用。这种不一致可能表现为生成的图像缺乏真实感、细节模糊、颜色不准确等问题,这就会阻碍文本到图像的生成技术的实际落地使用。
基于上述的技术问题,研究人员正致力于改进生成模型,使其生成的图像更符合人类的审美偏好。一种方法是引入更复杂的网络架构和损失函数,以提高图像的质量和真实感。另一种方法是在训练数据集中引入更多的人类审美偏好信息,以指导模型的生成过程。然而,目前的解决方案尚未能够很好地将人类的偏好应用于文本到图像的生成,因此根据文本生成的图像仍存在与人类偏好之间的差距。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种文本-图像生成方法、系统、装置和存储介质。
本发明所采用的技术方案是:
一种文本-图像生成方法,包括以下步骤:
训练一个根据文本生成图像的大型扩散模型作为基座模型;
构建符合人类偏好的美学数据集、真实性数据集以及无毒性数据集;
根据构建获得的数据集训练人类偏好奖励模型,该人类偏好奖励模型包括三个结构相同的评估器:美学评估器、真实性评估器和无毒性评估器;
根据近端策略优化算法和人类偏好奖励模型,对基座模型进行微调,以获得符合人类偏好的文本-图像生成模型。
进一步地,所述基座模型为Stable Diffusion,所述Stable Diffusion通过以下方式生成图像:
A1、在潜在空间生成一个随机的张量,作为潜在图像;
A2、将获得的潜在图像和输入的文本作为Stable Diffusion中噪声预测器的输入,进行噪声预测,获得潜在图像的噪声;
A3、对潜在图像减去步骤A2中获得的噪声,获得一张新的潜在图像,并返回执行步骤A2,直至达到预设条件;
A4、通过预设的解码器,将潜在图像转换到像素空间,获得最终的图像。
进一步地,所述噪声预测器通过以下方式训练获得:
获取训练集,所述训练集包括噪声强度、加噪后的图片以及噪声图;
根据训练集对UNet模型进行训练,其中训练过程中UNet模型只需在已知噪声强度的条件下,学习从加噪后的图片中计算出噪声图;
其中,在步骤A2中,所述输入的文本经过CLIP模型的文字编码器压缩成嵌入向量,再输入UNet模型。
进一步地,训练所述人类偏好奖励模型的损失函数使用成对比较损失,表达式如下:
其中,表示第/>个评估器在参数/>下,对提示词x以及相应图像/>下的评分,对于/>,/>分别表示美学评估器、真实性评估器和无毒性评估器;/>表示训练对应评估器所使用的数据集,其中每条数据由一个提示词/>和/>个由文本-图像模型相应生成的图像/>,对于/>,/>分别表示美学数据集、真实性数据集和无毒性数据集;表示从数据集一条数据中抽出一个提示词/>和两个相应生成的图像/>,其中相比于/>在相应数据集中表示更加满足人类期望的图像;/>表示sigmoid函数;表示使用从数据集/>上获取到所有的/>估计/>的期望。
进一步地,所述评估器基于CLIP模型结构中的文本编码器和图像编码器进行构建;对文本编码器和图像编码器输出的嵌入进行相加并依次输入到两个多层感知机层中,以使评估器适应分数预测的任务。
进一步地,所述根据近端策略优化算法和人类偏好奖励模型,对基座模型进行微调,以获得符合人类偏好的文本-图像生成模型,包括:
分别计算出美学评估器、真实性评估器和无毒性评估器的奖励,并将三个奖励加权求和作为总体奖励;
引入KL惩罚项,通过系数β对奖励的权重进行调整;
引入IS客观指标和FID客观指标进行调整;
结合预训练损失进行正则化,以避免快速过拟合和保持微调的稳定性。
进一步地,最终的损失函数形式如下:
其中,表示对后面的式子取期望;/>表示提示词/>和对应图像/>来自用于训练强化学习阶段RL的数据集/>;/>表示第/>个评估器在参数/>下,对提示词x以及相应图像/>下的评分,对于/>,/>分别表示美学评估器、真实性评估器和无毒性评估器;/>表示对第/>个评估器的一个权重,/>表示强化学习阶段对提示词/>和对应图像/>的一个输出,/>表示监督微调(SFT)阶段,对提示词/>和对应图像/>的一个输出,/>是/>的一个权重,/>表示提示词/>是来自用于训练预训练阶段(pretrain)的数据集D,/>是用强化学习部分(RL)的网络对预训练阶段的提示词作输出取对数(log),/>是后面期望的一个权重,/>和/>分别是IS客观指标和FID客观指标的权重,/>表示的是真实数据的分布。
本发明所采用的另一技术方案是:
一种文本-图像生成系统,包括:
基座模型构建模块,用于训练一个根据文本生成图像的大型扩散模型作为基座模型;
数据集构建模块,用于构建符合人类偏好的美学数据集、真实性数据集以及无毒性数据集;
奖励模型构建模块,用于根据构建获得的数据集训练人类偏好奖励模型,该人类偏好奖励模型包括三个结构相同的评估器:美学评估器、真实性评估器和无毒性评估器;
基座模型微调模块,用于根据近端策略优化算法和人类偏好奖励模型,对基座模型进行微调,以获得符合人类偏好的文本-图像生成模型。
本发明所采用的另一技术方案是:
一种文本-图像生成装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述方法。
本发明所采用的另一技术方案是:
一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:本发明通过利用人类偏好的反馈,采用强化学习来进一步微调文本-图像生成模型,以确保根据文本生成的图像在美学、真实性和无毒性三个方面符合人类的偏好。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本发明实施例中一种基于人类反馈强化学习对齐的文本-图像生成方法的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
术语解释:
美学偏好:指个体或群体对于审美对象或现象的喜好,在本发明中特指所有人类对图像内容的普遍审美喜好,并使用标注者的偏好近似。
真实性偏好:指个体或群体对于信息或观点的真实性和可信度的重视程度,在本发明中特指人类群体对图像内容真实性的普遍重视程度,并使用标注者的偏好近似。
无毒性偏好:指个体或群体在选择和决策时,倾向于追求被认为是无害、不会带来负面影响的方案,在本发明中特指所有人类对无毒性的普遍追求,并使用标注者的偏好近似。
Stable Diffusion:Stable Diffusion是一种能根据文本描述生成高质量图像的深度学习模型。
UNet模型:UNet是一个编码-解码网络结构,通过编码器提取图像特征,解码器逐步恢复图像详情,实现像素级语义分割。
CLIP模型:CLIP是一个用于图像和文本表示学习的预训练模型,它通过让语义相关的图像和文本映射到相近的向量空间,来学习图像和文本之间的语义对应关系。
IS:Inception Score的缩写,是一种用于评估生成模型质量的指标,通过在模型中计算生成样本的条件标签分布熵和图像多样性来衡量生成图像的可识别性和多样性。
FID:Fréchet Inception Distance的缩写,是一种用于评估生成模型质量的指标,通过计算生成图像和真实图像在模型特征空间中的Frêchet距离来评估两者分布的接近程度。
如图1所示,本实施例提供一种基于人类反馈强化学习对齐的文本-图像生成方法,首先训练一个根据文本生成图像的大型基座模型;然后收集一套符合人类偏好的数据集用于训练奖励模型;紧接着训练三个奖励模型,分别为美学评估器、真实性评估器和无毒性评估器;最后通过近端策略优化(PPO)算法微调文本生成图像模型。该方法具体包括以下步骤:
S1、训练一个根据文本生成图像的大型扩散模型作为基座模型;
在本实施例中,采用Stable Diffusion作为基座模型。步骤S1具体步骤S11- S14:
S11、在潜在空间生成一个随机的张量,作为潜在图像。
Stable Diffusion在潜在空间(latent space)生成一个随机的张量(tensor),可以通过设定随机种子去控制这个随机生成的张量(tensor)。例如将随机种子设定为一个固定值,得到的张量也是相同的。这里的张量代表了图片在潜在空间的表示,所以下面用潜在图像来表示这个张量,但现在它还是一个噪声。
S12、将获得的潜在图像和输入的文本作为Stable Diffusion中噪声预测器的输入,进行噪声预测,获得潜在图像的噪声。
将步骤S11生成的潜在图像和输入的文本提示作为Stable Diffusion中噪声预测器的输入,噪声预测器将会预测出噪声,并输出潜在图像中的噪声。这里噪声的维度和生成的张量维度是相同的。
S13、根据获得的噪声对潜在图像减去步骤S12中获得的噪声,获得一张新的潜在图像,并返回执行步骤A2,直至达到预设条件。
将步骤S12生成的噪声从步骤S11生成的潜在图像中减去,就可以得到一张新的潜在图像。重复步骤S12预设次数,例如20次(通过Sampling 次数设置),能够将潜在图像的噪声一步步去除掉,得到结果。
S14、通过预设的解码器,将潜在图像转换到像素空间,获得最终的图像。
最后,通过训练好的解码器(Decoder in VAE),将潜在图像转换到像素空间,也就是人类能够识别的图片空间,就能够得到一张通过Stable Diffusion生成的图片了。
作为一种可选的实施方式,为了将图片从噪声中还原,需要训练一个噪声预测器(noise predictor),该噪声预测器负责输出一张带有噪声的图片中具体包含了多少噪声。在逆向过程中,只需要将预测出的噪声从带有噪声的图片中减去,即可得到一张更清晰的图。反复这个过程就能够得到一张完全无噪声的图片。这样的话,一组训练集包括了三样东西:噪声强度,加噪后的图片,以及噪声图就可以了。训练的时候我们的UNet模型只要在已知噪声强度的条件下,学习如何从加噪后的图片中计算出噪声图就可以了。注意,我们并不直接输出无噪声的原图,而是让UNet模型去预测原图上所加过的噪声。当需要生成图片的时候,我们用加噪图减掉噪声就能恢复出原图了。
噪声预测器的训练步骤具体如下:
1).从训练集中选取一张加噪过的图片和噪声强度。
2).将图像输入UNet模型,让UNet模型预测噪声图。
3).计算和真正的噪声图之间的误差:
4).通过反向传播更新UNet的参数。
作为一种可选的实施方式,对于一段描述文字,我们先用CLIP的文本编码器去压缩成嵌入向量。CLIP模型包含一个图片编码器和一个文字编码器,它可以帮助我们实现图像和文本的匹配。在使用UNet模型去噪过程中,我们就不断地用注意力机制给去噪的过程注入这个嵌入向量,就可以不断注入文本的语义信息,从而实现通过文字控制图像的生成。
S2、构建符合人类偏好的美学数据集、真实性数据集以及无毒性数据集。
为了能训练出更加符合人类对真实性、美学、无毒害性要求的文本-图像生成模型,本实施例基于开源模型和数据集分别构造了符合人类偏好的美学数据集、真实性数据集以及无毒性数据集。数据收集方式如下:
1)美学偏好数据集:本实施例利用 DiscordChatExporter 工具从 StableFoundation Discord 的 dreambot 区获取到社区用户从美观角度出发对于多张图片的选择结果,将提示词、图片以及用户选择信息构造成数据集中的一条数据信息。同时可选地,雇佣多组人员对美学偏好数据集中的每条数据进行排序,每条信息中的每对图片分别由两个人进行排序,若两人偏好一致则存入到数据集中,否则将由专门的专家小组进行排序。
2)真实性偏好数据集:从计算机视觉经典数据集COCO上提取出未标记的图片作为数据集中的真实图片并获得图片包含的物体种类名称以及相应的数量作为额外信息。通过结合图片的额外信息构造few-shot风格的提示词输入到语言模型ChatGPT中,让语言模型输出文本-图像生成模型的提示词。将语言模型输出的提示词与作为条件的真实图像输入到DELL-E2模型中,生成多个类似的图像。将真实图片、提示词以及DELL-E2生成的多张图片构造成数据集中的一条数据信息,同时需要人工对多张数据集进行真实性偏好的排序。
3)无毒性偏好数据集:本实施例使用few-shot提示词让语言模型ChatGPT生成大量用于文本-图像生成模型的提示词,将这些提示词输入到DELL-E2模型、hugging faceStable Diffusion模型中,生成多张图片。对于给定的模型生成的图片以及上述两个数据集中的图片,使用NSFW(Not Suitable for Work)检测器生成一个概率。本实施例选择阈值=0.2与/>=0.8,当概率小于/>时,图片标记为无毒;当概率大于/>时,图片标记为有毒;当概率大于/>并小于/>时,图片被舍弃。将每张图片和其相应的提示词构造成数据集中的一张图片。
S3、根据构建获得的数据集训练人类偏好奖励模型,该人类偏好奖励模型包括三个结构相同的评估器:美学评估器、真实性评估器和无毒性评估器。
本实施例提出的评估器基于CLIP模型结构中的文本编码器和图像编码器。为了使它们能够适应分数预测的任务,我们对两个编码器输出的嵌入进行相加并依次输入到两个多层感知机(MLP)层中。本实施需要训练三个有同样结构的评估器,每个评估器中分别使用步骤S2收集得到的符合人类偏好的真实性数据集、美学数据集以及无毒性数据集进行训练。所有评估器输出的得分被限制在[1,10]的区间内,且分数越高表示模型越符合人类期望,即对于真实性奖励模型,10分表示图像非常真实,而1分表示图像与真实图像有非常大差异。
评估器的损失函数使用成对比较损失 (Pairwise comparison loss):
其中,表示第/>个评估器在参数/>下,对提示词x以及相应图像/>下的评分,对于/>,/>分别表示美学评估器、真实性评估器和无毒性评估器;/>表示训练对应评估器所使用的数据集,其中每条数据由一个提示词/>和/>个由文本-图像模型相应生成的图像/>,对于/>,/>分别表示美学数据集、真实性数据集和无毒性数据集;表示从数据集一条数据中抽出一个提示词/>和两个相应生成的图像/>,其中相比于/>在相应数据集中表示更加满足人类期望的图像;/>表示sigmoid函数;表示使用从数据集/>上获取到所有的/>估计/>的期望。
S4、根据近端策略优化算法和人类偏好奖励模型,对基座模型进行微调,以获得符合人类偏好的文本-图像生成模型。
本实施例提出了一种使用近端策略优化(PPO)强化学习算法直接微调文本-图像生成的大型基座模型(本发明使用步骤S1训练得到的Stable Diffusion)的方法。在这种方法中,我们从去噪过程中随机选择一个后续步骤t∈[30,40],并利用PPO算法对模型进行微调。与以往方法不同的是,我们不仅使用单一的奖励信号进行调整,而是分别计算出美学评估器、真实性评估器和无毒性评估器的奖励,并将它们加权求和作为总体奖励。为了确保微调结果在原始模型的基础上进行微调而不偏离太多,我们引入了一个KL(Kullback-Leibler)惩罚项,并通过系数β对其进行权重调整。此外,为了同时考虑视觉效果和客观评价指标,我们还引入了IS(Inception Score)和FID(Fréchet Inception Distance)这两个客观指标进行调整。最后,我们还结合了预训练损失进行正则化,以避免快速过拟合和保持微调的稳定性。因此,最终的损失函数形式如下:
其中,表示对后面的式子取期望;/>表示提示词/>和对应图像/>来自用于训练强化学习阶段RL的数据集/>;/>表示第/>个评估器在参数/>下,对提示词x以及相应图像/>下的评分,对于/>,/>分别表示美学评估器、真实性评估器和无毒性评估器;/>表示对第/>个评估器的一个权重,/>表示强化学习阶段对提示词/>和对应图像/>的一个输出,/>表示监督微调(SFT)阶段,对提示词/>和对应图像/>的一个输出,/>是/>的一个权重,/>表示提示词/>是来自用于训练预训练阶段(pretrain)的数据集D,/>是用强化学习部分(RL)的网络对预训练阶段的提示词作输出取对数(log),/>是后面期望的一个权重,/>和/>分别是IS客观指标和FID客观指标的权重,/>表示的是真实数据的分布。
经过步骤S1至步骤S4的训练,已经成功开发出了一个文本-图像生成模型,该模型能够生成符合人类偏好的图像。
综上所述,为了解决现有的技术问题,本发明提出一种方法,旨在解决现有文本-图像生成模型所存在的生成图像不符合人类偏好的问题。该发明提出了一种基于人类反馈强化学习对齐的文本-图像生成算法,通过利用人类偏好的反馈,采用强化学习来进一步微调文本-图像生成模型,以确保根据文本生成的图像在美学、真实性和无毒性三个方面符合人类的偏好。这一创新方法将通过结合人类反馈和强化学习,有效地提高文本-图像生成模型的生成质量,使生成的图像更加符合人类的审美要求、真实感和无无毒性。本发明将对广泛应用于虚拟场景生成、艺术创作以及虚拟现实等领域的文本-图像生成技术产生重要影响,提高了生成图像的质量和可用性。
本实施例还提供一种文本-图像生成系统,包括:
基座模型构建模块,用于训练一个根据文本生成图像的大型扩散模型作为基座模型;
数据集构建模块,用于构建符合人类偏好的美学数据集、真实性数据集以及无毒性数据集;
奖励模型构建模块,用于根据构建获得的数据集训练人类偏好奖励模型,该人类偏好奖励模型包括三个结构相同的评估器:美学评估器、真实性评估器和无毒性评估器;
基座模型微调模块,用于根据近端策略优化算法和人类偏好奖励模型,对基座模型进行微调,以获得符合人类偏好的文本-图像生成模型。
本实施例的一种文本-图像生成系统,可执行本发明方法实施例所提供的一种基于人类反馈强化学习对齐的文本-图像生成方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本实施例还提供一种文本-图像生成装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如图1所示方法。
本实施例的一种文本-图像生成装置,可执行本发明方法实施例所提供的一种基于人类反馈强化学习对齐的文本-图像生成方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种低光照图像增强处理方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种文本-图像生成方法,其特征在于,包括以下步骤:
训练一个根据文本生成图像的模型作为基座模型;
构建符合人类偏好的美学数据集、真实性数据集以及无毒性数据集;
根据构建获得的数据集训练人类偏好奖励模型,该人类偏好奖励模型包括三个结构相同的评估器:美学评估器、真实性评估器和无毒性评估器;
根据近端策略优化算法和人类偏好奖励模型,对基座模型进行微调,以获得符合人类偏好的文本-图像生成模型。
2.根据权利要求1所述的一种文本-图像生成方法,其特征在于,所述基座模型为Stable Diffusion,所述Stable Diffusion通过以下方式生成图像:
A1、在潜在空间生成一个随机的张量,作为潜在图像;
A2、将获得的潜在图像和输入的文本作为Stable Diffusion中噪声预测器的输入,进行噪声预测,获得潜在图像的噪声;
A3、对潜在图像减去步骤A2中获得的噪声,获得一张新的潜在图像,并返回执行步骤A2,直至达到预设条件;
A4、通过预设的解码器,将潜在图像转换到像素空间,获得最终的图像。
3.根据权利要求2所述的一种文本-图像生成方法,其特征在于,所述噪声预测器通过以下方式训练获得:
获取训练集,所述训练集包括噪声强度、加噪后的图片以及噪声图;
根据训练集对UNet模型进行训练,其中训练过程中UNet模型只需在已知噪声强度的条件下,学习从加噪后的图片中计算出噪声图;
其中,在步骤A2中,所述输入的文本经过CLIP模型的文字编码器压缩成嵌入向量,再输入UNet模型。
4.根据权利要求1所述的一种文本-图像生成方法,其特征在于,训练所述人类偏好奖励模型的损失函数使用成对比较损失,表达式如下:
;
其中,表示第/>个评估器在参数/>下,对提示词x以及相应图像/>下的评分,对于,/>分别表示美学评估器、真实性评估器和无毒性评估器;/>表示训练对应评估器所使用的数据集,对于/>,/>分别表示美学数据集、真实性数据集和无毒性数据集;/>表示从数据集一条数据中抽出一个提示词/>和两个相应生成的图像,其中/>相比于/>在相应数据集中表示更加满足人类期望的图像;/>表示sigmoid函数;/>表示使用从数据集/>上获取到所有的/>估计的期望。
5.根据权利要求1或4所述的一种文本-图像生成方法,其特征在于,所述评估器基于CLIP模型结构中的文本编码器和图像编码器进行构建;对文本编码器和图像编码器输出的嵌入进行相加并依次输入到两个多层感知机层中,以使评估器适应分数预测的任务。
6.根据权利要求1所述的一种文本-图像生成方法,其特征在于,所述根据近端策略优化算法和人类偏好奖励模型,对基座模型进行微调,以获得符合人类偏好的文本-图像生成模型,包括:
分别计算出美学评估器、真实性评估器和无毒性评估器的奖励,并将三个奖励加权求和作为总体奖励;
引入KL惩罚项,通过系数β对奖励的权重进行调整;
引入IS客观指标和FID客观指标进行调整;
结合预训练损失进行正则化,以避免快速过拟合和保持微调的稳定性。
7.根据权利要求6所述的一种文本-图像生成方法,其特征在于,最终的损失函数形式如下:
;
其中,表示对后面的式子取期望;/>表示提示词/>和对应图像/>来自用于训练强化学习阶段RL的数据集/>;/>表示第/>个评估器在参数/>下,对提示词x以及相应图像/>下的评分,对于/>,/>分别表示美学评估器、真实性评估器和无毒性评估器;/>表示对第/>个评估器的一个权重,/>表示强化学习阶段对提示词/>和对应图像/>的一个输出,/>表示监督微调(SFT)阶段,对提示词/>和对应图像/>的一个输出,是/>的一个权重,/>表示提示词/>是来自用于训练预训练阶段的数据集D,/>是用强化学习部分的网络对预训练阶段的提示词/>作输出取对数,/>是后面期望的一个权重,/>和/>分别是IS客观指标和FID客观指标的权重,/>表示的是真实数据的分布。
8.一种文本-图像生成系统,其特征在于,包括:
基座模型构建模块,用于训练一个根据文本生成图像的模型作为基座模型;
数据集构建模块,用于构建符合人类偏好的美学数据集、真实性数据集以及无毒性数据集;
奖励模型构建模块,用于根据构建获得的数据集训练人类偏好奖励模型,该人类偏好奖励模型包括三个结构相同的评估器:美学评估器、真实性评估器和无毒性评估器;
基座模型微调模块,用于根据近端策略优化算法和人类偏好奖励模型,对基座模型进行微调,以获得符合人类偏好的文本-图像生成模型。
9.一种文本-图像生成装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-7任一项所述方法。
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311341907.XA CN117095083B (zh) | 2023-10-17 | 2023-10-17 | 一种文本-图像生成方法、系统、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311341907.XA CN117095083B (zh) | 2023-10-17 | 2023-10-17 | 一种文本-图像生成方法、系统、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117095083A true CN117095083A (zh) | 2023-11-21 |
CN117095083B CN117095083B (zh) | 2024-03-15 |
Family
ID=88775724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311341907.XA Active CN117095083B (zh) | 2023-10-17 | 2023-10-17 | 一种文本-图像生成方法、系统、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117095083B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117493587A (zh) * | 2023-12-28 | 2024-02-02 | 苏州元脑智能科技有限公司 | 一种文章生成的方法、装置、设备及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103620590A (zh) * | 2011-02-03 | 2014-03-05 | 脸谱公司 | 用于图像至文本以及文本至图像的关联的系统和方法 |
CN111260740A (zh) * | 2020-01-16 | 2020-06-09 | 华南理工大学 | 一种基于生成对抗网络的文本到图像生成方法 |
CN115393692A (zh) * | 2022-09-08 | 2022-11-25 | 南京邮电大学 | 基于生成式预训练语言模型的联想文本到图像生成方法 |
US20230068103A1 (en) * | 2021-08-31 | 2023-03-02 | Alibaba Damo (Hangzhou) Technology Co., Ltd. | Image generation system and method |
CN116188618A (zh) * | 2023-04-24 | 2023-05-30 | 清华大学 | 基于结构化语义图的图像生成方法及装置 |
CN116433800A (zh) * | 2023-06-14 | 2023-07-14 | 中国科学技术大学 | 基于社交场景用户偏好与文本联合指导的图像生成方法 |
CN116452410A (zh) * | 2023-03-10 | 2023-07-18 | 浙江工业大学 | 一种基于深度学习的文本引导无掩膜图像编辑方法 |
CN116740223A (zh) * | 2023-04-26 | 2023-09-12 | 先进操作系统创新中心(天津)有限公司 | 基于文本生成图像的方法 |
US20230326488A1 (en) * | 2022-04-07 | 2023-10-12 | Lemon Inc. | Content creation based on text-to-image generation |
CN116883530A (zh) * | 2023-07-06 | 2023-10-13 | 中山大学 | 一种基于细粒度语义奖励的文本到图像生成方法 |
-
2023
- 2023-10-17 CN CN202311341907.XA patent/CN117095083B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103620590A (zh) * | 2011-02-03 | 2014-03-05 | 脸谱公司 | 用于图像至文本以及文本至图像的关联的系统和方法 |
CN111260740A (zh) * | 2020-01-16 | 2020-06-09 | 华南理工大学 | 一种基于生成对抗网络的文本到图像生成方法 |
US20230068103A1 (en) * | 2021-08-31 | 2023-03-02 | Alibaba Damo (Hangzhou) Technology Co., Ltd. | Image generation system and method |
US20230326488A1 (en) * | 2022-04-07 | 2023-10-12 | Lemon Inc. | Content creation based on text-to-image generation |
CN115393692A (zh) * | 2022-09-08 | 2022-11-25 | 南京邮电大学 | 基于生成式预训练语言模型的联想文本到图像生成方法 |
CN116452410A (zh) * | 2023-03-10 | 2023-07-18 | 浙江工业大学 | 一种基于深度学习的文本引导无掩膜图像编辑方法 |
CN116188618A (zh) * | 2023-04-24 | 2023-05-30 | 清华大学 | 基于结构化语义图的图像生成方法及装置 |
CN116740223A (zh) * | 2023-04-26 | 2023-09-12 | 先进操作系统创新中心(天津)有限公司 | 基于文本生成图像的方法 |
CN116433800A (zh) * | 2023-06-14 | 2023-07-14 | 中国科学技术大学 | 基于社交场景用户偏好与文本联合指导的图像生成方法 |
CN116883530A (zh) * | 2023-07-06 | 2023-10-13 | 中山大学 | 一种基于细粒度语义奖励的文本到图像生成方法 |
Non-Patent Citations (4)
Title |
---|
JIAZHENG XU 等: "Imagereward: Learning and evaluating human preferences for text-to-image generation", ARXIV, pages 1 - 15 * |
TAN M. DINH 等: "TISE: Bag of Metrics for Text-to-Image Synthesis Evaluation", ARXIV, pages 1 - 5 * |
YUFAN ZHOU 等: "Towards Language-Free Training for Text-to-Image Generation", PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, pages 17907 - 17914 * |
徐天宇;王智;: "基于美学评判的文本生成图像优化", 北京航空航天大学学报, no. 12, pages 2438 - 2448 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117493587A (zh) * | 2023-12-28 | 2024-02-02 | 苏州元脑智能科技有限公司 | 一种文章生成的方法、装置、设备及介质 |
CN117493587B (zh) * | 2023-12-28 | 2024-04-09 | 苏州元脑智能科技有限公司 | 一种文章生成的方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117095083B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109544524B (zh) | 一种基于注意力机制的多属性图像美学评价系统 | |
Savinov et al. | Step-unrolled denoising autoencoders for text generation | |
Shavitt et al. | Regularization learning networks: deep learning for tabular datasets | |
CN117095083B (zh) | 一种文本-图像生成方法、系统、装置和存储介质 | |
CN109478204A (zh) | 非结构化文本的机器理解 | |
CN110390950A (zh) | 一种基于生成对抗网络的端到端语音增强方法 | |
Jaumard-Hakoun et al. | Tongue contour extraction from ultrasound images based on deep neural network | |
Chen et al. | Delving deeper into the decoder for video captioning | |
Si et al. | Freeu: Free lunch in diffusion u-net | |
CN111144553A (zh) | 一种基于时空记忆注意力的图像描述方法 | |
Guimarães et al. | Monaural speech enhancement through deep wave-U-net | |
Stoll et al. | Signsynth: Data-driven sign language video generation | |
CN113435430A (zh) | 基于自适应时空纠缠的视频行为识别方法、系统、设备 | |
CN116682399A (zh) | 一种音乐生成方法、系统、电子设备及介质 | |
CN112733043A (zh) | 评论推荐方法及装置 | |
CN112116685A (zh) | 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法 | |
CN110176050B (zh) | 文本生成图像的美学优化方法 | |
CN112258420B (zh) | 基于dqn的图像增强处理方法及装置 | |
Li et al. | Is Synthetic Data From Diffusion Models Ready for Knowledge Distillation? | |
US20210283505A1 (en) | Video Game Content Provision System and Method | |
CN107239482A (zh) | 一种将图像转换为音乐的处理方法及服务器 | |
Matskevych et al. | From shallow to deep: exploiting feature-based classifiers for domain adaptation in semantic segmentation | |
Lyu et al. | DeCapsGAN: generative adversarial capsule network for image denoising | |
Zhang et al. | A CNN based visual audio steganography model | |
Cheng et al. | Audio-Visual Salieny Network with Audio Attention Module |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |