CN117671680A - 基于图像的生成方法、装置、设备及介质 - Google Patents
基于图像的生成方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117671680A CN117671680A CN202311521058.6A CN202311521058A CN117671680A CN 117671680 A CN117671680 A CN 117671680A CN 202311521058 A CN202311521058 A CN 202311521058A CN 117671680 A CN117671680 A CN 117671680A
- Authority
- CN
- China
- Prior art keywords
- image
- model
- initial
- unit
- text description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000012549 training Methods 0.000 claims abstract description 85
- 239000013598 vector Substances 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 15
- 238000005520 cutting process Methods 0.000 claims description 11
- 238000009792 diffusion process Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请涉及智能养老技术领域,揭示了一种基于图像的生成方法、装置、设备及介质,其中方法包括:将初始图像输入预训练的生成模型,生成模型依次包括:图像编码单元、文本描述生成单元和图像生成单元,生成模型是采用端到端训练方法对初始模型训练得到的模型,初始模型依次包括:图像编码单元、文本描述生成单元和图像生成单元,初始模型还包括第一判别器和第二判别器,文本描述生成单元的输出作为第一判别器的输入,图像编码单元的输出或图像生成单元的输出作为第二判别器的输入;生成模型的文本描述生成单元输出初始图像对应的目标文本描述;生成模型的图像生成单元输出初始图像对应的目标图像。从而提高了训练效率,降低了训练成本。
Description
技术领域
本发明涉及人工智能、图像处理、智能养老技术领域,尤其涉及一种基于图像的生成方法、装置、设备及介质。
背景技术
图像生成文本任务,首先通过计算机视觉理解图像,然后通过自然语言处理生成图像的文本描述。文本生成图像任务,首先通过对文本进行语义理解,然后通过人工智能生成图像。在智能养老领域,对图像的智能理解以生成文本以及对文本的智能理解以生成图像,有着广泛的应用场景。
目前,针对图像生成文本任务训练文本描述生成模型,针对文本生成图像任务训练图像生成模型,两个模型独立训练,降低了训练效率,而且需要针对每个模型单独准备训练数据,增加了训练成本。
发明内容
基于此,有必要针对现有技术的文本描述生成模型和图像生成模型独立训练,降低了训练效率,增加了训练成本的技术问题,提出了一种基于图像的生成方法、装置、设备及介质。
第一方面,提供了一种基于图像的生成方法,所述方法包括:
获取初始图像;
将所述初始图像输入预训练的生成模型,其中,所述生成模型依次包括:图像编码单元、文本描述生成单元和图像生成单元,所述生成模型是采用端到端训练方法对初始模型训练得到的模型,所述初始模型依次包括:所述图像编码单元、所述文本描述生成单元和所述图像生成单元,所述初始模型还包括第一判别器和第二判别器,所述文本描述生成单元的输出作为所述第一判别器的输入,所述图像编码单元的输出或所述图像生成单元的输出作为所述第二判别器的输入;
获取所述生成模型的所述文本描述生成单元输出的文本描述,作为所述初始图像对应的目标文本描述;
获取所述生成模型的所述图像生成单元输出的图像,作为所述初始图像对应的目标图像。
第二方面,提供了一种基于图像的生成装置,所述装置包括:
数据获取模块,用于获取初始图像;
生成模块,用于将所述初始图像输入预训练的生成模型,其中,所述生成模型依次包括:图像编码单元、文本描述生成单元和图像生成单元,所述生成模型是采用端到端训练方法对初始模型训练得到的模型,所述初始模型依次包括:所述图像编码单元、所述文本描述生成单元和所述图像生成单元,所述初始模型还包括第一判别器和第二判别器,所述文本描述生成单元的输出作为所述第一判别器的输入,所述图像编码单元的输出或所述图像生成单元的输出作为所述第二判别器的输入;
目标文本描述确定模块,用于获取所述生成模型的所述文本描述生成单元输出的文本描述,作为所述初始图像对应的目标文本描述;
目标图像确定模块,用于获取所述生成模型的所述图像生成单元输出的图像,作为所述初始图像对应的目标图像。
第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于图像的生成方法的步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于图像的生成方法的步骤。
本申请的基于图像的生成方法、装置、设备及介质,其中方法的所述生成模型依次包括:图像编码单元、文本描述生成单元和图像生成单元,所述生成模型是采用端到端训练方法对初始模型训练得到的模型,所述初始模型依次包括:所述图像编码单元、所述文本描述生成单元和所述图像生成单元,所述初始模型还包括第一判别器和第二判别器,所述文本描述生成单元的输出作为所述第一判别器的输入,所述图像编码单元的输出或所述图像生成单元的输出作为所述第二判别器的输入,实现了同时训练文本描述生成单元和图像生成单元,提高了训练效率,而且只需要针对文本描述生成单元准备训练数据,从而降低了训练成本;通过第一判别器强化了文本描述生成单元的生成效果,并且通过第二判别器强化了图像生成单元的效果,从而提高了生成模型的生成效果;通过将一张初始图像输入生成模型,即可得到用于描述初始图像的语义的目标文本描述,也得到了与初始图像的语义相同的相似图像(也就是目标图像),使本申请适用于需要同时生成文本描述和相似图像的场景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中基于图像的生成方法的应用环境图;
图2为一个实施例中基于图像的生成方法的流程图;
图3为一个实施例中基于图像的生成装置的结构框图;
图4为一个实施例中计算机设备的结构框图;
图5为一个实施例中计算机设备的另一种结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的基于图像的生成方法,可应用在如图1的应用环境中,其中,客户端110通过网络与服务端120进行通信。
服务端120可以通过客户端110获取初始图像。服务端120将所述初始图像输入预训练的生成模型,获取所述生成模型的所述文本描述生成单元输出的文本描述,作为所述初始图像对应的目标文本描述,获取所述生成模型的所述图像生成单元输出的图像,作为所述初始图像对应的目标图像。最后服务端120将目标文本描述和目标图像反馈回客户端110。在本申请明中,通过将一张初始图像输入生成模型,即可得到用于描述初始图像的语义的目标文本描述,也得到了与初始图像的语义相同的相似图像(也就是目标图像),使本申请适用于需要同时生成文本描述和相似图像的场景。
所述生成模型依次包括:图像编码单元、文本描述生成单元和图像生成单元,所述生成模型是采用端到端训练方法对初始模型训练得到的模型,所述初始模型依次包括:所述图像编码单元、所述文本描述生成单元和所述图像生成单元,所述初始模型还包括第一判别器和第二判别器,所述文本描述生成单元的输出作为所述第一判别器的输入,所述图像编码单元的输出或所述图像生成单元的输出作为所述第二判别器的输入。可以理解的是,在服务端120采用端到端训练方法对初始模型进行训练,将训练完成的初始模型的所述图像编码单元、所述文本描述生成单元和所述图像生成单元作为所述生成模型。在本申请中,同时训练文本描述生成单元和图像生成单元,提高了训练效率,而且只需要针对文本描述生成单元准备训练数据,从而降低了训练成本;通过第一判别器强化了文本描述生成单元的生成效果,并且通过第二判别器强化了图像生成单元的效果,从而提高了生成模型的生成效果。
端到端训练方法,也就是将两个模型(也就是文本描述生成单元和图像生成单元)连在一起训练。
可选的,客户端110从服务端120获取所述生成模型;客户端110获取初始图像,将所述初始图像输入预训练的生成模型,获取所述生成模型的所述文本描述生成单元输出的文本描述,作为所述初始图像对应的目标文本描述,获取所述生成模型的所述图像生成单元输出的图像,作为所述初始图像对应的目标图像。
在本申请应用于智能养老时,在智能服务宣传场景中,只需要将参考图像输入生成模型,即可得到准确的文本描述和相似图像。
其中,客户端110可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。下面通过具体的实施例对本发明进行详细的描述。
请参阅图2所示,图2为本发明实施例提供的基于图像的生成方法的一个流程示意图,包括如下步骤:
S1:获取初始图像;
具体而言,可以获取用户输入的初始图像,也可以从预设存储空间获取初始图像,还可以从第三方应用中获取初始图像。
初始图像,是一张电子图像。
S2:将所述初始图像输入预训练的生成模型,其中,所述生成模型依次包括:图像编码单元、文本描述生成单元和图像生成单元,所述生成模型是采用端到端训练方法对初始模型训练得到的模型,所述初始模型依次包括:所述图像编码单元、所述文本描述生成单元和所述图像生成单元,所述初始模型还包括第一判别器和第二判别器,所述文本描述生成单元的输出作为所述第一判别器的输入,所述图像编码单元的输出或所述图像生成单元的输出作为所述第二判别器的输入;
具体而言,将所述初始图像输入预训练的生成模型;生成模型的图像编码单元对初始图像进行图像的语义编码,得到图像特征向量;图像特征向量输入生成模型的文本描述生成单元,文本描述生成单元对图像特征向量进行文本解码,解码过程会生成图像的文本描述,该文本描述就是所述文本描述生成单元的输出;将文本描述生成单元的生成文本描述前的隐向量作为图像生成单元的输入,图像生成单元将根据文本描述生成单元的生成文本描述前的隐向量进行图像解码,以生成与所述初始图像相似的图像。
所述生成模型依次包括:图像编码单元、文本描述生成单元和图像生成单元,也就是说,图像编码单元的输出端与文本描述生成单元的输入端连接,文本描述生成单元的输出端与图像生成单元的输入端连接。
图像编码单元,用于对图像进行语义编码。
文本描述生成单元,用于对图像的语义编码进行文本解码。
图像生成单元,用于对文本的编码进行图像解码。
可选的,根据所述初始模型的文本描述生成单元的输出生成文本生成梯度,文本生成梯度用于至少更新文本描述生成单元;根据所述初始模型的图像生成单元的输出生成图像生成梯度,图像生成梯度用于至少更新文本描述生成单元和图像生成单元;根据第一判别器的输出得到文本判别梯度,文本判别梯度用于至少更新第一判别器和文本描述生成单元;根据第二判别器的输出得到图像判别梯度,图像判别梯度用于至少更新第二判别器和图像生成单元。
采用各个训练样本和采用端到端训练方法,对初始模型训练。训练样本包括:样本图像、文本描述标签和图像标签,文本描述标签是样本图像的文本描述的真实结果,图像标签是样本图像相似的图像的真实结果。
S3:获取所述生成模型的所述文本描述生成单元输出的文本描述,作为所述初始图像对应的目标文本描述;
目标文本描述,是对初始图像的语义进行描述的文本。
S4:获取所述生成模型的所述图像生成单元输出的图像,作为所述初始图像对应的目标图像。
目标图像,是与初始图像相似的图像。初始图像的语义和目标图像的语义相同。
本实施例所述生成模型依次包括:图像编码单元、文本描述生成单元和图像生成单元,所述生成模型是采用端到端训练方法对初始模型训练得到的模型,所述初始模型依次包括:所述图像编码单元、所述文本描述生成单元和所述图像生成单元,所述初始模型还包括第一判别器和第二判别器,所述文本描述生成单元的输出作为所述第一判别器的输入,所述图像编码单元的输出或所述图像生成单元的输出作为所述第二判别器的输入,实现了同时训练文本描述生成单元和图像生成单元,提高了训练效率,而且只需要针对文本描述生成单元准备训练数据,从而降低了训练成本;通过第一判别器强化了文本描述生成单元的生成效果,并且通过第二判别器强化了图像生成单元的效果,从而提高了生成模型的生成效果;通过将一张初始图像输入生成模型,即可得到用于描述初始图像的语义的目标文本描述,也得到了与初始图像的语义相同的相似图像(也就是目标图像),使本申请适用于需要同时生成文本描述和相似图像的场景。
在一个实施例中,所述将所述初始图像输入预训练的生成模型的步骤,包括:
S21:基于等尺寸的切割方法,对所述初始图像进行patches切割,得到多个子图像;
patches切割,又称为语义分割。
具体而言,基于等尺寸的切割方法,对所述初始图像进行patches切割,将切割出的每个图像区域作为一个子图像,可以理解的是各个子图像的尺寸(横向和纵向)相同。
S22:将各个所述子图像进行平铺处理,得到平铺图像;
具体而言,按从上到下,从左到右的方式,将各个所述子图像进行平铺处理,将平铺后的各个子图像,作为平铺图像。
S23:将所述平铺图像输入所述生成模型。
具体而言,将所述平铺图像输入所述生成模型,生成模型的图像编码单元对平铺图像进行图像的语义编码,得到图像特征向量。
本实施例通过基于等尺寸的切割方法,对所述初始图像进行patches切割,然后将切割得到的各个子图像进行平铺,将平铺的结果作为所述生成模型的输入,从而有利于图像编码单元准确的进行图像的语义编码。
在一个实施例中,所述图像编码单元采用ViT模型,用于对图像进行语义编码;
所述文本描述生成单元依次包括:文本解码器和处理子单元,所述文本解码器采用GRU模型,所述处理子单元采用带softmax激活函数的第一MLP层。
ViT模型,英文全称为Vision transformer,是将在NLP(Natural LanguageProcessing,自然语言处理)领域的基于自注意力机制transformer模型用于图像任务中,相比于图像任务中的传统的基于卷积神经网络模型,ViT模型在大数据集上有着比卷积网络更强的效果和更节约的成本。
transformer模型是用于自然语言处理的一个基于注意力机制的模型,该模型主要由解码器和编码器两部分组成。
GRU模型,是LSTM(Long-Short Term Memory)网络的一种效果很好的变体,它较LSTM网络的结构更加简单,而且效果也很好,因此也是当前非常流形的一种网络。GRU既然是LSTM的变体,因此也是可以解决RNN((Recurrent Neural Network)网络中的长依赖问题。
采用带softmax激活函数的第一MLP层,也就是说,第一MLP层是MLP层,第一MLP层中采用了softmax激活函数。
softmax激活函数,称为归一化函数,将一个数值向量归一化为一个概率分布向量,且各个概率之和为1。
MLP层,是多层感知机。多层感知机(MLP,Multilayer Perceptron)也叫人工神经网络(ANN,Artificial Neural Network),除了输入输出层,它中间可以有多个隐层,最简单的MLP只含一个隐层。
在文本解码器的GRU模型的每一个时刻会输出一个隐向量,也就是说,处理子单元在每个时刻都会生成一次词,这个词是通过隐向量(也就是文本解码器输出的隐向量)作为处理子单元的输入得到的。文本解码器输出的隐向量输入进处理子单元,处理子单元会输出一个生成词的概率分布,取概率最大的值作为生成的文本描述中的词。
在训练所述初始模型时,训练样本的样本图像输入所述初始模型,通过计算处理子单元输出的文本描述(也就是预测值)和真实文本(也就是训练样本中的文本描述标签)描述之间的交叉熵,得到文本生成损失值,根据文本生成损失值值计算文本生成梯度。
可以理解的是,根据文本生成损失值值计算文本生成梯度的具体方法可以从限于技术选择,在此不做赘述。
在一个实施例中,所述图像生成单元采用diffusion模型;
将所述文本描述生成单元的所述文本解码器的所有时刻的隐向量的拼接结果,作为所述图像生成单元的输入。
为了实现生成模型的端到端的可导性,不能直接使用所述文本描述生成单元生成的文本描述作为所述图像生成单元的输入,而是要用在所述文本描述生成单元生成文本描述之前的隐向量作为所述图像生成单元的输入,具体而言,将所述文本描述生成单元的所述文本解码器的所有时刻的隐向量进行首尾相连的拼接,将拼接得到的向量作为拼接结果,将拼接结果作为所述图像生成单元的输入。也就是说,拼接结果是文本的编码(也就是文本编码后的文本特征)。
diffusion模型,英文全称为Diffusion based model,中文名称为扩散模型,是深度生成模型中新的SOTA。扩散模型在图片生成任务中超越了原SOTA:GAN,并且在诸多应用领域都有出色的表现,如计算机视觉,NLP、波形信号处理、多模态建模、分子图建模、时间序列建模、对抗性净化等。此外,扩散模型与其他研究领域有着密切的联系,如稳健学习、表示学习、强化学习。
可选的,在本申请的另一个实施例中,所述图像生成单元采用其他图片序列解码器(sequence-to-sequence based model)。
在训练初始模型时,通过MSE(Mean Squared Error)损失函数,对所述图像生成单元输出的图像和真实图像(也就是训练样本中的图像标签)计算MSE损失值,根据所述图像生成单元本身估计加噪声的噪声值损失函数计算的噪声损失值,对MSE损失值和噪声损失值进行加权求和,得到图像生成损失值,根据图像生成损失值计算图像生成梯度。
可以理解的是,根据图像生成损失值计算图像生成梯度的方法步骤可以从现有技术选择,在此不做限定。
扩散模型的灵感来自非平衡热力学。扩散模型定义了一个扩散的马尔可夫链,并缓慢地将随机噪声添加到数据中,然后学习反扩散过程以从噪声中构建所需的数据样本。因此,根据所述图像生成单元本身估计加噪声的噪声值损失函数计算的噪声损失值的方法步骤可以从现有技术选择,在此不做赘述。
在一个实施例中,所述第一判别器依次包括第二MLP层和sigmoid激活层;
将所述文本描述生成单元的所述文本解码器的所有时刻的隐向量的拼接结果作为所述第一判别器的输入。
第二MLP层采用MLP层。sigmoid激活层是采用sigmoid激活函数的网络层。
所述第一判别器用于判别文本是否真实。在所述文本描述生成单元生成文本描述的所有词的那一时刻的隐向量作为所述第一判别器的输入,也就是将所述文本描述生成单元的所述文本解码器的所有时刻的隐向量的拼接结果作为所述第一判别器的输入。所述第一判别器将输出一个0到1的数(可以为0,可以为1,也可以是0到1之间的小数),所述第一判别器输出的值越大,输入所述第一判别器的文本特征(拼接结果)对应的文本为真实的可能性越大。
其中,采用交叉熵损失函数,根据所述第一判别器的输出和真实值0(也就是说,0表述虚假或不真实)之间计算损失值,作为文本判别损失值,根据文本判别损失值计算文本判别梯度。
可以理解的是,根据文本判别损失值计算文本判别梯度的方法步骤可以从现有技术中选择,在此不做赘述。
在一个实施例中,所述第二判别器依次包括第三MLP层、第四MLP层和sigmoid激活层;
将所述图像编码单元的输出作为所述第二判别器的输入;
将所述图像生成单元的隐层向量作为所述第二判别器的输入。
第三MLP层采用MLP层,第四MLP层采用MLP层。sigmoid激活层是采用sigmoid激活函数的网络层。
所述第二判别器的参数初始化为随机值,然后进行训练。
所述图像生成单元的隐层向量,是所述图像生成单元的生成图像前的隐层向量。
在训练初始模型时,所述第二判别器将输出一个0到1的数(可以为0,可以为1,也可以是0到1之间的小数),所述第二判别器输出的值越大,输入所述第二判别器的特征对应的图像为真实的可能性越大。
基于交叉熵损失函数,根据所述第二判别器根据所述图像编码单元的输出的预测值和1(也就是说,1表述真实)计算损失值,作为第一损失值;基于交叉熵损失函数,根据所述第二判别器根据所述图像生成单元的隐层向量的预测值和0(0就是真实值)计算损失值,作为第二损失值。根据第一损失值和/或第二损失值,确定图像判别损失值,根据图像判别损失值计算图像判别梯度。
可以理解的是,根据图像判别损失值计算图像判别梯度的方法步骤可以从现有技术中选择,在此不做赘述。
当根据第一损失值和第二损失值,确定图像判别损失值时,对第一损失值和第二损失值进行加权求和,得到所述图像判别损失值。
在一个实施例中,在采用端到端训练方法对初始模型训练时,基于所述文本描述生成单元的输出生成的文本生成梯度,所述文本生成梯度用于更新所述初始模型的所述图像编码单元及所述文本描述生成单元;
基于所述图像生成单元的输出生成图像生成梯度,所述图像生成梯度用于更新所述初始模型的所述图像编码单元、所述文本描述生成单元及所述图像生成单元;
基于所述第一判别器的输出生成文本判别梯度,所述文本判别梯度用于更新所述初始模型的所述图像编码单元、所述文本描述生成单元及所述第一判别器;
基于所述第二判别器的输出图像判别梯度,所述图像判别梯度用于更新所述初始模型的所述图像编码单元、所述文本描述生成单元、所述图像生成单元及所述第二判别器。
在本申请的另一个实施例中,基于所述第一判别器的输出生成文本判别梯度,所述文本判别梯度用于更新所述初始模型的所述图像编码单元、所述文本描述生成单元及所述第一判别器,基于所述第二判别器的输出图像判别梯度,所述图像判别梯度用于更新所述初始模型的所述图像编码单元、所述文本描述生成单元、所述图像生成单元及所述第二判别器替换为,基于所述第一判别器的输出计算损失值,基于所述第二判别器的输出图像计算损失值,将两个损失值进行加权求和,根据加权求和得到的数据计算梯度,得到总判别梯度,根据总判别梯度更新整个所述初始模型。
本实施例通过文本生成梯度更新所述初始模型的所述图像编码单元及所述文本描述生成单元,通过图像生成梯度更新所述初始模型的所述图像编码单元、所述文本描述生成单元及所述图像生成单元,通过文本判别梯度更新所述初始模型的所述图像编码单元、所述文本描述生成单元及所述第一判别器,通过图像判别梯度更新所述初始模型的所述图像编码单元、所述文本描述生成单元、所述图像生成单元及所述第二判别器,从而实现了多任务联合训练的模型更新,提高了生成模型的生成效果,提高了训练效率,而且只需要针对文本描述生成单元准备训练数据,从而降低了训练成本。
在一个实施例中,所述初始模型还包括:文本编码单元,所述初始模型的所述文本描述生成单元的输出作为所述初始模型的所述文本编码单元的输入,所述初始模型的所述文本编码单元的输出作为所述图像生成单元的输入;
在采用端到端训练方法对所述初始模型训练之后,断开所述初始模型的所述文本描述生成单元与所述初始模型的所述文本编码单元的连接,将所述初始模型的所述图像编码单元、所述文本描述生成单元、所述图像生成单元和所述文本编码单元作为所述生成模型。
可选的,所述文本编码单元采用GRU模型。
可以理解的是,在采用端到端训练方法对所述初始模型训练时,所述文本描述生成单元的所述文本解码器的所有时刻的隐向量的拼接结果可以作为所述图像生成单元的输入,也可以不作为所述图像生成单元的输入。
在采用端到端训练方法对所述初始模型训练时,在所述文本描述生成单元的所述文本解码器的所有时刻的隐向量的拼接结果作为所述图像生成单元的输入的情况下,所述文本描述生成单元的所述文本解码器的所有时刻的隐向量的拼接结果、所述初始模型的所述文本编码单元的输出,作为两次独立的训练。
通过在训练所述初始模型时,将所述初始模型的所述文本描述生成单元的输出的文本描述作为所述初始模型的所述文本编码单元的输入,从而不需要针对文本编码单元重新准备训练数据,节约了训练成本。
可以理解的是,在所述生成模型包含所述文本编码单元时,用户输入初始文本;将初始文本输入所述生成模型的所述文本编码单元,所述生成模型的所述图像生成单元将输入生成的图像,该图像为初始文本对应的图像描述。从而提高了所述生成模型在应用阶段的灵活性。
请参阅图3所示,在一实施例中,提供一种基于图像的生成装置,所述装置包括:
数据获取模块801,用于获取初始图像;
生成模块802,用于将所述初始图像输入预训练的生成模型,其中,所述生成模型依次包括:图像编码单元、文本描述生成单元和图像生成单元,所述生成模型是采用端到端训练方法对初始模型训练得到的模型,所述初始模型依次包括:所述图像编码单元、所述文本描述生成单元和所述图像生成单元,所述初始模型还包括第一判别器和第二判别器,所述文本描述生成单元的输出作为所述第一判别器的输入,所述图像编码单元的输出或所述图像生成单元的输出作为所述第二判别器的输入;
目标文本描述确定模块803,用于获取所述生成模型的所述文本描述生成单元输出的文本描述,作为所述初始图像对应的目标文本描述;
目标图像确定模块804,用于获取所述生成模型的所述图像生成单元输出的图像,作为所述初始图像对应的目标图像。
本实施例所述生成模型依次包括:图像编码单元、文本描述生成单元和图像生成单元,所述生成模型是采用端到端训练方法对初始模型训练得到的模型,所述初始模型依次包括:所述图像编码单元、所述文本描述生成单元和所述图像生成单元,所述初始模型还包括第一判别器和第二判别器,所述文本描述生成单元的输出作为所述第一判别器的输入,所述图像编码单元的输出或所述图像生成单元的输出作为所述第二判别器的输入,实现了同时训练文本描述生成单元和图像生成单元,提高了训练效率,而且只需要针对文本描述生成单元准备训练数据,从而降低了训练成本;通过第一判别器强化了文本描述生成单元的生成效果,并且通过第二判别器强化了图像生成单元的效果,从而提高了生成模型的生成效果;通过将一张初始图像输入生成模型,即可得到用于描述初始图像的语义的目标文本描述,也得到了与初始图像的语义相同的相似图像(也就是目标图像),使本申请适用于需要同时生成文本描述和相似图像的场景。
在一个实施例中,所述生成模块802的所述将所述初始图像输入预训练的生成模型的步骤,包括:
基于等尺寸的切割方法,对所述初始图像进行patches切割,得到多个子图像;
将各个所述子图像进行平铺处理,得到平铺图像;
将所述平铺图像输入所述生成模型。
在一个实施例中,所述图像编码单元采用ViT模型,用于对图像进行语义编码;
所述文本描述生成单元依次包括:文本解码器和处理子单元,所述文本解码器采用GRU模型,所述处理子单元采用带softmax激活函数的第一MLP层。
在一个实施例中,所述图像生成单元采用diffusion模型;
将所述文本描述生成单元的所述文本解码器的所有时刻的隐向量的拼接结果,作为所述图像生成单元的输入。
在一个实施例中,所述第一判别器依次包括第二MLP层和sigmoid激活层;
将所述文本描述生成单元的所述文本解码器的所有时刻的隐向量的拼接结果作为所述第一判别器的输入。
在一个实施例中,所述第二判别器依次包括第三MLP层、第四MLP层和sigmoid激活层;
将所述图像编码单元的输出作为所述第二判别器的输入;
将所述图像生成单元的隐层向量作为所述第二判别器的输入。
在一个实施例中,在采用端到端训练方法对初始模型训练时,基于所述文本描述生成单元的输出生成的文本生成梯度,所述文本生成梯度用于更新所述初始模型的所述图像编码单元及所述文本描述生成单元;
基于所述图像生成单元的输出生成图像生成梯度,所述图像生成梯度用于更新所述初始模型的所述图像编码单元、所述文本描述生成单元及所述图像生成单元;
基于所述第一判别器的输出生成文本判别梯度,所述文本判别梯度用于更新所述初始模型的所述图像编码单元、所述文本描述生成单元及所述第一判别器;
基于所述第二判别器的输出图像判别梯度,所述图像判别梯度用于更新所述初始模型的所述图像编码单元、所述文本描述生成单元、所述图像生成单元及所述第二判别器。
在一个实施例中,所述初始模型还包括:文本编码单元,所述初始模型的所述文本描述生成单元的输出作为所述初始模型的所述文本编码单元的输入,所述初始模型的所述文本编码单元的输出作为所述图像生成单元的输入;
在采用端到端训练方法对所述初始模型训练之后,断开所述初始模型的所述文本描述生成单元与所述初始模型的所述文本编码单元的连接,将所述初始模型的所述图像编码单元、所述文本描述生成单元、所述图像生成单元和所述文本编码单元作为所述生成模型。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于图像的生成方法服务端侧的功能或步骤。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是客户端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种基于图像的生成方法客户端侧的功能或步骤。
在一个实施例中,提出了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取初始图像;
将所述初始图像输入预训练的生成模型,其中,所述生成模型依次包括:图像编码单元、文本描述生成单元和图像生成单元,所述生成模型是采用端到端训练方法对初始模型训练得到的模型,所述初始模型依次包括:所述图像编码单元、所述文本描述生成单元和所述图像生成单元,所述初始模型还包括第一判别器和第二判别器,所述文本描述生成单元的输出作为所述第一判别器的输入,所述图像编码单元的输出或所述图像生成单元的输出作为所述第二判别器的输入;
获取所述生成模型的所述文本描述生成单元输出的文本描述,作为所述初始图像对应的目标文本描述;
获取所述生成模型的所述图像生成单元输出的图像,作为所述初始图像对应的目标图像。
本实施例所述生成模型依次包括:图像编码单元、文本描述生成单元和图像生成单元,所述生成模型是采用端到端训练方法对初始模型训练得到的模型,所述初始模型依次包括:所述图像编码单元、所述文本描述生成单元和所述图像生成单元,所述初始模型还包括第一判别器和第二判别器,所述文本描述生成单元的输出作为所述第一判别器的输入,所述图像编码单元的输出或所述图像生成单元的输出作为所述第二判别器的输入,实现了同时训练文本描述生成单元和图像生成单元,提高了训练效率,而且只需要针对文本描述生成单元准备训练数据,从而降低了训练成本;通过第一判别器强化了文本描述生成单元的生成效果,并且通过第二判别器强化了图像生成单元的效果,从而提高了生成模型的生成效果;通过将一张初始图像输入生成模型,即可得到用于描述初始图像的语义的目标文本描述,也得到了与初始图像的语义相同的相似图像(也就是目标图像),使本申请适用于需要同时生成文本描述和相似图像的场景。
在一个实施例中,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取初始图像;
将所述初始图像输入预训练的生成模型,其中,所述生成模型依次包括:图像编码单元、文本描述生成单元和图像生成单元,所述生成模型是采用端到端训练方法对初始模型训练得到的模型,所述初始模型依次包括:所述图像编码单元、所述文本描述生成单元和所述图像生成单元,所述初始模型还包括第一判别器和第二判别器,所述文本描述生成单元的输出作为所述第一判别器的输入,所述图像编码单元的输出或所述图像生成单元的输出作为所述第二判别器的输入;
获取所述生成模型的所述文本描述生成单元输出的文本描述,作为所述初始图像对应的目标文本描述;
获取所述生成模型的所述图像生成单元输出的图像,作为所述初始图像对应的目标图像。
本实施例所述生成模型依次包括:图像编码单元、文本描述生成单元和图像生成单元,所述生成模型是采用端到端训练方法对初始模型训练得到的模型,所述初始模型依次包括:所述图像编码单元、所述文本描述生成单元和所述图像生成单元,所述初始模型还包括第一判别器和第二判别器,所述文本描述生成单元的输出作为所述第一判别器的输入,所述图像编码单元的输出或所述图像生成单元的输出作为所述第二判别器的输入,实现了同时训练文本描述生成单元和图像生成单元,提高了训练效率,而且只需要针对文本描述生成单元准备训练数据,从而降低了训练成本;通过第一判别器强化了文本描述生成单元的生成效果,并且通过第二判别器强化了图像生成单元的效果,从而提高了生成模型的生成效果;通过将一张初始图像输入生成模型,即可得到用于描述初始图像的语义的目标文本描述,也得到了与初始图像的语义相同的相似图像(也就是目标图像),使本申请适用于需要同时生成文本描述和相似图像的场景。
需要说明的是,上述关于计算机可读存储介质或计算机设备所能实现的功能或步骤,可对应参阅前述方法实施例中,服务端侧以及客户端侧的相关描述,为避免重复,这里不再一一描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于图像的生成方法,所述方法包括:
获取初始图像;
将所述初始图像输入预训练的生成模型,其中,所述生成模型依次包括:图像编码单元、文本描述生成单元和图像生成单元,所述生成模型是采用端到端训练方法对初始模型训练得到的模型,所述初始模型依次包括:所述图像编码单元、所述文本描述生成单元和所述图像生成单元,所述初始模型还包括第一判别器和第二判别器,所述文本描述生成单元的输出作为所述第一判别器的输入,所述图像编码单元的输出或所述图像生成单元的输出作为所述第二判别器的输入;
获取所述生成模型的所述文本描述生成单元输出的文本描述,作为所述初始图像对应的目标文本描述;
获取所述生成模型的所述图像生成单元输出的图像,作为所述初始图像对应的目标图像。
2.根据权利要求1所述的基于图像的生成方法,其特征在于,所述将所述初始图像输入预训练的生成模型的步骤,包括:
基于等尺寸的切割方法,对所述初始图像进行patches切割,得到多个子图像;
将各个所述子图像进行平铺处理,得到平铺图像;
将所述平铺图像输入所述生成模型。
3.根据权利要求1所述的基于图像的生成方法,其特征在于,所述图像编码单元采用ViT模型,用于对图像进行语义编码;
所述文本描述生成单元依次包括:文本解码器和处理子单元,所述文本解码器采用GRU模型,所述处理子单元采用带softmax激活函数的第一MLP层。
4.根据权利要求3所述的基于图像的生成方法,其特征在于,所述图像生成单元采用diffusion模型;
将所述文本描述生成单元的所述文本解码器的所有时刻的隐向量的拼接结果,作为所述图像生成单元的输入。
5.根据权利要求1所述的基于图像的生成方法,其特征在于,所述第一判别器依次包括第二MLP层和sigmoid激活层;
将所述文本描述生成单元的所述文本解码器的所有时刻的隐向量的拼接结果作为所述第一判别器的输入;
所述第二判别器依次包括第三MLP层、第四MLP层和sigmoid激活层;
将所述图像编码单元的输出作为所述第二判别器的输入;
将所述图像生成单元的隐层向量作为所述第二判别器的输入。
6.根据权利要求1所述的基于图像的生成方法,其特征在于,在采用端到端训练方法对初始模型训练时,基于所述文本描述生成单元的输出生成的文本生成梯度,所述文本生成梯度用于更新所述初始模型的所述图像编码单元及所述文本描述生成单元;
基于所述图像生成单元的输出生成图像生成梯度,所述图像生成梯度用于更新所述初始模型的所述图像编码单元、所述文本描述生成单元及所述图像生成单元;
基于所述第一判别器的输出生成文本判别梯度,所述文本判别梯度用于更新所述初始模型的所述图像编码单元、所述文本描述生成单元及所述第一判别器;
基于所述第二判别器的输出图像判别梯度,所述图像判别梯度用于更新所述初始模型的所述图像编码单元、所述文本描述生成单元、所述图像生成单元及所述第二判别器。
7.根据权利要求1所述的基于图像的生成方法,其特征在于,所述初始模型还包括:文本编码单元,所述初始模型的所述文本描述生成单元的输出作为所述初始模型的所述文本编码单元的输入,所述初始模型的所述文本编码单元的输出作为所述图像生成单元的输入;
在采用端到端训练方法对所述初始模型训练之后,断开所述初始模型的所述文本描述生成单元与所述初始模型的所述文本编码单元的连接,将所述初始模型的所述图像编码单元、所述文本描述生成单元、所述图像生成单元和所述文本编码单元作为所述生成模型。
8.一种基于图像的生成装置,其特征在于,所述装置包括:
数据获取模块,用于获取初始图像;
生成模块,用于将所述初始图像输入预训练的生成模型,其中,所述生成模型依次包括:图像编码单元、文本描述生成单元和图像生成单元,所述生成模型是采用端到端训练方法对初始模型训练得到的模型,所述初始模型依次包括:所述图像编码单元、所述文本描述生成单元和所述图像生成单元,所述初始模型还包括第一判别器和第二判别器,所述文本描述生成单元的输出作为所述第一判别器的输入,所述图像编码单元的输出或所述图像生成单元的输出作为所述第二判别器的输入;
目标文本描述确定模块,用于获取所述生成模型的所述文本描述生成单元输出的文本描述,作为所述初始图像对应的目标文本描述;
目标图像确定模块,用于获取所述生成模型的所述图像生成单元输出的图像,作为所述初始图像对应的目标图像。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于图像的生成方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于图像的生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311521058.6A CN117671680A (zh) | 2023-11-14 | 2023-11-14 | 基于图像的生成方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311521058.6A CN117671680A (zh) | 2023-11-14 | 2023-11-14 | 基于图像的生成方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117671680A true CN117671680A (zh) | 2024-03-08 |
Family
ID=90077999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311521058.6A Pending CN117671680A (zh) | 2023-11-14 | 2023-11-14 | 基于图像的生成方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117671680A (zh) |
-
2023
- 2023-11-14 CN CN202311521058.6A patent/CN117671680A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598779B (zh) | 摘要描述生成方法、装置、计算机设备和存储介质 | |
CN109891897B (zh) | 用于分析媒体内容的方法 | |
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
KR101880907B1 (ko) | 비정상 세션 감지 방법 | |
US20190130212A1 (en) | Deep Network Embedding with Adversarial Regularization | |
CN110188775B (zh) | 一种基于联合神经网络模型的图像内容描述自动生成方法 | |
CN116415654A (zh) | 一种数据处理方法及相关设备 | |
US11776269B2 (en) | Action classification in video clips using attention-based neural networks | |
AU2021354030B2 (en) | Processing images using self-attention based neural networks | |
EP4287144A1 (en) | Video behavior recognition method and apparatus, and computer device and storage medium | |
WO2023134082A1 (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
US20230260324A1 (en) | Capturing digital images utilizing a machine learning model trained to determine subtle pose differentiations | |
CN114299304B (zh) | 一种图像处理方法及相关设备 | |
CN115292439A (zh) | 一种数据处理方法及相关设备 | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
Li et al. | Holoparser: Holistic visual parsing for real-time semantic segmentation in autonomous driving | |
CN116484224A (zh) | 一种多模态预训练模型的训练方法、装置、介质及设备 | |
CN117671680A (zh) | 基于图像的生成方法、装置、设备及介质 | |
CN113779244A (zh) | 文档情感分类方法、装置、存储介质以及电子设备 | |
CN113569867A (zh) | 一种图像处理方法、装置、计算机设备及存储介质 | |
CN112967309A (zh) | 一种基于自监督学习的视频目标分割方法 | |
CN113128180A (zh) | 文本生成方法和设备 | |
Savitha et al. | Deep learning-based face hallucination: a survey | |
CN110457700B (zh) | 短文本描述方法和装置 | |
CN117729391A (zh) | 一种视频分割方法、装置、计算机设备、介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |