CN117893626A - 图像生成方法及装置 - Google Patents
图像生成方法及装置 Download PDFInfo
- Publication number
- CN117893626A CN117893626A CN202311723226.XA CN202311723226A CN117893626A CN 117893626 A CN117893626 A CN 117893626A CN 202311723226 A CN202311723226 A CN 202311723226A CN 117893626 A CN117893626 A CN 117893626A
- Authority
- CN
- China
- Prior art keywords
- data
- resolution
- identified
- feature vector
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 239000013598 vector Substances 0.000 claims abstract description 258
- 238000005070 sampling Methods 0.000 claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims description 96
- 238000012545 processing Methods 0.000 claims description 94
- 238000012549 training Methods 0.000 claims description 86
- 238000009792 diffusion process Methods 0.000 claims description 85
- 230000010354 integration Effects 0.000 claims description 23
- 238000003708 edge detection Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 17
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本公开涉及图像生成技术领域,提供了一种图像生成方法及装置。该方法包括:获取待识别对象的数据,将待识别对象的数据进行特征提取,得到待识别对象的数据对应的嵌入特征向量;对待识别对象的数据对应的嵌入特征向量进行采样重建,得到待识别对象的数据对应的第一分辨率图像;根据待识别对象的数据对应的第一分辨率图像和待识别对象的数据对应的嵌入特征向量,确定待识别对象的数据对应的第二分辨率图像;根据待识别对象的数据对应的嵌入特征向量和待识别对象的数据对应的第二分辨率图像,确定待识别对象的数据对应的第三分辨率图像。本公开可以解决现有技术中图像生成方法的精度不足,导致无法生成更高清晰度图片的问题。
Description
技术领域
本公开涉及图像生成技术领域,尤其涉及一种图像生成方法及装置。
背景技术
目前大型文本到图像的扩散模型主要是基于深度学习算法和生成对抗网络的技术。这些模型通常包括一个文本编码器和一个图像解码器,其中文本编码器将输入文本转换为潜在向量,图像解码器则将潜在向量转换为图像,在扩散模型中,通常使用循环神经网络或变换器作为文本编码器,将输入文本序列转换为潜在向量。然后,这个潜在向量被送入一个生成对抗网络中,与图像解码器一起生成图像,但这种方式在更高清晰度或者更大尺寸图片的生成精度上还不能完全满足需求。
在现有技术中,通常将外部模型的输出作为引导条件来指导扩散模型的去噪过程,但这一方法会减少图像生成过程中的像素点,降低图像生成的清晰程度。可见,现有技术中存在图像生成方法的精度不足,导致无法生成更高清晰度图片的问题。
发明内容
有鉴于此,本公开实施例提供了一种图像生成方法及装置,以解决现有技术中图像生成方法的精度不足,导致无法生成更高清晰度图片的问题。
本公开实施例的第一方面,提供了一种图像生成方法,包括:获取待识别对象的数据,将待识别对象的数据进行特征提取,得到待识别对象的数据对应的嵌入特征向量,待识别对象的数据包含文本数据或图像数据;将待识别对象的数据输入至图像生成模型,对待识别对象的数据对应的嵌入特征向量进行采样重建,得到待识别对象的数据对应的第一分辨率图像,图像生成模型是基于历史文本数据、和/或历史图像数据训练的;根据待识别对象的数据对应的第一分辨率图像和待识别对象的数据对应的嵌入特征向量,确定待识别对象的数据对应的第二分辨率图像,其中,第一分辨率小于第二分辨率;根据待识别对象的数据对应的嵌入特征向量和待识别对象的数据对应的第二分辨率图像,确定待识别对象的数据对应的第三分辨率图像,其中,第二分辨率小于第三分辨率。
本公开实施例的第二方面,提供了一种图像生成装置,包括:获取模块,用于获取待识别对象的数据,将待识别对象的数据进行特征提取,得到待识别对象的数据对应的嵌入特征向量,待识别对象的数据包含文本数据或图像数据;处理模块,用于将待识别对象的数据输入至图像生成模型,对待识别对象的数据对应的嵌入特征向量进行采样重建,得到待识别对象的数据对应的第一分辨率图像,图像生成模型是基于历史文本数据、和/或历史图像数据训练的;第一确定模块,用于根据待识别对象的数据对应的第一分辨率图像和待识别对象的数据对应的嵌入特征向量,确定待识别对象的数据对应的第二分辨率图像,其中,第一分辨率小于第二分辨率;第二确定模块,用于根据待识别对象的数据对应的嵌入特征向量和待识别对象的数据对应的第二分辨率图像,确定待识别对象的数据对应的第三分辨率图像,其中,第二分辨率小于第三分辨率。
本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本公开实施例的第四方面,提供了一种可读存储介质,该可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本公开实施例与现有技术相比存在的有益效果是:通过获取待识别对象的数据,并对其进行特征提取,得到对应的嵌入特征向量,将待识别对象的数据输入至图像生成模型中,通过图像生成模型对待识别对象的数据对应的嵌入特征向量进行采样重建,生成待识别对象的数据对应的第一分辨率图像,第一分辨率图像结合待识别对象的数据对应的嵌入特征向量,处理得到待识别对象的数据对应的第二分辨率图像,再将待识别对象的数据对应的嵌入特征向量和待识别对象的数据对应的第二分辨率图像进行处理得到待识别对象的数据对应的第三分辨率图像,第三分辨率图像即为该图像生成方法得到的目标图像,以此通过多种分辨率特征向量融合和特征提取的方法,实现多模态图像生成,提升了图像生成的清晰程度,通过多级分辨率提高了生成图像的分辨率,保证了生成图像的细节,增强了图像生成结果的精度。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本公开实施例的应用场景的场景示意图;
图2是本公开实施例提供的图像生成方法的流程示意图;
图3是本公开实施例提供的一种应用场景的流程示意图;
图4是本公开实施例提供的一种图像生成装置的结构示意图;
图5是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
下面将结合附图详细说明根据本公开实施例的一种图像生成方法和装置。
图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括终端设备1、2和3、服务器4以及网络5。
终端设备1、2和3可以是硬件,也可以是软件。当终端设备1、2和3为硬件时,其可以是具有显示屏且支持与服务器4通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当终端设备1、2和3为软件时,其可以安装在如上的电子设备中。终端设备1、2和3可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本公开实施例对此不作限制。进一步地,终端设备1、2和3上可以安装有各种应用,例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。
服务器4可以是提供各种服务的服务器,例如,对与其建立通信连接的终端设备发送的请求进行接收的后台服务器,该后台服务器可以对终端设备发送的请求进行接收和分析等处理,并生成处理结果。服务器4可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者还可以是一个云计算服务中心,本公开实施例对此不作限制。
需要说明的是,服务器4可以是硬件,也可以是软件。当服务器4为硬件时,其可以是为终端设备1、2和3提供各种服务的各种电子设备。当服务器4为软件时,其可以是为终端设备1、2和3提供各种服务的多个软件或软件模块,也可以是为终端设备1、2和3提供各种服务的单个软件或软件模块,本公开实施例对此不作限制。
网络5可以是采用同轴电缆、双绞线和光纤连接的有线网络,也可以是无需布线就能实现各种通信设备互联的无线网络,例如,蓝牙(Bluetooth)、近场通信(Near FieldCommunication,NFC)、红外(Infrared)等,本公开实施例对此不作限制。
用户可以通过终端设备1、2和3经由网络5与服务器4建立通信连接,以接收或发送信息等。具体地,服务器4可以从终端设备1、2或3获取待识别对象的数据,并对其进行特征提取,得到对应的嵌入特征向量,将待识别对象的数据输入至图像生成模型中,通过图像生成模型对待识别对象的数据对应的嵌入特征向量进行采样重建,生成待识别对象的数据对应的第一分辨率图像,第一分辨率图像结合待识别对象的数据对应的嵌入特征向量,处理得到待识别对象的数据对应的第二分辨率图像,再将待识别对象的数据对应的嵌入特征向量和待识别对象的数据对应的第二分辨率图像进行处理得到待识别对象的数据对应的第三分辨率图像,第三分辨率图像即为该图像生成方法得到的目标图像。
需要说明的是,终端设备1、2和3、服务器4以及网络5的具体类型、数量和组合可以根据应用场景的实际需求进行调整,本公开实施例对此不作限制。
图2是本公开实施例提供的一种图像生成方法的流程示意图。图2的图像生成方法可以由图1的服务器执行。如图2所示,该图像生成方法包括:
步骤201,获取待识别对象的数据,将待识别对象的数据进行特征提取,得到待识别对象的数据对应的嵌入特征向量,待识别对象的数据包含文本数据或图像数据。
具体的,待识别对象的数据可以是该图像生成模型的输入数据,包括但不限于文本数据、和/或图像数据等,例如,作为一个示例,待识别对象可以是内容为“一个苹果”的文本信息,则待识别对象的数据,即为“一个苹果”文本对应的数据,或者待识别对象可以是图片1,则待识别对象的数据即为图片1对应的数据,再或者,待识别对象可以是内容为“一个苹果”的文本信息和图片1,则待识别对象的数据即为包含“一个苹果”文本对应的数据和图片1对应的数据的整体。
嵌入特征向量可以是由输入数据转换而来的低维空间向量,可以转换文本或者图片等形式的输入数据,在本公开实施例中,上述图像生成模型中可以包含文本到文本传输转换(Text-to-Text Transfer Transformer,T5)模型和对比语言-图像预训练(Contrastive Language-Image Pre-training,CLIP)模型,例如,作为一个示例,将“一个苹果”输入T5模型和CLIP模型中,得到对应的文本嵌入特征,用于获取全局构图能力和提升单个对象生成的准确率,以此增大了该图像生成模型输入数据的可取范围,降低了对输入数据形式的限制,增大了该图像生成方法的泛用性。
图片数据可以通过CLIP模型转换得到,例如,作为一个示例,将图片1输入到CLIP模型中,得到图片嵌入特征,用于后续该图片生成模型的条件输入。
步骤202,将待识别对象的数据输入至图像生成模型,对待识别对象的数据对应的嵌入特征向量进行采样重建,得到待识别对象的数据对应的第一分辨率图像,图像生成模型是基于历史文本数据、和/或历史图像数据训练的。
具体的,图像生成模型可以用于将输入数据转换并生成图片,该图片生成模型是基于历史文本数据、和/或历史图像数据训练的,具体的训练过程可以参考图3实施例的相关描述。
待识别对象的数据对应的第一分辨率图像可以是由待识别对象的数据对应的嵌入特征向量进行采样重建得到,在本公开实施例中,上述图像生成模型中还可以包括包含U-Net的基础扩散模型,待识别对象的数据对应的第一分辨率图像可通过基于包含U-Net的基础扩散模型生成得到,例如,作为一个示例,采用包含U-Net的基础扩散模型,输入是分辨率为1024*1024的图片对应的嵌入特征向量,通过采样重建生成256*256为分辨率的图片,以此通过分层级的图片生成,提升了图片生成的精确性,保证了图片细节的丰富度,增强了图片生成效果。
历史文本数据和历史图像数据可以用于通过训练提升该图片生成模型图片生成结果的精度,其中,每个训练样本均包含历史文本数据和历史图像数据。
步骤203,根据待识别对象的数据对应的第一分辨率图像和待识别对象的数据对应的嵌入特征向量,确定待识别对象的数据对应的第二分辨率图像,其中,第一分辨率小于第二分辨率。
具体的,在本公开实施例中,上述图像生成模型中还可以包括基于Efficient U-Net模型的扩散模型和转换器模型,待识别对象的数据对应的第二分辨率图像可以是由待识别对象的数据对应的第一分辨率图像和待识别对象的数据对应的嵌入特征向量通过基于Efficient U-Net模型的扩散模型、转换器模型以及包含U-Net的基础扩散模型生成得到,例如,作为一个示例,输入是分辨率为1024*1024的图片所对应的嵌入特征向量和分辨率为256*256的图片,通过基于Efficient U-Net模型的扩散模型、转换器模型以及包含U-Net的基础扩散模型生成得到分辨率为512*512的图片。
第一分辨率小于第二分辨率,例如,第一分辨率可以为256*256,第二分辨率比第一分辨率大,则第二分辨率可以为512*512,用于表示不同分辨率下,对应图片的层级关系,以此通过增加图片的生成层级,提升了图片生成的精度,保证了图片细节的丰富度,增强了图片生成清晰度。
步骤204,根据待识别对象的数据对应的嵌入特征向量和待识别对象的数据对应的第二分辨率图像,确定待识别对象的数据对应的第三分辨率图像,其中,第二分辨率小于第三分辨率。
具体的,待识别对象的数据对应的第三分辨率图像可以是由待识别对象的数据对应的第二分辨率图像和待识别对象的数据对应的嵌入特征向量通过基于Efficient U-Net模型的扩散模型、转换器模型以及包含U-Net的基础扩散模型生成得到,例如,作为一个示例,输入是分辨率为256*256的图片所对应的嵌入特征向量和分辨率为512*512的图片,通过基于Efficient U-Net模型的扩散模型、转换器模型以及包含U-Net的基础扩散模型生成得到分辨率为1024*1024的图片。
第二分辨率小于第三分辨率,例如,第二分辨率可以为512*512,第三分辨率比第二分辨率大,则第三分辨率可以为1024*1024,用于表示不同分辨率下,对应图片的层级关系以此通过增加图片的生成层级,提升了图片生成的精度,提高了图片细节的保留程度,提升了图片的分辨率。
根据本公开实施例提供的技术方案,通过获取待识别对象的数据,并对其进行特征提取,得到对应的嵌入特征向量,将待识别对象的数据输入至图像生成模型中,通过图像生成模型对待识别对象的数据对应的嵌入特征向量进行采样重建,生成待识别对象的数据对应的第一分辨率图像,第一分辨率图像结合待识别对象的数据对应的嵌入特征向量,处理得到待识别对象的数据对应的第二分辨率图像,再将待识别对象的数据对应的嵌入特征向量和待识别对象的数据对应的第二分辨率图像进行处理得到待识别对象的数据对应的第三分辨率图像,第三分辨率图像即为该图像生成方法得到的目标图像,以此通过多级分辨率特征向量融合和特征提取的方法,实现多模态图像生成,提升了图像生成的清晰程度,通过多种分辨率的多步扩散处理,提高了生成图像的分辨率,保证了生成图像的细节,增强了图像生成结果的精度。
在一些实施例中,根据待识别对象的数据对应的第一分辨率图像以及待识别对象的数据对应的嵌入特征向量,确定待识别对象的数据对应的第二分辨率图像,包括:对待识别对象的数据对应的第一分辨率图像和待识别对象的数据对应的嵌入特征向量进行编码,并对编码结果进行解码,得到待识别对象的数据对应的第二分辨率超分扩散图像;对嵌入特征向量上采样后进行采样重建,得到嵌入特征向量对应的第一上采样特征向量;对嵌入特征向量对应的第一上采样特征向量进行编码,并对编码结果进行解码,得到待识别对象的数据对应的第二分辨率基础扩散图像;对待识别对象的数据对应的第二分辨率超分扩散图像和待识别对象的数据对应的第二分辨率基础扩散图像进行加权平均,得到待识别对象的数据对应的第二分辨率图像。
具体的,第二分辨率超分扩散图像可以是通过基于Efficient U-Net模型的扩散模型先通过Efficient U-Net模型进行特征提取,然后将提取的特征输入到扩散模型中,进行去噪和超分辨率处理生成的图像,进而完成从编码到解码的整体过程,例如,作为一个示例,将分辨率为256*256的图片和嵌入特征向量输入至基于Efficient U-Net模型的扩散模型中,通过编码及解码处理生成分辨率为512*512的图片。
第一上采样特征向量可以是对嵌入特征向量进行的第一次上采样重建处理后得到的对应的特征向量,可以通过转换器模型进行上采样处理,再通过超分辨模型进行重建,例如,作为一个示例,输入分辨率为16*16的嵌入特征向量,通过转换器模型上采样至分辨率为64*64的特征向量,再通过超分辨模型,根据需要进行重建后生成分辨率为64*64的特征向量。
第二分辨率基础扩散图像可以是通过包含U-Net的基础扩散模型生成得到,例如,作为一个示例,将上采样重建后的分辨率为64*64的特征向量输入至包含U-Net的基础扩散模型,处理后得到分辨率为512*512的图片。
再将待识别对象的数据对应的第二分辨率超分扩散图像和待识别对象的数据对应的第二分辨率基础扩散图像中的各个像素点进行加权平均,输出处理后的待识别对象的数据对应的第二分辨率图像。
根据本公开实施例提供的技术方案,通过对待识别对象的数据对应的嵌入特征向量基于Efficient U-Net模型进行特征提取,然后将提取的特征输入到扩散模型中,进行去噪和超分辨率中的先编码后解码的处理,生成第二分辨率超分扩散图像,再通过对待识别图像对应的嵌入特征向量上采样后的第一上采样特征向量进行编码和解码过程,得到待识别对象的数据对应的第二分辨率基础扩散图像,再结合上述步骤中生成的第二分辨率超分扩散图像,针对两个图像中的各个像素点进行加权平均处理,得到待识别对象的数据对应的第二分辨率图像,以此通过多种模型将同一待识别数据对应的不同分辨率的的图像,在保留每个分辨率图像像素点的前提下进行融合,提升了图像显示的精细度,降低了图像融合过程中对图像像素数量的影响,提高了图像生成的精度。
在一些实施例中,根据待识别对象的数据对应的嵌入特征向量和待识别对象的数据对应的第二分辨率图像,确定待识别对象的数据对应的第三分辨率图像,包括:对待识别对象的数据对应的嵌入特征向量和待识别对象的数据对应的第二分辨率图像进行编码和解码,得到待识别对象的数据对应的第三分辨率超分扩散图像;对嵌入特征向量对应的第一上采样特征向量进行上采样,得到嵌入特征向量对应的第二上采样特征向量;对嵌入特征向量对应的第二上采样特征向量进行采样重建,得到待识别对象的数据对应的第三分辨率基础扩散图像;对待识别对象的数据对应的第三分辨率超分扩散图像和待识别对象的数据对应的第三分辨率基础扩散图像进行加权平均,得到待识别对象的数据对应的第三分辨率图像。
具体的,第三分辨率超分扩散图像可以是通过基于Efficient U-Net模型的扩散模型先通过Efficient U-Net模型进行特征提取,然后将提取的特征输入到扩散模型中,进行去噪和超分辨率处理生成的图像,进而完成从编码到解码的整体过程,例如,作为一个示例,将分辨率为512*512的图片和嵌入特征向量输入至基于Efficient U-Net模型的扩散模型中,通过编码及解码处理生成分辨率为1024*1024的图片。
第二上采样特征向量可以是对嵌入特征向量对应的第一上采样特征向量进行的上采样重建处理后得到的对应的特征向量,可以通过转换器模型进行上采样处理,再通过超分辨模型进行重建,例如,作为一个示例,输入分辨率为64*64的嵌入特征向量,通过转换器模型上采样至分辨率为256*256的特征向量,再通过超分辨模型,根据需要进行重建后生成分辨率为256*256的特征向量。
第三分辨率基础扩散图像可以是通过包含U-Net的基础扩散模型生成得到,例如,作为一个示例,将上采样重建后的分辨率为256*256的特征向量输入至包含U-Net的基础扩散模型,处理后得到分辨率为1024*1024的图片。
再将待识别对象的数据对应的第三分辨率超分扩散图像和待识别对象的数据对应的第三分辨率基础扩散图像中的各个像素点进行加权平均,输出处理后的待识别对象的数据对应的第三分辨率图像。
根据本公开实施例提供的技术方案,通过对待识别对象的数据对应的嵌入特征向量基于Efficient U-Net模型进行特征提取,然后将提取的特征输入到扩散模型中,进行去噪和超分辨率中的先编码后解码的处理,生成第三分辨率超分扩散图像,再通过对嵌入特征向量对应的第一上采样特征向量上采样后的第二上采样特征向量进行编码和解码过程,得到待识别对象的数据对应的第三分辨率基础扩散图像,再结合上述步骤中生成的第三分辨率超分扩散图像,针对两个图像中的各个像素点进行加权平均处理,得到待识别对象的数据对应的第三分辨率图像,以此通过多种模型将同一待识别数据对应的不同分辨率的的图像,在保留每个分辨率图像像素点的前提下进行融合,提高了图像生成的精度,降低了图像融合过程中对图像像素数量的影响,提升了图像显示的精细度,提升了对多分辨率的分步扩散处理的精准度。
在一些实施例中,获取待识别对象的数据,将待识别对象的数据进行特征提取,得到待识别对象的数据对应的嵌入特征向量,包括:当待识别对象的数据为输入文本数据时,对输入文本数据进行嵌入特征提取处理,得到输入文本数据对应的嵌入特征向量;或者,当待识别对象的数据为输入图像数据时,对输入图像数据进行嵌入特征提取处理,得到输入图像数据对应的嵌入特征向量;对输入图像数据进行边缘检测处理,得到输入图像数据对应的边缘嵌入特征向量。
具体的,输入文本数据对应的嵌入特征向量可以是通过对应文本处理模型得到的,对应文本处理模型包括但不限于T5模型或者CLIP模型等,通过T5模型处理输入文本数据可以用于获取全局构图能力,通过CLIP模型处理输入文本数据可以用于提升单个对象生成的准确率,例如,作为一个示例,将文本内容“一个苹果”输入至T5模型中得到对应的嵌入特征向量,以此增强了对全局构图的获取能力,将文本内容“一个苹果”输入至CLIP模型中得到对应的嵌入特征向量,以此提升了生成单个对象的准确性。
输入图像数据对应的嵌入特征向量可以是通过对应图像处理模型得到的,对应图像处理模型可以是CLIP模型。
输入图像对应的边缘嵌入特征向量可以是通过Canny边缘检测算法处理得到的,Canny边缘检测算法可以用于对图像进行平滑处理、梯度计算、非极大值抑制以及双阈值处理,可以标出图像中的实际边缘,其标识出的边缘与实际图像中的边缘误差小,并且只标记一次图像中的边缘,避免出现重复标记的情况,降低了标记次数,提升了处理效率。
例如,作为一个示例,将图片1输入至CLIP模型中进行特征提取得到对应的嵌入特征向量,将图片1输入至Canny边缘检测算法中,提取得到图片1的边缘嵌入特征向量,以此提升了生成图片的精确性,提高了处理效率。
根据本公开实施例提供的技术方案,通过输入不同形式的待识别对象的数据,对应有不同的处理流程,当待识别对象的数据为输入文本数据时,对输入文本数据进行嵌入特征提取处理,当待识别对象的数据为输入图像数据时,先对输入图像数据进行嵌入特征提取处理,再对得到的嵌入特征向量进行边缘检测处理,得到对应的边缘嵌入特征向量,以此提升了生成对象的准确性,提高了处理效率。
在一些实施例中,待识别对象的数据,还包括:当待识别对象的数据为输入文本数据和输入图像数据时,对输入文本数据进行嵌入特征提取处理,得到输入文本数据对应的嵌入特征向量;对输入图像数据进行嵌入特征提取处理,得到输入图像数据对应的嵌入特征向量;对输入图像对应的嵌入特征向量进行边缘检测处理,得到输入图像对应的边缘嵌入特征向量;对输入文本对应的嵌入特征向量、输入图像对应的嵌入特征向量和输入图像对应的边缘嵌入特征向量进行拼接处理,得到待识别对象的数据对应的嵌入特征向量。
具体的,待识别对象的数据不仅可以为输入文本数据或者输入图像数据,还可以是输入文本数据和输入图像数据,当待识别对象的数据为输入文本数据和输入图像数据时,先通过对输入文本数据进行嵌入特征提取处理,得到输入文本数据对应的嵌入特征向量,与上述对输入文本数据的处理方式相同,再对输入图像数据进行嵌入特征提取处理,得到对应的嵌入特征向量,将输入图像数据进行边缘检测处理,与上述对输入图像数据对应的嵌入特征向量的边缘检测处理相同,得到输入图像数据对应的边缘嵌入特征向量,最后通过将输入文本数据对应的嵌入特征向量、输入图像数据对应的嵌入特征向量和输入图像对应的边缘嵌入特征向量进行拼接处理,得到待识别对象的数据对应的嵌入特征向量,便于后续该图像生成模型的条件输入。
例如,作为一个示例,将文本内容为“一个苹果”对应的的输入文本数据分别输入T5模型和CLIP模型中,得到文本嵌入特征TCLIP,再将分辨率为1024*1024的图片输入到CLIP模型中,得到图片嵌入特征ICLIP;同时将分辨率为1024*1024的图片输入到Canny边缘检测算法中,提取图片边缘嵌入特征ICanny,将文本嵌入特征/>TCLIP,图片嵌入特征ICLIP、ICanny直接拼接,得到组合嵌入特征/>用于后续模型的条件输入。
根据本公开实施例提供的技术方案,在待识别对象的数据为输入文本数据和输入图像数据时,对输入文本数据进行嵌入特征提取处理,得到输入文本数据对应的嵌入特征向量,再对输入图像数据进行嵌入特征提取处理,得到输入图像数据对应的嵌入特征向量,对输入图像数据进行边缘检测处理,得到输入图像对应的边缘嵌入特征向量,对输入文本对应的嵌入特征向量、输入图像数据对应的嵌入特征向量以及输入图像对应的边缘嵌入特征向量直接拼接,得到待识别对象的数据对应的嵌入特征向量,以此提升了该图像生成模型的适用度,提升了对特征提取的精确性。
在一些实施例中,在获取待识别对象的数据之前,还包括:获取训练样本集合,训练样本集合中包含多个训练样本,并将历史图像数据进行下采样处理,得到第一分辨率历史图像数据和第二分辨率历史图像数据,各个训练样本均包含历史文本数据和历史图像数据;将训练样本输入至该图像生成模型,对历史文本数据进行特征提取,得到历史文本数据对应的嵌入特征向量;对历史图像数据进行特征提取,得到历史图像数据对应的嵌入特征向量;对历史文本数据对应的嵌入特征向量和历史图像数据对应的嵌入特征向量进行拼接处理,得到训练样本对应的嵌入特征向量;对第一分辨率历史图像数据进行分词下采样处理,得到第一分辨率历史图像数据对应的分词结果;对待识别对象的数据对应的嵌入特征向量和第一分辨率历史图像数据对应的分词结果进行整合重建,得到训练样本对应的第一分辨率图像;对第二分辨率历史图像数据进行分词下采样处理,得到第二分辨率历史图像数据对应的分词结果;根据第二分辨率历史图像数据对应的分词结果、第一分辨率历史图像数据对应的分词结果以及训练样本对应的嵌入特征向量,确定训练样本对应的第二分辨率图像;对历史图像数据进行分词下采样处理,得到历史图像数据对应的分词结果;根据训练样本对应的嵌入特征向量、第一分辨率历史图像数据对应的分词结果、第二分辨率历史图像数据对应的分词结果以及历史图像数据对应的分词结果,确定训练样本对应的第三分辨率图像;通过循环迭代的方式,更新图像生成模型中的参数。
具体的,训练样本集合可以是包含多个历史文本数据和历史图像数据的集合,用于该图像生成模型的训练过程,通过将历史图像数据进行分级下采样,得到第一分辨率历史图像数据和第二分辨率历史图像数据。
对历史文本数据进行特征提取,对历史图像数据在特征提取后进行边缘检测,并将上述结果进行直接拼接得到训练样本对应的嵌入特征向量。
第一分辨率历史图像数据对应的分词结果可以通过图片分词器下采样得到,例如,作为一个示例,将分辨率为256*256的图片输入到图片分词器中,图片分词器的下采样率为16,输出得到分辨率为16*16的图片潜在映射,即为分辨率为256*256的图片的分词结果。
训练样本对应的第一分辨率图像可以由将训练样本对应的嵌入特征向量和第一分辨率历史图像数据对应的分词结果输入至转换器模型中,经过整合后得到整合特征向量,再与训练样本对应的嵌入特征向量共同输入至包含U-Net的基础扩散模型中重建得到。
训练样本对应的第二分辨率图像可以由上述流程根据第二分辨率历史图像数据对应的分词结果、第一分辨率历史图像数据对应的分词结果以及训练样本对应的嵌入特征向量得到。
训练样本对应的第三分辨率图像可以由上述流程根据训练样本对应的嵌入特征向量、第一分辨率历史图像数据对应的分词结果、第二分辨率历史图像数据对应的分词结果以及历史图像数据对应的分词结果得到。
此外,还需要说明的是,在根据训练样本对应的嵌入特征向量、第一分辨率历史图像数据对应的分词结果、第二分辨率历史图像数据对应的分词结果以及历史图像数据对应的分词结果,确定训练样本对应的第三分辨率图像之后,还包括:基于第一分辨率历史图像数据、第二分辨率历史图像数据、以及历史图像数据,得到对抗生成损失;基于训练样本对应的第一分辨率图像、训练样本对应的第二分辨率图像、以及训练样本对应的第三分辨率图像,得到噪声误差损失;使用对抗生成损失和噪声误差损失更新图像生成模型中的参数。
例如,作为一个示例,在图片分词器中,输入分辨率为256*256的图片,通过重建损失计算该图片和预测值之间的误差,同时计算对抗生成损失。
在基础扩散模型中计算加入的噪声和预测噪声之间的误差,以分辨率为256*256的图片作为基准。同理以分辨率为512*512的图片作为基准、以分辨率为1024*1024的图片作为基准的基础扩散模型中,均计算加入的噪声和预测噪声之间的误差作为损失。
在扩散超分模型中,计算生成的分辨率为512*512的图片特征向量与真实分辨率为512*512的图片特征向量之间的误差,同理以分辨率为1024*1024的图片作为基准的扩散超分模型中,计算上述误差作为损失。
根据本公开实施例提供的技术方案,通过该图像生成模型的训练过程,包含根据训练样本集合确定历史文本数据和历史图像数据分别对应的嵌入特征向量,和历史图像数据对应的边缘嵌入特征向量,根据上述特征向量拼接得到训练样本对应的嵌入特征向量,分别对预处理得到的第一分辨率历史图像数据和第二分辨率历史图像数据通过图片分词器进行分词处理,并将分词结果整合重建,得到训练样本对应的第一分辨率图像、第二分辨率图像以及第三分辨率图像,最后通过每个生成损失阶段计算得到的损失对该图像生成模型进行循环迭代,更新该图像生成模型中的参数,以此通过多种分辨率的多步扩散处理提高了生成图像的分辨率,保证了生成图像的细节,增强了图像生成结果的精度。
在一些实施例中,根据第二分辨率历史图像数据对应的分词结果、第一分辨率历史图像数据对应的分词结果以及训练样本对应的嵌入特征向量,确定训练样本对应的第二分辨率图像,包括:对训练样本对应的嵌入特征向量和第一分辨率历史图像数据对应的分词结果进行整合处理,得到第一分辨率整合特征向量;对第一分辨率整合特征向量和第二分辨率整合特征向量进行上采样整合处理,得到第二分辨率整合特征向量;对第二分辨率整合特征向量进行编码,并对编码结果进行解码,得到训练样本对应的第二分辨率图像;根据训练样本对应的嵌入特征向量、第一分辨率历史图像数据对应的分词结果、第二分辨率历史图像数据对应的分词结果以及历史图像数据对应的分词结果,确定训练样本对应的第三分辨率图像,包括:对第二分辨率整合特征向量和历史图像数据对应的分词结果进行上采样整合处理,得到历史图像数据对应的整合特征向量;对历史图像数据对应的整合特征向量进行编码并将编码结果进行解码,得到训练样本对应的第三分辨率图像。
具体的,第一分辨率整合特征向量可以是通过转换器模型将训练样本对应的嵌入特征向量和第一分辨率历史图像数据对应的分词结果进行整合处理。
第二分辨率整合特征向量可以由转换器模型将第一分辨率整合特征向量进行上采样处理,得到与第二分辨率历史图像数据对应的分词结果分辨率相同的上采样结果,并与第二分辨率历史图像数据对应的分词结果进行整合得到第二分辨率整合特征向量。
通过包含U-Net的基础扩散模型对第二分辨率整合特征向量进行编码后解码,得到训练样本对应的第二分辨率图像。
通过同样的处理流程,对第二分辨率整合特征向量和历史图像数据对应的分词结果进行上述处理,得到历史图像数据对应的第三分辨率图像。
根据本公开实施例提供的技术方案,通过图片分词器和包含U-Net的基础扩散模型的共同作用,将训练样本对应的嵌入特征向量、第一分辨率历史图像数据对应的分词结果、第二分辨率整合特征向量以及历史图像数据对应的分词结果进行上采样后整合,进行编码,并对编码结果进行解码后得到训练样本对应的第二分辨率图像和训练样本对应的第三分辨率图像,以此通过多种分辨率的多步扩散处理提高了生成图像的分辨率。
图3是本公开实施例提供的图像生成模型的一种应用场景的流程示意图,如图3所示,该图像生成模型中可以包含:T5模型、CLIP模型、包含U-Net的基础扩散模型、基于Efficient U-Net模型的扩散模型和转换器模型。
该图像生成模型的一种应用场景的流程包括:
该图像生成模型的整体输入是文本和图片,训练所用的图片分辨率为1024*1024。在训练前每张图片进行预处理,分别下采样到512*512分辨率和256*256分辨率,将三种图片分辨率的特征向量共同输入到该图像生成模型中。
1.组合编码器:用于学习图文的组合特征。具体包括:
1.1将“输入1:文本”分别输入T5模型、CLIP模型中,得到文本嵌入特征TCLIP,分别用于获取全局构图能力和提升单个对象生成的准确率。
1.2将“输入2:图片1024*1024”输入到CLIP模型中,得到图片嵌入特征ICLIP;同时将图片输入到Canny边缘检测算法中,提取图片边缘嵌入特征ICanny。
1.3将文本嵌入特征TCLIP,图片嵌入特征ICLIP、ICanny直接拼接得到组合嵌入特征/>用于后续模型的条件输入。
2.图片分词器:将“输入3:图片(256*256)”输入到图片分词器中,其中分词器的下采样率为16(用于降低维度),输出得到16*16图片潜在映射,得出图片的分词结果I16-Token。
3.基础模型:采用转换器模型作为基础模型,输入是第1步得到的组合嵌入特征Cembeding和第2步得到的图片分词I16-Token,输出得到图文整合特征C16-it。
4.基础扩散模型:采用包含U-Net的基础扩散模型,输入是第3步得到的图文整合嵌入特C16-it和第1步得到的组合嵌入特征Cembeding,生成256*256的低分辨率图片I′base-256。
5.超分扩散模型:采用基于Efficient U-Net模型的扩散模型,输入是第4步生成的低分辨率图片I′base-256和第1步得到的组合嵌入特征Cembeding,生成分辨率为512*512图片I′sd-512。
6.图片分词器:将“输入4:图片(512*512)”输入到图片分词器中,下采样率为8,输出64*64大小的图片潜在映射,得出图片的分词结果I64-Token。
7.超分辨率模型:采用转换器模型,将第3步生成的图文整合特征C16-it上采样到64*64分辨率,与第6步生成的图片的分词I64-Token共用输入到超分辩模型中,得到图文整合特征C64-it。
8.基础扩散模型:采用包含U-Net的基础扩散模型,输入是第7步得到的图文整合嵌入特征C64-it,生成512*512的分辨率图片I′base-512。
9.加权平均:将第5步生成的图片I′sd-512和第8步的图片I′base-512,各像素点进行加权平均,最终输出整合后的图片I′com-512。
10.超分扩散模型:采用基于Efficient U-Net模型的扩散模型,输入是第9步生成的512*512分辨率图片I′com-512和第1步得到的组合嵌入特征Cembeding,生成分辨率为1024*1024图片I′sd-1024。
11.图片分词器:“输入4:图片(512*512)”送入图片分词器,下采样率为4,输出256*256大小的图片潜在映射,最终得出图片的分词结果I256-Token。
12.超分辨率模型:采用transformer模型,将第7步生成的图文整合特征C64-it上采样到256*256分辨率,与第11步生成的图片的分词I256-Token输入到超分辩模型中,得到图文整合特征C256-it。
13.基础扩散模型:采用包含U-Net的基础扩散模型,输入是第12步得到的图文整合嵌入特征C256-it,生成1024*1024的分辨率图片I′base-1024。
14.加权平均:将第10步生成的图片I′sd-1024和第13步的图片I′base-1024,各像素点进行加权平均,最终输出整合后的图片I′com-1024。
该应用场景的流程实现了多模态图像生成,提升了图像生成的清晰程度,通过多种分辨率的多步扩散处理提高了生成图像的分辨率,保证了生成图像的细节,增强了图像生成结果的精度。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图4是本公开实施例提供的一种图像生成装置的结构示意图。如图4所示,该图像生成装置包括:
获取模块401,用于获取待识别对象的数据,将待识别对象的数据进行特征提取,得到待识别对象的数据对应的嵌入特征向量,待识别对象的数据包含文本数据或图像数据;
处理模块402,用于将待识别对象的数据输入至图像生成模型,对待识别对象的数据对应的嵌入特征向量进行采样重建,得到待识别对象的数据对应的第一分辨率图像,图像生成模型是基于历史文本数据、和/或历史图像数据训练的;
第一确定模块403,用于根据待识别对象的数据对应的第一分辨率图像和待识别对象的数据对应的嵌入特征向量,确定待识别对象的数据对应的第二分辨率图像,其中,第一分辨率小于第二分辨率;
第二确定模块404,用于根据待识别对象的数据对应的嵌入特征向量和待识别对象的数据对应的第二分辨率图像,确定待识别对象的数据对应的第三分辨率图像,其中,第二分辨率小于第三分辨率。
该图像生成装置可以通过获取待识别对象的数据,并对其进行特征提取,得到对应的嵌入特征向量,将待识别对象的数据输入至图像生成模型中,通过图像生成模型对待识别对象的数据对应的嵌入特征向量进行采样重建,生成待识别对象的数据对应的第一分辨率图像,第一分辨率图像结合待识别对象的数据对应的嵌入特征向量,处理得到待识别对象的数据对应的第二分辨率图像,再将待识别对象的数据对应的嵌入特征向量和待识别对象的数据对应的第二分辨率图像进行处理得到待识别对象的数据对应的第三分辨率图像,第三分辨率图像即为该图像生成方法得到的目标图像,以此通过多级分辨率特征向量融合和特征提取的方法,实现多模态图像生成,提升了图像生成的清晰程度,通过多种分辨率的多步扩散处理提高了生成图像的分辨率,保证了生成图像的细节,增强了图像生成结果的精度。
在一些实施例中,第一确定模块403具体用于,对待识别对象的数据对应的第一分辨率图像和待识别对象的数据对应的嵌入特征向量进行编码,并对编码结果进行解码,得到待识别对象的数据对应的第二分辨率超分扩散图像;对嵌入特征向量上采样后进行采样重建,得到嵌入特征向量对应的第一上采样特征向量;对嵌入特征向量对应的第一上采样特征向量进行编码,并对编码结果进行解码,得到待识别对象的数据对应的第二分辨率基础扩散图像;对待识别对象的数据对应的第二分辨率超分扩散图像和待识别对象的数据对应的第二分辨率基础扩散图像进行加权平均,得到待识别对象的数据对应的第二分辨率图像。
在一些实施例中,第二确定模块404具体用于,对待识别对象的数据对应的嵌入特征向量和待识别对象的数据对应的第二分辨率图像进行编码和解码,得到待识别对象的数据对应的第三分辨率超分扩散图像;对嵌入特征向量对应的第一上采样特征向量进行上采样,得到嵌入特征向量对应的第二上采样特征向量;对嵌入特征向量对应的第二上采样特征向量进行采样重建,得到待识别对象的数据对应的第三分辨率基础扩散图像;对待识别对象的数据对应的第三分辨率超分扩散图像和待识别对象的数据对应的第三分辨率基础扩散图像进行加权平均,得到待识别对象的数据对应的第三分辨率图像。
在一些实施例中,获取模块401具体用于,当待识别对象的数据为输入文本数据时,对输入文本数据进行嵌入特征提取处理,得到输入文本数据对应的嵌入特征向量;或者,当待识别对象的数据为输入图像数据时,对输入图像数据进行嵌入特征提取处理,得到输入图像数据对应的嵌入特征向量;对输入图像数据进行边缘检测处理,得到输入图像数据对应的边缘嵌入特征向量。
在一些实施例中,上述图像生成装置中还用于,当待识别对象的数据为输入文本数据和输入图像数据时,对输入文本数据进行嵌入特征提取处理,得到输入文本数据对应的嵌入特征向量;对输入图像数据进行嵌入特征提取处理,得到输入图像数据对应的嵌入特征向量;对输入图像数据进行边缘检测处理,得到输入图像数据对应的边缘嵌入特征向量;对输入文本对应的嵌入特征向量、输入图像数据对应的嵌入特征向量以及输入图像对应的边缘嵌入特征向量进行拼接处理,得到待识别对象的数据对应的嵌入特征向量。
在一些实施例中,上述图像生成装置还用于,获取训练样本集合,训练样本集合中包含多个训练样本,并将历史图像数据进行下采样处理,得到第一分辨率历史图像数据和第二分辨率历史图像数据,各个训练样本均包含历史文本数据和历史图像数据;将训练样本输入至图像生成模型,对历史文本数据进行特征提取,得到历史文本数据对应的嵌入特征向量;对历史图像数据进行特征提取,对提取结果进行边缘检测得到历史图像数据对应的边缘嵌入特征向量;对历史文本数据对应的嵌入特征向量和历史图像数据对应的嵌入特征向量进行拼接处理,得到训练样本对应的嵌入特征向量;对第一分辨率历史图像数据进行分词下采样处理,得到第一分辨率历史图像数据对应的分词结果;对训练样本对应的嵌入特征向量和第一分辨率历史图像数据对应的分词结果进行整合重建,得到训练样本对应的第一分辨率图像;对第二分辨率历史图像数据进行分词下采样处理,得到第二分辨率历史图像数据对应的分词结果;根据第二分辨率历史图像数据对应的分词结果、第一分辨率历史图像数据对应的分词结果以及训练样本对应的嵌入特征向量,确定训练样本对应的第二分辨率图像;对历史图像数据进行分词下采样处理,得到历史图像数据对应的分词结果;根据训练样本对应的嵌入特征向量、第一分辨率历史图像数据对应的分词结果、第二分辨率历史图像数据对应的分词结果以及历史图像数据对应的分词结果,确定训练样本对应的第三分辨率图像;通过循环迭代的方式,更新图像生成模型中的参数。
在一些实施例中,根据第二分辨率历史图像数据对应的分词结果、第一分辨率历史图像数据对应的分词结果以及训练样本对应的嵌入特征向量,确定训练样本对应的第二分辨率图像具体用于,对训练样本的数据对应的嵌入特征向量和第一分辨率历史图像数据对应的分词结果进行整合处理,得到第一分辨率整合特征向量;对第一分辨率整合特征向量进行上采样处理,再与第二分辨率历史图像数据对应的分词结果进行整合处理,得到第二分辨率整合特征向量;对第二分辨率整合特征向量进行编码,并对编码结果进行解码,得到训练样本对应的第二分辨率图像;根据训练样本对应的嵌入特征向量、第一分辨率历史图像数据对应的分词结果、第二分辨率历史图像数据对应的分词结果以及历史图像数据对应的分词结果,确定训练样本对应的第三分辨率图像,包括:对第二分辨率整合特征向量进行上采样处理,并与历史图像数据对应的分词结果进行整合处理,得到历史图像数据对应的整合特征向量;对历史图像数据对应的整合特征向量进行编码,并将编码结果进行解码,得到训练样本对应的第三分辨率图像。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
图5是本公开实施例提供的电子设备5的示意图。如图5所示,该实施例的电子设备5包括:处理器501、存储器502以及存储在该存储器502中并且可在处理器501上运行的计算机程序503。处理器501执行计算机程序503时实现上述各个方法实施例中的步骤。或者,处理器501执行计算机程序503时实现上述各装置实施例中各模块/单元的功能。
电子设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备5可以包括但不仅限于处理器501和存储器502。本领域技术人员可以理解,图5仅仅是电子设备5的示例,并不构成对电子设备5的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器501可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器502可以是电子设备5的内部存储单元,例如,电子设备5的硬盘或内存。存储器502也可以是电子设备5的外部存储设备,例如,电子设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器502还可以既包括电子设备5的内部存储单元也包括外部存储设备。存储器502用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读存储介质(例如计算机可读存储介质)中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质等。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。
Claims (10)
1.一种图像生成方法,其特征在于,包括:
获取待识别对象的数据,将所述待识别对象的数据进行特征提取,得到所述待识别对象的数据对应的嵌入特征向量,所述待识别对象的数据包含文本数据或图像数据;
将所述待识别对象的数据输入至图像生成模型,对所述待识别对象的数据对应的嵌入特征向量进行采样重建,得到所述待识别对象的数据对应的第一分辨率图像,所述图像生成模型是基于历史文本数据、和/或历史图像数据训练的;
根据所述待识别对象的数据对应的第一分辨率图像和所述待识别对象的数据对应的嵌入特征向量,确定所述待识别对象的数据对应的第二分辨率图像,其中,第一分辨率小于第二分辨率;
根据所述待识别对象的数据对应的嵌入特征向量和所述待识别对象的数据对应的第二分辨率图像,确定所述待识别对象的数据对应的第三分辨率图像,其中,所述第二分辨率小于第三分辨率。
2.根据权利要求1所述图像生成方法,其特征在于,所述根据所述待识别对象的数据对应的第一分辨率图像以及所述待识别对象的数据对应的嵌入特征向量,确定所述待识别对象的数据对应的第二分辨率图像,包括:
对所述待识别对象的数据对应的第一分辨率图像和所述待识别对象的数据对应的嵌入特征向量进行编码,并对编码结果进行解码,得到所述待识别对象的数据对应的第二分辨率超分扩散图像;
对所述嵌入特征向量上采样后进行采样重建,得到所述嵌入特征向量对应的第一上采样特征向量;
对所述嵌入特征向量对应的第一上采样特征向量进行编码,并对编码结果进行解码,得到所述待识别对象的数据对应的第二分辨率基础扩散图像;
对所述待识别对象的数据对应的第二分辨率超分扩散图像和所述待识别对象的数据对应的第二分辨率基础扩散图像进行加权平均,得到所述待识别对象的数据对应的第二分辨率图像。
3.根据权利要求1所述图像生成方法,其特征在于,所述根据所述待识别对象的数据对应的嵌入特征向量和所述待识别对象的数据对应的第二分辨率图像,确定所述待识别对象的数据对应的第三分辨率图像,包括:
对所述待识别对象的数据对应的嵌入特征向量和所述待识别对象的数据对应的第二分辨率图像进行编码和解码,得到所述待识别对象的数据对应的第三分辨率超分扩散图像;
对所述嵌入特征向量对应的第一上采样特征向量进行上采样,得到所述嵌入特征向量对应的第二上采样特征向量;
对所述嵌入特征向量对应的第二上采样特征向量进行采样重建,得到所述待识别对象的数据对应的第三分辨率基础扩散图像;
对所述待识别对象的数据对应的第三分辨率超分扩散图像和所述待识别对象的数据对应的第三分辨率基础扩散图像进行加权平均,得到所述待识别对象的数据对应的第三分辨率图像。
4.根据权利要求1所述图像生成方法,其特征在于,所述获取待识别对象的数据,将所述待识别对象的数据进行特征提取,得到所述待识别对象的数据对应的嵌入特征向量,包括:
当所述待识别对象的数据为所述输入文本数据时,对所述输入文本数据进行嵌入特征提取处理,得到所述输入文本数据对应的嵌入特征向量;
或者,
当所述待识别对象的数据为所述输入图像数据时,对所述输入图像数据进行嵌入特征提取处理,得到所述输入图像数据对应的嵌入特征向量;
对所述输入图像数据进行边缘检测处理,得到所述输入图像数据对应的边缘嵌入特征向量。
5.根据权利要求1所述图像生成方法,其特征在于,所述待识别对象的数据,还包括:
当所述待识别对象的数据为所述输入文本数据和所述输入图像数据时,对所述输入文本数据进行嵌入特征提取处理,得到所述输入文本数据对应的嵌入特征向量;
对所述输入图像数据进行嵌入特征提取处理,得到所述输入图像数据对应的嵌入特征向量;
对所述输入图像数据进行边缘检测处理,得到所述输入图像数据对应的边缘嵌入特征向量;
对所述输入文本对应的嵌入特征向量、所述输入图像数据对应的嵌入特征向量以及所述输入图像对应的边缘嵌入特征向量进行拼接处理,得到所述待识别对象的数据对应的嵌入特征向量。
6.根据权利要求1中所述图像生成方法,其特征在于,在所述获取待识别对象的数据之前,还包括:
获取训练样本集合,所述训练样本集合中包含多个训练样本,并将所述历史图像数据进行下采样处理,得到第一分辨率历史图像数据和第二分辨率历史图像数据,各个所述训练样本均包含所述历史文本数据和所述历史图像数据;
将所述训练样本输入至所述图像生成模型,对所述历史文本数据进行特征提取,得到所述历史文本数据对应的嵌入特征向量;
对所述历史图像数据进行特征提取,对提取结果进行边缘检测得到所述历史图像数据对应的边缘嵌入特征向量;
对所述历史文本数据对应的嵌入特征向量和所述历史图像数据对应的嵌入特征向量进行拼接处理,得到所述训练样本对应的嵌入特征向量;
对所述第一分辨率历史图像数据进行分词下采样处理,得到所述第一分辨率历史图像数据对应的分词结果;
对所述训练样本对应的嵌入特征向量和所述第一分辨率历史图像数据对应的分词结果进行整合重建,得到所述训练样本对应的第一分辨率图像;
对所述第二分辨率历史图像数据进行分词下采样处理,得到所述第二分辨率历史图像数据对应的分词结果;
根据所述第二分辨率历史图像数据对应的分词结果、所述第一分辨率历史图像数据对应的分词结果以及所述训练样本对应的嵌入特征向量,确定所述训练样本对应的第二分辨率图像;
对所述历史图像数据进行分词下采样处理,得到所述历史图像数据对应的分词结果;
根据所述训练样本对应的嵌入特征向量、所述第一分辨率历史图像数据对应的分词结果、所述第二分辨率历史图像数据对应的分词结果以及所述历史图像数据对应的分词结果,确定所述训练样本对应的第三分辨率图像;
通过循环迭代的方式,更新所述图像生成模型中的参数。
7.根据权利要求6中所述图像生成方法,其特征在于,所述根据所述第二分辨率历史图像数据对应的分词结果、所述第一分辨率历史图像数据对应的分词结果以及所述训练样本对应的嵌入特征向量,确定所述训练样本对应的第二分辨率图像,包括:
对所述训练样本的数据对应的嵌入特征向量和所述第一分辨率历史图像数据对应的分词结果进行整合处理,得到第一分辨率整合特征向量;
对所述第一分辨率整合特征向量进行上采样处理,再与所述第二分辨率历史图像数据对应的分词结果进行整合处理,得到第二分辨率整合特征向量;
对所述第二分辨率整合特征向量进行编码,并对编码结果进行解码,得到所述训练样本对应的第二分辨率图像;
所述根据所述训练样本对应的嵌入特征向量、所述第一分辨率历史图像数据对应的分词结果、所述第二分辨率历史图像数据对应的分词结果以及所述历史图像数据对应的分词结果,确定所述训练样本对应的第三分辨率图像,包括:
对所述第二分辨率整合特征向量进行上采样处理,并与所述历史图像数据对应的分词结果进行整合处理,得到所述历史图像数据对应的整合特征向量;
对所述历史图像数据对应的整合特征向量进行编码,并将编码结果进行解码,得到所述训练样本对应的第三分辨率图像。
8.一种图像生成装置,其特征在于,包括:
获取模块,用于获取待识别对象的数据,将所述待识别对象的数据进行特征提取,得到所述待识别对象的数据对应的嵌入特征向量,所述待识别对象的数据包含文本数据或图像数据;
处理模块,用于将所述待识别对象的数据输入至图像生成模型,对所述待识别对象的数据对应的嵌入特征向量进行采样重建,得到所述待识别对象的数据对应的第一分辨率图像,所述图像生成模型是基于历史文本数据、和/或历史图像数据训练的;
第一确定模块,用于根据所述待识别对象的数据对应的第一分辨率图像和所述待识别对象的数据对应的嵌入特征向量,确定所述待识别对象的数据对应的第二分辨率图像,其中,第一分辨率小于第二分辨率;
第二确定模块,用于根据所述待识别对象的数据对应的嵌入特征向量和所述待识别对象的数据对应的第二分辨率图像,确定所述待识别对象的数据对应的第三分辨率图像,其中,所述第二分辨率小于第三分辨率。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种可读存储介质,所述可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311723226.XA CN117893626A (zh) | 2023-12-14 | 2023-12-14 | 图像生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311723226.XA CN117893626A (zh) | 2023-12-14 | 2023-12-14 | 图像生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117893626A true CN117893626A (zh) | 2024-04-16 |
Family
ID=90649756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311723226.XA Pending CN117893626A (zh) | 2023-12-14 | 2023-12-14 | 图像生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117893626A (zh) |
-
2023
- 2023-12-14 CN CN202311723226.XA patent/CN117893626A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107633218B (zh) | 用于生成图像的方法和装置 | |
CN108509915B (zh) | 人脸识别模型的生成方法和装置 | |
US20200104640A1 (en) | Committed information rate variational autoencoders | |
US20230206396A1 (en) | Image super-resolution reconstructing | |
CN113822428A (zh) | 神经网络训练方法及装置、图像分割方法 | |
WO2022012179A1 (zh) | 生成特征提取网络的方法、装置、设备和计算机可读介质 | |
CN114429552A (zh) | 对象属性识别方法、装置、可读存储介质及电子设备 | |
CN112270200A (zh) | 一种文本信息的翻译方法、装置、电子设备和存储介质 | |
CN116385827A (zh) | 参数化人脸重建模型训练方法及关键点标签数据生成方法 | |
CN114037990A (zh) | 一种字符识别方法、装置、设备、介质及产品 | |
EP4121936A1 (en) | Image rescaling | |
CN114399814B (zh) | 一种基于深度学习的遮挡物移除和三维重建方法 | |
CN113408507B (zh) | 基于履历文件的命名实体识别方法、装置和电子设备 | |
CN114463769A (zh) | 表格识别方法、装置、可读介质和电子设备 | |
CN117894038A (zh) | 一种图像中对象姿态生成方法和装置 | |
CN111611420B (zh) | 用于生成图像描述信息的方法和装置 | |
CN117893626A (zh) | 图像生成方法及装置 | |
CN114596203A (zh) | 用于生成图像和用于训练图像生成模型的方法和装置 | |
CN114898190A (zh) | 一种图像处理方法和装置 | |
CN110807784B (zh) | 用于分割物体的方法和装置 | |
CN114004229A (zh) | 文本识别方法、装置、可读介质及电子设备 | |
CN111639198A (zh) | 媒体文件识别方法、装置、可读介质及电子设备 | |
CN117392260B (zh) | 一种图像生成方法及装置 | |
CN117421641B (zh) | 一种文本分类的方法、装置、电子设备及可读存储介质 | |
CN116912631B (zh) | 目标识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |