CN113610704B - 图像生成方法、装置、设备和可读存储介质 - Google Patents
图像生成方法、装置、设备和可读存储介质 Download PDFInfo
- Publication number
- CN113610704B CN113610704B CN202111156886.5A CN202111156886A CN113610704B CN 113610704 B CN113610704 B CN 113610704B CN 202111156886 A CN202111156886 A CN 202111156886A CN 113610704 B CN113610704 B CN 113610704B
- Authority
- CN
- China
- Prior art keywords
- sampling
- target
- output
- layer
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000005070 sampling Methods 0.000 claims abstract description 152
- 238000000605 extraction Methods 0.000 claims abstract description 43
- 238000010606 normalization Methods 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 20
- 238000004891 communication Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 19
- 238000005215 recombination Methods 0.000 description 9
- 230000006798 recombination Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000008521 reorganization Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Processing (AREA)
Abstract
本发明实施例提供了一种图像生成方法、装置、设备和可读存储介质,该方法包括:获取源图片,将源图片输入下采样模块进行下采样,得到下采样模块输出的中间特征图,通过参数提取模块从源图片中提取语义信息,将中间特征图输入上采样模块进行上采样,并在目标上采样层的输出中添加语义信息,以基于中间特征图生成目标图片。从源图片中提取语义信息添加到上采样层的输出中,可以将源图片中的图像特征融合到目标图片中,从而可以提高模型融合特征的能力,可以提高目标图片与源图片之间的关联度。
Description
技术领域
本发明涉及计算机领域,特别是涉及一种图像生成方法、装置、设备和可读存储介质。
背景技术
随着深度学习的发展,越来越多的模型被用来处理图像数据。在图到图(image2image)领域中,模型可以基于源图片生成具有一定特征的目标图片。例如,在图像风格迁移中,模型可以基于源图片生成具有特定风格的目标图片,在人脸属性编辑中,模型可以基于源图片生成具有特定人脸特征的目标图片。
在先技术中,模型通常包括下采样模块和上采样模块,源图片输入模型之后,先经过下采样模块进行下采样,得到中间特征图,然后将中间特征图输入上采样模块进行上采样,得到目标图片。在下采样过程中会丢失源图片中的部分图像特征,导致源图片和目标图片之间的关联度不高。
发明内容
本发明实施例的目的在于提供一种图像生成方法、装置、设备和可读存储介质,以解决图像生成过程中源图片和目标图片之间关联度不高的问题。
在本发明实施例的第一方面,首先提供了一种图像生成方法,应用于电子设备,所述电子设备预置有预先训练得到的图像生成模型,所述图像生成模型包括下采样模块和上采样模块,所述上采样模块包括顺序连接的多个上采样层,以及目标上采样层对应的参数提取模块;所述方法包括:
获取源图片;
将所述源图片输入所述下采样模块进行下采样,得到所述下采样模块输出的中间特征图;通过所述参数提取模块从所述源图片中提取语义信息;
将所述中间特征图输入所述上采样模块进行上采样,并在所述目标上采样层的输出中添加所述语义信息,以基于所述中间特征图生成目标图片。
在本发明实施例的第二方面,还提供了一种图像生成装置,设置于电子设备,所述电子设备预置有预先训练得到的图像生成模型,所述图像生成模型包括下采样模块和上采样模块,所述上采样模块包括顺序连接的多个上采样层,以及目标上采样层对应的参数提取模块;所述装置包括:
获取模块,用于获取源图片;
输出模块,用于将所述源图片输入所述下采样模块进行下采样,得到所述下采样模块输出的中间特征图;
提取模块,用于通过所述参数提取模块从所述源图片中提取语义信息;
生成模块,用于将所述中间特征图输入所述上采样模块进行上采样,并在所述目标上采样层的输出中添加所述语义信息,以基于所述中间特征图生成目标图片。
在本发明实施例的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的所述计算机程序时,实现本发明实施例第一方面所述的方法。
在本发明实施例的又一方面,还提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明实施例第一方面所述的方法。
本发明实施例提供的图像生成方法,获取源图片,将源图片输入下采样模块进行下采样,得到下采样模块输出的中间特征图,通过参数提取模块从源图片中提取语义信息,将中间特征图输入上采样模块进行上采样,并在目标上采样层的输出中添加语义信息,以基于中间特征图生成目标图片。从源图片中提取语义信息添加到上采样层的输出中,可以将源图片中的图像特征融合到目标图片中,从而可以提高模型融合特征的能力,可以提高目标图片与源图片之间的关联度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例中的一种图像生成方法的步骤流程图;
图2为本发明实施例中的一种图像生成模型的结构示意图;
图3为本发明实施例中的一种下采样层的结构示意图;
图4为图2所示的图像生成模型的局部示意图;
图5为图2所示的图像生成模型中参数提取模块和输出处理层的结构示意图;
图6为本发明实施例中的另一种图像生成模型的结构示意图;
图7为本发明实施例中的一种图像生成装置的结构框图;
图8为本发明实施例中的一种电子设备的结构示意图。
具体实施方式
本发明实施例提供了一种图像生成方法。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
参照图1,图1为本发明实施例中的一种图像生成方法的步骤流程图,本实施例提供的图像生成方法适用于电子设备,以基于源图片生成目标图片。本实施例提供的图像生成方法可以由图像生成装置执行,图像生成装置可以设置于电子设备,图像生成装置通常以软件和/或硬件的方式实现,该方法可以包括:
步骤101、获取源图片。
本实施例中,图像生成方法可以由预置有图像生成模型的电子设备实施,图像生成模型为预先训练得到的图像生成模型。如图2所示,图2为本发明实施例中的一种图像生成模型的结构示意图,图像生成模型可以是编码器(Encoder)-解码器(Decoder)结构的网络模型,例如Unet模型,包括下采样模块201和上采样模块202,下采样模块中包括下采样层,上采样模块包括上采样层。下采样模块与上采样模块连接。图像生成模型中还包括一个或多个参数提取模块,每个参数提取模块分别对应其中一个上采样层,即目标上采样层。
其中,源图片可以是由用户输入电子设备的原始图片,或者直接从电子设备中预设的存储位置获取的原始图片。图像生成模型可以是对源图片进行风格迁移的模型,例如源图片为实际拍摄得到的图片,在将源图片输入图像生成模型之后,依次经过图像生成模型中的上采样模块和下采样模块,图像生成模型可以基于源图片生成具有卡通风格的图片。再例如,图像生成模型可以是对图像中的人脸进行属性编辑的模型,源图片可以是实际拍摄得到的人物图片,在将源图片输入图像生成模型之后,依次经过图像生成模型中的上采样模块和下采样模块,图像生成模型可以基于源图片生成目标图片,目标图片中人物脸部的肤色、轮廓和纹理等图像特征与源图片中肤色、轮廓和纹理等图像特征不同。
需要说明的是,图像生成模型的结构不限于上述举例中的模型结构,图像生成模型的具体功能可以由用户根据实际需求,对原始的图像生成模型进行训练得到。例如,若图像生成模型用于风格迁移,则用户可以使用具有不同风格的样本图片和参考图片对模型进行训练,若图像生成模型用于人脸属性编辑,则用户可以使用具有不同人脸属性的样本图片和参考图片对模型进行训练,样本图片输入图像生成模型得到目标图片之后,可以根据目标图片与参考图片之间的差异,调整图像生成模型的模型参数,可以使用大量样本图片和参考图片完成对图像生成模型的训练,使图像生成模型具有不同的功能,具体训练过程可以根据需求设置,本实施例对此不做赘述。
步骤102、将源图片输入下采样模块进行下采样,得到下采样模块输出的中间特征图。
其中,下采样模块中可以包括顺序连接的一个或多个下采样层,每个下采样层中可以包括顺序连接的一个或多个卷积层,以及与卷积层对应的激活函数(图中未示出)。如图3所示,图3为本发明实施例中的一种下采样层的结构示意图,该下采样层可以包括三个卷积层,若该下采样层为图2中的第一下采样层,当源图片输入下采用模块之后,第一卷积层对源图片进行第一次卷积运算,得到并输出特征图(feature map),第二卷积层对第一卷积层输出的特征图进行卷积运算,得到并输出特征图,第三卷积层对第二卷积层输出的特征图进行卷积运算,得到并输出特征图。第一下采样层所包括的第三卷积层输出的特征图输入第二下采样层,依次类推,每个下采样层的输出作为与之相连接的下一个下采样层的输入。下采样模块中包括的下采样层的数量,以及每个下采样层中包括的卷积层的数量可以根据需求设置,本实施例对此不做限制。
本实施例中,在获取源图片之后,电子设备首先可以将源图片输入下采样模块进行下采样,经过下采样模块中的多个下采样层,可以从源图片中提取图像特征,得到包括源图片中的图像特征的中间特征图。结合上述举例,在获取到源图片之后,将源图片输入下采样模块中的第一个下采样层,通过多个下采样层中的多次卷积计算,可以从源图片中提取不同的图像特征,得到并向上采样模块输出中间特征图。
需要说明的是,下采样模块可以从源图片中提取颜色特征、纹理特征、形状特征和空间关系特征等图像特征,可以通过对图像生成模型的训练,使下采样模块可以从源图片中提取具体类型的图像特征。
可选地,在将源图片输入下采样模块进行下采样,得到下采样模块输出的中间特征图时,该方法还可以包括:
对目标卷积层的输入进行分组卷积,得到多组卷积结果,并将多组卷积结果交换通道后输出。
在一种实施例中,下采样层中的一个或多个卷积层可以通过分组卷积实现,如图3所示,该下采样层中的三个卷积层均可以采用分组卷积实现,例如若第一卷积层输入第二卷积层的特征图为200×200×10的特征图,即特征图的高度为200个像素、宽度为200个像素,通道数为10,可以将该特征图中的前5个通道划分为一组,后5个通道划分为另一组,两组数据分别采用10个3×3×5的卷积核进行卷积运算,可以得到两组卷积运算结果,每组结果中包括10个通道。然后可以将两组20个通道的数据交换通道(Shuffle Channels)后输出,由第三卷积层对第二卷积层的输出再次进行分组卷积,并将分组卷积得到的多组卷积结果交换通道后输出。分组卷积和交换通道的具体过程可以根据需求设置,本实施例对此不做限制。
在本发明实施例中,针对图像生成模型中的下采样层,下采样层中的部分或全部卷积层可以由分组卷积实现,从而可以降低图像生成模型的计算量,方便将图像生成模型部署在手机和平板电脑等计算能力较低的电子设备中。同时,在分组卷积之后,对分组卷积结果交换通道,可以交换多个通道之间的信息,从而可以提高模型的特征融合能力,保持模型的精度。
需要说明的是,针对每个下采样层,下采样层中的部分卷积层可以采用分组卷积实现,或者全部卷积层均可以采用分组卷积实现。针对所有下采样层,可以在部分下采样层中设置分组卷积,也可以在全部下采样层中设置分组卷积。并且,在分组卷积之后,也可以直接将分组卷积结果输出,不对分组卷积结果交换通道。
步骤103、通过参数提取模块从源图片中提取语义信息。
本实施例中,在获取源图片之后,可以将源图片输入参数提取模块,通过参数提取模块从源图片中提取语义信息。其中,语义信息可以包括视觉层的语义信息,例如源图片中的颜色特征、纹理特征和形状特征;也可以包括对象层的语义信息,例如源图片所包括的对象的状态;也可以包括概念层的语义信息。
可选地,步骤103可以包括:
通过空间自适应归一化的方式,从源图片中提取语义信息。
示例性地,如图4所示,图4为图2所示的图像生成模型的局部示意图,第一上采样层的输出端设置有输出处理层,输出处理层可以对第一上采样层的输出进行预设处理,并将处理结果输入第二上采样层进行上采样。在图4中,第一上采样层可以由反卷积层和激活函数实现,也可以由双线性上采样层实现,符号x表示参数提取模块从源图片中提取得到的语义信息。实际应用中,可以将输出处理层和第一上采样层划分为同一层,也可以划分为如图2和图4所示的两个单独层,本实施例对此不做限制。
如图5所示,图5为图2所示的图像生成模型中参数提取模块和输出处理层的结构示意图,参数提取模块可以由空间自适应去归一化(Spatially-AdaptiveDenormalization,SPADE)结构实现,SPADE结构可以从源图片中提取去归一化参数,即语义信息。参数提取模块包括第一卷积层、第二卷积层和第三卷积层,第三卷积层的输出端分别与第一卷积层和第二卷积层的输入端连接,第三卷积层用于对源图片进行卷积运算,从源图片中提取图像特征,并调节源图片的通道数与第一卷积层和第二卷积层的输入通道数匹配。第一卷积层用于从源图片中提取方差特征图,第二卷积层用于从源图片中提取均值特征图,方差特征图和均值特征图即去归一化参数,包括源图片中的语义信息。如图5所示,当源图片输入参数提取模块之后,第三卷积层可以对源图片进行卷积运算,并将卷积运算结果分别输入第一卷积层和第二卷积层,第一卷积层可以对第三卷积层的卷积结果进行卷积运算,得到对应方差的方差特征图,第二卷积层可以对第三卷积层的卷积结果进行卷积运算,得到对应均值的均值特征图。方差特征图和均值特征图中包括源图片中的语义信息,将方差特征图和均值特征图与目标上采样层输出的特征图融合之后,可以将语义信息添加到目标上采样层的输出中。其中,语义信息的提取方式可以包括但不限于上述举例。
步骤104、将中间特征图输入上采样模块进行上采样,并在目标上采样层的输出中添加语义信息,以基于中间特征图生成目标图片。
可选地,在目标上采样层的输出中添加语义信息之前,该方法还可以包括:
对目标上采样层的输出进行归一化处理。
如图5所述,在输出处理层中还可以设置归一化层,归一化层可以采用实例归一化(Instance Normalization,IN)实现,或者采用批量归一化(Batch Normalization,BN)、群组归一化(Group Normalization,GN)、层归一化(LayerNormalization,LN)中的任意一种实现。在添加语义信息之前,首先可以采用归一化层对第一上采样层的输出进行归一化处理,然后在归一化处理得到的结果中添加语义信息。归一化处理的具体过程可以根据需求设置,本实施例对此不做限制。
实际应用中,对上采样层的输出进行归一化处理,使图像生成模型在训练过程中可以快速收敛,从而可以缩短图像生成模型的训练时间。
本实施例中,可以在图像生成模型中为每个上采样层设置一个对应的参数提取模块,或者为其中的部分上采样层设置对应的参数提取模块。如图2所示,目标上采样层为第一采样层,参数提取模块与第一上采样层对应。结合图2、图4和图5所示,在将中间特征图输入上采样模块之后,当第一上采样层通过双线性上采样输出第一特征图(为便于区分,将上采样层输出的特征图命名为第一特征图)之后,可以将参数提取模块中第一卷积层提取得到的方差特征图与第一上采样层输出的第一特征图相乘,以对第一上采样层的输出进行方差去归一化,得到初始特征图。在完成方差去归一化之后,可以将得到的初始特征图与第二卷积层提取得到的均值特征图进行拼接或相加,以对第一上采样层的输出进行均值去归一化,得到目标特征图,即添加语义信息后的第一上采样层的输出。其中,采用去归一化参数对目标上采样层的输出进行去归一化的过程即将语义信息添加到目标上采样层的输出中的过程。
实际应用中,可以仅采用方差特征图对第一上采样层的输出进行方差去归一化处理,此时可以将得到的初始特征图直接输出给第二上采样层,即将方差特征图中的部分语义信息添加到第一上采样层的输出中。在方差去归一化之后,采用均值特征图继续进行均值去归一化处理,此时可以将均值去归一化得到的目标特征图输出给第二上采样层,即将均值特征图中的语义信息也添加到第一上采样层的输出中。或者,也可以仅采用均值特征图对第一上采样层的输出进行均值去归一化处理,将均值去归一化得到的特征图输出给第二上采样层,或者仅采用方差特征图对第一上采样层的输出进行方差去归一化处理,将方差去归一化得到的特征图输出给第二上采样层。
本发明实施例中,可以通过参数提取模块从源图片中提取语义信息,语义信息与源图片中的目标图像特征对应。例如在图像生成模型的训练过程中,可以训练使参数提取模块提取的语义信息中包括源图片中的纹理特征,在将语义信息添加到上采样层的输出之后,可以将源图片中的纹理特征融合到上采样层的输出中,进一步的可以将纹理特征融合到目标图片中,从而可以提高目标图片与源图片之间的相关度。
可选地,在目标上采样层的输出中添加所述语义信息之后,该方法还可以包括:
对添加语义信息后的输出依次进行分组卷积和交换通道,以混合目标上采样层的输出中的图像特征。
如图5所示,可以在输出处理层中设置分组卷积层,在第一上采样层的输出中添加语义信息,得到目标特征图之后,可以先对目标特征图进行分组卷积,然后对分组卷积结果交换通道,以混合目标特征图中的图像特征,最后将交换通道得到的结果输出给第二上采样层。实际应用中,也可以不进行交换通道,直接对目标特征图进行卷积运算,将卷积运算的结果输出给第二上采样层。
在本发明实施例中,在目标上采样层的输出中添加语义信息之后,对添加语义信息后的结果进行分组卷积,可以更好的融合目标上采样层的输出中的图像特征,同时采用分组卷积和交换通道对添加语义信息后的结果进行处理时,可以避免增加图像生成模型的计算量。
可选地,在目标上采样层的输出中添加语义信息之前,首先可以将目标上采样层的输出与对应下采样层的输入短连接(shortcut)。如图6所示,图6为本发明实施例中的另一种图像生成模型的结构示意图,图6中第一下采样层、第二下采样层和第三下采样层组成下采样模块,第一上采样层、第二上采样层和第三上采样层组成上采样模块,同时图6将上采样层和与之对应的输出处理层划分为同一层。结合图3所示,图3中符号f表示与第一上采样层对应的第三下采样层输出的特征图,第三下采样层输出的第二特征图(为便于区分,将下采样层输出的特征图命名为第二特征图)与第一上采样层输出的特征图的通道数相同,可以将第三下采样层输出的第二特征图与第一上采样层输出的第一特征图进行短连接,将第一特征图和第二特征图进行拼接或相加,从而可以将第三下采样层输出的第二特征图中的图像特征融合到第一上采样层的输出中。同理,可以将第二下采样层输出的第二特征图g与第二上采样层输出的第一特征图进行短连接,以及将第一下采样层输出的第二特征图h与第三上采样层输出的第一特征图进行短连接。
实际应用中,从下采用模块中确定与上采样层对应的一个下采样层,将对应上采样层和下采样层输出的特征图进行短连接,可以从下采样层输出的特征图中提取图像特征融合到上采样层中,可以提高模型的精度,从而可以提高目标图片与源图片之间的关联度。
需要说明的是,本发明实施例中的图像生成模型中包括参数提取模块,在模型训练过程中,在将样本图片输入图像生成模型的过程中,需要将样本图片分别输入下采样模块和参数提取模块,并且在将下采样模块输出的中间特征图输入上采样模块时,需要将参数提取模块提取的语义信息添加到目标上采样层的输出中,在根据目标图片与参考图片之间的差异调整图像生成模型的模型参数时,需要同时调整参数提取模块中的参数。
综上所述,本发明实施例中,获取源图片,将源图片输入下采样模块进行下采样,得到下采样模块输出的中间特征图,通过参数提取模块从源图片中提取语义信息,将中间特征图输入上采样模块进行上采样,并在目标上采样层的输出中添加语义信息,以基于中间特征图生成目标图片。从源图片中提取语义信息添加到上采样层的输出中,可以将源图片中的图像特征融合到目标图片中,从而可以提高模型融合特征的能力,可以提高目标图片与源图片之间的关联度。
可选地,获取源图片可以通过如下方式实现:
获取原始图片;
将原始图片像素重组为目标尺寸和目标通道数的源图片,以保留原始图片中的像素信息;
其中,目标尺寸小于原始图片的尺寸、且与图像生成模型的输入尺寸匹配,目标通道数大于原始图片的通道数、且与图像生成模型的输入通道数匹配。
在一种实施例中,可以对原始图片进行像素重组(PixelShuffle),得到源图片,原始图片为用户输入电子设备的图片,或者存储在电子设备预设位置的图片。如图6所示,图像生成模型中还可以包括第一像素重组层,第一像素重组层的输出与下采样模块的输入连接,原始图片可以先输入第一像素重组层,第一像素重组层可以对输入的原始图片进行像素重组,增加原始图片的通道数,缩小原始图片的尺寸,并按预设规则重组原始图片中的像素,以保留原始图片中的像素信息。例如,图片规格可以用(c,h,w)表示,符号c表示图片的通道数,符号h表示图片的高度,符号w表示图片的宽度,若原始图片的规格为(c,h,w),则像素重组得到的源图片可以为(4c,h/2,w/2),即将原始图片的高度和宽度均缩小二分之一,并将原始图片的通道数扩大为4倍,得到源图片,扩大后的图片尺寸即目标尺寸,扩大后的通道数即目标通道数,目标尺寸与图像生成模型的输入尺寸匹配,目标通道数与与图像生成模型的通道数匹配,可以将源图片输入上采样模块和参数提取模块。像素重组的具体过程可以根据需求设置,本实施例对此不做限制。
在本发明实施例中,在获取原始图片之后,对原始图片进行像素重组,得到源图片,像素重组后的源图片相比于原始图片尺寸变小、通道数增加,并保留了原始图片中的像素信息,使得输入图像生成模型的图片尺寸变小,从而可以降低图像生成模型的计算量。
可选地,该方法还可以包括:
对上采样模块输入的目标图片进行像素重组,将目标图片的尺寸修改为目标尺寸。
在一种实施例中,可以对目标图片进行像素重组,从而可以将目标图片的尺寸调整到目标尺寸。如图6所示,在图像生成模型的输出端可以设置第二像素重组层,下采样模块的输出连接第二像素重组层的输入,第二像素重组层可以对输入的目标图片进行像素重组。结合上述举例,若目标图片的尺寸为(4c,h/2,w/2),则可以对目标图片进行像素重组,将目标图片的尺寸调整为(c,h,w),使目标图片的尺寸恢复至原始图片的尺寸和通道数。其中,也可以通过第二像素重组层将目标图片的尺寸调整到其他尺寸,本实施例对此不做限制。
可选地,图像生成模型中还可以包括中间层,中间层用于对下采样模块输出的中间特征图进行卷积运算,并将卷积运算的结果输入上采样模块。
如图6所示,中间层的输入与下采样模块的输出连接,中间层的输出与上采样模块的输入连接。中间层在接收到下采样模块输出的中间特征图之后,可以先对中间特征图进行分组卷积,然后将分组卷积得到的多组卷积结果交换通道后输出给上采样模块。其中,中间层也可以通过其他卷积方式实现,本实施例对此不作限制。
在本发明实施例中,图像生成模块中包括中间层,中间层可以对中间特征图进行卷积运算,以融合中间特征图中的图像特征,提高模型的精度。进一步的,当中间层采用分组卷积和交换通道时,可以降低模型的计算量,便于模型部署在较小的设备中。
参照图7,图7为本发明实施例中的一种图像生成装置的结构框图,如图7所示,本实施例提供的图像生成装置设置于电子设备,电子设备预置有预先训练得到的图像生成模型,图像生成模型包括下采样模块和上采样模块,上采样模块包括顺序连接的多个上采样层,以及目标上采样层对应的参数提取模块;装置700包括:
获取模块701,用于获取源图片;
输出模块702,用于将源图片输入下采样模块进行下采样,得到下采样模块输出的中间特征图;提取模块703,用于通过参数提取模块从源图片中提取语义信息;
生成模块704,用于将中间特征图输入上采样模块进行上采样,并在目标上采样层的输出中添加语义信息,以基于中间特征图生成目标图片。
可选地,提取模块703,具体用于通过空间自适应归一化的方式,从源图片中提取语义信息。
可选地,生成模块704,还用于对添加语义信息后的输出依次进行分组卷积和交换通道,以混合目标上采样层的输出中的图像特征。
可选地,获取模块701,具体用于获取原始图片;将原始图片像素重组为目标尺寸和目标通道数的源图片,以保留原始图片中的像素信息;其中,目标尺寸小于原始图片的尺寸,目标通道数大于原始图片的通道数。
可选地,下采样模块中包括一个或多个下采样层,下采样层中包括一个或多个卷积层;输出模块702,还用于对目标卷积层的输入进行分组卷积,得到多组卷积结果,并将多组卷积结果交换通道后输出。
可选地,生成模块704,还用于对目标上采样层的输出进行归一化处理。
综上所述,本发明实施例中,获取源图片,将源图片输入下采样模块进行下采样,得到下采样模块输出的中间特征图,通过参数提取模块从源图片中提取语义信息,将中间特征图输入上采样模块进行上采样,并在目标上采样层的输出中添加语义信息,以基于中间特征图生成目标图片。从源图片中提取语义信息添加到上采样层的输出中,可以将源图片中的图像特征融合到目标图片中,从而可以提高模型融合特征的能力,可以提高目标图片与源图片之间的关联度。
参照图8,图8为本发明实施例中的一种电子设备的结构示意图,如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信;
存储器803,用于存放计算机程序;
处理器801,用于执行存储器803上所存放的程序时,实现如下步骤:
获取源图片;
将源图片输入下采样模块进行下采样,得到下采样模块输出的中间特征图;
通过参数提取模块从源图片中提取语义信息;
将中间特征图输入上采样模块进行上采样,并在目标上采样层的输出中添加语义信息,以基于中间特征图生成目标图片。
综上所述,本发明实施例中,获取源图片,将源图片输入下采样模块进行下采样,得到下采样模块输出的中间特征图,通过参数提取模块从源图片中提取语义信息,将中间特征图输入上采样模块进行上采样,并在目标上采样层的输出中添加语义信息,以基于中间特征图生成目标图片。从源图片中提取语义信息添加到上采样层的输出中,可以将源图片中的图像特征融合到目标图片中,从而可以提高模型融合特征的能力,可以提高目标图片与源图片之间的关联度。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种可读存储介质,该可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一实施例所述的方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在可读存储介质中,或者从一个可读存储介质向另一个可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、第一服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、第一服务器或数据中心进行传输。所述可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的第一服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid StateDisk (SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (9)
1.一种图像生成方法,其特征在于,应用于电子设备,所述电子设备预置有预先训练得到的图像生成模型,所述图像生成模型包括下采样模块和上采样模块,所述上采样模块包括顺序连接的多个上采样层,以及目标上采样层对应的参数提取模块;所述方法包括:
获取源图片;
将所述源图片输入所述下采样模块进行下采样,得到所述下采样模块输出的中间特征图;
通过所述参数提取模块从所述源图片中提取语义信息;
将所述中间特征图输入所述上采样模块进行上采样,并在所述目标上采样层的输出中添加所述语义信息,以基于所述中间特征图生成目标图片;
其中,在所述目标上采样层的输出中添加所述语义信息之后,还包括:对添加语义信息后的输出依次进行分组卷积和交换通道,以混合所述目标上采样层的输出中的图像特征;
其中,所述通过所述参数提取模块从所述源图片中提取语义信息,包括:通过所述参数提取模块从所述源图片中提取包括所述语义信息的方差特征图和/或均值特征图;
所述在所述目标上采样层的输出中添加所述语义信息,包括:将所述方差特征图和/或所述均值特征图与所述目标上采样层输出的第一特征图进行融合。
2.根据权利要求1所述的方法,其特征在于,所述通过所述参数提取模块从所述源图片中提取语义信息,包括:通过空间自适应归一化的方式,从所述源图片中提取所述语义信息。
3.根据权利要求1所述的方法,其特征在于,所述获取源图片,包括:
获取原始图片;
将所述原始图片像素重组为目标尺寸和目标通道数的所述源图片,以保留所述原始图片中的像素信息;
其中,所述目标尺寸小于所述原始图片的尺寸,所述目标通道数大于所述原始图片的通道数。
4.根据权利要求1所述的方法,其特征在于,所述下采样模块中包括一个或多个下采样层,所述下采样层中包括一个或多个卷积层;在所述将所述源图片输入所述下采样模块进行下采样,得到所述下采样模块输出的中间特征图时,包括:
对目标卷积层的输入进行分组卷积,得到多组卷积结果,并将所述多组卷积结果交换通道后输出。
5.根据权利要求1-4中任一项所述的方法,其特征在于,在所述目标上采样层的输出中添加所述语义信息之前,还包括:
对所述目标上采样层的输出进行归一化处理。
6.一种图像生成装置,其特征在于,设置于电子设备,所述电子设备预置有预先训练得到的图像生成模型,所述图像生成模型包括下采样模块和上采样模块,所述上采样模块包括顺序连接的多个上采样层,以及目标上采样层对应的参数提取模块;所述装置包括:
获取模块,用于获取源图片;
输出模块,用于将所述源图片输入所述下采样模块进行下采样,得到所述下采样模块输出的中间特征图;提取模块,用于通过所述参数提取模块从所述源图片中提取语义信息;
生成模块,用于将所述中间特征图输入所述上采样模块进行上采样,并在所述目标上采样层的输出中添加所述语义信息,以基于所述中间特征图生成目标图片;
所述生成模块还用于对添加语义信息后的输出依次进行分组卷积和交换通道,以混合所述目标上采样层的输出中的图像特征;
其中,所述提取模块具体用于通过所述参数提取模块从所述源图片中提取包括所述语义信息的方差特征图和/或均值特征图;
所述在所述目标上采样层的输出中添加所述语义信息,包括:将所述方差特征图和/或所述均值特征图与所述目标上采样层输出的第一特征图进行融合。
7.根据权利要求6所述的装置,其特征在于,所述提取模块,具体用于通过空间自适应归一化的方式,从所述源图片中提取所述语义信息。
8.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的所述计算机程序时,实现权利要求1-5任一项所述的方法。
9.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111156886.5A CN113610704B (zh) | 2021-09-30 | 2021-09-30 | 图像生成方法、装置、设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111156886.5A CN113610704B (zh) | 2021-09-30 | 2021-09-30 | 图像生成方法、装置、设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113610704A CN113610704A (zh) | 2021-11-05 |
CN113610704B true CN113610704B (zh) | 2022-02-08 |
Family
ID=78343278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111156886.5A Active CN113610704B (zh) | 2021-09-30 | 2021-09-30 | 图像生成方法、装置、设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113610704B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109118491A (zh) * | 2018-07-30 | 2019-01-01 | 深圳先进技术研究院 | 一种基于深度学习的图像分割方法、系统及电子设备 |
CN111382759A (zh) * | 2018-12-28 | 2020-07-07 | 广州市百果园信息技术有限公司 | 一种像素级分类方法、装置、设备及存储介质 |
CN111931779A (zh) * | 2020-08-10 | 2020-11-13 | 韶鼎人工智能科技有限公司 | 一种基于条件可预测参数的图像信息提取与生成方法 |
CN112102303A (zh) * | 2020-09-22 | 2020-12-18 | 中国科学技术大学 | 基于单图像生成对抗网络的语义图像类比方法 |
CN112884893A (zh) * | 2021-03-15 | 2021-06-01 | 南京邮电大学 | 基于非对称卷积网络和注意力机制的跨视角图像生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190147296A1 (en) * | 2017-11-15 | 2019-05-16 | Nvidia Corporation | Creating an image utilizing a map representing different classes of pixels |
-
2021
- 2021-09-30 CN CN202111156886.5A patent/CN113610704B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109118491A (zh) * | 2018-07-30 | 2019-01-01 | 深圳先进技术研究院 | 一种基于深度学习的图像分割方法、系统及电子设备 |
CN111382759A (zh) * | 2018-12-28 | 2020-07-07 | 广州市百果园信息技术有限公司 | 一种像素级分类方法、装置、设备及存储介质 |
CN111931779A (zh) * | 2020-08-10 | 2020-11-13 | 韶鼎人工智能科技有限公司 | 一种基于条件可预测参数的图像信息提取与生成方法 |
CN112102303A (zh) * | 2020-09-22 | 2020-12-18 | 中国科学技术大学 | 基于单图像生成对抗网络的语义图像类比方法 |
CN112884893A (zh) * | 2021-03-15 | 2021-06-01 | 南京邮电大学 | 基于非对称卷积网络和注意力机制的跨视角图像生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113610704A (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104962B (zh) | 图像的语义分割方法、装置、电子设备及可读存储介质 | |
CN111476719B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN111369440B (zh) | 模型训练、图像超分辨处理方法、装置、终端及存储介质 | |
CN111028142A (zh) | 图像处理方法、装置和存储介质 | |
CN113538281B (zh) | 图像去噪方法、装置、计算机设备和存储介质 | |
CN114067389A (zh) | 一种面部表情的分类方法和电子设备 | |
CN114792355B (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
CN111709415B (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN113298931B (zh) | 一种物体模型的重建方法、装置、终端设备和存储介质 | |
EP4213097A1 (en) | Image generation method and apparatus | |
CN111967478B (zh) | 一种基于权重翻转的特征图重构方法、系统、存储介质及终端 | |
CN113313162A (zh) | 一种多尺度特征融合目标检测的方法及系统 | |
CN113610704B (zh) | 图像生成方法、装置、设备和可读存储介质 | |
CN113592074B (zh) | 一种训练方法、生成方法及装置、电子设备 | |
CN114239760B (zh) | 多模态模型训练以及图像识别方法、装置、电子设备 | |
CN116258873A (zh) | 一种位置信息确定方法、对象识别模型的训练方法及装置 | |
CN112801045B (zh) | 一种文本区域检测方法、电子设备及计算机存储介质 | |
CN112116700B (zh) | 基于单目视图的三维重建方法与装置 | |
CN109684143B (zh) | 一种基于深度学习的测试gpu性能的方法及装置 | |
CN112419216A (zh) | 图像去干扰方法、装置、电子设备及计算机可读存储介质 | |
CN113111891B (zh) | 一种图像重建方法、装置、终端设备和存储介质 | |
CN112102193B (zh) | 图像增强网络的训练方法、图像处理方法及相关设备 | |
CN116991919B (zh) | 结合平台数据库的业务数据检索方法及人工智能系统 | |
CN112329925B (zh) | 模型生成方法、特征提取方法、装置及电子设备 | |
EP4170546A1 (en) | Data processing method and apparatus, and related device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |