CN113538604B - 图像生成方法、装置、设备及介质 - Google Patents
图像生成方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113538604B CN113538604B CN202010316150.9A CN202010316150A CN113538604B CN 113538604 B CN113538604 B CN 113538604B CN 202010316150 A CN202010316150 A CN 202010316150A CN 113538604 B CN113538604 B CN 113538604B
- Authority
- CN
- China
- Prior art keywords
- feature map
- image
- channel attention
- image generation
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000012549 training Methods 0.000 claims abstract description 86
- 238000012545 processing Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 38
- 238000004590 computer program Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 10
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 230000003042 antagnostic effect Effects 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 9
- 238000004364 calculation method Methods 0.000 abstract description 8
- 238000013519 translation Methods 0.000 abstract description 8
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 230000009471 action Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000008033 biological extinction Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种图像生成方法、装置、设备及介质。该方法包括:获取训练图像;基于信道注意网络中的编码器处理训练图像,生成第一特征图,基于信道注意网络中的解码器处理训练图像,生成第二特征图;基于信道注意网络中的多通道注意力模块对第一特征图和第二特征图进行整合,生成第三特征图;基于第三特征图对信道注意网络进行训练,得到图像生成模型;基于该模型对待处理图像进行处理,得到图像生成结果。如此能够获得带有多通道注意力模块的图像生成模型,该模型可以在不需要配对数据的情况下将输入图像从一个域转换为多个域,而且,基于该模型生成目标图像,不仅可以提高图像平移任务的性能,还可以减少计算参数,提高图像生成效果。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种图像生成方法、装置、设备和计算机可读存储介质。
背景技术
现有的图像翻译模型大多采用自编码网络,先将源域中的输入图像编码为中间表示,中间表示是输入图像内容的高级抽象,然后根据条件域向量将其解码为目标域的图像。
但是,直接在目标域中生成图像会给解码器带来很大的负担,并且会导致较差的结果,因为不同的域转换可能会对输入图像进行全局、局部甚至抽象的操作。
发明内容
本发明实施例提供了一种图像生成方法、装置、设备和计算机可读存储介质,能够在不需要配对数据的情况下将输入图像从一个域转换为多个域,可以提高图像平移任务的性能,减少计算参数,提高图像生成效果。
第一方面,本发明实施例提供一种图像生成模型训练方法,该方法包括:获取训练图像;基于信道注意网络中的编码器处理训练图像,生成第一特征图,以及基于信道注意网络中的解码器处理训练图像,生成第二特征图;基于信道注意网络中的多通道注意力模块对第一特征图和第二特征图进行整合,生成第三特征图;基于第三特征图对信道注意网络进行训练,得到图像生成模型;其中,信道注意网络是将多通道注意力模块添加至U-Net模型中并进行调整而得到的,信道注意网络中的编码器和解码器之间跳跃连接。
在第一方面的一些可实现方式中,基于信道注意网络中的多通道注意力模块对第一特征图和第二特征图进行整合,生成第三特征图,包括:基于多通道注意力模块,对第一特征图进行全局平均池化,生成信道统计量,将信道统计量与预设的先验知识量连接,并进行降维转换,生成全连接特征向量,基于第一特征图、第二特征图以及全连接特征向量,生成第三特征图。
在第一方面的一些可实现方式中,基于第三特征图对信道注意网络进行训练,包括:基于第三特征图、信道注意网络的损失函数、自适应矩估计Adam优化算法,对信道注意网络的参数进行调整。
在第一方面的一些可实现方式中,信道注意网络的损失函数包括对抗损失函数和辅助分类损失函数。
第二方面,本发明实施例提供一种图像生成方法,该方法包括:获取待处理图像;基于图像生成模型对待处理图像进行图像生成,得到图像生成结果,其中,图像生成模型基于第一方面或者第一方面任一可实现方式中所述的图像生成模型训练方法得到。
第三方面,本发明实施例提供一种图像生成模型训练装置,该装置包括:获取模块,用于获取训练图像;生成模块,用于基于信道注意网络中的编码器处理训练图像,生成第一特征图,以及基于信道注意网络中的解码器处理训练图像,生成第二特征图;整合模块,用于基于信道注意网络中的多通道注意力模块对第一特征图和第二特征图进行整合,生成第三特征图;训练模块,用于基于第三特征图对信道注意网络进行训练,得到图像生成模型;其中,信道注意网络是将多通道注意力模块添加至U-Net模型中并进行调整而得到的,信道注意网络中的编码器和解码器之间跳跃连接。
在第三方面的一些可实现方式中,整合模块具体用于:基于多通道注意力模块,对第一特征图进行全局平均池化,生成信道统计量,将信道统计量与预设的先验知识量连接,并进行降维转换,生成全连接特征向量,基于第一特征图、第二特征图以及全连接特征向量,生成第三特征图。
在第三方面的一些可实现方式中,训练模块具体用于:基于第三特征图、信道注意网络的损失函数、Adam优化算法,对信道注意网络的参数进行调整。
在第三方面的一些可实现方式中,信道注意网络的损失函数包括对抗损失函数和辅助分类损失函数。
第四方面,本发明实施例提供一种图像生成装置,该装置包括:获取模块,用于获取待处理图像;生成模块,用于基于图像生成模型对待处理图像进行图像生成,得到图像生成结果,其中,图像生成模型基于第一方面或者第一方面任一可实现方式中所述的图像生成模型训练方法得到。
第五方面,本发明实施例提供一种图像生成设备,该设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现第一方面或者第一方面任一些可实现方式中所述的图像生成模型训练方法,或者,处理器执行计算机程序指令时实现第二方面所述的图像生成方法。
第六方面,本发明实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面或者第一方面任一些可实现方式中所述的图像生成模型训练方法,或者,计算机程序指令被处理器执行时实现第二方面所述的图像生成方法。
本发明实施例提供的一种图像生成模型训练方法、图像生成方法、装置、设备和计算机可读存储介质。本发明实施例的图像生成模型训练方法、装置,基于信道注意网络中的编码器处理训练图像,生成第一特征图,基于信道注意网络中的解码器处理训练图像,生成第二特征图,基于信道注意网络中的多通道注意力模块对第一特征图和第二特征图进行整合,生成第三特征图,基于第三特征图对信道注意网络进行训练,得到图像生成模型,如此能够获得带有多通道注意力模块的图像生成模型,该模型可以在不需要配对数据的情况下将输入图像从一个域转换为多个域。本发明实施例的图像生成方法、装置能够基于图像生成模型对待处理图像进行处理,得到图像生成结果。如此能够基于该模型生成目标图像,不仅可以提高图像平移任务的性能,还可以减少计算参数,缩短训练时间,提高图像生成效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种图像生成模型训练方法的流程示意图;
图2是本发明实施例提供的一种生成器的结构示意图;
图3是本发明实施例提供的另一种生成器的结构示意图;
图4是本发明实施例提供的一种多通道注意力模块的示意图;
图5是本发明实施例提供的一种图像生成方法的流程示意图;
图6是本发明实施例提供的一种基于图像生成模型以及其他模型的生成效果示意图;
图7是本发明实施例提供的一种图像生成模型训练装置的结构示意图;
图8是本发明实施例提供的一种图像生成装置的结构示意图;
图9是本发明实施例提供的一种图像生成设备的结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
目前,图像-图像转换方法通常采用编码器-解码器结构来生成图像。编码器使用卷积层序列提取输入图像的特征直到瓶颈层,然后将中间特征解码到目标图像。换句话说,现有的图像翻译模型大多采用自编码网络,先将源域中的输入图像编码为中间表示,然后根据条件域向量将其解码为目标域的图像。中间表示是输入图像内容的高级抽象。
但是,直接在目标域中生成图像会给解码器带来很大的负担,并且会导致较差的结果,因为不同的域转换可能会对输入图像进行全局、局部甚至抽象的操作。
针对于此,发明人经过大量的研究与实验得到,对于给定一个输入图像x和目标域c,可以训练单个生成器G,该生成器是从源域到目标域的映射G(x,c)→y。首先,可以将输入图像x通过多层卷积提取图像特征。然后,将图像的隐藏层特征进一步映射。最后,可以通过几个反卷积层解码回目标图像y。为了更好地利用编码器中的特征映射对目标图像进行解码,发明人在编码器和解码器中相应的层之间添加了跳跃连接。此外,由于特征映射的不同通道具有不同的语义,并且只有特定的通道与目标域相关,发明人在跳跃连接中加入了多通道注意力模块,最终得到信道注意网络。由于跳跃连接的存在,可以使用两种特征图来计算结果特征图,在没有增加计算参数的情况下,能够同时预测两个特征图的通道注意掩膜。
进一步,本发明实施例提供了一种图像生成模型训练方法、图像生成方法、装置、设备和计算机可读存储介质。
首先,本发明实施例的图像生成模型训练方法基于信道注意网络中的编码器处理训练图像,生成第一特征图,基于信道注意网络中的解码器处理训练图像,生成第二特征图,基于信道注意网络中的多通道注意力模块对第一特征图和第二特征图进行整合,生成第三特征图,基于第三特征图对信道注意网络进行训练,得到图像生成模型,如此能够获得带有多通道注意力模块的图像生成模型,该模型可以在不需要配对数据的情况下将输入图像从一个域转换为多个域。
而且,本发明实施例的图像生成方法能够基于图像生成模型对待处理图像进行处理,得到图像生成结果。如此能够基于该模型生成目标图像,不仅可以提高图像平移任务的性能,还可以减少计算参数,缩短训练时间,提高图像生成效果。
由于本发明实施例提供的图像生成方法需要使用到图像生成模型,因此,下面首先结合附图对本发明实施例所提供的图像生成模型训练方法进行介绍。
图1是本发明实施例提供的一种图像生成模型训练方法的流程示意图。如图1所示,该图像生成模型训练方法100可以包括S110至S140。
S110,获取训练图像。
可以对原始图像进行图像预处理,将预处理后的图像作为训练图像,用于后续的训练。
S120,基于信道注意网络中的编码器处理训练图像,生成第一特征图,以及基于信道注意网络中的解码器处理训练图像,生成第二特征图。
其中,信道注意网络可以是将多通道注意力模块添加至U-net模型中并进行调整而得到的,信道注意网络中的编码器和解码器之间可以跳跃连接。
通常情况下,U-net模型中的编码器和解码器可以协同构成生成器,作为一个示例,生成器的结构可以如图2所示,左边是编码器部分,右边是解码器部分,编码器和解码器之间具有对称的结构,编码器通过卷积层对输入图像x不断下采样得到瓶颈层。之后,解码器使用相同数量的反卷积层解码回目标图像y。但是,这种结构的缺点是输入需要通过网络中的所有的层,当网络变得更深时,可能会出现梯度消失或者梯度爆炸的问题。
为了解决图2所示结构的缺点,在一些实施例中,编码器和解码器之间可以跳跃连接,如图3所示,通过使用跳跃连接的方式,只将编码器中的特征映射与解码器中的对应映射连接在一起,可以有助于解决梯度消失或者梯度爆炸的问题。可是在此基础上分别基于编码器和解码器处理输入图像x,会生成第一特征图,以及第二特征图,会使解码器中的参数变成编码器中的两倍,针对于此,可以引入基于多通道注意力机制构建的多通道注意力模块并进行相应的调整,进而可以得到信道注意网络,即一种高效率的新生成器。
S130,基于信道注意网络中的多通道注意力模块对第一特征图和第二特征图进行整合,生成第三特征图。
可选地,在一个实施例中,可以基于多通道注意力模块,对第一特征图进行全局平均池化,生成信道统计量,将信道统计量与预设的先验知识量连接,并进行降维转换,生成全连接特征向量,基于第一特征图、第二特征图以及全连接特征向量,生成第三特征图。
S140,基于第三特征图对信道注意网络进行训练,得到图像生成模型。
可选地,在一个实施例中,可以基于第三特征图、信道注意网络的损失函数、Adam优化算法,对信道注意网络的参数进行优化调整。其中,可选地,在一个实施例中,信道注意网络的损失函数可以包括对抗损失函数和辅助分类损失函数。
在一些实施例中,对抗损失函数可以是:
其中,x表示训练图像。G表示信道注意网络,c表示目标域,将输入的训练图像x转换至目标域,Dsrc表示根据概率确定的鉴别函数。
为了将训练图像通过信道注意网络从源域转换成目标域,可以添加一个辅助分类损失函数,该辅助分类损失函数不仅有助于识别真假的图像,还有助于预测图像的区域,该辅助分类损失函数具体地可以是:
其中,c'表示原始域,表示虚假图片即生成图片的域分类损失,/>表示真实图片的域分类损失。
在Adam优化算法中,可以设置β1=0,β2=0.999,其中,β1、β2为Adam优化算法中的参数,β1为第一矩,β2是第二矩。在损失函数中,可以设置λcls=1,λclc=10,其中,λcls是虚假(fake)分类函数的超参数即正则化参数,λclc是真实(real)分类函数的超参数即正则化参数。可以在前10个迭代次数(epoch)中以0.0001的学习率进行训练,并在接下来的10个迭代次数(epoch)中将学习率线性衰减为0。
本发明实施例的图像生成模型训练方法,基于信道注意网络中的编码器处理训练图像,生成第一特征图,基于信道注意网络中的解码器处理训练图像,生成第二特征图,基于信道注意网络中的多通道注意力模块对第一特征图和第二特征图进行整合,生成第三特征图,使得在不增加解码器中特征图的通道数量的情况下,将两个特征图融合在一起,基于第三特征图对信道注意网络进行训练,得到图像生成模型,如此能够获得带有多通道注意力模块的图像生成模型,该模型可以更好地将编码器中的低层信息传送到解码器,在不需要配对数据的情况下,将输入图像从一个域转换为多个域。
下面结合一个具体的实施例对S130进行说明,具体地,多通道注意力模块可以如图4所示,Ui和Vi是训练图像分别经过编码器和解码器处理,获得的一对特征图,Ui表示第一特征图,Vi表示第二特征图,也可以理解为特征映射,Ui为编码特征映射,Vi为解码特征映射,C表示卷积层。首先可以将第一、第二特征图输入到多通道注意力模块,其次将第一特征图Ui输入到全局平均池化函数F1(·)进行全局平均池化,并生成信道统计量Zu,具体如下:
其中,H,W表示第一特征图的宽度和高度,在全局平均池化之后,可以将信道统计量Zu与预设的先验知识量k连接在一起,通过第一转换函数F2(·,·)进行降维转换,生成全连接特征向量ai,具体如下:
其中,表示Zu与k的相连接,之后所得到的新向量输入到两个全连接层中,使新向量维度减少,即与两个全连接层中的权重相乘,权重值可以在训练中得到,该式子中的W1与W2分别表示两个全连接层的权重,σ表示sigmoid激活函数,δ表示线性整流函数(Rectified Linear Unit,ReLU)。
最后,基于第一特征图Ui、第二特征图Vi以及全连接特征向量ai,生成第三特征图。具体如下:
Zi=F3(ai,Ui)+F3(1-ai,Vi)=Ui′+Vi′=ai×Ui+(1-ai)×Vi (6)
U′i=F3(ai,Ui)=ai×Ui (7)
Vi′=F3(1-ai,Vi)=(1-ai)×Vi (8)
其中,F3(·,·)表示第二转换函数。Zi表示第三特征图。如此能够在没有增加计算参数的情况下,将第一、第二特征图融合,同时预测两个特征图的通道注意掩膜。
基于本发明实施例的图像生成模型训练方法,本发明实施例还提供了一种图像生成方法,如图5所示,图5是本发明实施例提供的一种图像生成方法的流程示意图,该图像生成方法200可以包括S210至S220。
S210,获取待处理图像。
S220,基于图像生成模型对待处理图像进行图像生成,得到图像生成结果。
其中,图像生成模型基于图1所述的图像生成模型训练方法得到。
为了更直观的看出本发明实施例的图像生成模型的图像生成效果,现与多个现有的模型进行生成效果对比,如图6所示,IcGAN模型、CycleGAN模型、StarGAN模型以及本发明实施例的图像生成模型从发色、性别、表情中的一项或多项进行图像生成,可以看出,基于本发明实施例的图像生成模型进行图像生成的效果要优于现有的模型。
本发明实施例的图像生成方法,能够基于图像生成模型对待处理图像进行处理,得到图像生成结果。如此能够基于该模型生成目标图像,不仅可以提高图像平移任务的性能,还可以减少计算参数,缩短训练时间,提高图像生成效果。
图7是本发明实施例提供的一种图像生成模型训练装置的结构示意图,如图7所示,该图像生成模型训练装置300可以包括:获取模块310、生成模块320、整合模块330、训练模块340。
其中,获取模块310,用于获取训练图像。生成模块320,用于基于信道注意网络中的编码器处理训练图像,生成第一特征图,以及基于信道注意网络中的解码器处理训练图像,生成第二特征图。整合模块330,用于基于信道注意网络中的多通道注意力模块对第一特征图和第二特征图进行整合,生成第三特征图。训练模块340,用于基于第三特征图对信道注意网络进行训练,得到图像生成模型。其中,信道注意网络是将多通道注意力模块添加至U-Net模型中并进行调整而得到的,信道注意网络中的编码器和解码器之间跳跃连接。
在一些实施例中,整合模块330具体用于:基于多通道注意力模块,对第一特征图进行全局平均池化,生成信道统计量,将信道统计量与预设的先验知识量连接,并进行降维转换,生成全连接特征向量,基于第一特征图、第二特征图以及全连接特征向量,生成第三特征图。
在一些实施例中,训练模块340具体用于:基于第三特征图、信道注意网络的损失函数、Adam优化算法,对信道注意网络的参数进行调整。
在一些实施例中,信道注意网络的损失函数包括对抗损失函数和辅助分类损失函数。
可以理解的是,本发明实施例的图像生成模型训练装置300,可以对应于本发明实施例图1中的图像生成模型训练方法的执行主体,图像生成模型训练装置300的各个模块/单元的操作和/或功能的具体细节可以参见上述本发明实施例图1的图像生成模型训练方法中的相应部分的描述,为了简洁,在此不再赘述。
图8是本发明实施例提供的一种图像生成装置的结构示意图,如图8所示,该图像生成装置400可以包括:获取模块410、生成模块420。
其中,获取模块410,用于获取待处理图像。生成模块420,用于基于图像生成模型对待处理图像进行图像生成,得到图像生成结果。其中,图像生成模型基于图1所述的图像生成模型训练方法得到。
本发明实施例的图像生成装置,能够基于图像生成模型对待处理图像进行处理,得到图像生成结果。如此能够基于该模型生成目标图像,不仅可以提高图像平移任务的性能,还可以减少计算参数,缩短训练时间,提高图像生成效果。
可以理解的是,本发明实施例的图像生成装置400,可以对应于本发明实施例图5中的图像生成方法的执行主体,图像生成装置400的各个模块/单元的操作和/或功能的具体细节可以参见上述本发明实施例图5的图像生成方法中的相应部分的描述,为了简洁,在此不再赘述。
图9是本发明实施例提供的一种图像生成设备的硬件结构示意图。
如图9所示,本实施例中的图像生成设备500包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505、以及输出设备506。其中,输入接口502、中央处理器503、存储器504、以及输出接口505通过总线510相互连接,输入设备501和输出设备506分别通过输入接口502和输出接口505与总线510连接,进而与图像生成设备500的其他组件连接。
具体地,输入设备501接收来自外部的输入信息,并通过输入接口502将输入信息传送到中央处理器503;中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器504中,然后通过输出接口505将输出信息传送到输出设备506;输出设备506将输出信息输出到图像生成设备500的外部供用户使用。
在一个实施例中,图9所示的图像生成设备500包括:存储器504,用于存储程序,处理器503,用于运行存储器中存储的程序,以执行图1所示实施例提供的图像生成模型训练方法或图5所示实施例提供的图像生成方法。
本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,该计算机程序指令被处理器执行时实现图1所示实施例提供的图像生成模型训练方法或图5所示实施例提供的图像生成方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,做出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器(Read-Only Memory,ROM)、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(Radio Frequency,RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种图像生成模型训练方法,其特征在于,所述方法包括:
获取训练图像;
基于信道注意网络中的编码器处理所述训练图像,生成第一特征图,以及基于所述信道注意网络中的解码器处理所述训练图像,生成第二特征图;
基于所述信道注意网络中的多通道注意力模块对所述第一特征图和所述第二特征图进行整合,生成第三特征图;
基于所述第三特征图对所述信道注意网络进行训练,得到图像生成模型;
所述信道注意网络是将所述多通道注意力模块添加至U-Net模型中并进行调整而得到的,所述信道注意网络中的编码器和解码器之间跳跃连接;
所述基于所述信道注意网络中的多通道注意力模块对所述第一特征图和所述第二特征图进行整合,生成第三特征图,包括:
基于所述多通道注意力模块,对所述第一特征图进行全局平均池化,生成信道统计量,将所述信道统计量与预设的先验知识量连接,并进行降维转换,生成全连接特征向量,基于所述第一特征图、所述第二特征图以及所述全连接特征向量,生成所述第三特征图。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第三特征图对所述信道注意网络进行训练,包括:
基于所述第三特征图、所述信道注意网络的损失函数、自适应矩估计Adam优化算法,对所述信道注意网络的参数进行调整。
3.根据权利要求2所述的方法,其特征在于,所述信道注意网络的损失函数包括对抗损失函数和辅助分类损失函数。
4.一种图像生成方法,其特征在于,所述方法包括:
获取待处理图像;
基于所述图像生成模型对所述待处理图像进行图像生成,得到图像生成结果,其中,所述图像生成模型基于权利要求1-3任意一项所述的图像生成模型训练方法得到。
5.一种图像生成模型训练装置,其特征在于,所述装置包括:
获取模块,用于获取训练图像;
生成模块,用于基于信道注意网络中的编码器处理所述训练图像,生成第一特征图,以及基于所述信道注意网络中的解码器处理所述训练图像,生成第二特征图;
整合模块,用于基于所述信道注意网络中的多通道注意力模块对所述第一特征图和所述第二特征图进行整合,生成第三特征图;
训练模块,用于基于所述第三特征图对所述信道注意网络进行训练,得到图像生成模型;
所述信道注意网络是将所述多通道注意力模块添加至U-Net模型中并进行调整而得到的,所述信道注意网络中的编码器和解码器之间跳跃连接;
所述整合模块用于基于所述信道注意网络中的多通道注意力模块对所述第一特征图和所述第二特征图进行整合,生成第三特征图,包括:
转换单元,用于基于所述多通道注意力模块,对所述第一特征图进行全局平均池化,生成信道统计量,将所述信道统计量与预设的先验知识量连接,并进行降维转换,生成全连接特征向量,基于所述第一特征图、所述第二特征图以及所述全连接特征向量,生成所述第三特征图。
6.根据权利要求5所述的装置,其特征在于,所述训练模块具体用于:
基于所述第三特征图、所述信道注意网络的损失函数、自适应矩估计Adam优化算法,对所述信道注意网络的参数进行调整。
7.根据权利要求6所述的装置,其特征在于,所述信道注意网络的损失函数包括对抗损失函数和辅助分类损失函数。
8.一种图像生成装置,其特征在于,所述装置包括:
获取模块,用于获取待处理图像;
生成模块,用于基于所述图像生成模型对所述待处理图像进行图像生成,得到图像生成结果,其中,所述图像生成模型基于权利要求1-3任意一项所述的图像生成模型训练方法得到。
9.一种图像生成设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-3任意一项所述的图像生成模型训练方法,或者,所述处理器执行所述计算机程序指令时实现如权利要求4所述的图像生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-3任意一项所述的图像生成模型训练方法,或者,所述计算机程序指令被处理器执行时实现如权利要求4所述的图像生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010316150.9A CN113538604B (zh) | 2020-04-21 | 2020-04-21 | 图像生成方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010316150.9A CN113538604B (zh) | 2020-04-21 | 2020-04-21 | 图像生成方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113538604A CN113538604A (zh) | 2021-10-22 |
CN113538604B true CN113538604B (zh) | 2024-03-19 |
Family
ID=78123792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010316150.9A Active CN113538604B (zh) | 2020-04-21 | 2020-04-21 | 图像生成方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113538604B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107484017A (zh) * | 2017-07-25 | 2017-12-15 | 天津大学 | 基于注意力模型的有监督视频摘要生成方法 |
US9911073B1 (en) * | 2016-03-18 | 2018-03-06 | Snap Inc. | Facial patterns for optical barcodes |
CN109255769A (zh) * | 2018-10-25 | 2019-01-22 | 厦门美图之家科技有限公司 | 图像增强网络的训练方法和训练模型、及图像增强方法 |
CN109543699A (zh) * | 2018-11-28 | 2019-03-29 | 北方工业大学 | 一种基于目标检测的图像摘要生成方法 |
CN109711463A (zh) * | 2018-12-25 | 2019-05-03 | 广东顺德西安交通大学研究院 | 基于注意力的重要对象检测方法 |
CN109902716A (zh) * | 2019-01-22 | 2019-06-18 | 厦门美图之家科技有限公司 | 一种对齐分类模型的训练方法和图像分类方法 |
CN110084794A (zh) * | 2019-04-22 | 2019-08-02 | 华南理工大学 | 一种基于注意力卷积神经网络的皮肤癌图片识别方法 |
CN110222588A (zh) * | 2019-05-15 | 2019-09-10 | 合肥进毅智能技术有限公司 | 一种人脸素描图像衰老合成方法、装置及存储介质 |
CN110443813A (zh) * | 2019-07-29 | 2019-11-12 | 腾讯医疗健康(深圳)有限公司 | 血管、眼底图像的分割方法、装置、设备及可读存储介质 |
CN110457511A (zh) * | 2019-08-16 | 2019-11-15 | 成都数之联科技有限公司 | 基于注意力机制和生成对抗网络的图像分类方法及系统 |
CN110544297A (zh) * | 2019-08-06 | 2019-12-06 | 北京工业大学 | 一种单幅图像的三维模型重建方法 |
CN110599557A (zh) * | 2017-08-30 | 2019-12-20 | 深圳市腾讯计算机系统有限公司 | 图像描述生成方法、模型训练方法、设备和存储介质 |
CN110796111A (zh) * | 2019-11-05 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN111028153A (zh) * | 2019-12-09 | 2020-04-17 | 南京理工大学 | 图像处理和神经网络训练方法、装置及计算机设备 |
-
2020
- 2020-04-21 CN CN202010316150.9A patent/CN113538604B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9911073B1 (en) * | 2016-03-18 | 2018-03-06 | Snap Inc. | Facial patterns for optical barcodes |
CN107484017A (zh) * | 2017-07-25 | 2017-12-15 | 天津大学 | 基于注意力模型的有监督视频摘要生成方法 |
CN110599557A (zh) * | 2017-08-30 | 2019-12-20 | 深圳市腾讯计算机系统有限公司 | 图像描述生成方法、模型训练方法、设备和存储介质 |
CN109255769A (zh) * | 2018-10-25 | 2019-01-22 | 厦门美图之家科技有限公司 | 图像增强网络的训练方法和训练模型、及图像增强方法 |
CN109543699A (zh) * | 2018-11-28 | 2019-03-29 | 北方工业大学 | 一种基于目标检测的图像摘要生成方法 |
CN109711463A (zh) * | 2018-12-25 | 2019-05-03 | 广东顺德西安交通大学研究院 | 基于注意力的重要对象检测方法 |
CN109902716A (zh) * | 2019-01-22 | 2019-06-18 | 厦门美图之家科技有限公司 | 一种对齐分类模型的训练方法和图像分类方法 |
CN110084794A (zh) * | 2019-04-22 | 2019-08-02 | 华南理工大学 | 一种基于注意力卷积神经网络的皮肤癌图片识别方法 |
CN110222588A (zh) * | 2019-05-15 | 2019-09-10 | 合肥进毅智能技术有限公司 | 一种人脸素描图像衰老合成方法、装置及存储介质 |
CN110443813A (zh) * | 2019-07-29 | 2019-11-12 | 腾讯医疗健康(深圳)有限公司 | 血管、眼底图像的分割方法、装置、设备及可读存储介质 |
CN110544297A (zh) * | 2019-08-06 | 2019-12-06 | 北京工业大学 | 一种单幅图像的三维模型重建方法 |
CN110457511A (zh) * | 2019-08-16 | 2019-11-15 | 成都数之联科技有限公司 | 基于注意力机制和生成对抗网络的图像分类方法及系统 |
CN110796111A (zh) * | 2019-11-05 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN111028153A (zh) * | 2019-12-09 | 2020-04-17 | 南京理工大学 | 图像处理和神经网络训练方法、装置及计算机设备 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的图像描述生成研究;张鸿硕;《中国优秀硕士学位论文全文数据库信息科技辑》(第01期);I138-1539 * |
Also Published As
Publication number | Publication date |
---|---|
CN113538604A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10565499B2 (en) | Autoencoding image residuals for improving upsampled images | |
US7957466B2 (en) | Adaptive area of influence filter for moving object boundaries | |
US7596243B2 (en) | Extracting a moving object boundary | |
US7894522B2 (en) | Classified filtering for temporal prediction | |
CN108491763B (zh) | 三维场景识别网络的无监督训练方法、装置及存储介质 | |
US11967134B2 (en) | Method and device for identifying video | |
CN116664450A (zh) | 基于扩散模型的图像增强方法、装置、设备及存储介质 | |
CN113556582A (zh) | 视频数据处理方法、装置、设备以及存储介质 | |
US11276140B2 (en) | Method and device for digital image, audio or video data processing | |
US8059719B2 (en) | Adaptive area of influence filter | |
KR20080054399A (ko) | 비디오 압축에서 적응형 모션 벡터 샘플링을 위한멀티-스테이지 링크된 프로세스 | |
CN113538604B (zh) | 图像生成方法、装置、设备及介质 | |
CN112085717B (zh) | 一种用于腹腔镜手术的视频预测方法及其系统 | |
CN117036436A (zh) | 一种基于双编码器-解码器的单目深度估计方法及系统 | |
US11570465B2 (en) | Machine-learned in-loop predictor for video compression | |
CN111861940A (zh) | 一种基于条件连续调节的图像调色增强方法 | |
CN114663307B (zh) | 基于不确定性网络的集成图像去噪系统 | |
US7397856B2 (en) | Method and apparatus for storing and processing picture information of temporally successive pictures | |
CN115941950A (zh) | 编码方法、解码方法、编码设备以及解码设备 | |
CN115131414A (zh) | 基于深度学习的无人机图像对齐方法、电子设备和存储介质 | |
Kumar et al. | Underwater Image Enhancement using deep learning | |
CN113628103B (zh) | 基于多级损失的高细粒度卡通人脸生成方法及其相关组件 | |
CN116863320B (zh) | 基于物理模型的水下图像增强方法及系统 | |
CN111612704B (zh) | 一种连续太赫兹波图像的带状纹理噪声去噪方法 | |
CN117014633B (zh) | 一种跨模态数据压缩方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |