CN113538604A - 图像生成方法、装置、设备及介质 - Google Patents

图像生成方法、装置、设备及介质 Download PDF

Info

Publication number
CN113538604A
CN113538604A CN202010316150.9A CN202010316150A CN113538604A CN 113538604 A CN113538604 A CN 113538604A CN 202010316150 A CN202010316150 A CN 202010316150A CN 113538604 A CN113538604 A CN 113538604A
Authority
CN
China
Prior art keywords
feature map
channel attention
image
image generation
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010316150.9A
Other languages
English (en)
Other versions
CN113538604B (zh
Inventor
梁玲玲
张璐璐
郭丽茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Chengdu ICT Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Chengdu ICT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Chengdu ICT Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010316150.9A priority Critical patent/CN113538604B/zh
Publication of CN113538604A publication Critical patent/CN113538604A/zh
Application granted granted Critical
Publication of CN113538604B publication Critical patent/CN113538604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks

Abstract

本发明实施例提供一种图像生成方法、装置、设备及介质。该方法包括:获取训练图像;基于信道注意网络中的编码器处理训练图像,生成第一特征图,基于信道注意网络中的解码器处理训练图像,生成第二特征图;基于信道注意网络中的多通道注意力模块对第一特征图和第二特征图进行整合,生成第三特征图;基于第三特征图对信道注意网络进行训练,得到图像生成模型;基于该模型对待处理图像进行处理,得到图像生成结果。如此能够获得带有多通道注意力模块的图像生成模型,该模型可以在不需要配对数据的情况下将输入图像从一个域转换为多个域,而且,基于该模型生成目标图像,不仅可以提高图像平移任务的性能,还可以减少计算参数,提高图像生成效果。

Description

图像生成方法、装置、设备及介质
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种图像生成方法、装置、设备和计算机可读存储介质。
背景技术
现有的图像翻译模型大多采用自编码网络,先将源域中的输入图像编码为中间表示,中间表示是输入图像内容的高级抽象,然后根据条件域向量将其解码为目标域的图像。
但是,直接在目标域中生成图像会给解码器带来很大的负担,并且会导致较差的结果,因为不同的域转换可能会对输入图像进行全局、局部甚至抽象的操作。
发明内容
本发明实施例提供了一种图像生成方法、装置、设备和计算机可读存储介质,能够在不需要配对数据的情况下将输入图像从一个域转换为多个域,可以提高图像平移任务的性能,减少计算参数,提高图像生成效果。
第一方面,本发明实施例提供一种图像生成模型训练方法,该方法包括:获取训练图像;基于信道注意网络中的编码器处理训练图像,生成第一特征图,以及基于信道注意网络中的解码器处理训练图像,生成第二特征图;基于信道注意网络中的多通道注意力模块对第一特征图和第二特征图进行整合,生成第三特征图;基于第三特征图对信道注意网络进行训练,得到图像生成模型;其中,信道注意网络是将多通道注意力模块添加至U-Net模型中并进行调整而得到的,信道注意网络中的编码器和解码器之间跳跃连接。
在第一方面的一些可实现方式中,基于信道注意网络中的多通道注意力模块对第一特征图和第二特征图进行整合,生成第三特征图,包括:基于多通道注意力模块,对第一特征图进行全局平均池化,生成信道统计量,将信道统计量与预设的先验知识量连接,并进行降维转换,生成全连接特征向量,基于第一特征图、第二特征图以及全连接特征向量,生成第三特征图。
在第一方面的一些可实现方式中,基于第三特征图对信道注意网络进行训练,包括:基于第三特征图、信道注意网络的损失函数、自适应矩估计Adam优化算法,对信道注意网络的参数进行调整。
在第一方面的一些可实现方式中,信道注意网络的损失函数包括对抗损失函数和辅助分类损失函数。
第二方面,本发明实施例提供一种图像生成方法,该方法包括:获取待处理图像;基于图像生成模型对待处理图像进行图像生成,得到图像生成结果,其中,图像生成模型基于第一方面或者第一方面任一可实现方式中所述的图像生成模型训练方法得到。
第三方面,本发明实施例提供一种图像生成模型训练装置,该装置包括:获取模块,用于获取训练图像;生成模块,用于基于信道注意网络中的编码器处理训练图像,生成第一特征图,以及基于信道注意网络中的解码器处理训练图像,生成第二特征图;整合模块,用于基于信道注意网络中的多通道注意力模块对第一特征图和第二特征图进行整合,生成第三特征图;训练模块,用于基于第三特征图对信道注意网络进行训练,得到图像生成模型;其中,信道注意网络是将多通道注意力模块添加至U-Net模型中并进行调整而得到的,信道注意网络中的编码器和解码器之间跳跃连接。
在第三方面的一些可实现方式中,整合模块具体用于:基于多通道注意力模块,对第一特征图进行全局平均池化,生成信道统计量,将信道统计量与预设的先验知识量连接,并进行降维转换,生成全连接特征向量,基于第一特征图、第二特征图以及全连接特征向量,生成第三特征图。
在第三方面的一些可实现方式中,训练模块具体用于:基于第三特征图、信道注意网络的损失函数、Adam优化算法,对信道注意网络的参数进行调整。
在第三方面的一些可实现方式中,信道注意网络的损失函数包括对抗损失函数和辅助分类损失函数。
第四方面,本发明实施例提供一种图像生成装置,该装置包括:获取模块,用于获取待处理图像;生成模块,用于基于图像生成模型对待处理图像进行图像生成,得到图像生成结果,其中,图像生成模型基于第一方面或者第一方面任一可实现方式中所述的图像生成模型训练方法得到。
第五方面,本发明实施例提供一种图像生成设备,该设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现第一方面或者第一方面任一些可实现方式中所述的图像生成模型训练方法,或者,处理器执行计算机程序指令时实现第二方面所述的图像生成方法。
第六方面,本发明实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面或者第一方面任一些可实现方式中所述的图像生成模型训练方法,或者,计算机程序指令被处理器执行时实现第二方面所述的图像生成方法。
本发明实施例提供的一种图像生成模型训练方法、图像生成方法、装置、设备和计算机可读存储介质。本发明实施例的图像生成模型训练方法、装置,基于信道注意网络中的编码器处理训练图像,生成第一特征图,基于信道注意网络中的解码器处理训练图像,生成第二特征图,基于信道注意网络中的多通道注意力模块对第一特征图和第二特征图进行整合,生成第三特征图,基于第三特征图对信道注意网络进行训练,得到图像生成模型,如此能够获得带有多通道注意力模块的图像生成模型,该模型可以在不需要配对数据的情况下将输入图像从一个域转换为多个域。本发明实施例的图像生成方法、装置能够基于图像生成模型对待处理图像进行处理,得到图像生成结果。如此能够基于该模型生成目标图像,不仅可以提高图像平移任务的性能,还可以减少计算参数,缩短训练时间,提高图像生成效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种图像生成模型训练方法的流程示意图;
图2是本发明实施例提供的一种生成器的结构示意图;
图3是本发明实施例提供的另一种生成器的结构示意图;
图4是本发明实施例提供的一种多通道注意力模块的示意图;
图5是本发明实施例提供的一种图像生成方法的流程示意图;
图6是本发明实施例提供的一种基于图像生成模型以及其他模型的生成效果示意图;
图7是本发明实施例提供的一种图像生成模型训练装置的结构示意图;
图8是本发明实施例提供的一种图像生成装置的结构示意图;
图9是本发明实施例提供的一种图像生成设备的结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
目前,图像-图像转换方法通常采用编码器-解码器结构来生成图像。编码器使用卷积层序列提取输入图像的特征直到瓶颈层,然后将中间特征解码到目标图像。换句话说,现有的图像翻译模型大多采用自编码网络,先将源域中的输入图像编码为中间表示,然后根据条件域向量将其解码为目标域的图像。中间表示是输入图像内容的高级抽象。
但是,直接在目标域中生成图像会给解码器带来很大的负担,并且会导致较差的结果,因为不同的域转换可能会对输入图像进行全局、局部甚至抽象的操作。
针对于此,发明人经过大量的研究与实验得到,对于给定一个输入图像x和目标域c,可以训练单个生成器G,该生成器是从源域到目标域的映射G(x,c)→y。首先,可以将输入图像x通过多层卷积提取图像特征。然后,将图像的隐藏层特征进一步映射。最后,可以通过几个反卷积层解码回目标图像y。为了更好地利用编码器中的特征映射对目标图像进行解码,发明人在编码器和解码器中相应的层之间添加了跳跃连接。此外,由于特征映射的不同通道具有不同的语义,并且只有特定的通道与目标域相关,发明人在跳跃连接中加入了多通道注意力模块,最终得到信道注意网络。由于跳跃连接的存在,可以使用两种特征图来计算结果特征图,在没有增加计算参数的情况下,能够同时预测两个特征图的通道注意掩膜。
进一步,本发明实施例提供了一种图像生成模型训练方法、图像生成方法、装置、设备和计算机可读存储介质。
首先,本发明实施例的图像生成模型训练方法基于信道注意网络中的编码器处理训练图像,生成第一特征图,基于信道注意网络中的解码器处理训练图像,生成第二特征图,基于信道注意网络中的多通道注意力模块对第一特征图和第二特征图进行整合,生成第三特征图,基于第三特征图对信道注意网络进行训练,得到图像生成模型,如此能够获得带有多通道注意力模块的图像生成模型,该模型可以在不需要配对数据的情况下将输入图像从一个域转换为多个域。
而且,本发明实施例的图像生成方法能够基于图像生成模型对待处理图像进行处理,得到图像生成结果。如此能够基于该模型生成目标图像,不仅可以提高图像平移任务的性能,还可以减少计算参数,缩短训练时间,提高图像生成效果。
由于本发明实施例提供的图像生成方法需要使用到图像生成模型,因此,下面首先结合附图对本发明实施例所提供的图像生成模型训练方法进行介绍。
图1是本发明实施例提供的一种图像生成模型训练方法的流程示意图。如图1所示,该图像生成模型训练方法100可以包括S110至S140。
S110,获取训练图像。
可以对原始图像进行图像预处理,将预处理后的图像作为训练图像,用于后续的训练。
S120,基于信道注意网络中的编码器处理训练图像,生成第一特征图,以及基于信道注意网络中的解码器处理训练图像,生成第二特征图。
其中,信道注意网络可以是将多通道注意力模块添加至U-net模型中并进行调整而得到的,信道注意网络中的编码器和解码器之间可以跳跃连接。
通常情况下,U-net模型中的编码器和解码器可以协同构成生成器,作为一个示例,生成器的结构可以如图2所示,左边是编码器部分,右边是解码器部分,编码器和解码器之间具有对称的结构,编码器通过卷积层对输入图像x不断下采样得到瓶颈层。之后,解码器使用相同数量的反卷积层解码回目标图像y。但是,这种结构的缺点是输入需要通过网络中的所有的层,当网络变得更深时,可能会出现梯度消失或者梯度爆炸的问题。
为了解决图2所示结构的缺点,在一些实施例中,编码器和解码器之间可以跳跃连接,如图3所示,通过使用跳跃连接的方式,只将编码器中的特征映射与解码器中的对应映射连接在一起,可以有助于解决梯度消失或者梯度爆炸的问题。可是在此基础上分别基于编码器和解码器处理输入图像x,会生成第一特征图,以及第二特征图,会使解码器中的参数变成编码器中的两倍,针对于此,可以引入基于多通道注意力机制构建的多通道注意力模块并进行相应的调整,进而可以得到信道注意网络,即一种高效率的新生成器。
S130,基于信道注意网络中的多通道注意力模块对第一特征图和第二特征图进行整合,生成第三特征图。
可选地,在一个实施例中,可以基于多通道注意力模块,对第一特征图进行全局平均池化,生成信道统计量,将信道统计量与预设的先验知识量连接,并进行降维转换,生成全连接特征向量,基于第一特征图、第二特征图以及全连接特征向量,生成第三特征图。
S140,基于第三特征图对信道注意网络进行训练,得到图像生成模型。
可选地,在一个实施例中,可以基于第三特征图、信道注意网络的损失函数、Adam优化算法,对信道注意网络的参数进行优化调整。其中,可选地,在一个实施例中,信道注意网络的损失函数可以包括对抗损失函数和辅助分类损失函数。
在一些实施例中,对抗损失函数可以是:
Figure BDA0002459665630000071
其中,x表示训练图像。G表示信道注意网络,c表示目标域,将输入的训练图像x转换至目标域,Dsrc表示根据概率确定的鉴别函数。
为了将训练图像通过信道注意网络从源域转换成目标域,可以添加一个辅助分类损失函数,该辅助分类损失函数不仅有助于识别真假的图像,还有助于预测图像的区域,该辅助分类损失函数具体地可以是:
Figure BDA0002459665630000072
Figure BDA0002459665630000073
其中,c'表示原始域,
Figure BDA0002459665630000074
表示虚假图片即生成图片的域分类损失,
Figure BDA0002459665630000075
表示真实图片的域分类损失。
在Adam优化算法中,可以设置β1=0,β2=0.999,其中,β1、β2为Adam优化算法中的参数,β1为第一矩,β2是第二矩。在损失函数中,可以设置λcls=1,λclc=10,其中,λcls是虚假(fake)分类函数的超参数即正则化参数,λclc是真实(real)分类函数的超参数即正则化参数。可以在前10个迭代次数(epoch)中以0.0001的学习率进行训练,并在接下来的10个迭代次数(epoch)中将学习率线性衰减为0。
本发明实施例的图像生成模型训练方法,基于信道注意网络中的编码器处理训练图像,生成第一特征图,基于信道注意网络中的解码器处理训练图像,生成第二特征图,基于信道注意网络中的多通道注意力模块对第一特征图和第二特征图进行整合,生成第三特征图,使得在不增加解码器中特征图的通道数量的情况下,将两个特征图融合在一起,基于第三特征图对信道注意网络进行训练,得到图像生成模型,如此能够获得带有多通道注意力模块的图像生成模型,该模型可以更好地将编码器中的低层信息传送到解码器,在不需要配对数据的情况下,将输入图像从一个域转换为多个域。
下面结合一个具体的实施例对S130进行说明,具体地,多通道注意力模块可以如图4所示,Ui和Vi是训练图像分别经过编码器和解码器处理,获得的一对特征图,Ui表示第一特征图,Vi表示第二特征图,也可以理解为特征映射,Ui为编码特征映射,Vi为解码特征映射,C表示卷积层。首先可以将第一、第二特征图输入到多通道注意力模块,其次将第一特征图Ui输入到全局平均池化函数F1(·)进行全局平均池化,并生成信道统计量Zu,具体如下:
Figure BDA0002459665630000081
其中,H,W表示第一特征图的宽度和高度,在全局平均池化之后,可以将信道统计量Zu与预设的先验知识量k连接在一起,通过第一转换函数F2(·,·)进行降维转换,生成全连接特征向量ai,具体如下:
Figure BDA0002459665630000082
其中,
Figure BDA0002459665630000083
表示Zu与k的相连接,之后所得到的新向量输入到两个全连接层中,使新向量维度减少,即与两个全连接层中的权重相乘,权重值可以在训练中得到,该式子中的W1与W2分别表示两个全连接层的权重,σ表示sigmoid激活函数,δ表示线性整流函数(Rectified Linear Unit,ReLU)。
最后,基于第一特征图Ui、第二特征图Vi以及全连接特征向量ai,生成第三特征图。具体如下:
Zi=F3(ai,Ui)+F3(1-ai,Vi)=Ui′+Vi′=ai×Ui+(1-ai)×Vi (6)
U′i=F3(ai,Ui)=ai×Ui (7)
Vi′=F3(1-ai,Vi)=(1-ai)×Vi (8)
其中,F3(·,·)表示第二转换函数。Zi表示第三特征图。如此能够在没有增加计算参数的情况下,将第一、第二特征图融合,同时预测两个特征图的通道注意掩膜。
基于本发明实施例的图像生成模型训练方法,本发明实施例还提供了一种图像生成方法,如图5所示,图5是本发明实施例提供的一种图像生成方法的流程示意图,该图像生成方法200可以包括S210至S220。
S210,获取待处理图像。
S220,基于图像生成模型对待处理图像进行图像生成,得到图像生成结果。
其中,图像生成模型基于图1所述的图像生成模型训练方法得到。
为了更直观的看出本发明实施例的图像生成模型的图像生成效果,现与多个现有的模型进行生成效果对比,如图6所示,IcGAN模型、CycleGAN模型、StarGAN模型以及本发明实施例的图像生成模型从发色、性别、表情中的一项或多项进行图像生成,可以看出,基于本发明实施例的图像生成模型进行图像生成的效果要优于现有的模型。
本发明实施例的图像生成方法,能够基于图像生成模型对待处理图像进行处理,得到图像生成结果。如此能够基于该模型生成目标图像,不仅可以提高图像平移任务的性能,还可以减少计算参数,缩短训练时间,提高图像生成效果。
图7是本发明实施例提供的一种图像生成模型训练装置的结构示意图,如图7所示,该图像生成模型训练装置300可以包括:获取模块310、生成模块320、整合模块330、训练模块340。
其中,获取模块310,用于获取训练图像。生成模块320,用于基于信道注意网络中的编码器处理训练图像,生成第一特征图,以及基于信道注意网络中的解码器处理训练图像,生成第二特征图。整合模块330,用于基于信道注意网络中的多通道注意力模块对第一特征图和第二特征图进行整合,生成第三特征图。训练模块340,用于基于第三特征图对信道注意网络进行训练,得到图像生成模型。其中,信道注意网络是将多通道注意力模块添加至U-Net模型中并进行调整而得到的,信道注意网络中的编码器和解码器之间跳跃连接。
在一些实施例中,整合模块330具体用于:基于多通道注意力模块,对第一特征图进行全局平均池化,生成信道统计量,将信道统计量与预设的先验知识量连接,并进行降维转换,生成全连接特征向量,基于第一特征图、第二特征图以及全连接特征向量,生成第三特征图。
在一些实施例中,训练模块340具体用于:基于第三特征图、信道注意网络的损失函数、Adam优化算法,对信道注意网络的参数进行调整。
在一些实施例中,信道注意网络的损失函数包括对抗损失函数和辅助分类损失函数。
可以理解的是,本发明实施例的图像生成模型训练装置300,可以对应于本发明实施例图1中的图像生成模型训练方法的执行主体,图像生成模型训练装置300的各个模块/单元的操作和/或功能的具体细节可以参见上述本发明实施例图1的图像生成模型训练方法中的相应部分的描述,为了简洁,在此不再赘述。
图8是本发明实施例提供的一种图像生成装置的结构示意图,如图8所示,该图像生成装置400可以包括:获取模块410、生成模块420。
其中,获取模块410,用于获取待处理图像。生成模块420,用于基于图像生成模型对待处理图像进行图像生成,得到图像生成结果。其中,图像生成模型基于图1所述的图像生成模型训练方法得到。
本发明实施例的图像生成装置,能够基于图像生成模型对待处理图像进行处理,得到图像生成结果。如此能够基于该模型生成目标图像,不仅可以提高图像平移任务的性能,还可以减少计算参数,缩短训练时间,提高图像生成效果。
可以理解的是,本发明实施例的图像生成装置400,可以对应于本发明实施例图5中的图像生成方法的执行主体,图像生成装置400的各个模块/单元的操作和/或功能的具体细节可以参见上述本发明实施例图5的图像生成方法中的相应部分的描述,为了简洁,在此不再赘述。
图9是本发明实施例提供的一种图像生成设备的硬件结构示意图。
如图9所示,本实施例中的图像生成设备500包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505、以及输出设备506。其中,输入接口502、中央处理器503、存储器504、以及输出接口505通过总线510相互连接,输入设备501和输出设备506分别通过输入接口502和输出接口505与总线510连接,进而与图像生成设备500的其他组件连接。
具体地,输入设备501接收来自外部的输入信息,并通过输入接口502将输入信息传送到中央处理器503;中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器504中,然后通过输出接口505将输出信息传送到输出设备506;输出设备506将输出信息输出到图像生成设备500的外部供用户使用。
在一个实施例中,图9所示的图像生成设备500包括:存储器504,用于存储程序,处理器503,用于运行存储器中存储的程序,以执行图1所示实施例提供的图像生成模型训练方法或图5所示实施例提供的图像生成方法。
本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,该计算机程序指令被处理器执行时实现图1所示实施例提供的图像生成模型训练方法或图5所示实施例提供的图像生成方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,做出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器(Read-Only Memory,ROM)、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(Radio Frequency,RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (12)

1.一种图像生成模型训练方法,其特征在于,所述方法包括:
获取训练图像;
基于信道注意网络中的编码器处理所述训练图像,生成第一特征图,以及基于所述信道注意网络中的解码器处理所述训练图像,生成第二特征图;
基于所述信道注意网络中的多通道注意力模块对所述第一特征图和所述第二特征图进行整合,生成第三特征图;
基于所述第三特征图对所述信道注意网络进行训练,得到图像生成模型;
其中,所述信道注意网络是将所述多通道注意力模块添加至U-Net模型中并进行调整而得到的,所述信道注意网络中的编码器和解码器之间跳跃连接。
2.根据权利要求1所述的方法,其特征在于,所述基于所述信道注意网络中的多通道注意力模块对所述第一特征图和所述第二特征图进行整合,生成第三特征图,包括:
基于所述多通道注意力模块,对所述第一特征图进行全局平均池化,生成信道统计量,将所述信道统计量与预设的先验知识量连接,并进行降维转换,生成全连接特征向量,基于所述第一特征图、所述第二特征图以及所述全连接特征向量,生成所述第三特征图。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第三特征图对所述信道注意网络进行训练,包括:
基于所述第三特征图、所述信道注意网络的损失函数、自适应矩估计Adam优化算法,对所述信道注意网络的参数进行调整。
4.根据权利要求3所述的方法,其特征在于,所述信道注意网络的损失函数包括对抗损失函数和辅助分类损失函数。
5.一种图像生成方法,其特征在于,所述方法包括:
获取待处理图像;
基于所述图像生成模型对所述待处理图像进行图像生成,得到图像生成结果,其中,所述图像生成模型基于权利要求1-4任意一项所述的图像生成模型训练方法得到。
6.一种图像生成模型训练装置,其特征在于,所述装置包括:
获取模块,用于获取训练图像;
生成模块,用于基于信道注意网络中的编码器处理所述训练图像,生成第一特征图,以及基于所述信道注意网络中的解码器处理所述训练图像,生成第二特征图;
整合模块,用于基于所述信道注意网络中的多通道注意力模块对所述第一特征图和所述第二特征图进行整合,生成第三特征图;
训练模块,用于基于所述第三特征图对所述信道注意网络进行训练,得到图像生成模型;
其中,所述信道注意网络是将所述多通道注意力模块添加至U-Net模型中并进行调整而得到的,所述信道注意网络中的编码器和解码器之间跳跃连接。
7.根据权利要求6所述的装置,其特征在于,所述整合模块具体用于:
基于所述多通道注意力模块,对所述第一特征图进行全局平均池化,生成信道统计量,将所述信道统计量与预设的先验知识量连接,并进行降维转换,生成全连接特征向量,基于所述第一特征图、所述第二特征图以及所述全连接特征向量,生成所述第三特征图。
8.根据权利要求6所述的装置,其特征在于,所述训练模块具体用于:
基于所述第三特征图、所述信道注意网络的损失函数、自适应矩估计Adam优化算法,对所述信道注意网络的参数进行调整。
9.根据权利要求8所述的装置,其特征在于,所述信道注意网络的损失函数包括对抗损失函数和辅助分类损失函数。
10.一种图像生成装置,其特征在于,所述装置包括:
获取模块,用于获取待处理图像;
生成模块,用于基于所述图像生成模型对所述待处理图像进行图像生成,得到图像生成结果,其中,所述图像生成模型基于权利要求1-4任意一项所述的图像生成模型训练方法得到。
11.一种图像生成设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-4任意一项所述的图像生成模型训练方法,或者,所述处理器执行所述计算机程序指令时实现如权利要求5所述的图像生成方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-4任意一项所述的图像生成模型训练方法,或者,所述计算机程序指令被处理器执行时实现如权利要求5所述的图像生成方法。
CN202010316150.9A 2020-04-21 2020-04-21 图像生成方法、装置、设备及介质 Active CN113538604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010316150.9A CN113538604B (zh) 2020-04-21 2020-04-21 图像生成方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010316150.9A CN113538604B (zh) 2020-04-21 2020-04-21 图像生成方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113538604A true CN113538604A (zh) 2021-10-22
CN113538604B CN113538604B (zh) 2024-03-19

Family

ID=78123792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010316150.9A Active CN113538604B (zh) 2020-04-21 2020-04-21 图像生成方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113538604B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法
US9911073B1 (en) * 2016-03-18 2018-03-06 Snap Inc. Facial patterns for optical barcodes
CN109255769A (zh) * 2018-10-25 2019-01-22 厦门美图之家科技有限公司 图像增强网络的训练方法和训练模型、及图像增强方法
CN109543699A (zh) * 2018-11-28 2019-03-29 北方工业大学 一种基于目标检测的图像摘要生成方法
CN109711463A (zh) * 2018-12-25 2019-05-03 广东顺德西安交通大学研究院 基于注意力的重要对象检测方法
CN109902716A (zh) * 2019-01-22 2019-06-18 厦门美图之家科技有限公司 一种对齐分类模型的训练方法和图像分类方法
CN110084794A (zh) * 2019-04-22 2019-08-02 华南理工大学 一种基于注意力卷积神经网络的皮肤癌图片识别方法
CN110222588A (zh) * 2019-05-15 2019-09-10 合肥进毅智能技术有限公司 一种人脸素描图像衰老合成方法、装置及存储介质
CN110443813A (zh) * 2019-07-29 2019-11-12 腾讯医疗健康(深圳)有限公司 血管、眼底图像的分割方法、装置、设备及可读存储介质
CN110457511A (zh) * 2019-08-16 2019-11-15 成都数之联科技有限公司 基于注意力机制和生成对抗网络的图像分类方法及系统
CN110544297A (zh) * 2019-08-06 2019-12-06 北京工业大学 一种单幅图像的三维模型重建方法
CN110599557A (zh) * 2017-08-30 2019-12-20 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CN110796111A (zh) * 2019-11-05 2020-02-14 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及存储介质
CN111028153A (zh) * 2019-12-09 2020-04-17 南京理工大学 图像处理和神经网络训练方法、装置及计算机设备

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9911073B1 (en) * 2016-03-18 2018-03-06 Snap Inc. Facial patterns for optical barcodes
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法
CN110599557A (zh) * 2017-08-30 2019-12-20 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CN109255769A (zh) * 2018-10-25 2019-01-22 厦门美图之家科技有限公司 图像增强网络的训练方法和训练模型、及图像增强方法
CN109543699A (zh) * 2018-11-28 2019-03-29 北方工业大学 一种基于目标检测的图像摘要生成方法
CN109711463A (zh) * 2018-12-25 2019-05-03 广东顺德西安交通大学研究院 基于注意力的重要对象检测方法
CN109902716A (zh) * 2019-01-22 2019-06-18 厦门美图之家科技有限公司 一种对齐分类模型的训练方法和图像分类方法
CN110084794A (zh) * 2019-04-22 2019-08-02 华南理工大学 一种基于注意力卷积神经网络的皮肤癌图片识别方法
CN110222588A (zh) * 2019-05-15 2019-09-10 合肥进毅智能技术有限公司 一种人脸素描图像衰老合成方法、装置及存储介质
CN110443813A (zh) * 2019-07-29 2019-11-12 腾讯医疗健康(深圳)有限公司 血管、眼底图像的分割方法、装置、设备及可读存储介质
CN110544297A (zh) * 2019-08-06 2019-12-06 北京工业大学 一种单幅图像的三维模型重建方法
CN110457511A (zh) * 2019-08-16 2019-11-15 成都数之联科技有限公司 基于注意力机制和生成对抗网络的图像分类方法及系统
CN110796111A (zh) * 2019-11-05 2020-02-14 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及存储介质
CN111028153A (zh) * 2019-12-09 2020-04-17 南京理工大学 图像处理和神经网络训练方法、装置及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张鸿硕: "基于深度学习的图像描述生成研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 01, pages 138 - 1539 *

Also Published As

Publication number Publication date
CN113538604B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN111899163B (zh) 生成对抗网络中单图像超分辨率的有效结构保持
Bengio et al. Generalized denoising auto-encoders as generative models
CN112733768B (zh) 基于双向特征语言模型的自然场景文本识别方法及装置
US11967134B2 (en) Method and device for identifying video
US20200349447A1 (en) Optimizing Unsupervised Generative Adversarial Networks via Latent Space Regularizations
CN111931779A (zh) 一种基于条件可预测参数的图像信息提取与生成方法
CN115775350A (zh) 一种图像增强方法和装置、计算设备
CN114897728A (zh) 图像增强方法、装置、终端设备以及存储介质
CN115731505A (zh) 视频显著性区域检测方法、装置、电子设备及存储介质
US11276140B2 (en) Method and device for digital image, audio or video data processing
CN115587924A (zh) 一种基于循环生成对抗网络的自适应掩膜引导的图像模态转换方法
CN113538604A (zh) 图像生成方法、装置、设备及介质
CN117036436A (zh) 一种基于双编码器-解码器的单目深度估计方法及系统
CN115982573A (zh) 多功能送料机及其控制方法
CN113361510B (zh) 超分网络模型训练方法、装置、电子设备以及存储介质
CN115578638A (zh) 一种基于U-Net的多层次特征交互去雾网络的构建方法
WO2023012231A1 (en) Method and data processing system for lossy image or video encoding, transmission and decoding
CN114331821A (zh) 一种图像转换方法及系统
CN117121047A (zh) 用于图像降噪的噪声重建
CN114913054B (zh) 基于注意力感知的着色器简化变体评估方法和装置
CN116630189A (zh) 基于去噪扩散概率模型的遥感图像全色锐化方法及装置
CN117014633B (zh) 一种跨模态数据压缩方法、装置、设备及介质
CN117787380A (zh) 模型获取方法、装置、介质及设备
CN108230413B (zh) 图像描述方法和装置、电子设备、计算机存储介质
CN116051360A (zh) 基于残差的级联渐进优化的多模态跨视角图像生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant