CN115222581A - 图像生成方法、模型训练方法、相关装置及电子设备 - Google Patents
图像生成方法、模型训练方法、相关装置及电子设备 Download PDFInfo
- Publication number
- CN115222581A CN115222581A CN202210840608.XA CN202210840608A CN115222581A CN 115222581 A CN115222581 A CN 115222581A CN 202210840608 A CN202210840608 A CN 202210840608A CN 115222581 A CN115222581 A CN 115222581A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- target
- feature vector
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 150
- 238000000034 method Methods 0.000 title claims abstract description 109
- 239000013598 vector Substances 0.000 claims abstract description 427
- 238000012545 processing Methods 0.000 claims abstract description 96
- 230000007246 mechanism Effects 0.000 claims description 51
- 238000000605 extraction Methods 0.000 claims description 44
- 238000010276 construction Methods 0.000 claims description 14
- 230000015572 biosynthetic process Effects 0.000 claims description 10
- 238000003786 synthesis reaction Methods 0.000 claims description 10
- 230000002194 synthesizing effect Effects 0.000 claims description 8
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 31
- 238000006243 chemical reaction Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 18
- 230000008859 change Effects 0.000 description 16
- 238000011176 pooling Methods 0.000 description 8
- 238000013136 deep learning model Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像生成方法、模型训练方法、相关装置及电子设备,属于人工智能技术领域。该方法包括:获取图像风格为第一风格的第一图像,以及图像风格为第二风格的第二图像;基于目标模型对所述第一图像进行第一特征处理,得到第一特征向量,所述第一特征向量用于表征所述第一图像的图像内容;对所述第一特征向量和第二特征向量进行拼接操作,得到第一目标特征向量,所述第二特征向量基于所述第二风格的第二图像确定,所述第二特征向量用于表征所述第二图像的图像风格;基于所述第一目标特征向量进行图像构建,得到第三图像。
Description
技术领域
本申请属于人工智能技术领域,具体涉及一种图像生成方法、模型训练方法、相关装置及电子设备。
背景技术
随着人工智能的高速发展,可以采用深度学习模型如循环对抗生成网络(CycleGenerative Adversarial Network,CycleGAN)模型,进行图像风格的转换,以生成与输入图像不同风格的图像,比如,可以通过CycleGAN模型将夏天风格的风景图像转换为冬天风格的风景图像。
目前,采用CycleGAN模型进行图像风格的转换,所生成的图像质量比较差。
发明内容
本申请实施例的目的是提供一种图像生成方法、模型训练方法、相关装置及电子设备,能够解决采用相关模型进行图像风格的转换,所生成的图像质量比较差的问题。
第一方面,本申请实施例提供了一种图像生成方法,该方法包括:
获取图像风格为第一风格的第一图像,以及图像风格为第二风格的第二图像;
基于目标模型对所述第一图像进行第一特征处理,得到第一特征向量,所述第一特征向量用于表征所述第一图像的图像内容;
对所述第一特征向量和第二特征向量进行拼接操作,得到第一目标特征向量,所述第二特征向量基于所述第二风格的第二图像确定,所述第二特征向量用于表征所述第二图像的图像风格;
基于所述第一目标特征向量进行图像构建,得到第三图像。
第二方面,本申请实施例提供了一种模型训练方法,该方法包括:
获取训练样本数据,所述训练样本数据包括第一样本图像,以及用于表征第一样本风格的第四特征向量;
对所述第一样本图像进行第一特征处理,得到第五特征向量,所述第五特征向量用于表征所述第一样本图像的图像内容;对所述第五特征向量和所述第四特征向量进行拼接操作,得到第二目标特征向量;基于所述第二目标特征向量进行图像构建,得到第一输出图像;
基于所述第一输出图像和所述第五特征向量,确定目标模型的第一网络损失值;
基于所述第一网络损失值,更新所述目标模型的网络参数;
其中,在满足第一预设条件的情况下,所述目标模型训练完成,所述第一预设条件包括:所述第一网络损失值小于第一预设阈值,和/或,所述目标模型的训练迭代次数大于第二预设阈值。
第三方面,本申请实施例提供了一种图像生成装置,该装置包括:
第一获取模块,用于获取图像风格为第一风格的第一图像,以及图像风格为第二风格的第二图像;
第一特征处理模块,用于基于目标模型对所述第一图像进行第一特征处理,得到第一特征向量,所述第一特征向量用于表征所述第一图像的图像内容;
特征拼接模块,用于对所述第一特征向量和第二特征向量进行拼接操作,得到第一目标特征向量,所述第二特征向量基于所述第二风格的第二图像确定,所述第二特征向量用于表征所述第二图像的图像风格;
图像构建模块,用于基于所述第一目标特征向量进行图像构建,得到第三图像。
第四方面,本申请实施例提供了一种模型训练装置,该装置包括:
第三获取模块,用于获取训练样本数据,所述训练样本数据包括第一样本图像,以及用于表征第一样本风格的第四特征向量;
第一特征处理模块,用于对所述第一样本图像进行第一特征处理,得到第五特征向量,所述第五特征向量用于表征所述第一样本图像的图像内容;
特征拼接模块,用于对所述第五特征向量和所述第四特征向量进行拼接操作,得到第二目标特征向量;
图像构建模块,用于基于所述第二目标特征向量进行图像构建,得到第一输出图像;
第一确定模块,用于基于所述第一输出图像和所述第五特征向量,确定目标模型的第一网络损失值;
第一更新模块,用于基于所述第一网络损失值,更新所述目标模型的网络参数;
其中,在满足第一预设条件的情况下,所述目标模型训练完成,所述第一预设条件包括:所述第一网络损失值小于第一预设阈值,和/或,所述目标模型的训练迭代次数大于第二预设阈值。
第五方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的图像生成方法的步骤,或者如第二方面所述的模型训练方法的步骤。
第六方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的图像生成方法的步骤,或者如第二方面所述的模型训练方法的步骤。
第七方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的图像生成方法的步骤,或者如第二方面所述的模型训练方法的步骤。
在本申请实施例中,通过获取图像风格为第一风格的第一图像,以及图像风格为第二风格的第二图像;基于目标模型对所述第一图像进行第一特征处理,得到第一特征向量,所述第一特征向量用于表征所述第一图像的图像内容;对所述第一特征向量和第二特征向量进行拼接操作,得到第一目标特征向量,所述第二特征向量基于所述第二风格的第二图像确定,所述第二特征向量用于表征所述第二图像的图像风格;基于所述第一目标特征向量进行图像构建,得到第三图像。如此,可以基于目标模型实现图像的图像风格从第一风格到第二风格的转换,并可以保持所生成的第三图像的图像内容与所输入的第一图像的图像内容相同,从而可以提高所生成的图像质量。
附图说明
图1是本申请实施例提供的图像生成方法的流程图;
图2是卷积模块的结构示意图;
图3是CBAM的结构示意图;
图4是一示例的第一模型的结构示意图;
图5是一示例的目标模型的结构示意图;
图6是DeConvBlock模块的结构示意图;
图7是ResBlock模块的结构示意图;
图8是本申请实施例提供的图像合成方法的流程图;;
图9是第六图像的亮度调整示意图;
图10是本申请实施例提供的模型训练方法的流程图;
图11是本申请实施例提供的图像生成装置的结构图;
图12是本申请实施例提供的模型训练装置的结构图;
图13是本申请实施例提供的电子设备的结构图;
图14为实现本申请实施例的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的图像生成进行详细地说明。
图1是本申请实施例提供的图像生成方法的流程图,如图1所示,包括以下步骤:
步骤101,获取图像风格为第一风格的第一图像,以及图像风格为第二风格的第二图像。
该步骤中,第一图像可以为任一图像,比如人像图像、风景图像等,第一风格可以用于表征第一图像所对应的时光。第二图像也可以为任一图像,比如,人像图像、风景图像等,第二风格可以用于表征第二图像所对应的时光。
在一可选实施方式中,第一图像可以为风景图像,第一风格可以为四季时光中的时光,如春天时光,也可以为昼夜时长中的时光,如日出时光。
第二风格可以与第一风格相同,也可以不同。在一可选实施方式中,第二风格可以与第一风格不同,这样可以将第一图像转换成另一风格的图像,从而实现图像风格转换。
第二图像的数量可以为一个、两个甚至是多个,这里不进行具体限定。第二风格的数量也可以为一个、两个甚至是多个,这里不进行具体限定。
第一图像的获取方式可以包括多种,比如,可以获取预先存储的图像作为第一图像,可以通过相机实时拍摄得到第一图像,还可以接收其他电子设备发送的图像作为第一图像。第二图像的获取方式也可以包括多种,其获取方式可以与第一图像的获取方式类似,这里不进行赘述。
第一图像的获取时机可以在第二图像的获取时机之前、同时或之后。在一可选实施方式中,第一图像的获取时机可以在第二图像的获取时机之后,比如,可以首先获取第二图像,在提取出可表征第二图像的图像风格的第二特征向量的情况下,再获取第一图像,并基于第一图像和第二特征向量进行图像生成,这样,可以针对不同的图像,可以重复利用第二特征向量进行图像风格转换,从而可以提高图像生成的效率。
在一可选实施方式中,可以将第二特征向量与第二风格的风格信息匹配,相应的,可以获取第二风格的风格信息,即可以获取基于第二图像确定的第二特征向量。其中,风格信息可以为时光图模式,时光图模式可以表征第二风格,时光图模式可以包括四季变化模式、昼夜变换模式等,比如,时光图模式为四季变换模式时,第二风格可以包括春天时光、夏天时光等。
步骤102,基于目标模型对所述第一图像进行第一特征处理,得到第一特征向量,所述第一特征向量用于表征所述第一图像的图像内容。
可以采用目标模型,基于第一图像进行图像生成,该目标模型可以用于生成与第一图像的图像内容、且图像风格为第二风格的图像。
该目标模型可以包括第一模型,第一模型可以称之为编码器,该编码器可以分离出图像的内容,编码得到用于表征图像的图像内容的特征向量。
该编码器可以对第一图像进行第一特征处理,得到第一特征向量。其中,第一特征处理可以包括特征提取,以提取出可表征第一图像的图像内容的第一特征向量。
步骤103,对所述第一特征向量和第二特征向量进行拼接操作,得到第一目标特征向量,所述第二特征向量基于所述第二风格的第二图像确定,所述第二特征向量用于表征所述第二图像的图像风格。
该步骤中,第二特征向量用于表征第二图像的图像风格,第二特征向量基于第二风格的第二图像确定。
第二特征向量可以为第三特征向量,也可以对多个第三特征向量进行平均处理得到,其中,第三特征向量可以为用于表征第二图像的图像风格的特征向量。
第二特征向量可以基于深度学习模型,对第二图像进行第二特征处理得到,且每个第二特征向量与一个图像风格对应,这样,可以基于第二风格,获取第二风格对应的第二特征向量。
该深度学习模型可以与第一模型相同,也可以与第一模型不同。
在使用第一模型对第二图像进行第二特征处理得到第二特征向量的情况下,第一特征处理和第二特征处理可以完全不同,可以部分相同。
在一可选实施方式中,第一特征处理和第二特征处理可以部分相同,如前述的特征提取相同,后续可以基于相同的特征图像进行不同的特征提取,以分别得到用于表征图像内容的特征向量和用于表征图像风格的特征向量,实现图像内容和图像风格的解耦,这样通过一个模型即可分离出图像的内容特征向量和风格特征向量。
在内容特征向量和风格特征向量分离的情况下,可以将第一特征向量(其为内容特征向量)和第二特征向量(其为风格特征向量)进行拼接操作。具体的,目标模型可以包括拼接模块,可以通过拼接模块将两个特征向量进行拼接得到第一目标特征向量。
比如,第一特征向量的尺度为(1,1,256),即1*256大小的向量,第二特征向量的尺度为(1,1,256),即拼接得到的第一目标特征向量的尺度为(1,1,512),后续可以基于第一目标特征向量进行图像构建,生成相应的图像。
需要说明的是,目标模型在使用之前,需要预先训练,其训练过程将在下述实施例中进行详细说明。
步骤104,基于所述第一目标特征向量进行图像构建,得到第三图像。
其中,所述第三图像为图像风格为所述第二风格,且与所述第一图像具有相同图像内容的图像。
目标模型还可以包括第二模型,第二模型可以称之为解码器,该解码器可以基于所输入的特征向量,解码得到与所输入的特征向量所表征的图像内容和图像风格相同的图像。由于第一目标特征向量所表征的图像内容为第一图像的图像内容,且所表征的图像风格为第二风格,因此,该解码器所输出的图像即第三图像与所述第一图像具有相同图像内容,且图像风格为第二风格。
本实施例中,通过获取图像风格为第一风格的第一图像,以及图像风格为第二风格的第二图像;基于目标模型对所述第一图像进行第一特征处理,得到第一特征向量,所述第一特征向量用于表征所述第一图像的图像内容;对所述第一特征向量和第二特征向量进行拼接操作,得到第一目标特征向量,所述第二特征向量基于所述第二风格的第二图像确定,所述第二特征向量用于表征所述第二图像的图像风格;基于所述第一目标特征向量进行图像构建,得到第三图像。如此,可以基于目标模型实现图像的图像风格从第一风格到第二风格的转换,并可以保持所生成的第三图像的图像内容与所输入的第一图像的图像内容相同,从而可以提高所生成的图像质量。
可选的,所述对所述第一图像进行第一特征处理,得到第一特征向量,包括:
对所述第一图像进行第一特征编码,得到所述第一图像的第一特征图像;
对所述第一特征图像进行第二特征编码,得到所述第一特征向量。
本实施方式中,第一特征处理可以包括第一特征编码和第二特征编码,第一特征编码用于提取第一图像的第一特征图像,第一特征图像可以为第一图像的图像特征,其可以包括第一图像的颜色特征、纹理特征、形状特征和空间关系特征等,第二特征编码用于基于第一特征图像提取出用于表征第一图像的图像内容的第一特征向量。
本实施方式中,通过基于第一图像进行不同阶段的特征编码,可以提取得到用于表征第一图像的图像内容的第一特征向量,从而可以实现从第一图像中分离出第一图像的内容特征向量。
可选的,所述对所述第一图像进行第一特征编码,得到所述第一图像的第一特征图像,包括:
对所述第一图像进行特征提取,得到所述第一图像的第二特征图像;
基于目标注意力机制,提取所述第二特征图像在所述目标注意力机制对应维度上的注意力向量,所述目标注意力机制包括在通道维度上的注意力机制、在空间维度上的注意力机制中的至少一项;
将所述注意力向量和所述第二特征图像进行相乘处理,得到第三特征图像;
基于所述第三特征图像,确定所述第一特征图像;
其中,所述第一特征编码包括所述特征提取和所述注意力向量的提取。
本实施方式中,第一特征编码可以包括采用注意力机制,对第一图像进行特征提取的过程,以提高网络的特征表达能力。
具体的,可以采用一卷积模块,对第一图像进行特征提取,得到第一图像的第二特征图像,第二特征图像也可以为第一图像的图像特征,其可以包括第一图像的颜色特征、纹理特征、形状特征和空间关系特征等。
图2是卷积模块的结构示意图,如图2所示,卷积模块按照连接顺序分别为分别卷积层201、归一化(Batch Normlization,BN)处理202、Relu激活函数203、卷积层204和BN处理205。
第二特征图像与第一特征图像的尺度可以相同,也可以不同,这里不进行具体限定。在一可选实施方式中,第二特征图像与第一特征图像的尺度可以不同,通过串联连接的不同卷积模块不断执行特征提取,可以不断缩小特征图的尺度,从而充分提取出第一图像的图像特征。
第一模型可以包括注意力模块,该注意力模块可以基于目标注意力机制调整图像特征,以提高图像特征的表达能力。其中,目标注意力机制可以包括在通道维度上的注意力机制、在空间维度上的注意力机制中的至少一项。
在目标注意力机制仅包括一种注意力机制的情况下,可以提取第二特征图像在该注意力机制对应维度上的注意力向量,并将注意力向量和第二特征图像进行相乘处理,得到第三特征图像。
在目标注意力机制包括两种注意力机制的情况下,可以串联实现不同注意力机制的处理。
比如,可以通过通道注意力机制通过全局最大池化操作和全局池化操作获得通道注意力向量,之后经过一个共享的多层感知器(Multilayer Perception,MLP)得到各自通道上的注意力向量后进行元素加法,并通过sigmoid激活函数得到通道维度上的注意力向量,将该注意力向量与第二特征图像进行相乘处理,输出一特征图像。之后,通过空间注意力机制根据通道注意力机制输出的特征图像,沿着信道轴应用平均池化操作和最大池化操作,并将它们连接起来,得到空间维度上的注意力向量,将该注意力向量与通道注意力机制输出的特征图像进行相乘处理,得到第三特征图像。其中,第三特征图像与第二特征图像的尺度相同。
在一可选实施方式中,注意力模块可以为卷积块注意模块(Convolutional BlockAttention Module,CBAM)结构。图3是CBAM的结构示意图,如图3所示,CBAM可以包括通道注意力机制和空间注意力机制,并串联实现不同注意力机制的处理,输入第二特征图像,经过不同注意力机制的处理后,可以输出第三特征图像。
可以将第三特征图像确定为第一特征图像,为了充分提取第一图像的图像特征,可以采用另一卷积模块,继续对第三特征图像进行特征提取,以得到第一特征图像。
本实施方式中,通过特征提取可以实现第一图像的特征提取,且通过采用注意力机制进行特征提取,可以提高网络的特征表达能力,从而提高特征提取的准确性。
可选的,所述第二图像的数量为M,M为正整数,所述步骤103之前,所述方法还包括:
分别对每个所述第二图像进行第二特征处理,得到M个第三特征向量,一个所述第三特征向量与一个所述第二图像对应,所述第三特征向量用于表征所述第二图像的图像风格;
对所述M个第三特征向量进行平均处理,得到所述第二特征向量。
本实施方式中,第二特征处理可以包括第三特征提取和第四特征提取,第三特征提取用于提取第二图像的特征图像,该特征图像可以为第二图像的图像特征,其可以包括第二图像的颜色特征、纹理特征、形状特征和空间关系特征等,第四特征提取用于基于该特征图像提取出用于表征第二图像的图像内容的第三特征向量。
第三特征提取的方式可以与第一特征提取的方式相同,在一可选实施方式中,第一特征提取和第三特征提取可以通过相同的一些模块实现。
可以通过深度学习模型分别对每个第二图像进行第二特征处理,得到M个第三特征向量,具体可以分别将每个第二图像输入至深度学习模型,深度学习模型针对每个输入图像,可以输出一个第三特征向量,相应执行M次,即可以得到M个第三特征向量。
在一可选实施方式中,第一特征处理和第二特征处理均可以通过第一模型来实现,且第一特征提取和第三特征提取可以共用一些模块来实现,第二特征提取与第四特征提取不同,即可以分别通过不同的模块来实现第二特征提取和第四特征提取。也就是说,第一模型在进行特征处理时,可以对输入图像进行特征提取,得到特征图像,之后可以基于该特征图像进行不同的特征提取,以分别得到用于表征图像内容的特征向量和用于表征图像风格的特征向量,实现图像内容和图像风格的解耦,这样通过一个模型即可分离出图像的内容特征向量和风格特征向量。
图4是一示例的第一模型的结构示意图,如图4所示,第一模型的输入可以是一个256*256*3大小的RGB图像,输出是两个1*256大小的向量,分别是内容特征向量(用fc表示)和风格特征向量(用fs表示)。
第一模型可以包括7个网络模块,7个网络模块详细介绍如下:
第一个网络模块401是卷积模块ConvBlock,内部结构如图2所示,后续的卷积模块(如第二个网络模块402、第三个网络模块403、第五个网络模块405至第七个网络模块407)可以与第一网络模块401的结构相同或类似。其中,第一个网络模块401的结构为:第一个卷积层Conv是内核kernel大小为3*3,步长stride为2的卷积,输入图像大小为256*256*3,输出图像大小为128*128*16。第二个卷积层是kernel大小为1*1,stride为1的卷积,输入图像大小为128*128*16,输出图像大小为128*128*32。
第四个网络模块404是CBAM结构,其内部结构如图3所示,用来提高网络的特征表达能力,其输入图像为第三个网络模块403输出的特征图像,如图3所示,其内含通道注意力机制和空间注意力机制两个模块。可以通过通道注意力机制通过全局最大池化操作和全局池化操作获得通道注意力向量,之后经过一个共享的MLP得到各自通道上的注意力向量后进行元素加法,并通过sigmoid激活函数得到通道维度上的注意力向量,通过Multipy相乘融合层将该注意力向量与第三个网络模块输出的特征图像进行相乘处理,输出一特征图像。之后,通过空间注意力机制根据通道注意力机制输出的特征图像,沿着信道轴应用平均池化操作和最大池化操作,并将它们连接起来,得到空间维度上的注意力向量,将该注意力向量与通道注意力机制输出的特征图像进行相乘处理,得到另一图像特征。
第五个网络模块405是卷积模块。第一个卷积层输入图像大小为32*32*96,输出图像大小为16*16*128。第二个卷积层输入图像大小为16*16*128,输出图像大小为16*16*128。
第六个网络模块406是卷积模块,输出的是内容特征向量。输入图像是第五个网络模块405的输出,输出图像大小为4*4*32,之后通过变换reshape操作将输出转换成1*256的一维向量。
第七个网络模块407是卷积模块,输出的是风格特征向量,输入图像同样是第五个网络模块405的输出,之后同样通过reshape操作将输出转换成1*256的一维向量。
在得到M个第三特征向量的情况下,可以对M个第三特征向量进行平均处理,得到第二特征向量,其计算公式如下式(1)所示。
其中,上式(1)中,fsavg为第二特征向量,fs(i)为第i个第三特征向量。
本实施方式中,通过分别对每个所述第二图像进行第二特征处理,得到M个第三特征向量,一个所述第三特征向量与一个所述第二图像对应,所述第三特征向量用于表征所述第二图像的图像风格;对所述M个第三特征向量进行平均处理,得到所述第二特征向量。如此,可以从第二图像中分离出风格特征向量,以预先获取用于表征第二风格的第二特征向量,且通过对多个第二风格对应的第三特征向量进行平均处理,可以得到用于表征第二风格的平均风格的第二特征向量,如此,可以提高风格特征向量的表征能力。
可选的,所述步骤104具体包括:
对所述第一目标特征向量进行第一特征解码,得到第四特征图像;
对所述第四特征图像进行第二特征解码,得到第五特征图像,所述第五特征图像的尺寸与所述第一特征图像的尺寸相同;
将所述第一特征图像和所述第五特征图像进行拼接操作,得到第六特征图像;
对所述第六特征图像进行第三特征解码,得到所述第三图像。
本实施方式中,图像构建可以包括第一特征解码、第二特征解码和第三特征解码,第一特征解码用于对第一目标特征向量进行特征解码,得到第四特征图像,可以通过第一特征解码实现将特征向量解码为特征图像。
第二特征解码用于对第四特征图像进行第二特征解码,得到第五特征图像,所述第五特征图像的尺寸与所述第一特征图像的尺寸相同。在一可选实施方式中,第二特征解码相应的操作可以与第一特征提取相应的操作对应,即若通过上采样操作实现特征提取,即可以采用与该上采样操作对应的下采样操作来实现特征解码,且第二特征解码对应的网络层与第一特征提取对应的网络层对应,这样可以使得第五特征图像的尺寸与第一特征图像的尺寸相同。
第三特征解码用于实现对第六特征图像进行特征解码,得到第三图像,第六特征图像是基于第一特征图像和第五特征图像进行拼接得到的。这样,可以避免在网络处理过程中图像语义信息的丢失,保证图像风格转换过程中图像内容的不变性,在具体实现过程中,将编码器与解码器的对应网络层之间连接,并通过通道维度上的concat操作实现将对应层输出的特征图像拼接得到第六特征图像。
其中,第一特征解码可以包括至少一个编码操作,在第一特征解码包括多个解码操作的情况下,可以通过级联形式实现逐步实现对第一目标特征向量的特征解码。并且,第二特征解码也可以包括至少一个解码操作,在第二特征解码包括多个解码操作的情况下,也可以通过级联形式实现逐步实现对第四特征图像的特征解码。
第一特征解码、第二特征解码和第三特征解码均是通过下采样操作,来扩大特征的尺度,以可以解码到第三图像,第三图像的尺度可以与第一图像的尺度相同,如256*256*3大小。
需要说明的是,目标模型中的解码器可以包括至少一个分支网络,如可以包括两个分支网络,每个分支网络可以通过上述图像构建实现图像内容针对一个图像风格的转换,相应的,可以通过目标模型实现多目标风格转换,即可以将输入图像转换到多个风格,得到多个风格的图像。
在解码器包括至少两个分支网络的情况下,解码器中的不同分支网络可以独立进行风格转换。在一可选实施方式中,也可以协同进行风格转换,使得多目标任务间可以相互促进,共同优化,更能满足时光图像生成中性能和效果的要求,可选的,所述第二风格包括第一目标风格和第二目标风格;所述对所述第一目标特征向量进行第一特征解码,得到第四特征图像,包括:
对所述第一目标风格对应的所述第一目标特征向量进行第一解码操作,得到第七特征图像;
将所述第七特征图像和第八特征图像进行拼接操作,得到第九特征图像,所述第八特征图像是对所述第二目标风格对应的所述第一目标特征向量进行所述第一解码操作得到的;
对所述第九特征图像进行第二解码操作,得到所述第四特征图像。
本实施方式中,解码器可以包括至少两个分支网络,每个分支网络可以实现第一图像的图像内容针对第二风格的转换,以两个分支网络为例,即第二风格的数量为2。
可以通过一个分支网络对第一目标风格对应的第一目标特征向量进行第一解码操作,得到第七特征图像。相应的,可以通过另一个分支网络对第二目标风格对应的第一目标特征向量进行第一解码操作,得到第八特征图像。其中,第一解码操作可以包括上采样操作,以实现特征解码。
之后,可以将第七特征图像和第八特征图像进行拼接操作,得到第九特征图像,具体可以将两个分支网络对应网络层之间的输入相互进行concat操作,由于两个解码器解码出来的语义信息应该是一致的,因此,互联级联可以促进两个解码器对相同内容的输入保持解码出语义信息的相近,起到联合优化的作用,从而提高特征解码的准确性。
之后,可以对第九特征图像进行第二解码操作,得到第四特征图像,如此可以实现对第一目标特征向量进行第一特征解码,且通过互联级联可以促进两个解码器对相同内容的输入保持解码出语义信息的相近,起到联合优化的作用,从而提高特征解码的准确性。
图5是一示例的目标模型的结构示意图,如图5所示,该目标模型可以包括第一模型即编码器51和第二模型即解码器,第二模型可以包括第一解码器52和第二解码器53,编码器51的结构如图4所示,第一解码器和第二解码器的结构相同,但是网络权重不同。
解码器中可以包括解码网络DeConvBlock模块和残差网络ResBlock模块,DeConvBlock模块的结构示意图如图6所示,其组成分别为上采样模块、卷积层、BN处理和Relu激活函数。首先,采用上采样操作将输入扩大到两倍大小,通道数保持不变,之后采用卷积操作,设置kernel大小为3*3,stride为1,之后加入常规的BN处理和Relu操作。
ResBlock模块的结构示意图如图7所示,其组成分别为卷积层、BN处理、Relu激活函数、卷积层、BN处理、网络层相加Add处理。第一个卷积层是kernel大小为3*3,stride为1的卷积,输出通道与输入相同,之后加入常规的BN和Relu操作,第二个卷积层的kernel大小为1*1,stride为1,通道数为设置的输出通道,再加一个BN操作,而Add处理用于将ResBlock模块的输入特征与输出特征相加再输出。
如图5所示,解码器可以包括8个模块,排列在第1、2、5、6、7、8的模块可以为DeConvBlock模块,排列在第3、4的模块可以为ResBlock模块。各个模块的输入和输出大小如下表1所示。
表1解码器输入输出大小
模块(排列顺序) | 输入大小 | 输出大小 |
1 | 1*1*512 | 2*2*256 |
2 | 2*2*512 | 4*4*128 |
3 | 4*4*256 | 8*8*96 |
4 | 8*8*288 | 16*16*96 |
5 | 16*16*192 | 32*32*64 |
6 | 32*32*128 | 64*64*32 |
7 | 64*64*64 | 128*128*16 |
8 | 128*128*16 | 256*256*3 |
如图5所示,可以包括多个网络层级联,可以避免在网络处理过程中图像语义信息的丢失,如编码器和解码器对应网络层之间的连接,又如两个解码器之间第2至4个模块之间的输入互相连接。
可以通过上述目标模型针对一个图像如风景图像,实现表征不同时光风格的图像生成,并可以利用所生成的多个图像进行图像合成,以得到按照时光变换的动态图或视频。下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的图像合成进行详细地说明。
图8是本申请实施例提供的图像合成方法的流程图,如图8所示,包括以下步骤:
步骤801,通过目标模型将第一图像进行风格转换,生成N个第三图像;
步骤802,获取合成位置位于两个目标图像之间的第四图像,所述第四图像关于第一颜色空间的第一像素信息是基于所述两个目标图像关于所述第一颜色空间的第二像素信息确定的,所述两个目标图像为N个所述第三图像中相邻的两个图像;
步骤803,基于N个所述第三图像关于第二颜色空间的N个第三像素信息,对所述第四图像关于所述第二颜色空间的第四像素信息进行调整,得到第五图像;
步骤804,合成N个所述第三图像和所述第五图像。
该步骤801的目的是基于目标模型生成所需的表征不同时光风格的图像。用户可以输入一张源图像即第一图像,以及对应N个第二风格的时光变换模式,如四季变化模式、昼夜变换模式等,相应的,目标模型针对所输入的信息进行图像风格转换,得到第三图像。
其中,时光变换模式对应的第二风格的数量可以设置,如第二风格的数量为4,在四季变化模式中,分别包括春天、夏天、秋天和冬天这4个不同时光的风格,而昼夜变换模式可以设置为日出、日中、日落和深夜这4个不同时光的风格。
通过目标模型将第一图像进行风格转换,生成N个第三图像的过程与上述图像生成方法实施例的过程类似,这里不进行赘述。需要说明的是,在目标模型中解码器仅包括两个分支网络、而需要输出四种不同时光风格的图像的情况下,目标模型可以执行两次图像生成操作,即通过两次推理,便可以得到所需的4帧时光图像。可以通过尺寸调整resize,将4帧时光图像的尺寸全部放大到1080*1080*3大小。
在步骤802中,为了解决图像合成过程中图像突变的问题,采用插帧的方式将时光图像序列进行扩展,如从4帧扩展到10帧,两帧相邻图像之间可以增加一帧或多帧图像,如每两帧相邻图像之间可以增加两帧图像。
可以基于相邻两帧图像关于第一颜色空间的第二像素信息均匀变化的条件,计算出所需要插入的图像关于第一颜色空间的第一像素信息,以得到在该相邻两帧图像之间所需要插入的帧图像即第四图像,该方式可以适用于景物位置不动的风景图像的插帧。
其中,第一颜色空间可以为RGB颜色空间,对于所需要插入的帧图像中像素点的颜色值可以对应前后时光图像中同一像素位置的颜色值的加权和,计算公式如下式(2)和下式(3)所示。
mid1=2/3*ori_1+1/3*ori_2 (2)
mid2=1/3*ori_1+2/3*ori_2 (3)
其中,ori_1和ori_2分别相邻的两个时光图像,mid1和mid2分别所需要插入的前后两帧。
在步骤803中,得到10帧时光图像之后,为了使合成的动态时光图更符合真实的第二颜色空间上的变化,如亮度变化和色彩变化,可以基于目标模型生成的4帧时光图像关于第二颜色空间的N个第三像素信息,对所需要插入的帧图像关于第二颜色空间的第四像素信息进行调整,得到第五图像。
第二颜色空间可以为Lab颜色空间。其中,L代表亮度,取值范围是[0,100],表示从纯黑到纯白;a表示从红色到绿色的范围,取值范围是[127,-128];b表示从黄色到蓝色的范围,取值范围是[127,-128]。
之后,可以合成N个第三图像和第五图像,得到动态图像或视频。
本实施例中,通过目标模型将第一图像进行风格转换,生成N个第三图像;获取合成位置位于两个目标图像之间的第四图像,所述第四图像关于第一颜色空间的第一像素信息是基于所述两个目标图像关于所述第一颜色空间的第二像素信息确定的,所述两个目标图像为N个所述第三图像中相邻的两个图像;基于N个所述第三图像关于第二颜色空间的N个第三像素信息,对所述第四图像关于所述第二颜色空间的第四像素信息进行调整,得到第五图像;合成N个所述第三图像和所述第五图像。如此,可以使得合成的动态时光图更符合真实的第二颜色空间上的变化,如亮度变化和色彩变化,提高图像合成的效果。
可选的,所述第二颜色空间包括三个分量,所述步骤803具体包括:
针对每个分量,基于所述N个第三像素信息中关于所述分量的像素值,对所述第四像素信息中关于所述分量的像素值进行调整,得到第五图像。
本实施方式中,第二颜色空间可以为Lab颜色空间,其分量可以包括三个,分别为亮度、颜色分量a和颜色分量b。
可以针对每个分量,进行该分量的像素值调整,可以使得合成的动态时光图在第二颜色空间上的各个分量均符合真实的变化。
在一可选实施方式中,对于时辰不变的模式如四季变化模式可以不调整亮度的像素值。
可选的,所述三个分量包括亮度分量,所述基于所述N个第三像素信息中关于所述分量的像素值,对所述第四像素信息中关于所述分量的像素值进行调整,得到第五图像,包括:
基于所述N个第三像素信息中关于所述亮度分量的像素值,获取所述N个第三图像关于所述亮度分量的N个第一亮度值;以及基于所述第四像素信息中关于所述亮度分量的像素值,获取所述第四图像关于所述亮度分量的第二亮度值;
基于所述N个第一亮度值和所述N个第三图像对应的N个第一时光,对用于表征时光相对于亮度值变化的第一曲线进行拟合;
基于所述第一曲线,计算所述第四图像对应的第二时光的第三亮度值;
基于所述第二亮度值和所述第三亮度值,对用于表征调整前的亮度值相对于调整后的亮度值变化的第二曲线进行拟合;
将所述第四像素信息中关于所述亮度分量的像素值调整为第四亮度值,所述第四亮度值基于所述第二曲线和所述第四像素信息中关于所述亮度分量的像素值计算得到。
本实施方式中,可以分别对每个第三图像中像素点的亮度值进行平均统计,获得N个第三图像对应的N个第一亮度值,并可以对第四图像中像素点的亮度值进行平均统计,获得第四图像对应的第二亮度值。在一可选实施方式中,可以将图像从RGB颜色空间转换成LAB颜色空间,L通道求平均即可得到图像的平均亮度值。
可以使用如下式(4)所示的公式来拟合第一曲线,第一曲线为时光如时刻相对于亮度值变化的曲线。
其中,上式(4)中,x为时刻,y为亮度,且以6作为日出时刻,12为日中,18为日落,0为深夜。
曲线拟合过程中可以使用N个第一亮度值作为y数据,而将N个第一时光作为x数据,使用最小二乘法确定上式(4)中的系数,即k和b系数。
记第四图像中调整前的平均亮度即第二亮度值为q,将第四图像对应的第二时光作为x,基于第一曲线计算y即第三亮度值(记为q’)作为第四图像中调整后的平均亮度。可以使用如下式(5)所示的公式来拟合第二曲线,第二曲线为调整前的亮度值相对于调整后的亮度值变化的曲线。
y=ax2+bx+c (5)
可以通过(0,0)、(100,100)、(q,q’)三点确定第二曲线的参数,即a、b和c。
相应的,可以将第四图像中每个像素点调整前的亮度值作为x,基于第二曲线计算每个像素点调整后的亮度值即第四亮度值。
第四图像的亮度调整示意图如图9所示,其中,直线为第四图像中像素点调整前的亮度曲线,而曲线为第四图像中像素点调整后的亮度曲线,通过对第四图像进行亮度调整,可以模拟真实世界的亮度变化,使得合成后的动态图中帧与帧之间的变化更平滑。
相应的,对于颜色分量a和b,可以采用如亮度通道对应的调整方式进行色彩调整,不再赘述。不同的是,是使用如下式(6)所示的公式来拟合第一曲线。
通过对第四图像进行色彩调整,可以模拟真实世界的色彩变化,使得合成后的动态图中帧与帧之间的变化更平滑。
需要说明的是,上述目标模型在使用之前,需要预先训练,下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的模型训练进行详细地说明。
图10是本申请实施例提供的模型训练方法的流程图,如图10所示,包括以下步骤:
步骤1001,获取训练样本数据,所述训练样本数据包括第一样本图像,以及用于表征第一样本风格的第四特征向量;
步骤1002,对所述第一样本图像进行第一特征处理,得到第五特征向量,所述第五特征向量用于表征所述第一样本图像的图像内容;
步骤1003,对所述第五特征向量和所述第四特征向量进行拼接操作,得到第二目标特征向量;
步骤1004,基于所述第二目标特征向量进行图像构建,得到第一输出图像;
步骤1005,基于所述第一输出图像和所述第五特征向量,确定目标模型的第一网络损失值;
步骤1006,基于所述第一网络损失值,更新所述目标模型的网络参数。
其中,在满足第一预设条件的情况下,所述目标模型训练完成,所述第一预设条件包括:所述第一网络损失值小于第一预设阈值,和/或,所述目标模型的训练迭代次数大于第二预设阈值。
在步骤1001中,训练样本数据可以包括至少一个第一样本图像,以及包括至少一个第一样本风格对应的第四特征向量。
第一样本图像可以为任一图像,如可以为风景图像,其获取方式可以与第一图像类似,用于表征第一样本风格的第四特征向量可以通过目标模型中的第一模型获取,其获取方式也可以与第二特征向量类似,这里不进行赘述。
第四特征向量的数量可以与目标模型中解码器的分支网络的数量相同,如解码器的分支网络的数量为2,即可以同时实现两种图像风格转换,则第四特征向量的数量即为2。
训练样本数据还可以包括K个第二样本图像,这K个第二样本图像可以用于对第一模型进行训练,K为大于2的整数。训练样本数据还可以包括第三样本图像,所述第三样本图像与所述第一样本图像具有相同图像内容,所述第三样本图像的图像风格为所述第一样本风格,第三样本图像可以结合第一样本图像和第四特征向量进行目标模型的网络参数调整,以下再对这两种情况进行说明。
上述步骤1002、步骤1003和步骤1004是基于目标模型进行图像生成的过程,具体可以将第一样本图像和第四特征向量输入至目标模型,该目标模型相应可以执行上述步骤1002、步骤1003和步骤1004,其中,上述步骤1002、步骤1003和步骤1004的过程与上述图像生成方法实施例的过程类似,这里不进行赘述。
在步骤1005中,可以基于所述第一输出图像和所述第五特征向量,确定目标模型的第一网络损失值。
在一可选实施方式中,若解码器的分支网络的数量为2,其输出的图像分别为out1和out2,两个第四特征向量分别为s1和s2,输入图像即第一样本图像为x,其损失函数可以如下式(7)所示。
其中,上式(7)中,CE是交叉熵损失函数,fc(out1)和fc(out2)为输出图像1和输出图像2的内容特征向量,fc(x)为输入图像的内容特征向量,fs(out1)和fs(out2)为输出图像1和输出图像2的风格特征向量,Loss1为第一网络损失值。
Loss1的第1行是用来保证生成的两个图像内容相同且与输入图像内容保持一致,第2行是用来保证解码器1生成的图像风格与输入的图像风格相同,第3行是用来保证解码器2生成的图像风格与输入的图像风格相同。
在步骤1006中,可以基于第一网络损失值,更新目标模型的网络参数。
可以采用梯度下降法更新目标模型的网络参数,且可以采用循环迭代的方式,不断更新目标模型的网络参数,直至第一网络损失值小于第一预设阈值且达到收敛,和/或,目标模型的训练迭代次数大于第二预设阈值,此时目标模型可以训练完成。其中,第一预设阈值和第二预设阈值可以根据实际情况进行设置,通常第一预设阈值可以设置的比较小,第二预设阈值设置的比较大,以保证目标模型的充分训练,保证目标模型的训练效果。
需要说明的是,目标模型的训练阶段可以仅包括一个阶段,该阶段中,可以将第三样本图像、第一样本图像和第四特征向量作为目标模型的输入,在目标模型更新时,结合第三样本图像、第一输出图像和第五特征向量同时更新第一模型和第二模型的网络参数。
目标模型的训练阶段也可以包括至少两个阶段,这至少两个阶段可以包括第一阶段和第二阶段,所述第二阶段位于所述第一阶段之后,第一阶段可以称之为预训练阶段,第二阶段可以称之为微调阶段。在目标模型的训练阶段处于第一阶段的情况下,可以将第一样本图像和第四特征向量作为目标模型的输入,在目标模型更新时,结合第一输出图像、第四特征向量和第五特征向量更新第二模型的网络参数,而在第一阶段时,第一模型的网络参数固定不定。在目标模型的训练阶段处于第二阶段的情况下,可以将第三样本图像、第一样本图像和第四特征向量作为目标模型的输入,在目标模型更新时,结合第三样本图像、第一输出图像和第五特征向量同时更新第一模型和第二模型的网络参数,以进一步调整目标模型的网络参数。这样,通过预训练结合微调的训练方式可以提高目标模型的训练速度。
本实施例中,通过获取训练样本数据,所述训练样本数据包括第一样本图像,以及用于表征第一样本风格的第四特征向量;对所述第一样本图像进行第一特征处理,得到第五特征向量,所述第五特征向量用于表征所述第一样本图像的图像内容;对所述第五特征向量和所述第四特征向量进行拼接操作,得到第二目标特征向量;基于所述第二目标特征向量进行图像构建,得到第一输出图像;基于所述第一输出图像和所述第五特征向量,确定目标模型的第一网络损失值;基于所述第一网络损失值,更新所述目标模型的网络参数;其中,在满足第一预设条件的情况下,所述目标模型训练完成,所述第一预设条件包括:所述第一网络损失值小于第一预设阈值,和/或,所述目标模型的训练迭代次数大于第二预设阈值。如此,可以实现目标模型的训练,使得该目标模型可以用于图像风格转换,提高所生成的图像质量。
可选的,所述目标模型包括第一模型和第二模型,所述第一模型用于:对所述第一样本图像进行第一特征处理,得到第五特征向量,所述第二模型用于:对所述第五特征向量和所述第四特征向量进行拼接操作,得到第二目标特征向量;基于所述第二目标特征向量进行图像构建,得到所述第一输出图像;
所述目标模型的训练阶段包括第一阶段和第二阶段,所述第二阶段位于所述第一阶段之后;所述步骤1006具体包括以下任一项:
在所述目标模型的训练阶段位于所述第一阶段的情况下,基于所述第一网络损失值,更新所述第二模型的网络参数,其中,所述第一模型的网络参数固定不变;
在所述目标模型的训练阶段位于所述第二阶段的情况下,基于所述第一网络损失值,更新所述第一模型和所述第二模型的网络参数;
其中,在满足第二预设条件的情况下,所述目标模型的训练阶段位于所述第一阶段,所述第二预设条件包括:所述第一网络损失值大于或等于第三预设阈值,和/或,所述目标模型的训练迭代次数小于或等于第四预设阈值,所述第三预设阈值大于所述第一预设阈值,所述第四预设阈值小于所述第二预设阈值。
本实施方式中,目标模型的训练阶段也可以包括至少两个阶段,这至少两个阶段可以包括第一阶段和第二阶段,所述第二阶段位于所述第一阶段之后,第一阶段可以称之为预训练阶段,第二阶段可以称之为微调阶段。
预训练阶段和微调阶段在训练过程中存在三点不同,第一点为输入不同,预训练阶段的输入为第一样本图像和第四特征向量,微调阶段的输入为第三样本图像、第一样本图像和第四特征向量。
第二点为第一网络损失值的确定方式不同,预训练阶段的第一网络损失值的确定方式为基于第一输出图像、第四特征向量和第五特征向量,确定第一网络损失值,微调阶段的第一网络损失值的确定方式为基于第一输出图像、第三样本图像和第五特征向量,确定第一网络损失值。
第三点为目标模型的网络参数的更新方式不同,预训练阶段是第一模型的网络参数固定不变,仅更新第二模型的网络参数,而微调阶段是同时更新第一模型和第二模型的网络参数。
在预训练阶段,可以固定第一模型的网络参数,并基于第一网络损失值,仅更新目标模型中第二模型的网络参数,这样可以简化模型的训练。
而在微调阶段,可以同时更新第一模型和第二模型的网络参数,以在预训练阶段的基础上,进一步微调目标模型的网络参数。
其中,在满足第二预设条件的情况下,所述目标模型的训练阶段位于第一阶段,第二预设条件可以根据实际情况进行设置,其可以包括所述第一网络损失值大于或等于第三预设阈值,和/或,所述目标模型的训练迭代次数小于或等于第四预设阈值。第三预设阈值和第四预设阈值均可以根据实际情况进行设置,第三预设阈值大于第一预设阈值,第四预设阈值小于第二预设阈值。
在一可选实施方式中,训练过程中预训练阶段的迭代次数与微调阶段的迭代次数比例可以为10:1,可以根据该迭代次数比例设置第二预设阈值和第四预设阈值。
相应的,当不满足第二预设条件时,训练阶段可以从预训练阶段自然过程到微调阶段。
可选的,为了进一步提高目标模型的训练速度,可以在目标模型训练之前优先训练第一模型。所述训练样本数据还包括:K个第二样本图像,所述K个第二样本图像包括:具有相同图像内容,但图像风格不同的样本图像,以及具有相同图像风格,但图像内容不同的样本图像,K为大于2的整数;所述步骤1006之前,所述方法还包括:
基于所述第一模型对所述K个第二样本图像进行目标特征处理,得到K个第六特征向量和K个第七特征向量,所述第六特征向量用于表征所述第二样本图像的图像内容,所述第七特征向量用于表征所述第二样本图像的图像风格,所述目标特征处理包括所述第一特征处理;
基于所述K个第六特征向量和所述K个第七特征向量,确定所述第一模型的第二网络损失值;
基于所述第二网络损失值,更新所述第一模型的网络参数,其中,在所述第二网络损失值小于第五预设阈值的情况下,所述第一模型训练完成。
本实施方式中,K个第二样本图像可以为成对数据,即具有相同图像内容,但图像风格不同的成对样本图像,以及具有相同图像风格,但图像内容不同的成对样本图像。
可以采用CycleGAN模型来生成成对样本图像。
目标特征处理可以包括第一特征处理和第二特征处理,可以分别将每个第二样本图像输入至第一模型进行目标特征处理,得到每个第二样本图像的内容特征向量即第六特征向量和风格特征向量即第七特征向量。第一模型的结构可以如图4所示。
训练过程中,对于每个第二样本图像(用I表示),对应有两个成对样本图像(用GT表示),其中,GT_c是与I包含相同图像内容,但是不同图像风格的图像,而GT_s是与I包含不同图像内容,但图像风格相同的图像。将第一模型即编码器的内容特征向量记为fc(x),风格特征向量记为fs(x),第一模型在训练过程中采用的损失函数如下式(8)所示。
Loss2=k*CE(fc(I),fc(GT_c))-CE(fs(I),fs(GT_c))
+k*CE(fs(I),fs(GT_s))-CE(fc(I),fc(GT_s)) (8)
其中,上式(8)中,k=100,CE是交叉熵损失函数,Loss2为第二网络损失值。该损失函数能够使得拥有相同图像内容的图像经过编码器后编码出相似的内容特征向量,拥有相同图像风格的图像经过编码器后编码出相似的风格特征向量,而两个不同图像内容的图像经过编码器编码的内容特征向量具有较大差异,两个不同图像风格的图像经过编码器编码的风格特征向量具有较大差异。
之后,基于第二网络损失值更新第一模型的网络参数,其更新方式与基于第一网络损失值更新目标模型的网络参数的方式类似,这里不进行赘述。其中,第五预设阈值可以根据实际情况进行设置,通常设置的比较小,这里不进行具体限定。
本实施方式可以预先对第一模型进行训练,第一模型在训练完成之后,可以辅助进行目标模型的训练,这样可以简化模型训练的过程。
可选的,在所述目标模型的训练阶段位于所述第一阶段的情况下,所述步骤1005具体包括:
在所述第一模型训练完成的情况下,基于所述第一模型对所述第一输出图像进行目标特征处理,得到第八特征向量和第九特征向量,所述第八特征向量用于表征所述第一输出图像的图像内容,所述第九特征向量用于表征所述第一输出图像的图像风格;
将所述第八特征向量与所述第五特征向量进行比对,确定第一损失值;以及将所述第九特征向量和所述第四特征向量进行比对,得到第二损失值;
将所述第一损失值和所述第二损失值进行聚合,得到所述第一网络损失值。
本实施方式中,在第一模型训练完成的情况下,可以辅助目标模型的训练,具体可以基于第一模型对第一输出图像进行目标特征处理,得到第一输入图像的内容特征向量即第八特征向量和风格特征向量即第九特征向量。
相应的,可以采用如上式(7)所示的损失函数确定第一网络损失值,一方面进行图像内容的不变约束,保证生成的两个图像内容相同且与输入图像内容保持一致,另一方面,进行图像风格的不变约束,保证解码器生成的图像风格与输入的图像风格相同。
可选的,在所述目标模型的训练阶段位于所述第二阶段的情况下,所述步骤1005具体包括:
基于第一输出图像、第五特征向量和第三样本图像,确定所述目标模型的第一网络损失值。
本实施方式中,第一输出图像分别为out1和out2,第一样本图像为x,第三样本图像记为gt,可以采用如下式(9)所示的损失函数,基于第一输出图像、第三样本图像和第五特征向量,确定第一网络损失值。
其中,上式(9)中,L1表示平均绝对误差函数,Loss3的第一行是用来促使目标模型生成的图像与图像gt相同,第二行保证生成图像内容与图像gt内容相同,且与输入图像x相同,第三行保证生成图像风格与图像gt风格相同。
本实施方式中,通过微调阶段调整第一模型和第二模型的网络参数,可以提高模型训练的精度。
需要说明的是,本申请实施例提供的图像生成方法,执行主体可以为图像生成装置,或者图像生成装置中的用于执行图像生成方法的控制模块。本申请实施例中以图像生成装置执行图像生成方法为例,说明本申请实施例提供的图像生成装置。
参见图11,图11是本申请实施例提供的图像生成装置的结构图,如图11所示,图像生成装置1100包括:
第一获取模块1101,用于获取图像风格为第一风格的第一图像,以及图像风格为第二风格的第二图像;
第一特征处理模块1102,用于基于目标模型对所述第一图像进行第一特征处理,得到第一特征向量,所述第一特征向量用于表征所述第一图像的图像内容;
特征拼接模块1103,用于对所述第一特征向量和第二特征向量进行拼接操作,得到第一目标特征向量,所述第二特征向量基于所述第二风格的第二图像确定,所述第二特征向量用于表征所述第二图像的图像风格;
图像构建模块1104,用于基于所述第一目标特征向量进行图像构建,得到第三图像。
可选的,所述第一特征处理模块1102包括:
第一特征编码单元,用于对所述第一图像进行第一特征编码,得到所述第一图像的第一特征图像;
第二特征编码单元,用于对所述第一特征图像进行第二特征编码,得到所述第一特征向量。
可选的,所述第一特征编码单元,具体用于:
对所述第一图像进行特征提取,得到所述第一图像的第二特征图像;
基于目标注意力机制,提取所述第二特征图像在所述目标注意力机制对应维度上的注意力向量,所述目标注意力机制包括在通道维度上的注意力机制、在空间维度上的注意力机制中的至少一项;
将所述注意力向量和所述第二特征图像进行相乘处理,得到第三特征图像;
基于所述第三特征图像,确定所述第一特征图像;
其中,所述第一特征编码包括所述特征提取和所述注意力向量的提取。
可选的,所述图像构建模块1104包括:
第一特征解码单元,用于对所述第一目标特征向量进行第一特征解码,得到第四特征图像;
第二特征解码单元,用于对所述第四特征图像进行第二特征解码,得到第五特征图像,所述第五特征图像的尺寸与所述第一特征图像的尺寸相同;
拼接操作单元,用于将所述第一特征图像和所述第五特征图像进行拼接操作,得到第六特征图像;
第三特征解码单元,用于对所述第六特征图像进行第三特征解码,得到所述第三图像。
可选的,所述第二风格包括第一目标风格和第二目标风格;所述第一特征解码单元,具体用于:
对所述第一目标风格对应的所述第一目标特征向量进行第一解码操作,得到第七特征图像;
将所述第七特征图像和第八特征图像进行拼接操作,得到第九特征图像,所述第八特征图像是对所述第二目标风格对应的所述第一目标特征向量进行所述第一解码操作得到的;
对所述第九特征图像进行第二解码操作,得到所述第四特征图像。
可选的,所述第二图像的数量为M,M为正整数,所述装置还包括:
第二特征处理模块,用于分别对每个所述第二图像进行第二特征处理,得到M个第三特征向量,一个所述第三特征向量与一个所述第二图像对应,所述第三特征向量用于表征所述第二图像的图像风格;
平均处理模块,用于对所述M个第三特征向量进行平均处理,得到所述第二特征向量。
可选的,所述第三图像的数量包括N个,N为大于1的整数,所述装置包括:
第二获取模块,用于获取合成位置位于两个目标图像之间的第四图像,所述第四图像关于第一颜色空间的第一像素信息是基于所述两个目标图像关于所述第一颜色空间的第二像素信息确定的,所述两个目标图像为N个所述第三图像中相邻的两个图像;;
像素调整模块,用于基于N个所述第三图像关于第二颜色空间的N个第三像素信息,对所述第四图像关于所述第二颜色空间的第四像素信息进行调整,得到第五图像;
合成模块,用于合成N个所述第三图像和所述第五图像。
本实施例中,通过获取图像风格为第一风格的第一图像,以及图像风格为第二风格的第二图像;基于目标模型对所述第一图像进行第一特征处理,得到第一特征向量,所述第一特征向量用于表征所述第一图像的图像内容;对所述第一特征向量和第二特征向量进行拼接操作,得到第一目标特征向量,所述第二特征向量基于所述第二风格的第二图像确定,所述第二特征向量用于表征所述第二图像的图像风格;基于所述第一目标特征向量进行图像构建,得到第三图像。如此,可以基于目标模型实现图像的图像风格从第一风格到第二风格的转换,并可以保持所生成的第三图像的图像内容与所输入的第一图像的图像内容相同,从而可以提高所生成的图像质量。
本申请实施例中的图像生成装置可以是装置,也可以是电子设备中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的图像生成装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的图像生成装置能够实现图1的方法实施例实现的各个过程,为避免重复,这里不再赘述。
需要说明的是,本申请实施例提供的模型训练方法,执行主体可以为模型训练装置,或者模型训练装置中的用于执行模型训练方法的控制模块。本申请实施例中以模型训练装置执行模型训练方法为例,说明本申请实施例提供的模型训练装置。
参见图12,图12是本申请实施例提供的模型训练装置的结构图,如图12所示,模型训练装置1200包括:
第三获取模块1201,用于获取训练样本数据,所述训练样本数据包括第一样本图像,以及用于表征第一样本风格的第四特征向量;
第一特征处理模块1202,用于对所述第一样本图像进行第一特征处理,得到第五特征向量,所述第五特征向量用于表征所述第一样本图像的图像内容;
特征拼接模块1203,用于对所述第五特征向量和所述第四特征向量进行拼接操作,得到第二目标特征向量;
图像构建模块1204,用于基于所述第二目标特征向量进行图像构建,得到第一输出图像;
第一确定模块1205,用于基于所述第一输出图像和所述第五特征向量,确定目标模型的第一网络损失值;
第一更新模块1206,用于基于所述第一网络损失值,更新所述目标模型的网络参数;
其中,在满足第一预设条件的情况下,所述目标模型训练完成,所述第一预设条件包括:所述第一网络损失值小于第一预设阈值,和/或,所述目标模型的训练迭代次数大于第二预设阈值。
可选的,所述目标模型包括第一模型和第二模型,所述第一模型用于:对所述第一样本图像进行第一特征处理,得到第五特征向量,所述第二模型用于:对所述第五特征向量和所述第四特征向量进行拼接操作,得到第二目标特征向量;基于所述第二目标特征向量进行图像构建,得到所述第一输出图像;所述目标模型的训练阶段包括第一阶段和第二阶段,所述第二阶段位于所述第一阶段之后;
所述第一更新模块1206,具体用于:
在所述目标模型的训练阶段位于所述第一阶段的情况下,基于所述第一网络损失值,更新所述第二模型的网络参数,其中,所述第一模型的网络参数固定不变;
在所述目标模型的训练阶段位于所述第二阶段的情况下,基于所述第一网络损失值,更新所述第一模型和所述第二模型的网络参数;
其中,在满足第二预设条件的情况下,所述目标模型的训练阶段位于所述第一阶段,所述第二预设条件包括:所述第一网络损失值大于或等于第三预设阈值,和/或,所述目标模型的训练迭代次数小于或等于第四预设阈值,所述第三预设阈值大于所述第一预设阈值,所述第四预设阈值小于所述第二预设阈值。
可选的,所述训练样本数据还包括:K个第二样本图像,所述K个第二样本图像包括:具有相同图像内容,但图像风格不同的样本图像,以及具有相同图像风格,但图像内容不同的样本图像,K为大于2的整数;所述装置还包括:
目标特征处理模块,用于基于所述第一模型对所述K个第二样本图像进行目标特征处理,得到K个第六特征向量和K个第七特征向量,所述第六特征向量用于表征所述第二样本图像的图像内容,所述第七特征向量用于表征所述第二样本图像的图像风格,所述目标特征处理包括所述第一特征处理;
第二确定模块,用于基于所述K个第六特征向量和所述K个第七特征向量,确定所述第一模型的第二网络损失值;
第二更新模块,用于基于所述第二网络损失值,更新所述第一模型的网络参数,其中,在所述第二网络损失值小于第五预设阈值的情况下,所述第一模型训练完成。
可选的,在所述目标模型的训练阶段位于所述第一阶段的情况下,所述第一确定模块1205,具体用于:
在所述第一模型训练完成的情况下,基于所述第一模型对所述第一输出图像进行目标特征处理,得到第八特征向量和第九特征向量,所述第八特征向量用于表征所述第一输出图像的图像内容,所述第九特征向量用于表征所述第一输出图像的图像风格;
将所述第八特征向量与所述第五特征向量进行比对,确定第一损失值;以及将所述第九特征向量和所述第四特征向量进行比对,得到第二损失值;
将所述第一损失值和所述第二损失值进行聚合,得到所述第一网络损失值。
本实施例中,通过获取训练样本数据,所述训练样本数据包括第一样本图像,以及用于表征第一样本风格的第四特征向量;对所述第一样本图像进行第一特征处理,得到第五特征向量,所述第五特征向量用于表征所述第一样本图像的图像内容;对所述第五特征向量和所述第四特征向量进行拼接操作,得到第二目标特征向量;基于所述第二目标特征向量进行图像构建,得到第一输出图像;基于所述第一输出图像和所述第五特征向量,确定目标模型的第一网络损失值;基于所述第一网络损失值,更新所述目标模型的网络参数;其中,在满足第一预设条件的情况下,所述目标模型训练完成,所述第一预设条件包括:所述第一网络损失值小于第一预设阈值,和/或,所述目标模型的训练迭代次数大于第二预设阈值。如此,可以实现目标模型的训练,使得该目标模型可以用于图像风格转换,提高所生成的图像质量。
本申请实施例中的模型训练装置可以是装置,也可以是电子设备中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的模型训练装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的模型训练装置能够实现图10的方法实施例实现的各个过程,为避免重复,这里不再赘述。
可选地,如图13所示,本申请实施例还提供一种电子设备1300,包括处理器1301,存储器1302,存储在存储器1302上并可在所述处理器1301上运行的程序或指令,该程序或指令被处理器1301执行时实现上述图像生成方法实施例的各个过程,或者实现上述模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图14为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备1400包括但不限于:射频单元1401、网络模块1402、音频输出单元1403、输入单元1404、传感器1405、显示单元1406、用户输入单元1407、接口单元1408、存储器1409、以及处理器1410等部件。
本领域技术人员可以理解,电子设备1400还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器1410逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图14中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
该电子设备可以用于执行图像生成方法,其中,处理器1410,用于:
获取图像风格为第一风格的第一图像,以及图像风格为第二风格的第二图像;
基于目标模型对所述第一图像进行第一特征处理,得到第一特征向量,所述第一特征向量用于表征所述第一图像的图像内容;
对所述第一特征向量和第二特征向量进行拼接操作,得到第一目标特征向量,所述第二特征向量基于所述第二风格的第二图像确定,所述第二特征向量用于表征所述第二图像的图像风格;
基于所述第一目标特征向量进行图像构建,得到第三图像。
本实施例中,通过获取图像风格为第一风格的第一图像,以及图像风格为第二风格的第二图像;基于目标模型对所述第一图像进行第一特征处理,得到第一特征向量,所述第一特征向量用于表征所述第一图像的图像内容;对所述第一特征向量和第二特征向量进行拼接操作,得到第一目标特征向量,所述第二特征向量基于所述第二风格的第二图像确定,所述第二特征向量用于表征所述第二图像的图像风格;基于所述第一目标特征向量进行图像构建,得到第三图像。如此,可以基于目标模型实现图像的图像风格从第一风格到第二风格的转换,并可以保持所生成的第三图像的图像内容与所输入的第一图像的图像内容相同,从而可以提高所生成的图像质量。
可选的,处理器1410,还用于:
对所述第一图像进行第一特征编码,得到所述第一图像的第一特征图像;
对所述第一特征图像进行第二特征编码,得到所述第一特征向量。
可选的,处理器1410,还用于:
对所述第一图像进行特征提取,得到所述第一图像的第二特征图像;
基于目标注意力机制,提取所述第二特征图像在所述目标注意力机制对应维度上的注意力向量,所述目标注意力机制包括在通道维度上的注意力机制、在空间维度上的注意力机制中的至少一项;
将所述注意力向量和所述第二特征图像进行相乘处理,得到第三特征图像;
基于所述第三特征图像,确定所述第一特征图像;
其中,所述第一特征编码包括所述特征提取和所述注意力向量的提取。
可选的,处理器1410,还用于:
对所述第一目标特征向量进行第一特征解码,得到第四特征图像;
对所述第四特征图像进行第二特征解码,得到第五特征图像,所述第五特征图像的尺寸与所述第一特征图像的尺寸相同;
将所述第一特征图像和所述第五特征图像进行拼接操作,得到第六特征图像;
对所述第六特征图像进行第三特征解码,得到所述第三图像。
可选的,所述第二风格包括第一目标风格和第二目标风格;处理器1410,还用于:
对所述第一目标风格对应的所述第一目标特征向量进行第一解码操作,得到第七特征图像;
将所述第七特征图像和第八特征图像进行拼接操作,得到第九特征图像,所述第八特征图像是对所述第二目标风格对应的所述第一目标特征向量进行所述第一解码操作得到的;
对所述第九特征图像进行第二解码操作,得到所述第四特征图像。
可选的,所述第二图像的数量为M,M为正整数,处理器1410,还用于:
分别对每个所述第二图像进行第二特征处理,得到M个第三特征向量,一个所述第三特征向量与一个所述第二图像对应,所述第三特征向量用于表征所述第二图像的图像风格;
对所述M个第三特征向量进行平均处理,得到所述第二特征向量。
可选的,所述第三图像的数量包括N个,N为大于1的整数,处理器1410,还用于:
获取合成位置位于两个目标图像之间的第四图像,所述第四图像关于第一颜色空间的第一像素信息是基于所述两个目标图像关于所述第一颜色空间的第二像素信息确定的,所述两个目标图像为N个所述第三图像中相邻的两个图像;
基于N个所述第三图像关于第二颜色空间的N个第三像素信息,对所述第四图像关于所述第二颜色空间的第四像素信息进行调整,得到第五图像;
合成N个所述第三图像和所述第五图像。
在一实施例中,该电子设备可以用于执行模型训练方法,其中,处理器1410,用于:
获取训练样本数据,所述训练样本数据包括第一样本图像,以及用于表征第一样本风格的第四特征向量;
对所述第一样本图像进行第一特征处理,得到第五特征向量,所述第五特征向量用于表征所述第一样本图像的图像内容;对所述第五特征向量和所述第四特征向量进行拼接操作,得到第二目标特征向量;基于所述第二目标特征向量进行图像构建,得到第一输出图像;
基于所述第一输出图像和所述第五特征向量,确定目标模型的第一网络损失值;
基于所述第一网络损失值,更新所述目标模型的网络参数;
其中,在满足第一预设条件的情况下,所述目标模型训练完成,所述第一预设条件包括:所述第一网络损失值小于第一预设阈值,和/或,所述目标模型的训练迭代次数大于第二预设阈值。
可选的,所述目标模型包括第一模型和第二模型,所述第一模型用于:对所述第一样本图像进行第一特征处理,得到第五特征向量,所述第二模型用于:对所述第五特征向量和所述第四特征向量进行拼接操作,得到第二目标特征向量;基于所述第二目标特征向量进行图像构建,得到所述第一输出图像;所述目标模型的训练阶段包括第一阶段和第二阶段,所述第二阶段位于所述第一阶段之后;
处理器1410,还用于:
在所述目标模型的训练阶段位于所述第一阶段的情况下,基于所述第一网络损失值,更新所述第二模型的网络参数,其中,所述第一模型的网络参数固定不变;
在所述目标模型的训练阶段位于所述第二阶段的情况下,基于所述第一网络损失值,更新所述第一模型和所述第二模型的网络参数;
其中,在满足第二预设条件的情况下,所述目标模型的训练阶段位于所述第一阶段,所述第二预设条件包括:所述第一网络损失值大于或等于第三预设阈值,和/或,所述目标模型的训练迭代次数小于或等于第四预设阈值,所述第三预设阈值大于所述第一预设阈值,所述第四预设阈值小于所述第二预设阈值。
可选的,所述训练样本数据还包括:K个第二样本图像,所述K个第二样本图像包括:具有相同图像内容,但图像风格不同的样本图像,以及具有相同图像风格,但图像内容不同的样本图像,K为大于2的整数;处理器1410,还用于:
基于所述第一模型对所述K个第二样本图像进行目标特征处理,得到K个第六特征向量和K个第七特征向量,所述第六特征向量用于表征所述第二样本图像的图像内容,所述第七特征向量用于表征所述第二样本图像的图像风格,所述目标特征处理包括所述第一特征处理;
基于所述K个第六特征向量和所述K个第七特征向量,确定所述第一模型的第二网络损失值;
基于所述第二网络损失值,更新所述第一模型的网络参数,其中,在所述第二网络损失值小于第五预设阈值的情况下,所述第一模型训练完成。
可选的,在所述目标模型的训练阶段位于所述第一阶段的情况下,处理器1410,还用于:
在所述第一模型训练完成的情况下,基于所述第一模型对所述第一输出图像进行目标特征处理,得到第八特征向量和第九特征向量,所述第八特征向量用于表征所述第一输出图像的图像内容,所述第九特征向量用于表征所述第一输出图像的图像风格;
将所述第八特征向量与所述第五特征向量进行比对,确定第一损失值;以及将所述第九特征向量和所述第四特征向量进行比对,得到第二损失值;
将所述第一损失值和所述第二损失值进行聚合,得到所述第一网络损失值。
应理解的是,本申请实施例中,输入单元1404可以包括图形处理器(GraphicsProcessing Unit,GPU)14041和麦克风14042,图形处理器14041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1406可包括显示面板14061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板14061。用户输入单元1407包括触控面板14071以及其他输入设备14072。触控面板14071,也称为触摸屏。触控面板14071可包括触摸检测装置和触摸控制器两个部分。其他输入设备14072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器1409可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器1410可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1410中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述图像生成方法实施例的各个过程,或者实现上述模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述图像生成方法实施例的各个过程,或者实现上述模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台电子设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (21)
1.一种图像生成方法,其特征在于,所述方法包括:
获取图像风格为第一风格的第一图像,以及图像风格为第二风格的第二图像;
基于目标模型对所述第一图像进行第一特征处理,得到第一特征向量,所述第一特征向量用于表征所述第一图像的图像内容;
对所述第一特征向量和第二特征向量进行拼接操作,得到第一目标特征向量,所述第二特征向量基于所述第二风格的第二图像确定,所述第二特征向量用于表征所述第二图像的图像风格;
基于所述第一目标特征向量进行图像构建,得到第三图像。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一图像进行第一特征处理,得到第一特征向量,包括:
对所述第一图像进行第一特征编码,得到所述第一图像的第一特征图像;
对所述第一特征图像进行第二特征编码,得到所述第一特征向量。
3.根据权利要求2所述的方法,其特征在于,所述第一特征编码包括特征提取和注意力向量的提取,所述对所述第一图像进行第一特征编码,得到所述第一图像的第一特征图像,包括:
对所述第一图像进行特征提取,得到所述第一图像的第二特征图像;
基于目标注意力机制,提取所述第二特征图像在所述目标注意力机制对应维度上的注意力向量,所述目标注意力机制包括在通道维度上的注意力机制、在空间维度上的注意力机制中的至少一项;
将所述注意力向量和所述第二特征图像进行相乘处理,得到第三特征图像;
基于所述第三特征图像,确定所述第一特征图像。
4.根据权利要求2所述的方法,其特征在于,所述基于所述第一目标特征向量进行图像构建,得到第三图像,包括:
对所述第一目标特征向量进行第一特征解码,得到第四特征图像;
对所述第四特征图像进行第二特征解码,得到第五特征图像,所述第五特征图像的尺寸与所述第一特征图像的尺寸相同;
将所述第一特征图像和所述第五特征图像进行拼接操作,得到第六特征图像;
对所述第六特征图像进行第三特征解码,得到所述第三图像。
5.根据权利要求4所述的方法,其特征在于,所述第二风格包括第一目标风格和第二目标风格;所述对所述第一目标特征向量进行第一特征解码,得到第四特征图像,包括:
对所述第一目标风格对应的所述第一目标特征向量进行第一解码操作,得到第七特征图像;
将所述第七特征图像和第八特征图像进行拼接操作,得到第九特征图像,所述第八特征图像是对所述第二目标风格对应的所述第一目标特征向量进行所述第一解码操作得到的;
对所述第九特征图像进行第二解码操作,得到所述第四特征图像。
6.根据权利要求1所述的方法,其特征在于,所述第二图像的数量为M,M为正整数,所述对所述第一特征向量和第二特征向量进行拼接操作,得到第一目标特征向量之前,所述方法还包括:
分别对每个所述第二图像进行第二特征处理,得到M个第三特征向量,一个所述第三特征向量与一个所述第二图像对应,所述第三特征向量用于表征所述第二图像的图像风格;
对所述M个第三特征向量进行平均处理,得到所述第二特征向量。
7.根据权利要求1所述的方法,其特征在于,所述第三图像的数量包括N个,N为大于1的整数,所述基于所述第一目标特征向量进行图像构建,得到第三图像之后,所述方法还包括:
获取合成位置位于两个目标图像之间的第四图像,所述第四图像关于第一颜色空间的第一像素信息是基于所述两个目标图像关于所述第一颜色空间的第二像素信息确定的,所述两个目标图像为N个所述第三图像中相邻的两个图像;
基于N个所述第三图像关于第二颜色空间的N个第三像素信息,对所述第四图像关于所述第二颜色空间的第四像素信息进行调整,得到第五图像;
合成N个所述第三图像和所述第五图像。
8.一种模型训练方法,其特征在于,所述方法包括:
获取训练样本数据,所述训练样本数据包括第一样本图像,以及用于表征第一样本风格的第四特征向量;
对所述第一样本图像进行第一特征处理,得到第五特征向量,所述第五特征向量用于表征所述第一样本图像的图像内容;对所述第五特征向量和所述第四特征向量进行拼接操作,得到第二目标特征向量;基于所述第二目标特征向量进行图像构建,得到第一输出图像;
基于所述第一输出图像和所述第五特征向量,确定目标模型的第一网络损失值;
基于所述第一网络损失值,更新所述目标模型的网络参数;
其中,在满足第一预设条件的情况下,所述目标模型训练完成,所述第一预设条件包括:所述第一网络损失值小于第一预设阈值,和/或,所述目标模型的训练迭代次数大于第二预设阈值。
9.根据权利要求8所述的方法,其特征在于,所述目标模型包括第一模型和第二模型,所述第一模型用于:对所述第一样本图像进行第一特征处理,得到第五特征向量,所述第二模型用于:对所述第五特征向量和所述第四特征向量进行拼接操作,得到第二目标特征向量;基于所述第二目标特征向量进行图像构建,得到所述第一输出图像;所述目标模型的训练阶段包括第一阶段和第二阶段,所述第二阶段位于所述第一阶段之后;
所述基于所述第一网络损失值,更新所述目标模型的网络参数,包括以下任一项:
在所述目标模型的训练阶段位于所述第一阶段的情况下,基于所述第一网络损失值,更新所述第二模型的网络参数,其中,所述第一模型的网络参数固定不变;
在所述目标模型的训练阶段位于所述第二阶段的情况下,基于所述第一网络损失值,更新所述第一模型和所述第二模型的网络参数;
其中,在满足第二预设条件的情况下,所述目标模型的训练阶段位于所述第一阶段,所述第二预设条件包括:所述第一网络损失值大于或等于第三预设阈值,和/或,所述目标模型的训练迭代次数小于或等于第四预设阈值,所述第三预设阈值大于所述第一预设阈值,所述第四预设阈值小于所述第二预设阈值。
10.根据权利要求9所述的方法,其特征在于,所述训练样本数据还包括:K个第二样本图像,所述K个第二样本图像包括:具有相同图像内容,但图像风格不同的样本图像,以及具有相同图像风格,但图像内容不同的样本图像,K为大于2的整数;所述基于所述第一网络损失值,更新所述目标模型的网络参数之前,所述方法还包括:
基于所述第一模型对所述K个第二样本图像进行目标特征处理,得到K个第六特征向量和K个第七特征向量,所述第六特征向量用于表征所述第二样本图像的图像内容,所述第七特征向量用于表征所述第二样本图像的图像风格,所述目标特征处理包括所述第一特征处理;
基于所述K个第六特征向量和所述K个第七特征向量,确定所述第一模型的第二网络损失值;
基于所述第二网络损失值,更新所述第一模型的网络参数,其中,在所述第二网络损失值小于第五预设阈值的情况下,所述第一模型训练完成。
11.根据权利要求10所述的方法,其特征在于,在所述目标模型的训练阶段位于所述第一阶段的情况下,所述基于所述第一输出图像和所述第五特征向量,确定所述目标模型的第一网络损失值,包括:
在所述第一模型训练完成的情况下,基于所述第一模型对所述第一输出图像进行目标特征处理,得到第八特征向量和第九特征向量,所述第八特征向量用于表征所述第一输出图像的图像内容,所述第九特征向量用于表征所述第一输出图像的图像风格;
将所述第八特征向量与所述第五特征向量进行比对,确定第一损失值;以及将所述第九特征向量和所述第四特征向量进行比对,得到第二损失值;
将所述第一损失值和所述第二损失值进行聚合,得到所述第一网络损失值。
12.一种图像生成装置,其特征在于,所述装置包括:
第一获取模块,用于获取图像风格为第一风格的第一图像,以及图像风格为第二风格的第二图像;
第一特征处理模块,用于基于目标模型对所述第一图像进行第一特征处理,得到第一特征向量,所述第一特征向量用于表征所述第一图像的图像内容;
特征拼接模块,用于对所述第一特征向量和第二特征向量进行拼接操作,得到第一目标特征向量,所述第二特征向量基于所述第二风格的第二图像确定,所述第二特征向量用于表征所述第二图像的图像风格;
图像构建模块,用于基于所述第一目标特征向量进行图像构建,得到第三图像。
13.根据权利要求12所述的装置,其特征在于,所述第一特征处理模块包括:
第一特征编码单元,用于对所述第一图像进行第一特征编码,得到所述第一图像的第一特征图像;
第二特征编码单元,用于对所述第一特征图像进行第二特征编码,得到所述第一特征向量。
14.根据权利要求13所述的装置,其特征在于,所述第一特征编码单元,具体用于:
对所述第一图像进行特征提取,得到所述第一图像的第二特征图像;
基于目标注意力机制,提取所述第二特征图像在所述目标注意力机制对应维度上的注意力向量,所述目标注意力机制包括在通道维度上的注意力机制、在空间维度上的注意力机制中的至少一项;
将所述注意力向量和所述第二特征图像进行相乘处理,得到第三特征图像;
基于所述第三特征图像,确定所述第一特征图像;
其中,所述第一特征编码包括所述特征提取和所述注意力向量的提取。
15.根据权利要求13所述的装置,其特征在于,所述图像构建模块包括:
第一特征解码单元,用于对所述第一目标特征向量进行第一特征解码,得到第四特征图像;
第二特征解码单元,用于对所述第四特征图像进行第二特征解码,得到第五特征图像,所述第五特征图像的尺寸与所述第一特征图像的尺寸相同;
拼接操作单元,用于将所述第一特征图像和所述第五特征图像进行拼接操作,得到第六特征图像;
第三特征解码单元,用于对所述第六特征图像进行第三特征解码,得到所述第三图像。
16.根据权利要求15所述的装置,其特征在于,所述第二风格包括第一目标风格和第二目标风格;所述第一特征解码单元,具体用于:
对所述第一目标风格对应的所述第一目标特征向量进行第一解码操作,得到第七特征图像;
将所述第七特征图像和第八特征图像进行拼接操作,得到第九特征图像,所述第八特征图像是对所述第二目标风格对应的所述第一目标特征向量进行所述第一解码操作得到的;
对所述第九特征图像进行第二解码操作,得到所述第四特征图像。
17.根据权利要求12所述的装置,其特征在于,所述第二图像的数量为M,M为正整数,所述装置还包括:
第二特征处理模块,用于分别对每个所述第二图像进行第二特征处理,得到M个第三特征向量,一个所述第三特征向量与一个所述第二图像对应,所述第三特征向量用于表征所述第二图像的图像风格;
平均处理模块,用于对所述M个第三特征向量进行平均处理,得到所述第二特征向量。
18.根据权利要求12所述的装置,其特征在于,所述第三图像的数量包括N个,N为大于1的整数,所述装置包括:
第二获取模块,用于获取合成位置位于两个目标图像之间的第四图像,所述第四图像关于第一颜色空间的第一像素信息是基于所述两个目标图像关于所述第一颜色空间的第二像素信息确定的,所述两个目标图像为N个所述第三图像中相邻的两个图像;;
像素调整模块,用于基于N个所述第三图像关于第二颜色空间的N个第三像素信息,对所述第四图像关于所述第二颜色空间的第四像素信息进行调整,得到第五图像;
合成模块,用于合成N个所述第三图像和所述第五图像。
19.一种模型训练装置,其特征在于,所述装置包括:
第三获取模块,用于获取训练样本数据,所述训练样本数据包括第一样本图像,以及用于表征第一样本风格的第四特征向量;
第一特征处理模块,用于对所述第一样本图像进行第一特征处理,得到第五特征向量,所述第五特征向量用于表征所述第一样本图像的图像内容;
特征拼接模块,用于对所述第五特征向量和所述第四特征向量进行拼接操作,得到第二目标特征向量;
图像构建模块,用于基于所述第二目标特征向量进行图像构建,得到第一输出图像;
第一确定模块,用于基于所述第一输出图像和所述第五特征向量,确定目标模型的第一网络损失值;
第一更新模块,用于基于所述第一网络损失值,更新所述目标模型的网络参数;
其中,在满足第一预设条件的情况下,所述目标模型训练完成,所述第一预设条件包括:所述第一网络损失值小于第一预设阈值,和/或,所述目标模型的训练迭代次数大于第二预设阈值。
20.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-7任一项所述的图像生成方法的步骤,或者,如权利要求8-11任一项所述的模型训练方法的步骤。
21.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-7任一项所述的图像生成方法的步骤,或者,如权利要求8-11任一项所述的模型训练方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210840608.XA CN115222581A (zh) | 2022-07-18 | 2022-07-18 | 图像生成方法、模型训练方法、相关装置及电子设备 |
PCT/CN2023/106800 WO2024017093A1 (zh) | 2022-07-18 | 2023-07-11 | 图像生成方法、模型训练方法、相关装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210840608.XA CN115222581A (zh) | 2022-07-18 | 2022-07-18 | 图像生成方法、模型训练方法、相关装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115222581A true CN115222581A (zh) | 2022-10-21 |
Family
ID=83612811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210840608.XA Pending CN115222581A (zh) | 2022-07-18 | 2022-07-18 | 图像生成方法、模型训练方法、相关装置及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115222581A (zh) |
WO (1) | WO2024017093A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115512006A (zh) * | 2022-11-23 | 2022-12-23 | 有米科技股份有限公司 | 基于多图像元素的图像智能合成方法及装置 |
WO2024017093A1 (zh) * | 2022-07-18 | 2024-01-25 | 维沃移动通信有限公司 | 图像生成方法、模型训练方法、相关装置及电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583165B (zh) * | 2019-02-19 | 2023-08-08 | 京东方科技集团股份有限公司 | 图像处理方法、装置、设备及存储介质 |
CN111784566B (zh) * | 2020-07-01 | 2022-02-08 | 北京字节跳动网络技术有限公司 | 图像处理方法、迁移模型训练方法、装置、介质及设备 |
CN114612289A (zh) * | 2022-03-03 | 2022-06-10 | 广州虎牙科技有限公司 | 风格化图像生成方法、装置及图像处理设备 |
CN114581341A (zh) * | 2022-03-28 | 2022-06-03 | 杭州师范大学 | 一种基于深度学习的图像风格迁移方法及系统 |
CN115222581A (zh) * | 2022-07-18 | 2022-10-21 | 维沃移动通信有限公司 | 图像生成方法、模型训练方法、相关装置及电子设备 |
-
2022
- 2022-07-18 CN CN202210840608.XA patent/CN115222581A/zh active Pending
-
2023
- 2023-07-11 WO PCT/CN2023/106800 patent/WO2024017093A1/zh unknown
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024017093A1 (zh) * | 2022-07-18 | 2024-01-25 | 维沃移动通信有限公司 | 图像生成方法、模型训练方法、相关装置及电子设备 |
CN115512006A (zh) * | 2022-11-23 | 2022-12-23 | 有米科技股份有限公司 | 基于多图像元素的图像智能合成方法及装置 |
CN115512006B (zh) * | 2022-11-23 | 2023-04-07 | 有米科技股份有限公司 | 基于多图像元素的图像智能合成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2024017093A1 (zh) | 2024-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Arad et al. | Ntire 2022 spectral recovery challenge and data set | |
CN109949255B (zh) | 图像重建方法及设备 | |
Golts et al. | Unsupervised single image dehazing using dark channel prior loss | |
CN111798400B (zh) | 基于生成对抗网络的无参考低光照图像增强方法及系统 | |
CN115222581A (zh) | 图像生成方法、模型训练方法、相关装置及电子设备 | |
CN110930342B (zh) | 一种基于彩色图引导的深度图超分辨率重建网络构建方法 | |
CN110599395A (zh) | 目标图像生成方法、装置、服务器及存储介质 | |
CN113870124B (zh) | 基于弱监督的双网络互激励学习阴影去除方法 | |
CN112819910A (zh) | 基于双鬼注意力机制网络的高光谱图像重建方法 | |
CN113034391B (zh) | 一种多模式融合水下图像增强方法、系统及应用 | |
CN113076957A (zh) | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 | |
CN112164005A (zh) | 图像颜色校正方法、装置、设备及存储介质 | |
CN114007135B (zh) | 视频插帧方法及其装置、设备、介质、产品 | |
CN112561028A (zh) | 训练神经网络模型的方法、数据处理的方法及装置 | |
CN115187480A (zh) | 一种基于Transformer的图像颜色校正方法 | |
Xu et al. | Infrared and visible image fusion using a deep unsupervised framework with perceptual loss | |
CN116563355A (zh) | 一种基于时空交互注意力机制的目标跟踪方法 | |
Lei et al. | GALFusion: Multi-exposure image fusion via a global–local aggregation learning network | |
CN115588237A (zh) | 一种基于单目rgb图像的三维手部姿态估计方法 | |
Zhang et al. | FCHP: Exploring the discriminative feature and feature correlation of feature maps for hierarchical DNN pruning and compression | |
CN111951171A (zh) | Hdr图像生成方法、装置、可读存储介质及终端设备 | |
CN115409697A (zh) | 一种图像处理方法及相关装置 | |
CN111861877A (zh) | 视频超分变率的方法和装置 | |
Huang et al. | Edge device-based real-time implementation of CycleGAN for the colorization of infrared video | |
CN116152926A (zh) | 基于视觉和骨架信息融合的手语识别方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |