CN112561792B - 图像风格迁移方法、装置、电子设备及存储介质 - Google Patents
图像风格迁移方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112561792B CN112561792B CN202011568994.9A CN202011568994A CN112561792B CN 112561792 B CN112561792 B CN 112561792B CN 202011568994 A CN202011568994 A CN 202011568994A CN 112561792 B CN112561792 B CN 112561792B
- Authority
- CN
- China
- Prior art keywords
- image
- matrix
- data
- style migration
- downsampled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013508 migration Methods 0.000 title claims abstract description 123
- 230000005012 migration Effects 0.000 title claims abstract description 123
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012545 processing Methods 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 52
- 239000003086 colorant Substances 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 8
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000010422 painting Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
Abstract
本公开提出一种图像风格迁移方法、装置、电子设备及存储介质,涉及计算机视觉和深度学习技术领域。具体实现方案为:生成内容图像的第一下采样图像、内容图像的拉普拉斯金字塔图像以及风格图像的第二下采样图像;利用第一下采样图像和第二下采样图像,生成初步风格迁移图像;对初步风格迁移图像进行上采样,得到第一上采样图像;将第一上采样图像中的数据与拉普拉斯金字塔图像中的数据进行组合,得到组合后的数据;对组合后的数据进行修正,得到修正后的图像;利用修正后的图像与初步风格迁移图像生成最终风格迁移图像。本公开实现的图像风格迁移能够达到较好的效果,且处理速度较快。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术领域。
背景技术
图像风格迁移又称图像风格转换、图像风格化处理等,是指将一张风格图像中的颜色和纹理风格迁移到一张内容图像上,同时保存内容图像的结构。
目前的图像风格化处理方法大体分为两种。第一种是优化方法,这类方法会采用固定网络的参数,通过优化图片本身来实现风格化;这种方法的缺点是处理速度慢,优化一张图片需要数分钟。第二种是前馈方法,这类方法在训练过程中训练风格化网络的参数,在测试时可以达到较快的速度;其缺点是纹理迁移不清晰,大尺度风格纹理无法迁移。
发明内容
本公开提供了一种图像风格迁移方法、装置、电子设备及存储介质。
根据本公开的一方面,提供了一种图像风格迁移方法,包括:
生成内容图像的第一下采样图像、内容图像的拉普拉斯金字塔图像以及风格图像的第二下采样图像;
利用第一下采样图像和第二下采样图像,生成初步风格迁移图像;
对初步风格迁移图像进行上采样,得到第一上采样图像;
将第一上采样图像中的数据与拉普拉斯金字塔图像中的数据进行组合,得到组合后的数据;
对组合后的数据进行修正,得到修正后的图像;利用修正后的图像与初步风格迁移图像生成最终风格迁移图像。
根据本公开的另一方面,提供了一种图像风格迁移装置,包括:
下采样模块,用于生成内容图像的第一下采样图像、内容图像的拉普拉斯金字塔图像以及风格图像的第二下采样图像;
初步生成模块,用于利用第一下采样图像和第二下采样图像,生成初步风格迁移图像;
处理模块,用于对初步风格迁移图像进行上采样,得到第一上采样图像;
组合模块,用于将第一上采样图像中的数据与拉普拉斯金字塔图像中的数据进行组合,得到组合后的数据;
修正模块,用于对组合后的数据进行修正,得到修正后的图像;利用修正后的图像与初步风格迁移图像生成最终风格迁移图像。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开任一实施例中的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行本公开任一实施例中的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开任一实施例中的方法。
根据本公开的另一方面,提供了一种智能终端,包括如本公开的电子设备。
本公开提出的图像风格迁移方法首先对内容图像和风格图像均进行下采样,采用下采样后得到的图像生成初步风格迁移图像;之后再对初步风格迁移图像进行上采样,与内容图像的拉普拉斯金字塔图像进行组合;最后将组合后的图像进行修正,利用修正后的图像完善该初步风格迁移图像,得到最终的风格迁移图像。本公开提出的图像风格迁移方法能够达到较好的效果,且处理速度较快。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是计算拉普拉斯金字塔图像的方式示意图;
图2是本公开的一种图像风格迁移方法的实现流程图;
图3是本公开的一种图像风格迁移方法的实现示意图;
图4是本公开提出的图像风格迁移方法与其他图像风格迁移的实现效果对比图;
图5是本公开的一种图像风格迁移装置500的结构示意图;
图6是本公开的一种图像风格迁移装置600的结构示意图;
图7是用来实现本公开实施例的图像风格迁移方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请实施例提供了一种基于拉普拉斯金字塔的图像风格迁移方法,该图像风格迁移方法可见应用于对用户提供的图片进行风格迁移或转换。该方法可以应用于移动终端中,当用户使用移动终端拍摄了图像之后,可以由移动终端内的处理器或AI芯片对该图像进行风格迁移;或者,可以由移动终端将该图片上传至服务器,由服务器对该图像进行风格迁移,并将风格迁移后的图像返回至移动终端。
典型的,该图像增强方法能够应用于如下产品场景:
(1)具有拍照功能的智能终端,如智能手机。本申请实施例提供的图像风格迁移方法能够以软件的形式(或AI芯片)内置于智能终端内,提供自动的图像风格迁移或者用户手动启用图像风格迁移。例如,用户在使用智能手机的摄像头拍摄图像后,在图像查看页面上提供风格迁移选项,用户选择该选项后由智能手机对该图像进行风格迁移。可以进一步保存原始图像和/或风格迁移后的图像。
(2)服务器提供在线的图像风格迁移功能。本申请实施例提供的风格迁移方法可以在服务器中设置实现风格迁移的软件或AI芯片。该服务器可以向用户提供图像风格迁移功能。比如,用户向服务器上传待处理的图像,并在服务器提供的多种风格图像中选择自己喜欢的风格图像;服务器利用内置的软件或AI芯片,对用户上传的待处理的图像进行处理,将用户上传的待处理的图像的风格转换为与用户选择的风格图像的风格一致。
本申请实施例提供的图像风格迁移方法能够应用于不同形式的图像风格迁移,例如人物图像的风格迁移、风景图像的风格迁移等场景中。
图像风格迁移(style transfer)又称为图像风格转换,是指将一张风格图像中的颜色和纹理风格迁移到一张内容图像上,同时保存内容图像的结构。在一种实施方式中,风格图像具有在进行图像风格迁移过程中期望内容图像呈现的风格;内容图像是要进行风格迁移的图像。例如,利用一幅油画作为风格图像,可以将一幅人像照片(即内容图像)转换成具有油画风格的人像图片;或者,利用一幅印象派画作作为风格图像,可以将一幅风景图片(即内容图像)转换成印象派绘画风格。
本申请实施例提出一种基于拉普拉斯金字塔(Laplacian Pyramid,LP)实现图像风格迁移的方法。下面简要介绍拉普拉斯金字塔:
拉普拉斯金字塔可以认为是残差金字塔,用来存储下采样后图片与原始图片的差异。对于一张原始图像Gi(比如G0为最初的高分辨率图像)进行下采样得到图Down(Gi),再进行上采样得到图Up(Down(Gi)),得到的Up(Down(Gi))与Gi是存在差异的,因为在下采样过程丢失的信息不能通过上采样来完全恢复,也就是说下采样是不可逆的。
为了能够从下采样图像Down(Gi)中还原原始图像Gi,可以记录再次上采样得到的Up(Down(Gi))与原始图片Gi之间的差异,这就是拉普拉斯金字塔的核心思想。
图1是计算拉普拉斯金字塔图像的方式示意图,图1展示了单层的拉普拉斯金字塔。如图1所示,对左上角的原始图像(如记为x)进行下采样,再对下采样之后的图像(如记为)进行上采样,此时得到的图像与原始图像的大小相同,但是丢失了原始图像的纹理细节。为了能够从下采样后的图像/>还原出原始图像(x),可以记录下采样后再上采样得到的图像与原始图像的差异,该差异构成一个残差图像(如记为r)。/>和r构成了原始图像x的拉普拉斯金字塔,可以完整的记录x中的信息,也可以复原回原始图像。在本申请中,将对原始图像进行下采样后再上采样得到的图像表述为原始图像的拉普拉斯金字塔图像。
通过实验发现,在低分辨率图像上复杂的(尺度较大的)图像纹理比较容易迁移,而在高分辨率下则比较容易迁移简单的(尺度较小的)图像纹理。基于这种规律,本公开提出了一种多尺度的图像风格迁移方法,首先对低分辨率的内容图像和风格图像进行初步的风格迁移,再利用原始图像的拉普拉斯金字塔图像实现在高分辨率下修正纹理细节,输出前述初步风格迁移后的图像的残差图像,将该残差图像与初步风格迁移后的图像结合,得到最终的风格迁移后的图像。这种方式结合了高分辨率下进行风格迁移和低分辨率下进行风格迁移的优点,能够得到更好的风格迁移效果。
图2是本公开的一种图像风格迁移方法的实现流程图,包括以下步骤:
S201:生成内容图像的第一下采样图像、内容图像的拉普拉斯金字塔图像以及风格图像的第二下采样图像;
S202:利用第一下采样图像和第二下采样图像,生成初步风格迁移图像;
S203:对初步风格迁移图像进行上采样,得到第一上采样图像;
S204:将第一上采样图像中的数据与拉普拉斯金字塔图像中的数据进行组合,得到组合后的数据;
S205:对组合后的数据进行修正,得到修正后的图像;利用修正后的图像与初步风格迁移图像生成最终风格迁移图像。
在一些实施方式中,可以利用预先训练的风格迁移网络(或称风格化网络)实现风格迁移。图3是本公开的一种图像风格迁移方法的实现示意图。在图3中,采用xc表示原始的内容图像,采用xs表示风格图像。在以下介绍中,采用表示对xs的下采样图像,采用/>表示对xc的下采样图像。例如,xc和xs为分辨率为512*512的图像,分别对xc和xs为分辨率进行1/2下采样,得到分辨率为256*256的低分辨率图像,即得到/>和/>
如图3所示,对原始的内容图像xc提取拉普拉斯金字塔其中,/>为xc的下采样图像,rc为xc的拉普拉斯金字塔图像。图3中“L”图标表示提取拉普拉斯金字塔。
可选地,在本公开实施例中,生成内容图像的拉普拉斯金字塔图像包括:
将内容图像进行下采样,得到第一下采样图像;
将第一下采用图像进行上采样,得到第二上采样图像;
计算第二上采样图像与内容图像的差异;
利用差异生成内容图像的拉普拉斯金字塔图像。
可选地,上述第二上采样图像中的数据采用大小为3*W2*H2的第四矩阵表示,第四矩阵中的各个元素分别表示第二上采样图像中各个像素的三原色;
内容图像中的数据采用大小为3*W2*H2的第五矩阵表示,第五矩阵中的各个元素分别表示内容图像中各个像素的三原色;
其中,W2表示第二上采样图像的宽度,或者内容图像的宽度;H2表示第二上采样图像的高度,或者内容图像的高度;
计算第二上采样图像与内容图像的差异,包括:计算第四矩阵与第五矩阵的差,得到大小为3*W2*H2的第六矩阵,第六矩阵表示第二上采样图像与内容图像的差异。
例如,将原始的分辨率为512*512的原始图像进行下采样,得到分辨率为256*256的图像;之后对下采样后的图像进行上采样,得到分辨率为512*512的图像,该图像丢失了原始图像中的细节特征;再计算该上采样后的图像与原始图像的差异,则可以得到一个残差图像,该残差图像即为原始图像的拉普拉斯金字塔图像。
如图3所示,本公开可以采用两个预先训练的神经网络模型实现上述风格迁移过程。其中一个神经网络模型可以称为草稿网络(drafting network),该网络包括三个部分,分别是特征编码模块(encoder),特征结合模块(AdaIN),图像重构模块(decoder)。
其中,特征编码模块(encoder)可以用于分别对内容图像的下采样图像和风格图像的下采样图像进行编码。如图3所示,分别将内容图像的下采样图像和风格图像的下采样图像/>输入特征编码模块(encoder),得到二者的图像特征,如Fc和Fs。
特征结合模块(AdaIN)用于将上述Fc和Fs进行结合和/或修正,得到结合后的特征,如用Fcs表示。
图像重构模块(decoder)用于对上述Fcs进行解码,得到初步风格迁移图像
相应的,采用上述草稿网络(drafting network)可以实现上述利用内容图像的下采样图像和风格图像的下采样图像生成初步风格迁移图像,具体过程可以包括:
对第一下采样图像进行编码,得到第一图像特征;并对第二下采样图像进行编码,得到第二图像特征;
将第一图像特征和第二图像特征进行组合,得到组合特征;
对组合特征进行解码,得到初步风格迁移图像。
图3中的另一个神经网络模型可以称为修正网络(revision network),这个网络的作用是在高分辨率下修正纹理细节。如图3所示,将草稿网络(drafting network)输出的初步风格迁移图像进行上采样。例如,如果之前在对风格图像和内容图像进行下采样时采用了1/2下采样,此时可以对初步风格迁移图像进行2倍上采样,得到初步风格迁移图像的上采样图像,该图像的分辨率与内容图像的拉普拉斯金字塔图像的分辨率相同。
之后,如图3所示,本公开实施例可以将初步风格迁移图像的上采样图像与内容图像的拉普拉斯金字塔图像组合成为6通道图像,再将该6通道图像输入修正网络。图3中“C”图标表示将2个3通道图像(即上述初步风格迁移图像的上采样图像和内容图像的拉普拉斯金字塔图像)组合成一个6通道图像,组合得到的6通道图像中包含了上述初步风格迁移图像的上采样图像和内容图像的拉普拉斯金字塔图像中的信息。
可选地,第一上采样图像中的数据采用大小为3*W1*H1的第一矩阵表示,第一矩阵中的各个元素分别表示第一上采样图像中各个像素的三原色;
拉普拉斯金字塔图像中的数据采用大小为3*W1*H1的第二矩阵表示,第二矩阵中的各个元素分别表示拉普拉斯金字塔图像中各个像素的三原色;
其中,W1表示第一上采样图像的宽度,或者拉普拉斯金字塔图像的宽度;H1表示第一上采样图像的高度,或者拉普拉斯金字塔图像的高度;
将第一上采样图像中的数据与内容图像的拉普拉斯金字塔图像中的数据进行组合,得到组合后的数据,包括:将第一矩阵中的数据和第二矩阵中的数据组合,得到组合后的数据;组合后的数据采用大小为6*W1*H1的第三矩阵表示。
修正网络对该6通道图像进行修正,利用修正后的图像与上述初步风格迁移图像生成最终风格迁移图像。
如图3所示,修正后的图像可以认为是残差图rcs,将rcs和结合后即可得到最终风格迁移图像xcs。图3中“A”图标表示将输入的两个图像结合,生成一个最后的风格优化图。
上述草稿网络和修正网络,以及草稿网络中的各个模块可以通过预先训练得到。例如,对于草稿网络,可以分别计算输入的2个图像与输出的图像的差异,利用该差异构建两个损失函数,如图3中的Lstyle和Lcontent,利用这两个损失函数对草稿网络进行训练。对于修正网络,可以计算原始的内容图像xc与修正网络输出的最终风格迁移图像xcs的差异,利用该差异构建损失函数,如图3中的Lcontent;计算原始的风格图像xs与修正网络输出的最终风格迁移图像xcs的差异,利用该差异构建损失函数,如图3中的Lstyle;再构建一个对抗性损失函数Ladv,利用这些损失函数对修正网络进行训练。
本公开提出的图像风格迁移方法对于复杂纹理和简单纹理都能达到很好的效果,图4是本公开提出的图像风格迁移方法与其他图像风格迁移的实现效果对比图。在图4中,第1列是内容图像,后几列是采用不同方式实现的风格迁移图像,其中第3列是采用本公开提出的图像风格迁移方法得到的风格迁移图像。可以看出,本公开提出的风格迁移方法的实现效果更优。图4中是以风景图像或静物图像为例进行展示的,本公开对于人物图像、人脸图像等其他类型的图像进行风格迁移时,同样能够达到较佳的实现效果。
本公开还提出一种图像风格迁移装置,图5是本公开的一种图像风格迁移装置500的结构示意图,包括:
下采样模块510,用于生成内容图像的第一下采样图像、内容图像的拉普拉斯金字塔图像以及风格图像的第二下采样图像;
初步生成模块520,用于利用第一下采样图像和第二下采样图像,生成初步风格迁移图像;
处理模块530,用于对初步风格迁移图像进行上采样,得到第一上采样图像;
组合模块540,用于将第一上采样图像中的数据与拉普拉斯金字塔图像中的数据进行组合,得到组合后的数据;
修正模块550,用于对组合后的数据进行修正,得到修正后的图像;利用修正后的图像与初步风格迁移图像生成最终风格迁移图像。
图6是本公开的一种图像风格迁移装置600的结构示意图,如图6所示,在一些实施方式中,上述装置中的初步生成模块520可以包括:
特征编码子模块521,用于对第一下采样图像进行编码,得到第一图像特征;并对第二下采样图像进行编码,得到第二图像特征;
特征结合子模块522,用于将第一图像特征和第二图像特征进行组合,得到组合特征;
图像重构子模块523,用于对组合特征进行解码,得到初步风格迁移图像。
其中,上述特征编码子模块521、特征结合子模块522和图像重构子模块523可以分别采用上述草稿网络(drafting network)中的特征编码模块(encoder)、特征结合模块(AdaIN)和图像重构模块(decoder)实现。
在一些实施方式中,第一上采样图像中的数据采用大小为3*W1*H1的第一矩阵表示,第一矩阵中的各个元素分别表示第一上采样图像中各个像素的三原色;
拉普拉斯金字塔图像中的数据采用大小为3*W1*H1的第二矩阵表示,第二矩阵中的各个元素分别表示拉普拉斯金字塔图像中各个像素的三原色;
其中,W1表示第一上采样图像的宽度,或者拉普拉斯金字塔图像的宽度;H1表示第一上采样图像的高度,或者拉普拉斯金字塔图像的高度;
上述组合模块540用于:将第一矩阵中的数据和第二矩阵中的数据组合,得到组合后的数据;组合后的数据采用大小为6*W1*H1的第三矩阵表示。
在一些实施方式中,上述修正模块550可以采用修正网络(revision network)实现对组合后的图像进行修正。
在一些实施方式中,上述下采样模块510用于:将内容图像进行下采样,得到第一下采样图像;将第一下采用图像进行上采样,得到第二上采样图像;计算第二上采样图像与内容图像的差异;利用差异生成所述内容图像的拉普拉斯金字塔图像。
本申请实施例各装置中的各模块的功能可以参见上述图像风格迁移方法中的对应描述,在此不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序来执行各种适当的动作和处理。在RAM703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如图像风格迁移方法。例如,在一些实施例中,图像风格迁移方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的图像风格迁移方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像风格迁移方法
本公开还提出一种智能终端,如智能手机、带屏语音交互设备、平板电脑等,该智能终端包括上述的用来实施本公开的图像风格迁移方法的电子设备。该智能终端可以设置摄像头,采用摄像头摄取内容图像,采用该智能设备能够实现对内容图像的图像风格迁移。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (13)
1.一种图像风格迁移方法,包括:
生成内容图像的第一下采样图像、内容图像的拉普拉斯金字塔图像以及风格图像的第二下采样图像;
利用所述第一下采样图像和所述第二下采样图像,生成初步风格迁移图像;
对所述初步风格迁移图像进行上采样,得到第一上采样图像;
将所述第一上采样图像中的数据与所述拉普拉斯金字塔图像中的数据进行组合,得到组合后的数据;
对所述组合后的数据进行修正,得到修正后的图像;利用所述修正后的图像与所述初步风格迁移图像生成最终风格迁移图像。
2.根据权利要求1所述的方法,其中,所述利用所述第一下采样图像和所述第二下采样图像,生成初步风格迁移图像,包括:
对所述第一下采样图像进行编码,得到第一图像特征;并对所述第二下采样图像进行编码,得到第二图像特征;
将所述第一图像特征和所述第二图像特征进行组合,得到组合特征;
对所述组合特征进行解码,得到所述初步风格迁移图像。
3.根据权利要求1或2所述的方法,其中,所述第一上采样图像中的数据采用大小为3*W1*H1的第一矩阵表示,所述第一矩阵中的各个元素分别表示所述第一上采样图像中各个像素的三原色;
所述拉普拉斯金字塔图像中的数据采用大小为3*W1*H1的第二矩阵表示,所述第二矩阵中的各个元素分别表示所述拉普拉斯金字塔图像中各个像素的三原色;
其中,所述W1表示所述第一上采样图像的宽度,或者所述拉普拉斯金字塔图像的宽度;所述H1表示所述第一上采样图像的高度,或者所述拉普拉斯金字塔图像的高度;
所述将所述第一上采样图像中的数据与所述内容图像的拉普拉斯金字塔图像中的数据进行组合,得到组合后的数据,包括:将所述第一矩阵中的数据和所述第二矩阵中的数据组合,得到组合后的数据;所述组合后的数据采用大小为6*W1*H1的第三矩阵表示。
4.根据权利要求1或2所述的方法,其中,生成所述内容图像的拉普拉斯金字塔图像,包括:
将所述内容图像进行下采样,得到所述第一下采样图像;
将所述第一下采用图像进行上采样,得到第二上采样图像;
计算所述第二上采样图像与所述内容图像的差异;
利用所述差异生成所述内容图像的拉普拉斯金字塔图像。
5.根据权利要求4所述的方法,其中,所述第二上采样图像中的数据采用大小为3*W2*H2的第四矩阵表示,所述第四矩阵中的各个元素分别表示所述第二上采样图像中各个像素的三原色;
所述内容图像中的数据采用大小为3*W2*H2的第五矩阵表示,所述第五矩阵中的各个元素分别表示所述内容图像中各个像素的三原色;
其中,所述W2表示所述第二上采样图像的宽度,或者所述内容图像的宽度;所述H2表示所述第二上采样图像的高度,或者所述内容图像的高度;
所述计算所述第二上采样图像与所述内容图像的差异,包括:计算所述第四矩阵与所述第五矩阵的差,得到大小为3*W2*H2的第六矩阵,所述第六矩阵表示所述第二上采样图像与所述内容图像的差异。
6.一种图像风格迁移装置,包括:
下采样模块,用于生成内容图像的第一下采样图像、内容图像的拉普拉斯金字塔图像以及风格图像的第二下采样图像;
初步生成模块,用于利用所述第一下采样图像和所述第二下采样图像,生成初步风格迁移图像;
处理模块,用于对所述初步风格迁移图像进行上采样,得到第一上采样图像;
组合模块,用于将所述第一上采样图像中的数据与所述拉普拉斯金字塔图像中的数据进行组合,得到组合后的数据;
修正模块,用于对所述组合后的数据进行修正,得到修正后的图像;利用所述修正后的图像与所述初步风格迁移图像生成最终风格迁移图像。
7.根据权利要求6所述的装置,其中,所述初步生成模块包括:
特征编码子模块,用于对所述第一下采样图像进行编码,得到第一图像特征;并对所述第二下采样图像进行编码,得到第二图像特征;
特征结合子模块,用于将所述第一图像特征和所述第二图像特征进行组合,得到组合特征;
图像重构子模块,用于对所述组合特征进行解码,得到所述初步风格迁移图像。
8.根据权利要求6或7所述的装置,其中,所述第一上采样图像中的数据采用大小为3*W1*H1的第一矩阵表示,所述第一矩阵中的各个元素分别表示所述第一上采样图像中各个像素的三原色;
所述拉普拉斯金字塔图像中的数据采用大小为3*W1*H1的第二矩阵表示,所述第二矩阵中的各个元素分别表示所述拉普拉斯金字塔图像中各个像素的三原色;
其中,所述W1表示所述第一上采样图像的宽度,或者所述拉普拉斯金字塔图像的宽度;所述H1表示所述第一上采样图像的高度,或者所述拉普拉斯金字塔图像的高度;
所述组合模块用于:
将所述第一矩阵中的数据和所述第二矩阵中的数据组合,得到组合后的数据;所述组合后的数据采用大小为6*W1*H1的第三矩阵表示。
9.根据权利要求6或7所述的装置,其中,所述下采样模块用于:
将所述内容图像进行下采样,得到所述第一下采样图像;
将所述第一下采样图像进行上采样,得到第二上采样图像;
计算所述第二上采样图像与所述内容图像的差异;
利用所述差异生成所述内容图像的拉普拉斯金字塔图像。
10.根据权利要求9所述的装置,其中,所述第二上采样图像中的数据采用大小为3*W2*H2的第四矩阵表示,所述第四矩阵中的各个元素分别表示所述第二上采样图像中各个像素的三原色;
所述内容图像中的数据采用大小为3*W2*H2的第五矩阵表示,所述第五矩阵中的各个元素分别表示所述内容图像中各个像素的三原色;
其中,所述W2表示所述第二上采样图像的宽度,或者所述内容图像的宽度;所述H2表示所述第二上采样图像的高度,或者所述内容图像的高度;
所述下采样模块用于:计算所述第四矩阵与所述第五矩阵的差,得到大小为3*W2*H2的第六矩阵,所述第六矩阵表示所述第二上采样图像与所述内容图像的差异。
11. 一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行权利要求1-5中任一项所述的方法。
13.一种智能终端,包括如权利要求11所述的电子设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011568994.9A CN112561792B (zh) | 2020-12-25 | 2020-12-25 | 图像风格迁移方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011568994.9A CN112561792B (zh) | 2020-12-25 | 2020-12-25 | 图像风格迁移方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112561792A CN112561792A (zh) | 2021-03-26 |
CN112561792B true CN112561792B (zh) | 2023-10-03 |
Family
ID=75033226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011568994.9A Active CN112561792B (zh) | 2020-12-25 | 2020-12-25 | 图像风格迁移方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112561792B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113160039B (zh) * | 2021-04-28 | 2024-03-26 | 北京达佳互联信息技术有限公司 | 图像风格迁移方法、装置、电子设备及存储介质 |
CN113240576B (zh) * | 2021-05-12 | 2024-04-30 | 北京达佳互联信息技术有限公司 | 风格迁移模型的训练方法、装置、电子设备及存储介质 |
CN113327194A (zh) * | 2021-06-30 | 2021-08-31 | 北京百度网讯科技有限公司 | 图像风格迁移方法、装置、设备和存储介质 |
CN115187591B (zh) * | 2022-09-08 | 2023-04-18 | 深圳市资福医疗技术有限公司 | 一种病灶检测方法、系统、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2595719A1 (en) * | 1997-07-15 | 1999-01-28 | Silverbrook Research Pty. Limited | Image transformation means including user interface |
CN106651766A (zh) * | 2016-12-30 | 2017-05-10 | 深圳市唯特视科技有限公司 | 一种基于深度卷积神经网络的图像风格迁移方法 |
WO2019144855A1 (zh) * | 2018-01-26 | 2019-08-01 | 腾讯科技(深圳)有限公司 | 图像处理方法、存储介质和计算机设备 |
CN111507909A (zh) * | 2020-03-18 | 2020-08-07 | 南方电网科学研究院有限责任公司 | 一种有雾图像清晰化的方法、装置及存储介质 |
CN111709904A (zh) * | 2020-05-27 | 2020-09-25 | 盛视科技股份有限公司 | 一种图像融合方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018042388A1 (en) * | 2016-09-02 | 2018-03-08 | Artomatix Ltd. | Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures |
-
2020
- 2020-12-25 CN CN202011568994.9A patent/CN112561792B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2595719A1 (en) * | 1997-07-15 | 1999-01-28 | Silverbrook Research Pty. Limited | Image transformation means including user interface |
CN106651766A (zh) * | 2016-12-30 | 2017-05-10 | 深圳市唯特视科技有限公司 | 一种基于深度卷积神经网络的图像风格迁移方法 |
WO2019144855A1 (zh) * | 2018-01-26 | 2019-08-01 | 腾讯科技(深圳)有限公司 | 图像处理方法、存储介质和计算机设备 |
CN111507909A (zh) * | 2020-03-18 | 2020-08-07 | 南方电网科学研究院有限责任公司 | 一种有雾图像清晰化的方法、装置及存储介质 |
CN111709904A (zh) * | 2020-05-27 | 2020-09-25 | 盛视科技股份有限公司 | 一种图像融合方法及装置 |
Non-Patent Citations (2)
Title |
---|
下采样迭代和超分辨率重建的图像风格迁移;周浩;周先军;邱书畅;;湖北工业大学学报(01);全文 * |
基于拉普拉斯金字塔的图像融合算法研究;余美晨;孙玉秋;王超;长江大学学报(自然科学版)(034);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112561792A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112561792B (zh) | 图像风格迁移方法、装置、电子设备及存储介质 | |
US20200349680A1 (en) | Image processing method and device, storage medium and electronic device | |
CN108022212B (zh) | 高分辨率图片生成方法、生成装置及存储介质 | |
TWI728465B (zh) | 圖像處理方法和裝置、電子設備及儲存介質 | |
CN111182254B (zh) | 一种视频处理方法、装置、设备及存储介质 | |
CN110570356B (zh) | 图像处理方法和装置、电子设备及存储介质 | |
WO2022110638A1 (zh) | 人像修复方法、装置、电子设备、存储介质和程序产品 | |
CN111784582B (zh) | 一种基于dec_se的低照度图像超分辨率重建方法 | |
CN111192215B (zh) | 图像处理方法、装置、设备和可读存储介质 | |
CN111340905B (zh) | 图像风格化方法、装置、设备和介质 | |
CN111402128A (zh) | 一种基于多尺度金字塔网络的图像超分辨率重建方法 | |
WO2023077809A1 (zh) | 神经网络训练的方法、电子设备及计算机存储介质 | |
CN112001923B (zh) | 一种视网膜图像分割方法及装置 | |
US20210201448A1 (en) | Image filling method and apparatus, device, and storage medium | |
CN112991231A (zh) | 单图像超分与感知图像增强联合任务学习系统 | |
CN113724136A (zh) | 一种视频修复方法、设备及介质 | |
CN111510739A (zh) | 一种视频传输方法及装置 | |
WO2022213716A1 (zh) | 图像格式转换方法、装置、设备、存储介质及程序产品 | |
CN112991209B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN112785501B (zh) | 文字图像的处理方法、装置、设备和存储介质 | |
CN113313631B (zh) | 图像渲染方法和装置 | |
CN115941966A (zh) | 一种视频压缩方法及电子设备 | |
CN113947528A (zh) | 一种基于多帧融合的实时超分辨率重建方法及系统 | |
CN116977191A (zh) | 画质提升模型的训练方法和视频会议系统画质的提升方法 | |
CN114782249A (zh) | 一种图像的超分辨率重建方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |