CN111986302A - 一种基于深度学习的图像风格迁移方法及装置 - Google Patents
一种基于深度学习的图像风格迁移方法及装置 Download PDFInfo
- Publication number
- CN111986302A CN111986302A CN202010717100.1A CN202010717100A CN111986302A CN 111986302 A CN111986302 A CN 111986302A CN 202010717100 A CN202010717100 A CN 202010717100A CN 111986302 A CN111986302 A CN 111986302A
- Authority
- CN
- China
- Prior art keywords
- image
- style
- content
- white noise
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013508 migration Methods 0.000 title claims abstract description 40
- 230000005012 migration Effects 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013135 deep learning Methods 0.000 title claims abstract description 18
- 230000006870 function Effects 0.000 claims abstract description 61
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 abstract description 15
- 238000003786 synthesis reaction Methods 0.000 abstract description 15
- 230000000694 effects Effects 0.000 abstract description 10
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/02—Non-photorealistic rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的图像风格迁移方法,首先获取原始图像,并对所述原始图像进行内容图像的特征提取和风格图像的特征提取,分别得到第一特征图像和第二特征图像;创建白噪声图像,将所得到的第一特征图像和第二特征图像通过迭代优化后导入到所创建的白噪声图像中;再将所述白噪声图像进行迭代最小化,并结合风格损失函数和内容损失函数获得具有原始图像内容和预设风格的迁移后图像。上述方法及装置能够解决现有图像风格迁移技术合成较为粗糙、合成效果差的问题。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于深度学习的图像风格迁移方法及装置。
背景技术
目前图像处理技术开始越来越广泛地应用到社会各个领域,这其中人工智能与艺术的交叉碰撞,在相关的技术领域和艺术领域引起了高度关注,各类与图像艺术化相关的应用也盛行起来,如动画制作、游戏渲染、广告设计等。图像风格迁移又可以看成是图像纹理转移的问题,在计算机发展之初,科学家发明了真实感绘制技术,它是以数学、计算机科学等相关知识作为基础,利用真实世界中的场景、造型、光源等因素,在计算机图形输出设备上绘制出逼真景象的技术,但由于其时间成本巨大,于是随着计算机技术的发展,图形学上又出现了非真实感绘制技术,与传统计算机图形学追求真实感不同,其主要用于模拟艺术式绘制风格的技术,在电影、电子游戏领域、艺术领域、科研领域都有所应用。
但现有的图像风格迁移技术通常是对图片进行颜色转换、纹理的简单合成,最终的图像合成较为粗糙,合成效果较差,难以符合实际需求。
发明内容
本发明的目的是提供一种基于深度学习的图像风格迁移方法及装置,能够解决现有图像风格迁移技术合成较为粗糙、合成效果差的问题。
本发明的目的是通过以下技术方案实现的:
一种基于深度学习的图像风格迁移方法,所述方法包括:
步骤1、获取原始图像,并对所述原始图像进行内容图像的特征提取和风格图像的特征提取,分别得到第一特征图像和第二特征图像;
步骤2、创建白噪声图像,将所得到的第一特征图像和第二特征图像通过迭代优化后导入到所创建的白噪声图像中;
步骤3、再将所述白噪声图像进行迭代最小化,并结合风格损失函数和内容损失函数获得具有原始图像内容和预设风格的迁移后图像。
由上述本发明提供的技术方案可以看出,上述方法及装置能使得迁移后得到的图像细腻、合成效果较好,解决现有图像风格迁移技术合成较为粗糙、合成效果差的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的基于深度学习的图像风格迁移方法流程示意图;
图2为本发明实施例所述ReLU函数图形的示意图;
图3为本发明所举实例中不同迭代次数获得的风格迁移图像示意图;
图4为本发明实施例所述基于深度学习的图像风格迁移装置结构示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
下面将结合附图对本发明实施例作进一步地详细描述,如图1所示为本发明实施例提供的基于深度学习的图像风格迁移方法流程示意图,所述方法包括:
步骤1、获取原始图像,并对所述原始图像进行内容图像的特征提取和风格图像的特征提取,分别得到第一特征图像和第二特征图像;
在该步骤中,具体是利用卷积神经网络对所述原始图像进行内容图像的特征提取和风格图像的特征提取,所选用的卷积神经网络为VGG-19网络模型;
基于所述VGG-19网络模型的激活函数为ReLU函数,其表达式为:
f(x)=max(0,x)
其中,x是输入信号,f(x)输出信号;如图2所示为本发明实施例所述ReLU函数图形的示意图,当输入信号小于零时,输出为零;当输入信号大于零时,输出为输入信号的值。
相对于其他激活函数,该ReLU函数的梯度信息不会饱和,并且不需要指数运算,运算复杂率较低。
步骤2、创建白噪声图像,将所得到的第一特征图像和第二特征图像通过迭代优化后导入到所创建的白噪声图像中;
举例来说,白噪声图像的创建是使用tf.random_normal(content_images.shape)创建出一个和内容图像大小一样的白噪声图像。
然后设定Variable(initializer)函数,用于构造风格迁移迭代时函数变量的初始值,将所得到的第一特征图像和第二特征图像通过迭代优化后加入在白噪声图像上,将函数中的initializer值设置为白噪声图像。
步骤3、再将所述白噪声图像进行迭代最小化,并结合风格损失函数和内容损失函数获得具有原始图像内容和预设风格的迁移后图像。
在该步骤中,所述内容损失函数是通过将内容图像和所创建的白噪声图像分别传入卷积神经网络,并用二范数建立起内容图像和白噪声图像之间的距离函数,以此作为损失函数;
举例来说,首先创建content_loss(target_features,content_featur)函数作为内容损失函数,其中target_features为目标图像,content_featur为内容图像;然后使用Tensorflow下L2范数来计算生成图的特征图与原始输入的特征图之间的差异,使用的是tf.nn.l2_loss()函数。
此外因损失值与数量无关,故需要得到内容的数量值,这是通过Map(lambda)函数对内容图像进行遍历操作,读取出图像的高度height、宽度width、通道channel,后将三者进行相乘得出内容图像大小content_size,将其使用在差异值计算上,以此排除数量所带来的影响。
另外,对应所述白噪声图像中的第L层的内容损失函数通过以下公式得到:
所述风格损失函数是通过将风格图像和所创建的白噪声图像分别传入卷积神经网络后,计算在各个卷积层间的格莱姆矩阵来建立的。具体实现中,格莱姆矩阵是用于度量各个维度自己的特性以及各个维度之间的关系,使用tf.matmul(valueA,valueB)矩阵乘法函数来实现格莱姆矩阵,其中valueA为风格特征的转置值(经过降维操作后的风格特征转置),valueB为风格特征值(经过降维操作后的风格特征),最终风格图像与白噪声图像的格莱姆矩阵结果之差做为风格损失函数。
此外以上步骤也需排除个数影响,故都需除以风格图像高度、宽度、通道所相乘的大小值。
另外,在步骤3对图像进行风格迁移过程中:
通过对风格损失函数和内容损失函数中的权重参数进行更改,使得迁移后的目标图像更偏向于内容图像或更偏向于风格图像,通过对不同权重参数所迭代出来的实验结果进行对比,目标图像随着权重参数所占的比例的不同,而使得内容或风格更为突出,从而通过权重参数的更改,就可以得到自己更为满意的风格迁移图像。
下面以具体的实例来进行说明:
首先创建images(self)函数,此函数用作对原始图像的预处理,首先需要分别将输入的原始图像的内容特征和风格特征进行导入,具体可以使用Image.open()函数;
然后设定Variable(initializer)函数,用于构造风格迁移迭代时函数变量的初始值,由于风格迁移是将原始图像的内容特征和风格特征加入在白噪声图像上,故将函数中的initializer值设置为白噪声图像,其中白噪声图像的创建,本实施例可以使用tf.random_normal(content_images.shape)创建出一个和原始图像大小一样的白噪声图像;
再使用Tensorflow函数进行迭代操作,将loss值和迭代次数(iter)进行展示,同时设置每一次迭代就输出一次实验结果,即风格迁移后的图像,如图3所示为本发明所举实例中不同迭代次数获得的风格迁移图像示意图,由图3可知:从左至右随着迭代次数的增加,通过风格迁移后的图片既具有原始图像的内容,又具备艺术画的风格效果,从而解决现有图像风格迁移技术合成较为粗糙、合成效果差的问题。
基于上述的方法,本发明实施例还提供了一种基于深度学习的图像风格迁移装置,如图4所示为本发明实施例所述基于深度学习的图像风格迁移装置结构示意图,所述装置主要包括:
特征提取单元,用于获取原始图像,并对所述原始图像进行内容图像的特征提取和风格图像的特征提取,分别得到第一特征图像和第二特征图像;
白噪声图像创建单元,用于创建白噪声图像,并将所述特征提取单元所得到的第一特征图像和第二特征图像通过迭代优化后导入到所创建的白噪声图像中;
图像迁移单元,用于将所述白噪声图像创建单元得到的白噪声图像进行迭代最小化,并结合风格损失函数和内容损失函数获得具有原始图像内容和预设风格的迁移后图像。
具体实现中,所述特征提取单元具体是利用卷积神经网络对所述原始图像进行内容图像的特征提取和风格图像的特征提取;
其中,所选用的卷积神经网络为VGG-19网络模型;
基于所述VGG-19网络模型的激活函数为ReLU函数,其表达式为:
f(x)=max(0,x)
其中,x是输入信号,f(x)输出信号;当输入信号小于零时,输出为零;当输入信号大于零时,输出为输入信号的值。
上述各单元的具体实现过程如上述方法实施例所述。
值得注意的是,本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
另外,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现,具体可以将上述方法实施例中的相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输;计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质,存储介质可以是通用或专用计算机能够存取的任何可用介质。
综上所述,本发明实施例所述方法及装置与传统的图像处理相比,迁移成本降低花费时间更少,且图像风格化不再是以改变像素对应关系的处理,而是形成整体风格的差异;同时经过神经网络处理后的图片,可根据所需样式形成新的图像,即保留了原始图像的内容,又具备不同的风格效果,使得迁移后得到的图像细腻,合成效果较好,从而解决现有图像风格迁移技术合成较为粗糙、合成效果差的问题。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (8)
1.一种基于深度学习的图像风格迁移方法,其特征在于,所述方法包括:
步骤1、获取原始图像,并对所述原始图像进行内容图像的特征提取和风格图像的特征提取,分别得到第一特征图像和第二特征图像;
步骤2、创建白噪声图像,将所得到的第一特征图像和第二特征图像通过迭代优化后导入到所创建的白噪声图像中;
步骤3、再将所述白噪声图像进行迭代最小化,并结合风格损失函数和内容损失函数获得具有原始图像内容和预设风格的迁移后图像。
2.根据权利要求1所述基于深度学习的图像风格迁移方法,其特征在于,在所述步骤1中,具体是利用卷积神经网络对所述原始图像进行内容图像的特征提取和风格图像的特征提取,所选用的卷积神经网络为VGG-19网络模型;
基于所述VGG-19网络模型的激活函数为ReLU函数,其表达式为:
f(x)=max(0,x)
其中,x是输入信号,f(x)输出信号;当输入信号小于零时,输出为零;当输入信号大于零时,输出为输入信号的值。
3.根据权利要求1所述基于深度学习的图像风格迁移方法,其特征在于,在步骤3中,所述内容损失函数是通过将内容图像和所创建的白噪声图像分别传入卷积神经网络,并用二范数建立起内容图像和白噪声图像之间的距离函数,以此作为损失函数;
所述风格损失函数是通过将风格图像和所创建的白噪声图像分别传入卷积神经网络后,计算在各个卷积层间的格莱姆矩阵来建立的。
5.根据权利要求3所述基于深度学习的图像风格迁移方法,其特征在于,所述格莱姆矩阵是用于度量各个维度自己的特性以及各个维度之间的关系;
具体使用tf.matmul(valueA,valueB)矩阵乘法函数来实现格莱姆矩阵,其中valueA为风格特征的转置值,valueB为风格特征值,最终风格图像与白噪声图像的格莱姆矩阵结果之差做为风格损失函数。
6.根据权利要求1所述基于深度学习的图像风格迁移方法,其特征在于,在步骤3对图像进行风格迁移过程中:
通过对风格损失函数和内容损失函数中的权重参数进行更改,使得迁移后的目标图像更偏向于内容图像或更偏向于风格图像。
7.一种基于深度学习的图像风格迁移装置,其特征在于,所述装置包括:
特征提取单元,用于获取原始图像,并对所述原始图像进行内容图像的特征提取和风格图像的特征提取,分别得到第一特征图像和第二特征图像;
白噪声图像创建单元,用于创建白噪声图像,并将所述特征提取单元所得到的第一特征图像和第二特征图像通过迭代优化后导入到所创建的白噪声图像中;
图像迁移单元,用于将所述白噪声图像创建单元得到的白噪声图像进行迭代最小化,并结合风格损失函数和内容损失函数获得具有原始图像内容和预设风格的迁移后图像。
8.根据权利要求7所述基于深度学习的图像风格迁移装置,其特征在于,所述特征提取单元具体是利用卷积神经网络对所述原始图像进行内容图像的特征提取和风格图像的特征提取;
其中,所选用的卷积神经网络为VGG-19网络模型;
基于所述VGG-19网络模型的激活函数为ReLU函数,其表达式为:
f(x)=max(0,x)
其中,x是输入信号,f(x)输出信号;当输入信号小于零时,输出为零;当输入信号大于零时,输出为输入信号的值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010717100.1A CN111986302A (zh) | 2020-07-23 | 2020-07-23 | 一种基于深度学习的图像风格迁移方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010717100.1A CN111986302A (zh) | 2020-07-23 | 2020-07-23 | 一种基于深度学习的图像风格迁移方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111986302A true CN111986302A (zh) | 2020-11-24 |
Family
ID=73438851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010717100.1A Pending CN111986302A (zh) | 2020-07-23 | 2020-07-23 | 一种基于深度学习的图像风格迁移方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111986302A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805803A (zh) * | 2018-06-13 | 2018-11-13 | 衡阳师范学院 | 一种基于语义分割与深度卷积神经网络的肖像风格迁移方法 |
CN109255772A (zh) * | 2018-08-27 | 2019-01-22 | 平安科技(深圳)有限公司 | 基于风格迁移的车牌图像生成方法、装置、设备及介质 |
CN110310225A (zh) * | 2019-07-05 | 2019-10-08 | 南京工业大学 | 一种新型的字体特效渲染方法 |
CN110490791A (zh) * | 2019-07-10 | 2019-11-22 | 西安理工大学 | 基于深度学习风格迁移的服饰图像艺术化生成方法 |
CN110880016A (zh) * | 2019-10-18 | 2020-03-13 | 平安科技(深圳)有限公司 | 图像风格迁移方法、装置、设备及存储介质 |
CN110909790A (zh) * | 2019-11-20 | 2020-03-24 | Oppo广东移动通信有限公司 | 图像的风格迁移方法、装置、终端及存储介质 |
CN111242841A (zh) * | 2020-01-15 | 2020-06-05 | 杭州电子科技大学 | 一种基于语义分割和深度学习的图片背景风格迁移方法 |
-
2020
- 2020-07-23 CN CN202010717100.1A patent/CN111986302A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805803A (zh) * | 2018-06-13 | 2018-11-13 | 衡阳师范学院 | 一种基于语义分割与深度卷积神经网络的肖像风格迁移方法 |
CN109255772A (zh) * | 2018-08-27 | 2019-01-22 | 平安科技(深圳)有限公司 | 基于风格迁移的车牌图像生成方法、装置、设备及介质 |
CN110310225A (zh) * | 2019-07-05 | 2019-10-08 | 南京工业大学 | 一种新型的字体特效渲染方法 |
CN110490791A (zh) * | 2019-07-10 | 2019-11-22 | 西安理工大学 | 基于深度学习风格迁移的服饰图像艺术化生成方法 |
CN110880016A (zh) * | 2019-10-18 | 2020-03-13 | 平安科技(深圳)有限公司 | 图像风格迁移方法、装置、设备及存储介质 |
CN110909790A (zh) * | 2019-11-20 | 2020-03-24 | Oppo广东移动通信有限公司 | 图像的风格迁移方法、装置、终端及存储介质 |
CN111242841A (zh) * | 2020-01-15 | 2020-06-05 | 杭州电子科技大学 | 一种基于语义分割和深度学习的图片背景风格迁移方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10839575B2 (en) | User-guided image completion with image completion neural networks | |
CN108830913B (zh) | 基于用户颜色引导的语义级别线稿上色方法 | |
CN105374007B (zh) | 融合骨架笔画和纹理特征的铅笔画生成方法和装置 | |
CN111047509A (zh) | 一种图像特效处理方法、装置及终端 | |
Liu et al. | Painting completion with generative translation models | |
CN115100337A (zh) | 一种基于卷积神经网络的全身人像视频重照明方法和装置 | |
CN110097615B (zh) | 一种联合风格化和去风格化的艺术字编辑方法和系统 | |
US20230082050A1 (en) | Universal style transfer using multi-scale feature transform and user controls | |
Yang | Application and development of digital enhancement of traditional sculpture art | |
CN113436058B (zh) | 一种人物虚拟换衣方法、终端设备及存储介质 | |
CN114359269A (zh) | 基于神经网络的虚拟食品盒缺陷生成方法及系统 | |
CN113827958B (zh) | 岩浆渲染方法、装置、设备和存储介质 | |
Wang | Illustration Art Based on Visual Communication in Digital Context | |
Zhang et al. | A fast solution for Chinese calligraphy relief modeling from 2D handwriting image | |
CN111986302A (zh) | 一种基于深度学习的图像风格迁移方法及装置 | |
Bende et al. | VISMA: A Machine Learning Approach to Image Manipulation | |
CN111862253B (zh) | 一种基于深度卷积生成对抗网络的草图着色方法及系统 | |
CN114917583A (zh) | 一种基于生成对抗网络的动漫风格游戏背景生成方法及平台 | |
Li et al. | Robust pencil drawing generation via fast Retinex decomposition | |
CN112614047A (zh) | 一种基于TuiGAN改进的脸谱图像风格迁移的方法 | |
Yang et al. | An end‐to‐end perceptual enhancement method for UHD portrait images | |
Liu et al. | 3D Animation Graphic Enhancing Process Effect Simulation Analysis | |
Wang et al. | Local and nonlocal flow-guided video inpainting | |
Wang | Cartoon‐Style Image Rendering Transfer Based on Neural Networks | |
Yi | Research on artificial intelligence art image synthesis algorithm based on generation model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |