CN108470320B - 一种基于cnn的图像风格化方法及系统 - Google Patents

一种基于cnn的图像风格化方法及系统 Download PDF

Info

Publication number
CN108470320B
CN108470320B CN201810157122.XA CN201810157122A CN108470320B CN 108470320 B CN108470320 B CN 108470320B CN 201810157122 A CN201810157122 A CN 201810157122A CN 108470320 B CN108470320 B CN 108470320B
Authority
CN
China
Prior art keywords
image
style
layer
neural network
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810157122.XA
Other languages
English (en)
Other versions
CN108470320A (zh
Inventor
曾坤
黄捷
林格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201810157122.XA priority Critical patent/CN108470320B/zh
Publication of CN108470320A publication Critical patent/CN108470320A/zh
Application granted granted Critical
Publication of CN108470320B publication Critical patent/CN108470320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种基于CNN的图像风格化方法及系统,其中,该方法包括:获取艺术图画作品的风格图像及现实图片;对图像进行预处理;分别对风格图像和内容图像进行图像分割,获取它们各自的多通道语义图像;构建多尺度风格化卷积神经网络,利用网络输入包含多个尺寸的内容图,得到输出图;利用深度卷积神经网络计算出风格损失值及内容损失值;结合两者,利用误差反向传播算法进行反向传播处理,更新多尺度风格化卷积神经网络权重;获取现实图片,裁剪成512*512大小,输入到多尺度风格化卷积神经网络中,得到风格化后的目标图像。在本发明实施例中,能够将任意艺术作品图片上的风格信息迁移到另一张实际图片当中,使得普通人制作出大师级别的绘画作品成为可能。

Description

一种基于CNN的图像风格化方法及系统
技术领域
本发明涉及图像分割和图像识别技术领域,尤其涉及一种基于CNN的图像风格化方法及系统。
背景技术
神经网络最早是上世纪40、50年代被提出的,网络模型灵感来自于动物的中枢神经系统。在机器学习相关领域,它被用于依赖大量的输入数据来计算和估计近似目标函数。在上世纪70、80年代后向传播算法被提出之后,神经网络大红大火了一段时间,但90年代后逐渐被SVM之类的算法抢了风头,随后应用更为广泛的模型是SVM、AdaBoost、随机森林等等,究其原因在于神经网络结构复杂,参数太多难以训练。2006年,深度学习的概念第一次被提出,神经网络又重新回到学术界的视野内,但还是没有受到太多的关注度。直到2012年,深度的网络学习AlexNet模型以大幅优势赢下计算机视觉领域的竞赛ILSVRS 2012,从此,深度学习和神经网络一发不可收拾,一直跑在学术的最前沿。
过去的几年时间,深度学习在解决计算机视觉领域问题,例如物体识别、图像分割、图像风格化上表现非常出色。此外在语音识别和自然语言处理等方面也有突破性的发展。其中,在深度学习里的各种神经网络模型当中,卷积神经网络(CNN)是研究最为深入,应用最为广泛的。CNN通过训练能够得出原始图像的有效表征,从原始像素中识别视觉上的规律,近年来在深度学习领域提出的前沿研究结果都基于CNN的模型结构。LeNet-5是最早确立的现代CNN结构,之后依次提出的AlexNet、VGG、GoogleNet、ResNet,在发展方向上看就是网络层数不断加深,参数增加,网络结构变得更加复杂。目前来看,CNN的发展脚步还未停止,发展空间依然很大。
2015年的时候某位教授提出把Gram矩阵和VGG网络的中间层输出结合,以代表图像的风格信息,并且借由Gram矩阵计算的损失函数训练图片,从而实现图片之间的风格迁移。此后,传统图像风格迁移研究的重心开始与CNN相结合,两年时间内有数十篇论文从训练效率和图像生成质量等方向做了更深入的研究。之前在社交平台上火了一段时间的图像处理软件Prisma便是这个领域的研究成果与实际生活相结合的一种体现。其中,该技术方案是使用了两个网络模型,包括图像转换网络和损失计算网络。图像转换网络的结构包括3个卷积层,5个残差模块,3个卷积层,其中不使用池化层,而是用卷积和反卷积来实现下采样和上采样。损失计算网络则是现成的已经训练好的VGG16网络。在损失函数的计算上,损失函数由内容损失和风格损失组成。内容损失函数都是由生成图片在VGG网络高层上的特征激活值与实际内容图像在当前层上的特征激活值之间的距离差平方。风格损失函数是由生成图片在VGG网络每层上的特征与实际风格图像在当前层上的风格特征之间的距离差平方的累加之和。根据上述的损失函数去反复训练图像转换网络,最终得到训练好的网络,输入一张图片,输出经过风格转换之后的图片。但是该技术方案的缺点在于训练的时间过长,计算资源巨大,训练得到的图像转换网络效果一般,在训练某些图片峰哥时得到的结果可能会出现重影,导致输出图片失真。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种基于CNN的图像风格化方法及系统,能够将任意艺术作品图片上的风格信息迁移到另一张实际图片当中,使得普通人制作出大师级别的绘画作品成为可能。
为了解决上述问题,本发明提出了一种基于CNN的图像风格化方法,所述方法包括:
获取艺术图画作品的风格图像及现实图片;
对图像进行预处理,获得各尺度大小的风格图像和内容图像;
分别对风格图像和内容图像进行图像分割,获取它们各自的多通道语义图像;
构建多尺度风格化卷积神经网络,利用网络输入包含多个尺寸的内容图,得到输出图;
获取风格图像和内容图像、多通道语义图像及输出图,利用深度卷积神经网络计算出输出图与风格图像之间的风格损失值及输出图与内容图像之间的内容损失值;
结合风格损失值和内容损失值,利用误差反向传播算法对多尺度风格化卷积神经网络进行反向传播处理,对其进行更新网络权重;
获取现实图片,裁剪成512*512大小,输入到多尺度风格化卷积神经网络中,得到风格化后的目标图像。
优选地,所述对图像进行预处理的步骤具体包括:
将获取的全部图像裁剪成512*512大小;
运用双三次插值进行图像缩放,将这些图像分别按照2倍、4倍、8倍、16倍缩放,获得处理后的图像。
优选地,所述分别对风格图像和内容图像进行图像分割的具体步骤包括:
将提前训练好的条件随机场域的循环神经网络中最大值池化层去掉,并且将前一层的输出层归一化到0~1之间,得到各个分类的概率图;其中,每个值是该像素点属于某个分类的概率;
取平均概率最大的前五个分类的概率图组成5通道的语义图;
将所有待处理图像输入到将所有待处理图像输入到去掉最大值池化层的条件随机场域的循环神经网络中,得到相对应语义图。
优选地,所述构建多尺度风格化卷积神经网络,利用网络输入包含多个尺寸的内容图的步骤具体包括:构建多尺度风格化深度卷积神经网络;
利用同一张图片的5个不同尺度输入网络,包括:512*512(原大小),256*256,128*128,64*64,32*32;
将32*32的输入图片经过两次卷积处理,获得特征图后进行一次反卷积上采样处理,并对特征图的大小放大一倍处理;
利用上一步骤得到的特征图与64*64的输入图片经过两次卷积处理得到的64*64特征图进行深度上的拼接处理,获得拼接后的特征图,并对其进行两次卷积处理、再反卷积处理,并对该特征图大小放大为128*128;
利用上一步骤得到的特征图与128*128的输入图片经过两次卷积处理得到的特征图进行深度上的拼接处理,获得拼接后的特征图,并对其进行两次卷积处理、再反卷积处理,并对该特征图大小放大为256*256;
利用上一步骤得到的特征图与256*256的输入图片经过两次卷积处理得到的特征图进行深度上的拼接处理,获得拼接后的特征图,并对其进行两次卷积处理、再反卷积处理,并对该特征图大小放大为512*512;
利用上一步骤得到的特征图与512*512的输入图片经过两次卷积处理得到的特征图进行深度上的拼接处理,获得拼接后的特征图,并对其进行三次卷积处理,获得输出图片。
优选地,所述多尺度风格化深度卷积神经网络中卷积处理依次包含了一次批标准化层处理,一次线性整流层激活,一次3*3的卷积,再重复经过一次批标准化层处理,一次线性整流层激活,一次3*3的卷积,最后和输入做一个加运算,得到卷积处理的输出。优选地,所述多尺度风格化卷积神经网络中拼接处理是输入中的小尺寸特征图在经过反卷积后尺寸放大一倍,然后经过一次批标准化层处理,最后与经过批标准化层处理的大尺寸输入特征图进行深度上的拼接。
优选地,所述利用已经经过物体检测识别训练的深度卷积神经网络计算出输出图与风格图像之间的风格损失值及输出图与内容图像之间的内容损失值的步骤包括:
将内容图像Xc输入到多尺度风格化卷积神经网络中得到输出图为X,将风格图语义图定义为Ms,内容图像的语义图为Mx,将输出图X、风格图像Xs、内容图像Xc输入到已经经过物体检测识别训练的深度卷积神经网络中;
在深度卷积神经网络的第一层中,输出图X、风格图像Xs及内容图像Xc各自对应的特征图为Φl(X)、Φl(Xs)、Φl(Xc),
Figure BDA0001581763740000041
Figure BDA0001581763740000042
是与Φl(Xs)、Φl(Xc)尺寸大小相同的风格图像和内容图像所对应的语义图;
用一个5*5的窗口,步长为1遍历Φl(X),每个窗口作为一个小块,数学符号为Ψil(X)),i=1,2,3,...,P,一共有P个小块;同样地,用5*5窗口步长为1的遍历Φl(Xs),得到风格图像的特征图的所有小块,数学符号为Ψil(Xs));通过图像块匹配算法找到风格图像中与Ψil(X))最匹配的小块为ΨNN(i)l(Xs)),公式表示如下:
Figure BDA0001581763740000051
其中,
Figure BDA0001581763740000052
是将语义图
Figure BDA00015817637400000510
与风格图像的特征图Φl(X)拼接起来后选取的第i个小块,同理
Figure BDA0001581763740000053
是将风格图像的语义图
Figure BDA0001581763740000054
与风格图像的特征图Φl(Xs)拼接起来后选取的第j个小块。
计算Ψil(X))的格拉姆矩阵为G(Ψil(X))),以及计算ΨNN(i)l(Xs))的格拉姆矩阵为G(ΨNN(i)l(Xs))),通过两个格拉姆矩阵计算风格损失
Figure BDA0001581763740000055
其计算公式如下:
Figure BDA0001581763740000056
其中,格拉姆矩阵的计算方式如下,第i,j的位置为第i,j通道的像素对应相乘求和:
Figure BDA0001581763740000057
其中,k是某层卷积后特征图的像素个数,i,分别是该卷积层输出的特征图个数(卷积核个数),Gij计算的是第i个特征图和第j个特征图的内积。
计算深度卷积神经网络中线性整流层1_2层、线性整流层2_2层、线性整流层3_3层、线性整流层4_3层的风格损失
Figure BDA0001581763740000058
并且最终得到风格损失Es,其计算公式为:
Figure BDA0001581763740000059
其中,L是网络的层数,wl是该层计算的损失的权重。
计算在线性整流层2_2层输出图和内容图像之间的损失Ec,其计算公式为:
Figure BDA0001581763740000061
Figure BDA0001581763740000062
Figure BDA0001581763740000063
是网络中某一层l的内容损失函数,总的内容损失就是将各层累加。
优选地,当进行最后一步骤之前,对更新网络权重后的多尺度风格化卷积神经网络进行训练,训练时以10张图为一批次,训练迭代10000轮,采用Adam梯度下降方法训练优化网络。
相应地,本发明实施例还提供一种基于CNN的图像风格化系统,该系统包括:
采集模块,用于获取艺术图画作品的风格图像及现实图片;
预处理模块,用于对图像进行预处理,获得各尺度大小的风格图像和内容图像;
分割模块,用于对风格图像和内容图像进行图像分割;
构建模块,用于构建多尺度风格化卷积神经网络,利用网络输入包含多个尺寸的内容图;
计算模块,用于计算输出图与风格图像之间的风格损失值及输出图与内容图像之间的内容损失值;
更新模块,用于对多尺度风格化卷积神经网络进行反向传播处理,对其进行更新网络权重;
输出模块,用于获取现实图片,裁剪成512*512大小,输入到多尺度风格化卷积神经网络中,得到风格化后的目标图像。
优选地,预处理模块包括:
裁剪单元,用于将获取的全部图像裁剪成512*512大小;
缩放处理单元,用于将图像分别按照2倍、4倍、8倍、16倍缩放。
在本发明实施例中,能够将任意艺术作品图片上的风格信息迁移到另一张实际图片当中,使得普通人制作出大师级别的绘画作品成为可能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例的一种基于CNN的图像风格化方法的流程示意图;
图2是本发明实施例的多尺度的深度卷积神经网络的结构示意图;
图3是本发明实施例的多尺度的深度卷积神经网络中卷积处理的流程示意图;
图4是本发明实施例的多尺度的深度间接神经网络中拼接处理的流程示意图;
图5是本发明实施例的一种基于CNN的图像风格化系统的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例的基于CNN的图像风格化方法的流程示意图,如图1所示,该方法包括:
S1,获取艺术图画作品的风格图像及现实图片;
S2,对图像进行预处理,获得各尺度大小的风格图像和内容图像;
S3,分别对风格图像和内容图像进行图像分割,获取它们各自的多通道语义图像;
S4,构建多尺度风格化卷积神经网络,利用网络输入包含多个尺寸的内容图,得到输出图;
S5,获取风格图像和内容图像、多通道语义图像及输出图,利用已经经过物体检测识别训练的深度卷积神经网络计算出输出图与风格图像之间的风格损失值及输出图与内容图像之间的内容损失值;
S6,结合风格损失值和内容损失值,利用误差反向传播算法对多尺度风格化卷积神经网络进行反向传播处理,对其进行更新网络权重;
S7,获取现实图片,裁剪成512*512大小,输入到多尺度风格化卷积神经网络中,得到风格化后的目标图像。
其中,S2中所述的预处理包括:
S21,将获取的全部图像裁剪成512*512大小;
S22,运用双三次插值进行图像缩放,将这些图像分别按照2倍、4倍、8倍、16倍缩放,获得处理后的图像。
进一步地,S3包括:
S31,将提前训练好的条件随机场域的循环神经网络中最大值池化层去掉,并且将前一层的输出层归一化到0~1之间,得到各个分类的概率图;其中,每个值是该像素点属于某个分类的概率;
S32,取平均概率最大的前五个分类的概率图组成5通道的语义图;
S33,将所有待处理图像输入到S31的网络中,得到相对应语义图。
进一步地,如图2所示,S4包括:S41,构建多尺度风格化深度卷积神经网络;
S42,利用同一张图片的5个不同尺度输入网络,包括:512*512(原大小),256*256,128*128,64*64,32*32;
S43,将32*32的输入图片经过两次卷积处理,获得特征图后进行一次反卷积上采样处理,并对特征图的大小放大一倍处理;
S44,利用S43得到的特征图与64*64的输入图片经过两次卷积处理得到的64*64特征图进行深度上的拼接处理,获得拼接后的特征图,并对其进行两次卷积处理、再反卷积处理,并对该特征图大小放大为128*128;
S45,利用S44得到的特征图与128*128的输入图片经过两次卷积处理得到的特征图进行深度上的拼接处理,获得拼接后的特征图,并对其进行两次卷积处理、再反卷积处理,并对该特征图大小放大为256*256;
S46,利用S45得到的特征图与256*256的输入图片经过两次卷积处理得到的特征图进行深度上的拼接处理,获得拼接后的特征图,并对其进行两次卷积处理、再反卷积处理,并对该特征图大小放大为512*512;
S47,利用S46得到的特征图与512*512的输入图片经过两次卷积处理得到的特征图进行深度上的拼接处理,获得拼接后的特征图,并对其进行三次卷积处理,获得输出图片。
进一步地,如图3所示,S4中所述多尺度风格化深度卷积神经网络中卷积处理依次包含了一次批标准化层处理,一次线性整流层激活,一次3*3的卷积,再重复经过一次批标准化层处理,一次线性整流层激活,一次3*3的卷积,最后和输入做一个加运算,得到卷积处理的输出。
具体地,如图4所示,S4中所述多尺度风格化卷积神经网络中拼接处理是输入中的小尺寸特征图在经过反卷积后尺寸放大一倍,然后经过一次批标准化层处理,最后与经过批标准化层处理的大尺寸输入特征图进行深度上的拼接。
进一步地,S5包括:
S51,将内容图像Xc输入到多尺度风格化卷积神经网络中得到输出图为X,将风格图语义图定义为Ms,内容图像的语义图为Mx,将输出图X、风格图像Xs、内容图像Xc输入到已经经过物体检测识别训练的深度卷积神经网络中;
S52,在深度卷积神经网络的第一层中,输出图X、风格图像Xs及内容图像Xc各自对应的特征图为Φl(X)、Φl(Xs)、Φl(Xc),
Figure BDA0001581763740000092
Figure BDA0001581763740000093
是与Φl(Xs)、Φl(Xc)尺寸大小相同的风格图像和内容图像所对应的语义图;
S53,用一个5*5的窗口,步长为1遍历Φl(X),每个窗口作为一个小块,数学符号为Ψil(X)),i=1,2,3,...,P,一共有P个小块;同样地,用5*5窗口步长为1的遍历Φl(Xs),得到风格图像的特征图的所有小块,数学符号为Ψil(Xs));通过图像块匹配算法找到风格图像中与Ψil(X))最匹配的小块为ΨNN(i)l(Xs)),公式表示如下:
Figure BDA0001581763740000091
其中,
Figure BDA0001581763740000101
是将语义图
Figure BDA0001581763740000102
与风格图像的特征图Φl(X)拼接起来后选取的第i个小块,同理
Figure BDA0001581763740000103
是将风格图像的语义图
Figure BDA0001581763740000104
与风格图像的特征图Φl(Xs)拼接起来后选取的第j个小块。
S54,计算Ψil(X))的格拉姆矩阵为G(Ψil(X))),以及计算ΨNN(i)l(Xs))的格拉姆矩阵为G(ΨNN(i)l(Xs))),通过两个格拉姆矩阵计算风格损失
Figure BDA0001581763740000105
其计算公式如下:
Figure BDA0001581763740000106
其中,格拉姆矩阵的计算方式如下,第i,j的位置为第i,j通道的像素对应相乘求和:
Figure BDA0001581763740000107
其中,k是某层卷积后特征图的像素个数,i,分别是该卷积层输出的特征图个数(卷积核个数),Gij计算的是第i个特征图和第j个特征图的内积。
S55,计算深度卷积神经网络中线性整流层1_2层、线性整流层2_2层、线性整流层3_3层、线性整流层4_3层的风格损失
Figure BDA0001581763740000108
并且最终得到风格损失Es,其计算公式为:
Figure BDA0001581763740000109
其中,L是网络的层数,wl是该层计算的损失的权重。
S56,计算在线性整流层2_2层输出图和内容图像之间的损失Ec,其计算公式为:
Figure BDA00015817637400001010
Figure BDA00015817637400001011
Figure BDA0001581763740000111
是网络中某一层l的内容损失函数,总的内容损失就是将各层累加。
进一步地,当进行S7之前,对S6中更新网络权重后的多尺度风格化卷积神经网络进行训练,训练时以10张图为一批次,训练迭代10000轮,采用Adam梯度下降方法训练优化网络。
相应地,本发明实施例还提供一种基于CNN的图像风格化系统,如图5所示,该系统包括:
采集模块,用于获取艺术图画作品的风格图像及现实图片;
预处理模块,用于对图像进行预处理,获得各尺度大小的风格图像和内容图像;
分割模块,用于对风格图像和内容图像进行图像分割;
构建模块,用于构建多尺度风格化卷积神经网络,利用网络输入包含多个尺寸的内容图;
计算模块,用于计算输出图与风格图像之间的风格损失值及输出图与内容图像之间的内容损失值;
更新模块,用于对多尺度风格化卷积神经网络进行反向传播处理,对其进行更新网络权重;
输出模块,用于获取现实图片,裁剪成512*512大小,输入到多尺度风格化卷积神经网络中,得到风格化后的目标图像。
进一步地,预处理模块包括:
裁剪单元,用于将获取的全部图像裁剪成512*512大小;
缩放处理单元,用于将图像分别按照2倍、4倍、8倍、16倍缩放。
本发明的系统实施例中各功能模块的功能可参见本发明方法实施例中的流程处理,这里不再赘述。
在本发明实施例中,能够将任意艺术作品图片上的风格信息迁移到另一张实际图片当中,使得普通人制作出大师级别的绘画作品成为可能。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,ReadOnly Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
另外,以上对本发明实施例所提供的一种基于CNN的图像风格化方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (5)

1.一种基于CNN的图像风格化方法,其特征在于,所述方法包括:
获取艺术图画作品的风格图像及现实图片;
对图像进行预处理,获得各尺度大小的风格图像和内容图像;
分别对风格图像和内容图像进行图像分割,获取它们各自的多通道语义图像;
构建多尺度风格化卷积神经网络,利用网络输入包含多个尺寸的内容图,得到输出图;
获取风格图像和内容图像、多通道语义图像及输出图,利用深度卷积神经网络计算出输出图与风格图像之间的风格损失值及输出图与内容图像之间的内容损失值;
结合风格损失值和内容损失值,利用误差反向传播算法对多尺度风格化卷积神经网络进行反向传播处理,对其进行更新网络权重;
获取现实图片,裁剪成512*512大小,输入到多尺度风格化卷积神经网络中,得到风格化后的目标图像;
其中,所述多尺度风格化卷积神经网络中卷积处理依次包含了一次批标准化层处理,一次线性整流层激活,一次3*3的卷积,再重复经过一次批标准化层处理,一次线性整流层激活,一次3*3的卷积,最后和输入做一个加运算,得到卷积处理的输出;
其中,所述多尺度风格化卷积神经网络中拼接处理是输入中的小尺寸特征图在经过反卷积后尺寸放大一倍,然后经过一次批标准化层处理,最后与经过批标准化层处理的大尺寸输入特征图进行深度上的拼接。
2.根据权利要求1所述的一种基于CNN的图像风格化方法,其特征在于,所述分别对风格图像和内容图像进行图像分割的具体步骤包括:
将提前训练好的条件随机场域的循环神经网络中最大值池化层去掉,并且将前一层的输出层归一化到0~1之间,得到各个分类的概率图;其中,每个值是该像素点属于某个分类的概率;
取平均概率最大的前五个分类的概率图组成5通道的语义图;
将所有待处理图像输入到去掉最大值池化层的条件随机场域的循环神经网络中,得到相对应语义图。
3.根据权利要求1所述的一种基于CNN的图像风格化方法,其特征在于,所述构建多尺度风格化卷积神经网络,利用网络输入包含多个尺寸的内容图的步骤具体包括:
构建多尺度风格化深度卷积神经网络;
利用同一张图片的5个不同尺度输入网络,包括:原大小512*512,256*256,128*128,64*64,32*32;
将32*32的输入图片经过两次卷积处理,获得特征图后进行一次反卷积上采样处理,并对特征图的大小放大一倍处理;
利用上一步骤得到的特征图与64*64的输入图片经过两次卷积处理得到的64*64特征图进行深度上的拼接处理,获得拼接后的特征图,并对其进行两次卷积处理、再反卷积处理,并对该特征图大小放大为128*128;
利用上一步骤得到的特征图与128*128的输入图片经过两次卷积处理得到的特征图进行深度上的拼接处理,获得拼接后的特征图,并对其进行两次卷积处理、再反卷积处理,并对该特征图大小放大为256*256;
利用上一步骤得到的特征图与256*256的输入图片经过两次卷积处理得到的特征图进行深度上的拼接处理,获得拼接后的特征图,并对其进行两次卷积处理、再反卷积处理,并对该特征图大小放大为512*512;
利用上一步骤得到的特征图与512*512的输入图片经过两次卷积处理得到的特征图进行深度上的拼接处理,获得拼接后的特征图,并对其进行三次卷积处理,获得输出图片。
4.根据权利要求1所述的一种基于CNN的图像风格化方法,其特征在于,所述利用已经经过物体检测识别训练的深度卷积神经网络计算出输出图与风格图像之间的风格损失值及输出图与内容图像之间的内容损失值的步骤包括:
将内容图像Xc输入到多尺度风格化卷积神经网络中得到输出图为X,将风格图的语义图定义为Ms,内容图像的语义图为Mx,将输出图X、风格图像Xs、内容图像Xc输入到已经经过物体检测识别训练的深度卷积神经网络中;
在深度卷积神经网络的第一层中,输出图X、风格图像Xs及内容图像Xc各自对应的特征图为Φl(X)、Φl(Xs)、Φl(Xc),
Figure FDA0003355394870000031
Figure FDA0003355394870000032
是与Φl(Xs)、Φl(Xc)尺寸大小相同的风格图像和内容图像所对应的语义图;
用一个5*5的窗口,步长为1遍历Φl(X),每个窗口作为一个小块,数学符号为Ψil(X)),i=1,2,3,...,P,一共有P个小块;同样地,用5*5窗口步长为1的遍历Φl(Xs),得到风格图像的特征图的所有小块,数学符号为Ψil(Xs));通过图像块匹配算法找到风格图像中与Ψil(X))最匹配的小块为ΨNN(i)l(Xs)),公式表示如下:
Figure FDA0003355394870000033
其中,
Figure FDA0003355394870000034
是将语义图
Figure FDA0003355394870000035
与风格图像的特征图Φl(X)拼接起来后选取的第i个小块,同理
Figure FDA0003355394870000036
是将风格图像的语义图
Figure FDA0003355394870000037
与风格图像的特征图Φl(Xs)拼接起来后选取的第j个小块;
计算Ψil(X))的格拉姆矩阵为G(Ψil(X))),以及计算ΨNN(i)l(Xs))的格拉姆矩阵为G(ΨNN(i)l(Xs))),通过两个格拉姆矩阵计算风格损失
Figure FDA0003355394870000038
其计算公式如下:
Figure FDA0003355394870000039
其中,格拉姆矩阵的计算方式如下,第i,j的位置为第i,j通道的像素对应相乘求和:
Figure FDA00033553948700000310
其中,k是某层卷积后特征图的像素个数,i,分别是该卷积层输出的特征图个数,即卷积核个数,Gij计算的是第i个特征图和第j个特征图的内积;
计算深度卷积神经网络中线性整流层1_2层、线性整流层2_2层、线性整流层3_3层、线性整流层4_3层的风格损失
Figure FDA0003355394870000041
并且最终得到风格损失Es,其计算公式为:
Figure FDA0003355394870000042
其中,L是网络的层数,wl是该层计算的损失的权重;
计算在线性整流层2_2层输出图和内容图像之间的损失Ec,其计算公式为:
Figure FDA0003355394870000043
Figure FDA0003355394870000044
Figure FDA0003355394870000045
是网络中某一层l的内容损失函数,总的内容损失就是将各层累加。
5.一种基于CNN的图像风格化系统,其特征在于,该系统包括:
采集模块,用于获取艺术图画作品的风格图像及现实图片;
预处理模块,用于对图像进行预处理,获得各尺度大小的风格图像和内容图像;
分割模块,用于对风格图像和内容图像进行图像分割;
构建模块,用于构建多尺度风格化卷积神经网络,利用网络输入包含多个尺寸的内容图;
计算模块,用于计算输出图与风格图像之间的风格损失值及输出图与内容图像之间的内容损失值;
更新模块,用于对多尺度风格化卷积神经网络进行反向传播处理,对其进行更新网络权重;
输出模块,用于获取现实图片,裁剪成512*512大小,输入到多尺度风格化卷积神经网络中,得到风格化后的目标图像;
其中,所述多尺度风格化卷积神经网络中卷积处理依次包含了一次批标准化层处理,一次线性整流层激活,一次3*3的卷积,再重复经过一次批标准化层处理,一次线性整流层激活,一次3*3的卷积,最后和输入做一个加运算,得到卷积处理的输出;拼接处理是输入中的小尺寸特征图在经过反卷积后尺寸放大一倍,然后经过一次批标准化层处理,最后与经过批标准化层处理的大尺寸输入特征图进行深度上的拼接。
CN201810157122.XA 2018-02-24 2018-02-24 一种基于cnn的图像风格化方法及系统 Active CN108470320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810157122.XA CN108470320B (zh) 2018-02-24 2018-02-24 一种基于cnn的图像风格化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810157122.XA CN108470320B (zh) 2018-02-24 2018-02-24 一种基于cnn的图像风格化方法及系统

Publications (2)

Publication Number Publication Date
CN108470320A CN108470320A (zh) 2018-08-31
CN108470320B true CN108470320B (zh) 2022-05-20

Family

ID=63264044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810157122.XA Active CN108470320B (zh) 2018-02-24 2018-02-24 一种基于cnn的图像风格化方法及系统

Country Status (1)

Country Link
CN (1) CN108470320B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895795A (zh) * 2018-09-13 2020-03-20 北京工商大学 改进的语义图像修补模型方法
CN109285112A (zh) 2018-09-25 2019-01-29 京东方科技集团股份有限公司 基于神经网络的图像处理方法、图像处理装置
CN109300170B (zh) * 2018-10-18 2022-10-28 云南大学 肖像照片光影传递方法
CN109409432B (zh) * 2018-10-31 2019-11-26 腾讯科技(深圳)有限公司 一种图像处理方法、装置和存储介质
CN109697690A (zh) * 2018-11-01 2019-04-30 北京达佳互联信息技术有限公司 图像风格迁移方法和系统
CN109636764A (zh) * 2018-11-01 2019-04-16 上海大学 一种基于深度学习与显著性检测的图像风格转移方法
CN109712081B (zh) * 2018-11-14 2021-01-29 浙江大学 一种融合深度特征的语义风格迁移方法和系统
CN109472319B (zh) * 2018-11-28 2021-08-31 佛山科学技术学院 一种三维模型分类方法以及检索方法
CN109766895A (zh) * 2019-01-03 2019-05-17 京东方科技集团股份有限公司 用于图像风格迁移的卷积神经网络的训练方法和图像风格迁移方法
US10311578B1 (en) * 2019-01-23 2019-06-04 StradVision, Inc. Learning method and learning device for segmenting an image having one or more lanes by using embedding loss to support collaboration with HD maps required to satisfy level 4 of autonomous vehicles and softmax loss, and testing method and testing device using the same
CN110059544B (zh) * 2019-03-07 2021-03-26 华中科技大学 一种基于道路场景的行人检测方法和系统
CN110135458A (zh) * 2019-04-15 2019-08-16 深圳中兴网信科技有限公司 图像数据集增广方法、系统、计算机设备和存储介质
CN110210347B (zh) * 2019-05-21 2021-03-23 赵森 一种基于深度学习的彩色套层剪纸智能设计方法
WO2020238120A1 (en) * 2019-05-30 2020-12-03 Guangdong Oppo Mobile Telecommunications Corp., Ltd. System and method for single-modal or multi-modal style transfer and system for random stylization using the same
CN110288030B (zh) * 2019-06-27 2023-04-07 重庆大学 基于轻量化网络模型的图像识别方法、装置及设备
CN110348531B (zh) * 2019-07-17 2022-12-30 沈阳亚视深蓝智能科技有限公司 具有分辨率适应性的深度卷积神经网络构建方法及应用
CN111210006B (zh) * 2020-01-02 2023-07-28 北京科技大学 面向多特征图的异构深度神经网络结构组合方法及系统
CN111340720B (zh) * 2020-02-14 2023-05-19 云南大学 一种基于语义分割的套色木刻版画风格转换算法
CN113496460B (zh) * 2020-04-03 2024-03-22 北京大学 一种基于特征调整的神经风格迁移方法及系统
CN111667401B (zh) * 2020-06-08 2022-11-29 武汉理工大学 多层次渐变图像风格迁移方法及系统
CN111709880B (zh) * 2020-06-17 2023-10-13 贝格迈思(深圳)技术有限公司 一种基于端到端神经网络的多路图片拼接方法
CN111986075B (zh) * 2020-08-12 2022-08-09 兰州交通大学 一种目标边缘清晰化的风格迁移方法
CN112991358A (zh) * 2020-09-30 2021-06-18 北京字节跳动网络技术有限公司 风格图像生成方法、模型训练方法、装置、设备和介质
CN113077477B (zh) * 2021-03-19 2023-01-24 中山大学 图像矢量化方法、装置及终端设备
CN113808011B (zh) * 2021-09-30 2023-08-11 深圳万兴软件有限公司 一种基于特征融合的风格迁移方法、装置及其相关组件

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611160A (zh) * 2016-12-15 2017-05-03 中山大学 一种基于卷积神经网络的图像头发识别方法及其装置
CN106651766A (zh) * 2016-12-30 2017-05-10 深圳市唯特视科技有限公司 一种基于深度卷积神经网络的图像风格迁移方法
CN106952224A (zh) * 2017-03-30 2017-07-14 电子科技大学 一种基于卷积神经网络的图像风格转移方法
CN107180410A (zh) * 2017-04-11 2017-09-19 中国农业大学 一种图像的风格化重建方法及装置
WO2018000752A1 (zh) * 2016-06-27 2018-01-04 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN107705242A (zh) * 2017-07-20 2018-02-16 广东工业大学 一种结合深度学习与深度感知的图像风格化迁移方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726560B2 (en) * 2014-10-31 2020-07-28 Fyusion, Inc. Real-time mobile device capture and generation of art-styled AR/VR content
US9773196B2 (en) * 2016-01-25 2017-09-26 Adobe Systems Incorporated Utilizing deep learning for automatic digital image segmentation and stylization

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018000752A1 (zh) * 2016-06-27 2018-01-04 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN106611160A (zh) * 2016-12-15 2017-05-03 中山大学 一种基于卷积神经网络的图像头发识别方法及其装置
CN106651766A (zh) * 2016-12-30 2017-05-10 深圳市唯特视科技有限公司 一种基于深度卷积神经网络的图像风格迁移方法
CN106952224A (zh) * 2017-03-30 2017-07-14 电子科技大学 一种基于卷积神经网络的图像风格转移方法
CN107180410A (zh) * 2017-04-11 2017-09-19 中国农业大学 一种图像的风格化重建方法及装置
CN107705242A (zh) * 2017-07-20 2018-02-16 广东工业大学 一种结合深度学习与深度感知的图像风格化迁移方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Transforming photos to comics using convolutional neural networks;Yang Chen 等;《2017 IEEE International Conference on Image Processing (ICIP)》;20170920;1-4 *
Video Stylization: Painterly Rendering and Optimization With Content Extraction;Liang Lin, Kun Zeng 等;《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》;20131230;577-590 *
图像的十字绣风格化处理;胡壮添;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20160715;I138-1183 *
基于深度学习的图像风格转换浅论;栾五洋;《数字通信世界》;20180201;248-249 *

Also Published As

Publication number Publication date
CN108470320A (zh) 2018-08-31

Similar Documents

Publication Publication Date Title
CN108470320B (zh) 一种基于cnn的图像风格化方法及系统
CN112949565B (zh) 基于注意力机制的单样本部分遮挡人脸识别方法及系统
JP7417555B2 (ja) 人体ポーズ分析システム及び方法
CN106778928B (zh) 图像处理方法及装置
CN108304820B (zh) 一种人脸检测方法、装置及终端设备
CN107784288B (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
CN110930297B (zh) 人脸图像的风格迁移方法、装置、电子设备及存储介质
CN112446270A (zh) 行人再识别网络的训练方法、行人再识别方法和装置
CN112288011B (zh) 一种基于自注意力深度神经网络的图像匹配方法
CN109829353B (zh) 一种基于空间约束的人脸图像风格化方法
US20230081982A1 (en) Image processing method and apparatus, computer device, storage medium, and computer program product
CN107730536B (zh) 一种基于深度特征的高速相关滤波物体追踪方法
CN110321805B (zh) 一种基于时序关系推理的动态表情识别方法
CN112800903A (zh) 一种基于时空图卷积神经网络的动态表情识别方法及系统
CN113011253B (zh) 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质
CN111612024A (zh) 特征提取方法、装置、电子设备及计算机可读存储介质
CN111127309A (zh) 肖像风格迁移模型训练方法、肖像风格迁移方法以及装置
CN112861718A (zh) 一种轻量级特征融合人群计数方法及系统
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN110503090B (zh) 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器
CN110135435B (zh) 一种基于广度学习系统的显著性检测方法及装置
WO2021179822A1 (zh) 人体特征点的检测方法、装置、电子设备以及存储介质
CN116452511B (zh) 钻爆法隧道掌子面围岩级别智能判识方法、装置及介质
CN115965905A (zh) 一种基于多尺度融合卷积网络的人群计数方法及系统
CN111126177B (zh) 人数统计的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant