CN110956575A - 转变图像风格的方法和装置、卷积神经网络处理器 - Google Patents
转变图像风格的方法和装置、卷积神经网络处理器 Download PDFInfo
- Publication number
- CN110956575A CN110956575A CN201811123875.5A CN201811123875A CN110956575A CN 110956575 A CN110956575 A CN 110956575A CN 201811123875 A CN201811123875 A CN 201811123875A CN 110956575 A CN110956575 A CN 110956575A
- Authority
- CN
- China
- Prior art keywords
- image
- convolution
- sampling
- style
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000013528 artificial neural network Methods 0.000 title claims description 22
- 238000005070 sampling Methods 0.000 claims abstract description 171
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 84
- 238000012549 training Methods 0.000 claims description 66
- 238000012545 processing Methods 0.000 claims description 33
- 238000004458 analytical method Methods 0.000 claims description 25
- 230000001131 transforming effect Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 9
- 239000000126 substance Substances 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 abstract description 21
- 230000000694 effects Effects 0.000 abstract description 14
- 230000008569 process Effects 0.000 description 14
- 238000000605 extraction Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000005284 excitation Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 229930188970 Justin Natural products 0.000 description 1
- 244000141359 Malus pumila Species 0.000 description 1
- 102000002274 Matrix Metalloproteinases Human genes 0.000 description 1
- 108010000684 Matrix Metalloproteinases Proteins 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G06T3/04—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4007—Interpolation-based scaling, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4046—Scaling the whole image or part thereof using neural networks
Abstract
本发明提供一种转变图像风格的方法和装置、卷积神经网络处理器,属于风格转变技术领域,其可至少部分解决现有的转变图像风格的方法转变效果不好或转变时间长的问题。本发明的转变图像风格采用的卷积神经网络包括的每个通道中,下采样段包括下采样单元和卷积层,下采样单元用于将其输入转变为下一尺度的输出;密集连接段包括至少一个密集连接卷积网络模块,每个密集连接卷积网络模块包括多个依次连接的、具有卷积层的卷积块,每个卷积块的输出均为其后所有卷积块的输入,且为密集连接卷积网络模块的输出,密集连接卷积网络模块的输入为其中所有卷积块的输入;上采样段包括上采样单元和卷积层,上采样单元用于将其输入转变为下一尺度的输出。
Description
技术领域
本发明属于图像风格转变技术领域,具体涉及一种转变图像风格的方法和装置、卷积神经网络处理器。
背景技术
在图像处理、艺术等领域中,可能需要将一幅图像转变(或称迁移)为具有其它风格的图像,即在保持图像内容(如图像中的风景、物体、人物等)不变的情况下,使图像具有不同的风格(包括艺术种类的风格、艺术家的风格、艺术流派的风格等,如素描风格、浮世绘风格、梵高风格等)。
现在有一些软件可用于转变图像风格,如Prisma、Atisto等。但这些软件的转变效果并不好,其也可通过简单的Photoshop处理实现。例如,若用Prisma软件将图1的图像转变为具有图2的风格的图像时,其结果如图3所示,可见图3的风格与图2的风格并不接近,且内容相差也比较大,说明其转变效果不好。
也有一些技术通过深度学习的卷积神经网络实现图像风格转变,例如以下论文:Justin Johnson.Perceptual Losses for Real-Time Style Transfer and Super-Resolution.arXiv:1603:08155。但是,这些技术采用的卷积神经网络结构复杂,所需处理的数据量大,导致其运行速度慢、转变耗时长。
发明内容
本发明至少部分解决现有的转变图像风格的方法转变效果不好或转变时间长的问题,提供一种可在短时间内实现良好转变效果的转变图像风格的方法和装置、卷积神经网络处理器。
解决本发明技术问题所采用的技术方案是一种转变图像风格的方法,包括将原始图像输入卷积神经网络中处理得到结果图像;所述卷积神经网络包括至少一个通道,每个通道包括依次连接的下采样段、密集连接段、上采样段;其中,
下采样段包括交替设置的至少一个下采样单元和至少一个卷积层,所述下采样单元用于将其输入转变为下一尺度的输出;
密集连接段包括至少一个密集连接卷积网络模块,每个密集连接卷积网络模块包括多个依次连接的、具有卷积层的卷积块,每个卷积块的输出均为其后所有卷积块的输入,且也为密集连接卷积网络模块的输出,密集连接卷积网络模块的输入为其中所有卷积块的输入;
上采样段包括交替设置的至少一个上采样单元和至少一个卷积层,所述上采样单元用于将其输入转变为下一尺度的输出;
同一通道的下采样段中的下采样单元与上采样段中的上采样单元数量相等且相互对应。
可选的,每个所述卷积块包括依次连接的第一卷积层和第二卷积层,其中第一卷积层包含一个1*1的卷积核,第二卷积层包含一个3*3的卷积核。
可选的,所述下采样段还包括:至少一个跨尺度连接,其用于对一个下采样单元的输出进行下采样,并将下采样结果输入到至少向后跨越一个尺度的卷积层中;
和/或,
所述上采样段还包括:至少一个跨尺度连接,其用于对一个上采样单元的输出进行上采样,并将上采样结果输入到至少向后跨越一个尺度的卷积层中。
进一步可选的,所述下采样段的跨尺度连接的下采样为D-Bicubic采样;
所述上采样段的跨尺度连接的上采样为U-Bicubic采样。
可选的,所述卷积神经网络还包括:
至少一个跨段连接,其用于将下采样段的一个尺度的卷积层的输出输入至上采样段的对应尺度的卷积层中。
可选的,所述卷积神经网络包括多个通道,所述多个通道包括:
分别对应图像的YUV颜色空间的Y分量、U分量、V分量的Y通道、U通道、V通道,所述YUV颜色空间为YUV420或YUV422。
进一步可选的,所述Y通道的下采样段中包括最大尺度的卷积层,且上采样段中包括的最大尺度的卷积层;
所述U通道、V通道的下采样段中无最大尺度的卷积层,其第二大尺度的卷积层前仅包括下采样单元;
所述U通道、V通道的下采样段中无最大尺度的卷积层,其第二大尺度的卷积层后仅包括上采样单元。
进一步可选的,所述Y通道、U通道、V通道的输出连接融合单元,所述融合单元用于将YUV颜色空间转变为RGB颜色空间。
可选的,在所述将原始图像输入卷积神经网络中处理得到结果图像前,还包括对卷积神经网络进行训练,所述训练包括:
选定一幅风格图像,将所述风格图像输入分析网络中提取其风格特征;
从训练图像集合中选择一幅图像为内容图像,并将被选择的图像从训练图像集合中除去;
将所述内容图像输入卷积神经网络中处理得到训练图像;将所述内容图像输入所述分析网络中提取其内容特征;
将所述训练图像输入所述分析网络中提取其内容特征和风格特征;
通过损失函数对内容图像的内容特征与训练图像的内容特征进行比较,并对风格图像的风格特征与训练图像的风格特征进行比较,得到损失;
根据所述损失调整卷积神经网络;
判断当前是否满足预设结束条件,若是则结束训练,若否则返回所述从训练图像集合中选择一幅图像为内容图像的步骤,继续用重新选取的内容图像进行训练。
进一步可选的,所述损失包括L1损失、内容损失、风格损失;
进一步可选的,所述分析网络包括:
多个依次连接的、不同尺度的卷积层,以及设于相邻卷积层间的下采样单元;所述下采样单元用于将其输入转变为下一卷积层的尺度的输出。
进一步可选的,所述图像的风格特征包括多个卷积层的输出;
所述图像的内容特征为一个设定的卷积层的输出。
解决本发明技术问题所采用的技术方案是一种转变图像风格的装置,其包括:
存储有程序的存储器;
执行器,其用于运行存储器中存储的程序,以进行上述的转变图像风格的方法。
解决本发明技术问题所采用的技术方案是一种卷积神经网络处理器,用于用卷积神经网络转变图像风格;所述卷积神经网络包括至少一个通道,每个通道包括依次连接的下采样段、密集连接段、上采样段;其中,
下采样段包括交替设置的至少一个下采样单元和至少一个卷积层,所述下采样单元用于将其输入转变为下一尺度的输出;
密集连接段包括至少一个密集连接卷积网络模块,每个密集连接卷积网络模块包括多个依次连接的、具有卷积层的卷积块,每个卷积块的输出均为其后所有卷积块的输入,且也为密集连接卷积网络模块的输出,密集连接卷积网络模块的输入为其中所有卷积块的输入;
上采样段包括交替设置的至少一个上采样单元和至少一个卷积层,所述上采样单元用于将其输入转变为下一尺度的输出;
同一通道的下采样段中的下采样单元与上采样段中的上采样单元数量相等且相互对应。
附图说明
图1为本发明实施例中的一幅待进行风格转变的图像;
图2为本发明实施例中的一幅风格图像;
图3为采用Prisma软件对图1进行转变得到的图像;
图4为采用本发明的方法对图1进行转变得到的图像;
图5为一种Muxer层的原理示意图;
图6为本发明实施例中采用的一种分析网络的结构示意图;
图7为本发明实施例中采用的卷积神经网络的结构示意图;
图8为本发明实施例中采用的密集连接卷积网络模块的结构示意图;
图9为本发明的实施例的一种转变图像风格的方法流程示意图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。
术语解释
以下对本实施例中用到的技术术语进行解释:
卷积核,其是一个二维的数据矩阵,每个点具有一定的数值,用于进行卷积。
卷积(convolution),其是利用卷积核对图像进行处理的方法,其将输入图像各像素的值(如灰度值)与卷积核上对应点的数值相乘,然后将所有乘积相加作为卷积核中间点对应的输出像素的灰度值;通过使卷积核在图像上滑动,即可得到一幅输出图像。根据卷积核的不同,卷积可用于提取图像的特征,也可用于在图像中加入特征。
卷积层(conv layer),其包括一个或多个卷积核,用于对输入图像进行卷积以得到输出图像。其中,不同卷积核可用于依次对图像进行卷积,也可用于对图像的不同部分进行卷积,也可用于对不同图像进行卷积(即每个卷积层可有多个输入),也可根据图像的具体状况决定使用哪些卷积核进行卷积。
激励层,其也称激活层,用于对卷积层的输出做非线性映射,是卷积的常规处理之一。激励层通常隐含包括在卷积层中,具体可用的激励层函数包括RELU、sigmoid等。
标准化层:
标准化层用于对卷积层输出的图像进行标准化处理,故通常可隐含的包括在卷积层中。例如,标准化层可采用Instance Normalization函数,Instance Normalization函数根据每个图像自身的均值和方差,对该图像进行标准化:假设mini-batch的尺寸为T,某卷积层输出的图像数量为C,每个图像均为H行W列的矩阵,则图像的shape为(T,C,W,H),则Instance Normalization函数的标准化公式如下:
其中,xtijk为某卷积层输出的图像集合中的第t个patch、第i个图像、第j列、第k行的值,ytijk表示xtijk输入Instance Normalization函数得到的结果,ε为一个很小的正数,用于避免分母为0。
下采样(subsampled),其用于采集输入图像的特征,并产生尺寸(尺度)减小的输出图像。
池化层(pooling),其是一种具体的下采样形式,具体可用于的池化层包括max-pooling、avg-polling、decimation、demuxout等不同形式。
上采样(upsampling),其用于向输入图像中插入更多的数据,从而产生尺寸(尺度)增大的输出图像。
MUXER层,其是一种具体的上采样方式,可通过不同的排列组合增加输入图像的信息,例如,图5示出了一个2*2的Muxer层,其可使图像尺寸增大4倍。
其中,关于Muxer层的更具体内容可参见公开号分别为CN107124609A和CN107122826A的中国专利,在此不再详细描述。
Bicubic采样,其也称双三次插值采样,是一种具体的采样方式,根据不同需要其可为Bicubic下采样(D-Bicubic采样),也可为Bicubic上采样(U-Bicubic采样),其具体是采用双三次插值进行上采样或下采样。
神经网络:
神经网络是一种对问题进行处理的方式,其包括多个隐藏层,每个隐藏层中具有多个神经元(节点),相邻的不同层间的神经元相互连接,且不同神经元间的连接具有不同权重,从而构成模拟人脑神经网络的结构,可通过非确定性的方式处理问题。
通过训练(即向神经网络大量输入问题并产生结果,再将对这些结果的评价反馈到神经网路中),可对神经网络中的参数进行调整,从而使神经网络具有越来越强的处理特定问题能力。
卷积神经网络:
卷积神经网络是一种深度前馈人工神经网络,包括多个卷积层、上采样层、下采样层等,每个卷积层均可用于对图像进行处理,而上采样层和下采样层可改变图像的尺寸(尺度),从而使不同卷积层可在不同尺度上对图像进行处理,以便为图像添加不同尺度的特征或提取其中不同尺度的特征。
其中,通过相应的训练,可对卷积神经网络的各卷积层中的卷积核、偏置、权重等进行调整,从而使卷积神经网络可用于图像识别、从图像中提取特征、向图像中添加特征等不同领域。
RGB颜色空间,其是一种颜色编码形式,其中每个像素均具有红色分量R、绿色分量G、蓝色分量B。
YUV颜色空间,其是一种颜色编码形式,其通过Y分量表示明亮度,U分量表示色度,V分量表示浓度。
YUV422和YUV420:
它们是两种具体的YUV颜色空间形式,其每个像素均具有Y分量,而多个像素公用一组通过抽取产生的UV分量;例如,YUV422是每2个像素共用一组UV分量,YUV420是每4个像素共用一组UV分量。具体的,假设2行8个像素的原始信息如下:
[Y0 U0 V0][Y1 U1 V1][Y2 U2 V2][Y3 U3 V3]
[Y4 U4 V4][Y5 U5 V5][Y6 U6 V6][Y7 U7 V7];
则对YUV420,其实际存留的信息为:
Y0U0 Y1 Y2U2 Y3
Y4V4 Y5 Y6V6 Y7;
由此映射出的像素为:
[Y0 U0 V4][Y1 U0 V4][Y2 U2 V6][Y3 U2 V6]
[Y4 U0 V4][Y5 U0 V4][Y6 U2 V7][Y7 U2 V6]。
其中,相对于Y分量(亮度),人眼对UV分量(色度和浓度)的敏感度较低,即UV分量对显示效果的影响较小,因此,根据YUV422和YUV420可减少对UV分量的采样数量,以降低图像的数据量和相应的运算量。
融合单元,其用于将YUV颜色空间(如分别来自Y通道、U通道、V通道的Y分量、U分量、V分量数据)融合并转换成为RGB颜色空间,其具体可为Merge单元等,而其进行转换的标准公式可如下:
分析网络:
分析网络是一种标准的用于进行特征提取的深度神经网络(其相当于图像分类网络中的特征提取部分),其可包括多个依次连接的、不同尺度的卷积层,以及设于相邻卷积层间的下采样单元;下采样单元用于将其输入转变为下一卷积层的尺度的输出。
如图6所示,分析网络包括多个卷积层和下采样层(如池化层),从而每个卷积层的都可在不同尺度上提取特征(输出为特征图像)。
内容损失:
内容损失用于评价两个图像的内容的相似程度,这两个图像分别可通过分析网络对第一图像和第二图像进行内容特征提取得到。
其中,假设分析网络的卷积层l具有Nl个卷积核,其输出包含Nl个特征图像,每个特征图像的尺寸都是Ml,这样该卷积层l的输出可存储在矩阵中,其中表示卷积层l中第i个卷积核输出的特征图像中第j个位置的值。具体的,假设第一图像和第二图像在分析网络的卷积层l输出的特征图像分别为Pl和Fl,则第一图像和第二图像的内容损失定义如下:
其中,C1为常数,其用于对结果进行标准化(归一化)处理。
风格损失:
风格损失用于评价两组图像的风格的相似程度,这两组图像分别可通过分析网络对第一图像和第二图像进行风格特征提取得到。
其中,根据以上定义的卷积层l可得到其输出的Gram矩阵:
其中,假设第一图像和第二图像在分析网络的卷积层l输出的Gram矩阵分别为Al和Gl,则它们在卷积层l的风格损失定义如下:
其中,C2为常数,其用于对结果进行标准化(归一化)处理;
而最终第一图像和第二图像的总的风格损失定义为:
其中wl为卷积层l的风格损失的权重。
L1损失:
卷积神经网络中,卷积核和偏置都通过训练得到,卷积核决定如何对输入图像进行处理,而偏置决定该卷积核的输出是否真正输入到下一个层,即偏置起到类似“开关”的作用,针对不同的输入图像,可打开或关闭不同的卷积核对其进行处理,以实现不同的处理效果。
为了更有效的发挥偏置的“开关”的作用,故期望偏置相对卷积核具有更大的“比例”,由此L1损失定义如下:
W为所有卷积核w的绝对值的均值,其定义如下:
B为所有偏置b的绝对值的均值,其定义如下:
可见,偏置的绝对值的均值相对越大,则L1损失的值越小。
卷积神经网络
本发明的转变图像风格的方法使用卷积神经网络进行,下面对具体使用的卷积神经网络的结构进行介绍。
卷积神经网络包括至少一个通道,每个通道包括依次连接的下采样段、密集连接段、上采样段;其中,
下采样段包括交替设置的至少一个下采样单元和至少一个卷积层,所述下采样单元用于将其输入转变为下一尺度的输出;
密集连接段包括至少一个密集连接卷积网络模块,每个密集连接卷积网络模块包括多个依次连接的、具有卷积层的卷积块,每个卷积块的输出均为其后所有卷积块的输入,且也为密集连接卷积网络模块的输出,密集连接卷积网络模块的输入为其中所有卷积块的输入;
上采样段包括交替设置的至少一个上采样单元和至少一个卷积层,所述上采样单元用于将其输入转变为下一尺度的输出;
同一通道的下采样段中的下采样单元与上采样段中的上采样单元数量相等且相互对应。
该卷积神经网络是通过采用特定风格图像(即一幅风格图像)训练得到的,其中的各卷积核可用于将该风格图像的风格特征添加到输入的图像中。由此,当一幅原始图像被输入到卷积神经网络中处理得到结果图像后,则该结果图像在保持原始图像的内容(如图像中的风景、物体、人物等)的情况下,还会具有以上风格图像的艺术风格(如素描风格、浮世绘风格、梵高风格等),也就是实现了图像风格的转变,或者说其将一幅图像的内容与另一幅图像的风格结合在了一起。
当然,由于每个卷积神经网络是通过特定的风格图像训练得到的,故其只能用于将图像转变为与该风格图像对应的特定风格(但可用于对很多不同图像进行风格转变)。如果要将某幅图像转变为不同风格,则需要训练并使用不同的卷积神经网络。
如图7所示,每个卷积神经网络包括至少一个通道,在从输入至输出的方向上,而每个通道又分为下采样段、密集连接段、上采样段三部分,即输入卷积神经网络的图像会依次经过下采样段、密集连接段、上采样段后再被输出。
其中,下采样段包括交替设置的下采样单元和卷积层,即其中不能存在连续设置的下采样单元或卷积层,但并不代表下采样单元或卷积层的必须是一对一的关系。
其中,不同卷积层(卷积层隐含包括激励层和标准化层,在此不再详细描述)具有不同的尺度,其用于通过卷积核对特定尺度的图像进行处理。之所以如此,是因为图像的不同特征(如纹理、边缘、物体等)在不同尺度下的表现是不同的,故对不同特征适于分别在不同尺度处理。
而下采样单元(如池化层)用于减小图像的尺寸,以使从其输出的图像尺度降低,符合下一尺度的卷积层的要求。
类似的,上采样段中也包括采样单元和卷积层,区别在上采样段的采样单元是上采样单元(如MUXER层),其用于图像放大至符合下一卷积层要求的尺度。
而且,同一通道中的下采样单元与的上采样单元是数量相等(例如,如图7所示均为2个)且相互对应,以保证卷积神经网络输出的图像与输入的图像具有相同的尺寸。
在本发明的卷积神经网络中,在每个通道的上采样段和下采样段之间还具有密集连接段,密集连接段包括至少一个密集连接卷积网络模块。每个密集连接卷积网络模块包括多个依次连接的卷积块(Dense Block),每个卷积块包括至少一个卷积层,如图8所示,与常规的多个卷积层不同,在密集连接卷积网络模块中的每个卷积块的输出不是仅输入至下一卷积块,而是同时输出给其后所有的卷积块,相应的,每个卷积块的输入也都是其之前的所有卷积块的输出。
经研究发现,通过采用以上密集连接卷积网络模块,可大幅提高图像风格转变的运算效率,同时可使训练过程的收敛速度提高,从而加快训练过程。
可选的,密集连接段包括多个依次连接的密集连接卷积网络模块。
也就是说,该密集连接段中也可包括多个密集连接卷积网络模块,每个密集连接卷积网络模块都具有以上的结构。
可选的,每个卷积块包括依次连接的第一卷积层和第二卷积层,其中第一卷积层包含一个1*1的卷积核,第二卷积层包含一个3*3的卷积核。
也就是说,每个卷积块可包括两个卷积层,其中第一卷积层为1*1的卷积,其也称bottleneck层,用于对数据进行降维,减少后续处理量;而第二卷积层为3*3的卷积,其也称convolution层,用于进行实际的卷积操作。由此,每个卷积块也可称为一个“B+C块”。
可选的,下采样段还包括:至少一个跨尺度连接,其用于对一个下采样单元的输出进行下采样,并将下采样结果输入到至少向后跨越一个尺度的卷积层中;
和/或,
上采样段还包括:至少一个跨尺度连接,其用于对一个上采样单元的输出进行上采样,并将上采样结果输入到至少向后跨越一个尺度的卷积层中。
进一步可选的,下采样段的跨尺度连接的下采样为D-Bicubic采样;上采样段的跨尺度连接的上采样为U-Bicubic采样。
任何卷积过程都必然造成一定的信息损失,为降低该损失对处理效果的影响,可如图7所示,直接对某个采样单元的输出进行采样,并将采样结果输出至同段中向后跨越至少一个尺度的卷积层中;例如,如图7所示,对下采样段中第一个下采样单元的输出进行下采样后,直接将其输入至第三尺度的卷积层中。
由此,部分卷积层之间实现了“跨尺度的连接”,即卷积层除接收来自原本依次处理而得到的输出外,还接收来自其之前的跨尺度的输出,而该跨尺度的输出经历的处理量较少,故信息损失也小。由此,以上“跨尺度连接”减少了信息的损失,可充分利用不同尺度的特征,进一步提高运算效率和训练的收敛速度。
显然,由于在下采样段中的尺度是逐渐降低的,故其中的跨尺度连接中应采用下采样,如D-Bicubic采样;而在上采样段中的尺度是逐渐增大的,故其中的跨尺度连接中应采用上采样,如U-Bicubic采样,在此不再详细描述。
可选的,卷积神经网络还包括:至少一个跨段连接,其用于将下采样段的一个尺度的卷积层的输出输入至上采样段的对应尺度的卷积层中。
也就是说,在卷积神经网络中,上采样段和下采样段中的相同尺度的卷积层间也可通过跨段连接相连。例如,如图7所示,Y通道的下采样段的第一尺度的卷积层的输出可直接输入至上采样段的第一尺度的卷积层中,且下采样段的第二尺度的卷积层的输出可直接输入至上采样段的第二尺度的卷积层。
可见,通过以上方式,也可使卷积层接收到经过的处理较少的输入,从而减少信息损失,充分利用不同尺度的特征,进一步提高运算效率和训练的收敛速度。
可选的,卷积神经网络包括多个通道,该多个通道包括:分别对应图像的YUV颜色空间的Y分量、U分量、V分量的Y通道、U通道、V通道,YUV颜色空间为YUV420或YUV422。
也就是说,该卷积神经网络中可采用YUV420或YUV422的编码格式进行处理,即其中相当于进行了“色度抽样”,且图像的YUV分量会分别进入相应的Y通道、U通道、V通道进行处理。由此,该卷积神经网络中处理的数据量较少,相应的运算量也较低,可提高处理速度。同时,由于UV分量相对而言对显示的影响较小,故以上方式并不会对处理效果造成明显的影响。
其中,输入该卷积神经网络的图像通常是采用RGB颜色空间的,但由于卷积神经网络采用的是深度学习的方式,故其训练完成后自然能将RGB颜色空间的信息转变到Y通道、U通道、V通道中。或者说,如果其进行的风格转变不正确,则其训练结果也就会一直不合格,从而无法完成训练。
进一步可选的,Y通道的下采样段中包括最大尺度的卷积层,且上采样段中包括的最大尺度的卷积层;
U通道、V通道的下采样段中无最大尺度的卷积层,其第二大尺度的卷积层前仅包括下采样单元;
U通道、V通道的下采样段中无最大尺度的卷积层,其第二大尺度的卷积层后仅包括上采样单元。
也就是说,如图7所示,Y通道在最大尺度(第一尺度)上具有卷积层,即其中对最大尺度的图像进行卷积处理。而在U通道和V通道中,并没有最大尺度的卷积层,而只有相应的采样单元(如标准上采样单元、标准下采样单元);即U通道和V通道中,并不对最大尺度的图像进行卷积处理,而只最大尺度上进行采样,以得到能供第二大尺度(即第二尺度)的卷积层处理的图像(针对下采样段),并将第二大尺度的卷积层输出的图像转变为最大尺度(针对上采样段)。
这是因为,UV分量相对而言对显示影响较小,故可省略其中最大尺度(即分辨率最高)的卷积处理,故其中不包括第一尺度的卷积层,而这样既不会对处理结果造成明显影响,又可大幅减少运算量,提高处理速度。
而由于Y分量对显示的影响最明显,故相应的Y通道中不应进行以上的省略,因此Y通道的上采样段和下采样段均包括第一尺度的卷积层。
进一步可选的,Y通道、U通道、V通道的输出连接融合单元,融合单元用于将YUV颜色空间转变为RGB颜色空间。
也就是说,本发明的卷积神经网络中还可包括融合单元,其用于将Y通道、U通道、V通道的输出的YUV颜色空间的数据融合并转变为比较常用的RGB颜色空间的数据。由此,卷积神经网络最终输出的是RGB颜色空间的数据,根据这些数据可得到最终输出的图像。
当然,如果没有融合单元,卷积神经网络就是输出YUV颜色空间的数据,也是可行的。
转变图像风格的方法
本发明的转变图像风格的方法采用以上卷积神经网络进行,其中,若卷积神经网络还未训练完成,则需要先对其进行训练;而若卷积神经网络已经训练完成了,则即可直接用其处理图像。
具体的,如图9所示,转变图像风格的方法可包括:
S01、建立卷积神经网络。
也就是说,根据以上描述的卷积神经网络的结构,建立初始的卷积神经网络,应当理解,此时的卷积神经网络中的所有参数均处于初始状态,故其无法实现转变图像风格的功能。
S02、选定一幅风格图像。
也就是说,选定用于训练卷积神经网络的特定的风格图像(例如图2),在训练过程中,仅采用这一幅风格图像,故训练完成后,卷积神经网络就可用于将其它图像的风格转变为该风格图像的风格。
S03、将风格图像输入分析网络中提取其风格特征。
也就是说,将风格图像输入以上分析网络中,用分析网络从中提取出代表该图像的风格的特征。应当理解,此时的风格特征是指图像的细节具有哪些特征(如整体偏向什么颜色、线条的整体类型、相邻像素间的颜色关系等),而不是代表风格的标签(如不是认定该图像属于梵高风格)。
可选的,图像的风格特征包括多个卷积层的输出。
也就是说,如图6所示,以上分析网络的多个尺度的卷积层的输出均可作为风格特征,故每幅图像的风格特征实际包括多幅特征图像。之所以如此,是因为图像的不同方面的风格特征(如纹理、边缘等)分别在不同尺度体现的最为明显,故以上方法可全面提取图像各方面的风格特征。
S04、从训练图像集合中选择一幅图像为内容图像,并将被选择的图像从训练图像集合中除去。
也就是说,从大量的备选图像(训练图像集合)中选择(如随机选择)一幅作为内容图像,用于进行训练,并将被选中的图像除去,以免其被再次选中。
S05、将内容图像输入卷积神经网络中处理得到训练图像。
也就是说,将内容图像输入当前的卷积神经网络中进行处理(即用当前的卷积神经网络对内容图像进行风格转变),得到的结果为训练图像。当然,应当理解,由于此时卷积神经网络尚未训练完成,故此时其风格转变的效果并不好,训练图像的内容和风格与期望一般有较大的差异,当然,该差异整体上会随着训练的进行逐渐较小(但不一定是单调降低)。
S06、将内容图像输入分析网络中提取其内容特征。
也就是说,将内容图像也输入以上分析网络中,以提取代表其内容的特征,即图像中具有什么内容(如有什么物体、什么人等)。应当理解,此时的内容特征也是由提取出的特征图像的实际内容决定的,而不是产生内容标签(即不是认定图像中有一个人和两个苹果)。
可选的,图像的内容特征为一个设定的卷积层的输出。
也就是说,如图6所示,以上内容特征为分析网络的一个选定的卷积层的输出的特征图像。之所以如此,是因为内容是“整体性”的,即不论图像在什么尺度,其中的内容都应当是基本相同的,故可只用一幅特征图像作为内容特征。
S07、将训练图像输入分析网络中提取其内容特征和风格特征。
也就是说,将以上得到的训练图像也输入分析网络中,并提取其内容特征和风格特征。
应当理解,此时提取的内容特征和风格特征的数量和提取的尺度,应当是与以上内容图像的内容特征和风格图像的风格特征分别对应的。
S08、通过损失函数对内容图像的内容特征与训练图像的内容特征进行比较,并对风格图像的风格特征与训练图像的风格特征进行比较,得到损失。
如前,训练图像的内容特征不可能与内容图像的内容特征完全相同,其风格特征也不可能与风格图像的内容特征完全相同,即这两组特征均应具有一定的差异,而该差异是由于卷积神经网络的处理过程导致的,其体现了卷积神经网络的缺陷。
因此,可通过损失函数对以上两差异进行计算,从而得出表示两差异大小的参数,即得出处理过程造成的“损失”,而通过分析该损失,即可知道当前卷积神经网络在哪些方面还存在缺陷,还需要如何进行调整。
可选的,损失包括L1损失。
也就是说,损失可包括以上的L1损失LL1,而通过采用L1损失LL1,可尽快的使卷积核和偏置具有合适的相对大小,以缩短训练时间。
可选的,损失还包括内容损失和风格损失。
也就是说,损失还可包括以上的内容损失Lcontent和风格损失Lstyle,以更准确的评价图像之间的差别。
当然,在具有多个损失时,这些损失可分别独立的存在并分别用于卷积神经网络的调整;或者,它们也可综合成一个总损失Ltotal,例如总损失Ltotal可定义如下:
Ltotal=αLcontent+βLstyle+χLL1;
其中α、β、χ分别为内容损失、风格损失和L1损失的权重。
S09、根据损失调整卷积神经网络。
如前,以上损失体现了当前的卷积神经网络的缺陷,故可根据其对卷积神经网络进行调整(优化),以使其具有更好的处理效果。当然,对于卷积神经网络,该调整也是以深度学习方式实现的,而不是通过严格的逻辑关系进行调整。
S10、判断当前是否满足预设结束条件,若是则结束训练,若否则返回从训练图像集合中选择一幅图像为内容图像的步骤,继续用重新选取的内容图像进行训练。
也就是说,在完成本次处理后,判断当前的训练状况是否满足预设结束条件:若是,则表明训练已经完成,故可结束训练,并可开始用卷积神经网络进行实际的图像处理;若否,则表示训练还未还未完成,故应返回以上S04步骤,重新从训练图像集合中选择新的内容图像(因本次选取的内容图像已经被去除,故下次选的图像必然是新的),并根据该新的内容图像重新得出损失,以及根据损失再次调整卷积神经网络。如此重复,相当于通过大量内容图像循环进行训练,从而可将风格图像的风格越来越好的融入卷积神经网络中,并可使卷积神经网络能对越来越多的内容进行良好的处理,从而在最终训练完成后,卷积神经网络可对大多数图像都完成效果较好的风格转变。
其中,预设结束条件(即结束训练的条件)可采用多种不同的方式:例如,预设结束条件可以是损失收敛;或者,预设结束条件也可以是损失持续稳定在预定值以下;或者,预设结束条件也可以是训练图像集合中的全部图像都已训练完成(或者说是循环达到预定次数)。
当然,在结束训练后,卷积神经网络即可用于实际进行风格转变。由此,若判断训练已结束,则可继续进行以下的步骤。
S11、将原始图像输入卷积神经网络中处理得到结果图像。
也就是说,在卷积神经网络的训练完成后,可将实际需要进行风格转变的图像(原始图像)输入其中,从而将该图像转变为具有以上风格图像的风格的图像(结果图像)。
当然,应当理解,卷积神经网络训练完成后可用于对很多图像进行风格转变;因此,不是每次进行风格转变(S11步骤)都要单独预先完成以上的训练步骤。
当然,应当理解,以上方法中的部分步骤间并无必然的顺序关系,只要不影响方法的进行即可;例如,提取内容图像的内容特征步骤和提取训练图像的内容特征的步骤也可互换,只要它们都在计算损失的步骤之前完成即可。
本发明的风格转变方法可获得更好的风格转变效果。例如,当要将图1所示的图像转变为具有图2的风格的图像时,采用本发明的方法得到的图像为图4,可见,图4明显比采用Prisma软件得到的图3更符合图2的风格,且图4与图1间的内容差别也远小于图3与图1间的内容差别,这表明本发明的风格转变方法确实可获得更好的转变效果。
同时,本发明的风格转变方法还具有更快的处理速度。例如,用以上论文JustinJohnson.Perceptual Losses for Real-Time Style Transfer and Super-Resolution.arXiv:1603:08155作为对比技术,处理不同分辨率的图像,其和采用本发明的方法进行处理的耗时如下表1所示。
表1、不同方法的处理时间表
可见,采用本发明的方法进行风格转变的耗时明显小于对比技术的耗时,甚至本发明的方法可处理部分对比技术无法处理(发生内存溢出)的图像。这表明,本发明的方法可减少运算量,从而提高处理速度。
转变图像风格的装置
本发明还提供一种转变图像风格的装置,其包括:
存储有程序的存储器;
执行器,其用于运行存储器中存储的程序,以进行上述的转变图像风格的方法。
也就是说,可将用于进行以上转变图像风格的方法的程序(卷积神经网络)存储在一定的存储器(如硬盘等)中,再配合一定的执行器(如CPU),即可构成能执行以上方法的转变图像风格的装置。
卷积神经网络处理器
本发明还提供一种卷积神经网络处理器,用于用卷积神经网络转变图像风格,其中,卷积神经网络包括至少一个通道,每个通道包括依次连接的下采样段、密集连接段、上采样段;其中,
下采样段包括交替设置的至少一个下采样单元和至少一个卷积层,下采样单元用于将其输入转变为下一尺度的输出;
密集连接段包括至少一个密集连接卷积网络模块,每个密集连接卷积网络模块包括多个依次连接的、具有卷积层的卷积块,每个卷积块的输出均为其后所有卷积块的输入,且也为密集连接卷积网络模块的输出,密集连接卷积网络模块的输入为其中所有卷积块的输入;
上采样段包括交替设置的至少一个上采样单元和至少一个卷积层,上采样单元用于将其输入转变为下一尺度的输出;
同一通道的下采样段中的下采样单元与上采样段中的上采样单元数量相等且相互对应。
也就是说,也可设置设有数据处理功能的处理器(如CPU),其可利用以上的卷积神经网络转变图像风格。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (14)
1.一种转变图像风格的方法,包括将原始图像输入卷积神经网络中处理得到结果图像,其特征在于,所述卷积神经网络包括至少一个通道,每个通道包括依次连接的下采样段、密集连接段、上采样段;其中,
下采样段包括交替设置的至少一个下采样单元和至少一个卷积层,所述下采样单元用于将其输入转变为下一尺度的输出;
密集连接段包括至少一个密集连接卷积网络模块,每个密集连接卷积网络模块包括多个依次连接的、具有卷积层的卷积块,每个卷积块的输出均为其后所有卷积块的输入,且也为密集连接卷积网络模块的输出,密集连接卷积网络模块的输入为其中所有卷积块的输入;
上采样段包括交替设置的至少一个上采样单元和至少一个卷积层,所述上采样单元用于将其输入转变为下一尺度的输出;
同一通道的下采样段中的下采样单元与上采样段中的上采样单元数量相等且相互对应。
2.根据权利要求1所述的转变图像风格的方法,其特征在于,
每个所述卷积块包括依次连接的第一卷积层和第二卷积层,其中第一卷积层包含一个1*1的卷积核,第二卷积层包含一个3*3的卷积核。
3.根据权利要求1所述的转变图像风格的方法,其特征在于,
所述下采样段还包括:至少一个跨尺度连接,其用于对一个下采样单元的输出进行下采样,并将下采样结果输入到至少向后跨越一个尺度的卷积层中;
和/或,
所述上采样段还包括:至少一个跨尺度连接,其用于对一个上采样单元的输出进行上采样,并将上采样结果输入到至少向后跨越一个尺度的卷积层中。
4.根据权利要求3所述的转变图像风格的方法,其特征在于,
所述下采样段的跨尺度连接的下采样为D-Bicubic采样;
所述上采样段的跨尺度连接的上采样为U-Bicubic采样。
5.根据权利要求1所述的转变图像风格的方法,其特征在于,所述卷积神经网络还包括:
至少一个跨段连接,其用于将下采样段的一个尺度的卷积层的输出输入至上采样段的对应尺度的卷积层中。
6.根据权利要求1所述的转变图像风格的方法,其特征在于,所述卷积神经网络包括多个通道,所述多个通道包括:
分别对应图像的YUV颜色空间的Y分量、U分量、V分量的Y通道、U通道、V通道,所述YUV颜色空间为YUV420或YUV422。
7.根据权利要求6所述的转变图像风格的方法,其特征在于,
所述Y通道的下采样段中包括最大尺度的卷积层,且上采样段中包括的最大尺度的卷积层;
所述U通道、V通道的下采样段中无最大尺度的卷积层,其第二大尺度的卷积层前仅包括下采样单元;
所述U通道、V通道的下采样段中无最大尺度的卷积层,其第二大尺度的卷积层后仅包括上采样单元。
8.根据权利要求6所述的转变图像风格的方法,其特征在于,
所述Y通道、U通道、V通道的输出连接融合单元,所述融合单元用于将YUV颜色空间转变为RGB颜色空间。
9.根据权利要求1所述的转变图像风格的方法,其特征在于,在所述将原始图像输入卷积神经网络中处理得到结果图像前,还包括对卷积神经网络进行训练,所述训练包括:
选定一幅风格图像,将所述风格图像输入分析网络中提取其风格特征;
从训练图像集合中选择一幅图像为内容图像,并将被选择的图像从训练图像集合中除去;
将所述内容图像输入卷积神经网络中处理得到训练图像;将所述内容图像输入所述分析网络中提取其内容特征;
将所述训练图像输入所述分析网络中提取其内容特征和风格特征;
通过损失函数对内容图像的内容特征与训练图像的内容特征进行比较,并对风格图像的风格特征与训练图像的风格特征进行比较,得到损失;
根据所述损失调整卷积神经网络;
判断当前是否满足预设结束条件,若是则结束训练,若否则返回所述从训练图像集合中选择一幅图像为内容图像的步骤,继续用重新选取的内容图像进行训练。
11.根据权利要求9所述的转变图像风格的方法,其特征在于,所述分析网络包括:
多个依次连接的、不同尺度的卷积层,以及设于相邻卷积层间的下采样单元;所述下采样单元用于将其输入转变为下一卷积层的尺度的输出。
12.根据权利要求11所述的转变图像风格的方法,其特征在于,
所述图像的风格特征包括多个卷积层的输出;
所述图像的内容特征为一个设定的卷积层的输出。
13.一种转变图像风格的装置,其特征在于,包括:
存储有程序的存储器;
执行器,其用于运行存储器中存储的程序,以进行权利要求1至12中任意一项所述的转变图像风格的方法。
14.一种卷积神经网络处理器,用于用卷积神经网络转变图像风格,其特征在于,所述卷积神经网络包括至少一个通道,每个通道包括依次连接的下采样段、密集连接段、上采样段;其中,
下采样段包括交替设置的至少一个下采样单元和至少一个卷积层,所述下采样单元用于将其输入转变为下一尺度的输出;
密集连接段包括至少一个密集连接卷积网络模块,每个密集连接卷积网络模块包括多个依次连接的、具有卷积层的卷积块,每个卷积块的输出均为其后所有卷积块的输入,且也为密集连接卷积网络模块的输出,密集连接卷积网络模块的输入为其中所有卷积块的输入;
上采样段包括交替设置的至少一个上采样单元和至少一个卷积层,所述上采样单元用于将其输入转变为下一尺度的输出;
同一通道的下采样段中的下采样单元与上采样段中的上采样单元数量相等且相互对应。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811123875.5A CN110956575B (zh) | 2018-09-26 | 2018-09-26 | 转变图像风格的方法和装置、卷积神经网络处理器 |
EP19850717.0A EP3857502A4 (en) | 2018-09-26 | 2019-03-22 | COMPUTER-IMPLEMENTED METHOD, DEVICE AND COMPUTER PROGRAM PRODUCT |
PCT/CN2019/079242 WO2020062809A1 (en) | 2018-09-26 | 2019-03-22 | Computer-implemented method, apparatus, and computer-program product |
US16/492,873 US11842267B2 (en) | 2018-09-26 | 2019-03-22 | Computer-implemented method using a neural network comprising down-sampling segment, densely connected segment, and up-sampling segment, apparatus, and computer-program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811123875.5A CN110956575B (zh) | 2018-09-26 | 2018-09-26 | 转变图像风格的方法和装置、卷积神经网络处理器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110956575A true CN110956575A (zh) | 2020-04-03 |
CN110956575B CN110956575B (zh) | 2022-04-12 |
Family
ID=69949565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811123875.5A Active CN110956575B (zh) | 2018-09-26 | 2018-09-26 | 转变图像风格的方法和装置、卷积神经网络处理器 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11842267B2 (zh) |
EP (1) | EP3857502A4 (zh) |
CN (1) | CN110956575B (zh) |
WO (1) | WO2020062809A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111494946A (zh) * | 2020-04-23 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及计算机可读存储介质 |
CN112241941A (zh) * | 2020-10-20 | 2021-01-19 | 北京字跳网络技术有限公司 | 获取图像的方法、装置、设备和计算机可读介质 |
CN112766277A (zh) * | 2021-02-07 | 2021-05-07 | 普联技术有限公司 | 卷积神经网络模型的通道调整方法、装置和设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106910192A (zh) * | 2017-03-06 | 2017-06-30 | 长沙全度影像科技有限公司 | 一种基于卷积神经网络的图像融合效果评估方法 |
CN106991646A (zh) * | 2017-03-28 | 2017-07-28 | 福建帝视信息科技有限公司 | 一种基于密集连接网络的图像超分辨率方法 |
CN107730474A (zh) * | 2017-11-09 | 2018-02-23 | 京东方科技集团股份有限公司 | 图像处理方法、处理装置和处理设备 |
CN107767343A (zh) * | 2017-11-09 | 2018-03-06 | 京东方科技集团股份有限公司 | 图像处理方法、处理装置和处理设备 |
CN107767408A (zh) * | 2017-11-09 | 2018-03-06 | 京东方科技集团股份有限公司 | 图像处理方法、处理装置和处理设备 |
WO2018042388A1 (en) * | 2016-09-02 | 2018-03-08 | Artomatix Ltd. | Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures |
CN107862287A (zh) * | 2017-11-08 | 2018-03-30 | 吉林大学 | 一种前方小区域物体识别及车辆预警方法 |
CN107958246A (zh) * | 2018-01-17 | 2018-04-24 | 深圳市唯特视科技有限公司 | 一种基于新型端到端人脸超分辨率网络的图像对齐方法 |
US20180197037A1 (en) * | 2015-09-17 | 2018-07-12 | Boe Technology Group Co., Ltd. | Image upsampling system, training method thereof and image upsampling method |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9836820B2 (en) | 2016-03-03 | 2017-12-05 | Mitsubishi Electric Research Laboratories, Inc. | Image upsampling using global and local constraints |
CN106157307B (zh) * | 2016-06-27 | 2018-09-11 | 浙江工商大学 | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 |
US10354362B2 (en) * | 2016-09-08 | 2019-07-16 | Carnegie Mellon University | Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network |
CN108205813B (zh) * | 2016-12-16 | 2022-06-03 | 微软技术许可有限责任公司 | 基于学习网络的图像风格化 |
CN106651766A (zh) * | 2016-12-30 | 2017-05-10 | 深圳市唯特视科技有限公司 | 一种基于深度卷积神经网络的图像风格迁移方法 |
CN107124609A (zh) | 2017-04-27 | 2017-09-01 | 京东方科技集团股份有限公司 | 一种视频图像的处理系统、其处理方法及显示装置 |
CN107122826B (zh) | 2017-05-08 | 2019-04-23 | 京东方科技集团股份有限公司 | 用于卷积神经网络的处理方法和系统、和存储介质 |
US11308361B1 (en) * | 2017-07-07 | 2022-04-19 | Twitter, Inc. | Checkerboard artifact free sub-pixel convolution |
WO2019031410A1 (ja) * | 2017-08-10 | 2019-02-14 | シャープ株式会社 | 画像フィルタ装置、画像復号装置、および画像符号化装置 |
CN109426858B (zh) | 2017-08-29 | 2021-04-06 | 京东方科技集团股份有限公司 | 神经网络、训练方法、图像处理方法及图像处理装置 |
US10824907B2 (en) * | 2017-12-07 | 2020-11-03 | Shanghai United Imaging Healthcare Co., Ltd. | Systems and methods for image processing |
US11409994B2 (en) * | 2018-05-15 | 2022-08-09 | Shenzhen University | Methods for image segmentation, computer devices, and storage mediums |
US10304193B1 (en) * | 2018-08-17 | 2019-05-28 | 12 Sigma Technologies | Image segmentation and object detection using fully convolutional neural network |
EP3617947A1 (en) * | 2018-08-30 | 2020-03-04 | Nokia Technologies Oy | Apparatus and method for processing image data |
US10547823B2 (en) * | 2018-09-25 | 2020-01-28 | Intel Corporation | View interpolation of multi-camera array images with flow estimation and image super resolution using deep learning |
-
2018
- 2018-09-26 CN CN201811123875.5A patent/CN110956575B/zh active Active
-
2019
- 2019-03-22 WO PCT/CN2019/079242 patent/WO2020062809A1/en unknown
- 2019-03-22 US US16/492,873 patent/US11842267B2/en active Active
- 2019-03-22 EP EP19850717.0A patent/EP3857502A4/en active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180197037A1 (en) * | 2015-09-17 | 2018-07-12 | Boe Technology Group Co., Ltd. | Image upsampling system, training method thereof and image upsampling method |
WO2018042388A1 (en) * | 2016-09-02 | 2018-03-08 | Artomatix Ltd. | Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures |
CN106910192A (zh) * | 2017-03-06 | 2017-06-30 | 长沙全度影像科技有限公司 | 一种基于卷积神经网络的图像融合效果评估方法 |
CN106991646A (zh) * | 2017-03-28 | 2017-07-28 | 福建帝视信息科技有限公司 | 一种基于密集连接网络的图像超分辨率方法 |
CN107862287A (zh) * | 2017-11-08 | 2018-03-30 | 吉林大学 | 一种前方小区域物体识别及车辆预警方法 |
CN107730474A (zh) * | 2017-11-09 | 2018-02-23 | 京东方科技集团股份有限公司 | 图像处理方法、处理装置和处理设备 |
CN107767343A (zh) * | 2017-11-09 | 2018-03-06 | 京东方科技集团股份有限公司 | 图像处理方法、处理装置和处理设备 |
CN107767408A (zh) * | 2017-11-09 | 2018-03-06 | 京东方科技集团股份有限公司 | 图像处理方法、处理装置和处理设备 |
CN107958246A (zh) * | 2018-01-17 | 2018-04-24 | 深圳市唯特视科技有限公司 | 一种基于新型端到端人脸超分辨率网络的图像对齐方法 |
Non-Patent Citations (2)
Title |
---|
LEON A. GATYS ET AL.: "Image Style Transfer Using Convolutional Neural Networks", 《20161 IEEE CVPR》 * |
XINTAO WANG ET AL.: "ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks", 《ARXIV:1809.00219V2[CS.CV]》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111494946A (zh) * | 2020-04-23 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及计算机可读存储介质 |
CN111494946B (zh) * | 2020-04-23 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及计算机可读存储介质 |
CN112241941A (zh) * | 2020-10-20 | 2021-01-19 | 北京字跳网络技术有限公司 | 获取图像的方法、装置、设备和计算机可读介质 |
CN112241941B (zh) * | 2020-10-20 | 2024-03-22 | 北京字跳网络技术有限公司 | 获取图像的方法、装置、设备和计算机可读介质 |
CN112766277A (zh) * | 2021-02-07 | 2021-05-07 | 普联技术有限公司 | 卷积神经网络模型的通道调整方法、装置和设备 |
Also Published As
Publication number | Publication date |
---|---|
EP3857502A1 (en) | 2021-08-04 |
EP3857502A4 (en) | 2022-08-31 |
US11842267B2 (en) | 2023-12-12 |
US20210326691A1 (en) | 2021-10-21 |
WO2020062809A1 (en) | 2020-04-02 |
CN110956575B (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102640237B1 (ko) | 이미지 프로세싱 방법, 장치, 전자 디바이스 및 컴퓨터 판독가능 저장 매체 | |
US11908102B2 (en) | Image processing method and device, training method of neural network, and storage medium | |
CN110310221B (zh) | 一种基于生成对抗网络的多域图像风格迁移方法 | |
EP3678059B1 (en) | Image processing method, image processing apparatus, and a neural network training method | |
CN111767979B (zh) | 神经网络的训练方法、图像处理方法、图像处理装置 | |
CN109191382B (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN108734659B (zh) | 一种基于多尺度标签的亚像素卷积图像超分辨率重建方法 | |
AU2019202063B2 (en) | Synthesizing new font glyphs from partial observations | |
CN110956575B (zh) | 转变图像风格的方法和装置、卷积神经网络处理器 | |
CN113902921B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN113255837A (zh) | 工业环境下基于改进的CenterNet网络目标检测方法 | |
CN112991493A (zh) | 基于vae-gan和混合密度网络的灰度图像着色方法 | |
CN113298235A (zh) | 一种多分支深度自注意力变换网络的神经网络架构及实现方法 | |
US20220301106A1 (en) | Training method and apparatus for image processing model, and image processing method and apparatus | |
CN114170657A (zh) | 融合注意力机制与高阶特征表示的面部情感识别方法 | |
CN111724309B (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
CN116977822A (zh) | 一种融合CNN与Transformer模型的图像识别网络 | |
Oyama et al. | Fully convolutional densenet for saliency-map prediction | |
CN116468083A (zh) | 一种基于Transformer的生成对抗网络方法 | |
CN111767842B (zh) | 基于迁移学习和自编码器数据增强的微表情种类判别方法 | |
CN113436094A (zh) | 一种基于多视角注意力机制的灰度图像自动上色方法 | |
Islam et al. | Class aware auto encoders for better feature extraction | |
CN111899161A (zh) | 一种超分辨率重建方法 | |
CN112132253A (zh) | 3d动作识别方法、装置、计算机可读存储介质及设备 | |
CN114140786B (zh) | 基于HRNet编码与双分支解码的场景文本识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |