CN110956575A

CN110956575A - 转变图像风格的方法和装置、卷积神经网络处理器

Info

Publication number: CN110956575A
Application number: CN201811123875.5A
Authority: CN
Inventors: 刘瀚文; 那彦波; 张丽杰; 朱丹
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2020-04-03
Anticipated expiration: 2038-09-26
Also published as: EP3857502A1; EP3857502A4; US11842267B2; US20210326691A1; WO2020062809A1; CN110956575B

Abstract

本发明提供一种转变图像风格的方法和装置、卷积神经网络处理器，属于风格转变技术领域，其可至少部分解决现有的转变图像风格的方法转变效果不好或转变时间长的问题。本发明的转变图像风格采用的卷积神经网络包括的每个通道中，下采样段包括下采样单元和卷积层，下采样单元用于将其输入转变为下一尺度的输出；密集连接段包括至少一个密集连接卷积网络模块，每个密集连接卷积网络模块包括多个依次连接的、具有卷积层的卷积块，每个卷积块的输出均为其后所有卷积块的输入，且为密集连接卷积网络模块的输出，密集连接卷积网络模块的输入为其中所有卷积块的输入；上采样段包括上采样单元和卷积层，上采样单元用于将其输入转变为下一尺度的输出。

Description

转变图像风格的方法和装置、卷积神经网络处理器

技术领域

本发明属于图像风格转变技术领域，具体涉及一种转变图像风格的方法和装置、卷积神经网络处理器。

背景技术

在图像处理、艺术等领域中，可能需要将一幅图像转变(或称迁移)为具有其它风格的图像，即在保持图像内容(如图像中的风景、物体、人物等)不变的情况下，使图像具有不同的风格(包括艺术种类的风格、艺术家的风格、艺术流派的风格等，如素描风格、浮世绘风格、梵高风格等)。

现在有一些软件可用于转变图像风格，如Prisma、Atisto等。但这些软件的转变效果并不好，其也可通过简单的Photoshop处理实现。例如，若用Prisma软件将图1的图像转变为具有图2的风格的图像时，其结果如图3所示，可见图3的风格与图2的风格并不接近，且内容相差也比较大，说明其转变效果不好。

也有一些技术通过深度学习的卷积神经网络实现图像风格转变，例如以下论文：Justin Johnson.Perceptual Losses for Real-Time Style Transfer and Super-Resolution.arXiv:1603:08155。但是，这些技术采用的卷积神经网络结构复杂，所需处理的数据量大，导致其运行速度慢、转变耗时长。

发明内容

本发明至少部分解决现有的转变图像风格的方法转变效果不好或转变时间长的问题，提供一种可在短时间内实现良好转变效果的转变图像风格的方法和装置、卷积神经网络处理器。

解决本发明技术问题所采用的技术方案是一种转变图像风格的方法，包括将原始图像输入卷积神经网络中处理得到结果图像；所述卷积神经网络包括至少一个通道，每个通道包括依次连接的下采样段、密集连接段、上采样段；其中，

下采样段包括交替设置的至少一个下采样单元和至少一个卷积层，所述下采样单元用于将其输入转变为下一尺度的输出；

密集连接段包括至少一个密集连接卷积网络模块，每个密集连接卷积网络模块包括多个依次连接的、具有卷积层的卷积块，每个卷积块的输出均为其后所有卷积块的输入，且也为密集连接卷积网络模块的输出，密集连接卷积网络模块的输入为其中所有卷积块的输入；

上采样段包括交替设置的至少一个上采样单元和至少一个卷积层，所述上采样单元用于将其输入转变为下一尺度的输出；

同一通道的下采样段中的下采样单元与上采样段中的上采样单元数量相等且相互对应。

可选的，每个所述卷积块包括依次连接的第一卷积层和第二卷积层，其中第一卷积层包含一个1*1的卷积核，第二卷积层包含一个3*3的卷积核。

可选的，所述下采样段还包括：至少一个跨尺度连接，其用于对一个下采样单元的输出进行下采样，并将下采样结果输入到至少向后跨越一个尺度的卷积层中；

和/或，

所述上采样段还包括：至少一个跨尺度连接，其用于对一个上采样单元的输出进行上采样，并将上采样结果输入到至少向后跨越一个尺度的卷积层中。

进一步可选的，所述下采样段的跨尺度连接的下采样为D-Bicubic采样；

所述上采样段的跨尺度连接的上采样为U-Bicubic采样。

可选的，所述卷积神经网络还包括：

至少一个跨段连接，其用于将下采样段的一个尺度的卷积层的输出输入至上采样段的对应尺度的卷积层中。

可选的，所述卷积神经网络包括多个通道，所述多个通道包括：

分别对应图像的YUV颜色空间的Y分量、U分量、V分量的Y通道、U通道、V通道，所述YUV颜色空间为YUV420或YUV422。

进一步可选的，所述Y通道的下采样段中包括最大尺度的卷积层，且上采样段中包括的最大尺度的卷积层；

所述U通道、V通道的下采样段中无最大尺度的卷积层，其第二大尺度的卷积层前仅包括下采样单元；

所述U通道、V通道的下采样段中无最大尺度的卷积层，其第二大尺度的卷积层后仅包括上采样单元。

进一步可选的，所述Y通道、U通道、V通道的输出连接融合单元，所述融合单元用于将YUV颜色空间转变为RGB颜色空间。

可选的，在所述将原始图像输入卷积神经网络中处理得到结果图像前，还包括对卷积神经网络进行训练，所述训练包括：

选定一幅风格图像，将所述风格图像输入分析网络中提取其风格特征；

从训练图像集合中选择一幅图像为内容图像，并将被选择的图像从训练图像集合中除去；

将所述内容图像输入卷积神经网络中处理得到训练图像；将所述内容图像输入所述分析网络中提取其内容特征；

将所述训练图像输入所述分析网络中提取其内容特征和风格特征；

通过损失函数对内容图像的内容特征与训练图像的内容特征进行比较，并对风格图像的风格特征与训练图像的风格特征进行比较，得到损失；

根据所述损失调整卷积神经网络；

判断当前是否满足预设结束条件，若是则结束训练，若否则返回所述从训练图像集合中选择一幅图像为内容图像的步骤，继续用重新选取的内容图像进行训练。

进一步可选的，所述损失包括L1损失、内容损失、风格损失；

所述L1损失

其中，ε为正数；

所有卷积核w的绝对值的均值

其中C_w为卷积核的总数；

所有偏置b的绝对值的均值

其中C_b为偏置的总数。

进一步可选的，所述分析网络包括：

多个依次连接的、不同尺度的卷积层，以及设于相邻卷积层间的下采样单元；所述下采样单元用于将其输入转变为下一卷积层的尺度的输出。

进一步可选的，所述图像的风格特征包括多个卷积层的输出；

所述图像的内容特征为一个设定的卷积层的输出。

解决本发明技术问题所采用的技术方案是一种转变图像风格的装置，其包括：

存储有程序的存储器；

执行器，其用于运行存储器中存储的程序，以进行上述的转变图像风格的方法。

解决本发明技术问题所采用的技术方案是一种卷积神经网络处理器，用于用卷积神经网络转变图像风格；所述卷积神经网络包括至少一个通道，每个通道包括依次连接的下采样段、密集连接段、上采样段；其中，

附图说明

图1为本发明实施例中的一幅待进行风格转变的图像；

图2为本发明实施例中的一幅风格图像；

图3为采用Prisma软件对图1进行转变得到的图像；

图4为采用本发明的方法对图1进行转变得到的图像；

图5为一种Muxer层的原理示意图；

图6为本发明实施例中采用的一种分析网络的结构示意图；

图7为本发明实施例中采用的卷积神经网络的结构示意图；

图8为本发明实施例中采用的密集连接卷积网络模块的结构示意图；

图9为本发明的实施例的一种转变图像风格的方法流程示意图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。

术语解释

以下对本实施例中用到的技术术语进行解释：

卷积核，其是一个二维的数据矩阵，每个点具有一定的数值，用于进行卷积。

卷积(convolution)，其是利用卷积核对图像进行处理的方法，其将输入图像各像素的值(如灰度值)与卷积核上对应点的数值相乘，然后将所有乘积相加作为卷积核中间点对应的输出像素的灰度值；通过使卷积核在图像上滑动，即可得到一幅输出图像。根据卷积核的不同，卷积可用于提取图像的特征，也可用于在图像中加入特征。

卷积层(conv layer)，其包括一个或多个卷积核，用于对输入图像进行卷积以得到输出图像。其中，不同卷积核可用于依次对图像进行卷积，也可用于对图像的不同部分进行卷积，也可用于对不同图像进行卷积(即每个卷积层可有多个输入)，也可根据图像的具体状况决定使用哪些卷积核进行卷积。

激励层，其也称激活层，用于对卷积层的输出做非线性映射，是卷积的常规处理之一。激励层通常隐含包括在卷积层中，具体可用的激励层函数包括RELU、sigmoid等。

标准化层：

标准化层用于对卷积层输出的图像进行标准化处理，故通常可隐含的包括在卷积层中。例如，标准化层可采用Instance Normalization函数，Instance Normalization函数根据每个图像自身的均值和方差，对该图像进行标准化：假设mini-batch的尺寸为T，某卷积层输出的图像数量为C，每个图像均为H行W列的矩阵，则图像的shape为(T,C,W,H)，则Instance Normalization函数的标准化公式如下：

其中，x_tijk为某卷积层输出的图像集合中的第t个patch、第i个图像、第j列、第k行的值，y_tijk表示x_tijk输入Instance Normalization函数得到的结果，ε为一个很小的正数，用于避免分母为0。

下采样(subsampled)，其用于采集输入图像的特征，并产生尺寸(尺度)减小的输出图像。

池化层(pooling)，其是一种具体的下采样形式，具体可用于的池化层包括max-pooling、avg-polling、decimation、demuxout等不同形式。

上采样(upsampling)，其用于向输入图像中插入更多的数据，从而产生尺寸(尺度)增大的输出图像。

MUXER层，其是一种具体的上采样方式，可通过不同的排列组合增加输入图像的信息，例如，图5示出了一个2*2的Muxer层，其可使图像尺寸增大4倍。

其中，关于Muxer层的更具体内容可参见公开号分别为CN107124609A和CN107122826A的中国专利，在此不再详细描述。

Bicubic采样，其也称双三次插值采样，是一种具体的采样方式，根据不同需要其可为Bicubic下采样(D-Bicubic采样)，也可为Bicubic上采样(U-Bicubic采样)，其具体是采用双三次插值进行上采样或下采样。

神经网络：

神经网络是一种对问题进行处理的方式，其包括多个隐藏层，每个隐藏层中具有多个神经元(节点)，相邻的不同层间的神经元相互连接，且不同神经元间的连接具有不同权重，从而构成模拟人脑神经网络的结构，可通过非确定性的方式处理问题。

通过训练(即向神经网络大量输入问题并产生结果，再将对这些结果的评价反馈到神经网路中)，可对神经网络中的参数进行调整，从而使神经网络具有越来越强的处理特定问题能力。

卷积神经网络：

卷积神经网络是一种深度前馈人工神经网络，包括多个卷积层、上采样层、下采样层等，每个卷积层均可用于对图像进行处理，而上采样层和下采样层可改变图像的尺寸(尺度)，从而使不同卷积层可在不同尺度上对图像进行处理，以便为图像添加不同尺度的特征或提取其中不同尺度的特征。

其中，通过相应的训练，可对卷积神经网络的各卷积层中的卷积核、偏置、权重等进行调整，从而使卷积神经网络可用于图像识别、从图像中提取特征、向图像中添加特征等不同领域。

RGB颜色空间，其是一种颜色编码形式，其中每个像素均具有红色分量R、绿色分量G、蓝色分量B。

YUV颜色空间，其是一种颜色编码形式，其通过Y分量表示明亮度，U分量表示色度，V分量表示浓度。

YUV422和YUV420：

它们是两种具体的YUV颜色空间形式，其每个像素均具有Y分量，而多个像素公用一组通过抽取产生的UV分量；例如，YUV422是每2个像素共用一组UV分量，YUV420是每4个像素共用一组UV分量。具体的，假设2行8个像素的原始信息如下：

[Y0 U0 V0][Y1 U1 V1][Y2 U2 V2][Y3 U3 V3]

[Y4 U4 V4][Y5 U5 V5][Y6 U6 V6][Y7 U7 V7]；

则对YUV420，其实际存留的信息为：

Y0U0 Y1 Y2U2 Y3

Y4V4 Y5 Y6V6 Y7；

由此映射出的像素为：

[Y0 U0 V4][Y1 U0 V4][Y2 U2 V6][Y3 U2 V6]

[Y4 U0 V4][Y5 U0 V4][Y6 U2 V7][Y7 U2 V6]。

其中，相对于Y分量(亮度)，人眼对UV分量(色度和浓度)的敏感度较低，即UV分量对显示效果的影响较小，因此，根据YUV422和YUV420可减少对UV分量的采样数量，以降低图像的数据量和相应的运算量。

融合单元，其用于将YUV颜色空间(如分别来自Y通道、U通道、V通道的Y分量、U分量、V分量数据)融合并转换成为RGB颜色空间，其具体可为Merge单元等，而其进行转换的标准公式可如下：

分析网络：

分析网络是一种标准的用于进行特征提取的深度神经网络(其相当于图像分类网络中的特征提取部分)，其可包括多个依次连接的、不同尺度的卷积层，以及设于相邻卷积层间的下采样单元；下采样单元用于将其输入转变为下一卷积层的尺度的输出。

如图6所示，分析网络包括多个卷积层和下采样层(如池化层)，从而每个卷积层的都可在不同尺度上提取特征(输出为特征图像)。

内容损失：

内容损失用于评价两个图像的内容的相似程度，这两个图像分别可通过分析网络对第一图像和第二图像进行内容特征提取得到。

其中，假设分析网络的卷积层l具有N_l个卷积核，其输出包含N_l个特征图像，每个特征图像的尺寸都是M_l，这样该卷积层l的输出可存储在矩阵

中，其中

表示卷积层l中第i个卷积核输出的特征图像中第j个位置的值。具体的，假设第一图像和第二图像在分析网络的卷积层l输出的特征图像分别为P^l和F^l，则第一图像和第二图像的内容损失定义如下：

其中，C1为常数，其用于对结果进行标准化(归一化)处理。

风格损失：

风格损失用于评价两组图像的风格的相似程度，这两组图像分别可通过分析网络对第一图像和第二图像进行风格特征提取得到。

其中，根据以上定义的卷积层l可得到其输出的Gram矩阵：

其中，假设第一图像和第二图像在分析网络的卷积层l输出的Gram矩阵分别为A^l和G^l，则它们在卷积层l的风格损失定义如下：

其中，C2为常数，其用于对结果进行标准化(归一化)处理；

而最终第一图像和第二图像的总的风格损失定义为：

其中w_l为卷积层l的风格损失的权重。

L1损失：

卷积神经网络中，卷积核和偏置都通过训练得到，卷积核决定如何对输入图像进行处理，而偏置决定该卷积核的输出是否真正输入到下一个层，即偏置起到类似“开关”的作用，针对不同的输入图像，可打开或关闭不同的卷积核对其进行处理，以实现不同的处理效果。

为了更有效的发挥偏置的“开关”的作用，故期望偏置相对卷积核具有更大的“比例”，由此L1损失定义如下：

其中，ε为很小的正数，用于保证分母不为0；

W为所有卷积核w的绝对值的均值，其定义如下：

其中C_w为卷积核的总数；

B为所有偏置b的绝对值的均值，其定义如下：

其中C_b为偏置的总数。

可见，偏置的绝对值的均值相对越大，则L1损失的值越小。

卷积神经网络

本发明的转变图像风格的方法使用卷积神经网络进行，下面对具体使用的卷积神经网络的结构进行介绍。

卷积神经网络包括至少一个通道，每个通道包括依次连接的下采样段、密集连接段、上采样段；其中，

该卷积神经网络是通过采用特定风格图像(即一幅风格图像)训练得到的，其中的各卷积核可用于将该风格图像的风格特征添加到输入的图像中。由此，当一幅原始图像被输入到卷积神经网络中处理得到结果图像后，则该结果图像在保持原始图像的内容(如图像中的风景、物体、人物等)的情况下，还会具有以上风格图像的艺术风格(如素描风格、浮世绘风格、梵高风格等)，也就是实现了图像风格的转变，或者说其将一幅图像的内容与另一幅图像的风格结合在了一起。

当然，由于每个卷积神经网络是通过特定的风格图像训练得到的，故其只能用于将图像转变为与该风格图像对应的特定风格(但可用于对很多不同图像进行风格转变)。如果要将某幅图像转变为不同风格，则需要训练并使用不同的卷积神经网络。

如图7所示，每个卷积神经网络包括至少一个通道，在从输入至输出的方向上，而每个通道又分为下采样段、密集连接段、上采样段三部分，即输入卷积神经网络的图像会依次经过下采样段、密集连接段、上采样段后再被输出。

其中，下采样段包括交替设置的下采样单元和卷积层，即其中不能存在连续设置的下采样单元或卷积层，但并不代表下采样单元或卷积层的必须是一对一的关系。

其中，不同卷积层(卷积层隐含包括激励层和标准化层，在此不再详细描述)具有不同的尺度，其用于通过卷积核对特定尺度的图像进行处理。之所以如此，是因为图像的不同特征(如纹理、边缘、物体等)在不同尺度下的表现是不同的，故对不同特征适于分别在不同尺度处理。

而下采样单元(如池化层)用于减小图像的尺寸，以使从其输出的图像尺度降低，符合下一尺度的卷积层的要求。

类似的，上采样段中也包括采样单元和卷积层，区别在上采样段的采样单元是上采样单元(如MUXER层)，其用于图像放大至符合下一卷积层要求的尺度。

而且，同一通道中的下采样单元与的上采样单元是数量相等(例如，如图7所示均为2个)且相互对应，以保证卷积神经网络输出的图像与输入的图像具有相同的尺寸。

在本发明的卷积神经网络中，在每个通道的上采样段和下采样段之间还具有密集连接段，密集连接段包括至少一个密集连接卷积网络模块。每个密集连接卷积网络模块包括多个依次连接的卷积块(Dense Block)，每个卷积块包括至少一个卷积层，如图8所示，与常规的多个卷积层不同，在密集连接卷积网络模块中的每个卷积块的输出不是仅输入至下一卷积块，而是同时输出给其后所有的卷积块，相应的，每个卷积块的输入也都是其之前的所有卷积块的输出。

经研究发现，通过采用以上密集连接卷积网络模块，可大幅提高图像风格转变的运算效率，同时可使训练过程的收敛速度提高，从而加快训练过程。

可选的，密集连接段包括多个依次连接的密集连接卷积网络模块。

也就是说，该密集连接段中也可包括多个密集连接卷积网络模块，每个密集连接卷积网络模块都具有以上的结构。

可选的，每个卷积块包括依次连接的第一卷积层和第二卷积层，其中第一卷积层包含一个1*1的卷积核，第二卷积层包含一个3*3的卷积核。

也就是说，每个卷积块可包括两个卷积层，其中第一卷积层为1*1的卷积，其也称bottleneck层，用于对数据进行降维，减少后续处理量；而第二卷积层为3*3的卷积，其也称convolution层，用于进行实际的卷积操作。由此，每个卷积块也可称为一个“B+C块”。

可选的，下采样段还包括：至少一个跨尺度连接，其用于对一个下采样单元的输出进行下采样，并将下采样结果输入到至少向后跨越一个尺度的卷积层中；

和/或，

上采样段还包括：至少一个跨尺度连接，其用于对一个上采样单元的输出进行上采样，并将上采样结果输入到至少向后跨越一个尺度的卷积层中。

进一步可选的，下采样段的跨尺度连接的下采样为D-Bicubic采样；上采样段的跨尺度连接的上采样为U-Bicubic采样。

任何卷积过程都必然造成一定的信息损失，为降低该损失对处理效果的影响，可如图7所示，直接对某个采样单元的输出进行采样，并将采样结果输出至同段中向后跨越至少一个尺度的卷积层中；例如，如图7所示，对下采样段中第一个下采样单元的输出进行下采样后，直接将其输入至第三尺度的卷积层中。

由此，部分卷积层之间实现了“跨尺度的连接”，即卷积层除接收来自原本依次处理而得到的输出外，还接收来自其之前的跨尺度的输出，而该跨尺度的输出经历的处理量较少，故信息损失也小。由此，以上“跨尺度连接”减少了信息的损失，可充分利用不同尺度的特征，进一步提高运算效率和训练的收敛速度。

显然，由于在下采样段中的尺度是逐渐降低的，故其中的跨尺度连接中应采用下采样，如D-Bicubic采样；而在上采样段中的尺度是逐渐增大的，故其中的跨尺度连接中应采用上采样，如U-Bicubic采样，在此不再详细描述。

可选的，卷积神经网络还包括：至少一个跨段连接，其用于将下采样段的一个尺度的卷积层的输出输入至上采样段的对应尺度的卷积层中。

也就是说，在卷积神经网络中，上采样段和下采样段中的相同尺度的卷积层间也可通过跨段连接相连。例如，如图7所示，Y通道的下采样段的第一尺度的卷积层的输出可直接输入至上采样段的第一尺度的卷积层中，且下采样段的第二尺度的卷积层的输出可直接输入至上采样段的第二尺度的卷积层。

可见，通过以上方式，也可使卷积层接收到经过的处理较少的输入，从而减少信息损失，充分利用不同尺度的特征，进一步提高运算效率和训练的收敛速度。

可选的，卷积神经网络包括多个通道，该多个通道包括：分别对应图像的YUV颜色空间的Y分量、U分量、V分量的Y通道、U通道、V通道，YUV颜色空间为YUV420或YUV422。

也就是说，该卷积神经网络中可采用YUV420或YUV422的编码格式进行处理，即其中相当于进行了“色度抽样”，且图像的YUV分量会分别进入相应的Y通道、U通道、V通道进行处理。由此，该卷积神经网络中处理的数据量较少，相应的运算量也较低，可提高处理速度。同时，由于UV分量相对而言对显示的影响较小，故以上方式并不会对处理效果造成明显的影响。

其中，输入该卷积神经网络的图像通常是采用RGB颜色空间的，但由于卷积神经网络采用的是深度学习的方式，故其训练完成后自然能将RGB颜色空间的信息转变到Y通道、U通道、V通道中。或者说，如果其进行的风格转变不正确，则其训练结果也就会一直不合格，从而无法完成训练。

进一步可选的，Y通道的下采样段中包括最大尺度的卷积层，且上采样段中包括的最大尺度的卷积层；

U通道、V通道的下采样段中无最大尺度的卷积层，其第二大尺度的卷积层前仅包括下采样单元；

U通道、V通道的下采样段中无最大尺度的卷积层，其第二大尺度的卷积层后仅包括上采样单元。

也就是说，如图7所示，Y通道在最大尺度(第一尺度)上具有卷积层，即其中对最大尺度的图像进行卷积处理。而在U通道和V通道中，并没有最大尺度的卷积层，而只有相应的采样单元(如标准上采样单元、标准下采样单元)；即U通道和V通道中，并不对最大尺度的图像进行卷积处理，而只最大尺度上进行采样，以得到能供第二大尺度(即第二尺度)的卷积层处理的图像(针对下采样段)，并将第二大尺度的卷积层输出的图像转变为最大尺度(针对上采样段)。

这是因为，UV分量相对而言对显示影响较小，故可省略其中最大尺度(即分辨率最高)的卷积处理，故其中不包括第一尺度的卷积层，而这样既不会对处理结果造成明显影响，又可大幅减少运算量，提高处理速度。

而由于Y分量对显示的影响最明显，故相应的Y通道中不应进行以上的省略，因此Y通道的上采样段和下采样段均包括第一尺度的卷积层。

进一步可选的，Y通道、U通道、V通道的输出连接融合单元，融合单元用于将YUV颜色空间转变为RGB颜色空间。

也就是说，本发明的卷积神经网络中还可包括融合单元，其用于将Y通道、U通道、V通道的输出的YUV颜色空间的数据融合并转变为比较常用的RGB颜色空间的数据。由此，卷积神经网络最终输出的是RGB颜色空间的数据，根据这些数据可得到最终输出的图像。

当然，如果没有融合单元，卷积神经网络就是输出YUV颜色空间的数据，也是可行的。

转变图像风格的方法

本发明的转变图像风格的方法采用以上卷积神经网络进行，其中，若卷积神经网络还未训练完成，则需要先对其进行训练；而若卷积神经网络已经训练完成了，则即可直接用其处理图像。

具体的，如图9所示，转变图像风格的方法可包括：

S01、建立卷积神经网络。

也就是说，根据以上描述的卷积神经网络的结构，建立初始的卷积神经网络，应当理解，此时的卷积神经网络中的所有参数均处于初始状态，故其无法实现转变图像风格的功能。

S02、选定一幅风格图像。

也就是说，选定用于训练卷积神经网络的特定的风格图像(例如图2)，在训练过程中，仅采用这一幅风格图像，故训练完成后，卷积神经网络就可用于将其它图像的风格转变为该风格图像的风格。

S03、将风格图像输入分析网络中提取其风格特征。

也就是说，将风格图像输入以上分析网络中，用分析网络从中提取出代表该图像的风格的特征。应当理解，此时的风格特征是指图像的细节具有哪些特征(如整体偏向什么颜色、线条的整体类型、相邻像素间的颜色关系等)，而不是代表风格的标签(如不是认定该图像属于梵高风格)。

可选的，图像的风格特征包括多个卷积层的输出。

也就是说，如图6所示，以上分析网络的多个尺度的卷积层的输出均可作为风格特征，故每幅图像的风格特征实际包括多幅特征图像。之所以如此，是因为图像的不同方面的风格特征(如纹理、边缘等)分别在不同尺度体现的最为明显，故以上方法可全面提取图像各方面的风格特征。

S04、从训练图像集合中选择一幅图像为内容图像，并将被选择的图像从训练图像集合中除去。

也就是说，从大量的备选图像(训练图像集合)中选择(如随机选择)一幅作为内容图像，用于进行训练，并将被选中的图像除去，以免其被再次选中。

S05、将内容图像输入卷积神经网络中处理得到训练图像。

也就是说，将内容图像输入当前的卷积神经网络中进行处理(即用当前的卷积神经网络对内容图像进行风格转变)，得到的结果为训练图像。当然，应当理解，由于此时卷积神经网络尚未训练完成，故此时其风格转变的效果并不好，训练图像的内容和风格与期望一般有较大的差异，当然，该差异整体上会随着训练的进行逐渐较小(但不一定是单调降低)。

S06、将内容图像输入分析网络中提取其内容特征。

也就是说，将内容图像也输入以上分析网络中，以提取代表其内容的特征，即图像中具有什么内容(如有什么物体、什么人等)。应当理解，此时的内容特征也是由提取出的特征图像的实际内容决定的，而不是产生内容标签(即不是认定图像中有一个人和两个苹果)。

可选的，图像的内容特征为一个设定的卷积层的输出。

也就是说，如图6所示，以上内容特征为分析网络的一个选定的卷积层的输出的特征图像。之所以如此，是因为内容是“整体性”的，即不论图像在什么尺度，其中的内容都应当是基本相同的，故可只用一幅特征图像作为内容特征。

S07、将训练图像输入分析网络中提取其内容特征和风格特征。

也就是说，将以上得到的训练图像也输入分析网络中，并提取其内容特征和风格特征。

应当理解，此时提取的内容特征和风格特征的数量和提取的尺度，应当是与以上内容图像的内容特征和风格图像的风格特征分别对应的。

S08、通过损失函数对内容图像的内容特征与训练图像的内容特征进行比较，并对风格图像的风格特征与训练图像的风格特征进行比较，得到损失。

如前，训练图像的内容特征不可能与内容图像的内容特征完全相同，其风格特征也不可能与风格图像的内容特征完全相同，即这两组特征均应具有一定的差异，而该差异是由于卷积神经网络的处理过程导致的，其体现了卷积神经网络的缺陷。

因此，可通过损失函数对以上两差异进行计算，从而得出表示两差异大小的参数，即得出处理过程造成的“损失”，而通过分析该损失，即可知道当前卷积神经网络在哪些方面还存在缺陷，还需要如何进行调整。

可选的，损失包括L1损失。

也就是说，损失可包括以上的L1损失L_L1，而通过采用L1损失L_L1，可尽快的使卷积核和偏置具有合适的相对大小，以缩短训练时间。

可选的，损失还包括内容损失和风格损失。

也就是说，损失还可包括以上的内容损失L_content和风格损失L_style，以更准确的评价图像之间的差别。

当然，在具有多个损失时，这些损失可分别独立的存在并分别用于卷积神经网络的调整；或者，它们也可综合成一个总损失L_total，例如总损失L_total可定义如下：

L_total＝αL_content+βL_style+χL_L1；

其中α、β、χ分别为内容损失、风格损失和L1损失的权重。

S09、根据损失调整卷积神经网络。

如前，以上损失体现了当前的卷积神经网络的缺陷，故可根据其对卷积神经网络进行调整(优化)，以使其具有更好的处理效果。当然，对于卷积神经网络，该调整也是以深度学习方式实现的，而不是通过严格的逻辑关系进行调整。

S10、判断当前是否满足预设结束条件，若是则结束训练，若否则返回从训练图像集合中选择一幅图像为内容图像的步骤，继续用重新选取的内容图像进行训练。

也就是说，在完成本次处理后，判断当前的训练状况是否满足预设结束条件：若是，则表明训练已经完成，故可结束训练，并可开始用卷积神经网络进行实际的图像处理；若否，则表示训练还未还未完成，故应返回以上S04步骤，重新从训练图像集合中选择新的内容图像(因本次选取的内容图像已经被去除，故下次选的图像必然是新的)，并根据该新的内容图像重新得出损失，以及根据损失再次调整卷积神经网络。如此重复，相当于通过大量内容图像循环进行训练，从而可将风格图像的风格越来越好的融入卷积神经网络中，并可使卷积神经网络能对越来越多的内容进行良好的处理，从而在最终训练完成后，卷积神经网络可对大多数图像都完成效果较好的风格转变。

其中，预设结束条件(即结束训练的条件)可采用多种不同的方式：例如，预设结束条件可以是损失收敛；或者，预设结束条件也可以是损失持续稳定在预定值以下；或者，预设结束条件也可以是训练图像集合中的全部图像都已训练完成(或者说是循环达到预定次数)。

当然，在结束训练后，卷积神经网络即可用于实际进行风格转变。由此，若判断训练已结束，则可继续进行以下的步骤。

S11、将原始图像输入卷积神经网络中处理得到结果图像。

也就是说，在卷积神经网络的训练完成后，可将实际需要进行风格转变的图像(原始图像)输入其中，从而将该图像转变为具有以上风格图像的风格的图像(结果图像)。

当然，应当理解，卷积神经网络训练完成后可用于对很多图像进行风格转变；因此，不是每次进行风格转变(S11步骤)都要单独预先完成以上的训练步骤。

当然，应当理解，以上方法中的部分步骤间并无必然的顺序关系，只要不影响方法的进行即可；例如，提取内容图像的内容特征步骤和提取训练图像的内容特征的步骤也可互换，只要它们都在计算损失的步骤之前完成即可。

本发明的风格转变方法可获得更好的风格转变效果。例如，当要将图1所示的图像转变为具有图2的风格的图像时，采用本发明的方法得到的图像为图4，可见，图4明显比采用Prisma软件得到的图3更符合图2的风格，且图4与图1间的内容差别也远小于图3与图1间的内容差别，这表明本发明的风格转变方法确实可获得更好的转变效果。

同时，本发明的风格转变方法还具有更快的处理速度。例如，用以上论文JustinJohnson.Perceptual Losses for Real-Time Style Transfer and Super-Resolution.arXiv:1603:08155作为对比技术，处理不同分辨率的图像，其和采用本发明的方法进行处理的耗时如下表1所示。

表1、不同方法的处理时间表

可见，采用本发明的方法进行风格转变的耗时明显小于对比技术的耗时，甚至本发明的方法可处理部分对比技术无法处理(发生内存溢出)的图像。这表明，本发明的方法可减少运算量，从而提高处理速度。

转变图像风格的装置

本发明还提供一种转变图像风格的装置，其包括：

存储有程序的存储器；

也就是说，可将用于进行以上转变图像风格的方法的程序(卷积神经网络)存储在一定的存储器(如硬盘等)中，再配合一定的执行器(如CPU)，即可构成能执行以上方法的转变图像风格的装置。

卷积神经网络处理器

本发明还提供一种卷积神经网络处理器，用于用卷积神经网络转变图像风格，其中，卷积神经网络包括至少一个通道，每个通道包括依次连接的下采样段、密集连接段、上采样段；其中，

下采样段包括交替设置的至少一个下采样单元和至少一个卷积层，下采样单元用于将其输入转变为下一尺度的输出；

上采样段包括交替设置的至少一个上采样单元和至少一个卷积层，上采样单元用于将其输入转变为下一尺度的输出；

也就是说，也可设置设有数据处理功能的处理器(如CPU)，其可利用以上的卷积神经网络转变图像风格。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种转变图像风格的方法，包括将原始图像输入卷积神经网络中处理得到结果图像，其特征在于，所述卷积神经网络包括至少一个通道，每个通道包括依次连接的下采样段、密集连接段、上采样段；其中，

2.根据权利要求1所述的转变图像风格的方法，其特征在于，

每个所述卷积块包括依次连接的第一卷积层和第二卷积层，其中第一卷积层包含一个1*1的卷积核，第二卷积层包含一个3*3的卷积核。

3.根据权利要求1所述的转变图像风格的方法，其特征在于，

所述下采样段还包括：至少一个跨尺度连接，其用于对一个下采样单元的输出进行下采样，并将下采样结果输入到至少向后跨越一个尺度的卷积层中；

和/或，

4.根据权利要求3所述的转变图像风格的方法，其特征在于，

所述下采样段的跨尺度连接的下采样为D-Bicubic采样；

所述上采样段的跨尺度连接的上采样为U-Bicubic采样。

5.根据权利要求1所述的转变图像风格的方法，其特征在于，所述卷积神经网络还包括：

6.根据权利要求1所述的转变图像风格的方法，其特征在于，所述卷积神经网络包括多个通道，所述多个通道包括：

7.根据权利要求6所述的转变图像风格的方法，其特征在于，

所述Y通道的下采样段中包括最大尺度的卷积层，且上采样段中包括的最大尺度的卷积层；

8.根据权利要求6所述的转变图像风格的方法，其特征在于，

所述Y通道、U通道、V通道的输出连接融合单元，所述融合单元用于将YUV颜色空间转变为RGB颜色空间。

9.根据权利要求1所述的转变图像风格的方法，其特征在于，在所述将原始图像输入卷积神经网络中处理得到结果图像前，还包括对卷积神经网络进行训练，所述训练包括：

根据所述损失调整卷积神经网络；

10.根据权利要求9所述的转变图像风格的方法，其特征在于，

所述损失包括L1损失、内容损失、风格损失；

所述L1损失

其中，ε为正数；

所有卷积核w的绝对值的均值

其中C_w为卷积核的总数；

所有偏置b的绝对值的均值

其中C_b为偏置的总数。

11.根据权利要求9所述的转变图像风格的方法，其特征在于，所述分析网络包括：

12.根据权利要求11所述的转变图像风格的方法，其特征在于，

所述图像的风格特征包括多个卷积层的输出；

所述图像的内容特征为一个设定的卷积层的输出。

13.一种转变图像风格的装置，其特征在于，包括：

存储有程序的存储器；

执行器，其用于运行存储器中存储的程序，以进行权利要求1至12中任意一项所述的转变图像风格的方法。

14.一种卷积神经网络处理器，用于用卷积神经网络转变图像风格，其特征在于，所述卷积神经网络包括至少一个通道，每个通道包括依次连接的下采样段、密集连接段、上采样段；其中，