CN106709532A

CN106709532A - 图像处理方法和装置

Info

Publication number: CN106709532A
Application number: CN201710060897.0A
Authority: CN
Inventors: 刘瀚文; 那彦波
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2017-01-25
Filing date: 2017-01-25
Publication date: 2017-05-24
Anticipated expiration: 2037-01-25
Also published as: US10395167B2; CN106709532B; US20180211157A1

Abstract

一种图像处理方法和图像处理装置。该图像处理方法包括：使用第一卷积神经网络提取输入的第一图像的特征，以及使用第二卷积神经网络重构并输出图像。所述第一卷积神经网络包括依次连接的多个第一卷积层和间插于相邻第一卷积层之间的多个第一池化层，所述第一卷积层每个用于产生并输出第一卷积特征；第二卷积神经网络包括依次连接的多个第二卷积层和间插于相邻第二卷积层之间的多个复合层，所述复合层为上采样层。该图像处理方法可以用于例如图像的风格迁移处理。

Description

图像处理方法和装置

技术领域

本发明的实施例涉及一种图像处理方法和装置。

背景技术

当前，基于人工神经网络的深度学习技术已经在诸如图像分类、图像捕获和搜索、面部识别、年龄和语音识别等领域取得了巨大进展。深度学习的优势在于可以利用通用的结构以相对类似的系统解决非常不同的技术问题。卷积神经网络(Convolutional NeuralNetwork，CNN)是近年发展起来并引起广泛重视的一种人工神经网络，CNN是一种特殊的图像识别方式，属于非常有效的带有前向反馈的网络。现在，CNN的应用范围已经不仅仅限于图像识别领域，也可以应用在人脸识别、文字识别、图像处理等应用方向。

发明内容

本发明的至少一个实施例提供了一种图像处理方法，该方法包括：使用第一卷积神经网络提取输入的第一图像的特征，以及使用第二卷积神经网络重构并输出图像。所述第一卷积神经网络包括依次连接的多个第一卷积层和间插于相邻第一卷积层之间的多个第一池化层，所述第一卷积层每个用于产生并输出第一卷积特征；第二卷积神经网络包括依次连接的多个第二卷积层和间插于相邻第二卷积层之间的多个复合层，所述复合层为上采样层；所述第一卷积层的数量与所述第二卷积层的数量相等，最后的第一卷积层的输出被连接到最初的第二卷积层，且所述多个第二卷积层中除最初的层级外，至少之一接收对应的所述第一卷积层输出的第一卷积特征，且融合同一层级的复合层的输出以及对应的所述第一卷积层输出的第一卷积特征以得到其输出数据。

例如，在至少一个实施例的图像处理方法中，所述多个第二卷积层中除最初的层级外，每个都接收对应的所述第一卷积层输出的第一卷积特征，且融合同一层级的复合层的输出以及对应的所述第一卷积层输出的第一卷积特征以得到其输出数据。

例如，在至少一个实施例的图像处理方法中，所述复合层每个获取被输入到其中的第一数量的输入图像并将这些输入图像的像素值交织以产生所述第一数量的输出图像。

例如，根据至少一个实施例的图像处理方法，还包括使用第三卷积神经网络提取输入的第三图像的特征，其中，所述第三卷积神经网络包括依次连接的多个第三卷积层和间插于相邻第三卷积层之间的多个第三池化层，每级所述第三卷积层用于产生并输出第三卷积特征，所述第三卷积层的数量与所述第一卷积层的数量相等，并且所述多个第二卷积层中除最初的层级以及连接到所述第一卷积层的层级外，至少之一接收对应的所述第三卷积层输出的第三卷积特征，且融合其同一层级的复合层的输出以及对应的所述第三卷积层输出的第三卷积特征以得到其输出数据。

例如，根据至少一个实施例的图像处理方法，还包括对于所述多个第二卷积层中至少之一，选择使其接收对应的所述第一卷积层或对应的所述第三卷积层的输出，由此选择对应的所述第一卷积层输出的第一卷积特征或对应的所述第三卷积层输出的第三卷积特征与同一层级的复合层的输出融合以得到其输出数据。

例如，根据至少一个实施例的图像处理方法，还包括对于所述多个第二卷积层中每个，都选择使其接收对应的所述第一卷积层或对应的所述第三卷积层的输出，由此选择对应的所述第一卷积层输出的第一卷积特征或对应的所述第三卷积层输出的第三卷积特征与同一层级的复合层的输出融合以得到其输出数据。

例如，在至少一个实施例的图像处理方法中，所述第一卷积特征是内容特征，所述第三卷积特征是风格特征；或者，所述第一卷积特征是风格特征，所述第三卷积特征是内容特征。

例如，在至少一个实施例的图像处理方法中，所述第一卷积神经网络和所述第三卷积神经网络的构造相同。

本发明的至少一个实施例提供了一种图像处理装置，该装置包括：第一卷积神经网络模块和第二卷积神经网络模块。第一卷积神经网络模块用于提取输入的第一图像的特征，其中，所述第一卷积神经网络包括依次连接的多个第一卷积层和间插于相邻第一卷积层之间的多个第一池化层，所述第一卷积层每个用于产生并输出第一卷积特征；第二卷积神经网络模块用于重构并输出图像，其中，所述第二神经网络包括依次连接的多个第二卷积层和间插于相邻第二卷积层之间的多个复合层，所述复合层为上采样层；并且，所述第一卷积层的数量与所述第二卷积层的数量相等，最后的第一卷积层的输出被连接到最初的第二卷积层，且所述多个第二卷积层中除最初的层级外，至少之一接收对应的所述第一卷积层输出的第一卷积特征，且融合同一层级的复合层的输出以及对应的所述第一卷积层输出的第一卷积特征以得到其输出数据。

例如，在至少一个实施例的图像处理装置中，所述多个第二卷积层中除最初的层级外，每个都接收对应的所述第一卷积层输出的第一卷积特征，且融合同一层级的复合层的输出以及对应的所述第一卷积层输出的第一卷积特征以得到其输出数据。

例如，在至少一个实施例的图像处理装置中，所述复合层获取被输入到其中的第一数量的输入图像并将这些输入图像的像素值交织以产生所述第一数量的输出图像。

例如，根据至少一个实施例的图像处理装置还包括第三卷积神经网络模块，第三卷积神经网络模块用于提取输入的第三图像的特征，其中，所述第三卷积神经网络包括依次连接的多个第三卷积层和间插于相邻第三卷积层之间的多个第三池化层，每级所述第三卷积层用于产生并输出第三卷积特征，所述第三卷积层的数量与所述第一卷积层的数量相等；并且，所述多个第二卷积层中除最初的层级以及连接到所述第一卷积层的层级外，至少之一接收对应的所述第三卷积层输出的第三卷积特征，且融合其同一层级的复合层的输出以及对应的所述第三卷积层输出的第三卷积特征以得到其输出数据。

例如，根据至少一个实施例的图像处理装置，还包括选择模块，其中，对于所述多个第二卷积层中至少之一，通过所述选择模块配置为选择使其接收对应的所述第一卷积层或对应的所述第三卷积层的输出，由此选择对应的所述第一卷积层输出的第一卷积特征或对应的所述第三卷积层输出的第三卷积特征与同一层级的复合层的输出融合以得到其输出数据。

例如，在至少一个实施例的图像处理装置中，对于所述多个第二卷积层中每个，所述选择模块配置为选择使其接收对应的所述第一卷积层或对应的所述第三卷积层的输出，由此选择对应的所述第一卷积层输出的第一卷积特征或对应的所述第三卷积层输出的第三卷积特征与同一层级的复合层的输出融合以得到其输出数据。

例如，在至少一个实施例的图像处理装置中，所述第一卷积神经网络和所述第三卷积神经网络的构造相同。

本发明的至少一个实施例提供了一种图像处理装置，该图像处理装置包括处理器和存储器，该存储器上存储有计算机程序，所述计算机程序被所述处理器运行时可以执行根据本发明至少一实施例的图像处理方法。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本发明的一些实施例，而非对本发明的限制。

图1示出了一种神经网络的简单示意图。

图2A示出了卷积神经网络的一种典型构型；图2B抽象地示出了的卷积神经网络中一个神经元的输入与输出。

图3示出了一个使用卷积神经网络的输入图像的分析模块的示意图。

图4A和图4B分别示出了根据本发明至少一个实施例的图像处理装置和处理方法的示意图。

图5A和图5B示出了复合层的两个示例。

图6示出了根据本发明另一个实施例的图像处理方法和装置的示意图。

图7A和图7B示出了根据本发明再一个实施例的图像处理装置和方法的示意图。

图8示出了根据本发明再一个实施例的图像处理方法和装置的示意图。

图9示出了可以用于实现本公开的图像处理方法的示例性计算设备。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性连接或信号连接，不管是直接的还是间接的。

随着图像处理技术的发展，人们开始构思对图像进行风格化迁移处理的方法，例如，基于参考图像所给出的风格(style)，对输入的数字化图像进行处理以获得至少部分体现出该风格的输出图像。例如，参考图像为某个艺术家(例如梵高、莫奈等大师)的作品，输出的图像则可以在保留原有内容的同时还呈现出该艺术家作画的某些特征，甚至使人将其误认为该艺术家的作品。传统的图像处理效果(例如，instagram公司提供的各种滤镜等)无法获得这样的风格化迁移处理效果。目前，依靠最近发展起来的深度学习等技术才实现了类似的处理效果。

例如由Leon A.Gatys等人提出一种利用卷积神经网络实现图像风格迁移的方法，请参见文献，Leon A.Gatys,Alexander S.Echer,Matthias Bethge.A Neural Algorithmfor Artistic Style.arXiv:1508.06576v2[cs.CV]，2015年9月2日。在此将该文献全文引用结合于此，以作为本申请的一部分。该方法主要是基于经过训练的卷积神经网络(CNN)，对输入的图片进行了不同层次的分解，然后通过风格表达(Style Representation)和内容重建(Content Reconstruction)两个方面构建映射关系，从而进行风格迁移。该方法能够实现较好风格迁移效果，然而该方法非常复杂，需要的计算资源较多，处理速度较慢，难以实现商用化。

本发明的至少一个实施例提供了一种图像处理方法和图像处理装置，可以用于实现图像风格迁移，在处理效果和处理速度等方面得以兼顾，不但可以实现较好的风格迁移效果，而且能够以较快甚至实时的方式进行处理，具有更好、更广泛的应用前景。

图1示出了一种神经网络的简单示意图。该神经网络例如用于图像处理，使用图像作为输入和输出，例如通过滤波器(即，卷积)替代标量权重。图1中示出了具有3层的简单结构。如图1所示，在输入层101输入4个输入图像，在中间的隐藏层102存在3个单元以输出3个输出图像，而在输出层103存在2个单元以输出2个输出图像。输入层101中的具有权重的每个盒子对应于滤波器，其中k是指示输入层号的标签，并且i和j分别是指示输入和输出单元的标签。偏置是添加到卷积的输出的标量。若干卷积和偏置的相加结果然后通过激活盒，其通常对应于整流线性单元(ReLU)、S型函数或双曲正切函数。在利用卷积神经网络的图像处理系统中，各滤波器和偏置在系统的操作期间是固定的。各滤波器和偏置是预先通过使用一组输入/输出示例图像并且调整以满足依赖于应用的一些优化标准来获取的。

图2A示出了卷积神经网络的一种典型构型。图像数据通过输入层输入到卷积神经网络后，依次经过若干个处理过程(如图2A中的每个层级)后输出识别结果。每个层级的处理过程可包括：卷积(convolution)以及子采样(sub-sampling)。每个层级的处理过程根据需要还可以包括归一化处理(如图中的LCN，即local constant normalization)等。图2B抽象地示出了的卷积神经网络中一个神经元的输入与输出，如图所示，C1、C2到Cn指代不同的信号通道，针对某一个局部感受域(该局部感受域包含多个通道)，使用不同的过滤器对该局部感受域的C1到Cn信号通道上的数据进行卷积，卷积结果被输入刺激节点，该刺激节点根据相应的函数进行计算以得到特征信息。因此，卷积神经网络通常最主要的组成部分包括：多个卷积层、多个子采样层(又称为池化层)、全连接层。一个完整的卷积神经网络由这三种层叠加组成。

卷积层是卷积神经网络的核心层，对输入数据(图像)应用若干个过滤器，输入数据被用来进行多种类型的特征提取。对于输入数据应用一个过滤器之后得到的结果被称为特征图(feature map)，特征图的数目与过滤器的数目相等。一个卷积层输出的特征图可以被输入到下一个层级的卷积层再次处理以得到新的特征图。子采样层是夹在连续的卷积层之间的中间层，用于缩减输入数据的规模，也在一定程度上减小过拟合的现象。例如，输入一个12×12的图像，通过6×6的子采样，那么可以得到2×2的输出图像，这意味着原图像上的36个像素合并为输出图像中的1个像素。实现子采样的方法由很多种，这些方法包括但不限于：最大值合并(max-pooling)、平均值合并(avg-pooling)、随机合并、欠采样(decimation，例如选择固定的像素)、解复用输出(demuxout，将输入图像拆分为多个更小的图像)等。通常最后一个子采样层或卷积层连接到一个或多个全连接层，全连接层的输出作为最终输出，可得到一个一维矩阵，也就是向量。

又例如，参见图3所示的示例，最后一个卷积层(即第n个卷积层)的输出被输入到平坦化模块进行平坦化操作(Flatten)，将特征图像(2D图像)转换为向量(1D)，该向量可以被用于全连接层。该平坦化操作可以按照如下的方式进行：

v_k＝f_k/j,k％j

其中，v是包含k个元素的向量，f是具有i行j列的矩阵。

然后，平坦化模块的输出被输入到一个全连接层(FCN)，该全连接层例如可以为如图1所示的卷积网络，可使用不同的标量值以替代滤波器。

例如，也可以将最后一个卷积层(即第L个卷积层)的输出进行平均操作(AVG)，即使用特征的平均值来表示图像，由此2D特征变为一个数。如果进行平均操作，则可以不需要平坦化模块。

神经网络的输出可以采用多种形式，例如输出层的激活函数根据需要可以采用softmax函数、sigmoid函数或者tanh函数等。通过softmax函数等，每个标识(label)被赋予一定的概率，而具有最大概率的标识被选择为图像的标识或类别。

卷积神经网络的训练过程例如可以通过改进的反向传播实现，将子采样层作为考虑的因素并基于所有值来更新卷积过滤器的权重；在实践中，也可以设定前向反馈部分数据，以便调整。

图4A和图4B分别示出了根据本发明至少一个实施例的图像处理装置和处理方法的示意图。如图4A所示，该处理装置包括两个卷积神经网络：第一卷积神经网络(模块)CNN1用于提取输入的第一图像的特征，第二卷积神经网络(模块)CNN2重构(reconstruction)并输出图像。相比于图3所示的分析模块，在图4A所示的图像处理装置没有包括平坦化模块、全连接层以及Softmax模块。

如图4A所示，待处理的第一图像可以通过例如输入层(图中未示出)输入至第一卷积神经网络，经过第一卷积神经网络处理之后可以得到不同层级的特征数据(特征图像)，然后，至少部分层级的特征数据，例如最后一层的特征数据以及至少部分之前层级的特征数据，被第二卷积神经网络用于重构图像，被重构的图像从第二卷积神经网络输出。例如，该重构图像与输入的第一图像可以具有相同的分辨率，也可以具有不同的分辨率。

第一卷积神经网络CNN1包括依次连接的并列的多个第一卷积层C1-1～C1-n和间插于相邻第一卷积层之间的多个第一池化层P1-1～P1-n-1。除最后一个第一卷积层C1-n外，每个第一卷积层输出至同一层级的第一池化层，该第一池化层输出至下一层级的第一卷积层。每级第一卷积层用于产生并输出第一卷积特征。

第二卷积神经网络CNN2包括依次连接的并列的多个第二卷积层C2-n+1～C2-2n和间插于相邻第二卷积层之间的多个复合层Mn+1～M2n。除最后的卷积层C2-2n外，上一层级的卷积层输出至下一层级的复合层，该复合层输出至同一层级的卷积层。该复合层为上采样层。

第一卷积神经网络CNN1的第一卷积层的数量与第二卷积神经网络CNN2的第二卷积层的数量相等，如图4A所示，第一卷积层C1-1～C1-n与第二卷积层C2-n+1～C2-2n呈倒序一一对应；相应地，第一池化层P1-1～P1-n-1与多个复合层Mn+1～M2n呈倒序一一对应。最后的第一卷积层C1-n的输出被连接到(信号连接)到最初的第二卷积层C2-n+1，即该最后的第一卷积层C1-n输出的数据可以被输入到最初的第二卷积层C2-n+1；所述多个第二卷积层中除最初的层级外，至少之一接收对应的所述第一卷积层输出的第一卷积特征，且融合同一层级的复合层的输出以及对应的所述第一卷积层输出的第一卷积特征以得到其输出数据，这些输出数据被逐层处理以重构图像。例如，除最初的层级外，无需每个第二卷积层都接收对应的第一卷积层的输出。

又例如，该多个第二卷积层中除最初的层级外，每个都接收对应的第一卷积层输出的第一卷积特征，且融合同一层级的复合层的输出以及对应的第一卷积层输出的第一卷积特征以得到其输出数据。

如图4B所示，该实施例中相应的处理方法包括如下的步骤101和201：

步骤101：使用第一卷积神经网络提取输入的第一图像的特征；

步骤201：使用第二卷积神经网络重构并输出图像。

该复合层为卷积神经网络的上采样层(up-sampling)，用于增加输入的图像数据各个维度的值，从而增加数据量，从而可以用于实现图像的重构。

通常的上采样法包括内插法等，图5A示出了在本发明的一个实施例中采用像素差值法实现上采样的复合层的示例。在图5A的示例中，复合层采用了2×2的倍增因子，可以将4个特征图像结合得到1个具有固定像素顺序的特征图像。

在本发明的另一个实施例中，对于二维的特征图像，第二卷积神经网络的复合层获取输入的第一数量的输入图像，将这些输入图像的像素值交织(interleave)以产生相同的第一数量的输出图像。相比于输入图像(特征图像)，输出图像的数量没有改变，但是每个特征图像的大小增加相应倍数。由此，该复合层可用更多组合为下一层级的特征图像增加更多的信息，这些组合可给出所有可能的上采样组合，由此可通过激活函数从其中进行选择。

图5B根据本发明另一个实施例的采用交织方法实现上采样的复合层的示例。在图5B的示例中，复合层同样采用2×2的倍增因子，即以每4个输入图像为一组，将它们的像素值交织生成4个输出特征图像。复合层输出的特征图像的个数不变，而各特征图像的大小增加为原来的4倍，即具有原来4倍的像素数量。

现在回到图4A所示的实施例。第一卷积神经网络中从第一卷积层C1-1到C1-n，共n个层次的卷积层，n通常大于3，甚至可以上百。随着层次的增加，更高层级的卷积层提取更高阶的特征。各个第一卷积层提取的第一卷积特征可以是输入图像的内容特征。第一卷积神经网络可以采用例如AlexNet、GoogleNet、VGG、Deep Residual Learning等神经网络模型实现，提取输入图像的内容特征。例如，VGG网络系牛津大学视觉几何组(VisualGeometry Group)开发，已经在视觉识别得到广泛应用，VGG网络例如可以包括19层，并且可以对其中的一些层进行归一化处理。第二卷积神经网络中的各个第二卷积层也可以采用上述神经网络模型中的卷积层实现。

由于在该实施例中，由于多个第二卷积层中除最初的层级外，至少之一接收对应的第一卷积层输出的第一卷积特征，且融合同一层级的复合层的输出以及对应的所述第一卷积层输出的第一卷积特征以得到其输出数据，由此重构所得到的图像具有好的质量。而且，在该多个第二卷积层中除最初的层级外，每个都接收对应的第一卷积层输出的第一卷积特征，且融合同一层级的复合层的输出以及对应的第一卷积层输出的第一卷积特征以得到其输出数据的情况下，从而第二卷积神经网络输出的输出图像可以更大程度地接近输入至第一卷积神经网络的输入图像。

图6示出了根据本发明另一个实施例的图像处理方法和装置的示意图。与图4所示的实施例相比，图6的实施例还包括选择模块，以选择将第一卷积神经网络中的哪些第一卷积层的处理结果输出至第二卷积神经网络中对应的第二卷积层，以用于进一步的处理。在该实施例中，该选择模块的输入特征集例如为内容特征集C：

C＝[C₁,C₂,…,C_n-1]

选择模块的输出为特征集F：

F＝[F₁,F₂,…,F_n-1]

对于该选择模块可以定义一个筛选器集α，其中每个元素都是布尔型变量，取值为0或1：

α＝[α₁,α₂,…,α_n-1]α为0或1

并且，α的值可以预先设定，或者α的值可以经过训练和调整后得到，由此输出特征集F与输入特征集C之间的映射关系可以为：

F_x＝C_x，α_x＝1

图6所示的实施例可以根据需要灵活地选择需要输入哪些层级的特征图像以用于重构。与此相应地，对于图4B所示的图像处理方法还可以步骤：选择将第一卷积神经网络中的哪些第一卷积层的处理结果输出至第二卷积神经网络中对应的第二卷积层，以用于进一步的处理。

图7A和图7B示出了根据本发明再一个实施例的图像处理装置和方法的示意图。如图7A所示，该处理装置使用了三个卷积神经网络：第一卷积神经网络(模块)CNN1提取输入的第一图像的第一特征，第三卷积神经网络(模块)CNN3提取输入的第三图像的第三特征，第二卷积神经网络(模块)CNN2重构并输出图像。与图4A所示的实施例相比，该处理装置增加了第三卷积神经网络CNN3。

如图所示，待处理的第一图像可以通过例如第一卷积神经网络的输入层(图中未示出)输入至第一卷积神经网络，经过第一卷积神经网络处理之后可以得到不同层级的第一特征数据(特征图像)，然后最后一层第一卷积层的第一特征数据以及至少部分之前层级的第一特征数据可被第二卷积神经网络用于重构图像。相应地，待处理的第三图像可以通过例如第三卷积神经网络的输入层(图中未示出)输入至第三卷积神经网络，经过第三卷积神经网络处理之后可以得到不同层级的第二特征数据(特征图像)，然后最后一层第三卷积层的第二特征数据以及至少部分之前层级的第二特征数据也可以被第二卷积神经网络用于重构图像，被重构的图像从第二卷积神经网络输出。第一图像和第三图像可以彼此不同。因此，该实施例可以将不同的输入图像彼此融合从而产生新的输出图像。

第三卷积神经网络CNN3包括依次连接的并列的多个第三卷积层C3-1～C3-n和间插于相邻第一卷积层之间的多个第一池化层P3-1～P3-n-1。除最后一个第三卷积层C3-n外，每个第三卷积层输出至同一层级的第三池化层，该第三池化层输出至下一层级的第三卷积层。每级第三卷积层用于产生并输出第三卷积特征。

第三卷积神经网络CNN3的第三卷积层的数量与第一卷积神经网络CNN1的第一卷积层的数量相等。如图7所示，第一卷积层C1-1～C1-n与第三卷积层C3-1～C3-n一一对应；相应地，第一池化层P1-1～P1-n-1与第三池化层P3-1～P3-n-1一一对应。最后的第三卷积层C3-n的输出被连接(信号连接)到最初的第二卷积层C2-n+1，即该最后的第三卷积层C3-n输出的数据可以被输入到最初的第二卷积层C2-n+1，且所述多个第二卷积层中除最初的层级外，至少之一接收对应的所述第一卷积层输出的第一卷积特征，且融合同一层级的复合层的输出以及对应的所述第一卷积层输出的第一卷积特征以得到其输出数据，这些输出数据被逐层处理以重构图像。例如，除最初的层级外，无需每个第二卷积层都接收对应的第三卷积层的输出。同时，同一个第二卷积层不会同时接收来自对应的第一卷积层的输出和对应的第三卷积层的输出，例如如图7所示，最初的第二个卷积层C2-n+1可以接收最后一个第一卷积层C1-n或最后一个第三卷积层C3-n的输出(因此图中连接线标识为虚线)。

又例如，该多个第二卷积层中除最初的层级外，每个都要么接收对应的第一卷积层输出的第一卷积特征，要么接收对应的第二卷积层的输出，且融合同一层级的复合层的输出以及对应的第一卷积层输出的第一卷积特征或对应的第三卷积层输出的第三卷积特征以得到其输出数据，这些输出数据被逐层处理以重构图像。重构得到的输出图像例如可以与第一图像具有相同的分辨率。

第三卷积神经网络中从第三卷积层C3-1到C3-n，共n个层次的卷积层，例如各个第三卷积层提取的第三卷积特征可以是输入图像的风格特征。第三卷积神经网络也可以采用例如AlexNet、GoogleNet、VGG、Deep Residual Learning等神经网络模型实现，提取输入图像的风格特征。例如，第一卷积特征是内容特征，第三卷积特征是风格特征，或者相反。虽然如此，第一卷积神经网络和第三卷积神经网络的构造可以彼此相同，例如都为VGG网络。

为了获得输入图像的风格特征表达，可以使用设计来捕捉纹理(texture)信息的特征空间，该特征空间可以基于该卷积神经网络中任何层中的过滤器响应建立，其由不同过滤器响应之间的相关性构成。这些特征相关性可以由Gram矩阵给出，其中为第l层中向量特征图i和j之间的内积(inner product)：

通过包括多层的特征相关性，可以获得输入图像静态的多尺度(scale)表达，由此提取了输入图像的纹理信息而非全局布局，进而获得风格特征。

在一个示例中，第二卷积神经网络将源自第一卷积神经网络的第一输入图像的内容特征以及源自第三卷积神经网络的第二输入图像的风格特征进行融合，由此可以得到视觉上既表达第一输入图像的内容又呈现出第二输入图像的风格的新图像。

如图7B所示，该实施例中相应的处理方法包括如下的步骤101、102和201：

步骤102：使用第三卷积神经网络提取输入的第三图像的特征；

步骤201：使用第二卷积神经网络重构并输出图像。

图8示出了根据本发明再一个实施例的图像处理方法和装置的示意图。与图7A所示的实施例相比，图8的实施例还包括选择模块，以选择将第一卷积神经网络中的哪些第一卷积层的处理结果或第三卷积神经网络中的哪些第三卷积层的处理结果输出至第二卷积神经网络中对应的第二卷积层，以用于处理。在该实施例中，该选择模块的输入特征集例如为内容特征集C和风格特征集S：

C＝[C₁,C₂,…,C_n-1]

S＝[S₁,S₂,…,S_n-1]

选择模块的输出为特征集F：

F＝[F₁,F₂,…,F_n-1]

α＝[α₁,α₂,…,α_n-1]α为0或1

并且，α的值可以预先设定，或者经过训练和调整后得到，由此输出特征集F与输入特征集C之间的映射关系可以为：

图8所示的实施例可以根据需要灵活地选择需要输入哪些层级的特征图像以用于重构。在对应于该实施例，当图像处理装置还包括选择模块时，则对于图7B的图像处理方法还相应地包括步骤：对于所述多个第二卷积层中至少之一或每一个，选择使其接收对应的所述第一卷积层或对应的所述第三卷积层的输出，由此选择对应的所述第一卷积层输出的第一卷积特征或对应的所述第三卷积层输出的第三卷积特征与同一层级的复合层的输出融合以得到其输出数据。

图9示出了可以用于实现本公开的图像处理方法的示例性计算设备1000的图示。该计算设备1000包括执行存储在存储器1004中的指令的至少一个处理器1002。这些指令可以是例如用于实现被描述为由上述一个或多个模块执行的功能的指令或用于实现上述方法中的一个或多个步骤的指令。处理器1002可以通过系统总线1006访问存储器1004。除了存储可执行指令，存储器1004还可存储训练数据等。处理器1002可以为中央处理器(CPU)或图形处理器GPU等各种具有计算能力的器件。该CPU可以为X86或ARM处理器；GPU可单独地直接集成到主板上，或者内置于主板的北桥芯片中，也可以内置于中央处理器(CPU)上，由于其具有强大的图像处理能力，本发明实施例可优选地使用GPU对卷积神经网络进行训练以及基于卷积神经网络进行图像处理。

计算设备1000还包括可由处理器1002通过系统总线1006访问的数据存储1008。数据存储1008可包括可执行指令、多图像训练数据等。计算设备1000还包括允许外部设备与计算设备1000进行通信的输入接口1010。例如，输入接口1010可被用于从外部计算机设备、从用户等处接收指令。计算设备1000也可包括使计算设备1000和一个或多个外部设备相接口的输出接口1012。例如，计算设备1000可以通过输出接口1012显示图像等。考虑了通过输入接口1010和输出接口1012与计算设备1000通信的外部设备可被包括在提供实质上任何类型的用户可与之交互的用户界面的环境中。用户界面类型的示例包括图形用户界面、自然用户界面等。例如，图形用户界面可接受来自用户采用诸如键盘、鼠标、遥控器等之类的(诸)输入设备的输入，以及在诸如显示器之类的输出设备上提供输出。此外，自然语言界面可使得用户能够以无需受到诸如键盘、鼠标、遥控器等之类的输入设备强加的约束的方式来与计算设备1000交互。相反，自然用户界面可依赖于语音识别、触摸和指示笔识别、屏幕上和屏幕附近的手势识别、空中手势、头部和眼睛跟踪、语音和语音、视觉、触摸、手势、以及机器智能等。

另外，计算设备1000尽管图中被示出为单个系统，但可以理解，计算设备1000也可以是分布式系统，还可以布置为云设施(包括公有云或私有云)。因此，例如，若干设备可以通过网络连接进行通信并且可共同执行被描述为由计算设备1000执行的任务。

本文中描述的各功能(包括但不限于卷积神经网络模块、选择模块等)可在硬件、软件、固件或其任何组合中实现。如果在软件中实现，则这些功能可以作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机可读存储介质。计算机可读存储介质可以是能被计算机访问的任何可用存储介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能被用来承载或存储指令或数据结构形式的期望程序代码且能被计算机访问的任何其他介质。另外，所传播的信号不被包括在计算机可读存储介质的范围内。计算机可读介质还包括通信介质，其包括促成计算机程序从一地向另一地转移的任何介质。连接例如可以是通信介质。例如，如果软件使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外线、无线电、以及微波之类的无线技术来从web网站、服务器、或其它远程源传输，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外线、无线电、以及微波之类的无线技术被包括在通信介质的定义中。上述的组合应当也被包括在计算机可读介质的范围内。替换地或另选地，此处描述的功能可以至少部分由一个或多个硬件逻辑组件来执行。例如，可使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、程序专用的集成电路(ASIC)、程序专用的标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。

本发明的实施例涉及一种图像处理方法和图像处理装置在用于图像处理，例如融合两幅图像，特别是用于风格化迁移处理时，不但可以实现较好的风格迁移效果，而且能够以较快甚至实时的方式进行处理，具有更好、更广泛的应用前景。

以上所述仅是本发明的示范性实施方式，而非用于限制本发明的保护范围，本发明的保护范围由所附的权利要求确定。

Claims

1.一种图像处理方法，包括：

使用第一卷积神经网络提取输入的第一图像的特征，其中，所述第一卷积神经网络包括依次连接的多个第一卷积层和间插于相邻第一卷积层之间的多个第一池化层，所述第一卷积层每个用于产生并输出第一卷积特征；

使用第二卷积神经网络重构并输出图像，其中，第二卷积神经网络包括依次连接的多个第二卷积层和间插于相邻第二卷积层之间的多个复合层，所述复合层为上采样层；

其中，所述第一卷积层的数量与所述第二卷积层的数量相等，最后的第一卷积层的输出被连接到最初的第二卷积层，且所述多个第二卷积层中除最初的层级外，至少之一接收对应的所述第一卷积层输出的第一卷积特征，且融合同一层级的复合层的输出以及对应的所述第一卷积层输出的第一卷积特征以得到其输出数据。

2.根据权利要求1的图像处理方法，其中，所述多个第二卷积层中除最初的层级外，每个都接收对应的所述第一卷积层输出的第一卷积特征，且融合同一层级的复合层的输出以及对应的所述第一卷积层输出的第一卷积特征以得到其输出数据。

3.根据权利要求1的图像处理方法，其中，所述复合层每个获取被输入到其中的第一数量的输入图像并将这些输入图像的像素值交织以产生所述第一数量的输出图像。

4.根据权利要求1-3任一的图像处理方法，还包括：

使用第三卷积神经网络提取输入的第三图像的特征，其中，所述第三卷积神经网络包括依次连接的多个第三卷积层和间插于相邻第三卷积层之间的多个第三池化层，每级所述第三卷积层用于产生并输出第三卷积特征，所述第三卷积层的数量与所述第一卷积层的数量相等，并且

所述多个第二卷积层中除最初的层级以及连接到所述第一卷积层的层级外，至少之一接收对应的所述第三卷积层输出的第三卷积特征，且融合其同一层级的复合层的输出以及对应的所述第三卷积层输出的第三卷积特征以得到其输出数据。

5.根据权利要求4的图像处理方法，还包括：

对于所述多个第二卷积层中至少之一，选择使其接收对应的所述第一卷积层或对应的所述第三卷积层的输出，由此选择对应的所述第一卷积层输出的第一卷积特征或对应的所述第三卷积层输出的第三卷积特征与同一层级的复合层的输出融合以得到其输出数据。

6.根据权利要求4的图像处理方法，还包括：

对于所述多个第二卷积层中每个，都选择使其接收对应的所述第一卷积层或对应的所述第三卷积层的输出，由此选择对应的所述第一卷积层输出的第一卷积特征或对应的所述第三卷积层输出的第三卷积特征与同一层级的复合层的输出融合以得到其输出数据。

7.根据权利要求5或6的图像处理方法，所述第一卷积特征是内容特征，所述第三卷积特征是风格特征；或者，所述第一卷积特征是风格特征，所述第三卷积特征是内容特征。

8.根据权利要求4的图像处理方法，其中，所述第一卷积神经网络和所述第三卷积神经网络的构造相同。

9.一种图像处理装置，包括：

第一卷积神经网络模块，用于提取输入的第一图像的特征，其中，所述第一卷积神经网络包括依次连接的多个第一卷积层和间插于相邻第一卷积层之间的多个第一池化层，所述第一卷积层每个用于产生并输出第一卷积特征；

第二卷积神经网络模块，用于重构并输出图像，其中，所述第二神经网络包括依次连接的多个第二卷积层和间插于相邻第二卷积层之间的多个复合层，所述复合层为上采样层；并且，

所述第一卷积层的数量与所述第二卷积层的数量相等，最后的第一卷积层的输出被连接到最初的第二卷积层，且所述多个第二卷积层中除最初的层级外，至少之一接收对应的所述第一卷积层输出的第一卷积特征，且融合同一层级的复合层的输出以及对应的所述第一卷积层输出的第一卷积特征以得到其输出数据。

10.根据权利要求9的图像处理装置，其中，所述多个第二卷积层中除最初的层级外，每个都接收对应的所述第一卷积层输出的第一卷积特征，且融合同一层级的复合层的输出以及对应的所述第一卷积层输出的第一卷积特征以得到其输出数据。

11.根据权利要求9或10的图像处理装置，其中，所述复合层获取被输入到其中的第一数量的输入图像并将这些输入图像的像素值交织以产生所述第一数量的输出图像。

12.根据权利要求9的图像处理装置，还包括：

第三卷积神经网络模块，用于提取输入的第三图像的特征，其中，所述第三卷积神经网络包括依次连接的多个第三卷积层和间插于相邻第三卷积层之间的多个第三池化层，每级所述第三卷积层用于产生并输出第三卷积特征，所述第三卷积层的数量与所述第一卷积层的数量相等；并且，

13.根据权利要求12的图像处理装置，还包括：

选择模块，

其中，对于所述多个第二卷积层中至少之一，通过所述选择模块配置为选择使其接收对应的所述第一卷积层或对应的所述第三卷积层的输出，由此选择对应的所述第一卷积层输出的第一卷积特征或对应的所述第三卷积层输出的第三卷积特征与同一层级的复合层的输出融合以得到其输出数据。

14.根据权利要求13的图像处理装置，其中，对于所述多个第二卷积层中每个，所述选择模块配置为选择使其接收对应的所述第一卷积层或对应的所述第三卷积层的输出，由此选择对应的所述第一卷积层输出的第一卷积特征或对应的所述第三卷积层输出的第三卷积特征与同一层级的复合层的输出融合以得到其输出数据。

15.根据权利要求12的图像处理装置，其中，所述第一卷积神经网络和所述第三卷积神经网络的构造相同。

16.一种图像处理装置，包括：

处理器；

存储器，其上存储有计算机程序，所述计算机程序被所述处理器运行时可以执行根据权利要求1-9任一所述的图像处理方法。