CN111199516A

CN111199516A - 基于图像生成网络模型的图像处理方法、系统及存储介质

Info

Publication number: CN111199516A
Application number: CN201911400233.XA
Authority: CN
Inventors: 谭舜泉; 卓龙; 李斌; 黄继武
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-26
Anticipated expiration: 2039-12-30
Also published as: CN111199516B

Abstract

本发明涉及一种基于图像生成网络模型的图像处理方法、系统及存储介质，其中方法包括步骤：预先构建包含感知上采样卷积模块的图像生成网络模型；将降采样得到的特征图感知上采样卷积模块；第一卷积通道对特征图进行第一尺度的卷积生成第一卷积特征图；第二卷积通道对特征图进行第二尺度的卷积生成第二卷积特征图；融合层将第一卷积特征图及第二卷积特征图进行融合连接，生成融合特征图；子像素转换层通过depth‑to‑space函数将融合特征图转换为输出图片，输出图片的尺寸为特征图的两倍。本发明所提供的图像处理方法，在上采样过程中，进行两种不同尺寸的卷积操作，以获取更多的细节特征，提高了输出图片的特征表征性，改善了棋盘效应。

Description

基于图像生成网络模型的图像处理方法、系统及存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于图像生成网络模型的图像处理方法、系统及存储介质。

背景技术

缩小图像(或称为下采样(subsampling)或降采样(downsampling))的主要目的有两个：1、使得图像符合显示区域的大小；2、生成对应图像的缩略图。放大图像(或称为上采样(upsampling))的主要目的是放大原图像，从而可以获得更高的分辨率。

在深度学习的图像生成模型中，为了减少计算资源，待生成的图像通常会经历先降采样(缩小图像)，然后上采样(将缩小的图像还原)的过程。现有上采样还原图像尺寸的过程中，大多都是采用简单的上采样层(即up-sampling)或者反卷积层(transposeconvolution)，这样会产生严重的棋盘效应(棋盘效应即生成图像失真导致网格化。假设生成的图像中包含1只黑猫，黑猫身体部分的像素颜色应该是平滑过渡的；或者极端的说，身体部分应该全部都是黑色的，而在实际生成的图像中，该部分却是由深深浅浅的近黑方块组成的，很像棋盘的网络，这就是所谓的棋盘效应)。

如何降低棋盘效应成为了利用上采样生成图片亟待解决的技术问题。

因此，现有技术还有待改进。

发明内容

基于此，有必要针对上述技术问题，提供一种基于图像生成网络模型的图像处理方法、系统及存储介质，旨在上采样过程中，进行两种不同尺寸的卷积操作，以获取更多的细节特征，提高了输出图片的特征表征性，改善棋盘效应的问题。

本发明的技术方案如下：

一种基于图像生成网络模型的图像处理方法，其包括：

预先构建包含感知上采样卷积模块的图像生成网络模型，所述感知上采样卷积模块包括：第一卷积通道、第二卷积通道、融合层以及子像素转换层，所述第一卷积通道包括：第一卷积激活层及第二卷积激活层，所述第二卷积通道包括第三卷积激活层；

将降采样得到的特征图输入感知上采样卷积模块；

第一卷积通道对所述特征图进行第一尺度的卷积，生成第一卷积特征图；同时第二卷积通道对所述特征图进行第二尺度的卷积，并生成第二卷积特征图；

融合层将所述第一卷积特征图及第二卷积特征图进行融合连接，生成融合特征图；

子像素转换层通过depth-to-space函数将所述融合特征图转换为输出图片，所述输出图片的尺寸为所述融合特征图的两倍。

在进一步地优选方案中，所述感知上采样卷积模块设置有多个，多个感知上采样卷积模块逐步将所述特征图进行上采样，直至所转换得到的输出图片尺寸达到预设值。

在进一步地优选方案中，所述图像生成网络模型中还设置有多个第一改进残差卷积块，多个所述第一改进残差卷积块中卷积核大小均为3*3，步长均为1，卷积核个数均为16的倍数；所述第一改进残差卷积块用于输入待处理图像的采样，包括：第三卷积通道、第四卷积通道及融合残差相加层；所述第三卷积通道包括两个第四卷积激活层，所述第四卷积通道包括一个第五卷积激活层，输入的特征图分别经过第三卷积通道及第四卷积通道后经过融合残差相加层进行特征融合。

在进一步地优选方案中，所述图像生成网络模型中还设置有多个改进残差下采样卷积块，多个所述改进残差下采样卷积块中卷积核个数均为64倍，大小均为3*3，步长均为2，所述改进残差下采样卷积块用于输入图像的下采样，所述改进残差下采样卷积块采用与所述第一改进残差卷积块相同的结构配置，所述第五卷积激活层的步长为1。

在进一步地优选方案中，所述改进残差下采样卷积块设置有三个，三个改进残差下采样卷积块中卷积核个数依次设置为64个、128个及512个；且三个改进残差下采样卷积块间隔设置在多个第一改进残差卷积块之间。

在进一步地优选方案中，所述图像生成网络模型中还设置有多个第二改进残差卷积块，多个所述第二改进残差卷积块中卷积核大小均为3*3，步长均为1，卷积核个数均为16的倍数，所述第二改进残差卷积块采用与所述第一改进残差卷积块相同的结构配置。

在进一步地优选方案中，所述第一改进残差卷积块设置有五个，五个第一改进残差卷积块中的卷积核个数依次设置为16个、32个、64个、128个及512个；所述第二改进残差卷积块设置有五个，五个第二改进残差卷积块中的卷积核个数依次设置为256个、128个、64个、32个及16个。

在进一步地优选方案中，所述图像生成网络模型中还设置有输出层，所述输出层包括卷积核大小为3*3、卷积核数量为2、步长为1的卷积层，以及tanh的激活函数。

一种基于图像生成网络模型的图像处理系统，其包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如上所述的基于图像生成网络模型的图像处理方法。

一种存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如上任一项所述的基于图像生成网络模型的图像处理方法的步骤。

与现有技术相比，本发明提供的基于图像生成网络模型的图像处理方法，包括步骤：预先构建包含感知上采样卷积模块的图像生成网络模型；将降采样得到的特征图输入感知上采样卷积模块中；第一卷积通道对所述特征图进行第一尺度的卷积，生成第一卷积特征图；同时第二卷积通道对所述特征图进行第二尺度的卷积，并生成第二卷积特征图；融合层将所述第一卷积特征图及第二卷积特征图进行融合连接，生成融合特征图；子像素转换层通过depth-to-space函数将所述融合特征图转换为输出图片，所述输出图片的尺寸为所述融合特征图的两倍。本发明所提供的图像处理方法，在上采样过程中，进行两种不同尺寸的卷积操作，以获取更多的细节特征，提高了输出图片的特征表征性，改善了棋盘效应。

附图说明

图1是本发明优选实施例中基于图像生成网络模型的图像处理方法的流程图。

图2是本发明优选实施例中基于图像生成网络模型的图像处理系统的功能原理框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明提供了一种基于图像生成网络模型的图像处理方法，其包括：

S100、预先构建包含感知上采样卷积模块的图像生成网络模型，所述感知上采样卷积模块包括：第一卷积通道、第二卷积通道、融合层以及子像素转换层，所述第一卷积通道包括：第一卷积激活层及第二卷积激活层，所述第二卷积通道包括第三卷积激活层。

优选本发明所提供的图像生成网络模型包括第一改进残差卷积块、改进残差下采样卷积块、第二改进残差卷积块、感知上采样卷积模块及输出层；其中，所述第一改进残差卷积块及改进残差下采样卷积块用于图片的下采样；所述第二改进残差卷积块及感知上采样卷积模块用于图片的上采样，输出层用于图片的输出。

在模型设计阶段，本发明设置感知上采样卷积模块(Inception Sub-pixelConvolution block，记作ISP)主要包括两个卷积通道(分别为第一卷积通道及第二卷积通道)、融合层及子像素转换层(depth-to-space函数实现)。

本发明所提供的图像处理方法基于上述感知上采样卷积模块进行特征图的双通道多尺度的联合卷积(第一卷积通道及第二卷积通道将对同一图片分别进行独立卷积计算，然后进行融合)。一个尺寸为n*n的特征图输入感知上采样卷积模块，在经该感知上采样卷积模块卷积融合后输入子像素转换层(depth-to-space函数)，最后输出图片的尺寸为2n*2n。

作为本发明地优选实施例，所述感知上采样卷积模块设置有多个，多个感知上采样卷积模块逐步将所述特征图进行上采样，直至所转换得到的输出图片尺寸达到预设值。所述第一改进残差卷积块设置有多个，多个所述第一改进残差卷积块中卷积核大小均为3*3，步长均为1，卷积核个数均为16的倍数；所述改进残差下采样卷积块设置有多个，多个所述改进残差下采样卷积块中卷积核个数均为64倍，大小均为3*3，步长均为2；所述第二改进残差卷积块亦设置有多个，多个所述第二改进残差卷积块中卷积核大小均为3*3，步长均为1，卷积核个数均为16的倍数。

较佳的是，所述输出层包括卷积核大小为3*3、卷积核数量为2、步长为1的卷积层，以及tanh的激活函数。

在完成模型设计后，进行实验准备时，本发明选择在Imagenet数据集上进行，包含12000张彩色图像，全部图像将放缩为256*256的尺寸，全部图像的格式同时转为Lab颜色模型。其中10000张用于训练，2000张用于测试，测试集中的10000张图片与训练集中的2000张图片不重合。

本发明采用了几种主流的上采样方法(up-sampling、resize-conv、sub-pixel)进行比较(该几种上采样方法来源于Github用Imagenet完整训练的模型，本发明将感知上采样卷积模块简写为ISP，除感知上采样卷积模块(ISP)不同外，其他结构保持一致)。实验训练网络时，使用隐写分析器作为判别器，构成生成对抗网络，以便于训练。生成网络的参数量如表1所示，训练300次迭代(epoch)后，实验结果表2所示。

上采样方法	生成网络的参数参数量(M)
		Resize	22.92
Upsampling	23.1
		Sub-pixel	23.47
ISP	18.64

表1

表2

实验表明，在没有增加网络参数的情况下，ISP的着色效果依然最佳。

另外，本实施例也使用了一些先进的深度着色网络算法对测试集进行了着色测试，包括Lizuka、Zhang、Lasson分别提出的算法以及PIX2PIX、kaolorization算法。

最后本发明的ISP-Net在Keras工具箱中实现，网络的超参数设置如下：

学习速率：0.001，beta_1系数：0.9，beta_2系数：0.999，

裁剪数值：0.5，批大小：16，

最大迭代次数：300。

上述实验的实验结果如表3及表4所示：

方法	PSNR(峰值信噪比)	SSIM(结构相似性)(％)
			Lizuka	23.94	91.85
Zhang	21.97	89.7
			Lasson	24.58	92.22
Pix2Pix	21.14	82.98
			Kaolorization	21.43	89.57
ISP-Net	23.44	93.56

表3

表4

由表3可以看出，ISP-Net即使不在大数据集完整训练的情况下，同样能够达到先进的着色水平，表4则展示了ISP-Net的学习能力，ISP-Net所表现出的优异性能并不是由于体量的增大。从上述的实验中来看，很明显，本实施例的ISP上采样方法具备更好的性能。并且着色领域中，在整体网络参数数量大小上，ISP-Net更加小，具体参数数目、运算次数以及存储体积如表4所示。

由上可见，本发明利用深度学习在大数据下的优势，获得了比现有主流上采样方法更好的学习性能，并将ISP-Net应用到深度网络模型中，实现了更好的着色性能。

S200、将降采样得到的特征图输入感知上采样卷积模块(ISP)，待处理图像进行降采样得到特征图的过程可参照现有技术，亦可采用本发明所提供的图像生成网络模型，利用第一改进残差卷积块及改进残差下采样卷积块进行下采样(降采样)处理，具体请参看下文举例。

S300、第一卷积通道对所述特征图进行第一尺度的卷积，生成第一卷积特征图；同时第二卷积通道对所述特征图进行第二尺度的卷积，并生成第二卷积特征图。

S400、融合层将所述第一卷积特征图及第二卷积特征图进行融合连接，生成融合特征图。

S500、子像素转换层通过depth-to-space函数将所述融合特征图转换为输出图片，所述输出图片的尺寸为所述融合特征图的两倍。

在本发明地一种具体实施例中，基于图像生成网络模型的图片下采样及上采样过程如下表所示：

类型	核大小(长宽高)	步长	输出大小(长宽高)
				第一改进残差卷积块	3316	1	25625616
第一改进残差卷积块	3332	1	25625632
				改进残差卷积下采样块	3364	2	12812864
第一改进残差卷积块	3364	1	12812864
				改进残差卷积下采样块	33128	2	6464128
第一改进残差卷积块	33128	1	6464128
				改进残差卷积下采样块	33512	2	3232512
第一改进残差卷积块	33512	1	3232512
				第二改进残差卷积块	33256	1	3232256
第二改进残差卷积块	33128	1	3232128
				感知上卷积块	33128	1	6464128
第二改进残差卷积块	3364	1	646464
				感知上卷积块	3364	1	12812864
第二改进残差卷积块	3332	1	12812832
				第二改进残差卷积块	3316	1	12812816
感知上卷积块	3316	1	25625616
				输出层	332	1	2562562

在本实施例中，所述第一改进残差卷积块设置有五个，五个第一改进残差卷积块中的卷积核个数依次设置为16个、32个、64个、128个及512个；所述改进残差下采样卷积块设置有三个，三个改进残差下采样卷积块中卷积核个数依次设置为64个、128个及512个；且三个改进残差下采样卷积块间隔设置在五个第一改进残差卷积块之间；所述第二改进残差卷积块设置有五个，五个第二改进残差卷积块中的卷积核个数依次设置为256个、128个、64个、32个及16个；所述感知上采样卷积模块设置有三个，三个感知上采样卷积模块的卷积核个数分别为128个、64个及16个；五个第二改进残差卷积块间隔设置在三个感知上采样卷积模块之间。

本发明所提供的基于图像生成网络模型的图像处理方法，在上采样过程中，进行两种不同尺寸的卷积操作，以获取更多的细节特征，提高了输出图片的特征表征性，改善了棋盘效应。

经本发明所提供图像处理方法处理后图片的表征性，与经现有图像处理方法处理后图片的表征性对比如下：

目标：对比上采样结构的不同，找出ISP对比当前上采样的结构优越性。

假设：ISP上采样的感知域更广，全局以及局部的信息特征均能表达，网络的表征性更强。表现在ISP所生成的特征更多元化。现实世界中的图像是复杂的，信息分布的位置也千差万别。对于生成网络而言，需要的是能够涵括大部分特征的强大学习能力。

指标：用余弦距离(＝1-余弦相似度)来衡量特征多样性，取值范围[0，2]，数值越大，特征越多样。

Cosine Distance＝1-Cosine Similarity (1)

对比网络：sub-pixel convolution(单一的卷积特征加深层，以下称SPC)除了上采样外，其他一样(包括训练、测试等)。

测试集：200张Imagenet真彩图像转Lab颜色模型，以L通道作为输入(即输入为(200，256，256，1))。

实验：着色任务中，分别选取SPC以及ISP训练的第1个、10个、50、100、200、300、500个epochs的生成网络作为测试，分别提取三次上采样的特征图，在每一次的特征图集合(n)中全部两两比较余弦距离进行求和平均处理，共(n-1)*n/2项。

实验结果如下：

结论：ISP生成的特征越来越丰富，并且优于SPC，学习的能力更强。证明了假设：ISP上采样的感知域更广，全局以及局部的信息特征均能表达，网络的表征性更强。表现在ISP所生成的特征更多元化。

可视化：将每个阶段的不同epoch不同上采样方法所生成的特征图作平均操作，保存其灰度图，由于特征图的数值过小，为了方便展示，将数值x3000查看网络每个上采样输出的图像。由于这个是着色生成任务，如果没有任何的生成的话，特征图的数值将会都是随机数，不会有原图颜色的形状，epoch越多，学习得越完全，图像颜色的部分越明显，因此，认为生成特征的颜色形状与学习的效果成正相关。

如图2所示，本发明还提供了一种基于图像生成网络模型的图像处理系统，其包括有存储器10，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器10中，且经配置以由一个或者一个以上处理器20执行所述一个或者一个以上程序包含用于执行如上所述的基于图像生成网络模型的图像处理方法。

本发明还提供了一种存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如上所述的基于图像生成网络模型的图像处理方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(SyNchliNk)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于图像生成网络模型的图像处理方法，其特征在于，包括：

将降采样得到的特征图输入感知上采样卷积模块；

2.根据权利要求1所述的基于图像生成网络模型的图像处理方法，其特征在于，所述感知上采样卷积模块设置有多个，多个感知上采样卷积模块逐步将所述特征图进行上采样，直至所转换得到的输出图片尺寸达到预设值。

3.根据权利要求2所述的基于图像生成网络模型的图像处理方法，其特征在于，所述图像生成网络模型中还设置有多个第一改进残差卷积块，多个所述第一改进残差卷积块中卷积核大小均为3*3，步长均为1，卷积核个数均为16的倍数；所述第一改进残差卷积块用于输入待处理图像的采样，包括：第三卷积通道、第四卷积通道及融合残差相加层；所述第三卷积通道包括两个第四卷积激活层，所述第四卷积通道包括一个第五卷积激活层，输入的特征图分别经过第三卷积通道及第四卷积通道后经过融合残差相加层进行特征融合。

4.根据权利要求3所述的基于图像生成网络模型的图像处理方法，其特征在于，所述图像生成网络模型中还设置有多个改进残差下采样卷积块，多个所述改进残差下采样卷积块中卷积核个数均为64倍，大小均为3*3，步长均为2。所述改进残差下采样卷积块用于输入待处理图像的下采样，所述改进残差下采样卷积块采用与所述第一改进残差卷积块相同的结构配置，所述第五卷积激活层的步长为1。

5.根据权利要求4所述的基于图像生成网络模型的图像处理方法，其特征在于，所述改进残差下采样卷积块设置有三个，三个改进残差下采样卷积块中卷积核个数依次设置为64个、128个及512个；且三个改进残差下采样卷积块间隔设置在多个第一改进残差卷积块之间。

6.根据权利要求4所述的基于图像生成网络模型的图像处理方法，其特征在于，所述图像生成网络模型中还设置有多个第二改进残差卷积块，多个所述第二改进残差卷积块中卷积核大小均为3*3，步长均为1，卷积核个数均为16的倍数，所述第二改进残差卷积块采用与所述第一改进残差卷积块相同的结构配置。

7.根据权利要求6所述的基于图像生成网络模型的图像处理方法，其特征在于，所述第一改进残差卷积块设置有五个，五个第一改进残差卷积块中的卷积核个数依次设置为16个、32个、64个、128个及512个；所述第二改进残差卷积块设置有五个，五个第二改进残差卷积块中的卷积核个数依次设置为256个、128个、64个、32个及16个。

8.根据权利要求1所述的基于图像生成网络模型的图像处理方法，其特征在于，所述图像生成网络模型中还设置有输出层，所述输出层包括卷积核大小为3*3、卷积核数量为2、步长为1的卷积层，以及tanh的激活函数。

9.一种基于图像生成网络模型的图像处理系统，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1至8中任意一项所述的基于图像生成网络模型的图像处理方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的基于图像生成网络模型的图像处理方法的步骤。