CN110378842A

CN110378842A - 一种图像纹理滤波方法、终端设备及存储介质

Info

Publication number: CN110378842A
Application number: CN201910674925.7A
Authority: CN
Inventors: 郭诗辉; 林俊聪; 高星; 李贵林; 宋亮; 廖明宏
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2019-10-25

Abstract

本发明涉及一种图像纹理滤波方法、终端设备及存储介质，该方法中包括：S1：采集图像组成训练数据集，其中图像中包括标记数据和未标记数据；S2：构建生成对抗网络模型，设定网络中的损失函数为：标记数据的损失与未标记数据的损失的加权和；将训练数据集输入构建的生成对抗网络模型进行训练，在每次学习迭代中，同时向网络提供标记数据和未标记数据，由网络的损失函数计算梯度参数直至训练完成，生成最终网络；S3：将待滤波的图像输入训练后的模型，输出滤波结果。本发明与基于非学习的方法具有相当的性能，同时降低了确定最优参数值的要求。

Description

一种图像纹理滤波方法、终端设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像纹理滤波方法、终端设备及存储介质。

背景技术

纹理过滤是在保留结构信息的同时去除纹理信息的过程。早期的平滑方法主要是基于像素的颜色/强度差异，去除图像结构中的噪声或低对比度细节，如双边滤波、加权最小二乘(WLS)和边缘避免小波等。这些方法在处理平滑纹理图像时都会出现问题，因为纹理往往含有强烈的对比度，很难从结构中区分出来。

近年来，通常使用生成对抗网络(GANs)和变分自编码器(VAEs)进行各种图像处理。纹理滤波是图像转换的一个子领域，因此，通常采用深度学习方法来解决传统方法中的参数调整问题。

以完全监督的方式训练卷积神经网络进行纹理滤波的方法由于依赖于构建用于网络训练的适当数据集，但准备一张带标签的图片大约需要4个小时，耗时过长，这对监督方法的广泛应用提出了重要的限制。

非监督方法(DualGAN、CycleGAN)以一种无监督的方式对生成网络进行训练，能够作为非监督方法处理典型的任务。但是，非监督方法虽然避免了手工标注，但在处理纹理滤波和生成时，会导致颜色不一致的问题。

发明内容

为了解决上述问题，本发明提出了一种图像纹理滤波方法、终端设备及存储介质。

具体方案如下：

一种图像纹理滤波方法，包括以下步骤：

S1：采集图像组成训练数据集，其中图像中包括标记数据和未标记数据；

S2：构建生成对抗网络模型，设定网络中的损失函数为：标记数据的损失与未标记数据的损失的加权和，其中：标记数据的损失为：标记数据的对抗损失、L1损失、内容损失和风格损失四种损失的加权和；非标记数据的损失为：非标记数据的对抗损失、内容损失和风格损失三种损失的加权和；

将训练数据集输入构建的生成对抗网络模型进行训练，在每次学习迭代中，同时向网络提供标记数据和未标记数据，由网络的损失函数计算梯度参数直至训练完成，生成最终网络；

S3：将待滤波的图像输入训练后的模型，输出滤波结果。

进一步的，对抗损失的计算公式为：

L_adv(G,D,X,Y)＝E_X[logD(Y)]+E_Y[1-logD(G(X))]

其中，L_adv(G,D,X,Y)表示对抗损失，E表示期望，X表示生成网络的输入，Y表示生成网络的输出，D(.)表示判别网络，G(.)表示生成网络。

进一步的，L1损失的计算公式为：

L_L1(G,X,Y)＝E_X,Y[||Y-G(X)||₁]

其中，L_L1(G,X,Y)表示L1损失，E表示期望，X表示生成网络的输入，Y表示生成网络的输出，G(.)表示生成网络，||Y-G(X)||₁表示G(X)与Y之间的L1距离。

进一步的，内容损失为VGG-19的特征层在特征空间上的L2距离。

进一步的，风格损失为Gram矩阵存储的VGG层中的RELU3-2层和RELU4-2层之间的L2距离。

一种图像纹理滤波终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，提出了一种基于生成对抗性网络的纹理过滤半监督方法，充分利用有限的标记数据和大量的未标记数据来训练生成对抗网络，有益效果包括：1.显著减少了重建标记数据集的时间和工作量，特别是对于像素级的精细操作；2.利用无标记数据来减少监督学习中的过拟合问题，利用少量有标记数据来解决颜色丢失问题。为了获得良好的纹理过滤质量，为标记和未标记的数据集设计了单独的损失函数。该方法与基于非学习的方法具有相当的性能，同时降低了确定最优参数值的要求。

附图说明

图1所示为本发明实施例一中生成对抗网络的结构图。

图2所示为该实施例中方法的处理结果图。

图3所示为该实施例中方法与其他方法的结果比较。

图4所示为该实施例中非学习方法的结果。

图5所示为该实施例中基于非学习方法的标记图像。

图6所示为该实施例中消融性实验的结果图。

图7所示为该实施例中在批次中使用不同比例的标记/未标记数据的结果图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

本发明实施例一提供了一种图像纹理滤波方法，所述方法包括两个阶段：线下训练和线上测试。

1.线下训练阶段包括：

步骤1：采集训练数据集，训练数据集包括未标记数据和标记数据，其中标记数据采用常用的非学习的方法进行标记，未标记数据为网络上收集的原始图像，图像被分割成统一大小(256x256)的部分作为网络的输入。

步骤2：构建生成对抗网络模型。

如图1所示，生成对抗网络包括生成网络G(Generator)和判别网络D(Discriminator)，生成网络G通过捕获与训练数据集相关的数据分布来生成新的图像，判别网络D将给定的输入图像正确分类为真实(即来自训练数据集图像)或虚假(即生成模型生成的合成图像)，即识别图像是生成的图像还是真实图像。

该实施例中，以Conv-Batchnorm-Relu为基本模块，设计GAN网络的生成网络G和判别网络D。采用对输入进行向下采样，到达瓶颈层，然后反向向上采样，直到输出。大量的潜在信息被提取并嵌入到网络的深层。由于下采样和上采样过程总是会丢弃部分特征信息，因此，该实施例中通过在层之间添加跳转连接来维护特性信息，达到跨层共享的目的，而不需要逐层传递。该实施例中在i^th层和n-i^th层(n表示网络总层数)之间添加跳跃链接。

采用Markovian patch GAN(MPG)构造判别网络D。通过对MPG执行卷积和均值运算，得到了判别网络D的最终输出。

为了训练网络，需要设定网络的损失函数，该实施例中，由于采集的数据包括标记数据和未标记数据，因此针对标记数据和未标记数据设定了两组独立的损失函数，下面对网络的损失函数进行详细介绍：

(1)对抗损失

设定生成网络G的映射函数：X→Y及其判别网络D(Y)的交叉熵损失函数，以表示生成图像与真实图像之间的差异。生成网络G的目标是使损失函数最大化，而鉴别网络D的目标是使损失函数最小化。

对于标记数据，其对抗性损失设定为：

对于未标记的数据，其对抗性损失设定为：

其中，上标L和U分别表示数据为标记数据和未标记数据，L表示损失，下标adv表示类别，即类别为对抗性丢失，E表示期望，X表示生成网络的输入，Y表示生成网络的输出，D(.)表示判别网络，G(.)表示生成网络。

在该实施例的其余部分中，均遵循类似的命名形式。

(2)L1损失

与标准生成对抗网络不同的是，该实施例中生成网络G的目标不仅是“欺骗”判别网络D，而且还需要最大限度地减小与参考图像在L1距离的差异。由于L1在降低图像的模糊度方面优于L2，因此，该实施例中使用L1损失来保持原始图像的分辨率，即设定L1损失函数为：

L_L1(G,X,Y)＝E_X,Y[||Y-G(X)||₁]

其中，L_L1(G,X,Y)表示L1损失，||Y-G(X)||₁表示G(X)与Y之间的L1距离。

需要注意的是，只需在标注数据上进行L1损失。

(3)语义损失与风格损失

该实施例的目标是保持过滤后的图像和输入图像的内容一致性。

保持内容一致是通过对图像中嵌入的语义信息进行同构来实现的。从训练好的神经网络模型VGG-19中间层提取的特征表示图像的高级语义信息。

内容损失定义为利用VGG-19的特征层(RELU4-2)在特征空间上的L2距离。

除了使用VGG网络来保持语义一致性外，该实施例中还使用更浅层次的特性来进一步处理纹理细节。这是因为语义特征、对偶损失和L1损失可以完成纹理滤波的整体任务，但这些目标无法处理边界等琐碎细节。

该实施例中使用风格损失来特别鼓励纹理细节的保留。风格损失定义为用Gram矩阵存储的VGG层的RELU3-2和RELU4-2层的L2距离。预训练VGG的Gram矩阵定义为：

其中N_l为第一层特征矩阵的个数。

根据上述损失函数设定目标函数为各损失的加权和方程，即：

L(G,D,X,Y)＝ω_L·L_L(G,D,X,Y)+ω_U·L_U(G,D,X,Y)

其中，L(G,D,X,Y)表示损失函数，L_L(G,D,X,Y)表示标记数据的损失，L_U(G,D,X,Y)表示未标记数据的损失，L_C(G,X,Y)表示内容损失，L_S(G,X,Y)表示风格损失。

该实施例中，设定加权项分别为：ω_L＝1，ω_U＝1，ω_adv＝100，ω_C＝10，ω_S＝20，ω_L1＝1。

步骤3：网络训练，使用步骤1采集的训练数据集对构建的生成对抗网络模型进行训练，在每次学习迭代中，同时向网络提供一批标记和未标记的数据，并更新网络由损失函数计算梯度参数。

训练迭代中的每个批处理都包含标记数据和未标记数据。加入标记数据的目的是引导未标记数据产生与原始图像一致的结果。同时，用未标记数据扩展了数据集作用域，解决了训练模型仅对有限数量的标记样本有效的限制。

2.线上测试阶段包括：

步骤1：图像预处理，由于网络模型要求输入的图像大小一致，因此在实际的图像滤波应用中，图像在被网络处理之前被分成大小一致的部分(与悬链阶段的大小一致)。

步骤2：将图像中的每个部分均使用训练后的模型进行处理，并输出滤波结果。该过程是全自动的，不需要任何用户干预，避免了在非学习型方法中手工调整参数值。

步骤3：由于处理后的图像为各个小部分，而暴力组合图像可能会导致两部分的边界的不连续，因此，该实施例中采用多波段混合的方式来无缝地混合两部分，而不会造成边界上的差异。

3.仿真实验

该实施例在标准PC电脑上进行仿真实验，运算环境为Python环境，采集的数据集包括300张标记图像和3000张未标记图像。该数据集被随机分为训练数据集和测试数据集，比例为10:1。

图2所示显示了该实施例方法的可视化结果，其中，第一行和第三行为原图，第二行和第四行为处理结果。所有结果自动生成，无需人工干预。图2所示的图像中嵌入的纹理包括涂鸦上的砖裂缝、地毯上的毛绒材料和方块风格的卡通图像等各种不同的纹理。通过图2可以看出，本实施例的方法能够在保留图像结构信息的同时去除纹理细节。

4.与现有方法的比较

将本实施例中方法与有监督学习方法(pix2pix)和无监督学习方法(CycleGAN)进行了比较。结果如图3所示，其中，第一列为原始图像，第二列为CycleGAN方法生成的图像，第三列为pix2pix方法生成的图像，第四列为本实施例中方法生成的图像，第五列为Groundtruth。本实施例中方法综合了有监督学习方法和无监督学习方法两种方法的优点，不仅取得了较好的效果，而且有效地减少了人工劳动构造标记数据。从图3中可以看出，本实施例中方法得到的结果(图3右边第二列)与ground truth(图3最右边一列)最接近。

与CycleGAN方法相比，本实施例方法得到的结果与参考图像有更好的一致性。CycleGAN方法采用无监督学习方法进行训练，不能保证输入和输出图像的颜色一致性(图3第二列)。相比之下，本实施例中方法引入了少量的标记数据，并捕获了两者之间的一致性。本实施例中方法在去除纹理细节的同时保留结构信息，取得了比pix2pix方法更好的滤波效果。这种优势是由于使用了大量的未标记数据，避免了在典型的监督学习方法中过度拟合的问题，并将训练模型扩展到测试样本。此外，本实施例中方法只需要准备少量的标记图像，与监督学习的方法相比，减少了工作量和时间成本。

5.用户实验

实验1：

实验方法：本实验邀请了五名参与者来评估在确定参数值和非基于学习的方法的时间成本方面所面临的挑战。他们被要求完成两项任务:1)向参与者提供之前工作中开发的软件，这是一种非学习型的方法。他们被指示调整两个超参数的值：内核大小和迭代次数，以获得最满意的过滤结果。2)告知参与者制作贴有标签的纹理滤波图像的步骤，并指导参与者手工去除纹理。这些步骤包括使用Canny操作符进行边缘检测，手工识别结构边界和对单个区域进行纹理过滤。

实验结果：第一个任务的结果如图4所示，其中k和niter分别表示内核大小和迭代次数。这表明滤波质量与这些超参数的值有重要关系。确定最优参数值需要时间和专业知识。纹理过滤的正向计算大约需要2-3秒，但是参与者需要通过试错的方法找到最优的参数值。在实验中，这个过程平均花费2分钟(平均2.12分钟，标准偏差0.81分钟)来找到单个图像的参数组合。

第二个任务的结果如图5所示，大部分时间用于通过Canny算子从检测到的边缘手工识别结构边界的过程。这在纹理信息强烈的图像中尤其具有挑战性。对于参与者来说，平均而言，生成一张经过过滤的图像需要花费大约4个小时(平均3.85小时，标准偏差1.69小时)。

基于非学习方法的纹理过滤经验是探索半监督学习方法而不是完全监督学习方法的最初动机。标记图像的制备需要大量的人力。采用半监督学习的方法，标记的数目可以是未标记数目的1/10。这确保了本实施例中方法在实际应用中的可行性，作为质量和成本之间的平衡。

实验2：

实验方法：与其他方法相比，通过“真实vs虚假”的感知研究来评估输出的真实性。该实验中邀请了11名参与者在一次实验中对比三幅图像：原始图像、Ground truth和生成图像。生成图像的方法有三种：CycleGAN、pix2pix和该实施例中方法。根据不同的尝试，随机切换Ground Truth和生成图像的顺序。参与者不知道是Ground Truth还是生成图像。他们被指示在Ground Truth和生成结果之间进行选择，从他们的角度来看，哪个更像GroundTruth。本实验旨在评估生成图像是否能够“欺骗”参与者，并被选择为Ground Truth。每一阶段的前5次试验都是练习，并对参与者的回答是否正确给出反馈。剩下的试验用于评估每种算法欺骗参与者的概率。该实验中总共收集了11张图片的结果，以评估每个参与者的最终表现。

实验结果：通过超越Ground Truth来欺骗用户是极具有挑战性的，因为GroundTruth是通过手工准备的。实验结果如表1，在与groundtruth的相似性方面，该实施例中方法在大多数例子中都优于其他两种方法。在13幅图像中有2幅，pix2pix方法优于实施例中方法。值得注意的是，由于与原始图像的颜色差异较大，CycleGAN产生的结果并没有在所有样本中被选择。实施例中的半监督方法缓解了这个问题。

表1：

实验3：

实验方法：本实验邀请了11名参与者。每一个图像都有一个原始图像和三个生成图像，由CycleGAN、pix2pix和本实施例中方法分别生成。参与者被要求对三个生成图像的过滤质量进行评分。记录用户选择和决策的时间成本。按滤光质量(从高到低)排序的图像得到3、2和1分。从测试数据集中随机抽取40幅图像，重复上述过程。

实验结果：与其他两种方法相比，本实施例中方法获得更好的评分。本实施例中方法、pix2pix和Cycle GAN的平均得分分别为2.59、2.18和1.25。从实验过程中观察到参与者的实验反馈，发现CycleGAN的合成结果在大多数情况下得到的分数是三者中最低的。当与其他两种颜色并排呈现时，参与者能立即发现颜色的不一致性。这个决策可以有效地做出，并且不需要太多的用户意识。然而，在一些例子中，本实施例中方法和pix2pix之间的比较是有挑战性的，用户可能需要放大图像来检查细节。这个决策的时间成本从3秒到20秒左右(平均12.89秒，标准偏差6.10秒)，取决于不同的图像和个人。这证实了本实施例中方法可以达到与监督方法相比较的结果。

实验4：消融性实验

该实验中通过从损失函数中去除成分内容损失L_C、风格损失L_S(两者都有或两者都没有)来进行消融研究。结果如图6所示，其中第一列为原图，第二列为去掉L_C和L_S的结果，第三列为去掉L_C的结果，第四列为去掉L_S的结果，第五列为本实施例中方法的结果。

移除两个成分L_C和L_S(图6中的第二列)不能完全移除纹理。移除内容损失L_C(图6中的第三列)会降低过滤性能，结果甚至比前一种情况更糟。这可能是由于只强制执行图像样式而忽略其语义内容造成的。删除风格损失L_S(图6中的第四列)会增加图像模糊的问题，并生成不太清晰的结构边缘。风格信息从VGG的浅层提取，并处理诸如边界之类的琐碎细节。删除此成分会导致无法维护原始图像中的边缘信息。

删除内容损失L_C、风格损失L_S的任何一个都比同时删除它们获得更差的性能。这表明了内容和风格损失的互补效应。只有强制执行这两个因素中的一个，才会导致对图像的不平衡和部分理解。两者的结合得到了最令人满意的结果。

实验5：

图7对比了在批处理中使用所有标记/未标记数据的情况与本实施例中的半监督方法，其中，第一列为原始图像，第二列为所有数据未标记时的结果图像，第三列为所有数据标记时的结果图像，第四列为本实施例方法的结果图像，第五列为Ground Truth。当每批数据全部未标记时，不引入CycleGAN中的循环和一致性损失。训练后的模型滤波结果与原始图像完全不同(图7第二列)。因此，虽然引入了VGG19的语义层和风格层来指导合成输出，但是如果没有标记数据的输入，仍无法获得令人信服的结果。

当每个批次的所有数据都被标记为data(图7中的第三列)时，其结果与pix2pix方法相似。该方法在大多数情况下都能取得满意的结果，但对于未标记的样品，滤波效果并不理想。

实施例二：

本发明还提供一种图像纹理滤波终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述图像纹理滤波终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述图像纹理滤波终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述图像纹理滤波终端设备的组成结构仅仅是图像纹理滤波终端设备的示例，并不构成对图像纹理滤波终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述图像纹理滤波终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述图像纹理滤波终端设备的控制中心，利用各种接口和线路连接整个图像纹理滤波终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述图像纹理滤波终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述图像纹理滤波终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种图像纹理滤波方法，其特征在于，包括以下步骤：

S3：将待滤波的图像输入训练后的模型，输出滤波结果。

2.根据权利要求1所述的图像纹理滤波方法，其特征在于：对抗损失的计算公式为：

L_adv(G,D,X,Y)＝E_X[log D(Y)]+E_Y[1-log D(G(X))]

3.根据权利要求1所述的图像纹理滤波方法，其特征在于：L1损失的计算公式为：

L_L1(G,X,Y)＝E_X,Y[||Y-G(X)||₁]

4.根据权利要求1所述的图像纹理滤波方法，其特征在于：内容损失为VGG-19的特征层在特征空间上的L2距离。

5.根据权利要求1所述的图像纹理滤波方法，其特征在于：风格损失为Gram矩阵存储的VGG层中的RELU3-2层和RELU4-2层之间的L2距离。

6.一种图像纹理滤波终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～5中任一所述方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～5中任一所述方法的步骤。