CN113744160B

CN113744160B - 图像处理模型训练方法、图像处理方法、装置及电子设备

Info

Publication number: CN113744160B
Application number: CN202111079442.6A
Authority: CN
Inventors: 陈圣; 曾定衡; 蒋宁; 王洪斌; 周迅溢; 吴海英
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2022-09-02
Anticipated expiration: 2041-09-15
Also published as: CN113744160A

Abstract

本申请提供一种图像处理模型训练方法、图像处理方法、装置及电子设备，图像处理模型训练方法，包括：获取训练样本图像；将训练样本图像输入待训练模型，利用目标损失值进行训练得到目标图像处理模型；其中，待训练模型包括图像去噪网络和图像评价网络，图像去噪网络用于对训练样本图像进行处理得到去噪图像，并根据去噪图像计算第一损失值，图像评价网络用于对训练样本图像进行处理得到训练样本图像的评价分数，并根据评价分数计算第二损失值，目标损失值为根据第一损失值与第二损失值得到。这样，可以提高模型训练效果，从而可得到去噪效果更好的目标图像处理模型。

Description

图像处理模型训练方法、图像处理方法、装置及电子设备

技术领域

本申请涉及图像处理技术领域，尤其涉及到一种图像处理模型训练方法、图像处理方法、装置及电子设备。

背景技术

随着各种数字仪器和数码产品的普及，图像和视频已成为人类活动中最常用的信息载体，它们包含着物体的大量信息，成为人们获取外界原始信息的主要途径。然而在图像的获取、传输和存贮过程中常常会受到各种噪声的干扰和影响而使图像降质，并且图像预处理算法的好坏又直接关系到后续图像处理的效果，如图像分割、目标识别、边缘提取等，所以为了获取高质量数字图像，很有必要对图像进行降噪处理，以保持原始信息的完整性(即主要特征)的同时，又能去除信号中无用的信息。

目前，常采用的去噪方法是通过将噪声估计图作为输入，权衡对均匀分布的噪声的抑制和细节的保持，然而，对于局部模糊的图像去噪的效果较差。

发明内容

本申请实施例提供一种图像处理模型训练方法、图像处理方法、装置及电子设备，以解决图像去噪效果较差的问题。

为了解决上述技术问题，本申请实施例是这样实现的：

第一方面，本申请实施例提供了一种图像处理模型训练方法，包括：

获取训练样本图像；

将所述训练样本图像输入待训练模型，利用目标损失值进行训练得到目标图像处理模型；

其中，所述待训练模型包括图像去噪网络和图像评价网络，所述图像去噪网络用于对所述训练样本图像进行处理得到去噪图像，并根据所述去噪图像计算第一损失值，所述图像评价网络用于对所述训练样本图像进行处理得到所述训练样本图像的评价分数，并根据所述评价分数计算第二损失值，所述目标损失值为根据所述第一损失值与所述第二损失值得到。

可以看出，在本实施例中，待训练模型是包括图像去噪网络和图像评价网络的，在训练过程中，是采用根据所述第一损失值与所述第二损失值得到的目标损失值进行模型训练，也即是在训练过程中，考虑了图像去噪网络的第一损失值和图像评价网络的第二损失值，以提高模型训练效果，从而可得到去噪效果更好的目标图像处理模型，通过目标图像处理模型对图像进行去噪，可提高图像去噪效果。

第二方面，本申请实施例提供了一种图像处理方法，获取待处理图像；

将所述待处理图像输入目标图像处理模型的目标图像去噪网络中，得到目标去噪图像；

其中，所述目标图像处理模型根据上述图像处理模型训练方法训练得到。

可以看出，在本实施例中，所述目标图像处理模型根据上述实施例中的图像处理模型训练方法训练得到，其中待训练模型是包括图像去噪网络和图像评价网络的，在训练过程中，是采用根据所述第一损失值与所述第二损失值得到的目标损失值进行模型训练，也即是在训练过程中，考虑了图像去噪网络的第一损失值和图像评价网络的第二损失值，以提高模型训练效果，从而可得到去噪效果更好的目标图像处理模型，通过目标图像处理模型对待处理图像进行去噪，可提高图像去噪效果。

第三方面，本申请实施例还提供一种图像处理模型训练装置，包括：

第一获取模块，用于获取训练样本图像；

训练模块，用于将所述训练样本图像输入待训练模型，利用目标损失值进行训练得到目标图像处理模型；

第四方面，本申请实施例还提供一种图像处理装置，包括：

第二获取模块，用于获取待处理图像；

去噪模块，用于将所述待处理图像输入目标图像处理模型的目标图像去噪网络中，得到目标去噪图像；

第五方面，本申请实施例还提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述图像处理模型训练方法或者图像处理方法中的步骤。

第六方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述图像处理模型训练方法或者图像处理方法中的步骤。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理模型训练方法的流程图；

图2是本申请实施例提供的一种图像处理模型训练方法的原理图；

图3是本申请实施例提供的一种图像去噪网络的结构图示意图；

图4是本申请实施例提供的一种图像去噪网络中自注意力模块中一个自注意力子模块的结构图示意图；

图5是本申请实施例提供的一种图像评价网络的结构图示意图；

图6是本申请实施例提供的一种图像处理方法的流程图；

图7是本申请实施例提供的一种图像处理方法的原理图；

图8是本申请实施例提供的一种图像处理模型训练装置的结构示意图；

图9是本申请实施例提供的一种图像处理装置的结构示意图；

图10是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，图1是本申请实施例提供的一种图像处理模型训练方法的流程图，如图1所示，包括以下步骤：

步骤101：获取训练样本图像。

训练样本图像中每张图像的尺寸大小不作限定，可根据实际需求选择，例如，可以是480行640列(即480*640)。训练样本图像有对应的标签。本申请实施例中，标签采用双标签，即任一图像的标签包括该图像对应的标准去噪图像以及该图像对应的标准评价分数，图像的标准评价分数用于评价图像的质量，分数越高，图像质量越高，图像越清晰，反之图像质量越差，图像越模糊。例如，图像的标准评价分数可以是在一个预设范围内，例如，在0到100分的范围内，0分表示图像质量最差，100分可表示图像为高清图像。

步骤102：将训练样本图像输入待训练模型，利用目标损失值进行训练得到目标图像处理模型。

其中，待训练模型包括图像去噪网络和图像评价网络，图像去噪网络用于对训练样本图像进行处理得到去噪图像，并根据去噪图像计算第一损失值，图像评价网络用于对训练样本图像进行处理得到训练样本图像的评价分数，并根据评价分数计算第二损失值，目标损失值为根据第一损失值与第二损失值得到。

第一损失值可用于表征图像去噪网络对训练样本图像进行去噪的效果，值越大，表示去噪效果越差，反之去噪效果越好。第二损失值可用于表征图像评价网络对训练样本图像进行质量评价的效果，值越大，表示评价效果越差，反之评价效果越好。作为一个示例，图像去噪网络的损失函数可以是基于L2的损失函数，例如，可以是MSE(Mean SquareError，均方差)函数，可根据得到的去噪图像计算该损失函数的值，从而得到第一损失值。图像评价网络的损失函数可以是基于L2的损失函数MSE，可根据得到的评价分数计算该损失函数的值，从而得到第二损失值。作为一个示例，目标损失值可以为第一损失值与第二损失值的线性加权和，第一损失值的权重和第二损失值的权重，分别表示在训练过程中对应的损失值的影响程度，可预先根据实际需要设定，在本实施例中不作限定。

需要说明的是，目标图像处理模型可用于对待处理图像进行去噪得到目标去噪图像，图像评价网络为预训练网络，在待训练模型训练过程中其参数不变，即得到的目标图像处理模型包括目标图像去噪网络和图像评价网络，目标图像去噪网络即为图像去噪网络训练后的网络，即通过目标图像处理模型中的目标图像去噪网络对待处理图像进行去噪得到目标去噪图像。

需要说明的是，在训练过程中，不仅需要将训练样本图像输入待训练模型，还需要输入训练样本图像对应的标签输入待训练模型，通过训练样本图像以及对应的标签进行训练。上述根据去噪图像计算第一损失值可以理解为根据图像去噪网络得到的去噪图像以及训练样本图像的标准去噪图像计算第一损失值，第一损失值可用于表征图像去噪网络得到的去噪图像与标准去噪图像之间的差异程度，上述根据评价分数计算第二损失值可以理解为根据图像评价网络得到的评价分数以及训练样本图像的标准评价分数计算第二损失值，第二损失值可用于表征图像评价网络得到的评价分数与标准评价分数之间的差异程度。

在本实施例中，待训练模型是包括图像去噪网络和图像评价网络的，在训练过程中，是采用根据第一损失值与第二损失值得到的目标损失值进行模型训练，也即是在训练过程中，考虑了图像去噪网络的第一损失值和图像评价网络的第二损失值，以提高模型训练效果，从而可得到去噪效果更好的目标图像处理模型，通过目标图像处理模型对图像进行去噪，可提高图像去噪效果。

在一个实施例中，图像去噪网络包括依次相连的第一卷积层、第一变换层、字典层、第一全连接层、第二变换层、第一合并层、第二卷积层、自注意力模块、第二合并层、第三卷积层、第一相加层以及第四卷积层；

其中，第二合并层的输入还与第二卷积层的输出连接，第一相加层的输入还与第一卷积层的输出连接，第一卷积层的输入包括训练样本图像，第四卷积层输出去噪图像。

依次相连可以理解为前一层的输出作为后一层的输入，即第一变换层的输入连接第一卷积层(例如，可以是3*3的卷积)的输出，字典层的输入连接第一变换层的输出，第一全连接层(第一FC层)的输入连接字典层的输出，第二变换层的输入连接第一全连接层的输出，第一合并层(第一concat层)的输入连接第二变换层的输出，第二卷积层的输入连接第一合并层的输出，自注意力模块的输入连接第二卷积层的输出，第二合并层的输入连接自注意力模块的输出，第二合并层的输入还与第二卷积层的输出连接，即第二合并层对自注意力模块的输出以及第二卷积层的输出进行合并，并将合并后的结果输出至第三卷积层，第三卷积层的输入连接第二合并层的输出，第一相加层的输入连接第三卷积层的输出，第四卷积层的输入连接第一相加层的输出，另外，第一相加层的输入还与第一卷积层的输出连接，即第一相加层对第三卷积层的输出和第一卷积层的输出进行相加处理，并将相加处理后的结果输出到第四卷积层，第四卷积层对相加处理后的结果进行卷积处理输出去噪图像。作为一个示例，第四卷积层包括依次相连的第三子卷积层和第四子卷积层，第三子卷积层的输入连接第一相加层的输出，第四子卷积层的输出去噪图像。例如，第三子卷积层中的卷积核可以是3*3尺寸大小的卷积核，第三子卷积层中的卷积核可以是3*3尺寸大小的卷积核。

其中，需要说明的是，字典层是预训练好的字典层，也即是字典矩阵是已训练的字典矩阵，例如，可以是通过KSVD算法进行字典训练。字典层是通过字典矩阵对字典层的输入进行处理得到相应的结果。在本实施中，第一变换层的输出输入至字典层，字典层利用字典矩阵对第一变换层的输出进行处理，例如，第一变换层的输出为矩阵形式的输出，字典层是将第一变换层的输出与字典矩阵做乘积，得到相应的结果，并输出给第一全连接层。本实施例中的变换层(reshape)可以理解为改变变换层的输入的结构形式。例如，字典层的维度均为1024*4096，通过第一变换层将第一卷积层的输出拉成1*1024的矩阵，字典层对第一变换层的输出进行处理，可得到1*4096的矩阵形式的长条特征图。

在本实施例中，可通过第一卷积层对训练样本图像进行浅层纹理特征提取，提取的纹理信息中包括了中高领信息，通过第一变换层进行变换后输出至字典层，通过字典层可更好地识别特征，可得到更加准确的特征，字典层的输出输入到第一全连接层进行处理后，再通过第二变换层进行变换，并使用第一合并层对第二变换层的输出进行合并，然后使用第二卷积层对第一合并层的输出进行卷积处理，实现降维处理，减少计算量，自注意力模块对第二卷积层的输出进行处理后传输至第二合并层，第二合并层对自注意力模块的输出进行通道连接，使用第三卷积层进行卷积降维处理，再通过第一相加层对第三卷积层的输出与第一卷积层的输出进行相加，即进行全局残差以补充特征提取过程中丢失的高频信息，最后使用第四卷积层对第一相加层的输出进行特征平缓处理，得到训练样本图像的去噪图像。在训练过程中，通过本实施例中图像去噪网络的上述结构，可提高对图像的去噪效果，通过上述训练过程，可提高得到的目标图像处理模型的去噪效果。

在一个实施例中，自注意力模块(Self-weighting unit)包括依次相连的N个自注意力子模块，第二合并层的输入分别与N个自注意力子模块的输出连接，N为正整数；

N个自注意力子模块中的第i个自注意力子模块包括第五卷积层、第一支路层、第二支路层以及乘积层，其中，i为小于或等于N的正整数；第五卷积层的输入连接第二卷积层的输出或N个自注意力子模块中的第i-1个自注意力子模块的输出；第一支路层对第五卷积层的输出中C个通道的第一特征图进行处理得到C个权重，C为正整数，第二支路层对第五卷积层的输出中C个通道的第二特征图进行处理得到C个第三特征图，乘积层对C个权重以及C个第三特征图进行相乘得到C个目标特征图。

可以理解，乘积层的输入是分别连接第一支路的输出和第二支路的输出，第二合并层的输入与第二卷积层层的输出以及自注意力模块的输出连接，由于自注意力模块包括依次相连的N个自注意力子模块，如此，第二合并层的输入是分别与N个自注意力子模块的输出连接，即第二合并层的输入分别与第二卷积层层的输出以及N个自注意力子模块的输出连接。

需要说明的是，第五卷积层采用的卷积为2C通道的卷积(例如，可以是3*3的卷积)，从而通过第五卷积层的储户可包括2C个通道的特征图，将其一分为二，即C个通道的第一特征图以及C个通道的第二特征图，分别通过不同的支路进行处理。对于i为1的情况，第1个自注意力子模块中第五卷积层的输入连接第二卷积层的输出，对于i大于1的情况，第i个自注意力子模块中第五卷积层的输入连接第i-1个自注意力子模块的输出。乘积层的输入连接第一支路层的输出和第二支路层的输出，乘积层将一个权重乘以一个第三特征图得到一个目标特征图，每个第三特征图对应相乘一个权重，从而得到C个目标特征图。在本实施例中，通过N个自注意力子模块可以提取图像的高频细节特征，提高模型训练效果，使得到去噪更好的目标图像处理模型。N在本实施例中不作限定，例如，N可以去4等。

在一个实施例中，第一支路层包括依次相连的第六卷积层、第一池化层、第七卷积层、第八卷积层、第二相加层以及回归层，第二相加层的输入还与第六卷积层的输出连接，乘积层的输入与第一支路层中回归层的输出连接。

可以理解，将第一池化层的输入连接第六卷积层的输出，第七卷积层的输入连接第一池化层的输出，第八卷积层的输入连接第七卷积层的输出，第二相加层的输入连接第八卷积层的输出以及第六卷积层的输出，回归层的输入连接第二相加层的输出。

在本实施例中，第六卷积层(例如，可以是1*1的卷积)对C个通道的第一特征图进行卷积，实现降维，第一池化层对第六卷积层的输出进行池化处理，即对第六卷积层输出得到特征图进行压缩，再经过第七卷积层(例如，C/2个通道的3*3卷积)进行降维处理以及特征提取，再经过第八卷积层(例如，C个通道的1*1卷积)进行通道恢复，这样一压缩一膨胀可以更好地从不同维度提取到高频特征，第二相加层对第八卷积层的输出与第六卷积层(例如，可以是1*1的卷积)的输出进行相加处理，即进行残差学习以补充丢失的特征，再通过回归层(例如，sigmoid逻辑回归)进行权重提取，得到C个权重，如此，可提高得到C个权重的准确性，提高模型训练效果。

在一个实施例中，第二支路层包括依次相连的第九卷积层、第三合并层、第十卷积层、第四合并层、第十一卷积层、第五合并层、第十二卷积层、第六合并层以及第十三卷积层；

其中，第四合并层的输入还与第九卷积层的输出连接，第五合并层的输入还与第九卷积层的输出以及第十卷积层的输出连接，第六合并层的输入还与第九卷积层的输出、第十卷积层的输出以及第十一卷积层的输出连接，乘积层的输入与第二支路层中第十三卷积层的输出连接。

可以理解，第三合并层的输入连接第九卷积层的输出，第十卷积层的输入连接第九卷积层的输出，第四合并层的输入连接第十卷积层的输出以及第九卷积层的输出，第十一卷积层的输入连接第四合并层的输出，第五合并层的输入连接第十一卷积层的输出、第九卷积层的输出以及第十卷积层的输出，第十二卷积层的输入连接第五合并层的输出，第六合并层的输入连接第十二卷积层、第九卷积层的输出、第十卷积层的输出以及第十一卷积层的输出，第十三卷积层的输入连接第六合并层的输出。

即在本实施例中，第二支路层通过多个卷积层链接，第十三卷积层对维度进行降维，得到C个第三特征图，使提取到图像更多的细节特征，提高模型训练的效果，使训练得到的目标图像处理模型的去噪效果更佳。

在一个实施例中，第一卷积层包括第一子卷积层和第二子卷积层，第二子卷积层连接于第一子卷积层与第一变换层之间，第一变换层的输入连接第一卷积层中第二子卷积层的输出，第一相加层的输入与第一卷积层中第二子卷积层的输出连接；

字典层包括P个子字典层，P为正整数，第一全连接层包括P个子全连接层，第二变换层包括P个子变换层，第一合并层的输入连接P个子变换层的输出；

P个子字典层中每个子字典层的输入连接第一变换层的输出，一个子字典层通过一个子全连接层连接到一个子变换层。

可以理解，P为正整数，P个子字典层中的字典矩阵不同，一个子变换层的输入连接一个子全连接层的输出，一个子全连接层的输入连接一个子字典层的输出，且每个子变换层连接的子全连接层不同，每个子全连接层连接的子字典层不同。

在本实施例中，通过不同的子字典层对第一变换层的输出进行处理，如此，可得到不同的特征信息，不同的子字典层的输出分别输入到不同的子全连接层处理后，通过不同的子变换层对子全连接层的输出进行变换，然后进行合并，这样可提高模型训练效果。

在一个实施例中，图像评价网络包括依次相连的第十四卷积层、第十五卷积层、第三相加层、特征提取层以及第二池化层以及第二全连接层，第十四卷积层的输入包括训练样本图像，第二全连接层输出评价分数。

通过本实施结构的图像评价网络可提取图像的更多细节特征，从而可提高模型训练效果。作为一个示例，第二全连接层包括依次相连的第一个全连接层和第二个全连接层，第一个全连接层的输入连接第二池化层的输出，第二个全连接层输出上述评价分数。

在一个实施例中，特征提取层包括依次相连的M个提取模块，M为正整数，M个提取模块中的第j个提取模块包括依次相连的第三池化层、第十六卷积层、第十七卷积层以及第四相加层，j为小于或等于M的正整数，第四相加层的输入还与十六卷积层的输出连接，第三池化层的输入连接第三相加层的输出或M个提取模块中的第j-1个提取模块的输出。

可以理解，第十六卷积层的输入连接第三池化层的输出，第十七卷积层的输入连接第十六卷积层的输入，第四相加层的输入连接第十七卷积层的输出以及第十六卷积层的输出。提取模块的输出即为该提取模块中第四相加层的输出，第二池化层的输入与特征提取层中第M个提取模块的输出连接。每个提取模块中的第十六卷积层、第十七卷积层、第四相加层以及对应的结构可以理解为一个残差网络，且提取模块中的第十四卷积层、第十五卷积层、第三相加层以及对应的结构也可以理解为一个残差网络。

需要说明的是，对于j为1的情况，第1个提取模块中的第三池化层的输入连接第三相加层的输出，对于j大于1的情况，第j个提取模块中的第三池化层的输入连接第j-1个提取模块的输出。

在本实施例中，图像评价网络中的特征提取层包括依次相连的M个提取模块，通过M个提取模块可提取更多图像的细节特征，以提高模型训练效果。

下面以一个具体实施例对上述图像处理模型训练方法的过程加以具体说明。

如图2所示，为本申请实施例的图像处理模型训练方法的原理图。图3为本申请中待训练模型中图像去噪网络的结构示意图，图像去噪网络中包括字典层以及N个自注意力子模块，字典层包括3个子字典层，子字典层的维度均为1024*4096，并且该网络中的所有的卷积通道数若无说明则均为C。

本网络首先训练3个子字典层，即训练三个字典矩阵，可使用KSVD算法(是一种稀疏表示中字典学习的算法)进行字典的训练。

该网络流程：首先输入经过2个3*3的卷积(即第一子卷积层和第二子卷积层)进行浅层纹理特征提取，提取图片的纹理信息，包含了中高频信息，可以使字典层可以更好的识别特征；将2个卷积输出的特征输入第一变换层进行变换(reshape)，拉成一个1*1024的长条(为了将特征送进字典)，然后送进字典层，字典层根据输入的特征可以输出标准的特征类型，输出一个1*4096的长条特征图，然后将其送进全连接层(如图3所示，可包括3个子全连接层)，全连接层的神经元个数为1024，将全连接层的输出输入至第二变换层(如图3所示，可包括3个子变换层)，可输出32*32的特征图，并使用第一合并层层将3个子变换鞥输出的特征进行集成，然后使用1*1的卷积(第二卷积层)作为瓶颈层进行降维处理，减少计算量，并且将特征进行融合，然后将特征图送进自注意力模块，其中，每个自注意力子模块的输出都送到第二合并层进行通道连接，然后使用1*1的卷积(即第三卷积层)进行降维，再将其与本网络的第二子卷积层的输出进行全局残差以补充特征提取过程中丢失的高频信息，最后使用2个3*3的卷积(即第四卷积层)进行特征平缓处理。

本申请中的自注意力模块的结构如图4所示，将输入的特征经过一层3*3的卷积(即第五卷积层)进行进一步的特征纹理提取以及通道数保持，然后将卷积通道数2C分成2份，上支路(第一支路层)以及下支路(第二支路层)输入通道数分别为C，上支路首先通过一个1*1的卷积进行降维，再经过全局池化将上一层输出的特征图压缩为1*1大小，再经过通道数为C/2的3*3卷积进行降维以及特征提取，再经过道数为C的1*1卷积进行通道恢复，这样一压缩一膨胀可以更好的从不同维度提取到高频特征，而且减少参数，然后将输出与第一层的1*1的卷积(第六卷积层)进行残差学习以补充丢失的特征，再通过sigmoid函数进行权重提取，也就是图片的整体模糊程度的权重；下支路由5层卷积密集链接组成，每层卷积的输入均为前面基层卷积的输出，第5层卷积的作用是瓶颈层，对前面的维度进行降维；然后将上支路提取的权重，通过相乘的形式加权到下支路以实现不同通道之间提取特征的差异性。考虑到速度和性能的原因，本申请可使用4个自注意力子模块。

如图5所示，为图像评价网络的结构示意图，其中，M可以取4，第十四卷积层、第十五卷积层、第三相加层组成一个残差网络，即图像评价网络中包括5个残差网络，每个残差网络中包括2个3*3的卷积，且通道数均为64，每个残差网络后紧接着一个Maxpool(最大池化，对应第三池化层)层进行降维，其中最后一个残差网络后为一个全局池化(对应第二池化层)来保证将特征图降为1*1大小，全局残差后紧跟2层全连接层(即对应第二全连接层)，第二全连接层中第一个全连接层中有1024个神经元，第二个全连接层为2个神经元，最后得到一个评价分数。每个残差结网络都能够补充丢失的中高频信息，这样的图像评价网络结构可以较大限度低在保持性能的同时还保证处理速度较快，具有实用价值。

目前的算法对于局部模糊的去噪效果较差，例如只有人脸在动的模糊进行去噪的效果较差，又或者局部模糊也可去噪，但是去噪后的像素与高清图不匹配。本申请公开了一种有效去除图像噪声的技术方案，可解决目前去噪算法无法有效解决局部模糊的问题。本申请能够较好地对模糊图片进行去噪，因为本申请中一个通路为像素级图像去噪网络，一个通路为整体的图像评价网络，图像去噪网络提供了整体的模糊程度，相当于多了一个已知参数；图像评价网络得到的评价分数是从感知上的一个分值，图像去噪网络是像素级的去噪，单纯的像素级去噪很可能得到一个平滑的图片，而感知分值可以从整体去指导图像去噪网络进行去噪；再者，本申请中图像去噪网络的自注意力模块可以较好的提取图片的高频细节特征，为去噪恢复为清晰图片做好了铺垫。此外，本申请使用P个字典层进行预处理，相当于有了3个已知信息，在去噪的过程中，若发现模糊，第一可以通过字典层中的标准特征去替换，第二可以通过网络学习去除噪声。

参见图6和7，图6是本申请实施例提供的图像处理方法的流程图，该方法包括：

步骤601：获取待处理图像；

步骤602：将待处理图像输入目标图像处理模型的目标图像去噪网络中，得到目标去噪图像；

其中，目标图像处理模型根据上述实施例中的图像处理模型训练方法训练得到。

在本实施例中，目标图像处理模型根据上述实施例中的图像处理模型训练方法训练得到，其中待训练模型是包括图像去噪网络和图像评价网络的，在训练过程中，是采用根据第一损失值与第二损失值得到的目标损失值进行模型训练，也即是在训练过程中，考虑了图像去噪网络的第一损失值和图像评价网络的第二损失值，以提高模型训练效果，从而可得到去噪效果更好的目标图像处理模型，通过目标图像处理模型对待处理图像进行去噪，可提高图像去噪效果。

在一个实施例中，将待处理图像输入目标图像处理模型的目标图像去噪网络中，得到目标去噪图像，包括

将待处理图像输入目标图像去噪网络中的第一卷积层进行卷积处理，得到第一卷积图；

将第一卷积图输入目标图像去噪网络中的第一变换层进行变换处理，得到第一变换特征图；

将第一变换特征图输入目标图像去噪网络中的字典层进行特征提取，得到字典特征图；

将字典特征图输入目标图像去噪网络中的第一全连接层进行处理，得到第一全连接向量；

将第一全连接向量输入目标图像去噪网络中的第二变换层进行变换，得到第二变换特征图；

将第二变换特征图输入目标图像去噪网络中的第一合并层进行合并得到第一合并结果；

将第一合并结果输入目标图像去噪网络中的第二卷积层进行卷积处理，得到第二卷积图；

将第二卷积图输入目标图像去噪网络中的自注意力模块进行处理，得到待处理图像的目标特征图；

将第二卷积图以及待处理图像的目标特征图输入目标图像去噪网络中的第二合并层进行合并得到第二合并结果；

将第二合并结果输入目标图像去噪网络中的第三卷积层进行卷积处理，得到第三卷积图；

将第三卷积图以及第一卷积图输入目标图像去噪网络中的第一相加层进行相加处理，得到第一相加结果；

将第一相加结果输入目标图像去噪网络中的第四卷积层进行卷积处理，得到目标去噪图像。

即在本实施例中，可通过第一卷积层对待处理图像进行浅层纹理特征提取，提取的纹理信息通过第一变换层进行变换后输出至字典层，通过字典层可更好地识别特征，可得到更加准确的特征，字典层的输出输入到第一全连接层进行处理后，再通过第二变换层进行变换，并使用第一合并层对第二变换层的输出进行合并，然后使用第二卷积层对第一合并层的输出进行卷积处理，实现降维处理，减少计算量，自注意力模块对第二卷积层的输出进行处理后传输至第二合并层，第二合并层对自注意力模块的输出进行通道连接，使用第三卷积层进行卷积降维处理，再通过第一相加层对第三卷积层的输出与第一卷积层的输出进行相加，即进行全局残差以补充特征提取过程中丢失的高频信息，最后使用第四卷积层对第一相加层的输出进行特征平缓处理，得到待处理图像的目标去噪图像。通过本实施例中的图像处理方法，可提高对待处理图像的去噪效果。

需要说明的是，上述目标处理图像模块中的目标图像去噪网络是通过上述个实施例的图像处理模型训练方法进行训练得到的，即技术特征是一一对应，在此不再赘述。

参见图8，图8是本申请实施例提供的图像处理模型训练装置的结构图，能实现上述实施例中图像处理模型训练方法的细节，并达到相同的效果。如图8所示，图像处理模型训练装置800，包括：

第一获取模块801，用于获取训练样本图像；

训练模块802，用于将训练样本图像输入待训练模型，利用目标损失值进行训练得到目标图像处理模型；

在一个实施例中，目标损失值为第一损失值与第二损失值的线性加权和。

在一个实施例中，自注意力模块包括依次相连的N个自注意力子模块，第二合并层的输入分别与N个自注意力子模块的输出连接，N为正整数；

N个自注意力子模块中的第i个自注意力子模块包括第五卷积层、第一支路层、第二支路层以及乘积层，其中，i为小于或等于N的正整数，第五卷积层的输入连接第二卷积层的输出或N个自注意力子模块中的第i-1个自注意力子模块的输出，第一支路层对第五卷积层的输出中C个通道的第一特征图进行处理得到C个权重，C为正整数，第二支路层对第五卷积层的输出中C个通道的第二特征图进行处理得到C个第三特征图，乘积层对C个权重以及C个第三特征图进行相乘得到C个目标特征图。

其中，第四合并层的输入还与第九卷积层的输出的连接，第五合并层的输入还与第九卷积层的输出以及第十卷积层的输出连接，第六合并层的输入还与第九卷积层的输出、第十卷积层的输出以及第十一卷积层的输出连接，乘积层的输入与第二支路层中第十三卷积层的输出连接。

本申请实施例提供的图像处理模型训练装置能够实现上述图像处理模型训练方法实施例中图像处理模型训练装置实现的各个过程，为避免重复，这里不再赘述。

参见图9，图9为本申请实施例提供的一种图像处理装置的结构示意图，本申请实施例中的图像处理装置应用于声纹辨认模型中，声纹辨认模型与声纹分割模型连接，声纹分割模型根据上述的图像处理模型训练方法训练得到，如图9所示，图像处理装置900，包括：

第二获取模块901，用于获取待处理图像；

去噪模块902，用于将待处理图像输入目标图像处理模型的目标图像去噪网络中，得到目标去噪图像；

其中，目标图像处理模型根据上述图像处理模型训练方法训练得到。

在一个实施例中，去噪模块902，用于：

图10为实现本申请各个实施例的一种电子设备的硬件结构示意图。

该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、处理器1010、以及电源1011等部件。本领域技术人员可以理解，图10中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本申请实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器1010，用于：获取训练样本图像；以及

将训练样本图像输入待训练模型，利用目标损失值进行训练得到目标图像处理模型；

或者，处理器1010，用于获取待处理图像；以及

将待处理图像输入目标图像处理模型的目标图像去噪网络中，得到目标去噪图像；

在一个实施例中，处理器1010，还用于：

本申请实施例同样具有与上述图像处理模型训练方法或图像处理方法中各实施例相同的有益技术效果，具体在此不再赘述。

应理解的是，本申请实施例中，射频单元1001可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器1010处理；另外，将上行的数据发送给基站。通常，射频单元1001包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元1001还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块1002为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元1003可以将射频单元1001或网络模块1002接收的或者在存储器1009中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元1003还可以提供与电子设备1000执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元1003包括扬声器、蜂鸣器以及受话器等。

输入单元1004用于接收音频或视频信号。输入单元1004可以包括图形处理器(Graphics Processing Unit，GPU)10041和麦克风10042，图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元1006上。经图形处理器10041处理后的图像帧可以存储在存储器1009(或其它存储介质)中或者经由射频单元1001或网络模块1002进行发送。麦克风10042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元1001发送到移动通信基站的格式输出。

电子设备1000还包括至少一种传感器1005，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板100101的亮度，接近传感器可在电子设备1000移动到耳边时，关闭显示面板100101和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器1005还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元1006用于显示由用户输入的信息或提供给用户的信息。显示单元1006可包括显示面板100101，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板100101。

用户输入单元1007可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元1007包括触控面板10071以及其他输入设备10072。触控面板10071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板10071上或在触控面板10071附近的操作)。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1010，接收处理器1010发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板10071。除了触控面板10071，用户输入单元1007还可以包括其他输入设备10072。具体地，其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板10071可覆盖在显示面板100101上，当触控面板10071检测到在其上或附近的触摸操作后，传送给处理器1010以确定触摸事件的类型，随后处理器1010根据触摸事件的类型在显示面板100101上提供相应的视觉输出。虽然在图10中，触控面板10071与显示面板100101是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板10071与显示面板100101集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元1008为外部装置与电子设备1000连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元1008可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备1000内的一个或多个元件或者可以用于在电子设备1000和外部装置之间传输数据。

存储器1009可用于存储软件程序以及各种数据。存储器1009可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1009可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1010是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器1009内的软件程序和/或模块，以及调用存储在存储器1009内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器1010可包括一个或多个处理单元；优选的，处理器1010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

电子设备1000还可以包括给各个部件供电的电源1011(比如电池)，优选的，电源1011可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备1000包括一些未示出的功能模块，在此不再赘述。

优选的，本申请实施例还提供一种电子设备，包括处理器1010，存储器1009，存储在存储器1009上并可在所述处理器1010上运行的计算机程序，该计算机程序被处理器1010执行时实现上述图像处理模型训练方法或者图像处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述图像处理模型训练方法或者图像处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种图像处理模型训练方法，其特征在于，包括：

获取训练样本图像；

其中，所述待训练模型包括图像去噪网络和图像评价网络，所述图像去噪网络用于对所述训练样本图像进行处理得到去噪图像，并根据所述去噪图像计算第一损失值，所述图像评价网络用于对所述训练样本图像进行处理得到所述训练样本图像的评价分数，并根据所述评价分数计算第二损失值，所述目标损失值为根据所述第一损失值与所述第二损失值得到；

其中，所述图像去噪网络包括依次相连的第二卷积层、自注意力模块、第二合并层；所述自注意力模块包括依次相连的N个自注意力子模块，所述第二合并层的输入分别与所述N个自注意力子模块的输出连接，N为正整数；所述N个自注意力子模块中的第i个自注意力子模块包括第五卷积层、第一支路层、第二支路层以及乘积层，其中，i为小于或等于N的正整数；所述第五卷积层的输入连接所述第二卷积层的输出或所述N个自注意力子模块中的第i-1个自注意力子模块的输出；所述第一支路层对所述第五卷积层的输出中C个通道的第一特征图进行处理得到C个权重，C为正整数，所述第二支路层对所述第五卷积层的输出中C个通道的第二特征图进行处理得到C个第三特征图，所述乘积层对所述C个权重以及所述C个第三特征图进行相乘得到C个目标特征图。

2.根据权利要求1所述的方法，其特征在于，所述目标损失值为所述第一损失值与所述第二损失值的线性加权和。

3.根据权利要求1所述的方法，其特征在于，所述图像去噪网络包括依次相连的第一卷积层、第一变换层、字典层、第一全连接层、第二变换层、第一合并层、所述第二卷积层、所述自注意力模块、所述第二合并层、第三卷积层、第一相加层以及第四卷积层；

其中，所述第二合并层的输入还与所述第二卷积层的输出连接，所述第一相加层的输入还与所述第一卷积层的输出连接；

所述第一卷积层的输入包括所述训练样本图像，所述第四卷积层输出所述去噪图像。

4.根据权利要求1所述的方法，其特征在于，所述第一支路层包括依次相连的第六卷积层、第一池化层、第七卷积层、第八卷积层、第二相加层以及回归层，所述第二相加层的输入还与所述第六卷积层的输出连接，所述乘积层的输入与所述第一支路层中所述回归层的输出连接。

5.根据权利要求1所述的方法，其特征在于，所述第二支路层包括依次相连的第九卷积层、第三合并层、第十卷积层、第四合并层、第十一卷积层、第五合并层、第十二卷积层、第六合并层以及第十三卷积层；

其中，所述第四合并层的输入还与所述第九卷积层的输出的连接，所述第五合并层的输入还与所述第九卷积层的输出以及所述第十卷积层的输出连接，所述第六合并层的输入还与所述第九卷积层的输出、所述第十卷积层的输出以及所述第十一卷积层的输出连接，所述乘积层的输入与所述第二支路层中所述第十三卷积层的输出连接。

6.根据权利要求3所述的方法，其特征在于，所述第一卷积层包括第一子卷积层和第二子卷积层，所述第二子卷积层连接于所述第一子卷积层与所述第一变换层之间，所述第一变换层的输入连接所述第一卷积层中所述第二子卷积层的输出，所述第一相加层的输入与所述第一卷积层中所述第二子卷积层的输出连接；

所述字典层包括P个子字典层，所述P为正整数，所述第一全连接层包括P个子全连接层，所述第二变换层包括P个子变换层，所述第一合并层的输入连接所述P个子变换层的输出；

所述P个子字典层中每个子字典层的输入连接所述第一变换层的输出，一个子字典层通过一个子全连接层连接到一个子变换层。

7.根据权利要求1所述的方法，其特征在于，所述图像评价网络包括依次相连的第十四卷积层、第十五卷积层、第三相加层、特征提取层以及第二池化层以及第二全连接层，所述第十四卷积层的输入包括所述训练样本图像，所述第二全连接层输出所述评价分数。

8.根据权利要求7所述的方法，其特征在于，所述特征提取层包括依次相连的M个提取模块，M为正整数，所述M个提取模块中的第j个提取模块包括依次相连的第三池化层、第十六卷积层、第十七卷积层以及第四相加层，j为小于或等于M的正整数，所述第四相加层的输入还与所述十六卷积层的输出连接，所述第三池化层的输入连接所述第三相加层的输出或所述M个提取模块中的第j-1个提取模块的输出。

9.一种图像处理方法，其特征在于，所述方法包括：

获取待处理图像；

其中，所述目标图像处理模型根据权利要求1至8中任一项所述的图像处理模型训练方法训练得到。

10.根据权利要求9所述的方法，其特征在于，所述将所述待处理图像输入目标图像处理模型的目标图像去噪网络中，得到目标去噪图像，包括

将所述待处理图像输入所述目标图像去噪网络中的第一卷积层进行卷积处理，得到第一卷积图；

将所述第一卷积图输入所述目标图像去噪网络中的第一变换层进行变换处理，得到第一变换特征图；

将所述第一变换特征图输入所述目标图像去噪网络中的字典层进行特征提取，得到字典特征图；

将所述字典特征图输入所述目标图像去噪网络中的第一全连接层进行处理，得到第一全连接向量；

将所述第一全连接向量输入所述目标图像去噪网络中的第二变换层进行变换，得到第二变换特征图；

将所述第二变换特征图输入所述目标图像去噪网络中的第一合并层进行合并得到第一合并结果；

将所述第一合并结果输入所述目标图像去噪网络中的第二卷积层进行卷积处理，得到第二卷积图；

将所述第二卷积图输入所述目标图像去噪网络中的自注意力模块进行处理，得到所述待处理图像的目标特征图；

将所述第二卷积图以及所述待处理图像的目标特征图输入所述目标图像去噪网络中的第二合并层进行合并得到第二合并结果；

将所述第二合并结果输入所述目标图像去噪网络中的第三卷积层进行卷积处理，得到第三卷积图；

将所述第三卷积图以及所述第一卷积图输入所述目标图像去噪网络中的第一相加层进行相加处理，得到第一相加结果；

将所述第一相加结果输入所述目标图像去噪网络中的第四卷积层进行卷积处理，得到所述目标去噪图像。

11.一种图像处理模型训练装置，其特征在于，包括：

第一获取模块，用于获取训练样本图像；

12.一种图像处理装置，其特征在于，包括：

第二获取模块，用于获取待处理图像；

13.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的图像处理模型训练方法中的步骤，或者，所述处理器执行所述计算机程序时实现如权利要求9-10所述的图像处理方法中的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的图像处理模型训练方法中的步骤，或者，所述计算机程序被处理器执行时实现如权利要求9-10所述的图像处理方法中的步骤。