CN111598808A

CN111598808A - 图像处理方法、装置、设备及其训练方法

Info

Publication number: CN111598808A
Application number: CN202010419181.7A
Authority: CN
Inventors: 季孝忠; 曹赟; 邰颖; 汪铖杰; 李季檩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2020-08-28
Anticipated expiration: 2040-05-18
Also published as: WO2021233006A1; CN111598808B; US20220261965A1

Abstract

提供了一种图像处理方法、装置、设备及其训练方法，该训练方法包括：获取样本图像集，该样本图像集包括第一数量的样本图像；基于该样本图像集构建图像特征集，该图像特征集包括分别从该样本图像集中的每个样本图像提取的至少一个图像特征；获取训练图像集，该训练图像集包括第二数量的训练图像，该训练图像集与该样本图像集完全相同、部分相同或完全不同，该第一数量和该第二数量相同或不同；基于该训练图像集和该图像特征集构建多个训练图像对；以及基于该多个训练图像对对该图像处理模型进行训练。该训练方法利用无标记的真实图像作为训练输入，使得经训练的神经网络可以处理低分辨率图像中的模糊/噪声问题，生成更清晰/干净的高分辨率图像。

Description

图像处理方法、装置、设备及其训练方法

技术领域

本发明涉及图像处理技术，更具体地，涉及一种图像处理方法、装置、设备及其训练方法。

背景技术

图像在形成、记录、处理和传输过程中，由于成像系统、记录设备、传输介质和处理方法的不完善，导致图像质量的下降，这种现象叫做图像退化。真实世界中的图像的退化方式往往是未知的，从而需要正确地对其进行估计，以恢复出原始高清图像。通过图像处理算法或神经网络将低分辨率图像放大为高分辨率图像的过程被称为超分辨率处理过程。然而，目前的超分辨率算法都是基于干净且清晰的训练图像来训练神经网络的。这些方法通过双三次(bicubic)算子将高分辨率图像进行缩小，从而得到低分辨率图像，并且基于由此构造的成对训练图像，训练能够处理干净且清晰图像的神经网络。然而，通过bicubic算子构造的低分辨率图像无法保留真实图像退化场景下的低分辨率图像的噪声或模糊度特征，因此，目前的超分辨率算法在理想的干净图像数据上效果稳定，但对于具有一定噪声和模糊度的真实图像，处理效果欠佳。目前的超分辨率算法还存在以下不足：1)使用特定的bicubic算子构造训练数据，不符合真实图像的退化过程；2)仅仅实现了分辨率的放大，无法处理低分辨率图像中的模糊/噪声问题；3)生成的高分辨率图像纹理细节不够丰富，无法重建逼真的纹理信息。

基于此，需要一种新颖的图像处理模型训练方法，其不需要成对的训练图像，仅利用无标记的真实图像作为训练输入，使得经训练的神经网络可以处理低分辨率图像中的模糊/噪声问题，生成更加清晰/干净的高分辨率图像。

发明内容

本发明的实施例提供了一种图像处理模型的训练方法，包括：获取样本图像集，所述样本图像集包括第一数量的样本图像；基于所述样本图像集构建图像特征集，所述图像特征集包括分别从所述样本图像集中的每个样本图像提取的至少一个图像特征；获取训练图像集，所述训练图像集包括第二数量的训练图像，所述训练图像集与所述样本图像集完全相同、部分相同或完全不同，所述第一数量和所述第二数量相同或不同；基于所述训练图像集和所述图像特征集构建多个训练图像对；以及基于所述多个训练图像对对所述图像处理模型进行训练。

根据本发明的实施例，其中，所述至少一个图像特征包括模糊度特征和噪声特征，其中，基于所述样本图像集构建图像特征集包括：提取所述样本图像集中的每个样本图像的模糊度特征和噪声特征；以及基于所述每个样本图像的模糊度特征和噪声特征来构建所述图像特征集。

根据本发明的实施例，其中，每个训练图像对包括一个训练目标图像和一个训练输入图像，所述训练目标图像的分辨率高于所述训练输入图像的分辨率，其中，基于所述训练图像集和所述图像特征集构建多个训练图像对包括：对于所述训练图像集中的至少一部分训练图像中的每一个，对该训练图像进行图像增强，以获取所述训练目标图像；以及基于所述训练目标图像和所述图像特征集获取与所述训练目标图像相对应的训练输入图像。

根据本发明的实施例，其中，对该训练图像进行图像增强，以获取所述训练目标图像包括：对所述训练图像进行去噪声和/或去模糊处理，以获取所述训练目标图像，其中所述训练目标图像的模糊度和/或噪声低于所述训练图像的模糊度和/或噪声。

根据本发明的实施例，其中，对该训练图像进行图像增强，以获取所述训练目标图像包括：对所述训练图像进行双三次插值下采样处理，以获取所述训练目标图像。

根据本发明的实施例，其中，基于所述训练目标图像和所述图像特征集获取与所述训练目标图像相对应的训练输入图像包括：从所述图像特征集中选取至少一个图像特征；将所述选取的至少一个图像特征应用于所述训练目标图像；以及对所述训练目标图像进行下采样，以获取所述训练输入图像。

根据本发明的实施例，所述至少一个图像特征包括至少一个模糊度特征和至少一个噪声特征。其中，基于所述训练目标图像和所述图像特征集获取与所述训练目标图像相对应的训练输入图像包括：从所述图像特征集中选取至少一个模糊度特征和至少一个噪声特征；将所述选取的至少一个模糊度特征应用于所述训练目标图像，以得到添加了模糊度的训练中间图像；对所述添加了模糊度的训练中间图像进行下采样，以得到下采样后的训练中间图像；以及将所述选取的至少一个噪声特征应用于所述下采样后的训练中间图像，以得到所述训练输入图像。

根据本发明的实施例，其中，所述图像处理模型包括神经网络模型，其中，基于所述多个训练图像对对所述图像处理模型进行训练包括：对于所述多个训练图像对中的每一个训练图像对，将该训练图像对中的训练输入图像作为所述神经网络模型的输入；基于所述神经网络模型的输出与所述训练图像对中的训练目标图像来计算所述神经网络模型的损失函数；以及基于所述损失函数来优化所述神经网络模型的网络参数。

根据本发明的实施例，其中，所述神经网络模型的损失函数包括重建损失和感知损失，其中，所述重建损失为所述神经网络模型的输出图像的像素值与所述训练目标图像的对应像素值之间的L1范式距离或L2范式距离，所述感知损失为所述神经网络模型的输出图像的低频图像特征与所述训练目标图像的低频图像特征之间的L1范式距离或L2范式距离。

根据本发明的实施例，其中，所述神经网络模型与鉴别器网络组成生成对抗网络，其中，所述神经网络模型的损失函数还包括对抗损失，其中，所述对抗损失为所述神经网络模型的输出图像经所述鉴别器网络进行鉴别处理后的鉴别输出值。

本发明的实施例提供了一种图像处理方法，包括：获取待处理的输入图像；基于经训练的图像处理模型对所述待处理的输入图像进行图像处理，以生成经处理的输出图像，其中，所述输出图像的分辨率高于所述输入图像的分辨率；其中，所述经训练的图像处理模型是根据如上所述的任一训练方法进行训练的。

根据本发明的实施例，其中，在待处理的输入为视频数据的情况下，所述图像处理方法还包括：对所述视频数据进行帧抽取，以获取多个待处理的输入图像；基于所述经训练的图像处理模型分别对所述多个待处理的输入图像进行图像处理，以生成多个经处理的输出图像；以及将所述多个经处理的输出图像合成为输出视频数据。

本发明的实施例提供了一种图像处理装置，包括：输入模块，用于获取待处理的输入图像；图像处理模块，用于基于经训练的图像处理模型对所述待处理的输入图像进行图像处理，以生成经处理的输出图像；以及输出模块，用于输出所述经处理的输出图像，其中，所述输出图像的分辨率高于所述输入图像的分辨率；其中，所述经训练的图像处理模型是根据如上所述的任一训练方法进行训练的。

根据本发明的实施例，其中，所述装置还包括：帧抽取模块，用于在待处理的输入为视频数据的情况下对所述视频数据进行帧抽取，以获取多个待处理的输入图像；以及帧合成模块，用于将多个经处理的输出图像合成为输出视频数据，其中，所述图像处理模块还用于：基于所述经训练的图像处理模型分别对所述多个待处理的输入图像进行图像处理，以生成多个经处理的输出图像，其中，所述输出模块还用于：输出所述输出视频数据。

本发明的实施例提供了一种图像处理设备，包括：处理器；和存储器，其上存储有计算机可执行指令，所述指令在被处理器执行时用于实现如上所述的任一方法。

本发明的实施例提供了一种计算机可读存储介质，其上存储有计算机可执行指令，所述指令在被处理器执行时用于实现如上所述的任一方法。

本发明的实施例提供了一种图像处理方法、装置、设备及其训练方法，该训练方法对训练图像和退化方式无特定先验知识要求，能够分析图像本身存在的模糊/噪声问题；通过构建的退化池得到不同退化程度的图像，从而具备处理包含多种模糊/噪声的低分辨率图像的能力；通过调整损失函数，可以控制生成图像的纹理信息的丰富程度，以满足不同场景的图像处理需求；并且根据本发明实施例提供的图像处理方法生成的图像具有更少的伪影和假象，能够保留低分辨率图像中更多的重要信息。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些示例性实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了根据本发明实施例的图像处理系统的超分辨率处理的示意过程；

图2示出了根据本发明实施例的图像处理模型的训练方法的流程图；

图3示出了根据本发明实施例的图像处理模型的示例训练过程；

图4示出了根据本发明实施例的图像处理模型的示例测试过程；

图5示出了根据本发明实施例的基于图2和图3所示的训练方法的图像处理方法的流程图；

图6示出了根据本发明实施例的图像处理方法的处理效果对比；

图7示出了根据本发明实施例的图像处理装置的示意图；并且

图8示出了根据本发明实施例的图像处理设备的示意图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。

在本说明书和附图中，具有基本上相同或相似步骤和元素用相同或相似的附图标记来表示，且对这些步骤和元素的重复描述将被省略。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性或排序。

在本说明书和附图中，根据实施例，元素以单数或复数的形式来描述。然而，单数和复数形式被适当地选择用于所提出的情况仅仅是为了方便解释而无意将本发明限制于此。因此，单数形式包括复数形式，并且复数形式也包括单数形式，除非上下文另有明确说明。

本发明的实施例涉及利用神经网络来进行图像的去噪、去模糊以及超分辨率处理，为便于理解，以下首先介绍与本发明相关的一些概念。

真实图像：未经去噪、去模糊、超分辨率等处理的原始图像。例如，通过相机、智能手机等设备实际拍摄的原始图像。

图像退化：图像在形成、记录、处理和传输过程中，由于成像系统、记录设备、传输介质和处理方法的不完善，导致图像质量的下降，这种现象叫做图像退化。真实世界中的图像的退化方式往往是未知的，从而需要正确地对其进行估计，以恢复出原始高清图像。

图像去噪/去模糊：指通过图像处理算法或神经网络将带噪/模糊图像处理为干净/清晰图像的过程。

超分辨率：指通过图像处理算法或神经网络将低分辨率图像放大为高分辨率图像的过程。

神经网络：指利用构建的运算流程对输入数据进行运算的网络结构，可通过训练拟合特定数据。在本发明的实施例中，经训练的神经网络可以用于对输入的低分辨率图像进行处理，以生成高分辨率的输出图像。

下面，将结合附图对本发明的实施例进行进一步描述。

图1示出了根据本发明实施例的图像处理系统的超分辨率处理的示意过程100。

在如图1所示的超分辨率处理场景中，输入图像101可以是输入的待处理的低分辨率图像，例如，其可以是通过像素较低的相机或智能手机拍摄的低分辨率图像，可以是经过压缩处理后的低分辨率图像，也可以是经由网络或从特定存储器获取的低分辨率图像。可以例如经由图像处理系统(未示出)对输入图像101进行超分辨率处理，以生成分辨率放大后的输出图像(例如，分辨率放大4倍后的输出图像103)。在一个实施例中，图像处理系统还可以对低分辨率的输入图像101进行去噪声和/或去模糊处理，以生成噪声和/或模糊度更低(即，更干净和/或清晰)的输出图像。在一个实施例中，图像处理系统可以由经预先训练的神经网络来实现。在另一实施例中，图像处理系统还可以通过能够实现超分辨率、去噪和/或去模糊功能的任何其它图像处理算法来实现。

目前的一些超分辨率算法都是基于干净且清晰的训练图像来训练神经网络的。这些方法通过双三次(bicubic)算子将高分辨率图像进行缩小，从而得到低分辨率图像，并且基于由此构造的成对训练图像，训练能够处理干净且清晰图像的神经网络。然而，通过bicubic算子构造的低分辨率图像无法保留真实图像退化场景下的低分辨率图像的噪声或模糊度特征，因此，目前的超分辨率算法在理想的干净清晰图像数据上效果稳定，但对于具有一定噪声和模糊度的真实图像，处理效果欠佳。目前的超分辨率算法还存在以下不足：1)使用特定的bicubic算子构造训练数据，不符合真实图像的退化过程；2)仅仅实现了分辨率的放大，无法处理低分辨率图像中的模糊/噪声问题；3)生成的高分辨率图像纹理细节不够丰富，无法重建逼真的纹理信息。

基于此，需要一种新颖的图像处理模型训练方法，其不需要成对的训练图像，仅利用无标记的真实图像(即，实际拍摄的图像)作为训练输入，使得经训练的神经网络可以处理低分辨率图像中的模糊/噪声问题，生成更加清晰/干净的高分辨率图像。

下面结合图2和图3来描述根据本发明实施例的图像处理模型的训练方法及示例训练过程。

具体地，图2示出了根据本发明实施例的图像处理模型的训练方法200的流程图，并且图3示出了根据本发明实施例的图像处理模型的示例训练过程300。

如图2所示，首先，在步骤S201中，获取样本图像集，所述样本图像集包括第一数量的样本图像。

在一个实施例中，如图3所示，样本图像集301可以包括多个样本图像，其中，每个样本图像可以是包含有真实图像的噪声和模糊信息的任何图像，例如，其可以是通过像素较低的相机或智能手机拍摄的低分辨率图像(即，真实图像本身)，可以是经过压缩处理后的图像，可以是经由网络传输获取的图像，还可以是在形成、记录、处理和传输过程中经真实的图像退化后的其它任何图像。

接下来，在步骤S202中，基于所述样本图像集构建图像特征集，所述图像特征集包括分别从所述样本图像集中的每个样本图像提取的至少一个图像特征。所述至少一个图像特征可以包括模糊度特征和噪声特征。

具体地，在一个实施例中，可以提取样本图像集中的每个样本图像的模糊度特征和噪声特征，并且可以基于每个样本图像的模糊度特征和噪声特征来构建图像特征集。例如，在一个实施例中，如图3所示，可以在步骤S311处使用任何模糊核估计算法和任何图像噪声估计算法来估计每个样本图像的模糊核304和噪声305，并将估计得到的每个模糊核304和噪声305添加到退化池303当中。

接下来，在步骤S203中，获取训练图像集，所述训练图像集包括第二数量的训练图像，所述训练图像集与所述样本图像集完全相同、部分相同或完全不同，所述第一数量和所述第二数量相同或不同。

在一个实施例中，训练图像集可以是与样本图像集301完全相同的图像集合。在另一实施例中，训练图像集也可以是与样本图像集301完全不同的图像集合。例如，训练图像集可以是由与样本图像集301中的样本图像完全不同的其它多个高分辨率和/或干净和/或清晰的图像组成的图像集合，并且训练图像集中的训练图像的数量可以与样本图像集301中的样本图像的数量相同或不同。在其它实施例中，训练图像集也可以和样本图像集301部分相同，并且训练图像集中的训练图像的数量也可以与样本图像集301中的样本图像的数量相同或不同。

接下来，在步骤S204中，基于所述训练图像集和所述图像特征集构建多个训练图像对。

在一个实施例中，每个训练图像对可以包括一个训练目标图像和一个训练输入图像(例如，如图3所示，所述训练目标图像为高分辨率训练图像306且所述训练输入图像为低分辨率训练图像307)，所述训练输入图像的分辨率小于所述训练目标图像的分辨率。应了解，所述高分辨率训练图像306和所述低分辨率训练图像307是相对而言的，所述高分辨率训练图像306的分辨率高于所述低分辨率训练图像307的分辨率。基于训练图像集和图像特征集构建多个训练图像对可以包括：对于训练图像集中的至少一部分训练图像中的每一个(例如，训练图像302)，对该训练图像进行图像增强，以获取训练目标图像；以及基于该训练目标图像和图像特征集获取与该训练目标图像相对应的训练输入图像。应了解，所述训练目标图像(高分辨率训练图像306)的分辨率可以等于或低于所述训练图像的分辨率，所述训练输入图像(低分辨率训练图像307)的分辨率可以低于所述训练图像的分辨率和所述训练目标图像的分辨率。

具体地，图3示出了训练图像302来自于样本图像集301(即，训练图像集与样本图像集301部分或完全相同)的示例情况。在该示例情况下，如图3所示，可选地，可以在步骤S312处对训练图像302进行下采样处理，以获取训练目标图像(例如，高分辨率训练图像306)。经过下采样处理得到的高分辨率训练图像306的分辨率可以小于训练图像302的分辨率。在一个实施例中，除了进行下采样处理之外，还可以在步骤S312处对训练图像302进行去噪声和/或去模糊处理(未示出)，以获取分辨率小于训练图像302的分辨率、和/或噪声和/或模糊度低于训练图像302的噪声和/或模糊度的高分辨率训练图像306。在一个实施例中，可以对训练图像302进行双三次插值(bicubic)下采样处理，以获取分辨率降低、噪声和模糊度减小的高分辨率训练图像306。在这种情况下，示例的处理过程可以由如下等式(1)表示。

I_HR＝(I_src*k_bicubic)↓_sc (1)

其中，I_HR表示训练目标图像(例如，高分辨率训练图像306)，I_src表示训练图像302，k_bicubic表示理想bicubic核，↓_sc表示缩放因子为sc的下采样处理，并且*表示互相关运算。

在一个实施例中，基于训练目标图像和图像特征集获取与该训练目标图像相对应的训练输入图像可以包括：从图像特征集中选取至少一个图像特征；将选取的至少一个图像特征应用于训练目标图像；以及对训练目标图像进行下采样，以获取训练输入图像，其中，该训练输入图像的分辨率小于该训练目标图像的分辨率。可选的，可以从图像特征集中随机选取至少一个图像特征，也可以按照特定概率分布从图像特征集中选取至少一个图像特征。应了解，可以先将至少一个图像特征应用于训练目标图像，然后再对训练目标图像进行下采样；附加地或替换地，也可以先对训练目标图像进行下采样，然后再先将至少一个图像特征应用于下采样后的训练目标图像。

具体地，如图3所示，可以在步骤S313处对训练目标图像(例如，高分辨率训练图像306)进行退化处理，以获取对应的训练输入图像(例如，低分辨率训练图像307)。至少一个图像特征可以包括至少一个模糊度特征和至少一个噪声特征。例如，可以从图像特征集中选取至少一个模糊度特征和至少一个噪声特征；可以将选取的至少一个模糊度特征应用于训练目标图像，以得到添加了模糊度的训练中间图像；可以对添加了模糊度的训练中间图像进行下采样，以得到下采样后的训练中间图像；以及，可以将选取的至少一个噪声特征应用于下采样后的训练中间图像，以得到训练输入图像。

具体地，在一个实施例中，首先，可以从退化池303中选取一个预先估计得到的模糊核304，并且可以将其与训练目标图像(例如，高分辨率训练图像306)进行互相关(或卷积)运算，然后可以进行步幅为s的下采样处理，以获取经模糊处理和下采样处理的退化图像(未示出)，如下等式(2)所示。

I_D＝(I_HR*k_i)↓_s，i∈{1,2,...,m} (2)

其中，I_D表示退化图像，I_HR表示训练目标图像(例如，高分辨率训练图像306)，m表示退化池303中预先估计得到的模糊核304的总数，k_i表示从退化池303中选取出的特定模糊核，↓_s表示步幅为s的下采样处理，并且*表示互相关运算。在一个实施例中，这里所述的以步幅为s的下采样处理可以不同于上述的bicubic下采样处理，并且可以仅仅是简单的隔s个像素点的采样抽取。这样的下采样处理可以不影响图像的模糊特征。在一个实施例中，可以将至少一个模糊核应用于训练目标图像I_HR。

在一个实施例中，还可以从退化池303中选取一个预先估计得到的噪声305，并将其添加到退化图像中，以获取训练输入图像(例如，低分辨率训练图像307)，如下等式(3)所示。

I_LR＝I_D+n_i，i∈{1,2,...,l} (3)

其中，I_LR表示训练输入图像(例如，低分辨率训练图像307)，I_D表示由等式(2)获取的退化图像，l表示退化池303中预先估计得到的噪声305的总数，并且n_i表示从退化池303中选取出的特定噪声。n_i的尺寸可以根据退化图像I_D的尺寸来截取。在一个实施例中，可以将至少一个噪声添加到退化图像I_D中。

经过上述步骤可以获取用于训练根据本发明实施例的图像处理模型的多个训练图像对，其中，获取的训练输入图像可以包含经真实图像退化后的图像的模糊特征和噪声特征等图像特征。

接下来，在步骤S205中，基于所述多个训练图像对对所述图像处理模型进行训练。

如上所述，图像处理模型可以包括经训练后能够进行图像超分辨率处理的神经网络模型(例如，经训练后的超分模型309)。在一个实施例中，基于多个训练图像对对神经网络模型进行训练可以包括：对于多个训练图像对中的每一个训练图像对，将该训练图像对中的训练输入图像作为神经网络模型的输入；基于神经网络模型的输出与该训练图像对中的训练目标图像来计算神经网络模型的损失函数；以及基于损失函数来优化神经网络模型的网络参数。

具体地，如图3所示，可以将训练图像对中的训练输入图像，例如低分辨率训练图像307(或从低分辨率训练图像307中裁剪出的特定尺寸的区域)，输入到待训练的超分模型309中，并且超分模型309可以输出模型生成图像308。在一个实施例中，如图3所示，可以在步骤S314处基于模型生成图像308与相应的训练图像对中的训练目标图像(例如，高分辨率训练图像306)来计算超分模型309的损失函数，并基于该损失函数来优化超分模型309的网络参数。

在一个实施例中，计算超分模型309的损失函数可以包括计算重建损失L_p，其中，重建损失L_p可以是超分模型309输出的模型生成图像308的像素值与训练目标图像(例如，高分辨率训练图像306)的像素值之间的L1范式距离或L2范式距离。例如，这里的L1范式距离可以是根据曼哈顿(Manhattan)范数计算的模型生成图像308的像素值与训练目标图像(例如，高分辨率训练图像306)的像素值之间的距离，L2范式距离可以是模型生成图像308的像素值与训练目标图像(例如，高分辨率训练图像306)的像素值之间的欧几里德(Euclidean)距离。重建损失L_p可以用于增强生成图像的保真程度。

此外，在一个实施例中，计算超分模型309的损失函数可以包括计算感知损失L_f，其中，感知损失L_f可以是超分模型309输出的模型生成图像308的低频图像特征(例如，图像边缘特征等)与训练目标图像(例如，高分辨率训练图像306)的低频图像特征之间的L1范式距离或L2范式距离。例如，这里的L1距离可以是根据曼哈顿范数计算的模型生成图像308的低频图像特征与训练目标图像(例如，高分辨率训练图像306)的低频图像特征之间的距离，L2距离可以是模型生成图像308的低频图像特征与训练目标图像(例如，高分辨率训练图像306)的低频图像特征之间的欧几里德距离。在一个实施例中，低频图像特征可以经由预先训练的能够提取图像低频特征(例如，图像边缘特征等)的特征提取网络(例如，VGG-19网络)(未示出)来提取。感知损失L_f可以用于增强生成图像的低频特征(例如，图像边缘等)的视觉效果。

此外，在一个实施例中，超分模型309可以与另一鉴别器网络(未示出)组成生成对抗网络，并且计算超分模型309的损失函数可以包括计算对抗损失L_d，其中，对抗损失L_d可以是超分模型309输出的模型生成图像308经鉴别器网络进行鉴别处理后的鉴别输出值，例如，其可以是[0,1]连续区间中的任一值，可以表示鉴别器网络将模型生成图像308鉴定为真图(即，非网络模型生成的图像)的概率。对抗损失L_d可以用于增强生成图像的纹理等细节。

在一个实施例中，损失函数可以是上述重建损失L_p、感知损失L_f以及对抗损失L_d的加权和，如下等式(4)所示。

L_tota1＝λ_p·L_p+λ_f·L_f+λ_d·L_d (4)

其中，L_total为总损失函数，并且λ_p、λ_f和λ_d分别为重建损失L_p、感知损失L_f以及对抗损失L_d的权重。在一个实施例中，λ_p、λ_f和λ_d可以分别被设置为0.01、1和0.005。在一个实施例中，通过调整权重λ_p、λ_f和λ_d，还可以达到不同的训练效果。例如，通过增大对抗损失L_d的权重，可以训练出能够生成更强的纹理细节的网络模型。应当理解，还可以采用任何其它损失函数来训练超分模型309。

基于以上训练方法，可以通过例如反向传播算法将梯度逐层传回网络、优化网络参数，并且可以不断提升超分模型309的性能。

在一个实施例中，可以利用多个训练图像对不断重复上述训练方法来对超分模型309进行训练，直到超分模型309的处理性能达到预期。在一个实施例中，可以通过确定损失函数是否达到预定阈值来确定超分模型309的处理性能是否达到预期。在另一实施例中，还可以在如图4所示的测试阶段中对经训练的超分模型309进行测试分析以确定超分模型309的处理性能是否达到预期。

根据本发明实施例的图像处理模型的训练方法不需要成对的训练图像作为训练输入，而可以仅利用无标记的真实图像作为训练输入，并且基于真实图像来构建训练图像对可以保持真实图像或经真实图像退化后的图像的噪声和模糊度等特征，从而使得经过本发明实施例的训练方法训练后的图像处理模型能够处理低分辨率图像中的模糊和/或噪声问题，生成更加清晰和/或干净的高分辨率图像。

具体地，图4示出了根据本发明实施例的图像处理模型的示例测试过程400。如图4所示，可以获取一个或多个低分辨率测试图像401作为测试输入，例如，低分辨率测试图像401可以是通过像素较低的相机或智能手机拍摄的低分辨率图像，可以是经过压缩处理后的图像，可以是经由网络传输获取的图像，还可以是在形成、记录、处理和传输过程中经真实的图像退化后的其它任何图像。可以将一个或多个低分辨率测试图像401输入到经训练的超分模型309中，并对其输出的一个或多个高分辨率图像403进行分析，并基于分析结果来确定超分模型309的处理性能是否达到预期。例如，可以分析模型输出的高分辨率图像403的噪声等级或模糊程度是否降低到预定阈值，也可以人工分析模型输出的高分辨率图像403在视觉效果上是否干净和清晰等等。

图5示出了根据本发明实施例的基于图2和图3所示的训练方法的图像处理方法500的流程图。

如图5所示，根据本发明实施例的图像处理方法500可以包括：在步骤S501中，获取待处理的输入图像；并且在步骤S502中，基于经训练的图像处理模型对所述待处理的输入图像进行图像处理，以生成经处理的输出图像，其中，所述输出图像的分辨率高于所述输入图像的分辨率，其中，所述图像处理模型是基于如图2和图3所示的训练方法进行训练的。

在一个实施例中，在待处理的输入数据为视频数据的情况下，根据本发明实施例的图像处理方法500还可以包括：对输入的视频数据进行帧抽取，以获取多个待处理的输入图像；基于经训练的图像处理模型分别对多个待处理的输入图像进行图像处理，以生成多个经处理的输出图像；以及将多个经处理的输出图像合成为输出视频数据。由此，可以实现对视频数据的超分辨率处理。

在一个实施例中，根据本发明实施例的图像处理方法可以用于图像修复场景(例如，低质量图像修复)。根据本发明实施例的图像处理方法，可以基于用户提供的低分辨率图像，分析其中的模糊/噪声，还原出高质量的清晰图像，相比于人工修复，经济且高效。并且通过利用神经网络的记忆优势，还可以在保证高保真的同时重建图像的细节信息。

在一个实施例中，根据本发明实施例的图像处理方法还可以用于有损压缩图像的传输和恢复场景。例如，高清图像由于所占数据空间较大，可能无法快速在互联网上传输，而基于有损压缩的传输方式可能会丢失图像信息。通过本发明实施例的图像处理方法，可以尽可能地恢复有损压缩传输的图像中的原有细节信息。

图6示出了根据本发明实施例的图像处理方法的处理效果对比。

具体地，图6分别示出了根据本发明实施例的图像处理方法和基于用于超分辨率的增强型深度残差网络(Enhanced Deep Residual Networks for Super-Resolution，EDSR)、增强型超分辨率生成对抗网络(Enhanced Super-Resolution GenerativeAdversarial Networks，ESRGAN)、零次学习超分辨率(Zero Shot Super-Resolution，ZSSR)以及基于核估计的零次学习超分辨率(K-ZSSR)的方法的处理效果对比。

如图6所示，左边第一列为输入的原始低分辨率图像，第二至第六列分别为基于EDSR、ESRGAN、ZSSR、K-ZSSR以及根据本发明实施例的图像处理方法的图像处理结果。从图6中的树枝的恢复结果可以看出根据本发明实施例的图像处理方法的处理结果更加清晰；从图6中的墙壁和文字的恢复结果可以看出根据本发明实施例的图像处理方法生成的高分辨率图像更加干净，几乎没有噪声；从图6中的窗户和围栏的恢复结果可以看出根据本发明实施例的图像处理方法正确地保留了原始图像的细节等重要信息。根据本发明实施例的图像处理方法的生成结果在清晰度、噪声去除、以及细节纹理等方面远优于现有的超分辨率处理方法。此外，根据本发明实施例的图像处理模型的训练方法和图像处理方法没有任何预处理和后处理阶段，测试过程更加简单，处理速度也更具优势。

图7示出了根据本发明实施例的图像处理装置700的示意图。

如图7所示，根据本发明实施例的图像处理装置700可以包括：输入模块701、图像处理模块702以及输出模块703。其中，输入模块701可以用于获取待处理的输入图像；图像处理模块702可以用于基于经训练的图像处理模型对所述待处理的输入图像进行图像处理，以生成经处理的输出图像；并且输出模块703可以用于输出所述经处理的输出图像，其中，所述输出图像的分辨率可以高于所述输入图像的分辨率；并且其中，所述经训练的图像处理模型可以是根据本发明实施例的训练方法进行训练的。

图8示出了根据本发明实施例的图像处理设备800的示意图。

如图8所示，根据本发明实施例的图像处理设备800可以包括处理器801以及存储器802，其可以通过总线803进行互联。

处理器801可以根据存储在存储器802中的程序或代码执行各种动作和处理。具体地，处理器801可以是一种集成电路芯片，具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中公开的各种方法、步骤、流程及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以是X86架构或者是ARM架构等。

存储器802存储有可执行指令，该指令在被处理器801执行时用于实现根据本发明实施例的图像处理模型的训练方法和图像处理方法。存储器802可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器(DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本发明还提供了一种计算机可读存储介质，其上存储有计算机可执行指令，该计算机指令被处理器执行时可以实现根据本发明实施例的图像处理模型的训练方法和图像处理方法。类似地，本发明实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

需要说明的是，附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

一般而言，本发明的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

在上面详细描述的本发明的示例实施例仅仅是说明性的，而不是限制性的。本领域技术人员应该理解，在不脱离本发明的原理和精神的情况下，可对这些实施例或其特征进行各种修改和组合，这样的修改应落入本发明的范围内。

Claims

1.一种图像处理模型的训练方法，包括：

获取样本图像集，所述样本图像集包括第一数量的样本图像；

基于所述样本图像集构建图像特征集，所述图像特征集包括分别从所述样本图像集中的每个样本图像提取的至少一个图像特征；

获取训练图像集，所述训练图像集包括第二数量的训练图像，所述训练图像集与所述样本图像集完全相同、部分相同或完全不同，所述第一数量和所述第二数量相同或不同；

基于所述训练图像集和所述图像特征集构建多个训练图像对；以及

基于所述多个训练图像对对所述图像处理模型进行训练。

2.如权利要求1所述的训练方法，其中，所述至少一个图像特征包括模糊度特征和噪声特征，

其中，基于所述样本图像集构建图像特征集包括：

提取所述样本图像集中的每个样本图像的模糊度特征和噪声特征；以及

基于所述每个样本图像的模糊度特征和噪声特征来构建所述图像特征集。

3.如权利要求2所述的训练方法，其中，每个训练图像对包括一个训练目标图像和一个训练输入图像，所述训练目标图像的分辨率高于所述训练输入图像的分辨率，

其中，基于所述训练图像集和所述图像特征集构建多个训练图像对包括：对于所述训练图像集中的至少一部分训练图像中的每一个，

对该训练图像进行图像增强，以获取所述训练目标图像；以及

基于所述训练目标图像和所述图像特征集获取与所述训练目标图像相对应的训练输入图像。

4.如权利要求3所述的训练方法，其中，对该训练图像进行图像增强，以获取所述训练目标图像包括：

对所述训练图像进行去噪声和/或去模糊处理，以获取所述训练目标图像，其中

所述训练目标图像的模糊度和/或噪声低于所述训练图像的模糊度和/或噪声。

5.如权利要求3所述的训练方法，其中，对该训练图像进行图像增强，以获取所述训练目标图像包括：

对所述训练图像进行双三次插值下采样处理，以获取所述训练目标图像。

6.如权利要求3所述的训练方法，其中，基于所述训练目标图像和所述图像特征集获取与所述训练目标图像相对应的训练输入图像包括：

从所述图像特征集中选取至少一个图像特征；

将所述选取的至少一个图像特征应用于所述训练目标图像；以及

对所述训练目标图像进行下采样，以获取所述训练输入图像。

7.如权利要求6所述的训练方法，其中，所述至少一个图像特征包括至少一个模糊度特征和至少一个噪声特征，其中，基于所述训练目标图像和所述图像特征集获取与所述训练目标图像相对应的训练输入图像包括：

从所述图像特征集中选取至少一个模糊度特征和至少一个噪声特征；

将所述选取的至少一个模糊度特征应用于所述训练目标图像，以得到添加了模糊度的训练中间图像；

对所述添加了模糊度的训练中间图像进行下采样，以得到下采样后的训练中间图像；以及

将所述选取的至少一个噪声特征应用于所述下采样后的训练中间图像，以得到所述训练输入图像。

8.如权利要求3所述的训练方法，其中，所述图像处理模型包括神经网络模型，其中，基于所述多个训练图像对对所述图像处理模型进行训练包括：

对于所述多个训练图像对中的每一个训练图像对，

将该训练图像对中的训练输入图像作为所述神经网络模型的输入；

基于所述神经网络模型的输出与所述训练图像对中的训练目标图像来计算所述神经网络模型的损失函数；以及

基于所述损失函数来优化所述神经网络模型的网络参数。

9.如权利要求7所述的训练方法，其中，所述神经网络模型的损失函数包括重建损失和感知损失，其中，

所述重建损失为所述神经网络模型的输出图像的像素值与所述训练目标图像的对应像素值之间的L1范式距离或L2范式距离，

所述感知损失为所述神经网络模型的输出图像的低频图像特征与所述训练目标图像的低频图像特征之间的L1范式距离或L2范式距离。

10.如权利要求8-9之一所述的训练方法，其中，所述神经网络模型与鉴别器网络组成生成对抗网络，其中，所述神经网络模型的损失函数还包括对抗损失，其中，所述对抗损失为所述神经网络模型的输出图像经所述鉴别器网络进行鉴别处理后的鉴别输出值。

11.一种图像处理方法，包括：

获取待处理的输入图像；

基于经训练的图像处理模型对所述待处理的输入图像进行图像处理，以生成经处理的输出图像，

其中，所述输出图像的分辨率高于所述输入图像的分辨率；

其中，所述经训练的图像处理模型是根据权利要求1-10中任一项所述的训练方法进行训练的。

12.如权利要求11所述的图像处理方法，其中，在待处理的输入为视频数据的情况下，所述方法还包括：

对所述视频数据进行帧抽取，以获取多个待处理的输入图像；

基于所述经训练的图像处理模型分别对所述多个待处理的输入图像进行图像处理，以生成多个经处理的输出图像；以及

将所述多个经处理的输出图像合成为输出视频数据。

13.一种图像处理装置，包括：

输入模块，用于获取待处理的输入图像；

图像处理模块，用于基于经训练的图像处理模型对所述待处理的输入图像进行图像处理，以生成经处理的输出图像；以及

输出模块，用于输出所述经处理的输出图像，

其中，所述输出图像的分辨率高于所述输入图像的分辨率；

14.一种图像处理设备，包括：

处理器；和

存储器，其上存储有计算机可执行指令，所述指令在被处理器执行时用于实现根据权利要求1-12中任一项所述的方法。

15.一种计算机可读存储介质，其上存储有计算机可执行指令，所述指令在被处理器执行时用于实现根据权利要求1-12中任一项所述的方法。