CN110796619A

CN110796619A - 一种图像处理模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN110796619A
Application number: CN201911032638.2A
Authority: CN
Inventors: 袁卓宁; 沈力; 黄浩智; 凌永根; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-02-14
Anticipated expiration: 2039-10-28
Also published as: CN110796619B

Abstract

本发明提供了一种图像处理模型训练方法，包括：通过第一图像处理模型对所述第二训练样本集合进行处理，以确定所述第一图像处理模型的初始参数；通过第二图像处理模型对所述第二训练样本集合进行处理，以确定所述第二图像处理模型的初始参数；通过所述第一图像处理模型的输出结果和所述第二训练样本集合对所述第二图像处理模型进行处理，确定所述第二图像处理模型的更新参数；根据所述第二图像处理模型的更新参数，通过所述第二训练样本集合对所述第二图像处理模型的生成器参数和判别器参数进行迭代更新。本发明还提供了语音处理方法、装置及存储介质。本发明能够提升图像处理模型的训练精度与训练速度，使得图像处理模型能够适应不同的使用场景。

Description

一种图像处理模型训练方法、装置、电子设备及存储介质

技术领域

本发明涉及机器学习技术，尤其涉及一种图像处理模型训练方法、装置、电子设备及存储介质。

背景技术

现有技术中，深度神经网络在许多计算机视觉任务中获得了非常好的性能。一般而言，网络的参数量和计算量越大，网络的性能越好。然而在资源受限的嵌入式系统上部署这类规模较大的网络却非常困难，而直接训练规模较小的网络得到的网络的性能要远低于规模较大的网络的性能。因此需要在不增加训练数据的情况下，提升规模较小的网络的性能，才能够实现将图像处理模型部署于移动终端中。

发明内容

有鉴于此，本发明实施例提供一种图像处理模型训练方法、装置、电子设备及存储介质，能够通过知识蒸馏的方式实现对规模较小的图像处理模型的训练兼顾了训练精确性的同时，便于将图像处理模型部署于移动终端中。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种图像处理模型训练方法，所述方法包括：

获取第一训练样本集合，其中所述第一训练样本集合包括至少一组带有噪声的训练样本；

对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合；

通过第一图像处理模型对所述第二训练样本集合进行处理，以确定所述第一图像处理模型的初始参数；

通过第二图像处理模型对所述第二训练样本集合进行处理，以确定所述第二图像处理模型的初始参数；

响应于所述第一图像处理模型的初始参数，在保持所述第一图像处理模型的初始参数不变时，通过所述第一图像处理模型的输出结果和所述第二训练样本集合对所述第二图像处理模型进行处理，确定所述第二图像处理模型的更新参数；

根据所述第二图像处理模型的更新参数，通过所述第二训练样本集合对所述第二图像处理模型的生成器参数和判别器参数进行迭代更新。

上述方案中，所述方法还包括：

保持所述第一图像处理模型的初始参数不变，通过所述第一图像处理模型的输出结果，确定与所述第二图像处理模型相匹配的虚假标签；

通过所述第一图像处理模型的中间层输出的特征映像，确定与所述第二图像处理模型相匹配的辅助标签；

根据与所述第二图像处理模型相匹配的虚假标签和与所述第二图像处理模型相匹配的辅助标签，确定所述第二图像处理模型的生成器和所述判别器构成的自编码网络对应的损失函数。

本发明实施例还提供了一种图像处理模型的图像处理方法，所述方法包括：

获取待处理图像，以及相应的目标分辨率；

响应于所述目标分辨率，通过第二图像处理模型的生成器网络对所述待处理图像进行分辨率增强处理，以形成分辨率大于所述待处理图像的分辨率的目标图像；

输出经过分辨率增强处理的所述目标图像。

本发明实施例还提供了一种图像处理模型的训练装置，所述训练装置包括：

数据传输模块，用于获取第一训练样本集合，其中所述第一训练样本集合包括至少一组带有噪声的训练样本；

去噪模块，用于对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合；

图像处理模型训练模块，用于通过第一图像处理模型对所述第二训练样本集合进行处理，以确定所述第一图像处理模型的初始参数；

所述图像处理模型训练模块，用于通过第二图像处理模型对所述第二训练样本集合进行处理，以确定所述第二图像处理模型的初始参数；

所述图像处理模型训练模块，用于响应于所述第一图像处理模型的初始参数，在保持所述第一图像处理模型的初始参数不变时，通过所述第一图像处理模型的输出结果和所述第二训练样本集合对所述第二图像处理模型进行处理，确定所述第二图像处理模型的更新参数；

所述图像处理模型训练模块，用于根据所述第二图像处理模型的更新参数，通过所述第二训练样本集合对所述第二图像处理模型的生成器参数和判别器参数进行迭代更新。

上述方案中，

所述去噪模块，用于确定与所述第二图像处理模型的使用环境相匹配的动态噪声阈值；

所述去噪模块，用于根据所述动态噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述动态噪声阈值相匹配的第二训练样本集合；

所述去噪模块，用于确定与所述第二图像处理模型相对应的固定噪声阈值，并根据所述固定噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述固定噪声阈值相匹配的第二训练样本集合。

上述方案中，

所述图像处理模型训练模块，用于保持所述第一图像处理模型的初始参数不变，确定所述第一图像处理模型的输出结果；

所述图像处理模型训练模块，用于响应于所述第一图像处理模型的输出结果，将所述第二训练样本集合中不同训练样本，代入由所述第二图像处理模型的生成器和所述判别器构成的自编码网络对应的损失函数；

所述图像处理模型训练模块，用于确定所述损失函数满足收敛条件时对应所述第二图像处理模型中生成器的参数和相应的判别器参数作为所述第二图像处理模型的更新参数。

上述方案中，

所述图像处理模型训练模块，用于通过所述第二图像处理模型的更新参数，确定与所述第二训练样本集合相匹配的第二噪声参数，所述第二噪声参数用于表征所述第二训练样本集合中平行语句样本的噪声值；

所述图像处理模型训练模块，用于当所述第二噪声参数到达相应的噪声值阈值时，根据所述第二噪声参数的噪声值，对所述第二图像处理模型的生成器参数和判别器参数进行迭代更新，直至所述第二图像处理模型的生成器和所述判别器构成的自编码网络对应的损失函数满足对应的收敛条件。

上述方案中，

所述图像处理模型训练模块，用于保持所述第一图像处理模型的初始参数不变，通过所述第一图像处理模型的输出结果，确定与所述第二图像处理模型相匹配的虚假标签；

所述图像处理模型训练模块，用于通过所述第一图像处理模型的中间层输出的特征映像，确定与所述第二图像处理模型相匹配的辅助标签；

所述图像处理模型训练模块，用于根据与所述第二图像处理模型相匹配的虚假标签和与所述第二图像处理模型相匹配的辅助标签，确定所述第二图像处理模型的生成器和所述判别器构成的自编码网络对应的损失函数。

本发明实施例还提供了一种图像处理模型处理装置，所述装置包括：

信息传输模，用于获取待处理图像，以及相应的目标分辨率；

信息处理模块，用于响应于所述目标分辨率，通过第二图像处理模型的生成器网络对所述待处理图像进行分辨率增强处理，以形成分辨率大于所述待处理图像的分辨率的目标图像；

所述信息传输模，用于输出经过分辨率增强处理的所述目标图像；

本发明实施例还提供了一种图像处理模型的训练装置，其特征在于，所述训练装置包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前序的图像处理模型的训练方法。

本发明实施例还提供了一种融合图像处理装置，所述图像处理装置包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前序的图像处理模型的图像处理方法。本发明实施例还提供了15、一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现前序的图像处理模型的训练方法，或者前序的图像处理模型的图像处理方法。

本发明实施例具有以下有益效果：

通过获取第一训练样本集合，其中所述第一训练样本集合包括至少一组带有噪声的训练样本；对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合；通过第一图像处理模型对所述第二训练样本集合进行处理，以确定所述第一图像处理模型的初始参数；通过第二图像处理模型对所述第二训练样本集合进行处理，以确定所述第二图像处理模型的初始参数；响应于所述第一图像处理模型的初始参数，在保持所述第一图像处理模型的初始参数不变时，通过所述第一图像处理模型的输出结果和所述第二训练样本集合对所述第二图像处理模型进行处理，确定所述第二图像处理模型的更新参数；根据所述第二图像处理模型的更新参数，通过所述第二训练样本集合对所述第二图像处理模型的生成器参数和判别器参数进行迭代更新，由此，能够在不增加训练样本总量和无需重新训练的前提下，稳定提高规模较小的图像处理模型的准确率，且对于大部分神经网络模型和数据普遍适用，通过知识蒸馏的方式实现对规模较小的图像处理模型的训练兼顾了训练精确性的同时，减轻神经网络模型的过拟合，增强神经网络模型的泛化能力，便于将图像处理模型部署于移动终端中，实现图像处理模型的大规模应用。

附图说明

图1是本发明实施例提供的一种图像处理模型训练方法的使用环境示意图；

图2为本发明实施例提供的图像处理模型的训练装置的组成结构示意图；

图3为传统方案中生成图像处理结果的示意图；

图4为本发明实施例提供的图像处理模型训练方法一个可选的流程示意图；

图5为本发明实施例提供的图像处理模型训练方法一个可选的流程示意图；

图6为本发明实施例提供的图像处理模型训练方法一个可选的流程示意图；

图7为本发明实施例提供的图像处理模型处理装置的组成结构示意图；

图8为本发明实施例提供的图像处理模型的图像处理方法一个可选的流程示意图；

图9为本发明所提供的图像处理模型训练方法一个可选的使用环境示意图；

图10为传统技术中模型修剪示意图；

图11为本发明所提供的图像处理模型训练方法的一个可选的处理流程示意图；

图12为本发明所提供的图像处理模型训练方法的一个可选的模型结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)BERT：全称为Bidirectional Encoder Representations from Transformers，一种利用海量文本的语言模型训练方法。该方法被广泛用于多种自然语言处理任务，如文本分类、文本匹配、机器阅读理解等。

2)人工神经网络：简称神经网络(Neural Network，NN)，在机器学习和认知科学领域，是一种模仿生物神经网络结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

3)模型参数：是使用通用变量来建立函数和变量之间关系的一个数量。在人工神经网络中，模型参数通常是实数矩阵。

4)知识迁移(Knowledge Tran sfer)：在深度神经网络中，知识迁移是指利用训练样本数据在老师图像处理模型的中间网络层或最终网络层的输出数据，辅助训练速度较快但性能较差的学生图像处理模型，从而将性能优良的老师图像处理模型迁移到学生图像处理模型上。

5)知识提取(Knowledge Distill)：在深度神经网络中，知识提取是指在分类问题中利用老师图像处理模型输出的平滑类别后验概率训练学生图像处理模型的技术。

6)老师图像处理模型(Teacher Network)：知识迁移过程中用以为学生图像处理模型提供更加准确的监督信息的高性能神经网络。

7)学生图像处理模型(Student Network)：计算速度快但性能较差的适合部署到对实时性要求较高的实际应用场景中的单个神经网络，学生图像处理模型相比于老师图像处理模型，具有更大的运算吞吐量和更少的模型参数。

8)下采样处理，对于一个样值序列间隔几个样值取样一次，这样得到新序列就是原序列的下采样，例如：对于一幅图像I尺寸为M*N，对其进行s倍下采样，即得到(M/s)*(N/s)尺寸的得分辨率图像，其中s应该是M和N的公约数

9)生成对抗网络(Generative Adversarial Networks，GAN)，即生成式对抗网络，是一种深度学习模型。模型通过框架中至少两个模块：生成模型G(Generative Model)和判别模型D(Discriminative Model)的互相博弈学习产生相当好的输出。比如：G是制作高分图像(本文中也称为重构图像)的模型，D是检测是否为原始自然图像的模型。G的目标是使D判断不出G生成的高分图像是否为非自然图像，D则要尽可能的分辨出输入的图像是原始自然图像还是G生成的非自然图像，通过G和D的参数不断的迭代更新，直到生成对抗网络满足收敛条件。

10)生成器网络，用于通过低分辨率的图像生成高分辨率图像。生成器可为基于深度学习的卷积神经网络。

11)判别器网络，判断输入的图像x是生成器生成的非自然图像，还是自然图像。判别器输出一个0-1区间的概率值D1(x)，当D1(x)为0时，表示判别输入的图像x是自然图像，当D1(x)为1时，表示判别输入的图像x是非自然图像。

图1为本发明实施例提供的图像处理模型训练方法的使用场景示意图，参考图1，终端(包括终端10-1和终端10-2)上设置有图像处理软件的客户端，用户通过所设置的图像处理软件客户端可以输入相应的待处理图像，图像处理客户端也可以接收相应的图像处理结果，并将所接收的图像处理结果向用户进行展示；终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

作为一个示例，服务器200用于布设所述图像处理模型并对所述图像处理模型进行训练，以对图像处理模型的生成器参数和判别器参数进行迭代更新，以实现将通过图像处理模型中的生成器网络生成针对目标待处理图像的图像处理结果，并通过终端(终端10-1和/或终端10-2)展示图像处理模型所生成的与待处理图像相对应的图像处理结果。

当然在通过图像处理模型对目标待处理图像进行处理以生成相应的图像处理结果之前，还需要对图像处理模型进行训练，具体包括：获取第一训练样本集合，其中所述第一训练样本集合包括至少一组带有噪声的训练样本；对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合；通过第一图像处理模型对所述第二训练样本集合进行处理，以确定所述第一图像处理模型的初始参数；通过第二图像处理模型对所述第二训练样本集合进行处理，以确定所述第二图像处理模型的初始参数；响应于所述第一图像处理模型的初始参数，在保持所述第一图像处理模型的初始参数不变时，通过所述第一图像处理模型的输出结果和所述第二训练样本集合对所述第二图像处理模型进行处理，确定所述第二图像处理模型的更新参数；根据所述第二图像处理模型的更新参数，通过所述第二训练样本集合对所述第二图像处理模型的生成器参数和判别器参数进行迭代更新。

下面对本发明实施例的图像处理模型的训练装置的结构做详细说明，图像处理模型的训练装置可以各种形式来实施，如带有图像处理模型训练功能的专用终端，也可以为设置有图像处理模型训练功能的服务器，例如前序图1中的服务器200。图2为本发明实施例提供的图像处理模型的训练装置的组成结构示意图，可以理解，图2仅仅示出了图像处理模型的训练装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的图像处理模型的训练装置包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。图像处理模型的训练装置20中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的图像处理模型的训练装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的图像处理模型训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的图像处理模型训练方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的图像处理模型的训练装置采用软硬件结合实施的示例，本发明实施例所提供的图像处理模型的训练装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的图像处理模型训练方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的图像处理模型的训练装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的图像处理模型训练方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持图像处理模型的训练装置20的操作。这些数据的示例包括：用于在图像处理模型的训练装置20上操作的任何可执行指令，如可执行指令，实现本发明实施例的从图像处理模型训练方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的图像处理模型的训练装置可以采用软件方式实现，图2示出了存储在存储器202中的图像处理模型的训练装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括图像处理模型的训练装置，图像处理模型的训练装置中包括以下的软件模块：数据传输模块2081，去噪模块2082和图像处理模型训练模块2083。当图像处理模型的训练装置中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的图像处理模型训练方法，下面介绍本发明实施例中图像处理模型的训练装置中各个软件模块的功能，其中，

数据传输模块2081，用于获取第一训练样本集合，其中所述第一训练样本集合包括至少一组带有噪声的训练样本；

去噪模块2082，用于对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合；

图像处理模型训练模块2083，用于通过第一图像处理模型对所述第二训练样本集合进行处理，以确定所述第一图像处理模型的初始参数；

所述图像处理模型训练模块2083，用于通过第二图像处理模型对所述第二训练样本集合进行处理，以确定所述第二图像处理模型的初始参数；

所述图像处理模型训练模块2083，用于响应于所述第一图像处理模型的初始参数，在保持所述第一图像处理模型的初始参数不变时，通过所述第一图像处理模型的输出结果和所述第二训练样本集合对所述第二图像处理模型进行处理，确定所述第二图像处理模型的更新参数；

所述图像处理模型训练模块2083，用于根据所述第二图像处理模型的更新参数，通过所述第二训练样本集合对所述第二图像处理模型的生成器参数和判别器参数进行迭代更新。

结合图2示出的图像处理模型的训练装置20说明本发明实施例提供的图像处理模型的训练方法，在介绍本发明实施例提供的图像处理模型的训练方法之前，首先介绍本发明中图像处理模型根据待处理图像生成相应图像处理结果的过程中，图3为传统方案中生成图像处理结果的示意图，其中，图1是相关技术基于超分生成对抗网络对图像进行超分处理的示意图，超分生成对抗网络SRGAN(SRGAN，Super Resolution GenerativeAdversarial Network)的结构如图1所示，包括有生成器网络301和判别器网络302。生成器网络301和判别器网络302为深度神经网络模型。高清图片被作为训练样本图像并进行下采样处理，形成低分辨率(相对于高清图片而言)的训练样本图像，通过SRGAN模型中的生成器网络301对低分辨率的训练样本图像进行图像重构，形成重构图像；SRGAN模型中的判别器网络302对重构图像进行鉴别，根据相应的鉴别结果调整生成器网络301和/或判别器网络302的参数，直至所述生成器网络301和判别器网络302能够达到纳什平衡(Nashequilibrium)，完成对SRGAN模型的训练，从而SRGAN模型能够对所输入的分辨率较低的图像进行重构，形成分辨率较高的图像。

相关技术的上述方案存在的问题包括：生成高分辨率的图像需要模型拥有非常大参数量，比如Pix2PixHD大约有100millions的参数。但是这种规模较大的模型缺点在于推理速度慢，难以部署在移动设备，因此需要对图像处理模型进行压缩。

为解决这一相关技术中的缺陷，参见图4，图4为本发明实施例提供的图像处理模型训练方法一个可选的流程示意图，可以理解地，图4所示的步骤可以由运行图像处理模型训练装置的各种电子设备执行，例如可以是如带有样本生成功能的专用终端、带有图像处理模型训练功能的服务器或者服务器集群。下面针对图4示出的步骤进行说明。

步骤401：图像处理模型训练装置获取第一训练样本集合，其中所述第一训练样本集合包括至少一组带有噪声的训练样本。

步骤402：图像处理模型训练装置对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合。

在本发明的一些实施例中，所述对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合，可以通过以下方式实现：

确定与所述第二图像处理模型的使用环境相匹配的动态噪声阈值；根据所述动态噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述动态噪声阈值相匹配的第二训练样本集合。其中由于图像处理模型的使用环境不同，与所述图像处理模型的使用环境相匹配的动态噪声阈值也不相同，例如，学术翻译的使用环境中，与所述图像处理模型的使用环境相匹配的动态噪声阈值需要小于用户浏览环境中的动态噪声阈值。

确定与所述第二图像处理模型相对应的固定噪声阈值，并根据所述固定噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述固定噪声阈值相匹配的第二训练样本集合。其中，当图像处理模型固化于相应的硬件机构中，例如车载终端，使用环境为状态图像显示时，由于噪声较为单一，通过固定图像处理模型相对应的固定噪声阈值，能够有效提升图像处理模型的训练速度，减少用户的等待时间。

步骤403：图像处理模型训练装置通过第一图像处理模型对所述第二训练样本集合进行处理，以确定所述第一图像处理模型的初始参数。

其中，第一图像处理模型可以作为Teacher Network，以自身的输出结果作为监督数据，以监督作为Student Network的第二图像处理模型，其中，第一图像处理模型的参数规模大于第二图像处理模型的参数规模。

在本发明的一些实施例中，第一图像处理模型可以为训练好的神经网络，并且第一图像处理模型可以为规模较大的神经网络，例如：第一图像处理模型的网络参数的数量大于某一数值，但本发明实施例对此不作限定。可选地，第一图像处理模型可以为卷积神经网络(CNN ConvolutionalNeural Network)、深度神经网络(DNN Deep Neural Network)或循环神经网络(RNN Recurrent Neural Network)等，本发明实施例对第一图像处理模型的类型不作限定。第一图像处理模型可以为适用于不同的计算机视觉任务的神经网络，例如：目标识别任务、目标分类任务、目标检测任务或姿态估计任务等。第一图像处理模型也可以为适用于不同的应用场景的神经网络，例如：安防监控场景、人脸解锁场景、智能驾驶或遥感场景等，本发明实施例对第一图像处理模型的适用范围不作限定。可选地，第一图像处理模型的网络结构可以根据计算机视觉任务设计，或者，第一图像处理模型的网络结构可以采用现有的网络结构的至少一部分，例如：深度残差网络或者，视觉几何组网络(VGGNetVisual GeometryGroup Network)等，本发明实施例对第一图像处理模型的网络结构不作限定。

步骤404：通过第二图像处理模型对所述第二训练样本集合进行处理，以确定所述第二图像处理模型的初始参数。

步骤405：图像处理模型训练装置响应于所述第一图像处理模型的初始参数，在保持所述第一图像处理模型的初始参数不变时，通过所述第一图像处理模型的输出结果和所述第二训练样本集合对所述第二图像处理模型进行处理，确定所述第二图像处理模型的更新参数。

步骤406：图像处理模型训练装置根据所述第二图像处理模型的更新参数，通过所述第二训练样本集合对所述第二图像处理模型的生成器参数和判别器参数进行迭代更新。

在本发明的一些实施例中，第二图像处理模型可以为待训练的神经网络，并且第二图像处理模型可以为规模较小的神经网络，例如：第二图像处理模型的网络参数的数量小于某一数值，但本发明实施例对此不作限定。第一图像处理模型的网络规模大于第二图像处理模型的网络规模，第一图像处理模型可以为教师网络(teacher network)，第二图像处理模型可以为学生网络(student network)，利用教师网络来训练学生网络，能够提高训练得到的学生网络的性能。在本发明的一些实施例中，可以利用知识蒸馏方法或其他方法来进行对第二图像处理模型的训练，本发明实施例对此不作限定。

继续参考图5，图5为本发明实施例提供的图像处理模型训练方法一个可选的流程示意图，可以理解地，图5所示的步骤可以由运行图像处理模型训练装置的各种电子设备执行，例如可以是如带有图像处理模型训练功能的专用终端、带有图像处理模型训练功能的服务器或者服务器集群。下面针对图5示出的步骤进行说明。

步骤501：图像处理模型训练装置保持所述第一图像处理模型的初始参数不变，确定所述第一图像处理模型的输出结果。

步骤502：图像处理模型训练装置响应于所述第一图像处理模型的输出结果，将所述第二训练样本集合中不同训练样本，代入由所述第二图像处理模型的生成器和所述判别器构成的自编码网络对应的损失函数。

步骤503：图像处理模型训练装置确定所述损失函数满足收敛条件时对应所述第二图像处理模型中生成器的参数和相应的判别器参数作为所述第二图像处理模型的更新参数。

在本发明的一些实施例中，所述根据所述第二图像处理模型的更新参数，通过所述第二训练样本集合对所述第二图像处理模型的生成器参数和判别器参数进行迭代更新，可以通过以下方式实现：

通过所述第二图像处理模型的更新参数，确定与所述第二训练样本集合相匹配的第二噪声参数，所述第二噪声参数用于表征所述第二训练样本集合中平行语句样本的噪声值；当所述第二噪声参数到达相应的噪声值阈值时，根据所述第二噪声参数的噪声值，对所述第二图像处理模型的生成器参数和判别器参数进行迭代更新，直至所述第二图像处理模型的生成器和所述判别器构成的自编码网络对应的损失函数满足对应的收敛条件。

继续参考图6，图6为本发明实施例提供的图像处理模型训练方法一个可选的流程示意图，可以理解地，图6所示的步骤可以由运行图像处理模型训练装置的各种电子设备执行，例如可以是如带有图像处理模型训练功能的专用终端、带有图像处理模型训练功能的服务器或者服务器集群。下面针对图6示出的步骤进行说明。

步骤601：保持所述第一图像处理模型的初始参数不变，通过所述第一图像处理模型的输出结果，确定与所述第二图像处理模型相匹配的虚假标签。

步骤602：通过所述第一图像处理模型的中间层输出的特征映像，确定与所述第二图像处理模型相匹配的辅助标签。

步骤603：根据与所述第二图像处理模型相匹配的虚假标签和与所述第二图像处理模型相匹配的辅助标签，确定所述第二图像处理模型的生成器和所述判别器构成的自编码网络对应的损失函数。

其中，下面仍然以图3所示的超分生成对抗网络(SRGAN，Super ResolutionGenerative Adversarial Network)，说明第二图像处理模型的损失函数的过程，其中，第一图像处理模型的训练过程中中，生成器网络301，可称为G，即超分辨率模型，其输入为第三训练样本图像(低分辨率图像xi)，输出为超分辨率图像G(xi)(重构图像)。

判别器网络302，可称为D，用于区分输入的图片是否为生成器网络301所生成，输入一张高分辨率图像x，输出一个0-1区间的数D(x)，D(x)用于判断输入图是否为生成器生成的，其中，0表示不是，1表示是。

这里，记低分辨率图像为xi，xi对应的高分辨率图像为yi，生成器基于xi生成的超分辨率图像为G(xi)。

将G输出的超分辨率G(xi)或高分辨率图像yi输入D，由D判断得到的图像是由G生成的G(xi)，还是数据库中的高分辨率图像yi。当生成器网络301和判别器网络302的损失不再有明显下降时，就可以得到可用的超分辨率模型。

训练生成器网络G的损失函数包括以下三种损失函数：

a、内容损失Loss_content：

内容损失是基于均方误差的损失的损失函数。使用VGG模型除最后一层的网络结构进行特征提取，记特征提取的特征为VGG(x)，x为输入的图像。

内容损失为使用VGG模型除最后一层的网络结构对高分辨率图片yi与超分辨率G(xi)进行特征提取后的特征的平方误差，计算公式为公式(1)，

Loss_content＝∑(VGG(G(xi))-VGG(yi))² 公式(1)。

b、均方误差损失(最小平方损失)Loss_mse

最小平方损失为生成的超分辨率图像G(xi)与高分辨率图像yi的平方误差，计算公式为公式(2)，

Loss_mse＝∑(G(xi)-yi)² 公式(2)。

c、对抗损失loss_gan

基于训练样本在判别器上的概率定义，尝试让生成器生成的数据，能骗过判别器，计算公式为公式(3)，

Loss_gan＝∑-logD(G(xi)) 公式(3)。

训练判别器网络D使用的损失函数loss_d的计算公式为公式(4)，

loss_d＝-∑log(D(G(xi)))-∑log(D(yi)) 公式(4)。

训练图3所示的SRGAN的方法包括：

S1、使用Loss_mse训练生成器网络G，初始化生成器的参数，直到Loss_mse收敛。

S2、基于生成器网络G生成的G(xi)，以及真实高分辨率图像yi，使用loss_d训练判别器网络D，初始化判别器网络D的参数，直到loss_d收敛。

S3、固定判别器网络D的参数，通过所述生成器网络G中对所述第三训练样本图像进行分辨率增强处理，得到第二重构图像；将所述第三训练样本图像与所述第二重构图像之间的差值作为第二损失值，根据所述第二损失值更新所述生成器网络G的参数。具体的，计算生成器网络G生成的G(xi)和作为第一训练样本图像的高分辨率图像yi之间的差值作为第二损失值，所述第二损失值包括三部分，即：Loss_content、Loss_mse、Loss_gan，其中，使用Loss_content、Loss_mse、Loss_gan的加权和更新一次生成器网络G的参数，3个损失函数所分别对应的的权重为：1e-6、1、1e-3。

S4、固定生成器网络G的参数，，通过所述生成器网络G对所述第三训练样本图像进行分辨率增强处理，得到第一重构图像；将所述第三训练样本图像与所述第一重构图像之间的差值作为第一损失值，根据所述第一损失值更新所述判别器网络D的参数，具体的，使用loss_d更新一次判别器网络D的参数，使得判别器网络D能进一步区分生成器网络G生成超分辨率图像G(xi)与高分辨率图像yi。

S5、重复S3、S4，直到Loss_content、Loss_mse、Loss_gan的加权和收敛。

但是，上述过程中参数规模庞大的第一图像处理模型的损失函数并不适用于第二图像处理模型，因此，通过知识蒸馏的思想，保持所述第一图像处理模型的初始参数不变，通过所述第一图像处理模型的输出结果，确定与所述第二图像处理模型相匹配的虚假标签；通过所述第一图像处理模型的中间层输出的特征映像，确定与所述第二图像处理模型相匹配的辅助标签；根据与所述第二图像处理模型相匹配的虚假标签和与所述第二图像处理模型相匹配的辅助标签，可以确定所述第二图像处理模型的生成器和所述判别器构成的自编码网络对应的损失函数为：

LKD＝α₁*MSE(y_fake，y_pred)+α₂*(y^s _conv，y^t _conv)+α₃*MSE(y_pred，y_true)

以实现对所述第二图像处理模型的生成器参数和判别器参数进行迭代更新，直至所述第二图像处理模型的生成器和所述判别器构成的自编码网络对应的损失函数满足对应的收敛条件。

在本发明的一些实施例中，所述图像处理模型训练完成后，通过所述图像处理模型所包括的生成器网络对所述目标图像进行分辨率增强处理，并输出经过分辨率增强处理的目标图像，以实现所述目标图像的分辨率倍增。其中，可以在相应实施例所示的终端或服务器300中部署本发明所提供的图像处理装置，当相应实施例所示的SRGAN训练完成后，可将SRGAN中训练好的生成器网络301部署在终端所运行的客户端中，也可将SRGAN中训练好的生成器网络301部署在服务器200上，以适配不同的图像处理方法的使用环境。

其中，可在客户端上安装有图像处理的移动应用(App)，通过图像处理App触发对目标图像进行分辨率提升的超分请求。

当训练好的生成器网络301部署在客户端中。客户端中部署的生成器网络301接收待处理图像，对待处理图像进行卷积，得到分辨率提升后的目标图像。

下面对本发明实施例的图像处理模型处理装置的结构做详细说明，图像处理模型处理装置可以各种形式来实施，如带有根据能够运行图像处理模型的专用终端，也可以为带有回答的功能的服务器，以根据终端中的应用程序所接收的待翻译语句生成相应的翻译结果(例如前序图1中的服务器300)。图7为本发明实施例提供的图像处理模型处理装置的组成结构示意图，可以理解，图7仅仅示出了图像处理模型处理装置的示例性结构而非全部结构，根据需要可以实施图7示出的部分结构或全部结构。

本发明实施例提供的图像处理模型处理装置包括：至少一个处理器1301、存储器1302、用户接口1303和至少一个网络接口1304。图像处理模型处理装置130中的各个组件通过总线系统1305耦合在一起。可以理解，总线系统1305用于实现这些组件之间的连接通信。总线系统1305除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图7中将各种总线都标为总线系统1305。

其中，用户接口1303可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器1302可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器1302能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的图像处理模型处理装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的图像处理模型处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的图像处理模型的图像处理方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的图像处理模型处理装置采用软硬件结合实施的示例，本发明实施例所提供的图像处理模型处理装置可以直接体现为由处理器1301执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器1302，处理器1301读取存储器1302中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器1301以及连接到总线1305的其他组件)完成本发明实施例提供的图像处理模型的图像处理方法。

作为示例，处理器1301可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的图像处理模型处理装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器1301来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的图像处理模型的图像处理方法。

本发明实施例中的存储器1302用于存储各种类型的数据以支持图像处理模型处理装置130的操作。这些数据的示例包括：用于在图像处理模型处理装置130上操作的任何可执行指令，如可执行指令，实现本发明实施例的从图像处理模型的图像处理方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的图像处理模型处理装置可以采用软件方式实现，图7示出了存储在存储器1302中的图像处理模型处理装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器1302中存储的程序的示例，可以包括图像处理模型处理装置，图像处理模型处理装置中包括以下的软件模块：信息传输模块13081和信息处理模块13082。当图像处理模型处理装置中的软件模块被处理器1301读取到RAM中并执行时，将实现本发明实施例提供的图像处理模型的图像处理方法，图像处理模型处理装置中各个软件模块的功能包括：

信息传输模块13081，用于获取待处理图像，以及相应的目标分辨率；

信息处理模块13082，用于响应于所述目标分辨率，通过第二图像处理模型的生成器网络对所述待处理图像进行分辨率增强处理，以形成分辨率大于所述待处理图像的分辨率的目标图像；

所述信息传输模13082，用于输出经过分辨率增强处理的所述目标图像；

结合图7示出的图像处理模型处理装置130说明本发明实施例提供的图像处理模型的图像处理方法，参见图8，图8为本发明实施例提供的图像处理模型的图像处理方法一个可选的流程示意图，可以理解地，图8所示的步骤可以由运行图像处理模型处理装置的各种电子设备执行，例如可以是如带有待翻译语句处理功能的专用终端、带有待翻译语句处理功能的服务器或者服务器集群。下面针对图8示出的步骤进行说明。

步骤801：图像处理模型处理装置获取待处理图像，以及相应的目标分辨率。

步骤802：响应于所述目标分辨率，通过第二图像处理模型的生成器网络对所述待处理图像进行分辨率增强处理，以形成分辨率大于所述待处理图像的分辨率的目标图像

步骤803：输出经过分辨率增强处理的所述目标图像。

下面以在终端中部署图像处理模型为例对本发明所提供的图像处理模型训练方法的使用环境进行说明，参考图9，图9为本发明所提供的图像处理模型训练方法一个可选的使用环境示意图，其中，本发明所提供的图像处理模型训练方法可以作为云服务的形式服务各类型的客户(封装于车载终端或者封装于不同的移动电子设备中)，本发明不做具体限制，其中，封装于移动电子设备中时，可以在离线状态下实现对电子设备所接收的图像进行处理，继续参考图10，图10为传统技术中模型修剪示意图；传统技术中，生成高分辨率的图像需要模型拥有非常大参数量，比如Pix2PixHD大约有100millions的参数。但是这种规模较大的模型缺点在于推理速度慢，难以部署在移动设备，因此需要对图像处理模型进行压缩，传统的压缩方式如图10所示的剪枝处理，可以根据weight tens or的L1norm的大小，删减掉权重小的filter。还有一些更直接的尝试，比如暴力删减掉一部分filter，或者减小filter size，从而达到压缩模型的效果。但是在剪枝中，通过一定的准则，保留比较重要的连接或元素，并将其余的连接或者元素删除，得到压缩的网络。然后，对压缩后的网络进行参数微调。虽然剪枝方法能够有效地减小模型的参数和运算量，但由于删除了原始模型中的部分元素和模块，压缩后模型的准确率也有一定程度的损失。还有一些方法，比如稀疏化weight tensor，也无法保证压缩后的图形处理模型的准确性，同时稀疏化的操作需要特殊的硬件或者稀疏算法支持，才可以实现加速，提升了硬件成本，不利于大规模的推广使用。

继续参考图11，图11为本发明所提供的图像处理模型训练方法的一个可选的处理流程示意图，包括以下步骤：

步骤1101：获取一个较大的模型，命名这个网络为Teacher Network。

其中，知识迁移过程中Teacher Network用以为学生图像处理模型提供更加准确的监督信息的高性能神经网络。

步骤1102：将Teacher Network的输出结果作为一个Fake labels，融合到相应的模型优化函数。

步骤1103：将某些中间层的输出feature map作为一个Auxiliary labels，融合到相应的模型优化函数。

步骤1104：合并前序步骤中的结果，并根据相应的合并结果更新优化函数。

其中，Teacher Network和Student Network的连接关系参考图12，图12为本发明所提供的图像处理模型训练方法的一个可选的模型结构示意图。

其中，学生图像处理模型(Student Network)：计算速度快但性能较差的适合部署到对实时性要求较高的实际应用场景中的单个神经网络，学生图像处理模型相比于老师图像处理模型，具有更大的运算吞吐量和更少的模型参数同时，新的复合优化函数我们定义为：

其中，alpha是不同损失函数之间的权重，这个数值需要在训练的过程中来动态调整，最终损失函数满足相应的收敛条件时，完成相应的训练。

进一步地，对于GAN模型中Discriminator部分的训练，可以同样借鉴前序步骤1101-步骤1104所述的图像处理模型的训练方法。具体如下，可以利用tea cher network的Fake label或者是中间层的feature map作为辅助的labels，融入到Discriminator的训练中。

由此，能够将样本训练数据在老师图像处理模型输出的输出数据的各数据间相似信息全面迁移到学生图像处理模型中，从而实现训练样本数据通过老师图像处理模型输出的结果与通过目标网络输出的结果基本一致。

本发明具有以下有益技术效果：

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像处理模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合，包括：

确定与所述第二图像处理模型的使用环境相匹配的动态噪声阈值；

根据所述动态噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述动态噪声阈值相匹配的第二训练样本集合；或者，

确定与所述第二图像处理模型相对应的固定噪声阈值，并根据所述固定噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述固定噪声阈值相匹配的第二训练样本集合。

3.根据权利要求1所述的方法，其特征在于，所述响应于所述第一图像处理模型的初始参数，在保持所述第一图像处理模型的初始参数不变时，通过所述第一图像处理模型的输出结果和所述第二训练样本集合对所述第二图像处理模型进行处理，确定所述第二图像处理模型的更新参数，包括：

保持所述第一图像处理模型的初始参数不变，确定所述第一图像处理模型的输出结果；

响应于所述第一图像处理模型的输出结果，将所述第二训练样本集合中不同训练样本，代入由所述第二图像处理模型的生成器和所述判别器构成的自编码网络对应的损失函数；

确定所述损失函数满足收敛条件时对应所述第二图像处理模型中生成器的参数和相应的判别器参数作为所述第二图像处理模型的更新参数。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第二图像处理模型的更新参数，通过所述第二训练样本集合对所述第二图像处理模型的生成器参数和判别器参数进行迭代更新，包括：

通过所述第二图像处理模型的更新参数，确定与所述第二训练样本集合相匹配的第二噪声参数，所述第二噪声参数用于表征所述第二训练样本集合中平行语句样本的噪声值；

当所述第二噪声参数到达相应的噪声值阈值时，

根据所述第二噪声参数的噪声值，对所述第二图像处理模型的生成器参数和判别器参数进行迭代更新，直至所述第二图像处理模型的生成器和所述判别器构成的自编码网络对应的损失函数满足对应的收敛条件。

5.一种图像处理模型的图像处理方法，其特征在于，所述方法包括：

获取待处理图像，以及相应的目标分辨率；

输出经过分辨率增强处理的所述目标图像；

其中，所述图像处理模型基于如权利要求1至4任一项所述的方法训练得到。

6.一种图像处理模型的训练装置，其特征在于，所述训练装置包括：

7.一种图像处理模型处理装置，其特征在于，所述装置包括：

所述信息传输模，用于输出经过分辨率增强处理的所述目标图像。

8.一种图像处理模型的训练装置，其特征在于，所述训练装置包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至4任一项所述的图像处理模型的训练方法。

9.一种融合图像处理装置，其特征在于，所述图像处理装置包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求5所述的图像处理模型的图像处理方法。

10.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至4任一项所述的图像处理模型的训练方法，或者实现权利要求5所述的图像处理模型的图像处理方法。