CN109859116A

CN109859116A - 图像处理模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN109859116A
Application number: CN201811642953.2A
Authority: CN
Inventors: 汤传新
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-06-07
Anticipated expiration: 2038-12-29
Also published as: CN109859116B

Abstract

本申请实施例提供了一种图像处理模型的方法、装置、电子设备及可读存储介质。该方法包括：获得样本图像对，所述样本图像对包括待处理样本图像和目标样本图像，所述待处理样本图像的质量低于所述目标样本图像的质量；在对所述待处理样本图像的质量进行调整的过程中，针对图像处理操作集合中每个图像处理操作，根据执行该图像处理操作前后两个图像各自的特征和质量分、以及所述目标样本图像的特征，确定该图像处理操作的奖励值；基于所述图像处理操作集合中每个图像处理操作的奖励值，对深度Q值网络DQN模型进行训练，得到所述图像处理模型，所述图像处理模型用于预测对单个待处理图像进行质量提升的图像处理操作序列。

Description

图像处理模型的训练方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种图像处理模型的训练方法、装置、电子设备及可读存储介质。

背景技术

图像相比于文字、音频、表格等能够带给人们更加丰富的视觉信息，因而在人们的工作和生活中广泛应用。在人眼观看图像的过程中，图像的质量影响着人们的视觉效果。为了改善人们的视觉效果，需要提高图像的质量。

为此，相关技术中提供了一种提升图像的质量的技术方案，采用该技术方案，对低质量图像只能进行单一形式的图像质量提升，图像质量提升的效果不够显著。

发明内容

本申请实施例提供一种图像处理模型的训练方法、装置、电子设备及可读存储介质，采用该图像处理模型，可以改进图像质量提升的效果。

本申请实施例第一方面提供了一种图像处理模型的训练方法，所述方法包括：

获得样本图像对，所述样本图像对包括待处理样本图像和目标样本图像，所述待处理样本图像的质量低于所述目标样本图像的质量；

在对所述待处理样本图像的质量进行调整的过程中，针对图像处理操作集合中每个图像处理操作，根据执行该图像处理操作前后两个图像各自的特征和质量分、以及所述目标样本图像的特征，确定该图像处理操作的奖励值；

基于所述图像处理操作集合中每个图像处理操作的奖励值，对深度Q值网络DQN模型进行训练，得到所述图像处理模型，所述图像处理模型用于预测对单个待处理图像进行质量提升的图像处理操作序列。

可选地，针对所述图像处理操作集合中每个图像处理操作，根据执行该图像处理操作前后两个图像各自的特征和质量分、以及所述目标样本图像的特征，确定该图像处理操作的奖励值，包括：

针对所述图像处理操作集合中每个图像处理操作，按照以下公式，确定该图像处理操作的奖励值：

R(t)＝-a(||I_target-I(t+1||₂-||I_target-I(t)||₂)+b(score(t+1)-score(t))，

其中，a和b是超参数，score(t+1)是在执行该图像处理操作后的图像的质量分，score(t)是在执行该图像处理操作前的图像的质量分，I_target是所述目标样本图像的特征，I(t+1)是在执行该图像处理操作后的图像的特征，I(t)是在执行该图像处理操作前的图像的特征，t和t+1表示在对所述待处理样本图像的质量进行调整的过程中的任两个相邻时刻。

可选地，基于所述图像处理操作集合中每个图像处理操作的奖励值，对DQN模型进行训练，得到所述图像处理模型，包括：

将所述图像处理操作集合中每个图像处理操作的奖励值，与所述DQN模型中的奖励值相关联；

将所述在对所述待处理样本图像的质量进行调整的过程中的各个图像，与所述DQN模型中的状态相关联；

将所述图像处理操作集合中的每个图像处理操作与所述DQN模型中的动作相关联；

对关联后的DQN模型进行训练，得到所述图像处理模型。

可选地，获得样本图像对，包括：

将多个原始图像分别输入图像质量评估模型，得到所述多个原始图像各自的质量分；

从所述多个原始图像中确定质量分高于预设分值的高质量图像；

对所述高质量图像随机进行所述图像处理操作集合中的任一图像处理操作，得到质量低于所述高质量图像的低质量图像；

将所述高质量图像作为所述目标样本图像，并将所述低质量图像作为所述待处理样本图像，得到所述样本图像对。

可选地，所述方法还包括：

获得多个样本图像，所述多个样本图像分别携带预先标记的质量分；

以所述多个样本图像为输入，对预设模型进行训练，得到所述图像质量评估模型。

可选地，在得到所述图像处理模型之后，所述方法还包括：

将待处理图像输入所述图像处理模型，得到所述待处理图像对应的目标图像处理操作序列；

通过依次执行所述目标图像处理操作序列中的每个图像处理操作，对所述待处理图像的质量进行调整。

本申请实施例第二方面提供一种图像处理模型的训练装置，所述装置包括：

获得模块，用于获得样本图像对，所述样本图像对包括待处理样本图像和目标样本图像，所述待处理样本图像的质量低于所述目标样本图像的质量；

确定模块，用于在对所述待处理样本图像的质量进行调整的过程中，针对图像处理操作集合中每个图像处理操作，根据执行该图像处理操作前后两个图像各自的特征和质量分、以及所述目标样本图像的特征，确定该图像处理操作的奖励值；

第一训练模块，用于基于所述图像处理操作集合中每个图像处理操作的奖励值，对深度Q值网络DQN模型进行训练，得到所述图像处理模型，所述图像处理模型用于预测对单个待处理图像进行质量提升的图像处理操作序列。

可选地，所述确定模块包括：

确定子模块，用于针对所述图像处理操作集合中每个图像处理操作，按照以下公式，确定该图像处理操作的奖励值：

R(t)＝-a(||I_target-I(t+1||₂-||I_target-I(t)||₂)+b(score(t+1)-score(t))，

可选地，所述第一训练模块包括：

第一关联子模块，用于将所述图像处理操作集合中每个图像处理操作的奖励值，与所述DQN模型中的奖励值相关联；

第二关联子模块，用于将所述在对所述待处理样本图像的质量进行调整的过程中的各个图像，与所述DQN模型中的状态相关联；

第三关联子模块，用于将所述图像处理操作集合中的每个图像处理操作与所述DQN模型中的动作相关联；

训练子模块，用于对关联后的DQN模型进行训练，得到所述图像处理模型。

可选地，所述获得模块包括：

第一获得子模块，用于将多个原始图像分别输入图像质量评估模型，得到所述多个原始图像各自的质量分；

确定子模块，用于从所述多个原始图像中确定质量分高于预设分值的高质量图像；

第二获得子模块，用于对所述高质量图像随机进行所述图像处理操作集合中的任一图像处理操作，得到质量低于所述高质量图像的低质量图像；

第三获得子模块，用于将所述高质量图像作为所述目标样本图像，并将所述低质量图像作为所述待处理样本图像，得到所述样本图像对。

可选地，所述装置还包括：

样本图像获得模块，用于获得多个样本图像，所述多个样本图像分别携带预先标记的质量分；

第二训练模块，用于以所述多个样本图像为输入，对预设模型进行训练，得到所述图像质量评估模型。

可选地，所述装置还包括：

输入模块，用于将待处理图像输入所述图像处理模型，得到所述待处理图像对应的目标图像处理操作序列；

执行模块，用于通过依次执行所述目标图像处理操作序列中的每个图像处理操作，对所述待处理图像的质量进行调整。

本申请实施例第三方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请第一方面所述的方法的步骤。

采用本申请实施例提供的图像处理模型的训练方法，为了实现图像质量提升，首先采用一种新的确定奖励值的方法，确定图像处理操作集合中每个图像处理操作的奖励值，然后基于图像处理操作集合中每个图像处理操作的奖励值，对DQN模型进行训练，得出图像处理模型。一方面，针对每个图像处理操作，提出了一种准确地确定图像处理操作的奖励值的方法，另一方面，应用图像处理模型，可以得出针对每个待处理图像得出对应的图像处理操作序列，图像处理操作序列包括的多个图像处理操作均用于提升待处理图像的质量，所以该技术方案支持多种形式的图像质量提升，改进了图像质量提升的效果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的图像处理模型的训练方法的流程图；

图2是本申请另一实施例提供的图像处理方法的流程图；

图3是本申请另一实施例提供的获得样本图像对的方法的流程图；

图4是本申请另一实施例提供的图像质量评估模型的训练方法的流程图；

图5是本申请一实施例提出的图像处理模型的训练装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参考图1，图1是本申请一实施例提出的图像处理模型的训练方法的流程图。如图1所示，该方法包括以下步骤：

步骤S11：获得样本图像对，所述样本图像对包括待处理样本图像和目标样本图像，所述待处理样本图像的质量低于所述目标样本图像的质量。

在本实施例中，样本图像对包括两张图像：一张是待处理样本图像，另一张是目标样本图像，待处理样本图像的质量低于目标样本图像的质量。样本图像对可以是人工标注的图像对，也可以是公开数据集中的图像对。此外，在本实施例中，还提出了一种图像质量评估模型，因此还可以通过本实施例提出的图像质量评估模型获得的。关于如何通过本实施例提出的图像质量评估模型获得样本图像对，将在下文进行说明。

步骤S12：在对所述待处理样本图像的质量进行调整的过程中，针对图像处理操作集合中每个图像处理操作，根据执行该图像处理操作前后两个图像各自的特征和质量分、以及所述目标样本图像的特征，确定该图像处理操作的奖励值。

其中，图像处理操作集合包括多个图像处理操作，包括但不限于以下至少一种操作或多种操作的组合：增强或减弱亮度的操作、增强或减弱对比度的操作、增强或减弱饱和度的操作、rgb各个通道颜色单独的增强与减弱的操作、裁减操作(包含四个参数x、y、w、h，也即起点坐标(x，y)和对应的长度(w，h))。

在对待处理样本图像的质量进行调整的过程中，每次执行图像处理操作集合中的一个图像处理操作，可以首先确定执行该图像处理操作前后两个图像各自的特征和质量分，其中，确定图像的特征可以通过相关技术中对图像进行特征提取的方法实现，也可以将图像输入本申请实施例提出的图像质量评估模型，然后将该图像质量评估模型的最后一个卷积层的输出确定为该图像的特征。同理，还可以确定目标样本图像的特征。确定图像的质量分可以通过人工评分，或者，可以将该图像输入本申请实施例提出的图像质量评估模型，图像质量评估模型输出的分值即为该图像的质量分。

在本实施例中，提出了一种新的奖励值确定方法。该方法考虑执行图像处理操作前后两张图像的质量分差值、执行图像处理操作前的图像与目标图像的特征差异、执行图像处理操作后的图像与目标图像的特征差异，确定该图像处理操作的奖励值。

在一种实施方式中，针对所述图像处理操作集合中每个图像处理操作，按照以下公式，确定该图像处理操作的奖励值：

R(t)＝-a(||I_target-I(t+1||₂-||I_target-I(t)||₂)+b(score(t+1)-score(t))，

图像处理操作的奖励值可能大于零也可以能小于零，图像处理操作的奖励值大于零，表示执行该图像处理操作后图像质量提升；图像处理操作的奖励值小于零，表示执行该图像处理操作后图像质量下降。

步骤S13：基于所述图像处理操作集合中每个图像处理操作的奖励值，对深度Q值网络DQN模型进行训练，得到所述图像处理模型，所述图像处理模型用于预测对单个待处理图像进行质量提升的图像处理操作序列。

在本实施例中，根据图像处理操作集合中每个图像处理操作的奖励值，对DQN模型进行多次训练，直到DQN模型具有预测对单个待处理图像进行质量提升的图像处理操作序列的功能为止，训练完毕的DQN模型即为图像处理模型。

上述技术方案中，为了实现图像质量提升，首先采用一种新的确定奖励值的方法，确定图像处理操作集合中每个图像处理操作的奖励值，然后基于图像处理操作集合中每个图像处理操作的奖励值，对DQN模型进行训练，得出图像处理模型。一方面，针对每个图像处理操作，提出了一种准确地确定图像处理操作的奖励值的方法，另一方面，应用图像处理模型，可以得出针对每个待处理图像得出对应的图像处理操作序列，图像处理操作序列包括的多个图像处理操作均用于提升待处理图像的质量，所以该技术方案支持多种形式的图像质量提升，改进了图像质量提升的效果。

在一种实施方式中，步骤S13包括以下步骤：

对关联后的DQN模型进行训练，得到所述图像处理模型。

DQN模型主要包括三个主要元素：奖励值reward、状态state、以及动作action。本实施例提出，将DQN模型应用于图像处理领域，将DQN模型训练成图像处理模型，进而应用图像处理模型对待处理图像的质量进行提升。

具体地，在对DQN模型进行训练之前，首先，将在对待处理样本图像的质量进行调整的过程中的各个图像，与DQN模型中的状态相关联。示例地，待处理样本图像是s1，在对待处理样本图像的质量进行调整的过程中得到了s2……sn，则s1、s2……sn均可以作为DQN模型中的状态state。

然后，将图像处理操作集合中的每个图像处理操作与DQN模型中的动作相关联。示例地，图像处理操作集合包括n个动作，分别是a1、a2……an，则a1、a2……an均可以作为DQN模型中的动作action。

接着，将图像处理操作集合中每个图像处理操作的奖励值，与DQN模型中的奖励值相关联。示例地，针对s1分别执行a1、a2……an得到的奖励值、针对s2分别执行a1、a2……an得到的奖励值、……针对sn分别执行a1、a2……an得到的奖励值，均可以作为DQN模型中的奖励值reward。

在完成上述关联之后，即可开始对DQN模型进行训练，直到得到图像处理模型为止。

结合以上实施例，本申请另一实施例提供了一种图像处理方法。参考图2，图2是本申请另一实施例提供的图像处理方法的流程图。如图2所示，该方法包括步骤S11-步骤S13以及以下步骤：

步骤S14：将待处理图像输入所述图像处理模型，得到所述待处理图像对应的目标图像处理操作序列；

步骤S15：通过依次执行所述目标图像处理操作序列中的每个图像处理操作，对所述待处理图像的质量进行调整。

在本实施例中，图像处理模型具有预测对单个待处理图像进行质量提升的图像处理操作序列的功能。图像处理操作序列包括的图像处理操作可以是图像处理操作集合中全部或部分图像处理操作。

待处理图像是指质量较低的图像，需要对其进行质量提升的图像。在应用本实施例提出的图像处理模型时，首先将待处理图像输入图像处理模型，得到目标图像处理操作序列。然后对待处理图像，执行目标图像处理操作序列中的第一个图像处理操作，接着对执行第一个图像处理操作后的图像执行目标图像处理操作序列中的第二个图像处理操作，以此类推，直到执行完目标图像处理操作序列中的最后一个图像处理操作，即完成了图像质量提升，得到了质量较高的图像。

结合以上实施例，本申请另一实施例提供了一种获得样本图像对的方法。参考图3，图3是本申请另一实施例提供的获得样本图像对的方法的流程图。如图3所示，该方法包括以下步骤：

步骤S31：将多个原始图像分别输入图像质量评估模型，以得到所述多个原始图像各自的质量分；

步骤S32：从所述多个原始图像中确定质量分高于预设分值的高质量图像；

步骤S33：对所述高质量图像随机进行所述图像处理操作集合中的任一图像处理操作，得到质量低于所述高质量图像的低质量图像；

步骤S34：将所述高质量图像作为所述目标样本图像，并将所述低质量图像作为所述待处理样本图像，得到所述样本图像对。

在本实施例中，提出了一种获得样本图像对的方法。由于样本图像对中的待处理样本图像的质量低于目标样本图像的质量，因而样本图像对中的待处理样本图像可以称为低质量图像，样本图像对中的目标样本图像可以称为高质量图像。其中，高质量样本图像可以是人为手工标记的，也可以是通过本实施例提供的图像质量评估模型得到的。其中，图像质量评估模型是对图像的质量进行打分的模型，将一个未知质量的图像输入该模型，即可获得该图像的质量分。

在实际实施过程中，通过图像质量评估模型得到样本图像对的过程如下：

首先，将多个原始图像输入图像质量评估模型，得到多个原始图像各自的质量分。然后将多个原始图像各自的质量分与预设分值比较，将高于预设分值的原始图像确定为高质量图像。接着，对高质量图像随机进行图像处理操作集合中的任一图像处理操作，由于对高质量图像进行的图像处理操作是随机的，所以得到的图像的质量较低，得到了质量低于该高质量图像的低质量图像，如此，高质量图像和低质量图像组成样本图像对。然后执行步骤S12-步骤S13，得到图像处理模型。其中，对图像处理操作集合的说明请见上文，在此就不再赘述。

采用上述技术方案，可以得到大量用于训练DQN模型的样本图像对，进而增加训练样本的数量，得到准确度较高的图像处理模型，应用准确度较高的图像处理模型对待处理图像的质量进行调整，可以进一步改进图像质量提升的效果。

结合以上各实施例，在本申请另一实施例中，提供了一种图像质量评估模型的训练方法。参考图4，图4是本申请另一实施例提供的图像质量评估模型的训练方法的流程图。如图4所示，该方法包括以下步骤：

步骤S41：获得多个样本图像，所述多个样本图像分别携带预先标记的质量分；

步骤S42：以所述多个样本图像为输入，对预设模型进行训练，得到所述图像质量评估模型。

在本实施例中，从图像库中选择多个图像作为样本图像，针对每个样本图像，根据该样本图像的质量，对该样本图像进行标记。标记过程可以由人工完成，即人工判断该样本图像的质量高低，对该样本图像的质量进行打分，进而对该样本图像进行标记，使得该样本图像携带标记。按照上述过程对每个样本图像进行标记，进而得到多个携带标记的样本图像。

然后，将各个携带标记的样本图像输入到预设模型进行训练，直到训练后的预设模型具有评估单个图像的质量分的功能，该训练后的预设模型即为图像质量评估模型。

采用上述技术方案，对于未知质量的图像，可以通过本实施例提出的图像质量评估模型，确定该图像的质量分，无需人工观察图像并对该图像的质量进行打分，减少了人工操作，降低了人力成本。

基于同一发明构思，本申请一实施例提供一种图像处理模型的训练装置。参考图5，图5是本申请一实施例提供的图像处理模型的训练装置的示意图。如图5所示，该装置包括：

获得模块501，用于获得样本图像对，所述样本图像对包括待处理样本图像和目标样本图像，所述待处理样本图像的质量低于所述目标样本图像的质量；

确定模块502，用于在对所述待处理样本图像的质量进行调整的过程中，针对图像处理操作集合中每个图像处理操作，根据执行该图像处理操作前后两个图像各自的特征和质量分、以及所述目标样本图像的特征，确定该图像处理操作的奖励值；

第一训练模块503，用于基于所述图像处理操作集合中每个图像处理操作的奖励值，对深度Q值网络DQN模型进行训练，得到所述图像处理模型，所述图像处理模型用于预测对单个待处理图像进行质量提升的图像处理操作序列。

可选地，所述确定模块包括：

R(t)＝-a(||I_target-I(t+1||₂-||I_target-I(t)||₂)+b(score(t+1)-score(t))，

可选地，所述第一训练模块包括：

可选地，所述获得模块包括：

可选地，所述装置还包括：

基于同一发明构思，本申请另一实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种图像处理模型的训练方法、装置、存储介质和电子设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像处理模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，针对所述图像处理操作集合中每个图像处理操作，根据执行该图像处理操作前后两个图像各自的特征和质量分、以及所述目标样本图像的特征，确定该图像处理操作的奖励值，包括：

R(t)＝-a(||I_target-I(t+1)||₂-||I_target-I(t)||₂)+b(score(t+1)-score(t))，

3.根据权利要求1所述的方法，其特征在于，基于所述图像处理操作集合中每个图像处理操作的奖励值，对DQN模型进行训练，得到所述图像处理模型，包括：

对关联后的DQN模型进行训练，得到所述图像处理模型。

4.根据权利要求1所述的方法，其特征在于，获得样本图像对，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，在得到所述图像处理模型之后，所述方法还包括：

7.一种图像处理模型的训练装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述确定模块包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6任一所述的方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行时实现如权利要求1-6任一所述的方法的步骤。