CN115496664A

CN115496664A - 一种模型训练方法、装置、电子设备及可读存储介质

Info

Publication number: CN115496664A
Application number: CN202211261762.8A
Authority: CN
Inventors: 熊义可
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2022-12-20

Abstract

本申请公开了一种模型训练方法、装置、电子设备及可读存储介质，属于图像处理技术领域。该方法包括：获取第一图像对，第一图像对包括第一分辨率的第一图像和第二分辨率的第二图像，第一分辨率与第二分辨率不相同；将第一图像输入第一模型，输出第三图像，第三图像的图像分辨率为第二分辨率，第一模型的模型参数用于表征：将第一分辨率的图像映射至第二分辨率的图像时，图像语义特征之间的映射关系；将第二图像输入第二模型，输出第四图像，第四图像的图像分辨率为第一分辨率，第二模型的模型参数用于表征：将第二分辨率的图像映射至第一分辨率的图像时，图像语义特征之间的映射关系；以第三图像为输入数据，第四图像为标签数据，训练第三模型。

Description

一种模型训练方法、装置、电子设备及可读存储介质

技术领域

本申请属于图像处理技术领域，具体涉及一种模型训练方法、装置、电子设备及可读存储介质。

背景技术

为了提高电子设备的拍摄效果，越来越多的电子设备支持变焦功能，以提高电子设备的拍摄效果。

例如，电子设备可以基于深度学习超分算法实现数字变焦。具体的，相关技术中的深度学习超分算法是利用单帧高清图像作为groundtruth，往下缩小一定分辨率生成低清图像；然后对低清图像加一些高斯模糊、随机高斯噪声，以生成多张输入图像；然后在基于这些输入图像训练神经网络模型，以得到变焦神经网络模型。

然而，按照上述方法，由于输入图像通过对单帧高清图像进行分辨率缩小、高斯模糊、添加随机噪声得到的，因此可能导致输入图像损失了较多图像高频信息，从而导致数字变焦效果较差。

发明内容

本申请实施例的目的是提供一种模型训练方法、装置、电子设备及可读存储介质，能够解决相关技术中数字变焦效果较差的问题。

第一方面，本申请实施例提供了一种模型训练方法，该方法包括：获取第一图像对，第一图像对包括第一分辨率的第一图像和第二分辨率的第二图像，第一分辨率与第二分辨率不相同；将第一图像输入第一模型，输出第三图像，第三图像的图像分辨率为第二分辨率，第一模型的模型参数用于表征：将第一分辨率的图像映射至第二分辨率的图像时，图像语义特征之间的映射关系；将第二图像输入第二模型，输出第四图像，第四图像的图像分辨率为第一分辨率，第二模型的模型参数用于表征：将第二分辨率的图像映射至第一分辨率的图像时，图像语义特征之间的映射关系；以第三图像为输入数据，第四图像为标签数据，训练第三模型。

第二方面，本申请实施例提供了一种模型训练装置，该模型训练装置可以包括：获取模块和处理模块。所述获取模块，用于获取第一图像对，所述第一图像对包括第一分辨率的第一图像和第二分辨率的第二图像，所述第一分辨率与所述第二分辨率不相同；所述处理模块，用于将所述第一图像输入第一模型，输出第三图像，所述第三图像的图像分辨率为所述第二分辨率，所述第一模型的模型参数用于表征：将第一分辨率的图像映射至第二分辨率的图像时，图像语义特征之间的映射关系；所述处理模块，还用于将所述第二图像输入第二模型，输出第四图像，所述第四图像的图像分辨率为所述第一分辨率，所述第二模型的模型参数用于表征：将第二分辨率的图像映射至第一分辨率的图像时，图像语义特征之间的映射关系；所述处理模块，还用于以所述第三图像为输入数据，所述第四图像为标签数据，训练第三模型。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，可以获取第一图像对，第一图像对包括第一分辨率的第一图像和第二分辨率的第二图像，第一分辨率与第二分辨率不相同；将第一图像输入第一模型，输出第三图像，第三图像的图像分辨率为第二分辨率，第一模型的模型参数用于表征：将第一分辨率的图像映射至第二分辨率的图像时，图像语义特征之间的映射关系；将第二图像输入第二模型，输出第四图像，第四图像的图像分辨率为第一分辨率，第二模型的模型参数用于表征：将第二分辨率的图像映射至第一分辨率的图像时，图像语义特征之间的映射关系；以第三图像为输入数据，第四图像为标签数据，训练第三模型。通过该方案，由于可以通过第一模型将第一分辨率的图像进行处理为第二分辨率的图像，并可以通过第二模型将第二分辨率的图像处理为第一分辨率的图像，然后再以处理后的图像对，对第三模型进行训练，即通过真实图像对学习得到间接真实的图像对，然后再以间接真实的图像对训练最终的用于数字处理的模型，因此可以使得第三模型学习到较多的高频细节，从而可以使得第三辨模型具有更好的数字变焦效果。

附图说明

图1是本申请实施例提供的模型训练方法的流程示意图；

图2是本申请实施例中的第一模型、第二模型和第四模型的一种可能的训练流程示意图；

图3是本申请实施例提供的模型训练装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图之一；

图5是本申请实施例提供的电子设备的结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的一种超分辨模型训练方法、装置、电子设备及可读存储介质进行详细地说明。

近些年来，随着智能手机技术的发展，越来越多的人对手机拍照效果有了更高的要求，因而加速了图像技术的发展。其中一个技术发展方向就是长焦化，很多智能手机都做到了20x，50x，甚至100x的变焦效果。而随着变焦算法技术的发展，手机镜头技术也随着有了提升，很多手机现在都有一颗甚至多颗长焦的模组，以提升变焦效果。

变焦算法专业叫法为超分，传统的超分算法一般利用插值的方式，例如线性插值(bilinear)，双三次插值(bicubic)等。其原理是利用周围的像素点进行插值，传统超分效果往往都不理想，且随着倍率的放大，效果会越来越差。

近些年来随着深度学习技术的发展，深度学习超分算法取得了良好的效果，很多场合都替代了传统变焦算法。同时随着手机镜头技术的发展，很多手机都配备了一颗甚至多颗专业的光学变焦镜头，例如很多手机都配有2x，3.5x，5x甚至10x的光学变焦镜头。但受限于手机空间，功耗和费用限制，单台手机只会配备一颗到两颗长焦摄像头。那么其他倍率的效果需要用超分算法提升效果。以配备了2x和5x摄像头为例，中间4x倍率往往需要利用2x的图像超分到4x来实现图像超分效果的过渡。

一般基于深度学习的算法基本都利用单帧高清图像作为标签数据(groundtruth)，往下缩小2倍分辨率生成低清图像，低清图像再加一些高斯模糊，然后加入一些随机高斯噪声，作为输入数据(input)，然后利用神经网络进行学习，以提升效果，但这往往跟实际光学变焦不符，得不到好的效果，同时单帧图像也丢失了很多图像高频信息，效果提升有限。

而在本申请实施例中，可以利用相同光学芯片(sensor)，但配备不同光学变焦镜头的电子设备，以配备了具有不同分辨率镜头的电子设备为例。同时启用第一分辨率和第二分辨率的镜头拍摄同一场景，利用第二分辨率镜头得到的图像作为深度学习网络的groundtruth，利用第一分辨率的镜头得到的图像，作为input，利用第一模型和第二模型进行引导学习，实现第三模型的变焦效果提升。

具体的，电子设备可以获取第一图像对，所述第一图像对包括第一分辨率的第一图像和第二分辨率的第二图像，所述第一分辨率与所述第二分辨率不相同；将所述第一图像输入第一模型，输出第三图像，所述第三图像的图像分辨率为所述第二分辨率，所述第一模型的模型参数用于表征：将第一分辨率的图像映射至第二分辨率的图像时，图像语义特征之间的映射关系；将所述第二图像输入第二模型，输出第四图像，所述第四图像的图像分辨率为所述第一分辨率，所述第二模型的模型参数用于表征：将第二分辨率的图像映射至第一分辨率的图像时，图像语义特征之间的映射关系；以所述第三图像为输入数据，所述第四图像为标签数据，训练第三模型。如此，由于可以通过第一模型将第一分辨率的图像进行处理为第二分辨率的图像，并可以通过第二模型将第二分辨率的图像处理为第一分辨率的图像，然后再以处理后的图像对，对第三模型进行训练，即通过真实图像对学习得到间接真实的图像对，然后再以间接真实的图像对训练最终的用于数字处理的模型，因此可以使得第三模型学习到较多的高频细节，从而可以使得第三辨模型具有更好的数字变焦效果。

本申请实施例提供了一种超分辨模型训练方法，图1示出了本申请实施例提供的超分辨模型训练方法的流程示意图，如图1所示，本申请实施例提供的超分辨模型训练方法可以包括下述的步骤101至步骤104。以电子设备执行该方法为例进行示意。

步骤101、电子设备获取第一图像对。

其中，第一图像对可以包括：第一分辨率的第一图像、第二分辨率的第二图像。

本申请实施例中，第一分辨率与第二分辨率不同。

具体的，1)，第一分辨率可以大于第二分辨率。第一模型为模糊模型，即将高分辨率图像处理为低分辨率图像的模型；第二模型为超分辨模型，即用于将低分辨率图像处理为高分辨率图像。可以理解，在1)中，第二模型用于将高倍率图像(即第二图像)缩小分辨率以生成低清图像(即第四图像)。

2)第一分辨率可以小于第二分辨率；第一模型为超分辨模型，即用于将低分辨率图像处理为高分辨率图像；第二模型为模糊模型，即将高分辨率图像处理为低分辨率图像的模型。

可选地，在1)中，第一分辨率可以为1X、2X等，第二分辨率可以为：2X、3X、4X、5X等任意大于第一分辨率的倍率。其中，第一分辨率和第二分辨率之差越大，模型学习难度越大。

对于2)的描述，参见对1)的相关描述，为了避免重复此处不再赘述。

本申请实施例中，第一图像和第二图像均为准焦图像。

本申请实施例中，第一图像和所述第二图像满足以下至少一项：视场相同；亮度相同；用户场景相同；拍摄对象相同。

本申请实施例中，电子设备获取第一图像对，可以理解为：电子设备以第一分辨率拍摄第一图像，并以第二分辨率拍摄第二图像。

当然，实际实现中，电子设备还可以获取其他设备以第一分辨率拍摄的第一图像、并获取其他设备以第二分辨率拍摄的第二图像。

可选地，以分别通过2x和4x镜头拍摄第一图像和第二图像为例，且将第一图像称为低清图像，第二图像称为高清图像。具体步骤如下：

步骤1、电子设备获取低清图像和高清图像；

1、在电子设备上同时安装两个光学sensor，且为两个sensor分别配置2x和4x不同倍率的光学变焦镜头。

2、同时启动两个sensor，采用目标策略拍摄同一场景，

其中，目标策略包括自动对焦(Auto Focus，AF)策略和自动曝光(AutomaticExposure，AE)策略。

其中，AE策略保证两个sensor得到的图亮度一致，AF策略保证两个sensor得到的图都是准焦的。

为了保持稳定，可以将电子设备放置于三脚架上拍摄，而不是手持，以避免手抖带来的运动模糊影响。

因为倍率不一样，2x和4x所获得的图像的视场范围也是不一样的。具体的，2x摄像头的视场范围大，但是低清，模糊；4x摄像头的视场范围小，但是清晰。

为确超分效果的稳定性，需要根据普通用户实际使用场景，采集足够多的第一图像对，一般用户场景如：绿植，文字，人像，天空，建筑等等，兼顾各种光照条件下的场景，例如白天和夜晚等。

3、为了统一第一图像和第二图像的尺寸，可以对第一图像进行预处理。

具体的，将第一图像与第二图像进行配准，并裁取第一图像的中心区域，保证裁取完的第一图像和第二图像之间的图像内容无偏差，视场一致。

可以理解，在后续步骤中使用的是裁剪后的第一图像。

因为第二图像的清晰度和第一图像的清晰度有差异，直接利用第二图像作为超分辨模型的groundtruth，第一图像作为超分辨模型的input进行训练的话，很容易产生假纹理，因为从数学的角度，从低清图像无损恢复到高清图像，是一个病态问题。因此，我们需要训练一个能够产生一个低清图像可以恢复到次高清图像的数据对的模型，如下述的第一超分辨模型和模糊模型，以降低最终的超分模型学习的难度，让最终的超分模型能够学习到一个能超分的最好效果。具体如下述的步骤102至步骤104所述。

步骤102、电子设备将第一图像输入第一模型，输出第三图像。

其中，第三图像的图像分辨率为第二分辨率，第一模型的模型参数用于表征：将第一分辨率的图像映射至第二分辨率的图像时，图像语义特征之间的映射关系。

例如，以第一分辨率小于第二分辨率为例，假设第一分辨率的图像中包括“十”，将该图像映射为具有第二分辨率的图像后，映射后的图像中包括：“米”。

步骤103、电子设备将第二图像输入第二模型，输出第四图像。

其中，第四图像的图像分辨率为第一分辨率，第二模型的模型参数用于表征：将第二分辨率的图像映射至第一分辨率的图像时，图像语义特征之间的映射关系。

例如，以第一分辨率小于第二分辨率为例，假设第二图像中包括“米”，第二模型将该第二图像映射为第四图像后，第四图像中包括：“木”。

步骤104、电子设备以第三图像为输入数据，第四图像为标签数据，训练第三模型。

可选地，当第一分辨率小于第二分辨时，第三模型为模糊模型。当第一分辨率大于第二分辨率时，第三模型为超分辨模型。

对于模糊模型和超分辨模型的描述，参见上述实施例中的相关描述。

需要说明的是，上述实施例中是以第一图像对对第三模型进行训练为例进行示意的，实际实现中，可以对多个第一图像对分别执行上述的步骤102之步骤104，直至第三模型的模型参数收敛。

可选地，为了更加符合拍摄实际，训练第三模型时，可以模仿手抖动，为第三图像加入轻微的偏移或鬼影，以优化第三模型的学习效果。

可以理解，完成对第三模型的训练后，可以通过第三模型对待变焦的图像进行变焦处理，并输出变焦处理后的图像。

可选地，上述步骤104具体可以通过下述的步骤104a和步骤104b实现。

步骤104a、电子设备对第三图像执行目标操作，得到N个第四目标图像；

步骤104b、电子设备以N个第四目标图像和第三图像为输入数据，第四图像为标签数据，训练第三模型。

其中，目标操作可以包括以下至少一项：鬼影补偿处理、图像偏移处理，N可以为正整数。

可以理解，每个第四目标图像中可以包括：鬼影区域和偏移区域中的至少一项。

需要说明的是，当采用多个第三图像对，分别对第三模型进行训练时，可以对部分第三图像进行目标操作。

如此，由于可以模仿实际拍摄过程中可能发生的抖动或偏移，在第三模型的输入数据中添加鬼影或偏移，因此可以进一步提高第三模型的训练效果，从而提高第三模型的变焦能力。

在本申请实施例提供的模型训练方法中，由于可以通过第一模型将第一分辨率的图像进行处理为第二分辨率的图像，并可以通过第二模型将第二分辨率的图像处理为第一分辨率的图像，然后再以处理后的图像对，对第三模型进行训练，即通过真实图像对学习得到间接真实的图像对，然后再以间接真实的图像对训练最终的用于数字处理的模型，因此可以使得第三模型学习到较多的高频细节，从而可以使得第三辨模型具有更好的数字变焦效果。

可选地，电子设备在通过第一模型和第二模型处理第一图像对之前，可以先对第一模型和第二模型进行训练，直至第一模型和第二模型的模型参数收敛。

可选地，在上述步骤101之前，本申请实施例提供的超分辨模型训练方法还可以包括下述的步骤105和步骤106。

步骤105、电子设备获取第二图像对。

其中，第二图像对可以包括：第一分辨率的第五图像、第二分辨率的第六图像。

本申请实施例中，第五图像和第六图像均为准焦图像。

本申请实施例中，第五图像和第六图像满足以下至少一项：视场相同；亮度相同；用户场景相同；拍摄对象相同。

对于第五图像和第六图像的其他描述，具体可以参见上述实施例中对第一图像和第二图像的相关描述，为了避免重复，此处不再赘述。

实际实现中，电子设备可以先获取第一图像对和第二图像对，再执行步骤105。

步骤106、电子设备基于第二图像对，训练第一模型和第二模型。

其中，所述第一模型的输入数据为第五图像，第一模型的标签数据为第六图像；第二模型的输入数据为第六图像，第二模型的标签数据为第五图像。

需要说明的是，上述步骤105和步骤106中是以一个第二图像对对第一模型和第二模型进行训练为例进行示意的，实际实现中，可以对多个第二图像对分别执行上述的步骤105和步骤106，直至第一模型的模型参数收敛，以及第二模型的模型参数收敛。

其中，训练第一模型使用的第二图像对的数量与训练第二模型使用的第二图像对的数量可以相同，也可以不同。

下面结合具体示例对步骤105和步骤106进行具体说明。

示例性地，以第一分辨率为2x，第二分辨率为4x；即第五图像为2x图像、第六图像为4x图像为例。

假设第一模型为模型g1、第二模型为模型g2；那么：针对每个第二图像对，电子设备可以用2x图像和4x图像分别作为input和groundtruth训练模型g1；反过来再利用4x图像和2x图像作为input和groundtruth训练模型g2。直至模型g1的模型参数和模型g2的模型参数收敛。

如图2所示，2x图像称之为lr图像，模型g1的输出图像，即第三图像称之为hr’图像，也称之为假高清图像；4x图像称之为hr图像，模型g2的输出图像，即第四图像称之为lr’图像，也称之为假低清图像。

本申请实施例中，由于可以用真实的第一分辨率的图像和第二分辨率的图像，训练第一模型和第二模型，因此可以确保第一模型和第二模型的模型参数更加准确，从而可以提高第三模型的训练准确度。

可选地，本申请实施例中，在上述步骤102之前，本申请实施例提供的模型训练方法还可以包括下述的步骤107和步骤108，或包括步骤107和步骤109。

步骤107、电子设备通过第四模型确定第一目标图像的图像语义特征。

其中，第四模型的模型参数可以用于表征：第一图像语义特征、第二图像语义特征。

其中，所述第一图像语义特征为所述第一分辨率的图像的图像语义特征；第二图像语义特征为所述第二分辨率的图像的图像语义特征。

可选地，第四模型可以用于判别图像的图像语义特征。换句话说，第四模型用于判断图像是否为：真实的第一分辨率的图像、真实的第二分辨率的图像。

本申请实施例中，第一图像语义特征是指：摄像头以第一分辨率拍摄得到的图像所具有的图像语义特征，即第一分辨率的真实图像的图像语义特征。第二图像语义特征是指：摄像头以第二分辨率拍摄得到的图像所具有的图像语义特征，即第二分辨率的真实图像的图像语义特征。

本申请实施例中，第一目标图像可以为第一模型对第七图像处理后输出的图像。

可选地，第七图像可以为对第一模型进行训练的过程中，第一模型的输入图像。例如第七图像可以为第一模型的模型参数收敛之后，继续对第一模型进行训练时使用的输入图像。

可选地，第七图像可以为以第一分辨率采集的图像，即第七图像可以为第一分辨率的真实图像。

对于第七图像和第一目标图像的其他描述，具体参见上述实施例中对第一图像和第三图像的相关描述。

步骤108、电子设备在第四模型确定第一目标图像的图像语义特征不符合第二图像语义特征的情况下，训练第一模型，并更新第四模型的模型参数，通过第四模型确定第二目标图像的图像语义特征。

步骤109、电子设备在第四模型确定第一目标图像的图像语义特征符合第二图像语义特征的情况下，通过第四模型确定第二目标图像的图像语义特征。

其中，第二目标图像为第二模型对第八图像处理后输出的图像。

可选地，第八图像可以为对第一模型进行训练的过程中，第二模型的输入图像。例如第八图像可以为第二模型的模型参数收敛之后，继续对第二模型进行训练时使用的输入图像。

可选地，第八图像可以为以第一分辨率采集的图像，即第八图像可以为第一分辨率的真实图像。

可选地，第七图像和第八图像均为准焦图像。

可选地，第七图像和第八图像满足以下至少一项：视场相同；亮度相同；用户场景相同；拍摄对象相同。

可以理解，第七图像和第八图像可以为一个图像对。

本申请实施例中，“电子设备通过第四模型确定第一目标图像的图像语义特征”可以理解为：将第一目标图像输入第四模型中，输出第一判别结果。第一判别结果用于指示第一目标图像的图像语义特征是否符合第二图像语义特征。

示例性地，将第一目标图像输入第四模型，若第一判别结果为0，则表示第一目标图像的图像语义特征不符合第二图像语义特征；若第一判别结果为1，则表示第一目标图像的图像语义特征符合第二图像语义特征。

进一步可选地，电子设备可以将第一目标图像和第一目标图像的分辨率均输入第四模型，以便于第四模型更加准确地判别第一目标图像的图像语义特征。

例如，当将第一目标图像输入第四模型中时，还可以输入第一目标图像对应的第二分辨率。

本申请实施例中，当第四模型确定第一目标图像的图像语义特征符合第一图像语义特征时，则表明：第一模型处理得到的第二分辨率的图像的图像语义特征与真实的第二分辨率的差异较小，也即第一模型的变焦能力已经足够了。从而无需再对第一模型进行进一步地训练。相反，当第四模型确定第一目标图像的图像语义特征不符合第一图像语义特征，则表明：第一模型处理得到的第二分辨率的图像的图像语义特征与真实的第二分辨率的差异较大，也即第一模型的变焦能力还不够，从而需要再对第一模型进行进一步地训练。

本申请实施例中，当使用第四模型对第一模型的输出图像(如第一目标图像)进行图像语义特征判别一次之后，若需要对第一模型进行再次训练，则在再次训练之后，需要对第四模型的模型参数进行一次更新。

并且，对第一模型的输出图像进行图像语义特征判别之后，可以对第二模型的输出图像进行一次图像语义特征判别。

可选地，“电子设备通过第四模型确定第二目标图像的图像语义特征”的条件是：第四模型确定第二模型前一次确定第二模型的输出图像的图像语义特征不符合第一图像语义特征。

可选地，本申请实施例中，电子设备继续训练第一模型，包括：电子设备以第一分辨率的图像为输入数据，第二分辨率的图像为标签数据，对第一模型进行一次训练。然后，电子设备可以将第一模型的最新输出的图像再次输入第四模型中进图像语义特征判别，并根据判别结果确定是否继续训练第二模型。

本申请实施例中，由于电子设备可以通过第四模型对第一模型的输出图像的图像语义特征进行判别，并基于第四模型的判别结果，确定是否继续训练第一模型，而判别模型的判别结果可以指示第一模型的数字变焦能力，因此可以确保电子设备能够充分训练第一模型的变焦能力。

进一步地，由于电子设备可以继续训练第一模型后，更新第四模型的模型参数，因此可以确保第四模型的判别结果更加准确。

此外，电子设备可以在对第一模型的输出图像进行图像语义特征判别之后，继续通过第四模型对第二模型的输出图像进行图像语义特征判别，因此可以确保第一模型和第二模型的数字变焦能力均满足变焦需求。

对于电子设备通过第四模型确定第二目标图像的图像语义特征的方法，具体可以参见对“电子设备通过第四模型确定第二目标图像的图像语义特征”的方法的相关描述。

可选地，电子设备通过第四模型确定第二目标图像的图像语义特征之后，本申请实施例提供的模型训练方法还可以包括下述的步骤110或步骤111。

步骤110、电子设备在第四模型确定第二目标图像的图像语义特征不符合第一图像语义特征的情况下，训练第二模型，并更新第四模型的模型参数，通过第四模型确定第三目标图像的图像语义特征。

步骤111、电子设备在第四模型确定第二目标图像的图像语义特征符合第一图像语义特征的情况下，通过第四模型确定第三目标图像的图像语义特征。

其中，第三目标图像为第一模型对第九图像处理后输出的图像。

可选地，对于第九图像的描述，参见上述实施例中对第五图像的相关描述。

对于步骤110和步骤111的描述，具体可以参见上述步骤108和步骤109的相关描述。

本申请实施例中，若电子设备在步骤107中判别第一目标图像的图像语义特征符合第二图像语义特征，然后电子设备再通过第四模型判断第二目标图像的图像语义特征符合第一图像语义特征，则电子设备可以直接结束对第一模型和第二模型的判别以及训练。

需要说明的是，电子设备可以交替将第一模型的输出图像和第二模型的输出图像输入第四模型中进行图像语义特征判别，并根据判别结果确定是否就行训练当前判别的模型，以及是否更新第四模型的模型参数；直至第四模型判断第一模型的输出图像和第二模型的输出图像的图像语义特征均符合对应的图像语义特征。

可以看出，假设第一分辨率小于第二分辨率；即第一分辨率的图像为lr，第二分辨率的图像为hr图像，经过第一模型处理得到的图像为hr图像’，经过第二模型处理得到的图像为lr’图像，则：电子设备最终停止训练第一模型和第二模型的前提是：第四模型能判断出hr’图像图像语义特征符合第二图像语义特征，lr’图像的图像语义特征符合第二图像语义特征，即hr图像’和lr’图像分别是以第二分辨率和第一分辨率拍摄的图像，也即在第四模型认为hr’图像和hr图像图像都是真实的高清图像，lr’图像和lr都是真实的低清图像。换句话说，在第四模型看来二者在高层语义上都是真实图像时，停止对第一模型和第二模型进行训练。

本申请实施例中，由于电子设备可以在通过第四模型对第二模型的输出图像的图像语义特征进行判别之后，基于第四模型的判别结果，确定是否继续训练第二模型，而第四模型的判别结果可以指示第二模型的数字变焦能力，因此可以确保电子设备能够充分训练第二模型的变焦能力。

进一步地，由于电子设备可以继续训练第二模型后，可以更新第四模型的模型参数，因此可以确保第四模型的判别结果更加准确。

此外，电子设备可以在对第二模型的输出图像进行图像语义特征判别之后，继续通过第四模型对第一模型的输出图像进行图像语义特征判别，因此可以确保第一模型和第二模型的数字变焦能力均满足变焦需求。

可选地，本申请实施例中，在上述步骤107之前，本申请实施例提供的模型训练方法还可以包括下述的步骤112。

步骤112、电子设备以第三图像对为输入数据，1值为标签数据，训练第四模型；并以第四图像对为输入数据，0值为标签数据，训练第四模型。

其中，第三图像对可以包括：第一分辨率的第十图像和第二分辨率的第十一图像。

所述第四图像对可以包括：第一模型对第十图像处理后输出的图像；第二模型对第十一图像处理后输出的图像。

可选地，第十图像和第十一图像为准焦图像。

可选地，第十图像和第十一图像满足以下至少之一：视场相同；亮度相同；用户场景相同；拍摄对象相同。

可选地，本申请实施例中，在训练第四模型的过程中，在输入一个输入图像时，还需要输入该输入图像对应的分辨率。

示例性地，假设第一模型为模型g1，第二模型为模型g2，那么：如图2所示，在模型g1和模型g2的模型参数收敛后，电子设备可以先利用模型g1的输出图像hr’作为input，0值作为网络标签，模型g2的输入图像hr作为input，1值作为网络标签，训练第四模型d；然后再以模型g2的输出图像lr’作为input，0值作为网络标签，模型g1的输入图像lr作为input，1值作为网络标签，训练第四模型d。

本申请实施例不限定第三图像对和第四图像对的数量，具体以第四模型的模型参数是否收敛为准。

在第四模型的模型参数收敛之后，表示第四模型能正确识别：

第一分辨率的图像的图像语义特征；

经过模型g2处理得到的图像的图像语义特征；

第二分辨率的图像的图像语义特征；

经过模型g1处理得到的第二分辨率的图像的图像语义特征。

本申请实施例中，由于是分别使用第一模型的输入图像、第二模型的输出图像，以及第一模型的输出图像和第二模型的输入图像，对第四模型进行训练的，因此可以提高第四模型判别图像的图像语义特征的准确性。

本申请实施例提供的模型训练方法，执行主体可以为模型训练装置。本申请实施例中以模型训练装置执行模型训练方法为例，说明本申请实施例提供的模型训练装置。

本申请实施例提供了一种模型训练装置，图3是本申请实施例提供的模型训练装置的结构示意图，如图3所示，本申请实施例提供的模型训练装置30可以包括：获取模块31和处理模块32。

所述获取模块31，用于获取第一图像对，所述第一图像对包括第一分辨率的第一图像和第二分辨率的第二图像，所述第一分辨率与所述第二分辨率不相同；

所述处理模块32，用于将所述第一图像输入第一模型，输出第三图像，所述第三图像的图像分辨率为所述第二分辨率，所述第一模型的模型参数用于表征：将第一分辨率的图像映射至第二分辨率的图像时，图像语义特征之间的映射关系；

所述处理模块32，还用于将所述第二图像输入第二模型，输出第四图像，所述第四图像的图像分辨率为所述第一分辨率，所述第二模型的模型参数用于表征：将第二分辨率的图像映射至第一分辨率的图像时，图像语义特征之间的映射关系；

所述处理模块32，还用于以所述第三图像为输入数据，所述第四图像为标签数据，训练第三模型。

一种可能的实现方式中，第一图像和所述第二图像为准焦图像，所述第一图像和所述第二图像满足以下至少一项：

视场相同；

亮度相同；

用户场景相同；

拍摄对象相同。

一种可能的实现方式中，获取模块31，还用于在获取第一图像对之前，获取第二图像对，所述第二图像对包括所述第一分辨率的第五图像和所述第二分辨率的第六图像；

所述处理模块32，还用于基于所述获取模块31获取的所述第二图像对，训练所述第一模型和所述第二模型；

其中，所述第一模型的输入数据为所述第五图像，所述第一模型的标签数据为所述第六图像；

所述第二模型的输入数据为所述第六图像，所述第二模型的标签数据为所述第五图像。

一种可能的实现方式中，处理模块32，还用于：

在将所述第一图像输入第一模型，输出第三图像之前，通过第四模型确定第一目标图像的图像语义特征；

在所述第四模型确定所述第一目标图像的图像语义特征不符合第二图像语义特征的情况下，训练所述第一模型，并更新所述第四模型的模型参数，通过所述第四模型确定第二目标图像的图像语义特征；

在所述第四模型确定所述第一目标图像的图像语义特征符合所述第二图像语义特征的情况下，通过所述第四模型确定所述第二目标图像的图像语义特征；

其中，所述第四模型的模型参数用于表征：所述第一图像语义特征、第二图像语义特征；

所述第一图像语义特征为所述第一分辨率的图像的图像语义特征；

所述第二图像语义特征为所述第二分辨率的图像的图像语义特征；

所述第一目标图像为所述第一模型对第七图像处理后输出的图像；

所述第二目标图像为所述第二模型对第八图像处理后输出的图像。

一种可能的实现方式中，所述处理模块32，还用于在通过所述第四模型确定第二目标图像的图像语义特征之后，在所述第四模型确定所述第二目标图像的图像语义特征不符合所述第一图像语义特征的情况下，训练所述第二模型，并更新所述第四模型的模型参数，通过所述第四模型确定第三目标图像的图像语义特征；

在所述第四模型确定所述第二目标图像的图像语义特征符合所述第一图像语义特征的情况下，通过所述第四模型确定第三目标图像的图像语义特征；

其中，所述第三目标图像为所述第一模型对第九图像处理后输出的图像。

一种可能的实现方式中，处理模块32，还用于在通过第四模型确定第一目标图像的图像语义特征之前，以第三图像对为输入数据，1值为标签数据，训练所述第四模型；

并以第四图像对为输入数据，0值为标签数据，训练所述第四模型；

其中，所述第三图像对包括：所述第一分辨率的第十图像和所述第二分辨率的第十一图像；

所述第四图像对包括：

所述第一模型对所述第十图像处理后输出的图像；

所述第二模型对所述第十一图像处理后输出的图像。

一种可能的实现方式中，处理模块，具体用于对所述第三图像执行目标操作，得到N个第四目标图像；并以N个所述第四目标图像和所述第三图像为输入数据，所述第四图像为标签数据，训练所述第三模型；

其中，所述目标操作包括以下至少一项：鬼影补偿处理、图像偏移处理，N为正整数。

在本申请实施例提供的模型训练装置中，由于可以通过第一模型将第一分辨率的图像进行处理为第二分辨率的图像，并可以通过第二模型将第二分辨率的图像处理为第一分辨率的图像，然后再以处理后的图像对，对第三模型进行训练，即通过真实图像对学习得到间接真实的图像对，然后再以间接真实的图像对训练最终的用于数字处理的模型，因此可以使得第三模型学习到较多的高频细节，从而可以使得第三辨模型具有更好的数字变焦效果。

本申请实施例中的模型训练装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的模型训练装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的模型训练装置能够实现图1和图2的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图4所示，本申请实施例还提供一种电子设备400，包括处理器401和存储器402，存储器402上存储有可在所述处理器401上运行的程序或指令，该程序或指令被处理器401执行时实现上述模型训练方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

图5为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备500包括但不限于：射频单元501、网络模块502、音频输出单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接口单元508、存储器509、以及处理器510等部件。

本领域技术人员可以理解，电子设备500还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器510逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图5中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，输入单元504，用于获取第一图像对，所述第一图像对包括第一分辨率的第一图像和第二分辨率的第二图像，所述第一分辨率与所述第二分辨率不相同；

所述处理器510，用于将所述第一图像输入第一模型，输出第三图像，所述第三图像的图像分辨率为所述第二分辨率，所述第一模型的模型参数用于表征：将第一分辨率的图像映射至第二分辨率的图像时，图像语义特征之间的映射关系；

所述处理器510，还用于将所述第二图像输入第二模型，输出第四图像，所述第四图像的图像分辨率为所述第一分辨率，所述第二模型的模型参数用于表征：将第二分辨率的图像映射至第一分辨率的图像时，图像语义特征之间的映射关系；

所述处理器510，还用于以所述第三图像为输入数据，所述第四图像为标签数据，训练第三模型。

视场相同；

亮度相同；

用户场景相同；

拍摄对象相同。

一种可能的实现方式中，输入单元504，还用于在获取第一图像对之前，获取第二图像对，所述第二图像对包括所述第一分辨率的第五图像和所述第二分辨率的第六图像；

所述处理器510，还用于基于所述输入单元504获取的所述第二图像对，训练所述第一模型和所述第二模型；

一种可能的实现方式中，处理器510，还用于：

一种可能的实现方式中，所述处理器510，还用于在通过所述第四模型确定第二目标图像的图像语义特征之后，在所述第四模型确定所述第二目标图像的图像语义特征不符合所述第一图像语义特征的情况下，训练所述第二模型，并更新所述第四模型的模型参数，通过所述第四模型确定第三目标图像的图像语义特征；

一种可能的实现方式中，处理器510，还用于在通过第四模型确定第一目标图像的图像语义特征之前，以第三图像对为输入数据，1值为标签数据，训练所述第四模型；

所述第四图像对包括：

所述第一模型对所述第十图像处理后输出的图像；

所述第二模型对所述第十一图像处理后输出的图像。

一种可能的实现方式中，处理器510，具体用于对所述第三图像执行目标操作，得到N个第四目标图像；并以N个所述第四目标图像和所述第三图像为输入数据，所述第四图像为标签数据，训练所述第三模型；

在本申请实施例提供的电子设备中，由于可以通过第一模型将第一分辨率的图像进行处理为第二分辨率的图像，并可以通过第二模型将第二分辨率的图像处理为第一分辨率的图像，然后再以处理后的图像对，对第三模型进行训练，即通过真实图像对学习得到间接真实的图像对，然后再以间接真实的图像对训练最终的用于数字处理的模型，因此可以使得第三模型学习到较多的高频细节，从而可以使得第三辨模型具有更好的数字变焦效果。

应理解的是，本申请实施例中，输入单元504可以包括图形处理器(GraphicsProcessing Unit，GPU)5041和麦克风5042，图形处理器5041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元506可包括显示面板5061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板5061。用户输入单元507包括触控面板5071以及其他输入设备5072中的至少一种。触控面板5071，也称为触摸屏。触控面板5071可包括触摸检测装置和触摸控制器两个部分。其他输入设备5072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器509可用于存储软件程序以及各种数据。存储器509可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器509可以包括易失性存储器或非易失性存储器，或者，存储器509可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。

处理器510可包括一个或多个处理单元；可选的，处理器510集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器510中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

获取第一图像对，所述第一图像对包括第一分辨率的第一图像和第二分辨率的第二图像，所述第一分辨率与所述第二分辨率不相同；

将所述第一图像输入第一模型，输出第三图像，所述第三图像的图像分辨率为所述第二分辨率，所述第一模型的模型参数用于表征：将第一分辨率的图像映射至第二分辨率的图像时，图像语义特征之间的映射关系；

将所述第二图像输入第二模型，输出第四图像，所述第四图像的图像分辨率为所述第一分辨率，所述第二模型的模型参数用于表征：将第二分辨率的图像映射至第一分辨率的图像时，图像语义特征之间的映射关系；

以所述第三图像为输入数据，所述第四图像为标签数据，训练第三模型。

2.根据权利要求1所述的方法，其特征在于，所述第一图像和所述第二图像为准焦图像，所述第一图像和所述第二图像满足以下至少一项：

视场相同；

亮度相同；

用户场景相同；

拍摄对象相同。

3.根据权利要求1所述的方法，其特征在于，所述获取第一图像对之前，所述方法还包括：

获取第二图像对，所述第二图像对包括所述第一分辨率的第五图像和所述第二分辨率的第六图像；

基于所述第二图像对，训练所述第一模型和所述第二模型；

4.根据权利要求1所述的方法，其特征在于，所述将所述第一图像输入第一模型，输出第三图像之前，所述方法还包括：

通过第四模型确定第一目标图像的图像语义特征；

5.根据权利要求4所述的方法，其特征在于，所述通过所述第四模型确定第二目标图像的图像语义特征之后，所述方法还包括：

在所述第四模型确定所述第二目标图像的图像语义特征不符合所述第一图像语义特征的情况下，训练所述第二模型，并更新所述第四模型的模型参数，通过所述第四模型确定第三目标图像的图像语义特征；

6.根据权利要求4所述的方法，其特征在于，所述通过第四模型确定第一目标图像的图像语义特征之前，所述方法还包括：

以第三图像对为输入数据，1值为标签数据，训练所述第四模型；

以第四图像对为输入数据，0值为标签数据，训练所述第四模型；

所述第四图像对包括：

所述第一模型对所述第十图像处理后输出的图像；

所述第二模型对所述第十一图像处理后输出的图像。

7.根据权利要求1所述的方法，其特征在于，所述以所述第三图像为输入数据，所述第四图像为标签数据，训练第三模型，包括：

对所述第三图像执行目标操作，得到N个第四目标图像，N为正整数；

以N个所述第四目标图像和所述第三图像为输入数据，所述第四图像为标签数据，训练所述第三模型；

其中，所述目标操作包括以下至少一项：鬼影补偿处理、图像偏移处理。

8.一种模型训练装置，其特征在于，所述装置包括：获取模块和处理模块；

所述获取模块，用于获取第一图像对，所述第一图像对包括第一分辨率的第一图像和第二分辨率的第二图像，所述第一分辨率与所述第二分辨率不相同；

所述处理模块，用于将所述第一图像输入第一模型，输出第三图像，所述第三图像的图像分辨率为所述第二分辨率，所述第一模型的模型参数用于表征：将第一分辨率的图像映射至第二分辨率的图像时，图像语义特征之间的映射关系；

所述处理模块，还用于将所述第二图像输入第二模型，输出第四图像，所述第四图像的图像分辨率为所述第一分辨率，所述第二模型的模型参数用于表征：将第二分辨率的图像映射至第一分辨率的图像时，图像语义特征之间的映射关系；

所述处理模块，还用于以所述第三图像为输入数据，所述第四图像为标签数据，训练第三模型。

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至7中任一项所述的模型训练方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的模型训练方法的步骤。