CN110827219B

CN110827219B - 图像处理模型的训练方法、装置及介质

Info

Publication number: CN110827219B
Application number: CN201911054263.XA
Authority: CN
Inventors: 张亮
Original assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Current assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2023-04-07
Anticipated expiration: 2039-10-31
Also published as: CN110827219A; EP3816927B1; US11222235B2; JP6909317B2; US20210133499A1; KR20210053121A; JP2021072081A; EP3816927A1; KR102366995B1

Abstract

本公开是关于一种图像处理模型的训练方法、装置和介质。该方法包括：对于N个训练场景中的每一个训练场景，分别获取M帧远距拍摄图像，其中N和M均为大于1的正整数；对于每一个训练场景，获取该训练场景的近距标准图像；对于每一个训练场景，将所述M帧远距拍摄图像裁剪为具有与所述近距标准图像相同的视场，并基于所述近距标准图像对齐裁剪后的所述M帧远距拍摄图像；每一个训练场景的对齐后的所述M帧远距拍摄图像和所述近距标准图像形成该训练场景的训练样本对，将分别对应于所述N个训练场景的N个训练样本对组成训练样本集；基于所述训练样本集，对所述图像处理模型进行训练。采用该方法，在有效的提高了数字变焦效果同时，实现了去噪的目的。采用本方法，可以让用户在拍摄远处文字或者其他物体时，可以看得更加清楚。

Description

图像处理模型的训练方法、装置及介质

技术领域

本公开涉及图像处理技术领域，尤其涉及图像处理模型的训练方法、装置及介质。

背景技术

变焦功能是当今手机和相机的必备功能。人们在拍摄的照片中会将镜头拉近到遥远的物体上，比如野生动物和运动员，以便更详细地观察物体。有些智能手机甚至配备了两个不同变焦级别的摄像头。这表明了高品质变焦功能对消费相机市场的重要性。光学变焦是图像变焦的最佳选择，可以保持较高的图像质量，但变焦镜头通常是昂贵和笨重的。因此目前主要还是采用数字变焦进行图像增强。数字变焦(Digital Zoom)是通过手机或者数码相机内的处理器，把图片内的每个像素面积增大，从而达到放大目的。然而，目前大部分数字变焦方法只是简单地向上采样相机传感器输入的裁剪区域，这种方法会产生模糊的输出。在没有昂贵光学设备的情况下，为遥远的物体获取高质量的图像仍然是一个挑战。

发明内容

为克服相关技术中存在的问题，本公开提供一种用于图像处理的深度学习网络训练方法、装置及介质。

根据本公开实施例的第一方面，提供一种图像处理模型的训练方法，所述方法包括：

对于N个训练场景中的每一个训练场景，分别获取M帧远距拍摄图像，其中N和M均为大于1的正整数；

对于每一个训练场景，获取该训练场景的近距标准图像；

对于每一个训练场景，将所述M帧远距拍摄图像裁剪为具有与所述近距标准图像相同的视场，并基于所述近距标准图像对齐裁剪后的所述M帧远距拍摄图像；

每一个训练场景的对齐后的所述M帧远距拍摄图像和所述近距标准图像形成该训练场景的训练样本对，将分别对应于所述N个训练场景的N个训练样本对组成训练样本集；

基于所述训练样本集，对所述图像处理模型进行训练。

其中，所述获取该训练场景的近距标准图像，包括：

获取所述训练场景的K帧近距拍摄图像，其中K为大于等于1的正整数；

基于所述K帧近距拍摄图像，获取所述训练场景的近距标准图像。

其中，所述基于所述K帧近距拍摄图像获取所述训练场景的近距标准图像，包括：

基于所述K帧近距拍摄图像，通过多帧融合方式，获取所述训练场景的近距标准图像。

其中，所述远距拍摄图像与所述近距拍摄图像为在同一水平线上获取的图像。

其中，所述方法还包括：

在所述M帧远距拍摄图像中选取一帧远距参考图像。

其中，所述基于所述近距标准图像对齐裁剪后的所述M帧远距拍摄图像，包括：

基于所述近距标准图像对齐所述远距参考图像；

基于所述远距参考图像对齐所述M帧远距拍摄图像中其它图像。

其中，所述基于所述训练样本集，对所述图像处理模型进行训练，包括：

在所述图像处理模型中，设置所述远距参考图像的计算权重大于所述M帧远距拍摄图像中其它图像的计算权重。

其中，所述在所述M帧远距拍摄图像中选取一帧远距参考图像，包括：

获取各帧远距拍摄图像的梯度值；

选取具有最大梯度值的远距拍摄图像作为所述远距参考图像。

其中，所述图像处理模型是多帧超分辨率网络模型。

根据本公开实施例的第二方面，提供一种图像处理方法，所述方法包括：

针对目标对象获取M帧远距拍摄图像，其中M为大于1的正整数；

将所述M帧远距拍摄图像输入根据上述方法训练的图像处理模型，以获得所述目标对象的增强图像。

根据本公开实施例的第三方面，提供一种用于图像处理模型的训练装置，所述装置包括：

远距图像获取模块，被配置为对于N个训练场景中的每一个训练场景，分别获取M帧远距拍摄图像，其中N和M均为大于1的正整数；

近距图像获取模块，被配置为对于每一个训练场景，获取该训练场景的近距标准图像；

图像对齐模块，被配置为对于每一个训练场景，将所述M帧远距拍摄图像裁剪为具有与所述近距标准图像相同的视场，并基于所述近距标准图像对齐裁剪后的所述M帧远距拍摄图像；

样本集组成模块，被配置为将每一个训练场景的对齐后的所述M帧远距拍摄图像和所述近距标准图像形成该训练场景的训练样本对，将分别对应于所述N个训练场景的N个训练样本对组成训练样本集；

训练模块，基于所述训练样本集，对所述图像处理模型进行训练。

根据本公开实施例的第四方面，提供一种用于图像处理的深度学习网络训练装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

对于每一个训练场景，获取该训练场景的近距标准图像；

基于所述训练样本集，对所述图像处理模型进行训练。

根据本公开实施例的第五方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种用于图像处理的深度学习网络训练方法，所述方法包括：

对于每一个训练场景，获取该训练场景的近距标准图像；

基于所述训练样本集，对所述图像处理模型进行训练。

在本公开的实施例中，利用近距拍摄图像得到的近距标准图像裁剪并对齐远距拍摄图像，并将多帧对齐的远距拍摄图像作为输入、近距标准图像作为输出，来训练图像处理模型。采用上述方法训练的图像处理模型来处理远距拍摄图像时，在有效地提高了数字变焦效果同时，实现了去噪的目的。采用本公开实施例中的方法，可以让用户在拍摄远处文字或者其他物体时，可以看得更加清楚。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种图像处理模型的训练方法的流程图。

图2是根据一示例性实施例示出的远距拍摄图像的示意图。

图3是根据一示例性实施例示出的近距拍摄图像的示意图。

图4是根据一示例性实施例示出的近距拍摄图像的示意图。

图5是根据一示例性实施例示出的近距标准图像的示意图。

图6是根据一示例性实施例示出的远距拍摄图像及其梯度二值图的对比示意图

图7是根据一示例性实施例示出的图像处理模型处理图像的效果示意图。

图8是根据一示例性实施例示出的一种图像处理模型的训练方法的流程图。

图9是根据一示例性实施例示出的对近距标准图像进行画幅裁剪的示意图。

图10是根据一示例性实施例示出的对远距参考图像进行画幅裁剪的示意图。

图11是根据一示例性实施例示出的将裁剪后的远距参考图像与近距标准图像对齐的示意图。

图12是根据一示例性实施例示出的对齐后的远距参考图像与近距标准图像进行去鬼影操作后图像的示意图。

图13是根据一示例性实施例示出的10帧对齐的远距拍摄图像的示意图。

图14是根据一示例性实施例示出的图像处理模型的训练装置的框图。

图15是根据一示例性实施例示出的一种装置的框图。

图16是根据一示例性实施例示出的一种装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

高品质变焦功能对消费相机市场非常重要。由于光学变焦镜头昂贵且笨重，因此目前主要采用数字变焦。然而，目前大部分数字变焦方法只是简单地向上采样相机传感器输入的裁剪区域，这种方法会产生模糊的输出。

随着目前深度学习的逐渐成熟，基于卷积神经网络的数字变焦技术也越来越流行，但是大多数的基于卷积神经网络的数字变焦方法在构建训练集的时候采用合成的低分辨率RGB图像(通常从高分辨率图像中向下采样)作为输入，这种通过下采样来模拟退化不能真实的反映真实的图像退化情况。并且，大部分数字变焦方法没有去噪的能力，其中通过下采样来构建输入图像，间接降低了输入中的噪声水平，导致最终训练的网络不具有较好的去噪能力。

本公开提出了一种图像处理模型的训练方法，可以同时进行图像数字变焦和去噪，得到的变焦后的图像相比变焦前不仅图像变得更加清楚，细节更加丰富，而且噪声大量减少。

该方法可以应用于数字相机或配置有数字相机的智能终端上。

图1是根据一示例性实施例示出的一种图像处理模型的训练方法的流程图，如图1所示，该方法用于终端中，包括以下步骤：

步骤101，对于N个训练场景中的每一个训练场景，分别获取M帧远距拍摄图像，其中N和M均为大于1的正整数；

步骤102，对于每一个训练场景，获取该训练场景的近距标准图像；

步骤103，对于每一个训练场景，将所述M帧远距拍摄图像裁剪为具有与所述近距标准图像相同的视场，并基于所述近距标准图像对齐裁剪后的所述M帧远距拍摄图像；

步骤104，每一个训练场景的对齐后的所述M帧远距拍摄图像和所述近距标准图像形成该训练场景的训练样本对，将分别对应于所述N个训练场景的N个训练样本对组成训练样本集；

步骤105，基于所述训练样本集，对所述图像处理模型进行训练。

步骤101为远距拍摄图像的采集，其中这M帧图像为相机固定在同一位置对相同训练场景采集的图像。例如，可以通过下述过程进行远距拍摄图像的采集：固定场景目标，将相机固定在三脚架上，将三脚架固定在距离目标4m处连续拍摄10张图像。图2示出了远距拍摄图像的示意图。采用与上面拍摄相同的方式，拍摄N个训练场景，其中每个训练场景拍摄M帧远距拍摄图像。

在具体的实施方式中，N和M可以根据期望的训练效果进行设置，通常N可以例如设置为500、1000等，M可以例如设置为10、20等，如上面例子中。M和N取大于1的正整数，即采集多个训练场景且每个训练场景多帧远距拍摄图像。目前现有技术中数字变焦都是基于单帧图像进行的，但是单帧图像信息有限，单凭一张图像难以得到一张细节更丰富的图像。因此本方法中采用多帧图像进行数字变焦，即利用多帧图像之间的互补信息，通过在更高分辨的网格中进行信息融合，从而得到细节更多、分辨率更高的图像。

步骤102中训练场景的近距标准图像是指距离训练场景较近的距离处的低噪声图像。

步骤103中，针对每一个训练场景，先将其M帧远距拍摄图像裁剪为具有与其低噪声图像相同的视场，利用该近距离的低噪声图像对齐裁剪后远距拍摄图像。

需要说明的是，因为获取近距标准图像的近距拍摄图像与远距拍摄图像是在与训练场景不同距离的不同位置处拍摄的，远距离拍摄的图像的视场大于近距离拍摄得到的图像的视场，因此在对齐操作时，需要对图像画幅裁减，使得近距标准图像与远距拍摄图像具有相同的视场；然后基于图像中的特征点进行单映射对齐；最后还可以进行去鬼影操作。这里相同的视场是指不同视场角下的相同场景。

本方法中，利用近距离图像来对齐远距离图像，这样在将对齐的远距离图像输入图像处理模型进行的训练是建立在远距离图像和近距离图像的基础上的。这种远近拍摄方法得到的两种图像出现了不同的视场，而这种视场退化才是最接近真实图像退化的，通过深度学习网络来学习这种基于不同视场的退化，从而使得网络可以有效地对远景拍摄的图像进行数字变焦，得到高清图像。而目前的基于深度学习网络的数字变焦采用模拟退化的方法构建数据集，这种非真实的模拟方法构建的数据集不能解决真实场景下的退化问题。

步骤104为组成训练样本集的过程。首先，将每一个训练场景得到的数据都形成训练样本对，再将这些训练样本对组成训练样本集。

步骤105中，基于上述得到的训练样本集对图像处理模型(例如，深度学习网络)进行训练。

在可选实施方式中，所述获取该训练场景的近距标准图像，包括：

在可选实施方式中，所述基于所述K帧近距拍摄图像获取所述训练场景的近距标准图像，包括：

在可选实施方式中，所述远距拍摄图像与所述近距拍摄图像为在同一水平线上获取的图像。

上述具体实施方式给出了获取训练场景的近距标准图像的方法。这里的近距标准图像是指通过对近距离拍摄采集到的图像进行处理而得到的低噪声图像。在相机采集到的图像中，往往会存在一定的噪声，这种噪声一般来说在空间域是互不相关的，并且是一种加性噪声。即，对于相机采集到的一幅图像，可以表示为无噪声图像和加性噪声的组成，如下式表示：

G(x,y)＝f(x,y)+B(x,y)；

其中G(x,y)为采集图像，f(x,y)为无噪声图像，B(x,y)为噪声。对于同一个场景拍摄的多张图像来说，B(x,y)一般认为是随机的且相互不相干，且满足均值为0的高斯分布，因此同场景的多幅图像的均值的期望是无噪声图像。因此，通过多帧图像可以合成一个低噪声的图像。通过实验可以发现采用10帧图像就基本可以得到一个低噪声的图像。即K可以取值为大于等于10的正整数。

具体地，固定场景目标，将相机固定在三脚架上，将三脚架固定在距离目标2m处，连续拍摄10张在距离目标2m处时的目标图像。其中，保证近距拍摄时与远距拍摄时在一个水平线上采集图像，以有利于进行后面图像对齐的操作。图3示出了近距拍摄图像的示意图。然后，将10张图像通过多帧融合技术得到一张低噪声图像。常用的多帧融合去噪方法很多，甚至可以采用PS方法进行多帧融合去噪操作。图4和图5分别示出了近距拍摄图像与近距标准图像的示意图，其中图5中的近距标准图像是由多张如图4所示的近距拍摄图像通过多帧融合技术得到的。

在本方法中，输入到图像处理模型中的图像是通过远距离连续拍摄得到的多帧未经任何处理的RGB图像，因此具有很高的彩色噪声。而进行对齐操作利用的是通过近距离连续拍摄同一个场景得到多张图像、然后进行多帧融合去噪得到的没有彩噪的图像。图像处理模型通常采用深度学习网络模型，通过深度学习网络模型来学习这种基于噪声的退化，从而使得网络模型可以有效的对远景拍摄的图像进行去噪。因此本方法同时具有数字变焦和去噪的能力。而目前大部分数字变焦算法则不具有较好的去噪能力，尤其去彩噪的能力。

在可选实施方式中，所述方法还包括：

在所述M帧远距拍摄图像中选取一帧远距参考图像。

这里的远距参考图像是多帧远距拍摄图像中最清晰的图像。该远距参考图像可以用于远距拍摄图像与近距标准图像的对齐，以及输入图像处理模型(如，深度学习网络模型)时通过增加其计算权重来加强深度学习网络的训练效果。

例如，深度学习网络模型同时输入10帧对齐的远距拍摄图像，其长和宽分别为w和h。该10帧远距拍摄图像中的第一帧为远距参考图像，每一帧经过三层卷积进行下采样得到三个不同尺度大小的特征图，分别为w*h*c，w/2*h/2*4c,w/4*h/4*8c，其中c为通道数，这里可以取8。然后通过特征通道连接得到一个多道数的特征块w/4*h/4*8*10c；然后经过多个残差块，并通过反卷积进行上采样。另外，每一帧对应的特征都会多帧连接到后面对应大小的特征上。最终得到输出为w*h*3的低噪声的高清图像。

在可选实施方式中，所述在所述M帧远距拍摄图像中选取一帧远距参考图像，包括：

获取各帧远距拍摄图像的梯度值；

可以通过拉普拉斯算子得到图像的梯度值，具体计算梯度值的方法可以采用已有技术中的方法，在此不再赘述。图6示出了一帧远距拍摄图像及其梯度二值图的对比示意图，其中左边为截取的远距拍摄图像的一部分，右边为其对应的梯度二值图。

在可选实施方式中，所述基于所述近距标准图像对齐裁剪后的所述M帧远距拍摄图像，包括：

基于所述近距标准图像对齐所述远距参考图像；

远距拍摄图像通常是采用三脚架固定拍摄的，因此远距拍摄图像不对齐的主要因素是场景内存在运动目标，例如树叶飘动等。在从远距拍摄图像中选取最清晰的图像作为远距参考图像的基础上，先将远距参考图像与近距标准图像对齐，再将远距拍摄图像与远距参考图像对齐。即，首先将其它远距拍摄图像都裁减成具有与远距参考图像相同的视场，然后利用去鬼影技术消除不对齐的局部块，以得到对齐后的远距拍摄图像。

利用远距参考图像来对齐远距拍摄图像，可以得到更好的对齐效果。

在可选实施方式中，所述基于所述训练样本集，对所述图像处理模型进行训练，包括：

具体地，可以将远距参考图像作为远距拍摄图像中的第一帧输入到图像处理模型(如深度学习网络模型)中。由于远距参考图像是远距拍摄图像中最清晰的图像，因此通过对远距参考图像的计算权重设置的较大，可以加强对深度学习网络模型的训练，使得深度学习网络模型的输出图像更加清晰。

在对深度学习网络模型训练完成后，将多帧远距拍摄图像输入该深度学习网络模型中，可以由深度学习网络模型输出远距拍摄图像的局部高清图像。图7是该深度学习网络模型处理图像的效果示意图。左上是远距拍摄图像，右上是远距拍摄图像中的局部图像，可以看出来该局部图像比较模糊，左下是经过训练的深度学习网络模型处理后的局部图像，该局部图像比较清晰。

在可选实施方式中，所述图像处理模型是多帧超分辨率网络模型。

图8示出了根据本公开的图像处理模型训练方法的具体实施例。其中图像处理模型采用多帧超分辨率网络模型。如图8所示，该实施例包括以下步骤：

步骤801，将三脚架固定在距被拍摄训练场景4米处，将相机固定在三脚架上，连续拍摄10帧远距图像。

步骤802，将三脚架平移到距被拍摄训练场景2米处并固定，将相机固定在三脚架上，连续拍摄10帧近距图像。

步骤803，重复上述步骤801和802，获取共500个训练场景的远距拍摄图像和近距拍摄图像各10帧。

步骤804，针对每个场景，从10帧远距拍摄图像中选取最清晰的一帧作为远距参考图像。

步骤805，针对每个场景，利用多帧融合方式，基于10帧近距拍摄图像获取低噪声的近距标准图像。

步骤806，针对每个场景，将远距参考图像与近距标准图像对齐，具体包括：对近距标准图像进行画幅裁剪，如图9所示；对远距参考图像进行画幅裁剪，如图10所示，以与裁剪后的近距标准图像的视场相同；将裁剪后的远距参考图像与近距标准图像对齐，如图11所示；对齐后的远距参考图像与近距标准图像进行去鬼影操作，处理后的图像如图12所示。

步骤807，针对每个场景，将剩下的9帧远距拍摄图像与对齐处理后的远距参考图像对齐，具体对齐操作可参考步骤806中的操作，得到的10帧对齐的远距拍摄图像如图13所示。

步骤808，每个训练场景的对齐后的远距拍摄图像和近距标准图像生成训练样本对，500个训练样本对组成训练样本集，用训练样本集训练多帧超分辨率网络模型。

本公开还提供了一种图像处理方法，所述方法包括：

将所述M帧远距拍摄图像输入根据本公开提供的图像处理模型训练方法训练得到的图像处理模型，以获得所述目标对象的增强图像。

具体的，例如，采集目标对象的10帧远距拍摄图像，在该10帧远距拍摄图像中选取最清楚的一帧(例如，基于图像的梯度值)作为远距参考图像。将其他9帧远距拍摄图像与远距参考图像对齐后，将对齐的10帧远距拍摄图像输入到经训练的图像处理模型中，经过该模型的处理，可以得到目标对象的清晰图像。

本公开还提供了一种图像处理模型的训练装置，如图14所示，所述装置包括：

远距图像获取模块1401，被配置为对于N个训练场景中的每一个训练场景，分别获取M帧远距拍摄图像，其中N和M均为大于1的正整数；

近距图像获取模块1402，被配置为对于每一个训练场景，获取该训练场景的近距标准图像；

图像对齐模块1403，被配置为对于每一个训练场景，将所述M帧远距拍摄图像裁剪为具有与所述近距标准图像相同的视场，并基于所述近距标准图像对齐裁剪后的所述M帧远距拍摄图像；

样本集组成模块1404，被配置为将每一个训练场景的对齐后的所述M帧远距拍摄图像和所述近距标准图像形成该训练场景的训练样本对，将分别对应于所述N个训练场景的N个训练样本对组成训练样本集；

训练模块1405，基于所述训练样本集，对所述图像处理模型进行训练。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

利用近距拍摄图像得到的近距标准图像裁剪并对齐远距拍摄图像，并将多帧对齐的远距拍摄图像作为输入、近距标准图像作为输出，来训练图像处理模型。采用上述方法训练的图像处理模型来处理远距拍摄图像时，在有效地提高了数字变焦效果同时，实现了去噪的目的。采用本公开实施例中的方法，可以让用户在拍摄远处文字或者其他物体时，可以看得更加清楚。

图15是根据一示例性实施例示出的一种图像处理模型的训练装置1500的框图。例如，装置1500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图15，装置1500可以包括以下一个或多个组件：处理组件1502，存储器1504，电力组件1506，多媒体组件1508，音频组件1510，输入/输出(I/O)的接口1512，传感器组件1514，以及通信组件1516。

处理组件1502通常控制装置1500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1502可以包括一个或多个处理器1520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1502可以包括一个或多个模块，便于处理组件1502和其他组件之间的交互。例如，处理组件1502可以包括多媒体模块，以方便多媒体组件1508和处理组件1502之间的交互。

存储器1504被配置为存储各种类型的数据以支持在设备1500的操作。这些数据的示例包括用于在装置1500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件1506为装置1500的各种组件提供电力。电力组件1506可以包括电源管理系统，一个或多个电源，及其他与为装置1500生成、管理和分配电力相关联的组件。

多媒体组件1508包括在所述装置1500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1508包括一个前置摄像头和/或后置摄像头。当设备1500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1510被配置为输出和/或输入音频信号。例如，音频组件1510包括一个麦克风(MIC)，当装置1500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1504或经由通信组件1516发送。在一些实施例中，音频组件1510还包括一个扬声器，用于输出音频信号。

I/O接口1512为处理组件1502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1514包括一个或多个传感器，用于为装置1500提供各个方面的状态评估。例如，传感器组件1514可以检测到设备1500的打开/关闭状态，组件的相对定位，例如所述组件为装置1500的显示器和小键盘，传感器组件1514还可以检测装置1500或装置1500一个组件的位置改变，用户与装置1500接触的存在或不存在，装置1500方位或加速/减速和装置1500的温度变化。传感器组件1514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1516被配置为便于装置1500和其他设备之间有线或无线方式的通信。装置1500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1504，上述指令可由装置1500的处理器1520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种图像处理模型的训练方法，所述方法包括：对于N个训练场景中的每一个训练场景，分别获取M帧远距拍摄图像，其中N和M均为大于1的正整数；对于每一个训练场景，获取该训练场景的近距标准图像；对于每一个训练场景，将所述M帧远距拍摄图像裁剪为具有与所述近距标准图像相同的视场，并基于所述近距标准图像对齐裁剪后的所述M帧远距拍摄图像；每一个训练场景的对齐后的所述M帧远距拍摄图像和所述近距标准图像形成该训练场景的训练样本对，将分别对应于所述N个训练场景的N个训练样本对组成训练样本集；基于所述训练样本集，对所述图像处理模型进行训练。。

图16是根据一示例性实施例示出的一种用于用于图像处理的深度学习网络训练装置1600的框图。例如，装置1600可以被提供为一服务器。参照图16，装置1600包括处理组件1622，其进一步包括一个或多个处理器，以及由存储器1632所代表的存储器资源，用于存储可由处理组件1622的执行的指令，例如应用程序。存储器1632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1622被配置为执行指令，以执行上述方法：对于N个训练场景中的每一个训练场景，分别获取M帧远距拍摄图像，其中N和M均为大于1的正整数；对于每一个训练场景，获取该训练场景的近距标准图像；对于每一个训练场景，将所述M帧远距拍摄图像裁剪为具有与所述近距标准图像相同的视场，并基于所述近距标准图像对齐裁剪后的所述M帧远距拍摄图像；每一个训练场景的对齐后的所述M帧远距拍摄图像和所述近距标准图像形成该训练场景的训练样本对，将分别对应于所述N个训练场景的N个训练样本对组成训练样本集；基于所述训练样本集，对所述图像处理模型进行训练。

装置1600还可以包括一个电源组件1626被配置为执行装置1600的电源管理，一个有线或无线网络接口1650被配置为将装置1600连接到网络，和一个输入输出(I/O)接口1658。装置1600可以操作基于存储在存储器1632的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种图像处理模型的训练方法，其特征在于，所述方法包括：

对于每一个训练场景，获取该训练场景的近距标准图像；

基于所述训练样本集，对所述图像处理模型进行训练；

所述方法还包括：

在所述M帧远距拍摄图像中选取一帧远距参考图像；

所述基于所述训练样本集，对所述图像处理模型进行训练，包括：

在所述图像处理模型中，设置所述远距参考图像的计算权重大于所述M帧远距拍摄图像中其它图像的计算权重；

其中，所述远距参考图像为所述M帧远距拍摄图像中最清晰的一帧。

2.如权利要求1所述的方法，其特征在于，所述获取该训练场景的近距标准图像，包括：

3.如权利要求2所述的方法，其特征在于，所述基于所述K帧近距拍摄图像获取所述训练场景的近距标准图像，包括：

4.如权利要求2所述的方法，其特征在于，所述远距拍摄图像与所述近距拍摄图像为在同一水平线上获取的图像。

5.如权利要求1所述的方法，其特征在于，所述基于所述近距标准图像对齐裁剪后的所述M帧远距拍摄图像，包括：

基于所述近距标准图像对齐所述远距参考图像；

6.如权利要求1所述的方法，其特征在于，所述在所述M帧远距拍摄图像中选取一帧远距参考图像，包括：

获取各帧远距拍摄图像的梯度值；

7.如权利要求1所述的方法，其特征在于，所述图像处理模型是多帧超分辨率网络模型。

8.一种图像处理方法，其特征在于，所述方法包括：

将所述M帧远距拍摄图像输入根据权利要求1-7中任一项所述的方法训练的图像处理模型，以获得所述目标对象的增强图像。

9.一种用于图像处理模型的训练装置，其特征在于，所述装置包括：

训练模块，基于所述训练样本集，对所述图像处理模型进行训练；

所述训练模块还被配置为：

在所述M帧远距拍摄图像中选取一帧远距参考图像；

10.一种用于图像处理的深度学习网络训练装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器;

其中，所述处理器被配置为：

对于每一个训练场景，获取该训练场景的近距标准图像；

基于所述训练样本集，对图像处理模型进行训练；

所述处理器还被配置为：

在所述M帧远距拍摄图像中选取一帧远距参考图像；

11.一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种用于图像处理的深度学习网络训练方法，所述方法包括：

对于每一个训练场景，获取该训练场景的近距标准图像；

基于所述训练样本集，对图像处理模型进行训练；

所述方法还包括：

在所述M帧远距拍摄图像中选取一帧远距参考图像；