CN112529776B

CN112529776B - 图像处理模型的训练方法、图像处理方法及装置

Info

Publication number: CN112529776B
Application number: CN201910887729.8A
Authority: CN
Inventors: 张志华; 武文静
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2023-04-07
Anticipated expiration: 2039-09-19
Also published as: CN112529776A

Abstract

本发明提供了一种图像处理模型的训练方法、图像处理方法及装置。其中，所述图像处理模型的训练方法包括：获取样本图像组的第一分辨率数据和第二分辨率数据；所述第二分辨率低于所述第一分辨率；利用至少包含双边滤波网络(BNN)模型的图像处理模型对所述第二分辨率数据进行超分辨率重建，得到第三分辨率数据；所述第三分辨率高于所述第二分辨率；基于所述第一分辨率数据与所述第三分辨率数据，确定所述图像处理模型的损失函数的值；基于所述损失函数的值，更新所述图像处理模型的模型参数。如此，能够实现用于完成视频超分辨率重建的图像处理模型的训练，以利用该图像处理模型获得高质量的超分辨率处理效果。

Description

图像处理模型的训练方法、图像处理方法及装置

技术领域

本发明涉及图像处理领域，尤其涉及一种图像处理模型的训练方法、图像处理方法及装置。

背景技术

近年来，为了适应人们对视频质量的要求的不断提高，视频的分辨率越来越高。通过数字图像处理技术来提高视频分辨率的超分辨率(英文表达为Super-Resolution)重建技术既节约成本又具有可实现性。然而，相关技术中进行超分辨率重建处理后的超分辨率图像的效果较差。

发明内容

本发明实施例提供一种图像处理模型的训练方法、图像处理方法及装置，能够实现用于完成视频超分辨率重建的图像处理模型的训练，以利用该图像处理模型获得高质量的超分辨率处理效果。

本发明实施例提供一种图像处理模型的训练方法，包括：

获取样本图像组的第一分辨率数据和第二分辨率数据；所述第二分辨率低于所述第一分辨率；

利用至少包含双边滤波网络(BNN，Bilateral Networks)模型的图像处理模型对所述第二分辨率数据进行超分辨率重建，得到第三分辨率数据；所述第三分辨率高于所述第二分辨率；

基于所述第一分辨率数据与所述第三分辨率数据，确定所述图像处理模型的损失函数的值；

基于所述损失函数的值，更新所述图像处理模型的模型参数。

上述方案中，所述利用至少包含BNN模型的图像处理模型对所述第二分辨率数据进行超分辨率重建，得到第三分辨率数据，包括：

利用包含BNN模型和卷积神经网络(CNN，Convolutional Neural Networks)模型的图像处理模型对所述第二分辨率数据进行超分辨率重建，得到第三分辨率数据。

针对所述第二分辨率数据中的每帧图像，进行上采样处理，得到上采样处理后的相应帧图像；

利用所述上采样处理后的相应帧图像和第一图像帧序列，提取图像中各像素点的特征，得到特征集合；所述第一图像帧序列是所述第二分辨率数据中所述相应帧图像之前各帧图像进行超分辨率重建后形成的；

利用BNN模型对所述特征集合进行融合处理，得到所述相应帧图像的超分辨率图像；所述第二分辨率数据中所有帧图像的超分辨率图像形成所述第三分辨率数据。

上述方案中，所述利用BNN模型对所述特征集合进行融合处理，得到所述相应帧图像的超分辨率图像，包括：

利用至少一组滤波器对所述特征集合进行过滤处理，得到过滤处理后的各特征；

利用第一滤波器对得到的处理后的各特征进行降维处理，得到所述相应帧图像的超分辨率图像。

上述方案中，所述利用至少一组滤波器对所述特征集合进行过滤处理，包括：

将所述特征集合中的各特征在预设维度的空间中进行映射，得到映射后的各特征；

对映射后的各特征进行卷积处理，得到卷积处理后的各特征；

利用质心插值方法将得到的卷积处理后的各特征在所述预设维度的空间中进行映射。

上述方案中，所述利用包含BNN模型和CNN模型的图像处理模型对所述第二分辨率数据进行超分辨率重建，得到第三分辨率数据，包括：

利用BNN模型对所述特征集合进行融合处理，得到处理后的数据；

利用CNN模型对得到的处理后的数据进行滤波处理，得到所述相应帧图像的超分辨率图像；所述第二分辨率数据中所有帧图像的超分辨率图像形成所述第三分辨率数据。

上述方案中，所述基于所述第一分辨率数据与所述第三分辨率数据，确定所述图像处理模型的损失函数的值，包括：

基于所述第一分辨率数据与所述第三分辨率数据，确定所述第一分辨率数据与所述第三分辨率数据之间的残差；

基于所述第一分辨率数据与所述第三分辨率数据之间的残差，确定所述图像处理模型的损失函数的值。

上述方案中，所述基于所述损失函数的值，更新所述图像处理模型的模型参数，包括：

确定所述图像处理模型的损失函数的值达到第一阈值，基于所述图像处理模型的损失函数确定相应的第一误差信号；

将所述第一误差信号在所述图像处理模型中反向传播，并在传播的过程中利用随机梯度下降法更新所述图像处理模型的各网络层的模型参数。

上述方案中，所述获取样本图像组的第一分辨率数据和第二分辨率数据，包括：

获取样本图像组；

以第一帧速率对所述样本图像组进行提取处理，得到样本图像帧序列；

对得到的样本图像帧序列以两种不同的采样率分别进行下采样处理，得到第一分辨率图像帧序列和第二分辨率图像帧序列；

按预设的时间规则分别对所述第一分辨率图像帧序列和所述第二分辨率图像帧序列进行标识，得到第一分辨率数据和第二分辨率数据。

本发明实施例还提供一种图像处理模型的训练装置，包括：

获取单元，用于获取样本图像组的第一分辨率数据和第二分辨率数据；所述第二分辨率低于所述第一分辨率；

第一超分辨率重建单元，用于利用至少包含BNN模型的图像处理模型对所述第二分辨率数据进行超分辨率重建，得到第三分辨率数据；所述第三分辨率高于所述第二分辨率；

损失确定单元，用于基于所述第一分辨率数据与所述第三分辨率数据，确定所述图像处理模型的损失函数的值；

参数更新单元，用于基于所述损失函数的值，更新所述图像处理模型的模型参数。

本发明实施例还提供一种图像处理方法，包括：

以第二帧速率对第一图像组进行提取处理，得到第一图像帧序列；

通过图像处理模型，对所述第一图像帧序列中的各图像帧分别进行超分辨率重建，得到对应的第二图像帧序列；所述第二图像帧序列的分辨率高于所述第一图像帧序列；

对所述第二图像帧序列进行合成处理，得到第二图像组；

其中，所述图像处理模型基于本发明实施例提供的图像处理模型的训练方法训练得到。

本发明实施例还提供一种图像处理装置，包括：

预处理单元，用于以第二帧频速率对第一图像组进行提取处理，得到第一图像帧序列；

第二超分辨率重建单元，用于通过图像处理模型，对所述第一图像帧序列中的各图像帧分别进行超分辨率重建，得到对应的第二图像帧序列；所述第二图像帧序列的分辨率高于所述第一图像帧序列；

后处理单元，对所述第二图像帧序列进行合成处理，得到第二图像组；

其中，所述图像处理模型基于本发明实施例提供的图像处理模型的训练方法训练。

本发明实施例还提供一种图像处理模型的训练装置，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的图像处理模型的训练方法、或实现本发明实施例提供的图像处理方法。

本发明实施例还提供一种存储介质，所述存储介质存储有可执行指令，当所述可执行指令被至少一个处理器执行时，实现本发明实施例提供的图像处理模型的训练方法、或实现本发明实施例提供的图像处理方法。

本发明提供了一种图像处理模型的训练方法、图像处理方法及装置。其中，所述图像处理模型的训练方法包括：获取样本图像组的第一分辨率数据和第二分辨率数据；所述第二分辨率低于所述第一分辨率；利用至少包含BNN模型的图像处理模型对所述第二分辨率数据进行超分辨率重建，得到第三分辨率数据；所述第三分辨率高于所述第二分辨率；基于所述第一分辨率数据与所述第三分辨率数据，确定所述图像处理模型的损失函数的值；基于所述损失函数的值，更新所述图像处理模型的模型参数。本发明实施例中，通过BNN模型可以密集地连接来图像组中各图像帧不同时刻的所有像素点，从而提取出各图像帧的动态变化特性，将关联的像素信息传播到当前图像帧来提高当前图像帧的分辨率；同时，利用机器学习进一步缩小BNN模型处理后数据与实际的高分辨率数据的差异。如此，能够实现用于完成视频超分辨率重建的图像处理模型的训练，以利用该图像处理模型获得高质量的超分辨率处理效果。

附图说明

图1为相关技术中基于插值算法的超分辨率重建方法的实现示意图；

图2为本发明实施例提供的图像处理模型的训练方法的流程示意图一；

图3为本发明实施例提供的包含BNN模型的图像处理模型的网络模型示意图；

图4为本发明实施例提供的BNN模型中双边卷积层操作过程示意图；

图5为本发明实施例提供的图像处理模型的训练方法的流程示意图二；

图6为本发明实施例提供的包含BNN模型和CNN的图像处理模型的网络模型示意图；

图7为本发明实施例提供的图像处理模型的训练装置的结构示意图；

图8为本发明实施例提供的图像处理方法的流程示意图；

图9为本发明实施例提供的图像处理模型的结构示意图；

图10为本发明实施例提供的电子设备的组成结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

视频通常包含着大量的视觉信息，且视觉信息本身具有直观高效的描述能力，所以随着信息技术的高速发展，视频的应用逐渐遍布人类社会的各个领域。一般情况下，视频分辨率越高，视频中的每帧图像中包含的细节越多，信息量也越大。这里，分辨率泛指成像或显示系统对细节的分辨能力，代表图像中存储的信息量，分辨率的单位为像素每英寸(PPI，Pixels Per Inch)。图像中存储的信息量是指每英寸图像内有多少个像素点。

由于硬件成本、光衍射存在极限以及工艺水平的限制，通过改进硬件设备来提高图像分辨率的难度较大，实现起来比较困难。而通过数字图像处理技术来提高视频分辨率既节约成本又具有可实现性。利用数字图像处理技术一种行之有效的方法就是超分辨率技术。

超分辨率技术是近几年迅速发展起来的一种图像处理技术，即通过硬件或软件方法提高原有图像的分辨率，通过一幅或者多幅低分辨率(LR，Low-resolution)图像来得到一幅高分辨率(HR，High-resolution)图像的过程就是超分辨率重建。视频超分辨率技术，是视频处理相关问题中的基础问题之一，具有广泛的实际需求和应用场景。在数字成像技术，视频编码通信技术，深空卫星遥感技术，目标识别分析技术方面，视频超分辨率技术都能够应对显示设备分辨率大于图像源分辨率的问题。

相关技术中，视频超分辨率技术可以分为以下两种：

第一种，只参考当前低分辨率图像，不依赖其它相关图像的超分辨率技术，可以称为单幅图像的超分辨率(英文可以表达为single image super resolution)技术；

第二种，参考多幅图像或视频中的多帧图像(也可称为图像帧序列)的超分辨率技术，可以称为多帧视频的超分辨率(英文可以表达为multi-frame super resolution)技术，也可以称为多图的超分辨率技术。

这两种技术中，一般来讲，第二种技术与第一种技术相比，具有更多的可参考信息，并具有更好的高分辨率视频图像的重建质量。本发明各实施例中提到的视频超分辨率技术为多帧视频的超分辨率技术。

相关技术中，一种多帧视频的超分辨率重建方法是基于插值算法来实现的。基于插值算法的超分辨率重建方法基于图像的纹理特征判断纹理的方向，并在判断出的纹理的方向上进行增强处理。

如图1所示，基于插值算法的超分辨率重建方法所包含的运动估计、图像插值以及去噪声、去模糊三个步骤。基于插值算法的超分辨率重建方法属于分步处理的超分辨率重建算法，即对于LR图像帧序列，首先经过运动估计得到LR图像帧序列间的位移信息，配准后得到一幅非均匀采样的数据集合；然后对采样的数据进行插值，生成一幅HR图像；最后，如果这幅HR图像存在噪声和模糊，则对这幅HR图像进行去噪声和去模糊操作。

实际应用时，基于插值算法的超分辨率重建方法的具体实现，包括：

步骤a：运动估计；

运动估计要求精确到半像素位移，一般选取第一帧图像为参考图像，估计其它图像的位移或旋转，目前的运动估计一般仅限于全局的平移或旋转。运动估计的精度直接影响到后续插值的精度。

步骤b：图像插值；

直接对采样数据的插值一般可以分两大类：

第一类是基于待插值像素点的位置进行插值，如一般的线性插值，双线性插值、双三次插值(英文可以表达为Bicubic Interpolation)等。其中，双三次插值能够得到比双线性插值更平滑的图像边缘，且算法运行速度也更快；

第二类是综合考虑待插值点位置、待插值点周围像素灰度值分布，及待插值点的局部结构特征进行插值，第二类插值可以在插值的同时实现对噪声的滤除。

步骤c：去噪声、去模糊。

经过前述的运动估计和图像插值后，一般得到一幅存在噪声和模糊的HR图像。此时，需要对该HR图像进行去除噪声和模糊操作。去除噪声可以单独进行，也可以在前一步的插值中进行；去模糊一般作为生成最终的高分辨率图像前的最后一步，常用的去模糊方法有逆滤波、维纳滤波、最小二乘滤波等。

从上面描述可以看出，相关技术中基于插值算法的超分辨率重建技术主要是先行对视频进行分割操作，提取单帧图片，针对单帧图像进行运动估计、图像插值和去噪声去模糊三个相对独立的过程，没有对视频序列中的动态变化特性进行充分利用。

另一方面，机器学习(ML，machine Learning)是人工智能的一个分支，机器学习的目的是让机器根据先验的知识进行学习，从而具有分类和判断的逻辑能力。以神经网络为代表的机器学习模型不断发展，被逐渐应用到图像超分辨率重建中。利用机器学习来实现超分辨率重建也成为一种实现方式。基于机器学习的超分辨率技术，可以更好的学习特征，并且修复失真，还原到更高一档的分辨率，像基于深度卷积神经网络的图像超分辨率重建(SRCNN，Super-Resolution Convolutional Neural Network)、SRResNet、VDSR等网络模型，在超分辨率效果上体现出了一定的优势。

相关技术中，另一种多帧视频的超分辨率重建方法是基于双向循环卷积的网络模型来实现的，即通过建立双向循环网络，并用三种卷积操作来连接视频中不同时刻的图像帧序列，将训练视频送到建立好的双向循环卷积网络中，利用随机梯度下降算法来最小化预测的和真实的高分辨率视频之间的均方误差，从而迭代地优化该网络的权重，并得到最终的双向循环卷积网络。向所述最终的双向循环卷积网络模型输入待处理的低分辨率视频序列，得到对应的超分辨率结果，从而提高视频显示效果。

从上面描述可以看出，相关技术中基于双向循环卷积的网络模型的超分辨率重建技术引入了机器学习，但基于双向循环卷积的网络模型使用循环卷积的方式，在隐藏层通道数的调参方面非常复杂，计算复杂度高，运算速度慢。

基于此，在本发明的各种实施例中，将BNN网络模型应用于视频超分辨率技术。BNN模型可以密集地连接来自视频中当前图像帧和先前图像帧序列的所有像素点，提取合理的图像帧序列动态特征，更能将关联的像素信息传播到当前图像帧来提高分辨率，具有更强的信息传递能力和更快的运算速度。

本发明实施例提供一种图像处理模型的训练方法，图2为本发明实施例图像处理模型的训练方法的实现流程示意图。如图2所示，所述方法包括以下步骤：

步骤201：获取样本图像组的第一分辨率数据和第二分辨率数据；所述第二分辨率低于所述第一分辨率；

步骤202：利用至少包含BNN模型的图像处理模型对所述第二分辨率数据进行超分辨率重建，得到第三分辨率数据；所述第三分辨率高于所述第二分辨率；

步骤203：基于所述第一分辨率数据与所述第三分辨率数据，确定所述图像处理模型的损失函数的值；

步骤204：基于所述损失函数的值，更新所述图像处理模型的模型参数。

在步骤201中，主要进行数据的预处理，构建用于训练网络的数据集。这里，所述样本图像组可以是视频；所述第一分辨率数据是从样本图像组中提取的分辨率比样本图像组分辨率低的图像帧序列，用于与LR图像帧序列经超分辨率重建后的得到的HR'图像帧序列(即第三分辨率数据)进行比较；所述第二分辨率数据是从样本图像组中提取的分辨率比第一分辨率数据低的图像帧序列，用于超分辨率重建模型训练的输入。

在一实施中，所述获取样本图像组的第一分辨率数据和第二分辨率数据，包括：

获取样本图像组；

对得到的样本图像帧序列以两种不同的采样率分别进行下采样处理处理，得到第一分辨率图像帧序列和第二分辨率图像帧序列；

实际应用时，可以通过获取样本视频、抽帧处理、下采样处理、标识处理等操作得到所述第一分辨率数据和所述第二分辨率数据，具体步骤包括：

步骤a：获取样本视频；

一般用于训练的样本视频需要具有高质量且无噪音，同时包含丰富的细节。实际应用时，可以从互联网平台上收集分辨率高(如，1080P(1920像素*1080像素))且场景信息丰富的视频。这些分辨率高且场景信息丰富的视频可以是利用高端相机拍摄的商业视频，视频内容既包含自然风光的场景，也包含具有丰富细节的城市场景，还包含各种纹理和运动的目标对象。

步骤b：抽帧处理；

这里，以第一帧速率截取视频，将视频转为图像帧序列。对于获取的高分辨视频，可以采用如10帧/s的帧速率进行提取处理，得到高分辨视频对应的图像帧序列。

实际应用时，第一帧速率可以根据实际的训练需求进行调整。具体地，当帧速率越高时，对于同一视频，抽帧处理后的得到的图像帧序列中的帧数越多，输入到训练模型中帧数越多，得到超分辨率重建后的图像帧数量越多，利用重建后的图像帧合成的重建后的视频效果就会越好；但帧速率越高，训练的时间就会越长。因此，第一帧速率需要根据实际的训练需求进行调整。并且，需要注意的是，第一帧速率必须不超出获取的样本视频本身的帧速率。

步骤c：下采样处理；

对得到的图像帧序列进行以第一采样率进行下采样处理获得第一分辨率(如，540像素*960像素)图像帧序列；对得到的图像帧序列以第二采样率进行下采样处理获得第二分辨率(270像素*480像素)图像帧序列。

实际应用时，第一采样率和第二采样率的倍率关系与利用图像处理模型进行超分辨重建前、后图像的分辨率的倍率关系对应。

步骤d：标识处理。

按照预设的时间规则对所述第一分辨率图像帧序列和所述第二分辨率图像帧序列中的各图像帧进行标注得到第一分辨率数据(记为HR图像帧序列)和第二分辨率数据(记为LR图像帧序列)。HR图像帧序列用于与LR图像帧序列经超分辨率重建后的得到的HR'图像帧序列进行比较；LR图像帧序列用于超分辨率重建模型训练的输入。

这里，预设的时间规则可以是按各图像帧的时间先后的顺序进行标识，如，对视频1进行抽帧处理后得到了100幅图像帧序列，那么以这100幅图像帧序列在拍摄视频时的时间先后顺序进行标识，即第1幅图像帧，第2幅图像帧，第3幅图像帧…第100幅图像帧。

实际应用时，可以通过编写脚本对各图像帧序列按照时间顺序进行编号，每个高分辨率视频对应的所有图像帧序列保存到一个文件夹，并将每个图像帧序列的名称和图像帧序列内的帧数量写入train_dataset.txt，进行保存。

在步骤202中，将LR图像帧序列输入到至少包含双边滤波网络BNN模型的图像处理模型进行超分辨率重建，得到HR'图像帧序列。

在一实施例中，所述利用至少包含BNN模型的图像处理模型对所述第二分辨率数据进行超分辨率重建，得到第三分辨率数据，包括：

这里，将第二分辨率数据中正在进行超分辨率重建的图像帧称为当前图像帧，将将第二分辨率数据中时间标识处于当前图像帧之前的所有图像帧称为先前图像帧序列。如，对于前述已经按照时间先后顺序进行标识100幅图像帧序列，如果正在对第20幅图像帧进行图像超分辨率处理，则第20幅图像帧为当前图像帧，第1～19幅图像帧为先前图像帧序列。

这里，所述采样处理后的相应帧图像是指第二分辨率数据中正在进行超分辨率重建、并且已经进行了上采样处理的单幅图像帧(也可称为，当前图像帧的高分辨率图像)；所述第一图像帧序列是指在第二分辨率数据中时间标识处于当前图像帧之前的、并且已经进行了超分辨率重建处理的所有图像帧(也可称为，先前图像帧序列的超分辨率图像)。

这里，进行上采样处理的目的是将当前图像帧的分辨率先进行提升(类似于前述的基于插值的图像超分辨处理方式中的图像插值过程)，得到一个高分辨率的图像(此时得到的高分辨图像效果可能并不理想)，然后再利用BNN模型对该高分辨率的图像以及先前图像帧序列的超分辨率图像进行进一步处理，从而得到当前图像帧最终的超分辨率图像。

实际应用中，所述上采样处理可以为差值处理，如双三次插值。所述各像素点的特征至少表征各像素点的颜色特征，如，RGB值。

需要说明的是，这里将LR图像帧序列输入包含BNN模型的图像处理模型中，图像处理模型输出的每个图像帧的超分辨率结果，根据每个图像帧的超分辨率结果即可得到HR'图像帧序列。

其中，在一实施例中，所述利用BNN模型对所述特征集合进行融合处理，得到所述相应帧图像的超分辨率图像，包括：

这里，所述一组滤波器至少包括两个不同的滤波器；所述两个不同的滤波器中对应的缩放矩阵不同；所述第一滤波器为空间滤波器。

在本实施例中，如图3所示，所述BNN模型中包括两组滤波器(即第一滤波器组和第二滤波器组)，和一个空间滤波器。并且第一滤波器组和第二滤波器组之间以及第二滤波器组和空间滤波器之间均使用非线性激活函数(如，ReLU)进行连接。

需要说明的是，实际应用中，滤波器组的层数是可以根据实际情况进行调整的。滤波器组的层数为一层时，即可实现基本功能；滤波器组的层数为多层时，可以在实现基本功能的基础上进行进一步优化，但层数越多，计算量越大，实现越复杂。

实际应用时，第一滤波器组中包括两个双边卷积层(BCL)，即图3中的BCL_a，BCL_b。本实施例中，每个BCL具有32个滤波器(这里的滤波器是具体执行滤波的器件，与前面提到的用来泛指滤波功能的滤波器不同)。对于同一组滤波器中的两个BCL，采用相同的输入特征F^l，但采用不同的对角矩阵对F^l进行缩放：如Λ_aF^l，Λ_bF^l。实际应用时，可以通过验证集(这里，验证集是用来确定网络结构或者控制模型复杂程度的参数)，找到最优的特征尺度(Λ_a，Λ_b))。第一滤波器组过滤输入的图像后，两个32维输出结果通过ReLU非线性激活函数被连接到第二层使用相同特征空间Λ_aF^l，Λ_bF^l的两个BCL(即，第二滤波器组)。在两层滤波完成后，采用1*1空间滤波器降低第二滤波器组的输出特征的维度，以映射回输入特征F^l的维度，从而得到重建后的图像帧。

这里，第一滤波器组中的核心在于BLC。实际应用时，如图4所示，BLC具体由爆裂(英文可以表达为Splat)、卷积(英文可以表达为Convolution)、切片(英文可以表达为Slice)三个步骤组成。假设F∈R^n×df是输入到BCL中信息的特征，其中n表示输入像素点的数量，df表示每个像素点的输入要素(这里，输入要素可以是低级特征，如颜色，位置等；也可以是高级特征，如由神经网络生成的特征)的维数。BCL获取输入视频帧的输入特征F(F和F^l都是LR图像帧序列中像素点的特征，F是一个泛指，F^l是指第l帧图像中像素点的输入特征)和经过炸裂之后得到的晶格特征L，并对晶格特征L执行滤波操作，如此，可以灵活地规范卷积运行的晶格空间。BLC的具体操作如下：

步骤a：爆裂操作；

爆裂操作的目的是将当前图像帧的高分辨图像以及先前图像帧序列的超分辨率图像中相似的特征进行聚类。

实际应用时，通过质心插值(英文可以表达为barycentric interpolation)，将输入特征F投影到由点阵特征L定义的permutohedral晶格中。每个晶格的大小或晶格之间的空间通过缩放格子特征ΛL来控制，其中Λ是缩放矩阵的对角线。

L是像素点的位置信息、颜色信息以及时间信息(X-Y-R-G-B-t)的集合，L定义了BCL的6维过滤空间，从而为LR图像帧序列中各图像帧的所有像素点产生6维特征向量F＝(x，y，R，G，B，t)^T。对于图像中分别包含目标信息和背景信息的像素点在空间位置上接近(x，y)^T，并且在时间上接近(t)，但可能具有不同的颜色(R，G，B)^T，即包含目标对象信息的像素点与包含背景信息的像素点之间没有强烈的影响，包含目标对象(如，物体)信息的像素点与包含背景信息的像素点分别被炸开到六维双边空间的远离的位置；而对于图像中静态且具有相似颜色的像素点间彼此具有强烈影响(如，仅包含目标对象信息的各像素点间或仅包含背景信息的各像素点间)，这些静态且具有相似颜色的像素点被炸开到六维双边空间的靠近的位置。

如图4所示，爆裂操作是把晶格单体里的某个像素点的特征炸开到晶格周围的三个顶点上。爆裂操作会根据像素点的特征到晶格顶点的距离分配不同的权值将该特征分散到不同的晶格顶点上，但是炸开之后的特征维度是不变的。爆裂操作就是把原本在欧式空间中分布稀疏且不均匀的点按照一种新的形式重新组织，方便进行后续运算。

需要说明的是，实际应用时，可以对LR图像帧序列中各图像帧的所有像素点进行随机采样，并使用随机采样到的像素点的特征作为BLC的输入。如此，可以提高爆裂操作的速度。

步骤b：卷积操作；

经过步骤a之后，LR图像帧序列中各图像帧的像素点特征被投影到dl维晶格上，使用具备机器学习能力的滤波器内核对投影后的特征执行dl维卷积。具体地，使用滤波器组B∈R^k×d对所有晶格顶点进行滤波，B的值通过反向传播来学习。B的参数化允许滤波器具有任何邻域大小。由于在高维度上构建邻域结构非常耗时，因此为了提高卷积操作的速度，在本实施例中选择使用1*1滤波器。

步骤c：切片操作。

切片操作是步骤a的逆过程，即将卷积运算后得到的晶格顶点上的特征，利用质心插值的方式映射回晶格的预设位置。切片操作允许将特征映射到新的位置上(这里，新的位置是指不同于爆裂操作前特征所在的位置)，新的点数也可以比原来的点数少，也可以分布在不同维度的欧式空间上，这是通过在m个感兴趣的输出点处指定一组不同的晶格特征Lout∈R^m×dl来实现的。

BCL中的三个处理步骤可以用矩阵乘法式表达：

F_o＝S_sliceB_convS_splatF

其中，F表示输入特征，F_o表示经过滤波处理后的信号，S_splat和S_slice表示从图像像素和双边网格的映射，B_conv表示双边空间中的卷积。双边空间具有与特征F相同的维数。

本申请实施例中使用了permutohedral晶格在像素之间传递信息。Permutohedral晶格允许在视频像素点之间指定度量，并允许时间信息的直接集成，具有更强的信息传递能力和更快的运算速度，可以更好地提取特征和增加模型的灵活性。一方面，本实施例中不是将像素点的特征映射到晶格的中心，而是按照一定规则炸开到相应晶格的各个顶点上，位置非常规整。如此，卷积操作的结果更加精确；另一方面，本实施例中每个晶格具有同等形态，能够用质心差值插值的方式映射到晶格的各个顶点上，并且能够快速在此晶格上找到映射点四周的顶点，如此，两次映射(爆裂操作和切片操作)能够快速进行。

在步骤203、204中，通过减小生成的高分辨帧(HR'图像帧序列)与原有的高分辨帧(HR图像帧序列)之间的误差来调整、优化BNN模型中的网络权重参数，从而获得最终的图像处理模型的模型参数。

在一实施例中，所述基于所述第一分辨率数据与所述第三分辨率数据，确定所述图像处理模型的损失函数的值，包括：

基于所述第一分辨率数据与所述第三分辨率数据之间的残差，确定所述图像处理模型的损失函数的值；

实际应用时，在得到第一分辨率数据与所述第三分辨率数据之后，可以利用逐像素求差的方式计算损失函数的值。

在一实施例中，所述基于所述损失函数的值，更新所述图像处理模型的模型参数，包括：

具体实施时，图像处理模型的训练过程具体可包括：

步骤a：初始化图像处理模型的网络参数，设定学习率，迭代次数，批量大小等参数；

步骤b：把LR图像帧序列输入到图像处理模型中，开始训练；

步骤c：取LR图像帧序列中的第1幅图像帧，对所述第1幅图像帧进行插值处理，得到第1幅图像帧的高分辨率图像；所述第1幅图像帧的高分辨率图像经过BNN网络层之后，图像处理模型输出第1幅图像帧的超分辨率图像；

取LR图像帧序列中的第2幅图像帧，对所述第2幅图像帧进行插值处理，得到第2幅图像帧的高分辨率图像；所述第2幅图像帧的高分辨率图像与第1幅图像帧的超分辨率图像经过BNN网络层之后得到第2幅图像帧的超分辨率图像；

取LR图像帧序列中的第3幅图像帧，对所述第3幅图像帧进行插值处理，得到第3幅图像帧的高分辨率图像；所述第3幅图像帧的高分辨率图像与第1幅图像帧的超分辨率图像及第2幅图像帧的超分辨率图像经过BNN网络层之后得到第3幅图像帧的超分辨率图像；

取LR图像帧序列中的第N幅图像帧，对所述第N幅图像帧进行插值处理，得到第N幅图像帧的高分辨率图像；所述第N幅图像帧的高分辨率图像与第1至第N-1幅图像帧的超分辨率图像序列经过BNN网络层之后得到第N幅图像帧的超分辨率图像；

重复上述过程，直到得到LR图像帧序列中所有图像帧的超分辨率图像，即图像处理模型输出生成的超分辨帧图像帧序列；

步骤d：计算生成的超分辨帧图像帧序列与原有的HR图像帧之间的残差；

步骤e：采用随机梯度下降法来调整、优化各网络层权重参数；

步骤f：经过数轮迭代，当梯度稳定时，获得基于图像帧序列的视频超分辨率模型。

本发明实施例提供的图像处理模型的训练方法，获取样本图像组的第一分辨率数据和第二分辨率数据；所述第二分辨率低于所述第一分辨率；利用至少包含BNN模型的图像处理模型对所述第二分辨率数据进行超分辨率重建，得到第三分辨率数据；所述第三分辨率高于所述第二分辨率；基于所述第一分辨率数据与所述第三分辨率数据，确定所述图像处理模型的损失函数的值；基于所述损失函数的值，更新所述图像处理模型的模型参数。本发明实施例中，通过BNN模型可以密集地连接来图像组中各图像帧不同时刻的所有像素，以提取出各图像帧的动态变化特性，从而将关联的像素信息传播到某一图像帧来提高该图像帧的分辨率，同时利用机器学习进一步缩小BNN模型处理后数据与实际的高分辨率数据的差异。如此，能够得到高质量的超分辨率处理效果。此外，BNN模型参考的图像帧为进行高分辨率重建的当前图像帧和先前的图像帧序列，且BNN模型中各操作过程速度快，因此，本方案中图像处理模型具有较好的实时性。

实际应用时，可以考虑在BNN模型的基础上增加CNN模型，CNN模型可以利用深度学习的方法提取到更深层次，更广维度的多尺度特征，从而得到一个更佳的视频超分辨率效果。

本发明实施例又提供一种图像处理模型的训练方法，图5为本发明实施例图像处理模型的训练方法的实现流程示意图。如图5所示，所述方法包括以下步骤：

步骤501：获取样本图像组的第一分辨率数据和第二分辨率数据；所述第二分辨率低于所述第一分辨率；

步骤502：利用包含BNN模型和CNN模型的图像处理模型对所述第二分辨率数据进行超分辨率重建，得到第三分辨率数据；所述第三分辨率高于所述第二分辨率；

步骤503：基于所述第一分辨率数据与所述第三分辨率数据，确定所述图像处理模型的损失函数的值；

步骤504：基于所述损失函数的值，更新所述图像处理模型的模型参数。

这里，步骤501、步骤503以及步骤504与前述的步骤201、步骤203以及步骤204相同，这里不做赘述。

在步骤502中，在利用BNN模型的基础上结合了CNN模型的作用对所述第二分辨率数据进行超分辨率重建。

在一实施例中，所述利用包含BNN模型和CNN模型的图像处理模型对所述第二分辨率数据进行超分辨率重建，得到第三分辨率数据，包括：

这里，所述采样处理后的相应帧图像是指第二分辨率数据中正在进行超分辨率重建、并且已经进行了上采样处理的单幅图像帧(也可称为，当前图像帧的高分辨率图像)；所述第一图像帧序列而是指在第二分辨率数据中时间标识处于当前图像帧之前的、并且已经所有图像帧进行了超分辨率重建处理的所有图像帧(也可称为，先前图像帧序列的超分辨率图像)。

这里，进行上采样处理的目的是将当前图像帧的分辨率先进行提升(类似于前述的基于插值的图像超分辨处理方式中的图像插值过程)，得到一个高分辨率的图像(此时得到的高分辨图像效果可能并不理想)，然后再利用BNN模型和CNN模型对该高分辨率的图像以及先前图像帧序列的超分辨率图像进行进一步处理，从而得到当前图像帧最终的超分辨率图像。

需要说明的是，这里将LR图像帧序列输入包含BNN模型和CNN模型的图像处理模型中，图像处理模型BNN模型输出的每个图像帧的超分辨率结果，根据每个图像帧的超分辨率结果即可得到HR'图像帧序列。

这里，可以理解为本实施例中的图像处理模型由两部分组成，如图6所示,输入的数据依次通过BNN模型和CNN模型，其中，BNN模型用于执行图像自适应时空密集滤波，即BNN模型允许密集地连接来自当前图像帧和先前图像帧序列的所有像素点，并将关联的像素点的特征传播到当前图像帧；CNN模型用于改进和预测当前图像帧。

这里，BNN模型的作用主要是将信息从先前图像帧序列传递到当前图像帧，CNN模型的作用主要是进一步细化当前图像帧的信息。这里，所述BNN模型与前述的BNN模型相同。所述CNN模型如图6所示。所述CNN模型可以包括三层循环滤波器和一个空间滤波器。并且三层循环滤波器和空间滤波器之间使用非线性激活函数(如，ReLU)进行连接。

需要说明的是，实际应用中，滤波器的层数是可以根据实际情况进行调整的。滤波器的层数为一层时，即可实现基本功能；滤波器的层数为多层时，可以在实现基本功能的基础上进行进一步优化，但层数越多，计算量越大，实现越复杂。

这里，实际应用时，三层循环滤波器为3层循环卷积，每层卷积有32个大小为3*3的滤波器(这里的滤波器是具体执行滤波的器件，与前面提到的用来泛指滤波功能的滤波器不同)，3层循环卷积输出结果通过ReLU非线性激活函数与空间滤波器。空间滤波器使用1*1卷积，用于将最终结果映射到当前图像帧的期望输出。

本发明实施例将BNN模型的构架与CNN模型的架构进行级联进行视频超分辨率的重建，在保证视频超分辨率的实时性能的同时，大幅提升了原有的视频超分辨率效果，具有较高的稳定性与延拓性。

并且，CNN模型的引入可以更好地提取特征和增加模型的灵活性。基于机器学习的神经网络结构，可以更好地学习低分辨率和高分辨率图像之间残差的特征，实现更好的超分辨率效果。

为了实现本发明实施例的方法，本发明实施例还提供一种图像处理模型的训练装置，设置在电子设备上。图7为本发明实施例图像处理模型的训练装置的组成结构示图，如图7所示，所述训练装置700包括：

获取单元701，用于获取样本图像组的第一分辨率数据和第二分辨率数据；所述第二分辨率低于所述第一分辨率；

第一超分辨率重建单元702，用于利用至少包含BNN模型的图像处理模型对所述第二分辨率数据进行超分辨率重建，得到第三分辨率数据；所述第三分辨率高于所述第二分辨率；

损失确定单元703，用于基于所述第一分辨率数据与所述第三分辨率数据，确定所述图像处理模型的损失函数的值；

参数更新单元704，用于基于所述损失函数的值，更新所述图像处理模型的模型参数。

在一实施例中，所述第一超分辨率重建单元702，用于：

利用包含BNN模型和卷积神经网络CNN模型的图像处理模型对所述第二分辨率数据进行超分辨率重建，得到第三分辨率数据。

在一实施例中，所述第一超分辨率重建单元702，用于：

在一实施例中，所述第一超分辨率重建单元702包括BNN处理单元，所述BNN处理单元用于：

在一实施例中，所述BNN处理单元包括滤波处理单元，所述滤波处理单元用于：

在一实施例中，所述第一超分辨率重建单元702，用于：

在一实施例中，所述损失确定单元703，用于：

在一实施例中，所述参数更新单元704，用于：

在一实施例中，所述获取单元701，用于：

获取样本图像组；

实际应用时，获取单元701、第一超分辨率重建单元702、BNN处理单元、滤波处理单元、损失确定单元703及参数更新单元704可由图像处理模型的训练装置中的处理器实现。

需要说明的是：上述实施例提供的图像处理模型的训练装置在进行图像处理模型的训练时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的图像处理模型的训练装置与图像处理模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于上述的图像处理模型的训练方法，本发明实施例又提供一种图像处理方法，图8为本发明实施例图像处理方法的实现流程示意图。如图8所示，所述方法包括以下步骤：

步骤801：以第二帧速率对第一图像组进行提取处理，得到第一图像帧序列；

步骤802：通过图像处理模型，对所述第一图像帧序列中的各图像帧分别进行超分辨率重建，得到对应的第二图像帧序列；所述第二图像帧序列的分辨率高于所述第一图像帧序列；

步骤803：对所述第二图像帧序列进行合成处理，得到第二图像组。

在步骤801中：主要对待进行超分辨重建的视频进行预处理。这里，所述第一图像组为待进行超分辨重建的低分辨率视频。

预处理的过程具体包括如下几个步骤：

步骤a：抽帧处理；

对于待进行超分辨重建的低分辨率视频，以第二帧速率进行连续帧提取处理，将待进行超分辨重建的低分辨率视频转化图像帧序列。这里，所述第二帧速率可以根据实际的需求进行调整。具体地，当帧速率越高时，对于同一视频，抽帧处理后的得到的图像帧序列中的帧数越多，输入到图像处理模型中帧数越多，得到超分辨率重建后的图像帧数量越多，利用重建后的图像帧合成的重建后的视频效果就会越好；但帧速率越高，进行超分辨率重建的时间就会越长。因此，第二帧速率需要根据实际的需求进行调整。并且，需要注意的是，第二帧速率必须不超出待进行超分辨重建的视频本身的帧速率。

步骤b：标识处理。

按照预设的时间规则对所述待进行超分辨重建的低分辨率视频转化的图像帧序列进行标注。这里，预设的时间规则可以是按各图像帧的时间先后的顺序进行标识，如，对视频1进行抽帧处理后得到了100幅图像帧序列，那么以这100幅图像帧序列在拍摄视频时的时间先后顺序进行标识，即第1幅图像帧，第2幅图像帧，第3幅图像帧…第100幅图像帧。

实际应用时，可以通过编写脚本对各图像帧序列按照时间顺序进行编号，每个待进行超分辨重建的低分辨率视频对应的所有图像帧序列保存到一个文件夹，并将每个图像帧序列的名称和图像帧序列内的帧数量写入train_dataset.txt，进行保存。

在步骤802中：将待进行超分辨重建的低分辨率视频转化图像帧序列输入到训练好的图像处理模型中，进行超分辨率重建。

通过训练好的图像处理模型，实现超分辨率重建的过程具体包括如下几个步骤：

步骤a：将待进行超分辨重建的低分辨率视频转化的图像帧序列输入到图像处理模型中，开始超分辨率重建；

步骤b：经过BNN模型和CNN模型处理之后，图像处理模型输出当前图像帧的超分辨率图像；

步骤c：对图像帧序列中剩余各图像帧分别执行步骤b，直至所有的图像帧均完成超分辨率重建。

在步骤803中：将生成的高分辨率图像序列帧组合成视频，完成视频超分辨重建；

该步骤是步骤801的逆操作，按照与第二帧速率相同的码率对图像处理模型输出的高分辨率视频帧组合成视频，输出高分辨率视频，完成超分辨率重建。

在本实施例中，利用本发明实施例提供的图像处理模型的训练方法训练得到图像处理模型对待进行超分辨重建的低分辨率视频进行高分辨率重建。

为了实现本发明实施例的方法，本发明实施例还提供一种图像处理装置，设置在电子设备上。图9为本发明实施例装置的组成结构示图，如图9所示，所述装置900包括：

预处理单元901，用于以第二帧频速率对第一图像组进行提取处理，得到第一图像帧序列；

第二超分辨率重建单元902，用于通过图像处理模型，对所述第一图像帧序列中的各图像帧分别进行超分辨率重建，得到对应的第二图像帧序列；所述第二图像帧序列的分辨率高于所述第一图像帧序列；

后处理单元903，对所述第二图像帧序列进行合成处理，得到第二图像组；

实际应用时，预处理单元901、第二超分辨率重建单元902及后处理单元903可由图像处理装置中的处理器实现。

需要说明的是：上述实施例提供的图像处理装置在进行图像处理时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于上述程序模块的硬件实现，且为了实现本发明实施例的方法，本发明实施例还提供一种电子设备1000，所述电子设备1000包括：

存储器1002，用于存储可执行指令；

处理器1001，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的图像处理模型的训练方法、或实现本发明实施例提供的图像处理方法。

实际应用时，如图10所示，所述电子设备1000中的各个组件通过总线系统1003耦合在一起。可理解，总线系统1003用于实现这些组件之间的连接通信。总线系统1003除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图10中将各种总线都标为总线系统1003。

在一些实施例中，存储介质可以是磁性随机存取存储器(FRAM，FerromagneticRandom Access Memory)、只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，ElectricallyErasable Programmable Read-Only Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

另外，本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种图像处理模型的训练方法，其特征在于，所述方法包括：

利用至少包含双边滤波网络BNN模型的图像处理模型对所述第二分辨率数据进行超分辨率重建，得到第三分辨率数据；所述第三分辨率高于所述第二分辨率；

基于所述损失函数的值，更新所述图像处理模型的模型参数；

其中，所述利用至少包含BNN模型的图像处理模型对所述第二分辨率数据进行超分辨率重建，得到第三分辨率数据，包括：

利用BNN模型对所述特征集合进行融合处理，得到所述相应帧图像的超分辨率图像；所述第二分辨率数据中所有帧图像的超分辨率图像形成所述第三分辨率数据；

所述利用BNN模型对所述特征集合进行融合处理，得到所述相应帧图像的超分辨率图像，包括：

利用第一滤波器对得到的处理后的各特征进行降维处理，得到所述相应帧图像的超分辨率图像；

所述利用至少一组滤波器对所述特征集合进行过滤处理，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用至少包含BNN模型的图像处理模型对所述第二分辨率数据进行超分辨率重建，得到第三分辨率数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用包含BNN模型和CNN模型的图像处理模型对所述第二分辨率数据进行超分辨率重建，得到第三分辨率数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一分辨率数据与所述第三分辨率数据，确定所述图像处理模型的损失函数的值，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述损失函数的值，更新所述图像处理模型的模型参数，包括：

6.根据权利要求1所述的方法，其特征在于，所述获取样本图像组的第一分辨率数据和第二分辨率数据，包括：

获取样本图像组；

7.一种图像处理模型的训练装置，其特征在于，包括：

参数更新单元，用于基于所述损失函数的值，更新所述图像处理模型的模型参数；

其中，所述第一超分辨率重建单元，还用于针对所述第二分辨率数据中的每帧图像，进行上采样处理，得到上采样处理后的相应帧图像；

所述第一超分辨率重建单元包括BNN处理单元，所述BNN处理单元用于利用至少一组滤波器对所述特征集合进行过滤处理，得到过滤处理后的各特征；

所述BNN处理单元包括滤波处理单元，所述滤波处理单元用于将所述特征集合中的各特征在预设维度的空间中进行映射，得到映射后的各特征；

8.一种图像处理方法，其特征在于，所述方法包括：

对所述第二图像帧序列进行合成处理，得到第二图像组；

其中，所述图像处理模型基于如权利要求1至6任一项所述的方法训练得到。

9.一种图像处理装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至6任一项所述的图像处理模型的训练方法、或实现权利要求8所述的图像处理方法。

11.一种存储介质，其特征在于，所述存储介质存储有可执行指令，当所述可执行指令被至少一个处理器执行时，实现权利要求1至6任一项所述的图像处理模型的训练方法、或实现权利要求8所述的图像处理方法。