CN110070511B

CN110070511B - 图像处理方法和装置、电子设备及存储介质

Info

Publication number: CN110070511B
Application number: CN201910361208.9A
Authority: CN
Inventors: 汤晓鸥; 王鑫涛; 陈焯杰; 余可; 董超; 吕健勤
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2022-01-28
Anticipated expiration: 2039-04-30
Also published as: WO2020220517A1; TW202042174A; TWI728465B; CN110070511A; JP2021531588A; JP7093886B2; SG11202104181PA; US20210241470A1

Abstract

本申请实施例公开了一种图像处理方法和装置、电子设备及存储介质，其中方法包括：获取图像帧序列，包括待处理图像帧以及与待处理图像帧相邻的一个或多个图像帧，并对待处理图像帧与图像帧序列中的图像帧进行图像对齐，得到多个对齐特征数据；基于多个对齐特征数据确定多个对齐特征数据与所述待处理图像帧相应的对齐特征数据之间的多个相似度特征，并基于多个相似度特征确定多个对齐特征数据中每个对齐特征数据的权重信息；根据每个对齐特征数据的权重信息对多个对齐特征数据进行融合，获得图像帧序列的融合信息，用于获取与待处理图像帧对应的处理后图像帧，可以提升图像处理中多帧对齐和融合的质量，增强图像处理的显示效果。

Description

图像处理方法和装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，具体涉及一种图像处理方法和装置、电子设备及存储介质。

背景技术

视频复原是从一系列低质量的输入帧恢复得到高质量输出帧的过程。但是，低质量的帧序列中已经损失了要恢复出高质量帧的必要信息。视频复原的主要任务包括视频超分辨率、视频去模糊、视频去噪等。

视频复原的流程往往包括四个步骤：特征提取、多帧对齐、多帧融合和重建，其中多帧对齐和多帧融合是视频复原技术的关键。对于多帧对齐，目前常采用基于光流的算法，不仅耗时较长而且效果不好，特别是当输入帧有遮挡、运动，并且模糊严重的情况下，而进一步的，基于上述对齐后的多帧融合质量也不够好，可能出现复原上的误差，可见目前多帧对齐和多帧融合的准确度不高，视频复原效果不佳。

发明内容

本申请实施例提供了一种图像处理方法和装置、电子设备及存储介质。

本申请实施例第一方面提供一种图像处理方法，包括：

获取图像帧序列，所述图像帧序列包括待处理图像帧以及与所述待处理图像帧相邻的一个或多个图像帧，并对所述待处理图像帧与所述图像帧序列中的图像帧进行图像对齐，得到多个对齐特征数据；

基于所述多个对齐特征数据确定所述多个对齐特征数据与所述待处理图像帧相应的对齐特征数据之间的多个相似度特征，并基于所述多个相似度特征确定所述多个对齐特征数据中每个对齐特征数据的权重信息；

根据所述每个对齐特征数据的权重信息对所述多个对齐特征数据进行融合，获得所述图像帧序列的融合信息，所述融合信息用于获取与所述待处理图像帧对应的处理后图像帧。

在一种可选的实施方式中，所述对所述待处理图像帧与所述图像帧序列中的图像帧进行图像对齐，得到多个对齐特征数据包括：

基于第一图像特征集以及一个或多个第二图像特征集，对所述待处理图像帧与所述图像帧序列中的图像帧进行图像对齐，得到多个对齐特征数据，其中，所述第一图像特征集包含所述待处理图像帧的至少一个不同尺度的特征数据，所述第二图像特征集包含所述图像帧序列中的一个图像帧的至少一个不同尺度的特征数据。

通过不同尺度的图像特征进行图像对齐来获得对齐特征数据，能够解决视频复原中的对齐问题，提升多帧对齐的精度，特别是输入图像帧中存在复杂和较大的运动、遮挡和/或模糊的情况。

在一种可选的实施方式中，所述基于第一图像特征集以及一个或多个第二图像特征集，对所述待处理图像帧与所述图像帧序列中的图像帧进行图像对齐，得到多个对齐特征数据包括：

获取所述第一图像特征集中尺度最小的第一特征数据，以及所述第二图像特征集中与所述第一特征数据的尺度相同的第二特征数据，将所述第一特征数据和所述第二特征数据进行图像对齐，获得第一对齐特征数据；

获取所述第一图像特征集中尺度第二小的第三特征数据，以及所述第二图像特征集中与所述第三特征数据的尺度相同的第四特征数据；对所述第一对齐特征进行上采样卷积，获得与所述第三特征数据的尺度相同的第一对齐特征数据；

基于所述上采样卷积后的第一对齐特征数据，将所述第三特征数据和所述第四特征数据进行图像对齐，获得第二对齐特征数据；

依据所述尺度由小到大的顺序执行上述步骤，直到获得与所述待处理图像帧的尺度相同的一个对齐特征数据；

基于全部所述第二图像特征集执行上述步骤以获得所述多个对齐特征数据。

从最小的尺度开始，逐步对齐图像特征。在小尺度的图像特征进行图像对齐之后再放大，在一个更大的尺度上对齐。通过这样一层层逐渐地调整，可以大大提升多帧对齐的精度。

在一种可选的实施方式中，所述得到多个对齐特征数据之前，所述方法还包括：

基于可形变卷积网络调整每个所述对齐特征数据，获得所述调整后的所述多个对齐特征数据。

在进行特征数据的对齐之后，可以使用一个额外的级联的可变形卷积网络来进一步调整已获得的对齐特征数据，在多尺度的对齐的基础上再精细化调整对齐的结果，可以使得图像对齐的精度得到进一步地提升。

在一种可选的实施方式中，所述基于所述多个对齐特征数据确定所述多个对齐特征数据与所述待处理图像帧相应的对齐特征数据之间的多个相似度特征，包括：

通过点乘每个所述对齐特征数据与所述待处理图像帧相应的对齐特征数据，确定所述多个对齐特征数据与所述待处理图像帧相应的对齐特征数据之间的多个相似度特征。

在一种可选的实施方式中，所述基于所述多个相似度特征确定所述多个对齐特征数据中每个对齐特征数据的权重信息包括：

利用预设激活函数和所述多个对齐特征数据与所述待处理图像帧相应的对齐特征数据之间的多个相似度特征，确定所述每个对齐特征数据的权重信息。

在一种可选的实施方式中，所述根据所述每个对齐特征数据的权重信息对所述多个对齐特征数据进行融合，获得所述图像帧序列的融合信息包括：

利用融合卷积网络根据所述每个对齐特征数据的权重信息对所述多个对齐特征数据进行融合，获得所述图像帧序列的融合信息。

利用上述融合卷积网络根据每个对齐特征数据的权重信息来对多个对齐特征数据进行融合，考虑了多帧图像之间包含的信息不同，其重要程度也不同，可以获得更准确的融合融合信息以进行重建，也更能进一步矫正前一阶段对齐不准的问题。

在一种可选的实施方式中，所述利用融合卷积网络根据所述每个对齐特征数据的权重信息对所述多个对齐特征数据进行融合，获得所述图像帧序列的融合信息，包括：

以元素级乘法将所述每个对齐特征数据与所述每个对齐特征数据的权重信息相乘，获得所述多个对齐特征数据的多个调制特征数据；

利用所述融合卷积网络对所述多个调制特征数据进行融合，获得所述图像帧序列的融合信息。

在一种可选的实施方式中，所述利用融合卷积网络根据所述每个对齐特征数据的权重信息对所述多个对齐特征数据进行融合，获得所述图像帧序列的融合信息之后，所述方法还包括：

基于所述图像帧序列的融合信息生成空间特征数据；

基于所述空间特征数据中每个元素点的空间注意力信息调制所述空间特征数据，获得调制后的融合信息，所述调制后的融合信息用于获取与所述待处理图像帧对应的处理后图像帧。

在一种可选的实施方式中，所述基于所述空间特征数据中每个元素点的空间注意力信息调制所述空间特征数据，获得调制后的融合信息包括：

根据所述空间特征数据中每个元素点的空间注意力信息，以元素级乘法和加法对应调制所述空间特征数据中的所述每个元素点，获得所述调制后的融合信息。

经过空间注意力机制进行调制，该机制在不同尺度的空间特征数据上进行，能够进一步挖掘不同空间位置和不同特征通道上的信息，可以获得更准确的调制后的融合信息。

在一种可选的实施方式中，所述图像处理方法基于神经网络实现；

所述神经网络利用包含多个样本图像帧对的数据集训练获得，所述样本图像帧对包含多个第一样本图像帧以及与所述多个第一样本图像帧分别对应的第二样本图像帧，所述第一样本图像帧的分辨率低于所述第二样本图像帧的分辨率。

在一种可选的实施方式中，所述获取图像帧序列之前，所述方法还包括：

对获取到的视频序列中的每个视频帧进行下采样，获得所述图像帧序列。

在一种可选的实施方式中，所述对所述待处理图像帧与所述图像帧序列中的图像帧进行图像对齐之前，所述方法还包括：

对所述图像帧序列中的图像帧进行去模糊处理。

通过去模糊处理使本申请中的图像处理方法可以更准确地进行图像对齐和融合处理。

在一种可选的实施方式中，所述方法还包括：

根据所述图像帧序列的融合信息，获取与所述待处理图像帧对应的处理后图像帧。

本申请实施例第二方面提供一种图像处理方法，包括：

在视频采集设备采集到的第一视频流中图像帧序列的分辨率小于或等于预设阈值的情况下，依次通过上述第一方面所述的方法的步骤对所述图像帧序列中的每一图像帧进行处理，得到处理后的图像帧序列；

输出和/或显示由所述处理后的图像帧序列构成的第二视频流。

通过上述步骤可以输出和/或显示处理后的图像帧序列构成的视频，实现各种视频复原应用，包括但不限于视频超分辨率，视频去模糊，视频去噪等。

本申请实施例第三方面提供一种图像处理装置，包括对齐模块和融合模块，其中：

所述对齐模块，用于获取图像帧序列，所述图像帧序列包括待处理图像帧以及与所述待处理图像帧相邻的一个或多个图像帧，并对所述待处理图像帧与所述图像帧序列中的图像帧进行图像对齐，得到多个对齐特征数据；

所述融合模块，用于基于所述多个对齐特征数据确定所述多个对齐特征数据与所述待处理图像帧相应的对齐特征数据之间的多个相似度特征，并基于所述多个相似度特征确定所述多个对齐特征数据中每个对齐特征数据的权重信息；

所述融合模块，还用于根据所述每个对齐特征数据的权重信息对所述多个对齐特征数据进行融合，获得所述图像帧序列的融合信息，所述融合信息用于获取与所述待处理图像帧对应的处理后图像帧。

可选的，所述对齐模块具体用于：

在一种可选的实施方式中，所述对齐模块还用于，在得到多个对齐特征数据之前，基于可形变卷积网络调整每个所述对齐特征数据，获得所述调整后的所述多个对齐特征数据。

在一种可选的实施方式中，所述融合模块具体用于：

在一种可选的实施方式中，所述融合模块还具体用于：

在一种可选的实施方式中，所述融合模块具体用于：

在一种可选的实施方式中，所述融合模块包括空间单元，用于：

在所述融合模块利用融合卷积网络根据所述每个对齐特征数据的权重信息对所述多个对齐特征数据进行融合，获得所述图像帧序列的融合信息之后，基于所述图像帧序列的融合信息生成空间特征数据；

在一种可选的实施方式中，所述空间单元具体用于：

在一种可选的实施方式中，所述图像处理装置中部署有神经网络；

在一种可选的实施方式中，还包括采样模块，用于：

在获取图像帧序列之前，对获取到的视频序列中的每个视频帧进行下采样，获得所述图像帧序列。

在一种可选的实施方式中，还包括预处理模块，用于：

在对所述待处理图像帧与所述图像帧序列中的图像帧进行图像对齐之前，对所述图像帧序列中的图像帧进行去模糊处理。

在一种可选的实施方式中，还包括重建模块，用于根据所述图像帧序列的融合信息，获取与所述待处理图像帧对应的处理后图像帧。

本申请实施例第四方面提供另一种图像处理装置，包括：处理模块和输出模块，其中：

所述处理模块，用于在视频采集设备采集到的第一视频流中图像帧序列的分辨率小于或等于预设阈值的情况下，通过执行如上述第一方面及其任意一种可能的实现方式的方法对所述图像帧序列中的每一图像帧进行处理，得到处理后的图像帧序列；

所述输出模块，用于输出和/或显示由所述处理后的图像帧序列构成的第二视频流。

本申请实施例第五方面提供一种电子设备，包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序被配置成由所述处理器执行，所述处理器用于执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。

本申请实施例第六方面提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，其中，所述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。

本申请实施例通过获取图像帧序列，上述图像帧序列包括待处理图像帧以及与上述待处理图像帧相邻的一个或多个图像帧，并对上述待处理图像帧与上述图像帧序列中的图像帧进行图像对齐，得到多个对齐特征数据，再基于上述多个对齐特征数据确定上述多个对齐特征数据与上述待处理图像帧相应的对齐特征数据之间的多个相似度特征，并基于上述多个相似度特征确定上述多个对齐特征数据中每个对齐特征数据的权重信息，根据上述每个对齐特征数据的权重信息对上述多个对齐特征数据进行融合，可以获得上述图像帧序列的融合信息，上述融合信息可以用于获取与上述待处理图像帧对应的处理后图像帧，可以大大提升图像处理中多帧对齐和融合的质量，增强图像处理的显示效果；并且可以实现图像复原和视频复原，增强了复原的准确度和复原效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1是本申请实施例公开的一种图像处理方法的流程示意图；

图2是本申请实施例公开的另一种图像处理方法的流程示意图；

图3是本申请实施例公开的一种对齐模块结构示意图；

图4是本申请实施例公开的一种融合模块结构示意图；

图5是本申请实施例公开的一种视频复原框架示意图；

图6是本申请实施例公开的一种图像处理装置的结构示意图；

图7是本申请实施例公开的另一种图像处理装置的结构示意图；

图8是本申请实施例公开的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例所涉及到的图像处理装置是可以进行图像处理的装置，可以为电子设备，上述电子设备包括终端设备，具体实现中，上述终端设备包括但不限于诸如具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是，在某些实施例中，所述设备并非便携式通信设备，而是具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的台式计算机。

本申请实施例中的深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示，如每个像素点强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如，人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。

同机器学习方法一样，深度机器学习方法也有监督学习与无监督学习之分。不同的学习框架下建立的学习模型很是不同。例如，卷积神经网络(Convolutional neuralnetwork，CNN)就是一种深度的监督学习下的机器学习模型，也可称为基于深度学习的网络结构模型，是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward NeuralNetworks)，是深度学习的代表算法之一。而深度置信网(Deep Belief Net，DBN)就是一种无监督学习下的机器学习模型。

下面对本申请实施例进行详细介绍。

请参阅图1，图1是本申请实施例公开的一种图像处理方法的流程示意图，如图1所示，该图像处理方法包括如下步骤。

101、获取图像帧序列，上述图像帧序列包括待处理图像帧以及与上述待处理图像帧相邻的一个或多个图像帧，并对上述待处理图像帧与上述图像帧序列中的图像帧进行图像对齐，得到多个对齐特征数据。

本申请实施例中的图像处理方法的执行主体可以是上述图像处理装置，例如，上述图像处理方法可以由终端设备或服务器或其它处理设备执行，其中，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该图像处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

其中，上述图像帧可以为单帧图像，可以是由图像采集设备采集的图像，比如终端设备的摄像头拍摄的照片，或者是由视频采集设备采集的视频数据中的单帧图像等，本申请实施例的具体实现不做限定。至少两个上述图像帧可组成上述图像帧序列，其中，在视频数据中的图像帧可以按照时间顺序依次排列。

本申请实施例中提到的单帧图像，就是一副静止的画面，连续的帧就形成动画效果，如视频等。通常说的帧数，简单地说就是在1秒钟时间里传输的图片的帧数，也可以理解为图形处理器每秒钟能够刷新几次，通常用fps(Frames Per Second)表示。高的帧率可以得到更流畅、更逼真的动画。

本申请实施例中提到的图像的下采样(subsampled)是针对缩小图像的具体手段，也可以称为或降采样(downsampled)，其目的一般有两个：1、使得图像符合显示区域的大小；2、生成对应图像的下采样图。

可选的，上述图像帧序列可以是通过下采样之后获得的图像帧序列。即在对上述待处理图像帧与上述图像帧序列中的图像帧进行图像对齐之前，可以通过对获取到的视频序列中的每个视频帧进行下采样，获得上述图像帧序列。比如，在图像或视频超分辨率处理中，可以先进行上述下采样的步骤，而对于图像去模糊的处理则可以不需要上述下采样的步骤。

在图像帧的对齐过程中，需要选择至少一个图像帧作为对齐处理的参考帧，其他图像帧以及该参考帧本身向该参考帧对齐，为了方便描述，本申请实施例中将上述参考帧称为待处理图像帧，该待处理图像帧以及与上述待处理图像帧相邻的一个或多个图像帧组成上述图像帧序列。

其中，上述相邻可以是连续的，也可以是间隔的，若待处理图像帧记为t，其相邻帧可以记为t-i或t+i。比如在一个视频数据的按时序排列的图像帧序列中，待处理图像帧相邻的图像帧可以为该待处理图像帧的前一帧和/或后一帧，也可以为从该待处理图像帧向前数的第二帧和/或向后数的第二帧等。上述待处理图像帧相邻的图像帧可以是一个、两个、三个或者三个以上，本申请实施例对此不作限制。

具体的，可以对上述待处理图像帧与该图像帧序列中的图像帧进行图像对齐，即将该图像帧序列中的图像帧(需要注意的是，可以包括该待处理图像帧)分别和该待处理图像帧进行图像对齐，得到上述多个对齐特征数据。

在一种可选的实施方式中，可以基于第一图像特征集以及一个或多个第二图像特征集，对上述待处理图像帧与上述图像帧序列中的图像帧进行图像对齐，得到多个对齐特征数据，其中，上述第一图像特征集包含上述待处理图像帧的至少一个不同尺度的特征数据，上述第二图像特征集包含上述图像帧序列中的一个图像帧的至少一个不同尺度的特征数据。

具体的，对于图像帧序列中的图像帧，在进行特征提取后可以获得上述图像帧的特征数据。进一步的，可以获得上述图像帧的不同尺度的特征数据，组成图像特征集。

对上述图像帧进行卷积计算，可以获得该图像帧的不同尺度的特征数据。

在本申请实施例中，可以获得每个图像帧的多个不同尺度的特征数据，比如，一个第二图像特征集可以包含该一个图像帧两个不同尺度的特征数据，本申请实施例对此不做限制。

为方便描述，上述待处理图像帧的至少一个不同尺度的特征数据(可称为第一特征数据)组成上述第一图像特征集，而上述图像帧序列中的一个图像帧的至少一个不同尺度的特征数据(可称为第二特征数据)组成上述第二图像特征集，由于上述图像帧序列中可以包含多个图像帧，即可以有多个第二图像特征集。进而，可以基于第一图像特征集以及一个或多个第二图像特征集，进行图像对齐。

具体的，基于全部上述第二图像特征集与第一图像特征集进行图像对齐，可以获得上述多个对齐特征数据，即待处理图像帧对应的图像特征集和图像帧序列中的每个图像帧对应的图像特征集进行对齐处理，获得相应的多个对齐特征数据，并且需要注意的是其中也包括了第一图像特征集与第一图像特征集的对齐。基于第一图像特征集以及一个或多个第二图像特征集，进行图像对齐的具体方法见后续描述。

在一种可选的实施方式中，上述第一图像特征集和第二图像特征集中的特征数据可以根据尺度从小到大排列组成金字塔结构。

本申请实施例中提到的图像金字塔是图像多尺度表达的一种，是一种以多分辨率来解释图像的有效但概念简单的结构。一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低，且来源于同一张原始图的图像集合。对于本申请实施例中的图像特征数据，其可以通过梯次向下采样卷积获得，直到达到某个终止条件才停止。我们将一层一层的图像特征数据比喻成金字塔，层级越高，则尺度越小。

在同一尺度上的第一特征数据和第二特征数据的对齐结果，还可以用于其他尺度上进行图像对齐时的参考和调整，通过不同尺度上层层对齐，可以获得该待处理图像帧和上述图像帧序列中的任一图像帧的对齐特征数据，可以对每个图像帧和待处理图像帧执行上述对齐处理过程，从而获得上述多个对齐特征数据，获得的上述对齐特征数据的数量和图像帧序列中图像帧的数量一致。

进一步可选的，上述基于第一图像特征集以及一个或多个第二图像特征集，对上述待处理图像帧与所述图像帧序列中的图像帧进行图像对齐，得到多个对齐特征数据，可以包括：

获取上述第一图像特征集中尺度最小的第一特征数据，以及上述第二图像特征集中与上述第一特征数据的尺度相同的第二特征数据，将上述第一特征数据和上述第二特征数据进行图像对齐，获得第一对齐特征数据；

获取上述第一图像特征集中尺度第二小的第三特征数据，以及上述第二图像特征集中与上述第三特征数据的尺度相同的第四特征数据；对上述第一对齐特征进行上采样卷积，获得与上述第三特征数据的尺度相同的第一对齐特征数据；

基于上述上采样卷积后的第一对齐特征数据，将上述第三特征数据和上述第四特征数据进行图像对齐，获得第二对齐特征数据；

依据上述尺度由小到大的顺序执行上述步骤，直到获得与上述待处理图像帧的尺度相同的一个对齐特征数据；

基于全部上述第二图像特征集执行上述步骤以获得上述多个对齐特征数据。

对于输入的任意两帧图像图，直接的目标为将其中一帧往另外一帧上对齐。上述过程主要以待处理图像帧和图像帧序列中的任一图像帧进行描述，即基于第一图像特征集以及任一个第二图像特征集进行图像对齐。具体的，可以从最小的尺度开始，依次对第一特征数据和第二特征数据进行对齐。

具体来讲，对于上述每一图像帧的特征数据，可以在小的尺度上进行对齐后，再放大(可以通过上述上采样卷积实现)，在一个相对更大的尺度上进行对齐，对待处理图像帧和图像帧序列中每个图像帧分别执行上述对齐处理，从而可获得多个上述对齐特征数据。在上述过程中，每一级对齐的结果可以通过上采样卷积放大后输入到上一级(更大尺度)，再用于该尺度的第一特征数据和第二特征数据对齐。通过上述一层层逐渐地对齐调整，可以提高图像对齐的准确度，更好地解决在复杂运动和模糊情况下的图像对齐任务。

其中，对齐次数可以决定于图像帧的特征数据的数量，即可以执行对齐操作直到获得与待处理图像帧的尺度相同的一个对齐特征数据为止，基于全部上述第二图像特征集执行上述步骤可以获得上述多个对齐特征数据，即待处理图像帧对应的图像特征集和图像帧序列中的每个图像帧对应的图像特征集按照上述描述进行对齐，获得相应的多个对齐特征数据，并且需要注意的是其中也包括了第一图像特征集与第一图像特征集的对齐。本申请实施例对特征数据的尺度以及不同尺度的数量不作限制，即对上述对齐操作的层数(次数)也不做限制。

可选的，可以基于可形变卷积网络调整每个上述对齐特征数据，获得上述调整后的上述多个对齐特征数据。

在一种可选的实施方式中，基于可变形卷积网络(Deformable ConvolutionalNetworks，DCN)调整每个上述对齐特征数据，获得上述调整后的上述多个对齐特征数据。在上述金字塔结构之后，可以使用一个额外的级联的可变形卷积网络来进一步调整获得的对齐特征数据，在本申请实施例中的多帧对齐方式的基础上，进一步精细化调整对齐的结果，可以使得图像对齐的精度得到进一步地提升。

102、基于上述多个对齐特征数据确定上述多个对齐特征数据与上述待处理图像帧相应的对齐特征数据之间的多个相似度特征，并基于上述多个相似度特征确定上述多个对齐特征数据中每个对齐特征数据的权重信息。

具体的，图像相似度计算主要用于对于两幅图像之间内容的相似程度进行打分，根据分数的高低来判断图像内容的相近程度。本申请实施例中对于相似度特征的计算可以通过神经网络实现。可选的，可以使用基于图像特征点的图像相似度算法；也可以将图像抽象为几个特征值，比如Trace变换、图像哈希或者Sift特征向量等等，再根据上述对齐特征数据进行特征匹配来提高效率，本申请实施例对此不做限制。

在一种可选的实施方式中，可以通过点乘每个上述对齐特征数据与上述待处理图像帧相应的对齐特征数据，确定上述多个对齐特征数据与上述待处理图像帧相应的对齐特征数据之间的多个相似度特征。

通过上述多个对齐特征数据与待处理图像帧相应的对齐特征数据之间的多个相似度特征，可以分别确定上述每个对齐特征数据的权重信息，其中，上述权重信息可以表示在全部对齐特征数据中不同帧的不同重要性，可以理解为，依据其相似度的高低确定不同图像帧的重要程度。

具体的，一般可以理解为，相似度越高权重越大，即表示该图像帧与该待处理图像帧的对齐中可以提供的特征信息的重合度越高，对于之后的多帧融合和重建更重要。

在一种可选的实施方式中，上述对齐特征数据的权重信息可以包括权重值，对权重值的计算方法可以基于对齐特征数据利用预设算法或者预设神经网络实现，其中对于任意两个对齐特征数据可以使用向量的点乘(dot product)进行权重信息的计算。可选的，可以通过计算获得预设范围内的权重值，通常权重值越高表示该对齐特征数据在全部帧中越重要，即需要保留，权重值越低表示该对齐特征数据在全部帧中重要性较低，相对待处理图像帧可能有误差、遮挡元素或者对齐阶段效果不佳等，可以选择忽略，本申请实施例对此不作限制。

本申请实施例中的多帧融合可以基于注意力机制(Attention Mechanism)实现，本申请实施例提到的注意力机制源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息，上述机制通常被称为注意力机制。人类视网膜不同的部位具有不同程度的信息处理能力，即敏锐度(Acuity)，只有视网膜中央凹部位具有最强的敏锐度。为了合理利用有限的视觉信息处理资源，人类需要选择视觉区域中的特定部分，然后集中关注它。例如，人们在阅读时，通常只有少量要被读取的词会被关注和处理。综上，注意力机制主要有两个方面：决定需要关注输入的哪部分；分配有限的信息处理资源给重要的部分。

帧间时间关系和帧内空间关系在多帧融合中至关重要，因为：由于遮挡、模糊区域和视差等问题，不同相邻帧的信息量不尽相同；之前多帧对齐阶段可能产生的错位和不对齐对后续重建性能产生不利影响。因此，在像素级动态地聚集相邻帧对于有效的多帧融合是必不可少的。本申请实施例中，时间注意的目标是计算嵌入空间中的帧的相似性，直观地说，对每一对齐特征数据，其相邻帧也应该受到更多的关注。通过上述基于时间和空间注意力机制的多帧融合方式，可以挖掘不同帧包含的不同信息，可以改善一般的多帧融合方案中，未考虑多帧之间包含的信息不同的问题。

在确定上述多个对齐特征数据中每个对齐特征数据的权重信息之后，可以执行步骤103。

103、根据上述每个对齐特征数据的权重信息对上述多个对齐特征数据进行融合，获得上述图像帧序列的融合信息，上述融合信息用于获取与上述待处理图像帧对应的处理后图像帧。

根据上述每个对齐特征数据的权重信息对上述多个对齐特征数据进行融合，即考虑了不同图像帧的对齐特征数据之间的差异性和重要程度，依据权重信息可以调整这些对齐特征数据在融合时的比例，能够有效解决多帧融合问题，挖掘不同帧包含的不同信息，纠正前对齐阶段的未完美对齐的情况。

在一种可选的实施方式中，可以利用融合卷积网络根据上述每个对齐特征数据的权重信息对上述多个对齐特征数据进行融合，获得上述图像帧序列的融合信息。

在一种可选的实施方式中，可以以元素级乘法将上述每个对齐特征数据与上述每个对齐特征数据的权重信息相乘，获得上述多个对齐特征数据的多个调制特征数据；

再利用上述融合卷积网络对上述多个调制特征数据进行融合，获得上述图像帧序列的融合信息。

可以将时间注意力映射(即使用上述权重信息)以像素级的方式对应地乘以前述获得的对齐特征数据，上述权重信息调制的对齐特征数据，称为上述调制特征数据。再采用融合卷积网络来聚集上述多个调制特征数据，获得上述图像帧序列的融合信息。

可选的，该方法还包括：根据上述图像帧序列的融合信息，获取与上述待处理图像帧对应的处理后图像帧。

通过上述方法可以获得图像帧序列的融合信息，进而可以根据上述融合信息来进行图像重建，获得与上述待处理图像帧对应的处理后图像帧，通常可以恢复出一个高质量帧，实现图像复原。可选的，可以对多个待处理图像帧进行上述图像处理，获得处理后的图像帧序列，其中包括多个上述处理后图像帧，即可以组成视频数据，达到视频复原的效果。

本申请实施例提供了一个统一的能够有效解决多种视频复原问题的框架，包括但不限于视频超分辨率、视频去模糊、视频去噪等。可选的，本申请实施例提出的图像处理方法具有广泛性，能够用于多种图像处理场景，比如人脸图像的对齐处理中，也可以结合其他涉及到视频数据和图像处理的技术中，本申请实施例不做限制。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

在本申请实施例中，可以获取图像帧序列，上述图像帧序列包括待处理图像帧以及与上述待处理图像帧相邻的一个或多个图像帧，并对上述待处理图像帧与上述图像帧序列中的图像帧进行图像对齐，得到多个对齐特征数据，再基于上述多个对齐特征数据确定上述多个对齐特征数据与上述待处理图像帧相应的对齐特征数据之间的多个相似度特征，并基于上述多个相似度特征确定上述多个对齐特征数据中每个对齐特征数据的权重信息，根据上述每个对齐特征数据的权重信息对上述多个对齐特征数据进行融合，可以获得上述图像帧序列的融合信息，上述融合信息可以用于获取与上述待处理图像帧对应的处理后图像帧，在不同尺度上的对齐增加了图像对齐的精度，并且依据权重信息的多帧融合考虑了不同图像帧的对齐特征数据之间的差异性和重要程度，能够有效解决多帧融合问题，挖掘不同帧包含的不同信息，纠正前对齐阶段的未完美对齐的情况，从而可以大大提升图像处理中多帧对齐和融合的质量，增强图像处理的显示效果；并且可以实现图像复原和视频复原，增强了复原的准确度和复原效果。

请参阅图2，图2是本申请实施例公开的另一种图像处理方法的流程示意图，图2是在图1的基础上进一步优化得到的。执行本申请实施例步骤的主体可以为前述的一种图像处理装置。如图2所示，该图像处理方法包括如下步骤：

201、对获取到的视频序列中的每个视频帧进行下采样，获得图像帧序列。

本申请实施例中的图像处理方法的执行主体可以是上述图像处理装置，例如，图像处理方法可以由终端设备或服务器或其它处理设备执行，其中，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该图像处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

其中，上述图像帧可以为单帧图像，可以是图像采集设备采集的图像，比如终端设备的摄像头拍摄的照片，或者通过视频采集设备采集的视频数据中的单帧图像，可以组成上述视频序列，本申请实施例的具体实现不做限定。通过上述下采样可以获得分辨率更低的图像帧，便于提高后续图像对齐的精度。

可选的，可以以预设时间间隔依次提取上述视频数据中的多个图像帧，组成上述视频序列。上述提取的图像帧的数量可以为预设数量，通常可以为单数，比如5帧，便于选取其中一帧为待处理图像帧进行对齐操作。其中，在视频数据中截取的视频帧可以按照时间顺序依次排列。

与图1所示实施中所述类似的，对于上述图像帧进行特征提取后获得的特征数据，在金字塔结构中，可以使用卷积滤波器将(L-1)层级上的特征数据下采样卷积，获得L层级的特征数据，而对于上述L层级的特征数据，可以分别用上(L+1)层级的特征数据进行对齐预测，不过在预测之前需要对(L+1)层级的特征数据进行上采样卷积，使与L层级的特征数据尺度相同。

在一种可选的实施方式中，可以使用三层金字塔结构，即L＝3，上述举出的一种实现是为了降低计算成本，可选的，也可以随着空间大小的减小而增加信道数，本申请实施例对此不做限制。

202、获取上述图像帧序列，上述图像帧序列包括待处理图像帧以及与上述待处理图像帧相邻的一个或多个图像帧，并对上述待处理图像帧与上述图像帧序列中的图像帧进行图像对齐，得到多个对齐特征数据。

对于输入的任意两帧图像，直接的目标为将其中一帧往另外一帧上对齐，则在上述图像帧序列中可以选择至少一帧图像作为参考的待处理图像帧，将上述待处理图像帧的第一特征集合与该图像帧序列中的每个图像帧进行对齐，获得多个对齐特征数据。比如，上述提取的图像帧的数量可以为5帧，便选取处于中间的第三帧为待处理图像帧进行对齐操作。进一步举例来说，在实际应用中，对于视频数据，即包含多帧视频帧的图像帧序列，可以以相同的时间间隔抽取连续的5帧图像，每5帧图像的中间帧作为这5帧图像对齐的参考帧，即该序列中的待处理图像帧。

其中，上述步骤202中多帧对齐的方法可以参考图1所示实施例中的步骤102，此处不再赘述。

具体的，上述步骤102主要描述了金字塔结构、采样处理过程和对齐处理的细节，以其中一个图像帧X为待处理图像帧，由该图像帧X获得的不同尺度的特征数据a和特征数据b为例，a的尺度小于b的尺度，即a在金字塔结构中可以在b的下一层级；为方便表述，选择图像帧序列中的一个图像帧Y(也可以为待处理图像帧)，Y经过相同的处理获得的特征数据可以包含不同尺度的特征数据c和特征数据d，c的尺度小于d的尺度，并且a与c、b与d的尺度分别相同。此时可以将两个小尺度的a与c进行对齐，获得对齐特征数据M；再对对齐特征数据M进行上采样卷积，获得放大后的对齐特征数据M，用于更大一尺度的b和d的对齐，在b和d所在的层级可以获得对齐特征数据N。以此类推，对于图像帧序列中的图像帧，可以对每个图像帧进行上述过程的对齐处理，获得多个上述图像帧相对于待处理图像帧的对齐特征数据。比如5帧图像，可以分别获得基于上述待处理图像帧对齐的5个对齐特征数据，即其中包括待处理图像帧自身的对齐结果。

在一种可选的实施方式中，上述对齐操作可以由带有金字塔(Pyramid)、级联(Cascading)和变形卷积(Deformable convolution)的对齐模块实现，可以简称为PCD对齐模块。

再具体的，可以参考如图3所示的一种对齐处理结构示意图，图3中包括了图像处理方法中的对齐处理时的金字塔结构和级联精细化示意，图像t和t+i表示输入的图像帧。

见图3中虚线A1和A2所示，可以先使用卷积滤波器将(L-1)层级上的特征(feature)下采样卷积，获得L层级的特征，而对于上述L层级，偏移量o和对齐特征也可以分别用上(L+1)层级的上采样卷积的偏移量o和对齐特征进行预测(如图3中虚线B1～B4)：

与基于光流的方法不同，本申请实施例对每个帧的特征采用可变形对齐，以F_t+i，i∈[-N：+N]表示，可以理解为F_t+i表示图像帧t+i的特征数据，F_t表示图像帧t的特征数据，通常看作上述待处理图像帧。其中，

和

分别为L层级和(L+1)层级的偏移量(offset)。

和

分别为L层级和(L+1)层级的对齐特征数据。(·)↑s指的是因子s的提升，DConv是上述可变形卷积D；g是一个具有多个卷积层的广义函数；可以采用双线性插值实现×2的上采样卷积。该示意图中使用的是三层金字塔，即L＝3。

图像中的c可以理解为嵌入(concat)函数，用于矩阵的合并与图像的拼接。

在金字塔结构之后，可以级联一个额外的可变形卷积用于对齐调整，以进一步细化初步对齐的特征(图3中带有阴影背景的部分)。PCD对齐模块可以这种粗到细的方式提高了亚像素精度的图像对齐。

上述PCD对齐模块可以与整个网络框架一起学习，而无需额外的监督或对其他任务如光流(optical flow)进行预培训。

可选的，本申请实施例中的图像处理方法可以根据不同任务，设置和调整上述对齐模块的功能，对于对齐模块的输入可以为下采样后的图像帧，对齐模块可以直接执行该图像处理方法的对齐处理；也可以是在对齐模块里对齐前进行下采样处理，即对齐模块的输入先进行下采样，获得上述下采样后的图像帧之后再进行对齐处理。比如，图像或上述视频超分辨率即可以为前述第一种的情况，而视频去模糊和视频去噪可以为前述第二种情况。本申请实施例对此不做限制。

可选的，在进行对齐处理之前，该方法还包括：

对上述图像帧序列中的图像帧进行去模糊处理。

不同原因导致的图像模糊往往需要不同的处理方法，本申请实施例中的去模糊处理可以是任意图像增强、图像复原和/或超分辨率重构方法。通过去模糊处理使本申请中的图像处理方法可以更准确地进行对齐和融合处理。

203、基于上述多个对齐特征数据确定上述多个对齐特征数据与上述待处理图像帧相应的对齐特征数据之间的多个相似度特征。

其中，上述步骤203可以参考图1所示的实施例中步骤102的具体描述，此处不再赘述。

204、利用预设激活函数和上述多个对齐特征数据与上述待处理图像帧相应的对齐特征数据之间的多个相似度特征，确定上述每个对齐特征数据的权重信息。

本申请实施例中提到的激活函数(Activation Function)，就是在人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端。在神经网络中激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。可选的，上述预设激活函数可以为Sigmoid函数。

Sigmoid函数是一个在生物学中常见的S型函数，也称为S型生长曲线。在信息科学中，由于其单增以及反函数单增等性质，Sigmoid函数常被用作神经网络的阈值函数，将变量映射到0,1之间。

在一种可选的实施方式中，对于输入的每个帧i∈[-n:+n]，可以以相似距离h做为上述权重信息进行参考，h可以计算为：

其中

和

可以理解为两个嵌入(embedding)，可以通过简单的卷积滤波器实现，使用Sigmid函数用于限制输出结果的范围处于[0，1]中，即权重值可以为0～1以内的数值，基于稳定梯度反向传播实现。使用上述权重值进行的对齐特征数据调制可以是通过两个预设阈值判断的，其预设阈值的取值范围可以为(0，1)，比如权重值小于预设阈值的对齐特征数据可以忽略，保留权重值大于上述预设阈值的对齐特征数据。即根据权重值筛选和表示上述对齐特征数据的重要程度，便于进行合理化的多帧融合和重建。

其中，上述步骤204还可以参考图1所示的实施例中步骤102的具体描述，此处不再赘述。

在确定上述每个对齐特征数据的权重信息之后，可以执行步骤205。

205、利用融合卷积网络根据上述每个对齐特征数据的权重信息对上述多个对齐特征数据进行融合，获得上述图像帧序列的融合信息。

上述图像帧的融合信息可以理解为图像帧的不同空间位置和不同特征通道上的信息。

利用上述融合卷积网络对上述多个调制特征数据进行融合，获得上述图像帧序列的融合信息。

上述元素级乘法可以理解为对齐特征数据中精确到像素点的乘法运算。可以将每个对齐特征数据的权重信息对应乘在对齐特征数据中的像素点上进行特征调制，分别获得上述多个调制特征数据。

在一种可选的实施方式中，可以根据上述空间特征数据中每个元素点的空间注意力信息，以元素级乘法和加法对应调制上述空间特征数据中的上述每个元素点，获得上述调制后的融合信息。

其中上述空间注意力信息表示空间上的点与周围点的关系，即上述空间特征数据中每个元素点的空间注意力信息表示在该空间特征数据中该元素点与周围元素点的关系，类似于空间上的权重信息，可以反映该元素点的重要程度。

基于空间注意力机制，根据上述空间特征数据中每个元素点的空间注意力信息，可以以元素级乘法和加法对应调制上述空间特征数据中的上述每个元素点。

其中，上述步骤205还可以参考图1所示实施例中步骤103的具体描述，此处不再赘述。

206、基于上述图像帧序列的融合信息生成空间特征数据。

可以上述图像帧序列的融合信息生成空间上的特征数据，即上述空间特征数据，具体可以为空间注意力掩膜(masks)。

本申请实施例中，图像处理中的掩膜(Masks)可以用于提取感兴趣区：用预先制作的感兴趣区掩膜与待处理图像相乘，得到感兴趣区图像，感兴趣区内图像值保持不变，而区外图像值都为0；还可以用于屏蔽作用：用掩膜对图像上某些区域作屏蔽，使其不参加处理或不参加处理参数的计算，或仅对屏蔽区作处理或统计。

可选的，仍然可以采用上述金字塔结构的设计，以增加空间注意力接受范围。

207、基于上述空间特征数据中每个元素点的空间注意力信息调制上述空间特征数据，获得调制后的融合信息，上述调制后的融合信息用于获取与上述待处理图像帧对应的处理后图像帧。

具体的，可以根据上述空间特征数据中每个元素点的空间注意力信息，以元素级乘法和加法(element-wise multiplication and addition)对应调制上述空间特征数据中的每个元素点，从而获得上述调制后的融合信息。

在一种可选的实施方式中，上述融合操作可以由具有时间和空间注意力(Temporal and Spatial Attention)的融合模块实现，可以简称为TSA融合模块。

具体的，可以参见图4所示的多帧融合示意图，如图4所示的融合过程可以在图3所示的对齐模块之后执行。其中t-1，t，t+1分别表示相邻的连续三帧特征，即前述获得的对齐特征数据，D表示上述可形变卷积，S表示上述Sigmoid函数，以特征t+1为例，可以通过可形变卷积D和点积计算特征t+1相对于特征t的权重信息t+1。再以像素的方式(元素级乘法)将上述权重信息(时间注意力信息)映射乘以原始的对齐特征数据

比如特征t+1对应使用权重信息t+1进行调制。可以采用图中所示的融合卷积网络来聚集上述调制后的对齐特征数据

然后可以根据融合特征数据计算空间特征数据，即可以是空间注意力掩膜(masks)。在此之后，空间特征数据可以基于其中每个像素的空间注意力信息通过元素级乘法和加法进行调制，最终可以获得上述调制后的融合信息。

根据前述步骤204中的举例进行进一步的举例说明，上述融合过程可以表示为：

其中·和[·，·，·]分别表示元素级乘法和级联。

图4中空间特征数据的调制为金字塔结构，见图中立方体1～5，对获得的空间特征数据1进行两次下采样卷积，分别获得更小尺度的两个空间特征数据2和3，再对最小的空间特征数据3进行上采样卷积后，和空间特征数据2进行元素级加法，获得与空间特征数据2相同尺度的空间特征数据4，继续对空间特征数据4进行上采样卷积后，与空间特征数据1进行元素级乘法，获得的结果再与上采样卷积后的空间特征数据进行元素级加法，获得与空间特征数据1相同尺度的空间特征数据5，即上述调制后的融合信息。

本申请实施例对上述金字塔结构的层数不作限制，上述方法在不同尺度的空间特征上进行，能够进一步挖掘不同空间位置上的信息，获得质量更高、更准确的融合信息。

进一步可选的，可以根据上述调制后的融合信息来进行图像重建，获得与上述待处理图像帧对应的处理后图像帧，通常可以恢复出一个高质量帧，实现图像复原。

在通过上述融合信息进行图像重建，获得高质量帧之后，还可以进行图像的上采样，将图像恢复到处理前的相同大小。本申请实施例中对图像的上采样(upsampling)或称为或图像插值(interpolating)，其主要目的是放大原图像，从而可以以更高分辨率显示，而前述上采样卷积主要是为了改变针对图像特征数据和对齐特征数据的尺度大小。可选的，采样方式可以有多种，如最近邻插值、双线性插值、均值插值、中值插值等方法，本申请实施例对此不作限制。具体的应用可以参见图5及其相关描述。

在一种可选的实施方式中，在视频采集设备采集到的第一视频流中图像帧序列的分辨率小于或等于预设阈值的情况下，依次通过本申请实施例的图像处理方法中的步骤对上述图像帧序列中的每一图像帧进行处理，得到处理后的图像帧序列；

输出和/或显示由上述处理后的图像帧序列构成的第二视频流。

可以对视频采集设备采集到的视频流中的图像帧进行处理，具体的，图像处理装置可以存储有上述预设阈值，在视频采集设备采集到的第一视频流中图像帧序列的分辨率小于或等于上述预设阈值的情况下，基于本申请实施例的图像处理方法中的步骤，对上述图像帧序列中的每一图像帧进行处理，从而可以获得对应的处理后的多个图像帧，组成上述处理后的图像帧序列。

进一步地，可以输出和/或显示由上述处理后的图像帧序列构成的第二视频流，提高了视频数据中的图像帧质量，达到视频复原、视频超分辨率的效果。

在一种可选的实施方式中，上述图像处理方法基于神经网络实现；

上述神经网络利用包含多个样本图像帧对的数据集训练获得，上述样本图像帧对包含多个第一样本图像帧以及与上述多个第一样本图像帧分别对应的第二样本图像帧，上述第一样本图像帧的分辨率低于上述第二样本图像帧的分辨率。

可以通过训练后的神经网络，完成输入图像帧序列、输出融合信息，以及可以获取上述处理后图像帧的图像处理过程。本申请实施例中的神经网络不需要额外的人工标注，仅需要上述样本图像帧对，在训练时，可以基于上述第一样本图像帧、以上述第二样本图像帧为目标进行训练。比如训练的数据集可以包括相对高清和低清的样本图像帧对(pair),或者有模糊(blur)和没有模糊的样本图像帧对等，上述样本图像帧对在采集数据时都是可以控制的，本申请实施例不做限制。可选的，上述数据集可以采用已公开的REDS数据集、vimeo90数据集等。

本申请实施例提供了一个统一的能够有效解决多种视频复原问题的框架，包括但不限于视频超分辨率、视频去模糊、视频去噪等。

具体的，可以参见图5所示的视频复原框架示意图，如图5所示，对于待处理的视频数据中的图像帧序列，以神经网络实现图像处理。以视频超分辨率为例，视频超分辨率通常为获取输入的多个低分辨率帧，得到上述多个低分辨率帧的一系列图像特征，生成多个高分辨率帧输出。比如可以2N+1低分辨率帧作为输入，生成高分辨率帧输出，N为正整数。图中以t-1，t，和t+1相邻三帧为输入示意，先通过与去模糊模块进行去模糊处理，依次输入PCD对齐模块和TSA融合模块执行本申请实施例中的图像处理方法，即均与相邻帧进行多帧对齐和融合，最后获得融合信息，再输入重建模块根据上述融合信息获取处理后的图像帧，在网络的末端执行上采样操作以增加空间大小。最后，将预测图像残差加入到原始图像帧直接上采样的图像中，可以得到高分辨率的帧。与目前的图像/视频复原处理的方式相同，上述相加是为了学习上述图像残差,这样能够加速训练的收敛和效果。

对于具有高分辨率输入的其他任务，例如视频去模糊，输入帧首先使用跨步卷积层进行下采样卷积，然后在低分辨率空间进行大部分计算，大大节省了计算成本。最后通过上采样会将特征调整回原始输入分辨率。在对齐模块之前可以使用预去模糊模块来预处理模糊输入并提高对齐精度。

可选的，本申请实施例提出的图像处理方法具有广泛性，能够用于多种图像处理场景，比如人脸图像的对齐处理中，也可以结合其他涉及到视频和图像处理的技术中，本申请实施例不做限制。

本申请实施例提出的图像处理方法可以组成基于增强可变形卷积网络的视频复原系统，包含了上述的两个核心模块。即提供了一个统一的能够有效解决多种视频复原问题的框架，包括但不限于视频超分辨率、视频去模糊、视频去噪等处理。

本申请实施例通过对获取到的视频序列中的每个视频帧进行下采样，获得图像帧序列，获取上述图像帧序列，上述图像帧序列包括待处理图像帧以及与上述待处理图像帧相邻的一个或多个图像帧，并对上述待处理图像帧与上述图像帧序列中的图像帧进行图像对齐，得到多个对齐特征数据，基于上述多个对齐特征数据确定上述多个对齐特征数据与上述待处理图像帧相应的对齐特征数据之间的多个相似度特征，再利用预设激活函数和上述多个对齐特征数据与上述待处理图像帧相应的对齐特征数据之间的多个相似度特征，确定上述每个对齐特征数据的权重信息，利用融合卷积网络根据上述每个对齐特征数据的权重信息对上述多个对齐特征数据进行融合，获得上述图像帧序列的融合信息。然后基于上述图像帧序列的融合信息生成空间特征数据，基于上述空间特征数据中每个元素点的空间注意力信息调制上述空间特征数据，获得调制后的融合信息，上述调制后的融合信息用于获取与上述待处理图像帧对应的处理后图像帧。

本申请实施例中，上述对齐操作基于金字塔结构，级联和可变形卷积实现，整个对齐模块可以是基于可变形卷积网络来隐式地估计运动来对齐的，它通过使用金字塔结构，在小尺度的输入下先进行粗糙的对齐，然后将这个初步的结果输入到更大的尺度下进行调整。这样能够有效解决复杂和过大的运动带来的对齐挑战。通过使用级联的结构，对初步得到的结果进行进一步地微调，可使得对齐结果能够达到更高的精度。使用上述对齐模块进行多帧对齐，能够有效解决视频复原中的对齐问题，特别是输入帧中存在复杂和较大的运动，遮挡和模糊等情况。

上述融合操作基于时间和空间上的注意力机制。考虑到输入的一系列帧包含的信息不同，本身的运动情况、模糊状况和对齐情况也不同，时间注意力机制能够对不同帧不同区域的信息给予不同的重要性程度。空间注意力机制能够进一步挖掘空间上以及不同特征通道之间的关系来提高效果。使用上述融合模块进行多帧对齐后的融合，能够有效解决多帧的融合问题，挖掘不同帧包含的不同信息，纠正前面对齐阶段的未完美对齐情况。

综上，本申请实施例中的图像处理方法可以提升图像处理中多帧对齐和融合的质量，增强图像处理的显示效果；并且可以实现图像复原和视频复原，增强了复原的准确度和复原效果。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，图像处理装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对图像处理装置进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

请参阅图6，图6是本申请实施例公开的一种图像处理装置的结构示意图。如图6所示，该图像处理装置300包括对齐模块310和融合模块320，其中：

上述对齐模块310，用于获取图像帧序列，上述图像帧序列包括待处理图像帧以及与上述待处理图像帧相邻的一个或多个图像帧，并对上述待处理图像帧与上述图像帧序列中的图像帧进行图像对齐，得到多个对齐特征数据；

上述融合模块320，用于基于上述多个对齐特征数据确定上述多个对齐特征数据与上述待处理图像帧相应的对齐特征数据之间的多个相似度特征，并基于上述多个相似度特征确定上述多个对齐特征数据中每个对齐特征数据的权重信息；

上述融合模块320，还用于根据上述每个对齐特征数据的权重信息对上述多个对齐特征数据进行融合，获得上述图像帧序列的融合信息，上述融合信息用于获取与上述待处理图像帧对应的处理后图像帧。

可选的，上述对齐模块310具体用于：

基于第一图像特征集以及一个或多个第二图像特征集，对上述待处理图像帧与上述图像帧序列中的图像帧进行图像对齐，得到多个对齐特征数据，其中，上述第一图像特征集包含上述待处理图像帧的至少一个不同尺度的特征数据，上述第二图像特征集包含上述图像帧序列中的一个图像帧的至少一个不同尺度的特征数据。

可选的，上述对齐模块310具体用于：

可选的，上述对齐模块310还用于，在得到多个对齐特征数据之前，基于可形变卷积网络调整每个上述对齐特征数据，获得上述调整后的上述多个对齐特征数据。

可选的，上述融合模块320具体用于：

通过点乘每个上述对齐特征数据与上述待处理图像帧相应的对齐特征数据，确定上述多个对齐特征数据与上述待处理图像帧相应的对齐特征数据之间的多个相似度特征。

可选的，上述融合模块320还具体用于：

利用预设激活函数和上述多个对齐特征数据与上述待处理图像帧相应的对齐特征数据之间的多个相似度特征，确定上述每个对齐特征数据的权重信息。

可选的，上述融合模块320具体用于：

利用融合卷积网络根据上述每个对齐特征数据的权重信息对上述多个对齐特征数据进行融合，获得上述图像帧序列的融合信息。

可选的，上述融合模块320具体用于：

以元素级乘法将上述每个对齐特征数据与上述每个对齐特征数据的权重信息相乘，获得上述多个对齐特征数据的多个调制特征数据；

在一种可能的实施方式中，上述融合模块320包括空间单元321，用于：

在上述融合模块320利用融合卷积网络根据上述每个对齐特征数据的权重信息对上述多个对齐特征数据进行融合，获得上述图像帧序列的融合信息之后，基于上述图像帧序列的融合信息生成空间特征数据；

基于上述空间特征数据中每个元素点的空间注意力信息调制上述空间特征数据，获得调制后的融合信息，上述调制后的融合信息用于获取与上述待处理图像帧对应的处理后图像帧。

可选的，上述空间单元321具体用于：

根据上述空间特征数据中每个元素点的空间注意力信息，以元素级乘法和加法对应调制上述空间特征数据中的上述每个元素点，获得上述调制后的融合信息。

可选的，上述图像处理装置300中部署有神经网络；

可选的，上述图像处理装置300还包括采样模块330，用于：

在获取图像帧序列之前，对获取到的视频序列中的每个视频帧进行下采样，获得上述图像帧序列。

可选的，上述图像处理装置300还包括预处理模块340，用于：

在对上述待处理图像帧与上述图像帧序列中的图像帧进行图像对齐之前，对上述图像帧序列中的图像帧进行去模糊处理。

可选的，上述图像处理装置300还包括重建模块350，用于根据上述图像帧序列的融合信息，获取与上述待处理图像帧对应的处理后图像帧。

使用本申请实施例中的图像处理装置300，可以实现前述图1和图2实施例中的图像处理方法。

实施图6所示的图像处理装置300，图像处理装置300可以获取图像帧序列，上述图像帧序列包括待处理图像帧以及与上述待处理图像帧相邻的一个或多个图像帧，并对上述待处理图像帧与上述图像帧序列中的图像帧进行图像对齐，得到多个对齐特征数据，再基于上述多个对齐特征数据确定上述多个对齐特征数据与上述待处理图像帧相应的对齐特征数据之间的多个相似度特征，并基于上述多个相似度特征确定上述多个对齐特征数据中每个对齐特征数据的权重信息，根据上述每个对齐特征数据的权重信息对上述多个对齐特征数据进行融合，可以获得上述图像帧序列的融合信息，上述融合信息可以用于获取与上述待处理图像帧对应的处理后图像帧，可以大大提升图像处理中多帧对齐和融合的质量，增强图像处理的显示效果；并且可以实现图像复原和视频复原，增强了复原的准确度和复原效果。

请参阅图7，图7是本申请实施例公开的另一种图像处理装置的结构示意图。该图像处理装置400包括：处理模块410和输出模块420，其中：

上述处理模块410，用于在视频采集设备采集到的第一视频流中图像帧序列的分辨率小于或等于预设阈值的情况下，依次图1和/或图2所示实施例方法中的任意步骤对上述图像帧序列中的每一图像帧进行处理，得到处理后的图像帧序列；

上述输出模块420，用于输出和/或显示由上述处理后的图像帧序列构成的第二视频流。

实施图7所示的图像处理装置400，图像处理装置400可以获取图像帧序列，上述图像帧序列包括待处理图像帧以及与上述待处理图像帧相邻的一个或多个图像帧，并对上述待处理图像帧与上述图像帧序列中的图像帧进行图像对齐，得到多个对齐特征数据，再基于上述多个对齐特征数据确定上述多个对齐特征数据与上述待处理图像帧相应的对齐特征数据之间的多个相似度特征，并基于上述多个相似度特征确定上述多个对齐特征数据中每个对齐特征数据的权重信息，根据上述每个对齐特征数据的权重信息对上述多个对齐特征数据进行融合，可以获得上述图像帧序列的融合信息，上述融合信息可以用于获取与上述待处理图像帧对应的处理后图像帧，可以大大提升图像处理中多帧对齐和融合的质量，增强图像处理的显示效果；并且可以实现图像复原和视频复原，增强了复原的准确度和复原效果。

请参阅图8，图8是本申请实施例公开的一种电子设备的结构示意图。如图8所示，该电子设备500包括处理器501和存储器502，其中，电子设备500还可以包括总线503，处理器501和存储器502可以通过总线503相互连接，总线503可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线503可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。其中，电子设备500还可以包括输入输出设备504，输入输出设备504可以包括显示屏，例如液晶显示屏。存储器502用于存储计算机程序；处理器501用于调用存储在存储器502中的计算机程序执行上述图1和图2实施例中提到的部分或全部方法步骤。

实施图8所示的电子设备500，电子设备500可以获取图像帧序列，上述图像帧序列包括待处理图像帧以及与上述待处理图像帧相邻的一个或多个图像帧，并对上述待处理图像帧与上述图像帧序列中的图像帧进行图像对齐，得到多个对齐特征数据，再基于上述多个对齐特征数据确定上述多个对齐特征数据与上述待处理图像帧相应的对齐特征数据之间的多个相似度特征，并基于上述多个相似度特征确定上述多个对齐特征数据中每个对齐特征数据的权重信息，根据上述每个对齐特征数据的权重信息对上述多个对齐特征数据进行融合，可以获得上述图像帧序列的融合信息，上述融合信息可以用于获取与上述待处理图像帧对应的处理后图像帧，可以大大提升图像处理中多帧对齐和融合的质量，增强图像处理的显示效果；并且可以实现图像复原和视频复原，增强了复原的准确度和复原效果。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质用于存储计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种图像处理方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元(模块)可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器、随机存取器、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取图像帧序列，所述图像帧序列包括待处理图像帧以及与所述待处理图像帧相邻的一个或多个图像帧；

获取第一图像特征集中尺度最小的第一特征数据，以及第二图像特征集中与所述第一特征数据的尺度相同的第二特征数据，将所述第一特征数据和所述第二特征数据进行图像对齐，获得第一对齐特征数据，其中，所述第一图像特征集包含所述待处理图像帧的至少一个不同尺度的特征数据，所述第二图像特征集包含所述图像帧序列中的一个图像帧的至少一个不同尺度的特征数据；

获取所述第一图像特征集中尺度第二小的第三特征数据，以及所述第二图像特征集中与所述第三特征数据的尺度相同的第四特征数据；对所述第一对齐特征数据进行上采样卷积，获得与所述第三特征数据的尺度相同的第一对齐特征数据；

基于全部所述第二图像特征集执行上述步骤以获得所述多个对齐特征数据；

2.根据权利要求1所述的图像处理方法，其特征在于，所述获得多个对齐特征数据之前，所述方法还包括：

3.根据权利要求1或2所述的图像处理方法，其特征在于，所述基于所述多个对齐特征数据确定所述多个对齐特征数据与所述待处理图像帧相应的对齐特征数据之间的多个相似度特征，包括：

4.根据权利要求3所述的图像处理方法，其特征在于，所述基于所述多个相似度特征确定所述多个对齐特征数据中每个对齐特征数据的权重信息包括：

5.根据权利要求1或2所述的图像处理方法，其特征在于，所述根据所述每个对齐特征数据的权重信息对所述多个对齐特征数据进行融合，获得所述图像帧序列的融合信息包括：

6.根据权利要求5所述的图像处理方法，其特征在于，所述利用融合卷积网络根据所述每个对齐特征数据的权重信息对所述多个对齐特征数据进行融合，获得所述图像帧序列的融合信息，包括：

7.根据权利要求5所述的图像处理方法，其特征在于，所述利用融合卷积网络根据所述每个对齐特征数据的权重信息对所述多个对齐特征数据进行融合，获得所述图像帧序列的融合信息之后，所述方法还包括：

基于所述图像帧序列的融合信息生成空间特征数据；

8.根据权利要求7所述的图像处理方法，其特征在于，所述基于所述空间特征数据中每个元素点的空间注意力信息调制所述空间特征数据，获得调制后的融合信息包括：

9.根据权利要求1或2所述的图像处理方法，其特征在于，所述图像处理方法基于神经网络实现；

10.根据权利要求1或2所述的图像处理方法，其特征在于，所述获取图像帧序列之前，所述方法还包括：

11.根据权利要求1或2所述的图像处理方法，其特征在于，所述对所述待处理图像帧与所述图像帧序列中的图像帧进行图像对齐之前，所述方法还包括：

对所述图像帧序列中的图像帧进行去模糊处理。

12.根据权利要求1或2所述的图像处理方法，其特征在于，所述方法还包括：

13.一种图像处理方法，其特征在于，所述方法包括：

在视频采集设备采集到的第一视频流中图像帧序列的分辨率小于或等于预设阈值的情况下，依次通过权利要求1-12中任意一项所述的方法对所述图像帧序列中的每一图像帧进行处理，得到处理后的图像帧序列；

14.一种图像处理装置，其特征在于，包括：对齐模块和融合模块，其中：

所述对齐模块，用于获取图像帧序列，所述图像帧序列包括待处理图像帧以及与所述待处理图像帧相邻的一个或多个图像帧；

所述对齐模块，具体用于获取第一图像特征集中尺度最小的第一特征数据，以及第二图像特征集中与所述第一特征数据的尺度相同的第二特征数据，将所述第一特征数据和所述第二特征数据进行图像对齐，获得第一对齐特征数据，其中，所述第一图像特征集包含所述待处理图像帧的至少一个不同尺度的特征数据，所述第二图像特征集包含所述图像帧序列中的一个图像帧的至少一个不同尺度的特征数据；

所述对齐模块，还用于获取所述第一图像特征集中尺度第二小的第三特征数据，以及所述第二图像特征集中与所述第三特征数据的尺度相同的第四特征数据；对所述第一对齐特征数据进行上采样卷积，获得与所述第三特征数据的尺度相同的第一对齐特征数据；

所述对齐模块，还用于基于所述上采样卷积后的第一对齐特征数据，将所述第三特征数据和所述第四特征数据进行图像对齐，获得第二对齐特征数据；

所述对齐模块，还用于依据所述尺度由小到大的顺序执行上述步骤，直到获得与所述待处理图像帧的尺度相同的一个对齐特征数据；

所述对齐模块，还用于基于全部所述第二图像特征集执行上述步骤以获得所述多个对齐特征数据；

15.根据权利要求14所述的图像处理装置，其特征在于，所述对齐模块还用于，在获得多个对齐特征数据之前，基于可形变卷积网络调整每个所述对齐特征数据，获得所述调整后的所述多个对齐特征数据。

16.根据权利要求14或15所述的图像处理装置，其特征在于，所述融合模块具体用于：

17.根据权利要求14或15所述的图像处理装置，其特征在于，所述融合模块还具体用于：

18.根据权利要求14或15所述的图像处理装置，其特征在于，所述融合模块具体用于：

19.根据权利要求16所述的图像处理装置，其特征在于，所述融合模块具体用于：

利用融合卷积网络对所述多个调制特征数据进行融合，获得所述图像帧序列的融合信息。

20.根据权利要求18所述的图像处理装置，其特征在于，所述融合模块包括空间单元，用于：

21.根据权利要求20所述的图像处理装置，其特征在于，所述空间单元具体用于：

22.根据权利要求14或15所述的图像处理装置，其特征在于，所述图像处理装置中部署有神经网络；

23.根据权利要求14或15所述的图像处理装置，其特征在于，还包括采样模块，用于：

24.根据权利要求14或15所述的图像处理装置，其特征在于，还包括预处理模块，用于：

25.根据权利要求14或15所述的图像处理装置，其特征在于，还包括重建模块，用于根据所述图像帧序列的融合信息，获取与所述待处理图像帧对应的处理后图像帧。

26.一种图像处理装置，其特征在于，包括：处理模块和输出模块，

所述处理模块，用于在视频采集设备采集到的第一视频流中图像帧序列的分辨率小于或等于预设阈值的情况下，依次通过权利要求1-12中任意一项所述的方法对所述图像帧序列中的每一图像帧进行处理，得到处理后的图像帧序列；

27.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序被配置成由所述处理器执行，所述处理器用于执行如权利要求1-13任一项所述的方法。

28.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-13任一项所述的方法。