CN115035456A

CN115035456A - 视频去噪方法、装置、电子设备和可读存储介质

Info

Publication number: CN115035456A
Application number: CN202210769643.7A
Authority: CN
Inventors: 谭鑫
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-09-09

Abstract

本申请公开了一种视频去噪方法、装置、电子设备和可读存储介质，属于视频处理技术领域。该方法包括：获取第一视频帧的第一位姿信息和第二视频帧的第二位姿信息，第一视频帧为待去噪视频帧，第二视频帧为参考视频帧；根据第一位姿信息和第二位姿信息，对第一视频帧与第二视频帧进行运动估计，得到第一运动估计信息，第一运动估计信息包括第一视频帧中像素与第二视频帧中像素的运动变化量；根据第一运动估计信息，对第一视频帧进行去噪处理。

Description

视频去噪方法、装置、电子设备和可读存储介质

技术领域

本申请属于视频处理技术领域，具体涉及一种视频去噪方法、装置、电子设备和可读存储介质。

背景技术

噪声是影响电子设备(例如数字成像设备)拍摄或显示的视频画面质量的重要因素之一。现有的去噪方法主要可以分为图像去噪和视频(图像序列)去噪两大类。其中，视频去噪能够取得更好去噪效果。

目前，视频去噪的方式主要有基于三维滤波的视频去噪方法、基于块匹配的视频去噪方法、基于运动估计补偿的去噪方法以及基于深度学习的视频去噪方法。然而，上述方法中对视频去噪处理的效果较差。

发明内容

本申请实施例的目的是提供一种视频去噪方法、装置、电子设备和可读存储介质，能够提升电子设备处理视频噪声的效果。

第一方面，本申请实施例提供了一种视频去噪方法，该方法包括：获取第一视频帧的第一位姿信息和第二视频帧的第二位姿信息，第一视频帧为待去噪视频帧，第二视频帧为参考视频帧；根据第一位姿信息和第二位姿信息，对第一视频帧与第二视频帧进行运动估计，得到第一运动估计信息，第一运动估计信息包括第一视频帧中像素与第二视频帧中像素的运动变化量；根据第一运动估计信息，对第一视频帧进行去噪处理。

第二方面，本申请实施例提供了一种视频去噪装置，该装置包括：获取模块和处理模块。获取模块，用于获取第一视频帧的第一位姿信息和第二视频帧的第二位姿信息，第一视频帧为待去噪视频帧，第二视频帧为参考视频帧；处理模块，用于根据获取模块获取的第一位姿信息和第二位姿信息，对第一视频帧与第二视频帧进行运动估计，得到第一运动估计信息，第一运动估计信息包括第一视频帧中像素与第二视频帧中像素的运动变化量；并根据第一运动估计信息，对第一视频帧进行去噪处理。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，电子设备获取第一视频帧的第一位姿信息和第二视频帧的第二位姿信息，第一视频帧为待去噪视频帧，第二视频帧为参考视频帧；根据第一位姿信息和第二位姿信息，对第一视频帧与第二视频帧进行运动估计，得到第一运动估计信息，第一运动估计信息包括第一视频帧中像素与第二视频帧中像素的运动变化量；根据第一运动估计信息，对第一视频帧进行去噪处理。由于电子设备可以基于待去噪视频帧和参考视频帧的位姿信息，对待去噪视频帧和参考视频帧进行运动估计，得到第一视频帧中像素与第二视频帧中像素的运动变化量，即运动估计信息，然后电子设备可以根据视频帧中像素的运动变化量，对第一视频帧进行去噪处理。因此，电子设备可以充分利用来自位姿信息的运动估计信息，使得电子设备在对视频帧进行去噪时可以得到更高质量的处理结果，并减少了电子设备在对视频帧进行去噪时产生的的计算量，节省了电子设备的功耗，如此，电子设备可以得到更加优良的视频去噪效果。

附图说明

图1是本申请实施例提供的一种视频去噪方法的示意图之一；

图2是本申请实施例提供的一种视频去噪方法的实例示意图之一；

图3是本申请实施例提供的一种视频去噪方法的实例示意图之二；

图4是本申请实施例提供的一种视频去噪方法的示意图之三；

图5是本申请实施例提供的一种视频去噪方法的示意图之四；

图6是本申请实施例提供的一种视频去噪方法装置的结构示意图；

图7是本申请实施例提供的一种电子设备的硬件结构示意图之一；

图8是本申请实施例提供的一种电子设备的硬件结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面对本发明实施例中涉及的一些术语/名词进行解释说明。

二维：2Dimension，2D

三维：3Dimension，3D

六自由度：6Degree of Freedom，6DoF

扩展现实：extented Reality，XR

尺度不变特征变换：Scale-invariant feature transform，SIFT

加速分割测试特征：Features from Accelerated Segment Test，FAST

加速鲁棒特征：Speeded-Up Robust Features，SURF

惯性测量单元：Inertial Measurement Unit，IMU

卷积神经网络：Convolutional Neural Network，CNN

U型网络：U-shape Net，UNet

目前，电子设备(例如数字成像设备)可以用于拍摄图片或视频，或是以图像或图像序列信息的形式供后续的智能任务使用，如目标的检测识别与跟踪，因此，对于电子设备来说，好的成像质量，其重要性是不言而喻的。然而，噪声是影响数字成像设备画面质量的重要因素之一，在夜间、黎明、黄昏，以及桥底、隧道、峡谷、洞穴等低照度环境下，成像都受到噪声的挑战。

现有的去噪方法主要可以分为：图像去噪和视频(图像序列)去噪两大类。其中，图像去噪是视频去噪的基础。相较于图像去噪，视频去噪则多了时域连续信息可以使用，从而能够取得更好去噪效果，并且现有数字成像设备的图像处理算法流程，一般都包括空域(图像)去噪与时域去噪两部分。

对于图像序列，数据量成倍增加，如何高效地利用时域数据是视频去噪的关键。现有技术中，视频去噪的主要方案包括：(1)基于三维滤波的方法；(2)基于块匹配的方法；(3)基于运动估计补偿的方法；(4)基于深度学习的方法。

对于基于三维滤波的方法：

处理视频去噪中的运动问题，最直接的方式是二维扩展为三维。例如，2D高斯滤波扩展为3D高斯滤波，2D小波扩展为3D小波。2D双边滤波扩展为3D双边滤波。以3D双边滤波为例：双边滤波有一个以亮度信息变化检测边缘的高斯核，那么也可以将这个高斯核应用到时域，因此，在同一空间位置，若亮度变化小，则认为没有运动发生，若亮度变化大，则认为有运动发生。由于这种检测是以高斯核的方式进行，因此，变化检测被隐式地包含在这个时域高斯核中。

对于基于块匹配的方法：

在图像序列中，相似块的搜索可以在相邻帧中进行。由于变化信息被隐式地包含在匹配到的相似块中，因此，在相似块匹配完成后，可以对选出的匹配的块进行加权平均以滤除噪声，其中，权重依赖于各块到参考块的距离。在进行加权平均以前，可以对每个相似块的聚类进行3D DCT硬阈值噪声抑制，使得权重的计算更加准确。由于多个2D的相似块形成了一个3D的聚类，因此，还可以对该3D聚类在小波域进行去噪。基于块匹配的方法在时域上对相似块进行匹配时，优先选择同一空间位置的块。若相同位置能匹配到块，则说明该块很有可能没有发生变化；若相同位置匹配不到块，则考虑在相邻帧的其他空间位置搜索，最后考虑当前帧的其他空间位置。这种时空块匹配的方式完成了对变化的估计，使得对当前块的噪声抑制考虑了前后的时域信息。并且，除了2D块以外，3D块可能比2D块更加适合。由于3D块是一个局部的时空块。因此，3D块本身就含有时域的运动信息，可以更好的识别运动相关的时间依赖特性，由于这些多个相似的3D块形成4D聚类，因此，可以以这些4D聚类为基础进行降噪。

基于运动估计补偿的方法：

3D的像素域滤波、变换域滤波，或2D块或3D块匹配，其运动信息都是被隐式表示的。基于运动估计补偿的方法则通过显式的运动信息进行噪声抑制，即跟踪匹配到的相似块，并沿着运动轨迹进行滤波。这种方法虽然使用了2D块，但是运动信息却是被显式地估计出并利用。除了像素域，还可以在频域、小波域进行运动估计。并且，除了相似块，光流也常常被用来进行运动估计。

基于深度学习的方法：

随着深度学习的发展，该方法在视频去噪领域也取得良好成果。对于时域信息，深度学习通过不同的网络结构提取有用的时域信息。典型的网络结构包括：变形卷积、循环神经网络、长短时记忆网络、基于深度学习的光流网络等。

目前，上述各类方法都有大量的研究成果，其中，许多方法也应用到了商用产品中，如基于块匹配运动估计的视频去噪，基于轻量级神经网络的视频去噪等。然而，无论采用哪种技术方案，对于数字成像设备而言，去噪性能好、计算量小、功耗低的视频去噪方法依然是需要追求的目标。

现有的视频去噪方法虽然已经取得了一定效果，但是仍然存在不足之处，对于基于三维滤波的方法，简单的滤波核并不能表示复杂的运动，其去噪效果一般较差。对于基于块匹配的方法，在噪声较大时，块匹配本身会受到严重噪声的干扰，导致匹配失败。此外，在3D时空域的相似块搜索，会带来大量的计算消耗。对于基于运动估计补偿的方法，去噪效果则取决于运动估计的准确性。同样在大噪声下，运动估计性能会大大下降，从而导致失败的去噪。对于基于深度学习的方法，由于来自监督图像的先验信息，去噪效果得到较大提升。但其存在计算量大、功耗高的问题。该问题的根源也在于需要对前后多帧图像进行卷积，以收集有用的运动信息。而且针对不同型号的传感器，存在真实训练数据集采集困难，仿真数据集建模困难等问题。

综上所述，现有技术中针对视频去噪方法存在的普遍问题是：1)对时域信息的提取，在大噪声条件下效果不佳，导致去噪效果急剧下降；2)时域信息提取模块的计算量大，功耗高，有些方法在移动设备上甚至无法实时处理。

本申请实施例的目的是针对带有6DoF位姿估计模块的电子设备(移动设备)，提供一种效果优良，且计算量小、功耗低的视频去噪方法。即：基于电子设备的6DoF位姿信息，提出一种图像运动估计方法，供视频去噪使用：基于来自位姿信息的运动估计，通过设计新的块匹配策略或运动编码网络，在保证去噪性能的同时，降低计算量与功耗。

本申请实施例提供的视频去噪方法可以应用在具有6DoF位姿信息生成模块的电子设备，并应用于需要进行视频去噪的场景。其中，具有6DoF位姿信息生成模块的设备主要包括典型移动设备：例如包括手机、平板、运动相机，带摄像头的手表等，无人机设备、无人车设备、无人船设备等机器人设备，还包括自动驾驶的乘用车设备、卡车设备等移动设备。

本申请实施例提供的视频去噪方法还可以用于生成供用户欣赏的录制视频与预览视频，或多帧图像的照片合成，或仅有目标检测识别跟踪等智能任务的机器人设备，或需要手势交互识别、环境感知的XR头盔、XR眼镜等设备。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的视频去噪方法进行详细地说明。

本申请实施例提供一种视频去噪方法，图1示出了本申请实施例提供的一种视频去噪方法的流程图，该方法可以应用于电子设备。如图1所示，本申请实施例提供的视频去噪方法可以包括下述的步骤201至步骤203。

步骤201、电子设备获取第一视频帧的第一位姿信息和第二视频帧的第二位姿信息。

本申请实施例中，第一视频帧为待去噪视频帧，第二视频帧为参考视频帧。

本申请实施例中，若电子设备需求对视频进行去噪处理，可以获取目标中待去噪处理的视频帧对应的位姿信息，以及参考视频帧对应的位姿信息，从而电子设备可以根据该视频帧的对应位姿信息和参考视频帧对应的位姿信息，对待进行去噪处理的第一视频帧进行去噪处理。

可选地，本申请实施例中，电子设备可以通过视频图像序列获取模块，从数字图像传感器获取连续图像序列，即包括有第一视频帧和第二视频帧的目标视频，从而可以获取目标视频的图像序列，并通过6DoF位姿获取模块，获取目标视频对应的电子设备的6DoF位姿信息，即获取目标视频的每一帧视频对应的6DoF位姿信息。

可选地，本申请实施例中，电子设备可以获取目标视频的多帧视频帧与6DoF序列信息，并计算每帧视频帧对应的6DoF信息。

需要说明的是，6DoF位姿获取模块，可以用于获取电子设备的6DoF位姿信息，其中，产生6DoF位姿信息的数据来源包括SLAM方法、无人机POS数据、激光陀螺仪等。

示例性地，电子设备可以通过单目RGB相机，或者IMU、超声、气压计等多种传感器获取目标视频对应的位姿信息。

需要说明的是，位姿信息可以提供了电子设备在物理空间的位置信息与姿态信息。由于拍摄得到的视频中的视频帧的图像而产生的图像变化正是由于电子设备的位姿变化引起的。其中，位置信息表示为以世界坐标系原点为起点的三轴平移位置量t：(x，y，z)，姿态信息表示为电子设备自身的旋转量，典型旋转量可以欧拉角(例如：俯仰角、偏航角、滚转角)的形式表示R：(α，β，γ)，还可以用旋转矩阵、旋转向量、四元数等形式表示。一般情况下，图像的生成时间，即每一帧视频帧的生成时间和位姿信息的产生时间均对应自身的频率，其频率值可能不同。

示例性地，目标视频可以是30fps或60fps，而位姿信息可以是10fps或20fps。因此，电子设备可以通过插值的方式得到与目标视频中的视频帧生成时间对应的位姿信息。

需要说明的是，由于位姿信息可以是100fps或200fps，甚至更高的频率，因此，当位姿数据帧率大于目标视频帧率时，电子设备可以根据目标视频的图像时间戳和位姿时间戳，找到最近邻的位姿数据。若是以相对变化量表示的位姿信息，则需要进行多帧积分才能得到两帧视频帧的图像对应的旋转变化量R与平移变化量t。

可选地，本申请实施例中，电子设备可以先对目标视频中连续多帧视频帧进行缓存，以得到该连续多帧视频帧的的图像信息，并通过计算得到该连续多帧视频帧的对应的位姿信息，从而电子设备可以根据该连续多帧视频帧的图像以及该连续多帧视频帧的图像对应的位姿信息，对该连续多帧视频帧的中的第一视频帧进行去噪处理，并输出该第一视频帧。

步骤202、电子设备根据第一位姿信息和第二位姿信息，对第一视频帧与第二视频帧进行运动估计，得到第一运动估计信息。

本申请实施例中，第一运动估计信息包括第一视频帧中像素与第二视频帧中像素的运动变化量。

可选地，本申请实施例中，电子设备可以通过2D图像运动估计模块对第一视频帧与第二视频帧进行运动估计，以得到第一视频帧中像素与第二视频帧中像素的运动变化量。

需要说明的是，上述2D图像运动估计模块可以用于对视频帧及其对应的位姿信息，进行2D图像域的运动估计，以获取视频帧中像素的运动信息。

本申请实施例中，电子设备在获取到第一位姿信息和第二位姿信息之后，可以通过两种方式对第一图像进行运动估计，以得到第一运动估计信息。

可选地，本申请实施例中，电子设备可以采用对极几何模型将电子设备在3D空间的位姿变化投影到2D图像空间进行运动估计，以得到第一运动估计信息。

可选地，本申请实施例中，第一视频帧包括至少一个第一像素，第二视频帧包括至少一个第二像素；上述步骤202具体可以通过下述的步骤202a和步骤202b实现。

步骤202a、电子设备根据第一位姿信息、第二位姿信息和目标内参，计算与第一目标像素匹配的第二目标像素。

本申请实施例中，第一目标像素为至少一个第一像素中的像素，第二目标像素为至少一个第二像素中的像素，目标内参为采集第一视频帧和第二视频帧的相机内参。

可选地，本申请实施例哪个，上述第一目标像素可以为第一视频帧的像素特征点，或者可以为第一视频帧的像素特征向量。

可选地，在本申请实施例提供的第一种方法中，电子设备可以采用特征点提取算子提取第一视频帧和第二视频帧的像素特征点，并以特征描述符的方式进行描述。

示例性地，电子设备可以采用SIFT、FAST、SURF等特征点提取算子进行像素特征点的提取。

可选地，在本申请实施例提供的第二种方法中，电子设备可以采用神经网络的提取第一视频帧和第二视频帧的像素特征向量。

本申请实施例中，第一目标像素为至少一个第一像素中与至少一个第二像素的匹配度大于或等于预设阈值的像素，第二目标特征像素为至少一个第二像素中与至少一个第一像素的匹配度大于或等于预设阈值的像素。

可选地，在本申请实施例提供的第一种方法中，电子设备可以采用汉明距离等距离算子，根据第一位姿信息、第二位姿信息和目标内参，计算与第一目标像素匹配的第二目标像素。

可选地，在本申请实施例提供的第二种方法中，电子设备可以采用测度网络，对至少一个第一像素和至少一个第二像素进行距离判别，从而电子设备可以根据第一位姿信息、第二位姿信息和目标内参，计算与第一目标像素匹配的第二目标像素，以完成像素特征向量的匹配。

步骤202b、电子设备计算第一目标像素和第二目标像素的目标像素位移量，得到第一运动估计信息。

本申请实施例中，电子设备可以根据第一位姿信息、第二位姿信息和目标内参，计算与第一目标像素对应的第二目标像素的像素位置的位移矢量，从而得到第一运动估计信息。

本申请实施例中，电子设备可以在计算得到与第一目标像素匹配的第二目标像素之后，采用对级几何模型对第一目标像素和第二目标像素的目标像素位移量进行计算，以得到第一运动估计信息。

可选地，在本申请实施例提供的第一种方法中，电子设备可以采用对极几何模型对第一目标像素的像素特征点和第二目标像素的像素特征点的目标像素位移量进行计算，从而得到第一运动估计信息。

可选地，在本申请实施例提供的第二种方法中，电子设备可以采用对极几何模型对第一目标像素的像素特征向量和第二目标像素的像素特征向量的目标像素位移量，从而得到第一运动估计信息，该第一运动估计信息为一个W×H×2的运动场。

其中，W是图像宽度，H是图像高度。

示例性的，假设经过第一视频帧和第二视频帧的像素特征点和像素特征向量的提取和特征匹配，可以得到同一物体特征点在两帧视频帧中应对的像素位置，即p₁(u₁，v₁)和p₂(u₂，v₂)，则采用对极几何模型可以得到其对极约束为：

其中，K为相机内参模型，R，t为拍摄两幅图像时相机的旋转与平移量，(·)^为反对称符号，式(1)的中间部分可以记为本质矩阵E与基础矩阵F的形式：

E＝t^R，F＝K^-TEK^-1 (2)

由式(1)可以看出，已知相机运动的旋转量R，平移量t和相机内参K时，可以得到两个像素的位置关系。即若已知像素p₁，则可计算出像素p₂，从而得到像素在2D图像上的位移量(Δu，Δv)＝(u₂-u₁，v₂-v₁)。而相机运动的旋转量R，平移量t可由移动设备位姿信息得到，相机内参K可由标定得到。

步骤203、电子设备根据第一运动估计信息，对第一视频帧进行去噪处理。

可选地，本申请实施例中，上述步骤203具体可以通过下述的步骤203a1至步骤203c1实现。

步骤203a1、电子设备根据第一运动估计信息，计算与第三像素匹配的第四像素。

本申请实施例中，第三像素为第一视频帧中的像素，第四像素为第二视频帧中的像素。

可选地，本申请实施例中，电子设备可以根据第一运动估计信息，计算与第一视频帧中的像素匹配的第二视频帧中的像素。

步骤203b1、电子设备基于块匹配策略在第一视频帧中搜索与第三像素匹配的至少一个第五像素。

可选地，本申请实施例中，电子设备可以在图像2D空域，在待去噪的视频帧的像素对应的参考像素块附近固定位置搜索，若搜索到匹配像素块，则沿该方向进一步搜索。

示例性地，如图2中所示，若右侧是待去噪的视频帧，实线块是当前待处理的参考像素块。首先可以在参考像素块附近的虚线框位置处理进行搜索匹配，若检测到上下两个匹配的像素块，则电子设备可以继续沿上下方向，进一步进行搜索，即点线块位置。电子设备可以预设搜索两步，第一步搜索8个位置，第二步最多搜索8个位置，为便于实现，各搜索像素块的位置相对固定，其中，搜索时的步长，也可以不采取图2所示的像素块边长，可以采用更小的边长，具体地，本申请实施例在此不作任何限制。

可选地，本申请实施例中，在3D时域，则可以根据第一运动估计结果，直接计算匹配的像素块位置。

示例性地，电子设备可采用待去噪的视频帧的前三帧视频帧和后三帧视频帧，作为时域待搜索帧，然后电子设备可以基于待去噪的视频帧的待去噪像素，对其进行空域搜索，从而得到16个像素块，并且，由于待去噪的视频帧的前三帧和后三帧中的每一帧均可以通过运动信息获取提供1个像素快，即一共提供6个像素块，从而电子设备可以将16个像素块、6个像素块以及待去噪的视频帧的待去噪像素的1个像素块进行相加，从而在空域、时域得到至多23个像素块，然后电子设备可以在得到的23个像素块中筛选得到匹配度较高的相似像素块，其中，两个像素块的匹配可利用像素差分欧式距离进行计算，通常可以匹配到十几个相似像素块。

其中，像素差分欧式距离公式为：

步骤203c1、电子设备根据第四像素和至少一个第五像素，对第一视频帧中的第三像素进行时空滤波去噪处理。

本申请实施例中，电子设备可以根据与第一视频帧中的第三像素匹配的第二视频帧中的第四像素，以及基于块匹配策略在第一视频帧中搜索与第三像素匹配的至少一个第五像素，对第一视频帧中的第三像素进行时空滤波去噪处理。

可选地，本申请实施例中，电子设备可以基于时空去噪模块，根据第四像素和至少一个第五像素，对第一视频帧中的第三像素进行非局部均值时空滤波去噪处理。

需要说明的是，上述时空去噪模块可以用于进行结合运动信息的时域、空域去噪，以输出最终的去噪结果。

可选地，本申请实施例中，电子设备可以采用加权平均方式、或者小波域等方式对第一视频帧中的第三像素进行去噪处理。

示例性地，本申请实施例可以采用加权平均的方法对第一视频帧中的第三像素进行去噪，即通过下述公式：

Y(i)＝∑_j∈Iw(i，j)v(j) (3)

其中，I为噪声图像，像素i∈I，Y(i)是滤波结果，v(j)为图像I的像素j处的像素值，w(i，j)为像素i与像素j所在像素的权重。

w(i，j)的计算方法为：

其中，N_i、N_j为以像素i与像素j为中心的矩形像素，h为高斯权重因子，a为高斯核标准差。

Z(i)为归一化因子，其计算方法为：

电子设备经过上述处理，可以得到滤波去噪结果Y(i)，从而对第一视频帧中的第三像素执行该滤波，即可得到该第一视频帧最后的滤波去噪结果。

在申请实施例提供的第一种方法中，电子设备第一视频帧的第一位姿信息和第二视频帧的第二位姿信息实现了显式的运动估计，并得到第一视频帧中像素与第二视频帧中像素的运动变化量，即第一运动估计信息，从而电子设备可以根据第一运动估计信息，计算与第一视频帧中的像素匹配的第二视频帧中的像素，并基于块匹配策略，计算得到第一视频帧中与第三视频帧匹配的至少一个像素，以使得电子设备可以基于匹配得到的像素，对第一视频帧进行去噪处理，提高了电子设备的运动估计的质量，因此，降低了电子设备进行块匹配的次数和计算量，加快了视频去噪的时间，节省了电子设备的功耗，提升了电子设备对视频进行去噪处理的效果。

可选地，本申请实施例中，上述步骤203具体可以通过下述的步骤203a2至步骤203d2实现。

步骤203a2、电子设备基于卷积神经网络，对第一运动估计信息进行编码处理，得到编码运动估计信息。

可选地，本申请实例中，由于第一运动估计信息为一个双通道的2D向量，因此，电子设备基于采用卷积神经网络，对第一运动估计信息进行编码处理，得到编码运动估计信息。

示例性地，电子设备可以预设进行三次编码处理，其中，第一次编码处理后，电子设备可以得到

维的特征向量；第二次编码处理后得到

维的特征向量；第三次编码处理后得到

维的特征向量。

步骤203b2、电子设备将第一视频帧和第二视频帧进行堆叠处理，得到视频帧矩阵。

本申请实施例中，视频帧矩阵包括对第一视频帧和第二视频帧进行堆叠处理后的图像信息。

步骤203c2、电子设备基于卷积神经网络，对视频帧矩阵进行编码处理，得到编码图像信息。

可选地，本申请实施例中，电子设备将第一视频帧和第二视频进行堆叠处理，得到视频帧矩阵，并获取视频帧矩阵的图像信息，从而电子设备可以采用卷积神经网络，对视频帧矩阵进行编码处理，以得到编码图像信息。

示例性地，对于前后两帧视频帧，首先进行堆叠得到W×H×6维的视频帧矩阵，然后同样利用卷积神经网络进行编码处理，得到编码图像信息。

需要说明的是，电子设备在对视频帧矩阵进行编码时，其编码的次数与宽度、高度尺寸与编码运动估计信息保持一致，其通道数维度可以不一致。

步骤203d2、电子设备将编码运动估计信息和编码图像信息进行融合处理，得到目标编码信息，对目标编码信息进行解码处理，得到第四视频帧。

本申请实施例中，第四视频帧为第一视频帧去噪处理后得到的视频帧。

可选地，本申请实施例中，电子设备可以采用运动信息融合模块，将编码运动估计信息和编码图像信息进行融合处理，得到目标编码信息，从而电子设别可以对目标编码信息进行解码处理，得到第一视频帧去噪处理后得到的视频帧。

需要说明的是，运动信息融合模块用于将2D图像运动估计模块获取的直接运动信息，转换为能够被时空去噪模块所能处理的信息模式。

可选地，本申请实施例中，电子设备可以通过沿通道的拼接和融合操作将编码运动估计信息和编码图像信息融合在一起。

需要说明的是，上述沿通道的拼接操作是指将a×b×c₁维特征向量与a×b×c₂维特征向量沿通道维堆叠在一起得到a×b×(c₁+c₂)维特征向量。

示例性地，电子设备可以对视频帧矩阵进行三次编码处理，其中，第一次编码处理后，电子设备得到

维的特征向量，从而将编码运动估计信息和编码图像信息进行融合后得到

维的特征向量；第二次编码处理后得到

维的特征向量，从而将编码运动估计信息和编码图像信息进行融合处理后得到

维的特征向量；第三次编码处理后得到

维的特征向量，即目标编码信息。然后，电子设备可以对目标编码信息，即

维的特征向量进行解码处理，即采用卷积网络进行解码处理，与UNet类似，可以采用跳跃连接，防止细节信息丢失，由于电子设备在使用跳跃连接时，采用逐元素相加的操作，因此，需要编码处理的特征向量尺寸与解码处理保持一致。

示例性地，以上述目标编码信息为

维的特征向量为例进行说明，从

维的特征向量开始进行第一次解码处理，得到

维的特征向量，逐元素相加后，特征向量维度保持不变；第二次解码处理后，得到

维的特征向量；第三次解码处理后，得到W×H×3维的第四视频帧。

示例性地，图3示出了一种本申请实施例提供的第二种视频去噪方法流程图。

本申请实施例提供的第二种方法中，电子设备采用深度学习神经网络，从而可以更加充分的利用来自位姿信息的运动估计信息，以实现更高质量的运动估计，此外，在网络结构中，无需专用的运动估计模块，仅根据已获得的运动估计信息即可，从而减少了电子设备的计算量，节省了电子设备的功耗，因此，电子设备可以得到更加优良的视频去噪效果。

需要说明的是，本申请实施例所需要的神经视频去噪网络的训练数据集可以由添加噪声的仿真数据集构成，也可以由特殊装置采集的真实数据集构成。损失函数可以采用欧式距离损失函数，也可以采用感知距离损失函数。

需要说明的是，本申请实施例提供的视频去噪方法还可以用于其他需要运动估计的场合，如视频编解码、视频去模糊、动作识别、目标跟踪、视频超分、视频插帧、视频分割等。

可选地，本申请实施例提供的视频去噪方法还包括下述的步骤301和步骤302、且上述步骤203可以通过下述的步骤303实现。

步骤301、电子设备获取至少一个第三视频帧的至少一个第三位姿信息。

本申请实施例中，每一第三视频帧对应一个第三位姿信息。

本申请实施例中，电子设备还可以对目标视频的多帧视频帧进行去噪处理。

可选地，本申请实施例中，电子设备可以获取第一视频帧的第一位姿信息，并获取至少一个第三视频帧的至少一个第三位姿信息，从而电子设备可以对第一视频帧和至少一个第三视频帧进行运动估计，得到第一视频帧中像素分别与至少一个第三视频帧中的一个第三视频帧中像素的运动变化量。

可选地，本申请实施例中，至少一个第三视频帧为目标视频中与第一视频帧相邻的多帧视频帧。

可选地，本申请实施例中，至少一个第三视频帧可以为目标视频中位于第一视频帧之前的多帧视频帧；或者，至少一个第三视频帧可以为目标视频中位于第一视频帧之后的多帧视频帧；或者，至少一个第三视频帧可以为目标视频中位于第一视频帧之前的多帧视频帧以及目标视频中位于第一视频帧之后的多帧视频帧。

需要说明的是，目标视频的中与第一视频帧相邻视频帧与第一视频的信息相似度较高。

步骤302、电子设备根据至少一个第三位姿信息和第一位姿信息，对第一视频帧与至少一个第三视频帧进行运动估计，得到至少一个第二运动估计信息。

本申请实施例中，电子设备可以根据第一位姿信息分别和至少一个第三位姿信息中的一个第三位姿信息进行运动估计，得到至少一个第二运动估计信息。

需要说明的是，电子设备根据第一位姿信息和至少一个第三位姿信息中的一个第三位姿信息进行运动估计的过程可以参考上述步骤，此处不再赘述。

步骤303、电子设备根据第一运动估计信息和至少一个第二运动估计信息，对第一视频帧进行去噪处理。

本申请实施例中，电子设备在得到第一运动估计信息和至少一个第二运动估计信息之后，可以通过两种方式，对第一视频帧进行去噪处理。

需要说明的是，上述两种方式中的第一种实现方式的实现过程具体可以参考上述步骤203a1至步骤203c1，上述两种方式中的第二种实现方式的实现过程具体可以参考上述步骤203a2至步骤203d2，此处不再赘述。

本申请实施例提供一种视频去噪方法，电子设备获取第一视频帧的第一位姿信息和第二视频帧的第二位姿信息，第一视频帧为待去噪视频帧，第二视频帧为参考视频帧；根据第一位姿信息和第二位姿信息，对第一视频帧与第二视频帧进行运动估计，得到第一运动估计信息，第一运动估计信息包括第一视频帧中像素与第二视频帧中像素的运动变化量；根据第一运动估计信息，对第一视频帧进行去噪处理。由于电子设备可以基于待去噪视频帧和参考视频帧的位姿信息，对待去噪视频帧和参考视频帧进行运动估计，得到第一视频帧中像素与第二视频帧中像素的运动变化量，即运动估计信息，然后电子设备可以根据视频帧中像素的运动变化量，对第一视频帧进行去噪处理。因此，电子设备可以充分利用来自位姿信息的运动估计信息，使得电子设备在对视频帧进行去噪时可以得到更高质量的处理结果，并减少了电子设备在对视频帧进行去噪时产生的的计算量，节省了电子设备的功耗，如此，电子设备可以得到更加优良的视频去噪效果。

本申请实施例提供的视频去噪方法可以通过下述的两个实施例实现：

实施例一

图4示出了本申请实施例一提供的结合位姿信息的块匹配时空视频去噪方法流程图，如图1所示，本申请实施例一提供的视频去噪方法可以包括下述的步骤11至步骤14。

步骤11、电子设备获取目标视频的图像与6DoF序列信息，并计算每帧图像对应的6DoF信息。

步骤12、电子设备利用对极几何模型进行2D图像像素运动估计。

可选地，本申请实施例中，电子设备可以采用对极几何模型将移动设备在3D空间的位姿变化投影到2D图像空间进行位姿估计，且上述步骤12具体可以通过下述的步骤12a至步骤12c实现。

步骤12a、电子设备利用特征点提取算子，如SIFT、FAST、SURF等，提取图像特征点，以特征描述符的方式进行描述。

步骤12b、电子设备利用汉明距离等距离算子对前后两帧图像做特征点匹配。

步骤12c、电子设备利用对极几何模型，计算像素(u，v)在图像空间的位移量(Δu，Δv)，即得到运动估计信息。

步骤13、电子设备基于运动估计结果执行快速块匹配策略，完成对来自位姿的运动估计信息的融合。

步骤14、电子设备利用匹配到的图像块，执行时空非局部均值滤波去噪。

实施例二

图5示出了本申请实施例二提供的结合位姿信息的神经网络视频去噪方法流程图，如图5所示，本申请实施例二提供的视频去噪方法可以包括下述的步骤21至步骤24。

步骤21、电子设备获取目标视频的图像与6DoF序列信息，并计算每帧图像对应的6DoF信息。

步骤22、电子设备利用对极几何模型进行2D图像像素运动估计。

可选地，本申请实施例中，电子设备可以采用对极几何模型进行2D图像像素运动估计，且上述步骤22具体可以通过下述的步骤22a至步骤22c实现。

步骤22a、电子设备利用CNN提取图像特征向量。

步骤22b、电子设备利用测度网络对不同图像块进行距离判别，从而完成基于块的特征点匹配。

步骤22c、电子设备利用对极几何模型，计算像素在图像空间的位移量，得到运动估计信息。

步骤23、电子设备构建运动估计信息编码网络。

步骤24、电子设备融合运动估计信息，利用UNet进行时空视频去噪。

需要说明的是，在本实施例中，电子设备不仅可以处理前后两帧图像，而且可以处理连续多帧图像，若为多帧图像，则对于步骤23，电子设备需要堆叠多个相邻帧的运动估计信息；对于步骤24，则需要堆叠多帧图像。

本申请实施例提供的视频去噪方法，执行主体可以为视频去噪装置。本申请实施例中以视频去噪装置执行视频去噪方法为例，说明本申请实施例提供的视频去噪装置。

图6示出了本申请实施例中涉及的视频去噪装置的一种可能的结构示意图。如图6所示，该视频去噪装置60可以包括：获取模块61和处理模块62。

其中，获取模块61，用于获取第一视频帧的第一位姿信息和第二视频帧的第二位姿信息，第一视频帧为待去噪视频帧，第二视频帧为参考视频帧。处理模块62，用于根据获取模块61获取的第一位姿信息和第二位姿信息，对第一视频帧与第二视频帧进行运动估计，得到第一运动估计信息，第一运动估计信息包括第一视频帧中像素与第二视频帧中像素的运动变化量；根据第一运动估计信息，对第一视频帧进行去噪处理。

本申请实施例提供一种视频去噪装置，由于电子设备可以基于待去噪视频帧和参考视频帧的位姿信息，对待去噪视频帧和参考视频帧进行运动估计，得到第一视频帧中像素与第二视频帧中像素的运动变化量，即运动估计信息，然后电子设备可以根据视频帧中像素的运动变化量，对第一视频帧进行去噪处理。因此，电子设备可以充分利用来自位姿信息的运动估计信息，使得电子设备在对视频帧进行去噪时可以得到更高质量的处理结果，并减少了电子设备在对视频帧进行去噪时产生的的计算量，节省了电子设备的功耗，如此，电子设备可以得到更加优良的视频去噪效果。

在一种可能实现的方式中，第一视频帧包括至少一个第一像素，第二视频帧包括至少一个第二像素；处理器模块62，具体用于根据第一位姿信息、第二位姿信息和目标内参，计算与第一目标像素匹配的第二目标像素，第一目标像素为至少一个第一像素中的像素，第二目标像素为至少一个第二像素中的像素，目标内参为采集第一视频帧和第二视频帧的相机内参；计算第一目标像素和第二目标像素的目标像素位移量，得到第一运动估计信息。

在一种可能实现的方式中，处理模块62，具体用于根据第一运动估计信息，计算与第三像素匹配的第四像素，第三像素为第一视频帧中的像素，第四像素为第二视频帧中的像素；基于块匹配策略在第一视频帧中搜索与第三像素匹配的至少一个第五像素；根据第四像素和至少一个第五像素，对第一视频帧中的第三像素进行时空滤波去噪处理。

在一种可能实现的方式中，处理模块62，具体用于基于卷积神经网络，对第一运动估计信息进行编码处理，得到编码运动估计信息；将第一视频帧和第二视频帧进行堆叠处理，得到视频帧矩阵；基于卷积神经网络，对视频帧矩阵进行编码处理，得到编码图像信息；将编码运动估计信息和编码图像信息进行融合处理，得到目标编码信息，对目标编码信息进行解码处理，得到第四视频帧，第四视频帧为第一视频帧去噪处理后得到的视频帧。

在一种可能实现的方式中，处理模块62，还用于获取至少一个第三视频帧的至少一个第三位姿信息，每一第三视频帧对应一个第三位姿信息；根据至少一个第三位姿信息和第一位姿信息，对第一视频帧与至少一个第三视频帧进行运动估计，得到至少一个第二运动估计信息。处理模块62，具体用于根据第一运动估计信息和至少一个第二运动估计信息，对第一视频帧进行去噪处理。

本申请实施例中的视频去噪装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的视频去噪装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的视频去噪装置能够实现图1至图3的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图7所示，本申请实施例还提供一种电子设备900，包括处理器901和存储器902，存储器902上存储有可在所述处理器901上运行的程序或指令，该程序或指令被处理器901执行时实现上述视频去噪方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图8为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。

本领域技术人员可以理解，电子设备100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图8中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器110，用于获取第一视频帧的第一位姿信息和第二视频帧的第二位姿信息，第一视频帧为待去噪视频帧，第二视频帧为参考视频帧；根据第一位姿信息和第二位姿信息，对第一视频帧与第二视频帧进行运动估计，得到第一运动估计信息，第一运动估计信息包括第一视频帧中像素与第二视频帧中像素的运动变化量；根据第一运动估计信息，对第一视频帧进行去噪处理。

本申请实施例提供一种电子设备，电子设备可以基于待去噪视频帧和参考视频帧的位姿信息，对待去噪视频帧和参考视频帧进行运动估计，得到第一视频帧中像素与第二视频帧中像素的运动变化量，即运动估计信息，然后电子设备可以根据视频帧中像素的运动变化量，对第一视频帧进行去噪处理。因此，电子设备可以充分利用来自位姿信息的运动估计信息，使得电子设备在对视频帧进行去噪时可以得到更高质量的处理结果，并减少了电子设备在对视频帧进行去噪时产生的的计算量，节省了电子设备的功耗，如此，电子设备可以得到更加优良的视频去噪效果。

可选地，本申请实施例中，第一视频帧包括至少一个第一像素，第二视频帧包括至少一个第二像素；处理器110具体用于根据第一位姿信息、第二位姿信息和目标内参，计算与第一目标像素匹配的第二目标像素，第一目标像素为至少一个第一像素中的像素，第二目标像素为至少一个第二像素中的像素，目标内参为采集第一视频帧和第二视频帧的相机内参；计算第一目标像素和第二目标像素的目标像素位移量，得到第一运动估计信息。

可选地，本申请实施例中，处理器110具体用于根据第一运动估计信息，计算与第三像素匹配的第四像素，第三像素为第一视频帧中的像素，第四像素为第二视频帧中的像素；基于块匹配策略在第一视频帧中搜索与第三像素匹配的至少一个第五像素；根据第四像素和至少一个第五像素，对第一视频帧中的第三像素进行时空滤波去噪处理。

可选地，本申请实施例中，处理器110具体用于基于卷积神经网络，对第一运动估计信息进行编码处理，得到编码运动估计信息；将第一视频帧和第二视频帧进行堆叠处理，得到视频帧矩阵；基于卷积神经网络，对视频帧矩阵进行编码处理，得到编码图像信息；将编码运动估计信息和编码图像信息进行融合处理，得到目标编码信息，对目标编码信息进行解码处理，得到第四视频帧，第四视频帧为第一视频帧去噪处理后得到的视频帧。

可选地，本申请实施例中，处理器110还用于获取至少一个第三视频帧的至少一个第三位姿信息，每一第三视频帧对应一个第三位姿信息；根据至少一个第三位姿信息和第一位姿信息，对第一视频帧与至少一个第三视频帧进行运动估计，得到至少一个第二运动估计信息；处理器110具体用于根据第一运动估计信息和至少一个第二运动估计信息，对第一视频帧进行去噪处理。

应理解的是，本申请实施例中，输入单元104可以包括图形处理器(GraphicsProcessing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071，也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器109可以包括易失性存储器或非易失性存储器，或者，存储器109可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。

处理器110可包括一个或多个处理单元；可选的，处理器110集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述视频去噪方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述视频去噪方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述视频去噪方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种视频去噪方法，其特征在于，包括：

获取第一视频帧的第一位姿信息和第二视频帧的第二位姿信息，所述第一视频帧为待去噪视频帧，所述第二视频帧为参考视频帧；

根据所述第一位姿信息和第二位姿信息，对所述第一视频帧与所述第二视频帧进行运动估计，得到第一运动估计信息，所述第一运动估计信息包括所述第一视频帧中像素与第二视频帧中像素的运动变化量；

根据所述第一运动估计信息，对所述第一视频帧进行去噪处理。

2.根据权利要求1所述的方法，其特征在于，所述第一视频帧包括至少一个第一像素，所述第二视频帧包括至少一个第二像素；

所述根据所述第一位姿信息和第二位姿信息，对所述第一视频帧与所述第二视频帧进行运动估计，得到第一运动估计信息，包括：

根据所述第一位姿信息、所述第二位姿信息和目标内参，计算与第一目标像素匹配的第二目标像素，所述第一目标像素为所述至少一个第一像素中的像素，所述第二目标像素为所述至少一个第二像素中的像素，所述目标内参为采集所述第一视频帧和所述第二视频帧的相机内参；

计算所述第一目标像素和所述第二目标像素的目标像素位移量，得到第一运动估计信息。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一运动估计信息，对所述第一视频帧进行去噪处理，包括：

根据所述第一运动估计信息，计算与第三像素匹配的第四像素，所述第三像素为所述第一视频帧中的像素，所述第四像素为所述第二视频帧中的像素；

基于块匹配策略在所述第一视频帧中搜索与所述第三像素匹配的至少一个第五像素；

根据所述第四像素和所述至少一个第五像素，对所述第一视频帧中的所述第三像素进行时空滤波去噪处理。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一运动估计信息，对所述第一视频帧进行去噪处理，包括：

基于卷积神经网络，对所述第一运动估计信息进行编码处理，得到编码运动估计信息；

将所述第一视频帧和所述第二视频帧进行堆叠处理，得到视频帧矩阵；

基于卷积神经网络，对所述视频帧矩阵进行编码处理，得到编码图像信息；

将所述编码运动估计信息和所述编码图像信息进行融合处理，得到目标编码信息，对所述目标编码信息进行解码处理，得到第四视频帧，所述第四视频帧为所述第一视频帧去噪处理后得到的视频帧。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取至少一个第三视频帧的至少一个第三位姿信息，每一所述第三视频帧对应一个所述第三位姿信息；

根据所述至少一个第三位姿信息和第一位姿信息，对所述第一视频帧与所述至少一个第三视频帧进行运动估计，得到至少一个第二运动估计信息；

所述根据所述第一运动估计信息，对所述第一视频帧进行去噪处理包括：

根据所述第一运动估计信息和所述至少一个第二运动估计信息，对所述第一视频帧进行去噪处理。

6.一种视频去噪装置，其特征在于，所述装置包括：获取模块、处理模块；

所述获取模块，用于获取第一视频帧的第一位姿信息和第二视频帧的第二位姿信息，所述第一视频帧为待去噪视频帧，所述第二视频帧为参考视频帧；

所述处理模块，用于根据所述获取模块获取的所述第一位姿信息和第二位姿信息，对所述第一视频帧与所述第二视频帧进行运动估计，得到第一运动估计信息，所述第一运动估计信息包括所述第一视频帧中像素与第二视频帧中像素的运动变化量；并根据所述第一运动估计信息，对所述第一视频帧进行去噪处理。

7.根据权利要求6所述的装置，其特征在于，

所述处理模块，具体用于根据所述第一运动估计信息，计算与第三像素匹配的第四像素，所述第三像素为所述第一视频帧中的像素，所述第四像素为所述第二视频帧中的像素；基于块匹配策略在所述第一视频帧中搜索与所述第三像素匹配的至少一个第五像素；并根据所述第四像素和所述至少一个第五像素，对所述第一视频帧中的所述第三像素进行时空滤波去噪处理。

8.根据权利要求6所述的装置，其特征在于，

所述处理模块，具体用于基于卷积神经网络，对所述第一运动估计信息进行编码处理，得到编码运动估计信息；将所述第一视频帧和所述第二视频帧进行堆叠处理，得到视频帧矩阵；基于卷积神经网络，对所述视频帧矩阵进行编码处理，得到编码图像信息；并将所述编码运动估计信息和所述编码图像信息进行融合处理，得到目标编码信息，对所述目标编码信息进行解码处理，得到第四视频帧，所述第四视频帧为所述第一视频帧去噪处理得到的视频帧。

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至5中任一项所述的视频去噪方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至5中任一项所述的视频去噪方法的步骤。