CN109074633A

CN109074633A - 视频处理方法、设备、无人机及计算机可读存储介质

Info

Publication number: CN109074633A
Application number: CN201780025247.0A
Authority: CN
Inventors: 肖瑾; 曹子晟; 胡攀
Original assignee: Shenzhen Dajiang Innovations Technology Co Ltd
Current assignee: Shenzhen Dajiang Innovations Technology Co Ltd
Priority date: 2017-10-18
Filing date: 2017-10-18
Publication date: 2018-12-21
Anticipated expiration: 2037-10-18
Also published as: CN109074633B; WO2019075669A1; US20200244842A1

Abstract

本发明实施例提供一种视频处理方法、设备、无人机及计算机可读存储介质，该方法包括：将第一视频输入神经网络，所述神经网络的训练集包括第一训练视频和第二训练视频，所述第一训练视频包括至少一个第一时空域立方体，所述第二训练视频包括至少一个第二时空域立方体；利用所述神经网络对所述第一视频进行去噪处理以生成第二视频；以及输出所述第二视频。本发明实施例相比于现有技术中基于运动估计的视频去噪方法，提高了视频去噪的计算复杂度，相比于现有技术中无需运动估计的视频去噪方法，提高了视频去噪的效果。

Description

视频处理方法、设备、无人机及计算机可读存储介质

技术领域

本发明实施例涉及无人机领域，尤其涉及一种视频处理方法、设备、无人机及计算机可读存储介质。

背景技术

随着数码产品如相机、摄像头的普及，视频已经广泛的运用于日常生活中,但是噪声在视频的拍摄过程中依旧是不可避免的，噪声直接影响了视频的质量。

为了去除视频中的噪声，现有技术中对视频的去噪方法包括：基于运动估计的视频去噪方法和无需运动估计的视频去噪方法。但是，基于运动估计的视频去噪方法的计算复杂度高，无需运动估计的视频去噪方法的去噪效果不理想。

发明内容

本发明实施例提供一种视频处理方法、设备、无人机及计算机可读存储介质，以提高对视频去噪的去噪效果。

本发明实施例的第一方面是提供一种视频处理方法，包括：

将第一视频输入神经网络，所述神经网络的训练集包括第一训练视频和第二训练视频，所述第一训练视频包括至少一个第一时空域立方体，所述第二训练视频包括至少一个第二时空域立方体；

利用所述神经网络对所述第一视频进行去噪处理以生成第二视频；以及

输出所述第二视频。

本发明实施例的第二方面是提供一种视频处理设备，包括一个或多个处理器，单独或协同工作，所述一个或多个处理器用于：

输出所述第二视频。

本发明实施例的第三方面是提供一种无人机，包括：机身；

动力系统，安装在所述机身，用于提供飞行动力；

以及如第二方面所述的视频处理设备。

本发明实施例的第四方面是提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被一个或多个处理器执行时实现以下步骤：

输出所述第二视频。

本实施例提供的视频处理方法、设备、无人机及计算机可读存储介质，通过将原始的带有噪声的第一视频输入到预先训练成的神经网络中，该神经网络是通过干净的第一训练视频包括的至少一个第一时空域立方体和加噪的第二训练视频包括的至少一个第二时空域立方体训练得到的，通过该神经网络对第一视频进行去噪处理以生成第二视频，相比于现有技术中基于运动估计的视频去噪方法，提高了视频去噪的计算复杂度，相比于现有技术中无需运动估计的视频去噪方法，提高了视频去噪的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视频处理方法的流程图；

图2为本发明实施例提供的第一训练视频的示意图；

图3为本发明实施例提供的第一训练视频中图像帧的分解示意图；

图4为本发明实施例提供的一种第一时空域立方体的划分示意图；

图5为本发明实施例提供的另一种第一时空域立方体的划分示意图；

图6为本发明实施例提供的第一训练视频被划分为多个第一时空域立方体的示意图；

图7为本发明另一实施例提供的视频处理方法的流程图；

图8为本发明另一实施例提供的视频处理方法的流程图；

图9为本发明另一实施例提供的第一均值图像的示意图；

图10为本发明另一实施例提供的对第一时空域立方体进行稀疏处理的示意图；

图11为本发明另一实施例提供的视频处理方法的流程图；

图12为本发明另一实施例提供的视频处理方法的流程图；

图13为本发明实施例提供的视频处理设备的结构图；

图14为本发明实施例提供的无人机的结构图。

附图标记：

20-第一训练视频 21-图像帧 22-图像帧

23-图像帧 24-图像帧 25-图像帧 2n-图像帧

211-子图像 212-子图像 213-子图像 214-子图像

221-子图像 222-子图像 223-子图像 224-子图像

231-子图像 232-子图像 233-子图像 234-子图像

241-子图像 242-子图像 243-子图像 244-子图像

251-子图像 252-子图像 253-子图像 254-子图像

2n1-子图像 2n2-子图像 2n3-子图像 2n4-子图像

41-第一时空域立方体 42-第一时空域立方体

43-第一时空域立方体 44-第一时空域立方体

51-子图像 52-子图像 53-子图像 54-子图像

55-子图像 56-子图像 57-子图像 58-子图像

59-子图像 60-子图像 61-第一时空域立方体

62-第一时空域立方体 90-第一均值图像

510-子图像 530-子图像 550-子图像 570-子图像 590-子图像

130-视频处理设备 131-一个或多个处理器 100-无人机

107-电机 106-螺旋桨 117-电子调速器

118-飞行控制器 108-传感系统 110-通信系统

102-支撑设备 104-拍摄设备 112-地面站

114-天线 116-电磁波 109-视频处理设备

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，当组件被称为“固定于”另一个组件，它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“连接”另一个组件，它可以是直接连接到另一个组件或者可能同时存在居中组件。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

本发明实施例提供一种视频处理方法。图1为本发明实施例提供的视频处理方法的流程图。本实施例的执行主体可以是视频处理设备，该视频处理设备可以设置在无人机，也可以设置在地面站，地面站具体可以是遥控器、智能手机、平板电脑、地面控制站、膝上型电脑、手表、手环等及其组合。在其他实施例中，该视频处理设备还可以直接设置在拍摄设备，例如手持云台、数码相机、摄像机等。具体的，如果视频处理设备设置在无人机，则该视频处理设备可以对无人机搭载的拍摄设备拍摄到的视频进行处理。如果视频处理设备设置在地面站，地面站可以接收无人机无线传输的视频数据，该视频处理设备对地面站接收到的视频数据进行处理。再或者，用户手持拍摄设备，拍摄设备内的视频处理设备对该拍摄设备拍摄到的视频进行处理。本实施例并不限定具体的应用场景。下面对视频处理方法进行详细介绍。

如图1所示，本实施例提供的视频处理方法，可以包括：

步骤S101、将第一视频输入神经网络，所述神经网络的训练集包括第一训练视频和第二训练视频，所述第一训练视频包括至少一个第一时空域立方体，所述第二训练视频包括至少一个第二时空域立方体。

在本实施例中，第一视频可以是无人机搭载的拍摄设备拍摄的视频，也可以是地面站例如智能手机、平板电脑等拍摄的视频，还可以是用户所持的拍摄设备例如手持云台、数码相机、摄像机等拍摄的视频，其中，第一视频是带有噪声的视频，视频处理设备需要对第一视频进行去噪处理，具体的，视频处理设备将第一视频输入到预先训练成的神经网络中，可以理解的是，视频处理设备将第一视频输入神经网络之前，已根据第一训练视频和第二训练视频训练成所述神经网络。视频处理设备根据第一训练视频和第二训练视频训练所述神经网络的过程将在后续的实施例中详细介绍，下面详细介绍一下所述神经网络的训练集。

所述神经网络的训练集包括第一训练视频和第二训练视频，所述第一训练视频包括至少一个第一时空域立方体，所述第二训练视频包括至少一个第二时空域立方体。

可选的，第一训练视频为无噪声视频，所述第二训练视频为噪声视频。也就是说第一训练视频为干净视频，第二训练视频为噪声视频。具体的，第一训练视频可以为无压缩的高清视频，第二训练视频可以是在无压缩的高清视频中添加噪声后的视频。

具体的，所述第一时空域立方体包括多个第一子图像，所述多个第一子图像来自所述第一训练视频中相邻的多个第一视频帧，一个第一子图像来自一个第一视频帧，每个第一子图像在第一视频帧中的位置相同。

如图2所示，20表示第一训练视频，第一训练视频20中包括多帧图像，本实施例不限定第一训练视频20包括的图像的帧数，如图2所示，图像帧21、图像帧22、图像帧23只是第一训练视频20中任意的相邻的三帧图像。

如图3所示，假设将图像帧21分成4个子图像，例如子图像211、子图像212、子图像213、子图像214；将图像帧22分成4个子图像，例如子图像221、子图像222、子图像223、子图像224；将图像帧23分成4个子图像，例如子图像231、子图像232、子图像233、子图像234，不失一般性，第一训练视频20包括n帧图像，最后一帧图像表示为2n。依次类推可以将第一训练视频20中的每个图像帧分解成4个子图像，直至将图像帧2n分成4个子图像，例如子图像2n1、子图像2n2、子图像2n3、子图像2n4。此处只是示意性说明，并不限定每个图像帧可以分解成的子图像的个数。

根据图3可知，子图像211在图像帧21中的位置、子图像221在图像帧22中的位置以及子图像231在图像帧23中的位置相同，可选的，将第一训练视频20中相邻的若干图像帧中位置相同的子图像构成一个集合，该集合记为第一时空域立方体，此处的第一时空域立方体是为了和后续的第二训练视频包括的第二时空域立方体进行区分。例如将第一训练视频20中每相邻5帧图像中位置相同的子图像构成一个集合，如图4所示，图像帧21-25是相邻的5帧图像，来自图像帧21-25相同位置的子图像211、子图像221、子图像231、子图像241、子图像251构成一个第一时空域立方体41；来自图像帧21-25相同位置的子图像212、子图像222、子图像232、子图像242、子图像252构成一个第一时空域立方体42；来自图像帧21-25相同位置的子图像213、子图像223、子图像233、子图像243、子图像253构成一个第一时空域立方体43；来自图像帧21-25相同位置的子图像214、子图像224、子图像234、子图像244、子图像254构成一个第一时空域立方体44。此处只是示意性说明，并不限定一个第一时空域立方体中包括的子图像的个数。

在其他实施例中，第一训练视频20中的每个图像帧可以不完全被划分成多个子图像，如图5所示，图像帧21-25是相邻的5帧图像，只在每个图像帧中分别截取两个二维矩形块，例如只在图像帧21上截取两个二维矩形块作为子图像51和子图像52，并没有像图3或图4所示，将整个图像帧21划分成4个子图像。此处只是示意性说明，并不限定从一个图像帧中截取出的二维矩形块的个数。同理，在图像帧22上截取两个二维矩形块作为子图像53和子图像54；在图像帧23上截取两个二维矩形块作为子图像55和子图像56；在图像帧24上截取两个二维矩形块作为子图像57和子图像58；在图像帧25上截取两个二维矩形块作为子图像59和子图像60。来自图像帧21-25相同位置的子图像51、子图像53、子图像55、子图像57、子图像59构成一个第一时空域立方体61；来自图像帧21-25相同位置的子图像52、子图像54、子图像56、子图像58、子图像60构成一个第一时空域立方体62。此处只是示意性说明，并不限定一个第一时空域立方体中包括的子图像的个数。

同理于图4或图5所示的第一时空域立方体的划分方法，可以从如图2所示的第一训练视频20中划分出多个第一时空域立方体，如图6所示，第一时空域立方体A只是从第一训练视频20中划分出的多个第一时空域立方体中的一个。本实施例不限定第一训练视频20中包括的第一时空域立方体的个数，也不限定每个第一时空域立方体包括的子图像的个数，也不限定从图像帧中截取或划分子图像的方法。

不失一般性，假设第一训练视频20表示为X，X_t表示第一训练视频20中的第t帧图像，1≤t≤n，x_t(i,j)表示第t帧图像中的一个子图像，(i,j)表示该子图像在第t帧图像中的位置，也就是说x_t(i,j)表示从干净的第一训练视频20中截取的一个二维矩形块，(i,j)表示二维矩形块的空域索引，t表示二维矩形块的时域索引。将第一训练视频20中相邻的若干图像帧中位置相同、大小相同的子图像构成一个集合，该集合记为第一时空域立方体，第一时空域立方体V_x表示为如下公式(1)：

根据公式(1)可知，第一时空域立方体V_x中包括2h+1个子图像。也就是说将第一训练视频20中相邻的2h+1个图像帧中位置相同、大小相同的子图像构成一个集合，时域索引t0-h,...,t0,...,t0+h和空域索引(i,j)决定了第一时空域立方体V_x在第一训练视频20中的位置，根据时域索引和/或空域索引的不同，可从第一训练视频20中划分出多个不同的第一时空域立方体。

所述第二时空域立方体包括多个第二子图像，所述多个第二子图像来自所述第二训练视频中相邻的多个第二视频帧，一个第二子图像来自一个第二视频帧，每个第二子图像在第二视频帧中的位置相同。假设第二训练视频表示为Y，Y_t表示第二训练视频中的第t帧图像，y_t(i,j)表示第二训练视频中第t帧图像中的一个子图像，(i,j)表示该子图像在第t帧图像中的位置，也就是说y_t(i,j)表示从添加有噪声的第二训练视频中截取的一个二维矩形块，(i,j)表示二维矩形块的空域索引，t表示二维矩形块的时域索引。将第二训练视频中相邻的若干图像帧中位置相同、大小相同的子图像构成一个集合，该集合记为第二时空域立方体，第二时空域立方体的划分原理和过程和第一时空域立方体的划分原理和过程一致，此处不再赘述。

具体的，视频处理设备根据第一训练视频包括的至少一个第一时空域立方体，以及第二训练视频包括的至少一个第二时空域立方体训练所述神经网络，训练所述神经网络的过程将在后续的实施例中详细介绍。

步骤S102、利用所述神经网络对所述第一视频进行去噪处理以生成第二视频。

视频处理设备将第一视频也就是有噪声的原始视频输入到预先训练成的神经网络中，利用该神经网络对第一视频进行去噪处理，也就是说通过该神经网络去除第一视频中的噪声得到干净的第二视频。

步骤S103、输出所述第二视频。

视频处理设备进一步输出干净的第二视频。例如，第一视频是无人机搭载的拍摄设备拍摄的视频，视频处理设备设置在无人机，则第一视频经过视频处理设备的处理可转换为干净的第二视频。无人机可进一步通过通信系统将干净的第二视频发送给地面站，以供用户观赏。

本实施例通过将原始的带有噪声的第一视频输入到预先训练成的神经网络中，该神经网络是通过干净的第一训练视频包括的至少一个第一时空域立方体和加噪的第二训练视频包括的至少一个第二时空域立方体训练得到的，通过该神经网络对第一视频进行去噪处理以生成第二视频，相比于现有技术中基于运动估计的视频去噪方法，提高了视频去噪的计算复杂度，相比于现有技术中无需运动估计的视频去噪方法，提高了视频去噪的效果。

本发明实施例提供一种视频处理方法。图7为本发明另一实施例提供的视频处理方法的流程图。如图7所示，在图1所示实施例的基础上，步骤S101将第一视频输入神经网络之前，还包括：根据第一训练视频和第二训练视频训练所述神经网络。具体的，根据第一训练视频和第二训练视频训练所述神经网络包括如下步骤：

步骤S701、根据第一训练视频包括的至少一个第一时空域立方体训练局部先验模型。

具体的，步骤S701根据第一训练视频包括的至少一个第一时空域立方体训练局部先验模型，包括如图8所示的步骤S7011和步骤S7012：

步骤S7011、对第一训练视频包括的至少一个第一时空域立方体中的每个第一时空域立方体分别进行稀疏处理。

具体的，所述对第一训练视频包括的至少一个第一时空域立方体中的每个第一时空域立方体分别进行稀疏处理，包括：根据所述第一时空域立方体包括的多个第一子图像，确定第一均值图像，所述第一均值图像中每个位置的像素值是所述多个第一子图像中每个第一子图像在所述位置的像素值的平均值；将所述第一时空域立方体包括的多个第一子图像中的每个第一子图像在所述位置的像素值减去所述第一均值图像中所述位置的像素值。

如图5所示，来自图像帧21-25相同位置的子图像51、子图像53、子图像55、子图像57、子图像59构成一个第一时空域立方体61。以第一时空域立方体61为例，第一时空域立方体61包括子图像51、子图像53、子图像55、子图像57、子图像59，由于子图像51、子图像53、子图像55、子图像57、子图像59大小相同，假设均为2*2，此处只是示意性说明，并不限定各子图像的大小。也就是说，子图像51、子图像53、子图像55、子图像57、子图像59分别为2行2列的二维矩形块，如图9所示，假设子图像51的4个像素点的像素值分别为h11、h12、h13、h14；子图像53的4个像素点的像素值分别为h31、h32、h33、h34；子图像55的4个像素点的像素值分别为h51、h52、h53、h54；子图像57的4个像素点的像素值分别为h71、h72、h73、h74；子图像59的4个像素点的像素值分别为h91、h92、h93、h94。进一步的，计算子图像51、子图像53、子图像55、子图像57、子图像59的第1行第1列的像素值的平均值得到H1，即H1等于h11、h31、h51、h71、h91的平均值，同理，计算子图像51、子图像53、子图像55、子图像57、子图像59的第1行第2列的像素值的平均值得到H2，即H2等于h12、h32、h52、h72、h92的平均值；计算子图像51、子图像53、子图像55、子图像57、子图像59的第2行第1列的像素值的平均值得到H3，即H3等于h13、h33、h53、h73、h93的平均值；计算子图像51、子图像53、子图像55、子图像57、子图像59的第2行第2列的像素值的平均值得到H4，即H4等于h14、h34、h54、h74、h94的平均值。H1、H2、H3、H4构成第一均值图像90，即第一均值图像90中每个位置的像素值是子图像51、子图像53、子图像55、子图像57、子图像59中相同位置的像素值的平均值。

进一步的，如图10所示，将子图像51中各位置的像素值减去第一均值图像90中相同位置的像素值得到新的子图像510，即将子图像51的h11减去第一均值图像90的H1得到H11，将子图像51的h12减去第一均值图像90的H2得到H12，将子图像51的h13减去第一均值图像90的H3得到H13，子图像51的h14减去第一均值图像90的H4得到H14。H11、H12、H13、H14构成新的子图像510。同理，将子图像53中各位置的像素值减去第一均值图像90中相同位置的像素值得到新的子图像530，子图像530包括像素值H31、H32、H33、H34。将子图像55中各位置的像素值减去第一均值图像90中相同位置的像素值得到新的子图像550，子图像550包括像素值H51、H52、H53、H54。将子图像57中各位置的像素值减去第一均值图像90中相同位置的像素值得到新的子图像570，子图像570包括像素值H71、H72、H73、H74。将子图像59中各位置的像素值减去第一均值图像90中相同位置的像素值得到新的子图像590，子图像590包括像素值H91、H92、H93、H94。

如图5所示，子图像51、子图像53、子图像55、子图像57、子图像59分别来自相邻的图像帧21-25，而相邻的图像帧之间的关联性或相似性较强。如图9所示，根据子图像51、子图像53、子图像55、子图像57、子图像59计算出第一均值图像90。如图10所示，再将子图像51、子图像53、子图像55、子图像57、子图像59中的每一个子图像分别减去第一均值图像90后得到子图像510、子图像530、子图像550、子图像570、子图像590。子图像510、子图像530、子图像550、子图像570、子图像590之间的关联性或相似性较低，因此由子图像510、子图像530、子图像550、子图像570、子图像590构成的时空域立方体要比子图像51、子图像53、子图像55、子图像57、子图像59构成的第一时空域立方体61具有更强的稀疏性，即由子图像510、子图像530、子图像550、子图像570、子图像590构成的时空域立方体是对第一时空域立方体61进行稀疏处理后的第一时空域立方体。

如图6所示，第一训练视频20中包括多个第一时空域立方体，需要对多个第一时空域立方体中的每个第一时空域立方体进行稀疏处理，具体的，对多个第一时空域立方体中的每个第一时空域立方体进行稀疏处理的原理和过程与对第一时空域立方体61进行稀疏处理的原理和过程一致，此处不再赘述。

不失一般性，公式(1)表示的第一时空域立方体V_x中包括2h+1个子图像，根据第一时空域立方体V_x中包括的2h+1个子图像确定的第一均值图像表示为μ(i,j)，μ(i,j)的计算公式如下公式(2)所示：

对第一时空域立方体V_x进行稀疏处理后得到的时空域立方体表示为可表示为公式(3)：

步骤S7012、根据每个稀疏处理后的第一时空域立方体训练局部先验模型。

由于比V_x具有更强的稀疏性，因此，根据第一训练视频20中每个稀疏处理后的第一时空域立方体建模更容易，具体的，将第一训练视频20中每个稀疏处理后的第一时空域立方体中的每个二维矩形块构成一个列向量，例如，子图像510、子图像530、子图像550、子图像570、子图像590构成的时空域立方体是第一训练视频20中的一个稀疏处理后的第一时空域立方体，分别将子图像510、子图像530、子图像550、子图像570、子图像590各自的4个像素值构成一个4*1的列向量，得到5个4*1的列向量。同理，将第一训练视频20中其他的稀疏处理后的第一时空域立方体中的每个二维矩形块构成一个列向量，进一步采用混合高斯模型(Gaussian Mixture Model,简称GMM)对第一训练视频20中每个稀疏处理后的第一时空域立方体对应的列向量建模得到局部先验模型，该局部先验模型具体为局部时空先验(Local Volumetric Prior,简称LVP)模型，同时约束同一个稀疏处理后的第一时空域立方体中的所有二维矩形块属于同一个高斯类。从而得到如下公式(4)所示的似然函数

其中，K表示高斯类的个数，k表示第k个高斯类，π_k表示第k个高斯类的权重，μ_k表示第k个高斯类的均值，Σ_k表示第k个高斯类的协方差矩阵，N表示概率密度函数。

进一步的，对每个高斯类的协方差矩阵Σ_k进行奇异值分解，得到正交字典D_k，正交字典D_k和协方差矩阵Σ_k之间的关系如公式(5)所示：

其中，正交字典D_k是由协方差矩阵Σ_k的特征向量组成的，Λ_k表示特征值矩阵。

步骤S702、根据所述局部先验模型对第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行初始去噪处理，得到初始去噪后的第二训练视频。

具体的，步骤S702根据所述局部先验模型对第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行初始去噪处理，包括如图11所示的步骤S7021和步骤S7022：

步骤S7021、对第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行稀疏处理。

具体的，所述对第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行稀疏处理，包括：根据所述第二时空域立方体包括的多个第二子图像，确定第二均值图像，所述第二均值图像中每个位置的像素值是所述多个第二子图像中每个第二子图像在所述位置的像素值的平均值；将所述第二时空域立方体包括的多个第二子图像中的每个第二子图像在所述位置的像素值减去所述第二均值图像中所述位置的像素值。

假设第二训练视频表示为Y，Y_t表示第二训练视频中的第t帧图像，y_t(i,j)表示第二训练视频中第t帧图像中的一个子图像，(i,j)表示该子图像在第t帧图像中的位置，也就是说y_t(i,j)表示从添加有噪声的第二训练视频中截取的一个二维矩形块，(i,j)表示二维矩形块的空域索引，t表示二维矩形块的时域索引。

将第二训练视频中相邻的若干图像帧中位置相同、大小相同的子图像构成一个集合，该集合记为第二时空域立方体V_y，第二训练视频Y可以被划分出多个第二时空域立方体V_y。第二时空域立方体的划分原理和过程和第一时空域立方体的划分原理和过程一致，此处不再赘述。不失一般性，一个第二时空域立方体V_y可以表示为如下公式(6)：

第二时空域立方体V_y中包括2l+1个子图像，该2l+1个子图像的第二均值图像表示为η(i,j)，η(i,j)的计算公式如下公式(7)所示：

进一步对第二时空域立方体V_y进行稀疏处理，稀疏处理后得到的第二时空域立方体表示为可表示为公式(8)：

稀疏处理后得到的第二时空域立方体比第二时空域立方体V_y具有更强的稀疏性。由于第二训练视频Y可以被划分出多个第二时空域立方体V_y，对每个第二时空域立方体V_y的稀疏处理过程均可以采用公式(7)、公式(8)的方法。

步骤S7022、根据所述局部先验模型对每个稀疏处理后的第二时空域立方体进行初始去噪处理。

具体的，根据步骤S7012确定出的局部先验模型对每个稀疏处理后的第二时空域立方体进行初始去噪处理得到初始去噪后的第二训练视频。

步骤S703、根据所述初始去噪后的第二训练视频和所述第一训练视频训练所述神经网络。

具体的，所述根据所述初始去噪后的第二训练视频和所述第一训练视频训练所述神经网络，包括：将所述初始去噪后的第二训练视频作为训练数据，将所述第一训练视频作为标签训练所述神经网络。可选的，以初始去噪后的第二训练视频作为训练数据、以第一训练视频作为标签训练出的神经网络是一个深度的神经网络。

本实施例通过干净的第一训练视频包括的至少一个第一时空域立方体训练局部先验模型，再根据训练出的局部先验模型对带有噪声的第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行初始去噪处理，得到初始去噪后的第二训练视频，最后将初始去噪后的第二训练视频作为训练数据，将干净的第一训练视频作为标签训练神经网络，该神经网络是一个深度的神经网络，深度的神经网络可提高对噪声视频的去噪效果。

本发明实施例提供一种视频处理方法。图12为本发明另一实施例提供的视频处理方法的流程图。如图12所示，在图7所示实施例的基础上，步骤S7022根据所述局部先验模型对每个稀疏处理后的第二时空域立方体进行初始去噪处理，可以包括如下步骤：

步骤S1201、根据所述局部先验模型确定所述稀疏处理后的第二时空域立方体所属的高斯类。

具体的，根据公式(4)所示的似然函数确定稀疏处理后得到的第二时空域立方体属于混合高斯模型中的哪一个高斯类。由于稀疏处理后得到的第二时空域立方体可以是多个，因此，根据公式(4)所示的似然函数确定每一个所属的高斯类。

步骤S1202、根据所述稀疏处理后的第二时空域立方体所属的高斯类，采用带权稀疏编码的方法对所述稀疏处理后的第二时空域立方体进行初始去噪处理。

具体的，根据所述稀疏处理后的第二时空域立方体所属的高斯类，采用带权稀疏编码的方法对所述稀疏处理后的第二时空域立方体进行初始去噪处理，包括如下步骤S12021和步骤S12022：

步骤S12021、根据所述稀疏处理后的第二时空域立方体所属的高斯类，确定所述高斯类的字典和特征值矩阵。

所述根据所述稀疏处理后的第二时空域立方体所属的高斯类，确定所述高斯类的字典和特征值矩阵，包括：对所述高斯类的协方差矩阵进行奇异值分解，得到所述高斯类的字典和特征值矩阵。

假设稀疏处理后得到的第二时空域立方体属于混合高斯模型中的第k个高斯类，根据上述公式(5)所述的对第k个高斯类的协方差矩阵Σ_k进行奇异值分解可确定出第k个高斯类的正交字典D_k和特征值矩阵Λ_k。

步骤S12022、根据所述高斯类的字典和特征值矩阵，采用带权稀疏编码的方法对所述稀疏处理后的第二时空域立方体进行初始去噪处理。

所述根据所述高斯类的字典和特征值矩阵，采用带权稀疏编码的方法对所述稀疏处理后的第二时空域立方体进行初始去噪处理，包括：根据所述特征值矩阵确定权值矩阵；根据高斯类的字典和所述权值矩阵，采用带权稀疏编码的方法对所述稀疏处理后的第二时空域立方体进行初始去噪处理。

进一步的，根据特征值矩阵Λ_k确定权值矩阵W。以稀疏处理后的第二时空域立方体中的一个子图像为例，根据第k个高斯类的正交字典D_k和权值矩阵W，采用带权稀疏编码的方法对进行初始去噪处理的方法如公式(9)和公式(10)所示：

其中，表示需要求的对进行初始去噪处理后的子图像，表示的估计值。进一步的，在的基础上再加上第二均值图像η(i,j)可得到对y_t(i,j)进行初始去噪处理后的子图像。y_t(i,j)是第二时空域立方体V_y中的一个子图像，是对第二时空域立方体V_y进行稀疏处理后y_t(i,j)对应的子图像，即y_t(i,j)减去η(i,j)可得到因此，当计算出对进行初始去噪处理后的子图像的估计值时，在的基础上再加上第二均值图像η(i,j)即可得到对y_t(i,j)进行初始去噪处理后的子图像。同理可计算出对第二时空域立方体V_y中每个子图像进行初始去噪处理后的子图像。由于第二训练视频Y可以被划分出多个第二时空域立方体V_y，因此采用前述方法可以对多个第二时空域立方体V_y中每一个第二时空域立方体V_y中的每个子图像进行初始去噪处理，从而得到初始去噪后的第二训练视频在初始去噪后的第二训练视频中，大量的噪声被抑制。

在本实施例中，为了能够学习视频全局的时空结构信息，设计一个感受野大小为35*35的神经网络，神经网络的输入为初始去噪后的第二训练视频的相邻帧恢复其最中间的一帧X_t0，由于大小3*3的卷积核在神经网络中得到了广泛运动，本实施例可以采用3*3的卷积核，并设计了17层的网络结构。在网络的第一层，由于输入是多帧，可以采用64个3*3*(2h+1)的卷积核，在网络的最后一层，为了重构出一张图像，可以采用3*3*64的卷积层。网络的中间15层，可以采用64个3*3*64的卷积层，网络的损失函数如下公式(11)所示：

其中，F表示神经网络，最小化损失函数可计算出参数Θ，从而确定出神经网络F。

可选的，本发明采用线性整流函数(ReLU)作为非线性层，并在卷积层和非线性层之间添加了归一化层。

本实施例通过局部先验模型确定稀疏处理后的第二时空域立方体所属的高斯类，根据所述稀疏处理后的第二时空域立方体所属的高斯类，采用带权稀疏编码的方法对稀疏处理后的第二时空域立方体进行初始去噪处理，实现了无需运动估计的局部时空先验辅助的深度神经网络视频去噪方法。

本发明实施例提供一种视频处理设备。图13为本发明实施例提供的视频处理设备的结构图，如图13所示，视频处理设备130包括一个或多个处理器131，单独或协同工作，一个或多个处理器131，用于：将第一视频输入神经网络，所述神经网络的训练集包括第一训练视频和第二训练视频，所述第一训练视频包括至少一个第一时空域立方体，所述第二训练视频包括至少一个第二时空域立方体；利用所述神经网络对所述第一视频进行去噪处理以生成第二视频；以及输出所述第二视频。

可选的，第一训练视频为无噪声视频，所述第二训练视频为噪声视频。

本发明实施例提供的视频处理设备的具体原理和实现方式均与图1所示实施例类似，此处不再赘述。

本发明实施例提供一种视频处理设备。在图13所示实施例提供的技术方案的基础上，一个或多个处理器131将第一视频输入神经网络之前，还用于：根据第一训练视频和第二训练视频训练所述神经网络。

具体的，一个或多个处理器131根据第一训练视频和第二训练视频训练所述神经网络时，具体用于：根据第一训练视频包括的至少一个第一时空域立方体训练局部先验模型；根据所述局部先验模型对第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行初始去噪处理，得到初始去噪后的第二训练视频；根据所述初始去噪后的第二训练视频和所述第一训练视频训练所述神经网络。

可选的，所述第一时空域立方体包括多个第一子图像，所述多个第一子图像来自所述第一训练视频中相邻的多个第一视频帧，一个第一子图像来自一个第一视频帧，每个第一子图像在第一视频帧中的位置相同。

一个或多个处理器131根据第一训练视频包括的至少一个第一时空域立方体训练局部先验模型时，具体用于：对第一训练视频包括的至少一个第一时空域立方体中的每个第一时空域立方体分别进行稀疏处理；根据每个稀疏处理后的第一时空域立方体训练局部先验模型。一个或多个处理器131对第一训练视频包括的至少一个第一时空域立方体中的每个第一时空域立方体分别进行稀疏处理时，具体用于：根据所述第一时空域立方体包括的多个第一子图像，确定第一均值图像，所述第一均值图像中每个位置的像素值是所述多个第一子图像中每个第一子图像在所述位置的像素值的平均值；将所述第一时空域立方体包括的多个第一子图像中的每个第一子图像在所述位置的像素值减去所述第一均值图像中所述位置的像素值。

可选的，所述第二时空域立方体包括多个第二子图像，所述多个第二子图像来自所述第二训练视频中相邻的多个第二视频帧，一个第二子图像来自一个第二视频帧，每个第二子图像在第二视频帧中的位置相同。

一个或多个处理器131根据所述局部先验模型对第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行初始去噪处理时，具体用于：对第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行稀疏处理；根据所述局部先验模型对每个稀疏处理后的第二时空域立方体进行初始去噪处理。一个或多个处理器131对第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行稀疏处理时，具体用于：根据所述第二时空域立方体包括的多个第二子图像，确定第二均值图像，所述第二均值图像中每个位置的像素值是所述多个第二子图像中每个第二子图像在所述位置的像素值的平均值；将所述第二时空域立方体包括的多个第二子图像中的每个第二子图像在所述位置的像素值减去所述第二均值图像中所述位置的像素值。

本发明实施例提供的视频处理设备的具体原理和实现方式均与图7、图8、图11所示实施例类似，此处不再赘述。

本发明实施例提供一种视频处理设备。在图7、图8、图11所示实施例提供的技术方案的基础上，一个或多个处理器131根据所述局部先验模型对每个稀疏处理后的第二时空域立方体进行初始去噪处理时，具体用于：根据所述局部先验模型确定所述稀疏处理后的第二时空域立方体所属的高斯类；根据所述稀疏处理后的第二时空域立方体所属的高斯类，采用带权稀疏编码的方法对所述稀疏处理后的第二时空域立方体进行初始去噪处理。

具体的，一个或多个处理器131根据所述稀疏处理后的第二时空域立方体所属的高斯类，采用带权稀疏编码的方法对所述稀疏处理后的第二时空域立方体进行初始去噪处理时，具体用于：根据所述稀疏处理后的第二时空域立方体所属的高斯类，确定所述高斯类的字典和特征值矩阵；根据所述高斯类的字典和特征值矩阵，采用带权稀疏编码的方法对所述稀疏处理后的第二时空域立方体进行初始去噪处理。

一个或多个处理器131根据所述稀疏处理后的第二时空域立方体所属的高斯类，确定所述高斯类的字典和特征值矩阵时，具体用于：对所述高斯类的协方差矩阵进行奇异值分解，得到所述高斯类的字典和特征值矩阵。

一个或多个处理器131根据所述高斯类的字典和特征值矩阵，采用带权稀疏编码的方法对所述稀疏处理后的第二时空域立方体进行初始去噪处理时，具体用于：根据所述特征值矩阵确定权值矩阵；根据高斯类的字典和所述权值矩阵，采用带权稀疏编码的方法对所述稀疏处理后的第二时空域立方体进行初始去噪处理。

可选的，一个或多个处理器131根据所述初始去噪后的第二训练视频和所述第一训练视频训练所述神经网络时，具体用于：将所述初始去噪后的第二训练视频作为训练数据，将所述第一训练视频作为标签训练所述神经网络。

本发明实施例提供的视频处理设备的具体原理和实现方式均与图12所示实施例类似，此处不再赘述。

本发明实施例提供一种无人机。图14为本发明实施例提供的无人机的结构图，如图14所示，无人机100包括：机身、动力系统、飞行控制器118和视频处理设备109，所述动力系统包括如下至少一种：电机107、螺旋桨106和电子调速器117，动力系统安装在所述机身，用于提供飞行动力；飞行控制器118与所述动力系统通讯连接，用于控制所述无人机飞行。

另外，如图8所示，无人机100还包括：传感系统108、通信系统110、支撑设备102、拍摄设备104，其中，支撑设备102具体可以是云台，通信系统110具体可以包括接收机，接收机用于接收地面站112的天线114发送的无线信号，116表示接收机和天线114通信过程中产生的电磁波。

视频处理设备109可以对拍摄设备104拍摄到的视频进行视频处理，视频处理的方法和上述方法实施例类似，视频处理设备109的具体原理和实现方式均与上述实施例类似，此处不再赘述。

本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被一个或多个处理器执行时实现以下步骤：将第一视频输入神经网络，所述神经网络的训练集包括第一训练视频和第二训练视频，所述第一训练视频包括至少一个第一时空域立方体，所述第二训练视频包括至少一个第二时空域立方体；

输出所述第二视频。

可选的，所述将第一视频输入神经网络之前，还包括：

根据第一训练视频和第二训练视频训练所述神经网络。

可选的，所述根据第一训练视频和第二训练视频训练所述神经网络，包括：

根据第一训练视频包括的至少一个第一时空域立方体训练局部先验模型；

根据所述局部先验模型对第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行初始去噪处理，得到初始去噪后的第二训练视频；

根据所述初始去噪后的第二训练视频和所述第一训练视频训练所述神经网络。

可选的，所述根据第一训练视频包括的至少一个第一时空域立方体训练局部先验模型，包括：

对第一训练视频包括的至少一个第一时空域立方体中的每个第一时空域立方体分别进行稀疏处理；

根据每个稀疏处理后的第一时空域立方体训练局部先验模型。

可选的，所述对第一训练视频包括的至少一个第一时空域立方体中的每个第一时空域立方体分别进行稀疏处理，包括：

根据所述第一时空域立方体包括的多个第一子图像，确定第一均值图像，所述第一均值图像中每个位置的像素值是所述多个第一子图像中每个第一子图像在所述位置的像素值的平均值；

将所述第一时空域立方体包括的多个第一子图像中的每个第一子图像在所述位置的像素值减去所述第一均值图像中所述位置的像素值。

可选的，其特征在于，所述第二时空域立方体包括多个第二子图像，所述多个第二子图像来自所述第二训练视频中相邻的多个第二视频帧，一个第二子图像来自一个第二视频帧，每个第二子图像在第二视频帧中的位置相同。

可选的，所述根据所述局部先验模型对第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行初始去噪处理，包括：对第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行稀疏处理；

根据所述局部先验模型对每个稀疏处理后的第二时空域立方体进行初始去噪处理。

可选的，所述对第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行稀疏处理，包括：

根据所述第二时空域立方体包括的多个第二子图像，确定第二均值图像，所述第二均值图像中每个位置的像素值是所述多个第二子图像中每个第二子图像在所述位置的像素值的平均值；

将所述第二时空域立方体包括的多个第二子图像中的每个第二子图像在所述位置的像素值减去所述第二均值图像中所述位置的像素值。

可选的，所述根据所述局部先验模型对每个稀疏处理后的第二时空域立方体进行初始去噪处理，包括：

根据所述局部先验模型确定所述稀疏处理后的第二时空域立方体所属的高斯类；

根据所述稀疏处理后的第二时空域立方体所属的高斯类，采用带权稀疏编码的方法对所述稀疏处理后的第二时空域立方体进行初始去噪处理。

可选的，所述根据所述稀疏处理后的第二时空域立方体所属的高斯类，采用带权稀疏编码的方法对所述稀疏处理后的第二时空域立方体进行初始去噪处理，包括：

根据所述稀疏处理后的第二时空域立方体所属的高斯类，确定所述高斯类的字典和特征值矩阵；

根据所述高斯类的字典和特征值矩阵，采用带权稀疏编码的方法对所述稀疏处理后的第二时空域立方体进行初始去噪处理。

可选的，所述根据所述稀疏处理后的第二时空域立方体所属的高斯类，确定所述高斯类的字典和特征值矩阵，包括：

对所述高斯类的协方差矩阵进行奇异值分解，得到所述高斯类的字典和特征值矩阵。

可选的，所述根据所述高斯类的字典和特征值矩阵，采用带权稀疏编码的方法对所述稀疏处理后的第二时空域立方体进行初始去噪处理，包括：

根据所述特征值矩阵确定权值矩阵；

根据高斯类的字典和所述权值矩阵，采用带权稀疏编码的方法对所述稀疏处理后的第二时空域立方体进行初始去噪处理。

可选的，所述根据所述初始去噪后的第二训练视频和所述第一训练视频训练所述神经网络，包括：

将所述初始去噪后的第二训练视频作为训练数据，将所述第一训练视频作为标签训练所述神经网络。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种视频处理方法，其特征在于，包括：

输出所述第二视频。

2.根据权利要求1所述的方法，其特征在于，所述将第一视频输入神经网络之前，还包括：

根据第一训练视频和第二训练视频训练所述神经网络。

3.根据权利要求2所述的方法，其特征在于，所述根据第一训练视频和第二训练视频训练所述神经网络，包括：

4.根据权利要求3所述的方法，其特征在于，第一训练视频为无噪声视频，所述第二训练视频为噪声视频。

5.根据权利要求3或4所述的方法，其特征在于，所述第一时空域立方体包括多个第一子图像，所述多个第一子图像来自所述第一训练视频中相邻的多个第一视频帧，一个第一子图像来自一个第一视频帧，每个第一子图像在第一视频帧中的位置相同。

6.根据权利要求5所述的方法，其特征在于，所述根据第一训练视频包括的至少一个第一时空域立方体训练局部先验模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述对第一训练视频包括的至少一个第一时空域立方体中的每个第一时空域立方体分别进行稀疏处理，包括：

8.根据权利要求3-7任一项所述的方法，其特征在于，所述第二时空域立方体包括多个第二子图像，所述多个第二子图像来自所述第二训练视频中相邻的多个第二视频帧，一个第二子图像来自一个第二视频帧，每个第二子图像在第二视频帧中的位置相同。

9.根据权利要求8所述的方法，其特征在于，所述根据所述局部先验模型对第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行初始去噪处理，包括：对第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行稀疏处理；

10.根据权利要求9所述的方法，其特征在于，所述对第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行稀疏处理，包括：

11.根据权利要求9或10所述的方法，其特征在于，所述根据所述局部先验模型对每个稀疏处理后的第二时空域立方体进行初始去噪处理，包括：

12.根据权利要求11所述的方法，其特征在于，所述根据所述稀疏处理后的第二时空域立方体所属的高斯类，采用带权稀疏编码的方法对所述稀疏处理后的第二时空域立方体进行初始去噪处理，包括：

13.根据权利要求12所述的方法，其特征在于，所述根据所述稀疏处理后的第二时空域立方体所属的高斯类，确定所述高斯类的字典和特征值矩阵，包括：

14.根据权利要求12所述的方法，其特征在于，所述根据所述高斯类的字典和特征值矩阵，采用带权稀疏编码的方法对所述稀疏处理后的第二时空域立方体进行初始去噪处理，包括：

根据所述特征值矩阵确定权值矩阵；

15.根据权利要求3-14任一项所述的方法，其特征在于，所述根据所述初始去噪后的第二训练视频和所述第一训练视频训练所述神经网络，包括：

16.一种视频处理设备，其特征在于，包括一个或多个处理器，单独或协同工作，所述一个或多个处理器用于：

输出所述第二视频。

17.根据权利要求16所述的视频处理设备，其特征在于，所述一个或多个处理器将第一视频输入神经网络之前，还用于：

根据第一训练视频和第二训练视频训练所述神经网络。

18.根据权利要求17所述的视频处理设备，其特征在于，所述一个或多个处理器根据第一训练视频和第二训练视频训练所述神经网络时，具体用于：

19.根据权利要求18所述的视频处理设备，其特征在于，第一训练视频为无噪声视频，所述第二训练视频为噪声视频。

20.根据权利要求18或19所述的视频处理设备，其特征在于，所述第一时空域立方体包括多个第一子图像，所述多个第一子图像来自所述第一训练视频中相邻的多个第一视频帧，一个第一子图像来自一个第一视频帧，每个第一子图像在第一视频帧中的位置相同。

21.根据权利要求20所述的视频处理设备，其特征在于，所述一个或多个处理器根据第一训练视频包括的至少一个第一时空域立方体训练局部先验模型时，具体用于：

22.根据权利要求21所述的视频处理设备，其特征在于，所述一个或多个处理器对第一训练视频包括的至少一个第一时空域立方体中的每个第一时空域立方体分别进行稀疏处理时，具体用于：

23.根据权利要求18-22任一项所述的视频处理设备，其特征在于，所述第二时空域立方体包括多个第二子图像，所述多个第二子图像来自所述第二训练视频中相邻的多个第二视频帧，一个第二子图像来自一个第二视频帧，每个第二子图像在第二视频帧中的位置相同。

24.根据权利要求23所述的视频处理设备，其特征在于，所述一个或多个处理器根据所述局部先验模型对第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行初始去噪处理时，具体用于：

对第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行稀疏处理；

25.根据权利要求24所述的视频处理设备，其特征在于，所述一个或多个处理器对第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行稀疏处理时，具体用于：

26.根据权利要求24或25所述的视频处理设备，其特征在于，所述一个或多个处理器根据所述局部先验模型对每个稀疏处理后的第二时空域立方体进行初始去噪处理时，具体用于：

27.根据权利要求26所述的视频处理设备，其特征在于，所述一个或多个处理器根据所述稀疏处理后的第二时空域立方体所属的高斯类，采用带权稀疏编码的方法对所述稀疏处理后的第二时空域立方体进行初始去噪处理时，具体用于：

28.根据权利要求27所述的视频处理设备，其特征在于，所述一个或多个处理器根据所述稀疏处理后的第二时空域立方体所属的高斯类，确定所述高斯类的字典和特征值矩阵时，具体用于：

29.根据权利要求27所述的视频处理设备，其特征在于，所述一个或多个处理器根据所述高斯类的字典和特征值矩阵，采用带权稀疏编码的方法对所述稀疏处理后的第二时空域立方体进行初始去噪处理时，具体用于：

根据所述特征值矩阵确定权值矩阵；

30.根据权利要求18-29任一项所述的视频处理设备，其特征在于，所述一个或多个处理器根据所述初始去噪后的第二训练视频和所述第一训练视频训练所述神经网络时，具体用于：

31.一种无人机，其特征在于，包括：

机身；

动力系统，安装在所述机身，用于提供飞行动力；

以及如权利要求16-30任一项所述的视频处理设备。

32.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被一个或多个处理器执行时实现以下步骤：

输出所述第二视频。

33.根据权利要求32所述的计算机可读存储介质，其特征在于，所述将第一视频输入神经网络之前，还包括：

根据第一训练视频和第二训练视频训练所述神经网络。

34.根据权利要求33所述的计算机可读存储介质，其特征在于，所述根据第一训练视频和第二训练视频训练所述神经网络，包括：

35.根据权利要求34所述的计算机可读存储介质，其特征在于，第一训练视频为无噪声视频，所述第二训练视频为噪声视频。

36.根据权利要求34或35所述的计算机可读存储介质，其特征在于，所述第一时空域立方体包括多个第一子图像，所述多个第一子图像来自所述第一训练视频中相邻的多个第一视频帧，一个第一子图像来自一个第一视频帧，每个第一子图像在第一视频帧中的位置相同。

37.根据权利要求36所述的计算机可读存储介质，其特征在于，所述根据第一训练视频包括的至少一个第一时空域立方体训练局部先验模型，包括：

38.根据权利要求37所述的计算机可读存储介质，其特征在于，所述对第一训练视频包括的至少一个第一时空域立方体中的每个第一时空域立方体分别进行稀疏处理，包括：

39.根据权利要求34-38任一项所述的计算机可读存储介质，其特征在于，所述第二时空域立方体包括多个第二子图像，所述多个第二子图像来自所述第二训练视频中相邻的多个第二视频帧，一个第二子图像来自一个第二视频帧，每个第二子图像在第二视频帧中的位置相同。

40.根据权利要求39所述的计算机可读存储介质，其特征在于，所述根据所述局部先验模型对第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行初始去噪处理，包括：对第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行稀疏处理；

41.根据权利要求40所述的计算机可读存储介质，其特征在于，所述对第二训练视频包括的至少一个第二时空域立方体中的每个第二时空域立方体分别进行稀疏处理，包括：

42.根据权利要求40或41所述的计算机可读存储介质，其特征在于，所述根据所述局部先验模型对每个稀疏处理后的第二时空域立方体进行初始去噪处理，包括：

43.根据权利要求42所述的计算机可读存储介质，其特征在于，所述根据所述稀疏处理后的第二时空域立方体所属的高斯类，采用带权稀疏编码的方法对所述稀疏处理后的第二时空域立方体进行初始去噪处理，包括：

44.根据权利要求43所述的计算机可读存储介质，其特征在于，所述根据所述稀疏处理后的第二时空域立方体所属的高斯类，确定所述高斯类的字典和特征值矩阵，包括：

45.根据权利要求43所述的计算机可读存储介质，其特征在于，所述根据所述高斯类的字典和特征值矩阵，采用带权稀疏编码的方法对所述稀疏处理后的第二时空域立方体进行初始去噪处理，包括：

根据所述特征值矩阵确定权值矩阵；

46.根据权利要求34-45任一项所述的计算机可读存储介质，其特征在于，所述根据所述初始去噪后的第二训练视频和所述第一训练视频训练所述神经网络，包括：