CN106251289A

CN106251289A - 一种基于深度学习和自相似性的视频超分辨率重建方法

Info

Publication number: CN106251289A
Application number: CN201610581026.9A
Authority: CN
Inventors: 杜军平; 梁美玉; 李玲慧
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2016-07-21
Filing date: 2016-07-21
Publication date: 2016-12-21

Abstract

本发明公开了一种基于深度学习和自相似性的视频超分辨率重建方法，属于视频处理技术领域。本方法包括视频帧提取、初步估计、初步重建、再次重建和视频帧整合等步骤。本方法综合利用了外部训练集和内部自相似性所提供的先验约束条件，对于一些平滑区域和极少出现在视频帧序列内部的不规则结构信息，以及一些很少出现在外部训练集而重复出现在视频帧序列内部的独特和奇异特征等情况都具有较好的重建效果，此外，本方法不依赖于精确的亚像素运动估计，因而能够适应于复杂的运动场景，实现较大倍数的超分辨率重建。

Description

一种基于深度学习和自相似性的视频超分辨率重建方法

技术领域

本发明涉及视频处理技术领域，特别是指一种基于深度学习和自相似性的视频超分辨率重建方法。

背景技术

超分辨率重建是指利用计算机将低分辨率(Low Resolution，LR)的图像或视频进行处理，得到一个高分辨率(High Resolution，HR)图像或视频的一种技术。超分辨率重建能够比传统的插值方法提供更多的细节信息，从而能够大幅提高图像或视频的质量。

目前的超分辨率重建方法主要有基于学习机制的重建方法和基于自相似性的重建方法。

基于学习机制的超分辨率方法能够适应于较大的超分辨率倍数，但是由于其依赖于大规模的外部训练集，因而无法保证任意低分辨率图像块都能在有限规模的训练集中找到最佳高分辨率块匹配，例如当处理一些很少出现在给定训练数据集中的独特特征时，容易产生噪声或者过平滑现象。单纯基于学习机制的超分辨率方法，仅考虑了来自外部训练集的关联映射先验学习，没有考虑视频自身的内部特性，因而超分辨率重建结果不能很好地保持视频的时空一致性，容易引起视频帧间的抖动现象。

基于自相似性的超分辨率重建方法利用图像或视频自身内部的单尺度或跨尺度相似性进行重建，是一种基于多帧的超分辨率方法，该方法不依赖于精确的亚像素运动估计，因而能够适应于局部运动、角度旋转等复杂运动模式。自相似特性提供了与低分辨率输入高度相关的内部实例，基于这种内部相似性的超分辨率方法不需要额外的训练集和较长的训练时间，但是在内部相似块不充足的情况下，往往会因内部实例的不匹配而引起一些视觉瑕疵。

总之，现有技术中的视频超分辨率重建方法存在重建效果差、重建倍率低等缺点。

发明内容

有鉴于此，本发明的目的在于提出一种基于深度学习和自相似性的视频超分辨率重建方法，该方法能够显著提高视频超分辨率重建的重建效果和重建倍率。

基于上述目的，本发明提供的技术方案是：

一种基于深度学习和自相似性的视频超分辨率重建方法，其特征在于，包括以下步骤：

将输入视频分解为视频帧，得到输入视频帧序列；

使用经过训练的卷积神经网络对输入视频帧序列中的各帧进行初步估计，得到初步估计的视频帧序列；

对于初步估计的视频帧序列中的待重建像素点，根据待重建像素点与该待重建像素点的时空邻域内的临近像素点的相似性程度，使用临近像素点对待重建像素点进行初步重建，得到初步重建的视频帧序列；

使用基于先验非局部自相似性块群的高斯混合模型对初步重建的视频帧序列中的各帧进行再次重建，得到再次重建的视频帧序列；

将再次重建的视频帧序列中的各帧按时间顺序整合，得到输出视频。

可选地，卷积神经网络包含提取层、映射层和重建层，其中，提取层用于将输入的图像划分为多个图像分块，图像分块以稀疏形式表示，映射层用于将图像分块映射为高分辨率图像分块，重建层用于将所述高分辨率图像分块整合为输出图像。

可选地，图像分块均为具有相同尺寸的矩形，相邻两个图像分块具有重合区域。

可选地，时空邻域由位于以待重建像素点所在时刻为中心的时间邻域内的子域组成，其中子域为视频帧中以待重建像素点的同位像素点为中心的空间邻域；临近像素点为时空邻域内除待重建像素点以外的其他像素点。

可选地，根据待重建像素点与该待重建像素点的时空邻域内的临近像素点的相似性程度，使用临近像素点对所述待重建像素点进行初步重建的方式包含如下步骤：

以临近像素点与待重建像素点的相似度度量作为临近像素点的权重；

根据权重对待重建像素点的所有临近像素点进行加权平均，将加权平均的结果作为对待重建像素点的初步重建。

可选地，相似度度量的求取过程包含如下步骤：

分别以临近像素点和待重建像素点为中心建立空间邻域；

求取两个空间邻域的伪Zernike矩，以两个伪Zernike矩的距离度量作为两个空间邻域的区域伪Zernike矩特征相似性指标：

R F S (R (k, l), R (i, j)) = \exp (- \frac{| | P Z M (k, l) - P Z M (i, j) | |_{2}^{2}}{ϵ^{2}}),

式中，RFS(R(k,l),R(i,j))为R(k,l)和R(i,j)的区域伪Zernike矩特征相似性指标，(k,l)表示所述待重建像素点，(i,j)表示所述临近像素点，R(k,l)表示所述待重建像素点的空间邻域，R(i,j)表示所述待重建像素点的空间邻域，PZM(k,l)和PZM(i,j)分别表示R(k,l)和R(i,j)的伪Zernike矩，||PZM(k,l)-PZM(i,j)||₂表示PZM(k,l)和PZM(i,j)的欧几里德距离，ε为用于控制函数衰减率的自定义参数；

求取两个空间邻域的区域结构相似性指标：

R S S (R (k, l), R (i, j)) = \frac{(2 η_{(k, l)} η_{(i, j)} + e_{1}) (2 σ_{(k, l, i, j)} + e_{2})}{(η_{(k, l)}^{2} + η_{(i, j)}^{2} + e_{1}) (σ_{(k, l)}^{2} + σ_{(i, j)}^{2} + e_{2})},

式中，RSS(R(k,l),R(i,j))为R(k,l)和R(i,j)的区域结构相似性指标，η_(k,l)和η_(i,j)分别表示R(k,l)和R(i,j)的均值，σ_(k,l)和σ_(i,j)分别表示R(k,l)和R(i,j)的标准差，σ_(k,l,i,j)表示R(k,l)和R(i,j)的协方差，e₁和e₂为两个非零常量；

根据区域结构相似性指标及待重建像素点所在空间邻域的区域平均能量判断两个空间邻域的区域相关性指标：

RR(R(k,l),R(i,j))＝|AE(k,l)–AE(i,j)|×((1–RSS(R(k,l),R(i,j)))/2)，

式中，RR(R(k,l),R(i,j))为R(k,l)和R(i,j)的区域相关性指标，AE(k,l)和AE(i,j)分别表示R(k,l)和R(i,j)的区域平均能量；

若区域相关性指标不小于指定阈值，则相似度度量取为：

ω (k, l, i, j) = \frac{R F S (R (k, l), R (i, j)) \times (1 - 0.0002 R S S (R (k, l), R (i, j)))}{Σ_{(m, n) &Element; R (k, l)} R F S (R (k, l), R (m, n)) \times (1 - 0.0002 R S S (R (k, l), R (m, n)))},

若区域相关性指标小于指定阈值，则相似度度量ω(k,l,i,j)取为0。

可选地，指定阈值为：

δ＝λAE(k,l)，

其中λ的取值范围为0～0.5。

可选地，λ的取值为0.08。

可选地，使用基于先验非局部自相似性块群的高斯混合模型对初步重建的视频帧序列中的各帧进行再次重建的过程包含如下步骤：

从自然图像中收集多个反映同一局部特征的图块组成块群；

使用块群对高斯混合模型进行训练，得到的经过聚类的块群即为先验非局部自相似性块群；

使用经过训练的高斯混合模型从初步重建的视频帧序列的各帧中提取视频帧图块，根据每个视频帧图块所类属的先验非局部自相似性块群的稀疏字典对各视频帧图块进行再次重建。因为图块本身是视频帧的一部分，因此对图块的重建也就是对视频帧的重建。

可选地，块群为经过均减的块群，均减的方式为：

对块群中的所有图块求取均值，再将块群中的每个图块分别与均值求差。

从上面所述可以看出，本发明提供的方法综合利用了外部训练集和内部自相似性所提供的先验约束条件。具体来说，该方法对于一些平滑区域以及极少出现在视频帧序列内部的不规则结构信息，可以利用外部约束发挥较大优势，而对于一些很少出现在外部训练集而重复出现在视频帧序列内部的独特和奇异特征，又可以利用内部约束发挥较大作用，这两种约束可以相互补充，相比单一约束可以显著提升视频超分辨率重建的效果。同时，本发明方法不依赖于精确的亚像素运动估计，因而能够适应于复杂的运动场景，这使得本发明方法在一定程度上能够滤除噪声干扰，并能够实现较大倍数的超分辨率重建。

附图说明

图1为本发明实施例的流程图；

图2为图1中步骤103的具体实施流程图；

图3为图1中步骤104的具体实施流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

为使本发明实施例的方法容易理解，同时也为使下面的论述更加方便，此处先定义几个基本概念，对于这些基本概念下文不再赘述。

时间邻域：如果不考虑声音，则一个视频可以看作是一个视频帧的序列，每个视频帧对应一个时刻。所谓时间邻域是指以某一视频帧的所在时刻为中心，在时间维度上选取的一个邻域。

空间邻域：一个视频帧就是一幅二维图像，在该图像上任选一点，可以以该点为中心在该视频帧内选取一个邻域，这个邻域位于二维空间内，故称为空间邻域。

同位像素点：视频帧序列中的任两帧图像都是像素、尺寸均完全相同的图像，如果不考虑时间维度，将所有视频帧重合为一幅图像，则该重合图像上的任意一点都可以用一个二维坐标表示，不同视频帧上同一位置的像素点都共享这同一个二维坐标，因此可将不同视频帧上、共享同一个二维坐标的所有像素点称作互为同位像素点。特别地，某一帧上的某一个像素点在该帧上的同位像素点就是该像素点自身。

时空邻域：对于视频帧序列，不同的视频帧处于不同的时刻，每一个视频帧内不同的像素点又处于不同的二维坐标，因此可以认为整个视频帧序列处于一个三维时空中，其中的每个像素点都拥有一个时间维度和两个空间维度。对于这个三维时空中的任一个像素点，首先以该像素点所在时刻为中心选取一个时间邻域，这个时间邻域覆盖了多个视频帧，在每一个被覆盖的视频帧中，都有一个该像素点的同位像素点，这样，在每一个视频帧中以相应的同位像素点为中心选取空间邻域，就得到了多个空间邻域，这些空间邻域的组合就构成了该像素点的时空邻域，时空邻域中的每一个空间邻域为该时空邻域的一个子域。下文中的邻域不做特别说明均指空间邻域。

区域PZM特征相似性指标：对于两个区域R(k,l)和R(i,j)，其中R(k,l)为像素点(k,l)的邻域，R(i,j)为像素点(i,j)的邻域，定义RFS(R(k,l),R(i,j))为这两个区域的PZM特征相似性指标：

R F S (R (k, l), R (i, j)) = \exp (- \frac{| | P Z M (k, l) - P Z M (i, j) | |_{2}^{2}}{ϵ^{2}}),

式中：

PZM(k,l)和PZM(i,j)分别表示R(k,l)和R(i,j)的伪Zernike矩；

||PZM(k,l)-PZM(i,j)||₂表示(PZM(k,l)-PZM(i,j))的2-范数，即欧几里德距离；

ε为用于控制函数衰减率的自定义参数。

区域结构相似性指标：对于两个区域R(k,l)和R(i,j)，其中R(k,l)为像素点(k,l)的邻域，R(i,j)为像素点(i,j)的邻域，定义RSS(R(k,l),R(i,j))为这两个区域的结构相似性指标：

R S S (R (k, l), R (i, j)) = \frac{(2 η_{(k, l)} η_{(i, j)} + e_{1}) (2 σ_{(k, l, i, j)} + e_{2})}{(η_{(k, l)}^{2} + η_{(i, j)}^{2} + e_{1}) (σ_{(k, l)}^{2} + σ_{(i, j)}^{2} + e_{2})},

式中：

η_(k,l)和η_(i,j)分别表示R(k,l)和R(i,j)的均值；

σ_(k,l)和σ_(i,j)分别表示R(k,l)和R(i,j)的标准差；

σ_(k,l,i,j)表示R(k,l)和R(i,j)的协方差；

e₁和e₂为两个非零常量，用于防止出现0/0的情况。

区域平均能量：对于区域R(x,y)，其中R(x,y)为像素点(x,y)的邻域，以该区域内所有像素点能量的平均值作为该区域的区域平均能量，记为AE(x,y)。

区域相关性指标：对于两个区域R(k,l)和R(i,j)，其中R(k,l)为像素点(k,l)的邻域，R(i,j)为像素点(i,j)的邻域，定义RR(R(k,l),R(i,j))为这两个区域的区域相关性指标：

RR(R(k,l),R(i,j))＝|AE(k,l)–AE(i,j)|×((1–RSS(R(k,l),R(i,j)))/2)。

自相似性权重：对于两个像素点(k,l)和(i,j)，分别以R(k,l)和R(i,j)表示这两个像素点的邻域，则如下定义(i,j)相对于(k,l)的自相似性权重(该权重也即(i,j)相对于(k,l)的相似度度量)：

当RR(R(k,l),R(i,j))≥δ时，

ω (k, l, i, j) = \frac{R F S (R (k, l), R (i, j)) \times (1 - 0.0002 R S S (R (k, l), R (i, j)))}{Σ_{(m, n) &Element; R (k, l)} R F S (R (k, l), R (m, n)) \times (1 - 0.0002 R S S (R (k, l), R (m, n)))},

否则，ω(k,l,i,j)＝0；

其中，阈值δ可以定义为δ＝λAE(k,l)，λ为一个自定义的调节因子，在本实施例方法中，一般将λ设为0.08时可以取得较好的视频重建效果。

在以上定义的基础上，下面来描述本发明实施例的具体实施过程。

图1为本发明实施例的一个流程图，其包含如下步骤：

步骤101，将输入视频分解为视频帧。

视频帧的提取已经是非常成熟的现有技术，常用的软件有ffmpeg、mencoder等等。本领域技术人员应当理解，一个视频帧就是一幅图像，因此即使本发明实施例将视频帧称为图像也不应当引起误解。

步骤102，使用经过训练的卷积神经网络对各视频帧进行初步估计，得到初步估计的视频帧序列。

卷积神经网络是深度学习领域的热门技术，其相对于传统神经网络的优势在于该技术不需要预先对图像进行特征提取，因而节省了大量工作。本发明实施例所用的卷积神经网络包含三层，分别是提取层、映射层和重建层，每一层的意义如下：

(1)提取层：

该层用于将待重建的视频帧Y划分为图像分块(“图像分块”与“图块(patch)”是不同概念)，并对每个图像分块进行稀疏表示，实现整个视频帧Y的稀疏向量表达。稀疏表示的过程可形式化表示为：

F₁(Y)＝max(0,W₁*Y+B₁)，

其中F₁(Y)表示Y的稀疏表示，W₁和B₁分别表示滤波权重和偏差，W₁大小为c×f₁×f₁×n₁，f₁为滤波的空间大小，c为视频帧通道数目，B₁为n₁维向量。在该层中，通过对视频帧Y进行n₁次卷积操作，每次卷积核大小为c×f₁×f₁，输出n₁维特征向量(即F₁(Y))。该n₁维特征向量对应于n₁个特征图(此处的维度是指卷积核的数量)，每个特征图为该视频帧中一个图像分块的稀疏表达。一般来说，相邻两个图像分块之间会有部分重合，这样可以取得更好的重建效果。

(2)映射层：

该层用于将第一层提取到的n₁维特征向量映射为一个以n₂维特征向量表示的高分辨率图像F₂(Y)，其包含n₂个高分辨率特征图。该过程可形式化表达为：

F₂(Y)＝max(0,W₂*F₁(Y)+B₂)，

其中W₂大小为n₁×f₂×f₂×n₂，表示对第一层提取到的F₁(Y)执行n₂次n₁×f₂×f₂滤波，B₂为n₂维向量。

(3)重建层

在该卷积层中，对上层获取到的高分辨率特征图进行卷积滤波，获取最终的高分辨率视频帧块。该卷积层操作可形式化地表示为：

F(Y)＝W₃*F₂(Y)+B₃，

其中W₃大小为n₂×f₃×f₃×c，表示对第二层提取到的高分辨率图像F₂(Y)执行c次n₂×f₃×f₃滤波，B₃为c维向量，W₃滤波通常为均值滤波。对于重叠的高分辨率视频帧块，可以通过加权平均的方式进行融合。

神经网络的训练过程如下：假设训练集中的高分辨率和低分辨率图像对为{X_i,Y_i}，训练集中共有Num个训练对，基于均方误差(Mean Squared Error，MSE)定义如下损失函数Loss(η)：

L o s s (η) = \frac{1}{N u m} Σ_{k = 1}^{N u m} | | F (Y_{k}; η) - X_{k} | |^{2},

式中，η为神经网络的模型参数，F(Y_k；η)为最终重建出的高分辨率视频帧块。

结合标准的反向传播和随机梯度下降法实现对以上损失函数的最小化，获取神经网络参数η＝{W,B}＝{W₁,W₂,W₃,B₁,B₂,B₃}，其中，卷积核向量W的更新函数如下：

W_{i + 1}^{l} = W_{i}^{l} + Δ_{i + 1},

Δ_{i + 1} = 0.9 \times Δ_{i} + γ \times \frac{\partial L o s s}{\partial W_{i}^{l}};

式中，上标表示迭代次数，下标表示神经网络中的卷积层数，Δ表示滤波权重W的增量，表示损失函数Loss的导数。γ表示学习速率。

步骤103，以初步估计的视频帧序列中的所有像素点为待重建像素点，针对每个待重建像素点，根据待重建像素点与该待重建像素点的时空邻域内的临近像素点的相似性程度，使用临近像素点对待重建像素点进行初步重建，最终得到初步重建的视频帧序列。

如图2所示，该步骤的具体方式为：

步骤1031，对于待重建像素点(k,l)和其时空邻域内的任一像素点(i,j)分别作邻域R(k,l)和R(i,j)；

步骤1032，求R(i,j)相对于R(k,l)的区域相关性指标，并根据区域相关性指标判断(i,j)相对于(k,l)的自相似性权重，具体求法在上面的定义部分中已有介绍，此处不再赘述；

步骤1033，将(k,l)的时空邻域内的所有像素点根据其相对于(k,l)的自相似性权重进行加权平均，并将加权平均的结果赋给待重建像素点(k,l)，从而完成对(k,l)的初步重建；

步骤1034，重复上述步骤，直至对初步估计的视频帧序列中的所有像素点完成重建，从而得到初步重建的视频帧序列。

该方式充分考虑了视频内部存在的自相似性，这种自相似性主要体现在视频中的移动物体上，即，如果视频中存在一个移动物体，则该移动物体的影像在临近的视频帧中应当处于临近的位置。换句话说，以视频帧序列中的一个像素点为中心做时空邻域，则该时空邻域中很有可能存在多个与该像素点表征同一影像的同一位置的像素点，因此可以利用这些像素点来对这一影像的这一位置进行重建，从而使该影像得到更加清晰的表现。

步骤104，使用基于先验非局部自相似性块群的高斯混合模型对初步重建的视频帧序列中的各帧进行再次重建，得到再次重建的视频帧序列。

块群(Patch group，PG)是图像处理领域中的一个新概念，基于块群的非局部自相似性(Nonlocal Self-Similarity，NSS)先验学习也已经被作为一种图像去噪技术而提出，该方法通常与高斯混合模型(Gaussian Mixture Model，GMM)配合使用，从而形成一种基于块群的高斯混合模型(Patch group based Gaussian Mixture Model，PG-GMM)。本步骤使用该方法对初步重建的视频帧做进一步处理，以提高视频帧的图像质量，如图3所示，其具体方式如下：

步骤1041，从自然图像中收集多个patch，并将反映自然图像同一局部特征的patch归于同一个PG中，并对每一个PG做均减(Mean Subtract)，得到均减后的PG；

步骤1042，使用均减后的PG对GMM进行训练，得到PG-GMM以及经过聚类的PG，并为每一个经过聚类的PG建立稀疏字典；

步骤1043，使用PG-GMM从视频帧中提取patch，并利用该patch所对应的PG的稀疏字典对该patch进行重建，进而实现对各视频帧的重建，最终得到再次重建的视频帧序列。

步骤105，将再次重建的视频帧序列中的各帧按时间顺序整合，即得到最终的输出视频。

整合过程也可以使用ffmpeg、mencoder等等现有软件完成，此处不再赘述。

通过以上论述可见，本实施例方法综合利用了外部训练集和内部自相似性所提供的先验约束条件，对于一些平滑区域以及极少出现在视频帧序列内部的不规则结构信息，可以利用外部约束发挥较大优势，而对于一些很少出现在外部训练集而重复出现在视频帧序列内部的独特和奇异特征，又可以利用内部约束发挥较大作用，从而可以显著提升视频超分辨率重建的效果。此外，本实施例方法不依赖于精确的亚像素运动估计，因而能够适应于复杂的运动场景，能够实现较大倍数的超分辨率重建。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习和自相似性的视频超分辨率重建方法，其特征在于，包括以下步骤：

将输入视频分解为视频帧，得到输入视频帧序列；

使用经过训练的卷积神经网络对所述输入视频帧序列中的各帧进行初步估计，得到初步估计的视频帧序列；

对于所述初步估计的视频帧序列中的待重建像素点，根据待重建像素点与该待重建像素点的时空邻域内的临近像素点的相似性程度，使用临近像素点对所述待重建像素点进行初步重建，得到初步重建的视频帧序列；

使用基于先验非局部自相似性块群的高斯混合模型对所述初步重建的视频帧序列中的各帧进行再次重建，得到再次重建的视频帧序列；

将所述再次重建的视频帧序列中的各帧按时间顺序整合，得到输出视频。

2.根据权利要求1所述的基于深度学习和自相似性的视频超分辨率重建方法，其特征在于，所述卷积神经网络包含提取层、映射层和重建层，所述提取层用于将输入的图像划分为多个图像分块，所述图像分块以稀疏形式表示，所述映射层用于将所述图像分块映射为高分辨率图像分块，所述重建层用于将所述高分辨率图像分块整合为输出图像。

3.根据权利要求2所述的基于深度学习和自相似性的视频超分辨率重建方法，其特征在于，所述图像分块均为具有相同尺寸的矩形，相邻两个图像分块具有重合区域。

4.根据权利要求1所述的基于深度学习和自相似性的视频超分辨率重建方法，其特征在于，所述时空邻域由位于以所述待重建像素点所在时刻为中心的时间邻域内的子域组成，所述子域为视频帧中以所述待重建像素点的同位像素点为中心的空间邻域；所述临近像素点为所述时空邻域内除所述待重建像素点以外的其他像素点。

5.根据权利要求1所述的基于深度学习和自相似性的视频超分辨率重建方法，其特征在于，所述根据待重建像素点与该待重建像素点的时空邻域内的临近像素点的相似性程度，使用临近像素点对所述待重建像素点进行初步重建的方式包含如下步骤：

以所述临近像素点与所述待重建像素点的相似度度量作为所述临近像素点的权重；

根据所述权重对所述待重建像素点的所有临近像素点进行加权平均，将所述加权平均的结果作为对所述待重建像素点的初步重建。

6.根据权利要求5所述的基于深度学习和自相似性的视频超分辨率重建方法，其特征在于，所述相似度度量的求取过程包含如下步骤：

分别以所述临近像素点和所述待重建像素点为中心建立空间邻域；

R F S (R (k, l), R (i, j)) = \exp (- \frac{| | P Z M (k, l) - P Z M (i, j) | |_{2}^{2}}{ϵ^{2}}),

求取两个空间邻域的区域结构相似性指标：

R S S (R (k, l), R (i, j)) = \frac{(2 η_{(k, l)} η_{(i, j)} + e_{1}) (2 σ_{(k, l, i, j)} + e_{2})}{(η_{(k, l)}^{2} + η_{(i, j)}^{2} + e_{1}) (σ_{(k, l)}^{2} + σ_{(i, j)}^{2} + e_{2})},

根据所述区域结构相似性指标及所述待重建像素点所在空间邻域的区域平均能量判断两个空间邻域的区域相关性指标：

RR(R(k,l),R(i,j))＝|AE(k,l)–AE(i,j)|×((1–RSS(R(k,l),R(i,j)))/2)，

若所述区域相关性指标不小于指定阈值，则所述相似度度量取为：

ω (k, l, i, j) = \frac{R F S (R (k, l), R (i, j)) \times (1 - 0.0002 R S S (R (k, l), R (i, j)))}{Σ_{(m, n) &Element; R (k, l)} R F S (R (k, l), R (m, n)) \times (1 - 0.0002 R S S (R (k, l), R (m, n)))},

若所述区域相关性指标小于指定阈值，则所述相似度度量ω(k,l,i,j)取为0。

7.根据权利要求6所述的基于深度学习和自相似性的视频超分辨率重建方法，其特征在于，所述指定阈值为：

δ＝λAE(k,l)，

其中λ的取值范围为0～0.5。

8.根据权利要求7所述的基于深度学习和自相似性的视频超分辨率重建方法，其特征在于，所述λ的取值为0.08。

9.根据权利要求1所述的基于深度学习和自相似性的视频超分辨率重建方法，其特征在于，所述使用基于先验非局部自相似性块群的高斯混合模型对所述初步重建的视频帧序列中的各帧进行再次重建的过程包含如下步骤：

从自然图像中收集多个反映同一局部特征的图块组成块群；

使用所述块群对高斯混合模型进行训练，得到的经过聚类的块群即为先验非局部自相似性块群；

使用经过训练的高斯混合模型从所述初步重建的视频帧序列的各帧中提取视频帧图块，根据每个视频帧图块所类属的先验非局部自相似性块群的稀疏字典对各视频帧图块进行再次重建。

10.根据权利要求9所述的基于深度学习和自相似性的视频超分辨率重建方法，其特征在于，所述块群为经过均减的块群，所述均减的方式为：

对块群中的所有图块求取均值，将块群中的每个图块分别与所述均值求差。