CN106331433B

CN106331433B - 基于深度递归神经网络的视频去噪方法

Info

Publication number: CN106331433B
Application number: CN201610729038.1A
Authority: CN
Inventors: 宋利; 陈欣苑; 杨小康
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2016-08-25
Filing date: 2016-08-25
Publication date: 2020-04-24
Anticipated expiration: 2036-08-25
Also published as: CN106331433A

Abstract

本发明提供一种基于深度递归神经网络的视频去噪方法，所述方法采用端到端的深度神经网络模型，所述深度神经网络模型包含两层递归神经网络，将有噪视频作为输入，第一层递归神经网络通过递归和非线性运算获得视频的初级特征，并将其作为输出传递到下一层递归神经网络，视频在第二层递归网络中获得高级特征，输出层利用两层递归神经网络获得的特征解码重构最终输出去噪后的视频；本发明利用时间域的递归结构端到端地进行视频去噪，无须通过其他复杂算法获取视频的运动信息；利用深度网络结构强大的表达能力实现有噪视频与去噪视频之间的映射；能够延展并应用在各种不同类型的噪声中，如高斯噪声、泊松‑高斯混合噪声等。

Description

基于深度递归神经网络的视频去噪方法

技术领域

本发明涉及的是一种视频图像处理技术领域的方法，具体是一种基于深度递归神经网络的视频去噪方法。

背景技术

视频去噪是一个视频图像处理技术领域的典型问题，同时也是像素级视频处理方法评价方法。因此该问题在学术界和工业界一直受到广泛的关注。视频去噪过程是输入一个加噪视频Y＝X+N,其中X表示为是Y的原始视频，通过特定方法以后，输出一个去噪视频。

在过去十多年间，许多方法都在图像去噪和视频去噪取得了巨大的进步，如稀疏编码(sparse coding)、条件随机域(conditional random fields)、变换技术 (variationtechniques)、块方法(patch based methods)等。视频去噪技术与图像去噪技术最大的不同在于视频有大量运动信息和时间域冗余信息可以用于去噪过程。一种通用的方法是将图像去噪通过在时间轴的不同帧中查找相似块的方法，然后利用图像去噪的方法，如小波压缩(wavelet shrinkage)或是维纳滤波等方法在三维变换域进行去噪，如VBM3D(Block-matching and 3D filtering (BM3D))。VBM4D在VBM3D方法中做了改进并成为目前最为先进的图像去噪技术。VBM4D去噪的方法是查找相似3维时空立体块而不是2维平面块然后将3维立体块堆栈形成一个四维结构。然后利用协同滤波去除该四维结构的相关性，最后利用压缩(shrinkage)和反变换完成视频去噪。

目前，深度学习得利于其深度神经网络结构的强大表达能力和GPU (GraphicsProcessing Units)的快速运算能力，在计算机视觉和模式识别领域取得了巨大进步(如图像分类)。如何将其应用在视频图像处理领域成了人们重点关注和研究的方向。递归神经网络作为具有反馈能力的一种神经网络，能够在时间轴上传递运动信息，是处理序列的强有力工具，并在语音、文字等多个领域得到较好的应用。递归神经网络最先被用在语言处理问题上，如语音识别、图像描述(image description)。在视频处理领域，Nitish Srivastava在《Unsupervised learning of video representations using LSTMs》一文中证实了递归神经网络能够从视频中学习到运动信息和轮廓特征，并在文中成功将特征表示应用于模式识别问题。

发明内容

本发明在现有技术的基础上，提出一种基于深度递归神经网络的视频去噪方法，采用深度递归网络模型用于视频序列去噪，无须通过其他复杂算法获取视频的运动信息。

为实现上述目的，本发明采用以下技术方案：

本发明提供一种基于深度递归神经网络的视频去噪方法，所述方法采用端到端的深度神经网络模型，利用时间域的递归结构端到端地进行视频去噪；

所述深度神经网络模型包含两层递归神经网络，将有噪视频作为输入，第一层递归神经网络通过递归和非线性运算获得视频的初级特征，并将其作为输出传递到下一层递归神经网络，视频在第二层递归神经网络中获得高级特征，输出层利用两层递归神经网络获得的特征解码重构最终输出去噪后的视频；

所述深度神经网络模型，具体表示如下：

其中，x^(t)表示输入数据，

表示深度递归神经网络第一层t时刻和t-1 的状态，即视频在t和t-1时刻的初级特征；

表示深度递归神经网络第二层t时刻、t-1时刻的状态，即视频在t和t-1时刻的高级特征；y^(t)表示输出数据；σ() 是指激活函数；

W_yh、

b_y均为模型的参数，通过BPTT(back propagationthrough time)算法最小化损失函数获得；t表示视频图像的时间序列索引。

本发明中，所述深度神经网络模型将视频噪声模型与深度递归网络结合，利用深度网络结构强大的表达能力实现有噪视频与去噪视频之间的映射，对于一段时长为T有噪的视频序列

其中t表示视频图像的时间序列索引，在视频序列中任意t时刻的图像x^t看作是干净图像y^t和噪声n^t的叠加：

x^t＝y^t+n^t

视频去噪的目的是建立映射从x^t中除去n^t以得到

具体为：

其中X表示带噪视频序列

Θ表示模型参数，

表示模型预测的去噪结果，参数通过BPTT算法得到，损失函数L为去噪图像和实际无噪图像

(公式中简写为Y)的平方差：

L＝||F(X；Θ)-Y||.

本发明中，为了降低深度递归神经网络的计算复杂度，采用基于块 (patch-based)的方法来进行去噪：

生成训练集时，切割视频成为m×n×T的连续图像块作为一个训练样本，其中m、n分别表示每张图像小块的长、宽，T表示视频连续的T张图像，其对应的第(T+1)/2张图像作为去噪的目标，并将原始的对应第(T+1)/2张图像作为训练时的标注值(groundtruth)；

测试时，将给定的有噪视频逐帧有重叠地(overlapping)分解为m×n×T的视频立体块(cubes)，即用一个m×n×T的三维立体滑窗划过视频，分解后的视频小块通过训练好的深度递归神经网络模型得到对应的去噪图像小块，这些视频小块重新按原位置拼接得到降噪后的视频图像。

本发明所述方法能够通过模拟不同的视频噪声n^t，训练不同的模型以除去不同类型、不同程度的视频噪声，比如：

高斯噪声，表示为n^t～N(0,σ²I)，其中σ表示高斯分布的标准差，N()表示高斯分布，I表示单位矩阵；

泊松-高斯混合噪声表示为：

表示零均值标准差为σ的高斯噪声，

表示零均值方差为λ＝ky^t的泊松噪声。

与现有技术相比，本发明具有以下有益效果：

本发明利用深度递归神经网络设计一种适合于视频去噪的回归模型，通过训练大量含有原始视频的加噪视频，最终能够有效地去除视频噪声，其中：1)利用时间域的递归结构端到端地进行视频去噪，无须通过其他复杂算法获取视频的运动信息；2)利用深度网络结构强大的表达能力实现有噪视频与去噪视频之间的映射；3)能够延展并应用在各种不同类型的噪声中，如高斯噪声、泊松-高斯混合噪声等。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中深度递归神经网络的去噪示意图；

图2为本发明一实施例中涉及的深度递归神经网络结构图；

图3为本发明一实施例去除高斯噪声效果示意图；

图4为本发明一实施例去除泊松-高斯混合噪声效果示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明提出一种端到端的深度神经网络模型用来视频去噪，该模型包含两层的递归网络如图1所示，在模型中输入设定长度的加噪视频立体块，输出的目标是无噪图像块，即该模型利用视频前后多帧的信息作为输入，对某一帧特定图像进行降噪。

递归神经网络是一类强大的神经网络模型，它能通过图模型中的循环来获取时间动态信息。一个简单的神经网络单元如图2(a)所示。在t时刻，隐藏单元h^(t)接收到来自当前时刻的输入x^(t)和前一时刻隐藏层状态h^(t-1)的激活值。输出y^(t)由当前时刻t的隐藏层状态h^(t)计算得到：

h^(t)＝σ(W_hxx^(t)+W_hhh^(t-1)+b_h)

y^(t)＝σ(W_yhh^(t)+b_y)

权值矩阵W_hx，W_hh，W_yh以及偏差b_h，b_y均为递归神经网络的参数，σ()是激活函数(如tanh或sigmoid函数)。在所述的深度神经网络模型中，激活函数除输出层采用线性函数外，均采用双曲正弦函数。递归神经网络和普通神经网络最大的区别在于递归隐藏单元的状态受到当前时刻输入和上一时刻输出两方面的影响。于是，递归隐藏单元可以看作是一个带有时间信息的容器。

深度递归神经网络是普通神经网络的延拓，由一个输入层，多个隐藏层和一个输出层的叠加构成。这种叠加方式与多层感知机(Multi-Layer Perceptions)相似，如果除去每层的延迟节点，即为多层感知机，也可认为是多层的普通神经网络结构。图2(b)展示了一个两层的递归神经网络。在多层递归神经网络中，隐藏层

同时接收到低层隐藏层当前时刻的状态信息

和该层上一时刻隐藏层

的状态信息：

以上便是本发明运用到的深度递归神经网络模型，为了将其与视频去噪相结合，下面给出视频去噪的数学模型。对于一段时长T有噪的视频序列

每张图像x^t可以看作是干净图像y^t和噪声n^t的叠加：

x^t＝y^t+n^t

视频去噪的目的建立映射从x^t中除去n^t以得到

为了降低模型的训练复杂度，本发明采用块方法(patch-based method)，即将视频分割为特定时长特定大小的立体块。这里的立体块指的是多张连续时间相同位置的二维图片小块的叠加，如图1(a)下方input处显示的立体块。该深度递归神经网络的目标是建立一个映射，使得模型能够从带噪视频立体块(cube)得到去噪的图像块(patch)，且该图像块表示的是立体块最中间的那幅图像：

其中Θ表示模型参数。参数通过BPTT更新，损失函数为去噪图像块和实际无噪图像块的平方差：

L＝||F(X；Q)-Y||

该深度递归神经网络的视频去噪流程直观解释如下：带噪立体块作为输入数据，第一层递归隐藏层读取到输入数据以后将特征表示传输给第二个隐藏层。第二个隐藏层尝试从第一个隐藏层输入的信息中提取高层特征以及更强大的表达方式。由于递归神经网络能够保持物体的外观信息和视频的运动信息，故最后输出层能够从这些特征表示中得到去噪的图像块。

基于上述原理表述，提供基于深度神递归神经网络的视频去噪模型的训练和测试方法，具体实施细节如下，以下实施例没有详细说明的部分参照发明内容进行：

(1).获取训练集：

a)获取大量原始视频(如UCF-101视频集)；

b)在视频集中加入给定噪声(如加性高斯白噪声、泊松-高斯混合噪声)；

c)切割视频成为17×17×7的连续图像块作为一个训练样本，其中17、17 分别表示每张图像小块的长、宽，7表示视频连续的7张图像，其对应的第4张图像作为去噪的目标，并将原始的对应第4张图像作为训练时的标注值(groundtruth)。该方法大概需要10,000,000个训练样本；

d)将训练样本随机分为两部分，80％作为训练集用于模型训练，20％作为验证集用于检验模型以防止过拟合。

(2).构建模型：对于视频立体块集合

输入到两层的递归神经网络中:

利用python编程建立上述深度递归神经网络模型。

网络参数的初始化采用一直分布，即

其中n表示该层的大小。损失函数为去噪图像块和实际无噪图像块的平方差：

L＝||F(X；Q)-Y||

(3).训练模型：利用BPTT算法最小化损失函数，在训练过程中采用以下学习策略。学习率(learning rate)初始化为0.03，随着训练循环次数的增加最终降低至0.0001，同时冲量(momentum)初始化为0.9，最终下降至0.999。同时为了方式过拟合，设定停机机制，当最新的200次循环中验证误差(validation error) 不再提升后，便停止训练并保存最好的验证误差时的模型。

(4).对有噪视频进行去噪：将给定的有噪视频逐帧有重叠地(overlapping) 分解为17×17×7的视频立体块(cubes)，即用一个17×17×7的三维立体滑窗划过视频，其中时间域步长为1，空间步长为3。分解后的视频小块通过训练好的深度递归神经网络模型得到对应的去噪图像小块。这些视频小块重新按原位置拼接得到降噪后的视频图像。

实施效果

依据上述步骤，对由互联网上提供的公开视频去噪测试序列进行实验。运用该发明方法在不同的噪声中做降噪测试，结果如下。

1.高斯噪声

高斯噪声表示为n^t～N(0,σ²I)，其中σ表示高斯分布的标准差。本实验中训练了去除高斯噪声σ＝35的深度递归神经网络模型，测试序列利用训练好的深度递归神经网络(deep RNNs，简称DRNNs)得到的定量分析结果。量化分析的指标为去噪后视频和原始视频的信噪比(Peak Signal to Noise Ratio)：

在8bit图像中，n＝8，MSE表示原图像和处理图像之间的均方误差。PSNR越大，表示去噪后的图像越接近原图。VBM3D(《Video denoising by sparse 3d transform-domaincollaborative filtering》)是目前的先进去噪算法，将其作为参考。图3是利用训练好的深度递归神经网络(deep RNNs，简称DRNNs)去除σ＝35的高斯白噪声后的定性分析的结果。VBM3D的对三个视频去噪PSNR均值为 30.79dB,35.87dB,30.56dB，DRNNs方法去噪均值分布为30.41dB,35.88dB, 30.09dB，表明该深度递归神经网络模型具有良好的去噪效果，其PSNR值和视觉结果均与VBM3D相当。

2.泊松-高斯混合噪声

泊松-高斯混合噪声可以表示为：

表示零均值标准差n^t～N(0,σ²I)的高斯噪声，

表示零均值方差为λ＝ky^t的泊松噪声。在本实验中，取σ＝25,k＝15。由于目前没有针对泊松- 高斯混合噪声的视频去噪模型，同样采用VBM3D方法作为参照。

图4显示测试视频salesman中间帧(第25帧)利用不同方法的去噪结果， (b)到(d)的PSNR值依次为16.33dB,21.50dB,30.09dB。结果表明该发明的混合噪声去噪效果在视觉上和PSNR值上均有良好表现。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。