CN113256517A

CN113256517A - 一种基于半监督概率图模型的视频去雨方法

Info

Publication number: CN113256517A
Application number: CN202110547379.8A
Authority: CN
Inventors: 陈少君; 龙斌; 周丽娟
Original assignee: Zhejiang Zhiyun Information Technology Co ltd
Current assignee: Zhejiang Zhiyun Information Technology Co ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-08-13

Abstract

本发明涉及一种基于半监督概率图模型的视频去雨方法，包括下述步骤：S1、模型构建：构建半监督概率图模型；S2、模型训练：通过最大后验概率优化模型；S3、模型验证：在验证集上对S2中得到的概率图模型进行验证；通过验证集的带雨视频，验证模型效果，利用信噪比来评估模型的性能；S4、模型更新：设置模型参数的更新频率。本发明将视频分解为三个构成部分，一是重建的去雨层，二是雨层，三是残差层，通过引入空间和时间上的连续性先验，构建概率图模型，利用深度网络对先验进行建模，最后利用最大后验估计来优化概率模型的参数；本发明相对于现有技术来说，具有方法简单、成本低、结果稳定性高、去雨效果好等优点。

Description

一种基于半监督概率图模型的视频去雨方法

技术领域

本发明涉及一种视频去雨方法，具体地说，是涉及一种基于半监督概率图模型的视频去雨方法。

背景技术

对图像或者视频进行去噪的研究一直以来都是计算机视觉和图像处理领域内的一个重要课题。特别是在现实生活中，因为雨滴会对道路上的路况造成一定程度的遮挡，驾驶车辆行驶在下大雨等的恶劣天气下是非常危险的；不仅如此，在重要位置设置的摄像头也会因为雨水的遮挡，导致无法提供清楚的信息；人们在出去旅游的时候会拍摄很多美景的照片，但是有的照片会因为天气状况等原因无法得到清晰的效果。以上所描述的情况都需要对图像进行后期的处理，因此，对视频图像噪音去除的研究是非常有现实意义的。

在视频中，下雨往往是一个坏天气。雨滴不仅会对视频的质量造成负面影响，还会严重到后期视频处理算法的质量，例如语义分割，目标识别，自动驾驶等。作为一个最基本的预处理步骤，视频去雨在计算机视觉社区中引起了越来越多人的关注。

对雨水去除的传统方法主要有基于纯粹物理模型和数学推导的去雨模型、以及基于稀疏编码字典学习和分类器的去雨方法。

基于纯粹物理模型和数学推导的去雨模型，是基于纯物理模型的方法，其涉及的模型种类繁多且涉及物理专业知识较多。

基于稀疏编码字典学习和分类器的去雨方法，其需要人工设计先验知识，而且计算开销巨大；而且当雨水和背景是非常相似的形状时，它是没办法分离开两者的。

近期，深度网络的非线性变换能力，基于深度学习的方法显著提高了视频去雨的效果。其核心思想是直接训练一个端到端的去雨器。尽管基于深度学习的方法在某些合成数据上有显著效果，但与落地真实应用还是有很大的空间。一方面，现有方法主要在构建背景，忽略了雨滴层的内蕴特性。另一方面，基于深度学习的方法需要大量的数据，例如：带雨/不带雨的视频对。

发明内容

为克服传统方法和深度学习方法的缺陷，本发明提出了一种基于半监督概率图模型的视频去雨方法，引入动态雨滴生成子用来模拟雨滴层，真实的带雨视频在我们的方法中被视为未标记数据，对于合成的带标签数据，对应的真实的无雨滴视频被作为一个强先验引入，不带标签的真实数据，用一个三维马尔可夫随机场来构建时间上的联系，提升结果的稳定性。进一步提出了一种蒙特卡洛的最大期望算法用来求解模型。

本发明采用的技术方案为：

一种基于半监督概率图模型的视频去雨方法，包括下述步骤：

S1、模型构建：构建半监督概率图模型；

S2、模型训练：通过最大后验概率优化模型；

S3、模型验证：在验证集上对S2中得到的概率图模型进行验证；通过验证集的带雨视频，验证模型效果，利用信噪比来评估模型的性能；

S4、模型更新：设置模型参数的更新频率。

作为优选，步骤S1具体为：

S1-1、半监督概率图模型构建

代表带雨的训练视频数据，

是带雨的训练视频数据集第t帧图，t是视频中的第t帧，

代表图的高度，

代表图的宽度，

是实数集；

将

分解成三部分

ε是残差项，是一个三维张量，ε_ijt表示的是第i帧，第(j,t)位置的像素点；

表示ε_ijt满足均值为0，方差为σ²的高斯分布；

其中

是重建的去雨背景，也就是去雨器，用深度神经网络来建模，代表的是将带雨的视频映射为不带雨的背景；

是雨层；

S1-2、对无雨的背景层建模

对于任意带雨视频

将此类先验知识通过马尔科夫随机场先验建模W

其中

f_ijt代表

在(i,j,t)处的值；

ρ,γ是参数，分别代表在空间和时间的强度和顺畅度；

对于带雨视频

对应的无雨视频

可以被嵌入，当作一个强先验

S1-3、对雨滴层建模

是雨滴层

第t帧，动态雨滴生成算子如下：

s_t＝F(s_t-1,z_t；α),

s_t代表第t帧的隐藏状态；

z_t是随机噪声向量；

F(s_t-1,z_t；α)是接收模型，H(s_t；β)是发射模型；

对于第i个带雨视频

其中t代表视频的第t帧图片，共有n帧图片；另一个向量为

接收模型重写为：

mⁱ对于第i个带雨视频的固定的；

发射模型公式整合为：

其中，

θ＝{α,β}是超参数。

作为优选，步骤S2具体为：

通过最大后验概率，确定概率模型中的参数W,θ；

是观测到的带雨视频

的似然函数，似然函数如下：

优化的目标是：

上式的内涵是学习一个从带雨视频到去雨视频的映射；

基于蒙特卡洛的最大期望算法来优化

其中，在求期望的步骤，引入一个隐变量z，然后根据这个样本，求得最优参数W,θ；E-step：

(W^old,θ^old),

分别带有现有的模型参数以及此参数下的后验概率，通过从

采样Langevin dynamic：

其中

τ代表Langevin dynamic的时间步数，δ代表着步长，ξ^(τ)是高斯白噪声；

M-step：

从E-step中获得的样本记为

目标是优化下面的函数

利用梯度下降算法更新参数

作为优选，步骤S3具体为：

S3-1定义评估指标峰值信噪比

真实去噪图片X和带噪图片Y，图片大小为h×w,h是图片高度，w是图片宽度，

MSE为均方误差

MAX_X＝maxX(i,j)

峰值信噪比PSNR定义为：

S3-2：根据峰值信噪比PSNR获得模型的效果，峰值信噪比PSNR越高，模型效果越好。

作为优选，步骤S4中采用的更新方法为增量更新方法，即每一个月采集到新的图像数据，利用新采集到的数据集和之前的全量数据集，重新进行S1-S3的步骤。

本发明的有益效果在于：

本发明将视频分解为三个构成部分，一是重建的去雨层，二是雨层，三是残差层，通过引入空间和时间上的连续性先验，构建概率图模型，利用深度网络对先验进行建模，最后利用最大后验估计来优化概率模型的参数；本发明相对于现有技术来说，具有方法简单、成本低、结果稳定性高、去雨效果好等优点。

附图说明

图1是本发明的流程图；

图2是本发明的去雨器网络结构图；

图3是本发明雨滴生成子中的发射模型和接收模型的网络结构。

具体实施方式

下面结合具体实施例对本发明作进一步说明，但本发明所要保护的范围并不限于此。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

参照图1，一种基于半监督概率图模型的视频去雨方法，包括下述步骤：

S1、模型构建：构建半监督概率图模型；

其具体为：

S1-1、半监督概率图模型构建

代表带雨的训练视频数据，

是带雨的训练视频数据集第t帧图，t是视频中的第t帧，

代表图的高度，

代表图的宽度，

是实数集；

将

分解成三部分

其中

是重建的去雨背景，用深度神经网络来建模，代表的是将带雨的视频映射为不带雨的背景；

也称为去雨器；

是雨层；

表示ε_ijt满足均值为0，方差为σ²的高斯分布；

去雨器

的网络结构参照图2，采用的是3D的卷积层，和残差模块；

S1-2、对无雨的背景层建模

对无雨视频的通用先验知识是，在空间和时间上的强相关性；所以，对于任意带雨视频

将此类先验知识通过马尔科夫随机场先验建模W

其中

f_ijt代表

在(i,j,t)处的值；

ρ,γ是参数，分别代表在空间和时间的强度和顺畅度；

对于带雨视频

对应的无雨视频

可以被嵌入，当作一个强先验

ε₀设置的非常小，趋近于0；

S1-3、对雨滴层建模

直观的，雨滴层在空间和时间都具有动态性，所以我们自然的应用spatial-temporal process来刻画它；

是雨滴层

第t帧，动态雨滴生成算子如下：

s_t＝F(s_t-1,z_t；α),

s_t代表第t帧的隐藏状态；

z_t是随机噪声向量；

更进一步，可以考虑更深入的生成算子；特别的，对于第i个带雨视频

另一个向量为

来适应不同的雨类型；

接收模型重写为：

mⁱ对于第i个带雨视频的固定的；

发射模型公式整合为：

其中，

θ＝{α,β}；

用上式来模拟每个小批量数据中的带雨层；

为了增加此类动态生成算子的能力，发射模型和接收模型都用深度网络来构建；用两层的感知机来构建接收模型(transition model.)；用cnn来构建发射模型(emissionmodel)；图3展示了接收模型和发射模型的网络结构。

S2、模型训练：通过最大后验概率优化模型；

S2具体为：

S2-1构成了一个视频区域的概率模型，模型构建好之后，通过最大后验概率，确定概率模型中的参数W,θ；

是观测到的带雨视频

的似然函数，似然函数如下：

优化的目标是：

上式的内涵是学习一个从带雨视频到去雨视频的映射；

加入的未标记的真实数据，增加了模型的泛化能力；

为书写方便，我们仅仅考虑一个数据样本

基于蒙特卡洛的最大期望算法来优化

其中，在求期望的步骤，引入一个隐变量z，然后根据这个样本，求得最优参数W,θ；

E-step：

(W^old,θ^old),

分别带有现有的模型参数以及此参数下的后验概率，

通过从

采样Langevin dynamic：

其中

τ代表Langevin dynamic的时间步数，δ代表着步长，ξ^(τ)是高斯白噪声，为了防止陷入局部点；

上式中，最核心的是求偏导；

M-step：

从E-step中获得的样本记为

目标是优化下面的函数

利用梯度下降算法更新参数

S3具体为：

S3-1定义评估指标峰值信噪比

真实去噪图片X和带噪图片Y，图片大小为h×w，h是图片高度，w是图片宽度，

MSE为均方误差

MAX_X＝maxX(i，j)

峰值信噪比PSNR定义为：

S4、模型更新：设置模型参数的更新频率；

采用的更新方法为增量更新方法，即每一个月采集到新的图像数据，利用新采集到的数据集和之前的全量数据集，重新进行S1-S3的步骤。

本发明将视频分解为三个构成部分，一是重建的去雨层，二是雨层，三是残差层。首先，在贝叶斯框架下的概率构建去雨模型，最关键的是动态雨滴生成子的构建，动态雨滴生成子由发射模型和接收模型构成。接收模型记录了相邻帧中的雨滴的连续变化，发射模型将状态空间映射为雨滴。为提升雨滴生成子的建模能力，发射模型和接收模型均由深度网络构建。其次，引入半监督模型构建带标签和无标签的数据的两种不同的先验。对于带标签的数据，直接嵌入到模型中，形成强先验。对于无标签的数据，利用三维马尔科夫随机场进行建模。最后利用蒙特卡洛EM算法求解最大后验估计来优化概率模型的参数。本发明相对于现有技术来说，具有方法简单、成本低、结果稳定性高、去雨效果好等优点。

以上结合实施例对本发明进行了详细说明，但所述内容仅为本发明的具体实施方式，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，凡依本发明申请范围所做出的若干变形与改进等，均应仍属于本发明的专利涵盖范围之内。