CN108810651A

CN108810651A - 基于深度压缩感知网络的无线视频组播方法

Info

Publication number: CN108810651A
Application number: CN201810439658.0A
Authority: CN
Inventors: 吴贺贺; 王安红; 李沛豪
Original assignee: Taiyuan University of Science and Technology
Current assignee: Taiyuan University of Science and Technology
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2018-11-13
Anticipated expiration: 2038-05-09
Also published as: CN108810651B

Abstract

本发明基于深度压缩感知网络的无线视频组播方法属于无线视频传输领域，解决了现阶段视频无线传输质量低、速度慢的问题，具体方法为：包括发送端和接收端。发送端：读入视频序列，将视频序列每帧分成33×33的块，经随机高斯观测阵观测，量化观测值，进入高斯白噪声信道(AWGN)，发送到接收端。接收端：将接收到的信号进行线性最小二乘估计(LLSE)去噪，去噪后观测值作为已训练深度压缩感知网络模型的输入，进行重构。

Description

基于深度压缩感知网络的无线视频组播方法

技术领域

本发明属于视频传输方法领域，特别是涉及一种基于深度压缩感知网络的无线视频组播方法。

背景技术

当前，随着无线网络和多媒体技术的飞速发展，各种广播和组播视频服务(如移动电视、新闻广播、多媒体共享)得到快速发展，这必然要求实时可靠的无线视频传输。在无线组播应用环境中，所有用户面对同一发送信源但不同用户面临不同无线信道环境，表现出明显的带宽及信道异构性，造成传统传输方法不能很好满足异构性视频服务要求。压缩感知是一种新的信号处理方法，所产生的观测值之间没有结构性区分，即每个观测值对整个信号的重构没有重要性区分，这种特性使压缩感知在无线视频组播中具有巨大的应用空间。

近几年，基于压缩感知的无线视频组播被逐渐使用。在压缩感知理论中，恢复质量与接收数据量成正比，而这恰巧是视频组播需求。Markus等人提出基于压缩感知的视频组播，编码端采用基于块的观测，打包发送到信道，解码端用视频帧间相关性恢复原始视频。Chen等人提出了基于分布式压缩感知的视频组播(DCS-cast)，DCS-Cast编码端将视频序列每帧分成B×B的非重叠块独立编码，采用相同随机高斯观测阵观测，并将观测值进行块交织打包发送入AWGN信道；在解码端，每个用户根据其接收数据包数量解封装，然后用线性最小二乘估计(LLSE)去噪和MC-BCS-SPL算法恢复。

近几年，深度学习被广泛用于图像和视频处理，如图像分类，物体检测，图像识别，图像和视频重建等。Kulkarni等人提出了一种新颖的卷积神经网络架构，该架构将图像压缩感知观测值作为输入然后输出中间重构并呈现非迭代，提供了极快的重构算法；Yao等人提出了一种由线性映射网络和残差网络组成的深度重构网络，线性映射网络获得初步重建图像，残差网络推断真实图像与初步重建图像之间残差以获得最终重建。Shi等人提出了一种直接学习压缩感知观测值与目标图像之间端到端映射的卷积神经网络，具有良好的重构质量，且重构速度较快。然而，现有文献综述表明，目前还没有利用深度学习和压缩感知进行视频组播的研究。

发明内容

本发明旨在克服现有技术不足，解决了现阶段视频无线传输质量低、速度慢的问题，提供一种基于深度压缩感知网络的无线视频组播方法，本发明结合压缩感知和深度学习，针对每个丢包率训练对应的深度压缩感知网络模型，提高视频恢复质量与速度。

为解决上述技术问题，本发明采用的技术方案为：基于深度压缩感知网络的无线视频组播方法，其操作方法为：

Ⅰ.发送端，包括下列步骤：

1)读入视频序列；

2)将视频序列每帧分成33×33的块，经随机高斯观测阵观测；

3)量化观测值；

4)进入高斯白噪声信道(AWGN)，发送到接收端；

Ⅱ.接收端，包括下列步骤：

1)将接收到的信号进行LLSE去噪，LLSE去噪算法如公式(1)所示：

y_LLSE＝Λ_y·(Λ_y+∑)^-1·y_noise 公式(1)

其中，Λ_y是发送端观测值的协方差矩阵，∑是信道噪声n的协方差：∑＝E[n·n^T]，y_LLSE是经LLSE去噪后的观测值；

2)将y_LLSE作为已训练深度压缩感知网络模型的输入，进行重构。

进一步地，所述深度压缩感知网络结构为：

1)网络主要由全连接网络和深度残差网络构成，其中全连接网络由一个全连接层和Reshape层组成，深度残差网络由四层卷积层和三块残差块组成，每块残差块有四个卷积层一个Eltwise层。全连接网络主要生成初始恢复图像，而深度残差网络迭代预测初始恢复图像与原图像之间的残差，然后将残差与初始恢复图像相加得到最终恢复结果；

2)在深度残差网络每个残差块中，第一个卷积层使用11×11卷积核生成128个特征图，第二个卷积层使用1×1卷积核生成64个特征图，第三个卷积层使用7×7卷积核生成32个特征图，第四个卷积层使用1×1卷积核生成1个特征图，前三个卷积层添加归一化层、Scale层和ReLU层，最后一层卷积层添加ReLU层。

进一步地，所述深度压缩感知网络训练方法为：

1)使用91张自然图像训练网络，以固定步长为14将每张图片裁剪成33×33的块，对每块只保留亮度分量，此亮度分量构成训练集的标签，亮度分量经随机高斯观测阵观测构成训练集；

2)由33×33块得到1089维向量，将此向量输入网络，训练网络。

与传统的视频无线传输方法相比，本发明的创新点及其优势体现在以下几点：

1、首次将深度学习应用到无线视频组播中，结合压缩感知的特点，提高了视频接收端恢复质量。

2、本发明设计了一个用于无线视频组播的神经网络模型，利用GPU提高恢复速度。

3、本发明适合于一些对视频质量和速度有可伸缩要求的应用场合，如移动电视、移动视频电话和移动视频会议等。

附图说明

下面结合附图对本发明做进一步详细的说明。

图1是本发明方案的系统实施框图。

图2是本发明方案中系统的网络结构图。

图3是本发明方案与DCS-Cast PSNR对比图；

图中：(a)“bus”序列，SNR＝20dB/5dB/0dB/-5d；

(b)“football”序列，SNR＝20dB/5dB/0dB/-5d；

(c)“Stefan”序列，SNR＝20dB/5dB/0dB/-5d；

(d)“Akiyo”序列，SNR＝20dB/5dB/0dB/-5d。

图4是本发明与DCS-Cast帧间解码方案的恢复结果视觉和PSNR对比图；

图中:(a)“football”序列，SNR＝20dB，丢包率P＝0.30/0.50/0.99；

(b)“football”序列，SNR＝5dB，丢包率P＝0.30/0.50/0.99；

(c)“football”序列，SNR＝0dB，丢包率P＝0.30/0.50/0.99；

(d)“football”序列，SNR＝-5dB，丢包率P＝0.30/0.50/0.99。

具体实施方式

为使本发明的目的、特征和优点能够明显易懂，下面结合附图对本发明的具体实施方式做详细说明。

本发明提出的基于深度压缩感知网络的无线视频组播方法，由软件仿真实现，图1给出了系统实施框图。发送端：输入视频，以固定步长为14将视频每帧裁剪成33×33的块，每块经随机高斯观测阵观测，量化观测值，经过AWGN信道。接收端：对含噪声的观测值进行LLSE去噪，然后通过已训练深度压缩感知网络模型恢复。

具体的步骤如下：Ⅰ.发送端，包括下列步骤：

1)读入视频序列；

2)将视频序列每帧分成33×33的块，经随机高斯观测阵观测；

3)量化观测值；

4)进入高斯白噪声信道(AWGN)，发送到接收端；

Ⅱ.接收端，包括下列步骤：

1)将接收到的信号进行LLSE去噪，LLSE去噪算法如公式(1)所示：

y_LLSE＝Λ_y·(Λ_y+∑)^-1·y_noise 公式(1)

Ⅲ.如图2所示，深度压缩感知网络结构为：

1)网络主要由全连接网络和深度残差网络构成，其中全连接网络由一个全连接层和Reshape层组成，深度残差网络由四层卷积层和三块残差块组成，每块残差块有四个卷积层一个Eltwise层。全连接网络生成初始恢复图像，而深度残差网络迭代预测初始恢复图像与原图像之间的残差，然后将残差与初始恢复图像相加得到最终恢复结果；

2)在深度残差网络的每个残差块中，第一个卷积层使用11×11卷积核生成128个特征图，第二个卷积层使用1×1卷积核生成64个特征图，第三个卷积层使用7×7卷积核生成32个特征图，第四个卷积层使用1×1卷积核生成1个特征图，前三个卷积层添加归一化层、Scale层和ReLU层，最后一层卷积层添加ReLU层。

Ⅳ.深度压缩感知网络训练方法为：

1)使用91张自然图像训练网络，以固定步长为14将每张图片裁剪成33×33的块，每块只保留亮度分量，此亮度分量构成训练集的标签，亮度分量经随机高斯矩阵观测构成训练集；

2)由33×33块得到1089维向量，将此向量输入网络，训练网络。

为了更好说明本发明方案的无线视频传输效果，我们对本发明方案提出的基于深度压缩感知网络的无线视频组播方法做了初步测试实验。

我们采用四个标准测试视频序列(150帧Bus、130帧Football、100帧Akiyo和90帧Stefan)做输入视频。在有噪声的信道进行传输。使用Amax服务器作算法处理，服务器参数为：Xeon(R)CPU E5-2620 v4@2.10GHz×16，125.8GB内存。软件平台MatlabR2015b，深度学习框架为Caffe。

在实验中，我们测试了在四个相同信噪比下，本发明方案和DCS-Cast方案PSNR、视觉效果和恢复速度的对比。

图3给出了SNR在20dB、5dB、0dB和-5dB，DCS-Cast帧间解码、DCS-Cast独立解码方案和本发明方案PSNR对比图。可以看出，本发明方案在高丢包率情况下PSNR比DCS-Cast方案有明显提高。

图4给出了本发明方案和DCS-Cast帧间解码方案恢复图像视觉和PSNR对比图。从当丢包率为0.99时，可以看出，本发明方案恢复结果可以看出轮廓，而DCS-Cast已经看不出轮廓。

表1给出了上述四个视频序列在四个相同信噪比情况下，每个序列的平均PSNR。可以看出，本发明方案比DCS-Cast方案有明显提高。

表2给出了上述Football序列第一帧在四个相同信噪比和三个丢包率情况下的时间复杂度。可以看出，本发明方案时间消耗相比DCS-Cast方案有明显降低。

表1

表2

上面结合附图对本发明方案的实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.基于深度压缩感知网络的无线视频组播方法，其特征在于，本方法的操作方法为：

Ⅰ.发送端，包括下列步骤：

1)读入视频序列；

2)将视频序列每一帧分成33×33的块，经随机高斯观测阵观测；

3)量化观测值；

4)进入高斯白噪声信道(AWGN)，发送到接收端；

Ⅱ.接收端，包括下列步骤：

1)将接收到的信号进行LLSE去噪，LLSE去噪算法如公式(1)所示：

y_LLSE＝Λ_y·(Λ_y+∑)^-1·y_noise 公式(1)

2.根据权利要求1所述的基于深度压缩感知网络的无线视频组播方法，其特征在于：所述深度压缩感知网络结构为：

1)网络主要由全连接网络和深度残差网络构成，其中全连接网络由一个全连接层和Reshape层组成，深度残差网络由四层卷积层和三块残差块组成，每块残差块有四个卷积层和一个Eltwise层。全连接网络生成初始恢复图像，而深度残差网络迭代预测初始恢复图像与原图像之间的残差，然后将残差与初始恢复图像相加得到最终恢复结果；

3.根据权利要求1或2所述的基于深度压缩感知网络的无线视频组播方法，其特征在于：所述深度压缩感知网络训练方法为：

1)使用91张自然图像训练网络，以固定步长为14将每张图片裁剪为33×33的块，每块只保留亮度分量，此亮度分量构成训练集的标签，亮度分量经随机高斯观测阵观测构成训练集；

2)由33×33块得到1089维向量，将此向量输入网络，训练网络。