CN110392258A

CN110392258A - 一种联合时空边信息的分布式多视点视频压缩采样重建方法

Info

Publication number: CN110392258A
Application number: CN201910616730.7A
Authority: CN
Inventors: 田昕; 陈月荣; 李松; 马跃; 周辉
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-10-29
Anticipated expiration: 2039-07-09
Also published as: CN110392258B

Abstract

本发明涉及一种联合时空边信息的分布式多视点视频压缩采样重建方法，针对在分布式多视点视频采集网络中各节点的计算及存储能力有限的情况下，进行低复杂度视频采集编码的应用需求。考虑到同一视点中的连续视频帧之间具有时间相关性，相邻视点的同一时刻的视频帧之间具有空间相关性，由时间相关性和空间相关性得到的时间、空间边信息可以进一步通过边信息与当前帧的差异的稀疏约束来表征，从而生成多视点视频中的非关键帧重建优化模型。最后通过FISTA策略进行优化求解，从而生成了较好重建质量的非关键帧信息。

Description

一种联合时空边信息的分布式多视点视频压缩采样重建方法

技术领域

本发明属于分布式多视点视频编码领域，涉及一种分布式多视点视频压缩采样重建方法，适用于各种资源受限的多视点视频编码应用场景。

背景技术

与传统的单视点视频处理系统相比，多视点视频能给人们提供更多的场景信息，多视点视频系统已经在视频监控、移动网络视频通信和机器人等领域得到应用。

在多视点视频系统中存在着编码端原始数据量过大的问题。传统的多视点视频编码采用在传感器之间对数据进行联合协作压缩来获得高压缩效率，这将使得编码端的通信成本过高。为了有效地降低视频编码的复杂度，受分布式信源编码和压缩感知的启发，提出了分布式压缩视频感知(DCVS)系统。该系统的主要特征是独立编码，联合解码，编码端利用CS独立的采样少量数据，在解码端，测量率相对较高的关键帧被直接重建，而非关键帧首先通过帧间预测得到边信息，然后联合边信息和测量数据实现高质量的重建。通常，联合重建需建立信号稀疏模型，然后通过凸优化来求解。

单一视频的分布式压缩感知，通常需利用连续帧的时间相关性，通过运动补偿生成时间边信息，然后联合重建恢复出视频帧^[1-4]。多视点静止图像的联合重建利用视点间相关性，通过视差补偿生成空间边信息，然后进行联合重建。分布式多视点视频系统则同时利用了视点间和连续帧之间的相关性，使用视点和时间上的相邻帧共同预测目标帧，然后进行联合重建。例如，Nan Cen等人^[5]提出一种测量域的融合重建方法，将边信息重新采样然后于原始测量数据融合，然后使用传统的稀疏信号恢复方法完成重建。Ying Liu等人^[6]提出了一种视差和运动补偿的总变差最小化算法，以联合重建出独立压缩采样的所有视频帧。

分布式多视点视频编码(Distributed MVC，DMVC)是分布式视频编码技术在多视点视频中的应用延伸，其独立编码且编码端任务简单的特点适用于普遍使用的无线多媒体传感器网络(WMSN)等环境。如何构建出有效的联合重建算法，利用时空边信息与少量采样数据重建出高质量的视频帧，是分布式多视点压缩感知的关键问题之一。

发明内容

本发明针对现有技术的不足，利用多视点视频的连续帧之间的时间相关性与视点间的空间相关性，提供一种联合时空间边信息残差稀疏正则化约束的分布式多视点视频压缩采样重建方法。

本发明所采用的技术方案是：一种联合时间与空间边信息的残差稀疏正则化约束的分布式多视点视频压缩采样重建方法，首先在编码端将视频帧被划分关键帧和非关键帧，每个视频序列的关键帧与非关键帧交错排布，对视频帧进行独立的压缩测量，关键帧的测量率大于非关键帧的测量率。在解码端，每个关键帧使用压缩感知(CompressedSensing，CS)原理独立重建。对于非关键帧的重建，利用同视点视频序列已重建的前后关键帧，通过运动估计和运动补偿算法生成当前非关键帧的时间边信息，利用同时刻相邻视点的视频帧，通过单应性变换生成当前非关键帧的空间边信息，最后结合两种边信息求解所提出的联合重建模型实现非关键帧的重建。以两个视点为例，其帧间预测模式如图1所示，其整体实现框图如附图2所示。该方法包括以下步骤：

步骤1，在编码端，将多视点视频序列分为关键帧和非关键帧，然后按照压缩感知的原理进行采样；

步骤2，对关键帧按照传统的压缩感知的原理进行独立重建；

步骤3，基于同一视点中已重建的关键帧，进行运动估计和运动补偿生成时间边信息；

步骤4，基于相邻视点中已重建的同一时刻的关键帧，基于仿射变换生成空间边信息，所述仿射变换是对相邻视点关键帧按照一定的几何关系进行旋转，生成旋转后的图像，即空间边信息，并获得相邻视点关键帧与当前视点非关键帧的重叠区域和非重叠区域；

步骤5，对于非关键帧中重叠区域，结合时间边信息和空间边信息，构建联合重建模型一并求解；

步骤6，对于非关键帧中非重叠区域，结合时间边信息，构建联合重建模型二并求解；

步骤7，将重建的非关键帧的重叠区域和非重叠区域组合起来，完成对当前视点非关键帧的重建。

进一步的，步骤1中关键帧的采样率高，非关键帧的采样率低，以两个相邻视点为例，假设视点1的关键帧对应的列向量为x_K∈R^N×1，将视点1的非关键帧分为两个部分：视点1与视点2的重叠区域及视点1与视点2的非重叠区域，简称为非关键帧重叠区域和非关键帧非重叠区域；重叠区域及非重叠区域对应的列向量为和用于采样的关键帧、非关键帧重叠区域、非关键帧非重叠区域对应的测量矩阵分别为和其中N表示二维视频帧转换成的一维向量的长度，N₁和N₂分别表示非关键帧的重叠区域和非重叠区域转换成的一维向量的长度，M、M₁和M₂分别表示关键帧、非关键帧重叠区域及非关键帧的非重叠区域的测量数(N＞M， N₁＞M₁，N₂＞M₂)，测量率满足测量矩阵选用预随机化的分块哈达玛矩阵(SBHE)，采样过程可表示为：

其中y_K∈R^M×1、y_N-over和y_N-else分别表示关键帧，非关键帧重叠区域与非关键帧非重叠区域的测量值。

进一步的，步骤2的具体实现包括以下子步骤：

步骤2.1，构建压缩感知独立重建优化目标函数：

其中，ψ是稀疏基，α_K表示对上述最小值函数进行求解，变量α对应的结果，即视频关键帧x_K的稀疏表示向量，τ是一个非负参数，为一常数；

步骤2.2，通过梯度投影稀疏重建算法对独立重建优化目标函数进行求解，得到α_K；

步骤2.3，由视频帧的稀疏表示向量得到关键帧：

进一步的，步骤4中生成空间边信息的具体实现方式如下，

假设相邻视点关键帧表示为Y(x₁,y₁)，(x₁,y₁)代表关键帧的像素坐标，生成的空间边信息表示为S(x₂,y₂)，假设相邻视点关键帧像素(x₁,y₁)与空间边信息像素(x₂,y₂)为一对配对点，则对应像素坐标之间存在如下数学关系式：

即在已知单应性矩阵H的各个参数的情况下，按照一定的比例λ将点(x₁，y₁) 映射到点(x₂，y₂)；

其中单应性矩阵H的生成方式为：假设多视点的第一帧均为关键帧，在解码端基于所生成的多个视点间的关键帧，首先通过图像配准的方法，找到不同视点关键帧之间对应的配对点，假设通过图像配准方法得到的N对配对点对分别表示为然后通过线性拟合的方式求解出单应性矩阵的各个参数。

进一步的，步骤5的具体实现包括以下子步骤，

步骤5.1，构建非关键帧重叠区域重建的目标函数，即联合重建模型一：

向量f表示对上述最小值函数进行求解过程中的变量，代表(1)式优化求解的结果，即视频帧对应的列向量，代表非关键帧重叠区域的测量值；代表在前面步骤中通过仿射变换所生成的空间边信息所对应的列向量；代表在前面步骤中通过运动估计和运动补偿所生成的时间边信息所对应的列向量；α，β为正则化常数，D是梯度运算符，其中 Df＝[D_xf，D_yf]，D_xf＝vec(f(x+1，y)-f(x，y)),D_yf＝vec(f(x，y+1)- f(x，y))；f(x，y)代表向量f对应的二维图像，(x，y)代表二维图像的空间坐标， vec()代表矢量化运算，即将对应的二维矩阵转化为对应的列向量；

步骤5.2，基于FISTA的优化策略(A fast iterative shrinkage-thresholdingalgorithm for linear inverse problems)，(1)式可以进一步等效为如下两个式子：

其中k为迭代次数，r为一个变量，r^k为变量r在第k次迭代计算时所得到的结果，其初始值L为一常数；

步骤5.3，进一步地，令u＝f-p_s，则(3)式可以转化为：

此时，(5)式为标准的全变分正则化约束下的求解问题，直接通过基于FISTA 的优化策略求解。

进一步的，步骤6的具体实现包括以下子步骤，

步骤6.1，构建非关键帧非重叠区域重建的目标函数，即联合重建模型二：

向量f表示对上述最小值函数进行求解过程中的变量，代表(6)式优化求解的结果，即视频帧对应的列向量，代表非关键帧非重叠区域的测量值，代表在前面步骤中通过运动估计和运动补偿所生成的时间边信息所对应的列向量，μ为正则化常数；

步骤6.2，基于FISTA的优化策略(A fast iterative shrinkage-thresholdingalgorithm for linear inverse problems)，(6)式可以进一步等效为如下两个式子：

L为一常数；

步骤6.3，进一步地，令u＝f-p_s，则(8)式可以转化为：

此时，(10)式为标准的全变分正则化约束下的求解问题，直接通过基于FISTA 的优化策略求解。

与现有技术相比，本发明的优点和有益效果：本发明针对在分布式多视点视频采集网络中各节点的计算及存储能力有限的情况下，进行低复杂度视频采集编码的应用需求。考虑到同一视点中的连续视频帧之间具有时间相关性，相邻视点的同一时刻的视频帧之间具有空间相关性，由时间相关性和空间相关性得到的时间、空间边信息可以进一步通过边信息与当前帧的差异的稀疏约束来表征，从而生成多视点视频中的非关键帧重建优化模型。最后通过FISTA策略进行优化求解，从而生成了较好重建质量的非关键帧信息。

附图说明

图1是本发明多视点视频序列的关键帧与非关键帧的排布安排。

图2为本发明空间边信息生成示意图。

图3是本发明的总体流程图。

图4是本发明时间边信息内插法的流程图。

图5是本发明所使用的两个视点的视频序列的1、4、7、10帧。

图6是本发明提出方法与其他对比方法重建出的视频帧的视觉质量比较。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明做进一步的详细描述，应当理解的是，此处所描述的实施施例仅用于解释本发明，并不用于限定本发明。

本发明主要针对由分布式压缩感知在多视点视频压缩重建的应用需求。考虑到多视点视频帧与其时间边信息、空间边信息差值的稀疏性，我们提出了一种联合时空间边信息残差稀疏正则化约束的分布式多视点视频的重建模型，然后基于 FISTA的优化策略对该模型进行求解，从而重建出较高质量的视频帧。如图3所示，本发明实施例提供一种联合时空间边信息残差稀疏正则化约束的分布式多视点视频压缩采样重建方法，具体包括如下步骤：

步骤1：在编码端，将多视点视频序列分为关键帧和非关键帧(如附图1所示，I帧表示关键帧，B帧表示非关键帧)，然后按照压缩感知的原理进行采样，其中关键帧的采样率较高，非关键帧的采样率较低。这里以附图1的两个视点为例，假设视点1的关键帧对应的列向量为x_K∈R^N×1，将视点1的非关键帧分为两个部分：视点1与视点2的重叠区域及视点1与视点2的非重叠区域(后文简称为非关键帧重叠区域和非关键帧非重叠区域)。重叠区域及非重叠区域对应的列向量为和用于采样的关键帧、非关键帧重叠区域、非关键帧非重叠区域对应的测量矩阵分别为和其中N表示二维视频帧转换成的一维向量的长度，N₁和N₂分别表示非关键帧的重叠区域和非重叠区域转换成的一维向量的长度，M、M₁和M₂分别表示关键帧、非关键帧重叠区域及非关键帧的非重叠区域的测量数(N＞M，N₁＞M₁，N₂＞M₂)，测量率满足(本发明默认非关键帧的各区域测量率相同，即)。测量矩阵选用预随机化的分块哈达玛矩阵(SBHE)。采样过程可表示为：

步骤2：对关键帧按照传统的压缩感知的原理进行独立重建。

作为优选，步骤2的具体实现包括以下子步骤：

步骤2.1：构建压缩感知独立重建优化目标函数：

其中，ψ是稀疏基，可以是离散余弦变换，离散傅里叶变换或小波变换等。α_K表示对上述最小值函数进行求解，变量α对应的结果，即视频关键帧x_K的稀疏表示向量。τ是一个非负参数，为一常数，在本实例中，令

步骤2.2：通过梯度投影稀疏重建算法^[7]对独立重建优化目标函数进行求解。α默认初始化为零向量，重构的默认停止标准是当α中的非零分量的数量的相对变化小于阈值T_A(T_A＝0.01)时，算法停止，得到α_K。

步骤2.3：由视频帧的稀疏表示向量得到关键帧：

步骤3：基于同一视点中已重建的关键帧，进行运动估计和运动补偿生成时间边信息。

作为优选，步骤3的具体实现采用文献[8]的内插法，整体流程如附图4所示。

步骤4：基于相邻视点中已重建的同一时刻的关键帧，基于仿射变换生成空间边信息[9]，其示意图如图2所示。从图2可知，仿射变换可以认为是对其他视点关键帧按照一定的几何关系进行旋转，生成旋转后的图像(空间边信息)。

空间边信息的生成原理如下：

假设相邻视点关键帧表示为Y(x₁,y₁)，(x₁,y₁)代表关键帧的像素坐标，生成的空间边信息表示为S(x₂,y₂)。假设相邻视点关键帧像素(坐标为(x₁,y₁))与空间边信息像素(坐标为(x₂,y₂))为一对配对点，则对应像素坐标之间存在如下数学关系式：

即在已知单应性矩阵H的各个参数的情况下可以按照一定的比例λ将点 (x₁，y₁)映射到点(x₂，y₂)：。

其中单应性矩阵H的生成方式为：假设多视点的第一帧均为关键帧，因此，在解码端基于所生成的多个视点间的关键帧(第一帧)，来生成所需的单应性矩阵。首先通过图像配准的方法，找到不同视点关键帧之间对应的配对点。假设通过图像配准方法得到的N对配对点对分别表示为因此，通过线性拟合的方式可以求解出单应性矩阵的各个参数。

步骤5：对于非关键帧中重叠区域，结合时间边信息和空间边信息，构建联合重建模型一并求解。

作为优选，步骤5的具体实现包括以下子步骤：

步骤5.1：构建非关键帧重叠区域重建的目标函数，即联合重建模型一：

向量f表示对上述最小值函数进行求解过程中的变量，代表(1)式优化求解的结果，即视频帧对应的列向量，代表非关键帧重叠区域的测量值。代表在前面步骤中通过仿射变换所生成的空间边信息所对应的列向量。代表在前面步骤中通过运动估计和运动补偿所生成的时间边信息所对应的列向量。α，β为正则化常数，在本实例中，α＝1，β＝0.5。D是梯度运算符，其中Df＝[D_xf，D_yf]。D_xf＝vec(f(x+1，y)-f(x，y)),D_yf＝vec(f(x，y+1)-f(x，y))。f(x，y)代表向量f对应的二维图像， (x，y)代表二维图像的空间坐标。vec()代表矢量化运算，即将对应的二维矩阵转化为对应的列向量。

步骤5.2：基于FISTA的优化策略(A fast iterative shrinkage-thresholdingalgorithm for linear inverse problems)，(1)式可以进一步等效为如下两个步骤：

k为迭代次数，r为一个变量，r^k为变量r在第k次迭代计算时所得到的结果，其初始值L为一常数，在本实例中，L＝1。

步骤5.3：进一步地，令u＝f-p_s，则(3)式可以转化为：

此时，(5)式为标准的全变分正则化约束下的求解问题，可以直接通过基于 FISTA的优化策略求解。

重建算法的流程如表1所示。

表1

步骤6：对于非关键帧中非重叠区域，结合时间边信息，构建联合重建模型二并求解。

作为优选，步骤6的具体实现与步骤5联合时空边信息重建的差异在于，缺少了空间边信息。步骤6的具体实现包括以下子步骤：

步骤6.1：构建非关键帧非重叠区域重建的目标函数，即联合重建模型二：

向量f表示对上述最小值函数进行求解过程中的变量，代表(6)式优化求解的结果，即视频帧对应的列向量，代表非关键帧非重叠区域的测量值。代表在前面步骤中通过运动估计和运动补偿所生成的时间边信息所对应的列向量。μ为正则化常数，在本实例中，μ＝1。

步骤6.2：基于FISTA的优化策略(A fast iterative shrinkage-thresholdingalgorithm for linear inverse problems)，(6)式可以进一步等效为如下两个式子：

L为一常数。

步骤6.3：进一步地，令u＝f-p_s，则(8)式可以转化为：

此时，(10)式为标准的全变分正则化约束下的求解问题，可以直接通过基于FISTA的优化策略求解。

步骤7：将重建的非关键帧的重叠区域和非重叠区域组合起来，完成对当前视点非关键帧的重建。

基于上述步骤得到分布式多视点视频压缩感知重建视频，为了对重建视频进行定量的评价，我们选用峰值信噪比(PSNR)以及结构相似性(SSIM)作为评价指标，使用的视频为自己拍摄的画面部分重叠的两个视点的视频序列，两个视点视频序列的第1、4、7、10帧如附图5所示。使用帧内重建(Intra)和分布式压缩感知重建(DCVS)方法和我们的方法进行比较，其中帧内重建未使用帧间相关性，DCVS利用了连续视频帧之间的时间相关性，而我们所提出的方法利用了连续帧之间的时间相关性与视点间的空间相关性。关键帧的采样率S_K＝0.6，非关键帧的采样率S_NK＝0.2，0.25，...，0.4时，重建出视点1视频序列的结果如表2，表3所示。S_K＝0.6，S_NK＝0.4时，有关各算法重建出的视点2视频序列的第7 帧的视觉质量比较，参见附图6。

表2不同重建方法的PSNR(dB)对比(理想值：+∞)

表3不同重建方法的SSIM对比(理想值：1)

可以看到，我们提出的方法利用了连续帧之间的时间相关性，同时也利用了视点间的空间相关性，进行联合时空间边信息残差稀疏正则化约束的分布式多视点视频压缩采样重建，与帧内重建和仅利用了时间相关性的DCVS相比，我们重建的视频帧的各项指标均接近理想值。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

参考文献

[1]L.Kang and C.Lu,"Distributed compressive video sensing,"2009IEEEInternational Conference on Acoustics,Speech and Signal Processing,Taipei,2009,pp.1169-1172.

[2]E.W.Tramel and J.E.Fowler,"Video Compressed Sensing withMultihypothesis,"2011Data Compression Conference,Snowbird,UT,2011,pp. 193-202.

[3]C.Zhao,S.Ma,J.Zhang,R.Xiong and W.Gao,"Video Compressive SensingReconstruction via Reweighted Residual Sparsity,"in IEEE Transactions onCircuits and Systems for Video Technology,vol.27,no.6,pp.1182-1195,June 2017.

[4]W.Li,C.Yang and L.Ma,"A multihypothesis-based residualreconstruction scheme in compressed video sensing,"2017 IEEE InternationalConference on Image Processing(ICIP),Beijing,2017,pp.2766-2770.

[5]N.Cen,Z.Guan and T.Melodia,"Interview Motion Compensated JointDecoding for Compressively Sampled Multiview Video Streams,"in IEEETransactions on Multimedia,vol.19,no.6,pp.1117-1126,June 2017.

[6]Y.Liu,D.A.Pados,J.Kim and C.Zhang,"Reconstruction of Compressed-Sensed Multiview Video With Disparity-and Motion-Compensated Total VariationMinimization,"in IEEE Transactions on Circuits and Systems for VideoTechnology,vol.28,no.6,pp.1288-1302,June 2018.

[7]L.Gan,T.T.Do and T.D.Tran,"Fast compressive imaging usingscrambled block Hadamard ensemble,"2008 16th European Signal ProcessingConference, Lausanne,2008,pp.1-5.

[8]L.Ran,G.Zongliang,C.Ziguan,W.Minghu and Z.Xiuchang,"Distributedadaptive compressed video sensing using smoothed projected landweberreconstruction,"in China Communications,vol.10,no.11,pp.58-69,Nov.2013.

[9]https://www.cnblogs.com/naive/p/3579610.html。

Claims

1.一种联合时空边信息的分布式多视点视频压缩采样重建方法，其特征在于，包括如下步骤：

步骤2，对关键帧按照传统的压缩感知的原理进行独立重建；

2.如权利要求1所述的一种联合时空边信息的分布式多视点视频压缩采样重建方法，其特征在于：步骤1中关键帧的采样率高，非关键帧的采样率低，以两个相邻视点为例，假设视点1的关键帧对应的列向量为x_K∈R^N×1，将视点1的非关键帧分为两个部分：视点1与视点2的重叠区域及视点1与视点2的非重叠区域，简称为非关键帧重叠区域和非关键帧非重叠区域；重叠区域及非重叠区域对应的列向量为和用于采样的关键帧、非关键帧重叠区域、非关键帧非重叠区域对应的测量矩阵分别为和其中N表示二维视频帧转换成的一维向量的长度，N₁和N₂分别表示非关键帧的重叠区域和非重叠区域转换成的一维向量的长度，M、M₁和M₂分别表示关键帧、非关键帧重叠区域及非关键帧的非重叠区域的测量数，N＞M，N₁＞M₁，N₂＞M₂，测量率满足测量矩阵选用预随机化的分块哈达玛矩阵(SBHE)，采样过程可表示为：

3.如权利要求1所述的一种联合时空边信息的分布式多视点视频压缩采样重建方法，其特征在于：步骤2的具体实现包括以下子步骤：

步骤2.1，构建压缩感知独立重建优化目标函数：

步骤2.3，由视频帧的稀疏表示向量得到关键帧：

4.如权利要求1所述的一种联合时空边信息的分布式多视点视频压缩采样重建方法，其特征在于：步骤4中生成空间边信息的具体实现方式如下，

即在已知单应性矩阵H的各个参数的情况下，按照一定的比例λ将点(x₁，y₁)映射到点(x₂，y₂)；

5.如权利要求2所述的一种联合时空边信息的分布式多视点视频压缩采样重建方法，其特征在于：步骤5的具体实现包括以下子步骤，

向量f表示对上述最小值函数进行求解过程中的变量，代表(1)式优化求解的结果，即视频帧对应的列向量，代表非关键帧重叠区域的测量值；代表在前面步骤中通过仿射变换所生成的空间边信息所对应的列向量；代表在前面步骤中通过运动估计和运动补偿所生成的时间边信息所对应的列向量；α，β为正则化常数，D是梯度运算符，其中Df＝[D_xf，D_yf]，D_xf＝vec(f(x+1，y)-f(x，y)),D_yf＝vec(f(x，y+1)-f(x，y))；f(x，y)代表向量f对应的二维图像，(x，y)代表二维图像的空间坐标，vec()代表矢量化运算，即将对应的二维矩阵转化为对应的列向量；

步骤5.3，进一步地，令u＝f-p_s，则(3)式可以转化为：

此时，(5)式为标准的全变分正则化约束下的求解问题，直接通过基于FISTA的优化策略求解。

6.如权利要求5所述的一种联合时空边信息的分布式多视点视频压缩采样重建方法，其特征在于：步骤6的具体实现包括以下子步骤，

L为一常数；

步骤6.3，进一步地，令u＝f-p_s，则(8)式可以转化为：

此时，(10)式为标准的全变分正则化约束下的求解问题，直接通过基于FISTA的优化策略求解。