CN104244008A

CN104244008A - 一种深度视频编码方法

Info

Publication number: CN104244008A
Application number: CN201410464387.6A
Authority: CN
Inventors: 邵枫; 李祖团; 郁梅; 李福翠
Original assignee: Ningbo University
Current assignee: Huzhou You Yan Intellectual Property Service Co., Ltd.
Priority date: 2014-09-12
Filing date: 2014-09-12
Publication date: 2014-12-24
Anticipated expiration: 2034-09-12
Also published as: CN104244008B

Abstract

本发明公开了一种深度视频编码方法，其根据深度失真对虚拟视点图像绘制的影响，得到原始深度视频图像的最大可容忍失真分布图像，然后计算对原始深度视频图像进行宏块层编码的编码量化参数，接着计算对原始深度视频图像进行宏块层编码的率失真代价函数，最后采用HBP编码预测结构并根据已确立的编码量化参数和率失真代价函数对原始深度视频图像进行编码，优点是本发明方法在保证虚拟视点图像绘制性能的基础上，充分地消除了深度视频的视觉冗余信息，大大提高了深度视频图像的编码效率，并大大降低了深度视频图像的编码复杂度。

Description

一种深度视频编码方法

技术领域

本发明涉及一种视频信号的编码压缩方法，尤其是涉及一种深度视频编码方法。

背景技术

进入本世纪以来，随着数字2D(二维)视频技术日趋成熟，以及计算机、通信及网络技术的快速发展，引发了人们对新一代视频系统的强烈需求。现行的二维视频系统在表现自然场景时，难以满足用户的立体感和视点交互等的需求。三维视频系统由于能够提供立体感、视点交互性的全新视觉体验而越来越受到人们的欢迎，因此在无线视频通信、影视娱乐、数字动漫、虚拟战场、旅游观光、远程教学等领域有着广泛的应用前景。与单通道视频相比，三维视频由于包含了深度视频信息，其数据量要远远大于传统二维视频的数据量，因此在不影响三维视频主观质量的前提下，尽可能地降低三维视频的数据量以提高编码效率是一个亟需解决的问题。

然而，直接采用彩色视频编码方法对深度视频编码，会存在如下的问题：1)深度视频编码会对后续的虚拟视点绘制产生影响，其不同区域具有不同的深度敏感保真度(depth sensitivity fidelity)，而传统的视频编码器并没有考虑这个因素；2)根据深度视频的数据特性，其纹理较为简单，包含较多的平坦区域，这样不同的区域根据其重要性应当分配不同的计算负载，而传统的视频编码器给所有的区域分配相同的计算负载。因此，如何更好地利用深度视频图像的深度敏感保真度，以保证获得最优编码效率、计算复杂度和绘制质量，是一个亟需解决的问题。

发明内容

本发明所要解决的技术问题是提供一种能够充分地消除深度视频的视觉冗余信息，并能够有效地降低深度视频编码复杂度的深度视频编码方法。

本发明解决上述技术问题所采用的技术方案为：一种深度视频编码方法，其特征在于包括以下步骤：

①将三维视频中t时刻的原始彩色视频图像和t时刻的原始深度视频图像对应记为{I_t,i(x,y)}和{D_t(x,y)}，其中，i＝1,2,3分别表示YUV颜色空间的三个分量，YUV颜色空间的第1个分量为亮度分量并记为Y、第2个分量为第一色度分量并记为U及第3个分量为第二色度分量并记为V，(x,y)表示{I_t,i(x,y)}和{D_t(x,y)}中的像素点的坐标位置，1≤x≤W，1≤y≤H，W表示{I_t,i(x,y)}和{D_t(x,y)}的宽度，H表示{I_t,i(x,y)}和{D_t(x,y)}的高度，I_t,i(x,y)表示{I_t,i(x,y)}中坐标位置为(x,y)的像素点的第i个分量的值，D_t(x,y)表示{D_t(x,y)}中坐标位置为(x,y)的像素点的深度值；

②根据{I_t,i(x,y)}中的每个像素点的第1个分量的值，获取{D_t(x,y)}中的每个像素点的左方向最大可容忍失真值和右方向最大可容忍失真值；然后根据{D_t(x,y)}中的每个像素点的左方向最大可容忍失真值和右方向最大可容忍失真值，提取出{D_t(x,y)}的最大可容忍失真分布图像，记为{S_t(x,y)}，其中，S_t(x,y)表示{S_t(x,y)}中坐标位置为(x,y)的像素点的最大可容忍失真值；

③对{D_t(x,y)}和{S_t(x,y)}分别进行分子块处理，然后根据{S_t(x,y)}中的所有像素点的最大可容忍失真值的均值及{S_t(x,y)}中的每个子块中的所有像素点的最大可容忍失真值的均值，获取对{D_t(x,y)}中的每个子块进行编码的编码量化参数和宏块模式选择的率失真代价函数；

④采用HBP编码预测结构，并根据已确立的编码量化参数和宏块模式选择的率失真代价函数，对{D_t(x,y)}中的每个子块进行编码，完成{D_t(x,y)}的编码过程。

所述的步骤②的具体过程为：

②-1、将{D_t(x,y)}中当前待处理的像素点定义为当前像素点；

②-2、将当前像素点的坐标位置记为(x₁,y₁)，如果1≤x₁≤W且y₁＝1，则直接将当前像素点的横坐标作为当前像素点的左方向最大可容忍失真值，记为δ_l(x₁,y₁)，如果1≤x₁≤W且1<y₁≤H，则在{I_t,i(x,y)}中位于坐标位置为(x₁,y₁)的像素点的水平左侧的所有像素点中，找出第1个分量的值与坐标位置为(x₁,y₁)的像素点的第1个分量的值相等的所有像素点，再计算找出的每个像素点的横坐标与坐标位置为(x₁,y₁)的像素点的横坐标x₁的横坐标差值，最后将所有横坐标差值中值最小的横坐标差值作为当前像素点的左方向最大可容忍失真值，记为δ_l(x₁,y₁)；同样，如果1≤x₁≤W且y₁＝H，则直接将当前像素点的横坐标作为当前像素点的右方向最大可容忍失真值，记为δ_r(x₁,y₁)，如果1≤x₁≤W且1≤y₁<H，则在{I_t,i(x,y)}中位于坐标位置为(x₁,y₁)的像素点的水平右侧的所有像素点中，找出第1个分量的值与坐标位置为(x₁,y₁)的像素点的第1个分量的值相等的所有像素点，再计算找出的每个像素点的横坐标与坐标位置为(x₁,y₁)的像素点的横坐标x₁的横坐标差值，最后将所有横坐标差值中值最大的横坐标差值作为当前像素点的右方向最大可容忍失真值，记为δ_r(x₁,y₁)；其中，1≤x₁≤W，1≤y₁≤H；

②-3、根据δ_l(x₁,y₁)和δ_r(x₁,y₁)，确定当前像素点的最大可容忍失真值，记为S_t(x₁,y₁)，S_t(x₁,y₁)＝min(|δ_l(x₁,y₁)|,|δ_r(x₁,y₁)|)，其中，min()为取最小值函数，符号“||”为取绝对值符号；

②-4、将{D_t(x,y)}中下一个待处理的像素点作为当前像素点，然后返回步骤②-2继续执行，直至{D_t(x,y)}中的所有像素点处理完毕，得到{D_t(x,y)}的最大可容忍失真分布图像，记为{S_t(x,y)}，其中，S_t(x,y)表示{S_t(x,y)}中坐标位置为(x,y)的像素点的最大可容忍失真值。

所述的步骤③的具体过程为：

③-1、计算{S_t(x,y)}中的所有像素点的最大可容忍失真值的均值，记为然后将{D_t(x,y)}和{S_t(x,y)}分别划分成个互不重叠的尺寸大小为16×16的子块，将{D_t(x,y)}中当前待处理的第k个子块定义为当前第一子块，记为{f_t ^D(x₂,y₂)}，将{S_t(x,y)}中当前待处理的第k个子块定义为当前第二子块，记为{f_t ^S(x₂,y₂)}，其中，(x₂,y₂)表示{f_t ^D(x₂,y₂)}和{f_t ^S(x₂,y₂)}中的像素点的坐标位置，1≤x₂≤16,1≤y₂≤16，f_t ^D(x₂,y₂)表示当前第一子块{f_t ^D(x₂,y₂)}中坐标位置为(x₂,y₂)的像素点的深度值，f_t ^S(x₂,y₂)表示当前第二子块{f_t ^S(x₂,y₂)}中坐标位置为(x₂,y₂)的像素点的最大可容忍失真值；

③-2、计算当前第二子块{f_t ^S(x₂,y₂)}中的所有像素点的最大可容忍失真值的均值，记为M_t；

③-3、获取对当前第一子块f_t ^D(x₂,y₂)进行编码的编码量化参数，记为QP_t，

{QP}_{t} = round (\frac{{QP}_{base}}{\sqrt{a + \frac{b}{1 + \exp (- c \times (M_{t} - \overset{&OverBar;}{M}) / \overset{&OverBar;}{M})}}}),

其中，round()为四舍五入函数，QP_base为对{D_t(x,y)}进行编码的基本量化步长，exp()表示以自然基数e为底的指数函数，a、b和c为控制参数；

③-4、获取对当前第一子块f_t ^D(x₂,y₂)进行编码的宏块模式选择的率失真代价函数，记为J_k，J_k＝D_d+λ_V,k×D_V+λ_R,k×R_d，其中，D_d表示以QP_t对当前第一子块f_t ^D(x₂,y₂)进行编码的编码失真，ΔD(x₂,y₂)表示以QP_t对当前第一子块f_t ^D(x₂,y₂)进行编码时当前第一子块f_t ^D(x₂,y₂)中坐标位置为(x₂,y₂)的像素点的编码失真，D_v表示对以QP_t对当前第一子块f_t ^D(x₂,y₂)进行编码得到的解码第一子块进行虚拟视点图像绘制的绘制失真，

D_{v} = Σ_{x_{2} = 1}^{16} Σ_{y_{2} = 1}^{16} {| α \times ΔD (x_{2}, y_{2}) \times &dtri; I (x_{2,} y_{2}) |}^{2},

f表示水平相机阵列中各相机的水平焦距，L表示{I_t,i(x,y)}所在的视点与虚拟视点之间的基线距离，Z_near表示最小的场景深度值，Z_far表示最大的场景深度值，表示当前第一子块f_t ^D(x₂,y₂)中坐标位置为(x₂,y₂)的像素点的梯度值，R_d表示以QP_t对当前第一子块f_t ^D(x₂,y₂)进行编码的码率，符号“||”为取绝对值符号，λ_V,k和λ_R,k为拉格朗日参数，μ为调节参数，λ_R,k＝(1+λ_V,k×α²×β)×λ_mode，β表示当前第一子块f_t ^D(x₂,y₂)中的所有像素点的梯度的平方之和，，

β = Σ_{x_{2} = 1}^{16} Σ_{y_{2} = 1}^{16} {| &dtri; I (x_{2}, y_{2}) |}^{2},

λ_mode表示拉格朗日参数，

λ_{mode} = 0.85 \times 2^{({QP}_{t} - 12) / 3};

③-5、令k'＝k+1，k＝k'，将{D_t(x,y)}中的下一个待处理的子块作为当前第一子块，将{S_t(x,y)}中的下一个待处理的子块作为当前第二子块，然后返回步骤③-2继续执行，直至{D_t(x,y)}和{S_t(x,y)}中的所有子块均处理完毕，其中，k'的初始值为0，k'＝k+1和k＝k'中的“＝”为赋值符号。

与现有技术相比，本发明的优点在于：

1)本发明方法根据原始深度视频图像的最大可容忍失真分布图像，获取对深度视频图像中的每个子块进行编码的编码量化参数(对最大可容忍失真值较小的子块采用较小的量化步长进行编码，对最大可容忍失真值较大的子块采用较大的量化步长进行编码)，这样在保证虚拟视点图像绘制性能的基础上，充分地消除了深度视频的视觉冗余信息，大大提高了深度视频图像的编码效率。

2)本发明方法根据原始深度视频图像的最大可容忍失真分布图像修改原始深度视频图像进行宏块层编码的率失真代价函数，对最大可容忍失真值较小的区域，在率失真代价函数中增加绘制失真这一项，而最大可容忍失真值较大的区域，则在率失真代价函数中去掉绘制失真这一项，这样在保证虚拟视点图像绘制性能的基础上，大大降低了深度视频的编码复杂度。

附图说明

图1为本发明方法的流程框图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种深度视频编码方法，其流程框图如图1所示，其包括以下步骤：

①将三维视频中t时刻的原始彩色视频图像和t时刻的原始深度视频图像对应记为{I_t,i(x,y)}和{D_t(x,y)}，其中，i＝1,2,3分别表示YUV颜色空间的三个分量，YUV颜色空间的第1个分量为亮度分量并记为Y、第2个分量为第一色度分量并记为U及第3个分量为第二色度分量并记为V，(x,y)表示{I_t,i(x,y)}和{D_t(x,y)}中的像素点的坐标位置，1≤x≤W，1≤y≤H，W表示{I_t,i(x,y)}和{D_t(x,y)}的宽度，H表示{I_t,i(x,y)}和{D_t(x,y)}的高度，I_t,i(x,y)表示{I_t,i(x,y)}中坐标位置为(x,y)的像素点的第i个分量的值，D_t(x,y)表示{D_t(x,y)}中坐标位置为(x,y)的像素点的深度值。

②根据{I_t,i(x,y)}中的每个像素点的第1个分量的值，获取{D_t(x,y)}中的每个像素点的左方向最大可容忍失真值和右方向最大可容忍失真值；然后根据{D_t(x,y)}中的每个像素点的左方向最大可容忍失真值和右方向最大可容忍失真值，提取出{D_t(x,y)}的最大可容忍失真分布图像，记为{S_t(x,y)}，其中，S_t(x,y)表示{S_t(x,y)}中坐标位置为(x,y)的像素点的最大可容忍失真值。

在此具体实施例中，步骤②的具体过程为：

②-1、将{D_t(x,y)}中当前待处理的像素点定义为当前像素点。

②-2、将当前像素点的坐标位置记为(x₁,y₁)，如果1≤x₁≤W且y₁＝1，则直接将当前像素点的横坐标作为当前像素点的左方向最大可容忍失真值，记为δ_l(x₁,y₁)，如果1≤x₁≤W且1<y₁≤H，则在{I_t,i(x,y)}中位于坐标位置为(x₁,y₁)的像素点的水平左侧的所有像素点中，找出第1个分量的值与坐标位置为(x₁,y₁)的像素点的第1个分量的值相等的所有像素点，再计算找出的每个像素点的横坐标与坐标位置为(x₁,y₁)的像素点的横坐标x₁的横坐标差值，最后将所有横坐标差值中值最小的横坐标差值作为当前像素点的左方向最大可容忍失真值，记为δ_l(x₁,y₁)；同样，如果1≤x₁≤W且y₁＝H，则直接将当前像素点的横坐标作为当前像素点的右方向最大可容忍失真值，记为δ_r(x₁,y₁)，如果1≤x₁≤W且1≤y₁<H，则在{I_t,i(x,y)}中位于坐标位置为(x₁,y₁)的像素点的水平右侧的所有像素点中，找出第1个分量的值与坐标位置为(x₁,y₁)的像素点的第1个分量的值相等的所有像素点，再计算找出的每个像素点的横坐标与坐标位置为(x₁,y₁)的像素点的横坐标x₁的横坐标差值，最后将所有横坐标差值中值最大的横坐标差值作为当前像素点的右方向最大可容忍失真值，记为δ_r(x₁,y₁)；其中，1≤x₁≤W，1≤y₁≤H。

②-3、根据δ_l(x₁,y₁)和δ_r(x₁,y₁)，确定当前像素点的最大可容忍失真值，记为S_t(x₁,y₁)，S_t(x₁,y₁)＝min(|δ_l(x₁,y₁)|,|δ_r(x₁,y₁)|)，其中，min()为取最小值函数，符号“||”为取绝对值符号。

③对{D_t(x,y)}和{S_t(x,y)}分别进行分子块处理，然后根据{S_t(x,y)}中的所有像素点的最大可容忍失真值的均值及{S_t(x,y)}中的每个子块中的所有像素点的最大可容忍失真值的均值，获取对{D_t(x,y)}中的每个子块进行编码的编码量化参数和宏块模式选择的率失真代价函数。

在此具体实施例中，步骤③的具体过程为：

③-1、计算{S_t(x,y)}中的所有像素点的最大可容忍失真值的均值，记为然后将{D_t(x,y)}和{S_t(x,y)}分别划分成个互不重叠的尺寸大小为16×16的子块，将{D_t(x,y)}中当前待处理的第k个子块定义为当前第一子块，记为{f_t ^D(x₂,y₂)}，将{S_t(x,y)}中当前待处理的第k个子块定义为当前第二子块，记为{f_t ^S(x₂,y₂)}，其中，(x₂,y₂)表示{f_t ^D(x₂,y₂)}和{f_t ^S(x₂,y₂)}中的像素点的坐标位置，1≤x₂≤16,1≤y₂≤16，f_t ^D(x₂,y₂)表示当前第一子块{f_t ^D(x₂,y₂)}中坐标位置为(x₂,y₂)的像素点的深度值，f_t ^S(x₂,y₂)表示当前第二子块{f_t ^S(x₂,y₂)}中坐标位置为(x₂,y₂)的像素点的最大可容忍失真值。

③-2、计算当前第二子块{f_t ^S(x₂,y₂)}中的所有像素点的最大可容忍失真值的均值，记为M_t。

{QP}_{t} = round (\frac{{QP}_{base}}{\sqrt{a + \frac{b}{1 + \exp (- c \times (M_{t} - \overset{&OverBar;}{M}) / \overset{&OverBar;}{M})}}}),

其中，round()为四舍五入函数，QP_base为对{D_t(x,y)}进行编码的基本量化步长，exp()表示以自然基数e为底的指数函数，e＝2.71828183，a、b和c为控制参数，在本实施例中取a＝0.7、b＝0.6和c＝4。

D_{v} = Σ_{x_{2} = 1}^{16} Σ_{y_{2} = 1}^{16} {| α \times ΔD (x_{2}, y_{2}) \times &dtri; I (x_{2,} y_{2}) |}^{2},

f表示水平相机阵列中各相机的水平焦距，L表示{I_t,i(x,y)}所在的视点与虚拟视点之间的基线距离，Z_near表示最小的场景深度值，Z_far表示最大的场景深度值，f、L、Z_near和Z_far的值根据具体的测试序列确定，表示当前第一子块f_t ^D(x₂,y₂)中坐标位置为(x₂,y₂)的像素点的梯度值，R_d表示以QP_t对当前第一子块f_t ^D(x₂,y₂)进行编码的码率，符号“||”为取绝对值符号，λ_V,k和λ_R,k为拉格朗日参数，μ为调节参数，在本实施例中取μ＝0.5，λ_R,k＝(1+λ_V,k×α²×β)×λ_mode，β表示当前第一子块f_t ^D(x₂,y₂)中的所有像素点的梯度的平方之和，λ_mode表示拉格朗日参数，

λ_{mode} = 0.85 \times 2^{({QP}_{t} - 12) / 3} .

由于D_d会对后续的虚拟视点图像绘制产生影响，因此本发明方法根据D_d和{I_t,i(x,y)}估计得到D_v，

D_{v} = Σ_{x_{2} = 1}^{16} Σ_{y_{2} = 1}^{16} {| α \cdot ΔD (x_{2}, y_{2}) \cdot &dtri; I (x_{2,} y_{2}) |}^{2};

最优宏块模式选择可用方程表示为：这样参数λ_R,k的计算公式为：表示对D_d进行求导操作，直接表示为：表示对D_d进行求导操作，近似表示为：

\frac{{&PartialD; D}_{v}}{&PartialD; R_{d}} = \frac{&PartialD; {Σ_{x_{2} = 1}^{16} Σ_{y_{2} = 1}^{16} {| α \cdot ΔD (x_{2}, y_{2}) \cdot &dtri; I (x_{2}, y_{2}) |}^{2}}}{&PartialD; R_{d}} {\leq α}^{2} \cdot {Σ_{x_{2} = 1}^{16} Σ_{y_{2} = 1}^{16} {| &dtri; I (x_{2}, y_{2}) |}^{2}} \cdot \frac{&PartialD; {Σ_{x_{2} = 1}^{16} Σ_{y_{2} = 1}^{16} {| ΔD (x_{2}, y_{2}) |}^{2}}}{{&PartialD; R}_{d}},

而

\frac{&PartialD; {Σ_{x_{2} = 1}^{16} Σ_{y_{2} = 1}^{16} {| ΔD (x_{2}, y_{2}) |}^{2}}}{&PartialD; R_{d}} = \frac{&PartialD; D_{d}}{&PartialD; R_{d}} = - λ_{mode},

则

\frac{&PartialD; D_{v}}{&PartialD; R_{d}} \approx - α^{2} {\times β \times λ}_{mode}, β = Σ_{x_{2} = 1}^{16} Σ_{y_{2} = 1}^{16} {| &dtri; I (x_{2}, y_{2}) |}^{2},

再根据估计得到的和参数λ_R,k可表示为：λ_R,k＝(1+λ_V,k×α²×β)×λ_mode。

④采用公知的HBP编码预测结构，并根据已确立的编码量化参数和宏块模式选择的率失真代价函数，对{D_t(x,y)}中的每个子块进行编码，完成{D_t(x,y)}的编码过程。

以下就利用本发明方法与现有的深度视频编码方法分别对“Balloons”、“BookArrival”、“GT Fly”、“Kendo”、“Newspaper”、“Poznan Street”和“Undo Dance”三维视频测试序列中的深度视频进行编码的编码复杂度进行比较。

在本实施例中，“Balloons”三维立体视频测试序列的f、Z_near和Z_far分别为2241.25607、448.251214和11206.280350、“Book Arrival”三维立体视频测试序列的f、Z_near和Z_far分别为1399.466666666666、23.175928和54.077165、“GT Fly”三维立体视频测试序列的f、Z_near和Z_far分别为70625、662000和2519.92835，“Kendo”三维立体视频测试序列的f、Z_near和Z_far分别为448.251214、11206.280350和2241.25607，“Newspaper”三维立体视频测试序列的f、Z_near和Z_far分别为2929.4940521927465、-2715.181648和-9050.605493，“Poznan Street”三维立体视频测试序列的f、Z_near和Z_far分别为1732.875727、-34.506386和-2760.510889，“Undo Dance”三维立体视频测试序列的f、Z_near和Z_far分别为2302.852541609168、2289和213500。

在现有的深度视频编码方法中，对原始深度视频图像进行宏块层编码的率失真代价函数为J_k＝D_d+D_V+λ_mode×R_d，D_V通过对每个宏块都进行虚拟视点图像绘制来计算得到，其计算复杂度较高。表1给出了利用本发明方法与现有的深度视频编码方法分别对上述7个三维视频测试序列中的深度视频进行编码的编码复杂度比较，从表1中所列的数据可以看出，采用本发明方法编码的编码复杂度与采用现有的深度视频编码方法编码的编码复杂度相比，最低平均能降低10.98％左右，最高平均能降低26.07％左右，足以说明本发明方法是有效可行的。

表1利用本发明方法与现有的深度视频编码方法进行深度视频编码的编码复杂度比较

Claims

1.一种深度视频编码方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种深度视频编码方法，其特征在于所述的步骤②的具体过程为：

②-1、将{D_t(x,y)}中当前待处理的像素点定义为当前像素点；

3.根据权利要求1或2所述的一种深度视频编码方法，其特征在于所述的步骤③的具体过程为：

{QP}_{t} = round (\frac{{QP}_{base}}{\sqrt{a + \frac{b}{1 + \exp (- c \times (M_{t} - \overset{&OverBar;}{M}) / \overset{&OverBar;}{M})}}}),

D_{v} = Σ_{x_{2} = 1}^{16} Σ_{y_{2} = 1}^{16} {| α \times ΔD (x_{2}, y_{2}) \times &dtri; I (x_{2,} y_{2}) |}^{2},

β = Σ_{x_{2} = 1}^{16} Σ_{y_{2} = 1}^{16} {| &dtri; I (x_{2}, y_{2}) |}^{2},

λ_mode表示拉格朗日参数，

λ_{mode} = 0.85 \times 2^{({QP}_{t} - 12) / 3};