CN108391130B

CN108391130B - 一种面向多视点视频的形状编码方法

Info

Publication number: CN108391130B
Application number: CN201810037557.0A
Authority: CN
Inventors: 朱仲杰; 王玉儿; 杨跃平; 范良忠
Original assignee: Zhejiang Wanli University
Current assignee: Zhejiang Wanli University
Priority date: 2018-01-16
Filing date: 2018-01-16
Publication date: 2021-04-06
Anticipated expiration: 2038-01-16
Also published as: CN108391130A

Abstract

本发明公开了一种面向多视点视频的形状编码方法，特点是包括轮廓的提取与预处理和轮廓活动性分析两大步骤。优点是在前期图像和视频形状编码研究工作的基础上，通过开发轮廓基的运动补偿预测（CB‑MCP）和轮廓基的视差补偿预测技术（CB‑DCP）以充分利用多视点对象形状轮廓的视点间和视点内的时域与空域相关性从而进行高效压缩。

Description

一种面向多视点视频的形状编码方法

技术领域

本发明涉及一种编码方法，尤其是涉及一种面向多视点视频的形状编码方法。

背景技术

多视点视频是一种能够提供多个视点信息和实现立体感知的新型视频。近年来随着3D技术的逐渐成熟和3D视频产业的迅猛崛起，使得具有立体感和高端真实感的多视点视频正发展成为大众化的视觉体验需求，越来越受到学术界和产业界的关注和重视，未来在3D影视、机器视觉、远程医疗、军事航天等领域将有着广泛的应用前景。同时，对象基处理技术具有更好的语义理解、表达和交互性，在图像和和视频领域的应用越来越广泛，如对象基编码、对象基检索、对象基内容分析与理解等。因此，对象基多视点视频技术是未来视频技术的重要发展趋势。在对象基多视点视频应用中，由于形状是进行视觉对象定义、表示与处理的关键信息，因此形状编码是对象基多视点视频应用中的一个核心和关键问题。

形状编码根据原理可以分为基于位图和基于轮廓的编码方法。基于位图的方法一般是将对象形状用一个二值掩模图像表示，对形状编码等效于对二值掩模图像进行编码。此类方法的典型代表有JBIG,JBIG2，MPEG-4CAE等^[1-3](参考文献：[1]CodedRepresentation of Picture and Audio Information–Progressive bi-level imagecompression,ISO/IEC Int.Std.11544,1993；[2]Coded Representation of Picture andAudio Information–Lossy/Lossless coding of Bi-Level Images(JBIG2),ISO/IECInt.Std.14492,2000；[3]Information Technology–Coding of Audio-Visual Objects–Part 2:Visual,ISO/IEC Int. Std.14496-2,1999)。不同于基于位图的方法，基于轮廓的形状编码首先提取对象轮廓，然后对轮廓曲线进行编码，包括基于链码和基于曲线拟合的方法等。

近年来，有很多学者从事形状编码方面的研究并取得了创新性研究成果。例如，参考文献[4]Aghito S M,Forchhammer S.Context-Based Coding of Bilevel ImagesEnhanced by Digital Straight Line Analysis[J].IEEE Trans.on Circuits Systemsfor Video Technology,2006,15(8):2120-2130提出了一种基于算术编码的二值图像形状编码方法，它利用目标轮廓中存在的局部线性边缘来增强算术编码上下文建模的准确性，从而提高编码效率。参考文献[5]Shen Z L,Frater M R,Arnold J F. Quad-Tree Block-Based Binary Shape Coding[J].IEEE Trans.on Circuits and Systems for VideoTechnology, 2008,18(6):845-850提出了一种四分树结构的基于上下文算术编码的形状编码方案。Lai等人研究了率失真优化形状编码中的边缘选择与优化编码问题，提出了基于8分区和16分区的边缘编码方案，可以降低待编码定点数从而提高编码效率^[7](参考文献：[7]Lai Z Y,Zhang F,Lin W S.Operational Rate-Distortion Shape Coding with DualError Regularization[A].In Proceedings of ICIP,2014: 5547-5550)。参考文献[8]Luo H T.Image-Dependent Shape Coding and Representation[J].IEEE Trans.onCircuits and Systems for Video Technology,2005,15(3):345-354提出了一种基于图像相关性的高效形状编码方法，利用图像内容和对象形状之间的相关性来提高编码效率。在参考文献[9]朱仲杰, 王玉儿,蒋刚毅.基于轮廓和链码表示的高效形状编码[J].通信学报,2014,35(8):8-14中，通过分析对象轮廓链码的空域相关性和线性特征，我们前期提出了基于轮廓和链码表示的高效形状编码方法。对于给定的形状图像，提取对象轮廓和细化成严格单像素宽度后将其转换成链码表示，并基于方向相关性将其分割成若干子段，使得每个子段最多包含2个基本方向码，在编码时每个链路只需要一个比特表示。同时结合线性检测，分离出对象轮廓中的长线性子段采用行程编码进行高效压缩。实验结果显示，与其它同类方法相比能大幅提高压缩效率。在此基础上，进一步研究提出了结合空时预测的形状编码方案，通过同时利用轮廓链码的帧内空域相关性和帧间时域相关性进一步提高了编码效率^[10](参考文献：[10]朱仲杰,王玉儿, 蒋刚毅.空时形状预测与高效编码[J].中国图象图形学报,2016,21(1):1-7)。

但上述形状编码主要针对单个视点的图像和视频对象，无法解决多视点视频的形状编码。

发明内容

本发明所要解决的技术问题是提供一种高效的面向多视点视频的形状编码方法。

本发明解决上述技术问题所采用的技术方案为：

一种面向多视点视频的形状编码方法，包括如下步骤：

步骤1：轮廓的提取与预处理：

步骤1-1：给定一个多视点形状视频，对于该给定的多视点形状视频，逐帧提取该多视点形状视频中所有对象的轮廓；

步骤1-2：对上述提取的轮廓进行细化处理，使其在8-邻域内存在2个相邻的轮廓边缘点，该轮廓边缘点既不属于轮廓起始点也不属于轮廓交叉点；

步骤1-3：判定上述轮廓是否有交叉点，如果有交叉点，跳转到步骤1-4；如果没有交叉点，直接跳转到步骤1-5；

步骤1-4：将轮廓交叉点选为特征点，基于该特征点对整个轮廓曲线进行分段，使得每段轮廓边缘存在零个或两个特征点；如果该轮廓曲线是一条封闭曲线，则其有0个特征点，如果该轮廓曲线是一条非封闭曲线，则其有两个特征点；

步骤1-5：使用8方向Freeman链码，逐帧将每段轮廓转换成链码表示的多视点形状视频序列；

步骤2：轮廓活动性分析：

步骤2-1：对于上述步骤1-5中用链码表示的多视点形状视频序列，设Nview表示视点数量，从1开始按顺序给每个视点编号，即视点序号分别为1,2,3，…,Nview-1，选取第

个视点作为主视点，将除主视点外的其它视点作为辅视点，其中

表示不小于

的最小整数；然后将多视点形状视频分割成若干个图片矩阵(MOP)，后续处理时以MOP为单位逐个进行；

针对辅视点，直接进行帧间编码，针对主视点，跳转到下述步骤2-2；

步骤2-2：定义主视点内的第j帧形状图像为f_j(x,y)，其中(x,y)表示像素坐标，将f_j(x,y) 中的子段集合设为

其中

表示第j帧图像的第i个子段，子段

所包含的链路集合用

表示，即

其中，M^j表示子段数量，l_in表示第n个链路，

表示

中的链路总数；

令sa_j表示f_j(x,y)的轮廓活动性，定义如下：

其中，

M^j-1表示f_j(x,y)同视点内前帧图像 f_j-1(x,y)中的子段数量，

表示f_j-1(x,y)中子段

的链路数量；

步骤2-3：设定一个阈值T＝0.5，将上述步骤2-2中得到的各个sa_j值与该阈值T进行对比，若sa_j大于阈值T，则对f_j(x,y)进行帧内编码；若sa_j小于阈值T，则对f_j(x,y)进行帧间编码。

上述步骤1-2中采用8-邻域的单像素宽度对提取的轮廓进行细化处理。

上述步骤2-3中所述的帧内编码包括如下具体步骤：

①基于方向码的种类对每段轮廓边缘进行进一步分割，将其分割成若干轮廓子段，使得每个轮廓子段内最多存在两类方向码；这样对子段内的任一方向码在编码时仅需一个比特即可编码表示；与原始链码中的每个方向码需要3比特相比，可以有效提高压缩效率；

②检查每个轮廓子段中是否存在长直线段，如果存在长直线段，将其分离进行独立编码；

③将未包含有可以分离直线段的子段定义为普通子段，将包含有可以分离直线段的子段标记为特殊子段，对特殊子段中分离出来的直线段进行行程编码，分别编码其起始地址和长度；

④对普通子段分别编码子段类型、子段长度和子段内每个链路的方向码。

在上述步骤②中，设某直线段的长度为K，如果K＞1+2log₂LM_j，则对其进行分离和单独编码，否则不进行分离操作，其中LM_j表示第j段对象轮廓中最长子段的长度。

在上述步骤④中，对子段类型使用3比特固定长度编码，对子段长度采用固定长度编码, 编码位数由N_SL指定，其中，N_SL＝log₂LM_j，对子段内的每个方向码采用一比特进行编码。

对于主视点内的非帧内编码图像和辅视点内的所有图像进行帧间编码，其中对主视点内的非帧内编码图像采用轮廓基的运动补偿预测技术(CB-MCP)进行编码，对辅视点内的图像采用运动补偿预测技术(CB-MCP)与轮廓基的视差补偿预测技术(CB-DCP)进行联合编码。

所述的帧间编码包括如下具体步骤：

将某帧间编码图像定义为f(x,y)，用f^r(x,y)表示f(x,y)的参考帧，对f(x,y)中的第i个子段C_i，令C_i＝{l_in}(n＝0,…,N_i-1)，其运动/视差估计与补偿预测主要分为全局匹配和局部匹配两个关键步骤。

所述的全局匹配包括如下步骤：

在参考帧f^r(x,y)中寻找与C_i最相似的一个子段记为

将

作为参考子段，设

表示f^r(x,y)中的所有轮廓子段集合，M^r表示字段的数量，k表示子段序号，则对于给定子段C_i,其参考子段

可以由下式得到：

其中，

是衡量

和C_i相似性的目标函数，定义如下：

式中

和N_i分别表示

和C_i的长度，α和β是加权系数，X_S()和X_E()分别表示起始端点和终点的坐标矢量，

和P(l|C_i)分别表示

和C_i关于链路l的直方图 l∈{0,1，…，7}。函数

用于计算

和P(l|C_i)之间的相似性，定义如下：

式中，Δ表示一个极小常数以避免分母为0，

表示

中所有链路集合,δ(n)是单位脉冲函数。

所述的局部匹配包括如下步骤：

首先将C_i分割成若干个匹配单元{pu_j}(j＝0,…,N^u-1)，u_l是表示匹配单元长度，N^u表示C_i中匹配单元的数量，即

对C_i中的每个预测单元pu_j以

参考进行一维运动/视差估计以找到与pu_j最相似的一个链路子段，并记录运动/视差位移量sd_j，即

其中，

式中[-a,a]表示搜素范围；

在完成C_i中的所有子段的运动/视差估计后，可以得到C_i经运动/视差补偿后的预测误差

式中，

0≤j≤N^u-1，

与现有技术相比，本发明的优点在于：在前期图像和视频形状编码研究工作的基础上，通过开发轮廓基的运动补偿预测(CB-MCP)和轮廓基的视差补偿预测技术(CB-DCP)以充分利用多视点对象形状轮廓的视点间和视点内的时域与空域相关性从而进行高效压缩。

附图说明

图1为本发明的原理框图；

图2为本发明中基于轮廓和链码表示的帧间预测结构；

图3为本发明实施例中实验仿真的Boy序列左右形状图像；

图4为根据图3提取后的左右轮廓图像；

图5为本发明实施例中实验仿真的Lakeside序列左右形状图像；

图6为根据图5提取后的左右轮廓图像。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

一种面向多视点视频的形状编码方法，包括如下步骤：

步骤1：轮廓的提取与预处理：

步骤2：轮廓活动性分析：

表示不小于

其中

表示第j帧图像的第i个子段，子段

所包含的链路集合用

表示，即

其中，M^j表示子段数量，l_in表示第n个链路，

表示

中的链路总数；

令sa_j表示f_j(x,y)的轮廓活动性，定义如下：

其中，

M^j-1表示f_j(x,y)同视点内前帧图像 f_j-1(x,y)中的子段数量，

表示f_j-1(x,y)中子段

的链路数量；

上述步骤2-3中所述的帧内编码包括如下具体步骤：

所述的帧间编码包括如下具体步骤：

所述的全局匹配包括如下步骤：

在参考帧f^r(x,y)中寻找与C_i最相似的一个子段记为

将

作为参考子段，设

可以由下式得到：

其中，

是衡量

和C_i相似性的目标函数，定义如下：

式中

和N_i分别表示

和P(l|C_i)分别表示

和C_i关于链路l的直方图 l∈{0,1，…，7}。函数

用于计算

和P(l|C_i)之间的相似性，定义如下：

式中，Δ表示一个极小常数以避免分母为0，

表示

中所有链路集合,δ(n)是单位脉冲函数。

所述的局部匹配包括如下步骤：

对C_i中的每个预测单元pu_j以

其中，

式中[-a,a]表示搜素范围；

式中，

0≤j≤N^u-1,

为了验证上述方法的性能，进行了实验仿真，如图3至图6所示，与现有方法比较，得到如下表1所示的比较结果：

表1本发明与现有方法的比较结果(u_l＝9，a＝32)

Claims

1.一种面向多视点视频的形状编码方法，其特征在于包括如下步骤：

步骤1：轮廓的提取与预处理：

步骤2：轮廓活动性分析：

表示不小于

步骤2-2：定义主视点内的第j帧形状图像为f_j(x,y)，其中(x,y)表示像素坐标，将f_j(x,y)中的子段集合设为

其中

表示第j帧图像的第i个子段，子段

所包含的链路集合用

表示，即

其中，M^j表示子段数量，l_in表示第n个链路，

表示

中的链路总数；

令sa_j表示f_j(x,y)的轮廓活动性，定义如下：

其中，

M^j-1表示f_j(x,y)同视点内前帧图像f_j-1(x,y)中的子段数量，

表示f_j-1(x,y)中子段

的链路数量；

2.如权利要求1所述的一种面向多视点视频的形状编码方法，其特征在于上述步骤1-2中采用8-邻域的单像素宽度对提取的轮廓进行细化处理。

3.如权利要求1所述的一种面向多视点视频的形状编码方法，其特征在于上述步骤2-3中所述的帧内编码包括如下具体步骤：

4.如权利要求3所述的一种面向多视点视频的形状编码方法，其特征在于在上述步骤②中，设某直线段的长度为K，如果K＞1+2log₂LM_j，则对其进行分离和单独编码，否则不进行分离操作，其中LM_j表示第j段对象轮廓中最长子段的长度。

5.如权利要求4所述的一种面向多视点视频的形状编码方法，其特征在于在上述步骤④中，对子段类型使用3比特固定长度编码，对子段长度采用固定长度编码,编码位数由N_SL指定，其中，N_SL＝log₂LM_j，对子段内的每个方向码采用一比特进行编码。

6.如权利要求1所述的一种面向多视点视频的形状编码方法，其特征在于对于主视点内的非帧内编码图像和辅视点内的所有图像进行帧间预测补偿编码，其中对主视点内的非帧内编码图像采用CB-MCP进行编码，对辅视点内的图像采用CB-MCP与CB-DCP进行联合编码。

7.如权利要求6所述的一种面向多视点视频的形状编码方法，其特征在于所述的帧间编码包括如下具体步骤：将某帧间编码图像定义为f(x,y)，用f^r(x,y)表示f(x,y)的参考帧，对f(x,y)中的第i个子段C_i，令C_i＝{l_in}(n＝0,…,N_i-1)，其运动/视差估计与补偿预测主要分为全局匹配和局部匹配两个关键步骤。

8.如权利要求7所述的一种面向多视点视频的形状编码方法，其特征在于所述的全局匹配包括如下步骤：

在参考帧f^r(x,y)中寻找与C_i最相似的一个子段记为