CN1874520A

CN1874520A - 一种交互式多视点视频的编码方法

Info

Publication number: CN1874520A
Application number: CNA2006100893986A
Authority: CN
Inventors: 孙立峰; 谢剑; 钟玉琢
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2006-06-23
Filing date: 2006-06-23
Publication date: 2006-12-06
Anticipated expiration: 2026-06-23
Also published as: CN100438632C

Abstract

本发明涉及一种交互式多视点视频的编码方法，属于信息传播技术领域，该方法将多个摄像机同步采集下来的各路视频数据按照其采集的相邻位置依次分成多个视点组，每个视点组视点数目相同；视点组内采用视点间关联预测编码，各视点组采用相同的方法编码。本发明可以支持并行处理，提供较高的编码压缩效率和较低的单路视点解码代价，并支持快速的视点切换。能满足现有技术条件下的多视点视频应用。

Description

一种交互式多视点视频的编码方法

技术领域

本发明属于信息传播技术领域，涉及一种交互式多视点视频的编码方法，尤其涉及多视点视频编码预测结构的设计。

背景技术

网络化、交互性和真实感是视频技术的发展方向。一方面，用户希望能够充分参与到视频应用中，人和计算机的关系从被动发展到主动，从而充分实现每个人的个性化需求；另一方面，真实世界是一个三维环境，而传统的视频主要基于二维的表达方式，虽然在某些程度上表现了三维信息，用户要求获得更加真实的体验和感受。多视点视频则是针这样的交互式视频应用提出的，涵盖了双目立体视频与多视点视频播放，解决三维交互视频的表现、交互、存储和传输等问题。交互式多视点视频使得用户在一定程度上具有主动性而不是仅仅作为被动的消费者，通过自由选择视点对可视场景浏览的能力，有助提高用户的现场真实感。

多视点视频编码方法的研究是多视点视频技术研究中的核心问题。一方面，多视点视频少则几个，多则上百个视点数据，其数据量极其巨大。如何有效地组织和高效地压缩多视点视频数据是其应用面临的首要也是最为重要的挑战。另一方面，多路视频由于拍摄的是同一场景，同步的记录，视点相互间具有时间和空间上的关联。这些时空关联信息可以帮助我们压缩多视点视频时间轴冗余和空间轴冗余，从而使得实现高效的多视点视频的编码成为可能。

已有的多视点视频编码方法Simulcast，如图1所示，采用采集后的各路视频直接进行独立编码的方法，即各个视点视频都采用一样对应的视频帧组(GOP)长度和结构，选取各GOP开头视频帧I作为关键帧，首先对关键帧使用帧内编码模式编码，其余帧P以参考时间轴上的前一帧作预测对其进行帧间预测编码。该编码方法没有考虑各路视频视点间的相关性，编码效率低，不能很好的支持快速视点切换。

发明内容：

本发明的目的是为克服已有技术的不足之处，提出一种交互式多视点视频的编码方法，对多视点视频进行分组，并对GOP的预测结构和关键帧进行改进，本发明的编码方法可以支持并行处理，提供较高的编码压缩效率和较低的单路视点解码代价，并支持快速的视点切换。能满足现有技术条件下的多视点视频应用。

本发明提出的一种交互式多视点视频的编码方法，其特征在于，将多个摄像机同步采集下来的各路视频数据按照其采集的相邻位置依次分成多个视点组，每个视点组视点数目相同；视点组内采用视点间关联预测编码，各视点组采用相同的方法编码。

本发明的特点及效果：

本方法中，通过以上关键帧的选取，改进的GOP预测结构，关键帧的编码，非关键帧的编码的步骤，确定了一种综合考虑多视点视频的压缩效率，单路视点解码代价，视点切换延时，并行处理等需求的完整的多视点视频编码方案。每各个视点组都按照这样的方案编码，视点组之间编码过程相互独立。该编码方案可以支持并行处理，提供较高的编码压缩效率和较低的单路视点解码代价，并支持快速的视点切换。

附图说明：

图1为已有的多视点视频编码方法Simulcast编码预测结构示意图；

图2为本发明的视点组中各路视频关键帧的选取示意图；

图3为本发明的一个视点组的编码预测结构实施例示意图。

具体实施方式：

本发明提出的一种交互式多视点视频的编码方法，结合附图及实施例详细说明如下：

本发明提出的一种交互式多视点视频的编码方法，其特征在于，将多个摄像机同步采集下来的各路视频数据按照其采集的相邻位置依次分成若干个视点组，每个视点组视点数目相同(每组所包含的视点数目可根据编码服务器性能，网络传输带宽，用户对视频量的要求等因素确定。一般选取奇数，不足视点数目作为最后一组)；视点组内采用视点间关联预测编码，各视点组采用相同的方法编码。

上述视点组内采用视点间关联预测编码方法，包括以下步骤：

1)视点组中各个视点视频都采用同样GOP长度，对应的GOP时间轴起始位置相同；

2)选取视点组中同一时刻的各GOP中位于时间轴中间的视频帧作为关键帧I，如图2所示，图中，实线框为某一个视点组，时间轴方向的一个虚线框为一个GOP，视点轴方向的一个虚线框为同一时刻各GOP的关键帧，各关键帧均位于同一时刻；

3)首先对视点组中位于视点轴中间的GOP的关键帧I(即图中涂阴影的方块)采用帧内编码模式进行编码；

4)从中间视点到两旁视点依次对各GOP的关键帧I进行预测编码；即：位于中间视点左侧各视点的关键帧均通过其右侧紧邻视点关键帧预测编码；位于中间视点右侧各视点的关键帧均通过其左侧紧邻视点关键帧预测编码；

5)对视点组内所述同一时刻的各GOP非关键帧进行预测编码，即：各GOP中时间轴上的第一帧P通过参考该GOP到视点轴中间GOP之间的各个关键帧I(包括该GOP和中间GOP的关键帧)预测编码，第二帧P参考该第一帧P和该GOP到视点轴中间GOP之间的各个关键帧I预测编码，其后视频帧P都参考前一帧P和该GOP到视点轴中间GOP之间的各个关键帧I预测编码；直到该GOP的关键帧I的上一帧预测编码完成；

6)各GOP中在时间轴上关键帧的下一帧P通过参考该GOP到视点轴中间GOP之间的各个关键帧I(包括该GOP和中间GOP的关键帧)预测编码，其后视频帧P都参考前一帧和该GOP到视点轴中间GOP之间的各个关键帧I预测编码；直到该GOP末尾帧P预测编码完成；

7)沿时间轴依次对各GOP按照步骤2)一步骤6)的相同方法进行编码，直到该视点组编码结束；

8)各视点组按照步骤1)一步骤7)的相同方法进行编码，直到所有视点组编码结束。

上述编码方法的解码过程，按照编码的顺序进行解码，即：首先对视点组的同一时刻的各GOP中位于时间轴中间的关键帧I进行解码，然后依次解码中间视点到该视点之间的各个关键帧I，再按照时间轴顺序解码该GOP中的各视频帧P。

具体的解码过程包括以下步骤：

1)首先对视点组的同一时刻的各GOP中位于时间轴中间的视频帧作为关键帧进行解码；

2)依次解码中间视点到该视点之间的各个关键帧；

3)各GOP中时间轴上的第一帧通过参考该GOP到视点轴中间GOP之间的各个关键帧(包括该GOP和中间GOP的关键帧)解码，第二帧参考该第一帧和该GOP到视点轴中间GOP之间的各个关键帧解码，其后视频帧都参考前一帧和该GOP到视点轴中间GOP之间的各个关键帧解码；直到该GOP的关键帧；

4)各GOP中时间轴上紧接着关键帧的视频帧通过参考该GOP到视点轴中间GOP之间的各个关键帧(包括该GOP和中间GOP的关键帧)解码，其后视频帧都参考前一帧和该GOP到视点轴中间GOP之间的各个关键帧解码；直到该GOP末尾帧编码完成；

5)对该视点沿时间轴依次对各GOP按照步骤1)-步骤4)的相同方法进行解码。

本发明方法中涉及的帧内编码模式进行编码、预测编码及相应的解码具体方法均为本领域的常规技术。

本发明结合需要编码包含10个视点的多视点视频的具体情况作为实施例对上述交互式多视点视频的编码方法进一步说明。

本实施例首先将10个视点分为分别包含5个和5个视点的两个视点组；其一个视点组的编码方法如图3所示，包括以下步骤：

1)视点组中各个视点视频采用15帧同样的GOP长度，对应的GOP时间轴起始位置相同；

2)选取视点组中同一时刻的各GOP中位于时间轴中间的第7帧作为关键帧，即：P_7，1，P_7，2，P_7，3，P_7，4，P_7，5作为关键帧；

3)首先对视点组中位于视点轴中间的第3个视点的GOP的关键帧(即第7帧P_7，3)采用帧内编码模式编码进行编码；

4)然后对其它视点的GOP的关键帧进行预测编码；即：P_7，2，P_7，4通过参考P_7，3预测编码；P_7，1通过参考P_7，2预测编码；P_7，5通过参考P_7，4预测编码；

5)再对该同一时刻各GOP的非关键帧进行编码，各GOP中时间轴上的第一帧通过参考该GOP到视点轴中间GOP之间的各个关键帧(包括该GOP和中间GOP的关键帧)预测编码，即：P_1，1参考P_7，1，P_7，2，P_7，3预测编码，P_1，2参考P_7，2，P_7，3预测编码，P_1，3参考P_7，3预测编码，P_1，4参考P_7，3，P_7，4预测编码，P_1，5参考P_7，3，P_7，4，P_7，5预测编码；其后视频帧都参考前一帧和该GOP到视点轴中间GOP之间的各个关键帧预测编码；直到该GOP的关键帧的上一帧预测编码完成；即：P_i，1参考P_i-1，1和P_7，1，P_7，2，P_7，3预测编码，P_i，2参考P_i-1，2和P_7，2，P_7，3预测编码，P_i，3参考P_i-1，3和P_7，3预测编码，P_i，4参考P_i-1，5和P_7，3，P_7，4预测编码，P_i，5参考P_i-1，5和P_7，3，P_7，4，P_7，5预测编码(i为2至6的整数)；

6)对该同一时刻各GOP中时间轴上紧接着关键帧的下一帧通过参考该GOP到视点轴中间GOP之间的各个关键帧(包括该GOP和中间GOP的关键帧)预测编码妇预测编码，即：P_8，1参考P_7，1，P_7，2，P_7，3预测编码，P_8，2参考P_7，2，P_7，3预测编码，P_8，3参考P_7，3预测编码，P_8，4参考P_7，3，P_7，4预测编码，P_8，5参考P_7，3，P_7，4，P_7，5预测编码；其后的视频帧都参考前一帧和该GOP到视点轴中间GOP之间的各个关键帧预测编码；直到该GOP末尾帧编码完成；即：P_i，1参考P_i-1，1和P_7，1，P_7，2，P_7，3预测编码，P_i，2参考P_i-1，2和P_7，2，P_7，3预测编码，P_i，3参考P_i-1，3和P_7，3预测编码，P_i，4参考P_i-1，5和P_7，3，P_7，4预测编码，P_i，5参考P_i-1，5和P_7，3，P_7，4，P_7，5预测编码(i为9至15的整数)；

7)沿时间轴依次对其它时刻各GOP按照步骤2)-步骤6)的相同方法进行编码，直到该视点组编码结束；

8)第二个视点组按照步骤1)-步骤7)的相同方法进行编码，直到所有视点组编码结束。

上述实施例中根据所需解码的视点按照其编码的顺序解码，详细的解码视频帧过程如表1：

表1

视点	1	2	3	4	5
视点	1	2	3	4	5	步骤1)	对P_7，3采用帧内模式解码	对P_7，3采用帧内模式解码	对P_7，3采用帧内模式解码	对P_7，3采用帧内模式解码	对P_7，3采用帧内模式解码
步骤2)	通过参考P_7，3解码P_7，2，P_7，1	通过参考P_7，3解码P_7，2	无	通过参考_7，3解码P_7，4，	通过参考P_7，3解码P_7，4，P_7，5	步骤1)	对P_7，3采用帧内模式解码	对P_7，3采用帧内模式解码	对P_7，3采用帧内模式解码	对P_7，3采用帧内模式解码	对P_7，3采用帧内模式解码
步骤2)	通过参考P_7，3解码P_7，2，P_7，1	通过参考P_7，3解码P_7，2	无	通过参考_7，3解码P_7，4，	通过参考P_7，3解码P_7，4，P_7，5	步骤3)	通过参考P_7，3P_7，2，P_7，1解码P_1，1；通过参考P_i-1，1和P_7，3，P_7，2，P_7，1解码P_i，1(i为2至6的整数)	通过参考P_7，3，P_7，2解码P_1，3；通过参考P_i-1，2和P_7，3，P_7，2解码P_i，2(i为2至6的整数)	通过参考P_7，3解码P_1，3，通过参考P_i-1，3和P_7，3解P_i，3(i为2至6的整数)	通过参考P_7，3，P_7，4解码P_1，4，通过参考P_i-1，4和P_7，3，P_7，4解码P_i，4(i为2至6的整数)	通过参考P_7，3，P_7，4，P_7，5解码P_1，5，通过参考P_i-1，5和P_7，3，P_7，4，P_7，5解码P_i，5(i为2至6的整数)
步骤4)	通过参考P_7，3，P_7，2，P_7，1解码P_8，1，通过参考P_i-1，1和P_7，3，P_7，2，P_7，1解码P_i，1(i为9至15的整数)	通过参考P_7，3，P_7，2解码P_8，2；通过参考P_i-1，2和P_7，3，P_7，2解码P_i，2(i为9至15的整数)	通过参考P_7，3解码P_8，3，通过参考P_i-1，3和P_7，3解码P_i，3(i为9至15的整数)	通过参考P_7，3，P_7，4解码P_8，4，通过参考P_i-1，4和P_7，3，P_7，4解码P_i，4(i为9至15的整数)	通过参考P_7，3，P_7，4，P_7，5解码P_8，5，通过参考P_i-1，5和P_7，3，P_7，4，P_7，5解码P_i，5(i为9至15的整数)	步骤3)			通过参考P_7，3解码P_1，3，通过参考P_i-1，3和P_7，3解P_i，3(i为2至6的整数)
步骤4)			通过参考P_7，3解码P_8，3，通过参考P_i-1，3和P_7，3解码P_i，3(i为9至15的整数)			步骤5	沿时间轴依次对其它时刻各GOP按照步骤1)-步骤4)的相同方法进行解码	沿时间轴依次对其它时刻各GOP按照步骤1)-步骤4)的相同方法进行解码	沿时间轴依次对其它时刻各GOP按照步骤1)-步骤4)的相同方法进行解码	沿时间轴依次对其它时刻各GOP按照步骤1)-步骤4)的相同方法进行解码	沿时间轴依次对其它时刻各GOP按照步骤1)-步骤4)的相同方法进行解码

本实施例中涉及的的另一个视点组的编码方法与上述方法完全相同，在此不重复述叙。

Claims

1、一种交互式多视点视频的编码方法，其特征在于，将多个摄像机同步采集下来的各路视频数据按照其采集的相邻位置依次分成多个视点组，每个视点组视点数目相同；视点组内采用视点间关联预测编码，各视点组采用相同的方法编码。

2、如权利要求1所述交互式多视点视频的编码方法，其特征在于，所述视点组内采用视点间关联预测编码方法，具体包括以下步骤：

1)视点组中各个视点视频都采用同样视频帧组长度，对应的视频帧组时间轴起始位置相同；

2)选取视点组中同一时刻的各视频帧组中位于时间轴中间的视频帧作为关键帧，各关键帧均位于同一时刻；

3)首先对视点组中位于视点轴中间的视频帧组的关键帧采用帧内编码模式进行编码；

4)从中间视点到两旁视点依次对各视频帧组的关键帧进行预测编码；

5)对视点组内所述同一时刻的各视频帧组非关键帧进行预测编码；

6)各视频帧组中在时间轴上关键帧的下一帧通过参考该视频帧组到视点轴中间视频帧组之间的各个关键帧预测编码，其后视频帧都参考前一帧和该视频帧组到视点轴中间视频帧组之间的各个关键帧预测编码；直到该视频帧组末尾帧预测编码完成；

7)沿时间轴依次对各同一时刻的视频帧组按照步骤2)一步骤6)的相同方法进行编码，直到该视点组编码结束；

3、如权利要求2所述交互式多视点视频的编码方法，其特征在于，所述步骤4)从中间视点到两旁视点依次对各视频帧组的关键帧进行预测编码为：位于中间视点左侧各视点的关键帧均通过其右侧紧邻视点关键帧预测编码；位于中间视点右侧各视点的关键帧均通过其左侧紧邻视点关键帧预测编码。

4、如权利要求2所述交互式多视点视频的编码方法，其特征在于，所述步骤5)对视点组内所述同一时刻的各视频帧组非关键帧进行预测编码为：各视频帧组中时间轴上的第一帧通过参考该视频帧组到视点轴中间视频帧组之间的各个关键帧预测编码，第二帧参考该第一帧和该视频帧组到视点轴中间视频帧组之间的各个关键帧预测编码，其后视频帧都参考前一帧和该视频帧组到视点轴中间视频帧组之间的各个关键帧预测编码；直到该视频帧组的关键帧的上一帧预测编码完成。