CN103716621B

CN103716621B - 视频编码设备和解码设备、视频编码方法和解码方法

Info

Publication number: CN103716621B
Application number: CN201310462438.7A
Authority: CN
Inventors: 数井君彦; 小山纯平; 岛田智史
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-10-01
Filing date: 2013-09-30
Publication date: 2017-11-21
Anticipated expiration: 2033-09-30
Also published as: BR122020018232B1; CA2828843A1; KR20150124439A; CA2910306C; US10582208B2; MX344754B; KR101612235B1; US20200177907A1; US20160219296A1; KR101612237B1; US20160156922A1; TW201415900A; BR102013025344B1; CA2910488A1; US20140092966A1; KR20150124440A; KR20140043681A; CN106878708A; EP2713620B1; CA2910488C

Abstract

本公开提供了一种视频编码设备、视频解码设备、视频编码方法以及视频解码方法。视频编码设备将解码延迟和显示延迟校正信息附至编码视频数据，以便确保即使当已从该视频数据流中包含的图像之中丢弃在编码顺序上比待剪接至另一个编码视频数据流的尾端的视频数据流中的起始编码图像晚的一个或多个图像时，起始编码图像及其随后的图像也能够通过视频解码设备连续地解码与显示。校正信息是基于每个丢弃的图像与紧邻在该丢弃的图像前的图像之间的解码间隔来计算的。该视频编码设备通过利用所计算的校正信息来校正起始编码图像及其随后的图像的解码延迟和显示延迟。

Description

视频编码设备和解码设备、视频编码方法和解码方法

技术领域

这里所讨论的实施例涉及一种无需对编码的视频数据进行解码即可编辑该视频数据的视频编码设备和视频编码方法，并且还涉及一种用于对通过这样的视频编码设备所编码的视频数据进行解码的视频解码设备和视频解码方法。

背景技术

通常，用于表示视频数据的数据量是非常大的。因此，处理这样的视频数据的设备在将该视频数据发送到另一个设备之前、或者在将该视频数据存储在存储装置中之前通过编码对视频数据进行压缩。诸如由国际标准化组织/国际电工委员会(ISO/IEC)所设计的MPEG-2(运动图像专家组阶段2)、MPEG-4、H.264MPEG-4高级视频编码(MPEG-4AVC/H.264)的编码标准是如今被广泛使用的典型视频编码标准。

这样的编码标准采用帧间编码(通过不仅使用信息本身、而且还使用来自它之前和之后的图像的信息来对图像进行编码的编码方法)和帧内编码(通过仅使用包含在待编码图像中的信息来对图像进行编码的编码方法)。帧间编码方法使用称为帧内编码图像(I图像)、通常根据过去的图像来预测的前向预测图像(P图像)、以及通常根据过去和未来两种图像来预测的双向预测图像(B图像)这三种类型的图像。

通常，通过帧间编码所编码图像或块的代码量小于通过帧内编码所编码图像或块的代码量。这样，相同视频序列内的图像与图像的代码量视所选择的编码模式而变化。同样，相同图像内的块与块的代码量视所选择的编码模式而变化。因此，为了使包含有编码视频的数据流即使在该代码量在时间上变化的情况下也能够以恒定的传输率来发送，将用于缓冲数据流的发送缓冲器设于发送端，而将用于缓冲数据流的接收缓冲器设于接收端。

MPEG-2和MPEG-4AVC/H.264分别各自定义了被称为视频缓冲检验器(VBV)或编码图像缓冲器(CPB)的理想的视频解码设备中的接收缓冲器的行为。为方便起见，理想的视频解码设备将会在下文中简称为理想解码器。规定理想解码器执行花费零时间来解码的瞬时解码。例如，日本特开2003-179938号公报公开了一种关于VBV的视频编码控制方法。

为了不引起理想解码器中的接收缓冲器上溢或下溢，视频编码器控制代码量以确保当理想解码器解码给定图像时解码给定图像所需要的所有数据在接收缓冲器中是可用的。

当视频编码器以恒定的传输率来发送编码视频数据流时，如果到图像要被视频解码器解码和显示的时候尚未完成对解码图像所需要的数据的传输的话，则接收缓冲器可能下溢。也就是说，接收缓冲器下溢是指其中解码图像所需要的数据在视频解码器的接收缓冲器中是不可用的情况。如果发生这种情况，视频解码器则不能够执行解码，并且会发生跳帧。

鉴于此，视频解码器在自它的接收时间起的规定时间以前显示延迟了流之后的图像，以使得在不引起接收缓冲器下溢的情况下能够进行解码。如前所述，规定了理想解码器在零时间内完成解码。结果，如果将第i个图像输入到视频编码器的时间是t(i)、而第i个图像在理想解码器处的解码时间为tr(i)的话，则图像变为准备好用于显示的最早时间与t(i)相同。由于对于任何图像来说图像显示期{t(i+1)-t(i)}与{tr(i+1)-tr(i)}是相等的，所以将解码时间tr(i)给定为tr(i)＝t(i)+dly，即，自输入时间t(i)起延迟固定时间dly后的时间。这意味着，视频编码器不得不在时间tr(i)以前完成将解码所需的所有数据到接收缓冲器的传输。

参考图1，将给出接收缓冲器如何进行操作的描述。在图1中，横坐标表示时间，而纵坐标则表示接收缓冲器的缓冲器占用量。实线曲线100描绘了作为时间的函数的缓冲器占用量。

接收缓冲器的缓冲器占用量以与规定的传输率同步的速率还原，而用于解码每个图像的数据在图像的解码时间时从缓冲器中恢复。在时间at(i)时开始将第i个图像的数据输入到接收缓冲器，而在时间ft(i)时输入第i个图像的最后的数据。理想解码器在时间tr(i)时完成对第i个图像的解码，从而第i个图像在时间tr(i)时变为准备好用于显示。但是，如果数据流包含B图像的话，则第i个图像的实际显示时间可能由于图像重新排序(改变编码顺序)的发生而变得迟于tr(i)。

下面将详细描述MPEG-4AVC/H.264中描述每个图像的解码时间和显示时间的方法。

在MPEG-4AVC/H.264中，在补充增强信息(SEI)消息中描述与像素的解码不直接相关的补充信息。定义了几十个SEI消息类型，且类型是通过payloadType参数来标识的。SEI被附至每个图像。

作为SEI的一种类型的BPSEI(缓冲期SEI)被附到独立图像，即，无需任何过去的图像即可解码的图像(通常为I图像)。在BPSEI中描述了InitialCpbRemovalDelay这个参数。InitialCpbRemovalDelay参数表示附BPSEI的图像的第一个位在接收缓冲器中的到达时间与附BPSEI的图像的解码时间之间的差。该差的分辨率是90kHz。第一个图像的解码时间tr(0)是编码视频数据的第一个位到达视频解码器时的时间(将该时间指定为0)；也就是说，解码时间自时间at(0)起而被延迟了InitialCpbRemovalDelay÷90,000[秒]的时间量。

通常，作为一种类型的SEI的PTSEI(图片定时SEI)被附到每个图像。PTSEI中描述了参数CpbRemovalDelay和DpbOutputDelay。参数CpbRemovalDelay表示紧邻在前的附有BPSEI的图像的解码时间与附有PTSEI的图像的解码时间之差。参数DpbOutputDelay表示附有PTSEI的图像的解码时间与该图像的显示时间之差。这些差的分辨率是一场图像间隔。因此，当图像为帧时，参数CpbRemovalDelay和DpbOutputDelay中的每一个的值是2的倍数。

第二个和后续图像中的每一个的解码时间tr(i)比第一个图像的解码时间tr(0)延迟与tc*CpbRemovalDelay(i)[秒]相等的时间量。CpbRemovalDelay(i)是附到第i个图像的CpbRemovalDelay。另一方面，tc是图像间的时间间隔[秒]；例如，在29.97赫兹逐行视频的情况下，tc是1001/60000。

包括附有BPSEI的图像在内的图像中的每一个的显示时间比tr(i)延迟了等于tc*DpbOutputDelay(i)的时间量。DpbOutputDelay(i)是附到第i个图像的DpbOutputDelay。即，在时间tr(0)后，每个图像在tc的整数倍的时间时进行解码和显示。

根据视频数据的用途，可以对编码视频进行编辑。编辑编码视频涉及将编码视频数据划分成更小的部分以及将它们剪接以生成新的编码视频数据流。例如，将另一个视频流(例如，广告)插入到当前广播的视频流(即，剪接)是编辑操作的一个例子。

当编辑帧间预测编码视频时，特别是在帧间编码图像的情况下，编码图像不能自身正确解码。因此，当在期望的图像位置剪接两个编码视频数据流时，编码视频数据编辑机首先解码待剪接的两个编码视频数据流，然后在解码的逐个图像基础上剪接它们，此后对剪接的视频数据进行重新编码。

然而，由于重新编码的工作非常费力，尤其是，在诸如剪接的这种实时处理的情况下，所以通常是限制剪接点并且通过消除重新编码的需求来直接编辑编码视频数据。当通过无需重新编码的编辑来剪接两个编码视频数据流时，在时间上下游侧的待剪接的编码视频数据流的第一个图像必须是I图像。此外，在时间上下游侧的待剪接的编码视频数据流的GOP结构被限制为所谓的闭合GOP结构，在该结构中，起始I图像之后的所有图像是可解码的，而不用参考时间上在起始I图像之前的任何图像。利用这种布置，能够通过在期望的剪接点处进行编辑来正确解码在时间下游侧的剪接的编码视频数据流的起始I图像之后的所有图像。

然而，由于闭合GOP结构的编码效率低于非闭合GOP结构，所以可以采用非闭合GOP结构。在这种情况下，一些在剪接点之后的紧随起始I图像的图像没有正确地解码，但因为这些图像在显示顺序上是起始I图像之前的图像，所以如果不显示它们将不成问题。因此，作为一般的做法，在显示完时间上在先的编码视频数据流的最后一个图像后，视频解码器执行诸如冻结显示的处理，从而掩盖未能正确解码的图像显示。

在现有技术中，即使在无需重新编码的情况下对帧间预测编码视频数据进行编辑时，其头信息也会被编辑，以使剪接在一起的两个编码视频数据流之间不发生矛盾。例如，在MPEG-4AVC/H.264中，POC(PictureOrder Count，图像顺序计数)和FrameNum被附到宏块条头，以保持图像间的时间关系和识别参考图像。POC表示图像的相对显示顺序。FrameNum是编码视频中每次出现参考图像时递增1的值。由于POC值和FrameNum值需要在剪接的两个编码视频数据流之间连续，所以出现了对编辑待剪接在时间上在先的编码视频数据流的下游侧上的编码视频数据流中所有的POC值和FrameNum值的需要。

另一方面，在非专利文献“JCTVC-J1003,"High-Efficiency Video Coding(HEVC)text specification Draft 8",Joint Collaborative Team on Video Coding of ITU-TSG16WP3and ISO/IEC JTC1/SC29/WG11,July 2012”中公开的方法中，由于介绍了一种用于识别参考图像的新方法，所以取消了FrameNum。此外，由于在下游侧剪接的编码视频数据的第一个图像的POC值不需要相对于在上游侧剪接的编码视频数据流具有连续性，所以无需对宏块条头进行编辑。在以上非专利文献公开的方法中，除了MPEG-4AVC/H.264中定义的IDR(即时解码刷新)图像之外，还介绍了CRA(清除随机访问)图像、BLA(断开链接访问)图像、TFD(被标记丢弃的)图像、DLP(可解码前导图像)图像和TP(拖尾图像)图像作为新的图像类型。

这些图像中的CRA图像和BLA图像均是独立图像，即，未参考任何其他图像的图像，使得可以对跟随CRA图像和BLA图像的图像进行正确解码。例如，当视频解码器以CRA图像开始来开始解码时，可以对除紧随CRA图像的TFD图像之外的任何随后图像进行正确解码。

TFD图像为紧随CRA图像或BLA图像出现并且参考在时间顺序上和在解码顺序上早于CRA图像或BLA图像出现的图像的图像。在符合MPEG-2的非闭合GOP结构的情况下，紧随在GOP的头部的I图像之后的多个B图像各自均对应于TFD图像。

由于编码视频数据的编辑而产生BLA图像。剪接的两个编码视频数据流中的在下游侧剪接的编码视频数据流一般以CRA图像开始，但是如果在剪接的编码视频数据的中间出现该CRA图像，则CRA图像的图像类型就从CRA图像被改变成BLA图像。在以上非专利文献公开的方法中，当出现BLA图像时，允许POC值变得不连续。此外，未能从剪接的编码视频数据中的任何点起对紧随该BLA图像的TFD图像进行正确解码，这是因为TFD图像所参考的图像从剪接的编码视频数据中丢失了。因此，视频编码器可以从编码视频数据中将跟随如下BLA图像的任何TFD图像删除：该BLA图像在待在下游侧剪接的编码视频数据流的头部。

像TFD图像一样，DLP图像为紧随CRA图像或BLA图像出现的图像。不像TFD图像，DLP图像并未参考在时间顺序和解码顺序二者上先于CRA图像或BLA图像的图像。因此，即使从CRA图像或BLA图像开始解码，也可以对DLP图像进行正确解码。

TP图像为在解码顺序上晚于CRA图像或BLA图像和TFD、DLP图像出现并且在时间顺序上跟随CRA图像或BLA图像的图像。因此，即使从CRA图像或BLA图像开始解码，也可以对TP图像进行正确解码。

发明内容

在以上非专利文献中所讨论的方法中，如在MPEG-4AVC/H.264中，每个编码图像的解码时间和显示时间是通过利用参数InitialCpbRemovalDelay、CpbRemovalDelay和DpbOutputDelay来确定的。当剪接两个编码视频数据流时，需要校正在剪接点之后的图像的参数CpbRemovalDelay和DpbOutputDelay以便确保横跨所述剪接点的连续视频解码和显示。

更具体地，视频编码器或视频解码器需要基于跟随在时间上在前的编码视频数据流中的最新的附有BPSEI的图像的图像的数量来校正在剪接于下游侧的编码视频数据流的头部的CRA图像的CpbRemovalDelay的值。此外，视频编码器或视频解码器令CpbRemovalDelay的值递增以便确保CPB缓冲器连续性。另外，当丢弃待剪接于下游侧的编码视频数据流中的TFD图像时，视频编码器或视频解码器不但需要校正待在丢弃的TFD图像之后解码的图像的CpbRemovalDelay的值，而且需要校正在剪接点之后的第一个CRA图像的DpbOutputDelay的值。

这样，在以上非专利文献中所公开的方法中，当执行用于剪接两个编码视频数据流的编辑操作时仍存在校正PTSEI的内容的需要。

因此，本发明的目的是提供一种当剪接两个帧间预测的编码视频数据流时能够在不对原始的编码视频数据的头部中的参数进行编辑的情况下确保连续视频解码处理和显示处理的运动视频编码设备和运动视频解码设备。

根据一个实施例，提供了一种视频编码设备，用于通过将均利用帧间预测编码而编码的第一视频数据和第二视频数据剪接在一起来生成剪接的编码视频数据。该视频编码设备包括：剪接点识别信息处理单元，其用于获得解码延迟和显示延迟校正信息并且用于将所述校正信息附至所剪接的视频数据，所述解码延迟和显示延迟校正信息用于确保即使当已从所述第二视频数据中包含的图像中丢弃在编码顺序上比待剪接至所述第一编码视频数据的尾端的所述第二视频数据中的起始编码图像晚的一个或多个图像时，所述第二编码视频数据中包含的所述起始编码图像和随后的图像也能够通过视频解码设备连续地解码与显示；以及数据剪接单元，其用于从剪接的视频数据中丢弃以下图像：在编码顺序上晚于所述起始编码图像且如果从所述起始编码图像开始解码则不保证被正确解码的任何图像。所述校正信息是基于每个丢弃的图像与在解码顺序上紧邻在所述丢弃的图像前的图像之间的解码间隔来计算的。

根据另一个实施例，提供了一种用于对通过帧间预测编码而编码的视频数据进行解码的视频解码设备。该视频解码设备包括：图像解码/显示时间确定单元，其利用表明已经通过将第二编码视频数据剪接至第一编码视频数据的尾端而生成了所述编码视频数据的信息、以及表明已经丢弃了以下一个或多个编码图像的信息，并基于校正信息对跟随所述起始编码图像的图像的解码延迟进行校正，以及还基于所述校正信息对所述起始编码图像和跟随所述起始编码图像的图像的显示延迟进行校正，其中，所述一个或多个编码图像在编码顺序上比在剪接所述第一编码视频数据和所述第二编码视频数据的剪接点下游处剪接的所述第二编码视频数据中的起始编码图像晚。所述校正信息携带有基于以下两者之间的解码间隔而计算的值：在解码顺序上晚于所述起始编码图像并已从所述第二编码视频数据中丢弃的每个图像；以及在解码顺序上紧邻在所述丢弃的图像前的图像。

附图说明

图1是示出接收缓冲器的缓冲器占用量和显示时间之间的关系的图。

图2是示出视频数据中包含的各个图像的显示顺序和解码顺序与各个图像的解码延迟和显示延迟值之间的关系的图。

图3是用于说明当剪接两个编码视频数据流时在剪接点之后的图像的解码延迟和显示延迟值的图。

图4是用于说明根据第一实施例的编码视频中的一个图像的数据结构的图。

图5是根据第一实施例的视频编码设备的简化框图。

图6是根据第一实施例的视频编码处理的操作流程图。

图7是根据第一实施例的视频编辑处理的操作流程图。

图8是根据第一实施例的视频解码设备的简化框图。

图9是根据第一实施例的视频解码处理的操作流程图。

图10是用于说明根据第二实施例的当剪接两个编码视频数据流时在剪接点之后的图像的解码延迟和显示延迟值的图。

图11是用于说明根据第二实施例的编码视频中的一个图像的数据结构的图。

图12是示出通过执行用于实现根据实施例或它们的修改示例中的任一个的视频编码设备或视频解码设备中的各个单元的功能的计算机程序而用作视频编码设备或视频解码设备的计算机的配置的图。

具体实施例

下面将参考附图来描述根据各个实施例的视频编码设备和视频解码设备。当在不对两个编码视频数据流进行解码的情况下剪接它们时，视频编码设备计算用于校正表示在剪接点之后出现的每个图像的解码时间和显示时间的参数的值，并将这些值添加到在剪接点之后出现的每个图像的头信息中。这样，当剪接两个编码视频数据流时，视频编码设备则不再需要编辑原始编码视频数据的头中的参数。

在本实施例中，图像为帧。然而，图像可以不局限于帧，也可以是场。帧是指视频数据中的一个完整的静态影像，而场则是指通过仅从一帧中的奇数行或偶数行提取数据而获得的静态影像。编码视频数据可以是彩色的视频数据或单色视频数据。

首先，参考图2，将通过以一个图像编码结构为例来描述根据第一实施例的图像解码延迟CpbRemovalDelay和显示延迟DpbOutputDelay的值。

在图2中，作为图像编码结构的一个例子的图像编码结构201包含多个图像。图像编码结构201中的每个框表示一个图像。与每个图像对应的每个框中所携带的两个字符之中，左边的字母字符表示施加到那个图像上的编码模式。字符I、P和B分别是I图像、P图像和B图像的意思。每个框中所携带的两个字符之中，右边的数字表示输入到视频编码设备的顺序。输入顺序与其中从视频解码设备输出图像的顺序相符。图像编码结构201上面所示的每个箭头表示待通过前向帧预测而被编码图像所参考的参考图像。例如，图像P4参考的是早于图像P4出现的图像I0。另一方面，图像编码结构201下面所示的每个箭头表示待通过后向帧预测而被编码图像所参考的参考图像。例如，图像B2参考的是晚于图像B2出现的图像P4。

呈现在图像编码结构201下面的图像序列是图像编码结构201中所包含的图像的解码顺序202。解码顺序202中的每个框表示一个图像，而且如在图像编码结构201的情况下，框中所携带的字符表示编码模式和输入到视频编码设备的顺序。解码顺序202与视频编码设备所执行的编码的顺序相符。图像解码顺序202上面所示的每个箭头和图像解码顺序202下面所示的每个箭头分别表示通过前向帧预测而被编码图像所参考的参考图像和通过后向帧预测而被编码图像所参考的参考图像。

在解码顺序202中，BPSEI被附到其下携带有标识“BPSEI”的每个图像。在所示出的示例中，BPSEI被附到每个I图像。也就是说，对于每个I图像，定义了表示I图像的第一个位在接收缓冲器中的到达时间和I图像的解码时间之差的InitialCpbRemovalDelay参数。

呈现于解码顺序202下面的框阵列203表示附到每个图像的PTSEI中所携带的CpbRemovalDelay和DpbOutputDelay的值。框阵列203的上排中的每个框携带有用于位于那个框正上方的解码顺序202中的对应图像的CpbRemovalDelay的值。同样地，框阵列203的下排中的每个框携带有用于位于那个框正上方的解码顺序202中的对应图像的DpbOutputDelay的值。CpbRemovalDelay对应于当从附有BPSEI的、图像之中的编码顺序上的最新图像起算时编码的顺序。例如，图像P8是当从图像I0起算时的编码顺序上的第五个图像。在本实施例中，因为每个图像是一帧，而且图像间时间间隔tc是以场为单位来表达的值，所以将图像P8的CpbRemovalDelay值给定为10(＝5*2)。

另一方面，DpbOutputDelay指定视频解码设备中所需要的显示延迟，以按照正确的顺序来顺序地输出图像。例如，图像P4的DpbOutputDelay值是10。这是正确显示在视频编码设备的输入顺序和编码顺序之间的差异最大的图像B1所需要的延迟。也就是说，由于图像B1是在图像P4被解码之后延迟了两个图像而被解码，所以图像P4的显示时间不得不自图像B1变为准备好用于显示的最早时间(即，图像B1被解码时的时间)起被进一步延迟三个图像时间。由于图像P4的解码时间和显示时间之间的差等于五个图像时间，并且由于tc是以场为单位来表达的，所以DpbOutputDelay值被给定为10。

接下来，参考图3，将给出当剪接两个编码视频数据流时、在剪接点下游剪接的编码视频数据流中的每个图像的解码延迟CpbRemovalDelay和显示延迟DpbOutputDelay可能采用以消除在这两个编码视频数据流的剪接点之前和之后的解码延迟和显示延迟中的任何不一致的值的说明。

在剪接点上游剪接的第一编码视频数据流301中的每个框表示一个图像，而该框中所携带的字符则表示编码模式和输入到视频编码设备的顺序，如在图2的情况下。在所示的示例中，第一编码视频数据流301的编码结构与图2中所示的编码结构201是相同的。

在所示出的示例中，第二编码视频数据流302紧随第一编码视频数据流的最后的图像B15而被剪接。同样在第二编码视频数据流302中，每个框表示一个图像，而每个框中所携带的字符则表示编码模式和输入到视频编码设备的顺序。第二编码视频数据流302上面所示的箭头表示当图像B70、B69和B71通过前向帧预测被编码时分别参考的参考图像。另一方面，第二编码视频数据流302下面所示的箭头表示当图像B70、B69和B71通过后向帧预测被编码时分别参考的参考图像。除了图像B70、B69和B71之外，第二编码视频数据流302的编码结构与图2中所示的编码结构201是相同的。图像B70、B69和B71的编码顺序与在图2中所示的编码结构201中包含的双向预测图像的编码顺序是相同的。然而，用于图像B70、B69和B71的参考图像不同于用于包含在编码结构201中的双向预测图像的参考图像。图像B70和B71各自仅参考在显示时间上较晚的图像，即，图像I72。另一方面，图像B69仅参考在显示时间上较早的图像，即，图像I68。这种情况出现在例如当图像B69和B70之间存在场景变化时。由于图像在横跨场景变化边界而突然变化，为了更好的预测效率，位于场景变化边界附近的任何双向预测图像仅参考位于场景变化边界同侧的图像。在这里所给的示例中，B69为TFD图像，而B70和B71则为DLP图像。在所示出的示例中，第二编码视频数据流302中的图像I72和随后的图像剪接，以便跟随第一编码视频数据流中的图像B15。非专利文献(JCTVC-J1003，"High-Efficiency Video Coding(HEVC)text specification Draft 8",JointCollaborative Team on Video Coding of ITU-T SG16WP3and ISO/IEC JTC1/SC29/WG11,July 2012)所公开的方法规定了如下条件：TFD图像的显示时间早于DLP图像的显示时间、而DLP图像不被TP图像所参考。

呈现在第二编码视频数据流302下面的框阵列303表示附到第二编码视频数据流302的每个图像的PTSET中所携带的解码延迟CpbRemovalDelay和显示延迟DpbOutputDelay的值。框阵列303的上排中的每个框携带有用于位于那个框正上方的第二编码视频数据流302中的对应图像的解码延迟CpbRemovalDelay的值。同样地，框阵列303的下排中的每个框携带有用于位于那个框正上方的第二编码视频数据流302中的对应图像的显示延迟DpbOutputDelay的值。

在框阵列303之下示出通过剪接第一及第二编码视频数据流301和302而生成的剪接的编码视频数据304。在所示出的示例中，第二编码视频数据流302中的图像B67和在编码顺序上位于图像B67之前的图像并不被包含在剪接的编码视频数据304中。此外，图像B69是参考在编码顺序上位于图像I72之前的编码图像I68的TFD图像。结果，当数据剪接于图像I72时，图像B69将会变得无法被正确地再现。因此，当剪接数据时丢弃图像B69。然而，可以不丢弃图像B69并可以将其保留在剪接的编码视频数据中。另一方面，图像B70和B71分别是未参考在编码顺序上位于图像I72之前的图像的DLP图像，并因此可以被正确地再现。然而，因为图像B70和B71都不是被图像P76或它后面的图像所参考的图像，所以如果图像B70和B71与TFD图像B69同时被丢弃的话，将不会影响图像P76和它后面的图像的再现。

框阵列305表示剪接的编码视频数据304中的图像I72、B70、B71、P76、B74、B73和B75应该具有的解码延迟CpbRemovalDelay和显示延迟DpbOutputDelay的值。框阵列305的上排中的每个框携带用于位于那个框正上方的剪接的编码视频数据304中的对应图像的解码延迟CpbRemovalDelay的值。同样地，框阵列305的下排中的每个框携带用于位于那个框正上方的剪接的编码视频数据304中的对应图像的显示延迟DpbOutputDelay的值。

需要使得剪接之后的图像I72的解码延迟CpbRemovalDelay与相对于图像I12(图像I12为具有紧随的BPSEI的图像)的编码图像间隔相匹配。在所示出的示例中，由于图像I72是自图像I12起算的编码顺序上的第八个图像，所以将解码延迟CpbRemovalDelay给定为16(＝8*2)。图像I72的显示延迟DpbOutputDelay也需要被校正以使得可以正确显示将要晚于图像I72进行解码的图像B73。图像I72的显示延迟DpbOutputDelay在丢弃图像B69之前和之后是不同的。丢弃图像B69之后的显示延迟DpbOutputDelay的值减少了与由在解码顺序上晚于I72的丢弃的图像的解码时间和在解码顺序上紧随丢弃的图像的图像的解码时间之间的差定义的解码间隔相等的值。在所示出的示例中，图像B69是丢弃的图像，而B69的解码间隔(即，B69的解码时间和在解码顺序上紧在先的图像B70的解码时间之间的差)为2；因此，将图像I72的显示延迟DpbOutputDelay的值给定为2。同样地，图像B70的显示延迟DpbOutputDelay也减少了与在解码顺序上跟随B70的丢弃的图像的解码间隔相等的值，即，减少了2，所以将其给定为2。

图像B71、P76、B74、B73和B75中每一个的解码延迟CpbRemovalDelay的值在丢弃图像B69之前和之后也是不同的。图像B71、P76、B74、B73和B75中每一个的解码延迟CpbRemovalDelay的值在丢弃图像B69之后从解码延迟CpbRemovalDelay的原始值减少了与在解码顺序上先于图像I72的丢弃的图像的解码间隔相等的值。在所示出的示例中,通过从各个图像的解码延迟CpbRemovalDelay的原始值减去TFD图像B69的解码间隔2，分别将图像B71、P76、B74、B73和B75中每一个的解码延迟CpbRemovalDelay的值给定为4、6、8、10和12。对于DLP图像B70来说，另一方面，因为不存在解码顺序上先于B70的丢弃的图像，所以CpbRemovalDelay的值在丢弃图像B69之后保持不变。图像P76、B74、B73和B75的显示延迟DpbOutputDelay的值也保持不变。此外，对于比将变成剪接的编码视频数据中的第一个CRA图像的图像晚输入的任何图像来说，解码延迟CpbRemovalDelay和显示延迟DpbOutputDelay都不需要被校正。

如前所述，当将两个编码视频数据流剪接在一起时，对在剪接于剪接点下游的编码视频数据流中包含的一些图像来说，在解码时出现了校正解码延迟CpbRemovalDelay和显示延迟DpbOutputDelay的需要。在本实施例中，替代了对在剪接前的原始编码视频数据中包含的受影响的图像的解码延迟CpbRemovalDelay和显示延迟DpbOutputDelay的值进行校正，当视频解码设备对剪接的编码视频数据进行解码时，视频编码设备在编码视频数据的头中添加以下参数，该参数可以用于将解码延迟CpbRemovalDelay和显示延迟DpbOutputDelay的值改变为适当的值。

接下来，参考图4，将描述根据第一实施例的编码视频数据的结构，该结构包含以下参数，这些参数可以用于将解码延迟CpbRemovalDelay和显示延迟DpbOutputDelay的值改变为适当的值。

如图4所示，一个图像的数据结构400包含六种网络抽象层(NAL)单元410至415的。这些NAL单元410至415符合MPEG-4AVC/H.264和非专利文献(JCTVC-J1003,"High-Efficiency Video Coding(HEVC)text specification Draft 8",Joint CollaborativeTeam on Video Coding of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11,July 2012)所公开的方法中定义的NAL单元。头NUH 420被附到每个NAL单元。头NUH 420包含表示NAL单元的类型的NalUnitType字段。当NalUnitType是1或2时，表示该图像是TP图像。当NalUnitType是7时，表示该图像是紧随其后可能出现TFD图像和DLP图像的独立BLA图像。当NalUnitType是8时，表示该图像是紧随其后可能出现DLP图像的独立BLA图像。当NalUnitType是9时，表示该图像是紧随其后既不出现TFD图像也不出现DLP图像的独立BLA图像。当NalUnitType是12时，表示该图像是独立CRA图像。当NalUnitType是13时，表示该图像是DLP图像。当NalUnitType是14时，表示该图像是TFD图像。

每个图像的NalUnitType值不必局限于上述的特定值，也可以设置为一些其它合适的值。

下面将说明NAL单元。

NAL单元410是定界符(DELIM)NAL单元并表示图像边界。

NAL单元411是携带有由编码视频的整个序列所共有的参数集的序列参数集(SPS)NAL单元。NAL单元411附到独立图像。

NAL单元412是携带有由多个编码图像所共有的参数集的图像参数集(PPS)NAL单元。PPS NAL单元412附到独立图像，有时也可以附到其他类型的图像。

NAL单元413是只附到独立图像的BPSEI NAL单元。在本实施例中，将视频解码设备用来校正出现在剪接点之后的每个图像的解码延迟和显示延迟的参数添加到该NAL单元413。

NAL单元414是附到每一个图像的PTSEI NAL单元。

NAL单元415是作为编码图像的实质的宏块条(SLICE)NAL单元。

根据本实施例的BPSEI NAL单元413包含若干个(N+1个)InitialCpbRemovalDelay/InitialCpbRemovalDelayOffset字段对(其中N是一个不小于0的整数)。这些字段的定义可以与较早引用的非专利文献(JCTVC-J1003,"High-EfficiencyVideo Coding(HEVC)text specification Draft 8",Joint Collaborative Team onVideo Coding of ITU-T SG16WP3and ISO/IEC JTC1/SC29/WG11,July 2012)所公开的方法或MPEG-4AVC/H.264中所给出的定义相同。

这是因为多于一个InitialCpbRemovalDelay/InitialCpbRemovalDelayOffset字段对被用于描述适合于其中以(N+1)个不同的比特率来发送编码的比特流的情况的InitialCpbRemovalDelay和InitialCpbRemovalDelayOffset参数。InitialCpbRemovalDelayOffset参数定义了视频编码设备中的第一个图像的编码完成时间和将编码图像数据传输到视频解码设备的开始时间之间的差。

PTSEI NAL单元414包含解码延迟CpbRemovalDelay字段、显示延迟DpbOutputDelay字段以及NumRemovedTfds字段。NumRemovedTfds字段是用于解码延迟和显示延迟的校正的校正信息的一个例子。NumRemovedTfds字段携带有在附PTSEI的图像和解码顺序上的下一个附BPSEI的图像之间的间隔期间丢弃的图像的解码间隔之和。图像的解码间隔被定义为通过从附到图像的PTSEI中所携带的CpbRemovalDelay字段值中减去附到解码顺序上在前紧邻的图像的PTSET中所携带的CpbRemovalDelay字段值而获得的值。当上述解码顺序上在前紧邻的图像为BLA图像时，附到该BLA图像的PTSET中所携带的CpbRemovalDelay字段值当作0来对待。当生成编码的比特流时，NumRemovedTfds字段值被设为0。

图5是根据第一实施例的视频编码设备的简化框图。视频编码设备1包括控制单元11、编码控制单元12、图像编码单元13、剪接点识别信息处理单元14和数据剪接单元15。构成视频编码设备1的这些单元各自在视频编码设备1上作为单独的电路实现。或者，构成视频编码设备1的这些单元也可以在视频编码设备1上以单个的集成电路的形式实现，在单个的集成电路上集成了实现上述各个单元的功能的电路。另外，构成视频编码设备1的这些单元可以是通过在视频编码设备1中包含的处理器上执行计算机程序而实现的功能模块。

当对视频数据进行编码时或者当编辑编码视频数据时，控制单元11控制视频编码设备1的每个指定单元的操作。例如，基于诸如场景变化位置等的视频数据的性质以及编码视频数据所需要的再现图像质量、压缩比等，控制单元11确定施加到待编码视频数据上的GOP结构等。然后，控制单元11用信号发出GOP结构等到编码控制单元12。

首先，将描述用于对视频数据进行编码视频编码处理。视频编码处理是利用编码控制单元12和图像编码单元13来进行的。

编码控制单元12根据从控制单元11用信号发出的GOP结构对每个图像确定编码顺序、编码模式(例如，帧内编码、前向预测或双向预测)等。然后，编码控制单元12基于每个图像的编码模式、GOP结构内的位置等确定CRA图像插入间隔、在编码时待重新排序的图像的数量以及最大显示延迟。在图2所示的示例中，CRA图像插入间隔为12，待重新排序的图像的数量为2，而最大显示延迟为5。编码控制单元12基于这些值生成每个图像的头信息。

例如，如果图像类型是未参考任何其它图像而进行编码的I图像(CRA图像)，并且如果该图像不是编码视频数据的起始图像的话，则编码控制单元12将该图像的每个宏块条的NUH 420中的NalUnitType设置成12。将编码视频数据的起始图像的每个宏块条的NUH420中的NalUnitType设置为10(IDR图像)。此外，当待重新排序的图像的数量不小于1时，对于紧随CRA图像并参考在解码顺序和显示顺序上都比该CRA图像要早的图像的图像，编码控制单元12将NalUnitType设置为14(TFD图像)。另一方面，对于紧随该CRA图像并且不参考在显示时间上先于该CRA图像、且在解码顺序和显示顺序上都早于CRA图像的任何图像的图像，编码控制单元12将NalUnitType设为13(DLP图像)。对于其他图像，编码控制单元12将NalUnitType设为1或2(TP图像)。

编码控制单元12将已在待编码图像的每个宏块条的头NUH 420中设置的NalUnitType值通知给图像编码单元13。此外，编码控制单元12从图像预测结构中获得每个图像的PTSEI中的解码延迟CpbRemovalDelay和显示延迟DpbOutputDelay的值，如图2所示，并相应地通知图像编码单元13。

当图像的每个宏块条的NUH 420中的NalUnitType是10或12时，编码控制单元12将BPSEI附至图像。

对于每一个图像，编码控制单元12用信号将图像的编码模式和头信息发至图像编码单元13，并发出对图像进行编码的指令。

图像编码单元13响应于来自编码控制单元12的指令，用指定的编码方式、通过采用能够进行帧间预测编码的视频编码方法之一来对图像进行编码。图像编码单元13所采用的视频编码方法例如可以是MPEG-4AVC/H.264或MPEG-2。图像编码单元13将包含每个编码图像的编码视频数据存储于存储单元(未示出)中。

接着，将描述当剪接两个编码视频数据流时所执行的编辑处理。编辑处理是利用剪接点识别信息处理单元14和数据剪接单元15来进行的。

剪接点识别信息处理单元14例如通过用户接口单元(未示出)从存储单元(未示出)中读出所选择的两个编码视频数据流。然后，根据外部施加的控制信号(未示出)，剪接点识别信息处理单元14识别要在编码视频数据流中的另一个视频数据流的时间上下游剪接的第二编码视频数据流中的剪接点开始图像。外部控制信号例如指定从第二编码视频数据流的一开始算起的编码图像的数量，而剪接点识别信息处理单元14例如识别编码图像的这个数量以内的最新的CRA图像来作为剪接点图像。

对于由此识别的剪接点CRA图像来说，如果待重新排序的图像的数量不小于1，则剪接点识别信息处理单元14将该图像的每个宏块条的NalUnitType的值从12改为7(7表示该图像是其后潜在可能跟着TFD图像的BLA图像)。该NalUnitType值表示，这两个编码视频数据流已在那个剪接点处剪接在一起，而且已经丢弃了在编码顺序和解码顺序都晚于剪接点BLA图像的一个或多个编码图像。此外，剪接点识别信息处理单元14将第二编码视频数据流中的剪接点CRA图像及其随后的图像提供给数据剪接单元15，并发出丢弃紧随剪接点CRA图像后的TFD图像的指令。另一方面，如果待重新排序的图像的数量为0，则剪接点识别信息处理单元14将剪接点CRA图像的每一宏块条的NalUnitType的值从12改为9(9表示该图像是紧随其后既没有TFD图像也没有DLP图像出现的BLA图像)。

接着，剪接点识别信息处理单元14计算待丢弃的TFD图像的解码间隔，而紧邻在待丢弃的TFD图像之前的非TFD图像的NumRemovedTfds字段的值则递增与跟随该非TFD图像的丢弃的TFD图像的解码间隔相等的值。当每个图像的解码间隔相等时，非TFD图像的NumRemovedTfds字段的值最终将以场为单位来表示在解码顺序上跟随该非TFD图像的、丢弃的图像的数量。然后，剪接点识别信息处理单元14对附至在解码顺序上先于第二编码视频数据流中待丢弃的TFD图像的任何图像的PTSEI的NumRemovedTfds字段的值进行校正。

数据剪接单元15从剪接点识别信息处理单元14接收第二编码视频数据流，并将它剪接到在时间上剪接于剪接点的上游的第一编码视频数据流的尾端。这时，数据剪接单元15丢弃紧随第二编码视频数据流中的起始图像且不能确保被正确解码的任何TFD图像。在这种情况下，数据剪接单元15还可以通过把DLP图像当作TFD图像而丢弃DLP图像。然后，数据剪接单元15将通过将第一和第二编码视频数据流剪接在一起而创建的剪接的编码视频数据存储在存储单元(未示出)中。

图6是示出根据第一实施例的视频编码设备所执行的视频编码处理的操作流程图。视频编码设备1按照图6的操作流程图来对整个视频序列进行编码。

在开始整个序列的编码处理之前，例如由控制单元11来确定诸如GOP结构的图像预测结构(步骤S101)。将确定的图像预测结构用信号发至编码控制单元12。

然后，基于图像预测结构、目标图像自视频数据的开始处起的位置等，编码控制单元12确定用于对目标图像进行编码的编码模式，并生成待编码的目标图像的头信息(步骤S102)。

在步骤S102之后，编码控制单元12将目标图像的数据连同该图像的编码模式的类型和头信息一起提供给图像编码单元13。然后，图像编码单元13按照该编码模式和头信息来对目标图像进行编码，并将该头信息附至编码图像的数据(步骤S103)。

在此之后，控制单元11确定在视频序列中是否剩余任何待解码图像(步骤S104)。如果剩余任何待解码图像(步骤S104中的是)，则控制单元11从步骤S102开始向前执行处理，以对下一个目标图像进行编码。另一方面，如果不再剩余任何待解码图像(步骤S104中的否)，则控制单元11终止编码过程。

图7是示出根据第一实施例的视频编码设备所执行的视频编辑处理的操作流程图。在所示出的示例中，DLP图像未被丢弃，而只有TFD图像被丢弃了。

剪接点识别信息处理单元14对在TFD和DLP图像之中未被丢弃的图像的列表L[]进行初始化，并将变量m初始化为2，变量m表示通过将未被丢弃的图像的数量加2而获得的值(步骤S201)。如果不存在在解码顺序上跟随最后的DLP图像的TFD图像的话，则可以将变量m设置成表示TFD和DLP图像之中未被丢弃的图像的数量。

接着，剪接点识别信息处理单元14从存储单元(未示出)中顺序地读出待剪接于剪接点的上游的第一编码视频数据流中的一直到剪接点的编码图像(步骤S202)。

此外，剪接点识别信息处理单元14从存储单元(未示出)中顺序地读出待剪接于剪接点的下游的第二编码视频数据流中的剪接点之后的编码图像(步骤S203)。接着，对于从第二编码视频数据流中读出的起始CRA图像，剪接点识别信息处理单元14将每个宏块条NUH中的NalUnitType的值改为表示BLA图像的值(步骤S204)。

接着，剪接点识别信息处理单元14确定解码顺序上的下一个图像的NalUnitType的值是否为14，即，该下一个图像是否为TFD图像(步骤S205)。如果该图像是TFD图像(步骤S205中的是)，则剪接点识别信息处理单元14向数据剪接单元15发出丢弃该TFD图像的指令，并将TFD图像的解码间隔(即，TFD图像和在解码顺序上紧邻在它前面的图像之间的PTSEI CpbRemovalDelay值的差)添加至列表L[]中的第0个到第m个条目中的每一个(步骤S206)。之后，剪接点识别信息处理单元14返回到步骤S205以评估下一个图像的NalUnitType。

另一方面，如果该图像不是TFD图像(步骤S205中的否)，则剪接点识别信息处理单元14确定解码顺序上的下一个图像的NalUnitType的值是否是13，即，下一个图像是否是DLP图像(步骤S207)。如果下一个图像是DLP图像(步骤S207中的是)，则剪接点识别信息处理单元14令变量m递增1(步骤S208)。之后，剪接点识别信息处理单元14返回到步骤S205以重复上述处理。另一方面，如果解码顺序上的下一个图像不是DLP图像(步骤S207中的否)，则该下一个图像既不是TFD图像也不是DLP图像，而是TP图像。不存在在解码顺序上跟着TP图像的TFD图像。因此，基于列表L[]，剪接点识别信息处理单元14对附至BLA和DLP图像中的每一个的PTSEI的NumRemovedTfds字段进行更新(步骤S209)。更具体地，对于当从BLA图像起算时在解码顺序上一直到第m个图像的非TFD图像，剪接点识别信息处理单元14将附至第k个图像的PTSEI的NumRemovedTfds字段的值更新为L[k]。之后，剪接点识别信息处理单元14将BLA图像及其随后的图像提供给数据剪接单元15。

数据剪接单元15剪接第二编码视频数据流中的BLA图像及其随后的图像以便跟随剪接点的上游的第一编码视频数据流的最后一个图像。此时，数据剪接单元15丢弃由剪接点识别信息处理单元14指定要去除的TFD图像。

接着，将给出对根据第一实施例的用于对由视频编码设备1编码或编辑的编码视频数据进行解码的视频解码设备的说明

图8是根据第一实施例的视频解码设备的简化框图。视频解码设备2包括控制单元21、头信息分析单元22、图像解码/显示时间确定单元23、图像解码单元24和帧存储器25。构成视频解码设备2的这些单元各自在视频解码设备2上作为单独的电路实现。或者，构成视频解码设备2的这些单元也可以在视频解码设备2上以单个的集成电路的形式实现，在该单个的集成电路上集成了实现上述各个单元的功能的电路。此外，构成视频解码设备2的这些单元可以是通过在视频解码设备2中包含的处理器上执行计算机程序而实现的功能模块。

控制单元21控制当解码编码视频数据时视频解码设备2的每个指定单元的操作。

头信息分析部22分析编码视频数据的头信息，并将对确定图像解码和显示时间来说所必需的参数(例如，每个图像的NalUnitType以及PTSEI中所携带的CpbRemovalDelay、DpbOutputDelay和NumRemovedTfds)传递给图像解码/显示时间确定单元23。

接收到来自头信息分析部22的参数的图像解码/显示时间确定单元23检查待解码图像的宏块条NUH。当NUH中所携带的NalUnitType的值为7或8或9时，图像解码/显示时间确定单元23确定该待解码图像为BLA图像。

当待解码图像为BLA图像时，图像解码/显示时间确定单元23使用以下述方式计算出的值而非附至BLA图像的PTSEI中所携带的CpbRemovalDelay的值，来作为BLA图像的解码延迟CpbRemovalDelay。

图像解码/显示时间确定单元23计算从紧随BLA图像前的最新的附有BPSEI的图像的图像起算一直到BLA图像的图像解码间隔的总和A。然后，图像解码/显示时间确定单元23将BLA图像的解码延迟CpbRemovalDelay设成等于A。当每个图像的解码间隔相等时，图像解码/显示时间确定单元23可以将BLA图像的解码延迟CpbRemovalDelay设成等于以场为单位从紧随BLA图像前的最新的附有BPSEI图像的图像起算一直到BLA图像的图像的数量。

此外，图像解码/显示时间确定单元23检查附至BLA图像的PTSEI的NumRemovedTfds字段。如果NumRemovedTfds的值不为零，则图像解码/显示时间确定单元23确定紧随BLA图像的TFD图像已被丢弃，并通过从BLA图像的显示延迟CpbRemovalDelay的值中减去NumRemovedTfds的值来校正BLA图像的显示延迟CpbRemovalDelay。

图像解码/显示时间确定单元23还对在解码顺序上跟着BLA图像的每个图像上执行下面的处理，直到下一个附有BPSEI的图像出现为止。

对于每个指定图像，图像解码/显示时间确定单元23通过从CpbRemovalDelay的原始值中减去附至BLA图像的PTSEI中所携带的NumRemovedTfds的值与附至指定图像的PTSEI中所携带的NumRemovedTfds的值之差(即，出现在指定图像后的丢弃的图像的解码间隔的总和)来校正解码延迟CpbRemovalDelay。另外，对于每个指定图像，图像解码/显示时间确定单元23通过从DpbOutputDelay的原始值中减去附至指定图像的PTSEI中所携带的NumRemovedTfds的值来校正显示延迟DpbOutputDelay。

此外，对于每个TP图像，图像解码/显示时间确定单元23通过从该图像的解码延迟CpbRemovalDelay的原始值中减去在BLA图像所附的PTSEI中携带的NumRemovedTfds的值来校正解码延迟CpbRemovalDelay。

对于除以上图像之外的任何其他图像，图像解码/显示时间确定单元23通过直接取用在该图像所附的PTSEI中携带的解码延迟CpbRemovalDelay和显示延迟DpbOutputDelay的值来确定图像的解码延迟CpbRemovalDelay和显示延迟DpbOutputDelay。

图像解码/显示时间确定单元23基于以上解码延迟CpbRemovalDelay来确定每个图像的解码时间，并且在确定的解码时间向图像解码单元24发出解码指令。此外，图像解码/显示时间确定单元23基于以上显示延迟DpbOutputDelay来确定每个图像的显示时间，并且在确定的显示时间向帧存储器25发出显示指令。

在接收到针对待解码图像的解码指令时，图像解码单元24通过使用存储在帧存储器25中的参考图像来对图像进行解码。然后，图像解码单元24将解码图像存储在帧存储器25中。图像解码单元24通过使用与视频编码设备1中的图像编码单元所使用的编码方法相同的编码方法来执行解码。

帧存储器25存储解码图像。此外，帧存储器25将解码图像输出至图像解码单元24以向待随后解码的图像呈现参考图像。帧存储器25还根据从图像解码/显示时间确定单元23接收的显示指令将解码图像输出至显示单元(未示出)。

图9是示出根据第一实施例的通过视频解码设备执行的视频解码处理的操作流程图。视频解码设备2根据图9的操作流程图对整个视频序列进行解码。

在开始整个序列的解码处理之前，控制单元21将变量“flag”初始化为0(步骤S301)。变量“flag”为表示图像是否为CpbRemovalDelay和DpbOutputDelay需要校正的非BLA图像的变量。如果flag为1，则CpbRemovalDelay和DpbOutputDelay需要校正，而如果flag为0，则CpbRemovalDelay或DpbOutputDelay都不需要校正。

接下来，头信息分析单元22对待解码的图像的头信息进行分析，并将确定图像的解码时间和显示时间所需要的参数传送至图像解码/显示时间确定单元23(步骤S302)。图像解码/显示时间确定单元23确定变量“flag”是否为1(步骤S303)。如果变量“flag”为1(在步骤S303中为是)，则图像解码/显示时间确定单元23通过使用待解码图像的NumRemovedTfds和最新BLA图像的NumRemovedTfds来校正待解码图像(在该情况下为非BLA图像)的解码延迟CpbRemovalDelay(步骤S304)。图像解码/显示时间确定单元23还通过使用待解码图像的NumRemovedTfds来校正待解码图像的显示延迟DpbOutputDelay。

在步骤S304之后，或在步骤S303中确定了变量“flag”为0(在步骤S303中为否)之后，图像解码/显示时间确定单元23继续确定待解码图像是否为附有BPSEI的图像(步骤S305)。

如果待解码图像为附有BPSEI的图像(在步骤S305中为是)，则图像解码/显示时间确定单元23确定待解码图像是否为BLA图像(步骤S306)。如果待解码图像不是BLA图像(在步骤S306中为否)，则图像解码/显示时间确定单元23将变量“flag”重设为0(步骤S307)。

如果待解码图像为BLA图像(在步骤S306中为是)，则图像解码/显示时间确定单元23校正图像的解码延迟CpbRemovalDelay和显示延迟DpbOutputDelay，并将变量“flag”设定为1(步骤S308)。在该情况下，图像解码/显示时间确定单元23通过取用从紧随最新的附有BPSEI的图像的图像起算一直到BLA图像的图像解码间隔之和，确定BLA图像的解码延迟CpbRemovalDelay。此外，图像解码/显示时间确定单元23通过从DpbOutputDelay的原始值中减去NumRemovedTfds的值来确定图像的显示延迟DpbOutputDelay。

在步骤S307或S308之后，或在步骤S305中确定了待解码图像不是附有BPSEI的图像(在步骤S305中为否)之后，控制单元21继续确定在编码视频数据中是否剩余任何待解码图像(步骤S309)。如果剩余任何待解码图像(在步骤S309中为是)，则控制单元21将处理返回到步骤S302。然后，以解码顺序上下一个待解码图像作为目标图像，并且重复从步骤S302开始的处理。另一方面，如果不再剩余任何待解码图像(在步骤S309中为否)，则控制单元21终止视频解码处理。

将参考附图10通过示例来说明到目前为止所描述的推导NumRemovedTfds的方法及校正CpbRemovalDelay和DpbOutputDelay的方法。

待在剪接点的上游剪接的第一编码视频数据流1001中的每个框表示一个图像，并且每个框中携带的字符表示输入至视频编码设备的顺序和编码模式，如图2所示。

在示出的示例中，紧随第一编码视频数据流的最后一个图像B11来剪接第二编码视频数据流1002。在第二编码视频数据流1002中，同样，每个框表示一个图像，并且每个框中携带的字符表示输入至视频编码设备的顺序和编码模式。在第二编码视频数据流1002上方示出的箭头表示在通过前向帧预测对图像B4至B7进行编码时图像B4至B7分别参考的参考图像。另一方面，在第二编码视频数据流1002下方示出的箭头表示在通过后向帧预测对图像B4至B7进行编码时图像B4至B7分别参考的参考图像。

如在第二编码视频数据流1002中指定的，在第二编码视频数据流1002中，图像B4、B2、B1、B3和B5为TFD图像。图像B6和B7为DLP图像。

在第二编码视频数据流1002下方呈现的框阵列1003表示在第二编码视频数据流1002的每个图像所附的PTSEI中携带的解码延迟CpbRemovalDelay和显示延迟DpbOutputDelay的值。框阵列1003的上面一行中的每个框携带第二编码视频数据流1002中位于该框正上方的对应图像的解码延迟CPbRemovalDelay的值。类似地，框阵列1003的下面一行中的每个框携带第二编码视频数据流1002中位于该框正上方的对应图像的显示延迟DpbOutputDelay的值。

在框阵列1003下方示出了通过剪接第一编码视频数据流1001和第二编码视频数据流1002生成的剪接的编码视频数据1004。在示出的示例中，第二编码视频数据流1002中的TFD图像B4、B2、B1、B3、和B5被丢弃，因此未被包含在剪接的编码视频数据1004中。

在框阵列1004下方示出了剪接的编码视频数据1004的NumRemovedTfds 1005。BLA图像I8的NumRemovedTfds字段携带在解码顺序上跟随I8的丢弃的TFD图像(B4、B2、B1、B3、和B5)的解码间隔之和，即，在示出的示例中为表示在I8之后以场为单位被丢弃了的图像的数量的值“10”。类似地，DLP图像B6的NumRemovedTfds字段携带在解码顺序上跟随B6的丢弃的TFD图像(B5)的解码间隔之和，即，在示出的示例中为表示在B6之后以场为单位被丢弃了的图像的数量的值“2”。对于图像B7及其随后图像，NumRemovedTfds的值保持为0，这是因为不存在在解码顺序上跟随的丢弃的TFD图像。

在剪接的编码视频数据1004的NumRemovedTfds 1005下方呈现的框阵列1006表示剪接的编码视频数据1004的基于NumRemovedTfds值被校正了的解码延迟CpbRemovalDelay和显示延迟DpbOutputDelay的值。框阵列1006的上面一行中的每个框携带位于该框正上方的图像的解码延迟CpbRemovalDelay的校正值，并且框阵列1006的下面一行中的每个框携带位于该框正上方的图像的显示延迟DpbOutputDelay的校正值。

对于BLA图像I8，通过从显示延迟DpbOutputDelay的原始值“20”中减去NumRemovedTfds值“10”给出显示延迟DpbOutputDelay的校正值为“10”。这样，用通过参考图像B9的显示时间获取的在图像I8的解码时间与显示时间之差不仅可以表达图像I8的显示延迟DpbOutputDelay的原始值还可以表达其校正值，其中，在跟随I8的图像中，图像B9的待重新排序的图像数量最大。

对于DLP图像B6，通过从解码延迟CpbRemovalDelay的原始值“10”中减去图像I8的NumRemovedTfds值(＝10)与图像B6的NumRemovedTfds值(＝2)之差“8”来给出解码延迟CpbRemovalDelay的校正值为“2”。此外，通过从显示延迟DpbOutputDelay的原始值“6”减去图像B6的NumRemovedTfds值(＝2)来给出图像B6的显示延迟DpbOutputDelay的校正值为“4”。对于图像B7及其随后图像，由于NumRemovedTfds值为0，所以通过从解码延迟CpbRemovalDelay的原始值中减去图像I8的NumRemovedTfds值来获得解码延迟CpbRemovalDelay的校正值。对于图像B7及其随后图像，显示延迟DpbOutputDelay保持不变。

如以上所描述了的，在使两个或更多个编码视频数据流剪接在一起而不一起对它们解码时，根据本实施例的视频编码设备仅需要将基于在剪接时丢弃的图像的数量确定的解码延迟和显示延迟校正参数存储在编码视频数据内，而不需要校正在编码时确定的解码延迟和显示延迟参数。然后，由于可以使用在剪接编码视频数据流时添加的解码延迟和显示延迟校正参数来校正每个图像的解码延迟和显示延迟，根据本实施例的视频解码设备可以以校正时序对每个图像进行解码和显示。

接下来，将描述第二实施例。第二实施例与第一实施例的区别在于编码视频数据的结构。

参考图11，将对根据第二实施例的编码视频数据的结构进行描述。与根据图4中示出的第一实施例的编码图像结构一样，一个图像的数据结构包含六种NAL单元1110至1115。这些单元中的BPSEI 1113和PTSEI 1114与图4中描述的BPSEI 413和PTSEI 414不同。另一方面，DELIM 1110、SPS 1111、PPS 1112、SLICE 1115、和NUH 1120分别与图4中示出的DELIM410、SPS 411、PPS 412、SLICE 415、和NUH 420相同。

BPSEI 1113包含NumEntries字段，该字段携带通过将1与变量m相加计算出的数量，其中，m表示通过将2与在剪接时在位于BLA图像与下一CRA图像之间的TFD和DLP图像中未被丢弃的图像的数量相加获得的值。BPSEI 1113还包含与NumEntries一样多的AltCpbRemovalDelayOffset字段和AltDpbOutputDelayOffset字段。NumEntrie字段、AltCpbRemovalDelayOffset字段和AltDpbOutputDelayOffset字段一起组成用于对解码延迟和显示延迟进行校正所使用的校正信息的另一个示例。另一方面，不像PTSEI 440，PTSEI1140不包含NumRemovedTfds字段。

当NumEntries字段的值为0时，视频解码设备不需要对针对附有BPSEI的图像及其随后图像(先于下一个有BPSEI的图像)中的任何图像的CpbRemovalDelay和DpbOutputDelay的值进行校正。另一方面，当NumEntries字段的值不为0时，视频解码设备通过从解码延迟CpbRemovalDelay的原始值中减去AltCpbRemovalDelayOffset[k]的值来对从附有BPSEI的图像起算的在解码顺序上的第k个图像的解码延迟CpbRemovalDelay进行校正。同样地，视频解码设备通过从显示延迟DpbOutputDelay的原始值中减去AltDpboutputDelayOffset[k]的值对显示延迟DpbOutputDelay进行校正。

如以上所述，与第一实施例的区别在于携带CpbRemovalDelay和DpbOutputDelay字段的校正值的SEI的类型。因此，第二实施例的视频编码设备与第一实施例的视频编码设备的区别在于剪接点识别信息处理单元14的操作。因此，以下对剪接点识别信息处理单元14的操作进行描述。

剪接点识别信息处理单元14将通过使1与根据图7中示出的视频编辑处理的操作流程图计算的变量m相加获得的值存储在NumEntries字段中。此外，剪接点识别信息处理单元14将L[0]-L[k]的值存储在第k个AltCpbRemovalDelayOffset字段中(k＝[0,m-1])。剪接点识别信息处理单元14还将L[k]的值存储在第k个AltDpbOutputDelayOffset中。

接下来，将对根据第二实施例的视频解码设备的操作进行描述。根据第二实施例的视频解码设备的配置与根据第一实施例的视频解码设备的配置基本上相同。然而，根据第二实施例的视频解码设备与第一实施例的视频解码设备的区别在于图像解码/显示时间确定单元23的操作。因此，下面对图像解码/显示时间确定单元23的操作进行描述。

只有在紧邻待解码图像前的附有BPSEI的图像的BPSEI中的NumEntries的值不为零时，图像解码/显示时间确定单元23才以以下方式对图像的PTSEI中的解码延迟CpbRemovalDelay和显示延迟DpbOutputDelay的值进行校正。

如从紧邻其前的附有BPSEI的图像(在该情况下为BLA图像)起算的图像的解码顺序表示为k(k＝0、1、2、…)。当k等于或大于NumEntries时，图像解码/显示时间确定单元23通过从第k个图像的解码延迟CpbRemovalDelay的原始值中减去AltCpbRemovalDelayOffset[NumEntries-1]的值来对解码延迟CpbRemovalDelay的值进行校正。另一方面，当k小于NumEntries时，图像解码/显示时间确定单元23通过从解码延迟CpbRemovalDelay的原始值中减去AltCpbRemovalDelayOffset[k]的值来对第k个图像的CpbRemovalDelay的值进行校正，并通过从显示延迟DpbOutputDelay的原始值中减去AltDpbOutputDelayOffset的值来对DpbOutputDelay的值进行校正。

图12是示出通过执行用于实现根据以上实施例或它们的修改示例中的任一个的视频编码设备或视频解码设备中的各个单元的功能的计算机程序而用作视频编码设备或视频解码设备的计算机的配置的图。

计算机100包括用户接口单元101、通信接口单元102、存储单元103、存储介质访问装置104、和处理器105。处理器105例如通过总线连接至用户接口单元101、通信接口单元102、存储单元103、和存储介质访问装置104。

用户接口单元101例如包括输入装置如键盘和鼠标、以及显示装置如液晶显示器。可替代地，用户接口单元101可以包括集成有输入装置和显示装置的装置，如触摸面板显示器。用户接口单元101例如响应于用户操作来生成用于选择待编码的视频数据、待编辑的编码视频数据、或待解码的编码视频数据的操作信号，并且将操作信号提供给处理器105。接口单元101还可以显示从处理器105接收的解码视频数据。

通信接口单元102可以包括用于将计算机100连接至视频数据生成设备例如摄像机的通信接口、以及用于通信接口的控制电路。这样的通信接口可以例如为通用串行总线(USB)接口。

此外，通信接口单元102可以包括用于连接至符合通信标准如以太网(注册商标)的通信网络的通信接口、以及用于通信接口的控制电路。

在后者的情况下，通信接口102从连接至通信网络的另一个设备接收待编码视频数据、待编辑的编码视频数据、或待解码的编码视频数据，并且将接收的数据传送至处理器105。此外，通信接口102可以从处理器105接收编码视频数据、剪接的编码视频数据、或解码视频数据，并且可以通过通信网络将数据传输给另一个设备。

存储单元103例如包括可读/可写半导体存储器和只读半导体存储器。存储单元103存储用于待在处理器105上执行视频编码或视频解码的计算机程序，并且还存储由于执行程序或在执行程序中生成的数据。

存储介质访问装置104为访问存储介质106(如磁盘、半导体存储卡、或光学存储介质)的装置。存储介质访问装置104访问存储介质106以例如读出用于待在处理器105上执行视频编码或视频解码的计算机程序，并将读出的计算机程序传送至处理器105。

处理器105通过执行根据以上实施例或其修改示例中任一个的视频编码计算机程序来生成编码视频数据。然后处理器105将这样生成的编码视频数据存储在存储单元103中，或通过通信接口单元102将生成的数据传输给另一个设备。此外，处理器105通过将两个编码视频数据流剪接在一起来生成剪接的编码视频数据。然后处理器105将生成的剪接的编码视频数据存储在存储单元103中，或通过通信接口单元102将生成的数据传输给另一个设备。而且，处理器105通过执行根据以上实施例或其修改示例中任一个的视频解码计算机程序来对编码视频数据进行解码。然后处理器105将解码视频数据存储在存储单元103中，将数据呈现给用户接口单元101用于显示，或通过通信接口单元102将数据传输给另一个设备。

在计算机上执行以实现组成根据以上实施例或其修改示例中每一个的视频编码设备或视频解码设备的各种单元的功能的计算机程序可以以存储在半导体存储器中的格式或以记录在记录介质如光学记录介质上的格式来分布。此处使用的术语“记录介质”并非载波。

根据以上实施例或其修改示例的视频编码设备和视频解码设备被用在各种应用中。例如，将视频编码设备和视频解码设备合并在摄像机、视频传输设备、视频接收设备、视频电话系统、计算机、或移动电话中。

本文中列举的所有示例和条件语言意在用于教导目的以帮助读者理解由本发明人贡献以促进现有技术的本发明和思想，并且应当被理解为不限制这样具体列举的示例和条件，也不限制说明书中与示出本发明的优势和劣势相关的这样的示例的组织。尽管已详细描述了本发明的实施例，然而应当理解的是，可以在不偏离本发明的精神和范围的情况下对本文进行各种变化、置换和替换。

Claims

1.一种用于对通过帧间预测编码而编码的视频数据进行解码的视频解码设备，包括：

图像解码/显示时间确定单元，其利用表明已经通过将第二编码视频数据剪接至第一编码视频数据的尾端而生成了编码视频数据的信息、以及表明已经丢弃了一个或多个编码图像的信息，基于校正信息对跟随所述第二编码视频数据的起始编码图像的图像的解码延迟进行校正，以及基于所述校正信息对所述第二编码视频数据的起始编码图像和跟随所述第二编码视频数据的起始编码图像的图像的显示延迟进行校正，其中，所述一个或多个编码图像在编码顺序上比在剪接所述第一编码视频数据和所述第二编码视频数据的剪接点下游处剪接的所述第二编码视频数据中的起始编码图像晚，以及其中，

所述校正信息包括被附到所述第二编码视频数据的起始编码图像的第一校正信息和被附到在解码时间上晚于但在显示时间上早于所述第二编码视频数据的起始编码图像的每个可解码前导图像DLP图像的第二校正信息，所述第一校正信息用于校正所述第二编码视频数据的起始编码图像的显示延迟以及每个DLP图像的解码延迟，并且所述第一校正信息包括与解码间隔之和对应的值，所述解码间隔是以下两者之间的解码间隔：在所述剪接的视频数据中在解码顺序上晚于所述第二编码视频数据的起始编码图像并已从所述剪接的视频数据中丢弃了的每个丢弃的图像，以及在解码顺序上紧邻在所述丢弃的图像前的图像，而针对每个DLP图像，所述DLP图像的第二校正信息用于校正所述DLP图像的显示延迟和解码延迟，并且所述第二校正信息包括与解码间隔之和对应的值，所述解码间隔是以下两者之间的解码间隔：在所述剪接的视频数据中在解码顺序上晚于所述DLP图像并已从所述剪接的视频数据中丢弃了的每个丢弃的图像，以及在解码顺序上紧邻在所述丢弃的图像前的图像。

2.根据权利要求1所述的视频解码设备，其中，所述图像解码/显示时间确定单元通过从在将所述第二编码视频数据剪接至所述第一编码视频数据之前已经针对所述第二编码视频数据的起始编码图像设置的显示延迟的值中减去所述第一校正信息的值，来校正所述第二编码视频数据的起始编码图像的显示延迟，以及通过从在将所述第二编码视频数据剪接至所述第一编码视频数据之前已经针对所述DLP图像设置的显示延迟的值中减去所述第二校正信息的值，来校正所述DLP图像的显示延迟。

3.根据权利要求2所述的视频解码设备，其中，所述图像解码/显示时间确定单元通过从在将所述第二编码视频数据剪接至所述第一编码视频数据之前已经针对所述DLP图像设置的解码延迟的值中减去所述第一校正信息的值与所述第二校正信息的值之差，来校正所述DLP图像的解码延迟，以及

对于跟随的编码图像，所述图像解码/显示时间确定单元通过从在将所述第二编码视频数据剪接至所述第一编码视频数据之前针对所述跟随的编码图像已经设置的解码延迟的值中减去所述第一校正信息的值，来校正所述跟随的编码图像的解码延迟，其中该跟随的编码图像跟随所述DLP图像并在解码顺序上早于继所述第二编码视频数据的起始编码图像之后未参考任何其它图像而编码的图像，并且该跟随的编码图像仅参考晚于所述第二编码视频数据的起始编码图像出现的图像。