CN103929657A

CN103929657A - 视频复用设备和方法、复用视频解码设备和方法

Info

Publication number: CN103929657A
Application number: CN201410018007.6A
Authority: CN
Inventors: 数井君彦; 岛田智史; 小山纯平; 小林俊辅
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-01-16
Filing date: 2014-01-15
Publication date: 2014-07-16
Anticipated expiration: 2034-01-15
Also published as: EP2757795B1; JP6119260B2; CN103929657B; US20140201798A1; JP2014138269A; US9083993B2; EP2757795A1

Abstract

提供一种视频复用设备和方法、复用视频解码设备和方法。视频复用设备包括：控制单元，确定用于视频数据中的每个画面和用于第一媒体数据的每个编码单位的第一解码/显示时间信息和第二解码/显示时间信息；视频分组生成单元，为视频数据的编码数据附加用于画面的第一解码/显示时间信息和第二解码/显示时间信息；以及媒体分组生成单元，为第一媒体数据的编码数据附加用于编码单位的第一解码/显示时间信息和第二解码/显示时间信息。在视频数据的解码单位是画面时使用第一解码/显示时间信息，并在解码单位是子画面时使用第二解码/显示时间信息。基于第二解码/显示时间信息的画面显示时间早于基于第一解码/显示时间信息的画面显示时间。

Description

视频复用设备和方法、复用视频解码设备和方法

技术领域

这里讨论的实施例涉及用于从视频数据和其它媒体数据生成复用数据的视频复用设备和视频复用方法，并且还涉及用于对复用数据进行解码的复用视频解码设备和复用视频解码方法。

背景技术

通常，在数字视频广播中，采用在ISO/IEC13818-1“Informationtechnology-Generic coding of moving pictures and associated audioinformation:Systems,”2006中定义的MPEG-2系统标准中指定的数字复用方案作为一个视频和音频数据复用标准。

图1是示意性地示出以MPEG-2系统指定的TS（传输流）格式来对视频和音频数据进行复用的视频复用设备的配置的图。视频复用设备100包括视频编码单元101、视频分组生成单元102、音频编码单元103、音频分组生成单元104、控制单元105、系统分组生成单元106、以及分组复用单元107。

视频编码单元101根据预定编码方法例如ISO/IEC14496-10“Information technology-Coding of audio-visual objects-Part10:Advanced Video Coding,”2010中定义的AVC标准，对输入视频数据进行编码和压缩。视频分组生成单元102将编码和压缩视频数据分组成PES（分组基本流）分组。PES分组格式为：对于视频数据中的每个或每预定数量的画面附加承载画面显示时间等的PES头。被分组成PES分组的视频数据进一步被分组成每个具有188字节的固定长度的TS分组。TS分组格式为：TS头附加到包含PES分组被分割成的数据的TS载荷。TS头包含载荷标识信息PID。TS头还承载例如用于再现视频复用设备100的系统时钟（STC）值的节目时间参考（PCR）值。PCR值必须根据在TS流（TS分组流）中的插入位置（字节位置）严格地确定。为此，在视频分组生成单元102和分组复用单元107之间交换必要信息。

音频编码单元103根据预定编码方法例如在ISO/IEC13818-7“Information technology-Generic coding of moving pictures andassociated audio information-Part7:Advanced Audio Coding(AAC),”2006中定义的MPEG-2AAC标准，对输入音频数据进行编码和压缩。

音频分组生成单元104将编码和压缩音频数据分组成PES分组和TS分组。音频PES分组格式为：对于每一个音频帧（1024个样本）附加PES头。

控制单元105控制视频编码设备100的操作。控制单元105具有提供用于同步控制的参考时钟的27-MHz STC。控制单元105通过取得输入视频数据的垂直同步信号V-Sync定时的STC值，确定每个画面的显示时间。还通过取得输入音频数据中的音频帧的第一采样定时处的STC值来确定每个音频帧的再现时间。

系统分组生成单元106生成TS分组，其将节目指定信息（PSI）存储为系统信息。PSI包括：承载复用节目的列表的节目相关表（PAT）、承载每个节目中的视频或音频数据的PID的节目映射表（PMT）等。PAT的PID被指定为“0”。

分组复用单元107将从视频分组生成单元102输出的视频TS分组、从音频分组生成单元104输出的音频TS分组、以及从系统分组生成单元106输出的系统TS分组复用在一起。因此分组复用单元107产生TS流，该TS流被输出。通过符合在MPEG-2系统标准中定义的系统目标解码器（STD）规范，执行分组的复用。例如，对视频TS分组进行复用，使得每个视频TS分组将在早于PES头指定的显示时间的时间到达STD。

图2是示意性地示出如下复用视频解码设备的配置的图：该复用视频解码设备对以MPEG-2系统指定的TS格式复用的视频和音频数据进行解码，并且在再现音频数据的同时显示视频数据。复用视频解码设备200包括分组去复用单元201、系统分组处理单元202、控制单元203、视频分组处理单元204、视频解码单元205、音频分组处理单元206、以及音频解码单元207。

分组去复用单元201与系统分组处理单元202结合，基于每个TS分组的头信息，识别包含在TS分组的载荷部分中的数据的类型。然后，分组去复用单元201在将PSI信息传递到系统分组处理单元202的同时，将视频PES分组传递到视频分组处理单元204并且将音频PES分组传递到音频分组处理单元206。此外，分组去复用单元201将在TS头中承载的PCR值连同其字节位置信息一起传递到控制单元203。

系统分组处理单元202分析在系统TS分组的载荷部分中承载的PSI信息，获取在要解码的节目中包含的视频和音频数据的PID，并且将PID传递到分组去复用单元201。

视频分组处理单元204提取从分组去复用单元201接收的视频TS分组的载荷中存储的每个视频PES分组的载荷中包含的编码视频数据，并且将编码视频数据传递到视频解码单元205。此外，视频分组处理单元204将从PES分组头取得的画面显示时间等传递到控制单元203。

音频分组处理单元206提取从分组去复用单元201接收的音频TS分组的载荷中存储的每个音频PES分组的载荷中包含的编码音频数据，并且将编码音频数据传递到音频解码单元207。此外，音频分组处理单元206将从PES分组头取得的音频帧显示时间等传递到控制单元203。

如同控制单元105，控制单元203具有27MHz参考时钟STC。控制单元203基于从分组去复用单元201接收的PCR值来对STC值进行解码，并且执行用于同步的处理。当分别从视频分组处理单元204和音频分组处理单元206接收的画面显示时间和音频帧显示时间等于STC值时，控制单元203分别指示视频解码单元205和音频解码单元207执行解码。

视频解码单元205和音频解码单元207均根据来自控制单元203的解码指示对画面或音频帧进行解码，并且分别输出解码画面或解码音频帧。发明内容

在ISO/IEC13818-1“Information technology-Generic coding ofmoving pictures and associated audio information:Systems,”2006中定义的MPEG-2系统标准中，使用出现时间戳（PTS）来描述视频和音频数据的显示时间。PTS是被分配给视频数据中的一个或更多个画面以及音频数据中的一个或更多个音频帧的、具有90kHz的分辨率的时间信息。

在MPEG-2系统标准中定义的STD规范中，当不存在在双向画面预测时需要的帧重排时，编码视频数据中的每个画面被瞬时解码并且在PTS指定的时间被显示。换言之，解码时间与显示时间相同。复用数据中的每个编码视频画面需要被复用，使得画面的所有编码数据将在早于PTS指定的时间的时间处传送到复用视频解码设备。

另一方面，当需要帧重排时，由于解码时间与显示时间不同，因此通过使用解码时间戳（DTS）、在编码视频数据中明确地指示解码时间。在这种情况下，复用数据中的每个编码视频画面需要被复用，使得画面的所有编码数据将在早于DTS指定的时间的时间处传送到复用视频解码设备。在编码效率比消除数据延迟更重要的应用中使用帧重排。由于帧重排通过一个或更多个画面时间引起延迟，因此在数据延迟不可接受的应用中不使用帧重排。在本说明书中，主要基于不执行帧重排的假设来给出以下描述。

在STD规范中，瞬时完成画面的解码。另一方面，实际的复用视频解码设备中包含的视频解码单元通常花费一个画面时间来对画面进行解码。由于通常在进行了画面的解码后开始解码画面的显示，因此实际设备以从PTS延迟一个画面时间来开始显示画面。

图3是示出根据现有技术的MPEG-2系统TS格式的、视频复用设备和去复用视频解码设备中的用于一个画面的处理定时的图。参照图3，将给出如下说明：根据现有技术，在到视频复用设备的画面输入和从去复用视频解码设备的画面输出之间如何出现延迟（在下文中称为编解码器延迟）。在图3中，水平轴表示以STC值表示的经过时间。块301指示从画面被输入到视频复用设备的瞬时直到完成画面的传输经过的时间，并且块302指示从在复用视频解码设备处画面接收开始直到完成画面显示经过的时间。

视频复用设备在STC值为1时开始接收输入画面，并且在一个画面时间（例如，当画面率是29.97Hz时为33毫秒）上的时段捕获画面。在捕获画面之后，视频复用设备在一个画面时间的时段上对输入画面进行编码。在对画面进行编码之后，视频复用设备开始传送编码画面数据。在恒定比特率（CBR）模式中，一个画面的传输时间的平均值等于一个画面时间。在这种情况下，视频复用设备将PCR值写入到TS分组头，使得在复用视频解码设备侧STC值将变成400。画面的PTS被设置为1。

另一方面，当完成编码画面数据的接收时，复用视频解码设备在时间t1开始解码。复用视频解码设备在一个画面时间的时段上对画面进行解码。在对画面进行解码之后，复用视频解码设备在一个画面时间的时段上显示解码画面。结果，编解码器延迟等于四个画面时间（例如，在画面率是29.97Hz时为132毫秒）。

在传统双向视频通信系统中，例如，在视频会议系统中，在一端的用户在等待另一端的用户完成讲话之后开始说话的情形下，一个方向中约100毫秒的延迟可能使用户感到讨厌。然然，在两端的多个用户同时讲话的情形下，约100毫秒的延迟会使用户感到讨厌。

在其他应用中，例如，在基于机器人捕获的视频来操作远程受控机器人时，优选地是使得在远程受控机器人处的画面的输入和在远程控制终端处的画面的显示之间的延迟最小化；例如，优选地是将延迟降低到约一个画面时间或更少。然而，难以通过将编解码器延迟降低到约一个画面时间或更少来将现有MPEG-2系统应用到要求超低延迟的应用。

因此，本发明的目的是提供如下视频复用设备：其可以在对编码视频数据和其他编码媒体数据进行复用时，降低编解码器延迟。本发明的目的还在于提供一种用于对由这样的视频复用设备复用的数据进行解码的复用视频解码设备。

根据一个实施例，提供了一种用于对视频数据连同除了视频之外的第一媒体数据进行复用的视频复用设备。该视频复用设备包括：控制单元，其对于视频数据中的每个画面和对于第一媒体数据的每个编码单位，确定各自用于确定画面和编码单位的解码时间和显示时间的第一解码/显示时间信息和第二解码/显示时间信息；视频分组生成单元，其为承载视频数据的编码数据的视频分组附加用于画面的第一解码/显示时间信息和第二解码/显示时间信息；媒体分组生成单元，其为承载第一媒体数据的编码数据的媒体分组附加用于编码单位的第一解码/显示时间信息和第二解码/显示时间信息；以及分组复用单元，其通过对视频分组和媒体分组进行复用来生成数据流，并且输出数据流。

第一解码/显示时间信息包括如下信息：该信息指示在视频数据的解码单位是画面时、以同步方式显示视频数据和第一媒体数据的时间。另一方面，第二解码/显示时间信息包括如下信息：该信息指示在视频数据的解码单位是通过将画面划分成多个子画面获得的子画面时、以同步方式显示视频数据和第一媒体数据的时间。基于第二解码/显示时间信息确定的画面的解码时间和显示时间早于基于第一解码/显示时间信息确定的画面的解码时间和显示时间。

根据另一实施例，提供了一种用于对如下复用数据进行解码的复用视频解码设备，该复用数据是通过对编码视频数据连同除了视频之外的编码第一媒体数据复用而生成的。该复用视频解码设备包括：控制单元，其对于复用数据中包含的、视频数据中的每个画面和第一媒体数据的每个编码单位，基于各自用于确定画面和编码单位的解码时间和显示时间的第一解码/显示时间信息和第二解码/显示时间信息，确定解码时间和显示时间；视频解码单元，其对于每个画面，根据对于画面确定的解码时间开始对画面进行解码，并且根据对于画面确定的显示时间开始对画面进行显示；以及媒体解码单元，其对于每个编码单位，根据对于编码单位确定的解码时间开始对编码单位进行解码，并且根据对于编码单位确定的显示时间开始对编码单位进行输出。

第一解码/显示时间信息包括如下信息：该信息指示当视频数据的解码单位是画面时、以同步方式显示视频数据和第一媒体数据的时间。另一方面，第二解码/时间信息包括如下信息：该信息指示当视频数据的解码单位是通过将画面划分成多个子画面而获得的子画面时、以同步方式显示视频数据和第一媒体数据的时间。基于第二解码/显示时间信息确定的画面的解码时间和显示时间早于基于第一解码/显示时间信息确定的画面的解码时间和显示时间。

附图说明

图1是示意性地示出根据现有技术的MPEG-2系统TS格式的视频复用设备的配置的图。

图2是示意性地示出根据现有技术的MPEG-2系统TS格式的复用视频解码设备的配置的图。

图3是示意性地示出根据现有技术的MPEG-2系统TS格式的视频复用设备和复用视频解码设备中的、用于一个画面的处理定时的图。

图4是示出为了实现超低延迟视频编码的、视频编码单元中执行的编码控制的示例的图。

图5是示出在根据图4的编码控制对一个画面进行编码时、如何累积所生成的比特量的图。

图6是示意性地示出根据第一实施例的视频复用设备的配置的图。

图7是示意性地示出根据第一实施例的TS分组头的结构的图。

图8是示意性地示出根据第一实施例的PAT和PMT的结构的图。

图9是示意性地示出根据第一实施例的描述符的结构的图。

图10是示意性地示出根据第一实施例的PES分组的结构的图。

图11是根据第一实施例的控制单元的处理流程。

图12是根据第一实施例的分组复用单元的处理流程。

图13是示意性地示出根据第一实施例的复用视频解码设备的配置的图。

图14是示出根据第一实施例的控制单元的处理流程的图。

图15是示出根据第一实施例的如何降低编解码器延迟的图。

图16是示出根据第二实施例的PAT和PMT的结构的图。

图17是示出根据第三实施例的PES分组的结构的图。

图18是示出根据第四实施例的PES分组的结构的图。

图19是示出根据第五实施例的如何降低编解码器延迟的图。

图20是示出根据第六实施例的视频TS分组的结构的图。

图21是示出在计算机上实现的视频复用设备或复用视频解码单元的图。

具体实施方式

以下将参照附图描述根据第一实施例的视频复用设备。视频复用设备对视频数据和其他媒体数据进行编码并将它们复用在一起，使得它们可以在复用视频解码单元处以超低延迟被解码和显示，并且输出这样复用的数据流。

从视频编码的观点，降低编解码器延迟的一种方式是使得视频解码器在到达一部分编码数据时、而无需等待直到一个画面的所有编码数据都到达，就开始对编码数据进行解码。因为在实际视频解码器中，与一个画面的所有编码数据都到达之后开始解码相比，整个画面的解码可以完成得更早、即可以开始画面的显示的时间更早，因此以这种方式可以降低编解码器延迟。

然而，任何现有视频编码标准（例如，ISO/IEC14496-10“Informationtechnology-Coding of audio-visual objects-Part10:Advanced VideoCoding,”2010中定义的AVC标准）没有指定与一个画面被划分成的多个块中的每个块对应的编码视频数据何时将到达视频解码器。在最坏的情况下，除了画面的开始块之外的块的编码数据中的比特数可以是零，并且开始块的编码数据中的最后比特的到达时间可以与整个画面的到达时间相同。在AVC标准的情况下，视频解码器将必须通过拖延整个画面的解码直到画面的解码时间到达为止，为最坏情况做准备。

为了解决以上问题，在ISO/IEC DIS23008-2“Informationtechnology-High efficiency coding and media delivery in heterogeneousenvironments-Part2:High Efficiency Video Coding,”2012中公开的高效视频编码（HEVC）——其是当前ITU-T和MPEG研究之下的最新视频编码标准中，除了在AVC标准中定义的访问单位（AU）之外还引入了被称为解码单位（DU）的概念。在视频编码中，AU对应于一个画面，并且DU具有包括至少一个切片NAL的多个网络摘要层（NAL）。换言之，DU对应于具有多个块的子画面。在HEVC中，连同AU的解码时间新定义每个DU的解码时间。

符合HEVC标准的视频编码器可以通过适当地控制画面中的DU的数量、每个DU中的块数、和每个DU的比特量、以及通过在编码数据内描述每个DU的解码时间，降低视频解码器中的延迟。在HEVC标准中，视频编码器描述画面中DU的数量、每个DU中的块数、以及编码数据内每个DU的解码时间（相对值）。分别在画面定时补充增强消息（SEI）中的NumDecodingUnitsMinus1字段、NumNalusInDuMinus1字段、以及DuCpbRemovalDelayMinus1字段中承载这些参数。

图4是作为示例示出被分割成DU的一个画面和被分配给每个DU的比特量的图。在所示出的示例中，构成一个画面401的每个水平块行对应于DU。当分别以ph标记画面401中的行数、以pw标记画面401中的每个水平行中的像素数、以bh和bw标记每个块的高度和宽度时，一个画面中的DU的数量M被给出为（ph/bh）。每个DU中的块数被给出为（pw/bw）。

块410-1至410-M分别表示用于第一至第M个DU的编码比特量。视频编码器对每个DU进行编码，使得编码比特量例如对于所有DU成为恒定。当以bp标记每画面的编码比特量的平均值时，每个DU的编码比特量被给出为（bp/M）。

为了使得对于每个DU编码比特量恒定，采用了例如对所有块进行帧内编码的方法。可替选地，可以采用如下方法：在每个画面中插入垂直定义的帧内编码块行，并且在预定周期中对于每预定数量的画面在水平方向上循环地移动帧内编码块。在任一方法中，因为编码比特根据块到块变化，因此视频编码器需要正确地控制比特量，但是可以使得每块行的帧内编码块的数量恒定。结果，与传统帧内编码相比，容易对于每个DU使得编码比特量恒定。

图5是示出当由如图4所描绘的视频编码器以块行为基础对一个画面编码时、如何累积所生成的编码比特量的图。横坐标表示时间，并且纵坐标表示表示比特量。随着画面的编码开始时间为0，视频编码器在一个画面时间s中对所有DU中的块进行编码。例如，视频编码器在时间0开始对第一DU进行编码，并且在时间1s/M完成第一DU的编码。视频编码器在时间s完成最后DU（第M个DU）的编码。

图形501描绘了所生成的累积比特量如何随时间变化。在第一DU的编码结束处生成等于（1b/M）的比特量。这里，b表示对于整个画面所生成的信息量（目标值）。在此之后，随着每个DU的编码完成，所生成的比特量增加（1b/M），在时间s，所生成的比特累积量达到b，b表示对于画面生成的信息量。

图形502描绘当在时间（1s/M）开始、以恒定速率（b/s）传送编码数据时，如何积累所传送的比特量。根据图形501和502之间的比较，看出图形501一直位于图形502之上。这意味着在视频编码器的编码画面缓存中没有发生下溢。假设视频解码器在从画面的第一比特的到达经过时间（1s/M）之后开始画面的第一DU的解码，并且然后在一个画面时间上对所有DU进行解码。在这种情况下，视频解码器的编码画面缓存不下溢。在ISO/IEC14496-10“Information technology-Coding of audio-visualobjects-Part10:Advanced Video Coding,”2010中定义的AVC标准等中，一个画面中的所有块的解码时间定义为s；因此得出对于每个DU定义的解码开始时间比在AVC标准等中定义的解码开始时间早（（M-1）s/M）。

视频编码器和解码器不一定需要花费一个完整画面时间来对一个画面进行编码或解码，而是可在短于一个画面时间的时间中完成处理。在这种情况下，然而，在一个DU的处理结束和下一个DU的处理开始之间出现空闲时间。每个DU的解码开始和其对应的编码开始时间需要与更早定义的时间匹配。在HEVC标准中，各个DU的解码开始时间（1s/M）、（2s/M）…包括在编码数据中，以明确地向解码器指示每个DU的解码开始时间。

如果沿图5的纵坐标描绘画面中的编码行的数量、而不是所生成的比特量，则可以看出画面编码开始时间不需要从到视频编码器的画面输入定时偏移s。在所示出的示例中，如果编码开始定时从画面输入定时仅偏移（1s/M），则保证到每个DU的处理开始的时间，所需行已经被输入到视频编码器。然而，以上讨论对于视频解码器一般不成立。原因是由于跨块行边界施加的环路滤波。环路滤波施加到任何给定块的显示数据的时间晚于如下时间：在该时间完成对该给定块的向下相邻块的环路滤波之前的点的处理。

如在ISO/IEC DIS23008-2“Information technology-High efficiencycoding and media delivery in heterogeneous environments-Part2:HighEfficiency Video Coding,”2012中公开的HEVC标准，视频编码器明确地指定画面中每个DU（子画面）的解码时间（这里，解码时间对应于在ISO/IEC3818-1“Information technology-Generic coding of movingpictures and associated audio information:Systems,”2006中公开的MPEG-2系统标准中定义的DTS）。此外，通过对于每个DU使得块数和比特量恒定，视频编码器可以与DU的数量成比例地降低编解码器延迟。然而，由于在ISO/IEC13818-1“Information technology-Generic codingof moving pictures and associated audio information:Systems,”2006中定义的MPEG-2系统标准中没有以逐DU指定解码时间，因此不可能在不仅对视频数据而且对其他媒体数据进行编码的系统级实现超低延迟设计。

在该说明书中公开的实施例通过按以下方式扩展MPEG-2系统，实现在系统级降低编解码器延迟。

（1）视频PES分组头的扩展

根据在ISO/IEC13818-1“Information technology-Generic coding ofmoving pictures and associated audio information:Systems,”2006中定义的MPEG-2系统标准，在PES分组头中描述所包含的的AU的（开始AU）的PTS。在本实施例的系统中，除了AU的PTS之外，视频编码器还描述指示每个DU的DTS的信息。保证了对编码数据进行复用，使得复用数据中的每个DU的编码数据在早于DU的DTS指定的时间的时间到达视频解码器。

视频编码器还描述了指示第二PTS的信息：在DU的DTS指定的时间处开始每个DU的解码时使用该第二PTS。该第二PTS在时间上早于AU的PTS。如果视频解码器解码DU所需的时间等于或短于DU时间，则复用视频解码设备基于第二PTS开始显示画面，使得可以在不损失解码像素的情况下显示画面（损失解码像素意味着显示定时在完成解码之前到达）。指示DU的DTS的信息和指示第二PTS的信息一起对应于第二解码/显示信息。

在本实施例的系统中，还在PES分组头中承载AU的PTS的原因是：传统复用视频解码设备不总是配备有能够进行超低延迟操作的视频解码器。示例是如下视频解码器的情况：该视频解码器具有以同时发生的方式执行解码的多个解码核。即使每个解码核的每块处理速度是在一个画面时间中完成一个画面的所有块的处理的解码器的处理速度的N分之一（N是解码核的数量），每个画面可以被解码而不发生错误。然而，这增加了延迟（即，完成解码的时间），并且所需像素的解码在第二PTS的到达之前不结束。为了为这样的情况做准备，HEVC标准允许视频解码器在基于AU的定时和基于DU的定时之间选择解码开始定时。

（2）音频PES分组头的扩展

如在编码视频PES分组的情况下，复用视频编码设备中的音频编码器除了与AU（音频情况下的音频帧）的第一解码/显示信息对应的PTS之外还将指示第二PTS的信息添加到PES分组头中。第二PTS用来在复用视频解码设备基于视频PES分组中的每个DU的DTS执行解码时，确定AU的解码时间和显示时间。保证了还对音频帧进行复用，使得复用数据中的每个音频帧将在对应的第二PTS指示的时间之前到达复用视频解码设备。

包含在视频数据中的每个画面可以是帧或者场。帧是视频数据中的一个整个静止图像，而场是通过从一个帧仅提取奇数行或偶数行中的数据获得的静止图像。此外，包含在视频数据中的每个画面可以是彩色视频图像或单色视频图像。

除了视频数据之外的媒体数据可以是音频数据、或可以是诸如具有显示时间信息的子标题的媒体信息。音频数据以预定采样间距和帧长度编码，并且以逐帧被分配显示时间。用于对音频数据进行编码的编码方法可以是诸如在ISO/IEC13818-7“Information technology-Generic coding ofmoving pictures and associated audio information-Part7:AdvancedAudio Coding(AAC),”2006中定义的MPEG-2AAC的压缩编码，或者可以是诸如在ITU G.711“Pulse code modulation(PCM)of voicefrequencies,”1990中定义的G.711的PCM编码。

在该说明书中使用的术语“超低延迟编码”、“超低延迟解码”、以及“超低延迟复用”分别指的是编码、解码、以及编码数据复用，其中画面编解码器延迟小于一个画面时间。

图6是示意性地示出根据第一实施例的视频复用设备的配置的图。视频复用设备10包括视频编码单元11、视频分组生成单元12、音频编码单元13、音频分组生成单元14、控制单元15、系统分组生成单元16、分组复用单元17、以及超低延迟复用确定单元18。构成视频复用设备10的这些单元每个实现为视频复用设备10上的分离电路。可替选地，构成视频复用设备10的这些单元可以以单个集成电路的形式在视频复用设备10上实现，在该单个集成电路上集成实现相应单元的功能的电路。此外可替选地，构成视频复用设备10的这些单元可以是通过执行并入在视频复用设备10中的处理器上的计算机程序来实现的功能模块。

可以从视频复用设备10省略视频编码单元11和音频编码单元13两者。在该情况下，视频数据和音频数据在由其他设备编码之后输入到视频复用设备10。从用来对视频数据和音频数据进行编码的这样其他设备分别提供每个画面的V-sync时间和每个音频帧中的第一样本的捕获时间。

视频编码单元11根据控制单元15指定的编码方法，对输入视频数据进行编码。所指定的编码方法可以是例如符合在ISO/IEC23008-2“Information technology-High efficiency coding and media delivery inheterogeneous environments-Part2:High Efficiency Video Coding,”2012中定义的HEVC标准的方法、或符合在ISO/IEC14496-10“Informationtechnology-Coding of audio-visual objects-Part10:Advanced VideoCoding,”2010中定义的AVC标准的方法。当所指定的编码方法是符合HEVC标准的方法时，视频编码单元11基于从控制单元15发出的超低延迟复用控制信号，决定是否要施加超低延迟编码。

如果决定向视频数据施加超低延迟编码，则视频编码单元11使用不涉及画面重排的编码方法（例如，在帧间编码中仅使用前向预测编码的编码方法）。然后，视频编码单元11通过控制比特率使得对于视频数据中的所有画面比特量成为恒定，对视频数据中的每个画面进行编码。此外，视频编码单元11将每个画面划分成多个DU，并且对每个画面进行编码，使得横越画面、包含在每个DU中的块数和每个DU的比特量成为恒定。然后，视频编码单元11向控制单元15通知每个DU的解码时间和超低延迟操作时的其显示时间。

另一方面，如果决定不向视频数据施加超低延迟编码，则视频编码单元11可使用涉及画面重排的方法（例如，在帧间编码中执行双向预测编码的方法）。在这种情况下，不需要使得编码比特量对于每个画面恒定。此外，视频编码单元11不需要将每个画面划分成多个DU；如果画面被划分成多个DU，则横越画面、包含在每个DU中的块数和每个DU的比特量不需要为恒定。

视频编码单元11将编码视频数据传递到视频分组生成单元12。

从视频编码单元11接收编码视频数据的视频分组生成单元12将视频数据以逐画面分组成PES分组。视频分组生成单元12进一步将编码视频数据的PES分组分组成TS分组，并且将TS分组传递到分组复用单元17。在这种情况下，视频分组生成单元12通过在TS分组中包括关于在视频解码器根据诸如AVC的现有编码标准对画面进行解码时要使用的解码时间和显示时间的信息和关于在通过超低延迟解码对画面进行解码时要使用的解码时间和显示时间的信息，生成TS分组。稍后将详细描述PES分组。

音频编码单元13根据控制单元15指定的编码方法来对输入视频数据进行编码。所指定的编码方法可以是例如符合在ISO/IEC13818-7“Information technology-Generic coding of moving pictures andassociated audio information-Part7:Advanced Audio Coding(AAC),”2006中定义的MPEG-2AAC标准的方法、或符合在ITU G.711“Pulse code modulation(PCM)of voice frequencies,”1990中定义的G.711标准的方法、或一些其他合适的音频编码标准。当从控制单元15向视频编码单元11发出的超低延迟复用控制信号指示超低延迟编码时，控制单元15还指示音频编码单元13使用超低延迟编码方法。具体地，当期望将每帧的从输入到再现的延迟保持在约10毫秒内时，控制单元15指示音频编码单元13使用例如符合G.711标准的方法。音频编码单元13将编码音频数据传递到音频分组生成单元14。

从音频编码单元13接收编码音频数据的音频分组生成单元14以逐帧将音频数据分组成PES分组。音频分组生成单元14进一步将编码音频数据的PES分组分组成TS分组。在这种情况下，音频分组生成单元14通过在TS分组中包括关于在音频解码器根据诸如AVC的现有编码标准对帧进行解码时要使用的解码时间和显示时间的信息和关于在通过超低延迟解码对音频帧进行解码时要使用的解码时间和显示时间的信息，生成TS分组。在此之后，音频分组生成单元14将TS分组传递到分组复用单元17。

超低延迟复用确定单元18基于外部提供的超低延迟复用控制信号（没有描绘）以及基于指示视频编码单元11是否能够进行超低延迟编码的信息，确定是否要执行超低延迟复用，并且将确定的结果传递到控制单元15。如果超低延迟复用控制信号指示“执行超低延迟复用”，并且如果视频编码单元11能够进行超低延迟编码，则超低延迟复用确定单元18确定要执行超低延迟复用。否则，超低延迟复用确定单元18确定不执行超低延迟复用。

控制单元15具有27MHz STC，其为同步控制提供基准时钟。根据从超低延迟复用确定单元18接收的超低延迟编码控制信号，控制单元15分别向视频编码单元11和音频编码单元13通知要使用的视频编码方法和音频编码方法。

控制单元15将超低延迟编码控制信号发送到视频编码单元11、视频分组生成单元12、音频编码单元13、音频分组生成单元14、以及系统分组生成单元16。当指示“施加超低延迟编码”的超低延迟编码控制信号被发送到视频编码单元11时，控制单元15计算画面中每个DU的解码时间和在超低延迟解码时要使用的显示时间（第二显示时间），并且将它们传递到视频分组生成单元12。稍后将描述每个DU的解码时间和显示时间。

此外，控制单元15通过取得输入视频数据的垂直同步信号V-Sync定时处的STC值来确定每个画面的显示时间（第一显示时间），并且将其连同超低延迟编码控制信号发送到视频分组生成单元12。在这种情况下，控制单元15进一步将画面的第一显示时间和第二显示时间、以及在输入音频数据中的音频帧的第一采样定时处取得的STC值连同超低延迟编码控制信号发送到音频分组生成单元14。

系统分组生成单元16生成系统TS分组，其将节目特定信息（PSI）存储为系统信息。稍后将描述系统TS分组的细节。

分组复用单元17通过将从视频分组生成单元12输出的视频TS分组、从音频分组生成单元14输出的音频TS分组、以及从系统分组生成单元16输出的系统TS分组复用在一起，生成TS流。分组复用单元17输出TS流。分组复用单元17对分组进行复用，以便符合在MPEG-2系统标准中定义的STD（系统目标解码器）规范。当从控制单元15接收到指示“施加超低延迟编码”的超低延迟编码控制信号时，分组复用单元17对视频TS分组进行复用，使得复用视频解码设备的STC值将在时间上比载荷中包含的画面的DTS更早到达。例如，在视频PES分组头中承载载荷中包含的画面的DTS。

此外，当从控制单元15接收到指示“施加超低延迟编码”的超低延迟编码控制信号时，分组复用单元17对音频TS分组进行复用，使得复用视频解码设备的STC值将在时间上比载荷中包含的音频帧的第二PTS更早到达。例如，在音频PES分组头中承载载荷中包含的音频帧的第二PTS。

通过如此执行复用，当视频数据的解码单位是子画面（DU）时，分组复用单元17可以确保对于每个画面，与画面中的第一子画面对应的编码数据和对应的音频帧的对应编码数据将在比用于超低延迟解码的画面的解码时间更早或相同的时间到达复用视频解码设备。

以下将描述根据第一实施例的系统TS分组、视频PES分组、以及音频PES分组的数据结构。

首先，将参照图7描述传统TS分组的数据结构。TS流700包含多个相继TS分组701。每个TS分组701具有固定长度。在本实施例中，每个TS分组701是188字节长。

TS分组701从其头开始按顺序包含TS头702、适应字段（adaptationfield）703、以及载荷704。

TS头702包含诸如AdaptationFieldControl字段和PID字段的多个字段。这些字段的值和含义与在ISO/IEC13818-1“Informationtechnology-Generic coding of moving pictures and associated audioinformation:Systems,”2006中公开的MPEG-2系统标准中定义的值和含义相同。

在TS头702中承载的AdaptationFieldControl字段的值为“10”或“11”时，适应字段703出现。适应字段703还承载符合MPEG-2系统标准的多个字段。

在TS头702中承载的AdaptationFieldControl字段的值为“01”或“11”时，载荷704出现。如果TS头702中的PID字段的值指示视频PES分组时，TS分组701是视频TS分组，并且视频PES分组被分成的数据存储在载荷704中。另一方面，如果TS头702中的PID字段的值指示音频PES分组时，TS分组701是音频TS分组，并且音频PES分组被分成的数据存储在载荷704中。

如果TS头702中的PID字段的值是“0x0”、或者是稍后要描述的ProgramMapID的值，则TS分组701是系统TS分组。在这种情况下，节目关联表（PAT）或节目映射表（PMT）存储在载荷704中。

接下来，将参照图8描述根据第一实施例的系统TS分组的数据结构。

根据第一实施例的系统TS分组801是在其载荷中承载节目关联表（PAT）的TS分组。如同在图7中描绘的TS分组，系统TS分组801也从其头开始按照顺序包含TS头802、适应字段803、载荷804。在这种情况下，TS分组头802中的PID字段的值被设置为“0”。

载荷804承载在MPEG-2系统标准中定义的PAT的各个字段。在本实施例中，TableID字段的值被设置为“0”。ProgramMapID表示包含节目映射表（PMT）的系统TS分组的PID，节目映射表（PMT）描述各个相应节目的结构。在所示出的示例中，ProgramMapID的值被设置为“0xA”。

另一方面，TS分组811是在其载荷中承载PMT的TS分组。TS分组811也从其头开始按照顺序包含TS头812、适应字段813、以及载荷814。在这种情况下，TS分组头812中的PID字段的值被设置为“0xA”。

载荷814承载在MPEG-2系统标准中定义的PMT的各个字段。在所示出的示例中，TableID字段的值被设置为“0x2”。

StreamType表示每个基本流的类型。例如，StreamType分别被设置为“0x1B”、“0x0F”、以及“0x24”，以分别指示符合在ISO/IEC14496-10“Information technology-Coding of audio-visual objects-Part10:Advanced Video Coding,”2010中定义的AVC标准的基本流的类型、符合在ISO/IEC13818-7“Information technology-Generic coding of movingpictures and associated audio information-Part7:Advanced AudioCoding(AAC),”2006中定义的MPEG-2AAC标准的基本流的类型、以及符合在ISO/IEC DIS23008-2“Information technology-High efficiencycoding and media delivery in heterogeneous environments-Part2:HighEfficiency Video Coding,”2012中定义的HEVC标准的基本流的类型。

ElementaryPID承载存储每个基本流的TS分组的PID。

ESInfoLength之后的Descritor包含为每个基本流类型定义的多个字段。Descritor的数量取决于ESInfoLength。稍后将描述细节。

将对于基本流符合HEVC标准的情况，参照图9描述根据第一实施例的描述符字段的结构。

描述符901是HEVC视频描述符。位于标志SubPicLowDelayFlag之上的字段均对应于在ISO/IEC13818-1:2013/PDAM3“Transport ofHEVC Video over MPEG-2Systems,”2012中定义的HEVC标准中的相同描述符的字段。

在本实施例中，除了以上字段之外还包括标志SubPicLowDelayFlag。标志SubPicLowDelayFlag是指示是否要施加超低延迟编码的标志。在本实施例中，当标志SubPicLowDelayFlag为“0”时，视频复用设备10对视频数据施加超低延迟编码。当标志SubPicLowDelayFlag为“0”时，视频PES包含第一PTS和第二PTS信息两者（将稍后描述细节），并且其他基本流PES也包含第一PTS和第二PTS信息两者。

另一方面，当标志SubPicLowDelayFlag为“1”时，视频复用设备10不对视频数据施加超低延迟编码。在这种情况下，视频PES可包含第一PTS和第二PTS信息两者，但是其他基本流PES不包含第二PTS信息。换言之，当标志SubPicLowDelayFlag被设置为“1”时，该标志指示不对除了视频之外的基本流进行复用，以便能够进行超低延迟编码。

标志SubPicLowDelayFlag被设置为“1”以指示进行了超低延迟编码的原因是要维持与现有标准的兼容性。这用于防止编码效率的退化，因为在现有标准中其值被指定为“1”的保留位之一可以用作SubPicLowDelayFlag字段。

描述符902是HEVC定时和HRD描述符。在标志SubPicParamPresentFlag之上描绘的字段均对应于在ISO/IEC13818-1:2013/PDAM3“Transport of HEVC Video over MPEG-2Systems,”2012中定义的HEVC标准中的相同描述符名称的字段。

在本实施例中，除了以上字段之外还包括标志SubPicParamPresentFlag。SubPicParamPresentFlag是指示是否要施加超低延迟编码的标志。在本实施例中，当施加超低延迟编码时，标志SubPicParamPresentFlag被设置为与在HEVC基本流中承载的视频可用信息（VUI）中包含的SubPicParamPresentFlag值反转的值。换言之，当标志SubPicLowDelayFlag为“1”时，标志SubPicParamPresentFlag必定为“0”。

接下来，将参照图10描述包括视频PES分组和音频PES分组的基本流PES分组的结构。列表1000提供PES分组中包含的字段的列表。根据第一实施例的PES分组除了在MPEG-2系统标准中定义的PES分组的各个字段之外，还包含作为第二解码/显示信息的SecondPTSDelta和AdditionalDTSDelta。

在本实施例中，当执行超低延迟编码时、即当TS分组的描述符中的SubPicLowDelayFlag为“0”时，不执行画面重排。结果，PTSDTSFlag一直被设置为指示不指定DTS的两比特值“10”。

PTS存储第一PTS值，其是当不执行超低延迟编码时的PTS值。

DTS在PTSDTSFlag是“10”时不出现。

当从PESPrivateDataFlag到紧接StuffByte之前的字段的字段出现时，作为指示扩展PES的标志PESExtensionFlag被设置为“1”。在本实施例中，当TS分组的HEVC描述符中的SubPicLowDelayFlag为“0”时、即当执行超低延迟编码时，PESExtensionFlag一直被设置为“1”。此外，当SubPicLowDelayFlag为“0”时、即当执行超低延迟编码时，StreamIdExtension一直被设置为“1”。类似地，当SubPicLowDelayFlag为“0”时、即当执行超低延迟编码时，TREFExtensionFlag一直被设置为“1”。

AlternativePTSDTSFlag是指示是否执行超低延迟编码的标志。当HEVC描述符中的SubPicLowDelayFlag为“0”时、即当执行超低延迟编码时，AlternativePTSDTSFlag一直被设置为“0”。AlternativePTSDTSFlag为“0”指示作为第二解码/显示信息的SecondPTSDelta和AdditionalDTSDelta包含在PES分组中。

SecondPTSDelta是如下参数：其用于计算在复用数据解码设备执行超低延迟解码时使用的PTS。SecondPTSDelta在SubPicLowDelayFlag为“0”时出现。稍后将描述如何导出以及使用该参数。

AdditionalDTSDelta是如下参数：其用于计算在复用数据解码设备执行超低延迟解码时使用的DTS。AdditionalDTSDelta在SubPicLowDelayFlag为“0”时出现。稍后将描述如何导出以及使用该参数。

PESPacketDataByte存储一个AU数据。

接下来，将给出如下方法的描述：该方法在向视频数据施加超低延迟编码时，生成要在视频PES分组和音频PES分组中承载的解码/显示时间信息。在不向视频数据施加超低延迟编码时、生成要在视频PES分组和音频PES分组中承载的解码/显示时间信息的方法与例如在HEVC标准中定义的方法相同。

首先，控制单元15通过取得与要处理的画面的V-Sync定时相对应的内部STC值，确定视频PES的第一PTS。由于STC的分辨率是27MHz并且PTS的分辨率是90kHz，因此控制单元15通过使STC值除以300来计算第一PTS。

接下来，控制单元15计算用于画面中的第一DU的解码开始时间偏移DeltaDTS和用于画面的显示开始时间偏移DeltaPTS。以27MHz的单位表示这些值。如图4所描绘，当视频编码单元11确定画面中每个DU的结构和要分配给每个DU的编码比特量时，控制单元15分别将DeltaDTS和DeltaPTS计算为(M-1)s/M和(M-3)s/M。M表示在画面中包含的DU的数量，并且s标记一个画面时间。DeltaDTS不是(M-2)s/M而是(M-3)s/M的原因在于，跨越DU边界施加如在HEVC标准中定义的循环滤波。结果，如果要显示正被解码的当前块行，则需要在该时间完成与当前块行的向下相邻的块行的循环滤波之前的处理。

在视频编码单元11完成第一画面的编码之前确定DeltaDTS和DeltaPTS的值，并且DeltaDTS和DeltaPTS的值对于随后画面保持不变。换言之，在对于每个画面保持DU结构不变的同时，视频编码单元11控制用于每个DU的编码比特量，使得对于任意画面，DU编码比特累积量不小于所传送的比特累积量。视频编码单元11可通过考虑从画面到画面以及从DU到DU的编码比特量的变化，将DeltaDTS和DeltaPTS设置成减少相同值。将DeltaDTS设置为较小对应于图5中的图形502向右偏移。

接下来，控制单元15通过取得与要处理的音频帧中的第一采样的输入定时相对应的内部STC值，确定音频PES的第一PTS。然后，控制单元15分别将视频PES分组的SecondPTSDelta和AdditionalDTSDelta设置为DeltaPTS和DeltaDTS。此外，控制单元15将音频PES分组的SecondPTSDelta设置为DeltaPTS、并且将AdditionalDTSDelta设置为一个音频帧时间。

将参照图11和12描述根据第一实施例的视频复用设备的处理流程。图11示出了控制单元15的处理流程。

在开始视频复用处理之前，控制单元将STC值复位为预定值（例如，0），并且开始算出STC总数（步骤S101）。此外，控制单元15指示分组复用单元17开始进行复用。

接下来，控制单元15确定操作模式（步骤S102）。基于外部提供的超低延迟编码控制信号，控制单元15确定是否对视频和音频数据施加超低延迟编码。然后，控制单元15向视频编码单元11、视频分组生成单元12、音频编码单元13、音频分组生成单元14、以及系统分组生成单元16通知关于是否要施加超低延迟编码，并且使得每个单元相应地确定操作模式。此外，控制单元15在预定的时间间隔指示系统分组生成单元16开始生成系统TS分组。

接下来，控制单元15检查是否输入视频数据的V-sync或音频数据中的一个音频帧的第一采样（步骤S103）。如果输入了V-sync或第一采样（步骤S103中的“是”），则控制单元15通过取得输入编码单位的开始的瞬间处的STC值，确定第一PTS（步骤S104）。更具体地，如果输入了输入视频数据的V-sync，则控制单元15取得输入瞬间的STC值作为与V-sync相对应的画面的第一PTS。控制单元15将画面置于编码等待状态，并且设置画面的编码开始时间，使得当从以上时间瞬间经过了预定时间（图5中的1s/M）时，将开始画面的编码。

另一方面，如果输入了音频数据中的一个音频帧的第一采样，则控制单元15取得输入瞬间的STC值作为音频帧的第一PTS。控制单元15将音频帧置于编码等待状态，并且设置音频帧的编码开始时间，使得当从以上时间瞬间经过了预定时间（一个音频帧时间）时，将开始音频帧的编码。

控制单元15并行检查这些输入。当同时出现V-sync的输入和一个音频帧的第一采样的输入时，控制单元15为视频数据和音频数据两者设置相同PTS值。

在步骤S104之后、或在步骤S103中确定既未输入V-sync又未第一样本（步骤S103中的“否”）之后，控制单元15检查是否存在等待编码的任何画面或音频帧，并且检查它们的编码开始时间是否与STC值匹配或是否已经到达它们的编码开始时间（步骤S105）。如果满足步骤S105中的条件（步骤S105中的“是”），则控制单元15分别指示视频编码单元11或音频编码单元13开始对画面或音频帧进行编码（步骤S106）。此外，当要对画面或音频帧施加超低延迟编码时，控制单元15基于从视频编码单元11报告的每DU的编码比特量，获得用于画面和音频帧的超低延迟解码的解码/显示时间信息（步骤S107）。控制单元15将画面解码/显示时间信息或音频帧解码/显示时间信息分别发送到视频分组生成单元12或音频分组生成单元14。基于在步骤S104中获取的STC值，确定画面解码/显示时间信息中的第一PTS或音频帧解码/显示时间信息中的第一PTS。

如果不满足步骤S105中的条件（步骤S105中的“否”），则控制单元15确定是否完成视频和音频数据的编码（步骤S108）。更具体地，控制单元15检查是否输入了用于终止复用处理的外部控制信号并且检查是否存在尚要编码的任何画面或音频帧。如果输入了用于终止复用处理的外部控制信号或如果不再存在尚要编码的任何画面或音频帧，则控制单元15确定完成了编码。控制单元15终止复用处理。

另一方面，如果尚未输入用于终止复用处理的外部控制信号以及如果剩余要编码的任何画面或音频帧（步骤S108中的“否”），则控制单元15返回到步骤S103以重复以上处理。

图12示出了分组复用单元17的处理流程。分组复用单元17检查是否存在等待输出的任何TS分组（步骤S201）。这里，等待输出的TS分组指的是已经由视频分组生成单元12生成、但尚未从分组复用单元17输出的视频TS分组、已经由音频分组生成单元14生成、但尚未从分组复用单元17输出的音频TS分组、或已经由系统分组生成单元16生成、但尚未从分组复用单元17输出的系统TS分组。

如果存在任何等待输出的TS分组（步骤S201中的“是”），则分组复用单元17确定三种TS分组（即，视频TS分组、音频TS分组、以及系统TS分组）当中的、接下来要输出的TS分组（步骤S202）。如果仅准备要输出一种TS分组，则分组复用单元17选择该种TS分组。如果准备要输出多种TS分组，则分组复用单元17选择一种TS分组，使得均匀地输出每种TS分组。作为选择要输出的TS分组的种类的方法，分组复用单元17可采用加权循环方法，在该方法中，例如，如果相继输出了数量n1个视频TS分组，则接下来相继输出数量n2个音频TS分组，接下来相继输出数量n3个系统TS分组。例如，分别基于视频、音频、以及系统TS分组的传输频率，确定权重n1、n2、以及n3。本实施例基于如下假设：整个系统的比特率大于编码视频和编码音频数据的组合比特率。

分组复用单元17确定接下来要输出的TS分组是否是系统TS分组（步骤S203）。如果接下来要输出的TS分组是系统TS分组（步骤S203中的“是”），则分组复用单元17设置TS分组的适应字段中的PCR值（步骤S204）。这里，通过从在从分组复用单元17输出承载PCR的字段中的特定字节位置处的字节的瞬间取得的STC值减去预定值，计算PCR值。预定值例如是与稍后要描述的图15中的OffsetSTC相对应的值。

在步骤S204之后、或在步骤S203中确定接下来要输出的TS分组不是系统TS分组（步骤S203中的“否”）之后，分组复用单元17输出所选种类的一个TS分组（步骤S205）。在此之后，分组复用单元17返回到步骤S201以重复以上处理。

另一方面，如果在步骤S201中不存在接下来要输出的TS分组（步骤S201中的“否”），则分组复用单元17输出空分组（步骤S206）。空分组是其PID被设置为“0x1FFF”的分组。空分组用于如下目的：将复用流的比特率保持在恒定值。

在步骤S206之后，分组复用单元17确定是否完成了编码视频数据和编码音频数据的复用（步骤S207）。如果从控制单元15接收到复用终止指示、以及如果不再存在等待输出的任何分组，则分组复用单元17确定完成了编码视频数据和编码音频数据的复用。如果尚未完成复用（步骤S207中的“否”），则分组复用单元17返回到步骤S201以重复以上处理。另一方面，如果完成了复用（步骤S207中的“是”），则分组复用单元17终止复用处理。

接下来，将描述用于对视频复用设备10复用的视频数据进行解码的复用视频解码设备。

图13是示意性地示出根据第一实施例的复用视频解码设备的配置的图。复用视频解码设备20包括分组去复用单元21、系统分组处理单元22、控制单元23、视频分组处理单元24、视频解码单元25、音频分组处理单元26、音频解码单元27、以及超低延迟解码确定单元28。构成复用视频解码设备20的这些单元均实现为复用视频解码设备20上的分离电路。可替选地，构成复用视频解码设备20的这些单元可以以单个集成电路的形式在复用视频解码设备20上实现，在该单个集成电路上，集成实现各个单元的功能的电路。此外可替选地，构成复用视频解码设备20的这些单元可以是通过在并入到复用视频解码设备20中的处理器上执行计算机程序而实现的功能模块。

分组去复用单元21与系统分组处理单元22结合，基于每个TS分组的头信息，识别包含在TS分组的载荷部分中的数据的类型。然后，分组去复用单元21分别将视频PES分组、音频PES分组、以及PSI信息传递到视频分组处理单元24、音频分组处理单元26以及系统分组处理单元22。此外，分组去复用单元21将在TS头中承载的PCR值连同其字节位置信息一起传递到控制单元23。

系统分组处理单元22处理在系统TS分组的载荷部分中承载的PSI信息，获取在要解码的节目中包含的视频和音频数据的PID，并且将PID传递到分组去复用单元21。系统分组处理单元22还将在PMT中定义的SubPicLowDelayFlag传递到超低延迟解码确定单元28。

视频分组处理单元24提取从分组去复用单元21接收的视频TS分组的载荷中存储的每个视频PES分组的载荷中包含的编码视频数据，并且将编码视频数据传递到视频解码单元25。此外，视频分组处理单元24将从PES分组取得的画面显示/解码时间信息传递到控制单元23。

音频分组处理单元26提取从分组去复用单元21接收的音频TS分组的载荷中存储的每个音频PES分组的载荷中包含的编码音频数据，并且将编码音频数据传递到音频解码单元27。此外，音频分组处理单元26将从PES分组取得的音频帧显示/解码时间传递到控制单元23。

如同视频复用设备10中的控制单元15，控制单元23具有27MHz参考时钟STC。控制单元23基于从分组去复用单元21接收的PCR值来对STC值进行解码，并且执行用于同步的处理。此外，控制单元23基于从视频分组处理单元24接收的画面显示/解码时间信息和从音频分组处理单元26接收的音频帧显示/解码时间信息，确定对画面和音频帧进行解码和显示的解码时间和显示时间。当解码时间和显示时间等于STC值时，控制单元23分别向视频解码单元25和音频解码单元27发出解码/显示指示。

视频解码单元25和音频解码单元27均根据来自控制单元23的解码指示对画面或音频帧进行解码，并且根据来自控制单元23的显示指示输出解码画面或解码音频帧。

超低延迟解码确定单元28基于从系统分组处理单元22传递的标志SubPicLowDelayFlag、基于来自在复用视频解码设备20外部的设备（未描绘）的超低延迟解码指示的存在或不存在、以及基于指示视频解码单元25是否能够进行超低延迟解码的信息，确定是否要施加超低延迟解码。如果标志SubPicLowDelayFlag为“0”、以及如果接收到超低延迟解码指示、以及如果视频解码单元25能够进行超低延迟解码，则超低延迟解码确定单元28指示控制单元23执行超低延迟解码操作。否则，超低延迟解码确定单元28不指示控制单元23执行超低延迟解码操作。

接下来，将描述根据第一实施例的复用视频解码设备20中导出用于每个画面和用于每个音频帧的解码时间和显示时间的方法。通过假设标志SubPicLowDelayFlag为“0”的情况、即不执行画面重排、以及在视频PES分组中不存在DTS的情况给出如下描述。另一方面，当标志SubPicLowDelayFlag为“1”时，根据在AVC标准或HEVC标准中定义的方法导出每个画面和每个音频帧的解码时间和显示时间。

当超低延迟解码确定单元28确定不施加超低延迟解码时，按以下方式导出每个画面和每个音频帧的解码时间和显示时间。视频解码单元25和音频解码单元27分别获得解码一个画面所需的时间VideoDecDelay和解码一个音频帧所需的时间AudioDecDelay。视频解码单元25和音频解码单元27均基于在编码视频数据或编码音频数据的第一AU中承载的参数（例如，画面大小或音频帧长度），分别确定时间信息。例如，时间VideoDecDelay和时间AudioDecDelay分别表示一个画面时间和一个音频帧时间。时间VideoDecDelay和时间AudioDecDelay的分辨率例如可以是27MHz或90KHz。视频解码单元25将VideoDecDelay传递到控制单元23，并且音频解码单元27将AudioDecDelay传递到控制单元23。控制单元23取VideoDecDelay或AudioDecDelay中较大的作为解码延迟DecDelay。

控制单元23通过将视频PES分组中的对应PTS乘以300（分辨率为27MHz），计算视频数据中每个画面的解码时间。当STC值等于这样算出的值时，控制单元23指示视频解码单元25对画面进行解码。

另一方面，通过将解码延迟DecDelay加到解码时间，计算视频数据中每个画面的显示时间。当STC值等于这样算出的值时，控制单元23指示视频解码单元25显示画面。

控制单元23通过将音频PES分组中的对应PTS乘以300（分辨率为27MHz），计算音频数据中每个音频帧的解码时间。当STC值等于这样算出的值时，控制单元23指示音频解码单元27对音频帧进行解码。另一方面，通过将解码延迟DecDelay加到解码时间，计算音频数据中每个音频帧的显示时间。当STC值等于这样算出的值时，控制单元23指示音频解码单元27显示音频帧。

另一方面，当超低延迟解码确定单元28确定要施加超低延迟解码时，按以下方式导出每个画面和每个音频帧的解码时间和显示时间。控制单元23通过首先将视频PES分组中的对应PTS乘以300、然后从相乘的结果减去在视频PES分组中承载的AdditionalDTSDelta，计算视频数据中每个画面的解码时间。此外，控制单元23通过首先将视频PES分组中的对应PTS乘以300、然后从相乘的结果减去在视频PES分组中承载的SecondPTSDelta，计算视频数据中每个画面的显示时间。

控制单元23通过首先将音频PES分组中的对应PTS乘以300、然后从相乘的结果减去在PES分组中承载的AdditionalDTSDelta，计算音频数据中每个音频帧的解码时间。此外，控制单元23通过首先将音频PES分组中的对应PTS乘以300、然后从相乘的结果减去在PES分组中承载的SecondPTSDelta，计算音频数据中每个音频帧的显示时间。

图14是示出根据第一实施例的复用视频解码设备20中的控制单元23的处理流程的图。首先，控制单元23对整个复用视频解码设备20进行初始化（步骤S301）。接下来，控制单元23分析所接收的复用视频数据中的每个系统TS分组，并且获取包含在该TS分组的载荷中的PAT和PMT信息（步骤S302）。

然后，控制单元23基于可从PAT和PMT识别的超低延迟编码的存在或不存在、基于来自外部设备的超低延迟解码指示的存在在或不存在、以及基于指示视频解码单元25是否能够进行超低延迟解码的信息，确定是否要施加超低延迟解码（步骤S303）。

在此之后，控制单元23确定承载视频PES分组的开始数据的视频TS分组或承载音频PES分组的开始数据的音频TS分组是否分别到达了视频分组处理单元24或音频分组处理单元26（步骤S304）。当承载视频PES分组的开始数据的视频TS分组或包含音频PES分组的开始数据的音频TS分组已到达时（步骤S304中的“是”），控制单元23指示视频分组处理单元24或音频分组处理单元26分析PES分组（步骤S305）。如果到达的PES分组的类型是视频PES分组，则视频分组处理单元24读取从PES分组的头开始并且继续到紧接PESPacketDataByte字段之前的字段中的每个字段，并分析每个读取字段。另一方面，如果到达的PES分组的类型是音频PES分组，则音频分组处理单元26读取从PES分组的头开始并且继续到紧接PESPacketDataByte字段之前的字段中的每个字段，并分析每个读取字段。视频分组处理单元24或音频分组处理单元26获取在图10中描绘的PTS，并且还获取存在情况下的DTS、SecondPTSDelta、以及AdditionalDTSDelta。

接下来，控制单元23检查以查看在步骤S303中是否确定要施加超低延迟解码（步骤S306）。如果确定不施加超低延迟解码（步骤S306中的“否”），则控制单元23基于PTS值和DTS值，确定包含在视频数据中的每个画面或包含在音频数据中的每个音频帧的解码时间和显示时间（步骤S307）。更具体地，如果存在DTS，则控制单元23通过将DTS乘以300来计算解码时间；如果不存在DTS，则通过将PTS乘以300来计算解码时间。此外，控制单元23通过将解码延迟加到经由将PTS乘以300而获得的值，计算显示时间。控制单元23通过取视频解码单元25对一个画面进行解码所需的时间或音频解码单元27对一个音频帧进行解码所需的时间中较长的时间，确定解码延迟。

如果确定要施加超低延迟解码（步骤S306中的“是”），则控制单元23基于PTS、AdditionalDTSDelta、以及SecondPTSDelta，确定包含在视频数据中的每个画面或包含在音频数据中的每个音频帧的解码时间和显示时间（步骤S308）。更具体地，控制单元23通过从经由将PTS乘以300而获得的值减去AdditionalDTSDelta，计算解码时间。此外，控制单元23通过从经由将PTS乘以300而获得的值减去SecondPTSDelta，计算显示时间。

在步骤S307或S308之后、或者在步骤S304中确定包含视频PES分组的开始数据的视频TS分组和包含音频PES分组的开始数据的音频TS分组没有到达（步骤S304中的“否”）之后，控制单元23确定其自身的STC值是否与视频数据中的任意画面或音频数据中的任意音频帧的解码时间匹配（步骤S309）。

如果控制单元32的STC值与解码时间的一个或另一个匹配（步骤S309中的“是”），则控制单元23指示视频解码单元25或音频解码单元27开始具有解码时间的画面或音频帧的解码（步骤S310）。

在步骤S310之后、或在步骤S309中确定控制单元23的STC值与解码时间都不匹配（步骤S309中的“否”）之后，则控制单元23确定其自身STC值是否与视频数据中的任意画面或音频数据中的任意音频帧的显示时间是否匹配（步骤S311）。

如果控制单元23的STC值与显示时间中的一个或另一个匹配（步骤S311中的“是”），则控制单元23指示视频解码单元25或音频解码单元27开始显示如下画面或音频帧：该画面或音频帧具有与STC值匹配的解码时间（步骤S312）。

在步骤S312之后、或在步骤S311中确定控制单元23的STC值都不与显示时间匹配（步骤S311中的“否”），则控制单元23确定是否完成了复用视频数据的解码（步骤S313）。例如，如果不再有任何复用视频数据到达、或如果从外部设备接收到解码终止指示，则控制单元23确定完成了复用视频数据的解码。如果尚未完成复用视频数据的解码（步骤S313中的“否”），则控制单元23返回到步骤S304以重复以上处理。另一方面，如果完成了复用视频数据的解码（步骤S313中的“是”），则控制单元23终止解码处理。

参照图15，将给出如何根据第一实施例降低编解码器延迟的说明。在图15中，水平轴表示以STC值表示的经过时间。块1501指示在视频复用设备10中的视频编码单元11根据图4中描绘的逐DU编码方法对视频数据进行编码时、用于对一个画面进行捕获、编码、以及传送的定时。在图15中，Δ对应于图5中的(1s/M)。

块1502指示通过视频复用设备10中的音频编码单元13对一个音频帧进行捕获、编码、以及传送的定时。在所示出的示例中，假设一个音频帧时间等于Δ。画面和音频帧两者的捕获在t1开始。

块1503指示在复用视频解码设备20中的视频解码单元25不执行超低延迟操作的情况下、对画面进行解码时用于对一个画面进行传送、解码、以及显示的定时。这些定时与当根据现有标准（诸如AVC）中定义的解码方法对画面进行解码时的画面传输、解码以及显示定时相同。控制单元23的STC等于t1的时间是画面解码时间pts。视频解码单元25在时间t1开始对画面进行解码，并且在经过一个画面时间s的时间pts''结束画面的解码，此时开始显示画面。在这种情况下的编解码器延迟是(2s+2Δ)。

块1504指示在复用视频解码设备20中的视频解码单元25通过根据第一实施例执行超低延迟解码操作对画面进行解码时、用于对一个画面进行传送、解码以及显示的定时。

在时间dts开始画面的解码，时间dts比控制单元23的STC等于t1的时间早(M-1)s/M。另一方面，在时间pts'开始画面的显示，时间pts'比时间t1早(M-3)s/M。因此，在这种情况下，编解码器延迟是5Δ=(5s/M)。因此，可以看出，根据第一实施例，与现有技术相比，可以大大降低编解码器延迟。当视频复用设备不执行超低延迟编码时，从开始捕获画面的时间到开始编码画面的传输的时间之间的时间间隔增大到2s，并且因此编解码器延迟进一步增大。

块1505指示在音频解码单元27通过执行超低延迟解码操作对音频帧进行解码时、用于对一个音频帧进行传送、解码、以及显示的定时。在所示出的示例中，由于捕获时间对于画面和音频帧相同，因此将编码视频数据和编码音频数据复用在一起，使得对于这两种数据，显示时间也变得相同。当视频复用设备10不执行超低延迟编码时，通常编码音频帧数据中的最后比特的到达时间晚于pts’。

块1506指示当不执行超低延迟解码操作时解码音频数据的输出定时。编码音频数据早于时间t1到达，但是由于视频显示开始时间是(t1+s)，因此控制单元23执行控制以延迟音频数据的输出定时，使得音频和画面可以在相同时间呈现用于显示。解码时间可以设置为比音频数据早Δ。

如上所述，根据第一实施例，视频复用设备和复用视频解码设备不但可以支持符合现有标准的编码和解码，并且可以支持将编解码器延迟降低为一个画面时间的超低延迟编码和解码。

接下来，将描述根据第二实施例的视频复用设备和复用视频解码设备。第二实施例与第一实施例不同在于存储在TS分组中的指示是否进行了超低延迟编码的标志的存储位置。另外，分组结构、视频复用设备的操作、以及复用视频解码设备的操作与第一实施例中的相同。

以下将描述第一和第二实施例之间的差别。图16是示出根据第二实施例的系统TS分组的数据结构的图。在本实施例中，系统TS分组1601如在图8中描绘的系统TS分组801一样，从其头开始按照顺序包含TS头1602、适应字段1603、以及载荷1604。包含在系统TS分组1601中的这些字段与系统TS分组801中的对应字段相同。

另一方面，在其载荷中承载PMT的TS分组1611如同图8中描绘的TS分组811一样，从其头开始按照顺序包含TS头1612、适应字段1613、以及载荷1614。在本实施例中，在描述PMT的字段结构的载荷1614中，指示超低延迟编码的存在或不存在的标志SubPicLowDelayFlag位于描述每个基本流的信息的从StreamType到Descriptor的循环之前。在所示出的示例中，标志SubPicLowDelayFlag位于紧接ProgramInfoLength之前，但是可以位于一些其他适合的位置。然而，为了对于从TableID到ProgramInfoLength的比特量保证与MPEG-2系统标准的兼容性，优选地是通过标志SubPicLowDelayFlag替换所保留的比特（图16中未描绘）之一。MPEG-2系统标准中所保留的比特用来对字段进行字节对准，使得编码数据量整体可以以字节为单位来定义，并且使得可以逐字节来访问均具有以比特位单位定义的长度的字段。在所示出的示例中，在PES分组中不存在图10中描绘的AlternativePTSDTSFlag，并且由PMT中的标志SubPicLowDelayFlag来指示是否存在SecondPTSDelta和AdditionalDTSDelta。

接下来，将描述根据第三实施例的视频复用设备和复用视频解码设备。第三实施例与第一实施例不同在于直接指定在执行超低延迟解码时参照的每个画面或音频帧的解码时间和显示时间，而不是将每个画面或音频帧的解码时间和显示时间指定为相对于在根据现有标准进行解码时施加的延迟时间的差分值。另外，分组结构、视频复用设备的操作、以及复用视频解码设备的操作与第一实施例中的相同。

以下将描述第一和第三实施例之间的差别。图17是示出根据第三实施例的基本流PES分组的结构的图，该基本流PES分组包括视频PS分组和音频PES分组。

在图17中示出的PES分组1700中，取代被指定为相对于在根据现有标准解码时施加的显示时间的差分值的SecondPTSDelta和AdditionalDTSDelta（图10中示出），描述SecondPTS和SecondDTS。SecondPTS和SecondDTS直接描述在执行超低延迟解码时分别施加的第二显示时间和解码时间。换言之，SecondPTS和SecondDTS分别对应于图15中的dts(视频)（在视频数据的情况下）或dts(音频)（在音频数据的情况下）和pts’。可以以90KHz为单位或以27MHz为单位表示SecondPTS和SecondDTS。

通过直接将SecondPTS和SecondDTS使用作为第二显示时间和解码时间，视频复用设备10和复用视频解码设备20中的每个单元执行与根据第一实施例的视频复用设备10和复用视频解码设备20中的对应单元执行的处理相同的处理。

接下来，将描述根据第四实施例的视频复用设备和复用视频解码设备。第四实施例与第一实施例不同在于，在用于画面的每个DU的PES分组内描述在执行超低延迟解码时参照的第二解码时间信息和显示时间信息。另外，分组结构、视频复用设备的操作、以及复用视频解码设备的操作与第一实施例中的相同。

以下将描述第一和第四实施例之间的差别。图18是示出根据第四实施例的基本流PES分组的结构的图，该基本流PES分组包括视频PS分组和音频PES分组。

图18中描绘的PES分组1800与图10中描绘的PES分组不同在于包括参数NumDUDTSDelta字段，其指示每访问单位（AU）（一个画面或一个音频帧）的DU的数量。另一差别在于，在PES分组1800中，对于每个DU、而不是对于每个AU，描述AdditionalDTSDelay。在第四实施例中，与NumDUDTSDelta的值指示一样多地承载AdditionalDTSDelay。

当PES分组是音频PES分组时，NumDUDTSDelta被设置为“1”。对于音频数据，总是逐AU来指定解码开始时间和显示开始时间。这是因为AU是音频数据情况下的最小编码单位。另一方面，当PES分组是视频分组时，NumDUDTSDelta被设置为通过将1加到在编码视频中的画面定时SEI中包含的NumDecodingUnitsMinus1字段的值而计算的值；即，NumDUDTSDelta指示AU中包含的DU的数量。通过从视频PES分组的PTS减去对应的AdditionalDTSDelay来计算每个DU的解码时间。

视频复用设备10中的视频分组生成单元12在来自控制单元15的指示下，通过在其中包括用于每个DU的NumDUDTSDelta和AdditionalDTSDelay来生成视频PES分组（即，与NumDUDTSDelta的值指示一样多的AdditionalDTSDelay）。

另一方面，复用视频解码设备20中的控制单元23指示视频解码单元25在其指定的解码时间对画面中的每个DU进行解码。在图14中示出的解码处理流程中，在步骤S308中控制单元23确定每个DU的解码时间。然后，在步骤S309中，控制单元23对于每个DU确定DU的解码时间是否与STC值匹配，并且如果它们匹配，则指示视频解码单元25开始对DU进行解码。

接下来，将描述根据第五实施例的视频复用设备和复用视频解码设备。第五实施例与第一实施例不同在于如下方法：该方法计算在执行超低延迟解码时要对画面和音频帧进行解码和显示的解码时间和显示时间。另外，视频复用设备的操作和复用视频解码设备的操作与第一实施例中的相同。

以下将描述第一和第五实施例之间的差别。在第五实施例中，视频复用设备10中的音频分组生成单元12在来自控制单元15的指示下，总是将音频PES分组中承载的AdditionalDTSDelay的值设置为“0”。视频复用设备10中的控制单元23、视频解码单元25、以及音频解码单元27按以下方式确定要对画面和音频帧进行解码和显示的解码时间和显示时间。

如在第一实施例中一样，控制单元23通过从经由将视频PES分组中的PTS乘以300获得的值减去AdditionalDTSDelta，计算画面解码时间。此外，控制单元23通过首先从经由将视频PES分组中的PTS乘以300获得的值减去SecondPTSDelta、并且然后将AudioDecDelay与其相加，计算画面显示时间。该AudioDecDelay是音频解码单元27对一个音频帧进行解码所需的时间。

另一方面，控制单元23通过首先从经由将音频PES分组中的PTS乘以300获得的值减去SecondPTSDelta、并且然后将AudioDecDelay与其相加，计算音频帧显示时间。此外，控制单元23通过从经由将音频PES分组中的PTS乘以300获得的值减去SecondPTSDelta，计算音频帧解码时间。

图9是示出根据第五实施例的用于食品画面和音频帧的解码和显示定时。

如同图15中描绘的块1501一样，块1901指示当根据图4中描绘的逐DU编码方法对视频数据进行编码时用于对一个画面进行捕获、编码以及传送的定时。如同图15中描绘的块1502一样，块1902指示用于对一个音频帧进行捕获、编码以及传送的定时。根据第五实施例的视频复用设备中的捕获、定时以及传送定时与根据第一实施例的捕获、编码以及传送定时相同。

块1903指示当复用视频解码设备20中的视频解码单元25根据第五实施例通过执行超低延迟解码操作来对画面进行解码时、用于对一个画面进行传送、解码以及显示的定时。另一方面，块1904指示当音频解码单元27根据第五实施例通过执行超低延迟解码操作来对音频帧进行解码时、用于对一个音频帧进行传送、解码以及显示的定时。音频帧解码时间dts（在所示出的示例中，其是从在复用视频数据中描述的音频帧的显示/解码时间延迟AudioDecDelay的时间）对应于音频解码单元27实际输出音频帧的时间。

接下来，将描述根据第六实施例的视频复用设备和复用视频解码设备。第六实施例与第一实施例不同在于对于每个DU生成PES分组。另外，分组结构、视频复用设备的操作、以及复用视频解码设备的操作与第一实施例中的相同。

以下将描述第一和第六实施例之间的差别。图20是示出根据第六实施例的视频TS分组的结构的图。

AU2001对应于一个画面，并且包含一个或更多个DU2002。每个DU2002是包括至少一个切片NAL的多个NAL的集合。每个DU2002承载分隔符NAL2101（仅AU中的第一个DU可承载分隔符NAL）、SEINAL2102（零或数量为一个或更多个）、切片NAL2103（数量为至少一个）、以及SEI NAL2104（零或数量为一个或更多个）。在AU的画面定时SEI中描述AU中包含的DU的数量和每个DU中包含的NAL的数量。一个PES分组2003存储至少一个DU2002。

根据第六实施例的PES分组结构与在图17中描绘的PES分组结构相同。在本实施例中，PES分组1700中包含的各个字段的值和含义如下：

PTS：该字段存储包含该DU的AU的第一PTS的值。AU中包含的每个DU具有相同PTS。

DTS：不使用该字段。或者，可在DTS中存储与PTS的值相同的值。

SubPicLowDelayFlag：当SecondPTS和SecondDTS出现时，该字段被设置为“0”。

SecondDTS：该字段存储该DU的DTS。

SecondPTS：该字段描述该DU中包含的像素的输出开始时间。例如，当如图4所示对每个DU进行编码时，SecondPTS的值等于SecondDTS和(2s/M)的和值。可替选地，对于每个DU可不明确地描述SecondPTS的值，而是可使用AU中第一DU的SecondPTS的值。在该情况下，视频解码单元25通过将从要解码的DU的SecondDTS的值减去AU中第一DU的SecondDTS的值而获得的值加到AU中第一DU的SecondDTS的值，计算该DU的第二PTS。

如同在第一实施例中一样，根据第二至第六实施例中的任一实施例的视频复用设备和复用视频解码设备不但可以支持符合现有标准的编码和解码、而且可以支持将编解码器延迟降低到一个画面时间的超低延迟编码和解码。

图21是示出通过执行如下计算机程序来操作为视频复用设备或复用视频解码设备的计算机的配置的图：该计算机程序用于实现根据以上实施例或其变型示例中的任一个的视频复用设备或复用视频解码设备的各个单元的功能。

计算机300包括用户接口单元301、通信接口单元302、存储单元303、存储媒体访问装置304、以及处理器305。计算机300还可包括扬声器（未描绘）。处理器305例如经由总线连接到用户接口单元301、通信接口单元302、存储单元303、存储媒体访问装置304。

用户接口单元301例如包括诸如键盘和鼠标的输入装置、以及诸如液晶显示器的显示装置。可替选地，用户接口单元301可包括输入装置和显示装置集成到的装置（诸如触摸板显示器）。用户接口单元301例如响应于用户操作，生成用于选择要编码的视频数据和其它媒体数据、或要解码的复用视频数据的操作信号，并且将操作信号提供到处理器305。用户接口单元301还可显示从处理器305接收的解码视频数据。

通信接口单元302可包括用于如下通信接口、以及用于该通信接口的控制电路：该通信接口将计算机300连接到用于生成视频数据和其它媒体数据的设备（例如，视频摄像装置）。这样的通信接口例如可以是通用串行总线（USB）接口。

此外，通信接口单元302可包括用于连接到符合诸如以太网（注册商标）的通信标准的通信网的通信接口、以及用于该通信接口的控制电路。

在后者情况下，通信接口单元302从连接到通信网的其它设备接收要编码的视频数据和其它媒体数据、或要解码的复用视频数据，并且将所接收的数据传递到处理器305。此外，通信接口单元302可从处理器305接收复用视频数据或解码视频数据以及其他媒体数据，并且可以经由通信网将数据传送到其它设备。

存储单元303例如包括可读/可写半导体存储器和只读半导体存储器。存储单元303存储要在处理器305上执行的用于视频复用或复用视频解码的计算机程序，并且还存储作为执行程序的结果或在执行程序期间生成的数据。

存储媒体访问装置304是访问存储介质306的装置，存储介质306诸如磁盘、半导体存储卡、或光存储介质。存储媒体访问装置304访问存储介质306以例如读取要在处理器305上执行的用于视频复用或复用视频解码的计算机程序，并且将所读取的计算机程序传递到处理器305。

处理器305通过根据以上实施例或其变型示例中的任一个执行视频复用计算机程序，生成复用视频数据。处理器305然后将这样生成的复用视频数据存储在存储单元303中、或将所生成的数据经由通信接口单元302传送到其他设备。此外，处理器305通过根据以上实施例或其变型示例中的任一个执行执行复用视频解码计算机程序，对复用视频数据进行解码。处理器305然后将解码视频数据或其他媒体数据存储在存储单元303中，在用户接口单元301上显示解码数据，或将解码数据经由通信接口单元302传送到其他设备。

在计算机上执行以实现根据以上实施例或其变型示例中的任一个的视频复用设备的各个单元的功能的计算机程序可以以存储在半导体存储器中的形式或以记录在诸如光记录介质的记录介质上的形式分布。同样，在计算机上执行以实现根据以上实施例或其变型示例中的任一个的复用视频解码设备的各个单元的功能的计算机程序可以以存储在半导体存储器中的形式或以记录在诸如光记录介质的记录介质上的形式分布。这里使用的术语“记录介质”不包括载波。

在各种应用中使用以上实施例或其变型示例的视频复用设备或复用视频解码设备。例如，视频复用设备和复用视频解码设备并入在视频摄像装置、视频传送装置、视频接收装置、视频电话系统、计算机、或移动电话中。

这里陈述的所有示例和条件性语言旨在教学目的，以帮助读者理解本发明和发明人对促进本领域所建立的概念，并且要解释为对这样具体陈述的示例和条件为非限制性的，说明书中这样的示例的组织不涉及示出本发明的优势和劣势。虽然详细描述了本发明的实施例，但是应该理解，在不脱离本发明的精神和范围的情况下，可以对其进行各种改变、替换、以及变更。

Claims

1.一种用于对视频数据连同除了视频之外的第一媒体数据进行复用的视频复用设备，所述视频复用设备包括：

控制单元，其对于所述视频数据中的每个画面和对于所述第一媒体数据的每个编码单位，确定各自用于确定所述画面和所述编码单位的解码时间和显示时间的第一解码/显示时间信息和第二解码/显示时间信息；

视频分组生成单元，其为承载所述视频数据的编码数据的视频分组附加用于所述画面的第一解码/显示时间信息和第二解码/显示时间信息；

媒体分组生成单元，其为承载所述第一媒体数据的编码数据的媒体分组附加用于所述编码单位的第一解码/显示时间信息和第二解码/显示时间信息；

分组复用单元，其通过对所述视频分组和所述媒体分组进行复用来生成数据流，并且输出所述数据流，其中

第一解码/显示时间信息包括如下信息：所述信息指示在所述视频数据的解码单位是画面时、以同步方式显示所述视频数据和所述第一媒体数据的时间，

第二解码/显示时间信息包括如下信息：所述信息指示在所述视频数据的解码单位是通过将画面划分成多个子画面获得的子画面时、以同步方式显示所述视频数据和所述第一媒体数据的时间，以及

基于所述第二解码/显示时间信息确定的所述画面的解码时间和显示时间早于基于所述第一解码/显示时间信息确定的所述画面的解码时间和显示时间。

2.根据权利要求1所述的视频复用设备，其中，当所述视频数据的解码单位是所述子画面时，所述分组复用单元对所述视频分组和所述媒体分组进行复用，以便确保对于所述视频数据中的每个画面，与所述画面中的第一子画面对应的编码数据和与所述画面对应的第一媒体数据的编码单位的编码数据将在比基于所述第二解码/显示时间信息确定的所述画面的解码时间更早的时间或与基于所述第二解码/显示时间信息确定的所述画面的解码时间相同的时间到达用于对所述数据流进行解码的解码设备。

3.根据权利要求2所述的视频复用设备，其中，用于所述画面的第二解码/显示时间信息包括指示对所述子画面进行解码所需的子画面解码时间的信息，并且

基于所述第二解码/显示时间信息确定的所述画面的解码时间比基于所述第一解码/显示时间信息确定的所述画面的解码时间早通过从对整个画面进行解码所需的时间减去所述子画面解码时间而获得的时间量。

4.根据权利要求3所述的视频复用设备，其中，所述第二解码/显示时间信息包括指示将如下时间作为所述画面的显示时间的信息：所述时间比基于所述第二解码/显示时间信息确定的所述画面的解码时间晚对从所述画面中的第一子画面开始的两个子画面进行解码所需的时间量。

5.根据权利要求1所述的视频复用设备，其中，所述视频分组生成单元为所述视频分组附加作为所述第二解码/显示时间信息的、指示所述画面中的第一子画面的解码时间和显示时间的信息。

6.根据权利要求1所述的视频复用设备，其中，所述视频分组生成单元为所述视频分组附加作为所述第二解码/显示时间信息的、指示用于每个子画面的解码时间和显示时间的信息。

7.一种用于对如下复用数据进行解码的复用视频解码设备，所述复用数据是通过对编码视频数据连同除了视频之外的编码第一媒体数据复用而生成的，所述复用视频解码设备包括：

控制单元，其对于所述复用数据中包含的、所述视频数据中的每个画面和所述第一媒体数据的每个编码单位，基于各自用于确定所述画面和所述编码单位的解码时间和显示时间的第一解码/显示时间信息和第二解码/显示时间信息，确定解码时间和显示时间；

视频解码单元，其对于每个画面，根据对于所述画面确定的解码时间开始对所述画面进行解码，并且根据对于所述画面确定的显示时间开始对所述画面进行显示；以及

媒体解码单元，其对于每个编码单位，根据对于所述编码单位确定的解码时间开始对所述编码单位进行解码，并且根据对于所述编码单位确定的显示时间开始对所述编码单位进行输出，其中

所述第一解码/显示时间信息包括如下信息：所述信息指示当所述视频数据的解码单位是画面时、以同步方式显示所述视频数据和所述第一媒体数据的时间，

所述第二解码/时间信息包括如下信息：所述信息指示当所述视频数据的解码单位是通过将画面划分成多个子画面而获得的子画面时、以同步方式显示所述视频数据和所述第一媒体数据的时间，以及

8.根据权利要求7所述的复用视频解码设备，其中，当所述视频数据的解码单位是子画面时、以及当所述视频解码单元能够在基于所述第二解码/显示时间信息确定的所述画面的显示时间开始显示所述画面时，所述控制单元基于用于每个画面的第二解码/显示时间信息来确定每个画面的解码时间和显示时间，并且基于用于每个编码单位的第二解码/显示时间信息来确定每个编码单位的解码时间和显示时间。

9.根据权利要求8所述的复用视频解码设备，其中，用于所述画面的第二解码/显示时间信息包括指示对所述子画面进行解码所需的子画面解码时间的信息，并且

所述控制单元将基于所述第二解码/显示时间信息确定的所述画面的解码时间设置成如下时间：所述时间比基于所述第一解码/显示时间信息确定的所述画面的解码时间早通过从对整个画面进行解码所需的时间减去所述子画面解码时间获得的时间量。

10.根据权利要求9所述的复用视频解码设备，其中，所述第二解码/显示时间信息包括指示如下时间作为所述画面的显示时间的信息：所述时间比基于所述第二解码/显示时间信息确定的所述画面的解码时间晚对从所述画面中的第一子画面开始的两个子画面进行解码所需的时间量。

11.根据权利要求7所述的复用视频解码设备，其中，所述第二解码/显示时间信息是指示所述画面中的第一子画面的解码时间和显示时间的信息。

12.根据权利要求7所述的复用视频解码设备，其中，所述第二解码/显示时间信息包括指示用于每个子画面的解码时间和显示时间的信息。

13.一种用于对视频数据连同除了视频之外的第一媒体数据进行复用、以及用于输出复用数据的视频复用方法，所述方法包括：

对于所述视频数据中的每个画面和对于所述第一媒体数据的每个编码单位，确定各自用于确定所述画面和所述编码单位的解码时间和显示时间的第一解码/显示时间信息和第二解码/显示时间信息；

为承载所述视频数据的编码数据的视频分组附加用于所述画面的第一解码/显示时间信息和第二解码/显示时间信息；

为承载所述第一媒体数据的编码数据的媒体分组附加用于所述编码单位的第一解码/显示时间信息和第二解码/显示时间信息；

通过对所述视频分组和所述媒体分组进行复用来生成数据流，并且输出所述数据流，其中

14.一种用于对如下复用数据进行解码的复用视频解码方法，所述复用数据是通过对编码视频数据连同除了视频之外的编码第一媒体数据复用而生成的，所述复用视频解码方法包括：

对于所述复用数据中包含的、所述视频数据中的每个画面和所述第一媒体数据的每个编码单位，基于各自用于确定所述画面和所述编码单位的解码时间和显示时间的第一解码/显示时间信息和第二解码/显示时间信息，确定解码时间和显示时间；

对于每个画面，根据对于所述画面确定的解码时间开始对所述画面进行解码，并且根据对于所述画面确定的显示时间开始对所述画面进行显示；以及

对于每个编码单位，根据对于所述编码单位确定的解码时间开始对所述编码单位进行解码，并且根据对于所述编码单位确定的显示时间开始对所述编码单位进行输出，其中

所述第二解码/显示时间信息包括如下信息：所述信息指示当所述视频数据的解码单位是通过将所述画面划分成多个子画面而获得的子画面时、以同步方式显示所述视频数据和所述第一媒体数据的时间，以及