JP2014138269A

JP2014138269A - 動画像多重化装置及び動画像多重化方法、ならびに多重化動画像復号装置及び多重化動画像復号方法

Info

Publication number: JP2014138269A
Application number: JP2013005764A
Authority: JP
Inventors: Kimihiko Kazui; 君彦数井; Tomohito Shimada; 智史島田; Junpei Koyama; 純平小山; Toshisuke Kobayashi; 俊輔小林
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-01-16
Filing date: 2013-01-16
Publication date: 2014-07-28
Anticipated expiration: 2033-01-16
Also published as: US9083993B2; US20140201798A1; CN103929657A; JP6119260B2; CN103929657B; EP2757795B1; EP2757795A1

Abstract

【課題】符号化された動画像データと、符号化された他のメディアデータとを多重化する時に、コーデック遅延を短縮できる動画像多重化装置を提供する。
【解決手段】動画像多重化装置は、動画像データの各ピクチャ及び第１のメディアデータの各符号化単位のそれぞれについて、第１の復号表示時刻情報と第２の復号表示時刻情報を求める制御部１５と、動画像データの符号化データにピクチャについての第１及び第２の復号表示時刻情報を付加する動画像パケット生成部１２と、第１のメディアデータの符号化データに符号化単位についての第１及び第２の復号表示時刻情報を付加するメディアパケット生成部１４とを有する。第１及び第２の復号表示時刻情報は、それぞれ、動画像データの復号単位がピクチャの場合とサブピクチャの場合に対応する。第２の復号表示時刻情報に基づくピクチャの表示時刻は、第１の復号表示時刻情報に基づくピクチャの表示時刻よりも早い。
【選択図】図６

Description

本発明は、例えば、動画像データと他のメディアデータから多重化データを生成する動画像多重化装置及び動画像多重化方法、ならびに多重化データを復号する多重化動画像復号装置及び多重化動画像復号方法に関する。

デジタルテレビ放送では、一般的に、動画像データ及びオーディオデータの多重化規格の一つである、非特許文献１に開示されたMPEG-2 Systems規格を利用したデジタル多重化方式が採用されている。

図１は、MPEG-2 SystemsのTS (Transport Stream)形式で、動画像データと、オーディオデータとを多重化する動画像多重化装置の概略構成図である。
動画像多重化装置１００は、動画像符号化部１０１、動画像パケット生成部１０２、オーディオ符号化部１０３、オーディオパケット生成部１０４、制御部１０５、システムパケット生成部１０６及びパケット多重化部１０７を有する。
動画像符号化部１０１は、入力された動画像データを、所定の符号化方法、例えば非特許文献２に記載されたAVC規格に従って圧縮符号化する。
動画像パケット生成部１０２は、圧縮符号化された動画像データを、Packetized Elementary Stream(PES)パケットに変換する。PESパケットの形式は、動画像の一ないし複数ピクチャ毎に、ピクチャの表示時刻等を記述したPESヘッダが付加される形式である。PESパケット化された動画像データは、さらに、188Byteの固定長を持つTSパケットに変換される。TSパケットの形式は、PESパケットを細分化したTSペイロードに、TSヘッダが付加された形式である。TSヘッダには、ペイロードの識別情報PIDが含まれる。
TSヘッダには、他にも、例えば動画像多重化装置１００のSystem Time Clock(STC)値を再現するためのProgram Clock Reference(PCR)値が記述される。PCR値は、TSストリーム（TSパケットの列）中の挿入位置(Byte単位）によって厳密に値を決める必要がある。そのため、動画像パケット生成部１０２とパケット多重化部１０７の間で必要な情報が交換される。

オーディオ符号化部１０３は、入力されたオーディオデータを、所定の符号化方法、例えば非特許文献３に記載されたMPEG-2 AAC規格で圧縮符号化する。
オーディオパケット生成部１０４は、圧縮符号化されたオーディオデータを、PESパケット及びTSパケットに変換する。オーディオのPESパケットの形式は、オーディオの１フレーム（1024サンプル）毎に、PESヘッダが付加される形式である。

制御部１０５は、動画像符号化装置１００の動作を制御する。制御部１０５は、同期制御の基準クロックである、27 MHz精度のSTCを有する。制御部１０５は、入力された動画像データの垂直同期信号V-SyncのタイミングでのSTC値を、各ピクチャの表示時刻とする。また、入力されたオーディオデータのオーディオフレームの先頭サンプルのタイミングでのSTC値を、各オーディオフレームの再生時刻とする。

システムパケット生成部１０６は、システム情報であるProgram Specific Information(PSI)を格納するTSパケットを生成する。PSIには、多重化されたプログラムの一覧を記述するProgram Association Table(PAT)、及び各プログラム内の動画像またはオーディオのPIDを記述するProgram Map Table(PMT)等が含まれる。なお、PATのPIDは、'0'と規定されている。

パケット多重化部１０７は、動画像パケット生成部１０２が出力する動画像TSパケット、オーディオパケット生成部１０４が出力するオーディオTSパケット、及びシステムパケット生成部１０６が出力するシステムTSパケットを多重化する。これにより、パケット多重化部１０７はTSストリームを生成し、そのTSストリームを出力する。各パケットの多重化は、MPEG-2 Systems規格のSystem Target Decoder(STD)規定に準拠するように行われる。例えば動画像TSパケットは、PESパケットヘッダに記述された表示時刻よりも先にSTDに伝送されるように、多重化される。

図２は、MPEG-2 SystemsのTS形式で多重化された動画像データとオーディオデータとを復号し、動画像データを表示するとともにオーディオデータを再生する多重化動画像復号装置の概略構成図である。
多重化動画像復号装置２００は、パケット分離部２０１、システムパケット処理部２０２、制御部２０３、動画像パケット処理部２０４、動画像復号部２０５、オーディオパケット処理部２０６、及びオーディオ復号部２０７を有する。

パケット分離部２０１は、TSパケットのヘッダ情報に基づいて、システムパケット処理部２０２と連携して、各TSパケットのペイロード部分に入っているデータの種別を特定する。そしてパケット分離部２０１は、動画像PESパケットを動画像パケット処理部２０４へ送り、オーディオPESパケットをオーディオパケット処理部２０６へ送り、かつ、PSI情報をシステムパケット処理部２０２に送る。またパケット分離部２０１は、TSヘッダに入っているPCR値を、そのByte位置情報と共に制御部２０３に送る。
システムパケット処理部２０２は、システムTSパケットのペイロード部分に入っているPSI情報を解析し、復号対象のプログラムに含まれる動画像及びオーディオのPIDを獲得し、そのPIDをパケット分離部２０１に通知する。

動画像パケット処理部２０４は、パケット分離部２０１から受け取った、動画像TSパケットのペイロードに格納されていた動画像PESパケットのペイロードに含まれている符号化動画像データを動画像復号部２０５に送る。また動画像パケット処理部２０４は、PESパケットヘッダに含まれているピクチャの表示時刻等を制御部２０３に送る。

オーディオパケット処理部２０６は、パケット分離部２０１から受け取った、動画像TSパケットのペイロードに格納されていたオーディオPESパケットのペイロードに含まれている符号化オーディオデータをオーディオ復号部２０７に送る。またオーディオパケット処理部２０６は、PESパケットヘッダに含まれているオーディオフレームの表示時刻等を制御部２０３に送る。

制御部２０３は、制御部１０５と同様に、27MHz精度の基準クロックSTCを有する。制御部２０３は、パケット分離部２０１から送られたPCR値に基づいて、STC値を復号し、同期処理を行う。また制御部２０３は、動画像パケット処理部２０４及びオーディオパケット処理部２０６から受け取ったピクチャの表示時刻及びオーディオフレームの表示時刻が、STCの値と等しい時に、それぞれ、動画像復号部２０５及びオーディオ復号部２０７に対して復号を指示する。

動画像復号部２０５及びオーディオ復号部２０７は、それぞれ、制御部２０３からの復号指示により、ピクチャもしくはオーディオフレームを復号し、復号されたピクチャもしくは復号されたオーディオフレームを出力する。

ISO/IEC 13818-1, "Information technology - Generic coding of moving pictures and associated audio information: Systems", 2006年 ISO/IEC 14496-10, "Information technology - Coding of audio-visual objects - Part 10: Advanced Video Coding", 2010年 ISO/IEC 13818-7, "Information technology - Generic coding of moving pictures and associated audio information - Part 7: Advanced Audio Coding (AAC)", 2006年 ISO/IEC DIS 23008-2, "Information technology -- High efficiency coding and media delivery in heterogeneous environments -- Part 2: High efficiency video coding", 2012年 ITU G.711, "Pulse code modulation (PCM) of voice frequencies", 1990年 ISO/IEC 13818-１:2013/PDAM3, "Transport of HEVC Video over MPEG-2 Systems", 2012年

非特許文献１のMPEG-2 Systems規格では、動画像データ及びオーディオデータの表示時刻は、Presentation Time Stamp(PTS)を用いて記述される。PTSは、動画像データの１以上のピクチャ、及びオーディオデータの１以上のオーディオフレームに対して割り当てられる、90KHz精度の時刻情報である。

MPEG-2 Systems規格のSTD規定では、双方向ピクチャ予測時に用いられるフレームリオーダリングが無い場合には、符号化動画像データの各ピクチャは、PTSで指定された時刻に瞬時的に復号され、かつ、表示される。即ち、復号時刻は、表示時刻と同じである。多重化データ内の各符号化動画像ピクチャは、PTSで示された時刻より前に、そのピクチャの全ての符号化データが多重化動画像復号装置に伝送されるように多重化されている必要がある。

なお、フレームリオーダリングが有る場合には、表示時刻と復号時刻とが一致しないため、復号時刻は、符号化動画像データ内でDecoding Time Stamp(DTS)として明示的に記述される。この場合、多重化データ内の各符号化動画像ピクチャは、DTSで示された時刻より前に、そのピクチャの全てのデータが多重化動画像復号装置に伝送されるように多重化されている必要がある。フレームリオーダリングは、主に、遅延よりも符号化効率を重視する用途で用いられる。フレームリオーダリングによってピクチャ時間単位の遅延が生じるため、フレームリオーダリングは、遅延を重視する用途では用いられない。本明細書では以降、フレームリオーダリングが無い場合を主に想定する。

STD規定では、ピクチャの復号は瞬時に完了する。一方、実際の多重化動画像復号装置に含まれる動画像復号部は、ピクチャを復号するために、一般的には1ピクチャ時間を要する。復号されたピクチャの表示は、そのピクチャの復号が完了してから開始されるのが通常であるので、実際の装置では、PTSよりも1ピクチャ時刻だけ遅れてピクチャの表示が開始される。

図３は、従来技術のMPEG-2 SystemsのTS形式における、動画像多重化装置及び多重化動画像復号装置での1ピクチャの処理のタイミングを示す図である。図３を参照しつつ、従来技術による、動画像多重化装置へのピクチャ入力から、多重化動画像復号装置でのピクチャ出力までの遅延（以降コーデック遅延と表記する）の様子を示す。
図３において、横軸は、STC値により表される経過時間を表す。ブロック３０１は、動画像多重化装置における１ピクチャの入力から伝送完了までに要する時間を表し、ブロック３０２は、多重化動画像復号装置における１ピクチャの受信開始から表示完了までに要する時間を表す。

動画像多重化装置は、STC値がt1となる時刻でピクチャの入力を開始し、1ピクチャ時間（例えば、ピクチャレートが29.97 Hzの場合、33ミリ秒）かけて1ピクチャを取りこむ。取り込み完了後、動画像多重化装置は、1ピクチャ時間をかけて入力されたピクチャを符号化する。符号化完了後、動画像多重化装置は、符号化されたピクチャのデータの伝送を開始する。Constant Bit Rate(CBR)動作時には、１ピクチャ当たりの伝送時間の平均値は1ピクチャ時間となる。この場合、動画像多重化装置は、多重化動画像復号装置側で、例えば、STC値が400となるように、PCR値をTSパケットヘッダに記述する。また、ピクチャのPTSをt1とする。

一方、多重化動画像復号装置は、符号化されたピクチャのデータの受信が完了した時刻t1に、復号を開始する。そして多重化動画像復号装置は、1ピクチャ時間をかけてピクチャを復号する。復号完了後、多重化動画像復号装置は、1ピクチャ時間をかけて復号したピクチャを表示する。
このように、コーデック遅延は4ピクチャ時間（例えば、ピクチャレートが29.97 Hzの場合、132ミリ秒）となる。

一般的な双方向映像通信、例えばＴＶ会議システムでは、一方向の遅延時間が100ミリ秒程度であれば、ユーザの一方の発言が終了したのを待ってからユーザの他方が発言する、といった会話であれば、ユーザは、遅延によるストレスをほとんど感じることはない。しかし、同時に双方向で複数のユーザが発言するような場合には、100ミリ秒の遅延により、ユーザはストレスを感じるおそれがある。
他にも、遠隔ロボットの操作を、遠隔ロボットが撮影した映像を元に行う場合、遠隔ロボットでのピクチャ入力から操作端末でのピクチャの表示までの遅延はできる限り小さいことが好ましい、例えば、遅延は、約1ピクチャ時間以下となることが好ましい。
しかしながら、既存のMPEG-2 Systemsを、上記のような、コーデック遅延が約1ピクチャ時間以下となる超低遅延を必要とする用途に適用することは困難である。

そこで本明細書は、符号化された動画像データと、符号化された他のメディアデータとを多重化する時に、コーデック遅延を短縮できる動画像多重化装置を提供することを目的とする。また、そのような動画像多重化装置により多重化されたデータを復号する多重化動画像復号装置を提供することを目的とする。

一つの実施形態によれば、動画像データと、動画像以外の第１のメディアデータとを多重化し出力する動画像多重化装置が提供される。この動画像多重化装置は、動画像データの各ピクチャ及び第１のメディアデータの各符号化単位のそれぞれについて、ピクチャ及び符号化単位の復号時刻及び表示時刻を決定するための第１の復号表示時刻情報と第２の復号表示時刻情報を求める制御部と、動画像データの符号化データを含む動画像パケットにピクチャについての第１の復号表示時刻情報及び第２の復号表示時刻情報を付加する動画像パケット生成部と、第１のメディアデータの符号化データを含むメディアパケットに符号化単位についての第１の復号表示時刻情報及び第２の復号表示時刻情報を付加するメディアパケット生成部と、動画像パケットとメディアパケットとを多重化することによりデータストリームを生成し、そのデータストリームを出力するパケット多重化部とを有する。
第１の復号表示時刻情報は、動画像データの復号単位がピクチャの場合に、動画像データと第１のメディアデータとを同期して表示する時刻を表す情報を含む。一方、第２の復号表示時刻情報は、動画像データの復号単位が、ピクチャを複数に分割して得られるサブピクチャである場合に、動画像データと第１のメディアデータとを同期して表示する時刻を表す情報を含む。そして第２の復号表示時刻情報に基づいて決定されるピクチャの復号時刻及び表示時刻は、第１の復号表示時刻情報に基づいて決定されるピクチャの復号時刻及び表示時刻よりも早い。

他の実施形態によれば、符号化された動画像データと、動画像以外の符号化された第１のメディアデータとが多重化された多重化データを復号する多重化動画像復号装置が提供される。この多重化動画像復号装置は、多重化データに含まれる、動画像データの各ピクチャ及び第１のメディアデータの各符号化単位のそれぞれについて、ピクチャ及び符号化単位の復号時刻及び表示時刻を決定するための第１の復号表示時刻情報と第２の復号表示時刻情報に基づいて、各ピクチャの復号時刻及び表示時刻と、第１のメディアデータの各符号化単位の復号時刻及び表示時刻を決定する制御部と、各ピクチャについて、ピクチャの復号時刻に従ってそのピクチャの復号を開始し、そのピクチャの表示時刻に従ってそのピクチャの表示を開始する動画像復号部と、各符号化単位について、符号化単位の復号時刻に従ってその符号化単位の復号を開始し、その符号化単位の表示時刻に従ってその符号化単位の出力を開始するメディア復号部とを有する。
第１の復号表示時刻情報は、動画像データの復号単位がピクチャの場合に、動画像データと第１のメディアデータとを同期して表示する時刻を表す情報を含む。一方、第２の復号表示時刻情報は、動画像データの復号単位が、ピクチャを複数に分割して得られるサブピクチャである場合に、動画像データと第１のメディアデータとを同期して表示する時刻を表す情報を含む。そして第２の復号表示時刻情報に基づいて決定されるピクチャの復号時刻及び表示時刻は、第１の復号表示時刻情報に基づいて決定されるピクチャの復号時刻及び表示時刻よりも早い。

本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。

本明細書に開示された動画像多重化装置及び多重化動画像復号装置は、動画像データ及びメディア信号のコーデック遅延を短縮できる。

従来技術のMPEG-2 SystemsのTS形式による動画像多重化装置の概略構成図である。従来技術のMPEG-2 SystemsのTS形式による多重化動画像復号装置の概略構成図である。従来技術のMPEG-2 SystemsのTS形式における、動画像多重化装置及び多重化動画像復号装置での1ピクチャの処理のタイミングを示す図である。超低遅延動画像符号化を行うための、動画像符号化部における符号化制御例を示す図である。図４の符号化制御を行った場合の、ピクチャ内の発生ビット数の累積経過を示す図である。第１の実施形態による動画像多重化装置の概略構成図である。第１の実施形態によるTSパケットヘッダの概略構成図である。第１の実施形態によるPAT及びPMTの概略構成図である。第１の実施形態によるDescriptorの概略構成図である。第１の実施形態によるPESパケットの概略構成図である。第１の実施形態による、パケット多重化部１７の処理フローである。第１の実施形態による、制御部２３の処理フローである。第１の実施形態による多重化動画像復号装置の概略構成図である。第１の実施形態による、制御部１５の処理フローである。第１の実施形態によるコーデック遅延の減少度合いを示す図である。第２の実施形態による、PAT及びPMTの概略構成図である。第３の実施形態による、PESパケットの概略構成図である。第４の実施形態による、PESパケットの概略構成図である。第５の実施形態による、コーデック遅延の減少度合いを示す図である。第６の実施形態による動画像PESパケットの構造を示す図である。コンピュータ上で実行する場合の、動画像多重化装置もしくは多重化動画像復号装置の形態である。

以下、図を参照しつつ、第１の実施形態による、動画像多重化装置について説明する。この動画像多重化装置は、動画像データと、他のメディア信号とを、多重化動画像復号装置にて超低遅延で復号及び表示できるように、符号化及び多重化し、その多重化されたデータストリームを出力する。

動画像符号化の観点で、コーデック遅延を削減するには、1ピクチャの符号化データの伝送完了を待たずに、動画像復号部が、一部の符号化データが到着した時に、到着したデータの復号を開始する、というアプローチが挙げられる。実際の動画像復号部では、ピクチャ全体の符号化データの到着以降に復号を開始するよりも、ピクチャ全体の復号完了時刻、即ちピクチャの表示可能時刻が早くなるため、このアプローチにより、コーデック遅延を削減することが可能である。

しかし、ピクチャを分割した複数のブロックのそれぞれに相当する符号化データがいつ動画像復号部に到着するかは、既存の動画像符号化規格、例えば非特許文献２に記載されたAVC規格では規定されていない。最悪の場合、ピクチャ内の先頭ブロック以外のブロックの符号化データのビット数が0となり、ピクチャ内の先頭ブロックの符号化データの最終ビットの到着時刻が、ピクチャ全体の到着時刻と等しくなる。AVC規格に従う場合、最悪の場合に備え、動画像復号部は、結局、ピクチャ全体の復号時刻を待ってから復号処理を行わざるを得ない。

上記の問題を解決するため、現在ITU-T及びMPEGによって検討されている最新の動画像符号化規格である、非特許文献４に開示されたHigh efficiency video coding(HEVC)では、AVC規格のAccess Unit(AU)に加え、Decoding Unit(DU)という概念が導入されている。なお、動画像に関しては、AUは、１枚のピクチャに相当し、DUは、少なくとも一つのスライスNetwork Abstraction Layer(NAL)を含む、複数のNALを有する。すなわち、DUは、複数ブロックを有するサブピクチャに相当する。そしてHEVCでは、AUの復号時刻と共に、DU毎の復号時刻が新たに定義されている。

HEVC規格に準拠する動画像符号化部は、ピクチャ内のDUの個数、各DU内のブロック数、及び各DUのビット量を適切に制御し、かつ、DUの復号時刻を符号化データ内に記述することで、動画像復号部の遅延を削減できる。
HEVC規格では、動画像符号化部は、ピクチャ内のDUの個数、各DU内のブロック数、及びDUの復号時刻（相対値）を符号化データ内に記述する。これらのパラメータは、Picture timing Supplemental Enhancement Information(SEI)の、それぞれ、NumDecodingUnitsMinus1フィールド、NumNalusInDuMinus1フィールド、DuCpbRemovalDelayMinus1フィールドに記述される。

図４は、ピクチャのDU分割と、各DUに割り当てるビット量の一例を示す図である。この例では、一つのピクチャ４０１の水平方向の各ブロックラインが、それぞれDUとなる。ピクチャ４０１のライン数をph、ピクチャ４０１の横方向画素数をpwとし、ブロックの高さ及び幅をそれぞれbh、bwとすると、１ピクチャ当たりのDU数Mは(ph/bh)となる。また、各DU内のブロック数は(pw/bw)となる。

ブロック４１０−１〜４１０−Ｍは、それぞれ、１番目のDU〜M番目のDUの符号化ビット量を表す。動画像符号化部は、例えば、DUの符号化ビット量が均一となるように各DUを符号化する。ピクチャ当たりの符号化ビット量の平均値をbpとすると、DUの符号化ビット量は(bp/M)となる。

各DUの符号化ビット量を均一化するために、例えば、全ブロックをイントラ符号化する方法が採用される。あるいは、各ピクチャに垂直方向のイントラ符号化ブロックライン４０２を挿入し、所定の周期の複数のピクチャごとにイントラ符号化ブロックラインを水平方向に巡回させる方法が採用されてもよい。何れの方法についても、ブロックによって符号化ビット量は異なるため、動画像符号化部は、適切にビット量を制御する必要があるものの、ブロックライン当たりのイントラ符号化ブロック数を均一化できる。そのため、一般的なインター符号化に比べて、各DUの符号化ビット量を均一化することは容易である。

図５は、動画像符号化部が図４に示されるようにブロックラインごとにピクチャを符号化した場合の、発生する符号化ビット量の累積の様子を示す図である。横軸は時間を表し、縦軸は、ビット量を表す。ピクチャの符号化開始時刻を0とし、動画像符号化部は、1ピクチャ時間sの間に、各DU内のブロックを符号化する。例えば、動画像符号化部は、先頭DUの符号化を時刻0に開始し、時刻1s/Mに先頭DUの符号化を完了する。動画像符号化部は、最終DU（M番目のDU）の符号化を、時刻sで完了する。

グラフ５０１は、発生ビット量の累積値の時間変化を表わす。先頭DUの符号化完了時刻に、(1b/M)のビット量が発生する。bはピクチャ全体の発生情報量（目標値）である。その後、各DUの符号化完了時刻ごとに、発生ビット量は(1b/M)だけ累積していき、時刻sにおいて、発生ビット量の累積値は、ピクチャの発生情報量bとなる。

グラフ５０２は、時刻(1s/M)から、一定のレート(b/s)で符号化データが伝送される場合の、伝送ビット量の累積値を表す。グラフ５０１とグラフ５０２とを比較すると、グラフ５０１は、常にグラフ５０２よりも上にある。このことは、即ち、動画像符号化部の符号化ピクチャバッファのアンダーフローが生じないことを意味する。この点について、逆に、ピクチャの先頭ビットが到着してから時刻(1s/M)後に動画像復号部がピクチャ内の先頭DUの復号を開始し、その後に１ピクチャ時間かけて全てのDUを復号したとする。この場合、動画像復号部の符号化ピクチャバッファのアンダーフローは生じない。非特許文献２に記載のAVC等の規格では、ピクチャ内の全ブロックの復号時刻はsであったので、DU単位での復号開始時刻は、AVC等の規格による復号開始時刻よりも((M-1)s/M)だけ早いことになる。

なお、動画像符号化部及び動画像復号部は、必ずしも１ピクチャの符号化処理または復号処理を、１ピクチャ時間を要して行う必要はなく、１ピクチャ時間よりも短い時間で処理してもよい。ただしこの場合、一つのDUの処理が完了してから、次のDUの処理開始時間の間は、何も行わない時間が生じる。各DUの復号開始時刻、及びそれに対応した符号化開始時刻は、上記の時刻となる必要がある。
HEVC規格では、各DUの復号開始時刻(1s/M)、(2s/M)、・・・を符号化データ内に含め、動画像復号部に対して、各DUの復号開始時刻を明示的に通知する。

なお、図５の縦軸を発生したビット量ではなく、符号化済のピクチャ内ライン数とすれば、動画像符号化部へのピクチャ入力タイミングに対して、ピクチャ符号化開始タイミングがsだけずれる必要はないことが分かる。この例では、ピクチャ入力タイミングに対して符号化開始タイミングが(1s/M)だけずれるだけで、各DUの処理開始時刻までに、必要なラインが動画像符号化部に入力されていることが保証される。なお、動画像復号部においては、上記の議論は一般には成り立たない。この理由は、ブロックライン境界に適用するループ内フィルタによる。ブロックの表示データにループ内フィルタを適用する時刻は、そのブロックの下側に隣接するブロックのループ内フィルタ処理前までの処理が完了した時刻より後になる。

動画像符号化部は、上記のように、非特許文献４に記載のHEVC規格で規定されているように、ピクチャ内のDU（サブピクチャ）単位での復号時刻（非特許文献１に記載のMPEG-2 Systems規格におけるDTSに相当）を明示的に記述する。さらに、動画像符号化部は、DU内のブロック数及びビット量を均一化することで、DU数に比例してコーデック遅延を削減できる。
しかしながら、非特許文献１に記載のMPEG-2 Systems規格では、DU単位の復号時刻が規定されていないため、動画像以外のメディアデータも符号化対象とするシステムレベルでは超低遅延化を達成できない。
本明細書に開示の実施形態は、以下に述べる方式でMPEG-2 Systems規格を拡張し、システムレベルでのコーデック遅延の軽減を達成する。

（１）動画像PESパケットヘッダの拡張
非特許文献１に記載のMPEG-2 Systems規格では、PESパケットヘッダには、内包するAU（のうちの先頭AU）のPTSが記述される。
本方式ではまず、動画像符号化部は、上記のAUのPTSに加え、DUのDTSを表す情報を記述する。多重化データの中で各DUの符号化データが、DUのDTSよりも早い時刻に動画像復号部に到着するように多重化されていることが保証される。

さらに、動画像符号化部は、DUのDTSで示された時刻に、DUの復号を開始する場合の第２のPTSを表す情報を記述する。この第２のPTSは、AUのPTSよりも早い時刻になる。多重化動画像復号装置は、動画像復号部がDUの復号に要する時間がDU時間と同じか、若しくは短い場合に、このPTSからピクチャの表示を開始することで、復号した画素の欠損（復号が完了する前に表示タイミングが来ること）無しにピクチャを表示できる。
なお、DUのDTSを表す情報及び第２のPTSを表す情報が、第２の復号表示情報に相当する。

なお、本方式において、PESパケットヘッダにAUのPTSを残す理由は、一般的な多重化動画像復号装置が必ずしも、超低遅延動作に対応した動画像復号部を有していないためである。例えば、動画像復号部が複数の復号コアを有し、各復号コアが並列に復号処理を行う場合である。復号コアの数がN個とすると、各復号コアのブロック当たりの処理速度が、1ピクチャ時間でピクチャの全ブロックの処理を完了する復号装置の処理速度の1/Nになっても、各ピクチャを破たん無く復号できる。しかし、その代わり復号完了までの遅延が増加し、上記の第２のPTSまでに必要な画素の復号が完了しない。このような場合を想定し、HEVC規格では、動画像復号部が、復号開始のタイミングをAUベースにするか、DUベースにするかを選択可能にしている。

（２）オーディオPESパケットヘッダの拡張
符号化された動画像のPESパケットと同様に、多重化動画像符号化装置の音声符号化部は、PESパケットヘッダに、AU（オーディオの場合はオーディオフレーム）の第１の復号表示情報であるPTSに加え、第２のPTSを表す情報を追加する。この第２のPTSは、多重化動画像復号装置が、動画像のPESパケット内のDUのDTSに基づく復号動作を行う場合に、該当するAUの復号時刻及び表示時刻を決定するために用いられる。多重化データ内にて、各オーディオフレームも、対応する第２のPTSまでに多重化動画像復号装置に到着するように、多重化されていることが保証される。

なお、動画像データに含まれるピクチャは、フレームまたはフィールドの何れであってもよい。フレームは、動画像データ中の一つの静止画像であり、一方、フィールドは、フレームから奇数行のデータあるいは偶数行のデータのみを取り出すことにより得られる静止画像である。
また、動画像データに含まれるピクチャは、カラー動画像であってもよく、あるいは、モノクロ動画像であってもよい。

また、動画像データ以外のメディアデータは、オーディオデータ、または、字幕のような、表示時間情報を持ったメディア情報であってもよい。
オーディオデータは、決められたサンプリングピッチ及びフレーム長にて符号化され、フレームごとに表示時刻が割り当てられる。オーディオデータに対して適用される符号化方法は非特許文献３に記載のMPEG-2 AACのような圧縮符号化であってもよいし、非特許文献５に記載のG.711のようなPCM符号化であってもよい。

なお、本明細書において、「超低遅延符号化」、「超低遅延復号」及び「超低遅延多重化」とは、ピクチャのコーデック遅延が１ピクチャ時間未満となる符号化、復号及び符号化データの多重化をいう。

図６は、第１の実施形態による、動画像多重化装置の概略構成図である。
動画像多重化装置１０は、動画像符号化部１１と、動画像パケット生成部１２と、オーディオ符号化部１３と、オーディオパケット生成部１４と、制御部１５と、システムパケット生成部１６と、パケット多重化部１７と、超低遅延多重化決定部１８とを有する。
動画像多重化装置１０が有するこれらの各部は、それぞれ、別個の回路として動画像多重化装置１０に実装される。あるいは、動画像多重化装置１０が有するこれらの各部は、その各部の機能を実現する回路が集積された一つの集積回路として動画像多重化装置１０に実装されてもよい。あるいはまた、動画像多重化装置１０が有するこれらの各部は、動画像多重化装置１０が有するプロセッサ上で実行されるコンピュータプログラムにより実現される機能モジュールであってもよい。

また、動画像符号化部１１及びオーディオ符号化部１３は動画像多重化装置１０において省略されてもよい。この場合、動画像データ及びオーディオデータは、それぞれ、他の機器で符号化された後、動画像多重化装置１０に入力される。各ピクチャのV-Sync時刻、及び各オーディオフレームの先頭サンプルの取り込み時刻は、動画像データ及びオーディオデータを符号化する他の機器から与えられる。

動画像符号化部１１は、制御部１５から指示される符号化方法に従って、入力された動画像データを符号化する。指示される符号化方式は、非特許文献４に記載のHEVC規格や、他の規格、例えば非特許文献２に記載のAVC規格とすることができる。指示された符号化方法がHEVC規格の場合、動画像符号化部１１は、制御部１５から指示される超低遅延多重化制御信号により、超低遅延符号化を行うか否かを判定する。

動画像符号化部１１は、動画像データを超低遅延符号化する場合、インター符号化において前方向予測符号化のみを使用するといった、ピクチャリオーダリングを行わない符号化方式を使用する。さらに、動画像符号化部１１は、各ピクチャが均一なビット量となるようにビットレートを制御することにより、動画像データ内の各ピクチャを符号化する。また、動画像符号化部１１は、各ピクチャを複数のDUに分割し、各DUに含まれるブロック数及びビット量が均一になるように、各ピクチャを符号化する。そして動画像符号化部１１は、各DUの復号時刻、及び超低遅延動作時の表示時刻を制御部１５に通知する。

一方、動画像符号化部１１は、動画像データを超低遅延符号化しない場合、インター符号化において双方向予測符号化といったピクチャリオーダリングを行う方式を用いてもよい。また、各ピクチャの符号化ビット量は均一にならなくてもよい。さらに、動画像符号化部１１は、ピクチャを複数のDUに分割しなくてもよく、ピクチャを複数のDUに分割した場合でも、各DUに含まれるブロック数または符号化ビット量を均一にしなくてもよい。
動画像符号化部１１は、符号化動画像データを動画像パケット生成部１２に送る。

動画像パケット生成部１２は、動画像符号化部１１から送られた符号化動画像データを、ピクチャごとにPESパケット化する。さらに、動画像パケット生成部１２は、PESパケット化された符号化動画像データをTSパケット化した後、そのTSパケット多重化部１７に送る。その際、動画像パケット生成部１２は、AVC規格といった従来の符号化規格に従って、動画像復号部がピクチャを復号する際の復号時刻及び表示時刻に関する情報と、ピクチャを超低遅延復号する際の復号時刻及び表示時刻に関する情報とを、TSパケットに含める。
PESパケット化の動作は、以降で説明する。

オーディオ符号化部１３は、制御部１５から指示される符号化方法に従って、入力されたオーディオデータを符号化する。指示される符号化方式は、非特許文献３に記載のMPEG-2 AAC規格、非特許文献５に記載のG.711規格、もしくは他のオーディオ符号化規格に準拠する方式とすることができる。制御部１５から動画像符号化部１１に指示される超低遅延多重化制御信号が、超低遅延符号化を示す場合、制御部１５は、オーディオ符号化部１３に対しても、遅延が少ない符号化方式を指示する。特に、フレーム当たりの入力から再生までの遅延を約10ミリ秒以下にする場合には、制御部１５は、例えば、G.711規格に準拠する方式をオーディオ符号化部１３に指示する。
オーディオ符号化部１３は、符号化オーディオデータをオーディオパケット生成部１４に送る。

オーディオパケット生成部１４は、オーディオ符号化部１３から送られた符号化オーディオを、オーディオフレームごとにPESパケット化する。さらに、オーディオパケット生成部１４は、PESパケット化された符号化オーディオデータをTSパケット化する。
その際、オーディオパケット生成部１４は、AVC規格といった従来の符号化規格に従ってオーディオ復号部がオーディオフレームを復号する際の復号時刻及び表示時刻に関する情報と、オーディオフレームを超低遅延復号する際の復号時刻及び表示時刻に関する情報とを、TSパケットに含める。
その後、オーディオパケット生成部１４は、そのTSパケット多重化部１７に送る。

超低遅延多重化決定部１８は、図示しない外部からの超低遅延多重化制御信号、及び動画像符号化部１１が超低遅延符号化に対応するか否かの情報に基づき、超低遅延多重化するか否かを決定し、その結果を制御部１５に通知する。超低遅延多重化制御信号が「超低遅延多重化を行う」ことを示しており、かつ動画像符号化部１１が超低遅延符号化に対応する場合に、超低遅延多重化決定部１８は、超低遅延多重化を行うと判定する。それ以外の場合には、超低遅延多重化決定部１８は、超低遅延多重化を行わないと判定する。

制御部１５は、同期制御の基準クロックである、27 MHz精度のSTCを有する。
制御部１５は、超低遅延多重化決定部１８から通知される超低遅延符号化制御信号に応じて、動画像符号化部１１及びオーディオ符号化部１３に対し、それぞれ動画像符号化方法及びオーディオ符号化方法を通知する。
また制御部１５は、動画像符号化部１１、動画像パケット生成部１２、オーディオ符号化部１３、オーディオパケット生成部１４及びシステムパケット部１６に超低遅延符号化制御信号を通知する。ここで、制御部１５は、動画像符号化部１１に対して、「超低遅延符号化を行う」ことを指示する超低遅延符号化制御信号を通知した場合、ピクチャの各DUの復号時刻、及び超低遅延符号化時の表示時刻(第２の表示時刻）を算出し、動画像パケット生成部１２に通知する。なお、各DUの復号時刻及び表示時刻については後述する。
また制御部１５は、入力された動画像データの垂直同期信号V-SyncのタイミングでのSTC値を、各ピクチャの表示時刻(第１の表示時刻）として、動画像パケット生成部１２に、超低遅延符号化制御信号と併せて通知する。この場合、制御部１５はさらに、ピクチャの第１の表示時刻と第２の表示時刻と、入力オーディオデータのオーディオフレーム先頭サンプルのタイミングでのSTC値を、オーディオパケット生成部１４に、超低遅延符号化制御信号と併せて通知する。

システムパケット生成部１６は、システム情報であるProgram Specific Information(PSI)を格納するシステムTSパケットを生成する。具体的なシステムTSパケットの内容は、以降で説明する。

パケット多重化部１７は、動画像パケット生成部１２が出力する動画像TSパケット、オーディオパケット生成部１４が出力するオーディオTSパケット、及びシステムパケット生成部１６が出力するシステムTSパケットを多重化して、TSストリームを生成する。そしてパケット多重化部１７は、TSストリームを出力する。パケット多重化部１７は、MPEG-2 Systems規格のSTD (System Target Decoder)規定に準拠するように各パケットを多重化する。さらに、制御部１５から「超低遅延符号化を行う」ことを指示する超低遅延符号化制御信号が通知された場合、パケット多重化部１７は、多重化動画像復号装置のSTC値が、そのペイロードに含まれるピクチャのDTSよりも時刻的に前に到達するように、動画像TSパケットを多重化する。なお、ペイロードに含まれるピクチャのDTSは、例えば、動画像PESパケットヘッダに記述される。

さらに、制御部１５から「超低遅延符号化を行う」ことを指示する超低遅延符号化制御信号が通知された場合、パケット多重化部１７は、多重化動画像復号装置のSTC値が、そのペイロードに含まれるオーディオフレームの第２のPTSよりも時刻的に前に到達するように、オーディオTSパケットを多重化する。なお、ペイロードに含まれるオーディオフレームの第２のPTSは、例えば、オーディオPESパケットヘッダに記述される。

パケット多重化部１７が、このように多重化することで、動画像データの復号単位がサブピクチャ(DU)である場合、各ピクチャについて、ピクチャ内の先頭のサブピクチャに相当する符号化データ及びオーディオフレームの符号化データが、超低遅延復号時のピクチャの復号時刻と同じか、もしくはより早く、多重化動画像復号装置に到達できる。

以下、第１の実施形態による、システムTSパケット、動画像PESパケット、及びオーディオPESパケットのデータ構造について説明する。

まず図７を用いて、一般的なTSパケットのデータ構造を説明する。
TSストリーム７００は、連続する複数のTSパケット７０１を含む。TSパケット７０１のそれぞれは固定長を持つ。本実施例では、TSパケット７０１の長さは188Byteである。
TSパケット７０１は、先頭から順に、TSヘッダ７０２と、AdaptationField７０３と、ペイロード７０４とを含む。

TSヘッダ７０２は、AdaptationFieldControlフィールド、PIDフィールドといった複数のフィールドを有する。各フィールドの意味と値は、非特許文献１に記載のMPEG-2 Systems規格に従う。
AdaptationField７０３は、TSヘッダ７０２内のAdaptationFieldControlフィールドが'10'もしくは'11'の場合に出現する。AdaptationField７０３も、MPEG-2 Systems規格に従う複数のフィールドを有する。
ペイロード７０４は、TSヘッダ７０２のAdaptationFieldControlフィールドが'01'もしくは'11'の場合に出現する。TSヘッダ７０２のPIDフィールドの値が、動画像PESパケットであることを表す場合、TSパケット７０１は動画像TSパケットであり、ペイロード７０４には動画像PESパケットが細分化されたデータが格納される。一方、TSヘッダ７０２のPIDフィールドの値が、オーディオPESパケットであることを表す場合、TSパケット７０１はオーディオTSパケットであり、ペイロード７０４にはオーディオPESパケットが細分化されたデータが格納される。
また、TSヘッダ７０２のPIDフィールドの値が'0x0'である場合、もしくは後述するProgramMapIDの値である場合、TSパケット７０１はシステムTSパケットである。そしてペイロード７０４には、それぞれ、Program Association Table(PAT)もしくはProgram Map Table(PMT)が格納される。

次に、図８を用いて、第１の実施形態によるシステムTSパケットのデータ構造を説明する。
第１の実施形態によるシステムTSパケット８０１は、Program Association Table(PAT)をペイロードに含むTSパケットである。システムTSパケット８０１も、図７に示されるTSパケットと同様に、先頭から順に、TSヘッダ８０２と、AdaptationField８０３と、ペイロード８０４とを含む。この場合、TSパケットヘッダ８０２のPIDフィールドには'0'が設定される。
ペイロード８０４には、MPEG-2 Systems規格で規定される、PATの各フィールドが含まれる。本実施形態では、TableIDフィールドの値は0に設定される。また、ProgramMapIDは、個々のプログラムの構成が記述されたProgram Map Table(PMT)を含むシステムTSパケットのPIDを記述する。この例ではProgramMapIDには、'A'が記述される。

一方、TSパケット８１１は、PMTをペイロードに含むTSパケットである。TSパケット８１１も、先頭から順に、TSヘッダ８１２と、AdaptationField８１３と、ペイロード８１４とを含む。この場合、TSパケットヘッダ８１２のPIDフィールドには'A'が設定される。
ペイロード８１４には、MPEG-2 Systems規格で規定される、PMTの各フィールドが含まれる。この例では、TableIDフィールドは'2'に設定される。
StreamTypeは、各エレメンタリーストリームの種別が記述される。例えば、非特許文献２に記載のAVC規格、非特許文献３に記載のMPEG-2 AAC規格、及び非特許文献４に記載のHEVC規格のエレメンタリーストリームでは、StreamTypeには、それぞれ、'0x1B'、'0x0F'、'0x24'が設定される。
ElementaryPIDには、各エレメンタリーストリームが格納されるTSパケットのPIDが記述される。
ESInfoLengthに後続するDescritorは、エレメンタリーストリームの種別毎に定義される複数のフィールドを有する。Descritorの数は、ESInfoLengthに依存する。詳細は以降で説明する。

図９を用いて、エレメンタリーストリームがHEVC規格に準拠する場合における、第１の実施形態のDescriptorフィールドの構造を説明する。この例では、２種類のDescriptorが規定される。
Descriptor９０１は、HEVCビデオデスクリプタである。フラグSubPicLowDelayFlagより上の各フィールドは、非特許文献６に記載されたHEVC規格の同一名デスクリプタの各フィールドに対応する。
本実施形態では、これらの各フィールドに、フラグSubPicLowDelayFlagが追加される。フラグSubPicLowDelayFlagは、超低遅延符号化を行うか否かを表すフラグである。本実施形態では、フラグSubPicLowDelayFlagが'0'である場合に、動画像多重化装置１０は、動画像データを超低遅延符号化する。フラグSubPicLowDelayFlagが'0'である場合、動画像PESに第１のPTSと第２のPTS情報（詳細は後述）とが含まれ、それ以外のエレメンタリーストリームのPESにも第１のPTSと第２のPTS情報とが含まれる。

一方、フラグSubPicLowDelayFlagが'1'である場合には、動画像多重化装置１０は、動画像データを超低遅延符号化しない。この場合、動画像PESに第１のPTSと第２のPTS情報とが含まれてもよいが、それ以外のエレメンタリーストリームのPESに第２のPTS情報は含まれない。即ち、フラグSubPicLowDelayFlagが'1'である場合には、動画像以外のエレメンタリーストリームは、超低遅延符号化ができるように多重化されていないことを意味する。

なお、フラグSubPicLowDelayFlagが'0'であることが、超低遅延符号化が行われていることを示す理由は、既存の規格との互換性を保つためである。このように規定することにより、フラグSubPicLowDelayFlagのフィールドとして、既存規格では値が'1'と規定されるリザーブビットの一つを利用できるので、符号化効率の低下が抑制される。

Descriptor９０２は、HEVC timing and HRDデスクリプタである。SubPicParamPresentFlagより上のフィールドは、非特許文献６に記載されたHEVC規格の同一名デスクリプタの各フィールドに対応する。
本実施形態では、これらの各フィールドに、フラグSubPicParamPresentFlagが追加される。SubPicParamPresentFlagは、超低遅延符号化を行うか否かを表すフラグである。本実施形態では、フラグSubPicParamPresentFlagは、超低遅延符号化を行う場合、HEVCエレメンタリーストリームのVideo Usability Information(VUI)内のSubPicParamPresentFlagを反転させた値に設定される。すなわち、フラグSubPicLowDelayFlagが'1'である場合は、フラグSubPicParamPresentFlagは必ず'0'である。

次に図１０を用いて、動画像PESパケット及びオーディオPESパケットを含む、エレメンタリーストリームPESパケットの構造について説明する。
リスト１０００は、PESパケットの内部フィールドのリストである。第１の実施形態によるPESパケットは、MPEG-2 Systems規格のPESパケットに含まれる各フィールドの他に、第２の復号表示情報であるSecondPTSDelta及びAdditionalDTSDeltaを含む。

本実施形態では、超低遅延符号化が行われる場合、すなわち、TSパケットのDescriptor内のSubPicLowDelayFlagが'0'である場合、ピクチャのリオーダリングが行われない。そのため、PTSDTSFlagは、必ず、DTSが規定されないことを表す、2bitで'10'の値になる。
PTSには、第１のPTS値、即ち超低遅延符号化を行わない場合のPTS値が格納される。
また、DTSは、PTSDTSFlagが'10'の場合には出現しない。

PESの拡張が行われることを表すフラグPESExtensionFlagは、PESPrivateDataFlagからStuffByteより前のフィールドが出現する場合には'1'となる。本実施形態において、TSパケットのHEVC Descriptor内のSubPicLowDelayFlagが'0'である場合、すなわち、超低遅延符号化が行われる場合、PESExtensionFlagは、必ず'1'とする。
また、SubPicLowDelayFlagが'0'である場合、すなわち、超低遅延符号化が行われる場合、StreamIdExtensionは、必ず'1'とする。同様に、SubPicLowDelayFlagが'0'である場合、すなわち、超低遅延符号化が行われる場合、TREFExtensionFlagは、必ず'0'とする。

AlternativePTSDTSFlagは、超低遅延符号化が行われるか否かを表すフラグである。HEVC DescriptorのSubPicLowDelayFlagが'0'である場合、すなわち、超低遅延符号化が行われる場合、AlternativePTSDTSFlagは、必ず'0'とする。AlternativePTSDTSFlagが'0'であることは、PESパケットに、第２の復号表示情報であるSecondPTSDelta及びAdditionalDTSDeltaが含まれることを表す。

パラメータSecondPTSDeltaは、多重化動画像復号装置が超低遅延復号を行う場合に用いる、PTSを算出するためのパラメータである。SecondPTSDeltaは、SubPicLowDelayFlagが'0'である場合に出現する。導出方法及び利用方法は後述する。
パラメータAdditionalDTSDeltaは、多重化動画像復号装置が超低遅延復号を行う場合に用いる、DTSを算出するためのパラメータである。AdditionalDTSDeltaは、SubPicLowDelayFlagが'0'である場合に出現する。導出方法及び利用方法は後述する。
PESPacketDataByteは、一つのAUデータが格納される。

第１の実施形態による、動画像データを超低遅延符号化する際の、動画像PESパケット、及びオーディオPESパケットに記述する復号・表示時刻情報の生成方法を説明する。なお、動画像データを超低遅延符号化しない場合における、動画像PESパケット、及びオーディオPESパケットに記述する復号・表示時刻情報の生成方法は、例えば、HEVC規格に準拠する。

まず制御部１５は、処理ピクチャのV-Syncタイミングに相当する内部STC値を、動画像PESの第１のPTSとする。STCの精度は27MHzであり、PTSの精度は90KHzであるので、制御部１５は、STC値を300で割った値を、第１のPTS値とする。

次に、制御部１５は、ピクチャ内の先頭DUの復号開始時刻オフセットDeltaDTS、及びピクチャの表示開始時刻オフセットDeltaPTSを算出する。これらの値の単位は、例えば27MHzである。動画像符号化部１１が、図４に示されるように、ピクチャ内の各DUの構造を決定し、かつ、DUごとに割り当てられる符号化ビット量を決定した場合、制御部１５は、DeltaDTS及びDeltaPTSを、それぞれ、(M-1)s/M及び(M-3)s/Mとする。Mは、１ピクチャに含まれるDUの個数であり、sは、１ピクチャ時間である。なお、DeltaDTSが(M-2)s/Mではなく、(M-3)s/Mである理由は、HEVC規格のループ内フィルタがDU間の境界を跨いで適用されることによる。そのため、復号対象となるブロックラインを表示するためには、そのブロックラインの下側に隣接するブロックラインの、ループ内フィルタより前の処理が完了している必要がある。

なおDeltaDTS及びDeltaDTSの値は、動画像符号化部１１が最初のピクチャの符号化を完了する前に決定され、以降のピクチャにてDeltaDTS及びDeltaDTSの値は不変とする。逆に言うと、動画像符号化部１１は、各ピクチャのDU構造を不変とし、かつ、全てのピクチャにおいて、DUの符号化ビット量の累積値が、伝送されたビット量の累積値以上となるように各DUの符号化ビット量を制御する。なお、動画像符号化部１１は、ピクチャごと、及びDUごとの符号化ビット量の変動を加味し、DeltaDTS及びDeltaPTSを同じ値だけ小さくしてもよい。DeltaDTSを小さくするということは、図５に示されたグラフ５０２を右方向に水平移動することに対応する。

次に、制御部１５は、処理オーディオフレームの先頭サンプルの入力タイミングに相当する内部STC値を、オーディオPESの第１のPTSとする。
そして制御部１５は、動画像PESパケットのSecondPTSDelta及びAdditionalDTSDeltaを、それぞれ、DeltaPTS及びDeltaDTSとする。また、制御部１５は、オーディオPESパケットのSecondPTSDeltaをDeltaPTSとし、AdditionalDTSDeltaを、１オーディオフレーム時間とする。

第１の実施形態による、動画像多重化装置の処理フローを、図１１及び図１２を用いて説明する。
図１１の処理フローは、制御部１５の処理フローである。
制御部１５は、動画像多重化開始に先立ち、STC値を所定の値（例えば0）にリセットし、STCのカウントアップを開始する（ステップＳ１０１）。また制御部１５は、パケット多重化部１７に対し、多重化開始を指示する。

次に、制御部１５は、動作モードを決定する（ステップＳ１０２）。制御部１５は、外部の機器からの超低遅延符号化制御信号に従って、動画像データ及びオーディオデータを超低遅延符号化動作するか否かを決定する。そして制御部１５は、動画像符号化部１１、動画像パケット生成部１２、オーディオ符号化部１３、オーディオパケット生成部１４、及びシステムパケット生成部１６に対し、超低遅延符号化動作するか否かを通知して、各部の動作モードを決定させる。さらに、制御部１５は、システムパケット生成部１６に対して、システムTSパケットを所定の間隔で生成開始するように指示する。

次に、制御部１５は、動画像データのV-Syncが入力されたか、もしくはオーディオデータの１オーディオフレームの先頭サンプルが入力されたかを確認する（ステップＳ１０３）。V-Syncまたは先頭サンプルが入力された場合（ステップＳ１０３−Ｙｅｓ）、制御部１５は、符号化単位の先頭が入力された瞬間のSTC値を第１のPTSとする（ステップＳ１０４）。具体的には、制御部１５は、入力された動画像データのV-Syncが入力された場合、入力されたタイミングのSTC値を、このV-Syncに対応するピクチャの第１のPTSとする。また制御部１５は、ピクチャを符号化開始待ちの状態に設定し、この時刻から所定の時間（図４の1s/M）だけ経過した時刻を、このピクチャの符号化開始時刻とする。
一方、オーディオデータの１オーディオフレームの先頭サンプルが入力された場合、制御部１５は、入力されたタイミングのSTC値を、このオーディオフレームの第１のPTSとする。また制御部１５は、オーディオフレームを符号化開始待ちの状態に設定し、この時刻から所定の時間（１オーディオフレーム時間）だけ経過した時刻を、このオーディオフレームの符号化開始時刻とする。
制御部１５は、これらの入力確認を並列的に行う。即ち、V-Sync入力と1オーディオフレームの先頭サンプル入力とが同時に発生した場合、制御部１５は、動画像データに対応するPTS値とオーディオデータに対するPTS値に同じ値を設定する。

ステップＳ１０４の後、あるいは、ステップＳ１０３にて、V-Sync及び先頭サンプルの何れも入力されていない場合（ステップＳ１０３−Ｎｏ）、制御部１５は、符号化開始待ちのピクチャもしくはオーディオフレームがあり、かつそれらの符号化開始時刻と、STC値に一致、もしくは経過したかを確認する（ステップＳ１０５）。ステップＳ１０５の条件が満たされる場合（ステップＳ１０５−Ｙｅｓ）、制御部１５は、ピクチャもしくはオーディオフレームの符号化開始指示を、それぞれ、動画像符号化部１１もしくはオーディオ符号化部１３に通知する（ステップＳ１０６）。また制御部１５は、ピクチャ及びオーディオフレームを超低遅延符号化する場合、動画像符号化部１１から通知されたDUごとの符号化ビット量に基づいて、超低遅延復号時のピクチャ及びオーディオフレームの復号・表示時刻情報を求める（ステップＳ１０７）。さらに、制御部１５は、動画像パケット生成部１２もしくはオーディオパケット生成部１４に対し、それぞれ、ピクチャの復号・表示時刻情報、オーディオサンプルの復号・表示時刻情報を通知する。ピクチャの復号・表示時刻情報における第１のPTS、もしくはオーディオサンプルの復号・表示時刻情報における第１のPTSは、それぞれ、ステップＳ１０４で取得したSTC値に基づいて決定される。ステップＳ１０７の後、制御部１５は、ステップＳ１０３以降の処理を実行する。

一方、ステップＳ１０５の条件が満たされない場合（ステップＳ１０５−Ｎｏ）、制御部１５は、動画像データ及びオーディオデータの符号化が完了したか否か判定する（ステップＳ１０８）。具体的には、制御部１５は、多重化処理を完了させる外部からの制御信号が入力されたか否か、及び、未符号のピクチャもしくはオーディオフレームが有るか否かを確認する。多重化処理を完了させる外部からの制御信号が入力された場合、または、未符号のピクチャ及びオーディオフレームがない場合、制御部１５は、符号化が完了したと判定する。そして制御部１５は、多重化処理を完了する。
一方、多重化処理を完了させる外部からの制御信号が入力されておらず、かつ、未符号のピクチャもしくはオーディオフレームが有る場合（ステップＳ１０８−Ｎｏ）、制御部１５は、ステップＳ１０３以降の処理を実行する。

図１２の処理フローは、パケット多重化部１７の処理フローである。
パケット多重化部１７は、出力待ち状態にあるTSパケットが存在するか否か確認する（ステップＳ２０１）。なお、出力待ち状態にあるTSパケットは、動画像パケット生成部１２で生成され、まだパケット多重化部１７から出力されていない動画像TSパケット、オーディオパケット生成部１４で生成され、まだパケット多重化部１７から出力されていないオーディオTSパケット、もしくはシステムパケット生成部１６で生成され、まだパケット多重化部１７から出力されていないシステムTSパケットである。

出力待ちTSパケットが存在する場合（ステップＳ２０１−Ｙｅｓ）、パケット多重化部１７は、動画像TSパケット、オーディオTSパケット、システムTSパケットの中で、次に出力するTSパケットを決定する（ステップＳ２０２）。もし一種類のTSパケットのみが出力可能な状態の場合、パケット多重化部１７は、その種類を選択する。もし複数種類のTSパケットが出力可能な状態の場合は、パケット多重化部１７は、各種類のTSパケットが偏り無く出力されるように一つの種類のTSパケットを選択する。パケット多重化部１７は、パケットの種類の選択方法として、例えば、前に動画像TSパケットをn1個連続出力したら、次にオーディオパケットをn2個連続出力し、さらにシステムTSパケットをn3個連続出力する、といった重み付け巡回方式を採用できる。重みn1, n2, n3は、動画像、オーディオ、システムの各TSパケットの送出頻度等に基づいて決定される。なお、この実施形態では、符号化動画像及び符号化オーディオのビットレートの合計値よりも、システム全体のビットレートが大きいことを前提にしている。

パケット多重化部１７は、次に出力するTSパケットがシステムTSパケットか否か判定する（ステップＳ２０３）。次に出力するTSパケットがシステムTSパケットである場合（ステップＳ２０３−Ｙｅｓ）、パケット多重化部１７は、TSパケットのAdaptation FieldにPCR値を設定する（ステップＳ２０４）。PCR値は、PCRを記述するフィールドの特定のByte位置のByteがシステム多重部１７から出力される瞬間のSTC値から所定の値を減算した値とする。所定の値は例えば、後述する図１５のOffsetSTCに相当する値とする。

ステップＳ２０４の後、またはステップＳ２０３にて次に出力するTSパケットがシステムTSパケットでない場合（ステップＳ２０３−Ｎｏ）、パケット多重化部１７は、選択した種類のTSパケットを一つ出力する（ステップＳ２０５）。その後、パケット多重化部１７は、ステップＳ２０１以降の処理を実行する。

一方、ステップＳ２０１にて、出力待ちパケットが存在しない場合（ステップＳ２０１−Ｎｏ）、パケット多重化部１７は、NULLパケットを出力する（ステップＳ２０６）。NULLパケットは、PIDが0x1FFFとなるTSパケットである。NULLパケットは、多重化ストリームのビットレートを一定に保つ等の目的で使用される。

ステップＳ２０６の後、パケット多重化部１７は、符号化された動画像データと符号化されたオーディオデータの多重化が完了したか否か判定する（ステップＳ２０７）。制御部１５から多重化動作の終了指示があり、かつ、出力待ちパケットが存在しない場合、パケット多重化部１７は、符号化された動画像データと符号化されたオーディオデータの多重化が完了したと判定する。多重化が完了していない場合（ステップＳ２０７−Ｎｏ）、パケット多重化部１７は、ステップＳ２０１以降の処理を実行する。一方、多重化が完了した場合（ステップＳ２０７−Ｙｅｓ）、パケット多重化部１７は多重化処理を終了する。

次に、動画像多重化装置１０により多重化された動画像データを復号する多重化動画像復号装置について説明する。
図１３は、第１の実施形態による、多重化動画像復号装置の概略構成図である。
多重化動画像復号装置２０は、パケット分離部２１と、システムパケット処理部２２と、制御部２３と、動画像パケット処理部２４と、動画像復号部２５と、オーディオパケット処理部２６と、オーディオ復号部２７と、超低遅延復号決定部２８とを有する。
多重化動画像復号装置２０が有するこれらの各部は、それぞれ、別個の回路として多重化動画像復号装置２０に実装される。あるいは、多重化動画像復号装置２０が有するこれらの各部は、その各部の機能を実現する回路が集積された一つの集積回路として多重化動画像復号装置２０に実装されてもよい。あるいはまた、多重化動画像復号装置２０が有するこれらの各部は、多重化動画像復号装置２０が有するプロセッサ上で実行されるコンピュータプログラムにより実現される機能モジュールであってもよい。

パケット分離部２１は、TSパケットのヘッダ情報に基づいて、システムパケット処理部２２と連携して、各TSパケットのペイロード部分に入っているデータの種別を特定する。そしてパケット分離部２１は、動画像パケット処理部２４、オーディオパケット処理部２６及びシステムパケット処理部２２に、それぞれ、動画像PESパケット、オーディオPESパケット及びPSI情報を送る。またパケット分離部２１は、TSヘッダに入っているPCR値を、そのByte位置情報と共に制御部２３に送る。

システムパケット処理部２２は、システムTSパケットのペイロード部分に入っているPSI情報を処理し、復号対象のプログラムに含まれる動画像及びオーディオのPIDを獲得し、それらのPIDをパケット分離部２１に通知する。
システムパケット処理部２２はまた、PMTのSubPicLowDelayFlagパラメータを超低遅延復号決定部２８に通知する。

動画像パケット処理部２４は、パケット分離部２１から受け取った、動画像TSパケットのペイロードに格納されていた動画像PESパケットのペイロードに含まれている符号化動画像データを動画像復号部２５に送る。また動画像パケット処理部２４は、PESパケットに含まれているピクチャの表示・復号時刻情報を制御部２３に送る。

オーディオパケット処理部２６は、パケット分離部２１から受け取った、動画像TSパケットのペイロードに格納されていたオーディオPESパケットのペイロードに含まれている符号化オーディオデータをオーディオ復号部２７に送る。またオーディオパケット処理部２６は、PESパケットに含まれているオーディオフレームの表示・復号時刻情報を制御部２３に送る。

制御部２３は、動画像多重化装置１０の制御部１５と同様に、27MHz精度の基準クロックSTCを有する。そして制御部２３は、パケット分離部２１から受け取ったPCR値に基づいて、STC値を復号し、かつ同期処理を実行する。また制御部２３は、動画像パケット処理部２４及びオーディオパケット処理部２６から受け取ったピクチャの表示・復号時刻情報、オーディオフレームの表示・復号時刻情報に基づいて、ピクチャ及びオーディオフレームのそれぞれの復号時刻及び表示時刻を決定する。そして制御部２３は、復号時刻及び表示時刻がSTCの値と同じになった時に、それぞれ、動画像復号部２０５及びオーディオ復号部２０７に対し復号指示及び表示指示を出す。

動画像復号部２５及びオーディオ復号部２７は、それぞれ、制御部２３からの復号指示により、ピクチャもしくはオーディオフレームを復号し、制御部２３からの表示指示に従い復号ピクチャもしくは復号オーディオフレームを出力する。

超低遅延復号決定部２８は、システムパケット処理部２２から通知されるフラグSubPicLowDelayFlagと、図示しない多重化動画像復号装置２０の外部の機器からの超低遅延復号動作指示、及び動画像復号部２５の超低遅延復号動作の可否情報に基づいて、超低遅延復号動作を行うか否かを決定する。フラグSubPicLowDelayFlagが'0'で、かつ超低遅延復号動作指示があり、かつ動画像復号部２５の超低遅延復号動作が可能である場合に、超低遅延復号決定部２８は、制御部２３に、超低遅延復号動作を実行することを指示する。それ以外の場合は、超低遅延復号決定部２８は、制御部２３に超低遅延復号動作を実行することを指示しない。

第１の実施形態による、多重化動画像復号装置２０における、各動画像ピクチャ、及び各オーディオフレームの復号時刻及び表示時刻の導出方法を説明する。以降の説明では、フラグSubPicLowDelayFlagが'0'である場合、即ち、ピクチャリオーダリングが無く、動画像PESパケットにDTSが出現しない場合について説明する。なお、フラグSubPicLowDelayFlagが'1'である場合には、各動画像ピクチャ及び各オーディオフレームの復号時刻及び表示時刻は、AVCの規格またはHEVCの規格に準拠した方式に従って導出される。

超低遅延復号決定部２８が、超低遅延復号を指示しない場合、各動画像ピクチャ及び各オーディオフレームの復号時刻及び表示時刻は以下のように導出される。
動画像復号部２５及びオーディオ復号部２７は、それぞれ、１ピクチャの復号に要する時間VideoDecDelayもしくは１オーディオフレームの復号に要する時間AudioDecDelayを求める。これらの時間情報は、動画像復号部２５及びオーディオ復号部２７が、それぞれ、符号化動画像及び符号化オーディオの先頭AUのパラメータ（例えばピクチャサイズ、オーディオフレーム長）に基づいて決定する。例えば、時間VideoDecDelay及び時間AudioDecDelayは、それぞれ、１ピクチャ時間、１オーディオフレーム時間になる。時間VideoDecDelay及びAudioDecDelayの精度は、例えば、27MHz、あるいは90KHzであってもよい。そして動画像復号部２５は、VideoDecDelayを制御部２３に通知し、オーディオ復号部２７は、AudioDecDelayを制御部２３に通知する。制御部２３は、VideoDecDelay及びAudioDecDelayのいずれか大きい方の値を復号遅延DecDelayとする。

制御部２３は、動画像の各ピクチャの復号時刻を、動画像PESパケット中の対応PTSを300倍した値(27MHz精度）とする。STC値がこの値と等しくなったときに、制御部２３は、動画像復号部２５に対しそのピクチャの復号を指示する。
また動画像の各ピクチャの表示時刻は、復号時刻に復号遅延DecDelayを加算した時刻とする。STC値がこの値と等しくなったときに、制御部２３は、動画像復号部２５に対しそのピクチャの表示を指示する。

制御部２３は、オーディオの各オーディオフレームの復号時刻を、オーディオPESパケット中の対応PTSを300倍した値(27MHz精度）とする。STC値がこの値と等しくなったときに、制御部２３は、オーディオ復号部２７に対しそのオーディオフレームの復号を指示する。またオーディオの各オーディオフレームの表示時刻は、復号時刻に復号遅延DecDelayを加算した時刻とする。STC値がこの値と等しくなったときに、制御部２３は、オーディオ復号部２７に対しそのオーディオフレームの出力を指示する。

一方、超低遅延復号決定部２８が、超低遅延復号を指示する場合、各動画像ピクチャ及び各オーディオフレームの復号時刻及び表示時刻は以下のように導出される。
制御部２３は、動画像の各ピクチャの復号時刻を、動画像PESパケット中の対応PTSを300倍した値から動画像PESパケット中のAdditionalDTSDeltaを減算した時刻とする。また制御部２３は、動画像の各ピクチャの表示時刻を、動画像PESパケット中の対応PTSを300倍した値から動画像PESパケット中SecondPTSDeltaを減算した時刻とする。

制御部２３は、オーディオの各オーディオフレームの復号時刻を、オーディオPESパケット中の対応PTSを300倍した値から、PESパケット中のAdditionalDTSDeltaを減算した時刻とする。また制御部２３は、オーディオの各オーディオフレームの表示時刻を、オーディオPESパケット中の対応PTSを300倍した値から、PESパケット中のSecondPTSDeltaを減算した時刻とする。

図１４は、第１の実施形態による、多重化動画像復号装置２０の制御部２３の処理フローである。
制御部２３はまず、多重化動画像復号装置２０全体を初期化する（ステップＳ３０１）。次に、制御部２３は、受信した多重化動画像データ内のシステムTSパケットを解析し、そのTSパケットのペイロードに含まれるPAT及びPMTの情報を取得する（ステップＳ３０２）。

次に、制御部２３は、PAT及びPMTから判定される超低遅延符号化の有無、動画像復号部２５の超低遅延復号への対応可否、及び外部機器からの超低遅延復号動作指示に基づき、超低遅延復号を行うか否かを決定する（ステップＳ３０３）。

その後、制御部２３は、動画像パケット処理部２４もしくはオーディオパケット処理部２６に、それぞれ、動画像PESパケットの先頭データを含む動画像TSパケット、もしくはオーディオPESパケットの先頭データを含むオーディオTSパケットが到着したか否かを判定する（ステップＳ３０４）。動画像PESパケットの先頭データを含む動画像TSパケットまたはオーディオPESパケットの先頭データを含むオーディオTSパケットが到着した場合（ステップＳ３０４−Ｙｅｓ）、制御部２３は、動画像パケット処理部２４もしくはオーディオパケット処理部２６に対してPESパケットの解析を指示する（ステップＳ３０５）。到着したPESパケットの種別が動画像PESパケットであれば、動画像パケット処理部２４が、PESパケットの先頭からPESPacketDataByteより前の各フィールドを読み込み、読み込んだフィールドを解析する。一方、到着したPESパケットの種別がオーディオPESパケットであれば、オーディオパケット処理部２６がPESパケットの先頭からPESPacketDataByteより前の各フィールドを読み込み、読み込んだフィールドを解析する。動画像パケット処理部２４またはオーディオパケット処理部２６は、図１０に示されたPTS, もし存在した場合はDTS, SecondPTSDelta, AdditionalDTSDeltaを取得する。

次に、制御部２３は、ステップＳ３０３で、超低遅延復号を行うと決定したか否か確認する（ステップＳ３０６）。超低遅延復号が行われない場合（ステップＳ３０６−Ｎｏ）、制御部２３は、動画像データの各ピクチャもしくはオーディオデータの各オーディオフレームの復号時刻及び表示時刻を、PTS値及びDTS値に基づいて決定する（ステップＳ３０７）。具体的には、制御部２３は、もしDTSが存在する場合には、復号時刻をDTSに300を乗じた値に設定し、DTSが存在しない場合には、PTSに300を乗じた値に設定する。また制御部２３は、表示時刻を、PTSに300を乗じた値に、復号遅延を加算した値に設定する。制御部２３は、復号遅延を、動画像復号部２５が1ピクチャの復号に要する時間と、オーディオ復号部２７が1オーディオフレームの復号に要する時間のうちの長い方の時間とする。

一方、超低遅延復号が行われる場合（ステップＳ３０６−Ｙｅｓ）、制御部２３は、動画像データの各ピクチャもしくはオーディオデータの各オーディオフレームの復号時刻及び表示時刻を、PTS、AdditionalDTSDelta及びSecondPTSDeltaに基づいて決定する（ステップＳ３０８）。具体的には、制御部２３は、復号時刻を、PTSに300を乗じた値からAdditionalDTSDeltaを減算した値に設定する。また制御部２３は、表示時刻を、PTSに300を乗じた値からSecondPTSDeltaを減算した値に設定する。

ステップＳ３０７またはＳ３０８の後、あるいは、ステップＳ３０４にて、動画像PESパケットの先頭データを含む動画像TSパケット及びオーディオPESパケットの先頭データを含むオーディオTSパケットの何れも到着していない場合（ステップＳ３０４−Ｎｏ）、制御部２３は、自身のSTC値が動画像データの何れかのピクチャもしくはオーディオデータの何れかのオーディオフレームの復号時刻と一致したか否か判定する（ステップＳ３０９）。

制御部２３のSTC値が、何れかの復号時刻と一致した場合（ステップＳ３０９−Ｙｅｓ）、制御部２３は、その復号時刻を持つピクチャもしくはオーディオフレームの復号開始を、動画像復号部２５もしくはオーディオ復号部２７に通知する（ステップＳ３１０）。

ステップＳ３１０の後、あるいは、ステップＳ３０９にて、制御部２３のSTC値が、何れの復号時刻とも一致しない場合（ステップＳ３０９−Ｎｏ）、制御部２３は、自身のSTC値が動画像データの何れかのピクチャもしくはオーディオデータの何れかのオーディオフレームの表示時刻と一致したか否か判定する（ステップＳ３１１）。

制御部２３のSTC値が、何れかの表示時刻と一致した場合（ステップＳ３１１−Ｙｅｓ）、制御部２３は、その制御部２３のSTC値と一致した表示時刻を持つピクチャもしくはオーディオフレームの表示開始を、動画像復号部２５もしくはオーディオ復号部２７に通知する（ステップＳ３１２）。

ステップＳ３１２の後、あるいは、ステップＳ３１１にて、制御部２３のSTC値が、何れの表示時刻とも一致しない場合（ステップＳ３１１−Ｎｏ）、制御部２３は、多重化動画像データの復号が完了したか否かを判定する（ステップＳ３１３）。例えば、多重化動画像データが到着しなくなったか、もしくは外部機器からの復号終了指示を受けた場合、制御部２３は、多重化動画像データの復号が完了したと判定する。
多重化動画像データの復号が完了していない場合（ステップＳ３１３−Ｎｏ）、制御部２３は、ステップＳ３０４以降の処理を実行する。一方、多重化動画像データの復号が完了した場合（ステップＳ３１３−Ｙｅｓ）、制御部２３は、復号処理を終了する。

第１の実施形態によって、コーデック遅延が軽減されることを、図１５を参照しつつ説明する。
図１５において、横軸はSTC値により表される経過時間を表す。ブロック１５０１は、動画像多重化装置１０の動画像符号化部１１が、図４に示されるDU単位の符号化方法によって動画像データを符号化した場合の、１ピクチャの取り込み、符号化、伝送のタイミングを表す。Δは、図４における(1s/M)に相当する。
ブロック１５０２は、動画像多重化装置１０のオーディオ符号化部１３における、１オーディオフレームの取り込み、符号化、伝送のタイミングを表す。この例では、１オーディオフレーム時間はΔに等しいとする。ピクチャ及びオーディオサンプルの取り込み開始時刻は共にt1である。

ブロック１５０３は、多重化動画像復号装置２０の動画像復号部２５が、超低遅延動作をせずに復号する場合の、１ピクチャの伝送、復号及び表示のタイミングを表す。これらのタイミングは、従来のAVC規格などに準拠した復号方式によるピクチャの伝送、復号及び表示のタイミングと等しい。制御部２３のSTCがt1となった時刻がピクチャの復号時刻ptsとなる。動画像復号部２５は、時刻t1からピクチャの復号を開始し、１ピクチャ時間s経過した時刻pts''にてそのピクチャの復号が完了し、そのピクチャの表示が開始される。この場合のコーデック遅延は(2s + 2Δ)となる。

ブロック１５０４は、符号化動画像復号装置２０の動画像復号部２５が第１の実施形態による超低遅延復号動作する場合における、１ピクチャの伝送、復号及び表示のタイミングを表す。
制御部２３のSTCがt1となった時刻から、(M-1)s/Mだけ前の時刻dtsにてピクチャの復号を開始することが可能になる。また時刻t1から(M-3)s/Mだけ前の時刻pts'にてピクチャの表示を開始することが可能になる。従って、この場合のコーデック遅延は、5Δ=(5s/M)となる。このように、第１の実施形態によれば、従来技術に比べてコーデック遅延が大幅に減少することが分かる。なお、動画像多重化装置が超低遅延符号化を行わない場合、ピクチャの取り込み開始から符号化ピクチャの伝送開始までの間隔は2sに増加し、コーデック遅延はさらに増加する。

ブロック１５０５は、超低遅延復号動作時における、オーディオ復号部２７による１オーディオフレームの伝送、復号及び表示のタイミングを表すものである。この例では、ピクチャとオーディオフレームの取り込み時刻は同じであるので、表示時刻も同じになるように、符号化動画像データと符号化オーディオデータは多重化される。なお動画像多重化装置１０が超低遅延符号化を行わない場合、一般的には、符号化オーディオフレームデータの最終ビットの到着時刻はpts’の後になる。

ブロック１５０６は、超低遅延復号動作をしない場合における、復号されたオーディオデータの出力タイミングを表す。符号化オーディオデータは、時刻t1よりも先に到着しているが、動画像の表示開始が時刻(t1+s)となるため、制御部２３は、オーディオデータの出力時刻を遅らせて、ピクチャと同時に表示開始できるように調整している。なお、復号時刻はオーディオデータからΔだけ前としてもよい。

以上に説明してきたように、第１の実施形態によれば、動画像多重化装置及び多重化動画像復号装置は、コーデック遅延を１ピクチャ時間に抑制する超低遅延符号化及び超低遅延復号処理と、従来規格に従った符号化及び復号処理の両方に対応できる。

次に、第２の実施形態による、動画像多重化装置及び多重化動画像復号装置について説明する。第２の実施形態では、第１の実施形態と比較して、TSパケット内の超低遅延符号化が行われたか否かを表すフラグの格納位置が異なる。その他のパケットの構造、及び動画像多重化装置及び多重化動画像復号装置の動作に関しては、第１の実施形態によるものと同様である。

以降、第２の実施形態と第１の実施形態との相違点について説明する。
図１６は、第２の実施形態によるシステムTSパケットのデータ構造を示す図である。本実施形態において、システムTSパケット１６０１は、図８に示されるシステムTSパケット８０１と同様に、先頭から順に、TSヘッダ１６０２と、AdaptationField１６０３と、ペイロード１６０４とを含む。システムTSパケット１６０１の各フィールドは、システムTSパケット８０１の各フィールドと同一である。

一方、PMTをペイロードに含むTSパケット１６１１も、図８に示されるTSパケット８１１と同様に、先頭から順に、TSヘッダ１６１２と、AdaptationField１６１３と、ペイロード１６１４とを含む。
この実施形態では、PMTのフィールド構造を示すペイロード１６１４において、超低遅延符号化の有無を記述するフラグSubPicLowDelayFlagが、各エレメンタルストリームの情報を記述する、StreamTypeからDescriptorのループの前に出現する。この例では、フラグSubPicLowDelayFlagは、ProgramInfoLengthの直前に出現するが、他の場所に配置されてもよい。ただし、TableIDからProgramInfoLengthまでのビット量について、MPEG-2 Systems規格との互換性を担保するために、図１６には明記していないリザーブビットのうちの一つをフラグSubPicLowDelayFlagに置き換えることが好ましい。MPEG-2 Systems規格におけるリザーブビットは、符号化データ全体のデータ量をByte単位とし、かつ、bit単位の長さを持つ各フィールドへ、Byte単位でアクセスできるよう、各フィールドをバイト単位でアライメントするために用いられている。この例では、図１０に示されるAlternativePTSDTSFlagはPESパケット内に出現せず、SecondPTSDelta及びAdditionalDTSDeltaは、PMTのフラグSubPicLowDelayFlagによって出現するか否かが規定される。

次に、第３の実施形態による、動画像多重化装置及び多重化動画像復号装置について説明する。第３の実施形態は、第１の実施形態と比較して、超低遅延復号する際に参照される、ピクチャまたはオーディオフレームの復号時刻及び表示時刻が、従来の規格に従って復号する際の表示時刻からの差分値でなく、直接的に記述される点で異なる。その他のパケットの構造、及び動画像多重化装置及び多重化動画像復号装置の動作に関しては、第１の実施形態によるものと同様である。

以降、第３の実施形態と第１の実施形態との相違点について説明する。
図１７は、第３の実施形態による、動画像PESパケット及びオーディオPESパケットを含む、エレメンタリーストリームPESパケットの構造である。
図１７に示されるPESパケット１７００では、図１０に示された、従来の規格に従って復号する際の表示時刻からの差分値であるSecondPTSDelta及びAdditionalDTSDeltaの代わりに、SecondPTS及びSecondDTSが記述されている。SecondPTS及びSecondDTSは、それぞれ、超低遅延復号する際の第２の表示時刻及び復号時刻を直接記述する。すなわち、SecondPTS及びSecondDTSは、それぞれ、図１２のdts(video)（動画像データの場合）またはdts(Audio)（オーディオデータの場合）、及びpts’に相当する。SecondPTS及びSecondDTSの単位は90 KHzであってもよいし、27MHzであってもよい。
動画像多重化装置１０及び多重化動画像復号装置２０内の各部は、SecondPTS及びSecondDTSを第２の表示時刻及び復号時刻そのものとして、第１の実施形態による動画像多重化装置１０及び多重化動画像復号装置２０の処理と同様の処理を行う。

次に、第４の実施形態による、動画像多重化装置及び多重化動画像復号装置について説明する。第４の実施形態は、第１の実施形態と比較して、超低遅延復号する際に参照される第２の復号時刻情報及び表示時刻情報が、ピクチャのDUごとにPESパケット内に記述される点で異なる。その他のパケットの構造、及び動画像多重化装置及び多重化動画像復号装置の動作に関しては、第１の実施形態によるものと同様である。

以降、第４の実施形態と第１の実施形態との相違点について説明する。
図１８は、第４の実施形態による、動画像PESパケット及びオーディオPESパケットを含む、エレメンタリーストリームPESパケットの構造である。
図１８に示されるPESパケット１８００では、図１０に示されたPESパケットと比較して、アクセスユニット(AU)（1ピクチャもしくは1オーディオフレーム）ごとのDUの数を表すパラメータNumDUDTSDeltaフィールドが追加されている。さらに、PESパケット１８００では、AUごとではなく、DUごとにAdditionalDTSDelayが記述される。第４の実施形態では、AdditionalDTSDelayはNumDUDTSDeltaの値の数だけ出現する。

PESパケットがオーディオPESパケットである場合、NumDUDTSDeltaは'1'とする。すなわち、オーディオデータについては、常にAUごとに復号及び表示の開始時刻が規定される。これは、オーディオデータについては、AUが最小の符号化単位となるためである。
一方、PESパケットが動画像PESパケットである場合、NumDUDTSDeltaは、符号化動画像中のPicture timing SEIに含まれるNumDecodingUnitsMinus1フィールドの値に'1'を加算した値、すなわち、NumDUDTSDeltaは、AUに含まれるDUの個数に相当する。また、各DUの復号時刻は、動画像PESパケットのPTSから、対応するAdditionalDTSDelayを減算した値となる。

動画像多重化装置１０の制御部１５及び動画像パケット生成部１２は、動画像PESパケットに、NumDUDTSDelta とDUごと（すなわちNumDUDTSDelta個）のAdditionalDTSDelayを含める。
一方、多重化動画像復号装置２０の制御部２３は、動画像復号部２５に対して、ピクチャ内のDUごとに、その復号時刻にDUの復号を指示する。図１４に示される復号処理の動作フローにおいては、制御部２３は、ステップＳ３０８にてDUごとの復号時刻を決定する。そしてステップＳ３０９では、制御部２３は、DUごとに、その復号時刻がSTC値と一致するか否か判定し、一致した場合に、動画像復号部２５に対して、該当DUの復号開始を指示する。

次に、第５の実施形態による、動画像多重化装置及び多重化動画像復号装置について説明する。第５の実施形態は、第１の実施形態と比較して、超低遅延復号する際のピクチャ及びオーディオフレームの復号時刻及び表示時刻の算出方法が異なる。その他の動画像多重化装置及び多重化動画像復号装置の動作に関しては、第１の実施形態によるものと同様である。

以降、第５の実施形態と第１の実施形態との相違点について説明する。
第５の実施形態では、動画像多重化装置１０の制御部１５及びオーディオパケット生成部１２は、オーディオPESパケットに含めるAdditionalDTSDelayの値を常に'0'にする。また、多重化動画像復号装置２０の制御部２３、動画像復号部２５及びオーディオ復号部２７は、以下のようにピクチャ及びオーディオサンプルの復号時刻及び表示時刻を決定する。

制御部２３は、ピクチャの復号時刻を、第１の実施形態と同じく、動画像PESパケットのPTSに300を乗じた値からAdditionalDTSDeltaを減算した値に設定する。また制御部２３は、ピクチャの表示時刻を、動画像PESパケットのPTSに300を乗じた値からSecondPTSDeltaを減算し、さらにAudioDecDelayを加算した値に設定する。このAudioDecDelayは、オーディオ復号部２７が、1オーディオフレームの復号に要する時間である。

一方、制御部２３は、オーディオフレームの表示時刻を、オーディオPESパケットのPTSに300を乗じた値からSecondPTSDeltaを減算し、さらにAudioDecDelayを加算した値に設定する。また制御部２３は、オーディフレームの復号時刻を、オーディオPESパケットのPTSに300を乗じた値からSecondPTSDeltaを減算した値に設定する。

図１９を参照しつつ、第５の実施形態による、動画像ピクチャ及びオーディオフレームの復号及び表示タイミングを示す。
ブロック１９０１は、図１５に示されるブロック１５０１と同様に、図４に示されるDU単位の符号化方法によって動画像データを符号化した場合の、１ピクチャの取り込み、符号化、伝送のタイミングを表す。またブロック１９０２は、図１５に示されるブロック１５０２と同様に、１オーディオフレームの取り込み、符号化、伝送のタイミングを表す。第５の実施形態による、動画像多重化装置における、取り込み、符号化、及び伝送のタイミングは、ピクチャ、オーディオフレームとも、第１の実施形態による、取り込み、符号化、及び伝送のタイミングと同じである。

ブロック１９０３は、符号化動画像復号装置２０の動画像復号部２５が第５の実施形態による超低遅延復号動作する場合における、１ピクチャの伝送、復号及び表示のタイミングを表す。一方、ブロック１９０４は、オーディオ復号部２７が第５の実施形態による超低遅延復号動作する場合における、１オーディオフレームの伝送、復号及び表示のタイミングを表す。オーディフレームの復号時刻dts、この例では多重化動画像データに記述された、オーディフレームの第１の表示・復号時刻から、AudioDecDelay分だけ遅れた時刻が、オーディオ復号部２７が実際にオーディオフレームを出力する時刻となる。

次に、第６の実施形態による、動画像多重化装置及び多重化動画像復号装置を説明する。第６の実施形態は、第１の実施形態と比較して、DUごとにPESパケットが作成される点で異なる。その他のパケットの構造、及び動画像多重化装置及び多重化動画像復号装置の動作に関しては、第１の実施形態によるものと同様である。

以降、第６の実施形態と第１の実施形態との相違点について説明する。
図２０は、第６の実施形態による動画像PESパケットの構造を示す図である。
AU２００１は、一つのピクチャに相当し、１以上のDU２００２を含む。
各DU２００２は、最低限一つのスライスNALを含む、複数のNALの集合である。各DU２００２は、先頭から順に、Delimiter NAL２１０１（AU先頭のDUのみ、Delimiter NALを含んでもよい）、SEI NAL２１０２（0ないし複数）、スライスNAL２１０３（一つ以上）、SEI NAL２１０４（0ないし複数）を含む。AUのPicture timing SEIには、AU内のDUの個数と、各DUが含むNALの数が記述されている。
一つのPESパケット２００３が、少なくとも一つのDU２００２を格納する。

第６の実施形態による、PESパケットの構造は、図１７に示したPESパケットの構造と同じである。
本実施形態では、PESパケット１７００の各フィールドの意味及び値は、以下のようになる。
PTS: 本フィールドは、本DUを含むAUの第１のPTSの値を格納する。AU内の全DUは、同一のPTSを持つ。
DTS: 本フィールドは使用されない。もしくは、DTSにPTSと同じ値が入れられてもよい。
SubPicLowDelayFlag: 本フィールドは、SecondPTS及びSecondDTSが出現する場合に'0'とする。
SecondDTS: 本フィールドは、本DUのDTSを格納する。
SecondPTS: 本フィールドは、本DUに含まれる画素の出力開始時刻を記述する。例えば、図４に示されるように各DUが符号化されている場合、SecondPTSの値は、SecondDTSに(2s/M)を加算した値となる。なお、SecondPTSの値は、各DUで個別の値を明記せずに、AU内先頭DUのSecondPTSの値としてもよい。この場合、動画像復号部２５は、AU内先頭DUのSecondPTSに、復号対象となるDUのSecondDTSの値からAU内の先頭DUのSecondDTSの値を減算した値を加算した値を、本DUの第２のPTSとする。

第２〜第６の実施形態の何れの動画像多重化装置及び多重化動画像復号装置も、第１の実施形態と同様に、コーデック遅延を１ピクチャ時間に抑制する超低遅延符号化及び超低遅延復号処理と、従来規格に従った符号化及び復号処理の両方に対応できる。

図２１は、上記の実施形態またはその変形例による動画像多重化装置または多重化動画像復号装置の各部の機能を実現するコンピュータプログラムが動作することにより、動画像多重化装置または多重化動画像復号装置として動作するコンピュータの構成図である。

コンピュータ３００は、ユーザインターフェース部３０１と、通信インターフェース部３０２と、記憶部３０３と、記憶媒体アクセス装置３０４と、プロセッサ３０５とを有する。さらに、コンピュータ３００は、スピーカ（図示せず）を有していてもよい。プロセッサ３０５は、ユーザインターフェース部３０１、通信インターフェース部３０２、記憶部３０３及び記憶媒体アクセス装置３０４と、例えば、バスを介して接続される。

ユーザインターフェース部３０１は、例えば、キーボードとマウスなどの入力装置と、液晶ディスプレイといった表示装置とを有する。または、ユーザインターフェース部３０１は、タッチパネルディスプレイといった、入力装置と表示装置とが一体化された装置を有してもよい。そしてユーザインターフェース部３０１は、例えば、ユーザの操作に応じて、符号化する動画像データとその他のメディアデータ、あるいは復号する多重化動画像データを選択する操作信号をプロセッサ３０５へ出力する。またユーザインターフェース部３０１は、プロセッサ３０５から受け取った、復号された動画像データを表示してもよい。

通信インターフェース部３０２は、コンピュータ３００を、動画像データ及びその他のメディアデータを生成する装置、例えば、ビデオカメラと接続するための通信インターフェース及びその制御回路を有してもよい。そのような通信インターフェースは、例えば、Universal Serial Bus（ユニバーサル・シリアル・バス、USB）とすることができる。

さらに、通信インターフェース部３０２は、イーサネット（登録商標）などの通信規格に従った通信ネットワークに接続するための通信インターフェース及びその制御回路を有してもよい。

この場合には、通信インターフェース部３０２は、通信ネットワークに接続された他の機器から、符号化する動画像データ、その他のメディアデータまたは復号する多重化動画像データを取得し、それらのデータをプロセッサ３０５へ渡す。また通信インターフェース部３０２は、プロセッサ３０５から受け取った、多重化動画像データまたは復号された動画像データ及びメディアデータを通信ネットワークを介して他の機器へ出力してもよい。

記憶部３０３は、例えば、読み書き可能な半導体メモリと読み出し専用の半導体メモリとを有する。そして記憶部３０３は、プロセッサ３０５上で実行される、動画像多重化処理または多重化動画像復号処理を実行するためのコンピュータプログラム、及びこれらの処理の途中または結果として生成されるデータを記憶する。

記憶媒体アクセス装置３０４は、例えば、磁気ディスク、半導体メモリカード及び光記憶媒体といった記憶媒体３０６にアクセスする装置である。記憶媒体アクセス装置３０４は、例えば、記憶媒体３０６に記憶されたプロセッサ３０５上で実行される、動画像多重化処理または多重化動画像復号処理用のコンピュータプログラムを読み込み、プロセッサ３０５に渡す。

プロセッサ３０５は、上記の実施形態または変形例による動画像多重化処理用コンピュータプログラムを実行することにより、多重化動画像データを生成する。そしてプロセッサ３０５は、生成された多重化動画像データを記憶部３０３に保存し、または通信インターフェース部３０２を介して他の機器へ出力する。またプロセッサ３０５は、上記の実施形態または変形例による多重化動画像復号処理用コンピュータプログラムを実行することにより、多重化動画像データを復号する。そしてプロセッサ３０５は、復号された動画像データ及び他のメディアデータを記憶部３０３に保存し、ユーザインターフェース部３０１に表示し、または通信インターフェース部３０２を介して他の機器へ出力する。

コンピュータ上で実行されることにより、上述した実施形態またはその変形例による動画像多重化装置の各部の機能を実現するコンピュータプログラムは、半導体メモリまたは光記録媒体などの記録媒体に記録された形で提供されてもよい。同様に、上述した実施形態またはその変形例による多重化動画像復号装置の各部の機能を実現するコンピュータプログラムは、半導体メモリまたは光記録媒体などの記録媒体に記録された形で提供されてもよい。ただし、そのような記録媒体には、搬送波は含まれない。

上述した実施形態またはその変形例による動画像多重化装置、及び多重化動画像復号装置は、様々な用途に利用される。例えば、この動画像多重化装置、及び多重化動画像復号装置は、ビデオカメラ、映像送信装置、映像受信装置、テレビ電話システム、コンピュータあるいは携帯電話機に組み込まれる。

ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

１０動画像多重化装置
１１動画像符号化部
１２動画像パケット生成部
１３オーディオ符号化部
１４オーディオパケット生成部
１５制御部
１６システムパケット生成部
１７パケット多重化部
２０多重化動画像復号装置
２１パケット分離部
２２システムパケット処理部
２３制御部
２４動画像パケット処理部
２５動画像復号部
２６オーディオパケット処理部
２７オーディオ復号部

Claims

動画像データと、動画像以外の第１のメディアデータとを多重化し出力する動画像多重化装置であって、
前記動画像データの各ピクチャ及び前記第１のメディアデータの各符号化単位のそれぞれについて、該ピクチャ及び該符号化単位の復号時刻及び表示時刻を決定するための第１の復号表示時刻情報と第２の復号表示時刻情報を求める制御部と、
前記動画像データの符号化データを含む動画像パケットに前記ピクチャについての前記第１の復号表示時刻情報及び前記第２の復号表示時刻情報を付加する動画像パケット生成部と、
前記第１のメディアデータの符号化データを含むメディアパケットに前記符号化単位についての前記第１の復号表示時刻情報及び前記第２の復号表示時刻情報を付加するメディアパケット生成部と、
前記動画像パケットと前記メディアパケットとを多重化することによりデータストリームを生成し、該データストリームを出力するパケット多重化部と、
を有し、
前記第１の復号表示時刻情報は、前記動画像データの復号単位がピクチャの場合に、前記動画像データと前記第１のメディアデータとを同期して表示する時刻を表す情報を含み、
前記第２の復号表示時刻情報は、前記動画像データの前記復号単位が、ピクチャを複数に分割して得られるサブピクチャである場合に、前記動画像データと前記第１のメディアデータとを同期して表示する時刻を表す情報を含み、
前記第２の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻及び表示時刻は、前記第１の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻及び表示時刻よりも早い、
動画像多重化装置。
前記パケット多重化部は、前記動画像データの前記復号単位が前記サブピクチャである場合、前記動画像データの各ピクチャについて、当該ピクチャ内の先頭の前記サブピクチャに相当する符号化データ及び前記第１のメディアデータの当該ピクチャに対応する前記符号化単位の符号化データが、前記第２の復号表示時刻情報に基づいて決定される当該ピクチャの復号時刻と同じか、もしくはより早く、前記データストリームを復号する復号装置に到達するように、前記動画像パケットと前記メディアパケットとを多重化する、請求項１に記載の動画像多重化装置。
前記ピクチャについての前記第２の復号表示時刻情報は、前記サブピクチャの復号に要するサブピクチャ復号時間を表す情報を含み、
前記第２の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻は、前記第１の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻よりも、ピクチャ全体の復号に要する時間から前記サブピクチャ復号時間を減じた時間だけ早い、請求項２に記載の動画像多重化装置。
前記第２の復号表示時刻情報は、前記第２の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻よりも前記ピクチャの先頭から二つの前記サブピクチャの復号に要する時間だけ遅い時間を前記ピクチャの表示時刻として表す情報を含む、請求項３に記載の動画像多重化装置。
前記動画像パケット生成部は、前記第２の復号表示時刻情報として、前記ピクチャ内の先頭のサブピクチャの復号時刻及び表示時刻を表す情報を、前記動画像パケットに付加する、請求項１に記載の動画像多重化装置。
前記動画像パケット生成部は、前記第２の復号表示時刻情報として、前記サブピクチャごとの復号時刻及び表示時刻を表す情報を、前記動画像パケットに付加する、請求項１に記載の動画像多重化装置。
符号化された動画像データと、動画像以外の符号化された第１のメディアデータとが多重化された多重化データを復号する多重化動画像復号装置であって、
前記多重化データに含まれる、前記動画像データの各ピクチャ及び前記第１のメディアデータの各符号化単位のそれぞれについて、該ピクチャ及び該符号化単位の復号時刻及び表示時刻を決定するための第１の復号表示時刻情報と第２の復号表示時刻情報に基づいて、各ピクチャの復号時刻及び表示時刻と、各符号化単位の復号時刻及び表示時刻を決定する制御部と、
各ピクチャについて、当該ピクチャの復号時刻に従って当該ピクチャの復号を開始し、当該ピクチャの表示時刻に従って当該ピクチャの表示を開始する動画像復号部と、
各符号化単位について、当該符号化単位の復号時刻に従って当該符号化単位の復号を開始し、当該符号化単位の表示時刻に従って当該符号化単位の出力を開始するメディア復号部と、
を有し、
前記第１の復号表示時刻情報は、前記動画像データの復号単位がピクチャの場合に、前記動画像データと前記第１のメディアデータとを同期して表示する時刻を表す情報を含み、
前記第２の復号表示時刻情報は、前記動画像データの前記復号単位が、ピクチャを複数に分割して得られるサブピクチャである場合に、前記動画像データと前記第１のメディアデータとを同期して表示する時刻を表す情報を含み、
前記第２の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻及び表示時刻は、前記第１の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻及び表示時刻よりも早い、
多重化動画像復号装置。
前記制御部は、前記動画像データの前記復号単位が前記サブピクチャであり、かつ、前記動画像復号部が前記第２の復号表示時刻情報に基づいて決定される前記ピクチャの表示時刻にて前記ピクチャの表示を開始することが可能である場合に、各ピクチャについての前記第２の復号表示時刻情報に基づいて、各ピクチャの復号時刻及び表時刻を決定し、かつ、各符号化単位についての前記第２の復号表示時刻情報に基づいて、各符号化単位の復号時刻及び表時刻を決定する、請求項７に記載の多重化動画像復号装置。
前記ピクチャについての前記第２の復号表示時刻情報は、前記サブピクチャの復号に要するサブピクチャ復号時間を表す情報を含み、
前記制御部は、前記第２の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻を、前記第１の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻よりも、ピクチャ全体の復号に要する時間から前記サブピクチャ復号時間を減じた時間だけ早い時刻に設定する、請求項８に記載の多重化動画像復号装置。
前記第２の復号表示時刻情報は、前記第２の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻よりも前記ピクチャの先頭から二つのサブピクチャの復号に要する時間だけ遅い時間を前記ピクチャの表示時刻として表す情報を含む、請求項９に記載の多重化動画像復号装置。
前記第２の復号表示時刻情報は、前記ピクチャ内の先頭のサブピクチャの復号時刻及び表示時刻を表す情報である、請求項７に記載の多重化動画像復号装置。
前記第２の復号表示時刻情報は、サブピクチャごとの復号時刻及び表示時刻を表す情報を含む、請求項７に記載の多重化動画像復号装置。
動画像データと、動画像以外の第１のメディアデータとを多重化し出力する動画像多重化方法であって、
前記動画像データの各ピクチャ及び前記第１のメディアデータの各符号化単位のそれぞれについて、該ピクチャ及び該符号化単位の復号時刻及び表示時刻を決定するための第１の復号表示時刻情報と第２の復号表示時刻情報を求め、
前記動画像データの符号化データを含む動画像パケットに前記ピクチャについての前記第１の復号表示時刻情報及び前記第２の復号表示時刻情報を付加し、
前記第１のメディアデータの符号化データを含むメディアパケットに前記符号化単位についての前記第１の復号表示時刻情報及び前記第２の復号表示時刻情報を付加し、
前記動画像パケットと前記メディアパケットとを多重化することによりデータストリームを生成し、該データストリームを出力する、
ことを含み、
前記第１の復号表示時刻情報は、前記動画像データの復号単位がピクチャの場合に、前記動画像データと前記第１のメディアデータとを同期して表示する時刻を表す情報を含み、
前記第２の復号表示時刻情報は、前記動画像データの前記復号単位が、ピクチャを複数に分割して得られるサブピクチャである場合に、前記動画像データと前記第１のメディアデータとを同期して表示する時刻を表す情報を含み、
前記第２の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻及び表示時刻は、前記第１の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻及び表示時刻よりも早い、
動画像多重化方法。
符号化された動画像データと、動画像以外の符号化された第１のメディアデータとが多重化された多重化データを復号する多重化動画像復号方法であって、
前記多重化データに含まれる、前記動画像データの各ピクチャ及び前記第１のメディアデータの各符号化単位のそれぞれについて、該ピクチャ及び該符号化単位の復号時刻及び表示時刻を決定するための第１の復号表示時刻情報と第２の復号表示時刻情報に基づいて、各ピクチャの復号時刻及び表示時刻と、前記第１のメディアデータの各符号化単位の復号時刻及び表示時刻を決定し、
各ピクチャについて、当該ピクチャの復号時刻に従って当該ピクチャの復号を開始し、当該ピクチャの表示時刻に従って当該ピクチャの表示を開始し、
各符号化単位について、当該符号化単位の復号時刻に従って当該符号化単位の復号を開始し、当該符号化単位の表示時刻に従って当該符号化単位の出力を開始する、
ことを含み、
前記第１の復号表示時刻情報は、前記動画像データの復号単位がピクチャの場合に、前記動画像データと前記第１のメディアデータとを同期して表示する時刻を表す情報を含み、
前記第２の復号表示時刻情報は、前記動画像データの前記復号単位が、ピクチャを複数に分割して得られるサブピクチャである場合に、前記動画像データと前記第１のメディアデータとを同期して表示する時刻を表す情報を含み、
前記第２の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻及び表示時刻は、前記第１の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻及び表示時刻よりも早い、
多重化動画像復号方法。