JP6119260B2 - 動画像多重化装置及び動画像多重化方法、ならびに多重化動画像復号装置及び多重化動画像復号方法 - Google Patents

動画像多重化装置及び動画像多重化方法、ならびに多重化動画像復号装置及び多重化動画像復号方法 Download PDF

Info

Publication number
JP6119260B2
JP6119260B2 JP2013005764A JP2013005764A JP6119260B2 JP 6119260 B2 JP6119260 B2 JP 6119260B2 JP 2013005764 A JP2013005764 A JP 2013005764A JP 2013005764 A JP2013005764 A JP 2013005764A JP 6119260 B2 JP6119260 B2 JP 6119260B2
Authority
JP
Japan
Prior art keywords
decoding
picture
display time
time
moving image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013005764A
Other languages
English (en)
Other versions
JP2014138269A (ja
Inventor
数井 君彦
君彦 数井
智史 島田
智史 島田
純平 小山
純平 小山
俊輔 小林
俊輔 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013005764A priority Critical patent/JP6119260B2/ja
Priority to EP14151135.2A priority patent/EP2757795B1/en
Priority to CN201410018007.6A priority patent/CN103929657B/zh
Priority to US14/155,770 priority patent/US9083993B2/en
Publication of JP2014138269A publication Critical patent/JP2014138269A/ja
Application granted granted Critical
Publication of JP6119260B2 publication Critical patent/JP6119260B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23614Multiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、例えば、動画像データと他のメディアデータから多重化データを生成する動画像多重化装置及び動画像多重化方法、ならびに多重化データを復号する多重化動画像復号装置及び多重化動画像復号方法に関する。
デジタルテレビ放送では、一般的に、動画像データ及びオーディオデータの多重化規格の一つである、非特許文献1に開示されたMPEG-2 Systems規格を利用したデジタル多重化方式が採用されている。
図1は、MPEG-2 SystemsのTS (Transport Stream)形式で、動画像データと、オーディオデータとを多重化する動画像多重化装置の概略構成図である。
動画像多重化装置100は、動画像符号化部101、動画像パケット生成部102、オーディオ符号化部103、オーディオパケット生成部104、制御部105、システムパケット生成部106及びパケット多重化部107を有する。
動画像符号化部101は、入力された動画像データを、所定の符号化方法、例えば非特許文献2に記載されたAVC規格に従って圧縮符号化する。
動画像パケット生成部102は、圧縮符号化された動画像データを、Packetized Elementary Stream(PES)パケットに変換する。PESパケットの形式は、動画像の一ないし複数ピクチャ毎に、ピクチャの表示時刻等を記述したPESヘッダが付加される形式である。PESパケット化された動画像データは、さらに、188Byteの固定長を持つTSパケットに変換される。TSパケットの形式は、PESパケットを細分化したTSペイロードに、TSヘッダが付加された形式である。TSヘッダには、ペイロードの識別情報PIDが含まれる。
TSヘッダには、他にも、例えば動画像多重化装置100のSystem Time Clock(STC)値を再現するためのProgram Clock Reference(PCR)値が記述される。PCR値は、TSストリーム(TSパケットの列)中の挿入位置(Byte単位)によって厳密に値を決める必要がある。そのため、動画像パケット生成部102とパケット多重化部107の間で必要な情報が交換される。
オーディオ符号化部103は、入力されたオーディオデータを、所定の符号化方法、例えば非特許文献3に記載されたMPEG-2 AAC規格で圧縮符号化する。
オーディオパケット生成部104は、圧縮符号化されたオーディオデータを、PESパケット及びTSパケットに変換する。オーディオのPESパケットの形式は、オーディオの1フレーム(1024サンプル)毎に、PESヘッダが付加される形式である。
制御部105は、動画像符号化装置100の動作を制御する。制御部105は、同期制御の基準クロックである、27 MHz精度のSTCを有する。制御部105は、入力された動画像データの垂直同期信号V-SyncのタイミングでのSTC値を、各ピクチャの表示時刻とする。また、入力されたオーディオデータのオーディオフレームの先頭サンプルのタイミングでのSTC値を、各オーディオフレームの再生時刻とする。
システムパケット生成部106は、システム情報であるProgram Specific Information(PSI)を格納するTSパケットを生成する。PSIには、多重化されたプログラムの一覧を記述するProgram Association Table(PAT)、及び各プログラム内の動画像またはオーディオのPIDを記述するProgram Map Table(PMT)等が含まれる。なお、PATのPIDは、'0'と規定されている。
パケット多重化部107は、動画像パケット生成部102が出力する動画像TSパケット、オーディオパケット生成部104が出力するオーディオTSパケット、及びシステムパケット生成部106が出力するシステムTSパケットを多重化する。これにより、パケット多重化部107はTSストリームを生成し、そのTSストリームを出力する。各パケットの多重化は、MPEG-2 Systems規格のSystem Target Decoder(STD)規定に準拠するように行われる。例えば動画像TSパケットは、PESパケットヘッダに記述された表示時刻よりも先にSTDに伝送されるように、多重化される。
図2は、MPEG-2 SystemsのTS形式で多重化された動画像データとオーディオデータとを復号し、動画像データを表示するとともにオーディオデータを再生する多重化動画像復号装置の概略構成図である。
多重化動画像復号装置200は、パケット分離部201、システムパケット処理部202、制御部203、動画像パケット処理部204、動画像復号部205、オーディオパケット処理部206、及びオーディオ復号部207を有する。
パケット分離部201は、TSパケットのヘッダ情報に基づいて、システムパケット処理部202と連携して、各TSパケットのペイロード部分に入っているデータの種別を特定する。そしてパケット分離部201は、動画像PESパケットを動画像パケット処理部204へ送り、オーディオPESパケットをオーディオパケット処理部206へ送り、かつ、PSI情報をシステムパケット処理部202に送る。またパケット分離部201は、TSヘッダに入っているPCR値を、そのByte位置情報と共に制御部203に送る。
システムパケット処理部202は、システムTSパケットのペイロード部分に入っているPSI情報を解析し、復号対象のプログラムに含まれる動画像及びオーディオのPIDを獲得し、そのPIDをパケット分離部201に通知する。
動画像パケット処理部204は、パケット分離部201から受け取った、動画像TSパケットのペイロードに格納されていた動画像PESパケットのペイロードに含まれている符号化動画像データを動画像復号部205に送る。また動画像パケット処理部204は、PESパケットヘッダに含まれているピクチャの表示時刻等を制御部203に送る。
オーディオパケット処理部206は、パケット分離部201から受け取った、動画像TSパケットのペイロードに格納されていたオーディオPESパケットのペイロードに含まれている符号化オーディオデータをオーディオ復号部207に送る。またオーディオパケット処理部206は、PESパケットヘッダに含まれているオーディオフレームの表示時刻等を制御部203に送る。
制御部203は、制御部105と同様に、27MHz精度の基準クロックSTCを有する。制御部203は、パケット分離部201から送られたPCR値に基づいて、STC値を復号し、同期処理を行う。また制御部203は、動画像パケット処理部204及びオーディオパケット処理部206から受け取ったピクチャの表示時刻及びオーディオフレームの表示時刻が、STCの値と等しい時に、それぞれ、動画像復号部205及びオーディオ復号部207に対して復号を指示する。
動画像復号部205及びオーディオ復号部207は、それぞれ、制御部203からの復号指示により、ピクチャもしくはオーディオフレームを復号し、復号されたピクチャもしくは復号されたオーディオフレームを出力する。
非特許文献1のMPEG-2 Systems規格では、動画像データ及びオーディオデータの表示時刻は、Presentation Time Stamp(PTS)を用いて記述される。PTSは、動画像データの1以上のピクチャ、及びオーディオデータの1以上のオーディオフレームに対して割り当てられる、90KHz精度の時刻情報である。
MPEG-2 Systems規格のSTD規定では、双方向ピクチャ予測時に用いられるフレームリオーダリングが無い場合には、符号化動画像データの各ピクチャは、PTSで指定された時刻に瞬時的に復号され、かつ、表示される。即ち、復号時刻は、表示時刻と同じである。多重化データ内の各符号化動画像ピクチャは、PTSで示された時刻より前に、そのピクチャの全ての符号化データが多重化動画像復号装置に伝送されるように多重化されている必要がある。
なお、フレームリオーダリングが有る場合には、表示時刻と復号時刻とが一致しないため、復号時刻は、符号化動画像データ内でDecoding Time Stamp(DTS)として明示的に記述される。この場合、多重化データ内の各符号化動画像ピクチャは、DTSで示された時刻より前に、そのピクチャの全てのデータが多重化動画像復号装置に伝送されるように多重化されている必要がある。フレームリオーダリングは、主に、遅延よりも符号化効率を重視する用途で用いられる。フレームリオーダリングによってピクチャ時間単位の遅延が生じるため、フレームリオーダリングは、遅延を重視する用途では用いられない。本明細書では以降、フレームリオーダリングが無い場合を主に想定する。
STD規定では、ピクチャの復号は瞬時に完了する。一方、実際の多重化動画像復号装置に含まれる動画像復号部は、ピクチャを復号するために、一般的には1ピクチャ時間を要する。復号されたピクチャの表示は、そのピクチャの復号が完了してから開始されるのが通常であるので、実際の装置では、PTSよりも1ピクチャ時刻だけ遅れてピクチャの表示が開始される。
図3は、従来技術のMPEG-2 SystemsのTS形式における、動画像多重化装置及び多重化動画像復号装置での1ピクチャの処理のタイミングを示す図である。図3を参照しつつ、従来技術による、動画像多重化装置へのピクチャ入力から、多重化動画像復号装置でのピクチャ出力までの遅延(以降コーデック遅延と表記する)の様子を示す。
図3において、横軸は、STC値により表される経過時間を表す。ブロック301は、動画像多重化装置における1ピクチャの入力から伝送完了までに要する時間を表し、ブロック302は、多重化動画像復号装置における1ピクチャの受信開始から表示完了までに要する時間を表す。
動画像多重化装置は、STC値がt1となる時刻でピクチャの入力を開始し、1ピクチャ時間(例えば、ピクチャレートが29.97 Hzの場合、33ミリ秒)かけて1ピクチャを取りこむ。取り込み完了後、動画像多重化装置は、1ピクチャ時間をかけて入力されたピクチャを符号化する。符号化完了後、動画像多重化装置は、符号化されたピクチャのデータの伝送を開始する。Constant Bit Rate(CBR)動作時には、1ピクチャ当たりの伝送時間の平均値は1ピクチャ時間となる。この場合、動画像多重化装置は、多重化動画像復号装置側で、例えば、STC値が400となるように、PCR値をTSパケットヘッダに記述する。また、ピクチャのPTSをt1とする。
一方、多重化動画像復号装置は、符号化されたピクチャのデータの受信が完了した時刻t1に、復号を開始する。そして多重化動画像復号装置は、1ピクチャ時間をかけてピクチャを復号する。復号完了後、多重化動画像復号装置は、1ピクチャ時間をかけて復号したピクチャを表示する。
このように、コーデック遅延は4ピクチャ時間(例えば、ピクチャレートが29.97 Hzの場合、132ミリ秒)となる。
一般的な双方向映像通信、例えばTV会議システムでは、一方向の遅延時間が100ミリ秒程度であれば、ユーザの一方の発言が終了したのを待ってからユーザの他方が発言する、といった会話であれば、ユーザは、遅延によるストレスをほとんど感じることはない。しかし、同時に双方向で複数のユーザが発言するような場合には、100ミリ秒の遅延により、ユーザはストレスを感じるおそれがある。
他にも、遠隔ロボットの操作を、遠隔ロボットが撮影した映像を元に行う場合、遠隔ロボットでのピクチャ入力から操作端末でのピクチャの表示までの遅延はできる限り小さいことが好ましい、例えば、遅延は、約1ピクチャ時間以下となることが好ましい。
しかしながら、既存のMPEG-2 Systemsを、上記のような、コーデック遅延が約1ピクチャ時間以下となる超低遅延を必要とする用途に適用することは困難である。
そこで本明細書は、符号化された動画像データと、符号化された他のメディアデータとを多重化する時に、コーデック遅延を短縮できる動画像多重化装置を提供することを目的とする。また、そのような動画像多重化装置により多重化されたデータを復号する多重化動画像復号装置を提供することを目的とする。
一つの実施形態によれば、動画像データと、動画像以外の第1のメディアデータとを多重化し出力する動画像多重化装置が提供される。この動画像多重化装置は、動画像データの各ピクチャ及び第1のメディアデータの各符号化単位のそれぞれについて、ピクチャ及び符号化単位の復号時刻及び表示時刻を決定するための第1の復号表示時刻情報と第2の復号表示時刻情報を求める制御部と、動画像データの符号化データを含む動画像パケットにピクチャについての第1の復号表示時刻情報及び第2の復号表示時刻情報を付加する動画像パケット生成部と、第1のメディアデータの符号化データを含むメディアパケットに符号化単位についての第1の復号表示時刻情報及び第2の復号表示時刻情報を付加するメディアパケット生成部と、動画像パケットとメディアパケットとを多重化することによりデータストリームを生成し、そのデータストリームを出力するパケット多重化部とを有する。
第1の復号表示時刻情報は、動画像データの復号単位がピクチャの場合に、動画像データと第1のメディアデータとを同期して表示する時刻を表す情報を含む。一方、第2の復号表示時刻情報は、動画像データの復号単位が、ピクチャを複数に分割して得られるサブピクチャである場合に、動画像データと第1のメディアデータとを同期して表示する時刻を表す情報を含む。そして第2の復号表示時刻情報に基づいて決定されるピクチャの復号時刻及び表示時刻は、第1の復号表示時刻情報に基づいて決定されるピクチャの復号時刻及び表示時刻よりも早い。
他の実施形態によれば、符号化された動画像データと、動画像以外の符号化された第1のメディアデータとが多重化された多重化データを復号する多重化動画像復号装置が提供される。この多重化動画像復号装置は、多重化データに含まれる、動画像データの各ピクチャ及び第1のメディアデータの各符号化単位のそれぞれについて、ピクチャ及び符号化単位の復号時刻及び表示時刻を決定するための第1の復号表示時刻情報と第2の復号表示時刻情報に基づいて、各ピクチャの復号時刻及び表示時刻と、第1のメディアデータの各符号化単位の復号時刻及び表示時刻を決定する制御部と、各ピクチャについて、ピクチャの復号時刻に従ってそのピクチャの復号を開始し、そのピクチャの表示時刻に従ってそのピクチャの表示を開始する動画像復号部と、各符号化単位について、符号化単位の復号時刻に従ってその符号化単位の復号を開始し、その符号化単位の表示時刻に従ってその符号化単位の出力を開始するメディア復号部とを有する。
第1の復号表示時刻情報は、動画像データの復号単位がピクチャの場合に、動画像データと第1のメディアデータとを同期して表示する時刻を表す情報を含む。一方、第2の復号表示時刻情報は、動画像データの復号単位が、ピクチャを複数に分割して得られるサブピクチャである場合に、動画像データと第1のメディアデータとを同期して表示する時刻を表す情報を含む。そして第2の復号表示時刻情報に基づいて決定されるピクチャの復号時刻及び表示時刻は、第1の復号表示時刻情報に基づいて決定されるピクチャの復号時刻及び表示時刻よりも早い。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された動画像多重化装置及び多重化動画像復号装置は、動画像データ及びメディア信号のコーデック遅延を短縮できる。
従来技術のMPEG-2 SystemsのTS形式による動画像多重化装置の概略構成図である。 従来技術のMPEG-2 SystemsのTS形式による多重化動画像復号装置の概略構成図である。 従来技術のMPEG-2 SystemsのTS形式における、動画像多重化装置及び多重化動画像復号装置での1ピクチャの処理のタイミングを示す図である。 超低遅延動画像符号化を行うための、動画像符号化部における符号化制御例を示す図である。 図4の符号化制御を行った場合の、ピクチャ内の発生ビット数の累積経過を示す図である。 第1の実施形態による動画像多重化装置の概略構成図である。 第1の実施形態によるTSパケットヘッダの概略構成図である。 第1の実施形態によるPAT及びPMTの概略構成図である。 第1の実施形態によるDescriptorの概略構成図である。 第1の実施形態によるPESパケットの概略構成図である。 第1の実施形態による、パケット多重化部17の処理フローである。 第1の実施形態による、制御部23の処理フローである。 第1の実施形態による多重化動画像復号装置の概略構成図である。 第1の実施形態による、制御部15の処理フローである。 第1の実施形態によるコーデック遅延の減少度合いを示す図である。 第2の実施形態による、PAT及びPMTの概略構成図である。 第3の実施形態による、PESパケットの概略構成図である。 第4の実施形態による、PESパケットの概略構成図である。 第5の実施形態による、コーデック遅延の減少度合いを示す図である。 第6の実施形態による動画像PESパケットの構造を示す図である。 コンピュータ上で実行する場合の、動画像多重化装置もしくは多重化動画像復号装置の形態である。
以下、図を参照しつつ、第1の実施形態による、動画像多重化装置について説明する。この動画像多重化装置は、動画像データと、他のメディア信号とを、多重化動画像復号装置にて超低遅延で復号及び表示できるように、符号化及び多重化し、その多重化されたデータストリームを出力する。
動画像符号化の観点で、コーデック遅延を削減するには、1ピクチャの符号化データの伝送完了を待たずに、動画像復号部が、一部の符号化データが到着した時に、到着したデータの復号を開始する、というアプローチが挙げられる。実際の動画像復号部では、ピクチャ全体の符号化データの到着以降に復号を開始するよりも、ピクチャ全体の復号完了時刻、即ちピクチャの表示可能時刻が早くなるため、このアプローチにより、コーデック遅延を削減することが可能である。
しかし、ピクチャを分割した複数のブロックのそれぞれに相当する符号化データがいつ動画像復号部に到着するかは、既存の動画像符号化規格、例えば非特許文献2に記載されたAVC規格では規定されていない。最悪の場合、ピクチャ内の先頭ブロック以外のブロックの符号化データのビット数が0となり、ピクチャ内の先頭ブロックの符号化データの最終ビットの到着時刻が、ピクチャ全体の到着時刻と等しくなる。AVC規格に従う場合、最悪の場合に備え、動画像復号部は、結局、ピクチャ全体の復号時刻を待ってから復号処理を行わざるを得ない。
上記の問題を解決するため、現在ITU-T及びMPEGによって検討されている最新の動画像符号化規格である、非特許文献4に開示されたHigh efficiency video coding(HEVC)では、AVC規格のAccess Unit(AU)に加え、Decoding Unit(DU)という概念が導入されている。なお、動画像に関しては、AUは、1枚のピクチャに相当し、DUは、少なくとも一つのスライスNetwork Abstraction Layer(NAL)を含む、複数のNALを有する。すなわち、DUは、複数ブロックを有するサブピクチャに相当する。そしてHEVCでは、AUの復号時刻と共に、DU毎の復号時刻が新たに定義されている。
HEVC規格に準拠する動画像符号化部は、ピクチャ内のDUの個数、各DU内のブロック数、及び各DUのビット量を適切に制御し、かつ、DUの復号時刻を符号化データ内に記述することで、動画像復号部の遅延を削減できる。
HEVC規格では、動画像符号化部は、ピクチャ内のDUの個数、各DU内のブロック数、及びDUの復号時刻(相対値)を符号化データ内に記述する。これらのパラメータは、Picture timing Supplemental Enhancement Information(SEI)の、それぞれ、NumDecodingUnitsMinus1フィールド、NumNalusInDuMinus1フィールド、DuCpbRemovalDelayMinus1フィールドに記述される。
図4は、ピクチャのDU分割と、各DUに割り当てるビット量の一例を示す図である。この例では、一つのピクチャ401の水平方向の各ブロックラインが、それぞれDUとなる。ピクチャ401のライン数をph、ピクチャ401の横方向画素数をpwとし、ブロックの高さ及び幅をそれぞれbh、bwとすると、1ピクチャ当たりのDU数Mは(ph/bh)となる。また、各DU内のブロック数は(pw/bw)となる。
ブロック410−1〜410−Mは、それぞれ、1番目のDU〜M番目のDUの符号化ビット量を表す。動画像符号化部は、例えば、DUの符号化ビット量が均一となるように各DUを符号化する。ピクチャ当たりの符号化ビット量の平均値をbpとすると、DUの符号化ビット量は(bp/M)となる。
各DUの符号化ビット量を均一化するために、例えば、全ブロックをイントラ符号化する方法が採用される。あるいは、各ピクチャに垂直方向のイントラ符号化ブロックライン402を挿入し、所定の周期の複数のピクチャごとにイントラ符号化ブロックラインを水平方向に巡回させる方法が採用されてもよい。何れの方法についても、ブロックによって符号化ビット量は異なるため、動画像符号化部は、適切にビット量を制御する必要があるものの、ブロックライン当たりのイントラ符号化ブロック数を均一化できる。そのため、一般的なインター符号化に比べて、各DUの符号化ビット量を均一化することは容易である。
図5は、動画像符号化部が図4に示されるようにブロックラインごとにピクチャを符号化した場合の、発生する符号化ビット量の累積の様子を示す図である。横軸は時間を表し、縦軸は、ビット量を表す。ピクチャの符号化開始時刻を0とし、動画像符号化部は、1ピクチャ時間sの間に、各DU内のブロックを符号化する。例えば、動画像符号化部は、先頭DUの符号化を時刻0に開始し、時刻1s/Mに先頭DUの符号化を完了する。動画像符号化部は、最終DU(M番目のDU)の符号化を、時刻sで完了する。
グラフ501は、発生ビット量の累積値の時間変化を表わす。先頭DUの符号化完了時刻に、(1b/M)のビット量が発生する。bはピクチャ全体の発生情報量(目標値)である。その後、各DUの符号化完了時刻ごとに、発生ビット量は(1b/M)だけ累積していき、時刻sにおいて、発生ビット量の累積値は、ピクチャの発生情報量bとなる。
グラフ502は、時刻(1s/M)から、一定のレート(b/s)で符号化データが伝送される場合の、伝送ビット量の累積値を表す。グラフ501とグラフ502とを比較すると、グラフ501は、常にグラフ502よりも上にある。このことは、即ち、動画像符号化部の符号化ピクチャバッファのアンダーフローが生じないことを意味する。この点について、逆に、ピクチャの先頭ビットが到着してから時刻(1s/M)後に動画像復号部がピクチャ内の先頭DUの復号を開始し、その後に1ピクチャ時間かけて全てのDUを復号したとする。この場合、動画像復号部の符号化ピクチャバッファのアンダーフローは生じない。非特許文献2に記載のAVC等の規格では、ピクチャ内の全ブロックの復号時刻はsであったので、DU単位での復号開始時刻は、AVC等の規格による復号開始時刻よりも((M-1)s/M)だけ早いことになる。
なお、動画像符号化部及び動画像復号部は、必ずしも1ピクチャの符号化処理または復号処理を、1ピクチャ時間を要して行う必要はなく、1ピクチャ時間よりも短い時間で処理してもよい。ただしこの場合、一つのDUの処理が完了してから、次のDUの処理開始時間の間は、何も行わない時間が生じる。各DUの復号開始時刻、及びそれに対応した符号化開始時刻は、上記の時刻となる必要がある。
HEVC規格では、各DUの復号開始時刻(1s/M)、(2s/M)、・・・を符号化データ内に含め、動画像復号部に対して、各DUの復号開始時刻を明示的に通知する。
なお、図5の縦軸を発生したビット量ではなく、符号化済のピクチャ内ライン数とすれば、動画像符号化部へのピクチャ入力タイミングに対して、ピクチャ符号化開始タイミングがsだけずれる必要はないことが分かる。この例では、ピクチャ入力タイミングに対して符号化開始タイミングが(1s/M)だけずれるだけで、各DUの処理開始時刻までに、必要なラインが動画像符号化部に入力されていることが保証される。なお、動画像復号部においては、上記の議論は一般には成り立たない。この理由は、ブロックライン境界に適用するループ内フィルタによる。ブロックの表示データにループ内フィルタを適用する時刻は、そのブロックの下側に隣接するブロックのループ内フィルタ処理前までの処理が完了した時刻より後になる。
動画像符号化部は、上記のように、非特許文献4に記載のHEVC規格で規定されているように、ピクチャ内のDU(サブピクチャ)単位での復号時刻(非特許文献1に記載のMPEG-2 Systems規格におけるDTSに相当)を明示的に記述する。さらに、動画像符号化部は、DU内のブロック数及びビット量を均一化することで、DU数に比例してコーデック遅延を削減できる。
しかしながら、非特許文献1に記載のMPEG-2 Systems規格では、DU単位の復号時刻が規定されていないため、動画像以外のメディアデータも符号化対象とするシステムレベルでは超低遅延化を達成できない。
本明細書に開示の実施形態は、以下に述べる方式でMPEG-2 Systems規格を拡張し、システムレベルでのコーデック遅延の軽減を達成する。
(1)動画像PESパケットヘッダの拡張
非特許文献1に記載のMPEG-2 Systems規格では、PESパケットヘッダには、内包するAU(のうちの先頭AU)のPTSが記述される。
本方式ではまず、動画像符号化部は、上記のAUのPTSに加え、DUのDTSを表す情報を記述する。多重化データの中で各DUの符号化データが、DUのDTSよりも早い時刻に動画像復号部に到着するように多重化されていることが保証される。
さらに、動画像符号化部は、DUのDTSで示された時刻に、DUの復号を開始する場合の第2のPTSを表す情報を記述する。この第2のPTSは、AUのPTSよりも早い時刻になる。多重化動画像復号装置は、動画像復号部がDUの復号に要する時間がDU時間と同じか、若しくは短い場合に、このPTSからピクチャの表示を開始することで、復号した画素の欠損(復号が完了する前に表示タイミングが来ること)無しにピクチャを表示できる。
なお、DUのDTSを表す情報及び第2のPTSを表す情報が、第2の復号表示情報に相当する。
なお、本方式において、PESパケットヘッダにAUのPTSを残す理由は、一般的な多重化動画像復号装置が必ずしも、超低遅延動作に対応した動画像復号部を有していないためである。例えば、動画像復号部が複数の復号コアを有し、各復号コアが並列に復号処理を行う場合である。復号コアの数がN個とすると、各復号コアのブロック当たりの処理速度が、1ピクチャ時間でピクチャの全ブロックの処理を完了する復号装置の処理速度の1/Nになっても、各ピクチャを破たん無く復号できる。しかし、その代わり復号完了までの遅延が増加し、上記の第2のPTSまでに必要な画素の復号が完了しない。このような場合を想定し、HEVC規格では、動画像復号部が、復号開始のタイミングをAUベースにするか、DUベースにするかを選択可能にしている。
(2)オーディオPESパケットヘッダの拡張
符号化された動画像のPESパケットと同様に、多重化動画像符号化装置の音声符号化部は、PESパケットヘッダに、AU(オーディオの場合はオーディオフレーム)の第1の復号表示情報であるPTSに加え、第2のPTSを表す情報を追加する。この第2のPTSは、多重化動画像復号装置が、動画像のPESパケット内のDUのDTSに基づく復号動作を行う場合に、該当するAUの復号時刻及び表示時刻を決定するために用いられる。多重化データ内にて、各オーディオフレームも、対応する第2のPTSまでに多重化動画像復号装置に到着するように、多重化されていることが保証される。
なお、動画像データに含まれるピクチャは、フレームまたはフィールドの何れであってもよい。フレームは、動画像データ中の一つの静止画像であり、一方、フィールドは、フレームから奇数行のデータあるいは偶数行のデータのみを取り出すことにより得られる静止画像である。
また、動画像データに含まれるピクチャは、カラー動画像であってもよく、あるいは、モノクロ動画像であってもよい。
また、動画像データ以外のメディアデータは、オーディオデータ、または、字幕のような、表示時間情報を持ったメディア情報であってもよい。
オーディオデータは、決められたサンプリングピッチ及びフレーム長にて符号化され、フレームごとに表示時刻が割り当てられる。オーディオデータに対して適用される符号化方法は非特許文献3に記載のMPEG-2 AACのような圧縮符号化であってもよいし、非特許文献5に記載のG.711のようなPCM符号化であってもよい。
なお、本明細書において、「超低遅延符号化」、「超低遅延復号」及び「超低遅延多重化」とは、ピクチャのコーデック遅延が1ピクチャ時間未満となる符号化、復号及び符号化データの多重化をいう。
図6は、第1の実施形態による、動画像多重化装置の概略構成図である。
動画像多重化装置10は、動画像符号化部11と、動画像パケット生成部12と、オーディオ符号化部13と、オーディオパケット生成部14と、制御部15と、システムパケット生成部16と、パケット多重化部17と、超低遅延多重化決定部18とを有する。
動画像多重化装置10が有するこれらの各部は、それぞれ、別個の回路として動画像多重化装置10に実装される。あるいは、動画像多重化装置10が有するこれらの各部は、その各部の機能を実現する回路が集積された一つの集積回路として動画像多重化装置10に実装されてもよい。あるいはまた、動画像多重化装置10が有するこれらの各部は、動画像多重化装置10が有するプロセッサ上で実行されるコンピュータプログラムにより実現される機能モジュールであってもよい。
また、動画像符号化部11及びオーディオ符号化部13は動画像多重化装置10において省略されてもよい。この場合、動画像データ及びオーディオデータは、それぞれ、他の機器で符号化された後、動画像多重化装置10に入力される。各ピクチャのV-Sync時刻、及び各オーディオフレームの先頭サンプルの取り込み時刻は、動画像データ及びオーディオデータを符号化する他の機器から与えられる。
動画像符号化部11は、制御部15から指示される符号化方法に従って、入力された動画像データを符号化する。指示される符号化方式は、非特許文献4に記載のHEVC規格や、他の規格、例えば非特許文献2に記載のAVC規格とすることができる。指示された符号化方法がHEVC規格の場合、動画像符号化部11は、制御部15から指示される超低遅延多重化制御信号により、超低遅延符号化を行うか否かを判定する。
動画像符号化部11は、動画像データを超低遅延符号化する場合、インター符号化において前方向予測符号化のみを使用するといった、ピクチャリオーダリングを行わない符号化方式を使用する。さらに、動画像符号化部11は、各ピクチャが均一なビット量となるようにビットレートを制御することにより、動画像データ内の各ピクチャを符号化する。また、動画像符号化部11は、各ピクチャを複数のDUに分割し、各DUに含まれるブロック数及びビット量が均一になるように、各ピクチャを符号化する。そして動画像符号化部11は、各DUの復号時刻、及び超低遅延動作時の表示時刻を制御部15に通知する。
一方、動画像符号化部11は、動画像データを超低遅延符号化しない場合、インター符号化において双方向予測符号化といったピクチャリオーダリングを行う方式を用いてもよい。また、各ピクチャの符号化ビット量は均一にならなくてもよい。さらに、動画像符号化部11は、ピクチャを複数のDUに分割しなくてもよく、ピクチャを複数のDUに分割した場合でも、各DUに含まれるブロック数または符号化ビット量を均一にしなくてもよい。
動画像符号化部11は、符号化動画像データを動画像パケット生成部12に送る。
動画像パケット生成部12は、動画像符号化部11から送られた符号化動画像データを、ピクチャごとにPESパケット化する。さらに、動画像パケット生成部12は、PESパケット化された符号化動画像データをTSパケット化した後、そのTSパケット多重化部17に送る。その際、動画像パケット生成部12は、AVC規格といった従来の符号化規格に従って、動画像復号部がピクチャを復号する際の復号時刻及び表示時刻に関する情報と、ピクチャを超低遅延復号する際の復号時刻及び表示時刻に関する情報とを、TSパケットに含める。
PESパケット化の動作は、以降で説明する。
オーディオ符号化部13は、制御部15から指示される符号化方法に従って、入力されたオーディオデータを符号化する。指示される符号化方式は、非特許文献3に記載のMPEG-2 AAC規格、非特許文献5に記載のG.711規格、もしくは他のオーディオ符号化規格に準拠する方式とすることができる。制御部15から動画像符号化部11に指示される超低遅延多重化制御信号が、超低遅延符号化を示す場合、制御部15は、オーディオ符号化部13に対しても、遅延が少ない符号化方式を指示する。特に、フレーム当たりの入力から再生までの遅延を約10ミリ秒以下にする場合には、制御部15は、例えば、G.711規格に準拠する方式をオーディオ符号化部13に指示する。
オーディオ符号化部13は、符号化オーディオデータをオーディオパケット生成部14に送る。
オーディオパケット生成部14は、オーディオ符号化部13から送られた符号化オーディオを、オーディオフレームごとにPESパケット化する。さらに、オーディオパケット生成部14は、PESパケット化された符号化オーディオデータをTSパケット化する。
その際、オーディオパケット生成部14は、AVC規格といった従来の符号化規格に従ってオーディオ復号部がオーディオフレームを復号する際の復号時刻及び表示時刻に関する情報と、オーディオフレームを超低遅延復号する際の復号時刻及び表示時刻に関する情報とを、TSパケットに含める。
その後、オーディオパケット生成部14は、そのTSパケット多重化部17に送る。
超低遅延多重化決定部18は、図示しない外部からの超低遅延多重化制御信号、及び動画像符号化部11が超低遅延符号化に対応するか否かの情報に基づき、超低遅延多重化するか否かを決定し、その結果を制御部15に通知する。超低遅延多重化制御信号が「超低遅延多重化を行う」ことを示しており、かつ動画像符号化部11が超低遅延符号化に対応する場合に、超低遅延多重化決定部18は、超低遅延多重化を行うと判定する。それ以外の場合には、超低遅延多重化決定部18は、超低遅延多重化を行わないと判定する。
制御部15は、同期制御の基準クロックである、27 MHz精度のSTCを有する。
制御部15は、超低遅延多重化決定部18から通知される超低遅延符号化制御信号に応じて、動画像符号化部11及びオーディオ符号化部13に対し、それぞれ動画像符号化方法及びオーディオ符号化方法を通知する。
また制御部15は、動画像符号化部11、動画像パケット生成部12、オーディオ符号化部13、オーディオパケット生成部14及びシステムパケット部16に超低遅延符号化制御信号を通知する。ここで、制御部15は、動画像符号化部11に対して、「超低遅延符号化を行う」ことを指示する超低遅延符号化制御信号を通知した場合、ピクチャの各DUの復号時刻、及び超低遅延符号化時の表示時刻(第2の表示時刻)を算出し、動画像パケット生成部12に通知する。なお、各DUの復号時刻及び表示時刻については後述する。
また制御部15は、入力された動画像データの垂直同期信号V-SyncのタイミングでのSTC値を、各ピクチャの表示時刻(第1の表示時刻)として、動画像パケット生成部12に、超低遅延符号化制御信号と併せて通知する。この場合、制御部15はさらに、ピクチャの第1の表示時刻と第2の表示時刻と、入力オーディオデータのオーディオフレーム先頭サンプルのタイミングでのSTC値を、オーディオパケット生成部14に、超低遅延符号化制御信号と併せて通知する。
システムパケット生成部16は、システム情報であるProgram Specific Information(PSI)を格納するシステムTSパケットを生成する。具体的なシステムTSパケットの内容は、以降で説明する。
パケット多重化部17は、動画像パケット生成部12が出力する動画像TSパケット、オーディオパケット生成部14が出力するオーディオTSパケット、及びシステムパケット生成部16が出力するシステムTSパケットを多重化して、TSストリームを生成する。そしてパケット多重化部17は、TSストリームを出力する。パケット多重化部17は、MPEG-2 Systems規格のSTD (System Target Decoder)規定に準拠するように各パケットを多重化する。さらに、制御部15から「超低遅延符号化を行う」ことを指示する超低遅延符号化制御信号が通知された場合、パケット多重化部17は、多重化動画像復号装置のSTC値が、そのペイロードに含まれるピクチャのDTSよりも時刻的に前に到達するように、動画像TSパケットを多重化する。なお、ペイロードに含まれるピクチャのDTSは、例えば、動画像PESパケットヘッダに記述される。
さらに、制御部15から「超低遅延符号化を行う」ことを指示する超低遅延符号化制御信号が通知された場合、パケット多重化部17は、多重化動画像復号装置のSTC値が、そのペイロードに含まれるオーディオフレームの第2のPTSよりも時刻的に前に到達するように、オーディオTSパケットを多重化する。なお、ペイロードに含まれるオーディオフレームの第2のPTSは、例えば、オーディオPESパケットヘッダに記述される。
パケット多重化部17が、このように多重化することで、動画像データの復号単位がサブピクチャ(DU)である場合、各ピクチャについて、ピクチャ内の先頭のサブピクチャに相当する符号化データ及びオーディオフレームの符号化データが、超低遅延復号時のピクチャの復号時刻と同じか、もしくはより早く、多重化動画像復号装置に到達できる。
以下、第1の実施形態による、システムTSパケット、動画像PESパケット、及びオーディオPESパケットのデータ構造について説明する。
まず図7を用いて、一般的なTSパケットのデータ構造を説明する。
TSストリーム700は、連続する複数のTSパケット701を含む。TSパケット701のそれぞれは固定長を持つ。本実施例では、TSパケット701の長さは188Byteである。
TSパケット701は、先頭から順に、TSヘッダ702と、AdaptationField703と、ペイロード704とを含む。
TSヘッダ702は、AdaptationFieldControlフィールド、PIDフィールドといった複数のフィールドを有する。各フィールドの意味と値は、非特許文献1に記載のMPEG-2 Systems規格に従う。
AdaptationField703は、TSヘッダ702内のAdaptationFieldControlフィールドが'10'もしくは'11'の場合に出現する。AdaptationField703も、MPEG-2 Systems規格に従う複数のフィールドを有する。
ペイロード704は、TSヘッダ702のAdaptationFieldControlフィールドが'01'もしくは'11'の場合に出現する。TSヘッダ702のPIDフィールドの値が、動画像PESパケットであることを表す場合、TSパケット701は動画像TSパケットであり、ペイロード704には動画像PESパケットが細分化されたデータが格納される。一方、TSヘッダ702のPIDフィールドの値が、オーディオPESパケットであることを表す場合、TSパケット701はオーディオTSパケットであり、ペイロード704にはオーディオPESパケットが細分化されたデータが格納される。
また、TSヘッダ702のPIDフィールドの値が'0x0'である場合、もしくは後述するProgramMapIDの値である場合、TSパケット701はシステムTSパケットである。そしてペイロード704には、それぞれ、Program Association Table(PAT)もしくはProgram Map Table(PMT)が格納される。
次に、図8を用いて、第1の実施形態によるシステムTSパケットのデータ構造を説明する。
第1の実施形態によるシステムTSパケット801は、Program Association Table(PAT)をペイロードに含むTSパケットである。システムTSパケット801も、図7に示されるTSパケットと同様に、先頭から順に、TSヘッダ802と、AdaptationField803と、ペイロード804とを含む。この場合、TSパケットヘッダ802のPIDフィールドには'0'が設定される。
ペイロード804には、MPEG-2 Systems規格で規定される、PATの各フィールドが含まれる。本実施形態では、TableIDフィールドの値は0に設定される。また、ProgramMapIDは、個々のプログラムの構成が記述されたProgram Map Table(PMT)を含むシステムTSパケットのPIDを記述する。この例ではProgramMapIDには、'A'が記述される。
一方、TSパケット811は、PMTをペイロードに含むTSパケットである。TSパケット811も、先頭から順に、TSヘッダ812と、AdaptationField813と、ペイロード814とを含む。この場合、TSパケットヘッダ812のPIDフィールドには'A'が設定される。
ペイロード814には、MPEG-2 Systems規格で規定される、PMTの各フィールドが含まれる。この例では、TableIDフィールドは'2'に設定される。
StreamTypeは、各エレメンタリーストリームの種別が記述される。例えば、非特許文献2に記載のAVC規格、非特許文献3に記載のMPEG-2 AAC規格、及び非特許文献4に記載のHEVC規格のエレメンタリーストリームでは、StreamTypeには、それぞれ、'0x1B'、'0x0F'、'0x24'が設定される。
ElementaryPIDには、各エレメンタリーストリームが格納されるTSパケットのPIDが記述される。
ESInfoLengthに後続するDescritorは、エレメンタリーストリームの種別毎に定義される複数のフィールドを有する。Descritorの数は、ESInfoLengthに依存する。詳細は以降で説明する。
図9を用いて、エレメンタリーストリームがHEVC規格に準拠する場合における、第1の実施形態のDescriptorフィールドの構造を説明する。この例では、2種類のDescriptorが規定される。
Descriptor901は、HEVCビデオデスクリプタである。フラグSubPicLowDelayFlagより上の各フィールドは、非特許文献6に記載されたHEVC規格の同一名デスクリプタの各フィールドに対応する。
本実施形態では、これらの各フィールドに、フラグSubPicLowDelayFlagが追加される。フラグSubPicLowDelayFlagは、超低遅延符号化を行うか否かを表すフラグである。本実施形態では、フラグSubPicLowDelayFlagが'0'である場合に、動画像多重化装置10は、動画像データを超低遅延符号化する。フラグSubPicLowDelayFlagが'0'である場合、動画像PESに第1のPTSと第2のPTS情報(詳細は後述)とが含まれ、それ以外のエレメンタリーストリームのPESにも第1のPTSと第2のPTS情報とが含まれる。
一方、フラグSubPicLowDelayFlagが'1'である場合には、動画像多重化装置10は、動画像データを超低遅延符号化しない。この場合、動画像PESに第1のPTSと第2のPTS情報とが含まれてもよいが、それ以外のエレメンタリーストリームのPESに第2のPTS情報は含まれない。即ち、フラグSubPicLowDelayFlagが'1'である場合には、動画像以外のエレメンタリーストリームは、超低遅延符号化ができるように多重化されていないことを意味する。
なお、フラグSubPicLowDelayFlagが'0'であることが、超低遅延符号化が行われていることを示す理由は、既存の規格との互換性を保つためである。このように規定することにより、フラグSubPicLowDelayFlagのフィールドとして、既存規格では値が'1'と規定されるリザーブビットの一つを利用できるので、符号化効率の低下が抑制される。
Descriptor902は、HEVC timing and HRDデスクリプタである。SubPicParamPresentFlagより上のフィールドは、非特許文献6に記載されたHEVC規格の同一名デスクリプタの各フィールドに対応する。
本実施形態では、これらの各フィールドに、フラグSubPicParamPresentFlagが追加される。SubPicParamPresentFlagは、超低遅延符号化を行うか否かを表すフラグである。本実施形態では、フラグSubPicParamPresentFlagは、超低遅延符号化を行う場合、HEVCエレメンタリーストリームのVideo Usability Information(VUI)内のSubPicParamPresentFlagを反転させた値に設定される。すなわち、フラグSubPicLowDelayFlagが'1'である場合は、フラグSubPicParamPresentFlagは必ず'0'である。
次に図10を用いて、動画像PESパケット及びオーディオPESパケットを含む、エレメンタリーストリームPESパケットの構造について説明する。
リスト1000は、PESパケットの内部フィールドのリストである。第1の実施形態によるPESパケットは、MPEG-2 Systems規格のPESパケットに含まれる各フィールドの他に、第2の復号表示情報であるSecondPTSDelta及びAdditionalDTSDeltaを含む。
本実施形態では、超低遅延符号化が行われる場合、すなわち、TSパケットのDescriptor内のSubPicLowDelayFlagが'0'である場合、ピクチャのリオーダリングが行われない。そのため、PTSDTSFlagは、必ず、DTSが規定されないことを表す、2bitで'10'の値になる。
PTSには、第1のPTS値、即ち超低遅延符号化を行わない場合のPTS値が格納される。
また、DTSは、PTSDTSFlagが'10'の場合には出現しない。
PESの拡張が行われることを表すフラグPESExtensionFlagは、PESPrivateDataFlagからStuffByteより前のフィールドが出現する場合には'1'となる。本実施形態において、TSパケットのHEVC Descriptor内のSubPicLowDelayFlagが'0'である場合、すなわち、超低遅延符号化が行われる場合、PESExtensionFlagは、必ず'1'とする。
また、SubPicLowDelayFlagが'0'である場合、すなわち、超低遅延符号化が行われる場合、StreamIdExtensionは、必ず'1'とする。同様に、SubPicLowDelayFlagが'0'である場合、すなわち、超低遅延符号化が行われる場合、TREFExtensionFlagは、必ず'0'とする。
AlternativePTSDTSFlagは、超低遅延符号化が行われるか否かを表すフラグである。HEVC DescriptorのSubPicLowDelayFlagが'0'である場合、すなわち、超低遅延符号化が行われる場合、AlternativePTSDTSFlagは、必ず'0'とする。AlternativePTSDTSFlagが'0'であることは、PESパケットに、第2の復号表示情報であるSecondPTSDelta及びAdditionalDTSDeltaが含まれることを表す。
パラメータSecondPTSDeltaは、多重化動画像復号装置が超低遅延復号を行う場合に用いる、PTSを算出するためのパラメータである。SecondPTSDeltaは、SubPicLowDelayFlagが'0'である場合に出現する。導出方法及び利用方法は後述する。
パラメータAdditionalDTSDeltaは、多重化動画像復号装置が超低遅延復号を行う場合に用いる、DTSを算出するためのパラメータである。AdditionalDTSDeltaは、SubPicLowDelayFlagが'0'である場合に出現する。導出方法及び利用方法は後述する。
PESPacketDataByteは、一つのAUデータが格納される。
第1の実施形態による、動画像データを超低遅延符号化する際の、動画像PESパケット、及びオーディオPESパケットに記述する復号・表示時刻情報の生成方法を説明する。なお、動画像データを超低遅延符号化しない場合における、動画像PESパケット、及びオーディオPESパケットに記述する復号・表示時刻情報の生成方法は、例えば、HEVC規格に準拠する。
まず制御部15は、処理ピクチャのV-Syncタイミングに相当する内部STC値を、動画像PESの第1のPTSとする。STCの精度は27MHzであり、PTSの精度は90KHzであるので、制御部15は、STC値を300で割った値を、第1のPTS値とする。
次に、制御部15は、ピクチャ内の先頭DUの復号開始時刻オフセットDeltaDTS、及びピクチャの表示開始時刻オフセットDeltaPTSを算出する。これらの値の単位は、例えば27MHzである。動画像符号化部11が、図4に示されるように、ピクチャ内の各DUの構造を決定し、かつ、DUごとに割り当てられる符号化ビット量を決定した場合、制御部15は、DeltaDTS及びDeltaPTSを、それぞれ、(M-1)s/M及び(M-3)s/Mとする。Mは、1ピクチャに含まれるDUの個数であり、sは、1ピクチャ時間である。なお、DeltaDTSが(M-2)s/Mではなく、(M-3)s/Mである理由は、HEVC規格のループ内フィルタがDU間の境界を跨いで適用されることによる。そのため、復号対象となるブロックラインを表示するためには、そのブロックラインの下側に隣接するブロックラインの、ループ内フィルタより前の処理が完了している必要がある。
なおDeltaDTS及びDeltaDTSの値は、動画像符号化部11が最初のピクチャの符号化を完了する前に決定され、以降のピクチャにてDeltaDTS及びDeltaDTSの値は不変とする。逆に言うと、動画像符号化部11は、各ピクチャのDU構造を不変とし、かつ、全てのピクチャにおいて、DUの符号化ビット量の累積値が、伝送されたビット量の累積値以上となるように各DUの符号化ビット量を制御する。なお、動画像符号化部11は、ピクチャごと、及びDUごとの符号化ビット量の変動を加味し、DeltaDTS及びDeltaPTSを同じ値だけ小さくしてもよい。DeltaDTSを小さくするということは、図5に示されたグラフ502を右方向に水平移動することに対応する。
次に、制御部15は、処理オーディオフレームの先頭サンプルの入力タイミングに相当する内部STC値を、オーディオPESの第1のPTSとする。
そして制御部15は、動画像PESパケットのSecondPTSDelta及びAdditionalDTSDeltaを、それぞれ、DeltaPTS及びDeltaDTSとする。また、制御部15は、オーディオPESパケットのSecondPTSDeltaをDeltaPTSとし、AdditionalDTSDeltaを、1オーディオフレーム時間とする。
第1の実施形態による、動画像多重化装置の処理フローを、図11及び図12を用いて説明する。
図11の処理フローは、制御部15の処理フローである。
制御部15は、動画像多重化開始に先立ち、STC値を所定の値(例えば0)にリセットし、STCのカウントアップを開始する(ステップS101)。また制御部15は、パケット多重化部17に対し、多重化開始を指示する。
次に、制御部15は、動作モードを決定する(ステップS102)。制御部15は、外部の機器からの超低遅延符号化制御信号に従って、動画像データ及びオーディオデータを超低遅延符号化動作するか否かを決定する。そして制御部15は、動画像符号化部11、動画像パケット生成部12、オーディオ符号化部13、オーディオパケット生成部14、及びシステムパケット生成部16に対し、超低遅延符号化動作するか否かを通知して、各部の動作モードを決定させる。さらに、制御部15は、システムパケット生成部16に対して、システムTSパケットを所定の間隔で生成開始するように指示する。
次に、制御部15は、動画像データのV-Syncが入力されたか、もしくはオーディオデータの1オーディオフレームの先頭サンプルが入力されたかを確認する(ステップS103)。V-Syncまたは先頭サンプルが入力された場合(ステップS103−Yes)、制御部15は、符号化単位の先頭が入力された瞬間のSTC値を第1のPTSとする(ステップS104)。具体的には、制御部15は、入力された動画像データのV-Syncが入力された場合、入力されたタイミングのSTC値を、このV-Syncに対応するピクチャの第1のPTSとする。また制御部15は、ピクチャを符号化開始待ちの状態に設定し、この時刻から所定の時間(図4の1s/M)だけ経過した時刻を、このピクチャの符号化開始時刻とする。
一方、オーディオデータの1オーディオフレームの先頭サンプルが入力された場合、制御部15は、入力されたタイミングのSTC値を、このオーディオフレームの第1のPTSとする。また制御部15は、オーディオフレームを符号化開始待ちの状態に設定し、この時刻から所定の時間(1オーディオフレーム時間)だけ経過した時刻を、このオーディオフレームの符号化開始時刻とする。
制御部15は、これらの入力確認を並列的に行う。即ち、V-Sync入力と1オーディオフレームの先頭サンプル入力とが同時に発生した場合、制御部15は、動画像データに対応するPTS値とオーディオデータに対するPTS値に同じ値を設定する。
ステップS104の後、あるいは、ステップS103にて、V-Sync及び先頭サンプルの何れも入力されていない場合(ステップS103−No)、制御部15は、符号化開始待ちのピクチャもしくはオーディオフレームがあり、かつそれらの符号化開始時刻と、STC値に一致、もしくは経過したかを確認する(ステップS105)。ステップS105の条件が満たされる場合(ステップS105−Yes)、制御部15は、ピクチャもしくはオーディオフレームの符号化開始指示を、それぞれ、動画像符号化部11もしくはオーディオ符号化部13に通知する(ステップS106)。また制御部15は、ピクチャ及びオーディオフレームを超低遅延符号化する場合、動画像符号化部11から通知されたDUごとの符号化ビット量に基づいて、超低遅延復号時のピクチャ及びオーディオフレームの復号・表示時刻情報を求める(ステップS107)。さらに、制御部15は、動画像パケット生成部12もしくはオーディオパケット生成部14に対し、それぞれ、ピクチャの復号・表示時刻情報、オーディオサンプルの復号・表示時刻情報を通知する。ピクチャの復号・表示時刻情報における第1のPTS、もしくはオーディオサンプルの復号・表示時刻情報における第1のPTSは、それぞれ、ステップS104で取得したSTC値に基づいて決定される。ステップS107の後、制御部15は、ステップS103以降の処理を実行する。
一方、ステップS105の条件が満たされない場合(ステップS105−No)、制御部15は、動画像データ及びオーディオデータの符号化が完了したか否か判定する(ステップS108)。具体的には、制御部15は、多重化処理を完了させる外部からの制御信号が入力されたか否か、及び、未符号のピクチャもしくはオーディオフレームが有るか否かを確認する。多重化処理を完了させる外部からの制御信号が入力された場合、または、未符号のピクチャ及びオーディオフレームがない場合、制御部15は、符号化が完了したと判定する。そして制御部15は、多重化処理を完了する。
一方、多重化処理を完了させる外部からの制御信号が入力されておらず、かつ、未符号のピクチャもしくはオーディオフレームが有る場合(ステップS108−No)、制御部15は、ステップS103以降の処理を実行する。
図12の処理フローは、パケット多重化部17の処理フローである。
パケット多重化部17は、出力待ち状態にあるTSパケットが存在するか否か確認する(ステップS201)。なお、出力待ち状態にあるTSパケットは、動画像パケット生成部12で生成され、まだパケット多重化部17から出力されていない動画像TSパケット、オーディオパケット生成部14で生成され、まだパケット多重化部17から出力されていないオーディオTSパケット、もしくはシステムパケット生成部16で生成され、まだパケット多重化部17から出力されていないシステムTSパケットである。
出力待ちTSパケットが存在する場合(ステップS201−Yes)、パケット多重化部17は、動画像TSパケット、オーディオTSパケット、システムTSパケットの中で、次に出力するTSパケットを決定する(ステップS202)。もし一種類のTSパケットのみが出力可能な状態の場合、パケット多重化部17は、その種類を選択する。もし複数種類のTSパケットが出力可能な状態の場合は、パケット多重化部17は、各種類のTSパケットが偏り無く出力されるように一つの種類のTSパケットを選択する。パケット多重化部17は、パケットの種類の選択方法として、例えば、前に動画像TSパケットをn1個連続出力したら、次にオーディオパケットをn2個連続出力し、さらにシステムTSパケットをn3個連続出力する、といった重み付け巡回方式を採用できる。重みn1, n2, n3は、動画像、オーディオ、システムの各TSパケットの送出頻度等に基づいて決定される。なお、この実施形態では、符号化動画像及び符号化オーディオのビットレートの合計値よりも、システム全体のビットレートが大きいことを前提にしている。
パケット多重化部17は、次に出力するTSパケットがシステムTSパケットか否か判定する(ステップS203)。次に出力するTSパケットがシステムTSパケットである場合(ステップS203−Yes)、パケット多重化部17は、TSパケットのAdaptation FieldにPCR値を設定する(ステップS204)。PCR値は、PCRを記述するフィールドの特定のByte位置のByteがシステム多重部17から出力される瞬間のSTC値から所定の値を減算した値とする。所定の値は例えば、後述する図15のOffsetSTCに相当する値とする。
ステップS204の後、またはステップS203にて次に出力するTSパケットがシステムTSパケットでない場合(ステップS203−No)、パケット多重化部17は、選択した種類のTSパケットを一つ出力する(ステップS205)。その後、パケット多重化部17は、ステップS201以降の処理を実行する。
一方、ステップS201にて、出力待ちパケットが存在しない場合(ステップS201−No)、パケット多重化部17は、NULLパケットを出力する(ステップS206)。NULLパケットは、PIDが0x1FFFとなるTSパケットである。NULLパケットは、多重化ストリームのビットレートを一定に保つ等の目的で使用される。
ステップS206の後、パケット多重化部17は、符号化された動画像データと符号化されたオーディオデータの多重化が完了したか否か判定する(ステップS207)。制御部15から多重化動作の終了指示があり、かつ、出力待ちパケットが存在しない場合、パケット多重化部17は、符号化された動画像データと符号化されたオーディオデータの多重化が完了したと判定する。多重化が完了していない場合(ステップS207−No)、パケット多重化部17は、ステップS201以降の処理を実行する。一方、多重化が完了した場合(ステップS207−Yes)、パケット多重化部17は多重化処理を終了する。
次に、動画像多重化装置10により多重化された動画像データを復号する多重化動画像復号装置について説明する。
図13は、第1の実施形態による、多重化動画像復号装置の概略構成図である。
多重化動画像復号装置20は、パケット分離部21と、システムパケット処理部22と、制御部23と、動画像パケット処理部24と、動画像復号部25と、オーディオパケット処理部26と、オーディオ復号部27と、超低遅延復号決定部28とを有する。
多重化動画像復号装置20が有するこれらの各部は、それぞれ、別個の回路として多重化動画像復号装置20に実装される。あるいは、多重化動画像復号装置20が有するこれらの各部は、その各部の機能を実現する回路が集積された一つの集積回路として多重化動画像復号装置20に実装されてもよい。あるいはまた、多重化動画像復号装置20が有するこれらの各部は、多重化動画像復号装置20が有するプロセッサ上で実行されるコンピュータプログラムにより実現される機能モジュールであってもよい。
パケット分離部21は、TSパケットのヘッダ情報に基づいて、システムパケット処理部22と連携して、各TSパケットのペイロード部分に入っているデータの種別を特定する。そしてパケット分離部21は、動画像パケット処理部24、オーディオパケット処理部26及びシステムパケット処理部22に、それぞれ、動画像PESパケット、オーディオPESパケット及びPSI情報を送る。またパケット分離部21は、TSヘッダに入っているPCR値を、そのByte位置情報と共に制御部23に送る。
システムパケット処理部22は、システムTSパケットのペイロード部分に入っているPSI情報を処理し、復号対象のプログラムに含まれる動画像及びオーディオのPIDを獲得し、それらのPIDをパケット分離部21に通知する。
システムパケット処理部22はまた、PMTのSubPicLowDelayFlagパラメータを超低遅延復号決定部28に通知する。
動画像パケット処理部24は、パケット分離部21から受け取った、動画像TSパケットのペイロードに格納されていた動画像PESパケットのペイロードに含まれている符号化動画像データを動画像復号部25に送る。また動画像パケット処理部24は、PESパケットに含まれているピクチャの表示・復号時刻情報を制御部23に送る。
オーディオパケット処理部26は、パケット分離部21から受け取った、動画像TSパケットのペイロードに格納されていたオーディオPESパケットのペイロードに含まれている符号化オーディオデータをオーディオ復号部27に送る。またオーディオパケット処理部26は、PESパケットに含まれているオーディオフレームの表示・復号時刻情報を制御部23に送る。
制御部23は、動画像多重化装置10の制御部15と同様に、27MHz精度の基準クロックSTCを有する。そして制御部23は、パケット分離部21から受け取ったPCR値に基づいて、STC値を復号し、かつ同期処理を実行する。また制御部23は、動画像パケット処理部24及びオーディオパケット処理部26から受け取ったピクチャの表示・復号時刻情報、オーディオフレームの表示・復号時刻情報に基づいて、ピクチャ及びオーディオフレームのそれぞれの復号時刻及び表示時刻を決定する。そして制御部23は、復号時刻及び表示時刻がSTCの値と同じになった時に、それぞれ、動画像復号部205及びオーディオ復号部207に対し復号指示及び表示指示を出す。
動画像復号部25及びオーディオ復号部27は、それぞれ、制御部23からの復号指示により、ピクチャもしくはオーディオフレームを復号し、制御部23からの表示指示に従い復号ピクチャもしくは復号オーディオフレームを出力する。
超低遅延復号決定部28は、システムパケット処理部22から通知されるフラグSubPicLowDelayFlagと、図示しない多重化動画像復号装置20の外部の機器からの超低遅延復号動作指示、及び動画像復号部25の超低遅延復号動作の可否情報に基づいて、超低遅延復号動作を行うか否かを決定する。フラグSubPicLowDelayFlagが'0'で、かつ超低遅延復号動作指示があり、かつ動画像復号部25の超低遅延復号動作が可能である場合に、超低遅延復号決定部28は、制御部23に、超低遅延復号動作を実行することを指示する。それ以外の場合は、超低遅延復号決定部28は、制御部23に超低遅延復号動作を実行することを指示しない。
第1の実施形態による、多重化動画像復号装置20における、各動画像ピクチャ、及び各オーディオフレームの復号時刻及び表示時刻の導出方法を説明する。以降の説明では、フラグSubPicLowDelayFlagが'0'である場合、即ち、ピクチャリオーダリングが無く、動画像PESパケットにDTSが出現しない場合について説明する。なお、フラグSubPicLowDelayFlagが'1'である場合には、各動画像ピクチャ及び各オーディオフレームの復号時刻及び表示時刻は、AVCの規格またはHEVCの規格に準拠した方式に従って導出される。
超低遅延復号決定部28が、超低遅延復号を指示しない場合、各動画像ピクチャ及び各オーディオフレームの復号時刻及び表示時刻は以下のように導出される。
動画像復号部25及びオーディオ復号部27は、それぞれ、1ピクチャの復号に要する時間VideoDecDelayもしくは1オーディオフレームの復号に要する時間AudioDecDelayを求める。これらの時間情報は、動画像復号部25及びオーディオ復号部27が、それぞれ、符号化動画像及び符号化オーディオの先頭AUのパラメータ(例えばピクチャサイズ、オーディオフレーム長)に基づいて決定する。例えば、時間VideoDecDelay及び時間AudioDecDelayは、それぞれ、1ピクチャ時間、1オーディオフレーム時間になる。時間VideoDecDelay及びAudioDecDelayの精度は、例えば、27MHz、あるいは90KHzであってもよい。そして動画像復号部25は、VideoDecDelayを制御部23に通知し、オーディオ復号部27は、AudioDecDelayを制御部23に通知する。制御部23は、VideoDecDelay及びAudioDecDelayのいずれか大きい方の値を復号遅延DecDelayとする。
制御部23は、動画像の各ピクチャの復号時刻を、動画像PESパケット中の対応PTSを300倍した値(27MHz精度)とする。STC値がこの値と等しくなったときに、制御部23は、動画像復号部25に対しそのピクチャの復号を指示する。
また動画像の各ピクチャの表示時刻は、復号時刻に復号遅延DecDelayを加算した時刻とする。STC値がこの値と等しくなったときに、制御部23は、動画像復号部25に対しそのピクチャの表示を指示する。
制御部23は、オーディオの各オーディオフレームの復号時刻を、オーディオPESパケット中の対応PTSを300倍した値(27MHz精度)とする。STC値がこの値と等しくなったときに、制御部23は、オーディオ復号部27に対しそのオーディオフレームの復号を指示する。またオーディオの各オーディオフレームの表示時刻は、復号時刻に復号遅延DecDelayを加算した時刻とする。STC値がこの値と等しくなったときに、制御部23は、オーディオ復号部27に対しそのオーディオフレームの出力を指示する。
一方、超低遅延復号決定部28が、超低遅延復号を指示する場合、各動画像ピクチャ及び各オーディオフレームの復号時刻及び表示時刻は以下のように導出される。
制御部23は、動画像の各ピクチャの復号時刻を、動画像PESパケット中の対応PTSを300倍した値から動画像PESパケット中のAdditionalDTSDeltaを減算した時刻とする。また制御部23は、動画像の各ピクチャの表示時刻を、動画像PESパケット中の対応PTSを300倍した値から動画像PESパケット中SecondPTSDeltaを減算した時刻とする。
制御部23は、オーディオの各オーディオフレームの復号時刻を、オーディオPESパケット中の対応PTSを300倍した値から、PESパケット中のAdditionalDTSDeltaを減算した時刻とする。また制御部23は、オーディオの各オーディオフレームの表示時刻を、オーディオPESパケット中の対応PTSを300倍した値から、PESパケット中のSecondPTSDeltaを減算した時刻とする。
図14は、第1の実施形態による、多重化動画像復号装置20の制御部23の処理フローである。
制御部23はまず、多重化動画像復号装置20全体を初期化する(ステップS301)。次に、制御部23は、受信した多重化動画像データ内のシステムTSパケットを解析し、そのTSパケットのペイロードに含まれるPAT及びPMTの情報を取得する(ステップS302)。
次に、制御部23は、PAT及びPMTから判定される超低遅延符号化の有無、動画像復号部25の超低遅延復号への対応可否、及び外部機器からの超低遅延復号動作指示に基づき、超低遅延復号を行うか否かを決定する(ステップS303)。
その後、制御部23は、動画像パケット処理部24もしくはオーディオパケット処理部26に、それぞれ、動画像PESパケットの先頭データを含む動画像TSパケット、もしくはオーディオPESパケットの先頭データを含むオーディオTSパケットが到着したか否かを判定する(ステップS304)。動画像PESパケットの先頭データを含む動画像TSパケットまたはオーディオPESパケットの先頭データを含むオーディオTSパケットが到着した場合(ステップS304−Yes)、制御部23は、動画像パケット処理部24もしくはオーディオパケット処理部26に対してPESパケットの解析を指示する(ステップS305)。到着したPESパケットの種別が動画像PESパケットであれば、動画像パケット処理部24が、PESパケットの先頭からPESPacketDataByteより前の各フィールドを読み込み、読み込んだフィールドを解析する。一方、到着したPESパケットの種別がオーディオPESパケットであれば、オーディオパケット処理部26がPESパケットの先頭からPESPacketDataByteより前の各フィールドを読み込み、読み込んだフィールドを解析する。動画像パケット処理部24またはオーディオパケット処理部26は、図10に示されたPTS, もし存在した場合はDTS, SecondPTSDelta, AdditionalDTSDeltaを取得する。
次に、制御部23は、ステップS303で、超低遅延復号を行うと決定したか否か確認する(ステップS306)。超低遅延復号が行われない場合(ステップS306−No)、制御部23は、動画像データの各ピクチャもしくはオーディオデータの各オーディオフレームの復号時刻及び表示時刻を、PTS値及びDTS値に基づいて決定する(ステップS307)。具体的には、制御部23は、もしDTSが存在する場合には、復号時刻をDTSに300を乗じた値に設定し、DTSが存在しない場合には、PTSに300を乗じた値に設定する。また制御部23は、表示時刻を、PTSに300を乗じた値に、復号遅延を加算した値に設定する。制御部23は、復号遅延を、動画像復号部25が1ピクチャの復号に要する時間と、オーディオ復号部27が1オーディオフレームの復号に要する時間のうちの長い方の時間とする。
一方、超低遅延復号が行われる場合(ステップS306−Yes)、制御部23は、動画像データの各ピクチャもしくはオーディオデータの各オーディオフレームの復号時刻及び表示時刻を、PTS、AdditionalDTSDelta及びSecondPTSDeltaに基づいて決定する(ステップS308)。具体的には、制御部23は、復号時刻を、PTSに300を乗じた値からAdditionalDTSDeltaを減算した値に設定する。また制御部23は、表示時刻を、PTSに300を乗じた値からSecondPTSDeltaを減算した値に設定する。
ステップS307またはS308の後、あるいは、ステップS304にて、動画像PESパケットの先頭データを含む動画像TSパケット及びオーディオPESパケットの先頭データを含むオーディオTSパケットの何れも到着していない場合(ステップS304−No)、制御部23は、自身のSTC値が動画像データの何れかのピクチャもしくはオーディオデータの何れかのオーディオフレームの復号時刻と一致したか否か判定する(ステップS309)。
制御部23のSTC値が、何れかの復号時刻と一致した場合(ステップS309−Yes)、制御部23は、その復号時刻を持つピクチャもしくはオーディオフレームの復号開始を、動画像復号部25もしくはオーディオ復号部27に通知する(ステップS310)。
ステップS310の後、あるいは、ステップS309にて、制御部23のSTC値が、何れの復号時刻とも一致しない場合(ステップS309−No)、制御部23は、自身のSTC値が動画像データの何れかのピクチャもしくはオーディオデータの何れかのオーディオフレームの表示時刻と一致したか否か判定する(ステップS311)。
制御部23のSTC値が、何れかの表示時刻と一致した場合(ステップS311−Yes)、制御部23は、その制御部23のSTC値と一致した表示時刻を持つピクチャもしくはオーディオフレームの表示開始を、動画像復号部25もしくはオーディオ復号部27に通知する(ステップS312)。
ステップS312の後、あるいは、ステップS311にて、制御部23のSTC値が、何れの表示時刻とも一致しない場合(ステップS311−No)、制御部23は、多重化動画像データの復号が完了したか否かを判定する(ステップS313)。例えば、多重化動画像データが到着しなくなったか、もしくは外部機器からの復号終了指示を受けた場合、制御部23は、多重化動画像データの復号が完了したと判定する。
多重化動画像データの復号が完了していない場合(ステップS313−No)、制御部23は、ステップS304以降の処理を実行する。一方、多重化動画像データの復号が完了した場合(ステップS313−Yes)、制御部23は、復号処理を終了する。
第1の実施形態によって、コーデック遅延が軽減されることを、図15を参照しつつ説明する。
図15において、横軸はSTC値により表される経過時間を表す。ブロック1501は、動画像多重化装置10の動画像符号化部11が、図4に示されるDU単位の符号化方法によって動画像データを符号化した場合の、1ピクチャの取り込み、符号化、伝送のタイミングを表す。Δは、図4における(1s/M)に相当する。
ブロック1502は、動画像多重化装置10のオーディオ符号化部13における、1オーディオフレームの取り込み、符号化、伝送のタイミングを表す。この例では、1オーディオフレーム時間はΔに等しいとする。ピクチャ及びオーディオサンプルの取り込み開始時刻は共にt1である。
ブロック1503は、多重化動画像復号装置20の動画像復号部25が、超低遅延動作をせずに復号する場合の、1ピクチャの伝送、復号及び表示のタイミングを表す。これらのタイミングは、従来のAVC規格などに準拠した復号方式によるピクチャの伝送、復号及び表示のタイミングと等しい。制御部23のSTCがt1となった時刻がピクチャの復号時刻ptsとなる。動画像復号部25は、時刻t1からピクチャの復号を開始し、1ピクチャ時間s経過した時刻pts''にてそのピクチャの復号が完了し、そのピクチャの表示が開始される。この場合のコーデック遅延は(2s + 2Δ)となる。
ブロック1504は、符号化動画像復号装置20の動画像復号部25が第1の実施形態による超低遅延復号動作する場合における、1ピクチャの伝送、復号及び表示のタイミングを表す。
制御部23のSTCがt1となった時刻から、(M-1)s/Mだけ前の時刻dtsにてピクチャの復号を開始することが可能になる。また時刻t1から(M-3)s/Mだけ前の時刻pts'にてピクチャの表示を開始することが可能になる。従って、この場合のコーデック遅延は、5Δ=(5s/M)となる。このように、第1の実施形態によれば、従来技術に比べてコーデック遅延が大幅に減少することが分かる。なお、動画像多重化装置が超低遅延符号化を行わない場合、ピクチャの取り込み開始から符号化ピクチャの伝送開始までの間隔は2sに増加し、コーデック遅延はさらに増加する。
ブロック1505は、超低遅延復号動作時における、オーディオ復号部27による1オーディオフレームの伝送、復号及び表示のタイミングを表すものである。この例では、ピクチャとオーディオフレームの取り込み時刻は同じであるので、表示時刻も同じになるように、符号化動画像データと符号化オーディオデータは多重化される。なお動画像多重化装置10が超低遅延符号化を行わない場合、一般的には、符号化オーディオフレームデータの最終ビットの到着時刻はpts’の後になる。
ブロック1506は、超低遅延復号動作をしない場合における、復号されたオーディオデータの出力タイミングを表す。符号化オーディオデータは、時刻t1よりも先に到着しているが、動画像の表示開始が時刻(t1+s)となるため、制御部23は、オーディオデータの出力時刻を遅らせて、ピクチャと同時に表示開始できるように調整している。なお、復号時刻はオーディオデータからΔだけ前としてもよい。
以上に説明してきたように、第1の実施形態によれば、動画像多重化装置及び多重化動画像復号装置は、コーデック遅延を1ピクチャ時間に抑制する超低遅延符号化及び超低遅延復号処理と、従来規格に従った符号化及び復号処理の両方に対応できる。
次に、第2の実施形態による、動画像多重化装置及び多重化動画像復号装置について説明する。第2の実施形態では、第1の実施形態と比較して、TSパケット内の超低遅延符号化が行われたか否かを表すフラグの格納位置が異なる。その他のパケットの構造、及び動画像多重化装置及び多重化動画像復号装置の動作に関しては、第1の実施形態によるものと同様である。
以降、第2の実施形態と第1の実施形態との相違点について説明する。
図16は、第2の実施形態によるシステムTSパケットのデータ構造を示す図である。本実施形態において、システムTSパケット1601は、図8に示されるシステムTSパケット801と同様に、先頭から順に、TSヘッダ1602と、AdaptationField1603と、ペイロード1604とを含む。システムTSパケット1601の各フィールドは、システムTSパケット801の各フィールドと同一である。
一方、PMTをペイロードに含むTSパケット1611も、図8に示されるTSパケット811と同様に、先頭から順に、TSヘッダ1612と、AdaptationField1613と、ペイロード1614とを含む。
この実施形態では、PMTのフィールド構造を示すペイロード1614において、超低遅延符号化の有無を記述するフラグSubPicLowDelayFlagが、各エレメンタルストリームの情報を記述する、StreamTypeからDescriptorのループの前に出現する。この例では、フラグSubPicLowDelayFlagは、ProgramInfoLengthの直前に出現するが、他の場所に配置されてもよい。ただし、TableIDからProgramInfoLengthまでのビット量について、MPEG-2 Systems規格との互換性を担保するために、図16には明記していないリザーブビットのうちの一つをフラグSubPicLowDelayFlagに置き換えることが好ましい。MPEG-2 Systems規格におけるリザーブビットは、符号化データ全体のデータ量をByte単位とし、かつ、bit単位の長さを持つ各フィールドへ、Byte単位でアクセスできるよう、各フィールドをバイト単位でアライメントするために用いられている。この例では、図10に示されるAlternativePTSDTSFlagはPESパケット内に出現せず、SecondPTSDelta及びAdditionalDTSDeltaは、PMTのフラグSubPicLowDelayFlagによって出現するか否かが規定される。
次に、第3の実施形態による、動画像多重化装置及び多重化動画像復号装置について説明する。第3の実施形態は、第1の実施形態と比較して、超低遅延復号する際に参照される、ピクチャまたはオーディオフレームの復号時刻及び表示時刻が、従来の規格に従って復号する際の表示時刻からの差分値でなく、直接的に記述される点で異なる。その他のパケットの構造、及び動画像多重化装置及び多重化動画像復号装置の動作に関しては、第1の実施形態によるものと同様である。
以降、第3の実施形態と第1の実施形態との相違点について説明する。
図17は、第3の実施形態による、動画像PESパケット及びオーディオPESパケットを含む、エレメンタリーストリームPESパケットの構造である。
図17に示されるPESパケット1700では、図10に示された、従来の規格に従って復号する際の表示時刻からの差分値であるSecondPTSDelta及びAdditionalDTSDeltaの代わりに、SecondPTS及びSecondDTSが記述されている。SecondPTS及びSecondDTSは、それぞれ、超低遅延復号する際の第2の表示時刻及び復号時刻を直接記述する。すなわち、SecondPTS及びSecondDTSは、それぞれ、図12のdts(video)(動画像データの場合)またはdts(Audio)(オーディオデータの場合)、及びpts’に相当する。SecondPTS及びSecondDTSの単位は90 KHzであってもよいし、27MHzであってもよい。
動画像多重化装置10及び多重化動画像復号装置20内の各部は、SecondPTS及びSecondDTSを第2の表示時刻及び復号時刻そのものとして、第1の実施形態による動画像多重化装置10及び多重化動画像復号装置20の処理と同様の処理を行う。
次に、第4の実施形態による、動画像多重化装置及び多重化動画像復号装置について説明する。第4の実施形態は、第1の実施形態と比較して、超低遅延復号する際に参照される第2の復号時刻情報及び表示時刻情報が、ピクチャのDUごとにPESパケット内に記述される点で異なる。その他のパケットの構造、及び動画像多重化装置及び多重化動画像復号装置の動作に関しては、第1の実施形態によるものと同様である。
以降、第4の実施形態と第1の実施形態との相違点について説明する。
図18は、第4の実施形態による、動画像PESパケット及びオーディオPESパケットを含む、エレメンタリーストリームPESパケットの構造である。
図18に示されるPESパケット1800では、図10に示されたPESパケットと比較して、アクセスユニット(AU)(1ピクチャもしくは1オーディオフレーム)ごとのDUの数を表すパラメータNumDUDTSDeltaフィールドが追加されている。さらに、PESパケット1800では、AUごとではなく、DUごとにAdditionalDTSDelayが記述される。第4の実施形態では、AdditionalDTSDelayはNumDUDTSDeltaの値の数だけ出現する。
PESパケットがオーディオPESパケットである場合、NumDUDTSDeltaは'1'とする。すなわち、オーディオデータについては、常にAUごとに復号及び表示の開始時刻が規定される。これは、オーディオデータについては、AUが最小の符号化単位となるためである。
一方、PESパケットが動画像PESパケットである場合、NumDUDTSDeltaは、符号化動画像中のPicture timing SEIに含まれるNumDecodingUnitsMinus1フィールドの値に'1'を加算した値、すなわち、NumDUDTSDeltaは、AUに含まれるDUの個数に相当する。また、各DUの復号時刻は、動画像PESパケットのPTSから、対応するAdditionalDTSDelayを減算した値となる。
動画像多重化装置10の制御部15及び動画像パケット生成部12は、動画像PESパケットに、NumDUDTSDelta とDUごと(すなわちNumDUDTSDelta個)のAdditionalDTSDelayを含める。
一方、多重化動画像復号装置20の制御部23は、動画像復号部25に対して、ピクチャ内のDUごとに、その復号時刻にDUの復号を指示する。図14に示される復号処理の動作フローにおいては、制御部23は、ステップS308にてDUごとの復号時刻を決定する。そしてステップS309では、制御部23は、DUごとに、その復号時刻がSTC値と一致するか否か判定し、一致した場合に、動画像復号部25に対して、該当DUの復号開始を指示する。
次に、第5の実施形態による、動画像多重化装置及び多重化動画像復号装置について説明する。第5の実施形態は、第1の実施形態と比較して、超低遅延復号する際のピクチャ及びオーディオフレームの復号時刻及び表示時刻の算出方法が異なる。その他の動画像多重化装置及び多重化動画像復号装置の動作に関しては、第1の実施形態によるものと同様である。
以降、第5の実施形態と第1の実施形態との相違点について説明する。
第5の実施形態では、動画像多重化装置10の制御部15及びオーディオパケット生成部12は、オーディオPESパケットに含めるAdditionalDTSDelayの値を常に'0'にする。また、多重化動画像復号装置20の制御部23、動画像復号部25及びオーディオ復号部27は、以下のようにピクチャ及びオーディオサンプルの復号時刻及び表示時刻を決定する。
制御部23は、ピクチャの復号時刻を、第1の実施形態と同じく、動画像PESパケットのPTSに300を乗じた値からAdditionalDTSDeltaを減算した値に設定する。また制御部23は、ピクチャの表示時刻を、動画像PESパケットのPTSに300を乗じた値からSecondPTSDeltaを減算し、さらにAudioDecDelayを加算した値に設定する。このAudioDecDelayは、オーディオ復号部27が、1オーディオフレームの復号に要する時間である。
一方、制御部23は、オーディオフレームの表示時刻を、オーディオPESパケットのPTSに300を乗じた値からSecondPTSDeltaを減算し、さらにAudioDecDelayを加算した値に設定する。また制御部23は、オーディフレームの復号時刻を、オーディオPESパケットのPTSに300を乗じた値からSecondPTSDeltaを減算した値に設定する。
図19を参照しつつ、第5の実施形態による、動画像ピクチャ及びオーディオフレームの復号及び表示タイミングを示す。
ブロック1901は、図15に示されるブロック1501と同様に、図4に示されるDU単位の符号化方法によって動画像データを符号化した場合の、1ピクチャの取り込み、符号化、伝送のタイミングを表す。またブロック1902は、図15に示されるブロック1502と同様に、1オーディオフレームの取り込み、符号化、伝送のタイミングを表す。第5の実施形態による、動画像多重化装置における、取り込み、符号化、及び伝送のタイミングは、ピクチャ、オーディオフレームとも、第1の実施形態による、取り込み、符号化、及び伝送のタイミングと同じである。
ブロック1903は、符号化動画像復号装置20の動画像復号部25が第5の実施形態による超低遅延復号動作する場合における、1ピクチャの伝送、復号及び表示のタイミングを表す。一方、ブロック1904は、オーディオ復号部27が第5の実施形態による超低遅延復号動作する場合における、1オーディオフレームの伝送、復号及び表示のタイミングを表す。オーディフレームの復号時刻dts、この例では多重化動画像データに記述された、オーディフレームの第1の表示・復号時刻から、AudioDecDelay分だけ遅れた時刻が、オーディオ復号部27が実際にオーディオフレームを出力する時刻となる。
次に、第6の実施形態による、動画像多重化装置及び多重化動画像復号装置を説明する。第6の実施形態は、第1の実施形態と比較して、DUごとにPESパケットが作成される点で異なる。その他のパケットの構造、及び動画像多重化装置及び多重化動画像復号装置の動作に関しては、第1の実施形態によるものと同様である。
以降、第6の実施形態と第1の実施形態との相違点について説明する。
図20は、第6の実施形態による動画像PESパケットの構造を示す図である。
AU2001は、一つのピクチャに相当し、1以上のDU2002を含む。
各DU2002は、最低限一つのスライスNALを含む、複数のNALの集合である。各DU2002は、先頭から順に、Delimiter NAL2101(AU先頭のDUのみ、Delimiter NALを含んでもよい)、SEI NAL2102(0ないし複数)、スライスNAL2103(一つ以上)、SEI NAL2104(0ないし複数)を含む。AUのPicture timing SEIには、AU内のDUの個数と、各DUが含むNALの数が記述されている。
一つのPESパケット2003が、少なくとも一つのDU2002を格納する。
第6の実施形態による、PESパケットの構造は、図17に示したPESパケットの構造と同じである。
本実施形態では、PESパケット1700の各フィールドの意味及び値は、以下のようになる。
PTS: 本フィールドは、本DUを含むAUの第1のPTSの値を格納する。AU内の全DUは、同一のPTSを持つ。
DTS: 本フィールドは使用されない。もしくは、DTSにPTSと同じ値が入れられてもよい。
SubPicLowDelayFlag: 本フィールドは、SecondPTS及びSecondDTSが出現する場合に'0'とする。
SecondDTS: 本フィールドは、本DUのDTSを格納する。
SecondPTS: 本フィールドは、本DUに含まれる画素の出力開始時刻を記述する。例えば、図4に示されるように各DUが符号化されている場合、SecondPTSの値は、SecondDTSに(2s/M)を加算した値となる。なお、SecondPTSの値は、各DUで個別の値を明記せずに、AU内先頭DUのSecondPTSの値としてもよい。この場合、動画像復号部25は、AU内先頭DUのSecondPTSに、復号対象となるDUのSecondDTSの値からAU内の先頭DUのSecondDTSの値を減算した値を加算した値を、本DUの第2のPTSとする。
第2〜第6の実施形態の何れの動画像多重化装置及び多重化動画像復号装置も、第1の実施形態と同様に、コーデック遅延を1ピクチャ時間に抑制する超低遅延符号化及び超低遅延復号処理と、従来規格に従った符号化及び復号処理の両方に対応できる。
図21は、上記の実施形態またはその変形例による動画像多重化装置または多重化動画像復号装置の各部の機能を実現するコンピュータプログラムが動作することにより、動画像多重化装置または多重化動画像復号装置として動作するコンピュータの構成図である。
コンピュータ300は、ユーザインターフェース部301と、通信インターフェース部302と、記憶部303と、記憶媒体アクセス装置304と、プロセッサ305とを有する。さらに、コンピュータ300は、スピーカ(図示せず)を有していてもよい。プロセッサ305は、ユーザインターフェース部301、通信インターフェース部302、記憶部303及び記憶媒体アクセス装置304と、例えば、バスを介して接続される。
ユーザインターフェース部301は、例えば、キーボードとマウスなどの入力装置と、液晶ディスプレイといった表示装置とを有する。または、ユーザインターフェース部301は、タッチパネルディスプレイといった、入力装置と表示装置とが一体化された装置を有してもよい。そしてユーザインターフェース部301は、例えば、ユーザの操作に応じて、符号化する動画像データとその他のメディアデータ、あるいは復号する多重化動画像データを選択する操作信号をプロセッサ305へ出力する。またユーザインターフェース部301は、プロセッサ305から受け取った、復号された動画像データを表示してもよい。
通信インターフェース部302は、コンピュータ300を、動画像データ及びその他のメディアデータを生成する装置、例えば、ビデオカメラと接続するための通信インターフェース及びその制御回路を有してもよい。そのような通信インターフェースは、例えば、Universal Serial Bus(ユニバーサル・シリアル・バス、USB)とすることができる。
さらに、通信インターフェース部302は、イーサネット(登録商標)などの通信規格に従った通信ネットワークに接続するための通信インターフェース及びその制御回路を有してもよい。
この場合には、通信インターフェース部302は、通信ネットワークに接続された他の機器から、符号化する動画像データ、その他のメディアデータまたは復号する多重化動画像データを取得し、それらのデータをプロセッサ305へ渡す。また通信インターフェース部302は、プロセッサ305から受け取った、多重化動画像データまたは復号された動画像データ及びメディアデータを通信ネットワークを介して他の機器へ出力してもよい。
記憶部303は、例えば、読み書き可能な半導体メモリと読み出し専用の半導体メモリとを有する。そして記憶部303は、プロセッサ305上で実行される、動画像多重化処理または多重化動画像復号処理を実行するためのコンピュータプログラム、及びこれらの処理の途中または結果として生成されるデータを記憶する。
記憶媒体アクセス装置304は、例えば、磁気ディスク、半導体メモリカード及び光記憶媒体といった記憶媒体306にアクセスする装置である。記憶媒体アクセス装置304は、例えば、記憶媒体306に記憶されたプロセッサ305上で実行される、動画像多重化処理または多重化動画像復号処理用のコンピュータプログラムを読み込み、プロセッサ305に渡す。
プロセッサ305は、上記の実施形態または変形例による動画像多重化処理用コンピュータプログラムを実行することにより、多重化動画像データを生成する。そしてプロセッサ305は、生成された多重化動画像データを記憶部303に保存し、または通信インターフェース部302を介して他の機器へ出力する。またプロセッサ305は、上記の実施形態または変形例による多重化動画像復号処理用コンピュータプログラムを実行することにより、多重化動画像データを復号する。そしてプロセッサ305は、復号された動画像データ及び他のメディアデータを記憶部303に保存し、ユーザインターフェース部301に表示し、または通信インターフェース部302を介して他の機器へ出力する。
コンピュータ上で実行されることにより、上述した実施形態またはその変形例による動画像多重化装置の各部の機能を実現するコンピュータプログラムは、半導体メモリまたは光記録媒体などの記録媒体に記録された形で提供されてもよい。同様に、上述した実施形態またはその変形例による多重化動画像復号装置の各部の機能を実現するコンピュータプログラムは、半導体メモリまたは光記録媒体などの記録媒体に記録された形で提供されてもよい。ただし、そのような記録媒体には、搬送波は含まれない。
上述した実施形態またはその変形例による動画像多重化装置、及び多重化動画像復号装置は、様々な用途に利用される。例えば、この動画像多重化装置、及び多重化動画像復号装置は、ビデオカメラ、映像送信装置、映像受信装置、テレビ電話システム、コンピュータあるいは携帯電話機に組み込まれる。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
10 動画像多重化装置
11 動画像符号化部
12 動画像パケット生成部
13 オーディオ符号化部
14 オーディオパケット生成部
15 制御部
16 システムパケット生成部
17 パケット多重化部
20 多重化動画像復号装置
21 パケット分離部
22 システムパケット処理部
23 制御部
24 動画像パケット処理部
25 動画像復号部
26 オーディオパケット処理部
27 オーディオ復号部

Claims (14)

  1. 動画像データと、動画像以外の第1のメディアデータとを多重化し出力する動画像多重化装置であって、
    前記動画像データの各ピクチャ及び前記第1のメディアデータの各符号化単位のそれぞれについて、該ピクチャ及び該符号化単位の復号時刻及び表示時刻を決定するための第1の復号表示時刻情報と第2の復号表示時刻情報を求める制御部と、
    前記動画像データの符号化データを含む動画像パケットに前記ピクチャについての前記第1の復号表示時刻情報及び前記第2の復号表示時刻情報を付加する動画像パケット生成部と、
    前記第1のメディアデータの符号化データを含むメディアパケットに前記符号化単位についての前記第1の復号表示時刻情報及び前記第2の復号表示時刻情報を付加するメディアパケット生成部と、
    前記動画像パケットと前記メディアパケットとを多重化することによりデータストリームを生成し、該データストリームを出力するパケット多重化部と、
    を有し、
    前記第1の復号表示時刻情報は、前記動画像データの復号単位がピクチャの場合に、前記動画像データと前記第1のメディアデータとを同期して表示する時刻を表す情報を含み、
    前記第2の復号表示時刻情報は、前記動画像データの前記復号単位が、ピクチャを複数に分割して得られるサブピクチャである場合に、前記動画像データと前記第1のメディアデータとを同期して表示する時刻を表す情報を含み、
    前記第2の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻及び表示時刻は、前記第1の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻及び表示時刻よりも早い、
    動画像多重化装置。
  2. 前記パケット多重化部は、前記動画像データの前記復号単位が前記サブピクチャである場合、前記動画像データの各ピクチャについて、当該ピクチャ内の先頭の前記サブピクチャに相当する符号化データ及び前記第1のメディアデータの当該ピクチャに対応する前記符号化単位の符号化データが、前記第2の復号表示時刻情報に基づいて決定される当該ピクチャの復号時刻と同じか、もしくはより早く、前記データストリームを復号する復号装置に到達するように、前記動画像パケットと前記メディアパケットとを多重化する、請求項1に記載の動画像多重化装置。
  3. 前記ピクチャについての前記第2の復号表示時刻情報は、前記サブピクチャの復号に要するサブピクチャ復号時間を表す情報を含み、
    前記第2の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻は、前記第1の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻よりも、ピクチャ全体の復号に要する時間から前記サブピクチャ復号時間を減じた時間だけ早い、請求項2に記載の動画像多重化装置。
  4. 前記第2の復号表示時刻情報は、前記第2の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻よりも前記ピクチャの先頭から二つの前記サブピクチャの復号に要する時間だけ遅い時間を前記ピクチャの表示時刻として表す情報を含む、請求項3に記載の動画像多重化装置。
  5. 前記動画像パケット生成部は、前記第2の復号表示時刻情報として、前記ピクチャ内の先頭のサブピクチャの復号時刻及び表示時刻を表す情報を、前記動画像パケットに付加する、請求項1に記載の動画像多重化装置。
  6. 前記動画像パケット生成部は、前記第2の復号表示時刻情報として、前記サブピクチャごとの復号時刻及び表示時刻を表す情報を、前記動画像パケットに付加する、請求項1に記載の動画像多重化装置。
  7. 符号化された動画像データと、動画像以外の符号化された第1のメディアデータとが多重化された多重化データを復号する多重化動画像復号装置であって、
    前記多重化データに含まれる、前記動画像データの各ピクチャ及び前記第1のメディアデータの各符号化単位のそれぞれについて、該ピクチャ及び該符号化単位の復号時刻及び表示時刻を決定するための第1の復号表示時刻情報と第2の復号表示時刻情報に基づいて、各ピクチャの復号時刻及び表示時刻と、各符号化単位の復号時刻及び表示時刻を決定する制御部と、
    各ピクチャについて、当該ピクチャの復号時刻に従って当該ピクチャの復号を開始し、当該ピクチャの表示時刻に従って当該ピクチャの表示を開始する動画像復号部と、
    各符号化単位について、当該符号化単位の復号時刻に従って当該符号化単位の復号を開始し、当該符号化単位の表示時刻に従って当該符号化単位の出力を開始するメディア復号部と、
    を有し、
    前記第1の復号表示時刻情報は、前記動画像データの復号単位がピクチャの場合に、前記動画像データと前記第1のメディアデータとを同期して表示する時刻を表す情報を含み、
    前記第2の復号表示時刻情報は、前記動画像データの前記復号単位が、ピクチャを複数に分割して得られるサブピクチャである場合に、前記動画像データと前記第1のメディアデータとを同期して表示する時刻を表す情報を含み、
    前記第2の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻及び表示時刻は、前記第1の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻及び表示時刻よりも早い、
    多重化動画像復号装置。
  8. 前記制御部は、前記動画像データの前記復号単位が前記サブピクチャであり、かつ、前記動画像復号部が前記第2の復号表示時刻情報に基づいて決定される前記ピクチャの表示時刻にて前記ピクチャの表示を開始することが可能である場合に、各ピクチャについての前記第2の復号表示時刻情報に基づいて、各ピクチャの復号時刻及び表時刻を決定し、かつ、各符号化単位についての前記第2の復号表示時刻情報に基づいて、各符号化単位の復号時刻及び表時刻を決定する、請求項7に記載の多重化動画像復号装置。
  9. 前記ピクチャについての前記第2の復号表示時刻情報は、前記サブピクチャの復号に要するサブピクチャ復号時間を表す情報を含み、
    前記制御部は、前記第2の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻を、前記第1の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻よりも、ピクチャ全体の復号に要する時間から前記サブピクチャ復号時間を減じた時間だけ早い時刻に設定する、請求項8に記載の多重化動画像復号装置。
  10. 前記第2の復号表示時刻情報は、前記第2の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻よりも前記ピクチャの先頭から二つのサブピクチャの復号に要する時間だけ遅い時間を前記ピクチャの表示時刻として表す情報を含む、請求項9に記載の多重化動画像復号装置。
  11. 前記第2の復号表示時刻情報は、前記ピクチャ内の先頭のサブピクチャの復号時刻及び表示時刻を表す情報である、請求項7に記載の多重化動画像復号装置。
  12. 前記第2の復号表示時刻情報は、サブピクチャごとの復号時刻及び表示時刻を表す情報を含む、請求項7に記載の多重化動画像復号装置。
  13. 動画像データと、動画像以外の第1のメディアデータとを多重化し出力する動画像多重化方法であって、
    動画像多重化装置により、前記動画像データの各ピクチャ及び前記第1のメディアデータの各符号化単位のそれぞれについて、該ピクチャ及び該符号化単位の復号時刻及び表示時刻を決定するための第1の復号表示時刻情報と第2の復号表示時刻情報を求め、
    前記動画像多重化装置により、前記動画像データの符号化データを含む動画像パケットに前記ピクチャについての前記第1の復号表示時刻情報及び前記第2の復号表示時刻情報を付加し、
    前記動画像多重化装置により、前記第1のメディアデータの符号化データを含むメディアパケットに前記符号化単位についての前記第1の復号表示時刻情報及び前記第2の復号表示時刻情報を付加し、
    前記動画像多重化装置により、前記動画像パケットと前記メディアパケットとを多重化することによりデータストリームを生成し、該データストリームを出力する、
    ことを含み、
    前記第1の復号表示時刻情報は、前記動画像データの復号単位がピクチャの場合に、前記動画像データと前記第1のメディアデータとを同期して表示する時刻を表す情報を含み、
    前記第2の復号表示時刻情報は、前記動画像データの前記復号単位が、ピクチャを複数に分割して得られるサブピクチャである場合に、前記動画像データと前記第1のメディアデータとを同期して表示する時刻を表す情報を含み、
    前記第2の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻及び表示時刻は、前記第1の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻及び表示時刻よりも早い、
    動画像多重化方法。
  14. 符号化された動画像データと、動画像以外の符号化された第1のメディアデータとが多重化された多重化データを復号する多重化動画像復号方法であって、
    多重化動画像復号装置により、前記多重化データに含まれる、前記動画像データの各ピクチャ及び前記第1のメディアデータの各符号化単位のそれぞれについて、該ピクチャ及び該符号化単位の復号時刻及び表示時刻を決定するための第1の復号表示時刻情報と第2の復号表示時刻情報に基づいて、各ピクチャの復号時刻及び表示時刻と、前記第1のメディアデータの各符号化単位の復号時刻及び表示時刻を決定し、
    前記多重化動画像復号装置により、各ピクチャについて、当該ピクチャの復号時刻に従って当該ピクチャの復号を開始し、当該ピクチャの表示時刻に従って当該ピクチャの表示を開始し、
    前記多重化動画像復号装置により、各符号化単位について、当該符号化単位の復号時刻に従って当該符号化単位の復号を開始し、当該符号化単位の表示時刻に従って当該符号化単位の出力を開始する、
    ことを含み、
    前記第1の復号表示時刻情報は、前記動画像データの復号単位がピクチャの場合に、前記動画像データと前記第1のメディアデータとを同期して表示する時刻を表す情報を含み、
    前記第2の復号表示時刻情報は、前記動画像データの前記復号単位が、ピクチャを複数に分割して得られるサブピクチャである場合に、前記動画像データと前記第1のメディアデータとを同期して表示する時刻を表す情報を含み、
    前記第2の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻及び表示時刻は、前記第1の復号表示時刻情報に基づいて決定される前記ピクチャの復号時刻及び表示時刻よりも早い、
    多重化動画像復号方法。
JP2013005764A 2013-01-16 2013-01-16 動画像多重化装置及び動画像多重化方法、ならびに多重化動画像復号装置及び多重化動画像復号方法 Active JP6119260B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2013005764A JP6119260B2 (ja) 2013-01-16 2013-01-16 動画像多重化装置及び動画像多重化方法、ならびに多重化動画像復号装置及び多重化動画像復号方法
EP14151135.2A EP2757795B1 (en) 2013-01-16 2014-01-14 Video multiplexing apparatus, video multiplexing method, multiplexed video decoding apparatus, and multiplexed video decoding method
CN201410018007.6A CN103929657B (zh) 2013-01-16 2014-01-15 视频复用设备和方法、复用视频解码设备和方法
US14/155,770 US9083993B2 (en) 2013-01-16 2014-01-15 Video/audio data multiplexing apparatus, and multiplexed video/audio data decoding apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013005764A JP6119260B2 (ja) 2013-01-16 2013-01-16 動画像多重化装置及び動画像多重化方法、ならびに多重化動画像復号装置及び多重化動画像復号方法

Publications (2)

Publication Number Publication Date
JP2014138269A JP2014138269A (ja) 2014-07-28
JP6119260B2 true JP6119260B2 (ja) 2017-04-26

Family

ID=50030053

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013005764A Active JP6119260B2 (ja) 2013-01-16 2013-01-16 動画像多重化装置及び動画像多重化方法、ならびに多重化動画像復号装置及び多重化動画像復号方法

Country Status (4)

Country Link
US (1) US9083993B2 (ja)
EP (1) EP2757795B1 (ja)
JP (1) JP6119260B2 (ja)
CN (1) CN103929657B (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2938904C (en) * 2014-02-06 2023-08-01 Brett Shellhammer System, methods, and devices for addressed data communications
JP6301816B2 (ja) * 2014-11-17 2018-03-28 株式会社東芝 送信装置及び送受信システム
CN107580780B (zh) 2015-02-05 2020-05-12 思科技术公司 用于处理视频流的方法
JP6418000B2 (ja) * 2015-02-19 2018-11-07 アイコム株式会社 無線通信システム、無線機、無線通信方法、パケットの生成方法およびパケットからのデータ再生方法
KR101718603B1 (ko) * 2015-03-03 2017-03-21 단국대학교 산학협력단 초저지연을 위한 데이터 전송 및 수신방법과 그 장치
WO2017047399A1 (ja) * 2015-09-15 2017-03-23 ソニー株式会社 受信装置および方法、送信装置および方法
JP6133960B2 (ja) * 2015-11-12 2017-05-24 株式会社Pfu 映像処理装置、および、映像処理方法
CN105979347A (zh) * 2015-12-03 2016-09-28 乐视致新电子科技(天津)有限公司 一种视频的播放方法和装置
CN107666701B (zh) * 2016-07-31 2020-07-31 上海朗帛通信技术有限公司 一种无线传输的ue和基站中的方法和装置
KR20180068069A (ko) * 2016-12-13 2018-06-21 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN108933768B (zh) * 2017-05-27 2021-06-08 成都鼎桥通信技术有限公司 视频帧的发送帧率的获取方法和装置
CN108769815B (zh) * 2018-06-21 2021-02-26 威盛电子股份有限公司 视频处理方法及其装置
CN112839229A (zh) * 2019-11-25 2021-05-25 合肥杰发科技有限公司 计算解码耗时的方法、计算编码耗时的方法及其相关装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001127726A (ja) * 1999-10-29 2001-05-11 Sony Corp 信号処理装置及び方法並びに記録媒体
JP4538908B2 (ja) * 2000-06-14 2010-09-08 ソニー株式会社 データ変換装置及び方法
JP4454821B2 (ja) * 2000-10-03 2010-04-21 キヤノン株式会社 伝送装置、伝送方法、および記憶媒体
JP3958531B2 (ja) * 2001-03-26 2007-08-15 池上通信機株式会社 同期制御装置
US7330640B2 (en) * 2002-04-15 2008-02-12 Thomson Licensing Display of closed caption and sub-picture information during limited speedup video trick modes
US20070096481A1 (en) * 2005-11-01 2007-05-03 Huang Ching Y Door retaining device
US20080158254A1 (en) * 2006-12-29 2008-07-03 Hong Jiang Using supplementary information of bounding boxes in multi-layer video composition
JP5072893B2 (ja) * 2009-03-25 2012-11-14 株式会社東芝 画像符号化方法および画像復号化方法
FI124520B (fi) * 2009-04-14 2014-09-30 Moncef Gabbouj Menetelmä ja järjestely digitaalisten multimediasignaalien synkronoimiseksi
JP2010252151A (ja) * 2009-04-17 2010-11-04 Renesas Electronics Corp 再生装置、及び同期再生方法

Also Published As

Publication number Publication date
US20140201798A1 (en) 2014-07-17
CN103929657B (zh) 2017-05-03
JP2014138269A (ja) 2014-07-28
CN103929657A (zh) 2014-07-16
US9083993B2 (en) 2015-07-14
EP2757795B1 (en) 2016-11-30
EP2757795A1 (en) 2014-07-23

Similar Documents

Publication Publication Date Title
JP6119260B2 (ja) 動画像多重化装置及び動画像多重化方法、ならびに多重化動画像復号装置及び多重化動画像復号方法
JP5979499B2 (ja) 再生装置、再生方法、集積回路、放送システム、及び放送方法
US9942622B2 (en) Methods and systems for synchronizing media stream presentations
KR100953457B1 (ko) 다지점 회의 시스템, 다지점 회의 방법 및 프로그램을 기록하고 있는 컴퓨터 판독가능 기록 매체
WO2013136754A1 (ja) 表示装置、及び送信装置
US9601156B2 (en) Input/output system for editing and playing ultra-high definition image
WO2007004395A1 (ja) 再生装置、ビデオ復号装置、同期再生方法、プログラム及び記録媒体
RU2678149C2 (ru) Устройство кодирования, способ кодирования, передающее устройство, устройство декодирования, способ декодирования и приёмное устройство
WO2008053806A1 (fr) Dispositif de multiplexage, circuit intégré, procédé de multiplexage, programme de multiplexage, support d'enregistrement lisible par ordinateur avec programme de multiplexage enregistré et support d'enregistrement lisible par ordinateur avec flux de multiplexage enregistré
US11722714B2 (en) Transmitting method, receiving method, transmitting device and receiving device
US20140375889A1 (en) Method, apparatus, and system for switching transport stream
EP3185564A1 (en) Video stream splicing of groups of pictures (gop)
JP5957769B2 (ja) 映像処理装置及び映像処理方法
KR20100044090A (ko) 영상 부호화 장치, 영상 부호화 방법
US10506265B2 (en) Transmitting method, receiving method, transmitting device and receiving device
KR20130109969A (ko) 단일 디코더로 채널 변경을 가능하게 하기 위한 수신기 및 수신기에서의 방법
KR100968842B1 (ko) 복호 장치 및 복호 방법
US9392214B2 (en) High definition video recorder/player
US9866898B2 (en) Elementary stream multiplexing method, multiplexing system, encoding or decoding method and apparatus
JP6464647B2 (ja) 動画像処理方法、動画像の送信装置、動画像処理システムおよび動画像処理プログラム
JP6257448B2 (ja) 符号化装置、復号装置、符号化方法及び復号方法
KR101609798B1 (ko) 동영상 판독 장치
JP5918030B2 (ja) データ中継装置、データ中継方法、データ伝送システムおよびプログラム
JP2011078068A (ja) 映像伝送方式
JP2006109513A (ja) 符号化装置および方法、並びに記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150903

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160830

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170228

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170313

R150 Certificate of patent or registration of utility model

Ref document number: 6119260

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150