JP7067653B2 - Decoding device - Google Patents

Decoding device Download PDF

Info

Publication number
JP7067653B2
JP7067653B2 JP2021071838A JP2021071838A JP7067653B2 JP 7067653 B2 JP7067653 B2 JP 7067653B2 JP 2021071838 A JP2021071838 A JP 2021071838A JP 2021071838 A JP2021071838 A JP 2021071838A JP 7067653 B2 JP7067653 B2 JP 7067653B2
Authority
JP
Japan
Prior art keywords
unit
mmtp
time
decoding
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021071838A
Other languages
Japanese (ja)
Other versions
JP2021121108A (en
Inventor
芳美 守屋
彰 峯澤
一之 宮澤
亮史 服部
俊一 関口
幸成 松田
大樹 工藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2021071838A priority Critical patent/JP7067653B2/en
Publication of JP2021121108A publication Critical patent/JP2021121108A/en
Priority to JP2022071720A priority patent/JP7306527B2/en
Application granted granted Critical
Publication of JP7067653B2 publication Critical patent/JP7067653B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

この発明は、映像信号や音声信号が符号化されたビットストリームに多重化されている
符号化データを復号する復号装置に関するものである。
The present invention relates to a decoding device that decodes coded data in which a video signal or an audio signal is multiplexed into a coded bit stream.

日本のディジタル放送では、以下の非特許文献1に記載されているように、映像信号や音声信号の符号化データである映像ストリームと音声ストリームは、MPEG-2(Moving Picture Experts Group Phase-2)のシステム規格であるトランスポートストリーム(TS)形式で多重化されて伝送される。このとき、符号化装置は、映像ストリーム及び音声ストリームに関連するメタデータの符号化データについても、映像ストリーム及び音声ストリームと一緒に多重化して伝送する。 In digital broadcasting in Japan, as described in Non-Patent Document 1 below, the video stream and the audio stream, which are the encoded data of the video signal and the audio signal, are MPEG-2 (Moving Picture Experts Group Phase-2). It is multiplexed and transmitted in the transport stream (TS) format, which is the system standard of. At this time, the coding apparatus also multiplexes and transmits the coded data of the metadata related to the video stream and the audio stream together with the video stream and the audio stream.

MPEG-2でのトランスポートストリーム(TS)の他に、MPEGで標準化が進められている新しいトランスポート方式として、MMT(MPEG Media Transport)があり、MMTは、1つのプログラムを構成する1以上の映像コンポーネント(映像ストリーム)と音声コンポーネント(音声ストリーム)を伝送する際、コンポーネント毎に、異なる伝送形態(例えば、放送、通信など)での伝送を可能にしている。 In addition to the transport stream (TS) in MPEG-2, there is MMT (MPEG Media Transfer) as a new transport method that is being standardized by MPEG, and MMT is one or more that constitutes one program. When transmitting a video component (video stream) and an audio component (audio stream), it is possible to transmit in different transmission modes (for example, broadcasting, communication, etc.) for each component.

ここで、HEVC/H.265(以下、「HEVC」と称する)は、MPEG及びITU(International Telecommunication Union)で標準化された新しい映像符号化方式である。
HEVCでは、時間階層符号化(時間方向にスケーラブルな符号化)が導入されており、アクセスユニット(1ピクチャを復号するために必要な符号化データを含む単位)を構成する符号化単位のNAL(Network Abstraction Layer)ユニット毎に階層レベルを指定することができる。
Here, HEVC / H. 265 (hereinafter referred to as "HEVC") is a new video coding method standardized by MPEG and ITU (International Telecommunication Union).
In HEVC, time hierarchical coding (scalable coding in the time direction) is introduced, and NAL (a unit containing coding data necessary for decoding one picture) is a coding unit. Network Operation Layer) Hierarchical level can be specified for each unit.

図9はHEVCでの時間階層符号化例を示す説明図である。
図9において、TemporalIDは各アクセスユニット(AU)の階層レベルを示す識別情報である。
IRAPは、HEVCで規定されているIRAP(Intra random access point)ピクチャのことであり、ビットストリームの途中から復号を開始するときに、表示順でIRAPピクチャ以降のピクチャについては正常に復号されることが保証される。
GOP(Group Of Pictures)は、1以上のアクセスユニット(AU)の映像信号がフレーム間予測符号化方式で符号化された場合に、前記1以上のアクセスユニットの映像信号の全てを復号することが可能な複数のアクセスユニット(AU)の集合である。即ち、符号化順で先頭のアクセスユニット(AU)であるIRAPピクチャと、そのIRAPピクチャに続くアクセスユニット(AU)(IRAPピクチャ以外のピクチャ)との集合である。
FIG. 9 is an explanatory diagram showing an example of time-hierarchical coding in HEVC.
In FIG. 9, the Temporal ID is identification information indicating the hierarchy level of each access unit (AU).
IRAP is an IRAP (Intra Random Access Point) picture defined by HEVC, and when decoding is started from the middle of a bitstream, the pictures after the IRAP picture are normally decoded in the display order. Is guaranteed.
GOP (Group Of Pictures) can decode all the video signals of one or more access units when the video signals of one or more access units (AU) are encoded by the interframe prediction coding method. It is a set of a plurality of possible access units (AUs). That is, it is a set of an IRAP picture which is the first access unit (AU) in the coding order and an access unit (AU) (a picture other than the IRAP picture) following the IRAP picture.

時間階層符号化の内容は公知であるため詳細な説明を省略するが、時間階層符号化の制約として、符号化対象のアクセスユニット(AU)が有する階層レベルより大きい階層レベルを有するアクセスユニット(AU)は参照することができないというものがある。
このような制約を設けることで、例えば図11の例で階層レベル2以下(TemporalID≦2)のアクセスユニット(AU)は、復号時に階層レベル3(TemoralID=3)のアクセスユニット(AU)を参照しないため、階層レベル3のアクセスユニット(AU)を復号することなく階層レベル2以下(TemporalID≦2)のアクセスユニット(AU)を復号することが可能である。
なお、HEVCでは、最大階層が6までの参照構造による時間階層符号化が可能である。
Since the content of time-hierarchical coding is known, detailed description thereof will be omitted, but as a limitation of time-hierarchical coding, an access unit (AU) having a hierarchy level higher than that of the access unit (AU) to be encoded has. ) Cannot be referred to.
By providing such a constraint, for example, in the example of FIG. 11, the access unit (AU) of the hierarchy level 2 or lower (TemporalID ≦ 2) refers to the access unit (AU) of the hierarchy level 3 (TemoralID = 3) at the time of decoding. Therefore, it is possible to decode the access unit (AU) of the layer level 2 or lower (TemporalID ≦ 2) without decoding the access unit (AU) of the layer level 3.
In HEVC, time hierarchy coding with a reference structure having a maximum hierarchy of up to 6 is possible.

図10は図9のピクチャ構造で符号化される各ピクチャの符号化順及び表示順を示す説明図である。
図10に示すように、階層レベル3のアクセスユニットと階層レベル2以下のアクセスユニットが表示順で交互になるように符号化されていれば、階層レベル0から階層レベル3のすべてのアクセスユニットを復号した場合の表示フレームレートが2N(Hz)であったときに、階層レベル2以下のアクセスユニットのみを復号した場合には表示フレームレートN(Hz)で再生することができる。従って、表示フレームレートがN(Hz)以下に対応している復号装置で再生する場合には階層レベル2以下のアクセスユニットのみを復号装置に渡せばよい。
FIG. 10 is an explanatory diagram showing a coding order and a display order of each picture encoded by the picture structure of FIG.
As shown in FIG. 10, if the access units of the hierarchy level 3 and the access units of the hierarchy level 2 or lower are encoded so as to alternate in the display order, all the access units from the hierarchy level 0 to the hierarchy level 3 are assigned. When the display frame rate in the case of decoding is 2N (Hz) and only the access unit of the layer level 2 or lower is decoded, it can be reproduced at the display frame rate N (Hz). Therefore, when playing back with a decoding device having a display frame rate of N (Hz) or less, only the access unit of layer level 2 or lower needs to be passed to the decoding device.

例えばMMTでは、図10のように構成された映像のビットストリームを多重化して配信するときに、階層レベル2以下のアクセスユニットのみで構成されるアクセスユニットの集合と階層レベル3のアクセスユニットのみで構成されるアクセスユニットの集合に対し、それぞれ異なる値の識別子を付与して配信することができる。なおMMTでは、同一の識別子を付与したアクセスユニットの集合をアセットと呼ぶ。階層レベル2以下のアクセスユニットで構成されるアセットの識別子をA、階層レベル3のアクセスユニットで構成されるアセットの識別子をAとして、アセットごとに異なる伝送形態で伝送することも可能であり、例えばアセットAを放送で伝送し、アセットAを通信で伝送することも可能である。
MMTでは、アセット間で提示時刻の同期をとるために、GOP単位に表示順で先頭のアクセスユニットの提示時刻をNTP(Network Time Protocol)形式で記述する記述子を用意しており、GOP単位に本記述子を多重化して伝送することができる。またアセットが異なる場合にはアセットごとに先頭のアクセスユニットの提示時刻を伝送することができ、異なる伝送形態で伝送された複数のアセットを受信側で受け取った場合も提示時刻で同期をとって再生(提示)することができる。
For example, in MMT, when a bitstream of a video configured as shown in FIG. 10 is multiplexed and distributed, only a set of access units composed of only access units of layer level 2 or lower and an access unit of layer level 3 are used. It is possible to assign different value identifiers to each set of configured access units and distribute them. In MMT, a set of access units to which the same identifier is assigned is called an asset. It is also possible to transmit in a different transmission mode for each asset, with the identifier of the asset composed of access units of layer level 2 or lower as A0 and the identifier of the asset composed of access units of layer level 3 as A1. For example, it is also possible to transmit the asset A 0 by broadcasting and the asset A 1 by communication.
In MMT, in order to synchronize the presentation time between assets, a descriptor that describes the presentation time of the first access unit in the display order in NTP (Network Time Protocol) format is prepared for each GOP. This descriptor can be multiplexed and transmitted. Also, if the assets are different, the presentation time of the first access unit can be transmitted for each asset, and even if multiple assets transmitted in different transmission modes are received by the receiving side, they will be played back in synchronization with the presentation time. Can be (presented).

STD-B32(ARIB(一般社団法人 電波産業会)で策定されたディジタル放送に関する標準規格)STD-B32 (Standard for digital broadcasting established by ARIB (Association of Radio Industries and Businesses))

従来の符号化装置は以上のように構成されているので、図9のように時間階層符号化された映像のビットストリームを各アクセスユニットの階層レベルに応じて異なるアセットを構成し、アセットごとに異なる伝送形態を用いて伝送した場合には、復号装置において各アクセスユニットの復号タイミングに基づき、図10に示すような符号化順と同じ順番のビットストリームを再構成する必要があるが、MMTでは各アクセスユニットの復号時刻を伝送することができないため、ビットストリームを再構成できないという課題があった。 Since the conventional coding device is configured as described above, the bitstream of the time-layer-encoded video is configured as a different asset according to the layer level of each access unit as shown in FIG. 9, and each asset is configured. When transmission is performed using different transmission modes, it is necessary to reconstruct the bitstreams in the same order as the coding order as shown in FIG. 10 based on the decoding timing of each access unit in the decoding device. Since the decryption time of each access unit cannot be transmitted, there is a problem that the bit stream cannot be reconstructed.

この発明は上記のような課題を解決するためになされたもので、時間階層符号化された映像のビットストリームを各アクセスユニットの階層レベルに応じて異なるアセットを構成し伝送する場合でも、復号装置において各アクセスユニットの復号タイミングに基づいて時間階層符号化されたビットストリームを再構成し復号することができる復号装置を得ることを目的とする。 The present invention has been made to solve the above-mentioned problems, and even when a bitstream of time-layer-encoded video is configured and transmitted as different assets according to the layer level of each access unit, a decoding device is used. It is an object of the present invention to obtain a decoding device capable of reconstructing and decoding a bit stream encoded in a time hierarchy based on the decoding timing of each access unit.

この発明に係る復号装置は、1つのプログラムを構成する1以上のコンポーネントに関し、コンポーネント毎に異なる伝送形式によりデータの伝送が可能なMMTにおける映像信号の符号化データを復号する復号装置であって、符号化データから、フレーム間予測符号化方式で符号化された複数のアクセスユニットの集合である1以上のGOPにおける、提示順で先頭のアクセスユニットの提示時刻を示す提示時刻情報と、当該アクセスユニットとは異なり符号化順で先頭のアクセスユニットの復号時刻と提示時刻との時間差情報と、アクセスユニットの単位で符号化する提示時刻情報及び表示時刻情報を表す単位と、を得る制御情報復号手段と、制御情報復号手段が取得した、提示時刻情報、時間差情報、および単位を用いて、各アクセスユニットの提示時刻および復号時刻を算出し、符号化データに含まれる映像信号を復号する復号手段とを備えたものである。 The decoding device according to the present invention is a decoding device that decodes coded data of a video signal in an MMT capable of transmitting data in a transmission format different for each component with respect to one or more components constituting one program. From the coded data, the presentation time information indicating the presentation time of the first access unit in the presentation order in one or more GOPs, which is a set of a plurality of access units encoded by the inter-frame predictive coding method, and the access unit. Unlike the control information decoding means for obtaining the time difference information between the decoding time and the presentation time of the first access unit in the coding order, and the unit representing the presentation time information and the display time information encoded in the unit of the access unit. , The presentation time information, the time difference information, and the unit acquired by the control information decoding means are used to calculate the presentation time and the decoding time of each access unit, and the decoding means for decoding the video signal included in the encoded data. It is prepared.

この発明によれば、時間階層符号化された映像のビットストリームを各アクセスユニットの階層レベルに応じて異なるアセットを構成し伝送する場合でも、復号装置において各アクセスユニットの復号タイミングに基づいて時間階層符号化されたビットストリームを再構成し復号することができる効果がある。 According to the present invention, even when a bitstream of time-layer-encoded video is configured and transmitted as different assets according to the layer level of each access unit, the time layer is based on the decoding timing of each access unit in the decoding device. It has the effect of being able to reconstruct and decode the encoded bitstream.

この発明の実施の形態1による符号化装置を示す構成図である。It is a block diagram which shows the coding apparatus by Embodiment 1 of this invention. この発明の実施の形態1による符号化装置の処理内容(符号化方法)を示すフローチャートである。It is a flowchart which shows the processing content (coding method) of the coding apparatus according to Embodiment 1 of this invention. この発明の実施の形態1による復号装置を示す構成図である。It is a block diagram which shows the decoding apparatus by Embodiment 1 of this invention. この発明の実施の形態1による復号装置の処理内容(復号方法)を示すフローチャートである。It is a flowchart which shows the processing content (decoding method) of the decoding apparatus by Embodiment 1 of this invention. MMTでビットストリームを伝送する場合の符号化データの概要を示す説明図である。It is explanatory drawing which shows the outline of the coded data at the time of transmitting a bit stream by MMT. MPUの構成例を示す説明図である。It is explanatory drawing which shows the structural example of MPU. HEVCピクチャ構造記述子を示す説明図である。It is explanatory drawing which shows the HEVC picture structure descriptor. HEVCでの時間階層符号化例を示す説明図である。It is explanatory drawing which shows the time layer coding example in HEVC. ピクチャ構造の一例を示す説明図である。It is explanatory drawing which shows an example of a picture structure. 図9のピクチャ構造で符号化される各ピクチャの符号化順及び提示順を示す説明図である。It is explanatory drawing which shows the coding order and presentation order of each picture which is coded by the picture structure of FIG. PAメッセージの構成を示す説明図である。It is explanatory drawing which shows the structure of a PA message. 分離前のビットストリームと分離後のビットストリームの一例を示す説明図である。It is explanatory drawing which shows an example of the bit stream before separation and the bit stream after separation.

実施の形態1.
図1はこの発明の実施の形態1による符号化装置を示す構成図である。
図1において、音声符号化部1はディジタルの音声信号が与えられると、音声のアクセスユニット(AU)単位に、例えば、MPEG-4オーディオなどの方式によって当該音声信号を符号化して、その音声信号の符号化データである音声ストリームを生成するとともに、その音声ストリームに関するメタデータを符号化する処理を実施する。また符号化されたアクセスユニットの提示時刻(PTS)を音声MMTPパケット生成部8へ出力する。
音声MMTPペイロード生成部2は音声符号化部1により符号化されたメタデータとアクセスユニット(AU)単位の音声信号の符号化データからなる音声MMTPペイロードを生成する処理を実施する。
Embodiment 1.
FIG. 1 is a block diagram showing a coding apparatus according to the first embodiment of the present invention.
In FIG. 1, when a digital voice signal is given, the voice coding unit 1 encodes the voice signal for each voice access unit (AU) by a method such as MPEG-4 audio, and the voice signal is encoded. A voice stream which is the coded data of the above is generated, and a process of encoding the metadata related to the voice stream is performed. Further, the presentation time (PTS) of the encoded access unit is output to the voice MMTP packet generation unit 8.
The voice MMTP payload generation unit 2 performs a process of generating a voice MMTP payload composed of metadata encoded by the voice coding unit 1 and voice signal coded data for each access unit (AU).

HEVC符号化部3はディジタルの映像信号が与えられると、映像のアクセスユニット(AU)単位に、HEVC方式によって当該映像信号を符号化して、その映像信号の符号化データである映像ストリームを生成するとともに、その映像ストリームに関するメタデータを符号化する処理を実施する。
映像MMTPペイロード生成部4はHEVC符号化部3により符号化されたメタデータとアクセスユニット(AU)単位の映像信号の符号化データからなる映像MMTPペイロードを生成する処理を実施する。なお、HEVC符号化部3及び映像MMTPペイロード生成部4から映像符号化手段が構成されている。
When a digital video signal is given, the HEVC coding unit 3 encodes the video signal in the video access unit (AU) unit by the HEVC method, and generates a video stream which is encoded data of the video signal. At the same time, a process of encoding the metadata related to the video stream is performed.
The video MMTP payload generation unit 4 performs a process of generating a video MMTP payload composed of metadata encoded by the HEVC coding unit 3 and coded data of a video signal for each access unit (AU). The video coding means is composed of the HEVC coding unit 3 and the video MMTP payload generation unit 4.

制御情報符号化部5は音声符号化部1により生成された音声ストリーム及びHEVC符号化部3により生成された映像ストリームに関する制御情報として、MMTで規定されているPAメッセージと呼ばれる制御情報を符号化する処理を実施する。
図11にPAメッセージの構成を示す。PAメッセージは1個以上のテーブルから構成される。
PAメッセージに含まれる1つのテーブルには、1つのプログラム(MMTでは、パッケージと称する)を構成する1以上の映像コンポーネント(映像ストリーム)や音声コンポーネント(音声ストリーム)に関する情報が記述されている。MMTでは、映像コンポーネント及び音声コンポーネントがアセットと呼ばれる。
The control information coding unit 5 encodes control information called a PA message defined by the MMT as control information regarding the voice stream generated by the voice coding unit 1 and the video stream generated by the HEVC coding unit 3. Perform the processing to be performed.
FIG. 11 shows the structure of the PA message. A PA message consists of one or more tables.
One table included in the PA message describes information about one or more video components (video stream) and audio components (audio stream) constituting one program (referred to as a package in MMT). In MMT, video and audio components are called assets.

具体的には、アセットを識別するアセットID、アセットの種類(HEVC形式の映像ストリームやMPEG-4 オーディオ形式の音声ストリームなどの種類)を識別するアセットタイプ、各アセットの符号化データやメタデータを格納しているMMTPパケットを示すパケットIDあるいはIP配信される場合のIPアドレスなどアセットの取得先に関する情報、各アセットに関するメタ情報を記述するための各種記述子が、パッケージを構成するアセットの数分だけテーブルに含まれている。
記述子には、各アセットのMPU(Media Processing Unit)を構成しているアクセスユニット(AU)の中で、提示順(表示順)で先頭のアクセスユニット(AU)の提示時刻(表示時刻)を示すMPUタイムスタンプ記述子(提示時刻情報)などMMT規格で定義されている記述子の他に、ユーザーが独自に新たな記述子を定義することも可能であり、独自記述子としてMPU時刻情報記述子が含まれる。
Specifically, the asset ID that identifies the asset, the asset type that identifies the asset type (type such as HEVC format video stream or MPEG-4 audio format audio stream), and the coded data and metadata of each asset. Information about the acquisition destination of assets such as the packet ID indicating the stored MMTP packet or the IP address when IP is delivered, and various descriptors for describing meta information about each asset are as many as the number of assets that make up the package. Only included in the table.
In the descriptor, the presentation time (display time) of the first access unit (AU) in the presentation order (display order) among the access units (AU) constituting the MPU (Media Processing Unit) of each asset is described. In addition to the descriptor defined in the MMT standard such as the MPU time stamp descriptor (presentation time information) to be shown, the user can also define a new descriptor independently, and the MPU time information is described as an original descriptor. Includes children.

なお、MPUは、1以上のアクセスユニット(AU)から構成されており、MPU単体で映像や音声の復号処理を行うことができる単位となる。また、MPUは、1以上のアクセスユニット(AU)の映像信号がフレーム間予測符号化方式で符号化される場合には、前記1以上のアクセスユニット(AU)の映像信号の全てを復号することが可能な複数のアクセスユニット(AU)の集合であるGOPと同じ単位になる。 The MPU is composed of one or more access units (AUs), and is a unit capable of performing video and audio decoding processing by the MPU alone. Further, when the video signal of one or more access units (AU) is encoded by the interframe prediction coding method, the MPU decodes all the video signals of the one or more access units (AU). It is the same unit as GOP, which is a set of multiple access units (AUs) that can be used.

MPU時刻情報記述子には、復号時刻(DTS)や提示時刻(PTS)などの時刻情報を記述する単位を示す情報(timescale)やMPUを構成しているアクセスユニット(AU)の中で、符号化順で先頭のアクセスユニット(AU)の復号時刻を算出するための情報(initial_presentation_time_delay)、MPUを構成している各アクセスユニットの復号時刻や提示時刻を算出するための情報が符号化されているか否かを示すフラグ(presentation_time_offset_present_flag,decoding_time_offset_present_flag)、各アクセスユニットの復号時刻や提示時刻を算出するための情報を符号化するときの符号長を示す情報(time_offset_length_minus1)などが記述されている。 The MPU time information descriptor is a code in the information (timescale) indicating a unit for describing time information such as the decoding time (DTS) and the presentation time (PTS) and the access unit (AU) constituting the MPU. Whether the information for calculating the decoding time of the first access unit (AU) in the order of conversion (initial_presentation_time_delay) and the information for calculating the decoding time and presentation time of each access unit constituting the MPU are encoded. A flag indicating whether or not (presentation_time_offset_present_flag, decoding_time_offset_present_flag), information indicating the code length when encoding information for calculating the decoding time and presentation time of each access unit (time_offset_lenth), etc.

制御MMTPペイロード生成部6は制御情報符号化部5により符号化された制御情報の符号化データからなる制御MMTPペイロードを生成する処理を実施する。
なお、制御情報符号化部5の一部及び制御MMTPペイロード生成部6から制御情報符号化手段が構成されている。また、制御情報符号化部5の他の一部は時刻情報符号化手段を構成している。
The control MMTP payload generation unit 6 performs a process of generating a control MMTP payload composed of coded data of control information encoded by the control information coding unit 5.
The control information coding unit is composed of a part of the control information coding unit 5 and the control MMTP payload generation unit 6. Further, another part of the control information coding unit 5 constitutes a time information coding means.

映像MMTPパケット生成部9は、映像MMTPペイロード生成部4により生成された映像MMTPペイロードに所定のMMTPヘッダを付与してビットストリームを構成する映像MMTPパケットを生成する。MMTPヘッダは、必須で符号化する情報を含む必須ヘッダとオプショナルで符号化する情報を含む拡張ヘッダから構成される。必須ヘッダにはMMTPペイロードに含まれる符号化データの種別に応じて割り当てられるパケットIDなどが含まれる。
拡張ヘッダは、MMTPペイロードに含まれる符号化データのアクセスユニット単位に提示時刻や復号時刻を算出するための情報(提示時刻情報や復号時刻情報)を符号化するか否かを示すフラグの値に応じて、提示時刻情報(presentation_time_offset)や復号時刻情報(decoding_time_offset)が含まれる。
The video MMTP packet generation unit 9 adds a predetermined MMTP header to the video MMTP payload generated by the video MMTP payload generation unit 4 to generate a video MMTP packet constituting a bit stream. The MMTP header is composed of a required header containing information to be required and encoded and an extension header containing information to be optionally encoded. The required header includes a packet ID and the like assigned according to the type of coded data included in the MMTP payload.
The extension header is a value of a flag indicating whether or not to encode information for calculating the presentation time and the decoding time (presentation time information and decoding time information) for each access unit of the coded data included in the MMTP payload. Accordingly, presentation time information (presentation_time_offset) and decoding time information (decoding_time_offset) are included.

音声MMTPパケット生成部8は、音声MMTPペイロード生成部2により生成された音声MMTPペイロードに所定のMMTPヘッダを付与してビットストリームを構成する音声MMTPパケットを生成する。MMTPヘッダは、必須で符号化する情報を含む必須ヘッダとオプショナルで符号化する情報を含む拡張ヘッダから構成される。拡張ヘッダの内容については、映像MMTPパケット生成部にて符号化される拡張ヘッダと同じである。 The voice MMTP packet generation unit 8 adds a predetermined MMTP header to the voice MMTP payload generated by the voice MMTP payload generation unit 2 to generate a voice MMTP packet constituting a bit stream. The MMTP header is composed of a required header containing information to be required and encoded and an extension header containing information to be optionally encoded. The content of the extended header is the same as that of the extended header encoded by the video MMTP packet generation unit.

制御MMTPパケット生成部10は、制御MMTPペイロード生成部6により生成された制御MMTPペイロードに所定のMMTPヘッダを付与し、ビットストリームを構成する制御MMTPパケットを生成する。 The control MMTP packet generation unit 10 adds a predetermined MMTP header to the control MMTP payload generated by the control MMTP payload generation unit 6, and generates a control MMTP packet constituting a bit stream.

MMTPパケット多重化部7は、音声MMTPパケット生成部により生成された音声MMTPパケットと、制御MMTPパケット生成部により生成された制御MMTPパケットと、映像MMTPパケット生成部により生成された映像MMTPパケットとを多重化してビットストリームを構成する処理を実施する。
MMTPパケット多重化部7は、アセットごとに異なるビットストリームを構成することもできる。例えば図9に示すように時間階層符号化された映像ビットストリームの階層レベル2以下のアクセスユニットを含むアセットのMMTPパケットから構成されるビットストリーム1と、階層レベル3のアクセスユニットを含むアセットのMMTPパケットから構成されるビットストリーム2として、それぞれのビットストリームを異なる伝送形態で送ることも可能である。
なお、MMTPパケット多重化部7は多重化手段を構成している。
The MMTP packet multiplexing unit 7 combines a voice MMTP packet generated by the voice MMTP packet generation unit, a control MMTP packet generated by the control MMTP packet generation unit, and a video MMTP packet generated by the video MMTP packet generation unit. Performs the process of multiplexing to form a bitstream.
The MMTP packet multiplexing unit 7 can also configure a different bitstream for each asset. For example, as shown in FIG. 9, a bitstream 1 composed of MMTP packets of an asset containing access units of layer level 2 or lower of a time-layer coded video bitstream, and MMTP of an asset including access units of layer level 3 As the bitstream 2 composed of packets, it is also possible to send each bitstream in a different transmission form.
The MMTP packet multiplexing unit 7 constitutes a multiplexing means.

図1の例では、符号化装置の構成要素である音声符号化部1、音声MMTPペイロード生成部2、HEVC符号化部3、映像MMTPペイロード生成部4、制御情報符号化部5、制御MMTPペイロード生成部6及び制御MMTPパケット生成部10等のそれぞれが専用のハードウェア(例えば、CPUを実装している半導体集積回路、あるいは、ワンチップマイコンなど)で構成されているものを想定しているが、符号化装置がコンピュータで構成されていてもよい。
符号化装置をコンピュータで構成する場合、音声符号化部1、音声MMTPペイロード生成部2、HEVC符号化部3、映像MMTPペイロード生成部4、制御情報符号化部5、制御MMTPペイロード生成部6及び制御MMTPパケット生成部10等の処理内容を記述しているプログラムをコンピュータのメモリに格納し、当該コンピュータのCPUが当該メモリに格納されているプログラムを実行するようにすればよい。
In the example of FIG. 1, a voice coding unit 1, a voice MMTP payload generation unit 2, a HEVC coding unit 3, a video MMTP payload generation unit 4, a control information coding unit 5, and a control MMTP payload, which are components of the coding device, are used. It is assumed that the generator 6 and the control MMTP packet generator 10 are each composed of dedicated hardware (for example, a semiconductor integrated circuit on which a CPU is mounted, or a one-chip microcomputer). , The coding device may be composed of a computer.
When the coding device is configured by a computer, the audio coding unit 1, the audio MMTP payload generation unit 2, the HEVC coding unit 3, the video MMTP payload generation unit 4, the control information coding unit 5, the control MMTP payload generation unit 6 and A program describing the processing contents of the control MMTP packet generation unit 10 and the like may be stored in the memory of the computer, and the CPU of the computer may execute the program stored in the memory.

図2はこの発明の実施の形態1による符号化装置の処理内容(符号化方法)を示すフローチャートである。 FIG. 2 is a flowchart showing the processing content (coding method) of the coding apparatus according to the first embodiment of the present invention.

図3はこの発明の実施の形態1による復号装置を示す構成図である。
図3において、MMTPパケット解析部12は、符号化装置(図1の符号化装置、あるいは、図1の符号化装置に相当する符号化装置)から出力された1以上のアセットを含む1以上のビットストリームが入力する。MMTPパケット解析部12は、ビットストリームを構成しているMMTPパケットのMMTPヘッダを解析して、そのMMTPヘッダに含まれているパケットIDを取得し、そのパケットIDがMMTPペイロードに含まれている符号化データが制御情報(PAメッセージ)である旨を示していれば、そのMMTPパケットに含まれているMMTPペイロードである制御MMTPペイロードを制御MMTPペイロード処理部13に出力する。
FIG. 3 is a block diagram showing a decoding device according to the first embodiment of the present invention.
In FIG. 3, the MMTP packet analysis unit 12 has one or more assets including one or more assets output from the coding device (the coding device of FIG. 1 or the coding device corresponding to the coding device of FIG. 1). Bitstream inputs. The MMTP packet analysis unit 12 analyzes the MMTP header of the MMTP packet constituting the bit stream, acquires the packet ID contained in the MMTP header, and the code containing the packet ID in the MMTP payload. If it indicates that the conversion data is control information (PA message), the control MMTP payload, which is the MMTP payload contained in the MMTP packet, is output to the control MMTP payload processing unit 13.

制御MMTPペイロード処理部13はMMTPパケット解析部12から出力された制御MMTPペイロードに含まれている符号化データの復号処理を実施して、制御情報であるPAメッセージを復号する。
また、制御MMTPペイロード処理部13はPAメッセージに記述されているテーブルからパッケージを構成するアセットに関する情報、各アセットの符号化データやメタデータを格納しているMMTPパケットを示すパケットIDあるいはIP配信される場合のIPアドレスなどアセットの取得先に関する情報を復号する。パケットIDやアセットの取得先に関する情報はMMTPパケット解析部へ出力する。
また、制御MMTPペイロード処理部13はPAメッセージに記述されているテーブルからパッケージを構成するアセットに関するMPUタイムスタンプ記述子とMPU時刻情報記述子を復号する。
The control MMTP payload processing unit 13 performs decoding processing of the coded data included in the control MMTP payload output from the MMTP packet analysis unit 12 to decode the PA message which is the control information.
Further, the control MMTP payload processing unit 13 distributes information about the assets constituting the package from the table described in the PA message, and a packet ID or IP indicating an MMTP packet storing the coded data and metadata of each asset. Decrypts the information about the acquisition destination of the asset such as the IP address in the case of. Information about the packet ID and the acquisition destination of the asset is output to the MMTP packet analysis unit.
Further, the control MMTP payload processing unit 13 decodes the MPU time stamp descriptor and the MPU time information descriptor relating to the assets constituting the package from the table described in the PA message.

MMTPパケット解析部12は、MMTPヘッダに含まれているパケットIDを取得し、取得したパケットIDと制御MMTPペイロード処理部13より出力された各アセットのパケットIDとを照合し、そのパケットIDがMMTPペイロードに含まれている符号化データが音声信号または映像信号である旨を示していれば、そのMMTPパケットをアセット分離部14に出力する処理を実施する。 The MMTP packet analysis unit 12 acquires the packet ID included in the MMTP header, collates the acquired packet ID with the packet ID of each asset output from the control MMTP payload processing unit 13, and the packet ID is MMTP. If it indicates that the coded data included in the payload is an audio signal or a video signal, a process of outputting the MMTP packet to the asset separation unit 14 is performed.

また、MMTPパケット解析部12は、制御MMTPペイロード処理部13により復号されたMPU時刻情報記述子に記述されているMPUを構成している各アクセスユニットの復号時刻や提示時刻を算出するための情報が符号化されているか否かを示すフラグ(presentation_time_offset_present_flag,decoding_time_offset_present_flag)の値に応じて、MMTP拡張ヘッダより提示時刻情報(presentation_time_offset)や復号時刻情報(decoding_time_offset)を復号し、MPUタイムスタンプ記述子に記述されている提示順で先頭のアクセスユニット(AU)の提示時刻とMPU時刻情報記述子に記述されている符号化順で先頭のアクセスユニット(AU)の復号時刻を算出するための情報(initial_presentation_time_delay)を復号して得られる符号化順で先頭のアクセスユニット(AU)の復号時刻とから各アクセスユニット(AU)の提示時刻および復号時刻を算出する処理を実施する。算出された提示時刻および復号時刻は、アクセスユニットに含まれる符号化データの種別に応じて、音声MMTPペイロード処理部15および映像MMTPペイロード処理部19へ出力される。 Further, the MMTP packet analysis unit 12 is information for calculating the decoding time and the presentation time of each access unit constituting the MPU described in the MPU time information descriptor decoded by the control MMTP payload processing unit 13. According to the value of the flag (presentation_time_offset_pressent_flag, decoding_time_offset_present_flag) indicating whether or not is encoded, the presentation time information (presentation_time_offset) from the MMTP extended header, the presentation time information (presentation_time_offset), and the decoding time descriptor (decoding) Information for calculating the presentation time of the first access unit (AU) in the presented order and the decryption time of the first access unit (AU) in the coding order described in the MPU time information descriptor (initial_presentation_time_delay). Is executed, and the presentation time and the decoding time of each access unit (AU) are calculated from the decoding time of the first access unit (AU) in the coding order obtained by decoding. The calculated presentation time and decoding time are output to the audio MMTP payload processing unit 15 and the video MMTP payload processing unit 19 according to the type of coded data included in the access unit.

アセット分離部14は制御MMTPペイロード処理部13により復号されたPAメッセージのテーブルに記述されているアセットID、アセットタイプ及びパケットIDを参照して、MMTPパケット解析部12から出力されたMMTPパケットに含まれているMMTPペイロードが音声MMTPペイロードであるのか、映像MMTPペイロードであるのかを特定し、音声MMTPペイロードであれば、そのMMTPパケットに含まれている音声MMTPペイロードを抽出して、その音声MMTPペイロードを音声MMTPペイロード処理部15に出力し、映像MMTPペイロードであれば、そのMMTPパケットに含まれている映像MMTPペイロードを抽出して、その映像MMTPペイロードを映像MMTPペイロード処理部19に出力する処理を実施する。 The asset separation unit 14 refers to the asset ID, asset type, and packet ID described in the PA message table decoded by the control MMTP payload processing unit 13, and includes them in the MMTP packet output from the MMTP packet analysis unit 12. Identify whether the MMTP payload is a voice MMTP payload or a video MMTP payload, and if it is a voice MMTP payload, extract the voice MMTP payload contained in the MMTP packet and extract the voice MMTP payload. Is output to the audio MMTP payload processing unit 15, and if it is a video MMTP payload, a process of extracting the video MMTP payload contained in the MMTP packet and outputting the video MMTP payload to the video MMTP payload processing unit 19 is performed. implement.

音声MMTPペイロード処理部15はアセット分離部14から出力された音声MMTPペイロードから音声ストリームのMFU(Media Fragment Unit)又はMPUを再構成することで、後段の音声ストリーム復号部17で復号可能な形式の音声エレメンタリーストリーム(音声ES)を生成し、その音声ESを音声ESバッファ16に格納する処理を実施する。MFUは、MPUよりも小さな単位であり、1アクセスユニット(AU)または1NALユニットを1MFUと定義することができる。
また、音声MMTPペイロード処理部15はアセット分離部14から出力された音声MMTPペイロードに含まれている音声ストリームに関するメタデータを抽出し、そのメタデータを音声ESバッファ16に格納する処理を実施する。音声ESバッファ16は音声ES及びメタデータを一時的に格納するメモリである。
The audio MMTP payload processing unit 15 reconstructs the MFU (Media Fragment Unit) or MPU of the audio stream from the audio MMTP payload output from the asset separation unit 14, so that the audio stream decoding unit 17 in the subsequent stage can decode the audio stream. A process of generating a voice elemental stream (voice ES) and storing the voice ES in the voice ES buffer 16 is performed. An MFU is a unit smaller than an MPU, and one access unit (AU) or one NAL unit can be defined as one MFU.
Further, the audio MMTP payload processing unit 15 extracts metadata related to the audio stream included in the audio MMTP payload output from the asset separation unit 14, and performs a process of storing the metadata in the audio ES buffer 16. The voice ES buffer 16 is a memory for temporarily storing voice ES and metadata.

音声ストリーム復号部17は、各アクセスユニット(AU)のDTS(復号時刻)になると、音声ESバッファ16から音声ESを取り出して、当該アクセスユニット(AU)の音声信号を復号し、その復号した音声信号とPTS(提示時刻)を音声データバッファ18に格納する処理を実施する。
音声データバッファ18は音声ストリーム復号部17により復号された音声信号とPTS(提示時刻)を一時的に格納するメモリである。
When the DTS (decoding time) of each access unit (AU) is reached, the audio stream decoding unit 17 takes out the audio ES from the audio ES buffer 16, decodes the audio signal of the access unit (AU), and decodes the decoded audio. A process of storing the signal and the PTS (presentation time) in the voice data buffer 18 is performed.
The audio data buffer 18 is a memory that temporarily stores the audio signal decoded by the audio stream decoding unit 17 and the PTS (presentation time).

映像MMTPペイロード処理部19はアセット分離部14から出力された映像MMTPペイロードから映像ストリームのMFU又はMPUを再構成することで、後段のHEVCES復号部21で復号可能な形式のHEVCエレメンタリーストリーム(HEVC ES)を生成し、そのHEVCエレメンタリーストリームをHEVCESバッファ20に格納する処理を実施する。
また、映像MMTPペイロード処理部19はアセット分離部14から出力された映像MMTPペイロードに含まれている映像ストリームに関するメタデータを抽出し、そのメタデータをHEVCESバッファ20に格納する処理を実施する。
HEVCESバッファ20はHEVCエレメンタリーストリーム及びメタデータを一時的に格納するメモリである。
The video MMTP payload processing unit 19 reconstructs the MFU or MPU of the video stream from the video MMTP payload output from the asset separation unit 14, so that the HEVC elemental stream (HEVC) in a format that can be decoded by the HEVCES decoding unit 21 in the subsequent stage. ES) is generated, and the process of storing the HEVC elemental stream in the HEVCES buffer 20 is performed.
Further, the video MMTP payload processing unit 19 extracts the metadata related to the video stream included in the video MMTP payload output from the asset separation unit 14, and performs a process of storing the metadata in the HEVCES buffer 20.
The HEVCES buffer 20 is a memory for temporarily storing the HEVC elemental stream and metadata.

HEVCES復号部21は各アクセスユニット(AU)のDTS(復号時刻)になると、HEVCESバッファ20からHEVCエレメンタリーストリームを取り出して、当該アクセスユニット(AU)の映像信号を復号し、その復号した映像信号である復号画像とPTS(提示時刻)を復号画像バッファ22に格納する処理を実施する。
復号画像バッファ22はHEVCES復号部21により復号された各アクセスユニット(AU)の復号画像とPTS(提示時刻)を一時的に格納するメモリである。
なお、映像MMTPペイロード処理部19、HEVCESバッファ20、HEVCES復号部21及び復号画像バッファ22から映像復号手段が構成されている。
When the DTS (decoding time) of each access unit (AU) is reached, the HEVCES decoding unit 21 takes out the HEVC elemental stream from the HEVCES buffer 20, decodes the video signal of the access unit (AU), and decodes the decoded video signal. A process of storing the decoded image and the PTS (presentation time) in the decoded image buffer 22 is performed.
The decoded image buffer 22 is a memory that temporarily stores the decoded image and PTS (presentation time) of each access unit (AU) decoded by the HEVCES decoding unit 21.
The video decoding means is composed of the video MMTP payload processing unit 19, the HEVCES buffer 20, the HEVCES decoding unit 21, and the decoded image buffer 22.

図3の例では、復号装置の構成要素であるMMTPパケット解析部12、制御MMTPペイロード処理部13、アセット分離部14、音声MMTPペイロード処理部15、音声ESバッファ16、音声ストリーム復号部17、音声データバッファ18、映像MMTPペイロード処理部19、HEVCESバッファ20、HEVCES復号部21及び復号画像バッファ22のそれぞれが専用のハードウェア(バッファ以外は、例えば、CPUを実装している半導体集積回路、あるいは、ワンチップマイコンなど)で構成されているものを想定しているが、復号装置がコンピュータで構成されていてもよい。
復号装置をコンピュータで構成する場合、音声ESバッファ16、音声データバッファ18、HEVCESバッファ20及び復号画像バッファ22をコンピュータの内部メモリ又は外部メモリ上に構成するとともに、MMTPパケット解析部12、制御MMTPペイロード処理部13、アセット分離部14、音声MMTPペイロード処理部15、音声ストリーム復号部17、映像MMTPペイロード処理部19及びHEVCES復号部21の処理内容を記述しているプログラムをコンピュータのメモリに格納し、当該コンピュータのCPUが当該メモリに格納されているプログラムを実行するようにすればよい。
In the example of FIG. 3, the MMTP packet analysis unit 12, the control MMTP payload processing unit 13, the asset separation unit 14, the voice MMTP payload processing unit 15, the voice ES buffer 16, the voice stream decoding unit 17, and the voice, which are the components of the decoding device, are used. Each of the data buffer 18, the video MMTP payload processing unit 19, the HEVCES buffer 20, the HEVCES decoding unit 21, and the decoded image buffer 22 has dedicated hardware (other than the buffer, for example, a semiconductor integrated circuit on which a CPU is mounted, or a semiconductor integrated circuit, or It is assumed that it is composed of a one-chip microcomputer or the like, but the decoding device may be configured by a computer.
When the decoding device is configured by a computer, the audio ES buffer 16, the audio data buffer 18, the HEVCES buffer 20, and the decoded image buffer 22 are configured on the internal memory or the external memory of the computer, and the MMTP packet analysis unit 12 and the control MMTP payload are configured. A program describing the processing contents of the processing unit 13, the asset separation unit 14, the audio MMTP payload processing unit 15, the audio stream decoding unit 17, the video MMTP payload processing unit 19, and the HEVCES decoding unit 21 is stored in the memory of the computer. The CPU of the computer may execute the program stored in the memory.

図4はこの発明の実施の形態1による復号装置の処理内容(復号方法)を示すフローチャートである。 FIG. 4 is a flowchart showing the processing content (decoding method) of the decoding apparatus according to the first embodiment of the present invention.

次に動作について説明する。
最初の符号化装置の処理内容を説明する。
音声符号化部1は、ディジタルの音声信号が与えられると、音声のアクセスユニット(AU)単位に、例えば、MPEG-4オーディオなどの方式によって当該音声信号を符号化して、その音声信号の符号化データである音声ストリームを生成するとともに、その音声ストリームに関するメタデータを符号化する(図2のステップST1)。
HEVC符号化部3は、ディジタルの映像信号が与えられると、映像のアクセスユニット(AU)単位に、HEVC方式によって当該映像信号を符号化して、その映像信号の符号化データである映像ストリームを生成するとともに、その映像ストリームに関するメタデータを符号化する(ステップST2)。
Next, the operation will be described.
The processing contents of the first coding apparatus will be described.
When a digital voice signal is given, the voice coding unit 1 encodes the voice signal for each voice access unit (AU) by a method such as MPEG-4 audio, and encodes the voice signal. A voice stream which is data is generated, and metadata about the voice stream is encoded (step ST1 in FIG. 2).
When a digital video signal is given, the HEVC coding unit 3 encodes the video signal in the video access unit (AU) unit by the HEVC method, and generates a video stream which is encoded data of the video signal. At the same time, the metadata related to the video stream is encoded (step ST2).

ここで、図5はMMTでビットストリームを伝送する場合の符号化データの概要を示す説明図である。
図5において、アクセスユニット(AU)は、映像であれば、1ピクチャを復号するために必要な符号化データを含む単位であり、音声であれば、符号化単位となる1以上のサンプルから構成されるフレームである。
NALユニットはHEVCの符号化単位であり、1アクセスユニット(AU)は、1以上のNALユニットから構成される。
MPUは、1以上のアクセスユニットから構成され、MPU単体で映像や音声の復号処理を行うことができる単位となる。また、MPUは、1以上のアクセスユニット(AU)の映像信号がフレーム間予測符号化方式で符号化される場合には、前記1以上のアクセスユニット(AU)の映像信号の全てを復号することが可能な複数のアクセスユニット(AU)の集合であるGOPと同じ単位になる。
MFUは、MPUよりも小さな単位であり、1アクセスユニット(AU)又は1NALユニットを1MFUと定義することができる。
Here, FIG. 5 is an explanatory diagram showing an outline of coded data when a bit stream is transmitted by MMT.
In FIG. 5, the access unit (AU) is a unit including coding data necessary for decoding one picture in the case of video, and is composed of one or more samples serving as a coding unit in the case of audio. It is a frame to be done.
The NAL unit is a coding unit of HEVC, and one access unit (AU) is composed of one or more NAL units.
The MPU is composed of one or more access units, and is a unit capable of performing video and audio decoding processing by the MPU alone. Further, when the video signal of one or more access units (AU) is encoded by the interframe prediction coding method, the MPU decodes all the video signals of the one or more access units (AU). It is the same unit as GOP, which is a set of multiple access units (AUs) that can be used.
An MFU is a unit smaller than an MPU, and one access unit (AU) or one NAL unit can be defined as one MFU.

図6はMPUの構成例を示す説明図である。
図6において、MPUメタデータは、MPUに関連するメタデータが記述されるものである。なおMPUメタデータは符号化しなくてもよい。
ムービーフラグメントメタデータ(MFメタ)は、1アクセスユニット(AU)の符号化データ(サンプルデータ)に付随するメタデータが記述されるものである。例えば、アクセスユニット(AU)の符号化データがファイル形式で格納される場合、アクセスユニット(AU)毎に、符号化データが格納されているアドレスや符号化データのデータ長、当該アクセスユニット(AU)の時間長に関する情報が含まれる。なおムービーフラグメントメタデータは符号化しなくてもよい。
MPUメタデータ、ムービーフラグメントメタデータ、MFU及びMMTの制御情報は、MMTPパケット化されて伝送される。MMTPパケットはMMTPヘッダとMMTPペイロードから構成される。
FIG. 6 is an explanatory diagram showing a configuration example of the MPU.
In FIG. 6, the MPU metadata describes metadata related to the MPU. The MPU metadata does not have to be encoded.
The movie fragment metadata (MF meta) describes the metadata attached to the coded data (sample data) of one access unit (AU). For example, when the coded data of the access unit (AU) is stored in a file format, the address where the coded data is stored, the data length of the coded data, and the access unit (AU) are stored for each access unit (AU). ) Contains information about the length of time. The movie fragment metadata does not have to be encoded.
MPU metadata, movie fragment metadata, MFU and MMT control information are transmitted in MMTP packets. An MMTP packet consists of an MMTP header and an MMTP payload.

音声MMTPペイロード生成部2は、音声符号化部1からメタデータ(MPUメタデータ、MFメタなど)の符号化データと、アクセスユニット(AU)単位の音声信号の符号化データとを受けると、MPU単位のMPUメタデータの符号化データと、アクセスユニット(AU)単位のMFメタの符号化データ及び音声信号の符号化データ(サンプルデータ)からなる音声MMTPペイロードを生成する(ステップST3)。
映像MMTPペイロード生成部4は、HEVC符号化部3からメタデータ(MPUメタデータ、MFメタなど)の符号化データと、アクセスユニット(AU)単位の映像信号の符号化データとを受けると、MPU単位のMPUメタデータの符号化データと、アクセスユニット(AU)単位のMFメタの符号化データ及び映像信号の符号化データ(サンプルデータ)からなる映像MMTPペイロードを生成する(ステップST4)。
When the voice MMTP payload generation unit 2 receives the coded data of the metadata (MPU metadata, MF meta, etc.) and the coded data of the voice signal of the access unit (AU) unit from the voice coding unit 1, the MPU is received. A voice MMTP payload including the coded data of the MPU metadata of the unit, the coded data of the MF meta of the access unit (AU) unit, and the coded data (sample data) of the voice signal is generated (step ST3).
When the video MMTP payload generation unit 4 receives the coded data of the metadata (MPU metadata, MF meta, etc.) and the coded data of the video signal of the access unit (AU) unit from the HEVC coding unit 3, the MPU A video MMTP payload including the coded data of the MPU metadata of the unit, the coded data of the MF meta of the access unit (AU) unit, and the coded data (sample data) of the video signal is generated (step ST4).

制御情報符号化部5は、音声符号化部1により生成された音声ストリーム及びHEVC符号化部3により生成された映像ストリームに関する制御情報を符号化する(ステップST5)。
音声ストリーム及び映像ストリームに関する制御情報として、例えば、MMTで規定されているPAメッセージやMPU時刻情報記述子などを符号化する。
PAメッセージには、上述したように、1つのプログラム(MMTでは、パッケージと称する)を構成する1以上の映像コンポーネント(映像ストリーム)や音声コンポーネント(音声ストリーム)に関する情報が記述されている。
即ち、PAメッセージには、音声符号化部1及びHEVC符号化部3により生成されたアセット(映像ストリーム、音声ストリーム)を識別するアセットID、アセットの種類を識別するアセットタイプ、各アセットのMPUを構成しているアクセスユニット(AU)の中で、提示順で先頭のアクセスユニット(AU)の提示時刻を示すMPUタイムスタンプ記述子、各アセットの符号化データやメタデータを格納しているMMTPパケットを示すパケットIDなどが記述されている。
The control information coding unit 5 encodes control information regarding the audio stream generated by the audio coding unit 1 and the video stream generated by the HEVC coding unit 3 (step ST5).
As control information related to the audio stream and the video stream, for example, a PA message specified by the MMT, an MPU time information descriptor, and the like are encoded.
As described above, the PA message describes information about one or more video components (video stream) and audio components (audio stream) constituting one program (referred to as a package in MMT).
That is, in the PA message, the asset ID that identifies the assets (video stream, audio stream) generated by the audio coding unit 1 and the HEVC coding unit 3, the asset type that identifies the asset type, and the MPU of each asset are included. Among the configured access units (AU), the MPU time stamp descriptor indicating the presentation time of the first access unit (AU) in the presentation order, and the MMTP packet storing the coded data and metadata of each asset. A packet ID or the like indicating the above is described.

図7はMPU時刻情報記述子を示す説明図である。
MPU時刻情報記述子には、図7に示すように、どのMPUに関連する情報を含むかを識別するためのシーケンス番号(mpu_sequence_number)と、符号化順でMPU先頭のアクセスユニットの復号時刻と提示順でMPU先頭のアクセスユニットの提示時刻の時間差(initial_presentation_time_delay)と、アクセスユニットの単位で符号化する提示時刻情報及び表示時刻情報を表す単位(timescale)(1/timeslcale秒)、アクセスユニットの単位で提示時刻情報を符号化するか否かを示すフラグ(presentation_time_offset_present_flag)、アクセスユニットの単位で復号時刻情報を符号化するか否かを示すフラグ(decoding_time_offset_present_flag)、アクセスユニットの単位で符号化する提示時刻情報及び表示時刻情報の符号長(time_offset_length_minus1)などが記述されている。なお、timescale、presentation_time_offset_present_flag、decoding_time_offset_present_flag、time_offset_length_minus1は常に固定値を用いるようにすれば、符号化しなくてもよい。
FIG. 7 is an explanatory diagram showing an MPU time information descriptor.
As shown in FIG. 7, the MPU time information descriptor includes a sequence number (mpu_sequence_number) for identifying which MPU-related information is included, and the decoding time and presentation of the access unit at the head of the MPU in the coding order. In order, the time difference between the presentation times of the access unit at the head of the MPU (initial_presentation_time_delay), the unit representing the presentation time information and the display time information encoded in the unit of the access unit (timescale) (1 / timescale seconds), and the unit of the access unit. A flag indicating whether or not to encode the presentation time information (presentation_time_offset_present_flag), a flag indicating whether or not to encode the decoding time information in the unit of the access unit (decoding_time_offset_present_flag), and the presentation time information encoded in the unit of the access unit. And the code length (time_offset_length_minus1) of the display time information and the like are described. Note that timescale, presentation_time_offset_present_flag, decoding_time_offset_present_flag, and time_offset_length_minus1 do not have to be encoded if fixed values are always used.

制御MMTPペイロード生成部6は、制御情報符号化部5から制御情報の符号化データを受けると、その制御情報の符号化データからなる制御MMTPペイロードを生成する(ステップST6)。
映像MMTPパケット生成部は、映像MMTPペイロード生成部により生成された映像MMTPペイロードに所定のMMTPヘッダを付与してビットストリームを構成する映像MMTPパケットを生成する。MMTPヘッダは、必須で符号化する情報を含む必須ヘッダとオプショナルで符号化する情報を含む拡張ヘッダから構成される。必須ヘッダにはMMTPペイロードに含まれる符号化データの種別に応じて割り当てられるパケットIDなどが含まれる。
When the control MMTP payload generation unit 6 receives the coded data of the control information from the control information coding unit 5, the control MMTP payload generation unit 6 generates a control MMTP payload composed of the coded data of the control information (step ST6).
The video MMTP packet generation unit adds a predetermined MMTP header to the video MMTP payload generated by the video MMTP payload generation unit to generate a video MMTP packet constituting a bit stream. The MMTP header is composed of a required header containing information to be required and encoded and an extension header containing information to be optionally encoded. The required header includes a packet ID and the like assigned according to the type of coded data included in the MMTP payload.

拡張ヘッダは、MMTPペイロードに含まれる符号化データのアクセスユニット単位に提示時刻や復号時刻を算出するための情報(提示時刻情報や復号時刻情報)を符号化するか否かを示すフラグの値に応じて、提示時刻情報(presentation_time_offset)や復号時刻情報(decoding_time_offset)が含まれる。
提示時刻情報(presentation_time_offset)は、MMTPペイロードに含まれる符号化データのアクセスユニットの提示時刻と提示順でMPU先頭アクセスユニットの提示時刻の差である。
復号時刻情報(decoding_time_offset)は、MMTPペイロードに含まれる符号化データのアクセスユニットの復号時刻と符号化順でMPU先頭アクセスユニットの復号時刻の差である。
なお提示時刻情報(presentation_time_offset)は、復号時刻情報(decoding_time_offset)を復号して算出されるアクセスユニットの復号時刻からの差を符号化するようにしてもよい。
The extension header is a value of a flag indicating whether or not to encode information for calculating the presentation time and the decoding time (presentation time information and decoding time information) for each access unit of the coded data included in the MMTP payload. Accordingly, presentation time information (presentation_time_offset) and decoding time information (decoding_time_offset) are included.
The presentation time information (presentation_time_offset) is the difference between the presentation time of the access unit of the coded data included in the MMTP payload and the presentation time of the MPU head access unit in the presentation order.
The decoding time information (decoding_time_offset) is the difference between the decoding time of the access unit of the coded data included in the MMTP payload and the decoding time of the MPU head access unit in the coding order.
The presentation time information (presentation_time_offset) may encode the difference from the decoding time of the access unit calculated by decoding the decoding time information (decoding_time_offset).

音声MMTPパケット生成部8は、音声MMTPペイロード生成部2により生成された音声MMTPペイロードに所定のMMTPヘッダを付与してビットストリームを構成する音声MMTPパケットを生成する。MMTPヘッダは、必須で符号化する情報を含む必須ヘッダとオプショナルで符号化する情報を含む拡張ヘッダから構成される。 The voice MMTP packet generation unit 8 adds a predetermined MMTP header to the voice MMTP payload generated by the voice MMTP payload generation unit 2 to generate a voice MMTP packet constituting a bit stream. The MMTP header is composed of a required header containing information to be required and encoded and an extension header containing information to be optionally encoded.

制御MMTPパケット生成部10は、制御MMTPペイロード生成部6により生成された制御MMTPペイロードに所定のMMTPヘッダを付与し、ビットストリームを構成する制御MMTPパケットを生成する。
このMMTPパケットを生成する際、所定のMMTPヘッダを付与するが、このMMTPヘッダには、MMTPペイロードに含まれている符号化データの種別に応じて割り当てられるパケットIDが含まれる。
The control MMTP packet generation unit 10 adds a predetermined MMTP header to the control MMTP payload generated by the control MMTP payload generation unit 6, and generates a control MMTP packet constituting a bit stream.
When the MMTP packet is generated, a predetermined MMTP header is added, and the MMTP header includes a packet ID assigned according to the type of coded data included in the MMTP payload.

MMTPパケット多重化部7は、音声MMTPパケット生成部8により生成された音声MMTPパケットと、制御MMTPパケット生成部10により生成された制御MMTPパケットと、映像MMTPパケット生成部9により生成された映像MMTPパケットとを多重化してビットストリームを構成する。(ステップST7) The MMTP packet multiplexing unit 7 includes a voice MMTP packet generated by the voice MMTP packet generation unit 8, a control MMTP packet generated by the control MMTP packet generation unit 10, and a video MMTP generated by the video MMTP packet generation unit 9. Multiplex with packets to form a bitstream. (Step ST7)

次に復号装置の処理内容を説明する。
MMTPパケット解析部12は、符号化装置(図1の符号化装置、あるいは、図1の符号化装置に相当する符号化装置)から出力された1以上のアセットを含む1以上のビットストリームを入力して、そのビットストリームを構成しているMMTPパケットのMMTPヘッダを解析して、そのMMTPヘッダに含まれているパケットIDを取得する。
MMTPパケット解析部12は、そのパケットIDがMMTPペイロードに含まれている符号化データが制御情報(PAメッセージ、HEVCピクチャ構造記述子)である旨を示していれば、そのMMTPパケットに含まれているMMTPペイロードである制御MMTPペイロードを制御MMTPペイロード処理部13に出力する。
Next, the processing contents of the decoding device will be described.
The MMTP packet analysis unit 12 inputs one or more bitstreams including one or more assets output from the coding device (the coding device of FIG. 1 or the coding device corresponding to the coding device of FIG. 1). Then, the MMTP header of the MMTP packet constituting the bit stream is analyzed, and the packet ID included in the MMTP header is acquired.
If the packet ID indicates that the coded data included in the MMTP payload is control information (PA message, HEVC picture structure descriptor), the MMTP packet analysis unit 12 includes the packet ID in the MMTP packet. The control MMTP payload, which is the MMTP payload, is output to the control MMTP payload processing unit 13.

一方、そのパケットIDがMMTPペイロードに含まれている符号化データが音声信号又は映像信号である旨を示していれば、そのMMTPパケットをアセット分離部14に出力する。
また、MMTPパケット解析部12は、制御MMTPペイロード処理部13により復号されたMPU時刻情報記述子に記述されているMPUを構成している各アクセスユニットの復号時刻や提示時刻を算出するための情報が符号化されているか否かを示すフラグ(presentation_time_offset_present_flag,decoding_time_offset_present_flag)の値に応じて、MMTP拡張ヘッダより提示時刻情報(presentation_time_offset)や復号時刻情報(decoding_time_offset)を復号し、MPUタイムスタンプ記述子に記述されている提示順で先頭のアクセスユニット(AU)の提示時刻とMPU時刻情報記述子に記述されている符号化順で先頭のアクセスユニット(AU)の復号時刻とから各アクセスユニット(AU)の提示時刻および復号時刻を算出する処理を実施する。算出された提示時刻および復号時刻は、アクセスユニットに含まれる符号化データの種別に応じて、音声MMTPペイロード処理部15および映像MMTPペイロード処理部19へ出力される。
On the other hand, if the packet ID indicates that the coded data included in the MMTP payload is an audio signal or a video signal, the MMTP packet is output to the asset separation unit 14.
Further, the MMTP packet analysis unit 12 is information for calculating the decoding time and the presentation time of each access unit constituting the MPU described in the MPU time information descriptor decoded by the control MMTP payload processing unit 13. According to the value of the flag (presentation_time_offset_pressent_flag, decoding_time_offset_present_flag) indicating whether or not is encoded, the presentation time information (presentation_time_offset) from the MMTP extended header, the presentation time information (presentation_time_offset), and the decoding time descriptor (decoding) The presentation time of the first access unit (AU) in the presented order and the decryption time of the first access unit (AU) in the coding order described in the MPU time information descriptor of each access unit (AU). The process of calculating the presentation time and the decoding time is performed. The calculated presentation time and decoding time are output to the audio MMTP payload processing unit 15 and the video MMTP payload processing unit 19 according to the type of coded data included in the access unit.

制御MMTPペイロード処理部13はMMTPパケット解析部12から出力された制御MMTPペイロードに含まれている符号化データの復号処理を実施して、制御情報であるPAメッセージを復号する。
また、制御MMTPペイロード処理部13はPAメッセージに記述されているテーブルからパッケージを構成するアセットに関する情報、各アセットの符号化データやメタデータを格納しているMMTPパケットを示すパケットIDあるいはIP配信される場合のIPアドレスなどアセットの取得先に関する情報を復号する。パケットIDやアセットの取得先に関する情報はMMTPパケット解析部へ出力する。
また、制御MMTPペイロード処理部13はPAメッセージに記述されているテーブルからパッケージを構成するアセットに関するMPUタイムスタンプ記述子とMPU時刻情報記述子を復号する。
The control MMTP payload processing unit 13 performs decoding processing of the coded data included in the control MMTP payload output from the MMTP packet analysis unit 12 to decode the PA message which is the control information.
Further, the control MMTP payload processing unit 13 distributes information about the assets constituting the package from the table described in the PA message, and a packet ID or IP indicating an MMTP packet storing the coded data and metadata of each asset. Decrypts the information about the acquisition destination of the asset such as the IP address in the case of. Information about the packet ID and the acquisition destination of the asset is output to the MMTP packet analysis unit.
Further, the control MMTP payload processing unit 13 decodes the MPU time stamp descriptor and the MPU time information descriptor relating to the assets constituting the package from the table described in the PA message.

アセット分離部14は、制御MMTPペイロード処理部13がPAメッセージを復号すると、そのPAメッセージのテーブルに記述されているアセットID、アセットタイプ及びパケットIDを参照して、MMTPパケット解析部12から出力されたMMTPパケットに含まれているMMTPペイロードが音声MMTPペイロードであるのか、映像MMTPペイロードであるのかを特定する。 When the control MMTP payload processing unit 13 decodes the PA message, the asset separation unit 14 is output from the MMTP packet analysis unit 12 with reference to the asset ID, asset type, and packet ID described in the PA message table. It is specified whether the MMTP payload included in the MMTP packet is the audio MMTP payload or the video MMTP payload.

アセット分離部14は、MMTPパケット解析部12から出力されたMMTPパケットに含まれているMMTPペイロードが音声MMTPペイロードであれば、そのMMTPパケットに含まれている音声MMTPペイロードを抽出して、その音声MMTPペイロードを音声MMTPペイロード処理部15に出力する。
アセット分離部14は、MMTPパケット解析部12から出力されたMMTPパケットに含まれているMMTPペイロードが映像MMTPペイロードであれば、そのMMTPパケットに含まれている映像MMTPペイロードを抽出して、その映像MMTPペイロードを映像MMTPペイロード処理部19に出力する。
If the MMTP payload contained in the MMTP packet output from the MMTP packet analysis unit 12 is a voice MMTP payload, the asset separation unit 14 extracts the voice MMTP payload contained in the MMTP packet and the voice MMTP payload. The MMTP payload is output to the audio MMTP payload processing unit 15.
If the MMTP payload contained in the MMTP packet output from the MMTP packet analysis unit 12 is a video MMTP payload, the asset separation unit 14 extracts the video MMTP payload contained in the MMTP packet and captures the video. The MMTP payload is output to the video MMTP payload processing unit 19.

音声MMTPペイロード処理部15は、アセット分離部14から音声MMTPペイロードを受けると、その音声MMTPペイロードから音声ストリームのMFU又はMPUを再構成することで、後段の音声ストリーム復号部17で復号可能な形式の音声エレメンタリーストリーム(音声ES)を生成し、その音声ESを音声ESバッファ16に格納する。
音声MMTPペイロードから音声ESを生成する処理自体は公知の技術であるため詳細な説明を省略する。
また、音声MMTPペイロード処理部15は、アセット分離部14から出力された音声MMTPペイロードに含まれている音声ストリームに関するメタデータを抽出し、そのメタデータを音声ESバッファ16に格納する。
When the audio MMTP payload processing unit 15 receives the audio MMTP payload from the asset separation unit 14, the audio MMTP payload is reconstructed from the audio MMTP payload to a format that can be decoded by the audio stream decoding unit 17 in the subsequent stage. A voice elemental stream (voice ES) is generated, and the voice ES is stored in the voice ES buffer 16.
Since the process itself for generating the voice ES from the voice MMTP payload is a known technique, detailed description thereof will be omitted.
Further, the audio MMTP payload processing unit 15 extracts metadata about the audio stream included in the audio MMTP payload output from the asset separation unit 14, and stores the metadata in the audio ES buffer 16.

音声ストリーム復号部17は、MMTPパケット解析部にて復号したDTSを参照して、各アクセスユニット(AU)の復号時刻を把握し、各アクセスユニット(AU)の復号時刻になると、音声ESバッファ16から音声ESを取り出して、当該アクセスユニット(AU)の音声信号を復号し、その復号した音声信号とMMTPパケット解析部にて復号したPTS(提示時刻)を音声データバッファ18に格納する。
これにより、外部の再生装置(図示せず)は、音声データバッファ18に格納されている音声信号とPTS(提示時刻)を取り出せば、その提示時刻に音声信号を再生することができる。
The audio stream decoding unit 17 refers to the DTS decoded by the MMTP packet analysis unit, grasps the decoding time of each access unit (AU), and when the decoding time of each access unit (AU) is reached, the audio ES buffer 16 The voice ES is taken out from the voice ES, the voice signal of the access unit (AU) is decoded, and the decoded voice signal and the PTS (presentation time) decoded by the MMTP packet analysis unit are stored in the voice data buffer 18.
As a result, the external playback device (not shown) can reproduce the voice signal at the presentation time by taking out the voice signal and the PTS (presentation time) stored in the voice data buffer 18.

映像MMTPペイロード処理部19は、アセット分離部14から映像MMTPペイロードを受けると、その映像MMTPペイロードから映像ストリームのMFU又はMPUを再構成することで、後段のHEVCES復号部21で復号可能な形式のHEVCエレメンタリーストリーム(HEVC ES)を生成し、そのHEVCエレメンタリーストリームをHEVCESバッファ20に格納する。
映像MMTPペイロードからHEVCエレメンタリーストリームを生成する処理自体は公知の技術であるため詳細な説明を省略する。
また、映像MMTPペイロード処理部19は、アセット分離部14から出力された映像MMTPペイロードに含まれている映像ストリームに関するメタデータを抽出し、そのメタデータをHEVCESバッファ20に格納する。
When the video MMTP payload processing unit 19 receives the video MMTP payload from the asset separation unit 14, it reconstructs the MFU or MPU of the video stream from the video MMTP payload, so that it can be decoded by the HEVCES decoding unit 21 in the subsequent stage. A HEVC elemental stream (HEVC ES) is generated, and the HEVC elemental stream is stored in the HEVCES buffer 20.
Since the process itself for generating the HEVC elemental stream from the video MMTP payload is a known technique, detailed description thereof will be omitted.
Further, the video MMTP payload processing unit 19 extracts the metadata related to the video stream included in the video MMTP payload output from the asset separation unit 14, and stores the metadata in the HEVCES buffer 20.

HEVCES復号部21は、MMTPパケット解析部にて復号したDTSを参照して、各アクセスユニット(AU)の復号時刻を把握し、各アクセスユニット(AU)の復号時刻になると、HEVCESバッファ20からHEVCエレメンタリーストリームを取り出して、当該アクセスユニット(AU)の映像信号を復号し、その復号した映像信号である復号画像とMMTPパケット解析部にて復号したPTS(提示時刻)を復号画像バッファ22に格納する。
これにより、外部の再生装置(図示せず)は、復号画像バッファ22に格納されている復号画像とPTS(提示時刻)を取り出せば、その提示時刻に復号画像を再生することができる。
TemporalIDが0からMのアクセスユニットから構成される時間階層符号化された映像ビットストリームを、TemporalIDが0から(M-1)のアクセスユニットから構成されるビットストリームとTemporalIDがMのアクセスユニットから構成されるビットストリームに分離して、それぞれのビットストリームが異なる伝送路を用いて伝送されるときの処理について説明する。
図12に分離前のビットストリームと分離後のビットストリームの一例を示す。
The HEVCES decoding unit 21 refers to the DTS decoded by the MMTP packet analysis unit, grasps the decoding time of each access unit (AU), and when the decoding time of each access unit (AU) is reached, the HEVCES buffer 20 to HEVC. The elemental stream is taken out, the video signal of the access unit (AU) is decoded, and the decoded image which is the decoded video signal and the PTS (presentation time) decoded by the MMTP packet analysis unit are stored in the decoded image buffer 22. do.
As a result, if an external playback device (not shown) takes out the decoded image and the PTS (presentation time) stored in the decoded image buffer 22, the decoded image can be reproduced at the presented time.
A time-hierarchically encoded video bitstream composed of access units having a Temporal ID of 0 to M, a bitstream composed of an access unit having a Temporal ID of 0 to (M-1), and an access unit having a Temporal ID of M. The processing when the bitstreams are separated into the bitstreams and each bitstream is transmitted using a different transmission line will be described.
FIG. 12 shows an example of the bit stream before separation and the bit stream after separation.

MMTPパケット解析部12は、入力されたビットストリームを構成しているMMTPパケットに含まれている制御MMTPペイロードを制御MMTPペイロード処理部13に出力し、そのビットストリームを構成しているMMTPパケットに含まれている音声MMTPペイロード又は映像MMTPペイロードをアセット分離部14に出力する。 The MMTP packet analysis unit 12 outputs the control MMTP payload contained in the MMTP packet constituting the input bitstream to the control MMTP payload processing unit 13, and includes it in the MMTP packet constituting the bitstream. The audio MMTP payload or the video MMTP payload is output to the asset separation unit 14.

制御MMTPペイロード処理部13は、MMTPパケット解析部12から制御MMTPペイロードを受けると、その制御MMTPペイロードに含まれている符号化データの復号処理を実施して、制御情報であるPAメッセージを復号する(ステップST15)。
制御MMTPペイロード処理部13は、PAメッセージに記述されているアセットに関する情報などから、映像ビットストリームが時間階層符号化されていて、時間階層レベル(TemporalID)によって2以上のアセット(例えばアセット1、アセット2)に分離されてアセットごとに異なる伝送路から取得していること、アセット間の依存関係(アセット2はアセット1と依存関係にあること)などの情報を取得する。
When the control MMTP payload processing unit 13 receives the control MMTP payload from the MMTP packet analysis unit 12, it performs decoding processing of the coded data included in the control MMTP payload and decodes the PA message which is the control information. (Step ST15).
In the control MMTP payload processing unit 13, the video bitstream is time-hierarchically encoded from the information about the assets described in the PA message, and two or more assets (for example, asset 1, asset) are used depending on the time-hierarchy level (TemporalID). Information such as the fact that it is separated into 2) and acquired from a different transmission line for each asset, and the dependency relationship between assets (asset 2 has a dependency relationship with asset 1) is acquired.

アセット分離部14は、MMTPパケット解析部12からMMTPパケットを受け取ると、PAメッセージに記述された映像アセットに関する情報に基づいて、パケットIDを参照して、そのMMTPパケットに含まれている映像MMTPペイロードを映像MMTPペイロード処理部19に出力する。例えば映像アセットがアセット1とアセット2から構成されている場合には、それぞれのアセットに関する映像MMTPペイロードが映像MMTPペイロード処理部へ出力される。 When the asset separation unit 14 receives the MMTP packet from the MMTP packet analysis unit 12, the asset separation unit 14 refers to the packet ID based on the information about the video asset described in the PA message, and the video MMTP payload included in the MMTP packet. Is output to the video MMTP payload processing unit 19. For example, when the video asset is composed of the asset 1 and the asset 2, the video MMTP payload related to each asset is output to the video MMTP payload processing unit.

映像MMTPペイロード処理部19は、アセット分離部14から2以上の映像アセットに係る映像MMTPペイロードを受けるとそれぞれの映像MMTPペイロードからHEVCエレメンタリーストリームを生成して、そのHEVCエレメンタリーストリームをHEVCESバッファ20に格納するとともに、各々の映像MMTPペイロードに含まれているアクセスユニットの復号時刻と提示時刻をHEVCESバッファ20に格納する(ステップST19)。 When the video MMTP payload processing unit 19 receives the video MMTP payload related to two or more video assets from the asset separation unit 14, it generates a HEVC elemental stream from each video MMTP payload, and the HEVC elemental stream is used as the HEVCES buffer 20. The decoding time and the presentation time of the access unit included in each video MMTP payload are stored in the HEVCES buffer 20 (step ST19).

HEVCES復号部21は、例えばアセット1とアセット2の依存関係に基づき、アセット1のアクセスユニットのDTSとアセット2のアクセスユニットのDTSを比較することによって、分離前のHEVCエレメンタリーストリームの符号化順を特定することができ、異なるビットストリームに分離して入力されたHEVCエレメンタリーストリームを正しい復号時刻でHEVCESバッファ20から取り出して、当該アクセスユニット(AU)の映像信号を復号することができる。 The HEVCES decoding unit 21 compares the DTS of the access unit of the asset 1 with the DTS of the access unit of the asset 2 based on the dependency relationship between the asset 1 and the asset 2, for example, in order to encode the HEVC elemental stream before separation. The HEVC elemental stream input separately into different bitstreams can be taken out from the HEVCES buffer 20 at the correct decoding time, and the video signal of the access unit (AU) can be decoded.

以上で明らかなように、この実施の形態1によれば、1以上のアクセスユニット(AU)の映像信号が時間階層符号化された場合に、各アクセスユニットの階層レベルに応じて異なるアセットを構成する場合に、各アセットを構成するMPUの単位にMPU時刻情報記述子を符号化し、MPU時刻情報記述子に含まれるMMTPペイロードに含まれる符号化データのアクセスユニット単位に提示時刻や復号時刻を算出するための情報(提示時刻情報や復号時刻情報)を符号化するか否かを示すフラグの値に応じて、MPUを構成するアクセスユニットの単位に、提示時刻情報(presentation_time_offset)や復号時刻情報(decoding_time_offset)を符号化するように構成したので、時間階層符号化された映像のビットストリームを各アクセスユニットの階層レベルに応じて異なるアセットを構成し伝送する場合でも、復号装置において各アクセスユニットの復号タイミングに基づいて時間階層符号化されたビットストリームを再構成し復号することができる符号化装置、復号装置が得られる効果がある。 As is clear from the above, according to the first embodiment, when the video signals of one or more access units (AU) are time-layer coded, different assets are configured according to the layer level of each access unit. In this case, the MPU time information descriptor is encoded in the unit of MPU that constitutes each asset, and the presentation time and decoding time are calculated in the access unit unit of the coded data included in the MMTP payload included in the MPU time information descriptor. The presentation time information (presentation_time_offset) and the decoding time information (presentation_time_offset) and the decoding time information (presentation_time_offset) are used in the unit of the access unit constituting the MPU according to the value of the flag indicating whether to encode the information (presentation time information or decoding time information). Since the decoding_time_offset) is configured to be encoded, even when a bit stream of time-layer-encoded video is configured and transmitted as different assets according to the layer level of each access unit, the decoding device decodes each access unit. There is an effect of obtaining a coding device and a decoding device capable of reconstructing and decoding a bit stream encoded in a time hierarchy based on the timing.

なお、本願発明はその発明の範囲内において、実施の形態の自由な組み合わせ、あるいは実施の形態の任意の構成要素の変形、もしくは実施の形態において任意の構成要素の省略が可能である。 It should be noted that, within the scope of the present invention, any combination of embodiments can be freely combined, any component of the embodiment can be modified, or any component can be omitted in the embodiment.

1 音声符号化部、2 音声MMTPペイロード生成部、3 HEVC符号化部(映像符号化手段)、4 映像MMTPペイロード生成部(映像符号化手段)、5 制御情報符号化部(制御情報符号化手段、時刻情報符号化手段)、6 制御MMTPペイロード生成部(制御情報符号化手段)、7 MMTPパケット多重化部(多重化手段)、8 音声MMTPパケット生成部、9 映像MMTPパケット生成部、10 制御MMTPパケット生成部、12 MMTPパケット解析部、13 制御MMTPペイロード処理部(提示時刻算出手段)、14 アセット分離部、15 音声MMTPペイロード処理部、16 音声ESバッファ、17 音声ストリーム復号部、18 音声データバッファ、19 映像MMTPペイロード処理部(映像復号手段)、20 HEVCESバッファ(映像復号手段)、21 HEVCES復号部(映像復号手段)、22 復号画像バッファ(映像復号手段)。 1 Voice coding unit, 2 Voice MMTP packet generation unit, 3 HEVC coding unit (video coding means), 4 Video MMTP packet generation unit (video coding means), 5 Control information coding unit (control information coding means) , Time information coding means), 6 Control MMTP payload generation unit (control information coding means), 7 MMTP packet multiplexing unit (multiplexing means), 8 Voice MMTP packet generation unit, 9 Video MMTP packet generation unit, 10 Control MMTP packet generation unit, 12 MMTP packet analysis unit, 13 control MMTP payload processing unit (presentation time calculation means), 14 asset separation unit, 15 audio MMTP payload processing unit, 16 audio ES buffer, 17 audio stream decoding unit, 18 audio data Buffer, 19 video MMTP packet processing unit (video decoding means), 20 HEVCES buffer (video decoding means), 21 HEVCES decoding unit (video decoding means), 22 decoded image buffer (video decoding means).

Claims (1)

1つのプログラムを構成する1以上のコンポーネントに関し、前記コンポーネント毎に異なる伝送形式によりデータの伝送が可能なMMTにおける映像信号の符号化データを復号する復号装置であって、
前記符号化データから、フレーム間予測符号化方式で符号化された複数のアクセスユニットの集合である1以上のGOPにおける、提示順で先頭のアクセスユニットの提示時刻を示す提示時刻情報と、当該アクセスユニットとは異なり符号化順で先頭のアクセスユニットの復号時刻と前記提示時刻との時間差情報と、アクセスユニットの単位で符号化する提示時刻情報及び表示時刻情報を表す単位と、を復号する制御情報復号手段と、
前記制御情報復号手段が取得した、前記提示時刻情報、前記時間差情報、および前記単位を用いて、各アクセスユニットの前記提示時刻および前記復号時刻を算出し、前記符号化データに含まれる前記映像信号を復号する復号手段と
を備えた復号装置。
A decoding device that decodes coded data of a video signal in an MMT capable of transmitting data in a transmission format different for each of the one or more components constituting one program.
From the coded data, presentation time information indicating the presentation time of the first access unit in the presentation order in one or more GOPs, which is a set of a plurality of access units encoded by the inter-frame predictive coding method, and the access. Control information for decoding the time difference information between the decoding time of the first access unit and the presentation time in the coding order unlike the unit, and the unit representing the presentation time information and the display time information encoded in the unit of the access unit. Decoding means and
Using the presentation time information, the time difference information, and the unit acquired by the control information decoding means, the presentation time and the decoding time of each access unit are calculated, and the video signal included in the coded data is calculated. A decryption device equipped with a decoding means for decoding.
JP2021071838A 2019-08-22 2021-04-21 Decoding device Active JP7067653B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021071838A JP7067653B2 (en) 2019-08-22 2021-04-21 Decoding device
JP2022071720A JP7306527B2 (en) 2019-08-22 2022-04-25 decoding device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019152048A JP6879344B2 (en) 2019-08-22 2019-08-22 Decryptor
JP2021071838A JP7067653B2 (en) 2019-08-22 2021-04-21 Decoding device

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2019152048A Division JP6879344B2 (en) 2019-08-22 2019-08-22 Decryptor

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022071720A Division JP7306527B2 (en) 2019-08-22 2022-04-25 decoding device

Publications (2)

Publication Number Publication Date
JP2021121108A JP2021121108A (en) 2021-08-19
JP7067653B2 true JP7067653B2 (en) 2022-05-16

Family

ID=69097158

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019152048A Active JP6879344B2 (en) 2019-08-22 2019-08-22 Decryptor
JP2021071838A Active JP7067653B2 (en) 2019-08-22 2021-04-21 Decoding device

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2019152048A Active JP6879344B2 (en) 2019-08-22 2019-08-22 Decryptor

Country Status (1)

Country Link
JP (2) JP6879344B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022090106A (en) * 2019-08-22 2022-06-16 三菱電機株式会社 Decoder

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6538324B2 (en) * 2013-10-18 2019-07-03 パナソニック株式会社 Image coding method and image coding apparatus
CN115604475A (en) * 2022-08-12 2023-01-13 西安电子科技大学(Cn) Multi-mode information source joint coding method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007336578A (en) 2004-06-02 2007-12-27 Matsushita Electric Ind Co Ltd Multiplexing apparatus and demultiplexing apparatus
JP2014200054A (en) 2013-03-14 2014-10-23 ソニー株式会社 Transmitter, transmission method, receiver and reception method
WO2014196189A1 (en) 2013-06-05 2014-12-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ Data decoding method, data decoding apparatus, and data transmitting method
JP2015119477A (en) 2013-12-16 2015-06-25 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America Transmission method, reception method, transmission apparatus and reception apparatus

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6538324B2 (en) * 2013-10-18 2019-07-03 パナソニック株式会社 Image coding method and image coding apparatus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007336578A (en) 2004-06-02 2007-12-27 Matsushita Electric Ind Co Ltd Multiplexing apparatus and demultiplexing apparatus
JP2014200054A (en) 2013-03-14 2014-10-23 ソニー株式会社 Transmitter, transmission method, receiver and reception method
WO2014196189A1 (en) 2013-06-05 2014-12-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ Data decoding method, data decoding apparatus, and data transmitting method
JP2015119477A (en) 2013-12-16 2015-06-25 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America Transmission method, reception method, transmission apparatus and reception apparatus

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
河村 侑輝 他,MMTにおけるMPEG-2 TSコンテンツ多重方式の検討 A Study on Multiplexing Scheme for MPEG-2,情報処理学会研究報告,日本,情報処理学会,2014年02月21日,pp. 1-6

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022090106A (en) * 2019-08-22 2022-06-16 三菱電機株式会社 Decoder
JP7306527B2 (en) 2019-08-22 2023-07-11 三菱電機株式会社 decoding device

Also Published As

Publication number Publication date
JP6879344B2 (en) 2021-06-02
JP2021121108A (en) 2021-08-19
JP2019220974A (en) 2019-12-26

Similar Documents

Publication Publication Date Title
JP7091421B2 (en) Transmitter and receiver
JP7067653B2 (en) Decoding device
JP6040282B2 (en) Method and apparatus for decoding an enhanced video stream
JP5575949B2 (en) Broadcast data transmission method and apparatus
US11381867B2 (en) Multiple decoder interface for streamed media data
JP6302274B2 (en) Transmitting apparatus and receiving apparatus
JP6344392B2 (en) Encoding device, encoding method, transmitting device, decoding device, decoding method, and receiving device
JP7200329B2 (en) Transmission method, reception method, transmission device and reception device
JP7306527B2 (en) decoding device
JP6641344B2 (en) Encoding device
JP6825075B2 (en) Decryptor
JP7003308B2 (en) Decoding device
JP2015226305A (en) Encoding device
KR101941781B1 (en) Method and Apparatus for Receiving 8K Broadcasting based on MMT
JP6257448B2 (en) Encoding device, decoding device, encoding method, and decoding method
JP7257646B2 (en) Transmission method, reception method, transmission device and reception device
KR101964649B1 (en) Method for trasmitting media content and device thereof
JP2002094995A (en) Data processing method, data processing unit and data processing system
KR20120058373A (en) Video transmission and device playing system based on http streaming using svc server

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210421

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220411

R151 Written notification of patent or utility model registration

Ref document number: 7067653

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151