JP2020061773A - Decoding device - Google Patents

Decoding device Download PDF

Info

Publication number
JP2020061773A
JP2020061773A JP2019238152A JP2019238152A JP2020061773A JP 2020061773 A JP2020061773 A JP 2020061773A JP 2019238152 A JP2019238152 A JP 2019238152A JP 2019238152 A JP2019238152 A JP 2019238152A JP 2020061773 A JP2020061773 A JP 2020061773A
Authority
JP
Japan
Prior art keywords
unit
audio
mmtp
decoding
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019238152A
Other languages
Japanese (ja)
Other versions
JP6825075B2 (en
Inventor
守屋 芳美
Yoshimi Moriya
芳美 守屋
彰 峯澤
Akira Minesawa
彰 峯澤
亮史 服部
Akifumi Hattori
亮史 服部
一之 宮澤
Kazuyuki Miyazawa
一之 宮澤
幸成 松田
Yukinari Matsuda
幸成 松田
関口 俊一
Shunichi Sekiguchi
俊一 関口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2019238152A priority Critical patent/JP6825075B2/en
Publication of JP2020061773A publication Critical patent/JP2020061773A/en
Application granted granted Critical
Publication of JP6825075B2 publication Critical patent/JP6825075B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

To enable elimination of a period in which no picture is displayed when a channel is switched by a user, thereby implementing seamless channel switching.SOLUTION: Presentation time information indicating presentation time of a first access unit in order of presentation and information for calculating the presentation time of the first access unit in order of encoding from the presentation time information indicating the presentation time of the first access unit in order of presentation in a group of pictures (GOP) which is an assembly of a plurality of access units (AUs) encoded by an inter-frame prediction encoding system are obtained from encoded data. A video signal included in the encoded data is decoded by using the presentation time information of the first access unit in order of presentation and the information for calculating the presentation time of the first access unit in order of encoding.SELECTED DRAWING: Figure 3

Description

この発明は、映像信号や音声信号を符号化してビットストリームを生成する符号化装置及び符号化方法と、ビットストリームに多重化されている符号化データを復号する復号装置及び復号方法とに関するものである。   The present invention relates to a coding apparatus and a coding method for coding a video signal and an audio signal to generate a bitstream, and a decoding apparatus and a decoding method for decoding coded data multiplexed in the bitstream. is there.

日本のディジタル放送では、以下の非特許文献1に記載されているように、映像信号や音声信号の符号化データである映像ストリームと音声ストリームは、MPEG−2(Moving Picture Experts Group Phase−2)のシステム規格であるトランスポートストリーム(TS)形式で多重化されて伝送される。このとき、符号化装置は、映像ストリーム及び音声ストリームに関連するメタデータの符号化データについても、映像ストリーム及び音声ストリームと一緒に多重化して伝送する。   In Japanese digital broadcasting, as described in Non-Patent Document 1 below, a video stream and an audio stream which are encoded data of a video signal and an audio signal are MPEG-2 (Moving Picture Experts Group Phase-2). It is multiplexed and transmitted in the transport stream (TS) format, which is a system standard of. At this time, the encoding device multiplexes the encoded data of the metadata related to the video stream and the audio stream together with the video stream and the audio stream, and transmits the multiplexed data.

MPEG−2でのトランスポートストリーム(TS)の他に、MPEGで標準化が進められている新しいトランスポート方式として、MMT(MPEG Media Transport)があり、MMTは、1つのプログラムを構成する1以上の映像コンポーネント(映像ストリーム)と音声コンポーネント(音声ストリーム)を伝送する際、コンポーネント毎に、異なる伝送形態(例えば、放送、通信など)での伝送を可能にしている。   In addition to the transport stream (TS) in MPEG-2, there is MMT (MPEG Media Transport) as a new transport method that is being standardized in MPEG, and MMT is one or more that compose one program. When transmitting a video component (video stream) and an audio component (audio stream), it is possible to perform transmission in different transmission modes (for example, broadcasting and communication) for each component.

ここで、HEVC/H.265(以下、「HEVC」と称する)は、MPEG及びITU(International Telecommunication Union)で標準化された新しい映像符号化方式である。
HEVCでは、時間階層符号化(時間方向にスケーラブルな符号化)が導入されており、アクセスユニット(1ピクチャを復号するために必要な符号化データを含む単位)を構成する符号化単位のNAL(Network Abstraction Layer)ユニット毎に階層レベルを指定することができる。
Here, HEVC / H. H.265 (hereinafter referred to as "HEVC") is a new video coding method standardized by MPEG and ITU (International Telecommunications Union).
In HEVC, temporal hierarchical coding (scalable coding in the time direction) is introduced, and NAL (a unit including coding data necessary for decoding one picture) of an access unit (NAL) A hierarchy level can be designated for each Network Abstraction Layer) unit.

図8はHEVCでの時間階層符号化例を示す説明図である。
図8において、TemporalIDは各アクセスユニット(AU)の階層レベルを示す識別情報である。
TemporalID=Lの場合、0の階層だけであるため、時間階層符号化は行われていない。
TemporalID=Lの場合、最大階層が1の階層であり、時間階層符号化が行われている。
同様に、TemporalID=L,Lの場合、最大階層がそれぞれ2,3の階層であり、時間階層符号化が行われている。
FIG. 8 is an explanatory diagram showing an example of temporal layer coding in HEVC.
In FIG. 8, TemporalID is identification information indicating the hierarchical level of each access unit (AU).
In the case of TemporalID = L 0 , since there is only a layer of 0, temporal layer coding is not performed.
When TemporalID = L 1 , the maximum layer is 1, and temporal layer coding is performed.
Similarly, when TemporalID = L 2 and L 3 , the maximum layers are layers 2 and 3 , respectively, and temporal layer coding is performed.

時間階層符号化の内容は公知であるため詳細な説明を省略するが、時間階層符号化の制約として、符号化対象のアクセスユニット(AU)が有する階層レベルより大きい階層レベルを有するアクセスユニット(AU)は参照することができないというものがある。
なお、HEVCでは、最大階層が6までの参照構造による時間階層符号化が可能である。
The content of the time hierarchical coding is publicly known, and thus a detailed description thereof will be omitted. However, as a restriction of the time hierarchical coding, an access unit (AU) having a hierarchical level higher than that of the access unit (AU) to be coded There is something that cannot be referred to.
In HEVC, temporal hierarchical coding is possible with a reference structure having a maximum hierarchical layer of 6.

図9はピクチャ構造の一例を示す説明図である。
図9において、IRAPは、HEVCで規定されているIRAP(Intra random access point)ピクチャのことであり、ビットストリームの途中から復号を開始するときに、表示順でIRAPピクチャ以降のピクチャについては正常に復号されることが保証される。
GOP(Group Of Pictures)は、1以上のアクセスユニット(AU)の映像信号がフレーム間予測符号化方式で符号化された場合に、前記1以上のアクセスユニットの映像信号の全てを復号することが可能な複数のアクセスユニット(AU)の集合である。即ち、符号化順で先頭のアクセスユニット(AU)であるIRAPピクチャと、そのIRAPピクチャに続くアクセスユニット(AU)(IRAPピクチャ以外のピクチャ)との集合である。
また、SOPは、階層レベル0を有し、符号化順で先頭のピクチャと、そのピクチャに続く階層レベル1以上のピクチャの集合である。
1つのシーケンスのビットストリームは、1以上のGOPから構成され、1つのGOPは1以上のSOPから構成される。図9の例では、LのSOPとLのSOPからGOPが構成されている。
FIG. 9 is an explanatory diagram showing an example of the picture structure.
In FIG. 9, IRAP is an IRAP (Intra random access point) picture specified by HEVC, and when decoding is started from the middle of a bitstream, pictures after the IRAP picture are normally displayed in the display order. Guaranteed to be decrypted.
GOP (Group Of Pictures) is capable of decoding all video signals of one or more access units when video signals of one or more access units (AU) are encoded by an interframe predictive coding method. It is a set of possible multiple access units (AU). That is, it is a set of an IRAP picture which is the first access unit (AU) in the encoding order and an access unit (AU) (pictures other than IRAP picture) following the IRAP picture.
Also, the SOP is a set of a picture having a hierarchical level 0, a picture at the head in the coding order, and pictures at a hierarchical level 1 or higher following the picture.
One sequence bit stream is composed of one or more GOPs, and one GOP is composed of one or more SOPs. In the example of FIG. 9, a GOP is composed of the SOP of L 3 and the SOP of L 2 .

図10は図9のピクチャ構造で符号化される各ピクチャの符号化順及び表示順を示す説明図である。
先頭のSOPにおいて、符号化順で先頭のアクセスユニット(AU)であるIRAPピクチャに続く各ピクチャは、1つ前のSOPのピクチャを参照画像として符号化されているものである。
このため、IRAPピクチャに続く各ピクチャを正常に復号するには、1つ前のSOPのピクチャを参照する必要があるため、1つ前のSOPのピクチャが既に復号されている必要がある。
よって、先頭のSOPのIRAPピクチャから復号を開始する場合には、1つ前のSOPのピクチャを参照することができない(1つ前のSOPのピクチャが復号されていない)ので、そのIRAPピクチャに続く各ピクチャは、正常に復号を行うことができない。
HEVCでは、符号化順でIRAPピクチャに続くピクチャであって、IRAPピクチャより表示順が早いピクチャはLP(Leading Picutre)と呼ばれ、IRAPピクチャから復号を開始した場合、LPは正常に復号を行うことができない。
なお、IRAPピクチャは、フレーム内符号化方式で符号化されているため、1つ前のSOPのピクチャが復号されていなくても、正常に復号を行うことができる。
FIG. 10 is an explanatory diagram showing the coding order and display order of each picture coded with the picture structure of FIG.
In the head SOP, each picture following the IRAP picture, which is the head access unit (AU) in the coding order, is coded using the picture of the immediately preceding SOP as a reference image.
Therefore, in order to normally decode each picture following the IRAP picture, it is necessary to refer to the picture of the immediately preceding SOP, so that the picture of the immediately preceding SOP needs to be already decoded.
Therefore, when decoding is started from the IRAP picture of the first SOP, it is not possible to refer to the picture of the immediately preceding SOP (the picture of the immediately preceding SOP has not been decoded). Each subsequent picture cannot be decoded normally.
In HEVC, a picture that follows an IRAP picture in coding order and is earlier in display order than an IRAP picture is called an LP (Leading Picture), and if decoding starts from an IRAP picture, the LP will perform decoding normally. I can't.
Since the IRAP picture is coded by the intraframe coding method, the IRAP picture can be normally decoded even if the picture of the immediately previous SOP is not decoded.

例えば、ディジタル放送では、複数のビットストリームが同時に配信され、ユーザによるチャンネル切替によって、表示対象のビットストリームが切り替えられる。
複数のビットストリームには、IRAPピクチャが周期的に挿入されているため、ユーザのチャンネル切替時には、いずれかのIRAPピクチャから復号を開始することで、表示映像を切り替えることができる。
For example, in digital broadcasting, a plurality of bit streams are simultaneously delivered, and the bit stream to be displayed is switched by the user switching the channel.
Since IRAP pictures are periodically inserted in a plurality of bitstreams, the display video can be switched by starting decoding from one of the IRAP pictures when the user switches channels.

STD−B32(ARIB(一般社団法人 電波産業会)で策定されたディジタル放送に関する標準規格)STD-B32 (Standard for digital broadcasting established by ARIB (The Association of Radio Industries and Businesses))

従来の符号化装置は以上のように構成されているので、時間階層符号化を行う場合、最大階層が大きくなるほど、SOPを構成するピクチャの数が多くなる。このため、復号装置がIRAPピクチャから復号を開始する場合、正常に復号を行うことができないLPの数が増加するので、ユーザによるチャンネル切替によって、表示対象のビットストリームが切り替えられる場合、切替後のビットストリームによるピクチャが表示されるまでに多くの時間を要し、何のピクチャも表示されない時間が長くなってしまう課題があった。
即ち、ユーザによるチャンネル切替によって、表示対象のビットストリームが切り替えられた場合、先頭のLP(図10の例では、B25のピクチャ)の表示時刻からIRAPピクチャの表示時刻になるまでの間、何のピクチャも表示されなくなるので、SOPを構成するピクチャの数が多くなるほど、何のピクチャも表示されない時間が長くなってしまう課題があった。
Since the conventional coding apparatus is configured as described above, when performing temporal hierarchical coding, the larger the maximum hierarchical level, the greater the number of pictures that make up the SOP. Therefore, when the decoding device starts decoding from an IRAP picture, the number of LPs that cannot be decoded normally increases. Therefore, when the bit stream to be displayed is switched by the channel switching by the user, There is a problem that it takes a long time to display a picture of a bitstream, and the time during which no picture is displayed becomes long.
That is, when the bit stream to be displayed is switched by the channel switching by the user, what is displayed from the display time of the first LP (picture B25 in the example of FIG. 10) to the display time of the IRAP picture. Since no picture is displayed, there is a problem in that the larger the number of pictures forming the SOP, the longer the time during which no picture is displayed.

この発明は上記のような課題を解決するためになされたもので、ユーザによりチャンネルが切り替えられたときに何のピクチャも表示されない時間を無くして、シームレスなチャンネル切替を実現することができる符号化装置、復号装置、符号化方法及び復号方法を得ることを目的とする。   The present invention has been made to solve the above problems, and it is possible to realize seamless channel switching by eliminating the time when no picture is displayed when the channel is switched by the user. An object is to obtain a device, a decoding device, an encoding method and a decoding method.

この発明に係る復号装置は、MMT(MPEG Media Transport)が規定する伝送方式で伝送される映像信号の符号化データを復号する復号装置であって、符号化データから、フレーム間予測符号化方式で符号化された複数のアクセスユニットの集合であるGOPにおける、提示順で先頭のアクセスユニットの提示時刻を示す提示時刻情報と、提示順で先頭のアクセスユニットの提示時刻を示す提示時刻情報から符号化順で先頭のアクセスユニットの提示時刻を算出するための情報と、を得る制御情報復号手段と、制御情報復号手段が取得した、提示順で先頭のアクセスユニットの提示時刻情報と、符号化順で先頭のアクセスユニットの提示時刻を算出するための情報とを用いて、符号化データに含まれる映像信号を復号する復号手段とを備えたものである。   A decoding device according to the present invention is a decoding device that decodes coded data of a video signal transmitted by a transmission system defined by MMT (MPEG Media Transport), and uses the inter-frame predictive coding system from the coded data. Encoding from presentation time information indicating the presentation time of the first access unit in the presentation order and presentation time information indicating the presentation time of the first access unit in the presentation order in a GOP that is a set of encoded multiple access units Control information decoding means for obtaining information for calculating the presentation time of the leading access unit in order, presentation time information of the leading access unit in the presentation order acquired by the control information decoding means, and in coding order The video signal included in the encoded data is decoded by using the information for calculating the presentation time of the head access unit And decryption means.

この発明によれば、MMT(MPEG Media Transport)が規定する伝送方式で伝送される映像信号の符号化データを復号する復号装置であって、符号化データから、フレーム間予測符号化方式で符号化された複数のアクセスユニットの集合であるGOPにおける、提示順で先頭のアクセスユニットの提示時刻を示す提示時刻情報と、提示順で先頭のアクセスユニットの提示時刻を示す提示時刻情報から符号化順で先頭のアクセスユニットの提示時刻を算出するための情報と、を得る制御情報復号手段と、制御情報復号手段が取得した、提示順で先頭のアクセスユニットの提示時刻情報と、符号化順で先頭のアクセスユニットの提示時刻を算出するための情報とを用いて、符号化データに含まれる映像信号を復号する復号手段とを備えたので、ユーザによりチャンネルが切り替えられたときに何のピクチャも表示されない時間を無くして、シームレスなチャンネル切替を実現することができる効果がある。   According to the present invention, there is provided a decoding device for decoding encoded data of a video signal transmitted by a transmission method defined by MMT (MPEG Media Transport), wherein the encoded data is encoded by an interframe predictive encoding method. In the GOP, which is a set of a plurality of access units that have been presented, the presentation time information indicating the presentation time of the first access unit in the presentation order and the presentation time information indicating the presentation time of the first access unit in the presentation order are encoded in the encoding order Control information decoding means for obtaining information for calculating the presentation time of the head access unit, presentation time information of the head access unit in the presentation order acquired by the control information decoding means, and head information in the encoding order. Decoding means for decoding the video signal included in the encoded data by using the information for calculating the presentation time of the access unit With the above, there is an effect that it is possible to realize seamless channel switching by eliminating the time during which no picture is displayed when the channel is switched by the user.

この発明の実施の形態1による符号化装置を示す構成図である。It is a block diagram which shows the encoding device by Embodiment 1 of this invention. この発明の実施の形態1による符号化装置の処理内容(符号化方法)を示すフローチャートである。3 is a flowchart showing the processing contents (encoding method) of the encoding device according to the first embodiment of the present invention. この発明の実施の形態1による復号装置を示す構成図である。It is a block diagram which shows the decoding apparatus by Embodiment 1 of this invention. この発明の実施の形態1による復号装置の処理内容(復号方法)を示すフローチャートである。3 is a flowchart showing the processing contents (decoding method) of the decoding device according to the first embodiment of the present invention. MMTでビットストリームを伝送する場合の符号化データの概要を示す説明図である。It is explanatory drawing which shows the outline | summary of the encoded data at the time of transmitting a bit stream by MMT. MPUの構成例を示す説明図である。It is explanatory drawing which shows the structural example of MPU. HEVCピクチャ構造記述子を示す説明図である。It is explanatory drawing which shows a HEVC picture structure descriptor. HEVCでの時間階層符号化例を示す説明図である。It is an explanatory view showing an example of time hierarchy coding in HEVC. ピクチャ構造の一例を示す説明図である。It is explanatory drawing which shows an example of a picture structure. 図9のピクチャ構造で符号化される各ピクチャの符号化順及び提示順を示す説明図である。FIG. 10 is an explanatory diagram showing an encoding order and a presentation order of each picture encoded with the picture structure of FIG. 9.

実施の形態1.
図1はこの発明の実施の形態1による符号化装置を示す構成図である。
図1において、音声符号化部1はディジタルの音声信号が与えられると、音声のアクセスユニット(AU)単位に、例えば、MPEG−4オーディオなどの方式によって当該音声信号を符号化して、その音声信号の符号化データである音声ストリームを生成するとともに、その音声ストリームに関するメタデータを符号化する処理を実施する。
音声MMTPペイロード生成部2は音声符号化部1により符号化されたメタデータとアクセスユニット(AU)単位の音声信号の符号化データからなる音声MMTPペイロードを生成する処理を実施する。
Embodiment 1.
1 is a block diagram showing an encoding apparatus according to Embodiment 1 of the present invention.
In FIG. 1, when a voice encoding unit 1 is provided with a digital voice signal, the voice encoding unit 1 encodes the voice signal in units of voice access units (AU) by a method such as MPEG-4 audio and outputs the voice signal. The audio stream that is the encoded data of is generated, and the processing of encoding the metadata regarding the audio stream is performed.
The audio MMTP payload generation unit 2 executes a process of generating an audio MMTP payload composed of the metadata encoded by the audio encoding unit 1 and the encoded data of the audio signal in access unit (AU) units.

HEVC符号化部3はディジタルの映像信号が与えられると、映像のアクセスユニット(AU)単位に、HEVC方式によって当該映像信号を符号化して、その映像信号の符号化データである映像ストリームを生成するとともに、その映像ストリームに関するメタデータを符号化する処理を実施する。
映像MMTPペイロード生成部4はHEVC符号化部3により符号化されたメタデータとアクセスユニット(AU)単位の映像信号の符号化データからなる映像MMTPペイロードを生成する処理を実施する。なお、HEVC符号化部3及び映像MMTPペイロード生成部4から映像符号化手段が構成されている。
ここで、音声ストリームや映像ストリームに関するメタデータとして、例えば、各アクセスユニット(AU)のDTS(復号時刻)やPTS(提示時刻)などを示す時刻情報を記述することができる。
When the HEVC encoding unit 3 is supplied with a digital video signal, the HEVC encoding unit 3 encodes the video signal in units of video access units (AU) by the HEVC method, and generates a video stream which is encoded data of the video signal. At the same time, a process of encoding metadata regarding the video stream is performed.
The video MMTP payload generation unit 4 performs a process of generating a video MMTP payload composed of the metadata coded by the HEVC coding unit 3 and the coded data of the video signal in access unit (AU) units. The HEVC encoder 3 and the video MMTP payload generator 4 constitute a video encoder.
Here, as the metadata related to the audio stream and the video stream, for example, time information indicating the DTS (decoding time) or PTS (presentation time) of each access unit (AU) can be described.

制御情報符号化部5は音声符号化部1により生成された音声ストリーム及びHEVC符号化部3により生成された映像ストリームに関する制御情報として、MMTで規定されているPAメッセージと呼ばれる制御情報を符号化する処理を実施する。
PAメッセージには、1つのプログラム(MMTでは、パッケージと称する)を構成する1以上の映像コンポーネント(映像ストリーム)や音声コンポーネント(音声ストリーム)に関する情報が記述されている。MMTでは、映像コンポーネント及び音声コンポーネントがアセットと呼ばれる。
具体的には、アセットを識別するアセットID、アセットの種類(HEVC形式の映像ストリームやMPEG−4 オーディオ形式の音声ストリームなどの種類)を識別するアセットタイプ、各アセットのMPU(Media Processing Unit)を構成しているアクセスユニット(AU)の中で、提示順(表示順)で先頭のアクセスユニット(AU)の提示時刻(表示時刻)を示すMPUタイムスタンプ記述子(提示時刻情報)、HEVCピクチャ構造記述子、各アセットの符号化データやメタデータを格納しているMMTPパケットを示すパケットIDなどが、パッケージを構成するアセットの数分だけPAメッセージに含まれている。
なお、MPUは、1以上のアクセスユニット(AU)から構成されており、MPU単体で映像や音声の復号処理を行うことができる単位となる。また、MPUは、1以上のアクセスユニット(AU)の映像信号がフレーム間予測符号化方式で符号化される場合には、前記1以上のアクセスユニット(AU)の映像信号の全てを復号することが可能な複数のアクセスユニット(AU)の集合であるGOPと同じ単位になる。
The control information encoding unit 5 encodes control information called a PA message defined by MMT as control information regarding the audio stream generated by the audio encoding unit 1 and the video stream generated by the HEVC encoding unit 3. Perform the processing to do.
The PA message describes information about one or more video components (video streams) and audio components (audio streams) that form one program (called a package in MMT). In MMT, video components and audio components are called assets.
Specifically, an asset ID for identifying the asset, an asset type for identifying the type of the asset (type such as HEVC format video stream and MPEG-4 audio format audio stream), and MPU (Media Processing Unit) of each asset. Among the constituent access units (AU), MPU time stamp descriptor (presentation time information) indicating the presentation time (display time) of the first access unit (AU) in presentation order (display order), HEVC picture structure Descriptors, packet IDs indicating MMTP packets storing encoded data and metadata of each asset, and the like are included in the PA message by the number of assets that make up the package.
The MPU is composed of one or more access units (AUs), and is a unit that can perform video and audio decoding processing by the MPU alone. When the video signal of one or more access units (AU) is encoded by the interframe predictive coding method, the MPU should decode all the video signals of the one or more access units (AU). It becomes the same unit as a GOP which is a set of a plurality of access units (AU) capable of performing.

HEVCピクチャ構造記述子には、MPUを構成しているアクセスユニット(AU)の中で、符号化順で先頭のアクセスユニット(AU)より提示順が早いアクセスユニット(AU)の個数(LPの枚数)を示す個数情報(num_of_leading_picture)、符号化順で先頭のアクセスユニット(AU)を構成しているNALユニット(ナルユニット)の符号化方式を示すピクチャタイプ情報(rap_type)、LPを構成しているNALユニットの符号化方式を示すピクチャタイプ情報(nal_unit_type_of_leading_picture)などが記述されている。   In the HEVC picture structure descriptor, the number of access units (AU) that are earlier in presentation order than the first access unit (AU) in the encoding order among the access units (AU) that make up the MPU (the number of LPs). (Num_of_leading_picture) indicating the number), picture type information (rap_type) indicating the coding method of the NAL unit (null unit) that constitutes the first access unit (AU) in the coding order, and LP. The picture type information (nal_unit_type_of_leading_picture) indicating the encoding method of the NAL unit is described.

制御MMTPペイロード生成部6は制御情報符号化部5により符号化された制御情報の符号化データからなる制御MMTPペイロードを生成する処理を実施する。
なお、制御情報符号化部5及び制御MMTPペイロード生成部6から制御情報符号化手段が構成されている。
The control MMTP payload generator 6 carries out a process of generating a control MMTP payload composed of encoded data of the control information encoded by the control information encoder 5.
The control information encoding unit 5 and the control MMTP payload generation unit 6 constitute control information encoding means.

MMTPパケット生成部7は音声MMTPペイロード生成部2により生成された音声MMTPペイロードと、映像MMTPペイロード生成部4により生成された映像MMTPペイロードと、制御MMTPペイロード生成部6により生成された制御MMTPペイロードとを多重化して、ビットストリームを構成するMMTPパケットを生成する処理を実施する。このMMTPパケットを生成する際、所定のMMTPヘッダを付与するが、このMMTPヘッダには、MMTPペイロードに含まれている符号化データの種別に応じて割り当てられるパケットIDが含まれる。なお、MMTPパケット生成部7は多重化手段を構成している。   The MMTP packet generator 7 includes the audio MMTP payload generated by the audio MMTP payload generator 2, the video MMTP payload generated by the video MMTP payload generator 4, and the control MMTP payload generated by the control MMTP payload generator 6. Is multiplexed to generate an MMTP packet forming a bitstream. When this MMTP packet is generated, a predetermined MMTP header is added, and this MMTP header includes a packet ID assigned according to the type of encoded data included in the MMTP payload. The MMTP packet generator 7 constitutes a multiplexing means.

図1の例では、符号化装置の構成要素である音声符号化部1、音声MMTPペイロード生成部2、HEVC符号化部3、映像MMTPペイロード生成部4、制御情報符号化部5、制御MMTPペイロード生成部6及びMMTPパケット生成部7のそれぞれが専用のハードウェア(例えば、CPUを実装している半導体集積回路、あるいは、ワンチップマイコンなど)で構成されているものを想定しているが、符号化装置がコンピュータで構成されていてもよい。
符号化装置をコンピュータで構成する場合、音声符号化部1、音声MMTPペイロード生成部2、HEVC符号化部3、映像MMTPペイロード生成部4、制御情報符号化部5、制御MMTPペイロード生成部6及びMMTPパケット生成部7の処理内容を記述しているプログラムをコンピュータのメモリに格納し、当該コンピュータのCPUが当該メモリに格納されているプログラムを実行するようにすればよい。
図2はこの発明の実施の形態1による符号化装置の処理内容(符号化方法)を示すフローチャートである。
In the example of FIG. 1, a voice coding unit 1, a voice MMTP payload generation unit 2, a HEVC coding unit 3, a video MMTP payload generation unit 4, a control information coding unit 5, and a control MMTP payload, which are components of the coding device. It is assumed that each of the generation unit 6 and the MMTP packet generation unit 7 is configured by dedicated hardware (for example, a semiconductor integrated circuit mounting a CPU, a one-chip microcomputer, etc.). The computerization device may be configured by a computer.
When the encoding device is configured by a computer, a voice encoding unit 1, a voice MMTP payload generating unit 2, a HEVC encoding unit 3, a video MMTP payload generating unit 4, a control information encoding unit 5, a control MMTP payload generating unit 6, and A program describing the processing contents of the MMTP packet generation unit 7 may be stored in the memory of the computer, and the CPU of the computer may execute the program stored in the memory.
FIG. 2 is a flowchart showing the processing contents (encoding method) of the encoding device according to the first embodiment of the present invention.

図3はこの発明の実施の形態1による復号装置を示す構成図である。
図3において、ストリーム選択部11は複数の符号化装置(図1の符号化装置、あるいは、図1の符号化装置に相当する符号化装置)から出力されたビットストリーム(MMTPパケットからなるビットストリーム)の中から、提示対象のビットストリームを選択して、そのビットストリームをMMTPパケット解析部12に出力する処理を実施する。
また、ストリーム選択部11は提示対象のビットストリームを切り替える指令が与えられた場合、複数の符号化装置から出力されたビットストリームの中から、切替後のビットストリームを選択して、当該ビットストリームをMMTPパケット解析部12に出力するとともに、制御MMTPペイロード処理部13により算出された提示時刻になるまでの間、切替前のビットストリームも引き続きMMTPパケット解析部12に出力する処理を実施する。なお、ストリーム選択部11はビットストリーム選択手段を構成している。
FIG. 3 is a block diagram showing a decoding device according to the first embodiment of the present invention.
In FIG. 3, the stream selection unit 11 includes a bitstream (a bitstream including MMTP packets) output from a plurality of encoding devices (encoding device of FIG. 1 or an encoding device corresponding to the encoding device of FIG. 1). The process of selecting a bitstream to be presented from among the above) and outputting the bitstream to the MMTP packet analysis unit 12 is performed.
Further, when the instruction to switch the bitstream to be presented is given, the stream selection unit 11 selects the bitstream after switching from the bitstreams output from the plurality of encoding devices, and selects the bitstream. The process of outputting to the MMTP packet analysis unit 12 and also outputting the bit stream before switching to the MMTP packet analysis unit 12 until the presentation time calculated by the control MMTP payload processing unit 13 is reached. The stream selection unit 11 constitutes a bitstream selection means.

MMTPパケット解析部12はストリーム選択部11から出力されたビットストリームを構成しているMMTPパケットのMMTPヘッダを解析して、そのMMTPヘッダに含まれているパケットIDを取得し、そのパケットIDがMMTPペイロードに含まれている符号化データが制御情報(PAメッセージ、HEVCピクチャ構造記述子)である旨を示していれば、そのMMTPパケットに含まれているMMTPペイロードである制御MMTPペイロードを制御MMTPペイロード処理部13に出力する。一方、そのパケットIDがMMTPペイロードに含まれている符号化データが音声信号又は映像信号である旨を示していれば、そのMMTPパケットをアセット分離部14に出力する処理を実施する。   The MMTP packet analysis unit 12 analyzes the MMTP header of the MMTP packet forming the bit stream output from the stream selection unit 11, acquires the packet ID included in the MMTP header, and the packet ID is MMTP. If it indicates that the encoded data included in the payload is control information (PA message, HEVC picture structure descriptor), the control MMTP payload, which is the MMTP payload included in the MMTP packet, is changed to the control MMTP payload. Output to the processing unit 13. On the other hand, if the packet ID indicates that the encoded data included in the MMTP payload is an audio signal or a video signal, a process of outputting the MMTP packet to the asset separation unit 14 is performed.

制御MMTPペイロード処理部13はMMTPパケット解析部12から出力された制御MMTPペイロードに含まれている符号化データの復号処理を実施して、制御情報であるPAメッセージ及びPAメッセージに含まれているHEVCピクチャ構造記述子を復号する。
また、制御MMTPペイロード処理部13はPAメッセージに記述されているMPUタイムスタンプ記述子が示す提示順で先頭のアクセスユニット(AU)の提示時刻と、HEVCピクチャ構造記述子に記述されている個数情報(num_of_leading_picture)が示す符号化順で先頭のアクセスユニット(AU)より提示順が早いアクセスユニット(AU)の個数(LPの枚数)とから、符号化順で先頭のアクセスユニット(AU)の提示時刻を算出する処理を実施する。符号化順で先頭のアクセスユニット(AU)は、先頭のSOPのIRAPピクチャである。なお、制御MMTPペイロード処理部13は提示時刻算出手段を構成している。
The control MMTP payload processing unit 13 performs a decoding process of the encoded data included in the control MMTP payload output from the MMTP packet analysis unit 12, and a PA message that is control information and an HEVC included in the PA message. Decode the picture structure descriptor.
Further, the control MMTP payload processing unit 13 presents the presentation time of the first access unit (AU) in the presentation order indicated by the MPU time stamp descriptor described in the PA message and the number information described in the HEVC picture structure descriptor. (Num_of_leading_picture) The presentation time of the first access unit (AU) in the encoding order from the number of access units (AU) in the presentation order earlier than the first access unit (AU) in the encoding order. The process of calculating is carried out. The first access unit (AU) in the encoding order is the first SOP IRAP picture. The control MMTP payload processing unit 13 constitutes a presentation time calculation means.

アセット分離部14は制御MMTPペイロード処理部13により復号されたPAメッセージに記述されているアセットID、アセットタイプ及びパケットIDを参照して、MMTPパケット解析部12から出力されたMMTPパケットに含まれているMMTPペイロードが音声MMTPペイロードであるのか、映像MMTPペイロードであるのかを特定し、音声MMTPペイロードであれば、そのMMTPパケットに含まれている音声MMTPペイロードを抽出して、その音声MMTPペイロードを音声MMTPペイロード処理部15に出力し、映像MMTPペイロードであれば、そのMMTPパケットに含まれている映像MMTPペイロードを抽出して、その映像MMTPペイロードを映像MMTPペイロード処理部19に出力する処理を実施する。   The asset separation unit 14 refers to the asset ID, the asset type, and the packet ID described in the PA message decrypted by the control MMTP payload processing unit 13 and includes them in the MMTP packet output from the MMTP packet analysis unit 12. It is specified whether the MMTP payload that is present is an audio MMTP payload or a video MMTP payload. If it is an audio MMTP payload, the audio MMTP payload included in the MMTP packet is extracted and the audio MMTP payload is converted to audio. If the video MMTP payload is output to the MMTP payload processing unit 15, the video MMTP payload included in the MMTP packet is extracted, and the video MMTP payload is output to the video MMTP payload processing unit 19. Hodokosuru.

音声MMTPペイロード処理部15はアセット分離部14から出力された音声MMTPペイロードから音声ストリームのMFU(Media Fragment Unit)又はMPUを再構成することで、後段の音声ストリーム復号部17で復号可能な形式の音声エレメンタリーストリーム(音声ES)を生成し、その音声ESを音声ESバッファ16に格納する処理を実施する。MFUは、MPUよりも小さな単位であり、1アクセスユニット(AU)または1NALユニットを1MFUと定義することができる。
また、音声MMTPペイロード処理部15はアセット分離部14から出力された音声MMTPペイロードに含まれている音声ストリームに関するメタデータを抽出し、そのメタデータを音声ESバッファ16に格納する処理を実施する。
音声ESバッファ16は音声ES及びメタデータを一時的に格納するメモリである。
The audio MMTP payload processing unit 15 reconfigures the MFU (Media Fragment Unit) or MPU of the audio stream from the audio MMTP payload output from the asset separation unit 14 so that the audio stream decoding unit 17 in the subsequent stage can perform decoding. A process of generating an audio elementary stream (audio ES) and storing the audio ES in the audio ES buffer 16 is performed. The MFU is a unit smaller than the MPU, and one access unit (AU) or one NAL unit can be defined as one MFU.
In addition, the audio MMTP payload processing unit 15 extracts metadata regarding the audio stream included in the audio MMTP payload output from the asset separation unit 14 and stores the metadata in the audio ES buffer 16.
The audio ES buffer 16 is a memory that temporarily stores the audio ES and metadata.

音声ストリーム復号部17は音声ESバッファ16からメタデータを取り出して、そのメタデータに記述されている時刻情報(各アクセスユニット(AU)のDTS(復号時刻)やPTS(提示時刻)を示す情報)を復号する処理を実施する。
また、音声ストリーム復号部17は各アクセスユニット(AU)のDTS(復号時刻)になると、音声ESバッファ16から音声ESを取り出して、当該アクセスユニット(AU)の音声信号を復号し、その復号した音声信号とPTS(提示時刻)を音声データバッファ18に格納する処理を実施する。
音声データバッファ18は音声ストリーム復号部17により復号された音声信号とPTS(提示時刻)を一時的に格納するメモリである。
The audio stream decoding unit 17 extracts the metadata from the audio ES buffer 16 and the time information described in the metadata (information indicating the DTS (decoding time) or PTS (presentation time) of each access unit (AU)). Is executed.
When the DTS (decoding time) of each access unit (AU) is reached, the audio stream decoding unit 17 takes out the audio ES from the audio ES buffer 16, decodes the audio signal of the access unit (AU), and decodes the audio signal. A process of storing the audio signal and PTS (presentation time) in the audio data buffer 18 is performed.
The audio data buffer 18 is a memory that temporarily stores the audio signal decoded by the audio stream decoding unit 17 and the PTS (presentation time).

映像MMTPペイロード処理部19はアセット分離部14から出力された映像MMTPペイロードから映像ストリームのMFU又はMPUを再構成することで、後段のHEVCES復号部21で復号可能な形式のHEVCエレメンタリーストリーム(HEVC ES)を生成し、そのHEVCエレメンタリーストリームをHEVCESバッファ20に格納する処理を実施する。
また、映像MMTPペイロード処理部19はアセット分離部14から出力された映像MMTPペイロードに含まれている映像ストリームに関するメタデータを抽出し、そのメタデータをHEVCESバッファ20に格納する処理を実施する。
HEVCESバッファ20はHEVCエレメンタリーストリーム及びメタデータを一時的に格納するメモリである。
The video MMTP payload processing unit 19 reconfigures the MFU or MPU of the video stream from the video MMTP payload output from the asset separation unit 14 so that the HEVC elementary stream (HEVC) in a format that can be decoded by the HEVCES decoding unit 21 in the subsequent stage. ES) is generated and the HEVC elementary stream is stored in the HEVC ES buffer 20.
In addition, the video MMTP payload processing unit 19 extracts metadata about the video stream included in the video MMTP payload output from the asset separation unit 14 and stores the metadata in the HEVCES buffer 20.
The HEVCES buffer 20 is a memory that temporarily stores the HEVC elementary stream and metadata.

HEVCES復号部21はHEVCESバッファ20からメタデータを取り出して、そのメタデータに記述されている時刻情報(各アクセスユニット(AU)のDTS(復号時刻)やPTS(提示時刻)を示す情報)を復号する処理を実施する。
また、HEVCES復号部21は各アクセスユニット(AU)のDTS(復号時刻)になると、HEVCESバッファ20からHEVCエレメンタリーストリームを取り出して、当該アクセスユニット(AU)の映像信号を復号し、その復号した映像信号である復号画像とPTS(提示時刻)を復号画像バッファ22に格納する処理を実施する。
復号画像バッファ22はHEVCES復号部21により復号された各アクセスユニット(AU)の復号画像とPTS(提示時刻)を一時的に格納するメモリである。
なお、映像MMTPペイロード処理部19、HEVCESバッファ20、HEVCES復号部21及び復号画像バッファ22から映像復号手段が構成されている。
The HEVCES decoding unit 21 extracts the metadata from the HEVCES buffer 20 and decodes the time information (the information indicating the DTS (decoding time) and PTS (presenting time) of each access unit (AU)) described in the metadata. Perform the processing to do.
When the HEVCES decoding unit 21 reaches the DTS (decoding time) of each access unit (AU), it extracts the HEVC elementary stream from the HEVCES buffer 20, decodes the video signal of the access unit (AU), and decodes it. A process of storing the decoded image, which is a video signal, and the PTS (presentation time) in the decoded image buffer 22 is performed.
The decoded image buffer 22 is a memory that temporarily stores the decoded image of each access unit (AU) decoded by the HEVCES decoding unit 21 and the PTS (presentation time).
The video MMTP payload processing unit 19, HEVCES buffer 20, HEVCES decoding unit 21, and decoded image buffer 22 constitute a video decoding means.

図3の例では、復号装置の構成要素であるストリーム選択部11、MMTPパケット解析部12、制御MMTPペイロード処理部13、アセット分離部14、音声MMTPペイロード処理部15、音声ESバッファ16、音声ストリーム復号部17、音声データバッファ18、映像MMTPペイロード処理部19、HEVCESバッファ20、HEVCES復号部21及び復号画像バッファ22のそれぞれが専用のハードウェア(バッファ以外は、例えば、CPUを実装している半導体集積回路、あるいは、ワンチップマイコンなど)で構成されているものを想定しているが、復号装置がコンピュータで構成されていてもよい。
復号装置をコンピュータで構成する場合、音声ESバッファ16、音声データバッファ18、HEVCESバッファ20及び復号画像バッファ22をコンピュータの内部メモリ又は外部メモリ上に構成するとともに、ストリーム選択部11、MMTPパケット解析部12、制御MMTPペイロード処理部13、アセット分離部14、音声MMTPペイロード処理部15、音声ストリーム復号部17、映像MMTPペイロード処理部19及びHEVCES復号部21の処理内容を記述しているプログラムをコンピュータのメモリに格納し、当該コンピュータのCPUが当該メモリに格納されているプログラムを実行するようにすればよい。
図4はこの発明の実施の形態1による復号装置の処理内容(復号方法)を示すフローチャートである。
In the example of FIG. 3, the stream selection unit 11, the MMTP packet analysis unit 12, the control MMTP payload processing unit 13, the asset separation unit 14, the audio MMTP payload processing unit 15, the audio ES buffer 16, and the audio stream which are the components of the decoding device. Each of the decoding unit 17, the audio data buffer 18, the video MMTP payload processing unit 19, the HEVCES buffer 20, the HEVCES decoding unit 21, and the decoded image buffer 22 is dedicated hardware (other than the buffer, for example, a semiconductor mounting a CPU). An integrated circuit, a one-chip microcomputer, or the like is assumed, but the decoding device may be a computer.
When the decoding device is configured by a computer, the audio ES buffer 16, the audio data buffer 18, the HEVCES buffer 20, and the decoded image buffer 22 are configured on the internal memory or the external memory of the computer, and the stream selection unit 11 and the MMTP packet analysis unit. 12, a control MMTP payload processing unit 13, an asset separation unit 14, an audio MMTP payload processing unit 15, an audio stream decoding unit 17, a video MMTP payload processing unit 19 and a HEVCES decoding unit 21 and a program describing the processing contents of the computer. It may be stored in the memory and the CPU of the computer may execute the program stored in the memory.
FIG. 4 is a flowchart showing the processing contents (decoding method) of the decoding device according to the first embodiment of the present invention.

次に動作について説明する。
最初の符号化装置の処理内容を説明する。
音声符号化部1は、ディジタルの音声信号が与えられると、音声のアクセスユニット(AU)単位に、例えば、MPEG−4オーディオなどの方式によって当該音声信号を符号化して、その音声信号の符号化データである音声ストリームを生成するとともに、その音声ストリームに関するメタデータを符号化する(図2のステップST1)。
HEVC符号化部3は、ディジタルの映像信号が与えられると、映像のアクセスユニット(AU)単位に、HEVC方式によって当該映像信号を符号化して、その映像信号の符号化データである映像ストリームを生成するとともに、その映像ストリームに関するメタデータを符号化する(ステップST2)。
Next, the operation will be described.
The processing contents of the first encoding device will be described.
When a digital audio signal is given, the audio encoding unit 1 encodes the audio signal for each audio access unit (AU) by a method such as MPEG-4 audio, and encodes the audio signal. An audio stream that is data is generated, and metadata regarding the audio stream is encoded (step ST1 in FIG. 2).
When a digital video signal is given, the HEVC encoding unit 3 encodes the video signal for each video access unit (AU) by the HEVC system, and generates a video stream that is encoded data of the video signal. At the same time, the metadata regarding the video stream is encoded (step ST2).

ここで、図5はMMTでビットストリームを伝送する場合の符号化データの概要を示す説明図である。
図5において、アクセスユニット(AU)は、映像であれば、1ピクチャを復号するために必要な符号化データを含む単位であり、音声であれば、符号化単位となる1以上のサンプルから構成されるフレームである。
NALユニットはHEVCの符号化単位であり、1アクセスユニット(AU)は、1以上のNALユニットから構成される。
MPUは、1以上のアクセスユニットから構成され、MPU単体で映像や音声の復号処理を行うことができる単位となる。また、MPUは、1以上のアクセスユニット(AU)の映像信号がフレーム間予測符号化方式で符号化される場合には、前記1以上のアクセスユニット(AU)の映像信号の全てを復号することが可能な複数のアクセスユニット(AU)の集合であるGOPと同じ単位になる。
MFUは、MPUよりも小さな単位であり、1アクセスユニット(AU)又は1NALユニットを1MFUと定義することができる。
Here, FIG. 5 is an explanatory diagram showing an outline of encoded data when a bit stream is transmitted by MMT.
In FIG. 5, an access unit (AU) is a unit including encoded data necessary for decoding one picture in the case of video, and is composed of one or more samples as an encoding unit in the case of audio. It is a frame to be played.
The NAL unit is a HEVC coding unit, and one access unit (AU) is composed of one or more NAL units.
The MPU is composed of one or more access units and serves as a unit capable of performing video and audio decoding processing by the MPU alone. When the video signal of one or more access units (AU) is encoded by the interframe predictive coding method, the MPU should decode all the video signals of the one or more access units (AU). It becomes the same unit as a GOP which is a set of a plurality of access units (AU) capable of performing.
The MFU is a unit smaller than the MPU, and one access unit (AU) or one NAL unit can be defined as one MFU.

図6はMPUの構成例を示す説明図である。
図6において、MPUメタデータは、MPUに関連するメタデータが記述されるものであり、MPUに含まれる各アクセスユニット(AU)のDTS(復号時刻)やPTS(提示時刻)を示す時刻情報などを記述することができる。
ムービーフラグメントメタデータ(MFメタ)は、1アクセスユニット(AU)の符号化データ(サンプルデータ)に付随するメタデータが記述されるものである。例えば、アクセスユニット(AU)の符号化データがファイル形式で格納される場合、アクセスユニット(AU)毎に、符号化データが格納されているアドレスや符号化データのデータ長、当該アクセスユニット(AU)の提示時刻に関する情報が含まれる。
MPUメタデータ、ムービーフラグメントメタデータ、MFU及びMMTの制御情報は、MMTPパケット化されて伝送される。MMTPパケットはMMTPヘッダとMMTPペイロードから構成される。
FIG. 6 is an explanatory diagram showing a configuration example of the MPU.
In FIG. 6, the MPU metadata describes metadata related to the MPU, such as time information indicating DTS (decoding time) and PTS (presentation time) of each access unit (AU) included in the MPU. Can be described.
The movie fragment metadata (MF meta) describes metadata associated with encoded data (sample data) of one access unit (AU). For example, when the encoded data of the access unit (AU) is stored in a file format, the address at which the encoded data is stored, the data length of the encoded data, and the access unit (AU) are stored for each access unit (AU). ) Is included in the information about the presentation time.
The MPU metadata, movie fragment metadata, MFU, and MMT control information are transmitted as MMTP packets. The MMTP packet is composed of an MMTP header and an MMTP payload.

音声MMTPペイロード生成部2は、音声符号化部1からメタデータ(MPUメタデータ、MFメタなど)の符号化データと、アクセスユニット(AU)単位の音声信号の符号化データとを受けると、MPU単位のMPUメタデータの符号化データと、アクセスユニット(AU)単位のMFメタの符号化データ及び音声信号の符号化データ(サンプルデータ)からなる音声MMTPペイロードを生成する(ステップST3)。
映像MMTPペイロード生成部4は、HEVC符号化部3からメタデータ(MPUメタデータ、MFメタなど)の符号化データと、アクセスユニット(AU)単位の映像信号の符号化データとを受けると、MPU単位のMPUメタデータの符号化データと、アクセスユニット(AU)単位のMFメタの符号化データ及び映像信号の符号化データ(サンプルデータ)からなる映像MMTPペイロードを生成する(ステップST4)。
When the audio MMTP payload generator 2 receives the encoded data of metadata (MPU metadata, MF meta, etc.) and the encoded data of the audio signal of each access unit (AU) from the audio encoder 1, the audio MMTP payload generator 2 receives the MPU. An audio MMTP payload including encoded data of unit MPU metadata, encoded data of access unit (AU) MF meta, and encoded data of audio signal (sample data) is generated (step ST3).
When the video MMTP payload generation unit 4 receives the encoded data of metadata (MPU metadata, MF meta, etc.) and the encoded data of the video signal in access unit (AU) units from the HEVC encoding unit 3, the MPU receives the MPU. A video MMTP payload composed of encoded data of MPU metadata of a unit, encoded data of MF meta of an access unit (AU) and encoded data (sample data) of a video signal is generated (step ST4).

制御情報符号化部5は、音声符号化部1により生成された音声ストリーム及びHEVC符号化部3により生成された映像ストリームに関する制御情報を符号化する(ステップST5)。
音声ストリーム及び映像ストリームに関する制御情報として、例えば、MMTで規定されているPAメッセージやHEVCピクチャ構造記述子などを符号化する。
PAメッセージには、上述したように、1つのプログラム(MMTでは、パッケージと称する)を構成する1以上の映像コンポーネント(映像ストリーム)や音声コンポーネント(音声ストリーム)に関する情報が記述されている。
即ち、PAメッセージには、音声符号化部1及びHEVC符号化部3により生成されたアセット(映像ストリーム、音声ストリーム)を識別するアセットID、アセットの種類を識別するアセットタイプ、各アセットのMPUを構成しているアクセスユニット(AU)の中で、提示順で先頭のアクセスユニット(AU)の提示時刻を示すMPUタイムスタンプ記述子、各アセットの符号化データやメタデータを格納しているMMTPパケットを示すパケットIDなどが記述されている。
The control information encoding unit 5 encodes the control information regarding the audio stream generated by the audio encoding unit 1 and the video stream generated by the HEVC encoding unit 3 (step ST5).
As the control information regarding the audio stream and the video stream, for example, a PA message or HEVC picture structure descriptor defined by MMT is encoded.
As described above, the PA message describes information about one or more video components (video streams) and audio components (audio streams) that form one program (called a package in MMT).
That is, in the PA message, an asset ID that identifies an asset (video stream, audio stream) generated by the audio encoding unit 1 and the HEVC encoding unit 3, an asset type that identifies the type of asset, and an MPU of each asset. Among the constituent access units (AU), the MPU time stamp descriptor indicating the presentation time of the first access unit (AU) in the presentation order, and the MMTP packet storing the encoded data and metadata of each asset. Is described.

図7はHEVCピクチャ構造記述子を示す説明図である。
HEVCピクチャ構造記述子には、図7に示すように、MPUを構成しているアクセスユニット(AU)の中で、符号化順で先頭のアクセスユニット(AU)より提示順が早いアクセスユニット(AU)の個数(LPの枚数)を示す個数情報(num_of_leading_picture)が記述されている。
また、符号化順で先頭のアクセスユニット(AU)を構成しているNALユニットの符号化方式を示すピクチャタイプ情報(rap_type)や、LPを構成しているNALユニットの符号化方式を示すピクチャタイプ情報(nal_unit_type_of_leading_picture)などが記述されている。
FIG. 7 is an explanatory diagram showing the HEVC picture structure descriptor.
In the HEVC picture structure descriptor, as shown in FIG. 7, among the access units (AU) forming the MPU, the access unit (AU) whose presentation order is earlier than the first access unit (AU) in the encoding order. The number information (num_of_leading_picture) indicating the number (number of LPs) is described.
Also, picture type information (rap_type) indicating the encoding method of the NAL unit that constitutes the first access unit (AU) in encoding order, and the picture type that indicates the encoding method of the NAL unit that constitutes LP. Information (nal_unit_type_of_leading_picture) and the like are described.

制御MMTPペイロード生成部6は、制御情報符号化部5から制御情報の符号化データを受けると、その制御情報の符号化データからなる制御MMTPペイロードを生成する(ステップST6)。
MMTPパケット生成部7は、音声MMTPペイロード生成部2により生成された音声MMTPペイロードと、映像MMTPペイロード生成部4により生成された映像MMTPペイロードと、制御MMTPペイロード生成部6により生成された制御MMTPペイロードとを多重化して、ビットストリームを構成するMMTPパケットを生成する(ステップST7)。
このMMTPパケットを生成する際、所定のMMTPヘッダを付与するが、このMMTPヘッダには、MMTPペイロードに含まれている符号化データの種別に応じて割り当てられるパケットIDが含まれる。
Upon receiving the encoded data of the control information from the control information encoding unit 5, the control MMTP payload generation unit 6 generates the control MMTP payload including the encoded data of the control information (step ST6).
The MMTP packet generator 7 includes an audio MMTP payload generated by the audio MMTP payload generator 2, a video MMTP payload generated by the video MMTP payload generator 4, and a control MMTP payload generated by the control MMTP payload generator 6. And are multiplexed to generate an MMTP packet forming a bitstream (step ST7).
When this MMTP packet is generated, a predetermined MMTP header is added, and this MMTP header includes a packet ID assigned according to the type of encoded data included in the MMTP payload.

次に復号装置の処理内容を説明する。
ストリーム選択部11は、複数の符号化装置(図1の符号化装置、あるいは、図1の符号化装置に相当する符号化装置)から出力されたビットストリーム(MMTPパケットからなるビットストリーム)が与えられる。
ストリーム選択部11は、複数のビットストリームの中から、ユーザにより指定されたチャンネルのビットストリーム(提示対象のビットストリーム)を選択して、そのビットストリームをMMTPパケット解析部12に出力する。
Next, the processing contents of the decoding device will be described.
The stream selection unit 11 is given a bitstream (bitstream consisting of MMTP packets) output from a plurality of encoding devices (encoding device of FIG. 1 or encoding device corresponding to the encoding device of FIG. 1). To be
The stream selection unit 11 selects a bitstream of a channel designated by the user (bitstream to be presented) from the plurality of bitstreams and outputs the bitstream to the MMTP packet analysis unit 12.

MMTPパケット解析部12は、ストリーム選択部11からビットストリームを受けると、そのビットストリームを構成しているMMTPパケットのMMTPヘッダを解析して、そのMMTPヘッダに含まれているパケットIDを取得する。
MMTPパケット解析部12は、そのパケットIDがMMTPペイロードに含まれている符号化データが制御情報(PAメッセージ)である旨を示していれば、そのMMTPパケットに含まれているMMTPペイロードである制御MMTPペイロードを制御MMTPペイロード処理部13に出力する。
一方、そのパケットIDがMMTPペイロードに含まれている符号化データが音声信号又は映像信号である旨を示していれば、そのMMTPパケットをアセット分離部14に出力する。
Upon receiving the bitstream from the stream selection unit 11, the MMTP packet analysis unit 12 analyzes the MMTP header of the MMTP packet forming the bitstream and acquires the packet ID included in the MMTP header.
If the packet ID indicates that the encoded data included in the MMTP payload is control information (PA message), the MMTP packet analysis unit 12 controls the MMTP payload included in the MMTP packet. The MMTP payload is output to the control MMTP payload processing unit 13.
On the other hand, if the packet ID indicates that the encoded data included in the MMTP payload is an audio signal or a video signal, the MMTP packet is output to the asset separation unit 14.

制御MMTPペイロード処理部13は、MMTPパケット解析部12から制御MMTPペイロードを受けると、その制御MMTPペイロードに含まれている符号化データの復号処理を実施して、制御情報であるPAメッセージ及びPAメッセージに含まれるHEVCピクチャ構造記述子を復号する。   When the control MMTP payload processing unit 13 receives the control MMTP payload from the MMTP packet analysis unit 12, the control MMTP payload processing unit 13 performs a decoding process on the encoded data included in the control MMTP payload, and a PA message and a PA message as control information Decode the HEVC picture structure descriptor contained in

アセット分離部14は、制御MMTPペイロード処理部13がPAメッセージを復号すると、そのPAメッセージに記述されているアセットID、アセットタイプ及びパケットIDを参照して、MMTPパケット解析部12から出力されたMMTPパケットに含まれているMMTPペイロードが音声MMTPペイロードであるのか、映像MMTPペイロードであるのかを特定する。
アセット分離部14は、MMTPパケット解析部12から出力されたMMTPパケットに含まれているMMTPペイロードが音声MMTPペイロードであれば、そのMMTPパケットに含まれている音声MMTPペイロードを抽出して、その音声MMTPペイロードを音声MMTPペイロード処理部15に出力する。
アセット分離部14は、MMTPパケット解析部12から出力されたMMTPパケットに含まれているMMTPペイロードが映像MMTPペイロードであれば、そのMMTPパケットに含まれている映像MMTPペイロードを抽出して、その映像MMTPペイロードを映像MMTPペイロード処理部19に出力する。
When the control MMTP payload processing unit 13 decodes the PA message, the asset separation unit 14 refers to the asset ID, the asset type, and the packet ID described in the PA message, and outputs the MMTP output from the MMTP packet analysis unit 12. It specifies whether the MMTP payload included in the packet is an audio MMTP payload or a video MMTP payload.
If the MMTP payload included in the MMTP packet output from the MMTP packet analysis unit 12 is a voice MMTP payload, the asset separating unit 14 extracts the voice MMTP payload included in the MMTP packet, and extracts the voice. The MMTP payload is output to the voice MMTP payload processing unit 15.
If the MMTP payload included in the MMTP packet output from the MMTP packet analysis unit 12 is a video MMTP payload, the asset separation unit 14 extracts the video MMTP payload included in the MMTP packet and extracts the video. The MMTP payload is output to the video MMTP payload processing unit 19.

音声MMTPペイロード処理部15は、アセット分離部14から音声MMTPペイロードを受けると、その音声MMTPペイロードから音声ストリームのMFU又はMPUを再構成することで、後段の音声ストリーム復号部17で復号可能な形式の音声エレメンタリーストリーム(音声ES)を生成し、その音声ESを音声ESバッファ16に格納する。
音声MMTPペイロードから音声ESを生成する処理自体は公知の技術であるため詳細な説明を省略する。
また、音声MMTPペイロード処理部15は、アセット分離部14から出力された音声MMTPペイロードに含まれている音声ストリームに関するメタデータを抽出し、そのメタデータを音声ESバッファ16に格納する。
Upon receiving the audio MMTP payload from the asset separation unit 14, the audio MMTP payload processing unit 15 reconfigures the MFU or MPU of the audio stream from the audio MMTP payload so that the audio stream decoding unit 17 in the subsequent stage can perform decoding. The audio elementary stream (audio ES) is generated, and the audio ES is stored in the audio ES buffer 16.
Since the process itself for generating the audio ES from the audio MMTP payload is a known technique, its detailed description is omitted.
Further, the audio MMTP payload processing unit 15 extracts metadata regarding the audio stream included in the audio MMTP payload output from the asset separation unit 14, and stores the metadata in the audio ES buffer 16.

音声ストリーム復号部17は、音声ESバッファ16からメタデータを取り出して、そのメタデータに記述されている時刻情報(各アクセスユニット(AU)のDTS(復号時刻)やPTS(提示時刻)を示す情報)を復号する。
音声ストリーム復号部17は、復号したDTSを参照して、各アクセスユニット(AU)の復号時刻を把握し、各アクセスユニット(AU)の復号時刻になると、音声ESバッファ16から音声ESを取り出して、当該アクセスユニット(AU)の音声信号を復号し、その復号した音声信号とPTS(提示時刻)を音声データバッファ18に格納する。
これにより、外部の再生装置(図示せず)は、音声データバッファ18に格納されている音声信号とPTS(提示時刻)を取り出せば、その提示時刻に音声信号を再生することができる。
The audio stream decoding unit 17 extracts the metadata from the audio ES buffer 16 and indicates the time information (DTS (decoding time) or PTS (presentation time) of each access unit (AU) described in the metadata. ) Is decrypted.
The audio stream decoding unit 17 refers to the decoded DTS to grasp the decoding time of each access unit (AU), and at the decoding time of each access unit (AU), extracts the audio ES from the audio ES buffer 16. The audio signal of the access unit (AU) is decoded, and the decoded audio signal and PTS (presentation time) are stored in the audio data buffer 18.
As a result, an external reproduction device (not shown) can reproduce the audio signal at the presentation time by extracting the audio signal and PTS (presentation time) stored in the audio data buffer 18.

映像MMTPペイロード処理部19は、アセット分離部14から映像MMTPペイロードを受けると、その映像MMTPペイロードから映像ストリームのMFU又はMPUを再構成することで、後段のHEVCES復号部21で復号可能な形式のHEVCエレメンタリーストリーム(HEVC ES)を生成し、そのHEVCエレメンタリーストリームをHEVCESバッファ20に格納する。
映像MMTPペイロードからHEVCエレメンタリーストリームを生成する処理自体は公知の技術であるため詳細な説明を省略する。
また、映像MMTPペイロード処理部19は、アセット分離部14から出力された映像MMTPペイロードに含まれている映像ストリームに関するメタデータを抽出し、そのメタデータをHEVCESバッファ20に格納する。
Upon receiving the video MMTP payload from the asset separation unit 14, the video MMTP payload processing unit 19 reconfigures the MFU or MPU of the video stream from the video MMTP payload, so that the HEVCES decoding unit 21 in the subsequent stage can perform decoding. The HEVC elementary stream (HEVC ES) is generated, and the HEVC elementary stream is stored in the HEVC ES buffer 20.
Since the process itself for generating the HEVC elementary stream from the video MMTP payload is a known technique, its detailed description is omitted.
In addition, the video MMTP payload processing unit 19 extracts metadata regarding the video stream included in the video MMTP payload output from the asset separation unit 14, and stores the metadata in the HEVCES buffer 20.

HEVCES復号部21は、HEVCESバッファ20からメタデータを取り出して、そのメタデータに記述されている時刻情報(各アクセスユニット(AU)のDTS(復号時刻)やPTS(提示時刻)を示す情報)を復号する。
HEVCES復号部21は、復号したDTSを参照して、各アクセスユニット(AU)の復号時刻を把握し、各アクセスユニット(AU)の復号時刻になると、HEVCESバッファ20からHEVCエレメンタリーストリームを取り出して、当該アクセスユニット(AU)の映像信号を復号し、その復号した映像信号である復号画像とPTS(提示時刻)を復号画像バッファ22に格納する。
これにより、外部の再生装置(図示せず)は、復号画像バッファ22に格納されている復号画像とPTS(提示時刻)を取り出せば、その提示時刻に復号画像を再生することができる。
The HEVCES decoding unit 21 extracts the metadata from the HEVCES buffer 20 and outputs the time information (the information indicating the DTS (decoding time) and PTS (presentation time) of each access unit (AU)) described in the metadata. Decrypt.
The HEVCES decoding unit 21 grasps the decoding time of each access unit (AU) with reference to the decoded DTS, and when the decoding time of each access unit (AU) comes, extracts the HEVC elementary stream from the HEVCES buffer 20. The video signal of the access unit (AU) is decoded, and the decoded image and PTS (presentation time) which are the decoded video signal are stored in the decoded image buffer 22.
Thus, an external reproduction device (not shown) can reproduce the decoded image at the presentation time by extracting the decoded image and PTS (presentation time) stored in the decoded image buffer 22.

外部の再生装置(図示せず)が復号画像と音声信号を再生しているとき、ユーザがリモコン等を用いて、チャンネルを切り替える操作を行うと、提示対象の映像ストリームを切り替える指令(この切替指令には、切替後のチャンネルを示す情報が含まれている)がストリーム選択部11に与えられる。
ストリーム選択部11は、外部からチャンネルの切替指令を受けると(図4のステップST11:Yesの場合)、複数のビットストリームの中から、その切替指令が示す切替後のチャンネルのビットストリームを選択して、そのビットストリームをMMTPパケット解析部12に出力する(ステップST12)。
また、ストリーム選択部11は、ユーザによりチャンネルが切り替えられたときに何の復号画像も表示されない時間を無くして、シームレスなチャンネル切替を実現するために、制御MMTPペイロード処理部13からビットストリームの出力停止指令を受けるまでの間(ステップST13:Noの場合)、切替前のチャンネルのビットストリームも引き続きMMTPパケット解析部12に出力する(ステップST14)。ビットストリームの出力停止指令は、後述するように、現在時刻が符号化順で先頭のアクセスユニット(AU)の提示時刻になると出力される。
ストリーム選択部11は、制御MMTPペイロード処理部13からビットストリームの出力停止指令を受けると、切替前のチャンネルのビットストリームの出力を停止して、切替後のチャンネルのビットストリームだけをMMTPパケット解析部12に出力する。
When an external playback device (not shown) is playing back a decoded image and an audio signal, when the user performs a channel switching operation using a remote controller or the like, a command to switch the video stream to be presented (this switching command Includes information indicating the channel after switching) to the stream selection unit 11.
When receiving a channel switching command from the outside (step ST11: Yes in FIG. 4), the stream selection unit 11 selects the bitstream of the channel after switching indicated by the switching command from the plurality of bitstreams. And outputs the bit stream to the MMTP packet analysis unit 12 (step ST12).
Further, the stream selection unit 11 outputs the bit stream from the control MMTP payload processing unit 13 in order to realize seamless channel switching by eliminating the time when no decoded image is displayed when the channel is switched by the user. Until the stop command is received (step ST13: No), the bit stream of the channel before switching is also continuously output to the MMTP packet analysis unit 12 (step ST14). As will be described later, the bitstream output stop command is output when the current time reaches the presentation time of the head access unit (AU) in the encoding order.
When receiving the bitstream output stop command from the control MMTP payload processing unit 13, the stream selection unit 11 stops the output of the bitstream of the channel before switching and only the bitstream of the channel after switching is processed by the MMTP packet analysis unit. Output to 12.

MMTPパケット解析部12は、ストリーム選択部11から切替後のチャンネルのビットストリームを受けると、チャンネルの切替前と同様に、そのビットストリームを構成しているMMTPパケットに含まれている制御MMTPペイロードを制御MMTPペイロード処理部13に出力し、そのビットストリームを構成しているMMTPパケットに含まれている音声MMTPペイロード又は映像MMTPペイロードをアセット分離部14に出力する。
また、MMTPパケット解析部12は、ストリーム選択部11から切替前のチャンネルのビットストリームを受けると、切替後のチャンネルのビットストリームに対する処理と並列の処理で、切替前のチャンネルのビットストリームを構成しているMMTPパケットに含まれている制御MMTPペイロードを制御MMTPペイロード処理部13に出力し、そのビットストリームを構成しているMMTPパケットに含まれている音声MMTPペイロード又は映像MMTPペイロードをアセット分離部14に出力する。
When the MMTP packet analysis unit 12 receives the bit stream of the channel after switching from the stream selection unit 11, the MMTP packet analysis unit 12 receives the control MMTP payload included in the MMTP packet forming the bit stream as before switching the channel. The control MMTP payload processing unit 13 outputs the audio MMTP payload or the video MMTP payload included in the MMTP packet forming the bitstream to the asset separation unit 14.
Further, when the MMTP packet analysis unit 12 receives the bitstream of the channel before switching from the stream selection unit 11, the MMTP packet analysis unit 12 configures the bitstream of the channel before switching by a process parallel to the bitstream of the channel after switching. The control MMTP payload included in the MMTP packet is output to the control MMTP payload processing unit 13, and the audio MMTP payload or the video MMTP payload included in the MMTP packet forming the bitstream is transferred to the asset separation unit 14. Output to.

制御MMTPペイロード処理部13は、MMTPパケット解析部12から切替後のチャンネルのビットストリームに係る制御MMTPペイロードを受けると、チャンネルの切替前と同様に、その制御MMTPペイロードに含まれている符号化データの復号処理を実施して、制御情報であるPAメッセージ及びPAメッセージに含まれるHEVCピクチャ構造記述子を復号する(ステップST15)。
制御MMTPペイロード処理部13は、PAメッセージ及びPAメッセージに含まれるHEVCピクチャ構造記述子を復号すると、そのPAメッセージに記述されているMPUタイムスタンプ記述子が示す提示順で先頭のアクセスユニット(AU)の提示時刻と、HEVCピクチャ構造記述子に記述されている個数情報(num_of_leading_picture)が示す符号化順で先頭のアクセスユニット(AU)より提示順が早いアクセスユニット(AU)の個数(LPの枚数)とから、符号化順で先頭のアクセスユニット(AU)の提示時刻を算出する(ステップST16)。
Upon receiving the control MMTP payload related to the bit stream of the channel after switching from the MMTP packet analysis unit 12, the control MMTP payload processing unit 13 receives the encoded data included in the control MMTP payload as before the channel switching. Is executed to decode the PA message which is the control information and the HEVC picture structure descriptor included in the PA message (step ST15).
When the control MMTP payload processing unit 13 decodes the PA message and the HEVC picture structure descriptor included in the PA message, the head access unit (AU) in the presentation order indicated by the MPU time stamp descriptor described in the PA message. Presentation time and the number of access units (AU) that are earlier in presentation order than the first access unit (AU) in the encoding order indicated by the number information (num_of_leading_picture) described in the HEVC picture structure descriptor (number of LPs) From this, the presentation time of the first access unit (AU) in the encoding order is calculated (step ST16).

図10の例では、符号化順で先頭のアクセスユニット(AU)はIRAP32であり、提示順で先頭のアクセスユニット(AU)はB25である。また、IRAP32より提示順が早いアクセスユニット(AU)の個数(LPの枚数)は7個である。
したがって、提示順で先頭のアクセスユニット(AU)であるB25の提示時刻が、例えば、18時00分00秒であり、フレームレートが120枚/1秒であれば、IRAP32の提示時刻は、B25の提示時刻(18時00分00秒)の58msec(=7/120)後になる。
制御MMTPペイロード処理部13は、現在時刻が符号化順で先頭のアクセスユニット(AU)の提示時刻になると(ステップST17:Yesの場合)、切替前のチャンネルのビットストリームの出力停止指令をストリーム選択部11に出力する(ステップST18)。
In the example of FIG. 10, the first access unit (AU) in the coding order is IRAP32, and the first access unit (AU) in the presentation order is B25. Further, the number of access units (AUs) (the number of LPs) whose presentation order is earlier than that of the IRAP 32 is seven.
Therefore, if the presentation time of B25, which is the first access unit (AU) in the presentation order, is, for example, 18:00:00 and the frame rate is 120 images / 1 second, the presentation time of IRAP32 is B25. This is 58 msec (= 7/120) after the presentation time (18:00:00).
When the current time reaches the presentation time of the first access unit (AU) in the encoding order (in the case of step ST17: Yes), the control MMTP payload processing unit 13 selects a stream stop command for outputting the bit stream of the channel before switching. It is output to the section 11 (step ST18).

アセット分離部14は、MMTPパケット解析部12から切替後のチャンネルに係るMMTPパケットを受けると、チャンネルの切替前と同様に、そのMMTPパケットに含まれている音声MMTPペイロードを音声MMTPペイロード処理部15に出力し、そのMMTPパケットに含まれている映像MMTPペイロードを映像MMTPペイロード処理部19に出力する。
また、アセット分離部14は、MMTPパケット解析部12から切替前のチャンネルに係るMMTPパケットを受けると、切替後のチャンネルのビットストリームに対する処理と並列の処理で、切替前のチャンネルに係るMMTPパケットに含まれている音声MMTPペイロードを音声MMTPペイロード処理部15に出力し、そのMMTPパケットに含まれている映像MMTPペイロードを映像MMTPペイロード処理部19に出力する。
When the asset separation unit 14 receives the MMTP packet related to the channel after switching from the MMTP packet analysis unit 12, the voice MMTP payload processing unit 15 receives the voice MMTP payload included in the MMTP packet as in the case before the channel switching. The video MMTP payload included in the MMTP packet is output to the video MMTP payload processing unit 19.
When the asset separation unit 14 receives the MMTP packet related to the channel before switching from the MMTP packet analysis unit 12, the asset separation unit 14 converts the MMTP packet related to the channel before switching into the MMTP packet related to the channel before switching by parallel processing. The included audio MMTP payload is output to the audio MMTP payload processing unit 15, and the video MMTP payload included in the MMTP packet is output to the video MMTP payload processing unit 19.

映像MMTPペイロード処理部19は、アセット分離部14から切替前のチャンネルに係る映像MMTPペイロードを受けると(現在時刻が提示順で先頭のアクセスユニット(AU)の提示時刻になる前)、チャンネルの切替前と同様に、その映像MMTPペイロードからHEVCエレメンタリーストリームを生成して、そのHEVCエレメンタリーストリームをHEVCESバッファ20に格納するとともに、その映像MMTPペイロードに含まれている映像ストリームに関するメタデータを抽出し、そのメタデータをHEVCESバッファ20に格納する(ステップST19)。
また、映像MMTPペイロード処理部19は、アセット分離部14から切替後のチャンネルに係る映像MMTPペイロードを受けると、切替前のチャンネルのビットストリームに対する処理と並列の処理で、切替後のチャンネルに係る映像MMTPペイロードからHEVCエレメンタリーストリームを生成して、そのHEVCエレメンタリーストリームをHEVCESバッファ20に格納するとともに、その映像MMTPペイロードに含まれている映像ストリームに関するメタデータを抽出し、そのメタデータをHEVCESバッファ20に格納する(ステップST20)。
When the video MMTP payload processing unit 19 receives the video MMTP payload relating to the channel before switching from the asset separation unit 14 (before the current time reaches the presentation time of the first access unit (AU) in the presentation order), the channel switching is performed. As before, a HEVC elementary stream is generated from the video MMTP payload, the HEVC elementary stream is stored in the HEVCES buffer 20, and metadata regarding the video stream included in the video MMTP payload is extracted. , And stores the metadata in the HEVCES buffer 20 (step ST19).
Further, when the video MMTP payload processing unit 19 receives the video MMTP payload related to the channel after switching from the asset separation unit 14, the video MMTP payload processing is performed in parallel with the processing on the bit stream of the channel before switching, and the video related to the channel after switching. The HEVC elementary stream is generated from the MMTP payload, the HEVC elementary stream is stored in the HEVCES buffer 20, the metadata regarding the video stream included in the video MMTP payload is extracted, and the metadata is extracted into the HEVCES buffer. 20 (step ST20).

HEVCES復号部21は、チャンネルの切替前と同様に、HEVCESバッファ20からメタデータを取り出して、そのメタデータに記述されている時刻情報(各アクセスユニット(AU)のDTS(復号時刻)やPTS(提示時刻)を示す情報)を復号する。
これにより、HEVCES復号部21は、復号したDTSを参照して、各アクセスユニット(AU)の復号時刻を把握するが、切替後のチャンネルについては、IRAPが最初に復号することが可能なアクセスユニット(AU)であり(図10のGOP構成では、IRAP32のアクセスユニット(AU))、IRAPより提示順が早いLPのアクセスユニット(AU)の映像信号を復号することができない。このため、切替後のチャンネルについては、IRAPの提示時刻になるまでの間、どのアクセスユニット(AU)の映像信号も復号して表示することができない。
The HEVCES decoding unit 21 takes out the metadata from the HEVCES buffer 20 as in the case before the channel switching, and the time information (DTS (decoding time) or PTS (decoding time) of each access unit (AU) described in the metadata. Information indicating the presentation time) is decrypted.
As a result, the HEVCES decoding unit 21 recognizes the decoding time of each access unit (AU) by referring to the decoded DTS, but the access unit that can be first decoded by IRAP for the channel after switching. (AU) (in the GOP configuration of FIG. 10, the access unit (AU) of IRAP 32), it is impossible to decode the video signal of the access unit (AU) of LP whose presentation order is earlier than that of IRAP. Therefore, for the channel after switching, the video signal of any access unit (AU) cannot be decoded and displayed until the presentation time of IRAP.

そこで、HEVCES復号部21は、切替後のチャンネルに係るIRAPの提示時刻になるまでの間、切替前のチャンネルに係るアクセスユニット(AU)の映像信号を復号して、その復号した映像信号である復号画像とPTS(提示時刻)を復号画像バッファ22に格納する。
これにより、外部の再生装置(図示せず)は、切替後のチャンネルに係るIRAPの提示時刻になるまでの間、切替前のチャンネルに係る復号画像を再生することができる。
したがって、ユーザによりチャンネルが切り替えられたときに何の復号画像も表示されない時間を無くして、シームレスなチャンネル切替を実現することができる。
Therefore, the HEVCES decoding unit 21 decodes the video signal of the access unit (AU) related to the channel before switching until the presentation time of the IRAP related to the channel after switching, and the decoded video signal. The decoded image and PTS (presentation time) are stored in the decoded image buffer 22.
This allows an external playback device (not shown) to play back the decoded image for the channel before switching until the presentation time of the IRAP for the channel after switching comes.
Therefore, it is possible to realize the seamless channel switching by eliminating the time when no decoded image is displayed when the channel is switched by the user.

音声MMTPペイロード処理部15は、アセット分離部14から切替前のチャンネルに係る音声MMTPペイロードを受けると(現在時刻が提示順で先頭のアクセスユニット(AU)の提示時刻になる前)、チャンネルの切替前と同様に、その音声MMTPペイロードから音声ESを生成して、その音声ESを音声ESバッファ16に格納するとともに、その音声MMTPペイロードに含まれている音声ストリームに関するメタデータを抽出し、そのメタデータを音声ESバッファ16に格納する。
また、音声MMTPペイロード処理部15は、アセット分離部14から切替後のチャンネルに係る音声MMTPペイロードを受けると、切替前のチャンネルのビットストリームに対する処理と並列の処理で、切替後のチャンネルに係る音声MMTPペイロードから音声ESを生成して、その音声ESを音声ESバッファ16に格納するとともに、その音声MMTPペイロードに含まれている音声ストリームに関するメタデータを抽出し、そのメタデータを音声ESバッファ16に格納する。
When the audio MMTP payload processing unit 15 receives the audio MMTP payload related to the channel before switching from the asset separation unit 14 (before the current time reaches the presentation time of the first access unit (AU) in the presentation order), the channel switching is performed. As before, the audio ES is generated from the audio MMTP payload, the audio ES is stored in the audio ES buffer 16, the metadata regarding the audio stream included in the audio MMTP payload is extracted, and the metadata thereof is extracted. The data is stored in the audio ES buffer 16.
When the audio MMTP payload processing unit 15 receives the audio MMTP payload related to the channel after switching from the asset separation unit 14, the audio MMTP payload processing unit 15 performs the processing related to the bit stream of the channel before switching and the audio related to the channel after switching. The voice ES is generated from the MMTP payload, the voice ES is stored in the voice ES buffer 16, the metadata regarding the voice stream included in the voice MMTP payload is extracted, and the metadata is stored in the voice ES buffer 16. Store.

音声ストリーム復号部17は、チャンネルの切替前と同様に、音声ESバッファ16からメタデータを取り出して、そのメタデータに記述されている時刻情報(各アクセスユニット(AU)のDTS(復号時刻)やPTS(提示時刻)を示す情報)を復号する。
音声ストリーム復号部17は、復号したDTSを参照して、各アクセスユニット(AU)の復号時刻を把握し、各アクセスユニット(AU)の復号時刻になると、音声ESバッファ16から音声ESを取り出して、当該アクセスユニット(AU)の音声信号を復号し、その復号した音声信号とPTS(提示時刻)を音声データバッファ18に格納する。
これにより、外部の再生装置(図示せず)は、音声データバッファ18に格納されている音声信号とPTS(提示時刻)を取り出せば、その提示時刻に音声信号を再生することができる。
The audio stream decoding unit 17 extracts the metadata from the audio ES buffer 16 in the same manner as before switching the channel, and outputs the time information (DTS (decoding time) of each access unit (AU)) described in the metadata. Information indicating PTS (presentation time) is decoded.
The audio stream decoding unit 17 refers to the decoded DTS to grasp the decoding time of each access unit (AU), and at the decoding time of each access unit (AU), extracts the audio ES from the audio ES buffer 16. The audio signal of the access unit (AU) is decoded, and the decoded audio signal and PTS (presentation time) are stored in the audio data buffer 18.
As a result, an external reproduction device (not shown) can reproduce the audio signal at the presentation time by extracting the audio signal and PTS (presentation time) stored in the audio data buffer 18.

ここでは、音声ストリーム復号部17が、HEVCES復号部21と同様に、切替後のチャンネルに係るIRAPの提示時刻になるまでの間は、切替前のチャンネルに係るアクセスユニット(AU)の音声信号を復号して、その復号した音声信号とPTS(提示時刻)を音声データバッファ18に格納することを想定しているが、音声信号については、映像信号のようにフレーム間予測符号化方式で符号化されないため、IRAPより提示順が早いLPのアクセスユニット(AU)の音声信号も復号することができる。このため、切替後のチャンネルに係るIRAPの提示時刻になるまでの間であっても、切替前のチャンネルに係るアクセスユニット(AU)の音声信号を復号せずに、切替後のチャンネルに係るアクセスユニット(AU)の音声信号を復号するようにしてもよい。   Here, similarly to the HEVCES decoding unit 21, the audio stream decoding unit 17 outputs the audio signal of the access unit (AU) related to the channel before switching until the presentation time of the IRAP related to the channel after switching. Although it is assumed that the audio signal is decoded and the decoded audio signal and PTS (presentation time) are stored in the audio data buffer 18, the audio signal is encoded by the interframe predictive encoding method like the video signal. Since it is not performed, the audio signal of the LP access unit (AU), which is presented earlier than IRAP, can be decoded. Therefore, even before the presentation time of the IRAP related to the channel after switching, the access related to the channel after switching is performed without decoding the audio signal of the access unit (AU) related to the channel before switching. The audio signal of the unit (AU) may be decoded.

復号装置では、復号処理を終了するまで、ステップST11〜ST20の処理を繰り返し実施する(ステップST21)。   The decoding device repeatedly executes the processes of steps ST11 to ST20 until the decoding process is completed (step ST21).

以上で明らかなように、この実施の形態1によれば、1以上のアクセスユニット(AU)の映像信号がフレーム間予測符号化方式で符号化された場合に、1以上のアクセスユニット(AU)の映像信号の全てを復号することが可能な複数のアクセスユニット(AU)の集合であるGOP毎に、提示順で先頭のアクセスユニット(AU)の提示時刻を示す提示時刻情報と、符号化順で先頭のアクセスユニット(AU)より提示順が早いアクセスユニット(AU)の個数を示す個数情報とを含む制御情報を符号化するように構成したので、復号側において、ユーザによりチャンネルが切り替えられたときに、何の復号画像も表示されない時間を無くして、シームレスなチャンネル切替を実現することができる可能な符号化装置が得られる効果がある。   As is clear from the above, according to the first embodiment, when the video signals of one or more access units (AU) are coded by the interframe predictive coding method, one or more access units (AU) Presentation time information indicating the presentation time of the first access unit (AU) in the presentation order and the encoding order for each GOP that is a set of a plurality of access units (AU) capable of decoding all the video signals of Since the control information including the number information indicating the number of access units (AU) that are presented earlier than the first access unit (AU) is encoded, the channel is switched by the user on the decoding side. At the same time, there is an effect that a coding device capable of realizing seamless channel switching can be obtained by eliminating the time when no decoded image is displayed. .

また、この実施の形態1によれば、提示対象のビットストリームを切り替える指令が与えられた場合、ストリーム選択部11が、複数の符号化装置から出力されたビットストリームの中から、切替後のビットストリームを選択して、当該ビットストリームをMMTPパケット解析部12に出力するとともに、制御MMTPペイロード処理部13により算出された提示時刻になるまで(ビットストリームの出力停止指令を受けるまで)、切替前のビットストリームも引き続きMMTPパケット解析部12に出力し、HEVCES復号部21が、切替後のビットストリームに多重化されている映像信号の符号化データからアクセスユニット単位の映像信号を復号するとともに、制御MMTPペイロード処理部13により算出された提示時刻になるまでの間、切替前のビットストリームに多重化されている映像信号の符号化データからアクセスユニット単位の映像信号を復号するように構成したので、ユーザによりチャンネルが切り替えられたときに、何の復号画像も表示されない時間を無くして、シームレスなチャンネル切替を実現することができる復号装置が得られる効果がある。   Further, according to the first embodiment, when the instruction to switch the bit stream to be presented is given, the stream selection unit 11 selects the bit after switching from the bit streams output from the plurality of encoding devices. A stream is selected, the bit stream is output to the MMTP packet analysis unit 12, and the switching time before switching is reached until the presentation time calculated by the control MMTP payload processing unit 13 (until a bit stream output stop command is received). The bit stream is also continuously output to the MMTP packet analysis unit 12, and the HEVCES decoding unit 21 decodes the video signal for each access unit from the coded data of the video signal multiplexed in the bit stream after the switching, and the control MMTP. It becomes the presentation time calculated by the payload processing unit 13. During this period, the video signal for each access unit is decoded from the coded data of the video signal multiplexed in the bit stream before switching, so what kind of decoding is performed when the channel is switched by the user? There is an effect that a decoding device capable of realizing seamless channel switching can be obtained by eliminating the time when no image is displayed.

実施の形態2.
上記実施の形態1では、HEVCES復号部21が、切替後のチャンネルに係るIRAPの提示時刻になるまでの間、切替前のチャンネルに係るアクセスユニット(AU)の映像信号を復号して、その復号した映像信号である復号画像とPTS(提示時刻)を復号画像バッファ22に格納するものを示したが、切替後のチャンネルに係るLPのアクセスユニット(AU)であっても、そのアクセスユニット(AU)を構成しているNALユニットの符号化方式によっては、IRAPの復号前であっても、復号することが可能な場合がある。
IRAPの復号前であっても、LPのアクセスユニット(AU)が復号可能であるか否かは、HEVCピクチャ構造記述子に記述されているピクチャタイプ情報(nal_unit_type_of_leading_picture)を参照すれば、LPを構成しているNALユニットの符号化方式が分かるため判断することができる。例えば、LPを構成しているNALユニットの符号化方式がフレーム内符号化方式であれば、1つ前のSOPのアクセスユニット(AU)の映像信号が復号されていなくても、復号することが可能である。
Embodiment 2.
In the above-described first embodiment, the HEVCES decoding unit 21 decodes the video signal of the access unit (AU) related to the channel before switching until the presentation time of the IRAP related to the channel after switching, and decodes the decoded video signal. Although the decoded image and the PTS (presentation time) which are the video signals stored are stored in the decoded image buffer 22, the access unit (AU) of the LP access unit (AU) related to the channel after switching is also shown. Depending on the encoding method of the NAL unit that composes (1), decoding may be possible even before IRAP decoding.
Whether or not the access unit (AU) of the LP can be decoded even before IRAP decoding is configured by referring to the picture type information (nal_unit_type_of_leading_picture) described in the HEVC picture structure descriptor. This can be determined because the encoding method of the NAL unit in use is known. For example, if the coding method of the NAL unit forming the LP is an intraframe coding method, it is possible to decode even if the video signal of the access unit (AU) of the immediately previous SOP is not decoded. It is possible.

HEVCES復号部21は、IRAPの復号前であっても、切替後のチャンネルに係るLPのアクセスユニット(AU)を復号することが可能であれば、そのアクセスユニット(AU)の映像信号を復号して、その復号した映像信号である復号画像とPTS(提示時刻)を復号画像バッファ22に格納する。
例えば、図10のGOP構成において、LPであるB25,B25,B27,B28は復号できないが、B29,B30,B31の復号可能であれば、B29,B30,B31の映像信号を復号して、その復号した映像信号である復号画像とPTS(提示時刻)を復号画像バッファ22に格納する。
これにより、外部の再生装置(図示せず)は、切替後のチャンネルに係るIRAPの提示時刻になるまでの間において、B25,B25,B27,B28の提示時刻では、切替前のチャンネルに係る復号画像を再生し、B29,B30,B31の提示時刻では、切替後のチャンネルに係る復号画像を再生することができる。
If the HEVCES decoding unit 21 can decode the LP access unit (AU) related to the switched channel even before IRAP decoding, the HEVCES decoding unit 21 decodes the video signal of the access unit (AU). Then, the decoded image which is the decoded video signal and the PTS (presentation time) are stored in the decoded image buffer 22.
For example, in the GOP structure of FIG. 10, LPs B25, B25, B27, B28 cannot be decoded, but if B29, B30, B31 can be decoded, the video signals of B29, B30, B31 are decoded, and The decoded image, which is the decoded video signal, and the PTS (presentation time) are stored in the decoded image buffer 22.
As a result, the external playback apparatus (not shown) decodes the channel before switching at the presentation time of B25, B25, B27, B28 until the presentation time of the IRAP related to the channel after switching. The image is reproduced, and at the presentation time of B29, B30, B31, the decoded image of the channel after switching can be reproduced.

なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。   It should be noted that, within the scope of the invention, the invention of the present application is capable of freely combining the respective embodiments, modifying any constituent element of each embodiment, or omitting any constituent element in each embodiment. .

1 音声符号化部、2 音声MMTPペイロード生成部、3 HEVC符号化部(映像符号化手段)、4 映像MMTPペイロード生成部(映像符号化手段)、5 制御情報符号化部(制御情報符号化手段)、6 制御MMTPペイロード生成部(制御情報符号化手段)、7 MMTPパケット生成部(多重化手段)、11 ストリーム選択部(ビットストリーム選択手段)、12 MMTPパケット解析部、13 制御MMTPペイロード処理部(提示時刻算出手段)、14 アセット分離部、15 音声MMTPペイロード処理部、16 音声ESバッファ、17 音声ストリーム復号部、18 音声データバッファ、19 映像MMTPペイロード処理部(映像復号手段)、20 HEVCESバッファ(映像復号手段)、21 HEVCES復号部(映像復号手段)、22 復号画像バッファ(映像復号手段)。   1 audio coding unit, 2 audio MMTP payload generation unit, 3 HEVC coding unit (video coding means), 4 video MMTP payload generation unit (video coding means), 5 control information coding unit (control information coding means) ), 6 control MMTP payload generation unit (control information encoding unit), 7 MMTP packet generation unit (multiplexing unit), 11 stream selection unit (bit stream selection unit), 12 MMTP packet analysis unit, 13 control MMTP payload processing unit (Presentation time calculation means), 14 asset separation section, 15 audio MMTP payload processing section, 16 audio ES buffer, 17 audio stream decoding section, 18 audio data buffer, 19 video MMTP payload processing section (video decoding means), 20 HEVCES buffer (Video decoding means), 21 HEVCES decoding (Video decoding means), 22 the decoded picture buffer (video decoding means).

Claims (1)

MMT(MPEG Media Transport)が規定する伝送方式で伝送される映像信号の符号化データを復号する復号装置であって、
前記符号化データから、フレーム間予測符号化方式で符号化された複数のアクセスユニットの集合であるGOPにおける、提示順で先頭のアクセスユニットの提示時刻を示す提示時刻情報と、前記提示順で先頭のアクセスユニットの提示時刻を示す提示時刻情報から符号化順で先頭のアクセスユニットの提示時刻を算出するための情報と、を得る制御情報復号手段と、
前記制御情報復号手段が取得した、前記提示順で先頭のアクセスユニットの提示時刻情報と、前記符号化順で先頭のアクセスユニットの提示時刻を算出するための情報とを用いて、前記符号化データに含まれる前記映像信号を復号する復号手段と、
を備えた復号装置。
A decoding device for decoding encoded data of a video signal transmitted by a transmission method defined by MMT (MPEG Media Transport),
Presentation time information indicating the presentation time of the first access unit in the presentation order in the GOP, which is a set of a plurality of access units encoded by the interframe predictive coding method, from the encoded data, and the presentation time information in the presentation order. Control information decoding means for obtaining the information for calculating the presentation time of the leading access unit in the encoding order from the presentation time information indicating the presentation time of the access unit,
The encoded data is obtained by using the presentation time information of the access unit at the beginning in the presentation order and the information for calculating the presentation time of the access unit at the beginning in the encoding order acquired by the control information decoding unit. Decoding means for decoding the video signal included in
Decoding device provided with.
JP2019238152A 2019-12-27 2019-12-27 Decryptor Active JP6825075B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019238152A JP6825075B2 (en) 2019-12-27 2019-12-27 Decryptor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019238152A JP6825075B2 (en) 2019-12-27 2019-12-27 Decryptor

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017233494A Division JP6641344B2 (en) 2017-12-05 2017-12-05 Encoding device

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021003453A Division JP7003308B2 (en) 2021-01-13 2021-01-13 Decoding device

Publications (2)

Publication Number Publication Date
JP2020061773A true JP2020061773A (en) 2020-04-16
JP6825075B2 JP6825075B2 (en) 2021-02-03

Family

ID=70219146

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019238152A Active JP6825075B2 (en) 2019-12-27 2019-12-27 Decryptor

Country Status (1)

Country Link
JP (1) JP6825075B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007336578A (en) * 2004-06-02 2007-12-27 Matsushita Electric Ind Co Ltd Multiplexing apparatus and demultiplexing apparatus
JP2015015706A (en) * 2013-07-03 2015-01-22 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America Data transmission method, data reproduction method, data transmitter and data reproducer
JP2015023574A (en) * 2013-07-22 2015-02-02 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America Storage method, reproduction method, storage device, and reproducer
JP2015119477A (en) * 2013-12-16 2015-06-25 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America Transmission method, reception method, transmission apparatus and reception apparatus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007336578A (en) * 2004-06-02 2007-12-27 Matsushita Electric Ind Co Ltd Multiplexing apparatus and demultiplexing apparatus
JP2015015706A (en) * 2013-07-03 2015-01-22 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America Data transmission method, data reproduction method, data transmitter and data reproducer
JP2015023574A (en) * 2013-07-22 2015-02-02 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America Storage method, reproduction method, storage device, and reproducer
JP2015119477A (en) * 2013-12-16 2015-06-25 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America Transmission method, reception method, transmission apparatus and reception apparatus

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
河村 侑輝 他: "MMTにおけるMPEG-2 TSコンテンツ多重方式の検討", 情報処理学会研究報告, vol. Vol. 2014-AVM-84, No.1, JPN6020048218, 14 February 2014 (2014-02-14), JP, pages 1 - 6, ISSN: 0004408436 *
青木 秀一 他: "放送・通信連携のためのMMTの運用方法の検討 A Study on MMT for Hybrid Delivery on Broadcast and Broadb", 情報処理学会研究報告, vol. Vol. 2014-AVM-84, No. 2, JPN6020048219, 14 February 2014 (2014-02-14), pages 1 - 6, ISSN: 0004408437 *
青木 秀一 他: "次世代放送システムにおけるMMTの運用方法の検討 A Study on Implementation of MMT in Next Generation Br", FIT2013 (第12回情報科学技術フォーラム), JPN6020048220, August 2013 (2013-08-01), JP, pages 355 - 356, XP008185019, ISSN: 0004408438 *

Also Published As

Publication number Publication date
JP6825075B2 (en) 2021-02-03

Similar Documents

Publication Publication Date Title
JP7091421B2 (en) Transmitter and receiver
JP5133567B2 (en) Codec change method and apparatus
KR100711635B1 (en) Picture coding method
JP2018186524A (en) Content transmitting device and content reproduction device
US20210409752A1 (en) Personal Video Recorder
JP7067653B2 (en) Decoding device
WO2005062614A1 (en) Video data processing method and vide data processing device
JPWO2015025747A1 (en) Encoding device, encoding method, transmitting device, decoding device, decoding method, and receiving device
JP2010098627A (en) Video encoding apparatus and method
JP6641344B2 (en) Encoding device
JP6825075B2 (en) Decryptor
JP7003308B2 (en) Decoding device
US7269839B2 (en) Data distribution apparatus and method, and data distribution system
JP6257448B2 (en) Encoding device, decoding device, encoding method, and decoding method
JP7306527B2 (en) decoding device
JPWO2004034616A1 (en) Broadcast data transmission / reception system and broadcast data transmission / reception method
JP4102223B2 (en) Data processing apparatus and data processing method
JP2015226305A (en) Encoding device
JP7230981B2 (en) Receiving device and receiving method
JP2007221826A (en) Receiving terminal and reception method
KR100530920B1 (en) Image and voice transmitting apparatus and receiving apparatus
JP2006304309A (en) Transmitter, receiver, and communication system
JP2015233322A (en) Transmission device, transmission method, reception device, and reception method
KR20120058373A (en) Video transmission and device playing system based on http streaming using svc server

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210113

R150 Certificate of patent or registration of utility model

Ref document number: 6825075

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250