JP6648811B2 - Transmitting device, transmitting method, receiving device and receiving method - Google Patents

Transmitting device, transmitting method, receiving device and receiving method Download PDF

Info

Publication number
JP6648811B2
JP6648811B2 JP2018233539A JP2018233539A JP6648811B2 JP 6648811 B2 JP6648811 B2 JP 6648811B2 JP 2018233539 A JP2018233539 A JP 2018233539A JP 2018233539 A JP2018233539 A JP 2018233539A JP 6648811 B2 JP6648811 B2 JP 6648811B2
Authority
JP
Japan
Prior art keywords
picture
video stream
image data
stream
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018233539A
Other languages
Japanese (ja)
Other versions
JP2019062566A (en
Inventor
塚越 郁夫
郁夫 塚越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2018233539A priority Critical patent/JP6648811B2/en
Publication of JP2019062566A publication Critical patent/JP2019062566A/en
Application granted granted Critical
Publication of JP6648811B2 publication Critical patent/JP6648811B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本技術は、送信装置、送信方法、受信装置および受信方法に関する。詳しくは、本技術は、動画像データを構成する各ピクチャの画像データを階層符号化して送信する送信装置等に関する。   The present technology relates to a transmission device, a transmission method, a reception device, and a reception method. More specifically, the present technology relates to a transmission device or the like that hierarchically encodes and transmits image data of each picture constituting moving image data.

圧縮動画を、放送、ネット等でサービスする際、受信機のデコード能力によって再生可能なフレーム周波数の上限が制限される。従って、サービス側は普及している受信機の再生能力を考慮して、低フレーム周波数のサービスのみに制限したり、高低複数のフレーム周波数のサービスを同時提供したりする必要がある。   When a compressed moving image is provided through broadcasting, a network, or the like, the upper limit of a reproducible frame frequency is limited by the decoding capability of the receiver. Therefore, it is necessary for the service side to restrict the service to only low frame frequencies or to simultaneously provide services of a plurality of high and low frame frequencies in consideration of the reproduction capability of a widespread receiver.

受信機は、高フレーム周波数のサービスに対応するには、高コストとなり、早期普及の阻害要因となる。初期に低フレーム周波数のサービス専用の安価な受信機のみ普及していて、将来サービス側が高フレーム周波数のサービスを開始する場合、新たな受信機が無いと全く視聴不可能であり、新規サービスの普及の阻害要因となる。   Receivers are costly to support services at high frame frequencies, and hinder early adoption. Initially, only low-cost receivers dedicated to low-frame-frequency services are widespread, and if the service side starts high-frame-frequency services in the future, it will be impossible to view at all without a new receiver. It becomes a hindrance factor.

例えば、HEVC(High Efficiency Video Coding)において、動画像データを構成する各ピクチャの画像データを階層符号化することによる時間方向スケーラビリティが提案されている(非特許文献1参照)。受信側では、NAL(Network Abstraction Layer)ユニットのヘッダに挿入されているテンポラルID(temporal_id)に基づき、各ピクチャの階層を識別でき、デコード能力に対応した階層までの選択的なデコードが可能となる。   For example, in HEVC (High Efficiency Video Coding), temporal scalability has been proposed by hierarchically encoding image data of each picture constituting moving image data (see Non-Patent Document 1). On the receiving side, the layer of each picture can be identified based on the temporal ID (temporal_id) inserted in the header of the NAL (Network Abstraction Layer) unit, and selective decoding up to the layer corresponding to the decoding capability becomes possible. .

Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Wiegand, “Overview of the High Efficiency Video Coding (HEVC) Standard” IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECNOROGY, VOL. 22, NO. 12, pp. 1649-1668, DECEMBER 2012Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Wiegand, “Overview of the High Efficiency Video Coding (HEVC) Standard” IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECNOROGY, VOL. 22, NO. 12, pp . 1649-1668, DECEMBER 2012

本技術の目的は、受信側においてデコード能力に応じた良好なデコード処理を可能とすることにある。   An object of the present technology is to enable good decoding processing according to decoding capability on a receiving side.

本技術の概念は、
動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化し、該符号化された各階層のピクチャの画像データを持つビデオデータを生成する画像符号化部と、
上記生成されたビデオデータを含む所定フォーマットのコンテナを送信する送信部と、
上記複数の階層を2以上の所定数の階層組に分割し、上記ビデオデータをコンテナするパケットに、該ビデオデータに含まれる各ピクチャの符号化画像データがそれぞれどの階層組に属するピクチャの符号化画像データであるかを識別する識別情報を挿入する識別情報挿入部を備える
送信装置。
The concept of this technology is
Video data that classifies the image data of each picture constituting the moving image data into a plurality of layers, encodes the image data of the classified pictures of each layer, and has the image data of the encoded pictures of each layer. An image encoding unit that generates
A transmitting unit that transmits a container of a predetermined format including the generated video data,
The plurality of hierarchies are divided into a predetermined number of hierarchies of two or more, and in a packet for container of the video data, the coded image data of each picture included in the video data is coded for each of the hierarchies. A transmission device including an identification information insertion unit for inserting identification information for identifying whether the data is image data.

本技術において、画像符号化部により、動画像データを構成する各ピクチャの画像データが符号化されてビデオデータが生成される。この場合、動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化され、各階層のピクチャの符号化像データを持つビデオデータが生成される。   In the present technology, the image encoding unit encodes image data of each picture constituting moving image data to generate video data. In this case, the image data of each picture constituting the moving image data is classified and encoded into a plurality of layers, and video data having encoded image data of the pictures of each layer is generated.

送信部により、上述のビデオデータを含む所定フォーマットのコンテナが送信される。例えば、コンテナは、デジタル放送規格で採用されているトランスポートストリーム(MPEG−2 TS)であってもよい。また、例えば、コンテナは、インターネットの配信などで用いられるMP4、あるいはそれ以外のフォーマットのコンテナであってもよい。   The transmitting unit transmits a container of a predetermined format including the above-described video data. For example, the container may be a transport stream (MPEG-2 TS) adopted in a digital broadcasting standard. Further, for example, the container may be an MP4 used for distribution on the Internet or the like, or a container of another format.

識別情報挿入部により、複数の階層が2以上の所定数の階層組に分割され、ビデオデータをコンテナするパケットに、このビデオデータに含まれる各ピクチャの符号化画像データがそれぞれどの階層組に属するピクチャの符号化画像データであるかを識別する識別情報が挿入される。例えば、識別情報は、低階層側の階層組ほど高く設定される優先度情報である、ようにされてもよい。   The identification information insertion unit divides the plurality of hierarchies into a predetermined number of hierarchies of two or more, and in a packet for container of video data, the coded image data of each picture included in the video data belongs to any hierarchies. Identification information for identifying whether the data is coded image data of a picture is inserted. For example, the identification information may be priority information that is set higher for a lower layer group.

例えば、識別情報は、ペイロードにピクチャ毎の符号化画像データを含むPESパケットのヘッダに挿入される、ようにされてもよい。そして、この場合、例えば、識別情報は、ヘッダのPESプライオリティのフィールドを利用して挿入される、ようにされてもよい。また、例えば、識別情報は、アダプテーションフィールドを持つTSパケットの、このアダプテーションフィールドに挿入される、ようにされてもよい。そして、この場合、例えば、識別情報は、アダプテーションフィールドのESプライオリティインジケータのフィールドを利用して挿入される、ようにされてもよい。また、例えば、識別情報は、該当するピクチャのトラックに関連するヘッダのボックスに挿入される、ようにされてもよい。   For example, the identification information may be inserted into a header of a PES packet whose payload includes encoded image data for each picture. In this case, for example, the identification information may be inserted using the PES priority field of the header. Further, for example, the identification information may be inserted into the adaptation field of the TS packet having the adaptation field. In this case, for example, the identification information may be inserted by using the field of the ES priority indicator of the adaptation field. Also, for example, the identification information may be inserted into a box of a header related to a track of a corresponding picture.

このように本技術においては、ビデオデータをコンテナするパケットに、このビデオデータに含まれる各ピクチャの符号化画像データがそれぞれどの階層組に属するピクチャの符号化画像データであるかを識別する識別情報が挿入されるものである。そのため、受信側においては、この識別情報を利用することで、デコード能力に応じた所定階層以下の階層のピクチャの符号化画像データを選択的にデコードすることが容易に可能となる。   As described above, in the present technology, the packet that contains the video data includes, in the packet that contains the video data, the identification information that identifies the coded image data of the picture belonging to which hierarchical group. Is inserted. Therefore, on the receiving side, by using the identification information, it becomes easy to selectively decode the coded image data of the picture of the hierarchy of the predetermined hierarchy or less according to the decoding capability.

なお、本技術において、例えば、画像符号化部は、各階層のピクチャの符号化画像データを持つ単一のビデオストリームを生成するか、あるいは複数の階層を2以上の所定数の階層組に分割し、各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームを生成し、コンテナのレイヤに、このコンテナに含まれるビデオストリームの構成情報を挿入する構成情報挿入部をさらに備える、ようにされてもよい。この場合、例えば、受信側では、コンテナに含まれるビデオストリームの構成情報に基づいて、ビデオストリームの構成を容易に把握可能となる。   In the present technology, for example, the image encoding unit generates a single video stream having encoded image data of pictures of each layer, or divides a plurality of layers into two or more predetermined number of layer sets. A configuration information insertion unit configured to generate a predetermined number of video streams each having encoded image data of a picture of each hierarchical set, and to insert configuration information of a video stream included in the container into a layer of the container, It may be done as follows. In this case, for example, the receiving side can easily grasp the configuration of the video stream based on the configuration information of the video stream included in the container.

また、本技術の他の概念は、
動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されることで得られた各階層のピクチャの符号化画像データを持つビデオデータを含む所定フォーマットのコンテナを受信する受信部と、
上記受信されたコンテナに含まれる上記ビデオストリームからデコード能力に応じた所定階層以下の階層のピクチャの符号化画像データを選択的にバッファに取り込み、該バッファに取り込まれた各ピクチャの符号化画像データをデコードして、上記所定階層以下の階層のピクチャの画像データを得る画像復号化部を備える
受信装置にある。
Another concept of the present technology is
Receives a container of a predetermined format including video data having coded image data of a picture of each layer obtained by classifying and coding the image data of each picture constituting the moving image data into a plurality of layers. A receiving unit,
From the video stream included in the received container, coded image data of a picture of a layer lower than a predetermined layer corresponding to the decoding capability is selectively captured into a buffer, and the coded image data of each picture captured by the buffer is captured. And a receiving device including an image decoding unit that obtains image data of a picture of a layer lower than the predetermined layer.

本技術において、受信部により、所定フォーマットのコンテナが受信される。このコンテナには、動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されることで得られた各階層のピクチャの画像データを持つビデオデータが含まれている。   In the present technology, the receiving unit receives a container of a predetermined format. This container includes video data having image data of pictures of each layer obtained by classifying and encoding image data of each picture constituting moving image data into a plurality of layers.

画像復号化部により、受信されたコンテナに含まれるビデオデータからデコード能力に応じた所定階層以下の階層のピクチャの符号化画像データが選択的にバッファに取り込まれ、このバッファに取り込まれた各ピクチャの符号化画像データがデコードされて、所定階層以下の階層のピクチャの画像データが得られる。   The image decoding unit selectively fetches coded image data of a picture of a layer lower than a predetermined layer according to the decoding capability from the video data included in the received container into a buffer, and stores each picture fetched into the buffer. Is decoded to obtain image data of a picture of a layer lower than a predetermined layer.

例えば、複数の階層は2以上の所定数の階層組に分割され、ビデオデータをコンテナするパケットに、このビデオデータに含まれる各ピクチャの符号化画像データがそれぞれどの階層組に属するピクチャの符号化画像データであるかを識別する識別情報が挿入されており、画像復号化部は、識別情報に基づいて、デコード能力に応じた所定階層組のピクチャの符号化画像データをバッファに取り込んでデコードする、ようにされてもよい。   For example, a plurality of hierarchies are divided into a predetermined number of hierarchic sets of two or more, and a packet that contains video data includes, Identification information for identifying whether the image data is image data is inserted, and based on the identification information, the image decoding unit fetches coded image data of a picture of a predetermined hierarchical set according to the decoding capability into a buffer and decodes the coded image data. And so on.

この場合、例えば、識別情報は、ペイロードにピクチャ毎の符号化画像データを含むPESパケットのヘッダに挿入されている、ようにされてもよい。また、この場合、例えば、識別情報は、アダプテーションフィールドを持つTSパケットの、このアダプテーションフィールドに挿入されている、ようにされてもよい。また、この場合、例えば、識別情報は、該当するピクチャのトラックに関連するヘッダのボックスに挿入されている、ようにされてもよい。   In this case, for example, the identification information may be inserted into the header of a PES packet that includes encoded image data for each picture in the payload. In this case, for example, the identification information may be inserted into the adaptation field of the TS packet having the adaptation field. In this case, for example, the identification information may be inserted in a box of a header related to the track of the corresponding picture.

また、例えば、複数の階層は2以上の所定数の階層組に分割され、受信されたコンテナには、所定数の階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームが含まれており、画像符号化部は、ストリーム識別情報に基づいて、デコード能力に応じた所定階層組のピクチャの符号化画像データをバッファに取り込んでデコードする、ようにされてもよい。このとき、例えば、画像復号化部は、所定階層組のピクチャの符号化画像データが複数のビデオストリームに含まれている場合、各ピクチャの符号化画像データをデコードタイミング情報に基づいて1つのストリームにしてバッファに取り込む、ようにされてもよい。   Also, for example, the plurality of layers are divided into two or more predetermined number of layer sets, and the received container includes a predetermined number of video streams each having encoded image data of pictures of the predetermined number of layer sets. In this case, the image encoding unit may be configured to fetch encoded image data of a picture of a predetermined hierarchical group according to the decoding capability into a buffer and decode the encoded image data based on the stream identification information. At this time, for example, when the coded image data of the picture of the predetermined hierarchical group is included in a plurality of video streams, the image decoding unit may convert the coded image data of each picture into one stream based on the decode timing information. In the buffer.

このように本技術においては、受信されたビデオデータからデコード能力に応じた所定階層以下の階層のピクチャの符号化画像データが選択的にバッファに取り込まれてデコードされるものである。そのため、デコード能力に応じた適切なデコード処理が可能となる。   As described above, in the present technology, the coded image data of the picture of the hierarchy lower than the predetermined hierarchy corresponding to the decoding capability is selectively taken into the buffer and decoded from the received video data. Therefore, appropriate decoding processing according to the decoding capability can be performed.

なお、本技術において、例えば、画像復号化部は、選択的にバッファに取り込まれる各ピクチャの符号化画像データのデコードタイムスタンプを書き換えて低階層ピクチャのデコード間隔を調整する機能を持つ、ようにされてもよい。この場合、デコード能力の低いデコーダでも無理のないデコード処理が可能となる。   Note that, in the present technology, for example, the image decoding unit has a function of adjusting a decoding interval of a low-layer picture by rewriting a decode time stamp of encoded image data of each picture selectively taken into a buffer. May be done. In this case, even a decoder having a low decoding ability can perform reasonable decoding processing.

また、本技術において、例えば、画像復号化部で得られる各ピクチャの画像データのフレームレートを表示能力に合わせるポスト処理部をさらに備える、ようにされてもよい。この場合、デコード能力が低い場合であっても、高表示能力にあったフレームレートの画像データを得ることが可能となる。   In addition, the present technology may further include, for example, a post-processing unit that adjusts a frame rate of image data of each picture obtained by an image decoding unit to display capability. In this case, even if the decoding capability is low, it is possible to obtain image data at a frame rate that is compatible with the high display capability.

本技術によれば、受信側においてデコード能力に応じた良好なデコード処理が可能となる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。   According to the present technology, it is possible to perform a good decoding process according to the decoding capability on the receiving side. Note that the effects described here are not necessarily limited, and may be any of the effects described in the present disclosure.

実施の形態としての送受信システムの構成例を示すブロック図である。FIG. 1 is a block diagram illustrating a configuration example of a transmission / reception system according to an embodiment. 送信装置の構成例を示すブロック図である。FIG. 3 is a block diagram illustrating a configuration example of a transmission device. エンコーダで行われる階層符号化の一例を示す図である。FIG. 3 is a diagram illustrating an example of hierarchical encoding performed by an encoder. NALユニットヘッダの構造例(Syntax)およびその構造例における主要なパラメータの内容(Semantics)を示す図である。It is a figure which shows the structural example (Syntax) of a NAL unit header, and the content (Semantics) of the main parameter in the structural example. HEVCによる各ピクチャの符号化画像データの構成を説明するための図である。FIG. 3 is a diagram for describing a configuration of encoded image data of each picture according to HEVC. 階層符号化の際のエンコード、デコード、表示順序と遅延の一例を示す図である。FIG. 9 is a diagram illustrating an example of encoding, decoding, display order, and delay in hierarchical encoding. 階層符号化の符号化ストリームと、指定階層における表示期待(表示順)を示す図である。It is a figure which shows the encoding stream of hierarchical encoding, and the display expectation (display order) in a designated hierarchy. HEVCデスクリプタ(HEVC_descriptor)の構造例(Syntax)を示す図である。It is a figure showing the example of structure (Syntax) of HEVC descriptor (HEVC_descriptor). HEVCデスクリプタの構造例における主要な情報の内容(Semantics)を示す図である。It is a figure which shows the content (Semantics) of the main information in the structural example of a HEVC descriptor. スケーラビリティ・エクステンション・デスクリプタ(scalability_extension_descriptor)の構造例(Syntax)を示す図である。It is a figure which shows the example of a structure (Syntax) of a scalability extension descriptor (scalability_extension_descriptor). スケーラビリティ・エクステンション・デスクリプタの構造例における主要な情報の内容(Semantics)を示す図である。It is a figure which shows the content (Semantics) of the main information in the example of a structure of a scalability extension descriptor. マルチプレクサの構成例を示すブロック図である。FIG. 3 is a block diagram illustrating a configuration example of a multiplexer. マルチプレクサの処理フローの一例を示す図である。FIG. 7 is a diagram illustrating an example of a processing flow of a multiplexer. 単一ストリームによる配信を行う場合のトランスポートストリームTSの構成例を示す図である。[Fig. 3] Fig. 3 is a diagram illustrating a configuration example of a transport stream TS when distribution is performed by a single stream. 受信装置の構成例を示すブロック図である。It is a block diagram which shows the example of a structure of a receiver. デマルチプレクサの構成例を示すブロック図である。FIG. 3 is a block diagram illustrating a configuration example of a demultiplexer. トランスポートストリームTSに単一のビデオストリーム(符号化ストリーム)が含まれている場合を示す図である。FIG. 3 is a diagram illustrating a case where a single video stream (encoded stream) is included in a transport stream TS. トランスポートストリームTSにベースストリームと拡張ストリームの2つのビデオストリーム(符号化ストリーム)が含まれている場合を示す図である。FIG. 3 is a diagram illustrating a case where a transport stream TS includes two video streams (encoded streams) of a base stream and an extension stream. 各ピクチャの符号化画像データのデコードタイムスタンプを書き換えて低階層ピクチャのデコード間隔を調整する機能を説明するための図である。FIG. 7 is a diagram for explaining a function of adjusting a decoding interval of a lower hierarchical picture by rewriting a decoding time stamp of encoded image data of each picture. デマルチプレクサの処理フロー(1フレーム)の一例を示す図である。It is a figure showing an example of a processing flow (one frame) of a demultiplexer. デマルチプレクサの処理フロー(2フレーム)の一例を示す図である。It is a figure showing an example of a processing flow (two frames) of a demultiplexer. デコーダの構成例を示すブロック図である。FIG. 3 is a block diagram illustrating a configuration example of a decoder. ポスト処理部の構成例を示す図である。FIG. 3 is a diagram illustrating a configuration example of a post-processing unit. デコーダ、ポスト処理部の処理フローの一例を示す図である。FIG. 9 is a diagram illustrating an example of a processing flow of a decoder and a post-processing unit. アダプテーションフィールドの配置例を示す図である。FIG. 4 is a diagram illustrating an example of the arrangement of adaptation fields. 階層組の識別情報をアダプテーションフィールドに挿入する場合におけるマルチプレクサの構成例を示すブロック図である。FIG. 10 is a block diagram illustrating a configuration example of a multiplexer in a case where identification information of a hierarchical set is inserted into an adaptation field. 階層組の識別情報をアダプテーションフィールドに挿入する場合におけるトランスポートストリームTSの構成例を示す図である。It is a figure which shows the example of a structure of the transport stream TS at the time of inserting the identification information of a hierarchy set into an adaptation field. 階層組の識別情報をアダプテーションフィールドに挿入する場合におけるデマルチプレクサの構成例を示すブロック図である。FIG. 9 is a block diagram illustrating a configuration example of a demultiplexer in a case where identification information of a hierarchical set is inserted into an adaptation field. MP4ストリームの構成例を示す図である。FIG. 3 is a diagram illustrating a configuration example of an MP4 stream. 「SampleDependencyTypeBox」の構造例を示す図である。It is a figure showing the example of structure of “SampleDependencyTypeBox”. 「SampleDependencyTypeBox」の構造例おける主要な情報の内容を示す図である。It is a figure which shows the content of the main information in the structural example of "SampleDependencyTypeBox". 「SampleScalablePriorityBox」の構造例を示す図である。It is a figure showing the example of structure of “SampleScalablePriorityBox”. 「SampleScalablePriorityBox」の構造例おける主要な情報の内容を示す図である。It is a figure which shows the content of the main information in the structural example of "SampleScalablePriorityBox".

以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明は以下の順序で行う。
1.実施の形態
2.変形例
Hereinafter, embodiments for carrying out the invention (hereinafter, referred to as “embodiments”) will be described. The description will be made in the following order.
1. Embodiment 2. Modified example

<1.実施の形態>
[送受信システム]
図1は、実施の形態としての送受信システム10の構成例を示している。この送受信システム10は、送信装置100と、受信装置200とを有する構成となっている。
<1. Embodiment>
[Transmission and reception system]
FIG. 1 shows a configuration example of a transmission / reception system 10 as an embodiment. The transmission / reception system 10 has a configuration including a transmission device 100 and a reception device 200.

送信装置100は、コンテナとしてのトランスポートストリームTSを放送波に載せて送信する。このトランスポートストリームTSには、動画像データを構成する各ピクチャの画像データが複数の階層に分類され、各階層のピクチャの画像データの符号化データを持つビデオストリームが含まれる。この場合、例えば、H.264/AVC、HEVCなどの符号化が施され、被参照ピクチャが自己階層および/または自己階層よりも低い階層に所属するように符号化される。   The transmitting device 100 transmits a transport stream TS as a container on a broadcast wave. The transport stream TS includes a video stream in which the image data of each picture constituting the moving image data is classified into a plurality of layers, and has encoded data of the image data of the picture in each layer. In this case, for example, Encoding such as H.264 / AVC and HEVC is performed, and the referenced picture is encoded so as to belong to the own layer and / or a layer lower than the own layer.

各階層のピクチャの符号化画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報が付加される。この実施の形態においては、各ピクチャのNALユニット(nal_unit)のヘッダ部分に、階層識別情報(temporal_idを意味する“nuh_temporal_id_plus1”)が配置される。このように階層識別情報が付加されることで、受信側では、NALユニットのレイヤにおいて各ピクチャの階層識別が可能となり、所定階層以下の階層の符号化画像データを選択的に取り出してデコード処理を行うことができる。   Layer identification information for identifying the layer to which the layer belongs is added to the coded image data of the picture of each layer for each picture. In this embodiment, hierarchical identification information (“nuh_temporal_id_plus1” meaning temporal_id) is arranged in a header portion of a NAL unit (nal_unit) of each picture. By adding the layer identification information in this manner, the reception side can identify the layer of each picture in the layer of the NAL unit, and selectively extracts encoded image data of a layer lower than a predetermined layer to perform decoding processing. It can be carried out.

この実施の形態において、複数の階層は2以上の所定数の階層組に分割され、ビデオストリームのレイヤに、このビデオストリームが持つ各ピクチャの符号化画像データがそれぞれどの階層組に属するピクチャの符号化画像データであるかを識別する識別情報が挿入される。   In this embodiment, the plurality of hierarchies are divided into a predetermined number of hierarchies of two or more, and the coded image data of each picture in Identification information for identifying whether the data is coded image data is inserted.

この実施の形態において、この識別情報は、低階層側の階層組ほど高く設定される優先度情報とされ、ペイロードにピクチャ毎の符号化画像データを含むPESパケットのヘッダに挿入される。この識別情報により、受信側では、自身のデコード能力に応じた階層組のピクチャの符号化画像データのみをバッファに取り込んで処理することが可能となる。   In this embodiment, this identification information is set as priority information that is set higher for a lower layer group, and is inserted into the header of a PES packet that includes encoded image data for each picture in the payload. With this identification information, it becomes possible for the receiving side to take in only the coded image data of the picture of the hierarchical group according to its own decoding capability into the buffer and process it.

トランスポートストリームTSには、各階層のピクチャの符号化画像データを持つ単一のビデオストリーム、あるいは上述の各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームが含まれる。このトランスポートストリームTSには、階層符号化の階層情報と、ビデオストリームの構成情報が挿入される。この情報により、受信側では、階層構成やストリーム構成を容易に把握でき、適切なデコード処理を行うことが可能となる。   The transport stream TS includes a single video stream having coded image data of pictures of each layer or a predetermined number of video streams each having coded image data of pictures of each layer set. In this transport stream TS, layer information of layer coding and configuration information of a video stream are inserted. With this information, the receiving side can easily grasp the hierarchical configuration and the stream configuration, and perform appropriate decoding processing.

受信装置200は、送信装置100から放送波に載せて送られてくる上述のトランスポートストリームTSを受信する。受信装置200は、このトランスポートストリームTSに含まれるビデオストリームからデコード能力に応じて選択された所定階層以下の階層のピクチャの符号化画像データを選択的にバッファに取り込んでデコードし、各ピクチャの画像データを取得して、画像再生を行う。   The receiving device 200 receives the above-described transport stream TS transmitted from the transmitting device 100 on a broadcast wave. The receiving device 200 selectively fetches coded image data of a picture of a layer lower than a predetermined layer selected according to the decoding capability from the video stream included in the transport stream TS into a buffer and decodes the coded image data. The image data is acquired and the image is reproduced.

例えば、上述したように、トランスポートストリームTSに、複数の階層のピクチャの符号化画像データを持つ単一のビデオストリームが含まれている場合がある。その場合、上述の識別情報に基づいて、デコード能力に応じた所定階層組のピクチャの符号化画像データがバッファに取り込まれて処理される。   For example, as described above, the transport stream TS may include a single video stream having coded image data of pictures of a plurality of layers. In this case, based on the identification information described above, the coded image data of the picture of the predetermined hierarchical group corresponding to the decoding capability is fetched into the buffer and processed.

また、例えば、上述したように、トランスポートストリームTSに、複数の階層が分割されて得られた2以上の所定数の階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームが含まれている場合がある。その場合、ストリーム識別情報に基づいて、デコード能力に応じた所定階層組のピクチャの符号化画像データがバッファに取り込まれて処理される。   Also, for example, as described above, the transport stream TS includes a predetermined number of video streams each having encoded image data of a picture of a predetermined number of two or more layers obtained by dividing a plurality of layers. May have been In this case, based on the stream identification information, the coded image data of the picture of the predetermined hierarchical group according to the decoding capability is fetched into the buffer and processed.

また、受信装置200は、選択的にバッファに取り込まれる各ピクチャの符号化画像データのデコードタイムスタンプを書き換えて低階層ピクチャのデコード間隔を調整する処理を行う。この調整処理により、デコード能力の低いデコーダでも無理のないデコード処理が可能となる。   In addition, the receiving apparatus 200 performs a process of adjusting the decoding interval of the lower hierarchical picture by rewriting the decode time stamp of the encoded image data of each picture selectively taken into the buffer. With this adjustment process, a reasonable decoding process can be performed even with a decoder having a low decoding capability.

また、受信装置200は、上述のようにデコードして得られた各ピクチャの画像データのフレームレートを表示能力に合わせるポスト処理を行う。このポスト処理により、例えば、デコード能力が低い場合であっても、高表示能力にあったフレームレートの画像データを得ることが可能となる。   Further, the receiving apparatus 200 performs post processing for adjusting the frame rate of the image data of each picture obtained by decoding as described above to the display capability. By this post-processing, for example, even when the decoding capability is low, it is possible to obtain image data at a frame rate that is compatible with high display capability.

「送信装置の構成」
図2は、送信装置100の構成例を示している。この送信装置100は、CPU(Central Processing Unit)101と、エンコーダ102と、圧縮データバッファ(cpb:coded picture buffer)103と、マルチプレクサ104と、送信部105を有している。CPU101は、制御部であり、送信装置100の各部の動作を制御する。
"Configuration of Transmitter"
FIG. 2 shows a configuration example of the transmission device 100. The transmission device 100 includes a CPU (Central Processing Unit) 101, an encoder 102, a compressed data buffer (cpb: coded picture buffer) 103, a multiplexer 104, and a transmission unit 105. The CPU 101 is a control unit, and controls the operation of each unit of the transmission device 100.

エンコーダ102は、非圧縮の動画像データを入力して、階層符号化を行う。エンコーダ102は、この動画像データを構成する各ピクチャの画像データを複数の階層に分類する。そして、エンコーダ102は、この分類された各階層のピクチャの画像データを符号化し、各階層のピクチャの符号化画像データを持つビデオストリームを生成する。エンコーダ102は、例えば、H.264/AVC、HEVCなどの符号化を行う。この際、エンコーダ102は、参照するピクチャ(被参照ピクチャ)が、自己階層および/または自己階層よりも下位の階層に所属するように、符号化する。   The encoder 102 inputs uncompressed moving image data and performs hierarchical coding. The encoder 102 classifies the image data of each picture constituting the moving image data into a plurality of layers. Then, the encoder 102 encodes the classified image data of the picture of each layer, and generates a video stream having the encoded image data of the picture of each layer. The encoder 102 is, for example, an H.264 encoder. Encoding such as H.264 / AVC and HEVC is performed. At this time, the encoder 102 performs encoding such that the picture to be referred to (the referenced picture) belongs to the own layer and / or a layer lower than the own layer.

図3は、エンコーダ102で行われる階層符号化の一例を示している。この例は、0から4までの5階層に分類され、各階層のピクチャの画像データに対して、例えばHEVCの符号化が施された例である。   FIG. 3 shows an example of hierarchical coding performed by the encoder 102. This example is an example in which image data of pictures of each layer is classified into five layers from 0 to 4, and for example, HEVC encoding is performed.

縦軸は階層を示している。階層0から4のピクチャの符号化画像データを構成するNALユニット(nal_unit)のヘッダ部分に配置されるtemporal_id(階層識別情報)として、それぞれ、0から4が設定される。一方、横軸は表示順(POC:picture order of composition)を示し、左側は表示時刻が前で、右側は表示時刻が後になる。   The vertical axis indicates the hierarchy. 0 to 4 are set as temporal_id (hierarchy identification information) arranged in the header portion of the NAL unit (nal_unit) constituting the coded image data of the pictures of layers 0 to 4, respectively. On the other hand, the horizontal axis indicates the display order (POC: picture order of composition), with the display time on the left being earlier and the display time on the right being later.

図4(a)は、NALユニットヘッダの構造例(Syntax)を示し、図4(b)は、その構造例における主要なパラメータの内容(Semantics)を示している。「Forbidden_zero_bit」の1ビットフィールドは、0が必須である。「Nal_unit_type」の6ビットフィールドは、NALユニットタイプを示す。「Nuh_layer_id」の6ビットフィールドは、0を前提とする。「Nuh_temporal_id_plus1」の3ビットフィールドは、temporal_idを示し、1を加えた値(1〜7)をとる。   FIG. 4A shows a structural example (Syntax) of the NAL unit header, and FIG. 4B shows contents (Semantics) of main parameters in the structural example. In the 1-bit field of “Forbidden_zero_bit”, 0 is essential. A 6-bit field of “Nal_unit_type” indicates a NAL unit type. It is assumed that the 6-bit field of “Nuh_layer_id” is 0. The 3-bit field of “Nuh_temporal_id_plus1” indicates the temporal_id, and takes a value (1 to 7) obtained by adding “1”.

図3に戻って、矩形枠のそれぞれがピクチャを示し、数字は、符号化されているピクチャの順、つまりエンコード順(受信側ではデコード順)を示している。「1」から「17」(「2」を除く)の16個のピクチャによりサブ・ピクチャグループ(Sub group of pictures)を構成しており、「1」はそのサブ・ピクチャグループの先頭ピクチャである。「2」は、次のサブ・ピクチャグループの先頭ピクチャとなる。あるいは、「1」を除いて、「2」から「17」までの16個のピクチャによりサブ・ピクチャグループを構成しており、「2」はそのサブ・ピクチャグループの先頭のピクチャとなる。   Returning to FIG. 3, each of the rectangular frames indicates a picture, and the numbers indicate the order of encoded pictures, that is, the encoding order (decoding order on the receiving side). A sub picture group (Sub group of pictures) is composed of 16 pictures from "1" to "17" (excluding "2"), and "1" is the first picture of the sub picture group. . “2” is the first picture of the next sub-picture group. Alternatively, a sub-picture group is composed of 16 pictures from "2" to "17" except for "1", and "2" is the first picture of the sub-picture group.

「1」のピクチャは、GOP(Group Of Pictures)の先頭のピクチャとなり得る。GOPの先頭ピクチャの符号化画像データは、図5に示すように、AUD、VPS、SPS、PPS、PSEI、SLICE、SSEI、EOSのNALユニットにより構成される。一方、GOPの先頭ピクチャ以外のピクチャは、AUD、PPS、PSEI、SLICE、SSEI、EOSのNALユニットにより構成される。VPSはSPSと共に、シーケンス(GOP)に一度、PPSはマイピクチャで伝送可能とされている。   The picture “1” can be the first picture of a GOP (Group Of Pictures). As shown in FIG. 5, the coded image data of the first picture of the GOP is composed of NAL units of AUD, VPS, SPS, PPS, PSEI, SLICE, SSEI, and EOS. On the other hand, pictures other than the first picture of the GOP are constituted by NAL units of AUD, PPS, PSEI, SLICE, SSEI, and EOS. The VPS can be transmitted once in a sequence (GOP) together with the SPS, and the PPS can be transmitted in My Picture.

図3に戻って、実線矢印は、符号化におけるピクチャの参照関係を示している。例えば、「1」のピクチャは、Iピクチャであり、他のピクチャを参照しない。「2」のピクチャは、Pピクチャであり、「1」のピクチャを参照して符号化される。また、「3」のピクチャは、Bピクチャであり、「1」、「3」のピクチャを参照して符号化される。以下、同様、その他のピクチャは、表示順で近くのピクチャを参照して符号化される。なお、階層4のピクチャは、他のピクチャからの参照がない。   Returning to FIG. 3, the solid arrow indicates the reference relationship of pictures in encoding. For example, the picture “1” is an I picture and does not refer to other pictures. The picture “2” is a P picture and is encoded with reference to the picture “1”. The picture “3” is a B picture, and is encoded with reference to the pictures “1” and “3”. Hereinafter, similarly, other pictures are coded with reference to a nearby picture in display order. It should be noted that the picture of layer 4 has no reference from other pictures.

エンコーダ102は、各階層のピクチャの符号化画像データを持つ単一のビデオストリーム(シングルストリーム)を生成するか、あるいは、複数の階層を2以上の所定数の階層組に分割し、各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリーム(マルチストリーム)を生成する。例えば、図3の階層符号化の例において、階層0から3を低階層の階層組とし、階層4を高階層の階層組として2つの階層組に分割されるとき、エンコーダ102は、各階層組のピクチャの符号化画像データをそれぞれ持つ2つのビデオストリーム(符号化ストリーム)を生成する。   The encoder 102 generates a single video stream (single stream) having coded image data of pictures of each layer, or divides a plurality of layers into two or more predetermined number of layer sets, and A predetermined number of video streams (multi-streams) each having the coded image data of the picture are generated. For example, in the example of the layer coding in FIG. 3, when the layers 0 to 3 are divided into two layer sets with a layer set of a lower layer and a layer 4 as a layer set of a higher layer, the encoder 102 , Two video streams (coded streams) each having the coded image data of the picture No. are generated.

エンコーダ102は、生成するビデオストリームの数によらず、上述したように、複数の階層を2以上の所定数の階層組に分割し、各階層組のピクチャの符号化画像データに、所属階層組を識別するための識別情報を付加する。この場合、例えば、識別情報として、SPSに含まれるビットストリームのレベル指定値である「general_level_idc」が利用され、高階層側の階層組ほど高い値とされる。なお、サブレイヤ(sublayer)毎に「sub_layer_level_idc」をSPSで送ることができるので、識別情報として、この「sub_layer_level_idc」を用いてもよい。以上はSPSだけでなくVPSにおいても供給される。   The encoder 102 divides the plurality of layers into two or more predetermined number of layer sets as described above regardless of the number of video streams to be generated, and assigns the coded image data of the picture of each layer set to Is added. In this case, for example, “general_level_idc”, which is the level designation value of the bit stream included in the SPS, is used as the identification information, and the higher the layer set on the higher layer side, the higher the value. Since “sub_layer_level_idc” can be transmitted by SPS for each sublayer (sublayer), this “sub_layer_level_idc” may be used as identification information. The above is supplied not only in the SPS but also in the VPS.

この場合、各階層組のレベル指定値の値は、この階層組のピクチャと、この階層組より低階層側の全ての階層組のピクチャとからなるフレームレートに対応した値とされる。例えば、図3の階層符号化の例において、階層0から3の階層組のレベル指定値は、階層0から3のピクチャのみからなるフレームレートに対応した値とされ、階層4の階層組のレベル指定値は、階層0から4の全ての階層のピクチャからなるフレームレートに対応した値とされる。   In this case, the value of the level designation value of each layer set is a value corresponding to the frame rate composed of the pictures of this layer set and the pictures of all layer sets lower than this layer set. For example, in the example of the layer coding of FIG. 3, the level designation value of the layer set of layers 0 to 3 is a value corresponding to the frame rate including only the pictures of layers 0 to 3, and the level of the layer set of layer 4 is The specified value is a value corresponding to a frame rate composed of pictures of all the layers 0 to 4.

図6は、階層符号化の際のエンコード、デコード、表示順序と遅延の一例を示している。この例は、上述の図3の階層符号化例に対応している。この例は、全階層(全レイヤ)を、フル時間解像度で階層符号化する場合を示している。図6(a)はエンコーダ入力を示す。図6(b)に示すように、16ピクチャ分の遅延をもって、各ピクチャがエンコード順にエンコードされて、符号化ストリームが得られる。また、図6(b)はデコーダ入力を示し、各ピクチャがデコード順にデコードされる。そして、図6(c)に示すように、4ピクチャの遅延をもって、各ピクチャの画像データが表示順に得られる。   FIG. 6 shows an example of encoding, decoding, display order and delay in hierarchical encoding. This example corresponds to the hierarchical coding example of FIG. 3 described above. This example shows a case in which all layers (all layers) are hierarchically encoded at full time resolution. FIG. 6A shows an encoder input. As shown in FIG. 6B, each picture is encoded in the encoding order with a delay of 16 pictures, and an encoded stream is obtained. FIG. 6B shows a decoder input, in which each picture is decoded in decoding order. Then, as shown in FIG. 6C, the image data of each picture is obtained in the display order with a delay of 4 pictures.

図7(a)は、上述の図6(b)に示す符号化ストリームと同様の符号化ストリームを、階層0から2、階層3、階層4の3段階に分けて示している。ここで、「Tid」は、temporal_idを示している。図7(b)は、階層0から2、つまりTid=0〜2の部分階層の各ピクチャを選択的にデコードする場合の表示期待(表示順)を示している。また、図7(c)は、階層0から3、つまりTid=0〜3の部分階層の各ピクチャを選択的にデコードする場合の表示期待(表示順)を示している。さらに、図7(d)は、階層0から4、つまりTid=0〜4の全階層の各ピクチャを選択的にデコードする場合の表示期待(表示順)を示している。   FIG. 7A shows an encoded stream similar to the encoded stream shown in FIG. 6B described above, divided into three stages of layers 0 to 2, layer 3, and layer 4. Here, “Tid” indicates temporal_id. FIG. 7B shows a display expectation (display order) in a case where each picture of the sub-layers of layers 0 to 2, ie, Tid = 0 to 2, is selectively decoded. FIG. 7C shows the display expectation (display order) in the case where each picture in the sub-layers of layers 0 to 3, ie, Tid = 0 to 3, is selectively decoded. Further, FIG. 7D shows a display expectation (display order) in the case where each picture of the layers 0 to 4, that is, all the layers of Tid = 0 to 4 is selectively decoded.

図7(a)の符号化ストリームをデコード能力別にデコード処理するには、時間解像度がフルレートのデコード能力が必要となる。しかし、Tid=0〜2のデコードを行う場合、符号化されたフルの時間解像度に対して、1/4のデコード能力をもつデコーダが処理可能とすべきである。また、Tid=0〜3のデコードを行う場合、符号化されたフルの時間解像度に対して、1/2のデコード能力をもつデコーダが処理可能とすべきである。   To decode the encoded stream of FIG. 7A according to the decoding capability, a decoding capability with a full-rate time resolution is required. However, in the case of performing decoding of Tid = 0 to 2, a decoder having a decoding capability of 1/4 with respect to the encoded full time resolution should be able to process. Further, when decoding Tid = 0 to 3, a decoder having a decoding capability of 1/2 should be able to process the encoded full time resolution.

しかし、階層符号化において参照される低階層に属するピクチャが連続し、それらが時間解像度でフルなタイミングで符号化されると、部分デコードするデコーダの能力が追い付かないことになる。図7(a)のAの期間がそれに該当する。Tid=0〜2、あるいはTid=0〜3の部分的な階層をデコードするデコーダは、表示の例で示すような、時間軸が1/4あるいは1/2の能力でデコード・表示を行うため、Aの期間符号化された時間解像度がフルで連続するピクチャのデコードはできない。   However, if the pictures belonging to the lower layer referred to in the layer coding are continuous and are coded at the full timing with the time resolution, the ability of the decoder to partially decode cannot catch up. The period A in FIG. 7A corresponds to this. A decoder that decodes a partial hierarchy of Tid = 0 to 2 or Tid = 0 to 3 performs decoding and display with a time axis of 1/4 or 1/2 as shown in the display example. , A, cannot decode continuous pictures coded in full time resolution.

TaはTid=0〜2をデコードするデコーダにおけるピクチャ毎のデコード処理に要する時間を示す。TbはTid=0〜3をデコードするデコーダにおけるピクチャ毎のデコード処理に要する時間を示す。TcはTid=0〜4(全階層)をデコードするデコーダにおけるピクチャ毎のデコード処理に要する時間を示す。これらの各時間の関係は、Ta>Tb>Tcとなる。   Ta indicates the time required for the decoding process for each picture in the decoder that decodes Tid = 0 to 2. Tb indicates a time required for a decoding process for each picture in a decoder that decodes Tid = 0 to 3. Tc indicates a time required for a decoding process for each picture in a decoder that decodes Tid = 0 to 4 (all layers). The relationship between these times is Ta> Tb> Tc.

この実施の形態においては、後述するように、受信装置200は、デコード能力が低いデコーダを持ち、低階層ピクチャのデコードを選択的に行う場合、デコードタイムスタン(DTS:decoding Time stamp)を書き換えて低階層ピクチャのデコード間隔を調整する機能を持つようにされる。これにより、デコード能力の低いデコーダでも、無理のないデコード処理が可能となる。   In this embodiment, as will be described later, the receiving apparatus 200 has a decoder with a low decoding capability and, when selectively decoding a low-level picture, rewrites a decoding time stamp (DTS). It has a function of adjusting a decoding interval of a low-layer picture. As a result, even a decoder having a low decoding ability can perform a reasonable decoding process.

図2に戻って、圧縮データバッファ(cpb)103は、エンコーダ102で生成された、各階層のピクチャの符号化データを含むビデオストリームを、一時的に蓄積する。マルチプレクサ104は、圧縮データバッファ103に蓄積されているビデオストリームを読み出し、PESパケット化し、さらにトランスポートパケット化して多重し、多重化ストリームとしてのトランスポートストリームTSを得る。   Returning to FIG. 2, the compressed data buffer (cpb) 103 temporarily stores the video stream including the encoded data of the picture of each layer generated by the encoder 102. The multiplexer 104 reads the video stream stored in the compressed data buffer 103, converts the video stream into PES packets, and further multiplexes the packets into transport packets to obtain a transport stream TS as a multiplexed stream.

この実施の形態においては、上述したように、複数の階層は2以上の所定数の階層組に分割される。マルチプレクサ104は、PESパケットのヘッダ(PESヘッダ)に、ビデオストリームが持つ各ピクチャの符号化画像データがそれぞれどの階層組に属するピクチャの符号化画像データであるかを識別する識別情報を挿入する。この識別情報により、受信側では、自身のデコード能力に応じた階層組のピクチャの符号化画像データのみをバッファに取り込んで処理することが可能となる。   In this embodiment, as described above, the plurality of hierarchies are divided into two or more predetermined number of hierarchies. The multiplexer 104 inserts, into the header (PES header) of the PES packet, identification information for identifying the coded image data of each picture included in the video stream as the coded image data of the picture belonging to which hierarchical group. With this identification information, it becomes possible for the receiving side to take in only the coded image data of the picture of the hierarchical group according to its own decoding capability into the buffer and process it.

マルチプレクサ104は、例えば、複数の階層を低階層組と高階層組に二分する場合、PESヘッダに存在する、周知のPESプライオリティ(PES_priority)の1ビットフィールドを利用する。この1ビットフィールドは、PESペイロードに低階層側の階層組のピクチャの符号化画像データを含む場合は“1”、つまり優先度が高く設定される。一方、この1ビットフィールドは、PESペイロードに高階層側の階層組のピクチャの符号化画像データを含む場合は“0”、つまり優先度が低く設定される。   For example, when dividing a plurality of layers into a lower layer set and a higher layer set, the multiplexer 104 uses a well-known 1-bit field of PES priority (PES_priority) present in the PES header. This one-bit field is set to “1” when the PES payload includes the coded image data of the picture of the lower layer set, that is, the priority is set higher. On the other hand, this 1-bit field is set to “0” when the PES payload includes the coded image data of the picture in the higher layer group, that is, the priority is set lower.

トランスポートストリームTSには、上述したように、各階層のピクチャの符号化画像データを持つ単一のビデオストリーム、あるいは上述の各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームが含まれる。マルチプレクサ104は、トランスポートストリームTSに、階層情報、ストリーム構成情報を挿入する。   As described above, the transport stream TS includes a single video stream having coded image data of pictures of each layer, or a predetermined number of video streams each having coded image data of pictures of each layer set described above. Is included. The multiplexer 104 inserts layer information and stream configuration information into the transport stream TS.

トランスポートストリームTSには、PSI(Program Specific Information)の一つとして、PMT(Program Map Table)が含まれている。このPMTには、各ビデオストリームに関連した情報を持つビデオエレメンタリ・ループ(video ES1 loop)が存在する。このビデオエレメンタリ・ループには、各ビデオストリームに対応して、ストリームタイプ、パケット識別子(PID)等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。   The transport stream TS includes a PMT (Program Map Table) as one of PSI (Program Specific Information). The PMT includes a video elementary loop (video ES1 loop) having information related to each video stream. In the video elementary loop, information such as a stream type and a packet identifier (PID) is arranged corresponding to each video stream, and a descriptor describing information related to the video stream is arranged.

マルチプレクサ104は、このデスクリプタの一つとして、HEVCデスクリプタ(HEVC_descriptor)を挿入し、さらに、新たに定義するスケーラビリティ・エクステンション・デスクリプタ(scalability_extension_descriptor)を挿入する。   The multiplexer 104 inserts an HEVC descriptor (HEVC_descriptor) as one of the descriptors, and further inserts a newly defined scalability extension descriptor (scalability_extension_descriptor).

図8は、HEVCデスクリプタ(HEVC_descriptor)の構造例(Syntax)を示している。また、図9は、その構造例における主要な情報の内容(Semantics)を示している。   FIG. 8 illustrates a structural example (Syntax) of the HEVC descriptor (HEVC_descriptor). FIG. 9 shows the content (Semantics) of the main information in the structural example.

「descriptor_tag」の8ビットフィールドは、デスクリプタタイプを示し、ここでは、HEVCデスクリプタであることを示す。「descriptor_length」の8ビットフィールドは、デスクリプタの長さ(サイズ)を示し、デスクリプタの長さとして、以降のバイト数を示す。   An 8-bit field of “descriptor_tag” indicates a descriptor type, and here indicates that it is a HEVC descriptor. The 8-bit field of “descriptor_length” indicates the length (size) of the descriptor, and indicates the number of subsequent bytes as the length of the descriptor.

「level_idc」の8ビットフィールドは、ビットレートのレベル指定値を示す。また、「temporal_layer_subset_flag = 1」であるとき、「temporal_id_min」の5ビットフィールドと、「temporal_id_max」の5ビットフィールドが存在する。「temporal_id_min」は、対応するビデオストリームに含まれる階層符号化データの最も低い階層のtemporal_idの値を示す。「temporal_id_max」は、対応するビデオストリームが持つ階層符号化データの最も高い階層のtemporal_idの値を示す。   An 8-bit field of “level_idc” indicates a level designation value of the bit rate. When “temporal_layer_subset_flag = 1”, there is a 5-bit field of “temporal_id_min” and a 5-bit field of “temporal_id_max”. “Temporal_id_min” indicates the value of temporal_id of the lowest layer of the layer coded data included in the corresponding video stream. “Temporal_id_max” indicates the value of temporal_id of the highest layer of the layer encoded data of the corresponding video stream.

「level_constrained_flag」の1ビットフィールドは、新たに定義するものであり、VPSのNALユニットに含まれるビットストリームのレベル指定値(general_level_idc)がピクチャ毎に変わり得ることを示す。“1”は変わり得ることを示し、“0”は変わらないことを示す。   The 1-bit field of “level_constrained_flag” is newly defined, and indicates that the level specification value (general_level_idc) of the bit stream included in the NAL unit of the VPS can change for each picture. “1” indicates that it can change, and “0” indicates that it does not change.

上述したように、例えば、“general_level_idc”は、複数の階層を2以上の所定数の階層組に分割した際の所属階層組の識別情報として利用される。そのため、複数の階層組のピクチャの符号化画像データを持つビデオストリームの場合、“general_level_idc”がピクチャ毎に変わり得ることになる。一方、単一の階層組のピクチャの符号化画像データを持つビデオストリームの場合は、“general_level_idc”がピクチャ毎に変わるということはない。あるいは、sublayerごとに“sublayer_level_idc”が付され、デコーダはデコード可能な範囲のtemporal_idのパケットを読むことによって、対応する階層のデータを処理する。   As described above, for example, “general_level_idc” is used as identification information of a belonging layer set when a plurality of layers are divided into two or more predetermined number of layer sets. Therefore, in the case of a video stream having coded image data of pictures of a plurality of hierarchical sets, “general_level_idc” can change for each picture. On the other hand, in the case of a video stream having coded image data of pictures of a single hierarchical group, “general_level_idc” does not change for each picture. Alternatively, “sublayer_level_idc” is added to each sublayer, and the decoder processes the data of the corresponding layer by reading the packets of temporal_id within the range that can be decoded.

「scalability_id」の3ビットフィールドは、新たに定義するものであり、複数のビデオストリームがスケーラブルなサービスを供給する際、個々のストリームに付されるスケーラビリティを示すIDである。“0”はベースストリームを示し、“1”〜“7”はベースストリームからのスケーラビリティの度合いによって増加するIDである。   The 3-bit field of “scalability_id” is newly defined, and is an ID indicating scalability assigned to each stream when a plurality of video streams provide a scalable service. “0” indicates a base stream, and “1” to “7” are IDs that increase according to the degree of scalability from the base stream.

図10は、スケーラビリティ・エクステンション・デスクリプタ(scalability_extension_descriptor)の構造例(Syntax)を示している。また、図11は、その構造例における主要な情報の内容(Semantics)を示している。   FIG. 10 illustrates a structural example (Syntax) of the scalability extension descriptor (scalability_extension_descriptor). FIG. 11 shows the content (Semantics) of main information in the structural example.

「scalability_extension_descriptor_tag」の8ビットフィールドは、デスクリプタタイプを示し、ここでは、スケーラビリティ・エクステンション・デスクリプタであることを示す。「scalability_extension_descriptor_length」の8ビットフィールドは、デスクリプタの長さ(サイズ)を示し、デスクリプタの長さとして、以降のバイト数を示す。「extension_stream_existing_flag」の1ビットフィールドは、別ストリームによる拡張サービスがあることを示すフラグである。“1”は拡張ストリームがあることを示し、“0”は拡張ストリームがないことを示す。   An 8-bit field of “scalability_extension_descriptor_tag” indicates a descriptor type, and here indicates that it is a scalability extension descriptor. An 8-bit field of “scalability_extension_descriptor_length” indicates the length (size) of the descriptor, and indicates the number of subsequent bytes as the length of the descriptor. The 1-bit field of “extension_stream_existing_flag” is a flag indicating that there is an extended service by another stream. “1” indicates that there is an extension stream, and “0” indicates that there is no extension stream.

「extension_type」の3ビットフィールドは、拡張のタイプを示す。“001”は、拡張が、時間方向スケーラブルであることを示す。“010”は、拡張が、空間方向スケーラブルであることを示す。“011”は、拡張が、ビットレートスケーラブルであることを示す。   A 3-bit field of “extension_type” indicates an extension type. “001” indicates that the extension is scalable in the time direction. “010” indicates that the extension is spatially scalable. “011” indicates that the extension is bit rate scalable.

「number_of_streams」の4ビットフィールドは、配信サービスに関与するストリームの総数を示す。「scalability_id」の3ビットフィールドは、複数のビデオストリームがスケーラブルなサービスを供給する際、個々のストリームに付されるスケーラビリティを示すIDである。“0”はベースストリームを示し、“1”〜“7”はベースストリームからのスケーラビリティの度合いによって増加するIDである。   The 4-bit field of “number_of_streams” indicates the total number of streams involved in the distribution service. The 3-bit field of “scalability_id” is an ID indicating scalability assigned to each stream when a plurality of video streams provide a scalable service. “0” indicates a base stream, and “1” to “7” are IDs that increase according to the degree of scalability from the base stream.

「number_of_layers」の3ビットフィールドは、当該ストリームの総階層数を示す。「sublayer_level_idcの8ビットフィールドは、temporal_idで示される該当サブレイヤが、それより下位のレイヤを含んで、デコーダが対応するlevel_idcの値を示す。「Number of layers」は、NALユニットヘッダ(NAL unit header)の「Nuh_temporal_id_plus1」のすべての値を包含するものであり、デマルチプレクサ(demuxer)がこれを検知することで、所定のlevel_idcに対応するデコーダがどの階層までデコードできるかを、「sublayer_level_idc」により事前に認識することが可能となる。   The 3-bit field of “number_of_layers” indicates the total number of layers of the stream. The “8-bit field of“ sublayer_level_idc ”indicates the level_idc value corresponding to the decoder, including the lower layer of the corresponding sublayer indicated by“ temporal_id. ”“ Number of layers ”indicates the NAL unit header. It includes all the values of “Nuh_temporal_id_plus1”, and by detecting this, the demultiplexer (demuxer) detects in advance which layer the decoder corresponding to the predetermined level_idc can decode by using “sublayer_level_idc”. It becomes possible to recognize.

上述したように、この実施の形態において、SPSに含まれるビットレートのレベル指定値(general_level_idc)などは、複数の階層を2以上の所定数の階層組に分割した際の所属階層組の識別情報として利用される。各階層組のレベル指定値の値は、この階層組のピクチャと、この階層組より低階層側の全ての階層組のピクチャとからなるフレームレートに対応した値とされる。   As described above, in this embodiment, the level designation value (general_level_idc) of the bit rate included in the SPS is the identification information of the belonging layer set when a plurality of layers are divided into two or more predetermined number of layer sets. Used as The value of the level designation value of each hierarchical set is a value corresponding to a frame rate composed of pictures of this hierarchical set and pictures of all hierarchical sets lower than this hierarchical set.

図12は、マルチプレクサ104の構成例を示している。PESプライオリティ発生部141と、セクションコーディング部142と、PESパケット化部143-1〜143-Nと、スイッチ部144と、トランスポートパケット化部145を有している。   FIG. 12 shows a configuration example of the multiplexer 104. It has a PES priority generation unit 141, a section coding unit 142, PES packetization units 143-1 to 143-N, a switch unit 144, and a transport packetization unit 145.

PESパケット化部143-1〜143-Nは、それぞれ、圧縮データバッファ103に蓄積されているビデオストリーム1〜Nを読み込み、PESパケットを生成する。この際、PESパケット化部143-1〜143-Nは、ビデオストリーム1〜NのHRD情報を元にDTS(Decoding Time Stamp)、PTS(Presentation Time Stamp)のタイムスタンプをPESヘッダに付与する、この場合、各ピクチャの「cpu_removal_delay」、「dpb_output_delay」が参照され、STC(System Time Clock)時刻に同期した精度で、各々DTS、PTSに変換され、PESヘッダの所定位置に配置される。   The PES packetizers 143-1 to 143-N read the video streams 1 to N stored in the compressed data buffer 103, respectively, and generate PES packets. At this time, the PES packetizers 143-1 to 143-N add DTS (Decoding Time Stamp) and PTS (Presentation Time Stamp) time stamps to the PES header based on the HRD information of the video streams 1 to N. In this case, the "cpu_removal_delay" and "dpb_output_delay" of each picture are referred to, converted into DTS and PTS, respectively, with an accuracy synchronized with the STC (System Time Clock) time, and arranged at a predetermined position in the PES header.

PESプライオリティ発生部141には、CPU101から、階層数(Number of layers)とストリーム数(Number of streams)の情報が供給される。PESプライオリティ発生部141は、階層数で示される複数の階層を2以上の所定数の階層組に分割した場合における、各階層組の優先度情報を発生する。例えば、2分割される場合には、PESパケットヘッダの「PES_priority」の1ビットフィールドに挿入すべき値(低階層組は“1”、高階層組は“0”)を発生する。   The PES priority generating unit 141 is supplied with information on the number of layers (Number of layers) and the number of streams (Number of streams) from the CPU 101. The PES priority generation unit 141 generates priority information of each layer set when a plurality of layers indicated by the number of layers are divided into two or more predetermined number of layer sets. For example, when the data is divided into two, a value to be inserted into the 1-bit field of “PES_priority” of the PES packet header (“1” for the lower layer set and “0” for the higher layer set) is generated.

PESプライオリティ発生部141で発生される各階層組の優先度情報は、PESパケット化部143-1〜143-Nに供給される。PESパケット化部143-1〜143-Nは、この各階層組の優先度を、その階層組のピクチャの符号化画像データを含むPESパケットのヘッダに識別情報として挿入する。   The priority information of each hierarchical set generated by the PES priority generation unit 141 is supplied to the PES packetization units 143-1 to 143-N. The PES packetizers 143-1 to 143-N insert the priority of each layer set as identification information into the header of the PES packet containing the coded image data of the picture of the layer set.

なお、このようにピクチャ毎にPESパケットのヘッダにそのピクチャが属する階層組の優先度をヘッダ情報として挿入する処理は、エンコーダ102で単一のビデオストリーム(シングルストリーム)が生成される場合に限ってもよい。この場合は、PESパケット化部143-1でのみ処理が行われることとなる。   Note that the process of inserting the priority of the hierarchical group to which the picture belongs into the header of the PES packet for each picture as the header information is limited to the case where the encoder 102 generates a single video stream (single stream). You may. In this case, the processing is performed only by the PES packetizing unit 143-1.

スイッチ部144は、PESパケット化部143-1〜143-Nで生成されたPESパケットを、パケット識別子(PID)に基づいて選択的に取り出し、トランスポートパケット化部145に送る。トランスポートパケット化部145は、PESパケットをペイロードに含むTSパケットを生成し、トランスポートストリームTSを得る。   The switch unit 144 selectively extracts the PES packets generated by the PES packetizing units 143-1 to 143-N based on the packet identifier (PID), and sends the packets to the transport packetizing unit 145. The transport packetizer 145 generates a TS packet including a PES packet in a payload, and obtains a transport stream TS.

セクションコーディング部142は、トランスポートストリームTSに挿入すべき各種のセクションデータを生成する。セクションコーディング部142には、CPU101から、階層数(Number of layers)と、ストリーム数(Number of streams)の情報が供給される。セクションコーディング部142は、この情報に基づいて、上述したHEVCデスクリプタ(HEVC_descriptor)、スケーラビリティ・エクステンション・デスクリプタ(scalability_extension_descriptor)を生成する。   The section coding unit 142 generates various section data to be inserted into the transport stream TS. The section coding unit 142 is supplied with information on the number of layers (Number of layers) and the number of streams (Number of streams) from the CPU 101. The section coding unit 142 generates the above-mentioned HEVC descriptor (HEVC_descriptor) and scalability extension descriptor (scalability_extension_descriptor) based on this information.

セクションコーディング部142は、各種セクションデータを、トランスポートパケット化部145に送る。トランスポートパケット化部145は、このセクションデータを含むTSパケットを生成し、トランスポートストリームTSに挿入する。   The section coding unit 142 sends various section data to the transport packetizing unit 145. The transport packetizing unit 145 generates a TS packet including the section data and inserts the generated TS packet into the transport stream TS.

図13は、マルチプレクサ104の処理フローを示す。この例は、複数の階層を低階層組と高階層組の2つに分割する例である。マルチプレクサ104は、ステップST1において、処理を開始し、その後に、ステップST2の処理に移る。このステップST2において、マルチプレクサ104は、ビデオストリーム(ビデオエレメンタリストリーム)の各ピクチャのtemporal_id_と、構成する符号化ストリーム数を設定する。   FIG. 13 shows a processing flow of the multiplexer 104. In this example, a plurality of hierarchies are divided into a lower hierarchy group and a higher hierarchy group. The multiplexer 104 starts the process in step ST1, and then proceeds to the process in step ST2. In step ST2, the multiplexer 104 sets the temporal_id_ of each picture of the video stream (video elementary stream) and the number of encoded streams to be configured.

次に、マルチプレクサ104は、ステップST3において、HRD情報(cpu_removal_delay、dpb_output_delay)を参照して、DTS、PTSを決め、PESヘッダの所定位置に挿入する。   Next, in step ST3, the multiplexer 104 refers to the HRD information (cpu_removal_delay, dpb_output_delay), determines DTS and PTS, and inserts the DTS and PTS at a predetermined position in the PES header.

次に、マルチプレクサ104は、ステップST4において、シングルストリーム(単一ビデオストリーム)か否かを判断する。シングルストリームであるとき、マルチプレクサ104は、ステップST5において、1つのPID(パケット識別子)で多重化処理を進めることとし、その後に、ステップST7の処理に移る。   Next, in step ST4, the multiplexer 104 determines whether or not the stream is a single stream (single video stream). If the stream is a single stream, the multiplexer 104 proceeds with the multiplexing process using one PID (packet identifier) in step ST5, and then proceeds to the process in step ST7.

このステップST7において、マルチプレクサ104は、ピクチャのそれぞれについて低階層組のピクチャ(スライス)であるか判断する。低階層組のピクチャであるとき、マルチプレクサ104は、ステップST8において、ペイロードにそのピクチャの符号化画像データを含むPESパケットのヘッダの「PES_priority」を“1”に設定する。一方、高階層組(非低階層組)のピクチャであるとき、マルチプレクサ104は、ステップST9において、ペイロードにそのピクチャの符号化画像データを含むPESパケットのヘッダの「PES_priority」を“0”に設定する。マルチプレクサ104は、ステップST8、ステップST9の処理の後、ステップST10の処理に移る。   In step ST7, the multiplexer 104 determines whether each of the pictures is a picture (slice) of a lower hierarchical set. If the picture belongs to a low hierarchical set, the multiplexer 104 sets “PES_priority” of the header of the PES packet including the encoded image data of the picture in the payload to “1” in step ST8. On the other hand, when the picture is a high-layer set (non-low-layer set), the multiplexer 104 sets “PES_priority” of the header of the PES packet including the coded image data of the picture in the payload to “0” in step ST9. I do. The multiplexer 104 proceeds to the processing of step ST10 after the processing of steps ST8 and ST9.

ここで、ピクチャ(picture)とスライス(slice)の関連付けについて説明する。ピクチャは、概念で、構造定義としてはスライスと同じである。1ピクチャは、複数のスライスに分けられるが、この複数のスライスがアクセスユニットとしては同じであることは、パラメータセット(parameter set)でわかるようになっている。   Here, the association between a picture and a slice will be described. A picture is a concept, and its structure is the same as a slice. One picture is divided into a plurality of slices, and the fact that the plurality of slices are the same as an access unit can be understood from a parameter set.

上述のステップST4でシングルストリームでないとき、マルチプレクサ104は、ステップST6において、複数のパケットPID(パケット識別子)で多重化処理を進めることとし、その後に、ステップST10の処理に移る。このステップST10において、マルチプレクサ104は、符号化ストリーム(ビデオエレメンタリストリーム)をPESペイロードに挿入してPESパケット化する。   If it is not a single stream in step ST4, the multiplexer 104 proceeds with the multiplexing process using a plurality of packets PIDs (packet identifiers) in step ST6, and then proceeds to the process in step ST10. In this step ST10, the multiplexer 104 inserts the encoded stream (video elementary stream) into the PES payload to make a PES packet.

次に、マルチプレクサ104は、ステップST11において、HEVCデスクリプタ、スケーラビリティ・エクステンション・デスクリプタなどをコーディングする。そして、マルチプレクサ104は、ステップST12においてトランスポートパケット化し、トランスポートストリームTSを得る。その後、マルチプレクサ104は、ステップST13において、処理を終了する。   Next, in step ST11, the multiplexer 104 codes a HEVC descriptor, a scalability extension descriptor, and the like. Then, in step ST12, the multiplexer 104 converts the packet into a transport packet to obtain a transport stream TS. Thereafter, the multiplexer 104 ends the process in step ST13.

図14は、単一ストリームによる配信を行う場合のトランスポートストリームTSの構成例を示している。このトランスポートストリームTSには、1つのビデオストリームが含まれている。すなわち、この構成例では、複数の階層のピクチャの例えばHEVCによる符号化画像データを持つビデオストリームのPESパケット「video PES1」が存在すると共に、オーディオストリームのPESパケット「audio PES1」が存在する   FIG. 14 illustrates a configuration example of the transport stream TS in the case of performing distribution by a single stream. This transport stream TS includes one video stream. That is, in this configuration example, a PES packet “video PES1” of a video stream having encoded image data of, for example, HEVC of a plurality of layers of a picture exists, and a PES packet “audio PES1” of an audio stream exists.

各ピクチャの符号化画像データには、VPS、SPS、SEIなどのNALユニットが存在する。上述したように、各ピクチャのNALユニットのヘッダには、そのピクチャの階層を示すtemporal_idが挿入されている。また、例えば、VPSにはビットレートのレベル指定値(general_level_idc)が含まれている。また、例えば、ピクチャ・タイミング・SEI(Picture timing SEI)には、「cpb_removal_delay」と「dpb_output_delay」が含まれている。   The coded image data of each picture has NAL units such as VPS, SPS, and SEI. As described above, temporal_id indicating the hierarchy of the picture is inserted into the header of the NAL unit of each picture. Also, for example, the VPS includes a bit rate level designation value (general_level_idc). In addition, for example, “cpb_removal_delay” and “dpb_output_delay” are included in the picture timing SEI (Picture timing SEI).

また、PESパケットのヘッダ(PESヘッダ)に「PES_priority」の1ビットの優先度を示すフィールドが存在する。この「PES_priority」により、PESペイロードに含まれるピクチャの符号化画像データが、低階層組のピクチャのものか、あるいは高階層組のピクチャのものかが識別可能である。   Further, a field indicating the 1-bit priority of “PES_priority” exists in the header (PES header) of the PES packet. By this “PES_priority”, it is possible to identify whether the coded image data of the picture included in the PES payload is that of a picture of a lower layer set or a picture of a higher layer set.

また、トランスポートストリームTSには、PSI(Program Specific Information)の一つとして、PMT(Program Map Table)が含まれている。このPSIは、トランスポートストリームに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。   In addition, the transport stream TS includes a PMT (Program Map Table) as one of PSI (Program Specific Information). This PSI is information describing to which program each elementary stream included in the transport stream belongs.

PMTには、プログラム全体に関連する情報を記述するプログラム・ループ(Program loop)が存在する。また、PMTには、各エレメンタリストリームに関連した情報を持つエレメンタリ・ループが存在する。この構成例では、ビデオエレメンタリ・ループ(video ES1 loop)が存在すると共に、オーディオエレメンタリ・ループ(audio ES1 loop)が存在する。   The PMT has a program loop that describes information related to the entire program. Further, the PMT has an elementary loop having information related to each elementary stream. In this configuration example, a video elementary loop (video ES1 loop) exists and an audio elementary loop (audio ES1 loop) exists.

ビデオエレメンタリ・ループには、ビデオストリーム(video PES1)に対応して、ストリームタイプ、パケット識別子(PID)等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。このデスクリプタの一つとして、上述したHEVCデスクリプタ(HEVC_descriptor)、スケーラビリティ・エクステンション・デスクリプタ(scalability_extension_descriptor)が挿入される。   In the video elementary loop, information such as a stream type and a packet identifier (PID) is arranged corresponding to the video stream (video PES1), and a descriptor describing information related to the video stream is also arranged. You. As one of the descriptors, the above-described HEVC descriptor (HEVC_descriptor) and scalability extension descriptor (scalability_extension_descriptor) are inserted.

図2に戻って、送信部105は、トランスポートストリームTSを、例えば、QPSK/OFDM等の放送に適した変調方式で変調し、RF変調信号を送信アンテナから送信する。   Returning to FIG. 2, transmitting section 105 modulates transport stream TS by a modulation method suitable for broadcasting such as QPSK / OFDM, and transmits an RF modulated signal from a transmitting antenna.

図2に示す送信装置100の動作を簡単に説明する。エンコーダ102には、非圧縮の動画像データが入力される。エンコーダ102では、この動画像データに対して、階層符号化が行われる。すなわち、エンコーダ102では、この動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化され、各階層のピクチャの符号化画像データを持つビデオストリームが生成される。この際、参照するピクチャが、自己階層および/または自己階層よりも下位の階層に所属するように、符号化される。   The operation of the transmitting apparatus 100 shown in FIG. 2 will be briefly described. Uncompressed moving image data is input to the encoder 102. The encoder 102 performs hierarchical coding on the moving image data. That is, in the encoder 102, the image data of each picture constituting the moving image data is classified and encoded into a plurality of layers, and a video stream having encoded image data of the picture of each layer is generated. At this time, the pictures are coded so that the referenced picture belongs to the own layer and / or a layer lower than the own layer.

エンコーダ102では、各階層のピクチャの符号化画像データを持つ単一のビデオストリームが生成されるか、あるいは、複数の階層が2以上の所定数の階層組に分割され、各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームが生成される。   The encoder 102 generates a single video stream having the coded image data of the picture of each layer, or divides a plurality of layers into a predetermined number of two or more layer sets, and A predetermined number of video streams each having encoded image data are generated.

また、エンコーダ102で生成された、各階層のピクチャの符号化データを含むビデオストリームは、圧縮データバッファ(cpb)103に供給され、一時的に蓄積される。マルチプレクサ104では、圧縮データバッファ103に蓄積されているビデオストリームが読み出され、PESパケット化され、さらにトランスポートパケット化されて多重され、多重化ストリームとしてのトランスポートストリームTSが得られる。   The video stream including the encoded data of the picture of each layer generated by the encoder 102 is supplied to the compressed data buffer (cpb) 103 and is temporarily stored. In the multiplexer 104, the video stream stored in the compressed data buffer 103 is read, converted into PES packets, further converted into transport packets, and multiplexed, thereby obtaining a transport stream TS as a multiplexed stream.

マルチプレクサ104では、例えば、単一のビデオストリーム(シングルストリーム)の場合、PESパケットのヘッダ(PESヘッダ)に、ビデオストリームが持つ各ピクチャの符号化画像データがそれぞれどの階層組に属するピクチャの符号化画像データであるかを識別する識別情報が挿入される。例えば、複数の階層を低階層組と高階層組に二分する場合、PESヘッダのPESプライオリティ(PES_priority)の1ビットフィールドが利用される。   In the multiplexer 104, for example, in the case of a single video stream (single stream), in the header (PES header) of the PES packet, the coded image data of each picture included in the video stream is encoded into a picture belonging to any hierarchical set. Identification information for identifying whether the data is image data is inserted. For example, when a plurality of layers are divided into a low layer set and a high layer set, a 1-bit field of the PES priority (PES_priority) of the PES header is used.

また、マルチプレクサ104では、トランスポートストリームTSに、階層情報、ストリーム構成情報が挿入される。すなわち、マルチプレクサ104では、各ビデオストリームに対応したビデオエレメンタリ・ループに、HEVCデスクリプタ(HEVC_descriptor)、スケーラビリティ・エクステンション・デスクリプタ(scalability_extension_descriptor)が挿入される。   In the multiplexer 104, the layer information and the stream configuration information are inserted into the transport stream TS. That is, in the multiplexer 104, the HEVC descriptor (HEVC_descriptor) and the scalability extension descriptor (scalability_extension_descriptor) are inserted into the video elementary loop corresponding to each video stream.

マルチプレクサ104で生成されるトランスポートストリームTSは、送信部105に送られる。送信部105では、このトランスポートストリームTSが、例えば、QPSK/OFDM等の放送に適した変調方式で変調され、RF変調信号が送信アンテナから送信される。   The transport stream TS generated by the multiplexer 104 is sent to the transmitting unit 105. In the transmission section 105, the transport stream TS is modulated by a modulation method suitable for broadcasting such as QPSK / OFDM, and an RF modulation signal is transmitted from a transmission antenna.

「受信装置の構成」
図15は、受信装置200の構成例を示している。この受信装置200は、CPU(Central Processing Unit)201と、受信部202と、デマルチプレクサ203と、圧縮データバッファ(cpb:coded picture buffer)204を有している。また、この受信装置200は、デコーダ205と、非圧縮データバッファ(dpb:decoded picture buffer)206と、ポスト処理部207を有している。CPU201は、制御部を構成し、受信装置200の各部の動作を制御する。
"Receiver configuration"
FIG. 15 illustrates a configuration example of the receiving device 200. The receiving apparatus 200 includes a CPU (Central Processing Unit) 201, a receiving unit 202, a demultiplexer 203, and a compressed data buffer (cpb: coded picture buffer) 204. The receiving apparatus 200 includes a decoder 205, a non-compressed data buffer (dpb: decoded picture buffer) 206, and a post-processing unit 207. The CPU 201 configures a control unit and controls the operation of each unit of the receiving device 200.

受信部202は、受信アンテナで受信されたRF変調信号を復調し、トランスポートストリームTSを取得する。デマルチプレクサ203は、トランスポートストリームTSから、デコード能力(Decoder temporal layer capability)に応じた階層組のピクチャの符号化画像データを選択的に取り出し、圧縮データバッファ(cpb:coded picture buffer)204に送る。   The receiving unit 202 demodulates the RF modulated signal received by the receiving antenna, and acquires a transport stream TS. The demultiplexer 203 selectively extracts, from the transport stream TS, coded image data of a picture in a hierarchical group according to a decoding capability (Decoder temporal layer capability), and sends the coded image data to a compressed data buffer (cpb: coded picture buffer) 204. .

図16は、デマルチプレクサ203の構成例を示している。デマルチプレクサ203は、TSアダプテーションフィールド抽出部231と、クロック情報抽出部232と、TSペイロード抽出部233と、セクション抽出部234と、PSIテーブル/デスクリプタ抽出部235と、PESパケット抽出部236を有している。また、デマルチプレクサ203は、PESヘッダ抽出部237と、タイムスタンプ抽出部238と、識別情報抽出部239と、PESペイロード抽出部240と、ストリーム構成部(ストリームコンポーザ)241を有している。   FIG. 16 shows a configuration example of the demultiplexer 203. The demultiplexer 203 includes a TS adaptation field extractor 231, a clock information extractor 232, a TS payload extractor 233, a section extractor 234, a PSI table / descriptor extractor 235, and a PES packet extractor 236. ing. Further, the demultiplexer 203 includes a PES header extraction unit 237, a time stamp extraction unit 238, an identification information extraction unit 239, a PES payload extraction unit 240, and a stream configuration unit (stream composer) 241.

TSアダプテーションフィールド抽出部231は、トランスポートストリームTSのアダプテーションフィールドを持つTSパケットから当該アダプテーションフィールドを抽出する。クロック情報抽出部232は、PCR(Program Clock Reference)が含まれるアダプテーションフィールドから当該PCRを抽出し、CPU201に送る。   The TS adaptation field extraction unit 231 extracts the adaptation field from the TS packet having the adaptation field of the transport stream TS. The clock information extraction unit 232 extracts the PCR from the adaptation field including the PCR (Program Clock Reference), and sends the extracted PCR to the CPU 201.

TSペイロード抽出部233は、トランスポートストリームTSのTSペイロードを持つTSパケットから当該TSペイロードを抽出する。セクション抽出部234は、セクションデータが含まれるTSペイロードから当該セクションデータを抽出する。PSIテーブル/デスクリプタ抽出部235は、セクション抽出部234で抽出されたセクションデータを解析し、PSIテーブルやデスクリプタを抽出する。そして、PSIテーブル/デスクリプタ抽出部235は、temporal_idの最小値(min)と最大値(max)を、CPU201に送ると共に、ストリーム構成部241に送る。   The TS payload extracting unit 233 extracts the TS payload from a TS packet having the TS payload of the transport stream TS. The section extraction unit 234 extracts the section data from the TS payload including the section data. The PSI table / descriptor extraction unit 235 analyzes the section data extracted by the section extraction unit 234, and extracts a PSI table and a descriptor. Then, the PSI table / descriptor extraction unit 235 sends the minimum value (min) and the maximum value (max) of temporal_id to the CPU 201 and also sends it to the stream composition unit 241.

PESパケット抽出部236は、PESパケットが含まれるTSペイロードから当該PESパケットを抽出する。PESヘッダ抽出部237は、PESパケット抽出部236で抽出されたPESパケットからPESヘッダを抽出する。タイムスタンプ抽出部238は、ピクチャ毎にPESヘッダに挿入されているタイムスタンプ(DTS、PTS)を抽出し、CPU201に送ると共に、ストリーム構成部241に送る。   The PES packet extracting unit 236 extracts the PES packet from the TS payload including the PES packet. The PES header extractor 237 extracts a PES header from the PES packet extracted by the PES packet extractor 236. The time stamp extracting unit 238 extracts a time stamp (DTS, PTS) inserted in the PES header for each picture, and sends the extracted time stamp to the CPU 201 and also sends it to the stream composition unit 241.

識別情報抽出部239は、ピクチャ毎にPESヘッダに挿入されている、そのピクチャが属する階層組を識別する識別情報を抽出し、ストリーム構成部241に送る。例えば、複数の階層が低階層組と高階層組に2分されている場合、PESヘッダの「PES_priority」の1ビットフィールドの優先度情報を抽出し、ストリーム構成部241に送る。なお、この識別情報は、トランスポートストリームTSに単一のビデオストリームが含まれる場合には送信側で必ず挿入されているが、トランスポートストリームTSに複数のビデオストリームが含まれる場合には送信側で挿入されないこともある。   The identification information extraction unit 239 extracts identification information, which is inserted into the PES header for each picture and identifies the hierarchical set to which the picture belongs, and sends it to the stream composition unit 241. For example, when a plurality of layers are divided into a lower layer set and a higher layer set, the priority information of the 1-bit field of “PES_priority” of the PES header is extracted and sent to the stream configuration unit 241. Note that this identification information is always inserted on the transmission side when the transport stream TS includes a single video stream, but is included when the transport stream TS includes a plurality of video streams. May not be inserted.

PESペイロード抽出部240は、PESパケット抽出部236で抽出されたPESパケットからPESペイロード、つまり、各階層のピクチャの符号化画像データを抽出する。ストリーム構成部241は、PESペイロード抽出部240で取り出される各階層のピクチャの符号化画像データから、デコード能力(Decoder temporal layer capability)に応じた階層組のピクチャの符号化画像データを選択的に取り出し、圧縮データバッファ(cpb:coded picture buffer)204に送る。この場合、ストリーム構成部241は、PSIテーブル/デスクリプタ抽出部235で得られる階層情報、ストリーム構成情報、識別情報抽出部239で抽出される識別情報(優先度情報)などを参照する。   The PES payload extraction unit 240 extracts a PES payload, that is, encoded image data of a picture of each layer, from the PES packet extracted by the PES packet extraction unit 236. The stream configuration unit 241 selectively extracts encoded image data of a picture of a layer set corresponding to a decoding capability (Decoder temporal layer capability) from encoded image data of a picture of each layer extracted by the PES payload extraction unit 240. To a compressed data buffer (cpb: coded picture buffer) 204. In this case, the stream configuration unit 241 refers to the hierarchy information obtained by the PSI table / descriptor extraction unit 235, the stream configuration information, the identification information (priority information) extracted by the identification information extraction unit 239, and the like.

例えば、トランスポートストリームTSに含まれるビデオストリーム(符号化ストリーム)のフレームレートが120fpsである場合を考える。例えば、複数の階層が低階層側の階層組と高階層側の階層組とに2分され、各階層組のピクチャのフレームレートがそれぞれ60fpsであるとする。例えば、上述の図3に示す階層符号化例では、階層0から3は低階層側の階層組とされ、60fpsのlevel_idc対応のデコーダがデコード可能となる。また、階層4は高階層側の階層組とされ、120fpsのlevel_idc対応のデコーダがデコード可能となる。   For example, consider a case where the frame rate of a video stream (encoded stream) included in the transport stream TS is 120 fps. For example, it is assumed that a plurality of layers are divided into a lower layer group and a higher layer group, and the frame rate of the picture in each layer group is 60 fps. For example, in the layer coding example shown in FIG. 3 described above, layers 0 to 3 are set as a layer set on the lower layer side, and a decoder corresponding to level_idc of 60 fps can decode. Further, the layer 4 is a layer set on the higher layer side, and a decoder that supports level_idc of 120 fps can decode.

この場合、トランスポートストリームTSに、各階層のピクチャの符号化データを持つ単一のビデオストリーム(符号化ストリーム)が含まれているか、あるいは、低階層側の階層組のピクチャの符号化画像データ持つベースストリム(B_str)と、高階層側の階層組のピクチャの符号化画像データを持つ拡張ストリーム(E_str)の2つのビデオストリーム(符号化ストリーム)が含まれている。   In this case, the transport stream TS includes a single video stream (coded stream) having the coded data of the picture of each layer, or the coded image data of the picture of the layer set of the lower layer. The video stream includes two video streams (encoded streams): a base stream (B_str) having the extended stream and an extended stream (E_str) having encoded image data of a picture in a higher layer.

ストリーム構成部241は、デコード能力が、120fpsに対応している場合、全階層のピクチャの符号化画像データを取り出し、圧縮データバッファ(cpb)204に送る。一方、ストリーム構成部241は、デコード能力が、120fpsに対応していないが60fpsに対応している場合、低階層側の階層組のピクチャの符号化画像データのみを取り出し、圧縮データバッファ(cpb)204に送る。   When the decoding capability corresponds to 120 fps, the stream configuration unit 241 extracts the coded image data of the pictures of all the layers and sends the coded image data to the compressed data buffer (cpb) 204. On the other hand, when the decoding capability is not compatible with 120 fps but is compatible with 60 fps, the stream configuration unit 241 extracts only the coded image data of the picture of the lower hierarchical set and compresses the compressed data buffer (cpb). Send to 204.

図17は、トランスポートストリームTSに単一のビデオストリーム(符号化ストリーム)が含まれている場合におけるストリーム構成部241のピクチャ(スライス)選択の一例を示している。ここで、「High」は高階層側の階層組のピクチャを示し、「Low」は低階層側の階層組のピクチャを示す。また、「P」は「PES_priority」を示している。   FIG. 17 illustrates an example of a picture (slice) selection of the stream configuration unit 241 when a single video stream (encoded stream) is included in the transport stream TS. Here, “High” indicates a picture of a layer set on a higher layer side, and “Low” indicates a picture of a layer set on a lower layer side. “P” indicates “PES_priority”.

デコード能力が、120fpsに対応している場合、ストリーム構成部241は、全階層のピクチャの符号化画像データを取り出し、圧縮データバッファ(cpb)204に送る。一方、デコード能力が、120fpsに対応していないが60fpsに対応している場合、ストリーム構成部241は、「PES_priority」に基づくフィルタリングを行って、P=1である低階層側の階層組のピクチャだけを取り出し、圧縮データバッファ(cpb)204に送る。   When the decoding capability corresponds to 120 fps, the stream forming unit 241 extracts the coded image data of the pictures of all the layers and sends the coded image data to the compressed data buffer (cpb) 204. On the other hand, when the decoding capability is not compatible with 120 fps but is compatible with 60 fps, the stream configuration unit 241 performs filtering based on “PES_priority” and performs picture processing of the lower hierarchical set where P = 1. And sends it to the compressed data buffer (cpb) 204.

図18は、トランスポートストリームTSにベースストリームと拡張ストリームの2つのビデオストリーム(符号化ストリーム)が含まれている場合におけるストリーム構成部241のピクチャ(スライス)選択の一例を示している。ここで、「High」は高階層側の階層組のピクチャを示し、「Low」は低階層側の階層組のピクチャを示す。また、ベースストリームのパケット識別子(PID)はPID Aであり、拡張ストリームのパケット識別子(PID)はPID Bであるとする。   FIG. 18 illustrates an example of picture (slice) selection of the stream configuration unit 241 when the transport stream TS includes two video streams (encoded streams), a base stream and an extension stream. Here, “High” indicates a picture of a layer set on a higher layer side, and “Low” indicates a picture of a layer set on a lower layer side. The packet identifier (PID) of the base stream is PID A, and the packet identifier (PID) of the extension stream is PID B.

デコード能力が、120fpsに対応している場合、ストリーム構成部241は、全階層のピクチャの符号化画像データを取り出し、圧縮データバッファ(cpb)204に送る。この場合、ストリーム構成部241は、各ピクチャの符号化画像データをデコードタイミング情報に基づいて1つのストリームにして圧縮データバッファ(cpb)204に送る。   When the decoding capability corresponds to 120 fps, the stream forming unit 241 extracts the coded image data of the pictures of all the layers and sends the coded image data to the compressed data buffer (cpb) 204. In this case, the stream configuration unit 241 converts the encoded image data of each picture into one stream based on the decode timing information and sends the stream to the compressed data buffer (cpb) 204.

その場合、デコードタイミングとしてDTSの値をみて、それがピクチャ間で単調増加するようにストリームを一つにまとめる。このピクチャのまとめ処理自体は、圧縮データバッファ(cpb)204がストリーム分だけ複数存在して、その複数の圧縮データバッファ(cpb)204から読み出された複数ストリームに対して行って一つのストリームとしてデコード処理をするようにしもよい。   In that case, the value of DTS is viewed as the decoding timing, and the streams are combined into one such that the value increases monotonously between pictures. The picture grouping process itself is performed on a plurality of streams read from the plurality of compressed data buffers (cpb) 204 when there are a plurality of compressed data buffers (cpb) 204 for the number of streams. A decoding process may be performed.

一方、デコード能力が、120fpsに対応していないが60fpsに対応している場合、ストリーム構成部241は、パケット識別子(PID)に基づくフィルタリングを行って、PID Aである低階層側の階層組のピクチャだけを取り出し、圧縮データバッファ(cpb)204に送る。   On the other hand, when the decoding capability does not support 120 fps but does support 60 fps, the stream configuration unit 241 performs filtering based on the packet identifier (PID) to generate a PID A of the lower hierarchical set. Only the picture is taken out and sent to the compressed data buffer (cpb) 204.

なお、ストリーム構成部241は、選択的に圧縮データバッファ(cpb)204に送る各ピクチャの符号化画像データのデコードタイムスタンプを書き換えて低階層ピクチャのデコード間隔を調整する機能を持つ。これにより、デコーダ205のデコード能力の低い場合であっても、無理のないデコード処理が可能となる。   Note that the stream configuration unit 241 has a function of selectively rewriting the decode time stamp of the coded image data of each picture to be sent to the compressed data buffer (cpb) 204 to adjust the decoding interval of the lower hierarchical picture. As a result, even when the decoding capability of the decoder 205 is low, a reasonable decoding process can be performed.

図19は、図3に示す階層符号化例で、低階層側の階層組と高階層側の階層組とに2分されている場合であって、ストリーム構成部241で低階層組に属するピクチャの符号化画像データが選択的に取り出されて、圧縮データバッファ(cpb)204に送られる場合を示している。   FIG. 19 shows an example of the layer coding shown in FIG. 3, in which the stream is divided into a lower layer set and a higher layer set, and the stream configuration unit 241 determines whether the picture belongs to the lower layer set. Is selectively extracted and sent to the compressed data buffer (cpb) 204.

図19(a)は、デコード間隔調整前のデコードタイミングを示している。この場合、ピクチャ間のデコード間隔にばらつきがあり、最短のデコード間隔は120fpsフル解像度のデコード間隔と等しくなる。これに対して、図19(b)は、デコード間隔調整後のデコードタイミングを示している。この場合、ピクチャ間のデコード間隔は等しくされ、デコード間隔は、フル解像度のデコード間隔の1/2となる。このように、各階層において対象デコーダの能力に応じてデコード間隔が調整される。   FIG. 19A shows the decode timing before the decode interval adjustment. In this case, there is a variation in the decoding interval between pictures, and the shortest decoding interval is equal to the 120 fps full resolution decoding interval. On the other hand, FIG. 19B shows the decode timing after the adjustment of the decode interval. In this case, the decoding intervals between pictures are made equal, and the decoding intervals are 1 of the decoding intervals of the full resolution. Thus, the decoding interval is adjusted in each hierarchy according to the capability of the target decoder.

図20は、デマルチプレクサ203の処理フローの一例を示している。この処理フローは、トランスポートストリームTSに単一のビデオストリーム(符号化ストリーム)が含まれている場合を示している。   FIG. 20 illustrates an example of a processing flow of the demultiplexer 203. This processing flow illustrates a case where the transport stream TS includes a single video stream (encoded stream).

デマルチプレクサ203は、ステップST31において、処理を開始し、その後に、ステップST32の処理に移る。このステップST32おいて、CPU201から、デコード能力(Decoder temporal layer capability)が設定される。次に、デマルチプレクサ203は、ステップST33おいて、全階層(レイヤ)をデコードする能力があるか否かを判断する。   The demultiplexer 203 starts the process in step ST31, and then proceeds to the process in step ST32. In this step ST32, a decoding capability (Decoder temporal layer capability) is set by the CPU 201. Next, in step ST33, the demultiplexer 203 determines whether or not there is a capability of decoding all layers (layers).

全階層をデコードする能力があるとき、デマルチプレクサ203は、ステップST34において、該当PIDフィルタを通過する全TSパケットをデマルチプレクスし、セクションパーシング(Section parsing)を行う。その後、デマルチプレクサ203は、ステップST35の処理に移る。   When all layers are capable of decoding, in step ST34, the demultiplexer 203 demultiplexes all TS packets passing through the corresponding PID filter and performs section parsing. After that, the demultiplexer 203 proceeds to the process of step ST35.

ステップST33で全階層をデコードする能力がないとき、デマルチプレクサ203は、ステップST36において、「PES_priority」が“1”のTSパケットをデマルチプレクスし、セクションパーシング(Section parsing)を行う。その後、デマルチプレクサ203は、ステップST35の処理に移る。   In step ST33, when there is no ability to decode all layers, in step ST36, the demultiplexer 203 demultiplexes the TS packet whose “PES_priority” is “1” and performs section parsing. After that, the demultiplexer 203 proceeds to the process of step ST35.

ステップST35において、デマルチプレクサ203は、対象となるPIDのセクションの中で、HEVCデスクリプタ(HEVC_descriptor)、スケーラビリティ・エクステンション・デスクリプタ(scalability_extension_descriptor)を読み、拡張ストリームの有無、スケーラブルタイプ、ストリームの数とID、temporal_idの最大、最小値、そして、各レイヤのデコーダ対応Levelを得る。   In step ST35, the demultiplexer 203 reads the HEVC descriptor (HEVC_descriptor) and the scalability extension descriptor (scalability_extension_descriptor) in the target PID section, and determines whether or not there is an extension stream, the scalable type, the number and ID of the stream, Obtain the maximum and minimum values of temporal_id, and the level corresponding to the decoder of each layer.

次に、デマルチプレクサ203は、ステップST37で、PIDの対象となる符号化ストリームを圧縮データバッファ(cpb)204へ転送すると共に、DTS、PTSを、CPU201に通知する。デマルチプレクサ203は、ステップST37の処理の後、ステップST38において、処理を終了する。   Next, in step ST37, the demultiplexer 203 transfers the encoded stream to be subjected to the PID to the compressed data buffer (cpb) 204, and notifies the CPU 201 of the DTS and PTS. After the process in step ST37, the demultiplexer 203 ends the process in step ST38.

図21は、デマルチプレクサ203の処理フローの一例を示している。この処理フローは、トランスポートストリームTSにベースストリームと拡張ストリームの2つのビデオストリーム(符号化ストリーム)が含まれている場合を示している。   FIG. 21 illustrates an example of a processing flow of the demultiplexer 203. This processing flow shows a case where the transport stream TS includes two video streams (encoded streams) of a base stream and an extension stream.

デマルチプレクサ203は、ステップST41において、処理を開始し、その後に、ステップST42の処理に移る。このステップST42おいて、CPU201から、デコード能力(Decoder temporal layer capability)が設定される。次に、デマルチプレクサ203は、ステップST43おいて、全階層(レイヤ)をデコードする能力があるか否かを判断する。   The demultiplexer 203 starts the process in step ST41, and then proceeds to the process in step ST42. In this step ST42, a decoding capability (Decoder temporal layer capability) is set by the CPU 201. Next, in step ST43, the demultiplexer 203 determines whether or not there is a capability of decoding all layers (layers).

全階層をデコードする能力があるとき、デマルチプレクサ203は、ステップST44において、PIDフィルタにより全階層を構成する複数のストリームをデマルチプレクスし、セクションパーシング(Section parsing)を行う。その後、デマルチプレクサ203は、ステップST45の処理に移る。   When there is a capability to decode all layers, the demultiplexer 203 demultiplexes a plurality of streams constituting all layers by a PID filter in step ST44, and performs section parsing. After that, the demultiplexer 203 proceeds to the process of step ST45.

ステップST43で全階層をデコードする能力がないとき、デマルチプレクサ203は、ステップST46において、PID=PID Aのストリームをデマルチプレクスし、セクションパーシング(Section parsing)を行う。その後、デマルチプレクサ203は、ステップST45の処理に移る。   If there is no ability to decode all layers in step ST43, the demultiplexer 203 demultiplexes the stream of PID = PID A in step ST46 and performs section parsing. After that, the demultiplexer 203 proceeds to the process of step ST45.

ステップST45において、デマルチプレクサ203は、対象となるPIDのセクションの中で、HEVCデスクリプタ(HEVC_descriptor)、スケーラビリティ・エクステンション・デスクリプタ(scalability_extension_descriptor)を読み、拡張ストリームの有無、スケーラブルタイプ、ストリームの数とID、temporal_idの最大、最小値、そして、各レイヤのデコーダ対応Levelを得る。   In step ST45, the demultiplexer 203 reads the HEVC descriptor (HEVC_descriptor) and the scalability extension descriptor (scalability_extension_descriptor) in the target PID section, and determines whether or not there is an extension stream, the scalable type, the number and ID of the stream, Obtain the maximum and minimum values of temporal_id, and the level corresponding to the decoder of each layer.

次に、デマルチプレクサ203は、ステップST47で、PIDの対象となる符号化ストリームをDTS(無い場合はPTS)情報に基づき、1つのストリームに結合し、圧縮データバッファ(cpb)204へ転送すると共に、DTS、PTSを、CPU201に通知する。デマルチプレクサ203は、ステップST47の処理の後、ステップST48において、処理を終了する。   Next, in step ST47, the demultiplexer 203 combines the coded stream to be subjected to the PID into one stream based on the DTS (PTS if not), transfers the stream to the compressed data buffer (cpb) 204, and , DTS, and PTS to the CPU 201. After the process of step ST47, the demultiplexer 203 ends the process in step ST48.

図15に戻って、圧縮データバッファ(cpb)204は、デマルチプレクサ203で取り出されるビデオストリーム(符号化ストリーム)を、一時的に蓄積する。デコーダ205は、圧縮データバッファ204に蓄積されているビデオストリームから、デコードすべき階層として指定された階層のピクチャの符号化画像データを取り出す。そして、デコーダ205は、取り出された各ピクチャの符号化画像データを、それぞれ、そのピクチャのデコードタイミングでデコードし、非圧縮データバッファ(dpb)206に送る。   Returning to FIG. 15, the compressed data buffer (cpb) 204 temporarily stores the video stream (encoded stream) extracted by the demultiplexer 203. The decoder 205 extracts, from the video stream stored in the compressed data buffer 204, coded image data of a picture of a layer specified as a layer to be decoded. Then, the decoder 205 decodes the extracted coded image data of each picture at the decoding timing of the picture, and sends the decoded image data to the uncompressed data buffer (dpb) 206.

ここで、デコーダ205には、CPU201からデコードすべき階層がtemporal_idで指定される。この指定階層は、デマルチプレクサ203で取り出されるビデオストリーム(符号化ストリーム)に含まれる全階層、あるいは低階層側の一部の階層とされ、CPU201により自動的に、あるいはユーザ操作に応じて設定される。また、デコーダ205には、CPU201から、DTS(Decoding Time stamp)に基づいて、デコードタイミングが与えられる。なお、デコーダ205は、各ピクチャの符号化画像データをデコードする際に、必要に応じて、非圧縮データバッファ206から被参照ピクチャの画像データを読み出して利用する。   Here, the hierarchy to be decoded by the CPU 201 is designated by the temporal_id in the decoder 205. The designated layer is the entire layer included in the video stream (encoded stream) extracted by the demultiplexer 203 or a part of the lower layer, and is set automatically by the CPU 201 or in response to a user operation. You. The decoder 205 is given a decoding timing from the CPU 201 based on a DTS (Decoding Time stamp). When decoding the coded image data of each picture, the decoder 205 reads out and uses the image data of the referenced picture from the uncompressed data buffer 206 as necessary.

図22は、デコーダ205の構成例を示している。このデコーダ205は、テンポラルID解析部251と、対象階層選択部252と、デコード部253を有している。テンポラルID解析部251は、圧縮データバッファ204に蓄積されているビデオストリーム(符号化ストリーム)を読み出し、各ピクチャの符号化画像データのNALユニットヘッダに挿入されているtemporal_idを解析する。   FIG. 22 shows a configuration example of the decoder 205. The decoder 205 has a temporal ID analysis unit 251, a target hierarchy selection unit 252, and a decoding unit 253. The temporal ID analysis unit 251 reads the video stream (encoded stream) stored in the compressed data buffer 204, and analyzes the temporal_id inserted in the NAL unit header of the encoded image data of each picture.

対象階層選択部252は、圧縮データバッファ204から読み出されたビデオストリームから、テンポラルID解析部251の解析結果に基づいて、デコードすべき階層として指定された階層のピクチャの符号化画像データを取り出す。デコード部253は、対象階層選択部252で取り出された各ピクチャの符号化画像データを、順次デコードタイミングでデコードし、非圧縮データバッファ(dpb)206に送る。   The target layer selection unit 252 extracts, from the video stream read from the compressed data buffer 204, the coded image data of the picture of the layer specified as the layer to be decoded based on the analysis result of the temporal ID analysis unit 251. . The decoding unit 253 sequentially decodes the encoded image data of each picture extracted by the target hierarchy selection unit 252 at a decoding timing, and sends the decoded image data to the uncompressed data buffer (dpb) 206.

この場合、デコード部253は、VPS、SPSの解析を行って、例えば、サブレイヤごとのビットレートのレベル指定値「sublayer_level_idc」を把握し、デコード能力内でデコードし得るものかどうかを確認する。また、この場合、デコード部253は、SEIの解析を行って、例えば、「initial_cpb_removal_time」、「cpb_removal_delay」を把握し、CPU201からのデコードタイミングが適切か確認する。   In this case, the decoding unit 253 analyzes the VPS and the SPS, grasps, for example, the level designation value “sublayer_level_idc” of the bit rate for each sublayer, and confirms whether the decoding can be performed within the decoding capability. Also, in this case, the decoding unit 253 analyzes the SEI, grasps, for example, “initial_cpb_removal_time” and “cpb_removal_delay”, and checks whether the decoding timing from the CPU 201 is appropriate.

デコード部253は、スライス(Slice)のデコードを行う際に、スライスヘッダ(Slice header)から、時間方向の予測先を表す情報として、「ref_idx_l0_active(ref_idx_l1_active)を取得し、時間方向の予測を行う。なお、デコード後のピクチャは、スライスヘッダ(slice header)から得られる「short_term_ref_pic_set_idx」、あるいは「it_idx_sps」が指標とされて、他のピクチャによる被参照として処理される。   When decoding the slice (Slice), the decoding unit 253 acquires “ref_idx_l0_active (ref_idx_l1_active)” from the slice header (Slice header) as information indicating a prediction destination in the time direction, and performs prediction in the time direction. The decoded picture is processed as a reference by another picture using “short_term_ref_pic_set_idx” or “it_idx_sps” obtained from the slice header as an index.

図15に戻って、非圧縮データバッファ(dpb)206は、デコーダ205でデコードされた各ピクチャの画像データを、一時的に蓄積する。ポスト処理部207は、非圧縮データバッファ(dpb)206から表示タイミングで順次読み出された各ピクチャの画像データに対して、そのフレームレートを、表示能力に合わせる処理を行う。この場合、CPU201から、PTS(Presentation Time stamp)に基づいて、表示タイミングが与えられる。   Returning to FIG. 15, the uncompressed data buffer (dpb) 206 temporarily stores the image data of each picture decoded by the decoder 205. The post-processing unit 207 performs a process of adjusting the frame rate of the image data of each picture sequentially read from the uncompressed data buffer (dpb) 206 at the display timing according to the display capability. In this case, the display timing is given from the CPU 201 based on the PTS (Presentation Time stamp).

例えば、デコード後の各ピクチャの画像データのフレームレートが120fpsであって、表示能力が120fpsであるとき、ポスト処理部207は、デコード後の各ピクチャの画像データをそのままディスプレイに送る。また、例えば、デコード後の各ピクチャの画像データのフレームレートが120fpsであって、表示能力が60fpsであるとき、ポスト処理部207は、デコード後の各ピクチャの画像データに対して時間方向解像度が1/2倍となるようにサブサンプル処理を施し、60fpsの画像データとしてディスプレイに送る。   For example, when the frame rate of the decoded image data of each picture is 120 fps and the display capability is 120 fps, the post-processing unit 207 sends the decoded image data of each picture to the display as it is. Further, for example, when the frame rate of the image data of each decoded picture is 120 fps and the display capability is 60 fps, the post-processing unit 207 determines that the temporal resolution of the decoded image data is A sub-sampling process is performed so as to be 1/2 times, and sent to a display as 60 fps image data.

また、例えば、デコード後の各ピクチャの画像データのフレームレートが60fpsであって、表示能力が120fpsであるとき、ポスト処理部207は、デコード後の各ピクチャの画像データに対して時間方向解像度が2倍となるように補間処理を施し、120fpsの画像データとしてディスプレイに送る。また、例えば、デコード後の各ピクチャの画像データのフレームレートが60fpsであって、表示能力が60fpsであるとき、ポスト処理部207は、デコード後の各ピクチャの画像データをそのままディスプレイに送る。   Further, for example, when the frame rate of the image data of each picture after decoding is 60 fps and the display capability is 120 fps, the post-processing unit 207 determines that the temporal resolution of the image data of each picture after decoding is Interpolation processing is performed so that the image data becomes twice, and the image data is sent to a display as 120 fps image data. For example, when the frame rate of the decoded image data of each picture is 60 fps and the display capability is 60 fps, the post-processing unit 207 sends the decoded image data of each picture to the display as it is.

図23は、ポスト処理部207の構成例を示している。この例は、上述したようにデコード後の各ピクチャの画像データのフレームレートが120fpsあるいは60fpsであって、表示能力が120fpsあるいは60fpsである場合に対処可能とした例である。   FIG. 23 illustrates a configuration example of the post-processing unit 207. This example is an example in which the frame rate of the image data of each picture after decoding is 120 fps or 60 fps and the display capability is 120 fps or 60 fps as described above.

ポスト処理部207は、補間部271と、サブサンプル部272と、スイッチ部273を有している。非圧縮データバッファ206からのデコード後の各ピクチャの画像データは、直接スイッチ部273に入力され、あるいは補間部271で2倍のフレームレートとされた後にスイッチ部273に入力され、あるいはサブサンプル部272で1/2倍のフレームレートとされた後にスイッチ部273に入力される。   The post-processing unit 207 includes an interpolation unit 271, a sub-sampling unit 272, and a switch unit 273. The image data of each picture after decoding from the uncompressed data buffer 206 is directly input to the switch unit 273, or input to the switch unit 273 after being set to a double frame rate by the interpolation unit 271, or to the sub-sample unit. After the frame rate is set to 倍 in 272, the frame rate is input to the switch unit 273.

スイッチ部273には、CPU201から、選択情報が供給される。この選択情報は、CPU201が、表示能力を参照して自動的に、あるいは、ユーザ操作に応じて発生する。スイッチ部273は、選択情報に基づいて、入力のいずれかを選択的に出力とする。これにより、非圧縮データバッファ(dpb)206から表示タイミングで順次読み出された各ピクチャの画像データのフレームレートは、表示能力に合ったものとされる。   The switch unit 273 is supplied with selection information from the CPU 201. This selection information is generated automatically by the CPU 201 with reference to the display capability or in response to a user operation. The switch unit 273 selectively outputs any one of the inputs based on the selection information. As a result, the frame rate of the image data of each picture sequentially read from the uncompressed data buffer (dpb) 206 at the display timing matches the display capability.

図24は、デコーダ205、ポスト処理部207の処理フローの一例を示している。デコーダ205、ポスト処理部207は、ステップST51において、処理を開始し、その後に、ステップST52の処理に移る。このステップST52において、デコーダ205は、圧縮データバッファ(cpb)204に蓄積されているデコード対象のビデオストリームを読み出し、temporal_idに基づいて、CPU201からデコード対象として指定される階層のピクチャを選択する。   FIG. 24 illustrates an example of a processing flow of the decoder 205 and the post-processing unit 207. The decoder 205 and the post-processing unit 207 start the process in step ST51, and then proceed to the process in step ST52. In this step ST52, the decoder 205 reads out the video stream to be decoded stored in the compressed data buffer (cpb) 204, and selects a picture of a hierarchy designated as a decoding target by the CPU 201 based on the temporal_id.

次に、デコーダ205は、ステップST53において、選択された各ピクチャの符号化画像データをデコードタイミングで順次デコードし、デコード後の各ピクチャの画像データを非圧縮データバッファ(dpb)206に転送して、一時的に蓄積する。次に、ポスト処理部207は、ステップST54において、非圧縮データバッファ(dpb)206から、表示タイミングで各ピクチャの画像データを読み出す。   Next, in step ST53, the decoder 205 sequentially decodes the coded image data of each selected picture at a decoding timing, and transfers the decoded image data of each picture to the uncompressed data buffer (dpb) 206. , Temporarily accumulate. Next, in step ST54, the post-processing unit 207 reads the image data of each picture from the uncompressed data buffer (dpb) 206 at the display timing.

次に、ポスト処理部207は、読み出された各ピクチャの画像データのフレームレートが表示能力にあっているか否かを判断する。フレームレートが表示能力に合っていないとき、ポスト処理部207は、ステップST56において、フレームレートを表示能力に合わせて、ディスプレイに送り、その後、ステップST57において、処理を終了する。一方、フレームレートが表示能力に合っているとき、ポスト処理部207は、ステップST58において、フレームレートそのままでディスプレイに送り、その後、ステップST57において、処理を終了する。   Next, the post-processing unit 207 determines whether or not the frame rate of the read image data of each picture satisfies the display capability. When the frame rate does not match the display capability, the post-processing unit 207 sends the frame rate to the display according to the display capability in step ST56, and then ends the process in step ST57. On the other hand, when the frame rate matches the display capability, the post-processing unit 207 sends the frame rate to the display as it is in step ST58, and ends the process in step ST57.

図15に示す受信装置200の動作を簡単に説明する。受信部202では、受信アンテナで受信されたRF変調信号が復調され、トランスポートストリームTSが取得される。このトランスポートストリームTSは、デマルチプレクサ203に送られる。デマルチプレクサ203では、トランスポートストリームTSから、デコード能力(Decoder temporal layer capability)に応じた階層組のピクチャの符号化画像データが選択的に取り出され、圧縮データバッファ(cpb)204に送られ、一時的に蓄積される。   The operation of receiving apparatus 200 shown in FIG. 15 will be briefly described. In the receiving unit 202, the RF modulation signal received by the receiving antenna is demodulated, and a transport stream TS is obtained. This transport stream TS is sent to the demultiplexer 203. In the demultiplexer 203, coded image data of a picture in a hierarchical group according to the decoding capability (Decoder temporal layer capability) is selectively extracted from the transport stream TS, sent to the compressed data buffer (cpb) 204, and temporarily Is accumulated.

デコーダ205では、圧縮データバッファ204に蓄積されているビデオストリームから、デコードすべき階層として指定された階層のピクチャの符号化画像データが取り出される。そして、デコーダ205では、取り出された各ピクチャの符号化画像データが、それぞれ、そのピクチャのデコードタイミングでデコードされ、非圧縮データバッファ(dpb)206に送られ、一時的に蓄積される。この場合、各ピクチャの符号化画像データがデコードされる際に、必要に応じて、非圧縮データバッファ206から被参照ピクチャの画像データが読み出されて利用される。   The decoder 205 extracts, from the video stream stored in the compressed data buffer 204, the coded image data of the picture of the layer specified as the layer to be decoded. Then, the decoder 205 decodes the extracted coded image data of each picture at the decoding timing of the picture, sends the coded image data to the uncompressed data buffer (dpb) 206, and temporarily stores the coded image data. In this case, when the encoded image data of each picture is decoded, the image data of the referenced picture is read from the uncompressed data buffer 206 and used as needed.

非圧縮データバッファ(dpb)206から表示タイミングで順次読み出された各ピクチャの画像データは、ポスト処理部207に送られる。ポスト処理部207では、各ピクチャの画像データに対して、そのフレームレートを、表示能力に合わせるための補間あるいはサブサンプルが行われる。このポスト処理部207で処理された各ピクチャの画像データは、ディスプレイに供給され、その各ピクチャの画像データによる動画像の表示が行われる。   Image data of each picture sequentially read from the uncompressed data buffer (dpb) 206 at the display timing is sent to the post-processing unit 207. In the post-processing unit 207, interpolation or sub-sampling is performed on the image data of each picture so that the frame rate matches the display capability. The image data of each picture processed by the post-processing unit 207 is supplied to a display, and a moving image is displayed based on the image data of each picture.

以上説明したように、図1に示す送受信システム10においては、送信側において、ビデオストリームのレイヤ(PESパケットのヘッダ)に、このビデオストリームに含まれる各ピクチャの符号化画像データがそれぞれどの階層組に属するピクチャの符号化画像データであるかを識別する識別情報が挿入されるものである。そのため、例えば、受信側においては、この識別情報を利用することで、デコード能力に応じた所定階層以下の階層のピクチャの符号化画像データを選択的にデコードすることが容易に可能となる。   As described above, in the transmission / reception system 10 shown in FIG. 1, on the transmitting side, the layer of the video stream (the header of the PES packet) includes the encoded image data of each picture included in the video stream in any hierarchical group. The identification information for identifying whether the picture belongs to the coded image data of the picture belonging to. Therefore, for example, on the receiving side, by using this identification information, it becomes easy to selectively decode the coded image data of the picture of the hierarchy of the predetermined hierarchy or less according to the decoding capability.

また、図1に示す送受信システム10においては、送信側において、トランスポートストリームTSのレイヤに、スケーラビリティ・エクステンション・デスクリプタ(scalability_extension_descriptor)等が挿入されるものである。そのため、例えば、受信側では、階層符号化における階層情報、トランスポートストリームTSに含まれるビデオストリームの構成情報などを容易に把握でき、適切なデコード処理を行うことが可能となる。   In the transmission / reception system 10 shown in FIG. 1, a scalability extension descriptor (scalability_extension_descriptor) or the like is inserted into a layer of the transport stream TS on the transmission side. Therefore, for example, the receiving side can easily grasp the layer information in the layer coding, the configuration information of the video stream included in the transport stream TS, and perform an appropriate decoding process.

また、図1に示す送受信システム10においては、受信側において、受信されたビデオストリームからデコード能力(Decoder temporal layer capability)に応じた所定階層以下の階層のピクチャの符号化画像データが選択的に圧縮データバッファ204に取り込まれてデコードされるものである。そのため、例えば、デコード能力に応じた適切なデコード処理が可能となる。   In the transmission / reception system 10 illustrated in FIG. 1, the receiving side selectively compresses coded image data of a picture of a layer of a predetermined layer or less according to a decoding capability (Decoder temporal layer capability) from a received video stream. The data is captured by the data buffer 204 and decoded. Therefore, for example, it is possible to perform an appropriate decoding process according to the decoding capability.

また、図1に示す送受信システム10においては、受信側において、選択的に圧縮データバッファ204に取り込まれる各ピクチャの符号化画像データのデコードタイムスタンプを書き換えて低階層ピクチャのデコード間隔を調整する機能を持つものである。そのため、例えば、デコーダ205のデコード能力が低い場合であっても無理のないデコード処理が可能となる。   Further, in the transmission / reception system 10 shown in FIG. 1, the function of adjusting the decoding interval of the low-level picture by rewriting the decoding time stamp of the coded image data of each picture selectively taken into the compressed data buffer 204 on the receiving side. With Therefore, for example, even when the decoding capability of the decoder 205 is low, a reasonable decoding process can be performed.

また、図1に示す送受信システム10においては、受信側において、復号化後の各ピクチャの画像データのフレームレートをポスト処理部207で表示能力に合わせるものである。そのため、例えば、デコード能力が低い場合であっても、高表示能力にあったフレームレートの画像データを得ることが可能となる。   In the transmission / reception system 10 shown in FIG. 1, on the receiving side, the post-processing unit 207 adjusts the frame rate of the image data of each decoded picture to the display capability. Therefore, for example, even when the decoding capability is low, it is possible to obtain image data at a frame rate that is compatible with the high display capability.

<2.変形例>
なお、上述実施の形態においては、ビデオストリームに含まれる各ピクチャの符号化画像データが所定数の階層組のうちどの階層組に属するピクチャの符号化画像データであるかを識別する識別情報を、PESパケットのヘッダ(PESヘッダ)に挿入する例を示した。しかし、この識別情報の挿入位置は、これに限定されるものではない。
<2. Modification>
Note that, in the above-described embodiment, identification information for identifying which coded image data of each picture included in the video stream is coded image data of a picture belonging to which hierarchical group out of a predetermined number of hierarchical groups, An example in which the PES packet is inserted into the header (PES header) of the PES packet has been described. However, the insertion position of the identification information is not limited to this.

例えば、マルチプレクサ104(図2参照)は、この識別情報を、アダプテーションフィールドを持つTSパケットの、当該アダプテーションフィールドに挿入してよい。マルチプレクサ104は、例えば、複数の階層を低階層組と高階層組に二分する場合、アダプテーションフィールドに存在する、周知のエレメンタリ・ストリーム・プライオリティ・インジケータ(elementary_stream_priority_indicator)の1ビットフィールドを利用する。   For example, the multiplexer 104 (see FIG. 2) may insert this identification information into the adaptation field of the TS packet having the adaptation field. For example, when dividing a plurality of layers into a lower layer set and a higher layer set, the multiplexer 104 uses a 1-bit field of a well-known elementary stream priority indicator (elementary_stream_priority_indicator) existing in the adaptation field.

この1ビットフィールドは、後続するTSパケットのペイロードに、低階層側の階層組のピクチャの符号化画像データをペイロードに持つPESパケットを含む場合は“1”、つまり優先度が高く設定される。一方、この1ビットフィールドは、後続するTSパケットのペイロードに、低階層側の階層組のピクチャの符号化画像データをペイロードに持つPESパケットを含む場合“0”、つまり優先度が低く設定される。   This 1-bit field is set to “1” when the payload of the subsequent TS packet includes a PES packet having coded image data of a picture of a lower hierarchical set in the payload, that is, a higher priority. On the other hand, this 1-bit field is set to “0” when the payload of the subsequent TS packet includes a PES packet having the coded image data of the picture of the lower layer set in the payload, that is, the priority is set lower. .

図25は、アダプテーションフィールドの配置例を示している。この例は、複数の階層を低階層組と高階層組に二分されている場合であって、エレメンタリ・ストリーム・プライオリティ・インジケータ(elementary_stream_priority_indicator)の1ビットフィールドを利用した場合の例である。   FIG. 25 shows an example of the arrangement of the adaptation fields. This example is a case where a plurality of hierarchies are divided into a lower hierarchy set and a higher hierarchy set, and a case where a 1-bit field of an elementary stream priority indicator (elementary_stream_priority_indicator) is used.

図示の例において、1ピクチャの符号化画像データをペイロードに持つPESパケットを分割して持つ所定数のTSパケット群毎に、その直前に、アダプテーションフィールドを持つTSパケットが配置される。この場合、その1ピクチャが低階層側の階層組のピクチャであるとき、エレメンタリ・ストリーム・プライオリティ・インジケータの1ビットフィールドは“1”に設定される。一方、その1ピクチャが高階層側の階層組のピクチャであるとき、エレメンタリ・ストリーム・プライオリティ・インジケータの1ビットフィールドは“0”に設定される。   In the example shown in the figure, a TS packet having an adaptation field is arranged immediately before each of a predetermined number of TS packet groups having divided PES packets each having coded image data of one picture as a payload. In this case, when the one picture is a picture of the lower layer set, the 1-bit field of the elementary stream priority indicator is set to “1”. On the other hand, when the one picture is a picture of a layer set on the higher layer side, the 1-bit field of the elementary stream priority indicator is set to “0”.

図25に示すように、アダプテーションフィールドを持つTSパケットを配置することで、受信側では、ビデオストリームに含まれるピクチャの符号化画像データ毎に、いずれの階層組に属するピクチャの符号化データであるかを容易に識別可能となる。なお、図25の配置例では、1ピクチャ毎にアダプテーションフィールドを持つTSパケットを配置するように示しているが、ピクチャが属する階層組が切り替わるごとに、その直前にアダプテーションフィールドを持つTSパケットを配置するようにされてもよい。   As shown in FIG. 25, by arranging a TS packet having an adaptation field, on the receiving side, encoded image data of a picture included in a video stream is encoded data of a picture belonging to any hierarchical group. Can be easily identified. In the arrangement example of FIG. 25, a TS packet having an adaptation field is arranged for each picture. However, each time a hierarchical group to which a picture belongs is switched, a TS packet having an adaptation field is arranged immediately before. It may be made to do.

図26は、階層組の識別情報を上述したようにアダプテーションフィールドに挿入する場合における、送信装置100のマルチプレクサ104Aの構成例を示している。この図26において、図12と対応する部分には同一符号を付し、その詳細説明は省略する。このマルチプレクサ104Aは、図12のマルチプレクサ104におけるPESプライオリティ発生部141の代わりに、アダプテーションフィールド・プライオリティ指示部146を有するものとされる。   FIG. 26 illustrates a configuration example of the multiplexer 104A of the transmission device 100 when the identification information of the hierarchical set is inserted into the adaptation field as described above. 26, portions corresponding to those in FIG. 12 are denoted by the same reference numerals, and detailed description thereof will be omitted. This multiplexer 104A has an adaptation field priority instructing unit 146 instead of the PES priority generating unit 141 in the multiplexer 104 of FIG.

プライオリティ指示部146には、CPU101から、階層数(Number of layers)とストリーム数(Number of streams)の情報が供給される。プライオリティ指示部146は、階層数で示される複数の階層を2以上の所定数の階層組に分割した場合における、各階層組の優先度情報を発生する。例えば、2分割される場合には、エレメンタリ・ストリーム・プライオリティ・インジケータの1ビットフィールドに挿入すべき値(低階層組は“1”、高階層組は“0”)を発生する。   The priority instruction unit 146 is supplied with information on the number of layers (Number of layers) and the number of streams (Number of streams) from the CPU 101. The priority instructing unit 146 generates priority information of each layer set when a plurality of layers indicated by the number of layers are divided into two or more predetermined number of layer sets. For example, in the case of division into two, a value to be inserted into the 1-bit field of the elementary stream priority indicator (“1” for the lower layer set and “0” for the higher layer set) is generated.

プライオリティ指示部146で発生される各階層組の優先度情報は、トランスポートパケット化部145に供給される。トランスポートパケット化部145は、1ピクチャの符号化画像データをペイロードに持つPESパケットを分割して持つ所定数のTSパケット群毎に、その直前に、アダプテーションフィールドを持つTSパケットを配置する。そして、その場合、トランスポートパケット化部145は、アダプテーションフィールドに、ピクチャが属する階層組に対応した優先度情報を識別情報として挿入する。   The priority information of each layer set generated by the priority instructing unit 146 is supplied to the transport packetizing unit 145. The transport packetizing unit 145 arranges a TS packet having an adaptation field immediately before each of a predetermined number of TS packet groups having divided PES packets each having coded image data of one picture as a payload. Then, in that case, the transport packetizing unit 145 inserts, into the adaptation field, priority information corresponding to the layer set to which the picture belongs as identification information.

図27は、階層組の識別情報を上述したようにアダプテーションフィールドに挿入する場合におけるトランスポートストリームTSの構成例を示している。この構成例は、上述の図14に示す構成例とほぼ同様の構成とされている。この構成例では、アダプテーションフィールドを持つTSパケットが存在し、このアダプテーションフィールドに、各ピクチャが属する階層組を識別するための識別情報が挿入される。例えば、複数の階層が低階層組と高階層組に二分される場合には、エレメンタリ・ストリーム・プライオリティ・インジケータ(elementary_stream_priority_indicator)の1ビットフィールドが利用される。   FIG. 27 illustrates a configuration example of the transport stream TS when the identification information of the hierarchical set is inserted into the adaptation field as described above. This configuration example is substantially the same as the configuration example shown in FIG. 14 described above. In this configuration example, there is a TS packet having an adaptation field, and identification information for identifying a layer set to which each picture belongs is inserted into the adaptation field. For example, when a plurality of layers are divided into a lower layer set and a higher layer set, a 1-bit field of an elementary stream priority indicator (elementary_stream_priority_indicator) is used.

図28は、階層組の識別情報を上述したようにアダプテーションフィールドに挿入する場合における、受信装置200のデマルチプレクサ203Aの構成例を示している。この図28において、図16と対応する部分には同一符号を付し、その詳細説明は省略する。このデマルチプレクサ203Aは、図16のデマルチプレクサ203における識別情報抽出部239の代わりに、識別情報抽出部242を有するものとされる。   FIG. 28 illustrates a configuration example of the demultiplexer 203A of the reception device 200 when the identification information of the hierarchical set is inserted into the adaptation field as described above. 28, portions corresponding to those in FIG. 16 are denoted by the same reference numerals, and detailed description thereof will be omitted. This demultiplexer 203A has an identification information extraction unit 242 instead of the identification information extraction unit 239 in the demultiplexer 203 of FIG.

この識別情報抽出部242は、アダプテーションフィールドから識別情報を抽出し、ストリーム構成部241に送る。例えば、複数の階層が低階層組と高階層組に2分されている場合、アダプテーションフィールドの「elementary_stream_priority_indicator」の1ビットフィールドの優先度情報を抽出し、ストリーム構成部241に送る。   The identification information extraction unit 242 extracts identification information from the adaptation field and sends it to the stream composition unit 241. For example, when a plurality of layers are divided into a lower layer group and a higher layer group, the priority information of the 1-bit field of “elementary_stream_priority_indicator” of the adaptation field is extracted and sent to the stream configuration unit 241.

ストリーム構成部241は、PESペイロード抽出部240で取り出される各階層のピクチャの符号化画像データから、デコード能力(Decoder temporal layer capability)に応じた階層組のピクチャの符号化画像データを選択的に取り出し、圧縮データバッファ(cpb)204に送る。この場合、ストリーム構成部241は、PSIテーブル/デスクリプタ抽出部235で得られる階層情報、ストリーム構成情報、識別情報抽出部242で抽出される識別情報(優先度情報)などを参照する。   The stream configuration unit 241 selectively extracts encoded image data of a picture of a layer set according to a decoding capability (Decoder temporal layer capability) from encoded image data of a picture of each layer extracted by the PES payload extraction unit 240. , To the compressed data buffer (cpb) 204. In this case, the stream configuration unit 241 refers to the layer information obtained by the PSI table / descriptor extraction unit 235, the stream configuration information, the identification information (priority information) extracted by the identification information extraction unit 242, and the like.

また、上述実施の形態においては、送信装置100と受信装置200からなる送受信システム10を示したが、本技術を適用し得る送受信システムの構成は、これに限定されるものではない。例えば、受信装置200の部分が、例えば、(HDMI(High-Definition Multimedia Interface)などのデジタルインタフェースで接続されたセットトップボックスおよびモニタの構成などであってもよい。なお、「HDMI」は、登録商標である。   Further, in the above-described embodiment, the transmission / reception system 10 including the transmission device 100 and the reception device 200 has been described, but the configuration of the transmission / reception system to which the present technology can be applied is not limited to this. For example, the part of the receiving device 200 may be, for example, a configuration of a set-top box and a monitor connected by a digital interface such as (High-Definition Multimedia Interface (HDMI). Is a trademark.

また、上述実施の形態においては、コンテナがトランスポートストリーム(MPEG−2 TS)である例を示した。しかし、本技術は、インターネット等のネットワークを利用して受信端末に配信される構成のシステムにも同様に適用できる。インターネットの配信では、MP4やそれ以外のフォーマットのコンテナで配信されることが多い。つまり、コンテナとしては、デジタル放送規格で採用されているトランスポートストリーム(MPEG−2 TS)、インターネット配信で使用されているMP4などの種々のフォーマットのコンテナが該当する。   Further, in the above-described embodiment, an example has been described in which the container is a transport stream (MPEG-2 TS). However, the present technology can be similarly applied to a system configured to be distributed to a receiving terminal using a network such as the Internet. In the Internet distribution, it is often distributed in a container of MP4 or another format. That is, as containers, containers of various formats such as a transport stream (MPEG-2 TS) adopted in the digital broadcasting standard and MP4 used in Internet distribution correspond.

例えば、図29は、MP4ストリームの構成例を示している。このMP4ストリームには、「moov
」、「moof」、「mdat」などのボックスが存在する。「mdat」のボックスに、トラックとして、ビデオの符号化ストリームであるビデオエレメンタリストリーム「track1:video ES1」が存在すると共に、オーディオの符号化ストリームであるオーディオエレメンタリストリーム「track1:audio ES1」が存在する
For example, FIG. 29 illustrates a configuration example of an MP4 stream. This MP4 stream contains "moov
, "Moof", "mdat", etc. In the box of “mdat”, as a track, a video elementary stream “track1: video ES1” that is an encoded stream of video exists, and an audio elementary stream “track1: audio ES1” that is an encoded stream of audio exists. Exists

また、「moof」のボックスには、ヘッダ部分として「mfhd(movie fragment header」が存在し、そのデータ部分として、各トラックに対応した、「track fragment」が存在する。ビデオエレメンタリストリーム「track1:video ES1」に対応した「track1 fragment(video)」には、「Independent and disposal samples」が存在し、その中に、各ピクチャにそれぞれ対応した「SampleDependencyTypeBox」というボックスが挿入されている。   In the box of “moof”, “mfhd (movie fragment header)” exists as a header part, and “track fragment” corresponding to each track exists as a data part thereof. In “track1 fragment (video)” corresponding to “video ES1”, “Independent and disposal samples” exist, and a box called “SampleDependencyTypeBox” corresponding to each picture is inserted therein.

このボックスの中に、各ピクチャの符号化画像データがそれぞれどの階層組に属するピクチャの符号化画像データであるかを識別する識別情報を挿入できる。例えば、複数の階層を最上位層とそれ以外の下位層の2つの階層組に分割する場合、「sample_depends_on」の2ビットフィールドと、「sample_is_depended_on」の2ビットフィールドを利用して、当該識別情報の挿入が可能である。   In this box, it is possible to insert identification information for identifying the coded image data of each picture to which the coded image data of each picture belongs. For example, when dividing a plurality of hierarchies into a two-layer set of the highest layer and the other lower layers, the 2-bit field of "sample_depends_on" and the 2-bit field of "sample_is_depended_on" Insertion is possible.

図30は、「SampleDependencyTypeBox」の構造例(Syntax)を示している。また、図31は、その構造例における主要な情報の内容(Semantics)を示している。この場合、「sample_depends_on」を“1”として他のピクチャを参照するものでIピクチャでないことを示すと共に、「sample_is_depended_on」を“2”として他のピクチャに参照されないことを示すことで、最上位層の組に属するピクチャであるとの識別が可能となる。また、これ以外の状態では、そのピクチャは階層層の階層組に属するピクチャであるとの識別が可能となる。   FIG. 30 illustrates a structural example (Syntax) of “SampleDependencyTypeBox”. FIG. 31 shows the content (Semantics) of main information in the structure example. In this case, “sample_depends_on” is set to “1” to refer to another picture to indicate that it is not an I picture, and “sample_is_depended_on” is set to “2” to indicate that it is not referred to by other pictures. Can be identified as belonging to the set of. In other states, the picture can be identified as a picture belonging to a hierarchical set of hierarchical layers.

なお、「SampleDependencyTypeBox」のボックスを使用する代わりに、新たに定義する、「SampleScalablePriorityBox」というボックスを使用することも考えられる。図32は、「SampleScalablePriorityBox」の構造例(Syntax)を示している。また、図33は、その構造例における主要な情報の内容(Semantics)を示している。   Instead of using the box of “SampleDependencyTypeBox”, a newly defined box called “SampleScalablePriorityBox” may be used. FIG. 32 illustrates a structural example (Syntax) of “SampleScalablePriorityBox”. FIG. 33 shows the contents (Semantics) of main information in the structural example.

この場合、複数の階層を最低階層組と高階層組の2つの階層組に分割する場合、「base_and_priority」の2ビットフィールドを利用して、当該識別情報が挿入される。すなわち、「base_and_priority」を例えば“1”とすることで優先度が低く、高階層組に属するピクチャであるとの識別が可能となる。一方、「base_and_priority」を例えば“2”とすることで優先度が高く、低階層組に属するピクチャであるとの識別が可能となる。   In this case, when dividing a plurality of hierarchies into two hierarchies, a lowest hierarchy and a higher hierarchy, the identification information is inserted using a 2-bit field of “base_and_priority”. That is, by setting “base_and_priority” to, for example, “1”, it is possible to identify a picture having a low priority and belonging to a higher hierarchical set. On the other hand, by setting “base_and_priority” to, for example, “2”, it is possible to identify a picture that has a high priority and belongs to a low hierarchical set.

また、本技術は、以下のような構成を取ることもできる。
(1)動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化し、該符号化された各階層のピクチャの画像データを持つビデオデータを生成する画像符号化部と、
上記生成されたビデオデータを含む所定フォーマットのコンテナを送信する送信部と、
上記複数の階層を2以上の所定数の階層組に分割し、上記ビデオデータをコンテナするパケットに、該ビデオデータに含まれる各ピクチャの符号化画像データがそれぞれどの階層組に属するピクチャの符号化画像データであるかを識別する識別情報を挿入する識別情報挿入部を備える
送信装置。
(2)上記識別情報は、低階層側の階層組ほど高く設定される優先度情報である
前記(1)に記載の送信装置。
(3)上記識別情報は、ペイロードにピクチャ毎の符号化画像データを含むPESパケットのヘッダに挿入される
前記(1)に記載の送信装置。
(4)上記識別情報は、上記ヘッダのPESプライオリティのフィールドを利用して挿入される
前記(3)に記載の送信装置。
(5)上記識別情報は、アダプテーションフィールドを持つTSパケットの、該アダプテーションフィールドに挿入される
前記(1)に記載の送信装置。
(6)上記識別情報は、上記アダプテーションフィールドのESプライオリティインジケータのフィールドを利用して挿入される
前記(5)に記載の送信装置。
(7)上記識別情報は、該当するピクチャのトラックに関連するヘッダのボックスに挿入される
前記(1)に記載の送信装置。
(8)上記画像符号化部は、
上記各階層のピクチャの符号化画像データを持つ単一のビデオストリームを生成するか、あるいは上記各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオデータを生成し、
上記コンテナのレイヤに、該コンテナに含まれるビデオストリームの構成情報を挿入する構成情報挿入部をさらに備える
前記(1)から(7)のいずれかに記載の送信装置。
(9)動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化し、該符号化された各階層のピクチャの画像データを持つビデオデータを生成する画像符号化ステップと、
送信部により、上記生成されたビデオデータを含む所定フォーマットのコンテナを送信する送信ステップと、
上記複数の階層を2以上の所定数の階層組に分割し、上記ビデオデータをコンテナするパケットに、該ビデオデータに含まれる各ピクチャの符号化画像データがそれぞれどの階層組に属するピクチャの符号化画像データであるかを識別する識別情報を挿入する識別情報挿入ステップを有する
送信方法。
(10)動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されることで得られた各階層のピクチャの符号化画像データを持つビデオデータを含む所定フォーマットのコンテナを受信する受信部と、
上記受信されたコンテナに含まれる上記ビデオデータからデコード能力に応じた所定階層以下の階層のピクチャの符号化画像データを選択的にバッファに取り込み、該バッファに取り込まれた各ピクチャの符号化画像データをデコードして、上記所定階層以下の階層のピクチャの画像データを得る画像復号化部を備える
受信装置。
(11)上記複数の階層は2以上の所定数の階層組に分割され、上記ビデオデータをコンテナするパケットに、該ビデオデータに含まれる各ピクチャの符号化画像データがそれぞれどの階層組に属するピクチャの符号化画像データであるかを識別する識別情報が挿入されており、
上記画像復号化部は、上記識別情報に基づいて、上記デコード能力に応じた所定階層組のピクチャの符号化画像データを上記バッファに取り込んでデコードする
前記(10)に記載の受信装置。
(12)上記識別情報は、ペイロードにピクチャ毎の符号化画像データを含むPESパケットのヘッダに挿入されている
前記(11)に記載の受信装置。
(13)上記識別情報は、アダプテーションフィールドを持つTSパケットの、該アダプテーションフィールドに挿入されている
前記(11)に記載の受信装置。
(14)上記識別情報は、該当するピクチャのトラックに関連するヘッダのボックスに挿入されている
前記(11)に記載の送信装置。
(15)上記複数の階層は2以上の所定数の階層組に分割され、上記受信されたコンテナには、上記所定数の階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームが含まれており、
上記画像符号化部は、ストリーム識別情報に基づいて、上記デコード能力に応じた所定階層組のピクチャの符号化画像データを上記バッファに取り込んでデコードする
前記(10)に記載の受信装置。
(16)上記画像復号化部は、
上記所定階層組のピクチャの符号化画像データが複数のビデオストリームに含まれている場合、各ピクチャの符号化画像データをデコードタイミング情報に基づいて1つのストリームにして上記バッファに取り込む
前記(15)に記載の受信装置。
(17)上記画像復号化部は、
上記選択的にバッファに取り込まれる各ピクチャの符号化画像データのデコードタイムスタンプを書き換えて低階層ピクチャのデコード間隔を調整する機能を持つ
前記(10)から(16)のいずれかに記載の受信装置。
(18)上記画像復号化部で得られる各ピクチャの画像データのフレームレートを表示能力に合わせるポスト処理部をさらに備える
前記(10)から(17)のいずれかに記載の受信装置。
(19)受信部により、動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されることで得られた各階層のピクチャの符号化画像データを持つビデオデータを含む所定フォーマットのコンテナを受信する受信ステップと、
上記受信されたコンテナに含まれる上記ビデオデータからデコード能力に応じた所定階層以下の階層のピクチャの符号化画像データを選択的にバッファに取り込み、該バッファに取り込まれた各ピクチャの符号化画像データをデコードして、上記所定階層以下の階層のピクチャの画像データを得る画像復号化ステップを有する
受信方法。
In addition, the present technology may have the following configurations.
(1) The image data of each picture constituting the moving image data is classified into a plurality of layers, the image data of the classified picture of each layer is encoded, and the encoded image data of the picture of each layer is encoded. An image encoding unit for generating video data having
A transmitting unit that transmits a container of a predetermined format including the generated video data,
The plurality of hierarchies are divided into a predetermined number of hierarchies of two or more, and in a packet for container of the video data, the coded image data of each picture included in the video data is coded for each of the hierarchies. A transmission device including an identification information insertion unit for inserting identification information for identifying whether the data is image data.
(2) The transmitting device according to (1), wherein the identification information is priority information that is set higher for a lower layer group.
(3) The transmission device according to (1), wherein the identification information is inserted into a header of a PES packet including encoded image data for each picture in a payload.
(4) The transmitting device according to (3), wherein the identification information is inserted using a PES priority field of the header.
(5) The transmitting device according to (1), wherein the identification information is inserted into the adaptation field of a TS packet having an adaptation field.
(6) The transmitting device according to (5), wherein the identification information is inserted using an ES priority indicator field of the adaptation field.
(7) The transmitting device according to (1), wherein the identification information is inserted into a box of a header related to a track of a corresponding picture.
(8) The image encoding unit includes:
Either generate a single video stream having the coded image data of the picture of each layer, or generate a predetermined number of video data each having the coded image data of the picture of each layer set,
The transmission device according to any one of (1) to (7), further including a configuration information insertion unit configured to insert configuration information of a video stream included in the container into a layer of the container.
(9) The image data of each picture constituting the moving image data is classified into a plurality of layers, the image data of the classified pictures of each layer is encoded, and the encoded image data of the pictures of each layer is encoded. An image encoding step for generating video data having
A transmitting unit for transmitting a container of a predetermined format including the generated video data,
The plurality of hierarchies are divided into a predetermined number of hierarchies of two or more, and in a packet for container of the video data, the coded image data of each picture included in the video data is coded for each of the hierarchies. A transmission method comprising an identification information insertion step of inserting identification information for identifying whether the data is image data.
(10) A container of a predetermined format including video data having coded image data of a picture of each layer obtained by classifying and coding image data of each picture constituting moving image data into a plurality of layers. A receiving unit for receiving the
From the video data included in the received container, encoded image data of a picture of a layer lower than a predetermined layer corresponding to a decoding capability is selectively captured into a buffer, and the encoded image data of each picture captured in the buffer is stored. And a picture decoding unit that decodes the picture and obtains picture data of a picture of a layer lower than the predetermined layer.
(11) The plurality of hierarchies are divided into a predetermined number of hierarchies of two or more, and a packet that contains the video data includes a picture to which the coded image data of each picture included in the video data belongs. Identification information for identifying whether the image data is encoded image data is inserted,
The receiving device according to (10), wherein the image decoding unit fetches coded image data of a picture of a predetermined hierarchical group according to the decoding capability into the buffer and decodes the coded image data based on the identification information.
(12) The receiving device according to (11), wherein the identification information is inserted in a header of a PES packet including encoded image data for each picture in a payload.
(13) The receiving device according to (11), wherein the identification information is inserted into the adaptation field of a TS packet having an adaptation field.
(14) The transmitting device according to (11), wherein the identification information is inserted in a box of a header related to a track of a corresponding picture.
(15) The plurality of layers are divided into two or more predetermined number of layer sets, and the received container includes the predetermined number of video streams each having encoded image data of pictures of the predetermined number of layer sets. Is included,
The receiving device according to (10), wherein the image encoding unit captures encoded image data of a picture of a predetermined hierarchical group corresponding to the decoding capability into the buffer and decodes the encoded image data based on the stream identification information.
(16) The image decoding unit includes:
When the coded image data of the picture of the predetermined hierarchical set is included in a plurality of video streams, the coded image data of each picture is taken into the buffer as one stream based on the decode timing information. The receiving device according to claim 1.
(17) The image decoding unit includes:
The receiving device according to any one of (10) to (16), having a function of adjusting a decoding interval of a low-layer picture by rewriting a decode time stamp of encoded image data of each picture selectively taken into a buffer. .
(18) The receiving device according to any one of (10) to (17), further including a post-processing unit that adjusts a frame rate of image data of each picture obtained by the image decoding unit to a display capability.
(19) Includes video data having coded image data of pictures of each layer obtained by classifying and encoding the image data of each picture constituting the moving image data into a plurality of layers by the receiving unit. A receiving step of receiving a container of a predetermined format;
From the video data included in the received container, coded image data of a picture of a predetermined layer or less according to the decoding capability is selectively captured into a buffer, and the coded image data of each picture captured in the buffer is stored. A decoding method for decoding image data to obtain image data of a picture of a layer lower than the predetermined layer.

本技術の主な特徴は、ビデオデータをコンテナするパケットに、このビデオデータに含まれる各ピクチャの符号化画像データがそれぞれどの階層組に属するピクチャの符号化画像データであるかを識別する識別情報を挿入することで、受信側においては、この識別情報を利用して、デコード能力に応じた所定階層以下の階層のピクチャの符号化画像データを選択的にデコードすることを容易に可能としたことである(図12参照)。   The main feature of the present technology is that, in a packet for container of video data, identification information for identifying the coded image data of each picture belonging to each of the coded image data of the pictures included in the video data. , The receiving side can easily use the identification information to selectively decode the coded image data of a picture of a layer lower than a predetermined layer corresponding to the decoding capability. (See FIG. 12).

10・・・送受信システム
100・・・送信装置
101・・・CPU
102・・・エンコーダ
103・・・圧縮データバッファ(cpb)
104,104A・・・マルチプレクサ
105・・・送信部
141・・・PESプライオリティ発生部
142・・・セクションコーディング部
143-1〜143-N・・・PESパケット化部
144・・・スイッチ部
145・・・トランスポートパケット化部
146・・・アダプテーションフィールド・プライオリティ指示部
200・・・受信装置
201・・・CPU
202・・・受信部
203・・・デマルチプレクサ
204・・・圧縮データバッファ(cpb)
205・・・デコーダ
206・・・非圧縮データバッファ(dpb)
207・・・ポスト処理部
231・・・TSアダプテーションフィールド抽出部
232・・・クロック情報抽出部
233・・・TSペイロード抽出部
234・・・セクション抽出部
235・・・PSIテーブル/デスクリプタ抽出部
236・・・PESパケット抽出部
237・・・PESヘッダ抽出部
238・・・タイムスタンプ抽出部
239・・・識別情報抽出部
240・・・PESペイロード抽出部
241・・・ストリーム構成部
242・・・識別情報抽出部
251・・・テンポラルID解析部
252・・・対象階層選択部
253・・・デコード部
271・・・補間部
272・・・サブサンプル部
273・・・スイッチ部
10 Transmission / Reception System 100 Transmission Device 101 CPU
102: encoder 103: compressed data buffer (cpb)
104, 104A... Multiplexer 105... Transmitting section 141... PES priority generating section 142... Section coding section 143-1 to 143-N... PES packetizing section 144. ..Transport packetizer 146 Adaptation field priority indicator 200 Receiver 201 CPU
202: receiving unit 203: demultiplexer 204: compressed data buffer (cpb)
205: decoder 206: uncompressed data buffer (dpb)
207: Post-processing unit 231: TS adaptation field extracting unit 232: Clock information extracting unit 233: TS payload extracting unit 234: Section extracting unit 235: PSI table / descriptor extracting unit 236 ... PES packet extraction unit 237 ... PES header extraction unit 238 ... time stamp extraction unit 239 ... identification information extraction unit 240 ... PES payload extraction unit 241 ... stream construction unit 242 ... Identification information extracting unit 251 Temporal ID analyzing unit 252 Target layer selecting unit 253 Decoding unit 271 Interpolating unit 272 Sub-sample unit 273 Switch unit

Claims (5)

動画像データを構成する各ピクチャの画像データを階層符号化し、低階層側のピクチャの符号化画像データを持つ第1のビデオストリームと高階層側のピクチャの符号化画像データを持つ第2のビデオストリームを生成する画像符号化部を備え
上記第1のビデオストリームのSPSのNALユニットに、上記第1のビデオストリームのレベル指定値と、上記第1のビデオストリームと上記第2のビデオストリームを合わせたビデオストリームのレベル指定値が挿入されており、
上記画像符号化部で生成された上記第1のビデオストリームおよび上記第2のビデオストリームを含むと共に、上記第1のビデオストリームに対応して該第1のビデオストリームに含まれる各ピクチャの符号化画像データが上記低階層側のピクチャの符号化画像データに属することを示す第1のストリーム識別情報と、上記第2のビデオストリームに対応して該第2のビデオストリームに含まれる各ピクチャの符号化画像データが上記高階層側のピクチャの符号化画像データに属することを示す第2のストリーム識別情報と、上記第1のビデオストリームに対応して上記低階層側のピクチャのみからなるフレームレートに基づいた第1値が挿入された第1のデスクリプタと、上記第2のビデオストリームに対応して上記低階層側のピクチャと上記高階層側のピクチャとからなるフレームレートに基づいた第2の値が挿入された第2のデスクリプタを含む多重化ストリームを生成する多重化ストリーム生成部と、
上記多重化ストリーム生成部で生成された上記多重化ストリームを送信する送信部をさらに備える
送信装置。
The image data of each picture constituting the moving image data is hierarchically encoded, and a first video stream having encoded image data of a lower layer side picture and a second video stream having encoded image data of a higher layer side picture includes the picture coding unit for generating a stream,
A level specification value of the first video stream and a level specification value of a video stream combining the first video stream and the second video stream are inserted into the NAL unit of the SPS of the first video stream. And
Together comprising said first video stream and the second video stream generated by the picture coding unit, reference numerals of the pictures included in the video stream of the first in correspondence with the first video stream of each picture of image data is included in the first and stream identification information, the second video stream of the second corresponding to the video stream as belonging to the coded image data of the picture of the lower layer side Second stream identification information indicating that the coded image data belongs to the coded image data of the higher layer picture, and a frame rate consisting of only the lower layer picture corresponding to the first video stream first and descriptors, and the picture of the second corresponding to a video stream the low hierarchy side of the first value has been inserted, based on A multiplexed stream generation unit that generates a multiplexed stream a second value based on the frame rate consisting of a picture of the serial high hierarchy side comprises a second descriptor that is inserted,
A transmission device further comprising a transmission unit that transmits the multiplexed stream generated by the multiplexed stream generation unit .
画像符号化部が、動画像データを構成する各ピクチャの画像データを階層符号化し、低階層側のピクチャの符号化画像データを持つ第1のビデオストリームと高階層側のピクチャの符号化画像データを持つ第2のビデオストリームを生成する画像符号化ステップを有し
上記第1のビデオストリームのSPSのNALユニットに、上記第1のビデオストリームのレベル指定値と、上記第1のビデオストリームと上記第2のビデオストリームを合わせたビデオストリームのレベル指定値が挿入されており、
多重化ストリーム生成部が、上記画像符号化ステップで生成された上記第1のビデオストリームおよび上記第2のビデオストリームを含むと共に、上記第1のビデオストリームに対応して該第1のビデオストリームに含まれる各ピクチャの符号化画像データが上記低階層側のピクチャの符号化画像データに属することを示す第1のストリーム識別情報と、上記第2のビデオストリームに対応して該第2のビデオストリームに含まれる各ピクチャの符号化画像データが上記高階層側のピクチャの符号化画像データに属することを示す第2のストリーム識別情報と、上記第1のビデオストリームに対応して上記低階層側のピクチャのみからなるフレームレートに基づいた第1値が挿入された第1のデスクリプタと、上記第2のビデオストリームに対応して上記低階層側のピクチャと上記高階層側のピクチャとからなるフレームレートに基づいた第2の値が挿入された第2のデスクリプタを含む多重化ストリームを生成する多重化ストリーム生成ステップと、
送信部が、上記多重化ストリーム生成ステップで生成された上記多重化ストリームを送信する送信ステップをさらに有する
送信方法。
An image encoding unit that hierarchically encodes image data of each picture constituting the moving image data, and a first video stream having encoded image data of a lower layer picture and encoded image data of a higher layer picture Image encoding to generate a second video stream having
A level specification value of the first video stream and a level specification value of a video stream combining the first video stream and the second video stream are inserted into the NAL unit of the SPS of the first video stream. And
Multiplexed stream generating unit, the image coding with including the generated said first video stream and the second video stream in step, the first corresponding to a video stream of the first video stream And first stream identification information indicating that the coded image data of each picture included in the second video stream belongs to the coded image data of the lower layer picture, and the second video stream corresponding to the second video stream. Second stream identification information indicating that the coded image data of each picture included in the stream belongs to the coded image data of the higher layer picture, and the lower layer side corresponding to the first video stream. a first descriptor first value has been inserted based on the frame rate comprising only picture, to the second video stream A multiplexed stream generating step of generating a multiplexed stream by response comprises a second descriptor second value based on the frame rate consisting of a picture of the picture and the high hierarchy side of the lower layer side is inserted ,
A transmission method, further comprising : a transmission step of transmitting the multiplexed stream generated in the multiplexed stream generation step .
動画像データを構成する各ピクチャの画像データが階層符号化されて生成された、低階層側のピクチャの符号化画像データを持つ第1のビデオストリームと高階層側のピクチャの符号化画像データを持つ第2のビデオストリームを含むと共に、上記第1のビデオストリームに対応して該第1のビデオストリームに含まれる各ピクチャの符号化画像データが上記低階層側のピクチャの符号化画像データに属することを示す第1のストリーム識別情報と、上記第2のビデオストリームに対応して該第2のビデオストリームに含まれる各ピクチャの符号化画像データが上記高階層側のピクチャの符号化画像データに属することを示す第2のストリーム識別情報と、上記第1のビデオストリームに対応して上記低階層側のピクチャのみからなるフレームレートに基づいた第1値が挿入された第1のデスクリプタと、上記第2のビデオストリームに対応して上記低階層側のピクチャと上記高階層側のピクチャとからなるフレームレートに基づいた第2の値が挿入された第2のデスクリプタを含む多重化ストリームを受信する受信部を備え
上記第1のビデオストリームのSPSのNALユニットに、上記第1のビデオストリームのレベル指定値と、上記第1のビデオストリームと上記第2のビデオストリームを合わせたビデオストリームのレベル指定値が挿入されており、
上記第1のストリーム識別情報および上記第2のストリーム識別情報と、上記第1の値および上記第2の値に基づいて、上記多重化ストリームから、上記第1のビデオストリームのみ、あるいは上記第1のビデオストリームおよび上記第2のビデオストリームの双方を抽出してデコード処理をする処理部をさらに備える
受信装置。
A first video stream having encoded image data of a lower layer side picture and encoded image data of a higher layer side picture, which are generated by hierarchically encoding the image data of each picture constituting the moving image data, together comprising a second video stream having, in the first encoded image data of each picture included in the video stream of the first corresponding to the video stream of the picture of the lower layer side coded image data First stream identification information indicating that the image data belongs to the second video stream, and coded image data of each picture included in the second video stream corresponding to the second video stream. a second stream identification information indicating that it belongs to, in correspondence with the first video stream frame comprising only a picture of the lower layer side A first descriptor first value based on the rate is inserted, the second based on the frame rate corresponding to the second video stream consists of a picture of the lower layer side of the picture and the high hierarchy side A receiving unit that receives a multiplexed stream including the second descriptor in which the value of
A level specification value of the first video stream and a level specification value of a video stream combining the first video stream and the second video stream are inserted into the NAL unit of the SPS of the first video stream. And
Based on the first stream identification information and the second stream identification information and the first value and the second value, from the multiplexed stream, the first video stream only or the first video stream The receiving apparatus further comprising a processing unit that extracts and decodes both the video stream and the second video stream.
上記処理部は、さらに、上記デコードを行って得られた各ピクチャの画像データのフレームレートを表示能力に合わせる処理をする
請求項3に記載の受信装置。
The receiving device according to claim 3, wherein the processing unit further performs a process of adjusting a frame rate of image data of each picture obtained by performing the decoding to a display capability.
受信部が、動画像データを構成する各ピクチャの画像データが階層符号化されて生成された、低階層側のピクチャの符号化画像データを持つ第1のビデオストリームと高階層側のピクチャの符号化画像データを持つ第2のビデオストリームを含むと共に、上記第1のビデオストリームに対応して該第1のビデオストリームに含まれる各ピクチャの符号化画像データが上記低階層側のピクチャの符号化画像データに属することを示す第1のストリーム識別情報と、上記第2のビデオストリームに対応して該第2のビデオストリームに含まれる各ピクチャの符号化画像データが上記高階層側のピクチャの符号化画像データに属することを示す第2のストリーム識別情報と、上記第1のビデオストリームに対応して上記低階層側のピクチャのみからなるフレームレートに基づいた第1値が挿入された第1のデスクリプタと、上記第2のビデオストリームに対応して上記低階層側のピクチャと上記高階層側のピクチャとからなるフレームレートに基づいた第2の値が挿入された第2のデスクリプタを含む多重化ストリームを受信する受信ステップを有し
上記第1のビデオストリームのSPSのNALユニットに、上記第1のビデオストリームのレベル指定値と、上記第1のビデオストリームと第2のビデオストリームを合わせたビデオストリームのレベル指定値が挿入されており、
処理部が、上記第1のストリーム識別情報および上記第2のストリーム識別情報と、上記第1の値および上記第2の値に基づいて、上記多重化ストリームから、上記第1のビデオストリームのみ、あるいは上記第1のビデオストリームおよび上記第2のビデオストリームの双方を抽出してデコード処理をする処理ステップをさらに有する
受信方法。
A receiving unit configured to generate a first video stream having encoded image data of a lower layer side picture and a code of a higher layer side picture, which are generated by hierarchically encoding the image data of each picture constituting the moving image data; along with comprising a second video stream with the image data, the encoded image data of each picture included in the first video stream corresponding to the first video stream of the picture of the lower layer side code First stream identification information indicating that the picture belongs to the coded image data, and the coded image data of each picture included in the second video stream corresponding to the second video stream is the a second stream identification information indicating that it belongs to the encoded image data, the only picture corresponding the lower layer side to the first video stream A first descriptor first value has been inserted, based on the frame rate that, based on the frame rate corresponding to the second video stream consists of a picture of the picture and the high hierarchy side of the lower layer side has a receiving step in which the second value receives a multiplexed stream including a second descriptor that is inserted,
A level specification value of the first video stream and a level specification value of a video stream combining the first video stream and the second video stream are inserted into the NAL unit of the SPS of the first video stream. Yes,
A processing unit that, based on the first stream identification information and the second stream identification information and the first value and the second value, outputs only the first video stream from the multiplexed stream; Alternatively, a receiving method further comprising a processing step of extracting and decoding both the first video stream and the second video stream.
JP2018233539A 2018-12-13 2018-12-13 Transmitting device, transmitting method, receiving device and receiving method Active JP6648811B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018233539A JP6648811B2 (en) 2018-12-13 2018-12-13 Transmitting device, transmitting method, receiving device and receiving method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018233539A JP6648811B2 (en) 2018-12-13 2018-12-13 Transmitting device, transmitting method, receiving device and receiving method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017175863A Division JP6508270B2 (en) 2017-09-13 2017-09-13 Transmission apparatus, transmission method, reception apparatus and reception method

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019228894A Division JP6773205B2 (en) 2019-12-19 2019-12-19 Transmitter, transmitter, receiver and receiver

Publications (2)

Publication Number Publication Date
JP2019062566A JP2019062566A (en) 2019-04-18
JP6648811B2 true JP6648811B2 (en) 2020-02-14

Family

ID=66176858

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018233539A Active JP6648811B2 (en) 2018-12-13 2018-12-13 Transmitting device, transmitting method, receiving device and receiving method

Country Status (1)

Country Link
JP (1) JP6648811B2 (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11112569A (en) * 1997-10-07 1999-04-23 Matsushita Electric Ind Co Ltd Data transfer system
US7725593B2 (en) * 2005-07-15 2010-05-25 Sony Corporation Scalable video coding (SVC) file format
JP2009267537A (en) * 2008-04-22 2009-11-12 Toshiba Corp Multiplexing device for hierarchized elementary stream, demultiplexing device, multiplexing method, and program
WO2012023281A1 (en) * 2010-08-17 2012-02-23 パナソニック株式会社 Video image decoding method, video image encoding method, video image decoding apparatus, and video image encoding apparatus
US10237565B2 (en) * 2011-08-01 2019-03-19 Qualcomm Incorporated Coding parameter sets for various dimensions in video coding
US9648317B2 (en) * 2012-01-30 2017-05-09 Qualcomm Incorporated Method of coding video and storing video content

Also Published As

Publication number Publication date
JP2019062566A (en) 2019-04-18

Similar Documents

Publication Publication Date Title
JP5774652B2 (en) Transmitting apparatus, transmitting method, receiving apparatus, and receiving method
JP7192910B2 (en) Transmission method and transmission device
JP2020014260A (en) Transmission/reception system and transmission/reception method
JP6950802B2 (en) Transmission method and transmitter
JP5905147B2 (en) Transmitting apparatus, transmitting method, receiving apparatus, and receiving method
JP6508270B2 (en) Transmission apparatus, transmission method, reception apparatus and reception method
JP2022126774A (en) Receiving device
JP6648811B2 (en) Transmitting device, transmitting method, receiving device and receiving method
JP7230981B2 (en) Receiving device and receiving method
JP6773205B2 (en) Transmitter, transmitter, receiver and receiver
JP5905148B2 (en) Transmitting apparatus, transmitting method, receiving apparatus, and receiving method
JP6213482B2 (en) Transmitting apparatus, transmitting method, receiving apparatus, and receiving method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190806

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191002

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191230

R151 Written notification of patent or utility model registration

Ref document number: 6648811

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151