JP5928118B2 - Transmitting apparatus, transmitting method, receiving apparatus, and receiving method - Google Patents

Transmitting apparatus, transmitting method, receiving apparatus, and receiving method Download PDF

Info

Publication number
JP5928118B2
JP5928118B2 JP2012093399A JP2012093399A JP5928118B2 JP 5928118 B2 JP5928118 B2 JP 5928118B2 JP 2012093399 A JP2012093399 A JP 2012093399A JP 2012093399 A JP2012093399 A JP 2012093399A JP 5928118 B2 JP5928118 B2 JP 5928118B2
Authority
JP
Japan
Prior art keywords
image data
view
video stream
data
views
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012093399A
Other languages
Japanese (ja)
Other versions
JP2013106341A (en
JP2013106341A5 (en
Inventor
塚越 郁夫
郁夫 塚越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012093399A priority Critical patent/JP5928118B2/en
Publication of JP2013106341A publication Critical patent/JP2013106341A/en
Publication of JP2013106341A5 publication Critical patent/JP2013106341A5/ja
Application granted granted Critical
Publication of JP5928118B2 publication Critical patent/JP5928118B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本技術は、送信装置、送信方法、受信装置および受信方法に関し、特に、受信側で立体画像(3次元画像)の表示を良好に行うための送信装置等に関する。   The present technology relates to a transmission device, a transmission method, a reception device, and a reception method, and more particularly to a transmission device and the like for favorably displaying a stereoscopic image (three-dimensional image) on the reception side.

従来、3次元画像(立体画像)を表示するシステムとして、様々なものが知られている。例えば、特許文献1に記載されているように、視差を有する左眼画像および右眼画像を所定周期で交互にディスプレイに表示し、これら左眼画像および右眼画像を、その表示に同期して駆動される液晶シャッタを備えるシャッタメガネで観察する方法が知られている。   Conventionally, various systems are known as systems for displaying a three-dimensional image (stereoscopic image). For example, as described in Patent Document 1, a left-eye image and a right-eye image having parallax are alternately displayed on a display at a predetermined cycle, and the left-eye image and the right-eye image are synchronized with the display. A method of observing with shutter glasses including a liquid crystal shutter to be driven is known.

特開平9−138384号公報JP-A-9-138384

3次元画像(立体画像)の裸眼観賞を可能にする方式に、N個のビュー(view)を持つマルチビュー構成による方法が考えられる。その場合、全てのビューの画像データを伝送すると、伝送帯域が増大する懸念がある。そこで、全てのビューの画像データを伝送する代わりに、1つのビュー以上、例えば2つのビューの画像データを伝送し、受信側で伝送されたビュー以外のビューの画像データを補間処理で生成することも考えられる。   As a method for enabling naked-eye viewing of a three-dimensional image (stereoscopic image), a method using a multi-view configuration having N views can be considered. In that case, if image data of all views is transmitted, there is a concern that the transmission band increases. Therefore, instead of transmitting image data of all views, image data of one view or more, for example, two views is transmitted, and image data of views other than the view transmitted on the receiving side is generated by interpolation processing. Is also possible.

図31は、その場合における画像送受信システム50の構成例を示している。送信側においては、N個のカメラ51-1〜51-Nで撮像されて得られたN個のビュー(View 1・・・View N)の画像データからビューセレクタ52で例えば2つのビューの画像データが選択される。そして、この2つのビューの画像データをエンコーダ53によって符号化して得られる例えば2つのビデオストリーム(1st video, 2nd video)が受信側に向けて送信される。   FIG. 31 shows a configuration example of the image transmission / reception system 50 in that case. On the transmission side, for example, images of two views are displayed by the view selector 52 from image data of N views (View 1... View N) obtained by imaging with the N cameras 51-1 to 51-N. Data is selected. Then, for example, two video streams (1st video, 2nd video) obtained by encoding the image data of the two views by the encoder 53 are transmitted toward the receiving side.

また、受信側において、送信側から送られてくる2つのビデオストリームがデコーダ54によりデコードされて2つのビューの画像データが得られる。そして、この2つのビューの画像データに基づいて補間処理部55で補間処理が行われて、伝送されなかったその他のビューの画像データが生成され、結果的にN個のビュー(View 1・・・View N)の画像データが得られる。これにより、受信側では、N個のビューの画像データによる3次元画像(立体画像)の裸眼観賞が可能となる。   On the receiving side, two video streams sent from the transmitting side are decoded by the decoder 54 to obtain image data of two views. Then, the interpolation processing unit 55 performs interpolation processing based on the image data of these two views, and generates image data of other views that have not been transmitted. As a result, N views (View 1...・ Image data of View N) can be obtained. Thereby, on the receiving side, it is possible to view the three-dimensional image (stereoscopic image) with N-view image data with naked eyes.

例えば、2つのビューの画像データを伝送する方法として、(1)N個のビューのうち、両端の2つのビューの画像データを伝送する方法、(2)N個のビューのうち、内側の2つのビューの画像データを伝送する方法の2つが考えられる。   For example, as a method of transmitting image data of two views, (1) a method of transmitting image data of two views at both ends of N views, and (2) an inner 2 of N views. Two methods of transmitting image data of one view are conceivable.

(1)の伝送方法については、マルチビューのビュー数が増加すると、伝送される両端の2つのビュー間の相対視差が大きくなる。そのため、伝送されないビューの画像データを補間する際の細かな部分の処理に伴うオクルージョン(occlusion)周辺の補間が困難になり、再生画像の品質が問題となる場合がある。   With regard to the transmission method (1), when the number of multi-view views increases, the relative parallax between the two views at both ends of the transmission increases. For this reason, it is difficult to interpolate around the occlusion associated with the processing of fine parts when interpolating view image data that is not transmitted, and the quality of the reproduced image may be a problem.

図32は、この伝送方法において、ビュー数を5とした場合の受信側の表示部を概略的に示している。ここで、「View_0」は中央のビュー、「View_1」は中央から1つ右のビュー、「View_2」は中央から1つ左のビュー、「View_3」は中央から2つ右、つまり右端のビュー、「View_4」は中央から2つ左、つまり左端のビューを示している。この場合、送信側から「View_3」、「View_4」のビューの画像データのみが送信され、受信側では「View_3」、「View_4」のビューの画像データが受信され、その他の「View_0」、「View_1」、「View_2」のビューの画像データは補間処理で求められる。そして、受信側では、3次元画像(立体画像)の裸眼観賞のために、これらの5つのビューの画像が表示部に合成表示される。なお、図32には、レンチキュラーレンズを示しているが、この代わりにパララックスバリアなどであってもよい。これは、以下の図33においても同様である。   FIG. 32 schematically shows a display unit on the receiving side when the number of views is 5 in this transmission method. Here, “View_0” is the center view, “View_1” is the view one right from the center, “View_2” is the view one left from the center, “View_3” is two views right from the center, that is, the rightmost view, “View_4” indicates a view that is two left from the center, that is, the leftmost view. In this case, only the image data of the view “View_3” and “View_4” is transmitted from the transmission side, the image data of the view “View_3” and “View_4” is received on the reception side, and other “View_0” and “View_1” ”And“ View_2 ”view image data is obtained by interpolation processing. On the receiving side, the images of these five views are synthesized and displayed on the display unit for the naked-eye viewing of the three-dimensional image (stereoscopic image). FIG. 32 shows a lenticular lens, but a parallax barrier or the like may be used instead. The same applies to FIG. 33 below.

(2)の伝送方法については、いわゆる従来のステレオビュー(stereo view)の画像データを伝送し、伝送されないビューの画像データを受信側で補間するものとなる。その際、ステレオビューを構成する2つのビューの内側のビューの画像データの補間は内挿処理によって合成できる。しかし、ステレオビューの外側のビューの画像データの補間は外挿処理によって合成することになる。外挿処理による合成は、オクルージョン(occlusion)などの端点処理に関して高画質を維持することが困難であり、画質劣化の要因になる。   Regarding the transmission method (2), image data of a so-called conventional stereo view is transmitted, and image data of a view that is not transmitted is interpolated on the receiving side. At that time, the interpolation of the image data of the views inside the two views constituting the stereo view can be synthesized by interpolation processing. However, the interpolation of the image data of the view outside the stereo view is synthesized by extrapolation processing. In the synthesis by extrapolation processing, it is difficult to maintain high image quality with respect to end point processing such as occlusion, which causes deterioration in image quality.

図33は、この伝送方法において、ビュー数を5とした場合の受信側の表示部を概略的に示している。ここで、「View_0」は中央のビュー、「View_1」は中央から1つ右のビュー、「View_2」は中央から1つ左のビュー、「View_3」は中央から2つ右、つまり右端のビュー、「View_4」は中央から2つ左、つまり左端のビューを示している。この場合、送信側から「View_1」、「View_2」のビューの画像データのみが送信され、受信側では「View_1」、「View_2」のビューの画像データが受信され、その他の「View_0」、「View_3」、「View_4」のビューの画像データは補間処理で求められる。そして、受信側では、3次元画像(立体画像)の裸眼観賞のために、これらの5つのビューの画像が表示部に合成表示される。   FIG. 33 schematically shows a display unit on the receiving side when the number of views is 5 in this transmission method. Here, “View_0” is the center view, “View_1” is the view one right from the center, “View_2” is the view one left from the center, “View_3” is two views right from the center, that is, the rightmost view, “View_4” indicates a view that is two left from the center, that is, the leftmost view. In this case, only the image data of the view “View_1” and “View_2” is transmitted from the transmission side, the image data of the view “View_1” and “View_2” is received on the reception side, and other “View_0” and “View_3” "," View_4 "view image data is obtained by interpolation processing. On the receiving side, the images of these five views are synthesized and displayed on the display unit for the naked-eye viewing of the three-dimensional image (stereoscopic image).

本技術の目的は、受信側において立体画像の表示処理を良好に行い得るようにすることにある。   An object of the present technology is to enable a stereoscopic image display process to be favorably performed on the reception side.

本技術の概念は、
立体画像表示のための所定数のビューの画像データを取得する画像データ取得部と、
上記取得された画像データが符号化されて得られたビデオストリームを含む所定フォーマットのコンテナを送信する画像データ送信部と、
上記ビデオストリームのレイヤに、少なくとも上記所定数のビューの相対位置関係を示す情報が含まれるビュー構成情報を挿入するビュー構成情報挿入部を備える
送信装置。
The concept of this technology is
An image data acquisition unit that acquires image data of a predetermined number of views for stereoscopic image display;
An image data transmitting unit that transmits a container of a predetermined format including a video stream obtained by encoding the acquired image data;
A transmission apparatus, comprising: a view configuration information insertion unit that inserts view configuration information including information indicating a relative positional relationship of at least the predetermined number of views into a layer of the video stream.

本技術において、画像データ送信部により、所定数のビューの画像データが取得される。例えば、立体画像表示のための複数のビューのうち、少なくとも左端のビューおよび右端のビューの画像データと、左端および右端の間に位置する中間のビュー、例えば中央のビューの画像データが取得される。この場合の画像データは、例えば、カメラで撮像されて得られたもの、あるいは記憶媒体から読み出されて得られたものなどである。   In the present technology, the image data transmission unit acquires image data of a predetermined number of views. For example, image data of at least the left end view and the right end view and an intermediate view located between the left end and the right end, for example, image data of the center view, among a plurality of views for stereoscopic image display are acquired. . The image data in this case is, for example, data obtained by being imaged by a camera or data obtained by being read from a storage medium.

画像データ送信部により、取得された画像データが符号化されて得られたビデオストリームを含む所定フォーマットのコンテナが送信される。例えば、コンテナは、デジタル放送規格で採用されているトランスポートストリーム(MPEG−2 TS)であってもよい。また、例えば、コンテナは、インターネットの配信などで用いられるMP4、あるいはそれ以外のフォーマットのコンテナであってもよい。   The image data transmission unit transmits a container having a predetermined format including a video stream obtained by encoding the acquired image data. For example, the container may be a transport stream (MPEG-2 TS) adopted in the digital broadcasting standard. Further, for example, the container may be MP4 used for Internet distribution or the like, or a container of other formats.

例えば、コンテナが含むビデオストリームにおいて、左端のビューおよび右端のビューの画像データはそれぞれ1つのピクチャのデータとして符号化されていてもよい。また、例えば、コンテナが含むビデオストリームにおいて、左端のビューおよび右端のビューの画像データはインターリーブ処理されて1つのピクチャのデータとして符号化されていてもよい。   For example, in the video stream included in the container, the image data of the left end view and the right end view may be encoded as one picture data. Further, for example, in the video stream included in the container, the image data of the left end view and the right end view may be interleaved and encoded as one picture data.

また、例えば、コンテナが含むビデオストリームは、1つまたは複数のピクチャのデータを含む、ようにされてもよい。この場合、例えば、コンテナが含むビデオストリームが複数のピクチャの符号化データを含むとき、各ピクチャの符号化データの間に境界を示す情報が配置されていてもよい。このように境界を示す情報が配置されることで、各ピクチャの先頭データに瞬時にアクセスすることが可能となる。   Further, for example, a video stream included in a container may include data of one or more pictures. In this case, for example, when the video stream included in the container includes encoded data of a plurality of pictures, information indicating a boundary may be arranged between the encoded data of each picture. By arranging the information indicating the boundary in this way, it is possible to instantaneously access the head data of each picture.

ビュー構成情報挿入部により、ビデオストリームのレイヤに、少なくとも所定数のビューの相対位置関係を示す情報が含まれるビュー構成情報が挿入される。本技術においては、このようにビデオストリームのレイヤにビュー構成情報が挿入されて送信されることから、受信側おいて各ビューの相対位置関係を容易に把握でき、立体画像の表示処理を良好に行うことができる。   The view configuration information insertion unit inserts view configuration information including information indicating the relative positional relationship of at least a predetermined number of views into the layer of the video stream. In this technique, view configuration information is inserted and transmitted in the layer of the video stream in this way, so that the relative positional relationship of each view can be easily grasped on the receiving side, and the stereoscopic image display processing is improved. It can be carried out.

なお、本技術において、例えば、画像データ取得部は、立体画像表示のための複数のビューのうち、少なくとも左端のビューおよび右端のビューの画像データと、左端および右端の間に位置する中間のビューの画像データを取得する、ようにされてもよい。この場合、左端のビューおよび右端のビューの画像データだけでなく、中間のビューの画像データも送信されるので、ビュー間の相対視差が小さく、その他のビューの画像データを補間する際の細かな部分の処理に伴うオクルージョン周辺の補間が容易になり、再生画像の品質向上を図ることができる。また、左端のビューおよび右端のビューの画像データが送信されるので、伝送されないビューの画像データの補間は全て内挿処理によって合成でき、オクルージョンなどの端点処理に関して高画質を維持することが容易となる。   In the present technology, for example, the image data acquisition unit includes at least the left end view and the right end view of the plurality of views for stereoscopic image display, and an intermediate view positioned between the left end and the right end. The image data may be acquired. In this case, not only the image data of the left end view and the right end view but also the image data of the intermediate view is transmitted, so the relative parallax between the views is small, and fine details when interpolating the image data of other views are small. Interpolation around the occlusion associated with the processing of the part becomes easy, and the quality of the reproduced image can be improved. In addition, since the image data of the left end view and the right end view is transmitted, all of the image data of the non-transmitted view can be synthesized by interpolation processing, and it is easy to maintain high image quality with respect to end point processing such as occlusion. Become.

なお、本技術において、例えば、ビデオストリームのレイヤに、このビデオストリーム内の画像データに関するビュー構成情報を挿入するビュー構成情報挿入部をさらに備える、ようにされてもよい。このビュー構成情報により、受信側では、複数のビューの画像データによる3次元画像(立体画像)の裸眼観賞を行うための適切かつ効率的な処理が可能となる。   In the present technology, for example, a view configuration information insertion unit that inserts view configuration information related to image data in the video stream may be further provided in the layer of the video stream. With this view configuration information, the receiving side can perform appropriate and efficient processing for performing naked-eye viewing of a three-dimensional image (stereoscopic image) based on image data of a plurality of views.

この場合、例えば、コンテナのレイヤに、ビデオストリームのレイヤにビュー構成情報の挿入があるか否かを識別するための識別情報を挿入する識別情報挿入部をさらに備える、ようにされてもよい。この識別情報により、受信側では、ビデオストリームのレイヤにビュー構成情報の挿入があるか否かを容易に識別可能となる。   In this case, for example, an identification information insertion unit that inserts identification information for identifying whether or not view configuration information is inserted into the video stream layer may be further provided in the container layer. With this identification information, the reception side can easily identify whether or not view configuration information is inserted in the layer of the video stream.

例えば、コンテナが含むビデオストリームにおいて、所定のビューの画像データが1つのピクチャのデータとして符号化されているとき、このビデオストリームのレイヤに挿入されるビュー構成情報には、所定のビューの位置を示す情報が含まれていてもよい。   For example, when image data of a predetermined view is encoded as data of one picture in a video stream included in a container, the position of the predetermined view is included in the view configuration information inserted in the layer of the video stream. The information to show may be included.

また、例えば、コンテナが含むビデオストリームにおいて、2つのビューの画像データがインターリーブ処理されて1つのピクチャのデータとして符号化されているとき、このビデオストリームのレイヤに挿入されるビュー構成情報には、この2つのビューの位置を示す情報が含まれていてもよい。この場合、例えば、ビュー構成情報には、2つのビューの画像データに対して行われるインターリーブのタイプを示す情報がさらに含まれていてもよい。   Further, for example, when image data of two views is interleaved and encoded as data of one picture in a video stream included in a container, the view configuration information inserted in the layer of this video stream includes: Information indicating the positions of these two views may be included. In this case, for example, the view configuration information may further include information indicating the type of interleaving performed on the image data of the two views.

また、例えば、ビデオストリームのレイヤに挿入されるビュー構成情報には、このビデオストリームの1アクセスユニット内に複数のピクチャのデータが符号されているか否かを示す情報が含まれていてもよい。また、例えば、ビデオストリームのレイヤに挿入されるビュー構成情報には、画像表示に必須のビューの画像データが符号化されているビデオストリームであるか否かを示す情報が含まれていてもよい。また、例えば、ビデオストリームのレイヤに挿入されるビュー構成情報には、水平および/または垂直の所定の解像度に対する画素比率情報が含まれていてもよい。   Further, for example, the view configuration information inserted in the layer of the video stream may include information indicating whether or not data of a plurality of pictures is encoded in one access unit of the video stream. For example, the view configuration information inserted in the layer of the video stream may include information indicating whether or not the image data of the view essential for image display is the encoded video stream. . Further, for example, the view configuration information inserted in the layer of the video stream may include pixel ratio information for a predetermined horizontal and / or vertical resolution.

また、本技術において、例えば、各ビューの間の視差データを取得する視差データ取得部をさらに備え、画像データ送信部は、取得された画像データが符号化されて得られたビデオストリームの他に、取得された視差データが符号化されて得られた視差ストリームを含む所定フォーマットのコンテナを送信する、ようにされてもよい。この場合、受信側では、受信された各ビューの画像データから視差データを生成する処理を行うことなく、送られてくる視差データに基づいて、伝送されない各ビューの画像データを容易に補間合成することが可能となる。   Further, in the present technology, for example, a parallax data acquisition unit that acquires parallax data between the views is further provided, and the image data transmission unit includes, in addition to the video stream obtained by encoding the acquired image data. A container of a predetermined format including a disparity stream obtained by encoding the obtained disparity data may be transmitted. In this case, the reception side easily interpolates and synthesizes the image data of each view that is not transmitted based on the received parallax data without performing the process of generating the parallax data from the received image data of each view. It becomes possible.

また、本技術の他の概念は、
立体画像表示のための複数のビューのうち、少なくとも左端のビューおよび右端のビューの画像データと、上記左端および上記右端の間に位置する中間のビューの画像データとが符号化されて得られたビデオストリームを含む所定フォーマットのコンテナを受信する画像データ受信部と、
上記コンテナに含まれるビデオストリームをデコードして、上記各ビューの画像データを得る画像データ取得部と、
上記各ビューの視差データに基づいて、上記各ビューの間に位置する所定数のビューの画像データを補間処理で取得する補間処理部を備える
受信装置にある。
Other concepts of this technology are
Obtained by encoding image data of at least the left end view and the right end view, and intermediate view image data positioned between the left end and the right end among a plurality of views for stereoscopic image display An image data receiving unit for receiving a container of a predetermined format including a video stream;
An image data acquisition unit that decodes a video stream included in the container to obtain image data of each view;
The reception apparatus includes an interpolation processing unit that acquires image data of a predetermined number of views positioned between the views based on the parallax data of the views by interpolation processing.

本技術において、画像データ受信部により、立体画像表示のための複数のビューのうち、少なくとも左端のビューおよび右端のビューの画像データと、左端および右端の間に位置する中間のビューの画像データとが符号化されて得られたビデオストリームを含む所定フォーマットのストリームが受信される。画像データ取得部により、ストリームに含まれるビデオストリームがデコードされて、各ビューの画像データが得られる。そして、補間処理部により、各ビューの間の視差データに基づいて、各ビューの間に位置する所定数のビューの画像データが補間処理で取得される。   In the present technology, the image data receiving unit includes at least the left-end view and the right-end view image data, and the intermediate view image data positioned between the left-end and the right-end among the plurality of views for stereoscopic image display. A stream of a predetermined format including a video stream obtained by encoding is received. The video data included in the stream is decoded by the image data acquisition unit, and image data of each view is obtained. Then, based on the parallax data between the views, the interpolation processing unit acquires image data of a predetermined number of views located between the views by the interpolation processing.

例えば、コンテナは、視差データが符号化されて得られた視差ストリームを含み、コンテナに含まれる視差ストリームをデコードして視差データを得る視差データ取得部をさらに備える、ようにされてもよい。また、例えば、画像データ取得部で得られた各ビューの画像データに基づいて、視差データを生成する視差データ生成部をさらに備える、ようにされてもよい。   For example, the container may include a parallax data obtained by encoding the parallax data, and further include a parallax data acquisition unit that obtains the parallax data by decoding the parallax stream included in the container. In addition, for example, a parallax data generation unit that generates parallax data based on the image data of each view obtained by the image data acquisition unit may be further provided.

このように本技術においては、立体画像表示のための複数のビューのうち、少なくとも左端のビューおよび右端のビューの画像データと、左端および右端の間に位置する中間のビューの画像データとが受信され、その他のビューは視差データに基づいて補間処理で得るものである。そのため、マルチビュー構成による立体画像の裸眼観賞を良好に行うことができる。   As described above, in the present technology, among the plurality of views for displaying the stereoscopic image, at least the image data of the left end view and the right end view and the image data of the intermediate view positioned between the left end and the right end are received. The other views are obtained by interpolation processing based on the parallax data. Therefore, it is possible to satisfactorily perform autostereoscopic viewing of a stereoscopic image with a multiview configuration.

すなわち、左端のビューおよび右端のビューの画像データだけでなく、それらのビューの中間のビューの画像データも受信されるので、ビュー間の相対視差が小さく、伝送されないビューの画像データを補間する際の細かな部分の処理に伴うオクルージョン周辺の補間が容易になり、再生画像の品質向上を図ることができる。また、左端のビューおよび右端のビューの画像データが受信されるので、伝送されないビューの画像データの補間は全て内挿処理によって合成でき、オクルージョンなどの端点処理に関して高画質を維持することが容易となる。   In other words, not only the image data of the left end view and the right end view but also the image data of the intermediate view between these views is received, so that the relative parallax between the views is small and the image data of the view that is not transmitted is interpolated. Interpolation around the occlusion associated with the processing of fine details becomes easy, and the quality of the reproduced image can be improved. In addition, since the image data of the left end view and the right end view is received, all of the image data of the view that is not transmitted can be synthesized by interpolation processing, and it is easy to maintain high image quality for end point processing such as occlusion. Become.

本技術によれば、受信側において立体画像の表示処理を良好に行うことができる。   According to the present technology, stereoscopic image display processing can be favorably performed on the reception side.

実施の形態としての画像送受信システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the image transmission / reception system as embodiment. 中央、左端および右端の各ビューの画像データがそれぞれ1つのピクチャのデータとして符号化される例を説明するための図である。It is a figure for demonstrating the example in which the image data of each view of a center, a left end, and a right end are each encoded as one picture data. 中央のビューの画像データは1つのピクチャのデータとして符号化され、左端および右端の2つのビューの画像データはインターリーブ処理されて1つのピクチャのデータとして符号化される例を説明するための図である。FIG. 4 is a diagram for explaining an example in which image data of a central view is encoded as data of one picture, and image data of two views at the left end and the right end is interleaved and encoded as data of one picture. is there. 複数のピクチャの符号化データを含むビデオストリームの一例を示す図である。It is a figure which shows an example of the video stream containing the encoding data of several pictures. 3つのピクチャの符号化データが1つのビデオストリームに共存する場合の例を示す図である。It is a figure which shows the example in case the coding data of three pictures coexist in one video stream. N個のビューのうち、左端および右端のビューと、それらの間に位置する中央のビューの画像データを伝送する方法において、ビュー数を5とした場合の受信機の表示部を概略的に示す図である。FIG. 6 schematically shows a display unit of a receiver when the number of views is 5 in a method of transmitting image data of a left end view and a right end view among N views and a central view located between them. FIG. トランスポートストリームを生成する送信データ生成部の構成例を示すブロック図である。It is a block diagram which shows the structural example of the transmission data generation part which produces | generates a transport stream. 送信データ生成部内のビューセレクタにおけるビュー選択状態を示す図である。It is a figure which shows the view selection state in the view selector in a transmission data generation part. ブロック(Block)毎の視差データ(視差ベクトル)の一例を示す図である。It is a figure which shows an example of the parallax data (parallax vector) for every block (Block). ブロック単位の視差データの生成方法の一例を説明するための図である。It is a figure for demonstrating an example of the production | generation method of the parallax data of a block unit. ブロック単位から画素単位への変換処理により画素単位の視差データを生成する方法を説明するための図である。It is a figure for demonstrating the method to produce | generate the parallax data of a pixel unit by the conversion process from a block unit to a pixel unit. 識別情報としてのマルチビュー・ストリーム・コンフィグレーション・デスクリプタの構造例を示す図である。It is a figure which shows the structural example of the multi view stream configuration descriptor as identification information. マルチビュー・ストリーム・コンフィグレーション・デスクリプタの構造例における主要な情報の内容を示す図である。It is a figure which shows the content of the main information in the structural example of a multi view stream configuration descriptor. ビュー構成情報としてのマルチビュー・ストリーム・コンフィグレーション・インフォの構造例を示す図である。It is a figure which shows the structural example of the multi view stream configuration info as view structure information. マルチビュー・ストリーム・コンフィグレーション・インフォの構造例における主要な情報の内容を示す図である。It is a figure which shows the content of the main information in the structural example of multi view stream configuration info. マルチビュー・ストリーム・コンフィグレーション・インフォの構造例における主要な情報の内容を示す図である。It is a figure which shows the content of the main information in the structural example of multi view stream configuration info. マルチビュー・ストリーム・コンフィグレーション・インフォの構造例における主要な情報の内容を示す図である。It is a figure which shows the content of the main information in the structural example of multi view stream configuration info. 「view_count」が示すビュー数と、「view_pair_position_id」が示す2つのビューの位置との関係の一例を示す図である。It is a figure which shows an example of the relationship between the number of views which "view_count" shows, and the position of two views which "view_pair_position_id" shows. 両端の2つのビューペアの画像データと共に、両端よりも内側の2つのビューペアの画像データを送信する場合において、送信側あるいは受信側における視差データの生成例を説明するための図である。It is a figure for demonstrating the production | generation example of the parallax data in a transmission side or a receiving side in the case of transmitting the image data of two view pairs inside the both ends together with image data of two view pairs at both ends. 視差データに基づき、受信側で、各ビューの間に位置するビューの画像データを補間合成する例を説明するための図である。It is a figure for demonstrating the example which interpolates and synthesize | combines the image data of the view located between each view on the receiving side based on parallax data. マルチビュー・ストリーム・コンフィグレーション・インフォがアクセスユニットの“SELs”の部分に「Multiview stream configuration SEI message」として挿入されることを説明するための図である。It is a figure for demonstrating that multiview stream configuration info is inserted in the part of "SELs" of an access unit as "Multiview stream configuration SEI message." 「Multiview stream configuration SEI message」および「userdata_for_multiview_stream_configuration()」の構造例を示す図である。It is a figure which shows the structural example of "Multiview stream configuration SEI message" and "userdata_for_multiview_stream_configuration ()". 「user_data()」の構造例を示す図である。FIG. 4 is a diagram illustrating a structure example of “user_data ()”. トランスポートストリームTSに3つのビデオストリームが含まれる場合の構成例を示す図である。It is a figure which shows the structural example in case the three video streams are included in the transport stream TS. トランスポートストリームTSに2つのビデオストリームが含まれる場合の構成例を示す図である。It is a figure which shows the structural example in case two video streams are contained in the transport stream TS. トランスポートストリームTSに1つのビデオストリームが含まれる場合の構成例を示す図である。It is a figure which shows the structural example in case one video stream is contained in transport stream TS. 画像送受信システムを構成する受信機の構成例を示すブロック図である。It is a block diagram which shows the structural example of the receiver which comprises an image transmission / reception system. スケーリング比の算出例を示す図である。It is a figure which shows the example of calculation of scaling ratio. ビュー補間部における補間合成処理の一例を概略的に示す図である。It is a figure which shows roughly an example of the interpolation synthetic | combination process in a view interpolation part. 画像送受信システムを構成する受信機の他の構成例を示すブロック図である。It is a block diagram which shows the other structural example of the receiver which comprises an image transmission / reception system. 3次元画像(立体画像)の裸眼観賞を可能にする画像送受信システムの構成例を示す図である。It is a figure which shows the structural example of the image transmission / reception system which enables the naked-eye viewing of a three-dimensional image (stereoscopic image). N個のビューのうち、両端の2つのビューの画像データを伝送する方法において、ビュー数を5とした場合の受信側の表示部を概略的に示す図である。It is a figure which shows roughly the display part of the receiving side when the number of views is set to 5 in the method of transmitting the image data of two views at both ends of N views. N個のビューのうち、内側の2つのビューの画像データを伝送する方法において、ビュー数を5とした場合の受信側の表示部を概略的に示す図である。It is a figure which shows roughly the display part of the receiving side when the number of views is set to 5 in the method of transmitting the image data of two inner views among N views.

以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明は以下の順序で行う。
1.実施の形態
2.変形例
Hereinafter, modes for carrying out the invention (hereinafter referred to as “embodiments”) will be described. The description will be given in the following order.
1. Embodiment 2. FIG. Modified example

<1.実施の形態>
[画像送受信システム]
図1は、実施の形態としての画像送受信システム10の構成例を示している。この画像送受信システム10は、放送局100および受信機200により構成されている。放送局100は、コンテナとしてのトランスポートストリームTSを放送波に載せて送信する。
<1. Embodiment>
[Image transmission / reception system]
FIG. 1 shows a configuration example of an image transmission / reception system 10 as an embodiment. The image transmission / reception system 10 includes a broadcasting station 100 and a receiver 200. The broadcasting station 100 transmits a transport stream TS as a container on a broadcast wave.

このトランスポートストリームTSには、立体画像表示のための複数のビューのうち、少なくとも中央のビュー、左端のビューおよび右端のビューの画像データが符号化されて得られたビデオストリームが含まれる。この場合、中央のビューは、左端ビューおよび右端ビューの間に位置する中間ビューを構成している。   The transport stream TS includes a video stream obtained by encoding image data of at least the center view, the left end view, and the right end view among a plurality of views for stereoscopic image display. In this case, the central view constitutes an intermediate view located between the left end view and the right end view.

トランスポートストリームTSが含むビデオストリームにおいて、図2に示すように、中央(Center)のビュー、左端(Left)のビューおよび右端(Right)のビューの画像データはそれぞれ1つのピクチャのデータとして符号化される。図示の例では、各ピクチャのデータは1920*1080のフルHDのサイズとされる。   In the video stream included in the transport stream TS, as shown in FIG. 2, the image data of the center view, the left end view, and the right end view are each encoded as one picture data. Is done. In the example shown in the figure, the data of each picture has a 1920 × 1080 full HD size.

あるいは、トランスポートストリームTSが含むビデオストリームにおいて、図3(a)に示すように、中央(Center)のビューの画像データは1つのピクチャのデータとして符号化され、左端(Left)のビューおよび右端(Right)のビューの画像データはインターリーブ処理されて1つのピクチャのデータとして符号化される。図示の例では、各ピクチャのデータは1920*1080のフルHDのサイズとされる。   Alternatively, in the video stream included in the transport stream TS, as shown in FIG. 3A, the image data of the center (Center) view is encoded as data of one picture, and the left view (Left) view and the right end The image data of the (Right) view is interleaved and encoded as one picture data. In the example shown in the figure, the data of each picture has a 1920 × 1080 full HD size.

なお、左端のビューおよび右端のビューの画像データがインターリーブ処理されて1つのピクチャのデータとして符号化される場合、各ビューの画像データは水平方向あるいは垂直方向に1/2に間引かれた状態となる。図示の例では、インターリーブのタイプがサイド・バイ・サイドであり、各ビューのサイズは960*1080とされる。図示していないが、インターリーブのタイプとしてトップ・アンド・ボトムも考えられ、その場合には、各ビューのサイズは1920*540とされる。   When the image data of the left end view and the right end view are interleaved and encoded as one picture data, the image data of each view is thinned by half in the horizontal direction or the vertical direction. It becomes. In the illustrated example, the type of interleaving is side-by-side, and the size of each view is 960 * 1080. Although not shown, a top-and-bottom may be considered as an interleave type. In this case, the size of each view is 1920 * 540.

このように左端のビューおよび右端のビューの画像データがインターリーブ処理されて1つのピクチャのデータとして符号化される場合、受信側においては、図3(b)に示すように、スケーリング処理され、左端のビューおよび右端のビューの画像データのサイズは1920*1080のフルHDのサイズに戻される。   In this way, when the image data of the left end view and the right end view are interleaved and encoded as one picture data, the receiving side performs scaling processing as shown in FIG. The size of the image data of the right view and the rightmost view is returned to the full HD size of 1920 * 1080.

トランスポートストリームTSが含むビデオストリームは、1つまたは複数のピクチャのデータを含むものとされる。例えば、トランスポートストリームTSには、以下の3つのビデオストリーム(ビデオエレメンタリストリーム)が含まれる。すなわち、中央のビュー、左端のビューおよび右端のビューの画像データがそれぞれ1つのピクチャとして符号化されて得られたビデオストリームである。   The video stream included in the transport stream TS includes data of one or a plurality of pictures. For example, the transport stream TS includes the following three video streams (video elementary streams). That is, it is a video stream obtained by encoding the image data of the center view, the left end view, and the right end view as one picture.

また、例えば、トランスポートストリームTSには、以下の2つのビデオストリーム(ビデオエレメンタリストリーム)が含まれる。すなわち、中央のビューの画像データが1つのピクチャとして符号化されて得られたビデオストリームと、左端のビューおよび右端のビューの画像データがインターリーブ処理されて1つのピクチャとして符号化されて得られたビデオストリームである。   For example, the transport stream TS includes the following two video streams (video elementary streams). That is, the video stream obtained by encoding the image data of the central view as one picture and the image data of the left end view and the right end view are interleaved and encoded as one picture. A video stream.

また、例えば、トランスポートストリームTSには、以下の1つのビデオストリーム(ビデオエレメンタリストリーム)が含まれる。すなわち、この1つのビデオストリームには、中央のビュー、左端のビューおよび右端のビューの画像データがそれぞれ1つのピクチャのデータとして符号化されたデータが含まれる。   Further, for example, the transport stream TS includes the following one video stream (video elementary stream). That is, this one video stream includes data obtained by encoding the image data of the center view, the left end view, and the right end view as data of one picture.

図4(a),(b)は、複数のピクチャの符号化データを含むビデオストリームの一例を示している。各アクセスユニットに、各ピクチャの符号化データが順次配置される。この場合、最初のピクチャの符号化データは、“SPS 〜 Coded Slice”で構成され、2番目以降のピクチャの符号化データは、“Subset SPS 〜 Coded Slice”で構成される。なお、この例は、MPEG4−AVCの符号化がされている例であるが、他の符号化方式でも適用可能である。なお、図中の16進数字は「 NAL unit type 」を示している。   4A and 4B show an example of a video stream including encoded data of a plurality of pictures. The encoded data of each picture is sequentially arranged in each access unit. In this case, the encoded data of the first picture is composed of “SPS to Coded Slice”, and the encoded data of the second and subsequent pictures is composed of “Subset SPS to Coded Slice”. This example is an example in which MPEG4-AVC encoding is performed, but other encoding schemes are also applicable. The hexadecimal numbers in the figure indicate “NAL unit type”.

各ピクチャの符号化データが1つのビデオストリームに共存する場合、各ピクチャの境界が瞬時に識別可能なことが要求される。しかし、AUD(access unit delimiter)は、一つのアクセスユニットの先頭にのみ付すことが可能である。そこで、図4(b)に示すように、各ピクチャの符号化データの間に、「View Separation Marker」という境界を示す新たな“NAL unit”を定義して配置することが考えられる。これにより、各ピクチャの先頭データに瞬時にアクセスすることが可能となる。なお、図4(a)は、2つのビューのデータの間に、「View Separation Marker」が配置されていない例を示している。   When the encoded data of each picture coexists in one video stream, it is required that the boundary of each picture can be identified instantaneously. However, an AUD (access unit delimiter) can be attached only to the head of one access unit. Therefore, as shown in FIG. 4B, it is conceivable to define and arrange a new “NAL unit” indicating a boundary “View Separation Marker” between encoded data of each picture. This makes it possible to instantly access the top data of each picture. FIG. 4A shows an example in which “View Separation Marker” is not arranged between data of two views.

図5(a),(b)は、3つのピクチャの符号化データが1つのビデオストリームに共存する場合の例を示している。ここでは、各ピクチャの符号化データをサブストリーム(sub stream)として示している。図5(a)は、GOP(Group OfPictures)の先頭のアクセスユニットを示しており、図5(b)は、GOPの先頭以外のアクセスユニットを示している。   FIGS. 5A and 5B show an example in which encoded data of three pictures coexist in one video stream. Here, the encoded data of each picture is shown as a sub stream. FIG. 5A shows the top access unit of the GOP (Group Of Pictures), and FIG. 5B shows the access unit other than the top of the GOP.

ビデオストリームのレイヤ(ピクチャレイヤ、シーケンスレイヤなど)に、このビデオストリーム内の画像データに関するビュー構成情報が挿入される。このビュー構成情報には、当該ビデオストリームに含まれる画像データがどのビューの画像データであるかを示す情報、当該ビデオストリームの1アクセスユニット内に複数のピクチャのデータが符号化されているかを示す情報等が含まれている。このビュー構成情報は、例えば、ビデオストリームのピクチャヘッダまたはシーケンスヘッダのユーザデータ領域などに挿入される。このビュー構成情報により、受信側では、複数のビューの画像データによる3次元画像(立体画像)の裸眼観賞を行うための適切かつ効率的な処理が可能となる。このビュー構成情報の詳細については後述する。   View configuration information relating to image data in the video stream is inserted into a layer (picture layer, sequence layer, etc.) of the video stream. This view configuration information indicates information indicating which view image data is included in the video stream, and indicates whether data of a plurality of pictures is encoded in one access unit of the video stream. Information etc. are included. This view configuration information is inserted into, for example, a user data area of a picture header or a sequence header of a video stream. With this view configuration information, the receiving side can perform appropriate and efficient processing for performing naked-eye viewing of a three-dimensional image (stereoscopic image) based on image data of a plurality of views. Details of this view configuration information will be described later.

また、トランスポートストリームTSのレイヤに、ビデオストリームのレイヤにビュー構成情報の挿入があるか否かを識別するための識別情報が挿入される。この識別情報は、例えば、トランスポートストリームTSに含まれるプログラム・マップ・テーブル(PMT:Program Map Table)のビデオエレメンタリ・ループ(Video ESloop)の配下、あるいはイベント・インフォメーション・テーブル(EIT:Event InformationTable)の配下などに挿入される。この識別情報により、受信側では、ビデオストリームのレイヤにビュー構成情報の挿入があるか否かを容易に識別可能となる。この識別情報の詳細については後述する。   Also, identification information for identifying whether or not view configuration information is inserted into the layer of the video stream is inserted into the layer of the transport stream TS. This identification information is, for example, subordinate to a video elementary loop (Video ESloop) of a program map table (PMT) included in the transport stream TS, or an event information table (EIT: Event Information Table). ). With this identification information, the reception side can easily identify whether or not view configuration information is inserted in the layer of the video stream. Details of this identification information will be described later.

受信機200は、放送局100から放送波に載せて送られてくるトランスポートストリームTSを受信する。また、受信機200は、このトランスポートストリームTSに含まれるビデオストリームをデコードして、例えば、中央のビュー、左端のビューおよび右端のビューの画像データを取得する。この際、受信機200は、ビデオストリームのレイヤに含まれるビュー構成情報により、各ビデオストリームに含まれる画像データが、どのビュー位置の画像データであるかを知ることができる。   The receiver 200 receives the transport stream TS transmitted from the broadcast station 100 on a broadcast wave. Further, the receiver 200 decodes the video stream included in the transport stream TS, and acquires, for example, image data of the center view, the left end view, and the right end view. At this time, the receiver 200 can know which view position the image data included in each video stream is based on the view configuration information included in the layer of the video stream.

また、受信機200は、中央のビューおよび左端ビューの間の視差データと、中央のビューおよび右端ビューの間の視差データとに基づいて、中央のビューおよび左端ビューの間と、中央のビューおよび右端ビューの間とに位置する所定数のビューの画像データを補間処理で取得する。この際、受信機200は、ビデオストリームのレイヤに含まれるビュー構成情報により、ビュー数を知ることができ、どの位置のビューが伝送されなかったかを容易に把握できる。   In addition, the receiver 200 may determine between the center view and the left end view, between the center view and the left end view, based on the disparity data between the center view and the left end view, and between the center view and the left end view. Image data of a predetermined number of views located between the right end views is acquired by interpolation processing. At this time, the receiver 200 can know the number of views based on the view configuration information included in the layer of the video stream, and can easily grasp which position view has not been transmitted.

受信機200は、放送局100からビデオストリームと共に送られてくる視差データストリームをデコードして、上述の視差データを取得する。あるいは、受信機200は、取得された中央のビュー、左端のビューおよび右端のビューの画像データに基づいて、上述の視差データを生成する。   The receiver 200 decodes the parallax data stream sent together with the video stream from the broadcast station 100, and acquires the above-described parallax data. Alternatively, the receiver 200 generates the above-described parallax data based on the acquired image data of the center view, the left end view, and the right end view.

受信機200は、放送局100から送られてくる中央、左端および右端の各ビューの画像データと、上述の補間処理で取得される各ビューの画像データとに基づき、3次元画像(立体画像)の裸眼観賞のために、各ビューの画像を表示部に合成表示する。   The receiver 200 is a three-dimensional image (stereoscopic image) based on the image data of each view at the center, the left end, and the right end sent from the broadcast station 100 and the image data of each view acquired by the above-described interpolation processing. The images of each view are synthesized and displayed on the display unit for viewing with the naked eye.

図6は、ビュー数を5とした場合の受信機200の表示部を概略的に示している。ここで、「View_0」は中央のビュー、「View_1」は中央から1つ右のビュー、「View_2」は中央から1つ左のビュー、「View_3」は中央から2つ右、つまり右端のビュー、「View_4」は中央から2つ左、つまり左端のビューを示している。この場合、放送局100から「View_0」、「View_3」、「View_4」のビューの画像データのみが送信され、受信機200では「View_0」、「View_3」、「View_4」のビューの画像データが受信され、その他の「View_1」、「View_2」のビューの画像データは補間処理で求められる。そして、受信機200では、3次元画像(立体画像)の裸眼観賞のために、これらの5つのビューの画像が表示部に合成表示される。なお、図6には、レンチキュラーレンズを示しているが、この代わりにパララックスバリアなどであってもよい。   FIG. 6 schematically shows a display unit of the receiver 200 when the number of views is five. Here, “View_0” is the center view, “View_1” is the view one right from the center, “View_2” is the view one left from the center, “View_3” is two views right from the center, that is, the rightmost view, “View_4” indicates a view that is two left from the center, that is, the leftmost view. In this case, only the image data of the views “View_0”, “View_3”, and “View_4” are transmitted from the broadcast station 100, and the receiver 200 receives the image data of the views “View_0”, “View_3”, and “View_4”. The image data of the other views “View_1” and “View_2” are obtained by interpolation processing. Then, in the receiver 200, the images of these five views are synthesized and displayed on the display unit for viewing the three-dimensional image (stereoscopic image) with the naked eye. Although FIG. 6 shows a lenticular lens, a parallax barrier or the like may be used instead.

「送信データ生成部の構成例」
図7は、放送局100において、上述したトランスポートストリームTSを生成する送信データ生成部110の構成例を示している。この送信データ生成部110は、N個の画像データ出力部111-1〜111-Nと、ビューセレクタ112と、スケーラ113-1,113-2,113-3と、ビデオエンコーダ114-1,114-2,114-3と、マルチプレクサ115を有している。また、この送信データ生成部110は、視差データ生成部116と、視差エンコーダ117と、グラフィクスデータ出力部118と、グラフィクスエンコーダ119と、音声データ出力部120と、オーディオエンコーダ121を有している。
"Configuration example of transmission data generator"
FIG. 7 illustrates a configuration example of the transmission data generation unit 110 that generates the above-described transport stream TS in the broadcast station 100. The transmission data generation unit 110 includes N image data output units 111-1 to 111-N, a view selector 112, scalers 113-1, 113-2, and 113-3, and video encoders 114-1 and 114. -2, 114-3 and a multiplexer 115. The transmission data generation unit 110 includes a parallax data generation unit 116, a parallax encoder 117, a graphics data output unit 118, a graphics encoder 119, an audio data output unit 120, and an audio encoder 121.

画像データ出力部111-1〜111-Nは、立体画像表示のためのN個のビュー(View 1・・・View N)の画像データを出力する。この画像データ出力部は、例えば、被写体を撮像して画像データを出力するカメラ、あるいは記憶媒体から画像データを読み出して出力する画像データ読み出し部などにより構成される。なお、伝送されないビューの画像データは、実際にはなくてもよい。   The image data output units 111-1 to 111-N output image data of N views (View 1... View N) for stereoscopic image display. The image data output unit includes, for example, a camera that images a subject and outputs image data, or an image data reading unit that reads and outputs image data from a storage medium. Note that the image data of the view that is not transmitted may not actually be present.

また、ビューセレクタ112は、N個のビュー(View 1・・・View N)の画像データから、少なくとも左端のビューおよび右端のビューの画像データと、左端および右端の間に位置する中間のビュー(1つまたは2つ以上)の画像データを選択的に取り出す。この実施の形態において、ビューセレクタ112は、左端のビューの画像データVLおよび右端のビューの画像データVRを取り出すと共に、中央のビューの画像データVCを取り出す。図8は、ビューセレクタ112におけるビュー選択状態を示している。   In addition, the view selector 112 selects at least the image data of the left end view and the right end view and the intermediate view (between the left end and the right end) from the image data of N views (View 1... View N). One or more image data are selectively extracted. In this embodiment, the view selector 112 extracts the image data VL of the left end view and the image data VR of the right end view, and extracts the image data VC of the center view. FIG. 8 shows a view selection state in the view selector 112.

また、スケーラ113-1,113-2,113-3は、それぞれ、画像データVC,VL,VRに対してスケーリング処理を施して、例えば、1920*1080のフルHDのサイズの画像データVC′,VL′,VR′を得る。この場合、画像データVC,VL,VRが1920*1080のフルHDのサイズであるときは、そのまま出力する。また、画像データVC,VL,VRが1920*1080のサイズより大きいときは、スケールダウンして出力する。   Also, the scalers 113-1, 113-2, and 113-3 perform scaling processing on the image data VC, VL, and VR, respectively, and, for example, 1920 * 1080 full HD size image data VC ′, VL ′ and VR ′ are obtained. In this case, when the image data VC, VL, and VR are 1920 * 1080 full HD size, they are output as they are. If the image data VC, VL, VR is larger than the size of 1920 * 1080, the image data is scaled down and output.

ビデオエンコーダ114-1は、中央のビューの画像データVC′に対して、例えば、MPEG4−AVC(MVC)、MPEG2videoなどの符号化を施して、符号化ビデオデータを得る。そして、このビデオエンコーダ114-1は、後段に備えるストリームフォーマッタ(図示せず)により、この符号化データをサブストリーム(sub stream 1)として含むビデオストリームを生成する。   The video encoder 114-1 performs encoding such as MPEG4-AVC (MVC) or MPEG2 video on the image data VC ′ of the central view to obtain encoded video data. Then, the video encoder 114-1 generates a video stream including the encoded data as a sub stream (sub stream 1) by a stream formatter (not shown) provided in the subsequent stage.

また、ビデオエンコーダ114-2は、左端のビューの画像データVL′に対して、例えば、MPEG4−AVC(MVC)、MPEG2videoなどの符号化を施して、符号化ビデオデータを得る。そして、このビデオエンコーダ114-2は、後段に備えるストリームフォーマッタ(図示せず)により、この符号化データをサブストリーム(sub stream 2)として含むビデオストリームを生成する。   In addition, the video encoder 114-2 performs encoding such as MPEG4-AVC (MVC) or MPEG2 video on the image data VL ′ of the leftmost view to obtain encoded video data. Then, the video encoder 114-2 generates a video stream including the encoded data as a substream (substream 2) by a stream formatter (not shown) provided in the subsequent stage.

さらに、ビデオエンコーダ114-3は、右端のビューの画像データVR′に対して、例えば、MPEG4−AVC(MVC)、MPEG2videoなどの符号化を施して、符号化ビデオデータを得る。そして、このビデオエンコーダ114-3は、後段に備えるストリームフォーマッタ(図示せず)により、この符号化データをサブストリーム(sub stream 3)として含むビデオストリームを生成する。   Furthermore, the video encoder 114-3 performs encoding such as MPEG4-AVC (MVC) or MPEG2 video on the image data VR ′ of the rightmost view to obtain encoded video data. Then, the video encoder 114-3 generates a video stream including the encoded data as a substream (substream 3) by a stream formatter (not shown) provided in the subsequent stage.

ビデオエンコーダ114-1,114-2,114-3は、ビデオストリームのレイヤに、上述したビュー構成情報を挿入する。このビュー構成情報は、上述したように、当該ビデオストリームに含まれる画像データがどのビューの画像データであるかを示す情報、当該ビデオストリームの1アクセスユニット内に複数のピクチャのデータが符号化されているかを示す情報等を含むものである。このビュー構成情報は、例えば、ビデオストリームのピクチャヘッダまたはシーケンスヘッダのユーザデータ領域などに挿入される。   The video encoders 114-1, 114-2, and 114-3 insert the above-described view configuration information into the layer of the video stream. As described above, this view configuration information is information indicating which view image data is included in the video stream, and data of a plurality of pictures is encoded in one access unit of the video stream. It includes information indicating whether or not This view configuration information is inserted into, for example, a user data area of a picture header or a sequence header of a video stream.

視差データ生成部116は、ビューセレクタ112から出力される中央、左端および右端の各ビューの画像データに基づいて、視差データ(disparity data)を生成する。この視差データには、例えば、中央のビューおよび左端のビューの間の視差データと、中央のビューおよび右端のビューの間の視差データが含まれている。この場合、画素単位、あるいはブロック(Block)単位で、視差データが生成される。図9は、ブロック(Block)毎の視差データ(視差ベクトル)の一例を示している。   The disparity data generation unit 116 generates disparity data (disparity data) based on the image data of the center, left end, and right end views output from the view selector 112. The disparity data includes, for example, disparity data between the center view and the left end view and disparity data between the center view and the right end view. In this case, parallax data is generated in pixel units or block units. FIG. 9 illustrates an example of disparity data (disparity vector) for each block (Block).

図10は、ブロック単位の視差データの生成方法の一例を示している。この例は、i番目のビューからj番目のビューを指し示す視差データを求める例である。この場合、i番目のビューのピクチャに、例えば4*4、8*8あるいは16*16などの画素ブロック(視差検出ブロック)が設定される。   FIG. 10 shows an example of a method for generating disparity data in units of blocks. In this example, parallax data indicating the j-th view from the i-th view is obtained. In this case, pixel blocks (parallax detection blocks) such as 4 * 4, 8 * 8, or 16 * 16 are set in the picture of the i-th view.

図示のように、i番目のビューのピクチャが検出画像とされ、j番目のビューのピクチャが参照画像とされて、i番目のビューのピクチャのブロック毎に、画素間の差分絶対値和が最小となるように、j番目のビューのピクチャのブロック探索がされて、視差データが求められる。   As shown in the figure, the i-th view picture is the detected image, the j-th view picture is the reference image, and the sum of absolute differences between pixels is minimum for each block of the i-th view picture. The block search of the picture of the j-th view is performed so that the disparity data is obtained.

すなわち、N番目のブロックの視差データDPnは、例えば、以下の(1)式に示すように、当該N番目のブロックにおける差分絶対値和が最小となるようにブロック探索されて求められる。なお、この(1)式において、Djはj番目のビューのピクチャにおける画素値、Diはi番目のビューのピクチャにおける画素値を示している。
DPn = min ( Σabs( differ (Dj - Di))) ・・・(1)
That is, the parallax data DPn of the Nth block is obtained by block search so that the sum of absolute differences in the Nth block is minimized, for example, as shown in the following equation (1). In this equation (1), Dj represents the pixel value in the picture of the jth view, and Di represents the pixel value in the picture of the ith view.
DPn = min (Σabs (differ (Dj-Di))) (1)

図11は、画素単位の視差データの生成方法の一例を示している。この例は、ブロック単位から画素単位への変換処理により画素単位の視差データを生成する方法である。図11(a)における“A”、“B”、“C”、“D”、“X”は、それぞれ、ブロックの領域を示している。   FIG. 11 shows an example of a method for generating disparity data in units of pixels. This example is a method of generating disparity data in pixel units by conversion processing from block units to pixel units. In FIG. 11A, “A”, “B”, “C”, “D”, and “X” indicate block areas, respectively.

これらのブロックの視差データから、図11(b)に示すように、“X”のブロックを4分割した各領域の視差データは、以下の(2)式で求められる。例えば、“A”、“B”に隣接する分割領域の視差データX(A,B)は、“A”、“B”、“X”のブロックの視差データの中央値とされる。その他の分割領域においても、同様にして、視差データが求められる。   From the parallax data of these blocks, as shown in FIG. 11B, the parallax data of each region obtained by dividing the “X” block into four is obtained by the following equation (2). For example, the parallax data X (A, B) of the divided areas adjacent to “A” and “B” is the median value of the parallax data of the blocks “A”, “B”, and “X”. In other divided areas, parallax data is similarly obtained.

X(A,B)=median(X,A,B)
X(A,C)=median(X,A,C)
X(B,D)=median(X,B,D)
X(C,D)=median(X,C,D)
・・・(2)
X (A, B) = median (X, A, B)
X (A, C) = median (X, A, C)
X (B, D) = median (X, B, D)
X (C, D) = median (X, C, D)
... (2)

上述の一度の変換で、視差データの占める領域は、元の縦横サイズの1/2のサイズに狭まる。ブロックサイズにより、この変換を所定回数繰り返すことによって、画素単位の視差データが求まる。なお、テクスチャにエッジを含んでいたりして画面内オブジェクトの複雑度が他の部分よりも高い場合などには、適宜、ブロックサイズを小さくとって、初期のブロック単位の視差データ自体のテクスチャ追従性を向上することも可能である。   With the above-described one-time conversion, the area occupied by the parallax data is narrowed to ½ of the original vertical and horizontal size. By repeating this conversion a predetermined number of times depending on the block size, parallax data in pixel units is obtained. If the texture contains an edge and the complexity of the in-screen object is higher than the other parts, the block size should be reduced as appropriate and the disparity data itself in the initial block unit itself will be textured. It is also possible to improve.

視差エンコーダ117は、視差データ生成部116で生成された視差データに符号化を施して視差ストリーム(視差データエレメンタリストリーム)を生成する。この視差ストリームには、画素単位、またはブロック単位の視差データが含まれることとなる。視差データが画素単位である場合には、画素データと同様に、圧縮符号化して伝送できる。   The disparity encoder 117 encodes the disparity data generated by the disparity data generation unit 116 to generate a disparity stream (disparity data elementary stream). The disparity stream includes disparity data in units of pixels or blocks. When the parallax data is in units of pixels, it can be compressed and transmitted in the same manner as the pixel data.

なお、この視差ストリームにブロック単位の視差データが含まれる場合には、受信側で、上述した変換処理を行うことで、画素単位に変換することも可能である。また、このような視差ストリームの送信がない場合、受信側で、上述したように各ビュー間におけるブロック単位の視差データを求め、さらに画素単位に変換することが可能である。   Note that when the disparity stream includes disparity data in units of blocks, the reception side can perform conversion in units of pixels by performing the above-described conversion processing. Further, when there is no transmission of such a parallax stream, on the receiving side, it is possible to obtain parallax data in units of blocks between views as described above, and further convert them into units of pixels.

グラフィクスデータ出力部118は、画像に重畳するグラフィクス(字幕としてのサブタイトルも含む)のデータを出力する。グラフィクスエンコーダ119は、グラフィクスデータ出力部118から出力されたグラフィクスデータを含むグラフィクスストリーム(グラフィクスエレメンタリストリーム)を生成する。ここで、グラフィクスは、重畳情報を構成し、例えば、ロゴ、字幕などである。   The graphics data output unit 118 outputs data of graphics (including subtitles as subtitles) to be superimposed on the image. The graphics encoder 119 generates a graphics stream (graphics elementary stream) including the graphics data output from the graphics data output unit 118. Here, the graphics constitute superimposition information, and are, for example, a logo, subtitles, and the like.

なお、グラフィクスデータ出力部118から出力されるグラフィクスデータは、例えば、中央のビューの画像に重畳するグラフィクスのデータである。グラフィクスデータ119は、視差データ生成部116で生成された視差データに基づいて、左端および右端のビューに重畳するグラフィクスのデータを作成して、これらのグラフィクスデータを含むグラフィクスストリームを生成してもよい。この場合には、受信側において左端および右端のビューに重畳するグラフィクスのデータを作成することが不要となる。   Note that the graphics data output from the graphics data output unit 118 is, for example, graphics data to be superimposed on the center view image. Based on the disparity data generated by the disparity data generation unit 116, the graphics data 119 may generate graphics data to be superimposed on the left end and right end views, and generate a graphics stream including these graphics data. . In this case, it is not necessary to create graphics data to be superimposed on the left end and right end views on the receiving side.

グラフィクスデータは、主にはビットマップデータである。このグラフィクスデータには、画像上の重畳位置を示すアイドリングオフセット情報が付加されている。このアイドリングオフセット情報は、例えば、画像の左上の原点から、グラフィクスの重畳位置の左上の画素までの垂直方向、水平方向のオフセット値を示す。なお、字幕データをビットマップデータとして伝送する規格は、例えば、ヨーロッパのデジタル放送規格であるDVBで「DVB_Subtitling」として規格化され、運用されている。   The graphics data is mainly bitmap data. The graphics data is added with idling offset information indicating the superimposed position on the image. This idling offset information indicates, for example, offset values in the vertical and horizontal directions from the upper left origin of the image to the upper left pixel of the graphics superimposition position. Note that the standard for transmitting caption data as bitmap data is standardized and operated as “DVB_Subtitling” in DVB, which is a European digital broadcasting standard, for example.

音声データ出力部120は、画像データに対応した音声データを出力する。この音声データ出力部120は、例えば、マイクロホン、あるいは記憶媒体から音声データを読み出して出力する音声データ読み出し部などにより構成される。オーディオエンコーダ121は、音声データ出力部120から出力される音声データに対して、MPEG−2Audio、AAC等の符号化を施し、オーディオストリーム(オーディオエレメンタリストリーム)を生成する。   The audio data output unit 120 outputs audio data corresponding to the image data. The audio data output unit 120 includes, for example, a microphone or an audio data reading unit that reads out and outputs audio data from a storage medium. The audio encoder 121 performs encoding such as MPEG-2Audio or AAC on the audio data output from the audio data output unit 120 to generate an audio stream (audio elementary stream).

マルチプレクサ115は、ビデオエンコーダ114-1,114-2,114-3、視差エンコーダ117、グラフィクスエンコーダ119およびオーディオエンコーダ121で生成された各エレメンタリストリームをパケット化して多重し、トランスポートストリームTSを生成する。この場合、それぞれのPES(Packetized Elementarty Stream)のヘッダには、受信側における同期再生のために、PTS(Presentation Time Stamp)が挿入される。   The multiplexer 115 packetizes and multiplexes the elementary streams generated by the video encoders 114-1, 114-2, 114-3, the parallax encoder 117, the graphics encoder 119, and the audio encoder 121, and generates a transport stream TS. To do. In this case, a PTS (Presentation Time Stamp) is inserted into the header of each PES (Packetized Elementarty Stream) for synchronous playback on the receiving side.

マルチプレクサ115は、トランスポートストリームTSのレイヤに、上述した識別情報を挿入する。この識別情報は、ビデオストリームのレイヤにビュー構成情報の挿入があるか否かを識別するための情報である。この識別情報は、例えば、トランスポートストリームTSに含まれるプログラム・マップ・テーブル(PMT:Program Map Table)のビデオエレメンタリ・ループ(Video ESloop)の配下、あるいはイベント・インフォメーション・テーブル(EIT:Event InformationTable)の配下などに挿入される。   The multiplexer 115 inserts the identification information described above into the layer of the transport stream TS. This identification information is information for identifying whether or not view configuration information is inserted in the layer of the video stream. This identification information is, for example, subordinate to a video elementary loop (Video ESloop) of a program map table (PMT) included in the transport stream TS, or an event information table (EIT: Event Information Table). ).

図7に示す送信データ生成部110の動作を簡単に説明する。N個の画像データ出力部111-1〜111-Nから出力される立体画像表示のためのN個のビュー(View 1・・・View N)の画像データは、ビューセレクタ112に供給される。ビューセレクタ112では、N個のビューの画像データから、中央のビューの画像データVC、左端のビューの画像データVLおよび右端のビューの画像データVRが取り出される。   The operation of the transmission data generation unit 110 shown in FIG. 7 will be briefly described. Image data of N views (View 1... View N) for stereoscopic image display output from the N image data output units 111-1 to 111 -N is supplied to the view selector 112. The view selector 112 extracts the image data VC of the center view, the image data VL of the left end view, and the image data VR of the right end view from the image data of N views.

ビューセレクタ112で取り出された中央のビューの画像データVCはスケーラ113-1に供給され、例えば、1920*1080のフルHDのサイズにスケーリング処理される。スケーリング処理後の画像データVC′は、ビデオエンコーダ114-1に供給される。   The image data VC of the central view extracted by the view selector 112 is supplied to the scaler 113-1, and is scaled to a full HD size of, for example, 1920 * 1080. The image data VC ′ after the scaling process is supplied to the video encoder 114-1.

ビデオエンコーダ114-1では、この画像データVC′に対して符号化が施されて符号化ビデオデータが得られ、この符号化データをサブストリーム(sub stream 1)として含むビデオストリームが生成される。また、このビデオエンコーダ114-1では、ビデオストリームのピクチャヘッダまたはシーケンスヘッダのユーザデータ領域などに、当該ビデオストリームに含まれる画像データがどのビューの画像データであるかを示す情報などを持つビュー構成情報が挿入される。このビデオストリームは、マルチプレクサ115に供給される。   In the video encoder 114-1, the image data VC ′ is encoded to obtain encoded video data, and a video stream including the encoded data as a substream (substream 1) is generated. Also, in this video encoder 114-1, a view configuration having information indicating which image data the image data included in the video stream is in, for example, the user data area of the picture header or sequence header of the video stream Information is inserted. This video stream is supplied to the multiplexer 115.

また、ビューセレクタ112で取り出された左端のビューの画像データVLはスケーラ113-2に供給され、例えば、1920*1080のフルHDのサイズにスケーリング処理される。スケーリング処理後の画像データVL′は、ビデオエンコーダ114-2に供給される。   Further, the image data VL of the leftmost view extracted by the view selector 112 is supplied to the scaler 113-2, and is scaled to, for example, a full HD size of 1920 * 1080. The image data VL ′ after the scaling process is supplied to the video encoder 114-2.

ビデオエンコーダ114-2では、この画像データVL′に対して符号化が施されて符号化ビデオデータが得られ、この符号化データをサブストリーム(sub stream 2)として含むビデオストリームが生成される。また、このビデオエンコーダ114-2では、ビデオストリームのピクチャヘッダまたはシーケンスヘッダのユーザデータ領域などに、当該ビデオストリームに含まれる画像データがどのビューの画像データであるかを示す情報などを持つビュー構成情報が挿入される。このビデオストリームは、マルチプレクサ115に供給される。   In the video encoder 114-2, the image data VL ′ is encoded to obtain encoded video data, and a video stream including the encoded data as a substream (substream 2) is generated. Also, in this video encoder 114-2, a view configuration having information indicating which image data the image data included in the video stream is in the user data area of the picture header or sequence header of the video stream Information is inserted. This video stream is supplied to the multiplexer 115.

さらに、ビューセレクタ112で取り出された右端のビューの画像データVRはスケーラ113-3に供給され、例えば、1920*1080のフルHDのサイズにスケーリング処理される。スケーリング処理後の画像データVR′は、ビデオエンコーダ114-3に供給される。   Further, the image data VR of the right end view extracted by the view selector 112 is supplied to the scaler 113-3, and is scaled to, for example, a full HD size of 1920 * 1080. The image data VR ′ after the scaling processing is supplied to the video encoder 114-3.

ビデオエンコーダ114-3では、この画像データVR′に対して符号化が施されて符号化ビデオデータが得られ、この符号化データをサブストリーム(sub stream 3)として含むビデオストリームが生成される。また、このビデオエンコーダ114-3では、ビデオストリームのピクチャヘッダまたはシーケンスヘッダのユーザデータ領域などに、当該ビデオストリームに含まれる画像データがどのビューの画像データであるかを示す情報などを持つビュー構成情報が挿入される。このビデオストリームは、マルチプレクサ115に供給される。   In the video encoder 114-3, the image data VR ′ is encoded to obtain encoded video data, and a video stream including the encoded data as a substream (substream 3) is generated. Also, in this video encoder 114-3, a view configuration having information indicating which image data the image data included in the video stream is in, for example, the user data area of the picture header or sequence header of the video stream Information is inserted. This video stream is supplied to the multiplexer 115.

また、ビューセレクタ112から出力される中央、左端および右端の各ビューの画像データは視差データ生成部116に供給される。この視差データ生成部116では、各ビューの画像データに基づいて、視差データ(disparity data)が生成される。この視差データには、中央のビューおよび左端のビューの間の視差データと、中央のビューおよび右端のビューの間の視差データが含まれる。この場合、画素単位、あるいはブロック(Block)単位で、視差データが生成される。   In addition, the image data of the center, left end, and right end views output from the view selector 112 is supplied to the parallax data generation unit 116. The disparity data generation unit 116 generates disparity data (disparity data) based on the image data of each view. The disparity data includes disparity data between the center view and the left end view, and disparity data between the center view and the right end view. In this case, parallax data is generated in pixel units or block units.

視差データ生成部116で生成された視差データは、視差エンコーダ117に供給される。この視差エンコーダ117では、視差データに符号化処理が施されて、視差ストリームが生成される。この視差ストリームは、マルチプレクサ115に供給される。   The parallax data generated by the parallax data generation unit 116 is supplied to the parallax encoder 117. In the parallax encoder 117, the parallax data is encoded, and a parallax stream is generated. This parallax stream is supplied to the multiplexer 115.

また、グラフィクスデータ出力部118から出力されるグラフィクスデータ(サブタイトルデータも含む)は、グラフィクスエンコーダ119に供給される。このグラフィクスエンコーダ119では、グラフィクスデータを含むグラフィクスストリームが生成される。このグラフィクスストリームは、マルチプレクサ115に供給される。   Further, graphics data (including subtitle data) output from the graphics data output unit 118 is supplied to the graphics encoder 119. The graphics encoder 119 generates a graphics stream including graphics data. This graphics stream is supplied to the multiplexer 115.

また、音声データ出力部118から出力される音声データは、オーディオエンコーダ121に供給される。このオーディオエンコーダ121では、音声データに対して、MPEG−2Audio、AAC等の符号化が施され、オーディオストリームが生成される。このオーディオストリームは、マルチプレクサ115に供給される。   The audio data output from the audio data output unit 118 is supplied to the audio encoder 121. The audio encoder 121 performs encoding such as MPEG-2Audio or AAC on the audio data to generate an audio stream. This audio stream is supplied to the multiplexer 115.

マルチプレクサ115では、各エンコーダから供給されるエレメンタリストリームがパケット化されて多重され、トランスポートストリームTSが生成される。この場合、それぞれのPESヘッダには、受信側における同期再生のために、PTSが挿入される。また、マルチプレクサ115では、PMTの配下、あるいはEITの配下などに、ビデオストリームのレイヤにビュー構成情報の挿入があるか否かを識別するための識別情報が挿入される。   In the multiplexer 115, the elementary streams supplied from each encoder are packetized and multiplexed to generate a transport stream TS. In this case, a PTS is inserted into each PES header for synchronous reproduction on the receiving side. Also, in the multiplexer 115, identification information for identifying whether or not view configuration information is inserted in the layer of the video stream is inserted under the PMT or the EIT.

なお、図7に示す送信データ生成部110は、トランスポートストリームTSに3つのビデオストリームが含まれる場合を示している。すなわち、トランスポートストリームTSには、中央、左端および右端の各ビューの画像データがそれぞれ1つのピクチャとして符号化されて得られた3つのビデオストリームが含まれる。   Note that the transmission data generation unit 110 illustrated in FIG. 7 illustrates a case where three video streams are included in the transport stream TS. That is, the transport stream TS includes three video streams obtained by encoding the image data of each view at the center, the left end, and the right end as one picture.

詳細説明は省略するが、上述したように、トランスポートストリームTSに2つ、あるいは1つのビデオストリームが含まれる場合も、同様に構成できる。トランスポートストリームTSに2つのビデオストリームが含まれる場合には、例えば、以下のビデオストリームが含まれる。すなわち、中央のビューの画像データが1つのピクチャとして符号化されて得られたビデオストリームと、左端のビューおよび右端のビューの画像データがインターリーブ処理されて1つのピクチャとして符号化されて得られたビデオストリームが含まれる。   Although detailed description is omitted, as described above, the same configuration can be made when two or one video stream is included in the transport stream TS. In the case where two video streams are included in the transport stream TS, for example, the following video streams are included. That is, the video stream obtained by encoding the image data of the central view as one picture and the image data of the left end view and the right end view are interleaved and encoded as one picture. Video stream is included.

また、トランスポートストリームTSに1つのビデオストリームが含まれる場合には、例えば、以下のビデオストリームが含まれる。すなわち、中央、左端および右端の各ビューの画像データがそれぞれ1つのピクチャのデータとして符号化されたデータを含むビデオストリームが含まれる。   Further, when one video stream is included in the transport stream TS, for example, the following video streams are included. That is, a video stream including data in which image data of each view at the center, the left end, and the right end is encoded as one picture data is included.

[識別情報およびビュー構成情報の構造と、TS構成]
上述したように、トランスポートストリームTSのレイヤに、ビデオストリームのレイヤにビュー構成情報の挿入があるか否かを識別するための識別情報が挿入される。図12は、この識別情報としてのマルチビュー・ストリーム・コンフィグレーション・デスクリプタ(multiview_stream_configuration_descriptor)の構造例(Syntax)を示している。また、図13は、図12に示す構造例における主要な情報の内容(Semantics)を示している。
[Structure of identification information and view configuration information and TS configuration]
As described above, identification information for identifying whether or not view configuration information is inserted into the layer of the video stream is inserted into the layer of the transport stream TS. FIG. 12 shows a structural example (Syntax) of the multiview stream configuration descriptor (multiview_stream_configuration_descriptor) as the identification information. FIG. 13 shows the contents (Semantics) of main information in the structural example shown in FIG.

「multiview_stream_configuration_tag」は、デスクリプタタイプを示す8ビットのデータであり、ここでは、マルチビュー・ストリーム・コンフィグレーション・デスクリプタであることを示す。「multiview_stream_configuration_length」は、デスクリプタの長さ(サイズ)を示す8ビットのデータである。このデータは、デスクリプタの長さとして、以降のバイト数を示す。   “Multiview_stream_configuration_tag” is 8-bit data indicating a descriptor type, and here indicates that it is a multi-view stream configuration descriptor. “Multiview_stream_configuration_length” is 8-bit data indicating the length (size) of the descriptor. This data indicates the number of subsequent bytes as the length of the descriptor.

「multiview_stream_checkflag」の1ビットフィールドは、ビデオストリームのレイヤにビュー構成情報の挿入があるか否かを示す。“1”は、ビデオストリームのレイヤにビュー構成情報の挿入があることを示し、“0”はその挿入がないことを示す。“1”であるとき、受信側(デコーダ)では、ユーザデータ領域に存在するビュー構成情報をチェックすることとなる。   A 1-bit field of “multiview_stream_checkflag” indicates whether or not view configuration information is inserted in the layer of the video stream. “1” indicates that there is insertion of view configuration information in the layer of the video stream, and “0” indicates that there is no insertion. When it is “1”, the receiving side (decoder) checks the view configuration information existing in the user data area.

また、上述したように、ビデオストリームのレイヤに、当該ビデオストリームに含まれる画像データがどのビューの画像データであるかを示す情報などを持つビュー構成情報が挿入される。図14は、このビュー構成情報としてのマルチビュー・ストリーム・コンフィグレーション・インフォ(multiview_stream_configuration_info())の構造例(Syntax)を示している。また、図15、図16、図17は、図14に示す構造例における主要な情報の内容(Semantics)を示している。   Further, as described above, view configuration information having information indicating which view image data is included in the video stream is inserted into the layer of the video stream. FIG. 14 shows a structural example (Syntax) of multi-view stream configuration information (multiview_stream_configuration_info ()) as the view configuration information. 15, FIG. 16, and FIG. 17 show the contents (Semantics) of main information in the structural example shown in FIG.

「3D_flag」の1ビットフィールドは、符号化されるビデオストリームに含まれる画像データが3Dを構成する一部のビューの画像データであるか否かを示す。“1”は一部のビューの画像データであることを示し、“0”は一部を示す画像データでないことを示す。   The 1-bit field of “3D_flag” indicates whether or not the image data included in the encoded video stream is image data of a part of views constituting 3D. “1” indicates that the image data is part of the view, and “0” indicates that the image data is not part of the image data.

「3D_flag=1」であるとき、「view_count」、「single_view_es_flag」、「view_interleaving_flag」の各情報が存在する。「view_count」の4ビットフィールドは、3Dサービスを構成するビュー数を示す。最小値は1で、最大値は15である。「single_view_es_flag 」の1ビットフィールドは、当該ビデオストリームの1アクセスユニット内に複数のピクチャのデータが符号化されているか否かを示す。“1”は1つのピクチャのデータのみが符号化されていることを示し、“0”は2つ以上のピクチャのデータが符号化されていることを示す。   When “3D_flag = 1”, each information of “view_count”, “single_view_es_flag”, and “view_interleaving_flag” exists. A 4-bit field of “view_count” indicates the number of views constituting the 3D service. The minimum value is 1 and the maximum value is 15. A 1-bit field of “single_view_es_flag” indicates whether or not data of a plurality of pictures is encoded in one access unit of the video stream. “1” indicates that only data of one picture is encoded, and “0” indicates that data of two or more pictures is encoded.

「view_interleaving_flag」の1ビットフィールドは、当該ビデオストリームにおいて、2つのビューの画像データがインターリーブ処理されて1つのピクチャのデータとして符号化されているか否かを示す。“1”はインターリーブ処理されていて画面スプリットの構成であることを示し、“0”はインターリーブ処理されていないことを示す。   The 1-bit field of “view_interleaving_flag” indicates whether or not image data of two views is interleaved and encoded as data of one picture in the video stream. “1” indicates that the interleave process is performed and the screen is split, and “0” indicates that the interleave process is not performed.

「view_interleaving_flag= 0」であるとき、「view_allocation」の情報が存在する。「view_allocation」の4ビットフィールドは、当該ビデオストリームに含まれる画像データがどのビューの画像データであるか、つまりビュー割り当てを示す。例えば、“0000”は、中央のビュー(center view)であることを示す。また、例えば、“0001”は、中央から左側に1つ隣りのビュー(1st left view next tocenter)であることを示す。また、例えば、“0010”は、中央から右側に1つ隣りのビュー(1st right view next to center)であることを示す。   When “view_interleaving_flag = 0”, information of “view_allocation” exists. The 4-bit field of “view_allocation” indicates which view image data the image data included in the video stream is, that is, view allocation. For example, “0000” indicates a center view. Further, for example, “0001” indicates that the view is one view left next to the center (1st left view next to center). Further, for example, “0010” indicates that the view is one view right next to the center (1st right view next to center).

「view_interleaving_flag= 1」であるとき、「view_pair_position_id」、「view_interleaving_type」の情報が存在する。「view_pair_position_id」の3ビットフィールドは、全ビューにおける2つのビューの相対的なビュー位置を示す。この場合、例えば、スキャン順で早い位置が左(left)、遅い位置が右(right)とする。例えば、“000”は、両端の2つのビューペアであることを示す。また、例えば、“001”は、両端から1つ内側の2つのビューペアであることを示す。また、例えば、“010”は、両端から1つ内側の2つのビューペアであることを示す。   When “view_interleaving_flag = 1”, information of “view_pair_position_id” and “view_interleaving_type” exists. A 3-bit field of “view_pair_position_id” indicates a relative view position of two views in all views. In this case, for example, an early position in the scan order is left (left), and a late position is right (right). For example, “000” indicates that there are two view pairs at both ends. Further, for example, “001” indicates that two view pairs are located one inside from both ends. Further, for example, “010” indicates that two view pairs are located one inside from both ends.

「view_interleaving_type」の1ビットフィールドは、インターリーブのタイプ(type)を示している。“1”はインターリーブのタイプがサイド・バイ・サイド(Side-by-Side)であることを示し、“0”はインターリーブのタイプがトップ・アンド・ボトム(Top&Bottom)であることを示す。   A 1-bit field of “view_interleaving_type” indicates an interleaving type (type). “1” indicates that the interleaving type is Side-by-Side, and “0” indicates that the interleaving type is Top & Bottom.

また、「3D_flag= 1」であるとき、「display_flag」、「indication_of_picture_size_scaling_horizontal」、「indication_of_picture_size_scaling_vertical」の各情報が存在する。「display_flag」の1ビットフィールドは、当該ビューは画像表示を行わせる際に表示必須か否かを示す。“1”は、表示必須であることを示す。一方、“0”は、表示必須でないことを示す。   Further, when “3D_flag = 1”, there is information of “display_flag”, “indication_of_picture_size_scaling_horizontal”, and “indication_of_picture_size_scaling_vertical”. The 1-bit field of “display_flag” indicates whether or not the view is indispensable when image display is performed. “1” indicates that display is mandatory. On the other hand, “0” indicates that display is not essential.

「indication_of_picture_size_scaling_horizontal 」の4ビットフィールドは、フルHD(1920)に対してのデコード画の水平画素比率を示している。“0000”は100%、“0001”は80%、“0010”は75%、“0011”は66%、“0100”は50%、“0101”は33%、“0110”は25%、“0111”は20%をそれぞれ示す。   A 4-bit field of “indication_of_picture_size_scaling_horizontal” indicates the horizontal pixel ratio of the decoded image with respect to full HD (1920). “0000” is 100%, “0001” is 80%, “0010” is 75%, “0011” is 66%, “0100” is 50%, “0101” is 33%, “0110” is 25%, “ “0111” indicates 20%.

「indication_of_picture_size_scaling_vertical 」の4ビットフィールドは、フルHD(1080)に対してのデコード画の垂直画素比率を示している。0000”は100%、“0001”は80%、“0010”は75%、“0011”は66%、“0100”は50%、“0101”は33%、“0110”は25%、“0111”は20%をそれぞれ示す。   A 4-bit field of “indication_of_picture_size_scaling_vertical” indicates a vertical pixel ratio of a decoded image with respect to full HD (1080). “0000” is 100%, “0001” is 80%, “0010” is 75%, “0011” is 66%, “0100” is 50%, “0101” is 33%, “0110” is 25%, “0111” "" Indicates 20%.

図18は、「view_count」が示すビュー数と、「view_pair_position_id」が示す2つのビュー(ここでは、“View 1”, “View 2”としている)の位置との関係の一例を示している。(1)の例は、「view_count」が示すビュー数が2であって、「view_pair_position_id= 000」であって両端の2つのビューであることを示している場合である。また、(2)の例は、「view_count」が示すビュー数が4であって、「view_pair_position_id = 000」であって両端の2つのビューであることを示している場合である。   FIG. 18 illustrates an example of the relationship between the number of views indicated by “view_count” and the positions of two views indicated by “view_pair_position_id” (here, “View 1” and “View 2”). The example of (1) is a case where the number of views indicated by “view_count” is 2, and “view_pair_position_id = 000”, indicating that the two views are at both ends. The example (2) is a case where the number of views indicated by “view_count” is 4, and “view_pair_position_id = 000” indicates that the two views are at both ends.

また、(3)の例は、「view_count」が示すビュー数が4であって、「view_pair_position_id= 001」であって両端から1つ内側の2つのビューであることを示している場合である。また、(4)の例は、「view_count」が示すビュー数が5であって、「view_pair_position_id = 000」であって両端の2つのビューであることを示している場合である。   The example (3) is a case in which the number of views indicated by “view_count” is 4, and “view_pair_position_id = 001” indicates that the two views are one inside from both ends. The example (4) is a case where the number of views indicated by “view_count” is 5, and “view_pair_position_id = 000”, indicating that the two views are at both ends.

また、(5)の例は、「view_count」が示すビュー数が9であって、「view_pair_position_id= 000」であって両端の2つのビューであることを示している場合である。さらに、(6)の例は、「view_count」が示すビュー数が9であって、「view_pair_position_id = 010」であって両端から2つ内側の2つのビューであることを示している場合である。   The example (5) is a case where the number of views indicated by “view_count” is 9, and “view_pair_position_id = 000”, indicating that the two views are at both ends. Furthermore, the example of (6) is a case where the number of views indicated by “view_count” is 9, and “view_pair_position_id = 010”, indicating that the two views are two inward from both ends.

両端よりも内側のビューペアは、受信側でビュー合成を行う際に両端の2つのビューでは十分に画質が満足できないような場合に、補間合成の性能を向上させるために、両端のビューペアに追加で伝送されることが可能である。その際、追加で伝送されるビューペアの符号化ビデオデータは、両端のビューペアのストリームの中に、アクセスユニット(AccessUnit)を共有するように符号化されてもよいし、あるいは、別のストリームとして符号化されてもよい。   In order to improve the performance of interpolation synthesis, view pairs inside the both ends can be added to the view pairs at both ends in order to improve the performance of interpolation synthesis when the image quality cannot be satisfied with the two views at both ends. Can be transmitted. At this time, the encoded video data of the view pair additionally transmitted may be encoded so as to share the access unit (AccessUnit) in the stream of the view pair at both ends, or may be encoded as another stream. May be used.

図19は、上述のように両端の2つのビューペアの画像データと共に、両端よりも内側の2つのビューペアの画像データを送信する場合において、送信側あるいは受信側における視差データ(disparity data)の生成例を示している。図示の例では、view_count」が示すビュー数が9とされている。そして、両端の2つのビュー(View 1, View 2)の画像データが含まれるサブストリーム(substream1)と、それよりも内側の2つのビュー(View 3, View 4)の画像データが含まれるサブストリーム(substream 2)とが存在するものとしている。   FIG. 19 shows an example of generation of disparity data (disparity data) on the transmission side or the reception side when transmitting image data of two view pairs inside the both ends together with image data of the two view pairs at both ends as described above. Is shown. In the illustrated example, the number of views indicated by “view_count” is nine. Then, a substream (substream1) containing image data of two views (View 1, View 2) at both ends, and a substream containing image data of two views (View 3, View 4) inside it (Substream 2) exists.

この場合、最初に、「View 1」と「View 3」とで視差データを計算する。次に、「View 2」と「View 4」とで視差データを計算する。最後に、「View 3」と「View 4」とで視差データを計算する。なお、サブストリーム間で、ビューの解像度が異なる場合は、どちらかの解像度に合わせた上で、視差データの計算を行う。   In this case, first, parallax data is calculated for “View 1” and “View 3”. Next, parallax data is calculated for “View 2” and “View 4”. Finally, parallax data is calculated for “View 3” and “View 4”. If the view resolution differs between substreams, the parallax data is calculated after matching either resolution.

図20は、上述したように計算された視差データに基づき、受信側で、各ビューの間に位置するビューの画像データを補間合成する例を示している。この場合、最初に、「View 1」と「View 3」との間の視差データを用いて、「View 1」と「View 3」の間に位置する「View_A」を補間合成する。   FIG. 20 shows an example in which image data of views located between the views is interpolated and synthesized on the receiving side based on the parallax data calculated as described above. In this case, first, “View_A” positioned between “View 1” and “View 3” is interpolated and synthesized using disparity data between “View 1” and “View 3”.

次に、「View 2」と「View 4」との間の視差データを用いて、「View 2」と「View 4」の間に位置する「View_B」を補間合成する。最後に、「View 3」と「View 4」との間の視差データを用いて、「View 3」と「View 4」の間に位置する「View_C」、「View_D」、「View_E」を補間合成する。   Next, using the parallax data between “View 2” and “View 4”, “View_B” located between “View 2” and “View 4” is interpolated and synthesized. Finally, using the parallax data between “View 3” and “View 4”, “View_C”, “View_D”, and “View_E” located between “View 3” and “View 4” are interpolated. To do.

次に、ビュー構成情報としてのマルチビュー・ストリーム・コンフィグレーション・インフォ(multiview_stream_configuration_info())を、ビデオストリーム(ビデオエレメンタリストリーム)のユーザデータ領域に挿入する場合について説明する。この場合、マルチビュー・ストリーム・コンフィグレーション・インフォは、ユーザデータ領域を利用して、例えば、ピクチャ単位あるいはGOP単位で挿入される。   Next, a case where multi-view stream configuration information (multiview_stream_configuration_info ()) as view configuration information is inserted into a user data area of a video stream (video elementary stream) will be described. In this case, the multi-view stream configuration information is inserted, for example, in picture units or GOP units using the user data area.

例えば、符号化方式がAVCである場合、マルチビュー・ストリーム・コンフィグレーション・インフォは、アクセスユニットの“SELs”の部分に、「Multiview stream configuration SEI message」として、挿入される。図21(a)は、GOP(Group Of Pictures)の先頭のアクセスユニットを示しており、図21(b)は、GOPの先頭以外のアクセスユニットを示している。マルチビュー・ストリーム・コンフィグレーション・インフォがGOP単位で挿入される場合、GOPの先頭のアクセスユニットにのみ「Multiview stream configuration SEI message」が挿入される。   For example, when the encoding method is AVC, the multi-view stream configuration information is inserted as “Multiview stream configuration SEI message” in the “SELs” portion of the access unit. FIG. 21A shows the top access unit of the GOP (Group Of Pictures), and FIG. 21B shows the access unit other than the top of the GOP. When multi-view stream configuration information is inserted in units of GOPs, a “Multiview stream configuration SEI message” is inserted only in the first access unit of the GOP.

図22(a)は、「Multiview stream configuration SEI message」の構造例(Syntax)を示している。「uuid_iso_iec_11578」は、“ISO/IEC 11578:1996 AnnexA.”で示されるUUID値をもつ。「user_data_payload_byte」のフィールドに、「userdata_for_multiview_stream_configuration()」が挿入される。図22(b)は、「userdata_for_multiview_stream _configuration()」の構造例(Syntax)を示している。この中に、マルチビュー・ストリーム・コンフィグレーション・インフォ(multiview_stream_configuration_info())が挿入される(図14参照)。「userdata_id」は、符号なし16ビットで示されるマルチビュー・ストリーム・コンフィグレーション・インフォの識別子である。   FIG. 22A shows a structural example (Syntax) of “Multiview stream configuration SEI message”. “Uuid_iso_iec_11578” has a UUID value indicated by “ISO / IEC 11578: 1996 Annex A.”. “Userdata_for_multiview_stream_configuration ()” is inserted into the “user_data_payload_byte” field. FIG. 22B shows a structural example (Syntax) of “userdata_for_multiview_stream_configuration ()”. In this, multiview stream configuration information (multiview_stream_configuration_info ()) is inserted (see FIG. 14). “Userdata_id” is an identifier of multi-view stream configuration information indicated by 16 bits without a sign.

また、例えば、符号化方式がMPEG2 videoである場合、マルチビュー・ストリーム・コンフィグレーション・インフォは、ピクチャヘッダ部のユーザデータ領域に、ユーザデータ「user_data()」として挿入される。図23(a)は、「user_data()」の構造例(Syntax)を示している。「user_data_start_code」の32ビットフィールドは、ユーザデータ(user_data)の開始コードであり、“0x000001B2”の固定値とされる。   For example, when the encoding method is MPEG2 video, the multi-view stream configuration information is inserted as user data “user_data ()” in the user data area of the picture header portion. FIG. 23A shows a structural example (Syntax) of “user_data ()”. A 32-bit field of “user_data_start_code” is a start code of user data (user_data), and is a fixed value of “0x000001B2”.

この開始コードに続く32ビットフィールドは、ユーザデータの内容を識別する識別子である。ここでは、「Stereo_Video_Format_Signaling_identifier」とされ、ユーザデータが、マルチビュー・ストリーム・コンフィグレーション・インフォであることを識別可能とする。この識別子の後のデータ本体として、ストリーム関連付け情報としての「Multiview_stream_configuration()」が挿入される。図23(b)は、Multiview_stream_configuration()」の構造例(Syntax)を示している。この中に、マルチビュー・ストリーム・コンフィグレーション・インフォ(multiview_stream_configuration_info())が挿入される(図14参照)。   A 32-bit field following the start code is an identifier for identifying the contents of user data. Here, “Stereo_Video_Format_Signaling_identifier” is set, and it is possible to identify that the user data is multi-view stream configuration information. As the data body after this identifier, “Multiview_stream_configuration ()” as stream association information is inserted. FIG. 23B shows a structural example (Syntax) of “Multiview_stream_configuration ()”. In this, multiview stream configuration information (multiview_stream_configuration_info ()) is inserted (see FIG. 14).

上述の図12に示す識別情報としてのマルチビュー・ストリーム・コンフィグレーション・デスクリプタ(multiview_stream_configuration_descriptor)は、トランスポートストリームTSのレイヤ、例えばPMTの配下、あるいはEITの配下などに挿入される。すなわち、このデスクリプタは、イベント単位あるいは時間的に静的ないし動的なユースケースに置いて最適な位置に配置される。   The multi-view stream configuration descriptor (multiview_stream_configuration_descriptor) as the identification information shown in FIG. 12 is inserted in the transport stream TS layer, for example, under the PMT or under the EIT. In other words, this descriptor is placed at an optimum position in an event unit or in a static or dynamic use case in time.

図24は、トランスポートストリームTSの構成例を示している。なお、この構成例では、図面の簡単化のために、視差データ、オーディオ、およびグラフィクスなどに関しては、その図示を省略している。この構成例は、トランスポートストリームTSに3つのビデオストリームが含まれる場合を示している。すなわち、トランスポートストリームTSには、中央、左端および右端の各ビューの画像データがそれぞれ1つのピクチャとして符号化されて得られた3つのビデオストリームが含まれている。また、この構成例は、ビュー数が5である場合を示している。   FIG. 24 illustrates a configuration example of the transport stream TS. In this configuration example, illustration of parallax data, audio, graphics, and the like is omitted for simplification of the drawing. This configuration example shows a case where three video streams are included in the transport stream TS. That is, the transport stream TS includes three video streams obtained by encoding the image data of each view at the center, the left end, and the right end as one picture. Further, this configuration example shows a case where the number of views is five.

この図24の構成例では、中央ビューの画像データVC′が1つのピクチャとして符号化されているビデオストリームのPESパケット「video PES1」が含まれている。このビデオストリームのユーザデータ領域に挿入されるマルチビュー・ストリーム・コンフィグレーション・インフォにおいては、「View_count」が示すビュー数が5であることが示されている。   The configuration example of FIG. 24 includes a PES packet “video PES1” of a video stream in which the image data VC ′ of the central view is encoded as one picture. In the multi-view stream configuration information inserted in the user data area of this video stream, it is indicated that the number of views indicated by “View_count” is five.

また、このインフォにおいては、「single_view_es_flag = 1」とされ、このビデオストリームにおいて、1アクセスユニット内の1つのピクチャのデータのみが符号化されていることが示されている。また、このインフォにおいては、「View_interleaving_flag= 0」とされ、このビデオストリームにおいて、2つのビューの画像データがインターリーブ処理されて1つのピクチャのデータとして符号化されていないことが示されている。さらに、「view_allocation = 0000」とされ、このビデオストリームに含まれる画像データが中央のビューの画像データであることが示されている。   In this information, “single_view_es_flag = 1” is set, and it is indicated that only data of one picture in one access unit is encoded in this video stream. Also, in this info, “View_interleaving_flag = 0” is set, and it is indicated that image data of two views is not interleaved and encoded as data of one picture in this video stream. Furthermore, “view_allocation = 0000” is set, indicating that the image data included in this video stream is the image data of the central view.

また、この図24の構成例では、左端ビューの画像データVL′が1つのピクチャとして符号化されているビデオストリームのPESパケット「video PES2」が含まれている。このビデオストリームのユーザデータ領域に挿入されるマルチビュー・ストリーム・コンフィグレーション・インフォにおいては、「View_count」が示すビュー数が5であることが示されている。   In addition, the configuration example of FIG. 24 includes a PES packet “video PES2” of a video stream in which the image data VL ′ of the left end view is encoded as one picture. In the multi-view stream configuration information inserted in the user data area of this video stream, it is indicated that the number of views indicated by “View_count” is five.

また、このインフォにおいては、「single_view_es_flag = 1」とされ、このビデオストリームにおいて、1アクセスユニット内の1つのピクチャのデータのみが符号化されていることが示されている。また、このインフォにおいては、「View_interleaving_flag= 0」とされ、このビデオストリームにおいて、2つのビューの画像データがインターリーブ処理されて1つのピクチャのデータとして符号化されていないことが示されている。さらに、「view_allocation = 0011」とされ、このビデオストリームに含まれる画像データが中央から左側に2つ隣りのビュー、つまり左端ビューの画像データであることが示されている。   In this information, “single_view_es_flag = 1” is set, and it is indicated that only data of one picture in one access unit is encoded in this video stream. Also, in this info, “View_interleaving_flag = 0” is set, and it is indicated that image data of two views is not interleaved and encoded as data of one picture in this video stream. Furthermore, “view_allocation = 0011” is set, indicating that the image data included in this video stream is the image data of the two adjacent views from the center to the left side, that is, the left end view.

また、この図24の構成例では、左端ビューの画像データVR′が1つのピクチャとして符号化されているビデオストリームのPESパケット「video PES3」が含まれている。このビデオストリームのユーザデータ領域に挿入されるマルチビュー・ストリーム・コンフィグレーション・インフォにおいては、「View_count」が示すビュー数が5であることが示されている。   In addition, the configuration example of FIG. 24 includes a PES packet “video PES3” of a video stream in which the image data VR ′ of the left end view is encoded as one picture. In the multi-view stream configuration information inserted in the user data area of this video stream, it is indicated that the number of views indicated by “View_count” is five.

また、このインフォにおいては、「single_view_es_flag = 1」とされ、このビデオストリームにおいて、1アクセスユニット内の1つのピクチャのデータのみが符号化されていることが示されている。また、このインフォにおいては、「View_interleaving_flag= 0」とされ、このビデオストリームにおいて、2つのビューの画像データがインターリーブ処理されて1つのピクチャのデータとして符号化されていないことが示されている。さらに、「view_allocation = 0100」とされ、このビデオストリームに含まれる画像データが中央から右側に2つ隣りのビュー、つまり右端ビューの画像データであることが示されている。   In this information, “single_view_es_flag = 1” is set, and it is indicated that only data of one picture in one access unit is encoded in this video stream. Also, in this info, “View_interleaving_flag = 0” is set, and it is indicated that image data of two views is not interleaved and encoded as data of one picture in this video stream. Further, “view_allocation = 0100” is set, indicating that the image data included in this video stream is the image data of two adjacent views from the center to the right side, that is, the right end view.

また、トランスポートストリームTSには、PSI(Program Specific Information)として、PMT(ProgramMap Table)が含まれている。このPSIは、トランスポートストリームに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。また、トランスポートストリームには、イベント単位の管理を行うSI(Serviced Information)としてのEIT(EventInformation Table)が含まれている。   The transport stream TS includes a PMT (Program Map Table) as PSI (Program Specific Information). This PSI is information describing to which program each elementary stream included in the transport stream belongs. Further, the transport stream includes an EIT (Event Information Table) as SI (Serviced Information) for managing each event.

PMTには、各エレメンタリストリームに関連した情報を持つエレメンタリ・ループが存在する。この構成例では、ビデオエレメンタリ・ループ(Video ES loop)が存在する。このエレメンタリ・ループには、ストリーム毎に、パケット識別子(PID)等の情報が配置されると共に、そのエレメンタリストリームに関連する情報を記述するデスクリプタも配置される。   In the PMT, there is an elementary loop having information related to each elementary stream. In this configuration example, a video elementary loop (Video ES loop) exists. In this elementary loop, information such as a packet identifier (PID) is arranged for each stream, and a descriptor describing information related to the elementary stream is also arranged.

この構成例では、PMTのビデオエレメンタリ・ループ(Video ES loop)の配下に、各ビデオストリームに関連して、マルチビュー・ストリーム・コンフィグレーション・デスクリプタ(multiview_stream_configuration_descriptor)が挿入されている。このデスクリプタで「multiview_stream_checkflag = 1」とされ、ビデオストリームのユーザ領域におけるビュー構成情報としてのマルチビュー・ストリーム・コンフィグレーション・インフォの存在が示されている。なお、このデスクリプタを、破線図示するように、EITの配下に挿入することも考えられる。   In this configuration example, a multiview stream configuration descriptor (multiview_stream_configuration_descriptor) is inserted in association with each video stream under a PMT video elementary loop (Video ES loop). In this descriptor, “multiview_stream_checkflag = 1” is set, which indicates the presence of multi-view stream configuration information as view configuration information in the user area of the video stream. It is also conceivable to insert this descriptor under the EIT as shown by the broken line.

また、図25も、トランスポートストリームTSの構成例を示している。なお、この構成例でも、図面の簡単化のために、視差データ、オーディオ、およびグラフィクスなどに関しては、その図示を省略している。この構成例は、トランスポートストリームTSに2つのビデオストリームが含まれる場合を示している。すなわち、トランスポートストリームTSには、中央のビューの画像データが1つのピクチャとして符号化されて得られたビデオストリームとが含まれている。また、このトランスポートストリームTSには、左端のビューおよび右端のビューの画像データがインターリーブ処理されて1つのピクチャとして符号化されて得られたビデオストリームが含まれている。また、この構成例も、ビュー数が5である場合を示している。   FIG. 25 also shows a configuration example of the transport stream TS. Also in this configuration example, illustration of parallax data, audio, graphics, and the like is omitted to simplify the drawing. This configuration example shows a case where two video streams are included in the transport stream TS. That is, the transport stream TS includes a video stream obtained by encoding the image data of the central view as one picture. In addition, the transport stream TS includes a video stream obtained by interleaving the image data of the left end view and the right end view and encoding it as one picture. This configuration example also shows a case where the number of views is five.

この図25の構成例では、中央ビューの画像データVC′が1つのピクチャとして符号化されているビデオストリームのPESパケット「video PES1」が含まれている。このビデオストリームのユーザデータ領域に挿入されるマルチビュー・ストリーム・コンフィグレーション・インフォにおいては、「View_count」が示すビュー数が5であることが示されている。   In the configuration example of FIG. 25, the PES packet “video PES1” of the video stream in which the image data VC ′ of the central view is encoded as one picture is included. In the multi-view stream configuration information inserted in the user data area of this video stream, it is indicated that the number of views indicated by “View_count” is five.

また、このインフォにおいては、「single_view_es_flag = 1」とされ、このビデオストリームにおいて、1アクセスユニット内の1つのピクチャのデータのみが符号化されていることが示されている。また、このインフォにおいては、「View_interleaving_flag= 0」とされ、このビデオストリームにおいて、2つのビューの画像データがインターリーブ処理されて1つのピクチャのデータとして符号化されているものではないことが示されている。さらに、「view_allocation = 0000」とされ、このビデオストリームに含まれる画像データが中央のビューの画像データであることが示されている。   In this information, “single_view_es_flag = 1” is set, and it is indicated that only data of one picture in one access unit is encoded in this video stream. In this info, “View_interleaving_flag = 0” is set, indicating that the image data of two views is not interleaved and encoded as one picture data in this video stream. Yes. Furthermore, “view_allocation = 0000” is set, indicating that the image data included in this video stream is the image data of the central view.

また、この図25の構成例では、左端ビューの画像データVL′および右端ビューの画像データVR′が1つのピクチャとして符号化されているビデオストリームのPESパケット「video PES2」が含まれている。このビデオストリームのユーザデータ領域に挿入されるマルチビュー・ストリーム・コンフィグレーション・インフォにおいては、「View_count」が示すビュー数が5であることが示されている。   25 includes a PES packet “video PES2” of a video stream in which the left end view image data VL ′ and the right end view image data VR ′ are encoded as one picture. In the multi-view stream configuration information inserted in the user data area of this video stream, it is indicated that the number of views indicated by “View_count” is five.

また、このインフォにおいては、「single_view_es_flag = 1」とされ、このビデオストリームにおいて、1アクセスユニット内の1つのピクチャのデータのみが符号化されていることが示されている。また、このインフォにおいては、「View_interleaving_flag= 1」とされ、このビデオストリームにおいて、2つのビューの画像データがインターリーブ処理されて1つのピクチャのデータとして符号化されていることが示されている。さらに、「view_pair_position_id= 000」とされ、両端の2つのビューペアであることが示されている。さらに、「view_interleaving_type= 1」とされ、インターリーブのタイプがサイド・バイ・サイド(Side-by-Side)であることが示されている。   In this information, “single_view_es_flag = 1” is set, and it is indicated that only data of one picture in one access unit is encoded in this video stream. In this information, “View_interleaving_flag = 1” is set, and it is indicated that image data of two views is interleaved and encoded as data of one picture in this video stream. Further, “view_pair_position_id = 000” is set, indicating that the two view pairs are at both ends. Furthermore, “view_interleaving_type = 1” is set, indicating that the type of interleaving is side-by-side.

また、この構成例では、PMTのビデオエレメンタリ・ループ(Video ES loop)の配下に、各ビデオストリームに関連して、マルチビュー・ストリーム・コンフィグレーション・デスクリプタ(multiview_stream_configuration_descriptor)が挿入されている。このデスクリプタで「multiview_stream_checkflag = 1」とされ、ビデオストリームのユーザ領域におけるビュー構成情報としてのマルチビュー・ストリーム・コンフィグレーション・インフォの存在が示されている。なお、このデスクリプタを、破線図示するように、EITの配下に挿入することも考えられる。   In this configuration example, a multiview stream configuration descriptor (multiview_stream_configuration_descriptor) is inserted under the PMT video elementary loop (Video ES loop) in association with each video stream. In this descriptor, “multiview_stream_checkflag = 1” is set, which indicates the presence of multi-view stream configuration information as view configuration information in the user area of the video stream. It is also conceivable to insert this descriptor under the EIT as shown by the broken line.

また、図26も、トランスポートストリームTSの構成例を示している。なお、この構成例でも、図面の簡単化のために、視差データ、オーディオ、およびグラフィクスなどに関しては、その図示を省略している。この構成例は、トランスポートストリームTSに1つのビデオストリームが含まれる場合を示している。すなわち、トランスポートストリームTSには、中央、左端および右端の各ビューの画像データがそれぞれ1つのピクチャのデータとして符号化されたデータを含むビデオストリームが含まれている。また、この構成例も、ビュー数が5である場合を示している。   FIG. 26 also illustrates a configuration example of the transport stream TS. Also in this configuration example, illustration of parallax data, audio, graphics, and the like is omitted to simplify the drawing. This configuration example shows a case where one video stream is included in the transport stream TS. That is, the transport stream TS includes a video stream including data obtained by encoding image data of each view at the center, the left end, and the right end as data of one picture. This configuration example also shows a case where the number of views is five.

この図26の構成例では、1つのビデオストリームのPESパケット「video PES1」が含まれている。このビデオストリームには、中央、左端および右端の各ビューの画像データがそれぞれ1アクセスユニット内の1つのピクチャのデータとして符号化されたデータが含まれており、各ピクチャに対応してユーザデータ領域が存在する。そして、それぞれに、マルチビュー・ストリーム・コンフィグレーション・インフォが挿入されている。   In the configuration example of FIG. 26, a PES packet “video PES1” of one video stream is included. This video stream includes data in which image data of each view at the center, the left end, and the right end is encoded as data of one picture in one access unit, and a user data area corresponding to each picture Exists. In each case, multi-view stream configuration information is inserted.

中央ビューの画像データが符号化されたピクチャデータに対応するインフォにおいては、「View_count」が示すビュー数が5であることが示されている。また、このインフォにおいては、「single_view_es_flag = 0」とされ、このビデオストリームにおいて、1アクセスユニット内に複数のピクチャのデータが符号化されていることが示されている。また、このインフォにおいては、「View_interleaving_flag= 0」とされ、このピクチャデータが2つのビューの画像データがインターリーブ処理されて符号化されたものでないことが示されている。さらに、「view_allocation = 0000」とされ、このピクチャデータに含まれる画像データが中央のビューの画像データであることが示されている。   In the information corresponding to the picture data in which the image data of the central view is encoded, it is indicated that the number of views indicated by “View_count” is five. In this information, “single_view_es_flag = 0” is set, and it is indicated that data of a plurality of pictures is encoded in one access unit in this video stream. In this info, “View_interleaving_flag = 0” is set, indicating that this picture data is not encoded by interleaving the image data of two views. Furthermore, “view_allocation = 0000” is set, indicating that the image data included in the picture data is the image data of the central view.

また、左端ビューの画像データが符号化されたピクチャデータに対応するインフォにおいては、「View_count」が示すビュー数が5であることが示されている。また、このインフォにおいては、「single_view_es_flag = 0」とされ、このビデオストリームにおいて、1アクセスユニット内に複数のピクチャのデータが符号化されていることが示されている。また、このインフォにおいては、「View_interleaving_flag= 0」とされ、このピクチャデータが2つのビューの画像データがインターリーブ処理されて符号化されたものでないことが示されている。さらに、「view_allocation = 0011」とされ、このピクチャデータに含まれる画像データが中央から左側に2つ隣りのビュー、つまり左端ビューの画像データであることが示されている。   Further, in the information corresponding to the picture data in which the image data of the left end view is encoded, it is indicated that the number of views indicated by “View_count” is five. In this information, “single_view_es_flag = 0” is set, and it is indicated that data of a plurality of pictures is encoded in one access unit in this video stream. In this info, “View_interleaving_flag = 0” is set, indicating that this picture data is not encoded by interleaving the image data of two views. Further, “view_allocation = 0011” is set, indicating that the image data included in the picture data is the image data of the two adjacent views from the center to the left side, that is, the image data of the left end view.

また、右端ビューの画像データが符号化されたピクチャデータに対応するインフォにおいては、「View_count」が示すビュー数が5であることが示されている。また、このインフォにおいては、「single_view_es_flag = 0」とされ、このビデオストリームにおいて、1アクセスユニット内に複数のピクチャのデータが符号化されていることが示されている。また、このインフォにおいては、「View_interleaving_flag= 0」とされ、このピクチャデータが2つのビューの画像データがインターリーブ処理されて符号化されたものでないことが示されている。さらに、「view_allocation = 0100」とされ、このピクチャデータに含まれる画像データが中央から右側に2つ隣りのビュー、つまり右端ビューの画像データであることが示されている。   Further, in the information corresponding to the picture data in which the image data of the right end view is encoded, it is indicated that the number of views indicated by “View_count” is five. In this information, “single_view_es_flag = 0” is set, and it is indicated that data of a plurality of pictures is encoded in one access unit in this video stream. In this info, “View_interleaving_flag = 0” is set, indicating that this picture data is not encoded by interleaving the image data of two views. Further, “view_allocation = 0100” is set, indicating that the image data included in the picture data is the image data of the two adjacent views from the center to the right side, that is, the right end view.

また、この構成例では、PMTのビデオエレメンタリ・ループ(Video ES loop)の配下に、1つのビデオストリームに関連して、マルチビュー・ストリーム・コンフィグレーション・デスクリプタ(multiview_stream_configuration_descriptor)が挿入されている。このデスクリプタで「multiview_stream_checkflag = 1」とされ、ビデオストリームのユーザ領域におけるビュー構成情報としてのマルチビュー・ストリーム・コンフィグレーション・インフォの存在が示されている。なお、このデスクリプタを、破線図示するように、EITの配下に挿入することも考えられる。   Also, in this configuration example, a multiview stream configuration descriptor (multiview_stream_configuration_descriptor) is inserted in association with one video stream under the video elementary loop (Video ES loop) of the PMT. In this descriptor, “multiview_stream_checkflag = 1” is set, which indicates the presence of multi-view stream configuration information as view configuration information in the user area of the video stream. It is also conceivable to insert this descriptor under the EIT as shown by the broken line.

上述したように、図7に示す送信データ生成部110においては、立体画像表示のための複数のビューのうち、少なくとも左端のビューおよび右端のビューの画像データと、左端および右端の間に位置する中間のビューの画像データとが符号化されて得られたビデオストリームを含むトランスポートストリームTSが生成される。そのため、マルチビュー構成による立体画像の裸眼観賞を行うための画像データ伝送を効果的に行うことができる。   As described above, the transmission data generation unit 110 illustrated in FIG. 7 is located between the left end and the right end of at least the left end view and the right end view among the plurality of views for stereoscopic image display. A transport stream TS including a video stream obtained by encoding image data of an intermediate view is generated. Therefore, image data transmission for performing naked-eye viewing of a stereoscopic image with a multi-view configuration can be effectively performed.

すなわち、左端のビューおよび右端のビューの画像データだけでなく、中間のビューの画像データも送信されるので、ビュー間の相対視差が小さく、その他のビューの画像データを補間する際の細かな部分の処理に伴うオクルージョン周辺の補間が容易になり、再生画像の品質向上を図ることができる。また、左端のビューおよび右端のビューの画像データが送信されるので、伝送されないビューの画像データの補間は全て内挿処理によって合成でき、オクルージョンなどの端点処理に関して高画質を維持することが容易となる。   That is, not only the image data of the left end view and the right end view but also the image data of the intermediate view is transmitted, so the relative parallax between the views is small, and the fine parts when interpolating the image data of other views Interpolation around the occlusion associated with this processing becomes easy, and the quality of the reproduced image can be improved. In addition, since the image data of the left end view and the right end view is transmitted, all of the image data of the non-transmitted view can be synthesized by interpolation processing, and it is easy to maintain high image quality with respect to end point processing such as occlusion. Become.

また、図7に示す送信データ生成部110においては、ビデオストリームのレイヤに、ビュー構成情報としてのマルチビュー・ストリーム・コンフィグレーション・インフォ(multiview_stream_configuration_info())が挿入される。そのため、受信側では、このビュー構成情報により、複数のビューの画像データによる3次元画像(立体画像)の裸眼観賞を行うための適切かつ効率的な処理が可能となる。   In addition, in the transmission data generation unit 110 illustrated in FIG. 7, multiview stream configuration information (multiview_stream_configuration_info ()) as the view configuration information is inserted in the video stream layer. Therefore, on the receiving side, appropriate and efficient processing for performing naked-eye viewing of a three-dimensional image (stereoscopic image) using image data of a plurality of views can be performed based on the view configuration information.

また、図7に示す送信データ生成部110においては、トランスポートストリームTSのレイヤに、マルチビュー・ストリーム・コンフィグレーション・デスクリプタ(multiview_stream_configuration_descriptor)が挿入される。このデスクリプタは、ビデオストリームのレイヤにビュー構成情報の挿入があるか否かを識別するための識別情報を構成している。この識別情報により、受信側では、ビデオストリームのレイヤにビュー構成情報の挿入があるか否かを容易に識別可能となる。そのため、ビデオストリームのユーザデータ領域からのビュー構成情報の効率的な抽出が可能となる。   In addition, in the transmission data generation unit 110 illustrated in FIG. 7, a multiview stream configuration descriptor (multiview_stream_configuration_descriptor) is inserted in the layer of the transport stream TS. This descriptor constitutes identification information for identifying whether or not view configuration information is inserted in the layer of the video stream. With this identification information, the reception side can easily identify whether or not view configuration information is inserted in the layer of the video stream. Therefore, it is possible to efficiently extract view configuration information from the user data area of the video stream.

また、図7に示す送信データ生成部110においては、視差データ生成部116で各ビュー間の視差データが生成され、この視差データが符号化されて得られた視差ストリームが、ビデオストリームと共に、トランスポートストリームTSに含まれる。そのため、受信側では、受信された各ビューの画像データから視差データを生成する処理を行うことなく、送られてくる視差データに基づいて、伝送されない各ビューの画像データを容易に補間合成することが可能となる。   In addition, in the transmission data generation unit 110 illustrated in FIG. 7, the parallax data between the views is generated by the parallax data generation unit 116, and the parallax stream obtained by encoding the parallax data is converted together with the video stream. It is included in the port stream TS. Therefore, on the receiving side, image data of each view that is not transmitted can be easily interpolated based on the transmitted parallax data without performing processing to generate parallax data from the received image data of each view. Is possible.

「受信機の構成例」
図27は、受信機200の構成例を示している。この受信機200は、CPU201と、フラッシュROM202と、DRAM203と、内部バス204と、リモートコントロール受信部(RC受信部)205と、リモートコントロール送信機(RC送信機)206を有している。また、この受信機200は、アンテナ端子211と、デジタルチューナ212と、トランスポートストリームバッファ(TSバッファ)213と、デマルチプレクサ214を有している。
"Example of receiver configuration"
FIG. 27 illustrates a configuration example of the receiver 200. The receiver 200 includes a CPU 201, a flash ROM 202, a DRAM 203, an internal bus 204, a remote control receiver (RC receiver) 205, and a remote control transmitter (RC transmitter) 206. The receiver 200 also includes an antenna terminal 211, a digital tuner 212, a transport stream buffer (TS buffer) 213, and a demultiplexer 214.

また、受信機200は、コーデッドバッファ215-1,215-2,215-3と、ビデオデコーダ216-1,216-2,216-3と、デコーデッドバッファ217-1,217-2,217-3と、スケーラ218-1,218-2,218-3を有している。また、受信機200は、ビュー補間部219と、ピクセルインターリーブ/重畳部220を有している。また、受信機200は、コーデッドバッファ221と、視差デコーダ222と、視差バッファ223と、視差データ変換部224を有している。   The receiver 200 includes coded buffers 215-1, 215-2, and 215-3, video decoders 216-1, 216-2, and 216-3, and decoded buffers 217-1, 217-2, and 217-. 3 and scalers 218-1, 218-2, and 218-3. The receiver 200 also includes a view interpolation unit 219 and a pixel interleave / superimposition unit 220. In addition, the receiver 200 includes a coded buffer 221, a parallax decoder 222, a parallax buffer 223, and a parallax data conversion unit 224.

また、受信機200は、コーデッドバッファ225と、グラフィクスデコーダ226と、ピクセルバッファ227と、スケーラ228と、グラフィクスシフタ229を有している。さらに、受信機200は、コーデッドバッファ230と、オーディオデコーダ231と、チャネルミキシング部232を有している。   The receiver 200 also includes a coded buffer 225, a graphics decoder 226, a pixel buffer 227, a scaler 228, and a graphics shifter 229. Further, the receiver 200 includes a coded buffer 230, an audio decoder 231, and a channel mixing unit 232.

CPU201は、受信機200の各部の動作を制御する。フラッシュROM202は、制御ソフトウェアの格納およびデータの保管を行う。DRAM203は、CPU201のワークエリアを構成する。CPU201は、フラッシュROM202から読み出したソフトウェアやデータをDRAM203上に展開してソフトウェアを起動させ、受信機200の各部を制御する。RC受信部205は、RC送信機206から送信されたリモーコントロール信号(リモコンコード)を受信し、CPU201に供給する。CPU201は、このリモコンコードに基づいて、受信機200の各部を制御する。CPU201、フラッシュROM202およびDRAM203は、内部バス204に接続されている。   The CPU 201 controls the operation of each unit of the receiver 200. The flash ROM 202 stores control software and data. The DRAM 203 constitutes a work area for the CPU 201. The CPU 201 develops software and data read from the flash ROM 202 on the DRAM 203 and activates the software to control each unit of the receiver 200. The RC receiving unit 205 receives a remote control signal (remote control code) transmitted from the RC transmitter 206 and supplies it to the CPU 201. CPU201 controls each part of receiver 200 based on this remote control code. The CPU 201, flash ROM 202, and DRAM 203 are connected to the internal bus 204.

アンテナ端子211は、受信アンテナ(図示せず)で受信されたテレビ放送信号を入力する端子である。デジタルチューナ212は、アンテナ端子211に入力されたテレビ放送信号を処理して、ユーザの選択チャネルに対応した所定のトランスポートストリーム(ビットストリームデータ)TSを出力する。トランスポートストリームバッファ(TSバッファ)213は、デジタルチューナ212から出力されたトランスポートストリームTSを一時的に蓄積する。   The antenna terminal 211 is a terminal for inputting a television broadcast signal received by a receiving antenna (not shown). The digital tuner 212 processes the television broadcast signal input to the antenna terminal 211 and outputs a predetermined transport stream (bit stream data) TS corresponding to the user's selected channel. The transport stream buffer (TS buffer) 213 temporarily accumulates the transport stream TS output from the digital tuner 212.

このトランスポートストリームTSには、立体画像表示のための複数のビューのうち、少なくとも左端のビューおよび右端のビューの画像データと、左端および右端の間に位置する中間のビューとしての中央のビューの画像データとが符号化されて得られたビデオストリームが含まれている。   The transport stream TS includes at least image data of a left end view and a right end view among a plurality of views for stereoscopic image display, and a central view as an intermediate view positioned between the left end and the right end. A video stream obtained by encoding image data is included.

この場合、トランスポートストリームTSに、3つ、2つ、あるいは1つのビデオストリームが含まれる場合等がある(図24、図25、図26参照)。ここでは、説明を簡単にするために、トランスポートストリームTSに、中央、左端および右端の各ビューの画像データがそれぞれ1つのピクチャとして符号化されて得られた3つのビデオストリームが含まれるものとして説明を行うものとする。   In this case, the transport stream TS may include three, two, or one video stream (see FIGS. 24, 25, and 26). Here, for the sake of simplicity, it is assumed that the transport stream TS includes three video streams obtained by encoding the image data of the center, left end, and right end views as one picture. An explanation shall be given.

このトランスポートストリームTSには、上述したように、PMTの配下、あるいはEITの配下などに、マルチビュー・ストリーム・コンフィグレーション・デスクリプタ(multiview_stream_configuration_descriptor)が挿入されている。このデスクリプタは、ビデオストリームのレイヤにビュー構成情報、つまりマルチビュー・ストリーム・コンフィグレーション・インフォ(multiview_stream_configuration_info())の挿入があるか否かを識別するための識別情報である。   As described above, a multiview stream configuration descriptor (multiview_stream_configuration_descriptor) is inserted into the transport stream TS under the PMT or the EIT. This descriptor is identification information for identifying whether or not view configuration information, that is, multiview stream configuration information (multiview_stream_configuration_info ()) is inserted in the layer of the video stream.

デマルチプレクサ214は、TSバッファ213に一時的に蓄積されたトランスポートストリームTSから、ビデオ、視差、グラフィクスおよびオーディオの各エレメンタリストリームを抽出する。また、デマルチプレクサ214は、このトランスポートストリームTSから、上述したマルチビュー・ストリーム・コンフィグレーション・デスクリプタを抽出し、CPU201に送る。CPU201は、このデスクリプタの「multiview_stream_checkflag」の1ビットフィールドにより、ビデオストリームのレイヤにビュー構成情報の挿入があるか否かを容易に判断できる。   The demultiplexer 214 extracts elementary streams of video, parallax, graphics, and audio from the transport stream TS temporarily stored in the TS buffer 213. Further, the demultiplexer 214 extracts the multi-view stream configuration descriptor described above from the transport stream TS, and sends it to the CPU 201. The CPU 201 can easily determine whether or not view configuration information is inserted in the layer of the video stream from the 1-bit field of “multiview_stream_checkflag” of the descriptor.

コーデッドバッファ215-1,215-2,215-3は、それぞれ、デマルチプレクサ214で抽出される中央、左端および右端の各ビューの画像データがそれぞれ1つのピクチャとして符号化されて得られたビデオストリームを一時的に蓄積する。ビデオデコーダ216-1,216-2,216-3は、CPU201の制御のもと、それぞれ、コーデッドバッファ215-1,215-2,215-3に記憶されているビデオストリームの復号化処理を行って、中央、左端および右端の各ビューの画像データを取得する。   The coded buffers 215-1, 215-2, and 215-3 are video streams obtained by encoding the image data of the center, left end, and right end views extracted by the demultiplexer 214 as one picture, respectively. Is temporarily stored. Video decoders 216-1, 216-2, and 216-3 perform decoding processing of video streams stored in coded buffers 215-1, 215-2, and 215-3, respectively, under the control of CPU 201. Then, the image data of each view at the center, the left end, and the right end is acquired.

ここで、ビデオデコーダ216-1は、中央ビュー(center view)の画像データを取得する。また、ビデオデコーダ216-2は、左端ビュー(left view)の画像データを取得する。さらに、ビデオデコーダ216-3は、右端ビュー(right view)の画像データを取得する。なお、2つ以上のビューがインターリーブされて符号化されている場合は、ストリーム単位で、コーデッドバッファ、ビデオデコーダ、デコーデッドバッファ、スケ―ラが割り当てられることになる。   Here, the video decoder 216-1 acquires image data of a center view. In addition, the video decoder 216-2 acquires image data of the left end view (left view). Furthermore, the video decoder 216-3 acquires image data of the right end view (right view). When two or more views are interleaved and encoded, a coded buffer, a video decoder, a decoded buffer, and a scaler are allocated for each stream.

各ビデオデコーダは、ビデオストリームのピクチャヘッダまたはシーケンスヘッダのユーザデータ領域などに挿入されているビュー構成情報としてのマルチビュー・ストリーム・コンフィグレーション・インフォ(multiview_stream_configuration_info())を抽出し、CPU201に送る。CPU201は、このビュー構成情報により、複数のビューの画像データによる3次元画像(立体画像)の裸眼観賞を行うための適切かつ効率的な処理を行う。   Each video decoder extracts multi-view stream configuration information (multiview_stream_configuration_info ()) as view configuration information inserted in the user data area of the picture header or sequence header of the video stream, and sends it to the CPU 201. The CPU 201 performs appropriate and efficient processing for performing naked-eye viewing of a three-dimensional image (stereoscopic image) using image data of a plurality of views based on the view configuration information.

すなわち、CPU201は、このビュー構成情報に基づいて、ピクチャ単位あるいはGOP単位で、デマルチプレクサ214、ビデオデコーダ216-1,216-2,216-3、スケーラ218-1,218-2,218-3、ビュー補間部219等の動作を制御する。例えば、CPU201は、「3D_flag」の1ビットフィールドにより、ビデオストリームに含まれる画像データが3Dを構成する一部のビューの画像データであるか否かを識別できる。また、例えば、CPU201は、「view_count」の4ビットフィールドにより、3Dサービスを構成するビュー数を認識できる。   That is, based on this view configuration information, the CPU 201 demultiplexer 214, video decoders 216-1, 216-2, 216-3, scalers 218-1, 218-2, 218-3 in units of pictures or GOPs. The operation of the view interpolation unit 219 and the like is controlled. For example, the CPU 201 can identify whether or not the image data included in the video stream is the image data of a part of the views constituting 3D by using the 1-bit field “3D_flag”. Further, for example, the CPU 201 can recognize the number of views constituting the 3D service by a 4-bit field of “view_count”.

また、例えば、CPU201は、「single_view_es_flag 」の1ビットフィールドにより、ビデオストリームの1アクセスユニット内に複数のピクチャのデータが符号化されているか否かを識別できる。また、例えば、CPU201は、「view_interleaving_flag」の1ビットフィールドにより、ビデオストリームにおいて、2つのビューの画像データがインターリーブ処理されて1つのピクチャのデータとして符号化されているか否かを識別できる。   Further, for example, the CPU 201 can identify whether or not data of a plurality of pictures is encoded in one access unit of the video stream by using a 1-bit field of “single_view_es_flag”. Further, for example, the CPU 201 can identify whether or not the image data of two views is interleaved and encoded as data of one picture in the video stream by the 1-bit field of “view_interleaving_flag”.

また、例えば、CPU201は、ビデオストリームにおいて、2つのビューの画像データがインターリーブ処理されて1つのピクチャのデータとして符号化されていないとき、「view_allocation」の4ビットフィールドにより、ビデオストリームに含まれる画像データがどのビューの画像データであるかを認識できる。   For example, when image data of two views is not interleaved and encoded as data of one picture in the video stream, the CPU 201 uses the 4-bit field of “view_allocation” to display the image included in the video stream. It is possible to recognize which view image data the data is.

また、例えば、CPU201は、ビデオストリームにおいて、2つのビューの画像データがインターリーブ処理されて1つのピクチャのデータとして符号化されているとき、「view_pair_position_id」の3ビットフィールドにより、全ビューにおける2つのビューの相対的なビュー位置を認識できる。さらに、このとき、CPU201は、「view_interleaving_type」の1ビットフィールドにより、インターリーブのタイプ(type)を知ることができる。   Further, for example, when image data of two views is interleaved and encoded as data of one picture in the video stream, the CPU 201 uses the 3-bit field of “view_pair_position_id” to display two views in all views. The relative view position can be recognized. Further, at this time, the CPU 201 can know the type of interleaving (type) from the 1-bit field of “view_interleaving_type”.

また、例えば、CPU201は、「indication_of_picture_size_scaling _horizontal 」の4ビットフィールドおよび「indication_of_picture_size_scaling _vertical 」の4ビットフィールドにより、フルHDに対してのデコード画の水平画素比率を認識できる。   Further, for example, the CPU 201 can recognize the horizontal pixel ratio of the decoded image with respect to the full HD by the 4-bit field “indication_of_picture_size_scaling_horizontal” and the 4-bit field “indication_of_picture_size_scaling_vertical”.

デコーデッドバッファ217-1,217-2,217-3は、それぞれ、ビデオデコーダ216-1,216-2,216-3で取得された各ビューの画像データを一時的に蓄積する。スケーラ218-1,218-2,218-3は、それぞれ、デコーデッドバッファ217-1,217-2,217-3から出力される各ビューの画像データの出力解像度が、所定の解像度となるように調整する。   The decoded buffers 217-1, 217-2, and 217-3 temporarily store the image data of each view acquired by the video decoders 216-1, 216-2, and 216-3, respectively. Scalers 218-1, 218-2, and 218-3 are configured so that the output resolution of the image data of each view output from decoded buffers 217-1, 217-2, and 217-3 is a predetermined resolution, respectively. Adjust to.

マルチビュー・ストリーム・コンフィグレーション・インフォには、デコード画の水平画素比率を示す「indication_of_picture_size_scaling _horizontal 」の4ビットフィールドおよびデコード画の垂直画素比率を示す「indication_of_picture_size_scaling _vertical 」の4ビットフィールドが存在する。CPU201は、この画素比率情報に基づいて、スケーラ218-1,218-2,218-3におけるスケーリング比率を制御し、所定の解像度が得られるようにする。   The multi-view stream configuration information includes a 4-bit field “indication_of_picture_size_scaling_horizontal” indicating the horizontal pixel ratio of the decoded image and a 4-bit field “indication_of_picture_size_scaling_vertical” indicating the vertical pixel ratio of the decoded image. Based on this pixel ratio information, the CPU 201 controls the scaling ratios in the scalers 218-1, 218-2, and 218-3 so that a predetermined resolution can be obtained.

この場合、CPU201は、デコードした画像データの解像度、モニタの解像度およびビュー(view)の数に基づいて、デコーデッドバッファに蓄積されている画像データに対するスケーリング比を算出し、スケーラ218-1,218-2,218-3に指示を行う。図28は、スケーリング比の算出例を示している。   In this case, the CPU 201 calculates a scaling ratio for the image data stored in the decoded buffer based on the resolution of the decoded image data, the resolution of the monitor, and the number of views, and scalers 218-1 and 218. Instruct -2 and 218-3. FIG. 28 shows an example of calculating the scaling ratio.

例えば、デコードした画像データの解像度が960*1080で、モニタ解像度が1920*1080で、表示するビューの数が4である場合には、スケーリング比は1/2とされる。また、例えば、デコードした画像データの解像度が1920*1080で、モニタ解像度が1920*1080で、表示するビューの数が4である場合には、スケーリング比は1/4とされる。さらに、例えば、デコードした画像データの解像度が1920*2160で、モニタ解像度が3840*2160で、表示するビューの数が8である場合には、スケーリング比は1/4とされる。   For example, when the resolution of the decoded image data is 960 * 1080, the monitor resolution is 1920 * 1080, and the number of views to be displayed is 4, the scaling ratio is ½. Further, for example, when the resolution of the decoded image data is 1920 * 1080, the monitor resolution is 1920 * 1080, and the number of views to be displayed is 4, the scaling ratio is 1/4. Further, for example, when the resolution of the decoded image data is 1920 * 2160, the monitor resolution is 3840 * 2160, and the number of views to be displayed is 8, the scaling ratio is 1/4.

コーデッドバッファ221は、デマルチプレクサ214で抽出される視差ストリームを一時的に蓄積する。視差デコーダ222は、上述の送信データ生成部110の視差エンコーダ117(図7参照)とは逆の処理を行う。すなわち、視差デコーダ223は、コーデッドバッファ221に記憶されている視差ストリームの復号化処理を行って、視差データを得る。この視差データには、中央ビューと左端ビューとの間の視差データと、中央ビューと右端ビューとの間の視差データが含まれている。また、この視差データは、画素単位、あるいはブロック単位の視差データである。視差バッファ223は、視差デコーダ222で取得された視差データを一時的に蓄積する。   The coded buffer 221 temporarily accumulates the parallax stream extracted by the demultiplexer 214. The disparity decoder 222 performs processing opposite to that of the disparity encoder 117 (see FIG. 7) of the transmission data generation unit 110 described above. That is, the parallax decoder 223 performs a decoding process on the parallax stream stored in the coded buffer 221 to obtain parallax data. The disparity data includes disparity data between the center view and the left end view and disparity data between the center view and the right end view. The parallax data is parallax data in units of pixels or blocks. The parallax buffer 223 temporarily stores the parallax data acquired by the parallax decoder 222.

視差データ変換部224は、視差バッファ223に蓄積されている視差データに基づいて、スケーリング後の画像データのサイズに合った画素単位の視差データを生成する。例えば、送信されてくる視差データがブロック単位である場合には、画素単位の視差データに変換する(図11参照)。また、例えば、送信されてくる視差データが画素単位であるが、スケーリング後の画像データのサイズに合っていない場合には、適宜、スケーリングされる。   Based on the parallax data stored in the parallax buffer 223, the parallax data conversion unit 224 generates parallax data in pixel units that matches the size of the scaled image data. For example, when the transmitted parallax data is in units of blocks, it is converted into parallax data in units of pixels (see FIG. 11). Also, for example, when the transmitted parallax data is in units of pixels, but does not match the size of the scaled image data, the data is scaled appropriately.

ビュー補間部219は、スケーリング後の中央、左端および右端の各ビューの画像データから、視差データ変換部224で得られた各ビュー間の視差データに基づいて、伝送されてこない所定数のビューの画像データを補間合成する。すなわち、ビュー補間部219は、中央ビューと左端ビューとの間に位置する各ビューの画像データを補間合成して出力する。また、ビュー補間部219は、中央ビューと右端ビューとの間に位置する各ビューの画像データを補間合成して出力する。   The view interpolation unit 219 generates a predetermined number of views that have not been transmitted based on the parallax data between the views obtained by the parallax data conversion unit 224 from the image data of the center, left end, and right end views after scaling. Interpolate image data. That is, the view interpolation unit 219 interpolates and outputs the image data of each view positioned between the center view and the left end view. The view interpolation unit 219 interpolates and outputs image data of each view located between the center view and the right end view.

図29は、ビュー補間部219における補間合成処理の一例を概略的に示している。図示の例において、例えば、カレントビュー(Current view)は上述の中央ビューに相当し、ターゲットビュー1(Targetview 1)は上述の左端ビューに相当し、ターゲットビュー2(Target view 2)は上述の右端ビューに相当する。   FIG. 29 schematically illustrates an example of the interpolation synthesis process in the view interpolation unit 219. In the illustrated example, for example, the current view (Current view) corresponds to the above-described center view, the target view 1 (Targetview 1) corresponds to the above-mentioned left end view, and the target view 2 (Target view 2) corresponds to the above-described right end. Corresponds to the view.

カレントビューとターゲットビュー1との間に位置するビューの補間合成と、カレントビューとターゲットビュー2との間に位置するビューの補間合成とは、同様に行われる。以下では、カレントビューとターゲットビュー1との間に位置するビューの補間合成について説明する。   The interpolation synthesis of the view located between the current view and the target view 1 and the interpolation synthesis of the view located between the current view and the target view 2 are performed in the same manner. In the following, the interpolation synthesis of the view located between the current view and the target view 1 will be described.

カレントビューとターゲットビュー1との間に位置する補間合成するビューの画素は、以下のように割り当てられる。この場合、カレントビューからターゲットビュー1を指し示す視差データと、逆に、ターゲットビュー1からカレントビューを指し示す視差データとの、2方向の視差データが用いられる。まず、補間合成するビューの画素として、カレントビューの画素を、視差データをベクターとしてずらすことで、割り当てる(カレントビューからターゲットビュー1に向いた実線矢印および破線矢印と、黒丸を参照)。   The pixels of the view to be interpolated and located between the current view and the target view 1 are assigned as follows. In this case, disparity data in two directions, that is, disparity data indicating the target view 1 from the current view and conversely, disparity data indicating the current view from the target view 1 is used. First, as the view pixel to be interpolated and synthesized, the current view pixel is allocated by shifting the parallax data as a vector (see solid line arrows and broken line arrows from the current view to the target view 1 and black circles).

この際に、ターゲットビュー1においてターゲット・オクルーデッド(target occluded)となる部分では、以下の画素割り当てを行う。すなわち、補間合成するビューの画素として、ターゲットビュー1の画素を、視差データをベクターとしてずらすことで、割り当てる(ターゲットビュー1からカレントビューに向いた一点鎖線矢印と、白丸を参照)。   At this time, the following pixel allocation is performed in the target occluded portion in the target view 1. That is, the pixels of the target view 1 are allocated by shifting the parallax data as a vector as the view pixels to be interpolated and synthesized (see the dashed-dotted arrow pointing from the target view 1 to the current view and the white circle).

このように、ターゲット・オクルーデッドとなる部分では、双方向の視差データを持つことで、補間合成されるビューの画素を、バックグランド(background)と見なせるビューからの画素で充当できる。なお、双方向で対応できないオクルージョン(Occlusion)領域は、ポスト(Post)処理で値を充当する。   In this way, in the part that becomes the target occluded, by having bi-directional parallax data, the pixel of the view to be interpolated and synthesized can be applied with the pixel from the view that can be regarded as the background. It should be noted that an occlusion area that cannot be handled bidirectionally is assigned a value by a post process.

また、図示の矢印の先端が重なっているターゲット・オーバーラップド(target overlapped)となる部分は、ターゲットビュー1において、視差(disparity)によるシフトが重なる部分である。この部分においては、2つの視差のうち、どちらがカレントビューのフォグランド(fore ground)に相当するかを、視差データの値で判断し、選択する。この場合には、主には値の小さな方が選択される。   In addition, a portion that becomes a target overlapped where the tips of the arrows shown in the figure overlap is a portion in the target view 1 where shifts due to disparity overlap. In this part, which of the two parallaxes corresponds to the foreground of the current view is determined based on the value of the parallax data and selected. In this case, the smaller value is mainly selected.

図27に戻って、コーデッドバッファ225は、デマルチプレクサ214で抽出されるグラフィクスストリームを一時的に蓄積する。グラフィクスデコーダ226は、上述の送信データ生成部110のグラフィクスエンコーダ119(図7参照)とは逆の処理を行う。すなわち、グラフィクスデコーダ226は、コーデッドバッファ225に記憶されているグラフィクスストリームの復号化処理を行って、復号化されたグラフィクスデータ(サブタイトルデータを含む)を得る。また、グラフィクスデコーダ226は、このグラフィクスデータに基づいて、ビュー(画像)に重畳するグラフィクスのビットマップデータを発生する。   Returning to FIG. 27, the coded buffer 225 temporarily stores the graphics stream extracted by the demultiplexer 214. The graphics decoder 226 performs processing opposite to that of the graphics encoder 119 (see FIG. 7) of the transmission data generation unit 110 described above. That is, the graphics decoder 226 performs a decoding process on the graphics stream stored in the coded buffer 225 to obtain decoded graphics data (including subtitle data). The graphics decoder 226 generates graphics bitmap data to be superimposed on the view (image) based on the graphics data.

ピクセルバッファ227は、グラフィクスデコーダ226で発生されるグラフィクスのビットマップデータを一時的に蓄積する。スケーラ228は、ピクセルバッファ227に蓄積されているグラフィクスのビットマップデータのサイズを、スケーリング後の画像データのサイズに対応するように調整する。グラフィクスシフタ229は、サイズ調整後のグラフィクスのビットマップデータに対して、視差データ変換部224で得られる視差データに基づいてシフト処理を施す。そして、グラフィクスシフタ229は、ビュー補間部219から出力されるN個のビュー(View1, View2,・・・,ViewN )の画像データにそれぞれ重畳するN個のグラフィクスのビットマップデータを生成する。   The pixel buffer 227 temporarily stores graphics bitmap data generated by the graphics decoder 226. The scaler 228 adjusts the size of the graphics bitmap data stored in the pixel buffer 227 so as to correspond to the size of the scaled image data. The graphics shifter 229 performs shift processing on the bitmap data of the size-adjusted graphics based on the parallax data obtained by the parallax data conversion unit 224. The graphics shifter 229 generates N graphics bitmap data to be superimposed on the image data of N views (View1, View2,..., ViewN) output from the view interpolation unit 219.

ピクセルインターリーブ/重畳部220は、ビュー補間部219から出力されるN個のビュー(View1, View2,・・・,ViewN )の画像データにそれぞれ対応するグラフィクスのビットマップデータを重畳する。さらに、ピクセルインターリーブ/重畳部220は、N個のビュー(View1, View2,・・・,ViewN )の画像データに対してピクセルインターリーブ処理を行って、3次元画像(立体画像)の裸眼観賞のための表示用画像データを生成する。   The pixel interleaving / superimposing unit 220 superimposes graphics bitmap data corresponding to the image data of N views (View1, View2,..., ViewN) output from the view interpolation unit 219, respectively. Further, the pixel interleaving / superimposing unit 220 performs pixel interleaving processing on the image data of N views (View1, View2,..., ViewN) to view the three-dimensional image (stereoscopic image) with the naked eye. Display image data is generated.

コーデッドバッファ230は、デマルチプレクサ214で抽出されるオーディオストリームを一時的に蓄積する。オーディオデコーダ231は、上述の送信データ生成部110のオーディオエンコーダ121(図7参照)とは逆の処理を行う。すなわち、オーディオデコーダ231は、コーデッドバッファ230に記憶されているオーディオスストリームの復号化処理を行って、復号化された音声データを得る。チャネルミキシング部232は、オーディオデコーダ231で得られる音声データに対して、例えば5.1chサラウンド等を実現するための各チャネルの音声データを生成して出力する。   The coded buffer 230 temporarily stores the audio stream extracted by the demultiplexer 214. The audio decoder 231 performs a process reverse to that of the audio encoder 121 (see FIG. 7) of the transmission data generation unit 110 described above. That is, the audio decoder 231 performs a decoding process on the audio stream stored in the coded buffer 230 to obtain decoded audio data. The channel mixing unit 232 generates and outputs audio data of each channel for realizing, for example, 5.1ch surround with respect to the audio data obtained by the audio decoder 231.

なお、デコーデッドバッファ217-1,217-2,217-2からの各ビューの画像データの読み出しと、視差バッファ223からの視差データの読み出しと、ピクセルバッファ227からのグラフィクスのビットマップデータの読み出しとは、PTSに基づいて行われ、転送同期が取られる。   Note that image data of each view is read from the decoded buffers 217-1, 217-2, and 217-2, parallax data is read from the parallax buffer 223, and graphics bitmap data is read from the pixel buffer 227. Is performed based on PTS, and transfer synchronization is taken.

受信機200の動作を簡単に説明する。アンテナ端子211に入力されたテレビ放送信号はデジタルチューナ212に供給される。このデジタルチューナ212では、テレビ放送信号が処理されて、ユーザの選択チャネルに対応した所定のトランスポートストリームTSが出力される。このトランスポートストリームTSは、TSバッファ213に一時的に蓄積される。   The operation of the receiver 200 will be briefly described. A television broadcast signal input to the antenna terminal 211 is supplied to the digital tuner 212. In this digital tuner 212, the television broadcast signal is processed, and a predetermined transport stream TS corresponding to the user's selected channel is output. This transport stream TS is temporarily stored in the TS buffer 213.

このトランスポートストリームTSには、立体画像表示のための複数のビューのうち、左端のビューおよび右端のビューの画像データと、左端および右端の間に位置する中間のビューとしての中央のビューの画像データとが符号化されて得られたビデオストリームが含まれている。   This transport stream TS includes image data of a left end view and a right end view among a plurality of views for displaying a stereoscopic image, and an image of a central view as an intermediate view positioned between the left end and the right end. A video stream obtained by encoding data is included.

デマルチプレクサ214では、TSバッファ213に一時的に蓄積されたトランスポートストリームTSから、ビデオ、視差、グラフィクスおよびオーディオの各エレメンタリストリームが抽出される。また、デマルチプレクサ214では、このトランスポートストリームTSから、識別情報としてのマルチビュー・ストリーム・コンフィグレーション・デスクリプタが抽出され、CPU201に送られる。CPU201では、このデスクリプタの「multiview_stream_checkflag」の1ビットフィールドにより、ビデオストリームのレイヤにビュー構成情報の挿入があるか否かを容易に判断できる   In the demultiplexer 214, elementary streams of video, parallax, graphics, and audio are extracted from the transport stream TS temporarily stored in the TS buffer 213. Further, the demultiplexer 214 extracts a multi-view stream configuration descriptor as identification information from the transport stream TS and sends it to the CPU 201. The CPU 201 can easily determine whether or not view configuration information is inserted in the layer of the video stream from the 1-bit field of “multiview_stream_checkflag” of the descriptor.

デマルチプレクサ214で抽出される中央、左端および右端の各ビューの画像データは、それぞれ、コーデッドバッファ215-1,215-2,215-3に供給されて一時的に蓄積する。そして、ビデオデコーダ216-1,216-2,216-3では、CPU201の制御のもと、それぞれ、コーデッドバッファ215-1,215-2,215-3に記憶されているビデオストリームの復号化処理が行われて、中央、左端および右端の各ビューの画像データが取得される。   The image data of each view at the center, the left end, and the right end extracted by the demultiplexer 214 is supplied to the coded buffers 215-1, 215-2, and 215-3, respectively, and temporarily accumulated. The video decoders 216-1, 216-2, and 216-3 decode the video streams stored in the coded buffers 215-1, 215-2, and 215-3, respectively, under the control of the CPU 201. Is performed, and image data of each view at the center, the left end, and the right end is acquired.

また、各ビデオデコーダでは、ビデオストリームのピクチャヘッダまたはシーケンスヘッダのユーザデータ領域などに挿入されているビュー構成情報としてのマルチビュー・ストリーム・コンフィグレーション・インフォ(multiview_stream_configuration_info())が抽出され、CPU201に送られる。CPU201は、このビュー構成情報に基づいて、ピクチャ単位あるいはGOP単位で、デマルチプレクサ214、ビデオデコーダ216-1,216-2,216-3、スケーラ218-1,218-2,218-3、ビュー補間部219等の動作を制御する。   Each video decoder extracts multi-view stream configuration information (multiview_stream_configuration_info ()) as view configuration information inserted in the user data area of the picture header or sequence header of the video stream and sends it to the CPU 201. Sent. Based on this view configuration information, the CPU 201 demultiplexer 214, video decoders 216-1, 216-2, 216-3, scalers 218-1, 218-2, 218-3, view, in picture units or GOP units. Controls the operation of the interpolation unit 219 and the like.

ビデオデコーダ216-1,216-2,216-3で取得された各ビューの画像データは、それぞれ、デコーデッドバッファ217-1,217-2,217-3に供給されて一時的に蓄積される。スケーラ218-1,218-2,218-3では、それぞれ、デコーデッドバッファ217-1,217-2,217-3から出力される各ビューの画像データの出力解像度が所定の解像度となるように調整される。   The image data of each view acquired by the video decoders 216-1, 216-2, and 216-3 is supplied to the decoded buffers 217-1, 217-2, and 217-3, respectively, and temporarily accumulated. . The scalers 218-1, 218-2, and 218-3 are configured so that the output resolution of the image data of each view output from the decoded buffers 217-1, 217-2, and 217-3 is a predetermined resolution, respectively. Adjusted.

また、デマルチプレクサ214で抽出される視差ストリームは、コーデッドバッファ221に供給されて一時的に蓄積される。視差デコーダ222では、コーデッドバッファ221に記憶されている視差ストリームの復号化処理が行われて、視差データが得られる。この視差データには、中央ビューと左端ビューとの間の視差データと、中央ビューと右端ビューとの間の視差データが含まれている。また、この視差データは、画素単位、あるいはブロック単位の視差データである。   Also, the parallax stream extracted by the demultiplexer 214 is supplied to the coded buffer 221 and temporarily accumulated. In the parallax decoder 222, the decoding process of the parallax stream memorize | stored in the coded buffer 221 is performed, and parallax data are obtained. The disparity data includes disparity data between the center view and the left end view and disparity data between the center view and the right end view. The parallax data is parallax data in units of pixels or blocks.

視差デコーダ222で取得された視差データは、視差バッファ223に供給されて一時的に蓄積される。視差データ変換部224は、視差バッファ223に蓄積されている視差データに基づいて、スケーリング後の画像データのサイズに合った画素単位の視差データが生成される。この場合、送信されてくる視差データがブロック単位である場合には、画素単位の視差データに変換される。また、この場合、送信されてくる視差データが画素単位であるが、スケーリング後の画像データのサイズに合っていない場合には、適宜、スケーリングされる。   The parallax data acquired by the parallax decoder 222 is supplied to the parallax buffer 223 and temporarily accumulated. Based on the parallax data stored in the parallax buffer 223, the parallax data conversion unit 224 generates parallax data in pixel units that matches the size of the scaled image data. In this case, when the transmitted parallax data is in units of blocks, it is converted into parallax data in units of pixels. Also, in this case, the transmitted parallax data is in units of pixels, but if it does not match the size of the image data after scaling, it is appropriately scaled.

ビュー補間部219では、スケーリング後の中央、左端および右端の各ビューの画像データから、視差データ変換部224で得られた各ビュー間の視差データに基づいて、伝送されてこない所定数のビューの画像データが補間合成される。このビュー補間部219からは、3次元画像(立体画像)を裸眼観賞するためのN個のビュー(View1, View2,・・・,ViewN )の画像データが得られる。なお、中央、左端および右端の各ビューの画像データも含まれる。   In the view interpolation unit 219, a predetermined number of views that are not transmitted based on the parallax data between the views obtained by the parallax data conversion unit 224 from the image data of the center, left end, and right end views after scaling. Image data is interpolated and synthesized. The view interpolation unit 219 obtains image data of N views (View1, View2,..., ViewN) for viewing a three-dimensional image (stereoscopic image) with the naked eye. Note that image data of each view at the center, the left end, and the right end is also included.

また、デマルチプレクサ214で抽出されるグラフィクスストリームは、コーデッドバッファ225に供給されて一時的に蓄積される。グラフィクスデコーダ226では、コーデッドバッファ225に記憶されているグラフィクスストリームの復号化処理が行われて、復号化されたグラフィクスデータ(サブタイトルデータを含む)が得られる。また、このグラフィクスデコーダ226では、このグラフィクスデータに基づいて、ビュー(画像)に重畳するグラフィクスのビットマップデータが発生される。   Further, the graphics stream extracted by the demultiplexer 214 is supplied to the coded buffer 225 and temporarily accumulated. The graphics decoder 226 performs a decoding process on the graphics stream stored in the coded buffer 225 to obtain decoded graphics data (including subtitle data). Also, the graphics decoder 226 generates graphics bitmap data to be superimposed on the view (image) based on the graphics data.

グラフィクスデコーダ226で発生されるグラフィクスのビットマップデータは、ピクセルバッファ227に供給されて一時的に蓄積される。スケーラ228では、ピクセルバッファ227に蓄積されているグラフィクスのビットマップデータのサイズが、スケーリング後の画像データのサイズに対応するように調整される。   Graphics bitmap data generated by the graphics decoder 226 is supplied to the pixel buffer 227 and temporarily stored therein. In the scaler 228, the size of the graphics bitmap data stored in the pixel buffer 227 is adjusted to correspond to the size of the scaled image data.

グラフィクスシフタ229では、サイズ調整後のグラフィクスのビットマップデータに対して、視差データ変換部224で得られる視差データに基づいてシフト処理が施される。そして、グラフィクスシフタ229では、ビュー補間部219から出力されるN個のビュー(View1, View2,・・・,ViewN )の画像データにそれぞれ重畳するN個のグラフィクスのビットマップデータが生成され、ピクセルインターリーブ/重畳部220に供給される。   The graphics shifter 229 performs a shift process on the bitmap data of the size-adjusted graphics based on the parallax data obtained by the parallax data conversion unit 224. The graphics shifter 229 generates N graphics bitmap data to be superimposed on the image data of the N views (View1, View2,..., ViewN) output from the view interpolation unit 219, and Supplied to the interleaving / superimposing unit 220.

ピクセルインターリーブ/重畳部220では、N個のビュー(View1, View2,・・・,ViewN )の画像データにそれぞれ対応するグラフィクスのビットマップデータが重畳される。また、ピクセルインターリーブ/重畳部220では、N個のビュー(View1, View2,・・・,ViewN )の画像データに対してピクセルインターリーブ処理が行われて、3次元画像(立体画像)の裸眼観賞のための表示用画像データが生成される。この表示用画像データがディスプレイに供給されることで、3次元画像(立体画像)の裸眼観賞のための、画像表示が行われる。   The pixel interleave / superimposition unit 220 superimposes graphics bitmap data respectively corresponding to image data of N views (View1, View2,..., ViewN). The pixel interleaving / superimposing unit 220 performs pixel interleaving processing on the image data of N views (View1, View2,..., ViewN) to perform naked-eye viewing of a three-dimensional image (stereoscopic image). Display image data is generated. By supplying the display image data to the display, an image display for viewing the three-dimensional image (stereoscopic image) with the naked eye is performed.

また、デマルチプレクサ214で抽出されるオーディオストリームは、コーデッドバッファ230に供給されて一時的に蓄積される。オーディオデコーダ231では、コーデッドバッファ230に記憶されているオーディオスストリームの復号化処理が行われて、復号化された音声データが得られ。この音声データはチャネルミキシング部232に供給される。チャネルミキシング部232では、音声データに対して、例えば5.1chサラウンド等を実現するための各チャネルの音声データが生成される。この音声データは例えばスピーカに供給され、画像表示に合わせた音声出力がなされる。   Also, the audio stream extracted by the demultiplexer 214 is supplied to the coded buffer 230 and temporarily accumulated. In the audio decoder 231, the audio stream stored in the coded buffer 230 is decoded, and decoded audio data is obtained. This audio data is supplied to the channel mixing unit 232. The channel mixing unit 232 generates audio data of each channel for realizing, for example, 5.1ch surround with respect to the audio data. This audio data is supplied to, for example, a speaker, and audio output is performed in accordance with image display.

上述したように、図27に示す受信機200においては、立体画像表示のための複数のビューのうち、少なくとも左端のビューおよび右端のビューの画像データと、左端および右端の間に位置する中間のビューの画像データとが受信されるものである。そして、この受信機200において、その他のビューは視差データに基づいて補間処理で得るものである。そのため、マルチビュー構成による立体画像の裸眼観賞を良好に行うことができる。   As described above, in the receiver 200 shown in FIG. 27, among the plurality of views for displaying a stereoscopic image, at least the image data of the left end view and the right end view and the intermediate position located between the left end and the right end. View image data is received. In the receiver 200, the other views are obtained by interpolation processing based on the parallax data. Therefore, it is possible to satisfactorily perform autostereoscopic viewing of a stereoscopic image with a multiview configuration.

すなわち、左端のビューおよび右端のビューの画像データだけでなく、中央のビューの画像データも受信される。そのため、ビュー間の相対視差が小さく、伝送されないビューの画像データを補間する際の細かな部分の処理に伴うオクルージョン周辺の補間が容易になり、再生画像の品質向上を図ることができる。また、左端のビューおよび右端のビューの画像データが受信されるので、伝送されないビューの画像データの補間は全て内挿処理によって合成でき、オクルージョンなどの端点処理に関して高画質を維持することが容易となる。   That is, not only image data of the left end view and right end view but also image data of the center view is received. Therefore, the relative parallax between the views is small, and interpolation around the occlusion accompanying the processing of fine portions when interpolating the image data of the view that is not transmitted is facilitated, and the quality of the reproduced image can be improved. In addition, since the image data of the left end view and the right end view is received, all of the image data of the view that is not transmitted can be synthesized by interpolation processing, and it is easy to maintain high image quality for end point processing such as occlusion. Become.

なお、図27に示す受信機200は、トランスポートストリームTSに視差データが符号化されて得られた視差ストリームが含まれる場合の構成例を示している。トランスポートストリームTSに視差ストリームが含まれていない場合には、受信された各ビューの画像データから視差データを生成して用いることになる。   Note that the receiver 200 illustrated in FIG. 27 illustrates a configuration example in the case where a disparity stream obtained by encoding disparity data is included in the transport stream TS. When the transport stream TS does not include a parallax stream, the parallax data is generated from the received image data of each view and used.

図30は、その場合における受信機200Aの構成例を示している。この図30において、図27と対応する部分には同一符号を付し、その詳細説明は省略する。この受信機200Aは、視差データ生成部233を有している。この視差データ生成部233は、スケーリング処理された中央、左端および右端の各ビューの画像データに基づいて、視差データを生成する。   FIG. 30 illustrates a configuration example of the receiver 200A in that case. In FIG. 30, portions corresponding to those in FIG. 27 are given the same reference numerals, and detailed descriptions thereof are omitted. This receiver 200 </ b> A has a parallax data generation unit 233. The parallax data generation unit 233 generates parallax data based on the image data of the center, left end, and right end views that have been subjected to the scaling process.

詳細説明は省略するが、この場合における視差データの生成方法は、上述した送信データ生成部110における視差データ生成部116における視差データ生成方法と同様である。なお、この視差データ生成部233は、図27に示す受信機200の視差データ変換部224で生成される画素単位の視差データと同様の視差データを生成して出力する。視差データ生成部233で生成された視差データは、ビュー補間部219に供給されると共に、フラフィクスシフタ229に供給されて用いられる。   Although a detailed description is omitted, the method of generating parallax data in this case is the same as the method of generating parallax data in the parallax data generating unit 116 in the transmission data generating unit 110 described above. The disparity data generation unit 233 generates and outputs disparity data similar to the disparity data in units of pixels generated by the disparity data conversion unit 224 of the receiver 200 illustrated in FIG. The disparity data generated by the disparity data generation unit 233 is supplied to the view interpolation unit 219 and is also supplied to the flux shifter 229 for use.

なお、図30に示す受信機200Aにおいては、図27に示す受信機200におけるコーデッドバッファ221、視差デコーダ222、視差バッファ223および視差データ変換部224は、省略される。この図30に示す受信機200Aにおけるその他の構成は、図27に示す受信機200の構成と同様とされる。   In the receiver 200A illustrated in FIG. 30, the coded buffer 221, the parallax decoder 222, the parallax buffer 223, and the parallax data conversion unit 224 in the receiver 200 illustrated in FIG. 27 are omitted. The other configuration of receiver 200A shown in FIG. 30 is the same as that of receiver 200 shown in FIG.

<2.変形例>
なお、上述実施の形態においては、放送局100と受信機200からなる画像送受信システム10を示したが、本技術を適用し得る画像送受信システムの構成は、これに限定されるものではない。例えば、受信機200の部分が、例えば、(HDMI(High-Definition Multimedia Interface)などのデジタルインタフェースで接続されたセットトップボックスおよびモニタの構成などであってもよい。
<2. Modification>
In the above-described embodiment, the image transmission / reception system 10 including the broadcasting station 100 and the receiver 200 is shown. However, the configuration of the image transmission / reception system to which the present technology can be applied is not limited to this. For example, the receiver 200 may have a configuration of a set top box and a monitor connected by a digital interface such as (High-Definition Multimedia Interface (HDMI)).

また、上述実施の形態においては、コンテナがトランスポートストリーム(MPEG−2 TS)である例を示した。しかし、本技術は、インターネット等のネットワークを利用して受信端末に配信される構成のシステムにも同様に適用できる。インターネットの配信では、MP4やそれ以外のフォーマットのコンテナで配信されることが多い。つまり、コンテナとしては、デジタル放送規格で採用されているトランスポートストリーム(MPEG−2 TS)、インターネット配信で使用されているMP4などの種々のフォーマットのコンテナが該当する。   Further, in the above-described embodiment, an example in which the container is a transport stream (MPEG-2 TS) is shown. However, the present technology can be similarly applied to a system configured to be distributed to receiving terminals using a network such as the Internet. In Internet distribution, MP4 or other format containers are often distributed. In other words, containers of various formats such as transport stream (MPEG-2 TS) adopted in the digital broadcasting standard and MP4 used in Internet distribution correspond to the container.

また、本技術は、以下のような構成を取ることもできる。
(1)立体画像表示のための所定数のビューの画像データを取得する画像データ取得部と、
上記取得された画像データが符号化されて得られたビデオストリームを含む所定フォーマットのコンテナを送信する画像データ送信部と、
上記ビデオストリームのレイヤに、少なくとも上記所定数のビューの相対位置関係を示す情報が含まれるビュー構成情報を挿入するビュー構成情報挿入部を備える
(2)上記画像データ取得部は、
上記立体画像表示のための複数のビューのうち、少なくとも左端のビューおよび右端のビューの画像データと、上記左端および上記右端の間に位置する中間のビューの画像データを取得する
前記(1)に記載の送信装置。
(3)上記コンテナのレイヤに、上記ビデオストリームのレイヤに上記ビュー構成情報の挿入があるか否かを識別するための識別情報を挿入する識別情報挿入部をさらに備える
前記(1)に記載の送信装置。
(4)上記コンテナが含むビデオストリームにおいて、上記左端のビューおよび上記右端のビューの画像データはそれぞれ1つのピクチャのデータとして符号化されている
前記(2)または(3)に記載の送信装置。
(5)上記コンテナが含むビデオストリームにおいて、上記左端のビューおよび上記右端のビューの画像データはインターリーブ処理されて1つのピクチャのデータとして符号化されている
前記(2)または(3)に記載の送信装置。
(6)上記コンテナが含むビデオストリームは、1つまたは複数のピクチャのデータを含む
前記(1)から(5)のいずれかに記載の送信装置。
(7)上記コンテナが含むビデオストリームが複数のピクチャの符号化データを含むとき、各ピクチャの符号化データの間に境界を示す情報が配置される
前記(1)から(6)のいずれかに記載の送信装置。
(8)上記コンテナが含むビデオストリームにおいて、所定のビューの画像データが1つのピクチャのデータとして符号化されているとき、該ビデオストリームのレイヤに挿入される上記ビュー構成情報には、上記所定のビューの位置を示す情報が含まれる
前記(1)から(7)のいずれかに記載の送信装置。
(9)上記コンテナが含むビデオストリームにおいて、2つのビューの画像データがインターリーブ処理されて1つのピクチャのデータとして符号化されているとき、該ビデオストリームのレイヤに挿入される上記ビュー構成情報には、該2つのビューの位置を示す情報が含まれる
前記(1)または(8)に記載の送信装置。
(10)上記ビュー構成情報には、上記2つのビューの画像データに対して行われるインターリーブのタイプを示す情報がさらに含まれる
前記(9)に記載の送信装置。
(11)上記ビデオストリームのレイヤに挿入される上記ビュー構成情報には、該ビデオストリームの1アクセスユニット内に複数のピクチャのデータが符号されているか否かを示す情報が含まれている
前記(1)、(8)から(10)のいずれかに記載の送信装置。
(12)上記ビデオストリームのレイヤに挿入される上記ビュー構成情報には、画像表示に必須のビューの画像データが符号化されているビデオストリームであるか否かを示す情報が含まれている
前記(1)、(8)から(11)のいずれかに記載の送信装置。
(13)上記ビデオストリームのレイヤに挿入される上記ビュー構成情報には、水平および/または垂直の所定の解像度に対する画素比率情報が含まれている
前記(1)、(8)から(12)のいずれかに記載の送信装置。
(14)上記各ビューの間の視差データを取得する視差データ取得部をさらに備え、
上記画像データ送信部は、
上記取得された画像データが符号化されて得られたビデオストリームの他に、上記取得された視差データが符号化されて得られた視差ストリームを含む所定フォーマットのコンテナを送信する
前記(1)から(13)のいずれかに記載の送信装置。
(15)上記コンテナは、トランスポートストリームである
前記(1)から(14)のいずれかに記載の送信装置。
(16)立体画像表示のための所定数のビューの画像データを取得する画像データ取得ステップと、
上記取得された画像データが符号化されて得られたビデオストリームを含む所定フォーマットのコンテナを送信する画像データ送信ステップと、
上記ビデオストリームのレイヤに、少なくとも上記所定数のビューの相対位置関係を示す情報が含まれるビュー構成情報を挿入するビュー構成情報挿入ステップを備える
送信方法。
(17)立体画像表示のための複数のビューのうち、少なくとも左端のビューおよび右端のビューの画像データと、上記左端および上記右端の間に位置する中間のビューの画像データが符号化されて得られたビデオストリームを含む所定フォーマットのコンテナを受信する画像データ受信部と、
上記コンテナに含まれるビデオストリームをデコードして、上記各ビューの画像データを得る画像データ取得部と、
上記各ビューの間の視差データに基づいて、上記各ビューの間に位置する所定数のビューの画像データを補間処理で取得する補間処理部を備える
受信装置。
(18)上記コンテナは、上記視差データが符号化されて得られた視差ストリームを含み、
上記コンテナに含まれる上記視差ストリームをデコードして上記視差データを得る視差データ取得部をさらに備える
前記(17)に記載の受信装置。
(19)上記画像データ取得部で得られた上記各ビューの画像データに基づいて、上記視差データを生成する視差データ生成部をさらに備える
前記(17)に記載の受信装置。
(20)立体画像表示のための複数のビューのうち、少なくとも左端ビューおよび右端のビューの画像データと、上記左端および上記右端の間に位置する中間のビューの画像データが符号化されて得られたビデオストリームを含む所定フォーマットのコンテナを受信する画像データ受信ステップと、
上記コンテナに含まれるビデオストリームをデコードして、上記各ビューの画像データを得る画像データ取得ステップと、
上記各ビューの間の視差データに基づいて、上記各ビューの間に位置する所定数のビューの画像データを補間処理で取得する補間処理ステップを備える
受信方法。
Moreover, this technique can also take the following structures.
(1) an image data acquisition unit that acquires image data of a predetermined number of views for stereoscopic image display;
An image data transmitting unit that transmits a container of a predetermined format including a video stream obtained by encoding the acquired image data;
(2) The image data acquisition unit includes a view configuration information insertion unit that inserts view configuration information including information indicating a relative positional relationship of at least the predetermined number of views into the layer of the video stream.
The image data of at least the left end view and the right end view and the intermediate view image data positioned between the left end and the right end are acquired from among the plurality of views for the stereoscopic image display. The transmitting device described.
(3) The identification information insertion unit that inserts identification information for identifying whether or not the view configuration information is inserted into the video stream layer into the container layer. Transmitter device.
(4) The transmission device according to (2) or (3), wherein in the video stream included in the container, the image data of the left end view and the right end view is encoded as one picture data.
(5) In the video stream included in the container, the image data of the left end view and the right end view is interleaved and encoded as one picture data. (2) or (3) Transmitter device.
(6) The transmission device according to any one of (1) to (5), wherein the video stream included in the container includes data of one or more pictures.
(7) When the video stream included in the container includes encoded data of a plurality of pictures, information indicating a boundary is arranged between the encoded data of each picture. Any one of (1) to (6) The transmitting device described.
(8) In the video stream included in the container, when image data of a predetermined view is encoded as data of one picture, the view configuration information inserted in the layer of the video stream includes the predetermined view The transmission device according to any one of (1) to (7), including information indicating a position of a view.
(9) In the video stream included in the container, when the image data of two views is interleaved and encoded as data of one picture, the view configuration information inserted in the layer of the video stream includes The transmission device according to (1) or (8), wherein information indicating positions of the two views is included.
(10) The transmission device according to (9), wherein the view configuration information further includes information indicating a type of interleaving performed on the image data of the two views.
(11) The view configuration information inserted in the layer of the video stream includes information indicating whether or not data of a plurality of pictures is encoded in one access unit of the video stream. 1) The transmission device according to any one of (8) to (10).
(12) The view configuration information inserted in the layer of the video stream includes information indicating whether the image data of a view essential for image display is a coded video stream. (1) The transmission device according to any one of (8) to (11).
(13) The view configuration information inserted in the layer of the video stream includes pixel ratio information for a predetermined horizontal and / or vertical resolution. (1), (8) to (12) The transmission device according to any one of the above.
(14) A parallax data acquisition unit that acquires parallax data between the views is further provided.
The image data transmission unit
In addition to the video stream obtained by encoding the acquired image data, a container having a predetermined format including the parallax stream obtained by encoding the acquired parallax data is transmitted. (13) The transmission device according to any one of (1).
(15) The transmission device according to any one of (1) to (14), wherein the container is a transport stream.
(16) An image data acquisition step for acquiring image data of a predetermined number of views for stereoscopic image display;
An image data transmission step of transmitting a container in a predetermined format including a video stream obtained by encoding the acquired image data;
A transmission method, comprising: a view configuration information insertion step of inserting view configuration information including information indicating a relative positional relationship of at least the predetermined number of views into a layer of the video stream.
(17) Image data of at least the left end view and the right end view among a plurality of views for stereoscopic image display and an intermediate view image data located between the left end and the right end are encoded and obtained. An image data receiving unit for receiving a container of a predetermined format including the received video stream;
An image data acquisition unit that decodes a video stream included in the container to obtain image data of each view;
A receiving apparatus, comprising: an interpolation processing unit that acquires image data of a predetermined number of views located between the views based on parallax data between the views by interpolation processing.
(18) The container includes a disparity stream obtained by encoding the disparity data,
The receiving device according to (17), further including a parallax data acquisition unit that obtains the parallax data by decoding the parallax stream included in the container.
(19) The receiving device according to (17), further including a parallax data generation unit that generates the parallax data based on the image data of each view obtained by the image data acquisition unit.
(20) Out of a plurality of views for stereoscopic image display, the image data of at least the left end view and the right end view and the image data of an intermediate view positioned between the left end and the right end are encoded and obtained. An image data receiving step for receiving a container in a predetermined format including the received video stream;
An image data acquisition step of decoding the video stream included in the container to obtain image data of each view;
A receiving method comprising: an interpolation processing step of acquiring image data of a predetermined number of views located between the views based on parallax data between the views by interpolation processing.

本技術の主な特徴は、ビデオストリームのレイヤに少なくとも所定数のビューの相対位置関係を示す情報が含まれるビュー構成情報を挿入するようにしたことで、受信側おいて各ビューの相対位置関係を容易に把握でき、立体画像の表示処理を良好に行い得るようにしたことである(図14、図15参照)   The main feature of this technology is that the view configuration information including information indicating the relative positional relationship of at least a predetermined number of views is inserted into the layer of the video stream, so that the relative positional relationship of each view is received on the receiving side Can be easily grasped and the stereoscopic image display process can be performed satisfactorily (see FIGS. 14 and 15).

10・・・画像送受信システム
100・・・放送局
110・・・送信データ生成部
111-1〜111-N・・・画像データ出力部
112・・・ビューセレクタ
113-1,113-2,113-3・・・スケーラ
114-1,114-2,114-3・・・ビデオエンコーダ
115・・・マルチプレクサ
116・・・視差データ生成部
117・・・視差エンコーダ
118・・・グラフィクスデータ出力部
119・・・グラフィクスエンコーダ
120・・・音声データ出力部
121・・・オーディオエンコーダ
200,200A・・・受信機
201・・・CPU
211・・・アンテナ端子
212・・・デジタルチューナ
213・・・トランスポートストリームバッファ(TSバッファ)
214・・・デマルチプレクサ
215-1,215-2,215-3,221,225,230・・・コーデッドバッファ
216-1,216-2,216-3・・・ビデオデコーダ
217-1,217-2,217-3・・・ビューバッファ
218-1,218-2,218-3,228・・・スケーラ
219・・・ビュー補間部
220・・・ピクセルインターリーブ/重畳部
222・・・視差デコーダ
223・・・視差バッファ
224・・・視差データ変換部
226・・・グラフィクスデコーダ
227・・・ピクセルバッファ
229・・・グラフィクスシフタ
231・・・オーディオデコーダ
232・・・チャネルミキシング部
233・・・視差データ生成部
DESCRIPTION OF SYMBOLS 10 ... Image transmission / reception system 100 ... Broadcasting station 110 ... Transmission data generation part 111-1 to 111-N ... Image data output part 112 ... View selector 113-1, 113-2, 113 -3: Scaler 114-1, 114-2, 114-3 ... Video encoder 115 ... Multiplexer 116 ... Disparity data generator 117 ... Disparity encoder 118 ... Graphics data output unit 119 ... Graphics encoder 120 ... Audio data output unit 121 ... Audio encoder 200, 200A ... Receiver 201 ... CPU
211 ... Antenna terminal 212 ... Digital tuner 213 ... Transport stream buffer (TS buffer)
214: Demultiplexer 215-1, 215-2, 215-3, 221, 225, 230 ... Coded buffer 216-1, 216-2, 216-3 ... Video decoder 217-1, 217- 2, 217-3: view buffer 218-1, 218-2, 218-3, 228 ... scaler 219 ... view interpolation unit 220 ... pixel interleave / superimposition unit 222 ... disparity decoder 223 ... Parallax buffer 224 ... Parallax data converter 226 ... Graphics decoder 227 ... Pixel buffer 229 ... Graphics shifter 231 ... Audio decoder 232 ... Channel mixing section 233 ... Parallax data Generator

Claims (17)

所定数のビューの画像データを取得する画像データ取得部と、
上記所定数のビューの画像データが符号化されて得られた複数のビデオストリームを含む所定フォーマットのコンテナを送信する画像データ送信部と、
上記ビデオストリームのレイヤに、該ビデオストリームの構成情報を挿入する構成情報挿入部と、
上記コンテナのレイヤに、上記ビデオストリームのレイヤに上記ビデオストリームの構成情報の挿入があるか否かを識別するための識別情報を挿入する識別情報挿入部を備える
送信装置。
An image data acquisition unit for acquiring image data of a predetermined number of views;
An image data transmission unit for transmitting a container in a predetermined format including a plurality of video streams obtained by encoding the image data of the predetermined number of views;
A configuration information insertion unit for inserting the configuration information of the video stream into the layer of the video stream ;
A transmission apparatus, comprising: an identification information insertion unit that inserts identification information for identifying whether or not the video stream configuration information is inserted into the video stream layer in the container layer .
上記複数のビデオストリームのうち、少なくとも1つのビデオストリームは、1つまたは複数のビューの画像データに対応して得られた1つのピクチャの符号化画像データからなるサブストリームを複数含む
請求項1に記載の送信装置。
The at least one video stream among the plurality of video streams includes a plurality of substreams including encoded image data of one picture obtained corresponding to image data of one or a plurality of views. The transmitting device described.
上記コンテナが含むビデオストリームが複数のピクチャの符号化データを含むとき、各ピクチャの符号化データの間に境界を示す情報が配置される
請求項1に記載の送信装置。
The transmission device according to claim 1, wherein when the video stream included in the container includes encoded data of a plurality of pictures, information indicating a boundary is arranged between the encoded data of each picture.
上記コンテナが含むビデオストリームにおいて、所定のビューの画像データが1つのピクチャのデータとして符号化されているとき、該ビデオストリームのレイヤに挿入される上記ビデオストリームの構成情報には、上記所定のビューの位置を示す情報が含まれる
請求項1に記載の送信装置。
When image data of a predetermined view is encoded as data of one picture in the video stream included in the container, the configuration information of the video stream inserted into the layer of the video stream includes the predetermined view. The transmission device according to claim 1, wherein information indicating a position of the transmission is included.
上記コンテナが含むビデオストリームにおいて、2つのビューの画像データがインターリーブ処理されて1つのピクチャのデータとして符号化されているとき、該ビデオストリームのレイヤに挿入される上記ビデオストリームの構成情報には、該2つのビューの位置を示す情報が含まれる
請求項1に記載の送信装置。
In the video stream included in the container, when the image data of two views is interleaved and encoded as one picture data, the configuration information of the video stream inserted into the layer of the video stream includes: The transmission device according to claim 1, wherein information indicating positions of the two views is included.
上記ビデオストリームの構成情報には、上記2つのビューの画像データに対して行われるインターリーブのタイプを示す情報がさらに含まれる
請求項5に記載の送信装置。
The transmission apparatus according to claim 5, wherein the configuration information of the video stream further includes information indicating a type of interleaving performed on the image data of the two views.
上記ビデオストリームの構成情報には、該ビデオストリームの1アクセスユニット内に複数のピクチャのデータが符号されているか否かを示す情報が含まれる
請求項1に記載の送信装置。
The transmission apparatus according to claim 1, wherein the configuration information of the video stream includes information indicating whether or not data of a plurality of pictures is encoded in one access unit of the video stream.
上記ビデオストリームの構成情報には、水平および/または垂直の所定の解像度に対する画素比率情報が含まれる
請求項1に記載の送信装置。
The transmission apparatus according to claim 1, wherein the configuration information of the video stream includes pixel ratio information for a predetermined horizontal and / or vertical resolution.
所定数のビューの画像データを取得する画像データ取得ステップと、
上記所定数のビューの画像データが符号化されて得られた複数のビデオストリームを含む所定フォーマットのコンテナを送信する画像データ送信ステップと、
上記ビデオストリームのレイヤに、該ビデオストリームの構成情報を挿入する構成情報挿入ステップと、
上記コンテナのレイヤに、上記ビデオストリームのレイヤに上記ビデオストリームの構成情報の挿入があるか否かを識別するための識別情報を挿入する識別情報挿入ステップを有する
送信方法。
An image data acquisition step of acquiring image data of a predetermined number of views;
An image data transmission step of transmitting a container of a predetermined format including a plurality of video streams obtained by encoding the image data of the predetermined number of views;
A configuration information insertion step for inserting the configuration information of the video stream into the layer of the video stream ;
A transmission method comprising: an identification information insertion step of inserting identification information for identifying whether or not the video stream configuration information is inserted into the video stream layer into the container layer .
所定数のビューの画像データを取得する画像データ取得部と、
上記所定数のビューの画像データが符号化されて得られた複数のビデオストリームを含む所定フォーマットのコンテナを送信する画像データ送信部と、
上記ビデオストリームのレイヤに、該ビデオストリームの構成情報を挿入する構成情報挿入部を備え
上記ビデオストリームの構成情報には、該ビデオストリームの1アクセスユニット内に複数のピクチャのデータが符号されているか否かを示す情報が含まれ
送信装置。
An image data acquisition unit for acquiring image data of a predetermined number of views;
An image data transmission unit for transmitting a container in a predetermined format including a plurality of video streams obtained by encoding the image data of the predetermined number of views;
A configuration information insertion unit for inserting the configuration information of the video stream in the layer of the video stream ;
Above configuration information of the video stream, the video information is contained Ru transmitting device indicating whether data of a plurality of pictures are encoded in one access unit stream.
所定数のビューの画像データを取得する画像データ取得ステップと、
上記所定数のビューの画像データが符号化されて得られた複数のビデオストリームを含む所定フォーマットのコンテナを送信する画像データ送信ステップと、
上記ビデオストリームのレイヤに、該ビデオストリームの構成情報を挿入する構成情報挿入ステップを有し、
上記ビデオストリームの構成情報には、該ビデオストリームの1アクセスユニット内に複数のピクチャのデータが符号されているか否かを示す情報が含まれ
送信方法。
An image data acquisition step of acquiring image data of a predetermined number of views;
An image data transmission step of transmitting a container of a predetermined format including a plurality of video streams obtained by encoding the image data of the predetermined number of views;
The layer of the video stream, have a configuration information insertion step of inserting the configuration information of the video stream,
Above configuration information of the video stream, the video transmission method information Ru include indicating whether data of a plurality of pictures are encoded in one access unit stream.
所定数のビューの画像データを取得する画像データ取得部と、
上記所定数のビューの画像データが符号化されて得られた複数のビデオストリームを含む所定フォーマットのコンテナを送信する画像データ送信部と、
上記ビデオストリームのレイヤに、該ビデオストリームの構成情報を挿入する構成情報挿入部を備え
上記ビデオストリームの構成情報には、水平および/または垂直の所定の解像度に対する画素比率情報が含まれ
送信装置。
An image data acquisition unit for acquiring image data of a predetermined number of views;
An image data transmission unit for transmitting a container in a predetermined format including a plurality of video streams obtained by encoding the image data of the predetermined number of views;
A configuration information insertion unit for inserting the configuration information of the video stream in the layer of the video stream ;
Above configuration information of the video stream, horizontal and / or vertical predetermined transmission device that is part of the pixel rate information for the resolution.
所定数のビューの画像データを取得する画像データ取得ステップと、
上記所定数のビューの画像データが符号化されて得られた複数のビデオストリームを含む所定フォーマットのコンテナを送信する画像データ送信ステップと、
上記ビデオストリームのレイヤに、該ビデオストリームの構成情報を挿入する構成情報挿入ステップを有し、
上記ビデオストリームの構成情報には、水平および/または垂直の所定の解像度に対する画素比率情報が含まれ
送信方法。
An image data acquisition step of acquiring image data of a predetermined number of views;
An image data transmission step of transmitting a container of a predetermined format including a plurality of video streams obtained by encoding the image data of the predetermined number of views;
The layer of the video stream, have a configuration information insertion step of inserting the configuration information of the video stream,
Above configuration information of the video stream, horizontal and / or transmission method that is part of the pixel rate information for a given resolution in the vertical.
所定数のビューの画像データが符号化されて得られた複数のビデオストリームを含む所
定フォーマットのコンテナを受信する画像データ受信部を備え、
上記ビデオストリームのレイヤに、上記ビデオストリームの構成情報が挿入されており、
上記ビデオストリームの構成情報には、該ビデオストリームの1アクセスユニット内に複数のピクチャのデータが符号されているか否かを示す情報が含まれており、
上記コンテナに含まれるビデオストリームを上記ビデオストリームの構成情報に基づいて処理して上記所定数のビューの画像データを取得する処理部をさらに備える
受信装置。
An image data receiving unit that receives a container in a predetermined format including a plurality of video streams obtained by encoding image data of a predetermined number of views;
The layer of the video stream, the configuration information of the video stream is inserted,
The configuration information of the video stream includes information indicating whether or not data of a plurality of pictures is encoded in one access unit of the video stream,
A receiving apparatus, further comprising: a processing unit configured to process a video stream included in the container based on configuration information of the video stream to obtain image data of the predetermined number of views.
所定数のビューの画像データが符号化されて得られた複数のビデオストリームを含む所定フォーマットのコンテナを受信する画像データ受信ステップを有し、
上記ビデオストリームのレイヤに、上記ビデオストリームの構成情報が挿入されており、
上記ビデオストリームの構成情報には、該ビデオストリームの1アクセスユニット内に複数のピクチャのデータが符号されているか否かを示す情報が含まれており、
上記コンテナに含まれるビデオストリームを上記ビデオストリームの構成情報に基づいて処理して上記所定数のビューの画像データを取得する処理ステップをさらに有する
受信方法。
An image data receiving step of receiving a container in a predetermined format including a plurality of video streams obtained by encoding image data of a predetermined number of views;
The layer of the video stream, the configuration information of the video stream is inserted,
The configuration information of the video stream includes information indicating whether or not data of a plurality of pictures is encoded in one access unit of the video stream,
A receiving method further comprising a processing step of processing a video stream included in the container based on configuration information of the video stream to obtain image data of the predetermined number of views.
所定数のビューの画像データが符号化されて得られた複数のビデオストリームを含む所
定フォーマットのコンテナを受信する画像データ受信部を備え、
上記ビデオストリームのレイヤに、上記ビデオストリームの構成情報が挿入されており、
上記ビデオストリームの構成情報には、水平および/または垂直の所定の解像度に対する画素比率情報が含まれており、
上記コンテナに含まれるビデオストリームを上記ビデオストリームの構成情報に基づいて処理して上記所定数のビューの画像データを取得する処理部をさらに備える
受信装置。
An image data receiving unit that receives a container in a predetermined format including a plurality of video streams obtained by encoding image data of a predetermined number of views;
The layer of the video stream, the configuration information of the video stream is inserted,
The configuration information of the video stream includes pixel ratio information for a predetermined horizontal and / or vertical resolution,
A receiving apparatus, further comprising: a processing unit configured to process a video stream included in the container based on configuration information of the video stream to obtain image data of the predetermined number of views.
所定数のビューの画像データが符号化されて得られた複数のビデオストリームを含む所定フォーマットのコンテナを受信する画像データ受信ステップを有し、
上記ビデオストリームのレイヤに、上記ビデオストリームの構成情報が挿入されており、
上記ビデオストリームの構成情報には、水平および/または垂直の所定の解像度に対する画素比率情報が含まれており、
上記コンテナに含まれるビデオストリームを上記ビデオストリームの構成情報に基づいて処理して上記所定数のビューの画像データを取得する処理ステップをさらに有する
受信方法。
An image data receiving step of receiving a container in a predetermined format including a plurality of video streams obtained by encoding image data of a predetermined number of views;
The layer of the video stream, the configuration information of the video stream is inserted,
The configuration information of the video stream includes pixel ratio information for a predetermined horizontal and / or vertical resolution,
A receiving method further comprising a processing step of processing a video stream included in the container based on configuration information of the video stream to obtain image data of the predetermined number of views.
JP2012093399A 2012-04-16 2012-04-16 Transmitting apparatus, transmitting method, receiving apparatus, and receiving method Active JP5928118B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012093399A JP5928118B2 (en) 2012-04-16 2012-04-16 Transmitting apparatus, transmitting method, receiving apparatus, and receiving method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012093399A JP5928118B2 (en) 2012-04-16 2012-04-16 Transmitting apparatus, transmitting method, receiving apparatus, and receiving method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2011248114 Division 2011-11-11 2011-11-11

Publications (3)

Publication Number Publication Date
JP2013106341A JP2013106341A (en) 2013-05-30
JP2013106341A5 JP2013106341A5 (en) 2014-12-25
JP5928118B2 true JP5928118B2 (en) 2016-06-01

Family

ID=48625540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012093399A Active JP5928118B2 (en) 2012-04-16 2012-04-16 Transmitting apparatus, transmitting method, receiving apparatus, and receiving method

Country Status (1)

Country Link
JP (1) JP5928118B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5947269B2 (en) 2013-09-24 2016-07-06 ソニー株式会社 Encoding apparatus, encoding method, transmitting apparatus, and receiving apparatus
JP6341228B2 (en) * 2016-05-25 2018-06-13 ソニー株式会社 Encoding device, encoding method, transmission device, transmission method, reception device, and reception method
EP3668102A4 (en) * 2017-08-10 2020-06-17 Sony Corporation Transmission device, transmission method, reception device, and reception method

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4251907B2 (en) * 2003-04-17 2009-04-08 シャープ株式会社 Image data creation device
JP4947389B2 (en) * 2009-04-03 2012-06-06 ソニー株式会社 Image signal decoding apparatus, image signal decoding method, and image signal encoding method
US20110310235A1 (en) * 2009-12-28 2011-12-22 Taiji Sasaki Display device and method, recording medium, transmission device and method, and playback device and method
JP5577823B2 (en) * 2010-04-27 2014-08-27 ソニー株式会社 Transmitting apparatus, transmitting method, receiving apparatus, and receiving method

Also Published As

Publication number Publication date
JP2013106341A (en) 2013-05-30

Similar Documents

Publication Publication Date Title
JP6192902B2 (en) Image data transmitting apparatus, image data transmitting method, image data receiving apparatus, and image data receiving method
JP6034420B2 (en) Method and apparatus for generating 3D video data stream in which additional information for playback of 3D video is inserted and apparatus thereof, and method and apparatus for receiving 3D video data stream in which additional information for playback of 3D video is inserted
CA2760100C (en) Broadcast transmitter, broadcast receiver and 3d video data processing method thereof
JP5594002B2 (en) Image data transmitting apparatus, image data transmitting method, and image data receiving apparatus
WO2013105401A1 (en) Transmission device, transmission method, receiving device, and receiving method
WO2012043352A1 (en) 3d-image data transmitting device, 3d-image data transmitting method, 3d-image data receiving device and 3d-image data receiving method
WO2013161442A1 (en) Image data transmission device, image data transmission method, image data reception device, and image data reception method
US8953019B2 (en) Method and apparatus for generating stream and method and apparatus for processing stream
WO2013089024A1 (en) Transmission device, transmission method, reception device, and reception method
KR102009049B1 (en) Transmitting apparatus, transmitting method, receiving apparatus and receiving method
KR101977260B1 (en) Digital broadcasting reception method capable of displaying stereoscopic image, and digital broadcasting reception apparatus using same
WO2013073455A1 (en) Image data transmitting device, image data transmitting method, image data receiving device, and image data receiving method
JP5928118B2 (en) Transmitting apparatus, transmitting method, receiving apparatus, and receiving method
WO2013054775A1 (en) Transmission device, transmission method, receiving device and receiving method

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141107

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150825

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160411

R151 Written notification of patent or utility model registration

Ref document number: 5928118

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250