JP4355914B2 - Multi-view image transmission system and method, multi-view image compression device and method, multi-view image decompression device and method, and program - Google Patents
Multi-view image transmission system and method, multi-view image compression device and method, multi-view image decompression device and method, and program Download PDFInfo
- Publication number
- JP4355914B2 JP4355914B2 JP2003343303A JP2003343303A JP4355914B2 JP 4355914 B2 JP4355914 B2 JP 4355914B2 JP 2003343303 A JP2003343303 A JP 2003343303A JP 2003343303 A JP2003343303 A JP 2003343303A JP 4355914 B2 JP4355914 B2 JP 4355914B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- motion vector
- multiplexed
- vector
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Description
本発明は、立体画像を含む多視点画像を圧縮するための多視点画像圧縮装置および方法と、そのような多視点画像圧縮装置または方法により圧縮された画像データを伸長するための多視点画像伸長装置及び方法と、多視点画像圧縮装置と多視点画像伸長装置により構成される多視点画像伝送システムと方法に関する。 The present invention relates to a multi-viewpoint image compression apparatus and method for compressing a multi-viewpoint image including a stereoscopic image, and multi-viewpoint image expansion for decompressing image data compressed by such a multi-viewpoint image compression apparatus or method. The present invention relates to an apparatus and method, and a multi-view image transmission system and method including a multi-view image compression apparatus and a multi-view image decompression apparatus.
平面画像と比べて迫力のある立体画像を伝送するための立体映像システムが従来から提案されている。このような立体映像システムには、人間の目の両眼視差を応用して、左右2つの視差画像を使った2眼式立体映像システムや、1つの対象物を複数の視点から撮影した画像を用いる多眼式立体映像システムがある。 Conventionally, a stereoscopic video system for transmitting a stereoscopic image that is more powerful than a planar image has been proposed. In such a stereoscopic video system, a binocular stereoscopic video system using two parallax images on the left and right sides by applying binocular parallax of human eyes, or an image obtained by photographing one object from a plurality of viewpoints. There are multi-view 3D video systems used.
このようにある1つの対象物を複数の視点から撮影することにより得られる立体画像を伝送するために様々な立体画像伝送システムが提案されている。 Various stereoscopic image transmission systems have been proposed in order to transmit a stereoscopic image obtained by photographing a single target object from a plurality of viewpoints.
このような立体画像伝送システムの従来の技術として、特許文献1に画像高能率符号化方式が公開されている。図34は、この従来の立体画像伝送システムにおける立体画像圧縮装置の構成を示すブロック図である。
As a conventional technique for such a stereoscopic image transmission system,
この従来の立体画像圧縮装置では、パターンマッチング部4005〜4007において、符号化画面4001と、時間的或いは空間的に異なる参照画面4002〜4004との、パターンマッチング、すなわち動き補償あるいは視差補償をそれぞれ行い、補償ベクトルを求める。選択部4008では、参照画面4002〜4004のうちで最も誤差が小さくなる参照画面を選択し、上記補償ベクトルとともに選択フラグとして伝送する。符号器4009では、選択フラグが示す参照画面と符号化画面の値との予測誤差を求めて受信側に伝送する。
In this conventional stereoscopic image compression apparatus, the
この従来技術では、時間的または空間的に離れた複数の視差画像を参照画面とするため予測効率の向上を図ることができるが、既存の動画像符号化規格に比べて予測構造が複雑であるため、既存の動画像用LSIの構成を大幅に変更する必要があり、結果的にコストが増大するという問題がある。 In this prior art, a plurality of parallax images separated temporally or spatially are used as a reference screen, so that the prediction efficiency can be improved. However, the prediction structure is more complicated than the existing video coding standard. For this reason, it is necessary to drastically change the configuration of the existing moving image LSI, resulting in an increase in cost.
他の従来技術としては、特許文献2に立体動画像高能率符号化復号化装置及びその方法が公開されている。図35は、この従来技術の構成を示す図である。符号化装置に同時に入力される左右の視差画像のどちらか一方の画像を1画像期間遅延させる遅延装置4101と、遅延装置4101で1画像期間遅延した画像と他方の遅延をしていない画像とを1画像内の左右または上下に分けて合成する画像処理部4102および4103と、画像処理部4102および4103により合成された画像を符号化する符号化部4104とからなる。ここで符号化部4104では、MPEG(Motion Picture Experts Group)規格に準拠した符号化を行ない、Pフレームの動きベクトル検出、または、Bフレームの動きベクトル検出の場合においては、参照画像における符号化画像と同一位置をセンタとした動きベクトルサーチ範囲に半画面分サーチセンタを移動した動きベクトルサーチ範囲を追加して動きベクトルを求めるようにしている。
As another conventional technique,
この従来技術では、空間的に並べられた左右視差画像における2箇所の類似部分のうちで予測誤差の小さいブロックを選択できるため予測効率が向上するというメリットがあるが、多重化画像の境界をまたぐような長い動きベクトルが多く選択される場合に、動きベクトル符号量が大幅に増加してしまう問題があり、これについては何ら触れられていない。 This conventional technique has an advantage that prediction efficiency is improved because a block having a small prediction error can be selected from two similar parts in spatially aligned left and right parallax images. When many such long motion vectors are selected, there is a problem that the amount of code of the motion vector increases significantly, and this is not mentioned at all.
尚、このようなシステムを用いることにより、伝送する画像が複数の視差画像からなる立体画像だけでなく1つの対象物を複数の視点から撮影することにより得られる多視点画像を伝送することができるため、広い意味では多視点画像伝送システムとして表現することができるものである。よって、以降は1つの対象物を複数の視点から撮影することにより得られる多視点画像を伝送するためのシステムを多視点画像伝送システムと呼ぶこととする。
上述した従来の多視点画像伝送システムおよび方法では、下記のような問題点があった。
(1)特許文献1記載の技術では、現在までに種々開発されている平面動画用のコーデックLSIの構成をそのまま利用することができず、大幅に変更しなければならない。
(2)特許文献2記載の技術では、左右視差画像を多重化した多重化画像の境界をまたぐような動きベクトルが多く選択されると、動きベクトル符号量が大幅に増加してしまい、立体画像を効率よく圧縮伝送することができない。
The conventional multi-viewpoint image transmission system and method described above have the following problems.
(1) With the technique described in
(2) In the technique described in
本発明の目的は、現在までに種々開発されている平面動画用のコーデックLSIの構成をほとんど変えずに利用し、かつ、多視点画像を効率よく圧縮伝送することのできる多視点画像伝送システムと方法、多視点画像圧縮装置と方法、多視点画像伸長装置と方法を提供することである。 An object of the present invention is to provide a multi-viewpoint image transmission system that can utilize a configuration of a codec LSI for planar moving images that has been developed to date, with little change, and that can efficiently compress and transmit multi-viewpoint images. To provide a method, a multi-viewpoint image compression apparatus and method, and a multi-viewpoint image decompression apparatus and method.
上記目的を達成するために、本発明は、所定の対象物を複数の視点から撮影することにより得られる複数の多視点画像を動きベクトルと差分画像とに分解して符号化して動画ストリームとして出力することによりデータ量の圧縮を行う多視点画像圧縮装置であって、
前記複数の多視点画像を画像空間的に多重化して1枚の多重化画像を生成する多視点画像多重化手段と、
前記多重化画像の所定領域を動きベクトルサーチ範囲として、符号化を行おうとする多重化画像の符号化対象ブロックと類似する類似ブロックを、参照画像とした多重化画像を構成するブロックのうちから最も予測効率が高くなるように選択することにより動きベクトルを検出する動きベクトル検出手段と、
前記動きベクトル検出手段により検出された動きベクトルを、前記選択されたブロックを含む多視点画像内において符号化対象ブロックの多視点画像内でのローカル座標と同一の座標に位置するオフセットブロックに至るオフセットベクトルと、該オフセットブロックから前記選択されたブロックに至るローカル動きベクトルとに分解する動きベクトル分解手段と、
前記動きベクトル分解手段により分解されたローカル動きベクトルおよびオフセットベクトルを前記動画ストリームに多重化して出力する多重化手段とを有する。
In order to achieve the above object, the present invention decomposes and encodes a plurality of multi-viewpoint images obtained by photographing a predetermined object from a plurality of viewpoints into motion vectors and difference images, and outputs them as a video stream. A multi-viewpoint image compression device that compresses the amount of data by
Multi-view image multiplexing means for multiplexing the plurality of multi-view images in an image space to generate one multiplexed image;
A predetermined block of the multiplexed image is set as a motion vector search range, and a similar block similar to the encoding target block of the multiplexed image to be encoded is selected as a reference image from among the blocks constituting the multiplexed image. Motion vector detection means for detecting a motion vector by selecting so as to increase the prediction efficiency;
An offset from the motion vector detected by the motion vector detection means to an offset block located at the same coordinate as the local coordinate in the multi-view image of the encoding target block in the multi-view image including the selected block Motion vector decomposing means for decomposing the vector into local motion vectors from the offset block to the selected block;
And multiplexing means for multiplexing the local motion vector and the offset vector decomposed by the motion vector decomposing means into the moving picture stream and outputting the result.
本発明によれば、オフセットベクトルの始点と終点は各多視点画像内でのローカル座標が等しいため、オフセットベクトルを表す符号は、ベクトルの終点がN枚の複数の多視点画像のうちのどの画像を指しているかを表現するのに必要なビット数で済む。また、ローカル動きベクトルは、1枚の多視点画像内における局所的な動きを表現するのに必要な少ないビット数で表すことができる。従って、本発明により動きベクトルをオフセットベクトルとローカル動きベクトルに分解すれば、動きベクトルを分解せずに符号化する場合に比べて、動きベクトル符号量を大幅に削減することができる。また、複数の多視点画像を1枚の大きな画面に多重化することにより、既存の動画像規格の予測構造をそのまま利用でき、また、現在までに種々開発されている平面動画像用コーデックLSIの構成もほとんど変えずに利用できるため、低コストかつ高効率な多視点画像の圧縮が実現できる。 According to the present invention, since the start point and end point of the offset vector have the same local coordinates in each multi-viewpoint image, the code representing the offset vector is any image among the multiple multi-viewpoint images whose vector end point is N. The number of bits required to express whether or not Further, the local motion vector can be expressed by a small number of bits necessary for expressing a local motion in one multi-viewpoint image. Therefore, if the motion vector is decomposed into the offset vector and the local motion vector according to the present invention, the motion vector code amount can be greatly reduced as compared with the case where the motion vector is encoded without being decomposed. In addition, by multiplexing a plurality of multi-viewpoint images on a single large screen, the prediction structure of the existing video standard can be used as it is, and various plane codec LSIs that have been developed to date have been developed. Since the configuration can be used with almost no change, low-cost and highly efficient multi-viewpoint image compression can be realized.
また、本発明の他の多視点画像圧縮装置では、前記複数の多視点画像を、右目画像と左目画像、または右目画像と左目画像と前記右目画像または前記左目画像のいずれかを水平方向に2倍の解像度とした追加画像である。 In another multi-viewpoint image compression apparatus of the present invention, the plurality of multi-viewpoint images may be divided into a right-eye image and a left-eye image, or a right-eye image, a left-eye image, and the right-eye image or the left-eye image in the horizontal direction. This is an additional image with double resolution.
また、本発明の他の多視点画像圧縮装置では、前記複数の多視点画像が、複数の立体画像と該立体画像よりも解像度の高い平面画像とから構成され、
符号化対象ブロックが前記多重化画像の立体画像内にあるか平面画像内にあるかを判別し、符号化対象ブロックが立体画像内にある場合には、前記動きベクトル検出手段により検出された動きベクトルを前記動きベクトル分解手段に出力し、符号化対象ブロックが平面画像内にある場合には、前記動きベクトル検出手段により検出された動きベクトルを前記多重化手段に出力する判別手段をさらに備えるようにしてもよい。
Further, in another multi-viewpoint image compression device of the present invention, the plurality of multi-viewpoint images is composed of a plurality of stereoscopic images and a planar image having a higher resolution than the stereoscopic images,
It is determined whether the encoding target block is in the stereoscopic image or the planar image of the multiplexed image, and when the encoding target block is in the stereoscopic image, the motion detected by the motion vector detecting means A discrimination means is further provided for outputting the vector to the motion vector decomposing means, and outputting the motion vector detected by the motion vector detecting means to the multiplexing means when the encoding target block is in a plane image. It may be.
また、本発明の他の多視点画像圧縮装置では、前記ローカル動きベクトルを表す符号は、MPEG規格における動きベクトルのフォーマットに従って符号化されるようにしてもよい。 In another multi-view image compression apparatus of the present invention, the code representing the local motion vector may be encoded in accordance with a motion vector format in the MPEG standard.
また、本発明の他の多視点画像圧縮装置では、オフセットベクトルを表す符号は、前記多重化画像に配置されているM枚の画像の各々に対し予め定められた少なくとも[log2(M−1)]+1ビット(但し[x]はxを超えない最大の整数)の固定長符号テーブルを参照することにより表わすようにしてもよい。 In another multi-viewpoint image compression apparatus of the present invention, the code representing the offset vector is at least [log 2 (M−1) predetermined for each of the M images arranged in the multiplexed image. )] + 1 bit (where [x] is a maximum integer not exceeding x) may be expressed by referring to a fixed length code table.
さらに、本発明の他の多視点画像圧縮装置では、前記オフセットベクトルを表す符号は、符号化対象ブロックを含む多視点画像と選択されたブロックを含む視差画像との視点の距離に応じて可変長符号化されるようにしてもよいし、前記多重化画面において互いに隣接する2つ以上のブロックにそれぞれ対応する複数のオフセットベクトル群によりランレングス符号化されるようにしてもよい。 Furthermore, in another multi-viewpoint image compression apparatus of the present invention, the code representing the offset vector has a variable length according to the viewpoint distance between the multi-viewpoint image including the encoding target block and the parallax image including the selected block. It may be encoded, or may be run-length encoded by a plurality of offset vector groups respectively corresponding to two or more blocks adjacent to each other on the multiplexed screen.
また、本発明の他の多視点画像圧縮装置では、前記多視点画像圧縮手段において圧縮される動画ストリームはMPEG規格に準拠した動画ストリームとし、
前記オフセットベクトルを表す符号は、該MPEG規格に準拠したストリーム中のユーザデータ部、ヘッダ部のいずれかまたは両方に挿入され、
前記オフセットベクトルが存在する位置を示すフラグ、及び、前記オフセットベクトルの符号化フォーマットを示すフラグ、及び、多重化画像内の画像の配置順序を示すフラグは、前記MPEG規格に準拠したストリーム中のユーザデータ部に挿入されるようにしてもよい。
In another multi-viewpoint image compression apparatus of the present invention, the moving-image stream compressed by the multi-viewpoint image compressing unit is a moving-image stream conforming to the MPEG standard,
The code representing the offset vector is inserted into one or both of a user data part and a header part in a stream compliant with the MPEG standard,
The flag indicating the position where the offset vector exists, the flag indicating the encoding format of the offset vector, and the flag indicating the arrangement order of the images in the multiplexed image are a user in the stream compliant with the MPEG standard. You may make it insert in a data part.
上記目的を達成するために、本発明は、所定の対象物を複数の視点から撮影することにより得られる複数の多視点画像を空間的に多重化することにより得られる多重化画像を動きベクトルと差分画像とに分解して符号化する際、前記多重化画像の所定領域を動きベクトルサーチ範囲として、符号化を行おうとする多重化画像の符号化対象ブロックと類似する類似ブロックを、参照画像とした多重化画像を構成するブロックのうちから最も予測効率が高くなるように選択することにより動きベクトルを検出し、検出された前記動きベクトルを、動きベクトルの検出の際に参照画像とした多重化画像を構成するブロックのうちから選択されたブロックを含む多視点画像内において符号化対象ブロックの多視点画像内でのローカル座標と同一の座標に位置するオフセットブロックに至るオフセットベクトルと、該オフセットブロックから前記選択されたブロックに至るローカル動きベクトルとに分解し、分解された前記ローカル動きベクトルおよび前記オフセットベクトルを符号化して多重化することにより得られた動画ストリームを受信して伸長することにより元の多視点画像を復元する多視点画像伸長装置であって、
受信した動画ストリーム中に含まれる前記ローカル動きベクトルと前記オフセットベクトルを分離する分離手段と、前記分離手段により分離されたローカル動きベクトルとオフセットベクトルから動きベクトルを合成する動きベクトル合成手段と、前記動きベクトル合成手段により合成された動きベクトルと受信した動画ストリーム中の参照画像から予測画像を形成し、該予測画像と前記動画ストリームに含まれる差分画像との和をとることにより元の多重化画像を復元する多重化画像復元手段とを有する。
In order to achieve the above object, the present invention relates to a multiplexed image obtained by spatially multiplexing a plurality of multi-view images obtained by photographing a predetermined object from a plurality of viewpoints as a motion vector. When decomposing into a differential image and encoding, a similar block similar to the encoding target block of the multiplexed image to be encoded is set as a reference image using a predetermined region of the multiplexed image as a motion vector search range. A motion vector is detected by selecting from among the blocks constituting the multiplexed image so that the prediction efficiency is highest, and the detected motion vector is used as a reference image when detecting the motion vector. The same coordinates as the local coordinates in the multi-view image of the encoding target block in the multi-view image including the block selected from the blocks constituting the image It is obtained by decomposing into an offset vector leading to the offset block located and a local motion vector extending from the offset block to the selected block, and encoding and multiplexing the decomposed local motion vector and the offset vector. A multi-viewpoint image decompressing device that restores the original multi-viewpoint image by receiving and decompressing the received video stream,
Separating means for separating the local motion vector and the offset vector included in the received video stream, motion vector synthesizing means for synthesizing a motion vector from the local motion vector and the offset vector separated by the separating means, and the motion A predicted image is formed from the motion vector synthesized by the vector synthesizing unit and the reference image in the received moving image stream, and the original multiplexed image is obtained by summing the predicted image and the difference image included in the moving image stream. Multiplexed image restoring means for restoring.
本発明では、動きベクトルがオフセットベクトルとローカル動きベクトルとに分解されて符号化された動画ストリームを多視点画像圧縮装置から受信し、この動画ストリームからローカル動きベクトルおよびオフセットベクトルを分離して合成することにより元の動きベクトルを得る。そして、合成した動きベクトルを用いて受信した動画ストリームを伸長することにより元の多視点画像を復元する。オフセットベクトルの始点と終点は各多視点画像内でのローカル座標が等しいため、オフセットベクトルを表す符号は、ベクトルの終点がN枚の複数の多視点画像のうちのどの画像を指しているかを表現するのに必要なビット数で済む。また、ローカル動きベクトルは、1枚の多視点画像内における局所的な動きを表現するのに必要な少ないビット数で表すことができる。そのため、動きベクトルを分解せずに符号化する場合に比べて、動きベクトル符号量を大幅に削減することができる。また、複数の多視点画像が1枚の大きな画面に多重化された多重化画像を復元した後に分離することにより元の複数の多視点画像を得るようにしているので、既存の動画像規格の予測構造をそのまま利用でき、また、現在までに種々開発されている平面動画像用コーデックLSIの構成もほとんど変えずに利用できるため、低コストかつ高効率な多視点画像の圧縮が実現できる。 In the present invention, a moving image stream in which a motion vector is decomposed into an offset vector and a local motion vector and encoded is received from the multi-viewpoint image compression apparatus, and the local motion vector and the offset vector are separated from the moving image stream and synthesized. Thus, the original motion vector is obtained. Then, the original multi-viewpoint image is restored by expanding the received video stream using the synthesized motion vector. Since the start point and end point of the offset vector have the same local coordinates in each multi-viewpoint image, the code representing the offset vector represents which image of the N multi-viewpoint images the end point of the vector points to The number of bits required to do this is sufficient. Further, the local motion vector can be expressed by a small number of bits necessary for expressing a local motion in one multi-viewpoint image. Therefore, the amount of motion vector codes can be greatly reduced as compared with the case of encoding without decomposing motion vectors. In addition, since a plurality of multi-view images are multiplexed on a single large screen and then separated after being restored, the original multi-view images are obtained. Since the prediction structure can be used as it is, and the configuration of the codec LSI for plane moving images that has been developed in various ways can be used with almost no change, low-cost and highly efficient multi-viewpoint image compression can be realized.
また、本発明の他の多視点画像伸長装置では、前記複数の多視点画像が、複数の立体画像と該立体画像よりも解像度の高い平面画像とから構成され、
多重化画像内での立体画像及び平面画像の配置順序を検出し、符号化対象ブロックが立体画像内にある場合には、前記分離手段により動画ストリームから分離された動きベクトルをローカル動きベクトルとして前記動きベクトル合成手段に出力し、符号化対象ブロックが平面画像内にある場合には、前記分離手段により動画ストリームから分離された動きベクトルを前記多重化画像復元手段に出力する判別手段をさらに備えるようにしてもよい。
Further, in another multi-viewpoint image decompression device of the present invention, the plurality of multi-viewpoint images is composed of a plurality of stereoscopic images and a planar image having a higher resolution than the stereoscopic images,
The arrangement order of the stereoscopic image and the planar image in the multiplexed image is detected, and when the encoding target block is in the stereoscopic image, the motion vector separated from the moving image stream by the separation means is used as the local motion vector. And a determination unit that outputs to the motion vector synthesis unit and outputs the motion vector separated from the moving image stream by the separation unit to the multiplexed image restoration unit when the encoding target block is in the plane image. It may be.
上記目的を達成するために、本発明は、所定の対象物を複数の視点から撮影することにより得られる複数の多視点画像を動きベクトルと差分画像とに分解して符号化して動画ストリームとして伝送を行い、伝送されてきた動画ストリームを受信して伸長することにより元の多視点画像を復元する多視点画像伝送システムであって、
前記複数の多視点画像を画像空間的に多重化して1枚の多重化画像を生成する多視点画像多重化手段と、前記多重化画像の所定領域を動きベクトルサーチ範囲として、符号化を行おうとする多重化画像の符号化対象ブロックと類似する類似ブロックを、参照画像とした多重化画像を構成するブロックのうちから最も予測効率が高くなるように選択することにより動きベクトルを検出する動きベクトル検出手段と、前記動きベクトル検出手段により検出された動きベクトルを、前記選択されたブロックを含む多視点画像内において符号化対象ブロックの多視点画像内でのローカル座標と同一の座標に位置するオフセットブロックに至るオフセットベクトルと、該オフセットブロックから前記選択されたブロックに至るローカル動きベクトルとに分解する動きベクトル分解手段と、前記動きベクトル分解手段により分解されたローカル動きベクトルおよびオフセットベクトルを符号化して前記動画ストリームに多重化して出力する多重化手段とを有する多視点画像圧縮装置と、
前記多視点画像圧縮装置から受信した動画ストリーム中に含まれるローカル動きベクトルとオフセットベクトルを分離する分離手段と、前記分離手段により分離されたローカル動きベクトルとオフセットベクトルから動きベクトルを合成する動きベクトル合成手段と、前記動きベクトル合成手段により合成された動きベクトルと受信した動画ストリーム中の参照画像から予測画像を形成し、該予測画像と前記動画ストリームに含まれる差分画像との和をとることにより元の多重化画像を復元する多重化画像復元手段とを有する多視点画像伸長装置とを備えている。
To achieve the above object, the present invention decomposes and encodes a plurality of multi-viewpoint images obtained by photographing a predetermined object from a plurality of viewpoints into motion vectors and difference images and transmits them as a moving picture stream. A multi-viewpoint image transmission system that restores the original multi-viewpoint image by receiving and decompressing the transmitted video stream,
Multi-view image multiplexing means for multiplexing the plurality of multi-view images in an image space to generate one multiplexed image, and encoding using the predetermined area of the multiplexed image as a motion vector search range Motion vector detection that detects a motion vector by selecting a similar block that is similar to the encoding target block of the multiplexed image to be the highest in prediction efficiency from among the blocks that constitute the multiplexed image as a reference image And an offset block in which the motion vector detected by the motion vector detecting means is located at the same coordinate as the local coordinate in the multi-view image of the encoding target block in the multi-view image including the selected block. And the local motion vector from the offset block to the selected block. A motion vector resolution means interpreted, the multi-viewpoint image compression device having a multiplexing means for outputting the multiplexed the motion local motion vector and the offset vector decomposed by vector resolution means, encoded in the video stream,
Separation means for separating a local motion vector and an offset vector included in a video stream received from the multi-viewpoint image compression apparatus, and motion vector composition for synthesizing a motion vector from the local motion vector and the offset vector separated by the separation means And a motion vector synthesized by the motion vector synthesis means and a reference image in the received video stream, and a predicted image is formed by taking the sum of the predicted image and the difference image included in the video stream And a multi-viewpoint image decompression device having a multiplexed image restoration means for restoring the multiplexed image.
また、本発明の他の多視点画像伝送システムでは、
前記複数の多視点画像が、複数の立体画像と該立体画像よりも解像度の高い平面画像とから構成され、
前記多視点画像圧縮装置は、
符号化対象ブロックが前記多重化画像の立体画像内にあるか平面画像内にあるかを判別し、符号化対象ブロックが立体画像内にある場合には、前記動きベクトル検出手段により検出された動きベクトルを前記動きベクトル分解手段に出力し、符号化対象ブロックが平面画像内にある場合には、前記動きベクトル検出手段により検出された動きベクトルを前記多重化手段に出力する第1の判別手段をさらに備え、
前記多視点画像伸長装置は、
多重化画像内での立体画像及び平面画像の配置順序を検出し、符号化対象ブロックが立体画像内にある場合には、前記分離手段により動画ストリームから分離された動きベクトルをローカル動きベクトルとして前記動きベクトル合成手段に出力し、符号化対象ブロックが平面画像内にある場合には、前記分離手段により動画ストリームから分離された動きベクトルを前記多重化画像復元手段に出力する第2の判別手段をさらに備えるようにしてもよい。
In another multi-viewpoint image transmission system of the present invention,
The plurality of multi-viewpoint images are composed of a plurality of stereoscopic images and a planar image having a higher resolution than the stereoscopic images,
The multi-viewpoint image compression apparatus includes:
It is determined whether the encoding target block is in the stereoscopic image or the planar image of the multiplexed image, and when the encoding target block is in the stereoscopic image, the motion detected by the motion vector detecting means First discriminating means for outputting a vector to the motion vector decomposing means and outputting a motion vector detected by the motion vector detecting means to the multiplexing means when the encoding target block is in a plane image. In addition,
The multi-viewpoint image decompression device includes:
The arrangement order of the stereoscopic image and the planar image in the multiplexed image is detected, and when the encoding target block is in the stereoscopic image, the motion vector separated from the moving image stream by the separation means is used as the local motion vector. A second discriminating unit that outputs to the motion vector synthesizing unit, and outputs the motion vector separated from the moving image stream by the separating unit to the multiplexed image restoring unit when the encoding target block is in the plane image; You may make it provide further.
本発明では、多視点画像圧縮装置側では、動きベクトルをオフセットベクトルとローカル動きベクトルに分解して動画ストリームに含めて送信し、多視点画像伸長装置側では、受信した動画ストリーム中のオフセットベクトルとローカル動きベクトルを分離して合成することにより元の動きベクトルを合成し、この動きベクトルを用いて受信した動画ストリームから元の多重化画像を復元する。オフセットベクトルの始点と終点は各多視点画像内でのローカル座標が等しいため、オフセットベクトルを表す符号は、ベクトルの終点がN枚の複数の多視点画像のうちのどの画像を指しているかを表現するのに必要なビット数で済む。また、ローカル動きベクトルは、1枚の多視点画像内における局所的な動きを表現するのに必要な少ないビット数で表すことができる。従って、本発明のようにして動画ストリームの伝送を行うようにすれば、動きベクトルを分解せずに符号化する場合に比べて、動きベクトル符号量を大幅に削減することができる。また、多視点画像圧縮装置では、複数の多視点画像を1枚の大きな画面に多重化して送信し、多視点画像伸長装置では、復元された多重化画像を分離することにより元の複数の多視点画像を得るようにしているので、既存の動画像規格の予測構造をそのまま利用でき、また、現在までに種々開発されている平面動画像用コーデックLSIの構成もほとんど変えずに利用できるため、低コストかつ高効率な多視点画像の圧縮が実現できる。 In the present invention, on the multi-viewpoint image compression device side, the motion vector is decomposed into an offset vector and a local motion vector and transmitted in the moving image stream, and on the multiview image decompression device side, the offset vector in the received moving image stream and The original motion vector is synthesized by separating and synthesizing the local motion vectors, and the original multiplexed image is restored from the received video stream using the motion vectors. Since the start point and end point of the offset vector have the same local coordinates in each multi-viewpoint image, the code representing the offset vector represents which image of the N multi-viewpoint images the end point of the vector points to The number of bits required to do this is sufficient. Further, the local motion vector can be expressed by a small number of bits necessary for expressing a local motion in one multi-viewpoint image. Therefore, if the moving picture stream is transmitted as in the present invention, the amount of motion vector code can be greatly reduced as compared with the case where the motion vector is encoded without being decomposed. In addition, the multi-view image compression apparatus multiplexes and transmits a plurality of multi-view images on one large screen, and the multi-view image decompression apparatus separates the restored multiplexed images to separate the original multiple images. Since the viewpoint image is obtained, the prediction structure of the existing moving image standard can be used as it is, and the configuration of the codec LSI for planar moving images that has been developed so far can be used with almost no change. Low-cost and highly efficient multi-viewpoint image compression can be realized.
以上説明したように、本発明によれば、下記のような効果を得ることができる。
(1)多視点画像伝送システムでは、多視点画像圧縮装置において、検出された動きベクトルをオフセットベクトルとローカル動きベクトルに分解して動画ストリームに多重化して送信し、多視点画像伸長装置において、受信した動画ストリーム中のオフセットベクトルとローカル動きベクトルを分離して合成することにより元の動きベクトルを合成し、この動きベクトルを用いて受信した動画ストリームから元の多重化画像を復元するようにしているので、動きベクトルを分解せずに符号化する場合に比べて、動きベクトル符号量を大幅に削減することができる。
(2)多視点画像伝送システムでは、多視点画像圧縮装置において、伝送しようとする複数の多視点画像を1枚の大きな画面に多重化して送信し、多視点画像伸長装置において、復元された多重化画像を分離することにより元の複数の多視点画像を得るようにしているので、既存の動画像規格の予測構造をそのまま利用でき、また、現在までに種々開発されている平面動画像用コーデックLSIの構成もほとんど変えずに利用できるため、低コストかつ高効率な多視点画像の圧縮が実現できる。
As described above, according to the present invention, the following effects can be obtained.
(1) In a multi-view image transmission system, a multi-view image compression apparatus decomposes a detected motion vector into an offset vector and a local motion vector, multiplexes them into a moving picture stream, and transmits them to a multi-view image expansion apparatus. The original motion vector is synthesized by separating and synthesizing the offset vector and the local motion vector in the video stream, and the original multiplexed image is restored from the video stream received using this motion vector. Therefore, the amount of motion vector codes can be greatly reduced compared to the case of encoding without decomposing motion vectors.
(2) In the multi-view image transmission system, the multi-view image compression apparatus multiplexes and transmits a plurality of multi-view images to be transmitted on one large screen, and the multi-view image expansion apparatus restores the multiplexed data. The original multi-viewpoint images are obtained by separating the digitized images, so that the prediction structure of the existing video standard can be used as it is, and the plane video codec that has been developed to date Since the LSI configuration can be used with almost no change, low-cost and highly efficient multi-viewpoint image compression can be realized.
次に、本発明の実施の形態について図面を参照して詳細に説明する。ここでは、多視点画像伝送システムの1つである立体画像伝送システムを用いて説明を行う。 Next, embodiments of the present invention will be described in detail with reference to the drawings. Here, a description will be given using a stereoscopic image transmission system which is one of the multi-viewpoint image transmission systems.
(第1の実施形態)
図1は、本発明の第1の実施形態の立体画像伝送システムの構成を示すブロック図である。本実施形態の立体画像伝送システムは、複数の視差画像を動きベクトルと差分画像とに分解して符号化して動画ストリームとして出力することによりデータ量の圧縮を行う立体画像圧縮装置10と、立体画像伸長装置20と、この立体画像圧縮装置10と立体画像伸長装置20とを接続する伝送路とから構成されている。
(First embodiment)
FIG. 1 is a block diagram showing a configuration of a stereoscopic image transmission system according to the first embodiment of the present invention. The stereoscopic image transmission system according to the present embodiment includes a stereoscopic
立体画像圧縮装置10は、立体画像多重化部104と、多重化画像圧縮部105と、動きベクトル分解部106と、送信・記録部107とから構成されている。また、立体画像伸長装置20は、図1に示すように、受信・再生部108、多重化画像伸長部109と、動きベクトル合成部110と、立体画像分離部111とから構成されている。
The stereoscopic
立体画像多重化部104は、入力された複数の視差画像からなる立体画像を画像空間的に多重化して1枚の多重化画像を生成する。ここでは、立体画像多重化部104に入力される立体画像は、第1眼画像1011〜第N眼画像101NのN枚から構成されているものとして説明する。
The stereoscopic
動きベクトル分解部106は、多重化画像圧縮部105により検出された動きベクトルを、オフセットブロックに至るオフセットベクトルと、このオフセットブロックから選択されたブロックに至るローカル動きベクトルとに分解する。ここで、オフセットブロックとは、動きベクトルを検出する際に、参照画像中の選択されたブロックを含む多視点画像内において符号化対象ブロックの多視点画像内でのローカル座標と同一の座標に位置するブロックのことである。
The motion
立体画像多重化部104では、N枚の立体画像が空間的に配置され、図2に示すように、1枚の大きな画像に多重化される。ここで多重化方法は、図2に示した方法以外に、縦方向に並べるのでも、横方向に並べるのでもよく、また、視差画像を並べる順番も、図2に示した通りでなくて構わない。多重化された画像は多重化画像圧縮部105において圧縮されるが、その際求められる動きベクトル情報は、動きベクトル分解部106においてオフセットベクトルとローカル動きベクトルとに分解され、出力ストリーム中に挿入される。圧縮された立体画像は送信・記録部107によって1本のストリームとして送信あるいは記録される。
In the stereoscopic
ここで、立体画像多重化部104により多重化された多重化画像は、格子状のマクロブロックに分割され、このマクロブロック単位で動きベクトルの検出や動き補償が行われる。マクロブロックとは、図3に示すようなMPEG等の規格で用いられる、16画素×16ラインのブロックのことである。
Here, the multiplexed image multiplexed by the stereoscopic
尚、オフセットベクトルおよびローカル動きベクトルを出力ストリーム中に挿入する具体的な方法については、第1〜第5の実施形態の説明後にまとめて説明する。 A specific method for inserting the offset vector and the local motion vector into the output stream will be described collectively after the description of the first to fifth embodiments.
立体画像圧縮装置10により圧縮された多重化画像は、伝送路を介して立体画像伸長装置20に送られて受信・再生部108によって1本のストリームとして受信あるいは再生される。そして、受信・再生部108によって受信あるいは再生された多重化画像は、多重化画像伸長部109において伸長されるが、その際、動きベクトル合成部110において受信したローカル動きベクトルとオフセットベクトルから1本の動きベクトルが合成され、合成された動きベクトル情報を用いて多重化画像を復元する。伸長された多重化画像は、立体画像分離部111において第1眼画像1121、第2眼画像1122、・・・、第N眼画像112Nに分離される。そして、第1眼画像1121〜第N眼画像112Nを1列毎に配置した画像を作って立体ディスプレイに表示し、N眼立体表示が実現される。
The multiplexed image compressed by the stereoscopic
次に、多重化画像圧縮部105における多重化画像の符号化方法について説明する。多重化画像圧縮部105は、図4に示すように、動きベクトル検出部304と、DCT変換部310と、量子化部311と、逆量子化部315と、可変長符号化部312と、多重化部313と、逆DCT変換部316と、予測メモリ303と、動き補償部306と、から構成されている。
Next, a method for encoding a multiplexed image in the multiplexed
多重化画像圧縮部105は、図4に示すように、既存の種々の平面動画圧縮部とほぼ同様の構成となっている。すなわち、動画像の時間方向の相関を利用するための動き補償や、空間方向の高周波成分を取り除くためのDCT(Discrete Cosine Transform:離散コサイン変換)など、平面動画を効率よく圧縮するための機能のみが備わっており、立体画像に特化した機能は備えらておらず、動きベクトル検出部304により検出された動きベクトル305が動きベクトル分解部106に出力され、動きベクトル分解部106からのローカル動きベクトル308とオフセットベクトル309が多重化部313に入力されている点が異なっている。なお、この図4において、動きベクトル分解部106は多重化画像圧縮部105の外部にある構成となっているが、多重化画像圧縮部105の内部に含む構成としても構わない。
As shown in FIG. 4, the multiplexed
動きベクトル検出手部304は、多重化画像全体を動きベクトルサーチ範囲として、符号化を行おうとする多重化画像の符号化対象ブロックと類似する類似ブロックを、参照画像とした多重化画像を構成するブロックのうちから最も予測効率が高くなるように選択することにより動きベクトルを検出する。
The motion
多重化画像圧縮部105の動作としては、まず、多重化画像圧縮部105に入力された多重化画像と、予測メモリ303に記憶されている過去あるいは未来の参照画像とを動きベクトル検出部304においてブロック単位で比較し、動きベクトル305を検出する。このとき、多重化画像に配置されているN枚の視差画像の類似部分から予測誤差の最も小さいブロックを選択することにより、予測効率を向上させることができる。この動きベクトル情報により、動き補償部306において予測メモリ303に記憶されている参照画像から対応するデータを読み出して予測画像を形成し、入力された多重化画像との差分をとる。一方動きベクトルは動きベクトル分解部106においてオフセットベクトル309とローカル動きベクトル308とに分解される。差分画像はDCT変換部310、量子化部311、及び可変長符号化部312を経て、多重化部313においてローカル動きベクトル情報、オフセットベクトル情報とともに1本の動画ストリーム314に多重化される。さらに、次のフレームの多重化画像を圧縮するための参照画像は、逆量子化部315、逆DCT変換部316を経て303予測メモリに記憶される。
As an operation of the multiplexed
次に、動きベクトル分解部106における動きベクトル分解方法、及び分解されたベクトルの符号化方法について、更に詳しく説明する。
Next, the motion vector decomposition method and the method of encoding the decomposed vector in the motion
動きベクトル分解の様子は、図5を用いて説明する。以下、第k眼画像内のローカル座標(x,y)にあるブロックを、ブロック座標(k,x,y)と表すことにする。符号化対象ブロック401は第6眼画像内にあり、ローカル座標(i,j)であるから、ブロック座標は(6,i,j)となる。一方、参照ブロック403は第1眼画像内にあり、ローカル座標(i’,j’)であるから、ブロック座標は(1,i’,j’)となる。動きベクトル分解部106に入力された動きベクトル405は、以下のようにして分解される。すなわち、動きベクトル405は、ブロック座標(6,i,j)に位置する符号化対象ブロック401から、第1眼画像における同一ローカル座標、すなわちブロック座標(1,i,j)に位置するオフセットブロック406に至るオフセットベクトル407と、オフセットブロック407から、ブロック座標(1,i’,j’)に位置する参照ブロック403に至るローカル動きベクトル408とに分解される。
The state of motion vector decomposition will be described with reference to FIG. Hereinafter, a block at local coordinates (x, y) in the k-th eye image is represented as block coordinates (k, x, y). Since the
ローカル動きベクトルの符号化については、視差画像内での局所的な動きを表現できればよいため、平面動画像規格にあるような動きベクトル符号化の方法に従って可変長符号化すればよい。 As for local motion vector encoding, it is only necessary to represent local motion in a parallax image. Therefore, variable length encoding may be performed according to a motion vector encoding method as in the plane video standard.
次に、オフセットベクトルの符号化方法について説明する。オフセットベクトル符号は、選択されたブロックがどの視差画像内に存在するかを表現できれば良いので、図6のように視差画像毎に少なくとも[log2(M−1)]+1ビット(但し[x]はxを超えない最大の整数、Mは多重化画像内に存在する視差画像の数)の固定長符号を割り当てておき、このテーブルを参照して符号化する方法がまず考えられる。 Next, an offset vector encoding method will be described. Since the offset vector code only needs to be able to express in which parallax image the selected block exists, at least [log 2 (M−1)] + 1 bits (provided that [x] Is a maximum integer that does not exceed x, and M is a fixed-length code of the number of parallax images existing in the multiplexed image), and a method of encoding with reference to this table is first considered.
さらに、動きベクトル検出において選択されるブロックは、符号化対象ブロックと同一視点画像内に存在することが多く、逆に視点が離れた画像内に存在する割合は低くなる傾向にあるため、符号化対象ブロックと参照ブロックの視点距離が近い場合は符号長を短くし、遠い場合は符号長を長くするようにすれば、オフセットベクトル情報を効率的に符号化することが可能になる。一例として、図7に示すような可変長符号テーブルを用意して、符号化対象ブロックが属する視差画像と、検出された参照ブロックが属する視差画像をもとに符号を決定すればよい。 Furthermore, since the block selected in motion vector detection often exists in the same viewpoint image as the encoding target block, and conversely, the ratio that exists in an image with a different viewpoint tends to be low. If the code length is shortened when the viewpoint distance between the target block and the reference block is short, and the code length is long when the target block is far, the offset vector information can be efficiently encoded. As an example, a variable length code table as shown in FIG. 7 is prepared, and the code may be determined based on the parallax image to which the encoding target block belongs and the parallax image to which the detected reference block belongs.
また、オフセットベクトルは隣接ブロック間で相関性があることを考慮して、オフセットベクトル情報をランレングス符号化することも可能である。すなわち、オフセットベクトル情報を、「オフセットベクトルの値と、値が連続する個数」として表現する。例えば、図8に示すように、第6眼画像内にある連続する5つのブロック702における動きベクトル703が、図8のように左から順に第2眼画像、第2眼画像、第2眼画像、第6眼画像、第6眼画像に属するブロック704を参照しているとする。この場合、オフセットベクトルを順に並べると”22266”となるが、これをランレングス方式で表現すると、「2が3個、6が2個」すなわち”2362”となる。このようにランレングス符号化を行う場合も、オフセットベクトルの値及び値が連続する個数は、固定長符号化、可変長符号化のどちらでもよい。ランレングス符号は、多重化画面全体で区切るのでもよいし、スライス単位で区切るのでもよいし、個々の視差画像の境界部分で区切るのでもよい。
In addition, the offset vector information can be run-length encoded in consideration of the fact that the offset vector has a correlation between adjacent blocks. That is, the offset vector information is expressed as “the value of the offset vector and the number of consecutive values”. For example, as shown in FIG. 8, the
また、オフセットベクトル情報が固定長符号か、可変長符号か、また、ランレングス符号化されているかどうかなどの、オフセットベクトルの符号化フォーマットを示すフラグは、出力ストリーム中のユーザデータ部やプライベートデータ部など、ユーザが任意にデータを挿入できるフィールドに挿入される。さらに、多重化画像における視差画像の配置順序を示すフラグも、ユーザデータ部に挿入される。 In addition, flags indicating the encoding format of the offset vector, such as whether the offset vector information is a fixed-length code, a variable-length code, or run-length encoding, is a user data part or private data in the output stream. The field is inserted into a field where the user can arbitrarily insert data, such as a section. Furthermore, a flag indicating the arrangement order of the parallax images in the multiplexed image is also inserted into the user data portion.
上記処理により得られたオフセットベクトル情報及びローカル動きベクトル情報は、出力ストリーム中に挿入される。ローカル動きベクトル情報は、平面動画像の符号化規格における動きベクトル情報の符号化方式に従って符号化され、動きベクトル符号として挿入される。オフセットベクトル情報は、付加情報としてユーザデータ部、あるいはローカル動きベクトル符号の前後に挿入され、さらに、ストリーム中でのオフセットベクトル情報の存在場所を示すフラグがユーザデータ部に挿入される。 The offset vector information and local motion vector information obtained by the above processing are inserted into the output stream. The local motion vector information is encoded according to a motion vector information encoding method in the plane video encoding standard, and is inserted as a motion vector code. The offset vector information is inserted as additional information before or after the user data part or the local motion vector code, and a flag indicating the location of the offset vector information in the stream is inserted into the user data part.
次に、多重化画像伸長部109における多重化画像の復号化方法について説明する。図9に示すように、多重化画像伸長部109も多重化画像圧縮部105と同様に、既存の平面動画像伸張部と同様の構成になっている。すなわち、多重化画像圧縮部105に示した、一般的な平面動画用圧縮部で出力されるストリームが伸長できる機能が備わっていればよい。
Next, a method for decoding a multiplexed image in the multiplexed
多重化画像伸長部109は、図9に示されるように、分離部803と、可変長復号化部807と、逆量子化部808と、逆DCT変換部809と、動き補償部812と、予測メモリ813とから構成されている。ここで、可変長復号化部807と、逆量子化部808と、逆DCT変換部809と、動き補償部812と、予測メモリ813は、圧縮された符号化された多重化画像を復元するための多重化画像復元手段として機能する。
As illustrated in FIG. 9, the multiplexed
多重化画像伸長部109での動作は、まず、多重化画像伸張部109に入力された1本の動画ストリーム802が、分離部803において差分画像データ804、オフセットベクトル805、ローカル動きベクトル806とに分離される。差分画像データ804は可変長復号化部807、逆量子化部808、逆DCT変換部809において、それぞれ可変長復号化、逆量子化、逆DCT変換され、差分画像に復号される。オフセットベクトル805及びローカル動きベクトル806は、動きベクトル合成部110において1本の動きベクトル811に合成される。この合成された動きベクトル811を用いて、動き補償部812において、予測メモリ813に記憶されている過去あるいは未来の参照画像から予測画像が形成される。そして、予測画像と逆DCT変換部809から出力された差分画像との和をとることによって、多重化画像が復元される。
In the operation of the multiplexed
次に、オフセットベクトル805及びローカル動きベクトル806の復号化方法、動きベクトル合成部110における動きベクトル合成方法について、更に詳しく説明する。
Next, the decoding method of the offset
まず、動画ストリーム中の動きベクトル符号を検出し、これをローカル動きベクトル情報として取得する。ローカル動きベクトルの復号化方法については、種々の動画像規格に定められている動きベクトルの復号化方式に従う。 First, a motion vector code in a moving image stream is detected and acquired as local motion vector information. The local motion vector decoding method follows a motion vector decoding method defined in various video standards.
オフセットベクトルは、ユーザデータ内に存在するオフセットベクトル情報の存在場所を示すフラグを検出することにより、動画ストリーム中のユーザデータ部、あるいはローカル動きベクトル符号の前後からオフセットベクトル符号として取り出して検出する。オフセットベクトル符号の復号化方法については、ユーザデータ部に挿入されている、オフセットベクトルの符号化フォーマットを示すフラグを検出し、送受信側で予め決めておいたフォーマットに従って復号化する。 The offset vector is detected by detecting the flag indicating the location of the offset vector information existing in the user data as an offset vector code from the user data part in the moving image stream or before and after the local motion vector code. As for the decoding method of the offset vector code, a flag indicating the encoding format of the offset vector inserted in the user data part is detected, and decoding is performed according to a format predetermined on the transmission / reception side.
動きベクトルの合成方法については、ユーザデータ部から多重化画像内における視差画像の配置順序を示すフラグを検出し、これにより多重化画像内におけるオフセットブロックの位置を算出する。そして、オフセットベクトルとローカル動きベクトルをベクトル加算することにより、元の動きベクトルを合成する。 Regarding the motion vector synthesis method, a flag indicating the disposition order of the parallax images in the multiplexed image is detected from the user data portion, and thereby the position of the offset block in the multiplexed image is calculated. Then, the original motion vector is synthesized by vector addition of the offset vector and the local motion vector.
本実施形態の立体画像伝送システムては、立体画像圧縮装置10の多重化画像圧縮部105では、動きベクトル検出部304により検出された動きベクトル305をローカル動きベクトル308と、オフセットベクトル309に分解して動画ストリームに多重化するようにしている。ここで、オフセットベクトル309の始点と終点は各視差画像内でのローカル座標が等しいため、オフセットベクトル309を表す符号は、ベクトルの終点がN枚の複数の視差画像のうちのどの画像を指しているかを表現するのに必要なビット数で済む。また、ローカル動きベクトル308は、1枚の視差画像内における局所的な動きを表現するのに必要な少ないビット数で表すことができる。従って、本実施形態により動きベクトル305をオフセットベクトル309とローカル動きベクトル308に分解すれば、動きベクトル305を分解せずに符号化する場合に比べて、動きベクトル符号量を大幅に削減することができる。また、N枚の視差画像を1枚の大きな画面に多重化することにより、既存の動画像規格の予測構造をそのまま利用でき、また、現在までに種々開発されている平面動画像用コーデックLSIの構成もほとんど変えずに利用できるため、低コストかつ高効率な立体画像の圧縮が実現できる。
In the stereoscopic image transmission system of this embodiment, the multiplexed
本実施形態では、多視点画像は、1つの対象物を異なる視点から撮像した場合を想定して説明したが、対象物は1つに限定されるものではない。複数の対象物のそれぞれを複数の視点から撮影した画像についても、本発明を適用することができる。その場合は、符号化対象ブロックは、それぞれの対象物に対応した複数の画像のグループ内に含まれることとなるので、動きベクトルサーチ範囲は、多重化画像全体とするのではなく、各対象物に対応した複数の画像グループ内を所定領域とすれば、効率よくサーチできる。よって、本実施形態の立体画像伝送システムによれば、複数の立体画像だけでなく、所定の対象物を複数の視点から撮影することにより得られる複数の多視点画像を伝送する場合にも用いることができるものである。 In the present embodiment, the multi-viewpoint image has been described assuming that one object is captured from different viewpoints, but the number of objects is not limited to one. The present invention can also be applied to images obtained by photographing each of a plurality of objects from a plurality of viewpoints. In that case, since the encoding target block is included in a group of a plurality of images corresponding to each object, the motion vector search range is not the entire multiplexed image, but each object. If a plurality of image groups corresponding to is set as a predetermined area, the search can be performed efficiently. Therefore, according to the stereoscopic image transmission system of the present embodiment, it is used not only when transmitting a plurality of stereoscopic images but also when transmitting a plurality of multi-view images obtained by photographing a predetermined object from a plurality of viewpoints. It is something that can be done.
(第2の実施形態)
次に、本発明の第2の実施形態の立体画像伝送システムについて説明する。
(Second Embodiment)
Next, a stereoscopic image transmission system according to a second embodiment of the present invention will be described.
上記で説明した第1の実施形態は、N枚の視差画像を立体画像として伝送するものであったが、本発明の第2実施の実施形態では、N枚の視差画像に加え、N枚の視差画像の内の1枚を列方向にN倍した解像度を有する平面画像を立体画像に含めて伝送するものである。 In the first embodiment described above, N parallax images are transmitted as a stereoscopic image, but in the second embodiment of the present invention, in addition to N parallax images, N A three-dimensional image is transmitted by including a planar image having a resolution obtained by multiplying one of the parallax images by N times in the column direction.
伝送されたN枚の視差画像は、画像表示側において立体ディスプレイを用いて表示されることにより立体映像が実現される。しかし、画像表示側が通常の平面ディスプレイしか備えていない場合には、視差画像のうちの1枚を水平方向に引き延ばして表示しなければならず水平方向の解像度が劣化してしまうことになる。そのため、画像表示側が立体ディスプレイまたは平面ディスプレイのいずれを備えている場合でも高精細な表示を行うことができるように、N枚の視差画像とともにN枚の視差画像の内の1枚を列方向にN倍した解像度を有する平面画像を立体画像に含めて伝送する。 The transmitted N parallax images are displayed on the image display side using a stereoscopic display, thereby realizing a stereoscopic video. However, when the image display side includes only a normal flat display, one of the parallax images must be extended and displayed in the horizontal direction, and the horizontal resolution is deteriorated. Therefore, one of N parallax images and one of N parallax images in the column direction so that high-definition display can be performed regardless of whether the image display side includes a stereoscopic display or a flat display. A plane image having a resolution multiplied by N is included in the stereoscopic image and transmitted.
本実施形態の立体画像伝送システムの構成を図10に示す。図10において、図1中の構成要素と同一の構成要素には同一の符号を付し、説明を省略するものとする。
本実施形態の立体映像伝送システムは、図10に示されるように、立体画像圧縮装置30と、立体画像伸長装置40と、この立体画像圧縮装置30と立体画像伸長装置40とを接続する伝送路とから構成されている。
The configuration of the stereoscopic image transmission system of this embodiment is shown in FIG. In FIG. 10, the same components as those in FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted.
As shown in FIG. 10, the stereoscopic video transmission system of the present embodiment includes a stereoscopic
立体画像圧縮装置30は、立体画像多重化部204と、多重化画像圧縮部205と、動きベクトル分解部106と、送信・記録部107とから構成されている。また、立体画像伸長装置40は、受信・再生部108と、多重化画像伸長部209と、動きベクトル合成部110と、立体画像分離部211とから構成されている。
The stereoscopic
本実施形態では、立体画像圧縮装置30には、N枚の視差画像である第1眼画像1011〜第N眼画像101Nから構成される立体画像とともにN枚の視差画像の内の1枚を列方向にN倍した解像度を有する平面画像201とが入力されている。
In the present embodiment, the stereoscopic
立体画像多重化部204では、入力されたN枚の第1眼画像1011〜第N眼画像101Nと平面画像201は、図11に示すように空間的に配置され、1枚の大きな画像に多重化される。ここで多重化方法は、図11に示した方法以外に、縦方向に並べるのでも、横方向に並べるのでもよく、また、視差画像及び平面画像を並べる順番も、図11に示した通りでなくて構わない。多重化された画像は多重化画像圧縮部205において圧縮されるが、その際求められる動きベクトル情報は、符号化対象ブロックがN枚の視差画像内にある場合は動きベクトル分解部においてオフセットベクトルとローカル動きベクトルとに分解され、動画ストリーム中に挿入される。符号化対象ブロックが平面画像内にある場合は、そのまま動きベクトルとして動画ストリーム中に挿入される。圧縮された立体画像及び平面画像は送信・記録部107によって1本のストリームとして送信あるいは記録される。
In the stereoscopic
圧縮された多重化画像は、受信・再生部108によって1本のストリームとして受信あるいは再生され、多重化画像伸長部209において伸長されるが、その際、動きベクトル合成部110において受信したローカル動きベクトルとオフセットベクトルから1本の動きベクトルが合成され、合成された動きベクトル情報を用いて多重化画像を復元する。伸長された多重化画像は、立体画像分離部211において第1眼画像〜第N眼画像1121〜112N及び平面画像212に分離される。そして、N眼立体表示を行う場合は第1眼画像〜第N眼画像1121〜112Nを1列毎に配置して立体ディスプレイに表示し、平面表示を行う場合は平面画像212をそのまま平面ディスプレイに表示する。
The compressed multiplexed image is received or reproduced as a single stream by the reception /
次に、多重化画像圧縮部205における多重化画像の符号化方法について説明する。多重化画像圧縮部205は図12に示すような構成になっている。図12において、図4中の構成要素と同一の構成要素には同一の符号を付し、説明を省略するものとする。
Next, a method for encoding a multiplexed image in the multiplexed
多重化画像圧縮部205は、図12に示すように、動きベクトル検出部304と、DCT変換部310と、量子化部311と、逆量子化部315と、可変長符号化部312と、多重化部313と、逆DCT変換部316と、予測メモリ303と、動き補償部306と、判別部202とから構成されている。
As illustrated in FIG. 12, the multiplexed
本実施形態における多重化画像圧縮部205は、判別部202が設けられている以外は、図3に示した第1の実施形態における多重化画像圧縮部105と同様な構成となっている。
The multiplexed
判別部202は、符号化対象ブロックがN枚の視差画像内にあるか平面画像内にあるかを判別部202によって判別し、N枚の視差画像内にある場合には、動きベクトル検出部304により検出された動きベクトル305を、動きベクトル分解部106に出力し、符号化対象ブロックが平面画像内にある場合には、動きベクトル検出部304により検出された動きベクトル305をローカル動きベクトル308の替わりとして多重化部313に出力する。
The discriminating unit 202 discriminates whether the encoding target block is in N parallax images or a planar image by the discriminating unit 202, and when it is in the N parallax images, the motion
この図12では、動きベクトル分解部106は多重化画像圧縮部205の外部に設けられているが、多重化画像圧縮部205内部に含む構成としても構わない。この多重化画像圧縮部205での動作は、まず、入力された多重化画像と、予測メモリ303に記憶されている過去あるいは未来の参照画像とを動きベクトル検出部304においてブロック単位で比較し、動きベクトル305を検出する。このとき、符号化対象ブロックがN枚の視差画像内にある場合は、動きベクトルサーチ範囲を参照多重化画像におけるN枚の視差画像が配置されている部分とし、N個の類似部分のうちで最も予測誤差の小さいブロックを選択する。一方、符号化対象ブロックが平面画像内にある場合は、動きベクトルサーチ範囲は参照多重化画像の平面画像が配置されている部分のみとし、1本の動画を符号化する場合と同様の動きベクトル検出を行う。この動きベクトル情報により、動き補償部306において予測メモリ303に記憶されている参照画像から対応するデータを読み出して予測画像を形成し、入力された多重化画像との差分をとる。一方、動きベクトル305については、符号化対象ブロックがN枚の視差画像内にあるか平面画像内にあるかが判別部202において判別され、符号化対象ブロックがN枚の視差画像内にある場合は、動きベクトル305は動きベクトル分解部106においてオフセットベクトル309とローカル動きベクトル308とに分解される。符号化対象ブロックが平面画像内にある場合は、動きベクトル分解部106は経由せず、動きベクトル検出部105によって求められた動きベクトル305はそのまま多重化部313に送られる。差分画像はDCT変換部310、量子化部311、及び可変長符号化部312を経て、多重化部313においてローカル動きベクトル308情報、オフセットベクトル309情報とともに1本の動画ストリームに多重化される。さらに、次のフレームの多重化画像を圧縮するための参照画像は、逆量子化部315、逆DCT変換部316を経て予測メモリ303に記憶される。
In FIG. 12, the motion
動きベクトル分解部106における動きベクトル分解方法、及び分解されたベクトルの符号化方法については、第1実施形態と同様の方法によって行われる。但し、ユーザデータ部に挿入されるオフセットベクトル情報において、多重化画像におけるN枚の視差画像の配置順序に加え、平面画像の配置順序を示すデータも挿入される点が異なる。
The motion vector decomposition method and the encoded vector encoding method in the motion
次に、本実施形態の多重化画像伸長部209における多重化画像の復号化方法について説明する。多重化画像伸長部209は図13に示すような構成になっている。図13において、図9中の構成要素と同一の構成要素には同一の符号を付し、説明を省略するものとする。
Next, a method for decoding a multiplexed image in the multiplexed
多重化画像伸長部209は、図13に示されるように、分離部803と、可変長復号化部807と、逆量子化部808と、逆DCT変換部809と、動き補償部812と、予測メモリ813と、判別部206とから構成されている。
As illustrated in FIG. 13, the multiplexed
本実施形態における多重化画像伸長部209は、判別部206が設けられている以外は、図9に示した第1の実施形態における多重化画像伸長部109と同様な構成となっている。
The multiplexed
判別部206は、多重化画像内でのN枚の視差画像及び平面画像の配置順序を示すフラグを検出し、符号化対象ブロックがN枚の視差画像内にある場合には、分離部803により動画ストリームから分離された動きベクトルをそのままローカル動きベクトル806として動きベクトル合成部110に出力し、符号化対象ブロックが平面画像内にある場合には、分離部803により動画ストリームから分離された動きベクトルを動きベクトル811として動き補償部812に出力する。
The
まず、多重画像伸長部209では、入力された動画ストリームが、分離部803において差分画像データ804とオフセットベクトル805と、動きベクトルに分離される。
尚、符号化対象ブロックが、平面画像内にある場合には、オフセットベクトルは存在しないため、分離部803からオフセットベクトル805は出力されない。次に、判別部206では、多重化画像内でのN枚の視差画像及び平面画像の配置順序を示すフラグを検出し、復号化対象ブロックがN枚の視差画像内にあった場合は、分離部803からの動きベクトルをそのままローカル動きベクトル806として動きベクトル合成部110に出力する。符号化対象ブロックが平面画像内にある場合には、判別部206が、分離部803からの動きベクトルを動きベクトル811として動き補償部812に出力する。
First, in the multiple
Note that when the encoding target block is in the planar image, there is no offset vector, so the offset
差分画像データ804は、可変長復号化部807、逆量子化部808、逆DCT変換部809において、それぞれ可変長復号化、逆量子化、逆DCT変換され、差分画像に復号される。オフセットベクトル805及びローカル動きベクトル806は、動きベクトル合成部110において1本の動きベクトル811に合成される。この合成された動きベクトル811を用いて、動き補償部812において、予測メモリ813に記憶されている過去あるいは未来の参照画像から予測画像が形成される。そして、予測画像と逆DCT変換部809からの差分画像との和をとることによって、多重化画像が復元される。
The
オフセットベクトル及びローカル動きベクトルの復号化方法については、第1実施形態と同様の方法によって行われる。但しこのとき、多重化画像におけるN枚の視差画像及び平面画像の配置順序を示すデータを検出し、これにより多重化画像内におけるオフセットブロックの位置を算出する点が若干異なる。 About the decoding method of an offset vector and a local motion vector, it is performed by the method similar to 1st Embodiment. However, at this time, data indicating the arrangement order of N parallax images and planar images in the multiplexed image is detected, and the position of the offset block in the multiplexed image is calculated accordingly.
本実施形態では、N枚の視差画像の内の1枚を列方向に引き延ばして平面画像としているが、ここで用いる平面画像としては、異なった対象物を表示するための画像であっても良い。この場合、平面画像内にある符号化対象ブロックに対する動きベクトルサーチにおいては、サーチ範囲は多重化画像全体ではなく平面画像が配置されている部分のみとし、N枚の視差画像内にある符号化対象ブロックに対する動きベクトルサーチにおいては、サーチ範囲はN枚の視差画像が配置されている部分のみとする。このような構成とすれば、異なった視点で異なった映像を映すことができ、複数のユーザが別の情報を同時に見ることが可能となる。 In the present embodiment, one of N parallax images is extended in the column direction to form a planar image. However, the planar image used here may be an image for displaying different objects. . In this case, in the motion vector search for the encoding target block in the planar image, the search range is only the portion where the planar image is arranged, not the entire multiplexed image, and the encoding target is in the N parallax images. In the motion vector search for a block, the search range is only a portion where N parallax images are arranged. With such a configuration, different videos can be projected from different viewpoints, and a plurality of users can simultaneously view different information.
本実施形態では、符号化対象ブロックが平面画像内の場合にはオフセットベクトルが存在しないものとして説明しているが、符号化対象ブロックが平面画像内の場合にもオフセットベクトルを用いるようにして平面画像と立体画像との間で動き予測を行うようにしてもよい。この場合には、図12に示した多重化画像圧縮部205における判別部202および図13に示した多重化画像伸長部209における判別部206は不要となる。
In the present embodiment, it is described that there is no offset vector when the encoding target block is in a planar image. However, the offset vector is also used when the encoding target block is in a planar image. Motion prediction may be performed between the image and the stereoscopic image. In this case, the determination unit 202 in the multiplexed
(第3の実施形)
次に、本発明の第3の実施形態の立体画像伝送システムについて説明する。
(Third embodiment)
Next, a stereoscopic image transmission system according to a third embodiment of the present invention will be described.
上記第2の実施形態の立体画像伝送システムでは、N枚の視差画像とともに平面画像を伝送する場合について説明を行った。しかし、この第2の実施形態では、N枚の視差画像と平面画像とは、大きさが異なりまた解像度も異なるものであるため空間的相関性が低くなり、平面画像と視差画像間での動き予測を行っても効率的な圧縮を行うことができなかった。そこで、本実施形態の立体画像伝送システムでは、平面画像を視差画像と同じ大きさを有するN枚の平面部分画像に分割して、N枚の視差画像とともに多重化するようにして、効率的な圧縮を行うようにしたものである。 In the stereoscopic image transmission system according to the second embodiment, the case where a planar image is transmitted together with N parallax images has been described. However, in the second embodiment, the N parallax images and the planar image are different in size and resolution, and thus the spatial correlation is low, and the motion between the planar image and the parallax image is low. Even with the prediction, efficient compression could not be performed. Therefore, in the stereoscopic image transmission system according to the present embodiment, the planar image is divided into N planar partial images having the same size as the parallax image, and multiplexed together with the N parallax images. The compression is performed.
本発明の第3の実施形態は、図1に示した第1の実施形態において、N枚の視差画像である第1〜第N眼画像1011〜101Nに加え、N枚の視差画像の内の1枚を列方向にN倍した解像度を有する平面画像を入力し、立体画像多重化部104において入力された平面画像をN枚の平面部分画像に分割してからN枚の視差画像とともに多重化する点のみが異なっている。
Third embodiment of the present invention, in the first embodiment shown in FIG. 1, the first to addition to the N-
本実施形態における立体画像多重化部では、入力された平面画像は、図14に示すようにN列毎に取り出して視差画像と同じ大きさを有するN枚の平面部分画像に分割され、図15に示すように、N枚の視差画像とN枚の平面部分画像を合わせた計2N枚の画像が多重化され1枚の大きな多重化画像となる。ここで多重化方法は、図15に示した方法以外に、縦方向に並べるのでも、横方向に並べるのでもよく、また、視差画像及び平面部分画像を並べる順番も、図15に示した通りでなくて構わない。さらに、図15において例えば平面画像は第1眼画像の4倍の水平解像度をもつ画像だとすると、第1眼画像と第1平面部分画像は全く同じ画像となるから、第1眼画像と第1平面部分画像のうちのいずれかを省略し、代わりにダミー画像を挿入してもよい。このように平面画像をN枚の平面部分画像に分割することで、平面画像を、N枚の視差画像と同じ大きさでかつ空間的相関性の高いN枚の画像とすることができる。 In the stereoscopic image multiplexing unit according to the present embodiment, the input planar image is extracted every N columns as shown in FIG. 14, and divided into N planar partial images having the same size as the parallax image. As shown in FIG. 2, a total of 2N images, which are a combination of N parallax images and N planar partial images, are multiplexed into one large multiplexed image. Here, the multiplexing method may be arranged in the vertical direction or in the horizontal direction other than the method shown in FIG. 15, and the order in which the parallax image and the planar partial image are arranged is also as shown in FIG. It doesn't matter. Further, in FIG. 15, for example, if the planar image is an image having a horizontal resolution four times that of the first eye image, the first eye image and the first planar partial image are exactly the same image. Any of the partial images may be omitted, and a dummy image may be inserted instead. By dividing the planar image into N planar partial images in this way, the planar image can be made into N images having the same size as the N parallax images and high spatial correlation.
このようにして多重化された多重化画像を圧縮・伸長する方法については、図1に示した第1の実施形態と同様な方法により行われるため、第1の実施形態の構成を示した図1を用いて本実施形態の以降の動作について説明する。 The method for compressing / decompressing the multiplexed image multiplexed in this way is performed by the same method as that of the first embodiment shown in FIG. 1, and is a diagram showing the configuration of the first embodiment. 1 will be used to explain the subsequent operation of the present embodiment.
立体画像多重化部により多重化された多重化画像は、多重化画像圧縮部105において圧縮されるが、その際求められる動きベクトル情報は、動きベクトル分解部106によりオフセットベクトルとローカル動きベクトルとに分解され、動画ストリーム中に挿入される。圧縮された立体画像及び平面画像は送信・記録部107によって1本のストリームとして送信あるいは記録される。
The multiplexed image multiplexed by the stereoscopic image multiplexing unit is compressed by the multiplexed
立体画像伸長装置20では、圧縮された多重化画像は、受信・再生部108によって1本のストリームとして受信あるいは再生され、多重化画像伸長部109において伸長されるが、その際、動きベクトル合成部110において受信したローカル動きベクトルとオフセットベクトルから1本の動きベクトルが合成され、合成された動きベクトル情報を用いて多重化画像を復元する。伸長された多重化画像は、立体画像分離部111において第1眼画像〜第N眼画像、及び第1平面部分画像〜第N平面部分画像に分離され、第1平面部分画像〜第N平面部分画像は図14に示した手順と逆の手順により1枚の平面画像に再構成される。そして、N眼立体表示を行う場合は第1眼画像〜第N眼画像を1列毎に配置して立体ディスプレイに表示し、平面表示を行う場合は平面画像をそのまま平面ディスプレイに表示する。
In the stereoscopic
本実施形態では、N枚の視差画像及びN枚の平面部分画像がすべて同じ大きさ・解像度を有しており、しかもそれらは互いに空間的相関性が高いため、多重化画像圧縮部105における多重化画像の符号化方法、動きベクトル分解方法及び分解されたベクトルの符号化方法、多重化画像の復号化方法、オフセットベクトル及びローカル動きベクトルの復号化方法については、第1実施形態においてNを2Nに置き換えた場合と同様の方法で実施する。但し、ユーザデータ部に挿入されるオフセットベクトル情報において、多重化画像におけるN枚の視差画像の配置順序に加え、N枚の平面部分画像の配置順序を示すデータも挿入される点が異なる。 In the present embodiment, N parallax images and N plane partial images all have the same size and resolution, and they have high spatial correlation with each other. For the encoded image encoding method, the motion vector decomposition method and the decomposed vector encoding method, the multiplexed image decoding method, the offset vector and the local motion vector decoding method, N is set to 2N in the first embodiment. The method is the same as when replaced with. However, the offset vector information inserted in the user data part differs in that data indicating the arrangement order of N planar partial images is also inserted in addition to the arrangement order of N parallax images in the multiplexed image.
(第4の実施形態)
次に、本発明の第4の実施形態の立体画像伝送システムについて説明する。上記で説明した第2の実施形態では、画像表示側が平面ディスプレイしか備えていない場合を考慮して、N枚の視差画像とともに平面画像を送信するようにしていたが、本発明の第4の実施形態では、画像表示側が1〜N眼ディスプレイのいずれであっても立体表示あるいは平面表示を行うことができるように、第1眼画像〜第N眼画像の原画像を列方向に間引かずに、原画像の解像度のまま入力する。
(Fourth embodiment)
Next, a stereoscopic image transmission system according to a fourth embodiment of the present invention will be described. In the second embodiment described above, the planar image is transmitted together with the N parallax images in consideration of the case where the image display side includes only the planar display. However, the fourth embodiment of the present invention is described. In the embodiment, the original images of the first eye image to the Nth eye image are not thinned out in the column direction so that stereoscopic display or planar display can be performed even if the image display side is any of the 1 to N eye displays. , Input with the resolution of the original image.
本実施形態における立体画多重化部においては、これらの画像が空間的に配置され、1枚の大きな画像に多重化される。例えばN=4とするとき、多重化処理過程においては、図16のように第1眼画像〜第N眼画像をそのまま多重化画像に配置する。ここで多重化方法は、図16に示した方法以外に、縦方向に並べるのでも、横方向に並べるのでもよく、また、視差画像を並べる順番も、図16に示した通りでなくて構わない。 In the stereoscopic image multiplexing unit in the present embodiment, these images are spatially arranged and multiplexed into one large image. For example, when N = 4, in the multiplexing process, the first to Nth eye images are arranged as they are in the multiplexed image as shown in FIG. Here, the multiplexing method may be arranged in the vertical direction or the horizontal direction other than the method shown in FIG. 16, and the order in which the parallax images are arranged may not be as shown in FIG. Absent.
このようにして多重化された多重化画像を圧縮・伸長する方法については、図1に示した第1の実施形態と同様な方法により行われるため、第1の実施形態の構成を示した図1を用いて本実施形態の以降の動作について説明する。 The method for compressing / decompressing the multiplexed image multiplexed in this way is performed by the same method as that of the first embodiment shown in FIG. 1, and is a diagram showing the configuration of the first embodiment. 1 will be used to explain the subsequent operation of the present embodiment.
立体画像多重化部により多重化された画像は多重化画像圧縮部105において圧縮されるが、その際求められる動きベクトル情報は、動きベクトル分解部106によりオフセットベクトルとローカル動きベクトルとに分解され、動画ストリーム中に挿入される。圧縮された立体画像及び平面画像は送信・記録部107によって1本のストリームとして送信あるいは記録される。
The image multiplexed by the stereoscopic image multiplexing unit is compressed by the multiplexed
立体画像伸長装置20では、圧縮された立体画像及び平面画像は、受信・再生部108によって1本のストリームとして受信あるいは再生され、多重化画像伸長部109において伸長されるが、その際、動きベクトル合成部110において受信したローカル動きベクトルとオフセットベクトルから1本の動きベクトルが合成され、合成された動きベクトル情報を用いて多重化画像を復元する。伸長された多重化画像は、立体画像分離部111において第1眼画像〜第N眼画像に分離される。N眼立体表示を行う場合は第1眼画像〜第N眼画像のそれぞれの第1列、第N+1列、第2N+1列・・・を取り出して1列毎に配置し、立体ディスプレイに表示する。平面表示を行う場合は第1眼画像〜第N眼画像のうちの任意の1枚をそのまま平面ディスプレイに表示する。k眼立体表示(2≦k<N)を行う場合は、第1眼画像〜第k眼画像のそれぞれの第1列、第k+1列、第2k+1列・・・を取り出して1列毎に配置し、立体ディスプレイに表示する。
In the stereoscopic
本実施形態では、N枚の視差画像がすべて同じ大きさ・解像度を有しているため、多重化画像圧縮部105における多重化画像の符号化方法、動きベクトル分解方法及び分解されたベクトルの符号化方法、多重化画像の復号化方法、オフセットベクトル及びローカル動きベクトルの復号化方法については、第1の実施形態と同様の方法により実施することができる。但し、ユーザデータ部に、第1の実施形態において挿入されるフラグに加えて、N枚の視差画像がすべて高解像度(原画を間引いていない)であることを示すフラグが挿入される点が異なる。
In this embodiment, since all the N parallax images have the same size and resolution, the multiplexed
(第5の実施形態)
次に、本発明の第5の実施形態について説明する。上記第1〜第4の実施形態では、画像表示側がN眼の立体ディスプレイまたは平面ディスプレイである場合を前提としていたが、本実施形態は、kをNの約数とした場合に、画像表示側がk眼ディスプレイである場合でも表示ができるようにしたものである。
(Fifth embodiment)
Next, a fifth embodiment of the present invention will be described. In the first to fourth embodiments, it is assumed that the image display side is an N-eye stereoscopic display or a flat display. However, in this embodiment, when k is a divisor of N, the image display side is The display can be performed even in the case of a k-eye display.
本実施形態では、図1に示した第1の実施形態の立体画像伝送システムにおいて、kを3以上の整数Nの任意の約数とするとき、全てのkに対して、k眼ディスプレイに表示するために必要な全ての視差画像を入力する。例えば、N=6の場合、6の約数、すなわち1眼(平面)ディスプレイに表示するための平面画像、2眼立体ディスプレイに表示するための2枚の視差画像、3眼ディスプレイに表示するための3枚の視差画像、及び6眼ディスプレイに表示するための6枚の視差画像を、立体画像多重化部に入力する。以下の説明ではN=6の場合を用いて説明する。 In the present embodiment, in the stereoscopic image transmission system of the first embodiment shown in FIG. 1, when k is an arbitrary divisor of an integer N of 3 or more, all k are displayed on the k-eye display. All the parallax images necessary for this are input. For example, when N = 6, a divisor of 6, that is, a planar image to be displayed on a single-eye (flat) display, two parallax images to be displayed on a two-eye stereoscopic display, and to be displayed on a three-eye display These three parallax images and six parallax images to be displayed on the 6-eye display are input to the stereoscopic image multiplexing unit. In the following description, the case of N = 6 will be used.
立体画像多重化部に入力する視差画像の大きさ、視点の関係を図17に示す。立体画像多重化部においては、これらの視差画像が1枚の大きな画像に空間的に多重化される。このとき6眼ディスプレイに表示する6枚の視差画像を除いたすべての視差画像はそれぞれ、図18〜図20に示すように第6眼画像と同じ大きさを有する複数の視差部分画像に分割され、図21に示すように、全ての視差画像及び視差部分画像を合計した24枚の画像が多重化される。図18は、平面ディスプレイ用画像を複数の部分画像に分割する方法を示す図であり、図19は、2眼ディスプレイ用画像を複数の部分画像に分割する方法を示す図である。また、図20は、3眼ディスプレイ用画像を複数の部分画像に分割する方法を示す図である。 FIG. 17 shows the relationship between the size and viewpoint of the parallax image input to the stereoscopic image multiplexing unit. In the stereoscopic image multiplexing unit, these parallax images are spatially multiplexed into one large image. At this time, all the parallax images excluding the six parallax images displayed on the six-eye display are each divided into a plurality of parallax partial images having the same size as the sixth eye image as shown in FIGS. As shown in FIG. 21, 24 images obtained by summing all the parallax images and the parallax partial images are multiplexed. FIG. 18 is a diagram illustrating a method of dividing a flat display image into a plurality of partial images, and FIG. 19 is a diagram illustrating a method of dividing a binocular display image into a plurality of partial images. FIG. 20 is a diagram illustrating a method of dividing a trinocular display image into a plurality of partial images.
ここで多重化方法は、図21に示した方法以外に、縦方向に並べるのでも、横方向に並べるのでもよく、また、視差画像及び視差部分画像を並べる順番も、図に示した通りでなくて構わない。さらに、視差画像及び視差部分画像のうちで重複する画像はダミー画像で置き換えてもよい。ダミー画像がたくさんあるならば、多重化画像自体を小さくし、必要な画像のみを配置するのでもよい。例えば、図18〜図20を参照すると、1眼用第1視点第1部分画像と、2眼用第1視点第1部分画像と、3眼用第1視点第1部分画像とは、互いに重複しているので、これらのうち一つを多重化画像に配置すれば十分である。このように互いに解像度の異なる視差画像群を複数の視差部分画像に分割することで、全ての視差画像を同じ大きさでかつ空間的相関性の高い画像群とすることができる。 Here, in addition to the method shown in FIG. 21, the multiplexing method may be arranged in the vertical direction or in the horizontal direction, and the order in which the parallax images and the parallax partial images are arranged is as shown in the figure. It doesn't matter. Furthermore, an overlapping image in the parallax image and the parallax partial image may be replaced with a dummy image. If there are many dummy images, the multiplexed image itself may be made smaller and only necessary images may be arranged. For example, referring to FIGS. 18 to 20, the first viewpoint first partial image for one eye, the first partial first viewpoint image for two eyes, and the first viewpoint first partial image for three eyes overlap each other. Therefore, it is sufficient to place one of these in the multiplexed image. In this way, by dividing the parallax image group having different resolutions into a plurality of parallax partial images, all the parallax images can be made into an image group having the same size and high spatial correlation.
このようにして多重化された多重化画像を圧縮・伸長する方法については、図1に示した第1の実施形態と同様な方法により行われるため、第1の実施形態の構成を示した図1を用いて本実施形態の以降の動作について説明する。 The method for compressing / decompressing the multiplexed image multiplexed in this way is performed by the same method as that of the first embodiment shown in FIG. 1, and is a diagram showing the configuration of the first embodiment. 1 will be used to explain the subsequent operation of the present embodiment.
立体画像多重化部により多重化された画像は多重化画像圧縮部105において圧縮されるが、その際求められる動きベクトル情報は、動きベクトル分解部106によりオフセットベクトルとローカル動きベクトルとに分解され、動画ストリーム中に挿入される。圧縮された立体画像及び平面画像は送信・記録部107によって1本のストリームとして送信あるいは記録される。
The image multiplexed by the stereoscopic image multiplexing unit is compressed by the multiplexed
立体画像伸長装置20では、圧縮された多重化画像は、受信・再生部108によって1本のストリームとして受信あるいは再生され、多重化画像伸長部109において伸長されるが、その際、動きベクトル合成部110において受信したローカル動きベクトルとオフセットベクトルから1本の動きベクトルが合成され、合成された動きベクトル情報を用いて多重化画像を復元する。伸長された多重化画像は、立体画像分離部111において視差画像、及び視差部分画像に分離され、視差部分画像は図18〜図20と逆の手順により、1枚の平面画像、2枚の2眼ディスプレイ用画像、3枚の3眼ディスプレイ用画像に再構成される。そして、6眼立体表示を行う場合は6眼用第1視点画像〜6眼用第6視点画像を1列毎に配置して6眼立体ディスプレイに表示し、3眼立体表示を行う場合は3眼用第1視点画像〜3眼用第3視点画像を1列毎に配置して3眼立体ディスプレイに表示し、2眼立体表示を行う場合は2眼用第1視点画像〜2眼用第2視点画像を1列毎に配置して2眼立体ディスプレイに表示し、平面表示を行う場合は1眼(平面)用第1視点画像をそのまま平面ディスプレイに表示する。
In the stereoscopic
本実施形態では、多重化画像に多重化される視差画像及び視差部分画像の総枚数をMとするとき、多重化されるM枚画像はすべて同じ大きさ・解像度を有しており、しかもそれらは互いに空間的相関性が高いため、多重化画像圧縮部における多重化画像の符号化方法、動きベクトル分解方法及び分解されたベクトルの符号化方法、多重化画像の復号化方法、オフセットベクトル及びローカル動きベクトルの復号化方法については、第1実施形態においてNをMに置き換えた場合と同様の方法で実施することができる。但し、ユーザデータ部に挿入されるオフセットベクトル情報において、N枚の視差画像の配置順序を示すのではなく、多重化画像におけるM枚の視差画像及び視差部分画像の配置順序が挿入される点が異なる。 In this embodiment, when the total number of parallax images and parallax partial images to be multiplexed on a multiplexed image is M, all the M images to be multiplexed have the same size and resolution, and Are highly spatially correlated with each other, the multiplexed image encoding method, the motion vector decomposition method and the decomposed vector encoding method, the multiplexed image decoding method, the offset vector, and the local The motion vector decoding method can be implemented in the same manner as in the case where N is replaced with M in the first embodiment. However, in the offset vector information inserted in the user data part, the arrangement order of M parallax images and the parallax partial images in the multiplexed image is inserted instead of indicating the arrangement order of N parallax images. Different.
上記第1〜第5の実施形態では、圧縮側では、オフセットベクトルを復号化するために必要な情報、すなわちストリーム中においてオフセットベクトルが存在する位置を示すフラグ、オフセットベクトルの符号化フォーマットを示すフラグ、多重化画像内の視差画像、あるいは視差画像と平面画像、あるいは視差画像と視差部分画像の配置順序を示すフラグなどの情報を、動画ストリーム中に挿入するものとして説明した。ここでは、その一例として、ユーザデータ部などの、ユーザが任意のデータを挿入できるフィールドに挿入されるオフセットベクトル情報のフォーマットについて、図22〜図26を参照して説明する。ここでは、MPEGストリーム中にオフセットベクトルを挿入する場合の具体的な方法について説明する。 In the first to fifth embodiments, on the compression side, information necessary for decoding the offset vector, that is, a flag indicating the position where the offset vector exists in the stream, and a flag indicating the encoding format of the offset vector In the above description, information such as a parallax image in a multiplexed image, or a flag indicating the arrangement order of a parallax image and a planar image, or a parallax image and a parallax partial image is inserted into a moving image stream. Here, as an example, the format of offset vector information inserted in a field where a user can insert arbitrary data, such as a user data section, will be described with reference to FIGS. Here, a specific method for inserting an offset vector into an MPEG stream will be described.
図22に示すように、MPEGストリームは階層構造となっており、画像サイズやアスペクト比、フレーム・レートなど、ストリーム全体が共有する情報を格納するシーケンスレイヤ、複数のピクチャをまとめたGOP(Group Of Picture)レイヤ、1枚の静止画として扱うことのできるフレームまたはフィールドを示すピクチャレイヤ、マクロブロックを水平方向に帯状につなげた領域であるスライスレイヤ、16画素×16ラインの領域であり動き補償の単位であるマクロブロックレイヤ、8画素×8画素の領域でありDCT変換の単位であるブロックレイヤから構成されている。オフセットベクトル情報はMPEGの規格外のため、MPEG規格に準じるためには、任意のデータを格納できるユーザデータ部にオフセットベクトル情報を挿入すればよい。MPEGの規格上、ユーザデータ部を挿入可能な位置はシーケンスヘッダやピクチャヘッダの前後などに限られるが、例えば以下に説明する方法に従って1フレーム分のオフセットベクトル情報を挿入するためには、各ピクチャヘッダの前または後にユーザデータ部を設け、そこに格納すればよい。 As shown in FIG. 22, the MPEG stream has a hierarchical structure, a sequence layer that stores information shared by the entire stream, such as an image size, an aspect ratio, and a frame rate, and a GOP (Group Of (Picture) layer, a picture layer indicating a frame or field that can be handled as a single still image, a slice layer that is a region in which macroblocks are connected in a band in the horizontal direction, and a region of 16 pixels × 16 lines that is used for motion compensation The unit is composed of a macroblock layer, an area of 8 pixels × 8 pixels, and a block layer which is a unit of DCT conversion. Since the offset vector information is out of the MPEG standard, in order to comply with the MPEG standard, the offset vector information may be inserted into a user data portion that can store arbitrary data. According to the MPEG standard, the position where the user data portion can be inserted is limited to before and after the sequence header and the picture header. For example, in order to insert offset vector information for one frame according to the method described below, each picture A user data portion may be provided before or after the header and stored therein.
オフセットベクトル情報の先頭には、図23に示すように、オフセットベクトル情報の有無を示すフラグ31が挿入される。このフラグ31が“1”のときは、後ろに多重化画像の配置順序を示す多重化画像情報(muxed image information)32、オフセットベクトルのストリーム上での存在位置や符号化フォーマットを示すオフセットベクトル情報(offset vector information)33が挿入され、オフセットベクトルがユーザデータに存在するならば、その後ろにオフセットベクトルの符号化データオフセットベクトルデータ(offset vector data)34が続く。
As shown in FIG. 23, a
多重化画像情報32が格納されたセクションには、多重化画像における視差画像、平面画像、視差部分画像の配置順序を示すデータが格納される。多重化画像情報32の先頭には、図24に示すように、まず多重化画像がどのような画像から構成されているかを示す多重化画像構成フラグ(muxed image structure)41が格納される。このビットは例えば、
00: 多重化画像は視差画像のみから構成されている。
In the section in which the multiplexed
00: The multiplexed image is composed only of parallax images.
01: 多重化画像は視差画像と平面画像から構成されている。 01: The multiplexed image is composed of a parallax image and a planar image.
10: 多重化画像は高解像度(原画から間引いていない)の1〜N眼画像から構成されている。 10: The multiplexed image is composed of 1-N eye images with high resolution (not thinned out from the original image).
11: 多重化画像はN眼ディスプレイ用画像と、全てのkに対して、k眼ディスプレイに表示するために必要な全ての視差画像から構成されている。
のようにすればよい。さらに、上記で“01”(視差画像+平面画像)であった場合、平面画像の配置形式を示すフラグをさらに挿入する。すなわち、
0: 平面画像は分割せずにそのまま配置されている。
11: The multiplexed image is composed of an N-eye display image and all parallax images necessary for displaying on the k-eye display for all k.
Like this. Further, in the case of “01” (parallax image + planar image) as described above, a flag indicating the layout format of the planar image is further inserted. That is,
0: The planar image is arranged as it is without being divided.
1: 平面画像は複数の平面部分画像に分割されて配置されている。
のようにすればよい。次に、立体画像の最大視点数を示すNの具体的な数字であるN数42が格納される。このデータは固定長としても、可変長としてもよい。そしてその次に、多重化画像の配置を示す多重化画像配置(muxed image arrangement)サブセクション43が続く。
1: The planar image is divided into a plurality of planar partial images.
Like this. Next,
多重化画像配置サブセクション43の先頭には、図24に示すように、多重化画像が水平方向の視差画像(または平面部分画像、視差部分画像)数を示す水平部分画素数(muxed partition image number width(mW))44、垂直方向の視差画像(または平面部分画像、視差部分画像)数を示す垂直部分画素数(muxed partition image number height(mH))45が挿入される。但し、多重化画像が視差画像と平面画像から構成されており、かつ平面画像が分割されずに配置されている場合は、視差画像は横方向に1列に並べる方法しかとることができないので、上記2つのデータの代わりに平面画像と視差画像の配置関係を示す2ビットのフラグが挿入される。すなわち、
00: 平面画像は視差画像の上に配置されている。
At the beginning of the multiplexed
00: The planar image is arranged on the parallax image.
01: 平面画像は視差画像の下に配置されている。 01: The planar image is arranged below the parallax image.
10: 平面画像は視差画像の右に配置されている。 10: The planar image is arranged on the right side of the parallax image.
11: 平面画像は視差画像の左に配置されている。
とする。さらにこの場合、前記mW及びmHは、それぞれN、1に設定される。次に、多重化画像内の左上の画像ブロックから、右下のブロックへ向かって順番に配置データ(muxed img)[y][x]46が格納される。配置データ(muxed img)[y][x]46に格納されるデータは、例えば以下のように決めればよい。多重化画像に配置される視差画像、あるいは視差画像と平面部分画像、あるいは視差画像と視差部分画像、の総数がMである場合、これにダミー画像を加えたM+1種類の画像を表すのに必要な最低ビット数すなわち[log2(M-1)]+2ビットの固定長とする。例えばN=6で、多重化画像に視差画像と平面部分画像が配置されているとき、M=12となるから、以下のようにして視差画像、平面部分画像とビットの関係を決めておく。12+1は4ビットあれば表すことができるので、
0000: ダミー画像
0001: 第1眼画像
0010: 第2眼画像
0011: 第3眼画像
0100: 第4眼画像
0101: 第5眼画像
0110: 第6眼画像
0111: 第1平面部分画像
1000: 第2平面部分画像
1001: 第3平面部分画像
1010: 第4平面部分画像
1011: 第5平面部分画像
1100: 第6平面部分画像
1101〜1111: 保留
とすればよい。例として図25に示すように多重化画像が3×5=15の画像ブロックから構成されており、図25に示すように視差画、平面部分画像が配置されているとすると、図24の配置データ[0][0]46〜配置データ[2][4]46のフィールドには、
0100 1001 0010 0000 1011 1100 0110 0101 0111 0000 0000 0001 1000 1010 0011
のように符号が挿入される。
11: The planar image is arranged on the left side of the parallax image.
And Further, in this case, the mW and mH are set to N and 1, respectively. Next, arrangement data (muxed img) [y] [x] 46 is stored in order from the upper left image block in the multiplexed image toward the lower right block. The data stored in the arrangement data (muxed img) [y] [x] 46 may be determined as follows, for example. When the total number of parallax images, parallax images and planar partial images, or parallax images and parallax partial images arranged in a multiplexed image is M, it is necessary to represent M + 1 types of images including dummy images. The minimum number of bits, that is, [log 2 (M-1)] + a fixed length of 2 bits. For example, when N = 6 and when the parallax image and the planar partial image are arranged in the multiplexed image, M = 12, so the relationship between the parallax image, the planar partial image and the bit is determined as follows. Since 12 + 1 can be expressed with 4 bits,
0000: Dummy image 0001: First eye image 0010: Second eye image 0011: Third eye image 0100: Fourth eye image 0101: Fifth eye image 0110: Sixth eye image 0111: First planar partial image 1000: First 2 plane partial image 1001: 3rd plane partial image 1010: 4th plane partial image 1011: 5th plane partial image 1100: 6th plane partial image 1101-1111: What is necessary is just to hold. As an example, if a multiplexed image is composed of 3 × 5 = 15 image blocks as shown in FIG. 25 and a parallax image and a planar partial image are arranged as shown in FIG. 25, the arrangement shown in FIG. In the fields of data [0] [0] 46 to arrangement data [2] [4] 46,
0100 1001 0010 0000 1011 1100 0110 0101 0111 0000 0000 0001 1000 1010 0011
A code is inserted as follows.
オフセットベクトル情報33のセクションには、図26に示すように、オフセットベクトルの符号化フォーマットやストリーム中での挿入位置を示すデータが格納される。オフセットベクトル情報33の先頭には、図26に示すように、符号化フォーマットを示すオフセットベクトル符号化フォーマットフラグ(offset vector format)47が挿入される。このフラグは、以下のような意味をもつ。
In the section of the offset
00: オフセットベクトルを表す符号は固定長符号化(constant length coding: CLC)されており、ランレングス符号化されていない。 00: The code representing the offset vector is constant length coding (CLC), and is not run-length coded.
01:オフセットベクトルを表す符号は可変長符号化(variable length coding: VLC)されており、ランレングス符号化されていない。 01: The code representing the offset vector is variable length coding (VLC) and is not run-length coded.
10:オフセットベクトルを表す符号は固定長符号化(constant length coding: CLC)されており、ランレングス符号化されている。 10: The code representing the offset vector is fixed length coding (CLC) and run-length coded.
11:オフセットベクトルを表す符号は可変長符号化(variable length coding: VLC)されており、ランレングス符号化されている。
次に、オフセットベクトル符号のストリーム中での存在位置を示すオフセットベクトル格納位置フラグ(offset vector location)48が挿入される。このオフセットベクトル格納位置フラグ48は、例えば
00: オフセットベクトル符号はユーザデータ部に挿入されている。
11: The code representing the offset vector is variable length coding (VLC) and run-length coded.
Next, an offset vector storage position flag (offset vector location) 48 indicating the position of the offset vector code in the stream is inserted. In the offset vector
01: オフセットベクトル符号はマクロブロックヘッダ部に挿入されている。 01: The offset vector code is inserted in the macroblock header part.
10:オフセットベクトル符号は動きベクトル符号のすぐ後ろに挿入されている。 10: The offset vector code is inserted immediately after the motion vector code.
11:オフセットベクトル符号は動きベクトル符号のすぐ後ろに挿入されている。
という意味をもつ。ここで、上記フラグが“00”以外(ユーザデータ部以外)の場合は、ランレングス符号化することはできないので、オフセットベクトル符号化フォーマットフラグ47の上位1ビットは強制的に“0”にされる。次に、オフセットベクトル符号化フォーマットフラグ47で、ランレングス符号化されている(=“10”または“11”)場合は、ランレングス符号化に関する付加情報が挿入される。オフセットベクトルレングス符号化フォーマットフラグ(offset vector length format)49は、オフセットベクトルの連続する数を表す符号のフォーマットを示すフラグで、以下のような意味をもつ。
11: The offset vector code is inserted immediately after the motion vector code.
It has the meaning. Here, when the flag is other than “00” (other than the user data portion), run-length encoding cannot be performed, so the upper 1 bit of the offset vector
0: オフセットベクトルの連続数を表す符号は、固定長符号化(CLC)されている。 0: The code representing the number of consecutive offset vectors is fixed-length coded (CLC).
1: オフセットベクトルの連続数を表す符号は、可変長符号化(VLC)されている。 1: The code representing the number of consecutive offset vectors is variable length coded (VLC).
次に、ランレングス符号化の付加情報として、オフセットベクトルのランレングス符号の区切りの単位(周期)を示すオフセットベクトルランレングス周期フラグ(offset vector RL separate period)50が挿入される。フラグの意味は以下のとおりである。 Next, an offset vector run length period flag (offset vector RL separate period) 50 indicating the unit (period) of the offset vector run length code is inserted as additional information of run length coding. The meanings of the flags are as follows.
00:オフセットベクトルのランレングス符号はピクチャ単位で区切られている。 00: The run length code of the offset vector is divided in units of pictures.
01:オフセットベクトルのランレングス符号はスライス単位で区切られている。 01: The run-length code of the offset vector is divided in units of slices.
10:オフセットベクトルのランレングス符号はブロック画像(視差画像または)単位で区切られている。 10: The run-length code of the offset vector is divided in units of block images (parallax images or).
11: 保留
次に、オフセットベクトルデータ34のセクションには、図27に示すように、オフセットベクトルの符号化データが格納される。このセクションでは、オフセットベクトル情報33セクションのオフセットベクトル符号化フォーマットフラグ47の値によって、格納される形式が異なる。
11: Hold Next, as shown in FIG. 27, the offset
ランレングス符号化されていない場合のオフセットベクトルデータ34の構成を図27(a)に示し、ランレングス符号化されている場合のオフセットベクトルデータ34の構成を図27(b)に示す。
FIG. 27A shows the configuration of the offset
まず、ランレングス符号化されていない場合、図27(a)に示すように、オフセットベクトルを示す固定長または可変長の符号化データ51が並ぶ。データの並び順は、図28に示すような左上のマクロブロックから右下のマクロブロックへ向かう順番となる。また、符号の意味やビット数は、第1の実施形態及び図6、図7に示した方法に従う。一方、ランレングス符号化されている場合は、図27(b)に示すように、オフセットベクトルの値(run)54と、その連続する数(length)55が、それぞれ固定長、可変長のどちらかで格納される。データの並び順は図28に従う。ランレングス符号の終端には、終端であることを示すランレングスエンドコード(run-length end code)56が格納される。
First, when run-length encoding is not performed, as shown in FIG. 27A, fixed-length or variable-length encoded
オフセットベクトル符号がユーザデータ以外の位置にある場合、例えばマクロブロックヘッダ部や動きベクトル符号の前後にある場合は、ランレングス符号化は行われず、該当マクロブロックにおけるオフセットベクトル符号が、固定長符号または可変長符号により挿入される。 When the offset vector code is located at a position other than the user data, for example, before or after the macroblock header part or the motion vector code, run-length encoding is not performed, and the offset vector code in the corresponding macroblock is a fixed-length code or Inserted with variable length code.
ここまでに説明した第1〜第5の実施形態において、多重化画像圧縮部10、30及び多重化画像伸張部20、40として、MPEG規格などの動画像圧縮規格に準拠した既存の平面動画用エンコーダ・デコーダをほとんどそのまま用いることができる。この場合、多重化画像圧縮部10、30において圧縮されるストリームはMPEG規格に準拠したストリームであり、オフセットベクトルを表す符号は、動画ストリーム中のユーザデータ部、ヘッダ部のいずれかまたは両方に挿入され、前記オフセットベクトルが存在する位置を示すフラグ、及び、オフセットベクトルの符号化フォーマットを示すフラグ、及び、多重化画像内の視差画像、あるいは視差画像と平面画像、あるいは視差画像と視差部分画像の配置順序を示すフラグは、ユーザデータ部に挿入される。多重化画像伸長部20、40においては、動画ストリームはMPEG規格に従って復号化されるとともに、オフセットベクトルは第1〜第5の実施形態に示した方法で復号化される。このように、既存の動画用エンコーダ・デコーダをほとんどそのまま用いることができるため、低コストでかつ効率のよい立体画像の伝送が可能となる。
In the first to fifth embodiments described so far, the multiplexed
また、図には示されていないが、本発明の第1〜第5の実施形態の立体画像圧縮装置10、30および立体画像伸長装置20、40は、上記で説明した立体画像圧縮方法および立体画像伸長方法を実行するためのプログラムを記録した記録媒体を備えている。この記録媒体は磁気ディスク、半導体メモリまたはその他の記録媒体であってもよい。このプログラムは、記録媒体から立体画像圧縮装置10、30および立体画像伸長装置20、40に読み込まれ、立体画像圧縮装置10、30および立体画像伸長装置20、40の動作を制御する。具体的には、立体画像圧縮装置10、30および立体画像伸長装置20、40内のCPUがこのプログラムの制御により立体画像圧縮装置10、30および立体画像伸長装置20、40のハードウェア資源に特定の処理を行うように指示することにより上記の処理が実現される。
Although not shown in the figure, the stereoscopic
さらに、上記第1〜第5の実施形態では、立体画像圧縮装置と立体画像伸長装置からなる立体画像伝送システムを用いて説明しているが、本発明は伝送する画像が立体画像である場合に限定されるものではなく、所定の対象物を複数の視点から撮影した多視点画像を伝送する場合にも同様に適用することができるものである。また、立体画像も多視点画像に含まれるため、この場合には、立体画像圧縮装置および立体画像伸長装置は、多視点画像圧縮装置および多視点画像伸長装置に対応し、立体画像伝送システムは、多視点画像伝送システムに対応する。また、立体画像圧縮方法および立体画像伸長方法は、多視点画像圧縮方法および多視点画像伸長方法に対応し、立体画像伝送方法は、多視点画像伝送方法に対応する。 Further, in the first to fifth embodiments described above, a stereoscopic image transmission system including a stereoscopic image compression device and a stereoscopic image decompression device has been described. However, in the present invention, when an image to be transmitted is a stereoscopic image. The present invention is not limited, and the present invention can be similarly applied when transmitting a multi-viewpoint image obtained by photographing a predetermined object from a plurality of viewpoints. Further, since the stereoscopic image is also included in the multi-viewpoint image, in this case, the stereoscopic image compression device and the stereoscopic image expansion device correspond to the multi-viewpoint image compression device and the multi-viewpoint image expansion device. Supports multi-viewpoint image transmission system. In addition, the stereoscopic image compression method and the stereoscopic image expansion method correspond to the multi-view image compression method and the multi-view image expansion method, and the stereoscopic image transmission method corresponds to the multi-view image transmission method.
次に、本発明の一実施例について図面を参照して詳細に説明する。
立体画像の最も単純なものは、複数の多視点画像が右目画像と左目画像の2つの視差画像からなるものであり、またこの2つの画像に右目画像または左目画像のいずれかを水平方向に2倍の解像度とした追加画像をさらに用いるようにすれば画像表示側が平面ディスプレイの場合にも表示が可能となる。
Next, an embodiment of the present invention will be described in detail with reference to the drawings.
The simplest three-dimensional image is a plurality of multi-viewpoint images composed of two parallax images, a right-eye image and a left-eye image, and the right-eye image or the left-eye image is added to these two images in the horizontal direction. If an additional image having a double resolution is further used, the image can be displayed even when the image display side is a flat display.
本発明の具体的な実施例として、右目画像・左目画像と、左目画像を高解像度にするための追加画像を圧縮・伝送する場合について説明する。この実施例は、上記で説明した第3の実施形態においてN=2とした場合に等しく、右目画像が第1眼画像、左目画像が第2眼画像、追加画像が第1平面部分画像に相当する。 As a specific embodiment of the present invention, a case will be described in which a right-eye image / left-eye image and an additional image for making the left-eye image high-resolution are compressed and transmitted. This example is equivalent to the case where N = 2 in the third embodiment described above. The right eye image corresponds to the first eye image, the left eye image corresponds to the second eye image, and the additional image corresponds to the first planar partial image. To do.
以下の説明では便宜上、右目画像、左目画像及び追加画像はそれぞれ176画素×288ラインとする。立体表示を行う場合は右目画像・左目画像を1画素毎に交互に配置し、352画素×288ラインの立体画像として視聴する。また、平面表示を行う場合は、左目画像と追加画像を1画素毎に交互に配置し、352画素×288ラインの平面画像として視聴する。 In the following description, the right eye image, the left eye image, and the additional image are each assumed to be 176 pixels × 288 lines for convenience. When performing stereoscopic display, the right-eye image and the left-eye image are alternately arranged for each pixel, and viewed as a stereoscopic image of 352 pixels × 288 lines. In the case of performing planar display, the left-eye image and the additional image are alternately arranged for each pixel and viewed as a planar image of 352 pixels × 288 lines.
右目画像・左目画像・追加画像は図1の立体画像多重化部104に入力され、図29のように1枚の大きな画像に多重化される。多重化方法は、縦方向でも横方向に並べるのでもよいが、ここでは便宜上、横方向に並べることにする。すなわち、528画素×288ラインの多重化画像に多重化される。
The right-eye image, left-eye image, and additional image are input to the stereoscopic
次に、図4に示した多重化画像圧縮部105における動作について説明する。まず、多重化画像圧縮部105における動きベクトル検出部304においては、予測メモリ303に記憶されている過去あるいは未来の画像を参照し、マクロブロック単位でのブロックマッチングが行われ、動きベクトルが検出される。ここで、図30に示すように、一つの符号化対象ブロックに対し、参照画像内には3箇所の類似ブロックがあることがわかる。そのため、まず3つの類似ブロック近傍においてそれぞれ予測誤差(たとえば、符号化対象ブロックと参照ブロックとの差分自乗和)が最小となる箇所を検出し、求めた3箇所の類似ブロックのうちで最も予測誤差が小さいブロックを選択すればよい。このようにして求められた動きベクトルは、動きベクトル分解部106においてローカル動きベクトルとオフセットベクトルに分解される。ローカル動きベクトルは、既存の動画符号化規格の動きベクトルの符号化方法に従って符号化する。オフセットベクトルの符号化方法については、例えば符号化対象ブロックが左目画像にあり、選択されたブロックが右目画像内にある場合は、図31のオフセットベクトルテーブルに従うと、オフセットベクトルを表す符号は“10”となることがわかる。このようにして、符号化対象フレーム内の全てのマクロブロックに対して動きベクトル検出、動きベクトル分解を行う。その他多重化画像圧縮部105における動作については、上記の第1の実施形態などで説明した通りであるので、省略する。
Next, the operation in the multiplexed
上記で求められたオフセットベクトル情報及びオフセットベクトルに関する種々の情報はユーザデータ部に挿入される。以下、上記で説明した例に基づいて、オフセットベクトルに関する情報を挿入する方法について説明する。ここでは、オフセットベクトル情報は全てユーザデータ部に挿入されるものとし、オフセットベクトル符号は図31のように可変長符号化されており、ランレングス符号化は行われないものとして説明する。また、多重化画像内における視差画像の配置は図30のようになっているものとする。 The offset vector information obtained above and various information related to the offset vector are inserted into the user data section. Hereinafter, a method for inserting information related to an offset vector will be described based on the example described above. Here, it is assumed that all the offset vector information is inserted into the user data part, the offset vector code is variable-length encoded as shown in FIG. 31, and no run-length encoding is performed. In addition, it is assumed that the arrangement of parallax images in the multiplexed image is as shown in FIG.
まず、多重化画像情報セクションの多重化画像構成フラグについては、本実施例では視差画像と平面画像から構成されているので、“01”となる。さらに、そのすぐ後に平面画像の配置形式を示すフラグとして、平面画像が複数の平面部分画像に分割されて配置されることを示す符号”1"が挿入される。次にN数は、最大視点数を示すので2が入る。このフィールドを8ビット固定長とすれば、“00000010”となる。 First, the multiplexed image configuration flag of the multiplexed image information section is “01” because it is composed of a parallax image and a planar image in this embodiment. Further, immediately after that, a code “1” indicating that the plane image is divided into a plurality of plane partial images is inserted as a flag indicating the arrangement format of the plane image. Next, N is 2 because it indicates the maximum number of viewpoints. If this field has a fixed length of 8 bits, it becomes “00000010”.
続いて多重化画像配置サブセクション43の先頭の水平部分画像数44、垂直部分画像数45には、それぞれ“3”、“1”が入る。これらも8ビット固定長とすると、それぞれ“00000011”、“00000001”となる。次に、多重化画像配置データ46には、多重化画像内の各画像ブロックにどの視差画像が配置されているかを示すデータが格納される。全画像数は3であるから、これらを区別するためには2ビットあれば十分である。そうすると、多重化画像の符号は以下のようになる。
00:保留
01:右目画像
10:左目画像
11:左目用追加画像
従って図30の配置をもとにすると、多重化画像配置データ46には、
01 10 11
が挿入される。
Subsequently, “3” and “1” are entered in the number of horizontal
00: Hold 01: Right eye image 10: Left eye image 11: Additional image for left eye Therefore, based on the arrangement of FIG.
01 10 11
Is inserted.
続いて、オフセットベクトル情報33の先頭には符号化フォーマットを示すオフセットベクトル符号化フォーマットフラグ47が挿入される。オフセットベクトルは可変長符号化されおり、ランレングス符号化は行われないので、このオフセットベクトル符号化フォーマットフラグ47には“01”を挿入する。次に、オフセットベクトル情報が格納されている場所を示すオフセットベクトル格納位置フラグ48には、オフセットベクトル情報が全てユーザデータに格納されていることを示す“00”が挿入される。ランレングス符号化は行わないので、ランレングス符号化に関する情報であるオフセットベクトル・レングス符号化フォーマットフラグ49及びオフセットベクトル・ランレングス周期フラグ50は挿入されず、スキップされる。続くオフセットベクトルデータ34のセクションには、動きベクトル分解部106で求められた全マクロブロックのオフセットベクトル符号が挿入される。
Subsequently, an offset vector
例として、多重化画像内の第1行目のはじめの15個のマクロブロックにおけるオフセットベクトルが図32のように求められた場合、オフセットベクトルデータ34セクションには、図31のテーブルに従い、
0 0 10 11 0 11 0 0 0 10 10 0 11 11 10
の順に挿入される。ここで、左右及び追加画像の水平画素数はそれぞれ176画素であり、各画像の水平方向には176/16=11個のマクロブロックが入るため、左から12番目のマクロブロックで符号化対象画面が右目画像から左目画像に切り替わることにより、11番目と12番目のマクロブロックにおけるオフセットベクトルが同じ左目画像を参照していても符号は異なることに注意されたい。さらに第2行目以降も同様にしてオフセットベクトルデータが挿入される。
As an example, when the offset vectors in the first 15 macroblocks in the first row in the multiplexed image are obtained as shown in FIG. 32, the offset
0 0 10 11 0 11 0 0 0 10 10 0 0 11 11 10
Are inserted in this order. Here, the number of horizontal pixels of each of the left and right images and the additional image is 176 pixels, and 176/16 = 11 macroblocks are included in the horizontal direction of each image. Note that, by switching from the right-eye image to the left-eye image, the signs are different even if the offset vectors in the 11th and 12th macroblocks refer to the same left-eye image. Further, offset vector data is inserted in the same manner from the second row.
多重化画像伸長部109での動作は、まず、多重化画像伸張部109に入力された1本の動画ストリームが、分離部803において差分画像データ804、オフセットベクトル情報805、動きベクトル情報806とに分離される。
In the operation of the multiplexed
次に動きベクトル合成部110においては、オフセットベクトル情報及びローカル動きベクトル情報をもとに、1本の動きベクトル811が合成されるが、合成するためにはオフセットベクトル及びローカル動きベクトルを復号する必要がある。
Next, in the motion
まずローカル動きベクトルは、動画ストリーム中の動きベクトル符号を検出し、これをローカル動きベクトル情報として取得する。ローカル動きベクトルの復号化方法については、種々の動画像規格に定められている動きベクトルの復号化方式に従う。 First, as the local motion vector, a motion vector code in the moving image stream is detected and acquired as local motion vector information. The local motion vector decoding method follows a motion vector decoding method defined in various video standards.
次に、オフセットベクトルを復号するためには、多重化画像の配置順序やオフセットベクトルの符号化フォーマットなどの情報が必要なので、ユーザデータ部に挿入されているオフセットベクトルに関する情報を復号してから、オフセットベクトル符号自体を復号する。本実施例では、多重化画像情報32より復号した情報から、視点数は2で、多重化画像は左目画像・右目画像・左目用追加画像の3枚から構成されており、それらは多重化画像内左から右目画像・左目画像・追加画像の順で配置されていることがわかる。また、オフセットベクトル情報33より復号した情報から、オフセットベクトルは可変長符号化されており、ランレングス符号化は行われていないことがわかる。これらの情報があれば、フレーム内の全マクロブロックにおけるオフセットベクトル符号を一意に復号することができ、オフセットベクトルとローカル動きベクトルを合成してもとの動きベクトルに復元することができる。
Next, in order to decode the offset vector, since information such as the arrangement order of the multiplexed images and the encoding format of the offset vector is necessary, after decoding the information about the offset vector inserted in the user data portion, The offset vector code itself is decoded. In the present embodiment, from the information decoded from the multiplexed
この合成された動きベクトル情報を用いて、動き補償部812において、予測メモリ813に記憶されている過去あるいは未来の参照画像から予測画像が形成される。そして、予測画像と前記差分画像との和をとることによって、多重化画像が復元される。その他109多重化画像伸長部における動作については、第1実施形態などで説明した通りであるので、省略する。
Using the synthesized motion vector information, the
そして、伸長された多重化画像は多重化画像分離部111において、右目画像・左目画像・左目用追加画像に分離され出力される。
The expanded multiplexed image is separated into a right-eye image, a left-eye image, and a left-eye additional image by the multiplexed
以上述べた方法により、右目画像・左目画像・追加画像相互の空間的相関性を利用し、かつ動きベクトル符号量の増加を抑えることができ、立体画像及び高解像度平面画像を効率よく圧縮伝送することが可能になる。 By the method described above, the spatial correlation between the right eye image, the left eye image, and the additional image can be used, and an increase in the amount of motion vector code can be suppressed, and a stereoscopic image and a high-resolution planar image are efficiently compressed and transmitted. It becomes possible.
最後に、従来技術による空間配置法により立体画像を圧縮した場合と、本発明によるオフセット空間配置法により立体画像を圧縮した場合との動きベクトルの符号量の比較をシミュレーションした結果を図33のグラフに示す。ここでは、下記のような条件に基づいてシミュレーションを行った。
(1)使用した映像シーケンス
シーケンス名:立体映像標準チャート No.9: Amusement Park
画像サイズ:原画像は右目画像・左目画像ともHDTVサイズ(1920画素×1035ライン)だが、リサンプリング・トリミング処理を施して右目画像・左目画像・追加画像をそれぞれ160画素×240とした。
フレーム数:450フレーム(30[フレーム/秒]×[15秒])
(2)エンコード条件
使用したエンコーダ:MPEG-2 TM-5(Test Model 5)エンコーダ
(テストモデルとは、エンコーダやデコーダ開発の際などに性能比較の対象として、映像業界で標準的に用いられているコーデック(エンコーダ+デコーダのセット)である。)
画像劣化:ビットレート固定ではなく、DCT係数量子化値(画像の劣化度合いとほぼ等しい)を一定にした。ただし、エンコード条件は基本的にDCT係数符号量のみに影響し、動きベクトル符号量はシーケンスの複雑度(動きの大小等)に依存するため、エンコード条件の違いによる動きベクトル符号量の違いはほとんどないといってよい。
動きベクトル検出アルゴリズム:単純ブロックマッチング(差分絶対値和最小点探索)
(3)立体画像圧縮アルゴリズム
オフセット空間配置法(本実施形態)、空間配置法(従来技術)の2種類
オフセット空間配置法:本実施形態に従って動きベクトルをローカル動きベクトルとオフセットベクトルとに分解する方法。
空間配置法:オフセット空間配置法において動きベクトルを分解しない方法。
(4)オフセットベクトル符号化条件
符号化テーブル:全ページ図31のテーブルを使用する。
ランレングス符号化:符号化しない。
Finally, a graph of FIG. 33 shows the result of simulating the comparison of the coding amount of the motion vector when the stereoscopic image is compressed by the spatial arrangement method according to the prior art and when the stereoscopic image is compressed by the offset space arrangement method according to the present invention Shown in Here, the simulation was performed based on the following conditions.
(1) Video sequence name used: 3D standard chart No.9: Amusement Park
Image size: The original image is HDTV size (1920 pixels × 1035 lines) for both the right-eye image and the left-eye image, but resampling / trimming processing is performed to make the right-eye image, left-eye image, and
Number of frames: 450 frames (30 [frames / second] x [15 seconds])
(2) Encoder used for encoding conditions: MPEG-2 TM-5 (Test Model 5) encoder (Test model is a standard used in the video industry as a target for performance comparison when developing encoders and decoders, etc.) Codec (encoder + decoder set).)
Image degradation: The bit rate was not fixed, but the DCT coefficient quantization value (approximately equal to the degree of image degradation) was made constant. However, since the encoding condition basically affects only the DCT coefficient code amount, and the motion vector code amount depends on the complexity of the sequence (such as the magnitude of motion), there is little difference in the motion vector code amount due to the difference in the encoding condition It can be said that there is no.
Motion vector detection algorithm: simple block matching (difference absolute value sum minimum point search)
(3) Stereoscopic image compression algorithm Two types of offset space arrangement methods: offset space arrangement method (this embodiment) and space arrangement method (prior art): a method of decomposing a motion vector into a local motion vector and an offset vector according to this embodiment .
Spatial layout method: A method that does not decompose motion vectors in the offset spatial layout method.
(4) Offset vector coding condition coding table: The table of FIG. 31 for all pages is used.
Run-length encoding: No encoding.
上記のような条件に行われた図33のシミュレーション結果では、オフセット空間配置法と空間配置法により符号化した場合の、1〜450の各フレームにおける動きベクトル発生符号量が示されている。図33中の実線は空間配置法における動きベクトル符号量V(オフセットベクトル符号量はゼロ)、1点破線はオフセット空間配置法の動きベクトル符号量(ローカル動きベクトル符号量(Vl)+オフセットベクトル符号量(Vo))を示している。また、破線はオフセット空間配置法におけるローカル動きベクトル符号量(Vl)のみの符号量を示している。従って、一点破線と破線の間がオフセットベクトル符号量(Vo)に相当する。このグラフより、動きベクトル分解により動きベクトル符号量を効果的に削減することが可能である(最大で19%)ことが確認できる。動きベクトル分解によりオフセットベクトルの符号量はオーバーヘッドとなるが、オフセット空間配置法において(ローカル)動きベクトルを短くすることによる符号量削減効果が大きい(実線vs一点破線の比較)ため、トータル比較でも空間配置法の符号量を上回ることはなかった。尚、オフセットベクトル符号量はランレングス符号化などによりさらに削減できる可能性がある。 The simulation result of FIG. 33 performed under the above conditions shows the motion vector generation code amount in each frame of 1 to 450 when encoding is performed by the offset space arrangement method and the space arrangement method. A solid line in FIG. 33 indicates a motion vector code amount V (offset vector code amount is zero) in the spatial arrangement method, and a one-dot broken line indicates a motion vector code amount (local motion vector code amount (V l ) + offset vector) in the offset space arrangement method. Code amount (V o )) is shown. A broken line indicates a code amount of only the local motion vector code amount (V l ) in the offset space arrangement method. Therefore, the area between the dashed line and the broken line corresponds to the offset vector code amount (V o ). From this graph, it can be confirmed that the motion vector code amount can be effectively reduced by the motion vector decomposition (19% at the maximum). Although the amount of code of the offset vector becomes overhead due to the motion vector decomposition, the effect of reducing the amount of code by shortening the (local) motion vector in the offset space arrangement method is large (comparison of solid line vs. dashed line). It did not exceed the code amount of the placement method. There is a possibility that the offset vector code amount can be further reduced by run-length encoding or the like.
10 立体画像圧縮装置
20 立体画像伸長装置
30 立体画像圧縮装置
31 フラグ
32 多重化画像情報
33 オフセットベクトル情報
34 オフセットベクトルデータ
40 立体画像伸長装置
41 多重化画像構成フラグ
42 N数
43 多重化画像配置サブセクション
44 水平部分画素数
45 垂直部分画素数
46 配置データ
47 オフセットベクトル符号化フォーマットフラグ
48 オフセットベクトル格納位置フラグ
49 オフセットベクトルレングス符号化フォーマットフラグ
50 オフセットベクトルランレングス周期フラグ
51 符号化で
54 オフセットベクトルの値
55 オフセットベクトルの値が連続する数
56 ランレングスエンドコード
1011〜101N 第1〜第N眼画像入力
104 立体画像多重化部
105 多重化画像圧縮部
106 動きベクトル分解部
107 送信・記録部
108 受信・再生部
109 多重化画像伸長部
110 動きベクトル合成部
111 立体画像分離部
1121〜112N 第1〜第N眼画像出力
303 予測メモリ
304 動きベクトル検出部
305 動きベクトル
306 動き補償部
308 ローカル動きベクトル
309 オフセットベクトル
310 DCT変換部
311 量子化部
312 可変長符号化部
313 多重化部
315 逆量子化部
316 逆DCT変換部
401 符号化対象ブロック
403 参照ブロック
405 動きベクトル
406 オフセットブロック
407 オフセットベクトル
408 ローカル動きベクトル
702 連続するブロック
703 動きベクトル
704 参照ブロック
803 分離部
804 差分画像データ
805 オフセットベクトル
806 ローカル動きベクトル
807 可変長復号化部
808 逆量子化部
809 逆DCT変換部
810 動きベクトル合成部
811 動きベクトル
812 動き補償部
813 予測メモリ
DESCRIPTION OF SYMBOLS 10 Stereoscopic image compression apparatus 20 Stereoscopic image expansion apparatus 30 Stereoscopic image compression apparatus 31 Flag 32 Multiplexed image information 33 Offset vector information 34 Offset vector data 40 Stereoscopic image expansion apparatus 41 Multiplexed image structure flag 42 N number 43 Multiplexed image arrangement | positioning sub Section 44 Number of horizontal partial pixels 45 Number of vertical partial pixels 46 Arrangement data 47 Offset vector encoding format flag 48 Offset vector storage position flag 49 Offset vector length encoding format flag 50 Offset vector run length period flag 51 Coding 54 Offset vector number 56 runlength end code values of 55 offset vector is continuous 101 1 to 101 N first to N-eye image input 104 stereoscopic image multiplexing unit 105 multiplex Kaga Compression unit 106 the motion vector decomposition unit 107 transmits and recording unit 108 the reception and reproduction unit 109 multiplexes the image decompression unit 110 motion vector synthesis unit 111 stereoscopic image separation unit 112 1 to 112 N first to N-eye image output 303 prediction memory 304 Motion vector detection unit 305 Motion vector 306 Motion compensation unit 308 Local motion vector 309 Offset vector 310 DCT conversion unit 311 Quantization unit 312 Variable length encoding unit 313 Multiplexing unit 315 Inverse quantization unit 316 Inverse DCT conversion unit 401 Encoding target Block 403 Reference block 405 Motion vector 406 Offset block 407 Offset vector 408 Local motion vector 702 Successive block 703 Motion vector 704 Reference block 803 Separation unit 804 Difference image data 805 Offset vector 806 Local motion vector 807 Variable length decoding unit 808 Inverse quantization unit 809 Inverse DCT conversion unit 810 Motion vector synthesis unit 811 Motion vector 812 Motion compensation unit 813 Prediction memory
Claims (29)
前記複数の多視点画像を画像空間的に多重化して1枚の多重化画像を生成する多視点画像多重化手段と、
前記多重化画像の所定領域を動きベクトルサーチ範囲として、符号化を行おうとする多重化画像の符号化対象ブロックと類似する類似ブロックを、参照画像とした多重化画像を構成するブロックのうちから最も予測効率が高くなるように選択することにより動きベクトルを検出する動きベクトル検出手段と、
前記動きベクトル検出手段により検出された動きベクトルを、前記選択されたブロックを含む多視点画像内において符号化対象ブロックの多視点画像内でのローカル座標と同一の座標に位置するオフセットブロックに至るオフセットベクトルと、該オフセットブロックから前記選択されたブロックに至るローカル動きベクトルとに分解する動きベクトル分解手段と、
前記動きベクトル分解手段により分解されたローカル動きベクトルおよびオフセットベクトルを前記動画ストリームに多重化して出力する多重化手段とを有する多視点画像圧縮装置。 A multi-viewpoint image that compresses a data amount by decomposing and encoding a plurality of multi-viewpoint images obtained by photographing a predetermined object from a plurality of viewpoints into a motion vector and a difference image and outputting them as a moving image stream A compression device,
Multi-view image multiplexing means for multiplexing the plurality of multi-view images in an image space to generate one multiplexed image;
A predetermined block of the multiplexed image is set as a motion vector search range, and a similar block similar to the encoding target block of the multiplexed image to be encoded is selected as a reference image from among the blocks constituting the multiplexed image. Motion vector detection means for detecting a motion vector by selecting so as to increase the prediction efficiency;
An offset from the motion vector detected by the motion vector detection means to an offset block located at the same coordinate as the local coordinate in the multi-view image of the encoding target block in the multi-view image including the selected block Motion vector decomposing means for decomposing the vector into local motion vectors from the offset block to the selected block;
A multi-viewpoint image compression apparatus comprising: a multiplexing unit that multiplexes and outputs the local motion vector and offset vector decomposed by the motion vector decomposing unit to the moving image stream.
符号化対象ブロックが前記多重化画像の立体画像内にあるか平面画像内にあるかを判別し、符号化対象ブロックが立体画像内にある場合には、前記動きベクトル検出手段により検出された動きベクトルを前記動きベクトル分解手段に出力し、符号化対象ブロックが平面画像内にある場合には、前記動きベクトル検出手段により検出された動きベクトルを前記多重化手段に出力する判別手段をさらに備えた請求項1記載の多視点画像圧縮装置。 The plurality of multi-viewpoint images are composed of a plurality of stereoscopic images and a planar image having a higher resolution than the stereoscopic images,
It is determined whether the encoding target block is in the stereoscopic image or the planar image of the multiplexed image, and when the encoding target block is in the stereoscopic image, the motion detected by the motion vector detecting means A determination unit that outputs a vector to the motion vector decomposing unit and outputs a motion vector detected by the motion vector detecting unit to the multiplexing unit when the encoding target block is in a plane image; The multi-viewpoint image compression apparatus according to claim 1.
前記オフセットベクトルを表す符号は、該MPEG規格に準拠したストリーム中のユーザデータ部、ヘッダ部のいずれかまたは両方に挿入され、
前記オフセットベクトルが存在する位置を示すフラグ、及び、前記オフセットベクトルの符号化フォーマットを示すフラグ、及び、多重化画像内の画像の配置順序を示すフラグは、前記MPEG規格に準拠したストリーム中のユーザデータ部に挿入される請求項1から8のいずれか1項記載の多視点画像圧縮装置。 The video stream compressed by the multi-viewpoint image compression means is a video stream that complies with the MPEG standard,
The code representing the offset vector is inserted into one or both of a user data part and a header part in a stream compliant with the MPEG standard,
The flag indicating the position where the offset vector exists, the flag indicating the encoding format of the offset vector, and the flag indicating the arrangement order of the images in the multiplexed image are a user in the stream compliant with the MPEG standard. The multi-viewpoint image compression apparatus according to any one of claims 1 to 8, wherein the multi-viewpoint image compression apparatus is inserted into a data portion.
受信した動画ストリーム中に含まれる前記ローカル動きベクトルと前記オフセットベクトルを分離する分離手段と、前記分離手段により分離されたローカル動きベクトルとオフセットベクトルから動きベクトルを合成する動きベクトル合成手段と、前記動きベクトル合成手段により合成された動きベクトルと受信した動画ストリーム中の参照画像から予測画像を形成し、該予測画像と前記動画ストリームに含まれる差分画像との和をとることにより元の多重化画像を復元する多重化画像復元手段とを有する多視点画像伸長装置。 When decomposing and encoding a multiplexed image obtained by spatially multiplexing a plurality of multi-view images obtained by photographing a predetermined object from a plurality of viewpoints into a motion vector and a difference image, A predetermined block of the multiplexed image is set as a motion vector search range, and a similar block similar to the encoding target block of the multiplexed image to be encoded is selected as a reference image from among the blocks constituting the multiplexed image. A block selected from among blocks constituting a multiplexed image in which a motion vector is detected by selecting so as to increase prediction efficiency, and the detected motion vector is used as a reference image when detecting the motion vector. In the multi-view image including the offset block that is located at the same coordinate as the local coordinate in the multi-view image of the encoding target block. Receive a moving picture stream obtained by decomposing the set vector and a local motion vector from the offset block to the selected block, and encoding and multiplexing the decomposed local motion vector and the offset vector A multi-viewpoint image decompression device that restores the original multi-viewpoint image by decompressing
Separating means for separating the local motion vector and the offset vector included in the received video stream, motion vector synthesizing means for synthesizing a motion vector from the local motion vector and the offset vector separated by the separating means, and the motion A predicted image is formed from the motion vector synthesized by the vector synthesizing unit and the reference image in the received moving image stream, and the original multiplexed image is obtained by summing the predicted image and the difference image included in the moving image stream. A multi-viewpoint image decompression device comprising multiplexed image restoration means for restoration.
多重化画像内での立体画像及び平面画像の配置順序を検出し、符号化対象ブロックが立体画像内にある場合には、前記分離手段により動画ストリームから分離された動きベクトルをローカル動きベクトルとして前記動きベクトル合成手段に出力し、符号化対象ブロックが平面画像内にある場合には、前記分離手段により動画ストリームから分離された動きベクトルを前記多重化画像復元手段に出力する判別手段をさらに備えた請求項10記載の多視点画像伸長装置。 The plurality of multi-viewpoint images are composed of a plurality of stereoscopic images and a planar image having a higher resolution than the stereoscopic images,
The arrangement order of the stereoscopic image and the planar image in the multiplexed image is detected, and when the encoding target block is in the stereoscopic image, the motion vector separated from the moving image stream by the separation means is used as the local motion vector. When the block to be encoded is in a plane image and is output to the motion vector synthesizing unit, the discriminating unit further outputs a motion vector separated from the video stream by the separating unit to the multiplexed image restoring unit. The multi-viewpoint image expansion device according to claim 10.
前記複数の多視点画像を画像空間的に多重化して1枚の多重化画像を生成する多視点画像多重化手段と、前記多重化画像の所定領域を動きベクトルサーチ範囲として、符号化を行おうとする多重化画像の符号化対象ブロックと類似する類似ブロックを、参照画像とした多重化画像を構成するブロックのうちから最も予測効率が高くなるように選択することにより動きベクトルを検出する動きベクトル検出手段と、前記動きベクトル検出手段により検出された動きベクトルを、前記選択されたブロックを含む多視点画像内において符号化対象ブロックの多視点画像内でのローカル座標と同一の座標に位置するオフセットブロックに至るオフセットベクトルと、該オフセットブロックから前記選択されたブロックに至るローカル動きベクトルとに分解する動きベクトル分解手段と、前記動きベクトル分解手段により分解されたローカル動きベクトルおよびオフセットベクトルを符号化して前記動画ストリームに多重化して出力する多重化手段とを有する多視点画像圧縮装置と、
前記多視点画像圧縮装置から受信した動画ストリーム中に含まれるローカル動きベクトルとオフセットベクトルを分離する分離手段と、前記分離手段により分離されたローカル動きベクトルとオフセットベクトルから動きベクトルを合成する動きベクトル合成手段と、前記動きベクトル合成手段により合成された動きベクトルと受信した動画ストリーム中の参照画像から予測画像を形成し、該予測画像と前記動画ストリームに含まれる差分画像との和をとることにより元の多重化画像を復元する多重化画像復元手段とを有する多視点画像伸長装置と、を備えた多視点画像伝送システム。 A plurality of multi-viewpoint images obtained by photographing a predetermined object from a plurality of viewpoints are decomposed into motion vectors and difference images, encoded and transmitted as a moving image stream, and the transmitted moving image stream is received. A multi-viewpoint image transmission system that restores the original multi-viewpoint image by decompressing
Multi-view image multiplexing means for multiplexing the plurality of multi-view images in an image space to generate one multiplexed image, and encoding using the predetermined area of the multiplexed image as a motion vector search range Motion vector detection that detects a motion vector by selecting a similar block that is similar to the encoding target block of the multiplexed image to be the highest in prediction efficiency from among the blocks that constitute the multiplexed image as a reference image And an offset block in which the motion vector detected by the motion vector detecting means is located at the same coordinate as the local coordinate in the multi-view image of the encoding target block in the multi-view image including the selected block. And the local motion vector from the offset block to the selected block. A motion vector resolution means interpreted, the multi-viewpoint image compression device having a multiplexing means for outputting the multiplexed the motion local motion vector and the offset vector decomposed by vector resolution means, encoded in the video stream,
Separation means for separating a local motion vector and an offset vector included in a video stream received from the multi-viewpoint image compression apparatus, and motion vector composition for synthesizing a motion vector from the local motion vector and the offset vector separated by the separation means And a motion vector synthesized by the motion vector synthesis means and a reference image in the received video stream, and a predicted image is formed by taking the sum of the predicted image and the difference image included in the video stream A multi-viewpoint image transmission system comprising: a multi-viewpoint image decompression device having multiplexed image restoration means for restoring multiple multiplexed images.
前記多視点画像圧縮装置は、
符号化対象ブロックが前記多重化画像の立体画像内にあるか平面画像内にあるかを判別し、符号化対象ブロックが立体画像内にある場合には、前記動きベクトル検出手段により検出された動きベクトルを前記動きベクトル分解手段に出力し、符号化対象ブロックが平面画像内にある場合には、前記動きベクトル検出手段により検出された動きベクトルを前記多重化手段に出力する第1の判別手段をさらに備え、
前記多視点画像伸長装置は、
多重化画像内での立体画像及び平面画像の配置順序を検出し、符号化対象ブロックが立体画像内にある場合には、前記分離手段により動画ストリームから分離された動きベクトルをローカル動きベクトルとして前記動きベクトル合成手段に出力し、符号化対象ブロックが平面画像内にある場合には、前記分離手段により動画ストリームから分離された動きベクトルを前記多重化画像復元手段に出力する第2の判別手段をさらに備えた請求項12記載の多視点画像伝送システム。 The plurality of multi-viewpoint images are composed of a plurality of stereoscopic images and a planar image having a higher resolution than the stereoscopic images,
The multi-viewpoint image compression apparatus includes:
It is determined whether the encoding target block is in the stereoscopic image or the planar image of the multiplexed image, and when the encoding target block is in the stereoscopic image, the motion detected by the motion vector detecting means First discriminating means for outputting a vector to the motion vector decomposing means and outputting a motion vector detected by the motion vector detecting means to the multiplexing means when the encoding target block is in a plane image. In addition,
The multi-viewpoint image decompression device includes:
The arrangement order of the stereoscopic image and the planar image in the multiplexed image is detected, and when the encoding target block is in the stereoscopic image, the motion vector separated from the moving image stream by the separation means is used as the local motion vector. A second discriminating unit that outputs to the motion vector synthesizing unit, and outputs the motion vector separated from the moving image stream by the separating unit to the multiplexed image restoring unit when the encoding target block is in the plane image; The multi-viewpoint image transmission system according to claim 12, further comprising:
前記複数の多視点画像を画像空間的に多重化して1枚の多重化画像を生成するステップと、
前記多重化画像の所定領域を動きベクトルサーチ範囲として、符号化を行おうとする多重化画像の符号化対象ブロックと類似する類似ブロックを、参照画像とした多重化画像を構成するブロックのうちから最も予測効率が高くなるように選択することにより動きベクトルを検出するステップと、
検出された前記動きベクトルを、前記選択されたブロックを含む多視点画像内において符号化対象ブロックの多視点画像内でのローカル座標と同一の座標に位置するオフセットブロックに至るオフセットベクトルと、該オフセットブロックから前記選択されたブロックに至るローカル動きベクトルとに分解するステップと、
分解された前記ローカル動きベクトルおよび前記オフセットベクトルを前記動画ストリームに多重化して出力するステップとを有する多視点画像圧縮方法。 A multi-viewpoint image that compresses a data amount by decomposing and encoding a plurality of multi-viewpoint images obtained by photographing a predetermined object from a plurality of viewpoints into a motion vector and a difference image and outputting them as a moving image stream Compression method,
Generating a single multiplexed image by multiplexing the plurality of multi-viewpoint images in an image space;
A predetermined block of the multiplexed image is set as a motion vector search range, and a similar block similar to the encoding target block of the multiplexed image to be encoded is selected as a reference image from among the blocks constituting the multiplexed image. Detecting a motion vector by selecting for high prediction efficiency;
The detected motion vector, an offset vector reaching an offset block located at the same coordinate as a local coordinate in the multi-view image of the encoding target block in the multi-view image including the selected block, and the offset Decomposing into a local motion vector from a block to the selected block;
And a step of multiplexing the decomposed local motion vector and the offset vector into the moving picture stream and outputting the multiplexed video.
符号化対象ブロックが前記多重化画像の立体画像内にあるか平面画像内にあるかを判別し、符号化対象ブロックが立体画像内にある場合には、検出された前記動きベクトルをオフセットベクトルとローカル動きベクトルに分解するステップに処理を進め、符号化対象ブロックが平面画像内にある場合には、検出された前記動きベクトルを前記動画ストリームに多重化して出力するステップをさらに備えた請求項14から16のいずれか1項記載の多視点画像圧縮方法。 The plurality of multi-viewpoint images are composed of a plurality of stereoscopic images and a planar image having a higher resolution than the stereoscopic images,
It is determined whether the encoding target block is in the stereoscopic image or the planar image of the multiplexed image, and when the encoding target block is in the stereoscopic image, the detected motion vector is set as an offset vector. 15. The processing further includes the step of decomposing into a local motion vector, and further comprising the step of multiplexing the detected motion vector into the moving picture stream and outputting when the target block to be encoded is in a planar image. 17. The multi-viewpoint image compression method according to any one of items 1 to 16.
前記オフセットベクトルを表す符号は、該MPEG規格に準拠したストリーム中のユーザデータ部、ヘッダ部のいずれかまたは両方に挿入され、
前記オフセットベクトルが存在する位置を示すフラグ、及び、前記オフセットベクトルの符号化フォーマットを示すフラグ、及び、多重化画像内の画像の配置順序を示すフラグは、前記MPEG規格に準拠したストリーム中のユーザデータ部に挿入される請求項14から18のいずれか1項記載の多視点画像圧縮方法。 The video stream compressed by the multi-viewpoint image compression means is a video stream that complies with the MPEG standard,
The code representing the offset vector is inserted into one or both of a user data part and a header part in a stream compliant with the MPEG standard,
The flag indicating the position where the offset vector exists, the flag indicating the encoding format of the offset vector, and the flag indicating the arrangement order of the images in the multiplexed image are a user in the stream compliant with the MPEG standard. The multi-viewpoint image compression method according to claim 14, wherein the multi-viewpoint image compression method is inserted into a data portion.
受信した動画ストリーム中に含まれる前記ローカル動きベクトルと前記オフセットベクトルを分離するステップと、
分離された前記ローカル動きベクトルと前記オフセットベクトルから動きベクトルを合成するステップと、
合成された前記動きベクトルと受信した動画ストリーム中の参照画像から予測画像を形成し、該予測画像と前記動画ストリームに含まれる差分画像との和をとることにより元の多重化画像を復元するステップとを有する多視点画像伸長方法。 When decomposing and encoding a multiplexed image obtained by spatially multiplexing a plurality of multi-view images obtained by photographing a predetermined object from a plurality of viewpoints into a motion vector and a difference image, A predetermined block of the multiplexed image is set as a motion vector search range, and a similar block similar to the encoding target block of the multiplexed image to be encoded is selected as a reference image from among the blocks constituting the multiplexed image. A block selected from among blocks constituting a multiplexed image in which a motion vector is detected by selecting so as to increase prediction efficiency, and the detected motion vector is used as a reference image when detecting the motion vector. In the multi-view image including the offset block that is located at the same coordinate as the local coordinate in the multi-view image of the encoding target block. Receive a moving picture stream obtained by decomposing the set vector and a local motion vector from the offset block to the selected block, and encoding and multiplexing the decomposed local motion vector and the offset vector A multi-viewpoint image decompression method that restores the original multi-viewpoint image by decompressing,
Separating the local motion vector and the offset vector included in the received video stream;
Synthesizing a motion vector from the separated local motion vector and the offset vector;
The step of forming a predicted image from the synthesized motion vector and a reference image in the received moving image stream, and restoring the original multiplexed image by taking the sum of the predicted image and the difference image included in the moving image stream A multi-viewpoint image decompression method.
多重化画像内での立体画像及び平面画像の配置順序を検出し、符号化対象ブロックが立体画像内にある場合には、動画ストリームから分離された動きベクトルを前記ローカル動きベクトルとして動きベクトルを合成するステップに処理を進め、符号化対象ブロックが平面画像内にある場合には、動画ストリームから分離された動きベクトルを用いて元の多重化画像を復元するステップに処理を進めるステップをさらに備えた請求項20記載の多視点画像伸長方法。 The plurality of multi-viewpoint images are composed of a plurality of stereoscopic images and a planar image having a higher resolution than the stereoscopic images,
The arrangement order of the stereoscopic image and the planar image in the multiplexed image is detected. When the encoding target block is in the stereoscopic image, the motion vector separated from the video stream is synthesized as the local motion vector. The process further includes the step of proceeding to the step of restoring the original multiplexed image using the motion vector separated from the video stream when the encoding target block is in the planar image. The multi-viewpoint image decompression method according to claim 20.
前記複数の多視点画像を画像空間的に多重化して1枚の多重化画像を生成するステップと、
前記多重化画像の所定領域を動きベクトルサーチ範囲として、符号化を行おうとする多重化画像の符号化対象ブロックと類似する類似ブロックを、参照画像とした多重化画像を構成するブロックのうちから最も予測効率が高くなるように選択することにより動きベクトルを検出するステップと、
検出された前記動きベクトルを、前記選択されたブロックを含む多視点画像内において符号化対象ブロックの多視点画像内でのローカル座標と同一の座標に位置するオフセットブロックに至るオフセットベクトルと、該オフセットブロックから前記選択されたブロックに至るローカル動きベクトルとに分解するステップと、
分解された前記ローカル動きベクトルおよび前記オフセットベクトルを符号化して前記動画ストリームに多重化して出力するステップと、
受信した動画ストリーム中に含まれるローカル動きベクトルとオフセットベクトルを分離するステップと、
分離された前記ローカル動きベクトルと前記オフセットベクトルから動きベクトルを合成するステップと、
合成された前記動きベクトルと受信した動画ストリーム中の参照画像から予測画像を形成し、該予測画像と前記動画ストリームに含まれる差分画像との和をとることにより元の多重化画像を復元するステップとを有する多視点画像伝送方法。 A plurality of multi-viewpoint images obtained by photographing a predetermined object from a plurality of viewpoints are decomposed into motion vectors and difference images, encoded and transmitted as a moving image stream, and the transmitted moving image stream is received. A multi-viewpoint image transmission method for restoring the original multi-viewpoint image by
Generating a single multiplexed image by multiplexing the plurality of multi-viewpoint images in an image space;
A predetermined block of the multiplexed image is set as a motion vector search range, and a similar block similar to the encoding target block of the multiplexed image to be encoded is selected as a reference image from among the blocks constituting the multiplexed image. Detecting a motion vector by selecting for high prediction efficiency;
The detected motion vector, an offset vector reaching an offset block located at the same coordinate as a local coordinate in the multi-view image of the encoding target block in the multi-view image including the selected block, and the offset Decomposing into a local motion vector from a block to the selected block;
Encoding the decomposed local motion vector and the offset vector, and multiplexing and outputting the video stream;
Separating a local motion vector and an offset vector included in the received video stream;
Synthesizing a motion vector from the separated local motion vector and the offset vector;
The step of forming a predicted image from the synthesized motion vector and a reference image in the received moving image stream, and restoring the original multiplexed image by taking the sum of the predicted image and the difference image included in the moving image stream A multi-viewpoint image transmission method.
前記多視点画像を圧縮する処理において、符号化対象ブロックが前記多重化画像の立体画像内にあるか平面画像内にあるかを判別し、符号化対象ブロックが立体画像内にある場合には、検出された前記動きベクトルをオフセットベクトルとローカル動きベクトルに分解するステップに処理を進め、符号化対象ブロックが平面画像内にある場合には、検出された前記動きベクトルを前記動画ストリームに多重化して出力するステップと、
前記多視点画像を伸長する処理において、多重化画像内での立体画像及び平面画像の配置順序を検出し、符号化対象ブロックが立体画像内にある場合には、動画ストリームから分離された動きベクトルを前記ローカル動きベクトルとして動きベクトルを合成するステップに処理を進め、符号化対象ブロックが平面画像内にある場合には、動画ストリームから分離された動きベクトルを用いて元の多重化画像を復元するステップに処理を進めるステップとをさらに備えた請求項22記載の多視点画像伝送方法。 The plurality of multi-viewpoint images are composed of a plurality of stereoscopic images and a planar image having a higher resolution than the stereoscopic images,
In the process of compressing the multi-viewpoint image, it is determined whether the encoding target block is in the stereoscopic image or the planar image of the multiplexed image, and when the encoding target block is in the stereoscopic image, The process proceeds to a step of decomposing the detected motion vector into an offset vector and a local motion vector. When the block to be encoded is in a plane image, the detected motion vector is multiplexed into the moving image stream. Output step;
In the process of expanding the multi-viewpoint image, the arrangement order of the stereoscopic image and the planar image in the multiplexed image is detected, and when the encoding target block is in the stereoscopic image, the motion vector separated from the video stream The process proceeds to the step of synthesizing a motion vector with the local motion vector as the local motion vector, and if the block to be encoded is in the plane image, the original multiplexed image is restored using the motion vector separated from the video stream The multi-viewpoint image transmission method according to claim 22, further comprising a step of proceeding to the step.
前記複数の多視点画像を画像空間的に多重化して1枚の多重化画像を生成する処理と、
前記多重化画像の所定領域を動きベクトルサーチ範囲として、符号化を行おうとする多重化画像の符号化対象ブロックと類似する類似ブロックを、参照画像とした多重化画像を構成するブロックのうちから最も予測効率が高くなるように選択することにより動きベクトルを検出する処理と、
検出された前記動きベクトルを、前記選択されたブロックを含む多視点画像内において符号化対象ブロックの多視点画像内でのローカル座標と同一の座標に位置するオフセットブロックに至るオフセットベクトルと、該オフセットブロックから前記選択されたブロックに至るローカル動きベクトルとに分解する処理と、
分解された前記ローカル動きベクトルおよび前記オフセットベクトルを前記動画ストリームに多重化して出力する処理とをコンピュータに実行させるためのプログラム。 A multi-viewpoint image that compresses a data amount by decomposing and encoding a plurality of multi-viewpoint images obtained by photographing a predetermined object from a plurality of viewpoints into a motion vector and a difference image and outputting them as a moving image stream A program for causing a computer to execute a compression method,
A process of multiplexing the plurality of multi-view images in an image space to generate one multiplexed image;
A predetermined block of the multiplexed image is set as a motion vector search range, and a similar block similar to the encoding target block of the multiplexed image to be encoded is selected as a reference image from among the blocks constituting the multiplexed image. A process of detecting a motion vector by selecting so that the prediction efficiency is high;
The detected motion vector, an offset vector reaching an offset block located at the same coordinate as a local coordinate in the multi-view image of the encoding target block in the multi-view image including the selected block, and the offset Decomposing into a local motion vector from a block to the selected block;
The program for making a computer perform the process which multiplexes and outputs the decomposed | disassembled said local motion vector and the said offset vector to the said moving image stream.
符号化対象ブロックが前記多重化画像の立体画像内にあるか平面画像内にあるかを判別し、符号化対象ブロックが立体画像内にある場合には、検出された前記動きベクトルをオフセットベクトルとローカル動きベクトルに分解する処理に進み、符号化対象ブロックが平面画像内にある場合には、検出された前記動きベクトルを前記動画ストリームに多重化して出力する処理をさらにコンピュータに実行させる請求項24記載のプログラム。 The plurality of multi-viewpoint images are composed of a plurality of stereoscopic images and a planar image having a higher resolution than the stereoscopic images,
It is determined whether the encoding target block is in the stereoscopic image or the planar image of the multiplexed image, and when the encoding target block is in the stereoscopic image, the detected motion vector is set as an offset vector. 25. Proceeding to a process of decomposing into local motion vectors, and if the target block to be encoded is in a planar image, the computer further executes a process of multiplexing and outputting the detected motion vector to the moving image stream. The program described.
受信した動画ストリーム中に含まれる前記ローカル動きベクトルと前記オフセットベクトルを分離する処理と、
分離された前記ローカル動きベクトルと前記オフセットベクトルから動きベクトルを合成する処理と、
合成された前記動きベクトルと受信した動画ストリーム中の参照画像から予測画像を形成し、該予測画像と前記動画ストリームに含まれる差分画像との和をとることにより元の多重化画像を復元する処理とをコンピュータに実行させるためのプログラム。 When decomposing and encoding a multiplexed image obtained by spatially multiplexing a plurality of multi-view images obtained by photographing a predetermined object from a plurality of viewpoints into a motion vector and a difference image, A predetermined block of the multiplexed image is set as a motion vector search range, and a similar block similar to the encoding target block of the multiplexed image to be encoded is selected as a reference image from among the blocks constituting the multiplexed image. A block selected from among blocks constituting a multiplexed image in which a motion vector is detected by selecting so as to increase prediction efficiency, and the detected motion vector is used as a reference image when detecting the motion vector. In the multi-view image including the offset block that is located at the same coordinate as the local coordinate in the multi-view image of the encoding target block. Receive a moving picture stream obtained by decomposing the set vector and a local motion vector from the offset block to the selected block, and encoding and multiplexing the decomposed local motion vector and the offset vector A program for causing a computer to execute a multi-viewpoint image decompression method that restores the original multi-viewpoint image by decompressing,
A process of separating the local motion vector and the offset vector included in the received video stream;
A process of synthesizing a motion vector from the separated local motion vector and the offset vector;
A process of forming a predicted image from the synthesized motion vector and a reference image in the received moving image stream, and restoring the original multiplexed image by taking the sum of the predicted image and the difference image included in the moving image stream A program that causes a computer to execute.
多重化画像内での立体画像及び平面画像の配置順序を検出し、符号化対象ブロックが立体画像内にある場合には、動画ストリームから分離された動きベクトルを前記ローカル動きベクトルとして動きベクトルを合成する処理に進み、符号化対象ブロックが平面画像内にある場合には、動画ストリームから分離された動きベクトルを用いて元の多重化画像を復元する処理に進む処理をさらにコンピュータに実行させる請求項26記載のプログラム。 The plurality of multi-viewpoint images are composed of a plurality of stereoscopic images and a planar image having a higher resolution than the stereoscopic images,
The arrangement order of the stereoscopic image and the planar image in the multiplexed image is detected. When the encoding target block is in the stereoscopic image, the motion vector separated from the video stream is synthesized as the local motion vector. And when the encoding target block is in a plane image, further causing the computer to execute a process of proceeding to a process of restoring the original multiplexed image using a motion vector separated from the moving image stream. 26. The program according to 26.
前記複数の多視点画像を画像空間的に多重化して1枚の多重化画像を生成する処理と、
前記多重化画像の所定領域を動きベクトルサーチ範囲として、符号化を行おうとする多重化画像の符号化対象ブロックと類似する類似ブロックを、参照画像とした多重化画像を構成するブロックのうちから最も予測効率が高くなるように選択することにより動きベクトルを検出する処理と、
検出された前記動きベクトルを、前記選択されたブロックを含む多視点画像内において符号化対象ブロックの多視点画像内でのローカル座標と同一の座標に位置するオフセットブロックに至るオフセットベクトルと、該オフセットブロックから前記選択されたブロックに至るローカル動きベクトルとに分解する処理と、
分解された前記ローカル動きベクトルおよび前記オフセットベクトルを符号化して前記動画ストリームに多重化して出力する処理と、
受信した動画ストリーム中に含まれるローカル動きベクトルとオフセットベクトルを分離する処理と、
分離された前記ローカル動きベクトルと前記オフセットベクトルから動きベクトルを合成する処理と、
合成された前記動きベクトルと受信した動画ストリーム中の参照画像から予測画像を形成し、該予測画像と前記動画ストリームに含まれる差分画像との和をとることにより元の多重化画像を復元する処理とをコンピュータに実行させるためのプログラム。 A plurality of multi-viewpoint images obtained by photographing a predetermined object from a plurality of viewpoints are decomposed into motion vectors and difference images, encoded and transmitted as a moving image stream, and the transmitted moving image stream is received. A program for causing a computer to execute a multi-viewpoint image transmission method for restoring the original multi-viewpoint image by decompressing,
A process of multiplexing the plurality of multi-view images in an image space to generate one multiplexed image;
A predetermined block of the multiplexed image is set as a motion vector search range, and a similar block similar to the encoding target block of the multiplexed image to be encoded is selected as a reference image from among the blocks constituting the multiplexed image. A process of detecting a motion vector by selecting so that the prediction efficiency is high;
The detected motion vector, an offset vector reaching an offset block located at the same coordinate as a local coordinate in the multi-view image of the encoding target block in the multi-view image including the selected block, and the offset Decomposing into a local motion vector from a block to the selected block;
A process of encoding the decomposed local motion vector and the offset vector, multiplexing the video into the video stream, and outputting the video stream;
A process of separating the local motion vector and the offset vector included in the received video stream;
A process of synthesizing a motion vector from the separated local motion vector and the offset vector;
A process of forming a predicted image from the synthesized motion vector and a reference image in the received moving image stream, and restoring the original multiplexed image by taking the sum of the predicted image and the difference image included in the moving image stream A program that causes a computer to execute.
前記多視点画像を圧縮する処理において、符号化対象ブロックが前記多重化画像の立体画像内にあるか平面画像内にあるかを判別し、符号化対象ブロックが立体画像内にある場合には、検出された前記動きベクトルをオフセットベクトルとローカル動きベクトルに分解するに処理に進み、符号化対象ブロックが平面画像内にある場合には、検出された前記動きベクトルを前記動画ストリームに多重化して出力する処理と、
前記多視点画像を伸長する処理において、多重化画像内での立体画像及び平面画像の配置順序を検出し、符号化対象ブロックが立体画像内にある場合には、動画ストリームから分離された動きベクトルを前記ローカル動きベクトルとして動きベクトルを合成する処理に進み、符号化対象ブロックが平面画像内にある場合には、動画ストリームから分離された動きベクトルを用いて元の多重化画像を復元する処理に進む処理をさらにコンピュータに実行させる請求項28記載のプログラム。 The plurality of multi-viewpoint images are composed of a plurality of stereoscopic images and a planar image having a higher resolution than the stereoscopic images,
In the process of compressing the multi-viewpoint image, it is determined whether the encoding target block is in the stereoscopic image or the planar image of the multiplexed image, and when the encoding target block is in the stereoscopic image, Proceed to the process of decomposing the detected motion vector into an offset vector and a local motion vector, and if the block to be encoded is in a planar image, the detected motion vector is multiplexed into the video stream and output Processing to
In the process of expanding the multi-viewpoint image, the arrangement order of the stereoscopic image and the planar image in the multiplexed image is detected, and when the encoding target block is in the stereoscopic image, the motion vector separated from the video stream The process proceeds to a process of synthesizing a motion vector using the local motion vector as a local motion vector, and if the block to be encoded is in a plane image, the process of restoring the original multiplexed image using the motion vector separated from the video stream is performed. 30. The program according to claim 28, further causing the computer to execute the proceeding process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003343303A JP4355914B2 (en) | 2003-10-01 | 2003-10-01 | Multi-view image transmission system and method, multi-view image compression device and method, multi-view image decompression device and method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003343303A JP4355914B2 (en) | 2003-10-01 | 2003-10-01 | Multi-view image transmission system and method, multi-view image compression device and method, multi-view image decompression device and method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005110113A JP2005110113A (en) | 2005-04-21 |
JP4355914B2 true JP4355914B2 (en) | 2009-11-04 |
Family
ID=34537318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003343303A Expired - Fee Related JP4355914B2 (en) | 2003-10-01 | 2003-10-01 | Multi-view image transmission system and method, multi-view image compression device and method, multi-view image decompression device and method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4355914B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9225967B2 (en) | 2010-02-26 | 2015-12-29 | Industry-Academic Cooperation Foundation, Yonsei University | Multi-view image processing apparatus, method and computer-readable medium |
US10602120B2 (en) | 2015-12-21 | 2020-03-24 | Samsung Electronics Co., Ltd. | Method and apparatus for transmitting image data, and method and apparatus for generating 3D image |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100481963C (en) * | 2005-06-24 | 2009-04-22 | 清华大学 | Visual difference calculating method for video image in multi-vision point system |
ZA200805337B (en) * | 2006-01-09 | 2009-11-25 | Thomson Licensing | Method and apparatus for providing reduced resolution update mode for multiview video coding |
CN101170697B (en) * | 2006-10-24 | 2012-07-25 | 华为技术有限公司 | Multi-view image encoding and decoding method and encoder and decoder |
KR101370899B1 (en) * | 2006-10-24 | 2014-03-10 | 엘지전자 주식회사 | Method for decoding a video signal and apparatus for implementing the same |
EP2123042A4 (en) | 2007-01-24 | 2010-03-10 | Lg Electronics Inc | A method and an apparatus for processing a video signal |
KR101965781B1 (en) | 2007-04-12 | 2019-04-05 | 돌비 인터네셔널 에이비 | Tiling in video encoding and decoding |
-
2003
- 2003-10-01 JP JP2003343303A patent/JP4355914B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9225967B2 (en) | 2010-02-26 | 2015-12-29 | Industry-Academic Cooperation Foundation, Yonsei University | Multi-view image processing apparatus, method and computer-readable medium |
US10602120B2 (en) | 2015-12-21 | 2020-03-24 | Samsung Electronics Co., Ltd. | Method and apparatus for transmitting image data, and method and apparatus for generating 3D image |
Also Published As
Publication number | Publication date |
---|---|
JP2005110113A (en) | 2005-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4421940B2 (en) | Moving picture coding apparatus and method, and moving picture decoding apparatus and method | |
KR100716992B1 (en) | Method for encoding and decoding of stereo video, and apparatus thereof | |
EP1878260B1 (en) | Method for scalably encoding and decoding video signal | |
KR100563754B1 (en) | Method and system for multiplexing image signal, method and system for demultiplexing image signal, and transmission medium | |
EP2538675A1 (en) | Apparatus for universal coding for multi-view video | |
US8532187B2 (en) | Method and apparatus for scalably encoding/decoding video signal | |
US20090190662A1 (en) | Method and apparatus for encoding and decoding multiview video | |
WO2010113770A1 (en) | Image signal decoding device, image signal decoding method, image signal encoding device, image signal encoding method, and program | |
JP2004048293A (en) | Stereoscopic image compressing or decompressing apparatus | |
KR20080108884A (en) | Method and apparatus for generating block-based stereoscopic image format, and method and apparatus for reconstructing stereoscopic images from the block-based stereoscopic image format | |
JPH10257502A (en) | Hierarchical image encoding method, hierarchical image multiplexing method, hierarchical image decoding method and device therefor | |
JPH07123447A (en) | Method and device for recording image signal, method and device for reproducing image signal, method and device for encoding image signal, method and device for decoding image signal and image signal recording medium | |
EP0827344A2 (en) | Video decoder | |
JPH0787482A (en) | Method and device for coding and decoding picture data | |
JP6019520B2 (en) | Method and associated device for generating, transmitting and receiving stereoscopic images | |
US20240283976A1 (en) | Transform-based video coding method, and device therefor | |
JP4355914B2 (en) | Multi-view image transmission system and method, multi-view image compression device and method, multi-view image decompression device and method, and program | |
KR20080027190A (en) | Method of multiple resolution stereo and multi-view video compression, and apparatus thereof | |
WO2007027010A1 (en) | Apparatus and method of encoding video and apparatus and method of decoding encoded video | |
JPH1070704A (en) | Recording and reproducing device for digital image information | |
JPH10243419A (en) | Method and device for stereoscopic vision image coding and decoding | |
US9001892B2 (en) | Moving image encoder and moving image decoder | |
JP3401762B2 (en) | Image compression encoding / decoding method, image compression encoding / decoding device, image compression encoding / transmission method, image compression encoding / transmission system, and recording medium recording image compression encoding / decoding program | |
CN113170131A (en) | Transform coefficient coding method and apparatus thereof | |
JPH11146396A (en) | Moving image compression coding/decoding method, moving image compression coder/decoder, moving image coding transmission method/system, and recording medium for moving image compression coding/decoding program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20050124 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050124 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060202 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060911 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090624 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090708 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090721 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120814 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4355914 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120814 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120814 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120814 Year of fee payment: 3 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120814 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130814 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |