JP2012100019A - Multi-viewpoint image encoding device and multi-viewpoint image decoding device - Google Patents

Multi-viewpoint image encoding device and multi-viewpoint image decoding device Download PDF

Info

Publication number
JP2012100019A
JP2012100019A JP2010245332A JP2010245332A JP2012100019A JP 2012100019 A JP2012100019 A JP 2012100019A JP 2010245332 A JP2010245332 A JP 2010245332A JP 2010245332 A JP2010245332 A JP 2010245332A JP 2012100019 A JP2012100019 A JP 2012100019A
Authority
JP
Japan
Prior art keywords
image
viewpoint
viewpoint image
depth
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010245332A
Other languages
Japanese (ja)
Inventor
Tadashi Uchiumi
端 内海
Makoto Otsu
誠 大津
Takaya Yamamoto
貴也 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2010245332A priority Critical patent/JP2012100019A/en
Priority to PCT/JP2011/070641 priority patent/WO2012060156A1/en
Publication of JP2012100019A publication Critical patent/JP2012100019A/en
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity

Abstract

PROBLEM TO BE SOLVED: To provide a multi-viewpoint image encoding device that enables reduction of an operation amount required for generating parallax information.SOLUTION: A multi-viewpoint image encoding device 1 comprises: a reference viewpoint image encoding unit 4 that receives and encodes a reference viewpoint image captured from a reference viewpoint, and restores the encoded reference viewpoint image to the reference viewpoint image; a depth image encoding unit 5 that encodes a depth image corresponding to a non-reference viewpoint image captured from a non-reference viewpoint, and restores the encoded depth image to the depth image; a parallax information generating unit 2 that generates parallax information between the reference viewpoint and the non-reference viewpoint based on the depth image restored by the depth image encoding unit 5 and imaging condition information for capturing the reference viewpoint image and the non-reference viewpoint image; and a non-reference viewpoint image encoding unit 3 that receives and encodes the non-reference viewpoint image based on the reference viewpoint image restored by the reference viewpoint image encoding unit 4 and the parallax information generated by the parallax information generating unit 2.

Description

本発明は、複数の視点から撮影された画像とその奥行き画像とを符号化する多視点画像符号化装置と、それらを復号する多視点画像復号装置に関する。   The present invention relates to a multi-view image encoding device that encodes images taken from a plurality of viewpoints and depth images thereof, and a multi-view image decoding device that decodes them.

近年、立体画像ディスプレイおよび立体画像コンテンツの普及が進みつつある。立体画像ディスプレイで現在主流のものは、2眼式の立体画像ディスプレイに分類されるもので、その一方式として、アクティブシャッター方式がある。アクティブシャッター方式の立体画像ディスプレイは、左眼用画像と右眼用画像を時分割で交互にスクリーンに表示させる一方、画像の観賞者が装着する液晶シャッターメガネを、左右画像を表示するタイミングに同期させて開閉することにより、左眼用画像を左眼にのみ、右眼用画像を右眼にのみ見せて、その結果として立体感を知覚させるものである。   In recent years, stereoscopic image displays and stereoscopic image contents have been spreading. The currently mainstream stereoscopic image display is classified as a binocular stereoscopic image display, and one method is an active shutter method. The active shutter 3D image display displays the left-eye image and the right-eye image alternately on the screen in a time-division manner, while the LCD shutter glasses worn by the viewer of the image are synchronized with the timing to display the left and right images. By opening and closing, the left eye image is shown only to the left eye and the right eye image is shown only to the right eye, and as a result, a stereoscopic effect is perceived.

立体画像を表示・観賞するためには、上記の通り左眼用と右眼用の2視点分の画像データが必要になるため、従来の平面画像と比べると情報量が約2倍に増加する。これを効率よく圧縮・記録するための符号化方式の一つに、国際標準であるITU−T H.264およびAdvanced Video Coding(ISO/IEC 14496−10)のAnnex Hとして、Multi−view Video Coding(以下、MVCと記す)が規定されている。MVCは、多視点の動画像を効率よく圧縮するための符号化方式であるが、そのアプリケーションの一つとして、3D映画などの立体画像作品をBlu−ray Discに格納する際の符号化方式として採用されている。   In order to display and appreciate a stereoscopic image, as described above, image data for two viewpoints for the left eye and for the right eye is required, so that the amount of information is increased by a factor of about two compared to a conventional planar image. . One of the encoding methods for efficiently compressing and recording this is the international standard ITU-T H.264. Multi-view Video Coding (hereinafter referred to as MVC) is defined as Annex H of H.264 and Advanced Video Coding (ISO / IEC 14496-10). MVC is an encoding method for efficiently compressing multi-viewpoint moving images. As one of the applications, MVC is an encoding method for storing stereoscopic image works such as 3D movies in Blu-ray Disc. It has been adopted.

上記のような、左眼用と右眼用の2視点の画像を表示する2眼式の立体画像ディスプレイの普及が進む一方で、多眼式の立体画像ディスプレイの普及も期待される。多眼式の立体画像ディスプレイは、スクリーン面から発する光の方向を制御するための光学的な機構を備えることにより、左眼用画像を左眼にのみ、右眼用画像を右眼にのみ見せるものである。そのため、アクティブシャッター方式で使用するようなメガネを不要とし、さらに、2視点を超える視点数の画像表示、すなわち観察位置の移動に伴う観察画像の変化も可能にしている。光学的な機構の例としてはパララクスバリアやレンティキュラレンズなどがあり、その構造と加工の精細度により、観察可能な視点数が決定される。現状では、5視点や8視点などの多眼式立体画像ディスプレイが実用化されている。   While the spread of the binocular stereoscopic image display that displays the images of the two viewpoints for the left eye and the right eye as described above, the spread of the multi-view stereoscopic image display is also expected. The multi-view stereoscopic image display includes an optical mechanism for controlling the direction of light emitted from the screen surface, so that the left eye image can be seen only by the left eye and the right eye image can be seen only by the right eye. Is. For this reason, glasses that are used in the active shutter method are not required, and moreover, it is possible to display an image with the number of viewpoints exceeding two viewpoints, that is, to change an observation image as the observation position is moved. Examples of optical mechanisms include a parallax barrier and a lenticular lens, and the number of viewpoints that can be observed is determined by the structure and the definition of processing. At present, multi-view stereoscopic image displays such as 5 viewpoints and 8 viewpoints are put into practical use.

多眼式の立体画像ディスプレイを使用すると、視点が2視点に限定されないため、立体画像の観察における自由度や自然さが向上するという利点がある。しかし一方で、視点数が増えることによって、必要となる画像のデータ量が増加するため、記録や伝送にかかるコストが増大するという問題がある。   When a multi-view stereoscopic image display is used, since the viewpoint is not limited to two viewpoints, there is an advantage that the degree of freedom and the naturalness in observation of a stereoscopic image are improved. On the other hand, however, since the amount of image data required increases as the number of viewpoints increases, there is a problem that the cost for recording and transmission increases.

この問題を解決する一方法として、特許文献1では、複数視点の画像を符号化すると共に、複数視点の画像から生成した奥行き情報も符号化し、両者を含む符号化ストリームを生成する画像符号化装置が開示されている。ここで生成・符号化された奥行き情報は、実在する視点の画像信号から、存在しない所望の仮想視点の画像信号を生成するために用いられる。すなわち、視点の数が多いためにそれらの視点すべての画像を撮影、伝送または蓄積することが困難な場合に、より少ない視点数の画像から、多数の視点画像を生成することを可能とするものである。   As a method for solving this problem, Patent Document 1 encodes a multi-viewpoint image, encodes depth information generated from the multi-viewpoint image, and generates an encoded stream including both. Is disclosed. The depth information generated and encoded here is used to generate an image signal of a desired virtual viewpoint that does not exist from an image signal of an existing viewpoint. That is, it is possible to generate a large number of viewpoint images from images with a smaller number of viewpoints when it is difficult to capture, transmit or store images of all the viewpoints because of the large number of viewpoints. It is.

特許文献1では、多視点画像の符号化効率を向上させるために、視差予測符号化方式を利用している。視差予測符号化方式は、撮影視点が異なることにより生じる視差を画像から抽出し、視差を補償して予測符号化を行うことによって、従来の単視点画像の符号化で行われていた時間方向の予測符号化による冗長度削減と同様に、視差間の冗長度削減を実現するものである。視差予測符号化方式は、前述のMVCでも導入されている技術である。   In patent document 1, in order to improve the encoding efficiency of a multiview image, the parallax prediction encoding system is utilized. In the parallax predictive coding method, the parallax generated by different shooting viewpoints is extracted from the image, and the prediction coding is performed by compensating the parallax, so that the time-direction coding performed in the conventional single-viewpoint image coding is performed. Similar to reduction of redundancy by predictive coding, reduction of redundancy between parallaxes is realized. The disparity predictive coding method is a technique introduced in the above-described MVC.

ここで、従来の単視点画像の符号化方式および視差予測符号化方式に基づく画像符号化処理について簡単に説明する。図7は、従来の単一視点の動画像符号化装置700の機能構成を示すブロック図である。動画像符号化装置700は、DCT量子化部701を備えている。DCT量子化部701は、入力画像から過去または未来の画像を減算したデータに対して、まず変換符号化処理であるDCTおよび量子化処理を行う。動画像符号化装置700には、減算器709が設けられている。減算器709は、入力画像から過去または未来の画像を減算したデータをDCT量子化部701に与える。   Here, an image encoding process based on a conventional single-view image encoding method and a parallax predictive encoding method will be briefly described. FIG. 7 is a block diagram showing a functional configuration of a conventional single-view video encoding apparatus 700. As shown in FIG. The moving image coding apparatus 700 includes a DCT quantization unit 701. The DCT quantization unit 701 first performs DCT and quantization processing, which is transform coding processing, on data obtained by subtracting past or future images from input images. The moving image encoding apparatus 700 is provided with a subtracter 709. The subtractor 709 gives data obtained by subtracting a past or future image from the input image to the DCT quantization unit 701.

動画像符号化装置700は、逆量子化逆DCT部702を備えている。逆量子化逆DCT部702は、DCT量子化部701によりDCTおよび量子化処理されたデータに対して、逆量子化逆DCT処理を行って加算器710に供給する。加算器710は、逆量子化逆DCT部702により逆量子化逆DCT処理が行われたデータに、予測結果を加算して、画像信号に復元する。復元された画像信号は、さらにデブロッキングフィルタ703によりDCTに起因するブロック歪みを低減した上で、参照メモリ704に蓄えられる。   The moving image encoding apparatus 700 includes an inverse quantization inverse DCT unit 702. The inverse quantization inverse DCT unit 702 performs inverse quantization inverse DCT processing on the data subjected to DCT and quantization processing by the DCT quantization unit 701 and supplies the result to the adder 710. The adder 710 adds the prediction result to the data subjected to the inverse quantization inverse DCT processing by the inverse quantization inverse DCT unit 702, and restores the image signal. The restored image signal is further stored in the reference memory 704 after block distortion caused by DCT is reduced by the deblocking filter 703.

動画像符号化装置700には、動きベクトル検出部705が設けられている。動きベクトル検出部705は、時間方向の画像間の冗長度を削減するため、入力画像から動きベクトルを探索・検出する。動画像符号化装置700は、動き補償・予測部706を備えている。動き補償・予測部706は、動きベクトル検出部705により検出された動きベクトルに基づいて、参照画像との間で動き補償・予測を行う。   The moving image encoding apparatus 700 is provided with a motion vector detection unit 705. The motion vector detection unit 705 searches and detects a motion vector from the input image in order to reduce redundancy between images in the time direction. The moving picture coding apparatus 700 includes a motion compensation / prediction unit 706. The motion compensation / prediction unit 706 performs motion compensation / prediction with the reference image based on the motion vector detected by the motion vector detection unit 705.

動画像符号化装置700には、画面内予測部707が設けられている。画面内予測部707は、入力画像に基づいて、画像内の空間的な冗長度を削減するため、画面内予測を行う。動画像符号化装置700は、スイッチ708を備えている。スイッチ708は、動き補償・予測部706の処理結果、または、画面内予測部707の処理結果を減算器709及び加算器710に供給する。このように、動き補償・予測部706または画面内予測部707のいずれかの処理結果が、予測画像データとして利用される。   The moving picture encoding apparatus 700 is provided with an in-screen prediction unit 707. The intra-screen prediction unit 707 performs intra-screen prediction based on the input image in order to reduce spatial redundancy in the image. The moving image encoding apparatus 700 includes a switch 708. The switch 708 supplies the processing result of the motion compensation / prediction unit 706 or the processing result of the intra-screen prediction unit 707 to the subtracter 709 and the adder 710. As described above, the processing result of either the motion compensation / prediction unit 706 or the intra-screen prediction unit 707 is used as predicted image data.

動画像符号化装置700には、エントロピー符号化部711が設けられている。エントロピー符号化部711は、DCT量子化部701によりDCTおよび量子化処理された画像データと、動きベクトル検出部705により検出された動きベクトルとを可変長符号に変換し、符号化ストリームとして動画像符号化装置700の外部へ出力する。   The moving image encoding apparatus 700 is provided with an entropy encoding unit 711. The entropy encoding unit 711 converts the image data subjected to the DCT and quantization processing by the DCT quantization unit 701 and the motion vector detected by the motion vector detection unit 705 into a variable length code, and generates a moving image as an encoded stream. The data is output to the outside of the encoding device 700.

以上が、単一視点の動画像を対象とする従来の符号化方式である。図7および上記説明の通り、空間的な冗長度を削減するための画面内予測と、時間方向の冗長度を削減するための動き補償・予測を適応的に切り替え、トータルの符号化向上を図っている。この動き補償・予測すなわち時間方向の予測符号化を複数視点の画像間に適用したものが視差予測符号化方式である。前述の多視点用画像符号化方式MVCは、所定の符号化処理単位で、前述の画面内予測、時間方向予測、視差予測のいずれかを選択し、トータルの符号化効率向上を図っている。   The above is the conventional encoding method for a single viewpoint moving image. As shown in FIG. 7 and the above description, in-screen prediction for reducing spatial redundancy and motion compensation / prediction for reducing temporal redundancy are adaptively switched to improve total coding. ing. A parallax predictive coding method is a method in which this motion compensation / prediction, that is, prediction coding in the time direction, is applied between images of a plurality of viewpoints. The above-described multi-view image encoding method MVC selects one of the above-described intra-frame prediction, temporal direction prediction, and parallax prediction in a predetermined encoding processing unit to improve the total encoding efficiency.

視差予測符号化方式における視差の抽出は、従来の時間方向の予測符号化でも同様であるが、主にブロックマッチングにより行われる。ブロックマッチングは、対象画像を所定サイズで分割したブロックごとに、参照画像との比較で最も一致度の高いブロックを探索する処理である。特許文献2には、ブロックマッチングを複数画像間に適用して視差ベクトルを検出する符号化方式が開示されている。   Extraction of disparity in the disparity predictive coding method is the same as in conventional predictive coding in the temporal direction, but is mainly performed by block matching. Block matching is a process of searching for a block having the highest degree of matching in comparison with a reference image for each block obtained by dividing the target image by a predetermined size. Patent Document 2 discloses an encoding method in which disparity vectors are detected by applying block matching between a plurality of images.

特開2010−157823号公報(2010年7月15日公開)JP 2010-157823 A (published July 15, 2010) 特開平6−98312号公報(1994年4月8日公開)JP-A-6-98312 (published on April 8, 1994)

多視点画像を符号化する際に、符号化対象とする視点数を減らして効率よく記録・伝送するために、特許文献1のように奥行き画像を利用して符号化する手法は有効性が高い。しかしながら、視点画像の数を減らす一方で、奥行き画像を符号化する処理が別途必要になるため、処理量および発生符号量の観点から充分な効率向上効果が得られるとは限らない。特に、視点画像間の視差予測符号化方式において視差ベクトルを抽出する際のブロックマッチング処理は、特許文献2の図8にも示されている通り、ブロック内の全画素を対象に誤差評価を行いながら所定のサーチ範囲にわたって処理・判定を行う必要があるため、演算コストが高く、画像符号化のリアルタイム処理を困難にする要因の一つになっている。   When encoding a multi-viewpoint image, the method of encoding using a depth image as described in Patent Document 1 is highly effective in order to efficiently record and transmit the number of viewpoints to be encoded. . However, since the number of viewpoint images is reduced and a process for encoding a depth image is separately required, a sufficient efficiency improvement effect is not always obtained from the viewpoint of the processing amount and the generated code amount. In particular, the block matching process when extracting disparity vectors in the disparity prediction encoding method between viewpoint images performs error evaluation on all pixels in the block as shown in FIG. However, since it is necessary to perform processing / determination over a predetermined search range, the calculation cost is high, which is one of the factors that make real-time processing of image encoding difficult.

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、複数の視点画像と奥行き画像を符号化する際に、奥行き画像を利用して視点画像の符号化効率を向上させると共に、視差ベクトルを生成するために必要な演算量を低減させることを可能とする多視点画像符号化装置及び多視点画像復号装置を提供することにある。   The present invention has been made in view of the above-described problems, and an object of the present invention is to improve viewpoint image encoding efficiency by using depth images when encoding a plurality of viewpoint images and depth images. A further object is to provide a multi-view image encoding device and a multi-view image decoding device that can reduce the amount of calculation required to generate a disparity vector.

上記の課題を解決するために、本発明に係る多視点画像符号化装置は、第1視点から撮像した第1視点画像を受け取って符号化し、符号化した第1視点画像を第1視点画像に復元する第1視点画像符号化手段と、第2視点から撮像した第2視点画像に対応する奥行き画像を符号化し、符号化した奥行き画像を奥行き画像に復元する奥行き画像符号化手段と、前記奥行き画像符号化手段により復元された奥行き画像と、前記第1視点画像と前記第2視点画像とを撮像するための撮像条件情報とに基づいて、前記第1視点と前記第2視点との間の視差情報を生成する視差情報生成手段と、前記第1視点画像符号化手段により復元された第1視点画像と、前記視差情報生成手段により生成された視差情報とに基づいて、前記第2視点画像を受け取って符号化する第2視点画像符号化手段とを備えたことを特徴とする。   In order to solve the above-described problem, a multi-view image encoding device according to the present invention receives and encodes a first viewpoint image captured from a first viewpoint, and converts the encoded first viewpoint image into a first viewpoint image. First viewpoint image encoding means for restoring, depth image encoding means for encoding a depth image corresponding to the second viewpoint image captured from the second viewpoint, and restoring the encoded depth image to a depth image; and the depth Based on the depth image restored by the image encoding means and the imaging condition information for imaging the first viewpoint image and the second viewpoint image, between the first viewpoint and the second viewpoint. Based on the disparity information generating means for generating disparity information, the first viewpoint image restored by the first viewpoint image encoding means, and the disparity information generated by the disparity information generating means, the second viewpoint image Receive Characterized in that a second viewpoint image coding means for coding.

この特徴により、前記奥行き画像符号化手段により復元された奥行き画像と、前記第1視点画像と前記第2視点画像とを撮像するための撮像条件情報とに基づいて、前記第1視点と前記第2視点との間の視差情報を生成するので、視点画像間でブロックマッチングをとるような演算コストの高い処理を行うかわりに、前記奥行き画像符号化手段により復元された奥行き画像と、前記第1視点画像と前記第2視点画像とを撮像するための撮像条件情報とに基づいて生成された第1視点と第2視点との間の視差情報を用いて予測処理を行うことができ、符号化処理の演算量を削減することができる。   With this feature, the first viewpoint and the first viewpoint are based on the depth image restored by the depth image encoding means and the imaging condition information for imaging the first viewpoint image and the second viewpoint image. Since disparity information between two viewpoints is generated, the depth image restored by the depth image encoding means, and the first image, instead of performing processing with high calculation cost such as block matching between viewpoint images, Prediction processing can be performed using disparity information between the first viewpoint and the second viewpoint generated based on the viewpoint image and the imaging condition information for capturing the second viewpoint image, and encoding The amount of processing can be reduced.

本発明に係る多視点画像符号化装置では、前記視差情報生成手段は、前記復元された奥行き画像を分割したブロックの代表奥行き値を決定する代表奥行き値決定手段を有することが好ましい。   In the multi-view image encoding device according to the present invention, it is preferable that the disparity information generating unit includes a representative depth value determining unit that determines a representative depth value of a block obtained by dividing the restored depth image.

上記構成により、最も出現頻度の高い奥行き値を抽出して代表値として決定するためである。   This is because, with the above configuration, the depth value having the highest appearance frequency is extracted and determined as the representative value.

本発明に係る多視点画像符号化装置では、前記代表奥行き値決定手段は、前記復元された奥行き画像を分割したブロック内の奥行き値の頻度分布に基づいて、前記代表奥行き値を決定することが好ましい。   In the multi-view image encoding device according to the present invention, the representative depth value determining means may determine the representative depth value based on a frequency distribution of depth values in a block obtained by dividing the restored depth image. preferable.

上記構成により、視差予測の予測誤差を小さくすることができる。   With the above configuration, the prediction error of parallax prediction can be reduced.

本発明に係る多視点画像符号化装置では、前記撮像条件情報は、前記第1視点に配置された第1カメラと前記第2視点に配置された第2カメラとの間のカメラ間距離、及び前記第1及び第2カメラと被写体との間の撮影距離を含み、前記視差情報生成手段は、前記各ブロックの代表奥行き値と、前記カメラ間距離及び前記撮影距離とに基づいて、前記視差情報を算出する視差情報算出手段をさらに有することが好ましい。   In the multi-view image encoding device according to the present invention, the imaging condition information includes an inter-camera distance between a first camera arranged at the first viewpoint and a second camera arranged at the second viewpoint, and The parallax information generation unit includes a shooting distance between the first and second cameras and the subject, and the parallax information generation unit is configured to generate the parallax information based on a representative depth value of each block, the inter-camera distance, and the shooting distance. It is preferable to further include parallax information calculating means for calculating

上記構成により、簡単な数式に従って視差情報を算出することができる。   With the above configuration, the parallax information can be calculated according to a simple mathematical formula.

本発明に係る多視点画像符号化装置では、前記第2視点画像符号化手段は、前記奥行き画像符号化手段により復元された奥行き画像を分割したブロックに対応するブロックごとに、前記視差情報が示す第1視点画像内の画素値を利用して予測符号化することが好ましい。   In the multi-view image encoding device according to the present invention, the second viewpoint image encoding means indicates the disparity information for each block corresponding to a block obtained by dividing the depth image restored by the depth image encoding means. Predictive encoding is preferably performed using pixel values in the first viewpoint image.

上記構成により、簡単な構成により第2視点画像を符号化することができる。   With the above configuration, the second viewpoint image can be encoded with a simple configuration.

本発明に係る多視点画像符号化装置では、前記撮像条件情報を受け取って符号化する撮像条件情報符号化手段をさらに備え、前記第1視点画像は、基準となる視点からの視点画像である基準視点画像であり、前記第2視点画像は、前記基準視点画像以外の視点画像であることが好ましい。   The multi-viewpoint image encoding device according to the present invention further includes imaging condition information encoding means for receiving and encoding the imaging condition information, and the first viewpoint image is a viewpoint image from a reference viewpoint. It is a viewpoint image, and the second viewpoint image is preferably a viewpoint image other than the reference viewpoint image.

上記構成によれば、撮像条件情報を符号化して伝送することができ、基準視点から撮像した画像と基準視点以外の視点から撮像した画像とを符号化して伝送することができる。   According to the above configuration, the imaging condition information can be encoded and transmitted, and an image captured from the reference viewpoint and an image captured from a viewpoint other than the reference viewpoint can be encoded and transmitted.

本発明に係る多視点画像復号装置は、符号化された第1視点画像を受け取って復号する第1視点画像復号手段と、符号化された奥行き画像を受け取って復号する奥行き画像復号手段と、符号化された撮像条件情報を受け取って復号する撮像条件情報復号手段と、前記奥行き画像復号手段により復号された奥行き画像と、前記撮像条件情報復号手段により復号された撮像条件情報とに基づいて、第1視点と第2視点との間の視差情報を生成する視差情報生成手段と、前記第1視点画像復号手段により復号された第1視点画像と、前記視差情報生成手段により生成された視差情報とに基づいて、符号化された第2視点画像を受け取って復号する第2視点画像復号手段とを備えたことを特徴とする。   A multi-view image decoding apparatus according to the present invention includes a first viewpoint image decoding unit that receives and decodes an encoded first viewpoint image, a depth image decoding unit that receives and decodes an encoded depth image, Based on the imaging condition information decoding means for receiving and decoding the converted imaging condition information, the depth image decoded by the depth image decoding means, and the imaging condition information decoded by the imaging condition information decoding means Disparity information generating means for generating disparity information between one viewpoint and a second viewpoint, a first viewpoint image decoded by the first viewpoint image decoding means, and disparity information generated by the disparity information generating means And a second viewpoint image decoding unit that receives and decodes the encoded second viewpoint image.

この特徴により、前記奥行き画像復号手段により復号された奥行き画像と、前記撮像条件情報復号手段により復号された撮像条件情報とに基づいて、第1視点と第2視点との間の視差情報を生成するので、復号された奥行き画像に基づいて視差情報が生成される。このため、視差ベクトルは、符号化装置から伝送されることなく、復号装置側で生成することができる。従って、符号化装置から復号装置へ伝送される符号量を削減し、符号化データの伝送及び記録の際の伝送路の利用効率及び記録メディアの利用効率を高めることができる。   With this feature, disparity information between the first viewpoint and the second viewpoint is generated based on the depth image decoded by the depth image decoding means and the imaging condition information decoded by the imaging condition information decoding means. Therefore, disparity information is generated based on the decoded depth image. Therefore, the disparity vector can be generated on the decoding device side without being transmitted from the encoding device. Therefore, the amount of code transmitted from the encoding device to the decoding device can be reduced, and the utilization efficiency of the transmission path and the utilization efficiency of the recording medium can be increased when transmitting and recording the encoded data.

本発明に係る多視点画像復号装置では、前記視差情報生成手段は、前記復号された奥行き画像を分割したブロックの代表奥行き値を決定し、前記撮像条件情報復号手段により復号された撮像条件情報は、第1視点に配置された第1カメラと第2視点に配置された第2カメラとの間のカメラ間距離、及び前記第1及び第2カメラと被写体との間の撮影距離を含み、前記視差情報生成手段は、前記各ブロックの代表奥行き値と、前記カメラ間距離及び前記撮影距離とに基づいて、前記視差情報を算出することが好ましい。   In the multi-viewpoint image decoding apparatus according to the present invention, the disparity information generating unit determines a representative depth value of a block obtained by dividing the decoded depth image, and the imaging condition information decoded by the imaging condition information decoding unit is A camera-to-camera distance between the first camera disposed at the first viewpoint and a second camera disposed at the second viewpoint, and a photographing distance between the first and second cameras and the subject, It is preferable that the disparity information generating unit calculates the disparity information based on the representative depth value of each block, the inter-camera distance, and the shooting distance.

上記構成によれば、最も出現頻度の高い奥行き値を抽出して代表値として決定し、簡単な数式に従って視差情報を算出することができる。   According to the above configuration, the depth value having the highest appearance frequency can be extracted and determined as a representative value, and the disparity information can be calculated according to a simple mathematical expression.

本発明に係る多視点画像復号装置では、前記第2視点画像復号手段は、前記奥行き画像復号手段により復元された奥行き画像を分割したブロックに対応するブロックごとに、前記視差情報が示す第1視点画像内の画素値を利用して復号することが好ましい。   In the multi-viewpoint image decoding device according to the present invention, the second viewpoint image decoding unit includes a first viewpoint indicated by the disparity information for each block corresponding to a block obtained by dividing the depth image restored by the depth image decoding unit. Decoding is preferably performed using pixel values in the image.

上記構成によれば、簡単な構成により第2視点画像を復号することができる。   According to the above configuration, the second viewpoint image can be decoded with a simple configuration.

本発明に係る多視点画像符号化装置は、前記第1視点画像と前記第2視点画像とを撮像するための撮像条件情報とに基づいて、前記第1視点と前記第2視点との間の視差情報を生成する視差情報生成手段を設けたので、奥行き画像符号化手段により復元された奥行き画像と、第1視点画像と第2視点画像とを撮像するための撮像条件情報とに基づいて生成された第1視点と第2視点との間の視差情報を用いて予測処理を行うことができ、符号化処理の演算量を削減することができる。   The multi-viewpoint image encoding device according to the present invention is based on imaging condition information for capturing the first viewpoint image and the second viewpoint image, between the first viewpoint and the second viewpoint. Since the disparity information generating means for generating the disparity information is provided, the disparity information is generated based on the depth image restored by the depth image encoding means and the imaging condition information for capturing the first viewpoint image and the second viewpoint image. Prediction processing can be performed using the disparity information between the first viewpoint and the second viewpoint, and the amount of calculation of the encoding processing can be reduced.

実施の形態1に係る多視点画像符号化装置の構成を示すブロック図である。1 is a block diagram showing a configuration of a multi-view image encoding device according to Embodiment 1. FIG. 上記多視点画像符号化装置に設けられた視差情報生成部の構成を示すブロック図である。It is a block diagram which shows the structure of the parallax information generation part provided in the said multiview image coding apparatus. 上記視差情報生成部に設けられた代表奥行き値決定部による代表奥行き値決定処理の概念図である。It is a conceptual diagram of the representative depth value determination process by the representative depth value determination part provided in the said parallax information generation part. 奥行き値と視差値との関係を示す概念図である。It is a conceptual diagram which shows the relationship between a depth value and a parallax value. (a)は平行法撮影における撮影距離を示す図であり、(b)は交差法撮影における撮影距離を示す図である。(A) is a figure which shows the imaging distance in parallel method imaging | photography, (b) is a figure which shows the imaging distance in crossing method imaging | photography. 実施の形態2に係る多視点画像復号装置の構成を示すブロック図である。FIG. 10 is a block diagram showing a configuration of a multi-view image decoding apparatus according to Embodiment 2. 従来の画像符号化装置の構成を示すブロック図である。It is a block diagram which shows the structure of the conventional image coding apparatus.

本発明の多視点画像符号化装置及び多視点画像復号装置に関する実施の一形態について図1〜図6に基づいて説明すれば以下のとおりである。   An embodiment of the multi-view image encoding apparatus and multi-view image decoding apparatus according to the present invention will be described below with reference to FIGS.

(実施の形態1)
(多視点画像符号化装置の基本構成)
図1は、実施の形態1に係る多視点画像符号化装置1の構成を示すブロック図である。
(Embodiment 1)
(Basic configuration of multi-view image encoding device)
FIG. 1 is a block diagram showing a configuration of multi-view image encoding apparatus 1 according to Embodiment 1.

多視点画像符号化装置1に入力される入力データは、基準視点から撮像した基準視点の視点画像(基準視点画像)、非基準視点から撮像した非基準視点の視点画像(非基準視点画像)、非基準視点画像に対応する奥行き画像、および基準視点画像と非基準視点画像とを撮像するための撮影条件情報である。基準視点画像は単一の視点による画像に限定されるが、非基準視点画像は複数の視点による画像が複数入力されてもよい。また、奥行き画像は、非基準視点画像の対応するひとつの奥行き画像でもよいし、全ての非基準視点画像に対応する複数の奥行き画像が入力されてもよい。なお、各視点画像、奥行き画像は、静止画像であっても良いし、動画像であってもよい。   Input data input to the multi-viewpoint image encoding device 1 includes a viewpoint image (reference viewpoint image) captured from the reference viewpoint, a viewpoint image (non-reference viewpoint image) captured from the non-reference viewpoint, This is shooting condition information for capturing a depth image corresponding to a non-reference viewpoint image, and a reference viewpoint image and a non-reference viewpoint image. Although the reference viewpoint image is limited to an image based on a single viewpoint, a plurality of images based on a plurality of viewpoints may be input as the non-reference viewpoint image. The depth image may be one depth image corresponding to the non-reference viewpoint image, or a plurality of depth images corresponding to all the non-reference viewpoint images may be input. Each viewpoint image and depth image may be a still image or a moving image.

多視点画像符号化装置1は、基準視点画像符号化部4を備えている。基準視点画像符号化部4は、基準視点から撮像した基準視点画像を受け取って符号化し、さらに、符号化した基準視点画像を再び基準視点画像に復元する。多視点画像符号化装置1には、奥行き画像符号化部5が設けられている。奥行き画像符号化部5は、非基準視点から撮像した非基準視点画像に対応する奥行き画像を符号化し、さらに、符号化した奥行き画像を再び奥行き画像に復元する。   The multi-view image encoding device 1 includes a reference viewpoint image encoding unit 4. The reference viewpoint image encoding unit 4 receives and encodes the reference viewpoint image captured from the reference viewpoint, and further restores the encoded reference viewpoint image to the reference viewpoint image again. The multi-view image encoding device 1 is provided with a depth image encoding unit 5. The depth image encoding unit 5 encodes the depth image corresponding to the non-reference viewpoint image captured from the non-reference viewpoint, and further restores the encoded depth image to the depth image again.

多視点画像符号化装置1は、撮像条件情報符号化部6を備えている。撮像条件情報符号化部6は、基準視点画像と非基準視点画像とを撮像するための撮像条件情報を受け取って符号化する。   The multi-viewpoint image encoding device 1 includes an imaging condition information encoding unit 6. The imaging condition information encoding unit 6 receives and encodes imaging condition information for imaging the reference viewpoint image and the non-reference viewpoint image.

多視点画像符号化装置1は、視差情報生成部2を備えている。視差情報生成部2は、奥行き画像符号化部5により復元された奥行き画像と、基準視点画像と非基準視点画像とを撮像するための撮像条件情報とに基づいて、基準視点と非基準視点との間の視差情報を生成する。多視点画像符号化装置1には、非基準視点画像符号化部3が設けられている。非基準視点画像符号化部3は、非基準視点画像を受け取って、基準視点画像符号化部4により復元された基準視点画像と、視差情報生成部2により生成された視差情報とに基づいて、符号化する。非基準視点画像符号化部3は、奥行き画像符号化部5により復元された奥行き画像を分割したブロックに対応するブロックごとに、視差情報生成部2により生成された視差情報が示す基準視点画像内の画素値を利用して予測符号化する。   The multi-view image encoding device 1 includes a parallax information generation unit 2. The disparity information generation unit 2 determines the reference viewpoint and the non-reference viewpoint based on the depth image restored by the depth image encoding unit 5 and the imaging condition information for capturing the reference viewpoint image and the non-reference viewpoint image. Is generated. The multi-view image encoding device 1 is provided with a non-reference viewpoint image encoding unit 3. The non-reference viewpoint image encoding unit 3 receives the non-reference viewpoint image, and based on the reference viewpoint image restored by the reference viewpoint image encoding unit 4 and the disparity information generated by the disparity information generation unit 2, Encode. The non-reference viewpoint image encoding unit 3 includes the reference viewpoint image indicated by the disparity information generated by the disparity information generation unit 2 for each block corresponding to the block obtained by dividing the depth image restored by the depth image encoding unit 5. Predictive coding is performed using the pixel value of.

基準視点画像符号化部4は、基準視点画像を視点内予測符号化方式により圧縮符号化する。視点内予測符号化方式とは、単一の視点内の画像データのみに基づいて画像データを圧縮符号化する予測符号化方式をいう。視点内予測符号化方式では、図7に示した従来の動画像符号化装置700と同様に、画面内予測及び動き補償を行って画像データを圧縮符号化する。   The reference viewpoint image encoding unit 4 compresses and encodes the reference viewpoint image by the intra-view prediction encoding method. The intra-view prediction encoding method is a prediction encoding method in which image data is compression-encoded based only on image data within a single viewpoint. In the intra-view prediction encoding method, in the same manner as the conventional moving image encoding apparatus 700 shown in FIG. 7, intra-frame prediction and motion compensation are performed to compress and encode image data.

基準視点画像符号化部4は、同時に、圧縮符号化した基準視点画像に対して、逆処理すなわち復号を行い、基準視点画像に復元しておく。後述する非基準視点画像の符号化の際に参照するためである。   At the same time, the reference viewpoint image encoding unit 4 performs reverse processing, that is, decoding, on the compressed viewpoint encoded reference viewpoint image to restore the reference viewpoint image. This is for reference when encoding a non-reference viewpoint image to be described later.

基準視点画像は、視差予測符号化方式において参照画像として使用される。視差予測符号化方式によって符号化された非基準視点画像は、さらに、動き補償時や別の視点画像からの視差予測の際の参照画像として使用される可能性がある。この時、非基準視点画像が入力画像を参照していると、復号装置側では入力画像と同一の画像は得られないので(ここでの符号化方式は非可逆圧縮を前提としている)、符号化時と復号時で、参照した画素値に不一致が生じる。不一致が生じると、それを参照してさらに動き補償や視差予測を行った別の画像の復号時にさらに不一致(=誤差)が生じ、それが誤差となって伝播して符号化画像の品質を悪化させてしまう。従って、符号化装置側でも一旦復号した結果の画像を視差予測符号化方式の参照画像用に使用する。   The reference viewpoint image is used as a reference image in the parallax predictive coding method. The non-reference viewpoint image encoded by the disparity prediction encoding method may further be used as a reference image at the time of motion compensation or when performing disparity prediction from another viewpoint image. At this time, if the non-reference viewpoint image refers to the input image, the decoding device cannot obtain the same image as the input image (the encoding method here assumes lossy compression). There is a discrepancy between the referenced pixel values during conversion and decoding. When a mismatch occurs, another mismatch (= error) occurs when another image that has been further compensated for motion compensation or parallax prediction is referenced, and this error propagates and degrades the quality of the encoded image. I will let you. Accordingly, the image obtained as a result of decoding once is also used for the reference image of the parallax predictive coding method on the encoding device side.

奥行き画像符号化部5は、奥行き画像を、基準視点画像符号化部4と同様に、視点内予測符号化方式により圧縮符号化する。即ち、奥行き画像符号化部5は、奥行き画像のみに基づいて奥行き画像を圧縮符号化する。同時に、奥行き画像符号化部5は、圧縮符号化した奥行き画像に対して逆処理すなわち復号を行い、奥行き画像を表すデータに復元しておく。後述する視差情報を生成する際に参照するためである。   The depth image encoding unit 5 compresses and encodes the depth image by the intra-view prediction encoding method, similarly to the reference viewpoint image encoding unit 4. That is, the depth image encoding unit 5 compresses and encodes the depth image based only on the depth image. At the same time, the depth image encoding unit 5 performs reverse processing, that is, decoding on the compression-encoded depth image to restore the data representing the depth image. This is for reference when generating disparity information to be described later.

復元した奥行き画像を視差ベクトル生成に使用するのは、入力した奥行き画像から視差ベクトルを生成した場合、復号装置側では復号奥行き画像からしか視差ベクトルを生成することができないので、画像符号化装置側で生成した視差ベクトルと画像復号装置側で生成した視差ベクトルとの間に不一致が生じ、このような不一致が生じた異なる視差ベクトルを用いて符号化/復号を続けると、視差補償時や、さらにその符号化結果を参照して動き補償及び視差補償を行う際に不一致が生じ、それが誤差として伝播されてしまうからである。   The restored depth image is used for generating the disparity vector because when the disparity vector is generated from the input depth image, the decoding device side can generate the disparity vector only from the decoded depth image. If a disparity occurs between the disparity vector generated in step 1 and the disparity vector generated on the image decoding device side, and encoding / decoding is continued using different disparity vectors in which such a disparity has occurred, This is because a mismatch occurs when motion compensation and parallax compensation are performed with reference to the encoding result, which is propagated as an error.

視差情報生成部2は、奥行き画像符号化部5により復元された奥行き画像および、撮影条件情報に基づいて、視差情報を生成する。視差情報生成の詳細については後述する。   The disparity information generation unit 2 generates disparity information based on the depth image restored by the depth image encoding unit 5 and the shooting condition information. Details of disparity information generation will be described later.

非基準視点画像符号化部3は、基準視点画像符号化部4により復元された基準視点画像と、視差情報生成部2により生成された視差情報とに基づいて、非基準視点画像を視点間予測符号化方式により圧縮符号化する。視点間予測符号化方式とは、ある視点から撮像した画像データを、別視点から撮像した画像データを利用して圧縮符号化する予測符号化方式をいう。   The non-reference viewpoint image encoding unit 3 performs inter-view prediction on the non-reference viewpoint image based on the reference viewpoint image restored by the reference viewpoint image encoding unit 4 and the disparity information generated by the disparity information generation unit 2. Compression encoding is performed by an encoding method. The inter-view prediction encoding method is a prediction encoding method in which image data captured from a certain viewpoint is compression encoded using image data captured from another viewpoint.

撮影条件情報符号化部6は、複数視点の視点画像を撮影した際の条件である撮影条件情報を、所定の符号に変換する符号化処理を行う。最終的に、基準視点画像、非基準視点画像、奥行き画像、撮影条件情報の各符号化データは、図示しない符号構成部により連結・並べ替えがなされ、符号化ストリームとして多視点画像符号化装置1の外部へ出力される。   The shooting condition information encoding unit 6 performs an encoding process for converting shooting condition information, which is a condition when shooting multiple viewpoint images, into a predetermined code. Finally, the encoded data of the reference viewpoint image, the non-reference viewpoint image, the depth image, and the shooting condition information are connected and rearranged by a code configuration unit (not shown), and the multi-view image encoding device 1 is encoded stream. Is output to the outside.

(視差情報生成部の構成)
図2は、視差情報生成部2の構成を示すブロック図である。視差情報生成部2は、ブロック分割部7を有している。ブロック分割部7は、入力される奥行き画像を所定のサイズ(例えば、8画素×8画素)に従うブロックに分割して、代表奥行き値決定部8に供給する。代表奥行き値決定部8は、ブロック分割部7により分割されたブロック内の奥行き値の頻度分布に基づいて代表奥行き値を決定する。
(Configuration of parallax information generation unit)
FIG. 2 is a block diagram illustrating a configuration of the disparity information generation unit 2. The disparity information generating unit 2 includes a block dividing unit 7. The block dividing unit 7 divides the input depth image into blocks according to a predetermined size (for example, 8 pixels × 8 pixels) and supplies the blocks to the representative depth value determining unit 8. The representative depth value determining unit 8 determines the representative depth value based on the frequency distribution of the depth values in the blocks divided by the block dividing unit 7.

視差情報生成部2には、距離情報抽出部13が設けられている。距離情報抽出部13は、撮影条件情報の中から、カメラ間距離Aと撮影距離a(図4)に相当する情報を抽出し、視差情報算出部9へ伝送する。視差情報算出部9は、代表奥行き値決定部8により決定された代表奥行き値と、距離情報抽出部13により抽出されたカメラ間距離A及び撮影距離aに基づいて視差情報を算出し、非基準視点画像符号化部3に供給する。   The disparity information generation unit 2 is provided with a distance information extraction unit 13. The distance information extraction unit 13 extracts information corresponding to the inter-camera distance A and the shooting distance a (FIG. 4) from the shooting condition information, and transmits the information to the parallax information calculation unit 9. The disparity information calculation unit 9 calculates disparity information based on the representative depth value determined by the representative depth value determination unit 8, the inter-camera distance A and the shooting distance a extracted by the distance information extraction unit 13, and the non-reference This is supplied to the viewpoint image encoding unit 3.

(代表奥行き値決定処理)
図3は、視差情報生成部2に設けられた代表奥行き値決定部8による代表奥行き値決定処理の概念図である。代表奥行き値決定部8は、ブロック分割部7により分割されたブロックごとに奥行き値の代表値を決定する。具体的には、ブロック内の奥行き値の頻度分布(ヒストグラム)を作成し、最も出現頻度の高い奥行き値を抽出して代表奥行き値として決定する。
(Representative depth value determination process)
FIG. 3 is a conceptual diagram of representative depth value determination processing by the representative depth value determination unit 8 provided in the parallax information generation unit 2. The representative depth value determining unit 8 determines a representative value of the depth value for each block divided by the block dividing unit 7. Specifically, a frequency distribution (histogram) of depth values in the block is created, and a depth value having the highest appearance frequency is extracted and determined as a representative depth value.

図3を参照すると、視点画像14に対応する奥行き画像15が与えられているとする。奥行き画像15は、輝度のみのモノクロ画像として表される。輝度が高い(=奥行き値が大きい)領域ほどカメラからの距離が近いことを意味し、輝度が低い(=奥行き値が小さい)領域ほどカメラからの距離が遠いことを意味する。奥行き画像15の中の分割されたブロック16において奥行き値が頻度分布17に示すように現れる場合、最も出現頻度の高い奥行き値18を、そのブロック16の代表奥行き値として決定する。   Referring to FIG. 3, it is assumed that a depth image 15 corresponding to the viewpoint image 14 is given. The depth image 15 is represented as a monochrome image with luminance only. A region with higher brightness (= large depth value) means a shorter distance from the camera, and a region with lower brightness (= smaller depth value) means a longer distance from the camera. When the depth value appears in the divided block 16 in the depth image 15 as shown in the frequency distribution 17, the depth value 18 having the highest appearance frequency is determined as the representative depth value of the block 16.

なお、奥行き値の代表値を決定する方法として、前述のようなヒストグラムに基づく方法の例を説明したが、本発明はこれに限定されない。ヒストグラムに基づく方法の他に、以下の方法に従って決定してもよい。例えば、ブロック内奥行き値の(a)中間値;(b)出現頻度を考慮した平均値;(c)カメラからの距離が最も近い値(ブロック内奥行き値の最大値);(d)カメラからの距離が最も遠い値(ブロック内奥行き値の最小値);をそれぞれ抽出して代表値として決定しても良い。どの方法を選択するかについては、例えば、それぞれの方法に基づいて得られた奥行き代表値を用いて視差予測をした際のもっとも予測誤差の小さい方法を選択するという方法がある。   In addition, although the example of the method based on the above histograms was demonstrated as a method of determining the representative value of a depth value, this invention is not limited to this. In addition to the method based on the histogram, it may be determined according to the following method. For example, (a) intermediate value of depth value in block; (b) average value considering appearance frequency; (c) value closest to camera (maximum value of depth value in block); (d) from camera May be extracted as the representative value by extracting the values with the longest distance (the minimum value of the in-block depth values). As to which method is selected, for example, there is a method of selecting a method with the smallest prediction error when performing parallax prediction using the depth representative value obtained based on each method.

奥行き値の代表値を決定する方法を選択する方法の具体例を以下に説明する。まず、上記(a)〜(d)を含む各方法に基づいて決定した奥行き値の代表値および、カメラ間距離と撮影距離とから、後述の方法に従って視差情報を算出する。得られる視差情報は、非基準視点画像における符号化対象ブロックの、基準視点画像に対する画像のズレを意味するものであるから、そのズレに対応する基準視点画像上の画像ブロックの画素値と、現在の符号化対象ブロックの画素値との差分をとると、その差分は充分小さな値になるはずである。この差分値が小さければ小さいほど符号化する際の効率が良くなるため、もっとも差分値が小さくなる視差情報すなわち奥行き代表値が得られる決定方法を選択すればよい。   A specific example of a method for selecting a method for determining the representative value of the depth value will be described below. First, disparity information is calculated according to a method described later from the representative value of the depth value determined based on each method including the above (a) to (d), the inter-camera distance, and the shooting distance. Since the obtained disparity information means the image shift of the encoding target block in the non-reference viewpoint image with respect to the reference viewpoint image, the pixel value of the image block on the reference viewpoint image corresponding to the shift and the current When the difference from the pixel value of the encoding target block is taken, the difference should be a sufficiently small value. Since the smaller the difference value is, the more efficient the encoding is. Therefore, it is only necessary to select a determination method that obtains the parallax information, that is, the depth representative value, with the smallest difference value.

また、奥行き画像15を分割する際のブロックサイズは、前述の8画素×8画素サイズに限らず、16画素×16画素、4画素×4画素などのサイズでもよい。また、縦横の画素数が同数でなくともよく、例えば16画素×8画素、8画素×16画素、8画素×4画素、4画素×8画素などのサイズでもよい。これらのサイズは、奥行き画像15及び対応する視点画像14に含まれる被写体の大きさや、要求される圧縮率などに応じて最適なサイズを選択する。   In addition, the block size when dividing the depth image 15 is not limited to the 8 pixel × 8 pixel size described above, and may be a size of 16 pixels × 16 pixels, 4 pixels × 4 pixels, or the like. The number of vertical and horizontal pixels does not have to be the same. For example, the size may be 16 pixels × 8 pixels, 8 pixels × 16 pixels, 8 pixels × 4 pixels, 4 pixels × 8 pixels, or the like. For these sizes, an optimum size is selected according to the size of the subject included in the depth image 15 and the corresponding viewpoint image 14, the required compression rate, and the like.

視差情報算出部9は、代表奥行き値決定部8により決定された代表奥行き値Zと、距離情報抽出部13により撮影条件情報から抽出されたカメラ間隔Aおよび撮影距離aを示す情報とに基づいて、後述する(式1)に従って、該当ブロックの視差値(視差情報)vを算出する。   The parallax information calculation unit 9 is based on the representative depth value Z determined by the representative depth value determination unit 8 and information indicating the camera interval A and the shooting distance a extracted from the shooting condition information by the distance information extraction unit 13. The parallax value (parallax information) v of the corresponding block is calculated according to (Equation 1) described later.

この視差情報を算出する際、奥行き画像15に含まれる奥行き値は、カメラから被写体までの距離そのものではなく、撮影した画像に含まれる距離レンジを所定の数値範囲(例えば0〜255)によって表したものである。このため、撮影条件情報に含まれる撮影時の距離レンジを表す情報(例えば、画像に含まれる被写体に関するカメラからの距離の最小値と最大値で構成される)に基づいて、奥行き値を実際の距離である画像距離に変換し、撮影距離a及びカメラ間隔Aなどの実距離を示す数値と次元を合わせておく。視差値の算出式は次の(式1)の通り定義する。   When calculating the parallax information, the depth value included in the depth image 15 represents the distance range included in the captured image, not the distance itself from the camera to the subject, but by a predetermined numerical range (for example, 0 to 255). Is. For this reason, the depth value is calculated based on the information indicating the distance range at the time of shooting included in the shooting condition information (for example, the minimum value and the maximum value of the distance from the camera regarding the subject included in the image). It is converted into an image distance, which is a distance, and the numerical value indicating the actual distance such as the shooting distance a and the camera interval A is combined with the dimension. The formula for calculating the parallax value is defined as follows (Formula 1).

v=(a−Z)/Z×A=(a/Z−1)×A …(式1)
ただし、
v … 視差値(視差情報)
a … 撮影距離
A … カメラ間隔
Z … 代表奥行き値
ここで、(式1)と各パラメータの意味を説明する。図4は、奥行き値と視差値との関係を示す概念図である。2つの視点すなわちカメラ10A・10Bと、2つの被写体12A・12Bとが、図4のような位置関係にある場合を想定する。この時、各被写体12A・12B上の正面の点19A・19Bは、カメラ10A・10Bから撮影距離aだけ離れた平面20上の位置PL1・PR1及び位置PL2・PR2に投影される。
v = (a−Z) / Z × A = (a / Z−1) × A (Formula 1)
However,
v ... Parallax value (parallax information)
a ... shooting distance A ... camera interval Z ... representative depth value Here, (Equation 1) and the meaning of each parameter will be described. FIG. 4 is a conceptual diagram showing the relationship between the depth value and the parallax value. Assume that the two viewpoints, that is, the cameras 10A and 10B and the two subjects 12A and 12B are in a positional relationship as shown in FIG. At this time, the front points 19A and 19B on the subjects 12A and 12B are projected to positions PL1 and PR1 and positions PL2 and PR2 on the plane 20 that are separated from the cameras 10A and 10B by the photographing distance a.

平面20が観察時のスクリーン面に相当するとみなすと、位置PL1及びPR1は、被写体12A上の点19Aに関する左視点画像上と右視点画像上との画素の対応点を意味する。同様に位置PL2・PR2は、被写体12B上の点19Bに関する左視点画像上と右視点画像上との画素の対応点を意味する。   Assuming that the plane 20 corresponds to the screen surface at the time of observation, the positions PL1 and PR1 mean corresponding points of pixels on the left viewpoint image and the right viewpoint image regarding the point 19A on the subject 12A. Similarly, the positions PL2 and PR2 mean corresponding points of pixels on the left viewpoint image and the right viewpoint image regarding the point 19B on the subject 12B.

そして、2つのカメラ10A・10Bの間の距離をA、カメラ10A・10Bの撮影距離をa、被写体12A・12Bの正面の点19A・19Bまでの距離(代表奥行き値)をZ1、Z2とすると、被写体12Aに対応するカメラ10Aの視点からの画像とカメラ10Bの視点からの画像との間の視差d1と、被写体12Bに対応するカメラ10Aの視点からの画像とカメラ10Bの視点からの画像との間の視差d2と、上記各パラメータ(カメラ間隔A、撮影距離a、代表奥行き値Z1・Z2)との間には、以下の関係が成り立つ。ここで、代表奥行き値Z1・Z2は、(式1)における画像距離(代表値)Zと同様に、カメラからの実距離であって、奥行き画像における奥行き値そのものではない。   If the distance between the two cameras 10A and 10B is A, the shooting distance of the cameras 10A and 10B is a, and the distances (representative depth values) to the points 19A and 19B in front of the subjects 12A and 12B are Z1 and Z2. The parallax d1 between the image from the viewpoint of the camera 10A corresponding to the subject 12A and the image from the viewpoint of the camera 10B, the image from the viewpoint of the camera 10A corresponding to the subject 12B, and the image from the viewpoint of the camera 10B And the above parameters (camera interval A, shooting distance a, representative depth values Z1 and Z2) have the following relationship. Here, like the image distance (representative value) Z in (Expression 1), the representative depth values Z1 and Z2 are actual distances from the camera, not the depth values themselves in the depth image.

A:Z1=d1:(a−Z1) …(式2)
A:Z2=d2:(Z2−a) …(式3)
そして、視差値vを、右視点画像の対応点に対する左視点画像の対応点の位置(ベクトル)として定義すると、前述の(式1)で視差値vを与えることができる。視差値vは、図2および図3を用いて説明した通り、所定のブロック単位で算出することができる。このため、奥行き画像をブロック分割部7で分割する際のブロックサイズを、非基準視点画像符号化部3における視差予測符号化方式の処理単位と同じサイズに設定することにより、視差情報算出部9で生成した視差値を、そのまま非基準視点画像に関する視差ベクトルとして扱うことができる。すなわち、非基準視点画像符号化部3は、視差予測符号化を行う際に、視点画像間でブロックマッチングをとるような演算コストの高い処理を行う代わりに、(式1)に従って視差情報生成部2が算出した視差値をそのまま用いて視差予測符号化を行うことができる。
A: Z1 = d1: (a−Z1) (Formula 2)
A: Z2 = d2: (Z2-a) (Formula 3)
If the parallax value v is defined as the position (vector) of the corresponding point of the left viewpoint image with respect to the corresponding point of the right viewpoint image, the parallax value v can be given by the above-described (Equation 1). As described with reference to FIGS. 2 and 3, the parallax value v can be calculated in units of predetermined blocks. For this reason, by setting the block size when the depth image is divided by the block dividing unit 7 to the same size as the processing unit of the disparity prediction encoding method in the non-reference viewpoint image encoding unit 3, the disparity information calculating unit 9 The disparity value generated in (1) can be directly handled as a disparity vector related to the non-reference viewpoint image. That is, the non-reference viewpoint image encoding unit 3 performs a parallax information generation unit according to (Equation 1) instead of performing processing with high calculation cost such as block matching between viewpoint images when performing parallax prediction encoding. The disparity prediction encoding can be performed using the disparity value calculated by 2 as it is.

図5(a)は平行法撮影における撮影距離を示す図であり、(b)は交差法撮影における撮影距離を示す図である。上述したカメラ10A・10Bの撮影距離aは、平行法撮影の場合、すなわち2つのカメラ10A・10Bの光軸が平行の場合には、撮影時にピントを合わせた距離(焦点距離)を撮影距離aに相当するとみなし(図5(a))、交差法撮影の場合、すなわち2つのカメラ10A・10Bの光軸が前方で交差する場合には、カメラ10A・10Bから交差点(クロスポイント)までの距離を撮影距離aに相当するとみなしてよい(図5(b))。   FIG. 5A is a diagram showing a shooting distance in parallel photographing, and FIG. 5B is a diagram showing a photographing distance in cross photographing. The shooting distance a of the cameras 10A and 10B described above is the distance (focal length) that is in focus at the time of shooting in the case of parallel shooting, that is, when the optical axes of the two cameras 10A and 10B are parallel. (FIG. 5 (a)), in the case of crossing method shooting, that is, when the optical axes of the two cameras 10A and 10B intersect in front, the distance from the cameras 10A and 10B to the intersection (cross point) May be regarded as corresponding to the shooting distance a (FIG. 5B).

以上、本発明の実施の形態の一つである多視点画像符号化装置1について説明した。図1に示したように、本実施の形態では視点画像が基準視点画像と非基準視点画像との2つ、奥行き画像が1つであるケースを例に挙げているが、視点画像が3つ以上の場合や、奥行き画像が2つ以上の場合でも、本発明の思想に基づいて多視点画像符号化装置を構成することができる。例えば視点画像が3つの場合は、1つの視点画像を基準視点として扱って視点内予測符号化方式により圧縮符号化し、残りの2つの視点画像は非基準視点の視点画像として視点間予測符号化方式により圧縮符号化する。あるいは、基準視点の視点画像が2つで、残りの1つの視点画像のみ非基準視点の視点画像としてもよい。奥行き画像が2つの場合は、2つとも視点内予測符号化方式により圧縮符号化してもよいし、一方を基準視点、他方を非基準視点とみなして、それぞれ視点内予測符号化方式と視点間予測符号化方式により圧縮符号化してもよい。奥行き画像が3つの場合は、視点画像が3つの場合と同様の考え方を適用できる。さらに、視点画像と奥行き画像がそれぞれ3つを超える場合も、同様の考え方を適用することができる。   The multi-view image encoding device 1 that is one of the embodiments of the present invention has been described above. As shown in FIG. 1, in this embodiment, a case where there are two viewpoint images, a reference viewpoint image and a non-reference viewpoint image, and a depth image is given as an example, but there are three viewpoint images. Even in the above case or when there are two or more depth images, the multi-viewpoint image encoding device can be configured based on the idea of the present invention. For example, when there are three viewpoint images, one viewpoint image is treated as a reference viewpoint, and compression encoding is performed by an intra-view prediction encoding method, and the remaining two viewpoint images are non-reference viewpoint viewpoint images. Is compressed and encoded. Alternatively, there may be two reference viewpoint viewpoint images, and only the remaining one viewpoint image may be a non-reference viewpoint viewpoint image. When there are two depth images, both of them may be compression-encoded by the intra-view prediction encoding method, or one of them is regarded as a reference view and the other is a non-reference view, and the intra-view prediction encoding method and the inter-viewpoint respectively. Compression encoding may be performed by a predictive encoding method. In the case of three depth images, the same concept as in the case of three viewpoint images can be applied. Furthermore, the same concept can be applied when there are more than three viewpoint images and depth images.

なお、本実施形態において、奥行き画像は、入力データとしてあらかじめ用意されているものとして扱っているが、奥行き画像は、複数の視点画像からブロックマッチング等により推定する方法や、赤外線や超音波などを被写体に向けて放射しその反射時間を測定する方法等によって、生成することができる。   In this embodiment, the depth image is handled as being prepared as input data in advance. However, the depth image is obtained by estimating a plurality of viewpoint images by block matching or the like, infrared rays, ultrasonic waves, or the like. It can be generated by a method of radiating toward the subject and measuring the reflection time.

(実施の形態2)
(多視点画像復号装置の構成)
図6は、実施の形態2に係る多視点画像復号装置50の構成を示すブロック図である。多視点画像復号装置50に入力されるデータは、実施形態1に係る多視点画像符号化装置1から出力される基準視点画像の符号化データ、非基準視点画像の符号化データ、奥行き画像の符号化データ、撮影条件情報の符号化データである。各符号化データは、符号化ストリームとして連結されて伝送されたものを、図示しない符号分離部により分離・抽出することによって与えられる。
(Embodiment 2)
(Configuration of multi-view image decoding device)
FIG. 6 is a block diagram showing a configuration of multi-view image decoding apparatus 50 according to Embodiment 2. The data input to the multi-view image decoding device 50 includes encoded data of a reference viewpoint image, encoded data of a non-reference viewpoint image, and a depth image code output from the multi-view image encoding device 1 according to the first embodiment. Encoding data and imaging condition information encoding data. Each piece of encoded data is given by separating and extracting what has been concatenated and transmitted as an encoded stream by a code separation unit (not shown).

多視点画像復号装置50は、基準視点画像復号部53を備えている。基準視点画像復号部53は、符号化された基準視点画像を受け取って復号する。多視点画像復号装置50には、奥行き画像復号部54が設けられている。奥行き画像復号部54は、符号化された奥行き画像を受け取って復号する。多視点画像復号装置50は、撮像条件情報復号部55を備えている。撮像条件情報復号部55は、符号化された撮像条件情報を受け取って復号する。   The multi-view image decoding device 50 includes a reference viewpoint image decoding unit 53. The reference viewpoint image decoding unit 53 receives and decodes the encoded reference viewpoint image. The multi-viewpoint image decoding device 50 is provided with a depth image decoding unit 54. The depth image decoding unit 54 receives and decodes the encoded depth image. The multi-viewpoint image decoding device 50 includes an imaging condition information decoding unit 55. The imaging condition information decoding unit 55 receives and decodes the encoded imaging condition information.

多視点画像復号装置50には、視差情報生成部51が設けられている。視差情報生成部51は、奥行き画像復号部54により復号された奥行き画像と、撮像条件情報復号部55により復号された撮像条件情報とに基づいて、基準視点と非基準視点との間の視差情報を生成する。多視点画像復号装置50は、非基準視点画像復号部52を備えている。非基準視点画像復号部52は、基準視点画像復号部53により復号された基準視点画像と、視差情報生成部51により生成された視差情報とに基づいて、符号化された非基準視点画像を受け取って復号する。   The multi-viewpoint image decoding device 50 is provided with a parallax information generation unit 51. The disparity information generation unit 51 is based on the depth image decoded by the depth image decoding unit 54 and the imaging condition information decoded by the imaging condition information decoding unit 55, and the disparity information between the reference viewpoint and the non-reference viewpoint Is generated. The multi-view image decoding device 50 includes a non-reference viewpoint image decoding unit 52. The non-reference viewpoint image decoding unit 52 receives an encoded non-reference viewpoint image based on the reference viewpoint image decoded by the reference viewpoint image decoding unit 53 and the disparity information generated by the disparity information generation unit 51. To decrypt.

視差情報生成部51は、復号された奥行き画像を分割したブロックの代表奥行き値を決定する。撮像条件情報復号部55により復号された撮像条件情報は、基準視点に配置されたカメラと非基準視点に配置されたカメラとの間のカメラ間距離、及び両カメラと被写体との間の撮影距離を含む。視差情報生成部51は、各ブロックの代表奥行き値と、前記カメラ間距離及び前記撮影距離とに基づいて視差情報を算出する。   The disparity information generation unit 51 determines a representative depth value of a block obtained by dividing the decoded depth image. The imaging condition information decoded by the imaging condition information decoding unit 55 includes an inter-camera distance between a camera arranged at a reference viewpoint and a camera arranged at a non-reference viewpoint, and an imaging distance between both cameras and a subject. including. The disparity information generation unit 51 calculates disparity information based on the representative depth value of each block, the inter-camera distance, and the shooting distance.

非基準視点画像復号部52は、奥行き画像復号部54により復元された奥行き画像を分割したブロックに対応するブロックごとに、前記視差情報が示す基準視点画像内の画素値を利用して復号する。   The non-reference viewpoint image decoding unit 52 decodes each block corresponding to the block obtained by dividing the depth image restored by the depth image decoding unit 54 using the pixel value in the reference viewpoint image indicated by the disparity information.

基準視点画像復号部53は、視点内予測符号化方式により、圧縮符号化された符号化データを復号し、基準視点画像を復元する。復元した基準視点画像は、そのまま表示に使用されると共に、後述する非基準視点画像の復号にも使用される。奥行き画像復号部54は、基準視点画像復号部53と同様に、視点内予測符号化に従う方式により、圧縮符号化された符号化データを復号し、奥行き画像を復元する。復元した奥行き画像は、非基準視点画像を生成・表示するために使用される。   The reference viewpoint image decoding unit 53 decodes the compression-encoded encoded data by the intra-view prediction encoding method, and restores the reference viewpoint image. The restored reference viewpoint image is used for display as it is and also for decoding a non-reference viewpoint image described later. Similar to the reference viewpoint image decoding unit 53, the depth image decoding unit 54 decodes the encoded data that has been compression-encoded by a method according to intra-view prediction encoding, and restores the depth image. The restored depth image is used to generate and display a non-reference viewpoint image.

撮影条件情報復号部55は、撮影条件情報の符号化データから、撮影時のカメラ間距離と撮影距離とを含む情報を復元する。復元した撮影条件情報は、奥行き画像と共に、必要な視点画像を生成・表示するために使用される。視差情報生成部51は、復元された前記奥行き画像および、撮影条件情報に基づいて、視差情報を生成する。視差情報生成の方法・手順は、前述の多視点画像符号化装置1における視差情報生成部2と同様である。   The shooting condition information decoding unit 55 restores information including the inter-camera distance and the shooting distance at the time of shooting from the encoded data of the shooting condition information. The restored photographing condition information is used for generating and displaying a necessary viewpoint image together with the depth image. The disparity information generation unit 51 generates disparity information based on the restored depth image and shooting condition information. The disparity information generation method and procedure are the same as those of the disparity information generation unit 2 in the multi-view image encoding device 1 described above.

非基準視点画像復号部52は、視点間予測符号化に従う方式により、圧縮符号化された非基準視点画像の符号化データを、復元された前記基準視点画像と、前記視差情報とに基づいて復号し、非基準視点画像を復元する。最終的に、基準視点画像、非基準視点画像は、そのまま表示用画像として使用され、また、必要に応じて、奥行き画像と撮影条件情報とに基づいて、その他の視点の画像が表示用に生成される。視点画像の生成処理については、多視点画像復号装置50内で行ってもよいし、多視点画像復号装置50の外部で行ってもよい。   The non-reference viewpoint image decoding unit 52 decodes the encoded data of the compression-coded non-reference viewpoint image based on the restored reference viewpoint image and the disparity information by a method according to inter-view prediction encoding. Then, the non-reference viewpoint image is restored. Finally, the reference viewpoint image and the non-reference viewpoint image are used as display images as they are, and images of other viewpoints are generated for display based on the depth image and shooting condition information as necessary. Is done. The viewpoint image generation processing may be performed within the multi-view image decoding device 50 or may be performed outside the multi-view image decoding device 50.

ここで、多視点画像復号装置50に入力される符号化データのうち、視点間予測符号化方式により圧縮符号化された非基準視点画像の符号化データについてさらに説明する。前述の画像符号化装置1に関する説明の通り、視差予測符号化方式に必要な視差ベクトルは、複数の視点画像から検出するのではなく、奥行き画像から生成することによって得られている。画像復号装置50においても、奥行き画像が符号化データとして与えられるため、奥行き画像を復元した後、復元された奥行き画像から視差ベクトルを生成している。すなわち、視差ベクトルは、画像符号化装置から伝送されることなく、画像復号装置側で生成することができる。この構成により、画像符号化装置から画像復号装置へ伝送される符号量を削減し、符号化データの伝送や記録の際に、伝送路や記録メディアの利用効率を高めることができる。   Here, among the encoded data input to the multi-view image decoding apparatus 50, the encoded data of the non-reference viewpoint image that has been compression-encoded by the inter-view prediction encoding method will be further described. As described above with respect to the image encoding device 1, the disparity vector necessary for the disparity prediction encoding method is obtained by generating from a depth image rather than detecting from a plurality of viewpoint images. Also in the image decoding apparatus 50, since the depth image is given as the encoded data, the parallax vector is generated from the restored depth image after the depth image is restored. That is, the disparity vector can be generated on the image decoding device side without being transmitted from the image encoding device. With this configuration, it is possible to reduce the amount of code transmitted from the image encoding device to the image decoding device, and to increase the utilization efficiency of the transmission path and the recording medium when transmitting and recording the encoded data.

前述した特許文献1に記載の画像符号化装置では、符号化データの中に視差ベクトルも含む構成となっているが(特許文献1:明細書段落[0105])、実施の形態2に係る多視点画像復号装置50では、奥行き画像から視差ベクトルを生成することができ、復号装置側でも視差ベクトルを生成することができるので、実施の形態1に係る多視点画像符号化装置1では視差ベクトルを符号化する必要がなくなり、その分の符号量を削減することができる。   In the image encoding device described in Patent Document 1 described above, the encoded data includes a disparity vector (Patent Document 1: Paragraph [0105] of the specification). The viewpoint image decoding device 50 can generate a disparity vector from the depth image, and the decoding device side can also generate a disparity vector. Therefore, the multi-viewpoint image encoding device 1 according to Embodiment 1 uses the disparity vector. There is no need for encoding, and the amount of code can be reduced accordingly.

(画像符号化・復号装置のソフトウェア的実現方法)
最後に、多視点画像符号化装置1および多視点画像復号装置50の各ブロック、特に基準視点画像符号化部4、奥行き画像符号化部5、視差情報生成部2、非基準視点画像符号化部3、基準視点画像復号部53、奥行き画像復号部54、視差情報生成部51、および非基準視点画像復号部52、は、集積回路(ICチップ)上に形成された論理回路によってハードウェア的に実現してもよいし、CPU(central processing unit)を用いてソフトウェア的に実現してもよい。
(Software implementation method of image encoding / decoding device)
Finally, each block of the multi-view image encoding device 1 and the multi-view image decoding device 50, in particular, the reference viewpoint image encoding unit 4, the depth image encoding unit 5, the disparity information generation unit 2, and the non-reference viewpoint image encoding unit 3. The reference viewpoint image decoding unit 53, the depth image decoding unit 54, the parallax information generation unit 51, and the non-reference viewpoint image decoding unit 52 are implemented in hardware by a logic circuit formed on an integrated circuit (IC chip). It may be realized or may be realized by software using a CPU (central processing unit).

後者の場合、多視点画像符号化装置1および多視点画像復号装置50は、各機能を実現する制御プログラムの命令を実行するCPU、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである画像符号化装置100および画像復号装置600の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記各装置に供給し、そのコンピュータ(またはCPUやMPU(microprocessor unit))が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。   In the latter case, the multi-view image encoding device 1 and the multi-view image decoding device 50 expand a CPU that executes instructions of a control program that realizes each function, a ROM (read only memory) that stores the program, and the program. A random access memory (RAM), and a storage device (recording medium) such as a memory for storing the program and various data. An object of the present invention is to allow a computer to read program codes (execution format program, intermediate code program, source program) of control programs for the image encoding device 100 and the image decoding device 600, which are software that realizes the functions described above. This can also be achieved by supplying the recording medium recorded in (1) to each of the above devices, and reading and executing the program code recorded on the recording medium by the computer (or CPU or MPU (microprocessor unit)).

上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ類、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM(compact disc read-only memory)/MO(magneto-optical)/MD(Mini Disc)/DVD(digital versatile disk)/CD−R(CD Recordable)等の光ディスクを含むディスク類、ICカード(メモリカードを含む)/光カード等のカード類、マスクROM/EPROM(erasable programmable read-only memory)/EEPROM(electrically erasable and programmable read-only memory)/フラッシュROM等の半導体メモリ類、あるいはPLD(Programmable logic device)やFPGA(Field Programmable Gate Array)等の論理回路類などを用いることができる。   Examples of the recording medium include tapes such as a magnetic tape and a cassette tape, a magnetic disk such as a floppy (registered trademark) disk / hard disk, a CD-ROM (compact disc read-only memory) / MO (magneto-optical) / Disks including optical discs such as MD (Mini Disc) / DVD (digital versatile disk) / CD-R (CD Recordable), cards such as IC cards (including memory cards) / optical cards, mask ROM / EPROM (erasable) Uses semiconductor memory such as programmable read-only memory (EEPROM) / EEPROM (electrically erasable and programmable read-only memory) / flash ROM, or logic circuits such as PLD (Programmable logic device) and FPGA (Field Programmable Gate Array) be able to.

また、多視点画像符号化装置1および多視点画像復号装置50を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークは、プログラムコードを伝送可能であればよく、特に限定されない。例えば、インターネット、イントラネット、エキストラネット、LAN(local area network)、ISDN(integrated services digital network)、VAN(value-added network)、CATV(community antenna television)通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、この通信ネットワークを構成する伝送媒体も、プログラムコードを伝送可能な媒体であればよく、特定の構成または種類のものに限定されない。例えば、IEEE(institute of electrical and electronic engineers)1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL(asynchronous digital subscriber loop)回線等の有線でも、IrDA(infrared data association)やリモコンのような赤外線、Bluetooth(登録商標)、IEEE802.11無線、HDR(high data rate)、NFC(Near Field Communication)、DLNA(Digital Living Network Alliance)、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。   Further, the multi-view image encoding device 1 and the multi-view image decoding device 50 may be configured to be connectable to a communication network, and the program code may be supplied via the communication network. The communication network is not particularly limited as long as it can transmit the program code. For example, the Internet, intranet, extranet, LAN (local area network), ISDN (integrated services digital network), VAN (value-added network), CATV (community antenna television) communication network, virtual private network (virtual private network), A telephone line network, a mobile communication network, a satellite communication network, etc. can be used. The transmission medium constituting the communication network may be any medium that can transmit the program code, and is not limited to a specific configuration or type. For example, infra-red data association (IrDA) or remote control such as IEEE (institute of electrical and electronic engineers) 1394, USB, power line carrier, cable TV line, telephone line, ADSL (asynchronous digital subscriber loop) line, etc. , Bluetooth (registered trademark), IEEE 802.11 wireless, HDR (high data rate), NFC (Near Field Communication), DLNA (Digital Living Network Alliance), mobile phone network, satellite line, terrestrial digital network, etc. Is possible.

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。   The present invention is not limited to the above-described embodiments, and various modifications are possible within the scope shown in the claims, and embodiments obtained by appropriately combining technical means disclosed in different embodiments. Is also included in the technical scope of the present invention.

本発明は、複数の視点から撮影された画像とその奥行き画像とを符号化する多視点画像符号化装置と、それらを復号する多視点画像復号装置に適用することができる。   The present invention can be applied to a multi-view image encoding device that encodes images taken from a plurality of viewpoints and depth images thereof, and a multi-view image decoding device that decodes them.

1 多視点画像符号化装置
2 視差情報生成部(視差情報生成手段)
3 非基準視点画像符号化部(第2視点画像符号化手段)
4 基準視点画像符号化部(第1視点画像符号化手段)
5 奥行き画像符号化部(奥行き画像符号化手段)
6 撮像条件情報符号化部(撮像条件情報符号化手段)
7 ブロック分割部
8 代表奥行き値決定部(代表奥行き値決定手段)
9 視差情報算出部
10A、10B カメラ(第1カメラ、第2カメラ)
12A、12B 被写体
13 距離情報抽出部
14 視点画像
15 奥行き画像
16 ブロック
17 頻度分布
18 奥行き値
19A、19B 点
20 平面
PR1、PL1、PR2、PL2 位置
DESCRIPTION OF SYMBOLS 1 Multiview image coding apparatus 2 Parallax information generation part (parallax information generation means)
3 Non-reference viewpoint image encoding unit (second viewpoint image encoding means)
4 Reference viewpoint image encoding unit (first viewpoint image encoding means)
5 Depth image encoding unit (depth image encoding means)
6 Imaging condition information encoding unit (imaging condition information encoding means)
7 Block division part 8 Representative depth value determination part (Representative depth value determination means)
9 Parallax information calculation unit 10A, 10B Camera (first camera, second camera)
12A, 12B Subject 13 Distance information extraction unit 14 Viewpoint image 15 Depth image 16 Block 17 Frequency distribution 18 Depth value 19A, 19B Point 20 Plane PR1, PL1, PR2, PL2 Position

Claims (9)

第1視点から撮像した第1視点画像を受け取って符号化し、符号化した第1視点画像を第1視点画像に復元する第1視点画像符号化手段と、
第2視点から撮像した第2視点画像に対応する奥行き画像を符号化し、符号化した奥行き画像を奥行き画像に復元する奥行き画像符号化手段と、
前記奥行き画像符号化手段により復元された奥行き画像と、前記第1視点画像と前記第2視点画像とを撮像するための撮像条件情報とに基づいて、前記第1視点と前記第2視点との間の視差情報を生成する視差情報生成手段と、
前記第1視点画像符号化手段により復元された第1視点画像と、前記視差情報生成手段により生成された視差情報とに基づいて、前記第2視点画像を受け取って符号化する第2視点画像符号化手段とを備えたことを特徴とする多視点画像符号化装置。
First viewpoint image encoding means for receiving and encoding a first viewpoint image captured from a first viewpoint and restoring the encoded first viewpoint image to a first viewpoint image;
A depth image encoding means for encoding a depth image corresponding to the second viewpoint image captured from the second viewpoint and restoring the encoded depth image to the depth image;
Based on the depth image restored by the depth image encoding means and imaging condition information for imaging the first viewpoint image and the second viewpoint image, the first viewpoint and the second viewpoint Disparity information generating means for generating disparity information between,
A second viewpoint image code that receives and encodes the second viewpoint image based on the first viewpoint image restored by the first viewpoint image encoding means and the disparity information generated by the disparity information generating means; And a multi-viewpoint image encoding apparatus.
前記視差情報生成手段は、前記復元された奥行き画像を分割したブロックの代表奥行き値を決定する代表奥行き値決定手段を有する請求項1記載の多視点画像符号化装置。   The multi-viewpoint image encoding device according to claim 1, wherein the disparity information generating unit includes a representative depth value determining unit that determines a representative depth value of a block obtained by dividing the restored depth image. 前記代表奥行き値決定手段は、前記復元された奥行き画像を分割したブロック内の奥行き値の頻度分布に基づいて、前記代表奥行き値を決定する請求項2記載の多視点画像符号化装置。   The multi-viewpoint image encoding apparatus according to claim 2, wherein the representative depth value determination unit determines the representative depth value based on a frequency distribution of depth values in a block obtained by dividing the restored depth image. 前記撮像条件情報は、前記第1視点に配置された第1カメラと前記第2視点に配置された第2カメラとの間のカメラ間距離、及び前記第1及び第2カメラと被写体との間の撮影距離を含み、
前記視差情報生成手段は、前記各ブロックの代表奥行き値と、前記カメラ間距離及び前記撮影距離とに基づいて、前記視差情報を算出する視差情報算出手段をさらに有する請求項2記載の多視点画像符号化装置。
The imaging condition information includes an inter-camera distance between a first camera arranged at the first viewpoint and a second camera arranged at the second viewpoint, and between the first and second cameras and a subject. Including the shooting distance of
The multi-viewpoint image according to claim 2, wherein the disparity information generating unit further includes disparity information calculating unit that calculates the disparity information based on a representative depth value of each block, the inter-camera distance, and the shooting distance. Encoding device.
前記第2視点画像符号化手段は、前記奥行き画像符号化手段により復元された奥行き画像を分割したブロックに対応するブロックごとに、前記視差情報が示す第1視点画像内の画素値を利用して予測符号化する請求項1記載の多視点画像符号化装置。   The second viewpoint image encoding unit uses a pixel value in the first viewpoint image indicated by the disparity information for each block corresponding to a block obtained by dividing the depth image restored by the depth image encoding unit. The multi-viewpoint image encoding apparatus according to claim 1, which performs predictive encoding. 前記撮像条件情報を受け取って符号化する撮像条件情報符号化手段をさらに備え、
前記第1視点画像は、基準となる視点からの視点画像である基準視点画像であり、
前記第2視点画像は、前記基準視点画像以外の視点画像である請求項1記載の多視点画像符号化装置。
Further comprising imaging condition information encoding means for receiving and encoding the imaging condition information;
The first viewpoint image is a reference viewpoint image that is a viewpoint image from a reference viewpoint,
The multi-viewpoint image encoding apparatus according to claim 1, wherein the second viewpoint image is a viewpoint image other than the reference viewpoint image.
符号化された第1視点画像を受け取って復号する第1視点画像復号手段と、
符号化された奥行き画像を受け取って復号する奥行き画像復号手段と、
符号化された撮像条件情報を受け取って復号する撮像条件情報復号手段と、
前記奥行き画像復号手段により復号された奥行き画像と、前記撮像条件情報復号手段により復号された撮像条件情報とに基づいて、第1視点と第2視点との間の視差情報を生成する視差情報生成手段と、
前記第1視点画像復号手段により復号された第1視点画像と、前記視差情報生成手段により生成された視差情報とに基づいて、符号化された第2視点画像を受け取って復号する第2視点画像復号手段とを備えたことを特徴とする多視点画像復号装置。
First viewpoint image decoding means for receiving and decoding the encoded first viewpoint image;
Depth image decoding means for receiving and decoding the encoded depth image;
Imaging condition information decoding means for receiving and decoding the encoded imaging condition information;
Disparity information generation for generating disparity information between the first viewpoint and the second viewpoint based on the depth image decoded by the depth image decoding means and the imaging condition information decoded by the imaging condition information decoding means Means,
A second viewpoint image that receives and decodes the encoded second viewpoint image based on the first viewpoint image decoded by the first viewpoint image decoding means and the disparity information generated by the disparity information generating means. A multi-viewpoint image decoding apparatus comprising: a decoding unit.
前記視差情報生成手段は、前記復号された奥行き画像を分割したブロックの代表奥行き値を決定し、
前記撮像条件情報復号手段により復号された撮像条件情報は、第1視点に配置された第1カメラと第2視点に配置された第2カメラとの間のカメラ間距離、及び前記第1及び第2カメラと被写体との間の撮影距離を含み、
前記視差情報生成手段は、前記各ブロックの代表奥行き値と、前記カメラ間距離及び前記撮影距離とに基づいて、前記視差情報を算出する請求項7記載の多視点画像復号装置。
The disparity information generating means determines a representative depth value of a block obtained by dividing the decoded depth image;
The imaging condition information decoded by the imaging condition information decoding unit includes the inter-camera distance between the first camera arranged at the first viewpoint and the second camera arranged at the second viewpoint, and the first and first Including the shooting distance between the two cameras and the subject,
The multi-viewpoint image decoding apparatus according to claim 7, wherein the disparity information generation unit calculates the disparity information based on a representative depth value of each block, the inter-camera distance, and the shooting distance.
前記第2視点画像復号手段は、前記奥行き画像復号手段により復元された奥行き画像を分割したブロックに対応するブロックごとに、前記視差情報が示す第1視点画像内の画素値を利用して復号する請求項7記載の多視点画像復号装置。   The second viewpoint image decoding unit decodes each block corresponding to the block obtained by dividing the depth image restored by the depth image decoding unit using a pixel value in the first viewpoint image indicated by the disparity information. The multi-viewpoint image decoding apparatus according to claim 7.
JP2010245332A 2010-11-01 2010-11-01 Multi-viewpoint image encoding device and multi-viewpoint image decoding device Pending JP2012100019A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010245332A JP2012100019A (en) 2010-11-01 2010-11-01 Multi-viewpoint image encoding device and multi-viewpoint image decoding device
PCT/JP2011/070641 WO2012060156A1 (en) 2010-11-01 2011-09-09 Multi-viewpoint image encoding device and multi-viewpoint image decoding device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010245332A JP2012100019A (en) 2010-11-01 2010-11-01 Multi-viewpoint image encoding device and multi-viewpoint image decoding device

Publications (1)

Publication Number Publication Date
JP2012100019A true JP2012100019A (en) 2012-05-24

Family

ID=46024277

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010245332A Pending JP2012100019A (en) 2010-11-01 2010-11-01 Multi-viewpoint image encoding device and multi-viewpoint image decoding device

Country Status (2)

Country Link
JP (1) JP2012100019A (en)
WO (1) WO2012060156A1 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013039031A1 (en) * 2011-09-15 2013-03-21 シャープ株式会社 Image encoder, image-decoding unit, and method and program therefor
JP2013258577A (en) * 2012-06-13 2013-12-26 Canon Inc Imaging device, imaging method and program, image encoding device, and image encoding method and program
WO2014103966A1 (en) * 2012-12-27 2014-07-03 日本電信電話株式会社 Image encoding method, image decoding method, image encoding device, image decoding device, image encoding program, and image decoding program
JP2015525999A (en) * 2012-07-05 2015-09-07 聯發科技股▲ふん▼有限公司Mediatek Inc. Method and apparatus for unified disparity vector derivation in 3D video coding
JP2015535405A (en) * 2012-09-21 2015-12-10 ノキア テクノロジーズ オサケユイチア Method and apparatus for video coding

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10080036B2 (en) 2013-05-16 2018-09-18 City University Of Hong Kong Method and apparatus for depth video coding using endurable view synthesis distortion
US20170009414A1 (en) 2014-01-24 2017-01-12 Synthetica Holdings Pty Ltd Improved Apparatus for Cleaning Synthetic Grass
EP3383039A4 (en) * 2015-11-23 2019-04-17 Electronics and Telecommunications Research Institute Multi-viewpoint video encoding/decoding method

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09289638A (en) * 1996-04-23 1997-11-04 Nec Corp Three-dimensional image encoding/decoding system
JP2000023198A (en) * 1998-07-03 2000-01-21 Nippon Hoso Kyokai <Nhk> Compression encoder for multiaspect picture and extension decoder
JP2004048725A (en) * 1996-04-05 2004-02-12 Matsushita Electric Ind Co Ltd Picture transmission equipment, sending equipment, and receiving equipment
JP2007036800A (en) * 2005-07-28 2007-02-08 Nippon Telegr & Teleph Corp <Ntt> Video coding method, video decoding method, video coding program, video decoding program, and computer-readable recording medium for recording the programs
JP2008193530A (en) * 2007-02-06 2008-08-21 Canon Inc Image recorder, image recording method and program
JP2009003507A (en) * 2007-06-19 2009-01-08 Victor Co Of Japan Ltd Image processing method, image processor, and image processing program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004048725A (en) * 1996-04-05 2004-02-12 Matsushita Electric Ind Co Ltd Picture transmission equipment, sending equipment, and receiving equipment
JPH09289638A (en) * 1996-04-23 1997-11-04 Nec Corp Three-dimensional image encoding/decoding system
JP2000023198A (en) * 1998-07-03 2000-01-21 Nippon Hoso Kyokai <Nhk> Compression encoder for multiaspect picture and extension decoder
JP2007036800A (en) * 2005-07-28 2007-02-08 Nippon Telegr & Teleph Corp <Ntt> Video coding method, video decoding method, video coding program, video decoding program, and computer-readable recording medium for recording the programs
JP2008193530A (en) * 2007-02-06 2008-08-21 Canon Inc Image recorder, image recording method and program
JP2009003507A (en) * 2007-06-19 2009-01-08 Victor Co Of Japan Ltd Image processing method, image processor, and image processing program

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013039031A1 (en) * 2011-09-15 2013-03-21 シャープ株式会社 Image encoder, image-decoding unit, and method and program therefor
JP2013258577A (en) * 2012-06-13 2013-12-26 Canon Inc Imaging device, imaging method and program, image encoding device, and image encoding method and program
JP2015525999A (en) * 2012-07-05 2015-09-07 聯發科技股▲ふん▼有限公司Mediatek Inc. Method and apparatus for unified disparity vector derivation in 3D video coding
US9843820B2 (en) 2012-07-05 2017-12-12 Mediatek Inc Method and apparatus of unified disparity vector derivation for 3D video coding
JP2015535405A (en) * 2012-09-21 2015-12-10 ノキア テクノロジーズ オサケユイチア Method and apparatus for video coding
WO2014103966A1 (en) * 2012-12-27 2014-07-03 日本電信電話株式会社 Image encoding method, image decoding method, image encoding device, image decoding device, image encoding program, and image decoding program
JP6027143B2 (en) * 2012-12-27 2016-11-16 日本電信電話株式会社 Image encoding method, image decoding method, image encoding device, image decoding device, image encoding program, and image decoding program
US9924197B2 (en) 2012-12-27 2018-03-20 Nippon Telegraph And Telephone Corporation Image encoding method, image decoding method, image encoding apparatus, image decoding apparatus, image encoding program, and image decoding program

Also Published As

Publication number Publication date
WO2012060156A1 (en) 2012-05-10

Similar Documents

Publication Publication Date Title
US9998726B2 (en) Apparatus, a method and a computer program for video coding and decoding
WO2012060156A1 (en) Multi-viewpoint image encoding device and multi-viewpoint image decoding device
US8537200B2 (en) Depth map generation techniques for conversion of 2D video data to 3D video data
KR101638752B1 (en) Method of constrain disparity vector derivation in 3d video coding
JP6042536B2 (en) Method and apparatus for inter-view candidate derivation in 3D video coding
AU2013284038B2 (en) Method and apparatus of disparity vector derivation in 3D video coding
WO2015134222A1 (en) Depth aware enhancement for stereo video
KR20130053452A (en) Calculating disparity for three-dimensional images
WO2013030452A1 (en) An apparatus, a method and a computer program for video coding and decoding
CA2891723C (en) Method and apparatus of constrained disparity vector derivation in 3d video coding
JP2015525997A5 (en)
JP6571646B2 (en) Multi-view video decoding method and apparatus
JP5395911B2 (en) Stereo image encoding apparatus and method
Rusanovskyy et al. Depth-based coding of MVD data for 3D video extension of H. 264/AVC
Manasa Veena et al. Coding structure of JMVDC along saliency mapping: a prespective compression technique
JP2012178818A (en) Video encoder and video encoding method
JP2013085064A (en) Multi-viewpoint image encoding device, multi-viewpoint image decoding device, multi-viewpoint image encoding method, and multi-viewpoint image decoding method
JP2013085063A (en) Multi-viewpoint image encoding device, multi-viewpoint image decoding device, multi-viewpoint image encoding method, and multi-viewpoint image decoding method
WO2013159300A1 (en) An apparatus, a method and a computer program for video coding and decoding

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120821