JP5237500B2

JP5237500B2 - 動きベクトル推定方法、多視点映像符号化方法、多視点映像復号方法、動きベクトル推定装置、多視点映像符号化装置、多視点映像復号装置、動きベクトル推定プログラム、多視点映像符号化プログラム、及び多視点映像復号プログラム

Info

Publication number: JP5237500B2
Application number: JP2012501760A
Authority: JP
Inventors: 信哉志水; 英明木全; 宣彦松浦
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-02-23
Filing date: 2011-02-18
Publication date: 2013-07-17
Anticipated expiration: 2031-02-18
Also published as: CA2790406A1; JPWO2011105297A1; TWI461052B; KR101623062B1; KR101451286B1; CN103609119A; US20120320986A1; KR20120118043A; RU2522309C2; BR112012020856A2; EP2541939A4; KR101545877B1; TW201143370A; KR20150052878A; RU2012135491A; WO2011105297A1; EP2541939A1; KR20140089590A

Description

本発明は、動きベクトル推定方法、多視点映像符号化方法、多視点映像復号方法、動きベクトル推定装置、多視点映像符号化装置、多視点映像復号装置、動きベクトル推定プログラム、多視点映像符号化プログラム、及び多視点映像復号プログラムに関する。
本願は、２０１０年２月２３日に日本へ出願された日本特願２０１０−０３７４３４号に対して優先権を主張し、その内容をここに援用する。

多視点動画像（多視点映像）とは、複数のカメラで同じ被写体と背景とを撮影して得られる動画像群のことである。一般的な動画像符号化では、動画像の異なる時間のフレーム間に存在する高い相関を利用した、動き補償予測を用いて効率的な符号化を実現する。動き補償予測は、Ｈ．２６４に代表される近年の動画像符号化方式の国際標準規格に採用されている手法である。すなわち、動き補償予測は、符号化対象フレームと既に符号化済みの参照フレームとの間で被写体の動きを補償して画像を生成し、該生成した画像と符号化対象フレームとの間でフレーム間差分を取り、その差分信号のみを符号化する方法である。

多視点動画像符号化では、異なる時間のフレーム間だけでなく、異なる視点のフレーム間にも高い相関が存在する。そのため、動きではなく視点間の視差を補償して生成した画像（フレーム）と符号化対象フレームとの間でフレーム間差分を取り、差分信号のみを符号化する視差補償予測と呼ばれる手法が用いられる。視差補償予測は、Ｈ．２６４Ａｎｎｅｘ．Ｈとして国際標準規格に採用されている（Ｈ．２６４の詳細については、例えば、非特許文献１参照）。

ここで用いられる視差とは、異なる位置に配置されたカメラの画像平面上で、被写体が投影される位置の差である。視差補償予測では、これを二次元ベクトルで表現して符号化を行っている。図２０に示す通り、視差がカメラと被写体のカメラからの位置（デプス）とに依存して発生する情報であるため、この原理を利用した視点合成予測（視点補間予測）と呼ばれる方式が存在する。

視点合成予測（視点補間予測）は、カメラや被写体の三次元的な位置関係に従って、既に処理が終了し復号結果が得られている多視点映像の一部分を用いて、符号化、もしくは復号処理を行う別の視点に対するフレームを合成（補間）することで得られた画像を、予測画像として用いる方式である（例えば、非特許文献２参照）。

被写体の三次元的な位置を表現するために、カメラから被写体までの距離（デプス）を画素ごとに表現したデプスマップ（距離画像、視差画像、ディスパリティマップと呼ばれることもある）が用いられることが多い。デプスマップの他には、被写体のポリゴン情報や被写体空間のボクセル情報を用いることもできる。

なお、デプスマップを取得する方法には、大きく分けると、赤外線パルスなどを用いて測定することでデプスマップを生成する方法と、多視点映像上で同じ被写体が写っている点から三角測量の原理を用いてデプスを推定した上で、デプスマップを生成する方法とがある。どちらの方法で得られたデプスマップを用いるかは、視点合成予測において大きな問題ではない。また、デプスマップが得られるのであれば、どこで推定するかも大きな問題ではない。

但し、予測符号化を行う場合においては、一般的に、符号化側で用いたデプスマップと復号側で用いたデプスマップとが一致しない場合には、ドリフトと呼ばれる符号化歪みが発生することになる。そのため、符号化側で用いたデプスマップを復号側へ伝送するか、符号化側と復号側とで全く同じデータと手法を用いてデプスマップを推定する方法が用いられる。

Rec. ITU-T H.264 "Advanced video coding for generic audiovisual services," March 2009. S. Shimizu, M. Kitahara, H. Kimata, K. Kamikura, and Y. Yashima, "View Scalable Multiview Video Coding Using 3-D Warping with Depth Map," IEEE Transactions on Circuits and System for Video Technology, Vol. 17, No. 11, pp. 1485-1495, November, 2007.

上述した従来技術では、視差補償予測や視点合成予測を用いることで、カメラ間の映像信号の冗長性を取り除くことができる。このため、それぞれのカメラで撮影した映像を独立に符号化する場合に比べて、多視点映像を高効率に圧縮符号化することができる。

しかしながら、多視点映像では、カメラ間相関と時間相関との両方が同時に存在する。そのため、視差補償予測や視点合成予測のみを用いた場合には、時間相関を利用して時間的な冗長性を取り除くことができないため、効率的な符号化を実現することができない。

非特許文献１では、ブロック毎に動き補償予測と視差補償予測との適応選択を導入することで、カメラ間相関と時間相関との両方を利用しようとしている。この方法を用いることで、どちらか一方の相関しか使用しない場合に比べて効率的な符号化を実現できる。

しかしながら、ブロック毎にどちらか一方を選択するということは、ブロック毎により強い相関を示したものを利用することで、より多くの冗長性を削減しているだけで、カメラ間、および、異なる時刻に撮影されたフレーム間で同時に存在している冗長性まで削減できるわけではない。

この課題に対する解決策として、動き補償予測などの時間相関を利用した手法によって生成された予測画像と、視差補償予測や視点合成予測などのカメラ間相関を利用した手法によって生成された予測映像との重み付け平均を用いる方法が容易に類推可能である。この手法を用いることで、ある程度の符号化効率改善の効果が得られる。

しかしながら、重み付け平均を用いて予測画像を生成することは、時間相関とカメラ間相関との間で、その相関を利用する比率を分配しているに過ぎない。つまり、２つの相関を同時に利用しているのではなく、どちらの相関を利用するかをより柔軟に行っているに過ぎないため、同時に存在している冗長性を削減するものではない。

本発明は、このような事情を考慮してなされたものであり、その目的は、処理画像が得られない状況においても、精度よく動きベクトルを推定することができ、映像信号予測において時間相関を利用することで、２つの相関を同時に利用して、効率的な多視点映像符号化を実現することができる動きベクトル推定方法、多視点映像符号化方法、多視点映像復号方法、動きベクトル推定装置、多視点映像符号化装置、多視点映像復号装置、動きベクトル推定プログラム、多視点映像符号化プログラム、及び多視点映像復号プログラムを提供することにある。

上述した課題を解決するために、本発明の第１の観点は、多視点映像に含まれる処理画像を撮影した処理カメラとは別のカメラで撮影された参照カメラ映像から、前記処理カメラと同じ設定に従って、前記処理画像が撮影された時刻における視点合成画像を生成する視点合成画像生成ステップと、動きベクトルを推定すべき対象の時刻に撮影された処理画像を用いずに、前記処理画像上の処理領域に該当する前記視点合成画像上の画像信号を用いて、前記処理カメラで撮影された参照画像における対応領域を探索することで、動きベクトルを推定する対応領域推定ステップとを含む動きベクトル推定方法である。

本発明の第１の観点において、前記視点合成画像の各画素について、前記視点合成画像の確からしさを示す信頼度を設定する信頼度設定ステップを更に含み、前記対応領域推定ステップは、前記信頼度に基づいて前記対応領域を探索する際のマッチングコストに重みを付けるようにしてもよい。

また、上述した課題を解決するために、本発明の第２の観点は、多視点映像の予測符号化を行う多視点映像符号化方法であって、前記多視点映像のある符号化対象視点とは異なる参照視点で、符号化対象フレームと同時刻に撮影された既に符号化済みの参照視点フレームから、前記符号化対象視点における視点合成画像を生成する視点合成画像生成ステップと、前記視点合成画像の各符号化単位ブロックに対して、前記符号化対象視点における既に符号化済みの参照フレーム上の対応領域を探索することで動きベクトルを推定する動きベクトル推定ステップと、前記推定された動きベクトルと前記参照フレームとを用いて、前記符号化対象フレームに対する動き補償予測画像を生成する動き補償予測画像生成ステップと、前記符号化対象フレームと前記動き補償予測画像との差分信号を符号化する残差符号化ステップとを含む多視点映像符号化方法である。

本発明の第２の観点において、前記視点合成画像の各画素について、前記視点合成画像の確からしさを示す信頼度を設定する信頼度設定ステップを更に含み、前記動きベクトル推定ステップは、前記信頼度に基づいて前記対応領域を探索する際の各画素のマッチングコストに重みを付けるようにしてもよい。

本発明の第２の観点において、前記符号化対象フレームの各符号化単位ブロックに対して、前記参照フレームとの間で対応領域を探索することで最適な動きベクトルを生成する動き探索ステップと、前記動きベクトルと前記最適な動きベクトルとの差ベクトルを符号化する差ベクトル符号化ステップとを更に含み、前記動き補償予測画像生成ステップは、前記最適な動きベクトルと前記参照フレームとを用いて前記動き補償予測画像を生成するようにしてもよい。

本発明の第２の観点において、前記動きベクトルと、符号化対象領域に隣接する領域で使用された最適な動きベクトル群とを用いて、予測ベクトルを生成する予測ベクトル生成ステップを更に含み、前記差ベクトル符号化ステップは、前記予測ベクトルと前記最適な動きベクトルの差ベクトルを符号化するようにしてもよい。

また、上述した課題を解決するために、本発明の第３の観点は、多視点映像のある視点に対する映像の符号化データを復号する多視点映像復号方法であって、復号対象視点とは異なる参照視点で、復号対象フレームと同時刻に撮影された参照視点フレームから、前記復号対象視点における視点合成画像を生成する視点合成画像生成ステップと、前記視点合成画像の各復号単位ブロックに対して、前記復号対象視点における既に復号済みの参照フレーム上の対応領域を探索することで動きベクトルを推定する動きベクトル推定ステップと、前記推定された動きベクトルと前記参照フレームとを用いて、前記復号対象フレームに対する動き補償予測画像を生成する動き補償予測画像生成ステップと、前記動き補償予測画像を予測信号として用いて、予測符号化されている前記復号対象フレームを前記符号化データから復号する画像復号ステップとを含む多視点映像復号方法である。

本発明の第３の観点において、前記視点合成画像の各画素について、前記視点合成画像の確からしさを示す信頼度を設定する信頼度設定ステップを更に含み、前記動きベクトル推定ステップは、前記信頼度に基づいて前記対応領域を探索する際の各画素のマッチングコストに重みを付けるようにしてもよい。

本発明の第３の観点において、前記動きベクトルを予測ベクトルとして用いて、予測符号化されている最適な動きベクトルを前記符号化データから復号するベクトル復号ステップを更に含み、前記動き補償予測画像生成ステップは、前記最適な動きベクトルと前記参照フレームとを用いて前記動き補償予測画像を生成するようにしてもよい。

本発明の第３の観点において、前記動きベクトルと、復号対象領域に隣接する領域で使用された最適な動きベクトル群とを用いて、推定予測ベクトルを生成する予測ベクトル生成ステップを更に含み、前記ベクトル復号ステップは、前記推定予測ベクトルを前記予測ベクトルとして用いて、前記最適な動きベクトルを復号するようにしてもよい。

また、上述した課題を解決するために、本発明の第４の観点は、多視点映像に含まれる処理画像を撮影した処理カメラとは別のカメラで撮影された参照カメラ映像から、前記処理カメラと同じ設定に従って、前記処理画像が撮影された時刻における視点合成画像を生成する視点合成画像生成手段と、動きベクトルを推定すべき対象の時刻に撮影された処理画像を用いずに、前記処理画像上の処理領域に該当する前記視点合成画像上の画像信号を用いて、前記処理カメラで撮影された参照画像における対応領域を探索することで、動きベクトルを推定する対応領域推定手段とを備える動きベクトル推定装置である。

本発明の第４の観点において、前記視点合成画像の各画素について、前記視点合成画像の確からしさを示す信頼度を設定する信頼度設定手段を更に備え、前記対応領域推定手段は、前記信頼度に基づいて前記対応領域を探索する際のマッチングコストに重みを付けるようにしてもよい。

また、上述した課題を解決するために、本発明の第５の観点は、多視点映像の予測符号化を行う多視点映像符号化装置であって、前記多視点映像のある符号化対象視点とは異なる参照視点で、符号化対象フレームと同時刻に撮影された既に符号化済みの参照視点フレームから、前記符号化対象視点における視点合成画像を生成する視点合成画像生成手段と、前記視点合成画像の各符号化単位ブロックに対して、前記符号化対象視点における既に符号化済みの参照フレーム上の対応領域を探索することで動きベクトルを推定する動きベクトル推定手段と、前記推定された動きベクトルと前記参照フレームとを用いて、前記符号化対象フレームに対する動き補償予測画像を生成する動き補償予測画像生成手段と、前記符号化対象フレームと前記動き補償予測画像との差分信号を符号化する残差符号化手段とを備える多視点映像符号化装置である。

本発明の第５の観点において、前記視点合成画像の各画素について、前記視点合成画像の確からしさを示す信頼度を設定する信頼度設定手段を更に含み、前記動きベクトル推定手段は、前記信頼度に基づいて前記対応領域を探索する際の各画素のマッチングコストに重みを付けるようにしてもよい。

また、上述した課題を解決するために、本発明の第６の観点は、多視点映像のある視点に対する映像の符号化データを復号する多視点映像復号装置であって、復号対象視点とは異なる参照視点で、復号対象フレームと同時刻に撮影された参照視点フレームから、前記復号対象視点における視点合成画像を生成する視点合成画像生成手段と、前記視点合成画像の各復号単位ブロックに対して、前記復号対象視点における既に復号済みの参照フレーム上の対応領域を探索することで動きベクトルを推定する動きベクトル推定手段と、前記推定された動きベクトルと前記参照フレームとを用いて、前記復号対象フレームに対する動き補償予測画像を生成する動き補償予測画像生成手段と、前記動き補償予測画像を予測信号として用いて、予測符号化されている前記復号対象フレームを前記符号化データから復号する画像復号手段とを備える多視点映像復号装置である。

本発明の第６の観点において、前記視点合成画像の各画素について、前記視点合成画像の確からしさを示す信頼度を設定する信頼度設定手段を更に含み、前記動きベクトル推定手段は、前記信頼度に基づいて前記対応領域を探索する際の各画素のマッチングコストに重みを付けるようにしてもよい。

また、上述した課題を解決するために、本発明の第７の観点は、動きベクトル推定装置のコンピュータに、多視点映像に含まれる処理画像を撮影した処理カメラとは別のカメラで撮影された参照カメラ映像から、前記処理カメラと同じ設定に従って、前記処理画像が撮影された同じにおける視点合成画像を生成する視点合成画像生成機能、動きベクトルを推定すべき対象の時刻に撮影された処理画像を用いずに、前記処理画像上の処理領域に該当する前記視点合成画像上の画像信号を用いて、前記処理カメラで撮影された参照画像における対応領域を探索することで、動きベクトルを推定する対応領域推定機能を実行させる動きベクトル推定プログラムである。

また、上述した課題を解決するために、本発明の第８の観点は、多視点映像の予測符号化を行う多視点映像符号化装置のコンピュータに、前記多視点映像のある符号化対象視点とは異なる参照視点で、符号化対象フレームと同時刻に撮影された既に符号化済みの参照視点フレームから、前記符号化対象視点における視点合成画像を生成する視点合成画像生成機能、前記視点合成画像の各符号化単位ブロックに対して、前記符号化対象視点における既に符号化済みの参照フレーム上の対応領域を探索することで動きベクトルを推定する動きベクトル推定機能、前記推定された動きベクトルと前記参照フレームとを用いて、前記符号化対象フレームに対する動き補償予測画像を生成する動き補償予測画像生成機能、前記符号化対象フレームと前記動き補償予測画像との差分信号を符号化する残差符号化機能を実行させる多視点映像符号化プログラムである。

また、上述した課題を解決するために、本発明の第９の観点は、多視点映像のある視点に対する映像の符号化データを復号する多視点映像復号装置のコンピュータに、復号対象視点とは異なる参照視点で、復号対象フレームと同時刻に撮影された参照視点フレームから、前記復号対象視点における視点合成画像を生成する視点合成画像生成機能、前記視点合成画像の各復号単位ブロックに対して、前記復号対象視点における既に復号済みの参照フレーム上の対応領域を探索することで動きベクトルを推定する動きベクトル推定機能、前記推定された動きベクトルと前記参照フレームとを用いて、前記復号対象フレームに対する動き補償予測画像を生成する動き補償予測画像生成機能、前記動き補償予測画像を予測信号として用いて、予測符号化されている前記復号対象フレームを前記符号化データから復号する画像復号機能を実行させる多視点映像復号プログラムである。
また、本発明の第１０の観点は、多視点映像に含まれる処理画像を撮影した処理カメラとは別のカメラで撮影された参照カメラ映像から、前記処理カメラと同じ設定に従って、前記処理画像が撮影された時刻における第１の視点合成画像と、前記処理画像との間で動きベクトルを求める対象の前記処理カメラで撮影された参照画像が撮影された時刻における第２の視点合成画像とを生成する視点合成画像生成ステップと、前記処理カメラで撮影された画像を用いずに、前記処理画像上の処理領域に該当する前記第１の視点合成画像上の画像信号を用いて、前記参照画像に対する前記第２の視点合成画像における対応領域を探索することで、動きベクトルを推定する対応領域推定ステップとを含む動きベクトル推定方法である。
また、本発明の第１１の観点は、多視点映像に含まれる処理画像を撮影した処理カメラとは別のカメラで撮影された参照カメラ映像から、前記処理カメラと同じ設定に従って、前記処理画像が撮影された時刻における第１の視点合成画像と、前記処理画像との間で動きベクトルを求める対象の前記処理カメラで撮影された参照画像が撮影された時刻における第２の視点合成画像とを生成する視点合成画像生成手段と、前記処理カメラで撮影された画像を用いずに、前記処理画像上の処理領域に該当する前記第１の視点合成画像上の画像信号を用いて、前記参照画像に対する前記第２の視点合成画像における対応領域を探索することで、動きベクトルを推定する対応領域手段とを備える動きベクトル推定装置である。
また、本発明の第１２の観点は、動きベクトル推定装置のコンピュータに、多視点映像に含まれる処理画像を撮影した処理カメラとは別のカメラで撮影された参照カメラ映像から、前記処理カメラと同じ設定に従って、前記処理画像が撮影された時刻における第１の視点合成画像と、前記処理画像との間で動きベクトルを求める対象の前記処理カメラで撮影された参照画像が撮影された時刻における第２の視点合成画像とを生成する視点合成画像生成機能、前記処理カメラで撮影された画像を用いずに、前記処理画像上の処理領域に該当する前記第１の視点合成画像上の画像信号を用いて、前記参照画像に対する前記第２の視点合成画像における対応領域を探索することで、動きベクトルを推定する対応領域推定機能を実行させる動きベクトル推定プログラムである。

この発明によれば、処理画像が得られない状況においても、精度よく動きベクトルを推定することができ、映像信号予測において時間相関を利用することで、２つの相関（すなわち、カメラ間相関および時間相関）を同時に利用して、効率的な多視点映像符号化を実現することができる。

本発明の第１実施形態による多視点映像符号化装置の構成を示すブロック図である。本第１実施形態による多視点映像符号化装置の動作を説明するフローチャートである。本発明の第２実施形態による多視点映像符号化装置の構成を示すブロック図である。本第２実施形態による多視点映像符号化装置の動作を説明するフローチャートである。本発明の第３実施形態による多視点映像復号装置の構成を示すブロック図である。本第３実施形態による多視点映像復号装置の動作を説明するフローチャートである。本発明の第４実施形態による多視点映像復号装置の構成を示すブロック図である。本第４実施形態による多視点映像復号装置の動作を説明するフローチャートである。本発明の第５実施形態による動きベクトル推定装置の構成を示すブロック図である。本第５実施形態による動きベクトル推定装置の動作を説明するフローチャートである。本第５実施形態による動きベクトル推定装置の他の構成例を示すブロック図である。本発明の第６実施形態による多視点映像符号化装置の構成を示すブロック図である。本第６実施形態による多視点映像符号化装置の動作を説明するフローチャートである。本発明の第７実施形態による多視点映像符号化装置の構成を示すブロック図である。本第７実施形態による多視点映像符号化装置の動作を説明するフローチャートである。本発明の第８実施形態による多視点映像復号装置の構成を示すブロック図である。本第８実施形態による多視点映像復号装置の動作を説明するフローチャートである。本発明の第９実施形態による多視点映像復号装置の構成を示すブロック図である。本第９実施形態による多視点映像復号装置の動作を説明するフローチャートである。カメラから被写体までの距離（デプス）と視差の関係を示した概念図である。

以下、本発明の一実施形態を、図面を参照して説明する。

従来技術では、符号化対象の入力画像の画像信号を用いて、参照画像上の対応領域を求めることで動き補償予測を実現していた。この場合、復号側では入力画像が得られないため、対応領域を示す動きベクトル情報を符号化する必要がある。本発明の実施形態では、別のカメラで撮影された映像を用いて符号化対象画像に対応する合成画像を生成し（後述するステップＳａ２）、その合成画像の画像信号を用いて、参照画像上の対応領域を求める（後述するステップＳａ５）。この合成画像は、復号側で同じものを生成することが可能であるため、符号化側と同様の探索を復号側で行うことで動きベクトルが得られる。この結果、本発明の実施形態は、動き補償予測を行うにも関わらず、動きベクトルを符号化する必要がなくなり、その分の符号量を削減することができるという効果が得られる。

なお、以下の説明では、記号[]で挟まれた位置を特定可能な情報（座標値、座標値に対応付け可能なインデックス、領域、領域に対応付け可能なインデックス）を、映像（フレーム）に付加することで、その位置の画素やその領域に対する映像信号を示すものとする。

Ａ．第１実施形態
まず、本発明の第１実施形態について説明する。
図１は、本第１実施形態に係る多視点映像符号化装置の構成を示すブロック図である。図１に示すように、多視点映像符号化装置１００は、符号化対象フレーム入力部１０１、符号化対象画像メモリ１０２、参照視点フレーム入力部１０３、参照視点画像メモリ１０４、視点合成部１０５、視点合成画像メモリ１０６、信頼度設定部１０７、対応領域探索部１０８、動き補償予測部１０９、予測残差符号化部１１０、予測残差復号部１１１、復号画像メモリ１１２、予測残差算出部１１３、及び復号画像算出部１１４を備えている。

符号化対象フレーム入力部１０１は、符号化対象となる映像フレーム（符号化対象フレーム）を入力する。符号化対象画像メモリ１０２は、入力された符号化対象フレームを蓄積する。参照視点フレーム入力部１０３は、符号化対象フレームとは別の視点（参照視点）に対する映像フレーム（参照視点フレーム）を入力する。参照視点画像メモリ１０４は、入力された参照視点フレームを蓄積する。視点合成部１０５は、参照視点フレームを用いて符号化対象フレームに対する視点合成画像を生成する。

視点合成画像メモリ１０６は、生成された視点合成画像を蓄積する。信頼度設定部１０７は、生成された視点合成画像の画素ごとの信頼度を設定する。対応領域探索部１０８は、視点合成画像の符号化単位ブロック毎に、動き補償予測の参照フレームとなり、符号化対象フレームと同じ視点で撮影され、既に符号化済みのフレームにおける対応ブロックを示す動きベクトルを、信頼度を用いながら探索する。すなわち、対応領域探索を行う際のマッチングコストに信頼度に基づいて重みを付けることで、視点合成時の誤差に引きずられることなく、精度よく合成できた画素を重視し、高精度な動きベクトル推定を実現する。

動き補償予測部１０９は、決定した対応ブロックに従って参照フレームを用いて動き補償予測画像を生成する。予測残差算出部１１３は、符号化対象フレームと動き補償予測画像の差（予測残差信号）を算出する。予測残差符号化部１１０は予測残差信号を符号化する。予測残差復号部１１１は、予測残差信号の符号化データを復号する。復号画像算出部１１４は、復号された予測残差信号と動き補償予測画像とを足し合わせて符号化対象フレームの復号画像を算出する。復号画像メモリ１１２は、復号画像を蓄積する。

図２は、本第１実施形態による多視点映像符号化装置１００の動作を説明するフローチャートである。このフローチャートに従って、第１実施形態による多視点映像符号化装置１００が実行する処理について詳細に説明する。

まず、符号化対象フレーム入力部１０１より符号化対象フレームＯｒｇが入力され、符号化対象画像メモリ１０２に格納される（ステップＳａ１）。また、参照視点フレーム入力部１０３より符号化対象フレームＯｒｇと同時刻に参照視点で撮影された参照視点フレームＲｅｆ_ｎが入力され（ｎ＝１，２，…，Ｎ）、参照視点画像メモリ１０４に蓄積される（ステップＳａ１）。ここで入力される参照視点フレームは、既に符号化済みの画像を復号したものとする。これは、復号装置で得られる情報と同じ情報を用いることで、ドリフト等の符号化ノイズの発生を抑えるためである。但し、これらの符号化ノイズの発生を許容する場合には、符号化前のオリジナルのものが入力されても構わない。なお、ｎは、参照視点を示すインデックスであり、Ｎは、ここで利用可能な参照視点の数である。

次に、視点合成部１０５で、参照視点フレームの情報から、符号化対象フレームと同時刻に同じ視点で撮影された画像を合成し、生成された視点合成画像Ｓｙｎを視点合成画像メモリ１０６に蓄積する（ステップＳａ２）。この視点合成画像の生成法には、どのような方法を用いても構わない。例えば、参照視点フレームの映像情報以外に参照視点フレームに対するデプス情報が与えられるのであれば、非特許文献２や、非特許文献３（Y. Mori, N. Fukushima, T. Fujii, and M. Tanimoto, “View Generation with 3D Warping Using Depth Information for FTV,” Proceedings of 3DTV-CON2008, pp. 229-232, May 2008.）などに記載されている手法を用いることができる。

また、符号化対象フレームに対するデプス情報が得られた場合には、非特許文献４（S. Yea and A. Vetro, “View Synthesis Prediction for Rate-Overhead Reduction in FTV,” Proceedings of 3DTV-CON2008, pp. 145-148, May 2008.）などに記載されている手法を用いることも可能である。

全くデプス情報が得られない場合では、非特許文献５（J. Sun, N. Zheng, and H. Shum, “Stereo Matching Using Belief Propagation,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 25, No. 7, pp. 787-800, July 2003.）などに記載のステレオ法やデプス推定法と呼ばれる手法を用いて、参照視点フレームもしくは符号化対象フレームに対するデプス情報を作成した後に、前述のような手法を適用して視点合成画像を生成することができる（非特許文献６：S. Shimizu, Y. Tonomura, H. Kimata, and Y. Ohtani, “Improved View Interpolation Prediction for Side Information in Multiview Distributed Video Coding,” Proceedings of ICDSC2009, August 2009.）。

デプス情報を明には生成せずに参照視点フレームから視点合成画像を直接生成する方法もある（非特許文献７：K. Yamamoto, M. Kitahara, H. Kimata, T. Yendo, T. Fujii, M. Tanimoto, S. Shimizu, K. Kamikura, and Y. Yashima, “Multiview Video Coding Using View Interpolation and Color Correction,” IEEE Transactions on Circuits and System for Video Technology, Vol. 17, No. 11, pp. 1436-1449, November, 2007.）。

なお、これらの手法を用いるには基本的にカメラの位置関係やカメラによる投影プロセスを示すカメラパラメータが必要となる。これらのカメラパラメータも参照視点フレームから推定することも可能である。なお、デプス情報やカメラパラメータなどを復号側で推定しない場合、符号化装置内で使用したそれらの情報を別途符号化して伝送する必要がある。

次に、信頼度設定部１０７において、視点合成画像の各画素に対して、その画素に対する合成がどれぐらいの確からしさで実現できたかを示す信頼度ρを生成する（ステップＳａ３）。本第１実施形態では、信頼度ρは、０〜１までの実数とするが、０以上で大きな値がより信頼度が高いとするような定義のものであれば、どのように信頼度を表現しても構わない。例えば、１以上の８ビット整数で信頼度を表現しても構わない。

信頼度ρは、上述した通り、合成がどれぐらい正確に行われたかを示すことができればどのようなものでも構わない。例えば、最も簡単なものとしては、視点合成画像の各画素が対応する参照視点フレーム上の画素の画素値の分散値を用いる方法がある。対応画素間で画素値が近いほど同じ被写体を同定して正しく視点合成できたことを示すので、分散が小さいほど信頼度が高いことを示す。つまり、信頼度は分散の逆数を用いて表現される。視点合成画像Ｓｙｎ［ｐ］を合成するのに使用した各参照視点フレームの画素をＲｅｆ_ｎ［ｐ_ｎ］で表すとすると、次の数式（１）や数式（２）を用いて信頼度を表すことが可能である。

分散の最小値が０であることから、関数ｍａｘを用いて信頼度を定義する必要がある。なお、ｍａｘは、与えられた集合に対する最大値を返す関数である。また、その他の関数は、次の数式（３）で表現されるものである。

分散以外にも、次の数式（４）で表される、対応する参照視点フレームの画素の最大値と最小値との差ｄｉｆｆ（ｐ）を用いる方法もある。また、分数の逆数ではなく、次の数式（４）’のように指数関数を用いた信頼度を定義しても構わない。なお、関数ｆは上述のｖａｒ１，ｖａｒ２，ｄｉｆｆのいずれでも構わない。この場合、関数ｆの値域に０が含まれていても信頼度を定義することが可能である。

これらの方法は、単純であるが、オクルージョンの発生を考慮していないため、常に最適な信頼度が得られるとは限らない。そこで、オクルージョンの発生を考慮して、参照視点フレームを対応画素の画素値によってクラスタリングし、最も大きいクラスタに属する参照視点フレームの対応画素の画素値に対して、分散値や、最大値と最小値との差を計算して用いても構わない。

更に別の方法としては、視点間の対応点における誤差が正規分布や、ラプラス分布に従うと仮定し、分布の平均値や、分散値をパラメータとして、上記数式（４）のｄｉｆｆなどで求められる各画素の誤差量に対応する確率の値を用いて信頼度を定義しても構わない。その際に分布のモデルや、その平均値や、分散値は、予め定められたものを用いても構わないし、使用したモデルの情報を符号化して伝送しても構わない。一般に、被写体が完全拡散反射しているのであれば、理論的に分布の平均値は０と考えることができるため、モデルを簡略化してもよい。

また、視点合成画像を生成した際の対応点が得られるデプス付近で、対応画素の画素値の誤差量が最小であると仮定すると、デプスを微小に変化させたときの誤差量の変化から誤差分布モデルを推定し、その誤差分布モデルそのものや、その誤差分布モデルと視点合成画像生成時の参照視点フレーム上の対応画素の画素値とに基づいた値を用いて信頼度を定義する方法を用いても構わない。

誤差分布モデルのみを用いた定義としては、誤差の発生確率がその誤差分布に従う際に、誤差が一定の範囲内に収まる確率を信頼度とする方法がある。誤差分布モデルと視点合成画像生成時の参照視点フレーム上の対応画素の画素値とを用いた定義としては、誤差の発生確率が推定した誤差分布に従うとした場合に、視点合成画像生成時の参照視点フレーム上の対応画素の画素値で表される状況が発生する確率を信頼度とする方法がある。

更に別な方法として、視点合成を行う際に必要となる視差（デプス）を推定する際に、ＢｅｌｉｅｆＰｒｏｐａｇａｔｉｏｎと呼ばれる手法（上述した非特許文献５）を用いた際に得られる、視差（デプス）に対する確率の値を信頼度としても構わない。ＢｅｌｉｅｆＰｒｏｐａｇａｔｉｏｎ以外でも、視点合成画像の各画素について、解の確からしさを内部的に計算するデプス推定アルゴリズムであれば、その情報を信頼度として用いることが可能である。

視点合成画像生成時に、対応点探索やステレオ法、デプス推定を行う場合には、対応点の情報やデプス情報を求める処理の一部が信頼度計算の一部と同じになることがある。そのような場合においては、視点合成画像生成と信頼度計算とを同時に行うことで、演算量を削減することが可能である。

信頼度ρの計算が終了したら、符号化対象フレームをブロックに分割し、その領域毎に対応点探索や予測画像生成をしながら、符号化対象フレームの映像信号を符号化する（ステップＳａ４〜Ｓａ１２）。つまり、符号化対象ブロックインデックスをｂｌｋ、総符号化対象ブロック数をｎｕｍＢｌｋｓで表すとすると、ｂｌｋを０で初期化した後（ステップＳａ４）、ｂｌｋに１を加算しながら（ステップＳａ１１）、ｂｌｋがｎｕｍＢｌｋｓになるまで（ステップＳａ１２）、以下の処理（ステップＳａ５〜Ｓａ１０）を繰り返す。

なお、上記視点合成画像の生成や信頼度ρの計算を符号化対象ブロック毎に行うことが可能であれば、それらの処理も、符号化対象ブロック毎に繰り返す処理の一部として行うことが可能である。例えば、符号化対象ブロックに対するデプス情報が与えられている場合が該当する。

符号化対象ブロック毎に繰り返される処理では、まず、対応領域探索部１０８で、視点合成画像を用いてブロックｂｌｋに対応する参照フレーム上の対応ブロックを見つける（ステップＳａ５）。ここで、参照フレームとは、既に符号化処理が終了したデータを復号して得られるローカルデコード画像のことである。このローカルデコード画像のデータは、復号画像メモリ１１２に蓄積されるデータである。

なお、ローカルデコード画像を使用するのは、復号側で同じタイミングで取得可能なデータと同じものを使うことで、ドリフトと呼ばれる符号化歪みの発生を防ぐためである。そのような符号化歪みの発生を許すのであれば、ローカルデコード画像ではなく、符号化対象フレームより先に符号化された入力フレームを使っても構わない。なお、本第１実施形態では、符号化対象フレームと同じカメラで撮影され、符号化対象フレームとは別の時刻に撮影された画像を用いる。しかし、符号化対象フレームとは別のカメラで撮影されたフレームであっても、符号化対象フレームより先に処理をされたフレームであれば、どのようなフレームを用いても構わない。

対応ブロックを求める処理は、視点合成画像Ｓｙｎ［ｂｌｋ］をテンプレートとして、適合度を最大化もしくは乖離度を最小化する対応ブロックを、復号画像メモリ１１２に蓄積されているローカルデコード画像上で求める処理である。本第１実施形態では、乖離度を示すマッチングコストを用いるものとする。乖離度を示すマッチングコストの具体例としては次の数式（５）や数式（６）などがある。

ここで、ｖｅｃは、対応ブロック間のベクトルであり、ｔは、復号画像メモリ１１２に蓄積されているローカルデコード画像Ｄｅｃの１つを示すインデックス値とする。これら以外に、視点合成画像とローカルデコード画像との間の差分値をＤＣＴ（Discrete Cosine Transform：離散コサイン変換）やアダマール変換などを用いて変換した値を用いた方法がある。その変換を行列Ａで表すと、次の数式（７）や数式（８）で表すことができる。なお、||Ｘ||は、Ｘのノルムを表す。

つまり、これらのマッチングコストを最小化するブロックを求める処理は、次の数式（９）で表される（ｂｅｓｔ＿ｖｅｃ，ｂｅｓｔ＿ｔ）の組を求めることになる。ここで、ａｒｇｍｉｎは、与えられた関数を最小化するパラメータを求める処理を示す。導出するパラメータの集合はａｒｇｍｉｎの下部で与えられる集合である。

探索するフレーム数、探索範囲、及び探索の順序や打ち切りを決定する方法には、任意の方法を用いても構わない。但し、正確に復号するためには、復号側で用いるものと同様のものを用いる必要がある。なお、探索範囲や打ち切り方法は、演算コストに大きな影響を与える。より少ない探索範囲で高いマッチング精度を出すための１つの方法として、探索中心を適切に設定する方法がある。１つの例としては、参照視点フレーム上の対応領域で使用されていた動きベクトルで表される対応点を探索中心にする方法がある。

また、復号側の探索にかかる演算コストを削減する方法として、探索を行う対象のフレームを限定する方法がある。予め探索対象のフレーム決定法を決めても構わない。例えば、最も直前に符号化が終了したフレームを探索対象とする方法がこれにあたる。また、別の方法として、どのフレームを対象とするかを示す情報を符号化して復号側に通知する方法もある。この場合、復号側は探索対象フレームを示すインデックス値などの情報を復号し、それを元に探索対象フレームを決定する機構を持つ必要がある。

対応ブロックが決定したら、動き補償予測部１０９でブロックｂｌｋに対する予測画像Ｐｒｅｄを生成する（ステップＳａ６）。最も単純な方法は、対応するブロックの画素値を予測画像とする方法であり、数式（１０）で表される。

別の方法としては、オーバラップＭＣ（ＭＣ：動き補償）やデブロッキングフィルタと呼ばれる手法を用いて隣接ブロックとの連続性を考慮して予測画像を生成する。この場合、ブロック毎に予測画像を生成することができないため、ブロック毎に対応領域探索を繰り返した後、予測画像を生成し、その後に残差生成、及び符号化等の処理を、再度、ブロック毎に繰り返す。

ブロックｂｌｋに対する予測画像の生成が完了したら、符号化対象フレームＯｒｇと予測画像Ｐｒｅｄの差分で表される残差信号Ｒｅｓを予測残差算出部１１３で生成し、その残差信号を予測残差符号化部１１０で符号化する（ステップＳａ７）。符号化の結果出力される符号化データは、多視点映像符号化装置１００の出力となると共に、予測残差復号部１１１へ送られる。予測残差の符号化には、どのような方法を用いても構わない。例えば、非特許文献１に記載のＨ．２６４では、ＤＣＴ等の周波数変換、量子化、２値化、エントロピー符号化を順に施すことで符号化を行う。

予測残差復号部１１１では、入力された符号化データを復号し復号予測残差ＤｅｃＲｅｓを得る（ステップＳａ８）。なお、復号には、符号化で使われた手法で得られる符号化データを復号するための方法が使われる。Ｈ．２６４の場合であれば、エントロピー復号、逆２値化、逆量子化、ＩＤＣＴ（Inverse Discrete Cosine Transform：逆離散コサイン変換）等の逆周波数変換の順に処理を施すことで復号予測残差を得る。復号画像算出部１１４は、数式（１１）で示される通り、得られた復号予測残差ＤｅｃＲｅｓに予測信号Ｐｒｅｄを加算して、ローカルデコード画像Ｄｅｃ_ｃｕｒ［ｂｌｋ］を生成する（ステップＳａ９）。生成されたローカルデコード画像は、今後の予測に使用するために、復号画像メモリ１１２に蓄積する（ステップＳａ１０）。

本第１実施形態では、ステップＳａ５の対応ブロック探索において、１つの対応ブロックを決定した。しかし、予め定められた方法で複数のブロックを選択し、ステップＳａ６で動き補償予測信号を生成する際に、複数のブロックに対して平均値や中央値など予め定められた処理を施すことで予測信号を生成することもできる。ブロックの数を予め定める方法としては、直接個数を指定する方法と、マッチングコストに関する条件を定め、その条件を満たすブロックを全て選択する方法と、その両者を組み合せた方法が考えられる。

両者を組み合せた方法とは、例えば、マッチングコストが閾値未満のもので、その値が小さいものから順に予め定められた個数までのものを選択する方法がある。また、個数を予め定めない場合において、その個数を示す情報を符号化して復号側へ伝える方法も考えられる。複数の候補から予測信号を生成する方法についても、予め１つに定めても構わないし、どの方法を用いるかを示す情報を符号化して伝えても構わない。

また、本第１実施形態では、探索対象のフレームに符号化対象フレームと同時刻のフレームを含めていないが、既に復号済みの領域を探索対象としても構わない。

上述した第１実施形態によれば、視点合成予測や視点補間予測と同様の方法によって処理画像に対応する視点合成画像を生成し、その視点合成画像を用いて参照画像との対応点を探索することで、動きベクトルを推定する。これによって、処理画像が得られない状況においても、精度よく動きベクトルを推定することができる。

なお、処理画像が存在しないような状況で動きベクトルを推定する従来方式には、被写体が等速直線運動をすると仮定して、処理画像以外の複数の時刻の異なるフレーム間で求めた動きベクトルから処理画像の動きベクトルを推定する方法がある（非特許文献８：J. Ascenso, C. Brites, and F. Pereira, “Improving frame interpolation with spatial motion smoothing for pixel domain distributed video coding,” in the 5th EURASIP Conference on Speech and Image Processing, Multimedia Communications and Services, July 2005.）。なお、この概念は非特許文献１に記載のＨ．２６４において、時間ダイレクトモードとして用いられている。

フレーム間の時間間隔が非常に短い場合や、被写体が規則的な動きをしている場合などにおいては、このような被写体の動きを仮定した方法でもある程度の精度で動きベクトル推定を行うことができる。しかしながら、一般に被写体の動きは非線形でありモデル化することは困難なため、このような手法では高精度に動きベクトルを推定することは困難である。

また、被写体の動きを仮定せずに、動きベクトルの空間的な連続性を用いて動きベクトルを推定する方法もある。非特許文献９（S. Kamp, M. Evertz, and M. Wien, “Decoder side motion vector derivation for inter frame video coding,” ICIP 2008, pp. 1120-1123, October 2008.）には、処理領域の隣接領域においては処理画像が得られている場合に、その隣接領域の対応領域を求めることで、処理領域の動きベクトルを推定する方法が記載されている。

動きは被写体に依存するものであり、隣接する領域には同じ被写体が写っていることが多いので、この手法を用いることである程度の精度で動きベクトルを推定することができる。しかしながら、隣接領域の画像が必要になるだけではなく、隣接領域に同じ被写体が写ってない場合は正しい動きベクトルを推定できない。また、同じ被写体であっても異なる動きを持っている場合もあるため、限定された状況以外では高精度な動きベクトル推定を実現することはできない。

このような従来手法とは異なり、本実施形態の手法では、動きを求めたい領域の映像信号を視点間相関を利用して合成し、その合成結果を用いて対応領域探索を行う。このため、動きについて時間的な規則性や空間的な類似性を仮定する必要がなく、どのような映像に対しても高精度な動きベクトル推定を行うことが可能となる。

また、上述した第１実施形態によれば、視点合成画像の画素ごとに視点合成画像の確からしさを示す信頼度を設定し、その信頼度に基づいて画素毎にマッチングコストを重み付けする。カメラ間相関を利用して合成する視点合成画像に誤差が発生することがある。そのような誤差が含まれるテンプレートを用いて対応領域探索を行った場合、その誤差の影響を受けて動きベクトルの推定精度が低下してしまう。そこで、本第１実施形態では、視点合成画像の画素ごとに合成画像の確からしさを示す信頼度を設定し、その信頼度に基づいて画素ごとにマッチングコストを重み付けする。そうすることで、視点合成時の誤差に引きずられることなく、精度よく合成できた画素を重視し、高精度な動きベクトル推定が可能となる。

信頼度を設定するために必要な合成の確からしさを表す情報としては、ある画素を合成する際に用いた参照カメラ映像（参照カメラで撮影した映像）上の対応画素群に対する画素値の分散や差分値を使うことが可能である。また、視点合成を行う際に必要となる視差やデプスを推定する際にＢｅｌｉｅｆＰｒｏｐａｇａｔｉｏｎと呼ばれる手法（非特許文献５）を用いた場合、各画素に対して、視差やデプスの確率分布が得られるため、その情報を用いても構わない。また、ＢｅｌｉｅｆＰｒｏｐａｇａｔｉｏｎを使わない場合でも、デプス値を変化させた際の参照カメラ映像上の対応画素群の画素値の誤差量や分散値の変化を正規分布やラプラス分布でモデル化し、その分散値に基づいて信頼度を設定する方法がある。

Ｂ．第２実施形態
次に、本発明の第２実施形態について説明する。
図３は、本第２実施形態による多視点映像符号化装置の構成を示すブロック図である。図３に示すように、多視点映像符号化装置２００は、符号化対象フレーム入力部２０１、符号化対象画像メモリ２０２、参照視点フレーム入力部２０３、視点合成部２０４、視点合成画像メモリ２０５、動き推定部２０６、動き補償予測部２０７、画像符号化部２０８、画像復号部２０９、復号画像メモリ２１０、対応領域探索部２１１、予測ベクトル生成部２１２、ベクトル情報符号化部２１３、及び動きベクトルメモリ２１４を備えている。

符号化対象フレーム入力部２０１は、符号化対象となる映像フレームを入力する。符号化対象画像メモリ２０２は、入力された符号化対象フレームを蓄積する。参照視点フレーム入力部２０３は、符号化対象フレームとは別の視点に対する映像フレームを入力する。視点合成部２０４は、入力された参照視点フレームを用いて符号化対象フレームに対する視点合成画像を生成する。

視点合成画像メモリ２０５は、生成された視点合成画像を蓄積する。動き推定部２０６は、符号化対象フレームの符号化単位ブロック毎に、符号化対象フレームと参照フレームとの間の動きを推定する。動き補償予測部２０７は、動き推定の結果に基づいて動き補償予測画像を生成する。画像符号化部２０８は、動き補償予測画像を受け取り、符号化対象フレームを予測符号化して符号化データを出力する。画像復号部２０９は、動き補償予測画像と符号化データを受け取り、符号化対象フレームを復号して復号画像を出力する。

復号画像メモリ２１０は、符号化対象フレームの復号画像を蓄積する。対応領域探索部２１１は、視点合成画像の符号化単位ブロック毎に、動き補償予測の参照フレームにおける対応ブロックを示す推定ベクトルを探索する。予測ベクトル生成部２１２は、符号化対象ブロックの隣接ブロックにおいて動き補償に使われた動きベクトルと推定ベクトルとから、符号化対象ブロックの動きベクトルに対する予測ベクトルを生成する。ベクトル情報符号化部２１３は、生成された予測ベクトルを用いて、動きベクトルを予測符号化する。動きベクトルメモリ２１４は、動きベクトルを蓄積する。

図４は、本第２実施形態による多視点映像符号化装置２００の動作を説明するフローチャートである。このフローチャートに従って、第２実施形態による多視点映像符号化装置２００が実行する処理について詳細に説明する。

まず、符号化対象フレーム入力部２０１より符号化対象フレームＯｒｇが入力され、符号化対象画像メモリ２０２に格納される（ステップＳｂ１）。また、参照視点フレーム入力部２０３より符号化対象フレームＯｒｇと同時刻に参照視点で撮影された参照視点フレームＲｅｆ_ｎ（ｎ＝１，２，…，Ｎ）が入力される（ステップＳｂ１）。ここで入力される参照視点フレームは、既に符号化済みの画像を復号したものとする。これは、復号装置で得られる情報と同じ情報を用いることで、ドリフト等の符号化ノイズの発生を抑えるためである。但し、これらの符号化ノイズの発生を許容する場合には、符号化前のオリジナルのものが入力されても構わない。なお、ｎは、参照視点を示すインデックスであり、Ｎは、ここで利用可能な参照視点の数である。

次に、視点合成部２０４で、参照視点フレームを用いて、符号化対象フレームと同時刻に同じ視点で撮影された画像を合成し、生成された視点合成画像Ｓｙｎを視点合成画像メモリ２０５に蓄積する（ステップＳｂ２）。ここで行われる処理は、第１実施形態のステップＳａ２と同様のものである。

符号化対象フレームに対する視点合成画像が生成されたら、符号化対象フレームをブロックに分割し、その領域毎に対応点探索や予測画像生成をしながら、符号化対象フレームの映像信号を符号化する（ステップＳｂ３〜Ｓｂ１４）。つまり、符号化対象ブロックインデックスをｂｌｋ、総符号化対象ブロック数をｎｕｍＢｌｋｓで表すとすると、ｂｌｋを０で初期化した後（ステップＳｂ３）、ｂｌｋに１を加算しながら（ステップＳｂ１３）、ｂｌｋがｎｕｍＢｌｋｓになるまで（ステップＳｂ１４）、以下の処理（ステップＳｂ４〜Ｓｂ１２）を繰り返す。なお、視点合成画像の生成を符号化対象ブロック毎に行うことが可能であれば、それらの処理も符号化対象ブロック毎に繰り返す処理の一部として行うことが可能である。例えば、符号化対象ブロックに対するデプス情報が与えられている場合が該当する。

符号化対象ブロック毎に繰り返される処理では、まず、動き推定部２０６で、符号化対象ブロックＯｒｇ［ｂｌｋ］に対応する参照フレーム上のブロックを見つける（ステップＳｂ４）。この処理は動き予測と呼ばれ、任意の方法を用いることが可能である。対応ブロックを表すために用いられるブロックｂｌｋとの変位を示す２次元ベクトルを動きベクトルと呼び、本第２実施形態では、ｍｖと表す。動きベクトルｍｖは、後のブロックの処理で用いるために、動きベクトルメモリ２１４に蓄えられる。

動き推定が終了したら、動き補償予測部２０７にて符号化対象ブロックＯｒｇ［ｂｌｋ］に対する動き補償予測信号Ｐｒｅｄ［ｂｌｋ］を次の数式（１２）で示されるように生成する（ステップＳｂ５）。

なお、ｒｅｆは、参照フレームを示すインデックスである。また、本第２実施形態では、参照フレームを１枚のみ使う予測方法の例を示したが、Ｈ．２６４などで使われる双予測などのように、複数の参照フレームを用いた方式に拡張することも可能である。２つの参照フレームを用いる場合には、それぞれの参照フレームに対して動き推定を行い、その平均値で予測信号を生成する。

動き補償予測信号が得られたら、画像符号化部２０８にて、動き補償予測信号Ｐｒｅｄ［ｂｌｋ］を用いて、符号化対象ブロックＯｒｇ［ｂｌｋ］を予測符号化する。具体的には、符号化対象ブロックＯｒｇと動き補償予測信号Ｐｒｅｄの差分で表される残差信号Ｒｅｓを求めて符号化する（ステップＳｂ６）。残差信号の符号化には、どのような方法を用いても構わない。例えば、非特許文献１に記載のＨ．２６４では、ＤＣＴ等の周波数変換、量子化、２値化、エントロピー符号化を順に施すことで符号化を行う。この符号化結果のデータは、本第２実施形態による多視点映像符号化装置２００の出力の一部となる。

符号化結果のデータは、その後のフレームを符号化する際の予測に用いるために、画像復号部２０９で復号される。復号は、まず、符号化されている予測残差信号を復号し（ステップＳｂ７）、得られた復号予測残差信号ＤｅｃＲｅｓに動き補償予測信号Ｐｒｅｄを加えることで、ローカルデコード画像Ｄｅｃ_ｃｕｒ［ｂｌｋ］を生成する（ステップＳｂ８）。得られたローカルデコード画像は、復号画像メモリ２１０に蓄積される（ステップＳｂ９）。なお、復号には、符号化で使われた手法で得られる符号化データを復号するための方法が使われる。Ｈ．２６４の場合であれば、エントロピー復号、逆２値化、逆量子化、ＩＤＣＴ等の逆周波数変換の順に処理を施すことで復号予測残差信号を得る。

次に、ステップＳｂ４の動き推定で求められ、ステップＳｂ５の動き補償予測で使われた動きベクトルｍｖの符号化を行う。そのために、まず、対応領域探索部２１１で、視点合成画像Ｓｙｎ［ｂｌｋ］に対応する参照フレーム上の対応ブロックを見つける（ステップＳｂ１０）。その対応ブロックを表すためのブロックｂｌｋとの変位を示す２次元ベクトルを、本第２実施形態では、推定ベクトルｖｅｃと呼ぶ。ここでの処理は、第１実施形態のステップＳａ５と同じである。但し、本第２実施形態は、信頼度ρを用いない例を示しているため、ρは全て１であり、ρの掛け算は省略することができる。もちろん、第１実施形態のように信頼度を設定して用いても構わない。

推定ベクトルｖｅｃが得られたら、予測ベクトル生成部２１２において、動きベクトルメモリ２１４に蓄積されている符号化対象ブロックの隣接ブロックで用いられた動きベクトルと、推定ベクトルとを用いて、符号化対象ブロックの動きベクトルｍｖに対する予測ベクトルｐｍｖを生成する（ステップＳｂ１１）。

隣接領域で実際に使用された最適な動きベクトルは、視点合成画像を用いて推定された動きベクトル（すなわち、推定ベクトル）よりも、その隣接領域においては精度の高いベクトルである。そのため、空間的な類似性がある場合は、それらのベクトルを用いて予測ベクトルを生成することで、符号化が必要となる差ベクトルの量を減らすことができる。しかし、隣接領域と空間的な類似性がない場合は、逆に差ベクトルの量を増やす結果になる場合がある。そこで、本実施形態では視点合成画像を用いて推定した動きベクトルを用いて、空間的な類似性があるかどうかを判断し、空間的な類似性があると判断される場合には、隣接領域の最適ベクトル群を用いた予測ベクトルを生成し、そうでない場合は視点合成画像を用いて推定した動きベクトルを使う。そうすることで、常に符号化する差ベクトルの量を減らし、効率的な多視点映像符号化を達成する。

視点合成画像を用いて推定された動きベクトルと、隣接領域で使用された最適な動きベクトル群とから、予測ベクトルを生成する方法としては、ベクトル成分ごとに平均値や中央値を取る方法を用いることができる。また、隣接領域で使用された最適な動きベクトル群の中で、視点合成画像を用いて推定された動きベクトルとの差が最も少ないベクトルを予測ベクトルとする方法もある。

また別の予測ベクトル生成方法として、隣接領域で使用された最適な動きベクトル群だけを対象として、ベクトル成分ごとに平均値や中央値を取ってベクトルを生成し、そのベクトルと視点合成画像を用いて推定された動きベクトルとを比較し、その差が別途定められた閾値以上であれば、視点合成画像を用いて推定された動きベクトルを予測ベクトルとし、その差が閾値未満であれば生成されたベクトルを予測ベクトルとする方法もある。逆に、その差が閾値以上の場合に生成されたベクトルを予測ベクトルとし、その差が閾値未満の場合に視点合成画像を用いて推定された動きベクトルを予測ベクトルとする方法もある。この２つの方法は視点合成画像がどの程度の精度で生成できたのかに依存するものである。そのため、視点合成画像が高精度で出来た場合には、前者のアルゴリズムで予測ベクトルを決定し、そうでない場合に後者のアルゴリズムで予測ベクトルを決定するという方法を用いても構わない。

すなわち、予測ベクトルの生成には、復号側で用いる方法と同じであれば、様々な方法を用いることができる。例えば、隣接ブロックの動きベクトルは用いずに、推定ベクトルｖｅｃを予測ベクトルｐｍｖとしても構わないし、推定ベクトルｖｅｃに最も近い隣接ブロックの動きベクトルを予測ベクトルｐｍｖとしても構わない。また、推定ベクトルと隣接ブロックの動きベクトルの中央値や平均値を成分毎に取って予測ベクトルｐｍｖを生成しても構わない。更に別の方法としては、隣接ブロックの動きベクトルの中央値や平均値でベクトルｐｍｖ’を生成し、ベクトルｐｍｖ’と推定ベクトルｖｅｃとの差に応じて予測ベクトルｐｍｖを決定する方法もある。

予測ベクトルの生成が終了したら、動きベクトルｍｖをベクトル情報符号化部２１３で予測符号化する（ステップＳｂ１２）。つまり、動きベクトルｍｖと予測ベクトルｐｍｖの差で表される予測残差ベクトルを符号化する。符号化結果は、多視点映像符号化装置２００の出力の１つとなる。

本第２実施形態では、参照フレームに関しては、予め定められているか、Ｈ．２６４と同様に使用した参照フレームを示す情報を符号化することで、復号側と参照フレームの選択を一致させる。しかし、ステップＳｂ１０を、ステップＳｂ４よりも先に行い、複数の候補の中からマッチングコストを最小にする復号済みフレームを決定し、決定されたフレームを参照フレームとして用いても構わない。また、Ｈ．２６４と同様に使用した参照フレームを示す情報を符号化する際にも、マッチングコストを最小とするフレームを示す情報の符号量が少なくなるように符号テーブルを切り替えることで符号量を削減することも可能である。

上述した第２実施形態によれば、カメラ間相関を利用した視点合成によって得られた符号化対象視点の画像を用いて、時間相関を利用するための動きベクトルを予測する。これによって動き補償予測に必要な動きベクトルの符号量を削減することができるため、効率的な多視点映像符号化を実現することが可能となる。なお、本実施形態によると、動きベクトル生成においてカメラ間相関を利用し、映像信号予測において時間相関を利用するため、２つの相関を同時に利用することが可能となる。

ところで、カメラ間相関を利用して合成する視点合成画像に誤差が発生することがある。そのような誤差が含まれるテンプレートを用いて対応領域探索を行った場合、その誤差の影響を受けて動きベクトルの推定精度が低下してしまう。そこで、本第２実施形態において、視点合成画像の画素ごとに合成画像の確からしさを示す信頼度を設定し、その信頼度に基づいて画素ごとにマッチングコストを重み付けする方法がある。そうすることで、視点合成時の誤差に引きずられることなく、精度よく合成できた画素を重視し、適切に動きベクトルを予測することが可能となる。

また、視点合成画像が高精度に生成できる場合、第１実施形態によって、動き補償予測に必要な動きベクトルを生成することが可能である。しかしながら、視点合成画像が常に高精度に生成できるとは限らない。そのため、誤りを含んだ視点合成画像を用いた対応領域探索では、符号化効率の観点で最適な動きベクトルをサブピクセル精度で発見できるとは限らない。そして、適切な動きベクトルを設定できない場合、動き補償予測の結果をもとに符号化しなくてはならない残差の量が増えてしまい効率的な圧縮符号化を実現できなくなる。一方、符号化対象フレームを用いた対応領域探索では、常に符号化効率の観点で最適な対応領域を任意の精度で発見することが可能である。そこで、符号化対象フレームを用いた対応領域探索で見つかった最適な動きベクトルを用いて予測画像を生成し、最適な動きベクトルを符号化する際に、視点合成画像を用いて一定レベルの精度で推定できた動きベクトルとの差分を用いて符号化する。そうすることで、符号化しなくてはならない残差の量の増加を防ぎながら、最適な動きベクトルの符号化に必要な符号量も削減することが可能となる。つまり、本第２実施形態によれば、視点合成画像に誤差が発生する場合においても、適切な動きベクトルを用いた動き補償予測を行いながら、動きベクトルの符号量を削減することが可能になる。そのため、より頑健に効率的な圧縮符号化を実現することが可能となる。

なお、動き探索ステップ（ステップＳｂ４）では、対応領域間の画素値の違いをマッチングコストとして用いても構わないし、差ベクトル符号化で必要となる符号量と、符号化対象となる動き補償予測残差の量とを統合して評価可能なレート歪みコストを用いて、対応領域探索をしても構わない。一般に後者のコスト関数を用いたほうが、多視点映像符号化の符号化効率は高くなる。ただし、レート歪みコストを用いる場合は、本第２実施形態のステップＳｂ４より前に、ステップＳｂ１０とステップＳｂ１１とを行う必要がある。この２つのステップはステップＳｂ４〜Ｓｂ９の処理とは独立なため、順序を入れ替えても構わない。

なお、非特許文献１では、動きベクトルを符号化する際に、空間的な類似性を利用して、隣接領域における動きベクトルから推定した予測ベクトルと動きベクトルとの差分で符号化を行うことで、効率的な符号化を実現している。しかしながら、隣接領域と異なる被写体が処理中のブロックに写っている場合などでは、空間的な類似性を仮定して生成した予測ベクトルと動きベクトルとの差は大きなものとなり、効率的な符号化が実現できない。本実施形態では、処理中のブロックに対する映像信号をカメラ間での予測により得て、それを元に推定したベクトルを予測ベクトルとして利用する。そうすることで、空間的な類似性がない場合においても、より動きベクトルに近い予測ベクトルを生成できる。

Ｃ．第３実施形態
次に、本発明の第３実施形態について説明する。
図５は、本第３実施形態による多視点映像復号装置の構成を示すブロック図である。図５に示すように、多視点映像復号装置３００は、符号化データ入力部３０１、符号化データメモリ３０２、参照視点フレーム入力部３０３、参照視点画像メモリ３０４、視点合成部３０５、視点合成画像メモリ３０６、信頼度設定部３０７、対応領域探索部３０８、動き補償予測部３０９、予測残差復号部３１０、復号画像メモリ３１１、及び復号画像算出部３１２を備えている。

符号化データ入力部３０１は、復号対象となる映像フレームの符号化データを入力する。符号化データメモリ３０２は、入力された符号化データを蓄積する。参照視点フレーム入力部３０３は、復号対象フレームが撮影された視点（復号対象視点）とは別の視点（参照視点）に対する映像フレーム（参照視点フレーム）を入力する。参照視点画像メモリ３０４は、入力された参照視点フレームを蓄積する。

視点合成部３０５は、参照視点フレームを用いて復号対象フレームに対する視点合成画像を生成する。視点合成画像メモリ３０６は、生成された視点合成画像を蓄積する。信頼度設定部３０７は、生成された視点合成画像の画素ごとの信頼度を設定する。対応領域探索部３０８は、視点合成画像の符号化単位ブロック毎に、動き補償予測の参照フレームとなり、復号対象フレームと同じ視点で撮影され、既に復号済みのフレームにおける対応ブロックを示す動きベクトルを、信頼度を用いながら、探索する。

動き補償予測部３０９は、決定した対応ブロックに従って参照フレームを用いて動き補償予測画像を生成する。予測残差復号部３１０は、符号化データから予測残差信号を復号する。復号画像算出部３１２は、復号された予測残差信号と動き補償予測画像とを足し合わせて復号対象フレームの復号画像を算出する。復号画像メモリ３１１は、復号画像を蓄積する。

図６は、本第３実施形態による多視点映像復号装置３００の動作を説明するフローチャートである。このフローチャートに従って、第３実施形態による多視点映像復号装置３００が実行する処理について詳細に説明する。

まず、符号化データ入力部３０１より復号対象フレームの符号化データが入力され、符号化データメモリ３０２に格納される（ステップＳｃ１）。また、参照視点フレーム入力部３０３より復号対象フレームと同時刻に参照視点で撮影された参照視点フレームＲｅｆ_ｎが入力され（ｎ＝１，２，…，Ｎ）、参照視点画像メモリ３０４に蓄積される（ステップＳｃ１）。ｎは、参照視点を示すインデックスであり、Ｎは、ここで利用可能な参照視点の数である。

次に、視点合成部３０５で、参照視点フレームの情報から、復号対象フレームと同時刻に同じ視点で撮影された画像を合成し、生成された視点合成画像Ｓｙｎを視点合成画像メモリ３０６に蓄積する（ステップＳｃ２）。ここでの処理は、第１実施形態のステップＳａ２と同じである。そして、信頼度設定部３０７において、視点合成画像の各画素に対して、その画素に対する合成がどれぐらいの確からしさで実現できたかを示す信頼度ρを生成する（ステップＳｃ３）。ここでの処理は、第１実施形態のステップＳａ３と同じである。

第１実施形態と同様に、視点合成画像生成時に対応点探索やステレオ法、デプス推定を行う場合には、対応点の情報やデプス情報を求める処理の一部が信頼度計算の一部と同じになることがある。そのような場合においては、視点合成画像生成と信頼度計算とを同時に行うことで、演算量を削減することが可能である。

信頼度の計算が終了したら、予め定められたブロック毎に、対応点探索や予測画像生成をしながら、復号対象フレームの映像信号を復号する（ステップＳｃ４〜Ｓｃ１０）。つまり、復号対象ブロックインデックスをｂｌｋ、総復号対象ブロック数をｎｕｍＢｌｋｓで表すとすると、ｂｌｋを０で初期化した後（ステップＳｃ４）、ｂｌｋに１を加算しながら（ステップＳｃ９）、ｂｌｋがｎｕｍＢｌｋｓになるまで（ステップＳｃ１０）、以下の処理（ステップＳｃ５〜Ｓｃ８）を繰り返す。

なお、上記視点合成画像の生成や信頼度の計算を復号対象ブロック毎に行うことが可能であれば、それらの処理も復号対象ブロック毎に繰り返す処理の一部として行うことが可能である。例えば、復号対象ブロックに対するデプス情報が与えられている場合が該当する。

復号対象ブロック毎に繰り返される処理では、まず、対応領域探索部３０８で、視点合成画像を用いてブロックｂｌｋに対応する参照フレーム上の対応ブロックを見つける（ステップＳｃ５）。この処理は、第１実施形態のステップＳａ５と同じであり、マッチングコスト、及び探索範囲等は、符号化側で用いたものと同様のものを用いる。なお、参照フレームとは、既に復号処理が終了して得られているデコード画像のことである。このデータは、復号画像メモリ３１１に蓄積されるデータである。

なお、本第３実施形態では、復号対象フレームと同じカメラで撮影され、復号対象フレームとは別の時刻に撮影された画像を用いる。しかし、復号対象フレームとは別のカメラで撮影されたフレームであっても、復号対象フレームより先に処理をされたフレームであれば、どのようなフレームを用いても構わない。

対応ブロックが決定したら、第１実施形態のステップＳａ６と同様の方法で、動き補償予測部３０９においてブロックｂｌｋに対する予測画像Ｐｒｅｄを生成する（ステップＳｃ６）。そして、予測残差復号部３１０で、入力された符号化データから予測残差を復号して復号予測残差ＤｅｃＲｅｓを得る（ステップＳｃ７）。この処理は、第１実施形態のステップＳａ８と同じであり、符号化側で予測残差を符号化するのに使用した方法の逆処理で復号を行う。

そして、第１実施形態のステップＳａ９と同様に、復号画像算出部３１２は、得られた復号予測残差ＤｅｃＲｅｓに予測信号Ｐｒｅｄを加算して、ブロックｂｌｋに対するデコード画像Ｄｅｃ_ｃｕｒ［ｂｌｋ］を生成する（ステップＳｃ８）。生成されたデコード画像は、多視点映像復号装置３００の出力となると共に、以降のフレームにおいて予測に使用するために、復号画像メモリ３１１に蓄積する。

Ｄ．第４実施形態
次に、本発明の第４実施形態について説明する。
図７は、本第４実施形態による多視点映像復号装置の構成を示すブロック図である。図７において、多視点映像復号装置４００は、符号化データ入力部４０１、符号化データメモリ４０２、参照視点フレーム入力部４０３、視点合成部４０４、視点合成画像メモリ４０５、対応領域探索部４０６、予測ベクトル生成部４０７、動きベクトル復号部４０８、動きベクトルメモリ４０９、動き補償予測部４１０、画像復号部４１１、及び復号画像メモリ４１２を備えている。

符号化データ入力部４０１は、復号対象となる映像フレームの符号化データを入力する。符号化データメモリ４０２は、入力された符号化データを蓄積する。参照視点フレーム入力部４０３は、復号対象フレームとは別の視点に対する映像フレームを入力する。視点合成部４０４は、入力された参照視点フレームを用いて復号対象フレームに対する視点合成画像を生成する。

視点合成画像メモリ４０５は、生成された視点合成画像を蓄積する。対応領域探索部４０６は、視点合成画像の復号単位ブロック毎に、動き補償予測の参照フレームにおける対応ブロックを示す推定ベクトルを探索する。予測ベクトル生成部４０７は、復号対象ブロックの隣接ブロックにおいて動き補償に使われた動きベクトルと推定ベクトルとから、復号対象ブロックの動きベクトルに対する予測ベクトルを生成する。

動きベクトル復号部４０８は、生成された予測ベクトルを用いて、予測符号化されている動きベクトルを符号化データから復号する。動きベクトルメモリ４０９は、動きベクトルを蓄積する。動き補償予測部４１０は、復号された動きベクトルに基づいて動き補償予測画像を生成する。画像復号部４１１は、動き補償予測画像を受け取って予測符号化されている復号対象フレームを復号し、復号画像を出力する。復号画像メモリ４１２は、復号画像を蓄積する。

図８は、本第４実施形態による多視点映像復号装置４００の動作を説明するフローチャートである。このフローチャートに従って、第４実施形態による多視点映像復号装置４００が実行する処理について詳細に説明する。

まず、符号化データ入力部４０１より復号対象フレームの符号化データが入力され、符号化データメモリ４０２に格納される（ステップＳｄ１）。また、参照視点フレーム入力部４０３より復号対象フレームと同時刻に参照視点で撮影された参照視点フレームＲｅｆ_ｎ（ｎ＝１，２，…，Ｎ）が入力される（ステップＳｄ１）。ｎは、参照視点を示すインデックスであり、Ｎは、ここで利用可能な参照視点の数である。なお、符号化データには、映像信号の予測残差と映像予測に用いた動きベクトルの予測残差の少なくとも２種類のデータが含まれている。

次に、視点合成部４０４で、参照視点フレームを用いて、復号対象フレームと同時刻に同じ視点で撮影された画像を合成し、生成された視点合成画像Ｓｙｎを視点合成画像メモリ４０５に蓄積する（ステップＳｄ２）。ここで行われる処理は、第２実施形態のステップＳｂ２と同様のものである。

復号対象フレームに対する視点合成画像が生成されたら、予め定められたブロック毎に、対応点探索や予測画像生成をしながら、復号対象フレームの映像信号、及び動きベクトルを復号する（ステップＳｄ３〜Ｓｄ１１）。つまり、復号対象ブロックインデックスをｂｌｋ、総復号対象ブロック数をｎｕｍＢｌｋｓで表すとすると、ｂｌｋを０で初期化した後（ステップＳｄ３）、ｂｌｋに１を加算しながら（ステップＳｄ１０）、ｂｌｋがｎｕｍＢｌｋｓになるまで（ステップＳｄ１１）、以下の処理（ステップＳｄ４〜Ｓｄ９）を繰り返す。なお、視点合成画像の生成を復号対象ブロック毎に行うことが可能であれば、それらの処理も復号対象ブロック毎に繰り返す処理の一部として行うことが可能である。例えば、復号対象フレームに対するデプス情報が与えられている場合が該当する。

復号対象ブロック毎に繰り返される処理では、まず、対応領域探索部４０６で、視点合成画像Ｓｙｎ［ｂｌｋ］に対応する参照フレーム上の対応ブロックを見つける（ステップＳｄ４）。その対応ブロックを表すためのブロックｂｌｋとの変位を示す２次元ベクトルを、本第４実施形態では、推定ベクトルｖｅｃと呼ぶ。ここでの処理は、第２実施形態のステップＳｂ１０と同じである。但し、本第４実施形態は、信頼度を用いない例を示している。第３実施形態のように信頼度を設定して用いても構わない。

推定ベクトルｖｅｃが得られたら、予測ベクトル生成部４０７において、動きベクトルメモリ４０９に蓄積されている復号対象ブロックの隣接ブロックで用いられた動きベクトルと、推定ベクトルとを用いて、復号対象ブロックの動きベクトルｍｖに対する予測ベクトルｐｍｖを生成する（ステップＳｄ５）。ここでの処理は、第２実施形態のステップＳｂ１１と同じである。

予測ベクトルの生成が終了したら、動きベクトル復号部４０８で、復号対象ブロックｂｌｋにおける動きベクトルｍｖを符号化データから復号する（ステップＳｄ６）。動きベクトルｍｖは、予測ベクトルｐｍｖを用いて予測符号化されており、符号化データから予測残差ベクトルｄｍｖを復号し、予測残差ベクトルｄｍｖに予測ベクトルｐｍｖを加えることで動きベクトルｍｖを得る。復号された動きベクトルｍｖは、動き補償予測部４１０へ送られると共に、動きベクトルメモリ４０９に蓄積し、以降の復号対象ブロックの動きベクトルを復号する際に利用される。

復号対象ブロックに対する動きベクトルが得られたら、動き補償予測部４１０にて復号対象ブロックに対する動き補償予測信号Ｐｒｅｄ［ｂｌｋ］を生成する（ステップＳｄ７）。この処理は、第２実施形態のステップＳｂ５と同じである。

動き補償予測信号が得られたら、画像復号部４１１にて、予測符号化されている復号対象フレームを復号する。具体的には、符号化データから予測残差信号ＤｅｃＲｅｓを復号し（ステップＳｄ８）、得られた復号予測残差ＤｅｃＲｅｓに動き補償予測信号Ｐｒｅｄを加算して、ブロックｂｌｋに対するデコード画像Ｄｅｃ_ｃｕｒ［ｂｌｋ］を生成する(ステップＳｄ９)。生成されたデコード画像は、多視点映像復号装置４００の出力となると共に、以降のフレームにおいて予測に使用するために、復号画像メモリ４１２に蓄積する。

上述した第１から第４実施形態では、視点合成画像や参照フレームをそのまま用いているが、視点合成画像や参照フレームにフィルムグレインや符号化歪みなどのノイズが発生している場合、その影響を受けて対応領域探索の精度が低下する可能性がある。これらのノイズは高周波成分であると仮定できるため、対応領域探索に用いるフレーム（視点合成画像や参照フレーム）に対してローパスフィルタをかけてから探索を行うことで、その影響を小さくすることができる。また、別の方法として、動きベクトルが空間的に相関を持つことを利用して、ブロック毎に推定した動きベクトルに対して平均値フィルタやメディアンフィルタをかけることで、ノイズによって誤った動きベクトルが推定されるのを防ぐことが可能である。

Ｅ．第５実施形態
次に、本発明の第５実施形態について説明する。
図９は、本第５実施形態による動きベクトル推定装置の構成を示すブロック図である。図９に示すように、動きベクトル推定装置５００は、参照視点映像入力部５０１、カメラ情報入力部５０２、視点合成部５０３、ローパスフィルタ部５０４、対応領域探索部５０５、及び動きベクトル平滑化部５０６を備えている。

参照視点映像入力部５０１は、動きベクトルを求めるフレームを撮影した処理対象視点とは別の視点（参照視点）で撮影された映像フレームを入力する。カメラ情報入力部５０２は、処理対象視点及び参照視点のカメラの焦点距離等を示す内部パラメータや、位置や向きを示す外部パラメータを入力する。

視点合成部５０３は、参照視点映像を用いて処理対象視点に対する視点合成映像を生成する。ローパスフィルタ部５０４は、ローパスフィルタをかけて視点合成映像に含まれるノイズを低減する。対応領域探索部５０５は、視点合成映像のあるフレームの動き推定単位ブロック毎に、視点合成映像の別のフレームにおける対応ブロックを示す動きベクトルを探索する。動きベクトル平滑化部５０６は、動きベクトルの空間相関が高まるように動きベクトルを空間的に平滑化する。

図１０は、本第５実施形態による動きベクトル推定装置５００の動作を説明するフローチャートである。このフローチャートに従って、第５実施形態による動きベクトル推定装置５００が実行する処理について詳細に説明する。

まず、参照視点画像入力部５０１より参照視点で撮影された参照視点フレームＲｅｆ（ｎ，ｔ）が入力され、視点合成部５０３に送られる（ｎ＝１，２，…，Ｎ，ｔ＝Ｔ１，Ｔ２）（ステップＳｅ１）。また、カメラ情報入力部５０２より処理対象視点と参照視点のカメラの焦点距離等を示す内部パラメータ及び位置や向きを示す外部パラメータが入力され、視点合成部５０３に送られる（ステップＳｅ１）。ｎは、参照視点を示すインデックスであり、Ｎは、ここで利用可能な参照視点の数である。ｔは、フレームの撮影時刻を示すインデックスであり、本実施形態では時刻Ｔ２のフレームのブロック毎に時刻Ｔ１のフレームのブロックとの間の動きベクトルを推定する例を説明する。

次に、視点合成部５０３で、参照視点フレームとカメラ情報とを用いて、処理対象視点で撮影された画像を撮影時刻ごとに合成する（ステップＳｅ２）。ここでの処理は、第１実施形態のステップＳａ２と同じである。ただし、ここでは時刻Ｔ１とＴ２それぞれのフレームに対する視点合成画像Ｓｙｎ_ｔを合成する。

視点合成画像Ｓｙｎ_ｔの合成が終了したら、視点合成画像に対してローパスフィルタ部５０４でローパスフィルタがかけられ、ノイズの低減された視点合成画像ＬＰＦＳｙｎ_ｔが生成される（ステップＳｅ３）。なお、ローパスフィルタにはどのようなものを用いても構わないが、代表的なものとして平均値フィルタがある。平均値フィルタは、ある画素の画素信号を隣接する画素の画像信号の平均値で置き換えるフィルタである。

ローパスフィルタ処理が終了したら、対応領域探索部５０５において、動きベクトルを推定する対象の視点合成画像ＬＰＦＳｙｎ_Ｔ２をブロックに分割し、その領域ごとに対応領域探索を行い、動きベクトルを生成する（ステップＳｅ４〜Ｓｅ７）。つまり、動き推定単位ブロックインデックスをｂｌｋ、総動き推定単位ブロック数をｎｕｍＢｌｋｓで表すとすると、ｂｌｋを０で初期化した後（ステップＳｅ４）、ｂｌｋに１を加算しながら（ステップＳｅ６）、ｂｌｋがｎｕｍＢｌｋｓになるまで（ステップＳｅ７）、視点合成画像ＬＰＦＳｙｎ_Ｔ２［ｂｌｋ］に対応するブロックを視点合成画像ＬＰＦＳｙｎ_Ｔ１上で探索する処理（ステップＳｅ５）を繰り返す。

対応領域探索処理（ステップＳｅ５）は、使用するフレームが異なるだけで、第１実施形態のステップＳａ５と同じである。つまり、数式（５）〜（８）において、ＳｙｎをＬＰＦＳｙｎ_Ｔ２に、Ｄｅｃ_ｔをＬＰＦＳｙｎ_Ｔ１に置き換えたマッチングコストを用いて、数式（９）で表される（ｂｅｓｔ＿ｖｅｃ，ｂｅｓｔ＿ｔ）の組を求める処理である。ただし、本実施形態ではｔの探索範囲はＴ１のみであるため、ｂｅｓｔ＿ｔはＴ１となる。

全てのブロックにおいて動きベクトルが得られたら、動きベクトル平滑化部５０６で、得られた動きベクトル集合{ＭＶ_ｂｌｋ}を空間相関が高まるように平滑化する（ステップＳｅ８）。平滑化されたベクトルの集合が動きベクトル推定装置５００の出力となる。

動きベクトルの平滑化には、どのような方法を用いても構わないが、例えば平均値フィルタをかける方法がある。ここでいう平均値フィルタ処理は、ブロックｂｌｋの動きベクトルを、そのブロックｂｌｋに隣接するブロックの動きベクトルの平均値で表されるベクトルとする処理である。なお、ここでの動きベクトルは２次元情報であるため、それぞれの次元で平均値を求める処理を行う。別の具体例としてはベクトルメディアンフィルタをかける方法がある。ベクトルメディアンフィルタでは、ブロックｂｌｋに対して、まず、周辺のブロックの動きベクトルの集合Ｘ＝｛ＭＶ_ｋ｝を生成する。そして、ブロックｂｌｋに対する平滑化されたベクトルを次の数式（１３）で得られるＭＶ’_ｂｌｋとする。

なお、‖ｖ‖はｖのノルムを表す。ノルムにはどのようなものを用いても構わないが、代表的なノルムとしてＬ１ノルムとＬ２ノルムがある。Ｌ１ノルムはｖの各成分の絶対値和であり、Ｌ２ノルムはｖの各成分の二乗和である。ｗｉは重みでありどのように設定しても構わない。例えば次の数式（１４）によって定められる値を用いてもよい。

なお、第５実施形態では、視点合成画像の信頼度を計算しなかったが、第１実施形態のように視点合成画像の信頼度を計算して用いても構わない。図１１は、この場合における動きベクトル推定装置５００ａの構成を示すブロック図である。動きベクトル推定装置５００ａは、図９に示した動きベクトル推定装置５００の備える構成要素に加えて、信頼度設定部５０７を備えている。信頼度設定部５０７の構成は、例えば、図１に示した信頼度設定部１０７の構成と同様である。ただし、動きベクトル推定装置５００ａではフレーム（画像）ではなく映像が入力される点が動きベクトル推定装置５００と異なっている。また、第５実施形態では対応領域を探索するフレームも視点合成画像であるため、探索空間となる視点合成画像に対しても信頼度を計算して用いても構わない。更に、それぞれの画像に対して信頼度を計算して同時に用いても構わない。信頼度を同時に用いる場合、数式（５）〜（８）に対応するマッチングコストを計算するための数式は、次の数式（１５）〜（１８）となる。なお、ξは探索空間となる視点対象画像に対する信頼度である。

Ｆ．第６実施形態
次に、本発明の第６実施形態について説明する。
図１２は、本第６実施形態に係る多視点映像符号化装置の構成示すブロック図である。図１２に示すように、多視点映像符号化装置６００は、符号化対象フレーム入力部６０１、符号化対象画像メモリ６０２、参照視点フレーム入力部６０３、参照視点画像メモリ６０４、視点合成部６０５、ローパスフィルタ部６０６、視点合成画像メモリ６０７、信頼度設定部６０８、対応領域探索部６０９、動きベクトル平滑化部６１０、動き補償予測部６１１、画像符号化部６１２、画像復号部６１３、及び復号画像メモリ６１４を備えている。

符号化対象フレーム入力部６０１は、符号化対象となる映像フレームを入力する。符号化対象画像メモリ６０２は、入力された符号化対象フレームを蓄積する。参照視点フレーム入力部６０３は、符号化対象フレームとは別の視点に対する映像フレームを入力する。参照視点画像メモリ６０４は、入力された参照視点フレームを蓄積する。視点合成部６０５は、参照視点フレームを用いて符号化対象フレームと参照フレームに対する視点合成画像を生成する。

ローパスフィルタ部６０６は、ローパスフィルタをかけて視点合成映像に含まれるノイズを低減する。視点合成画像メモリ６０７は、ローパスフィルタ処理された視点合成画像を蓄積する。信頼度設定部６０８は、生成された視点合成画像の画素ごとの信頼度を設定する。対応領域探索部６０９は、視点合成画像の符号化単位ブロック毎に、動き補償予測の参照フレームとなり、符号化対象フレームと同じ視点で撮影され、既に符号化済みのフレーム上の対応ブロックを示す動きベクトルを、参照フレームに対して生成されローパスフィルタ処理された視点合成画像と信頼度とを用いながら探索する。すなわち、対応領域探索を行う際のマッチングコストに信頼度に基づいて重みを付けることで、視点合成時の誤差に引きずられることなく、精度よく合成できた画素を重視し、高精度な動きベクトル推定を実現する。動きベクトル平滑化部６１０は、動きベクトルの空間相関が高まるように動きベクトルを空間的に平滑化する。

動き補償予測部６１１は、決定した対応ブロックに従って参照フレームを用いて動き補償予測画像を生成する。画像符号化部６１２は、動き補償予測画像を受け取って符号化対象フレームを予測符号化し、符号化データを出力する。画像復号部６１３は、動き補償予測画像と符号化データを受け取り、符号化対象フレームを復号して復号画像を出力する。復号画像メモリ６１４は符号化対象フレームの復号画像を蓄積する。

図１３は、本第６実施形態による多視点映像符号化装置６００の動作を説明するフローチャートである。このフローチャートに従って、第６実施形態による多視点映像符号化装置６００が実行する処理について詳細に説明する。

まず、符号化対象フレーム入力部６０１より符号化対象フレームＯｒｇが入力され、符号化対象画像メモリ６０２に格納される（ステップＳｆ１）。また、参照視点フレーム入力部６０３より参照視点で撮影された参照視点フレームＲｅｆ（ｎ，ｔ）が入力され（ｎ＝１，２，…，Ｎ）、参照視点画像メモリ６０４に蓄積される（ステップＳｆ１）。ここで入力される参照視点フレームは、既に符号化済みの画像を復号したものとする。これは、復号装置で得られる情報と同じ情報を用いることで、ドリフト等の符号化ノイズの発生を抑えるためである。但し、これらの符号化ノイズの発生を許容する場合には、符号化前のオリジナルのものが入力されても構わない。なお、ｎは、参照視点を示すインデックスであり、Ｎは、ここで利用可能な参照視点の数である。ｔは、フレームの撮影時刻を示すインデックスであり、符号化対象フレームＯｒｇの撮影時刻（Ｔ）と参照フレームの撮影時刻（Ｔ１，Ｔ２，…，Ｔｍ）のいずれかを示す。ここでｍは参照フレームの枚数を示す。

次に、視点合成部６０５で、参照視点フレームの情報を用いて、符号化対象フレームと同じ視点で撮影された画像を撮影時刻ごとに合成する（ステップＳｆ２）。ここでの処理は、第１実施形態のステップＳａ２と同じである。ただし、ここでは時刻Ｔ，Ｔ１，Ｔ２，…，Ｔｍそれぞれのフレームに対する視点合成画像Ｓｙｎ_ｔを合成する。

視点合成画像Ｓｙｎ_ｔの合成が終了したら、ローパスフィルタ部６０６で、視点合成画像にローパスフィルタがかけられ、ノイズの低減された視点合成画像ＬＰＦＳｙｎ_ｔが生成され、視点合成画像メモリ６０７に蓄積される（ステップＳｆ３）。なお、ローパスフィルタにはどのようなものを用いても構わないが、代表的なものとして平均値フィルタがある。平均値フィルタは、ある画素の出力画素信号を隣接する画素の入力画像信号の平均値とするフィルタである。

次に、信頼度設定部６０８において、視点合成画像の各画素に対して、その画素に対する合成がどれぐらいの確からしさで実現できたかを示す信頼度ρを生成する（ステップＳｆ４）。ここでの処理は、第１実施形態のステップＳａ３と同じである。

信頼度の計算が終了したら、符号化対象フレームをブロックに分割し、その領域毎に対応領域探索部６０９で対応領域探索を行う（ステップＳｆ５）。以下では分割したブロックのインデックスをｂｌｋと表す。対応領域探索処理（ステップＳｆ５）は、使用するフレームが異なるだけで、第１実施形態のステップＳａ５と同じである。つまり、数式（５）〜（８）において、ＳｙｎをＬＰＦＳｙｎ_Ｔに置き換え、ＤｅｃをＬＰＦＳｙｎに置き換えたマッチングコストを用いて、数式（９）で表される（ｂｅｓｔ＿ｖｅｃ，ｂｅｓｔ＿ｔ）の組を求める処理である。ただし、本実施形態ではｔの探索範囲はＴ１〜Ｔｍである。

全てのブロックにおいて動きベクトルが得られたら、動きベクトル平滑化部６１０で、得られた動きベクトル集合{ＭＶ_ｂｌｋ}を空間相関が高まるように平滑化する（ステップＳｆ６）。ここでの処理は第５実施形態のステップＳｅ８と同じである。ただし、複数の参照フレームが存在する場合、選ばれた参照フレームによって動きベクトルが表現している被写体の運動が生じた時間や時間方向が異なる。運動の時間方向は、符号化対象フレームを起点として、過去の運動か未来の運動かを意味する。このため、平均値処理やメディアン処理を行う際に、参照フレームが同じ動きベクトルだけを用いて計算を行う必要がある。つまり、平均値フィルタ処理の場合は、隣接するブロックの動きベクトルで、かつ、参照フレームが同じ動きベクトルのみを用いて平均値を計算する。ベクトルメディアンフィルタの例では、動きベクトルの集合Ｘを、周辺のブロックの動きベクトルで、動きベクトルＭＶ_ｂｌｋと同じ参照フレームを用いているベクトルの集合で定義する必要がある。

動きベクトルの平滑化が終了したら、得られた動きベクトルにしたがって、動き補償予測部６１１で動き補償予測信号Ｐｒｅｄを生成する（ステップＳｆ７）。ここでの処理は第１実施形態のステップＳａ６と同じである。なお、ここでは全てのブロックについて動きベクトルが得られているため、フレーム全体の動き補償予測信号を生成する。

動き補償予測信号が得られたら、画像符号化部６１２にて、動き補償予測信号Ｐｒｅｄを用いて、符号化対象フレームＯｒｇを予測符号化する。具体的には、符号化対象フレームＯｒｇと動き補償予測信号Ｐｒｅｄの差分で表される残差信号Ｒｅｓを求めて符号化する（ステップＳｆ８）。残差信号の符号化には、どのような方法を用いても構わない。例えば、非特許文献１に記載のＨ．２６４では、ＤＣＴ等の周波数変換、量子化、２値化、エントロピー符号化を順に施すことで符号化を行う。この符号化結果のデータは、本第６実施形態による多視点映像符号化装置６００の出力となる。

符号化結果のデータは、その後のフレームを符号化する際の予測に用いるために、画像復号部６１３で復号される。復号は、まず、符号化されている予測残差信号を復号し（ステップＳｆ９）、得られた復号予測残差信号ＤｅｃＲｅｓに動き補償予測信号Ｐｒｅｄを加えることで、ローカルデコード画像Ｄｅｃ_ｃｕｒを生成する（ステップＳｆ１０）。得られたローカルデコード画像は、復号画像メモリ６１４に蓄積される。なお、復号には、符号化で使われた手法で得られる符号化データを復号するための方法が使われる。Ｈ．２６４の場合であれば、エントロピー復号、逆２値化、逆量子化、ＩＤＣＴ等の逆周波数変換の順に処理を施すことで復号予測残差信号を得る。

なお、符号化処理や復号処理はフレーム全体で行っても構わないし、Ｈ．２６４のようにブロックごとに行っても構わない。これらの処理をブロックごとに行う場合は、ステップＳｆ７、ステップＳｆ８、ステップＳｆ９、ステップＳｆ１０を、ブロック毎に繰り返し行うことで動き補償予測信号を蓄積するための一時メモリの量を削減することができる。

本実施形態は、上述の第１から第４の実施形態と異なり、参照フレーム上の対応領域を求めるために、参照フレームそのものを使用せずに、その参照フレームに対して生成された視点合成画像を用いて対応領域を求めている。視点合成処理が高精度に行える場合は、視点合成画像Ｓｙｎとデコード画像Ｄｅｃはほぼ等しいと考えられるため、視点合成画像Ｓｙｎを用いた場合でも、本実施形態の効果が同様に得られる。

この場合は、参照フレームと同時刻に撮影された参照視点フレームを入力し、参照フレームに対する視点合成画像を生成し蓄積する必要がある。本実施形態による符号化及び復号処理が連続して複数のフレームに適応される場合、復号画像メモリに処理済みフレームが蓄積されている間、視点合成画像メモリに視点合成画像を蓄積し続けることで、参照フレームに対する視点合成画像を符号化対象フレームごとに合成することを回避することが可能である。

なお、参照フレームに対する視点合成画像を用いる場合、対応領域探索において復号画像メモリに蓄積された処理済フレームを必要としないため、対応領域探索の処理は符号化処理や復号処理と同期して行う必要はなくなる。その結果、並列演算等が可能となり、全体の演算時間を削減できるという効果が得られる。

Ｇ．第７実施形態
次に、本発明の第７実施形態について説明する。
図１４は、本第７実施形態による多視点映像符号化装置の構成を示すブロック図である。図７に示すように、多視点映像符号化装置７００は、符号化対象フレーム入力部７０１、符号化対象画像メモリ７０２、動き推定部７０３、動き補償予測部７０４、画像符号化部７０５、画像復号部７０６、復号画像メモリ７０７、参照視点フレーム入力部７０８、視点合成部７０９、ローパスフィルタ部７１０、視点合成画像メモリ７１１、対応領域探索部７１２、ベクトル平滑化部７１３、予測ベクトル生成部７１４、ベクトル情報符号化部７１５、及び動きベクトルメモリ７１６を備えている。

符号化対象フレーム入力部７０１は、符号化対象となる映像フレームを入力する。符号化対象画像メモリ７０２は、入力された符号化対象フレームを蓄積する。動き推定部７０３は、符号化対象フレームの符号化単位ブロック毎に、符号化対象フレームと参照フレームとの間の動きを推定する。動き補償予測部７０４は、動き推定の結果に基づいて動き補償予測画像を生成する。画像符号化部７０５は、動き補償予測画像を受け取って符号化対象フレームを予測符号化し、符号化データを出力する。画像復号部７０６は、動き補償予測画像と符号化データを受け取り、符号化対象フレームを復号して復号画像を出力する。復号画像メモリ７０７は、符号化対象フレームの復号画像を蓄積する。

参照視点フレーム入力部７０８は、符号化対象フレームとは別の視点に対する映像フレームを入力する。視点合成部７０９は、参照視点フレームを用いて符号化対象フレームと参照フレームに対する視点合成画像を生成する。ローパスフィルタ部７１０は、ローパスフィルタをかけて視点合成映像に含まれるノイズを低減する。視点合成画像メモリ７１１は、ローパスフィルタ処理された視点合成画像を蓄積する。

対応領域探索部７１２は、視点合成画像の符号化単位ブロック毎に、動き補償予測の参照フレームとなり、符号化対象フレームと同じ視点で撮影され、既に符号化済みのフレーム上の対応ブロックを示すベクトルを、参照フレームに対して生成されローパスフィルタ処理された視点合成画像を用いながら探索する。ベクトル平滑化部７１３は、得られたベクトルの空間相関が高まるようにベクトルを空間的に平滑化し推定ベクトルを生成する。

予測ベクトル生成部７１４は、隣接ブロックにおいて動き補償に使われた動きベクトルと推定ベクトルとから、符号化対象ブロックの動きベクトルに対する予測ベクトルを生成する。ベクトル情報符号化部７１５は、生成された予測ベクトルを用いて、動きベクトルを予測符号化する。動きベクトルメモリ７１６は、動きベクトルを蓄積する。

図１５は、本第７実施形態による多視点映像符号化装置７００の動作を説明するフローチャートである。このフローチャートに従って、第７実施形態による多視点映像符号化装置７００が実行する処理について詳細に説明する。

まず、符号化対象フレーム入力部７０１より符号化対象フレームＯｒｇが入力され、符号化対象画像メモリ７０２に格納される（ステップＳｇ１）。次に、符号化対象フレームをブロックに分割し、その領域毎に動き補償予測を行いながら、符号化対象フレームの映像信号を符号化する（ステップＳｇ２〜Ｓｇ５）。以下では符号化対象ブロックインデックスをｂｌｋで表す。

符号化処理において、まず、動き推定部７０３で、ブロックｂｌｋごとに、符号化対象ブロックＯｒｇ［ｂｌｋ］に対応する参照フレーム上のブロックを見つける（ステップＳｇ２）。この処理は動き予測と呼ばれ、第２実施形態のステップＳｂ４と同じである。対応ブロックを表すために用いられるブロックｂｌｋとの変位を示す２次元ベクトルを動きベクトルと呼び、本第７実施形態では、ｍｖと表す。動きベクトルｍｖは、後のブロックの処理で用いるために、動きベクトルメモリ７１６に蓄えられる。なお、Ｈ．２６４のように、ブロック毎に参照フレームを選択する場合、選択された参照フレームを示す情報も動きベクトルメモリ７１６に蓄えられる。

動き推定が終了したら、動き補償予測部７０４にて符号化対象フレームＯｒｇに対する動き補償予測信号Ｐｒｅｄを生成する（ステップＳｇ３）。ここでの処理は第２実施形態のステップＳｂ５と同じである。動き補償予測信号が得られたら、画像符号化部７０５にて、動き補償予測信号Ｐｒｅｄを用いて、符号化対象フレームを予測符号化する（ステップＳｇ４）。ここでの処理は第２実施形態のステップＳｂ６と同じである。この符号化結果のデータは、本第７実施形態による多視点映像符号化装置７００の出力の一部となる。符号化結果のデータは、その後のフレームを符号化する際の予測に用いるために、画像復号部７０６で復号される（ステップＳｇ５）。ここでの処理は第２実施形態のステップＳｂ７とステップＳｂ８の処理と同じである。復号されたローカルデコード画像Ｄｅｃ_ｃｕｒは、復号画像メモリ７０７に蓄積される。

なお、図１５で示したフローチャートではステップＳｇ３〜Ｓｇ５の処理をフレーム単位で行う例で示したが、ブロック毎にステップＳｇ３〜Ｓｇ５を繰り返すように実施しても構わない。その場合、動き補償予測信号はブロック単位で保持すればよいため、一時的に使用するメモリ量を削減することが可能である。

符号化対象フレームの画像信号の符号化が終了したら、その符号化を行う際に用いた動き補償予測信号を生成するための動きベクトルｍｖの符号化を行う。そのために、まず、参照視点フレーム入力部７０８より参照視点で撮影された参照視点フレームＲｅｆ（ｎ，ｔ）を入力する（ｎ＝１，２，…，Ｎ）（ステップＳｇ６）。ここで入力される参照視点フレームは、既に符号化済みの画像を復号したものとする。これは、復号装置で得られる情報と同じ情報を用いることで、ドリフト等の符号化ノイズの発生を抑えるためである。但し、これらの符号化ノイズの発生を許容する場合には、符号化前のオリジナルのものが入力されても構わない。なお、ｎは、参照視点を示すインデックスであり、Ｎは、ここで利用可能な参照視点の数である。ｔは、フレームの撮影時刻を示すインデックスであり、符号化対象フレームＯｒｇの撮影時刻（Ｔ）と参照フレームの撮影時刻（Ｔ１，Ｔ２，…，Ｔｍ）のいずれかを示す。ここでｍは参照フレームの枚数を示す。

次に、視点合成部７０９で、参照視点フレームの情報を用いて、符号化対象フレームと同じ視点で撮影された画像を撮影時刻ごとに合成する（ステップＳｇ７）。ここでの処理は、第６実施形態のステップＳｆ２と同じである。

視点合成画像Ｓｙｎ_ｔの合成が終了したら、ローパスフィルタ部７１０で、視点合成画像にローパスフィルタがかけられ、ノイズの低減された視点合成画像ＬＰＦＳｙｎ_ｔが生成され、視点合成画像メモリ７１１に蓄積される（ステップＳｇ８）。ここでの処理は、第６実施形態のステップＳｆ３と同じである。

ローパスフィルタ処理が終了したら、符号化対象フレームに対して生成された視点合成画像ＬＰＦＳｙｎ_Ｔをブロックに分割し、その領域毎に対応領域探索部７１２で対応領域探索を行う（ステップＳｇ９）。なお、視点合成画像ＬＰＦＳｙｎ_Ｔをブロックに分割する際は、ステップＳｇ３において動き補償予測を行うブロックと同じブロック位置とサイズで分割を行う。ここでの処理は分割されたブロック毎に、数式（５）〜（８）において、ＳｙｎをＬＰＦＳｙｎ_Ｔに置き換え、ＤｅｃをＬＰＦＳｙｎに置き換えたマッチングコストを用いて、数式（９）を満たす（ｂｅｓｔ＿ｖｅｃ，ｂｅｓｔ＿ｔ）の組を求める処理である。ただし、本実施形態ではｔとしてＴ１〜Ｔｍのそれぞれに対してｂｅｓｔ＿ｖｅｃを求める。つまりブロック毎にｂｅｓｔ＿ｖｅｃの集合が得られる。なお、本実施形態は視点合成の信頼度を使用していないが、第６実施形態で示したように信頼度を計算して用いても構わない。

全てのブロックにおいてベクトルが得られたら、動きベクトル平滑化部７１３で、得られたベクトル集合{ＭＶ_ｂｌｋ}を空間相関が高まるように平滑化することで、推定ベクトルの集合｛ｖｅｃ（ｂｌｋ，ｔ）｝を生成する（ステップＳｇ１０）。ここでの処理は第５実施形態のステップＳｅ８と同じである。なお、平滑化処理は参照フレームの撮影時刻ごとに行われる。

推定ベクトルの集合が得られたら、予測ベクトル生成部７１４において、ブロック毎に、動きベクトルメモリ７１６に蓄積されている処理ブロックの隣接ブロックで用いられた動きベクトルと、処理ブロックの推定ベクトルとを用いて、符号化対象ブロックの動きベクトルｍｖに対する予測ベクトルｐｍｖを生成する（ステップＳｇ１１）。なお、ここでの処理は第２実施形態のステップＳｂ１１と同じである。ただし、本実施形態では複数の参照フレームから、ブロック毎に最適なフレームを選択して動きベクトルを生成しているため、各ベクトルの参照フレームを考慮した予測ベクトル生成法を用いても構わない。

ベクトルの参照フレームを考慮した予測ベクトル生成法としては、次の方法を用いても構わない。まず、処理ブロックの動きベクトルの参照フレームと、処理ブロックの隣接ブロックで用いられた動きベクトルの参照フレームを比較し、隣接ブロックで用いられた動きベクトルのうち参照フレームが処理ブロックの動きベクトルの参照フレームと一致した動きベクトルを予測ベクトル候補として設定する。予測ベクトル候補が見つからなかった場合は、処理ブロックで参照フレームの一致する推定ベクトルを予測ベクトルとする。予測ベクトル候補が見つかった場合は、その中から処理ブロックで参照フレームの一致する推定ベクトルに最も近いベクトルを予測ベクトルとする。その際に、処理ブロックで参照フレームの一致する推定ベクトルと一定以上離れたベクトルは除外しても構わない。なお、除外処理により予測ベクトル候補がなくなった場合は、処理ブロックで参照フレームの一致する推定ベクトルを予測ベクトルとする。

また、ベクトルの参照フレームを考慮した予測ベクトル生成法として次の方法を用いても構わない。まず、処理ブロックの周辺ブロックにおいて、参照フレームが同じブロックからなる集合を定義する。この集合が空集合の場合、処理ブロックで参照フレームの一致する推定ベクトルを予測ベクトルとする。この集合が空集合ではない場合、集合に含まれるブロック毎に、そのブロックで参照フレームの一致する推定ベクトルと処理ブロックで参照フレームの一致する推定ベクトルとの類似度を計算する。そして、最も高い類似度を持つブロックの動きベクトルを予測ベクトルとする。なお、全てのブロックに対して類似度が一定未満の場合は、処理ブロックで参照フレームの一致する推定ベクトルを予測ベクトルとしても構わない。また一定以上の類似度のブロックが複数存在する場合は、それらのブロックに対する動きベクトルの平均ベクトルを予測ベクトルとしても構わない。

予測ベクトルの生成が終了したら、ブロックごとに、動きベクトルｍｖをベクトル情報符号化部７１５で予測符号化する（ステップＳｇ１２）。ここでの処理は第２実施形態のステップＳｂ１２と同じである。符号化結果は、多視点映像符号化装置７００の出力の１つとなる。

図１５で示したフローチャートではステップＳｇ１１とステップＳｇ１２をフレーム単位で行う例で示した。この場合、ステップＳｇ１１で予測ベクトルを生成する際に、ステップＳｇ１２での符号化順序を考慮して、隣接ブロックとして符号化済みブロックのみを使用するように制限を行わなくてはならない。これは復号時に復号前の情報が必要となり復号できなくなることを防ぐためである。なお、ステップＳｇ１１とステップＳｇ１２はブロック毎に交互に実施しても構わない。その場合、符号化順序を考慮することなく符号化済みの隣接領域を同定することが可能となる。また、予測ベクトルをブロック単位で保持すればよくなるため、一時的に使用するメモリ量を削減することが可能となる。

また、本実施形態では、ステップＳｇ９において、参照フレームごとにベクトルを生成した。しかし、処理ブロックに対する動きベクトルの参照フレームに対してのみベクトルを生成することにしても構わないし、処理ブロックまたは処理ブロックの周辺ブロックのいずれかに対する動きベクトルの参照フレームに対してのみベクトルを生成することにしても構わない。このようにすることでステップＳｇ９の演算コストを削減することができる。ただし、この場合、ステップＳｇ１０におけるベクトル平滑化は、第６実施形態のステップＳｆ６と同様に、参照フレームが同じ動きベクトルだけを用いて処理を行う必要がある。

Ｈ．第８実施形態
次に、本発明の第８実施形態について説明する。
図１６は、本第８実施形態による多視点映像復号装置の構成を示すブロック図である。図１６に示すように、多視点映像復号装置８００は、符号化データ入力部８０１、符号化データメモリ８０２、参照視点フレーム入力部８０３、参照視点画像メモリ８０４、視点合成部８０５、ローパスフィルタ部８０６、視点合成画像メモリ８０７、信頼度設定部８０８、対応領域探索部８０９、動きベクトル平滑化部８１０、動き補償予測部８１１、画像復号部８１２、及び復号画像メモリ８１３を備えている。

符号化データ入力部８０１は、復号対象となる映像フレームの符号化データを入力する。符号化データメモリ８０２は、入力された符号化データを蓄積する。参照視点フレーム入力部８０３は、復号対象フレームとは別の視点に対する映像フレームを入力する。参照視点画像メモリ８０４は、入力された参照視点フレームを蓄積する。視点合成部８０５は、参照視点フレームを用いて復号対象フレームと参照フレームに対する視点合成画像を生成する。

ローパスフィルタ部８０６は、ローパスフィルタをかけて視点合成映像に含まれるノイズを低減する。視点合成画像メモリ８０７は、ローパスフィルタ処理された視点合成画像を蓄積する。信頼度設定部８０８は、生成された視点合成画像の画素ごとの信頼度を設定する。対応領域探索部８０９は、視点合成画像の復号単位ブロック毎に、動き補償予測の参照フレームとなり、復号対象フレームと同じ視点で撮影され、既に復号済みのフレーム上の対応ブロックを示す動きベクトルを、参照フレームに対して生成されローパスフィルタ処理された視点合成画像と信頼度とを用いながら探索する。すなわち、対応領域探索を行う際のマッチングコストに信頼度に基づいて重みを付けることで、視点合成時の誤差に引きずられることなく、精度よく合成できた画素を重視し、高精度な動きベクトル推定を実現する。動きベクトル平滑化部８１０は、動きベクトルの空間相関が高まるように動きベクトルを空間的に平滑化する。

動き補償予測部８１１は、決定した対応ブロックに従って参照フレームを用いて動き補償予測画像を生成する。画像復号部８１２は、動き補償予測画像と符号化データを受け取り、復号対象フレームを復号して復号画像を出力する。復号画像メモリ８１３は復号対象フレームの復号画像を蓄積する。

図１７は、本第８実施形態による多視点映像復号装置８００の動作を説明するフローチャートである。このフローチャートに従って、第８実施形態による多視点映像復号装置８００が実行する処理について詳細に説明する。

まず、符号化データ入力部８０１より復号対象フレームの符号化データが入力され、符号化データメモリ８０２に格納される（ステップＳｈ１）。また、参照視点フレーム入力部８０３より参照視点で撮影された参照視点フレームＲｅｆ（ｎ，ｔ）が入力され（ｎ＝１，２，…，Ｎ）、参照視点画像メモリ８０４に蓄積される（ステップＳｈ１）。ｎは、参照視点を示すインデックスであり、Ｎは、ここで利用可能な参照視点の数である。ｔは、フレームの撮影時刻を示すインデックスであり、復号対象フレームＤｅｃ_ｃｕｒの撮影時刻（Ｔ）と参照フレームの撮影時刻（Ｔ１，Ｔ２，…，Ｔｍ）のいずれかを示す。ここでｍは参照フレームの枚数を示す。

次に、視点合成部８０５で、参照視点フレームの情報を用いて、復号対象フレームと同じ視点で撮影された画像を撮影時刻ごとに合成する（ステップＳｈ２）。ここでの処理は、第６実施形態のステップＳｆ２と同じである。すなわち、ここでは時刻Ｔ，Ｔ１，Ｔ２，…，Ｔｍそれぞれのフレームに対する視点合成画像Ｓｙｎ_ｔを合成する。

視点合成画像Ｓｙｎ_ｔの合成が終了したら、ローパスフィルタ部８０６で、視点合成画像にローパスフィルタをかけ、ノイズの低減された視点合成画像ＬＰＦＳｙｎ_ｔを視点合成画像メモリ８０７に蓄積する（ステップＳｈ３）。ここでの処理は、第６実施形態のステップＳｆ３と同じである。なお、ローパスフィルタにはどのようなものを用いても構わないが、代表的なものとして平均値フィルタがある。平均値フィルタは、ある画素の出力画素信号を隣接する画素の入力画像信号の平均値とするフィルタである。

次に、信頼度設定部８０８において、視点合成画像の各画素に対して、その画素に対する合成がどれぐらいの確からしさで実現できたかを示す信頼度ρを生成する（ステップＳｈ４）。ここでの処理は、第６実施形態のステップＳｆ４と同じである。

第６実施形態と同様に、視点合成画像生成時に対応点探索やステレオ法、デプス推定を行う場合には、対応点の情報やデプス情報を求める処理の一部が信頼度計算の一部と同じになることがある。そのような場合においては、視点合成画像生成と信頼度計算とを同時に行うことで、演算量を削減することが可能である。

信頼度の計算が終了したら、予め定められたブロック毎に、対応領域探索部８０９で対応領域探索を行う（ステップＳｈ５）。以下ではブロックのインデックスをｂｌｋと表す。ここでの処理は、第６実施形態のステップＳｆ５と同じである。

全てのブロックにおいて動きベクトルが得られたら、動きベクトル平滑化部８１０で、得られた動きベクトル集合{ＭＶ_ｂｌｋ}を空間相関が高まるように平滑化する（ステップＳｈ６）。ここでの処理は第６実施形態のステップＳｆ６と同じである。

動きベクトルの平滑化が終了したら、得られた動きベクトルにしたがって、動き補償予測部８１１で動き補償予測信号Ｐｒｅｄを生成する（ステップＳｈ７）。ここでの処理は第６実施形態のステップＳｆ７と同じである。

動き補償予測信号が得られたら、画像復号部８１２において、動き補償予測信号Ｐｒｅｄを用いて、入力された符号化データから復号対象フレーム（デコード画像）Ｄｅｃ_ｃｕｒを復号する（ステップＳｈ８）。ここでの処理は第６実施形態のステップＳｆ９とステップＳｆ１０をあわせたものと同じであり、符号化に使用した方法で行われる処理の逆処理で復号を行う。生成されたデコード画像は、多視点映像復号装置８００の出力となると共に、以降のフレームにおいて予測に使用するために、復号画像メモリ８１３に蓄積する。

なお、復号処理はフレーム全体で行っても構わないし、Ｈ．２６４のようにブロックごとに行っても構わない。復号処理をブロックごとに行う場合は、ステップＳｈ７とステップＳｈ８とをブロック毎に交互に行うことで動き補償予測信号を蓄積するための一時メモリの量を削減することができる。

Ｉ．第９実施形態
次に、本発明の第９実施形態について説明する。
図１８は、本第９実施形態による多視点映像復号装置の構成を示すブロック図である。図９において、多視点映像復号装置９００は、符号化データ入力部９０１、符号化データメモリ９０２、参照視点フレーム入力部９０３、視点合成部９０４、ローパスフィルタ部９０５、視点合成画像メモリ９０６、対応領域探索部９０７、ベクトル平滑化部９０８、予測ベクトル生成部９０９、動きベクトル復号部９１０、動きベクトルメモリ９１１、動き補償予測部９１２、画像復号部９１３、及び復号画像メモリ９１４を備えている。

符号化データ入力部９０１は、復号対象となる映像フレームの符号化データを入力する。符号化データメモリ９０２は、入力された符号化データを蓄積する。参照視点フレーム入力部９０３は、復号対象フレームとは別の参照視点に対する映像フレームを入力する。視点合成部９０４は、参照視点フレームを用いて復号対象フレームと参照フレームに対する視点合成画像を生成する。ローパスフィルタ部９０５は、ローパスフィルタをかけて視点合成映像に含まれるノイズを低減する。視点合成画像メモリ９０６は、ローパスフィルタ処理された視点合成画像を蓄積する。

対応領域探索部９０７は、視点合成画像の復号単位ブロック毎に、動き補償予測の参照フレームとなり、復号対象フレームと同じ視点で撮影され、既に復号済みのフレーム上の対応ブロックを示すベクトルを、参照フレームに対して生成されローパスフィルタ処理された視点合成画像を用いながら探索する。ベクトル平滑化部９０８は、得られたベクトルの空間相関が高まるようにベクトルを空間的に平滑化し推定ベクトルを生成する。

予測ベクトル生成部９０９は、復号対象ブロックの隣接ブロックにおいて動き補償に使われた動きベクトルと推定ベクトルとから、復号対象ブロックの動きベクトルに対する予測ベクトルを生成する。動きベクトル復号部９１０は、生成された予測ベクトルを用いて、予測符号化されている動きベクトルを符号化データから復号する。動きベクトルメモリ９１１は、復号された動きベクトルを蓄積する。動き補償予測部９１２は、復号された動きベクトルに基づいて動き補償予測画像を生成する。画像復号部９１３は、動き補償予測画像を受け取って予測符号化されている復号対象フレームを復号し、復号画像を出力する。復号画像メモリ９１４は、復号画像を蓄積する。

図１９は、本第９実施形態による多視点映像復号装置９００の動作を説明するフローチャートである。このフローチャートに従って、第９実施形態による多視点映像復号装置９００が実行する処理について詳細に説明する。

まず、符号化データ入力部９０１より復号対象フレームの符号化データが入力され、符号化データメモリ９０２に格納される（ステップＳｉ１）。また、参照視点フレーム入力部９０３より参照視点で撮影された参照視点フレームＲｅｆ（ｎ，ｔ）を入力する（ｎ＝１，２，…，Ｎ）（ステップＳｉ１）。ｎは、参照視点を示すインデックスであり、Ｎは、ここで利用可能な参照視点の数である。ｔは、フレームの撮影時刻を示すインデックスであり、復号対象フレームＤｅｃ_ｃｕｒの撮影時刻（Ｔ）と参照フレームの撮影時刻（Ｔ１，Ｔ２，…，Ｔｍ）のいずれかを示す。ここでｍは参照フレームの枚数を示す。なお、符号化データには、映像信号の予測残差と映像予測に用いた動きベクトルの予測残差の少なくとも２種類のデータが含まれている。

次に、視点合成部９０４で、参照視点フレームの情報を用いて、復号対象フレームと同じ視点で撮影された画像を撮影時刻ごとに合成する（ステップＳｉ２）。ここでの処理は、第７実施形態のステップＳｇ７と同じである。

視点合成画像Ｓｙｎ_ｔの合成が終了したら、ローパスフィルタ部９０５で、視点合成画像にローパスフィルタがかけられ、ノイズの低減された視点合成画像ＬＰＦＳｙｎ_ｔが生成され、視点合成画像メモリ９０６に蓄積される（ステップＳｉ３）。ここでの処理は、第７実施形態のステップＳｇ８と同じである。

ローパスフィルタ処理が終了したら、復号対象フレームに対して生成された視点合成画像ＬＰＦＳｙｎ_Ｔをブロックに分割し、その領域毎に対応領域探索部９０７で対応領域探索を行う（ステップＳｉ４）。ここでの処理は、第７実施形態のステップＳｇ９と同じである。なお、本実施形態は視点合成の信頼度を使用していないが、第６実施形態で示したように信頼度を計算して用いても構わない。

全てのブロックにおいてベクトルが得られたら、動きベクトル平滑化部９０８で、得られたベクトル集合{ＭＶ_ｂｌｋ}を空間相関が高まるように平滑化することで、推定ベクトルの集合｛ｖｅｃ（ｂｌｋ，ｔ）｝を生成する（ステップＳｉ５）。ここでの処理は第７実施形態のステップＳｇ１０と同じである。なお、平滑化処理は参照フレームの撮影時刻ごとに行われる。

推定ベクトルの集合が得られたら、予め定められたブロック毎に、復号対象フレームの映像信号、及び動きベクトルを復号する（ステップＳｉ６〜Ｓｉ１３）。つまり、復号対象ブロックインデックスをｂｌｋ、総復号対象ブロック数をｎｕｍＢｌｋｓで表すとすると、ｂｌｋを０で初期化した後（ステップＳｉ６）、ｂｌｋに１を加算しながら（ステップＳｉ１２）、ｂｌｋがｎｕｍＢｌｋｓになるまで（ステップＳｉ１３）、以下の処理（ステップＳｉ７〜Ｓｉ１１）を繰り返す。

復号対象ブロック毎に繰り返される処理では、まず、予測ベクトル生成部９０９において、動きベクトルメモリ９１１に蓄積されている復号対象ブロックの隣接ブロックで用いられた動きベクトルと、推定ベクトルとを用いて、復号対象ブロックの動きベクトルｍｖに対する予測ベクトルｐｍｖを生成する（ステップＳｉ７）。ここでの処理は、第７実施形態のステップＳｇ１１と同じである。ただし、本実施形態ではフレーム全体ではなく、ブロックｂｌｋに対してのみ、予測ベクトルの生成を行う。予測ベクトルの生成には符号化時に行われた方法と同じ方法を用いる。

予測ベクトルの生成が終了したら、動きベクトル復号部９１０で、復号対象ブロックｂｌｋにおける動きベクトルｍｖを符号化データから復号する（ステップＳｉ８）。動きベクトルｍｖは、予測ベクトルｐｍｖを用いて予測符号化されており、符号化データから予測残差ベクトルｄｍｖを復号し、予測残差ベクトルｄｍｖに予測ベクトルｐｍｖを加えることで動きベクトルｍｖを得る。復号された動きベクトルｍｖは、動き補償予測部９１２へ送られると共に、動きベクトルメモリ９１１に蓄積し、以降の復号対象ブロックの動きベクトルを復号する際に利用される。

復号対象ブロックに対する動きベクトルが得られたら、動き補償予測部９１２にて復号対象ブロックに対する動き補償予測信号Ｐｒｅｄ［ｂｌｋ］を生成する（ステップＳｉ９）。この処理は、第７実施形態のステップＳｇ３と同じである。

動き補償予測信号が得られたら、画像復号部９１３にて、予測符号化されている復号対象フレームを復号する。具体的には、符号化データから予測残差信号ＤｅｃＲｅｓを復号し（ステップＳｉ１０）、得られた復号予測残差ＤｅｃＲｅｓに動き補償予測信号Ｐｒｅｄを加算して、ブロックｂｌｋに対するデコード画像Ｄｅｃ_ｃｕｒ［ｂｌｋ］を生成する(ステップＳｉ１１)。生成されたデコード画像は、多視点映像復号装置９００の出力となると共に、以降のフレームにおいて予測に使用するために、復号画像メモリ９１４に蓄積する。

上述した第５から第９実施形態では、視点合成画像に対するローパスフィルタ処理、および、動きベクトル平滑化処理によって、参照視点フレームにおけるフィルムグレインや符号化歪み、および、視点合成における合成歪みなどのノイズによって、対応領域探索の精度が低下することを防いでいる。しかしながら、これらのノイズの量が少ない場合は、ローパスフィルタ処理や動きベクトル平滑化処理を行わなくても対応領域を高精度に求めることが可能である。そのような場合、上述した第５から第９実施形態のローパスフィルタ処理や動きベクトル平滑化処理を省略することで、トータルの演算量を削減することが可能である。

上述した第１から第４実施形態及び第６から第９実施形態では、符号化単位ブロックや復号単位ブロックが動き補償予測ブロックと同じ大きさである場合で説明した。しかし、Ｈ．２６４のように、符号化単位ブロックや復号単位ブロックと動き補償予測ブロックとが異なるサイズの場合に拡張することも容易に類推可能である。

上述した第１から第９実施形態では、動き補償予測について説明したが、本発明の思想は全てのフレーム間予測に適用することができる。つまり、参照フレームが別のカメラで撮影されたフレームであれば、対応領域探索では視差を推定することになる。また、参照フレームが異なるカメラで異なる時刻に撮影されたフレームであれば、動きと視差の両方が含まれるベクトルを推定することになる。更に、フラクタル符号化のように、フレーム内で参照領域を決定する場合においても適応可能である。

また、上述した第１から第４実施形態及び第６から第９実施形態では、フレーム間予測を用いて全てのブロックを符号化するとして記載したが、Ｈ．２６４などのようにブロック毎に異なる予測方式を用いて符号化しても構わない。その場合、本発明は、フレーム間予測を用いるブロックに対してのみ適用される。フレーム間予測を行うブロックについても、従来の方式を用いるか、本発明の方式を用いるかを切り替えながら符号化することも可能である。その場合には、どちらの方式を用いたかを示す情報を何らかの方法で復号側へ伝える必要がある。

以上説明した処理は、コンピュータとソフトウェアプログラムとによっても実現することができる。また、そのプログラムをコンピュータ読み取り可能な記録媒体に記録して提供することも、ネットワークを通して提供することも可能である。

また、上述した実施形態では、多視点映像符号化装置、及び多視点映像復号装置を中心に説明したが、これら多視点映像符号化装置、及び多視点映像復号装置の各部の動作に対応したステップによって本発明の多視点映像符号化方法、及び多視点映像復号方法を実現することができる。

以上、図面を参照して本発明の実施形態を説明してきたが、上記実施形態は、本発明の例示に過ぎず、本発明が上記実施形態に限定されるものでないことは明らかである。したがって、本発明の精神、及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行っても良い。

本発明は、例えば、多視点動画像の符号化および復号に利用される。本発明によれば、処理画像が得られない状況においても、精度よく動きベクトルを推定することができる。また、映像信号予測において時間相関を利用することで、カメラ間相関と時間相関を同時に利用して、効率的な多視点映像符号化を実現することができる。

１００、２００多視点映像符号化装置
１０１、２０１符号化対象フレーム入力部
１０２、２０２符号化対象画像メモリ
１０３、２０３参照視点フレーム入力部
１０４参照視点画像メモリ
１０５、２０４視点合成部
１０６、２０５視点合成画像メモリ
１０７信頼度設定部
１０８、２１１対応領域探索部
１０９、２０７動き補償予測部
１１０予測残差符号化部
１１１予測残差復号部
１１２、２１０復号画像メモリ
１１３予測残差算出部
１１４復号画像算出部
２０６動き推定部
２０８画像符号化部
２０９画像復号部
２１２予測ベクトル生成部
２１３ベクトル情報符号化部
２１４動きベクトルメモリ
３００、４００多視点映像復号装置
３０１、４０１符号化データ入力部
３０２、４０２符号化データメモリ
３０３、４０３参照視点フレーム入力部
３０４参照視点画像メモリ
３０５、４０４視点合成部
３０６、４０５視点合成画像メモリ
３０７信頼度設定部
３０８、４０６対応領域探索部
３０９、４１０動き補償予測部
３１０予測残差復号部
３１１、４１２復号画像メモリ
３１２復号画像算出部
４０７予測ベクトル生成部
４０８動きベクトル復号部
４０９動きベクトルメモリ
４１１画像復号部
５００、５００ａ動きベクトル推定装置
６００、７００多視点映像符号化装置
８００、９００多視点映像復号装置

Claims

多視点映像に含まれる処理画像を撮影した処理カメラとは別のカメラで撮影された参照カメラ映像から、前記処理カメラと同じ設定に従って、前記処理画像が撮影された時刻における視点合成画像を生成する視点合成画像生成ステップと、
動きベクトルを推定すべき対象の時刻に撮影された処理画像を用いずに、前記処理画像上の処理領域に該当する前記視点合成画像上の画像信号を用いて、前記処理カメラで撮影された参照画像における対応領域を探索することで、動きベクトルを推定する対応領域推定ステップと
を含む動きベクトル推定方法。
前記視点合成画像の各画素について、前記視点合成画像の確からしさを示す信頼度を設定する信頼度設定ステップを更に含み、
前記対応領域推定ステップは、前記信頼度に基づいて前記対応領域を探索する際のマッチングコストに重みを付ける、
請求項１に記載の動きベクトル推定方法。
多視点映像の予測符号化を行う多視点映像符号化方法であって、
前記多視点映像のある符号化対象視点とは異なる参照視点で、符号化対象フレームと同時刻に撮影された既に符号化済みの参照視点フレームから、前記符号化対象視点における視点合成画像を生成する視点合成画像生成ステップと、
前記視点合成画像の各符号化単位ブロックに対して、前記符号化対象視点における既に符号化済みの参照フレーム上の対応領域を探索することで動きベクトルを推定する動きベクトル推定ステップと、
前記推定された動きベクトルと前記参照フレームとを用いて、前記符号化対象フレームに対する動き補償予測画像を生成する動き補償予測画像生成ステップと、
前記符号化対象フレームと前記動き補償予測画像との差分信号を符号化する残差符号化ステップと
を含む多視点映像符号化方法。
前記視点合成画像の各画素について、前記視点合成画像の確からしさを示す信頼度を設定する信頼度設定ステップを更に含み、
前記動きベクトル推定ステップは、前記信頼度に基づいて前記対応領域を探索する際の各画素のマッチングコストに重みを付ける、
請求項３に記載多視点映像符号化方法。
前記符号化対象フレームの各符号化単位ブロックに対して、前記参照フレームとの間で対応領域を探索することで最適な動きベクトルを生成する動き探索ステップと、
前記動きベクトルと前記最適な動きベクトルとの差ベクトルを符号化する差ベクトル符号化ステップとを更に含み、
前記動き補償予測画像生成ステップは、前記最適な動きベクトルと前記参照フレームとを用いて前記動き補償予測画像を生成する、
請求項３または４に記載の多視点映像符号化方法。
前記動きベクトルと、符号化対象領域に隣接する領域で使用された最適な動きベクトル群とを用いて、予測ベクトルを生成する予測ベクトル生成ステップを更に含み、
前記差ベクトル符号化ステップは、前記予測ベクトルと前記最適な動きベクトルの差ベクトルを符号化する、
請求項５に記載の多視点映像符号化方法。
多視点映像のある視点に対する映像の符号化データを復号する多視点映像復号方法であって、
復号対象視点とは異なる参照視点で、復号対象フレームと同時刻に撮影された参照視点フレームから、前記復号対象視点における視点合成画像を生成する視点合成画像生成ステップと、
前記視点合成画像の各復号単位ブロックに対して、前記復号対象視点における既に復号済みの参照フレーム上の対応領域を探索することで動きベクトルを推定する動きベクトル推定ステップと、
前記推定された動きベクトルと前記参照フレームとを用いて、前記復号対象フレームに対する動き補償予測画像を生成する動き補償予測画像生成ステップと、
前記動き補償予測画像を予測信号として用いて、予測符号化されている前記復号対象フレームを前記符号化データから復号する画像復号ステップと
を含む多視点映像復号方法。
前記視点合成画像の各画素について、前記視点合成画像の確からしさを示す信頼度を設定する信頼度設定ステップを更に含み、
前記動きベクトル推定ステップは、前記信頼度に基づいて前記対応領域を探索する際の各画素のマッチングコストに重みを付ける、
請求項７に記載の多視点映像復号方法。
前記動きベクトルを予測ベクトルとして用いて、予測符号化されている最適な動きベクトルを前記符号化データから復号するベクトル復号ステップを更に含み、
前記動き補償予測画像生成ステップは、前記最適な動きベクトルと前記参照フレームとを用いて前記動き補償予測画像を生成する、
請求項７または８に記載の多視点映像復号方法。
前記動きベクトルと、復号対象領域に隣接する領域で使用された最適な動きベクトル群とを用いて、推定予測ベクトルを生成する予測ベクトル生成ステップを更に含み、
前記ベクトル復号ステップは、前記推定予測ベクトルを前記予測ベクトルとして用いて、前記最適な動きベクトルを復号する、
請求項９に記載の多視点映像復号方法。
多視点映像に含まれる処理画像を撮影した処理カメラとは別のカメラで撮影された参照カメラ映像から、前記処理カメラと同じ設定に従って、前記処理画像が撮影された時刻における視点合成画像を生成する視点合成画像生成手段と、
動きベクトルを推定すべき対象の時刻に撮影された処理画像を用いずに、前記処理画像上の処理領域に該当する前記視点合成画像上の画像信号を用いて、前記処理カメラで撮影された参照画像における対応領域を探索することで、動きベクトルを推定する対応領域推定手段と
を備える動きベクトル推定装置。
前記視点合成画像の各画素について、前記視点合成画像の確からしさを示す信頼度を設定する信頼度設定手段を更に備え、
前記対応領域推定手段は、前記信頼度に基づいて前記対応領域を探索する際のマッチングコストに重みを付ける、
請求項１１に記載の動きベクトル推定装置。
多視点映像の予測符号化を行う多視点映像符号化装置であって、
前記多視点映像のある符号化対象視点とは異なる参照視点で、符号化対象フレームと同時刻に撮影された既に符号化済みの参照視点フレームから、前記符号化対象視点における視点合成画像を生成する視点合成画像生成手段と、
前記視点合成画像の各符号化単位ブロックに対して、前記符号化対象視点における既に符号化済みの参照フレーム上の対応領域を探索することで動きベクトルを推定する動きベクトル推定手段と、
前記推定された動きベクトルと前記参照フレームとを用いて、前記符号化対象フレームに対する動き補償予測画像を生成する動き補償予測画像生成手段と、
前記符号化対象フレームと前記動き補償予測画像との差分信号を符号化する残差符号化手段と
を備える多視点映像符号化装置。
前記視点合成画像の各画素について、前記視点合成画像の確からしさを示す信頼度を設定する信頼度設定手段を更に含み、
前記動きベクトル推定手段は、前記信頼度に基づいて前記対応領域を探索する際の各画素のマッチングコストに重みを付ける、
請求項１３に記載多視点映像符号化装置。
多視点映像のある視点に対する映像の符号化データを復号する多視点映像復号装置であって、
復号対象視点とは異なる参照視点で、復号対象フレームと同時刻に撮影された参照視点フレームから、前記復号対象視点における視点合成画像を生成する視点合成画像生成手段と、
前記視点合成画像の各復号単位ブロックに対して、前記復号対象視点における既に復号済みの参照フレーム上の対応領域を探索することで動きベクトルを推定する動きベクトル推定手段と、
前記推定された動きベクトルと前記参照フレームとを用いて、前記復号対象フレームに対する動き補償予測画像を生成する動き補償予測画像生成手段と、
前記動き補償予測画像を予測信号として用いて、予測符号化されている前記復号対象フレームを前記符号化データから復号する画像復号手段と
を備える多視点映像復号装置。
前記視点合成画像の各画素について、前記視点合成画像の確からしさを示す信頼度を設定する信頼度設定手段を更に含み、
前記動きベクトル推定手段は、前記信頼度に基づいて前記対応領域を探索する際の各画素のマッチングコストに重みを付ける、
請求項１５に記載の多視点映像復号装置。
動きベクトル推定装置のコンピュータに、
多視点映像に含まれる処理画像を撮影した処理カメラとは別のカメラで撮影された参照カメラ映像から、前記処理カメラと同じ設定に従って、前記処理画像が撮影された時刻における視点合成画像を生成する視点合成画像生成機能、
動きベクトルを推定すべき対象の時刻に撮影された処理画像を用いずに、前記処理画像上の処理領域に該当する前記視点合成画像上の画像信号を用いて、前記処理カメラで撮影された参照画像における対応領域を探索することで、動きベクトルを推定する対応領域推定機能
を実行させる動きベクトル推定プログラム。
多視点映像の予測符号化を行う多視点映像符号化装置のコンピュータに、
前記多視点映像のある符号化対象視点とは異なる参照視点で、符号化対象フレームと同時刻に撮影された既に符号化済みの参照視点フレームから、前記符号化対象視点における視点合成画像を生成する視点合成画像生成機能、
前記視点合成画像の各符号化単位ブロックに対して、前記符号化対象視点における既に符号化済みの参照フレーム上の対応領域を探索することで動きベクトルを推定する動きベクトル推定機能、
前記推定された動きベクトルと前記参照フレームとを用いて、前記符号化対象フレームに対する動き補償予測画像を生成する動き補償予測画像生成機能、
前記符号化対象フレームと前記動き補償予測画像との差分信号を符号化する残差符号化機能
を実行させる多視点映像符号化プログラム。
多視点映像のある視点に対する映像の符号化データを復号する多視点映像復号装置のコンピュータに、
復号対象視点とは異なる参照視点で、復号対象フレームと同時刻に撮影された参照視点フレームから、前記復号対象視点における視点合成画像を生成する視点合成画像生成機能、
前記視点合成画像の各復号単位ブロックに対して、前記復号対象視点における既に復号済みの参照フレーム上の対応領域を探索することで動きベクトルを推定する動きベクトル推定機能、
前記推定された動きベクトルと前記参照フレームとを用いて、前記復号対象フレームに対する動き補償予測画像を生成する動き補償予測画像生成機能、
前記動き補償予測画像を予測信号として用いて、予測符号化されている前記復号対象フレームを前記符号化データから復号する画像復号機能
を実行させる多視点映像復号プログラム。
視点映像に含まれる処理画像を撮影した処理カメラとは別のカメラで撮影された参照カメラ映像から、前記処理カメラと同じ設定に従って、前記処理画像が撮影された時刻における第１の視点合成画像と、前記処理画像との間で動きベクトルを求める対象の前記処理カメラで撮影された参照画像が撮影された時刻における第２の視点合成画像とを生成する視点合成画像生成ステップと、
前記処理カメラで撮影された画像を用いずに、前記処理画像上の処理領域に該当する前記第１の視点合成画像上の画像信号を用いて、前記参照画像に対する前記第２の視点合成画像における対応領域を探索することで、動きベクトルを推定する対応領域推定ステップと
を含む動きベクトル推定方法。
多視点映像に含まれる処理画像を撮影した処理カメラとは別のカメラで撮影された参照カメラ映像から、前記処理カメラと同じ設定に従って、前記処理画像が撮影された時刻における第１の視点合成画像と、前記処理画像との間で動きベクトルを求める対象の前記処理カメラで撮影された参照画像が撮影された時刻における第２の視点合成画像とを生成する視点合成画像生成手段と、
前記処理カメラで撮影された画像を用いずに、前記処理画像上の処理領域に該当する前記第１の視点合成画像上の画像信号を用いて、前記参照画像に対する前記第２の視点合成画像における対応領域を探索することで、動きベクトルを推定する対応領域推定手段と
を備える動きベクトル推定装置。
動きベクトル推定装置のコンピュータに、
多視点映像に含まれる処理画像を撮影した処理カメラとは別のカメラで撮影された参照カメラ映像から、前記処理カメラと同じ設定に従って、前記処理画像が撮影された時刻における第１の視点合成画像と、前記処理画像との間で動きベクトルを求める対象の前記処理カメラで撮影された参照画像が撮影された時刻における第２の視点合成画像とを生成する視点合成画像生成機能、
前記処理カメラで撮影された画像を用いずに、前記処理画像上の処理領域に該当する前記第１の視点合成画像上の画像信号を用いて、前記参照画像に対する前記第２の視点合成画像における対応領域を探索することで、動きベクトルを推定する対応領域推定機能
を実行させる動きベクトル推定プログラム。