JP2004246667A - Method for generating free visual point moving image data and program for making computer perform the same processing - Google Patents

Method for generating free visual point moving image data and program for making computer perform the same processing Download PDF

Info

Publication number
JP2004246667A
JP2004246667A JP2003036577A JP2003036577A JP2004246667A JP 2004246667 A JP2004246667 A JP 2004246667A JP 2003036577 A JP2003036577 A JP 2003036577A JP 2003036577 A JP2003036577 A JP 2003036577A JP 2004246667 A JP2004246667 A JP 2004246667A
Authority
JP
Japan
Prior art keywords
image data
viewpoint
moving image
moving
viewpoints
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003036577A
Other languages
Japanese (ja)
Inventor
Hideo Saito
英雄 斎藤
Naho Inamoto
奈穂 稲本
Sachiko Iwase
幸子 岩瀬
Original Assignee
Keiogijuku
学校法人慶應義塾
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Keiogijuku, 学校法人慶應義塾 filed Critical Keiogijuku
Priority to JP2003036577A priority Critical patent/JP2004246667A/en
Publication of JP2004246667A publication Critical patent/JP2004246667A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a free visual point moving image data generating method for generating image data at the middle visual point of both of an object in a static condition and an object in a moving condition at a reception side. <P>SOLUTION: The user of a reception side device inputs the time information and visual point position of an image to be appreciated by using an input device 21. A CPU 23 transmits the information through communication equipment 26 to the transmission side device. The CPU 14 of the transmission side device transmits the moving image data of the moving area of an image picked up by two cameras in a time shown by the received time information, the structural characteristic information of the moving image data, and the corresponding relation information of the moving image data between the two cameras through the communication equipment 17 to the reception side device. The reception side device successively generates the middle visual point image data of the moving area for each frame by using the received moving image data and various information, and composites the image data at the middle visual point of the static area of a preliminarily received close-range view with the image data at the middle visual point of the static area of a distant view, and displays the image data on a monitor 22. <P>COPYRIGHT: (C)2004,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、3次元空間内の被写体の動画像を多視点から撮像し、伝送するシステムに関し、さらに詳細には、多視点における動画像データを送信側の装置に蓄積し、隣接する視点の間の任意の中間視点における動画像データを受信側の装置で生成する方法に関する。
【0002】
【従来の技術】
従来、3次元空間内の被写体を多視点から撮像し、画像データを伝送するシステムとしては、特許文献1に記載されたものがある。このシステムは、送信側では、複数の異なる視点から被写体を撮像し、撮像された画像データに基づいて撮像された画像の構造データを作成し、その画像データおよび構造データを送信し、受信側では、新視点を指定し、その新視点における画像データを前記多視点における画像データおよび構造データから生成可能にしたものである。
【0003】
【特許文献1】
特開2001−8231号公報
【0004】
【発明が解決しようとする課題】
しかし、前記特許文献1に記載されたシステムは、前記特許文献1の図2、図5等に示されているように、静止状態の被写体に対応するものであり、移動状態の被写体については言及されていない。
【0005】
そこで、本発明は、静止状態の被写体および移動状態の被写体の双方について全ての隣接する視点の間の任意の中間視点における画像データを受信側で生成することができる自由視点動画像データ生成方法を提供することを目的とする。
【0006】
また、本発明は、静止状態の被写体および移動状態の被写体の双方について全ての隣接する視点の間の任意の中間視点における画像データを受信側で生成することができ、かつ移動状態の被写体を追跡し、画面の中央等に表示することができる自由視点動画像データ生成方法を提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明の自由視点動画像データ生成方法は、送信側で3次元空間内の被写体を複数の異なる視点から撮像して動画像データを取得し、受信側で隣接視点の間の任意の中間視点における前記被写体の動画像データを生成する自由視点動画像データ生成方法であって、前記被写体を複数の異なる視点から撮像して取得した動画像データを移動領域と静止領域とに分割するステップと、全ての前記隣接視点間の射影幾何情報を推定するステップと、前記静止領域の画像データについて、前記射影幾何情報を基に全ての前記中間視点における自由視点静止画像データを生成するステップと、前記移動領域の動画像データについて、前記射影幾何情報を基に該動画像データの構造的特徴情報、および全ての前記隣接視点間の動画像データの対応関係情報を生成するステップと、全ての前記中間視点における自由視点静止画像データおよび全ての前記射影幾何情報を前記受信側へ予め送信するステップとを前記送信側で実行し、全ての前記中間視点における自由視点静止画像データおよび全ての前記射影幾何情報を予め受信して保存するステップと、前記隣接視点の間の任意の中間視点を選択し、前記送信側へ通知するステップとを前記受信側で実行し、前記受信側から通知された中間視点に対応する隣接視点における移動領域の動画像データ、該動画像データの構造的特徴情報、および前記隣接視点間の動画像データの対応関係情報を前記受信側へ送信するステップを前記送信側で実行し、前記移動領域の動画像データ、該動画像データの構造的特徴情報、および前記隣接視点間の動画像データの対応関係情報を受信し、前記任意の中間視点における前記移動領域の動画像データを生成するステップと、前記予め保存された任意の中間視点における自由視点静止画像データを読み出し、前記生成された任意の中間視点における移動領域の動画像データと合成して、前記任意の中間視点における動画像データを生成するステップとを前記受信側で実行することを特徴とする。
【0008】
このように構成したことにより、送信側で、被写体を複数の異なる視点から撮像してそれぞれの視点における動画像データを取得し、隣接視点間の射影幾何情報を推定し、前記複数の異なる視点における動画像データを前記複数の異なる視点における静止領域の静止画像データおよび移動領域の動画像データに分離し、前記射影幾何情報を用いて前記隣接視点間の静止画像データの対応付けを行い、さらに前記隣接視点の間の任意の中間視点における静止画像データをモーフィングにより生成し、前記射影幾何情報を用いて前記隣接視点間の動画像データの対応付けを行い、さらに前記隣接視点における動画像データの構造的特徴情報および対応関係情報を生成し、全ての前記中間視点における自由視点静止画像データおよび全ての前記射影幾何情報を前記受信側へ予め送信し、受信側で、全ての前記中間視点における自由視点静止画像データおよび全ての前記射影幾何情報を予め受信して保存し、隣接視点の間の任意の中間視点を選択し、前記送信側へ通知し、送信側から送られてくる前記中間視点に対応する隣接視点における移動領域の動画像データ、該動画像データの構造的特徴情報、および前記隣接視点間の動画像データの対応関係情報と予め保存しておいた射影幾何情報とを用いて前記任意の中間視点における前記移動領域の動画像データをモーフィングにより生成し、前記予め保存しておいた中間視点における静止画像データと合成することで、静止状態の被写体および移動状態の被写体の双方の中間視点における動画像データを生成することができる。
【0009】
また、本発明の自由視点動画像データ生成方法は、前記複数の異なる視点毎に前記移動領域内の任意の被写体を追跡対象として選択するステップと、前記選択された被写体の位置情報を保存するステップとを前記送信側で実行することを特徴とする。
【0010】
このように構成したことにより、送信側で、被写体を複数の異なる視点から撮像してそれぞれの視点における動画像データを取得し、隣接視点間の射影幾何情報を推定し、前記複数の異なる視点における動画像データを前記複数の異なる視点における静止領域の静止画像データおよび移動領域の動画像データに分離し、前記射影幾何情報を用いて前記隣接視点間の静止画像データの対応付けを行い、さらに前記隣接視点の間の任意の中間視点における静止画像データをモーフィングにより生成し、前記移動領域の任意の被写体を追跡対象として選択し、前記射影幾何情報を用いて前記隣接視点間の追跡対象の被写体の動画像データの対応付けを行い、さらに前記隣接視点における追跡対象の被写体の動画像データの構造的特徴情報および対応関係情報を生成し、全ての前記中間視点における自由視点静止画像データおよび全ての前記射影幾何情報を前記受信側へ予め送信し、受信側で、全ての前記中間視点における自由視点静止画像データおよび全ての前記射影幾何情報を予め受信して保存し、隣接視点の間の任意の中間視点を選択して前記送信側へ通知し、送信側から送られてくる前記中間視点に対応する隣接視点における追跡対象の被写体の動画像データ、該動画像データの構造的特徴情報、および前記隣接視点間の動画像データの対応関係情報と予め保存しておいた射影幾何情報とを用いて前記任意の中間視点における前記追跡対象の被写体の動画像データをモーフィングにより生成し、前記予め保存しておいた中間視点における静止画像データと合成することで、静止状態の被写体および追跡対象の被写体の双方の中間視点における動画像データを生成し、かつ移動状態の被写体を追跡し、画面の中央等に表示することができる。
【0011】
【発明の実施の形態】
以下、本発明の実施の形態について図面を用いて説明する。
【0012】
(第1の実施の形態)
図1は、本発明の第1の実施の形態の自由視点動画像データ生成システムのブロック図である。ここで、(a)は送信側装置、(b)は受信側装置である。
送信側装置は、それぞれがバス18に接続された、n台(nは2以上の整数)のカメラ11,11,…11と、入力装置12と、モニタ13と、CPU14と、メインメモリ15と、ディスクメモリ16と、通信装置17とを具備する。
【0013】
カメラ11,11,…11は、それぞれが被写体を異なる視点で撮像し、動画像データを生成する。ここで、カメラ11,11,11は、撮像を行っている間中、パン、チルト、ズームイン、ズームアウトのいずれも行わず、固定されている。入力装置12は、マウス、キーボード等であり、ユーザの指令等の入力に使用される。モニタ13は、液晶ディスプレイ等からなり、入力装置12から入力されたデータ、カメラ11,11,…11で撮像された動画像データ、メインメモリ15から読み出された画像データ、ディスクメモリ16から読み出された画像データ等を表示する。CPU14は、マイクロプロセッサを備えており、メインメモリ15に格納されたプログラムに従って各種処理を実行する。メインメモリ15は、ROMおよびRAMからなり、CPU14が各種処理を実行するときに用いるプログラムが格納される。また、カメラ11,11,…11で撮像された画像データ、ディスクメモリ16から読み出された画像データ等が一時的に格納される。ディスクメモリ16は、ハードディスク装置等からなり、カメラ11,11,…11で撮像された動画像データが格納される。また、カメラ11,11,11で撮像された動画像の位置的な対応関係を表すデータ(詳細は後述)が格納される。通信装置17は、受信側装置の通信装置との間でデータの通信を行う。
【0014】
受信側装置は、それぞれがバス27に接続された、入力装置21と、モニタ22と、CPU23と、メインメモリ24と、ディスクメモリ25と、通信装置26とを具備する。
【0015】
入力装置21は、マウス、キーボード等であり、ユーザの指令等の入力に使用される。モニタ22は、液晶ディスプレイ等からなり、入力装置21から入力されたデータ、メインメモリ24から読み出された画像データ、ディスクメモリ25から読み出された画像データ等が表示される。CPU23は、マイクロプロセッサを備えており、メインメモリ24に格納されたプログラムに従って各種処理を実行する。メインメモリ24は、ROMおよびRAMからなり、CPU23が各種処理を実行するときに用いるプログラムが格納される。また、ディスクメモリ25から読み出された画像データ等が一時的に格納される。ディスクメモリ25は、ハードディスク装置からなり、送信側装置から送られてきた動画像データが格納される。また、送信側装置から送られてきた、カメラ11,11,…11で撮像された動画像の位置的な対応関係を表すデータ(詳細は後述)が格納される。通信装置26は、送信側装置の通信装置17との間でデータの通信を行う。ここで、送信側装置の通信装置17と受信側装置の通信装置26との間の通信媒体は、インターネット、LAN、地上波放送網(ユーザから放送局へリクエストデータ等の送信が可能なデジタル放送)等である。
【0016】
以上のように構成された自由視点動画像データ生成システムの動作を説明する。まず、概要を説明する。ここでは、被写体としてサッカーの試合を行っている競技場、選手、およびボールとする。そして、図2に示されているように、4台のカメラ11,11,113,114を観客席上方に配置する。また、図3(a)に示されているような被写体を、グラウンドおよびゴール(図3(b))と、観客席(図3(c))と、選手およびボール(図3(d))とに分ける。画像の特徴としては、グラウンドおよびゴールは近景の静止領域、観客席は遠景の静止領域、選手およびボールは移動領域となる。そして、近景の静止領域であるグラウンドおよびゴールには平面射影行列(Homography matrix)を適用して隣接する視点から得られた画像間の対応点を算出し、隣接する視点の間の任意の中間視点である仮想視点における補間画像を生成する。ここで、中間視点とは2つの視点の間の視点を意味するものであり、2つの視点の中央の視点を意味するものではない。移動領域である選手およびボールにはエピポーラ幾何を適用し、隣接する視点から得られた画像間の対応点を算出し、仮想視点における補間画像を生成する。遠景の静止領域である観客席については、モザイク処理を行って2視点における画像を連結し、生成されたパノラマ画像から仮想視点における画像を切り出す。最後に、3種類の画像を合成することで、仮想視点における被写体全体の動画像を生成する。
【0017】
次に、近景の静止領域、遠景の静止領域、移動領域の順序で説明する。なお、近景の静止領域と移動領域との分離は、画像データの背景差分および2値化により行う(詳細は後述)。
【0018】
〔1〕近景の静止領域
近景の静止領域では、平面射影行列を求め、その平面射影行列を用いて、異なる視点で得られた画像間の対応点を算出し、仮想視点における補間画像を生成する。
【0019】
まず、図4を参照しながら、平面射影行列について説明する。互いの視点が異なる2つのカメラC,Cで、3次元空間内の被写体を撮像する。ここで、透視投影によるカメラCの投影面I上に固定したカメラ座標系を(x,y)、カメラCの投影面I上に固定したカメラ座標系を(x,y)とする。このとき、3次元空間内の平面J上の点Pについて、式[1]が成立する。この式における行列は平面射影行列と呼ばれる。なお、透視投影については、例えば、”末松良一他著「画像処理工学」、pp.182−184、2000−10−26、(株)コロナ社”に詳細に記載されているので、説明を省略する。
【0020】
【数1】
平面J上の対応のとれている4点を用いて、平面射影行列の各要素を求めることができる。そして、この平面射影行列を用いると、カメラCの投影面I上で平面J上の任意の1点の(x,y)座標を与えることにより、カメラCの投影面I上の対応点の(x,y)座標を算出することができる。したがって、平面J上の全ての点について、(x,y)座標と対応する(x,y)座標の値を算出することができる。本実施の形態では、図3(b)に示したグラウンドを1枚の平面とし、ゴールを複数枚(例えば4枚)の平面として、それぞれの平面毎に平面射影行列を求める。
【0021】
次に、図5を参照しながら、カメラCの視点とカメラCの視点の間の任意の仮想視点における補間画像の生成方法について説明する。図5において、カメラCの視点とカメラCの視点の間の仮想視点で撮像を行う仮想カメラC12が撮像した画像データを生成する。本実施の形態では、線形補間によるモーフィングを行う。カメラCの視点、カメラCの視点から仮想カメラC2までの距離の比をα:1−α(ただし、0≦α≦1)、仮想カメラC12の投影面I12上に固定したカメラ座標系を(x12,y12)とすると、投影面I12上の点の座標は下記の式[2]で表すことが出来る。
【0022】
12=(1−α)P+αP…式[2]
【0023】
ここで、P12、P、Pは、それぞれ、投影面I12上、投影面I上、投影面I上の対応点の座標の位置ベクトルを表す。α=0の場合はカメラCと同一視点、α=1の場合はカメラCと同一視点、α=0.5の場合はカメラCとカメラCの中央の視点となる。本実施の形態では、カメラCの視点からのモーフィング(図5のワープ1)とカメラCの視点からのモーフィング(図5のワープ2)の2通りのモーフィングを行って2つの異なる補間画像を生成し、それらに下記の式[3]を適用して仮想視点における画像データを生成する。
【0024】
【数2】
【0025】
この式において、v、vは、それぞれ投影面I上、投影面I上の画像データの明度値であり、v’は投影面I12上の画像データの明度値である。
【0026】
〔2〕遠景の静止領域
本実施の形態では、観客席のように、カメラからの距離が十分に遠く、それ自体の凹凸が無視できるような領域を遠景領域としているため、1枚の無限遠に存在する平面で近似する。また、遠景領域の場合、隣接する2つの視点に共通する領域が少ないため、近景の静止領域と同様のモーフィング処理を行うと計算効率が悪いので、平面近似した2つの視点における画像をモザイク処理により連結し、生成されたパノラマ画像から仮想視点における画像を切り出す。
【0027】
図6を参照しながら、モザイク処理について説明する。最初に、第1視点を有するカメラの投影面I 上の背景画像の画像データと第2視点を有するカメラの投影面I上の背景画像の画像データとの間の平面射影行列H21を求め、その平面射影行列H21を用いて、2つの視点における画像データの座標系を統一する。次に、2つの画像データを連結し、パノラマ画像データを生成する。図6における重複エリアは、平面射影行列H21が決まると自動的に決まる。パノラマ画像データを生成するときに、重複エリアの明度を平滑化するが、単純に2つの画像データの明度の平均値を用いると、画像データ間の明るさの違いにより不自然なつなぎ目が出来てしまうので、下記の式[4]に示すように、重複エリアの境界からの距離に応じて各画素の明度値に重み付けをして混合する。
【0028】
【数3】
【0029】
この式において、u、uは、それぞれ投影面I上の背景画像の画像データ、投影面I上の背景画像の画像データの明度値であり、u’はパノラマ画像の画像データの明度値である。また、x、xは、それぞれ重複部分の左端および右端のx座標であり(図6参照)、β=(x−x)/(x −x)である。
【0030】
次に、パノラマ画像より、中間視点画像に必要な背景画像データを切り出し、基準となる第1視点から各中間視点への射影変換を行う。変換のための平面射影行列は下記の式[5]で定義される。この平面射影行列H’を用いて座標を変換することにより、背景の中間視点画像データが得られる。
【0031】
H’=(1−γ)E+γH21 −1 …式[5]
【0032】
ここで、γ(0≦γ≦1)は中間視点の位置を定めるパラメータ、Eは3×3の単位行列である。
【0033】
〔3〕移動領域
移動領域である選手およびボールにはエピポーラ幾何を適用し、異なる視点で得られた画像間の対応点を算出し、仮想視点における補間画像を生成する。
まず、図7を参照しながら、エピポーラ幾何について説明する。互いの視点が異なる2つのカメラC,Cで、3次元空間内の被写体を撮像する。ここで、透視投影によるカメラCの投影面I上に固定したカメラ座標系を(x,y)、カメラCの投影面I上に固定したカメラ座標系を(x,y)とする。このとき、投影面I、投影面I間で対応のとれている点について、式[6]が成立する。
【0034】
【数4】
【0035】
この式における行列はファンダメンタル・マトリックス(以下、F−マトリックス)と呼ばれ、2台のカメラの相対的な位置や姿勢の情報を含んでいる。投影面I、投影面I間で対応のとれている7点以上の点から、F−マトリックスを算出することができる。そして、このF−マトリックスを用いると、カメラC の投影面I上で任意の1点に対応するカメラCの投影面I上の対応点の探索範囲を狭めることができる。投影面I上の1点q(x,y)を与えると、投影面I上にエピポーラ線ax+by+c=0を投影することができる。ここで、a、b、cは下記の式[7]より求めることができる。
【0036】
【数5】
【0037】
このとき、q(x,y)に対応する投影面I上の点q(x,y)は、必ずエピポーラ線上に存在する。したがって、対応点の探索はエピポーラ線上のみ行えば良いことになり、探索が容易となる。図において、点D1、点D2は、それぞれカメラC、Cのレンズの中心(=視点)であり、エピポーラ線は、点Q、D1、D2を通る平面(エピポーラ平面)と、投影面I、Iとの交線である。
【0038】
このようにして、投影面I、投影面I間の画像データの対応点を求めた後、カメラCの視点とカメラCの視点の間の任意の仮想視点における補間画像の生成を行う。この補間画像生成の方法は、近景の静止領域と同じである。
以上、自由視点動画像データ生成システムの動作の概要を説明した。次に、システムの動作をさらに詳しく説明する。
【0039】
本システムの動作時の処理には、送信側装置で実行されるオフライン処理と、受信側装置で実行されるオンライン処理とがある。以下、オフライン処理、オンライン処理の順に説明する。
【0040】
図8はオフライン処理のフローチャートである。最初に、多視点画像の入力を行う(ステップA1)。即ち、カメラ11〜11で被写体を撮像して取得した所望の時間分の動画像データをCPU14によりデータ圧縮し、ディスクメモリ16に格納する。
【0041】
次に、ディスクメモリ16に格納されたカメラ11〜11の動画像データから、隣り合うカメラ間の画像データの射影幾何の推定を行う(ステップA2)。具体的には、まずCPU14により、ディスクメモリ16から、カメラ11〜11の互いに同じ撮像時刻の1フレームの画像データを読み出し、データ伸長してメインメモリ15に書き込む。次に、隣り合うカメラの1フレームの画像データをメインメモリ15から読み出し、モニタ13に表示しながら、操作者が入力装置12から対応点の入力を行う。前述したとおり、本実施の形態では、画像を近景の静止領域、遠景の静止領域、および移動領域の3つに分割しており、近景の静止領域では平面射影行列、移動領域ではF−マトリックスを用いて対応点を求めるので、ここでは、隣り合うカメラで撮像された1フレーム同士を比較し、近景の静止領域であるグラウンドを構成する1枚の平面とゴールを構成する複数枚の平面について、それぞれ4つ以上の対応点を入力する。また、隣り合うカメラ間のF−マトリックスを算出するために、7つ以上の対応点を入力する。CPU14は、入力装置12から入力された対応点のデータを用い、式[1]、[6]により平面射影行列およびF−マトリックスを算出する。この平面射影行列およびF−マトリックスは、ディスクメモリ16に保存される。
【0042】
次に、CPU14は、ディスクメモリ16に格納されたカメラ11〜11の動画像データを移動領域と静止領域とに分離する(ステップA3)。本実施の形態では、各カメラで撮像された動画像データについてカメラ毎に背景差分をとり、2値化することで、全移動領域が抽出されたシルエット画像を生成するとともに、移動領域以外を静止領域とする。ここで、明度データだけでなく、RGB成分をも考慮することで、シルエットをより正確に抽出することができる。移動領域の画像データおよび静止領域の画像データはメインメモリ15およびディスクメモリ16に記憶される。また、カメラ11〜11は固定されているため、静止領域は、近景、遠景ともに全フレーム同じ画像データとなるため、1フレーム分についてのみ記憶すればよい。図9は移動領域を抽出した例を示す。この図において、(a)、(b)は異なる視点から撮像された画像データから抽出された移動領域のシルエット画像である。
【0043】
ステップA3で生成されたシルエット画像には、多くの場合、選手数人のシルエットと、ボールのシルエットといった複数のシルエットが混在する。そこで、ステップA4において、ラベリング処理を施してシルエットを切り離して個々の選手とボールに分割した後、2視点間でシルエットの対応付けを行う。なお、複数の選手が重なって見える場合(オクルージョン発生)には、正しく分割されているカメラの画像データを参照し、平面射影幾何を用いてシルエットの分割を行う。選手については、まずグラウンドの平面射影行列を用いて対応付けを行う。これは、選手の足がグラウンドに接しているという条件を用いたもので、選手の領域の最下部の点がグラウンドの平面射影行列によって、対応付けられる。選手がジャンプしている状態であっても、それによって生じる誤差は十分に小さいと考える。一方、ボールに関しては、ラベルの面積の一致によって対応付けを行う。隣り合う全てのカメラ間の全てのシルエットについて、画像の構造的特徴情報であるシルエット画像、シルエット画像のラベル番号、ならびにラベルの特徴量(ラベルの重心、選手の足元座標等)、および2つのカメラ間の対応関係情報であるラベル番号対応テーブルをディスクメモリ16に保存する。
【0044】
次に、静止領域に関する中間視点画像データを生成し、ディスクメモリ16に保存する(ステップA5)。このとき、操作者は入力装置12を用いて、隣り合うカメラ毎にその間の任意の中間視点を入力する。CPU14は、メインメモリ15から静止領域であるグラウンド、ゴール、および観客席の画像データを読み出し、入力された中間視点から仮想的に撮像されたグラウンドおよびゴールの画像データと、観客席の画像データとを生成する。前述したとおり、グラウンドおよびゴールについては、平面射影行列を用いて、隣り合うカメラで撮像された画像データ間の対応点を求め(図4、式[1])、隣り合うカメラの間の任意の中間視点における画像データを補間して生成する(図5、式[3])。また、観客席については、モザイク処理と切り出しにより、中間視点における画像データを生成する(図6、式[4])。
【0045】
以上がオフライン処理である。次に、オンライン処理について、図10のフローチャートを参照しながら説明する。なお、オンライン処理を実行する前提として、送信側装置から受信側装置に対して、カメラ11〜11の配置情報、射影幾何情報(平面射影行列およびF−マトリックス)、および中間視点の位置情報が伝送され、受信側装置のディスクメモリ25に記憶されているものとする。また、近景の静止領域であるグラウンドならびにゴールの全中間視点における画像データ、および遠景の静止領域である観客席の全中間視点における画像データが、送信側装置から受信側装置へ伝送され、受信側装置のディスクメモリ25に記憶されているものとする。さらに、撮像時刻情報(開始時刻、終了時刻)が送信側装置から受信側装置へ伝送され、受信側装置のディスクメモリ25に記憶されているものとする。
【0046】
オンライン処理がスタートすると、CPU23は、カメラ11〜11の配置情報、中間視点の位置情報、および撮像時刻情報をディスクメモリ25から読み出し、モニタ22に表示する。この状態において、受信側装置のユーザは、鑑賞したい時間情報および視点位置を入力装置21を用いて入力する(ステップB1)。ここで、時間情報として、例えば撮像開始時刻から起算した時分秒フレームを用いることができる。視点位置は、例えば2つの視点を両端とするスライドバーにより入力することができる。CPU23は、時間情報および視点位置情報をメインメモリ24に記憶すると共に、通信装置26経由で送信側装置へ送信する(ステップB2)。
【0047】
送信側装置では、時間情報および視点位置情報が通信装置17で受信され、CPU14へ送られる。視点位置は隣り合う2つのカメラの間に存在するので、CPU14は、その時間情報が示す時刻にその2つのカメラで撮像された移動領域の動画像データ、その動画像データ構造的特徴情報であるシルエット画像、シルエット画像のラベル番号、ラベルの特徴量(ラベルの重心、選手の足元座標等)、および2つのカメラ間の対応関係情報であるラベル番号対応テーブルをディスクメモリ16から読み出し、通信装置17経由で受信側装置へ送信する(ステップB3)。
【0048】
受信側装置では、移動領域の動画像データ、シルエット画像、シルエット画像のラベル番号、ラベルの特徴量、およびラベル番号対応テーブルが通信装置26で受信され、ディスクメモリ25に保存される。CPU23は、ディスクメモリ25に保存された各フレームの移動領域の動画像データ、シルエット画像、シルエット画像のラベル番号、ラベルの特徴量、ラベル番号対応テーブル、および中間視点の位置情報を用いて、フレーム毎に順次移動領域である選手とボールの中間視点画像データを生成し、ディスクメモリ25に記憶する(ステップB4)。ここで、移動領域の動画像データはシルエット画像の色情報を付与するために用いられる。以下、ステップB4について詳しく説明する。送信側から送られてきたシルエット画像とラベル番号とラベル番号対応テーブルとにより、隣接視点間のシルエット画像が対応付けられる。次に対応のとれたシルエット画像に対してエピポーラ線を投影して対応点を算出する。図11は、選手のシルエット画像の対応付けの手順を説明するための図である。ここで、(a)はある1つのカメラで撮像された選手のシルエット画像であり、(b)はその右隣のカメラで撮像された選手のシルエット画像である。ここでは、(a)、(b)それぞれに3本ずつのエピポーラ線が投影されている。各エピポーラ線において、まずシルエットの両端との交点(図11ではaとa、bとb、aとa、bとb、aとa、bとb)の対応をとり、続いてシルエットの内部に関して交点の線形補間によって対応付けを行う。シルエットの上端から下端にかけて、エピポーラ線を順に投影してゆくことで、シルエット全体の対応点情報を得ることができる。エピポーラ線の間隔を狭くする程、密度の高い対応点情報を得ることができる。このようにして、シルエット全体の対応点情報を取得した後、式[2]を用いて中間視点へのモーフィングを行って、移動領域の中間視点画像データを生成し、ディスクメモリ25に保存する。
【0049】
最後に、近景の静止領域であるグラウンドならびにゴールの中間視点における画像データ、および遠景の静止領域である観客席の中間視点における画像データをディスクメモリ25から読み出し、ディスクメモリ25から順次読み出したフレーム毎の移動領域の中間視点画像データと合成し、モニタ22にて表示する(ステップB5)。
【0050】
このように、本発明の第1の実施の形態によれば、静止状態の被写体および移動状態の被写体の双方の中間視点における画像データを受信側で生成することができる。また、静止領域については中間視点における画像データを予めまとめて作成しておき、各フレームでは移動領域の中間視点における画像データを作成し、静止領域の画像データと合成するので、静止領域についても各フレームで画像データを生成する場合と比較すると、1フレーム当たりの処理時間を大幅に短縮することができる。
【0051】
なお、以上の説明では、中間視点の移動は左右方向に限られていたが、中間視点を前後方向に移動させる(ズーム等)ことも可能である。
【0052】
(第2の実施の形態)
本発明の第2の実施の形態は、第1の実施の形態において、選手を追跡し、画面の中央等に表示できるように構成した点が特徴である。
【0053】
本発明の第2の実施の形態は、オフライン処理のみが第1の実施の形態と異なり、送信側および受信側の装置構成、およびオンライン処理は第1の実施と同じである。ただし、あるカメラの画像で選手が重なって見える(オクルージョン)場合にも確実に選手を追跡できるようにするため、図12に示すように、8台のカメラ11〜11を4台ずつ2群に分け、両サイド側の観客席上方に配置することが好適である。
【0054】
次に、本実施の形態におけるオフライン処理について説明する。本実施の形態におけるオフライン処理の流れは、ステップA3、A4以外は図8に示した第1の実施の形態と同じであるから、その異なる部分について説明する。
【0055】
図13は、本実施の形態における移動領域に関する領域分割処理を示すフローチャートである。ここで、(a)は各カメラ毎に共通のカメラ内処理であり、(b)はあるカメラの画像では選手の位置が分からないときに、他のカメラの画像を用いて位置情報を取得するためのカメラ間処理である。以下、カメラ内処理、カメラ間処理の順に説明する。
【0056】
カメラ内処理では、まず、前処理を実行する(ステップE1)。具体的には、各カメラで撮像された動画像データについてカメラ毎に背景差分をとり、2値化することで、全移動領域が抽出されたシルエット画像を生成するとともに、移動領域以外を静止領域とする。次に、移動領域のラベリングを行う。この時、特徴量として各ラベルの重心および面積を求めておく。
【0057】
次に、選手候補領域を選択する(ステップE2)。具体的には、前フレームにおける追跡する選手の位置をもとに、現フレームにおいて前処理で抽出された選手のシルエットの中から、追跡する選手候補のシルエットを求める。前フレームにおいて選手が画角内にいた場合には、前フレームで選択された選手のシルエットからの移動距離が最小となるシルエットを選択する。前フレームにおいて選手が画角外にいた場合には、選手候補の選択は行わず、カメラ間処理を用いて選手の位置を求める。
【0058】
次いで、求められた選手候補のシルエットが他の選手と重なっていないか否かの判定(オクルージョン判定)を行う(ステップE3)。この判定は、前フレームと現フレームとで、選手候補のシルエットの面積、および追跡する選手の周りにいる選手の人数を比較することで行う。例えば、前フレームに比較して、現フレームにおいて選手候補シルエットの面積が増加し、かつその周りのラベル数が減少した場合は、現フレームでオクルージョンが発生したと判定する。オクルージョンが発生していないと判定されたカメラの画像データについては、カメラ内処理のみで選手の追跡ができているとし、求められた選手の位置情報を保持する。オクルージョンが発生していると判定されたカメラについては、選手が画角外にいた場合と同様、カメラ間処理により選手の位置を求める。
【0059】
カメラ間処理では、まず選手位置の推定を行う(ステップF1)。エピポーラ幾何により、あるカメラで撮像された画像の画素から、他のカメラで撮像された画像の対応画素へエピポーラ線を引くことができる。よって、図14に示されているように、2つのカメラの投影面G、Gにおいて、カメラ内処理で選手の位置(ラベルの重心)がそれぞれG11、G21として求められていれば、オクルージョンの発生によりカメラ間処理で選手の位置が求められなかったカメラの投影面G において、求められた2つのそれぞれの位置に対応するエピポーラ線を第1のF−マトリックスおよび第2のF−マトリックスを用いて引き、それらの交点G31を算出し、その交点を投影面Gにおける選手の位置と推定する。選手が画角から外れている場合についても、同様に選出の位置を推定することができる。なお、このとき用いる2つのカメラは、カメラ間距離が最大となるものを選択することが好適である。その理由は、カメラ間距離が小さいと、2つのカメラの画像データから得られるエピポーラ線の交角が小さくなり、交点にずれが生じてしまうおそれがあるからである。
【0060】
以上の処理により、全てのカメラ11〜11の画像上で追跡する選手の位置を求めることができる。しかし、オクルージョンの発生した後の追跡や、途中のフレームから選手が現れた場合の追跡では、追跡したい選手とは違う選手を追ってしまうことがある。そこで、より安定した追跡を実行するために、複数のカメラの情報を用いて選手の位置を確認し、その位置情報を保存する(ステップF2)。
【0061】
まず、位置確認の対象であるカメラの投影面K において、ステップF1で推定された選手の位置Lの座標をもとに、カメラ内処理で選手の位置が求められたカメラの投影面K〜Kの画像に対してエピポーラ線M〜Mを引く。次に、カメラの投影面K〜Kの各々において、カメラ内処理で求められた選手の位置L〜Lとエピポーラ線M〜Mとの距離を算出する。そして、それぞれのカメラの画像において、距離が閾値内であれば、ステップF1で推定された選手の位置Lの座標をそのまま選手の位置として保存する。投影面K〜Kのいくつかにおいて閾値外になった場合は、投影面Kにおいて位置Lに近い選手から順に同様な処理を行い、最も適当と推定される選手の位置座標(例えば全ての画像が閾値内になる位置)を保存する。
【0062】
以上の処理により、全てのカメラで撮像された画像データで選手の位置を追跡することができる。これ以降のオフライン処理は、第1の実施の形態と同様である。また、オンライン処理についても第1の実施の形態と同様である。
【0063】
このように、本発明の第2の実施の形態によれば、あるカメラの画像ではオクルージョンの発生、画角外に存在する等の理由で選手の位置情報が得られない場合にも、オクルージョンが発生していないカメラの画像データを参照して、選手の位置情報を推定し、選手を追跡することができる。また、オクルージョンが発生していない複数のカメラの画像データを参照して推定位置を確認することにより、より安定した追跡が可能になる。
【0064】
【発明の効果】
以上の説明から明らかなように、本発明によれば、送信側で、被写体を複数の異なる視点から撮像してそれぞれの視点における動画像データを取得し、全ての隣接視点間の射影幾何情報を推定し、前記複数の異なる視点における動画像データを前記複数の異なる視点における静止領域の静止画像データおよび移動領域の動画像データに分離し、前記射影幾何情報を用いて全ての前記隣接視点間の静止画像データの対応付けを行い、さらに全ての前記中間視点における静止画像データをモーフィングにより生成し、前記射影幾何情報を用いて全ての前記隣接視点間の動画像データの対応付けを行い、さらに全ての前記隣接視点における動画像データの構造的特徴情報および対応関係情報を生成し、全ての前記中間視点における自由視点静止画像データおよび全ての前記射影幾何情報を前記受信側へ予め送信し、受信側で、全ての前記中間視点における自由視点静止画像データおよび全ての前記射影幾何情報を予め受信して保存し、隣接視点の間の任意の中間視点を選択し、前記送信側へ通知し、送信側から送られてくる中間視点に対応する隣接視点における移動領域の動画像データ、該動画像データの構造的特徴情報、および前記隣接視点間の動画像データの対応関係情報と予め保存しておいた射影幾何情報とを用いて前記任意の中間視点における前記移動領域の動画像データをモーフィングにより生成し、前記予め保存しておいた中間視点における静止画像データと合成することにより、静止状態の被写体および移動状態の被写体の双方の中間視点における動画像データを受信側で生成することができる。
【0065】
また、本発明によれば、送信側で、被写体を複数の異なる視点から撮像してそれぞれの視点における動画像データを取得し、全ての隣接視点間の射影幾何情報を推定し、前記複数の異なる視点における動画像データを前記複数の異なる視点の静止領域の静止画像データおよび移動領域の動画像データに分離し、前記射影幾何情報を用いて全ての前記隣接視点間の静止画像データの対応付けを行い、さらに全ての前記中間視点における静止画像データをモーフィングにより生成し、前記移動領域の任意の被写体を追跡対象として選択し、前記射影幾何情報を用いて全ての前記隣接視点間の追跡対象の被写体の動画像データの対応付けを行い、さらに全ての前記隣接視点における追跡対象の被写体の動画像データの構造的特徴情報および対応関係情報を生成し、全ての前記中間視点における自由視点静止画像データおよび全ての前記射影幾何情報を前記受信側へ予め送信し、受信側で、全ての前記中間視点における自由視点静止画像データおよび全ての射影幾何情報を予め受信して保存し、隣接視点の間の任意の中間視点を選択し、前記送信側へ通知し、送信側から送られてくる中間視点に対応する隣接視点における追跡対象の被写体の動画像データ、該動画像データの構造的特徴情報、および前記隣接視点間の動画像データの対応関係情報と予め保存しておいた射影幾何情報とを用いて前記任意の中間視点における前記追跡対象の被写体の動画像データをモーフィングにより生成し、前記予め保存しておいた中間視点における静止画像データと合成することにより、静止状態の被写体および移動状態の被写体の双方の中間視点における画像データを受信側で生成することができ、かつ移動状態の被写体を追跡し、画面の中央等に表示することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の自由視点動画像データ生成システムのブロック図、
【図2】本発明の第1の実施の形態におけるカメラの配置を示す図、
【図3】本発明の第1の実施の形態における画像の領域を示す図、
【図4】平面射影行列について説明するための図、
【図5】補間画像の生成方法について説明するための図、
【図6】モザイク処理について説明するための図、
【図7】エピポーラ幾何について説明するための図、
【図8】本発明の第1の実施の形態におけるオフライン処理のフローチャート、
【図9】移動領域を抽出した例を示す図、
【図10】本発明の第1の実施の形態におけるオンライン処理のフローチャート、
【図11】シルエットの対応付けを説明するための図、
【図12】本発明の第2の実施の形態におけるカメラの配置を示す図、
【図13】本発明の第2の実施の形態における移動領域に関する領域分割処理を示すフローチャート、
【図14】カメラ間処理における選手位置の推定について説明するための図、
【図15】カメラ間処理における選手位置の推定について説明するための図である。
【符号の説明】
11 カメラ
12、21 入力装置
13、22 モニタ
14、23 CPU
15、24 メインメモリ
16、25 ディスクメモリ
17、26 通信装置
18、27 バス
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a system that captures and transmits a moving image of a subject in a three-dimensional space from multiple viewpoints, and more particularly, stores moving image data in multiple viewpoints in a transmission-side device, and stores the data between adjacent viewpoints. And a method of generating moving image data at an arbitrary intermediate viewpoint by a device on the receiving side.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, as a system for capturing an image of a subject in a three-dimensional space from multiple viewpoints and transmitting image data, there is a system described in Patent Literature 1. In this system, a transmitting side captures an image of a subject from a plurality of different viewpoints, creates structural data of the captured image based on the captured image data, transmits the image data and the structural data, and a receiving side. , A new viewpoint is designated, and image data at the new viewpoint can be generated from the image data and structure data at the multiple viewpoints.
[0003]
[Patent Document 1]
JP 2001-8231 A
[0004]
[Problems to be solved by the invention]
However, the system described in Patent Document 1 corresponds to a subject in a stationary state as shown in FIGS. 2 and 5 of Patent Document 1, and mentions a subject in a moving state. It has not been.
[0005]
Therefore, the present invention provides a free viewpoint moving image data generation method capable of generating image data at an arbitrary intermediate viewpoint between all adjacent viewpoints on a receiving side for both a stationary object and a moving object. The purpose is to provide.
[0006]
In addition, the present invention can generate image data at an arbitrary intermediate viewpoint between all adjacent viewpoints for both a stationary object and a moving object on the receiving side, and track the moving object. It is another object of the present invention to provide a free viewpoint moving image data generation method that can be displayed at the center of a screen or the like.
[0007]
[Means for Solving the Problems]
The free viewpoint moving image data generation method of the present invention captures moving image data by capturing a subject in a three-dimensional space from a plurality of different viewpoints on a transmitting side, and obtains moving image data at an arbitrary intermediate viewpoint between adjacent viewpoints on a receiving side. A free viewpoint moving image data generating method for generating moving image data of the subject, the method comprising: dividing moving image data obtained by imaging the subject from a plurality of different viewpoints into a moving region and a still region; Estimating projected geometric information between the adjacent viewpoints; generating free viewpoint still image data at all of the intermediate viewpoints based on the projected geometric information with respect to the image data of the stationary region; , Based on the projection geometric information, structural feature information of the moving image data, and correspondence information of the moving image data between all the adjacent viewpoints. Generating on a transmitting side the free viewpoint still image data and all the projective geometric information in all the intermediate viewpoints in advance on the receiving side, and executing a free viewpoint still in all the intermediate viewpoints. Performing, on the receiving side, the steps of pre-receiving and storing image data and all of the projection geometric information, and selecting any intermediate viewpoint between the adjacent viewpoints, and notifying the transmitting side. The moving image data of the moving area in the adjacent viewpoint corresponding to the intermediate viewpoint notified from the receiving side, the structural feature information of the moving image data, and the correspondence information of the moving image data between the adjacent viewpoints are transmitted to the receiving side. Performing on the transmitting side, the moving image data of the moving area, the structural characteristic information of the moving image data, and the moving image data between the adjacent viewpoints. Receiving the corresponding relationship information and generating moving image data of the moving area at the arbitrary intermediate viewpoint, and reading out the pre-stored free viewpoint still image data at the arbitrary intermediate viewpoint, And generating the moving image data at the arbitrary intermediate viewpoint by combining the moving image data with the moving image data of the moving area at the intermediate viewpoint.
[0008]
With this configuration, on the transmission side, the subject is imaged from a plurality of different viewpoints, moving image data at each viewpoint is obtained, projection geometric information between adjacent viewpoints is estimated, and the Separating the moving image data into the still image data of the still region and the moving image data of the moving region at the plurality of different viewpoints, and associating the still image data between the adjacent viewpoints with the projective geometric information, Generating still image data at an arbitrary intermediate viewpoint between adjacent viewpoints by morphing, associating moving image data between the adjacent viewpoints using the projective geometric information, and further configuring the structure of the moving image data at the adjacent viewpoint. Generating free feature still image data and all the projections at all of the intermediate viewpoints What information is pre-transmitted to the receiving side, and at the receiving side, the free viewpoint still image data and all the projection geometric information at all the intermediate viewpoints are previously received and stored, and any intermediate viewpoint between adjacent viewpoints is stored. And notifies the transmitting side, the moving image data of the moving area in the adjacent viewpoint corresponding to the intermediate viewpoint sent from the transmitting side, the structural feature information of the moving image data, and the Using the correspondence information of the moving image data and the previously stored projection geometric information, the moving image data of the moving area at the arbitrary intermediate viewpoint is generated by morphing, and the moving image data at the intermediate viewpoint stored in the previously stored intermediate viewpoint is generated. By combining with still image data, it is possible to generate moving image data at an intermediate viewpoint of both a still object and a moving object.
[0009]
Further, in the free viewpoint moving image data generation method of the present invention, a step of selecting an arbitrary subject in the moving area as a tracking target for each of the plurality of different viewpoints, and a step of storing position information of the selected subject Are executed on the transmitting side.
[0010]
With this configuration, on the transmission side, the subject is imaged from a plurality of different viewpoints, moving image data at each viewpoint is obtained, projection geometric information between adjacent viewpoints is estimated, and the Separating the moving image data into the still image data of the still region and the moving image data of the moving region at the plurality of different viewpoints, and associating the still image data between the adjacent viewpoints with the projective geometric information, Generating still image data at any intermediate viewpoint between adjacent viewpoints by morphing, selecting any subject in the moving area as a tracking target, and using the projective geometric information to track a subject to be tracked between the adjacent viewpoints The moving image data is associated, and the structural feature information and the correspondence of the moving image data of the subject to be tracked at the adjacent viewpoint Generating engagement information, pre-transmitting free viewpoint still image data at all the intermediate viewpoints and all the projection geometric information to the receiving side, and at the receiving side, free viewpoint still image data at all the intermediate viewpoints and all Receiving and storing the projective geometric information in advance, selecting an arbitrary intermediate viewpoint between adjacent viewpoints, notifying the transmitting side, and tracking the adjacent viewpoint corresponding to the intermediate viewpoint sent from the transmitting side. The arbitrary intermediate viewpoint using the moving image data of the target subject, the structural feature information of the moving image data, and the correspondence information of the moving image data between the adjacent viewpoints and the projection geometric information stored in advance. By generating morphing moving image data of the subject to be tracked by morphing and combining with the previously stored still image data at the intermediate viewpoint, It generates moving image data in both of the intermediate perspectives of an object and the tracked object, and track the subject moving state can be displayed in the center or the like of the screen.
[0011]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0012]
(First Embodiment)
FIG. 1 is a block diagram of a free viewpoint moving image data generation system according to the first embodiment of this invention. Here, (a) is a transmitting device, and (b) is a receiving device.
The transmitting apparatus includes n (n is an integer of 2 or more) cameras 11 each connected to the bus 18.1, 112, ... 11n, An input device 12, a monitor 13, a CPU 14, a main memory 15, a disk memory 16, and a communication device 17.
[0013]
Camera 111, 112, ... 11nEach captures a subject from a different viewpoint and generates moving image data. Here, the camera 111, 112, 11nIs fixed without performing any of pan, tilt, zoom-in, and zoom-out during imaging. The input device 12 is a mouse, a keyboard, or the like, and is used for inputting a user's command or the like. The monitor 13 is composed of a liquid crystal display or the like.1, 112, ... 11nThe moving image data, the image data read from the main memory 15, the image data read from the disk memory 16, and the like are displayed. The CPU 14 has a microprocessor and executes various processes according to a program stored in the main memory 15. The main memory 15 includes a ROM and a RAM, and stores a program used when the CPU 14 executes various processes. Also, the camera 111, 112, ... 11n, Image data read from the disk memory 16 and the like are temporarily stored. The disk memory 16 includes a hard disk device or the like, and1, 112, ... 11nIs stored. Also, the camera 111, 112, 11nThe data (details will be described later) representing the positional correspondence between the moving images captured in the step (a) is stored. The communication device 17 performs data communication with the communication device of the receiving device.
[0014]
The receiving-side device includes an input device 21, a monitor 22, a CPU 23, a main memory 24, a disk memory 25, and a communication device 26, each of which is connected to a bus 27.
[0015]
The input device 21 is a mouse, a keyboard, or the like, and is used for inputting a user's command or the like. The monitor 22 is composed of a liquid crystal display or the like, and displays data input from the input device 21, image data read from the main memory 24, image data read from the disk memory 25, and the like. The CPU 23 includes a microprocessor, and executes various processes according to a program stored in the main memory 24. The main memory 24 includes a ROM and a RAM, and stores a program used when the CPU 23 executes various processes. Further, image data and the like read from the disk memory 25 are temporarily stored. The disk memory 25 is composed of a hard disk device, and stores moving image data sent from the transmitting device. In addition, the camera 11 transmitted from the transmitting apparatus1, 112, ... 11nThe data (details will be described later) representing the positional correspondence between the moving images captured in the step (a) is stored. The communication device 26 performs data communication with the communication device 17 of the transmitting device. Here, the communication medium between the communication device 17 of the transmitting device and the communication device 26 of the receiving device is the Internet, a LAN, a terrestrial broadcasting network (digital broadcasting capable of transmitting request data and the like from a user to a broadcasting station). ).
[0016]
The operation of the free viewpoint moving image data generation system configured as described above will be described. First, an outline will be described. Here, the subjects are a stadium, a player, and a ball playing a soccer match. Then, as shown in FIG.1, 112, 113, 114 are arranged above the audience seats. In addition, a subject such as that shown in FIG. 3A is divided into a ground and a goal (FIG. 3B), a spectator seat (FIG. 3C), a player and a ball (FIG. 3D). And divided into As features of the image, the ground and the goal are a near-field still area, the spectator seat is a distant still area, and the players and the ball are moving areas. Then, a corresponding point between images obtained from adjacent viewpoints is calculated by applying a planar projection matrix (Homography matrix) to the ground and the goal, which are stationary regions in the foreground, and an arbitrary intermediate viewpoint between the adjacent viewpoints is calculated. Then, an interpolation image at the virtual viewpoint is generated. Here, the intermediate viewpoint means a viewpoint between two viewpoints, and does not mean a central viewpoint between the two viewpoints. Epipolar geometry is applied to a player and a ball that are moving areas, corresponding points between images obtained from adjacent viewpoints are calculated, and an interpolation image at a virtual viewpoint is generated. For the spectator seat, which is a still area in the distant view, mosaic processing is performed to connect the images at the two viewpoints, and an image at the virtual viewpoint is cut out from the generated panoramic image. Finally, a moving image of the entire subject at the virtual viewpoint is generated by combining the three types of images.
[0017]
Next, a description will be given in the order of a near-area still area, a far-area still area, and a moving area. The separation between the still region and the moving region of the foreground is performed by background difference and binarization of image data (details will be described later).
[0018]
[1] Static area in the foreground
In the foreground still region, a plane projection matrix is obtained, and corresponding points between images obtained from different viewpoints are calculated using the plane projection matrix to generate an interpolation image at a virtual viewpoint.
[0019]
First, the plane projection matrix will be described with reference to FIG. Two cameras C with different viewpoints1, C2Then, an object in a three-dimensional space is imaged. Here, camera C by perspective projection1Projection plane I1The camera coordinate system fixed above is (x1, Y1), Camera C2Projection plane I2The camera coordinate system fixed above is (x2, Y2). At this time, Expression [1] holds for a point P on the plane J in the three-dimensional space. The matrix in this equation is called a plane projection matrix. The perspective projection is described in, for example, "Image Processing Engineering" by Ryoichi Suematsu et al. 182-184, 2000-10-26, Corona Co., Ltd. ", and the description is omitted.
[0020]
(Equation 1)
Each element of the plane projection matrix can be obtained using the four corresponding points on the plane J. Then, using this plane projection matrix, the camera C1Projection plane I1Above, any one point (x1, Y1) By giving the coordinates, the camera C2Projection plane I2(X2, Y2) The coordinates can be calculated. Therefore, for all points on plane J, (x1, Y1) Coordinates and corresponding (x2, Y2) The value of the coordinates can be calculated. In the present embodiment, the ground shown in FIG. 3B is defined as one plane, and the goals are defined as a plurality of planes (for example, four planes), and a plane projection matrix is obtained for each plane.
[0021]
Next, referring to FIG.1Viewpoint and camera C2A method of generating an interpolated image at an arbitrary virtual viewpoint between the viewpoints will be described. In FIG. 5, camera C1Viewpoint and camera C2Virtual camera C that captures images at a virtual viewpoint between the viewpoints12Generates image data of the captured image. In the present embodiment, morphing by linear interpolation is performed. Camera C1Viewpoint, camera C2Virtual camera C from the viewpoint of1The ratio of the distance to 2 is α: 1−α (where 0 ≦ α ≦ 1), and the virtual camera C12Projection plane I12The camera coordinate system fixed above is (x12, Y12), The projection plane I12The coordinates of the upper point can be represented by the following equation [2].
[0022]
P12= (1-α) P1+ ΑP2… Equation [2]
[0023]
Where P12, P1, P2Respectively represent the projection plane I12Top, projection plane I1Top, projection plane I2Represents the position vector of the coordinates of the corresponding point above. Camera C if α = 01Same viewpoint as camera C when α = 12Camera C when α = 0.51And camera C2Is the central point of view. In the present embodiment, the camera C1Morphing (warp 1 in Fig. 5) and camera C2Morphing from two viewpoints (warp 2 in FIG. 5) is performed to generate two different interpolated images, and the following equation [3] is applied to them to generate image data at the virtual viewpoint.
[0024]
(Equation 2)
[0025]
In this equation, v1, V2Is the projection plane I1Top, projection plane I2Is the brightness value of the image data above, where v 'is the projection plane I12This is the brightness value of the upper image data.
[0026]
[2] Still area in distant view
In the present embodiment, an area such as a spectator seat, which is sufficiently far from the camera and in which unevenness of the camera itself can be neglected, is set as a distant view area. . In addition, in the case of a distant view area, since there are few areas common to two adjacent viewpoints, if the same morphing processing is performed on a near view still area, the calculation efficiency is low. An image at the virtual viewpoint is cut out from the connected panorama image.
[0027]
The mosaic processing will be described with reference to FIG. First, the projection plane I of the camera having the first viewpoint1  Image data of the upper background image and the projection plane I of the camera having the second viewpoint2A plane projection matrix H between the image data of the above background image and21, And the plane projection matrix H21Are used to unify the coordinate systems of the image data at the two viewpoints. Next, the two image data are concatenated to generate panoramic image data. The overlapping area in FIG.21Is automatically determined when is determined. When generating panoramic image data, the brightness of the overlapping area is smoothed. However, if an average value of the brightness of two image data is simply used, an unnatural seam is formed due to a difference in brightness between the image data. Therefore, as shown in the following equation [4], the brightness value of each pixel is weighted and mixed according to the distance from the boundary of the overlapping area.
[0028]
(Equation 3)
[0029]
In this equation, u1, U2Is the projection plane I1Image data of upper background image, projection plane I2U 'is the brightness value of the image data of the panoramic image, and u' is the brightness value of the image data of the upper background image. Also, xL, XRAre the x coordinates of the left end and the right end of the overlapping portion, respectively (see FIG. 6), and β = (xxL) / (XR  -XL).
[0030]
Next, background image data necessary for the intermediate viewpoint image is cut out from the panoramic image, and projection transformation from the first viewpoint as a reference to each intermediate viewpoint is performed. The plane projection matrix for the conversion is defined by the following equation [5]. By converting coordinates using the plane projection matrix H ', intermediate viewpoint image data of the background can be obtained.
[0031]
H ′ = (1−γ) E + γH21 -1  … Equation [5]
[0032]
Here, γ (0 ≦ γ ≦ 1) is a parameter for determining the position of the intermediate viewpoint, and E is a 3 × 3 unit matrix.
[0033]
[3] Moving area
Epipolar geometry is applied to a player and a ball that are moving areas, corresponding points between images obtained from different viewpoints are calculated, and an interpolation image at a virtual viewpoint is generated.
First, the epipolar geometry will be described with reference to FIG. Two cameras C with different viewpoints1, C2Then, an object in a three-dimensional space is imaged. Here, camera C by perspective projection1Projection plane I1The camera coordinate system fixed above is (x1, Y1), Camera C2Projection plane I2The camera coordinate system fixed above is (x2, Y2). At this time, the projection plane I1, Projection plane I2Equation [6] holds true for the points that can be taken into account.
[0034]
(Equation 4)
[0035]
The matrix in this equation is called a fundamental matrix (hereinafter, F-matrix) and includes information on the relative positions and postures of the two cameras. Projection plane I1, Projection plane I2An F-matrix can be calculated from seven or more points that are compatible between them. Then, using this F-matrix, the camera C1  Projection plane I1Camera C corresponding to any one point above2Projection plane I2The search range for the corresponding point above can be narrowed. Projection plane I1One point q on1(X1, Y1) Gives the projection plane I2The epipolar line ax + by + c = 0 can be projected on top. Here, a, b, and c can be obtained from the following equation [7].
[0036]
(Equation 5)
[0037]
At this time, q1(X1, Y1Projection plane I corresponding to2Upper point q2(X2, Y2) Always exists on the epipolar line. Therefore, the search for the corresponding point only needs to be performed on the epipolar line, and the search becomes easy. In the figure, a point D1 and a point D2 correspond to the camera C, respectively.1, C2Is the center of the lens (= viewpoint), and the epipolar line is a plane passing through points Q, D1, and D2 (epipolar plane) and a projection plane I1, I2Is the line of intersection with
[0038]
Thus, the projection plane I1, Projection plane I2After finding the corresponding points of the image data between1Viewpoint and camera C2Generate an interpolation image at an arbitrary virtual viewpoint between the viewpoints. The method of generating the interpolated image is the same as that of the near-field still region.
The outline of the operation of the free viewpoint moving image data generation system has been described above. Next, the operation of the system will be described in more detail.
[0039]
The processing at the time of operation of the present system includes an off-line processing executed by the transmitting apparatus and an on-line processing executed by the receiving apparatus. Hereinafter, the offline processing and the online processing will be described in this order.
[0040]
FIG. 8 is a flowchart of the offline processing. First, a multi-viewpoint image is input (step A1). That is, the camera 111~ 11nThe CPU 14 compresses the moving image data for a desired time acquired by capturing an image of a subject by the CPU 14 and stores the data in the disk memory 16.
[0041]
Next, the camera 11 stored in the disk memory 161~ 11nThe projection geometry of the image data between the adjacent cameras is estimated from the moving image data (step A2). Specifically, first, the CPU 11 stores the camera 11 from the disk memory 16.1~ 11nThe image data of one frame at the same imaging time is read out, decompressed and written to the main memory 15. Next, an operator inputs corresponding points from the input device 12 while reading out one frame of image data of an adjacent camera from the main memory 15 and displaying the image data on the monitor 13. As described above, in the present embodiment, an image is divided into three parts: a near-area still area, a distant still area, and a moving area. A planar projection matrix is used for a near-area still area, and an F-matrix is used for a moving area. Here, the corresponding points are obtained using one frame. Here, one frame imaged by an adjacent camera is compared with each other, and one plane constituting a ground, which is a near-field still area, and a plurality of planes constituting a goal, Input four or more corresponding points respectively. In addition, seven or more corresponding points are input to calculate an F-matrix between adjacent cameras. The CPU 14 uses the data of the corresponding points input from the input device 12 to calculate a plane projection matrix and an F-matrix by equations [1] and [6]. The plane projection matrix and the F-matrix are stored in the disk memory 16.
[0042]
Next, the CPU 14 operates the camera 11 stored in the disk memory 16.1~ 11nIs separated into a moving area and a still area (step A3). In the present embodiment, a background image is taken for each camera for the moving image data captured by each camera and binarized to generate a silhouette image in which the entire moving region is extracted, and to make a still image other than the moving region stationary. Area. Here, the silhouette can be more accurately extracted by considering not only the brightness data but also the RGB components. The image data of the moving area and the image data of the still area are stored in the main memory 15 and the disk memory 16. Also, the camera 111~ 11nIs fixed, so that the still area has the same image data in all the frames in both the near view and the distant view, so that only one frame needs to be stored. FIG. 9 shows an example of extracting a moving area. In this figure, (a) and (b) are silhouette images of a moving region extracted from image data captured from different viewpoints.
[0043]
In many cases, the silhouette image generated in step A3 includes a plurality of silhouettes such as a silhouette of several players and a ball silhouette. Therefore, in step A4, the silhouette is separated by performing labeling processing and divided into individual players and balls, and then the silhouette is associated between two viewpoints. When a plurality of players appear to overlap (occurrence occurs), the silhouette is divided using planar projection geometry with reference to the image data of the correctly divided camera. The players are first associated with each other by using a ground plane projection matrix. This is based on the condition that the player's feet are in contact with the ground, and the lowest point of the player's area is associated with the plane projection matrix of the ground. Even when the player is jumping, the error caused by the jump is considered to be sufficiently small. On the other hand, the balls are associated by matching the label areas. For all silhouettes between all adjacent cameras, a silhouette image, which is structural feature information of the image, a label number of the silhouette image, and a feature amount of the label (the center of gravity of the label, the coordinates of the feet of the players, etc.), and the two cameras A label number correspondence table, which is correspondence information between the two, is stored in the disk memory 16.
[0044]
Next, intermediate viewpoint image data relating to the still area is generated and stored in the disk memory 16 (step A5). At this time, the operator uses the input device 12 to input an arbitrary intermediate viewpoint between adjacent cameras. The CPU 14 reads the image data of the ground, the goal, and the audience seats, which are still areas, from the main memory 15, and the image data of the ground and the goal virtually captured from the input intermediate viewpoint, and the image data of the audience seats. Generate As described above, for the ground and the goal, the corresponding points between the image data captured by the adjacent cameras are obtained using the plane projection matrix (FIG. 4, equation [1]), and the arbitrary points between the adjacent cameras are obtained. The image data at the intermediate viewpoint is generated by interpolation (FIG. 5, equation [3]). For the audience seats, image data at the intermediate viewpoint is generated by mosaic processing and clipping (FIG. 6, equation [4]).
[0045]
The above is the offline processing. Next, the online processing will be described with reference to the flowchart of FIG. Note that the premise of executing the online processing is that the transmitting apparatus transmits a camera 11 to the receiving apparatus.1~ 11nIt is assumed that the arrangement information, the projection geometric information (the plane projection matrix and the F-matrix), and the position information of the intermediate viewpoint are transmitted and stored in the disk memory 25 of the receiving apparatus. In addition, image data at all intermediate viewpoints of the ground and the goal, which is a still region of the near view, and image data at all intermediate viewpoints of the audience seat, which is a still region of the distant view, are transmitted from the transmitting device to the receiving device. It is assumed that it is stored in the disk memory 25 of the apparatus. Further, it is assumed that the imaging time information (start time, end time) is transmitted from the transmitting device to the receiving device and stored in the disk memory 25 of the receiving device.
[0046]
When the online processing starts, the CPU 231~ 11nIs read from the disk memory 25, and displayed on the monitor 22. In this state, the user of the reception-side device inputs time information and a viewpoint position to be viewed using the input device 21 (step B1). Here, as the time information, for example, an hour-minute-second frame calculated from the imaging start time can be used. The viewpoint position can be input by, for example, a slide bar having two viewpoints at both ends. The CPU 23 stores the time information and the viewpoint position information in the main memory 24, and transmits the time information and the viewpoint position information to the transmitting device via the communication device 26 (step B2).
[0047]
In the transmitting device, the time information and the viewpoint position information are received by the communication device 17 and sent to the CPU 14. Since the viewpoint position exists between two adjacent cameras, the CPU 14 determines the moving image data of the moving area captured by the two cameras at the time indicated by the time information, and the moving image data structural feature information. A silhouette image, a label number of the silhouette image, a label feature amount (a center of gravity of the label, coordinates of the feet of a player, and the like), and a label number correspondence table that is information on a correspondence relationship between the two cameras are read from the disk memory 16, and the communication device 17. The data is transmitted to the receiving-side device via (step B3).
[0048]
In the receiving device, the moving image data of the moving area, the silhouette image, the label number of the silhouette image, the label feature amount, and the label number correspondence table are received by the communication device 26 and stored in the disk memory 25. The CPU 23 uses the moving image data of the moving area of each frame stored in the disk memory 25, the silhouette image, the label number of the silhouette image, the label feature amount, the label number correspondence table, and the position information of the intermediate viewpoint to generate the frame. Intermediate viewpoint image data of a player and a ball, which are moving areas, is sequentially generated for each time and stored in the disk memory 25 (step B4). Here, the moving image data of the moving area is used for giving color information of the silhouette image. Hereinafter, step B4 will be described in detail. A silhouette image between adjacent viewpoints is associated with the silhouette image, the label number, and the label number correspondence table sent from the transmission side. Next, an epipolar line is projected on the corresponding silhouette image to calculate a corresponding point. FIG. 11 is a diagram for explaining a procedure of associating a silhouette image of a player. Here, (a) is a silhouette image of a player captured by a certain camera, and (b) is a silhouette image of a player captured by a camera on the right side thereof. Here, three epipolar lines are projected on each of (a) and (b). In each epipolar line, first, the intersection with the both ends of the silhouette (in FIG. 11, a1And a2, B1And b2, A3And a4, B3And b4, A5And a6, B5And b6), And then the inside of the silhouette is associated by linear interpolation of intersections. By sequentially projecting epipolar lines from the upper end to the lower end of the silhouette, corresponding point information of the entire silhouette can be obtained. The narrower the interval between epipolar lines, the higher the density of corresponding point information can be obtained. After acquiring the corresponding point information of the entire silhouette in this way, morphing to the intermediate viewpoint is performed using Expression [2], and intermediate viewpoint image data of the moving area is generated and stored in the disk memory 25.
[0049]
Lastly, the image data at the intermediate viewpoint of the ground and the goal, which is a still view in the near view, and the image data at the intermediate viewpoint of the spectator seat, which is the still region of the distant view, are read from the disk memory 25. Is synthesized with the intermediate viewpoint image data of the moving area of the moving area and displayed on the monitor 22 (step B5).
[0050]
As described above, according to the first embodiment of the present invention, it is possible to generate the image data at the intermediate viewpoint of both the stationary subject and the moving subject at the intermediate viewpoint. In addition, for the still region, image data at the intermediate viewpoint is created in advance, and in each frame, image data at the intermediate viewpoint of the moving region is created and combined with image data of the still region. Compared with the case where image data is generated in frames, the processing time per frame can be significantly reduced.
[0051]
In the above description, the movement of the intermediate viewpoint is limited to the left and right directions. However, the intermediate viewpoint can be moved in the front and rear direction (zoom or the like).
[0052]
(Second embodiment)
The second embodiment of the present invention is characterized in that, in the first embodiment, a player is tracked and can be displayed at the center of the screen or the like.
[0053]
The second embodiment of the present invention differs from the first embodiment only in the offline processing, and the device configurations on the transmitting side and the receiving side and the online processing are the same as those in the first embodiment. However, in order to ensure that the players can be tracked even when the players seem to overlap (occlusion) in the image of a certain camera, as shown in FIG.1~ 118Are divided into two groups of four, and are preferably arranged above the audience seats on both sides.
[0054]
Next, offline processing according to the present embodiment will be described. The flow of the offline processing according to the present embodiment is the same as that of the first embodiment shown in FIG. 8 except for steps A3 and A4, and therefore different parts will be described.
[0055]
FIG. 13 is a flowchart showing an area dividing process for a moving area in the present embodiment. Here, (a) is an in-camera process common to each camera, and (b) acquires position information using an image of another camera when the position of a player is not known from an image of one camera. This is an inter-camera process. Hereinafter, the in-camera processing and the inter-camera processing will be described in this order.
[0056]
In the in-camera processing, first, pre-processing is executed (step E1). More specifically, a background image is taken for each camera for the moving image data captured by each camera and binarized to generate a silhouette image in which the entire moving region is extracted, and to generate a silhouette image other than the moving region as a static region. And Next, labeling of the moving area is performed. At this time, the center of gravity and the area of each label are obtained as feature amounts.
[0057]
Next, a player candidate area is selected (step E2). Specifically, based on the positions of the players to be tracked in the previous frame, the silhouettes of the player candidates to be tracked are obtained from the silhouettes of the players extracted in the preprocessing in the current frame. If the player is within the angle of view in the previous frame, a silhouette that minimizes the moving distance from the silhouette of the player selected in the previous frame is selected. If the player is out of the angle of view in the previous frame, no player candidate is selected, and the position of the player is obtained using inter-camera processing.
[0058]
Next, it is determined whether or not the obtained silhouette of the candidate player does not overlap another player (occlusion determination) (step E3). This determination is made by comparing the area of the silhouette of the candidate player and the number of players around the player to be tracked between the previous frame and the current frame. For example, when the area of the player candidate silhouette increases in the current frame and the number of labels around the candidate frame decreases as compared with the previous frame, it is determined that occlusion has occurred in the current frame. Regarding the image data of the camera determined that occlusion has not occurred, it is assumed that the player can be tracked only by processing in the camera, and the obtained position information of the player is held. For a camera determined to have occlusion, the position of the player is determined by camera-to-camera processing as in the case where the player is out of the angle of view.
[0059]
In the camera-to-camera processing, the position of the player is first estimated (step F1). Epipolar geometry allows an epipolar line to be drawn from a pixel of an image captured by one camera to a corresponding pixel of an image captured by another camera. Therefore, as shown in FIG. 14, the projection plane G of the two cameras1, G2In the processing in the camera, the position of the player (the center of gravity of the label) is G11, G21, The position of the player cannot be determined in the inter-camera processing due to the occurrence of occlusion.3  , An epipolar line corresponding to each of the two determined positions is drawn using the first F-matrix and the second F-matrix, and their intersection G31Is calculated, and the intersection is defined as the projection plane G3Is estimated to be the position of the player. Even when the player is out of the angle of view, the position of the selection can be similarly estimated. It is preferable that the two cameras used at this time are selected so as to maximize the distance between the cameras. The reason is that if the distance between the cameras is small, the intersection angle of the epipolar lines obtained from the image data of the two cameras becomes small, and there is a possibility that the intersection may shift.
[0060]
By the above processing, all the cameras 111~ 118The position of the player to be tracked on the image can be obtained. However, when tracking after an occlusion occurs or when a player appears from an intermediate frame, a player who is different from the player to be tracked may be tracked. Therefore, in order to execute more stable tracking, the position of the player is confirmed using information of a plurality of cameras, and the position information is stored (step F2).
[0061]
First, the projection plane K of the camera whose position is to be confirmed1  , The position L of the player estimated in step F11Projection plane K of the camera, where the position of the player has been determined by the in-camera processing based on the coordinates of2~ K5The epipolar line M for the image of2~ M5pull. Next, the projection plane K of the camera2~ K5Of each player, the position L of the player determined by the in-camera processing2~ L5And epipolar line M2~ M5Is calculated. If the distance is within the threshold value in each camera image, the position L of the player estimated at step F11Is stored as the position of the player. Projection plane K2~ K5In some cases, the projection plane K1At position L1The same processing is performed in order from the player closest to, and the position coordinates of the player estimated to be most appropriate (for example, the position where all images fall within the threshold) are stored.
[0062]
Through the above processing, the position of the player can be tracked by the image data captured by all the cameras. Subsequent offline processing is the same as in the first embodiment. Further, the online processing is the same as in the first embodiment.
[0063]
As described above, according to the second embodiment of the present invention, even when the position information of the player cannot be obtained due to the occurrence of occlusion and the presence of the player outside the angle of view in the image of a certain camera, the occlusion can be prevented. The position information of the player can be estimated by referring to the image data of the camera that has not occurred, and the player can be tracked. Further, by confirming the estimated position by referring to image data of a plurality of cameras in which occlusion has not occurred, more stable tracking can be performed.
[0064]
【The invention's effect】
As is apparent from the above description, according to the present invention, on the transmitting side, a subject is imaged from a plurality of different viewpoints, moving image data at each viewpoint is obtained, and projection geometric information between all adjacent viewpoints is obtained. Estimating, separating the moving image data at the plurality of different viewpoints into the still image data of the still region and the moving image data of the moving region at the plurality of different viewpoints, and using the projection geometric information between all the adjacent viewpoints. Perform still image data correspondence, generate still image data at all the intermediate viewpoints by morphing, perform moving image data correspondence between all the adjacent viewpoints using the projective geometric information, and further perform Generating the structural feature information and the correspondence information of the moving image data at the adjacent viewpoints of the free viewpoint still images at all the intermediate viewpoints Data and all the projection geometric information are transmitted to the receiving side in advance, and the receiving side previously receives and stores the free viewpoint still image data and all the projection geometric information at all the intermediate viewpoints, Select an arbitrary intermediate viewpoint between, notify the transmitting side, moving image data of the moving area in the adjacent viewpoint corresponding to the intermediate viewpoint sent from the transmitting side, structural feature information of the moving image data, And generating the moving image data of the moving area at the arbitrary intermediate viewpoint by morphing using the correspondence information of the moving image data between the adjacent viewpoints and the previously stored projection geometric information, and storing the moving image data in advance. By combining the still image data at the intermediate viewpoint with the still image data at the intermediate viewpoint, the moving image data at the intermediate viewpoint of both the still object and the moving object at the intermediate viewpoint are received. It can be formed.
[0065]
According to the present invention, on the transmitting side, a subject is imaged from a plurality of different viewpoints, moving image data at each viewpoint is obtained, and projection geometric information between all adjacent viewpoints is estimated. The moving image data at the viewpoint is separated into the still image data of the still region and the moving image data of the moving region at the plurality of different viewpoints, and the mapping of the still image data between all the adjacent viewpoints is performed using the projection geometric information. Performing further morphing still image data at all of the intermediate viewpoints, selecting any subject in the moving area as a tracking target, and using the projective geometric information to track all of the subjects to be tracked between the adjacent viewpoints Of the moving image data, and the structural characteristic information and the corresponding relationship of the moving image data of the subject to be tracked at all the adjacent viewpoints. And transmitting the free viewpoint still image data at all the intermediate viewpoints and the free viewpoint still image data at all the intermediate viewpoints at the receiving side. Projection geometric information is received and stored in advance, an arbitrary intermediate viewpoint between adjacent viewpoints is selected, the transmitting side is notified, and the subject to be tracked in the adjacent viewpoint corresponding to the intermediate viewpoint sent from the transmitting side is selected. The tracking at the arbitrary intermediate viewpoint by using the moving image data, the structural feature information of the moving image data, the correspondence information of the moving image data between the adjacent viewpoints, and the projection geometric information stored in advance. By generating moving image data of the target subject by morphing and combining it with the previously stored still image data at the intermediate viewpoint, the still subject The image data can be generated on the receiving side in both of the intermediate point of view the subject of the preliminary moving state, and to track an object moving state can be displayed in the center or the like of the screen.
[Brief description of the drawings]
FIG. 1 is a block diagram of a free viewpoint moving image data generation system according to a first embodiment of the present invention;
FIG. 2 is a diagram showing an arrangement of cameras according to the first embodiment of the present invention;
FIG. 3 is a diagram showing a region of an image according to the first embodiment of the present invention;
FIG. 4 is a diagram for explaining a plane projection matrix.
FIG. 5 is a diagram for explaining a method of generating an interpolation image;
FIG. 6 is a diagram for explaining a mosaic process;
FIG. 7 is a diagram for explaining epipolar geometry;
FIG. 8 is a flowchart of an offline process according to the first embodiment of the present invention;
FIG. 9 is a diagram showing an example of extracting a moving area;
FIG. 10 is a flowchart of online processing according to the first embodiment of the present invention;
FIG. 11 is a diagram for explaining correspondence of silhouettes;
FIG. 12 is a diagram showing an arrangement of cameras according to a second embodiment of the present invention;
FIG. 13 is a flowchart showing an area dividing process related to a moving area according to the second embodiment of the present invention;
FIG. 14 is a diagram for explaining estimation of a player position in camera-to-camera processing;
FIG. 15 is a diagram for describing estimation of a player position in camera-to-camera processing.
[Explanation of symbols]
11 Camera
12, 21 input device
13,22 monitor
14,23 CPU
15, 24 Main memory
16, 25 disk memory
17, 26 Communication device
18, 27 bus

Claims (6)

  1. 送信側で3次元空間内の被写体を複数の異なる視点から撮像して動画像データを取得し、受信側で隣接視点の間の任意の中間視点における前記被写体の動画像データを生成する自由視点動画像データ生成方法であって、
    前記被写体を複数の異なる視点から撮像して取得した動画像データを移動領域と静止領域とに分割するステップと、全ての隣接視点間の射影幾何情報を推定するステップと、前記静止領域の画像データについて、前記射影幾何情報を基に全ての前記中間視点における自由視点静止画像データを生成するステップと、前記移動領域の動画像データについて、前記射影幾何情報を基に該動画像データの構造的特徴情報、および全ての前記隣接視点間の動画像データの対応関係情報を生成するステップと、全ての前記中間視点における自由視点静止画像データおよび全ての前記射影幾何情報を前記受信側へ予め送信するステップとを前記送信側で実行し、
    全ての前記中間視点における自由視点静止画像データおよび全ての前記射影幾何情報を予め受信して保存するステップと、前記隣接視点の間の任意の中間視点を選択し、前記送信側へ通知するステップを前記受信側で実行し、
    前記受信側から通知された中間視点に対応する隣接視点における移動領域の動画像データ、該動画像データの構造的特徴情報、および前記隣接視点間の動画像データの対応関係情報を前記受信側へ送信するステップを前記送信側で実行し、
    前記移動領域の動画像データ、該動画像データの構造的特徴情報、および前記隣接視点間の動画像データの対応関係情報を受信し、前記任意の中間視点における前記移動領域の動画像データを生成するステップと、前記予め保存された任意の中間視点における自由視点静止画像データを読み出し、前記生成された任意の中間視点における移動領域の動画像データと合成して、前記任意の中間視点における動画像データを生成するステップとを前記受信側で実行する
    ことを特徴とする自由視点動画像データ生成方法。
    A free viewpoint moving image in which a transmitting side captures a subject in a three-dimensional space from a plurality of different viewpoints to acquire moving image data, and a receiving side generates moving image data of the subject at an arbitrary intermediate viewpoint between adjacent viewpoints. An image data generation method,
    Dividing moving image data obtained by imaging the subject from a plurality of different viewpoints into a moving region and a still region, estimating projected geometric information between all adjacent viewpoints, and image data of the still region Generating free viewpoint still image data at all of the intermediate viewpoints based on the projective geometric information, and for the moving image data of the moving area, the structural features of the moving image data based on the projective geometric information Generating information and correspondence information of moving image data between all of the adjacent viewpoints, and transmitting beforehand the free viewpoint still image data and all the projection geometric information at all of the intermediate viewpoints to the receiving side. Is executed on the transmitting side,
    A step of previously receiving and storing free viewpoint still image data and all the projection geometric information in all the intermediate viewpoints, and a step of selecting an arbitrary intermediate viewpoint between the adjacent viewpoints and notifying the transmitting side. Execute on the receiving side,
    Moving image data of a moving area in an adjacent viewpoint corresponding to the intermediate viewpoint notified from the receiving side, structural feature information of the moving image data, and correspondence information of moving image data between the adjacent viewpoints to the receiving side. Performing the transmitting step on the transmitting side;
    Receiving moving image data of the moving region, structural feature information of the moving image data, and correspondence information of moving image data between the adjacent viewpoints, and generating moving image data of the moving region at the arbitrary intermediate viewpoint Reading the free viewpoint still image data at the arbitrary intermediate viewpoint stored in advance and combining the generated free viewpoint still image data with the generated moving image data of the moving region at the arbitrary intermediate viewpoint to obtain the moving image at the arbitrary intermediate viewpoint. Generating a free viewpoint moving image data on the receiving side.
  2. 前記静止領域を前記視点からの距離により近距離の画像データと遠距離の画像データとに分離するステップと、前記近距離の画像データについては、前記任意の中間視点における自由視点静止画像データを生成するステップと、前記遠距離の画像データについては、前記隣接視点における画像データを連結した後に切り出すステップとを前記送信側で実行することを特徴とする請求項1記載の自由視点動画像データ生成方法。Separating the still area into short-distance image data and long-distance image data according to the distance from the viewpoint, and generating free viewpoint still image data at the arbitrary intermediate viewpoint for the short-distance image data 2. The free viewpoint moving image data generating method according to claim 1, wherein the transmitting side executes the step of performing the step of cutting out the image data of the long-distance image after connecting the image data of the adjacent viewpoint. .
  3. 前記複数の異なる視点毎に前記移動領域内の任意の被写体を追跡対象として選択するステップと、前記選択された被写体の位置情報を保存するステップとを前記送信側で実行することを特徴とする請求項1記載の自由視点動画像データ生成方法。The transmitting side executes a step of selecting an arbitrary subject in the moving area as a tracking target for each of the plurality of different viewpoints and a step of storing position information of the selected subject. Item 1. The free viewpoint moving image data generation method according to Item 1.
  4. 前記選択された被写体にオクルージョンが発生した場合は、オクルージョンが発生していない視点で撮像された画像データを参照して、前記位置情報を取得することを特徴とする請求項3記載の自由視点動画像データ生成方法。4. The free viewpoint moving image according to claim 3, wherein when occlusion occurs in the selected subject, the position information is acquired by referring to image data captured at a viewpoint where no occlusion has occurred. Image data generation method.
  5. 送信側で3次元空間内の被写体を複数の異なる視点から撮像して動画像データを取得し、受信側で隣接視点の間の任意の中間視点における前記被写体の動画像データを生成する自由視点動画像データ生成方法を送信側のコンピュータに実行させるためのプログラムであって、
    前記被写体を複数の異なる視点から撮像して取得した動画像データを移動領域と静止領域とに分割するステップと、全ての隣接視点間の射影幾何情報を推定するステップと、前記静止領域の画像データについて、前記射影幾何情報を基に全ての前記中間視点における自由視点静止画像データを生成するステップと、前記移動領域の動画像データについて、前記射影幾何情報を基に該動画像データの構造的特徴情報、および前記隣接視点間の動画像データの対応関係情報を生成するステップと、全ての前記中間視点における自由視点静止画像データおよび全ての前記射影幾何情報を前記受信側へ予め送信するステップと、前記受信側から通知された中間視点に対応する隣接視点における移動領域の動画像データ、該動画像データの構造的特徴情報、および前記隣接視点間の動画像データの対応関係情報を前記受信側へ送信するステップとを前記コンピュータに実行させることを特徴とするプログラム。
    A free viewpoint moving image in which a transmitting side captures a subject in a three-dimensional space from a plurality of different viewpoints to acquire moving image data, and a receiving side generates moving image data of the subject at an arbitrary intermediate viewpoint between adjacent viewpoints. A program for causing a transmitting computer to execute the image data generating method,
    Dividing moving image data obtained by imaging the subject from a plurality of different viewpoints into a moving region and a still region, estimating projected geometric information between all adjacent viewpoints, and image data of the still region Generating free viewpoint still image data at all of the intermediate viewpoints based on the projective geometric information, and for the moving image data of the moving area, the structural features of the moving image data based on the projective geometric information Information, and generating correspondence information of moving image data between the adjacent viewpoints, and transmitting beforehand the free viewpoint still image data and all the projection geometric information in all the intermediate viewpoints to the receiving side, Moving image data of a moving area in an adjacent viewpoint corresponding to the intermediate viewpoint notified from the receiving side, and structural characteristic information of the moving image data And a step of transmitting a correspondence relationship information of the moving image data between the neighboring view to the receiving side program for causing the computer to perform.
  6. 送信側で3次元空間内の被写体を複数の異なる視点から撮像して動画像データを取得し、受信側で隣接視点の間の任意の中間視点における前記被写体の動画像データを生成する自由視点動画像データ生成方法を受信側のコンピュータに実行させるためのプログラムであって、
    前記送信側で生成され、送信された全ての前記中間視点における自由視点静止画像データおよび全ての前記隣接視点間の射影幾何情報を予め受信して保存するステップと、隣接視点の間の任意の中間視点を選択し、前記送信側へ通知するステップと、前記送信側から送信された前記移動領域の動画像データ、該動画像データの構造的特徴情報、および前記隣接視点間の動画像データの対応関係情報を受信し、前記任意の中間視点における前記移動領域の動画像データを生成するステップと、前記予め保存された任意の中間視点における自由視点静止画像データを読み出し、前記生成された任意の中間視点における移動領域の動画像データと合成して、前記任意の中間視点における動画像データを生成するステップとを前記コンピュータに実行させることを特徴とするプログラム。
    A free viewpoint moving image in which a transmitting side captures a subject in a three-dimensional space from a plurality of different viewpoints to acquire moving image data, and a receiving side generates moving image data of the subject at an arbitrary intermediate viewpoint between adjacent viewpoints. A program for causing a receiving computer to execute the image data generating method,
    A step of previously receiving and storing free viewpoint still image data at all of the intermediate viewpoints and projection geometric information between all of the adjacent viewpoints generated and transmitted at the transmitting side; and Selecting a viewpoint and notifying the transmitting side of the moving image data, and the correspondence of the moving image data of the moving area transmitted from the transmitting side, the structural feature information of the moving image data, and the moving image data between the adjacent viewpoints Receiving relation information and generating moving image data of the moving area at the arbitrary intermediate viewpoint; reading out the free viewpoint still image data at the previously stored arbitrary intermediate viewpoint; Generating moving image data at the arbitrary intermediate viewpoint by combining with moving image data of a moving area at the viewpoint. Program for causing.
JP2003036577A 2003-02-14 2003-02-14 Method for generating free visual point moving image data and program for making computer perform the same processing Pending JP2004246667A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003036577A JP2004246667A (en) 2003-02-14 2003-02-14 Method for generating free visual point moving image data and program for making computer perform the same processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003036577A JP2004246667A (en) 2003-02-14 2003-02-14 Method for generating free visual point moving image data and program for making computer perform the same processing

Publications (1)

Publication Number Publication Date
JP2004246667A true JP2004246667A (en) 2004-09-02

Family

ID=33021623

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003036577A Pending JP2004246667A (en) 2003-02-14 2003-02-14 Method for generating free visual point moving image data and program for making computer perform the same processing

Country Status (1)

Country Link
JP (1) JP2004246667A (en)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178696A (en) * 2004-12-22 2006-07-06 Nippon Telegr & Teleph Corp <Ntt> Plane detection apparatus and method, and plane detection program
JP2006310936A (en) * 2005-04-26 2006-11-09 Sharp Corp System for generating video image viewed at optional viewpoint
JP2007147507A (en) * 2005-11-29 2007-06-14 Kurabo Ind Ltd Spectrometry and optical spectrometer
JP2009104346A (en) * 2007-10-23 2009-05-14 Location View:Kk Image display processing program, image display processing system, and image display processing method
JP2009528766A (en) * 2006-03-01 2009-08-06 エージェンシー フォー サイエンス,テクノロジー アンド リサーチ Method and system for obtaining multiple views of an object with real-time video output
JP2009533897A (en) * 2006-04-07 2009-09-17 リアル・ディ Vertical parallax correction
JP2014026641A (en) * 2012-06-20 2014-02-06 Canon Inc Image processor, control method thereof, and program
JP2015185962A (en) * 2014-03-20 2015-10-22 大日本印刷株式会社 Image data generation program, image data generation method, image processing apparatus and program
JP2017188046A (en) * 2016-04-08 2017-10-12 キヤノン株式会社 Image processing device and control method thereof, and image processing system
KR101794709B1 (en) * 2016-03-30 2017-11-08 한국과학기술연구원 Method for generating image at an arbitrary viewpointrandom point, recording medium and device for performing the method
JP2018026603A (en) * 2016-08-08 2018-02-15 キヤノン株式会社 Image distribution apparatus
JP2018067106A (en) * 2016-10-18 2018-04-26 富士通株式会社 Image processing system, image processing program, and image processing method
JP2019050593A (en) * 2018-10-31 2019-03-28 キヤノン株式会社 Image processing system, image processor, control method, and program

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178696A (en) * 2004-12-22 2006-07-06 Nippon Telegr & Teleph Corp <Ntt> Plane detection apparatus and method, and plane detection program
JP2006310936A (en) * 2005-04-26 2006-11-09 Sharp Corp System for generating video image viewed at optional viewpoint
JP2007147507A (en) * 2005-11-29 2007-06-14 Kurabo Ind Ltd Spectrometry and optical spectrometer
JP2009528766A (en) * 2006-03-01 2009-08-06 エージェンシー フォー サイエンス,テクノロジー アンド リサーチ Method and system for obtaining multiple views of an object with real-time video output
JP2009533897A (en) * 2006-04-07 2009-09-17 リアル・ディ Vertical parallax correction
JP2009104346A (en) * 2007-10-23 2009-05-14 Location View:Kk Image display processing program, image display processing system, and image display processing method
JP2014026641A (en) * 2012-06-20 2014-02-06 Canon Inc Image processor, control method thereof, and program
JP2015185962A (en) * 2014-03-20 2015-10-22 大日本印刷株式会社 Image data generation program, image data generation method, image processing apparatus and program
KR101794709B1 (en) * 2016-03-30 2017-11-08 한국과학기술연구원 Method for generating image at an arbitrary viewpointrandom point, recording medium and device for performing the method
JP2017188046A (en) * 2016-04-08 2017-10-12 キヤノン株式会社 Image processing device and control method thereof, and image processing system
US10666924B2 (en) 2016-04-08 2020-05-26 Canon Kabushiki Kaisha Virtual viewpoint image generation system based on captured images, virtual viewpoint image generation apparatus, and method of controlling same
JP2018026603A (en) * 2016-08-08 2018-02-15 キヤノン株式会社 Image distribution apparatus
JP2018067106A (en) * 2016-10-18 2018-04-26 富士通株式会社 Image processing system, image processing program, and image processing method
JP2019050593A (en) * 2018-10-31 2019-03-28 キヤノン株式会社 Image processing system, image processor, control method, and program

Similar Documents

Publication Publication Date Title
JP2004246667A (en) Method for generating free visual point moving image data and program for making computer perform the same processing
EP2328125B1 (en) Image splicing method and device
US7307654B2 (en) Image capture and viewing system and method for generating a synthesized image
US20140340404A1 (en) Method and apparatus for generating 3d free viewpoint video
US20130321575A1 (en) High definition bubbles for rendering free viewpoint video
JP4658223B2 (en) Image generating method, apparatus, program thereof, and recording medium recording program
WO2012160777A1 (en) Image processing device and method, supplement image generation device and method, program, and recording medium
JP2004193962A (en) Image communication equipment, image communication method, and computer program
JP5225313B2 (en) Image generating apparatus, image generating method, and program
JP2002524937A (en) Method and apparatus for synthesizing a high resolution image using a high resolution camera and a low resolution camera
Schnyder et al. 2D to 3D conversion of sports content using panoramas
CN107911737A (en) Methods of exhibiting, device, computing device and the storage medium of media content
JP6659187B2 (en) Image processing apparatus, image processing method, and program
Lepetit et al. An intuitive tool for outlining objects in video sequences: Applications to augmented and diminished reality
Inamoto et al. Immersive evaluation of virtualized soccer match at real stadium model
JP5906165B2 (en) Virtual viewpoint image composition device, virtual viewpoint image composition method, and virtual viewpoint image composition program
Calagari et al. Sports VR content generation from regular camera feeds
Kawai et al. Panorama image interpolation for real-time walkthrough
Inamoto et al. Free viewpoint video synthesis and presentation of sporting events for mixed reality entertainment
JP2018163467A (en) Method, device and program for generating and displaying free viewpoint image
JP6450306B2 (en) Image processing apparatus, image processing method, and image processing program
JP6392739B2 (en) Image processing apparatus, image processing method, and image processing program
Shimamura et al. Construction and presentation of a virtual environment using panoramic stereo images of a real scene and computer graphics models
Nonaka et al. Optimal billboard deformation via 3d voxel for free-viewpoint system
JP2020119262A (en) Image processor, image processing method and program