JP2019102877A

JP2019102877A - カメラの外部パラメータの推定方法、推定装置および推定プログラム

Info

Publication number: JP2019102877A
Application number: JP2017229132A
Authority: JP
Inventors: 一樹長村; Kazuki Nagamura; 康洲鎌; Yasushi Sukama; 吉武　敏幸; Toshiyuki Yoshitake; 敏幸吉武
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2019-06-24
Anticipated expiration: 2037-11-29
Also published as: JP6933110B2

Abstract

【課題】カメラの姿勢または位置が撮影期間中に変化した場合でも、カメラの外部パラメータを精度よく推定する。【解決手段】推定装置は、複数のカメラの各々から取得した画像から、撮影された空間の特徴点を抽出し、複数のカメラの各々から取得した画像から人物の骨格を抽出し、複数のカメラから取得した複数の画像のうちの２つの画像のペア毎に、２つの画像の一方から抽出した特徴点と２つの画像の他方から抽出した特徴点とを対応付けて２つの画像間の第１対応点を決定し、２つの画像のペア毎に、２つの画像の一方から抽出した骨格と２つの画像の他方から抽出した骨格とを対応付けて２つの画像間の第２対応点を決定し、２つの画像間の第１対応点および第２対応点に基づいて、カメラの外部パラメータを推定する。【選択図】図１

Description

本発明は、カメラの外部パラメータの推定方法、推定装置および推定プログラムに関する。

視点の異なる複数のカメラで撮影された画像を用いて、視聴者が希望する任意の視点の映像（以下、自由視点映像とも称する）を生成する技術が知られている。複数のカメラで撮影された画像から自由視点映像を生成する場合、カメラ間の位置関係等を知るために、カメラ間の位置関係等を推定するキャリブレーションが実行される（例えば、特許文献１参照）。

例えば、ＳＦＭ（Structure from Motion）と呼ばれる手法を用いて、カメラ間の位置関係を示す回転行列および並進ベクトルを含む外部パラメータを推定する多視点映像表現装置が提案されている（例えば、特許文献２参照）。ＳＦＭを用いた手法では、複数のカメラで撮影された複数の画像から抽出される特徴点の対応関係に基づいて、カメラの外部パラメータが推定される。

また、スポーツシーンにおいて、自由視点映像を生成する方法が提案されている（例えば、非特許文献１参照）。

特開２００４−２３５９３４号公報特開２０１４−２７５２８号公報

北原格、大田友一、"多視点映像の融合によるスポーツシーンの自由視点映像生成"、画像の認識・理解シンポジウム(MIRU2000)、(2000)

スポーツシーンにおいて、自由視点映像を生成する場合、例えば、カメラ間の位置関係等を推定するためにコート内に設置されたキャリブレーションボードを複数のカメラで同時に撮影して得られる情報を用いて、カメラの外部パラメータが事前に計測される。キャリブレーションボードは、カメラの外部パラメータが計測された後、試合の開始前までに撤去される。したがって、キャリブレーションボードを事前に撮影してカメラの外部パラメータを計測する方法では、スポーツの試合中にカメラの外部パラメータを再計測することは困難である。このため、試合中の選手の動き等により床が振動してカメラの姿勢が変化した場合、カメラの外部パラメータは、事前に計測した値、すなわち、自由視点映像の生成に用いる外部パラメータの値から変化する。この場合、自由視点映像の品質は、試合中のカメラの外部パラメータの値が事前に計測した値から変化しない場合に比べて低下する。

また、バスケットボール、バレーボール等のスポーツでは、同じチームの選手達は、同じユニホームを着用する。この場合、自由視点映像の生成に用いる複数の画像から抽出した特徴点の画像間の対応関係に基づいてカメラの外部パラメータを推定する方法では、ユニホーム等を示す特徴点が画像間で誤って対応付けられるおそれがある。特徴点の画像間の対応関係が誤っている場合、カメラの外部パラメータの推定精度が低下する。

１つの側面では、本発明は、カメラの姿勢または位置が撮影期間中に変化した場合でも、カメラの外部パラメータを精度よく推定することを目的とする。

１つの実施態様では、被写体を互いに異なる位置から撮影する複数のカメラの外部パラメータを推定する推定装置は、複数のカメラの各々から取得した画像から、撮影された空間の特徴点を抽出し、複数のカメラの各々から取得した画像から人物の骨格を抽出し、複数のカメラから取得した複数の画像のうちの２つの画像のペア毎に、２つの画像の一方から抽出した特徴点と２つの画像の他方から抽出した特徴点とを対応付けて２つの画像間の第１対応点を決定し、２つの画像のペア毎に、２つの画像の一方から抽出した骨格と２つの画像の他方から抽出した骨格とを対応付けて２つの画像間の第２対応点を決定し、２つの画像間の第１対応点および第２対応点に基づいて、カメラの外部パラメータを推定する。

１つの側面では、本発明は、カメラの姿勢または位置が撮影期間中に変化した場合でも、カメラの外部パラメータを精度よく推定することができる。

カメラの外部パラメータの推定方法、推定装置および推定プログラムの一実施形態を示す図である。図１に示した推定装置の動作の一例を示す図である。カメラの外部パラメータの推定方法、推定装置および推定プログラムの別の実施形態を示す図である。図３に示した骨格抽出部により抽出される骨格の一例を示す図である。図３に示した推定装置による画像間の対応付けの一例を示す図である。図３に示した推定装置の動作の一例を示す図である。図６に示した第１算出処理の一例を示す図である。カメラの外部パラメータの推定方法、推定装置および推定プログラムの別の実施形態を示す図である。図８に示した推定装置の動作の一例を示す図である。図９に示した第１算出処理の一例を示す図である。

以下、実施形態について、図面を用いて説明する。

図１は、カメラの外部パラメータの推定方法、推定装置および推定プログラムの一実施形態を示す。図１に示す推定装置１０は、例えば、視聴者が希望する任意の視点の映像（自由視点映像）を生成する自由視点映像生成システムＳＹＳに含まれる。自由視点映像生成システムＳＹＳは、推定装置１０の他に、異なる視点から共通の被写体を撮影する複数のカメラＣＡＭ（ＣＡＭａ、ＣＡＭｂ、ＣＡＭｃ、・・・、ＣＡＭｎ）と自由視点映像生成部２０とを有する。推定装置１０は、２つのカメラＣＡＭ間の位置関係等を示す回転行列および並進ベクトルを含むカメラＣＡＭの外部パラメータを推定するキャリブレーションを実行する。例えば、推定装置１０は、被写体を互いに異なる位置から撮影する複数のカメラＣＡＭの外部パラメータを推定し、推定した外部パラメータを自由視点映像生成部２０に転送する。自由視点映像生成部２０は、複数のカメラＣＡＭでそれぞれ撮影された画像と推定装置１０により推定されたカメラＣＡＭの外部パラメータ等を用いて、自由視点映像を生成する。すなわち、推定装置１０により推定されたカメラＣＡＭの外部パラメータは、自由視点映像を生成するために用いられる。

推定装置１０は、例えば、コンピュータ等の情報処理装置により実現され、ＣＰＵ（Central Processing Unit）等のプロセッサ１００とメモリ１０００とを有する。プロセッサ１００およびメモリ１０００は、バスＢＵＳに接続される。

例えば、プロセッサ１００は、メモリ１０００に格納される推定プログラム（カメラＣＡＭの外部パラメータの推定プログラム）を実行し、推定装置１０の動作を制御する。なお、推定プログラムは、推定装置１０の記憶装置のうちのメモリ１０００以外の記憶装置に格納されてもよく、推定装置１０の外部の記憶装置に格納されてもよい。また、推定プログラムは、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＤＶＤ（Digital Versatile Disc）、ＵＳＢ（Universal Serial Bus）メモリ等のコンピュータにより読み取り可能な記録媒体ＲＥＣに格納されてもよい。この場合、記録媒体ＲＥＣに格納された推定プログラムは、推定装置１０に設けられる図示しない入出力インタフェースを介して記録媒体ＲＥＣからメモリ１０００等に転送される。なお、推定プログラムは、記録媒体ＲＥＣから図示しないハードディスクに転送された後、ハードディスクからメモリ１０００に転送されてもよい。

プロセッサ１００は、例えば、メモリ１０００に格納される推定プログラムを実行することにより、特徴点抽出部２００、骨格抽出部３００、特徴点対応付け部４００、骨格対応付け部５００および推定部６００の機能を実現する。すなわち、推定装置１０は、特徴点抽出部２００、骨格抽出部３００、特徴点対応付け部４００、骨格対応付け部５００および推定部６００を有する。なお、特徴点抽出部２００、骨格抽出部３００、特徴点対応付け部４００、骨格対応付け部５００および推定部６００は、ハードウェアのみで実現されてもよい。

特徴点抽出部２００は、所定のフレームレートで被写体を撮影する複数のカメラＣＡＭの各々から画像を順次取得する。そして、特徴点抽出部２００は、複数のカメラＣＡＭから取得した画像の各々から、カメラＣＡＭで撮影された空間の特徴点を抽出する。カメラＣＡＭで撮影された空間の特徴点は、例えば、物体の角等の自然特徴点である。以下、カメラＣＡＭで撮影された空間の特徴点は、自然特徴点とも称される。

骨格抽出部３００は、特徴点抽出部２００に転送される画像を取得する。すなわち、各カメラＣＡＭで撮影された画像は、特徴点抽出部２００および骨格抽出部３００に転送される。そして、骨格抽出部３００は、複数のカメラＣＡＭから取得した画像の各々から、画像中の人物の骨格を抽出する。例えば、骨格抽出部３００は、画像中の人物の関節の位置（以下、骨格点とも称する）を人物の骨格として抽出する。

特徴点対応付け部４００は、各画像から抽出された自然特徴点を示す特徴情報を、特徴点抽出部２００から受ける。そして、特徴点対応付け部４００は、複数のカメラＣＡＭから取得した複数の画像のうちの２つの画像のペア毎に、２つの画像の一方から抽出した自然特徴点と２つの画像の他方から抽出した自然特徴点とを対応付けて２つの画像間の第１対応点を決定する。例えば、特徴点対応付け部４００は、カメラＣＡＭａで撮影された画像から抽出された自然特徴点と、カメラＣＡＭｂで撮影された画像から抽出された自然特徴点との間で、同じ物体の特徴を示す自然特徴点をペアにする。これにより、カメラＣＡＭａ、ＣＡＭｂでそれぞれ撮影された２つの画像間の第１対応点（自然特徴点のペア）が特定される。また、例えば、特徴点対応付け部４００は、カメラＣＡＭｂで撮影された画像から抽出された自然特徴点と、カメラＣＡＭｃで撮影された画像から抽出された自然特徴点との間で、同じ物体の特徴を示す自然特徴点をペアにする。これにより、カメラＣＡＭｂ、ＣＡＭｃでそれぞれ撮影された２つの画像間の第１対応点（自然特徴点のペア）が特定される。そして、特徴点対応付け部４００は、画像間の第１対応点（自然特徴点のペア）を示す情報を推定部６００に転送する。

骨格対応付け部５００は、各画像から抽出された人物の骨格（例えば、骨格点）を示す骨格情報を、骨格抽出部３００から受ける。そして、骨格対応付け部５００は、複数のカメラＣＡＭから取得した複数の画像のうちの２つの画像のペア毎に、２つの画像の一方から抽出した骨格と２つの画像の他方から抽出した骨格とを対応付けて２つの画像間の第２対応点を決定する。例えば、骨格対応付け部５００は、カメラＣＡＭａで撮影された画像から抽出された骨格点と、カメラＣＡＭｂで撮影された画像から抽出された骨格点との間で、同一人物の同じ関節の位置を示す骨格点をペアにする。これにより、カメラＣＡＭａ、ＣＡＭｂでそれぞれ撮影された２つの画像間の第２対応点（骨格点のペア）が特定される。また、例えば、骨格対応付け部５００は、カメラＣＡＭｂで撮影された画像から抽出された骨格点と、カメラＣＡＭｃで撮影された画像から抽出された骨格点との間で、同一人物の同じ関節の位置を示す骨格点をペアにする。これにより、カメラＣＡＭｂ、ＣＡＭｃでそれぞれ撮影された２つの画像間の第２対応点（骨格点のペア）が特定される。このように、推定装置１０は、２つの画像間の対応点として、第１対応点（自然特徴点のペア）の他に、第２対応点（骨格点のペア）を特定する。骨格対応付け部５００は、画像間の第２対応点（骨格点のペア）を示す情報を推定部６００に転送する。

同一人物か否かは、例えば、各人物において、互いに隣接する骨格点間の長さおよび角度に基づいて判定される。互いに隣接する骨格点間の長さおよび角度は、人物の関節間の長さおよび角度に対応する。このため、例えば、複数の人物（選手）が同じユニホームを着用するバスケットボール、バレーボール等のスポーツシーンにおいても、２つの画像間で人物の関節間の長さおよび角度が類似する人物を特定することにより、画像間で同一人物を特定することができる。この場合、同一人物の特定に骨格点を用いない場合に比べて、同一人物の特定精度を向上させることができる。すなわち、推定装置１０は、同一人物の特定に骨格点を用いない場合に比べて、特徴点等を誤って対応付けることを抑制できる。

推定部６００は、２つの画像間の第１対応点および第２対応点に基づいて、カメラＣＡＭの外部パラメータを推定する。例えば、推定部６００は、特徴点対応付け部４００および骨格対応付け部５００で特定された２つの画像間の第１対応点および第２対応点から、８個の対応点を選択する。そして、推定部６００は、選択した８個の対応点を用いて８点アルゴリズムを実行することにより、カメラＣＡＭの内部パラメータおよび外部パラメータの情報を含む基礎行列を算出する。カメラＣＡＭの内部パラメータは、カメラＣＡＭの焦点距離、画像の中心座標等であり、予め算出される。この場合、推定部６００は、カメラＣＡＭの内部パラメータおよび外部パラメータのうちの外部パラメータのみの情報を含む基本行列を、カメラＣＡＭの内部パラメータおよび基礎行列から算出する。そして、推定部６００は、基本行列を分解して外部パラメータを算出し、算出した外部パラメータを自由視点映像生成部２０に転送する。

このように、推定部６００は、例えば、フレーム毎に、複数のカメラＣＡＭで撮影された複数の画像から抽出される自然特徴点の対応関係および人物の骨格の対応関係に基づいて、カメラＣＡＭの外部パラメータを推定する。推定装置１０は、自然特徴点の他に、骨格を用いて画像間の対応点を決定するため、特徴点等を誤って対応付けして対応点を決定することを抑制でき、カメラＣＡＭの外部パラメータの推定精度が低下することを抑制できる。すなわち、推定装置１０は、カメラＣＡＭの姿勢または位置が撮影期間中に変化した場合でも、カメラＣＡＭの外部パラメータを自由視点映像の生成に用いる画像から精度よく推定できる。

なお、推定装置１０の構成は、図１に示す例に限定されない。例えば、カメラＣＡＭで撮影された画像を受信し、カメラＣＡＭから受信した画像を特徴点抽出部２００および骨格抽出部３００にバスＢＵＳを介して転送するインタフェースが推定装置１０に含まれてもよい。また、例えば、プロセッサ１００は、自由視点映像を生成するプログラムを実行することにより、自由視点映像生成部２０の機能を実現してもよい。

図２は、図１に示した推定装置１０の動作の一例を示す。図２に示す動作は、カメラＣＡＭの外部パラメータの推定方法の一例である。また、図２に示す動作をコンピュータ等の推定装置１０に実行させるためのプログラムは、カメラＣＡＭの外部パラメータの推定プログラムの一例である。図２に示す動作は、カメラＣＡＭで撮影される映像のフレーム毎に実行される。なお、図２に示す動作は、数フレームおきに実行されてもよい。

ステップＳ１０では、特徴点抽出部２００は、複数のカメラＣＡＭから取得した画像の各々から自然特徴点を抽出する。

次に、ステップＳ２０では、骨格抽出部３００は、複数のカメラＣＡＭから取得した画像の各々から人物の骨格点を抽出する。これにより、例えば、スポーツシーンの自由視点映像を自由視点映像生成システムＳＹＳが生成する場合、試合中の選手の骨格点が骨格抽出部３００により抽出される。

次に、ステップＳ３０では、特徴点対応付け部４００は、ステップＳ１０で抽出された自然特徴点のうち、互いに隣接するカメラＣＡＭで撮影された画像から抽出された自然特徴点を対応付けて画像間の第１対応点を決定する。これにより、互いに隣接するカメラＣＡＭで撮影された画像間の対応点として、第１対応点（自然特徴点のペア）が特定される。

次に、ステップＳ４０では、骨格対応付け部５００は、ステップＳ２０で抽出された骨格点のうち、互いに隣接するカメラＣＡＭで撮影された画像から抽出された骨格点を対応付けて画像間の第２対応点を決定する。これにより、互いに隣接するカメラＣＡＭで撮影された画像間の対応点として、第２対応点が、第１対応点（自然特徴点のペア）とは別に特定される。このように、推定装置１０は、自然特徴点の他に骨格点を用いて画像間の対応点を特定するため、複数の選手が同じユニホームを着用するスポーツシーンにおいても、骨格点を抽出しない場合に比べて、人物（選手）を誤って対応付けることを抑制できる。

次に、ステップＳ５０では、推定部６００は、ステップＳ３０で決定した画像間の第１対応点およびステップＳ４０で決定した画像間の第２対応点に基づいて、カメラＣＡＭの外部パラメータを推定する。推定装置１０は、特徴点等の対応付けに骨格点を用いない場合に比べて、特徴点等の画像間の対応付けを正確にできるため、カメラＣＡＭの外部パラメータをフレーム毎に精度よく推定できる。

なお、推定装置１０の動作は、図２に示す例に限定されない。例えば、ステップＳ２０の処理は、ステップＳ１０の処理の前に実効されてもよい。あるいは、ステップＳ２０の処理は、ステップＳ３０の処理の後に実効されてもよい。

以上、図１および図２に示す実施形態では、推定装置１０は、自然特徴点の他に、人物の骨格を、複数のカメラＣＡＭから取得した画像の各々から抽出する。そして、推定装置１０は、２つの画像から抽出された自然特徴点を対応付けて２つの画像間の第１対応点を決定する。さらに、推定装置１０は、２つの画像から抽出された骨格を対応付けて２つの画像間の第２対応点を決定する。これにより、２つの画像間の対応点として、第１対応点および第２対応点が特定される。推定装置１０は、自然特徴点の他に、骨格を用いて画像間の対応点を決定するため、特徴点等を誤って対応付けることを抑制でき、誤った対応点を用いてカメラＣＡＭの外部パラメータを推定することを抑制できる。これにより、カメラＣＡＭの外部パラメータの推定精度が低下することを抑制することができる。

なお、例えば、推定装置１０は、カメラＣＡＭの姿勢または位置が撮影期間中に変化した場合でも、カメラＣＡＭの姿勢または位置が変化した後に取得した画像から、カメラＣＡＭの外部パラメータを推定できる。したがって、推定装置１０は、カメラＣＡＭの姿勢または位置が撮影期間中に変化した場合でも、カメラＣＡＭの外部パラメータを精度よく推定できる。

図３は、カメラの外部パラメータの推定方法、推定装置および推定プログラムの別の実施形態を示す。図１から図２で説明した要素と同一または同様の要素については、同一または同様の符号を付し、これ等については、詳細な説明を省略する。図３に示す推定装置１２は、例えば、複数のカメラＣＡＭと自由視点映像生成部２０とともに、自由視点映像生成システムＳＹＳに含まれる。推定装置１２は、図１で説明した推定装置１０と同様に、カメラＣＡＭの外部パラメータを推定するキャリブレーションを実行する。例えば、推定装置１２は、被写体を互いに異なる位置から撮影する複数のカメラＣＡＭの外部パラメータを推定し、推定した外部パラメータを自由視点映像生成部２０に転送する。自由視点映像生成部２０は、複数のカメラＣＡＭでそれぞれ撮影された画像と推定装置１２により推定されたカメラＣＡＭの外部パラメータ等を用いて、自由視点映像を生成する。すなわち、推定装置１２により推定されたカメラＣＡＭの外部パラメータは、自由視点映像を生成するために用いられる。図３に示す例では、複数のカメラＣＡＭは、被写体を囲むように配置され、カメラＣＡＭａは、カメラＣＡＭｂとカメラＣＡＭｎとの間に配置され、カメラＣＡＭｂは、カメラＣＡＭａとカメラＣＡＭｃとの間に配置される。

推定装置１２は、図１に示したプロセッサ１００の代わりにプロセッサ１０２を有することを除いて、図１に示した推定装置１０と同一または同様である。例えば、推定装置１２は、コンピュータ等の情報処理装置により実現され、プロセッサ１０２およびメモリ１０００を有する。プロセッサ１０２およびメモリ１０００は、バスＢＵＳに接続される。また、メモリ１０００には、後述する骨格抽出部３０２（３０２ａ、３０２ｂ、３０２ｃ、・・・、３０２ｎ）に使用される学習データＬＤＰが格納される。図３では、学習データＬＤＰは、メモリ１０００からバスＢＵＳを介して各骨格抽出部３０２に転送されるため、各骨格抽出部３０２とバスＢＵＳとの間のデータ経路の一部を破線で示す。なお、学習データＬＤＰは、推定装置１２の記憶装置のうちのメモリ１０００以外の記憶装置に格納されてもよく、推定装置１２の外部の記憶装置に格納されてもよい。

プロセッサ１０２は、例えば、メモリ１０００に格納される推定プログラム（カメラＣＡＭの外部パラメータの推定プログラム）を実行し、推定装置１２の動作を制御する。なお、推定プログラムは、推定装置１２の記憶装置のうちのメモリ１０００以外の記憶装置に格納されてもよく、推定装置１２の外部の記憶装置に格納されてもよい。また、推定プログラムは、ＣＤ−ＲＯＭ、ＤＶＤ、ＵＳＢメモリ等のコンピュータにより読み取り可能な記録媒体ＲＥＣに格納されてもよい。この場合、記録媒体ＲＥＣに格納された推定プログラムは、推定装置１２に設けられる図示しない入出力インタフェースを介して記録媒体ＲＥＣからメモリ１０００等に転送される。なお、推定プログラムは、記録媒体ＲＥＣから図示しないハードディスクに転送された後、ハードディスクからメモリ１０００に転送されてもよい。

推定装置１２は、複数の特徴点抽出部２０２（２０２ａ、２０２ｂ、２０２ｃ、・・・、２０２ｎ）と、複数の骨格抽出部３０２（３０２ａ、３０２ｂ、３０２ｃ、・・・、３０２ｎ）とを有する。さらに、推定装置１２は、複数の特徴点対応付け部４０２（４０２ａ、４０２ｂ、４０２ｃ、・・・、４０２ｎ）と、複数の骨格対応付け部５０２（５０２ａ、５０２ｂ、５０２ｃ、・・・、５０２ｎ）と、推定部６０２とを有する。

例えば、プロセッサ１０２は、推定プログラムを実行することにより、複数の特徴点抽出部２０２、複数の骨格抽出部３０２、複数の特徴点対応付け部４０２、複数の骨格対応付け部５０２および推定部６０２の機能を実現する。なお、複数の特徴点抽出部２０２、複数の骨格抽出部３０２、複数の特徴点対応付け部４０２、複数の骨格対応付け部５０２および推定部６０２は、ハードウェアのみで実現されてもよい。

複数の特徴点抽出部２０２の各々は、複数のカメラＣＡＭの各々に対応して設けられ、対応するカメラＣＡＭから画像を順次取得する。そして、各特徴点抽出部２０２は、対応するカメラＣＡＭから取得した画像から、カメラＣＡＭで撮影された空間の特徴点（自然特徴点）を抽出する。複数の特徴点抽出部２０２は、複数のカメラＣＡＭの各々から取得した画像から、撮影された空間の特徴点を抽出する特徴点抽出部の一例である。

複数の骨格抽出部３０２の各々は、複数のカメラＣＡＭの各々に対応して設けられ、対応するカメラＣＡＭから画像を順次取得する。すなわち、複数の骨格抽出部３０２の各々は、複数の特徴点抽出部２０２の各々に対応して設けられ、対応する特徴点抽出部２０２に転送される画像を取得する。このように、各カメラＣＡＭで撮影された画像は、対応する特徴点抽出部２０２および骨格抽出部３０２に転送される。そして、各骨格抽出部３０２は、対応するカメラＣＡＭから取得した画像から、画像中の人物の骨格を抽出する。

例えば、各骨格抽出部３０２は、人物の画像データ等である学習データＬＤＰを、バスＢＵＳを介してメモリ１０００から受ける。そして、各骨格抽出部３０２は、学習データＬＤＰを用いた深層学習により、画像中の人物の関節の位置（骨格点）を人物の骨格として抽出する。なお、各骨格抽出部３０２は、深層学習以外の機械学習等により、画像中の人物の骨格点を抽出してもよい。複数の骨格抽出部３０２は、複数のカメラＣＡＭの各々から取得した画像から人物の骨格を抽出する骨格抽出部の一例である。

複数の特徴点対応付け部４０２の各々は、互いに隣接するカメラＣＡＭのペアに対応して設けられる。すなわち、複数の特徴点対応付け部４０２の各々は、特徴点抽出部２０２のペアに対応して設けられる。例えば、複数の特徴点対応付け部４０２の各々は、対応する特徴点抽出部２０２のペアの各々から、自然特徴点を示す特徴情報を受ける。そして、複数の特徴点対応付け部４０２は、複数のカメラＣＡＭから取得した複数の画像のうちの２つの画像のペア毎に、２つの画像の一方から抽出した自然特徴点と２つの画像の他方から抽出した自然特徴点とを対応付けて２つの画像間の第１対応点を決定する。

例えば、特徴点対応付け部４０２ａは、特徴点抽出部２０２ａ、２０２ｂのペアに対応して設けられる。この場合、特徴点対応付け部４０２ａは、カメラＣＡＭａで撮影された画像から抽出された自然特徴点を示す特徴情報を特徴点抽出部２０２ａから受け、カメラＣＡＭｂで撮影された画像から抽出された自然特徴点を示す特徴情報を特徴点抽出部２０２ｂから受ける。そして、特徴点対応付け部４０２ａは、特徴点抽出部２０２ａにより抽出された自然特徴点と、特徴点抽出部２０２ｂにより抽出された自然特徴点との間で、同じ物体の特徴を示す自然特徴点をペアにする。これにより、互いに隣接するカメラＣＡＭａ、ＣＡＭｂでそれぞれ撮影された２つの画像間の第１対応点（自然特徴点のペア）が特定される。

同様に、特徴点対応付け部４０２ｂは、特徴点抽出部２０２ｂ、２０２ｃのペアに対応して設けられる。この場合、特徴点対応付け部４０２ｂは、カメラＣＡＭｂで撮影された画像から抽出された自然特徴点を示す特徴情報を特徴点抽出部２０２ｂから受け、カメラＣＡＭｃで撮影された画像から抽出された自然特徴点を示す特徴情報を特徴点抽出部２０２ｃから受ける。そして、特徴点対応付け部４０２ｂは、特徴点抽出部２０２ｂにより抽出された自然特徴点と、特徴点抽出部２０２ｃにより抽出された自然特徴点との間で、同じ物体の特徴を示す自然特徴点をペアにする。これにより、互いに隣接するカメラＣＡＭｂ、ＣＡＭｃでそれぞれ撮影された２つの画像間の第１対応点（自然特徴点のペア）が特定される。

また、特徴点対応付け部４０２ｎは、特徴点抽出部２０２ｎ、２０２ａのペアに対応して設けられる。この場合、特徴点対応付け部４０２ｎは、カメラＣＡＭｎで撮影された画像から抽出された自然特徴点を示す特徴情報を特徴点抽出部２０２ｎから受け、カメラＣＡＭａで撮影された画像から抽出された自然特徴点を示す特徴情報を特徴点抽出部２０２ａから受ける。そして、特徴点対応付け部４０２ｎは、特徴点抽出部２０２ｎにより抽出された自然特徴点と、特徴点抽出部２０２ａにより抽出された自然特徴点との間で、同じ物体の特徴を示す自然特徴点をペアにする。これにより、互いに隣接するカメラＣＡＭｎ、ＣＡＭａでそれぞれ撮影された２つの画像間の第１対応点（自然特徴点のペア）が特定される。

複数の特徴点対応付け部４０２は、複数のカメラＣＡＭから取得した複数の画像のうちの２つの画像のペア毎に、２つの画像間の第１対応点を決定する特徴点対応付け部の一例である。

複数の骨格対応付け部５０２の各々は、互いに隣接するカメラＣＡＭのペアに対応して設けられる。すなわち、複数の骨格対応付け部５０２の各々は、骨格抽出部３０２のペアに対応して設けられる。例えば、複数の骨格対応付け部５０２の各々は、対応する骨格抽出部３０２のペアの各々から、画像中の人物の骨格（例えば、骨格点）を示す骨格情報を受ける。そして、複数の骨格対応付け部５０２は、複数のカメラＣＡＭから取得した複数の画像のうちの２つの画像のペア毎に、２つの画像の一方から抽出した骨格と２つの画像の他方から抽出した骨格とを対応付けて２つの画像間の第２対応点を決定する。

例えば、骨格対応付け部５０２ａは、骨格抽出部３０２ａ、３０２ｂのペアに対応して設けられる。この場合、骨格対応付け部５０２ａは、カメラＣＡＭａで撮影された画像から抽出された骨格点を示す骨格情報を骨格抽出部３０２ａから受け、カメラＣＡＭｂで撮影された画像から抽出された骨格点を示す骨格情報を骨格抽出部３０２ｂから受ける。そして、骨格対応付け部５０２ａは、骨格抽出部３０２ａにより抽出された骨格点と、骨格抽出部３０２ｂにより抽出された骨格点との間で、同一人物の同じ関節の位置を示す骨格点をペアにする。これにより、互いに隣接するカメラＣＡＭａ、ＣＡＭｂでそれぞれ撮影された２つの画像間の第２対応点（骨格点のペア）が特定される。

同様に、骨格対応付け部５０２ｂは、骨格抽出部３０２ｂ、３０２ｃのペアに対応して設けられる。この場合、骨格対応付け部５０２ｂは、カメラＣＡＭｂで撮影された画像から抽出された骨格点を示す骨格情報を骨格抽出部３０２ｂから受け、カメラＣＡＭｃで撮影された画像から抽出された骨格点を示す骨格情報を骨格抽出部３０２ｃから受ける。そして、骨格対応付け部５０２ｂは、骨格抽出部３０２ｂにより抽出された骨格点と、骨格抽出部３０２ｃにより抽出された骨格点との間で、同一人物の同じ関節の位置を示す骨格点をペアにする。これにより、互いに隣接するカメラＣＡＭｂ、ＣＡＭｃでそれぞれ撮影された２つの画像間の第２対応点（骨格点のペア）が特定される。

また、骨格対応付け部５０２ｎは、骨格抽出部３０２ｎ、３０２ａのペアに対応して設けられる。この場合、骨格対応付け部５０２ｎは、カメラＣＡＭｎで撮影された画像から抽出された骨格点を示す骨格情報を骨格抽出部３０２ｎから受け、カメラＣＡＭａで撮影された画像から抽出された骨格点を示す骨格情報を骨格抽出部３０２ａから受ける。そして、骨格対応付け部５０２ｎは、骨格抽出部３０２ｎにより抽出された骨格点と、骨格抽出部３０２ａにより抽出された骨格点との間で、同一人物の同じ関節の位置を示す骨格点をペアにする。これにより、互いに隣接するカメラＣＡＭｎ、ＣＡＭａでそれぞれ撮影された２つの画像間の第２対応点（骨格点のペア）が特定される。

複数の骨格対応付け部５０２は、複数のカメラＣＡＭから取得した複数の画像のうちの２つの画像のペア毎に、２つの画像間の第２対応点を決定する骨格対応付け部の一例である。推定装置１２は、推定装置１０と同様に、２つの画像間の対応点として、第１対応点（自然特徴点のペア）の他に、第２対応点（骨格点のペア）を特定する。したがって、推定装置１２は、推定装置１０と同様に、同一人物の特定に骨格点を用いない場合に比べて、特徴点等を誤って対応付けることを抑制できる。

推定部６０２は、互いに隣接するカメラＣＡＭのペアに対応して設けられる外部パラメータ推定部６２０（６２０ａ、６２０ｂ、６２０ｃ、・・・、６２０ｎ）を有する。したがって、複数の外部パラメータ推定部６２０の各々は、複数の特徴点対応付け部４０２の各々に対応するとともに、複数の骨格対応付け部５０２の各々に対応する。

複数の外部パラメータ推定部６２０の各々は、対応する特徴点対応付け部４０２から画像間の第１対応点（自然特徴点のペア）を示す情報を受け、対応する骨格対応付け部５０２から画像間の第２対応点（骨格点のペア）を示す情報を受ける。そして、複数の外部パラメータ推定部６２０の各々は、２つの画像間の第１対応点および第２対応点に基づいて、対応するカメラＣＡＭの外部パラメータを推定する。

例えば、外部パラメータ推定部６２０ａは、カメラＣＡＭａ、ＣＡＭｂで撮影された画像間の第１対応点を示す情報を特徴点対応付け部４０２ａから受け、カメラＣＡＭａ、ＣＡＭｂで撮影された画像間の第２対応点を示す情報を骨格対応付け部５０２ａから受ける。そして、外部パラメータ推定部６２０ａは、カメラＣＡＭａ、ＣＡＭｂ間の位置関係等を示す回転行列および並進ベクトルを含むカメラＣＡＭの外部パラメータを、カメラＣＡＭａ、ＣＡＭｂで撮影された画像間の第１対応点および第２対応点に基づいて推定する。

同様に、外部パラメータ推定部６２０ｂは、カメラＣＡＭｂ、ＣＡＭｃで撮影された画像間の第１対応点を示す情報を特徴点対応付け部４０２ｂから受け、カメラＣＡＭｂ、ＣＡＭｃで撮影された画像間の第２対応点を示す情報を骨格対応付け部５０２ｂから受ける。そして、外部パラメータ推定部６２０ｂは、カメラＣＡＭｂ、ＣＡＭｃ間の位置関係等を示す回転行列および並進ベクトルを含むカメラＣＡＭの外部パラメータを、カメラＣＡＭｂ、ＣＡＭｃで撮影された画像間の第１対応点および第２対応点に基づいて推定する。

また、外部パラメータ推定部６２０ｎは、カメラＣＡＭｎ、ＣＡＭａで撮影された画像間の第１対応点を示す情報を特徴点対応付け部４０２ｎから受け、カメラＣＡＭｎ、ＣＡＭａで撮影された画像間の第２対応点を示す情報を骨格対応付け部５０２ｎから受ける。そして、外部パラメータ推定部６２０ｎは、カメラＣＡＭｎ、ＣＡＭａ間の位置関係等を示す回転行列および並進ベクトルを含むカメラＣＡＭの外部パラメータを、カメラＣＡＭｎ、ＣＡＭａで撮影された画像間の第１対応点および第２対応点に基づいて推定する。

そして、推定部６０２は、例えば、各外部パラメータ推定部６２０により推定されたカメラＣＡＭの外部パラメータをバンドル調整により最適化して自由視点映像生成部２０に転送する。このように、推定部６０２は、２つの画像間の第１対応点および第２対応点に基づいて、カメラＣＡＭの外部パラメータを推定する。

なお、推定装置１２の構成は、図３に示す例に限定されない。例えば、カメラＣＡＭで撮影された画像を受信し、カメラＣＡＭから受信した画像を特徴点抽出部２０２および骨格抽出部３０２にバスＢＵＳを介して転送するインタフェースが推定装置１２に含まれてもよい。また、例えば、プロセッサ１０２は、自由視点映像を生成するプログラムを実行することにより、自由視点映像生成部２０の機能を実現してもよい。

図４は、図３に示した骨格抽出部３０２により抽出される骨格の一例を示す。骨格抽出部３０２は、画像ＩＭＧ中の人物ＰＮの関節の位置等を示す骨格点ＢＰ（図４に示す黒丸）を、学習データＬＤＰを用いた深層学習により抽出する。なお、画像中の人物ＰＮの関節の位置を推定する方法は、例えば、Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, “Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields”, in arXiv 1611.08050, 2016、［平成２９年９月４日検索］、インターネット＜ＵＲＬ：
1511929379642_0.pdf
＞に開示されている。

図５は、図３に示した推定装置１２による画像ＩＭＧａ、ＩＭＧｂ間の対応付けの一例を示す。なお、図５は、バスケットボールの試合を複数のカメラＣＡＭで撮影して自由視点映像を生成する場合において、推定装置１２が画像ＩＭＧａ、ＩＭＧｂ間の対応付けを実行する例を示す。画像ＩＭＧａは、カメラＣＡＭａで撮影された画像であり、画像ＩＭＧｂは、カメラＣＡＭｂで撮影された画像である。

特徴点対応付け部４０２ａは、画像ＩＭＧａから抽出された自然特徴点と画像ＩＭＧｂから抽出された自然特徴点との間で、同じ物体の特徴を示す自然特徴点をペアＰＣ（ＰＣ１、ＰＣ２）にする。例えば、画像ＩＭＧａ、ＩＭＧｂ間の自然特徴点のペアＰＣ１（第１対応点）は、コート内に白線で描かれたフリースローレーンの角を示し、自然特徴点のペアＰＣ２（第１対応点）は、バックボードの角を示す。

また、骨格対応付け部５０２ａは、画像ＩＭＧａから抽出された骨格点ＢＰと画像ＩＭＧｂから抽出された骨格点ＢＰとの間で、同一の人物ＰＮの同じ関節の位置を示す骨格点ＢＰをペアＰＰ（ＰＰ１、ＰＰ２、ＰＰ３、ＰＰ４）にする。例えば、画像ＩＭＧａ、ＩＭＧｂ間の骨格点ＢＰのペアＰＰ１（第２対応点）は、人物ＰＮ１（ＰＮ１ａ、ＰＮ１ｂ）の膝を示し、骨格点ＢＰのペアＰＰ２（第２対応点）は、人物ＰＮ２（ＰＮ２ａ、ＰＮ２ｂ）の肘を示す。また、画像ＩＭＧａ、ＩＭＧｂ間の骨格点ＢＰのペアＰＰ３（第２対応点）は、人物ＰＮ３（ＰＮ３ａ、ＰＮ３ｂ）の肩を示し、骨格点ＢＰのペアＰＰ４（第２対応点）は、人物ＰＮ４（ＰＮ４ａ、ＰＮ４ｂ）の膝を示す。画像ＩＭＧａ中の人物ＰＮ５ａは、画像ＩＭＧｂに写っていないため、対応付けされない。

なお、画像ＩＭＧａ中の人物ＰＮと画像ＩＭＧｂ中の人物ＰＮとが同一人物か否かは、各人物ＰＮの関節の角度θおよび関節間の長さＬを含む人物情報に基づいて判定される。例えば、骨格対応付け部５０２ａは、各画像ＩＭＧａ、ＩＭＧｂから抽出した骨格点ＢＰに基づいて、各画像ＩＭＧａ、ＩＭＧｂ中の各人物ＰＮの関節の角度θおよび関節間の長さＬを算出する。そして、骨格対応付け部５０２ａは、画像ＩＭＧａ中の着目する人物ＰＮの関節の角度θおよび関節間の長さＬのそれぞれと同じまたはほぼ同じ値の要素（角度θ、長さＬ）を有する画像ＩＭＧｂ中の人物ＰＮを、着目する人物ＰＮと同一であると判定する。

図５に示すかぎ括弧内には、人物ＰＮ１（ＰＮ１ａ、ＰＮ１ｂ）の膝の角度θ０（θ０ａ、θ０ｂ）、膝から股関節までの長さＬ１（Ｌ１ａ、Ｌ１ｂ）および膝から足首までの長さＬ２（Ｌ２ａ、Ｌ２ｂ）を算出する例を示す。骨格点ＢＰ０ａは、画像ＩＭＧａ中の人物ＰＮ１ａの膝に対応する。また、骨格点ＢＰ１ａは、人物ＰＮ１ａの股関節に対応し、骨格点ＢＰ０ａに隣接する骨格点ＢＰである。骨格点ＢＰ２ａは、人物ＰＮ１ａの足首に対応し、骨格点ＢＰ０ａに隣接する骨格点ＢＰである。同様に、骨格点ＢＰ０ｂは、画像ＩＭＧｂ中の人物ＰＮ１ｂの膝に対応する。また、骨格点ＢＰ１ｂは、人物ＰＮ１ｂの股関節に対応し、骨格点ＢＰ０ｂに隣接する骨格点ＢＰである。骨格点ＢＰ２ｂは、人物ＰＮ１ｂの足首に対応し、骨格点ＢＰ０ｂに隣接する骨格点ＢＰである
例えば、骨格対応付け部５０２ａは、人物ＰＮ１ａの骨格点ＢＰ０ａ、ＢＰ１ａを結ぶ線と骨格点ＢＰ０ａ、ＢＰ２ａを結ぶ線との角度θ０ａを、人物ＰＮ１ａの膝の角度θ０ａとして算出する。また、骨格対応付け部５０２ａは、骨格点ＢＰ０ａ、ＢＰ１ａ間の長さＬ１ａを、人物ＰＮ１ａの膝から股関節までの長さＬ１ａとして算出し、骨格点ＢＰ０ａ、ＢＰ２ａ間の長さＬ２ａを、人物ＰＮ１ａの膝から足首までの長さＬ２ａとして算出する。同様に、骨格対応付け部５０２ａは、骨格点ＢＰ０ｂ、ＢＰ１ｂ、ＢＰ２ｂを用いて、人物ＰＮ１ｂの膝の角度θ０ｂ、膝から股関節までの長さＬ１ｂおよび膝から足首までの長さＬ２ｂを算出する。

なお、人物ＰＮ１ａ、ＰＮ１ｂの膝以外の関節の角度θおよび関節間の長さＬも、膝の角度θ０、膝から股関節までの長さＬ１および膝から足首までの長さＬ２と同様の方法により算出される。これにより、人物ＰＮ毎に、複数の角度θおよび複数の長さＬが算出される。骨格対応付け部５０２ａは、例えば、人物ＰＮ１ａの複数の角度θおよび複数の長さＬを要素とする人物情報と画像ＩＭＧｂ中の各人物ＰＮの人物情報との間で、互いに対応する要素（角度θ、長さＬ）の差分の絶対値和を対応付け評価値として算出する。そして、骨格対応付け部５０２ａは、画像ＩＭＧａ中の人物ＰＮ１ａに対する画像ＩＭＧｂ中の複数の人物ＰＮの対応付け評価値のうち、最小の対応付け評価値になる人物ＰＮ（図５に示す例では、人物ＰＮ１ｂ）を、人物ＰＮ１ａと同一と判定する。

そして、骨格対応付け部５０２ａは、画像ＩＭＧａ、ＩＭＧｂ間で同一人物と判定した人物ＰＮ１ａ、ＰＮ１ｂの骨格点ＢＰのうち、互いに対応する部位を示す骨格点ＢＰのペアＰＰを、画像ＩＭＧａ、ＩＭＧｂ間の骨格点ＢＰのペアＰＰに決定する。すなわち、骨格対応付け部５０２ａは、人物情報を用いて、２つの画像ＩＭＧａ、ＩＭＧｂの一方から抽出した骨格点ＢＰと２つの画像ＩＭＧａ、ＩＭＧｂの他方から抽出した骨格点ＢＰとを対応付けて２つの画像ＩＭＧａ、ＩＭＧｂ間の第２対応点を決定する。

このように、骨格対応付け部５０２ａは、２つの画像ＩＭＧａ、ＩＭＧｂ間で人物ＰＮの関節の角度θおよび関節間の長さＬが類似する人物ＰＮを特定することにより、画像ＩＭＧａ、ＩＭＧｂ間で同一人物を特定することができる。このため、一人分の空間より広い範囲を撮影対象とする場合、例えば、バスケットボール等のスポーツシーンにおいても、推定装置１２は、同一人物の特定に骨格点ＢＰを用いない場合に比べて、同一人物の特定精度を向上できる。例えば、同一人物の特定に骨格点ＢＰを用いない場合、人物ＰＮ１、ＰＮ３が同じユニホームを着用しているため、人物ＰＮ１と人物ＰＮ３とで類似した特徴が抽出され、人物ＰＮ１ａと人物ＰＮ３ｂとが同一人物と判定されるおそれがある。これに対し、推定装置１２は、２つの画像ＩＭＧａ、ＩＭＧｂ間で人物ＰＮの関節の角度θおよび関節間の長さＬが類似する人物ＰＮ１ａ、ＰＮ１ｂを特定するため、人物ＰＮ１ａと人物ＰＮ３ｂが同一人物であると誤って判定することを抑制できる。すなわち、推定装置１２は、同一人物の特定に骨格点ＢＰを用いない場合に比べて、特徴点等を誤って対応付けることを抑制できる。

なお、推定装置１２による画像ＩＭＧａ、ＩＭＧｂ間の対応付けの方法は、図５に示す例に限定されない。例えば、骨格対応付け部５０２ａは、画像ＩＭＧａ中の人物ＰＮ１ａに対する画像ＩＭＧｂ中の複数の人物ＰＮの最小の対応付け評価値が予め決められた閾値以上の場合、人物ＰＮ１ａと同一の人物ＰＮは画像ＩＭＧｂ中に存在しないと判定してもよい。また、人物情報は、人物ＰＮの関節の角度θおよび関節間の長さＬの少なくとも一方を含んでいればよい。また、人物情報を用いた同一人物か否かの判定は、人物情報間の互いに対応する要素（角度θ、長さＬ）の差分の絶対値和を用いる方法に限定されない。

図６は、図３に示した推定装置１２の動作の一例を示す。図６に示す動作は、カメラＣＡＭの外部パラメータの推定方法の一例である。また、図６に示す動作をコンピュータ等の推定装置１２に実行させるためのプログラムは、カメラＣＡＭの外部パラメータの推定プログラムの一例である。図６に示す動作は、カメラＣＡＭで撮影される映像のフレーム毎に実行される。なお、図６に示す動作は、数フレームおきに実行されてもよい。

ステップＳ１００では、各特徴点抽出部２０２および各骨格抽出部３０２は、複数のカメラＣＡＭのうちの対応するカメラＣＡＭで撮影された画像ＩＭＧを取得する。例えば、特徴点抽出部２０２ａおよび骨格抽出部３０２ａは、カメラＣＡＭａで撮影された画像ＩＭＧａを取得する。

次に、ステップＳ２００では、各特徴点抽出部２０２は、複数のカメラＣＡＭのうちの対応するカメラＣＡＭで撮影された画像ＩＭＧから自然特徴点を抽出する。例えば、特徴点抽出部２０２ａは、画像ＩＭＧａから自然特徴点を抽出する。

次に、ステップＳ３００では、各骨格抽出部３０２は、複数のカメラＣＡＭのうちの対応するカメラＣＡＭで撮影された画像ＩＭＧから人物ＰＮの骨格点ＢＰを抽出する。例えば、骨格抽出部３０２ａは、学習データＬＤＰを用いた深層学習により、画像ＩＭＧａから人物ＰＮの骨格点ＢＰを抽出する。

次に、ステップＳ４００では、推定装置１２は、カメラＣＡＭの外部パラメータを算出する第１算出処理を、互いに隣接するカメラＣＡＭのペア毎に実行する。第１算出処理の詳細は、図７で説明する。第１算出処理により、カメラＣＡＭの外部パラメータが、互いに隣接するカメラＣＡＭのペア毎に算出される。なお、図７に示す第１算出処理では、人物ＰＮを撮影していないカメラＣＡＭの外部パラメータは、算出されない。

次に、ステップＳ５００では、推定装置１２は、互いに隣接するカメラＣＡＭの全てのペアで第１算出処理が終了したか否かを判定する。互いに隣接するカメラＣＡＭの全てのペアで第１算出処理が終了した場合、推定装置１２の動作は、ステップＳ６００に移る。一方、互いに隣接するカメラＣＡＭの全てのペアのうちのいずれかのペアで第１算出処理が終了していない場合、推定装置１２の動作は、ステップＳ５００に戻る。すなわち、推定装置１２は、互いに隣接するカメラＣＡＭの全てのペアで第１算出処理が終了するまで、ステップＳ６００の処理の実行を待機する。

ステップＳ６００では、推定部６０２は、ステップＳ４００の第１算出処理により算出された各カメラＣＡＭの外部パラメータを最適化するバンドル調整を実行する。

次に、ステップＳ７００では、推定部６０２は、カメラＣＡＭの最終的な外部パラメータを決定する。例えば、推定部６０２は、ステップＳ６００のバンドル調整により最適化された各カメラＣＡＭの外部パラメータを、最終的な外部パラメータに決定する。そして、推定部６０２は、カメラＣＡＭの最終的な外部パラメータを自由視点映像生成部２０に転送する。このように、推定装置１２は、カメラＣＡＭで撮影される映像のフレーム毎に、カメラＣＡＭの外部パラメータを推定し、推定したカメラＣＡＭの外部パラメータを自由視点映像生成部２０に転送する。

ここで、スポーツシーンにおいて、自由視点映像を生成する場合、カメラＣＡＭ間の位置関係等を推定するためにコート内に設置されたキャリブレーションボードを事前に撮影してカメラＣＡＭの外部パラメータを計測する従来方法が知られている。この種の従来方法では、カメラＣＡＭの外部パラメータが計測された後、試合の開始前までにキャリブレーションボードが撤去されるため、試合中にカメラＣＡＭの外部パラメータを再計測することは困難である。したがって、従来方法では、試合中の選手の動き等により床が振動してカメラＣＡＭの姿勢等が変化した場合、カメラＣＡＭの外部パラメータは、事前に計測した値、すなわち、自由視点映像の生成に用いる外部パラメータの値から変化する。この場合、自由視点映像の品質は、試合中のカメラＣＡＭの外部パラメータの値が事前に計測した値から変化しない場合に比べて低下する。

これに対し、推定装置１２は、上述したように、カメラＣＡＭで撮影される映像のフレーム毎に、カメラＣＡＭの外部パラメータを推定する。あるいは、推定装置１２は、数フレームおきに、カメラＣＡＭの外部パラメータを推定する。このため、例えば、スポーツシーンにおいて、試合中の選手の動き等により床が振動してカメラＣＡＭの姿勢等が変化した場合でも、推定装置１２は、姿勢等の変化に応じたカメラＣＡＭの外部パラメータを推定できる。すなわち、自由視点映像の生成に用いるカメラＣＡＭの外部パラメータを従来方法に比べて精度よく推定することができる。この結果、自由視点映像の品質を従来方法に比べて向上させることができる。

なお、推定装置１２の動作は、図６に示す例に限定されない。例えば、ステップＳ３００の処理は、ステップＳ２００の処理の前に実効されてもよい。

図７は、図６に示した第１算出処理（ステップＳ４００）の一例を示す。なお、図７に示す第１算出処理は、互いに隣接するカメラＣＡＭの１ペアに対する第１算出処理である。例えば、図７に示す第１算出処理は、互いに隣接するカメラＣＡＭのペア毎に並列に実行される。なお、図７に示す第１算出処理は、互いに隣接するカメラＣＡＭのペア毎に順次実行されてもよい。図７では、カメラＣＡＭａ、ＣＡＭｂのペアに対する第１算出処理を説明する。

ステップＳ４１０では、骨格対応付け部５０２ａは、カメラＣＡＭａ、ＣＡＭｂのペアから取得した画像ＩＭＧａ、ＩＭＧｂの両方から人物ＰＮの骨格点ＢＰが抽出されたか否かを判定する。ペアの画像ＩＭＧａ、ＩＭＧｂの両方から人物ＰＮの骨格点ＢＰが抽出された場合、推定装置１２の動作は、ステップＳ４２０に移る。一方、ペアの画像ＩＭＧａ、ＩＭＧｂの少なくとも一方から人物ＰＮの骨格点ＢＰが抽出されない場合、カメラＣＡＭａ、ＣＡＭｂのペアに対する第１算出処理は、終了する。すなわち、推定装置１２は、ペアの画像ＩＭＧａ、ＩＭＧｂの少なくとも一方から人物ＰＮの骨格点ＢＰが抽出されない場合、カメラＣＡＭａ、ＣＡＭｂ間の位置関係を示す外部パラメータを抽出しない。

ここで、スポーツシーンにおける自由視点映像の生成という観点では、選手（人物ＰＮ）が写っている領域の自由視点映像を精度よく生成できればよい。このため、スポーツシーンでは、選手（人物ＰＮ）の写っている領域が偏った場合、選手（人物ＰＮ）が存在する領域の特徴点に基づいたキャリブレーション（カメラＣＡＭの外部パラメータの推定）ができればよい。すなわち、人物ＰＮが存在しない領域の特徴点に基づいたキャリブレーション（カメラＣＡＭの外部パラメータの推定）は、省かれてもよい。この場合、カメラＣＡＭの外部パラメータの推定精度を複数のカメラＣＡＭの撮影範囲全体で満遍なく向上する場合に比べて、カメラＣＡＭの外部パラメータを推定するための演算量を低減することができる。

ステップＳ４２０では、特徴点対応付け部４０２ａは、図６に示したステップＳ２００で抽出された自然特徴点のうち、ペアの画像ＩＭＧａ、ＩＭＧｂから抽出された自然特徴点を対応付けて画像ＩＭＧａ、ＩＭＧｂ間の第１対応点を決定する。例えば、特徴点対応付け部４０２ａは、図５で説明したように、画像ＩＭＧａから抽出された自然特徴点と画像ＩＭＧｂから抽出された自然特徴点との間で、同じ物体の特徴を示す自然特徴点のペアＰＣを、画像ＩＭＧａ、ＩＭＧｂ間の第１対応点として決定する。これにより、画像ＩＭＧａ、ＩＭＧｂ間の対応点として、第１対応点（自然特徴点のペアＰＣ）が特定される。

次に、ステップＳ４３０では、骨格対応付け部５０２ａは、図６に示したステップＳ３００で抽出された骨格点ＢＰのうち、ペアの画像ＩＭＧａ、ＩＭＧｂから抽出された骨格点ＢＰを対応付けて画像ＩＭＧａ、ＩＭＧｂ間の第２対応点を決定する。例えば、骨格対応付け部５０２ａは、図５で説明したように、画像ＩＭＧａから抽出された骨格点ＢＰと画像ＩＭＧｂから抽出された骨格点ＢＰとの間で、同一の人物ＰＮの同じ関節の位置を示す骨格点ＢＰのペアＰＰを特定する。そして、骨格対応付け部５０２ａは、特定した骨格点ＢＰのペアＰＰを、画像ＩＭＧａ、ＩＭＧｂ間の第２対応点に決定する。これにより、画像ＩＭＧａ、ＩＭＧｂ間の対応点として、第２対応点が、第１対応点（自然特徴点のペア）とは別に特定される。このように、推定装置１２は、自然特徴点と骨格点ＢＰとを用いて画像ＩＭＧａ、ＩＭＧｂ間の対応点を特定する。このため、推定装置１２は、複数の人物ＰＮ（選手）が同じユニホームを着用するスポーツシーンにおいても、骨格点ＢＰを抽出しない場合に比べて、人物ＰＮを誤って対応付けることを抑制できる。

次に、ステップＳ４４０では、外部パラメータ推定部６２０ａは、８点アルゴリズムを用いて基礎行列を算出する。基礎行列は、カメラＣＡＭの内部パラメータ（カメラＣＡＭの焦点距離、画像ＩＭＧの中心座標等）の情報と、カメラＣＡＭの外部パラメータ（２つのカメラＣＡＭ間の位置関係等を示す回転行列および並進ベクトル）の情報とを含む。

例えば、外部パラメータ推定部６２０ａは、ステップＳ４２０で決定した画像ＩＭＧａ、ＩＭＧｂ間の第１対応点およびステップＳ４３０で決定した画像ＩＭＧａ、ＩＭＧｂ間の第２対応点から、８個の対応点を選択する。そして、外部パラメータ推定部６２０ａは、選択した８個の対応点を用いて８点アルゴリズムを実行することにより、カメラＣＡＭの内部パラメータおよび外部パラメータの情報を含む基礎行列を算出する。なお、外部パラメータ推定部６２０ａは、８点の対応点の組み合わせを変更して８点アルゴリズを複数回実行して、基礎行列を算出してもよい。

次に、ステップＳ４５０では、外部パラメータ推定部６２０ａは、特異値分解（ＳＶＤ：Singular Value Decomposition）により基本行列を分解してカメラＣＡＭの外部パラメータ（回転行列、並進ベクトル）を算出する。基本行列は、カメラＣＡＭの内部パラメータと外部パラメータのうちの外部パラメータのみの情報を含み、２つのカメラＣＡＭ間の相対的な位置および姿勢を示す。

例えば、外部パラメータ推定部６２０ａは、既知のカメラＣＡＭの内部パラメータとステップＳ４４０で算出した基礎行列とに基づいて基本行列を算出する。そして、外部パラメータ推定部６２０ａは、特異値分解（ＳＶＤ）により基本行列を分解して、カメラＣＡＭａ、ＣＡＭｂ間の相対的な位置および姿勢を示す回転行列および並進ベクトルを算出する。これにより、カメラＣＡＭの外部ベクトルが算出される。ステップＳ４５０の処理の終了により、カメラＣＡＭａ、ＣＡＭｂのペアに対する第１算出処理は、終了する。

このように、外部パラメータ推定部６２０ａは、ステップＳ４２０で決定した画像ＩＭＧａ、ＩＭＧｂ間の第１対応点およびステップＳ４３０で決定した画像ＩＭＧａ、ＩＭＧｂ間の第２対応点に基づいて、カメラＣＡＭの外部パラメータを算出する。外部パラメータ推定部６２０ａは、特徴点等の対応付けに骨格点ＢＰを用いない場合に比べて、画像ＩＭＧａ、ＩＭＧｂ間の対応点が正確に特定されるため、カメラＣＡＭの外部パラメータをフレーム毎または数フレームおきに精度よく算出できる。

なお、第１算出処理は、図７に示す例に限定されない。例えば、外部パラメータ推定部６２０ａは、ステップＳ４４０において、９個以上の対応点を用いて基礎行列を算出してもよい。

以上、図３から図７に示す実施形態においても、図１および図２に示した実施形態と同様の効果を得ることができる。例えば、推定装置１２は、自然特徴点の他に、人物ＰＮの骨格点ＢＰを、複数のカメラＣＡＭから取得した画像ＩＭＧの各々から抽出する。そして、推定装置１２は、２つの画像ＩＭＧから抽出された自然特徴点を対応付けて２つの画像ＩＭＧ間の第１対応点を決定する。さらに、推定装置１２は、画像ＩＭＧから抽出した骨格点ＢＰに基づいて、人物ＰＮの関節の角度θおよび関節間の長さＬの少なくとも一方を含む人物情報を生成する。そして、推定装置１２は、人物情報を用いて、２つの画像ＩＭＧの一方から抽出した骨格点ＢＰと２つの画像ＩＭＧの他方から抽出した骨格点ＢＰとを対応付けて２つの画像ＩＭＧ間の第２対応点を決定する。これにより、２つの画像ＩＭＧ間の対応点として、第１対応点および第２対応点が特定される。推定装置１２は、自然特徴点と骨格点ＢＰとを用いて画像ＩＭＧ間の対応点を決定するため、特徴点等を誤って対応付けることを抑制でき、誤った対応点を用いてカメラＣＡＭの外部パラメータを推定することを抑制できる。これにより、カメラＣＡＭの外部パラメータの推定精度が低下することを抑制することができる。

また、例えば、推定装置１２は、スポーツシーンにおいて、カメラＣＡＭの姿勢または位置が試合中に変化した場合でも、カメラＣＡＭの姿勢または位置が変化した後に取得した画像ＩＭＧから、カメラＣＡＭの外部パラメータを推定できる。したがって、推定装置１２は、カメラＣＡＭの姿勢または位置が変化した場合でも、カメラＣＡＭの姿勢または位置の変化に応じて、カメラＣＡＭの外部パラメータを精度よく推定できる。すなわち、推定装置１２は、カメラＣＡＭの姿勢または位置が撮影期間中に変化した場合でも、カメラＣＡＭの外部パラメータを精度よく推定できる。

図８は、カメラの外部パラメータの推定方法、推定装置および推定プログラムの別の実施形態を示す。図１から図７で説明した要素と同一または同様の要素については、同一または同様の符号を付し、これ等については、詳細な説明を省略する。図８に示す推定装置１４は、例えば、複数のカメラＣＡＭと自由視点映像生成部２０とともに、自由視点映像生成システムＳＹＳに含まれる。推定装置１４は、図３で説明した推定装置１２と同様に、カメラＣＡＭの外部パラメータを推定するキャリブレーションを実行する。例えば、推定装置１４は、被写体を互いに異なる位置から撮影する複数のカメラＣＡＭの外部パラメータを推定し、推定した外部パラメータを自由視点映像生成部２０に転送する。自由視点映像生成部２０は、複数のカメラＣＡＭでそれぞれ撮影された画像ＩＭＧと推定装置１４により推定されたカメラＣＡＭの外部パラメータ等を用いて、自由視点映像を生成する。すなわち、推定装置１４により推定されたカメラＣＡＭの外部パラメータは、自由視点映像を生成するために用いられる。図８に示す例では、複数のカメラＣＡＭは、図３に示した複数のカメラＣＡＭと同様に、被写体を囲むように配置される。なお、図８では、図を見やすくするために、図３に示したカメラＣＡＭｎ等の記載を省略している。

推定装置１４は、図３に示したプロセッサ１０２の代わりにプロセッサ１０４を有することを除いて、図３に示した推定装置１２と同一または同様である。例えば、推定装置１４は、コンピュータ等の情報処理装置により実現され、プロセッサ１０４およびメモリ１０００を有する。プロセッサ１０４およびメモリ１０００は、バスＢＵＳに接続される。なお、メモリ１０００には、学習データＬＤＰの他に、後述する追加特徴抽出部３２０（３２０ａ、３２０ｂ、・・・）に使用される学習データＬＤＡが格納される。

図８では、図３と同様に、各骨格抽出部３０２とバスＢＵＳとの間のデータ経路の一部を破線で示す。また、図８では、学習データＬＤＡは、メモリ１０００からバスＢＵＳを介して各追加特徴抽出部３２０に転送されるため、各追加特徴抽出部３２０とバスＢＵＳとの間のデータ経路の一部を破線で示す。なお、学習データＬＤＰ、ＬＤＡは、推定装置１４の記憶装置のうちのメモリ１０００以外の記憶装置に格納されてもよく、推定装置１４の外部の記憶装置に格納されてもよい。

プロセッサ１０４は、例えば、メモリ１０００に格納される推定プログラム（カメラＣＡＭの外部パラメータの推定プログラム）を実行し、推定装置１４の動作を制御する。なお、推定プログラムは、推定装置１４の記憶装置のうちのメモリ１０００以外の記憶装置に格納されてもよく、推定装置１４の外部の記憶装置に格納されてもよい。また、推定プログラムは、ＣＤ−ＲＯＭ、ＤＶＤ、ＵＳＢメモリ等のコンピュータにより読み取り可能な記録媒体ＲＥＣに格納されてもよい。この場合、記録媒体ＲＥＣに格納された推定プログラムは、推定装置１４に設けられる図示しない入出力インタフェースを介して記録媒体ＲＥＣからメモリ１０００等に転送される。なお、推定プログラムは、記録媒体ＲＥＣから図示しないハードディスクに転送された後、ハードディスクからメモリ１０００に転送されてもよい。

プロセッサ１０４は、図３に示したプロセッサ１０２と同様に、推定プログラムを実行することにより、複数の特徴点抽出部２０２等の機能を実現する。なお、プロセッサ１０４は、図３に示した複数の骨格対応付け部５０２の代わりに複数の骨格対応付け部５０４（５０４ａ、５０４ｂ、・・・）の機能を実現する。さらに、プロセッサ１０４は、図３に示したプロセッサ１０２が実現する機能に追加して、複数の追加特徴抽出部３２０（３２０ａ、３２０ｂ、・・・）および複数の対応付け補助部５２０（５２０ａ、５２０ｂ、・・・）の機能を実現する。なお、複数の特徴点抽出部２０２、複数の骨格抽出部３０２、複数の追加特徴抽出部３２０、複数の特徴点対応付け部４０２、複数の骨格対応付け部５０４、複数の対応付け補助部５２０および推定部６０２は、ハードウェアのみで実現されてもよい。

このように、推定装置１４では、複数の骨格対応付け部５０４が図３に示した複数の骨格対応付け部５０２の代わりに設けられ、複数の追加特徴抽出部３２０および複数の対応付け補助部５２０が図３に示した推定装置１２に追加される。推定装置１４のその他の構成は、図３に示した推定装置１２と同一または同様である。例えば、推定装置１４は、複数の特徴点抽出部２０２、複数の骨格抽出部３０２、複数の追加特徴抽出部３２０、複数の特徴点対応付け部４０２、複数の骨格対応付け部５０４、複数の対応付け補助部５２０および推定部６０２を有する。

複数の特徴点抽出部２０２の各々は、図３に示した複数の特徴点抽出部２０２の各々と同一または同様である。複数の骨格抽出部３０２の各々は、図３に示した複数の骨格抽出部３０２の各々と同一または同様である。複数の特徴点対応付け部４０２の各々は、図３に示した複数の特徴点対応付け部４０２の各々と同一または同様である。

複数の追加特徴抽出部３２０の各々は、複数のカメラＣＡＭの各々に対応して設けられ、対応するカメラＣＡＭから画像ＩＭＧを順次取得する。すなわち、複数の追加特徴抽出部３２０の各々は、複数の特徴点抽出部２０２の各々に対応して設けられ、対応する特徴点抽出部２０２に転送される画像ＩＭＧを取得する。このように、各カメラＣＡＭで撮影された画像ＩＭＧは、対応する特徴点抽出部２０２、骨格抽出部３０２および追加特徴抽出部３２０に転送される。そして、各追加特徴抽出部３２０は、対応するカメラＣＡＭから取得した画像ＩＭＧから、骨格以外の人物ＰＮの特徴を示す追加特徴点を抽出する。

追加特徴点は、例えば、人物ＰＮの顔を示す顔特徴点および人物ＰＮに着用された服飾を示す服飾特徴点の少なくとも１つを含む。また、服飾特徴点は、例えば、服飾上に設けられ、人物ＰＮを識別する識別情報と、人物ＰＮに着用されたシューズとの少なくとも１つを示す。例えば、識別情報は、背番号および人物ＰＮの名前のいずれかである。なお、複数のカメラＣＡＭにより球技が撮影される場合、追加特徴点は、ボールを示すボール特徴点を含んでもよい。

各追加特徴抽出部３２０は、例えば、人物ＰＮの顔の画像データ、人物ＰＮに着用された服飾の画像データ等を含む学習データＬＤＡを、バスＢＵＳを介してメモリ１０００から受ける。そして、各追加特徴抽出部３２０は、学習データＬＤＡに基づいて、画像ＩＭＧ中の人物ＰＮの顔を示す顔特徴点および人物ＰＮに着用された服飾を示す服飾特徴点の少なくとも１つを含む追加特徴点を抽出する。

なお、各追加特徴抽出部３２０は、複数のカメラＣＡＭにより球技が撮影される場合、ボールを示すボール特徴点を追加特徴点として抽出してもよい。例えば、各追加特徴抽出部３２０は、人物ＰＮの顔の画像データ、服飾の画像データおよびボールの画像データ等を含む学習データＬＤＡに基づいて、画像ＩＭＧ中の人物ＰＮの顔特徴点、服飾特徴点およびボール特徴点等を追加特徴点として抽出してもよい。

ここで、画像中の人物ＰＮの顔を認識する方法は、例えば、Peiyun Hu, Deva Ramanan, “Finding Tiny Faces”, in arXiv pre-print 1612.04402, 2016、［平成２９年９月４日検索］、インターネット＜ＵＲＬ：
1511929379642_1.pdf
＞に開示されている。

複数の対応付け補助部５２０の各々は、互いに隣接するカメラＣＡＭのペアに対応して設けられる。すなわち、複数の対応付け補助部５２０の各々は、追加特徴抽出部３２０のペアに対応して設けられる。例えば、各対応付け補助部５２０は、対応する追加特徴抽出部３２０のペアの各々から、画像ＩＭＧ中の人物ＰＮの追加特徴点（例えば、人物ＰＮの顔、人物ＰＮに着用された服飾等）を示す追加特徴情報を受ける。そして、各対応付け補助部５２０は、追加特徴抽出部３２０のペアの一方から受けた追加情報で示される追加特徴点と追加特徴抽出部３２０のペアの他方から受けた追加情報で示される追加特徴点とを対応付けて２つの画像ＩＭＧ間の追加対応点を決定する。例えば、対応付け補助部５２０ａは、追加特徴抽出部３２０ａにより抽出された追加特徴点と、追加特徴抽出部３２０ｂにより抽出された追加特徴点との間で、類似する特徴（類似する顔、類似する服飾等）をペアにする。これにより、互いに隣接するカメラＣＡＭａ、ＣＡＭｂでそれぞれ撮影された２つの画像ＩＭＧ間の追加対応点（追加特徴点のペア）が特定される。複数の対応付け補助部５２０の各々は、対応する骨格対応付け部５０４に追加対応点を示す情報を転送する。

複数の骨格対応付け部５０４の各々は、対応する対応付け補助部５２０で決定された追加対応点を２つの画像ＩＭＧ間の第２対応点の決定に用いることを除いて、図３に示した複数の骨格対応付け部５０２の各々と同一または同様である。すなわち、複数の骨格対応付け部５０４の各々は、２つの画像ＩＭＧ間の追加対応点を用いて、２つの画像ＩＭＧの一方から抽出された骨格点ＢＰと２つの画像ＩＭＧの他方から抽出された骨格点ＢＰとを対応付けて２つの画像ＩＭＧ間の第２対応点を決定する。例えば、各骨格対応付け部５０４は、２つの画像ＩＭＧ間の追加対応点により対応付けられた人物ＰＮに対しては、対応付けられた人物ＰＮ間の対応付け評価値（関節の角度θ等の差分の絶対値和）に基づいて、同一人物か否かを判定する。なお、各骨格対応付け部５０４は、追加特徴点の対応付け先が互いに存在しない人物ＰＮに対しては、追加特徴点の対応付け先が互いに存在しない人物ＰＮ間の対応付け評価値（関節の角度θ等の差分の絶対値和）に基づいて、同一人物か否かを判定してもよい。

例えば、図５に示した画像ＩＭＧａ中の人物ＰＮ５ａの背番号と画像ＩＭＧｂ中の人物ＰＮ３ｂの背番号とが異なる場合、人物ＰＮ５ａの追加特徴点と人物ＰＮ３ｂの追加特徴点とはペアにならない。なお、画像ＩＭＧｂ中の人物ＰＮ３ｂの追加特徴点は、背番号が一致する画像ＩＭＧａ中の人物ＰＮ３ａの追加特徴点と対応付けられる。関節の角度θおよび関節間の長さＬが人物ＰＮ５ａ、ＰＮ３ｂ間で類似する場合でも、人物ＰＮ３ｂの追加特徴点が人物ＰＮ５ａ以外の人物ＰＮ３ａの追加特徴点に対応付けられているため、人物ＰＮ５ａと人物ＰＮ３ｂとが同一人物とは判定されない。この場合、骨格対応付け部５０４ａは、人物ＰＮ３ａの追加特徴点と人物ＰＮ３ｂの追加特徴点とが対応付けられ、かつ、関節の角度θおよび関節間の長さＬが人物ＰＮ３ａ、ＰＮ３ｂ間で類似するため、人物ＰＮ３ａと人物ＰＮ３ｂとが同一人物と判定する。骨格対応付け部５０４ａは、画像ＩＭＧａ、ＩＭＧｂ間の追加対応点を用いることにより、人物ＰＮ５ａと人物ＰＮ３ｂとが同一人物であると誤って判定することを抑制できる。

また、例えば、図５に示す画像ＩＭＧａ、ＩＭＧｂにおいて、ボール特徴点が抽出された場合、対応付け補助部５２０ａは、画像ＩＭＧａ中の人物ＰＮ１ａが保持するボールと画像ＩＭＧｂ中の人物ＰＮ１ｂが保持するボールとを対応付ける。これにより、画像ＩＭＧａ、ＩＭＧｂ間のボール特徴点のペアが画像ＩＭＧａ、ＩＭＧｂ間の追加対応点として特定される。この結果、例えば、人物ＰＮ１の体型および姿勢に類似する人物ＰＮが存在する場合でも、骨格対応付け部５０４ａは、ボール特徴点のペア（追加対応点）に基づいて、画像ＩＭＧａ中の人物ＰＮ１ａと画像ＩＭＧｂ中の人物ＰＮ１ｂとを対応付けることができる。

このように、推定装置１４は、追加特徴点を用いて、２つの画像ＩＭＧ間の第２対応点を決定する。

推定部６０２は、図３に示した推定部６０２と同一または同様である。すなわち、推定部６０２が有する複数の外部パラメータ推定部６２０の各々は、図３に示した複数の外部パラメータ推定部６２０の各々と同一または同様である。

なお、推定装置１４の構成は、図８に示す例に限定されない。例えば、カメラＣＡＭで撮影された画像ＩＭＧを受信し、カメラＣＡＭから受信した画像ＩＭＧを特徴点抽出部２０２、骨格抽出部３０２および追加特徴抽出部３２０にバスＢＵＳを介して転送するインタフェースが推定装置１４に含まれてもよい。また、追加特徴抽出部３２０は、複数のカメラＣＡＭにより球技が撮影されるか否かに拘わらず、ボールを示すボール特徴点を抽出するための処理を実行してもよい。また、例えば、プロセッサ１０４は、自由視点映像を生成するプログラムを実行することにより、自由視点映像生成部２０の機能を実現してもよい。

図９は、図８に示した推定装置１４の動作の一例を示す。図９に示す動作は、カメラＣＡＭの外部パラメータの推定方法の一例である。また、図９に示す動作をコンピュータ等の推定装置１４に実行させるためのプログラムは、カメラＣＡＭの外部パラメータの推定プログラムの一例である。図９に示す動作は、カメラＣＡＭで撮影される映像のフレーム毎に実行される。なお、図９に示す動作は、数フレームおきに実行されてもよい。図６で説明したステップと同一または同様のステップについては、同一または同様の符号を付し、これ等については、詳細な説明を省略する。

図９に示す動作は、図６に示したステップＳ４００の第１算出処理の代わりにステップＳ４０２の第１算出処理が実行されることを除いて、図６に示した動作と同一または同様である。ステップＳ４０２の第１算出処理は、２つの画像ＩＭＧ間の第２対応点の決定に追加特徴点を用いることを除いて、図６に示したステップＳ４００の第１算出処理と同一または同様である。ステップＳ４０２の第１算出処理の詳細は、図１０で説明する。

図１０は、図９に示した第１算出処理（ステップＳ４０２）の一例を示す。なお、図１０に示す第１算出処理は、互いに隣接するカメラＣＡＭの１ペアに対する第１算出処理である。例えば、図１０に示す第１算出処理は、互いに隣接するカメラＣＡＭのペア毎に並列に実行される。なお、図１０に示す第１算出処理は、互いに隣接するカメラＣＡＭのペア毎に順次実行されてもよい。図７で説明したステップと同一または同様のステップについては、同一または同様の符号を付し、これ等については、詳細な説明を省略する。

図１０に示す第１算出処理では、ステップＳ４１２の処理が図７に示した第１算出処理に追加される。そして、図１０に示す第１算出処理は、図７に示したステップＳ４３０の処理の代わりにステップＳ４３２の処理を含む。図１０に示す第１算出処理のその他の処理は、図７に示した第１算出処理と同一または同様である。図１０では、図７と同様に、カメラＣＡＭａ、ＣＡＭｂのペアに対する第１算出処理を説明する。

ステップＳ４１０において、カメラＣＡＭａ、ＣＡＭｂのペアから取得した画像ＩＭＧａ、ＩＭＧｂの両方から人物ＰＮの骨格点ＢＰが抽出されたと骨格対応付け部５０４ａが判定した場合、推定装置１４は、ステップＳ４１２の処理を実行する。なお、ペアの画像ＩＭＧａ、ＩＭＧｂの少なくとも一方から人物ＰＮの骨格点ＢＰが抽出されない場合、図７で説明したように、カメラＣＡＭａ、ＣＡＭｂのペアに対する第１算出処理は、終了する。

ステップＳ４１２では、追加特徴抽出部３２０ａは、カメラＣＡＭａで撮影された画像ＩＭＧａから追加特徴点（例えば、人物ＰＮの顔、人物ＰＮに着用された服飾等を示す特徴点）を抽出する。例えば、追加特徴抽出部３２０ａは、学習データＬＤＡに基づいて、画像ＩＭＧａ中の人物ＰＮの顔を示す顔特徴点および人物ＰＮに着用された服飾を示す服飾特徴点の少なくとも１つを含む追加特徴点を抽出する。ステップＳ４１２の処理が実行された後、推定装置１４の動作は、ステップＳ４２０に移る。そして、ステップＳ４２０の処理が実行された後、推定装置１４の動作は、ステップＳ４３２に移る。

ステップＳ４３２では、骨格対応付け部５０４ａは、ステップＳ４１２で抽出された追加特徴点を用いて、ペアの画像ＩＭＧａ、ＩＭＧｂの各々から抽出された骨格点ＢＰを対応付けて画像ＩＭＧａ、ＩＭＧｂ間の第２対応点を決定する。例えば、骨格対応付け部５０４ａは、図８で説明したように、画像ＩＭＧａ、ＩＭＧｂ間の追加対応点を用いて、画像ＩＭＧａから抽出された骨格点ＢＰと画像ＩＭＧｂから抽出された骨格点ＢＰとを対応付けて画像ＩＭＧａ、ＩＭＧｂ間の第２対応点を決定する。これにより、画像ＩＭＧａ、ＩＭＧｂ間の対応点として、第２対応点が、第１対応点とは別に特定される。骨格対応付け部５０４ａは、画像ＩＭＧａ、ＩＭＧｂ間の追加特徴点のペアを用いて骨格点ＢＰの対応付けを決定するため、体型および姿勢が類似する人物ＰＮが存在する場合でも、追加特徴点を用いない場合に比べて、骨格点ＢＰの対応付けを正確にできる。

ステップＳ４３２の処理が実行された後、推定装置１４の動作は、ステップＳ４４０に移る。そして、ステップＳ４４０の処理が実行された後、推定装置１４の動作は、ステップＳ４５０に移る。ステップＳ４５０の処理の終了により、カメラＣＡＭａ、ＣＡＭｂのペアに対する第１算出処理は、終了する。

推定装置１４は、追加特徴点を第２対応点の決定に用いない場合に比べて、画像ＩＭＧａ、ＩＭＧｂ間の第２対応点を正確に特定できるため、カメラＣＡＭの外部パラメータをフレーム毎または数フレームおきに精度よく算出できる。なお、第１算出処理は、図１０に示す例に限定されない。例えば、ステップＳ４２０の処理は、ステップＳ４１２の処理より前に実効されてもよい。

以上、図８から図１０に示す実施形態においても、図１から図７に示した実施形態と同様の効果を得ることができる。例えば、推定装置１４は、自然特徴点の他に、人物ＰＮの骨格点ＢＰを用いて画像ＩＭＧ間の対応点を決定するため、特徴点等を誤って対応付けることを抑制でき、誤った対応点を用いてカメラＣＡＭの外部パラメータを推定することを抑制できる。

さらに、推定装置１４は、自然特徴点および骨格点ＢＰの他に、骨格点ＢＰ以外の人物ＰＮの特徴を示す追加特徴点を複数のカメラＣＡＭから取得した画像ＩＭＧの各々から抽出する。そして、推定装置１４は、人物ＰＮの関節の角度θおよび関節間の長さＬの少なくとも一方を含む人物情報と、人物ＰＮの追加特徴点とを用いて、２つの画像ＩＭＧ間で骨格点ＢＰを対応付けて２つの画像ＩＭＧ間の第２対応点を決定する。これにより、推定装置１４は、追加特徴点を第２対応点の決定に用いない場合に比べて、２つの画像ＩＭＧ間の第２対応点を正確に特定できる。すなわち、推定装置１４は、誤った第２対応点等を用いてカメラＣＡＭの外部パラメータを推定することを抑制できる。この結果、カメラＣＡＭの外部パラメータの推定精度が低下することを抑制することができる。

また、例えば、推定装置１４は、スポーツシーンにおいて、カメラＣＡＭの姿勢または位置が試合中に変化した場合でも、カメラＣＡＭの姿勢または位置が変化した後に取得した画像ＩＭＧから、カメラＣＡＭの外部パラメータを推定できる。したがって、推定装置１４は、カメラＣＡＭの姿勢または位置が変化した場合でも、カメラＣＡＭの姿勢または位置の変化に応じて、カメラＣＡＭの外部パラメータを精度よく推定できる。すなわち、推定装置１２は、カメラＣＡＭの姿勢または位置が撮影期間中に変化した場合でも、カメラＣＡＭの外部パラメータを精度よく推定できる。

以上の実施形態において説明した発明を整理して、付記として以下の通り開示する。
（付記１）
被写体を互いに異なる位置から撮影する複数のカメラの外部パラメータを推定する推定方法において、
前記複数のカメラの各々から取得した画像から、撮影された空間の特徴点を抽出し、
前記複数のカメラの各々から取得した画像から人物の骨格を抽出し、
前記複数のカメラから取得した複数の画像のうちの２つの画像のペア毎に、前記２つの画像の一方から抽出した前記特徴点と前記２つの画像の他方から抽出した前記特徴点とを対応付けて前記２つの画像間の第１対応点を決定し、
前記２つの画像のペア毎に、前記２つの画像の一方から抽出した前記骨格と前記２つの画像の他方から抽出した前記骨格とを対応付けて前記２つの画像間の第２対応点を決定し、
前記２つの画像間の前記第１対応点および前記第２対応点に基づいて、カメラの外部パラメータを推定する
ことを特徴とする推定方法。
（付記２）
付記１に記載の推定方法において、
画像から抽出した前記骨格に基づいて、人物の関節の角度および関節間の長さの少なくとも一方を含む人物情報を生成し、
前記人物情報を用いて、前記２つの画像の一方から抽出した前記骨格と前記２つの画像の他方から抽出した前記骨格とを対応付けて前記２つの画像間の前記第２対応点を決定する
ことを特徴とするカメラの外部パラメータの推定方法。
（付記３）
付記１または付記２に記載の推定方法において、
前記複数のカメラの各々から取得した画像から、前記骨格以外の人物の特徴を示す追加特徴点を抽出し、
前記追加特徴点を用いて、前記２つの画像の一方から抽出した前記骨格と前記２つの画像の他方から抽出した前記骨格とを対応付けて前記２つの画像間の前記第２対応点を決定する
ことを特徴とするカメラの外部パラメータの推定方法。
（付記４）
付記３に記載の推定方法において、
前記追加特徴点は、人物の顔を示す顔特徴点および人物に着用された服飾を示す服飾特徴点の少なくとも１つを含む
ことを特徴とする推定方法。
（付記５）
付記４に記載の推定方法において、
前記服飾特徴点は、前記服飾上に設けられ、人物を識別する識別情報と、人物に着用されたシューズとの少なくとも１つを示す
ことを特徴とする推定方法。
（付記６）
付記５に記載の推定方法において、
前記識別情報は、背番号および人物の名前のいずれかである
ことを特徴とする推定方法。
（付記７）
付記３ないし付記６のいずれか１項に記載の推定方法において、
前記複数のカメラにより球技が撮影される場合、前記追加特徴点は、ボールを示すボール特徴点を含む
ことを特徴とするカメラの外部パラメータの推定方法。
（付記８）
付記１ないし付記７のいずれか１項に記載の推定方法において、
前記外部パラメータは、任意の視点の自由視点映像を生成するために用いられる
ことを特徴とする推定方法。
（付記９）
被写体を互いに異なる位置から撮影する複数のカメラの外部パラメータを推定する推定装置において、
前記複数のカメラの各々から取得した画像から、撮影された空間の特徴点を抽出する特徴点抽出部と、
前記複数のカメラの各々から取得した画像から人物の骨格を抽出する骨格抽出部と、
前記複数のカメラから取得した複数の画像のうちの２つの画像のペア毎に、前記２つの画像の一方から抽出した前記特徴点と前記２つの画像の他方から抽出した前記特徴点とを対応付けて前記２つの画像間の第１対応点を決定する特徴点対応付け部と、
前記２つの画像のペア毎に、前記２つの画像の一方から抽出した前記骨格と前記２つの画像の他方から抽出した前記骨格とを対応付けて前記２つの画像間の第２対応点を決定する骨格対応付け部と、
前記２つの画像間の前記第１対応点および前記第２対応点に基づいて、カメラの外部パラメータを推定する推定部と
を有することを特徴とする推定装置。
（付記１０）
被写体を互いに異なる位置から撮影する複数のカメラの外部パラメータの推定プログラムにおいて、
前記複数のカメラの各々から取得した画像から、撮影された空間の特徴点を抽出し、
前記複数のカメラの各々から取得した画像から人物の骨格を抽出し、
前記複数のカメラから取得した複数の画像のうちの２つの画像のペア毎に、前記２つの画像の一方から抽出した前記特徴点と前記２つの画像の他方から抽出した前記特徴点とを対応付けて前記２つの画像間の第１対応点を決定し、
前記２つの画像のペア毎に、前記２つの画像の一方から抽出した前記骨格と前記２つの画像の他方から抽出した前記骨格とを対応付けて前記２つの画像間の第２対応点を決定し、
前記２つの画像間の前記第１対応点および前記第２対応点に基づいて、カメラの外部パラメータを推定する
処理をコンピュータに実行させるための推定プログラム。
（付記１１）
被写体を互いに異なる位置から撮影する複数のカメラの外部パラメータの推定プログラムを記録した記録媒体であって、
前記複数のカメラの各々から取得した画像から、撮影された空間の特徴点を抽出し、
前記複数のカメラの各々から取得した画像から人物の骨格を抽出し、
前記複数のカメラから取得した複数の画像のうちの２つの画像のペア毎に、前記２つの画像の一方から抽出した前記特徴点と前記２つの画像の他方から抽出した前記特徴点とを対応付けて前記２つの画像間の第１対応点を決定し、
前記２つの画像のペア毎に、前記２つの画像の一方から抽出した前記骨格と前記２つの画像の他方から抽出した前記骨格とを対応付けて前記２つの画像間の第２対応点を決定し、
前記２つの画像間の前記第１対応点および前記第２対応点に基づいて、カメラの外部パラメータを推定する
処理をコンピュータに実行させるための推定プログラムを記録した記録媒体。

以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。

１０、１２、１４‥推定装置；２０‥自由視点映像生成部；１００、１０２、１０４‥プロセッサ；２００、２０２‥特徴点抽出部；３００、３０２‥骨格抽出部；３２０‥追加特徴抽出部；４００、４０２‥特徴点対応付け部；５００、５０２、５０４‥骨格対応付け部；５２０‥対応付け補助部；６００、６０２‥推定部；６２０‥外部パラメータ推定部；１０００‥メモリ；ＢＵＳ‥バス；ＣＡＭ‥カメラ；ＲＥＣ‥記録媒体；ＳＹＳ‥自由視点映像生成システム

Claims

被写体を互いに異なる位置から撮影する複数のカメラの外部パラメータを推定する推定方法において、
前記複数のカメラの各々から取得した画像から、撮影された空間の特徴点を抽出し、
前記複数のカメラの各々から取得した画像から人物の骨格を抽出し、
前記複数のカメラから取得した複数の画像のうちの２つの画像のペア毎に、前記２つの画像の一方から抽出した前記特徴点と前記２つの画像の他方から抽出した前記特徴点とを対応付けて前記２つの画像間の第１対応点を決定し、
前記２つの画像のペア毎に、前記２つの画像の一方から抽出した前記骨格と前記２つの画像の他方から抽出した前記骨格とを対応付けて前記２つの画像間の第２対応点を決定し、
前記２つの画像間の前記第１対応点および前記第２対応点に基づいて、カメラの外部パラメータを推定する
ことを特徴とする推定方法。
請求項１に記載の推定方法において、
画像から抽出した前記骨格に基づいて、人物の関節の角度および関節間の長さの少なくとも一方を含む人物情報を生成し、
前記人物情報を用いて、前記２つの画像の一方から抽出した前記骨格と前記２つの画像の他方から抽出した前記骨格とを対応付けて前記２つの画像間の前記第２対応点を決定する
ことを特徴とするカメラの外部パラメータの推定方法。
請求項１または請求項２に記載の推定方法において、
前記複数のカメラの各々から取得した画像から、前記骨格以外の人物の特徴を示す追加特徴点を抽出し、
前記追加特徴点を用いて、前記２つの画像の一方から抽出した前記骨格と前記２つの画像の他方から抽出した前記骨格とを対応付けて前記２つの画像間の前記第２対応点を決定する
ことを特徴とするカメラの外部パラメータの推定方法。
請求項３に記載の推定方法において、
前記追加特徴点は、人物の顔を示す顔特徴点および人物に着用された服飾を示す服飾特徴点の少なくとも１つを含む
ことを特徴とする推定方法。
請求項４に記載の推定方法において、
前記服飾特徴点は、前記服飾上に設けられ、人物を識別する識別情報と、人物に着用されたシューズとの少なくとも１つを示す
ことを特徴とする推定方法。
請求項５に記載の推定方法において、
前記識別情報は、背番号および人物の名前のいずれかである
ことを特徴とする推定方法。
請求項３ないし請求項６のいずれか１項に記載の推定方法において、
前記複数のカメラにより球技が撮影される場合、前記追加特徴点は、ボールを示すボール特徴点を含む
ことを特徴とするカメラの外部パラメータの推定方法。
請求項１ないし請求項７のいずれか１項に記載の推定方法において、
前記外部パラメータは、任意の視点の自由視点映像を生成するために用いられる
ことを特徴とする推定方法。
被写体を互いに異なる位置から撮影する複数のカメラの外部パラメータを推定する推定装置において、
前記複数のカメラの各々から取得した画像から、撮影された空間の特徴点を抽出する特徴点抽出部と、
前記複数のカメラの各々から取得した画像から人物の骨格を抽出する骨格抽出部と、
前記複数のカメラから取得した複数の画像のうちの２つの画像のペア毎に、前記２つの画像の一方から抽出した前記特徴点と前記２つの画像の他方から抽出した前記特徴点とを対応付けて前記２つの画像間の第１対応点を決定する特徴点対応付け部と、
前記２つの画像のペア毎に、前記２つの画像の一方から抽出した前記骨格と前記２つの画像の他方から抽出した前記骨格とを対応付けて前記２つの画像間の第２対応点を決定する骨格対応付け部と、
前記２つの画像間の前記第１対応点および前記第２対応点に基づいて、カメラの外部パラメータを推定する推定部と
を有することを特徴とする推定装置。
被写体を互いに異なる位置から撮影する複数のカメラの外部パラメータの推定プログラムにおいて、
前記複数のカメラの各々から取得した画像から、撮影された空間の特徴点を抽出し、
前記複数のカメラの各々から取得した画像から人物の骨格を抽出し、
前記複数のカメラから取得した複数の画像のうちの２つの画像のペア毎に、前記２つの画像の一方から抽出した前記特徴点と前記２つの画像の他方から抽出した前記特徴点とを対応付けて前記２つの画像間の第１対応点を決定し、
前記２つの画像のペア毎に、前記２つの画像の一方から抽出した前記骨格と前記２つの画像の他方から抽出した前記骨格とを対応付けて前記２つの画像間の第２対応点を決定し、
前記２つの画像間の前記第１対応点および前記第２対応点に基づいて、カメラの外部パラメータを推定する
処理をコンピュータに実行させるための推定プログラム。