JP7274307B2

JP7274307B2 - 番組映像制作装置およびカメラモデル学習装置、ならびに、それらのプログラム

Info

Publication number: JP7274307B2
Application number: JP2019039127A
Authority: JP
Inventors: 秀樹三ツ峰; 正樹高橋; 智之三科; 宏菊池
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2023-05-16
Anticipated expiration: 2039-03-05
Also published as: JP2020145527A

Description

本発明は、ロボットカメラを用いてスポーツ番組の映像を制作する番組映像制作装置、動作モデル学習装置およびカメラモデル学習装置、ならびに、それらのプログラムに関する。

試合会場が広いスポーツの番組を制作する場合、試合状況を漏れなく中継するには、多くのカメラマン等のスタッフが必要となる場合が多い。
特に、ゴルフ競技のように大規模な試合会場の異なる場所（ホール）で、ほぼ同じ時間に、複数の選手がプレーを行う場合、漏れなく中継を行うことは困難である。そのため、注目される選手や、主要なホールを撮影対象に絞ることも多い。
このようなスポーツ中継を自動化して撮影する技術としては、ロボットカメラを用いて被写体を撮影する技術が存在する。例えば、ＧＰＳやビーコンを用いて被写体の位置を検出し、被写体を追跡して撮影する手法（非特許文献１，２参照）や、画像認識技術によって認識した被写体を追跡する手法（非特許文献３参照）等が存在する。
また、カメラをスイッチングする技術としては、映像中に映っている被写体等に予め与えたメタ情報から、時刻ごとにコスト関数を演算し、その値に応じて、映像を切り替える手法が存在する（非特許文献４，５参照）。

"SOLOSHOT"［online］，SOLOSHOT-JAPAN，［平成３１年２月５日検索］、インターネット＜ＵＲＬ：https://www.soloshot-japan.jp/＞ "PIXEM & PIXIO"［online］，MOVE’N SEE，［平成３１年２月５日検索］、インターネット＜ＵＲＬ：https://shop.movensee.com/＞岡田ほか、「ロボットのための高速視覚システム」、東芝レビュー、Vol.59、No.9、pp.29-32(2004). 藤澤ほか, 「キュレータの価値観に基づく複数映像情報流の実時間編纂支援システム」, 第22回マルチメディア通信と分散処理ワークショップ(DPSWS2014)論文集, pp.63-66, 2014. 藤澤ほか, 「複数カメラで撮影したスポーツ映像ストリームの実時間自動編纂システムの提案」, DICOMO2015シンポジウム論文集, pp.1010-1018, 2015.

従来の被写体を追跡して撮影する手法は、カメラのスイッチングを考慮したものではない。そのため、この手法は、被写体を追跡し、撮影し続けることは可能であるが、撮影される映像が１台のカメラの映像だけとなり、臨場感や迫力に欠けた映像となってしまうという問題がある。
また、従来の被写体が映っている映像をコスト関数の値によって切り替える手法は、映像内に何が映っているのかによってカメラのスイッチングを行っている。そのため、この手法は、例えば、選手が主体となるゴルフの打球前のスイング動作の映像、ゴルフボールが主体となる打球後のボールの映像等のカメラワークや映像の切り替えを行うことができず、競技の流れに伴う番組映像を制作することができないという問題がある。

本発明は、このような問題に鑑みてなされたものであり、選手、ボール等の被写体の動きに応じてロボットカメラのカメラワークやスイッチングを制御して番組映像を制作することが可能な番組映像制作装置およびカメラモデル学習装置、ならびに、それらのプログラムを提供することを課題とする。

前記課題を解決するため、本発明に係る番組映像制作装置は、移動物体を用いて行うスポーツの番組映像を複数のロボットカメラの撮影映像から制作する番組映像制作装置であって、３次元姿勢情報記憶手段と、姿勢推定手段と、移動物体検出手段と、インデックス推定手段と、カメラ制御情報推定手段と、カメラ制御手段と、映像切替手段と、を備える構成とした。

かかる構成において、番組映像制作装置は、３次元姿勢情報記憶手段に、スポーツを行う選手の予め定めた動作における時系列の３次元姿勢情報を予め複数記憶しておく。ここで、３次元姿勢情報は、姿勢を特定する関節位置の３次元座標である。
そして、番組映像制作装置は、姿勢推定手段によって、固定カメラが撮影する選手を含んだ映像のフレーム画像から、ＯｐｅｎＰｏｓｅ等の公知の手法によって選手の２次元姿勢情報を検出する。そして、番組映像制作装置は、姿勢推定手段によって、検出した２次元姿勢情報と、３次元姿勢情報記憶手段に記憶されている３次元姿勢情報を２次元座標に投影した２次元姿勢情報との誤差が最小となる３次元姿勢情報を選手の３次元姿勢情報と推定する。
また、番組映像制作装置は、移動物体検出手段によって、移動物体の速度および位置を移動物体情報として検出する。

さらに、番組映像制作装置は、インデックス推定手段によって、動作モデルを用いて、姿勢推定手段で推定された３次元姿勢情報から、予め定めた動作の時間位置を示すインデックスを推定する。この動作モデルは、選手の３次元姿勢情報からインデックスを推定する学習済みのニューラルネットワークのモデルである。
そして、番組映像制作装置は、カメラ制御情報推定手段によって、カメラモデルを用いて、姿勢推定手段で推定された３次元姿勢情報、移動物体検出手段で検出された移動物体情報、および、インデックス推定手段で推定されたインデックスからカメラワーク情報およびスイッチング情報を推定する。このカメラモデルは、３次元姿勢情報、移動物体情報およびインデックスからロボットカメラのカメラワーク情報およびスイッチング情報を推定する学習済みのニューラルネットワークのモデルである。

そして、番組映像制作装置は、カメラ制御手段によって、カメラワーク情報（パン、チルト、ズーム）に基づいて、複数のロボットカメラのカメラワークを制御する。
また、番組映像制作装置は、映像切替手段によって、スイッチング情報に基づいて、複数のロボットカメラが撮影する映像を切り替える。
なお、番組映像制作装置は、コンピュータを、前記した各手段として機能させるためのプログラムで動作させることができる。

また、前記課題を解決するため、本発明に係るカメラモデル学習装置は、移動物体を用いて行うスポーツの映像を複数のロボットカメラの撮影映像から制作するための前記ロボットカメラのカメラワーク情報およびスイッチング情報を推定するカメラモデルを学習するカメラモデル学習装置であって、３次元姿勢情報記憶手段と、姿勢推定手段と、移動物体検出手段と、インデックス推定手段と、カメラワーク情報入力手段と、スイッチング情報入力手段と、モデル学習手段と、を備える構成とした。

かかる構成において、カメラモデル学習装置は、３次元姿勢情報記憶手段に、スポーツを行う選手の予め定めた動作における時系列の３次元姿勢情報を予め複数記憶しておく。
そして、カメラモデル学習装置は、姿勢推定手段によって、固定カメラが撮影する選手を含んだ映像のフレーム画像から、選手の２次元姿勢情報を検出する。そして、カメラモデル学習装置は、姿勢推定手段によって、検出した２次元姿勢情報と、３次元姿勢情報記憶手段に記憶されている３次元姿勢情報を２次元座標に投影した２次元姿勢情報との誤差が最小となる３次元姿勢情報を選手の３次元姿勢情報と推定する。
また、カメラモデル学習装置は、移動物体検出手段によって、移動物体の速度および位置を移動物体情報として検出する。

さらに、カメラモデル学習装置は、インデックス推定手段によって、動作モデルを用いて、姿勢推定手段で推定された３次元姿勢情報から、予め定めた動作の時間位置を示すインデックスを推定する。
また、カメラモデル学習装置は、カメラワーク情報入力手段によって、カメラワーク情報およびスイッチング情報を推定する際の複数のロボットカメラと同じ位置に配置した、カメラマンが操作する複数の撮影カメラから、カメラワークを特定する情報であるカメラワーク情報を入力する。
また、カメラモデル学習装置は、スイッチング情報入力手段によって、複数の撮影カメラで撮影した映像をスイッチャが切り替えるスイッチング情報を入力する。

そして、カメラモデル学習装置は、モデル学習手段によって、選手の３次元姿勢情報、移動物体情報およびインデックスを入力し、カメラワーク情報およびスイッチング情報を出力するようにニューラルネットワークのカメラモデルを学習する。
なお、カメラモデル学習装置は、コンピュータを、前記した各手段として機能させるためのプログラムで動作させることができる。

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、カメラマンによるカメラワークやスイッチャによるスイッチングを予め学習したモデルを用いて、ロボットカメラのカメラワークや映像の切り替えを制御することができる。
これによって、本発明は、スポーツの競技進行に応じて、カメラマンやスイッチャによって生成される番組映像と同等の番組映像を、人手を介さずに生成することができる。

本発明の実施形態に係る番組映像制作装置を用いた映像制作システムの全体構成を示す構成図である。本発明の実施形態に係る番組映像制作装置の構成を示すブロック構成図である。動作の時間位置を特定するインデックスを推定するための動作モデルの構成例を示すネットワーク図である。インデックスの例を説明するための説明図である。カメラ制御情報（カメラワーク情報、スイッチング情報）を推定するためのカメラモデルの構成例を示すネットワーク図である。図２の姿勢推定手段における２次元姿勢情報から３次元姿勢情報を推定する手法を説明するための説明図である。本発明の実施形態に係る番組映像制作装置の動作を示すフローチャートである。本発明の実施形態に係る動作モデル学習装置の構成を示すブロック構成図である。図８のマッチング手段における動作データのマッチングの手法を説明するための説明図である。図８の平均化手段における動作データの平均化処理の手法を説明するための説明図である。本発明の実施形態に係る動作モデル学習装置の動作を示すフローチャートである。本発明の実施形態に係るカメラモデル学習装置の学習時のシステム構成を示す構成図である。本発明の実施形態に係るカメラモデル学習装置の構成を示すブロック構成図である。本発明の実施形態に係るカメラモデル学習装置の動作を示すフローチャートである。

以下、本発明の実施形態について図面を参照して説明する。
［映像制作システムの構成］
まず、図１を参照して、本発明の実施形態に係る番組映像制作装置を用いた映像制作システムＳの全体構成について説明する。

映像制作システムＳは、予め学習した複数のロボットカメラのカメラワークと映像のスイッチングとにより、選手やボール等の移動物体を撮影したスポーツの番組映像を制作するものである。
ここでは、スポーツとして、ゴルフを例に説明するが、選手と、選手が打ったり、投げたりするボール等の移動物体とを撮影可能なスポーツであれば、どのスポーツでもよい。例えば、砲丸投げ等の投てき競技、アーチェリー、カーリング等でもよい。この例示したスポーツの場合、移動物体は、砲丸、弓、ストーン等となる。
映像制作システムＳは、ゴルフ場のコース上に設置された複数のロボットカメラＲＣ（ＲＣ１，ＲＣ２）と、ティーグラウンドに設置されたセンサカメラＳＣと、番組映像制作装置１と、で構成される。

ロボットカメラＲＣは、外部からの制御信号によって、パン、チルト、ズームを制御して、撮影を行うカメラである。なお、ロボットカメラは、一般的なものであるため、詳細な説明は省略する。ここでは、ロボットカメラＲＣとして、２台のロボットカメラＲＣ１，ＲＣ２を例に説明するが、３台以上であっても構わない。
ロボットカメラＲＣは、番組映像制作装置１から制御信号を入力し、指示されたパン、チルト、ズームの各値に基づいたカメラワークを行い、撮影した映像を番組映像制作装置１に出力する。このロボットカメラＲＣが撮影する映像が、番組制作用の素材となる。

センサカメラＳＣは、被写体Ｏである選手Ｏ１の姿勢やボールＯ２の速度、位置等を計測するためのカメラ（固定カメラ）である。ここでは、センサカメラＳＣをステレオカメラで構成する。
センサカメラＳＣは、撮影した被写体映像ＳＶ１，ＳＶ２を番組映像制作装置１に出力する。このセンサカメラＳＣが撮影する１枚の映像（例えば、ＳＶ１）は、選手Ｏ１の姿勢を計測するための映像である。また、センサカメラＳＣが撮影するステレオ映像（ＳＶ１，ＳＶ２）は、ボールＯ２の速度および位置を計測するための映像である。

番組映像制作装置１は、センサカメラＳＣで撮影された映像から、選手Ｏ１の姿勢、ボールＯ２の速度、位置を計測してロボットカメラＲＣのカメラワークを制御するとともに、撮影映像のスイッチングを行って、番組映像を生成するものである。
番組映像制作装置１は、予め学習したニューラルネットワークによって、選手Ｏ１の姿勢、ボールＯ２の速度、位置から、ロボットカメラＲＣのカメラワークを決定し、制御信号によって、ロボットカメラＲＣにパン、チルト、ズームの各値を指示する。また、番組映像制作装置１は、ニューラルネットワークによって、カメラワークとともに、ロボットカメラＲＣが撮影した映像の切り替え（スイッチング）を決定し、映像を切り替えて番組映像を生成する。
なお、番組映像制作装置１が使用するニューラルネットワークは、選手Ｏ１の姿勢、ボールＯ２の位置等によって、予めカメラマンがロボットカメラＲＣを操作したカメラワーク、および、映像の切り替えを操作するスイッチャが行ったスイッチングを学習したものである。

このように、映像制作システムＳは、選手Ｏ１の姿勢、ボールＯ２の位置等によって、ロボットカメラＲＣをニューラルネットワークで学習したカメラワークで制御し、映像のスイッチングを行うことができる。
これによって、映像制作システムＳは、人手を介さずに、スポーツの番組映像を自動で制作することができる。

［番組映像制作装置の構成］
以下、図２を参照（適宜図１参照）して、番組映像制作装置１の構成について詳細に説明する。
図２に示すように、番組映像制作装置１は、３次元姿勢情報記憶手段１０と、動作モデル記憶手段１１と、カメラモデル記憶手段１２と、姿勢推定手段１３と、インデックス推定手段１４と、ボール情報検出手段１５と、カメラ制御情報推定手段１６と、カメラ制御手段１７と、映像切替手段１８と、を備える。

３次元姿勢情報記憶手段１０は、被写体である選手Ｏ１の３次元姿勢情報として、種々のポーズの関節位置である３次元座標を予め記憶しておくものである。
この３次元姿勢情報は、一般的なモーションキャプチャ等の姿勢計測手法を用いて、選手Ｏ１の関節位置を計測したデータである。３次元姿勢情報は、対象スポーツがゴルフであれば、ゴルフのショット前後の姿勢を複数の選手で計測しておく。

動作モデル記憶手段１１は、選手のある時点における動作を特定する番号（インデックス）を推定する動作モデル（具体的にはそのモデルパラメータ）を記憶するものである。例えば、図３に示すように、動作モデルＭ１は、ある時刻ｉの３次元姿勢情報における選手Ｏ１のインデックスＩｄｘ_ｉを推定するモデルである。
この動作モデルＭ１は、入力層ＩＬ、隠れ層ＨＬおよび出力層ＯＬを有する再帰型ニューラルネットワーク（ＲＮＮ）で構成することができる。

動作モデルＭ１の入力層ＩＬに入力するデータは、ある時刻ｉにおける予め定めた関節数ｊの関節位置の３次元座標（Ｐ１ｘ_ｉ，Ｐ１ｙ_ｉ，Ｐ１ｚ_ｉ）、（Ｐ２ｘ_ｉ，Ｐ２ｙ_ｉ，Ｐ２ｚ_ｉ）、…、（Ｐｊｘ_ｉ，Ｐｊｙ_ｉ，Ｐｊｚ_ｉ）である。
また、動作モデルＭ１の出力層ＯＬから出力されるデータは、先頭からのフレーム番号である時刻ｉにおけるインデックスＩｄｘ_ｉである。
インデックスは、選手Ｏ１のショット動作をある時間単位（例えば、映像のフレーム単位）に付した番号である。例えば、図４に示すように、インデックスは、ゴルフのスイングの開始から終了までのフレームに付した番号Ｉｄｘ_１～Ｉｄｘ_ｎである。
なお、動作モデルＭ１の学習については、後で図８を参照して説明する。

カメラモデル記憶手段１２は、ロボットカメラＲＣのカメラワーク情報およびスイッチング情報を推定するカメラモデル（具体的はそのモデルパラメータ）を記憶するものである。例えば、図５に示すように、カメラモデルＭ２は、ある時刻ｉのロボットカメラＲＣのカメラ制御情報を推定するモデルである。このカメラモデルＭ２は、入力層ＩＬ、隠れ層ＨＬおよび出力層ＯＬを有する再帰型ニューラルネットワーク（ＲＮＮ）で構成することができる。

カメラモデルＭ２の入力層ＩＬに入力するデータは、ある時刻ｉにおける予め定めた関節数ｊの関節位置の３次元座標（Ｐ１ｘ_ｉ，Ｐ１ｙ_ｉ，Ｐ１ｚ_ｉ）、（Ｐ２ｘ_ｉ，Ｐ２ｙ_ｉ，Ｐ２ｚ_ｉ）…（Ｐｊｘ_ｉ，Ｐｊｙ_ｉ，Ｐｊｚ_ｉ）、ボールＯ２の速度Ｖ_ｉ、位置（Ｘ_ｉ，Ｙ_ｉ，Ｚ_ｉ）、インデックスＩｄｘ_ｉである。
また、カメラモデルＭ２の出力層ＯＬから出力されるカメラ制御情報のうちのカメラワーク情報は、ある時刻ｉにおけるロボットカメラＲＣ１のパン値Ｃ１ｐ_ｉ、チルト値Ｃ１ｔ_ｉ、ズーム値Ｃ１ｚ_ｉ、および、ロボットカメラＲＣ２のパン値Ｃ２ｐ_ｉ、チルト値Ｃ２ｔ_ｉ、ズーム値Ｃ２ｚ_ｉである。
また、カメラモデルＭ２の出力層ＯＬから出力されるカメラ制御情報のうちのスイッチング情報は、ロボットカメラＲＣ１のＯＮ／ＯＦＦ情報Ｃ１ｓ_ｉ、および、ロボットカメラＲＣ２のＯＮ／ＯＦＦ情報Ｃ２ｓ_ｉである。このＯＮ／ＯＦＦ情報Ｃ１ｓ_ｉ，Ｃ２ｓ_ｉは、例えば、ＯＦＦ値“０”からＯＮ値“１”の範囲を示す実数である。
なお、カメラモデルＭ２の学習については、後で図１３を参照して説明する。

以上説明した３次元姿勢情報記憶手段１０、動作モデル記憶手段１１およびカメラモデル記憶手段１２は、半導体メモリ等の一般的な記憶媒体で構成することができる。各記憶手段は、必ずしも分離した記憶媒体で構成する必要はなく、１つの記憶媒体の記憶領域を区分して各データを記憶すればよい。

姿勢推定手段１３は、センサカメラ（固定カメラ）ＳＣで撮影した被写体映像ＳＶ１から、選手Ｏ１の３次元姿勢情報を推定するものである。
姿勢推定手段１３は、被写体映像ＳＶ１の予め定めたフレーム間隔で時系列に入力される２次元画像であるフレーム画像から、選手Ｏ１の関節位置（２次元姿勢情報）を推定し、３次元姿勢情報記憶手段１０に記憶されている３次元姿勢情報の中で誤差が最小となる３次元姿勢情報を、選手Ｏ１の姿勢として推定する。

姿勢推定手段１３の２次元画像から人物の関節位置を推定する手法は、以下の参考文献１に記載されているＯｐｅｎＰｏｓｅ等の公知の手法を用いることができるため、詳細な説明は省略する。。
（参考文献１：Zhe Cao and Tomas Simon and Shih-En Wei and Yaser Sheikh. Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields. In CVPR, 2017.）
姿勢推定手段１３は、選手Ｏ１の２次元姿勢情報（２次元関節位置）と、３次元姿勢情報記憶手段１０に記憶されている３次元姿勢情報（３次元関節位置）とから、選手Ｏ１の３次元姿勢情報を推定する。

以下、姿勢推定手段１３における２次元姿勢情報から３次元姿勢情報を推定する手法について説明する。
２次元関節位置を（ｕ，ｖ）、３次元関節位置を（ｘ，ｙ，ｚ）としたとき、その関係は、以下の式（１）で表すことができる。

ここで、センサカメラＳＣの内部パラメータとして、ｆｘ，ｆｙは焦点距離、ｃｘ，ｃｙはレンズ主点位置を表す。また、センサカメラＳＣの外部パラメータとして、ｒ（ｒ_１１～ｒ_３３）はカメラの回転行列、ｔ（ｔ_１～ｔ_３）はカメラの並進行例を表す。また、ｓは任意のスケールを表す。
これらのカメラパラメータ（内部、外部）のうち、事前校正によって、ｆｘ，ｆｙ，ｃｘ，ｃｙを既知とすることができる。また、ｓは任意の値であればよく、例えば“１”とする。

姿勢推定手段１３は、未知のｒ，ｔに適当な値を設定し、図６に示すように、３次元姿勢情報記憶手段１０に記憶されているすべての３次元姿勢情報Ｐ_３ｄ１，Ｐ_３ｄ２，Ｐ_３ｄ３，…の関節ごとの２次元座標（Ｕ，Ｖ）上の２次元関節位置（ｕ′，ｖ′）を算出する。
なお、ｒ，ｔは、解が極小値に落ちないように予め定めた大まかな初期値であればよい。例えば、ｒは、ティーマーカを結んだ線とグラウンド面を基準とした回転行列を用いればよい。また、ｔは、３次元姿勢情報の２次元座標上の平均値（重心位置）と、３次元姿勢情報に対応する２次元関節位置の重心位置とが一致するように予め定めた行列を用いればよい。

そして、姿勢推定手段１３は、算出したすべての２次元関節位置（ｕ′，ｖ′）と、２次元画像から推定した２次元関節位置（ｕ，ｖ）との間で、関節ごとにユークリッド距離を求め、距離の二乗和が最小となる２次元関節位置（ｕ′，ｖ′）を求める。
そして、姿勢推定手段１３は、誤差の最も小さい２次元関節位置（ｕ′，ｖ′）を、選手Ｏ１の３次元関節位置に対応する２次元関節位置とする。なお、この誤差最小の位置を求めるには、非線形最小二乗問題を解く手法として知られるレーベンバーグ・マーカート法等を用いればよい。
そして、姿勢推定手段１３は、誤差の最も小さい２次元関節位置（ｕ′，ｖ′）から、式（１）により、関節ごとに３次元関節位置を算出し、選手Ｏ１の３次元姿勢情報を求める。
図２に戻って、番組映像制作装置１の構成について説明を続ける。

姿勢推定手段１３は、被写体映像ＳＶ１を構成するフレームごとの２次元画像から推定した３次元姿勢情報を、順次、インデックス推定手段１４と、カメラ制御情報推定手段１６とに出力する。

インデックス推定手段１４は、動作モデルを用いて、姿勢推定手段１３で時系列に順次推定された３次元姿勢情報からインデックスを推定するものである。
インデックス推定手段１４は、図３に示した動作モデルＭ１のニューラルネットワークの入力層ＩＬに、ある時刻ｉにおける３次元姿勢情報（Ｐ１ｘ_ｉ，Ｐ１ｙ_ｉ，Ｐ１ｚ_ｉ）、（Ｐ２ｘ_ｉ，Ｐ２ｙ_ｉ，Ｐ２ｚ_ｉ）、…、（Ｐｊｘ_ｉ，Ｐｊｙ_ｉ，Ｐｊｚ_ｉ）を入力する。
そして、インデックス推定手段１４は、動作モデルＭ１によって、出力層ＯＬから出力される出力値として、インデックスＩｄｘ_ｉを算出する。
インデックス推定手段１４は、算出したインデックスをカメラ制御情報推定手段１６に出力する。

ボール情報検出手段１５は、センサカメラＳＣで撮影したステレオ映像である被写体映像ＳＶ１，ＳＶ２から、ボールＯ２の速度および位置をボール情報として検出するものである。
ボール情報検出手段１５は、被写体映像ＳＶ１，ＳＶ２の予め定めたフレーム間隔で時系列に、ステレオ画像（２枚のフレーム画像）を入力し、それぞれの画像上でボールＯ２の予め定めた形状、色等によってボールＯ２の２次元座標を検出する。そして、ボール情報検出手段１５は、ステレオ画像上のボールＯ２の位置から、三角測量の原理でボールＯ２の３次元空間上の位置を求めるとともに、予め定めたフレーム周期に基づいてボールＯ２の速度を算出する。

ステレオ画像から、ボールの位置や速度を計測する手法は、以下の参考文献２に記載されている公知の手法を用いることができるため、詳細な説明は省略する。
（参考文献２：三ッ峰，加藤、“３次元飛翔軌道方程式に基づくゴルフ軌跡表示システムの開発”、ＮＨＫ技研Ｒ＆Ｄ，Ｎｏ．１７３，２０１９年１月発行）
ボール情報検出手段１５は、推定したボールＯ２のボール情報（速度、位置〔３次元座標〕）をカメラ制御情報推定手段１６に出力する。

カメラ制御情報推定手段１６は、カメラモデルを用いて、姿勢推定手段１３で推定された３次元姿勢情報と、インデックス推定手段１４で推定されたインデックスと、ボール情報検出手段１５で検出されたボール情報（速度、位置）とから、カメラワーク情報およびスイッチング情報とを、カメラ制御情報として推定するものである。
カメラ制御情報推定手段１６は、図５に示したカメラモデルＭ２のニューラルネットワークの入力層ＩＬに、ある時刻ｉにおける３次元姿勢情報（Ｐ１ｘ_ｉ，Ｐ１ｙ_ｉ，Ｐ１ｚ_ｉ）、（Ｐ２ｘ_ｉ，Ｐ２ｙ_ｉ，Ｐ２ｚ_ｉ）、…、（Ｐｊｘ_ｉ，Ｐｊｙ_ｉ，Ｐｊｚ_ｉ）と、ボールの速度Ｖ_ｉ、位置（Ｘ_ｉ，Ｙ_ｉ，Ｚ_ｉ）およびインデックスＩｄｘ_ｉを入力する。

そして、カメラ制御情報推定手段１６は、カメラモデルＭ２によって、出力層ＯＬから出力される出力値として、カメラワーク情報であるロボットカメラＲＣ１のパン値Ｃ１ｐ_ｉ、チルト値Ｃ１ｔ_ｉ、ズーム値Ｃ１ｚ_ｉ、および、ロボットカメラＲＣ２のパン値Ｃ２ｐ_ｉ、チルト値Ｃ２ｔ_ｉ、ズーム値Ｃ２ｚ_ｉを算出するとともに、スイッチング情報であるロボットカメラＲＣ１のＯＮ／ＯＦＦ情報Ｃ１ｓ_ｉ、および、ロボットカメラＲＣ２のＯＮ／ＯＦＦ情報Ｃ２ｓ_ｉを算出する。
カメラ制御情報推定手段１６は、算出したカメラワーク情報をカメラ制御手段１７に出力する。また、カメラ制御情報推定手段１６は、算出したスイッチング情報を映像切替手段１８に出力する。

カメラ制御手段１７は、カメラ制御情報推定手段１６で推定されたカメラワーク情報に基づいて、ロボットカメラＲＣ１，ＲＣ２のカメラワークを制御するものである。
カメラ制御手段１７は、カメラ制御情報推定手段１６から入力されるロボットカメラＲＣ１のパン値Ｃ１ｐ_ｉ、チルト値Ｃ１ｔ_ｉおよびズーム値Ｃ１ｚ_ｉを、第１制御信号ＣＳ１として、ロボットカメラＲＣ１に出力する。

また、カメラ制御手段１７は、カメラ制御情報推定手段１６から入力されるロボットカメラＲＣ２のパン値Ｃ２ｐ_ｉ、チルト値Ｃ２ｔ_ｉおよびズーム値Ｃ２ｚ_ｉを、第２制御信号ＣＳ２として、ロボットカメラＲＣ２に出力する。
これによって、カメラ制御手段１７は、カメラ制御情報推定手段１６で逐次推定されるカメラワーク情報に基づいて、ロボットカメラＲＣ１，ＲＣ２のパン、チルト、ズームのカメラワークを制御することができる。

映像切替手段１８は、カメラ制御情報推定手段１６で推定されたスイッチング情報に基づいて、ロボットカメラＲＣ１，ＲＣ２が撮影する映像を切り替えて、制作映像として出力するものである。
映像切替手段１８は、カメラ制御情報推定手段１６から入力されるロボットカメラＲＣ１のＯＮ／ＯＦＦ情報Ｃ１ｓ_ｉでＯＮが指定された場合、ロボットカメラＲＣ１から入力された第１撮影映像ＲＶ１を制作映像として出力する。
また、映像切替手段１８は、カメラ制御情報推定手段１６から入力されるロボットカメラＲＣ２のＯＮ／ＯＦＦ情報Ｃ２ｓ_ｉでＯＮが指定された場合、ロボットカメラＲＣ２から入力された第２撮影映像ＲＶ２を制作映像として出力する。

ここで、あるロボットカメラＲＣがＯＮであるとは、スイッチング情報の中で最も値が大きく、その値が予め定めた閾値（例えば、０．５）以上である場合をいう。なお、スイッチング情報のすべてのＯＮ／ＯＦＦ情報が、閾値未満の場合、映像切替手段１８は、制作映像の出力を停止する。

以上説明したように番組映像制作装置１を構成することで、番組映像制作装置１は、センサカメラＳＣで撮影した映像から、ロボットカメラＲＣのカメラワークを制御するとともに、複数の撮影映像をスイッチングして番組映像を生成することができる。
このとき、番組映像制作装置１は、選手Ｏ１のボールＯ２のショット前においては、選手の動作に対して重みを付けたカメラワークおよびスイッチングの推定を行い、ショット後においては、ボールＯ２の速度および位置に対して重みを付けたカメラワークおよびスイッチングの推定を行うことができる。なお、この重み付けは、予め学習した動作モデルＭ１およびカメラモデルＭ２において、モデルパラメータとして学習されている。

これによって、番組映像制作装置１は、スポーツの映像制作において、人手を介さずに、スムーズなカメラワークとカメラスイッチングを実現することができる。
なお、番組映像制作装置１は、コンピュータを、前記した番組映像制作装置１の各手段として機能させるための映像制作プログラムで動作させることができる。

［番組映像制作装置の動作］
次に、図７を参照（適宜図１，図２参照）して、番組映像制作装置１の動作について説明する。なお、ここでは、予め３次元姿勢情報記憶手段１０に選手Ｏ１の３次元姿勢情報として、種々のポーズの関節位置である３次元座標を予め記憶しておくこととする。
また、動作モデル記憶手段１１には予め学習した動作モデルＭ１（図３）が記憶され、カメラモデル記憶手段１２には予め学習したカメラモデルＭ２（図５）が記憶されているものとする。

ステップＳ１において、姿勢推定手段１３は、センサカメラＳＣで撮影した被写体映像ＳＶ１から、フレームごとに選手Ｏ１の３次元姿勢情報（３次元関節位置）を推定する。
このとき、姿勢推定手段１３は、ＯｐｅｎＰｏｓｅ等の公知の手法によって、フレーム画像から選手Ｏ１の関節位置（２次元姿勢情報）を推定し、３次元姿勢情報記憶手段１０に記憶されている３次元姿勢情報の中で誤差が最小となる３次元姿勢情報を、選手Ｏ１の姿勢として推定する。

ステップＳ２において、ボール情報検出手段１５は、センサカメラＳＣで撮影したステレオ映像である被写体映像ＳＶ１，ＳＶ２から、フレームごとにボールＯ２の速度および位置をボール情報として検出する。なお、このステップＳ２は、ステップＳ１と同じフレーム単位でボール情報を検出する。

ステップＳ３において、インデックス推定手段１４は、動作モデルＭ１を用いて、ステップＳ１で推定された３次元姿勢情報から、選手Ｏ１の動作を特定する番号であるインデックスを推定する。

ステップＳ４において、カメラ制御情報推定手段１６は、カメラモデルＭ２を用いて、ステップＳ１で推定された３次元姿勢情報と、ステップＳ２で検出されたボール情報（速度、位置）と、ステップＳ３で推定されたインデックスとから、カメラ制御情報（カメラワーク情報およびスイッチング情報）を推定する。

ステップＳ５において、カメラ制御手段１７は、ステップＳ４で推定されたカメラ制御情報のうちのカメラワーク情報であるパン、チルト、ズームの各値を、制御信号として、ロボットカメラＲＣ１，ＲＣ２に出力する。
これによって、ロボットカメラＲＣ１，ＲＣ２は、パン、チルト、ズームの各値が制御信号で指示された値となるように制御される。

ステップＳ６において、映像切替手段１８は、ステップＳ４で推定されたカメラ制御情報のうちのスイッチング情報に基づいて、ロボットカメラＲＣ１，ＲＣ２が撮影する映像を切り替えて出力する。
なお、番組映像制作装置１は、ロボットカメラＲＣ１，ＲＣ２から順次撮影映像が入力される場合（ステップＳ７でＹｅｓ）、ステップＳ１に戻って動作を継続する。

以上の動作によって、番組映像制作装置１は、カメラモデルで推定されるカメラワーク情報およびスイッチング情報によって、複数のロボットカメラＲＣのカメラワークを制御するとともに、複数のロボットカメラＲＣが撮影する映像を切り替えて番組用の映像を生成することができる。

［動作モデル学習装置の構成］
次に、図８を参照して、番組映像制作装置１で用いる動作モデルＭ１（図３）を学習する動作モデル学習装置２の構成について説明する。
図８に示すように、動作モデル学習装置２は、姿勢情報取得手段２０と、時系列姿勢情報記憶手段２１と、学習データ生成手段２２と、モデル学習手段２３と、動作モデル記憶手段２４と、を備える。

姿勢情報取得手段２０は、選手の動作中における関節位置を３次元姿勢情報として、時系列に取得するものである。例えば、姿勢情報取得手段２０は、一般的なモーションキャプチャ等の姿勢計測手法を用いて、選手の関節位置を計測したデータを取得する。
この姿勢情報取得手段２０で取得する時系列の３次元姿勢情報は、対象スポーツ（ここでは、ゴルフ）の所定の動作（ここでは、スイング動作）中のデータとする。
また、姿勢情報取得手段２０は、複数の選手の３次元姿勢情報を取得する。取得する３次元姿勢情報は、複数の異なる選手がそれぞれ複数の動作を行って取得したデータであることが好ましい。

なお、姿勢情報取得手段２０は、屋外で実際にスポーツ（例えば、ゴルフ）を行う環境で姿勢情報を取得する必要はなく、屋内でスイング動作のみを行って姿勢情報を取得すればよい。
姿勢情報取得手段２０は、取得した時系列の３次元姿勢情報を時系列姿勢情報記憶手段２１に記憶する。

時系列姿勢情報記憶手段２１は、姿勢情報取得手段２０で取得した時系列の３次元姿勢情報を複数記憶するものである。
この時系列姿勢情報記憶手段２１は、選手の一連の動作（例えば、スイング動作）の時系列の３次元姿勢情報を時刻と対応付けて１つのサンプルデータとして、複数のサンプルデータを記憶する。

学習データ生成手段２２は、時系列姿勢情報記憶手段２１に記憶されている複数の時系列の３次元姿勢情報から、動作モデルを学習するための学習データを生成するものである。学習データ生成手段２２は、マッチング手段２２０と、平均化手段２２１と、を備える。

マッチング手段２２０は、時系列姿勢情報記憶手段２１に記憶されている複数の時系列の３次元姿勢情報（複数のサンプルデータ）を、近似するポーズごとにマッチングするものである。
このマッチング手段２２０は、サンプルデータごとに、近似するポーズを探索し、複数のサンプルデータ間で対応するポーズの３次元姿勢情報と時刻とを対応付ける。

ここで、図９を参照して、マッチング手段２２０が行うマッチング手法について説明する。図８は、あるサンプルデータＳＭ_１と、サンプルデータＳＭ_２とのマッチング例を示す。
マッチング手段２２０は、図９に示すように、サンプルデータＳＭ_１，ＳＭ_２間において、総当たりで近似するポーズ（ｐ_１－ｐ_１等）を探索する。ここで、ポーズが近似するか否かは、例えば、２つの点群を重ね合わせる手法であるＩＣＰ（Iterative Closest Point)を用いて、各関節位置の差が最も小さいポーズ同士を近似するポーズと判定する。
このとき、サンプルデータＳＭ_１，ＳＭ_２間にはトータルの時間範囲に差があるため、マッチング手段２２０は、例えば、サンプルデータＳＭ_１の複数のポーズが、サンプルデータＳＭ_２の同じポーズに対応することも許容する。

そして、マッチング手段２２０は、すべてのサンプルデータ間で近似するポーズ同士を対応付けたときの差の総和が最小となる組み合わせを求める。
具体的には、マッチング手段２２０は、以下の式（２）に示すコスト関数ｅの値が最小となるポーズの組み合わせを求める。

ここで、ｍは、すべてのサンプルデータの組み合わせとなるサンプルデータ対の総数である。ｎ_ｉは、総サンプルデータ対のｉ番目のサンプルデータ対における近似したポーズの対応数である。
ｅ_{ｉｃｐ，ｉ，ｊ}は、ｉ番目のサンプルデータ対の対応するポーズにおけるｊ番目のポーズ対の差である。なお、この差には、ＩＣＰを用いてポーズ間の近似判定を行う際の差を用いることができる。
ｐ_ｉ，ｊは、重み係数であって、ｉ番目のサンプルデータ対の対応するポーズにおけるｊ番目のポーズの動作の遷移に誤りがある場合に値を“１．５”、それ以外の場合に値を“１．０”とする。
これによって、図９に示すように、サンプルデータＳＭ１のポーズｐ_２，ｐ_３が、サンプルデータＳＭ２のポーズｐ_２，ｐ_３に遷移順序が異なるように対応付けられている場合に、コスト関数ｅの値が大きくなる。
図８に戻って、動作モデル学習装置２の構成について説明を続ける。

平均化手段２２１は、マッチング手段２２０でマッチングされたポーズの遷移時間を平均化するものである。これによって、サンプリングデータの選手ごとの動作スピードによるポーズに時間差が生じる場合でも、近似するポーズについては、同じ時刻に生じる動作とすることができる。
また、平均化手段２２１は、遷移時間を平均化したポーズに対して、番組映像制作装置１で姿勢を推定するための映像のフレームと同じ周期となるように、３次元姿勢情報を時間方向に内挿することとする。
これによって、フレームごとの３次元姿勢情報と、フレームに対応するインデックスとを、動作モデルを学習するための学習データとして生成することができる。

ここで、図１０を参照して、平均化手段２２１の処理について具体的に説明する。
図１０では、サンプルデータＳＭ_１～ＳＭ_３において、ポーズｐ_１，ｐ_２，ｐ_３がそれぞれ近似したポーズとしてマッチングされているものとする。
ここで、サンプルデータＳＭ_１のポーズｐ_１からｐ_２の遷移時間がｔ_１１、サンプルデータＳＭ_２のポーズｐ_１からｐ_２の遷移時間がｔ_２１、サンプルデータＳＭ_３のポーズｐ_１からｐ_２の遷移時間がｔ_３１であったとする。
この場合、平均化手段２２１は、ｔ_１１、ｔ_２１およびｔ_３１を平均化した時間ｔ_１を、ポーズｐ_１からｐ_２の遷移時間とする。
そして、平均化手段２２１は、平均化したポーズ間の遷移時間を基準に、内挿によって、フレーム周期の３次元姿勢情報を生成する。
このように、平均化したポーズ間の遷移時間を基準に３次元姿勢情報を生成することで、同一の時間にほぼ同じ姿勢情報が対応することになり、動作モデルを学習する際の学習速度と学習精度を高めることができる。
図８に戻って、動作モデル学習装置２の構成について説明を続ける。
学習データ生成手段２２は、生成したフレーム周期の３次元姿勢情報をモデル学習手段２３に出力する。

モデル学習手段２３は、動作モデルを学習するものである。
モデル学習手段２３は、図３で説明した動作モデルＭ１において、学習データ生成手段２２で生成されたフレーム単位の３次元姿勢情報を入力層ＩＬに入力し、出力層ＯＬから、入力した３次元姿勢情報のフレームの先頭からの番号を示すインデックスを出力するように、ニューラルネットワークの動作モデルＭ１のパラメータを学習する。
モデル学習手段２３は、学習した動作モデルを動作モデル記憶手段２４に記憶する。

動作モデル記憶手段２４は、モデル学習手段２３で学習した動作モデルを記憶するものである。
この動作モデル記憶手段２４に記憶された動作モデルは、図２の動作モデル記憶手段１１に書き込まれ、番組映像制作装置１のインデックス推定手段１４が、３次元姿勢情報からインデックスを推定する際に使用される。
なお、動作モデル学習装置２は、コンピュータを、前記した動作モデル学習装置２の各手段として機能させるための動作モデル学習プログラムで動作させることができる。

［動作モデル学習装置の動作］
次に、図１１を参照（適宜図８参照）して、動作モデル学習装置２の動作について説明する。

ステップＳ１０において、姿勢情報取得手段２０は、一般的なモーションキャプチャ等の姿勢計測手法を用いて、選手の所定動作中における関節位置を３次元姿勢情報として取得する。ここでは、姿勢情報取得手段２０は、複数の異なる選手がそれぞれ複数の動作を行った３次元姿勢情報を取得する。

ステップＳ１１において、姿勢情報取得手段２０は、ステップＳ１０で取得した３次元姿勢情報を時系列姿勢情報記憶手段２１に記憶する。
ステップＳ１２において、学習データ生成手段２２のマッチング手段２２０は、時系列姿勢情報記憶手段２１に記憶されている複数の時系列の３次元姿勢情報を、近似するポーズごとにマッチングする。このとき、マッチング手段２２０は、近似するポーズ同士を対応付けたときの差の総和が最小となる組み合わせを求める。

ステップＳ１３において、学習データ生成手段２２の平均化手段２２１は、ステップＳ１２でマッチングされたポーズの遷移時間を平均化する。このとき、平均化手段２２１は、遷移時間を平均化したポーズに対して、番組映像制作装置１で姿勢を推定するための映像のフレームレートと同じ周期となるように、３次元姿勢情報を時間方向に内挿する。
これによって、学習データ生成手段２２は、対応するポーズが同一時刻となるフレーム周期の３次元姿勢情報を学習データとして生成することができる。

ステップＳ１４において、モデル学習手段２３は、ステップＳ１３で生成されたフレームごとの３次元姿勢情報を入力し、３次元姿勢情報のフレームの先頭からの番号を示すインデックスを出力するように、動作モデルＭ１のパラメータを学習する。
このとき、モデル学習手段２３は、出力が正解データであるインデックスとなるように、動作モデル記憶手段２４に記憶されている動作モデルＭ１のパラメータを更新する。

ここで、学習が完了していない場合（ステップＳ１５でＮｏ）、動作モデル学習装置２は、ステップＳ１４に戻って動作を継続する。一方、学習が完了した場合（ステップＳ１５でＹｅｓ）、動作モデル学習装置２は、動作を終了する。
ここで、学習の完了は、例えば、モデル学習手段２３が学習データ生成手段２２で生成された学習データをすべて使用したか否か、モデル学習手段２３においてパラメータの補正量が予め定めた閾値よりも小さくなったか否か等により判定する。
以上の動作によって、動作モデル学習装置２は、番組映像制作装置１で用いる動作モデルＭ１を学習することができる。

［カメラモデル学習装置の構成］
次に、図１２，図１３を参照して、番組映像制作装置１で用いるカメラモデルＭ２（図５）を学習するカメラモデル学習装置３の構成について説明する。
カメラモデル学習装置３は、図１２に示すように、図１で説明した映像制作時と同様、実際のスポーツを行う環境で学習を行う。
図１２に示すように、カメラモデルＭ２（図５）を学習するカメラモデル学習システムＳ_Ｂは、ゴルフ場のコース上に設置された複数の撮影カメラＣ（Ｃ１，Ｃ２）と、ティーグラウンドに設置されたセンサカメラＳＣと、カメラモデル学習装置３と、スイッチャ装置４と、で構成される。

撮影カメラＣは、カメラマンが手動で映像を撮影するものである。なお、撮影カメラＣの設置位置は、図１で示したロボットカメラＲＣの位置と同じである。
撮影カメラＣ１，Ｃ２は、カメラマンの操作によって変更されたパン、チルト、ズームのカメラワークを特定する情報（第１カメラワーク情報ＣＩ１、第２カメラワーク情報ＣＩ２）を、カメラモデル学習装置３に出力する。
また、撮影カメラＣ１，Ｃ２は、撮影した映像（第１撮影映像Ｖ１，第２撮影映像Ｖ２）をスイッチャ装置４に出力する。
センサカメラＳＣは、図１で説明したものと同じであるため、説明を省略する。

スイッチャ装置４は、撮影カメラＣ１，Ｃ２で撮影された映像を切り替えて制作映像を生成するものである。
スイッチャ装置４は、図示を省略したモニタに複数の撮影映像を表示し、スイッチャが適宜、出力映像を切り替えることで、番組用の制作映像を生成する。
このスイッチャ装置４は、スイッチャが切り替えた撮影カメラＣ１，Ｃ２の切替情報をスイッチング情報ＳＷとして、カメラモデル学習装置３に出力する。なお、スイッチャ装置４は、一般的なものであるため、説明を省略する。

次に、図１３を参照（適宜図１２参照）して、カメラモデル学習装置３の詳細な構成について説明する。
図１３に示すように、カメラモデル学習装置３は、３次元姿勢情報記憶手段１０と、動作モデル記憶手段１１と、姿勢推定手段１３と、インデックス推定手段１４と、ボール情報検出手段１５と、カメラワーク情報入力手段３０と、スイッチング情報入力手段３１と、モデル学習手段３２と、カメラモデル記憶手段３３と、を備える。

カメラワーク情報入力手段３０、スイッチング情報入力手段３１、モデル学習手段３２およびカメラモデル記憶手段３３以外の構成は、図２で説明した番組映像制作装置１と同じ構成であるため、同一の符号を付して説明を省略する。

カメラワーク情報入力手段３０は、カメラマンが操作する撮影カメラＣから、カメラワークを特定するパン、チルト、ズームの各値を示すカメラワーク情報を入力するものである。
ここでは、カメラワーク情報入力手段３０は、撮影カメラＣ１から、撮影カメラＣ１のカメラワーク情報として、第１カメラワーク情報ＣＩ１を入力する。また、カメラワーク情報入力手段３０は、撮影カメラＣ２から、撮影カメラＣ２のカメラワーク情報として、第２カメラワーク情報ＣＩ２を入力する。
カメラワーク情報入力手段３０は、入力した撮影カメラＣごとのカメラワーク情報を、モデル学習手段３２に出力する。

スイッチング情報入力手段３１は、スイッチャが操作するスイッチャ装置４から、撮影カメラＣ１，Ｃ２の映像の切り替えを示すスイッチング情報ＳＷを入力するものである。
スイッチング情報入力手段３１は、入力したスイッチング情報ＳＷを、モデル学習手段３２に出力する。

モデル学習手段３２は、カメラモデルを学習するものである。
モデル学習手段３２は、図５で説明したカメラモデルＭ２において、姿勢推定手段１３で推定された３次元姿勢情報と、インデックス推定手段１４で推定されたインデックスと、ボール情報検出手段１５で検出されたボール情報（速度、位置）とを入力層ＩＬに入力し、出力層ＯＬから、カメラ制御情報を出力するように、ニューラルネットワークのカメラモデルＭ２のパラメータを学習する。
ここで、カメラ制御情報は、カメラワーク情報入力手段３０で入力されたカメラワーク情報、および、スイッチング情報入力手段３１で入力されたスイッチング情報である。
モデル学習手段３２は、学習した動作モデルをカメラモデル記憶手段３３に記憶する。

カメラモデル記憶手段３３は、モデル学習手段３２で学習したカメラモデルを記憶するものである。
このカメラモデル記憶手段３３に記憶されたカメラモデルは、図２のカメラモデル記憶手段１２に書き込まれ、番組映像制作装置１のカメラ制御情報推定手段１６が、３次元姿勢情報、ボール情報（速度、位置）、および、インデックスからカメラ制御情報を推定する際に使用される。
なお、カメラモデル学習装置３は、コンピュータを、前記したカメラモデル学習装置３の各手段として機能させるためのカメラモデル学習プログラムで動作させることができる。

［カメラモデル学習装置の動作］
次に、図１４を参照（適宜図１３参照）して、カメラモデル学習装置３の動作について説明する。なお、ここでは、予め３次元姿勢情報記憶手段１０に選手Ｏ１の３次元姿勢情報として、種々のポーズの関節位置である３次元座標を予め記憶しておくこととする。また、動作モデル記憶手段１１には予め学習した動作モデルＭ１（図３）が記憶されているものとする。
ステップＳ２０～Ｓ２２の動作は、図７で説明した番組映像制作装置１のステップＳ１～Ｓ３の動作と同じであるため、説明を省略する。

ステップＳ２３において、カメラワーク情報入力手段３０は、カメラマンが操作する撮影カメラＣ１，Ｃ２から、カメラワークを特定するパン、チルト、ズームの各値を示すカメラワーク情報を入力する。
ステップＳ２４において、スイッチング情報入力手段３１は、スイッチャが操作するスイッチャ装置４から、撮影カメラＣ１，Ｃ２の映像の切り替えを示すスイッチング情報ＳＷを入力する。

ステップＳ２５において、モデル学習手段３２は、ステップＳ２０で推定されたフレームごとの３次元姿勢情報、ステップＳ２１で推定されたボール情報、および、ステップＳ２２で推定されたインデックスを入力し、ステップＳ２３で入力したカメラワーク情報、および、ステップＳ２４で入力したスイッチング情報を出力するように、カメラモデルＭ２のパラメータを学習する。

ここで、学習が完了していない場合（ステップＳ２６でＮｏ）、カメラモデル学習装置３は、ステップＳ２０に戻って動作を継続する。一方、学習が完了した場合（ステップＳ２６でＹｅｓ）、カメラモデル学習装置３は、動作を終了する。
ここで、学習の完了は、例えば、モデル学習手段３２が予め定めた回数の学習を行ったか否か、モデル学習手段３２においてパラメータの補正量が予め定めた閾値よりも小さくなったか否か等により判定する。
以上の動作によって、カメラモデル学習装置３は、番組映像制作装置１で用いるカメラモデルＭ２を学習することができる。

１番組映像制作装置
１０３次元姿勢情報記憶手段
１１動作モデル記憶手段
１２カメラモデル記憶手段
１３姿勢推定手段
１４インデックス推定手段
１５ボール情報検出手段（移動物体検出手段）
１６カメラ制御情報推定手段
１７カメラ制御手段
１８映像切替手段
２動作モデル学習装置
２０姿勢情報取得手段
２１時系列姿勢情報記憶手段
２２学習データ生成手段
２２０マッチング手段
２２１平均化手段
２３モデル学習手段
２４動作モデル記憶手段
３カメラモデル学習装置
３０カメラワーク情報入力手段
３１スイッチング情報入力手段
３２モデル学習手段
３３カメラモデル記憶手段
４スイッチャ装置
ＳＣセンサカメラ
ＲＣロボットカメラ
Ｃ撮影カメラ

Claims

移動物体を用いて行うスポーツの番組映像を複数のロボットカメラの撮影映像から制作する番組映像制作装置であって、
前記スポーツを行う選手の予め定めた動作における時系列の３次元姿勢情報を予め複数記憶する３次元姿勢情報記憶手段と、
固定カメラが撮影する前記選手を含んだ映像のフレーム画像から前記選手の２次元姿勢情報を検出し、前記３次元姿勢情報を２次元座標に投影した２次元姿勢情報との誤差が最小となる３次元姿勢情報を前記選手の３次元姿勢情報と推定する姿勢推定手段と、
前記移動物体の速度および位置を移動物体情報として検出する移動物体検出手段と、
前記選手の３次元姿勢情報から前記予め定めた動作の時間位置を示すインデックスを推定する学習済みの動作モデルを用いて、前記姿勢推定手段で推定された３次元姿勢情報に対応するインデックスを推定するインデックス推定手段と、
前記選手の３次元姿勢情報、前記移動物体情報および前記インデックスから前記ロボットカメラのカメラワーク情報およびスイッチング情報を推定する学習済みのカメラモデルを用いて、前記姿勢推定手段で推定された３次元姿勢情報、前記移動物体検出手段で検出された移動物体情報、および、前記インデックス推定手段で推定されたインデックスに対応するカメラワーク情報およびスイッチング情報を推定するカメラ制御情報推定手段と、
前記カメラ制御情報推定手段で推定されたカメラワーク情報に基づいて、前記複数のロボットカメラのカメラワークを制御するカメラ制御手段と、
前記カメラ制御情報推定手段で推定されたスイッチング情報に基づいて、前記複数のロボットカメラが撮影する映像を切り替える映像切替手段と、
を備えることを特徴とする番組映像制作装置。
前記スポーツはゴルフであって、
前記３次元姿勢情報記憶手段に記憶する３次元姿勢情報は、前記選手のゴルフスイングにおける時系列の３次元姿勢情報であることを特徴とする請求項１に記載の番組映像制作装置。
コンピュータを、請求項１または請求項２に記載の番組映像制作装置として機能させるための映像制作プログラム。
移動物体を用いて行うスポーツの番組映像を複数のロボットカメラの撮影映像から制作するための前記ロボットカメラのカメラワーク情報およびスイッチング情報を推定するカメラモデルを学習するカメラモデル学習装置であって、
前記スポーツを行う選手の予め定めた動作における時系列の３次元姿勢情報を予め複数記憶する３次元姿勢情報記憶手段と、
固定カメラが撮影する前記選手を含んだ映像のフレーム画像から前記選手の２次元姿勢情報を検出し、前記３次元姿勢情報を２次元座標に投影した２次元姿勢情報との誤差が最小となる３次元姿勢情報を前記選手の３次元姿勢情報と推定する姿勢推定手段と、
前記移動物体の速度および位置を移動物体情報として検出する移動物体検出手段と、
前記選手の３次元姿勢情報から前記予め定めた動作の時間位置を示すインデックスを推定する学習済みの動作モデルを用いて、前記姿勢推定手段で推定された３次元姿勢情報に対応するインデックスを推定するインデックス推定手段と、
前記カメラワーク情報および前記スイッチング情報を推定する際の前記複数のロボットカメラと同じ位置に配置した、カメラマンが操作する複数の撮影カメラから、カメラワークを特定する情報であるカメラワーク情報を入力するカメラワーク情報入力手段と、
前記複数の撮影カメラで撮影した映像をスイッチャが切り替えるスイッチング情報を入力するスイッチング情報入力手段と、
前記選手の３次元姿勢情報、前記移動物体情報および前記インデックスを入力し、前記カメラワーク情報および前記スイッチング情報を出力するようにニューラルネットワークの前記カメラモデルを学習するモデル学習手段と、
を備えることを特徴とするカメラモデル学習装置。
コンピュータを、請求項４に記載のカメラモデル学習装置として機能させるためのカメラモデル学習プログラム。