JP5044582B2

JP5044582B2 - 撮影カメラ学習装置及びそのプログラム

Info

Publication number: JP5044582B2
Application number: JP2009025531A
Authority: JP
Inventors: 誠奥田; 誠喜井上
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2009-02-06
Filing date: 2009-02-06
Publication date: 2012-10-10
Anticipated expiration: 2029-02-06
Also published as: JP2010183384A

Description

本発明は、放送番組、映画、遠隔講義等の映像を自動撮影する撮影カメラの機械学習を行う撮影カメラ学習装置及びそのプログラムに関する。

従来から、番組の制作支援の１つとして、撮影フロアを移動可能な撮影カメラ（ロボットカメラ）に、熟練のカメラマンが操作して撮影したような自然なカメラワークを機械学習させる技術が開示されている（特許文献１及び非特許文献１参照）。

例えば、特許文献１に記載のカメラワーク学習装置は、ＴＶＭＬ（TV program Making Language）で記述した番組台本をカメラファインダに表示させ、このカメラファインダに表示された番組台本を、撮影カメラでカメラマンが撮影するときの操作技法を機械学習するものである。
また、例えば、非特許文献１に記載のカメラワーク分析手法は、カメラマンが実在する被写体を撮影カメラで撮影し、このカメラマンの撮影技法を機械学習するものである。

特開２００１−１２８０３２号公報

カメラワーク分析と映像の主観評価実験、加藤他、映像情報メディア学会誌Ｖｏｌ．５３、Ｎｏ．９、ｐｐ．１３１５〜１３２４

しかし、特許文献１に記載のカメラワーク学習装置では、これで機械学習した操作技法を用いて、臨場感のある番組の撮影が難しいという問題がある。具体的には、特許文献１に記載のカメラワーク学習装置では、被写体の位置や動きを考慮せずに、例えば、撮影開始から３秒後には撮影カメラのパン角を１０°、５秒後にはパン角を１５°といったように時間軸だけでカメラマンの撮影技法を機械学習する。このため、特許文献１に記載のカメラワーク学習装置では、前記した番組台本と放送番組との間で被写体の位置や動きとが時間軸で一致しない場合には、不適切な撮影ショットになることや被写体が映らないことが多くある。さらに、特許文献１に記載のカメラワーク学習装置では、実際の撮影スタジオではなく、ＴＶＭＬで記述されたＣＧ背景でカメラマンの撮影技法を機械学習しているので、ＣＧ背景と撮影スタジオとの間でカメラマンのカメラ操作が異なることがあり、放送番組の臨場感が失われてしまう。

また、非特許文献１に記載のカメラワーク分析手法では、実在する被写体を撮影するため、この被写体の動きに制限があり、及び、被写体の動きの繰り返し精度が低くなってしまう。例えば、非特許文献１に記載のカメラワーク分析手法では、歩行するモデルを実写被写体としてカメラマンの撮影技法を分析する場合、何回かモデルを撮影する必要がある。このとき、複数回にわたり、モデルの歩行速度を厳密に一致させること、又は、モデルに全く同じ動きを行わせることが困難なため、この繰り返し精度が低くなってしまう。このため、非特許文献１に記載のカメラワーク分析手法では、カメラマンの撮影技法の学習が十分に行えず、臨場感のある放送番組を、容易に撮影できないという問題がある。

そこで、本発明は、臨場感のある番組を容易に撮影可能な撮影カメラ学習装置及びそのプログラムを提供することを目的とする。

前記した課題を解決するため、請求項１に係る撮影カメラ学習装置は、予め設定された動きを行うＣＧ被写体と、撮影カメラで撮影した実写背景とを含むＣＧ合成映像を用いて、当該撮影カメラの学習を行う撮影カメラ学習装置であって、ＣＧ映像出力手段と、カメラパラメータ制御手段と、映像合成手段と、被写体情報出力手段と、機械学習手段と、を備えることを特徴とする。

かかる構成によれば、撮影カメラ学習装置は、ＣＧ映像出力手段によって、カメラパラメータを任意に変更できる仮想カメラでＣＧ被写体を撮影したようなＣＧ映像を出力する。また、撮影カメラ学習装置は、カメラパラメータ制御手段によって、撮影カメラのカメラパラメータが入力されると共に、仮想カメラのカメラパラメータの値を撮影カメラのカメラパラメータの値に変更する。これによって、撮影カメラ学習装置は、撮影カメラでＣＧ被写体を撮影したようなＣＧ映像をＣＧ映像出力手段に出力させる。そして、撮影カメラ学習装置は、映像合成手段によって、撮影カメラが撮影する実写背景の映像と、ＣＧ映像出力手段が出力するＣＧ映像とを合成したＣＧ合成映像を出力する。

また、撮影カメラ学習装置は、被写体情報出力手段によって、ＣＧ映像出力手段が出力するＣＧ映像におけるＣＧ被写体の位置を示す位置情報を含む被写体情報を出力する。そして、撮影カメラ学習装置は、機械学習手段によって、ＣＧ被写体をカメラマンが撮影する操作に応じた撮影カメラのカメラパラメータと、被写体情報とが入力され、撮影カメラのカメラパラメータと被写体情報に基づいて、撮影カメラのカメラパラメータの予測値である予測カメラパラメータを機械学習する。これによって、撮影カメラ学習装置は、撮影フロア等の実写背景において、全く同じ動きを何回も可能とする繰り返し精度が高いＣＧ被写体を用いて、ＣＧ被写体の位置や動き等の被写体情報に応じた予測カメラパラメータを機械学習できる。

カメラパラメータは、撮影カメラのパン角、チルト角、ズーム位置及びフォーカス位置の何れかを１以上含むものであり、これらの全てを含んでも良い。なお、カメラパラメータは、パン角、チルト角、ズーム位置及びフォーカス位置に限定されず、撮影カメラのロール（回転）角や３次元位置（３次元座標）等のその他パラメータを含んでも良い。
また、予測カメラパラメータは、撮影カメラのパン角、チルト角、ズーム位置及びフォーカス位置の何れかの予測値を１以上含むものであり、これらの全てを含んでも良い。なお、予測カメラパラメータは、パン角、チルト角、ズーム位置及びフォーカス位置に限定されず、撮影カメラのロール角や３次元位置等のその他パラメータを含んでも良い。

また、請求項２に係る撮影カメラ学習装置は、請求項１に記載の撮影カメラ学習装置において、被写体情報出力手段から被写体情報が入力されると共に、被写体情報が示すＣＧ被写体の位置情報と機械学習手段が機械学習した予測カメラパラメータとで撮影カメラを制御する撮影カメラ制御手段をさらに備えることを特徴とする。これによって、撮影カメラ学習装置は、ＣＧ被写体が実在するかのように、機械学習した予測カメラパラメータで撮影カメラを制御させて、本番の放送番組の自動撮影が可能であるか否かの検証を事前に行うことができる。

また、請求項３に係る撮影カメラ学習装置は、請求項２に記載の撮影カメラ学習装置において、実在する実写被写体の位置を検出する被写体位置検出手段をさらに備え、被写体情報出力手段は、被写体情報として、被写体位置検出手段が検出した実写被写体の位置情報を出力し、撮影カメラ制御手段は、実写被写体の位置情報と機械学習手段が機械学習した予測カメラパラメータとで撮影カメラを制御して、撮影カメラに、実写被写体を撮影させることを特徴とする。これによって、撮影カメラ学習装置は、被写体情報として、実写被写体の位置情報を出力するので、機械学習した予測カメラパラメータで、実写被写体が含まれる本番の放送番組を自動撮影することができる。

また、請求項４に係る撮影カメラ学習装置は、請求項１から請求項３の何れか一項に記載の撮影カメラ学習装置において、映像合成手段が出力したＣＧ合成映像を表示するＣＧ合成映像表示手段をさらに備えることを特徴とする。これによって、撮影カメラ学習装置は、ＣＧ合成映像表示手段に表示されたＣＧ被写体をカメラマンが撮影できる。

また、請求項５に係る撮影カメラ学習装置は、請求項１から請求項４の何れか一項に記載の撮影カメラ学習装置において、映像合成手段が出力したＣＧ合成映像を録画するＣＧ合成映像録画手段をさらに備えることを特徴とする。これによって、撮影カメラ学習装置は、録画したＣＧ合成映像と撮影カメラが自動撮影した映像とを比較することができ、本番の放送番組の自動撮影が可能であるか否かの検証が行いやすくなる。

また、前記した課題を解決するため、請求項６に係る撮影カメラ学習プログラムは、予め設定された動きを行うＣＧ被写体と、撮影カメラで撮影した実写背景とを含むＣＧ合成映像を用いて、当該撮影カメラの機械学習を行うために、コンピュータを、ＣＧ映像出力手段、カメラパラメータ制御手段、映像合成手段、被写体情報出力手段、機械学習手段、として機能させることを特徴とする。

かかる構成によれば、撮影カメラ学習プログラムは、ＣＧ映像出力手段によって、カメラパラメータを任意に変更できる仮想カメラでＣＧ被写体を撮影したようなＣＧ映像を出力する。また、撮影カメラ学習プログラムは、カメラパラメータ制御手段によって、撮影カメラのカメラパラメータが入力されると共に、仮想カメラのカメラパラメータの値を撮影カメラのカメラパラメータの値に変更する。これによって、撮影カメラ学習プログラムは、撮影カメラでＣＧ被写体を撮影したようなＣＧ映像をＣＧ映像出力手段に出力させる。そして、撮影カメラ学習プログラムは、映像合成手段によって、撮影カメラが撮影する実写背景の映像と、ＣＧ映像出力手段が出力するＣＧ映像とを合成したＣＧ合成映像を出力する。

また、撮影カメラ学習プログラムは、被写体情報出力手段によって、ＣＧ映像出力手段が出力するＣＧ映像におけるＣＧ被写体の位置を示す位置情報を含む被写体情報を出力する。そして、撮影カメラ学習プログラムは、機械学習手段によって、ＣＧ被写体をカメラマンが撮影する操作に応じた撮影カメラのカメラパラメータと、被写体情報とが入力され、撮影カメラのカメラパラメータと被写体情報に基づいて、撮影カメラのカメラパラメータの予測値である予測カメラパラメータを機械学習する。これによって、撮影カメラ学習プログラムは、撮影フロア等の実写背景において、全く同じ動きを何回も可能とする繰り返し精度が高いＣＧ被写体を用いて、ＣＧ被写体の位置や動き等の被写体情報に応じた予測カメラパラメータを機械学習できる。

本発明によれば、以下のような優れた効果を奏する。
請求項１，６に係る発明によれば、実写背景において、繰り返し精度が高いＣＧ被写体を用いて、ＣＧ被写体の位置や動き等の被写体情報に応じた予測カメラパラメータを機械学習できるため、臨場感のある番組を容易に撮影できる。

請求項２に係る発明によれば、本番の放送番組の自動撮影が可能であるか否かの検証を事前にできるため、本番の放送番組を自動撮影するときの撮影ミスを低減することができる。
請求項３に係る発明によれば、機械学習した予測カメラパラメータで実写被写体が含まれる本番の放送番組を自動撮影することができる。

請求項４に係る発明によれば、ＣＧ合成映像表示手段に表示されたＣＧ被写体をカメラマンが撮影するため、カメラマンによる撮影カメラの学習効率が向上する。
請求項５に係る発明によれば、本番の放送番組の自動撮影が可能であるか否かの検証が行いやすくなる。

本発明の第１実施形態に係る撮影カメラ学習装置の構成を示すブロック図である。図１の撮影カメラ操作器の概略図である。（ａ）は図１のＴＶＭＬプレーヤが出力するＣＧ映像を示す図であり、（ｂ）は図１の撮影カメラが実写背景を撮影した映像を示す図であり、（ｃ）は図１の映像合成手段が合成したＣＧ合成映像を示す図である。図１の機械学習手段による機械学習を説明する図である。図１の撮影カメラ学習装置の動作を示すフローチャートである。本発明の第２実施形態に係る撮影カメラ学習装置の構成を示すブロック図である。図６の変形例を示すブロック図である。

以下、本発明の各実施形態について、適宜図面を参照しながら詳細に説明する。なお、各実施形態において、同一の機能を有する手段及び同一の部材には同一の符号を付し、説明を省略した。

（第１実施形態）
［撮影カメラ学習システムの概略］
図１及び図２を参照して、本発明の第１実施形態に係る撮影カメラ学習装置を含む撮影カメラ学習システムの概略について説明する。図１に示すように、撮影カメラ学習システム１００は、カメラマン（不図示）の撮影によって撮影カメラ２の機械学習を行うものであり、撮影カメラ学習装置１と、撮影カメラ２と、撮影カメラ操作器３とを備える。

撮影カメラ学習装置１は、予め設定された動きを行うＣＧ被写体ｏｂ１と、撮影カメラ２で撮影した実写背景ｂｇとを含むＣＧ合成映像を用いて、撮影カメラ２の機械学習を行うものである。ここで、例えば、撮影カメラ学習装置１は、ＴＶＭＬプレーヤの機能を利用して、ＣＧ合成映像を出力している。なお、撮影カメラ学習装置１の構成については後記する。

撮影カメラ２は、カメラマンの操作に応じて撮影カメラ操作器３から出力される制御信号に基づいて、図３（ｂ）に示すような実写背景ｂｇの撮影を行うロボットカメラである。ここで、例えば、撮影カメラ２は、撮影カメラ本体と、この撮影カメラ本体のカメラパラメータを制御可能な雲台と、撮影カメラ本体及び雲台を搭載し、移動機構となるペデスタルとを備える。このとき、撮影カメラ２は、無線ＬＡＮ等の無線通信又は有線通信によって、撮影カメラ学習装置１及び撮影カメラ操作器３との間で各種の信号を入出力が可能である。

撮影カメラ本体は、例えば、小型のハイビジョンカメラである。
雲台は、例えば、撮影カメラ操作器３からの制御信号に応じて、撮影カメラ２のパン角及びチルト角を制御するＡＣサーボモータと、これらパン角及びチルト角の測定値を出力するロータリエンコーダとを備える。さらに、雲台は、例えば、ズーム位置と垂直画角とを対応づけるズーム位置変換テーブルと、撮影カメラ２と被写体との距離からフォーカス位置を算出するフォーカス位置変換テーブルとを予め記憶する。そして、雲台は、撮影カメラ操作器３からの制御信号に応じてズーム位置及びフォーカス位置を制御でき、これらズーム位置及びフォーカス位置の測定を可能としている。そして、撮影カメラ２は、雲台が測定したパン角、チルト角、ズーム位置及びフォーカス位置をカメラパラメータとして撮影カメラ学習装置１に出力する。
ペデスタルは、例えば、撮影カメラ本体及び雲台を搭載し、撮影スタジオ等を移動可能な４輪方式の移動機構である。
なお、撮影カメラ２の詳細は、例えば、文献「スタジオ番組用移動ロボットカメラの開発、津田他、映像情報メディア学会誌、Ｖｏｌ．６２、Ｎｏ．１、ｐｐ．８４−９１」に記載されている。

撮影カメラ操作器３は、カメラマンの操作に応じた制御信号を撮影カメラ２に出力するものである。ここで、撮影カメラ操作器３は、例えば、操作レバー３ａを備え、この操作レバー３ａを上下左右に動かす操作に応じて、撮影カメラ２のパン角及びチルト角を制御する制御信号を出力する。また、撮影カメラ操作器３は、操作レバー３ａのグリップをひねる動作に応じて、撮影カメラ２のズーム位置及びフォーカス位置を制御する制御信号を出力する。

また、図２に示すように、撮影カメラ操作器３は、カメラファインダ（ＣＧ合成映像表示手段）１９が装着される。このカメラファインダ１９は、撮影カメラ２で撮影した実写背景ｂｇと後記するＣＧ被写体ｏｂ１とのＣＧ合成映像が撮影カメラ学習装置１から入力され、このＣＧ合成映像を表示する。そして、カメラマンは、このカメラファインダ１９を目視し、カメラファインダ１９に表示されたＣＧ被写体を撮影するように、撮影カメラ操作器３を操作する。これによって、撮影カメラ学習装置１は、実在しないＣＧ被写体を撮影するときのカメラマンの操作を機械学習することができる。

なお、ＣＧ合成映像表示手段をカメラファインダ１９として備える例を説明したが、これに限定されない。例えば、ＣＧ合成映像表示手段は、一般的なディスプレイ（不図示）にＣＧ合成映像が表示されるものとしても良い。

［撮影カメラ学習装置の構成］
以下、図１に戻り、撮影カメラ学習装置１の構成について説明する。
図１に示すように、撮影カメラ学習装置１は、ＴＶＭＬスクリプト記述手段１１と、ＴＶＭＬスクリプト出力手段１２と、ＴＶＭＬプレーヤ（ＣＧ映像出力手段）１３と、カメラパラメータ制御手段１４と、映像合成手段１５と、被写体情報出力手段１６と、機械学習手段１７と、ＣＧ合成映像録画手段１８とを備える。

ＴＶＭＬスクリプト記述手段１１は、図示を省略したキーボード、マウス等の入力手段を介して、撮影カメラ学習装置１のオペレータ等が、ＴＶＭＬスクリプトを記述するエディタである。そして、ＴＶＭＬスクリプト記述手段１１は、記述されたＴＶＭＬスクリプトをＴＶＭＬスクリプト出力手段１２に出力する。

このＴＶＭＬスクリプトは、例えば、ＣＧ映像を任意の視点で撮影する仮想カメラのカメラパラメータ、及び、ＣＧ映像に含まれるＣＧ被写体ｏｂ１の動き及び発話を記述できる。例えば、ＴＶＭＬスクリプトにおいて、仮想カメラのカメラパラメータやＣＧ被写体ｏｂ１の動きは、以下のように記述できる

＜ＴＶＭＬスクリプトの第１例：仮想カメラのカメラパラメータ＞
ｃａｍｅｒａ：ｍｏｖｅｍｅｎｔ（ｎａｍｅ＝ＡＣａｍ，ｘ＝０．０，ｙ＝０．７８２，ｚ＝２．０，ｐａｎ＝０．０）
この第１例は、ＡＣａｍという仮想カメラについて、３次元座標を（０．０，０．７８２，２．０）、及び、パン角を０°に設定することを示す。

＜ＴＶＭＬスクリプトの第２例：ＣＧ被写体の動き＞
ｃｈａｒａｃｔｅｒ：ｗａｌｋ（ｎａｍｅ＝ＣｈａｒａｃｔｅｒＡ，ｘ＝０．３，ｐｉｔｃｈ＝１．５）
この第２例は、ＣｈａｒａｃｔｅｒＡというＣＧ被写体について、ｘ座標０．３まで速度１．５で移動させることを示す。

前記した第２例のように、撮影カメラ学習システム１００では、このＴＶＭＬスクリプトに、ＣＧ被写体ｏｂ１をある位置から別の位置まで移動させるといったＣＧ被写体ｏｂ１の動きを記述する。さらに、撮影カメラ学習システム１００では、ＴＶＭＬスクリプトに、後記する映像合成手段１５がクロマキー処理を行うため、ＣＧ映像の背景を一色（例えば、青色）に記述することが好ましい。

ＴＶＭＬスクリプト出力手段１２は、ＴＶＭＬスクリプト記述手段１１からのＴＶＭＬスクリプトを、ＴＶＭＬプレーヤに出力するものである。
ＴＶＭＬプレーヤ１３は、ＴＶＭＬスクリプト記述手段１１からのＴＶＭＬスクリプトに従って、ＣＧスタジオにおいて、仮想カメラでＣＧ被写体ｏｂ１を撮影したようなＣＧ映像（ＣＧ番組）を出力するものである。なお、ＴＶＭＬプレーや１３の詳細は、例えば、文献「ＴＶＭＬによるコンテンツ制作、道家他、映像情報メディア学会誌、Ｖｏｌ．６１、Ｎｏ．１１、ｐｐ．１５９３−１５９８」に記載されている。

カメラパラメータ制御手段１４は、撮影カメラ２のカメラパラメータが入力されると共に、ＴＶＭＬプレーヤ１３における仮想カメラのカメラパラメータの値を撮影カメラ２のカメラパラメータの値に変更するものである。これによって、カメラパラメータ制御手段１４は、撮影カメラ２でＣＧ被写体ｏｂ１を撮影したようなＣＧ映像をＣＧ映像出力手段１３に出力させる。ここで、カメラパラメータ制御手段１４は、ＴＶＭＬプレーヤ１３を外部から制御できる外部制御ライブラリであるＴｖＩＦを用いて、ＴＶＭＬプレーヤ１３における仮想カメラのカメラパラメータを撮影カメラ２のカメラパラメータに一致させる。そして、カメラパラメータ制御手段１４は、例えば、図３に示すような人間をＣＧ描写したＣＧ被写体ｏｂ１を含むＣＧ映像を、映像合成手段１５及び被写体情報出力手段１６に対して、ＴＶＭＬプレーヤ１３に出力させている。なお、カメラパラメータ制御手段１４の詳細は、例えば、文献「ＴＶＭＬプレーヤー外部制御の高機能化、２００８年映像情報メディア学会年次大会、１７−４」に記載されている。

映像合成手段１５は、撮影カメラ２が撮影する実写背景ｂｇの映像と、ＴＶＭＬプレーヤ１３が出力するＣＧ映像とを合成したＣＧ合成映像を出力するものである。ここで、映像合成手段１５は、実写背景ｂｇの映像が撮影カメラ２から入力される。そして、映像合成手段１５は、例えば、図３（ｂ）に示すような実写背景ｂｇの映像と、図３（ａ）に示すようなＣＧ映像とをクロマキー処理でＣＧ合成し、図３（ｃ）に示すようなＣＧ合成映像をＣＧ合成映像録画手段１８及び撮影カメラ操作器３のカメラファインダ（ＣＧ合成映像表示手段）１９に出力する。なお、映像合成手段１５は、実写背景ｂｇの一部又は全部をＣＧで描写することも考えられる。

被写体情報出力手段１６は、ＴＶＭＬプレーヤ１３が出力するＣＧ映像において、ＣＧ被写体ｏｂ１の位置を示す位置情報を含む被写体情報を機械学習手段１７に出力するものである。ここで、被写体情報出力手段１６は、一定時間（例えば、１７ミリ秒）毎にＣＧ被写体ｏｂ１の位置を示す３次元座標を、ＡＰＩ（Application Programming Interface）関数を用いて取得する。例えば、被写体情報出力手段１６は、ＣＧ被写体ｏｂ１が座標（０．０，０．０，０．０）から座標（５．０，０．０，０．０）まで移動する場合、座標（０．１，０．０，０．０），座標（０．３，０．０，０．０），座標（０．６，０．０，０．０），・・・，座標（５．０，０．０，０．０）といった位置情報を１７ミリ秒毎に取得する。

機械学習手段１７は、撮影カメラ操作器３のカメラファインダ１９に表示されたＣＧ被写体をカメラマンが撮影する操作に応じた撮影カメラ２のカメラパラメータと、被写体情報出力手段１６からの被写体情報とが入力されるものである。そして、機械学習手段１７は、撮影カメラ２のカメラパラメータと被写体情報に基づいて、撮影カメラ２のカメラパラメータの予測値である予測カメラパラメータを機械学習する。このとき、機械学習手段１７は、撮影カメラ２を介して、撮影カメラ操作器３からの制御信号を入力しても良い。なお、機械学習手段１７による機械学習の詳細は、後記する。

ＣＧ合成映像録画手段１８は、映像合成手段１５が出力したＣＧ合成映像を録画するものである。ここで、ＣＧ合成映像録画手段１８は、ハードディスク等の記憶手段にＣＧ合成映像を録画し、図２のカメラファインダ１９やディスプレイ（不図示）にこの録画したＣＧ合成映像を出力しても良い。これによって、撮影カメラ学習装置１は、ＣＧ合成映像録画手段１８に録画されたＣＧ合成映像を参照することで、機械学習手段１７による学習結果を用いて番組の自動撮影が可能であるか否かの検証が行いやすくなる。

＜機械学習手段による機械学習＞
以下、図４を参照し、図１の機械学習手段による機械学習について説明する（適宜図１〜図３参照）。なお、図４では、白丸が各層のユニットを示す。ここで、機械学習手段１７は、図４に示すように、ニューラルネットワークによって、予測カメラパラメータを機械学習する。具体的には、機械学習手段１７は、入力層の各ユニットに、ある時刻ｔから一定時間過去ｕまでの時刻ｔ−ｕについて、ＣＧ被写体ｏｂ１の位置情報ｓ（ｔ）・・・ｓ（ｔ−ｕ）をそれぞれ入力する。そして、機械学習手段１７は、入力層の各ユニットが、ＣＧ被写体ｏｂ１の位置情報を中間層及び出力層の各ユニットに出力する

また、機械学習手段１７は、中間層の各ユニットが、入力層の各ユニットからの入力値（位置情報）のそれぞれに重み付けを行ってこれらの総和を算出し、この総和をシグモイド関数に入力して出力値を算出する。そして、機械学習手段１７は、中間層と同様に、出力層の各ユニットが、入力層又は中間層の各ユニットからの入力値に重み付けを行って総和を算出し、この総和をシグモイド関数に入力して出力値（予測カメラパラメータ）を算出する。つまり、機械学習手段１７は、入力された位置情報に対して最適な予測カメラパラメータの値をニューラルネットワークで機械学習している。

このとき、機械学習手段１７は、撮影カメラ２から入力された制御信号を教師信号として、Ｃａｓｃａｄｅ−Ｃｏｒｒｅｌａｔｉｏｎ法（ＣＣ法）により機械学習を行うことが好ましい。この場合、機械学習手段１７は、出力層の各ユニットの出力値（予測カメラパラメータ）と教師信号（制御信号）との誤差を算出する。そして、機械学習手段１７は、この誤差が一定値以下になるように、出力層から入力層に向けてユニット間の重み付けを修正する。つまり、教師信号として制御信号を用いると、機械学習手段１７は、予測カメラパラメータの値を、撮影カメラ２を実際の制御信号の値に近づけることができる。これによって、撮影カメラ学習装置１は、学習回数を抑えつつ、臨場感のある番組を撮影可能な予測カメラパラメータを機械学習できる。なお、機械学習手段１７による機械学習の詳細は、例えば、文献「ロボットカメラ機械学習システムの試作、２００８年電子情報通信学会総合大会、奥田他、Ｄ−８−３２，ｐ．１４０、Ｍａｒ．２００８」に記載されている。

なお、機械学習手段１７は、予測カメラパラメータのうち、例えば、パン角の予測値のみを機械学習しても良く、パン角、チルト角、ズーム位置及びフォーカス位置の全ての予測値を機械学習しても良い。さらに、機械学習手段１７は、予測カメラパラメータとして、撮影カメラ２のロール角や３次元位置等のその他パラメータの予測値を機械学習しても良い。

なお、機械学習手段１７は、ＣＣ法を用いて機械学習を行ったが、これに限定されない。ここで、機械学習手段１７は、ＣＣ法以外の階層型ニューラルネットワーク、又は、相互結合型ニューラルネットワークによって予測カメラパラメータの機械学習を行っても良い。さらに、機械学習手段１７は、頻出パターン抽出、クラス分類、回帰分析、クラスタリング等によって予測カメラパラメータの機械学習を行っても良い。

［撮影カメラ学習装置の動作］
以下、図５を参照し、図１の撮影カメラ学習装置の動作について説明する（適宜図１参照）。なお、図５では、記述されたＴＶＭＬスクリプトがＴＶＭＬプレーヤ１３に出力されたこととして説明する。

撮影カメラ学習装置１は、ＴＶＭＬプレーヤ１３によって、初期設定を行う。例えば、ＴＶＭＬプレーヤ１３は、ＣＧ映像の背景を青一色とし、ＣＧ被写体ｏｂ１を座標（０．０，０．０，０．０）に描写し、ＣＧスタジオの照明をＴＶＭＬで記述された初期値に設定する（ステップＳ１）。また、撮影カメラ学習装置１は、ＴＶＭＬプレーヤ１３によって、初期設定したＣＧ映像を出力する（ステップＳ２）。

ステップＳ２の処理に続いて、撮影カメラ学習装置１は、撮影を開始するか否かを判定する（ステップＳ３）。ここで、キーボード等の入力手段により撮影開始の指示が入力された場合（ステップＳ３でＹｅｓ）、撮影カメラ学習装置１は、ステップＳ４の処理を行う。このとき、撮影カメラ学習装置１は、撮影開始の指示が入力された後に一定時間（例えば、５秒）待ってから、ステップＳ４の処理を行っても良い。一方、学習開始の指示が入力されない場合（ステップＳ３でＮｏ）、撮影カメラ学習装置１は、ステップＳ２の処理に戻る。

ステップＳ３の処理に続いて、撮影カメラ学習装置１は、カメラパラメータ制御手段１４によって、ＴＶＭＬプレーヤ１３における仮想カメラのカメラパラメータの値を撮影カメラ２のカメラパラメータの値に変更する（ステップＳ４）。

ステップＳ４の処理に続いて、撮影カメラ学習装置１は、映像合成手段１５によって、撮影カメラ２が撮影する実写背景ｂｇの映像と、ＴＶＭＬプレーヤ１３が出力するＣＧ映像とを合成したＣＧ合成映像を出力する（ステップＳ５）。つまり、ステップＳ４及びステップＳ５の処理で、撮影カメラ学習装置１は、ＴＶＭＬプレーヤ１３が、予め設定された動きを行うＣＧ被写体ｏｂ１と実写背景ｂｇとを含み、かつ、撮影カメラ２で撮影したようなＣＧ合成映像を出力する。

また、撮影カメラ学習装置１は、被写体情報出力手段１６によって、ＴＶＭＬプレーヤ１３が出力するＣＧ映像において、ＣＧ被写体ｏｂ１の位置を示す位置情報を含む被写体情報を出力する（ステップＳ６）。そして、撮影カメラ学習装置１は、撮影カメラ２のカメラパラメータが機械学習手段１７に出力される（ステップＳ７）。

ステップＳ７の処理に続いて、撮影カメラ学習装置１は、撮影を終了するか否かを判定する（ステップＳ８）。ここで、予め設定された撮影終了条件を満たすとき（ステップＳ８でＹｅｓ）、撮影カメラ学習装置１は、撮影を終了し、ステップＳ１０の処理に進む。一方、撮影終了条件を満たさないとき（ステップＳ８でＮｏ）、撮影カメラ学習装置１は、ステップＳ４の処理に戻る。

ステップＳ８の処理に続いて、撮影カメラ学習装置１は、機械学習手段１７によって、撮影カメラ２のカメラパラメータの予測値である予測カメラパラメータを機械学習する（ステップＳ９）。

以上のように、本発明の第１実施形態に係る撮影カメラ学習装置１は、予め設定された動きを何度も繰り返し可能なＣＧ被写体ｏｂ１と、本番の放送番組さながらの実写背景ｂｇとを合成したＣＧ合成映像を用いる。これによって、撮影カメラ学習装置１は、繰り返し精度を高くすると共に、カメラマンが本番の放送番組と同様の撮影操作を可能とし、ＣＧ被写体ｏｂ１の位置や動き等の被写体情報に応じた予測カメラパラメータを機械学習できる。さらに、撮影カメラ学習装置１は、この学習結果を用いれば、臨場感のある番組を容易に撮影できる。さらに、実在するモデル等の実写被写体を必要とせずに、ニューラルネットワークによる機械学習を十分に行うことができるため、撮影カメラ学習装置１は、学習回数が多くなる場合であっても安値な学習を可能とし、コスト面で優れる。

なお、第１実施形態では、撮影スタジオにおけるロボットカメラを例に説明したが、これに限定されない。例えば、本発明の第１実施形態に係る撮影カメラ学習装置１は、スポーツ中継等の放送番組を自動撮影する撮影カメラ、又は、映画や遠隔地での講義を自動撮影する撮影カメラに用いることができる。

なお、第１実施形態では、本発明に係る撮影カメラ学習装置１を独立した装置として説明したが、本発明では、一般的なコンピュータのＣＰＵ、記憶手段等のハードウェア資源を、前記した各手段として協調機能させるプログラムによって動作させることもできる。このプログラムは、通信回線を介して配布しても良く、ＣＤ−ＲＯＭやフラッシュメモリ等の記録媒体に書き込んで配布しても良い。

なお、第１実施形態では、ＴＶＭＬを用いる例を説明したが、本発明は、これに限定されない。例えば、ＴＶＭＬの他に、仮想カメラのカメラパラメータを制御でき、かつ、ＣＧ被写体ｏｂ１の被写体情報を取得できるソフトウェアを用いることができる。このようなソフトウェアとしては、ＢｒａｉｎｓｔｏｒｍＭｕｌｔｉｍｅｄｉａ社製の「ＢｒａｉｎｓｔｏｒｍｅＳｔｕｄｉｏ」やｖｉｚｒｔ社製の「ｖｉｚＯＮＡＩＲＧｒａｐｈｉｃｓ」がある。

なお、第１実施形態では、被写体情報として、ＣＧ被写体ｏｂ１の位置情報を用いたが、これに限定されない。例えば、被写体情報は、ＣＧ被写体ｏｂ１の顔の向き等のカメラマンが撮影に必要となる情報であれば良い。

（第２実施形態）
［撮影カメラ学習装置の構成］
図６を参照して、本発明の第２実施形態に係る撮影カメラ学習装置について、第１実施形態と異なる点を主に説明する。図６に示すように、撮影カメラ学習装置１Ｂは、ＴＶＭＬスクリプト記述手段１１と、ＴＶＭＬスクリプト出力手段１２と、ＴＶＭＬプレーヤ（ＣＧ映像出力手段）１３と、カメラパラメータ制御手段１４と、映像合成手段１５と、被写体情報出力手段１６Ｂと、機械学習手段１７Ｂと、ＣＧ合成映像録画手段１８と、撮影カメラ制御手段１９とを備える。

撮影カメラ学習装置１Ｂは、カメラマンの操作によって予測カメラパラメータを学習した後、学習した予測カメラパラメータで撮影カメラ２を自動制御し、本番の放送番組の自動撮影が可能であるか否かの検証を事前に行うものである。

被写体情報出力手段１６Ｂは、ＴＶＭＬプレーヤ１３が出力するＣＧ映像において、ＣＧ被写体ｏｂ１の位置を示す位置情報を含む被写体情報を機械学習手段１７Ｂ及び撮影カメラ制御手段１９に出力するものである。なお、被写体情報出力手段１６Ｂは、図１の被写体情報出力手段１６と同様に被写体情報を取得できるため、その詳細を省略する。

機械学習手段１７Ｂは、図１の機械学習手段１７と同様に学習を行うと共に、学習した撮影カメラ２の予測カメラパラメータを、撮影カメラ制御手段１９に出力するものである。

撮影カメラ制御手段１９は、写体情報出力手段１６Ｂから被写体情報が入力されると共に、被写体情報が示すＣＧ被写体ｏｂ１の位置情報と機械学習手段１７Ｂが学習した予測カメラパラメータとで撮影カメラ２を制御する。ここで、前記したように、機械学習手段１７Ｂが、ＣＧ被写体ｏｂ１の位置情報に対して最適な予測カメラパラメータの値をニューラルネットワークで機械学習している。このため、撮影カメラ制御手段１９は、機械学習手段１７Ｂが機械学習したニューラルネットワークにＣＧ被写体ｏｂ１の位置情報を入力することで、ＣＧ被写体ｏｂ１の位置情報に応じた最適な予測カメラパラメータが出力される。そこで、撮影カメラ制御手段１９は、この予測カメラパラメータで、ＣＧ被写体ｏｂ１が実在するかのように撮影カメラ２を制御することができる。

なお、ＴＶＭＬスクリプト記述手段１１と、ＴＶＭＬスクリプト出力手段１２と、ＴＶＭＬプレーヤ（ＣＧ映像出力手段）１３と、カメラパラメータ制御手段１４と、映像合成手段１５と、ＣＧ合成映像録画手段１８とは、図１の各手段と同様のものであるため、その説明を省略する。

以上のように、本発明の第２実施形態に係る撮影カメラ学習装置１Ｂは、機械学習手段１７Ｂが学習した予測カメラパラメータで、本番の放送番組の自動撮影が可能であるか否かの検証を事前にできる。これによって、撮影カメラ学習装置１Ｂは、本番の放送番組を自動撮影するとき、撮影カメラ２の撮影ミスを低減することができる。

また、例えば、撮影カメラ学習装置１Ｂは、番組毎にＣＧ被写体ｏｂ１の動きをＴＶＭＬスクリプトで記述し、番組毎に異なる撮影セット（撮影スタジオ）を実写背景ｂｇとして、番組毎に撮影カメラ２の予測カメラパラメータを学習させておく。これによって、撮影カメラ学習装置１Ｂは、様々な放送番組に応じたモデルやアナウンサ等の実写被写体を準備することなく、各放送番組の自動撮影が可能であるか否かの検証を容易できる。

＜変形例＞
さらに、本発明の撮影カメラ学習装置は、撮影カメラ２の予測カメラパラメータを学習した後、この予測カメラパラメータを用いて、アナウンサ等の実在する被写体、つまり、実際に放送する番組を撮影することもできる。以下、第２実施形態の変形例として、実在する被写体を撮影する撮影カメラ学習装置１Ｃについて説明する。

図７に示すように、撮影カメラ学習装置１Ｃは、ＴＶＭＬスクリプト記述手段１１と、ＴＶＭＬスクリプト出力手段１２と、ＴＶＭＬプレーヤ（ＣＧ映像出力手段）１３と、カメラパラメータ制御手段１４と、映像合成手段１５と、被写体情報出力手段１６Ｃと、機械学習手段１７Ｃと、ＣＧ合成映像録画手段１８と、撮影カメラ制御手段１９Ｃと、センサカメラ（被写体位置検出手段）２０とを備える。

センサカメラ２０は、被写体を撮影し、実写被写体ｏｂ２の位置を算出するのに必要となる映像信号を生成するものである。ここで、センサカメラ２０は、内蔵する演算手段にて、生成した映像信号フレーム画像ごとに実写被写体ｏｂ２を検出し、撮影スタジオ内における実写被写体ｏｂ２の位置を算出する。そして、センサカメラ２０は、実写被写体ｏｂ２の位置を被写体情報出力手段１６Ｃに出力する。なお、センサカメラ２０は、被写体が撮影できる位置に設置されていればよく、例えば、実写被写体ｏｂ２の上方や背後に設置されることとしてもよい。また、センサカメラ２０の個数はこれに限定されることなく、任意の個数にすることができる。

なお、センサカメラ２０を被写体位置検出手段として説明したが、これに限定されない。例えば、被写体位置検出手段は、実写被写体ｏｂ２に装着され、実写被写体ｏｂ２のＧＰＳ座標等の位置情報を被写体情報出力手段１６Ｃに出力する位置センサ（ＧＰＳセンサ）としても良い（不図示）。

被写体情報出力手段１６Ｃは、被写体情報として、前記したＣＧ被写体ｏｂ１の位置情報の代わりに、センサカメラ２０からの実写被写体ｏｂ２の位置情報を出力するものである。
機械学習手段１７Ｃは、図６の機械学習手段１７Ｂと同様のものである。

撮影カメラ制御手段１９Ｃは、機械学習手段１７Ｃが学習した予測カメラパラメータで撮影カメラ２を制御して、撮影カメラ２に実写被写体ｏｂ２を撮影させるものである。ここで、前記したように、機械学習手段１７Ｂが、ＣＧ被写体ｏｂ１の位置情報に対して最適な予測カメラパラメータの値をニューラルネットワークで機械学習している。このため、撮影カメラ制御手段１９は、機械学習手段１７Ｃが機械学習したニューラルネットワークに実写被写体ｏｂ２の位置情報を入力することで、実写被写体ｏｂ２の位置情報に応じた最適な予測カメラパラメータが出力される。そこで、撮影カメラ制御手段１９は、この予測カメラパラメータで、撮影カメラ２が実写被写体ｏｂ２を撮影するように制御することができる。

以上のように、本発明の第２実施形態の変形例に係る撮影カメラ学習装置１Ｃは、機械学習手段１７Ｃが学習した予測カメラパラメータで、臨場感のある放送番組を自動撮影することができる。これによって、撮影カメラ学習装置１Ｃは、放送番組の制作にかかる手間を削減できるので、安値で良質な放送番組を提供することができる。

なお、撮影カメラ学習装置１Ｃは、撮影カメラ２の予測カメラパラメータを学習した後、本番の放送番組を撮影するときは、ＴＶＭＬスクリプト記述手段１１と、ＴＶＭＬスクリプト出力手段１２と、ＴＶＭＬプレーヤ（ＣＧ映像出力手段）１３と、映像合成手段１５と、ＣＧ合成映像録画手段１８とを必要としない。

１，１Ｂ，１Ｃ撮影カメラ学習装置
１１ＴＶＭＬスクリプト記述手段
１２ＴＶＭＬスクリプト出力手段
１３ＴＶＭＬプレーヤ（ＣＧ映像出力手段）
１４カメラパラメータ制御手段
１５映像合成手段
１６，１６Ｂ，１６Ｃ被写体情報出力手段
１７，１７Ｂ，１７Ｃ機械学習手段
１８ＣＧ合成映像録画手段
１９撮影カメラ制御手段
２０センサカメラ（被写体位置検出手段）
２撮影カメラ
３撮影カメラ操作器
ｂｇ実写背景
ｏｂ１ＣＧ被写体
ｏｂ２実写被写体

Claims

予め設定された動きを行うＣＧ被写体と、撮影カメラで撮影した実写背景とを含むＣＧ合成映像を用いて、当該撮影カメラの学習を行う撮影カメラ学習装置であって、
カメラパラメータを任意に変更できる仮想カメラで前記ＣＧ被写体を撮影したＣＧ映像を出力するＣＧ映像出力手段と、
前記撮影カメラのカメラパラメータが入力されると共に、前記仮想カメラのカメラパラメータの値を前記撮影カメラのカメラパラメータの値に変更するカメラパラメータ制御手段と、
前記撮影カメラが撮影する実写背景の映像と、前記ＣＧ映像出力手段が出力するＣＧ映像とを合成した前記ＣＧ合成映像を出力する映像合成手段と、
前記ＣＧ映像出力手段が出力する前記ＣＧ映像における前記ＣＧ被写体の位置を示す位置情報を含む被写体情報を出力する被写体情報出力手段と、
前記ＣＧ被写体をカメラマンが撮影する操作に応じた前記撮影カメラのカメラパラメータと、前記被写体情報とが入力され、当該撮影カメラのカメラパラメータと当該被写体情報に基づいて、前記撮影カメラのカメラパラメータの予測値である予測カメラパラメータを機械学習する機械学習手段と、
を備えることを特徴とする撮影カメラ学習装置。
前記被写体情報出力手段から被写体情報が入力されると共に、当該被写体情報が示す前記ＣＧ被写体の位置情報と前記機械学習手段が機械学習した予測カメラパラメータとで前記撮影カメラを制御する撮影カメラ制御手段をさらに備えることを特徴とする請求項１に記載の撮影カメラ学習装置。
実在する実写被写体の位置を検出する被写体位置検出手段をさらに備え、
前記被写体情報出力手段は、前記被写体情報として、前記被写体位置検出手段が検出した実写被写体の位置情報を出力し、
前記撮影カメラ制御手段は、前記実写被写体の位置情報と前記機械学習手段が機械学習した予測カメラパラメータとで前記撮影カメラを制御して、当該撮影カメラに、前記実写被写体を撮影させることを特徴とする請求項２に記載の撮影カメラ学習装置。
前記映像合成手段が出力したＣＧ合成映像を表示するＣＧ合成映像表示手段をさらに備えることを特徴とする請求項１から請求項３の何れか一項に記載の撮影カメラ学習装置。
前記映像合成手段が出力したＣＧ合成映像を録画するＣＧ合成映像録画手段（１８）をさらに備えることを特徴とする請求項１から請求項４の何れか一項に記載の撮影カメラ学習装置。
予め設定された動きを行うＣＧ被写体と、撮影カメラで撮影した実写背景とを含むＣＧ合成映像を用いて、当該撮影カメラの学習を行うために、コンピュータを、
カメラパラメータを任意に変更できる仮想カメラで前記ＣＧ被写体を撮影したＣＧ映像を出力するＣＧ映像出力手段、
前記撮影カメラのカメラパラメータが入力されると共に、前記仮想カメラのカメラパラメータの値を前記撮影カメラのカメラパラメータの値に変更するカメラパラメータ制御手段、
前記撮影カメラが撮影する実写背景の映像と、前記ＣＧ映像出力手段が出力するＣＧ映像とを合成した前記ＣＧ合成映像を出力する映像合成手段、
前記ＣＧ映像出力手段が出力する前記ＣＧ映像における前記ＣＧ被写体の位置を示す位置情報を含む被写体情報を出力する被写体情報出力手段、
前記ＣＧ被写体をカメラマンが撮影する操作に応じた前記撮影カメラのカメラパラメータと、前記被写体情報とが入力され、当該撮影カメラのカメラパラメータと当該被写体情報に基づいて、前記撮影カメラのカメラパラメータの予測値である予測カメラパラメータを機械学習する機械学習手段、
として機能させることを特徴とする撮影カメラ学習プログラム。