JP7218728B2

JP7218728B2 - 制御装置および制御方法

Info

Publication number: JP7218728B2
Application number: JP2019560966A
Authority: JP
Inventors: 和博嶋内; 秀敏永野
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2017-12-21
Filing date: 2018-12-07
Publication date: 2023-02-07
Anticipated expiration: 2038-12-07
Also published as: JPWO2019124111A1; US20210185221A1; US11818454B2; US11265461B2; CN111480332B; US20220150402A1; WO2019124111A1; CN111480332A; EP3716607A4; EP3716607A1

Description

本技術は、制御装置および制御方法に関し、特に、コストを抑えた撮影システムを提供することができるようにした制御装置および制御方法に関する。

近年、大学などの学校における講義の様子を収録し、遠隔地での講義の受講を実現するレクチャーキャプチャーシステムが提供されている。

特許文献１には、講師と聴講者を撮影することで、講師のトラッキングと聴講者の起立動作の検出を行い、必要に応じて講師と聴講者の映像をスイッチングしたり、両者の映像を１つの映像に合成して出力するレクチャーキャプチャーシステムが開示されている。

特許文献１のシステムにおいては、講師のトラッキングと聴講者の起立動作の検出のために、講師と聴講者を俯瞰可能な２台の俯瞰カメラと、それぞれの俯瞰カメラにより検出された講師と聴講者を追尾する２台の追尾用カメラが設けられている。それぞれの追尾用カメラは、パン・チルト・ズーム可能な駆動型カメラで、適切な画角で被写体を捉えて映像を撮影することができる。

特開２００５－３３５７０号公報

ところで、従来、異なる方向の撮影を、それぞれの撮影対象となる被写体の状況に応じて制御することができていれば、カメラの台数を削減でき、システムのコストを抑えることができた。

本技術は、このような状況に鑑みてなされたものであり、コストを抑えた撮影システムを提供することができるようにするものである。

本技術の制御装置は、第１の人物を撮影する第１の撮影部による第１の画像、または、前記第１の人物がいる方向とは異なる方向にいる第２の人物を撮影する第２の撮影部による第２の画像の、被写体の挙動である起立、着席、挙手、および移動の少なくともいずれかを含む動作と、前記第１の撮影部および前記第２の撮影部を含む制御対象についての状態の遷移を表し、前記第１の画像または前記第２の画像の前記被写体の動作の変化に基づく前記状態の遷移条件が記述されたシナリオに基づいて、前記第１の撮影部の第１の撮影方向、および、前記第１の撮影方向とは異なる前記第２の撮影部の第２の撮影方向を制御する。

本技術の制御方法は、制御装置が、第１の人物を撮影する第１の撮影部による第１の画像、または、前記第１の人物がいる方向とは異なる方向にいる第２の人物を撮影する第２の撮影部による第２の画像の、被写体の挙動である起立、着席、挙手、および移動の少なくともいずれかを含む動作と、前記第１の撮影部および前記第２の撮影部を含む制御対象についての状態の遷移を表し、前記第１の画像または前記第２の画像の前記被写体の動作の変化に基づく前記状態の遷移条件が記述されたシナリオに基づいて、前記第１の撮影部の第１の撮影方向、および、前記第１の撮影方向とは異なる前記第２の撮影部の第２の撮影方向を制御する。

本技術においては、第１の人物を撮影する第１の撮影部による第１の画像、または、前記第１の人物がいる方向とは異なる方向にいる第２の人物を撮影する第２の撮影部による第２の画像の、被写体の挙動である起立、着席、挙手、および移動の少なくともいずれかを含む動作と、前記第１の撮影部および前記第２の撮影部を含む制御対象についての状態の遷移を表し、前記第１の画像または前記第２の画像の前記被写体の動作の変化に基づく前記状態の遷移条件が記述されたシナリオに基づいて、前記第１の撮影部の第１の撮影方向、および、前記第１の撮影方向とは異なる前記第２の撮影部の第２の撮影方向が制御される。

本技術によれば、コストを抑えた撮影システムを提供することが可能となる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用した撮影システムの構成例を示す図である。カメラ制御装置の機能構成例を示すブロック図である。カメラ制御部によって設定されるプリセット位置の例を示す図である。制御装置の機能構成例を示すブロック図である。シナリオの記述例を示す図である。 Stateの詳細を示す図である。 Stateの詳細を示す図である。 Stateの詳細を示す図である。シナリオに基づいた撮影システムの動作例を示す図である。シナリオに基づいた撮影システムの動作例を示す図である。シナリオに基づいた撮影システムの動作例を示す図である。編集されたシナリオに基づいた撮影システムの動作例を示す図である。編集後のシナリオの記述例を示す図である。 Stateの詳細を示す図である。シナリオの編集に用いるＧＵＩの例を示す図である。シナリオの編集に用いるＧＵＩの例を示す図である。シナリオの編集に用いるＧＵＩの例を示す図である。ジェスチャの定義・登録に用いるＧＵＩの例を示す図である。撮影システムの他の構成例を示す図である。カメラ制御装置の機能構成例を示すブロック図である。シナリオの記述例を示す図である。 Stateの詳細を示す図である。 Stateの詳細を示す図である。シナリオに基づいた撮影システムの動作例を示す図である。撮影システムのさらに他の構成例を示す図である。シナリオの記述例を示す図である。 Stateの詳細を示す図である。 Stateの詳細を示す図である。 Stateの詳細を示す図である。シナリオに基づいた撮影システムの動作例を示す図である。撮影システムのさらに他の構成例を示す図である。カメラ制御装置の機能構成例を示すブロック図である。 Stateの詳細を示す図である。タイムライン形式のシナリオの記述例を示す図である。コンピュータの構成例を示すブロック図である。手術室システムの全体構成を概略的に示す図である。集中操作パネルにおける操作画面の表示例を示す図である。手術室システムが適用された手術の様子の一例を示す図である。図３８に示すカメラヘッド及びＣＣＵの機能構成の一例を示すブロック図である。

以下、本開示を実施するための形態（以下、実施の形態とする）について説明する。なお、説明は以下の順序で行う。

０．従来のレクチャーキャプチャーシステムにおける課題
１．第１の実施の形態（撮影システムの基本的な構成と動作）
２．第２の実施の形態（板書内容を出力する構成）
３．第３の実施の形態（プレゼンテーション用スライドを出力する構成）
４．その他のバリエーション例
５．応用例

＜０．従来のレクチャーキャプチャーシステムにおける課題＞
従来、講師と聴講者を撮影することで、講師のトラッキングと聴講者の起立動作の検出を行い、必要に応じて講師と聴講者の映像をスイッチングしたり、両者の映像を一つの映像に合成して出力するレクチャーキャプチャーシステムが知られている。

このようなシステムにおいては、講師のトラッキングと聴講者の起立動作の検出のために、講師と聴講者を俯瞰可能な２台の俯瞰カメラと、それぞれの俯瞰カメラにより検出された講師と聴講者を追尾する２台の追尾用カメラが設けられている。

しかしながら、従来のレクチャーキャプチャーシステムには、以下のような課題があった。

（課題１）
このようなシステムにおいては、被写体を追尾して撮影する追尾用カメラに加えて、被写体を検出する俯瞰カメラが必要なため、システムのコストがかかっていた。

（課題２）
また、このようなシステム全体の動作の手順（例えば、俯瞰カメラによって聴講者の起立動作が検出されたときに、追尾用カメラでその聴講者をズームインするなど）は、あらかじめシステム設計者によって決められている。そのため、ユーザが、システムの動作を任意に変更することは、一般的には困難であった。

例えば、講師によって講義のスタイルはそれぞれ異なるが、従来のシステムにおいては、講師は、あらかじめ決められた動作を意識して講義を進めざるを得ず、本来のスタイルの講義を行うことができなかった。

加えて、従来のシステムにおいては、システム構成の変更（例えば、追尾用カメラの数の増減や、機能・性能の異なるカメラを組み合わせての利用など）に対して柔軟に対応することも困難であった。

（課題３）
さらに、従来のシステムは、主に、講師と聴講者の撮影を念頭において設計されていた。そのため、講義で用いた板書やプレゼンテーション用のスライドは鮮明に記録されず、視聴者は、板書やプレゼンテーションの内容を詳細に理解することが難しかった。

そこで、以下においては、上記の課題を解決するためのシステムの構成と動作について説明する。

本実施の形態における撮影システムにおいては、制御部が、第１の画像または第２の画像に関する被写体の状況に応じて、第１のカメラの第１の撮影方向、および、第２のカメラの第１の撮影方向とは異なる第２の撮影方向を制御する。第１の撮影方向が制御されることで、第１のカメラが撮影する範囲が制御され、第２の撮影方向が制御されることで、第２のカメラが撮影する範囲が制御される。

第１の画像または第２の画像に関する被写体には、後述する講師や聴講者などの人物はもちろん、板書に用いられる黒板やホワイトボード、さらには、ＰＣ（Personal Computer）により出力されるスライドや資料が含まれてもよい。

＜１．第１の実施の形態＞
（撮影システムの構成例）
図１は、本技術を適用した撮影システムの構成例を示す図である。

図１の撮影システムは、レクチャーキャプチャーシステムとして構成され、講師Ｌ１が複数の聴講者Ａ１に対して講義を行う教室や講堂などに設置される。

図１の撮影システムは、講師用カメラ１１－１、聴講者用カメラ１１－２、講師用カメラ制御装置１２－１、聴講者用カメラ制御装置１２－２、および制御装置１３から構成される。制御装置１３には、入出力装置１４と記録装置１５が付随し、さらにネットワーク１６を介して、情報処理端末１７が接続される。

第１の撮影部としての講師用カメラ１１－１は、講師用カメラ制御装置１２－１の制御の下、講師Ｌ１を撮影し、得られた画像（講師用カメラ画像）を講師用カメラ制御装置１２－１に出力する。

第２の撮影部としての聴講者用カメラ１１－２は、聴講者用カメラ制御装置１２－２の制御の下、講師Ｌ１がいる方向とは異なる方向にいる聴講者Ａ１を撮影し、得られた画像（聴講者用カメラ画像）を聴講者用カメラ制御装置１２－２に出力する。

講師用カメラ１１－１と聴講者用カメラ１１－２は、例えば、教室の前（教壇側）と後ろに、互いに対向するように（それぞれの撮影方向が向かい合うように）設置されることで、講師Ｌ１がいる方向の撮影と聴講者Ａ１がいる方向の撮影を行う。

講師用カメラ１１－１と聴講者用カメラ１１－２は、撮影の対象となる被写体が講師Ｌ１であるか聴講者Ａ１であるかの違いだけで、同様の構成を有するものであってよい。例えば、講師用カメラ１１－１と聴講者用カメラ１１－２は、それぞれ、機械的にパン・チルトする機能を備えつつ、光学的・電子的にズーム可能なＰＴＺカメラとして構成される。

なお、講師用カメラ１１－１と聴講者用カメラ１１－２は、俯瞰カメラを設けることなく、互いに異なる方向にいる被写体（言い換えると、異なる種類の被写体）をそれぞれ撮影できればよく、その配置は、上述したものに限られない。

例えば、講師用カメラ１１－１を、教室の前方を１２時の方向としたとき、教室の中央付近に、１２時の方向を撮影するように設置する。この場合、聴講者用カメラ１１－２は、教室の中央付近に、聴講者Ａ１がいる方向に合わせて、６時の方向を撮影するように配置されたり、３時の方向や９時の方向を撮影するように配置されればよい。

また例えば、講師Ｌ１が２人いる場合には、２台の講師用カメラ１１－１を、教室の前方を１２時の方向としたとき、教室の中央付近に、それぞれ１０時の方向と２時の方向を撮影するように設置してもよい。

また、講師用カメラ１１－１と聴講者用カメラ１１－２は、単体の３６０度カメラや魚眼カメラ（１つの撮影装置）として構成されるようにしてもよい。この場合、３６０度カメラや魚眼カメラにより得られた全天球画像や広角画像から、講師Ｌ１がいる方向の画像と聴講者Ａ１がいる方向の画像が切り出されることで、講師用カメラ画像と聴講者用カメラ画像が得られるようにする。

このように、本技術を適用した撮影システムにおいては、異なる方向を撮影するように複数のカメラが設置されるだけに限らず、撮影範囲（画角や撮影方向）の異なる画像が得られればよい。

以下において、講師用カメラ１１－１と聴講者用カメラ１１－２とをそれぞれ区別しない場合には、単に、カメラ１１といい、カメラ１１により出力される画像をカメラ画像という。また、以下においては、カメラ画像は、動画像であるものとするが、静止画像や、時間的に連続して撮影されることで得られる連写画像であってもよい。

講師用カメラ制御装置１２－１は、制御装置１３の制御の下、講師用カメラ１１－１の画角や撮影方向を制御することで、講師用カメラ１１－１の撮影範囲を制御する。講師用カメラ１１－１により出力される講師用カメラ画像は、制御装置１３に出力される。また、講師用カメラ制御装置１２－１は、制御装置１３からの演算・制御の指示を受け、演算・制御の結果を制御装置１３に出力する。

聴講者用カメラ制御装置１２－２は、制御装置１３の制御の下、聴講者用カメラ１１－２の画角や撮影方向を制御することで、聴講者用カメラ１１－２の撮影範囲を制御する。聴講者用カメラ１１－２により出力される聴講者用カメラ画像は、制御装置１３に出力される。また、聴講者用カメラ制御装置１２－２は、制御装置１３からの演算・制御の指示を受け、演算・制御結果を制御装置１３に出力する。

講師用カメラ制御装置１２－１と聴講者用カメラ制御装置１２－２は、制御の対象が講師用カメラ１１－１であるか聴講者用カメラ１１－２であるかの違いだけで、同様の構成を有するものであってよい。

以下において、講師用カメラ制御装置１２－１と聴講者用カメラ制御装置１２－２とをそれぞれ区別しない場合には、単に、カメラ制御装置１２という。なお、カメラ制御装置１２は、カメラ１１に内蔵されるようにしてもよい。

また、カメラ１１が、単体の３６０度カメラや魚眼カメラとして構成される場合には、単体のカメラ制御装置１２が設けられ、そのカメラ制御装置１２が、全天球画像や広角画像から講師用カメラ画像と聴講者用カメラ画像を切り出す範囲を制御する。

以上のように、カメラ制御装置１２は、カメラ１１それぞれの画角や撮影方向、全天球画像や広角画像を切り出す範囲を制御することで、講師用カメラ画像と聴講者用カメラ画像の撮影範囲を制御する。

制御装置１３は、複数のカメラ制御装置１２（講師用カメラ制御装置１２－１と聴講者用カメラ制御装置１２－２）を制御することで、カメラ制御装置１２それぞれにより出力されるカメラ画像を取得し、スイッチングしたり、１つの画像に合成するなどして出力する。出力されたカメラ画像は、記録装置１５に記録されたり、ネットワーク１６を介して情報処理端末１７に伝送される。

また、制御装置１３は、カメラ制御装置１２それぞれに対して、演算・制御の指示を出力し、カメラ制御装置１２それぞれからの演算・制御の結果を取得する。制御装置１３は、カメラ制御装置１２からの演算・制御の結果を基に、カメラ制御装置１２を制御する。

なお、カメラ制御装置１２と制御装置１３は、それぞれの機能を有する専用のハードウェアにより構成されてもよいし、一般的なコンピュータにより構成され、それぞれの機能がソフトウェアにより実現されてもよい。また、カメラ制御装置１２と制御装置１３は、それぞれ別個に構成されるのではなく、１つの制御装置として一体に構成されるようにしてもよい。

入出力装置１４は、ユーザの操作を受け付けるキーボードやマウス、さらには、表示機能を有するディスプレイなどにより構成される。このディスプレイには、タッチパネルの機能が設けられていてもよい。制御装置１３は、入出力装置１４によって受け付けられたシステム設計者やユーザの操作に基づいて、撮影システムを構成する各装置の動作の手順（各装置の動作をどのようにして実現するか）を表すシナリオを定義し、撮影システムの動作を制御する。シナリオの詳細については後述する。

情報処理端末１７は、講師Ｌ１による講義が行われる空間内、または、遠隔地にいる視聴者が、制御装置１３によって出力された画像を視聴するための端末である。

情報処理端末１７は、その機能を有する専用のハードウェアにより構成されてもよいし、一般的なコンピュータにより構成され、その機能がソフトウェアにより実現されてもよい。また、情報処理端末１７に、カメラやマイクロフォンなどを設け、視聴者のいる空間の画像や音声などが、ネットワーク１６を介して、制御装置１３に伝送されるようにしてもよい。

（カメラ制御装置の機能構成例）
図２は、上述したカメラ制御装置１２（講師用カメラ制御装置１２－１と聴講者用カメラ制御装置１２－２）の機能構成例を示すブロック図である。

カメラ制御装置１２は、動体検知部２１、ジェスチャ検知部２２、トラッキング部２３、およびカメラ制御部２４を備えている。

動体検知部２１は、カメラ１１からのカメラ画像（画像信号）を取得し、カメラ制御部２４の制御の下、カメラ画像中の動体を検知する。検知された動体の位置（座標など）や形状を表す情報は、カメラ制御部２４に供給される。

ジェスチャ検知部２２は、カメラ１１からのカメラ画像（画像信号）を取得し、カメラ制御部２４の制御の下、カメラ画像中の被写体（講師Ｌ１や聴講者Ａ１）のジェスチャ（動作）を検知する。検知されたジェスチャの種類やその姿勢を表す情報は、カメラ制御部２４に供給される。

トラッキング部２３は、カメラ１１からのカメラ画像（画像信号）を取得し、カメラ制御部２４の制御の下、カメラ画像中の被写体をトラッキングする。トラッキング対象となった被写体の位置（座標など）や形状を表す情報は、カメラ制御部２４に供給される。

カメラ制御部２４は、動体検知部２１、ジェスチャ検知部２２、およびトラッキング部２３の各部を制御し、その結果、各部から得られた情報に基づいて、カメラ１１の適切な画角やカメラワークを算出する。カメラ制御部２４は、その算出結果を表すカメラ制御信号に基づいて、カメラ１１を制御する。

また、カメラ制御部２４は、制御装置１３との間で、後述するシナリオを実行するための情報や、カメラ１１の状態や演算・制御の結果を表す情報などを、装置制御信号としてやりとりする。

カメラ制御部２４が、動体検知部２１、ジェスチャ検知部２２、およびトラッキング部２３の各部を制御する際、例えば、講師用カメラ画像の画角のプリセット位置として、図３の枠ＰＦで示されるようなプリセット位置が設定される。図３においては、教室の黒板と教壇（教卓）を中心とした範囲が、プリセット位置（枠ＰＦ）に設定されている。

カメラ制御部２４は、例えば、講師Ｌ１が教壇に立ったとき、すなわち、講師用カメラ画像においてプリセットされた枠ＰＦ内で、動体検知部２１によって動体が検知されたとき、その検知をトリガとして、トラッキング部２３に制御を移行する。カメラ制御部２４は、トラッキング部２３による被写体（講師Ｌ１）のトラッキングの結果得られた情報に基づいて、講師用カメラ１１－１の適切な画角を算出し、パン・チルト・ズームを制御するカメラ制御信号を生成して、講師用カメラ１１－１を制御する。

（制御装置の機能構成例）
図４は、上述した制御装置１３の機能構成例を示すブロック図である。

制御装置１３は、中央制御部３１、シナリオ生成部３２、およびスイッチャ３３を備えている。

中央制御部３１は、あらかじめ定義されたシナリオ（後述）に基づいて、撮影システム全体の動作の制御を実行する。例えば、中央制御部３１は、講師用カメラ画像、または、聴講者用カメラ画像に関する被写体の状況に応じて、講師用カメラ１１－１（講師Ｌ１がいる方向）の撮影、および聴講者用カメラ１１－２（聴講者Ａ１がいる方向）の撮影を統括的に制御する。

具体的には、中央制御部３１は、講師用カメラ制御装置１２－１を制御することで講師用カメラ画像を取得するとともに、聴講者用カメラ制御装置１２－２を制御することで聴講者用カメラ画像を取得する。そして、中央制御部３１は、シナリオに従って、講師用カメラ画像または聴講者用カメラ画像の被写体の状況に応じて、各カメラ１１の撮影（各カメラ制御装置１２の動作）を制御したり、得られたカメラ画像の少なくともいずれかの出力（スイッチャ３３の動作）を制御する。

被写体の状況とは、例えば、被写体の挙動をいう。被写体の挙動は、被写体の動作であってもよいし、被写体の発する音であってもよい。具体的には、被写体の動作には、例えば、ジェスチャ検知により検知されるような起立、着席、挙手、拍手の他、物事を説明する際の身振り手振りや指差しなどの各動作、上述したプリセット位置への移動や、プリセット位置からの移動などが含まれる。被写体が発する音には、例えば、相手への呼びかけやそれに対する返事などの発話音声、拍手の音の他、チャイムなどが含まれる。

すなわち、本実施の形態の撮影システムにおいては、このような被写体の状況に応じて、カメラ１１（講師用カメラ１１－１や聴講者用カメラ１１－２）の画角や撮影方向（カメラ１１それぞれの撮影範囲）が制御される。

これに加えて、例えば、カメラ１１により取得されたカメラ画像において、被写体の状況として、複数の被写体同士が重なって写ったことが検知された場合に、カメラ１１の撮影方向が制御されるようにしてもよい。また、カメラ１１により取得されたカメラ画像において、被写体の状況として、同じ種類の被写体が写ったことが検知された場合に、カメラ１１の画角や撮影方向が制御されるようにしてもよい。

シナリオは、動作の制御対象となる各カメラ制御装置１２とスイッチャ３３についての状態の遷移が記述された情報である。具体的には、シナリオには、撮影システム全体がとる複数の状態（State）について、その状態毎に、各制御対象それぞれが実行する動作（Behavior）と、他の状態へ遷移するためのトリガ（Event）が記述される。

中央制御部３１は、各カメラ制御装置１２とスイッチャ３３に対して、シナリオに記述されているBehaviorとEventを装置制御信号として要求することで、各カメラ制御装置１２とスイッチャ３３の状態（State）を管理し、その動作を制御する。シナリオ実行の開始や終了、どのシナリオを実行するかの選択などのユーザとの基本的な対話は、入出力装置１４から供給される操作信号に基づいて行われる。

中央制御部３１は、あらかじめ定義されたシナリオだけでなく、シナリオ生成部３２により生成されたシナリオを実行することもできる。

シナリオ生成部３２は、ユーザによるシナリオの定義・生成を可能とする。シナリオ生成のためのユーザとの基本的な対話は、入出力装置１４から供給される操作信号に基づいて行われる。生成されたシナリオは、中央制御部３１に供給される。

出力制御部としてのスイッチャ３３は、中央制御部３１の制御の下、各カメラ制御装置１２それぞれにより出力されるカメラ画像（画像信号）を取得し、そのいずれか１つの画像信号を切り替えて出力したり、複数の画像信号を合成して出力する。出力された画像信号は、記録装置１５に記録されたり、ネットワーク１６を介して情報処理端末１７に伝送される。

スイッチャ３３によるカメラ画像（画像信号）の合成としては、２つの画像を横に並べたサイド・バイ・サイド合成、一方の画像の中で他方の画像を表示するピクチャ・イン・ピクチャ合成、２つの画像を重ねるオーバーレイ合成などがある。

なお、図４の例では、スイッチャ３３は、制御装置１３に内蔵されるものとしたが、制御装置１３から分離され独立した装置として構成されるようにしてもよい。

（シナリオの記述例）
ここで、図５を参照して、シナリオの記述例について説明する。

図５に示されるように、シナリオは、少なくとも１つのEntry Point（ＥＰ）と、少なくとも１つのStateを有する。

ＥＰは、シナリオの開始点を示し、ユーザによりシナリオの実行開始が指示されると、ＥＰからシナリオ実行の処理が開始される。

各Stateには、BehaviorとEventが記述されている。

Behaviorには、動作の制御対象となる、制御装置１３（中央制御部３１）に接続された各装置が実行する動作が記述されている。

Eventには、他の状態へ遷移するためのトリガとして、他の状態への遷移条件となる制御対象の動作結果と、その遷移条件に対応付けられた状態の遷移先が記述されている。

したがって、あるStateにおいて、制御対象それぞれが、そのStateのBehaviorに記述されている動作を実行しているとき、制御対象のいずれかが、そのStateのEventに記述されている遷移条件を満たした場合、その遷移条件に付けられて記述されている他のStateに遷移する。このように、シナリオは、Eventに基づいたStateからStateへの遷移を網羅的に表現したものということができる。

なお、遷移条件は、講師用カメラ画像の被写体（講師Ｌ１）や聴講者用カメラ画像の被写体（聴講者Ａ１）の状況の変化に基づくものとされる。詳細は後述するが、遷移条件は、例えば、講師Ｌ１の移動に基づくものであったり、聴講者Ａ１の動作に基づくものであったりする。

図５の例では、１つのＥＰと、６つのStateＡ乃至StateＦが示されており、各Stateは、単方向または双方向の矢印により結ばれている。撮影システムの状態は、これらの矢印に従って、ＥＰから各State間を遷移する。

図６乃至図８は、StateＡ乃至StateＦの詳細を示す図である。

各StateのBehaviorには、中央制御部３１に接続されたリソース（講師用カメラ制御装置１２－１、聴講者用カメラ制御装置１２－２、およびスイッチャ３３の各装置）それぞれが実行する動作が記述されている。

講師用カメラ制御装置１２－１と聴講者用カメラ制御装置１２－２については、カメラ１１の撮影制御に関する動作（上段）と、各カメラ制御装置１２が行う各演算（下段）とが記述されている。スイッチャ３３については、画像出力に関する動作が記述されている。

Behaviorにおける各装置の動作の内容や数は、各装置が備える機能の内容や数に応じて異なる。そのため、中央制御部３１は、接続されている各装置に問い合わせることで、各装置が備える機能の内容や数を把握することができるようになされている。

各StateのEventには、次の状態への遷移条件となるリソース（装置）の動作結果と、状態の遷移先が記述されている。遷移先とその遷移条件は、Eventによって、１つのみ記述される場合もあれば、複数記述される場合もある。また、Eventは、State毎の記述に限らず、各State共通で記述されることもできる。例えば、いずれのStateであっても、エラーが発生した場合や、ユーザによる割り込みがあった場合などに、強制的に他の状態に遷移するための条件とその遷移先が、各State共通のEventとして１または複数、記述されるようにできる。

StateＡ（図６）のBehaviorには、講師用カメラ制御装置１２－１の動作として、（講師用カメラ１１－１が）Wide側で固定撮影することと、プリセット位置（教壇）での動体検知を実行することが記述されている。また、聴講者用カメラ制御装置１２－２の動作として、（聴講者用カメラ１１－２が）Wide側で固定撮影することが記述されている。さらに、スイッチャ３３の動作として、講師用カメラ画像を出力することが記述されている。

StateＡのEventには、講師用カメラ制御装置１２－１が、プリセット位置（教壇）での動体を検知した場合には、状態がStateＢに遷移することが記述されている。

StateＢ（図６）のBehaviorには、講師用カメラ制御装置１２－１の動作として、（講師用カメラ１１－１が）Tele側でパン・チルト撮影することと、トラッキングを実行することが記述されている。また、聴講者用カメラ制御装置１２－２の動作として、（聴講者用カメラ１１－２が）Wide側で固定撮影することと、ジェスチャ（起立）検知を実行することが記述されている。さらに、スイッチャ３３の動作として、講師用カメラ画像を出力することが記述されている。

StateＢのEventには、聴講者用カメラ制御装置１２－２が、ジェスチャ（起立）を検知した場合には、状態がStateＣに遷移することが記述されている。

StateＣ（図７）のBehaviorには、講師用カメラ制御装置１２－１の動作として、（講師用カメラ１１－１が）Tele側でパン・チルト撮影することと、トラッキングを実行することが記述されている。また、聴講者用カメラ制御装置１２－２の動作として、（聴講者用カメラ１１－２が）Tele側でパン・チルト撮影することと、トラッキングとジェスチャ（着席）検知を実行することが記述されている。さらに、スイッチャ３３の動作として、聴講者用カメラ画像を出力することが記述されている。

StateＣのEventには、聴講者用カメラ制御装置１２－２が、一定時間以上、トラッキング対象が一定距離未満しか移動しないと判定した場合には、状態がStateＤに遷移することが記述されている。また、聴講者用カメラ制御装置１２－２が、一定時間未満の間に、トラッキング対象が一定距離以上移動しないと判定した場合には、状態がStateＥに遷移することが記述されている。さらに、聴講者用カメラ制御装置１２－２が、一定時間未満の間に、ジェスチャ（着席）を検知した場合には、状態がStateＢに遷移することが記述されている。

StateＤ（図７）のBehaviorには、講師用カメラ制御装置１２－１の動作として、（講師用カメラ１１－１が）Tele側でパン・チルト撮影することと、トラッキングを実行することが記述されている。また、聴講者用カメラ制御装置１２－２の動作として、（聴講者用カメラ１１－２が）Tele側でパン・チルト撮影することと、ジェスチャ（着席）検知を実行することが記述されている。さらに、スイッチャ３３の動作として、講師用カメラ画像と聴講者用カメラ画像をサイド・バイ・サイド合成して出力することが記述されている。

StateＤのEventには、聴講者用カメラ制御装置１２－２が、ジェスチャ（着席）を検知した場合には、状態がStateＢに遷移することが記述されている。

StateＥ（図８）のBehaviorには、講師用カメラ制御装置１２－１の動作として、（講師用カメラ１１－１が）Tele側で固定撮影することと、動体検知を実行することが記述されている。また、聴講者用カメラ制御装置１２－２の動作として、（聴講者用カメラ１１－２が）Tele側でパン・チルト撮影することと、トラッキングを実行することが記述されている。さらに、スイッチャ３３の動作として、聴講者用カメラ画像を出力することが記述されている。

StateＥのEventには、講師用カメラ制御装置１２－１が、プリセット位置（教壇）に複数の動体（すなわち講師と聴講者の２人以上）を検知した場合には、状態がStateＦに遷移することが記述されている。

StateＦ（図８）のBehaviorには、講師用カメラ制御装置１２－１の動作として、（講師用カメラ１１－１が）Tele側でパン・チルト撮影することと、トラッキングを実行することが記述されている。ここでのパン・チルト撮影とトラッキングは、複数人に対応するようにして行われる。また、聴講者用カメラ制御装置１２－２の動作として、（聴講者用カメラ１１－２が）Wide側で固定撮影することが記述されている。さらに、スイッチャ３３の動作として、講師用カメラ画像を出力することが記述されている。

StateＦのEventには、講師用カメラ制御装置１２－１が、プリセット位置（教壇）の外側へ聴講者が移動したと判断した場合には、状態がStateＢに遷移することが記述されている。

さらに、各State共通（図８）のEventとして、中央制御部３１が、ユーザから終了を指示された場合には、撮影システム全体の動作を終了することが記述されている。また、撮影システムを構成する全リソース（装置）のいずれかでエラーが発生した場合には、状態がStateＢに遷移することが記述されている。

（シナリオに基づいた撮影システムの動作例）
以下においては、上述したシナリオに基づいた撮影システムの動作例について説明する。

なお、本実施の形態におけるシナリオに基づいた撮影システムの動作は、特定の撮影モードが設定された場合にのみ実行されるようにしてもよい。特定の撮影モードは、例えば、被写体（講師Ｌ１および聴講者Ａ１それぞれ）がカメラ画像において検出されたことをトリガに設定されたり、ユーザの操作によって設定されるようにできる。また、あらかじめ設定された講義の開始時刻になったことをトリガに、特定の撮影モードが設定されるようにしてもよい。

図９は、図１の撮影システムにおいて、講師Ｌ１が教壇に立った後、聴講者Ａ１の１人が質問のために起立するまでのシーンを示しており、上述したシナリオのStateＡからStateＣまでの遷移に対応する。なお、この例では、図９に示されるように、講師用カメラ１１－１は、講師Ｌ１を撮影するよう、講義が行われる教室の後方中央に配置され、聴講者用カメラ１１－２は、聴講者Ａ１全体を撮影するよう、教室の前方右側に配置されている。

以降、シナリオに基づいた撮影システムの動作例を示す図において、上段には、State毎に、講義が行われる教室の上面図が示され、中段と下段には、State毎に、それぞれ講師用カメラ画像と聴講者用カメラ画像が示されるものとする。教室の上面図には、講師用カメラ１１－１と聴講者用カメラ１１－２の画角（撮影範囲）が破線で示されるとともに、講師Ｌ１や聴講者Ａ１の位置が示されている。また、講師用カメラ画像と聴講者用カメラ画像のうち、太枠で囲われ、太い破線矢印で結ばれている画像は、スイッチャ３３により出力される画像を示している。

まず、ユーザが入出力装置１４を介して、制御装置１３（中央制御部３１）に対してシナリオ実行の指示を行うと、状態はＥＰ（Entry Point）からStateＡに遷移する。このとき、中央制御部３１は、講師用カメラ制御装置１２－１、聴講者用カメラ制御装置１２－２、およびスイッチャ３３に対して、StateＡ（図６）のBehaviorに記述された動作を指示する。

これにより、図９のStateＡに示されるように、講師用カメラ制御装置１２－１は、カメラ制御信号により、講師用カメラ１１－１にWide側での固定撮影を指示するとともに、講師用カメラ画像において、教壇にプリセット位置を設定した状態で動体検知を実行する。

また、聴講者用カメラ制御装置１２－２は、カメラ制御信号により、聴講者用カメラ１１－２にWide側での固定撮影を指示する。

そして、スイッチャ３３は、太枠で囲われている講師用カメラ画像を出力する。

この状態で、StateＡ（図６）のEventに記述されているように、講師用カメラ制御装置１２－１が、講師用カメラ画像においてプリセット位置（教壇）で動体（講師Ｌ１）を検知すると、状態はStateＢに遷移する。このとき、中央制御部３１は、講師用カメラ制御装置１２－１、聴講者用カメラ制御装置１２－２、およびスイッチャ３３に対して、StateＢ（図６）のBehaviorに記述された動作を指示する。

これにより、図９のStateＢに示されるように、講師用カメラ制御装置１２－１は、講師用カメラ画像において、講師Ｌ１のトラッキングを実行する。また、講師用カメラ制御装置１２－１は、トラッキング結果に基づいて、適切な画角で講師Ｌ１を捉えるよう、カメラ制御信号により、講師用カメラ１１－１にTele側でのパン・チルト撮影を指示する。ここでの適切な画角は、講師Ｌ１のバストアップを捉える画角とされる。

また、聴講者用カメラ制御装置１２－２は、カメラ制御信号により、StateＡから引き続き、聴講者用カメラ１１－２にWide側での固定撮影を指示するとともに、聴講者用カメラ画像において、ジェスチャ（起立）検知を実行する。

そして、スイッチャ３３は、StateＡから引き続き、太枠で囲われている講師用カメラ画像を出力する。

この状態で、StateＢ（図６）のEventに記述されているように、聴講者用カメラ制御装置１２－２が、聴講者用カメラ画像においてジェスチャ（起立）を検知すると、状態はStateＣに遷移する。このとき、中央制御部３１は、講師用カメラ制御装置１２－１、聴講者用カメラ制御装置１２－２、およびスイッチャ３３に対して、StateＣ（図７）のBehaviorに記述された動作を指示する。

これにより、図９のStateＣに示されるように、講師用カメラ制御装置１２－１は、StateＢと同様の動作を継続する。

また、聴講者用カメラ制御装置１２－２は、聴講者用カメラ画像において、聴講者Ａ１のトラッキングを実行する。また、聴講者用カメラ制御装置１２－２は、トラッキング結果に基づいて、適切な画角で聴講者Ａ１を捉えるよう、カメラ制御信号により、聴講者用カメラ１１－２にTele側でのパン・チルト撮影を指示する。ここでの適切な画角は、聴講者Ａ１のバストアップを捉える画角とされる。さらに、聴講者用カメラ制御装置１２－２は、聴講者用カメラ画像において、起立している聴講者Ａ１のジェスチャ（着席）検知を実行する。

そして、スイッチャ３３は、講師用カメラ画像から切り替えて、太枠で囲われている聴講者用カメラ画像を出力する。

この状態からは、StateＣ（図７）のEventに記述されているように、聴講者用カメラ制御装置１２－２の動作結果に応じて、状態はStateＤ，StateＥ，StateＢのいずれかに遷移する。

図１０は、図１の撮影システムにおいて、聴講者Ａ１が起立した後、その場で回答し、着席するまでのシーンを示しており、上述したシナリオのStateＣ，StateＤ，StateＢの遷移に対応する。

すなわち、図１０のStateＣにおいて、StateＣ（図７）のEventに記述されているように、聴講者用カメラ制御装置１２－２が、聴講者用カメラ画像において、一定時間以上、トラッキング対象が一定距離未満しか移動しない（聴講者Ａ１が席で起立したまま回答した）と判定すると、状態はStateＤに遷移する。このとき、中央制御部３１は、講師用カメラ制御装置１２－１、聴講者用カメラ制御装置１２－２、およびスイッチャ３３に対して、StateＤ（図７）のBehaviorに記述された動作を指示する。

これにより、図１０のStateＤに示されるように、講師用カメラ制御装置１２－１は、StateＣと同様の動作を継続する。

また、聴講者用カメラ制御装置１２－２は、聴講者用カメラ画像において、起立している聴講者Ａ１のジェスチャ（着席）検知を実行する。

そして、スイッチャ３３は、講師用カメラ画像と聴講者用カメラ画像をサイド・バイ・サイド合成して出力する。これにより、講師Ｌ１と聴講者Ａ１が別々のカメラ１１で撮像されているにもかかわらず、視聴者は、１つの画面で両者のやりとりを確認することができる。

この状態で、StateＤ（図７）のEventに記述されているように、聴講者用カメラ制御装置１２－２が、聴講者用カメラ画像においてジェスチャ（着席）を検知すると、状態は再びStateＢに遷移する。これにより、図１０のStateＢに示されるように、スイッチャ３３は、講師用カメラ画像と聴講者用カメラ画像をサイド・バイ・サイド合成した画像から切り替えて、太枠で囲われている講師用カメラ画像を出力する。

図１１は、図１の撮影システムにおいて、聴講者Ａ１が起立した後、教壇に移動して回答し、席に戻り着席するまでのシーンを示しており、上述したシナリオのStateＣ，StateＥ，StateＦ，StateＢの遷移に対応する。

すなわち、図１１のStateＣにおいて、StateＣ（図７）のEventに記述されているように、聴講者用カメラ制御装置１２－２が、聴講者用カメラ画像において、一定時間未満の間に、トラッキング対象が一定距離以上移動した（聴講者が回答するために教壇に向かって移動した）と判定すると、状態はStateＥに遷移する。このとき、中央制御部３１は、講師用カメラ制御装置１２－１、聴講者用カメラ制御装置１２－２、およびスイッチャ３３に対して、StateＥ（図８）のBehaviorに記述された動作を指示する。

これにより、図１１のStateＥに示されるように、講師用カメラ制御装置１２－１は、カメラ制御信号により、講師用カメラ１１－１にWide側でのパン・チルト撮影を指示する。また、講師用カメラ制御装置１２－１は、講師用カメラ画像において、動体検知を実行する。講師用カメラ１１－１がWide側でのパン・チルト撮影を行うことにより、講師Ｌ１に加え、聴講者Ａ１が教壇に立った場合でも、両者を捉えられるように備える。

また、聴講者用カメラ制御装置１２－２は、カメラ制御信号により、StateＣから引き続き、聴講者用カメラ１１－２にTele側でのパン・チルト撮影を指示するとともに、聴講者用カメラ画像において、聴講者Ａ１のトラッキングを実行する。

そして、スイッチャ３３は、StateＣから引き続き、太枠で囲われている聴講者用カメラ画像を出力する。

この状態で、StateＥ（図８）のEventに記述されているように、講師用カメラ制御装置１２－１が、講師用カメラ画像において、プリセット位置（教壇）に複数の動体（すなわち講師Ｌ１と聴講者Ａ１の２人）を検知すると、状態はStateＦに遷移する。このとき、中央制御部３１は、講師用カメラ制御装置１２－１、聴講者用カメラ制御装置１２－２、およびスイッチャ３３に対して、StateＦ（図８）のBehaviorに記述された動作を指示する。

これにより、図１１のStateＦに示されるように、講師用カメラ制御装置１２－１は、講師用カメラ画像において、講師Ｌ１と聴講者Ａ１それぞれのトラッキングを実行する。また、講師用カメラ制御装置１２－１は、トラッキング結果に基づいて、適切な画角で被写体を捉えるよう、カメラ制御信号により、講師用カメラ１１－１にTele側でのパン・チルト撮影を指示する。ここでの適切な画角は、講師Ｌ１と聴講者Ａ１の両者を捉える画角とされる。

また、聴講者用カメラ制御装置１２－２は、カメラ制御信号により、聴講者用カメラ１１－２にWide側での固定撮影を指示することで、次の遷移先であるStateＢと同じ画角に備える。ここでは、動体検知やトラッキングは実行されない。

そして、スイッチャ３３は、聴講者用カメラ画像から切り替えて、太枠で囲われている講師用カメラ画像を出力する。

この状態で、StateＦ（図８）のEventに記述されているように、講師用カメラ制御装置１２－１が、講師用カメラ画像において、プリセット位置（教壇）の外へ聴講者が移動したと判定すると、状態は再びStateＢに遷移する。これにより、図１１のStateＢに示されるように、スイッチャ３３は、StateＦから引き続き、太枠で囲われている講師用カメラ画像を出力する。

以上の構成によれば、講師のトラッキングと聴講者の起立や着席など動作の検出、および、講師と聴講者を適切な画角で捉えることを、２台のカメラのみで実現することができる。具体的には、講師用カメラと聴講者用カメラの制御を連携することで、一方のカメラではズームインして被写体を撮影し、他方のカメラではズームアウトして被写体の検出を行い、それぞれの画像を適切なタイミングでスイッチングして出力することができる。

したがって、被写体を追尾して撮影する追尾用カメラに加えて、被写体を検出する俯瞰カメラを設ける必要のない、コストを抑えたレクチャーキャプチャーシステムを提供することが可能となる。

（シナリオの編集例）
上述したシナリオは、ユーザによって編集可能とすることができる。

上述したシナリオでは、図９を参照して説明したように、聴講者Ａ１が質問のために起立した場合、出力される画像が、講師用カメラ画像から聴講者用カメラ画像に切り替わるものとした（StateＢ→StateＣ）。

このような撮影システムの動作を、シナリオを編集可能とすることにより、図１２に示されるように、聴講者Ａ１が質問のために挙手をしたときに、出力される画像が、講師用カメラ画像から聴講者用カメラ画像に切り替わるようにすることができる（StateＢ’→StateＧ）。

図１３は、編集後のシナリオの記述例を示す図である。

図１３のシナリオにおいては、図５のシナリオにおけるStateＢがStateＢ’に変更され、新たにStateＧが追加されている。

図１４は、StateＢ’とStateＧの詳細を示す図である。

StateＢ’のBehaviorには、聴講者用カメラ制御装置１２－２の動作として、StateＢ（図６）のBehaviorに記述されている「ジェスチャ（起立）検知を実行する」が、「ジェスチャ（挙手）検知を実行する」に変更されて記述されている。

また、StateＢ’のEventには、聴講者用カメラ制御装置１２－２が、ジェスチャ（起立）を検知した場合に、状態が「StateＣ」に遷移することが、「StateＧ」に遷移することに変更されて記述されている。

新たに追加されたStateＧのBehaviorには、講師用カメラ制御装置１２－１の動作として、（講師用カメラ１１－１が）Tele側でパン・チルト撮影することと、トラッキングを実行することが記述されている。また、聴講者用カメラ制御装置１２－２の動作として、（聴講者用カメラ１１－２が）Wide側で固定撮影することと、ジェスチャ（起立）検知を実行することが記述されている。さらに、スイッチャ３３の動作として、聴講者用カメラ画像を出力することが記述されている。

StateＧのEventには、聴講者用カメラ制御装置１２－２が、ジェスチャ（起立）を検知した場合には、状態がStateＣに遷移することが記述されている。

すなわち、図１２のStateＢ’において、StateＢ’（図１４）のEventに記述されているように、聴講者用カメラ制御装置１２－２が、聴講者用カメラ画像においてジェスチャ（挙手）を検知すると、状態はStateＧに遷移する。このとき、中央制御部３１は、講師用カメラ制御装置１２－１、聴講者用カメラ制御装置１２－２、およびスイッチャ３３に対して、StateＧ（図１４）のBehaviorに記述された動作を指示する。

これにより、図１２のStateＧに示されるように、講師用カメラ制御装置１２－１は、StateＢ’と同様の動作を継続する。

また、聴講者用カメラ制御装置１２－２は、カメラ制御信号により、StateＢ’から引き続き、聴講者用カメラ１１－２にWide側での固定撮影を指示するとともに、聴講者用カメラ画像において、ジェスチャ（起立）検知を実行する。

そして、スイッチャ３３は、講師用カメラ画像から切り替えて、太枠で囲われている講師用カメラ画像を出力する。

この状態で、StateＧ（図１４）のEventに記述されているように、聴講者用カメラ制御装置１２－２が、聴講者用カメラ画像においてジェスチャ（起立）を検知すると、状態はStateＣに遷移する。これにより、図１２のStateＣに示されるように、スイッチャ３３は、StateＧから引き続き、太枠で囲われている講師用カメラ画像を出力する。

以上のようにして、シナリオを編集することで、撮影システム全体の動作を変更することができる。

（シナリオの編集に用いられるＧＵＩの例）
上述したようなシナリオの編集は、制御装置１３（中央制御部３１）が、ユーザに対してＧＵＩ（Graphical User Interface）を提示することで実現される。制御装置１３（中央制御部３１）は、ユーザが入出力装置１４としてのキーボードやマウスを操作することで、既存のシナリオにおけるStateの追加や削除、State（Behavior，Eventの記述内容）の編集（変更）を行うことができる。

図１５は、シナリオの編集に用いられるＧＵＩとして、入出力装置１４としてのディスプレイに表示されるシナリオの編集画面の一例を示す図である。

図１５のディスプレイ１００には、図５を参照して説明したシナリオの編集画面が表示されている。

図１５においては、シナリオを構成するStateＢをマウスなどで選択した状態で右クリック操作するなどすることによって、コンテキストメニュー１１１が表示されている。コンテキストメニュー１１１には、「Stateの追加」、「Stateの削除」、「Stateの編集」の３項目が表示されている。「Stateの編集」の項目の右端には三角形の矢印が表示され、その右側には、サブメニューが表示されている。サブメニューには、「Behaviorの編集」、「Eventの編集」の２項目が表示されている。

図１５において、サブメニューの「Behaviorの編集」が選択されたとすると、図１６に示されるように、編集画面上に、StateＢのBehaviorを編集するためのポップアップウィンドウ１１２が表示される。図１６のポップアップウィンドウ１１２には、StateＢのBehaviorとして各装置の動作の内容が記述された一覧が表示されている。

図１６においては、聴講者用カメラ制御装置１２－２が行う動作（ジェスチャ（起立）検知を実行）の項目部分をマウスなどで選択するなどすることによって、プルダウンメニューが表示されている。プルダウンメニューには、「動体検知実行」、「トラッキング実行」、「ジェスチャ（挙手）検知を実行」、「ジェスチャ（着席）検知を実行」などの、聴講者用カメラ制御装置１２－２が実行可能な動作が、選択肢として表示される。

プルダウンメニューに表示される選択肢は、制御装置１３（中央制御部３１）が各装置に問い合わせて、各装置が備える機能の内容や数に応じて、実行可能な動作が表示される。また、ユーザが、各装置の仕様に基づいて、手動で、プルダウンメニューに表示される選択肢を追加できるようにしてもよい。

なお、シナリオの編集画面は、図１５の例以外にも、例えば、図１７に示されるように、編集画面上でマウスを右クリック操作するなどすることにより、画面右下の領域に、メニューボタン群１２１が表示されるようにしてもよい。また、メニューボタン群１２１は、シナリオの編集画面において、デフォルトで、かつ、位置固定で表示されるようにしてもよい。

さらに、ユーザは、各装置の機能を拡張することも可能である。例えば、ユーザは、カメラ制御装置１２のジェスチャ検知部２２が検知するジェスチャの種類を新たに定義し、登録することができる。

図１８は、ジェスチャの定義・登録に用いるＧＵＩとして、入出力装置１４としてのディスプレイに表示されるジェスチャ登録画面の一例を示す図である。

図１８には、ジェスチャ登録画面１５０上で、起立動作のジェスチャを登録する様子が示されている。ジェスチャ登録画面１５０は、ユーザが、ソフトウェア上でジェスチャ定義・登録モードを選択するなどすることで表示される。

ジェスチャ登録画面１５０には、画像表示部１５１が設けられる。画像表示部１５１には、カメラ１１により撮影された任意の被写体（人物）の画像が表示される。図１８左側のジェスチャ登録画面１５０の画像表示部１５１には、座っている状態の人物が映っており、図１８右側のジェスチャ登録画面１５０の画像表示部１５１には、座っている状態から立ち上がった状態の人物が映っている。

カメラ制御装置１２のジェスチャ検知部２２は、画像中の人物の姿勢を認識し、画像表示部１５１中、太線で示される骨格情報を生成して、カメラ制御部２４を介して中央制御部３１に供給する。スイッチャ３３は、カメラ制御装置１２からの画像に、中央制御部３１が取得した骨格情報を重畳して、ジェスチャ登録画面１５０の画像表示部１５１に表示させる。画像への骨格情報の重畳は、カメラ制御装置１２において行われるようにしてもよい。

ジェスチャ登録画面１５０において、画像表示部１５１の上方には、ボタンｂ１，ｂ２，ｂ３，ｂ４と、テキストボックスｔｂが設けられる。

ボタンｂ１は、画像表示部１５１に表示されている画像の記録を開始するためのボタンであり、ボタンｂ２は、その画像の記録を停止するためのボタンである。ボタンｂ３は、記録された画像を再生するためのボタンであり、ボタンｂ４は、再生されている画像中の骨格情報を編集するためのボタンである。ユーザは、ボタンｂ４を操作することで、画像表示部１５１に再生表示されている画像中の骨格情報を、マウスなどによって修正することができる。

テキストボックスｔｂは、登録するジェスチャの名称が入力される領域である。ユーザは、キーボードなどを操作することで、登録するジェスチャの名称を決定することができる。

ジェスチャ登録画面１５０において、画像表示部１５１の下方には、タイムライン１５２と登録ボタン１５３が設けられる。

タイムライン１５２は、画像表示部１５１に表示されている画像の再生位置を示すオブジェクトであり、バー上のカーソルＲｃは、画像全体における現在の時間的な再生位置を示している。

タイムライン１５２のバー上のアイコンＲｓは、記録された画像のうち、ジェスチャ検知に実際に用いられる画像の時間的な開始位置を示し、アイコンＲｅは、ジェスチャ検知に実際に用いられる画像の時間的な終了位置を示している。タイムライン１５２のバーにおけるアイコンＲｓ，Ｒｅの位置は、ユーザによって設定可能とされる。

登録ボタン１５３は、記録された画像中の骨格情報を、ジェスチャの名称と対応付けて登録するためのボタンである。登録ボタン１５３が操作されることで、記録された画像のうち、アイコンＲｓで示される開始位置から、アイコンＲｅで示される終了位置までの画像中の骨格情報の一連の変化が、テキストボックスｔｂに入力されたジェスチャの名称とともに登録される。

上述したように登録されたジェスチャの名称は、図１６のプルダウンメニューに追加されて表示されるようになる。シナリオ（Behavior）の編集の際に、カメラ制御装置１２の動作を、追加されたジェスチャの検知実行に変更することで、ジェスチャ検知部２２は、新たに登録したジェスチャと同一または近似したジェスチャを検知することが可能となる。

なお、ジェスチャ検知部２２によるジェスチャ検知においては、カメラ画像における被写体の動きと、記録された画像中の骨格情報とが、時系列で比較されるようにしてもよいし、所定のフレーム単位で比較されるようにしてもよい。

図１８においては、ジェスチャとして起立動作を登録する例について説明したが、一連の姿勢の変化を記録することができるので、任意のジェスチャを登録することが可能である。

また、ここでは、ジェスチャの登録の例について説明したが、後述する板書抽出部２１１（図２０）が用いる板書抽出のパターンや、顔検知／識別部３５１が識別に用いる顔の登録も同様にして実現することができる。

以上の構成によれば、ユーザが、システム全体の動作を定義・編集可能なソフトウェア構造とＧＵＩを実現することができる。具体的には、ユーザは、Stateを定義する個々のリソースの動作（Behavior）と、次のStateに遷移するためのEventが記述されたシナリオにおいて、Stateを組み合わせることでシステムの動作手順を追加・削除したり、State間の遷移を変更することができる。

したがって、ユーザ（講師）は、個々の講義のスタイルに合わせた講義を行うことができるようになり、また、システム構成の変更に対しても、柔軟に対応することが可能となる。

＜２．第２の実施の形態＞
（撮影システムの構成例）
図１９は、本技術を適用した撮影システムの他の構成例を示す図である。

図１９の撮影システムは、図１の撮影システムの構成に加え、板書用カメラ１１－３と板書用カメラ制御装置１２－３が設けられて構成される。

板書用カメラ１１－３は、板書用カメラ制御装置１２－３の制御の下、講師Ｌ１が講義に用いる黒板（またはホワイトボード）Ｂ１を撮影し、得られた画像（板書用カメラ画像）を板書用カメラ制御装置１２－３に出力する。

板書用カメラ１１－３は、講師用カメラ１１－１とほぼ同じ方向の撮影が行われるような位置に設置される。

板書用カメラ１１－３は、撮影の対象となる被写体が黒板Ｂ１であるだけで、講師用カメラ１１－１や聴講者用カメラ１１－２と同様の構成を有するものであってよい。すなわち、板書用カメラ１１－３もまた、講師用カメラ１１－１や聴講者用カメラ１１－２と同様にして、機械的にパン・チルトする機能を備えつつ、光学的・電子的にズーム可能なＰＴＺカメラとして構成される。

板書用カメラ制御装置１２－３は、制御装置１３の制御の下、板書用カメラ１１－３を制御することで、板書用カメラ１１－３により出力される板書用カメラ画像を取得し、制御装置１３に出力する。また、板書用カメラ制御装置１２－３は、制御装置１３からの演算・制御の指示を受け、演算・制御の結果を制御装置１３に出力する。

板書用カメラ制御装置１２－３は、制御の対象が板書用カメラ１１－３であるだけで、基本的には、講師用カメラ制御装置１２－１や聴講者用カメラ制御装置１２－２と同様の構成を有するが、後述する板書抽出機能を有する点で異なる。

（板書用カメラ制御装置の機能構成例）
図２０は、上述した板書用カメラ制御装置１２－３の機能構成例を示すブロック図である。

図２０の板書用カメラ制御装置１２－３は、図２のカメラ制御装置１２の構成に加え、板書抽出部２１１が設けられて構成される。

板書抽出部２１１は、板書用カメラ１１－３からの板書用カメラ画像を取得し、カメラ制御部２４の制御の下、板書用カメラ画像に対して、黒板Ｂ１に板書された内容を抽出する板書抽出処理を実行する。板書抽出処理の詳細な説明は省略するが、板書抽出処理の結果である板書抽出結果画像は、画像信号として制御装置１３（スイッチャ３３）に出力される。この場合、スイッチャ３３は、中央制御部３１の制御に基づいて、各カメラ画像の被写体の画像、または、板書抽出処理の結果に応じて、各カメラ画像および板書抽出結果画像の少なくともいずれかの出力を制御する。

板書用カメラ画像には、黒板Ｂ１だけでなく、黒板Ｂ１に対して文字やグラフなどを板書する講師Ｌ１も映る。板書抽出部２１１は、その板書用カメラ画像から講師Ｌ１を削除し、板書された文字やグラフなどを再現・強調するなどして可視性を高めることで、板書抽出結果画像を出力する。

また、板書抽出部２１１は、単に、板書された内容を抽出するだけでなく、講師Ｌ１が黒板Ｂ１に文字を書いたり消したりする過程を時系列に記憶し、書き始めや消し始めのタイミング、書かれた内容（文字や図形など）の認識を行うこともできる。

（シナリオの記述例）
図２１は、図１９の撮影システムの動作を定義したシナリオの記述例を示す図である。

図２１のシナリオにおいては、図１３のシナリオにおけるStateＢ’がStateＢ’’に変更され、新たにStateＨ，StateＩが追加されている。

図２２は、StateＢ’’の詳細を示す図であり、図２３は、StateＨとStateＩの詳細を示す図である。

StateＢ’’（図２２）のBehaviorは、StateＢ’（図１３）のBehaviorと同様の記述に、板書用カメラ制御装置１２－３の動作についての記述が追加されている。StateＢ’’のBehaviorには、板書用カメラ制御装置１２－３の動作として、（板書用カメラ１１－３が）Wide側で固定撮影することと、板書抽出（処理）を実行することが記述されている。

StateＢ’’のEventには、StateＢ’（図１３）のBehaviorと同様の記述に加え、板書用カメラ制御装置１２－３が、板書の書き込みまたは消去を検知した場合には、状態がStateＨに遷移することが記述されている。

StateＨ（図２３）のBehaviorには、講師用カメラ制御装置１２－１の動作として、（講師用カメラ１１－１が）Wide側で固定撮影することと、トラッキングを実行することが記述されている。また、聴講者用カメラ制御装置１２－２の動作として、（聴講者用カメラ１１－２が）Wide側で固定撮影することと、ジェスチャ（挙手）検知を実行することが記述されている。さらに、板書用カメラ制御装置１２－３の動作として、（板書用カメラ１１－３が）Wide側で固定撮影することと、板書抽出を実行することが記述されている。スイッチャ３３の動作としては、板書抽出結果画像を出力することが記述されている。

StateＨのEventには、聴講者用カメラ制御装置１２－２が、ジェスチャ（挙手）を検知した場合には、状態がStateＧに遷移することが記述されている。また、板書用カメラ制御装置１２－３が、一定時間以上、板書の書き込み／消去の検知がないと判定した場合には、状態がStateＩに遷移することが記述されている。

StateＩ（図２３）のBehaviorには、講師用カメラ制御装置１２－１の動作として、（講師用カメラ１１－１が）Tele側で固定撮影することと、トラッキングを実行することが記述されている。また、聴講者用カメラ制御装置１２－２の動作として、（聴講者用カメラ１１－２が）Wide側で固定撮影することと、ジェスチャ（挙手）検知を実行することが記述されている。さらに、板書用カメラ制御装置１２－３の動作として、（板書用カメラ１１－３が）Wide側で固定撮影することと、板書抽出を実行することが記述されている。スイッチャ３３の動作としては、講師用カメラ画像と板書抽出結果画像をサイド・バイ・サイド合成して出力することが記述されている。

StateＩのEventには、聴講者用カメラ制御装置１２－２が、ジェスチャ（挙手）を検知した場合には、状態がStateＧに遷移することが記述されている。また、板書用カメラ制御装置１２－３が、板書の書き込みまたは消去を検知した場合には、状態がStateＨに遷移することが記述されている。

（シナリオに基づいた撮影システムの動作例）
次に、図２１のシナリオに基づいた撮影システムの動作例について説明する。

図２１のシナリオは、図１３のシナリオとは、StateＢ’’，StateＨ，StateＩが異なるので、それらの間の状態遷移について、図２４を参照して説明する。

図２４のStateＢ’’において、StateＢ’’（図２２）のEventに記述されているように、聴講者用カメラ制御装置１２－２が、聴講者用カメラ画像においてジェスチャ（挙手）を検知すると、状態はStateＧに遷移する。これにより、図２４のStateＧに示されるように、スイッチャ３３は、講師用カメラ画像から切り替えて、聴講者用カメラ画像を出力する。

一方、StateＢ’’（図２２）のEventに記述されているように、板書用カメラ制御装置１２－３が、板書用カメラ画像において板書の書き込みまたは消去を検知すると、状態はStateＨに遷移する。このとき、中央制御部３１は、講師用カメラ制御装置１２－１、聴講者用カメラ制御装置１２－２、板書用カメラ制御装置１２－３、およびスイッチャ３３に対して、StateＨ（図２３）のBehaviorに記述された動作を指示する。

これにより、図２４のStateＨに示されるように、スイッチャ３３は、講師用カメラ画像から切り替えて、板書抽出結果画像を出力する。

この状態で、StateＨ（図２３）のEventに記述されているように、聴講者用カメラ制御装置１２－２が、聴講者用カメラ画像においてジェスチャ（挙手）を検知すると、状態はStateＧに遷移する。これにより、図２４のStateＧに示されるように、スイッチャ３３は、板書抽出結果画像から切り替えて、聴講者用カメラ画像を出力する。

一方、StateＨ（図２３）のEventに記述されているように、板書用カメラ制御装置１２－３が、板書用カメラ画像において、一定時間以上、板書の書き込み／消去の検知がないと判定すると、状態はStateＩに遷移する。このとき、中央制御部３１は、講師用カメラ制御装置１２－１、聴講者用カメラ制御装置１２－２、板書用カメラ制御装置１２－３、およびスイッチャ３３に対して、StateＩ（図２３）のBehaviorに記述された動作を指示する。

これにより、図２４のStateＩに示されるように、スイッチャ３３は、板書抽出結果画像から切り替えて、講師用カメラ画像と板書抽出結果画像をサイド・バイ・サイド合成した画像を出力する。

この状態で、StateＩ（図２３）のEventに記述されているように、聴講者用カメラ制御装置１２－２が、聴講者用カメラ画像においてジェスチャ（挙手）を検知すると、状態はStateＧに遷移する。これにより、図２４のStateＧに示されるように、スイッチャ３３は、講師用カメラ画像と板書抽出結果画像をサイド・バイ・サイド合成した画像から切り替えて、聴講者用カメラ画像を出力する。

一方、StateＨ（図２３）のEventに記述されているように、板書用カメラ制御装置１２－３が、板書の書き込みまたは消去を検知すると、状態は再びStateＨに遷移する。これにより、図２４のStateＨに示されるように、スイッチャ３３は、講師用カメラ画像と板書抽出結果画像をサイド・バイ・サイド合成した画像から切り替えて、板書抽出結果画像を出力する。

以上の構成によれば、講師Ｌ１が黒板Ｂ１に板書しているときには、板書抽出結果画像が出力され（StateＨ）、講師Ｌ１がしばらくの間板書しなければ、板書抽出結果画像に加え、講師Ｌ１の様子が映る画像が出力される（StateＩ）。基本的には、撮影システムの状態としてStateＨとStateＩとの間の遷移が繰り返されることで、板書中心の画像が出力される。したがって、視聴者は、講義の内容を詳細に理解することが可能となる。

＜３．第３の実施の形態＞
（撮影システムの構成例）
図２５は、本技術を適用した撮影システムのさらに他の構成例を示す図である。

図２５の撮影システムは、図１の撮影システムの構成に加え、スライド用ＰＣ３０１が設けられて構成される。

情報処理装置としてのスライド用ＰＣ３０１は、制御装置１３に接続され、制御装置１３の制御の下、プレゼンテーション用のスライドや資料のデータを、制御装置１３に出力する。この場合、スイッチャ３３は、この場合、スイッチャ３３は、各カメラ画像の被写体の状況（スライド（資料）の出力変化を含む）に応じて、各カメラ画像およびスライドの少なくともいずれかの出力を制御する。なお、スライド用ＰＣ３０１により出力されるスライドや資料は、講師Ｌ１の背後（聴講者Ａ１とは反対側）に設置される図示せぬスクリーンにも出力（表示）される。

スライド用ＰＣ３０１は、パーソナルコンピュータとして構成されるが、タブレット端末やスマートフォンなどの携帯端末装置として構成されるようにしてもよい。

（シナリオの記述例）
図２６は、図２５の撮影システムの動作を定義したシナリオの記述例を示す図である。

図２６のシナリオにおいては、図５のシナリオにおけるStateＢがStateＢ’’’に変更され、StateＣ，StateＤ，StateＥ，StateＦに代えて、StateＪ，StateＫ，StateＬ，StateＭが設けられている。

図２７は、StateＢ’’’の詳細を示す図であり、図２８および図２９は、StateＪ，StateＫ，StateＬ，StateＭの詳細を示す図である。

StateＢ’’’（図２７）のBehaviorには、講師用カメラ制御装置１２－１の動作として、（講師用カメラ１１－１が）Tele側でパン・チルト撮影することと、トラッキングを実行することが記述されている。また、聴講者用カメラ制御装置１２－２の動作として、（聴講者用カメラ１１－２が）Wide側で固定撮影することと、ジェスチャ（拍手）検知を実行することが記述されている。さらに、スライド用ＰＣ３０１の動作として、スライドを出力することが記述され、スイッチャ３３の動作として、講師用カメラ画像を出力することが記述されている。

StateＢ’’’のEventには、聴講者用カメラ制御装置１２－２が、ジェスチャ（拍手）を検知した場合には、状態がStateＭに遷移することが記述されている。また、スライド用ＰＣ３０１が、スライドの切り替え（スライト送り）を実行した場合には、状態がStateＪに遷移することが記述されている。

StateＪ（図２８）Behaviorには、講師用カメラ制御装置１２－１の動作として、（講師用カメラ１１－１が）Tele側でパン・チルト撮影することと、トラッキングを実行することが記述されている。また、聴講者用カメラ制御装置１２－２の動作として、（聴講者用カメラ１１－２が）Wide側で固定撮影することと、ジェスチャ（拍手）検知を実行することが記述されている。さらに、スライド用ＰＣ３０１の動作として、スライドを出力することが記述され、スイッチャ３３の動作として、そのスライドを出力することが記述されている。

StateＪのEventには、講師用カメラ制御装置１２－１が、ジェスチャ（身振り手振り）を検知した場合には、状態がStateＫに遷移し、トラッキング対象が一定距離以上移動したと判定した場合には、状態がStateＬに遷移することが記述されている。また、聴講者用カメラ制御装置１２－２が、ジェスチャ（拍手）を検知した場合には、状態がStateＭに遷移することが記述されている。

StateＫ（図２８）のBehaviorには、講師用カメラ制御装置１２－１の動作として、（講師用カメラ１１－１が）Tele側でパン・チルト撮影することと、トラッキングを実行することが記述されている。また、聴講者用カメラ制御装置１２－２の動作として、（聴講者用カメラ１１－２が）Wide側で固定撮影することと、ジェスチャ（拍手）検知を実行することが記述されている。さらに、スライド用ＰＣ３０１の動作として、スライドを出力することが記述され、スイッチャ３３の動作として、講師用カメラ画像とスライドをサイド・バイ・サイド合成して出力することが記述されている。

StateＫのEventには、講師用カメラ制御装置１２－１が、トラッキング対象が一定距離以上移動したと判定した場合には、状態がStateＬに遷移することが記述されている。また、聴講者用カメラ制御装置１２－２が、ジェスチャ（拍手）を検知した場合には、状態がStateＭに遷移することが記述されている。さらに、スライド用ＰＣ３０１が、スライドの切り替えを実行した場合には、状態がStateＪに遷移することが記述されている。

StateＬ（図２９）のBehaviorには、講師用カメラ制御装置１２－１の動作として、（講師用カメラ１１－１が）講師Ｌ１とその背後のスクリーンに出力されているスライドがともに映る程度の画角でパン・チルト撮影することと、トラッキングを実行することが記述されている。また、聴講者用カメラ制御装置１２－２の動作として、（聴講者用カメラ１１－２が）Wide側で固定撮影することと、ジェスチャ（拍手）検知を実行することが記述されている。さらに、スライド用ＰＣ３０１の動作として、スライドを出力することが記述され、スイッチャ３３の動作として、講師用カメラ画像を出力することが記述されている。

StateＬのEventには、講師用カメラ制御装置１２－１が、ジェスチャ（身振り手振り）を検知した場合には、状態がStateＫに遷移することが記述されている。また、聴講者用カメラ制御装置１２－２が、ジェスチャ（拍手）を検知した場合には、状態がStateＭに遷移することが記述されている。さらに、スライド用ＰＣ３０１が、スライドの切り替えを実行した場合には、状態がStateＪに遷移することが記述されている。

StateＭ（図２９）のBehaviorには、講師用カメラ制御装置１２－１の動作として、（講師用カメラ１１－１が）Tele側でパン・チルト撮影することと、トラッキングを実行することが記述されている。また、聴講者用カメラ制御装置１２－２の動作として、（聴講者用カメラ１１－２が）Tele側でパン・チルト撮影することが記述されている。さらに、スライド用ＰＣ３０１の動作として、スライドを出力することが記述され、スイッチャ３３の動作として、聴講者用カメラ画像を出力することが記述されている。

StateＭのEventには、中央制御部３１が、例えば、出力される画像が聴講者用カメラ画像に切り替わってから一定時間が経過したと判定した場合には、状態がStateＢ’’’に遷移することが記述されている。

（シナリオに基づいた撮影システムの動作例）
次に、図２６のシナリオに基づいた撮影システムの動作例について説明する。

図２６のシナリオは、図５のシナリオとは、StateＢ’’’，StateＪ，StateＫ，StateＬ，StateＭが異なるので、それらの間の状態遷移について、図３０を参照して説明する。

図３０のStateＢ’’’において、StateＢ’’’（図２７）のEventに記述されているように、聴講者用カメラ制御装置１２－２が、聴講者用カメラ画像においてジェスチャ（拍手）を検知すると、状態はStateＭに遷移する。

一方、StateＢ’’’（図２７）のEventに記述されているように、スライド用ＰＣ３０１が、スライドの切り替えを実行すると、状態はStateＪに遷移する。これにより、図３０のStateＪに示されるように、スイッチャ３３は、講師用カメラ画像から切り替えて、スライドを出力する。

この状態で、StateＪ（図２８）のEventに記述されているように、講師用カメラ制御装置１２－１が、講師用カメラ画像においてジェスチャ（身振り手振り）を検知すると、状態はStateＫに遷移する。これにより、図３０のStateＫに示されるように、スイッチャ３３は、スライドから切り替えて、講師用カメラ画像とスライドをサイド・バイ・サイド合成した画像を出力する。

この状態で、StateＫ（図２８）のEventに記述されているように、講師用カメラ制御装置１２－１が、講師用カメラ画像において、トラッキング対象が一定距離以上移動したと判定すると、状態はStateＬに遷移する。これにより、図３０のStateＬに示されるように、スイッチャ３３は、講師用カメラ画像とスライドをサイド・バイ・サイド合成した画像から切り替えて、講師Ｌ１とその背後のスライドが映る程度の画角の講師用カメラ画像を出力する。

この状態で、StateＬ（図２９）のEventに記述されているように、講師用カメラ制御装置１２－１が、講師用カメラ画像おいてジェスチャ（身振り手振り）を検知すると、状態はStateＫに遷移する。また、スライド用ＰＣ３０１が、スライドの切り替えを実行すると、状態は再びStateＪに遷移する。

一方、StateＫにおいて、StateＫ（図２８）のEventに記述されているように、聴講者用カメラ制御装置１２－２が、聴講者用カメラ画像においてジェスチャ（拍手）を検知すると、状態はStateＭに遷移する。また、スライド用ＰＣ３０１が、スライドの切り替えを実行すると、状態は再びStateＪに遷移する。

また、StateＪにおいて、StateＪ（図２８）のEventに記述されているように、講師用カメラ制御装置１２－１が、講師用カメラ画像において、トラッキング対象が一定距離以上移動したと判定すると、状態はStateＬに遷移する。一方、聴講者用カメラ制御装置１２－２が、聴講者用カメラ画像においてジェスチャ（拍手）を検知すると、状態はStateＭに遷移する。

StateＭにおいては、図３０のStateＭに示されるように、聴講者用カメラ画像が出力される。StateＭ（図２９）のBehaviorには、Tele側でパン・チルト撮影が行われるものとしたが、Wide側での固定撮影により、聴講者全体が撮影されるようにしてもよい。また、StateＭにおける聴講者用カメラ１１－２の撮影位置やカメラワークは、あらかじめプリセットされたものを適用するようにしてもよい。

そして、StateＭ（図２９）のEventに記述されているように、中央制御部３１が、プリセットされたカメラワークが完了するなどして、一定時間が経過したと判定すると、状態は再びStateＢ’’’に遷移する。

以上の構成によれば、スライドが切り替わった場合には、講師Ｌ１がスライドを見せたい状況である可能性が高いため、スライドが出力され（StateＪ）、講師Ｌ１の身振り手振りが大きくなった場合には、スライドに加えて講師の様子を映す画像が出力される（StateＫ）。これにより、講師Ｌ１の講義に対する情熱が効果的に視聴者に伝わるようになる。

また、講師Ｌ１が歩き出した場合には、画角をやや引いた状態で講師Ｌ１がトラッキングされるようなカメラワークで撮影される（StateＬ）ので、ダイナミックな画像を提供することができる。さらに、聴講者Ａ１が拍手した場合には、聴講者が映る画像が出力される（StateＭ）ので、臨場感のある画像を提供することができる。

基本的には、スライド中心の画像が出力され、さらに、講師Ｌ１と聴講者Ａ１の画像が効果的に挿入されるので、視聴者は、臨場感を味わいながら、プレゼンテーションの内容を詳細に理解することが可能となる。

＜４．その他のバリエーション例＞
以下においては、上述した実施の形態についての他のバリエーションについて説明する。

（撮影システムの構成例）
図３１は、本技術を適用した撮影システムのさらに他の構成例を示す図である。

図３１の撮影システムは、図１の撮影システムの構成に加え、板書用カメラ１１－３、板書用カメラ制御装置１２－３、およびスライド用ＰＣ３０１が設けられて構成される。

すなわち、図３１の撮影システムは、図１９の撮影システムと図２５の撮影システムを組み合わせた構成を採る。

このような構成によれば、視聴者は、講義の内容を詳細に理解したり、臨場感を味わいながら、プレゼンテーションの内容を詳細に理解することが可能となる。

（カメラ制御装置の機能構成例）
図３２は、上述したカメラ制御装置１２の他の機能構成例を示すブロック図である。

図３２のカメラ制御装置１２は、図２のカメラ制御装置１２の構成に加え、顔検知／識別部３５１が設けられて構成される。

顔検知／識別部３５１は、カメラ１１からのカメラ画像を取得し、カメラ制御部２４の制御の下、カメラ画像中の顔を検知したり、その顔が特定の顔であることを識別する。顔が検知されたことを表す情報や、顔が識別されたことを表す情報は、カメラ制御部２４を介して、制御装置１３（中央制御部３１）に供給される。

なお、顔検知／識別部３５１は、カメラ画像中の顔ではなく、人を検知したり、その人が特定の人物であることを識別するようにしてもよい。さらに、カメラ制御装置１２には、顔検知／識別部３５１に限らず、他の認識処理や人工知能処理などを行う高度な機能が追加されるようにしてもよい。

カメラ制御装置１２が顔検知／識別部３５１を備える場合、図５のシナリオを構成するStateＡとStateＥを、図３３に示されるStateＡ’とStateＥ’に変更することができる。

StateＡ’のBehaviorには、講師用カメラ制御装置１２－１の動作として、StateＡ（図６）のBehaviorに記述されている「プリセット位置（教壇）での動体検知を実行」が、「プリセット位置（教壇）での顔検知または顔識別を実行」に変更されて記述されている。

また、StateＡ’のEventには、StateＢに遷移する条件が、講師用カメラ制御装置１２－１による「プリセット位置（教壇）で動体を検知」ではなく、「プリセット位置（教壇）で顔を検知または特定の顔を識別」と変更されて記述されている。

一方、StateＥ’のBehaviorには、講師用カメラ制御装置１２－１の動作として、StateＥ（図８）のBehaviorに記述されている「動体検知実行」が、「顔検知または顔識別を実行」に変更されて記述されている。

また、StateＥ’のEventには、StateＦに遷移する条件が、講師用カメラ制御装置１２－１による「プリセット位置（教壇）に複数の動体を検知」ではなく、「プリセット位置（教壇）に複数（すなわち講師と聴講者の２人以上）の顔を検知または複数の特定の顔を識別」と変更されて記述されている。

このようにして、追加された機能、例えば、顔検知や顔識別をトリガとして、撮影システムの状態を遷移させることができる。さらに、追加された機能、例えば、顔検知により検知された顔の位置を利用することで、適切な画角やカメラワークを実現するなど、既存の機能と追加された機能が組み合わされて実行されるようにしてもよい。

（シナリオの他の記述例）
以上においては、シナリオは、状態遷移図形式で表現されるようにしたが、図３４に示されるように、タイムライン形式で表現されるようにしてもよい。

図３４のシナリオは、図５のシナリオをタイムライン形式で表現したものであり、図中左側から右側へ、時系列に状態が遷移することを表している。図３４のシナリオにおいては、State毎に、講師用カメラ制御装置１２－１、聴講者用カメラ制御装置１２－２、およびスイッチャ３３それぞれが実行する動作（Behavior）が示されている。

図３４のシナリオにおいて、StateＣ以降の各装置（リソース）の動作は、３つに分岐しており、その分岐条件は、図７に示されるStateＣのEventに従うものとする。なお、「Go to ★」は、StateＢの開始点（★）に戻ることを示している。

このようにして、シナリオを、タイムライン形式で表現することも可能である。

（コンピュータの構成例）
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図３５は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

上述した制御装置１３は、図３５に示す構成を有するコンピュータにより実現される。

ＣＰＵ１００１、ＲＯＭ１００２、ＲＡＭ１００３は、バス１００４により相互に接続されている。

バス１００４には、さらに、入出力インタフェース１００５が接続されている。入出力インタフェース１００５には、キーボード、マウスなどよりなる入力部１００６、ディスプレイ、スピーカなどよりなる出力部１００７が接続される。また、入出力インタフェース１００５には、ハードディスクや不揮発性のメモリなどよりなる記憶部１００８、ネットワークインタフェースなどよりなる通信部１００９、リムーバブルメディア１０１１を駆動するドライブ１０１０が接続される。

以上のように構成されるコンピュータでは、ＣＰＵ１００１が、例えば、記憶部１００８に記憶されているプログラムを入出力インタフェース１００５およびバス１００４を介してＲＡＭ１００３にロードして実行することにより、上述した一連の処理が行われる。

ＣＰＵ１００１が実行するプログラムは、例えばリムーバブルメディア１０１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部１００８にインストールされる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたときなどの必要なタイミングで処理が行われるプログラムであっても良い。

＜５．応用例＞
本開示に係る技術は、様々なシステムへ応用することができる。上述した撮影システムは、例えば、会議室システムに適用することもできるし、以下において説明する手術室システムに適用することもできる。

図３６は、本開示に係る技術が適用され得る手術室システム５１００の全体構成を概略的に示す図である。図３６を参照すると、手術室システム５１００は、手術室内に設置される装置群が視聴覚コントローラ（AV Controller）５１０７及び手術室制御装置５１０９を介して互いに連携可能に接続されることにより構成される。

手術室には、様々な装置が設置され得る。図３６では、一例として、内視鏡下手術のための各種の装置群５１０１と、手術室の天井に設けられ術者の手元を撮像するシーリングカメラ５１８７と、手術室の天井に設けられ手術室全体の様子を撮像する術場カメラ５１８９と、複数の表示装置５１０３Ａ～５１０３Ｄと、レコーダ５１０５と、患者ベッド５１８３と、照明５１９１と、を図示している。

ここで、これらの装置のうち、装置群５１０１は、後述する内視鏡手術システム５１１３に属するものであり、内視鏡や当該内視鏡によって撮像された画像を表示する表示装置等からなる。内視鏡手術システム５１１３に属する各装置は医療用機器とも呼称される。一方、表示装置５１０３Ａ～５１０３Ｄ、レコーダ５１０５、患者ベッド５１８３及び照明５１９１は、内視鏡手術システム５１１３とは別個に、例えば手術室に備え付けられている装置である。これらの内視鏡手術システム５１１３に属さない各装置は非医療用機器とも呼称される。視聴覚コントローラ５１０７及び／又は手術室制御装置５１０９は、これら医療機器及び非医療機器の動作を互いに連携して制御する。

視聴覚コントローラ５１０７は、医療機器及び非医療機器における画像表示に関する処理を、統括的に制御する。具体的には、手術室システム５１００が備える装置のうち、装置群５１０１、シーリングカメラ５１８７及び術場カメラ５１８９は、手術中に表示すべき情報（以下、表示情報ともいう）を発信する機能を有する装置（以下、発信元の装置とも呼称する）であり得る。また、表示装置５１０３Ａ～５１０３Ｄは、表示情報が出力される装置（以下、出力先の装置とも呼称する）であり得る。また、レコーダ５１０５は、発信元の装置及び出力先の装置の双方に該当する装置であり得る。視聴覚コントローラ５１０７は、発信元の装置及び出力先の装置の動作を制御し、発信元の装置から表示情報を取得するとともに、当該表示情報を出力先の装置に送信し、表示又は記録させる機能を有する。なお、表示情報とは、手術中に撮像された各種の画像や、手術に関する各種の情報（例えば、患者の身体情報や、過去の検査結果、術式についての情報等）等である。

具体的には、視聴覚コントローラ５１０７には、装置群５１０１から、表示情報として、内視鏡によって撮像された患者の体腔内の術部の画像についての情報が送信され得る。また、シーリングカメラ５１８７から、表示情報として、当該シーリングカメラ５１８７によって撮像された術者の手元の画像についての情報が送信され得る。また、術場カメラ５１８９から、表示情報として、当該術場カメラ５１８９によって撮像された手術室全体の様子を示す画像についての情報が送信され得る。なお、手術室システム５１００に撮像機能を有する他の装置が存在する場合には、視聴覚コントローラ５１０７は、表示情報として、当該他の装置からも当該他の装置によって撮像された画像についての情報を取得してもよい。

あるいは、例えば、レコーダ５１０５には、過去に撮像されたこれらの画像についての情報が視聴覚コントローラ５１０７によって記録されている。視聴覚コントローラ５１０７は、表示情報として、レコーダ５１０５から当該過去に撮像された画像についての情報を取得することができる。なお、レコーダ５１０５には、手術に関する各種の情報も事前に記録されていてもよい。

視聴覚コントローラ５１０７は、出力先の装置である表示装置５１０３Ａ～５１０３Ｄの少なくともいずれかに、取得した表示情報（すなわち、手術中に撮影された画像や、手術に関する各種の情報）を表示させる。図示する例では、表示装置５１０３Ａは手術室の天井から吊り下げられて設置される表示装置であり、表示装置５１０３Ｂは手術室の壁面に設置される表示装置であり、表示装置５１０３Ｃは手術室内の机上に設置される表示装置であり、表示装置５１０３Ｄは表示機能を有するモバイル機器（例えば、タブレットＰＣ（Personal Computer））である。

また、図３６では図示を省略しているが、手術室システム５１００には、手術室の外部の装置が含まれてもよい。手術室の外部の装置は、例えば、病院内外に構築されたネットワークに接続されるサーバや、医療スタッフが用いるＰＣ、病院の会議室に設置されるプロジェクタ等であり得る。このような外部装置が病院外にある場合には、視聴覚コントローラ５１０７は、遠隔医療のために、テレビ会議システム等を介して、他の病院の表示装置に表示情報を表示させることもできる。

手術室制御装置５１０９は、非医療機器における画像表示に関する処理以外の処理を、統括的に制御する。例えば、手術室制御装置５１０９は、患者ベッド５１８３、シーリングカメラ５１８７、術場カメラ５１８９及び照明５１９１の駆動を制御する。

手術室システム５１００には、集中操作パネル５１１１が設けられており、ユーザは、当該集中操作パネル５１１１を介して、視聴覚コントローラ５１０７に対して画像表示についての指示を与えたり、手術室制御装置５１０９に対して非医療機器の動作についての指示を与えることができる。集中操作パネル５１１１は、表示装置の表示面上にタッチパネルが設けられて構成される。

図３７は、集中操作パネル５１１１における操作画面の表示例を示す図である。図３７では、一例として、手術室システム５１００に、出力先の装置として、２つの表示装置が設けられている場合に対応する操作画面を示している。図３７を参照すると、操作画面５１９３には、発信元選択領域５１９５と、プレビュー領域５１９７と、コントロール領域５２０１と、が設けられる。

発信元選択領域５１９５には、手術室システム５１００に備えられる発信元装置と、当該発信元装置が有する表示情報を表すサムネイル画面と、が紐付けられて表示される。ユーザは、表示装置に表示させたい表示情報を、発信元選択領域５１９５に表示されているいずれかの発信元装置から選択することができる。

プレビュー領域５１９７には、出力先の装置である２つの表示装置（Monitor1、Monitor2）に表示される画面のプレビューが表示される。図示する例では、１つの表示装置において４つの画像がＰｉｎＰ表示されている。当該４つの画像は、発信元選択領域５１９５において選択された発信元装置から発信された表示情報に対応するものである。４つの画像のうち、１つはメイン画像として比較的大きく表示され、残りの３つはサブ画像として比較的小さく表示される。ユーザは、４つの画像が表示された領域を適宜選択することにより、メイン画像とサブ画像を入れ替えることができる。また、４つの画像が表示される領域の下部には、ステータス表示領域５１９９が設けられており、当該領域に手術に関するステータス（例えば、手術の経過時間や、患者の身体情報等）が適宜表示され得る。

コントロール領域５２０１には、発信元の装置に対して操作を行うためのＧＵＩ（Graphical User Interface）部品が表示される発信元操作領域５２０３と、出力先の装置に対して操作を行うためのＧＵＩ部品が表示される出力先操作領域５２０５と、が設けられる。図示する例では、発信元操作領域５２０３には、撮像機能を有する発信元の装置におけるカメラに対して各種の操作（パン、チルト及びズーム）を行うためのＧＵＩ部品が設けられている。ユーザは、これらのＧＵＩ部品を適宜選択することにより、発信元の装置におけるカメラの動作を操作することができる。なお、図示は省略しているが、発信元選択領域５１９５において選択されている発信元の装置がレコーダである場合（すなわち、プレビュー領域５１９７において、レコーダに過去に記録された画像が表示されている場合）には、発信元操作領域５２０３には、当該画像の再生、再生停止、巻き戻し、早送り等の操作を行うためのＧＵＩ部品が設けられ得る。

また、出力先操作領域５２０５には、出力先の装置である表示装置における表示に対する各種の操作（スワップ、フリップ、色調整、コントラスト調整、２Ｄ表示と３Ｄ表示の切り替え）を行うためのＧＵＩ部品が設けられている。ユーザは、これらのＧＵＩ部品を適宜選択することにより、表示装置における表示を操作することができる。

なお、集中操作パネル５１１１に表示される操作画面は図示する例に限定されず、ユーザは、集中操作パネル５１１１を介して、手術室システム５１００に備えられる、視聴覚コントローラ５１０７及び手術室制御装置５１０９によって制御され得る各装置に対する操作入力が可能であってよい。

図３８は、以上説明した手術室システムが適用された手術の様子の一例を示す図である。シーリングカメラ５１８７及び術場カメラ５１８９は、手術室の天井に設けられ、患者ベッド５１８３上の患者５１８５の患部に対して処置を行う術者（医者）５１８１の手元及び手術室全体の様子を撮影可能である。シーリングカメラ５１８７及び術場カメラ５１８９には、倍率調整機能、焦点距離調整機能、撮影方向調整機能等が設けられ得る。照明５１９１は、手術室の天井に設けられ、少なくとも術者５１８１の手元を照射する。照明５１９１は、その照射光量、照射光の波長（色）及び光の照射方向等を適宜調整可能であってよい。

内視鏡手術システム５１１３、患者ベッド５１８３、シーリングカメラ５１８７、術場カメラ５１８９及び照明５１９１は、図３６に示すように、視聴覚コントローラ５１０７及び手術室制御装置５１０９（図３８では図示せず）を介して互いに連携可能に接続されている。手術室内には、集中操作パネル５１１１が設けられており、上述したように、ユーザは、当該集中操作パネル５１１１を介して、手術室内に存在するこれらの装置を適宜操作することが可能である。

以下、内視鏡手術システム５１１３の構成について詳細に説明する。図示するように、内視鏡手術システム５１１３は、内視鏡５１１５と、その他の術具５１３１と、内視鏡５１１５を支持する支持アーム装置５１４１と、内視鏡下手術のための各種の装置が搭載されたカート５１５１と、から構成される。

内視鏡手術では、腹壁を切って開腹する代わりに、トロッカ５１３９ａ～５１３９ｄと呼ばれる筒状の開孔器具が腹壁に複数穿刺される。そして、トロッカ５１３９ａ～５１３９ｄから、内視鏡５１１５の鏡筒５１１７や、その他の術具５１３１が患者５１８５の体腔内に挿入される。図示する例では、その他の術具５１３１として、気腹チューブ５１３３、エネルギー処置具５１３５及び鉗子５１３７が、患者５１８５の体腔内に挿入されている。また、エネルギー処置具５１３５は、高周波電流や超音波振動により、組織の切開及び剥離、又は血管の封止等を行う処置具である。ただし、図示する術具５１３１はあくまで一例であり、術具５１３１としては、例えば攝子、レトラクタ等、一般的に内視鏡下手術において用いられる各種の術具が用いられてよい。

内視鏡５１１５によって撮影された患者５１８５の体腔内の術部の画像が、表示装置５１５５に表示される。術者５１８１は、表示装置５１５５に表示された術部の画像をリアルタイムで見ながら、エネルギー処置具５１３５や鉗子５１３７を用いて、例えば患部を切除する等の処置を行う。なお、図示は省略しているが、気腹チューブ５１３３、エネルギー処置具５１３５及び鉗子５１３７は、手術中に、術者５１８１又は助手等によって支持される。

（支持アーム装置）
支持アーム装置５１４１は、ベース部５１４３から延伸するアーム部５１４５を備える。図示する例では、アーム部５１４５は、関節部５１４７ａ、５１４７ｂ、５１４７ｃ、及びリンク５１４９ａ、５１４９ｂから構成されており、アーム制御装置５１５９からの制御により駆動される。アーム部５１４５によって内視鏡５１１５が支持され、その位置及び姿勢が制御される。これにより、内視鏡５１１５の安定的な位置の固定が実現され得る。

（内視鏡）
内視鏡５１１５は、先端から所定の長さの領域が患者５１８５の体腔内に挿入される鏡筒５１１７と、鏡筒５１１７の基端に接続されるカメラヘッド５１１９と、から構成される。図示する例では、硬性の鏡筒５１１７を有するいわゆる硬性鏡として構成される内視鏡５１１５を図示しているが、内視鏡５１１５は、軟性の鏡筒５１１７を有するいわゆる軟性鏡として構成されてもよい。

鏡筒５１１７の先端には、対物レンズが嵌め込まれた開口部が設けられている。内視鏡５１１５には光源装置５１５７が接続されており、当該光源装置５１５７によって生成された光が、鏡筒５１１７の内部に延設されるライトガイドによって当該鏡筒の先端まで導光され、対物レンズを介して患者５１８５の体腔内の観察対象に向かって照射される。なお、内視鏡５１１５は、直視鏡であってもよいし、斜視鏡又は側視鏡であってもよい。

カメラヘッド５１１９の内部には光学系及び撮像素子が設けられており、観察対象からの反射光（観察光）は当該光学系によって当該撮像素子に集光される。当該撮像素子によって観察光が光電変換され、観察光に対応する電気信号、すなわち観察像に対応する画像信号が生成される。当該画像信号は、ＲＡＷデータとしてカメラコントロールユニット（ＣＣＵ：Camera Control Unit）５１５３に送信される。なお、カメラヘッド５１１９には、その光学系を適宜駆動させることにより、倍率及び焦点距離を調整する機能が搭載される。

なお、例えば立体視（３Ｄ表示）等に対応するために、カメラヘッド５１１９には撮像素子が複数設けられてもよい。この場合、鏡筒５１１７の内部には、当該複数の撮像素子のそれぞれに観察光を導光するために、リレー光学系が複数系統設けられる。

（カートに搭載される各種の装置）
ＣＣＵ５１５３は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等によって構成され、内視鏡５１１５及び表示装置５１５５の動作を統括的に制御する。具体的には、ＣＣＵ５１５３は、カメラヘッド５１１９から受け取った画像信号に対して、例えば現像処理（デモザイク処理）等の、当該画像信号に基づく画像を表示するための各種の画像処理を施す。ＣＣＵ５１５３は、当該画像処理を施した画像信号を表示装置５１５５に提供する。また、ＣＣＵ５１５３には、図３６に示す視聴覚コントローラ５１０７が接続される。ＣＣＵ５１５３は、画像処理を施した画像信号を視聴覚コントローラ５１０７にも提供する。また、ＣＣＵ５１５３は、カメラヘッド５１１９に対して制御信号を送信し、その駆動を制御する。当該制御信号には、倍率や焦点距離等、撮像条件に関する情報が含まれ得る。当該撮像条件に関する情報は、入力装置５１６１を介して入力されてもよいし、上述した集中操作パネル５１１１を介して入力されてもよい。

表示装置５１５５は、ＣＣＵ５１５３からの制御により、当該ＣＣＵ５１５３によって画像処理が施された画像信号に基づく画像を表示する。内視鏡５１１５が例えば４Ｋ（水平画素数３８４０×垂直画素数２１６０）又は８Ｋ（水平画素数７６８０×垂直画素数４３２０）等の高解像度の撮影に対応したものである場合、及び／又は３Ｄ表示に対応したものである場合には、表示装置５１５５としては、それぞれに対応して、高解像度の表示が可能なもの、及び／又は３Ｄ表示可能なものが用いられ得る。４Ｋ又は８Ｋ等の高解像度の撮影に対応したものである場合、表示装置５１５５として５５インチ以上のサイズのものを用いることで一層の没入感が得られる。また、用途に応じて、解像度、サイズが異なる複数の表示装置５１５５が設けられてもよい。

光源装置５１５７は、例えばＬＥＤ（light emitting diode）等の光源から構成され、術部を撮影する際の照射光を内視鏡５１１５に供給する。

アーム制御装置５１５９は、例えばＣＰＵ等のプロセッサによって構成され、所定のプログラムに従って動作することにより、所定の制御方式に従って支持アーム装置５１４１のアーム部５１４５の駆動を制御する。

入力装置５１６１は、内視鏡手術システム５１１３に対する入力インタフェースである。ユーザは、入力装置５１６１を介して、内視鏡手術システム５１１３に対して各種の情報の入力や指示入力を行うことができる。例えば、ユーザは、入力装置５１６１を介して、患者の身体情報や、手術の術式についての情報等、手術に関する各種の情報を入力する。また、例えば、ユーザは、入力装置５１６１を介して、アーム部５１４５を駆動させる旨の指示や、内視鏡５１１５による撮像条件（照射光の種類、倍率及び焦点距離等）を変更する旨の指示、エネルギー処置具５１３５を駆動させる旨の指示等を入力する。

入力装置５１６１の種類は限定されず、入力装置５１６１は各種の公知の入力装置であってよい。入力装置５１６１としては、例えば、マウス、キーボード、タッチパネル、スイッチ、フットスイッチ５１７１及び／又はレバー等が適用され得る。入力装置５１６１としてタッチパネルが用いられる場合には、当該タッチパネルは表示装置５１５５の表示面上に設けられてもよい。

あるいは、入力装置５１６１は、例えばメガネ型のウェアラブルデバイスやＨＭＤ（Head Mounted Display）等の、ユーザによって装着されるデバイスであり、これらのデバイスによって検出されるユーザのジェスチャや視線に応じて各種の入力が行われる。また、入力装置５１６１は、ユーザの動きを検出可能なカメラを含み、当該カメラによって撮像された映像から検出されるユーザのジェスチャや視線に応じて各種の入力が行われる。更に、入力装置５１６１は、ユーザの声を収音可能なマイクロフォンを含み、当該マイクロフォンを介して音声によって各種の入力が行われる。このように、入力装置５１６１が非接触で各種の情報を入力可能に構成されることにより、特に清潔域に属するユーザ（例えば術者５１８１）が、不潔域に属する機器を非接触で操作することが可能となる。また、ユーザは、所持している術具から手を離すことなく機器を操作することが可能となるため、ユーザの利便性が向上する。

処置具制御装置５１６３は、組織の焼灼、切開又は血管の封止等のためのエネルギー処置具５１３５の駆動を制御する。気腹装置５１６５は、内視鏡５１１５による視野の確保及び術者の作業空間の確保の目的で、患者５１８５の体腔を膨らめるために、気腹チューブ５１３３を介して当該体腔内にガスを送り込む。レコーダ５１６７は、手術に関する各種の情報を記録可能な装置である。プリンタ５１６９は、手術に関する各種の情報を、テキスト、画像又はグラフ等各種の形式で印刷可能な装置である。

以下、内視鏡手術システム５１１３において特に特徴的な構成について、更に詳細に説明する。

（支持アーム装置）
支持アーム装置５１４１は、基台であるベース部５１４３と、ベース部５１４３から延伸するアーム部５１４５と、を備える。図示する例では、アーム部５１４５は、複数の関節部５１４７ａ、５１４７ｂ、５１４７ｃと、関節部５１４７ｂによって連結される複数のリンク５１４９ａ、５１４９ｂと、から構成されているが、図３８では、簡単のため、アーム部５１４５の構成を簡略化して図示している。実際には、アーム部５１４５が所望の自由度を有するように、関節部５１４７ａ～５１４７ｃ及びリンク５１４９ａ、５１４９ｂの形状、数及び配置、並びに関節部５１４７ａ～５１４７ｃの回転軸の方向等が適宜設定され得る。例えば、アーム部５１４５は、好適に、６自由度以上の自由度を有するように構成され得る。これにより、アーム部５１４５の可動範囲内において内視鏡５１１５を自由に移動させることが可能になるため、所望の方向から内視鏡５１１５の鏡筒５１１７を患者５１８５の体腔内に挿入することが可能になる。

関節部５１４７ａ～５１４７ｃにはアクチュエータが設けられており、関節部５１４７ａ～５１４７ｃは当該アクチュエータの駆動により所定の回転軸まわりに回転可能に構成されている。当該アクチュエータの駆動がアーム制御装置５１５９によって制御されることにより、各関節部５１４７ａ～５１４７ｃの回転角度が制御され、アーム部５１４５の駆動が制御される。これにより、内視鏡５１１５の位置及び姿勢の制御が実現され得る。この際、アーム制御装置５１５９は、力制御又は位置制御等、各種の公知の制御方式によってアーム部５１４５の駆動を制御することができる。

例えば、術者５１８１が、入力装置５１６１（フットスイッチ５１７１を含む）を介して適宜操作入力を行うことにより、当該操作入力に応じてアーム制御装置５１５９によってアーム部５１４５の駆動が適宜制御され、内視鏡５１１５の位置及び姿勢が制御されてよい。当該制御により、アーム部５１４５の先端の内視鏡５１１５を任意の位置から任意の位置まで移動させた後、その移動後の位置で固定的に支持することができる。なお、アーム部５１４５は、いわゆるマスタースレイブ方式で操作されてもよい。この場合、アーム部５１４５は、手術室から離れた場所に設置される入力装置５１６１を介してユーザによって遠隔操作され得る。

また、力制御が適用される場合には、アーム制御装置５１５９は、ユーザからの外力を受け、その外力にならってスムーズにアーム部５１４５が移動するように、各関節部５１４７ａ～５１４７ｃのアクチュエータを駆動させる、いわゆるパワーアシスト制御を行ってもよい。これにより、ユーザが直接アーム部５１４５に触れながらアーム部５１４５を移動させる際に、比較的軽い力で当該アーム部５１４５を移動させることができる。従って、より直感的に、より簡易な操作で内視鏡５１１５を移動させることが可能となり、ユーザの利便性を向上させることができる。

ここで、一般的に、内視鏡下手術では、スコピストと呼ばれる医師によって内視鏡５１１５が支持されていた。これに対して、支持アーム装置５１４１を用いることにより、人手によらずに内視鏡５１１５の位置をより確実に固定することが可能になるため、術部の画像を安定的に得ることができ、手術を円滑に行うことが可能になる。

なお、アーム制御装置５１５９は必ずしもカート５１５１に設けられなくてもよい。また、アーム制御装置５１５９は必ずしも１つの装置でなくてもよい。例えば、アーム制御装置５１５９は、支持アーム装置５１４１のアーム部５１４５の各関節部５１４７ａ～５１４７ｃにそれぞれ設けられてもよく、複数のアーム制御装置５１５９が互いに協働することにより、アーム部５１４５の駆動制御が実現されてもよい。

（光源装置）
光源装置５１５７は、内視鏡５１１５に術部を撮影する際の照射光を供給する。光源装置５１５７は、例えばＬＥＤ、レーザ光源又はこれらの組み合わせによって構成される白色光源から構成される。このとき、ＲＧＢレーザ光源の組み合わせにより白色光源が構成される場合には、各色（各波長）の出力強度及び出力タイミングを高精度に制御することができるため、光源装置５１５７において撮像画像のホワイトバランスの調整を行うことができる。また、この場合には、ＲＧＢレーザ光源それぞれからのレーザ光を時分割で観察対象に照射し、その照射タイミングに同期してカメラヘッド５１１９の撮像素子の駆動を制御することにより、ＲＧＢそれぞれに対応した画像を時分割で撮像することも可能である。当該方法によれば、当該撮像素子にカラーフィルタを設けなくても、カラー画像を得ることができる。

また、光源装置５１５７は、出力する光の強度を所定の時間ごとに変更するようにその駆動が制御されてもよい。その光の強度の変更のタイミングに同期してカメラヘッド５１１９の撮像素子の駆動を制御して時分割で画像を取得し、その画像を合成することにより、いわゆる黒つぶれ及び白とびのない高ダイナミックレンジの画像を生成することができる。

また、光源装置５１５７は、特殊光観察に対応した所定の波長帯域の光を供給可能に構成されてもよい。特殊光観察では、例えば、体組織における光の吸収の波長依存性を利用して、通常の観察時における照射光（すなわち、白色光）に比べて狭帯域の光を照射することにより、粘膜表層の血管等の所定の組織を高コントラストで撮影する、いわゆる狭帯域光観察（Narrow Band Imaging）が行われる。あるいは、特殊光観察では、励起光を照射することにより発生する蛍光により画像を得る蛍光観察が行われてもよい。蛍光観察では、体組織に励起光を照射し当該体組織からの蛍光を観察するもの（自家蛍光観察）、又はインドシアニングリーン（ICG）等の試薬を体組織に局注するとともに当該体組織にその試薬の蛍光波長に対応した励起光を照射し蛍光像を得るもの等が行われ得る。光源装置５１５７は、このような特殊光観察に対応した狭帯域光及び／又は励起光を供給可能に構成され得る。

（カメラヘッド及びＣＣＵ）
図３９を参照して、内視鏡５１１５のカメラヘッド５１１９及びＣＣＵ５１５３の機能についてより詳細に説明する。図３９は、図３８に示すカメラヘッド５１１９及びＣＣＵ５１５３の機能構成の一例を示すブロック図である。

図３９を参照すると、カメラヘッド５１１９は、その機能として、レンズユニット５１２１と、撮像部５１２３と、駆動部５１２５と、通信部５１２７と、カメラヘッド制御部５１２９と、を有する。また、ＣＣＵ５１５３は、その機能として、通信部５１７３と、画像処理部５１７５と、制御部５１７７と、を有する。カメラヘッド５１１９とＣＣＵ５１５３とは、伝送ケーブル５１７９によって双方向に通信可能に接続されている。

まず、カメラヘッド５１１９の機能構成について説明する。レンズユニット５１２１は、鏡筒５１１７との接続部に設けられる光学系である。鏡筒５１１７の先端から取り込まれた観察光は、カメラヘッド５１１９まで導光され、当該レンズユニット５１２１に入射する。レンズユニット５１２１は、ズームレンズ及びフォーカスレンズを含む複数のレンズが組み合わされて構成される。レンズユニット５１２１は、撮像部５１２３の撮像素子の受光面上に観察光を集光するように、その光学特性が調整されている。また、ズームレンズ及びフォーカスレンズは、撮像画像の倍率及び焦点の調整のため、その光軸上の位置が移動可能に構成される。

撮像部５１２３は撮像素子によって構成され、レンズユニット５１２１の後段に配置される。レンズユニット５１２１を通過した観察光は、当該撮像素子の受光面に集光され、光電変換によって、観察像に対応した画像信号が生成される。撮像部５１２３によって生成された画像信号は、通信部５１２７に提供される。

撮像部５１２３を構成する撮像素子としては、例えばＣＭＯＳ（Complementary Metal Oxide Semiconductor）タイプのイメージセンサであり、Ｂａｙｅｒ配列を有するカラー撮影可能なものが用いられる。なお、当該撮像素子としては、例えば４Ｋ以上の高解像度の画像の撮影に対応可能なものが用いられてもよい。術部の画像が高解像度で得られることにより、術者５１８１は、当該術部の様子をより詳細に把握することができ、手術をより円滑に進行することが可能となる。

また、撮像部５１２３を構成する撮像素子は、３Ｄ表示に対応する右目用及び左目用の画像信号をそれぞれ取得するための１対の撮像素子を有するように構成される。３Ｄ表示が行われることにより、術者５１８１は術部における生体組織の奥行きをより正確に把握することが可能になる。なお、撮像部５１２３が多板式で構成される場合には、各撮像素子に対応して、レンズユニット５１２１も複数系統設けられる。

また、撮像部５１２３は、必ずしもカメラヘッド５１１９に設けられなくてもよい。例えば、撮像部５１２３は、鏡筒５１１７の内部に、対物レンズの直後に設けられてもよい。

駆動部５１２５は、アクチュエータによって構成され、カメラヘッド制御部５１２９からの制御により、レンズユニット５１２１のズームレンズ及びフォーカスレンズを光軸に沿って所定の距離だけ移動させる。これにより、撮像部５１２３による撮像画像の倍率及び焦点が適宜調整され得る。

通信部５１２７は、ＣＣＵ５１５３との間で各種の情報を送受信するための通信装置によって構成される。通信部５１２７は、撮像部５１２３から得た画像信号をＲＡＷデータとして伝送ケーブル５１７９を介してＣＣＵ５１５３に送信する。この際、術部の撮像画像を低レイテンシで表示するために、当該画像信号は光通信によって送信されることが好ましい。手術の際には、術者５１８１が撮像画像によって患部の状態を観察しながら手術を行うため、より安全で確実な手術のためには、術部の動画像が可能な限りリアルタイムに表示されることが求められるからである。光通信が行われる場合には、通信部５１２７には、電気信号を光信号に変換する光電変換モジュールが設けられる。画像信号は当該光電変換モジュールによって光信号に変換された後、伝送ケーブル５１７９を介してＣＣＵ５１５３に送信される。

また、通信部５１２７は、ＣＣＵ５１５３から、カメラヘッド５１１９の駆動を制御するための制御信号を受信する。当該制御信号には、例えば、撮像画像のフレームレートを指定する旨の情報、撮像時の露出値を指定する旨の情報、並びに／又は撮像画像の倍率及び焦点を指定する旨の情報等、撮像条件に関する情報が含まれる。通信部５１２７は、受信した制御信号をカメラヘッド制御部５１２９に提供する。なお、ＣＣＵ５１５３からの制御信号も、光通信によって伝送されてもよい。この場合、通信部５１２７には、光信号を電気信号に変換する光電変換モジュールが設けられ、制御信号は当該光電変換モジュールによって電気信号に変換された後、カメラヘッド制御部５１２９に提供される。

なお、上記のフレームレートや露出値、倍率、焦点等の撮像条件は、取得された画像信号に基づいてＣＣＵ５１５３の制御部５１７７によって自動的に設定される。つまり、いわゆるＡＥ（Auto Exposure）機能、ＡＦ（Auto Focus）機能及びＡＷＢ（Auto White Balance）機能が内視鏡５１１５に搭載される。

カメラヘッド制御部５１２９は、通信部５１２７を介して受信したＣＣＵ５１５３からの制御信号に基づいて、カメラヘッド５１１９の駆動を制御する。例えば、カメラヘッド制御部５１２９は、撮像画像のフレームレートを指定する旨の情報及び／又は撮像時の露光を指定する旨の情報に基づいて、撮像部５１２３の撮像素子の駆動を制御する。また、例えば、カメラヘッド制御部５１２９は、撮像画像の倍率及び焦点を指定する旨の情報に基づいて、駆動部５１２５を介してレンズユニット５１２１のズームレンズ及びフォーカスレンズを適宜移動させる。カメラヘッド制御部５１２９は、更に、鏡筒５１１７やカメラヘッド５１１９を識別するための情報を記憶する機能を備えてもよい。

なお、レンズユニット５１２１や撮像部５１２３等の構成を、気密性及び防水性が高い密閉構造内に配置することで、カメラヘッド５１１９について、オートクレーブ滅菌処理に対する耐性を持たせることができる。

次に、ＣＣＵ５１５３の機能構成について説明する。通信部５１７３は、カメラヘッド５１１９との間で各種の情報を送受信するための通信装置によって構成される。通信部５１７３は、カメラヘッド５１１９から、伝送ケーブル５１７９を介して送信される画像信号を受信する。この際、上記のように、当該画像信号は好適に光通信によって送信され得る。この場合、光通信に対応して、通信部５１７３には、光信号を電気信号に変換する光電変換モジュールが設けられる。通信部５１７３は、電気信号に変換した画像信号を画像処理部５１７５に提供する。

また、通信部５１７３は、カメラヘッド５１１９に対して、カメラヘッド５１１９の駆動を制御するための制御信号を送信する。当該制御信号も光通信によって送信されてよい。

画像処理部５１７５は、カメラヘッド５１１９から送信されたＲＡＷデータである画像信号に対して各種の画像処理を施す。当該画像処理としては、例えば現像処理、高画質化処理（帯域強調処理、超解像処理、ＮＲ（Noise reduction）処理及び／又は手ブレ補正処理等）、並びに／又は拡大処理（電子ズーム処理）等、各種の公知の信号処理が含まれる。また、画像処理部５１７５は、ＡＥ、ＡＦ及びＡＷＢを行うための、画像信号に対する検波処理を行う。

画像処理部５１７５は、ＣＰＵやＧＰＵ等のプロセッサによって構成され、当該プロセッサが所定のプログラムに従って動作することにより、上述した画像処理や検波処理が行われ得る。なお、画像処理部５１７５が複数のＧＰＵによって構成される場合には、画像処理部５１７５は、画像信号に係る情報を適宜分割し、これら複数のＧＰＵによって並列的に画像処理を行う。

制御部５１７７は、内視鏡５１１５による術部の撮像、及びその撮像画像の表示に関する各種の制御を行う。例えば、制御部５１７７は、カメラヘッド５１１９の駆動を制御するための制御信号を生成する。この際、撮像条件がユーザによって入力されている場合には、制御部５１７７は、当該ユーザによる入力に基づいて制御信号を生成する。あるいは、内視鏡５１１５にＡＥ機能、ＡＦ機能及びＡＷＢ機能が搭載されている場合には、制御部５１７７は、画像処理部５１７５による検波処理の結果に応じて、最適な露出値、焦点距離及びホワイトバランスを適宜算出し、制御信号を生成する。

また、制御部５１７７は、画像処理部５１７５によって画像処理が施された画像信号に基づいて、術部の画像を表示装置５１５５に表示させる。この際、制御部５１７７は、各種の画像認識技術を用いて術部画像内における各種の物体を認識する。例えば、制御部５１７７は、術部画像に含まれる物体のエッジの形状や色等を検出することにより、鉗子等の術具、特定の生体部位、出血、エネルギー処置具５１３５使用時のミスト等を認識することができる。制御部５１７７は、表示装置５１５５に術部の画像を表示させる際に、その認識結果を用いて、各種の手術支援情報を当該術部の画像に重畳表示させる。手術支援情報が重畳表示され、術者５１８１に提示されることにより、より安全かつ確実に手術を進めることが可能になる。

カメラヘッド５１１９及びＣＣＵ５１５３を接続する伝送ケーブル５１７９は、電気信号の通信に対応した電気信号ケーブル、光通信に対応した光ファイバ、又はこれらの複合ケーブルである。

ここで、図示する例では、伝送ケーブル５１７９を用いて有線で通信が行われていたが、カメラヘッド５１１９とＣＣＵ５１５３との間の通信は無線で行われてもよい。両者の間の通信が無線で行われる場合には、伝送ケーブル５１７９を手術室内に敷設する必要がなくなるため、手術室内における医療スタッフの移動が当該伝送ケーブル５１７９によって妨げられる事態が解消され得る。

以上、本開示に係る技術が適用され得る手術室システム５１００の一例について説明した。なお、ここでは、一例として手術室システム５１００が適用される医療用システムが内視鏡手術システム５１１３である場合について説明したが、手術室システム５１００の構成はかかる例に限定されない。例えば、手術室システム５１００は、内視鏡手術システム５１１３に代えて、検査用軟性内視鏡システムや顕微鏡手術システムに適用されてもよい。

本開示に係る技術は、以上説明した構成のうち、視聴覚コントローラ５１０７に適用され得る。具体的には、例えば２台のシーリングカメラ５１８７を、互いに異なる方向を撮影するような配置で設けた上で、本技術の制御部としての視聴覚コントローラ５１０７が、２台のシーリングカメラ５１８７による撮影方向を制御するようにする。

視聴覚コントローラ５１０７は、第１のシーリングカメラ５１８７により撮影された第１の画像と、第２のシーリングカメラ５１８７により撮影された第２の画像に関する被写体の状況に応じて、２台のシーリングカメラ５１８７による撮影方向を制御する。

本開示に係る技術を視聴覚コントローラ５１０７に適用することにより、例えば術者の立ち位置や手の位置、術部の位置に応じて、２台のシーリングカメラ５１８７が異なる方向から術者の手元を撮像した２つの画像を、適切に切り替えるなどして出力することができる。すなわち、術者の身体や手などによって術部が隠れることなく、手術の様子を漏れなく記録することが可能となる。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

さらに、本技術は以下のような構成をとることができる。
（１）
第１の撮影部による第１の画像または第２の撮影部による第２の画像に関する被写体の状況に応じて、前記第１の撮影部の第１の撮影方向、および、前記第１の撮影方向とは異なる前記第２の撮影部の第２の撮影方向を制御する制御部
を備える制御装置。
（２）
前記制御部は、前記第１の画像または前記第２の画像の前記被写体の挙動に応じて、前記第１の撮影方向および前記第２の撮影方向を制御する
（１）に記載の制御装置。
（３）
前記被写体の挙動は、前記被写体の動作である
（２）に記載の制御装置。
（４）
前記被写体の動作は、起立、着席、挙手、および移動の少なくともいずれかを含む
（３）に記載の制御装置。
（５）
前記被写体の挙動は、前記被写体が発する音である
（２）に記載の制御装置。
（６）
前記被写体の発する音は、発話音声である
（５）に記載の制御装置。
（７）
前記制御部は、
前記第１の画像に対する動体検知、ジェスチャ検知、および前記被写体のトラッキングを実行し、
前記第２の画像に対する動体検知、ジェスチャ検知、および前記被写体のトラッキングを実行し、
前記第１の画像または前記第２の画像に対する前記動体検知、前記ジェスチャ検知、および前記トラッキングのいずれかの結果に応じて、前記第１の撮影方向および前記第２の撮影方向を制御する
（１）乃至（６）のいずれかに記載の制御装置。
（８）
前記制御部は、前記第１の画像または前記第２の画像に関する前記被写体の状況に応じて、前記第１の画像および前記第２の画像の少なくともいずれかの出力を制御する
（７）に記載の制御装置。
（９）
前記制御部は、前記第１の画像または前記第２の画像の前記被写体の状況に応じて、前記第１の画像または前記第２の画像を切り替えて出力する
（８）に記載の制御装置。
（１０）
前記制御部は、前記第１の画像または前記第２の画像の前記被写体の状況に応じて、前記第１の画像および前記第２の画像をサイド・バイ・サイド合成して出力する
（８）に記載の制御装置。
（１１）
前記制御部は、前記第１の画像または前記第２の画像の前記被写体の状況に応じて、前記第１の画像および前記第２の画像をピクチャ・イン・ピクチャ合成して出力する
（８）に記載の制御装置。
（１２）
前記第１の画像は、前記第１の撮影方向にいる講師を撮影することで取得され、
前記第２の画像は、前記第２の撮影方向にいる聴講者を撮影することで取得され、
前記制御部は、
前記第１の撮影方向および前記第２の撮影方向とは異なる第３の撮影方向にある黒板またはホワイトボードを撮影することで取得される第３の画像に対して、板書された内容を抽出する板書抽出処理を施し、
前記第１の画像または前記第２の画像に対する前記動体検知、前記ジェスチャ検知、および前記トラッキング、並びに前記板書抽出処理のいずれかの結果に応じて、前記第１乃至第３の撮影方向を制御するとともに、前記第１の画像、前記第２の画像、および、前記板書された内容の少なくともいずれかの出力を制御する
（８）乃至（１１）のいずれかに記載の制御装置。
（１３）
前記第１の画像は、前記第１の撮影方向にいる講師を撮影することで取得され、
前記第２の画像は、前記第２の撮影方向にいる聴講者を撮影することで取得され、
前記制御部は、前記第１の画像もしくは前記第２の画像に対する前記動体検知、前記ジェスチャ検知、および前記トラッキングのいずれかの結果、または、情報処理装置から出力される第３の画像の出力変化に応じて、前記第１および第２の撮影方向を制御するとともに、前記第１の画像、前記第２の画像、および前記第３の画像の少なくともいずれかの出力を制御する
（８）乃至（１１）のいずれかに記載の制御装置。
（１４）
前記制御部は、制御対象についての状態の遷移を表すシナリオに基づいて、前記制御対象それぞれの動作を制御し、
前記シナリオには、複数の前記状態について、前記状態毎に、BehaviorとEventが記述され、
前記Behaviorには、前記制御対象それぞれが実行する動作が記述され、前記Eventには、他の前記状態への遷移条件、および、前記遷移条件に対応付けられた前記状態の遷移先が記述される
（１）乃至（１３）のいずれかに記載の制御装置。
（１５）
前記シナリオに基づいて、第１の状態において、前記制御対象それぞれが、前記第１の状態の前記Behaviorに記述されている動作を実行しているとき、前記制御対象のいずれかが、前記第１の状態の前記Eventに記述されている前記遷移条件を満たした場合、前記状態は、前記遷移条件に対応付けられた第２の状態に遷移する
（１４）に記載の制御装置。
（１６）
前記遷移条件は、前記第１の画像または前記第２の画像の前記被写体の状況の変化に基づくものである
（１５）に記載の制御装置。
（１７）
前記シナリオは、状態遷移図形式またはタイムライン形式で表現される
（１４）乃至（１６）のいずれかに記載の制御装置。
（１８）
前記制御部は、ユーザの操作に基づいて、前記シナリオにおける前記状態の追加および削除、並びに前記状態の記述内容の変更を行う
（１４）乃至（１７）のいずれかに記載の制御装置。
（１９）
前記制御部は、前記シナリオにおける前記状態の追加および削除、並びに前記状態の前記記述内容の変更を受け付けるＧＵＩの表示を制御する
（１８）に記載の制御装置。
（２０）
制御装置が、
第１の撮影部による第１の画像または第２の撮影部による第２の画像に関する被写体の状況に応じて、前記第１の撮影部の第１の撮影方向、および、前記第１の撮影方向とは異なる前記第２の撮影部の第２の撮影方向を制御する
制御方法。
（２１）
少なくとも、第１の撮影方向の撮影により取得された第１の画像の被写体の状況に応じて、前記第１の画像、および、前記第１の画像とは異なる第２の画像の少なくともいずれかの出力を制御する制御部
を備える制御装置。
（２２）
前記制御部は、
前記第１の撮影方向とは異なる第２の撮影方向の撮影を制御することで前記第２の画像を取得し、
前記第１の画像または前記第２の画像の被写体の状況に応じて、前記第１の画像および前記第２の画像の少なくともいずれかの出力を制御する
（２１）に記載の制御装置。
（２３）
前記第１の画像は、前記第１の撮影方向にいる人物を撮影することで取得され、
前記制御部は、
前記第１の画像に対する動体検知、ジェスチャ検知、および前記被写体のトラッキングを実行し、
前記第１の撮影方向とは異なる第２の撮影方向にある黒板またはホワイトボードを撮影することで取得される前記第２の画像に対して、板書された内容を抽出する板書抽出処理の結果を取得し、
前記第１の画像に対する前記動体検知、前記ジェスチャ検知、および前記トラッキング、または、前記板書抽出処理の結果に応じて、前記第１の画像および前記板書された内容の少なくともいずれかの出力を制御する
（２１）に記載の制御装置。
（２４）
前記第１の画像は、前記第１の撮影方向にいる人物を撮影することで取得され、
前記制御部は、
前記第１の画像に対する動体検知、ジェスチャ検知、および前記被写体のトラッキングを実行し、
前記第１の画像に対する前記動体検知、前記ジェスチャ検知、および前記トラッキングのいずれかの結果、または情報処理装置から出力される第２の画像の出力変化に応じて、前記第１の画像および前記第２の画像の少なくともいずれかの出力を制御する
（２１）に記載の制御装置。
（２５）
制御装置が、
少なくとも、第１の撮影方向の撮影により取得された第１の画像の被写体の状況に応じて、前記第１の画像、および、前記第１の画像とは異なる第２の画像の少なくともいずれかの出力を制御する
制御方法。

１１カメラ，１１－１講師用カメラ，１１－２聴講者用カメラ，１１－３板書用カメラ，１２カメラ制御装置，１２－１講師用カメラ制御装置，１２－２聴講者用カメラ制御装置，１２－３板書用カメラ制御装置，１３制御装置，２１動体検知部，２２ジェスチャ検知部，２３トラッキング部，２４カメラ制御部，３１中央制御部，３２シナリオ生成部，３３スイッチャ，２１１板書抽出部，３０１スライド用ＰＣ

Claims

第１の人物を撮影する第１の撮影部による第１の画像、または、前記第１の人物がいる方向とは異なる方向にいる第２の人物を撮影する第２の撮影部による第２の画像の、被写体の挙動である起立、着席、挙手、および移動の少なくともいずれかを含む動作と、前記第１の撮影部および前記第２の撮影部を含む制御対象についての状態の遷移を表し、前記第１の画像または前記第２の画像の前記被写体の動作の変化に基づく前記状態の遷移条件が記述されたシナリオに基づいて、前記第１の撮影部の第１の撮影方向、および、前記第１の撮影方向とは異なる前記第２の撮影部の第２の撮影方向を制御する制御部
を備える制御装置。
前記シナリオには、複数の前記状態について、前記状態毎に、BehaviorとEventが記述され、
前記Behaviorには、前記制御対象それぞれが実行する動作が記述され、前記Eventには、他の前記状態への前記遷移条件、および、前記遷移条件に対応付けられた前記状態の遷移先が記述される
請求項１に記載の制御装置。
前記シナリオに基づいて、第１の状態において、前記制御対象それぞれが、前記第１の状態の前記Behaviorに記述されている動作を実行しているとき、前記制御対象のいずれかが、前記第１の状態の前記Eventに記述されている前記遷移条件を満たした場合、前記状態は、前記遷移条件に対応付けられた第２の状態に遷移する
請求項２に記載の制御装置。
前記シナリオは、状態遷移図形式またはタイムライン形式で表現される
請求項３に記載の制御装置。
前記制御部は、ユーザの操作に基づいて、前記シナリオにおける前記状態の追加および削除、並びに前記状態の記述内容の変更を行う
請求項１乃至４のいずれかに記載の制御装置。
前記制御部は、前記シナリオにおける前記状態の追加および削除、並びに前記状態の前記記述内容の変更を受け付けるＧＵＩの表示を制御する
請求項５に記載の制御装置。
前記制御部は、
前記第１の画像に対する動体検知、ジェスチャ検知、および前記被写体のトラッキングを実行し、
前記第２の画像に対する動体検知、ジェスチャ検知、および前記被写体のトラッキングを実行し、
前記第１の画像または前記第２の画像に対する前記動体検知、前記ジェスチャ検知、および前記トラッキングのいずれかの結果に応じて、前記第１の撮影方向および前記第２の撮影方向を制御する
請求項１乃至６のいずれかに記載の制御装置。
前記制御部は、前記第１の画像または前記第２の画像の前記被写体の動作に応じて、前記第１の画像および前記第２の画像の少なくともいずれかの出力を制御する
請求項７に記載の制御装置。
前記制御部は、前記第１の画像または前記第２の画像の前記被写体の動作に応じて、前記第１の画像または前記第２の画像を切り替えて出力する
請求項８に記載の制御装置。
前記制御部は、前記第１の画像または前記第２の画像の前記被写体の動作に応じて、前記第１の画像および前記第２の画像をサイド・バイ・サイド合成して出力する
請求項８に記載の制御装置。
前記制御部は、前記第１の画像または前記第２の画像の前記被写体の動作に応じて、前記第１の画像および前記第２の画像をピクチャ・イン・ピクチャ合成して出力する
請求項８に記載の制御装置。
前記第１の画像は、前記第１の撮影方向にいる講師を撮影することで取得され、
前記第２の画像は、前記第２の撮影方向にいる聴講者を撮影することで取得され、
前記制御部は、
前記第１の撮影方向および前記第２の撮影方向とは異なる第３の撮影方向にある黒板またはホワイトボードを撮影することで取得される第３の画像に対して、板書された内容を抽出する板書抽出処理を施し、
前記第１の画像または前記第２の画像に対する前記動体検知、前記ジェスチャ検知、および前記トラッキング、並びに前記板書抽出処理のいずれかの結果に応じて、前記第１乃至第３の撮影方向を制御するとともに、前記第１の画像、前記第２の画像、および、前記板書された内容の少なくともいずれかの出力を制御する
請求項８に記載の制御装置。
前記第１の画像は、前記第１の撮影方向にいる講師を撮影することで取得され、
前記第２の画像は、前記第２の撮影方向にいる聴講者を撮影することで取得され、
前記制御部は、前記第１の画像もしくは前記第２の画像に対する前記動体検知、前記ジェスチャ検知、および前記トラッキングのいずれかの結果、または、情報処理装置から出力される第３の画像の出力変化に応じて、前記第１および第２の撮影方向を制御するとともに、前記第１の画像、前記第２の画像、および前記第３の画像の少なくともいずれかの出力を制御する
請求項８に記載の制御装置。
制御装置が、
第１の人物を撮影する第１の撮影部による第１の画像、または、前記第１の人物がいる方向とは異なる方向にいる第２の人物を撮影する第２の撮影部による第２の画像の、被写体の挙動である起立、着席、挙手、および移動の少なくともいずれかを含む動作と、前記第１の撮影部および前記第２の撮影部を含む制御対象についての状態の遷移を表し、前記第１の画像または前記第２の画像の前記被写体の動作の変化に基づく前記状態の遷移条件が記述されたシナリオに基づいて、前記第１の撮影部の第１の撮影方向、および、前記第１の撮影方向とは異なる前記第２の撮影部の第２の撮影方向を制御する
制御方法。