JP2010109898A

JP2010109898A - 撮影制御装置、撮影制御方法及びプログラム

Info

Publication number: JP2010109898A
Application number: JP2008282128A
Authority: JP
Inventors: Tsuyoshi Yagisawa; 津義八木沢
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2008-10-31
Filing date: 2008-10-31
Publication date: 2010-05-13

Abstract

【課題】ビデオ会議システム（テレビ会議システム）において、発言者の発声開始時点からその発言者を撮影・表示できるようにする。
【解決手段】カメラ２０３による撮影を制御する撮影制御装置１００において、会議の参加者に係る情報であって、当該参加者の位置情報を含む参加者情報を格納する情報格納部２１２と、会議の参加者のうちの第１の参加者が発した音声の内容を音声認識する音声認識部２１３と、音声認識部２１３によって音声認識された内容と参加者情報とに基づいて、会議の参加者の中から第２の参加者を特定する特定部２１４と、特定部２１４によって特定された第２の参加者の位置情報に基づいて、カメラ２０３を制御するカメラ制御部２１７を具備する。
【選択図】図３

Description

本発明は、カメラによる撮影を制御する撮影制御装置及び撮影制御方法、当該撮影制御方法をコンピュータに実行させるためのプログラム、並びに、当該プログラムを記憶するコンピュータ読み取り可能な記憶媒体に関する。特に、本発明は、音声もしくは音源の方向を検知してカメラの制御を行うために用いて好適なものである。

ビデオ会議システム（テレビ会議システム）では、一般にカメラの向きを固定しておくか、或いは、カメラの方向制御を人手で行う必要がある。この場合、ビデオ会議システムを快適に運用することが困難である。これを解決する手段として、従来、音源の方向を検知してその方向にカメラを向けるカメラ制御方法が提案されている（例えば、下記の特許文献１参照）。このカメラ制御方法によると、発言者の方向にカメラが自動的にパンされるので、カメラの向きを人手で操作する必要がないという利点がある。

さらに、その同定精度を高めるために、予め登録しておいた会議参加者の音声の特徴及び顔画像の特徴を用いて、発声者の音声からその発言者を同定する方法が提案されている（例えば、下記の特許文献２参照）。さらに、予め登録しておいた発言者の音声と発言中の音声とを比較して発言者を同定する方法が提案されている（例えば、下記の特許文献３参照）。

また、例えば放送局の番組制作などで最適なカメラワークを自動で行うために、複数のカメラのカメラワークを制御すると共に、複数のカメラから得られる映像の切り替え（スイッチング）を制御する方法が提案されている（例えば、下記の特許文献４参照）。この特許文献４に示す技術では、出演者（話者）の発言内容（キーワード）等に基づいて、予め設定されているキーワードと一致した場合や、同一ショットの映像が一定時間経過した場合をトリガーとして、上述した制御を行うようにしている。

特開昭６１−１９８８９１号公報特開平２−０６７８８９号公報特開平７−１０７４５１号公報特開２００５−２９５４３１号公報

しなしながら、上述した特許文献１、特許文献２、特許文献３及び特許文献４に開示されるような従来技術では、発言者が発声してからはじめて同定もしくはカメラワークが可能となる。即ち、発言者の発声後に、その発声の音声をもとに、発言者の方向検知と撮影（モニタ表示）が行われることになる。

この場合、発言者が発声してから、その発言者にカメラが向けられて撮影・モニタ表示されるまでの間に時間差が生じ、発言者の発声開始時点からその発言者を撮影・表示することが困難であるという問題があった。また、複数人が発声した場合や周囲雑音などがある場合には、現在の音声方向検知は必ずしも１００％とは言えないため、本来の発声者以外の人物を撮影・モニタ表示してしまうことも生じ得る。

本発明は、このような問題点に鑑みてなされたものであり、ビデオ会議システム（テレビ会議システム）において、発言者の発声開始時点からその発言者を撮影・表示できるようにすることを目的とする。

本発明の撮影制御装置は、カメラによる撮影を制御する撮影制御装置において、会議の参加者に係る情報であって、当該参加者の位置情報を含む参加者情報を格納する情報格納手段と、前記会議の参加者のうちの第１の参加者が発した音声の内容を音声認識する音声認識手段と、前記音声認識手段によって音声認識された内容と前記参加者情報とに基づいて、前記会議の参加者の中から第２の参加者を特定する特定手段と、前記特定手段によって特定された前記第２の参加者の前記位置情報に基づいて、前記カメラを制御するカメラ制御手段とを有する。

本発明の撮影制御方法は、カメラによる撮影を制御する撮影制御方法において、会議の参加者のうちの第１の参加者が発した音声の内容を音声認識する音声認識ステップと、前記音声認識ステップによって音声認識された内容と、情報格納手段に格納されている、前記会議の参加者の位置情報を含む参加者情報とに基づいて、前記会議の参加者の中から第２の参加者を特定する特定ステップと、前記特定ステップによって特定された前記第２の参加者の前記位置情報に基づいて、前記カメラを制御するカメラ制御ステップとを有する。

本発明のプログラムは、前記撮影制御方法をコンピュータに実行させるためのものである。また、本発明のコンピュータ読み取り可能な記憶媒体は、前記プログラムを記憶する。

本発明によれば、ビデオ会議システム（テレビ会議システム）において、発言者の発声開始時点からその発言者を撮影・表示することができる。

以下、図面を参照しながら、本発明を実施するための最良の形態について説明する。
ただし、以下に示す実施形態に記載されている構成要素はあくまでも例示であり、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

（第１の実施形態）
まず、本発明の第１の実施形態について説明する。
図１は、本発明の第１の実施形態を示し、ビデオ会議システムが適用されるビデオ会議室の全体の様子を示す模式図である。

図１には、本発明の第１の実施形態に係る撮影制御装置１００が設置されている。
この撮影制御装置１００は、統括制御装置１１０と、カメラ１２０と、マイク１３０と、モニタ１４０と、スピーカ１５０と、操作入力装置１６０を有して構成されており、カメラ１２０による撮影を制御するものである。

統括制御装置１１０は、撮影制御装置１００の動作を統括的に制御するものであり、カメラ制御／音源の方向特定制御／映像表示制御／音声出力制御などの各種の制御を行う。カメラ１２０は、撮影方向を制御可能に構成され、統括制御装置１１０の制御に基づいて、ビデオ会議室内の撮影を行う撮像装置である。マイク１３０は、音源（もしくは音声）の方向を検知するための音声入力装置である。モニタ１４０は、カメラ１２０等で撮影された映像を表示する映像表示装置である。スピーカ１５０は、音声を出力する音声出力装置である。操作入力装置１６０は、例えばユーザから操作入力された情報を統括制御装置１１０に対して入力するための情報入力装置である。

会議テーブル４００は、当該ビデオ会議室内に設置されたテーブルである。参加者（Ａ〜Ｈ）４０１〜４０８は、当該ビデオ会議室内にいる会議の参加者であり、図１に示す例では、会議テーブル４００の周囲に全員が着席している様子が示されている。

なお、本例で示すビデオ会議システム（テレビ会議システム）では、通信相手側にも同様のシステムがあり、これらのシステム同士は通信回線で相互接続されているが、図１では省略している。また、マイク１３０は、音源を検出するため、複数のマイクで構成されるマイクロフォンアレイを用いることが好適である。さらに、マイク１３０は、会議の参加者の会話を集音するためにも使われるものとする。また、本例では、撮影制御装置１００の内部に、カメラ１２０、マイク１３０、モニタ１４０、スピーカ１５０及び操作入力装置１６０を構成するようにしているが、必ずしも内部に構成する必要は無く、必要に応じてその外部に設けるようにしてもよい。

図２は、本発明の第１の実施形態に係る撮影制御装置１００のハードウエア構成の一例を示す模式図である。ここで、図１に示す構成と同様の構成については、同じ符号を付している。

図２に示すように、撮影制御装置１００は、中央処理装置（ＣＰＵ）１１１、制御メモリ（ＲＯＭ）１１２、一時記憶メモリ（ＲＡＭ）１１３、外部メモリ１１４、通信Ｉ／Ｆ１１５及びバスのハードウエア構成を有して構成されている。さらに、撮影制御装置１００は、図１に示すカメラ１２０、マイク１３０、モニタ１４０、スピーカ１５０及び操作入力装置１６０のハードウエア構成を有している。

撮影制御装置１００において、図１に示す統括制御装置１１０は、例えば、中央処理装置（ＣＰＵ）１１１、制御メモリ（ＲＯＭ）１１２、一時記憶メモリ（ＲＡＭ）１１３、外部メモリ１１４及び通信Ｉ／Ｆ１１５を有して構成されている。

中央処理装置（ＣＰＵ）１１１は、バスを介して、撮影制御装置１００の各構成部（１１２〜１１５、１２０〜１６０）を制御し、必要に応じて数値演算を行って、各種の制御に係る処理等を行う。

制御メモリ（ＲＯＭ）１１２には、中央処理装置（ＣＰＵ）１１１が後述する図４の処理を実行するために必要なプログラムや各種の固定的データ等が記憶されている。なお、当該プログラムは、例えば、外部メモリ１１４に記憶されていてもよい。

一時記憶メモリ（ＲＡＭ）１１３は、一時的なデータ等を記憶するメモリであり、例えば中央処理装置（ＣＰＵ）１１１の主メモリ、ワークエリア等として機能する。例えば、中央処理装置（ＣＰＵ）１１１は、処理の実行に際して、制御メモリ（ＲＯＭ）１１２（或いは外部メモリ１１４）から必要なプログラム等を一時記憶メモリ（ＲＡＭ）１１３にロードし、当該プログラム等を実行することで各種の機能動作を実現する。

外部メモリ１１４には、例えば、中央処理装置（ＣＰＵ）１１１がプログラム等を用いた処理を行う際に必要な各種のデータや各種の情報が記憶されている。また、外部メモリ１１４には、例えば、中央処理装置（ＣＰＵ）１１１がプログラム等を用いた処理を行うことにより得られた各種のデータや各種の情報が記憶される。

通信Ｉ／Ｆ１１５は、外部装置との通信を司るものである。また、バスは、中央処理装置（ＣＰＵ）１１１と、撮影制御装置１００のその他の構成部（１１２〜１１５、１２０〜１６０）とを通信可能に接続するためのものである。

図２に示すカメラ１２０は、図１に示すものと同様の構成、即ち、撮影方向を制御可能に構成されたカメラである。このカメラ１２０は、中央処理装置（ＣＰＵ）１１１の制御指令に基づいてその向き等を変化させる。

図２に示すマイク１３０は、図１に示すものと同様の構成、即ち、音源の方向検知及び会議の参加者の音声を集音する目的で利用される一又は複数で構成される音声入力装置である。この際、マイク１３０は、上述したように音源の方向を検知するためには、複数のマイクを並べて構成するマイクロフォンアレイを用いることが一般的である。

図２に示すモニタ１４０は、図１に示すものと同様の構成、即ち、カメラ１２０等で撮影された映像を表示する映像表示装置である。また、図２に示すスピーカ１５０は、図１に示すものと同様の構成、即ち、音声を出力する音声出力装置である。また、図２に示す操作入力装置１６０は、図１に示すものと同様の構成、即ち、中央処理装置（ＣＰＵ）１１１に対して操作入力された情報を入力するための情報入力装置である。

図３は、本発明の第１の実施形態に係る撮影制御装置１００の機能構成の一例を示す模式図である。なお、図３には、通信相手側のビデオ会議システム（撮影制御装置）と通信を行うための通信回線３００が示されている。

図３においては、例えば、図２に示す中央処理装置（ＣＰＵ）１１１が制御メモリ（ＲＯＭ）１１２等のプログラムを実行することにより、図３に示す以下の各部２０２、２０４、２０６、２０７、２０９、２１０、２１３〜２１８が構成される。また、例えば、図２に示す中央処理装置（ＣＰＵ）１１１が制御メモリ（ＲＯＭ）１１２等のプログラムを実行し、且つ通信Ｉ／Ｆ１１５により、通信部２０５が構成される。また、図３においては、例えば、図２に示すマイク１３０が音声入力部２０１を構成し、図２に示すカメラ１２０がカメラ２０３を構成し、図２に示すスピーカ１５０が音声出力部２０８を構成し、図２に示すモニタ１４０が映像表示部２１１を構成する。また、図３においては、例えば、図２に示す外部メモリ１１４が情報格納部２１２を構成し、図２に示す操作入力装置１６０が情報入力部２１９を構成する。

図２に示すように、撮影制御装置１００は、音声入力部２０１、音声信号符号化部２０２、カメラ２０３、映像信号符号化部２０４、通信部２０５、多重化／分離部２０６、音声信号復号化部２０７及び音声出力部２０８を有している。さらに、映像信号復号化部２０９、映像表示制御部２１０、映像表示部２１１、情報格納部２１２、音声認識部２１３、特定部２１４、音声方向検知部２１５、顔画像認識部２１６、カメラ制御部２１７、情報格納制御部２１８及び情報入力部２１９を有している。

音声入力部２０１は、音声を入力するマイクである。音声信号符号化部２０２は、音声入力部２０１から入力された音声信号を符号化する処理を行う。

カメラ２０３は、会議の模様を撮影する撮像装置である。映像信号符号化部２０４は、カメラ２０３で撮影された映像信号を符号化する処理を行う。

通信部２０５は、通信回線３００を介して外部（例えば通信相手側のシステム）と通信を行う。多重化／分離部２０６は、映像信号、音声信号、各種の情報やデータ、会議制御信号等を多重／分離する。

音声信号復号化部２０７は、多重化／分離部２０６から出力された音声信号を復号化する処理を行う。さらに、音声信号復号化部２０７は、復号化した音声信号を増幅する音声信号増幅処理も行う。音声出力部２０８は、音声信号復号化部２０７から出力された音声信号を音声に変えて出力するスピーカである。

映像信号復号化部２０９は、多重化／分離部２０６から出力された映像信号を復号化する処理を行う。映像表示制御部２１０は、映像信号復号化部２０９から出力された映像信号を映像表示部２１１に表示するための制御を行う。映像表示部２１１は、映像表示制御部２１０の制御により、映像信号に基づく映像を画面に表示するモニタである。

情報格納部２１２は、会議の参加者に係る参加者情報を格納するものである。この参加者情報には、参加者の会議での位置を示す位置情報が含まれている。音声認識部２１３は、会議の参加者のうちのある参加者（第１の参加者）が発した音声の内容を音声認識する処理を行う。

特定部２１４は、音声認識部２１３によって音声認識された内容と情報格納部２１２に格納されている参加者情報とに基づいて、会議の参加者の中から、次に発言が予想される参加者（第２の参加者）を特定する処理を行う。

音声方向検知部２１５は、音声入力部２０１から入力された音声信号に基づいて、音声方向を検知する。顔画像認識部２１６は、カメラ２０３で撮影された映像信号に基づいて、会議の参加者の顔部分をフォーカスしたりして当該参加者の顔部分の認識処理を行い、会議の参加者を識別する。

カメラ制御部２１７は、特定部２１４によって特定された第２の参加者の位置情報等に基づいて、カメラ２０３を制御する。

情報格納制御部２１８は、通信部２０５を介して入力された情報、情報入力部２１９から入力された情報、或いは、特定部２１４更にはカメラ制御部２１７を介して入力された情報に基づいて、情報格納部２１２への参加者情報の格納や、その更新の制御を行う。即ち、情報格納制御部２１８は、入力された情報に基づいて、会議の開始前に参加者情報を情報格納部２１２に格納する制御を行うとともに、会議の開催中に参加者情報を更新する制御を行うものである。これにより、例えば、ユーザが情報入力部２１９等を介して情報を入力することにより、会議の開始前に参加者情報を予め手動で情報格納部２１２に格納することができるとともに、会議の開催中に参加者情報を手動で更新することができる。また、例えば通信部２０５や特定部２１４等を介して情報を入力することにより、会議の開始前に参加者情報を予め自動で情報格納部２１２に格納することができるとともに、会議の開催中に参加者情報を自動で更新することができる。このようにして、情報格納制御部２１８は、可能な限りリアルタイムで逐次、情報格納部２１２に格納されている参加者情報の更新処理を行う。情報入力部２１９は、例えばユーザから操作入力された情報を情報格納制御部２１８に対して入力するものである。

図４は、本発明の第１の実施形態に係る撮影制御装置１００による撮影制御方法の処理手順の一例を示すフローチャートである。

まず、ステップＳ１０１において、撮影制御装置１００の中央処理装置１１１（情報格納制御部２１８）は、会議の開始前に、入力された情報に基づいて、会議の参加者の席位置情報を含む参加者情報を情報格納部２１２に格納する処理を行う。ここで格納される参加者情報の一例を図５及び図６を用いて説明する。

図５は、本発明の第１の実施形態に係るビデオ会議システムが適用されるビデオ会議室の全体の様子を示し、会議の参加者の席位置情報を説明するための模式図である。
参加者情報に含まれる参加者の席位置情報としては、例えば、本例では、図５に示すように、カメラ１２０からの正面を起点（０°）とした角度で表すものとする。もちろん、本実施形態においては、図５に示す例に限定されるわけではなく、席位置を特定できる方法であれば如何なる方法も適用でき、例えば、会議室内の２次元の絶対座標などを用いて設定することもできる。また、以下の説明では、参加者情報を手動で設定する場合を想定して説明を行う。

図６は、本発明の第１の実施形態を示し、会議の開始前に設定された参加者情報の一例を示す模式図である。
図６に示すように、参加者情報は、会議の参加者ごとに、参加者の属性情報と、参加者の特徴情報と、参加者の席位置情報及び在席状況情報と、参加者の発言状況情報とを含む情報が設定されている。

具体的に、参加者の属性情報としては、参加者の氏名、所属、役職、性別及び年代が設定され、参加者の特徴情報としては、参加者の顔の特徴（顔特徴）及び音声の特徴（音声特徴）が設定されている。また、参加者の発言状況情報としては、参加者の発言回数、合計発言時間及び最近発言時刻が設定されている。なお、これらの情報として設定される各種の情報は、一例を示したものであり、必ずしも全部の情報を設定する必要はなく、例えば、各種の情報のうちの少なくともいずれかの情報を設定する形態であっても適用可能である。

この際、図６に示す発言状況情報は、会議の開始前であるため、初期値（発言回数＝０、合計発言時間＝０：００、最近発言時刻＝０：００）が設定されている。

ここで、再び、図４の説明に戻る。
ステップＳ１０１の処理が終了すると、続いて、ステップＳ１０２において、撮影制御装置１００の中央処理装置１１１は、通信相手の会議室側の参加者から音声入力があったか否かを判断する。

ステップＳ１０２の判断の結果、通信相手の会議室側から音声入力があった場合には、ステップＳ１０３に進む。ステップＳ１０３に進むと、撮影制御装置１００の中央処理装置１１１（音声認識部２１３）は、通信相手側の会議室の参加者（第１の参加者）から発声された音声の内容に対して音声認識処理を行う。この際、音声認識方法としては、既存の音声認識技術を利用することが可能である。ここで、本例では、撮影制御装置１００の中央処理装置１１１（音声認識部２１３）は、音声認識処理として、例えば、こちら側の会議の参加者の属性情報（具体的には名前）に関する音声認識処理を行う。

続いて、ステップＳ１０４において、撮影制御装置１００の中央処理装置１１１（特定部２１４）は、ステップＳ１０３で音声認識された内容と情報格納部２１２の参加者情報とに基づいて、こちら側の会議の参加者（第２の参加者）の名前を特定する処理を行う。

具体的に本例では、通信相手側の会議室の参加者から、（こちら側の会議室の会議参加者Ａに対して）「Ａさんはどう思いますか？」と発声された場合、その音声に基づく音声信号は通信回線３００を経由して、こちら側の会議室の撮影制御装置１００に送られる。この際、中央処理装置１１１（音声認識部２１３）によって、その内容（名前「Ａ」が含まれている内容）が音声認識される。そして、中央処理装置１１１（特定部２１４）では、音声認識された名前「Ａ」について、情報格納部２１２の参加者情報（具体的には、属性情報の名前）と照合を行う。この場合、図６に示す参加者情報の内容からＮｏ．１の名前「Ａ」が含まれていることが分かり、発言を求めたい会議の参加者を特定することができる。

続いて、ステップＳ１０５において、撮影制御装置１００の中央処理装置１１１（特定部２１４）は、こちら側の会議の参加者を特定できたか否かを判断する。この判断の結果、こちら側の会議の参加者を特定できなかった場合には、ステップＳ１０２に戻る。

一方、ステップＳ１０５の判断の結果、こちら側の会議の参加者を特定できた場合には、ステップＳ１０６に進む。

続いて、ステップＳ１０６において、撮影制御装置１００の中央処理装置１１１（カメラ制御部２１７）は、ステップＳ１０４で特定されたこちら側の会議の参加者の席位置情報に基づいて、カメラ２０３を制御する。具体的に、ステップＳ１０６では、ステップＳ１０４で特定されたこちら側の会議の参加者の席位置方向にカメラ２０３を向ける制御が行われる。より詳細には、図６に示す情報格納部２１２の参加者情報から特定された会議の参加者Ｎｏ．１の名前「Ａ」における席位置情報（角度−４５°）に基づいて、カメラ２０３を角度−４５°に向ける制御が行われる。

続いて、ステップＳ１０７において、撮影制御装置１００の中央処理装置１１１（カメラ制御部２１７）は、顔画像認識部２１６による顔画像認識処理の結果に基づいて、当該参加者の顔のある位置を探索して、カメラ２０３の制御を行う。具体的に、ステップＳ１０７では、ステップＳ１０４で特定されたこちら側の会議参加者の顔にカメラ２０３を向ける（オートフォーカスする）制御が行われる。

続いて、ステップＳ１０８において、撮影制御装置１００の中央処理装置１１１は、入力された情報に基づいて、会議が終了したか否かを判断する。この判断の結果、会議が終了していない場合には、ステップＳ１０２に戻る。一方、ステップＳ１０８の判断の結果、会議が終了した場合には、当該フローチャートにおける処理が終了する。

また、ステップＳ１０２の判断の結果、通信相手の会議室側から音声入力がなかった場合には、ステップＳ１０９に進む。ステップＳ１０９に進むと、撮影制御装置１００の中央処理装置１１１は、こちら側の会議の参加者から発声（音声入力）があったか否かを判断する。この判断の結果、こちら側の会議の参加者から発声（音声入力）がなかった場合には、ステップＳ１０２に戻る。

一方、ステップＳ１０９の判断の結果、こちら側の会議の参加者から発声（音声入力）があった場合には、ステップＳ１１０に進む。ステップＳ１１０に進むと、撮影制御装置１００の中央処理装置１１１（音声方向検知部２１５）は、発声された音声方向を検知する。その後、こちら側の会議の参加者が特定されて、ステップＳ１０６及びステップＳ１０７のカメラ制御が行われる。

なお、本例では、会議の開始前の参加者情報の情報格納部２１２に対する設定をユーザが手動で設定することを想定した説明を行ったが、これに限らず、例えば、自動で設定するようにしてもよい。例えば、会議室内をカメラ２０３でサーチし、既存の顔認識（顔認証）技術などを用いて、顔画像認識部２１６で自動的に参加者を識別し、カメラ２０３の向いている角度からその席位置情報を獲得する。そして、例えば、カメラ制御部２１７及び特定部２１４を介して情報格納制御部２１８において、会議の参加者の参加者情報を自動的に設定する。また、本例では、会議の開始前に限らず、会議の開催中においても、手動もしくは自動で参加者情報を更新することができる。

図７は、本発明の第１の実施形態を示し、会議の開催中の状況に基づき更新された参加者情報の一例を示す模式図である。
図７に示す会議の開催中の参加者情報では、図６に示す会議の開始前の参加者情報に対して、会議の状況に応じて、在席状況情報、及び、発言状況情報（発言回数、合計発言時間、最近発言時刻）が更新された場合を示している。

また、本実施形態では、会議の参加者（第１の参加者）から、発言を求めたい会議の参加者（第２の参加者）の名前の発声があった場合に、第２の参加者にカメラを向ける形態について説明を行ったが、この形態に限定されるものではない。例えば、本実施形態では、発言を求めたい会議の参加者の他の属性情報、即ち、所属、役職、性別、年代などの発声があった場合、更には参加者の属性情報における略称や愛称などの発声があった場合に、これらを音声認識し、カメラの制御を行う形態も適用できる。

また、本実施形態では、通信相手側の会議室の参加者（第１の参加者）から、こちら側の会議室の会議参加者（第２の参加者）の名前の発声があった場合に、こちら側の会議室で音声認識を行い、第２の参加者にカメラを向けるものであった。しかしながら、本実施形態においては、この形態に限定されるものではない。

例えば、こちら側の会議室の会議参加者（第１の参加者）がこちら側の会議室の会議参加者（第２の参加者）の名前を言って発言を求める内容の発声をした場合に、こちら側の会議室で音声認識し、第２の参加者にカメラを向けるようにした形態も適用できる。この場合、音声認識部２１３は、自装置（１００）の音声入力部２０１から入力された音声信号に基づいて、音声認識処理を行う形態を採る。

また、例えば、通信相手側の会議室の会議参加者（第１の参加者）の音声認識を通信相手側で行い、該当する会議参加者（第２の参加者）がこちら側の会議室の参加者の場合に、その情報をこちら側で受信して、第２の参加者にカメラを向ける形態も適用できる。

本実施形態の撮影制御装置１００によれば、より早く（発言者の発声前に）発言者の方向を検知し、カメラを用いた撮影を行うことができる。また、その際、会議の参加者に係る参加者情報を用いて処理を行うため、発言者の方向検知及びその撮影をより精度良く行うことが可能となる。即ち、本実施形態の撮影制御装置１００によれば、ビデオ会議システム（テレビ会議システム）において、発言者の発声開始時点からその発言者を撮影・表示することができる。

（第２の実施形態）
次に、本発明の第２の実施形態について説明する。
ここで、第２の実施形態に係る撮影制御装置の構成は、上述した第１の実施形態に係る撮影制御装置１００の構成と同様であるため、その詳細な説明は省略する。以下、第１の実施形態と異なる点についてのみ説明を行う。

第１の実施形態では、図４のステップＳ１０３の音声認識処理において、音声認識部２１３は、第１の参加者から発声された、発言を求めたい参加者の属性情報（氏名、所属、役職、性別、年代等）を音声認識するものであった。しかしながら、発声内容に参加者の属性情報（氏名、所属、役職、性別、年代等）があったとしても、必ずしも発言を求めるものではない場合もあり得る。例えば、「Ｐ社長への定期報告会についての会議を行います」のような内容の発声があった場合である。

そこで、第２の実施形態では、音声認識部２１３は、第１の参加者が発した音声が発言を求めたい趣旨の文言を表す内容の場合に、会議の参加者の属性情報（氏名、所属、役職、性別、年代等）に関する音声認識を行うものである。この際、発言を求めたい趣旨の文言を表す内容であるか否かの解析は、既存の自然言語解析（構文解析、意味解析、文脈解析）を利用することで可能である。

（第３の実施形態）
次に、本発明の第３の実施形態について説明する。
ここで、第３の実施形態に係る撮影制御装置の構成は、上述した第１の実施形態に係る撮影制御装置１００の構成と同様であるため、その詳細な説明は省略する。以下、第１の実施形態と異なる点についてのみ説明を行う。

第１の実施形態では、図４のステップＳ１０４の特定処理において、特定部２１４は、第１の参加者から発声された音声中にその名前等がある１人の参加者を第２の参加者として特定するものであった。しかしながら、第１の参加者から発声された音声中に複数の参加者の名前等が含まれている場合も考えられる。

そして、第３の実施形態では、特定部２１４は、第２の参加者の候補となる会議の参加者が複数存在する場合には、所定の規則に基づく優先順序にしたがって、第２の参加者を特定する処理を行う。この際、例えば、所定の規則として、会議の参加者の氏名順、所属順、役職順、性別順、年代順、席順、発言回数順、発言時間順、最近発言時刻順、これらの順の逆順、及び、ランダム順の規則の中から選ばれた１つの規則を適用することができる。以下に、第３の実施形態の一例について説明する。

例えば、第１の参加者から「Ａさんの意見に対して、Ｂさんはどう思いますか？」のような発声があった場合に、氏名の出現順（氏名順）を適用した場合には、特定部２１４は、一番最後の名前（「Ｂ」）の参加者を第２の参加者として特定する。

また、例えば、第１の参加者から「ＡさんとＢさんはどう思いますか？」のような発声があった場合には、例えば以下のようにして第２の参加者を特定することが可能である。
例えば、所属順を適用した場合には、特定部２１４は、例えば所属名の番号の若い「Ａ」の参加者を第２の参加者として特定する。また、例えば、役職順を適用した場合には、特定部２１４は、例えば役職の高い「Ｂ」の参加者を第２の参加者として特定する。また、例えば、性別順を適用した場合には、特定部２１４は、例えば女性優先で「Ｂ」の参加者を第２の参加者として特定する。また、例えば、年代順を適用した場合には、特定部２１４は、例えば年代の高い「Ｂ」の参加者を第２の参加者として特定する。また、例えば、席順を適用した場合には、特定部２１４は、例えばカメラ２０３により近い「Ａ」の参加者を第２の参加者として特定する。また、例えば、発言回数順を適用した場合には、特定部２１４は、例えば発言回数の多い「Ｂ」（図７）の参加者を第２の参加者として特定する。また、例えば、発言時間順を適用した場合には、特定部２１４は、例えば最も長い時間発言している「Ｂ」（図７）の参加者を第２の参加者として特定する。また、例えば、最近発言時刻順を適用した場合には、特定部２１４は、例えば最も最近発言した「Ａ」（図７）の参加者を第２の参加者として特定する。

上述した例は、ほんの一例を示したものであり、また、上述した例の順番の逆順における参加者を第２の参加者として特定するようにしてもよい。

なお、上述した参加者の氏名、所属、役職、性別、年代に係る属性情報、席位置情報、発言回数、発言時間、最近発言時刻に係る発言状況情報は、情報格納制御部２１８によって会議の開催中に更新された情報格納部２１２の参加者情報に基づくものである。発言回数、発言時間、最近発言時刻に係る発言状況情報は、会議の各参加者の発言ごとに、情報格納制御部２１８により、情報格納部２１２に更新されて格納される。

（第４の実施形態）
次に、本発明の第４の実施形態について説明する。
ここで、第４の実施形態に係る撮影制御装置の構成は、上述した第１の実施形態に係る撮影制御装置１００の構成と同様であるため、その詳細な説明は省略する。以下、第１の実施形態と異なる点についてのみ説明を行う。

第１の実施形態では、図４のステップＳ１０６のカメラ制御において、カメラ制御部２１７は、ステップＳ１０４で特定された第２の参加者の席位置情報に基づいて、特定後すぐにカメラ２０３を第２の参加者に向けるようにするものであった。しかしながら、この場合、特定された第２の参加者が離席している場合も考えられる。

そこで、第４の実施形態では、カメラ制御部２１７は、特定部２１４で特定された第２の参加者の在席状況情報にしたがって当該第２の参加者が在席している場合に、当該第２の参加者の席位置情報に基づいて、カメラ２０３の向きを制御する。この際、在席状況情報については、例えば、逐次定期的（もしくは不定期）に、会議室内の参加者の在席状況をカメラ２０３を用いて確認し、この結果に基づき情報格納制御部２１８が情報格納部２１２に格納されている在席状況情報を更新することで管理される。

（第５の実施形態）
次に、本発明の第５の実施形態について説明する。
ここで、第５の実施形態に係る撮影制御装置の構成は、上述した第１の実施形態に係る撮影制御装置１００の構成と同様であるため、その詳細な説明は省略する。以下、第１の実施形態と異なる点についてのみ説明を行う。

第１の実施形態では、図４のステップＳ１０６のカメラ制御において、カメラ制御部２１７は、ステップＳ１０４で特定された第２の参加者にカメラ２０３を向けるようにするものであった。本発明においては、これに限らず、例えば、特定された参加者（第２の参加者）を含む複数の範囲にカメラ２０３を向けるようにした形態も適用可能である。

そこで、第５の実施形態では、カメラ制御部２１７は、特定部２１４で特定された第２の参加者の席位置情報及び参加者情報（属性情報、在席状況情報等）に基づいて、第２の参加者を含む複数の参加者が含まれる範囲にカメラ２０３を向ける制御を行う。

（第６の実施形態）
次に、本発明の第６の実施形態について説明する。
ここで、第６の実施形態に係る撮影制御装置の構成は、上述した第１の実施形態に係る撮影制御装置１００の構成と同様であるため、その詳細な説明は省略する。以下、第１の実施形態と異なる点についてのみ説明を行う。

第１の実施形態では、図４のステップＳ１０６のカメラ制御において、カメラ制御部２１７は、ステップＳ１０４で特定された第２の参加者の席位置情報に基づいて、特定後すぐにカメラ２０３を第２の参加者に向けるようにするものであった。本発明においては、これに限らず、例えば、他の会議の参加者が発言していない場合に、第２の参加者にカメラ２０３を向けるようにした形態も適用可能である。

そこで、第６の実施形態では、カメラ制御部２１７は、参加者情報の発言状況情報に基づいて、特定部２１４で特定された第２の参加者とは異なる会議の参加者が発声（発言）していた場合、当該発声の終了後に第２の参加者にカメラ２０３を向ける制御を行う。

（第７の実施形態）
次に、本発明の第７の実施形態について説明する。
ここで、第７の実施形態に係る撮影制御装置の構成は、上述した第１の実施形態に係る撮影制御装置１００の構成と同様であるため、その詳細な説明は省略する。以下、第１の実施形態と異なる点についてのみ説明を行う。

第１の実施形態では、図４のステップＳ１０６のカメラ制御において、カメラ制御部２１７は、ステップＳ１０４で特定された第２の参加者の席位置情報に基づいて、カメラ２０３を第２の参加者に向けるようにするものであった。本発明においては、これに限らず、例えば、特定された第２の参加者が次に発言する参加者として間違っていると思われる場合には、次の発声候補の参加者を第２の参加者としてカメラ２０３を向けるようにしてもよい。

そこで、第７の実施形態では、まず、特定部２１４は、特定した第２の参加者が一定時間発声しなかった場合、或いは第２の参加者の顔の特徴又は音声の特徴が情報格納部２１２の特徴情報と異なる場合、次の発声候補の参加者を第２の参加者として特定する。そして、カメラ制御部２１７は、特定部２１４によって新たに特定された第２の参加者の席位置情報に基づいて、当該第２の参加者にカメラ２０３を向ける制御を行う。

具体的に、特定部２１４では、音声認識部２１３で音声認識された結果に基づいて、通常、スコア付きの優先度が付された複数の発声候補の参加者が得られる。この場合、特定部２１４では、最初に、第１位の発声候補の参加者を上述した第２の参加者として特定するが、当該参加者が、一定時間（例えば２秒間程度）何も発声しない場合には、発言を求めたい参加者と異なっている場合があり得る。

このような場合に、特定部２１４では、音声認識部２１３で音声認識された結果に基づいて、次の発声候補の参加者を新たに上述した第２の参加者として特定し、カメラ制御部２１７において、当該第２の参加者にカメラ２０３を向ける制御を行うようにする。また、特定部２１４等において、カメラ２０３を向けた実際の参加者とその参加者の顔特徴などの特徴情報との類似度を求め、その差が所定の閾値以上に乖離している場合には、間違っている可能性があると判断して、新たに第２の参加者を特定する。この際、特定部２１４は、音声認識部２１３で音声認識された結果に基づいて、次の候補の参加者を第２の参加者として特定し、カメラ制御部２１７において、当該第２の参加者にカメラ２０３を向ける制御を行うようにする。

（第８の実施形態）
上述した第１の実施形態等では、音声もしくは音源の方向等に基づいてカメラ２０３の向きを自動的に制御するものであったが、例えば、カメラ２０３の向きの制御量の算出に留め、実際の向きの制御を参加者が手動で任意に行うようにすることも可能である。

（第９の実施形態）
上述した第１の実施形態等では、２点間の拠点による会議の場合について説明しているが、これに限らず、３点間以上の複数の拠点間での会議においても適用可能である。また、同一教室内もしくは遠隔において、先生と複数の生徒からなる授業を行う場合に、カメラ１２０及びモニタ１４０などを備えたシステムにおいても同様に実現が可能である。その際、通常は、複数の参加者をモニタに表示させておき、特定された参加者の表示を他の参加者のモニタに一斉に表示したり、ズームアップさせたりすることなども可能である。

（第１０の実施形態）
前述した本発明の各実施形態に係る撮影制御装置１００を構成する図３等に示す各手段、並びに、撮影制御装置１００による撮影制御方法を示す図４の各ステップは、コンピュータのＣＰＵがＲＯＭなどに記憶されたプログラムを実行することによって実現できる。このプログラム及び前記プログラムを記録したコンピュータ読み取り可能な記録媒体は本発明に含まれる。

また、本発明は、例えば、システム、装置、方法、プログラム若しくは記憶媒体等としての実施形態も可能であり、具体的には、複数の機器から構成されるシステムに適用してもよいし、また、１つの機器からなる装置に適用してもよい。

なお、本発明は、前述した各実施形態の機能を実現するソフトウェアのプログラム（実施形態では図４に示すフローチャートに対応したプログラム）を、システム或いは装置に直接、或いは遠隔から供給するものを含む。そして、そのシステム或いは装置のコンピュータが前記供給されたプログラムコードを読み出して実行することによっても達成される場合も本発明に含まれる。

したがって、本発明の機能処理をコンピュータで実現するために、前記コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等の形態であってもよい。

プログラムを供給するための記録媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷなどがある。また、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などもある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続する。そして、前記ホームページから本発明のコンピュータプログラムそのもの、若しくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。

また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせる。そして、ダウンロードした鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。その他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。その後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現される。

本発明の第１の実施形態を示し、ビデオ会議システムが適用されるビデオ会議室の全体の様子を示す模式図である。本発明の第１の実施形態に係る撮影制御装置のハードウエア構成の一例を示す模式図である。本発明の第１の実施形態に係る撮影制御装置の機能構成の一例を示す模式図である。本発明の第１の実施形態に係る撮影制御装置による撮影制御方法の処理手順の一例を示すフローチャートである。本発明の第１の実施形態に係るビデオ会議システムが適用されるビデオ会議室の全体の様子を示し、会議の参加者の席位置情報を説明するための模式図である。本発明の第１の実施形態を示し、会議の開始前に設定された参加者情報の一例を示す模式図である。本発明の第１の実施形態を示し、会議の開催中の状況に基づき更新された参加者情報の一例を示す模式図である。

符号の説明

１００撮影制御装置
１１０統括制御装置
１２０カメラ
１３０マイク
１４０モニタ
１５０スピーカ
１６０操作入力装置
４００会議テーブル
４０１〜４０８会議の参加者
１１１中央処理装置（ＣＰＵ）
１１２制御メモリ（ＲＯＭ）
１１３一時記憶メモリ（ＲＡＭ）
１１４外部メモリ
１１５通信Ｉ／Ｆ
２０１音声入力部（マイク）
２０２音声信号符号化部
２０３カメラ（撮像装置）
２０４映像信号符号化部
２０５通信部
２０６多重化／分離部
２０７音声信号復号化部
２０６音声出力部（スピーカ）
２０９映像信号復号化部
２１０映像表示制御部
２１１映像表示部（モニタ）
２１２情報格納部
２１３音声認識部
２１４特定部
２１５音声方向検知部
２１６顔画像認識部
２１７カメラ制御部
２１８情報格納制御部
２１９情報入力部（操作入力装置）
３００通信回線

Claims

カメラによる撮影を制御する撮影制御装置において、
会議の参加者に係る情報であって、当該参加者の位置情報を含む参加者情報を格納する情報格納手段と、
前記会議の参加者のうちの第１の参加者が発した音声の内容を音声認識する音声認識手段と、
前記音声認識手段によって音声認識された内容と前記参加者情報とに基づいて、前記会議の参加者の中から第２の参加者を特定する特定手段と、
前記特定手段によって特定された前記第２の参加者の前記位置情報に基づいて、前記カメラを制御するカメラ制御手段と
を有することを特徴とする撮影制御装置。
前記情報格納手段には、前記参加者情報として、前記位置情報である前記会議の参加者の席位置情報と、前記会議の参加者の在席状況情報と、前記会議の参加者の氏名、所属、役職、性別及び年代のうちの少なくともいずれかを含む参加者の属性情報と、前記会議の参加者の顔の特徴及び音声の特徴のうちの少なくともいずれかを含む参加者の特徴情報と、前記会議の参加者の発言回数、発言時間及び最近発言時刻のうちの少なくともいずれかを含む参加者の発言状況情報とを含む情報が格納されていることを特徴とする請求項１に記載の撮影制御装置。
入力された情報に基づいて、前記会議の開始前に前記参加者情報を前記情報格納手段に格納する制御を行うとともに、前記会議の開催中に前記参加者情報を更新する制御を行う情報格納制御手段を更に有することを特徴とする請求項１に記載の撮影制御装置。
前記音声認識手段は、前記第１の参加者が発した音声に対して、前記会議の参加者の氏名、所属、役職、性別及び年代のうちの少なくともいずれかを含む参加者の属性情報に関する音声認識を行うことを特徴とする請求項１に記載の撮影制御装置。
前記音声認識手段は、前記第１の参加者が発した音声に対して、発言を求めたい趣旨の文言を表す内容の場合に、前記会議の参加者の氏名、所属、役職、性別及び年代のうちの少なくともいずれかを含む参加者の属性情報に関する音声認識を行うことを特徴とする請求項１に記載の撮影制御装置。
前記特定手段は、前記第２の参加者の候補となる前記会議の参加者が複数存在する場合には、所定の規則に基づく優先順序にしたがって、前記第２の参加者を特定することを特徴とする請求項１に記載の撮影制御装置。
前記所定の規則として、前記会議の参加者の氏名順、所属順、役職順、性別順、年代順、席順、発言回数順、発言時間順、最近発言時刻順、これらの順の逆順、及び、ランダム順の規則の中から選ばれた１つの規則を適用することを特徴とする請求項６に記載の撮影制御装置。
前記参加者情報には、前記位置情報である前記会議の参加者の席位置情報に加えて、前記会議の参加者の在席状況情報が含まれており、
前記カメラ制御手段は、前記第２の参加者の前記在席状況情報にしたがって当該第２の参加者が在席している場合に、当該第２の参加者の前記席位置情報に基づいて、前記カメラの向きを制御することを特徴とする請求項１に記載の撮影制御装置。
前記参加者情報には、前記位置情報である前記会議の参加者の席位置情報に加えて、前記会議の参加者の在席状況情報、及び、前記会議の参加者の氏名、所属、役職、性別及び年代のうちの少なくともいずれかを含む参加者の属性情報が含まれており、
前記カメラ制御手段は、前記第２の参加者の前記席位置情報、及び、前記参加者情報に基づいて、前記第２の参加者を含む複数の参加者が含まれる範囲に前記カメラを向ける制御を行うことを特徴とする請求項１に記載の撮影制御装置。
前記参加者情報には、前記位置情報である前記会議の参加者の席位置情報に加えて、前記会議の参加者の発言状況情報が含まれており、
前記カメラ制御手段は、前記発言状況情報に基づいて、前記第２の参加者とは異なる前記会議の参加者が発声していた場合、当該発声の終了後に前記第２の参加者に前記カメラを向ける制御を行うことを特徴とする請求項１に記載の撮影制御装置。
前記参加者情報には、前記位置情報である前記会議の参加者の席位置情報に加えて、前記会議の参加者の顔の特徴及び音声の特徴のうちの少なくともいずれかを含む参加者の特徴情報が含まれており、
前記特定手段は、前記第２の参加者が一定時間発声しなかった場合、或いは、前記第２の参加者の顔の特徴又は音声の特徴が前記特徴情報と異なる場合、次の発声候補の参加者を前記第２の参加者として特定し、
前記カメラ制御手段は、前記特定手段によって新たに特定された第２の参加者の前記位置情報に基づいて、前記第２の参加者に前記カメラを向ける制御を行うことを特徴とする請求項１に記載の撮影制御装置。
カメラによる撮影を制御する撮影制御方法において、
会議の参加者のうちの第１の参加者が発した音声の内容を音声認識する音声認識ステップと、
前記音声認識ステップによって音声認識された内容と、情報格納手段に格納されている、前記会議の参加者の位置情報を含む参加者情報とに基づいて、前記会議の参加者の中から第２の参加者を特定する特定ステップと、
前記特定ステップによって特定された前記第２の参加者の前記位置情報に基づいて、前記カメラを制御するカメラ制御ステップと
を有することを特徴とする撮影制御方法。
前記情報格納手段には、前記参加者情報として、前記位置情報である前記会議の参加者の席位置情報と、前記会議の参加者の在席状況情報と、前記会議の参加者の氏名、所属、役職、性別及び年代のうちの少なくともいずれかを含む参加者の属性情報と、前記会議の参加者の顔の特徴及び音声の特徴のうちの少なくともいずれかを含む参加者の特徴情報と、前記会議の参加者の発言回数、発言時間及び最近発言時刻のうちの少なくともいずれかを含む参加者の発言状況情報とを含む情報が格納されていることを特徴とする請求項１２に記載の撮影制御方法。
入力された情報に基づいて、前記会議の開始前に前記参加者情報を前記情報格納手段に格納する制御を行うとともに、前記会議の開催中に前記参加者情報を更新する制御を行う情報格納制御ステップを更に有することを特徴とする請求項１２に記載の撮影制御方法。
前記音声認識ステップでは、前記第１の参加者が発した音声に対して、前記会議の参加者の氏名、所属、役職、性別及び年代のうちの少なくともいずれかを含む参加者の属性情報に関する音声認識を行うことを特徴とする請求項１２に記載の撮影制御方法。
前記音声認識ステップでは、前記第１の参加者が発した音声に対して、発言を求めたい趣旨の文言を表す内容の場合に、前記会議の参加者の氏名、所属、役職、性別及び年代のうちの少なくともいずれかを含む参加者の属性情報に関する音声認識を行うことを特徴とする請求項１２に記載の撮影制御方法。
前記特定ステップでは、前記第２の参加者の候補となる前記会議の参加者が複数存在する場合には、所定の規則に基づく優先順序にしたがって、前記第２の参加者を特定することを特徴とする請求項１２に記載の撮影制御方法。
前記所定の規則として、前記会議の参加者の氏名順、所属順、役職順、性別順、年代順、席順、発言回数順、発言時間順、最近発言時刻順、これらの順の逆順、及び、ランダム順の規則の中から選ばれた１つの規則を適用することを特徴とする請求項１７に記載の撮影制御方法。
前記参加者情報には、前記位置情報である前記会議の参加者の席位置情報に加えて、前記会議の参加者の在席状況情報が含まれており、
前記カメラ制御ステップでは、前記第２の参加者の前記在席状況情報にしたがって当該第２の参加者が在席している場合に、当該第２の参加者の前記席位置情報に基づいて、前記カメラの向きを制御することを特徴とする請求項１２に記載の撮影制御方法。
前記参加者情報には、前記位置情報である前記会議の参加者の席位置情報に加えて、前記会議の参加者の在席状況情報、及び、前記会議の参加者の氏名、所属、役職、性別及び年代のうちの少なくともいずれかを含む参加者の属性情報が含まれており、
前記カメラ制御ステップでは、前記第２の参加者の前記席位置情報、及び、前記参加者情報に基づいて、前記第２の参加者を含む複数の参加者が含まれる範囲に前記カメラを向ける制御を行うことを特徴とする請求項１２に記載の撮影制御方法。
前記参加者情報には、前記位置情報である前記会議の参加者の席位置情報に加えて、前記会議の参加者の発言状況情報が含まれており、
前記カメラ制御ステップでは、前記発言状況情報に基づいて、前記第２の参加者とは異なる前記会議の参加者が発声していた場合、当該発声の終了後に前記第２の参加者に前記カメラを向ける制御を行うことを特徴とする請求項１２に記載の撮影制御方法。
前記参加者情報には、前記位置情報である前記会議の参加者の席位置情報に加えて、前記会議の参加者の顔の特徴及び音声の特徴のうちの少なくともいずれかを含む参加者の特徴情報が含まれており、
前記特定ステップでは、前記第２の参加者が一定時間発声しなかった場合、或いは、前記第２の参加者の顔の特徴又は音声の特徴が前記特徴情報と異なる場合、次の発声候補の参加者を前記第２の参加者として特定し、
前記カメラ制御ステップでは、前記特定ステップによって新たに特定された第２の参加者の前記位置情報に基づいて、前記第２の参加者に前記カメラを向ける制御を行うことを特徴とする請求項１２に記載の撮影制御方法。
請求項１２乃至２２のいずれか１項に記載の撮影制御方法をコンピュータに実行させるためのプログラム。
請求項２３に記載のプログラムを記憶したことを特徴とするコンピュータ読み取り可能な記憶媒体。