JP2010109898A - 撮影制御装置、撮影制御方法及びプログラム - Google Patents

撮影制御装置、撮影制御方法及びプログラム Download PDF

Info

Publication number
JP2010109898A
JP2010109898A JP2008282128A JP2008282128A JP2010109898A JP 2010109898 A JP2010109898 A JP 2010109898A JP 2008282128 A JP2008282128 A JP 2008282128A JP 2008282128 A JP2008282128 A JP 2008282128A JP 2010109898 A JP2010109898 A JP 2010109898A
Authority
JP
Japan
Prior art keywords
participant
information
conference
camera
participants
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008282128A
Other languages
English (en)
Inventor
Tsuyoshi Yagisawa
津義 八木沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2008282128A priority Critical patent/JP2010109898A/ja
Publication of JP2010109898A publication Critical patent/JP2010109898A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Studio Devices (AREA)

Abstract

【課題】 ビデオ会議システム(テレビ会議システム)において、発言者の発声開始時点からその発言者を撮影・表示できるようにする。
【解決手段】 カメラ203による撮影を制御する撮影制御装置100において、会議の参加者に係る情報であって、当該参加者の位置情報を含む参加者情報を格納する情報格納部212と、会議の参加者のうちの第1の参加者が発した音声の内容を音声認識する音声認識部213と、音声認識部213によって音声認識された内容と参加者情報とに基づいて、会議の参加者の中から第2の参加者を特定する特定部214と、特定部214によって特定された第2の参加者の位置情報に基づいて、カメラ203を制御するカメラ制御部217を具備する。
【選択図】 図3

Description

本発明は、カメラによる撮影を制御する撮影制御装置及び撮影制御方法、当該撮影制御方法をコンピュータに実行させるためのプログラム、並びに、当該プログラムを記憶するコンピュータ読み取り可能な記憶媒体に関する。特に、本発明は、音声もしくは音源の方向を検知してカメラの制御を行うために用いて好適なものである。
ビデオ会議システム(テレビ会議システム)では、一般にカメラの向きを固定しておくか、或いは、カメラの方向制御を人手で行う必要がある。この場合、ビデオ会議システムを快適に運用することが困難である。これを解決する手段として、従来、音源の方向を検知してその方向にカメラを向けるカメラ制御方法が提案されている(例えば、下記の特許文献1参照)。このカメラ制御方法によると、発言者の方向にカメラが自動的にパンされるので、カメラの向きを人手で操作する必要がないという利点がある。
さらに、その同定精度を高めるために、予め登録しておいた会議参加者の音声の特徴及び顔画像の特徴を用いて、発声者の音声からその発言者を同定する方法が提案されている(例えば、下記の特許文献2参照)。さらに、予め登録しておいた発言者の音声と発言中の音声とを比較して発言者を同定する方法が提案されている(例えば、下記の特許文献3参照)。
また、例えば放送局の番組制作などで最適なカメラワークを自動で行うために、複数のカメラのカメラワークを制御すると共に、複数のカメラから得られる映像の切り替え(スイッチング)を制御する方法が提案されている(例えば、下記の特許文献4参照)。この特許文献4に示す技術では、出演者(話者)の発言内容(キーワード)等に基づいて、予め設定されているキーワードと一致した場合や、同一ショットの映像が一定時間経過した場合をトリガーとして、上述した制御を行うようにしている。
特開昭61−198891号公報 特開平2−067889号公報 特開平7−107451号公報 特開2005−295431号公報
しなしながら、上述した特許文献1、特許文献2、特許文献3及び特許文献4に開示されるような従来技術では、発言者が発声してからはじめて同定もしくはカメラワークが可能となる。即ち、発言者の発声後に、その発声の音声をもとに、発言者の方向検知と撮影(モニタ表示)が行われることになる。
この場合、発言者が発声してから、その発言者にカメラが向けられて撮影・モニタ表示されるまでの間に時間差が生じ、発言者の発声開始時点からその発言者を撮影・表示することが困難であるという問題があった。また、複数人が発声した場合や周囲雑音などがある場合には、現在の音声方向検知は必ずしも100%とは言えないため、本来の発声者以外の人物を撮影・モニタ表示してしまうことも生じ得る。
本発明は、このような問題点に鑑みてなされたものであり、ビデオ会議システム(テレビ会議システム)において、発言者の発声開始時点からその発言者を撮影・表示できるようにすることを目的とする。
本発明の撮影制御装置は、カメラによる撮影を制御する撮影制御装置において、会議の参加者に係る情報であって、当該参加者の位置情報を含む参加者情報を格納する情報格納手段と、前記会議の参加者のうちの第1の参加者が発した音声の内容を音声認識する音声認識手段と、前記音声認識手段によって音声認識された内容と前記参加者情報とに基づいて、前記会議の参加者の中から第2の参加者を特定する特定手段と、前記特定手段によって特定された前記第2の参加者の前記位置情報に基づいて、前記カメラを制御するカメラ制御手段とを有する。
本発明の撮影制御方法は、カメラによる撮影を制御する撮影制御方法において、会議の参加者のうちの第1の参加者が発した音声の内容を音声認識する音声認識ステップと、前記音声認識ステップによって音声認識された内容と、情報格納手段に格納されている、前記会議の参加者の位置情報を含む参加者情報とに基づいて、前記会議の参加者の中から第2の参加者を特定する特定ステップと、前記特定ステップによって特定された前記第2の参加者の前記位置情報に基づいて、前記カメラを制御するカメラ制御ステップとを有する。
本発明のプログラムは、前記撮影制御方法をコンピュータに実行させるためのものである。また、本発明のコンピュータ読み取り可能な記憶媒体は、前記プログラムを記憶する。
本発明によれば、ビデオ会議システム(テレビ会議システム)において、発言者の発声開始時点からその発言者を撮影・表示することができる。
以下、図面を参照しながら、本発明を実施するための最良の形態について説明する。
ただし、以下に示す実施形態に記載されている構成要素はあくまでも例示であり、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
(第1の実施形態)
まず、本発明の第1の実施形態について説明する。
図1は、本発明の第1の実施形態を示し、ビデオ会議システムが適用されるビデオ会議室の全体の様子を示す模式図である。
図1には、本発明の第1の実施形態に係る撮影制御装置100が設置されている。
この撮影制御装置100は、統括制御装置110と、カメラ120と、マイク130と、モニタ140と、スピーカ150と、操作入力装置160を有して構成されており、カメラ120による撮影を制御するものである。
統括制御装置110は、撮影制御装置100の動作を統括的に制御するものであり、カメラ制御/音源の方向特定制御/映像表示制御/音声出力制御などの各種の制御を行う。カメラ120は、撮影方向を制御可能に構成され、統括制御装置110の制御に基づいて、ビデオ会議室内の撮影を行う撮像装置である。マイク130は、音源(もしくは音声)の方向を検知するための音声入力装置である。モニタ140は、カメラ120等で撮影された映像を表示する映像表示装置である。スピーカ150は、音声を出力する音声出力装置である。操作入力装置160は、例えばユーザから操作入力された情報を統括制御装置110に対して入力するための情報入力装置である。
会議テーブル400は、当該ビデオ会議室内に設置されたテーブルである。参加者(A〜H)401〜408は、当該ビデオ会議室内にいる会議の参加者であり、図1に示す例では、会議テーブル400の周囲に全員が着席している様子が示されている。
なお、本例で示すビデオ会議システム(テレビ会議システム)では、通信相手側にも同様のシステムがあり、これらのシステム同士は通信回線で相互接続されているが、図1では省略している。また、マイク130は、音源を検出するため、複数のマイクで構成されるマイクロフォンアレイを用いることが好適である。さらに、マイク130は、会議の参加者の会話を集音するためにも使われるものとする。また、本例では、撮影制御装置100の内部に、カメラ120、マイク130、モニタ140、スピーカ150及び操作入力装置160を構成するようにしているが、必ずしも内部に構成する必要は無く、必要に応じてその外部に設けるようにしてもよい。
図2は、本発明の第1の実施形態に係る撮影制御装置100のハードウエア構成の一例を示す模式図である。ここで、図1に示す構成と同様の構成については、同じ符号を付している。
図2に示すように、撮影制御装置100は、中央処理装置(CPU)111、制御メモリ(ROM)112、一時記憶メモリ(RAM)113、外部メモリ114、通信I/F115及びバスのハードウエア構成を有して構成されている。さらに、撮影制御装置100は、図1に示すカメラ120、マイク130、モニタ140、スピーカ150及び操作入力装置160のハードウエア構成を有している。
撮影制御装置100において、図1に示す統括制御装置110は、例えば、中央処理装置(CPU)111、制御メモリ(ROM)112、一時記憶メモリ(RAM)113、外部メモリ114及び通信I/F115を有して構成されている。
中央処理装置(CPU)111は、バスを介して、撮影制御装置100の各構成部(112〜115、120〜160)を制御し、必要に応じて数値演算を行って、各種の制御に係る処理等を行う。
制御メモリ(ROM)112には、中央処理装置(CPU)111が後述する図4の処理を実行するために必要なプログラムや各種の固定的データ等が記憶されている。なお、当該プログラムは、例えば、外部メモリ114に記憶されていてもよい。
一時記憶メモリ(RAM)113は、一時的なデータ等を記憶するメモリであり、例えば中央処理装置(CPU)111の主メモリ、ワークエリア等として機能する。例えば、中央処理装置(CPU)111は、処理の実行に際して、制御メモリ(ROM)112(或いは外部メモリ114)から必要なプログラム等を一時記憶メモリ(RAM)113にロードし、当該プログラム等を実行することで各種の機能動作を実現する。
外部メモリ114には、例えば、中央処理装置(CPU)111がプログラム等を用いた処理を行う際に必要な各種のデータや各種の情報が記憶されている。また、外部メモリ114には、例えば、中央処理装置(CPU)111がプログラム等を用いた処理を行うことにより得られた各種のデータや各種の情報が記憶される。
通信I/F115は、外部装置との通信を司るものである。また、バスは、中央処理装置(CPU)111と、撮影制御装置100のその他の構成部(112〜115、120〜160)とを通信可能に接続するためのものである。
図2に示すカメラ120は、図1に示すものと同様の構成、即ち、撮影方向を制御可能に構成されたカメラである。このカメラ120は、中央処理装置(CPU)111の制御指令に基づいてその向き等を変化させる。
図2に示すマイク130は、図1に示すものと同様の構成、即ち、音源の方向検知及び会議の参加者の音声を集音する目的で利用される一又は複数で構成される音声入力装置である。この際、マイク130は、上述したように音源の方向を検知するためには、複数のマイクを並べて構成するマイクロフォンアレイを用いることが一般的である。
図2に示すモニタ140は、図1に示すものと同様の構成、即ち、カメラ120等で撮影された映像を表示する映像表示装置である。また、図2に示すスピーカ150は、図1に示すものと同様の構成、即ち、音声を出力する音声出力装置である。また、図2に示す操作入力装置160は、図1に示すものと同様の構成、即ち、中央処理装置(CPU)111に対して操作入力された情報を入力するための情報入力装置である。
図3は、本発明の第1の実施形態に係る撮影制御装置100の機能構成の一例を示す模式図である。なお、図3には、通信相手側のビデオ会議システム(撮影制御装置)と通信を行うための通信回線300が示されている。
図3においては、例えば、図2に示す中央処理装置(CPU)111が制御メモリ(ROM)112等のプログラムを実行することにより、図3に示す以下の各部202、204、206、207、209、210、213〜218が構成される。また、例えば、図2に示す中央処理装置(CPU)111が制御メモリ(ROM)112等のプログラムを実行し、且つ通信I/F115により、通信部205が構成される。また、図3においては、例えば、図2に示すマイク130が音声入力部201を構成し、図2に示すカメラ120がカメラ203を構成し、図2に示すスピーカ150が音声出力部208を構成し、図2に示すモニタ140が映像表示部211を構成する。また、図3においては、例えば、図2に示す外部メモリ114が情報格納部212を構成し、図2に示す操作入力装置160が情報入力部219を構成する。
図2に示すように、撮影制御装置100は、音声入力部201、音声信号符号化部202、カメラ203、映像信号符号化部204、通信部205、多重化/分離部206、音声信号復号化部207及び音声出力部208を有している。さらに、映像信号復号化部209、映像表示制御部210、映像表示部211、情報格納部212、音声認識部213、特定部214、音声方向検知部215、顔画像認識部216、カメラ制御部217、情報格納制御部218及び情報入力部219を有している。
音声入力部201は、音声を入力するマイクである。音声信号符号化部202は、音声入力部201から入力された音声信号を符号化する処理を行う。
カメラ203は、会議の模様を撮影する撮像装置である。映像信号符号化部204は、カメラ203で撮影された映像信号を符号化する処理を行う。
通信部205は、通信回線300を介して外部(例えば通信相手側のシステム)と通信を行う。多重化/分離部206は、映像信号、音声信号、各種の情報やデータ、会議制御信号等を多重/分離する。
音声信号復号化部207は、多重化/分離部206から出力された音声信号を復号化する処理を行う。さらに、音声信号復号化部207は、復号化した音声信号を増幅する音声信号増幅処理も行う。音声出力部208は、音声信号復号化部207から出力された音声信号を音声に変えて出力するスピーカである。
映像信号復号化部209は、多重化/分離部206から出力された映像信号を復号化する処理を行う。映像表示制御部210は、映像信号復号化部209から出力された映像信号を映像表示部211に表示するための制御を行う。映像表示部211は、映像表示制御部210の制御により、映像信号に基づく映像を画面に表示するモニタである。
情報格納部212は、会議の参加者に係る参加者情報を格納するものである。この参加者情報には、参加者の会議での位置を示す位置情報が含まれている。音声認識部213は、会議の参加者のうちのある参加者(第1の参加者)が発した音声の内容を音声認識する処理を行う。
特定部214は、音声認識部213によって音声認識された内容と情報格納部212に格納されている参加者情報とに基づいて、会議の参加者の中から、次に発言が予想される参加者(第2の参加者)を特定する処理を行う。
音声方向検知部215は、音声入力部201から入力された音声信号に基づいて、音声方向を検知する。顔画像認識部216は、カメラ203で撮影された映像信号に基づいて、会議の参加者の顔部分をフォーカスしたりして当該参加者の顔部分の認識処理を行い、会議の参加者を識別する。
カメラ制御部217は、特定部214によって特定された第2の参加者の位置情報等に基づいて、カメラ203を制御する。
情報格納制御部218は、通信部205を介して入力された情報、情報入力部219から入力された情報、或いは、特定部214更にはカメラ制御部217を介して入力された情報に基づいて、情報格納部212への参加者情報の格納や、その更新の制御を行う。即ち、情報格納制御部218は、入力された情報に基づいて、会議の開始前に参加者情報を情報格納部212に格納する制御を行うとともに、会議の開催中に参加者情報を更新する制御を行うものである。これにより、例えば、ユーザが情報入力部219等を介して情報を入力することにより、会議の開始前に参加者情報を予め手動で情報格納部212に格納することができるとともに、会議の開催中に参加者情報を手動で更新することができる。また、例えば通信部205や特定部214等を介して情報を入力することにより、会議の開始前に参加者情報を予め自動で情報格納部212に格納することができるとともに、会議の開催中に参加者情報を自動で更新することができる。このようにして、情報格納制御部218は、可能な限りリアルタイムで逐次、情報格納部212に格納されている参加者情報の更新処理を行う。情報入力部219は、例えばユーザから操作入力された情報を情報格納制御部218に対して入力するものである。
図4は、本発明の第1の実施形態に係る撮影制御装置100による撮影制御方法の処理手順の一例を示すフローチャートである。
まず、ステップS101において、撮影制御装置100の中央処理装置111(情報格納制御部218)は、会議の開始前に、入力された情報に基づいて、会議の参加者の席位置情報を含む参加者情報を情報格納部212に格納する処理を行う。ここで格納される参加者情報の一例を図5及び図6を用いて説明する。
図5は、本発明の第1の実施形態に係るビデオ会議システムが適用されるビデオ会議室の全体の様子を示し、会議の参加者の席位置情報を説明するための模式図である。
参加者情報に含まれる参加者の席位置情報としては、例えば、本例では、図5に示すように、カメラ120からの正面を起点(0°)とした角度で表すものとする。もちろん、本実施形態においては、図5に示す例に限定されるわけではなく、席位置を特定できる方法であれば如何なる方法も適用でき、例えば、会議室内の2次元の絶対座標などを用いて設定することもできる。また、以下の説明では、参加者情報を手動で設定する場合を想定して説明を行う。
図6は、本発明の第1の実施形態を示し、会議の開始前に設定された参加者情報の一例を示す模式図である。
図6に示すように、参加者情報は、会議の参加者ごとに、参加者の属性情報と、参加者の特徴情報と、参加者の席位置情報及び在席状況情報と、参加者の発言状況情報とを含む情報が設定されている。
具体的に、参加者の属性情報としては、参加者の氏名、所属、役職、性別及び年代が設定され、参加者の特徴情報としては、参加者の顔の特徴(顔特徴)及び音声の特徴(音声特徴)が設定されている。また、参加者の発言状況情報としては、参加者の発言回数、合計発言時間及び最近発言時刻が設定されている。なお、これらの情報として設定される各種の情報は、一例を示したものであり、必ずしも全部の情報を設定する必要はなく、例えば、各種の情報のうちの少なくともいずれかの情報を設定する形態であっても適用可能である。
この際、図6に示す発言状況情報は、会議の開始前であるため、初期値(発言回数=0、合計発言時間=0:00、最近発言時刻=0:00)が設定されている。
ここで、再び、図4の説明に戻る。
ステップS101の処理が終了すると、続いて、ステップS102において、撮影制御装置100の中央処理装置111は、通信相手の会議室側の参加者から音声入力があったか否かを判断する。
ステップS102の判断の結果、通信相手の会議室側から音声入力があった場合には、ステップS103に進む。ステップS103に進むと、撮影制御装置100の中央処理装置111(音声認識部213)は、通信相手側の会議室の参加者(第1の参加者)から発声された音声の内容に対して音声認識処理を行う。この際、音声認識方法としては、既存の音声認識技術を利用することが可能である。ここで、本例では、撮影制御装置100の中央処理装置111(音声認識部213)は、音声認識処理として、例えば、こちら側の会議の参加者の属性情報(具体的には名前)に関する音声認識処理を行う。
続いて、ステップS104において、撮影制御装置100の中央処理装置111(特定部214)は、ステップS103で音声認識された内容と情報格納部212の参加者情報とに基づいて、こちら側の会議の参加者(第2の参加者)の名前を特定する処理を行う。
具体的に本例では、通信相手側の会議室の参加者から、(こちら側の会議室の会議参加者Aに対して)「Aさんはどう思いますか?」と発声された場合、その音声に基づく音声信号は通信回線300を経由して、こちら側の会議室の撮影制御装置100に送られる。この際、中央処理装置111(音声認識部213)によって、その内容(名前「A」が含まれている内容)が音声認識される。そして、中央処理装置111(特定部214)では、音声認識された名前「A」について、情報格納部212の参加者情報(具体的には、属性情報の名前)と照合を行う。この場合、図6に示す参加者情報の内容からNo.1の名前「A」が含まれていることが分かり、発言を求めたい会議の参加者を特定することができる。
続いて、ステップS105において、撮影制御装置100の中央処理装置111(特定部214)は、こちら側の会議の参加者を特定できたか否かを判断する。この判断の結果、こちら側の会議の参加者を特定できなかった場合には、ステップS102に戻る。
一方、ステップS105の判断の結果、こちら側の会議の参加者を特定できた場合には、ステップS106に進む。
続いて、ステップS106において、撮影制御装置100の中央処理装置111(カメラ制御部217)は、ステップS104で特定されたこちら側の会議の参加者の席位置情報に基づいて、カメラ203を制御する。具体的に、ステップS106では、ステップS104で特定されたこちら側の会議の参加者の席位置方向にカメラ203を向ける制御が行われる。より詳細には、図6に示す情報格納部212の参加者情報から特定された会議の参加者No.1の名前「A」における席位置情報(角度−45°)に基づいて、カメラ203を角度−45°に向ける制御が行われる。
続いて、ステップS107において、撮影制御装置100の中央処理装置111(カメラ制御部217)は、顔画像認識部216による顔画像認識処理の結果に基づいて、当該参加者の顔のある位置を探索して、カメラ203の制御を行う。具体的に、ステップS107では、ステップS104で特定されたこちら側の会議参加者の顔にカメラ203を向ける(オートフォーカスする)制御が行われる。
続いて、ステップS108において、撮影制御装置100の中央処理装置111は、入力された情報に基づいて、会議が終了したか否かを判断する。この判断の結果、会議が終了していない場合には、ステップS102に戻る。一方、ステップS108の判断の結果、会議が終了した場合には、当該フローチャートにおける処理が終了する。
また、ステップS102の判断の結果、通信相手の会議室側から音声入力がなかった場合には、ステップS109に進む。ステップS109に進むと、撮影制御装置100の中央処理装置111は、こちら側の会議の参加者から発声(音声入力)があったか否かを判断する。この判断の結果、こちら側の会議の参加者から発声(音声入力)がなかった場合には、ステップS102に戻る。
一方、ステップS109の判断の結果、こちら側の会議の参加者から発声(音声入力)があった場合には、ステップS110に進む。ステップS110に進むと、撮影制御装置100の中央処理装置111(音声方向検知部215)は、発声された音声方向を検知する。その後、こちら側の会議の参加者が特定されて、ステップS106及びステップS107のカメラ制御が行われる。
なお、本例では、会議の開始前の参加者情報の情報格納部212に対する設定をユーザが手動で設定することを想定した説明を行ったが、これに限らず、例えば、自動で設定するようにしてもよい。例えば、会議室内をカメラ203でサーチし、既存の顔認識(顔認証)技術などを用いて、顔画像認識部216で自動的に参加者を識別し、カメラ203の向いている角度からその席位置情報を獲得する。そして、例えば、カメラ制御部217及び特定部214を介して情報格納制御部218において、会議の参加者の参加者情報を自動的に設定する。また、本例では、会議の開始前に限らず、会議の開催中においても、手動もしくは自動で参加者情報を更新することができる。
図7は、本発明の第1の実施形態を示し、会議の開催中の状況に基づき更新された参加者情報の一例を示す模式図である。
図7に示す会議の開催中の参加者情報では、図6に示す会議の開始前の参加者情報に対して、会議の状況に応じて、在席状況情報、及び、発言状況情報(発言回数、合計発言時間、最近発言時刻)が更新された場合を示している。
また、本実施形態では、会議の参加者(第1の参加者)から、発言を求めたい会議の参加者(第2の参加者)の名前の発声があった場合に、第2の参加者にカメラを向ける形態について説明を行ったが、この形態に限定されるものではない。例えば、本実施形態では、発言を求めたい会議の参加者の他の属性情報、即ち、所属、役職、性別、年代などの発声があった場合、更には参加者の属性情報における略称や愛称などの発声があった場合に、これらを音声認識し、カメラの制御を行う形態も適用できる。
また、本実施形態では、通信相手側の会議室の参加者(第1の参加者)から、こちら側の会議室の会議参加者(第2の参加者)の名前の発声があった場合に、こちら側の会議室で音声認識を行い、第2の参加者にカメラを向けるものであった。しかしながら、本実施形態においては、この形態に限定されるものではない。
例えば、こちら側の会議室の会議参加者(第1の参加者)がこちら側の会議室の会議参加者(第2の参加者)の名前を言って発言を求める内容の発声をした場合に、こちら側の会議室で音声認識し、第2の参加者にカメラを向けるようにした形態も適用できる。この場合、音声認識部213は、自装置(100)の音声入力部201から入力された音声信号に基づいて、音声認識処理を行う形態を採る。
また、例えば、通信相手側の会議室の会議参加者(第1の参加者)の音声認識を通信相手側で行い、該当する会議参加者(第2の参加者)がこちら側の会議室の参加者の場合に、その情報をこちら側で受信して、第2の参加者にカメラを向ける形態も適用できる。
本実施形態の撮影制御装置100によれば、より早く(発言者の発声前に)発言者の方向を検知し、カメラを用いた撮影を行うことができる。また、その際、会議の参加者に係る参加者情報を用いて処理を行うため、発言者の方向検知及びその撮影をより精度良く行うことが可能となる。即ち、本実施形態の撮影制御装置100によれば、ビデオ会議システム(テレビ会議システム)において、発言者の発声開始時点からその発言者を撮影・表示することができる。
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。
ここで、第2の実施形態に係る撮影制御装置の構成は、上述した第1の実施形態に係る撮影制御装置100の構成と同様であるため、その詳細な説明は省略する。以下、第1の実施形態と異なる点についてのみ説明を行う。
第1の実施形態では、図4のステップS103の音声認識処理において、音声認識部213は、第1の参加者から発声された、発言を求めたい参加者の属性情報(氏名、所属、役職、性別、年代等)を音声認識するものであった。しかしながら、発声内容に参加者の属性情報(氏名、所属、役職、性別、年代等)があったとしても、必ずしも発言を求めるものではない場合もあり得る。例えば、「P社長への定期報告会についての会議を行います」のような内容の発声があった場合である。
そこで、第2の実施形態では、音声認識部213は、第1の参加者が発した音声が発言を求めたい趣旨の文言を表す内容の場合に、会議の参加者の属性情報(氏名、所属、役職、性別、年代等)に関する音声認識を行うものである。この際、発言を求めたい趣旨の文言を表す内容であるか否かの解析は、既存の自然言語解析(構文解析、意味解析、文脈解析)を利用することで可能である。
(第3の実施形態)
次に、本発明の第3の実施形態について説明する。
ここで、第3の実施形態に係る撮影制御装置の構成は、上述した第1の実施形態に係る撮影制御装置100の構成と同様であるため、その詳細な説明は省略する。以下、第1の実施形態と異なる点についてのみ説明を行う。
第1の実施形態では、図4のステップS104の特定処理において、特定部214は、第1の参加者から発声された音声中にその名前等がある1人の参加者を第2の参加者として特定するものであった。しかしながら、第1の参加者から発声された音声中に複数の参加者の名前等が含まれている場合も考えられる。
そして、第3の実施形態では、特定部214は、第2の参加者の候補となる会議の参加者が複数存在する場合には、所定の規則に基づく優先順序にしたがって、第2の参加者を特定する処理を行う。この際、例えば、所定の規則として、会議の参加者の氏名順、所属順、役職順、性別順、年代順、席順、発言回数順、発言時間順、最近発言時刻順、これらの順の逆順、及び、ランダム順の規則の中から選ばれた1つの規則を適用することができる。以下に、第3の実施形態の一例について説明する。
例えば、第1の参加者から「Aさんの意見に対して、Bさんはどう思いますか?」のような発声があった場合に、氏名の出現順(氏名順)を適用した場合には、特定部214は、一番最後の名前(「B」)の参加者を第2の参加者として特定する。
また、例えば、第1の参加者から「AさんとBさんはどう思いますか?」のような発声があった場合には、例えば以下のようにして第2の参加者を特定することが可能である。
例えば、所属順を適用した場合には、特定部214は、例えば所属名の番号の若い「A」の参加者を第2の参加者として特定する。また、例えば、役職順を適用した場合には、特定部214は、例えば役職の高い「B」の参加者を第2の参加者として特定する。また、例えば、性別順を適用した場合には、特定部214は、例えば女性優先で「B」の参加者を第2の参加者として特定する。また、例えば、年代順を適用した場合には、特定部214は、例えば年代の高い「B」の参加者を第2の参加者として特定する。また、例えば、席順を適用した場合には、特定部214は、例えばカメラ203により近い「A」の参加者を第2の参加者として特定する。また、例えば、発言回数順を適用した場合には、特定部214は、例えば発言回数の多い「B」(図7)の参加者を第2の参加者として特定する。また、例えば、発言時間順を適用した場合には、特定部214は、例えば最も長い時間発言している「B」(図7)の参加者を第2の参加者として特定する。また、例えば、最近発言時刻順を適用した場合には、特定部214は、例えば最も最近発言した「A」(図7)の参加者を第2の参加者として特定する。
上述した例は、ほんの一例を示したものであり、また、上述した例の順番の逆順における参加者を第2の参加者として特定するようにしてもよい。
なお、上述した参加者の氏名、所属、役職、性別、年代に係る属性情報、席位置情報、発言回数、発言時間、最近発言時刻に係る発言状況情報は、情報格納制御部218によって会議の開催中に更新された情報格納部212の参加者情報に基づくものである。発言回数、発言時間、最近発言時刻に係る発言状況情報は、会議の各参加者の発言ごとに、情報格納制御部218により、情報格納部212に更新されて格納される。
(第4の実施形態)
次に、本発明の第4の実施形態について説明する。
ここで、第4の実施形態に係る撮影制御装置の構成は、上述した第1の実施形態に係る撮影制御装置100の構成と同様であるため、その詳細な説明は省略する。以下、第1の実施形態と異なる点についてのみ説明を行う。
第1の実施形態では、図4のステップS106のカメラ制御において、カメラ制御部217は、ステップS104で特定された第2の参加者の席位置情報に基づいて、特定後すぐにカメラ203を第2の参加者に向けるようにするものであった。しかしながら、この場合、特定された第2の参加者が離席している場合も考えられる。
そこで、第4の実施形態では、カメラ制御部217は、特定部214で特定された第2の参加者の在席状況情報にしたがって当該第2の参加者が在席している場合に、当該第2の参加者の席位置情報に基づいて、カメラ203の向きを制御する。この際、在席状況情報については、例えば、逐次定期的(もしくは不定期)に、会議室内の参加者の在席状況をカメラ203を用いて確認し、この結果に基づき情報格納制御部218が情報格納部212に格納されている在席状況情報を更新することで管理される。
(第5の実施形態)
次に、本発明の第5の実施形態について説明する。
ここで、第5の実施形態に係る撮影制御装置の構成は、上述した第1の実施形態に係る撮影制御装置100の構成と同様であるため、その詳細な説明は省略する。以下、第1の実施形態と異なる点についてのみ説明を行う。
第1の実施形態では、図4のステップS106のカメラ制御において、カメラ制御部217は、ステップS104で特定された第2の参加者にカメラ203を向けるようにするものであった。本発明においては、これに限らず、例えば、特定された参加者(第2の参加者)を含む複数の範囲にカメラ203を向けるようにした形態も適用可能である。
そこで、第5の実施形態では、カメラ制御部217は、特定部214で特定された第2の参加者の席位置情報及び参加者情報(属性情報、在席状況情報等)に基づいて、第2の参加者を含む複数の参加者が含まれる範囲にカメラ203を向ける制御を行う。
(第6の実施形態)
次に、本発明の第6の実施形態について説明する。
ここで、第6の実施形態に係る撮影制御装置の構成は、上述した第1の実施形態に係る撮影制御装置100の構成と同様であるため、その詳細な説明は省略する。以下、第1の実施形態と異なる点についてのみ説明を行う。
第1の実施形態では、図4のステップS106のカメラ制御において、カメラ制御部217は、ステップS104で特定された第2の参加者の席位置情報に基づいて、特定後すぐにカメラ203を第2の参加者に向けるようにするものであった。本発明においては、これに限らず、例えば、他の会議の参加者が発言していない場合に、第2の参加者にカメラ203を向けるようにした形態も適用可能である。
そこで、第6の実施形態では、カメラ制御部217は、参加者情報の発言状況情報に基づいて、特定部214で特定された第2の参加者とは異なる会議の参加者が発声(発言)していた場合、当該発声の終了後に第2の参加者にカメラ203を向ける制御を行う。
(第7の実施形態)
次に、本発明の第7の実施形態について説明する。
ここで、第7の実施形態に係る撮影制御装置の構成は、上述した第1の実施形態に係る撮影制御装置100の構成と同様であるため、その詳細な説明は省略する。以下、第1の実施形態と異なる点についてのみ説明を行う。
第1の実施形態では、図4のステップS106のカメラ制御において、カメラ制御部217は、ステップS104で特定された第2の参加者の席位置情報に基づいて、カメラ203を第2の参加者に向けるようにするものであった。本発明においては、これに限らず、例えば、特定された第2の参加者が次に発言する参加者として間違っていると思われる場合には、次の発声候補の参加者を第2の参加者としてカメラ203を向けるようにしてもよい。
そこで、第7の実施形態では、まず、特定部214は、特定した第2の参加者が一定時間発声しなかった場合、或いは第2の参加者の顔の特徴又は音声の特徴が情報格納部212の特徴情報と異なる場合、次の発声候補の参加者を第2の参加者として特定する。そして、カメラ制御部217は、特定部214によって新たに特定された第2の参加者の席位置情報に基づいて、当該第2の参加者にカメラ203を向ける制御を行う。
具体的に、特定部214では、音声認識部213で音声認識された結果に基づいて、通常、スコア付きの優先度が付された複数の発声候補の参加者が得られる。この場合、特定部214では、最初に、第1位の発声候補の参加者を上述した第2の参加者として特定するが、当該参加者が、一定時間(例えば2秒間程度)何も発声しない場合には、発言を求めたい参加者と異なっている場合があり得る。
このような場合に、特定部214では、音声認識部213で音声認識された結果に基づいて、次の発声候補の参加者を新たに上述した第2の参加者として特定し、カメラ制御部217において、当該第2の参加者にカメラ203を向ける制御を行うようにする。また、特定部214等において、カメラ203を向けた実際の参加者とその参加者の顔特徴などの特徴情報との類似度を求め、その差が所定の閾値以上に乖離している場合には、間違っている可能性があると判断して、新たに第2の参加者を特定する。この際、特定部214は、音声認識部213で音声認識された結果に基づいて、次の候補の参加者を第2の参加者として特定し、カメラ制御部217において、当該第2の参加者にカメラ203を向ける制御を行うようにする。
(第8の実施形態)
上述した第1の実施形態等では、音声もしくは音源の方向等に基づいてカメラ203の向きを自動的に制御するものであったが、例えば、カメラ203の向きの制御量の算出に留め、実際の向きの制御を参加者が手動で任意に行うようにすることも可能である。
(第9の実施形態)
上述した第1の実施形態等では、2点間の拠点による会議の場合について説明しているが、これに限らず、3点間以上の複数の拠点間での会議においても適用可能である。また、同一教室内もしくは遠隔において、先生と複数の生徒からなる授業を行う場合に、カメラ120及びモニタ140などを備えたシステムにおいても同様に実現が可能である。その際、通常は、複数の参加者をモニタに表示させておき、特定された参加者の表示を他の参加者のモニタに一斉に表示したり、ズームアップさせたりすることなども可能である。
(第10の実施形態)
前述した本発明の各実施形態に係る撮影制御装置100を構成する図3等に示す各手段、並びに、撮影制御装置100による撮影制御方法を示す図4の各ステップは、コンピュータのCPUがROMなどに記憶されたプログラムを実行することによって実現できる。このプログラム及び前記プログラムを記録したコンピュータ読み取り可能な記録媒体は本発明に含まれる。
また、本発明は、例えば、システム、装置、方法、プログラム若しくは記憶媒体等としての実施形態も可能であり、具体的には、複数の機器から構成されるシステムに適用してもよいし、また、1つの機器からなる装置に適用してもよい。
なお、本発明は、前述した各実施形態の機能を実現するソフトウェアのプログラム(実施形態では図4に示すフローチャートに対応したプログラム)を、システム或いは装置に直接、或いは遠隔から供給するものを含む。そして、そのシステム或いは装置のコンピュータが前記供給されたプログラムコードを読み出して実行することによっても達成される場合も本発明に含まれる。
したがって、本発明の機能処理をコンピュータで実現するために、前記コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であってもよい。
プログラムを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RWなどがある。また、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などもある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続する。そして、前記ホームページから本発明のコンピュータプログラムそのもの、若しくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。
また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせる。そして、ダウンロードした鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。その他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。その後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現される。
本発明の第1の実施形態を示し、ビデオ会議システムが適用されるビデオ会議室の全体の様子を示す模式図である。 本発明の第1の実施形態に係る撮影制御装置のハードウエア構成の一例を示す模式図である。 本発明の第1の実施形態に係る撮影制御装置の機能構成の一例を示す模式図である。 本発明の第1の実施形態に係る撮影制御装置による撮影制御方法の処理手順の一例を示すフローチャートである。 本発明の第1の実施形態に係るビデオ会議システムが適用されるビデオ会議室の全体の様子を示し、会議の参加者の席位置情報を説明するための模式図である。 本発明の第1の実施形態を示し、会議の開始前に設定された参加者情報の一例を示す模式図である。 本発明の第1の実施形態を示し、会議の開催中の状況に基づき更新された参加者情報の一例を示す模式図である。
符号の説明
100 撮影制御装置
110 統括制御装置
120 カメラ
130 マイク
140 モニタ
150 スピーカ
160 操作入力装置
400 会議テーブル
401〜408 会議の参加者
111 中央処理装置(CPU)
112 制御メモリ(ROM)
113 一時記憶メモリ(RAM)
114 外部メモリ
115 通信I/F
201 音声入力部(マイク)
202 音声信号符号化部
203 カメラ(撮像装置)
204 映像信号符号化部
205 通信部
206 多重化/分離部
207 音声信号復号化部
206 音声出力部(スピーカ)
209 映像信号復号化部
210 映像表示制御部
211 映像表示部(モニタ)
212 情報格納部
213 音声認識部
214 特定部
215 音声方向検知部
216 顔画像認識部
217 カメラ制御部
218 情報格納制御部
219 情報入力部(操作入力装置)
300 通信回線

Claims (24)

  1. カメラによる撮影を制御する撮影制御装置において、
    会議の参加者に係る情報であって、当該参加者の位置情報を含む参加者情報を格納する情報格納手段と、
    前記会議の参加者のうちの第1の参加者が発した音声の内容を音声認識する音声認識手段と、
    前記音声認識手段によって音声認識された内容と前記参加者情報とに基づいて、前記会議の参加者の中から第2の参加者を特定する特定手段と、
    前記特定手段によって特定された前記第2の参加者の前記位置情報に基づいて、前記カメラを制御するカメラ制御手段と
    を有することを特徴とする撮影制御装置。
  2. 前記情報格納手段には、前記参加者情報として、前記位置情報である前記会議の参加者の席位置情報と、前記会議の参加者の在席状況情報と、前記会議の参加者の氏名、所属、役職、性別及び年代のうちの少なくともいずれかを含む参加者の属性情報と、前記会議の参加者の顔の特徴及び音声の特徴のうちの少なくともいずれかを含む参加者の特徴情報と、前記会議の参加者の発言回数、発言時間及び最近発言時刻のうちの少なくともいずれかを含む参加者の発言状況情報とを含む情報が格納されていることを特徴とする請求項1に記載の撮影制御装置。
  3. 入力された情報に基づいて、前記会議の開始前に前記参加者情報を前記情報格納手段に格納する制御を行うとともに、前記会議の開催中に前記参加者情報を更新する制御を行う情報格納制御手段を更に有することを特徴とする請求項1に記載の撮影制御装置。
  4. 前記音声認識手段は、前記第1の参加者が発した音声に対して、前記会議の参加者の氏名、所属、役職、性別及び年代のうちの少なくともいずれかを含む参加者の属性情報に関する音声認識を行うことを特徴とする請求項1に記載の撮影制御装置。
  5. 前記音声認識手段は、前記第1の参加者が発した音声に対して、発言を求めたい趣旨の文言を表す内容の場合に、前記会議の参加者の氏名、所属、役職、性別及び年代のうちの少なくともいずれかを含む参加者の属性情報に関する音声認識を行うことを特徴とする請求項1に記載の撮影制御装置。
  6. 前記特定手段は、前記第2の参加者の候補となる前記会議の参加者が複数存在する場合には、所定の規則に基づく優先順序にしたがって、前記第2の参加者を特定することを特徴とする請求項1に記載の撮影制御装置。
  7. 前記所定の規則として、前記会議の参加者の氏名順、所属順、役職順、性別順、年代順、席順、発言回数順、発言時間順、最近発言時刻順、これらの順の逆順、及び、ランダム順の規則の中から選ばれた1つの規則を適用することを特徴とする請求項6に記載の撮影制御装置。
  8. 前記参加者情報には、前記位置情報である前記会議の参加者の席位置情報に加えて、前記会議の参加者の在席状況情報が含まれており、
    前記カメラ制御手段は、前記第2の参加者の前記在席状況情報にしたがって当該第2の参加者が在席している場合に、当該第2の参加者の前記席位置情報に基づいて、前記カメラの向きを制御することを特徴とする請求項1に記載の撮影制御装置。
  9. 前記参加者情報には、前記位置情報である前記会議の参加者の席位置情報に加えて、前記会議の参加者の在席状況情報、及び、前記会議の参加者の氏名、所属、役職、性別及び年代のうちの少なくともいずれかを含む参加者の属性情報が含まれており、
    前記カメラ制御手段は、前記第2の参加者の前記席位置情報、及び、前記参加者情報に基づいて、前記第2の参加者を含む複数の参加者が含まれる範囲に前記カメラを向ける制御を行うことを特徴とする請求項1に記載の撮影制御装置。
  10. 前記参加者情報には、前記位置情報である前記会議の参加者の席位置情報に加えて、前記会議の参加者の発言状況情報が含まれており、
    前記カメラ制御手段は、前記発言状況情報に基づいて、前記第2の参加者とは異なる前記会議の参加者が発声していた場合、当該発声の終了後に前記第2の参加者に前記カメラを向ける制御を行うことを特徴とする請求項1に記載の撮影制御装置。
  11. 前記参加者情報には、前記位置情報である前記会議の参加者の席位置情報に加えて、前記会議の参加者の顔の特徴及び音声の特徴のうちの少なくともいずれかを含む参加者の特徴情報が含まれており、
    前記特定手段は、前記第2の参加者が一定時間発声しなかった場合、或いは、前記第2の参加者の顔の特徴又は音声の特徴が前記特徴情報と異なる場合、次の発声候補の参加者を前記第2の参加者として特定し、
    前記カメラ制御手段は、前記特定手段によって新たに特定された第2の参加者の前記位置情報に基づいて、前記第2の参加者に前記カメラを向ける制御を行うことを特徴とする請求項1に記載の撮影制御装置。
  12. カメラによる撮影を制御する撮影制御方法において、
    会議の参加者のうちの第1の参加者が発した音声の内容を音声認識する音声認識ステップと、
    前記音声認識ステップによって音声認識された内容と、情報格納手段に格納されている、前記会議の参加者の位置情報を含む参加者情報とに基づいて、前記会議の参加者の中から第2の参加者を特定する特定ステップと、
    前記特定ステップによって特定された前記第2の参加者の前記位置情報に基づいて、前記カメラを制御するカメラ制御ステップと
    を有することを特徴とする撮影制御方法。
  13. 前記情報格納手段には、前記参加者情報として、前記位置情報である前記会議の参加者の席位置情報と、前記会議の参加者の在席状況情報と、前記会議の参加者の氏名、所属、役職、性別及び年代のうちの少なくともいずれかを含む参加者の属性情報と、前記会議の参加者の顔の特徴及び音声の特徴のうちの少なくともいずれかを含む参加者の特徴情報と、前記会議の参加者の発言回数、発言時間及び最近発言時刻のうちの少なくともいずれかを含む参加者の発言状況情報とを含む情報が格納されていることを特徴とする請求項12に記載の撮影制御方法。
  14. 入力された情報に基づいて、前記会議の開始前に前記参加者情報を前記情報格納手段に格納する制御を行うとともに、前記会議の開催中に前記参加者情報を更新する制御を行う情報格納制御ステップを更に有することを特徴とする請求項12に記載の撮影制御方法。
  15. 前記音声認識ステップでは、前記第1の参加者が発した音声に対して、前記会議の参加者の氏名、所属、役職、性別及び年代のうちの少なくともいずれかを含む参加者の属性情報に関する音声認識を行うことを特徴とする請求項12に記載の撮影制御方法。
  16. 前記音声認識ステップでは、前記第1の参加者が発した音声に対して、発言を求めたい趣旨の文言を表す内容の場合に、前記会議の参加者の氏名、所属、役職、性別及び年代のうちの少なくともいずれかを含む参加者の属性情報に関する音声認識を行うことを特徴とする請求項12に記載の撮影制御方法。
  17. 前記特定ステップでは、前記第2の参加者の候補となる前記会議の参加者が複数存在する場合には、所定の規則に基づく優先順序にしたがって、前記第2の参加者を特定することを特徴とする請求項12に記載の撮影制御方法。
  18. 前記所定の規則として、前記会議の参加者の氏名順、所属順、役職順、性別順、年代順、席順、発言回数順、発言時間順、最近発言時刻順、これらの順の逆順、及び、ランダム順の規則の中から選ばれた1つの規則を適用することを特徴とする請求項17に記載の撮影制御方法。
  19. 前記参加者情報には、前記位置情報である前記会議の参加者の席位置情報に加えて、前記会議の参加者の在席状況情報が含まれており、
    前記カメラ制御ステップでは、前記第2の参加者の前記在席状況情報にしたがって当該第2の参加者が在席している場合に、当該第2の参加者の前記席位置情報に基づいて、前記カメラの向きを制御することを特徴とする請求項12に記載の撮影制御方法。
  20. 前記参加者情報には、前記位置情報である前記会議の参加者の席位置情報に加えて、前記会議の参加者の在席状況情報、及び、前記会議の参加者の氏名、所属、役職、性別及び年代のうちの少なくともいずれかを含む参加者の属性情報が含まれており、
    前記カメラ制御ステップでは、前記第2の参加者の前記席位置情報、及び、前記参加者情報に基づいて、前記第2の参加者を含む複数の参加者が含まれる範囲に前記カメラを向ける制御を行うことを特徴とする請求項12に記載の撮影制御方法。
  21. 前記参加者情報には、前記位置情報である前記会議の参加者の席位置情報に加えて、前記会議の参加者の発言状況情報が含まれており、
    前記カメラ制御ステップでは、前記発言状況情報に基づいて、前記第2の参加者とは異なる前記会議の参加者が発声していた場合、当該発声の終了後に前記第2の参加者に前記カメラを向ける制御を行うことを特徴とする請求項12に記載の撮影制御方法。
  22. 前記参加者情報には、前記位置情報である前記会議の参加者の席位置情報に加えて、前記会議の参加者の顔の特徴及び音声の特徴のうちの少なくともいずれかを含む参加者の特徴情報が含まれており、
    前記特定ステップでは、前記第2の参加者が一定時間発声しなかった場合、或いは、前記第2の参加者の顔の特徴又は音声の特徴が前記特徴情報と異なる場合、次の発声候補の参加者を前記第2の参加者として特定し、
    前記カメラ制御ステップでは、前記特定ステップによって新たに特定された第2の参加者の前記位置情報に基づいて、前記第2の参加者に前記カメラを向ける制御を行うことを特徴とする請求項12に記載の撮影制御方法。
  23. 請求項12乃至22のいずれか1項に記載の撮影制御方法をコンピュータに実行させるためのプログラム。
  24. 請求項23に記載のプログラムを記憶したことを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2008282128A 2008-10-31 2008-10-31 撮影制御装置、撮影制御方法及びプログラム Pending JP2010109898A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008282128A JP2010109898A (ja) 2008-10-31 2008-10-31 撮影制御装置、撮影制御方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008282128A JP2010109898A (ja) 2008-10-31 2008-10-31 撮影制御装置、撮影制御方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2010109898A true JP2010109898A (ja) 2010-05-13

Family

ID=42298851

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008282128A Pending JP2010109898A (ja) 2008-10-31 2008-10-31 撮影制御装置、撮影制御方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2010109898A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012123519A (ja) * 2010-12-07 2012-06-28 Fuji Xerox Co Ltd 画像処理システム、画像処理装置及び画像処理プログラム
JP2017022661A (ja) * 2015-07-14 2017-01-26 株式会社リコー 情報処理装置、情報処理方法、および情報処理プログラム
JP2017219607A (ja) * 2016-06-06 2017-12-14 株式会社ソフトアップJ トレーニング支援装置
WO2019181479A1 (ja) * 2018-03-20 2019-09-26 株式会社日立国際電気 顔照合システム
JP2020535499A (ja) * 2017-08-29 2020-12-03 キッテン プラネット カンパニー、リミテッド. 映像アライメント方法及びその装置
JP2021005319A (ja) * 2019-06-27 2021-01-14 株式会社ドワンゴ 制御サーバ、配信システム、制御方法及びプログラム
CN113132542A (zh) * 2021-05-06 2021-07-16 上海纽偲钽文化传媒有限公司 一种基于互联网的线上会议系统及方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012123519A (ja) * 2010-12-07 2012-06-28 Fuji Xerox Co Ltd 画像処理システム、画像処理装置及び画像処理プログラム
JP2017022661A (ja) * 2015-07-14 2017-01-26 株式会社リコー 情報処理装置、情報処理方法、および情報処理プログラム
JP2017219607A (ja) * 2016-06-06 2017-12-14 株式会社ソフトアップJ トレーニング支援装置
JP2020535499A (ja) * 2017-08-29 2020-12-03 キッテン プラネット カンパニー、リミテッド. 映像アライメント方法及びその装置
WO2019181479A1 (ja) * 2018-03-20 2019-09-26 株式会社日立国際電気 顔照合システム
JP2021005319A (ja) * 2019-06-27 2021-01-14 株式会社ドワンゴ 制御サーバ、配信システム、制御方法及びプログラム
CN113132542A (zh) * 2021-05-06 2021-07-16 上海纽偲钽文化传媒有限公司 一种基于互联网的线上会议系统及方法

Similar Documents

Publication Publication Date Title
TWI536365B (zh) 聲紋辨識
US9064160B2 (en) Meeting room participant recogniser
JP4085924B2 (ja) 音声処理装置
CN113874936A (zh) 用于优化分布式系统中的用户偏好的定制输出
JP2010109898A (ja) 撮影制御装置、撮影制御方法及びプログラム
CN112037791B (zh) 会议纪要转录方法、设备和存储介质
CN114097027A (zh) 讲话者归属的记录稿生成
CN103165131A (zh) 语音处理系统及语音处理方法
US20180182399A1 (en) Control method for control device, control method for apparatus control system, and control device
JPWO2010113438A1 (ja) 音声認識処理システム、および音声認識処理方法
JP5030868B2 (ja) 会議音声録音システム
US20210105437A1 (en) Information processing device, information processing method, and storage medium
JP2007241130A (ja) 声紋認識を利用するシステムと装置
JP2016102920A (ja) 文書記録システム及び文書記録プログラム
US20120242860A1 (en) Arrangement and method relating to audio recognition
JP2008242837A (ja) コミュニケーションの状況を管理する装置、方法およびプログラム
JP2007067972A (ja) 会議システム及び会議システムの制御方法
JP6507010B2 (ja) ビデオ会議システムと音声認識技術を組み合わせた装置および方法
JP7058588B2 (ja) 会話システムおよび会話プログラム
JP5495612B2 (ja) カメラ制御装置及び方法
JP2017198790A (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
JP6596913B2 (ja) スケジュール作成装置、スケジュール作成方法、プログラム
JP2019179081A (ja) 会議支援装置、会議支援制御方法およびプログラム
JP2018054926A (ja) 音声対話装置および音声対話方法
JP2018063352A (ja) フレーム選択装置、フレーム選択方法及びプログラム