以下に添付図面を参照して、この発明に係るビデオ会議装置の最良な実施の形態を詳細に説明する。
図1は、本実施形態に係るビデオ会議装置の外観を示す斜視図である。本実施形態に係るビデオ会議装置は、持ち運び容易に構成された可搬型のビデオ会議装置であり、装置本体1と、装置本体1に対して引き出し可能なマイクユニット2及びワイヤレスリモコン3を備える。
装置本体1には、主電源スイッチ4、スライド式スピーカ音量調整つまみ5、赤外線受光部6、スピーカ7、カメラ8、画像出力端子9、ネットワーク接続端子10がそれぞれ設けられている。
主電源スイッチ4は、当該ビデオ会議装置(以下、自装置という。)の電源投入と遮断を行うためにユーザにより操作されるスイッチである。スライド式スピーカ音量調整つまみ5は、スピーカ7が出力する音量を調整するためにユーザにより操作されるつまみである。このスライド式スピーカ音量調整つまみ5は、スライド式であるため、回転式のつまみと比較して、現状の音量が目で見て分かり易いという利点がある。
赤外線受光部6は、ユーザの操作に応じてワイヤレスリモコン3から発光される赤外線を受光し、ユーザのリモコン操作に対応した受光信号を出力する。スピーカ7は、遠隔地の会議室で収音された音声を出力する。また、カメラ8は、自装置が設置された会議室の画像を撮影して画像信号を出力する。
画像出力端子9は、遠隔地の会議室で撮影された画像と、自装置のカメラ8で撮影された会議室の画像、自装置を操作するためのメニュー画像を、外部の市販商品であるプロジェクタ11やテレビモニタに表示するための端子である。本実施形態に係るビデオ会議装置は装置本体1に画像表示手段を持たず、会議室に設置されているプロジェクタ11やテレビモニタを使用して画像を表示する構成である。画像出力端子9は、ディスプレイケーブル12を介して、会議室に設置されているプロジェクタ11やテレビモニタに接続される。会議室にプロジェクタ11やテレビモニタがない場合は、ユーザがビデオ会議装置とともにプロジェクタ11やテレビモニタを会議室に持ち込んで接続すればよい。
ネットワーク接続端子10は、ビデオ会議を行うために、自装置を構内LAN(Local Area Network)やインターネットなどの通信ネットワークと接続するための端子である。ネットワーク接続端子10は、ネットワークケーブル13を介して、会議室に設けられているネットワーク端子に接続される。なお、自装置の電源は、会議室に設けられているコンセントから電源コードを介して装置本体1に供給されるが、図1では電源コードの図示を省略している。
また、装置本体1には、自装置を持ち運びするときにワイヤレスリモコン3を収納するためのワイヤレスリモコン入れ14や、マイクユニット2を収納するためのマイク入れ15が設けられている。これらワイヤレスリモコン入れ14やマイク入れ15は、装置本体1に対して回動可能に取り付けられた扉16によって開閉される。
また、装置本体1には、自装置の持ち運びを容易にするための取っ手17が取り付けられている。この取っ手17は、装置本体1側に倒すことが可能であり、自装置の使用時にはこの取っ手17を倒すことで、主電源スイッチ4やスライド式スピーカ音量調整つまみ5を操作しやすくすることができる。
マイクユニット2は、会議出席者の発言音声を収音するものであり、マイクケーブル18によって装置本体1に接続され、装置本体1に対して引き出し可能とされている。このマイクユニット2は、自装置を持ち運びするときは、マイクケーブル18とともに装置本体1のマイク入れ15に収納され、会議で使用する際に、マイク入れ15から引き出して、できるだけ会議出席者の近くになるように会議机の上に置かれる。このマイクユニット2の詳細は後述する。
ワイヤレスリモコン3は、自装置を操作するためのリモコンであり、ユーザ操作に応じて赤外線を発光する赤外線発光部を有している。このワイヤレスリモコン3は、自装置を持ち運びするときは、装置本体1のワイヤレスリモコン入れ14に収納され、使用時にワイヤレスリモコン入れ14から取り出される。
以上のように構成されるビデオ会議装置の使用方法は、以下の通りである。ユーザは、ビデオ会議装置を使用しないときは、主電源スイッチ4を切り、電源プラグをコンセントから抜き、ディスプレイケーブル12とネットワークケーブル13を外し、ワイヤレスリモコン3をワイヤレスリモコン入れ14に入れ、マイクユニット2をマイクケーブル18とともにマイク入れ15に入れ、扉16を閉じる。ネットワークケーブル13は会議室のネットワーク接続端子に接続したまま、ディスプレイケーブル12はプロジェクタに接続したまま、プロジェクタ11とともに会議室に置き放しにすることが多いので、ユーザは、ビデオ会議装置のみを会議室から運び出し、オフィスの共有棚等に保管する。
ビデオ会議装置を使ってビデオ会議を行うときは、ユーザは、保管されていたビデオ装置を会議室へ持ち運び、扉16を開けて、ワイヤレスリモコン3とマイクユニット2を取り出す。また、会議室に置いてあるネットワークケーブル13をネットワーク接続端子10に、ディスプレイケーブル12を画像出力端子9にそれぞれ接続する。そして、主電源スイッチ4を入れ、ワイヤレスリモコン3を操作して、遠隔地の会議室とのビデオ会議を開催する。
図2は、本実施形態に係るビデオ会議装置が備えるマイクユニット2の詳細を示す図である。マイクユニット2は、マイク筐体の内部に複数(本実施形態では3つ)のマイク21,22,23が、互いの収音方向が異なるように内蔵された構成である。各マイク21,22,23は、単一指向性のマイクであり、図2(a)に示すように、高感度が得られる収音方向(マイク正面の方向)A1,A2,A3が互いに異なる方向となるように、マイク筐体の内部に配置されている。
具体的には、3つのマイク21,22,23は、図2(b)に示すように、マイク正面の向きが互いに異なるようにユニットベース24上に配置されて固定される。そして、これらマイク21,22,23が固定されたユニットベース24上に、網目状のカバー25が取り付けられる。これらユニットベース24とカバー25とにより、マイク筐体が構成されている。また、カバー25には、3つのマイク21,22,23の収音方向を明示する矢印のマーカ26が設けられており、ユーザがマイクユニット2を会議机の上に置くときの目安となるようにしている。
以上のように収音方向が互いに異なる3つのマイク21,22,23を内蔵するマイクユニット2は、各マイク21,22,23の出力信号をそれぞれ個別の増幅器に入力し、その増幅度を変化させて加算することにより、収音特性を変化させることができる。
図3は、本実施形態に係るビデオ会議装置の電気的な回路構成を示すブロック図である。本実施形態に係るビデオ会議装置は、画像用アナログ・デジタル変換部101、画像圧縮部102、在席状態判定部103、音声増幅加算部104、音声用アナログ・デジタル変換部105、エコーキャンセル部106、音声圧縮部107、データ送信部108、ネットワークインターフェース部109、データ受信部110、音声伸張部111、音声用デジタル・アナログ変換部112、画像伸張部113、画像混合切換部114、画像用デジタル・アナログ変換部115、リモコンインターフェース部116、制御部117を備える。
画像用アナログ・デジタル変換部101は、カメラ8が出力するアナログ画像信号をデジタルデータに変換し、送信画像データとして画像圧縮部102及び画像混合切換部114に出力する。また、画像用アナログ・デジタル変換部101でデジタルデータに変換された画像データは、在席状態判定部103にも出力される。画像圧縮部102は、画像用アナログ・デジタル変換部101が出力する送信画像データを圧縮する。
在席状態判定部103は、デジタルデータに変換されたカメラ8の撮影画像、つまりビデオ会議装置が設置された会議室の画像(動画)から1枚の静止画を入力し、この静止画から人の顔を検出する処理を行う。そして、在席状態判定部103は、静止画から検出した人の顔の位置と、大きさと、隣り合う顔位置の間の距離とに基づいて、カメラ8の撮影エリアにおける人の配置、つまり、会議室における会議出席者の在席状態を判定し、在席状態に応じてマイクユニット2の3つのマイク21,22,23それぞれの増幅度を設定する信号を音声増幅加算部104に出力する。この在席状態判定部103による処理の具体例については、詳細を後述する。
音声増幅加算部104は、マイクユニット2の3つのマイク21,22,23に対応した3つの信号増幅器と信号加算器とを有し、3つのマイク21,22,23の出力信号を、設定した増幅度で個別に増幅して加算し、音声用アナログ・デジタル変換部105に出力する。ここで、音声増幅加算部104は、在席状態判定部103からの信号に従って、3つのマイク21,22,23それぞれの出力信号の増幅度を、カメラ8の撮影エリアにおける人の配置、つまり、会議室における会議出席者の在席状態に応じて設定する。具体的には、会議出席者が在席している方向に向いているマイクの出力信号の増幅度を大きくし、会議出席者が在席していない方向に向いているマイクの出力信号の増幅度を小さくする。このように、音声増幅加算部104は、会議出席者の在席状態に応じてマイクユニット2の収音特性を変化させる機能を有している。
音声用アナログ・デジタル変換部105は、音声増幅加算部104が出力するアナログ音声信号をデジタルデータに変換し、エコーキャンセル部106に出力する。エコーキャンセル部106は、音声伸張部111から受話音データとして入力される音声データに基づき、音声用アナログ・デジタル変換部105が出力する音声データから、エコー成分、つまり、スピーカ7からマイク21,22,23に入った出力音声を除去し、送話音データとして音声圧縮部107に出力する。音声圧縮部107は、エコーキャンセル部106によりエコー成分が除去された送話音データを圧縮する。
データ送信部108は、画像圧縮部102により圧縮された送信画像データと音声圧縮部107により圧縮された送話音データを、ネットワーク送信用データに変換してネットワークインターフェース部109に出力する。ネットワークインターフェース部109は、データ送信部108が出力するネットワーク送信用データをネットワークに送信するとともに、ネットワークから受信データを受信してデータ受信部110に出力する。なお、本実施形態では有線の通信ネットワークを用いることを想定しているが、無線通信ネットワークを利用するようにしてもよい。
データ受信部110は、ネットワークインターフェース部109が受信したネットワークデータを圧縮音声データと圧縮画像データとに分離し、圧縮音声データを音声伸張部111に出力し、圧縮画像データを画像伸張部113に出力する。
音声伸張部111は、データ受信部110からの圧縮音声データを伸張し、受話音データとしてエコーキャンセル部106を介して音声用アナログ・デジタル変換部112に出力する。音声用デジタル・アナログ変換部112は、音声伸張部111により伸張された受話音データをアナログ信号に変換し、スピーカ7に出力する。これにより、スピーカ7から、遠隔地の会議室で収音された音声が出力される。なお、音声用デジタル・アナログ変換部112は、スピーカ7から出力される音声の音量調整の機能も有している。
画像伸張部113は、データ受信部110からの圧縮画像データを伸張し、受信画像データとして画像混合切換部114に出力する。画像混合切換部114は、画像用アナログ・デジタル変換部101からの送信画像データと、画像伸張部113からの受信画像データとを入力し、ユーザによるワイヤレスリモコン3のボタン操作に応じて制御部117から出力される指令に従って、それぞれを混合したり、どれかを表示しないように切換えたりして、表示用の画像データを生成し、画像用アナログ・デジタル変換部115に出力する。画像用デジタル・アナログ変換部115は、画像混合切換部114で生成された表示用画像データをアナログ画像信号に変換し、画像出力端子9に出力する。これにより、画像出力端子9にプロジェクタ11が接続されていれば、プロジェクタ11によりホワイトボードなどに表示画像が投影され、表示される。
リモコンインターフェース部116は、赤外線受光部6の出力信号を、ワイヤレスリモコン3でユーザが操作したボタンの識別データに変換して、制御部117に出力する。制御部117は、本実施形態に係るビデオ会議装置の全体の動作制御と、ワイヤレスリモコン3のボタン操作に応じた動作制御を行う。
本実施形態に係るビデオ会議装置は、以上の構成を備えることで、ビデオ会議装置として必要な画像と音声の送受信を行うことができる。送信については、カメラ8で撮影した画像を圧縮するとともに、マイク21,22,23で収音したエコーキャンセル済みの送話音を圧縮し、それぞれの圧縮データをネットワーク経由で相手側に送信する。受信については、相手側から送られた圧縮された受信画像データと、圧縮された受話音データをそれぞれ伸張し、画像出力端子9とスピーカ7から出力する。
ここで、特に本実施形態に係るビデオ会議装置では、カメラ8で撮影した画像、つまり、自装置が設置された会議室の画像を用いて、在席状態判定部103により、会議出席者の在席状態を判定し、音声増幅加算部104で3つのマイク21,22,23の増幅度を会議出席者の在席状態に応じて個別に設定して、会議出席者の在席状態に適したマイクユニット2の収音特性を自動で設定するようにしている。これにより、例えばユーザが会議出席者の在席状態を確認しながらマイクの収音特性を調整するといった作業は不要となり、ユーザに煩わしさを感じさせることなく、会議出席者の発話音声を的確に収音することができる。
次に、会議室での会議出席者の在席状態の具体例を例示しながら、本実施形態に係るビデオ会議装置によるマイクユニット2の収音特性の設定について、さらに詳しく説明する。
通常の会議室には、会議机と会議出席者用イスが置かれ、ホワイトボードが置かれることもある。また、ノートパソコンを使って会議資料をプロジェクタで投影し、紙の資料を配布しない会議も多くなっているので、プロジェクタが常設されることも多い。
図4は、このような会議室における会議机やイス、プロジェクタ11の配置の一例を示す図である。この図4に示すような会議室で本実施形態に係るビデオ装置を使ってビデオ会議を行うときは、ビデオ会議装置の装置本体1を会議机の端に置き、その反対側に会議出席者が並ぶ。したがってビデオ会議装置のカメラ8は、この状態で全出席者が撮影できるように、適切な画角のカメラが用いられる。また、マイクユニット2は、装置本体1から引き出されて、会議出席者に近づけて会議机に置かれることになる。このとき、ビデオ会議装置のスピーカ7は相手側の会議室の発言音声(受話音)を出力する。この音声がマイクユニット2で収音されて相手側に伝わると、相手側では、自分の発言が時間遅れを伴って自分に聞こえる現象、いわゆるエコーが発生し、会話がしづらくなる。そこで、ビデオ会議装置には、上述したように、電気的な音声信号処理によりスピーカ7からマイクユニット2に入ったエコー成分を除去するエコーキャンセル部106が設けられている。プロジェクタ11は、ホワイトボードや壁に画像を投影できるように、会議机に置かれる。
図4に示す配置例の場合、会議出席者の座席配置とマイクユニット2との位置関係は、マイクユニット2の正面側(図2(a)に示すマイク22の収音方向A2)に在席する2人はマイクユニット2から離れており、マイクユニット2の右側(図2(a)に示すマイク21の収音方向A1)及び左側(図2(a)に示すマイク23の収音方向A3)に在席する2人はマイクユニット2に近くなっている。したがって、図4に示す配置例の場合には、マイクユニット2に内蔵された3つのマイク21,22,23のうち、マイク22に接続された増幅器の増幅度は大きくし、マイク21とマイク23に接続された増幅器の増幅度は、マイク22に接続された増幅器の増幅度よりも小さくすることで、会議出席者全員の発話音声をバランスよく収音できる。
図5は、会議室における会議机やイス、プロジェクタ11の配置の他の例を示す図である。ビデオ会議を行う場合、図5に示すように会議出席者が一列に並んだ座席配置にすることも多い。この場合、プロジェクタ台にビデオ会議装置の装置本体1とプロジェクタ11を置き、装置本体1から引き出したマイクユニット2を会議机に置く。ビデオ会議装置のスピーカ7からは相手側の会議室の会話音声が出力されるが、この出力音声は可能な限りマイクユニット2に入らない方がエコーキャンセルの効果が高くなる。そのため、マイクユニット2とスピーカ7は離す方がよいので、このようなマイクユニット2と装置本体1の配置にする。
図5に示す配置例の場合、会議出席者の座席配置とマイクユニット2との位置関係は、会議机の中央に在籍する2人はマイクユニット2に近く、会議机の両端に在席する2人はマイクユニット2から離れている。したがって、図5に示す配置例の場合には、マイクユニット2に内蔵された3つのマイク21,22,23のうち、マイク22に接続された増幅器の増幅度は小さくし、マイク21とマイク23に接続された増幅器の増幅度は、マイク22に接続された増幅器の増幅度よりも大きくすることで、会議出席者全員の発話音声をバランスよく収音できる。
図6は、会議室における会議机やイス、プロジェクタ11の配置のさらに他の例を示す図である。ビデオ会議を行う場合、会議出席者の人数が多いと、図6に示すように会議机をコの字型に配置することも多い。この場合、プロジェクタ台にビデオ会議装置の装置本体1とプロジェクタ11を置き、装置本体1から引き出したマイクユニット2をできるだけ会議出席者の中央に置く。
図6に示す配置例の場合、会議出席者の座席配置とマイクユニット2との位置関係は、会議出席者のほぼ全員がマイクユニット2から同じ距離に配置される。したがって、マイクユニット2に内蔵された3つのマイク21,22,23に接続された各増幅器の増幅度は同じ大きさにし、かつできるだけ大きくすることで、全会議出席者の発話音声をバランスよく収音できる。
図7は、図4に示した配置例において、会議の途中で2名が退席したときの状態を示している。この場合、退席した2人の方向からの収音は不要であるばかりか、この方向から収音すると部屋の反響音等の雑音を収音してしまって音声が聞き取りづらくなる。したがって、このような場合には、マイクユニット2に内蔵された3つのマイク21,22,23のうち、マイク23(退席した2人の方向に正面が向いているマイク)に接続された増幅器の増幅度は0(ゼロ)にすることが望ましい。
図8は、図4〜図7に例示した会議室の会議出席者の在席状態をビデオ会議装置のカメラ8で撮影したときの画像例を示す図であり、(a)は図4に示した会議室で6人の会議出席者が在席している場合の画像例、(b)は図5に示した会議室で4人の会議出席者が在席している場合の画像例、(c)は図6に示した会議室で8人の会議出席者が在席している場合の画像例、(d)は図7に示した会議室で4人の会議出席者が在席している場合の画像例をそれぞれ示している。本実施形態に係るビデオ会議装置では、上述したように、在席状態判定部103が、これら図8(a)〜図8(d)に示すようなカメラ8で撮影された画像から人の顔を検出する処理を行い、検出した人の顔の位置と、大きさと、隣り合う顔位置の間の距離とに基づいて、カメラ8の撮影エリアにおける人の配置、つまり、会議室における会議出席者の在席状態を判定するようにしている。
画像から顔を検出する技術は、例えば「”デジタルカメラ向け顔画像処理技術”オムロン KEC情報,No.210,2009.JUL,P.16−22」などに記載されているように、広く知られている技術である。在席状態判定部103による画像からの人の顔の検出は、このような周知の顔検出技術を用いて行えばよい。
図9は、図8に例示した画像から人の顔を検出したときの検出結果を示す図であり、(a)は図8(a)に示した画像から人の顔を検出した結果を示し、(b)は図8(b)に示した画像から人の顔を検出した結果を示し、(c)は図8(c)に示した画像から人の顔を検出した結果を示し、(d)は図8(d)に示した画像から人の顔を検出した結果を示している。なお、図中の太線で示す矩形の枠で囲まれた部分が、人の顔として検出された領域を示している。在席状態判定部103は、これら図9(a)〜図9(d)に示した顔検出の結果から、検出した人の顔の位置と、大きさと、隣り合う顔位置の間の距離とに基づいて、会議室における会議出席者の在席状態を判定する。
具体的には、図9(a)に示す例では、6人の会議出席者の顔が検出されており、そのうち中央の2人の顔の大きさがほぼ同じで小さく、画像の両端に位置する顔ほど大きくなっている。また、画像の両端の2人の顔は、それぞれ隣に位置する顔に近い位置で検出されており、それと比較して中央の2人の顔の間の距離は大きくなっている。このような顔の位置と、大きさと、隣り合う顔位置の間の距離との関係から、会議出席者の在席状態が図4に例示した在席状態であると判定できる。
また、図9(b)に示す例では、4人の会議出席者の顔が検出されており、これら4人の顔の大きさがほぼ同じで、隣り合う顔間の距離がほぼ等しくなっている。このような顔の位置と、大きさと、隣り合う顔位置の間の距離との関係から、会議出席者の在席状態が図5に例示した在席状態であると判定できる。
また、図9(c)に示す例では、8人の会議出席者の顔が検出されており、そのうち中央の4人の顔の大きさがほぼ同じで小さく、画像の両端に位置する顔ほど大きくなっている。また、画像の両端の2人の顔は、それぞれ隣に位置する顔に近い位置で検出されており、それと比較して中央の4人の顔は、隣に位置する顔との距離が大きくなっている。また、中央の4人の顔間の距離はほぼ等しくなっている。このような顔の位置と、大きさと、隣り合う顔位置の間の距離との関係から、会議出席者の在席状態が図6に例示した在席状態であると判定できる。
また、図9(d)に示す例では、4人の会議出席者の顔が検出されており、そのうち中央の2人の顔の大きさがほぼ同じで小さく、画像の右端に位置する顔ほど大きくなっている。また、画像の右端の2人の顔の距離は小さく、それと比較して中央の2人の顔の間の距離は大きくなっている。なお、画像の左端には顔が検出されていない。このような顔の位置と、大きさと、隣り合う顔位置の間の距離との関係から、会議出席者の在席状態が図7に例示した在席状態であると判定できる。
本実施形態に係るビデオ会議装置では、以上のように、在席状態判定部103が、カメラ8で撮影された画像から検出した人の顔の位置と、大きさと、隣り合う顔位置の間の距離とに基づいて、会議室における会議出席者の在席状態を判定する。そして、この在席状態判定部103により判定された会議出席者の在席状態に応じて、音声増幅加算部104が、マイクユニット2に内蔵された3つのマイク21,22,23に各々接続された増幅器の増幅度を個別に設定し、各増幅器の出力を加算して音声信号として出力する。これにより、マイクユニット2の収音特性を会議出席者の在席状態に合った最適な状態に設定して、会議出席者の発話音声を的確に収音することができる。
図10は、本実施形態に係るビデオ会議装置において、会議出席者の在席状態に合わせたマイクユニット2の収音特性を設定する一連の処理を示すフローチャートである。以下、この図10のフローチャートに沿って動作を説明する。
ビデオ会議装置が会議室に持ち込まれ、ディスプレイケーブル12の接続、ネットワークケーブル13の接続、電源コードの接続などの準備が終了して、主電源スイッチ4がオンされると、まず、制御部117による制御のもとで会議開始処理が行われる(ステップS101)。この会議開始処理は、自装置をネットワーク経由で遠隔地のビデオ会議装置に接続し、双方向の通信リンクを確立して画像と音声を送受信する処理である。このとき、音声増幅加算部104における各増幅器の増幅度は所定の初期値(例えば、3つの増幅器とも同じ増幅度)に設定する。
次に、在席状態判定部103が、カメラ8で撮影された会議室の画像(動画)から、1枚の画像を抽出する(ステップS102)。そして、在席状態判定部103は、抽出した画像から人の顔を検出する処理を行い(ステップS103)、検出した人の顔の位置、大きさ、隣り合う顔位置の間の距離に基づいて、会議出席者の在席状態を判定し(ステップS104)、在席状態に応じてマイクユニット2の3つのマイク21,22,23それぞれの増幅度を設定する信号を音声増幅加算部104に出力する。
次に、音声増幅加算部104が、在席状態判定部103からの信号に従って、マイクユニット2の3つのマイク21,22,23に各々接続された3つの増幅器の増幅度を、会議出席者の在席状態に応じて設定する(ステップ105)。
その後、予め定めた所定時間(例えば、3分間、5分間など)が経過するまでの間、3つの増幅器の増幅度をステップS105で設定した増幅度に維持したまま待機する(ステップS106)。なお、この間もビデオ会議装置としての通常の動作は継続され、遠隔地の会議室との間での画像や音声の送受信は継続されている。そして、所定時間が経過したら、ビデオ会議動作が終了したかどうかを判断し(ステップS107)、ビデオ会議動作が終了していれば(ステップS107:Yes)、図10に示す処理フローを終了する。なお、ステップ106の所定時間の待機中にビデオ会議動作が終了した場合、ビデオ会議動作が終了した時点で割り込み処理により、図10に示す処理フローを終了させるようにしてもよい。
一方、所定時間が経過した段階で会議が終了しておらず、ビデオ会議動作が続行されていれば(ステップS107:No)、ステップS102に戻って、再び画像抽出から処理を繰り返す。これにより、会議中の会議出席者の退席などによって会議出席者の在席状態が変化したときには、変化した後の在席状態に応じて3つの増幅器の増幅度を更新することができ、その時々の在席状態に適したマイクユニット2の収音特性を設定することができる。
以上、具体的な例を挙げながら詳細に説明したように、本実施形態に係るビデオ会議装置では、在席状態判定部103が、カメラ8で撮影された会議室の画像から人の顔を検出して会議出席者の在席状態を判定する。そして、音声増幅加算部104が、在席状態判定部103により判定された会議出席者の在席状態に応じて、マイクユニット2が内蔵する3つのマイク21,22,23に各々接続された増幅器の増幅度を個別に設定するようにしている。したがって、本実施形態に係るビデオ会議装置によれば、例えばユーザが会議出席者の在席状態を確認しながらマイクの収音特性を調整するといった作業を不要としながら、マイクユニット2の収音特性を会議出席者の在席状態に合った最適な収音特性に設定することができ、ユーザに煩わしさを感じさせることなく、会議出席者の発話音声を的確に収音することができる。
また、本実施形態に係るビデオ会議装置によれば、在席状態判定部103による会議出席者の在席状態の判定を所定周期で繰り返し行い、会議出席者の在席状態が変化したときには、音声増幅加算部104が、変化した後の在席状態に応じて3つのマイク21,22,23に各々接続された増幅器の増幅度を更新するようにしているので、その時々の在席状態に適したマイクユニット2の収音特性を設定することができる。
また、本実施形態に係るビデオ会議装置によれば、在席状態判定部103が、カメラ8で撮影された会議室の画像から検出した人の顔の位置、大きさ、隣り合う顔位置の間の距離に基づいて会議出席者の在席状態を判定するようにしているので、会議出席者の在席状態を精度よく判定することができる。
ところで、以上説明した本実施形態に係るビデオ会議装置では、カメラ8が設けられた装置本体1からマイクユニット2を引き出して使用するようになっているため、マイクユニット2が正しい向き(マイク22の収音方向A2がカメラ8の光軸と略一致する向き)に置かれていないと、マイクユニット2が内蔵する3つのマイク21,22,23の収音方向A1,A2,A3とカメラ8で撮影した画像との関係が変わるため、会議出席者の在席状態に合った最適な収音特性の設定が難しくなることが想定される。カメラユニット2のカバー25には、上述したように、カメラユニット2が内蔵する3つのマイク21,22,23の収音方向を明示する矢印のマーカ26が設けられているので、ユーザがこのマーカ26を目安としてマイクユニット2を正しい向きで置くことが期待されるが、必ずしも正しい向きで置かれるとは限らない。
そこで、在席状態判定部103は、カメラ8で撮影された会議室の画像から、人の顔とともにカメラユニット2のカバー25に設けられたマーカ26を検出し、検出した人の顔とマーカ26の矢印の向きから、会議出席者の在席状態と3つのマイク21,22,23の収音方向との関係を判定するようにしてもよい。そして、音声増幅加算部104が、在席状態判定部103により判定された会議出席者の在席状態と3つのマイク21,22,23の収音方向との関係に応じて、3つのマイク21,22,23に各々接続された増幅器の増幅度を個別に設定するようにしてもよい。これにより、マイクユニット2が正しい向きで置かれていない場合であっても、マイクユニット2の収音特性を会議出席者の在席状態に合った最適な収音特性に設定することができ、会議出席者の発話音声を的確に収音することができる。
以上、本発明の一適用例としての実施形態を具体的に説明したが、本発明は、上記の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で様々な変形や変更を加えて具体化することができる。例えば、上記の実施形態では、会議出席者の発話音声を集音するマイクの数を3つとしているが、マイクの数は任意の数とすることができる。また、上記の実施形態では、3つのマイク21,22,23を内蔵するマイクユニット2を装置本体3から引き出して使用するようにしているが、装置本体1に複数のマイクをそれぞれの収音方向が異なるように組み込んで、これら装置本体1に組み込まれた複数のマイクで会議出席者の発話音声を集音するようにしてもよい。