JP5418327B2

JP5418327B2 - ビデオ会議装置

Info

Publication number: JP5418327B2
Application number: JP2010059908A
Authority: JP
Inventors: 弘文阪上
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2010-03-16
Filing date: 2010-03-16
Publication date: 2014-02-19
Anticipated expiration: 2030-03-16
Also published as: JP2011193392A

Description

本発明は、会議出席者の画像や発話音声を送受信して、地理的に離れた複数の空間での会議を行うためのビデオ会議装置に関する。

従来、カメラやマイクを用いて取得した会議出席者の画像や発話音声を通信ネットワークを介して遠隔地に送信するとともに、遠隔地から通信ネットワークを介して送信された画像や音声を受信して出力することで、地理的に離れた複数の空間で会議を行えるようにするビデオ会議装置が知られている。

この種のビデオ会議装置では、円滑な会議を実現する上で、会議出席者の発話音声をマイクで的確に収音し、遠隔地に送信することが重要である。会議出席者の発話音声をマイクで的確に収音する技術としては、例えば特許文献１に記載された技術が知られている。特許文献１に記載のビデオ会議装置は、想定される会議出席者の配置パターンとこれに対応するマイクの収音特性とを予め複数登録しておき、ユーザ（会議出席者）が、登録されている会議出席者の配置パターンの中から実際の会議出席者の配置に近い配置パターンをリモコン操作により選ぶことで、実際の会議出席者の配置に適したマイクの収音特性を設定できるようにしている。

しかしながら、特許文献１に記載のビデオ会議装置では、実際の会議出席者の配置に適したマイクの収音特性を設定するには、ユーザがその会議室の会議出席者の配置を目で見て確認し、登録されている配置パターンの中から会議出席者の配置に近いパターンを選ぶという操作が必要であり、ユーザに煩わしさを感じさせてしまうという問題があった。

本発明は、上記に鑑みてなされたものであって、ユーザの操作によらずに会議出席者の配置に対応した適切なマイクの収音特性を自動で設定し、会議出席者の発話音声を的確に収音することができるビデオ会議装置を提供することを目的としている。

上述した課題を解決し、目的を達成するために、本発明に係るビデオ会議装置は、画像を撮影するカメラと、前記カメラで撮影された画像から人の顔を検出して、前記カメラの撮影エリアに存在する人の配置を判定する判定手段と、収音方向が互いに異なる複数のマイクと、前記判定手段により判定された人の配置に応じて前記複数のマイクからそれぞれ入力される音声を個別に増幅して加算する音声増幅加算手段と、前記カメラで撮影された画像と前記音声増幅加算手段で増幅及び加算された音声とを送信する送信手段と、を備えることを特徴とする。

本発明によれば、カメラで撮影した画像をもとに人の配置を判定し、判定した人の配置に応じて複数のマイクから入力される音声を個別に増幅して加算するので、ユーザの操作によらずに会議出席者の配置に対応した適切なマイクの収音特性を自動で設定して、会議出席者の発話音声を的確に収音することができるという効果を奏する。

図１は、ビデオ会議装置の外観を示す斜視図である。図２は、ビデオ会議装置が備えるマイクユニットの詳細を示す図である。図３は、ビデオ会議装置の電気的な回路構成を示すブロック図である。図４は、会議室における会議机やイス、プロジェクタの配置の一例を示す図である。図５は、会議室における会議机やイス、プロジェクタの配置の他の例を示す図である。図６は、会議室における会議机やイス、プロジェクタの配置のさらに他の例を示す図である。図７は、図４に示した配置例において会議の途中で２名が退席したときの状態を示す図である。図８は、図４〜図７に例示した会議室の会議出席者の在席状態をビデオ会議装置のカメラで撮影したときの画像例を示す図である。図９は、図８に例示した画像から人の顔を検出したときの検出結果を示す図である。図１０は、会議出席者の在席状態に合わせたマイクユニットの収音特性を設定する一連の処理を示すフローチャートである。

以下に添付図面を参照して、この発明に係るビデオ会議装置の最良な実施の形態を詳細に説明する。

図１は、本実施形態に係るビデオ会議装置の外観を示す斜視図である。本実施形態に係るビデオ会議装置は、持ち運び容易に構成された可搬型のビデオ会議装置であり、装置本体１と、装置本体１に対して引き出し可能なマイクユニット２及びワイヤレスリモコン３を備える。

装置本体１には、主電源スイッチ４、スライド式スピーカ音量調整つまみ５、赤外線受光部６、スピーカ７、カメラ８、画像出力端子９、ネットワーク接続端子１０がそれぞれ設けられている。

主電源スイッチ４は、当該ビデオ会議装置（以下、自装置という。）の電源投入と遮断を行うためにユーザにより操作されるスイッチである。スライド式スピーカ音量調整つまみ５は、スピーカ７が出力する音量を調整するためにユーザにより操作されるつまみである。このスライド式スピーカ音量調整つまみ５は、スライド式であるため、回転式のつまみと比較して、現状の音量が目で見て分かり易いという利点がある。

赤外線受光部６は、ユーザの操作に応じてワイヤレスリモコン３から発光される赤外線を受光し、ユーザのリモコン操作に対応した受光信号を出力する。スピーカ７は、遠隔地の会議室で収音された音声を出力する。また、カメラ８は、自装置が設置された会議室の画像を撮影して画像信号を出力する。

画像出力端子９は、遠隔地の会議室で撮影された画像と、自装置のカメラ８で撮影された会議室の画像、自装置を操作するためのメニュー画像を、外部の市販商品であるプロジェクタ１１やテレビモニタに表示するための端子である。本実施形態に係るビデオ会議装置は装置本体１に画像表示手段を持たず、会議室に設置されているプロジェクタ１１やテレビモニタを使用して画像を表示する構成である。画像出力端子９は、ディスプレイケーブル１２を介して、会議室に設置されているプロジェクタ１１やテレビモニタに接続される。会議室にプロジェクタ１１やテレビモニタがない場合は、ユーザがビデオ会議装置とともにプロジェクタ１１やテレビモニタを会議室に持ち込んで接続すればよい。

ネットワーク接続端子１０は、ビデオ会議を行うために、自装置を構内ＬＡＮ（Local Area Network）やインターネットなどの通信ネットワークと接続するための端子である。ネットワーク接続端子１０は、ネットワークケーブル１３を介して、会議室に設けられているネットワーク端子に接続される。なお、自装置の電源は、会議室に設けられているコンセントから電源コードを介して装置本体１に供給されるが、図１では電源コードの図示を省略している。

また、装置本体１には、自装置を持ち運びするときにワイヤレスリモコン３を収納するためのワイヤレスリモコン入れ１４や、マイクユニット２を収納するためのマイク入れ１５が設けられている。これらワイヤレスリモコン入れ１４やマイク入れ１５は、装置本体１に対して回動可能に取り付けられた扉１６によって開閉される。

また、装置本体１には、自装置の持ち運びを容易にするための取っ手１７が取り付けられている。この取っ手１７は、装置本体１側に倒すことが可能であり、自装置の使用時にはこの取っ手１７を倒すことで、主電源スイッチ４やスライド式スピーカ音量調整つまみ５を操作しやすくすることができる。

マイクユニット２は、会議出席者の発言音声を収音するものであり、マイクケーブル１８によって装置本体１に接続され、装置本体１に対して引き出し可能とされている。このマイクユニット２は、自装置を持ち運びするときは、マイクケーブル１８とともに装置本体１のマイク入れ１５に収納され、会議で使用する際に、マイク入れ１５から引き出して、できるだけ会議出席者の近くになるように会議机の上に置かれる。このマイクユニット２の詳細は後述する。

ワイヤレスリモコン３は、自装置を操作するためのリモコンであり、ユーザ操作に応じて赤外線を発光する赤外線発光部を有している。このワイヤレスリモコン３は、自装置を持ち運びするときは、装置本体１のワイヤレスリモコン入れ１４に収納され、使用時にワイヤレスリモコン入れ１４から取り出される。

以上のように構成されるビデオ会議装置の使用方法は、以下の通りである。ユーザは、ビデオ会議装置を使用しないときは、主電源スイッチ４を切り、電源プラグをコンセントから抜き、ディスプレイケーブル１２とネットワークケーブル１３を外し、ワイヤレスリモコン３をワイヤレスリモコン入れ１４に入れ、マイクユニット２をマイクケーブル１８とともにマイク入れ１５に入れ、扉１６を閉じる。ネットワークケーブル１３は会議室のネットワーク接続端子に接続したまま、ディスプレイケーブル１２はプロジェクタに接続したまま、プロジェクタ１１とともに会議室に置き放しにすることが多いので、ユーザは、ビデオ会議装置のみを会議室から運び出し、オフィスの共有棚等に保管する。

ビデオ会議装置を使ってビデオ会議を行うときは、ユーザは、保管されていたビデオ装置を会議室へ持ち運び、扉１６を開けて、ワイヤレスリモコン３とマイクユニット２を取り出す。また、会議室に置いてあるネットワークケーブル１３をネットワーク接続端子１０に、ディスプレイケーブル１２を画像出力端子９にそれぞれ接続する。そして、主電源スイッチ４を入れ、ワイヤレスリモコン３を操作して、遠隔地の会議室とのビデオ会議を開催する。

図２は、本実施形態に係るビデオ会議装置が備えるマイクユニット２の詳細を示す図である。マイクユニット２は、マイク筐体の内部に複数（本実施形態では３つ）のマイク２１，２２，２３が、互いの収音方向が異なるように内蔵された構成である。各マイク２１，２２，２３は、単一指向性のマイクであり、図２（ａ）に示すように、高感度が得られる収音方向（マイク正面の方向）Ａ１，Ａ２，Ａ３が互いに異なる方向となるように、マイク筐体の内部に配置されている。

具体的には、３つのマイク２１，２２，２３は、図２（ｂ）に示すように、マイク正面の向きが互いに異なるようにユニットベース２４上に配置されて固定される。そして、これらマイク２１，２２，２３が固定されたユニットベース２４上に、網目状のカバー２５が取り付けられる。これらユニットベース２４とカバー２５とにより、マイク筐体が構成されている。また、カバー２５には、３つのマイク２１，２２，２３の収音方向を明示する矢印のマーカ２６が設けられており、ユーザがマイクユニット２を会議机の上に置くときの目安となるようにしている。

以上のように収音方向が互いに異なる３つのマイク２１，２２，２３を内蔵するマイクユニット２は、各マイク２１，２２，２３の出力信号をそれぞれ個別の増幅器に入力し、その増幅度を変化させて加算することにより、収音特性を変化させることができる。

図３は、本実施形態に係るビデオ会議装置の電気的な回路構成を示すブロック図である。本実施形態に係るビデオ会議装置は、画像用アナログ・デジタル変換部１０１、画像圧縮部１０２、在席状態判定部１０３、音声増幅加算部１０４、音声用アナログ・デジタル変換部１０５、エコーキャンセル部１０６、音声圧縮部１０７、データ送信部１０８、ネットワークインターフェース部１０９、データ受信部１１０、音声伸張部１１１、音声用デジタル・アナログ変換部１１２、画像伸張部１１３、画像混合切換部１１４、画像用デジタル・アナログ変換部１１５、リモコンインターフェース部１１６、制御部１１７を備える。

画像用アナログ・デジタル変換部１０１は、カメラ８が出力するアナログ画像信号をデジタルデータに変換し、送信画像データとして画像圧縮部１０２及び画像混合切換部１１４に出力する。また、画像用アナログ・デジタル変換部１０１でデジタルデータに変換された画像データは、在席状態判定部１０３にも出力される。画像圧縮部１０２は、画像用アナログ・デジタル変換部１０１が出力する送信画像データを圧縮する。

在席状態判定部１０３は、デジタルデータに変換されたカメラ８の撮影画像、つまりビデオ会議装置が設置された会議室の画像（動画）から１枚の静止画を入力し、この静止画から人の顔を検出する処理を行う。そして、在席状態判定部１０３は、静止画から検出した人の顔の位置と、大きさと、隣り合う顔位置の間の距離とに基づいて、カメラ８の撮影エリアにおける人の配置、つまり、会議室における会議出席者の在席状態を判定し、在席状態に応じてマイクユニット２の３つのマイク２１，２２，２３それぞれの増幅度を設定する信号を音声増幅加算部１０４に出力する。この在席状態判定部１０３による処理の具体例については、詳細を後述する。

音声増幅加算部１０４は、マイクユニット２の３つのマイク２１，２２，２３に対応した３つの信号増幅器と信号加算器とを有し、３つのマイク２１，２２，２３の出力信号を、設定した増幅度で個別に増幅して加算し、音声用アナログ・デジタル変換部１０５に出力する。ここで、音声増幅加算部１０４は、在席状態判定部１０３からの信号に従って、３つのマイク２１，２２，２３それぞれの出力信号の増幅度を、カメラ８の撮影エリアにおける人の配置、つまり、会議室における会議出席者の在席状態に応じて設定する。具体的には、会議出席者が在席している方向に向いているマイクの出力信号の増幅度を大きくし、会議出席者が在席していない方向に向いているマイクの出力信号の増幅度を小さくする。このように、音声増幅加算部１０４は、会議出席者の在席状態に応じてマイクユニット２の収音特性を変化させる機能を有している。

音声用アナログ・デジタル変換部１０５は、音声増幅加算部１０４が出力するアナログ音声信号をデジタルデータに変換し、エコーキャンセル部１０６に出力する。エコーキャンセル部１０６は、音声伸張部１１１から受話音データとして入力される音声データに基づき、音声用アナログ・デジタル変換部１０５が出力する音声データから、エコー成分、つまり、スピーカ７からマイク２１，２２，２３に入った出力音声を除去し、送話音データとして音声圧縮部１０７に出力する。音声圧縮部１０７は、エコーキャンセル部１０６によりエコー成分が除去された送話音データを圧縮する。

データ送信部１０８は、画像圧縮部１０２により圧縮された送信画像データと音声圧縮部１０７により圧縮された送話音データを、ネットワーク送信用データに変換してネットワークインターフェース部１０９に出力する。ネットワークインターフェース部１０９は、データ送信部１０８が出力するネットワーク送信用データをネットワークに送信するとともに、ネットワークから受信データを受信してデータ受信部１１０に出力する。なお、本実施形態では有線の通信ネットワークを用いることを想定しているが、無線通信ネットワークを利用するようにしてもよい。

データ受信部１１０は、ネットワークインターフェース部１０９が受信したネットワークデータを圧縮音声データと圧縮画像データとに分離し、圧縮音声データを音声伸張部１１１に出力し、圧縮画像データを画像伸張部１１３に出力する。

音声伸張部１１１は、データ受信部１１０からの圧縮音声データを伸張し、受話音データとしてエコーキャンセル部１０６を介して音声用アナログ・デジタル変換部１１２に出力する。音声用デジタル・アナログ変換部１１２は、音声伸張部１１１により伸張された受話音データをアナログ信号に変換し、スピーカ７に出力する。これにより、スピーカ７から、遠隔地の会議室で収音された音声が出力される。なお、音声用デジタル・アナログ変換部１１２は、スピーカ７から出力される音声の音量調整の機能も有している。

画像伸張部１１３は、データ受信部１１０からの圧縮画像データを伸張し、受信画像データとして画像混合切換部１１４に出力する。画像混合切換部１１４は、画像用アナログ・デジタル変換部１０１からの送信画像データと、画像伸張部１１３からの受信画像データとを入力し、ユーザによるワイヤレスリモコン３のボタン操作に応じて制御部１１７から出力される指令に従って、それぞれを混合したり、どれかを表示しないように切換えたりして、表示用の画像データを生成し、画像用アナログ・デジタル変換部１１５に出力する。画像用デジタル・アナログ変換部１１５は、画像混合切換部１１４で生成された表示用画像データをアナログ画像信号に変換し、画像出力端子９に出力する。これにより、画像出力端子９にプロジェクタ１１が接続されていれば、プロジェクタ１１によりホワイトボードなどに表示画像が投影され、表示される。

リモコンインターフェース部１１６は、赤外線受光部６の出力信号を、ワイヤレスリモコン３でユーザが操作したボタンの識別データに変換して、制御部１１７に出力する。制御部１１７は、本実施形態に係るビデオ会議装置の全体の動作制御と、ワイヤレスリモコン３のボタン操作に応じた動作制御を行う。

本実施形態に係るビデオ会議装置は、以上の構成を備えることで、ビデオ会議装置として必要な画像と音声の送受信を行うことができる。送信については、カメラ８で撮影した画像を圧縮するとともに、マイク２１，２２，２３で収音したエコーキャンセル済みの送話音を圧縮し、それぞれの圧縮データをネットワーク経由で相手側に送信する。受信については、相手側から送られた圧縮された受信画像データと、圧縮された受話音データをそれぞれ伸張し、画像出力端子９とスピーカ７から出力する。

ここで、特に本実施形態に係るビデオ会議装置では、カメラ８で撮影した画像、つまり、自装置が設置された会議室の画像を用いて、在席状態判定部１０３により、会議出席者の在席状態を判定し、音声増幅加算部１０４で３つのマイク２１，２２，２３の増幅度を会議出席者の在席状態に応じて個別に設定して、会議出席者の在席状態に適したマイクユニット２の収音特性を自動で設定するようにしている。これにより、例えばユーザが会議出席者の在席状態を確認しながらマイクの収音特性を調整するといった作業は不要となり、ユーザに煩わしさを感じさせることなく、会議出席者の発話音声を的確に収音することができる。

次に、会議室での会議出席者の在席状態の具体例を例示しながら、本実施形態に係るビデオ会議装置によるマイクユニット２の収音特性の設定について、さらに詳しく説明する。

通常の会議室には、会議机と会議出席者用イスが置かれ、ホワイトボードが置かれることもある。また、ノートパソコンを使って会議資料をプロジェクタで投影し、紙の資料を配布しない会議も多くなっているので、プロジェクタが常設されることも多い。

図４は、このような会議室における会議机やイス、プロジェクタ１１の配置の一例を示す図である。この図４に示すような会議室で本実施形態に係るビデオ装置を使ってビデオ会議を行うときは、ビデオ会議装置の装置本体１を会議机の端に置き、その反対側に会議出席者が並ぶ。したがってビデオ会議装置のカメラ８は、この状態で全出席者が撮影できるように、適切な画角のカメラが用いられる。また、マイクユニット２は、装置本体１から引き出されて、会議出席者に近づけて会議机に置かれることになる。このとき、ビデオ会議装置のスピーカ７は相手側の会議室の発言音声（受話音）を出力する。この音声がマイクユニット２で収音されて相手側に伝わると、相手側では、自分の発言が時間遅れを伴って自分に聞こえる現象、いわゆるエコーが発生し、会話がしづらくなる。そこで、ビデオ会議装置には、上述したように、電気的な音声信号処理によりスピーカ７からマイクユニット２に入ったエコー成分を除去するエコーキャンセル部１０６が設けられている。プロジェクタ１１は、ホワイトボードや壁に画像を投影できるように、会議机に置かれる。

図４に示す配置例の場合、会議出席者の座席配置とマイクユニット２との位置関係は、マイクユニット２の正面側（図２（ａ）に示すマイク２２の収音方向Ａ２）に在席する２人はマイクユニット２から離れており、マイクユニット２の右側（図２（ａ）に示すマイク２１の収音方向Ａ１）及び左側（図２（ａ）に示すマイク２３の収音方向Ａ３）に在席する２人はマイクユニット２に近くなっている。したがって、図４に示す配置例の場合には、マイクユニット２に内蔵された３つのマイク２１，２２，２３のうち、マイク２２に接続された増幅器の増幅度は大きくし、マイク２１とマイク２３に接続された増幅器の増幅度は、マイク２２に接続された増幅器の増幅度よりも小さくすることで、会議出席者全員の発話音声をバランスよく収音できる。

図５は、会議室における会議机やイス、プロジェクタ１１の配置の他の例を示す図である。ビデオ会議を行う場合、図５に示すように会議出席者が一列に並んだ座席配置にすることも多い。この場合、プロジェクタ台にビデオ会議装置の装置本体１とプロジェクタ１１を置き、装置本体１から引き出したマイクユニット２を会議机に置く。ビデオ会議装置のスピーカ７からは相手側の会議室の会話音声が出力されるが、この出力音声は可能な限りマイクユニット２に入らない方がエコーキャンセルの効果が高くなる。そのため、マイクユニット２とスピーカ７は離す方がよいので、このようなマイクユニット２と装置本体１の配置にする。

図５に示す配置例の場合、会議出席者の座席配置とマイクユニット２との位置関係は、会議机の中央に在籍する２人はマイクユニット２に近く、会議机の両端に在席する２人はマイクユニット２から離れている。したがって、図５に示す配置例の場合には、マイクユニット２に内蔵された３つのマイク２１，２２，２３のうち、マイク２２に接続された増幅器の増幅度は小さくし、マイク２１とマイク２３に接続された増幅器の増幅度は、マイク２２に接続された増幅器の増幅度よりも大きくすることで、会議出席者全員の発話音声をバランスよく収音できる。

図６は、会議室における会議机やイス、プロジェクタ１１の配置のさらに他の例を示す図である。ビデオ会議を行う場合、会議出席者の人数が多いと、図６に示すように会議机をコの字型に配置することも多い。この場合、プロジェクタ台にビデオ会議装置の装置本体１とプロジェクタ１１を置き、装置本体１から引き出したマイクユニット２をできるだけ会議出席者の中央に置く。

図６に示す配置例の場合、会議出席者の座席配置とマイクユニット２との位置関係は、会議出席者のほぼ全員がマイクユニット２から同じ距離に配置される。したがって、マイクユニット２に内蔵された３つのマイク２１，２２，２３に接続された各増幅器の増幅度は同じ大きさにし、かつできるだけ大きくすることで、全会議出席者の発話音声をバランスよく収音できる。

図７は、図４に示した配置例において、会議の途中で２名が退席したときの状態を示している。この場合、退席した２人の方向からの収音は不要であるばかりか、この方向から収音すると部屋の反響音等の雑音を収音してしまって音声が聞き取りづらくなる。したがって、このような場合には、マイクユニット２に内蔵された３つのマイク２１，２２，２３のうち、マイク２３（退席した２人の方向に正面が向いているマイク）に接続された増幅器の増幅度は０（ゼロ）にすることが望ましい。

図８は、図４〜図７に例示した会議室の会議出席者の在席状態をビデオ会議装置のカメラ８で撮影したときの画像例を示す図であり、（ａ）は図４に示した会議室で６人の会議出席者が在席している場合の画像例、（ｂ）は図５に示した会議室で４人の会議出席者が在席している場合の画像例、（ｃ）は図６に示した会議室で８人の会議出席者が在席している場合の画像例、（ｄ）は図７に示した会議室で４人の会議出席者が在席している場合の画像例をそれぞれ示している。本実施形態に係るビデオ会議装置では、上述したように、在席状態判定部１０３が、これら図８（ａ）〜図８（ｄ）に示すようなカメラ８で撮影された画像から人の顔を検出する処理を行い、検出した人の顔の位置と、大きさと、隣り合う顔位置の間の距離とに基づいて、カメラ８の撮影エリアにおける人の配置、つまり、会議室における会議出席者の在席状態を判定するようにしている。

画像から顔を検出する技術は、例えば「”デジタルカメラ向け顔画像処理技術”オムロンＫＥＣ情報，Ｎｏ．２１０，２００９．ＪＵＬ，Ｐ．１６−２２」などに記載されているように、広く知られている技術である。在席状態判定部１０３による画像からの人の顔の検出は、このような周知の顔検出技術を用いて行えばよい。

図９は、図８に例示した画像から人の顔を検出したときの検出結果を示す図であり、（ａ）は図８（ａ）に示した画像から人の顔を検出した結果を示し、（ｂ）は図８（ｂ）に示した画像から人の顔を検出した結果を示し、（ｃ）は図８（ｃ）に示した画像から人の顔を検出した結果を示し、（ｄ）は図８（ｄ）に示した画像から人の顔を検出した結果を示している。なお、図中の太線で示す矩形の枠で囲まれた部分が、人の顔として検出された領域を示している。在席状態判定部１０３は、これら図９（ａ）〜図９（ｄ）に示した顔検出の結果から、検出した人の顔の位置と、大きさと、隣り合う顔位置の間の距離とに基づいて、会議室における会議出席者の在席状態を判定する。

具体的には、図９（ａ）に示す例では、６人の会議出席者の顔が検出されており、そのうち中央の２人の顔の大きさがほぼ同じで小さく、画像の両端に位置する顔ほど大きくなっている。また、画像の両端の２人の顔は、それぞれ隣に位置する顔に近い位置で検出されており、それと比較して中央の２人の顔の間の距離は大きくなっている。このような顔の位置と、大きさと、隣り合う顔位置の間の距離との関係から、会議出席者の在席状態が図４に例示した在席状態であると判定できる。

また、図９（ｂ）に示す例では、４人の会議出席者の顔が検出されており、これら４人の顔の大きさがほぼ同じで、隣り合う顔間の距離がほぼ等しくなっている。このような顔の位置と、大きさと、隣り合う顔位置の間の距離との関係から、会議出席者の在席状態が図５に例示した在席状態であると判定できる。

また、図９（ｃ）に示す例では、８人の会議出席者の顔が検出されており、そのうち中央の４人の顔の大きさがほぼ同じで小さく、画像の両端に位置する顔ほど大きくなっている。また、画像の両端の２人の顔は、それぞれ隣に位置する顔に近い位置で検出されており、それと比較して中央の４人の顔は、隣に位置する顔との距離が大きくなっている。また、中央の４人の顔間の距離はほぼ等しくなっている。このような顔の位置と、大きさと、隣り合う顔位置の間の距離との関係から、会議出席者の在席状態が図６に例示した在席状態であると判定できる。

また、図９（ｄ）に示す例では、４人の会議出席者の顔が検出されており、そのうち中央の２人の顔の大きさがほぼ同じで小さく、画像の右端に位置する顔ほど大きくなっている。また、画像の右端の２人の顔の距離は小さく、それと比較して中央の２人の顔の間の距離は大きくなっている。なお、画像の左端には顔が検出されていない。このような顔の位置と、大きさと、隣り合う顔位置の間の距離との関係から、会議出席者の在席状態が図７に例示した在席状態であると判定できる。

本実施形態に係るビデオ会議装置では、以上のように、在席状態判定部１０３が、カメラ８で撮影された画像から検出した人の顔の位置と、大きさと、隣り合う顔位置の間の距離とに基づいて、会議室における会議出席者の在席状態を判定する。そして、この在席状態判定部１０３により判定された会議出席者の在席状態に応じて、音声増幅加算部１０４が、マイクユニット２に内蔵された３つのマイク２１，２２，２３に各々接続された増幅器の増幅度を個別に設定し、各増幅器の出力を加算して音声信号として出力する。これにより、マイクユニット２の収音特性を会議出席者の在席状態に合った最適な状態に設定して、会議出席者の発話音声を的確に収音することができる。

図１０は、本実施形態に係るビデオ会議装置において、会議出席者の在席状態に合わせたマイクユニット２の収音特性を設定する一連の処理を示すフローチャートである。以下、この図１０のフローチャートに沿って動作を説明する。

ビデオ会議装置が会議室に持ち込まれ、ディスプレイケーブル１２の接続、ネットワークケーブル１３の接続、電源コードの接続などの準備が終了して、主電源スイッチ４がオンされると、まず、制御部１１７による制御のもとで会議開始処理が行われる（ステップＳ１０１）。この会議開始処理は、自装置をネットワーク経由で遠隔地のビデオ会議装置に接続し、双方向の通信リンクを確立して画像と音声を送受信する処理である。このとき、音声増幅加算部１０４における各増幅器の増幅度は所定の初期値（例えば、３つの増幅器とも同じ増幅度）に設定する。

次に、在席状態判定部１０３が、カメラ８で撮影された会議室の画像（動画）から、１枚の画像を抽出する（ステップＳ１０２）。そして、在席状態判定部１０３は、抽出した画像から人の顔を検出する処理を行い（ステップＳ１０３）、検出した人の顔の位置、大きさ、隣り合う顔位置の間の距離に基づいて、会議出席者の在席状態を判定し（ステップＳ１０４）、在席状態に応じてマイクユニット２の３つのマイク２１，２２，２３それぞれの増幅度を設定する信号を音声増幅加算部１０４に出力する。

次に、音声増幅加算部１０４が、在席状態判定部１０３からの信号に従って、マイクユニット２の３つのマイク２１，２２，２３に各々接続された３つの増幅器の増幅度を、会議出席者の在席状態に応じて設定する（ステップ１０５）。

その後、予め定めた所定時間（例えば、３分間、５分間など）が経過するまでの間、３つの増幅器の増幅度をステップＳ１０５で設定した増幅度に維持したまま待機する（ステップＳ１０６）。なお、この間もビデオ会議装置としての通常の動作は継続され、遠隔地の会議室との間での画像や音声の送受信は継続されている。そして、所定時間が経過したら、ビデオ会議動作が終了したかどうかを判断し（ステップＳ１０７）、ビデオ会議動作が終了していれば（ステップＳ１０７：Ｙｅｓ）、図１０に示す処理フローを終了する。なお、ステップ１０６の所定時間の待機中にビデオ会議動作が終了した場合、ビデオ会議動作が終了した時点で割り込み処理により、図１０に示す処理フローを終了させるようにしてもよい。

一方、所定時間が経過した段階で会議が終了しておらず、ビデオ会議動作が続行されていれば（ステップＳ１０７：Ｎｏ）、ステップＳ１０２に戻って、再び画像抽出から処理を繰り返す。これにより、会議中の会議出席者の退席などによって会議出席者の在席状態が変化したときには、変化した後の在席状態に応じて３つの増幅器の増幅度を更新することができ、その時々の在席状態に適したマイクユニット２の収音特性を設定することができる。

以上、具体的な例を挙げながら詳細に説明したように、本実施形態に係るビデオ会議装置では、在席状態判定部１０３が、カメラ８で撮影された会議室の画像から人の顔を検出して会議出席者の在席状態を判定する。そして、音声増幅加算部１０４が、在席状態判定部１０３により判定された会議出席者の在席状態に応じて、マイクユニット２が内蔵する３つのマイク２１，２２，２３に各々接続された増幅器の増幅度を個別に設定するようにしている。したがって、本実施形態に係るビデオ会議装置によれば、例えばユーザが会議出席者の在席状態を確認しながらマイクの収音特性を調整するといった作業を不要としながら、マイクユニット２の収音特性を会議出席者の在席状態に合った最適な収音特性に設定することができ、ユーザに煩わしさを感じさせることなく、会議出席者の発話音声を的確に収音することができる。

また、本実施形態に係るビデオ会議装置によれば、在席状態判定部１０３による会議出席者の在席状態の判定を所定周期で繰り返し行い、会議出席者の在席状態が変化したときには、音声増幅加算部１０４が、変化した後の在席状態に応じて３つのマイク２１，２２，２３に各々接続された増幅器の増幅度を更新するようにしているので、その時々の在席状態に適したマイクユニット２の収音特性を設定することができる。

また、本実施形態に係るビデオ会議装置によれば、在席状態判定部１０３が、カメラ８で撮影された会議室の画像から検出した人の顔の位置、大きさ、隣り合う顔位置の間の距離に基づいて会議出席者の在席状態を判定するようにしているので、会議出席者の在席状態を精度よく判定することができる。

ところで、以上説明した本実施形態に係るビデオ会議装置では、カメラ８が設けられた装置本体１からマイクユニット２を引き出して使用するようになっているため、マイクユニット２が正しい向き（マイク２２の収音方向Ａ２がカメラ８の光軸と略一致する向き）に置かれていないと、マイクユニット２が内蔵する３つのマイク２１，２２，２３の収音方向Ａ１，Ａ２，Ａ３とカメラ８で撮影した画像との関係が変わるため、会議出席者の在席状態に合った最適な収音特性の設定が難しくなることが想定される。カメラユニット２のカバー２５には、上述したように、カメラユニット２が内蔵する３つのマイク２１，２２，２３の収音方向を明示する矢印のマーカ２６が設けられているので、ユーザがこのマーカ２６を目安としてマイクユニット２を正しい向きで置くことが期待されるが、必ずしも正しい向きで置かれるとは限らない。

そこで、在席状態判定部１０３は、カメラ８で撮影された会議室の画像から、人の顔とともにカメラユニット２のカバー２５に設けられたマーカ２６を検出し、検出した人の顔とマーカ２６の矢印の向きから、会議出席者の在席状態と３つのマイク２１，２２，２３の収音方向との関係を判定するようにしてもよい。そして、音声増幅加算部１０４が、在席状態判定部１０３により判定された会議出席者の在席状態と３つのマイク２１，２２，２３の収音方向との関係に応じて、３つのマイク２１，２２，２３に各々接続された増幅器の増幅度を個別に設定するようにしてもよい。これにより、マイクユニット２が正しい向きで置かれていない場合であっても、マイクユニット２の収音特性を会議出席者の在席状態に合った最適な収音特性に設定することができ、会議出席者の発話音声を的確に収音することができる。

以上、本発明の一適用例としての実施形態を具体的に説明したが、本発明は、上記の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で様々な変形や変更を加えて具体化することができる。例えば、上記の実施形態では、会議出席者の発話音声を集音するマイクの数を３つとしているが、マイクの数は任意の数とすることができる。また、上記の実施形態では、３つのマイク２１，２２，２３を内蔵するマイクユニット２を装置本体３から引き出して使用するようにしているが、装置本体１に複数のマイクをそれぞれの収音方向が異なるように組み込んで、これら装置本体１に組み込まれた複数のマイクで会議出席者の発話音声を集音するようにしてもよい。

１装置本体
２マイクユニット
８カメラ
２１，２２，２３カメラ
２６マーカ
１０３在席状態判定部
１０４音声増幅加算部
１０８データ送信部

特開２００７−２７４４６３号公報

Claims

画像を撮影するカメラと、
前記カメラで撮影された画像から人の顔を検出して、前記カメラの撮影エリアに存在する人の配置を判定する判定手段と、
収音方向が互いに異なる複数のマイクと、
前記判定手段により判定された人の配置に応じて前記複数のマイクからそれぞれ入力される音声を個別に増幅して加算する音声増幅加算手段と、
前記カメラで撮影された画像と前記音声増幅加算手段で増幅及び加算された音声とを送信する送信手段と、を備えることを特徴とするビデオ会議装置。
前記音声増幅加算手段は、前記複数のマイクのうち、人のいる方向を収音方向とするマイクから入力される音声の増幅度を大きくし、人のいない方向を収音方向とするマイクから入力される音声の増幅度を小さくすることを特徴とする請求項１に記載のビデオ会議装置。
前記判定手段は、前記カメラの撮影エリアに存在する人の配置を所定周期で繰り返し判定し、
前記音声増幅加算手段は、前記判定手段により判定された人の配置が変化したときに、変化した後の人の配置に応じて前記複数のマイクからそれぞれ入力される音声の個別の増幅度を更新することを特徴とする請求項１または２に記載のビデオ会議装置。
前記判定手段は、前記カメラで撮影された画像内における人の顔の位置と、大きさと、隣り合う顔位置の間の距離とに基づいて、前記カメラの撮影エリアに存在する人の配置を判定することを特徴とする請求項１〜３のいずれか一項に記載のビデオ会議装置。
前記カメラが取り付けられた装置本体と、
前記複数のマイクを内蔵し、前記装置本体に対して引き出し可能に構成されたマイク筐体と、
前記マイク筐体に設けられ、前記複数のマイクそれぞれの収音方向を明示するマーカと、をさらに備え、
前記判定手段は、前記カメラで撮影された画像から人の顔及び前記マーカを検出して、前記カメラの撮影エリアに存在する人の配置と前記複数のマイクの収音方向との関係を判定し、
前記音声増幅加算手段は、前記判定手段により判定された人の配置と前記複数のマイクの収音方向との関係に応じて、前記複数のマイクからそれぞれ入力される音声の個別の増幅度を決定することを特徴とする請求項１〜４のいずれか一項に記載のビデオ会議装置。