JP5418327B2 - ビデオ会議装置 - Google Patents

ビデオ会議装置 Download PDF

Info

Publication number
JP5418327B2
JP5418327B2 JP2010059908A JP2010059908A JP5418327B2 JP 5418327 B2 JP5418327 B2 JP 5418327B2 JP 2010059908 A JP2010059908 A JP 2010059908A JP 2010059908 A JP2010059908 A JP 2010059908A JP 5418327 B2 JP5418327 B2 JP 5418327B2
Authority
JP
Japan
Prior art keywords
conference
unit
camera
microphones
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010059908A
Other languages
English (en)
Other versions
JP2011193392A (ja
Inventor
弘文 阪上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2010059908A priority Critical patent/JP5418327B2/ja
Publication of JP2011193392A publication Critical patent/JP2011193392A/ja
Application granted granted Critical
Publication of JP5418327B2 publication Critical patent/JP5418327B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、会議出席者の画像や発話音声を送受信して、地理的に離れた複数の空間での会議を行うためのビデオ会議装置に関する。
従来、カメラやマイクを用いて取得した会議出席者の画像や発話音声を通信ネットワークを介して遠隔地に送信するとともに、遠隔地から通信ネットワークを介して送信された画像や音声を受信して出力することで、地理的に離れた複数の空間で会議を行えるようにするビデオ会議装置が知られている。
この種のビデオ会議装置では、円滑な会議を実現する上で、会議出席者の発話音声をマイクで的確に収音し、遠隔地に送信することが重要である。会議出席者の発話音声をマイクで的確に収音する技術としては、例えば特許文献1に記載された技術が知られている。特許文献1に記載のビデオ会議装置は、想定される会議出席者の配置パターンとこれに対応するマイクの収音特性とを予め複数登録しておき、ユーザ(会議出席者)が、登録されている会議出席者の配置パターンの中から実際の会議出席者の配置に近い配置パターンをリモコン操作により選ぶことで、実際の会議出席者の配置に適したマイクの収音特性を設定できるようにしている。
しかしながら、特許文献1に記載のビデオ会議装置では、実際の会議出席者の配置に適したマイクの収音特性を設定するには、ユーザがその会議室の会議出席者の配置を目で見て確認し、登録されている配置パターンの中から会議出席者の配置に近いパターンを選ぶという操作が必要であり、ユーザに煩わしさを感じさせてしまうという問題があった。
本発明は、上記に鑑みてなされたものであって、ユーザの操作によらずに会議出席者の配置に対応した適切なマイクの収音特性を自動で設定し、会議出席者の発話音声を的確に収音することができるビデオ会議装置を提供することを目的としている。
上述した課題を解決し、目的を達成するために、本発明に係るビデオ会議装置は、画像を撮影するカメラと、前記カメラで撮影された画像から人の顔を検出して、前記カメラの撮影エリアに存在する人の配置を判定する判定手段と、収音方向が互いに異なる複数のマイクと、前記判定手段により判定された人の配置に応じて前記複数のマイクからそれぞれ入力される音声を個別に増幅して加算する音声増幅加算手段と、前記カメラで撮影された画像と前記音声増幅加算手段で増幅及び加算された音声とを送信する送信手段と、を備えることを特徴とする。
本発明によれば、カメラで撮影した画像をもとに人の配置を判定し、判定した人の配置に応じて複数のマイクから入力される音声を個別に増幅して加算するので、ユーザの操作によらずに会議出席者の配置に対応した適切なマイクの収音特性を自動で設定して、会議出席者の発話音声を的確に収音することができるという効果を奏する。
図1は、ビデオ会議装置の外観を示す斜視図である。 図2は、ビデオ会議装置が備えるマイクユニットの詳細を示す図である。 図3は、ビデオ会議装置の電気的な回路構成を示すブロック図である。 図4は、会議室における会議机やイス、プロジェクタの配置の一例を示す図である。 図5は、会議室における会議机やイス、プロジェクタの配置の他の例を示す図である。 図6は、会議室における会議机やイス、プロジェクタの配置のさらに他の例を示す図である。 図7は、図4に示した配置例において会議の途中で2名が退席したときの状態を示す図である。 図8は、図4〜図7に例示した会議室の会議出席者の在席状態をビデオ会議装置のカメラで撮影したときの画像例を示す図である。 図9は、図8に例示した画像から人の顔を検出したときの検出結果を示す図である。 図10は、会議出席者の在席状態に合わせたマイクユニットの収音特性を設定する一連の処理を示すフローチャートである。
以下に添付図面を参照して、この発明に係るビデオ会議装置の最良な実施の形態を詳細に説明する。
図1は、本実施形態に係るビデオ会議装置の外観を示す斜視図である。本実施形態に係るビデオ会議装置は、持ち運び容易に構成された可搬型のビデオ会議装置であり、装置本体1と、装置本体1に対して引き出し可能なマイクユニット2及びワイヤレスリモコン3を備える。
装置本体1には、主電源スイッチ4、スライド式スピーカ音量調整つまみ5、赤外線受光部6、スピーカ7、カメラ8、画像出力端子9、ネットワーク接続端子10がそれぞれ設けられている。
主電源スイッチ4は、当該ビデオ会議装置(以下、自装置という。)の電源投入と遮断を行うためにユーザにより操作されるスイッチである。スライド式スピーカ音量調整つまみ5は、スピーカ7が出力する音量を調整するためにユーザにより操作されるつまみである。このスライド式スピーカ音量調整つまみ5は、スライド式であるため、回転式のつまみと比較して、現状の音量が目で見て分かり易いという利点がある。
赤外線受光部6は、ユーザの操作に応じてワイヤレスリモコン3から発光される赤外線を受光し、ユーザのリモコン操作に対応した受光信号を出力する。スピーカ7は、遠隔地の会議室で収音された音声を出力する。また、カメラ8は、自装置が設置された会議室の画像を撮影して画像信号を出力する。
画像出力端子9は、遠隔地の会議室で撮影された画像と、自装置のカメラ8で撮影された会議室の画像、自装置を操作するためのメニュー画像を、外部の市販商品であるプロジェクタ11やテレビモニタに表示するための端子である。本実施形態に係るビデオ会議装置は装置本体1に画像表示手段を持たず、会議室に設置されているプロジェクタ11やテレビモニタを使用して画像を表示する構成である。画像出力端子9は、ディスプレイケーブル12を介して、会議室に設置されているプロジェクタ11やテレビモニタに接続される。会議室にプロジェクタ11やテレビモニタがない場合は、ユーザがビデオ会議装置とともにプロジェクタ11やテレビモニタを会議室に持ち込んで接続すればよい。
ネットワーク接続端子10は、ビデオ会議を行うために、自装置を構内LAN(Local Area Network)やインターネットなどの通信ネットワークと接続するための端子である。ネットワーク接続端子10は、ネットワークケーブル13を介して、会議室に設けられているネットワーク端子に接続される。なお、自装置の電源は、会議室に設けられているコンセントから電源コードを介して装置本体1に供給されるが、図1では電源コードの図示を省略している。
また、装置本体1には、自装置を持ち運びするときにワイヤレスリモコン3を収納するためのワイヤレスリモコン入れ14や、マイクユニット2を収納するためのマイク入れ15が設けられている。これらワイヤレスリモコン入れ14やマイク入れ15は、装置本体1に対して回動可能に取り付けられた扉16によって開閉される。
また、装置本体1には、自装置の持ち運びを容易にするための取っ手17が取り付けられている。この取っ手17は、装置本体1側に倒すことが可能であり、自装置の使用時にはこの取っ手17を倒すことで、主電源スイッチ4やスライド式スピーカ音量調整つまみ5を操作しやすくすることができる。
マイクユニット2は、会議出席者の発言音声を収音するものであり、マイクケーブル18によって装置本体1に接続され、装置本体1に対して引き出し可能とされている。このマイクユニット2は、自装置を持ち運びするときは、マイクケーブル18とともに装置本体1のマイク入れ15に収納され、会議で使用する際に、マイク入れ15から引き出して、できるだけ会議出席者の近くになるように会議机の上に置かれる。このマイクユニット2の詳細は後述する。
ワイヤレスリモコン3は、自装置を操作するためのリモコンであり、ユーザ操作に応じて赤外線を発光する赤外線発光部を有している。このワイヤレスリモコン3は、自装置を持ち運びするときは、装置本体1のワイヤレスリモコン入れ14に収納され、使用時にワイヤレスリモコン入れ14から取り出される。
以上のように構成されるビデオ会議装置の使用方法は、以下の通りである。ユーザは、ビデオ会議装置を使用しないときは、主電源スイッチ4を切り、電源プラグをコンセントから抜き、ディスプレイケーブル12とネットワークケーブル13を外し、ワイヤレスリモコン3をワイヤレスリモコン入れ14に入れ、マイクユニット2をマイクケーブル18とともにマイク入れ15に入れ、扉16を閉じる。ネットワークケーブル13は会議室のネットワーク接続端子に接続したまま、ディスプレイケーブル12はプロジェクタに接続したまま、プロジェクタ11とともに会議室に置き放しにすることが多いので、ユーザは、ビデオ会議装置のみを会議室から運び出し、オフィスの共有棚等に保管する。
ビデオ会議装置を使ってビデオ会議を行うときは、ユーザは、保管されていたビデオ装置を会議室へ持ち運び、扉16を開けて、ワイヤレスリモコン3とマイクユニット2を取り出す。また、会議室に置いてあるネットワークケーブル13をネットワーク接続端子10に、ディスプレイケーブル12を画像出力端子9にそれぞれ接続する。そして、主電源スイッチ4を入れ、ワイヤレスリモコン3を操作して、遠隔地の会議室とのビデオ会議を開催する。
図2は、本実施形態に係るビデオ会議装置が備えるマイクユニット2の詳細を示す図である。マイクユニット2は、マイク筐体の内部に複数(本実施形態では3つ)のマイク21,22,23が、互いの収音方向が異なるように内蔵された構成である。各マイク21,22,23は、単一指向性のマイクであり、図2(a)に示すように、高感度が得られる収音方向(マイク正面の方向)A1,A2,A3が互いに異なる方向となるように、マイク筐体の内部に配置されている。
具体的には、3つのマイク21,22,23は、図2(b)に示すように、マイク正面の向きが互いに異なるようにユニットベース24上に配置されて固定される。そして、これらマイク21,22,23が固定されたユニットベース24上に、網目状のカバー25が取り付けられる。これらユニットベース24とカバー25とにより、マイク筐体が構成されている。また、カバー25には、3つのマイク21,22,23の収音方向を明示する矢印のマーカ26が設けられており、ユーザがマイクユニット2を会議机の上に置くときの目安となるようにしている。
以上のように収音方向が互いに異なる3つのマイク21,22,23を内蔵するマイクユニット2は、各マイク21,22,23の出力信号をそれぞれ個別の増幅器に入力し、その増幅度を変化させて加算することにより、収音特性を変化させることができる。
図3は、本実施形態に係るビデオ会議装置の電気的な回路構成を示すブロック図である。本実施形態に係るビデオ会議装置は、画像用アナログ・デジタル変換部101、画像圧縮部102、在席状態判定部103、音声増幅加算部104、音声用アナログ・デジタル変換部105、エコーキャンセル部106、音声圧縮部107、データ送信部108、ネットワークインターフェース部109、データ受信部110、音声伸張部111、音声用デジタル・アナログ変換部112、画像伸張部113、画像混合切換部114、画像用デジタル・アナログ変換部115、リモコンインターフェース部116、制御部117を備える。
画像用アナログ・デジタル変換部101は、カメラ8が出力するアナログ画像信号をデジタルデータに変換し、送信画像データとして画像圧縮部102及び画像混合切換部114に出力する。また、画像用アナログ・デジタル変換部101でデジタルデータに変換された画像データは、在席状態判定部103にも出力される。画像圧縮部102は、画像用アナログ・デジタル変換部101が出力する送信画像データを圧縮する。
在席状態判定部103は、デジタルデータに変換されたカメラ8の撮影画像、つまりビデオ会議装置が設置された会議室の画像(動画)から1枚の静止画を入力し、この静止画から人の顔を検出する処理を行う。そして、在席状態判定部103は、静止画から検出した人の顔の位置と、大きさと、隣り合う顔位置の間の距離とに基づいて、カメラ8の撮影エリアにおける人の配置、つまり、会議室における会議出席者の在席状態を判定し、在席状態に応じてマイクユニット2の3つのマイク21,22,23それぞれの増幅度を設定する信号を音声増幅加算部104に出力する。この在席状態判定部103による処理の具体例については、詳細を後述する。
音声増幅加算部104は、マイクユニット2の3つのマイク21,22,23に対応した3つの信号増幅器と信号加算器とを有し、3つのマイク21,22,23の出力信号を、設定した増幅度で個別に増幅して加算し、音声用アナログ・デジタル変換部105に出力する。ここで、音声増幅加算部104は、在席状態判定部103からの信号に従って、3つのマイク21,22,23それぞれの出力信号の増幅度を、カメラ8の撮影エリアにおける人の配置、つまり、会議室における会議出席者の在席状態に応じて設定する。具体的には、会議出席者が在席している方向に向いているマイクの出力信号の増幅度を大きくし、会議出席者が在席していない方向に向いているマイクの出力信号の増幅度を小さくする。このように、音声増幅加算部104は、会議出席者の在席状態に応じてマイクユニット2の収音特性を変化させる機能を有している。
音声用アナログ・デジタル変換部105は、音声増幅加算部104が出力するアナログ音声信号をデジタルデータに変換し、エコーキャンセル部106に出力する。エコーキャンセル部106は、音声伸張部111から受話音データとして入力される音声データに基づき、音声用アナログ・デジタル変換部105が出力する音声データから、エコー成分、つまり、スピーカ7からマイク21,22,23に入った出力音声を除去し、送話音データとして音声圧縮部107に出力する。音声圧縮部107は、エコーキャンセル部106によりエコー成分が除去された送話音データを圧縮する。
データ送信部108は、画像圧縮部102により圧縮された送信画像データと音声圧縮部107により圧縮された送話音データを、ネットワーク送信用データに変換してネットワークインターフェース部109に出力する。ネットワークインターフェース部109は、データ送信部108が出力するネットワーク送信用データをネットワークに送信するとともに、ネットワークから受信データを受信してデータ受信部110に出力する。なお、本実施形態では有線の通信ネットワークを用いることを想定しているが、無線通信ネットワークを利用するようにしてもよい。
データ受信部110は、ネットワークインターフェース部109が受信したネットワークデータを圧縮音声データと圧縮画像データとに分離し、圧縮音声データを音声伸張部111に出力し、圧縮画像データを画像伸張部113に出力する。
音声伸張部111は、データ受信部110からの圧縮音声データを伸張し、受話音データとしてエコーキャンセル部106を介して音声用アナログ・デジタル変換部112に出力する。音声用デジタル・アナログ変換部112は、音声伸張部111により伸張された受話音データをアナログ信号に変換し、スピーカ7に出力する。これにより、スピーカ7から、遠隔地の会議室で収音された音声が出力される。なお、音声用デジタル・アナログ変換部112は、スピーカ7から出力される音声の音量調整の機能も有している。
画像伸張部113は、データ受信部110からの圧縮画像データを伸張し、受信画像データとして画像混合切換部114に出力する。画像混合切換部114は、画像用アナログ・デジタル変換部101からの送信画像データと、画像伸張部113からの受信画像データとを入力し、ユーザによるワイヤレスリモコン3のボタン操作に応じて制御部117から出力される指令に従って、それぞれを混合したり、どれかを表示しないように切換えたりして、表示用の画像データを生成し、画像用アナログ・デジタル変換部115に出力する。画像用デジタル・アナログ変換部115は、画像混合切換部114で生成された表示用画像データをアナログ画像信号に変換し、画像出力端子9に出力する。これにより、画像出力端子9にプロジェクタ11が接続されていれば、プロジェクタ11によりホワイトボードなどに表示画像が投影され、表示される。
リモコンインターフェース部116は、赤外線受光部6の出力信号を、ワイヤレスリモコン3でユーザが操作したボタンの識別データに変換して、制御部117に出力する。制御部117は、本実施形態に係るビデオ会議装置の全体の動作制御と、ワイヤレスリモコン3のボタン操作に応じた動作制御を行う。
本実施形態に係るビデオ会議装置は、以上の構成を備えることで、ビデオ会議装置として必要な画像と音声の送受信を行うことができる。送信については、カメラ8で撮影した画像を圧縮するとともに、マイク21,22,23で収音したエコーキャンセル済みの送話音を圧縮し、それぞれの圧縮データをネットワーク経由で相手側に送信する。受信については、相手側から送られた圧縮された受信画像データと、圧縮された受話音データをそれぞれ伸張し、画像出力端子9とスピーカ7から出力する。
ここで、特に本実施形態に係るビデオ会議装置では、カメラ8で撮影した画像、つまり、自装置が設置された会議室の画像を用いて、在席状態判定部103により、会議出席者の在席状態を判定し、音声増幅加算部104で3つのマイク21,22,23の増幅度を会議出席者の在席状態に応じて個別に設定して、会議出席者の在席状態に適したマイクユニット2の収音特性を自動で設定するようにしている。これにより、例えばユーザが会議出席者の在席状態を確認しながらマイクの収音特性を調整するといった作業は不要となり、ユーザに煩わしさを感じさせることなく、会議出席者の発話音声を的確に収音することができる。
次に、会議室での会議出席者の在席状態の具体例を例示しながら、本実施形態に係るビデオ会議装置によるマイクユニット2の収音特性の設定について、さらに詳しく説明する。
通常の会議室には、会議机と会議出席者用イスが置かれ、ホワイトボードが置かれることもある。また、ノートパソコンを使って会議資料をプロジェクタで投影し、紙の資料を配布しない会議も多くなっているので、プロジェクタが常設されることも多い。
図4は、このような会議室における会議机やイス、プロジェクタ11の配置の一例を示す図である。この図4に示すような会議室で本実施形態に係るビデオ装置を使ってビデオ会議を行うときは、ビデオ会議装置の装置本体1を会議机の端に置き、その反対側に会議出席者が並ぶ。したがってビデオ会議装置のカメラ8は、この状態で全出席者が撮影できるように、適切な画角のカメラが用いられる。また、マイクユニット2は、装置本体1から引き出されて、会議出席者に近づけて会議机に置かれることになる。このとき、ビデオ会議装置のスピーカ7は相手側の会議室の発言音声(受話音)を出力する。この音声がマイクユニット2で収音されて相手側に伝わると、相手側では、自分の発言が時間遅れを伴って自分に聞こえる現象、いわゆるエコーが発生し、会話がしづらくなる。そこで、ビデオ会議装置には、上述したように、電気的な音声信号処理によりスピーカ7からマイクユニット2に入ったエコー成分を除去するエコーキャンセル部106が設けられている。プロジェクタ11は、ホワイトボードや壁に画像を投影できるように、会議机に置かれる。
図4に示す配置例の場合、会議出席者の座席配置とマイクユニット2との位置関係は、マイクユニット2の正面側(図2(a)に示すマイク22の収音方向A2)に在席する2人はマイクユニット2から離れており、マイクユニット2の右側(図2(a)に示すマイク21の収音方向A1)及び左側(図2(a)に示すマイク23の収音方向A3)に在席する2人はマイクユニット2に近くなっている。したがって、図4に示す配置例の場合には、マイクユニット2に内蔵された3つのマイク21,22,23のうち、マイク22に接続された増幅器の増幅度は大きくし、マイク21とマイク23に接続された増幅器の増幅度は、マイク22に接続された増幅器の増幅度よりも小さくすることで、会議出席者全員の発話音声をバランスよく収音できる。
図5は、会議室における会議机やイス、プロジェクタ11の配置の他の例を示す図である。ビデオ会議を行う場合、図5に示すように会議出席者が一列に並んだ座席配置にすることも多い。この場合、プロジェクタ台にビデオ会議装置の装置本体1とプロジェクタ11を置き、装置本体1から引き出したマイクユニット2を会議机に置く。ビデオ会議装置のスピーカ7からは相手側の会議室の会話音声が出力されるが、この出力音声は可能な限りマイクユニット2に入らない方がエコーキャンセルの効果が高くなる。そのため、マイクユニット2とスピーカ7は離す方がよいので、このようなマイクユニット2と装置本体1の配置にする。
図5に示す配置例の場合、会議出席者の座席配置とマイクユニット2との位置関係は、会議机の中央に在籍する2人はマイクユニット2に近く、会議机の両端に在席する2人はマイクユニット2から離れている。したがって、図5に示す配置例の場合には、マイクユニット2に内蔵された3つのマイク21,22,23のうち、マイク22に接続された増幅器の増幅度は小さくし、マイク21とマイク23に接続された増幅器の増幅度は、マイク22に接続された増幅器の増幅度よりも大きくすることで、会議出席者全員の発話音声をバランスよく収音できる。
図6は、会議室における会議机やイス、プロジェクタ11の配置のさらに他の例を示す図である。ビデオ会議を行う場合、会議出席者の人数が多いと、図6に示すように会議机をコの字型に配置することも多い。この場合、プロジェクタ台にビデオ会議装置の装置本体1とプロジェクタ11を置き、装置本体1から引き出したマイクユニット2をできるだけ会議出席者の中央に置く。
図6に示す配置例の場合、会議出席者の座席配置とマイクユニット2との位置関係は、会議出席者のほぼ全員がマイクユニット2から同じ距離に配置される。したがって、マイクユニット2に内蔵された3つのマイク21,22,23に接続された各増幅器の増幅度は同じ大きさにし、かつできるだけ大きくすることで、全会議出席者の発話音声をバランスよく収音できる。
図7は、図4に示した配置例において、会議の途中で2名が退席したときの状態を示している。この場合、退席した2人の方向からの収音は不要であるばかりか、この方向から収音すると部屋の反響音等の雑音を収音してしまって音声が聞き取りづらくなる。したがって、このような場合には、マイクユニット2に内蔵された3つのマイク21,22,23のうち、マイク23(退席した2人の方向に正面が向いているマイク)に接続された増幅器の増幅度は0(ゼロ)にすることが望ましい。
図8は、図4〜図7に例示した会議室の会議出席者の在席状態をビデオ会議装置のカメラ8で撮影したときの画像例を示す図であり、(a)は図4に示した会議室で6人の会議出席者が在席している場合の画像例、(b)は図5に示した会議室で4人の会議出席者が在席している場合の画像例、(c)は図6に示した会議室で8人の会議出席者が在席している場合の画像例、(d)は図7に示した会議室で4人の会議出席者が在席している場合の画像例をそれぞれ示している。本実施形態に係るビデオ会議装置では、上述したように、在席状態判定部103が、これら図8(a)〜図8(d)に示すようなカメラ8で撮影された画像から人の顔を検出する処理を行い、検出した人の顔の位置と、大きさと、隣り合う顔位置の間の距離とに基づいて、カメラ8の撮影エリアにおける人の配置、つまり、会議室における会議出席者の在席状態を判定するようにしている。
画像から顔を検出する技術は、例えば「”デジタルカメラ向け顔画像処理技術”オムロン KEC情報,No.210,2009.JUL,P.16−22」などに記載されているように、広く知られている技術である。在席状態判定部103による画像からの人の顔の検出は、このような周知の顔検出技術を用いて行えばよい。
図9は、図8に例示した画像から人の顔を検出したときの検出結果を示す図であり、(a)は図8(a)に示した画像から人の顔を検出した結果を示し、(b)は図8(b)に示した画像から人の顔を検出した結果を示し、(c)は図8(c)に示した画像から人の顔を検出した結果を示し、(d)は図8(d)に示した画像から人の顔を検出した結果を示している。なお、図中の太線で示す矩形の枠で囲まれた部分が、人の顔として検出された領域を示している。在席状態判定部103は、これら図9(a)〜図9(d)に示した顔検出の結果から、検出した人の顔の位置と、大きさと、隣り合う顔位置の間の距離とに基づいて、会議室における会議出席者の在席状態を判定する。
具体的には、図9(a)に示す例では、6人の会議出席者の顔が検出されており、そのうち中央の2人の顔の大きさがほぼ同じで小さく、画像の両端に位置する顔ほど大きくなっている。また、画像の両端の2人の顔は、それぞれ隣に位置する顔に近い位置で検出されており、それと比較して中央の2人の顔の間の距離は大きくなっている。このような顔の位置と、大きさと、隣り合う顔位置の間の距離との関係から、会議出席者の在席状態が図4に例示した在席状態であると判定できる。
また、図9(b)に示す例では、4人の会議出席者の顔が検出されており、これら4人の顔の大きさがほぼ同じで、隣り合う顔間の距離がほぼ等しくなっている。このような顔の位置と、大きさと、隣り合う顔位置の間の距離との関係から、会議出席者の在席状態が図5に例示した在席状態であると判定できる。
また、図9(c)に示す例では、8人の会議出席者の顔が検出されており、そのうち中央の4人の顔の大きさがほぼ同じで小さく、画像の両端に位置する顔ほど大きくなっている。また、画像の両端の2人の顔は、それぞれ隣に位置する顔に近い位置で検出されており、それと比較して中央の4人の顔は、隣に位置する顔との距離が大きくなっている。また、中央の4人の顔間の距離はほぼ等しくなっている。このような顔の位置と、大きさと、隣り合う顔位置の間の距離との関係から、会議出席者の在席状態が図6に例示した在席状態であると判定できる。
また、図9(d)に示す例では、4人の会議出席者の顔が検出されており、そのうち中央の2人の顔の大きさがほぼ同じで小さく、画像の右端に位置する顔ほど大きくなっている。また、画像の右端の2人の顔の距離は小さく、それと比較して中央の2人の顔の間の距離は大きくなっている。なお、画像の左端には顔が検出されていない。このような顔の位置と、大きさと、隣り合う顔位置の間の距離との関係から、会議出席者の在席状態が図7に例示した在席状態であると判定できる。
本実施形態に係るビデオ会議装置では、以上のように、在席状態判定部103が、カメラ8で撮影された画像から検出した人の顔の位置と、大きさと、隣り合う顔位置の間の距離とに基づいて、会議室における会議出席者の在席状態を判定する。そして、この在席状態判定部103により判定された会議出席者の在席状態に応じて、音声増幅加算部104が、マイクユニット2に内蔵された3つのマイク21,22,23に各々接続された増幅器の増幅度を個別に設定し、各増幅器の出力を加算して音声信号として出力する。これにより、マイクユニット2の収音特性を会議出席者の在席状態に合った最適な状態に設定して、会議出席者の発話音声を的確に収音することができる。
図10は、本実施形態に係るビデオ会議装置において、会議出席者の在席状態に合わせたマイクユニット2の収音特性を設定する一連の処理を示すフローチャートである。以下、この図10のフローチャートに沿って動作を説明する。
ビデオ会議装置が会議室に持ち込まれ、ディスプレイケーブル12の接続、ネットワークケーブル13の接続、電源コードの接続などの準備が終了して、主電源スイッチ4がオンされると、まず、制御部117による制御のもとで会議開始処理が行われる(ステップS101)。この会議開始処理は、自装置をネットワーク経由で遠隔地のビデオ会議装置に接続し、双方向の通信リンクを確立して画像と音声を送受信する処理である。このとき、音声増幅加算部104における各増幅器の増幅度は所定の初期値(例えば、3つの増幅器とも同じ増幅度)に設定する。
次に、在席状態判定部103が、カメラ8で撮影された会議室の画像(動画)から、1枚の画像を抽出する(ステップS102)。そして、在席状態判定部103は、抽出した画像から人の顔を検出する処理を行い(ステップS103)、検出した人の顔の位置、大きさ、隣り合う顔位置の間の距離に基づいて、会議出席者の在席状態を判定し(ステップS104)、在席状態に応じてマイクユニット2の3つのマイク21,22,23それぞれの増幅度を設定する信号を音声増幅加算部104に出力する。
次に、音声増幅加算部104が、在席状態判定部103からの信号に従って、マイクユニット2の3つのマイク21,22,23に各々接続された3つの増幅器の増幅度を、会議出席者の在席状態に応じて設定する(ステップ105)。
その後、予め定めた所定時間(例えば、3分間、5分間など)が経過するまでの間、3つの増幅器の増幅度をステップS105で設定した増幅度に維持したまま待機する(ステップS106)。なお、この間もビデオ会議装置としての通常の動作は継続され、遠隔地の会議室との間での画像や音声の送受信は継続されている。そして、所定時間が経過したら、ビデオ会議動作が終了したかどうかを判断し(ステップS107)、ビデオ会議動作が終了していれば(ステップS107:Yes)、図10に示す処理フローを終了する。なお、ステップ106の所定時間の待機中にビデオ会議動作が終了した場合、ビデオ会議動作が終了した時点で割り込み処理により、図10に示す処理フローを終了させるようにしてもよい。
一方、所定時間が経過した段階で会議が終了しておらず、ビデオ会議動作が続行されていれば(ステップS107:No)、ステップS102に戻って、再び画像抽出から処理を繰り返す。これにより、会議中の会議出席者の退席などによって会議出席者の在席状態が変化したときには、変化した後の在席状態に応じて3つの増幅器の増幅度を更新することができ、その時々の在席状態に適したマイクユニット2の収音特性を設定することができる。
以上、具体的な例を挙げながら詳細に説明したように、本実施形態に係るビデオ会議装置では、在席状態判定部103が、カメラ8で撮影された会議室の画像から人の顔を検出して会議出席者の在席状態を判定する。そして、音声増幅加算部104が、在席状態判定部103により判定された会議出席者の在席状態に応じて、マイクユニット2が内蔵する3つのマイク21,22,23に各々接続された増幅器の増幅度を個別に設定するようにしている。したがって、本実施形態に係るビデオ会議装置によれば、例えばユーザが会議出席者の在席状態を確認しながらマイクの収音特性を調整するといった作業を不要としながら、マイクユニット2の収音特性を会議出席者の在席状態に合った最適な収音特性に設定することができ、ユーザに煩わしさを感じさせることなく、会議出席者の発話音声を的確に収音することができる。
また、本実施形態に係るビデオ会議装置によれば、在席状態判定部103による会議出席者の在席状態の判定を所定周期で繰り返し行い、会議出席者の在席状態が変化したときには、音声増幅加算部104が、変化した後の在席状態に応じて3つのマイク21,22,23に各々接続された増幅器の増幅度を更新するようにしているので、その時々の在席状態に適したマイクユニット2の収音特性を設定することができる。
また、本実施形態に係るビデオ会議装置によれば、在席状態判定部103が、カメラ8で撮影された会議室の画像から検出した人の顔の位置、大きさ、隣り合う顔位置の間の距離に基づいて会議出席者の在席状態を判定するようにしているので、会議出席者の在席状態を精度よく判定することができる。
ところで、以上説明した本実施形態に係るビデオ会議装置では、カメラ8が設けられた装置本体1からマイクユニット2を引き出して使用するようになっているため、マイクユニット2が正しい向き(マイク22の収音方向A2がカメラ8の光軸と略一致する向き)に置かれていないと、マイクユニット2が内蔵する3つのマイク21,22,23の収音方向A1,A2,A3とカメラ8で撮影した画像との関係が変わるため、会議出席者の在席状態に合った最適な収音特性の設定が難しくなることが想定される。カメラユニット2のカバー25には、上述したように、カメラユニット2が内蔵する3つのマイク21,22,23の収音方向を明示する矢印のマーカ26が設けられているので、ユーザがこのマーカ26を目安としてマイクユニット2を正しい向きで置くことが期待されるが、必ずしも正しい向きで置かれるとは限らない。
そこで、在席状態判定部103は、カメラ8で撮影された会議室の画像から、人の顔とともにカメラユニット2のカバー25に設けられたマーカ26を検出し、検出した人の顔とマーカ26の矢印の向きから、会議出席者の在席状態と3つのマイク21,22,23の収音方向との関係を判定するようにしてもよい。そして、音声増幅加算部104が、在席状態判定部103により判定された会議出席者の在席状態と3つのマイク21,22,23の収音方向との関係に応じて、3つのマイク21,22,23に各々接続された増幅器の増幅度を個別に設定するようにしてもよい。これにより、マイクユニット2が正しい向きで置かれていない場合であっても、マイクユニット2の収音特性を会議出席者の在席状態に合った最適な収音特性に設定することができ、会議出席者の発話音声を的確に収音することができる。
以上、本発明の一適用例としての実施形態を具体的に説明したが、本発明は、上記の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で様々な変形や変更を加えて具体化することができる。例えば、上記の実施形態では、会議出席者の発話音声を集音するマイクの数を3つとしているが、マイクの数は任意の数とすることができる。また、上記の実施形態では、3つのマイク21,22,23を内蔵するマイクユニット2を装置本体3から引き出して使用するようにしているが、装置本体1に複数のマイクをそれぞれの収音方向が異なるように組み込んで、これら装置本体1に組み込まれた複数のマイクで会議出席者の発話音声を集音するようにしてもよい。
1 装置本体
2 マイクユニット
8 カメラ
21,22,23 カメラ
26 マーカ
103 在席状態判定部
104 音声増幅加算部
108 データ送信部
特開2007−274463号公報

Claims (5)

  1. 画像を撮影するカメラと、
    前記カメラで撮影された画像から人の顔を検出して、前記カメラの撮影エリアに存在する人の配置を判定する判定手段と、
    収音方向が互いに異なる複数のマイクと、
    前記判定手段により判定された人の配置に応じて前記複数のマイクからそれぞれ入力される音声を個別に増幅して加算する音声増幅加算手段と、
    前記カメラで撮影された画像と前記音声増幅加算手段で増幅及び加算された音声とを送信する送信手段と、を備えることを特徴とするビデオ会議装置。
  2. 前記音声増幅加算手段は、前記複数のマイクのうち、人のいる方向を収音方向とするマイクから入力される音声の増幅度を大きくし、人のいない方向を収音方向とするマイクから入力される音声の増幅度を小さくすることを特徴とする請求項1に記載のビデオ会議装置。
  3. 前記判定手段は、前記カメラの撮影エリアに存在する人の配置を所定周期で繰り返し判定し、
    前記音声増幅加算手段は、前記判定手段により判定された人の配置が変化したときに、変化した後の人の配置に応じて前記複数のマイクからそれぞれ入力される音声の個別の増幅度を更新することを特徴とする請求項1または2に記載のビデオ会議装置。
  4. 前記判定手段は、前記カメラで撮影された画像内における人の顔の位置と、大きさと、隣り合う顔位置の間の距離とに基づいて、前記カメラの撮影エリアに存在する人の配置を判定することを特徴とする請求項1〜3のいずれか一項に記載のビデオ会議装置。
  5. 前記カメラが取り付けられた装置本体と、
    前記複数のマイクを内蔵し、前記装置本体に対して引き出し可能に構成されたマイク筐体と、
    前記マイク筐体に設けられ、前記複数のマイクそれぞれの収音方向を明示するマーカと、をさらに備え、
    前記判定手段は、前記カメラで撮影された画像から人の顔及び前記マーカを検出して、前記カメラの撮影エリアに存在する人の配置と前記複数のマイクの収音方向との関係を判定し、
    前記音声増幅加算手段は、前記判定手段により判定された人の配置と前記複数のマイクの収音方向との関係に応じて、前記複数のマイクからそれぞれ入力される音声の個別の増幅度を決定することを特徴とする請求項1〜4のいずれか一項に記載のビデオ会議装置。
JP2010059908A 2010-03-16 2010-03-16 ビデオ会議装置 Expired - Fee Related JP5418327B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010059908A JP5418327B2 (ja) 2010-03-16 2010-03-16 ビデオ会議装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010059908A JP5418327B2 (ja) 2010-03-16 2010-03-16 ビデオ会議装置

Publications (2)

Publication Number Publication Date
JP2011193392A JP2011193392A (ja) 2011-09-29
JP5418327B2 true JP5418327B2 (ja) 2014-02-19

Family

ID=44797828

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010059908A Expired - Fee Related JP5418327B2 (ja) 2010-03-16 2010-03-16 ビデオ会議装置

Country Status (1)

Country Link
JP (1) JP5418327B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6201440B2 (ja) * 2013-06-11 2017-09-27 株式会社リコー 配置算出方法、及びプログラム
JP6160767B2 (ja) 2014-03-17 2017-07-12 株式会社リコー コネクタおよび該コネクタを備える電子機器
CN105049807B (zh) 2015-07-31 2018-05-18 小米科技有限责任公司 监控画面声音采集方法及装置
CN109076129B (zh) * 2016-07-08 2021-11-12 惠普发展公司,有限责任合伙企业 将物理共位的设备的麦克风静音
CN111680649B (zh) * 2020-06-12 2023-10-24 杭州海康威视数字技术股份有限公司 用于检测在场人员的方法和装置以及数据处理设备
JP2022107950A (ja) 2021-01-12 2022-07-25 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3512828B2 (ja) * 1993-02-26 2004-03-31 松下電器産業株式会社 テレビ会議システム
JPH0965309A (ja) * 1995-08-21 1997-03-07 Kyocera Corp テレビ会議装置
JP2004118314A (ja) * 2002-09-24 2004-04-15 Advanced Telecommunication Research Institute International 発話者検出システムおよびそれを用いたテレビ会議システム
JP5169139B2 (ja) * 2007-10-25 2013-03-27 株式会社ニコン カメラ、および画像記録プログラム

Also Published As

Publication number Publication date
JP2011193392A (ja) 2011-09-29

Similar Documents

Publication Publication Date Title
JP5418327B2 (ja) ビデオ会議装置
CN109218651B (zh) 视频会议中的最佳视图选择方法
JP5857674B2 (ja) 画像処理装置、及び画像処理システム
DK2153693T3 (en) Hearing aid system which establishes a talk group among hearing aids used by different users
US20170041570A1 (en) Communication apparatus, communication method, and communication system
US20070030984A1 (en) Conference system
JP4411959B2 (ja) 音声集音・映像撮像装置
US8144893B2 (en) Mobile microphone
WO2015198964A1 (ja) 音声入出力機能付き撮像装置およびテレビ会議システム
JP2006254064A (ja) 遠隔会議システム、音像位置割当方法および音質設定方法
US20160112574A1 (en) Audio conferencing system for office furniture
US8452026B2 (en) Mobile microphone system and method
US10469800B2 (en) Always-on telepresence device
JP5120020B2 (ja) 画像付音声通信システム、画像付音声通信方法およびプログラム
JP2006211156A (ja) 音響装置
JP4501037B2 (ja) 通信制御システムと通信装置および通信方法
JP7095356B2 (ja) 通信端末及び会議システム
JP4479227B2 (ja) 音声集音・映像撮像装置および撮像条件決定方法
KR101680524B1 (ko) 화자 표시 시스템 및 그 제어 방법
JP7361460B2 (ja) コミュニケーション装置、コミュニケーションプログラム、及びコミュニケーション方法
JP2017163466A (ja) 情報処理装置および会議システム
JP2014216787A (ja) 会議端末装置及び増幅率登録方法
JP7111202B2 (ja) 収音制御システム及び収音制御システムの制御方法
US11877058B1 (en) Computer program product and automated method for auto-focusing a camera on a person in a venue who is wearing, or carrying, or holding, or speaking into a microphone at the venue
US11889187B1 (en) Computer program product and method for auto-focusing one or more lighting fixtures on selected persons in a venue who are performers of a performance occurring at the venue

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131022

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131104

R151 Written notification of patent or utility model registration

Ref document number: 5418327

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees