以下、一実施形態を図1〜図15に基づいて説明する。図1には、一実施形態に係る通信システムの一例としての会議システム1000が概略的に示されている。この会議システム1000は、少なくとも3つの拠点(例えば10拠点)間でのネットワーク(通信網)、例えばインターネットを介したテレビ会議(情報共有)に用いられる。ここで、テレビ会議とは、動画像と音声を利用して情報共有を図るシステムである。
会議システム1000は、図1に示されるように、一例として、複数(例えば10個)の通信装置としてのテレビ会議装置100を含んで構成されている。
10個のテレビ会議装置100は、一例として、実質的に同一の構成及び機能を有しており、インターネットを介して双方向で通信可能に接続される。
図2(A)及び図2(B)には、テレビ会議装置100の一形態(以下では、基準形態と称する)を異なる方向から見た外観が斜視図にて示されている。
テレビ会議装置100は、図2(A)及び図2(B)に示されるように、基準形態では、全体として、例えばA4版サイズの略矩形平板状の外形(例えば厚さが20mm〜40mm)を有している。
このように、テレビ会議装置100は、基準形態において、薄型コンパクトになるように設計されている。また、テレビ会議装置100は、後に詳述するように、基準形態と、例えば机、テーブル等の上面(載置面)上に載置された状態での使用に適した開き形態との間で形態を移行させることができる。
図3には、基準形態のテレビ会議装置100が、水平な載置面上に載置された状態が示されている。以下、テレビ会議装置100の長手方向をX軸方向、水平面内でX軸方向に直交する方向をY軸方向、X軸方向及びY軸方向のいずれにも直交する方向(鉛直方向)をZ軸方向として説明する。また、テレビ会議装置100は、特に断りがない限り、基準形態になっているものとする。
テレビ会議装置100は、図2(A)〜図3に示されるように、第1筐体10、第2筐体12、ディスプレイ14、電子カメラ16、スピーカ18、マイク20、制御装置24(図4参照)などを備えている。
第1筐体10は、一例として、図2(A)及び図2(B)に示されるように、制御装置24が収容されている制御装置収容部10aと、複数の操作部材が設けられている操作パネル部10bとを有している。
制御装置24は、画像データ及び音声データをエンコード処理またはデコード処理をして、インターネットを介した画像及び音声の送受信を制御する。
この制御装置24は、図4に示されるように、制御用基板としてのメインボード62、音声処理用及び操作用基板としてのサブボード63などを含む。
メインボード62には、一例として、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)104、HDD(Hard Disk Drive)106(もしくはストレージまたは記録デバイス)、データ入出力I/F(Inter face)108、ネットワークI/F110、画像入力I/F112、音量レベル判断部160、表示処理部140及び画像出力I/F114の各構成要素が実装されている。CPU101、ROM102、RAM104、HDD106、データ入出力I/F108、ネットワークI/F110、画像入力I/F112及び音量レベル判断部160は、アドレスバス、データバス等のバスライン116を介して、双方向通信可能に接続されている。なお、上述した画像データは、動画または間欠画像(一定時間間隔の静止画像)のデータである。
CPU101は、所定のプログラム(テレビ会議装置用プログラム)に基づいてテレビ会議装置100全体の動作を制御する。なお、テレビ会議装置用プログラムに従ったCPU101の命令による、ネットワーク(例えばインターネット)を介した音声及び画像の双方向通信にかかる一連の動作は後述する。
ROM102は、IPL(Initial Program Loader)等のCPU101の駆動に用いられるプログラムが記憶されている。RAM104は、CPU101のワークエリアとして使用される。
HDD106は、上記テレビ会議装置用プログラム、画像データ、音声データ等の各種データが記憶される。なお、HDD106に限らず、例えばSSD(Solid State Drive)等を用いてもよい。上記テレビ会議装置用プログラムは、インストール可能な形式又は実行可能な形式のファイルで、例えば記録メディア等の、コンピュータで読み取り可能な記録媒体に記録して流通させるようにしてもよい。また、上記テレビ会議装置用プログラムは、HDD106ではなく、ROM102に記憶されるようにしてもよい。HDD106は、CPU101の制御にしたがってHDD106に対する各種データの読み出し又は書き込みを制御する。
データ入出力I/F108は、後述する複数のUSB端子に接続された例えばフラッシュメモリ等の記録メディアMに対するデータの読み出し又は書き込み(記憶)を制御するとともに、USB端子に接続された例えばPC(パーソナルコンピュータ)からのデータの他拠点のテレビ会議装置への送信を制御する。
記録メディアMは、複数のUSB端子のうちの一のUSB端子に着脱自在となっている。なお、例えば記録メディアMがSDメモリ、コンパクトフラッシュ(登録商標)などUSB端子に直接に着脱できないものであれば、USB端子にメモリ読書ドライブを着脱させるように構成しても良いし、別途に、テレビ会議装置100に予めメモリ読書ドライブを設けていても良い。また、記録メディアMとしては、CPU101の制御にしたがってデータの読み出し又は書き込みを行う不揮発性メモリであれば、フラッシュメモリに限らず、EEPROM(Electrically Erasable and Programmable ROM)等を用いてもよい。
ネットワークI/F110は、後述するLAN端子38(例えばイーサネット(登録商標)端子)を含み、インターネットを介したデータ(画像データ及び音声データ)の入出力(送受信)を行う。なお、ネットワークI/F110としては、有線のLAN端子に接続可能なように設けても良いし、また、無線のLANに接続できる無線LANのネットワークI/Fであっても良い。
画像入力I/F112は、後述する電子カメラ16から出力される被写体の画像信号を所定の画像データとして取り込む。
音量レベル判断部160は、ネットワークI/F110を介して取り込まれた通信相手(他拠点)からの音声データの音量レベルが所定の閾値以上であるか否かを判断し、その判断結果を、表示処理部140に送る。
表示処理部140は、後に詳述するように、音量レベル判断部160での判断結果に基づいて、ネットワークI/F110を介して取り込まれた他拠点からの画像データを画像としてディスプレイ14の表示面に表示すべきサイズ及び位置を設定し、該画像データを画像出力I/F114に送る。なお、本実施形態では、後に詳述するように、表示処理部140とCPU101とを含んで構成される表示手段によって、発話者がいない他拠点からの画像がディスプレイ14の表示面に縮小サイズ(所定サイズ)で表示され、発話者がいる他拠点からの画像が該縮小サイズよりも大きい拡大サイズで表示される。
画像出力I/F114は、表示処理部140からの画像データをディスプレイ14で表示可能な画像信号に変換してディスプレイ14に出力する。この結果、ディスプレイ14の表示面には、該画像データに対応する画像が表示される。
なお、上記画像信号としては、アナログRGB信号(VGA)、コンポーネントビデオ信号、HDMI(登録商標)(High―Definition Multimedia Interface)信号、DVI(Digital Video Interactive)信号が挙げられる。
サブボード63には、前述した複数の操作ボタンに対応する複数の操作端子118、音声入出力I/F120及び音声制御部122の各構成要素が実装されている。複数の操作端子118、音声制御部122は、バスライン116を介して、互いに双方向通信可能に接続され、かつメインボード62に実装されバスライン116を介して接続された上記各構成要素と双方向通信可能に接続されている。
音声入出力I/F120は、マイク20により入力された音声信号を所定の音声データとして取り込んで、該音声データを音声制御部122に送るとともに、ネットワークI/F110、音声制御部122を介して受信された他拠点からの音声データをスピーカ18で再生可能な音声信号に変換する。
音声制御部122は、後述する一対のボリュームボタン62a、62bが操作されるのに伴いスピーカ18から出力される音の音量を調整し、後述するマイクミュートボタン64が押し下げられる(ON/OFFされる)のに伴いマイク20による音の入力/非入力を切り替える。
また、音声制御部122は、他拠点のテレビ会議装置100との双方向通信時に、スピーカ18から出力された音がマイク20により入力され、該他拠点のテレビ会議装置100との間で音波のループを形成して発生するエコー、ハウリングを抑制するエコーキャンセル処理機能を有するとともに、例えば室内の空調の作動音などのマイク20で入力された音を低減させるノイズキャンセル処理機能を有する。
制御装置収容部10aは、図5及び図6を総合すると分かるように、一例として、X軸方向を長手方向とする略矩形平板状の外形を有する箱形部分から成る。
また、図5に示されるように、制御装置収容部10aの+X側の側壁には、4つの開口が形成されており、該4つの開口には、それぞれメインボード62に実装されている通信用のLAN端子38、HDMI(登録商標)用の画像出力端子40、VGAの画像出力端子42、電源端子44(電源ジャック)が嵌め込まれている。画像出力端子40、42に代えて又は加えて、DVI―I端子、コンポーネント端子、D端子、S端子、コンポジット端子が設けられていても良い。
図6に示されるように、制御装置収容部10aの−Y側の側壁の−X側の端部には、一例として、2つの開口が形成されており、該2つの開口には、それぞれメインボード62に実装されているUSB端子28、30が嵌め込まれている。また、制御装置収容部10aの−Y側の側壁の+X側の端部には、一例として、3つの開口が形成されており、該3つの開口には、それぞれメインボード62に実装されているヘッドフォン接続用端子32、マイク接続用端子34、USB端子36が嵌め込まれている。
また、図7に示されるように、一例として、制御装置収容部10aの−Z側の壁(底壁)の4隅には、4つの開口が形成されており、該4つの開口には、外付け用のバッテリを接続するための、メインボード62に実装された4つのコネクタ46が嵌め込まれている。
操作パネル部10bは、図3、図5及び図6を総合すると分かるように、X軸方向を長手方向とする細長い略矩形平板状の外形を有する箱形部分から成り、制御装置収容部10aの−Y側の端部の+Z側の端に連続している。
操作パネル部10bの+Z側の壁の−X側の領域には、図3に示されるように、一例として、5つの開口がX軸方向に並べて形成されており、該5つの開口には、5つの操作部材が個別に嵌め込まれている。これら5つの操作部材は、一例として、−X側から+X側にかけて順に、電源ボタン48、メニューボタン50、カーソル52、決定ボタン54、通信相手とのインターネット回線を切断するための切断ボタン56となっている。
電源ボタン48は、テレビ会議装置100に対する電源のON/OFFを行うための操作部材である。操作パネル部10bにおける電源ボタン48の近傍には、電源ON時に点灯する電源ランプ49が設けられている。
メニューボタン50は、ディスプレイ14にメニュー画面を呼び出すための操作部材である。
カーソル52は、ディスプレイ14に表示されるメニュー画面内に表示された項目を選択するための操作部材である。すなわち、カーソル52を操作することで、メニュー画面内の項目を選択できるようになっている。
決定ボタン54は、メニュー画面内において選択された項目を決定するための操作部材である。メニュー画面内において選択及び決定される項目としては、例えば、他の拠点のテレビ会議装置100の宛先などが挙げられる。
切断ボタン56は、通信相手のテレビ会議装置100とのインターネット回線を切断するための操作部材である。
操作パネル部10bの+Z側の壁の+X側の領域には、一例として、5つの開口がX軸方向に並べて形成されており、該5つの開口には、5つの操作部材が個別に嵌め込まれている。これら5つの操作部材は、一例として、−X側から+X側にかけて順に、ビュー切換ボタン58、明度調整ボタン60、一対のボリュームボタン62a、62b、マイクミュートボタン64となっている。
ビュー切換ボタン58は、電子カメラ16によって取り込まれた画像のうち、他の拠点に送信する画像を切り換えるための操作部材である。すなわち、例えばある拠点に複数のユーザ(会議参加者)がいる場合に、ビュー切換ボタン58を押すことで、複数のユーザの少なくとも1人が選択的に表示された複数の画像のうちいずれかを他の拠点に送信することができる。
明度調整ボタン60は、ディスプレイ14に表示される画像の明度を調整するための操作部材である。テレビ会議装置100の周囲の明るさに応じて明度調整ボタン60を適宜押圧することで、ディスプレイ14の画面の明るさを視認性の良い適切な明るさに調整することができる。ここでは、一例として、明度調整ボタン60で調整される明度がN段階(Nは、自然数)に設定されており、明度調整ボタン60が押圧される度に、明度が段階的に高く又は低くなり、明度調整ボタン60がN回押圧されると、元の明度に戻るようになっている。
一対のボリュームボタン62a、62bは、スピーカ18から出力される音の音量を調整するための操作部材である。一対のボリュームボタン62a、62bのうち、−X側のボリュームボタン62aを押圧することで、上記音量を下げることができ、+X側のボリュームボタン62bを押圧することで、上記音量を上げることができる。
マイクミュートボタン64は、マイク20のON/OFFを切り替えるための操作部材である。なお、マイク20がONとは、マイク20を介して音声が入力される状態を意味し、マイク20がOFFとは、マイク20を介して音声が入力されない状態を意味する。
第2筐体12は、図2(A)及び図2(B)に示されるように、ディスプレイ14、電子カメラ16の一部、スピーカ18の一部、マイク20の一部が収容されている第1収容部12aと、電子カメラ16の残部(撮影レンズ16aを除く)、スピーカ18の残部、マイク20の残部が収容されている第2収容部12bとを有している。
第1収容部12aは、図3、図5及び図6を総合すると分かるように、X軸方向を長手方向とする略矩形平板状の外形を有する箱形部分から成り、制御装置収容部10aの+Z側であって、操作パネル部10bの+Y側に位置している。ここでは、一例として、テレビ会議装置100が基準形態のとき、第1収容部12aの−Z側の面は、制御装置収容部10aの+Z側の面に当接している。
第1収容部12a内のほぼ中央には、ディスプレイ14がXY平面に平行な状態で収容されている。
ディスプレイ14は、一例として、画像が表示される表示面を有する液晶パネルと、該液晶パネルを挟む位置に配置された2つの電極と、該2つの電極を挟む位置に配置された2つの偏光板とを含む液晶構造体、及び該液晶構造体の一側に配置されたバックライトを含み、全体として、平板状の外形を有している。すなわち、ディスプレイ14は、いわゆる液晶ディスプレイである。
第1収容部12aの+Z側の面には、一例として、ディスプレイ14よりも一回り以上大きな矩形開口が形成されており、該矩形開口には、強化プラスチックからなるカバーパネル26が嵌め込まれている。すなわち、ディスプレイ14は、カバーパネル26によって+Z側から覆われている。カバーパネル26は、ディスプレイ14に対応(対向)する部分が透明となっており、該部分を取り囲む部分が例えば黒色となっている。以下では、カバーパネル26の透明部分をクリアパネル部CPと称し、カバーパネル26の黒色部分をブラックパネル部BPと称する。この場合、ディスプレイ14の液晶パネルは、+Z側からクリアパネル部CPを介して視認可能となっている。
第2収容部12bは、図5及び図6を総合すると分かるように、X軸方向を長手方向とする略矩形平板状の箱形部分から成り、第1収容部12aの+Y側の端部の−Z側の端に連続している。すなわち、第2収容部12bは、第1収容部12aの−Z側の端よりも−Z側に突出している。
図3、図5及び図6を総合すると分かるように、第1収容部12aの+Y側の端部と第2収容部12bとで形成される空間のX軸方向の中央部には、電子カメラ16の撮影レンズ16aを除く部分が収容されており、撮影レンズ16aはブラックパネル部BPに形成された開口から第2筐体12の外部に突出している。
撮影レンズ16aとしては、一例として、X軸方向の視野角が170°で、Y軸方向の視野角が135°の略半球形状の広角レンズが用いられている。
図3、図5及び図6に示されるように、ブラックパネル部BPにおける撮影レンズ16aの+Y側近傍及び−Y側近傍には、撮影レンズ16aを保護するための一対のレンズ保護用突起66a、66bが突設されている。各レンズ保護用突起の外側の面は、湾曲面で構成されており、手指などが触れても、怪我をしないようになっている。
電子カメラ16は、撮影レンズ16aを介して被写体(例えばユーザ、書画等)の画像を取り込み、取り込まれた画像を画像信号(電気信号)に変換して画像入力I/F112に出力する(図4参照)。電子カメラ16の撮像素子としては、一例として、CCD、CMOSなどが用いられている。
また、図3に示されるように、第1収容部12aの+Y側の端部と第2収容部12bとで形成される空間の−X側の端部には、スピーカ18が、音声出力方向が概ね+Z方向となるように配置されている。
ここでは、スピーカ18として、例えばフルレンジタイプの丸型のものが採用されているが、その他のものでも良い。スピーカ18は、音声入出力I/F120に結線されており、該音声入出力I/F120から送信される音声信号を音声として出力する(図4参照)。
ブラックパネル部BPにおけるスピーカ18に対応する部分には、スピーカ18から出力された音声を外部に放出するための、複数の小さな貫通孔を含んで構成される音声放出口68が形成されている(図3参照)。
また、第1収容部12aの+Y側の端部と第2収容部12bとで形成される空間における電子カメラ16の+X側の領域には、マイク20が、音声入力方向が概ね−Z方向となるように配置されている。
ここでは、マイク20として、例えば小型の無指向性のものが採用されているが、指向性を有するものを用いても良い。マイク20は、音声入出力I/F120に結線されており、入力した音声を音声信号として音声入出力I/F120に送信する(図4参照)。
ブラックパネル部BPのマイク20に対応する部分には、マイク20を介して入力される音声を取り込むための、少なくとも1つの小さな貫通孔を含んで構成される音声取込口70が形成されている。
また、ブラックパネル部BPの−X側かつ−Y側の角部には、外付け用バッテリの充電量の残量を表示する残量ランプ72、インターネット回線の接続状況を表示する回線ランプ74が設けられている。
以下では、図8に示されるように、X軸に直交し、かつカバーパネル26に平行な軸をα軸、X軸及びα軸に直交する軸をβ軸と称して説明する。そこで、テレビ会議装置100が基準形態のとき、α軸は、Y軸に一致し、β軸は、Z軸に一致する。
ここで、第1収容部12aの−Y側の端部、すなわち−α側の端部は、X軸方向を軸方向とするトルクヒンジ(不図示)を介して第1筐体10に接続されている。そして、ディスプレイ14の液晶パネルは、+β側から視認可能であり、撮影レンズ16aは+β側に露出し、スピーカ18の音声出力方向は、概ね+β側となり、マイクの音声入力方向は、概ね−β側となる。
すなわち、第2筐体12は、上記トルクヒンジの作用により、X軸周りに関して、第1筐体10に当接する当接位置(図5及び図6参照)と第1筐体10から離間する離間位置(図8参照)との間をX軸周りに相対回動可能となっている。そこで、以下では、第2筐体12が離間位置に位置するときのテレビ会議装置100の形態を、開き形態とも称する。
第2筐体12の第1筐体10に対するX軸周りの回動角度θは、テレビ会議装置100が基準形態のとき、すなわち第2筐体12が当接位置に位置するときをθ=0°とすると、例えば0°≦θ≦90°に設定されている。図9では、θ=90°であり、テレビ会議装置100は、最大開き形態になっている。そして、上記トルクヒンジの作用により、第2筐体12を第1筐体10に対してX軸周りの回動角度θの位置でホールドできるようになっている。なお、第2筐体12が当接位置に位置するときのテレビ会議装置100の形態が基準形態である。そこで、以下では、基準形態を、閉じ形態とも称する。
以上のように構成される会議システム1000を用いるテレビ会議の一例を、以下に説明する。ここでは、テレビ会議は、例えば10拠点間で、各拠点に配置されたテレビ会議装置100を用いて行われる(図1参照)。各拠点のユーザ(会議参加者)の人数は、例えば1人とされている。
各拠点のユーザは、図10に示されるように、例えば一室に配置されたテーブルTの−Y側にテーブルT側を向いた状態で着座する。
ユーザは、テレビ会議装置100を、操作パネル部10bが手前側(−Y側)に位置するようにテーブルTの上面に例えば基準形態のまま載置し、第1筐体10に対して第2筐体12をX軸周りに角度φ(例えば60°≦φ≦90°)だけ回動させる。この結果、ディスプレイ14は、第1筐体10を台座として概ね−Y側を向いて起立した状態、すなわち表示面が−Y側から視認可能な状態となる。また、この状態では、撮影レンズ16a、スピーカ18及びマイク20が着座したユーザの顔の高さと概ね同じ高さに位置する。さらに、この状態では、撮影レンズ16aは概ね−Y側に向き、スピーカ18の音声出力方向は概ね−Y側となり、マイクの音声入力方向は概ね+Y側となる。
また、ユーザは、テレビ会議装置100のテーブルT上への載置に併せて、テレビ会議装置100に対する電気及び通信に関する配線の接続(例えば、LAN端子38とインターネットに接続される端子との結線、電源端子44と外部電源との結線等)を行う。
次いで、ユーザは、電源ボタン48を押してテレビ会議装置100を起動させる。このとき、ディスプレイ14にメニュー画面が表示される。このメニュー画面は、各種調整、会議の開始(双方向通信の開始)等の各項目がアイコンと文字情報で表示される。そこで、ユーザは、カーソル52を操作して、上記メニュー画面上の会議の開始に関する項目を選択し、決定ボタン54を押して、会議の開始を決定する。
会議の開始が決定されると、任意の一拠点のテレビ会議装置100のディスプレイ14のメニュー画面に9つの他拠点の宛先リストが表示され、一拠点のユーザは、カーソル52を操作して、上記宛先リストからテレビ会議(双方向通信)を行いたい他拠点を選択して、決定ボタン54を押して決定する。ここでは、9つの他拠点が選択され、決定される。この結果、一拠点のテレビ会議装置100から9つの他拠点のテレビ会議装置100へ双方向通信の要求が送信される。
各他拠点のテレビ会議装置100では、その双方向通信の要求が着信すると、その要求の容認及び拒否それぞれに関する項目を、ディスプレイ14に表示されたメニュー画面上に表示する。
そこで、各他拠点のユーザは、該他拠点のテレビ会議装置100のカーソル52及び決定ボタン54を操作することにより、上記容認及び拒否それぞれに関する項目のうちのいずれかを選択、決定する。ここでは、容認に関する項目が選択、決定され、この結果、10個のテレビ会議装置100は、インターネットを介して互いに双方向通信可能に接続される。
10個のテレビ会議装置100間で双方向通信が開始されると、任意の一拠点のテレビ会議装置100の電子カメラ16で取り込まれた該一拠点のユーザの画像がインターネットを介して9つの他拠点のテレビ会議装置100に送信され、該テレビ会議装置100のディスプレイ14に表示される。
また、任意の一拠点のテレビ会議装置100のマイク20で取り込まれた該一拠点のユーザの音声が、インターネットを介して9つの他拠点のテレビ会議装置100に送信され、該テレビ会議装置100のスピーカ18から出力される。
このようにして、10拠点間での画像及び音声の双方向通信によるテレビ会議が行われる。
ところで、一般に、テレビ会議装置では、複数の他拠点からの画像を表示装置(例えばモニタ)の画面に同時に視認可能に表示させる必要があり、拠点数が多くなるほど、モニタの画面に表示する各他拠点からの画像の大きさを小さくする必要がある。この場合、該画像を視認し難く、発話者がいる他拠点を音声のみによって認識することは必ずしも容易でないため、該画像を視認し易くすることが望まれる。また、複数の他拠点それぞれに発話者がいる場合、すなわち複数の他拠点同士が会話状態にある場合、いずれの他拠点同士が会話状態にあるかを視認し易くすることも望まれる。さらに、テレビ会議が会議記録として媒体に録画録音され、例えばテレビ会議に参加しなかった者等が該媒体を再生して視聴する際に、場の雰囲気をつかみ易くするため、発話者がいる拠点を視認し易くすることが望まれる。
そこで、テレビ会議装置100では、図11に示される制御(一連の処理)が行われる。図11のフローチャートは、CPU101の処理アルゴリズムに対応している。この制御について、以下に詳細に説明する。
最初のステップS1では、少なくとも1つの他拠点からの画像データ及び音声データを受信しているか否かが判断される。ネットワークI/F110で少なくとも1つの他拠点からの画像データ及び音声データが受信されていれば、ステップS1での判断は肯定され、ステップS3に移行する。一方、ネットワークI/F110で他拠点からの画像データ及び音声データが受信されていなければ、ステップS1での判断が否定され、フローは終了する。なお、CPU101は、ネットワークI/F110での画像データ及び音声データの受信状況を常時監視している。
ステップS3では、音量レベル判断部160での判断結果に基づいて、音量レベルが所定の閾値以上の他拠点があるか否か、すなわち少なくとも1つの他拠点からの音声データの音量レベルが該閾値以上であるか否かが判断される。この閾値は、各拠点における発言者の有無を判定するための指標(基準)となる値である。ステップS3での判断が肯定されると、ステップS5に移行する。一方、ステップS3での判断が否定されると、ステップS17に移行する。
ステップS5では、所定時間(例えば数秒〜数十秒)が経過したか否かが判断される。ステップS5での判断が肯定されると、ステップS7に移行する。一方、ステップS5での判断が否定されると、同じ判断が繰り返される。なお、ここでの計時は、例えば制御装置24が有するタイマを用いて行われる。
ステップS7では、音量レベル判断部160での判断結果に基づいて、音量レベルが上記閾値以上の他拠点があるか否か、すなわち少なくとも1つの他拠点からの音声データの音量レベルが該閾値以上であるか否かが判断される。ステップS7での判断が肯定されると、ステップS8に移行する。一方、ステップS7での判断が否定されると、ステップS17に移行する。
ステップS8では、ステップS7の判断時点で音量レベルが上記閾値以上の他拠点のうち少なくとも1つの他拠点の音量レベルが上記所定時間継続して該閾値以上であるか否か、すなわちステップS7の判断時点で音量レベルが該閾値以上の他拠点の音量レベルがステップS3の判断時点でも該閾値以上であったか否かが判断される。ステップS8での判断が肯定されると、ステップS9に移行する。一方、ステップS8での判断が否定されると、ステップS5に戻る。
音量レベルが上記所定時間継続して上記閾値以上の他拠点には、発話者がいると推定されるため、以下では、該他拠点を「発話者がいる他拠点」とも称する。この場合、例えば相槌、咳払い、くしゃみ等による非常に短い音声は、音量レベルが該閾値以上であっても発話に該当しないことを意味する。なお、実際には、発話の途中に(上記所定時間内に)音量レベルが上記閾値未満になることも想定されるが、ステップS3及びステップS7のいずれの判断時点でも音量レベルが閾値以上であれば、音量レベルが上記所定時間継続して上記閾値以上であると見做しても、すなわち発話が上記所定時間継続していると見做しても差し支えない。
ステップS9では、音量レベルが上記所定時間継続して上記閾値以上の他拠点(発話者がいる他拠点)の数が取得される。
次のステップS11では、音量レベルが上記所定時間継続して上記閾値以上の他拠点の数に応じて、拡大サイズの大きさ及び拡大サイズで表示する画像の位置が設定される。
一例として、図12に示されるように9つの他拠点のうち発話者がいる他拠点の数が1である場合には、拡大サイズは、1つの他拠点(例えば他拠点D)からの画像全体が表示面に表示可能な大きさに設定され、拡大サイズの画像が表示される位置は、任意の位置(例えば表示面の左側部分)に設定される。
また、一例として、図13に示されるように9つの他拠点のうち発話者がいる他拠点の数が2である場合には、拡大サイズの大きさ及び該拡大サイズの画像が表示される位置は、2つの他拠点(例えば他拠点D、F)それぞれからの画像全体が異なる位置(例えば表示面の左側部分、右側部分)に例えば同じ大きさで一緒に表示されるように設定される。
また、一例として、図14に示されるように9つの他拠点のうち発話者がいる他拠点の数が3である場合には、拡大サイズの大きさ及び該拡大サイズの画像が表示される位置は、3つの他拠点(例えば他拠点B、E、H)それぞれからの画像全体が異なる位置(例えば上側部分、左下側部分、右下側部分)に例えば同じ大きさで一緒に表示されるように設定される。
次のステップS13では、音量レベルが継続して上記閾値以上の他拠点からの画像が、設定された拡大サイズで設定された位置に表示される(図12〜図14参照)。
次のステップS15では、音量レベル判断部160での判断結果に基づいて、ステップS7の判断時点での音量レベルが上記閾値未満の他拠点があるか否か、すなわちステップS7の判断時点で少なくとも1つの他拠点からの音声データの音量レベルが該閾値未満であるか否かが判断される。ステップS7の判断時点で音量レベルが上記閾値未満の他拠点には、発話者がいないと推定できるため、以下では、該他拠点を「発話者がいない他拠点」とも称する。そこで、音量レベル判断部160とCPU101とを含んで、他拠点における発話者の有無を判定する判定手段が構成されている。ステップS15での判断が肯定されると、ステップS17に移行する。一方、ステップS15での判断が否定されると、ステップS1に戻る。すなわち、発話者がいる他拠点及び該他拠点の数、及び発話者がいない他拠点及び該他拠点の数が随時検出され、その検出結果に応じて、発話者がいる他拠点が拡大サイズで、発話者がいない他拠点が縮小サイズでディスプレイ14の表示面に表示される。このように、自拠点(一拠点)では、発話者の有無に応じて、表示面に表示される画像のサイズが拡大サイズと縮小サイズとの間で切り換えられることになる。
ステップS17では、音量レベルが上記閾値未満の他拠点の数が取得される。
次のステップS19では、音量レベルが上記閾値未満の他拠点の数に応じて、縮小サイズの大きさ及び縮小サイズで表示する画像の位置が設定される。
一例として、図15に示されるように9つの他拠点のうち発話者がいない他拠点の数が9である場合には、縮小サイズの大きさ及び縮小サイズで表示する画像の位置は、9つの他拠点(例えば他拠点A〜I)からの9つの画像が表示面の異なる位置に位置するように設定される。図15では、9つの他拠点からの9つの画像は、一例として、表示面上で3×3のマトリクス状に配列されている。
また、一例として、図12に示されるように9つの他拠点のうち発話者がいない他拠点の数が8である場合には、縮小サイズの大きさ及び縮小サイズで表示する画像の位置は、8つの他拠点(例えば他拠点A、B、C、E、F、G、H、I)からの8つの画像それぞれが表示面の異なる位置に位置するように設定される。図12では、他拠点A、E、Gそれぞれからの画像の一部は、他拠点Dからの画像の影に隠れている。
また、一例として、図13に示されるように9つの他拠点のうち発話者がいない他拠点の数が7である場合には、縮小サイズの大きさ及び縮小サイズで表示する画像の位置は、7つの他拠点(例えば他拠点A、B、C、E、G、H、I)からの7つの画像それぞれが表示面の異なる位置に位置するように設定される。図13では、他拠点A、B、C、E、G、H、Iそれぞれからの画像の一部は、他拠点D又はFからの画像の影に隠れている。
また、一例として、図14に示されるように9つの他拠点のうち発話者がいない他拠点の数が6である場合には、縮小サイズの大きさ及び縮小サイズで表示する画像の位置は、6つの他拠点(例えば他拠点A、C、D、F、G、I)からの6つの画像それぞれが表示面の異なる位置に位置するように設定される。図14では、他拠点A、C、D、F、G、Iそれぞれからの画像の一部は、他拠点B、E及びHの少なくとも1つからの画像の影に隠れている。
次のステップS21では、音量レベルが閾値未満の他拠点からの画像が、設定された縮小サイズで設定された位置に表示される(図12〜図15参照)。ステップS21が実行された後、フローは、ステップS1に戻る。
以上説明したように本実施形態のテレビ会議装置100は、少なくとも3つの拠点(例えば10拠点)間でのインターネット(通信網)を介した画像及び音声の送受信によるテレビ会議(情報共有)を行うために任意の一拠点で用いられる通信装置であって、前記一拠点と異なる少なくとも2つの他拠点(例えば9つの他拠点)からインターネットを介して個別に送られてくる少なくとも2つ(例えば9つ)の音声データ(音声に関する情報)に基づいて、該他拠点における発話者の有無を判定する、音量レベル判断部160を含む判定手段と、該判定手段で発話者がいないと判定された他拠点からインターネットを介して送られてくる画像を縮小サイズ(所定サイズ)で表示面に表示し、前記判定手段で発話者がいると判定された他拠点からインターネット介して送られてくる画像を前記縮小サイズよりも大きい拡大サイズで前記表示面に表示する、表示処理部140を含む表示手段と、を備えている。そして、表示手段は、複数の他拠点それぞれに発話者がいるとき、前記複数の他拠点から個別に送られてくる複数の画像を前記拡大サイズで前記表示面に一緒に表示する。
この場合、複数の他拠点それぞれに発話者がいるとき、該複数の他拠点からの複数の画像が表示面に拡大サイズで一緒に表示される。
この結果、複数の他拠点に発話者がいるとき、該発話者を容易に認識(把握)することができる。すなわち、複数の他拠点同士が会話状態にあるとき、会話状態にある複数の他拠点を容易に認識(把握)することができる。
また、前記判定手段は、少なくとも2つの他拠点それぞれでの音量レベルが閾値以上である状態が所定時間継続していると見做されるとき該他拠点に発話者がいると判定するため、該判定の信頼性が高い。これに対し、仮に一の時点で音量レベルが閾値以上である他拠点を一律に発話者がいる拠点と判定すると、例えば相槌等を行っている実質的に発話者ではない会議参加者も発話者と見做されるため、実情にそぐわず、該判定の信頼性が低い。
また、前記表示手段は、前記判定手段で発話者がいると判定された他拠点の数に応じて、前記拡大サイズの大きさを設定するため、該他拠点の数によらず、該他拠点からの画像を視認し易くすることができる。
一方、図16(A)及び図16(B)に示される比較例では、複数の他拠点のうち音量レベルが最も大きい他拠点を発話者がいる他拠点(例えば他拠点A´又は他拠点B´)とし、該他拠点のみを拡大サイズで表示し、残りの他拠点を縮小サイズで表示する。この場合、複数の他拠点に発話者がいるとき、拡大サイズで表示される画像が頻繁に切り替わるため、現に発話者がいる複数の他拠点を認識(把握)することは困難であった。また、会話状態にある複数の他拠点がいずれの他拠点であるかを認識(把握)することも困難であった。また、テレビ会議が媒体に録音録画され、該媒体を再生して視聴するとき、会話状態にある複数の他拠点がいずれの他拠点であるかを認識(把握)することが困難であった。
また、上記実施形態では、発話者がいる複数の他拠点からの画像の拡大サイズが同じ大きさに設定されているが、これに限らず、例えば、図17に示されるように、互いに異ならせても良い。具体的には、発話者が現に発話中の他拠点(例えば他拠点D)からの画像を大きい拡大サイズで表示し、発話者が発話を中断中の他拠点(例えば他拠点F)からの画像を小さい拡大サイズで表示することとしても良い。また、発話者がいる他拠点での発話時間を計測し、発話時間が長い他拠点ほど大きい拡大サイズで表示することとしても良い。この場合、発話者がいる他拠点からの画像の拡大サイズの大きさを発話時間に応じて徐々に又は段階的に変えても良い。この場合、発話時間が長い他拠点ほど拡大サイズを大きくすることが好ましい。逆に言うと、発話時間が短い他拠点ほど拡大サイズを小さくすることが好ましい。
また、上記実施形態では、発話者がいる複数の他拠点からの画像を拡大サイズで表示面の異なる位置に表示しているが、これに限らず、例えば、図18に示されるように、互いに少なくとも一部が重なるように表示しても良い。具体的には、現に発話中の他拠点(例えば他拠点E)からの画像を大きい拡大サイズで最前面に表示し、発話を中断中の3つの他拠点(例えば他拠点F、H、I)からの画像を小さい拡大サイズで背面に表示することとしても良い。すなわち、複数の拡大サイズの画像を少なくとも一部が重なるように表示することとしても良い。また、この場合、発話者がいる複数の他拠点での発話時間を計測し、発話時間が長い他拠点ほど大きい拡大サイズで前面に表示することとしても良い。この場合、発話者がいる他拠点からの画像の拡大サイズの大きさを発話時間に応じて徐々に又は段階的に変えても良い。この場合、発話時間が長い他拠点ほど拡大サイズを大きくすることが好ましい。逆に言うと、発話時間が短い他拠点ほど拡大サイズを小さくすることが好ましい。
また、実際には、発話の途中に(例えば発話の間等に)音量レベルが上記閾値未満になることが想定される。すなわち、ある他拠点に発話者がいる場合であっても、ステップS3の判断時点で音量レベルが該閾値以上であり、かつステップS7の判断時点で音量レベルが閾値未満になることが想定される。そこで、ステップS3とステップS5との間や、ステップS7とステップS8との間に例えばステップS5及びステップS7から成る一連のステップと同様の一連のステップを少なくとも1回行っても良い。
また、実際には、複数の他拠点それぞれに現に発話者がいる場合、該発話者同士が会話をしていることが多く、発話の時間帯は、発話者毎に異なることが想定される。そこで、図19(A)〜図19(C)に示されるように、例えば、発話者がいる複数の他拠点からの複数の画像を同じ大きさの拡大サイズで表示する場合に、該複数の他拠点のうち発話者が現に発話中の他拠点の画像を別の他拠点の画像と識別するための処理を施すこととしても良い。この場合、例えば、発話者がいる複数の他拠点のうちステップS7の判断時点で音量レベルが最も大きい他拠点を発話者が現に発話中の他拠点と見做しても良い。この結果、発話者が現に発話中の他拠点を容易に視認することができる。
具体的には、発話者が現に発話中の他拠点からの画像の枠と別の他拠点からの画像の枠とを異ならせても良い。例えば、図19(A)に示されるように、発話者が現に発話中の他拠点Fからの画像の枠を別の他拠点Dからの画像の枠よりも太く表示しても良い。また、例えば、発話者が現に発話中の他拠点からの画像の枠の線と別の他拠点からの画像の枠の線とを異ならせても良い。具体的には、発話者が現に発話中の他拠点からの画像の枠を例えば実線等にし、別の他拠点からの画像の枠を例えば破線等にしても良い。また、発話者が現に発話中の他拠点からの画像の枠のみを例えば二重線等にしても良い。また、例えば、発話者が現に発話中の他拠点からの画像の枠の色と別の他拠点からの画像の枠の色とを異ならせても良い。
また、例えば、図19(B)に示されるように、発話者が現に発話中の他拠点Fからの画像の解像度よりも別の他拠点Dからの画像の解像度を低くしても良い。また、例えば、発話者が現に発話中の他拠点からの画像の明度よりも別の他拠点からの画像の明度を低くしても良い。また、発話者が現に発話中の他拠点からの画像のフレームレートよりも別の他拠点からの画像のフレームレートを低くしても良い。この場合、一拠点でのテレビ会議装置100のCPU101の負荷を低減することができ、ひいては消費電力の低減を図ることができる。
また、例えば図19(C)に示されるように、発話者が現に発話中の他拠点Fからの画像に、図形、記号、文字、数字、模様、及びこれらの組み合わせ等(例えば漢字の発を図形の円で囲んだもの)を付加する処理を施しても良い。
また、上記実施形態では、一拠点において、各他拠点からの音声データの音量レベルが異なる2つの時点で(実質的に所定時間継続して)閾値以上であるか否かを判断しているが、これに限られない。例えば、他拠点において、該他拠点の音声データの音量レベルが実質的に所定時間継続して閾値以上であるか否かを判断して、該判断結果を、インターネットを介して一拠点に送信することとしても良い。この場合、一拠点のテレビ会議装置には、該他拠点における発話者の有無の判断結果が送られるため、発話者の有無を判定する判定手段が必要なく、構成及び制御を簡略化することができる。
また、上記実施形態では、テレビ会議は、10拠点間で行われているが、これに限らず、要は、少なくとも3つの拠点間で行われれば良い。この場合も、各拠点にテレビ会議装置100を配置することが好ましい。
また、上記実施形態では、表示手段が画像を表示する表示面は、ディスプレイ14の表示面とされているが、これに限られない。例えば、スクリーンの表面(例えばテレビ会議装置にプロジェクタを接続した場合)、外部モニタの画面、テレビの画面、パソコンの画面等であっても良い。この場合、ディスプレイ14は、必須ではない。また、表示面の大きさも特に限定されない。
また、上記実施形態では、ディスプレイとして、いわゆる液晶ディスプレイが採用されているが、これに限らず、例えばプラズマディスプレイ、有機EL(エレクトロルミネッセンス)ディスプレイなどの、他のディスプレイを採用しても良い。
また、上記実施形態では、電子カメラ、マイク及びスピーカは、筐体に一体に設けられているが、これらの少なくとも1つは、筐体と別体であっても良い。
また、上記実施形態では、テレビ会議装置100は、一室内で用いられているが、これに限定されない。テレビ会議装置100は、上述の如く、携帯性に優れるため、特定の会議室内に据え置かれる必要はなく、自由に持ち運びし、様々な場所で用いられることが期待できる。
また、上記実施形態では、本発明は、いわゆるポータブルタイプ(可搬型)のテレビ会議装置100に適用されたが、いわゆる据え置き型のテレビ会議装置にも適用できる。
また、上記実施形態では、各拠点のユーザの数は、1人とされているが、これに限らず、複数人であっても良い。この場合、例えば、各拠点の全ユーザが表示された画像を他の拠点に送っても良いし、ビュー切換ボタン58を操作して、該拠点の一部のユーザが表示された画像を他の拠点に送っても良い。
また、上記実施形態のテレビ会議装置(通信装置ともいう)で使用される、例えば図11に示される一連の処理を実行するプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、上記実施形態のテレビ会議装置(通信装置ともいう)で使用される、例えば図11に示される一連の処理を実行するプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、上記実施形態のテレビ会議装置(通信装置ともいう)で実施されるフローを実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
また、上記実施形態のテレビ会議装置(通信装置ともいう)で使用される、例えば図11に示される一連の処理を実行するプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
なお、上記実施形態では、本発明をテレビ会議の専用装置に適用した例を挙げて説明したが、パーソナルコンピュータ、スマートフォンなどのカメラと音声入力の機能を備えた装置であればいずれにも適用することができる。
また、上記実施形態では、テレビ会議に用いられるテレビ会議装置100を通信装置の一例として説明したが、これに限られない。すなわち、本発明の通信装置は、少なくとも3つの拠点間での画像及び音声の送受信による情報共有に用いられるコミュニケーションツールとして多様な態様で使用可能である。