JPH11177952A

JPH11177952A - ビデオ会議装置

Info

Publication number: JPH11177952A
Application number: JP9341450A
Authority: JP
Inventors: Mikio Sugiyama; 実輝雄杉山
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1997-12-11
Filing date: 1997-12-11
Publication date: 1999-07-02
Anticipated expiration: 2017-12-11
Also published as: JP3031320B2

Abstract

(57)【要約】【課題】複数の端末が参加するビデオ会議において、
発言者を効果的に表示することができ、しかも画像デー
タが必要でない場合、画像データの処理を行わず、ＣＰ
Ｕ及びネットワークの負荷を抑えることができるビデオ
会議装置の提供。【解決手段】音声データ処理手段１２２は、音声デー
タの送信の際には、音声データヘッダ情報格納部１２４
に格納されたヘッダ情報を音声データに付加して送信
し、また受信した音声データからヘッダ情報を取得し、
音声データヘッダ情報格納部１２４に格納する。表示制
御手段１２７は音声データヘッダ情報格納部１２４に格
納されたヘッダ情報にしたがって画像データを表示装置
１１６に表示する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ネットワークに接
続され、音声データ、画像データ、テキストデータ等の
送受信を行うことのできるビデオ会議装置に関する。

【０００２】

【従来の技術】近年、電話回線、ＬＡＮ等のネットワー
クに接続されたパーソナルコンピュータやビデオ会議端
末を使い、お互いの顔を見ながら話をしたり、アプリケ
ーションソフトウェアやホワイトボード等でデータを共
有する機能を有し、テキストデータ、グラフィックスデ
ータ、音声データ、および画像データ等をリアルタイム
にやりとりすることができるビデオ会議装置が実用化さ
れている。これらのビデオ会議装置は、カメラ等の画像
入力装置が接続され、ビデオ会議参加者や会議資料等を
撮影することができ、撮影した動画像データもしくは画
像データを表示することができる。

【０００３】従来、この種のビデオ会議装置は、例えば
特開平７−１０７４５１号公報に記載されている。この
公報に記載されているビデオ会議装置は、テレビ会議に
おける発言者を特定することを可能にし、会議の進行を
円滑にし、混乱の発生を未然に防ぐことのできるビデオ
会議装置を提供することを目的としている。

【０００４】図９は、この公報に記載された実施例のブ
ロック図である。図９に示すように、会議の模様を撮影
するカメラ２０１と、受信した映像を画面に表示するモ
ニタ２０２と、送信する画像信号を符号化すると共に受
信した画像信号を復号化する画像信号符号化／復号化部
２０３と、受信した音声信号を復号化すると共に復号化
した音声信号を増幅する受信音声増幅回路を含む音声信
号復号化部２０６と、音声信号を音声に変えて出力する
スピーカ２０４と、音声信号を入力するマイクロホン２
０９と、入力音声信号を符号化する音声信号符号化部２
１０と、画像信号、音声信号、データおよび会議制御信
号を多重／分離する多重化／分離部２１１と、通信回線
２１３とのインターフェイスを取る通信インターフェイ
ス２１２とを備え、音声に変えて出力するスピーカ通信
相手先の出席者の氏名および発言者の音声を登録する通
信相手先情報記憶部２０８と、通信相手先情報記憶部２
０８における登録を制御すると共にこの登録に基づいて
発言者を特定する通信相手先認識部２０７と、特定され
た発言者の氏名をモニタ２０２に表示する通信相手先表
示部２０５とを備えている。

【０００５】この画像通信端末装置では、相手先から送
られてきた信号は、多重化／分離部２１１で画像信号、
音声信号、データおよび会議制御信号に分離され、この
内、画像信号は、画像信号符号化／復号化部２０３で復
号された後、通信相手先表示部２０５を経てモニタ２０
２に送られ、モニタの画面に相手先の映像を映し出す。
また、音声信号は、音声信号復号化部２０６で復号化・
増幅された後、スピーカ２０４に送られ音声として出力
される。音声信号は、同時に通信相手先情報記憶部２０
８および通信相手先認識部２０７に送られる。

【０００６】通信相手先情報記憶部２０８は、不揮発性
メモリ（ＥＥＰＲＯＭ等）で構成され、音声信号が入力
したとき、通信相手先認識部２０７からの指示がある場
合には、入力した音声データを格納する。また、通信相
手先情報記憶部２０８は、別に入力された相手先の会議
出席者の氏名を音声データと関連付けて記憶する。

【０００７】通信相手先認識部２０７は、音声信号が入
力すると、通信相手先情報記憶部２０８に格納された音
声データを読み出し、入力音声信号の音声データと比較
する。それらの一致を検出したときは、その音声データ
に対応する出席者氏名のデータを通信相手先情報記憶部
２０８から読み出し、その出席者氏名のデータを通信相
手先表示部２０５に出力する。

【０００８】通信相手先表示部２０５は、通信相手先認
識部２０７から出席者氏名のデータを受け取ると、この
データを画像信号に加えてモニタ２０２に送り、モニタ
２０２は、相手先から送られた映像に重ねて出席者氏名
を画面に表示する。

【０００９】次に、動作について説明する。

【００１０】この画像通信端末装置を用いてテレビ会議
を開く場合は、会議冒頭に各出席者が自己紹介を行い、
その間を利用して、受信側は、通信相手先認識部２０７
を通じて通信相手先情報記憶部２０８に音声データの記
憶を行わせる。同時に受信者は、発言中の出席者氏名
を、入力装置を用いて通信相手先情報記憶部２０８に入
力し、通信相手先情報記憶部２０８に、出席者氏名と音
声データとを関連テーブルに記憶させる。

【００１１】こうして通信相手先情報記憶部２０８にお
ける準備が整った後は、相手先の出席者が発言した場合
には、その音声信号を受信した通信相手先認識部２０７
が、音声データを通信相手先情報記憶部２０８に記憶さ
れた音声データと比較し、発言者の氏名を検出する。検
出された発言者氏名は、通信相手先表示部２０５に送出
され、モニタ画面に表示させる。従って、受信側の出席
者は、モニタに表示された氏名から発言者を認識するこ
とができる。

【００１２】また、会議の信号に伴って通信相手先情報
記憶部２０８の登録データを拡充していく方法を採るこ
とも可能である。この場合は、発言者の会議における発
言中に、その音声データを通信相手先情報記憶部２０８
に記憶させると共に、その発言者の氏名を確認して通信
相手先情報記憶部２０８に登録する。

【００１３】通信相手先認識部２０７は、会議中、通信
相手先情報記憶部２０８に記憶されたデータと発言者の
音声データとを常時比較し、一致する音声データを検出
した場合は、通信相手先情報記憶部２０８から発言者氏
名を読み出し、それをモニタ２０２の画面に表示する。

【００１４】一方、音声データが一致しない場合は、そ
の音声データを通信相手先情報記憶部２０８に登録する
と共に、発言者氏名を確認して通信相手先情報記憶部２
０８に登録する。

【００１５】この方式では、会議において発言しない者
の音声データを記録する必要がないため、記録すべきデ
ータ量が少なくて済む。

【００１６】こうして、音声認識に基づいて、会議にお
ける発言者をモニタ上で明らかにすることにより、出席
者は、発言者を正しく認識することができ、テレビ会議
を円滑に進めることができる。

【００１７】なお、発言者を表示する手段としては、氏
名の表示以外に、顔写真の静止画を表示したり、モニタ
画像中の発言者の位置を矢印で表示する等の方法を採る
こともできる。

【００１８】また、発言者に応じた記号を画面に表示さ
せて、受信者を理解させる方法を採ることもできる。こ
の場合には、通信相手先情報記憶部２０８に予め格納し
た複数種類の記号と音声データとの対応テーブルを通信
相手先情報記憶部２０８内に形成するだけで足りるた
め、通信相手先情報記憶部２０８への発言者の氏名の入
力が不要になり、構成および操作を簡略化することがで
きる。

【００１９】なお、発言者のモニタ上への表示は、必要
に応じて行なう。

【００２０】また、特開平７−３３６６６０号公報に
は、表示されている発言者が誰であるかを容易に認識で
き、しかも会議参加者に関する映像情報を自然かつ詳細
に認識できることを目的とするテレビ会議システムが記
載されている。

【００２１】図１０は、この公報に記載された実施例の
全体構成を示すブロック図である。図１０において、端
末３０１ａ〜ｇと端末制御装置３０２とは、デジタル通
信網としてのＩＳＤＮ３０３を介して相互に通信可能に
接続されている。

【００２２】各端未３０１ａ〜３０１ｇは、同様に構成
されており、カメラ３１１と、マイク３１２と、モニタ
３１３と、スピーカ３１４と、映像情報を所定のフォー
マット（例えば、共通中間フォーマット＝ＣＩＦ（３５
２×２８８ドット））で圧縮符号化するＣＯＤＥＣ３１
５と、音声情報を圧縮符号化するＣＯＤＥＣ３１６と、
映像情報を伸張復号化するＣＯＤＥＣ３１７と、音声情
報を伸張復号化するＣＯＤＥＣ３１８とをそれぞれ備え
ている。

【００２３】端末制御装置３０２は、音声制御部３２１
と、画面サイズテーブル部３２２と、音声レベル判定部
３２３と、画面サイズ制御部３２４と、画面合成部３２
５とを備える。音声制御部３２１は、各端末３０１ａ〜
３０１ｇから送信された音声情報を全て加算合成し、合
成した音声情報を各端末３０１ａ〜３０１ｇに対して返
送する。画面サイズテーブル部３２２は、図１１に示す
テーブルＴ上に相互に異なる４つの表示サイズＳ１〜Ｓ
４を格納している。表示サイズＳ１〜Ｓ４は、各端末３
０１ａ〜３０１ｇの映像情報の表示サイズをそれぞれ表
し、例えば、３００×３００ドット、２００×１５０ド
ット、１８０×１００ドット、１５０×８０ドットにそ
れぞれ選ばれている。

【００２４】音声レベル判定部３２３は、各端末３０１
ａ〜３０１ｇから送信された音声情報の音声レベルを測
定し、測定結果に基づいて音声レベルに対応して各端末
３０１ａ〜３０１ｇから送信された映像情報の表示サイ
ズの相対的な大小をそれぞれ決定し、決定結果に基づい
て画面サイズテーブル部３２２から表示サイズＳ１〜Ｓ
４を読み出す。また、音声レベル判定部３２３は、モニ
タ３１３の一画面における表示位置を決定する。画面サ
イズ制御部３２４は、各端末３０１ａ〜３０１ｇ送信さ
れた映像情報のフォーマットを音声レベル判定部３２３
により指定された表示サイズに変換する。画面合成部３
２５は、各端末３０１ａ〜３０１ｇの変換された映像情
報を１つの画面に全て合成し、合成した映像情報を各端
末３０１ａ〜３０１ｇに返送する。

【００２５】次いで、図１０の動作を説明する。まず、
各端末３０１ａ〜３０１ｇからの音声情報および映像情
報の送信動作について説明する。各端末は、ＩＳＤＮ３
０３を通じて端末制御装置３０２に対して発呼し、例え
ば端末３０１ａと端末制御装置３０２との間のコネクシ
ョンを確立する。次いで、カメラ３１１から会議参加者
Ａに関する映像情報を取り込むとともに、マイク３１２
から会議参加者Ａの音声情報を取り込む。そして、ＣＯ
ＤＥＣ３１５、３１６によりデジタル化、圧縮した映像
情報、音声情報をＩＳＤＮ３０３を通じて端末制御装置
３０２へ送信する。他の端末３０１ｂ〜３０１ｇでも上
記と同様の動作が行われ、映像情報と音声情報とが端末
制御装置３０２へ送信される。

【００２６】次に、端末制御装置３０２の動作について
説明する。音声制御部３２１は、各端末３０１ａ〜３０
１ｇから送信された音声情報を全て加算合成する。ま
た、各端末３０１ａ〜３０１ｇから送信された音声情報
は、音声レベル判定部３２３に入力される。音声レベル
判定部３２３は、各端末３０１ａ〜３０１ｇの音声情報
の音声レベルを測定し、測定結果に基づいて音声レベル
に対応して各端末３０１ａ〜３０１ｇから送信された映
像情報の表示サイズの相対的な大小をそれぞれ決定す
る。各端末の音声レベルに応じて画面サイズテーブル部
３２２から端末毎に映像情報を表示する画像サイズ情報
を読み出す。

【００２７】例えば、端末３０１ｅ（図示せず）の会議
参加者Ｅ（図１０において図示せず）の音声レベルが最
も大きい場合、音声レベル判定部３２３は、会議参加者
Ｅを発言者であると判定し、端末３０１ｅに対して画像
サイズテーブル部３２２から最も大きな表示サイズＳ１
を読み出すとともに、他の端末３０１ａ〜３０１ｄ、３
０１ｆ、３０１ｇに対して相対的に小さな表示サイズＳ
３を読み出す。そして、音声レベル判定部３２３は、読
み出した各端末３０１ａ〜３０１ｇの画像情報の表示サ
イズＳ１、Ｓ３を画面サイズ制御部３２４に通知する。
通知があると、画面サイズ制御部３２４は、各端未３０
１ａ〜３０１ｇから入力された映像情報を補完あるいは
間引きすることによって表示する画面のサイズを音声レ
ベル判定部３２３から指定されたサイズＳ１、Ｓ３にそ
れぞれ変換する。これにより、端末３０１ｅの映像情報
の表示サイズが相対的に大きくなり、他の端末３０１ａ
〜３０１ｄ、３０１ｆ、３０１ｇの表示サイズが相対的
に小さくなる。

【００２８】また、音声レベル判定部３２３は、表示サ
イズＳ１、Ｓ３にそれぞれ変換された画像情報の表示位
置を画面合成部３２５に通知する。通知があると、画面
合成部３２５は、音声レベル判定部３２３の指定にした
がって表示サイズＳ１、Ｓ３にそれぞれ変換された映像
情報を１枚の画面（例えば、Video Graphics Array=Ｖ
ＧＡ（６４０×４８０ドット））上に合成する。音声制
御部３２１において合成された音声情報は、ＩＳＤＮ３
０３を介して各端末３０１ａ〜３０１ｇに返送される。
また、画面合成部３２５において合成された映像情報
は、ＩＳＤＮ３０３を介して各端末３０１ａ〜３０１ｇ
に返送される。

【００２９】次いで、各端末３０１ａ〜ｇの音声情報お
よび映像情報の受信動作について説明する。端末３０１
ａ〜３０１ｇは、受信した音声情報をＣＯＤＥＣ３１８
により復号化し、スピーカ３１４から再生する。これに
より、各端未３０１ａ〜３０１ｇのそれぞれにおいて会
議参加者全員の音声を聞くことができる。また、端末３
０１ａ〜３０１ｇは、受信した映像情報をＣＯＤＥＣ３
１７により復号化し、モニタ３１３の画面上に表示す
る。これにより、各端末３０１ａ〜３０１ｇのそれぞれ
において会議参加者全員の映像を見ることができる。

【００３０】図１２は、端末３０１ａ〜３０１ｇのモニ
タ３１３に映し出された一画面を示す図である。図１２
において、参加者Ｅの映像の表示サイズＳ１は、他の参
加者Ａ〜Ｄ、Ｆ、Ｇの表示サイズＳ３よりも大きく映し
出されている。したがって、現在の発言者が参加者Ｅで
あることが容易に想像できる。また、参加者Ｅの表示サ
イズが大きいので、発言者の表示や仕草や発言者が示し
た資料なども自然、かつ詳細に認識することができる。

【００３１】なお、音声レベル判定部３２３を、音声レ
ベルの最も大きな端末の画像情報の表示位置をモニタ３
１３の一画面におけるほぼ中心に決定するよう構成して
もよい。この場合には、図１３に示すように、音声レベ
ルの最も大きな端末３０１ｅの発言者Ｅの画像情報が各
端末３０１ａ〜３０１ｇのモニタ３０３のほぼ中心に表
示されることになる。したがって、常にモニタ３１３の
中心に発言者の画像情報が映し出されるので、視線の移
動がなくなり、発言者の認識がさらに容易になる。

【００３２】また、上述の実施例では、２つのレベルで
表示サイズを決定するようにしたが、音声レベルの大き
さに比例して３以上のレベルで表示サイズを決定するよ
うにしてもよい。この場合、音声レベル判定部３２３
を、各端末３０１ａ〜３０１ｇの映像情報の表示サイズ
の大きさの順番に並ぶよう各端末３０１ａ〜３０１ｇの
表示位置を決定するよう構成してもよい。この場合に
は、図１４に示すように、音声レベルの最も大きい参加
者Ｅ、参加者Ａ、参加者Ｂの順で表示サイズが並ぶこと
になる。したがって、現在主に討論に参加している者
（例えば質疑応答など）がＥとＡとＢであることが容易
に認識できるとともに、メインの発言者が常に同じ位置
に表示されるため、視線の移動も必要なく、発言者の認
識がさらに容易になる。

【００３３】図１５は、特開平７ー３３６６６０号公報
に記載された第二の実施例のテレビ会議システムの全体
構成を示すブロック図である。なお、図１０の実施例と
対応する部分には、同一番号を付し、説明を省略する。
図１５の実施例においては、各端末３０１ａ〜３０１ｇ
には、左右のチャネル用のスピーカ３１４Ｒ、３１４Ｌ
と、ＣＯＤＥＣ３１８Ｒ、３１８Ｌが設けられている。
また、端末制御装置３０２の音声レベル判定部３２３
は、音声制御部３２１に対して音声レベルの最も大きな
端末の画像情報の表示位置を通知するよう構成されてい
る。音声制御部３２１は、音声レベル判定部３２３の通
知にしたがって、音声レベルの最も大きな端末の音像が
画像情報の表示位置に定位するように合成した音声情報
を左右の２チャネルで、かつ２チャネルの音声情報の音
声レベルを変化させて返送するよう構成されている。

【００３４】次いで、図１５の動作を説明する。なお、
端末３０１ａ〜３０１ｇの音声情報および映像情報の送
信動作、映像情報の受信動作は、図１０の場合と同様で
あるので、説明を省略する。また、端末制御装置３０２
の映像情報の合成動作も図１０の場合と同様であるの
で、説明を省略する。

【００３５】したがって、まず、端末制御装置３０２の
音声情報の合成動作を説明する。音声レベル判定部３２
３は、音声制御部３２１に対して最も大きな音声レベル
の端末、例えば３０１ｅの映像情報の表示位置だけを通
知する。音声制御部３２１は、音声レベル判定部３２３
からの通知により、合成した音声情報を左右の２チャネ
ルで、かつ２チャネルの音声情報の音声レベルを変化さ
せて返送する。

【００３６】ここで、例えば、モニタ３１３上の表示が
図１２のように合成されている場合、最も音声レベルの
大きな参加者Ｅの映像情報は、画面の左下に表示されて
いる。このため、音声制御部３２１は、参加者Ｅの音声
情報については左（Ｌ）チャネルの音声レベルを右
（Ｒ）チャネルの音声レベルよりも高くし、その他の参
加者Ａ〜Ｄ、Ｆ、Ｇの音声情報については左（Ｌ）チャ
ネル、右（Ｒ）チャネルとも同じ音声レベルで合成す
る。そして、音声制御部３２１は、このように合成した
左（Ｌ）チャネルおよび右（Ｒ）チャネルの音声情報を
各端末３０１ａ〜３０１ｇに返送する。

【００３７】端未３０１ａ〜３０１ｇは、受信した左
（Ｌ）チャネルと右（Ｒ）チャネルの音声情報をＣＯＤ
ＥＣ３１８Ｌ、３１８Ｒにより復号化し、スピーカ３１
４Ｌ、３１４Ｒから再生する。ここで、会議参加者Ｅの
音声情報は左（Ｌ）チャネルの音声レベルが右（Ｒ）チ
ャネルの音声レベルよりも高く合成されている。このた
め、再生される参加者Ｅの音像は、左右のスピーカ３１
４Ｌ、３１４Ｒの中心よりも左側に定位する。したがっ
て、会議参加者Ｅの表示位置と音像の定位置とが一致
し、発言者の認識がさらに容易になる。

【００３８】なお、各端末３０１ａ〜３０１ｇから送信
した音声情報を端末制御装置３０２からその端末に返送
するようにしたが、その端末に対しては返送しないよう
にしてもよい。これにより、ハウリングを防止すること
ができる。また、各端末３０１ａ〜３０１ｇから送信し
た映像情報を端末制御装置３０２からその端末に返送す
るようにしたが、その端末に対しては返送しないように
してもよい。これにより、音声レベルの最も大きい参加
者の映像の表示サイズをさらに大きくすることができる
ので、さらに現在の発言者を容易に認識でき、発言者の
表情や仕草や発言者が示した資料なども自然、かつ詳細
に認識することができる。

【００３９】また、音声レベル判定部３２３は、音声制
御部３２１に対して最も大きな音声レベルの端末だけを
通知するようにしたが、他の端末の映像情報の表示位置
についても、通知するようにしてもよい。この場合に
は、図１４のような場合であっても、会議参加者Ａ、Ｂ
の表示位置と音像の定位位置とが一致し、発言者の認識
がさらに容易になる。

【００４０】

【発明が解決しようとする課題】特開平７−１０７４５
１号公報に記載されている実施例の第１の問題点は、音
声データの記録および関連テーブルを作成するのに手間
取ることである。

【００４１】その理由は、会議冒頭に各出席者が自己紹
介を行ない、その間を利用して、受信側が会議参加者の
音声データを記憶するとともに、出席者氏名を入力する
必要があるためである。特に、会議参加者が多い場合
に、出席者氏名と音声データを関連付けた関連テーブル
を作成するのに時間がかかる。

【００４２】特開平７−１０７４５１号公報に記載され
ている実施例の第２の問題点は、発言者の音声データを
記憶した音声データと常時比較するために、ＣＰＵに負
荷がかかることである。

【００４３】その理由は、会議中、記憶された音声デー
タと発言者の音声データを常時比較し、発言者の音声デ
ータを検出しているためである。

【００４４】特開平７−１０７４５１号公報に記載され
ている実施例の第３の問題点は、会議の進行を円滑に行
えないことである。

【００４５】その理由は、発言者を特定するための音声
データの記憶を、会議開催時もしくは、会議進行中に行
うことを挙げているが、どちらの方法においても、発言
者の氏名を入力装置を介し、入力する必要があることか
ら会議の進行を妨げる恐れがあるためである。また、発
言者を特定する方法として、発言者に応じた記号を画面
に表示させる方法を挙げているが、会議参加者が多くな
ると、参加者に対応した多数の記号を用意する必要が生
じるという問題と、記号による発言者の特定が難しくな
るという問題が生じる。

【００４６】特開平７−３３６６６０号公報に記載され
ている実施例の問題点は、ネットワークの負荷およびＣ
ＰＵの負荷が大きくなるということである。

【００４７】その理由は、会議用端末と端末制御装置で
構成され、各端末から送信される音声情報および映像情
報を端未制御装置において、合成し各端末に返送してい
る。そのため、接続する端末数が増加すると、端末制御
装置のＣＰＵ負荷が増加するとともに、通信回線のトラ
フィックも増加するという問題が生じる。

【００４８】そこで本発明の目的は、上記従来技術の問
題点を解決するもので、会議に参加する端末のＣＰＵ負
荷、およびネットワークのトラフィックを軽減し、なお
かつ、会議参加者の特定が容易に行えるとともに、会議
の進行を円滑に行えるビデオ会議装置を提供することで
ある。

【００４９】

【課題を解決するための手段】上記の課題を解決するた
め、本発明のビデオ会議装置は、通信回線を介して相互
に接続されるビデオ会議装置本体、音声入力装置、画像
入力装置、データ入力装置、音声出力装置および表示装
置とより成り、前記ビデオ会議装置本体は、音声データ
の入出力制御を行う音声制御手段と、送受信される音声
データに端末を識別するための情報や、画像データの表
示指示、および形式、表示時間等の音声データヘッダ情
報の付加、ならびに取得する音声データ処理手段と、通
信回線に送出するデータを所定の形式に多重化処理し、
また受信したデータを音声データ及び画像データに分離
する処理を行う多重分離化手段と、データ入力装置から
入力した音声データヘッダ情報、および受信した音声デ
ータから音声データヘッダ情報を取得し格納する音声デ
ータヘッダ情報格納部と、音声データヘッダ情報に格納
された音声データヘッダ情報の画像表示指示情報によ
り、画像データの符号化ならびに復号化を行う画像デー
タ処理手段と、音声データヘッダ情報に従い表示制御を
行うメイン制御手段と、メイン制御手段の指示に従い表
示装置の表示制御を行う表示制御手段と通信回線を介し
てデータの送受信制御を行うための回線制御手段とを有
する。

【００５０】本発明において、音声データ処理手段は、
送信する音声データに音声データヘッダ情報格納部に格
納した音声データヘッダ情報を付加するとともに、受信
した音声データから音声データヘッダ情報を取得し音声
データヘッダ情報格納部に格納する。音声データヘッダ
情報格納部は、データ入力装置から入力された音声デー
タヘッダ情報を格納するとともに、音声データ処理手段
から供給される音声データヘッダ情報を格納する。メイ
ン制御手段は、ビデオ会議装置本体の各部の制御、なら
びに音声データヘッダ情報の付加および取得、音声デー
タヘッダ情報の格納、および表示の制御を行う。

【００５１】

【発明の実施の形態】本発明の実施の形態を図面を参照
して説明する。

【００５２】図１は、本発明の一実施形態におけるビデ
オ会議装置の構成を表わしたものである。この装置は、
ビデオ会議装置本体１１１と、これに接続された入力装
置としての音声入力装置１１２、画像入力装置１１３お
よびデータ入力装置１１４と、出力装置としての音声出
力装置１１５および表示装置１１６から構成されてお
り、通信回線１１７を介して会議の相手としての図示し
ないビデオ会議装置と接続されるようになっている。

【００５３】ここで、ビデオ会議装置本体１１１は、動
画像データ、画像データ、音声データ、テキストデー
タ、グラフィックスデータ等の各種のデータを、他の図
示しないビデオ会議装置と会議のために相互に入出力す
るための回路装置である。音声入力装置１１２は、マイ
クロフォンに代表されるもので、音声の入力を行うため
のものである。音声出力装置１１５は、スピーカやヘッ
ドフォンに代表されるもので、音声を出力するためのも
のである。画像入力装置１１３は、カメラに代表され、
画像の入力を行うようになっている。これに対して、デ
ータ入力装置１１４は、マウス、トラッキングボールの
ようなポインティングデバイスやキーボードに代表され
るもので、このビデオ会議装置の操作のための各種デー
タを入力するためのものである。表示装置１１６は、画
像入力装置１１３から入力された画像データや、通信回
線１１７によって受信した圧縮された画像データを復号
して得られた画像データあるいは接続先の図示しないビ
デオ会議装置に送出される画像データ等の画像データを
表示するもので、ＣＲＴや液晶等のディスプレイ装置に
よって構成される。

【００５４】ビデオ会議装置本体１１１は、音声入力装
置１１２ならびに音声出力装置１１５と接続された音声
制御手段１２１を備えている。音声制御手段１２１は音
声データの入出力制御を行うもので、音声データ処理手
段１２２と接続されている。音声データ処理手段１２２
は、多重分離化手段１２３、およびメイン制御手段１２
８とも接続されており、音声制御手段１２１を介して入
力される音声データを圧縮し、メイン制御手段１２８か
ら供給される図２に示すような音声データヘッダ情報を
付加し、多重分離化手段１２３に出力するとともに、多
重分離化手段１２３から受信した圧縮された音声データ
の復号を行い、音声制御手段１２１に出力するととも
に、付加されている音声データヘッダ情報を取得し、メ
イン制御手段１２８への出力を行う。

【００５５】多重分離化手段１２３は、回線制御手段１
２５を介して通信回線１１７と接続される外、画像デー
タ処理手段１２６を介して表示制御手段１２７と接続さ
れており、圧縮された音声データや画像データを通信回
線１１７に送出する際に所定のデータ形式に多重化する
処理と、回線制御手段１２５から受信したデータを音声
データならびに画像データに分離する処理を行う。ま
た、回線制御手段１２５は通信回線１１７を介してデー
タの送受信制御を行うためのものである。

【００５６】ここで、表示制御手段１２７は、画像入力
装置１１３および表示装置１１６と接続されており、こ
れらの装置から入力される画像データを表示装置１１６
に視覚的に表示する際の表示制御を行うとともに、メイ
ン制御手段１２８の指示に従い表示を行う。画像データ
処理手段１２６は、表示制御手段１２７を介して入力さ
れる画像データの符号化ならびに、回線制御手段１２５
および多重分離化手段１２３を介して入力される画像デ
ータの復号化の処理を行う。

【００５７】ビデオ会議装置本体１１１にはメイン制御
手段１２８も配置されている。メイン制御手段１２８
は、データ入力装置１１４、および各部と接続されてビ
デオ会議装置としての各種制御を行うためのものであ
る。

【００５８】音声データヘッダ情報格納部１２４は、図
示されていない会議の相手の図２に示す音声データヘッ
ダ情報を格納するとともに、メイン制御手段１２８を介
してデータ入力装置１１４から入力された音声データヘ
ッダ情報を格納するためのものである。

【００５９】図２は、音声データに付加されるへッダ情
報の構成を示す図である。音声ヘッダ情報は、図２
（ａ）に示す通り、固定長で構成される端末識別情報、
画像表示指示情報、および画像表示時間情報等で構成さ
れる。ここで、端末識別情報は、会議に参加しているビ
デオ会議装置を識別するための情報を示し、端末番号、
参加者氏名等の音声データの判別に使われる情報が格納
されている。

【００６０】画像表示指示情報は、画橡データの表示／
非表示の設定情報を示し、自端末から送信される画像デ
ータの相手側での表示／非表示、および受信した画像デ
ータの自端末での表示／非表示の設定情報が格納されて
いる。

【００６１】画像形式情報は、画像データの形式情報を
示し、画像データが静止画データ形式、もしくは動画像
データ形式かを示す情報が格納されている。

【００６２】画像表示時間情報は、画像データの表示す
る長さを設定する情報を示し、自端末から送信される画
像データの相手側での表示時間、および受信した画像デ
ータの自端末での表示時間が格納されている。

【００６３】図２（ｂ）は、図２（ａ）と同様な音声デ
ータヘッダ情報に、可変長のテキスト情報と、音声デー
タヘッダ情報の総バイト数が追加された構成となってい
る。

【００６４】可変長のテキスト情報は、会議に参加して
いる相手に対し、画像データとともに表示するテキスト
データが格納されている。

【００６５】ヘッダ情報バイト数には、ヘッダ情報の総
バイト数が格納されている。

【００６６】次に、本発明のビデオ会議装置の動作につ
いて図面を参照して説明する。

【００６７】まず、ビデオ会議を開始する前に、予め図
２に示す音声データヘッダ情報を入力し、音声データヘ
ッダ情報格納部１２４に格納する。

【００６８】ビデオ会議の開始に際して、ビデオ会議装
置本体１１１は、通信回線１１７を介して接続されてい
る図示しないビデオ会議装置と接続し、音声データヘッ
ダ情報格納部１２４に格納された自端末の音声データヘ
ッダ情報を送信するとともに接続先の音声データヘッダ
情報を取得し、音声データヘッダ情報格納部１２４に格
納する。

【００６９】ビデオ会議中の音声デ−タの送信は、ま
ず、音声制御手段１２１を介して音声入力装置１１２か
ら入力されたデータが音声データ処理手段１２２に入力
される。音声データ処理手段１２２は、入力された音声
データに、音声データヘッダ情報格納部１２４に格納さ
れた自端末の音声ヘッダ情報を付加して多重分離化手段
１２３に出力し、回線制御手段１２５および通信回線１
１７を介して会議参加者に送出される。

【００７０】ビデオ会議中の音声データの受信は、音声
データ処理手段１２２が多重分離化手段１２３から音声
制御処理手段１２２に入力された音声データを復号化
し、また音声データヘッダ情報を取得して、音声制御手
段１２１に音声データのみが出力される。取得された音
声データヘッダ情報は、メイン制御手段１２８を介して
音声データヘッダ情報格納部１２４に送出され、受信し
た端末識別情報に対応した音声データヘッダ情報に上書
きされる。音声データヘッダ情報格納部１２４は音声デ
ータヘッダ情報を上書きすると、受信した音声データを
識別する端末識別情報と音声データヘッダ情報書き込み
完了信号をメイン制御手段１２８に出力する。

【００７１】図３はメイン制御手段の音声データ受信時
の処理フローを示す。メイン制御手段１２８は、音声デ
ータヘッダ情報書き込み完了信号を受信すると画像デー
タの表示処理を開始する。すなわち、音声データヘッダ
情報書き込み完了信号を受信すると、メイン制御手段１
２８は端末識別情報に対応する音声データヘッダ情報を
音声データヘッダ情報格納部１２４から取得する（ステ
ップＡ１、Ａ２）。取得した音声データヘッダ情報の設
定を解析し、表示制御手段１２７に画像データの表示方
法を指示する（ステップＡ３、Ａ４）。

【００７２】表示制御手段１２７は、メイン制御手段１
２８から供給される表示方法の指示に従い、画像データ
処理手段１２６から入力される画像データの表示を行
う。

【００７３】次に、本発明の第二の実施形態について図
面を参照して説明する。

【００７４】図４は、本発明の別の実施形態の全体構成
を表したものである。なお、図１の実施形態と対応する
部分には、同一番号を付し、その説明を省略する。

【００７５】図４の実施形態において、音声データヘッ
ダ情報格納部１２４に格納された音声データヘッダ情報
の画像表示指示情報が非表示に設定された場合、画像デ
ータ処理手段１２６に対し、画像データの符号化／復号
化を制御する信号が供給されている。

【００７６】次いで、図４の動作を説明する。なお、ビ
デオ会議を開始する前の音声データヘッダ情報の準備、
ビデオ会議の開始時の各端末の音声データヘッダ情報の
音声データヘッダ情報１２４への格納、および音声の送
受信の動作について、図１の場合と同様の部分について
は、説明を省略する。したがって、ビデオ会議に参加し
ている端末において、画像表示指示情報の設定を非表示
にした場合、画像データ処理手段１２６は、音声データ
ヘッダ情報格納部１２４から供給される制御信号の指示
に従い、表示制御手段１２７を介して入力される画像デ
ータの符号化を行わない。また、他端末から入力された
音声データヘッダ情報の画像表示指示情報の設定が非表
示の場合も同様に、回線制御手段１２５および多重分離
化手段１２３を介して入力される画像データの復号化処
理を行わない。

【００７７】なお、音声データヘッダ情報の画像表示指
示情報が表示に設定されると、画像データの符号化処
理、ならびに復号化処理を再開する。

【００７８】本発明の実施形態について実例に基づいて
説明する。

【００７９】図５（ａ）は、図１に示すビデオ会議装置
本体１１１で構成される端末Ａ、Ｂ、Ｃ、Ｄの各々が通
信回線１１７に接続された場合のビデオ会議の構成例を
示している。会議開始に際し、各端末はあらかじめ音声
データヘッダ情報の設定を行っているものとし、図５
（ｂ）は、各端末の音声データヘッダ情報格納部１２４
に格納された音声データヘッダ情報を示している。

【００８０】図６は画面に発言者のみを表示する場合の
例を示し、図７は画面に会議参加者を複数表示する場合
の例を示している。

【００８１】図６（ａ）は、会議に参加している端末で
のデータの流れを示しており、仮に、この端末を端末Ｂ
として、通信回線１１７を介して、端末Ｂに入力される
音声データを（１）入力音声データ、端末Ｂから音声出
力装置１１５に出力される音声データを（２）出力音声
データ、表示装置１１６に表示される出力画像データを
（３）出力画像データとする。

【００８２】いま、時間ｔ１に端末Ａ、時間ｔ２に端末
Ｂ、時間ｔ３に端末Ｃ、時間ｔ４に端末Ｄが発言を行っ
た場合の処理について説明する。図６（ｂ）は、その時
の端末Ｂの表示装置１１６に表示される画面を示してい
る。

【００８３】時間ｔｌの端末Ａの発言は、通信回線１１
７を介して、ビデオ会議装置本体１１１に入力され、音
声データヘッダ情報は音声データ処理手段１２２に格納
され、音声データは、音声制御手段１２１を介して音声
出力装置１１５から出力される（（１）入力音声デー
タ、（２）出力音声データ）。

【００８４】入力された画像データは、音声データヘッ
ダ情報格納部１２４に格納された端末識別情報「Ａ」の
指示に従い、表示装置１１６に動画像データが１０秒間
表示される（図６（ｂ）ｔ１）。

【００８５】時間ｔ２の端末Ｂの発言の音声データは、
端末Ａの音声データの処理と同様に処理され、音声出力
装置１１５から出力される。画像データは、音声データ
ヘッダ情報格納部１２４に格納された端末識別情報
「Ｂ」の画像表示指示情報の設定が非表示であることか
ら、表示装置１１６には、画像データは何も表示されな
い（図６（ｂ）ｔ２）。

【００８６】時間ｔ３の端末Ｃの発言の音声データは、
端末Ａ、Ｂの発言の際の処理と同様に処理され、画像デ
ータは、音声データヘッダ情報格納部１２４に格納され
た端末識別情報「Ｃ」の指示に従い、表示装置１１６
に、静止画像データが５秒間表示される（図６（ｂ）ｔ
３）。

【００８７】時間ｔ４の端末Ｄの発言の際のデータの処
理は、時間ｔ２の処理と同様となり、表示装置１１６に
は、画像データは何も表示されない（図６（ｂ）ｔ
４）。

【００８８】図７（ａ）は、会議に参加している端末で
のデータの流れを示しており、仮に、この端末を端末Ｂ
とすると、通信回線１１７を介して、端末Ｂに入力され
る音声データを（１）入力音声データ、端末Ｂから音声
出力装置１１５に出力される音声データを（２）出力音
声データ、表示装置１１６に表示される出力画像データ
を（３）〜（６）参加者画像とする。

【００８９】（３）〜（６）は、各端末の画像データの
ストリームを表しており、端末Ａの画像データのストリ
ームをみると、端末Ａが発言している際に入力される動
画像データを１０秒間、表示装置１１６に表示している
ことを意味する。端末Ｂの画像データのストリームをみ
ると、端末Ｂが発言している際に入力される動画像デー
タは、音声データヘッダ情報の画面表示指示情報が非表
示に設定されていることから、表示装置１１６に表示す
る画像データがないことを意味する。端末Ｃの画像デー
タのストリームをみると、端末Ｃが発言している際に入
力される静止画像データが、表示装置１１６にそれまで
表示している静止画像データから切り替わって表示され
たことを意味する。端末Ｄの画像データのストリームを
みると、端未Ｄが発言している際に入力される静止画像
データは、音声データヘッダ情報の画面表示指示情報が
非表示に設定されていることから、表示装置１１６に表
示する画像データがないことを意味する。

【００９０】図７（ｂ）は、表示装置１１６に表示され
る画面の一例を示し、端末Ａの音声データ入力時（ｔ
１）および端末Ｃの音声データ入力時を表している。左
上の端末Ｂの表示領域は、画像入力装置１１３から入力
される画像データを表示している状態を示している。

【００９１】時間ｔ１の端末Ａの発言時は、表示装置１
１６の画面中央に端末Ａから入力される画像データが表
示され、右上に端末Ｃから入力される画像Ｃ’が表示さ
れている。

【００９２】時間ｔ２の端末Ｃの発言時は、表示装置１
１６の画面右上の端末Ｃから入力された静止画像Ｃ’か
ら、画面中央に端末Ｃから入力される静止画像Ｃに切り
替わる。

【００９３】次に、図２（ｂ）に示す可変長テキスト情
報を含んだ音声データヘッダ情報の場合について説明す
る。前述の事例と同様な構成で会議が開催され、音声デ
ータおよび画像データの処理がされるもとのして、図８
は、表示装置１１６に音声データヘッダ情報に含まれた
テキストデータを表示していることを示している。ここ
で、テキストデータの表示位置等は、ユーザが自由に設
定および変更できるものとする。

【００９４】

【発明の効果】これまで説明したように、本発明によれ
ば以下のような効果を奏するものである。

【００９５】第１の効果は、ビデオ会議の進行を円滑に
行うことができることである。

【００９６】その理由は、端末を識別するための情報
等、いくつかの設定を入力するだけで、ビデオ会議を開
催することができるため、初期設定が簡単なことと、設
定した情報を必要に応じて変更するだけで済むためであ
る。

【００９７】第２の効果は、ＣＰＵ処理の負荷およびネ
ットワークの負荷を抑えることができることである。

【００９８】その理由は、音声データヘッダ情報の画像
表示指示信号の設定により、画像データの符号化ならび
に復号化処理を行うか否かの制御を行い、画像データ処
理を行わない場合はＣＰＵの負荷が減るとともに、画像
データの送受信も行わないためネットワークの負荷も抑
えることができるためである。

【００９９】第３の効果は、ビデオ会議における発言者
の特定が容易に行え、なおかつ発言者を有効的に画面に
表示することができることである。

【０１００】その理由は、音声データヘッダ情報に付加
された端末識別情報から発言者を特定することができ、
なおかつ画像表示指示情報、画像形式情報、画像表示時
間情報等、画像データの送信側の意図する情報が付加さ
れているためである。

【０１０１】第４の効果は、同一の端末を複数の参加者
が使用した場合でも、発言者を容易に特定することがで
きることである。

【０１０２】その理由は、音声データヘッダ情報に付加
された端末識別情報に発言者の氏名を入力することがで
きるためである。

【０１０３】第５の効果は、テキストデータを画像デー
タとリンクして表示できることである。

【０１０４】その理由は、音声データヘッダ情報にテキ
スト情報を付加しているためである。

【図面の簡単な説明】

【図１】本発明の実施形態の構成を示すブロック図

【図２】（ａ）音声データヘッダ情報の構成を示す図、
（ｂ）可変長のテキスト情報とヘッダ情報の総バイト数
を追加した音声データヘッダ情報の構成を示す図

【図３】本発明の実施形態の動作を説明するためのフロ
ーチャート

【図４】本発明の別の実施形態の構成を示すブロック図

【図５】（ａ）ビデオ会議の構成例を示す図、（ｂ）各
端末の音声データヘッダ情報格納部に格納された音声デ
ータヘッダ情報を示す図

【図６】（ａ）会議に参加している端末でのデータの流
れを示す図、（ｂ）会議参加者の表示装置に表示される
例を示す図

【図７】（ａ）会議に参加している端末でのデータの流
れを示す図、（ｂ）会議参加者の表示装置に表示される
例を示す図

【図８】表示装置に音声データヘッダ情報に含まれるテ
キストデータを表示している図

【図９】従来のテレビ会議装置の一実施例を示すブロッ
ク図

【図１０】従来のテレビ会議装置の別の実施例を示すブ
ロック図

【図１１】図１０の画面サイズテーブル部に設けられた
テーブルＴの構成を示す図

【図１２】会議参加者のモニタに表示される例を示す図

【図１３】会議参加者のモニタに表示される第２例を示
す図

【図１４】会議参加者のモニタに表示される第３例を示
す図

【図１５】従来のテレビ会議装置のさらに別の実施例を
示すブロック図

【符号の説明】

１１１ビデオ会議装置本体１１２音声入力装置１１３画像入力装置１１４データ入力装置１１５音声出力装置１１６表示装置１１７通信回線１２１音声制御手段１２２音声データ処理手段１２３多重分離化手段１２４音声データヘッダ情報格納部１２５回線制御手段１２６画像データ処理手段１２７表示制御手段１２８メイン制御手段

Claims

【特許請求の範囲】

【請求項１】通信回線を介して相互に接続されるビデ
オ会議装置本体、音声入力装置、画像入力装置、データ
入力装置、音声出力装置および表示装置より成るビデオ
会議装置において、前記ビデオ会議装置本体は、音声データの入出力制御を行う音声制御手段と、送受信される音声データに端末を識別するための情報
や、画像データの表示指示、および形式、表示時間等の
音声データヘッダ情報の付加、ならびに取得する音声デ
ータ処理手段と、通信回線に送出するデータを所定の形式に多重化処理
し、また受信したデータを音声データ及び画像データに
分離する処理を行う多重分離化手段と、データ入力装置から入力した音声データヘッダ情報、お
よび受信した音声データから音声データヘッダ情報を取
得し格納する音声データヘッダ情報格納部と、音声データヘッダ情報に格納された音声データヘッダ情
報の画像表示指示情報により、画像データの符号化なら
びに復号化を行う画像データ処理手段と、音声データヘッダ情報に従い表示制御を行うメイン制御
手段と、メイン制御手段の指示に従い表示装置の表示制御を行う
表示制御手段と通信回線を介してデータの送受信制御を
行うための回線制御手段とを具備することを特徴とする
ビデオ会議装置。
【請求項２】取得した音声データヘッダ情報により、
画像データの処理を行うか否かを決定することを特徴と
する請求項１記載のビデオ会議装置。
【請求項３】通信回線に接続され、ビデオ会議に参加
している他端末における画像データの表示制御を決定す
る音声データヘッダ情報を音声データに付加することを
特徴とする請求項１乃至２記載のビデオ会犠装置。
【請求項４】受信した音声データに付加された音声デ
ータヘッダ情報の端末識別情報により、音声データと同
時に受信した画像データの表示位置、大きさ等を設定し
表示するよう構成されていることを特徴とする請求頂１
乃至２記載のビデオ会議装置。
【請求項５】受信した音声データに付加された音声デ
ータヘッダ情報の画像表示指示情報により、音声データ
と同時に受信した画像データの表示の制御を決定するよ
う構成されていることを特徴とする請求項１乃至２記載
のビデオ会議装置。
【請求項６】受信した音声データに付加された音声デ
ータヘッダ情報の画像表示時間情報により、音声データ
と同時に受信した画像データの表示時間を決定するよう
構成されていることを特徴とする請求項１乃至２記載の
ビデオ会議装置。
【請求項７】受信した音声データに付加された音声デ
ータヘッダ情報のテキスト情報を、音声データと同時に
受信した画像データとを一緒に表示するよう構成されて
いることを特徴とする請求項１乃至２記載のビデオ会議
装置。