JP2008311910A

JP2008311910A - 通信装置および会議システム

Info

Publication number: JP2008311910A
Application number: JP2007157340A
Authority: JP
Inventors: Toshiaki Ishibashi; 利晃石橋
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2007-06-14
Filing date: 2007-06-14
Publication date: 2008-12-25

Abstract

【課題】遠隔会議において受信側の参加者の需要に応じた映像を送受信するための通信装置および会議システムを提供する。
【解決手段】送信側会議端末は、会議室全体を撮影領域とした全体画像（静止画像）を生成し、予め相手側会議端末に送信しておく。会議が開始されると、送信側会議端末はマイクアレイにより音源（発言者）の方向を特定し、Ｗｅｂカメラの撮影領域の中で特定された音源方向に対応付けられた領域（図中領域Ｂ、Ｃ、およびＤのうちいずれか）を表す動画を生成し相手側会議端末に送信する。相手側会議端末は、受信した動画を全体画像において対応する領域に表示する。以上の処理により、その時点で発言している参加者の含まれる画像領域については動画で表示されると同時に、発言を行っていない参加者や背景については全体画像の更新が行われない。その結果、ネットワークの帯域を過大に利用することなく必要な情報を送受信することができる。
【選択図】図１１

Description

本発明は、音声と共に画像を送信する通信装置および会議システムに関する。

近年、通信網を介して接続された複数の会議端末を用いて会議を行う遠隔会議システムが一般に普及している。特許文献１には、遠隔地にある者同士が参加して行われる遠隔会議の運営を支援するＴＶ会議システムが開示されている。この文献に開示されたシステムにおいては、各参加者に対してマイクロホンが設置されている。参加者が発言すると、発言を収音したマイクロホンにより発言者が特定され、該発言者にカメラが向けられ発言者の姿がズームアップされて相手側に送られる一方、発言者がいないと会議室全体の画像が送られるように制御される。
特開平０２−２０２２７５号公報

ところで、参加者が必要とする映像情報は、とりわけ発言を行っている参加者の表情などである。ところが、特許文献１では、いずれの参加者も発言を行っていない場合にも会議室全体の様子を動画として送信し、過大なネットワーク帯域を使用していた。また、特許文献１の技術では、送信側は受信側がどのような映像を求めているのかについて知ることはできないため、お互いの参加者が本当に見たい映像を送受信することはできなかった。

本発明は、上記の課題に応じてなされたものであり、受信側の参加者の需要に応じた映像を過不足無く送受信することを可能にする通信装置および会議システムを提供することを目的とする。

本発明に係る通信装置の第１の実施形態は、撮影領域が設定され、前記撮影領域の画像データを生成する撮影手段と、前記撮影手段が生成した画像データから静止画像を生成する静止画像生成手段と、前記撮影手段が生成した画像データにおいて、１または複数の特定領域を指定する領域データを受取る受取手段と、音源の発する音を表す音データを生成すると共に、該音源の方向を特定する方向特定手段と、前記音源の方向を示す方向情報と画像領域に含まれる前記特定領域とが対応されて書き込まれたテーブルと、前記方向特定手段が特定した音源の方向を前記テーブルに照らし合わせて前記特定領域を選択し、前記画像データから選択された特定領域を切り出して動画像を生成する動画像生成手段と、前記静止画像生成手段が生成した静止画像および前記動画像生成手段が生成した動画像を他の通信装置に出力する出力手段とを具備することを特徴とする。

また、本発明に係る通信装置の第２の実施形態は、撮影領域が設定され、前記撮影領域の画像データを生成する撮影手段と、前記撮影手段が生成した画像データから静止画像を生成する静止画像生成手段と、前記撮影手段が生成した画像データにおいて、１または複数の特定領域を指定する領域データを受取る受取手段と、音源の発する音を表す音データを生成すると共に、該音源の方向を特定する方向特定手段と、前記音源の方向を示す方向情報と画像領域に含まれる前記特定領域とが対応されて書き込まれたテーブルと、前記方向特定手段が特定した音源の方向を前記テーブルに照らし合わせて前記特定領域を選択し、前記画像データから選択された特定領域を切り出して第２の静止画像を生成する第２の静止画像生成手段と、前記静止画像生成手段が生成した静止画像および前記第２の静止画像生成手段が生成した第２の静止画像を他の通信装置に出力する出力手段とを具備し、前記出力手段から出力される前記第２の静止画像は、所定時間あたりの枚数が前記静止画像よりも多いことを特徴とする。

また、本発明に係る通信装置の第３の実施形態は、前記第１または２の実施形態において、前記受取手段は、通信網を介して他の通信装置から前記領域データを受取ることを特徴とする。

また、本発明に係る通信装置の第４の実施形態は、前記第１または２の実施形態において、前記領域データを生成する領域データ生成手段を具備することを特徴とする。

また、本発明に係る通信装置の第５の実施形態は、前記第１ないし４いずれかに記載の実施形態において、前記撮影手段は生成する画像データの画質を調整する画質調整手段を有し、接続された通信網に対し利用可能な通信帯域幅を測定する測定手段と、通信帯域幅と前記撮影手段の生成する画像データの画質とを対応付ける画質テーブルと、通信に先立ち前記測定手段が測定した利用可能な通信帯域幅に対応する画質を、前記画質テーブルを参照して前記撮影手段に設定する画質設定手段とを有することを特徴とする。

また、本発明に係る通信装置の第６の実施形態は、前記第１ないし５のいずれかに記載の実施形態において、前記撮影手段は生成する画像データの圧縮率を調整する圧縮率調整手段を有し、接続された通信網に対し利用可能な通信帯域幅を測定する測定手段と、通信帯域幅と前記撮影手段の生成する画像データを圧縮する圧縮率とを対応付ける圧縮率テーブルと、通信に先立ち前記測定手段が測定した利用可能な通信帯域幅に対応する圧縮率を、前記圧縮率テーブルを参照して前記撮影手段に設定する圧縮率設定手段とを有することを特徴とする。

また、本発明に係る会議システムの実施形態は、第１の通信装置および第２の通信装置を有する会議システムであり、第１の通信装置は、撮影領域が設定され、前記撮影領域の画像データを生成する撮影手段と、前記撮影手段が生成した画像データから静止画像を生成する静止画像生成手段と、前記撮影手段が生成した画像データにおいて、１または複数の特定領域を指定する領域データを受取る受取手段と、音源の発する音を表す音データを生成すると共に、該音源の方向を特定する方向特定手段と、前記音源の方向を示す方向情報と前記特定領域とが対応されて書き込まれたテーブルと、前記方向特定手段が特定した音源の方向を前記テーブルに照らし合わせて前記特定領域を選択し、前記画像データから選択された特定領域を切り出して動画像を生成する動画像生成手段と、前記静止画像生成手段が生成した静止画像および前記動画像生成手段が生成した動画像を他の通信装置に出力する出力手段とを具備し、第２の通信装置は、前記第１の通信装置から前記静止画像を受取る第２の受取手段と、前記静止画像において特定領域を指定する特定領域指定手段と、前記特定領域指定手段が指定した特定領域を表す前記領域データを前記第１の通信装置に出力する第２の出力手段と、前記第１の通信装置から受取った前記静止画像に対し、前記動画像を重畳して表示する表示手段とを具備することを特徴とする。

本発明に係る通信装置または会議システムによれば、遠隔会議において受信側の参加者の需要に応じた映像を過不足無く送受信することが可能になる、といった効果を奏する。

以下、図面を参照しつつ本発明の一実施形態である会議端末について説明する。
（Ａ：構成）
図１は、本発明の一実施形態である会議端末を含む会議システム１の構成を示すブロック図である。会議システム１は、会議端末１０Ａと会議端末１０Ｂと通信網２０とからなり、会議端末１０Ａおよび会議端末１０Ｂは通信網２０にそれぞれ有線接続されている。会議端末１０Ａおよび会議端末１０Ｂは互いに同じ構成からなり、以下では会議端末１０Ａおよび会議端末１０Ｂを区別する必要が無いときには、両者を会議端末１０と総称する。
なお、ここでは２台の会議端末が通信網２０に接続されている場合について例示されているが、３台以上の会議端末が接続されているとしても良い。

本実施形態では、通信プロトコルとして以下に述べる各通信プロトコルが用いられている。すなわち、アプリケーション層の通信プロトコルとして、Real-time Transport Protocol（以下、「ＲＴＰ」）が用いられている。ＲＴＰとは、音声データや映像データをend-to-endでリアルタイムに送受信する通信サービスを提供するための通信プロトコルであり、その詳細はＲＦＣ１８８９に規定されている。ＲＴＰにおいては、ＲＴＰパケットを生成し送受信することにより通信端末同士でデータの授受が行われる。また、トランスポート層の通信プロトコルとしては、ＵＤＰが用いられており、ネットワーク層の通信プロトコルとしてはＩＰが用いられている。上記の会議端末１０Ａおよび会議端末１０Ｂには、それぞれにＩＰアドレスが割り振られており、ネットワーク上で一元的に識別される。
なお、ＵＤＰおよびＩＰについては、一般に広く用いられている通信プロトコルであるため説明を省略する。

次に、会議端末１０のハードウェア構成について図２を参照して説明する。
図に示す制御部１０１は、例えばＣＰＵ（Central Processing Unit）であり、後述する記憶部１０３に格納されている各種制御プログラムを実行することにより、会議端末１０の各部の動作を制御する。

Ｗｅｂカメラ１０７は、Ｃ−ＭＯＳイメージセンサからの入力をＭｏｔｉｏｎ−ＪＰＥＧ方式の動画として出力する。なお、Ｍｏｔｉｏｎ−ＪＰＥＧ方式とは、撮影したフレームごとの画像をＪＰＥＧ（Joint Photographic Experts Group）形式に圧縮し、これを連続して記録する動画データ生成方式である。画像サイズはＷｅｂカメラ１０７に予め設定されたサイズ（本実施形態では６４０pixel×４８０pixel）であり、単位時間当たりのフレーム数は適宜制御部１０１により制御される。画像の圧縮率はＪＰＥＧ方式の画像圧縮（圧縮率は１／５〜１／６０）の範囲内で、制御部１０１により制御される。
また、Ｗｅｂカメラ１０７は、所定の信号を受けるとその時点で生成されているフレームの画像をキャプチャーし、静止画として出力する機能を有している。
以上のように生成された動画データおよび静止画データ（以下、両データを「画像データ」と総称する）は、ＲＡＭ１０３ｂへ出力される。なお、参加者はＷｅｂカメラ１０７の向きを手動で変更し、その撮影領域を任意に設定することが可能である。

マイクアレイ１０６は、図示せぬ複数（本実施形態では８つ）のマイクロホン１０６ａと、アナログ／デジタル（以下、「Ａ／Ｄ」と略記する）コンバータ１０６ｂを含む。マイクアレイ１０６は指向性マイクとしての機能を有し、音声を収音する方向を走査しながら収音する機能を有する。生成された音声データはＲＡＭ１０３ｂの音声データバッファ領域に一旦書き込まれて後述する各種処理が行われるが、各種処理による信号の遅れはごくわずかであるために、通話のリアルタイム性には影響はない。

制御部１０１は、さまざまな方向からの音声から生成された音声データを解析し、音量レベルが大きい方向を音源（すなわち、受信した音声が人間の声ならばその話者）の方向として特定する。

図３は、マイクアレイ１０６および参加者２ａ、２ｂ、２ｃ、および２ｄの相対配置の一例を示した図である。マイクアレイ１０６は、特定した音源方向を表す音源方向情報を、マイクアレイ１０６の中央（図中Ｏ）から見た音源の方向（極座標における偏角Φ）として生成し、生成された音声データと共にＲＡＭ１０３ｂへ出力する。
図３において例えば話者が参加者２ａであるとすると、音源方向はΦ＝π／６となる。なお、同時に複数の参加者が発言するなどして同時に複数の方向から音声の入力があった場合には、制御部１０１はそれら複数の方向からの音声の音量レベルを比較し、最も音量レベルが高い方向を音源の方向とする。

記憶部１０３は、ＲＯＭ（Read Only Memory）１０３ａおよびＲＡＭ（Random Access Memory）１０３ｂを有する。ＲＯＭ１０３ａは、本発明に特徴的な機能を制御部１０１に実現させるためのデータや制御プログラムを格納している。上記データの一例としては、テストデータ、送信レート管理テーブル、および画像領域選択テーブルがある。

テストデータは、予めＷｅｂカメラ１０７によって生成されたＭｏｔｉｏｎ−ＪＰＥＧ方式の動画データである。なお、その内容はどのようなものであっても良い。
図４は、送信レート管理テーブルの一例を示した図である。送信レート管理テーブルには、Ｗｅｂカメラ１０７が動画データを生成する際の単位時間当たりのフレーム数（ｆｐｓ）、およびＪＰＥＧ方式の画像の圧縮率が、利用可能な通信帯域幅（Ｍｂｐｓ；Mega bit per second）に対応付けられて規定されている。
図５は、画像領域選択テーブルの一例を示した図である。画像領域選択テーブルには、Ｗｅｂカメラ１０７が生成した画像において設定された特定の領域が、マイクアレイ１０６を基準とした音源の方向に対応付けられて規定されている。例えば、参加者が図１１に示される位置関係にあるとき参加者２ｃが発言を行った場合、音源（参加者２ｃ）の方向は偏角Φ＝π／２であるが、５π／１２＜Φ＜７π／１２であることから領域Ｃの画像領域が選択される。なお、上記の音源の方向、および音源の方向と画像領域との対応関係は、会議開始時にその都度設定される。

ＲＡＭ１０３ｂは、各種プログラムにしたがって作動している制御部１０１によってワークエリアとして利用されると共に、マイクアレイ１０６およびＷｅｂカメラ１０７が生成した音声データおよび画像データが書き込まれる。

制御部１０１は上記制御プログラムに従い、ＲＡＭ１０３ｂに書き込まれた音声データまたは画像データからＲＴＰパケットを生成する。ここで、ＲＴＰパケットについて詳細に説明する。ＲＴＰパケットは、図６に示すようにＩＰにおけるデータ転送単位であるパケットやＴＣＰにおけるデータ転送単位であるセグメントと同様に、ペイロード部に対してヘッダ部が付与され構成されている。

ヘッダ部には、タイムスタンプ、ペイロードタイプ、シーケンス番号、画像タイプおよび区画情報の５種類のデータが書き込まれる。ここで、タイムスタンプとは、当該ＲＴＰパケットが送信される時刻（音声通信の開始を指示されてから経過した時間）を示すデータである。ペイロードタイプとは、通信メッセージの種別をその通信メッセージの宛先に識別させるためのデータである。本実施形態で利用されるメッセージ種別には、音声データ送信メッセージ、画像データ送信メッセージの２種類がある。それらのメッセージにおいて、ペイロードタイプには、それぞれ“１”、“２”の２種類の数字が書き込まれる。シーケンス番号とは、各パケットを一意に識別するための識別子であり、例えば１つの音声データが一連のＲＴＰパケットに分割されて送信される場合に、各パケットに対して１、２、３…のようにシーケンス番号が付与される。画像タイプとは、ペイロード部に書き込まれた画像データが、後述する“全体画像”と“詳細画像”のいずれであるかを示し、それぞれ“１”または“２”が書き込まれる。区画情報とは、ペイロード部に書き込まれた画像データが“詳細画像”であるとき、該詳細画像が後述する表示部１０５のどの領域に表示されるものであるかを規定する情報であるが、その詳細は後述する。

ペイロード部には、音声データ送信メッセージまたは画像データ送信メッセージにおいては、それぞれ所定時間（本実施形態においては２０ミリ秒）分の音声データまたは画像データが書き込まれる。

通信ＩＦ部１０２は、例えばＮＩＣ（Network Interface Card）である。この通信ＩＦ部１０２は、制御部１０１から受取ったＲＴＰパケットを下位層の通信プロトコルにしたがって順次カプセル化することによりＩＰパケットを生成し、通信網２０へ送出する。なお、カプセル化とは、上記ＲＴＰパケットをペイロード部に書き込んだＵＤＰセグメントを生成し、さらに、そのＵＤＰセグメントをペイロード部に書き込んだＩＰパケットを生成することである。また、通信ＩＦ部１０２は、通信網２０を介してＩＰパケットを受信し、上記カプセル化とは逆の処理を行うことにより、そのＩＰパケットにカプセル化されているＲＴＰパケットを読み出して制御部１０１へ出力する。

操作部１０４は、例えばキーボードやマウスなどであり、会議端末１０の操作者が操作部１０４を操作して何らかの入力操作を行うと、その操作内容を表すデータが制御部１０１へと伝達される。

表示部１０５は、幅６４０pixel×縦４８０pixelのモニタである。通信ＩＦ部１０２を介して受取った、または、自端末が生成した画像データに基づいて画像を表示する。

音声出力部１０８は、制御部１０１から受取った音声データの表す音声を再生するものであり、スピーカ１０８ａとＤ／Ａコンバータ１０８ｂとを含んでいる。Ｄ／Ａコンバータ１０８ｂは、制御部１０１から受取った音声データに対してＤ／Ａ変換を施すことによって音声信号へ変換しスピーカ１０８ａへ出力するものである。そして、スピーカ１０８ａは、Ｄ／Ａコンバータ１０８ｂから受取った音声信号に応じた音声を再生する。

（Ｂ：動作）

次に、遠隔会議を行う際に会議端末１０が行う動作について説明する。図７に会議端末１０の会議室における設置状況を示す。会議室には机３が設置され、会議端末１０は机の横に設置されている。表示部１０５は全ての参加者が視認することができる位置に配置されており、マイクアレイ１０６、スピーカ１０８ａ、およびＷｅｂカメラ１０７は、表示部１０５の上方に配置されている。

会議に参加する参加者２ａ、２ｂ、２ｃ、および２ｄは、机の周囲に設置されたイスに腰掛けている。図３に示すように、参加者２ａ、２ｂ、２ｃ、および２ｄは、マイクアレイ１０６の中心を基準にしてそれぞれ偏角Φ＝π／６、π／３、π／２、３π／４の方向に位置している。

制御部１０１は、遠隔会議が開始される前に、本会議において送受信する画像に関して初期設定処理を行う。図８は、初期設定処理の流れを示したフローチャートである。まずステップＳＡ１００において、制御部１０１は詳細画像領域設定処理を行う。

詳細画像領域設定処理については、図９に示すフローチャートを用いて詳細に説明する。まず、ステップＳＡ１０１０において、制御部１０１はＷｅｂカメラ１０７に会議室全体を表す画像（以下、全体画像）を表す画像データ（以下、全体画像データ）を生成させる。図１０は、Ｗｅｂカメラ１０７の側から会議室を描いた図である。本動作例では、Ｗｅｂカメラ１０７の撮影領域は、全参加者が含まれるように領域Ａで示された領域となるよう設定されている。従って、Ｗｅｂカメラ１０７は、図１１に示すような画像を表す全体画像データ（静止画）を生成する。制御部１０１は生成された画像データを相手側の会議端末１０に出力する（ステップＳＡ１０２０）。なお、全体画像データを含むＲＴＰパケットのヘッダ部のペイロードタイプには“２”が、画像タイプには“１”が書き込まれる。また、生成した画像データは表示部１０５に表示される。

相手側の会議端末１０は、全体画像データを受信すると、該データをＲＡＭ１０３ｂに書き込むと共に、その表示部１０５に該全体画像を表示する。以下では図１１に示す全体画像において、便宜上左上隅を原点（０、０）とし右下隅を（６４０、４８０）とする座標を用いて説明を行う。なお、該座標は画像データを表示する表示部１０５の画素に対応するものである。

参加者は、全体画像の表示された表示部１０５を視認しながら操作部１０４を操作することにより、会議中にリアルタイムに様子を確認したい領域（以下、詳細画像領域）を１または複数選択する。本動作例では、図１１中で領域Ｂ、Ｃ、およびＤで現される領域が選択される。
なお、領域の特定方法には、長方形の一つの隅（左上）とその向かい合う隅（右下）の座標を用いる。例えば領域Ｂは、「（４３０、２２０）−（５６０、４００）」と表される。以上のようにして選択された詳細画像領域の範囲を表す領域データは送信側の会議端末１０に出力される。

さて、送信側の会議端末１０は、領域データを受信すると（ステップＳＡ１０３０）、該データをＲＡＭ１０３ｂに書き込む。ここで、制御部１０１は、表示部１０５に表示された全体画像において、領域データにより指定された詳細画像領域の１つを枠で囲むなどして強調表示する画像処理を行うと共に、強調表示された領域に含まれる参加者は声を発するように促す表示を表示部１０５に表示する。各参加者は、表示部１０５を視認して自分自身が強調表示された領域に含まれる場合には何らかの声を発する。

制御部１０１は、マイクアレイ１０６が生成した音声データに基づいてその音源方向を特定する。そして、特定された音源方向に対して±π／１２[ｒａｄ]した範囲を、強調表示されている詳細画像領域名と対応付けて画像領域選択テーブルに書き込む（ステップＳＡ１０４０）。
例えば、参加者２ｃを含む領域Ｃが表示部１０５上で強調表示された場合、参加者２ｃは「こちらです。」などと発言する。マイクアレイ１０６は該発言を収音し、制御部１０１はマイクアレイ１０６が生成する音声データに基づいて音源方向Φ＝π／２を特定する。そして制御部１０１は、５π／１２〜７π／１２の範囲の音源方向を詳細画像領域Ｃに対応付けて書き込む。制御部１０１は、以上の操作をそれぞれの詳細画像領域について繰り返すことにより画像領域選択テーブルを完成させる。

さて、ステップＳＡ１００が終了すると、会議端末１０はステップＳＡ１１０にて利用可能帯域幅測定処理を行う。利用可能帯域幅測定処理とは、通信網２０を介して相手側会議端末とデータ通信する際に、その通信網２０にて利用することのできる最大の通信帯域幅を測定する処理である。本処理については、図１２に示すフローチャートを用いて詳細に説明する。

まず制御部１０１は、パケットを送信する際の送信間隔を決定する（ステップＳＡ１１００）。利用可能帯域幅測定処理を初めて行う際には、所定の送信間隔を設定する。次に制御部１０１は、ＲＯＭ１０３ａに格納されたテストデータから一連のパケットを生成し、ステップＳＡ１１００にて決定された送信間隔で相手側の会議端末１０へ送信する（ステップＳＡ１１１０）。このとき、制御部１０１は送信した各パケットのシーケンス番号をＲＡＭ１０３ｂに書き込む。

相手側の制御部１０１は上記テストデータを受信し、受信した各パケットのシーケンス番号を受信通知メッセージに書き込み、該受信通知メッセージを送信側の会議端末に対して返信する。送信側の制御部１０１は、該受信通知メッセージを受信し（ステップＳＡ１１２０）、受信通知メッセージに書き込まれたシーケンス番号列とＲＡＭ１０３ｂに書き込まれたシーケンス番号列とから上記テストデータの送信におけるパケットロスの発生率（受信されなかったパケット数／送信されたパケット数）を算出し、パケットロスが発生したか否か判定する（ステップＳＡ１１３０）。

制御部１０１は、上記所定の送信間隔でテストデータを送信した場合に、パケットロスが発生しなかった場合（ステップＳＡ１１３０；“Ｎｏ”）、ステップＳＡ１１００以降の処理を再度行う。そのとき、ステップＳＡ１１００においては、前回行ったステップＳＡ１１００において設定したパケット送信間隔より所定の割合だけ短い送信間隔を設定する。

制御部１０１は、パケットロスが発生しない間は、パケットの送信間隔を順次短くしながらステップＳＡ１１００ないしステップＳＡ１１３０を繰り返し行う。ステップＳＡ１１３０においてパケットロスが発生した場合（ステップＳＡ１１３０；“Ｙｅｓ”）には、その１回前にテストデータを送信した際の送信レート（テストデータのデータ量／送信にかかった時間）を、その時点での利用可能な帯域幅（単位はＢＰＳ；Ｂｙｔｅ／秒）として算出する（ステップＳＡ１１４０）。なぜならば、送信間隔が短くなると単位時間当たりの送信データ量すなわち送信レートは高くなる。従って、テストデータの送信においてパケットロスが発生した場合には、その際に利用した送信レートは利用可能な通信帯域幅を初めて上回ったことを意味するからである。以上が利用可能帯域幅測定処理である。

再び図８に戻り、制御部１０１は、Ｗｅｂカメラのパラメータの設定を行う（ステップＳＡ１２０）。すなわち制御部１０１は、利用可能帯域幅測定処理の測定値とＲＯＭ１０３ａに格納された送信レート管理テーブル（図４参照）とを照らし合わせ、送信レート管理テーブル中で利用可能な帯域幅の項目が該測定値より小さいものの中で最大の値である項目と対応付けられているフレーム数およびＪＰＥＧ画像の圧縮率を読み出し、Ｗｅｂカメラ１０７の単位時間当たりの撮影フレーム数およびＪＰＥＧ画像の圧縮率を読み出された値に設定する。

次に制御部１０１は、ステップＳＡ１３０において、パラメータ調整処理を開始してから一定時間が経過したかどうか判定する。ステップＳＡ１３０の判定結果が“Ｎｏ”である場合は、一定時間が経過するまでステップＳＡ１３０の処理が繰り返される。一定時間が経過すると、ステップＳＡ１３０の判定結果は“Ｙｅｓ”となり、ステップＳＡ１４０が行われる。ステップＳＡ１４０においては、制御部１０１は、データ通信が終了したかどうか判定する。ステップＳＡ１４０の判定結果が“Ｎｏ”である場合にはステップＳＡ１１０以降の処理が再び行われる。ステップＳＡ１４０の判定結果が“Ｙｅｓ”である場合には、制御部１０１は初期設定処理を終了する。

以上に説明した処理により、制御部１０１は会議室全体の様子を相手側会議端末１０に送信し会議中リアルタイムに画像を表示する領域を確定させると共に、会議開始時および開始後一定時間置きに利用可能な帯域幅に合わせてＷｅｂカメラ１０７のパラメータを再設定する。

以下では、会議中に会議端末１０が行う動作を説明する。まず、音声データの通信について説明する。会議端末１０は、マイクアレイ１０６が生成した音声データを圧縮して出力する機能を有する。図１３は、会議端末１０が行う音声データ処理の流れを示したブロック図である。

マイクアレイ１０６は、音声データを生成しＲＡＭ１０３ｂの音声データバッファ領域に書き込む。音量レベル検知部１１０は、該音声データを所定の大きさ（本実施形態においては２０ミリ秒分）のフレーム単位で読み取り、フレームごとに音量レベルを測定する。そして、音量レベルが所定の閾値を超える期間があるフレームを有音フレームとし、音量レベルが所定の閾値を一度も超える期間が無いフレームを無音フレームとする。それらのフレームに対応する期間を、以下ではそれぞれ有音期間および無音期間と呼ぶ。

有音フレームには、有音圧縮処理が施される。すなわち、フレーム選択部１１１は有音フレームをＲＡＭ１０３ｂから音声データ圧縮部１１２に受け渡し、音声データ圧縮部１１２は該フレームの音声データを、コーデックにより所定の圧縮率で圧縮する。圧縮が施された音声データには図６に示されるようにＲＴＰヘッダを付与され、ＲＴＰパケットが生成される。

一方、無音フレームには、無音圧縮処理が施される。すなわち、フレーム選択部１１１は、無音フレームを音声データ圧縮部１１２に受け渡さず、その結果無音期間にはＲＴＰパケットは生成されない。

無音フレームには、会議室のざわめき（暗騒音）などが含まれ、音量レベルは非常に低いとしても、そのデータ量は小さくないことが一般に知られている。上記無音圧縮処理によれば、参加者が必要とする音声は含まれていない無音フレームを“間引く”ことにより、必要な情報を欠落させることなく送信データ量を減らすことができる。

なお、上記音声データのＲＴＰパケットのペイロードタイプには、“１”が書き込まれる。
以上が音声データ処理の流れである。制御部１０１は、有音圧縮処理および無音圧縮処理を併せ用いることで、音声データをできるだけ少ない帯域幅を用いて出力することができる。

次に、画像データの通信について説明する。本会議システムにおいては、送信側の会議端末１０は、上述したように会議開始時に会議室全体を表す全体画像（静止画）を送信し、会議中は全体画像の一部分のみを表す詳細画像データ（動画）を送信する。そしてそれらの画像データを受信した相手側の会議端末１０は、全体画像において、受取った詳細画像の領域のみをリアルタイムに更新するという態様で画像が表示される。

ここで、詳細画像データを生成する処理について、図１４に示すフローチャートを用いて説明する。まずステップＳＢ１００において、マイクアレイ１０６は、音源方向情報を生成する。例えば図３において参加者２ａが発言を行った場合、マイクアレイ１０６が生成する音源方向情報はΦ＝π／６となる。制御部１０１は、該音源方向情報をＲＯＭ１０３ａに格納された画像領域選択テーブルと照らし合わせることにより、当該発言を行った参加者を含む詳細画像領域を特定する（ステップＳＢ１１０）。上記音源方向Φ＝π／６は、画像領域選択テーブルにおいてπ／１２＜Φ＜５π／１２に対応するため、画像領域Ｂが選択される。制御部１０１は、選択された画像領域をＲＡＭ１０３ｂに書き込む。

Ｗｅｂカメラ１０７は、会議中に設定された撮影領域の全体画像（本動作例では図１０における領域Ａ）を表すＭｏｔｉｏｎ−ＪＰＥＧ方式の動画を生成する。制御部１０１は、ＲＡＭ１０３ｂを参照することにより詳細画像領域の範囲を特定し、上記の動画から該詳細画像領域を切り出すことにより、それぞれの領域についてのＭｏｔｉｏｎ−ＪＰＥＧ方式の動画（以下、詳細画像）を生成する（ステップＳＢ１２０）。そして制御部１０１は、生成されたデータ（以下、詳細画像データ）を相手側の会議端末１０に送信する（ステップＳＢ１３０）。なお、詳細画像データを含むＲＴＰパケットのヘッダ部のペイロードタイプには“２”が、画像タイプには“２”が書き込まれ、区画情報にはそれぞれの詳細情報の全体画像における座標（本動作例では「（４３０、２２０）−（５６０、４００）」が書き込まれる。

発言者が発言を終了すると、マイクアレイ１０６の生成する音声データは所定の音量レベルに満たなくなるため、当該音声データには無音圧縮処理が施され、音声パケットは生成されない。従って音源方向情報も生成されず、会議端末１０はいずれの詳細画像領域の画像データも生成しない。

以下では、音声データおよび画像データを受取った相手側の会議端末１０が行う動作について説明する。まず、音声データについて説明する。制御部１０１は、音声データを受取ると、該音声データを音声出力部１０８に出力する。Ｄ／Ａコンバータ１０８ｂは、該音声データをアナログ方式の音声信号に変換しスピーカ１０８ａは該音声信号の表す音声を放音する。

次に、画像データについて説明する。会議端末１０は会議開始時に、全体画像データを受取る。制御部１０１は、受取った全体画像を会議中継続して表示部１０５に表示する。そして相手側の参加者が発言を行うと、該発言者を表す詳細画像データを相手側会議端末１０から受取る。制御部１０１は該データの有する区画情報を読み出し、受取った詳細画像を全体画像の該区画に重ね合わせて表示する。そして発言が終了すると、当該詳細画像領域には最後に表示したフレームを表示する。相手側の別の参加者が発言を始めると、該当する詳細領域について上記と同様の処理を始める。

以上の処理の結果、詳細画像領域として指定されなかった領域については会議開始時に受取った全体画像が継続して表示される。一方、詳細領域については例えば参加者が発言を行っている最中にだけ該参加者を表す動画データが更新される。その結果、参加者は壁や机などが写った領域については、会議開始時に受取った全体画像で十分に様子をつかむことができると同時に、参加者などが写った領域については該参加者が発言を行っている最中には動画データが表示されているため、その状況をリアルタイムに把握することができる。また、会議中に端末間で送受信するデータは詳細画像領域に限定されていることから、限られたネットワーク帯域を有効に利用することが出来るといった効果を奏する。
（Ｃ：変形例）
以上、本発明の実施形態について説明したが、本発明は以下に述べる種々の形態で実施することができる。

（１）上記実施形態では、マイクアレイで音源の方向を特定することにより詳細画像の領域を選択する場合について説明した。しかし、詳細画像の領域の選択方法は上記に限らない。例えば、マイクロホンを各参加者の前に設置し、各マイクロホンにおいて生成された音声データのうち最も高い音量レベルを示す音声データを特定し、該音声データを生成したマイクロホンの周囲を詳細画像領域としても良い。その場合、図５に示した画像領域選択テーブルにおいて、音源方向に替えてマイクロホンを一意に識別可能な情報（例えばマイクロホンが接続された端子の番号など）と画像領域とを対応付けておき、位置関係が満たされるようにマイクロホンを位置設定しておく必要がある。

（２）上記実施例において、本発明に係る機能は会議端末１０に対して設けられていたが、本発明の適用対象はもちろん会議端末に限定されない。Ｗｅｂカメラで生成したデータをリアルタイムにクライアント装置へ提供するサーバ装置などに適用しても良い。要は画像データをリアルタイムに生成および送信する装置であればどのような装置でもよい。

（３）上記実施例において、本発明に係る会議端末に特徴的な機能をソフトウェアモジュールで実現する場合について説明したが、上記各機能を担っているハードウェアモジュールを組み合わせて本発明に係る会議端末を構成するようにしても良い。

（４）上述した実施形態では、画像データおよび音声データの通信にアプリケーション層の通信プロトコルとしてＲＴＰを用いる場合について説明したが、他の通信プロトコルを用いても良いことは勿論である。要は、所定のヘッダ部とペイロード部とを有するデータブロックのペイロード部に、画像データまたは音声データを所定時間分ずつ書き込んで送信する通信プロトコルであれば、どのような通信プロトコルであっても良い。また、上述した実施形態では、トランスポート層の通信プロトコルとしてＵＤＰを用いる場合について説明したが、ＴＣＰを用いるようにしても良い。同様にネットワーク層の通信プロトコルがＩＰに限定されるものではない。

（５）上述した実施形態では、音声データおよび画像データの送受信を行う場合について説明したが、データの種類はそれらに限られるものではない。相手側の参加者に提示する資料を表す資料データ等を音声データおよび画像データと併せて送っても良い。

（６）上記実施形態では、会議端末１０が通信網２０に有線接続されている場合について説明したが、通信網２０が例えば無線ＬＡＮ（Local Area Network）などの無線パケット通信網であり、会議端末１０がこの無線パケット通信網に接続されていても勿論良い。また、上記実施形態では通信網２０がインターネットである場合について説明したが、ＬＡＮであっても良いことは勿論である。要は、所定の通信プロトコルにしたがって行われる通信を仲介する機能を備えた通信網であれば、どのような通信網であっても良い。

（７）上記実施形態では、本発明に係る通信装置に特徴的な機能を制御部１０１に実現させるための制御プログラムをＲＯＭ１０３ａに予め書き込んでおく場合について説明したが、ＣＤ−ＲＯＭやＤＶＤなどのコンピュータ装置読み取り可能な記録媒体に上記制御プログラムを記録して配布するとしても良く、インターネットなどの電気通信回線経由のダウンロードにより上記制御プログラムを配布するようにしても勿論良い。

（８）上記実施形態では、送信側端末は全体画像データを会議開始時に一度きり送信する場合について説明した。しかし、送信側端末は全体画像データを定期的に送信し、受信側端末は既に表示された全体画像を、新たに受取った全体画像データで置き換えるようにしても良い。その場合は、利用可能な帯域幅を圧迫しない程度の頻度で全体画像データを出力すれば良い。

（９）上記実施形態では、詳細画像データを動画データとする場合について説明したが、静止画像を一定の頻度で更新するようにしても良い。要は、詳細画像領域の画像が他の領域に比べてより早く会議室の様子を反映するようにすれば良い。

（１０）上記実施形態では、Ｗｅｂカメラ１０７はＭｏｔｉｏｎ−ＪＰＥＧ方式により画像データを生成する場合について説明した。しかし、画像の記録方式はＭｏｔｉｏｎ−ＪＰＥＧ方式に限定されず、ＭＰＥＧ（Moving Picture Experts Group）など他の方式を用いても良い。また、画像データを圧縮せずに送信しても良い。

（１１）上記実施形態では、詳細画像の領域を参加者が任意に選択する場合について説明したが、利用可能な帯域幅の値に応じて該領域の広さに制限を設けるようにしても良い。具体的には、利用可能帯域幅が狭いほど詳細画像の領域として設定される領域を制限しても良い。

（１２）上記実施形態では、詳細画像を長方形の領域とする場合について説明したが、該領域の形状は長方形に限定されない。例えば円形や楕円でも良い。要は時間の経過と共に変化する領域と変化しない領域を区分できれば良い。

（１３）上記実施形態では、人物などが含まれる詳細画像の領域を参加者が手動で設定する場合について説明したが、Ｗｅｂカメラ１０７で撮影した全体画像を所定の方法で解析することにより例えば人物が含まれる領域を自動的に選択させても良い。上記方法の一例としては、以下のようにすれば良い。参加者は会議室の所定の位置に座っても、一般に左右前後に体が動く。その間Ｗｅｂカメラ１０７は所定のフレームレートで該参加者を含む会議室全体を表す動画を生成する。制御部１０１は生成された画像データを解析し、フレーム間に画像に差があった領域を参加者が含まれる領域と判定し、該領域を詳細画像の領域とする。なお、参加者は意図的に体を動かすことで、より正確に領域の選択を行わせることもできる。また、別の一例としては、Ｗｅｂカメラ１０７で撮影した画像において、肌や唇の色やシルエットなどから人物の存在を検出し、該領域を参加者が含まれる領域と判定し、該領域を含むように詳細領域を設定すると良い。

（１４）上記実施形態では、詳細画像の領域を受信側の参加者が選択する場合について説明したが、送信側の参加者が選択しても良い。その場合、全体画像を送信側の会議端末１０の表示部１０５に表示し、参加者は表示部１０５に表示された全体画像から操作部１０４を介して詳細領域を指定する。その指定結果を相手側の参加者に送信し、例えば相手側の表示部１０５に全体画像と詳細画像領域を表示し、詳細画像領域の設定が適切に行われているか確認すればよい。

（１５）上記実施形態では、詳細画像の枠組みの大きさや位置を相手側の参加者が選択する場合について説明した。しかし、送信側の会議端末１０に予め詳細画像領域のテンプレートを書き込んでおき、全体画像と当該テンプレートを相手側会議端末１０に送信し、相手側の参加者はテンプレートの中から適切なものを選択するようにしても良い。
そのような実施例を以下に示す。例えば、Ｗｅｂカメラ１０７が図１０において、領域Ａで表される撮影領域に設定されている場合、図１１に示す構図で全体画像が生成される。従って、参加者がイスに座った場合に詳細画像として設定されるべき領域は予め予想でき、それは例えば図１５に示す領域Ｗ，Ｘ、Ｙ、またはＺなどである。従って、これらのテンプレート領域を予め作成しておき、ＲＡＭ１０３ｂに書き込んでおく。送信側端末は全体画像と共に相手側端末に送信すれば、相手側の参加者は表示部１０５に表示される全体画像においてスーパインポーズされるテンプレート領域から、希望するものを選択するようにすればよい。

（１６）上記実施形態では、参加者が一人だけ発言する場合を想定して説明した。従って、マイクアレイ１０６は最も大きな音量レベルを示した音源の方向を音源方向情報として生成した。しかし、所定の音量レベルを超える音源が複数ある場合には、それら複数の音源の方向を音源方向情報として生成し、それらの音源方向に対応付けられた詳細画像領域の動画を生成して相手端末に送信しても良い。

（１７）上記実施形態では、詳細画像データの送信が終わったとき、すなわち話者が発言をやめたときには、最後に表示したフレームを表示して次の処理に進む場合について説明した。しかし、話者が発言をやめた後で、該話者の領域には詳細画像データを表示せずに全体画像データを再び表示するようにしても良い。なお、上記の実施例のように詳細画像の最後のフレームを残すようにすれば、該詳細領域についてより最近の状況を反映させることができる。

本発明に係る会議端末を含む会議システムの構成を示すブロック図である。本発明に係る会議端末の構成を示すブロック図である。音源方向情報の説明をするための図である。送信レート管理テーブルの一例を示す図である。画像領域選択テーブルの一例を示す図である。ＲＴＰパケットの構成を示す図である。会議室における会議端末および参加者の位置関係を示す図である。初期設定処理の流れを示すフローチャートである。詳細画像領域設定処理の流れを示すフローチャートである。会議端末１０の側から見た会議室の様子を示す図である。全体画像の一例である。利用可能帯域幅測定処理の流れを示すフローチャートである。音声データの圧縮処理の流れを示す図である。詳細画像データの生成処理の流れを示すフローチャートである。詳細画像領域のテンプレートの一例である。

符号の説明

１…会議システム、２ａ、２ｂ、２ｃ、２ｄ…参加者、３…机、１０、１０Ａ、１０Ｂ…会議端末、２０…通信網、１０１…制御部、１０２…通信ＩＦ部、１０３…記憶部（１０３ａ；ＲＯＭ、１０３ｂ；ＲＡＭ（音声データバッファ領域））、１０４…操作部、１０５…表示部、１０６…マイクアレイ（１０６ａ…マイクロホン、１０６ｂ…Ａ／Ｄコンバータ）、１０７…Ｗｅｂカメラ、１０８…音声出力部（１０８ａ…スピーカ、１０８ｂ…Ｄ／Ａコンバータ）、１０９…バス、１１０…音量レベル検知部、１１１…フレーム選択部、１１２…音声データ圧縮部

Claims

撮影領域が設定され、前記撮影領域の画像データを生成する撮影手段と、
前記撮影手段が生成した画像データから静止画像を生成する静止画像生成手段と、
前記撮影手段が生成した画像データにおいて、１または複数の特定領域を指定する領域データを受取る受取手段と、
音源の発する音を表す音データを生成すると共に、該音源の方向を特定する方向特定手段と、
前記音源の方向を示す方向情報と画像領域に含まれる前記特定領域とが対応されて書き込まれたテーブルと、
前記方向特定手段が特定した音源の方向を前記テーブルに照らし合わせて前記特定領域を選択し、前記画像データから選択された特定領域を切り出して動画像を生成する動画像生成手段と、
前記静止画像生成手段が生成した静止画像および前記動画像生成手段が生成した動画像を他の通信装置に出力する出力手段と
を具備することを特徴とする通信装置。
撮影領域が設定され、前記撮影領域の画像データを生成する撮影手段と、
前記撮影手段が生成した画像データから静止画像を生成する静止画像生成手段と、
前記撮影手段が生成した画像データにおいて、１または複数の特定領域を指定する領域データを受取る受取手段と、
音源の発する音を表す音データを生成すると共に、該音源の方向を特定する方向特定手段と、
前記音源の方向を示す方向情報と画像領域に含まれる前記特定領域とが対応されて書き込まれたテーブルと、
前記方向特定手段が特定した音源の方向を前記テーブルに照らし合わせて前記特定領域を選択し、前記画像データから選択された特定領域を切り出して第２の静止画像を生成する第２の静止画像生成手段と、
前記静止画像生成手段が生成した静止画像および前記第２の静止画像生成手段が生成した第２の静止画像を他の通信装置に出力する出力手段と
を具備し、
前記出力手段から出力される前記第２の静止画像は、所定時間あたりの枚数が前記静止画像よりも多いことを特徴とする通信装置。
前記受取手段は、通信網を介して他の通信装置から前記領域データを受取ることを特徴とする請求項１または２に記載の通信装置。
前記領域データを生成する領域データ生成手段を具備することを特徴とする請求項１または２に記載の通信装置。
前記撮影手段は生成する画像データの画質を調整する画質調整手段を有し、
接続された通信網に対し利用可能な通信帯域幅を測定する測定手段と、
通信帯域幅と前記撮影手段の生成する画像データの画質とを対応付ける画質テーブルと、
通信に先立ち前記測定手段が測定した利用可能な通信帯域幅に対応する画質を、前記画質テーブルを参照して前記撮影手段に設定する画質設定手段と
を有する請求項１ないし４のいずれかに記載の通信装置。
前記撮影手段は生成する画像データの圧縮率を調整する圧縮率調整手段を有し、
接続された通信網に対し利用可能な通信帯域幅を測定する測定手段と、
通信帯域幅と前記撮影手段の生成する画像データを圧縮する圧縮率とを対応付ける圧縮率テーブルと、
通信に先立ち前記測定手段が測定した利用可能な通信帯域幅に対応する圧縮率を、前記圧縮率テーブルを参照して前記撮影手段に設定する圧縮率設定手段と
を有する請求項１ないし５いずれかに記載の通信装置。
第１の通信装置および第２の通信装置を有する会議システムであり、
第１の通信装置は、
撮影領域が設定され、前記撮影領域の画像データを生成する撮影手段と、
前記撮影手段が生成した画像データから静止画像を生成する静止画像生成手段と、
前記撮影手段が生成した画像データにおいて、１または複数の特定領域を指定する領域データを受取る受取手段と、
音源の発する音を表す音データを生成すると共に、該音源の方向を特定する方向特定手段と、
前記音源の方向を示す方向情報と前記特定領域とが対応されて書き込まれたテーブルと、
前記方向特定手段が特定した音源の方向を前記テーブルに照らし合わせて前記特定領域を選択し、前記画像データから選択された特定領域を切り出して動画像を生成する動画像生成手段と、
前記静止画像生成手段が生成した静止画像および前記動画像生成手段が生成した動画像を他の通信装置に出力する出力手段と
を具備し、
第２の通信装置は、
前記第１の通信装置から前記静止画像を受取る第２の受取手段と、
前記静止画像において特定領域を指定する特定領域指定手段と、
前記特定領域指定手段が指定した特定領域を表す前記領域データを前記第１の通信装置に出力する第２の出力手段と、
前記第１の通信装置から受取った前記静止画像に対し、前記動画像を重畳して表示する表示手段と
を具備することを特徴とする会議システム。