JP2008311910A - 通信装置および会議システム - Google Patents

通信装置および会議システム Download PDF

Info

Publication number
JP2008311910A
JP2008311910A JP2007157340A JP2007157340A JP2008311910A JP 2008311910 A JP2008311910 A JP 2008311910A JP 2007157340 A JP2007157340 A JP 2007157340A JP 2007157340 A JP2007157340 A JP 2007157340A JP 2008311910 A JP2008311910 A JP 2008311910A
Authority
JP
Japan
Prior art keywords
image
unit
data
area
photographing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007157340A
Other languages
English (en)
Inventor
Toshiaki Ishibashi
利晃 石橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007157340A priority Critical patent/JP2008311910A/ja
Publication of JP2008311910A publication Critical patent/JP2008311910A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】遠隔会議において受信側の参加者の需要に応じた映像を送受信するための通信装置および会議システムを提供する。
【解決手段】送信側会議端末は、会議室全体を撮影領域とした全体画像(静止画像)を生成し、予め相手側会議端末に送信しておく。会議が開始されると、送信側会議端末はマイクアレイにより音源(発言者)の方向を特定し、Webカメラの撮影領域の中で特定された音源方向に対応付けられた領域(図中領域B、C、およびDのうちいずれか)を表す動画を生成し相手側会議端末に送信する。相手側会議端末は、受信した動画を全体画像において対応する領域に表示する。以上の処理により、その時点で発言している参加者の含まれる画像領域については動画で表示されると同時に、発言を行っていない参加者や背景については全体画像の更新が行われない。その結果、ネットワークの帯域を過大に利用することなく必要な情報を送受信することができる。
【選択図】図11

Description

本発明は、音声と共に画像を送信する通信装置および会議システムに関する。
近年、通信網を介して接続された複数の会議端末を用いて会議を行う遠隔会議システムが一般に普及している。特許文献1には、遠隔地にある者同士が参加して行われる遠隔会議の運営を支援するTV会議システムが開示されている。この文献に開示されたシステムにおいては、各参加者に対してマイクロホンが設置されている。参加者が発言すると、発言を収音したマイクロホンにより発言者が特定され、該発言者にカメラが向けられ発言者の姿がズームアップされて相手側に送られる一方、発言者がいないと会議室全体の画像が送られるように制御される。
特開平02−202275号公報
ところで、参加者が必要とする映像情報は、とりわけ発言を行っている参加者の表情などである。ところが、特許文献1では、いずれの参加者も発言を行っていない場合にも会議室全体の様子を動画として送信し、過大なネットワーク帯域を使用していた。また、特許文献1の技術では、送信側は受信側がどのような映像を求めているのかについて知ることはできないため、お互いの参加者が本当に見たい映像を送受信することはできなかった。
本発明は、上記の課題に応じてなされたものであり、受信側の参加者の需要に応じた映像を過不足無く送受信することを可能にする通信装置および会議システムを提供することを目的とする。
本発明に係る通信装置の第1の実施形態は、撮影領域が設定され、前記撮影領域の画像データを生成する撮影手段と、前記撮影手段が生成した画像データから静止画像を生成する静止画像生成手段と、前記撮影手段が生成した画像データにおいて、1または複数の特定領域を指定する領域データを受取る受取手段と、音源の発する音を表す音データを生成すると共に、該音源の方向を特定する方向特定手段と、前記音源の方向を示す方向情報と画像領域に含まれる前記特定領域とが対応されて書き込まれたテーブルと、前記方向特定手段が特定した音源の方向を前記テーブルに照らし合わせて前記特定領域を選択し、前記画像データから選択された特定領域を切り出して動画像を生成する動画像生成手段と、前記静止画像生成手段が生成した静止画像および前記動画像生成手段が生成した動画像を他の通信装置に出力する出力手段とを具備することを特徴とする。
また、本発明に係る通信装置の第2の実施形態は、撮影領域が設定され、前記撮影領域の画像データを生成する撮影手段と、前記撮影手段が生成した画像データから静止画像を生成する静止画像生成手段と、前記撮影手段が生成した画像データにおいて、1または複数の特定領域を指定する領域データを受取る受取手段と、音源の発する音を表す音データを生成すると共に、該音源の方向を特定する方向特定手段と、前記音源の方向を示す方向情報と画像領域に含まれる前記特定領域とが対応されて書き込まれたテーブルと、前記方向特定手段が特定した音源の方向を前記テーブルに照らし合わせて前記特定領域を選択し、前記画像データから選択された特定領域を切り出して第2の静止画像を生成する第2の静止画像生成手段と、前記静止画像生成手段が生成した静止画像および前記第2の静止画像生成手段が生成した第2の静止画像を他の通信装置に出力する出力手段とを具備し、前記出力手段から出力される前記第2の静止画像は、所定時間あたりの枚数が前記静止画像よりも多いことを特徴とする。
また、本発明に係る通信装置の第3の実施形態は、前記第1または2の実施形態において、前記受取手段は、通信網を介して他の通信装置から前記領域データを受取ることを特徴とする。
また、本発明に係る通信装置の第4の実施形態は、前記第1または2の実施形態において、前記領域データを生成する領域データ生成手段を具備することを特徴とする。
また、本発明に係る通信装置の第5の実施形態は、前記第1ないし4いずれかに記載の実施形態において、前記撮影手段は生成する画像データの画質を調整する画質調整手段を有し、接続された通信網に対し利用可能な通信帯域幅を測定する測定手段と、通信帯域幅と前記撮影手段の生成する画像データの画質とを対応付ける画質テーブルと、通信に先立ち前記測定手段が測定した利用可能な通信帯域幅に対応する画質を、前記画質テーブルを参照して前記撮影手段に設定する画質設定手段とを有することを特徴とする。
また、本発明に係る通信装置の第6の実施形態は、前記第1ないし5のいずれかに記載の実施形態において、前記撮影手段は生成する画像データの圧縮率を調整する圧縮率調整手段を有し、接続された通信網に対し利用可能な通信帯域幅を測定する測定手段と、通信帯域幅と前記撮影手段の生成する画像データを圧縮する圧縮率とを対応付ける圧縮率テーブルと、通信に先立ち前記測定手段が測定した利用可能な通信帯域幅に対応する圧縮率を、前記圧縮率テーブルを参照して前記撮影手段に設定する圧縮率設定手段とを有することを特徴とする。
また、本発明に係る会議システムの実施形態は、第1の通信装置および第2の通信装置を有する会議システムであり、第1の通信装置は、撮影領域が設定され、前記撮影領域の画像データを生成する撮影手段と、前記撮影手段が生成した画像データから静止画像を生成する静止画像生成手段と、前記撮影手段が生成した画像データにおいて、1または複数の特定領域を指定する領域データを受取る受取手段と、音源の発する音を表す音データを生成すると共に、該音源の方向を特定する方向特定手段と、前記音源の方向を示す方向情報と前記特定領域とが対応されて書き込まれたテーブルと、前記方向特定手段が特定した音源の方向を前記テーブルに照らし合わせて前記特定領域を選択し、前記画像データから選択された特定領域を切り出して動画像を生成する動画像生成手段と、前記静止画像生成手段が生成した静止画像および前記動画像生成手段が生成した動画像を他の通信装置に出力する出力手段とを具備し、第2の通信装置は、前記第1の通信装置から前記静止画像を受取る第2の受取手段と、前記静止画像において特定領域を指定する特定領域指定手段と、前記特定領域指定手段が指定した特定領域を表す前記領域データを前記第1の通信装置に出力する第2の出力手段と、前記第1の通信装置から受取った前記静止画像に対し、前記動画像を重畳して表示する表示手段とを具備することを特徴とする。
本発明に係る通信装置または会議システムによれば、遠隔会議において受信側の参加者の需要に応じた映像を過不足無く送受信することが可能になる、といった効果を奏する。
以下、図面を参照しつつ本発明の一実施形態である会議端末について説明する。
(A:構成)
図1は、本発明の一実施形態である会議端末を含む会議システム1の構成を示すブロック図である。会議システム1は、会議端末10Aと会議端末10Bと通信網20とからなり、会議端末10Aおよび会議端末10Bは通信網20にそれぞれ有線接続されている。会議端末10Aおよび会議端末10Bは互いに同じ構成からなり、以下では会議端末10Aおよび会議端末10Bを区別する必要が無いときには、両者を会議端末10と総称する。
なお、ここでは2台の会議端末が通信網20に接続されている場合について例示されているが、3台以上の会議端末が接続されているとしても良い。
本実施形態では、通信プロトコルとして以下に述べる各通信プロトコルが用いられている。すなわち、アプリケーション層の通信プロトコルとして、Real-time Transport Protocol(以下、「RTP」)が用いられている。RTPとは、音声データや映像データをend-to-endでリアルタイムに送受信する通信サービスを提供するための通信プロトコルであり、その詳細はRFC1889に規定されている。RTPにおいては、RTPパケットを生成し送受信することにより通信端末同士でデータの授受が行われる。また、トランスポート層の通信プロトコルとしては、UDPが用いられており、ネットワーク層の通信プロトコルとしてはIPが用いられている。上記の会議端末10Aおよび会議端末10Bには、それぞれにIPアドレスが割り振られており、ネットワーク上で一元的に識別される。
なお、UDPおよびIPについては、一般に広く用いられている通信プロトコルであるため説明を省略する。
次に、会議端末10のハードウェア構成について図2を参照して説明する。
図に示す制御部101は、例えばCPU(Central Processing Unit)であり、後述する記憶部103に格納されている各種制御プログラムを実行することにより、会議端末10の各部の動作を制御する。
Webカメラ107は、C−MOSイメージセンサからの入力をMotion−JPEG方式の動画として出力する。なお、Motion−JPEG方式とは、撮影したフレームごとの画像をJPEG(Joint Photographic Experts Group)形式に圧縮し、これを連続して記録する動画データ生成方式である。画像サイズはWebカメラ107に予め設定されたサイズ(本実施形態では640pixel×480pixel)であり、単位時間当たりのフレーム数は適宜制御部101により制御される。画像の圧縮率はJPEG方式の画像圧縮(圧縮率は1/5〜1/60)の範囲内で、制御部101により制御される。
また、Webカメラ107は、所定の信号を受けるとその時点で生成されているフレームの画像をキャプチャーし、静止画として出力する機能を有している。
以上のように生成された動画データおよび静止画データ(以下、両データを「画像データ」と総称する)は、RAM103bへ出力される。なお、参加者はWebカメラ107の向きを手動で変更し、その撮影領域を任意に設定することが可能である。
マイクアレイ106は、図示せぬ複数(本実施形態では8つ)のマイクロホン106aと、アナログ/デジタル(以下、「A/D」と略記する)コンバータ106bを含む。マイクアレイ106は指向性マイクとしての機能を有し、音声を収音する方向を走査しながら収音する機能を有する。生成された音声データはRAM103bの音声データバッファ領域に一旦書き込まれて後述する各種処理が行われるが、各種処理による信号の遅れはごくわずかであるために、通話のリアルタイム性には影響はない。
制御部101は、さまざまな方向からの音声から生成された音声データを解析し、音量レベルが大きい方向を音源(すなわち、受信した音声が人間の声ならばその話者)の方向として特定する。
図3は、マイクアレイ106および参加者2a、2b、2c、および2dの相対配置の一例を示した図である。マイクアレイ106は、特定した音源方向を表す音源方向情報を、マイクアレイ106の中央(図中O)から見た音源の方向(極座標における偏角Φ)として生成し、生成された音声データと共にRAM103bへ出力する。
図3において例えば話者が参加者2aであるとすると、音源方向はΦ=π/6となる。なお、同時に複数の参加者が発言するなどして同時に複数の方向から音声の入力があった場合には、制御部101はそれら複数の方向からの音声の音量レベルを比較し、最も音量レベルが高い方向を音源の方向とする。
記憶部103は、ROM(Read Only Memory)103aおよびRAM(Random Access Memory)103bを有する。ROM103aは、本発明に特徴的な機能を制御部101に実現させるためのデータや制御プログラムを格納している。上記データの一例としては、テストデータ、送信レート管理テーブル、および画像領域選択テーブルがある。
テストデータは、予めWebカメラ107によって生成されたMotion−JPEG方式の動画データである。なお、その内容はどのようなものであっても良い。
図4は、送信レート管理テーブルの一例を示した図である。送信レート管理テーブルには、Webカメラ107が動画データを生成する際の単位時間当たりのフレーム数(fps)、およびJPEG方式の画像の圧縮率が、利用可能な通信帯域幅(Mbps;Mega bit per second)に対応付けられて規定されている。
図5は、画像領域選択テーブルの一例を示した図である。画像領域選択テーブルには、Webカメラ107が生成した画像において設定された特定の領域が、マイクアレイ106を基準とした音源の方向に対応付けられて規定されている。例えば、参加者が図11に示される位置関係にあるとき参加者2cが発言を行った場合、音源(参加者2c)の方向は偏角Φ=π/2であるが、5π/12<Φ<7π/12であることから領域Cの画像領域が選択される。なお、上記の音源の方向、および音源の方向と画像領域との対応関係は、会議開始時にその都度設定される。
RAM103bは、各種プログラムにしたがって作動している制御部101によってワークエリアとして利用されると共に、マイクアレイ106およびWebカメラ107が生成した音声データおよび画像データが書き込まれる。
制御部101は上記制御プログラムに従い、RAM103bに書き込まれた音声データまたは画像データからRTPパケットを生成する。ここで、RTPパケットについて詳細に説明する。RTPパケットは、図6に示すようにIPにおけるデータ転送単位であるパケットやTCPにおけるデータ転送単位であるセグメントと同様に、ペイロード部に対してヘッダ部が付与され構成されている。
ヘッダ部には、タイムスタンプ、ペイロードタイプ、シーケンス番号、画像タイプおよび区画情報の5種類のデータが書き込まれる。ここで、タイムスタンプとは、当該RTPパケットが送信される時刻(音声通信の開始を指示されてから経過した時間)を示すデータである。ペイロードタイプとは、通信メッセージの種別をその通信メッセージの宛先に識別させるためのデータである。本実施形態で利用されるメッセージ種別には、音声データ送信メッセージ、画像データ送信メッセージの2種類がある。それらのメッセージにおいて、ペイロードタイプには、それぞれ“1”、“2”の2種類の数字が書き込まれる。シーケンス番号とは、各パケットを一意に識別するための識別子であり、例えば1つの音声データが一連のRTPパケットに分割されて送信される場合に、各パケットに対して1、2、3…のようにシーケンス番号が付与される。画像タイプとは、ペイロード部に書き込まれた画像データが、後述する“全体画像”と“詳細画像”のいずれであるかを示し、それぞれ“1”または“2”が書き込まれる。区画情報とは、ペイロード部に書き込まれた画像データが“詳細画像”であるとき、該詳細画像が後述する表示部105のどの領域に表示されるものであるかを規定する情報であるが、その詳細は後述する。
ペイロード部には、音声データ送信メッセージまたは画像データ送信メッセージにおいては、それぞれ所定時間(本実施形態においては20ミリ秒)分の音声データまたは画像データが書き込まれる。
通信IF部102は、例えばNIC(Network Interface Card)である。この通信IF部102は、制御部101から受取ったRTPパケットを下位層の通信プロトコルにしたがって順次カプセル化することによりIPパケットを生成し、通信網20へ送出する。なお、カプセル化とは、上記RTPパケットをペイロード部に書き込んだUDPセグメントを生成し、さらに、そのUDPセグメントをペイロード部に書き込んだIPパケットを生成することである。また、通信IF部102は、通信網20を介してIPパケットを受信し、上記カプセル化とは逆の処理を行うことにより、そのIPパケットにカプセル化されているRTPパケットを読み出して制御部101へ出力する。
操作部104は、例えばキーボードやマウスなどであり、会議端末10の操作者が操作部104を操作して何らかの入力操作を行うと、その操作内容を表すデータが制御部101へと伝達される。
表示部105は、幅640pixel×縦480pixelのモニタである。通信IF部102を介して受取った、または、自端末が生成した画像データに基づいて画像を表示する。
音声出力部108は、制御部101から受取った音声データの表す音声を再生するものであり、スピーカ108aとD/Aコンバータ108bとを含んでいる。D/Aコンバータ108bは、制御部101から受取った音声データに対してD/A変換を施すことによって音声信号へ変換しスピーカ108aへ出力するものである。そして、スピーカ108aは、D/Aコンバータ108bから受取った音声信号に応じた音声を再生する。
(B:動作)
次に、遠隔会議を行う際に会議端末10が行う動作について説明する。図7に会議端末10の会議室における設置状況を示す。会議室には机3が設置され、会議端末10は机の横に設置されている。表示部105は全ての参加者が視認することができる位置に配置されており、マイクアレイ106、スピーカ108a、およびWebカメラ107は、表示部105の上方に配置されている。
会議に参加する参加者2a、2b、2c、および2dは、机の周囲に設置されたイスに腰掛けている。図3に示すように、参加者2a、2b、2c、および2dは、マイクアレイ106の中心を基準にしてそれぞれ偏角Φ=π/6、π/3、π/2、3π/4の方向に位置している。
制御部101は、遠隔会議が開始される前に、本会議において送受信する画像に関して初期設定処理を行う。図8は、初期設定処理の流れを示したフローチャートである。まずステップSA100において、制御部101は詳細画像領域設定処理を行う。
詳細画像領域設定処理については、図9に示すフローチャートを用いて詳細に説明する。まず、ステップSA1010において、制御部101はWebカメラ107に会議室全体を表す画像(以下、全体画像)を表す画像データ(以下、全体画像データ)を生成させる。図10は、Webカメラ107の側から会議室を描いた図である。本動作例では、Webカメラ107の撮影領域は、全参加者が含まれるように領域Aで示された領域となるよう設定されている。従って、Webカメラ107は、図11に示すような画像を表す全体画像データ(静止画)を生成する。制御部101は生成された画像データを相手側の会議端末10に出力する(ステップSA1020)。なお、全体画像データを含むRTPパケットのヘッダ部のペイロードタイプには“2”が、画像タイプには“1”が書き込まれる。また、生成した画像データは表示部105に表示される。
相手側の会議端末10は、全体画像データを受信すると、該データをRAM103bに書き込むと共に、その表示部105に該全体画像を表示する。以下では図11に示す全体画像において、便宜上左上隅を原点(0、0)とし右下隅を(640、480)とする座標を用いて説明を行う。なお、該座標は画像データを表示する表示部105の画素に対応するものである。
参加者は、全体画像の表示された表示部105を視認しながら操作部104を操作することにより、会議中にリアルタイムに様子を確認したい領域(以下、詳細画像領域)を1または複数選択する。本動作例では、図11中で領域B、C、およびDで現される領域が選択される。
なお、領域の特定方法には、長方形の一つの隅(左上)とその向かい合う隅(右下)の座標を用いる。例えば領域Bは、「(430、220)−(560、400)」と表される。以上のようにして選択された詳細画像領域の範囲を表す領域データは送信側の会議端末10に出力される。
さて、送信側の会議端末10は、領域データを受信すると(ステップSA1030)、該データをRAM103bに書き込む。ここで、制御部101は、表示部105に表示された全体画像において、領域データにより指定された詳細画像領域の1つを枠で囲むなどして強調表示する画像処理を行うと共に、強調表示された領域に含まれる参加者は声を発するように促す表示を表示部105に表示する。各参加者は、表示部105を視認して自分自身が強調表示された領域に含まれる場合には何らかの声を発する。
制御部101は、マイクアレイ106が生成した音声データに基づいてその音源方向を特定する。そして、特定された音源方向に対して±π/12[rad]した範囲を、強調表示されている詳細画像領域名と対応付けて画像領域選択テーブルに書き込む(ステップSA1040)。
例えば、参加者2cを含む領域Cが表示部105上で強調表示された場合、参加者2cは「こちらです。」などと発言する。マイクアレイ106は該発言を収音し、制御部101はマイクアレイ106が生成する音声データに基づいて音源方向Φ=π/2を特定する。そして制御部101は、5π/12〜7π/12の範囲の音源方向を詳細画像領域Cに対応付けて書き込む。制御部101は、以上の操作をそれぞれの詳細画像領域について繰り返すことにより画像領域選択テーブルを完成させる。
さて、ステップSA100が終了すると、会議端末10はステップSA110にて利用可能帯域幅測定処理を行う。利用可能帯域幅測定処理とは、通信網20を介して相手側会議端末とデータ通信する際に、その通信網20にて利用することのできる最大の通信帯域幅を測定する処理である。本処理については、図12に示すフローチャートを用いて詳細に説明する。
まず制御部101は、パケットを送信する際の送信間隔を決定する(ステップSA1100)。利用可能帯域幅測定処理を初めて行う際には、所定の送信間隔を設定する。次に制御部101は、ROM103aに格納されたテストデータから一連のパケットを生成し、ステップSA1100にて決定された送信間隔で相手側の会議端末10へ送信する(ステップSA1110)。このとき、制御部101は送信した各パケットのシーケンス番号をRAM103bに書き込む。
相手側の制御部101は上記テストデータを受信し、受信した各パケットのシーケンス番号を受信通知メッセージに書き込み、該受信通知メッセージを送信側の会議端末に対して返信する。送信側の制御部101は、該受信通知メッセージを受信し(ステップSA1120)、受信通知メッセージに書き込まれたシーケンス番号列とRAM103bに書き込まれたシーケンス番号列とから上記テストデータの送信におけるパケットロスの発生率(受信されなかったパケット数/送信されたパケット数)を算出し、パケットロスが発生したか否か判定する(ステップSA1130)。
制御部101は、上記所定の送信間隔でテストデータを送信した場合に、パケットロスが発生しなかった場合(ステップSA1130;“No”)、ステップSA1100以降の処理を再度行う。そのとき、ステップSA1100においては、前回行ったステップSA1100において設定したパケット送信間隔より所定の割合だけ短い送信間隔を設定する。
制御部101は、パケットロスが発生しない間は、パケットの送信間隔を順次短くしながらステップSA1100ないしステップSA1130を繰り返し行う。ステップSA1130においてパケットロスが発生した場合(ステップSA1130;“Yes”)には、その1回前にテストデータを送信した際の送信レート(テストデータのデータ量/送信にかかった時間)を、その時点での利用可能な帯域幅(単位はBPS;Byte/秒)として算出する(ステップSA1140)。なぜならば、送信間隔が短くなると単位時間当たりの送信データ量すなわち送信レートは高くなる。従って、テストデータの送信においてパケットロスが発生した場合には、その際に利用した送信レートは利用可能な通信帯域幅を初めて上回ったことを意味するからである。以上が利用可能帯域幅測定処理である。
再び図8に戻り、制御部101は、Webカメラのパラメータの設定を行う(ステップSA120)。すなわち制御部101は、利用可能帯域幅測定処理の測定値とROM103aに格納された送信レート管理テーブル(図4参照)とを照らし合わせ、送信レート管理テーブル中で利用可能な帯域幅の項目が該測定値より小さいものの中で最大の値である項目と対応付けられているフレーム数およびJPEG画像の圧縮率を読み出し、Webカメラ107の単位時間当たりの撮影フレーム数およびJPEG画像の圧縮率を読み出された値に設定する。
次に制御部101は、ステップSA130において、パラメータ調整処理を開始してから一定時間が経過したかどうか判定する。ステップSA130の判定結果が“No”である場合は、一定時間が経過するまでステップSA130の処理が繰り返される。一定時間が経過すると、ステップSA130の判定結果は“Yes”となり、ステップSA140が行われる。ステップSA140においては、制御部101は、データ通信が終了したかどうか判定する。ステップSA140の判定結果が“No”である場合にはステップSA110以降の処理が再び行われる。ステップSA140の判定結果が“Yes”である場合には、制御部101は初期設定処理を終了する。
以上に説明した処理により、制御部101は会議室全体の様子を相手側会議端末10に送信し会議中リアルタイムに画像を表示する領域を確定させると共に、会議開始時および開始後一定時間置きに利用可能な帯域幅に合わせてWebカメラ107のパラメータを再設定する。
以下では、会議中に会議端末10が行う動作を説明する。まず、音声データの通信について説明する。会議端末10は、マイクアレイ106が生成した音声データを圧縮して出力する機能を有する。図13は、会議端末10が行う音声データ処理の流れを示したブロック図である。
マイクアレイ106は、音声データを生成しRAM103bの音声データバッファ領域に書き込む。音量レベル検知部110は、該音声データを所定の大きさ(本実施形態においては20ミリ秒分)のフレーム単位で読み取り、フレームごとに音量レベルを測定する。そして、音量レベルが所定の閾値を超える期間があるフレームを有音フレームとし、音量レベルが所定の閾値を一度も超える期間が無いフレームを無音フレームとする。それらのフレームに対応する期間を、以下ではそれぞれ有音期間および無音期間と呼ぶ。
有音フレームには、有音圧縮処理が施される。すなわち、フレーム選択部111は有音フレームをRAM103bから音声データ圧縮部112に受け渡し、音声データ圧縮部112は該フレームの音声データを、コーデックにより所定の圧縮率で圧縮する。圧縮が施された音声データには図6に示されるようにRTPヘッダを付与され、RTPパケットが生成される。
一方、無音フレームには、無音圧縮処理が施される。すなわち、フレーム選択部111は、無音フレームを音声データ圧縮部112に受け渡さず、その結果無音期間にはRTPパケットは生成されない。
無音フレームには、会議室のざわめき(暗騒音)などが含まれ、音量レベルは非常に低いとしても、そのデータ量は小さくないことが一般に知られている。上記無音圧縮処理によれば、参加者が必要とする音声は含まれていない無音フレームを“間引く”ことにより、必要な情報を欠落させることなく送信データ量を減らすことができる。
なお、上記音声データのRTPパケットのペイロードタイプには、“1”が書き込まれる。
以上が音声データ処理の流れである。制御部101は、有音圧縮処理および無音圧縮処理を併せ用いることで、音声データをできるだけ少ない帯域幅を用いて出力することができる。
次に、画像データの通信について説明する。本会議システムにおいては、送信側の会議端末10は、上述したように会議開始時に会議室全体を表す全体画像(静止画)を送信し、会議中は全体画像の一部分のみを表す詳細画像データ(動画)を送信する。そしてそれらの画像データを受信した相手側の会議端末10は、全体画像において、受取った詳細画像の領域のみをリアルタイムに更新するという態様で画像が表示される。
ここで、詳細画像データを生成する処理について、図14に示すフローチャートを用いて説明する。まずステップSB100において、マイクアレイ106は、音源方向情報を生成する。例えば図3において参加者2aが発言を行った場合、マイクアレイ106が生成する音源方向情報はΦ=π/6となる。制御部101は、該音源方向情報をROM103aに格納された画像領域選択テーブルと照らし合わせることにより、当該発言を行った参加者を含む詳細画像領域を特定する(ステップSB110)。上記音源方向Φ=π/6は、画像領域選択テーブルにおいてπ/12<Φ<5π/12に対応するため、画像領域Bが選択される。制御部101は、選択された画像領域をRAM103bに書き込む。
Webカメラ107は、会議中に設定された撮影領域の全体画像(本動作例では図10における領域A)を表すMotion−JPEG方式の動画を生成する。制御部101は、RAM103bを参照することにより詳細画像領域の範囲を特定し、上記の動画から該詳細画像領域を切り出すことにより、それぞれの領域についてのMotion−JPEG方式の動画(以下、詳細画像)を生成する(ステップSB120)。そして制御部101は、生成されたデータ(以下、詳細画像データ)を相手側の会議端末10に送信する(ステップSB130)。なお、詳細画像データを含むRTPパケットのヘッダ部のペイロードタイプには“2”が、画像タイプには“2”が書き込まれ、区画情報にはそれぞれの詳細情報の全体画像における座標(本動作例では「(430、220)−(560、400)」が書き込まれる。
発言者が発言を終了すると、マイクアレイ106の生成する音声データは所定の音量レベルに満たなくなるため、当該音声データには無音圧縮処理が施され、音声パケットは生成されない。従って音源方向情報も生成されず、会議端末10はいずれの詳細画像領域の画像データも生成しない。
以下では、音声データおよび画像データを受取った相手側の会議端末10が行う動作について説明する。まず、音声データについて説明する。制御部101は、音声データを受取ると、該音声データを音声出力部108に出力する。D/Aコンバータ108bは、該音声データをアナログ方式の音声信号に変換しスピーカ108aは該音声信号の表す音声を放音する。
次に、画像データについて説明する。会議端末10は会議開始時に、全体画像データを受取る。制御部101は、受取った全体画像を会議中継続して表示部105に表示する。そして相手側の参加者が発言を行うと、該発言者を表す詳細画像データを相手側会議端末10から受取る。制御部101は該データの有する区画情報を読み出し、受取った詳細画像を全体画像の該区画に重ね合わせて表示する。そして発言が終了すると、当該詳細画像領域には最後に表示したフレームを表示する。相手側の別の参加者が発言を始めると、該当する詳細領域について上記と同様の処理を始める。
以上の処理の結果、詳細画像領域として指定されなかった領域については会議開始時に受取った全体画像が継続して表示される。一方、詳細領域については例えば参加者が発言を行っている最中にだけ該参加者を表す動画データが更新される。その結果、参加者は壁や机などが写った領域については、会議開始時に受取った全体画像で十分に様子をつかむことができると同時に、参加者などが写った領域については該参加者が発言を行っている最中には動画データが表示されているため、その状況をリアルタイムに把握することができる。また、会議中に端末間で送受信するデータは詳細画像領域に限定されていることから、限られたネットワーク帯域を有効に利用することが出来るといった効果を奏する。
(C:変形例)
以上、本発明の実施形態について説明したが、本発明は以下に述べる種々の形態で実施することができる。
(1)上記実施形態では、マイクアレイで音源の方向を特定することにより詳細画像の領域を選択する場合について説明した。しかし、詳細画像の領域の選択方法は上記に限らない。例えば、マイクロホンを各参加者の前に設置し、各マイクロホンにおいて生成された音声データのうち最も高い音量レベルを示す音声データを特定し、該音声データを生成したマイクロホンの周囲を詳細画像領域としても良い。その場合、図5に示した画像領域選択テーブルにおいて、音源方向に替えてマイクロホンを一意に識別可能な情報(例えばマイクロホンが接続された端子の番号など)と画像領域とを対応付けておき、位置関係が満たされるようにマイクロホンを位置設定しておく必要がある。
(2)上記実施例において、本発明に係る機能は会議端末10に対して設けられていたが、本発明の適用対象はもちろん会議端末に限定されない。Webカメラで生成したデータをリアルタイムにクライアント装置へ提供するサーバ装置などに適用しても良い。要は画像データをリアルタイムに生成および送信する装置であればどのような装置でもよい。
(3)上記実施例において、本発明に係る会議端末に特徴的な機能をソフトウェアモジュールで実現する場合について説明したが、上記各機能を担っているハードウェアモジュールを組み合わせて本発明に係る会議端末を構成するようにしても良い。
(4)上述した実施形態では、画像データおよび音声データの通信にアプリケーション層の通信プロトコルとしてRTPを用いる場合について説明したが、他の通信プロトコルを用いても良いことは勿論である。要は、所定のヘッダ部とペイロード部とを有するデータブロックのペイロード部に、画像データまたは音声データを所定時間分ずつ書き込んで送信する通信プロトコルであれば、どのような通信プロトコルであっても良い。また、上述した実施形態では、トランスポート層の通信プロトコルとしてUDPを用いる場合について説明したが、TCPを用いるようにしても良い。同様にネットワーク層の通信プロトコルがIPに限定されるものではない。
(5)上述した実施形態では、音声データおよび画像データの送受信を行う場合について説明したが、データの種類はそれらに限られるものではない。相手側の参加者に提示する資料を表す資料データ等を音声データおよび画像データと併せて送っても良い。
(6)上記実施形態では、会議端末10が通信網20に有線接続されている場合について説明したが、通信網20が例えば無線LAN(Local Area Network)などの無線パケット通信網であり、会議端末10がこの無線パケット通信網に接続されていても勿論良い。また、上記実施形態では通信網20がインターネットである場合について説明したが、LANであっても良いことは勿論である。要は、所定の通信プロトコルにしたがって行われる通信を仲介する機能を備えた通信網であれば、どのような通信網であっても良い。
(7)上記実施形態では、本発明に係る通信装置に特徴的な機能を制御部101に実現させるための制御プログラムをROM103aに予め書き込んでおく場合について説明したが、CD−ROMやDVDなどのコンピュータ装置読み取り可能な記録媒体に上記制御プログラムを記録して配布するとしても良く、インターネットなどの電気通信回線経由のダウンロードにより上記制御プログラムを配布するようにしても勿論良い。
(8)上記実施形態では、送信側端末は全体画像データを会議開始時に一度きり送信する場合について説明した。しかし、送信側端末は全体画像データを定期的に送信し、受信側端末は既に表示された全体画像を、新たに受取った全体画像データで置き換えるようにしても良い。その場合は、利用可能な帯域幅を圧迫しない程度の頻度で全体画像データを出力すれば良い。
(9)上記実施形態では、詳細画像データを動画データとする場合について説明したが、静止画像を一定の頻度で更新するようにしても良い。要は、詳細画像領域の画像が他の領域に比べてより早く会議室の様子を反映するようにすれば良い。
(10)上記実施形態では、Webカメラ107はMotion−JPEG方式により画像データを生成する場合について説明した。しかし、画像の記録方式はMotion−JPEG方式に限定されず、MPEG(Moving Picture Experts Group)など他の方式を用いても良い。また、画像データを圧縮せずに送信しても良い。
(11)上記実施形態では、詳細画像の領域を参加者が任意に選択する場合について説明したが、利用可能な帯域幅の値に応じて該領域の広さに制限を設けるようにしても良い。具体的には、利用可能帯域幅が狭いほど詳細画像の領域として設定される領域を制限しても良い。
(12)上記実施形態では、詳細画像を長方形の領域とする場合について説明したが、該領域の形状は長方形に限定されない。例えば円形や楕円でも良い。要は時間の経過と共に変化する領域と変化しない領域を区分できれば良い。
(13)上記実施形態では、人物などが含まれる詳細画像の領域を参加者が手動で設定する場合について説明したが、Webカメラ107で撮影した全体画像を所定の方法で解析することにより例えば人物が含まれる領域を自動的に選択させても良い。上記方法の一例としては、以下のようにすれば良い。参加者は会議室の所定の位置に座っても、一般に左右前後に体が動く。その間Webカメラ107は所定のフレームレートで該参加者を含む会議室全体を表す動画を生成する。制御部101は生成された画像データを解析し、フレーム間に画像に差があった領域を参加者が含まれる領域と判定し、該領域を詳細画像の領域とする。なお、参加者は意図的に体を動かすことで、より正確に領域の選択を行わせることもできる。また、別の一例としては、Webカメラ107で撮影した画像において、肌や唇の色やシルエットなどから人物の存在を検出し、該領域を参加者が含まれる領域と判定し、該領域を含むように詳細領域を設定すると良い。
(14)上記実施形態では、詳細画像の領域を受信側の参加者が選択する場合について説明したが、送信側の参加者が選択しても良い。その場合、全体画像を送信側の会議端末10の表示部105に表示し、参加者は表示部105に表示された全体画像から操作部104を介して詳細領域を指定する。その指定結果を相手側の参加者に送信し、例えば相手側の表示部105に全体画像と詳細画像領域を表示し、詳細画像領域の設定が適切に行われているか確認すればよい。
(15)上記実施形態では、詳細画像の枠組みの大きさや位置を相手側の参加者が選択する場合について説明した。しかし、送信側の会議端末10に予め詳細画像領域のテンプレートを書き込んでおき、全体画像と当該テンプレートを相手側会議端末10に送信し、相手側の参加者はテンプレートの中から適切なものを選択するようにしても良い。
そのような実施例を以下に示す。例えば、Webカメラ107が図10において、領域Aで表される撮影領域に設定されている場合、図11に示す構図で全体画像が生成される。従って、参加者がイスに座った場合に詳細画像として設定されるべき領域は予め予想でき、それは例えば図15に示す領域W,X、Y、またはZなどである。従って、これらのテンプレート領域を予め作成しておき、RAM103bに書き込んでおく。送信側端末は全体画像と共に相手側端末に送信すれば、相手側の参加者は表示部105に表示される全体画像においてスーパインポーズされるテンプレート領域から、希望するものを選択するようにすればよい。
(16)上記実施形態では、参加者が一人だけ発言する場合を想定して説明した。従って、マイクアレイ106は最も大きな音量レベルを示した音源の方向を音源方向情報として生成した。しかし、所定の音量レベルを超える音源が複数ある場合には、それら複数の音源の方向を音源方向情報として生成し、それらの音源方向に対応付けられた詳細画像領域の動画を生成して相手端末に送信しても良い。
(17)上記実施形態では、詳細画像データの送信が終わったとき、すなわち話者が発言をやめたときには、最後に表示したフレームを表示して次の処理に進む場合について説明した。しかし、話者が発言をやめた後で、該話者の領域には詳細画像データを表示せずに全体画像データを再び表示するようにしても良い。なお、上記の実施例のように詳細画像の最後のフレームを残すようにすれば、該詳細領域についてより最近の状況を反映させることができる。
本発明に係る会議端末を含む会議システムの構成を示すブロック図である。 本発明に係る会議端末の構成を示すブロック図である。 音源方向情報の説明をするための図である。 送信レート管理テーブルの一例を示す図である。 画像領域選択テーブルの一例を示す図である。 RTPパケットの構成を示す図である。 会議室における会議端末および参加者の位置関係を示す図である。 初期設定処理の流れを示すフローチャートである。 詳細画像領域設定処理の流れを示すフローチャートである。 会議端末10の側から見た会議室の様子を示す図である。 全体画像の一例である。 利用可能帯域幅測定処理の流れを示すフローチャートである。 音声データの圧縮処理の流れを示す図である。 詳細画像データの生成処理の流れを示すフローチャートである。 詳細画像領域のテンプレートの一例である。
符号の説明
1…会議システム、2a、2b、2c、2d…参加者、3…机、10、10A、10B…会議端末、20…通信網、101…制御部、102…通信IF部、103…記憶部(103a;ROM、103b;RAM(音声データバッファ領域))、104…操作部、105…表示部、106…マイクアレイ(106a…マイクロホン、106b…A/Dコンバータ)、107…Webカメラ、108…音声出力部(108a…スピーカ、108b…D/Aコンバータ)、109…バス、110…音量レベル検知部、111…フレーム選択部、112…音声データ圧縮部

Claims (7)

  1. 撮影領域が設定され、前記撮影領域の画像データを生成する撮影手段と、
    前記撮影手段が生成した画像データから静止画像を生成する静止画像生成手段と、
    前記撮影手段が生成した画像データにおいて、1または複数の特定領域を指定する領域データを受取る受取手段と、
    音源の発する音を表す音データを生成すると共に、該音源の方向を特定する方向特定手段と、
    前記音源の方向を示す方向情報と画像領域に含まれる前記特定領域とが対応されて書き込まれたテーブルと、
    前記方向特定手段が特定した音源の方向を前記テーブルに照らし合わせて前記特定領域を選択し、前記画像データから選択された特定領域を切り出して動画像を生成する動画像生成手段と、
    前記静止画像生成手段が生成した静止画像および前記動画像生成手段が生成した動画像を他の通信装置に出力する出力手段と
    を具備することを特徴とする通信装置。
  2. 撮影領域が設定され、前記撮影領域の画像データを生成する撮影手段と、
    前記撮影手段が生成した画像データから静止画像を生成する静止画像生成手段と、
    前記撮影手段が生成した画像データにおいて、1または複数の特定領域を指定する領域データを受取る受取手段と、
    音源の発する音を表す音データを生成すると共に、該音源の方向を特定する方向特定手段と、
    前記音源の方向を示す方向情報と画像領域に含まれる前記特定領域とが対応されて書き込まれたテーブルと、
    前記方向特定手段が特定した音源の方向を前記テーブルに照らし合わせて前記特定領域を選択し、前記画像データから選択された特定領域を切り出して第2の静止画像を生成する第2の静止画像生成手段と、
    前記静止画像生成手段が生成した静止画像および前記第2の静止画像生成手段が生成した第2の静止画像を他の通信装置に出力する出力手段と
    を具備し、
    前記出力手段から出力される前記第2の静止画像は、所定時間あたりの枚数が前記静止画像よりも多いことを特徴とする通信装置。
  3. 前記受取手段は、通信網を介して他の通信装置から前記領域データを受取ることを特徴とする請求項1または2に記載の通信装置。
  4. 前記領域データを生成する領域データ生成手段を具備することを特徴とする請求項1または2に記載の通信装置。
  5. 前記撮影手段は生成する画像データの画質を調整する画質調整手段を有し、
    接続された通信網に対し利用可能な通信帯域幅を測定する測定手段と、
    通信帯域幅と前記撮影手段の生成する画像データの画質とを対応付ける画質テーブルと、
    通信に先立ち前記測定手段が測定した利用可能な通信帯域幅に対応する画質を、前記画質テーブルを参照して前記撮影手段に設定する画質設定手段と
    を有する請求項1ないし4のいずれかに記載の通信装置。
  6. 前記撮影手段は生成する画像データの圧縮率を調整する圧縮率調整手段を有し、
    接続された通信網に対し利用可能な通信帯域幅を測定する測定手段と、
    通信帯域幅と前記撮影手段の生成する画像データを圧縮する圧縮率とを対応付ける圧縮率テーブルと、
    通信に先立ち前記測定手段が測定した利用可能な通信帯域幅に対応する圧縮率を、前記圧縮率テーブルを参照して前記撮影手段に設定する圧縮率設定手段と
    を有する請求項1ないし5いずれかに記載の通信装置。
  7. 第1の通信装置および第2の通信装置を有する会議システムであり、
    第1の通信装置は、
    撮影領域が設定され、前記撮影領域の画像データを生成する撮影手段と、
    前記撮影手段が生成した画像データから静止画像を生成する静止画像生成手段と、
    前記撮影手段が生成した画像データにおいて、1または複数の特定領域を指定する領域データを受取る受取手段と、
    音源の発する音を表す音データを生成すると共に、該音源の方向を特定する方向特定手段と、
    前記音源の方向を示す方向情報と前記特定領域とが対応されて書き込まれたテーブルと、
    前記方向特定手段が特定した音源の方向を前記テーブルに照らし合わせて前記特定領域を選択し、前記画像データから選択された特定領域を切り出して動画像を生成する動画像生成手段と、
    前記静止画像生成手段が生成した静止画像および前記動画像生成手段が生成した動画像を他の通信装置に出力する出力手段と
    を具備し、
    第2の通信装置は、
    前記第1の通信装置から前記静止画像を受取る第2の受取手段と、
    前記静止画像において特定領域を指定する特定領域指定手段と、
    前記特定領域指定手段が指定した特定領域を表す前記領域データを前記第1の通信装置に出力する第2の出力手段と、
    前記第1の通信装置から受取った前記静止画像に対し、前記動画像を重畳して表示する表示手段と
    を具備することを特徴とする会議システム。
JP2007157340A 2007-06-14 2007-06-14 通信装置および会議システム Pending JP2008311910A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007157340A JP2008311910A (ja) 2007-06-14 2007-06-14 通信装置および会議システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007157340A JP2008311910A (ja) 2007-06-14 2007-06-14 通信装置および会議システム

Publications (1)

Publication Number Publication Date
JP2008311910A true JP2008311910A (ja) 2008-12-25

Family

ID=40239121

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007157340A Pending JP2008311910A (ja) 2007-06-14 2007-06-14 通信装置および会議システム

Country Status (1)

Country Link
JP (1) JP2008311910A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011013605A1 (ja) * 2009-07-27 2011-02-03 三洋電機株式会社 プレゼンテーションシステム
WO2016098315A1 (ja) * 2014-12-15 2016-06-23 パナソニックIpマネジメント株式会社 マイクアレイ、監視システム及び収音設定方法
JP2016152557A (ja) * 2015-02-18 2016-08-22 パナソニックIpマネジメント株式会社 収音システム及び収音設定方法
JP2017083661A (ja) * 2015-10-28 2017-05-18 株式会社リコー 通信システム、通信装置、通信方法およびプログラム
JP2019220895A (ja) * 2018-06-21 2019-12-26 日本電気株式会社 画像処理装置、画像処理方法、プログラム、および画像処理システム
WO2022001204A1 (zh) * 2020-06-29 2022-01-06 海信视像科技股份有限公司 显示设备及屏幕发声方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011013605A1 (ja) * 2009-07-27 2011-02-03 三洋電機株式会社 プレゼンテーションシステム
WO2016098315A1 (ja) * 2014-12-15 2016-06-23 パナソニックIpマネジメント株式会社 マイクアレイ、監視システム及び収音設定方法
JP2016152557A (ja) * 2015-02-18 2016-08-22 パナソニックIpマネジメント株式会社 収音システム及び収音設定方法
JP2017083661A (ja) * 2015-10-28 2017-05-18 株式会社リコー 通信システム、通信装置、通信方法およびプログラム
JP2019220895A (ja) * 2018-06-21 2019-12-26 日本電気株式会社 画像処理装置、画像処理方法、プログラム、および画像処理システム
JP7115058B2 (ja) 2018-06-21 2022-08-09 日本電気株式会社 画像処理装置、画像処理方法、プログラム、および画像処理システム
WO2022001204A1 (zh) * 2020-06-29 2022-01-06 海信视像科技股份有限公司 显示设备及屏幕发声方法

Similar Documents

Publication Publication Date Title
US10930262B2 (en) Artificially generated speech for a communication session
JP2009071580A (ja) 通信装置
TWI602437B (zh) 視訊與音訊處理裝置及其視訊會議系統
US8614735B2 (en) Video conferencing
US6453336B1 (en) Video conferencing with adaptive client-controlled resource utilization
JP5103734B2 (ja) 遠隔会議のためのステータスを提供するシステム
ES2327288T3 (es) Sistema, metodo y nodo para limitar el numero de flujos de audio en u teleconferencia.
CN101675623B (zh) 多点会议中的媒体检测和分组分发
JP2005318534A (ja) ストリーム選択を行う会議開催方法及び装置
JP2005318535A (ja) 帯域幅制御をして会議を開催する方法及び装置
US7425979B2 (en) Communication system
US11076127B1 (en) System and method for automatically framing conversations in a meeting or a video conference
JP2001517395A5 (ja)
JP2008311910A (ja) 通信装置および会議システム
JP2008113164A (ja) 通信装置
JP2010157906A (ja) 映像表示装置
CN114531564A (zh) 处理方法及电子设备
JP2006229456A (ja) Tv会議装置、プログラム及び方法
JP5120020B2 (ja) 画像付音声通信システム、画像付音声通信方法およびプログラム
JP2002176503A (ja) 多地点ビデオ会議制御装置、音声切替え方法、およびそのプログラムを記録した記録媒体
US20100268529A1 (en) Voice communication apparatus
JP2013219495A (ja) 感情表現アニメーション顔表示システム、方法及びプログラム
JP2006339869A (ja) 映像信号と音響信号の統合装置
JP4957221B2 (ja) 通信装置
JP3031320B2 (ja) ビデオ会議装置