JP2006254167A

JP2006254167A - 音声会議システム、会議端末および音声サーバ

Info

Publication number: JP2006254167A
Application number: JP2005068918A
Authority: JP
Inventors: Yasushi Kaneda; 泰金田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2005-03-11
Filing date: 2005-03-11
Publication date: 2006-09-21
Anticipated expiration: 2025-03-11
Also published as: JP4426484B2

Abstract

【課題】３Ｄオーディオ技術を用いた音声会議システムにおいて、音声データで表現されている各ユーザの方向および距離に違和感を生じさせないようにする。
【解決手段】プレゼンスサーバ１は、音声会議に参加する複数の会議端末２各々のユーザの仮想空間上における位置および実空間上における所在場所（会議室）を管理する。各会議端末２は、プレゼンスサーバ１を用いて、当該会議端末２と同じ会議室に存在する会議端末２以外の他の会議端末２各々のユーザの音声データを、当該他の会議端末２各々のユーザの仮想空間上における位置に基づいて立体音響処理し、合成してスピーカから出力する。
【選択図】図１

Description

本発明は、３Ｄオーディオ技術を用いた音声会議システムの技術に関する。

特許文献１には、会議室接続型の音声会議システムが開示されている。この音声会議システムでは、各会議室にマイクとスピーカとを設置して各会議室間を接続し、マイクで収音した会議室にいる参加者の声を、他の会議室各々に設置したスピーカから出力する。

また、特許文献２には、３Ｄオーディオ技術を用いた音声会議システムが開示されている。この音声会議システムでは、音声会議に参加する各参加者の会議端末から、３Ｄオーディオ処理（立体音響処理）された各参加者の音声データを出力する。

米国特許第５３６５５８３号明細書米国特許第６３２７５６７号明細書

特許文献１に記載の会議室接続型の音声会議システムでは、会議室に複数の参加者がいる場合に、当該会議室に設置されたマイクで集音された音声データから誰が発言したのかを容易に判別できないという問題がある。

一方、特許文献２に記載の３Ｄオーディオ技術を用いた音声会議システムでは、各参加者の音声が３Ｄオーディオ処理されて距離および方向が表現される。このため、音声データから誰が発言したのかを容易に判別できる。しかし、音声会議参加者のうちの複数人が同じ会議室内で音声会議システムを使用する場合には、同じ会議室にいる参加者の音声データで表現されている距離および方向と、当該参加者の実際の位置および向きとが異なると、音声データを介して聞こえる当該参加者の声の距離および方向と、直接聞こえる当該参加者の声の距離および方向とが相違し、このため、違和感を生じる。

本発明は上記事情に鑑みてなされたものであり、本発明の目的は、３Ｄオーディオ技術を用いた音声会議システムにおいて、音声データで表現されている各ユーザの方向および距離に違和感を生じさせないようにすることにある。

上記課題を解決するために、本発明では、音声会議に参加する複数の会議端末各々のユーザの仮想空間上における位置および実空間上における所在場所を管理するプレゼンスサーバを設ける。そして、会議端末毎に、プレゼンスサーバを用いて、当該会議端末と同じ実空間上の所在場所に存在する会議端末以外の他の会議端末各々のユーザの音声データを、当該他の会議端末各々のユーザの前記仮想空間上における位置に基づいて立体音響処理して合成する。

例えば、本発明の音声会議システムは、複数の会議端末と、前記複数の会議端末各々のユーザの仮想空間上における位置および実空間上における所在場所を管理するプレゼンスサーバと、実空間上のそれぞれの所在場所に設置され、当該所在場所に存在する会議端末が前記プレゼンスサーバと通信を行なうために利用される複数の中継装置と、を有し、
前記複数の会議端末各々は、
自会議端末のユーザである自ユーザの前記仮想空間上における位置および向きを含む自ユーザの仮想位置情報を前記プレゼンスサーバに送信する仮想位置情報送信手段と、
前記プレゼンスサーバから各会議端末のユーザの仮想位置情報と実空間上の所在場所を示す所在情報とを受信する位置情報受信手段と、
前記位置情報受信手段が受信した各会議端末のユーザの所在情報に基づいて、自ユーザと同じ実空間上の所在場所に存在するユーザである他会議室ユーザを検出する他会議室ユーザ検出手段と、
自ユーザの音声データを、前記会議室ユーザ検出手段が検出した他会議室ユーザの会議端末各々に送信する音声データ送信手段と、
前記会議室ユーザ検出手段が検出した他会議室ユーザの会議端末各々から、他会議室ユーザの音声データを受信する音声データ受信手段と、
前記音声データ受信手段で受信した他会議室ユーザの音声データ各々に対して、当該他会議室ユーザの仮想位置情報および自ユーザの仮想位置情報により特定される、前記仮想空間における当該他会議室ユーザと自ユーザとの相対位置に応じた立体音響処理を施し、立体音響処理された他会議室ユーザの音声データ各々を合成して、立体合成音声データを生成する音声合成手段と、
前記音声合成手段により生成された立体合成音声データをスピーカから出力する音声制御手段と、を有し、
前記プレゼンスサーバは、
前記複数の会議端末各々から送られてきたユーザの仮想位置情報を管理すると共に、前記複数の会議端末各々から送られてきた情報が経由した前記中継装置に基づいて、前記複数の会議室各々のユーザの所在情報を管理する管理手段と、
前記複数の会議端末の各々に対して、前記管理手段で管理されている各会議端末のユーザの仮想位置情報および所在情報を、当該会議端末に送信する位置情報送信手段と、を有する。

また、本発明の他の音声会議システムは、複数の会議端末と、前記複数の会議端末各々のユーザの仮想空間上における位置および実空間上における所在場所を管理するプレゼンスサーバと、前記複数の会議端末各々に音声データを送信する音声サーバと、実空間上のそれぞれの所在場所に設置され、当該所在場所に存在する会議端末が前記プレゼンスサーバと通信を行なうために利用される複数の中継装置と、を有し、
前記複数の会議端末各々は、
自会議端末のユーザである自ユーザの前記仮想空間上における位置および向きを含む自ユーザの仮想位置情報を前記プレゼンスサーバに送信する仮想位置情報送信手段と、
自ユーザの音声データを前記音声サーバに送信する音声データ送信手段と、
前記音声サーバから立体合成音声データを受信する立体合成音声データ受信手段と、
前記立体合成音声データ受信手段で受信した立体合成音声データをスピーカから出力する音声制御手段と、を有し、
前記音声サーバは、
前記プレゼンスサーバから前記複数の会議端末各々のユーザの仮想位置情報と実空間上における所在場所を示す所在情報とを受信する位置情報受信手段と、
前記位置情報受信手段が受信した各会議端末のユーザの所在情報に基づいて、自ユーザと同じ実空間上の所在場所に存在するユーザである他会議室ユーザを検出する他会議室ユーザ検出手段と、
前記複数の会議端末各々から当該会議端末のユーザの音声データを受信する音声データ受信手段と、
前記複数の会議端末の各々について、前記会議室ユーザ検出手段が検出した他会議室ユーザ各々の音声データに対して、当該他会議室ユーザの仮想位置情報および当該会議端末のユーザである対象ユーザの仮想位置情報により特定される、前記仮想空間における当該他会議室ユーザと対象ユーザとの相対位置に応じた立体音響処理を施し、立体音響処理された他会議室ユーザの音声データ各々を合成して、立体合成音声データを生成する音声合成手段と、
前記複数の会議端末各々に対して、前記音声合成手段により生成された当該会議端末の対象ユーザに対する立体合成音声データを、当該会議端末に送信する立体合成音声データ送信手段と、を有し、
前記プレゼンスサーバは、
前記複数の会議端末各々から送られてきたユーザの仮想位置情報を管理すると共に、前記複数の会議端末各々から送られてきた情報が経由した前記中継装置に基づいて、前記複数の会議端末各々の所在情報を管理する管理手段と、
前記管理手段で管理されている各会議端末のユーザの仮想位置情報および所在情報を、前記音声サーバに送信する位置情報送信手段と、を有する。

本発明によれば、会議端末は、実空間上の同じ所在場所に存在する他の会議端末のユーザの音声データを出力しない。実空間上の別の所在場所に存在する他の会議端末のユーザの音声データのみが立体音響処理されて出力される。したがって、音声データで表現されている各ユーザの方向および距離に違和感を生じさせないようにすることができる。

以下に、本発明の実施の形態を説明する。

<<第１実施形態>>
図１は本発明の第１実施形態が適用された音声会議システムの概略構成図である。図示するように、本実施形態の音声会議システムは、プレゼンスサーバ１と、複数の会議端末２と、ＩＰ（Internet Protocol）網４を介してプレセンスサーバ１に接続する複数の無線ＬＡＮ（Local Area Network）-ＡＰ（Access Point）３Ａ〜３Ｃと、を有する。

無線ＬＡＮ-ＡＰ３Ａ〜３Ｂは、それぞれ異なる会議室Ａ〜Ｃに設置されており、会議室Ａ〜Ｃに存在する会議端末２がプレゼンスサーバ１と通信を行なうために利用される。なお、図１では３つの無線ＬＡＮ-ＡＰを示しているが、当然ながら、無線ＬＡＮ-ＡＰの数はこの数に限られない。

図２は無線ＬＡＮ-ＡＰ３Ａ〜３Ｃの概略構成図である。

図示するように、無線ＬＡＮ-ＡＰ３Ａ〜３Ｃは、ＩＰ網４に接続するためのＩＰ網インターフェース部３０１と、無線ＬＡＮインターフェース部３０２と、所在情報送信部３０３と、を有する。

無線ＬＡＮインターフェース部３０２は、自無線ＬＡＮ-ＡＰ３Ａ〜３Ｃが設置されている会議室Ａ〜Ｃに存在する会議端末２と無線ＬＡＮを介して接続するためのインターフェースである。

所在情報送信部３０３は、無線ＬＡＮインターフェース３０２を介して会議端末２からユーザＩＤを伴う所在情報登録要求を受信すると、当該ユーザＩＤと自無線ＬＡＮ-ＡＰ３Ａ〜３Ｃの識別情報であるＡＰＩＤとを含む所在情報を、ＩＰ網インターフェース部３０１を介してプレゼンスサーバ１に送信する。

プレゼンスサーバ１は、各会議端末２のユーザの仮想空間上における位置情報と所在情報（ＡＰＩＤ）とを管理する。ここで、仮想空間とは各会議端末２のユーザが会議を行うために仮想的に作り出した空間である。仮想空間の属性には、例えば、空間の大きさ、天井の高さ、壁および天井の反射率・色彩・質感、残響特性、空間内の空気による音の吸収率などがある。

図３はプレゼンスサーバ１の概略構成図である。

図示するように、プレゼンスサーバ１は、ＩＰ網４に接続するためのＩＰ網インターフェース部１０１と、位置情報管理部１０２と、ＳＩＰサーバ処理部１０３と、位置情報記憶部１０４と、を有する。

図４は位置情報記憶部１０４の登録内容を模式的に示した図である。図示するように、位置情報記憶部１０４には、会議端末２のユーザ毎に、レコード１０４０が記憶されている。レコード１０４０は、会議端末２のユーザを一意に識別するためのユーザＩＤを登録するフィールド１０４１と、当該会議端末２のＳＩＰ-ＵＲＩ（Uniform Resource Identifier）を登録するフィールド１０４２と、当該会議端末２のＩＰアドレスを登録するフィールド１０４３と、当該会議端末２のユーザの仮想空間における位置（座標）および向き（視線方向の方位）を示す仮想位置情報を登録するフィールド１０４４と、当該会議端末２のユーザの所在場所（会議室）を示す所在情報を登録するフィールド１０４５と、を有する。

位置情報管理部１０２は、位置情報記憶部１０４に登録されているレコード１０４０の検索・更新を行う。

ＳＩＰサーバ処理部１０３は、位置情報記憶部１０４に登録されているＳＩＰ-ＵＲＩとＩＰアドレスとの対応関係を用いて、発側の会議端末２から受信したＩＮＶＩＴＥメッセージを、着側の会議端末２へ送信する。

図５はプレゼンスサーバ１の動作フローを説明する図である。

位置情報管理部１０２は、ＩＰ網インターフェース部１０１を介して会議端末２からユーザＩＤと共に仮想位置情報を受信すると（Ｓ１００１）、当該ユーザＩＤがフィールド１０４１に登録されているレコード１０４０を位置情報記憶部１０４から検索し（Ｓ１００２）、検索したレコード１０４０のフィールド１０４４に登録されている仮想位置情報を該受信した仮想位置情報に更新する（Ｓ１００３）。

また、位置情報管理部１０２は、ＩＰ網インターフェース部１０１を介して無線ＬＡＮ−ＡＰ３Ａ〜３ＣからユーザＩＤと共に所在情報（ＡＰＩＤ）を受信すると（Ｓ１００４）、当該ユーザＩＤがフィールド１０４１に登録されているレコード１０４０を位置情報記憶部１０４から検索し（Ｓ１００５）、検索したレコード１０４０のフィールド１０４５に登録されている所在情報を該受信した所在情報に更新する（Ｓ１００６）。

また、位置情報管理部１０２は、ＩＰ網インターフェース部１０１を介して会議端末２からユーザＩＤを伴う位置情報送信要求を受信すると（Ｓ１００７）、位置情報記憶部１０４から全てのレコード１０４０を読出し（Ｓ１００８）、該要求の送信元の会議端末２に返信する（Ｓ１００９）。

また、ＳＩＰサーバ処理部１０３は、ＩＰ網インターフェース部１０１を介して会議端末２から、宛先のＳＩＰ-ＵＲＩの指定を伴うＩＮＶＩＴＥメッセージを受信すると（Ｓ１０１０）、該ＳＩＰ-ＵＲＩがフィールド１０４２に登録されているレコード１０４０を位置情報記憶部１０４から検索する（Ｓ１０１１）。そして、検索したレコード１０４０のフィールド１０４３に登録されているＩＰアドレスを宛先として該ＩＮＶＩＴＥメッセージを転送する（Ｓ１０１２）。

図１に戻って説明を続ける。会議端末２は、自会議端末２が存在する会議室以外の会議室に存在する他の会議端末２各々のユーザの音声データを、各ユーザの仮想空間における位置情報と、自会議端末２のユーザの位置情報との相対的な位置関係に基づいて立体音響処理し出力する。図６は会議端末２の概略構成図である。

図示するように、会議端末２は、音声入力部２０１と、音声出力部２０３と、映像出力部２０４と、操作受付部２０５と、オーディオエンコーダ２０６と、オーディオレンダラ２０８と、プレゼンスプロバイダ２１０と、空間モデラ２１１と、ＩＰパケットを処理するＩＰ処理部２１２と、ＲＴＰ（Real-time Transport Protocol）処理部２１３と、ＳＩＰ制御部２１４と、着席情報作成部２１７と、他会議室ユーザ検出部２１８と、無線ＬＡＮを介して無線ＬＡＮ-ＡＰ３Ａ〜２Ｃに接続するための無線ＬＡＮインターフェース部２１９と、を有する。

音声入力部２１０は、マイク２２１で収音した音声信号の入力端子である。音声出力部２０３は、３Ｄオーディオ対応（例えば擬似５．１チャンネル対応）のヘッドフォン（あるいはスピーカ）２２３に接続される音声出力端子である。そして、操作受付部２０５はユーザのポインティングデバイス２２５に対する操作を受け付ける。また、オーディオエンコーダ２０６は、音声入力部２０１に入力された音声信号をエンコードして音声データを出力する。

ＲＴＰ処理部２１３は、オーディオエンコーダ２０６より出力された音声データをＲＴＰパケットに格納し、該ＲＴＰパケットをＩＰ処理部２１２および無線ＬＡＮインターフェース部２１９を介して、ＳＩＰ処理部２１４より通知された宛先のＩＰアドレスへ送信する。また、ＲＴＰ処理部２１３は、無線ＬＡＮインターフェース部２１９およびＩＰ処理部２１２を介して他の会議端末２より受信したＲＴＰパケットから、音声データを取り出して、該ＲＴＰパケットの送信元アドレスと共に他会議室ユーザ検出部２１８に出力する。

空間モデラ２１１は、予め設定されている仮想空間の属性に従い、操作受付部２０５で受け付けた自ユーザのポインティングデバイス２２５に対する操作に応じて当該仮想空間における自ユーザの位置（座標）および視線方向（方位）を決定し、決定した位置および視線方向を含む自ユーザの位置情報をプレゼンスプロバイダ２１０に出力する。また、空間モデラ２１１は、プレゼンスプロバイダ２１０から各会議端末２のユーザの位置情報および所在情報を含むレコード１０４０を受け取って保持すると共に、着席情報生成部２１７および他会議室ユーザ検出部２１８に出力する。

プレゼンスプロバイダ２１０は、空間モデラ２１１から受け取った自ユーザの位置情報を、ＩＰ網インターフェース部２１０を介してプレゼンスサーバ１に定期的に送信する。また、プレゼンスプロバイダ２１０は、ＩＰ処理部２１２および無線ＬＡＮインターフェース部２１９を介してプレゼンスサーバ１に位置情報送信要求を定期的に送信し、その応答として、プレゼンスサーバ１から、音声会議に参加している各ユーザのレコード１０４０を受信する。そして、受信した各ユーザのレコード１０４０を空間モデラ２１１に通知する。

他会議室ユーザ検出部２１８は、自ユーザのユーザＩＤに基づいて、空間モデラ２１１から受け取った各ユーザのレコード１０４０から自ユーザのレコード１０４０を特定する。そして、自ユーザの所在情報（ＡＰＩＤ）と異なる所在情報を持つ他ユーザ、つまり、自ユーザとは異なる会議室に存在するユーザのレコード１０４０を、他会議室ユーザのレコード１０４０として抽出する。それから、他会議室ユーザ検出部２１８は、ＲＴＰ処理部２１３から送信元アドレスと共に受信した音声データの中から、いずれかの他会議室ユーザのレコード１０４０に含まれているＩＰアドレスと一致する送信元アドレスを持つ音声データを、当該他会議室ユーザの音声データとして抽出する。そして、抽出した他会議室ユーザの音声データ各々に、当該他会議室ユーザのレコード１０４０に含まれている仮想位置情報を付加して、オーディオレンダラ２０８に出力する。また、他会議室ユーザ検出部２１８は、自ユーザのレコード１０４０に含まれている仮想位置情報をオーディオレンダラ２０８に出力する。

着席室情報作成部２１７は、空間モデラ２１１から受け取ったユーザ各々のレコード１０４０の位置情報に基づいて、例えば図７に示すような、仮想空間における自ユーザの配置位置２１６１および他ユーザ各々の配置位置２１６２を示す着席情報表示データを生成する。そして、着席情報表示データを映像出力部２０４を介してディスプレイ２２４に表示する。

オーディオレンダラ２０８は、他会議室ユーザ検出部２１８から自ユーザの仮想位置情報を受信する。また、他会議室ユーザの音声データ各々を仮想位置情報と共に受信する。そして、受信した他会議室ユーザ各々の音声データをバッファリングすることによって、各音声データ間で同期させる（対応付ける）。このバッファリング（プレイアウト・バッファリング）の方法については、例えば文献「Colin Perkins著： RTP: Audio and Video for the Internet, Addison-Wesley Pub Co; 1st edition (June 11, 2003)」に記載されている。また、オーディオレンダラ２０８は、同期させた他会議室ユーザの音声データ各々を、当該他会議室ユーザの仮想位置情報および自ユーザの仮想位置情報により特定される、仮想空間における当該他ユーザと自ユーザとの相対位置に基づいて立体化する。そして、オーディオレンダラ２０８は、２チャンネル（左チャンネルと右チャンネル）の信号データ（信号列）を、音声出力部２０３に接続された３Ｄオーディオ対応ヘッドフォン２２３に出力する。

オーディオレンダラ２０８をより詳細に説明する。３次元オーディオ技術では、主に人の頭（以下、「人頭」）のまわりでの音響の変化の仕方（インパルス応答）を表すＨＲＩＲ（Head Related Impulse Response）と、部屋などの仮想環境によって生成される擬似的な残響とによって音の方向および距離を表現する。ＨＲＩＲは、音源と人頭との距離、および、人頭と音源との角度（水平角度および垂直角度）によって決定される。なお、オーディオレンダラ２０８には、予めダミーへッドを使用して各距離および各角度毎に測定したＨＲＩＲの数値が記憶されているものとする。また、ＨＲＩＲの数値には、左チャネル用（ダミーヘッドの左耳で測定したもの）と、右チャネル用（ダミーヘッドの右耳で測定したもの）とで異なる数値を使用することによって、左右、前後または上下の方向感を表現する。

図８はオーディオレンダ２０８の処理を説明する図である。オーディオレンダラ２０８は、他会議室ユーザ検出部２１８から他会議室ユーザの仮想位置情報と共に送られてくる音声データ各々に関して、他会議室ユーザ毎に下記の計算を行う。

まず、オーディオレンダラ２０８は、他会議室ユーザ毎に、他会議室ユーザ検出部２１８から当該他会議室ユーザの音声データの信号列ｓ_ｉ[ｔ](ｔ＝１，...）を、当該他会議室ユーザの仮想位置情報と共に受け付ける。そして、当該他会議室ユーザの仮想位置情報と、自ユーザの仮想位置情報とを、当該他会議室ユーザの音声データの信号列ｓ_ｉ[ｔ](ｔ＝１，...）を３Ｄオーディオ処理に用いるパラメータに設定する（Ｓ３００１）。

次に、オーディオレンダラ２０８は、他会議室ユーザ毎に、音声データの直接音と、残響である反射音とを計算する。直接音については、パラメータ設定された仮想位置情報を用いて、当該他会議室ユーザと自ユーザとの仮想空間における距離および角度（azimuth）を計算する（Ｓ３００２）。それから、オーディオレンダラ２０８は、自ユーザとの距離および角度に対応するＨＲＩＲを、予め記憶しておいたＨＲＩＲの数値の中から特定する（Ｓ３００３）。なお、オーディオレンダラ２０８は、予め記憶しておいたＨＲＩＲの数値を補間することによって算出したＨＲＩＲの数値を使用してもよい。

次に、オーディオレンダラ２０８は、Ｓ３００１で入力した信号列と、Ｓ３００３で特定したＨＲＩＲの左チャネル用ＨＲＩＲとを使用して、畳み込み（convolution）計算を行い、左チャネル信号を生成する（Ｓ３００４）。同様に、Ｓ３００１で入力した信号列と、Ｓ３００３で特定したＨＲＩＲの右チャネル用ＨＲＩＲとを使用して、畳み込み計算を行い、右チャネル信号を生成する（Ｓ３００５）。

また、反響音については、Ｓ３００１でパラメータ設定された位置情報を用いて、付加すべき残響を計算する（Ｓ３００６、Ｓ３００７）。すなわち、オーディオレンダラ２０８は、仮想空間の属性による音響の変化の仕方（インパルス応答）に基づいて残響を計算する。以下、残響の計算について説明する。

残響は初期反射（early reflection）および後期残響（late reverberation）により構成される。そして、初期反射の方が後期残響より、他会議室ユーザとの距離や部屋（仮想空間）の大きさなどに関する感覚の形成（認知）において、重要であると一般的に考えられている。実空間上の室内では、音源から直接発せられた音（直接音）が聞こえた後、数ｍｓから１００ｍｓくらいの間に、条件によっては、壁、天井、床などからの数１０個の初期反射を聞くことができるといわれている。部屋の形状が直方体であれば、１回の初期反射は６個だけである。しかしながら、より複雑な形状または家具などがある部屋においては、反射音の数が増え、また、壁などで複数回反射した音も聞こえる。

初期反射の計算法としてimage source methodがあり、例えば文献「Allen， J.B. and Berkley， A.， "Image Method for efficiently Simulating Small-Room Acoustics", J.Acoustical Society of America， Vol.65， No.4， pp.943-950， April 1979.」に記載されている。単純なimage source methodでは、部屋の壁、天井、床を鏡面とみなし、反射音を鏡面の反対側にある音源の像からの音として計算する。

図９は説明を簡単にするために、天井と床を省略した２次元のimage source methodを模式的に表した図である。すなわち、中央に本来の仮想空間である仮想会議室２０８１があり、当該仮想会議室２０８１には、自ユーザおよび他会議室ユーザが存在する。そして、仮想会議室２０８１の周囲には、部屋の壁２０８２を含む１２個の鏡像が描かれている。なお、鏡像は１２個である必然性はなく、これより多くすることも少なくすることもできる。

オーディオレンダラ２０８は、鏡像各々の中に存在する他会議室ユーザの各像からの音が、自ユーザ（聴取者）に直進するものとして、他会議室ユーザの各像から自ユーザまでの距離と方向を算出する（Ｓ３００６）。音の強さは距離に反比例するため、オーディオレンダラ２０８は、距離に従って各音量を減衰させる。但し、壁の反射率をα（０≦α≦１）とすると、壁でｎ回反射される音の標本には、αⁿを乗じて音量をさらに減衰させる。

なお、反射率αの値は０．６程度の値を使用する。０．６程度の値にする理由は、自ユーザが他会議室ユーザとの距離を認識するのに充分な残響（すなわち、直接音と反射音との比）を取得するためである。また、もう１つの理由としては、αの値を過大にした場合、自ユーザの方向感覚をにぶらせるからである。

次に、オーディオレンダラ２０８は、他会議室ユーザの像毎に、自ユーザとの距離および角度に対応するＨＲＩＲを、予め記憶しておいたＨＲＩＲの数値の中から特定する（Ｓ３００７）。反射音はそれぞれ異なる方向から人頭に達するため、Ｓ３００３で特定した直接音のＨＲＩＲとは異なるＨＲＩＲを適用する必要がある。

なお、多数の反射音各々に、異なるＨＲＩＲを用いて後述するたたみこみ計算（Ｓ３００７、Ｓ３００８）を行うと、膨大な計算が必要になる。計算量の増加を防止するため、反射音の計算には、実際の音源の方向にかかわらず正面に音源があるときのＨＲＩＲを適用してもよい。そして、音が左右の耳に達する際の時間差（ITD:interaural time difference）と強度差（IID:interaural intensity difference）だけを計算することで、少ない計算量でＨＲＩＲの計算を代替できる。

次に、オーディオレンダラ２０８は、Ｓ３００１で入力した信号列と、Ｓ３００７で特定したＨＲＩＲの左チャネル用ＨＲＩＲとを使用して、畳み込み計算を行い、左チャネル信号の残響を生成する（Ｓ３００８）。同様に、Ｓ３００１で入力した信号列と、Ｓ３００７で特定したＨＲＩＲの右チャネル用ＨＲＩＲとを使用して、畳み込み計算を行い、右チャネル信号の残響を生成する（Ｓ３００９）。

さて、オーディオレンダラ２０８は、以上のようにして全ての他会議室ユーザ各々の左チャネル信号を計算したならば、これらを全て加算する（Ｓ３０１０）。なお、左チャネル信号は、Ｓ３００４で算出した直接音と、Ｓ３００８で算出した反射音とが含まれる。

同様に、オーディオレンダラ２０８は、以上のようにして全ての他会議室ユーザ各々の右チャネル信号を計算したならば、これらを全て加算する（Ｓ３０１１）。なお、右チャネル信号は、Ｓ３００５で算出した直接音とＳ３００９で算出した反射音とが含まれる。

ＨＲＩＲ計算（Ｓ３００３、Ｓ３００７）は、ＲＴＰパケットの１パケット分の音声データ毎に行う。しかし、畳み込み計算（Ｓ３００４、Ｓ３００５、Ｓ３００８、Ｓ３００９）では、次の１パケット分の音声データに繰り越すべき部分が生じる。このため、特定したＨＲＩＲまたは入力された信号列を次の１パケット分の音声データに対する処理まで保持する必要がある。

このように、オーディオレンダラ２０８は、他会議室ユーザ検出部２１８から送られてきた他会議室ユーザ各々の音声データに対して、上述の計算による音量の調節、残響や反響音の重ね合わせ、および、フィルタリング等の処理を行い、自ユーザの仮想空間内の位置において聞こえるべき音に音響効果を施す。すなわち、オーディオレンダラ２０８は、仮想空間の属性と、他会議室ユーザの自ユーザに対する相対的な位置とから帰結する処理によって音声を定位させた立体音響を生成する。

図６に戻って説明を続ける。ＳＩＰ制御部２１４は、各会議端末２のユーザＩＤおよびＳＩＰ-ＵＲＩが登録されたテーブルを保持しており、必要に応じてこのテーブルを用いて、他の会議端末２との間にコネクションを確立する。

図１０はＳＩＰ制御部２１４の動作フローを説明する図である。

会議端末２の起動時に、ＳＩＰ処理部２１４は、他会議室ユーザ検出部２１８より通知された他会議室ユーザのユーザＩＤを持つ会議端末２各々とコネクションを確立する。先ず、ＳＩＰ処理部２１４は、自身のテーブルに登録されているＳＩＰ-ＵＲＩの中から、未抽出の他会議室ユーザのＳＩＰ-ＵＲＩを抽出する（Ｓ４００１）。次に、ＳＩＰ処理部２１４は、抽出したＳＩＰ-ＵＲＩを宛先とするＩＮＶＩＴＥメッセージを、ＩＰ処理部２１２および無線ＬＡＮインターフェース部２１９を介してプレゼンスサーバ１に送信し、ＳＩＰ-ＵＲＩを持つ会議端末２に対して、コネクションの確立を試みる（Ｓ４００２）。次に、ＳＩＰ処理部２１４は、自身のテーブルに登録されている全ての他会議室ユーザのＳＩＰ-ＵＲＩを抽出したか否かを調べ（Ｓ４００３）、抽出していない場合はＳ４００１に戻り、抽出した場合は、起動時のコネクション確立処理を終了し、各種イベントの待ち状態に移行する。

さて、ＳＩＰ処理部２１４は、無線ＬＡＮインターフェース部２１９およびＩＰ処理部２１２を介してＩＰ網４からＩＮＶＩＴＥメッセージを受信すると（Ｓ４１０１でＹＥＳ）、該ＩＮＶＩＴＥメッセージの送信元（発側）の会議端末２との間でＳＩＰに従った呼制御シーケンスを実行し、当該会議端末２との間にコネクションを確立する（Ｓ４１０２）。

また、ＳＩＰ処理部２１４は、無線ＬＡＮインターフェース部２１９およびＩＰ処理部２１２を介してコネクションを確立している通話相手の会議端末２からＢＹＥメッセージを受信すると（Ｓ４２０１でＹＥＳ）、該通話相手の会議端末２との間でＳＩＰに従った呼制御シーケンスを実行し、当該会議端末２との間のコネクションを解放する（Ｓ４２０２）。

また、ＳＩＰ制御部２１４は、他会議室ユーザ検出部２１８より他会議室ユーザのユーザＩＤが新たに通知されると（Ｓ４３０１でＹＥＳ）、自身のテーブルに登録されているＳＩＰ-ＵＲＩの中から、通知された他会議室ユーザのユーザＩＤ各々に対応付けられているＳＩＰ-ＵＲＩを抽出し、各ＳＩＰ-ＵＲＩとの間にコネクションを確立しているか否かを調べる。コネクションを確立していないＳＩＰ-ＵＲＩがある場合（Ｓ４３０２でＹＥＳ）、ＳＩＰ処理部２１４は、当該ＳＩＰ-ＵＲＩを宛先とするＩＮＶＩＴＥメッセージを、ＩＰ処理部２１２および無線ＬＡＮインターフェース部２１９を介してプレゼンスサーバ１に送信し、当該ＳＩＰ-ＵＲＩを持つ会議端末２に対して、コネクションの確立を試みる（Ｓ４３０３）。

一方、新たに通知された他会議室ユーザのユーザＩＤに対応付けられている全てのＳＩＰ-ＵＲＩとの間にコネクションが確立している場合（Ｓ４３０２でＮＯ）、ＳＩＰ制御部２１４は、自身のテーブルを用いて、コネクションが確立中である通話相手のＳＩＰ-ＵＲＩの中に、他会議室ユーザ検出部２１８より新たに通知された他会議室ユーザ以外のユーザのユーザＩＤに対応付けられているＳＩＰ-ＵＲＩがあるか否かを調べる。他会議室ユーザ以外のユーザＩＤに対応づけられているＳＩＰ-ＵＲＩとの間でコネクションが確立中であるならば（Ｓ４３０４でＹＥＳ）、当該ＳＩＰ-ＵＲＩを宛先とするＢＹＥメッセージを、ＩＰ処理部２１２および無線ＬＡＮインターフェース部２１９を介して当該ＳＩＰ-ＵＲＩを持つ会議端末２に送信し、当該会議端末２との間のコネクションを解放する（Ｓ４３０５）。

上記構成のプレゼンスサーバ１には、図１１に示すような、プログラムに従ってデータの加工・演算を行なうＣＰＵ４０１と、ＣＰＵ４０１が直接読み書き可能なメモリ４０２と、ハードディスク等の外部記憶装置４０３と、ＩＰ網３を介して外部システムとデータ通信をするための通信装置４０４と、入力装置４０５と、出力装置４０６とを、を有する一般的なコンピュータシステムを利用することができる。具体的には、サーバ、ホストコンピュータなどである。

また、上記構成の無線ＬＡＮ-ＡＰ３Ａ〜３Ｃは、図１１に示す構成に、無線ＬＡＮに接続するための無線通信装置を追加したコンピュータシステムを利用することができる。

また、上記構成の会議端末２は、図１１に示す構成において、通信装置４０４の代わりに無線ＬＡＮに接続するための無線通信装置を搭載したコンピュータシステムを利用することができる。例えば、ＰＤＡ（Personal Digital Assistant）、ハンドヘルドコンピュータ、および、ウエアラブル・コンピュータなどである。

図１２は会議端末２にＰＤＡまたはハンドヘルドコンピュータを用いた例を示している。装置本体２３０には、ディスプレイ２２４、ポインティングデバイス２２５、および、無線ＬＡＮ用のアンテナ２３１が設けられている。また、装置本体２３０に接続されたヘッドセットは、マイク２２１および３Ｄオーディオ対応ヘッドフォン２２３を有する。

ポインティングデバイス２２５は、前進ボタン２２５１、後退ボタン２２５２、左移動ボタン２２５３、右移動ボタン２２５４および選択ボタン２２５５を有する。例えば、前進ボタン２２５１を押すことによって、仮想空間内で前進し、後退ボタン２２５２を押すことによって仮想空間内で後退する。なお、ポインティングデバイス２２５は、タッチパネルであってもよい。すなわち、ディスプレイ２２４の表面を、指などの接触を検知するための素子を配置した透明なスクリーン（タッチパネル）で覆ったタッチスクリーンとしてもよい。ユーザは、指や専用のペンでディスプレイ２２４に触れることで、容易に入力操作を行なうことができる。

また、図示するヘッドセットは、装置本体２３０に有線で接続されているが、Ｂｌｕｅｔｏｏｔｈ（登録商標）やＩｒＤＡなどの近距離無線通信により接続してもよい。

なお、上記各装置の各機能は、メモリ３０２にロードまたは記憶された所定のプログラム（プレセンスサーバ１の場合はプレゼンスサーバ用のプログラム、無線ＬＡＮ-ＡＰ３Ａ〜３Ｃの場合は無線ＬＡＮ-ＡＰ用のプログラム、そして、会議端末２の場合は会議端末用のプログラム）を、ＣＰＵ３０１が実行することにより実現される。

次に、上記構成のビデオ会議システムの概略動作を説明する。

図１３は、図１に示す音声会議システムの概略動作を説明するための図である。ここでは、始めはユーザＡ、Ｄが同じ会議室Ａにおり、ユーザＢ、Ｃが別の会議室Ｂにおり、その後、ユーザＡがユーザＢ、Ｃと同じ会議室Ｂに移動する場合を例にとり、ユーザＡが音声会議に参加する場合の概略動作を説明する。

先ず、ユーザＡの会議端末２は、ユーザＡの仮想位置情報をプレゼンスサーバ１に送信する。これを受けて、プレゼンスサーバ１はユーザＡの仮想位置情報を登録する（Ｓ５００１）。また、ユーザＡの会議端末２は、所在情報送信要求を自会議端末２が無線通信に利用する無線ＬＡＮ-ＡＰ３Ａに送信する（Ｓ５００２）。これを受けて、無線ＬＡＮ-ＡＰ３Ａは、自無線ＬＡＮ-ＡＰのＡＰＩＤをユーザＡの所在情報としてプレゼンスサーバ１に送信する。これを受けて、プレゼンスサーバ１はユーザＡの所在情報を登録する（Ｓ５００３）。また、ユーザＡの会議端末２は、位置情報送信要求をプレゼンスサーバ１に送信する（Ｓ５００４）。これを受けて、プレゼンスサーバ１はユーザＡ〜Ｄの仮想位置情報および所在情報を送信する（Ｓ５００５）。

次に、ユーザＡの会議端末２は、他会議室ユーザの検出を行う（Ｓ５００６）。ここでは、始めはユーザＡ、Ｄが同じ会議室Ａにおり、ユーザＢ、Ｃが別の会議室Ｂにいる。したがって、ここでは、他会議室ユーザとしてユーザＢ、Ｃが検出される。このため、ユーザＡの会議端末２は、ユーザＢ、Ｃの会議端末２各々のＳＩＰ−ＵＲＩを宛先とするＩＮＶＩＴＥメッセージをプレゼンスサーバ１に送信する。プレゼンスサーバ１は、これらのＩＮＶＩＴＥメッセージをユーザＢ、Ｃの会議端末２各々に送信する（Ｓ５００７）。これにより、ユーザＡの会議端末２は、ユーザＢ、Ｃの会議端末２各々との間にコネクションを確立し、これらのコネクションを介して音声会議を行う（Ｓ５００８）。ユーザＤは同じ会議室Ａにいるので、ユーザＤとの間にはコネクションを確立しない。ユーザＡおよびユーザＤは、本実施形態の会議システムを通さずに、直接会話を行う。

さて、ユーザＡが移動して、ユーザＢ、Ｃと同じ会議室Ｂに移動したとする。会議室Ｂにおいても、ユーザＡの会議端末ＡはＳ５００１〜Ｓ５００６と同様の処理を行う（Ｓ５００９〜Ｓ５０１４）。その結果、他会議室ユーザとしてユーザＤのみが検出される。このため、ユーザＡの会議端末２は、コネクション確立中のユーザＢ、Ｃの会議端末２各々に対してＢＹＥメッセージを送信し、これらの会議端末２との間のコネクションを解放する（Ｓ５０１５）。また、ユーザＡの会議端末２は、ユーザＤの会議端末２のＳＩＰ−ＵＲＩを宛先とするＩＮＶＩＴＥメッセージをプレゼンスサーバ１に送信する。プレゼンスサーバ１は、このＩＮＶＩＴＥメッセージをユーザＤの会議端末２に送信する（Ｓ５０１６）。これにより、ユーザＡの会議端末２は、ユーザＤの会議端末２との間にコネクションを確立し、このコネクションを介して音声会議を行う（Ｓ５０１７）。ユーザＢ、Ｃは同じ会議室Ｂにいるので、ユーザＢ、Ｃとの間にはコネクションを確立しない。ユーザＡ、ユーザＢおよびユーザＣは、本実施形態の会議システムを通さずに、直接会話を行う。

以上、本発明の第１実施形態を説明した。本実施形態では、会議端末２は、実空間上の同じ会議室に存在する他の会議端末２のユーザの音声データを出力しない。実空間上の別の会議室に存在する他の会議端末２のユーザの音声データのみが立体音響処理されて出力される。したがって、音声データで表現されている各ユーザの方向および距離に違和感を生じさせないようにすることができる。

<<第２実施形態>>
図１４は本発明の第２実施形態が適用された音声会議システムの概略構成図である。図示するように、本実施形態のビデオ会議システムは、プレゼンスサーバ１´と、音声サーバ５と、複数の会議端末２´と、ＩＰ網４を介してプレセンスサーバ１に接続する複数の無線ＬＡＮ-ＡＰ（Local Area Network）３Ａ〜３Ｃと、を有する。本実施形態において、上記の第１実施形態と同じ機能を有するものには同じ符号を付している。

プレゼンスサーバ１´は、各会議端末２´のユーザの仮想位置情報と所在情報とを管理する。また、音声サーバ５からの位置情報送信要求に応答して、各会議端末２´のユーザの仮想位置情報および所在情報を音声サーバ５に送信する。なお、本実施形態のプレゼンスサーバ１´は、図３に示す第１実施形態のプレゼンスサーバ１からＳＩＰ処理部１０３を省略したものである。本実施形態のプレゼンスサーバ１´の処理フローは、図５に示す第１実施形態のプレゼンスサーバ１の処理フローからＳＩＰ処理（Ｓ１０１０〜Ｓ１０１２）を省略したものと同じになる。

音声サーバ５は、各会議端末２´のユーザの音声データを受信する。また、音声サーバ５は、会議端末２´毎に、当該会議端末２´のユーザ向けの会議音声データ（３Ｄオーディオデータ）を生成し、当該会議端末２´に送信する。図１５は音声サーバ５の概略図である。

図示するように、音声サーバ５は、ＩＰ網４に接続するためのＩＰ網インターフェース部５０１と、ＲＴＰ処理部５０２と、ＳＩＰ処理部５０３と、プレゼンスプロバイダ５０４と、空間モデラ５０５と、ユーザ情報生成部５０６と、音声分配部５０８と、会議端末２´毎に設けられたオーディオレンダラ５０９と、を有する。

ＳＩＰ制御部５０３は、ＩＰ網インターフェース部５０１を介して各会議端末２´との間にコネクションを確立する。

ＲＴＰ処理部５０２は、会議端末２´毎に、当該会議端末２´との間で確立されているコネクションを介して当該会議端末２´からユーザの音声データを受信し、受信した音声データを、該音声データの送信元アドレスと共に、音声分配部５０８に出力する。また、ＲＴＰ処理部５０２は、会議端末２´毎に、当該会議端末２´に対応付けられたオーディオレンダラ５０９から出力された会議音声データを、当該会議端末２´との間で確立されているコネクションを介して当該会議端末２´に送信する。

プレゼンスプロバイダ５０４は、ＩＰ網インターフェース部５０１を介してプレゼンスサーバ１に位置情報送信要求を定期的に送信し、その応答としてプレゼンスサーバ１から各会議端末２´のユーザのレコード（仮想位置情報、所在情報）１０４０を受信する。そして、受信した各ユーザのレコード１０４０を空間モデラ５０５に通知する。

空間モデラ５０５は、プレゼンスプロバイダ５０４から各会議端末２´のユーザのレコード１０４０を受け取って保持すると共に、他会議室ユーザ検出部５０６に出力する。

ユーザ情報生成部５０６は、会議端末２´毎に、空間モデラ２１１から受信した各ユーザのレコード１０４０の中から当該会議端末２´のユーザＩＤを含むレコード１０４０を特定する。そして、特定したレコード１０４０に含まれているユーザＩＤ、ＩＰアドレスおよび位置情報を含む自ユーザ情報を生成し、音声分配部５０８に送信する。また、ユーザ情報生成部５０６は、会議端末２´毎に、前記特定したレコード１０４０以外のレコード１０４０の中から前記特定したレコード１０４０の所在情報と異なる所在情報を持つレコード１０４０を検索し、検索した各レコード１０４０に含まれているユーザＩＤ、ＩＰアドレスおよび仮想位置情報を含む他会議室ユーザ情報を生成して、生成した他会議室ユーザ情報各々を当該会議端末２´の自ユーザ情報に含まれているユーザＩＤに対応付けて音声分配部５０８に送信する。

音声分配部５０８は、会議端末２´毎に、ＲＴＰ処理部５０２から受け取った各ユーザの音声データの中から、当該会議端末２´に送信する会議音声データに利用する音声データを抽出する。具体的には、会議端末２´毎に次の処理を行う。すわわち、ユーザ情報生成部５０６から受信した自ユーザ情報のうち、当該会議端末２´のユーザＩＤを含む自ユーザ情報を、当該会議端末２´の自ユーザ情報として検出する。そして、当該会議端末２´の自ユーザ情報を、当該会議端末２´に対応付けられたオーディオレンダラ５０９に出力する。また、ユーザ情報生成部５０６から受信した他会議室ユーザ情報のうち、当該会議端末２´の自ユーザ情報のユーザＩＤに対応付けられている他会議室ユーザ情報を、当該会議端末２´の他会議室ユーザ情報として検出する。また、ＲＴＰ処理部５０２から受け取った各ユーザの音声データのうち、当該会議端末２´の他会議室ユーザ情報のＩＰアドレスを送信元アドレスとする音声データを検出する。そして、検出した音声データを、当該音声データの送信元アドレスをＩＰアドレスとする当該会議端末２の他会議室ユーザ情報と共に、当該会議端末２´に対応付けられたオーディオレンダラ５０９に出力する。

オーディオレンダラ５０９は、音声分配部５０８から各音声データを他会議室ユーザ情報と共に受信する。また、音声分配部５０８から自ユーザ情報を受信する。そして、受信した各音声データをバッファリングすることによって、各音声データ間で同期させる（対応付ける）。また、オーディオレンダラ５０９は、同期させた各音声データを、各音声データに付与された他会議室ユーザ情報の仮想位置情報と自ユーザ情報の仮想位置情報とにより特定される、仮想空間における他会議室ユーザと自ユーザとの相対位置に基づいて立体化する。そして、オーディオレンダラ５０９は、２チャンネル（左チャンネルと右チャンネル）の信号データ（信号列）を含む会議音声データをＲＴＰ処理部５０２に出力する。なお、音声データの立体化の方法は、第１実施形態のオーディオレンダラ２０８のそれと基本的に同様である（図８および図９参照）。

会議端末２´は、音声サーバ５との間にコネクションを確立し、該コネクションを介して自ユーザの音声データを音声サーバ５に送信する。また、該コネクションを介して音声サーバ５より音声会議データを受信して出力する。図１６は会議端末２´の概略構成図である。

図示するように、会議端末２´は、音声入力部２０１と、音声出力部２０３と、映像出力部２０４と、操作受付部２０５と、オーディオエンコーダ２０６と、オーディオデコーダ２４８と、プレゼンスプロバイダ２１０と、空間モデラ２１１と、ＩＰ処理部２１２と、ＲＴＰ処理部２４３と、ＳＩＰ制御部２４４と、着席情報作成部２１７と、を有する。ここで、図６に示す第１実施形態の会議端末２と同じ機能を有するものには同じ符号を付している。

ＳＩＰ制御部２４４は、ＩＰ処理部２１２および無線ＬＡＮインターフェース部２１９を介して音声サーバ５との間にコネクションを確立する。

ＲＴＰ処理部２４３は、音声サーバ５の間で確立されているコネクションを介して、オーディオエンコーダ２０６より出力された音声データを音声サーバ５に送信する。また、該コネクションを介して、音声サーバ５から会議音声データを受信し、受信した会議音声データをオーディオデコーダ２４８に送信する。

オーディオデコーダ２４８は、ＲＴＰ処理部２４３から受け取った会議音声データをデコードして音声信号を音声出力部２０４に出力する。

上記構成のプレゼンスサーバ１´および音声サーバ５も、第１実施形態のプレゼンスサーバ１と同様に、図１１に示すようなコンピュータシステムを利用することができる。具体的には、サーバ、ホストコンピュータなどである。また、上記構成の会議端末２´も、第１実施形態の会議端末２と同様に、図１１に示すようなコンピュータシステムを利用することができる。例えば、ＰＤＡ、ハンドヘルドコンピュータ、および、ウエアラブル・コンピュータなどである。

次に、上記構成の音声会議システムの概略動作を説明する。

図１７は図１４に示す音声会議システムの概略動作を説明するための図である。ここでは、始めはユーザＥ、Ｈが同じ会議室Ａにおり、ユーザＦ、Ｇが別の会議室Ｄにおり、その後、ユーザＥがユーザＦ、Ｇと同じ会議室Ｃに移動する場合を例にとり、ユーザＥが音声会議に参加する場合の概略動作を説明する。なお、ユーザＥ〜Ｈの会議端末２´各々は、音声サーバ５との間にコネクションを確立しているものとする。

先ず、ユーザＥの会議端末２´は、ユーザＥの仮想位置情報をプレゼンスサーバ１に送信する。これを受けて、プレゼンスサーバ１´はユーザＥの仮想位置情報を登録する（Ｓ６００１）。また、ユーザＥの会議端末２´は、所在情報送信要求を自会議端末２´が無線通信に利用する無線ＬＡＮ-ＡＰ３Ａに送信する（Ｓ６００２）。これを受けて、無線ＬＡＮ-ＡＰ３Ａは、自無線ＬＡＮ-ＡＰのＡＰＩＤをユーザＥの所在情報としてプレゼンスサーバ１´に送信する。これを受けて、プレゼンスサーバ１´はユーザＥの所在情報を登録する（Ｓ６００３）。

一方、音声サーバ５は、位置情報送信要求を送信する（Ｓ６００４）。これを受けて、プレゼンスサーバ１´はユーザＥ〜Ｈの仮想位置情報および所在情報を音声サーバ５に送信する（Ｓ６００５）。それから、音声サーバ５は、他会議室ユーザの検出を行う（Ｓ６００６）。ここでは、始めはユーザＥ、Ｈが同じ会議室Ａにおり、ユーザＦ、Ｇが別の会議室Ｂにいる。しかたがって、ユーザＥの他会議室ユーザとしてユーザＦ、Ｇが検出される。このため、音声サーバ５は、ユーザＦ、Ｇの会議端末２から受信した音声データ各々をユーザＥとの相対位置に基づいて立体音響処理し合成し音声会議データを生成する。そして、生成した音声会議データを、ユーザＥの会議端末２´に送信する（Ｓ６００７）。ユーザＨはユーザＥと同じ会議室Ａにいるので、ユーザＨの音声データはユーザＥ向けの音声会議データに含まれない。ユーザＥおよびユーザＨは、本実施形態の会議システムを通さずに、直接会話を行う。

さて、ユーザＥが移動して、ユーザＦ、Ｇと同じ会議室Ｂに移動したとする。会議室Ｂにおいても、Ｓ６００１〜Ｓ６００６と同様の処理が行われる（Ｓ６００８〜Ｓ６０１３）。その結果、ユーザＥの他会議室ユーザとしてユーザＨのみが検出される。このため、音声サーバ５は、ユーザＨの会議端末２から受信した音声データをユーザＥとの相対位置に基づいて立体音響処理し音声会議データを生成する。そして、生成した音声会議データを、ユーザＥの会議端末２´に送信する（Ｓ６０１４）。ユーザＦ、Ｇは、ユーザＥと同じ会議室Ｂにいるので、ユーザＦ、Ｇの音声データはユーザＥ向けの音声会議データに含まれない。ユーザＥ、ユーザＦおよびユーザＧは、本実施形態の会議システムを通さずに、直接会話を行う。

以上、本発明の第２実施形態を説明した。本実施形態でも、上記の第１実施形態と同様に、会議端末２´は、実空間上の同じ会議室に存在する他の会議端末２´のユーザの音声データを出力しない。実空間上の別の会議室に存在する他の会議端末２´のユーザの音声データのみが立体音響処理されて出力される。したがって、音声データで表現されている各ユーザの方向および距離に違和感を生じさせないようにすることができる。

なお、本発明は、上記の各実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。

例えば、上記の各実施形態では、各会議端末２、２´が、ポインティングデバイス２２５を介してユーザより受付けた操作内容に応じて当該ユーザの仮想位置情報（位置および向き）を決定している。しかし、本発明はこれに限定されない。例えば、会議端末２、２´の当該会議端末２、２´が実際に所在する会議室での現在位置および向きに基づいて、当該会議端末２、２´のユーザの仮想位置情報を決定してもよい。

図１８は図６に示す会議端末２の変形例を説明するための図である。この変形例では、操作受付部２０５に代えて、会議端末２の方位を計測する方位計測部２５３と、会議端末２が所在する会議室における当該会議端末２の現在位置を算出する現在位置算出部２５２と、を有する。

方位計測部２５３には、例えば磁気方位センサを用いることができる。通常、磁気方位センサは、磁気抵抗素子で構成されたホイートストンブリッジおよび薄膜コイルを有する。磁気抵抗素子は、当該磁気抵抗素子を流れる電流の方向と直交する方向に磁界が印加されると抵抗値が変化する。磁気方位センサは、この特性を利用して地磁気を検出する。

現在値算出部２５２は、例えば会議室に設置された少なくとも３つの無線発信機から発信された無線信号の信号強度と、各無線発信機の設置位置（当該会議室に設けられた原点からの座標位置）とを用いて、三辺測量の原理により自会議端末２の現在位置を測定する。ここで、無線通信システムを用いた位置検出システムについては、例えば「荻野、恒原他/B-5-203、無線ＬＡＮ統合アクセスシステム（１）：位置検出システムの検討、電子情報通信学会総合大会講演論文集、Vol. 2003年_通信 Num. 1 pp.662 (2003.03)」や、「恒原、荻野他/B-5-204、無線ＬＡＮ統合アクセスシステム（２）:位置検出精度に関する検討、電子情報通信学会総合大会講演論文集、Vol. 2003年_通信 Num. 1 pp.663 (2003.03)」に詳しい。なお、本実施形態では、各会議室の原点を各会議室の中心に設定している。

空間モデラ２１１は、現在位置算出部２５２で算出した自会議端末２の会議室における現在位置および方位計測部２５３で測定した自会議端末２の方位と、仮想空間における自ユーザの位置および向きとして、仮想位置情報を生成する。本実施形態では、上述したように、各会議室の原点を各会議室の中心に設定している。したがって、プレゼンスサーバ１で管理される各会議端末２の仮想空間における位置と向きは図１９に示すようになる。つまり、実空間における会議端末２の位置と向きが仮想空間における位置と向きに反映されるので、より違和感のない音声会議を実現できる。なお、各会議室の原点は必ずしも各会議室の中心とする必要はない。この場合、各会議室の原点に各会議室の中心までのオフセット値を持たせる。そして、現在位置の測定値をこのオフセット値で補正した値を、仮想空間における位置とする。

なお、各会議端末２のユーザは、音声会議に参加する自身の仮想空間における位置を着席情報生成部２１７が生成した着席情報により確認し（図７参照）、仮想空間において他のユーザと重ならないように、自身の会議室（実空間）における現在位置を調整することができる。

また、上記の各実施形態では、無線ＬＡＮ-ＡＰ３Ａ〜３Ｃが、会議端末２、２´からの所在情報送信要求に応答して、該要求送信元の所在情報をプレゼンスサーバ１に送信している。しかし、本発明はこれに限定されない。

例えば、無線ＬＡＮ-ＡＰ３Ａ〜３Ｃが、会議端末２、２´からの所在情報送信要求に応答して、該要求送信元の所在情報を該要求送信元に返信し、会議端末２、２´が無線ＬＡＮ-ＡＰ３Ａ〜３Ｃから受信した所在情報を、プレゼンスサーバ１に送信してもよい。

あるいは、無線ＬＡＮ-ＡＰ３Ａ〜３Ｃ、もしくは、会議室毎に設けられた、当該会議室に所在する会議端末２、２´のデータがＩＰ網４へ伝送される場合に必ず通過するネットワーク装置（例えばＬＡＮスイッチ）に、ＳＩＰプロキシ機能を追加し、会議端末２、２´からプレゼンスサーバ１に送信されるＳＩＰメッセージに、所在情報を表すＳＩＰヘッダを追加させるようにしてもよい。追加するＳＩＰヘッダとしては、例えば、"Via:SIP/2.0/UDP room-301＠aa.co.jp:5060;type=room"のようなものが考えられる。この例では、このＳＩＰヘッダが所在情報を表すことを"type=room"で示し、会議室の識別子を"room-301＠aa.co.jp:5060"で示している。

あるいは、無線ＬＡＮ-ＡＰ３Ａ〜３Ｃ、もしくは、会議室毎に設けられた、当該会議室に所在する会議端末２、２´のデータがＩＰ網４へ伝送される場合に必ず通過するネットワーク装置（例えばＬＡＮスイッチ）に、ＳＩＰプロキシ機能を追加し、会議端末２、２´からプレゼンスサーバ１に送信されるＳＩＰの登録要求メッセージ（REGISTERパケット）に、所在情報を追加させるようにしてもよい。このようにすれば、通常のＳＩＰのシーケンスをそのまま使用して、会議端末２、２´の所在情報を、プレゼンスサーバ１、１´に登録することができる。

あるいは、無線ＬＡＮ-ＡＰ３Ａ〜３Ｃ、もしくは、会議室毎に設けられた、当該会議室に所在する会議端末２、２´のデータがＩＰ網４へ伝送される場合に必ず通過するネットワーク装置（例えばＬＡＮスイッチ）に、ＤＳ（Differentiated Services）機能付きのルータ機能を持たせ、ＩＰパケットのＤＳフィールドを用いて、ＩＰパケットに所在情報をマーキングさせるようにしてもよい。ＩＰパケットのＤＳフィールドを使用すれば６４通りのマーキングが可能であるので、６４部屋までの会議室を区別できる。

また、上記の各実施形態では、コネクションの確立にＳＩＰを利用する場合を例にとり説明した。しかし、本発明はこれに限定されない。例えばＨ.３２３等のＳＩＰ以外の呼制御プロトコルを利用してもよい。なお、上記の第２実施形態のように、会議端末２´と音声サーバ５との間で常時通信を行なうことを前提する場合は、呼制御プロトコルに従った呼制御シーケンスを省略できる。

図１は本発明の第１実施形態が適用された音声会議システムの概略構成図である。図２は無線ＬＡＮ-ＡＰ３Ａ〜３Ｃの概略構成図である。図３はプレゼンスサーバ１の概略構成図である。図３は位置情報記憶部１０４の登録内容を模式的に示した図である。図５はプレゼンスサーバ１の動作フローを説明する図である。図６は会議端末２の概略構成図である。図７は着席情報表示データの表示例を示す図である。図８はオーディオレンダラ２０８の処理を説明する図である。図９は天井と床を省略した２次元のimage source methodを模式的に表した図である。図１０はＳＩＰ制御部２１４の動作フローを説明する図である。図１５は音声会議システムを構成する各装置のハードウエア構成例を示す図である。図１２は会議端末２の外観の一例を示す図である。図１３は図１に示す音声会議システムの概略動作を説明する図である。図１４は本発明の第２実施形態が適用された音声会議システムの概略構成図である。図１５は音声サーバ５の概略図である。図１６は会議端末２´の概略構成図である。図１７は図１４に示す音声会議システムの概略動作を説明する図である。図１８は会議端末２の変形例を説明するための図である。仮想現在位置の決定方法の一例を説明するための図である。

符号の説明

１、１´…プレゼンスサーバ、２、２´…会議端末、３Ａ〜３Ｃ…無線ＬＡＮ-ＡＰ、４…ＩＰ網、５…音声サーバ、１０１…ＩＰ網インターフェース部、１０２…位置情報管理部、１０３…ＳＩＰサーバ処理部、１０４…位置情報記憶部、２０１…音声入力部、２０３…音声出力部、２０４…映像出力部、２０５…操作受付部、２０６…オーディオエンコーダ、２０８…オーディオレンダラ、２１０…プレゼンスプロバイダ、２１１…空間モデラ、２１２…ＩＰ処理部、２１３…ＲＴＰ処理部、２１４…ＳＩＰ制御部、２１７…着席情報生成部、２１８…他会議室ユーザ検出部、２１９…無線ＬＡＮインターフェース部、２４３…ＲＴＰ処理部、２４４…ＳＩＰ制御部、２４８…オーディオデコーダ、２５２…現在地算出部、２５３…方位計測部、３０１…ＩＰ網インターフェース部、３０２…無線ＬＡＮインターフェース部、３０３…所在情報送信部、５０１…ＩＰ網インターフェース部、５０２…ＲＴＰ処理部、５０３…ＳＩＰ制御部、５０４…プレゼンスプロバイダ、５０５…空間モデラ、５０６…ユーザ情報生成部、５０８…音声分配部、５０９…オーディオレンダラ

Claims

音声会議システムであって、
複数の会議端末と、前記複数の会議端末各々のユーザの仮想空間上における位置および実空間上における所在場所を管理するプレゼンスサーバと、実空間上のそれぞれの所在場所に設置され、当該所在場所に存在する会議端末が前記プレゼンスサーバと通信を行なうために利用される複数の中継装置と、を有し、
前記複数の会議端末各々は、
自会議端末のユーザである自ユーザの前記仮想空間上における位置および向きを含む自ユーザの仮想位置情報を前記プレゼンスサーバに送信する仮想位置情報送信手段と、
前記プレゼンスサーバから各会議端末のユーザの仮想位置情報と実空間上の所在場所を示す所在情報とを受信する位置情報受信手段と、
前記位置情報受信手段が受信した各会議端末のユーザの所在情報に基づいて、自ユーザと同じ実空間上の所在場所に存在するユーザである他会議室ユーザを検出する他会議室ユーザ検出手段と、
自ユーザの音声データを、前記会議室ユーザ検出手段が検出した他会議室ユーザの会議端末各々に送信する音声データ送信手段と、
前記会議室ユーザ検出手段が検出した他会議室ユーザの会議端末各々から、他会議室ユーザの音声データを受信する音声データ受信手段と、
前記音声データ受信手段で受信した他会議室ユーザの音声データ各々に対して、当該他会議室ユーザの仮想位置情報および自ユーザの仮想位置情報により特定される、前記仮想空間における当該他会議室ユーザと自ユーザとの相対位置に応じた立体音響処理を施し、立体音響処理された他会議室ユーザの音声データ各々を合成して、立体合成音声データを生成する音声合成手段と、
前記音声合成手段により生成された立体合成音声データをスピーカから出力する音声制御手段と、を有し、
前記プレゼンスサーバは、
前記複数の会議端末各々から送られてきたユーザの仮想位置情報を管理すると共に、前記複数の会議端末各々から送られてきた情報が経由した前記中継装置に基づいて、前記複数の会議室各々のユーザの所在情報を管理する管理手段と、
前記複数の会議端末の各々に対して、前記管理手段で管理されている各会議端末のユーザの仮想位置情報および所在情報を、当該会議端末に送信する位置情報送信手段と、を有すること
を特徴とする音声会議システム。
請求項１に記載の音声会議システムであって、
前記中継装置は、
自中継装置を利用する会議端末からの要求に従い、自中継装置の情報を当該会議端末のユーザの所在情報として、前記プレゼンスサーバに送信すること
を特徴とする音声会議システム。
請求項１又は２に記載の音声会議システムであって、
前記複数の会議端末各々は、
自会議端末が存在する所在場所内に設けられた原点に対する自ユーザの位置と向きを検出する位置情報検出手段をさらに有し、
前記仮想位置情報送信は、
前記位置情報検出手段が検出した位置と向きを自ユーザの前記仮想空間上における位置および向きとして、自ユーザの仮想位置情報を前記プレゼンスサーバに送信すること
を特徴とする音声会議システム。
音声会議システムであって、
複数の会議端末と、前記複数の会議端末各々のユーザの仮想空間上における位置および実空間上における所在場所を管理するプレゼンスサーバと、前記複数の会議端末各々に音声データを送信する音声サーバと、実空間上のそれぞれの所在場所に設置され、当該所在場所に存在する会議端末が前記プレゼンスサーバと通信を行なうために利用される複数の中継装置と、を有し、
前記複数の会議端末各々は、
自会議端末のユーザである自ユーザの前記仮想空間上における位置および向きを含む自ユーザの仮想位置情報を前記プレゼンスサーバに送信する仮想位置情報送信手段と、
自ユーザの音声データを前記音声サーバに送信する音声データ送信手段と、
前記音声サーバから立体合成音声データを受信する立体合成音声データ受信手段と、
前記立体合成音声データ受信手段で受信した立体合成音声データをスピーカから出力する音声制御手段と、を有し、
前記音声サーバは、
前記プレゼンスサーバから前記複数の会議端末各々のユーザの仮想位置情報と実空間上における所在場所を示す所在情報とを受信する位置情報受信手段と、
前記複数の会議端末の各々について、前記位置情報受信手段が受信した各会議端末のユーザの所在情報に基づいて、当該会議端末のユーザである対象ユーザと同じ実空間上の所在場所に存在するユーザである他会議室ユーザを検出する他会議室ユーザ検出手段と、
前記複数の会議端末各々から当該会議端末のユーザの音声データを受信する音声データ受信手段と、
前記複数の会議端末の各々について、前記会議室ユーザ検出手段が検出した当該会議端末のユーザである対象ユーザに対する他会議室ユーザ各々の音声データに対して、当該他会議室ユーザの仮想位置情報および当該対象ユーザの仮想位置情報により特定される、前記仮想空間における当該他会議室ユーザと当該対象ユーザとの相対位置に応じた立体音響処理を施し、立体音響処理された他会議室ユーザの音声データ各々を合成して、立体合成音声データを生成する音声合成手段と、
前記複数の会議端末各々に対して、前記音声合成手段により生成された当該会議端末の対象ユーザに対する立体合成音声データを、当該会議端末に送信する立体合成音声データ送信手段と、を有し、
前記プレゼンスサーバは、
前記複数の会議端末各々から送られてきたユーザの仮想位置情報を管理すると共に、前記複数の会議端末各々から送られてきた情報が経由した前記中継装置に基づいて、前記複数の会議端末各々の所在情報を管理する管理手段と、
前記管理手段で管理されている各会議端末のユーザの仮想位置情報および所在情報を、前記音声サーバに送信する位置情報送信手段と、を有すること
を特徴とする音声会議システム。
請求項４に記載の音声会議システムであって、
前記中継装置は、
自中継装置を利用する会議端末からの要求に従い、自中継装置の情報を当該会議端末のユーザの所在情報として、前記プレゼンスサーバに送信すること
を特徴とする音声会議システム。
請求項４又は５に記載の音声会議システムであって、
前記複数の会議端末各々は、
自会議端末が存在する所在場所内に設けられた原点に対する自ユーザの位置と向きを検出する位置情報検出手段をさらに有し、
前記仮想位置情報送信手段は、
前記位置情報検出手段が検出した位置と向きを自ユーザの前記仮想空間上における位置および向きとして、自ユーザの仮想位置情報を前記プレゼンスサーバに送信すること
を特徴とする音声会議システム。
会議端末であって、
自会議端末のユーザである自ユーザの前記仮想空間上における位置および向きを含む自ユーザの仮想位置情報を、音声会議に参加する複数の会議端末各々のユーザの前記仮想空間上における位置および実空間上における所在場所を管理するプレゼンスサーバに送信する仮想位置情報送信手段と、
前記プレゼンスサーバから各会議端末のユーザの仮想位置情報と実空間上の所在場所を示す所在情報とを受信する位置情報受信手段と、
前記位置情報受信手段が受信した各会議端末のユーザの所在情報に基づいて、自ユーザと同じ実空間上の所在場所に存在するユーザである他会議室ユーザを検出する他会議室ユーザ検出手段と、
自ユーザの音声データを、前記会議室ユーザ検出手段が検出した他会議室ユーザの会議端末各々に送信する音声データ送信手段と、
前記会議室ユーザ検出手段が検出した他会議室ユーザの会議端末各々から、他会議室ユーザの音声データを受信する音声データ受信手段と、
前記音声データ受信手段で受信した他会議室ユーザの音声データ各々に対して、当該他会議室ユーザの仮想位置情報および自ユーザの仮想位置情報により特定される、前記仮想空間における当該他会議室ユーザと自ユーザとの相対位置に応じた立体音響処理を施し、立体音響処理された他会議室ユーザの音声データ各々を合成して、立体合成音声データを生成する音声合成手段と、
前記音声合成手段により生成された立体合成音声データをスピーカから出力する音声制御手段と、を有すること
を特徴とする会議端末。
コンピュータ読み取り可能なプログラムであって、
前記プログラムは、コンピュータを、
自会議端末のユーザである自ユーザの前記仮想空間上における位置および向きを含む自ユーザの仮想位置情報を、音声会議に参加する複数の会議端末各々のユーザの前記仮想空間上における位置および実空間上における所在場所を管理するプレゼンスサーバに送信する仮想位置情報送信手段と、
前記プレゼンスサーバから各会議端末のユーザの仮想位置情報と実空間上の所在場所を示す所在情報とを受信する位置情報受信手段と、
前記位置情報受信手段が受信した各会議端末のユーザの所在情報に基づいて、自ユーザと同じ実空間上の所在場所に存在するユーザである他会議室ユーザを検出する他会議室ユーザ検出手段と、
自ユーザの音声データを、前記会議室ユーザ検出手段が検出した他会議室ユーザの会議端末各々に送信する音声データ送信手段と、
前記会議室ユーザ検出手段が検出した他会議室ユーザの会議端末各々から、他会議室ユーザの音声データを受信する音声データ受信手段と、
前記音声データ受信手段で受信した他会議室ユーザの音声データ各々に対して、当該他会議室ユーザの仮想位置情報および自ユーザの仮想位置情報により特定される、前記仮想空間における当該他会議室ユーザと自ユーザとの相対位置に応じた立体音響処理を施し、立体音響処理された他会議室ユーザの音声データ各々を合成して、立体合成音声データを生成する音声合成手段と、
前記音声合成手段により生成された立体合成音声データをスピーカから出力する音声制御手段と、を有する会議端末として、機能させること
を特徴とするコンピュータ読み取り可能なプログラム。
複数の会議端末各々に音声データを送信する音声サーバであって、
音声会議に参加する複数の会議端末各々のユーザの仮想空間上における位置および実空間上における所在場所を管理するプレゼンスサーバから前記複数の会議端末各々のユーザの仮想位置情報と実空間上における所在場所を示す所在情報とを受信する位置情報受信手段と、
前記複数の会議端末の各々について、前記位置情報受信手段が受信した各会議端末のユーザの所在情報に基づいて、当該会議端末のユーザである対象ユーザと同じ実空間上の所在場所に存在するユーザである他会議室ユーザを検出する他会議室ユーザ検出手段と、
前記複数の会議端末各々から当該会議端末のユーザの音声データを受信する音声データ受信手段と、
前記複数の会議端末の各々について、前記会議室ユーザ検出手段が検出した当該会議端末のユーザである対象ユーザに対する他会議室ユーザ各々の音声データに対して、当該他会議室ユーザの仮想位置情報および当該対象ユーザの仮想位置情報により特定される、前記仮想空間における当該他会議室ユーザと当該対象ユーザとの相対位置に応じた立体音響処理を施し、立体音響処理された他会議室ユーザの音声データ各々を合成して、立体合成音声データを生成する音声合成手段と、
前記複数の会議端末各々に対して、前記音声合成手段により生成された当該会議端末の対象ユーザに対する立体合成音声データを、当該会議端末に送信する立体合成音声データ送信手段と、を有すること
を特徴とする音声サーバ。
コンピュータ読み取り可能なプログラムであって、
前記プログラムは、コンピュータを、
音声会議に参加する複数の会議端末各々のユーザの仮想空間上における位置および実空間上における所在場所を管理するプレゼンスサーバから前記複数の会議端末各々のユーザの仮想位置情報と実空間上における所在場所を示す所在情報とを受信する位置情報受信手段と、
前記複数の会議端末の各々について、前記位置情報受信手段が受信した各会議端末のユーザの所在情報に基づいて、当該会議端末のユーザである対象ユーザと同じ実空間上の所在場所に存在するユーザである他会議室ユーザを検出する他会議室ユーザ検出手段と、
前記複数の会議端末各々から当該会議端末のユーザの音声データを受信する音声データ受信手段と、
前記複数の会議端末の各々について、前記会議室ユーザ検出手段が検出した当該会議端末のユーザである対象ユーザに対する他会議室ユーザ各々の音声データに対して、当該他会議室ユーザの仮想位置情報および当該対象ユーザの仮想位置情報により特定される、前記仮想空間における当該他会議室ユーザと当該対象ユーザとの相対位置に応じた立体音響処理を施し、立体音響処理された他会議室ユーザの音声データ各々を合成して、立体合成音声データを生成する音声合成手段と、
前記複数の会議端末各々に対して、前記音声合成手段により生成された当該会議端末の対象ユーザに対する立体合成音声データを、当該会議端末に送信する立体合成音声データ送信手段と、を有する音声サーバとして、機能させること
を特徴とするコンピュータ読み取り可能なプログラム。