JP3321178B2

JP3321178B2 - 音声会議システム中に空間音声環境を作る装置と方法

Info

Publication number: JP3321178B2
Application number: JP53188197A
Authority: JP
Inventors: アンドリュージェイシンガー; ショーンマイケルホワイト; グレンティーイーデンス; ロジャーシーマイク; ドンチャーンリー; デビーヒンダス; ウェインバーディック; リサスティーフルマン
Original assignee: インターヴァルリサーチコーポレイション
Priority date: 1996-03-04
Filing date: 1997-03-03
Publication date: 2002-09-03
Anticipated expiration: 2017-03-03
Also published as: AU2064897A; WO1997033450A1; KR100436362B1; JP2001503165A; US5889843A; EP0879545A1; KR19990087511A

Description

【発明の詳細な説明】発明の属する技術的分野本発明は音声会議システムに用いられる装置と方法に
関する。

技術的背景遠隔会議システムにより、異なるサイトにいる人々で
もまるで同じ部屋にいるかのように会って話せるように
なる。これをビジネスに応用すれば、生産性の向上と移
動に要する時間と費用の削減という点で利益となる。遠
隔会議システムは現在、ビジネスの会議、セールスの会
議、技術情報の交換等に応用されている。

一般的な遠隔会議装置では、ユーザーに複数の外部ト
ランシーバーの各々と双方向の音声コミュニケーション
リンクを与えることになる。遠隔会議装置は、外部トラ
ンシーバーから受信した音声信号に基づき音波を発生で
きる、例えばスピーカーといった音声出力装置を有して
いる。遠隔会議装置は、複数外部トランシーバーへの送
信用に、受信した音波から音声信号を発生できる、例え
ばマイクロフォンといった音声入力装置を更に有してい
る。

幾つかの遠隔会議装置が技術上知られている。ファブ
リス他に与えられた米国特許4,516,156では音声ビデオ
遠隔会議システムが開示されており、離して置いたカメ
ラが生成したビデオ画像を制御するためタッチセンシテ
ィブスクリーンが用いられる。ハイデン他に与えられた
米国特許4,953,159では音声グラフィック会議装置が開
示されており、同装置は相互の接続を確立し制御するコ
ンピュータインタフェイスを有している。プレスマン他
に与えられた米国特許4,654,872では遠隔会議システム
が開示されており、ここでは一つの局のユーザーが他の
各局との相互接続を選択的に制御する。

発明の概要外部トランシーバーから受信した音声信号に基づい
て、ユーザーが制御し得る空間音声環境を与える音声会
議システムのニーズが存在する。

従って本発明の目的は、空間音声環境を作り出せる音
声会議システムを与えることである。

本発明の更に別の目的は、概念的に一貫したユーザー
インタフェイスを与えて音声会議システム中の空間音声
環境を制御することである。

上記目的の実行に際し本発明は、複数のサイトにおけ
る複数のユーザー間での音声コミュニケーションに関す
る方法を与える。同方法は、各サイトに一組の音声イン
ップトセンサーを与える段階を有する。各組の音声入力
センサーの近辺の音声空間は、バイノーラル（以下、双
聴覚的と略）に感知される。同方法は、各サイト毎のメ
タフォリカルな表示を与える段階を更に含んでいる。各
メタフォリカル表示は、メタフォリカル空間内で変化し
得る位置を有している。各サイトで感知された音声空間
を組み合わせる段階を実行し、少なくとも一つの合成音
声空間を形成する。この少なくとも一つの合成音声空間
は、メタフォリカル空間内の各メタフォリカル表示の位
置に従って形成される。双聴覚的に知覚できる音声環境
を、前記少なくとも一つの合成音声空間に基づいて各サ
イトに作り出す。

上記目的の実行に際し更に本発明は、複数サイトにお
ける複数ユーザー間の音声コミュニケーション用のシス
テムを与え、同システムで上記方法を実行する。

上記目的の実行に際し更に本発明は、音声会議装置に
システムを与える。同音声会議装置は、ユーザーに複数
外部トランシーバー毎との双方向の音声コミュニケーシ
ョンのリンクを与え、第一の音声信号から音波を作り出
せる音声出力装置を有し、更に、複数外部トランシーバ
ーへの送信用に、受信した音波から第二の音声信号を作
り出せる音声入力装置を有している。同システムはグラ
フィカルユーザーインタフェイス（以下、GUIと略）を
含んでおり、このGUIは各外部トランシーバーに対応す
るアイコンを、ディスプレイスペース中の対応する位置
に表し、各アイコンの対応位置をユーザーは変更するこ
とができる。同システムは、基準位置に対する各アイコ
ンの対応位置を生成するプロセッサーを更に有してお
り、GUIと関連して作動する。同システムは、複数外部
トランシーバーの各々から受信した対応音声信号を、制
御信号に従って可変的に増幅しかつ可変的に選別する音
声ミキサーを更に有しており、プロセッサーと関連して
作動し、複数の信号を組み合わせ混成音声信号を形成す
る。混成音声信号は、音声出力装置に加えられ、複数外
部トランシーバーから受信した音声信号に基づき空間音
声環境が作り出される。

上記目的の実行に際し更に本発明は、双方向のコミュ
ニケーションの方法を複数外部トランシーバーの各々に
与える。第一の音声信号が複数外部トランシーバーの各
々に送信される。外部トランシーバーの各々に対応した
アイコンが、ディスプレイ中の対応する位置に表示され
る。複数外部トランシーバーの各々に対応した音声信号
が受信される。対応する各音声信号が、基準位置に対す
る各アイコンの対応位置に従って、増幅されて選別され
る。増幅・選別された対応する音声信号を混ぜ合わせ
て、混成音声信号を形成する。混成音声信号を音声出力
装置に加え、複数外部トランシーバーから受信した音声
信号に基づき空間音声環境を作り出す。

以下の説明、付属請求項目、添付図面により、本発明
のこれらの特徴、態様、実施例についての理解がなされ
るであろう。

図面の簡単な説明図１は、複数サイトにおける複数ユーザー間の音声コ
ミュニケーションに関するシステムの実施例のブロック
図である。

図２は、複数サイトにおける複数ユーザー間の音声コ
ミュニケーションに関するの方法のフローチャートであ
る。

図３は、本発明で使われるインタフェイスの第一実施
例を図解する。

図４は、本発明で使われるインタフェイスの代替実施
例を図解する。

図５は、本発明で使われるインタフェイスの別の実施
例のブロック図である。

図６は、本発明の実施例のブロック図である。

図７は、本発明の実施例を絵図で表したものである。

図８（ａ−ｂ）は、GUIによるディスプレイと、これ
に対応する仮想音声環境の斜視図である。

図９は、仮想音声環境を作り出す方法のフローチャー
トである。

図10は、本発明による音声会議システムの一実施例の
ブロック図である。

図11は、本発明による音声会議システムの代替実施例
のブロック図である。

本発明を実施する最適なモード図１は、複数サイトにおける複数ユーザー間の音声コ
ミュニケーションに関するシステムの実施例のブロック
図である。図解の目的上、サイトを12、14、16の三つと
した条件で述べているが、本発明の実施例はこれに限ら
れるものではない。各サイト12、14、16毎に、近辺の音
声空間を双聴覚的に感知するため、対応した音声入力セ
ンサーのセット22、24、26を設ける。図示のように、音
声入力センサーセット22は、サイト12の音声空間を双聴
覚的に感知し、音声入力センサーのセット24は、サイト
14に位置する音声空間を双聴覚的に感知し、音声入力セ
ンサーのセット26は、サイト16に位置する音声空間を双
聴覚的に感知する。「双聴覚的な感知」とは、離れた位
置で双聴覚的に知覚し得るに充分な位相の質と精度を有
する形の音声空間を感知ないし合成することを示すこと
に注意されたい。

双聴覚的な感知は、異なる様々な音声入力センサーを
異なる様々な構成で使用して実施することができる。一
実施例の場合、感知される音声空間の空間表示を捕らえ
るために構成された複数のマイクロフォンを使って、双
聴覚的な感知を行う。複数のマイクロフォンとしては、
一対のマイクロフォン、４個のアレイ状マイクロフィ
ン、８個のアレイ状マイクロフォン等がある。使われる
マイクロフォンの数によらず、音声空間内に生成される
多重反射を捕らえるように構成するのが望ましい。そう
した構成の一つでは、一対のマイクロフォンを構成し
て、人間の二つの耳の間の平均的な頭蓋内距離をシミュ
レートする。一般的に言って、マイクロフォンの構成を
固定する必要はない。

代替的には、双聴覚的に人間の頭に関連させた代表的
な伝達関数を物理的にシミュレートする複数の音声入力
センサーを使って、音声空間の空間表示を捕らえてもよ
い。別の代替として、一対のディスプレイスメントセン
サーを使って双聴覚的な感知を行ってもよく、本センサ
ーは近辺の音声空間に応答して一対の生体鼓膜の移動を
感知する。このやり方での双聴覚的な感知のための方法
とシステムが、同時係属米国特許出願、出願番号08/47
5,349で本出願と同じ譲受人に譲受された、「生体内鼓
膜の移動を計測する着用可能な装置と同装置用の方法と
システム」に開示されており、参考までに添付する。

別の実施例では、一つのサイトの音声空間を、一個の
マイクロフォンと一個の音声信号プロセッサーを使って
双聴覚的に合成する。この場合、音声信号プロセッサー
は、離れた位置で双聴覚的に知覚し得るに充分な位相の
質と精度を有する形の音声空間を合成する。音声信号プ
ロセッサーは、所定の立体的ないし双聴覚的な人間の頭
に関連させた伝達関数を、人工的に加えることで音声空
間を形成できる。結果的に、三次元的な音声空間を一個
のマイクロフォンで形成できる。

各々のサイト12、14、16で感知された音声空間を表す
信号を、22、24、26の音声入力センサーから、送信リン
ク32、34、36を経由させ、信号プロセッサーに送信す
る。送信リンク32、34、36は、電気用ケーブル（同軸ケ
ーブル、一対の捩り線等）、光ファイバー、自由空間、
信号搬送用の他の媒体から成りたっていればよい。送信
リンク上での送信は、音声空間を代表する基本帯域電気
信号を使って達成してもよく、基本帯域電気信号は、変
調搬送波ないし変調光信号を有する。

一般的に言って、感知された音声空間を表す信号はア
ナログ、デジタルのいずれの形で送信してもよい。デジ
タル形式では、感知された音声空間を表すデジタル信号
を適切に暗号化ないし圧縮して表示できる。

信号プロセッサー30は、各サイト12、14、16毎に感知
された音声空間を、インタフェイス40から供給された制
御信号に従って、組み合わせる。インタフェイス40は、
メタフォリカル空間内の各サイト12、14、16のメタフォ
リカル表示を与える。各メタフォリカル表示の位置は、
メタフォリカル空間内で変化し得る。メタフォリカル空
間内のメタフォリカル表示に基づき、信号プロセッサー
30が、少なくとも一つの合成音声空間を形成する。

本発明の様々な実施例では、各合成音声空間をメタフ
ォリカルに表すため、メタフォリカル空間が複数のサブ
空間へと詳細に表される。各合成音声空間は、各サブ空
間内に含まれるメタフォリカル表示を有する音声空間を
組み合わせて形成する。更に、一つのサイトで感知され
た音声空間は、メタフォリカル空間内の前記一つのサイ
トのメタフォリカル表示の位置に従って、別のサイトに
おける双聴覚的に知覚されたサイトに作り出すことがで
きる。

信号プロセッサー30は合成音声環境を構成するため、
一つ以上のアナログ音声ミキサーないし一つ以上のデジ
タル音声プロセッサーを有することができる。ミキシン
グに加え、信号プロセッサー30は周波数応答の形成、セ
キュリティ上の理由からの暗号化、背景音の追加、自動
的なゲインコントロールの実行、フィードバック制御操
作の実行、立体的及び空間的な音の改善操作を行うこと
ができる。デジタル音声プロセッサーは、時分割ないし
空間分割のマルチプレクシング信号を用いて、多岐に亘
るミキシングタスクを実行してもよい。

少なくとも一つの合成音声空間を表す信号が、各送信
リンク41、42、43を経由させ、各サイト12、14、16にコ
ミュニケートされる。送信リンク32、34、36の場合のよ
うに、送信リンク41、42、43は電気用ケーブル（同軸ケ
ーブル、一対の捩り線等）、光ファイバー、自由空間、
他の適切な媒体から成ることが可能である。信号は基本
帯域、広帯域のいずれの信号も可能である。

各サイト12、14、16は、合成音声空間に基づいて双聴
覚的に知覚可能な音声環境を作り出す音声出力装置のセ
ット44、45、46を有する。音声出力装置の各セットは、
サイトの合成音声環境を提供するアレイ状スピーカー、
例えばステレオスピーカー、４個のアレイ状スピーカ
ー、８個のアレイ状スピーカー等を有することができ
る。代替的に、音声出力装置セットとして、例えばオー
バーイヤヘッドフォン、イヤフォン、骨伝導フォン、ニ
アフィールドフォンといった形のヘッドフォンが可能で
ある。

別の代替案として、音声出力装置セットはユーザーの
鼓膜をサーボする手段を提供できる。個人の鼓膜をサー
ボする方法とシステムについては、同時係属米国特許出
願、出願番号08/475,349に述べられている。

信号プロセッサー30は中央のシステムとして図示され
ているが、複数のサブシステムを使った分散型形式をと
ることも可能である。この場合、各サイトは中央の信号
プロセッサーと連動して働く信号処理サブシステムを有
することが可能であり、中央の信号プロセッサーは前記
サイトが必要とする利用可能な資源のサブセットのみを
送信する。信号処理サブシステムは、要求のあった利用
可能な資源のサブセットの組み合わせを実行する。

図２に、本発明による複数サイトの複数ユーザー間で
の音声コミュニケーションに関する方法のフローチャー
トを示す。

ブロック50に示すように、本方法は各サイトに音声入
力センサーを与える段階を有している。ブロック52に示
すように、各サイトのメタフォリカルな表示を与える段
階が実行される。各メタフォリカル表示はメタフォリカ
ル空間内で可変な位置を有する。音声入力センサーの各
セット近辺の音声空間を双聴覚的に感知する段階がブロ
ック54に示すように実行される。ブロック56に示す如
く、各サイトで感知された音声空間を組み合わせる段階
が実行され、少なくとも一つの合成音声空間が形成され
る。この合成音声空間は、メタフォリカル空間内のメタ
フォリカル表示に従って形成される。少なくとも一つの
合成音声空間に基づいて各サイトに双聴覚的に知覚可能
な音声環境を作り出す段階が、ブロック58に示すよう
に、実行される。

図３に、本発明で使われるインタフェイスの第一実施
例を示す。本実施例のインタフェイスの場合、メタフォ
リカル表示は各サイトの物理的な表示の形式となってい
る。例えば、インタフェイスは物理的オブジェクトを１
セット含むことができ、各オブジェクトは人物ないしグ
ループを表す。物理的オブジェクトは個人ないしグルー
プの表示であれば、文字、文字に近いもの、任意のもの
が可能である。更に、物理的オブジェクトは、人物ない
しグループに対してどのような大きさであってもよい。

本実施例のインタフェイスは、複数サイトの各々をメ
タフォリカルに表す複数の物理的オブジェクトを有して
いる。各物理的オブジェクトは、物理的空間内で可変な
位置を有する。図解のため、図１のサイト12、14、16を
メタフォリカルに表す三つの物理的オブジェクト62、6
4、66を示す。物理的オブジェクト62、64、66は、物理
的空間を与える平面68上に位置する。物理的空間は、二
つの音声空間を表す二つのサブ空間70、72に表されて、
このサブ空間が合成される。

物理的オブジェクト62、64、66の各々は、物理的空間
内での自身の位置を感知するセンサー82、84、86を有し
ている。センサー82、84、86は、光学的センサー、電磁
気的センサー、電気的センサー、機械的センサー、超音
波センサー等で、物理的オブジェクト62、64、66の位置
を感知できる。センサー82、84、86は、サブ空間70、72
に対する各オブジェクトの物理的位置の変化を素早く決
定できるように、動的に位置を感知することが好まし
い。各オブジェクトの物理的位置を動的に感知すること
により、合成音声空間を動的に変化させ、サブ空間70、
72に対するオブジェクトの構成を反映することができ
る。

図４に、物理的メタフォリカル表示を利用したインタ
フェイスの代替実施例を示す。この場合、複数の平面9
0、92を含んでおり、同平面は物理的空間を二つのサブ
空間94、96で表す。サブ空間94は一つの合成音声空間の
表示であり、サブ空間96は別の合成音声空間の表示であ
る。図４では、平面90、92の二つだけしか示していない
が、代替実施例で利用する平面の数はいくつでもよいこ
とに注意されたい。

図３、４の平面で与えられる二次元の物理的なメタフ
ォリカル空間の代替として、物理的オブジェクトの位置
を任意の三次元空間内で感知することが可能である。こ
の三次元空間は、形成されるべき合成音声空間をいくつ
でも表す所定のやり方で表すことができる。

図５に、複数サイトの各々の視覚的なメタフォリカル
表示を利用したインタフェイスの実施例を示す。インタ
フェイスは、少なくとも一つのグラフィカルオブジェク
トを表示するディスプレイ装置100を有している。この
少なくとも一つのグラフィカルオブジェクトが、複数サ
イトの少なくとも一つの表示をメタフォリカルに表す。
複数のグラフィカルオブジェクトが表示され、各グラフ
ィカルオブジェクトが複数サイトの各々と対応すること
が好ましい。ディスプレイ装置100は、入力装置104を有
するコンピュータ102で駆動される。入力装置104は、マ
ウス、トラックボール、タッチスクリーン、ペン等のポ
インティング装置を有することができる。コンピュータ
102は、ディスプレイ装置100上の各グラフィカルオブジ
ェクトの位置を決める手段を与える。

この形式の好適実施例では、ディスプレイ装置100は
グラフィカルオブジェクトのセットを表し、このグラフ
ィカルオブジェクトは複数の個人ないしグループを文
字、文字に近いもの、ないし任意の形のいずれかで表し
たものである。ディスプレイ装置100は更に、合成され
るべき各音声空間を図で表したエリアを表す。エリアは
ディスプレイ装置100の全画面上に表してもよい。代替
的に、エリアをディスプレイ装置100の画面上で、一つ
ないし複数のウィンドウ内ないしシミュレートした三次
元空間表示で表してもよい。

画面上に表されたエリアに対する各オブジェクトの位
置を、ユーザーは入力装置104を使って操作する。オブ
ジェクトの位置を使い、対応する合成音声空間を動的に
変化させ、表されたエリアに対するオブジェクトの構成
を反映させる。

オブジェクトは表す個人ないしグループに対しどんな
大きさでもよいことに注意されたい。更に、複数のオブ
ジェクトを使って、個人ないしグループと合成音声空間
との関わり合いに関する種々のアスペクトを表してもよ
い。例えば、一つのオブジェクトは、合成音声空間に対
する個人ないしグループの寄与度合を表してもよく、こ
の場合、第二のオブジェクトは個人ないしグループが合
成音声空間を聴く能力を表す。

図５のインタフェイスは、複数サイトの原文通りのメ
タフォリカル表示を与えるのに利用できる。この場合コ
ンピュータ102は、少なくとも一つのニーモニックオブ
ジェクトの状態空間モデルを維持する制御プログラムを
実行する。この少なくとも一つのニーモニックオブジェ
クトは、少なくとも一つのサイトをメタフォリカルに表
示する。制御プログラムは、複数サイトを表す複数のニ
ーモニックオブジェクトのために状態空間モデルを維持
することが好ましい。入力装置104は、状態空間モデル
内の少なくとも一つのニーモニックオブジェクトの状態
を変更するため、原文通りのコマンドを受信する手段を
与える。ディスプレイ装置100は、状態空間モデル内の
少なくとも一つのニーモニックオブジェクトの状態に関
する原文通りの指示を表すための手段を与える。

更に特定すればコンピュータ102は、入力装置104を経
由して原文通りのコマンドを受信する。原文通りのコミ
ュニケーションは、入力装置104内のボタンを押して達
成してもよい。この場合、ボタンにユーザーが発するコ
マンドをラベル表示してもよい。代替として入力装置10
4は、ディスプレイ装置100上に表示されたコマンドの選
択を容易にするポインティング装置、例えば、マウス、
トラックボール、ペン、タッチスクリーン、ボデーポジ
ションセンサー等を有することができる。別の代替策と
して、原文通りのコマンドを入力装置104内のキーボー
ドを打つことで達成することができる。更に別の代替策
では、入力装置104内に言語認識装置を使い、口頭での
コマンド入力が可能となる。

入力装置104経由でコンピュータが受信した原文通り
のコマンドを使い、状態空間モデルを変更する。ニーモ
ニックに表されたエリアないしエリアセットに対する各
ニーモニックオブジェクトの状態を使い、表されたエリ
アで定義された少なくとも一つの合成音声空間の形式を
動的に変化させる。

インタフェイスに関する先の実施例のように、ニーモ
ニックオブジェクトは、サイトに関係する個人ないしグ
ループを表す文字、文字に近いもの、任意のものでよ
い。更に、ニーモニックオブジェクトは、オブジェクト
が表す人々ないし空間に対しどんなニーモニック関係で
も可能である。又、複数のオブジェクトは、個人ないし
グループの音声空間との関わり合いに関する種々のアス
ペクト、例えば、合成音声空間に対し寄与するのみであ
る、合成音声空間に聴き入るだけであるとかいうことを
表してもよい。

インタフェイスの実施例は、空間メタフォーを利用し
て各サイトをメタフォリカルに表してもよい。この場
合、インタフェイスは音声ディスプレイを有し、このデ
ィスプレイ上には、音声オブジェクトが表されたエリア
ないしエリアのセットと共にディスプレイされる。

視覚的なメタフォリカル表示を利用した本発明の好適
実施例を説明する。この好適実施例が教示するものはこ
こで述べた他のメタフォリカル表示と共に適用可能なこ
とに注意されたい。

音声会議装置に使う空間音声環境を作り出すシステム
の実施例を、図６のブロック図に示す。複数の音源110
を音声ミキサー112に加える。音源110の例としては、離
れた位置からマイクロフォンに話しかける人の音声信
号、電話の受話器、音楽再生装置、ラジオ、テレビから
の音声等が含まれる。音声ミキサー112は各音源を、制
御ライン114沿いに受信した制御信号に従って、可変的
に増幅しかつ可変的に選別することができる。制御信号
を、GUI120に応答してプロセッサー116が生成する。

GUI120は、各音源110を表すアイコンを、ディスプレ
イスペースの対応位置に表示できる。ディスプレイスペ
ースは二次元ディスプレイ装置、例えばコンピュータモ
ニターないしこれと同等以上のものの上にディスプレイ
できる。GUI120は更に、ユーザーが各表示アイコンの対
応位置を変更するのを可能とする。こうした変更は、マ
ウス、トラックボール、ジョイスティックを使用するク
リックアンドドラッグ操作、ないし代替制御装置を使っ
た代替操作で実行可能である。空間音声環境中における
ユーザーの基準位置は、基準アイコンで表される。音源
のアイコンの場合と同様の方法で、空間音声環境中にお
けるユーザーの仮想位置が変更されるよう、基準アイコ
ンの位置をGUI120で変更することができる。

GUI120を使ってなされた変更に応じて、プロッセサー
116は基準位置に対する各アイコンの対応位置に従った
制御信号を生成する。制御信号は、各音源110の増幅を
音声ミキサー112で制御する第一信号を有している。第
一信号は、対応するアイコンの位置と基準位置との間の
距離に基づいて、各音源110が増幅されると言った形で
形成される。この目的には、様々な距離測定基準が使用
できる。好適実施例では、デカルト座標による距離ない
し所定の座標軸に沿って測定された距離を内蔵してい
る。デカルト座標による距離測定は、各座標表示軸にお
ける基準位置と対応する音源アイコンとの間の差の二乗
を合計したものの平方根として定義される。より一般的
に言えば、測定基準はどのような数学的基準に基づくこ
ともでき、例えば座標値の差をｐ乗した合計値のｐ乗根
と定める一般的なｐ−ノルム基準も可能である。使われ
る基準が如何なるものであれ、各音源110を可変的に増
幅すると、基準アイコンにより近い表示アイコンを有す
る音源の可聴強度は相対的に増し、基準アイコンにより
遠いアイコンを有する音源の強度は低下することにな
る。

制御信号は更に、各音源110の選別を音声ミキサー112
で制御する第二信号を有している。基準位置に対するア
イコンの方向に基づいて各音源110が選別される、と言
った形で第二信号を形成する。好適実施例では、対応す
るアイコン位置と基準位置とで表される点を結ぶ線分
と、基準位置から発する垂直線分とがなす角度に従っ
て、各音源を選別する。立体的な音声環境を作り出す実
施例では、右チャンネルの強さと左チャンネルの強さは
角度によってそれぞれ変わる。別の実施例では、音源ア
イコン位置と基準位置の間の水平距離に基づいて、各音
源を選別する。立体的音声環境に使う特定の選別機能に
よらず、可変的な選別をすると、一方のチャンネルの強
さが増すと他方のチャンネルの強さは低下し、ディスプ
レイに対して一貫した空間音声表示を与えることにな
る。他の実施例は四つの音声環境を含んでおり、音源11
0を適切に選別することにより四つの音声チャンネルが
作り出される。空間音声環境を作り出すのに使われるチ
ャンネル数に従って、様々な選別機能を処方できること
に当業者に気付くであろう。

各音源110を可変的に増幅・選別した後、音声ミキサ
ー112は組み合わせた音源から混成音声信号を形成す
る。混成音声信号は音声出力装置122に加えられ、仮想
音声空間を作り出す音波が作り出される。本発明の好適
実施例では、音声出力装置122は適当に離して置いた複
数のスピーカーから成る。立体的音声環境の場合、音声
出力装置122は二つの離れたスピーカーから成る。４個
の音源の仮想音声空間の場合、音声出力装置122はユー
ザーを取り囲む４個の独立したスピーカーから成る。

図６のシステムは音声入力装置124を有しており、空
間音声環境を作り出すために、ユーザーは類似システム
中の類似音声ミキサーに加えるための音源を生成できる
ようになる。マイクロフォン等から成る音声入力装置12
4の場合、システムは複数ユーザー間での音声会議用に
使用できる。結果的にでき上がったシステムの場合、各
ユーザーをディスプレイ中の対応位置に置くGUI120で、
各ユーザーは自分の空間音声環境を自分の好みで変えら
れるようになる。

本発明の実施例の絵図の例を図７に示す。本実施例は
電気的制御の可能な音声ミキサー130を有しており、こ
のミキサーは複数の音源から入ってくる複数の線132と
連結されている。音声ミキサー130は、コンピュータ134
が生成した制御信号で制御される。コンピュータ134は
コンピュータモニター136といった表示装置とマウス140
ないしキーボード142といった入力装置を有している。
適当なソフトウェアないしファームウェアプログラムを
実行するコンピュータ134の場合、基準アイコンと音源
アイコンがモニター136の対応位置に表示される。マウ
ス140により、選定したアイコン位置を変更するための
クリックアンドドラッグ操作が可能となる。コンピュー
タ134は、基準位置に対する各アイコンの対応位置に従
って、制御信号与える変更を処理する。音声ミキサー13
0は、音源を可変的に増幅、選別、混合して立体的な音
声信号を与える。立体的音声信号の第一チャンネル144
は第一スピーカー146に、立体的音声信号の第二チャン
ネル150は第二スピーカー152に加えられる。二つのスピ
ーカー146、152が空間音声環境を与える。図６の実施例
のように、本実施例もマイクロフォン154を有し、ユー
ザーは発明の類似実施例に加えるための音源を生成でき
るようになる。

図8aは、図8bの斜視図に示された空間音声環境を作り
出すGUIによる表示例を示す。図解のため図8bの斜視図
に示すように、音源として３個所に離れて位置し参照符
号を160、162、164とする人物Ａ、Ｂ、Ｃ、電話受話器1
66、音楽再生装置170が含まれている。図8aに示すよう
に、各音源は対応するアイコン、３つに離れて位置する
人物を表すアイコン172、174、176、電話受話器のアイ
コン180、音楽再生装置のアイコン182、としてGUIで表
される。ユーザー184は、基準アイコン186で表す。

空間音声環境は、一対のスピーカー190から発せられ
る音波で作られる。仮想音声空間中の各音源の位置は、
基準アイコン上の対応するアイコンの位置に基づく。図
の条件で、音楽再生装置は後方左側で離れた位置にある
のをユーザー184は望んでいる。それ故、ユーザーは音
楽再生装置のアイコン182を基準アイコン186から離れた
左に置く。人物Ｃのアイコン176は基準アイコン186の近
くに置かれているが、図解の便宜上、人物Ｃである164
とユーザーは現在会話しているからである。参照符号17
2、174で示される人物Ａ、Ｂのアイコンは基準アイコン
から離れてディスプレイの両側に置かれる。これによ
り、いずれの人物Ａ、Ｂもユーザーの注意を口頭で得る
ことができ、更にユーザーは両人物Ａ、Ｂを空間上識別
できることになる。

本発明により、複数の音源から仮想音声空間を作る方
法を図９のフローチャートに示す。各音源を表すアイコ
ンを表示する段階をブロック194で実行する。この表示
段階は、基準のアイコンを基準位置に表示する段階を更
に含むことが可能である。ブロック196で各音源は、基
準位置に対して対応するアイコンの位置に従って、増幅
される。先に論じたように各音源は、対応するアイコン
の位置と基準位置との間の距離に従って増幅されるが、
好適実施例ではデカルト座標による距離ないし所定の座
標軸に沿って距離が採用される。図8aに戻ると、電話器
のアイコン180と基準アイコン186の間のデカルト座標に
よる距離は参照符号200で示され、垂直軸に沿って測っ
た距離は参照符号202で示されている。

基準位置に対するアイコンの位置に従って音源を選別
する段階を、ブロック204で実行する。先に論じたよう
に本段階は、電話器アイコン180に対して参照符号206で
示したように、アイコン位置と基準位置とを結ぶ線分
と、基準位置を通過する水平線分とがなす角度に従っ
て、各音源を選別することで実行される。代替として各
音源を、アイコンの位置と基準位置との間をある座標
軸、例えば水平軸に沿って測定した距離に従って選別す
ることが可能である。

ブロック210で、増幅・選別した音源を混合する。混
合された音源を表す音波はブロック212で作られる。こ
の音波で空間音声環境を作り出す。

本発明に従い、図10に音声会議システムの実施例のブ
ロック図を図示する。システムは３つの空間音声システ
ム220、222、224を条件として図示されている。各空間
音声システムの音声入力装置は、他の２つの空間音声シ
ステムの音声ミキサーへの入力として加えられる。例え
ば、空間音声システム220の音声入力装置226は、空間音
声システム222の音声ミキサー230と空間音声システム22
4の音声ミキサー232へ連結される。それ故、マイクロフ
ォンから成る音声入力装置226について言えば、空間音
声システム220のユーザーは、空間音声システム222、22
4のユーザーと口頭でコミュニケートできる。

結果的に、各空間音声システムの音声ミキサーは、他
の２つの空間音声システムの音声ミキサーの音声入力装
置に連結されることになる。更に特定すれば、空間音声
システム220について言えば、音声ミキサー234は音声入
力装置236と音声入力装置240とに連結されている。それ
故、空間音声システム220のユーザーは、他のユーザー
を表すアイコンの位置をGUI242を使って変更することに
より、他の２つのユーザーの空間音声位置を変更するこ
とができる。

本発明による音声会議システムの代替実施例のブロッ
ク図を図11に示す。図解のため、システムは３つの空間
音声システム250、252、254を条件として図示する。本
実施例では、音声システム250、252、254を繋ぐため
に、音声ミキサー256とプロセッサー260を中央に置く。
こうした配置は、自分の基準アイコンの基準位置を各ユ
ーザーが変更できる場合に助けとなる。更に特定する
と、各ユーザーは対応するGUI上の共通のディスプレイ
スペースを見ることになる。あるユーザーが自分の基準
アイコンの位置を変更すると、中央のプロセッサー260
は、他のGUIに前記ユーザーを表すアイコンの位置を変
更するよう命ずる。中央のプロセッサー260は、音声ミ
キサー256に加えるために、各アイコンの互いに対する
相対的位置に従った制御信号を生成する。制御信号に応
じて、音声ミキサーは可変的に各音源を増幅・選別し、
音声出力装置に加えるための混成音声信号を形成する。

勿論、図10、11に示した３人からなるユーザー例は音
声会議システムの実施例を単に図解するためであり、音
声会議システムの実施例はどんな複数のユーザーにも使
用できる。更に、音声会議システムの実施例は一般的な
いかなる送信器・受信器のペア、即ちトランシーバーと
も繋ぐことができる。

先に述べた本発明のバージョンは、首尾一貫した空間
表示中に音源の表示を動かしたり置いたりすることで、
ユーザーに音声環境を整理操作を可能にすると言った点
を始めとした多くの利点を有する。例えば、人物の表示
をよりユーザーに近づけユーザー表示の左に動かすと、
前記人物の音声表示をよりユーザーに近づけユーザー表
示の左に動かすことになる。これは音声環境に対するユ
ーザーの完全な制御を可能とし、その音声空間を簡単か
つ素早く再配置する余裕を提供することになる。これは
又、首尾一貫した音声と概念的な表示を通して仮想コミ
ュニケーション空間を創造する新たなモデルを与えるこ
とになる。

以上、本発明を実施する最適なモードを詳しく述べて
きたが、本発明に関わる技術分野に精通する当業者は、
以下の請求項で定義される本発明を実施するに際し、種
々の代替デザイン及び実施例があることを理解できるで
あろう。

フロントページの続き (72)発明者ホワイトショーンマイケルアメリカ合衆国カリフォルニア州 94303 パロアルトエッジウッドドライヴ 2029 (72)発明者イーデンスグレンティーアメリカ合衆国カリフォルニア州 94062 レッドウッドシティーカレーラコート 25 (72)発明者マイクロジャーシーアメリカ合衆国カリフォルニア州 94062 レッドウッドシティースプリングデイルウェイ 136 (72)発明者チャーンリードンアメリカ合衆国カリフォルニア州 94062 ウッドサイドスカイロンダドライヴ 23 (72)発明者ヒンダスデビーアメリカ合衆国カリフォルニア州 94127 サンフランシスコユエーバブエナアベニュー 315 (72)発明者バーディックウェインアメリカ合衆国カリフォルニア州 94002 ベルモントシックススアベニュー 1432 (72)発明者スティーフルマンリサアメリカ合衆国マサチューセッツ州 02139 ケンブリッジエイムズストリート 20 イ―15―352 (56)参考文献特開平８−46704（ＪＰ，Ａ) 特開平１−303852（ＪＰ，Ａ) 特開平２−206272（ＪＰ，Ａ) 特開平９−23275（ＪＰ，Ａ) 米国特許5020098（ＵＳ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 3/16 G06F 3/00 H04L 12/18 H04M 3/56

Claims

(57)【特許請求の範囲】

【請求項１】複数サイトの複数ユーザー間の音声コミュ
ニケーションのためのシステムにおいて、各サイトに設
けられ近接した音声空間を双聴覚的に感知する音声入力
センサーのセットと、各サイトのメタフォリカルな表示
を提供する手段であって、ユーザーが各メタフォリカル
表示をメタフォリカル空間内である位置まで移動させる
ことのできるそのような手段と、各サイトで感知される
音声空間を組み合わせて少なくとも１つの合成音声空間
を形成する手段であって、前記少なくとも１つの合成音
声空間をメタフォリカル空間内の各メタフォリカル表示
の位置に従って形成するそのような手段と、少なくとも
１つの合成音声空間に基づき双聴覚的に知覚できる音声
環境を各サイトに生成する手段とから成り、前記メタフ
ォリカル表示を提供するための手段が、少なくとも１つ
のサイトの物理的表示を与え、前記メタフォリカル表示
を提供するための手段が、前記少なくとも１つのサイト
をメタフォリカルに表示する少なくとも１つの物理的オ
ブジェクトと、物理的空間内の前記少なくとも１つの物
理的オブジェクトの位置を感知するための手段とを包含
し、各物理的オブジェクトは物理的空間内で可変な位置
を有し、前記少なくとも１つの物理的オブジェクトが複
数の平面上に位置できることを特徴とするシステム。
【請求項２】複数サイトの複数ユーザー間の音声コミュ
ニケーションのためのシステムにおいて、各サイトに設
けられ近接した音声空間を双聴覚的に感知する音声入力
センサーのセットと、各サイトのメタフォリカルな表示
を提供する手段であって、ユーザーが各メタフォリカル
表示をメタフォリカル空間内である位置まで移動させる
ことのできるそのような手段と、各サイトで感知される
音声空間を組み合わせて少なくとも１つの合成音声空間
を形成する手段であって、前記少なくとも１つの合成音
声空間をメタフォリカル空間内の各メタフォリカル表示
の位置に従って形成するそのような手段と、少なくとも
１つの合成音声空間に基づき双聴覚的に知覚できる音声
環境を各サイトに生成する手段とから成り、あるサイト
の前記音声入力センサーのセットが、人間の両耳の間の
所定の頭蓋内距離を模して構成された１対のマイクロフ
ォンを含んでいることを特徴とするシステム。
【請求項３】複数サイトの複数ユーザー間の音声コミュ
ニケーションのためのシステムにおいて、各サイトに設
けられ近接した音声空間を双聴覚的に感知する音声入力
センサーのセットと、各サイトのメタフォリカルな表示
を提供する手段であって、ユーザーが各メタフォリカル
表示をメタフォリカル空間内である位置まで移動させる
ことのできるそのような手段と、各サイトで感知される
音声空間を組み合わせて少なくとも１つの合成音声空間
を形成する手段であって、前記少なくとも１つの合成音
声空間をメタフォリカル空間内の各メタフォリカル表示
の位置に従って形成するそのような手段と、少なくとも
１つの合成音声空間に基づき双聴覚的に知覚できる音声
環境を各サイトに生成する手段とから成り、あるサイト
の前記音声入力センサーのセットが、双聴覚的に頭部に
関連させた所定の伝達関数を物理的に模した１対のセン
サーを含んでいることを特徴とするシステム。
【請求項４】複数サイトの複数ユーザー間の音声コミュ
ニケーションのためのシステムにおいて、各サイトに設
けられ近接した音声空間を双聴覚的に感知する音声入力
センサーのセットと、各サイトのメタフォリカルな表示
を提供する手段であって、ユーザーが各メタフォリカル
表示をメタフォリカル空間内である位置まで移動させる
ことのできるそのような手段と、各サイトで感知される
音声空間を組み合わせて少なくとも１つの合成音声空間
を形成する手段であって、前記少なくとも１つの合成音
声空間をメタフォリカル空間内の各メタフォリカル表示
の位置に従って形成するそのような手段と、少なくとも
１つの合成音声空間に基づき双聴覚的に知覚できる音声
環境を各サイトに生成する手段とから成り、あるサイト
の前記音声入力センサーのセットが、近接する音声空間
に応答する１対の生体内鼓膜の変位を感知するための１
対の変位センサーを含んでいることを特徴とするシステ
ム。
【請求項５】複数サイトの複数ユーザー間の音声コミュ
ニケーションのためのシステムにおいて、各サイトに設
けられ近接した音声空間を双聴覚的に感知する音声入力
センサーのセットと、各サイトのメタフォリカルな表示
を提供する手段であって、ユーザーが各メタフォリカル
表示をメタフォリカル空間内である位置まで移動させる
ことのできるそのような手段と、各サイトで感知される
音声空間を組み合わせて少なくとも１つの合成音声空間
を形成する手段であって、前記少なくとも１つの合成音
声空間をメタフォリカル空間内の各メタフォリカル表示
の位置に従って形成するそのような手段と、少なくとも
１つの合成音声空間に基づき双聴覚的に知覚できる音声
環境を各サイトに生成する手段とから成り、前記音声空
間を組み合わせて合成音声空間を形成する手段が、サイ
トの内の１つで感知される音声空間を、双聴覚的に頭部
に関連させた所定の伝達関数と重ね合わすための手段を
含んでいることを特徴とするシステム。
【請求項６】複数サイトの複数ユーザー間の音声コミュ
ニケーションのためのシステムにおいて、各サイトに設
けられ近接した音声空間を双聴覚的に感知する音声入力
センサーのセットと、各サイトのメタフォリカルな表示
を提供する手段であって、ユーザーが各メタフォリカル
表示をメタフォリカル空間内である位置まで移動させる
ことのできるそのような手段と、各サイトで感知される
音声空間を組み合わせて少なくとも１つの合成音声空間
を形成する手段であって、前記少なくとも１つの合成音
声空間をメタフォリカル空間内の各メタフォリカル表示
の位置に従って形成するそのような手段と、少なくとも
１つの合成音声空間に基づき双聴覚的に知覚できる音声
環境を各サイトに生成する手段とから成り、前記双聴覚
的に知覚できる音声環境を生成するための手段が、ユー
ザーの鼓膜をサーボする手段を含むことを特徴とするシ
ステム。
【請求項７】複数の外部トランシーバーの各々に対して
対応する双方向音声コミュニケーションリンクをユーザ
ーに提供する音声会議装置であり、前記音声会議装置は
加えられた第１音声信号から音波を生成できる音声出力
装置を含み、かつ前記音声会議装置は、複数の外部トラ
ンシーバーに送信するために受信した音波から第２音声
信号を生成できる音声入力装置を更に含んでいる、その
ような音声会議装置に付帯して使用されるシステムにお
いて、当該システムが、ディスプレイスペースの対応す
る位置の各外部トランシーバーに対応するアイコンを表
示するが、そこでは各アイコンの対応する前記位置をユ
ーザーが変更することができるというグラフィカルユー
ザーインターフェースと、前記グラフィカルユーザーイ
ンターフェースに関連して操作され、基準位置に対する
各アイコンの対応する位置に従って制御信号を発生させ
るプロセッサーと、前記プロセッサーに関連して操作さ
れ、複数の外部トランシーバーの各々から受信した対応
する音声信号を制御信号に従って可変的に増幅かつ選別
し、その組み合わせから混成音声信号を形成するオーデ
ィオミキサーとから成り、前記混成音声信号は前記音声
出力装置に加えられ、複数の外部トランシーバーから受
信される前記音声信号に基づいて空間音声環境を作り出
すことを特徴とするシステム。
【請求項８】複数の外部トランシーバーの各々と双方向
コミュニケーションを行うための方法であって、第１音
声信号を複数外部トランシーバーの各々に伝達する段階
と、ディスプレイスペースの対応する位置に外部トラン
シーバーの各々に対応するアイコンを表示する段階と、
複数外部トランシーバーの各々からの対応する音声信号
を受信する段階と、基準位置に対して対応するアイコン
の対応する位置に従って各音声信号を増幅かつ選別する
段階と、増幅かつ選別された対応する音声信号を混ぜ合
わせ混成音声信号を形成する段階と、混成音声信号を音
声出力装置に加えて複数外部トランシーバーから受信さ
れる音声信号に基づいて空間的音声環境を創造する段階
とから成ることを特徴とする方法。