JP2022531067A

JP2022531067A - 多数のヘッドセット間の音声空間化および強化

Info

Publication number: JP2022531067A
Application number: JP2021553794A
Authority: JP
Inventors: ウィリアムオーウェン，ザセカンドブリミジョイン，; アンドリューロビット，; フィリップロビンソン，
Original assignee: Facebook Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-05-07
Filing date: 2020-05-05
Publication date: 2022-07-06
Anticipated expiration: 2040-05-05
Also published as: TW202105930A; US10873825B2; CN113796097A; EP3922048A1; EP3922048B1; JP7551639B2; KR20220005564A; WO2020227254A1; US10708706B1; US20200359158A1

Abstract

共有通信チャネルは、多数のユーザ間の音声コンテンツの送信および受信を可能にする。それぞれのユーザは、他のユーザのヘッドセットに対する音声データの送信および受信を行うように構成されるヘッドセットと関連付けられる。第１のユーザのヘッドセットが第２のユーザに対応する音声データを受信した後、ヘッドセットは、第１のユーザおよび第２のユーザの相対位置に基づいて音声データを空間化することで、音声データが第１のユーザに提示される時に、音声データの音が第２のユーザに対応する場所で生じるように思えるようにする。ヘッドセットは、第２のユーザの場所と第１のユーザの視線方向との間の偏差に基づいて音声データを強化することで、第１のユーザが、注意を向けている他のユーザからの音声データをより明確に聞くことができるようにする。【選択図】図６

Description

関連出願の相互参照
本出願は、２０１９年５月７日に出願された米国特許出願第１６／４０５，９５０号の優先権を主張するものであり、この内容全体はあらゆる目的で参照により本明細書に組み込まれる。

本開示は一般的に、共有通信チャネル上のユーザ間の音声通信に関し、具体的には、共有通信チャネルの多数の異なるユーザ間で送信される音声信号の空間化および強化に関する。

多数のサウンドソースがある環境では、リスナーは、他のサウンドソースからの音源を聞こえなくしている間、特定のサウンドソースに合わせる際の障害に遭遇する場合がある。例えば、多数の人達が同時に話しているにぎやかな部屋では、リスナーが、この部屋において特定の話し手の言葉を他の話し手の話し声の中で認識することは難しい可能性がある。この現象はカクテルパーティ問題として知られている。場合によっては、異なるサウンドソース、例えば、話し手は、聞こえるようにリスナーに送信される彼らの発話を記録するマイクロホンを有する場合がある。しかしながら、リスナーが、特に多数のサウンドソースが存在する時に話し声の音源をはっきりさせる、または異なるサウンドソースの間で注意を切り換えることは困難であり得る。

実施形態は、多数のユーザの間で音声コンテンツを送信しかつ受信するための共有通信チャネルの確立に関する。それぞれのユーザは、他のユーザのヘッドセットに対する音声データの送信および受信を行うように構成されるヘッドセットと関連付けられる。第１のユーザのヘッドセットは、第２のユーザに対応する音声データを受信することに応答して、第１のユーザおよび第２のユーザの相対位置に基づいて音声データを空間化することで、第１のユーザに提示される音声データが第２のユーザに対応する場所で生じるように思えるようにする。ヘッドセットはまた、第１のユーザの視線方向など、第２のユーザの場所と強化方向との間の偏差に基づいて音声データを強化することができることで、第１のユーザは、注意を向けている他のユーザからの音声データをより明確に聞くことが可能になる。

いくつかの実施形態では、ヘッドセットが説明される。ヘッドセットは、ヘッドセットを着用している第１のユーザの視線方向を判定するように構成される視線判定システムを含む。ヘッドセットは、第２のユーザと関連付けられた音声データを受信するように構成される受信機であって、音声データは音声出力信号を含む、受信機をさらに含む。ヘッドセットは、第１のユーザに対する第２のユーザと関連付けられた相対位置を特定し、かつ第１のユーザの視線方向に対する第２のユーザの特定された相対位置の偏差を判定するように構成される処理回路網をさらに含む。処理回路網は、第２のユーザと関連付けられた相対位置に基づいて、第２のユーザと関連付けられた音声出力信号を空間化する。処理回路網は、さらに、閾値内にいる第１のユーザの視線方向に対する第２のユーザの特定された位置の偏差に応答して、偏差に基づいて音声出力信号の振幅を増幅してよい。ヘッドセットは、空間化されかつ強化された音声出力信号を１または複数の話し手に送って出力音を作り出すことで、出力音が第２のユーザの位置で生じていると感知されるように出力音が第１のユーザにレンダリングされるように構成される音声出力インターフェースをさらに含む。

方法は音声システムによって行われてよい。例えば、音声システムはヘッドセットの一部（例えば、ニアアイディスプレイ、ヘッドマウントディスプレイ）である。音声システムは、マイクロホンアセンブリ、トランシーバ、コントローラ、およびスピーカアセンブリ（例えば、ラウドスピーカアレイ）を含む。

本発明による実施形態は、とりわけ、ヘッドセット、方法、および記憶媒体を対象とした添付の特許請求の範囲に開示され、ここで、１つの特許請求項の分類において述べられる任意の特徴、例えば、ヘッドセットは、別の特許請求項の分類、例えば、方法、記憶媒体、システム、およびコンピュータプログラム製品においても特許請求され得る。添付の特許請求の範囲に対する従属関係または参照は、単に形式的な理由で選ばれている。しかしながら、添付の特許請求の範囲で選ばれた従属関係に関わらず、請求項およびその特徴の任意の組み合わせが、開示され、かつ特許請求できるように、任意の前の請求項（とりわけ、多数項従属）への意図的な参照から生じるいずれの主題も特許請求可能である。特許請求可能である主題は、添付の特許請求の範囲に記載される特徴の組み合わせだけでなく、特許請求の範囲における特徴の任意の他の組み合わせも含み、特許請求の範囲に述べられるそれぞれの特徴は任意の他の特徴または特許請求の範囲における他の特徴の組み合わせと組み合わせ可能である。さらに、本明細書に説明されるまたは描写される実施形態および特徴のいずれかは、別々の請求項において、および／または本明細書に説明されるまたは描写される任意の実施形態もしくは特徴との、または添付の特許請求項の特徴のいずれかとの任意の組み合わせにおいて特許請求可能である。

一実施形態では、ヘッドセットは、
ヘッドセットの第１のユーザの視線方向を判定するように構成される視線判定回路と、
第２のユーザのヘッドセットと関連付けられる音声信号を受信するように構成されるトランシーバと、
第１のユーザに対する第２のユーザと関連付けられた相対位置を判定すること、第１のユーザの強化方向に対する第２のユーザの位置の偏差を判定することであって、強化方向は第１のユーザの視線方向に少なくとも部分的に基づく、偏差を判定すること、第２のユーザと関連付けられた相対位置に少なくとも部分的に基づいて第２のユーザと関連付けられた音声信号を空間化すること、および、第１のユーザの強化方向に対する第２のユーザの特定された位置の偏差に少なくとも部分的に基づいて音声出力信号の振幅を増幅することを行うように構成される処理回路網と、
空間化されかつ強化された音声出力信号に基づく音を投射することで、投射された音が第２のユーザの位置で生じるように感知されるように構成されるスピーカアセンブリと、を備えてよい。

一実施形態では、ヘッドセットは、複数の異なる場所に配置される複数のマイクロホンを含むマイクロホンアレイを備えてよく、マイクロホンアレイは、第１のユーザのローカルエリアで音をキャプチャし、かつ音声入力信号を生成するように構成されてよい。

処理回路網は、音声入力信号を解析して、第１のユーザのローカルエリアにおける特定の領域から生じる音を特定するように、および、特定の領域から生じる音に対応する音声入力信号の一部分を強化することによって音声入力信号からユーザ音声信号を生成するように構成されてよい。

特定の領域は第１のユーザの口に対応し得る。

トランシーバは第２のユーザの位置情報を受信するように構成されてよい。

一実施形態では、ヘッドセットは、第１のユーザに対する第２のユーザと関連付けられた相対位置を判定するように構成されるアンテナアレイを備えてよい。

処理回路網は、第１のユーザと第２のユーザとの間に見通し線があるかどうかに基づいて音声出力信号を空間化するように構成されてよい。

視線判定回路は、第１のユーザの位置を受信することであって、位置は、少なくとも、第１のユーザの頭の向きを含む、位置を受信すること、および、第１のユーザの頭に対する第１のユーザの眼の相対的な向きを判定することを行うように構成されてよく、第２のユーザと関連付けられた音声出力信号を空間化することは、第１のユーザの頭の向きに対する第２のユーザの位置の相対方向に基づく。

受信機は第３のユーザから第２の音声信号を受信するように構成されてよく、処理回路網は、第１のユーザに対する第３のユーザと関連付けられた相対位置を特定すること、第１のユーザの強化方向に対する第３のユーザの特定された相対位置の偏差を判定すること、第３のユーザの特定された相対位置の偏差を第２のユーザの特定された相対位置の偏差と比較すること、および、比較の結果に基づいて第３のユーザと関連付けられた第２の音声信号の振幅を増幅すること、を行うように構成されてよい。

一実施形態では、方法は、
第１のユーザのヘッドセットにおいて、第１のユーザの強化方向を判定することと、
第１のユーザのヘッドセットにおいて、第２のユーザのヘッドセットと関連付けられた音声信号を受信することと、
第１のユーザに対する第２のユーザと関連付けられた相対位置を特定することと、
第１のユーザの強化方向に対する第２のユーザの特定された相対位置の偏差を判定することと、
第２のユーザと関連付けられた相対位置に少なくとも部分的に基づいて、第２のユーザと関連付けられた音声信号を空間化することと、
第１のユーザの強化方向に対する第２のユーザの特定された位置の偏差に少なくとも部分的に基づいて、音声出力信号の振幅を増幅することと、
空間化されかつ強化された音声出力信号に基づいて音を投射することで、投射された音が第２のユーザの位置で生じるように感知されるようにすることと、を含んでよい。

一実施形態では、方法は、第１のユーザのローカルエリアで音をキャプチャし、かつ音声入力信号を生成するために複数の異なる場所に配置される複数のマイクロホンを含むマイクロホンアレイを使用することを含んでよい。

一実施形態では、方法は、
音声入力信号を解析して、第１のユーザのローカルエリアにおける特定の領域から生じる音を特定することと、
特定の領域から生じる音に対応する音声入力信号の一部分を強化することによって音声入力信号からユーザ音声信号を生成することと、を含んでよい。

特定の領域は第１のユーザの口に対応し得る。

一実施形態では、方法は、第２のユーザの位置情報を受信することを含んでよい。

一実施形態では、方法は、アンテナアレイにおいて、第２のユーザのヘッドセットから信号を受信することと、受信された信号に基づいて第１のユーザに対する第２のユーザと関連付けられた相対位置を判定することと、を含んでよい。

音声出力信号を空間化することは、第１のユーザと第２のユーザとの間に見通し線があるかどうかに基づいてよい。

第１のユーザの強化方向を判定することは、第１のユーザの位置を受信することであって、位置は、少なくとも、第１のユーザの頭の向きを含む、第１のユーザの位置を受信すること、第１のユーザの頭に対する第１のユーザの眼の相対的な向きを判定すること、ならびに、頭の向き、および第１のユーザの頭に対する第１のユーザの眼の相対的な向きに基づいて視線方向を判定することによって、第１のユーザの視線方向を判定することを含んでよく、第２のユーザと関連付けられた音声出力信号を空間化することは、第１のユーザの向きに対する第２のユーザの位置の相対方向に基づく。

一実施形態では、方法は、
第３のユーザから第２の音声信号を受信することと、
第１のユーザに対する第３のユーザと関連付けられた相対位置を特定することと、
第１のユーザの強化方向に対する第３のユーザの特定された相対位置の偏差を判定することと、
第３のユーザの特定された相対位置の偏差を第２のユーザの特定された相対位置の偏差と比較することと、
比較の結果に基づいて第３のユーザと関連付けられた第２の音声信号の振幅を増幅することと、を含んでよい。

一実施形態では、非一時的なコンピュータ可読媒体は、１つまたは複数のプロセッサによって実行される時、１つまたは複数のプロセッサに、
第１のユーザのヘッドセットにおいて、第１のユーザの強化方向を判定すること、
第１のユーザのヘッドセットにおいて、第２のユーザのヘッドセットと関連付けられた音声信号を受信すること、
第１のユーザに対する第２のユーザと関連付けられた相対位置を特定すること、
第１のユーザの強化方向に対する第２のユーザの特定された相対位置の偏差を判定すること、
第２のユーザと関連付けられた相対位置に少なくとも部分的に基づいて、第２のユーザと関連付けられた音声信号を空間化すること、
第１のユーザの強化方向に対する第２のユーザの特定された位置の偏差に少なくとも部分的に基づいて、音声出力信号の振幅を増幅すること、および、
空間化されかつ強化された音声出力信号に基づいて音を投射することで、投射された音が第２のユーザの位置で生じるように感知されるようにすること、を含む動作を行わせることができる命令を記憶してよい。

一実施形態では、１つまたは複数のコンピュータ可読非一時的記憶媒体は、実行される時、上述される実施形態のいずれかによるまたはこの範囲内の方法を実行するように動作可能であるソフトウェアを具現化することができる。

一実施形態では、システムは、１つまたは複数のプロセッサと、プロセッサに結合され、かつプロセッサによって実行可能な命令を含む少なくとも１つのメモリと、を含んでよく、プロセッサは、命令を実行する時、上述される実施形態のいずれかによるまたはこの範囲内の方法を実行するように動作可能である。

一実施形態では、好ましくは、コンピュータ可読非一時的記憶媒体を含むコンピュータプログラム製品は、データ処理システム上で実行される時、上述される実施形態のいずれかによるまたはこの範囲内の方法を実行するように動作可能であってよい。

１つまたは複数の実施形態による、音声空間化および強化のためのシステムが使用可能である環境の高レベルの図である。１つまたは複数の実施形態による、共有通信チャネルにおいてユーザが着用し得る音声システムを含むヘッドセットを示す一例である。１つまたは複数の実施形態による音声システムのブロック図である。１つまたは複数の実施形態による、共有通信チャネルによる複数のユーザを有する環境の一例を示す図である。１つまたは複数の実施形態によるユーザ音声信号をフィルタリングすることを示す図である。１つまたは複数の実施形態による、共有通信チャネルにおける他のユーザからの受信される音声データを空間化しかつ強化するためのプロセスのフローチャートである。１つまたは複数の実施形態による、ユーザの声に対応する音声信号を処理するためのプロセスのフローチャートである。１つまたは複数の実施形態による、上述される音声システムを含むヘッドセットのシステム環境を示す図である。

図では、例示のみの目的で本発明のさまざまな実施形態を図示する。本明細書に示される構造および方法の代替的な実施形態が、本明細書に説明される発明の原理から逸脱することなく用いられ得ることを、当業者は以下の論述から容易に認識するであろう。

実施形態は、多数の音源から音声信号を受信するように、かつユーザ（例えば、ヘッドセットの着用者）に対して受信された音声信号を再生するように構成される音声システムを有するヘッドセットに関する。音声システムは、音源の相対的な場所に基づいて特定の音源から受信される音声信号を空間化することで、ユーザに対して再生される音声信号が音源の場所から生じるように思えるようにする。いくつかの実施形態では、音声システムは、ある特定の音源から受信される音声データを強調し、かつユーザが異なる音源の間で注意を切り換えできるようにするために、音源の場所およびユーザの強化方向（例えば、視線方向）に基づいて音源から受信される音声信号を強化する。

いくつかの実施形態では、共有通信チャネルは、ローカルエリア内の複数のユーザの間で確立される。それぞれは、共有通信チャネルにおいて他のユーザと通信する（例えば、音声信号を送信しかつ受信する）ためのトランシーバを含むヘッドセットを着用する。それぞれのヘッドセットはまた、このユーザの位置および視線方向を追跡するように構成されるセンサを含み、該センサは、共有通信チャネルの他のユーザの相対位置、および、他のユーザの位置がユーザの視線方向にどのように関連しているかを判定するために使用可能である。

ヘッドセットは、共有通信チャネルの他のユーザの相対位置に基づいて共有通信ネットワークの他のユーザから受信される音声信号を処理することで、音声信号が、ユーザに対して再生される時、他のユーザに対応する場所から生じるように思えるようになる。音声信号はまた、ユーザの強化方向と合致した場所における他のユーザからの音声信号がより強力に強化され得る、（ユーザの視線方向に基づいてよく、かつユーザが注目しているのは他のユーザの誰かを推論するために使用可能である）ユーザの強化方向に基づいて、強化される。例えば、第１のユーザは、共有通信チャネルの他のユーザのそれぞれから音声信号を受信し、該音声信号は、第１のユーザに対する他のユーザのそれぞれの相対位置を指示するために空間化され、（例えば、視線方向によって判定されるように）第１のユーザが現在見ているのは他のユーザの誰かに基づいて強化される。

さらに、ヘッドセットは、ユーザ自身の発話を記録するためのマイクロホンを含む。ユーザ自身の発話はさらにまた、共有通信チャネルにおいて他のユーザのヘッドセットに送信可能である。また、ユーザ自身の発話は、いくつかの実施形態では、ユーザが自身の声の音量を加減することを支援するようにユーザに対して再生可能である。

さまざまな実施形態は、人工現実システムを含んでよい、またはこれと併せて実装可能である。人工現実は、ユーザに提示する前のあるやり方で調節されている現実の形態であり、これは、例えば、仮想現実（ＶＲ）、拡張現実（ＡＲ）、複合現実（ＭＲ）、ハイブリッド現実、またはこれらの何らかの組み合わせおよび／もしくは派生形を含んでよい。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされた（例えば、現実世界の）コンテンツと組み合わせて生成されたコンテンツを含んでよい。人工現実コンテンツは、ビデオ、音声、触覚フィードバック、もしくはこれらの何らかの組み合わせ、および（見る人に対して３次元効果を作り出すステレオビデオなど）単一のチャネルまたは多数のチャネルにおいて提示されてよいもののいずれかを含んでよい。さらに、いくつかの実施形態では、人工現実はまた、例えば、人工現実においてコンテンツを作成するために使用される、および／または、その他の場合、人工現実において使用される（例えば、人工現実においてアクティビティを行う）、アプリケーション、製品、アクセサリ、サービス、またはこれらの何らかの組み合わせと関連付けられてよい。人工現実コンテンツを提供する人工現実システムは、ホストコンピュータシステムに接続されるヘッドマウントディスプレイ（ＨＭＤ）、スタンドアロンＨＭＤ、モバイル機器もしくはコンピューティングシステム、または、一人または複数人の見る人に人工現実コンテンツを提供することが可能な任意の他のハードウェアプラットフォームを含む、さまざまなプラットフォーム上で実装されてよい。

図１は、１つまたは複数の実施形態による、音声システム１１５を含む環境の高レベルの図を示す。音声システム１１５は、ユーザ１０５Ａが着用可能であるヘッドセット１１０の一部として統合されてよい。

音声システム１１５を含んでいるヘッドセット１１０を着用するユーザ１０５Ａは、複数の他のユーザ（ユーザ１０５Ｂ、１０５Ｃ、１０５Ｄ、および１０５Ｅ）の近くの環境内にいる。ユーザ１０５Ａ～Ｅは、ユーザ１０５と総称されてよい。ユーザは互いに話をする場合があり、そのため、それぞれが音源に対応するとみなされ得る。さらに、追加の音源が環境において提示され得る。互いに近い多数の音源がある環境では、ユーザ１０５Ａが任意の特定の音源（例えば、環境における特定の他のユーザによる発話）に集中することは困難である場合がある。

環境におけるユーザ間の会話を容易にするために、それぞれのユーザは対応する音声システムを有する対応するヘッドセットを着用している場合がある。音声システム１１５は、他のユーザの発話に対応する音声信号を受信するために他のヘッドセットの音声システムと通信し、かつユーザ１０５Ａに対して音声信号を再生する。これによって、ユーザ１０５Ａは他のユーザの発話をより明確に聞くことが可能になり得る。さらに、音声システム１１５は、ユーザ１０５に対して再生される音声信号が空間化されることで、再生された音が他のユーザの場所から生じたように感知されるように、受信された音声信号を処理する。再生された音声信号はまた、他のユーザのうちの誰をユーザ１０５が現在見ているかに基づいて強化され得る。

いくつかの実施形態では、複数のユーザは共有通信チャネルを確立してよい。例えば、図１は、３人のユーザを有する第１の共有通信チャネル１２０Ａ、および２人のユーザを有する第２の共有通信チャネル１２０Ｂを示す。共有通信チャネル１２０は、互いに会話したいと願うユーザの特定のグループに対応し得る。例えば、共有通信チャネル１２０は、互いに対して一定の近さの範囲内の（例えば、同じテーブルに座る）何人かのユーザを含んでよい。本明細書で使用されるように、共有通信チャネルは、それぞれが対応する音声システムと関連付けられた多数のユーザのグループ分けを指す場合があり、この場合、それぞれのユーザの音声システムは、グループ内の他のユーザのそれぞれの音声システムと通信することができる。例えば、共有通信チャネル１２０Ａの３人のユーザ１０５Ａ、１０５Ｂ、および１０５Ｃのそれぞれは、互いに通信する対応する音声システムを有し、共有通信チャネル１２０Ｂの２人のユーザ１０５Ｄおよび１０５Ｅのそれぞれは、互いに通信する対応する音声システムを有する。

いくつかの実施形態では、共有通信チャネルは１または複数のリモートユーザを含んでよい。共有通信チャネルは、（例えば、特定の部屋、建物などに対応する）特定の地理的地域内の複数のユーザを含んでよい。いくつかの実施形態では、地理的地域は、壁などの１つまたは複数の構造物に基づいて画定され得る。本明細書で使用される際、リモートユーザは、チャネルに対応する地理的地域外に位置する共有通信チャネルに参加しているユーザに対応し得る。例えば、共有通信チャネルは、共通のテーブルに座るユーザのグループ、および、異なる建物に位置する１または複数のさらなるリモートユーザを含んでよい。

図１は、別個の領域に対応するようなそれぞれの共有通信チャネル１２０Ａおよび１２０Ｂを示し、いくつかの実施形態では、異なる共有通信チャネルは重複する領域をカバーする。例えば、共有通信チャネル１２０Ｂのユーザは、共通の領域内の共有通信チャネル１２０Ａのユーザと入り混じっている場合がある。いくつかの実施形態では、特定のユーザは、複数の共有通信チャネル（例えば、両方の共有通信チャネル１２０Ａおよび１２０Ｂ）の一部であってよい。

いくつかの実施形態では、共有通信チャネル１２０は、情報の交換を通して１または複数のユーザのグループによって確立され得る。例えば、第１のユーザは、（例えば、第２のユーザが着用するヘッドセット、またはバッジなどのスキャン可能なオブジェクトに基づいて）第２のユーザに対応する情報をスキャンする（例えば、これらの対応するヘッドセット１１０または他のスキャン装置を使用する）ことによって第２のユーザと共通の共有通信チャネルに参加することができる。いくつかの実施形態では、共有通信チャネルは、少なくとも、第１のユーザおよび第２のユーザのヘッドセット間で確立されるピアツーピアネットワークの一部として実装される。

いくつかの実施形態では、１または複数のユーザ１０５は、ネットワーク１２５を介してアプリケーションサーバ１３０にアクセスする。ネットワークは、インターネット、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、移動有線もしくは無線ネットワーク、プライベートネットワーク、仮想プライベートネットワーク、またはこれらの組み合わせを含んでよい。

アプリケーションサーバ１３０は、異なるユーザのヘッドセット間の通信を容易にする１つまたは複数のアプリケーションを含んでおり、かつ、オンラインシステム、ローカルコンソール、またはこれらの何らかの組み合わせに対応し得る。例えば、アプリケーションサーバ１３０は、２人以上のユーザ間の共有通信チャネルを確立するアプリケーションを含んでおり、かつ確立された共有通信チャネルに対応するメタデータを維持することができ、オンラインシステムを含み得る。それぞれのユーザは、アプリケーションサーバ１３０上のオンラインシステムにログオンし、かつ通信することを願う１または複数の他のユーザを指示してよい。いくつかの実施形態では、２人のユーザ１０５の間の接続は、両方のユーザが他のユーザと通信することを望んでいることを指示する場合、確立されてよい。グループのそれぞれのユーザがグループの他のユーザのそれぞれに接続される共有通信チャネルが、ユーザのそれぞれのグループのために形成されてよい。

他の実施形態では、第１のユーザは、共有通信チャネル１２０を確立してよく、さらにまた、これには追加のユーザが参加可能である。例えば、第１のユーザは、追加のユーザのそれぞれに、パスコード、または追加のユーザがアプリケーションサーバ１３０を介して共有通信チャネルに参加できるようにするための他のタイプの認証を与える（例えば、追加のユーザに口頭でまたは書面でパスコードを与える、または、ユーザインターフェースを介して第１のユーザによって指示されるパスコードを追加のユーザのヘッドセットに送信する）ことができる。いくつかの実施形態では、アプリケーションサーバ１３０は、共有通信チャネル１２０を維持し、かつ（例えば、新たなユーザがチャネルに参加する場合、または既存のユーザがチャネルを出る場合）チャネルの現在の状況に関するチャネルの更新をそれぞれのユーザのヘッドセットに送信する。いくつかの実施形態では、アプリケーションサーバ１３０は、共有通信チャネル１２０に対応する情報を維持するために、およびそれぞれのユーザのヘッドセットに共有通信チャネルに関する現在の状況の情報を送信するために使用されるが、ヘッドセット間の音声データの通信はピアツーピアで行われてよい。

いくつかの実施形態では、アプリケーションサーバ１３０はソーシャルネットワーキングシステムを含む。ソーシャルネットワーキングシステムは、異なるユーザ間の関係（例えば、友人関係）を指示するソーシャルグラフまたは他のデータ構造を維持することができる。いくつかの実施形態では、ソーシャルネットワーキングシステム上の特定のタイプの関係を有するユーザのみが共有通信チャネルを形成するために互いとの接続を確立してよい。いくつかの実施形態では、アプリケーションサーバ１３０によって維持されるソーシャルグラフは、多数のユーザ間の共有通信チャネル１２０を自動的に確立するために使用されてよい。例えば、全員が特定の地理的地域内に位置し、かつ全員が互いとの特定のタイプのソーシャルネットワーク関係を有するユーザのグループは、共有通信チャネルに自動的に含まれてよい。

いくつかの実施形態では、アプリケーションサーバ１３０の機能の一部または全ては、ローカルコンソールによって実行されてよい。例えば、ローカルコンソールは、ローカル環境における異なるユーザ１０５に対応する多数のヘッドセット１１０に接続し、かつ、環境におけるユーザのグループ間の１または複数の共有通信チャネルを維持することができる。いくつかの実施形態では、１つまたは複数のヘッドセット１０５は、ローカルコンソールを通してアプリケーションサーバ１３０に接続し得る。

図２は、１つまたは複数の実施形態による、共有通信チャネルにおいてユーザが着用し得る音声システムを含むヘッドセット１１０を示す一例である。ヘッドセット１１０は媒体をユーザに提示する。１つの実施形態では、ヘッドセット１１０はニアアイディスプレイ（ＮＥＤ）であってよい。別の実施形態では、ヘッドセット１１０はヘッドマウントディスプレイ（ＨＭＤ）であってよい。一般に、ヘッドセットは、ヘッドセットの１つまたは両方のレンズ２１０を使用してコンテンツ（例えば、媒体コンテンツ）が提示されるようにユーザ（例えば、ユーザ１０５）の顔面に着用され得る。しかしながら、ヘッドセット１１０はまた、媒体コンテンツが異なるやり方でユーザに提示されるように使用されてよい。ヘッドセット１１０によって提示される媒体コンテンツの例として、１つまたは複数の画像、ビデオ、音声、またはこれらの何らかの組み合わせが挙げられる。ヘッドセット１１０は、音声システムを含み、かついくつかある構成要素の中で特に、フレーム２０５、レンズ２１０、カメラアセンブリ２３５、位置センサ２４０、視標追跡センサ２４５、ならびに、音声システムおよびヘッドセット１１０のさまざまな他のセンサを制御するためのコントローラ２１５を含んでよい。図２はヘッドセット１１０の例示の場所にヘッドセット１１０の構成要素を示すが、構成要素はヘッドセット１１０上、ヘッドセット１１０と対になった周辺機器上、またはこれらの何らかの組み合わせのその他の所に位置し得る。

ヘッドセット１１０は、ユーザの視覚を矯正もしくは拡張し、ユーザの眼を保護し、またはユーザに画像を提供することができる。ヘッドセット１１０は、ユーザの視力の障害を矯正する眼鏡であってよい。ヘッドセット１１０は、ユーザの眼を太陽から保護するサングラスであってよい。ヘッドセット１１０はユーザの眼を衝撃から保護する安全眼鏡であってよい。ヘッドセット１１０は夜間のユーザの視覚を拡張するための暗視装置または赤外線ゴーグルであってよい。ヘッドセット１１０はユーザに対する人工現実コンテンツを作り出すニアアイディスプレイであってよい。代替的には、ヘッドセット１１０は、レンズ２１０を含まなくてもよく、ユーザに音声コンテンツ（例えば、音楽、ラジオ、ポッドキャスト）を提供する音声システムを有するフレーム２０５であってよい。

レンズ２１０はヘッドセット１１０を着用するユーザに光を提供するまたは伝える。レンズ２１０は、ユーザの視力の障害の矯正に役立つ度付きレンズ（例えば、単焦点、二焦点および三焦点、または累進多焦点）であってよい。度付きレンズは、ヘッドセット１１０を着用するユーザに環境光を伝える。伝えられた環境光は、ユーザの視力の障害を矯正するための度付きレンズによって改変され得る。レンズ２１０は、ユーザの眼を太陽から保護するための偏光レンズまたは色付きレンズであってよい。レンズ２１０は、画像光が、導波路の端部または縁部を通してユーザの眼に結合される導波路ディスプレイの一部としての１つまたは複数の導波路を有してよい。レンズ２１０は、画像光を提供するための電子ディスプレイを含んでよく、また、電子ディスプレイからの画像光を拡大するための光学ブロックを含んでよい。

いくつかの実施形態では、ヘッドセット１１０は、ヘッドセット１１０を取り囲むローカルエリアについての視覚情報をキャプチャするカメラアセンブリ２３５を含むことができる。いくつかの実施形態では、カメラアセンブリ２３５は、ローカルエリアについての深さ情報を表すデータをキャプチャする深度カメラアセンブリ（ＤＣＡ）に対応する。いくつかの実施形態では、ＤＣＡは、ライトプロジェクタ（例えば、構造化光および／または飛行時間のフラッシュ照明）、イメージングデバイス、およびコントローラを含んでよい。キャプチャされたデータは、ライトプロジェクタによってローカルエリアに投射された光のイメージングデバイスによってキャプチャされた画像であってよい。１つの実施形態では、ＤＣＡは、ステレオおよびコントローラにおけるローカルエリアの一部分をキャプチャするために配向される２つ以上のカメラを含んでよい。キャプチャされたデータは、ステレオにおけるローカルエリアの２つ以上のカメラによってキャプチャされた画像であってよい。コントローラは、キャプチャされたデータおよび深度判定技法（例えば、構造化光、飛行時間、立体画像生成など）を使用してローカルエリアの深さ情報を計算する。深さ情報に基づいて、コントローラ２１５は、ローカルエリア内のヘッドセット１１０の絶対位置情報を判定することが可能であってよい。ＤＣＡは、ヘッドセット１１０と統合されてよい、またはヘッドセット１１０の外部のローカルエリア内に位置付けられてよい。後者の実施形態では、ＤＣＡのコントローラは、ヘッドセット１１０のコントローラ２１５に深さ情報を送信してよい。

位置センサ２４０は、１つまたは複数の測定信号を生成し、かつ生成された信号に基づいてヘッドセット１１０の現在の位置を推定するように構成される。いくつかの実施形態では、ヘッドセット１１０の現在の位置は、ヘッドセット１１０の初期位置に対して判定される。推定された位置は、ヘッドセット１１０の場所および／もしくはヘッドセット１１０またはヘッドセット１１０を着用するユーザの頭の向き、またはこれらの何らかの組み合わせを含んでよい。例えば、向きは基準点に対してそれぞれの耳の位置に対応し得る。カメラアセンブリ２３５がＤＣＡを含むいくつかの実施形態では、位置センサ２４０は、ヘッドセット１１０の現在の位置を推定するためにＤＣＡからの深さ情報および／または絶対位置情報を使用する。位置センサ２４０は、並進運動（前方／後方、上／下、左／右）を測定するための１つまたは複数の加速度計、および回転運動（例えば、ピッチ、ヨー、ロール）を測定するための１つまたは複数のジャイロスコープを含んでよい。いくつかの実施形態では、位置センサ２４０は、１つまたは複数の磁力計など、運動を検出するために使用可能である他のタイプのセンサを含む。

いくつかの実施形態では、位置センサ２４０は、受信された測定信号を急速にサンプリングしかつサンプリングされたデータからヘッドセット１１０の推定された位置を算出する慣性測定装置（ＩＭＵ）を含む。例えば、ＩＭＵは、経時的に加速度計から受信された測定信号を統合して速度ベクトルを推定し、かつ経時的に速度ベクトルを統合してヘッドセット１１０の基準点の推定された位置を判定する。基準点はヘッドセット１１０の位置を表すために使用されてよい点である。基準点は一般的に空間の点として定められ得るが、実際には、基準点はヘッドセット１１０内の点として定められる。いくつかの実施形態では、ＩＭＵは、位置センサ２４０の代わりにローカルコントローラ２１５の一部分として実装されてよい。

視標追跡センサ２４５は、ユーザの視線方向を判定するために使用可能なセンサの読み取り（例えば、ユーザの眼のキャプチャされた画像）を提供するように構成される。ヘッドセット１１０を着用する時、ユーザの眼はその頭部に対して移動することができることで、ユーザは自分の頭を移動させる必要なく異なる方向を見ることができる。そのように、ユーザは、（例えば、位置センサ２４０によって判定されるように）ヘッドセット１１０の位置および向きに対して直接的な前とは異なる方向を見ている場合がある。

いくつかの実施形態では、視標追跡センサ２４５は、ユーザの眼の向きを判定するように構成される視標追跡センサを含む。視標追跡センサは、ヘッドセット１１０に対するユーザの眼の向きを判定するためにユーザの眼の画像をキャプチャしかつ解析する。いくつかの実施形態では、視標追跡センサは、１つまたは複数の光源および１つまたは複数のカメラを含む。１つまたは複数の光源は、ＩＲ光、例えば、（例えば、飛行時間深さ判定に使用される）赤外線フラッシュ、構造化光パターン（例えば、ドットパターン、バーパターンなど）、グリントパターンなどで眼を照らす。光源は、例えば、垂直共振器面発光レーザ、発光ダイオード、マイクロＬＥＤ、赤外光ＩＲのその他の光源、またはこれらの何らかの組み合わせであってよい。１つまたは複数のカメラは、１つまたは複数の光源からのＩＲ光で照らされた眼の片目または両目の画像をキャプチャするように構成される。カメラは、１つまたは複数の光源から放出される光を検出するように構成される画像センサ（例えば、相補型金属酸化膜半導体、電荷結合素子など）を含む。いくつかの実施形態では、カメラはまた、他の帯域（例えば、可視帯）における光を検出することが可能であってよい。視標追跡センサは、キャプチャされた画像および深度判定技法を使用してユーザの眼の片目または両目の眼の向きを判定する。深度判定技法は、例えば、構造化光、飛行時間、立体画像生成、当業者にはよく知られているその他の深度判定手順を含んでよい。いくつかの実施形態では、視標追跡センサは、キャプチャされた画像およびユーザの眼のモデルに基づいて眼の向きを判定する。

視標追跡センサによって判定された眼の向きは、ユーザの視線方向を判定するために（例えば、位置センサ２４０を使用して判定されるように）ヘッドセット１１０の判定された位置と組み合わせられてよい。例えば、（ユーザの頭に対する眼の向きを指示する）ユーザの眼の向きに対応するベクトルは、（ローカル環境においてユーザが見る方向を指示する）ユーザの視線方向に対応するベクトルを判定するために（ローカル環境内のヘッドセットの位置および向きを指示する）ヘッドセットの位置に対応するベクトルに追加可能である。ユーザの視線方向を判定することによって、環境においてユーザが見ている方向が特定され、これによって、共有通信チャネルの他のユーザの位置を知ることを組み合わせて、他のユーザの誰の方をユーザは見ているかに関する判定を可能にすることができる。

いくつかの実施形態では、視標追跡センサ２４５は、さらに、カメラのＦＯＶ内のローカルエリアを示すカメラアセンブリ２３５のカメラからの１つまたは複数の画像を受信し、かつ判定された眼の向きを受信された画像内の場所にマッピングする。いくつかの実施形態では、モジュールは、１つまたは複数の画像内の１つまたは複数のオブジェクト（例えば、他のユーザ）を特定するためにオブジェクト認識を使用し、かつ判定された眼の向きを１つまたは複数の特定されたオブジェクトにマッピングする。

ヘッドセット１１０の音声システムは、ユーザが共有通信チャネル１１０内の他のユーザと通信できるように構成される。いくつかの実施形態では、音声システムは、マイクロホンアセンブリ２２５、トランシーバ２３０、１つまたは複数のスピーカを有するスピーカアセンブリ、およびコントローラ２１５を含む。コントローラ２１５は、ヘッドセット１１０のさまざまな構成要素間の動作を調整するように構成される。例えば、コントローラ２１５は、ユーザの発話に対応する音声データをキャプチャして、トランシーバ２３０を介して共有通信チャネル内の他のユーザに送信されるようにマイクロホンアセンブリ２２５を制御することができる。さらに、コントローラ２１５は、トランシーバ２３０を介して、共有通信チャネルの他のユーザに対応する音声データを受信し、かつ（例えば、位置センサ２４０によって判定されるように）ユーザの現在の位置に対する他のユーザの相対位置に基づいて受信された音声データを処理する（例えば、音声データを空間化するおよび／または強化する）ことができる。処理された音声データはスピーカアセンブリを使用してユーザに対して再生可能である。音声システムに関するさらなる詳細は図３に関して論述される。

マイクロホンアセンブリ２２５はヘッドセット１１０のローカルエリア内の音を記録する。ローカルエリアはヘッドセット１１０を取り囲む環境である。例えば、ローカルエリアは、ヘッドセット１１０を着用するユーザが中にいる部屋であってよく、またはヘッドセット１１０を着用するユーザは外部にいてよく、ローカルエリアは、マイクロホンアセンブリが音を検出できる外部域である。マイクロホンアセンブリ２２５は１つまたは複数の音響センサを含む。いくつかの実施形態では、音響センサは、ヘッドセット１１０のユーザによる発話を記録するように構成される。そのようにするために、音響センサはユーザの口の近くに位置してよく、かつユーザから生じない他の音をキャプチャすることを回避するために短いキャプチャ範囲を有してよい。いくつかの実施形態では、音響センサは、ユーザの口のより近くに位置するように、別個のマウスピースまたは他の構造体上に位置してよい。

いくつかの実施形態では、音響センサは、ヘッドセット１１０のフレーム２０５におけるアパーチャに対応するポートを含む。ポートは、音響センサに音を案内する、ローカルエリアから音響導波路への音のインカップリング箇所を提供する。音響センサは、ローカルエリアにおける１つまたは複数のサウンドソースから放出される音をキャプチャし、および音を検出し、かつ検出された音を電子フォーマット（アナログまたはデジタル）に変換するように構成される。音響センサは、音響波センサ、マイクロホン、音響変換器、または音を検出するのに適した同様のセンサであってよい。

図２は、ヘッドセット１１０上の一か所に位置付けられるようなマイクロホンアセンブリ２２５を示し、いくつかの実施形態では、マイクロホンアセンブリ２２５は、ヘッドセット１１０上に位置付けられる複数の音響検出場所を有するマイクロホンアレイを含む。それぞれの音響検出場所は音響センサまたはポートを含んでよい。音響検出場所は、ヘッドセット１１０の外面上に位置する、ヘッドセット１１０の内面上に位置する、ヘッドセット１１０から分離している（例えば、その他のデバイスの一部）、またはこれらの何らかの組み合わせの場合がある。

トランシーバ２３０は、他のユーザの他のヘッドセットのトランシーバと通信するように構成される。例えば、トランシーバ２３０は、共有通信チャネル内の他のユーザのヘッドセットにデータ（例えば、ユーザによる発話に対応する音声）を送信し、かつ他のユーザのヘッドセットからデータ（例えば、他のユーザによる発話に対応する音声信号）を受信してよい。いくつかの実施形態では、トランシーバ２３０は、アプリケーションサーバまたはコンソール（例えば、共有通信チャネルを維持するように構成されるアプリケーションサーバ）と通信するためにネットワーク（例えば、ネットワーク１２５）にアクセスしてよい。トランシーバ２３０は、送信機、受信機、またはこの両方を含んでよい。

ヘッドセット１１０は、ヘッドセット１１０のユーザに投射される音として１つまたは複数の音声信号を再生するように構成されるスピーカアセンブリをさらに含む。いくつかの実施形態では、スピーカアセンブリは２つ以上のスピーカを含んで、ユーザに投射される音が（例えば、スピーカ２２０のそれぞれを通して投射される音の振幅を調節することによって）空間化可能になり、それによって、音がローカルエリアにおける特定の場所または方向から生じるようにユーザに聞こえ得るようにする。例えば、図２に示されるように、スピーカアセンブリは、ユーザの左耳および右耳に対応する左スピーカ２２０ａおよび右スピーカ２２０ｂを含んでよい。いくつかの実施形態では、スピーカはユーザの耳（例えば、ヘッドホン）をカバーし得る、またはユーザの耳（例えば、イヤホン）に挿入され得る。

図２は、２つのスピーカ（例えば、左スピーカ２２０ａおよび右スピーカ２００ｂ）を示し、いくつかの実施形態では、スピーカは、ヘッドセット１１０上の複数の音響放出場所を含むラウドスピーカアレイを含んでよい。音響放出場所は、ヘッドセット１１０のフレーム１０５におけるスピーカまたはポートの場所である。音響放出場所の場合、ポートは、ポートからラウドスピーカアレイのスピーカを分離する音響導波路から音のアウトカップリング箇所を提供する。スピーカから放出される音は、音響導波路を通って伝わった後、ポートによってローカルエリアに放出される。いくつかの実施形態では、音響放出場所は、フレーム２０５の外面（すなわち、ユーザに面していない表面）、内面（ユーザに面している表面）、またはこれらの何らかの組み合わせ上に位置する。

図２は特定の配置におけるヘッドセット１１０のさまざまな構成要素を示すが、他の実施形態では、ヘッドセット１１０がここで説明される構成要素と異なる構成要素を含んでいる場合があり、ヘッドセット１１０の構成要素が異なる構造を有し得るまたは異なって配置され得ることは、理解されたい。いくつかの実施形態では、上記で論じられる機能のいくつかは、異なる構成要素または構成要素の組み合わせによって実行されてよい。

示される構成では、音声システムは、ユーザが着用するＮＥＤに埋め込まれる。代替的な実施形態では、音声システムは、ユーザが着用するヘッドマウントディスプレイ（ＨＭＤ）に埋め込まれてよい。上記の説明ではユーザが着用するヘッドセットに埋め込まれるような音声アセンブリが論じられているが、音声アセンブリが、その他の所でユーザが着用するまたは着用されずにユーザによって動作させる可能性がある異なるヘッドセットに埋め込まれ得ることは、当業者には明らかであると思われる。

音声システム
図３は、１つまたは複数の実施形態による音声システム３００のブロック図を示す。音声システム３００は、ヘッドセット（例えば、ヘッドセット１１０）の一部として実装されてよく、かつマイクロホンアセンブリ２２５、トランシーバ２３０、スピーカアセンブリ３３０、およびコントローラ２１５を含んでよい。音声システム３００のいくつかの実施形態はここで説明される構成要素と異なる構成要素を有する。同様に、機能は、ここで説明されるのと異なるやり方で構成要素の間で分散可能である。いくつかの実施形態では、音声システムの機能のいくつかは、異なる構成要素の一部であってよい（例えば、いくつかはヘッドセットの一部であってよく、いくつかはコンソールおよび／またはサーバの一部であってよい）。

マイクロホンアセンブリ２２５は、ユーザのローカルエリア内の音をキャプチャするように、およびキャプチャされた音に対応する音声信号を生成するように構成される。いくつかの実施形態では、マイクロホンアセンブリ２２５は、ユーザによる発話をキャプチャするように構成され、かつ、ヘッドセットのユーザが話す話し声の検出を高めるためにローカルエリアの特定の部分（例えば、ユーザの口の近く）に向けたビームを形成するように構成される複数のマイクロホンを含む。例えば、それぞれのマイクロホンは、マイクロホンによって検出される音に対応する音声入力信号を生成する。それぞれのマイクロホンに対する音声入力信号を解析することによって、ユーザのローカルエリアにおける特定の領域（例えば、ユーザの口の近く）から生じる音が特定可能である。コントローラ２１５は、特定の領域から生じる音に対応する音声入力信号の一部分を強化することによって音声入力信号からユーザ音声信号を生成する。そのように、ユーザ音声信号は、（例えば、ユーザの発話に対応する）ユーザの口でまたはこの近くで生じる音を反映するように生成可能である。これは、（例えば、込み合った部屋における）他の音源からの大量の音がある環境においても、ユーザの発話の明確な音声信号がキャプチャ可能であるため有用であり得る。

トランシーバ２３０は、ユーザが一部である共有通信チャネル内の他のユーザに対するデータの送信および受信を行うように構成される。例えば、トランシーバ２３０は、（例えば、ユーザ自身の発話に対応する）マイクロホンアセンブリ２２５によってキャプチャされた音声データを受信し、かつ受信された音声データを、共有通信チャネル内の他のユーザのヘッドセット上のトランシーバに送信することができる。さらに、トランシーバ２３０は、（例えば、ローカルコントローラ２１５によって）処理されかつ（例えば、スピーカ２２０を介して）第１のユーザに対して再生され得る、（音声出力信号または音声信号と称される）共有通信チャネルの他のユーザによって出力された音声データを受信する。トランシーバ２３０は、電磁波によって情報を通信しかつ受信する。電磁波は、例えば、無線周波数（ＲＦ）、ＩＲ、またはこれらの何らかの組み合わせであってよい。いくつかの実施形態では、トランシーバ２３０は、ローカルエリアにおける他のユーザのトランシーバと通信するためにＲＦおよび／または赤外線通信を使用する。いくつかの実施形態では、複数のユーザのヘッドセットに対応する複数のトランシーバは、（例えば、ＢＬＵＥＴＯＯＴＨまたは他のタイプのプロトコルを介して）ローカルネットワークを確立するために互いに通信してよい。いくつかの実施形態では、トランシーバ２３０はまた、ネットワーク（例えば、インターネット）上でアプリケーションサーバと、または共有通信チャネルを維持するように構成されるローカルコンソールと無線で（例えば、Ｗｉ－Ｆｉを介して）通信し得る。さらに、共有通信チャネルがリモートユーザを含むことができる実施形態では、トランシーバ２３０はアプリケーションサーバまたはローカルコンソールを通してリモートユーザと通信してよい。

いくつかの実施形態では、トランシーバ２３０によって送信されかつ受信されるデータは、送信された／受信された音声データに対応するメタデータを含む。メタデータは、音声データと関連付けられたユーザの識別情報（例えば、ユーザＩＤ）、およびユーザの位置が導出可能である情報を指示し得る。例えば、メタデータは、（例えば、ユーザのヘッドセット上の位置センサによって判定されるような）ユーザの現在の位置情報を含んでよい。いくつかの実施形態では、第１のヘッドセット１１０のトランシーバ２３０はアンテナアレイを含み、それぞれのアンテナは第１のヘッドセット１１０上の異なる場所に位置することで、第２のヘッドセットのトランシーバからそれぞれのアンテナによって受信される信号の相対的なタイミングまたは位相は、第２のヘッドセットの相対位置を判定するために使用可能である。

スピーカアセンブリ３３０は、ヘッドセットのユーザに投射される音として１つまたは複数の音声信号を再生するように構成される。上記で論じられるように、いくつかの実施形態では、スピーカアセンブリ３３０は、（例えば、スピーカのそれぞれを通して投射される音の振幅を調節することによって）ユーザに投射された音が空間化可能になる２つ以上のスピーカを含むことで、音がローカルエリアにおける特定の場所または方向から生じるようにユーザに聞こえ得るようにする。

スピーカは、例えば、可動コイル形変換器、圧電変換器、電気信号を使用して音響圧力波を生成するその他のデバイス、またはこれらの何らかの組み合わせであってよい。いくつかの実施形態では、スピーカアセンブリ３３０はまた、それぞれの耳をカバーするスピーカ（例えば、ヘッドホン、イヤホンなど）を含む。他の実施形態では、スピーカアセンブリ３３０は、ユーザの耳をふさぐいずれのスピーカも含まない（例えば、スピーカはヘッドセットのフレーム上にある）。

コントローラ２１５は、マイクロホンアセンブリ２２５、トランシーバ２３０、およびスピーカアセンブリ３３０を動作させるための回路モジュールを含む。これらは、データストア３３５、チャネル構成回路３０５、位置追跡回路３１０、視線判定回路３１５、信号操作回路３２０、および音声フィルタリング回路３２５を含んでよい。図３は異なる回路に対応するようなコントローラ２１５として構成要素を示すが、他の実施形態では、チャネル構成回路３０５、位置追跡回路３１０、視線判定回路３１５、信号操作回路３２０、および音声フィルタリング回路３２５がソフトウェア（例えば、ソフトウェアモジュール）、ファームウェア、ハードウェア、またはこれらの任意の組み合わせで具現化可能であることは理解されたい。

データストア３３５は、コントローラ２１５のさまざまな他のモジュールによって使用されるデータを記憶する。記憶されたデータは、共有通信チャネルの１つまたは複数のパラメータ（例えば、共有通信チャネルの他のユーザの識別情報、共有通信チャネルにアクセスするための認証情報など）を含むことができる。記憶されたデータは、ユーザと関連付けられた位置情報（例えば、位置センサ２４０によって判定されるようなユーザの場所および姿勢）および／または（例えば、他のユーザのヘッドセットから受信される）他のユーザの音声システムと関連付けられた位置情報を含んでよい。いくつかの実施形態では、データストア３３５はローカルエリアの１つまたは複数のモデルを記憶し得る。例えば、コントローラ２１５は、ローカル環境におけるユーザおよび他のユーザの位置、（例えば、カメラアセンブリ２３５を使用して検出する）ローカル環境における１つまたは複数のオブジェクトなどを指示するローカルエリアのモデルを生成し得る。データストア３３５はまた、１つまたは複数の視標追跡パラメータ（例えば、視標追跡に使用される光パターン、ユーザの眼のモデルなど）、音声コンテンツ（例えば、記録された音声データ、受信された音声データなど）、音声コンテンツを空間化するための１つまたは複数のパラメータ（例えば、頭部伝達関数）、音声コンテンツを強化するための１つまたは複数のパラメータ（例えば、注意スコアを判定するためのアルゴリズム）、音声コンテンツをフィルタリングするための１つまたは複数のパラメータ、音声システム３００によって使用されるその他の情報、またはこれらの何らかの組み合わせを記憶することができる。

チャネル構成回路３０５は、共有通信チャネルにおけるユーザのメンバーシップを維持するように構成される。本明細書で使用される際、共有通信チャネルにおいてユーザのメンバーシップを維持することは、例えば、共有通信チャネルを確立すること、既存の共有通信チャネルに対するメンバーとしてユーザを追加することおよび／もしくは削除すること、（例えば、アプリケーションサーバとのまたは共有通信チャネルにおける他のユーザの音声システムとの通信を介して）共有通信チャネルの１つまたは複数のパラメータを更新すること、共有通信チャネルと関連付けられた他のアクションを行うこと、またはこれらの何らかの組み合わせを含んでよい。

いくつかの実施形態では、ユーザは、１または複数の追加のユーザに対応する情報を（例えば、ユーザインターフェースを介して、スキャン装置を介してなどで）チャネル構成回路３０５に提供することによって共有通信チャネルを確立してよい。それに応じて、チャネル構成回路３０５は、共有通信チャネルを確立して、ユーザおよび１または複数の追加のユーザを含んでよい。いくつかの実施形態では、チャネル構成回路３０５は、共有通信チャネルを確立するために（例えば、トランシーバ２３０を介して）追加のユーザのそれぞれと関連付けられたチャネル構成回路にデータを送信する。

いくつかの実施形態では、共有通信チャネルにおけるそれぞれのユーザと関連付けられたチャネル構成回路は、対応するデータストア（例えば、データストア３３５）においてチャネルに対応する情報を記憶する。情報は、共有通信チャネル内の他のユーザの識別情報、共有通信チャネル上で通信するために必要な認証情報などを含んでよい。いくつかの実施形態では、チャネル構成回路３０５は、チャネルのユーザメンバーシップの変更（例えば、新たなユーザがチャネルに参加する、ユーザがチャネルを出る、ユーザの優先レベルの変更）、チャネルと関連付けられた認証情報の変更、チャネルの他のパラメータの変更、またはこれらの何らかの組み合わせなど、１つまたは複数のチャネルパラメータの変更を検出し得る。チャネルパラメータの変更を検出することに応答して、チャネル構成回路３０５は、チャネルにおける他のユーザのチャネル構成回路に変更を通信してよい。そのように、ユーザのチャネル通信回路は、それぞれのチャネル通信回路が共有通信チャネルに関する最新のパラメータにアクセスできるように互いに調整可能であることで、それぞれの音声システム３００はチャネルの他のユーザの音声システムと通信可能である。

他の実施形態では、チャネル構成回路３０５は、（例えば、共有通信チャネルに含まれることになるそれぞれのユーザの音声システムのチャネル構成回路と通信することによって）共有通信チャネルの確立を調整するアプリケーションサーバと（トランシーバ２３０を介して）通信する。例えば、チャネル構成回路３０５は、共有通信チャネルにおける参加を指示するために、および共有通信チャネルと関連付けられたパラメータ（例えば、共有通信チャネル内の他のユーザの識別情報、共有通信チャネル上で通信するために必要な任意の認証情報など）を受信するためにアプリケーションサーバと通信する。さらに、チャネル通信回路３０５は、チャネルにおけるユーザの参加に関連しているいずれの変更も指示するためにアプリケーションサーバと通信してよい。アプリケーションサーバは、共有通信チャネルに対するパラメータを維持することを担う場合があり、かつ、チャネル通信回路がチャネルの最新のパラメータに確実にアクセスするように、チャネルに参加しているユーザに対応するパラメータをチャネル通信回路に通信する。

位置追跡回路３１０は、ユーザの現在の位置を判断するように構成される。位置追跡回路３１０は、位置センサ（例えば、位置センサ２４０）からユーザのヘッドセットに対応する位置情報を受信し、かつ受信される位置情報に基づいてヘッドセットの現在の位置を判定する。ユーザのヘッドセットの位置は、ローカル環境内のユーザの場所、および、ユーザの向き（例えば、以降、ユーザの「頭の向き」とも称されるユーザの頭上のヘッドセットの向き）を指示し得る。いくつかの実施形態では、ユーザの位置は基準点に対して算出される。いくつかの実施形態では、位置追跡回路３１０の１つまたは複数の機能はＩＭＵによって実行される。

位置追跡回路３１０は、共有通信チャネルの他のユーザに対応する位置情報を判定するようにさらに構成されてよい。いくつかの実施形態では、他のユーザに対応する位置情報は、他のユーザのヘッドセットから直接（例えば、トランシーバ２３０を介して）受信されてよい。例えば、位置情報は、共有通信チャネルの１または複数の他のユーザから受信された音声データを伴うメタデータとして受信されてよく、この位置情報は、（例えば、他のユーザのヘッドセットの位置追跡モジュールによって判定されるように）音声データが受信されたユーザの現在の位置を指示する。いくつかの実施形態では、位置追跡回路３１０は、ユーザの現在の位置に対する他のユーザのそれぞれの相対位置を判定するために他のユーザの得られた位置情報を使用する。いくつかの実施形態では、位置追跡回路３１０は、ローカルエリアのモデルを生成するまたは更新するために他のユーザの判定された位置を使用してよい。

他の実施形態では、位置追跡回路３１０は、他のユーザのヘッドセット上のアンテナアレイの複数のアンテナから受信された信号を解析することに基づいて他のユーザの位置を判定する。例えば、いくつかの実施形態では、第１のヘッドセットの音声システム３００のトランシーバ２３０はアンテナアレイを含み、それぞれのアンテナは第１のヘッドセット上の異なる場所に位置する。第１のヘッドセットの位置追跡回路３１０は、アレイのそれぞれのアンテナで受信される第２のヘッドセットのトランシーバからの信号を解析し、かつ受信された信号の相対的なタイミングまたは位相に基づいて第２のヘッドセットの相対位置を判定する。他の実施形態では、トランシーバ２３０は第２のヘッドセットのトランシーバによって送信される複数の異なる信号を受信し、この場合、第２のヘッドセットのトランシーバは第２のヘッドセットの異なる場所における複数のアンテナを含むアンテナアレイである。位置追跡回路３１０は、受信された信号（例えば、受信された信号のタイミングまたは位相）を解析し、これによって、第１のヘッドセットに対する第２のヘッドセットの相対位置を判定することができる。

視線判定回路３１５は、（例えば、ユーザの眼のキャプチャされた画像など、視標追跡センサ２４５による視標追跡測定値に基づいて）ヘッドセットを着用するユーザの視線方向を判定するように構成される。本明細書で使用される際、ユーザの視線方向はローカル環境においてユーザが見ている方向に対応する。いくつかの実施形態では、ユーザの視線方向は、ユーザの頭の向きおよびユーザの眼の位置の組み合わせに基づいて判定される。例えば、視線判定回路３１５は、（例えば、位置追跡回路３１０によって判定されるように）ユーザの現在の眼の向きおよびユーザの頭の向きを判定するために視標追跡センサ２４５からの１つまたは複数の視標追跡測定値（例えば、視標追跡カメラによってキャプチャされたユーザの眼の１つまたは複数の画像）を受信し、かつローカル環境内のユーザの視線方向を判定するために判定された眼の向きでユーザの頭の向きを修正することができる。例えば、ユーザの頭は第１の方向を向いている場合がある。しかしながら、ユーザの眼が第１の方向から目をそらすように配向される（例えば、まっすぐ前を見ていない）場合、ユーザの視線方向はユーザの頭の向きと異なるようになる。

いくつかの実施形態では、視線判定回路３１５はまた、カメラのＦＯＶ内のカメラアセンブリ２３５からのローカルエリアの１つまたは複数の画像を受信し、かつ判定された眼の向きを受信された画像内のある場所にマッピングする。視線判定回路は、マッピングされた場所に対応する１つまたは複数の画像内の１つまたは複数のオブジェクト（例えば、他のユーザ）を特定するためにオブジェクト認識を使用して、ユーザの視線方向が１つまたは複数の特定されたオブジェクトと合致するかどうかを判定してよい。いくつかの実施形態では、特定されたオブジェクトはローカルエリアのモデルを生成するまたは更新するために使用されてよい。例えば、１つまたは複数の画像内の他のユーザなどの特定されたオブジェクトの場所は、ユーザが特定されたオブジェクトのいずれかを見ているかどうか、特定されたオブジェクトがユーザに対して位置する場所、ユーザが特定されたオブジェクトに対する見通し線を有するかどうかなどを判定するために使用されてよい。

図３は、位置追跡回路３１０および視線判定回路３１５を別個のモジュールであるように示しているが、いくつかの実施形態では、位置追跡回路３１０および視線判定回路３１５は単一のモジュールとして実装されてよい。例えば、単一の視線判定回路は、ユーザの位置、ユーザの頭の向き、およびユーザの頭に対する眼の向きを判定するためにセンサ測定値（例えば、位置センサ２４０からの位置データ、および視標追跡センサ２４５からの視標追跡データ）を受信して、これらから、ユーザの視線方向が判定可能である。

信号操作回路３２０は、それぞれが共有通信チャネルの別のユーザの音声システム（「送信側音声システム」と称される）に対応する、トランシーバ２３０を介して受信される１つまたは複数の音声信号を受信し、かつユーザに対する他の音声システムの相対位置に基づいて、ユーザに提示されることになる音声データを生成するように信号を操作するように構成される。

信号操作回路３２０は、ユーザの現在の位置に対する送信側ユーザの相対位置を特定する。位置情報は、位置判定モジュール３１０から受信されてよい。いくつかの実施形態では、信号操作回路３２０は、送信側ユーザの相対位置を判定するためにローカルエリアにおけるそれぞれのユーザに関する位置情報を含んでいるローカルエリアのモデルにアクセスする。さらに、信号操作回路３２０は、視線判定回路３１５からユーザの現在の視線方向の指示を受信してよい。ユーザの相対位置に基づいて、信号操作回路３２０は、送信側ユーザからの音声信号を空間化することで、（例えば、スピーカ２２０を介して）ユーザに対して再生される時、音が送信側ユーザの場所から生じるように思えるようになり得る。

いくつかの実施形態では、信号操作回路３２０は、音声システムと関連付けられた、１つまたは複数の生成された音響伝達関数に基づいて音声信号を空間化する。音響伝達関数は、頭部伝達関数（ＨＲＴＦ）または他のタイプの音響伝達関数であってよい。ＨＲＴＦは空間の点からの音を耳がどのように受信するかを特徴付ける。人に対する特定の音源場所についてのＨＲＴＦは、人の耳に伝わる時に音に影響する人の解剖学的組織（例えば、耳の形、肩など）により人のそれぞれの耳に特有である（および人に特有である）。例えば、いくつかの実施形態では、信号操作回路３２０は、さまざまな周波数および相対位置に対応する、それぞれの耳に対して１つの、ユーザに対するＨＲＴＦの２つのセットを生成することができる。ＨＲＴＦまたは一対のＨＲＴＦは、空間の特定の点から（例えば、送信側音声システムの場所から）生じるように思われる音を含む音声コンテンツを作成するために使用可能である。いくつかのＨＲＴＦは、（例えば、家庭用娯楽システム、シアタースピーカシステム、没入環境などに対する）サラウンドサウンド音声コンテンツを作成するために使用されてよく、この場合、それぞれのＨＲＴＦまたはＨＲＴＦのそれぞれの対は、音声コンテンツが空間のいくつかの異なる点から聞こえてくるように思われる、空間の異なる点に対応する。ＨＲＴＦを生成するさらなる例は、「ＡｕｄｉｏＳｙｓｔｅｍｆｏｒＤｙｎａｍｉｃＤｅｔｅｒｍｉｎａｔｉｏｎｏｆＰｅｒｓｏｎａｌｉｚｅｄＡｃｏｕｓｔｉｃＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎｓ」という名称の、米国特許出願第１６／０１５，８７９号に記載されており、この内容全体は参照により本明細書に組み込まれる。

いくつかの実施形態では、信号操作回路３２０は、強化方向に対する送信側ユーザの位置に基づいて音声信号を強化してよい。本明細書で使用される際、ユーザの強化方向は、ユーザが注意を向けていると推論される方向を指すことができる。いくつかの実施形態では、ユーザの強化方向は、ユーザの視線方向に対応する場合がある。他の実施形態では、強化方向は、ユーザの頭の向き、および／またはユーザの胴体に対する頭の向きなどに基づいてよい。論述を容易にするために、強化方向は主として視線方向に対応すると論じられるものになるが、強化方向が他の実施形態ではユーザに対する他の方向に対応し得ることは理解されたい。

本明細書で使用される際、音声信号を強化することは、音声信号を正方向に強化すること（例えば、他の音または音声信号に対する音声信号の振幅を増大させること）、または音声信号を逆方向に強化すること（例えば、他の音または音声信号に対する音声信号の振幅を減少させること）のどちらかを指す場合がある。例えば、いくつかの実施形態では、ユーザが見ている（例えば、ユーザが送信側ユーザに注意を向けていることを含意する）送信ユーザ側からの音声信号は、ユーザの視線方向に基づいて判定されるように、正方向に強化されるが、ユーザが見ていない他の送信側ユーザからの音声信号は逆方向に強化される。これによって、ユーザは、ある特定のユーザ（例えば、該ユーザが注意を向けている送信側ユーザ）からの発話により容易に集中できるようにすることが可能であり、特に、多数のユーザが同時に話している場合に他のユーザからの発話に注意をそらされることが少なくなる。いくつかの実施形態では、信号操作回路３２０は、それぞれの送信側ユーザに対して算出される「注意スコア」に基づいてそれぞれの受信された音声信号を強化し、このことは、図４に関してより詳細に後述される。

信号操作回路３２０は、ユーザの耳がユーザの頭の定位置にあることにより、ユーザの頭の向きに基づいて受信された音声データを空間化してよい。他方では、信号操作回路３２０は、ユーザの視線方向に基づいて音声データを強化して、ユーザが実際に見ているまたは注意を向けている他のユーザから生じる音声データをより良く強調する。

上記の論述は主として、ユーザの視線方向に基づいて音声データを強化することに言及するが、他の実施形態では、音声データの強化は、ユーザの頭の方向、ユーザの胴体に対する頭の角度によって修正されたユーザの頭の方向、またはこれらの何らかの組み合わせなどの他の方向に基づいてよい。

信号操作回路３２０は、スピーカアセンブリ３３０のスピーカに空間化されかつ強化された音声信号をさらに出力する。例えば、信号操作回路３２０は、行われる空間化および／または強化に基づいて、スピーカアセンブリ３２０のスピーカのそれぞれに異なる振幅の音声信号を出力してよい。

音声フィルタリング回路３２５は、（例えば、マイクロホンアセンブリ２２５によってキャプチャされるように）ユーザによる発話に対応するユーザ音声信号を受信するように、およびユーザ音声信号に対するフィルタリングを行うように構成される。ユーザ音声信号は共有通信チャネルにおける他のユーザに送信されてよい。さらに、いくつかの実施形態では、ユーザ音声信号はまた、スピーカアセンブリ３３０を通してユーザに対して再生可能である。

いくつかの実施形態では、共有通信チャネルのユーザは互いに近い場合があるため、ユーザは送信側ユーザの発話の実際の音を聞き、かつ、送信側ユーザの発話に対応するこれらのヘッドセットを通して音声信号を受信することが可能であってよい。受信された音声信号を処理するために必要とされる時間により、音声データは、送信側ユーザの発話がユーザの場所で聞くことができた後に、（例えば、スピーカアセンブリ３３０を通して）ユーザに提示され得る。送信側ユーザの実際の発話がユーザの場所で聞くことができる時と、送信側ユーザの音声データがスピーカアセンブリ３３０を通してユーザに対して再生される時との間の遅延は、処理遅延と称される。処理遅延が一定の時間を超える場合、第１のユーザに提示される音声データは第１のユーザに対してエコーのように聞こえる場合がある。これは、ユーザにとって気をそらされる場合がある望ましくないオーディオ効果をもたらす。例えば、いくつかの実施形態では、エコー効果は、処理遅延が１０～１５ｍｓを上回る時にもたらされる。

いくつかの実施形態では、音声フィルタリング回路３２５は、（以降、「拡散ユーザ音声信号」と称される）時間的に分散したユーザ音声信号を作り出すようにユーザ音声信号の位相を操作する全域通過フィルタを含む。拡散ユーザ音声信号は、元のフィルタ未処理の信号と同じ全エネルギーを有するユーザ音声信号の複数の拡散反射を含んでよい。発話に対応する音について、ユーザ音声信号を拡散することによって、フィルタ未処理の信号と比較して、別個の聴覚イベントとして人間の耳が検出可能なユーザ音声信号を少なくすることができる。これによって、ユーザ音声信号は、別個のエコーとしてユーザ音声信号を受信する他のユーザによって検出される前により長い処理遅延を受けることが可能になる。ユーザ音声信号を拡散することの例について、以下に図５に関してより詳細に説明する。本論述は、ユーザ音声信号を共有通信チャネル内の他のユーザに送信する準備をしてユーザ音声信号に対して時間的分散を行う音声フィルタリング回路３２５に言及するが、いくつかの実施形態では、音声フィルタリング回路３２５は、ユーザ音声信号に対する時間的分散を行う代わりに、ユーザに対して再生する前に他のユーザの音声システムから受信された音声信号に対して時間的分散を行う。いくつかの実施形態では、他のフィルタリング技法を使用することができる。例えば、音声フィルタリング回路３２５は、いくつかの実施形態では、ユーザ音声信号を時間的に拡散することの代わりまたはこれに加えて、ユーザ音声信号の周波数振幅スペクトルを修正してよい。

いくつかの実施形態では、音声フィルタリング回路３２５は、音声システム３００のユーザに対して再生されるように修正されたユーザ音声信号を生成するためにユーザ音声信号をさらにフィルタリングする。ユーザがノイズ環境で話しているおよび／またはマイクロホンに話しかけている時、ユーザは、ノイズ環境でかき消された自身の声が聞こえないことにより自身の声の音量に気付かない場合が多い。そのように、ユーザはうっかりして自分の声を必要以上に張り上げる場合がある。

ユーザが環境のノイズの中で大声を出そうとしないようにするために、ユーザ音声信号のバージョンはユーザに対して再生可能であり、それによって、ユーザはより精確に自分の声の音量に近づけることができる。人は、（例えば、空気中の音波に加えて自分の耳に達する自分の声帯によって引き起こされる自分の頭蓋骨の振動により）マイクロホンによってキャプチャされる声の聞こえ方と異なって自身の声が聞こえるため、ユーザ音声信号は、ユーザが、自身の声としてユーザ音声信号の音を認識するために修正されてよい。いくつかの実施形態では、ユーザ音声信号は、ユーザによって感知されるユーザの声に対する頭蓋骨の振動の効果に近い１つまたは複数のフィルタを通過させる。いくつかの実施形態では、１つまたは複数のフィルタは、一般的に（例えば、平均的な頭蓋骨の形状およびサイズに基づいて）ほとんどの人達に適用可能であるように構成される。他の実施形態では、１つまたは複数のフィルタは１つまたは複数のユーザ設定に基づいてカスタマイズされてよい。例えば、ヘッドセット１１０のユーザは、セットアップ期間中、フィルタの１つまたは複数の設定を、ユーザの自分の声の聞こえ方により近似するように構成することができる。いくつかの実施形態では、フィルタはローパスフィルタを含んでよく、この場合、ユーザはフィルタの傾きおよび遮断周波数を調節できる。いくつかの実施形態では、フィルタは、一連の、１つまたは複数の調節可能なバイカッドフィルタ、ＦＩＲ（有限インパルス応答）フィルタ、またはこれらの何らかの組み合わせを含んでよい。

そのように、ユーザ音声信号のフィルタリングされたバージョンをユーザにフィードバックすることによって、ユーザは、ノイズ環境においても自分の声の音量を精確に評価することができ、かつ自分の声を不必要に張り上げることを回避できる。いくつかの実施形態では、ユーザ音声信号のフィルタリングされたバージョンは、（例えば、マイクロホンアセンブリを使用して測定された）環境におけるノイズ量が閾値を超える場合にユーザに対してのみ再生されることで、環境におけるノイズ量がユーザが自身の声を聞くことができると予期できるようにされる場合にフィルタリングされたユーザ音声信号がユーザに対して再生されないようにする。

位置に基づく音声空間化および強化
図４は、１つまたは複数の実施形態による、共有通信チャネルによる複数のユーザを有する環境の一例を示す。環境は、共有通信チャネルの一部である、第１のユーザ４０５Ａ、ならびに追加のユーザ４０５Ｂ、４０５Ｃ、および４０５Ｄ（ユーザ４０５と総称される）を含む複数のユーザを含んでいる。それぞれのユーザ４０５は、共有通信チャネルの他のユーザと通信するためにユーザによって使用される音声システムを含んでいる対応するヘッドセット４１０を着用している。説明を簡単にするために、第１のユーザ４０５Ａが着用するヘッドセット４１０のみが図４に標示される。

第１のユーザ４０５Ａのヘッドセット４１０は、第１のユーザ４０５Ａの位置および視線方向を判定するように構成される位置センサおよび視標追跡センサを含み、これらは第１のユーザ４０５Ａに対する強化方向４１５を判定するために使用されてよい。図４は、第１のユーザ４０５Ａの強化方向４１５がヘッドセット４１０およびユーザ４０５Ａの頭の向きと合致するように示すが、強化方向４１５はユーザ４０５Ａの頭の向きと合致しなくてもよい。例えば、いくつかの実施形態では、強化方向４１５はユーザ４０５Ａの視線方向に対応してよい。そのように、ユーザ４０５Ａが自分の眼を動かすと、強化方向４１５はユーザ４０５Ａの位置およびユーザ４０５Ａの頭の向きが静止したままの場合でも変化し得る。他の実施形態では、ユーザ４０５Ａの強化方向は、（例えば、ユーザの頭の向きに基づく）ユーザの頭の方向、ユーザの頭の向きと胴体の向きとの間の角度によって修正されるユーザの頭の方向（例えば、ユーザの頭と胴体との間の角度が大きくなるとユーザの頭の方向から外れる強化方向４１５）、または、これらの何らかの組み合わせに対応し得る。

環境内の他のユーザ４０５Ｂ、４０５Ｃ、および４０５Ｄのそれぞれは、送信側ユーザであってよい。ユーザ４０５Ｂ、４０５Ｃ、および４０５Ｄのそれぞれによる発話に応答して、音声データは（例えば、これらの対応するヘッドセットによって）記録され、かつ第１のユーザ４０５Ａのヘッドセット４１０（および、該チャネルに参加している他のユーザ）に送信される。ヘッドセット４１０の信号操作回路３２０は、それぞれのユーザに対する音声信号がどのように操作されるべきかを判定するために他のユーザのそれぞれの相対位置を解析する。

いくつかの実施形態では、第１のユーザ４０５Ａのヘッドセット４１０の音声システムは、ユーザ４０５Ａに音声信号を送信する送信側ユーザのそれぞれに対応する位置情報を判定し、かつ送信側ユーザのそれぞれに対して、第１のユーザ４０５Ａの頭の向きに対する送信側ユーザの相対位置、および第１のユーザ４０５Ａの強化方向４１５に対する送信側ユーザの位置の間の偏差を判定する。

第１のユーザ４０５Ａの頭に向きに対する送信側ユーザの相対位置は、送信側ユーザから受信される音声信号を空間化するために音声システムによって使用される。判定された相対位置および判定されたユーザ４０５Ａの現在の頭の向きを使用して、音声システムは、ヘッドセット４１０のスピーカアセンブリを介してユーザ４０５Ａに投射される時、音声信号の音が対応する送信側ユーザの場所から生じるように思えるように音声信号を空間化する。いくつかの実施形態では、音声システムは、スピーカアセンブリのそれぞれのスピーカに対応する１つまたは複数の重みを設定することによって、音声信号を空間化する。いくつかの実施形態では、音声システムは、音声信号を空間化するためにＨＲＴＦを使用する。スピーカアセンブリのスピーカのそれぞれを通してユーザ４０５Ａに投射される音声信号の振幅を調節することによって、結果として生じる音は、（例えば、送信側ユーザの場所に対応する）異なる場所から生じるかのように思えるようにできる。

例えば、図４に示されるように、ユーザ４０５Ｂはユーザの前方に向いて位置する。そのように、ユーザ４０５Ｂからの音声信号は、結果として生じる音がユーザ４０５Ａの前方から生じるようにユーザ４０５Ａによって感知されるように空間化される。他方では、ユーザ４０５Ｃおよびユーザ４０５Ｄは、ユーザ４０５Ａの左および右に対してそれぞれに位置する。そのように、音声システムは、ユーザ４０５Ｃおよび４０５Ｄに対応する音声がユーザ４０５Ｃおよび４０５Ｄの各場所から生じるように思えるように、各音声信号を空間化する。

いくつかの実施形態では、空間化は、リモートユーザである送信側ユーザからユーザ４０５Ａによって受信される音声信号には行われない。他の実施形態では、空間化は、ある特定のタイプのリモートユーザ（例えば、ユーザ４０５Ａから閾値距離内の場所と関連付けられたリモートユーザ）から受信された音声信号には行われ得る。

さらに、いくつかの実施形態では、空間化は、ユーザ４０５Ａと送信側ユーザとの間に見通し線がない場合行われない。例えば、音声システムは、いくつかの実施形態では、（例えば、カメラアセンブリ２３５または他のタイプのセンサを使用して判定される）ローカルエリア内の壁などのある特定のタイプのオブジェクトに気付く場合がある。ユーザ４０５Ａと送信側ユーザとの間のベクトル４２５が、このようなオブジェクトを横断することで、ユーザ４０５Ａと送信側ユーザとの間に見通し線がないことを指示する場合、送信側ユーザからの音声信号は空間化されない場合がある。いくつかの実施形態では、見通し線がない場合の送信側ユーザからの音声信号は、ユーザ４０５Ａと送信側ユーザとの間の距離が閾値未満である場合に空間化されてよいが、該距離が閾値以上である場合は空間化されない。閾値は、所定の量であってよい、または、１つもしくは複数のユーザ入力、ローカルエリアの１つもしくは複数の判定された属性（例えば、部屋のサイズ）、またはこれらの何らかの組み合わせに基づいて動的に判定されてよい。

さらに、音声システムは、ユーザ４０５Ａの強化方向４１５からのそれぞれの対応する送信側ユーザの場所の偏差に基づいて、それぞれの受信された音声信号を強化する。本明細書で使用される際、ユーザ４０５Ａの強化方向からの送信側ユーザ（例えば、ユーザ４０５Ｃ）の場所の偏差は、ユーザ４０５Ａの強化方向４１５と、ユーザ４０５Ａおよび４０５Ｃを接続するベクトル４２５との間で測定された角度に基づいて判定されてよい。いくつかの実施形態では、音声システムはまた、ユーザ４０５Ａからのそれぞれの対応する送信側ユーザの場所の距離に基づいて、それぞれの受信される音声信号を強化し得る（例えば、ユーザ４０５Ａに近い送信側ユーザからの音声信号は、もっと遠い送信側ユーザからの音声信号と比較してより強力に強化される）。

多数の他のユーザからの多数の音声信号が受信されかつユーザ４０５Ａに投射される場合、ユーザ４０５Ａが、音声信号が空間化される場合でも、あるユーザの発話に集中することは困難である場合がある。受信された音声信号を選択的に強化することによって、ユーザ４０５Ａは、注意を向けている他のユーザからの発話により容易に集中することができ、注意を向けていないユーザからの発話によって気をそらされることが少なくなり得る。

いくつかの実施形態では、ユーザ４０５Ａが注意を向けているのはどの送信側ユーザかは、ユーザ４０５Ａの強化方向４１５に基づいて推論可能である。例えば、ユーザ４０５Ａの強化方向４１５が別のユーザの場所と合致する場合、ユーザ４０５Ａは該ユーザに注意を向けていると推論可能である。例えば、図４に示されるように、ユーザ４０５Ａは、ユーザ４０５Ｂに注意を向けていると推論可能である。いくつかの実施形態では、ユーザ４０５Ａは、他のユーザの場所が強化方向４１５からの閾値偏差４２０内にある場合、別のユーザに注意を向けていると推論され得る。例えば、図４に示されるように、ユーザ４０５Ａは、ユーザ４０５Ｃおよび４０５Ｄが強化方向４１５から閾値偏差以上離れていることにより、ユーザ４０５Ｃおよび４０５Ｄに注意を向けていないと推論され得る。いくつかの実施形態では、強化方向４１５からの閾値偏差４２０内に多数の送信側ユーザがいる場合、ユーザ４０５Ａは、ユーザ４０５Ａに最も近い場所における送信側ユーザ、強化方向４１５からの最小の偏差を有する場所における送信側ユーザ、またはこれらの何らかの組み合わせに注意を向けているとみなされ得る。

いくつかの実施形態では、「注意スコア」は共有通信チャネルの他のユーザのそれぞれに対して算出可能である。注意スコアは、他のユーザから受信される音声信号をどの程度まで強化するかを判定するために、ユーザが別のユーザに注意を向けているとどのくらい推論できるかを指示する測定基準として機能し得る。特定のユーザに対する注意スコアは、第１のユーザ４０５Ａの強化方向４１５からのユーザの場所の偏差、第１のユーザ４０５Ａの場所に対するユーザの場所の距離、またはこれらの何らかの組み合わせに基づいてよい。いくつかの実施形態では、注意スコアは１つまたは複数の因子の集合（例えば、加重和）として判定される。

音声システムは、ユーザ４０５Ａが送信側ユーザに注意を向けているかどうかに基づいて（例えば、送信側ユーザの注意スコアに基づいて）送信側ユーザから受信される音声信号を強化する。例えば、音声システムは、ユーザ４０５Ａが送信側ユーザに注意を向けていると推論される場合、音声信号を正方向に強化し、ユーザ４０５Ａが送信側ユーザに注意を向けていないと推論される場合、音声信号を正方向に強化しない。さらに、いくつかの実施形態では、音声信号は、ユーザ４０５Ａが送信側ユーザに注意を向けていないと推論される場合に逆方向に強化され得ることで、ユーザ４０５Ａが注意を向けている送信側ユーザから生じる音声信号から気をそらされることが最小限に抑えられる。いくつかの実施形態では、送信側ユーザの音声信号は、ユーザ４０５Ａが注意を向けていると判定される別の送信側ユーザが存在するかどうかに基づいて強化され得る（例えば、ユーザ４０５Ｃからの音声信号は、ユーザ４０５Ａがユーザ４０５Ｂに注意を向けていると推論される場合は逆方向に強化されるが、強化方向４１５の閾値偏差４２０内にユーザがいない場合は逆方向に強化されない）。

いくつかの実施形態では、音声システムは、対応する送信側ユーザの注意スコアに基づいて受信された音声信号を強化する。いくつかの実施形態では、強化量は、他のユーザの注意スコア（例えば、他の送信側ユーザに対する送信側ユーザのスコアのランキング）にさらに基づく場合がある。例えば、図４に示される例では、ヘッドセット４１０の音声システムは、それぞれの送信側ユーザの場所の偏差をユーザ４０５Ａの強化方向４１５と比較することによって、送信側ユーザ４０５Ｂおよび４０５Ｃからの音声信号をどれくらい強化するかを判定し、かつ比較の結果に基づいてそれぞれの音声信号を強化してよい。例えば、いくつかの実施形態では、第１の送信側ユーザからの音声信号は、第２の送信側ユーザが存在しなかった（例えば、音声信号を現在送っていない）または第１の送信側ユーザと比較して注意スコアがより低い場合と比較して、（例えば、ユーザの視線方向からの偏差がより低いことにより）より高い注意スコアを有する第２の送信側ユーザがいる場合により少ない強化がなされ得る。

送信側ユーザに対する注意スコアがユーザ４０５Ａの強化方向４１５に基づくため、ユーザ４０５Ａの強化方向４１５が（例えば、該ユーザの頭または眼の移動により）変化すると、送信側ユーザのそれぞれに対する注意スコアはそれに応じて調節される場合があり、それによって、それらの対応する音声信号に対する異なる強化量が生じる。いくつかの実施形態では、それぞれの送信側ユーザの注意スコアは周期的に更新される。いくつかの実施形態では、送信側ユーザの注意スコアは、音声システムが、閾値を超えるユーザ４０５Ａの強化方向４１５の変化を検出する場合、更新される。

強化方向４１５がユーザの視線方向に対応する実施形態では、ユーザ４０５Ａの眼が潜在的に非常に急速に移動し得るため、強化方向４１５は潜在的に非常に急速に変化する可能性がある。いくつかの実施形態では、強化方向４１５は、ユーザ４０５Ａの視線が少なくとも閾値時間に閾値以上変化しなければ更新されないことで、ユーザ４０５Ａによる任意の眼の移動の影響が低減される。

いくつかの実施形態では、送信側ユーザの注意スコアは、送信側ユーザの強化方向にさらに基づいてよい。例えば、送信側ユーザの強化方向がユーザ４０５Ａに向いている場合、送信側ユーザに対応する音声信号は、送信側ユーザの視線方向がユーザ４０５Ａに向かっていない場合と比較してより強力になるように信号操作回路３２０によって修正可能である。例えば、図４に示されるように、ユーザ４０５Ｃからの音声信号は、ユーザ４０５Ｄからの音声信号と比較して、両方のユーザがユーザ４０５Ａの強化方向４１５からの偏差の同様の大きさを有しても、より強化され得る。いくつかの実施形態では、送信側ユーザの注意スコアに対する送信側ユーザの向きまたは視線方向の重みは、強化方向４１５からの送信側ユーザの場所の偏差に基づいて変わる場合がある。

共有通信チャネルが１または複数のリモートユーザを有するいくつかの実施形態では、信号操作回路３２０は、ユーザ４０５Ａがローカルエリアにおける別のユーザに現在注意を向けているかどうかに基づいて、リモートユーザからの音声信号を強化してよい。いくつかの実施形態では、ユーザ４０５Ａは、特定の送信側ユーザからの音声信号の強化のやり方に対する１つまたは複数の修正を、ユーザインターフェースを介して指示することができる。

各送信側ユーザの相対位置に基づいて受信される音声信号を処理する（例えば、空間化するおよび／または強化する）ことによって、信号操作回路３２０は、ひいては、ユーザ４０５Ａが、（例えば、これらのユーザからの音声信号を正方向に強化することによって）ユーザが注意を向けている他のユーザからの音声を聞きかつこれに集中することを容易にし、かつ、ユーザ４０５Ａが、音声信号が受信される他のユーザが位置する場所をより良く感じ取ることができる。

エコー低減のための音声フィルタリング
図５は、１つまたは複数の実施形態によるユーザ音声信号をフィルタリングする図を示す。図５は、第１のユーザの外耳道の穴で測定される音声信号を示す第１のグラフ５０５を示す。第１のユーザの音声システムは、共有通信チャネル上で第２のユーザの音声システムと通信している。音声信号は実音声信号５１０および送信音声信号５１５を含む。実音声信号５１０は、第２のユーザから生じる音響圧力波に対応し、かつ、ユーザの外耳道で測定される（すなわち、ユーザは第２のユーザの発話を聞く）。送信音声信号５１５は、（例えば、第２のユーザのユーザ音声信号として）記録され、第１のユーザの音声システムに送信され、および１つまたは複数のスピーカを通して第１のユーザに対して再生される、第２のユーザの発話に対応するフィルタ未処理の音声信号に対応する。送信音声信号を記録し、送信し、処理し、および再生することと関連付けられた処理遅延により、送信音声信号５１５は、処理遅延ΔＴに対応する時間による実音声５１０の後に外耳道で検出され得る（すなわち、ユーザに対して可聴である）。一定の時間（例えば、１０～１５秒）の処理遅延ΔＴがある場合、第１のユーザは、実音声信号５１０のような別個の聴覚イベントとして送信音声信号５１５を聞くことができ、これは、第１のユーザの気をそらすようなエコー効果をもたらし得る。

第２のグラフ５２０は、送信される音声が、音声信号を拡散するためにオールパスフィルタを使用してフィルタリングされる時、第１のユーザの場所で測定される音声を示す。第２のグラフ５２０に示されるように、同じ実音声信号５１０は、第１のユーザの場所で聞こえる。しかしながら、送信音声信号は、複数の拡散反射を含むフィルタリングされた送信音声信号５２５を作り出すためにフィルタリングされている。フィルタリングされた送信音声信号５２５が実音声５１０の後のΔＴまで聞こえなくても、送信音声信号５２５の拡散は第１のユーザに、実音声信号５１０およびフィルタリングされた送信音声信号５２５を同じ聴覚イベントの一部であると解釈させ得ることで、望ましくないエコー効果が低減または排除可能である。そのように、音声信号をフィルタリングすることによって、ユーザに対して望ましくないエコー効果をもたらすことなく、より長い処理遅延が適応可能である。いくつかの実施形態では、音声信号は、共有通信チャネルの他のユーザに送信される前に送信側ユーザのヘッドセットでフィルタリングされる。他の実施形態では、音声信号は音声信号を受信するユーザのヘッドセットでフィルタリングされる。フィルタリングが受信側で行われるいくつかの実施形態では、受信側ヘッドセットの音声システムは実音声と送信音声との間の遅延を判定し、かつ判定された遅延に基づいて１つまたは複数のフィルタリングパラメータ（例えば、分散量）を調節してよい。

場合によっては、第１のユーザおよび第２のユーザは、送信音声５２５が実音声５１０の前に第１のユーザの場所で聞こえるように互いから少し離れている場合がある。いくつかの実施形態では、音声システムは、送信側ユーザが、少なくとも、ユーザから閾値距離分離れていると判定される場合、送信音声に対して拡散フィルタリングを行わない。

共有通信チャネルが少なくとも一人のリモートユーザを含む実施形態では、リモートユーザと非リモートユーザとの間で送信される音声信号にはフィルタリングが行われる必要はないが、これは、リモートユーザが非リモートユーザの実音声を聞くことができない（およびこの逆もまた同様）ため、処理遅延によって引き起こされるエコー効果が存在しないからである。さらに、いくつかの実施形態では、第２のユーザからの音声は、第２のユーザと第１のユーザとの間の距離が少なくとも閾値である、または第１のユーザと第２のユーザとの間にある特定の構造（例えば、壁）があるとの判定がなされる場合、フィルタリングされなくてよく、それによって、第１のユーザは第２のユーザの実音声を聞くことができないと推論可能である。

チャネル優先レベル
いくつかの実施形態では、共有通信チャネル上の異なるユーザは、異なる優先レベルが与えられ得る。本明細書で使用される際、共有通信チャネルのユーザの優先レベルは、ユーザの発話に対応する音声信号が他のユーザに対応する音声信号に対して強化されるレベルを指示することができ、この場合、より高い優先レベルを有するユーザからの音声信号は、より低い優先レベルのユーザに対して正方向に強化される。いくつかの実施形態では、共有通信チャネルは基本優先レベルに対応するユーザの第１のセット、および、基本優先レベルより優先される高優先レベルと関連付けられた少なくとも１ユーザ（例えば、指名された話し手またはリーダー）を含んでよい。

例えば、高優先レベルと関連付けられたユーザ（以降、「優先ユーザ」と称される）が話していない時、共有通信チャネルの基本優先レベルのユーザに対応する第１のユーザによって受信される音声信号は、上述されるように普通に処理されて（例えば、ユーザの相対位置に基づいて空間化および強化されて）よい。しかしながら、優先ユーザが話した後、第１のユーザによって受信される優先ユーザに対応する音声信号は、第１のユーザおよび優先ユーザの相対位置に関わらず強化される。さらに、基本優先レベルのユーザからの音声信号は、優先ユーザからの音声信号が第１のユーザに対して再生されている時間に減衰され得ることで、第１のユーザは優先ユーザの発話を確実に明確に聞くことができる。

いくつかの実施形態では、共有通信チャネルのユーザは、２つ以上の異なる優先レベルに編成可能である。より低い優先レベルを有するユーザからの音声信号に対してより高い優先レベルを有するユーザからの音声信号が強化されることで、ユーザがより高い優先ユーザによる発話を彼らが話している時により明確に聞くことができるようにする。いくつかの実施形態では、共有通信チャネルのそれぞれのユーザは、最も注目を向けることに関心がある他のユーザは誰かに基づいて、個別化された優先レベルをチャネルの他のユーザに割り当ててよい。

プロセスフロー
図６は、１つまたは複数の実施形態による、共有通信チャネルにおける他のユーザからの受信される音声データを空間化しかつ強化するためのプロセスのフローチャートである。プロセスは、音声システム（例えば、音声システム３００）を含むヘッドセットによって行われてよい。第１のユーザのヘッドセットは共有通信チャネルに参加している（例えば、図１に示されるユーザ１０５のヘッドセット１１０であり、この場合、ユーザ１０５は共有通信チャネル１２０Ａの一部である）。他のエンティティは他の実施形態（例えば、コンソール）におけるプロセスのステップの一部または全てを行ってよい。同様に、実施形態は、異なるおよび／または追加のステップを含んでよい、または異なる順序でステップを行ってよい。

第１のユーザのヘッドセットは、第１のユーザの強化方向を判定する６０５。強化方向がユーザの視線方向に対応するいくつかの実施形態では、ヘッドセットは、ユーザの視線方向を判定するための視標追跡センサおよび位置センサを含む。例えば、位置センサは、ヘッドセットの位置および向きを判定可能であり、これによって第１のユーザの頭の位置および向きが推論可能である。さらに、視標追跡センサは、第１のユーザの頭に対する眼の向きを判定するために使用されてよい。そのように、位置センサおよび視標追跡センサの組み合わせは、第１のユーザの視線の方向を判定するために使用可能である。

ヘッドセットは、（例えば、トランシーバを介して）共有通信チャネルの１または複数の送信側ユーザからの音声信号を受信する６１０。音声信号は、送信側ユーザの発話に対応してよく、かつ送信側ユーザの識別情報などのさらなるメタデータ、および送信側ユーザの位置が判定可能であるデータを含んでよい。

ヘッドセットは、音声信号が受信された送信側ユーザのそれぞれと関連付けられた位置を判定する６１５。いくつかの実施形態では、ヘッドセットは、（例えば、送信側ユーザのヘッドセット上の位置センサによって判定されるように）送信側ユーザの位置を指示する音声信号と関連付けられたメタデータを受信する。他の実施形態では、ヘッドセットは、送信側ユーザのヘッドセット上の異なる場所に位置付けられる複数のアンテナ（例えば、アンテナアレイ）によって送信される複数の信号を受信する。受信された信号の位相またはタイミングに基づいて、ヘッドセットは、第１のユーザに対する送信側ユーザの相対位置を判定することができる。

ヘッドセットは、第１のユーザに対する送信側ユーザのそれぞれの相対位置を判定する６２０。送信側ユーザの相対位置は、第１のユーザの頭の向きに基づいて、送信側ユーザが第１のユーザに対してどこに位置しているか（例えば、第１のユーザの前に、第１のユーザの左になど）を指示することができる。

ヘッドセットは、それぞれの送信側ユーザの位置と第１のユーザの強化方向との間の偏差を判定する６２５。偏差は、第１のユーザの強化方向に対する送信側ユーザの位置を指示する。いくつかの実施形態では、ヘッドセットコントローラは、さらに、送信側ユーザと第１のユーザとの間の距離を判定してよい。

ヘッドセットは、第１のユーザに対する対応する送信側ユーザの位置に基づいて、それぞれの送信側ユーザに対する音声信号を空間化する６３０ことで、２つ以上のスピーカを通して第１のユーザに対して再生される音声信号が、特定の場所（例えば、送信側ユーザの場所）から生じるかのように聞こえ得るようにする。いくつかの実施形態では、音声信号を空間化することは、ユーザが、特定の場所から生じる音に対応するように、異なるスピーカを通る音の異なる振幅を解釈できるように、スピーカのそれぞれを通して再生される音声信号の振幅を構成することを含む。

ヘッドセットは、第１のユーザの強化方向に対する対応する送信側ユーザの位置の偏差に基づいて、それぞれの送信側ユーザに対する音声信号を強化する６３５。いくつかの実施形態では、送信側ユーザに対する音声信号は、送信側ユーザの位置の偏差が閾値を超えない場合、強化される。いくつかの実施形態では、強化の大きさは、送信側ユーザの場所と第１のユーザの強化方向との間の偏差量に反比例してよい。そのように、送信側ユーザからの音声信号は、送信側ユーザの場所が強化方向からさらに離れていた場合と比較して、送信側ユーザの場所が第１のユーザの強化方向に近かった場合により強力に強化されることが考えられる。いくつかの実施形態では、強化量はまた、他の送信側ユーザから現在受信されている音声信号の数、送信側ユーザと第１のユーザとの間の距離などに基づいてよい。いくつかの実施形態では、音声信号の強化は音声信号の減衰（例えば、逆方向の強化）を含んでよい。

そのように、共有通信チャネルにおいて他のユーザから受信された音声信号を空間化しかつ強化することによって、ヘッドセットのユーザは、注意を向けている他のユーザの発話により容易に集中でき、かつユーザは、音声信号が受信される他のユーザのそれぞれの場所を感じ取ることが可能になる。これによって、ユーザは、ノイズ環境においても注意を向けたい発話をより明確に聞くことができる一方、該環境における他のユーザへの認識が維持される。

図７は、１つまたは複数の実施形態による、ユーザの声に対応する音声信号を処理するためのプロセスのフローチャートである。プロセスは、音声システム（例えば、音声システム３００）を含むヘッドセットによって行われてよい。第１のユーザのヘッドセットは共有通信チャネルに参加している（例えば、図１に示されるユーザ１０５のヘッドセット１１０であり、この場合、ユーザ１０５は共有通信チャネル１２０Ａの一部である）。他のエンティティは他の実施形態（例えば、コンソール）におけるプロセスのステップの一部または全てを行ってよい。同様に、実施形態は、異なるおよび／または追加のステップを含んでよい、または異なる順序でステップを行ってよい。

ヘッドセットは、ヘッドセットのユーザによる発話に対応するユーザ音声信号を受信する７０５。いくつかの実施形態では、ユーザ音声信号は、ユーザの口の近くに位置する音響センサ（例えば、音響センサ２２５）によって記録される。いくつかの実施形態では、ユーザ音声信号は、ローカルエリアにおける特定の領域（例えば、ユーザの口の近く）から音を隔離しかつキャプチャするためにビーム形成を使用するマイクロホンアレイによって生成される。

ヘッドセットは、拡散されたユーザ音声信号を作り出すためにユーザ音声信号を時間的に分散させる１つまたは複数のフィルタ（例えば、オールパスフィルタ）をユーザ音声信号に適用する７１０。

ヘッドセットは、共有通信チャネルにおける他のユーザのヘッドセットに拡散されたユーザ音声信号を送信する７１５。ユーザ音声信号を時間的に分散することによって、別のユーザがユーザの実際の発話を聞く時と、この別のユーザが１つまたは複数のスピーカを通して該ユーザに対して再生される送信されるユーザ音声信号を聞く時との間の処理遅延量は、他のユーザに、望ましくないエコー効果をもたらす別個の聴覚イベントとしてユーザ音声信号を聞かせることなく、増大させることができる。

いくつかの実施形態では、ユーザ音声信号を時間的に分散し、かつ他のユーザのヘッドセットに分散させたユーザ音声信号を送信する代わりに、音声信号の時間的分散は、音声信号を受信するヘッドセットによって行われる。いくつかの実施形態では、ユーザ音声信号は、送信側ユーザのヘッドセットと受信側ユーザのヘッドセットとの相対位置またはこれらの間の距離に基づいて調節されてよい、１つまたは複数のフィルタリングパラメータに基づいて時間的に分散させる。

ヘッドセットは、ユーザ音声信号の改変版を作り出すためにユーザ音声信号にボイスフィルタを適用する７２０。ボイスフィルタは、人が話している時に頭蓋骨を通して伝わる人の声帯の振動が自身の声の聞こえ方に影響する効果をシミュレートするように構成される。いくつかの実施形態では、ユーザは、ボイスフィルタの１つまたは複数のパラメータを手動で構成することができることで、改変されたユーザ音声信号は自身の声の聞こえ方により厳密に一致することになる。

ヘッドセットは、（例えば、１つまたは複数のスピーカを通して）ユーザに対して改変されたユーザ音声信号を再生する７２０することで、ユーザは、自分の声の現在の音量をより良く感じ取ることができ、それによってユーザが自分の話す音量をより良く変えることができるようにする。

人工現実システムの例
図８は、１つまたは複数の実施形態による、上述される音声システムを含むヘッドセットのシステム環境である。システム８００は、人工現実環境、例えば、仮想現実、拡張現実、複合現実環境で、またはこれらの何らかの組み合わせで動作可能である。図８によって示されるシステム８００は、コンソール８１０に結合される、ヘッドセット８０５および入力／出力（Ｉ／Ｏ）インターフェース８１５を含む。ヘッドセット８０５はヘッドセット１１０の一実施形態であってよい。図８は、１つのヘッドセット８０５および１つのＩ／Ｏインターフェース８１５を含む例示のシステム８００を示すが、他の実施形態では、任意の数のこれらの構成要素がシステム８００に含まれてよい。例えば、それぞれが、関連付けられたＩ／Ｏインターフェース８１５を有する多数のヘッドセット８０５があってよく、それぞれのヘッドセット８０５およびＩ／Ｏインターフェース８１５がコンソール８１０と通信する。代替的な構成では、異なるおよび／または追加の構成要素がシステム８００に含まれてよい。さらに、図８に示される構成要素の１つまたは複数と併せて説明される機能性は、いくつかの実施形態では、図８と併せて説明される異なるやり方で構成要素の間で分散されてよい。例えば、コンソール８１０の機能性の一部または全ては、ヘッドセット８０５によって提供される。

ヘッドセット８０５は、コンピュータにより生成された要素を有する物理的な実世界環境の拡張視野を含むコンテンツ（２次元（２Ｄ）または３次元（３Ｄ）画像、２Ｄまたは３Ｄビデオ、音など）をユーザに提示する。ヘッドセット８０５は、アイウェアデバイスまたはヘッドマウントディスプレイであってよい。いくつかの実施形態では、提示されたコンテンツは、音声コンテンツ（例えば、共有通信チャネルの他のユーザから受信された音声信号）を含む。

ヘッドセット８０５は、音声システム８２０、センサシステム８２５、電子ディスプレイ８３０、および光学ブロック８３５を含む。音声システム８２０は、図３に説明される音声システム３００に対応してよく、かつ、マイクロホンアセンブリ２２５、トランシーバ２３０、スピーカアセンブリ３３０、およびコントローラ２１５を含んでよい。音声システム８２０は、他のＨＭＤの音声システムと通信し、ＨＭＤ８０５のユーザの発話に対応する音声信号をキャプチャし、（例えば、他のＨＭＤから）受信された音声信号を処理し、および、処理された音声信号をユーザに対して再生するように構成される。

センサシステム８２５は、カメラアセンブリ２３５、位置センサ２４０、および視標追跡センサ２４５を含んでよい１つまたは複数のセンサモジュールを含む。センサモジュールは、ＨＭＤ８０５の周りのローカルエリアの情報を生成し、およびＨＭＤ８０５の位置およびＨＭＤ８０５のユーザの視線方向を追跡するために使用されてよい。いくつかの実施形態では、センサシステム８２５のセンサは、ＨＭＤ８０５の位置を追跡するために追跡モジュール８５５と共に使用されてよい。

電子ディスプレイ８３０および光学ブロック８３５は、レンズ２１０の１つの実施形態である。ヘッドセット８０５のいくつかの実施形態は、図８と併せて説明される構成要素と異なる構成要素を有する。さらに、図８と併せて説明されるさまざまな構成要素によって提供される機能性は、他の実施形態ではヘッドセット８０５の構成要素の間で異なって分散される、またはヘッドセット８０５から遠隔の別個のアセンブリでキャプチャされる場合がある。

電子ディスプレイ８３０は、コンソール８１０から受信されたデータに従ってユーザに２Ｄまたは３Ｄ画像を表示する。さまざまな実施形態では、電子ディスプレイ８３０は、単一の電子ディスプレイまたは複数の電子ディスプレイ（例えば、ユーザのそれぞれの眼に対するディスプレイ）を含む。電子ディスプレイ８３０の例には、液晶ディスプレイ（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、アクティブマトリックス型有機発光ダイオードディスプレイ（ＡＭＯＬＥＤ）、導波路ディスプレイ、その他のディスプレイ、またはこれらの何らかの組み合わせが挙げられる。

いくつかの実施形態では、光学ブロック８３５は、電子ディスプレイ８３０から受信された画像光を拡大し、画像光と関連付けられた光学エラーを矯正し、および、ヘッドセット８０５のユーザに矯正された画像光を提示する。さまざまな実施形態では、光学ブロック８３５は１つまたは複数の光学素子を含む。光学ブロック８３５に含まれる例示の光学素子は、導波路、アパーチャ、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射面、または、画像光に影響する任意の他の適した光学素子を含む。さらに、光学ブロック８３５は、異なる光学素子の組み合わせを含んでよい。いくつかの実施形態では、光学ブロック８３５における光学素子の１つまたは複数は、部分的反射膜または反射防止膜などの１つまたは複数の膜を有することができる。

光学ブロック８３５による画像光の拡大および集束によって、電子ディスプレイ８３０は、物理的に小さくなり、軽量になり、より大きいディスプレイよりも電力消費が少なくなる。さらに、拡大によって、電子ディスプレイ８３０によって提示されるコンテンツの視野を大きくすることができる。例えば、表示されるコンテンツの視野は、表示されるコンテンツが（例えば、およそ１１０度対角線の）ほとんど全て、および場合によっては、ユーザの視野の全てを使用して提示される。さらに、いくつかの実施形態では、拡大量は光学素子を追加するまたは除去することによって調節されてよい。

いくつかの実施形態では、光学ブロック８３５は、１つまたは複数のタイプの光学エラーを矯正するように設計されてよい。光学エラーの例として、樽形歪曲もしくは糸巻き形歪曲、軸上色収差、または倍率色収差が挙げられる。他のタイプの光学エラーは、球面収差、色収差、もしくはレンズ像面湾曲によるエラー、非点収差、または任意の他のタイプの光学エラーをさらに含んでよい。いくつかの実施形態では、表示のために電子ディスプレイ８３０に提供されるコンテンツは予歪され、光学ブロック８３５は、コンテンツに基づいて生成される画像光を電子ディスプレイ８３０から受信する時の歪曲を矯正する。

Ｉ／Ｏインターフェース８１５は、ユーザが、アクション要求を送り、かつコンソール８１０から応答を受信できるようにするデバイスである。アクション要求は、特定のアクションを行うための要求である。例えば、アクション要求は、画像またはビデオデータのキャプチャを開始または終了するための命令、またはアプリケーション内の特定のアクションを行うための命令であってよい。Ｉ／Ｏインターフェース８１５は１つまたは複数の入力デバイスを含んでよい。例示の入力デバイスには、キーボード、マウス、手元コントローラ、または、アクション要求を受信し、かつコンソール８１０にアクション要求を通信するための任意の他の適したデバイスが挙げられる。Ｉ／Ｏインターフェース８１５によって受信されるアクション要求は、アクション要求に対応するアクションを行うコンソール８１０に通信される。いくつかの実施形態では、Ｉ／Ｏインターフェース８１５は、Ｉ／Ｏインターフェース８１５の初期位置に対するＩ／Ｏインターフェース８１５の推定される位置を指示する較正データをキャプチャする１つまたは複数の位置センサを含む。いくつかの実施形態では、Ｉ／Ｏインターフェース８１５は、コンソール８１０から受信される命令に従ってユーザへの触覚フィードバックを提供してよい。例えば、触覚フィードバックは、アクション要求が受信される時に提供される、またはコンソール８１０は、コンソール８１０がＩ／Ｏインターフェース８１５にコンソール８１０がアクションを行う時に触覚フィードバックを生成させる命令をＩ／Ｏインターフェース８１５に通信する。Ｉ／Ｏインターフェース８１５は、音声コンテンツの、感知された元の方向および／または感知された元の場所を判定する際に使用するための、ユーザからの１つまたは複数の入力応答を監視することができる。

コンソール８１０は、ヘッドセット８０５およびＩ／Ｏインターフェース８１５のうちの１つまたは複数から受信される情報に従って処理するためのコンテンツをヘッドセット８０５に提供する。図８に示される例では、コンソール８１０は、アプリケーションストア８５０、追跡モジュール８５５、およびエンジン８４５を含む。コンソール８１０のいくつかの実施形態は、図８と併せて説明されるものと異なるモジュールまたは構成要素を有する。同様に、さらに後述される機能は、図８と併せて説明されるのと異なるやり方でコンソール８１０の構成要素の間で分散させてよい。

アプリケーションストア８５０は、コンソール８１０による実行のための１つまたは複数のアプリケーションを記憶する。アプリケーションは、プロセッサによって実行される時、ユーザに提示するためのコンテンツを生成する命令のグループである。アプリケーションによって生成されるコンテンツは、ヘッドセット８０５の移動またはＩ／Ｏインターフェース８１５によってユーザから受信される入力に応答するものであってよい。アプリケーションの例として、ゲームアプリケーション、会議アプリケーション、ビデオ再生アプリケーション、または他の適したアプリケーションが挙げられる。いくつかの実施形態では、コンソール８１０はアプリケーションサーバ（例えば、アプリケーションサーバ１３０）として機能してよく、アプリケーションは、ユーザのグループ（例えば、異なるＨＭＤ８０５のユーザ）間の共有通信チャネルを維持するためのアプリケーションを含んでよい。

追跡モジュール８５５は、１つまたは複数の較正パラメータを使用してシステム環境８００を較正し、かつヘッドセット８０５またはＩ／Ｏインターフェース８１５の位置の判定におけるエラーを低減するように１つまたは複数の較正パラメータを調節してよい。追跡モジュール８５５によって行われる較正はまた、ヘッドセット８０５におけるセンサシステム８２５の１つもしくは複数のセンサモジュール（例えば、位置センサ）、またはＩ／Ｏインターフェース８１５に含まれる１つもしくは複数のセンサから受信された情報を考慮する。さらに、ヘッドセット８０５の追跡が失われる場合、追跡モジュール８５５はシステム環境８００の一部または全てを再較正することができる。

追跡モジュール８５５は、あるセンサ（例えば、位置センサ２４０、カメラアセンブリ２３５、またはこれらの何らかの組み合わせ）からの情報を使用して、ヘッドセット８０５またはＩ／Ｏインターフェース８１５の移動を追跡する。例えば、追跡モジュール８５５は、ヘッドセット８０５からの情報に基づいてローカルエリアのマッピングにおけるヘッドセット８０５の基準点の位置を判定する。追跡モジュール８５５はまた、ヘッドセット８０５の位置を指示するデータを使用して、またはＩ／Ｏインターフェース８１５に含まれる１つまたは複数のセンサからのＩ／Ｏインターフェース８１５の位置を指示するデータを使用して、それぞれ、ヘッドセット８０５の基準点またはＩ／Ｏインターフェース８１５の基準点の位置を判定してよい。さらに、いくつかの実施形態では、追跡モジュール８５５は、ヘッドセット８０５の将来の位置を予測するために位置またはヘッドセット８０５を指示するデータの一部分を使用してよい。追跡モジュール８５５は、ヘッドセット８０５またはＩ／Ｏインターフェース８１５の推定されるまたは予測される将来の位置をエンジン８４５に提供する。いくつかの実施形態では、追跡モジュール８５５は、受信される音声信号を空間化するおよび／または強化するやり方を判定する際に使用するための追跡情報を音声システム８２０に提供してよい。

エンジン８４５はまた、システム環境８００内のアプリケーションを実行し、かつ追跡モジュール８５５からヘッドセット８０５の、位置情報、加速情報、速度情報、予測される将来の位置、またはこれらの何らかの組み合わせを受信する。受信された情報に基づいて、エンジン８４５は、ユーザに対する提示のためにヘッドセット８０５に提供するためのコンテンツを判定する。例えば、受信された情報が、ユーザが左を見ていることを指示する場合、エンジン８４５は、仮想環境、または追加のコンテンツによるローカルエリアを拡張する環境におけるユーザの移動をミラーリングする、ヘッドセット８０５に対するコンテンツを生成する。さらに、エンジン８４５は、Ｉ／Ｏインターフェース８１５から受信されるアクション要求に応答してコンソール８１０上で実行するアプリケーション内のアクションを実行し、かつアクションが実行されたことのフィードバックをユーザに提供する。提供されたフィードバックは、ヘッドセット８０５を介した視覚もしくは聴覚フィードバック、またはＩ／Ｏインターフェース８１５を介した触覚フィードバックであってよい。

追加の構成情報
本開示の実施形態の前述の説明は例示の目的で提示されており、網羅的であること、または開示される正確な形態に本開示を限定することを意図するものではない。上記の開示の観点から多くの修正および変形が可能であるということを当業者は認識するはずである。

本説明の部分の中には、情報に対する動作のアルゴリズムおよび記号表現の観点から本開示の実施形態を説明するものもある。これらのアルゴリズム的説明および表現は、当業者の作業の実体を効果的に当業者に伝えるために、当業者によって一般に使用される。これらの動作は、機能的に、演算的に、または論理的に説明されるが、コンピュータプログラム、または同等の電気回路、マイクロコード、もしくは同様のものによって実行されることがわかる。さらに、一般性を失うことなく、動作のこれらの配置をモジュールと称することが時に便利であることも証明されている。説明した動作、およびこれらに関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはこれらの任意の組み合わせで具体化可能である。

本明細書に説明されるステップ、動作、または工程のいずれも、１つまたは複数のハードウェアまたはソフトウェアモジュール単独で、または他のデバイスと組み合わせて実行することまたは実施することが可能である。１つの実施形態では、ソフトウェアモジュールは、コンピュータプログラムコードを含んでいるコンピュータ可読媒体を備えるコンピュータプログラム製品で実装され、コンピュータプログラムコードは、説明されるステップ、動作、または工程のいずれかまたは全てを実行するために、コンピュータプロセッサによって実行可能である。

本開示の実施形態はまた、本明細書における動作を実行するための装置に関するものであってよい。この装置は、必要とされる目的のために特に構築され得る、および／または、コンピュータに記憶されたコンピュータプログラムによって選択的にアクティブにされたまたは再構成された汎用コンピューティングデバイスを備え得る。このようなコンピュータプログラムは、非一時的な有形のコンピュータ可読記憶媒体、または、電子的な命令を記憶するのに適した任意のタイプの媒体に記憶されてよく、これらの媒体は、コンピュータシステムバスに結合されてよい。また、本明細書で言及したいずれのコンピューティングシステムも、単一のプロセッサを含んでよい、または、計算能力を高めるために複数のプロセッサ設計を用いるアーキテクチャであってよい。

本開示の実施形態は、また、本明細書に説明される計算処理によって作り出される製品に関するものであってよい。このような製品は、計算処理から生じる情報を含むことができ、ここで、情報は、非一時的な有形のコンピュータ可読記憶媒体に記憶され、かつ、本明細書に説明されるコンピュータプログラム製品または他のデータの組み合わせの任意の実施形態を含み得る。

最後に、本明細書で使用される言葉は、可読性および指示目的のために主に選択されているが、発明の主題を正確に描写するためまたは制限するために選択されなかった場合がある。従って、本開示の範囲は、この「発明を実施するための形態」によってではなく、むしろ、本明細書に基づく用途に対して発行するいずれかの請求項によって限定されることが意図される。従って、実施形態の本開示は、本開示の範囲を例証するためのものであるが限定するものではなく、以下の特許請求の範囲に示される。

Claims

ヘッドセットであって、
前記ヘッドセットの第１のユーザの視線方向を判定するように構成される視線判定回路と、
第２のユーザのヘッドセットと関連付けられる音声信号を受信するように構成されるトランシーバと、
処理回路網であって、
前記第１のユーザに対する前記第２のユーザと関連付けられた相対位置を判定すること、
前記第１のユーザの強化方向に対する前記第２のユーザの位置の偏差を判定することであって、前記強化方向は前記第１のユーザの前記視線方向に少なくとも部分的に基づく、偏差を判定すること、
前記第２のユーザと関連付けられた前記相対位置に少なくとも部分的に基づいて前記第２のユーザと関連付けられた前記音声信号を空間化すること、および、
前記第１のユーザの前記強化方向に対する前記第２のユーザの特定された位置の前記偏差に少なくとも部分的に基づいて音声出力信号の振幅を増幅すること、を行うように構成される
処理回路網と、
空間化されかつ強化された前記音声出力信号に基づく音を投射することで、投射された前記音が前記第２のユーザの前記位置で生じるように感知されるように構成されるスピーカアセンブリと、を備える、ヘッドセット。
複数の異なる場所に配置される複数のマイクロホンを含むマイクロホンアレイをさらに備え、前記マイクロホンアレイは、前記第１のユーザのローカルエリアで音をキャプチャし、かつ音声入力信号を生成するように構成される、請求項１に記載のヘッドセット。
前記処理回路網は、
前記音声入力信号を解析して、前記第１のユーザの前記ローカルエリアにおける特定の領域から生じる音を特定するように、および、
前記特定の領域から生じる前記音に対応する前記音声入力信号の一部分を強化することによって前記音声入力信号からユーザ音声信号を生成するように
さらに構成される、請求項２に記載のヘッドセット。
前記特定の領域は前記第１のユーザの口に対応する、請求項３に記載のヘッドセット。
前記トランシーバは前記第２のユーザの位置情報を受信するようにさらに構成される、請求項１に記載のヘッドセット。
前記第１のユーザに対する前記第２のユーザと関連付けられた前記相対位置を判定するように構成されるアンテナアレイをさらに備える、請求項１に記載のヘッドセット。
前記処理回路網は、前記第１のユーザと前記第２のユーザとの間に見通し線があるかどうかに基づいて前記音声出力信号を空間化するようにさらに構成される、請求項１に記載のヘッドセット。
前記視線判定回路は、
前記第１のユーザの位置を受信することであって、前記位置は、少なくとも、前記第１のユーザの頭の向きを含む、位置を受信すること、および、
前記第１のユーザの頭に対する前記第１のユーザの眼の相対的な向きを判定すること
を行うように構成され、
前記第２のユーザと関連付けられた前記音声出力信号を空間化することは、前記第１のユーザの前記頭の向きに対する前記第２のユーザの前記位置の相対方向に基づく、請求項１に記載のヘッドセット。
前記受信機は第３のユーザから第２の音声信号を受信するようにさらに構成され、前記処理回路網は、
前記第１のユーザに対する前記第３のユーザと関連付けられた相対位置を特定すること、
前記第１のユーザの前記強化方向に対する前記第３のユーザの前記特定された相対位置の偏差を判定すること、
前記第３のユーザの前記特定された相対位置の前記偏差を前記第２のユーザの前記特定された相対位置の前記偏差と比較すること、および、
比較の結果に基づいて前記第３のユーザと関連付けられた前記第２の音声信号の振幅を増幅すること、
を行うようにさらに構成される、請求項１に記載のヘッドセット。
第１のユーザのヘッドセットにおいて、前記第１のユーザの強化方向を判定することと、
第１のユーザのヘッドセットにおいて、第２のユーザのヘッドセットと関連付けられた音声信号を受信することと、
前記第１のユーザに対する前記第２のユーザと関連付けられた相対位置を特定することと、
前記第１のユーザの前記強化方向に対する前記第２のユーザの特定された前記相対位置の偏差を判定することと、
前記第２のユーザと関連付けられた前記相対位置に少なくとも部分的に基づいて、前記第２のユーザと関連付けられた前記音声信号を空間化することと、
前記第１のユーザの前記強化方向に対する前記第２のユーザの前記特定された位置の前記偏差に少なくとも部分的に基づいて、音声出力信号の振幅を増幅することと、
空間化されかつ強化された前記音声出力信号に基づく音を投射することで、投射された前記音が前記第２のユーザの前記位置で生じるように感知されるようにすることと、
を含む、方法。
前記第１のユーザのローカルエリアで音をキャプチャし、かつ音声入力信号を生成するために複数の異なる場所に配置される複数のマイクロホンを含むマイクロホンアレイを使用することをさらに含む、請求項１０に記載の方法。
前記音声入力信号を解析して、前記第１のユーザの前記ローカルエリアにおける特定の領域から生じる音を特定することと、
前記特定の領域から生じる前記音に対応する前記音声入力信号の一部分を強化することによって前記音声入力信号からユーザ音声信号を生成することと、
をさらに含む、請求項１１に記載の方法。
前記特定の領域は前記第１のユーザの口に対応する、請求項１２に記載の方法。
前記第２のユーザの位置情報を受信することをさらに含む、請求項１０に記載の方法。
アンテナアレイにおいて、前記第２のユーザのヘッドセットから信号を受信することと、受信された前記信号に基づいて前記第１のユーザに対する前記第２のユーザと関連付けられた前記相対位置を判定することと、をさらに含む、請求項１０に記載の方法。
前記音声出力信号を空間化することは、前記第１のユーザと前記第２のユーザとの間に見通し線があるかどうかに基づく、請求項１０に記載の方法。
前記第１のユーザの強化方向を判定することは、
前記第１のユーザの位置を受信することであって、前記位置は、少なくとも、前記第１のユーザの頭の向きを含む、位置を受信すること、
前記第１のユーザの頭に対する前記第１のユーザの眼の相対的な向きを判定すること、ならびに、
前記頭の向き、および前記第１のユーザの頭に対する前記第１のユーザの眼の相対的な向きに基づいて視線方向を判定することによって、前記第１のユーザの前記視線方向を判定することを含み、
前記第２のユーザと関連付けられた前記音声出力信号を空間化することは、前記第１のユーザの前記向きに対する前記第２のユーザの前記位置の相対方向に基づく、請求項１０に記載の方法。
第３のユーザから第２の音声信号を受信することと、
前記第１のユーザに対する前記第３のユーザと関連付けられた相対位置を特定することと、
前記第１のユーザの前記強化方向に対する前記第３のユーザの前記特定された相対位置の偏差を判定することと、
前記第３のユーザの前記特定された相対位置の前記偏差を前記第２のユーザの前記特定された相対位置の前記偏差と比較することと、
比較の結果に基づいて前記第３のユーザと関連付けられた前記第２の音声信号の振幅を増幅することと、
をさらに含む、請求項１０に記載の方法。
１つまたは複数のプロセッサによって実行される時、前記１つまたは複数のプロセッサに、
第１のユーザのヘッドセットにおいて、前記第１のユーザの強化方向を判定すること、
第１のユーザのヘッドセットにおいて、第２のユーザのヘッドセットと関連付けられた音声信号を受信すること、
前記第１のユーザに対する前記第２のユーザと関連付けられた相対位置を特定すること、
前記第１のユーザの前記強化方向に対する前記第２のユーザの特定された前記相対位置の偏差を判定すること、
前記第２のユーザと関連付けられた前記相対位置に少なくとも部分的に基づいて、前記第２のユーザと関連付けられた前記音声信号を空間化すること、
前記第１のユーザの前記強化方向に対する前記第２のユーザの前記特定された位置の前記偏差に少なくとも部分的に基づいて、音声出力信号の振幅を増幅すること、および、
空間化されかつ強化された前記音声出力信号に基づく音を投射することで、投射された前記音が前記第２のユーザの前記位置で生じるように感知されるようにすること、を含む動作を行わせる命令を記憶する、非一時的なコンピュータ可読媒体。
前記第１のユーザの前記強化方向を判定することは、
前記第１のユーザの位置を受信することであって、前記位置は、少なくとも、前記第１のユーザの頭の向きを含む、位置を受信すること、
前記第１のユーザの頭に対する前記第１のユーザの眼の相対的な向きを判定すること、ならびに、
前記頭の向き、および前記第１のユーザの頭に対する前記第１のユーザの眼の相対的な向きに基づいて視線方向を判定すること
によって、前記第１のユーザの前記視線方向を判定することを含み、
前記第２のユーザと関連付けられた前記音声出力信号を空間化することは、前記第１のユーザの前記向きに対する前記第２のユーザの前記位置の相対方向に基づく、請求項１９に記載の非一時的なコンピュータ可読媒体。