JP7354225B2

JP7354225B2 - オーディオ装置、オーディオ配信システム及びその動作方法

Info

Publication number: JP7354225B2
Application number: JP2021500429A
Authority: JP
Inventors: クリスティアーンヴァレカンプ; ジェロエンジェラルドゥスヘンリクスコッペンス; バートクルーン; ネイサンスヴィラー‐ラバスティ; アーノルドゥスウェルナーヨハネスオーメン
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2018-07-09
Filing date: 2019-07-02
Publication date: 2023-10-02
Anticipated expiration: 2039-07-02
Also published as: BR112021000163A2; MX2021000136A; US11656839B2; CN112400158A; US20230251819A1; CN112400158B; US20220137916A1; EP3821333A1; EP3594802A1; WO2020011588A1; JP2021524612A

Description

本発明は、オーディオ装置、オーディオ配信システム及びその方法に関し、特に、これに限定されるものではないが、拡張／仮想現実会議アプリケーションをサポートするためにこのようなものを使用することに関する。

オーディオビジュアルコンテンツに基づく体験の多様性および範囲は、近年、このようなコンテンツを利用し消費する新しいサービスおよび方法が開発され、導入され続けており、大幅に増加している。特に、多くの空間的および対話的なサービス、アプリケーション、および体験がユーザに、より複雑で没入型の体験を与えるために開発されている。

そのようなアプリケーションの例は、急速に主流になりつつある仮想現実（ＶＲ）および拡張現実（ＡＲ）アプリケーションであり、いくつかのソリューションが消費者市場に向けられている。また、多くの標準化団体によって、多くの標準が開発されている。そのような標準化活動は、例えば、ストリーミング、ブロードキャスト、レンダリングなどを含むＶＲ／ＡＲシステムの様々な態様のための標準を積極的に開発している。

ＶＲアプリケーションはユーザが異なる世界／環境／シーンにいることに対応するユーザ体験を提供する傾向があるが、AR(複合現実MRを含む）アプリケーションはユーザが現在の環境にいるが、追加情報または仮想オブジェクト若しくは情報が追加されることに対応するユーザ体験を提供する傾向がある。したがって、ＶＲアプリケーションは完全に没入型の合成的に生成された世界／シーンを提供する傾向がある一方、ＡＲアプリケーションは、ユーザが物理的に存在する現実のシーンにオーバーレイされる部分的に合成された世界／シーンを提供する傾向がある。しかしながら、これらの用語はしばしば、互換的に使用され、高度の重なり合いを有する。以下では、仮想現実/ VRという用語が仮想現実と拡張現実の両方を示すために使用される。

一例として、サービスがますます一般的になっているのは、ユーザが能動的且つ動的にシステムと対話してレンダリングのパラメータを変更し、これがユーザの位置及び向きの変化と動きとに適応できるような態様で、画像及び音声を提供することである。多くの用途において非常に魅力的な特徴は、例えば、視聴者が、提示されているシーン内で動き回って「見回す」ことを可能にするなど、視聴者の実効的な視聴位置および視聴方向を変更する能力である。

そのようなフィーチャは、特に、仮想現実体験がユーザに提供されることを可能にすることができる。これにより、ユーザは仮想環境内で（比較的）自由に動き回ることができ、ユーザの位置およびユーザが見ている場所を動的に変更することができる。典型的には、このような仮想現実アプリケーションはシーンの３次元モデルに基づいており、このモデルは特定の要求されたビューを提供するために動的に評価される。このアプローチは、例えば、コンピュータ及びコンソール用のファーストパーソンシュータのカテゴリにおけるようなゲームアプリケーションから良く知られている。

また、特に仮想現実アプリケーションでは、提示される画像が３次元画像であることが望ましい。実際、視聴者の没入を最適化するためには、ユーザが典型的には提示されたシーンを３次元シーンとして体験することが好ましい。実際、仮想現実体験は、好ましくはユーザが自分の位置、カメラ視点、および仮想世界に対する時間的瞬間を選択することを可能にするべきである。

典型的には、仮想現実アプリケーションは、シーンの所定のモデル、典型的には仮想世界の人工モデルに基づくことに本質的に制限される。いくつかのアプリケーションでは、現実世界のキャプチャに基づいて仮想現実体験が提供される。多くの場合、このようなアプローチは、現実世界のキャプチャから構築される現実世界の仮想モデルに基づく傾向がある。この場合、仮想現実体験は、このモデルを評価することによって生成される。

多くの現在のアプローチは、準最適である傾向があり、しばしば、高い計算資源または通信資源要件を有し、および／または、例えば、低減された品質または制限された自由度で、最適以下のユーザ体験を提供する傾向がある。

アプリケーションの一例として、視聴者がキャプチャされた３６０°（パノラマ）または１８０°のビデオを体験することを可能にする仮想現実メガネが市場に入っている。これらの３６０°ビデオは、多くの場合、個々の画像が単一の球面マッピングに縫い合わされるカメラリグを使用して事前にキャプチャされる。１８０°または３６０°ビデオのための一般的なステレオフォーマットは、上／下および左／右である。非パノラマステレオビデオと同様に、左目および右目画像は、例えば、単一のＨ．２６４ビデオストリームの一部として圧縮される。

ビジュアルレンダリングに加えて、ほとんどのＶＲ／ＡＲアプリケーションは、対応するオーディオ体験をさらに提供する。多くの用途において、オーディオは、好ましくはオーディオソースがビジュアルシーン内の対応するオブジェクトの位置に対応する位置から到着すると知覚される空間オーディオ体験を提供する。このように、オーディオシーンおよびビデオシーンは、好ましくは、一貫性があり、両者が完全な空間体験を提供するように知覚される。

オーディオについては、これまで、主にバイノーラルオーディオレンダリング技術を用いたヘッドホン再生に焦点が当てられてきた。多くのシナリオにおいて、ヘッドホン再生はユーザに対し非常に没入的で個人化された体験を可能にする。ヘッディングトラッキングを使用して、レンダリングはユーザの頭の動きに応答して行われることができ、これは、没入感を大幅に増加させる。

最近、市場および標準の議論の両方において、ＶＲ(およびＡＲ）の「ソーシャル」または「共有」の側面、すなわち、他の人々と体験を共有する可能性を含む使用ケースが提案され始めている。これらは、異なる場所にいる人々でもあり得るが、同じ場所にいる人々（または両方の組み合わせ）でもあり得る。例えば、同じ部屋にいる複数の人々は、各参加者の投影（オーディオ及びビデオ）が当該ＶＲコンテンツ／シーンに存在した状態で同じＶＲ体験を共有することができる。例えば、複数の人々が参加するゲームでは、各プレーヤはゲームシーンにおいて異なる位置を有し、その結果、オーディオ及びビデオシーンの異なる投影を有することができる。

特定の例として、ＭＰＥＧは６つの自由度を有する現実的な没入的ＡＲ／ＶＲ体験のために、ビットストリームおよびデコーダを標準化することを試みている。ソーシャルＶＲは重要なフィーチャであり、ユーザが共有環境（ゲーム、電話会議、オンラインショッピングなど）で対話することを可能にする。ソーシャルＶＲの概念は、ＶＲ体験を、物理的に同じ場所にいるが、例えば、ヘッドマウントディスプレイまたは他のＶＲヘッドセットが物理的環境からの知覚的隔離をもたらすようなユーザにとって、より社会的な活動にさせることを容易にする。

ソーシャルＶＲアプリケーションの特定の例は、異なる場所にいるユーザが例えばアバタによって表されているユーザと仮想「ミーティングルーム」を共有することができる会議アプリケーションである。別の例として、各ユーザには、例えば、ＡＲメガネを使用して現実世界を他のユーザに対応するアバタとオーバーレイすることによって、ユーザ自身のローカル環境内に仮想的にレンダリングされている他の参加者の表現が提示され、その結果、これらアバタが部屋内に居るという印象を与える。さらに、個々のユーザには、他のすべての参加者からの関連するオーディオを含むオーディオシーンを提供することができ、このオーディオは適切に知覚されるオーディオソース位置で空間的にレンダリングされる。この音声及びビデオのレンダリングは、所与の参加者の視覚及びオーディオ位置が互いに対応するように実行される。

最適な体験を提供するために、オーディオおよびビデオの知覚は密接に整列することが望ましく、特にＡＲアプリケーションの場合には、これが現実世界のシーンとさらに整列することが望ましい。しかしながら、これは、ユーザの知覚に影響を及ぼし得る多くの問題があり得るので、しばしば達成することが困難である。例えば、実際には、ユーザは、通常、完全に無音または暗いことを保証できない場所で装置を使用する。ヘッドセットは光及び音を遮断しようとするが、これは典型的には部分的にのみ達成される。さらに、ＡＲアプリケーションでは、ユーザがローカル環境も体験できることが体験の一部であることが多く、したがって、この環境を完全に遮断することは実際的ではない。

したがって、特に仮想／拡張現実体験／アプリケーション（例えば、ＶＲ／ＡＲ会議アプリケーション）のための、オーディオを生成するための改善されたアプローチが有利であろう。特に、改善された動作、増加された柔軟性、低減された複雑さ、容易にされた実施、改善されたオーディオ体験、オーディオおよびビジュアルシーンのより一貫した知覚、ローカル環境におけるソースに対する低減されたエラー感度、改善されたバーチャルリアリティ体験、および／または改善された性能および／または動作を可能にするアプローチが有利であろう。

したがって、本発明は、好ましくは上記の欠点の１以上を単独でまたは任意の組み合わせで軽減、緩和または除去しようとするものである。

本発明の一態様によれば、複数のリモート（遠隔）クライアントからの到来オーディオを受信し、該到来オーディオから導出されたオーディオを前記複数の遠隔クライアントのうちの少なくともいくつかに送信するオーディオサーバを備えるオーディオ配信システムのためのオーディオ装置であって、各オーディオ成分（オーディオコンポーネント）が前記複数の遠隔クライアントのうちの遠隔クライアントからのオーディオを表す複数のオーディオ成分に関するオーディオデータと、遠隔クライアント間の近接度を示す前記オーディオ成分のうちの少なくとも１つに関する近接データとを含むデータを受信するための受信機と、前記近接データに応答して前記複数のオーディオ成分のオーディオミックスを生成するための生成器とを備えるオーディオ装置が提供される。

本発明は、多くの実施形態において改善されたユーザ体験を提供することができ、具体的には、特にＡＲ／ＶＲアプローチに基づく会議アプリケーションなどの、多くのアプリケーションにおいて改善されたオーディオ配信を提供することができる。このアプローチは、ユーザ／参加者が例えば同じ部屋にいるシナリオにおいて、改善されたオーディオ知覚を提供することができる。オーディオシーンの改善された、より自然な知覚が典型的に達成され、多くのシナリオにおいて、同一の場所にいるユーザ／クライアントから生じる干渉および不整合が軽減または低減され得る。このアプローチは、仮想現実（ＶＲ）（拡張現実（ＡＲ）を含む）アプリケーションにとり特に有利であり得る。これは、例えば、複数の参加者が同じ場所に存在するソーシャルＶＲ／ＡＲアプリケーションのための改善されたユーザ体験を提供する。

このアプローチは、多くの実施形態において、低い複雑さおよびリソース使用を維持しながら、改善されたパフォーマンスを提供する。

前記近接データは、具体的には音響近接データであり得る。近接データは、遠隔クライアントの組（典型的にはペア）に関する近接指示情報を含む。遠隔クライアントの組に対する近接指示情報は、遠隔クライアントおよび／または関連するオーディオソース／ユーザ間の空間距離を示し、または、例えば、遠隔クライアントおよび／または関連するオーディオソース／ユーザ間の音響減衰を示す。

前記オーディオミックスは、複数のオーディオ成分からの寄与度を（潜在的に）含むオーディオ信号／チャネルのセットであり得る。

前記近接データは、遠隔クライアント間の実世界／絶対／物理的近接度を示す。前記近接データは、特に、現実世界の音響環境における遠隔クライアント間の実際の物理的近接度を反映する。

本発明の任意選択の特徴によれば、前記生成器は前記複数の遠隔クライアントのうちの第１の遠隔クライアントのための第１のオーディオミックスを生成するように構成され、該第１のオーディオミックスの生成は、前記近接データに応答して、第２の遠隔クライアントに関する第２のオーディオ成分の第１のオーディオミックスにおける減衰を決定する処理を含む。

これは、多くのシナリオにおいて、改善されたユーザ体験および／または改善されたパフォーマンス並びにオーディオ知覚を提供する。これは、特に、レンダリングされたオーディオシーンと現実世界のオーディオシーンとの間の潜在的なオーディオ干渉に対する結合されたオーディオ知覚の改善された適応を可能にする。第２の遠隔クライアントに関する第２のオーディオ成分の第１のオーディオミックスにおける減衰は、前記近接データにおける近接指示情報に応答するものであり、該近接指示情報は、第１の遠隔クライアントと第２の遠隔クライアントとの間の近接度／距離を示す。

本発明の任意選択の特徴によれば、前記生成器は、第１の遠隔クライアントおよび第２の遠隔クライアントに対して近接基準を満たす近接データに関して第１のオーディオミックス内の第２のオーディオ成分を減衰させるように構成される。

これは、多くのシナリオにおいて、改善されたユーザ体験および／または改善されたパフォーマンス並びにオーディオ知覚を提供する。前記生成器は、第１のリモートクライアントと第２の遠隔クライアントとの間の閾値未満の距離尺度を示す近接データに対して第２のオーディオ成分を減衰させるように構成され得る。該減衰は無限大であってもよい。具体的には、前記生成器は、第１の遠隔クライアントおよび第２の遠隔クライアントについて近接基準を満たす近接データに関して第２のオーディオ成分を抑制／廃棄／除外するように構成され得る。

本発明のオプションの特徴によれば、前記オーディオ装置は前記オーディオサーバの一部である。

これは、多くの実施形態において、高い性能及び効率的な実装を提供する。

本発明の任意選択の特徴によれば、前記オーディオ装置は、前記複数の遠隔クライアントのうちの１つの遠隔クライアントの一部である。

本発明の任意選択の特徴によれば、前記近接データは少なくとも第１の遠隔クライアントおよび第２の遠隔クライアントに関するスカラ近接指示情報を含み、該スカラ近接指示情報は、第２の遠隔クライアントのオーディオソースから第１の遠隔クライアントのキャプチャ要素までの音響減衰を示す。

これは、多くの実施形態において特に有利な動作を提供する。いくつかの実施形態において、前記スカラ近接指示情報は、対応する遠隔クライアントが近位であるか否か（例えば、同じ部屋内であるか否か）を示すバイナリ近接指示情報であり得る。

本発明の任意選択の特徴によれば、前記近接データは、第１の遠隔クライアントから第２の遠隔クライアントへは、第２の遠隔クライアントから第１の遠隔クライアントへとは異なる近接指示情報を有する。

これは、多くのシナリオにおいて有利な動作を提供する。このアプローチは、例えば（指向性マイクロフォンを使用する場合、または参加者が密閉型ヘッドホンを装着する場合のように）局所的な音響差を反映するような、非対称な近接指示情報を可能にし、サポートする。

本発明の任意選択の特徴によれば、前記受信機は、前記複数の遠隔クライアントのうちの少なくとも１つのクライアントの位置の変化に動的に適応する近接データを受信するように構成される。

これは、効率的な動作を提供し、ユーザの動きに動的に適応するアプローチを提供する。

本発明の一態様によれば、複数の遠隔クライアントと、該複数の遠隔クライアントからの到来オーディオを受信すると共に該到来オーディオから導出されたオーディオを前記複数の遠隔クライアントのうちの少なくとも１つに送信するオーディオサーバとを備えるオーディオ配信システムであって、前記オーディオサーバ及び前記複数の遠隔クライアントの１つのうちの少なくとも１つが、各オーディオ成分が前記複数の遠隔クライアントのうちの１つの遠隔クライアントからのオーディオを表す複数のオーディオ成分に関するオーディオデータと、遠隔クライアント間の近接度を示す前記オーディオ成分のうちの少なくとも１つに関する近接データとを含むデータを受信するための受信機と、前記近接データに応答して前記複数のオーディオ成分のオーディオミックスを生成するための生成器とを備えるオーディオ配信システムが提供される。

本発明の任意選択の特徴によれば、前記オーディオ配信システムは、第１の遠隔クライアントおよび第２の遠隔クライアントに関する近接度指示情報を前記第１の遠隔クライアントに関する第１のオーディオ成分と第２の遠隔クライアントに関する第２のオーディオ成分との比較に応答して決定するように構成された近接度検出器と、該近接度指示情報を含む近接データを前記受信機に送信するための送信機とを備える。

これは、多くの実施形態において、特に有利な性能および低い複雑さを提供し得る。
本発明の任意の特徴によれば、前記近接度検出器は前記オーディオサーバの一部である。

これは、多くの実施形態において、特に有利な性能および低い複雑さを提供し得る。

本発明の任意選択の特徴によれば、前記複数の遠隔クライアントのうちの第１の遠隔クライアントは、マイクロフォンのセットによってキャプチャされたオーディオに対応するマイクロフォン信号を生成するための入力部と、該マイクロフォン信号と前記オーディオサーバから受信されたオーディオとの比較に応答して前記第１の遠隔クライアントに関する近接度指示情報を決定するように構成された近接度検出器と、該近接度指示情報を含む音響オーディオデータを前記オーディオサーバに送信するための送信機とを備える。

これは、多くの実施形態において、特に有利な性能および低い複雑さを提供し得る。前記マイクロフォンのセットは、いくつかの実施形態では、単一のマイクロフォンを含んでもよく、または、例えば、ビームフォーミング／指向性キャプチャのために使用される、例えば、マイクロフォンのアレイなどの複数のマイクロフォンを含んでもよい。

本発明の任意選択の特徴によれば、前記送信機は、現在アクティブな遠隔クライアントが、第１の近接検出器が前記マイクロフォン信号とオーディオサーバから受信したオーディオとの間の高い相関を検出することに応答して近接していると判定されていることを示す近接データを送信するように構成される。

本発明の一態様によれば、複数のリモートクライアントからの到来オーディオを受信し、該到来オーディオから導出されたオーディオを前記複数の遠隔クライアントのうちの少なくともいくつかに送信するオーディオサーバを備えるオーディオ配信システムのためのオーディオ装置の動作方法であって、各オーディオコンポーネントが前記複数の遠隔クライアントのうちの１つの遠隔クライアントからのオーディオを表す複数のオーディオ成分に関するオーディオデータと、前記オーディオ成分のうちの少なくとも１つに関する近接データであって、遠隔クライアント間の近接度を示す近接データとを有するデータを受信するステップ、及び前記近接データに応答して前記複数のオーディオ成分のオーディオミックスを生成するステップを備えるオーディオ配信システムのためのオーディオ装置の動作方法が提供される。

本発明のこれらおよび他の態様、特徴および利点は以下に記載される実施形態から明らかになり、それを参照して説明される。

図１は、オーディオ分配システムの一例を示す。図２は、オーディオ配信システムの一例を示す。図３は、オーディオ会議のためのオーディオ配信システムの一例を示す。図４は、本発明のいくつかの実施形態によるオーディオ装置の要素の一例を示す。図５は、本発明のいくつかの実施形態によるオーディオ配信システムの要素の一例を示す。図６は、本発明のいくつかの実施形態によるオーディオ配信システムのための遠隔クライアントの要素の一例を示す。

本発明の実施形態を、単なる例として図面を参照して説明する。

ユーザが仮想世界または拡張世界で動き回ることを可能にする仮想（拡張を含む）体験は、ますます一般的になりつつあり、そのような要求を満たすためにサービスが開発されつつある。多くのこのようなアプローチでは、ビジュアルおよびオーディオデータは、ユーザ（または視聴者）の現在の姿勢（ポーズ）を反映するように動的に生成され得る。

この分野では、配置および姿勢という用語が、位置および／または方向／向きに関する共通の用語として使用される。例えば、物体、カメラ、頭部、またはビューの位置および方向／向きの組み合わせを、姿勢または配置と呼ぶことができる。したがって、配置または姿勢指示情報は、最大６つの値／成分／自由度を含むことができ、各値／成分は、典型的には対応する物体の位置／場所または向き／方向の個々の特性を記述する。もちろん、多くの状況において、配置または姿勢は、例えば１つまたは複数の成分が固定または無関係であると見なされる場合、より少ない成分によって表すことができる（例えば、すべての物体が同じ高さにあり、水平の向きを有すると見なされる場合、４つの成分が物体の姿勢の完全な表現を提供することができる）。以下では、姿勢（ポーズ）という用語が１～６つの値（可能な最大自由度に対応する）によって表すことができる位置および／または向きを指すために使用される。

多くのＶＲアプリケーションは、最大自由度、すなわち、位置および向きのそれぞれの３自由度を有する姿勢に基づいており、その結果、合計６自由度が得られる。このように、姿勢は６つの自由度を表す６つの値の組またはベクトルによって表すことができ、したがって、姿勢ベクトルは、３次元位置および／または３次元方向指示情報を与えることができる。しかしながら、他の実施形態では、姿勢がより少ない値によって表されてもよいことが理解されるであろう。

視聴者に最大自由度を提供することに基づくシステムまたは主体は、通常、６の自由度（６ＤｏＦ）を有すると呼ばれる。多くのシステムおよび主体は向きまたは位置のみを提供し、これらは、典型的に３の自由度（３ＤｏＦ）を有するものとして知られている。

典型的に、仮想現実アプリケーションは左目及び右目のための別々のビュー画像の形態で３次元出力を生成する。次いで、これらは、典型的にはＶＲヘッドセットの個々の左目ディスプレイおよび右目ディスプレイなどの適切な手段によってユーザに提示され得る。他の実施形態では、１つ以上のビュー画像が、例えば自動立体ディスプレイ上で提示されてもよく、又は実際に幾つかの実施形態では単一の２次元画像のみが生成されてもよい（例えば、従来の２次元ディスプレイを使用して）。

同様に、所与の視聴者／ユーザ／リスナ姿勢に対して、シーンのオーディオ表現も提供され得る。該オーディオシーンは、典型的にはオーディオソースが所望の位置から生じると知覚される空間体験を提供するようにレンダリングされる。オーディオソースはシーン内で静止的であり得るので、ユーザ姿勢の変化により、ユーザの姿勢に対するオーディオソースの相対位置が変化する。したがって、該オーディオソースの空間的知覚は、ユーザに対する新しい位置を反映するように変化しなければならない。オーディオレンダリングは、それに応じて、ユーザの姿勢に依存して調整され得る。

多くの実施形態では、オーディオレンダリングがヘッドホンを装着しているユーザに所望の空間効果を提供するために、頭部関連伝達関数（ＨＲＴＦ）または両耳室インパルス応答（ＢＲＩＲ）（または同様のもの）を使用する両耳レンダリングである。しかしながら、幾つかのシステムでは、オーディオが代わりにスピーカシステムを用いてレンダリングされてもよく、各スピーカに対する信号はユーザにおける全体的な効果が所望の空間的体験に対応するようにレンダリングされ得ることが理解されよう。

視聴者またはユーザの姿勢入力は、異なるアプリケーションでは異なるやり方で決定され得る。多くの実施形態では、ユーザの物理的な動きを直接追跡する。例えば、ユーザエリアを見渡すカメラはユーザの頭部（または目（アイトラッキング））を検出し、追跡する。多くの実施形態では、ユーザが外部および／または内部手段によって追跡するＶＲヘッドセットを装着する。例えば、ヘッドセットは、該ヘッドセット、したがって頭部の移動および回転に関する情報を提供する加速度計およびジャイロスコープを備える。いくつかの例では、ＶＲヘッドセットが信号を送信し、または外部センサが該ＶＲヘッドセットの位置を決定することを可能にする（たとえば、視覚的）識別子を備える。

いくつかのシステムでは、視聴者姿勢が手動手段によって、例えば、ユーザがジョイスティックまたは同様の手動入力を手動で制御することによって提供されてもよい。例えば、ユーザは一方の手で第１のアナログジョイスティックを制御することにより仮想シーン内で仮想視聴者を手動で動かすことができ、他方の手で第２のアナログジョイスティックを手動で動かすことによって該仮想視聴者が見ている方向を手動で制御する。

いくつかのアプリケーションでは、手動アプローチと自動アプローチとの組み合わせを使用して、入力視聴者姿勢を生成するこ。例えば、ヘッドセットが頭部の向きを追跡し、シーン内の視聴者の動き／位置は、ジョイスティックを使用してユーザにより制御される。

幾つかのシステムにおいて、ＶＲアプリケーションは、例えば、いかなるリモートＶＲデータ若しくは処理も使用しない、又はこれらに対する如何なるアクセスも有さないスタンドアロン装置によって、視聴者にローカルに提供され得る。例えば、ゲームコンソールのような装置は、シーンデータを記憶するための記憶装置と、視聴者姿勢を受信／生成するための入力部と、上記シーンデータから対応する画像を生成するためのプロセッサとを備える。

他のシステムでは、ＶＲアプリケーションは、視聴者から遠隔で実施化され、実行され得る。例えば、ユーザに対しローカルな装置は、動き／姿勢データを検出／受信し、該データは遠隔装置に送信され、該遠隔装置が該データを処理して視聴者姿勢を生成する。次いで、上記遠隔装置は、シーンを記述するシーンデータに基づいて、上記視聴者姿勢のための適切なビュー画像を生成する。次に、上記ビュー画像は、それらが提示される視聴者に対してローカルな装置に送信される。例えば、遠隔装置は、ローカル装置によって直接提示されるビデオストリーム（典型的にはステレオ／３Ｄビデオストリーム）を直接生成する。同様に、遠隔装置は、仮想オーディオ環境を反映するオーディオシーンを生成する。これは、多くの実施形態では、仮想オーディオ環境における異なるオーディオソースの相対位置に対応するオーディオ信号を生成することによって、例えば、頭部姿勢に対するこれらの現在位置に対応する個々のオーディオ成分にバイノーラル処理を適用することによって、行われる。このように、このような例では、ローカル装置は、動きデータを送信し、受信したビデオおよびオーディオデータを提示する以外は、いかなるＶＲ処理も実行しなくてよい。

同様に、遠隔ＶＲ装置はオーディオシーンを表すオーディオデータを生成し、該オーディオシーン内の異なるオーディオソースに対応するオーディオ成分（オーディオコンポーネント）／オブジェクトを、これらの位置を示す位置情報（例えば、動くオブジェクトに対して動的に変化することができる）とともに送信する。次いで、ローカルＶＲ装置、例えば、上記オーディオ成分に関するオーディオソースの相対位置を反映する適切なバイノーラル処理を適用することによって、そのような信号を適切にレンダリングする。

オーディオ側については、中央サーバがいくつかの実施形態において、それに応じて、遠隔クライアント装置によって直接レンダリング可能な空間オーディオミックスを生成する。例えば、中央サーバは、サラウンドサウンドスピーカ装置によって直接レンダリングするための複数のオーディオチャネルとして空間オーディオを生成する。しかし、より一般的には、中央サーバがレンダリングされるべきシーン内のすべてのオーディオ信号をバイノーラル処理し、次いで、これらをバイノーラルステレオ信号に結合することによってミックスを生成し、このバイノーラルステレオ信号は１組のヘッドホンを使用してクライアント側で直接レンダリングされる。

多くのアプリケーションでは、中央サーバが、代わりに複数のオーディオオブジェクトまたはコンポーネントを供給し、これらの各々は典型的には単一のオーディオソースに対応する。この場合、クライアントは、そのようなオブジェクト／コンポーネントを処理して、所望のオーディオシーンを生成する。具体的には、クライアントは所望の位置に基づいて各オーディオオブジェクトをバイノーラルに処理し、その結果を組み合わせる。

このようなシステムでは、遠隔クライアントに送信されるオーディオデータは、複数のオーディオ成分またはオブジェクトのためのデータを含む。当該オーディオは、例えば、レンダリングされるべき所与のオーディオ成分に関する符号化オーディオとして表される。該オーディオデータは、当該オーディオ成分のソースの位置を示す位置データをさらに含む。該位置データは、例えば、シーン内のオーディオソースの位置を定義する絶対位置データを含む。ローカル装置は、そのような実施形態では、現在のユーザ姿勢に対するオーディオソースの相対位置を決定する。したがって、受信される位置データはユーザの動きとは無関係であり得、オーディオソースの相対位置はユーザに対する該オーディオソースの位置を反映するようにローカルに決定する。そのような相対位置は、当該オーディオソースが何処から生じたかをユーザが知覚すべき相対位置を示し、したがって、ユーザの頭の動きに応じて変化する。他の実施形態では、オーディオデータが相対位置を直接記述する位置データを含む。

図１は、中央サーバ１０１が例えばインターネットのようなネットワーク１０５を介して複数の遠隔クライアント１０３と連動するＶＲシステムの一例を示す。中央サーバ１０１は、潜在的に多数の遠隔クライアント１０３を同時にサポートするように構成される。

このようなアプローチは、多くのシナリオにおいて、例えば、異なるデバイス（装置）に対する複雑さとリソース要求、通信要求などの間の改善されたトレードオフを提供する。例えば、視聴者姿勢および対応するシーンデータは、より大きな間隔で送信され得、ローカル装置はリアルタイムの低遅延体験を提供するために上記視聴者姿勢および受信されたシーンデータをローカルに処理する。これは、例えば、必要とされる通信帯域幅を大幅に減少させる一方で、短い待ち時間の体験を提供し、シーンデータが集中的に記憶され、生成され、維持されることを可能にする。これは、例えば、ＶＲ体験が複数のリモートデバイスに提供されるアプリケーションに適し得る。

特に魅力的なＶＲ／ＡＲアプリケーションは、ユーザ／参加者が異なる場所に存在し得る仮想遠隔会議アプリケーションである。このようなアプリケーションの一例が、複数のリモート（オーディオ）クライアント１０３をサポートする、図１の中央サーバに対応する中央サーバ１０１を示す図２に示されている。見て分かるように、すべての遠隔クライアント１０３は、互いにではなく中央サーバ１０１と直接通信する。したがって、各遠隔クライアント１０３は、当該遠隔クライアント１０３に関する１つ以上のローカルオーディオソースに対応するオーディオ成分を中央サーバ１０１にアップロードする。中央サーバ１０１は、他の遠隔クライアント１０３からのオーディオを表す個々の遠隔クライアント１０３にオーディオデータを送信する。通常、各ユーザまたは参加者は遠隔クライアント１０３を実装する別個のデバイスを有するが、もちろん、遠隔クライアントはいくつかの実施形態およびシナリオでは複数のユーザ／参加者によって共有されてもよい。

しかしながら、本発明者らは、多くのこのような実用的なシステムおよびアプリケーションの問題として、ローカル環境におけるオーディオがユーザ体験に影響を及ぼし得ることであることに気付いた。実際に、ローカル環境においてオーディオを完全に抑制することは困難である傾向があり、確かなことに、ヘッドホンを装着した場合であっても、ローカル環境から知覚されるオーディオへの知覚可能な寄与があるのが典型的である。場合によっては、このような音は、例えばアクティブノイズキャンセレーションを使用して抑圧することができる。しかしながら、これは、当該ＶＲシーンに直接的な対応物を有するオーディオソースに対しては実用的ではなく、しばしば不完全である傾向がある。

実際、現実の環境音とオーディオシーン音との間の干渉の問題は、例えば多くのＡＲ体験のような、ローカル環境にも反映するＶＲ体験を提供するアプリケーションにとって特に問題である。

例えば、同じローカル環境（例えば、部屋）内の複数の人々が共通の体験を共有するＶＲの「ソーシャル」または「共有」態様を含むアプリケーションが追求されている。このような「ソーシャル」または「共有」使用ケースが、例えばＭＰＥＧにおいて提案されており、今や現在のＭＰＥＧ‐Ｉ標準化活動のための主要な体験分類の１つとなっている。そのようなアプリケーションの例は、いく人かの人が同じ部屋にいて、ＶＲコンテンツ内に各参加者の投影（オーディオ及びビデオ）も存在する状態で同じＶＲ体験を共有する場合である。

このようなアプリケーションでは、ＶＲ環境が各参加者に対応するオーディオソースを含み得るが、これに加えて、ユーザは、例えばヘッドホンの典型的な漏れのために、他の参加者がローカルに存在する場合には該他の参加者も直接聞き得る。実際、多くの状況において、参加者はローカル環境を聞くために、開放型ヘッドホンを意図的に着用し得る。この干渉は、ユーザ体験に有害であり得、参加者の没頭を低減し得る。しかし、実際の音成分にノイズキャンセルを行うことは非常に困難であり、計算的に非常に高価である。ほとんどの典型的なノイズキャンセリング技術は、ヘッドホン内のマイクロフォンと、該マイクロフォン信号内の如何なる実世界信号成分も最小化（好ましくは完全に）するフィードバックループ（マイクロフォン信号は該ループを駆動するエラー信号とみなされ得る）とに基づいている。しかしながら、このようなアプローチは、知覚されるオーディオ内に該オーディオソースが実際に存在することが望まれる場合には実現可能ではない。

発明者らは、図２のような会議システムの場合、特に、異なるユーザ／参加者が同じ物理的な場所に居り、且つ、各ユーザが自身のマイクロフォン及び当該会議サーバへの接続を有する場合、すなわち、異なる共存ユーザが異なる遠隔クライアントを使用する場合、オーディオ体験が悪化し得ることを認識した。会議サーバは、各遠隔クライアントに、他の遠隔クライアントからのすべての到来信号を含む固有のミックスを送信し得る。ユーザが同じ物理的位置にいる場合、これらユーザは、通常、その位置にいる他のユーザを音響的に聞く（ヘッドホンがどの程度音響的に開放的であるかに依存する）のみならず、自身のヘッドホンを介しても聞く。受信されるオーディオは、他のユーザの遠隔クライアントからのオーディオ成分も含むからである。この会議接続上での遅延は、典型的には、これを非常に不快な体験にするのに十分な大きさである。

これは、ビジュアル成分に加わるので、ＡＲ／ＶＲにとって特に重大な問題となる。遠隔の人物がＡＲ体験に参加する場合、この人物は、例えばアバタを介して視覚的にもレンダリングされ得る。

当該ユーザに対する外部音レベルを低減するために全てのユーザが十分に密閉型のヘッドフォンセットを着用しても（ＶＲにとり最も可能性の高い使用ケース）、共通の場所で録音されるすべてのマイクロフォン信号には、依然として各ユーザの音声の（直接的な音響）成分が存在する。このことは、音声が異なるマイクロフォンにわずかに異なる遅延で到着し、したがって、それ自体にわずかに異なる遅延（およびより減衰されたバージョン）で混合されるため、アーチファクトを引き起こす可能性がある。結果は、櫛形フィルタ処理が適用されることに対応する効果であり得る。

このように、ローカル音源は、レンダリングされるオーディオステージのユーザのオーディオ知覚と、個々の参加者の音のキャプチャとの両方を妨害し得る。

会議システムは、発話していない参加者のマイクロフォンから雑音または背景音を除去することにより能動的音声の明瞭度を改善するために、低レベルのマイクロフォン信号のユーザをミュートまたは減衰できるが、これは当該問題に完全に対処するものではない。例えば、他の参加者のマイクロフォンが十分に高いレベルで音声をピックアップする場合、これらはミュートまたは減衰されず、その結果、信号対雑音比が低下し得る。

この問題は、図３の例によって説明することができる。部屋Ａのシナリオは、現在の会議システムにおいて、おそらく深刻なアーチファクトをもたらす。サーバへの２つの接続により、ユーザＡ１のデバイスはユーザＡ２の遅延音声を再生し、その逆もなりたつ。

通常、同じ部屋、または少なくともお互いの近傍で使用されている２つ以上の接続の場合、会議サーバからの各ユーザのオーディオは、それ自身のマイクロフォン信号は除外するが、会議コーデックシステムおよびユーザとサーバとの間の接続などによって決定される待ち時間をもつ他のすべてのユーザからのオーディオを含む。典型的な会議システムでは、これらの遅延は５００ｍｓ未満である。

この状況には、以下の様ないくつかの欠点がある：
－ユーザが遅延（遅延聴覚フィードバック）を伴う自身の音声を聞くことは、非常に苛立たしいものであり、精神的ストレスを引き起こすことが知られている。
－ユーザＡ１が話している場合、それは当該部屋内の他の人（単数または複数）に対して音声明瞭度に悪影響を及ぼし、これは聴取努力および疲労を増加させる。
－ユーザＡ１が話している場合、当該部屋内の他のユーザのクライアントスピーカからの遅延された音声もユーザＡ１のマイクロフォンによってピックアップされ、これも他のユーザのスピーカを介して再び再生され、等々となり、潜在的に音響フィードバック（「リンギング」）を引き起こす。
－ユーザＡ１が話している場合には、これは他のすべてのユーザのマイクロフォンによってもピックアップされ、どの人物が話しているかを当該システムが決定することに関し問題を引き起こし得るか（当該システムがＳＮＲを管理するために他の人物をミュートまたは減衰させることを妨げる）、または信号レベルの蓄積を引き起こし得る。

以下では、そのような効果および欠点を典型的に軽減することができるアプローチを説明する。このアプローチは、異なるリモートクライアント間の音響／空間関係を示すメタデータを生成し、配信することに基づく。例えば、どの（もしあれば）遠隔クライアントが同じ場所に位置するか、特に遠隔クライアントが同じ部屋内に存在するかどうかを示すメタデータを生成することができる（遠隔クライアントの位置は、例えばローカルオーディオをキャプチャする１つまたは複数のマイクロフォンの位置などの、ローカルオーディオのキャプチャの位置に対応すると考えることができる）。該メタデータは、例えば、中央サーバまたは（他の）遠隔クライアントに配布され、そこで適切なオーディオの生成に使用される（および潜在的には他の目的にも使用される）。

図４は、複数の遠隔クライアントにサービスを提供し、遠隔クライアントとの間でオーディオを送受信するように配置されたオーディオサーバを含むオーディオ配信システムのためのオーディオ装置の例を示す。以下の説明は、ＶＲ会議システムとしてのオーディオ配信システムに焦点を合わせ、図１～図３のようなシステムを参照して具体的に記載される。しかし、一般的なアプローチおよび原理は、そのようなオーディオ会議システムに限定されず、他のソーシャルＡＲサービスなどの多くの他のオーディオ配信システムおよびアプリケーションにも適用され得ることが理解されるであろう。

したがって、中央サーバ１０１は、以下ではオーディオサーバ１０１と呼ばれる。該サーバは、特にオーディオ会議アプリケーションをサポートしているため、会議サーバと見なされ得る。同様に、遠隔クライアント１０３の各々は、会議参加者／ユーザ（または潜在的に複数のもの）を表し、参加者の音／オーディオを表すオーディオコンポーネントをキャプチャ／生成し、結合された会議オーディオシーンをユーザに対してレンダリングする機能を果たす。各遠隔クライアントは、さらに、例えば、他の参加者を表すアバタを用いて完全な仮想シーンを生成することによって、または、例えば、ＡＲヘッドセットのための視覚的オーバーレイを生成することによって、対応する視覚的（ビジュアル）シーンを生成するための機能を備える。該オーディオ及びビジュアルシーンは、一貫性があり、適切な会議シナリオの統合されたレンダリングを提供するように生成される。

典型的には、各遠隔クライアントは、音をキャプチャするように構成された少なくとも１つのマイクロフォンを備える。遠隔クライアントは、更に、キャプチャされたマイクロフォン信号からオーディオ成分を生成するように構成され、このオーディオ成分はオーディオサーバ１０１に送信され得る。

オーディオサーバ１０１は、異なる遠隔クライアント１０３からオーディオ成分を受信する。次に、オーディオサーバ１０１は、他の遠隔クライアント１０３から受信したオーディオ成分を反映するオーディオを各遠隔クライアント１０３に送信する。ある実施形態では、オーディオサーバ１０１が、遠隔クライアント１０３が他の遠隔クライアント１０３からオーディオ成分を受信するように、受信したオーディオ成分を転送してもよい。他の実施形態では、オーディオサーバ１０１は、適切な遠隔クライアント１０３のためのオーディオ成分を結合することによって、結合されたオーディオミックス表現（例えば、サラウンドサウンド信号、バイノーラル信号、またはモノラル信号）を生成する。そのような実施形態では、オーディオサーバ１０１が各遠隔クライアント１０３に対して特定のオーディオダウンミックスを生成する。該オーディオミックスは、複数の遠隔クライアント１０３からのオーディオ成分を表すオーディオ信号を含む。

図４のオーディオ装置は、オーディオデータと、近接データを含む関連するメタデータとを受信するように構成された受信機４０１を備える。

受信機４０１は具体的には複数のオーディオ成分を受信するように構成され、各オーディオ成分は遠隔クライアントからの音（サウンド）を表す。したがって、該オーディオ装置は複数のオーディオ成分を受信し、これらのオーディオ成分の各々は、それが受信された遠隔クライアント１０３に関連付けられる。各オーディオ成分は、特に、遠隔クライアント１０３において１組のマイクロフォンによってキャプチャされたオーディオ／サウンドに対応する。

さらに、受信機４０１は、当該オーディオ成分の少なくとも１つ、典型的にはいくつか、または実際にはすべてについて近接データを受信する。該近接データは、遠隔クライアント１０３間の音響／空間関係に関する情報を提供する関係データを提供する。

当該近接データは、具体的には、複数の遠隔クライアントのうちの遠隔クライアント間の近接度を示す。第１の遠隔クライアントから第２の遠隔クライアントへの近接表示情報は、第１の遠隔クライアントのオーディオソース（第１の遠隔クライアントに関連付けられた発言中の参加者など）から第２の遠隔クライアントに関連付けられた位置までの（現実世界の）音響減衰（特に、空気中または他の媒体中の振動による音の伝播の）を反映する。この位置は、具体的には、第１の遠隔クライアントに関するオーディオ成分が生成される信号をキャプチャする第１の遠隔クライアントのマイクロフォンの位置であってもよく、または、例えば、ユーザ（および具体的にはユーザの耳）若しくは複数のユーザの位置であってもよい。

このように、当該近接データは、具体的には音響近接データであり、遠隔クライアント１０３の対または組に関する近接指示情報などの、遠隔クライアントに関する近接指示情報を含む。

したがって、近接データ／近接指示情報は、第１の遠隔クライアントの位置から第２の遠隔クライアントの位置までの音響伝達関数／減衰を反映する。第２の遠隔クライアントに対する第１の遠隔クライアントの近接指示情報は、第２の遠隔クライアントに関連するオーディオが第１の遠隔クライアントに関連するオーディオに干渉する程度またはレベルを反映する。

第１の遠隔クライアントから第２の遠隔クライアントへの近接指示情報は、第１の遠隔クライアントのオーディオ成分にキャプチャされる第２の遠隔クライアントに関連するオーディオソースからのオーディオの量を具体的に反映する。具体的には、近接指示情報は、第２の遠隔クライアントの話者／参加者からのどれだけのオーディオが第１の遠隔クライアントによってキャプチャされるかを反映する。

当該近接データ／指示情報は、多くのシナリオにおいて、空間的近接度に直接対応し、空間近接度という用語を使用する。したがって、前記近接データは、異なる遠隔クライアントの空間的近接度を示すデータであり得る。多くの実施形態において、当該近接データは、どの遠隔クライアントが近位にあり、特に同一場所に存在するかの情報を提供する。リモートクライアントは、１つの遠隔クライアントのオーディオ成分によって表されるオーディオが別の遠隔クライアントによってもキャプチャされ得る場合、同一場所にある／近位であると見なされ得る。いくつかの実施形態では、遠隔クライアントは、これらの遠隔クライアントの位置が距離基準を満たす場合、例えば、空間距離が閾値未満である場合、または遠隔クライアントが同じ部屋にある場合、同一場所にある／近位であると見なす。いくつかの実施形態では、判定の繰り返し反転を回避するために、ヒステリシスが閾値に組み込まれる。

当該近接データは、遠隔クライアント間の現実世界の近接度、特に、遠隔クライアント間の現実世界の音響／音伝播近接度を示す。当該近接指示情報は、オーディオミックスの生成されたオーディオシーンにおける対応するオーディオの所望の位置とは無関係であってもよい。該近接指示情報は、仮想（オーディオ）シーン位置とは無関係であってもよい。該近接指示情報／データは、現実世界の空間／音響特性を示す。したがって、レンダリングされるべきオーディオ間の何らかの形態の所望の近接度を反映するのではなく、当該近接データは、遠隔クライアント間の実際の物理的近接度および音響環境を反映する。当該近接データは、例えば何らかの非物理的領域の何らかの形態の想像上の、理論的、仮想的、または所望の近接度を反映するものではなく、実世界の（典型的には音響的）近接度を反映する。

多くの実施形態では、近接指示情報は対称であり得る。すなわち、第１の遠隔クライアントから第２の遠隔クライアントへの近接度、及び第２の遠隔クライアントから第１の遠隔クライアントへの近接度に対して同じ近接指示情報／尺度が当てはまり得る。しかしながら、いくつかの実施形態では、非対称近接指示情報が適用されてもよい。例えば、指向性マイクロフォンを使用する遠隔クライアントの場合、第１の遠隔クライアントに関連するスピーカの第２の遠隔クライアントにおける減衰は、第２の遠隔クライアントに関連するスピーカの第１の遠隔クライアントにおける減衰とは異なり得る。同様に、近接データが、ヘッドホンを装着している第１の遠隔クライアントの参加者／ユーザの耳における位置を含む場合、減衰は、ヘッドホンによって及ぼされる音響減衰に依存し、第２の遠隔クライアントの参加者／ユーザの耳に対する減衰とは異なる場合がある。

したがって、受信機４０１は、遠隔クライアント１０３間の空間的／音響的相互関係を表すことができ、具体的には、どの遠隔クライアント１０３が例えば、同じ部屋であるなど、同一場所に居る／近位にあるかを示すことができる近接データを受信する。

受信機４０１は、オーディオ成分および上記近接データを受信する生成器４０３に結合されている。該生成器は、近接データに応答して複数のオーディオ成分のオーディオミックスを生成するように構成される。該オーディオミックスは、異なる遠隔クライアントからの複数のオーディオ成分を１組の信号に結合して含む。これら信号のうちの少なくとも１つは、複数のオーディオ成分／遠隔クライアントからのオーディオを含む。

例えば、生成器４０３は、オーディオ成分をチャンネルに結合／ダウンミックスすることによって、サラウンドサウンドダウンミックスまたはバイノーラルステレオ信号を生成する。該ダウンミックスは、さらに、例えばオーディオ成分のレベルが近接データに依存するように、近接データに依存して行われる。

生成器４０３は、具体的には、１つの特定の遠隔クライアントのためのオーディオ信号を、該オーディオ信号が生成される該特定の遠隔クライアントと同一場所に存在すると当該近接データによって示される遠隔クライアントのオーディオ成分を除くすべてのオーディオ成分を結合することによって生成するように構成される。

当該システムにおいて、近接データを含むメタデータは、オーディオ配信システムの、例えば、どのユーザ／クライアントが物理的な位置を共有するかを示すビットストリームに含まれる。該メタデータは、例えば、各会議参加者において何の信号を再生するかを決定するために使用される。例えば、共通の場所を共有する参加者のために再生されるオーディオ信号は、互いにキャプチャされた信号を含まず、遠隔ユーザからキャプチャされた信号のみを含む一方、これら参加者の音声は遠隔ユーザに送信される。これは、例えば、会議システムの待ち時間に起因する精神的ストレス、疲労、及びオーディオアーチファクトを回避し、音響フィードバックを回避し、及び／又はＳＮＲの低下を回避する。

同一場所のユーザ／遠隔クライアントに関するオーディオを直接除外する代わりに、生成器４０３は、代わりに、他の同一場所のユーザのオーディオ成分のより緩やかな減衰を提供してもよい。

このように、多くの実施形態において、生成器４０３は第１の遠隔クライアントのためのミックスを、第２の遠隔クライアントからのオーディオ成分の減衰／重み付けが、該第２の遠隔クライアントが第１の遠隔クライアントに近いことを近接データが示すかどうかに依存して生成するように構成される。

いくつかの実施形態において、当該近接データは、第１の遠隔クライアントと第２の遠隔クライアントとの間の距離を示すスカラ値を含む。生成器４０３は、このような実施形態においては、第２の遠隔クライアントが第１の遠隔クライアントに近いほど、オーディオ成分の重みが小さく／減衰が大きくなるというように、距離の単調減少関数として減衰を決定するように構成される。第２の遠隔クライアントが第１の遠隔クライアントに非常に近い場合、第１の遠隔クライアントは、それに従って、第２の遠隔クライアントに関するオーディオが大幅に減衰されるオーディオシーンがレンダリングされる。これは、このような状況では第１の遠隔クライアントのユーザが第２の遠隔クライアントのユーザを直接聞くことができるであろうことを反映する。しかしながら、第２の遠隔クライアントが離れるほど、これからレンダリングされるオーディオは大きくなる。

これは、多くの実施形態において特に魅力的な性能が提供される。例えば、オーディオ会議アプリケーションが、幾人かが大規模なコンサートホールでのコンサートに参加している一群の人によって使用される状況において、コンサートホールの個々の参加者にはカスタマイズされたオーディオレンダリングを提供し、この場合において、出席していない他の参加者はフルボリュームでレンダリングされる一方、非常に近い参加者は非常に低いボリュームでレンダリングされ、コンサートホールに居るがより遠くに離れている参加者は中間ボリュームでレンダリングされる。このアプローチは、多くの状況において、ローカル環境における音響伝送によって直接受信されるオーディオと、当該会議アプリケーションによって提供されるオーディオとの間の改善されたバランスを提供し得る。

いくつかの実施形態において、生成器４０３は、２つの遠隔クライアントの近接データが近接基準を満たす場合、オーディオ成分を減衰させる。該減衰は、多くの実施形態では、無限減衰（オーディオ成分がレンダリングされない、または生成されるオーディオミックスに全く含まれないことに対応する）であり得る、所定の量によるものであり得る。

多くの実施形態において、前記近接基準は、２つの遠隔クライアントに関する近接指示情報が閾値未満の距離を示さなければならないという要件を含む。近接指示情報が該要件を満たす場合、生成器４０３は、生成されるオーディオミックスに含めるために対応するオーディオ成分を選択しないように進む。上記閾値は、大幅に相関がないことを示す低い「安全」値に設定される。

このアプローチは、しばしば、遠隔クライアント対が同一場所にある／近位である（例えば、同じ部屋内にある）と考えられるか否かを示す二進近接指示情報と共に使用され得る。もしそうである場合、個々の遠隔クライアントのためのオーディオ信号を生成する場合に、他の遠隔クライアントのオーディオ成分は含まれない。

いくつかの実施形態において、図４のオーディオ装置はオーディオサーバ１０１の一部として実施化される。いくつかの実施形態において、複数の遠隔クライアント１０３からのオーディオ成分／オブジェクトを、複数の遠隔クライアント１０３からのオーディオ成分を含む結合オーディオミックスにダウンミキシングすることは、オーディオサーバ１０１において行われる。そのような実施形態において、遠隔クライアント１０３は近接データをオーディオサーバ１０１に送信し、該サーバは、次いで、これを使用して、遠隔クライアント１０３のための個々のオーディオミックスが生成される。オーディオサーバ１０１は、特に、近接データを考慮して、遠隔クライアント１０３から受信されたオーディオ成分を結合／ダウンミキシングすることによって、遠隔クライアント１０３の各々のためのオーディオミックスが生成される。具体例として、オーディオサーバ１０１は、近接データが、対応する遠隔クライアントが当該オーディオミックスが生成される遠隔クライアントと同一場所にあることを示すものを除き、すべてのオーディオ成分を含むダウンミックスが生成される。

いくつかの実施形態において、図４のオーディオ装置は遠隔クライアント１０３のうちの１つの一部として実施化されてもよく、実際に、すべての遠隔クライアントはそのようなオーディオ装置を含む。いくつかの実施形態において、複数の遠隔クライアント１０３からのオーディオ成分／オブジェクトの、複数の遠隔クライアント１０３からのオーディオ成分を含む結合オーディオミックスへのダウンミキシングは、遠隔クライアント１０３において実行される。このような実施形態では、オーディオサーバ１０１がオーディオ成分及び近接データの両方を個々の遠隔クライアント１０３に送信し、個々の遠隔クライアントは、次いで、ローカルにオーディオミックスを生成し、これをユーザに対してレンダリングする。このようないくつかの実施形態において、オーディオサーバ１０１は、異なる遠隔クライアント１０３からオーディオ成分を受信し、これらのすべてを個々の遠隔クライアント１０３に転送する。さらに、ある実施形態では、オーディオサーバ１０１は遠隔クライアント１０３から近接データを受信し、この近接データを他の遠隔クライアント１０３に分配する。他の実施形態では、オーディオサーバ１０１は異なる遠隔クライアント１０３からオーディオ成分を受信し、次いで、それ自体が該オーディオ成分に基づいて近接データを生成する。個々の遠隔クライアントは、例えば、近接データが、対応する遠隔クライアントが当該ダウンミックスを生成する遠隔クライアントと同一場所にあることを示すものを除くすべてのオーディオ成分を含むローカルダウンミックスを生成する。

異なる実施形態においては、近接データを決定するための異なるアプローチが使用されてもよいことが理解されるであろう。多くの実施形態では、近接データは、特に異なるオーディオ成分を互いに比較することによって決定される。当該システムは、２つの遠隔クライアントからの２つのオーディオ成分を互いに比較することによって該２つの遠隔クライアントの近接指示情報を決定する近接検出器を含む。近接データは、例えば、これらの信号間の類似性を反映するように生成され、具体的には、相互相関尺度が生成され、この相互相関尺度から近接指示情報が生成される。例えば、相互相関値は直接使用されてもよく、または、例えば、近接指示情報は、ある遅延範囲内の最大相互相関尺度が所与の閾値を超える場合に、２つの遠隔クライアントが同一場所にあることを示すように設定されてもよい。次いで、送信機は上記近接指示情報を含むように近接データを生成し、これを（典型的にはオーディオ成分と共に）送信する。

当該オーディオ装置が遠隔クライアント１０３において実施化される実施形態では、近接検出器はオーディオサーバ１０１において実施化され、該検出器はすべてのオーディオ成分対の相互相関値を決定し、各対の近接指示情報を決定する。近接データはすべての近接指示情報を含むように生成されてもよく、この近接データはすべての遠隔クライアント１０３に送信され、または、例えば、所与の遠隔クライアントに関する近接データのみを該遠隔クライアントに送信される。さらに、オーディオサーバ１０１はオーディオ成分を送信し、クライアントは、ローカルにオーディオミックスを生成する。

当該オーディオ装置がオーディオサーバ１０１において実施化される実施形態では、近接検出器は遠隔クライアント１０３において実施化される。各遠隔クライアントは、例えばローカルなオーディオ成分を他の遠隔クライアント１０３から受信したオーディオ成分と相関させる近接検出器を含む。近接指示情報は、受信されたオーディオ成分の各々に対して生成され、該ローカルオーディオ成分と共にオーディオサーバ１０１に送り返されてもよい。次いで、オーディオサーバ１０１は個々の遠隔クライアント１０３のオーディオミックスを生成する際に、すべての遠隔クライアントから受信したこのような近接データが使用される。

したがって、図５に図示されるように、第１の主体５０１は、１つ以上のオーディオ成分対の相互相関値を決定し、各対の近接指示情報を決定する近接検出器５０３を含む。例えば、第１の主体５０１は、第１の遠隔クライアントに関する第１のオーディオ成分と第２の遠隔クライアントに関する第２のオーディオ成分との比較に応答して、第１の遠隔クライアントおよび第２の遠隔クライアントのための近接指示情報を決定する近接検出器５０３を備える。該主体は、さらに、図４のオーディオ装置を含む第２の主体５０７に上記近接指示情報を含む近接データを送信するように構成されたデータ送信機５０５を含む。近接データに加えて、送信機５０５は、１つまたは複数のオーディオ成分を送信する。このように、送信機５０５は、特に近接データおよびオーディオ成分データをオーディオ装置の受信機４０１に送信する。いくつかの実施形態において、第１の主体５０１は遠隔クライアントであってもよく、第２の主体５０７はオーディオサーバであってもよい。他の実施形態では、第１の主体５０１はオーディオサーバであり得、第２の主体５０７は遠隔クライアントであり得る。

このように、多くの実施形態において、オーディオサーバ１０１におけるオーディオ成分（例えば、遠隔クライアントからのマイクロフォン信号に対応する）の信号処理は、どのユーザ／遠隔クライアントが近位にあるか（例えば、部屋を共有する）を検出することができ、対応するメタデータは遠隔クライアント１０３に送信されることになる。

例えば、相関行列が該行列内のすべてのオーディオ成分対について最大相互相関値を用いて生成される場合、同じ部屋（近位）にある遠隔クライアント１０３のオーディオ成分は、高い最大相互相関値を有するであろう。

例えば、オーディオサーバ１０１は、ｉ及びｊの全ての固有の組み合わせ（ｉ及びｊは等しくない）に関して、

が計算され、ここで、ｘ_ｉはサーバがインデックスｉの遠隔クライアントから受信したオーディオ成分信号を示し、

はノルムを示し、ｎは最新の利用可能なサンプルを示すｎ＝０のオーディオ成分（の履歴）に対するサンプルインデックスを示し、Ｎ_ｈｉｓｔは分析に使用された過去のサンプルの数を示し、δ_ｍａｘはオーディオ成分間の最大のサポートされる遅延を示す。

例えば、

及び

であり、ここで、ｆ_ｓはマイクロフォン信号のサンプルレートであり、

は切り捨て演算である。音声のサンプルレートの典型的な値は１６ｋＨｚである。オーディオの場合、例えば４８ｋＨｚのより高いサンプリングレートがよく使用される。特に、このアプローチでは、δ_ｍａｘの値は、ユーザとマイクロフォン（同じ部屋の）との間の異なる音響経路長および遠隔クライアントからオーディオサーバ１０１への伝送の遅延差に起因するオーディオ成分間の遅延を考慮するために十分な大きさに選択される。

例えば、ｉ及びｊの特定の組み合わせに対して上記相互相関が高い（例えば、δ_ｉ，ｊ＞＝０．３）場合、遠隔クライアントｉ及びｊは近位である、具体的には同じ部屋にあると考えられる。相互相関は、参加者の誰もが話していないときには低くなり得る。したがって、参加者ｉ又はｊのうちの１人がアクティブである場合にのみ相互相関を計算することが有利である。

一例として、ユーザｋがアクティブかどうかの判断は、以下に従って行われる：

ここで、たとえば、フルスケールの振幅Ｆを持つ信号に対して、Ｌ_{ｔｈｒｅｓ}＝－３０ｄＢである。

他の例として、音声検出器が信号に適用される。

２つの遠隔クライアント１０３が近位であるかどうかの判定は、典型的には、ユーザのうちの１人がアクティブであるときにのみ評価され、最後に判定された決定はユーザがアクティブでないときは保持される。このことは、話者がアクティブであるかどうかに依存したメタデータの繰り返し反転を防止する。

上記判定のロバストさを保証するために、さらなる手段がとられる。例えば、遠隔クライアントｉ及びｊが同じ部屋にいるかどうかの決定は、少なくとも１５秒のアクティブ信号（ａ_ｉ＝＝１又はａ_ｊ＝＝１）が異なる信号をもたらすときにのみ変更される。

幾つかの実施形態において、オーディオサーバ１０１は、どの遠隔クライアントが同じ部屋にいるかを決定し、該情報をメタデータとして遠隔クライアント１０３に送る。特に、この実施形態は、ユーザのオーディオ信号がクライアント毎にオーディオサーバ１０１でミキシングされず、別々に送信される場合に有利である。例えば、各ユーザの信号が仮想（または拡張）現実における特定の位置にレンダリングされるＶＲアプリケーションである。この場合、遠隔クライアントは、他のユーザが例えば同じ部屋にいるメタデータを使用して、会議サーバから受信した対応する信号をレンダリングまたは再生しないことを決定できる。

いくつかの実施形態において、前記近接検出器は、前述したように、遠隔クライアント内に配置されてもよい。このような遠隔クライアントの構成要素の一例を図６に示す。

当該遠隔クライアントは、マイクロフォンに結合され、該マイクロフォンによってキャプチャされたオーディオに対応するマイクロフォン信号を生成するように構成された入力部６０１を備える。該マイクロフォン信号はエンコーダ６０３に供給され、該エレメントは該信号を符号化してオーディオ成分を生成する（一部の実施形態では該マイクロフォン信号がオーディオ成分として直接使用されてもよい）。

該エンコーダは、オーディオサーバ１０１と通信するように構成されたインターフェース６０５に結合される。従って、該インターフェースは、オーディオサーバ１０１にデータを送信するための送信機と、オーディオサーバ１０１からデータを受信するための受信機とを備える。インターフェース６０５は、オーディオ成分データが供給され、これをオーディオサーバ１０１に送信する。

さらに、インターフェース６０５は他の遠隔クライアントからオーディオ成分および近接データを受信し、具体的には、インターフェース６０５は図４の受信機４０１を備える。

当該遠隔クライアントは、図４の生成器４０３に直接対応するオーディオレンダラ６０７をさらに備える。生成器４０３は、前述のように、ローカルユーザに提示するためのローカルミックスを生成する。

他の実施形態において、オーディオサーバ１０１から受信されるオーディオはダウンミックスされた信号であってもよい。すなわち、生成器４０３はオーディオサーバ１０１に含まれてもよく、送信されるオーディオは、例えば、バイノーラルステレオ信号またはサラウンドサウンド信号であってもよい。レンダラ６０７は、そのような実施形態では、受信信号を直接レンダリングする。

図６の遠隔クライアントは、マイクロフォン信号（おそらくオーディオ成分によって表される）とオーディオサーバから受信されたオーディオとの比較に応答して、第１の遠隔クライアントに対する近接指示情報を決定するように構成された近接検出器６０７をさらに備える。

例えば、受信されたオーディオが他の遠隔クライアントからのオーディオ成分に対応する場合、これらは直接近接検出器６０９に供給し、該検出器は、次いで、マイクロフォン信号（おそらくはオーディオ成分によって表される）を受信されたオーディオ成分と相関させ、受信されたオーディオ成分の各々について近接指示情報を生成する。該近接指示情報はインターフェース６０５に供給され、該インターフェースは該近接指示情報を含む近接度データをオーディオサーバ１０１に送信する。

受信されたオーディオが、同じオーディオ信号／チャンネルに結合／混合された他の遠隔クライアントの複数のオーディオ成分を含むオーディオミックスに対応する場合、近接検出器６０９はマイクロフォン信号を該オーディオミックスと相関させる。

例えば、上記オーディオミックスが単一の信号のみを含む場合、近接検出器６０９は該受信信号をマイクロフォン信号と相関させ、所与のレベルを超える相関が検出された場合、現在アクティブな遠隔クライアント（現在アクティブな話者に関する）が現遠隔クライアントに近接していることを示す近接指示情報を生成する。

当該オーディオミックスが２以上のチャンネル／信号を有する場合、これらを例えば相関処理の前に組み合わせ、又は各チャンネル信号に対して相関処理を行ない、例えば、最大の相関のみが考慮される。

現在アクティブな遠隔クライアント／話者の身元（ＩＤ）が当該遠隔クライアントによって知られている場合（例えば、このようなアクティビティはオーディオサーバ１０１によって検出され、対応する情報を遠隔クライアントに転送する）、該遠隔クライアントは、上記他の遠隔クライアントのこの身元識別情報を近接しているとして含む近接指示情報を生成する。

そのような情報が利用可能でない場合、当該遠隔クライアントは、現在アクティブな話者／遠隔クライアントが近位にあることを示す近接指示情報を単に送信する。そのような場合、オーディオサーバ１０１は、例えば、（例えば、音声検出を使用して）現在アクティブな話者を検出するように構成され、当近接指示情報を該識別された現在アクティブな話者／遠隔クライアントとして送信する遠隔クライアントに近接した遠隔クライアントの適切な身元を決定する。

このように、いくつかの実施形態において、遠隔クライアントはオーディオサーバ１０１から受信された信号（複数可）を自身のローカルマイクロフォン信号（例えば、音響エコー消去（ＡＥＣ）後）と比較して、近位の遠隔クライアントを検出する。

例えば、クライアントは、サーバから受信された信号と遠隔クライアントのマイクロフォン信号との間の相互相関を以下のように決定する：

ここで、ｙ_ｉはオーディオサーバから受信された信号を示し、ｘはローカルマイクロフォン信号を示し、

はノルムを示し、ｎは最新の利用可能なサンプルを示すｎ＝０のマイクロフォン信号（の履歴）に対するサンプルインデックスを示し、Ｎ_ｈｉｓｔは分析に使用された過去のサンプルの数を示し、δ_ｍａｘはマイクロフォン信号間の最大のサポートされる遅延を示す。

例えば、

及び

は切り捨て演算である。特に、このアプローチでは、δ_ｍａｘの値は、例えば、符号化、（クライアントからサーバへの）伝送、サーバにおける処理、（サーバからクライアントへの）伝送、および復号化による当該（分散）システムにおけるシステム遅延による、並びにユーザとマイクロフォン（同じ部屋内の）との間の異なる音響経路長による、マイクロフォン信号とオーディオサーバから受信される信号との間の遅延を考慮するために十分な大きさでなければならない。

特定のｉに対して上記の相互相関が高い、例えばδ_ｉ＞＝０．２である場合、ユーザｉは同じ部屋（近位）にいると考えられる。

他の例として、クライアントはマイクロフォン信号を、該マイクロフォン信号にＡＥＣが適用される前に使用する。これは、例えば、１５ｍｓよりも大きな遅延に焦点を当てて、より大きな会議システム遅延からクライアント内のスピーカとマイクロフォンとの間の音響フィードバックを分離する。クライアントは両方の相関ピークを探し、ＡＥＣにより短い遅延を提供する。

１以上のクライアントが２以上のオーディオ成分を送信する場合、当該アルゴリズムは、例えば、分析のために最も大きなマイクロフォン信号を選択し、全てのマイクロフォン信号のダウンミックスを計算し、又は特定のマイクロフォン信号を選択する。

同様に、サーバ側のアプローチと同様に、相関は典型的にはユーザが話しているとき、より具体的には、サーバから受信される信号のうちの１つにアクティブな話者が存在するときにのみ計算される。

オーディオサーバ１０１から受信されるオーディオ成分／信号ｙｉは、典型的には、会議通話における他のユーザを（少なくとも部分的に）表す。これにより、遠隔クライアントは、どのユーザが同じ部屋にいるかを、どの信号が高い相関を有するかに基づいて決定する。幾つかのユーザの信号は、オーディオサーバによってミュートされているか、または非アクティブであると判定されているため、送信されない場合がある。

前述したように、いくつかの信号において、オーディオ成分はオーディオサーバ１０１においてオーディオミックスに結合され得る。信号がそのようなオーディオミックスを表す場合、それらはオーディオチャネルを表すことができ、いくつかのユーザの信号は複数のオーディオチャネル内に存在し得る。したがって、オーディオチャネルを個別に分析することは、必ずしも、特別に有用な追加の情報をもたらすとは限らない。したがって、信号をダウンミックスし、その結果とローカルマイクロフォン信号との相関を決定することが有利である場合がある。ダウンミックスは、次のように計算される：

ここで、Ｉ_ｍはオーディオ信号の集合に関連する入力信号のインデックスの集合であり、＃Ｉ_ｍは集合Ｉ_ｍの濃度である。

このアプローチの結果は、より低い計算的複雑さであり、これは、全般的にＣＰＵ使用量を減らし、および／または携帯型装置におけるバッテリ寿命を改善するのに有利である。

このようなアプローチは、すべてのクライアントの信号が（少なくとも部分的に）サーバ内で事前混合または事前レンダリングされる場合に特に有利であるが、事前混合または事前レンダリングされない信号にも適用される。

いくつかのケースにおいて、オーディオミックスが受信された場合、どのユーザが同じ部屋にいるかを直接決定できない場合があり得る。同じオーディオミックスに埋め込まれた場合に、異なる遠隔クライアントのオーディオ成分を直接区別できない場合があるからである。しかしながら、クライアントは、現在アクティブなユーザが同じ部屋にいる（いる可能性が高い）ことを示すメタデータを送信する。オーディオサーバ１０１は、例えば該メタデータを送信したクライアントに送信する信号に該アクティブなユーザの信号を事前ミキシングまたは事前レンダリングしないことによって、このことを考慮に入れることができ、その逆も同様である。

一部の会議アプリケーションは、通話の参加者の情報を送信する。このような場合、これを使用して、高い相互相関が検出されたときにクライアント側でどのユーザがアクティブであるかを判別でき、遠隔クライアントはその情報をサーバに送信する。

サーバは、ロバストさを改善するために、該サーバが受信したメタデータを後処理する。たとえば、複数のユーザが同時にアクティブであると示され得ると同時に、第３のクライアントが、現在アクティブなユーザが同じ部屋にいることを示すメタデータを送信するとする。この場合、オーディオサーバはこの情報を、これら他の２人のユーザからの情報と組み合わせることができ、ここで、一方が現在アクティブなユーザが同じ部屋にいることを示すこともある。この場合、これは、３つユーザ全てが同じ部屋にあることを意味する。他の例として、アクティブなユーザの中で最も音が大きいものを同じ部屋内としてフラグ付けするか、またはっこれらアクティブなユーザの両方の尤度値を増加させてもよい。該尤度値があるしきい値よりも大きい場合、対応するユーザは同じ部屋にいると考えることができる。代わりに、増加する尤度値に関連して、事前ミックスにおけるユーザのレベルを減少させてもよい。

上述の異なる方法は、事前ミックスされた信号及び個々の信号の両方が受信されるクライアントに対して、および／または、信号特性が時間の経過とともに変化する場合（例えば、帯域幅利用可能性が変化することによって）に組み合わせられる。

同様にして、サーバ側アプローチに対すると同様に、ロバストさは同じまたは類似の方法を使用してクライアント内で改善される。

信号間の相互相関が実行される実施形態では、相互相関は、前述したように、完全に時間領域の信号に対して実行される。代わりに、いくつかの実施形態において、相互相関は時間－周波数表現（例えば、ＱＭＦフィルタバンク（直交ミラーフィルタ）、ＳＴＦＴ(短期フーリエ変換）または窓付きＭＤＣＴ若しくはＦＦＴ解析の後の）に対して実行される。これらの場合、上記の相関方程式における各和は、時間次元（ｎ）のタイムスロットまたはフレーム、およびスペクトル次元（ｂ）の周波数帯域またはビンにわたる２次元和になる：

ここで、ｆ（ｎ，ｂ）は、ｘ及びｙが時間領域インデックスとしてｎをとり、周波数領域インデックスとしてｂをとるとして、上記相関方程式におけるｘ及び／又はｙの対応する関数を表す。Ｎ＾_ｈｉｓｔ及びδ＾_ｍａｘは、それぞれ、タイムスロットまたはフレームに関するＮ_ｈｉｓｔ及びδ_ｍａｘである。例えば、６４のダウンサンプリング係数を有するＱＭＦフィルタバンクの場合は、

又は２５６サンプルのホップサイズを有するウィンドウＦＦＴの場合は、

であり、

は切り上げ演算である。

別の例として、幾つかの実施例では、相互相関を当該信号の包絡線、エネルギプロファイル又は周波数依存エネルギプロファイルに適用する。このことは、より低い計算的複雑さを達成するために有利であり、信号ｙｉがより少ない数のダウンミックス信号からパラメトリックに再構成され、従って再構成された信号の局所的微細構造に高い相関を有する可能性がより高い場合に有利であり得る。代わりに、後者の場合において、相関が再構成パラメータに適用される。

周波数依存相関計算の場合、いくつかの実施形態は、典型的な音声周波数を強調するために、特定の周波数ビン／帯域に重み付けを適用する。

（周波数に依存する）エネルギプロファイルは、当該信号から以下のように計算する：

ここで、エネルギプロファイルｘ＾の各新しい時間－周波数表現は、信号表現ｘ（ｎ，ｂ）におけるすべての時間－周波数タイルの全エネルギである。ビンｂ＾の開始および停止ビンは、それぞれ、ｂ＾_{ｓｔａｒｔ}およびｂ＾_ｅｎｄによって示され、開始および停止タイムスロットは、それぞれ、ｎ＾_{ｓｔａｒｔ}およびｎ＾_ｅｎｄによって示される。純粋に時間領域の信号（例えば、ＰＣＭ信号）の場合には、ｂインデックス及び加算は省略される。

いくつかの実施形態では、遠隔クライアント１０３間の近接度を決定するための他のアプローチが代替的にまたは追加的に使用される。

例えば、いくつかの実施形態において、近接度指示情報は、例えば、個々の遠隔クライアントのユーザインターフェースを使用して、直接的な手動設定によって決定される。他の実施形態は、ＧＰＳ、屋内位置特定技術、ＩＰアドレス、またはネットワークＩＤの手段などの位置特定技術を使用する。いくつかの実施形態において、遠隔クライアント１０３はこのようなデータをサーバに送り、該サーバは、受信したデータを評価して、どの遠隔クライアント１０３が互いに近接しているかを決定する。

例えば、ＩＰ／ＭＡＣアドレスおよび／またはネットワーク遅延時間を、遠隔クライアントが近接していることの指示情報として使用する。例えば、遠隔クライアント１０３がネットワーク機器を共有するという事実は、同一場所にあることを示す。

いくつかの実施形態において、２つの遠隔クライアントの近接度は、音響フィードバックを検出することによって検出され、その場合、当該システムはそのような音響フィードバックを防止する（例えば、正のフィードバックが防止されるようにループ特性を変更することによって）。

音響フィードバックを検出することにより近接度を検出するために使用できるテスト処理の例は、現在音響フィードバックがないことを保証するために、すべてのマイクロフォンがミュートされた状態（またはオーディオ成分がクライアントにフィードバックされていない状態）で開始する。次に、異なる対の遠隔クライアントのマイクロフォンをオンにし、その結果が音響フィードバックをもたらす場合、対応する対の遠隔クライアントは近位であると見なされる。このアプローチは、クライアントの各ペアにおける音響フィードバックの検出を可能にするために、しばらくの間、会議通話を中断し得る。

音響フィードバックの検出は、様々なアプローチで行える。１つの余り低複でないアプローチは、複数のクライアントのレベルが増加しているかどうか、または１以上のクライアントマイクロフォンが指数関数的に増加するレベルを供給しているかどうかを決定することであろう。当該システムにおける平均往復遅延を考慮すると、これは、ＲＭＳレベルの指数関数的増加が往復遅延に類似した周期性で段階的になることを示し得る。音響フィードバックの検出のためにも使用することができるスペクトル平坦度尺度（ＳＦＭ）は、Devis Thomas、ＡＲＪａｙａｎによる文献“Automated Suppression of Howling Noise Using Sinusoidal Model based Analysis/Synthesis”、IEEE International Advance Computing Conference(IACC)、ITM University、Ｇｕｒｇａｏｎ，Ｉｎｄｉａ，７６１－７６５、２０１４に記載されている。他のアプローチは、スペクトル又はスペクトログラム間の高い相関のような、異なるクライアントからの複数のマイクロフォン信号における類似性を決定し得る。他の例は、マイクロフォン信号におけるクリッピングの存在を決定することであろう。

どのクライアントが例えば同じ場所にいるかを検出するための手法の別の例は、各クライアントのオーディオ成分にマーカ信号または透かしを追加することによるものである。このマーカは、概して人間により知覚できないように選択することができ、使用されるコーデックおよび音響経路によって課される歪みにもかかわらず、マイクロフォン信号内で検出できるように設計される。

例えば、サーバは、クライアントに送信されるオーディオにこれらのマーカを挿入する。各クライアントが固有のマーカを得ることが、しばしば有益である。次いで、いくつかの実施形態において、サーバは、受信したクライアントのマイクロフォン信号を他のクライアントのマーカについて分析する。他の実施形態では、クライアントが自分自身のマイクロフォン信号を分析し、マーカ情報をサーバに送信する。このマーカ情報は、検出されたマーカＩＤであってもよいし、サーバから受信したマッピングメタデータに応答して、検出されたマーカＩＤを対応するクライアントにマッピングしていてもよい。

上述の例において、オーディオミックスの生成は近接データに依存する。しかしながら、このようなデータは、他の目的のために使用されてもよいことが理解されるであろう。

例えば、いくつかの実施形態において、近接データはユーザがどのように物理的にグループ化されるかに従ってユーザを（例えば、空間的に）グループ化するために使用される。いくつかの実施形態において、例えばＡＲの場合、近接データは、どのユーザが部屋内に物理的に存在しないかを決定するために使用され、もしそうなら、ユーザのための仮想アバタを提示し得る。いくつかの実施形態において、近接データは（さらに）物理的な部屋にいないユーザの信号を、ユーザと重ならない位置にレンダリングするために使用されてもよい。

いくつかの実施形態において、メタデータおよび／またはクライアント側分析は、異なるデバイス上での再生を同期させるために使用されてもよく、その結果、小さい相互遅延での再生が達成される。

いくつかの実施形態において、近接データは、同じ部屋内のユーザに関連するサーバから受信された信号をレンダリングせずに、代わりに、これらのユーザのローカルなマイクロフォンキャプチャをレンダリングのために使用される。これは、ユーザが音響経路を阻止又は減衰させるヘッドホンを着用している場合に有利であり得る。処理をローカルに保つことによって、会議システムの遅延を排除し、その結果、より良好なリップ同期が得られる。

いくつかの実施形態において、第１の遠隔クライアントは、生成されたマイクロフォン信号またはオーディオ成分を、同一場所にあると検出された第２の遠隔クライアントに送信する。該送信は、直接データリンク（ＬＡＮ／光／ＲＦ）を介してもよく、特にオーディオサーバ１０１を除外してもよい。これにより、伝送遅延が低減されたリンク／通信を提供する。次いで、第２の遠隔クライアントは、この直接受信された信号を使用して、第１の遠隔クライアントのオーディオソースからの信号を減衰または抑制する。このようなアプローチは、音響経路を使用することの代替となり得、（光と音の速度の差のために）より速い伝送という利益を得る。第２の遠隔クライアントにおいてクリーンなオーディオ「基準」を適時に利用可能にすることで、不必要に複雑な又は誤差が発生しやすいオーディオ処理を回避できる。

いくつかの実施形態では、そのようなリンクを使用して、同じ部屋にいる遠隔クライアント間のオーディオミックスの再生が同期される。代わりに、このような同期メタデータはオーディオサーバを介して進行する。当該同期は、ほとんどの実施形態では、サーバから受信したデータに対して最も大きい待ち時間を有する共存クライアントを考慮に入れ、同期させるために他の共存クライアントにおけるオーディオミックスの再生を遅延させる。この連続的同期処理は当業技術分野で知られており、ＮＴＰ(ネットワーク時間プロトコル）またはＰＴＰ(精密時間プロトコル）などの時間同期プロトコルを使用して達成される。

前述のように、音響近接度は、音響伝達関数が２つの方向で異なり得ることを反映して、第１の遠隔クライアントから第２の遠隔クライアントへの方向において、第２の遠隔クライアントから第１の遠隔クライアントへの方向とは異なり得る。したがって、多くの実施形態において、近接データは、方向に応じて一対の遠隔クライアント１０３に関して異なる近接指示情報を含み得る。

例えば、オーディオサーバ１０１によって遠隔クライアントに供給される近接データは、所与の他の遠隔クライアントに関して２つの値を含み、ローカルなオーディオミキシングは、それに応じて、他の遠隔クライアントからこのクライアントへの近接指示情報に応答するものとなり得る。

非対称／方向性近接指示情報の使用は、例えば、一方のユーザがヘッドホンを装着し、他方がスピーカレンダリングを使用する特定の状況を含む多くの実施形態において、改善された性能を提供する。

いくつかの実施形態において、近接データはサービス／アプリケーションの初期化時に通知／配布し、この近接データはこのサービス／アプリケーションの終了まで使用される。たとえば、新しい会議のセッションが初期化されると、近接データが交換され、該セッションの終了まで使用され得る。

しかしながら、ほとんどの実用的な実施形態では、当該システムは少なくともいくつかの近接データを動的に決定／適応／更新／配信するように構成され得る。したがって、受信機４０１は、典型的には遠隔クライアントの位置の変化に動的に適応する近接データを受信するように構成される。

具体的には、オーディオサーバ１０１および／または遠隔クライアント１０３の近接検出器は、適切な信号を継続的に相関させ、該相関結果に基づいて近接指示情報を決定する。この場合、当該システムは、例えば、近接度指示情報を含むメタデータをオーディオ成分の分配と共に継続的に送信することによって、近接指示情報を継続的に分配する。

多くの実施形態において、当該システムは、（少なくとも）第１の遠隔クライアント対に関する近接指示情報を、１分以下、しばしば３０秒以下の更新レートで送信するように構成される。

このような動的更新は、ユーザ位置の変化に適応した効率的かつ適応的なシステムを提供することができる。例えば、多くの実施形態において、当該システムは、自身の電話を介した接続による会議参加者が他のクライアントがいる会議室に歩いて入ることに迅速に適応する。例えば、当該システムは、該参加者が会議室に入るときに音響フィードバックが発生することをしばしば防止する。

近接データは多くの異なるアプローチでメタデータとして伝送でき、使用される特定のアプローチは個々の実施形態の選好および要件に依存し得ることが理解されるであろう。

メタデータの正確な構造、構文および内容は、特定の実施形態に依存する。したがって、メタデータは様々なやり方で構成および送信され、好ましい手法は、クライアント側の検出またはサーバ側の検出が使用されるかどうか（またはその組合せ）にも依存し得る。

サーバ側の検出の場合、メタデータは、通常、サーバから１以上のクライアントに送信される。該メタデータには、何のユーザ／クライアントが同じ場所にいるかの情報が含まれ得る。例えば、クライアントのインデックス若しくは名前の指示情報、またはビットマップが使用される。サーバによってクライアントに送信されるビットストリームの構文の一部は、たとえば次の表のようになる：

この例は、クライアントにメタデータを送信するための３つの異なるやり方をサポートし、好ましい設定に応じて１つを選択する構文を示している。該例は、すべてのクライアントに、どれだけ多くの固有の場所（または、２以上のユーザの居るどれだけ多くの場所）が存在するか、およびどの場所にどのユーザが存在するかに関する情報を提供する。

別の例として、関連するメタデータは、場所を共有するユーザにのみ送信される。これは、以下の表の構文例に示される：

クライアント側の検出の場合、メタデータは、通常サーバに送信され、該サーバは、一般的に１つ以上のクライアントに、類似または導出した情報をもつメタデータを送信する。

例えば、クライアントは、その時点で、出力信号とマイクロフォン信号（ＡＥＣ後の）との間に高い相関が検出されたかどうかを示すフラグを送信する。それに加えて、またはその代わりに、最大相関値の指示情報を送信してもよい。

他の実施形態において、クライアントは、どのユーザがアクティブであるかを示すメタデータをさらに使用し、同じ場所にあると判定された１以上の特定のユーザを示すデータを送信する。これは、上述したものと同様の構文を使用して実行される。

さらに、クライアントは、どの方法で検出されたか、および／または直接的音響キャプチャと会議サーバから受信されたオーディオ信号における高い相関との間の遅延を記述するメタデータを送信する。
クライアントからサーバに送信されるデータの構文例は、下表のとおりである：

検出方法メタデータの定義例を下表に示す：

１以上のクライアントからの類似のメタデータに応答して、サーバは、上述のものと同様のメタデータを送信する。サーバは、複数のクライアントから受信した情報を貯えることができる。そのために、サーバは、全ての場所共有指示情報を組み合わせることができる。たとえば、クライアントＡ及びＢがユーザＤと同じ場所にあることを示し、クライアントＤがユーザＡとＣとの共有場所を示している場合、サーバはユーザＡ、Ｂ、Ｃ及びＤが同じ場所にあることを示す。

代わりに、サーバはユーザＡおよびＤを、これらが互いに共有位置を示したので、同じ位置にあることを示してもよい。

上記の記載は、明瞭化のために、異なる機能回路、ユニット、およびプロセッサを参照して本発明の実施形態を説明したことが理解されるであろう。しかしながら、本発明から逸脱することなく、異なる機能回路、ユニット、またはプロセッサ間の機能の任意の適切な分散を使用できることは明らかであろう。例えば、別個のプロセッサまたはコントローラによって実行されることが示されている機能は、同じプロセッサまたはコントローラによって実行されてもよい。したがって、具体的な機能ユニットまたは回路への言及は、厳密な論理的または物理的な構造または編成を示すのではなく、記載された機能を提供するための好適な手段への言及としてのみ見なされるべきである。

本発明は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組合せを含む任意の適切な形態で実施することができる。本発明は、任意選択で、１つまたは複数のデータプロセッサおよび／またはデジタル信号プロセッサ上で実行されるコンピュータソフトウェアとして少なくとも部分的に実装され得る。本発明の実施形態の構成要素および構成部品は、任意の適切な方法で物理的、機能的、および論理的に実装され得る。実際、機能は、単一のユニットで、複数のユニットで、または他の機能ユニットの一部として実装され得る。したがって、本発明は、単一のユニットで実施されてもよく、または異なるユニット、回路、およびプロセッサの間で物理的および機能的に分散されてもよい。

本発明はいくつかの実施形態に関連して説明されてきたが、本明細書に記載された特定の形態に限定されることは意図されていない。むしろ、本発明の範囲は、添付の特許請求の範囲によってのみ限定される。さらに、特徴は特定の実施形態に関連して説明されるように見えるかもしれないが、当業者は説明された実施形態の様々な特徴が本発明に従って組み合わされ得ることを認識するであろう。請求項において、「有する」という用語は、他の構成要素又はステップの存在を排除するものではない。

さらに、個別に列挙されているが、複数の手段、要素、回路、または方法ステップは例えば、単一の回路、ユニット、またはプロセッサによって実装され得る。さらに、個々の特徴が異なる請求項に含まれてもよいが、これらは場合によっては有利に組み合わされてもよく、異なる請求項に含まれることは特徴の組み合わせが実現可能ではなく、及び／又は有利ではないことを意味しない。また、請求項の１つのカテゴリに特徴を含めることは、このカテゴリへの限定を意味するものではなく、むしろ、その特徴が必要に応じて他の請求項カテゴリに等しく適用可能であることを示す。さらに、請求項における特徴の順序は当該特徴が実施されなければならない特定の順序を意味するものではなく、特に、方法請求項における個々のステップの順序は、当該ステップがこの順序で実施されなければならないことを意味するものではない。むしろ、ステップは、任意の適切な順序で実行されてもよい。さらに、単数形は、複数形を除外しない。従って、「第１」、「第２」等も、複数を排除するものではない。クレーム中の参照符号は、単に明確な例として提供されているにすぎず、クレームの範囲を何らかの方法で限定するものと解釈してはならない。

Claims

複数の遠隔クライアントからの到来オーディオを受信すると共に前記到来オーディオから導出されたオーディオを前記複数の遠隔クライアントの少なくとも幾つかに送信するためのオーディオサーバを備えるオーディオ配信システムのためのオーディオ装置であって、前記オーディオ装置は、
各々が前記複数の遠隔クライアントのうちの或る遠隔クライアントからのオーディオを表す複数のオーディオ成分に関するオーディオデータ、及び
前記複数のオーディオ成分のうちの少なくとも１つに関する、現実世界の音響環境における遠隔クライアントの間の物理的近接度を示す近接データ、
を含むデータを受信する受信機と、
前記近接データに応答して前記複数のオーディオ成分のオーディオミックスを生成するための生成器と
を有し、
前記生成器は前記複数の遠隔クライアントのうちの第１の遠隔クライアントのための第１のオーディオミックスを生成し、第２の遠隔クライアントが前記第１の遠隔クライアントに近いことを前記近接データが示す場合に、該第１のオーディオミックスの生成が、前記近接データに応答して前記第２の遠隔クライアントに関する第２のオーディオ成分の前記第１のオーディオミックスにおける減衰を決定するステップを含む、オーディオ装置。
前記生成器が、前記第１の遠隔クライアント及び前記第２の遠隔クライアントに対して近接基準を満たす前記近接データに対し前記第１のオーディオミックスにおける前記第２のオーディオ成分を減衰させる、請求項１に記載のオーディオ装置。
当該オーディオ装置が前記オーディオサーバの一部である、請求項１又は２に記載のオーディオ装置。
当該オーディオ装置が前記複数の遠隔クライアントのうちの或る遠隔クライアントの一部である、請求項１又は２に記載のオーディオ装置。
前記近接データは少なくとも第１の遠隔クライアント及び第２の遠隔クライアントに関するスカラ近接指示情報を含み、該スカラ近接指示情報が前記第２の遠隔クライアントのオーディオソースから前記第１の遠隔クライアントのキャプチャ要素までの音響減衰を示す、請求項１から４の何れか一項に記載のオーディオ装置。
前記近接データが、第１の遠隔クライアントから第２の遠隔クライアントへは前記第２の遠隔クライアントから前記第１の遠隔クライアントへとは異なる近接指示情報を有する、請求項１から５の何れか一項に記載のオーディオ装置。
前記受信機が前記複数の遠隔クライアントのうちの少なくとも１つの位置の変化に動的に適応する近接データを受信する、請求項１に記載のオーディオ装置。
複数の遠隔クライアント、及び
前記複数の遠隔クライアントからの到来オーディオを受信すると共に前記到来オーディオから導出されたオーディオを前記複数の遠隔クライアントの少なくとも１つに送信するためのオーディオサーバ、
を有するオーディオ配信システムであって、前記オーディオサーバ及び前記複数の遠隔クライアントのうちの１つの少なくとも一方は、
各々が前記複数の遠隔クライアントのうちの或る遠隔クライアントからのオーディオを表す複数のオーディオ成分に関するオーディオデータ、及び
現実世界の音響環境における遠隔クライアントの間の物理的近接度を示す、前記複数のオーディオ成分のうちの少なくとも１つに関する近接データ、
を含むデータを受信するための受信機と、
前記近接データに応答して前記複数のオーディオ成分のオーディオミックスを生成するための生成器と
を有し、
前記生成器は前記複数の遠隔クライアントのうちの第１の遠隔クライアントのための第１のオーディオミックスを生成し、第２の遠隔クライアントが前記第１の遠隔クライアントに近いことを前記近接データが示す場合に、該第１のオーディオミックスの生成が、前記近接データに応答して前記第２の遠隔クライアントに関する第２のオーディオ成分の前記第１のオーディオミックスにおける減衰を決定するステップを含む、オーディオ配信システム。
当該オーディオ配信システムが、第１の遠隔クライアント及び第２の遠隔クライアントに関する近接指示情報を、前記第１の遠隔クライアントに関する第１のオーディオ成分と前記第２の遠隔クライアントに関する第２のオーディオ成分との比較に応答して決定する近接度検出器と、前記近接指示情報を含む近接データを前記受信機に送信するための送信機とを備える、請求項８に記載のオーディオ配信システム。
前記近接度検出器が、前記オーディオサーバの一部である、請求項９に記載のオーディオ配信システム。
前記複数の遠隔クライアントのうちの第１の遠隔クライアントが、
一組のマイクロフォンによりキャプチャされたオーディオに対応するマイクロフォン信号を生成するための入力部と、
前記第１の遠隔クライアントに関する近接指示情報を前記マイクロフォン信号と前記オーディオサーバから受信されたオーディオとの比較に応答して決定する近接度検出器と、
前記近接指示情報を含む音響オーディオデータを前記オーディオサーバに送信するための送信機と
を備える、請求項８に記載のオーディオ配信システム。
前記近接度検出器が前記マイクロフォン信号と前記オーディオサーバから受信されたオーディオとの間の高い相関を検出することに応答して、前記送信機は、現在アクティブな遠隔クライアントが近接していると判定されていることを示す近接データを送信する、請求項１１に記載のオーディオ配信システム。
複数の遠隔クライアントからの到来オーディオを受信すると共に前記到来オーディオから導出されたオーディオを前記複数の遠隔クライアントのうちの少なくとも幾つかに送信するためのオーディオサーバを備えるオーディオ配信システムのためのオーディオ装置の動作方法であって、前記動作方法は、
各々が前記複数の遠隔クライアントのうちの或る遠隔クライアントからのオーディオを表す複数のオーディオ成分に関するオーディオデータ、及び
現実世界の音響環境における遠隔クライアントの間の物理的近接度を示す、前記複数のオーディオ成分のうちの少なくとも１つに関する近接データ、
を含むデータを受信するステップと、
前記近接データに応答して前記複数のオーディオ成分のオーディオミックスを生成するステップと
を有し、
前記生成するステップは、前記複数の遠隔クライアントのうちの第１の遠隔クライアントのための第１のオーディオミックスを生成するステップを有し、第２の遠隔クライアントが前記第１の遠隔クライアントに近いことを前記近接データが示す場合に、該第１のオーディオミックスの生成が、前記近接データに応答して前記第２の遠隔クライアントに関する第２のオーディオ成分の前記第１のオーディオミックスにおける減衰を決定するステップを含む、オーディオ装置の動作方法。
コンピュータ上で実行された場合に、請求項１３に記載のオーディオ装置の動作方法の全てのステップを実行するコンピュータプログラムコード手段を有する、コンピュータプログラム。