JP7354225B2 - オーディオ装置、オーディオ配信システム及びその動作方法 - Google Patents

オーディオ装置、オーディオ配信システム及びその動作方法 Download PDF

Info

Publication number
JP7354225B2
JP7354225B2 JP2021500429A JP2021500429A JP7354225B2 JP 7354225 B2 JP7354225 B2 JP 7354225B2 JP 2021500429 A JP2021500429 A JP 2021500429A JP 2021500429 A JP2021500429 A JP 2021500429A JP 7354225 B2 JP7354225 B2 JP 7354225B2
Authority
JP
Japan
Prior art keywords
audio
proximity
remote client
remote
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021500429A
Other languages
English (en)
Other versions
JPWO2020011588A5 (ja
JP2021524612A (ja
Inventor
クリスティアーン ヴァレカンプ
ジェロエン ジェラルドゥス ヘンリクス コッペンス
バート クルーン
ネイサン スヴィラー‐ラバスティ
アーノルドゥス ウェルナー ヨハネス オーメン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2021524612A publication Critical patent/JP2021524612A/ja
Publication of JPWO2020011588A5 publication Critical patent/JPWO2020011588A5/ja
Application granted granted Critical
Publication of JP7354225B2 publication Critical patent/JP7354225B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1827Network arrangements for conference optimisation or adaptation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Stereophonic System (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

本発明は、オーディオ装置、オーディオ配信システム及びその方法に関し、特に、これに限定されるものではないが、拡張/仮想現実会議アプリケーションをサポートするためにこのようなものを使用することに関する。
オーディオビジュアルコンテンツに基づく体験の多様性および範囲は、近年、このようなコンテンツを利用し消費する新しいサービスおよび方法が開発され、導入され続けており、大幅に増加している。特に、多くの空間的および対話的なサービス、アプリケーション、および体験がユーザに、より複雑で没入型の体験を与えるために開発されている。
そのようなアプリケーションの例は、急速に主流になりつつある仮想現実(VR)および拡張現実(AR)アプリケーションであり、いくつかのソリューションが消費者市場に向けられている。また、多くの標準化団体によって、多くの標準が開発されている。そのような標準化活動は、例えば、ストリーミング、ブロードキャスト、レンダリングなどを含むVR/ARシステムの様々な態様のための標準を積極的に開発している。
VRアプリケーションはユーザが異なる世界/環境/シーンにいることに対応するユーザ体験を提供する傾向があるが、AR(複合現実MRを含む)アプリケーションはユーザが現在の環境にいるが、追加情報または仮想オブジェクト若しくは情報が追加されることに対応するユーザ体験を提供する傾向がある。したがって、VRアプリケーションは完全に没入型の合成的に生成された世界/シーンを提供する傾向がある一方、ARアプリケーションは、ユーザが物理的に存在する現実のシーンにオーバーレイされる部分的に合成された世界/シーンを提供する傾向がある。しかしながら、これらの用語はしばしば、互換的に使用され、高度の重なり合いを有する。以下では、仮想現実/ VRという用語が仮想現実と拡張現実の両方を示すために使用される。
一例として、サービスがますます一般的になっているのは、ユーザが能動的且つ動的にシステムと対話してレンダリングのパラメータを変更し、これがユーザの位置及び向きの変化と動きとに適応できるような態様で、画像及び音声を提供することである。多くの用途において非常に魅力的な特徴は、例えば、視聴者が、提示されているシーン内で動き回って「見回す」ことを可能にするなど、視聴者の実効的な視聴位置および視聴方向を変更する能力である。
そのようなフィーチャは、特に、仮想現実体験がユーザに提供されることを可能にすることができる。これにより、ユーザは仮想環境内で(比較的)自由に動き回ることができ、ユーザの位置およびユーザが見ている場所を動的に変更することができる。典型的には、このような仮想現実アプリケーションはシーンの3次元モデルに基づいており、このモデルは特定の要求されたビューを提供するために動的に評価される。このアプローチは、例えば、コンピュータ及びコンソール用のファーストパーソンシュータのカテゴリにおけるようなゲームアプリケーションから良く知られている。
また、特に仮想現実アプリケーションでは、提示される画像が3次元画像であることが望ましい。実際、視聴者の没入を最適化するためには、ユーザが典型的には提示されたシーンを3次元シーンとして体験することが好ましい。実際、仮想現実体験は、好ましくはユーザが自分の位置、カメラ視点、および仮想世界に対する時間的瞬間を選択することを可能にするべきである。
典型的には、仮想現実アプリケーションは、シーンの所定のモデル、典型的には仮想世界の人工モデルに基づくことに本質的に制限される。いくつかのアプリケーションでは、現実世界のキャプチャに基づいて仮想現実体験が提供される。多くの場合、このようなアプローチは、現実世界のキャプチャから構築される現実世界の仮想モデルに基づく傾向がある。この場合、仮想現実体験は、このモデルを評価することによって生成される。
多くの現在のアプローチは、準最適である傾向があり、しばしば、高い計算資源または通信資源要件を有し、および/または、例えば、低減された品質または制限された自由度で、最適以下のユーザ体験を提供する傾向がある。
アプリケーションの一例として、視聴者がキャプチャされた360°(パノラマ)または180°のビデオを体験することを可能にする仮想現実メガネが市場に入っている。これらの360°ビデオは、多くの場合、個々の画像が単一の球面マッピングに縫い合わされるカメラリグを使用して事前にキャプチャされる。180°または360°ビデオのための一般的なステレオフォーマットは、上/下および左/右である。非パノラマステレオビデオと同様に、左目および右目画像は、例えば、単一のH.264ビデオストリームの一部として圧縮される。
ビジュアルレンダリングに加えて、ほとんどのVR/AR アプリケーションは、対応するオーディオ体験をさらに提供する。多くの用途において、オーディオは、好ましくはオーディオソースがビジュアルシーン内の対応するオブジェクトの位置に対応する位置から到着すると知覚される空間オーディオ体験を提供する。このように、オーディオシーンおよびビデオシーンは、好ましくは、一貫性があり、両者が完全な空間体験を提供するように知覚される。
オーディオについては、これまで、主にバイノーラルオーディオレンダリング技術を用いたヘッドホン再生に焦点が当てられてきた。多くのシナリオにおいて、ヘッドホン再生はユーザに対し非常に没入的で個人化された体験を可能にする。ヘッディングトラッキングを使用して、レンダリングはユーザの頭の動きに応答して行われることができ、これは、没入感を大幅に増加させる。
最近、市場および標準の議論の両方において、VR(およびAR)の「ソーシャル」または「共有」の側面、すなわち、他の人々と体験を共有する可能性を含む使用ケースが提案され始めている。これらは、異なる場所にいる人々でもあり得るが、同じ場所にいる人々(または両方の組み合わせ)でもあり得る。例えば、同じ部屋にいる複数の人々は、各参加者の投影(オーディオ及びビデオ)が当該VRコンテンツ/シーンに存在した状態で同じVR体験を共有することができる。例えば、複数の人々が参加するゲームでは、各プレーヤはゲームシーンにおいて異なる位置を有し、その結果、オーディオ及びビデオシーンの異なる投影を有することができる。
特定の例として、MPEGは6つの自由度を有する現実的な没入的AR/VR体験のために、ビットストリームおよびデコーダを標準化することを試みている。ソーシャルVRは重要なフィーチャであり、ユーザが共有環境(ゲーム、電話会議、オンラインショッピングなど)で対話することを可能にする。ソーシャルVRの概念は、VR体験を、物理的に同じ場所にいるが、例えば、ヘッドマウントディスプレイまたは他のVRヘッドセットが物理的環境からの知覚的隔離をもたらすようなユーザにとって、より社会的な活動にさせることを容易にする。
ソーシャルVRアプリケーションの特定の例は、異なる場所にいるユーザが例えばアバタによって表されているユーザと仮想「ミーティングルーム」を共有することができる会議アプリケーションである。別の例として、各ユーザには、例えば、ARメガネを使用して現実世界を他のユーザに対応するアバタとオーバーレイすることによって、ユーザ自身のローカル環境内に仮想的にレンダリングされている他の参加者の表現が提示され、その結果、これらアバタが部屋内に居るという印象を与える。さらに、個々のユーザには、他のすべての参加者からの関連するオーディオを含むオーディオシーンを提供することができ、このオーディオは適切に知覚されるオーディオソース位置で空間的にレンダリングされる。この音声及びビデオのレンダリングは、所与の参加者の視覚及びオーディオ位置が互いに対応するように実行される。
最適な体験を提供するために、オーディオおよびビデオの知覚は密接に整列することが望ましく、特にARアプリケーションの場合には、これが現実世界のシーンとさらに整列することが望ましい。しかしながら、これは、ユーザの知覚に影響を及ぼし得る多くの問題があり得るので、しばしば達成することが困難である。例えば、実際には、ユーザは、通常、完全に無音または暗いことを保証できない場所で装置を使用する。ヘッドセットは光及び音を遮断しようとするが、これは典型的には部分的にのみ達成される。さらに、ARアプリケーションでは、ユーザがローカル環境も体験できることが体験の一部であることが多く、したがって、この環境を完全に遮断することは実際的ではない。
したがって、特に仮想/拡張現実体験/アプリケーション(例えば、VR/AR会議アプリケーション)のための、オーディオを生成するための改善されたアプローチが有利であろう。特に、改善された動作、増加された柔軟性、低減された複雑さ、容易にされた実施、改善されたオーディオ体験、オーディオおよびビジュアルシーンのより一貫した知覚、ローカル環境におけるソースに対する低減されたエラー感度、改善されたバーチャルリアリティ体験、および/または改善された性能および/または動作を可能にするアプローチが有利であろう。
したがって、本発明は、好ましくは上記の欠点の1以上を単独でまたは任意の組み合わせで軽減、緩和または除去しようとするものである。
本発明の一態様によれば、複数のリモート(遠隔)クライアントからの到来オーディオを受信し、該到来オーディオから導出されたオーディオを前記複数の遠隔クライアントのうちの少なくともいくつかに送信するオーディオサーバを備えるオーディオ配信システムのためのオーディオ装置であって、各オーディオ成分(オーディオコンポーネント)が前記複数の遠隔クライアントのうちの遠隔クライアントからのオーディオを表す複数のオーディオ成分に関するオーディオデータと、遠隔クライアント間の近接度を示す前記オーディオ成分のうちの少なくとも1つに関する近接データとを含むデータを受信するための受信機と、前記近接データに応答して前記複数のオーディオ成分のオーディオミックスを生成するための生成器とを備えるオーディオ装置が提供される。
本発明は、多くの実施形態において改善されたユーザ体験を提供することができ、具体的には、特にAR/VRアプローチに基づく会議アプリケーションなどの、多くのアプリケーションにおいて改善されたオーディオ配信を提供することができる。このアプローチは、ユーザ/参加者が例えば同じ部屋にいるシナリオにおいて、改善されたオーディオ知覚を提供することができる。オーディオシーンの改善された、より自然な知覚が典型的に達成され、多くのシナリオにおいて、同一の場所にいるユーザ/クライアントから生じる干渉および不整合が軽減または低減され得る。このアプローチは、仮想現実(VR)(拡張現実(AR)を含む)アプリケーションにとり特に有利であり得る。これは、例えば、複数の参加者が同じ場所に存在するソーシャルVR/ARアプリケーションのための改善されたユーザ体験を提供する。
このアプローチは、多くの実施形態において、低い複雑さおよびリソース使用を維持しながら、改善されたパフォーマンスを提供する。
前記近接データは、具体的には音響近接データであり得る。近接データは、遠隔クライアントの組(典型的にはペア)に関する近接指示情報を含む。遠隔クライアントの組に対する近接指示情報は、遠隔クライアントおよび/または関連するオーディオソース/ユーザ間の空間距離を示し、または、例えば、遠隔クライアントおよび/または関連するオーディオソース/ユーザ間の音響減衰を示す。
前記オーディオミックスは、複数のオーディオ成分からの寄与度を(潜在的に)含むオーディオ信号/チャネルのセットであり得る。
前記近接データは、遠隔クライアント間の実世界/絶対/物理的近接度を示す。前記近接データは、特に、現実世界の音響環境における遠隔クライアント間の実際の物理的近接度を反映する。
本発明の任意選択の特徴によれば、前記生成器は前記複数の遠隔クライアントのうちの第1の遠隔クライアントのための第1のオーディオミックスを生成するように構成され、該第1のオーディオミックスの生成は、前記近接データに応答して、第2の遠隔クライアントに関する第2のオーディオ成分の第1のオーディオミックスにおける減衰を決定する処理を含む。
これは、多くのシナリオにおいて、改善されたユーザ体験および/または改善されたパフォーマンス並びにオーディオ知覚を提供する。これは、特に、レンダリングされたオーディオシーンと現実世界のオーディオシーンとの間の潜在的なオーディオ干渉に対する結合されたオーディオ知覚の改善された適応を可能にする。第2の遠隔クライアントに関する第2のオーディオ成分の第1のオーディオミックスにおける減衰は、前記近接データにおける近接指示情報に応答するものであり、該近接指示情報は、第1の遠隔クライアントと第2の遠隔クライアントとの間の近接度/距離を示す。
本発明の任意選択の特徴によれば、前記生成器は、第1の遠隔クライアントおよび第2の遠隔クライアントに対して近接基準を満たす近接データに関して第1のオーディオミックス内の第2のオーディオ成分を減衰させるように構成される。
これは、多くのシナリオにおいて、改善されたユーザ体験および/または改善されたパフォーマンス並びにオーディオ知覚を提供する。前記生成器は、第1のリモートクライアントと第2の遠隔クライアントとの間の閾値未満の距離尺度を示す近接データに対して第2のオーディオ成分を減衰させるように構成され得る。該減衰は無限大であってもよい。具体的には、前記生成器は、第1の遠隔クライアントおよび第2の遠隔クライアントについて近接基準を満たす近接データに関して第2のオーディオ成分を抑制/廃棄/除外するように構成され得る。
本発明のオプションの特徴によれば、前記オーディオ装置は前記オーディオサーバの一部である。
これは、多くの実施形態において、高い性能及び効率的な実装を提供する。
本発明の任意選択の特徴によれば、前記オーディオ装置は、前記複数の遠隔クライアントのうちの1つの遠隔クライアントの一部である。
これは、多くの実施形態において、高い性能及び効率的な実装を提供する。
本発明の任意選択の特徴によれば、前記近接データは少なくとも第1の遠隔クライアントおよび第2の遠隔クライアントに関するスカラ近接指示情報を含み、該スカラ近接指示情報は、第2の遠隔クライアントのオーディオソースから第1の遠隔クライアントのキャプチャ要素までの音響減衰を示す。
これは、多くの実施形態において特に有利な動作を提供する。いくつかの実施形態において、前記スカラ近接指示情報は、対応する遠隔クライアントが近位であるか否か(例えば、同じ部屋内であるか否か)を示すバイナリ近接指示情報であり得る。
本発明の任意選択の特徴によれば、前記近接データは、第1の遠隔クライアントから第2の遠隔クライアントへは、第2の遠隔クライアントから第1の遠隔クライアントへとは異なる近接指示情報を有する。
これは、多くのシナリオにおいて有利な動作を提供する。このアプローチは、例えば(指向性マイクロフォンを使用する場合、または参加者が密閉型ヘッドホンを装着する場合のように)局所的な音響差を反映するような、非対称な近接指示情報を可能にし、サポートする。
本発明の任意選択の特徴によれば、前記受信機は、前記複数の遠隔クライアントのうちの少なくとも1つのクライアントの位置の変化に動的に適応する近接データを受信するように構成される。
これは、効率的な動作を提供し、ユーザの動きに動的に適応するアプローチを提供する。
本発明の一態様によれば、複数の遠隔クライアントと、該複数の遠隔クライアントからの到来オーディオを受信すると共に該到来オーディオから導出されたオーディオを前記複数の遠隔クライアントのうちの少なくとも1つに送信するオーディオサーバとを備えるオーディオ配信システムであって、前記オーディオサーバ及び前記複数の遠隔クライアントの1つのうちの少なくとも1つが、各オーディオ成分が前記複数の遠隔クライアントのうちの1つの遠隔クライアントからのオーディオを表す複数のオーディオ成分に関するオーディオデータと、遠隔クライアント間の近接度を示す前記オーディオ成分のうちの少なくとも1つに関する近接データとを含むデータを受信するための受信機と、前記近接データに応答して前記複数のオーディオ成分のオーディオミックスを生成するための生成器とを備えるオーディオ配信システムが提供される。
本発明の任意選択の特徴によれば、前記オーディオ配信システムは、第1の遠隔クライアントおよび第2の遠隔クライアントに関する近接度指示情報を前記第1の遠隔クライアントに関する第1のオーディオ成分と第2の遠隔クライアントに関する第2のオーディオ成分との比較に応答して決定するように構成された近接度検出器と、該近接度指示情報を含む近接データを前記受信機に送信するための送信機とを備える。
これは、多くの実施形態において、特に有利な性能および低い複雑さを提供し得る。
本発明の任意の特徴によれば、前記近接度検出器は前記オーディオサーバの一部である。
これは、多くの実施形態において、特に有利な性能および低い複雑さを提供し得る。
本発明の任意選択の特徴によれば、前記複数の遠隔クライアントのうちの第1の遠隔クライアントは、マイクロフォンのセットによってキャプチャされたオーディオに対応するマイクロフォン信号を生成するための入力部と、該マイクロフォン信号と前記オーディオサーバから受信されたオーディオとの比較に応答して前記第1の遠隔クライアントに関する近接度指示情報を決定するように構成された近接度検出器と、該近接度指示情報を含む音響オーディオデータを前記オーディオサーバに送信するための送信機とを備える。
これは、多くの実施形態において、特に有利な性能および低い複雑さを提供し得る。前記マイクロフォンのセットは、いくつかの実施形態では、単一のマイクロフォンを含んでもよく、または、例えば、ビームフォーミング/指向性キャプチャのために使用される、例えば、マイクロフォンのアレイなどの複数のマイクロフォンを含んでもよい。
本発明の任意選択の特徴によれば、前記送信機は、現在アクティブな遠隔クライアントが、第1の近接検出器が前記マイクロフォン信号とオーディオサーバから受信したオーディオとの間の高い相関を検出することに応答して近接していると判定されていることを示す近接データを送信するように構成される。
これは、多くの実施形態において、特に有利な性能および低い複雑さを提供し得る。
本発明の一態様によれば、複数のリモートクライアントからの到来オーディオを受信し、該到来オーディオから導出されたオーディオを前記複数の遠隔クライアントのうちの少なくともいくつかに送信するオーディオサーバを備えるオーディオ配信システムのためのオーディオ装置の動作方法であって、各オーディオコンポーネントが前記複数の遠隔クライアントのうちの1つの遠隔クライアントからのオーディオを表す複数のオーディオ成分に関するオーディオデータと、前記オーディオ成分のうちの少なくとも1つに関する近接データであって、遠隔クライアント間の近接度を示す近接データとを有するデータを受信するステップ、及び前記近接データに応答して前記複数のオーディオ成分のオーディオミックスを生成するステップを備えるオーディオ配信システムのためのオーディオ装置の動作方法が提供される。
本発明のこれらおよび他の態様、特徴および利点は以下に記載される実施形態から明らかになり、それを参照して説明される。
図1は、オーディオ分配システムの一例を示す。 図2は、オーディオ配信システムの一例を示す。 図3は、オーディオ会議のためのオーディオ配信システムの一例を示す。 図4は、本発明のいくつかの実施形態によるオーディオ装置の要素の一例を示す。 図5は、本発明のいくつかの実施形態によるオーディオ配信システムの要素の一例を示す。 図6は、本発明のいくつかの実施形態によるオーディオ配信システムのための遠隔クライアントの要素の一例を示す。
本発明の実施形態を、単なる例として図面を参照して説明する。
ユーザが仮想世界または拡張世界で動き回ることを可能にする仮想(拡張を含む)体験は、ますます一般的になりつつあり、そのような要求を満たすためにサービスが開発されつつある。多くのこのようなアプローチでは、ビジュアルおよびオーディオデータは、ユーザ(または視聴者)の現在の姿勢(ポーズ)を反映するように動的に生成され得る。
この分野では、配置および姿勢という用語が、位置および/または方向/向きに関する共通の用語として使用される。例えば、物体、カメラ、頭部、またはビューの位置および方向/向きの組み合わせを、姿勢または配置と呼ぶことができる。したがって、配置または姿勢指示情報は、最大6つの値/成分/自由度を含むことができ、各値/成分は、典型的には対応する物体の位置/場所または向き/方向の個々の特性を記述する。もちろん、多くの状況において、配置または姿勢は、例えば1つまたは複数の成分が固定または無関係であると見なされる場合、より少ない成分によって表すことができる(例えば、すべての物体が同じ高さにあり、水平の向きを有すると見なされる場合、4つの成分が物体の姿勢の完全な表現を提供することができる)。以下では、姿勢(ポーズ)という用語が1~6つの値(可能な最大自由度に対応する)によって表すことができる位置および/または向きを指すために使用される。
多くのVRアプリケーションは、最大自由度、すなわち、位置および向きのそれぞれの3自由度を有する姿勢に基づいており、その結果、合計6自由度が得られる。このように、姿勢は6つの自由度を表す6つの値の組またはベクトルによって表すことができ、したがって、姿勢ベクトルは、3次元位置および/または3次元方向指示情報を与えることができる。しかしながら、他の実施形態では、姿勢がより少ない値によって表されてもよいことが理解されるであろう。
視聴者に最大自由度を提供することに基づくシステムまたは主体は、通常、6の自由度(6DoF)を有すると呼ばれる。多くのシステムおよび主体は向きまたは位置のみを提供し、これらは、典型的に3の自由度(3DoF)を有するものとして知られている。
典型的に、仮想現実アプリケーションは左目及び右目のための別々のビュー画像の形態で3次元出力を生成する。次いで、これらは、典型的にはVRヘッドセットの個々の左目ディスプレイおよび右目ディスプレイなどの適切な手段によってユーザに提示され得る。他の実施形態では、1つ以上のビュー画像が、例えば自動立体ディスプレイ上で提示されてもよく、又は実際に幾つかの実施形態では単一の2次元画像のみが生成されてもよい(例えば、従来の2次元ディスプレイを使用して)。
同様に、所与の視聴者/ユーザ/リスナ姿勢に対して、シーンのオーディオ表現も提供され得る。該オーディオシーンは、典型的にはオーディオソースが所望の位置から生じると知覚される空間体験を提供するようにレンダリングされる。オーディオソースはシーン内で静止的であり得るので、ユーザ姿勢の変化により、ユーザの姿勢に対するオーディオソースの相対位置が変化する。したがって、該オーディオソースの空間的知覚は、ユーザに対する新しい位置を反映するように変化しなければならない。オーディオレンダリングは、それに応じて、ユーザの姿勢に依存して調整され得る。
多くの実施形態では、オーディオレンダリングがヘッドホンを装着しているユーザに所望の空間効果を提供するために、頭部関連伝達関数(HRTF)または両耳室インパルス応答(BRIR)(または同様のもの)を使用する両耳レンダリングである。しかしながら、幾つかのシステムでは、オーディオが代わりにスピーカシステムを用いてレンダリングされてもよく、各スピーカに対する信号はユーザにおける全体的な効果が所望の空間的体験に対応するようにレンダリングされ得ることが理解されよう。
視聴者またはユーザの姿勢入力は、異なるアプリケーションでは異なるやり方で決定され得る。多くの実施形態では、ユーザの物理的な動きを直接追跡する。例えば、ユーザエリアを見渡すカメラはユーザの頭部(または目(アイトラッキング))を検出し、追跡する。多くの実施形態では、ユーザが外部および/または内部手段によって追跡するVRヘッドセットを装着する。例えば、ヘッドセットは、該ヘッドセット、したがって頭部の移動および回転に関する情報を提供する加速度計およびジャイロスコープを備える。いくつかの例では、VRヘッドセットが信号を送信し、または外部センサが該VRヘッドセットの位置を決定することを可能にする(たとえば、視覚的)識別子を備える。
いくつかのシステムでは、視聴者姿勢が手動手段によって、例えば、ユーザがジョイスティックまたは同様の手動入力を手動で制御することによって提供されてもよい。例えば、ユーザは一方の手で第1のアナログジョイスティックを制御することにより仮想シーン内で仮想視聴者を手動で動かすことができ、他方の手で第2のアナログジョイスティックを手動で動かすことによって該仮想視聴者が見ている方向を手動で制御する。
いくつかのアプリケーションでは、手動アプローチと自動アプローチとの組み合わせを使用して、入力視聴者姿勢を生成するこ。例えば、ヘッドセットが頭部の向きを追跡し、シーン内の視聴者の動き/位置は、ジョイスティックを使用してユーザにより制御される。
幾つかのシステムにおいて、VRアプリケーションは、例えば、いかなるリモートVRデータ若しくは処理も使用しない、又はこれらに対する如何なるアクセスも有さないスタンドアロン装置によって、視聴者にローカルに提供され得る。例えば、ゲームコンソールのような装置は、シーンデータを記憶するための記憶装置と、視聴者姿勢を受信/生成するための入力部と、上記シーンデータから対応する画像を生成するためのプロセッサとを備える。
他のシステムでは、VRアプリケーションは、視聴者から遠隔で実施化され、実行され得る。例えば、ユーザに対しローカルな装置は、動き/姿勢データを検出/受信し、該データは遠隔装置に送信され、該遠隔装置が該データを処理して視聴者姿勢を生成する。次いで、上記遠隔装置は、シーンを記述するシーンデータに基づいて、上記視聴者姿勢のための適切なビュー画像を生成する。次に、上記ビュー画像は、それらが提示される視聴者に対してローカルな装置に送信される。例えば、遠隔装置は、ローカル装置によって直接提示されるビデオストリーム(典型的にはステレオ/3Dビデオストリーム)を直接生成する。同様に、遠隔装置は、仮想オーディオ環境を反映するオーディオシーンを生成する。これは、多くの実施形態では、仮想オーディオ環境における異なるオーディオソースの相対位置に対応するオーディオ信号を生成することによって、例えば、頭部姿勢に対するこれらの現在位置に対応する個々のオーディオ成分にバイノーラル処理を適用することによって、行われる。このように、このような例では、ローカル装置は、動きデータを送信し、受信したビデオおよびオーディオデータを提示する以外は、いかなるVR処理も実行しなくてよい。
同様に、遠隔VR装置はオーディオシーンを表すオーディオデータを生成し、該オーディオシーン内の異なるオーディオソースに対応するオーディオ成分(オーディオコンポーネント)/オブジェクトを、これらの位置を示す位置情報(例えば、動くオブジェクトに対して動的に変化することができる)とともに送信する。次いで、ローカルVR装置、例えば、上記オーディオ成分に関するオーディオソースの相対位置を反映する適切なバイノーラル処理を適用することによって、そのような信号を適切にレンダリングする。
オーディオ側については、中央サーバがいくつかの実施形態において、それに応じて、遠隔クライアント装置によって直接レンダリング可能な空間オーディオミックスを生成する。例えば、中央サーバは、サラウンドサウンドスピーカ装置によって直接レンダリングするための複数のオーディオチャネルとして空間オーディオを生成する。しかし、より一般的には、中央サーバがレンダリングされるべきシーン内のすべてのオーディオ信号をバイノーラル処理し、次いで、これらをバイノーラルステレオ信号に結合することによってミックスを生成し、このバイノーラルステレオ信号は1組のヘッドホンを使用してクライアント側で直接レンダリングされる。
多くのアプリケーションでは、中央サーバが、代わりに複数のオーディオオブジェクトまたはコンポーネントを供給し、これらの各々は典型的には単一のオーディオソースに対応する。この場合、クライアントは、そのようなオブジェクト/コンポーネントを処理して、所望のオーディオシーンを生成する。具体的には、クライアントは所望の位置に基づいて各オーディオオブジェクトをバイノーラルに処理し、その結果を組み合わせる。
このようなシステムでは、遠隔クライアントに送信されるオーディオデータは、複数のオーディオ成分またはオブジェクトのためのデータを含む。当該オーディオは、例えば、レンダリングされるべき所与のオーディオ成分に関する符号化オーディオとして表される。該オーディオデータは、当該オーディオ成分のソースの位置を示す位置データをさらに含む。該位置データは、例えば、シーン内のオーディオソースの位置を定義する絶対位置データを含む。ローカル装置は、そのような実施形態では、現在のユーザ姿勢に対するオーディオソースの相対位置を決定する。したがって、受信される位置データはユーザの動きとは無関係であり得、オーディオソースの相対位置はユーザに対する該オーディオソースの位置を反映するようにローカルに決定する。そのような相対位置は、当該オーディオソースが何処から生じたかをユーザが知覚すべき相対位置を示し、したがって、ユーザの頭の動きに応じて変化する。他の実施形態では、オーディオデータが相対位置を直接記述する位置データを含む。
図1は、中央サーバ101が例えばインターネットのようなネットワーク105を介して複数の遠隔クライアント103と連動するVRシステムの一例を示す。中央サーバ101は、潜在的に多数の遠隔クライアント103を同時にサポートするように構成される。
このようなアプローチは、多くのシナリオにおいて、例えば、異なるデバイス(装置)に対する複雑さとリソース要求、通信要求などの間の改善されたトレードオフを提供する。例えば、視聴者姿勢および対応するシーンデータは、より大きな間隔で送信され得、ローカル装置はリアルタイムの低遅延体験を提供するために上記視聴者姿勢および受信されたシーンデータをローカルに処理する。これは、例えば、必要とされる通信帯域幅を大幅に減少させる一方で、短い待ち時間の体験を提供し、シーンデータが集中的に記憶され、生成され、維持されることを可能にする。これは、例えば、VR体験が複数のリモートデバイスに提供されるアプリケーションに適し得る。
特に魅力的なVR/ARアプリケーションは、ユーザ/参加者が異なる場所に存在し得る仮想遠隔会議アプリケーションである。このようなアプリケーションの一例が、複数のリモート(オーディオ)クライアント103をサポートする、図1の中央サーバに対応する中央サーバ101を示す図2に示されている。見て分かるように、すべての遠隔クライアント103は、互いにではなく中央サーバ101と直接通信する。したがって、各遠隔クライアント103は、当該遠隔クライアント103に関する1つ以上のローカルオーディオソースに対応するオーディオ成分を中央サーバ101にアップロードする。中央サーバ101は、他の遠隔クライアント103からのオーディオを表す個々の遠隔クライアント103にオーディオデータを送信する。通常、各ユーザまたは参加者は遠隔クライアント103を実装する別個のデバイスを有するが、もちろん、遠隔クライアントはいくつかの実施形態およびシナリオでは複数のユーザ/参加者によって共有されてもよい。
しかしながら、本発明者らは、多くのこのような実用的なシステムおよびアプリケーションの問題として、ローカル環境におけるオーディオがユーザ体験に影響を及ぼし得ることであることに気付いた。実際に、ローカル環境においてオーディオを完全に抑制することは困難である傾向があり、確かなことに、ヘッドホンを装着した場合であっても、ローカル環境から知覚されるオーディオへの知覚可能な寄与があるのが典型的である。場合によっては、このような音は、例えばアクティブノイズキャンセレーションを使用して抑圧することができる。しかしながら、これは、当該VRシーンに直接的な対応物を有するオーディオソースに対しては実用的ではなく、しばしば不完全である傾向がある。
実際、現実の環境音とオーディオシーン音との間の干渉の問題は、例えば多くのAR体験のような、ローカル環境にも反映するVR体験を提供するアプリケーションにとって特に問題である。
例えば、同じローカル環境(例えば、部屋)内の複数の人々が共通の体験を共有するVRの「ソーシャル」または「共有」態様を含むアプリケーションが追求されている。このような「ソーシャル」または「共有」使用ケースが、例えばMPEGにおいて提案されており、今や現在のMPEG‐I標準化活動のための主要な体験分類の1つとなっている。そのようなアプリケーションの例は、いく人かの人が同じ部屋にいて、VRコンテンツ内に各参加者の投影(オーディオ及びビデオ)も存在する状態で同じVR体験を共有する場合である。
このようなアプリケーションでは、VR環境が各参加者に対応するオーディオソースを含み得るが、これに加えて、ユーザは、例えばヘッドホンの典型的な漏れのために、他の参加者がローカルに存在する場合には該他の参加者も直接聞き得る。実際、多くの状況において、参加者はローカル環境を聞くために、開放型ヘッドホンを意図的に着用し得る。この干渉は、ユーザ体験に有害であり得、参加者の没頭を低減し得る。しかし、実際の音成分にノイズキャンセルを行うことは非常に困難であり、計算的に非常に高価である。ほとんどの典型的なノイズキャンセリング技術は、ヘッドホン内のマイクロフォンと、該マイクロフォン信号内の如何なる実世界信号成分も最小化(好ましくは完全に)するフィードバックループ(マイクロフォン信号は該ループを駆動するエラー信号とみなされ得る)とに基づいている。しかしながら、このようなアプローチは、知覚されるオーディオ内に該オーディオソースが実際に存在することが望まれる場合には実現可能ではない。
発明者らは、図2のような会議システムの場合、特に、異なるユーザ/参加者が同じ物理的な場所に居り、且つ、各ユーザが自身のマイクロフォン及び当該会議サーバへの接続を有する場合、すなわち、異なる共存ユーザが異なる遠隔クライアントを使用する場合、オーディオ体験が悪化し得ることを認識した。会議サーバは、各遠隔クライアントに、他の遠隔クライアントからのすべての到来信号を含む固有のミックスを送信し得る。ユーザが同じ物理的位置にいる場合、これらユーザは、通常、その位置にいる他のユーザを音響的に聞く(ヘッドホンがどの程度音響的に開放的であるかに依存する)のみならず、自身のヘッドホンを介しても聞く。受信されるオーディオは、他のユーザの遠隔クライアントからのオーディオ成分も含むからである。この会議接続上での遅延は、典型的には、これを非常に不快な体験にするのに十分な大きさである。
これは、ビジュアル成分に加わるので、AR/VRにとって特に重大な問題となる。遠隔の人物がAR体験に参加する場合、この人物は、例えばアバタを介して視覚的にもレンダリングされ得る。
当該ユーザに対する外部音レベルを低減するために全てのユーザが十分に密閉型のヘッドフォンセットを着用しても(VR にとり最も可能性の高い使用ケース)、共通の場所で録音されるすべてのマイクロフォン信号には、依然として各ユーザの音声の(直接的な音響)成分が存在する。このことは、音声が異なるマイクロフォンにわずかに異なる遅延で到着し、したがって、それ自体にわずかに異なる遅延(およびより減衰されたバージョン)で混合されるため、アーチファクトを引き起こす可能性がある。結果は、櫛形フィルタ処理が適用されることに対応する効果であり得る。
このように、ローカル音源は、レンダリングされるオーディオステージのユーザのオーディオ知覚と、個々の参加者の音のキャプチャとの両方を妨害し得る。
会議システムは、発話していない参加者のマイクロフォンから雑音または背景音を除去することにより能動的音声の明瞭度を改善するために、低レベルのマイクロフォン信号のユーザをミュートまたは減衰できるが、これは当該問題に完全に対処するものではない。例えば、他の参加者のマイクロフォンが十分に高いレベルで音声をピックアップする場合、これらはミュートまたは減衰されず、その結果、信号対雑音比が低下し得る。
この問題は、図3の例によって説明することができる。部屋Aのシナリオは、現在の会議システムにおいて、おそらく深刻なアーチファクトをもたらす。サーバへの2つの接続により、ユーザA1 のデバイスはユーザA2 の遅延音声を再生し、その逆もなりたつ。
通常、同じ部屋、または少なくともお互いの近傍で使用されている2つ以上の接続の場合、会議サーバからの各ユーザのオーディオは、それ自身のマイクロフォン信号は除外するが、会議コーデックシステムおよびユーザとサーバとの間の接続などによって決定される待ち時間をもつ他のすべてのユーザからのオーディオを含む。典型的な会議システムでは、これらの遅延は500ms未満である。
この状況には、以下の様ないくつかの欠点がある:
- ユーザが遅延(遅延聴覚フィードバック)を伴う自身の音声を聞くことは、非常に苛立たしいものであり、精神的ストレスを引き起こすことが知られている。
- ユーザA1が話している場合、それは当該部屋内の他の人(単数または複数)に対して音声明瞭度に悪影響を及ぼし、これは聴取努力および疲労を増加させる。
- ユーザA1が話している場合、当該部屋内の他のユーザのクライアントスピーカからの遅延された音声もユーザA1のマイクロフォンによってピックアップされ、これも他のユーザのスピーカを介して再び再生され、等々となり、潜在的に音響フィードバック(「リンギング」)を引き起こす。
- ユーザA1が話している場合には、これは他のすべてのユーザのマイクロフォンによってもピックアップされ、どの人物が話しているかを当該システムが決定することに関し問題を引き起こし得るか(当該システムがSNRを管理するために他の人物をミュートまたは減衰させることを妨げる)、または信号レベルの蓄積を引き起こし得る。
以下では、そのような効果および欠点を典型的に軽減することができるアプローチを説明する。このアプローチは、異なるリモートクライアント間の音響/空間関係を示すメタデータを生成し、配信することに基づく。例えば、どの(もしあれば)遠隔クライアントが同じ場所に位置するか、特に遠隔クライアントが同じ部屋内に存在するかどうかを示すメタデータを生成することができる(遠隔クライアントの位置は、例えばローカルオーディオをキャプチャする1つまたは複数のマイクロフォンの位置などの、ローカルオーディオのキャプチャの位置に対応すると考えることができる)。該メタデータは、例えば、中央サーバまたは(他の)遠隔クライアントに配布され、そこで適切なオーディオの生成に使用される(および潜在的には他の目的にも使用される)。
図4は、複数の遠隔クライアントにサービスを提供し、遠隔クライアントとの間でオーディオを送受信するように配置されたオーディオサーバを含むオーディオ配信システムのためのオーディオ装置の例を示す。以下の説明は、VR会議システムとしてのオーディオ配信システムに焦点を合わせ、図1~図3のようなシステムを参照して具体的に記載される。 しかし、一般的なアプローチおよび原理は、そのようなオーディオ会議システムに限定されず、他のソーシャルARサービスなどの多くの他のオーディオ配信システムおよびアプリケーションにも適用され得ることが理解されるであろう。
したがって、中央サーバ101は、以下ではオーディオサーバ101と呼ばれる。該サーバは、特にオーディオ会議アプリケーションをサポートしているため、会議サーバと見なされ得る。同様に、遠隔クライアント103の各々は、会議参加者/ユーザ(または潜在的に複数のもの)を表し、参加者の音/オーディオを表すオーディオコンポーネントをキャプチャ/生成し、結合された会議オーディオシーンをユーザに対してレンダリングする機能を果たす。各遠隔クライアントは、さらに、例えば、他の参加者を表すアバタを用いて完全な仮想シーンを生成することによって、または、例えば、ARヘッドセットのための視覚的オーバーレイを生成することによって、対応する視覚的(ビジュアル)シーンを生成するための機能を備える。該オーディオ及びビジュアルシーンは、一貫性があり、適切な会議シナリオの統合されたレンダリングを提供するように生成される。
典型的には、各遠隔クライアントは、音をキャプチャするように構成された少なくとも1つのマイクロフォンを備える。遠隔クライアントは、更に、キャプチャされたマイクロフォン信号からオーディオ成分を生成するように構成され、このオーディオ成分はオーディオサーバ101に送信され得る。
オーディオサーバ101は、異なる遠隔クライアント103からオーディオ成分を受信する。次に、オーディオサーバ101は、他の遠隔クライアント103から受信したオーディオ成分を反映するオーディオを各遠隔クライアント103に送信する。ある実施形態では、オーディオサーバ101が、遠隔クライアント103が他の遠隔クライアント103からオーディオ成分を受信するように、受信したオーディオ成分を転送してもよい。他の実施形態では、オーディオサーバ101は、適切な遠隔クライアント103のためのオーディオ成分を結合することによって、結合されたオーディオミックス表現(例えば、サラウンドサウンド信号、バイノーラル信号、またはモノラル信号)を生成する。そのような実施形態では、オーディオサーバ101が各遠隔クライアント103に対して特定のオーディオダウンミックスを生成する。該オーディオミックスは、複数の遠隔クライアント103からのオーディオ成分を表すオーディオ信号を含む。
図4のオーディオ装置は、オーディオデータと、近接データを含む関連するメタデータとを受信するように構成された受信機401を備える。
受信機401は具体的には複数のオーディオ成分を受信するように構成され、各オーディオ成分は遠隔クライアントからの音(サウンド)を表す。したがって、該オーディオ装置は複数のオーディオ成分を受信し、これらのオーディオ成分の各々は、それが受信された遠隔クライアント103に関連付けられる。各オーディオ成分は、特に、遠隔クライアント103において1組のマイクロフォンによってキャプチャされたオーディオ/サウンドに対応する。
さらに、受信機401は、当該オーディオ成分の少なくとも1つ、典型的にはいくつか、または実際にはすべてについて近接データを受信する。該近接データは、遠隔クライアント103間の音響/空間関係に関する情報を提供する関係データを提供する。
当該近接データは、具体的には、複数の遠隔クライアントのうちの遠隔クライアント間の近接度を示す。第1の遠隔クライアントから第2の遠隔クライアントへの近接表示情報は、第1の遠隔クライアントのオーディオソース(第1の遠隔クライアントに関連付けられた発言中の参加者など)から第2の遠隔クライアントに関連付けられた位置までの(現実世界の)音響減衰(特に、空気中または他の媒体中の振動による音の伝播の)を反映する。この位置は、具体的には、第1の遠隔クライアントに関するオーディオ成分が生成される信号をキャプチャする第1の遠隔クライアントのマイクロフォンの位置であってもよく、または、例えば、ユーザ(および具体的にはユーザの耳)若しくは複数のユーザの位置であってもよい。
このように、当該近接データは、具体的には音響近接データであり、遠隔クライアント103の対または組に関する近接指示情報などの、遠隔クライアントに関する近接指示情報を含む。
したがって、近接データ/近接指示情報は、第1の遠隔クライアントの位置から第2の遠隔クライアントの位置までの音響伝達関数/減衰を反映する。第2の遠隔クライアントに対する第1の遠隔クライアントの近接指示情報は、第2の遠隔クライアントに関連するオーディオが第1の遠隔クライアントに関連するオーディオに干渉する程度またはレベルを反映する。
第1の遠隔クライアントから第2の遠隔クライアントへの近接指示情報は、第1の遠隔クライアントのオーディオ成分にキャプチャされる第2の遠隔クライアントに関連するオーディオソースからのオーディオの量を具体的に反映する。具体的には、近接指示情報は、第2の遠隔クライアントの話者/参加者からのどれだけのオーディオが第1の遠隔クライアントによってキャプチャされるかを反映する。
当該近接データ/指示情報は、多くのシナリオにおいて、空間的近接度に直接対応し、空間近接度という用語を使用する。したがって、前記近接データは、異なる遠隔クライアントの空間的近接度を示すデータであり得る。多くの実施形態において、当該近接データは、どの遠隔クライアントが近位にあり、特に同一場所に存在するかの情報を提供する。リモートクライアントは、1つの遠隔クライアントのオーディオ成分によって表されるオーディオが別の遠隔クライアントによってもキャプチャされ得る場合、同一場所にある/近位であると見なされ得る。いくつかの実施形態では、遠隔クライアントは、これらの遠隔クライアントの位置が距離基準を満たす場合、例えば、空間距離が閾値未満である場合、または遠隔クライアントが同じ部屋にある場合、同一場所にある/近位であると見なす。いくつかの実施形態では、判定の繰り返し反転を回避するために、ヒステリシスが閾値に組み込まれる。
当該近接データは、遠隔クライアント間の現実世界の近接度、特に、遠隔クライアント間の現実世界の音響/音伝播近接度を示す。当該近接指示情報は、オーディオミックスの生成されたオーディオシーンにおける対応するオーディオの所望の位置とは無関係であってもよい。該近接指示情報は、仮想(オーディオ)シーン位置とは無関係であってもよい。該近接指示情報/データは、現実世界の空間/音響特性を示す。したがって、レンダリングされるべきオーディオ間の何らかの形態の所望の近接度を反映するのではなく、当該近接データは、遠隔クライアント間の実際の物理的近接度および音響環境を反映する。当該近接データは、例えば何らかの非物理的領域の何らかの形態の想像上の、理論的、仮想的、または所望の近接度を反映するものではなく、実世界の(典型的には音響的)近接度を反映する。
多くの実施形態では、近接指示情報は対称であり得る。すなわち、第1の遠隔クライアントから第2の遠隔クライアントへの近接度、及び第2の遠隔クライアントから第1の遠隔クライアントへの近接度に対して同じ近接指示情報/尺度が当てはまり得る。しかしながら、いくつかの実施形態では、非対称近接指示情報が適用されてもよい。例えば、指向性マイクロフォンを使用する遠隔クライアントの場合、第1の遠隔クライアントに関連するスピーカの第2の遠隔クライアントにおける減衰は、第2の遠隔クライアントに関連するスピーカの第1の遠隔クライアントにおける減衰とは異なり得る。同様に、近接データが、ヘッドホンを装着している第1の遠隔クライアントの参加者/ユーザの耳における位置を含む場合、減衰は、ヘッドホンによって及ぼされる音響減衰に依存し、第2の遠隔クライアントの参加者/ユーザの耳に対する減衰とは異なる場合がある。
したがって、受信機401は、遠隔クライアント103間の空間的/音響的相互関係を表すことができ、具体的には、どの遠隔クライアント103が例えば、同じ部屋であるなど、同一場所に居る/近位にあるかを示すことができる近接データを受信する。
受信機401は、オーディオ成分および上記近接データを受信する生成器403に結合されている。該生成器は、近接データに応答して複数のオーディオ成分のオーディオミックスを生成するように構成される。該オーディオミックスは、異なる遠隔クライアントからの複数のオーディオ成分を1組の信号に結合して含む。これら信号のうちの少なくとも1つは、複数のオーディオ成分/遠隔クライアントからのオーディオを含む。
例えば、生成器403は、オーディオ成分をチャンネルに結合/ダウンミックスすることによって、サラウンドサウンドダウンミックスまたはバイノーラルステレオ信号を生成する。該ダウンミックスは、さらに、例えばオーディオ成分のレベルが近接データに依存するように、近接データに依存して行われる。
生成器403は、具体的には、1つの特定の遠隔クライアントのためのオーディオ信号を、該オーディオ信号が生成される該特定の遠隔クライアントと同一場所に存在すると当該近接データによって示される遠隔クライアントのオーディオ成分を除くすべてのオーディオ成分を結合することによって生成するように構成される。
当該システムにおいて、近接データを含むメタデータは、オーディオ配信システムの、例えば、どのユーザ/クライアントが物理的な位置を共有するかを示すビットストリームに含まれる。該メタデータは、例えば、各会議参加者において何の信号を再生するかを決定するために使用される。例えば、共通の場所を共有する参加者のために再生されるオーディオ信号は、互いにキャプチャされた信号を含まず、遠隔ユーザからキャプチャされた信号のみを含む一方、これら参加者の音声は遠隔ユーザに送信される。これは、例えば、会議システムの待ち時間に起因する精神的ストレス、疲労、及びオーディオアーチファクトを回避し、音響フィードバックを回避し、及び/又はSNRの低下を回避する。
同一場所のユーザ/遠隔クライアントに関するオーディオを直接除外する代わりに、生成器403は、代わりに、他の同一場所のユーザのオーディオ成分のより緩やかな減衰を提供してもよい。
このように、多くの実施形態において、生成器403は第1の遠隔クライアントのためのミックスを、第2の遠隔クライアントからのオーディオ成分の減衰/重み付けが、該第2の遠隔クライアントが第1の遠隔クライアントに近いことを近接データが示すかどうかに依存して生成するように構成される。
いくつかの実施形態において、当該近接データは、第1の遠隔クライアントと第2の遠隔クライアントとの間の距離を示すスカラ値を含む。生成器403は、このような実施形態においては、第2の遠隔クライアントが第1の遠隔クライアントに近いほど、オーディオ成分の重みが小さく/減衰が大きくなるというように、距離の単調減少関数として減衰を決定するように構成される。第2の遠隔クライアントが第1の遠隔クライアントに非常に近い場合、第1の遠隔クライアントは、それに従って、第2の遠隔クライアントに関するオーディオが大幅に減衰されるオーディオシーンがレンダリングされる。これは、このような状況では第1の遠隔クライアントのユーザが第2の遠隔クライアントのユーザを直接聞くことができるであろうことを反映する。しかしながら、第2の遠隔クライアントが離れるほど、これからレンダリングされるオーディオは大きくなる。
これは、多くの実施形態において特に魅力的な性能が提供される。例えば、オーディオ会議アプリケーションが、幾人かが大規模なコンサートホールでのコンサートに参加している一群の人によって使用される状況において、コンサートホールの個々の参加者にはカスタマイズされたオーディオレンダリングを提供し、この場合において、出席していない他の参加者はフルボリュームでレンダリングされる一方、非常に近い参加者は非常に低いボリュームでレンダリングされ、コンサートホールに居るがより遠くに離れている参加者は中間ボリュームでレンダリングされる。このアプローチは、多くの状況において、ローカル環境における音響伝送によって直接受信されるオーディオと、当該会議アプリケーションによって提供されるオーディオとの間の改善されたバランスを提供し得る。
いくつかの実施形態において、生成器403は、2つの遠隔クライアントの近接データが近接基準を満たす場合、オーディオ成分を減衰させる。該減衰は、多くの実施形態では、無限減衰(オーディオ成分がレンダリングされない、または生成されるオーディオミックスに全く含まれないことに対応する)であり得る、所定の量によるものであり得る。
多くの実施形態において、前記近接基準は、2つの遠隔クライアントに関する近接指示情報が閾値未満の距離を示さなければならないという要件を含む。近接指示情報が該要件を満たす場合、生成器403は、生成されるオーディオミックスに含めるために対応するオーディオ成分を選択しないように進む。上記閾値は、大幅に相関がないことを示す低い「安全」値に設定される。
このアプローチは、しばしば、遠隔クライアント対が同一場所にある/近位である(例えば、同じ部屋内にある)と考えられるか否かを示す二進近接指示情報と共に使用され得る。もしそうである場合、個々の遠隔クライアントのためのオーディオ信号を生成する場合に、他の遠隔クライアントのオーディオ成分は含まれない。
いくつかの実施形態において、図4のオーディオ装置はオーディオサーバ101の一部として実施化される。いくつかの実施形態において、複数の遠隔クライアント103からのオーディオ成分/オブジェクトを、複数の遠隔クライアント103からのオーディオ成分を含む結合オーディオミックスにダウンミキシングすることは、オーディオサーバ101において行われる。そのような実施形態において、遠隔クライアント103は近接データをオーディオサーバ101に送信し、該サーバは、次いで、これを使用して、遠隔クライアント103のための個々のオーディオミックスが生成される。オーディオサーバ101は、特に、近接データを考慮して、遠隔クライアント103から受信されたオーディオ成分を結合/ダウンミキシングすることによって、遠隔クライアント103の各々のためのオーディオミックスが生成される。具体例として、オーディオサーバ101は、近接データが、対応する遠隔クライアントが当該オーディオミックスが生成される遠隔クライアントと同一場所にあることを示すものを除き、すべてのオーディオ成分を含むダウンミックスが生成される。
いくつかの実施形態において、図4のオーディオ装置は遠隔クライアント103のうちの1つの一部として実施化されてもよく、実際に、すべての遠隔クライアントはそのようなオーディオ装置を含む。いくつかの実施形態において、複数の遠隔クライアント103からのオーディオ成分/オブジェクトの、複数の遠隔クライアント103からのオーディオ成分を含む結合オーディオミックスへのダウンミキシングは、遠隔クライアント103において実行される。このような実施形態では、オーディオサーバ101がオーディオ成分及び近接データの両方を個々の遠隔クライアント103に送信し、個々の遠隔クライアントは、次いで、ローカルにオーディオミックスを生成し、これをユーザに対してレンダリングする。このようないくつかの実施形態において、オーディオサーバ101は、異なる遠隔クライアント103からオーディオ成分を受信し、これらのすべてを個々の遠隔クライアント103に転送する。さらに、ある実施形態では、オーディオサーバ101は遠隔クライアント103から近接データを受信し、この近接データを他の遠隔クライアント103に分配する。他の実施形態では、オーディオサーバ101は異なる遠隔クライアント103からオーディオ成分を受信し、次いで、それ自体が該オーディオ成分に基づいて近接データを生成する。個々の遠隔クライアントは、例えば、近接データが、対応する遠隔クライアントが当該ダウンミックスを生成する遠隔クライアントと同一場所にあることを示すものを除くすべてのオーディオ成分を含むローカルダウンミックスを生成する。
異なる実施形態においては、近接データを決定するための異なるアプローチが使用されてもよいことが理解されるであろう。多くの実施形態では、近接データは、特に異なるオーディオ成分を互いに比較することによって決定される。当該システムは、2つの遠隔クライアントからの2つのオーディオ成分を互いに比較することによって該2つの遠隔クライアントの近接指示情報を決定する近接検出器を含む。近接データは、例えば、これらの信号間の類似性を反映するように生成され、具体的には、相互相関尺度が生成され、この相互相関尺度から近接指示情報が生成される。例えば、相互相関値は直接使用されてもよく、または、例えば、近接指示情報は、ある遅延範囲内の最大相互相関尺度が所与の閾値を超える場合に、2つの遠隔クライアントが同一場所にあることを示すように設定されてもよい。次いで、送信機は上記近接指示情報を含むように近接データを生成し、これを(典型的にはオーディオ成分と共に)送信する。
当該オーディオ装置が遠隔クライアント103において実施化される実施形態では、近接検出器はオーディオサーバ101において実施化され、該検出器はすべてのオーディオ成分対の相互相関値を決定し、各対の近接指示情報を決定する。近接データはすべての近接指示情報を含むように生成されてもよく、この近接データはすべての遠隔クライアント103に送信され、または、例えば、所与の遠隔クライアントに関する近接データのみを該遠隔クライアントに送信される。さらに、オーディオサーバ101はオーディオ成分を送信し、クライアントは、ローカルにオーディオミックスを生成する。
当該オーディオ装置がオーディオサーバ101において実施化される実施形態では、近接検出器は遠隔クライアント103において実施化される。各遠隔クライアントは、例えばローカルなオーディオ成分を他の遠隔クライアント103から受信したオーディオ成分と相関させる近接検出器を含む。近接指示情報は、受信されたオーディオ成分の各々に対して生成され、該ローカルオーディオ成分と共にオーディオサーバ101に送り返されてもよい。次いで、オーディオサーバ101は個々の遠隔クライアント103のオーディオミックスを生成する際に、すべての遠隔クライアントから受信したこのような近接データが使用される。
したがって、図5に図示されるように、第1の主体501は、1つ以上のオーディオ成分対の相互相関値を決定し、各対の近接指示情報を決定する近接検出器503を含む。例えば、第1の主体501は、第1の遠隔クライアントに関する第1のオーディオ成分と第2の遠隔クライアントに関する第2のオーディオ成分との比較に応答して、第1の遠隔クライアントおよび第2の遠隔クライアントのための近接指示情報を決定する近接検出器503を備える。該主体は、さらに、図4のオーディオ装置を含む第2の主体507に上記近接指示情報を含む近接データを送信するように構成されたデータ送信機505を含む。近接データに加えて、送信機505は、1つまたは複数のオーディオ成分を送信する。このように、送信機505は、特に近接データおよびオーディオ成分データをオーディオ装置の受信機401に送信する。いくつかの実施形態において、第1の主体501は遠隔クライアントであってもよく、第2の主体507はオーディオサーバであってもよい。他の実施形態では、第1の主体501はオーディオサーバであり得、第2の主体507は遠隔クライアントであり得る。
このように、多くの実施形態において、オーディオサーバ101におけるオーディオ成分(例えば、遠隔クライアントからのマイクロフォン信号に対応する)の信号処理は、どのユーザ/遠隔クライアントが近位にあるか(例えば、部屋を共有する)を検出することができ、対応するメタデータは遠隔クライアント103に送信されることになる。
例えば、相関行列が該行列内のすべてのオーディオ成分対について最大相互相関値を用いて生成される場合、同じ部屋(近位)にある遠隔クライアント103のオーディオ成分は、高い最大相互相関値を有するであろう。
例えば、オーディオサーバ101は、i及びjの全ての固有の組み合わせ(i及びjは等しくない)に関して、
Figure 0007354225000001
が計算され、ここで、xはサーバがインデックスiの遠隔クライアントから受信したオーディオ成分信号を示し、
Figure 0007354225000002
はノルムを示し、nは最新の利用可能なサンプルを示すn=0のオーディオ成分(の履歴)に対するサンプルインデックスを示し、Nhistは分析に使用された過去のサンプルの数を示し、δmaxはオーディオ成分間の最大のサポートされる遅延を示す。
例えば、
Figure 0007354225000003
及び
Figure 0007354225000004
であり、ここで、fはマイクロフォン信号のサンプルレートであり、
Figure 0007354225000005
は切り捨て演算である。音声のサンプルレートの典型的な値は16kHzである。オーディオの場合、例えば48kHzのより高いサンプリングレートがよく使用される。特に、このアプローチでは、δmaxの値は、ユーザとマイクロフォン(同じ部屋の)との間の異なる音響経路長および遠隔クライアントからオーディオサーバ101への伝送の遅延差に起因するオーディオ成分間の遅延を考慮するために十分な大きさに選択される。
例えば、i及びjの特定の組み合わせに対して上記相互相関が高い(例えば、δi,j>=0.3)場合、遠隔クライアントi及びjは近位である、具体的には同じ部屋にあると考えられる。相互相関は、参加者の誰もが話していないときには低くなり得る。したがって、参加者i又はjのうちの1人がアクティブである場合にのみ相互相関を計算することが有利である。
一例として、ユーザkがアクティブかどうかの判断は、以下に従って行われる:
Figure 0007354225000006
ここで、たとえば、フルスケールの振幅Fを持つ信号に対して、Lthres=-30dBである。
他の例として、音声検出器が信号に適用される。
2つの遠隔クライアント103が近位であるかどうかの判定は、典型的には、ユーザのうちの1人がアクティブであるときにのみ評価され、最後に判定された決定はユーザがアクティブでないときは保持される。このことは、話者がアクティブであるかどうかに依存したメタデータの繰り返し反転を防止する。
上記判定のロバストさを保証するために、さらなる手段がとられる。例えば、遠隔クライアントi及びjが同じ部屋にいるかどうかの決定は、少なくとも15秒のアクティブ信号(a==1又はa==1)が異なる信号をもたらすときにのみ変更される。
幾つかの実施形態において、オーディオサーバ101は、どの遠隔クライアントが同じ部屋にいるかを決定し、該情報をメタデータとして遠隔クライアント103に送る。特に、この実施形態は、ユーザのオーディオ信号がクライアント毎にオーディオサーバ101でミキシングされず、別々に送信される場合に有利である。例えば、各ユーザの信号が仮想(または拡張)現実における特定の位置にレンダリングされるVRアプリケーションである。この場合、遠隔クライアントは、他のユーザが例えば同じ部屋にいるメタデータを使用して、会議サーバから受信した対応する信号をレンダリングまたは再生しないことを決定できる。
いくつかの実施形態において、前記近接検出器は、前述したように、遠隔クライアント内に配置されてもよい。このような遠隔クライアントの構成要素の一例を図6に示す。
当該遠隔クライアントは、マイクロフォンに結合され、該マイクロフォンによってキャプチャされたオーディオに対応するマイクロフォン信号を生成するように構成された入力部601を備える。該マイクロフォン信号はエンコーダ603に供給され、該エレメントは該信号を符号化してオーディオ成分を生成する(一部の実施形態では該マイクロフォン信号がオーディオ成分として直接使用されてもよい)。
該エンコーダは、オーディオサーバ101と通信するように構成されたインターフェース605に結合される。従って、該インターフェースは、オーディオサーバ101にデータを送信するための送信機と、オーディオサーバ101からデータを受信するための受信機とを備える。インターフェース605は、オーディオ成分データが供給され、これをオーディオサーバ101に送信する。
さらに、インターフェース605は他の遠隔クライアントからオーディオ成分および近接データを受信し、具体的には、インターフェース605は図4の受信機401を備える。
当該遠隔クライアントは、図4の生成器403に直接対応するオーディオレンダラ607をさらに備える。生成器403は、前述のように、ローカルユーザに提示するためのローカルミックスを生成する。
他の実施形態において、オーディオサーバ101から受信されるオーディオはダウンミックスされた信号であってもよい。すなわち、生成器403はオーディオサーバ101に含まれてもよく、送信されるオーディオは、例えば、バイノーラルステレオ信号またはサラウンドサウンド信号であってもよい。レンダラ607は、そのような実施形態では、受信信号を直接レンダリングする。
図6の遠隔クライアントは、マイクロフォン信号(おそらくオーディオ成分によって表される)とオーディオサーバから受信されたオーディオとの比較に応答して、第1の遠隔クライアントに対する近接指示情報を決定するように構成された近接検出器607をさらに備える。
例えば、受信されたオーディオが他の遠隔クライアントからのオーディオ成分に対応する場合、これらは直接近接検出器609に供給し、該検出器は、次いで、マイクロフォン信号(おそらくはオーディオ成分によって表される)を受信されたオーディオ成分と相関させ、受信されたオーディオ成分の各々について近接指示情報を生成する。該近接指示情報はインターフェース605に供給され、該インターフェースは該近接指示情報を含む近接度データをオーディオサーバ101に送信する。
受信されたオーディオが、同じオーディオ信号/チャンネルに結合/混合された他の遠隔クライアントの複数のオーディオ成分を含むオーディオミックスに対応する場合、近接検出器609はマイクロフォン信号を該オーディオミックスと相関させる。
例えば、上記オーディオミックスが単一の信号のみを含む場合、近接検出器609は該受信信号をマイクロフォン信号と相関させ、所与のレベルを超える相関が検出された場合、現在アクティブな遠隔クライアント(現在アクティブな話者に関する)が現遠隔クライアントに近接していることを示す近接指示情報を生成する。
当該オーディオミックスが2以上のチャンネル/信号を有する場合、これらを例えば相関処理の前に組み合わせ、又は各チャンネル信号に対して相関処理を行ない、例えば、最大の相関のみが考慮される。
現在アクティブな遠隔クライアント/話者の身元(ID)が当該遠隔クライアントによって知られている場合(例えば、このようなアクティビティはオーディオサーバ101によって検出され、対応する情報を遠隔クライアントに転送する)、該遠隔クライアントは、上記他の遠隔クライアントのこの身元識別情報を近接しているとして含む近接指示情報を生成する。
そのような情報が利用可能でない場合、当該遠隔クライアントは、現在アクティブな話者/遠隔クライアントが近位にあることを示す近接指示情報を単に送信する。そのような場合、オーディオサーバ101は、例えば、(例えば、音声検出を使用して)現在アクティブな話者を検出するように構成され、当近接指示情報を該識別された現在アクティブな話者/遠隔クライアントとして送信する遠隔クライアントに近接した遠隔クライアントの適切な身元を決定する。
このように、いくつかの実施形態において、遠隔クライアントはオーディオサーバ101から受信された信号(複数可)を自身のローカルマイクロフォン信号(例えば、音響エコー消去(AEC)後)と比較して、近位の遠隔クライアントを検出する。
例えば、クライアントは、サーバから受信された信号と遠隔クライアントのマイクロフォン信号との間の相互相関を以下のように決定する:
Figure 0007354225000007
ここで、yはオーディオサーバから受信された信号を示し、xはローカルマイクロフォン信号を示し、
Figure 0007354225000008
はノルムを示し、nは最新の利用可能なサンプルを示すn=0のマイクロフォン信号(の履歴)に対するサンプルインデックスを示し、Nhistは分析に使用された過去のサンプルの数を示し、δmaxはマイクロフォン信号間の最大のサポートされる遅延を示す。
例えば、
Figure 0007354225000009
及び
Figure 0007354225000010
であり、ここで、fはマイクロフォン信号のサンプルレートであり、
Figure 0007354225000011
は切り捨て演算である。特に、このアプローチでは、δmaxの値は、例えば、符号化、(クライアントからサーバへの)伝送、サーバにおける処理、(サーバからクライアントへの)伝送、および復号化による当該(分散)システムにおけるシステム遅延による、並びにユーザとマイクロフォン(同じ部屋内の)との間の異なる音響経路長による、マイクロフォン信号とオーディオサーバから受信される信号との間の遅延を考慮するために十分な大きさでなければならない。
特定のiに対して上記の相互相関が高い、例えばδ>=0.2である場合、ユーザiは同じ部屋(近位)にいると考えられる。
他の例として、クライアントはマイクロフォン信号を、該マイクロフォン信号にAECが適用される前に使用する。これは、例えば、15msよりも大きな遅延に焦点を当てて、より大きな会議システム遅延からクライアント内のスピーカとマイクロフォンとの間の音響フィードバックを分離する。クライアントは両方の相関ピークを探し、AECにより短い遅延を提供する。
1以上のクライアントが2以上のオーディオ成分を送信する場合、当該アルゴリズムは、例えば、分析のために最も大きなマイクロフォン信号を選択し、全てのマイクロフォン信号のダウンミックスを計算し、又は特定のマイクロフォン信号を選択する。
同様に、サーバ側のアプローチと同様に、相関は典型的にはユーザが話しているとき、より具体的には、サーバから受信される信号のうちの1つにアクティブな話者が存在するときにのみ計算される。
オーディオサーバ101から受信されるオーディオ成分/信号yiは、典型的には、会議通話における他のユーザを(少なくとも部分的に)表す。これにより、遠隔クライアントは、どのユーザが同じ部屋にいるかを、どの信号が高い相関を有するかに基づいて決定する。幾つかのユーザの信号は、オーディオサーバによってミュートされているか、または非アクティブであると判定されているため、送信されない場合がある。
前述したように、いくつかの信号において、オーディオ成分はオーディオサーバ101においてオーディオミックスに結合され得る。信号がそのようなオーディオミックスを表す場合、それらはオーディオチャネルを表すことができ、いくつかのユーザの信号は複数のオーディオチャネル内に存在し得る。したがって、オーディオチャネルを個別に分析することは、必ずしも、特別に有用な追加の情報をもたらすとは限らない。したがって、信号をダウンミックスし、その結果とローカルマイクロフォン信号との相関を決定することが有利である場合がある。ダウンミックスは、次のように計算される:
Figure 0007354225000012
ここで、Iはオーディオ信号の集合に関連する入力信号のインデックスの集合であり、#Iは集合Iの濃度である。
このアプローチの結果は、より低い計算的複雑さであり、これは、全般的にCPU使用量を減らし、および/または携帯型装置におけるバッテリ寿命を改善するのに有利である。
このようなアプローチは、すべてのクライアントの信号が(少なくとも部分的に)サーバ内で事前混合または事前レンダリングされる場合に特に有利であるが、事前混合または事前レンダリングされない信号にも適用される。
いくつかのケースにおいて、オーディオミックスが受信された場合、どのユーザが同じ部屋にいるかを直接決定できない場合があり得る。同じオーディオミックスに埋め込まれた場合に、異なる遠隔クライアントのオーディオ成分を直接区別できない場合があるからである。しかしながら、クライアントは、現在アクティブなユーザが同じ部屋にいる(いる可能性が高い)ことを示すメタデータを送信する。オーディオサーバ101は、例えば該メタデータを送信したクライアントに送信する信号に該アクティブなユーザの信号を事前ミキシングまたは事前レンダリングしないことによって、このことを考慮に入れることができ、その逆も同様である。
一部の会議アプリケーションは、通話の参加者の情報を送信する。このような場合、これを使用して、高い相互相関が検出されたときにクライアント側でどのユーザがアクティブであるかを判別でき、遠隔クライアントはその情報をサーバに送信する。
サーバは、ロバストさを改善するために、該サーバが受信したメタデータを後処理する。たとえば、複数のユーザが同時にアクティブであると示され得ると同時に、第3のクライアントが、現在アクティブなユーザが同じ部屋にいることを示すメタデータを送信するとする。この場合、オーディオサーバはこの情報を、これら他の2人のユーザからの情報と組み合わせることができ、ここで、一方が現在アクティブなユーザが同じ部屋にいることを示すこともある。この場合、これは、3つユーザ全てが同じ部屋にあることを意味する。他の例として、アクティブなユーザの中で最も音が大きいものを同じ部屋内としてフラグ付けするか、またはっこれらアクティブなユーザの両方の尤度値を増加させてもよい。該尤度値があるしきい値よりも大きい場合、対応するユーザは同じ部屋にいると考えることができる。代わりに、増加する尤度値に関連して、事前ミックスにおけるユーザのレベルを減少させてもよい。
上述の異なる方法は、事前ミックスされた信号及び個々の信号の両方が受信されるクライアントに対して、および/または、信号特性が時間の経過とともに変化する場合(例えば、帯域幅利用可能性が変化することによって)に組み合わせられる。
同様にして、サーバ側アプローチに対すると同様に、ロバストさは同じまたは類似の方法を使用してクライアント内で改善される。
信号間の相互相関が実行される実施形態では、相互相関は、前述したように、完全に時間領域の信号に対して実行される。代わりに、いくつかの実施形態において、相互相関は時間-周波数表現(例えば、QMFフィルタバンク(直交ミラーフィルタ)、STFT(短期フーリエ変換)または窓付きMDCT若しくはFFT解析の後の)に対して実行される。これらの場合、上記の相関方程式における各和は、時間次元(n)のタイムスロットまたはフレーム、およびスペクトル次元(b)の周波数帯域またはビンにわたる2次元和になる:
Figure 0007354225000013
ここで、f(n,b)は、x及びyが時間領域インデックスとしてnをとり、周波数領域インデックスとしてbをとるとして、上記相関方程式におけるx及び/又はyの対応する関数を表す。N^hist及びδ^maxは、それぞれ、タイムスロットまたはフレームに関するNhist及びδmaxである。例えば、64のダウンサンプリング係数を有するQMFフィルタバンクの場合は、
Figure 0007354225000014
又は256サンプルのホップサイズを有するウィンドウFFTの場合は、
Figure 0007354225000015
であり、
Figure 0007354225000016
は切り上げ演算である。
別の例として、幾つかの実施例では、相互相関を当該信号の包絡線、エネルギプロファイル又は周波数依存エネルギプロファイルに適用する。このことは、より低い計算的複雑さを達成するために有利であり、信号yiがより少ない数のダウンミックス信号からパラメトリックに再構成され、従って再構成された信号の局所的微細構造に高い相関を有する可能性がより高い場合に有利であり得る。代わりに、後者の場合において、相関が再構成パラメータに適用される。
周波数依存相関計算の場合、いくつかの実施形態は、典型的な音声周波数を強調するために、特定の周波数ビン/帯域に重み付けを適用する。
(周波数に依存する)エネルギプロファイルは、当該信号から以下のように計算する:
Figure 0007354225000017
ここで、エネルギプロファイルx^の各新しい時間-周波数表現は、信号表現x(n,b)におけるすべての時間-周波数タイルの全エネルギである。ビンb^の開始および停止ビンは、それぞれ、b^startおよびb^endによって示され、開始および停止タイムスロットは、それぞれ、n^startおよびn^endによって示される。純粋に時間領域の信号(例えば、PCM信号)の場合には、bインデックス及び加算は省略される。
いくつかの実施形態では、遠隔クライアント103間の近接度を決定するための他のアプローチが代替的にまたは追加的に使用される。
例えば、いくつかの実施形態において、近接度指示情報は、例えば、個々の遠隔クライアントのユーザインターフェースを使用して、直接的な手動設定によって決定される。他の実施形態は、GPS、屋内位置特定技術、IPアドレス、またはネットワークIDの手段などの位置特定技術を使用する。いくつかの実施形態において、遠隔クライアント103はこのようなデータをサーバに送り、該サーバは、受信したデータを評価して、どの遠隔クライアント103が互いに近接しているかを決定する。
例えば、IP/MACアドレスおよび/またはネットワーク遅延時間を、遠隔クライアントが近接していることの指示情報として使用する。例えば、遠隔クライアント103がネットワーク機器を共有するという事実は、同一場所にあることを示す。
いくつかの実施形態において、2つの遠隔クライアントの近接度は、音響フィードバックを検出することによって検出され、その場合、当該システムはそのような音響フィードバックを防止する(例えば、正のフィードバックが防止されるようにループ特性を変更することによって)。
音響フィードバックを検出することにより近接度を検出するために使用できるテスト処理の例は、現在音響フィードバックがないことを保証するために、すべてのマイクロフォンがミュートされた状態(またはオーディオ成分がクライアントにフィードバックされていない状態)で開始する。次に、異なる対の遠隔クライアントのマイクロフォンをオンにし、その結果が音響フィードバックをもたらす場合、対応する対の遠隔クライアントは近位であると見なされる。このアプローチは、クライアントの各ペアにおける音響フィードバックの検出を可能にするために、しばらくの間、会議通話を中断し得る。
音響フィードバックの検出は、様々なアプローチで行える。1つの余り低複でないアプローチは、複数のクライアントのレベルが増加しているかどうか、または1以上のクライアントマイクロフォンが指数関数的に増加するレベルを供給しているかどうかを決定することであろう。当該システムにおける平均往復遅延を考慮すると、これは、RMSレベルの指数関数的増加が往復遅延に類似した周期性で段階的になることを示し得る。音響フィードバックの検出のためにも使用することができるスペクトル平坦度尺度(SFM)は、Devis Thomas、AR Jayanによる文献“Automated Suppression of Howling Noise Using Sinusoidal Model based Analysis/Synthesis”、IEEE International Advance Computing Conference(IACC)、ITM University、Gurgaon,India,761-765、2014に記載されている。他のアプローチは、スペクトル又はスペクトログラム間の高い相関のような、異なるクライアントからの複数のマイクロフォン信号における類似性を決定し得る。他の例は、マイクロフォン信号におけるクリッピングの存在を決定することであろう。
どのクライアントが例えば同じ場所にいるかを検出するための手法の別の例は、各クライアントのオーディオ成分にマーカ信号または透かしを追加することによるものである。このマーカは、概して人間により知覚できないように選択することができ、使用されるコーデックおよび音響経路によって課される歪みにもかかわらず、マイクロフォン信号内で検出できるように設計される。
例えば、サーバは、クライアントに送信されるオーディオにこれらのマーカを挿入する。各クライアントが固有のマーカを得ることが、しばしば有益である。次いで、いくつかの実施形態において、サーバは、受信したクライアントのマイクロフォン信号を他のクライアントのマーカについて分析する。他の実施形態では、クライアントが自分自身のマイクロフォン信号を分析し、マーカ情報をサーバに送信する。このマーカ情報は、検出されたマーカIDであってもよいし、サーバから受信したマッピングメタデータに応答して、検出されたマーカIDを対応するクライアントにマッピングしていてもよい。
上述の例において、オーディオミックスの生成は近接データに依存する。しかしながら、このようなデータは、他の目的のために使用されてもよいことが理解されるであろう。
例えば、いくつかの実施形態において、近接データはユーザがどのように物理的にグループ化されるかに従ってユーザを(例えば、空間的に)グループ化するために使用される。いくつかの実施形態において、例えばARの場合、近接データは、どのユーザが部屋内に物理的に存在しないかを決定するために使用され、もしそうなら、ユーザのための仮想アバタを提示し得る。いくつかの実施形態において、近接データは(さらに)物理的な部屋にいないユーザの信号を、ユーザと重ならない位置にレンダリングするために使用されてもよい。
いくつかの実施形態において、メタデータおよび/またはクライアント側分析は、異なるデバイス上での再生を同期させるために使用されてもよく、その結果、小さい相互遅延での再生が達成される。
いくつかの実施形態において、近接データは、同じ部屋内のユーザに関連するサーバから受信された信号をレンダリングせずに、代わりに、これらのユーザのローカルなマイクロフォンキャプチャをレンダリングのために使用される。これは、ユーザが音響経路を阻止又は減衰させるヘッドホンを着用している場合に有利であり得る。処理をローカルに保つことによって、会議システムの遅延を排除し、その結果、より良好なリップ同期が得られる。
いくつかの実施形態において、第1の遠隔クライアントは、生成されたマイクロフォン信号またはオーディオ成分を、同一場所にあると検出された第2の遠隔クライアントに送信する。該送信は、直接データリンク(LAN/光/RF)を介してもよく、特にオーディオサーバ101を除外してもよい。これにより、伝送遅延が低減されたリンク/通信を提供する。次いで、第2の遠隔クライアントは、この直接受信された信号を使用して、第1の遠隔クライアントのオーディオソースからの信号を減衰または抑制する。このようなアプローチは、音響経路を使用することの代替となり得、(光と音の速度の差のために)より速い伝送という利益を得る。第2の遠隔クライアントにおいてクリーンなオーディオ「基準」を適時に利用可能にすることで、不必要に複雑な又は誤差が発生しやすいオーディオ処理を回避できる。
いくつかの実施形態では、そのようなリンクを使用して、同じ部屋にいる遠隔クライアント間のオーディオミックスの再生が同期される。代わりに、このような同期メタデータはオーディオサーバを介して進行する。当該同期は、ほとんどの実施形態では、サーバから受信したデータに対して最も大きい待ち時間を有する共存クライアントを考慮に入れ、同期させるために他の共存クライアントにおけるオーディオミックスの再生を遅延させる。この連続的同期処理は当業技術分野で知られており、NTP(ネットワーク時間プロトコル)またはPTP(精密時間プロトコル)などの時間同期プロトコルを使用して達成される。
前述のように、音響近接度は、音響伝達関数が2つの方向で異なり得ることを反映して、第1の遠隔クライアントから第2の遠隔クライアントへの方向において、第2の遠隔クライアントから第1の遠隔クライアントへの方向とは異なり得る。したがって、多くの実施形態において、近接データは、方向に応じて一対の遠隔クライアント103に関して異なる近接指示情報を含み得る。
例えば、オーディオサーバ101によって遠隔クライアントに供給される近接データは、所与の他の遠隔クライアントに関して2つの値を含み、ローカルなオーディオミキシングは、それに応じて、他の遠隔クライアントからこのクライアントへの近接指示情報に応答するものとなり得る。
非対称/方向性近接指示情報の使用は、例えば、一方のユーザがヘッドホンを装着し、他方がスピーカレンダリングを使用する特定の状況を含む多くの実施形態において、改善された性能を提供する。
いくつかの実施形態において、近接データはサービス/アプリケーションの初期化時に通知/配布し、この近接データはこのサービス/アプリケーションの終了まで使用される。たとえば、新しい会議のセッションが初期化されると、近接データが交換され、該セッションの終了まで使用され得る。
しかしながら、ほとんどの実用的な実施形態では、当該システムは少なくともいくつかの近接データを動的に決定/適応/更新/配信するように構成され得る。したがって、受信機401は、典型的には遠隔クライアントの位置の変化に動的に適応する近接データを受信するように構成される。
具体的には、オーディオサーバ101および/または遠隔クライアント103の近接検出器は、適切な信号を継続的に相関させ、該相関結果に基づいて近接指示情報を決定する。この場合、当該システムは、例えば、近接度指示情報を含むメタデータをオーディオ成分の分配と共に継続的に送信することによって、近接指示情報を継続的に分配する。
多くの実施形態において、当該システムは、(少なくとも)第1の遠隔クライアント対に関する近接指示情報を、1分以下、しばしば30秒以下の更新レートで送信するように構成される。
このような動的更新は、ユーザ位置の変化に適応した効率的かつ適応的なシステムを提供することができる。例えば、多くの実施形態において、当該システムは、自身の電話を介した接続による会議参加者が他のクライアントがいる会議室に歩いて入ることに迅速に適応する。例えば、当該システムは、該参加者が会議室に入るときに音響フィードバックが発生することをしばしば防止する。
近接データは多くの異なるアプローチでメタデータとして伝送でき、使用される特定のアプローチは個々の実施形態の選好および要件に依存し得ることが理解されるであろう。
メタデータの正確な構造、構文および内容は、特定の実施形態に依存する。したがって、メタデータは様々なやり方で構成および送信され、好ましい手法は、クライアント側の検出またはサーバ側の検出が使用されるかどうか(またはその組合せ)にも依存し得る。
サーバ側の検出の場合、メタデータは、通常、サーバから1以上のクライアントに送信される。該メタデータには、何のユーザ/クライアントが同じ場所にいるかの情報が含まれ得る。例えば、クライアントのインデックス若しくは名前の指示情報、またはビットマップが使用される。サーバによってクライアントに送信されるビットストリームの構文の一部は、たとえば次の表のようになる:
Figure 0007354225000018
Figure 0007354225000019
この例は、クライアントにメタデータを送信するための3つの異なるやり方をサポートし、好ましい設定に応じて1つを選択する構文を示している。該例は、すべてのクライアントに、どれだけ多くの固有の場所(または、2以上のユーザの居るどれだけ多くの場所)が存在するか、およびどの場所にどのユーザが存在するかに関する情報を提供する。
別の例として、関連するメタデータは、場所を共有するユーザにのみ送信される。これは、以下の表の構文例に示される:
Figure 0007354225000020
Figure 0007354225000021
クライアント側の検出の場合、メタデータは、通常サーバに送信され、該サーバは、一般的に1つ以上のクライアントに、類似または導出した情報をもつメタデータを送信する。
例えば、クライアントは、その時点で、出力信号とマイクロフォン信号(AEC後の)との間に高い相関が検出されたかどうかを示すフラグを送信する。それに加えて、またはその代わりに、最大相関値の指示情報を送信してもよい。
他の実施形態において、クライアントは、どのユーザがアクティブであるかを示すメタデータをさらに使用し、同じ場所にあると判定された1以上の特定のユーザを示すデータを送信する。これは、上述したものと同様の構文を使用して実行される。
さらに、クライアントは、どの方法で検出されたか、および/または直接的音響キャプチャと会議サーバから受信されたオーディオ信号における高い相関との間の遅延を記述するメタデータを送信する。
クライアントからサーバに送信されるデータの構文例は、下表のとおりである:
Figure 0007354225000022
検出方法メタデータの定義例を下表に示す:
Figure 0007354225000023
1以上のクライアントからの類似のメタデータに応答して、サーバは、上述のものと同様のメタデータを送信する。サーバは、複数のクライアントから受信した情報を貯えることができる。そのために、サーバは、全ての場所共有指示情報を組み合わせることができる。たとえば、クライアントA及びBがユーザDと同じ場所にあることを示し、クライアントDがユーザAとC との共有場所を示している場合、サーバはユーザA、B、C及びDが同じ場所にあることを示す。
代わりに、サーバはユーザAおよびDを、これらが互いに共有位置を示したので、同じ位置にあることを示してもよい。
上記の記載は、明瞭化のために、異なる機能回路、ユニット、およびプロセッサを参照して本発明の実施形態を説明したことが理解されるであろう。しかしながら、本発明から逸脱することなく、異なる機能回路、ユニット、またはプロセッサ間の機能の任意の適切な分散を使用できることは明らかであろう。例えば、別個のプロセッサまたはコントローラによって実行されることが示されている機能は、同じプロセッサまたはコントローラによって実行されてもよい。したがって、具体的な機能ユニットまたは回路への言及は、厳密な論理的または物理的な構造または編成を示すのではなく、記載された機能を提供するための好適な手段への言及としてのみ見なされるべきである。
本発明は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組合せを含む任意の適切な形態で実施することができる。本発明は、任意選択で、1つまたは複数のデータプロセッサおよび/またはデジタル信号プロセッサ上で実行されるコンピュータソフトウェアとして少なくとも部分的に実装され得る。本発明の実施形態の構成要素および構成部品は、任意の適切な方法で物理的、機能的、および論理的に実装され得る。実際、機能は、単一のユニットで、複数のユニットで、または他の機能ユニットの一部として実装され得る。したがって、本発明は、単一のユニットで実施されてもよく、または異なるユニット、回路、およびプロセッサの間で物理的および機能的に分散されてもよい。
本発明はいくつかの実施形態に関連して説明されてきたが、本明細書に記載された特定の形態に限定されることは意図されていない。むしろ、本発明の範囲は、添付の特許請求の範囲によってのみ限定される。さらに、特徴は特定の実施形態に関連して説明されるように見えるかもしれないが、当業者は説明された実施形態の様々な特徴が本発明に従って組み合わされ得ることを認識するであろう。請求項において、「有する」という用語は、他の構成要素又はステップの存在を排除するものではない。
さらに、個別に列挙されているが、複数の手段、要素、回路、または方法ステップは例えば、単一の回路、ユニット、またはプロセッサによって実装され得る。さらに、個々の特徴が異なる請求項に含まれてもよいが、これらは場合によっては有利に組み合わされてもよく、異なる請求項に含まれることは特徴の組み合わせが実現可能ではなく、及び/又は有利ではないことを意味しない。また、請求項の1つのカテゴリに特徴を含めることは、このカテゴリへの限定を意味するものではなく、むしろ、その特徴が必要に応じて他の請求項カテゴリに等しく適用可能であることを示す。さらに、請求項における特徴の順序は当該特徴が実施されなければならない特定の順序を意味するものではなく、特に、方法請求項における個々のステップの順序は、当該ステップがこの順序で実施されなければならないことを意味するものではない。むしろ、ステップは、任意の適切な順序で実行されてもよい。さらに、単数形は、複数形を除外しない。従って、「第1」、「第2」等も、複数を排除するものではない。クレーム中の参照符号は、単に明確な例として提供されているにすぎず、クレームの範囲を何らかの方法で限定するものと解釈してはならない。

Claims (14)

  1. 複数の遠隔クライアントからの到来オーディオを受信すると共に前記到来オーディオから導出されたオーディオを前記複数の遠隔クライアントの少なくとも幾つかに送信するためのオーディオサーバを備えるオーディオ配信システムのためのオーディオ装置であって、前記オーディオ装置は、
    各々が前記複数の遠隔クライアントのうちの或る遠隔クライアントからのオーディオを表す複数のオーディオ成分に関するオーディオデータ、及び
    前記複数のオーディオ成分のうちの少なくとも1つに関する、現実世界の音響環境における遠隔クライアントの間の物理的近接度を示す近接データ、
    を含むデータを受信する受信機と、
    前記近接データに応答して前記複数のオーディオ成分のオーディオミックスを生成するための生成器と
    を有し、
    前記生成器は前記複数の遠隔クライアントのうちの第1の遠隔クライアントのための第1のオーディオミックスを生成し、第2の遠隔クライアントが前記第1の遠隔クライアントに近いことを前記近接データが示す場合に、該第1のオーディオミックスの生成が、前記近接データに応答して前記第2の遠隔クライアントに関する第2のオーディオ成分の前記第1のオーディオミックスにおける減衰を決定するステップを含む、オーディオ装置。
  2. 前記生成器が、前記第1の遠隔クライアント及び前記第2の遠隔クライアントに対して近接基準を満たす前記近接データに対し前記第1のオーディオミックスにおける前記第2のオーディオ成分を減衰させる、請求項1に記載のオーディオ装置。
  3. 当該オーディオ装置が前記オーディオサーバの一部である、請求項1又は2に記載のオーディオ装置。
  4. 当該オーディオ装置が前記複数の遠隔クライアントのうちの或る遠隔クライアントの一部である、請求項1又は2に記載のオーディオ装置。
  5. 前記近接データは少なくとも第1の遠隔クライアント及び第2の遠隔クライアントに関するスカラ近接指示情報を含み、該スカラ近接指示情報が前記第2の遠隔クライアントのオーディオソースから前記第1の遠隔クライアントのキャプチャ要素までの音響減衰を示す、請求項1から4の何れか一項に記載のオーディオ装置。
  6. 前記近接データが、第1の遠隔クライアントから第2の遠隔クライアントへは前記第2の遠隔クライアントから前記第1の遠隔クライアントへとは異なる近接指示情報を有する、請求項1から5の何れか一項に記載のオーディオ装置。
  7. 前記受信機が前記複数の遠隔クライアントのうちの少なくとも1つの位置の変化に動的に適応する近接データを受信する、請求項1に記載のオーディオ装置。
  8. 複数の遠隔クライアント、及び
    前記複数の遠隔クライアントからの到来オーディオを受信すると共に前記到来オーディオから導出されたオーディオを前記複数の遠隔クライアントの少なくとも1つに送信するためのオーディオサーバ、
    を有するオーディオ配信システムであって、前記オーディオサーバ及び前記複数の遠隔クライアントのうちの1つの少なくとも一方は、
    各々が前記複数の遠隔クライアントのうちの或る遠隔クライアントからのオーディオを表す複数のオーディオ成分に関するオーディオデータ、及び
    現実世界の音響環境における遠隔クライアントの間の物理的近接度を示す、前記複数のオーディオ成分のうちの少なくとも1つに関する近接データ、
    を含むデータを受信するための受信機と、
    前記近接データに応答して前記複数のオーディオ成分のオーディオミックスを生成するための生成器と
    を有し、
    前記生成器は前記複数の遠隔クライアントのうちの第1の遠隔クライアントのための第1のオーディオミックスを生成し、第2の遠隔クライアントが前記第1の遠隔クライアントに近いことを前記近接データが示す場合に、該第1のオーディオミックスの生成が、前記近接データに応答して前記第2の遠隔クライアントに関する第2のオーディオ成分の前記第1のオーディオミックスにおける減衰を決定するステップを含む、オーディオ配信システム。
  9. 当該オーディオ配信システムが、第1の遠隔クライアント及び第2の遠隔クライアントに関する近接指示情報を、前記第1の遠隔クライアントに関する第1のオーディオ成分と前記第2の遠隔クライアントに関する第2のオーディオ成分との比較に応答して決定する近接度検出器と、前記近接指示情報を含む近接データを前記受信機に送信するための送信機とを備える、請求項8に記載のオーディオ配信システム。
  10. 前記近接度検出器が、前記オーディオサーバの一部である、請求項9に記載のオーディオ配信システム。
  11. 前記複数の遠隔クライアントのうちの第1の遠隔クライアントが、
    一組のマイクロフォンによりキャプチャされたオーディオに対応するマイクロフォン信号を生成するための入力部と、
    前記第1の遠隔クライアントに関する近接指示情報を前記マイクロフォン信号と前記オーディオサーバから受信されたオーディオとの比較に応答して決定する近接度検出器と、
    前記近接指示情報を含む音響オーディオデータを前記オーディオサーバに送信するための送信機と
    を備える、請求項8に記載のオーディオ配信システム。
  12. 前記近接度検出器が前記マイクロフォン信号と前記オーディオサーバから受信されたオーディオとの間の高い相関を検出することに応答して、前記送信機は、現在アクティブな遠隔クライアントが近接していると判定されていることを示す近接データを送信する、請求項11に記載のオーディオ配信システム。
  13. 複数の遠隔クライアントからの到来オーディオを受信すると共に前記到来オーディオから導出されたオーディオを前記複数の遠隔クライアントのうちの少なくとも幾つかに送信するためのオーディオサーバを備えるオーディオ配信システムのためのオーディオ装置の動作方法であって、前記動作方法は、
    各々が前記複数の遠隔クライアントのうちの或る遠隔クライアントからのオーディオを表す複数のオーディオ成分に関するオーディオデータ、及び
    現実世界の音響環境における遠隔クライアントの間の物理的近接度を示す、前記複数のオーディオ成分のうちの少なくとも1つに関する近接データ、
    を含むデータを受信するステップと、
    前記近接データに応答して前記複数のオーディオ成分のオーディオミックスを生成するステップと
    を有し、
    前記生成するステップは、前記複数の遠隔クライアントのうちの第1の遠隔クライアントのための第1のオーディオミックスを生成するステップを有し、第2の遠隔クライアントが前記第1の遠隔クライアントに近いことを前記近接データが示す場合に、該第1のオーディオミックスの生成が、前記近接データに応答して前記第2の遠隔クライアントに関する第2のオーディオ成分の前記第1のオーディオミックスにおける減衰を決定するステップを含む、オーディオ装置の動作方法。
  14. コンピュータ上で実行された場合に、請求項13に記載のオーディオ装置の動作方法の全てのステップを実行するコンピュータプログラムコード手段を有する、コンピュータプログラム。
JP2021500429A 2018-07-09 2019-07-02 オーディオ装置、オーディオ配信システム及びその動作方法 Active JP7354225B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18182366.7A EP3594802A1 (en) 2018-07-09 2018-07-09 Audio apparatus, audio distribution system and method of operation therefor
EP18182366.7 2018-07-09
PCT/EP2019/067648 WO2020011588A1 (en) 2018-07-09 2019-07-02 Audio apparatus, audio distribution system and method of operation therefor

Publications (3)

Publication Number Publication Date
JP2021524612A JP2021524612A (ja) 2021-09-13
JPWO2020011588A5 JPWO2020011588A5 (ja) 2022-07-08
JP7354225B2 true JP7354225B2 (ja) 2023-10-02

Family

ID=63077666

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021500429A Active JP7354225B2 (ja) 2018-07-09 2019-07-02 オーディオ装置、オーディオ配信システム及びその動作方法

Country Status (7)

Country Link
US (2) US11656839B2 (ja)
EP (2) EP3594802A1 (ja)
JP (1) JP7354225B2 (ja)
CN (1) CN112400158B (ja)
BR (1) BR112021000163A2 (ja)
MX (1) MX2021000136A (ja)
WO (1) WO2020011588A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3595336A1 (en) * 2018-07-09 2020-01-15 Koninklijke Philips N.V. Audio apparatus and method of operation therefor
WO2021013363A1 (en) * 2019-07-25 2021-01-28 Unify Patente Gmbh & Co. Kg Method and system for avoiding howling disturbance on conferences
WO2022059362A1 (ja) * 2020-09-18 2022-03-24 ソニーグループ株式会社 情報処理装置、情報処理方法および情報処理システム
US11825026B1 (en) * 2020-12-10 2023-11-21 Hear360 Inc. Spatial audio virtualization for conference call applications
US11670317B2 (en) * 2021-02-23 2023-06-06 Kyndryl, Inc. Dynamic audio quality enhancement
TWI790718B (zh) * 2021-08-19 2023-01-21 宏碁股份有限公司 會議終端及用於會議的回音消除方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004274147A (ja) 2003-03-05 2004-09-30 Hitachi Communication Technologies Ltd 音場定位型多地点通話システム
JP2006254167A (ja) 2005-03-11 2006-09-21 Hitachi Ltd 音声会議システム、会議端末および音声サーバ
US20080252637A1 (en) 2007-04-14 2008-10-16 Philipp Christian Berndt Virtual reality-based teleconferencing
US20150091906A1 (en) 2013-10-01 2015-04-02 Aaron Scott Dishno Three-dimensional (3d) browsing
JP2017028351A (ja) 2015-07-15 2017-02-02 富士通株式会社 ヘッドセット
WO2017205986A1 (en) 2016-06-03 2017-12-07 Nureva Inc. Method, apparatus and computer-readable media for virtual positioning of a remote participant in a sound space

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7379962B1 (en) * 2000-01-19 2008-05-27 Computer Associates Think, Inc. Spatialized audio in a three-dimensional computer-based scene
US8559646B2 (en) * 2006-12-14 2013-10-15 William G. Gardner Spatial audio teleconferencing
US20080159507A1 (en) * 2006-12-27 2008-07-03 Nokia Corporation Distributed teleconference multichannel architecture, system, method, and computer program product
KR101349268B1 (ko) * 2007-10-16 2014-01-15 삼성전자주식회사 마이크로폰 어레이를 이용한 음원 거리 측정 장치
JP4960838B2 (ja) * 2007-11-09 2012-06-27 日本電信電話株式会社 距離測定装置、距離測定方法、距離測定プログラム、および記録媒体
US9736312B2 (en) * 2010-11-17 2017-08-15 Avaya Inc. Method and system for controlling audio signals in multiple concurrent conference calls
US20140074270A1 (en) * 2011-03-29 2014-03-13 Panasonic Corporation Audio Read-Out System, Audio Read-Out Device, and Audio Read-Out Method
US9305458B2 (en) * 2012-02-25 2016-04-05 ZipSocket, Inc. Proximity-detection systems and methods
CN104010265A (zh) * 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
WO2014143060A1 (en) * 2013-03-15 2014-09-18 Intel Corporation Mechanism for facilitating dynamic adjustment of audio input/output (i/o) setting devices at conferencing computing devices
US9704488B2 (en) * 2015-03-20 2017-07-11 Microsoft Technology Licensing, Llc Communicating metadata that identifies a current speaker
US20170010671A1 (en) * 2015-07-10 2017-01-12 8982406 Canada Inc. Haptic interface with localized feedback
CN106971522A (zh) 2016-01-14 2017-07-21 富泰华工业(深圳)有限公司 电子装置及使用该电子装置遥控电器的方法
US10409548B2 (en) * 2016-09-27 2019-09-10 Grabango Co. System and method for differentially locating and modifying audio sources
US10466777B2 (en) * 2016-12-07 2019-11-05 LogMeln, Inc. Private real-time communication between meeting attendees during a meeting using one or more augmented reality headsets

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004274147A (ja) 2003-03-05 2004-09-30 Hitachi Communication Technologies Ltd 音場定位型多地点通話システム
JP2006254167A (ja) 2005-03-11 2006-09-21 Hitachi Ltd 音声会議システム、会議端末および音声サーバ
US20080252637A1 (en) 2007-04-14 2008-10-16 Philipp Christian Berndt Virtual reality-based teleconferencing
US20150091906A1 (en) 2013-10-01 2015-04-02 Aaron Scott Dishno Three-dimensional (3d) browsing
JP2017028351A (ja) 2015-07-15 2017-02-02 富士通株式会社 ヘッドセット
WO2017205986A1 (en) 2016-06-03 2017-12-07 Nureva Inc. Method, apparatus and computer-readable media for virtual positioning of a remote participant in a sound space

Also Published As

Publication number Publication date
BR112021000163A2 (pt) 2021-04-06
MX2021000136A (es) 2021-03-25
US11656839B2 (en) 2023-05-23
CN112400158A (zh) 2021-02-23
US20230251819A1 (en) 2023-08-10
CN112400158B (zh) 2024-05-14
US20220137916A1 (en) 2022-05-05
EP3821333A1 (en) 2021-05-19
EP3594802A1 (en) 2020-01-15
WO2020011588A1 (en) 2020-01-16
JP2021524612A (ja) 2021-09-13

Similar Documents

Publication Publication Date Title
JP7354225B2 (ja) オーディオ装置、オーディオ配信システム及びその動作方法
US11877135B2 (en) Audio apparatus and method of audio processing for rendering audio elements of an audio scene
US11523219B2 (en) Audio apparatus and method of operation therefor
EP3595337A1 (en) Audio apparatus and method of audio processing
US20220225050A1 (en) Head tracked spatial audio and/or video rendering
RU2816884C2 (ru) Аудиоустройство, система распределения аудио и способ их работы
JP2023546839A (ja) 視聴覚レンダリング装置およびその動作方法
RU2815621C1 (ru) Аудиоустройство и способ обработки аудио
RU2798414C2 (ru) Аудиоустройство и способ обработки аудио
WO2023286320A1 (ja) 情報処理装置および方法、並びにプログラム
RU2815366C2 (ru) Аудиоустройство и способ обработки аудио
EP4221263A1 (en) Head tracking and hrtf prediction
US20230283976A1 (en) Device and rendering environment tracking
JP2023043497A (ja) リモート会議システム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220630

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230920

R150 Certificate of patent or registration of utility model

Ref document number: 7354225

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150