JP2023504990A

JP2023504990A - 深度による空間オーディオキャプチャ

Info

Publication number: JP2023504990A
Application number: JP2022521620A
Authority: JP
Inventors: エドワードシュタイン
Original assignee: DTS Inc
Current assignee: DTS Inc
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2023-02-08
Anticipated expiration: 2039-10-10
Also published as: WO2021071498A1; EP4042417A1; US20220345813A1; CN114902330A; US11997456B2; KR20220079931A

Abstract

空間オーディオ信号は、複数の異なる深度の各々でそれぞれに符号化及びレンダリングすることができるオーディオオブジェクトを含むことができる。１つの例では、空間オーディオ信号を符号化する方法は、環境におけるオーディオキャプチャソースからのオーディオシーン情報を受信するステップ、及び環境における第１オブジェクトの深度特性を受信するステップを含むことができる。深度特性は、深度センサからの情報を用いて決定することができる。オーディオシーン情報の少なくとも一部と第１オブジェクトの間の相関関係を識別することができる。空間オーディオ信号は、オーディオシーンの一部と第１オブジェクトの深度特性を用いて符号化することができる。【選択図】図５

Description

マイクロフォン及びカメラをそれぞれに含むことができるか用いることができるオーディオ及びビデオキャプチャシステムなどは、環境内の同一場所に位置付けることができ且つ環境からのオーディオビジュアル情報を取り込むよう構成することができる。取り込まれたオーディオビジュアル情報を、要求に応じて記録、送信、及び再生することができる。１つの例では、オーディオビジュアル情報を、空間オーディオフォーマット及び多次元ビデオ又は画像フォーマットなどを用いる没入型フォーマットで取り込むことができる。

１つの例では、オーディオキャプチャシステムは、環境からオーディオ情報を受信するためのマイクロフォン、マイクロフォンアレイ、又は１又は２以上のトランスデューサを含む他のセンサを含むことができる。オーディオキャプチャシステムは、３次元又は３６０度の音場を取り込むように構成されたアンビソニックマイクロフォンなどの空間オーディオマイクロフォンを含むことができるか又は用いることができる。

１つの例では、ビデオキャプチャシステムはシングルレンズカメラ又はマルチレンズカメラシステムを含むことができる。１つの例では、ビデオキャプチャシステムは、没入型ビデオ又は球面ビデオと呼ばれることもある３６０度ビデオ情報を受信するよう構成することができる。３６０度ビデオでは、複数の方向からの画像情報を受信することができ且つ同時に記録することができる。１つの例では、ビデオキャプチャシステムは、本システムの視野における１又は２以上のオブジェクトの深度情報を検出するように構成された深度センサを内包するか又は包含することができる。

様々なオーディオ記録フォーマットは、記録における３次元オーディオキューを符号化することができる。３次元オーディオフォーマットはアンビソニックス及び高設のラウドスピーカチャネルを含む離散的マルチチャネルオーディオフォーマットを含む。１つの例では、マルチチャネルデジタルオーディオ信号のサウンドトラック成分にダウンミックスを含めることができる。ダウンミックスは後方互換性があるものとでき、且つレガシー復号器によって復号し且つ既存の又は従来の再生機器で再生することができる。ダウンミックスは、レガシー復号器によって無視されることがあるが非レガシー復号器によって用いられることがある１又は２以上のオーディオチャネルを備えたデータストリーム拡張を含むことができる。例えば、非レガシー復号器は、追加のオーディオチャネルを回復する、後方互換性ダウンミックスにおけるこれらの寄与を取り去り、且つ次に目標空間オーディオフォーマットで追加のオーディオチャネルをレンダリングすることができる。

１つの例では、サウンドトラックが意図される目標空間オーディオフォーマットを、符号化又は作成段階で指定することができる。この方式は、レガシーサラウンドサウンド復号器と互換性のあるデータストリームの形態及び符号化又は作成段階中にも選択された１又は２以上の代替の目標空間オーディオフォーマットでのマルチチャネルオーディオサウンドトラックの符号化を可能にする。これらの代替の目標フォーマットは、３次元オーディオキューの改良された再生に適したフォーマットを含むことができる。しかしながら、この方式の１つの制限は、別の目標空間オーディオフォーマットに対して同じサウンドトラックを符号化することが、新しいフォーマットにミックスされるサウンドトラックの新しいバージョンを記録及び符号化するために作成設備に戻ることを必要とする可能性があることである。

オブジェクトベースのオーディオシーンコーディングは目標空間オーディオフォーマットとは独立したサウンドトラック符号化の一般的な解決策を提供する。オブジェクトベースのオーディオシーンコーディングシステムの例がＭＰＥＧ－４アドバンスドオーディオバイナリフォーマットフォーシーン（ＡＡＢＩＦＳ）である。この方式では、ソース信号の各々が、レンダーキューデータストリームと共に個々に送信される。このデータストリームは空間オーディオシーンレンダリングシステムのパラメータの時間変化値を運ぶ。このパラメータのセットは、フォーマット独立オーディオシーン記述の形態で提供することができ、これによってこのフォーマットに従ってレンダリングシステムを設計することによって何れの目標空間オーディオフォーマットでもサウンドトラックをレンダリングすることができる。各ソース信号は、それに関連付けられるレンダーキューと組み合わさって、「オーディオオブジェクト」を定義することができる。この方式は、レンダラーが正しい空間オーディオ合成技術を実施して再生側で選択された何れの目標空間オーディオフォーマットでも各オーディオオブジェクトをレンダリングするのを可能にする。オブジェクトベースのオーディオシーンコーディングシステムはまた、リミックス、音楽再演奏（例、カラオケ）、又はシーン内の仮想ナビゲーション（例、ビデオゲーム）を含む復号段階のレンダリングされたオーディオシーンの対話型修正を可能にする。

米国特許第９，９７３，８７４号明細書国際際特許出願ＰＣＴ／ＵＳ２０１９／４０８３７米国特許出願第１６／２１２,３８７号明細書米国特許第９，９７３，７８４号明細書米国特許第１０，２３１，０７３号明細書

本発明者らは、解決されるべき問題が深度定量化空間オーディオフォーマットへの音場情報の取り込みを含むことを認識している。例えば、本発明者らは、異なる深度からの信号を補間又はミキシングすることなどによって、空間オーディオ信号が、遠視野又は全指向性成分、近視野成分、及び中間視野からの情報を含むことができることが分かった。例えば、指定された近視野と遠視野の間の空間領域でシミュレートされる聴覚事象は２つの深度間をクロスフェードすることによって生成することができる。

問題は、例えば、深度情報のない音場マイクロフォンを用いて取り込まれたオーディオシーン情報を含むことがある。このような取り込まれたオーディオシーン情報は、一般的には、汎用又は非特定「音場」に定量化され且つ次に遠視野情報としてレンダリング又は符号化される。このような情報を受信する復号器は、近視野と遠視野ソースの間を区別するよう構成できず、更に近視野レンダリングを利用又は用いることができない。例えば音場マイクロフォンを用いて取り込まれた一部の情報は、近視野情報を含むことがある。しかし、深度情報がオーディオシーン情報と共に符号化されない場合、次に近視野情報は、遠視野、又は他の基準音場、又はデフォルト深度に格下げされることがある。

音場キャプチャ又はオーディオキャプチャの問題に対する解決策は、環境に関する音響情報及び視覚情報をほぼ同時に受信するためにオーディオセンサと共に深度センサを用いる段階を含むことができる。深度センサは、中でも、３次元深度カメラ、又は２次元画像センサ又は処理能力を備えた複数のセンサを含むことができる。深度センサは、環境における１又は２以上のオブジェクトに関する情報をレンダリング又は提供することができる。オーディオセンサは、環境からの音響情報を感知することができる１又は２以上のマイクロフォン要素を含むことができる。１つの例では、この解決策は、深度センサ及びオーディオセンサからの情報を組み合わせて空間オーディオ信号を提供するように構成されたシステム又は符号器を含む。この空間オーディオ信号は１又は２以上のオーディオオブジェクトを含むことができ更にオーディオオブジェクトはそれぞれの深度特性を有することができる。

この要約は、本特許出願の主題の概要を提供するものとする。この要約は、本発明の排他的又は網羅的な説明を提供するものではない。詳細な説明は、本特許出願に関する詳しい情報を提供するために含まれる。

何れかの特定の要素又は動作の論議の識別を容易にするために、参照番号における１又は２以上の最上位桁は、この要素が最初に導入された図の番号を指す。

リスナーに対するオーディオソース又はオブジェクト位置を示す略図である。リスナーに対するオーディオソース又はオブジェクト位置を示す略図である。リスナーに対するオーディオソース又はオブジェクト位置を示す略図である。環境に関するオーディオ情報及び視覚情報を受信するように構成されたシステムの例を一般的に示す図である。環境のオブジェクト識別及び深度分析の例を一般的に示す図である。環境からの情報がどのように様々な深度に定量化されるかを一般的に示す例である。空間オーディオキャプチャ及び符号化のシステムのブロック図の例を一般的に示す図である。空間オーディオ信号を符号化するステップを含むことができる第１の方法の例を一般的に示す図である。相関関係情報に基づいて空間オーディオ信号を符号化するステップを含むことができる第２の方法の例を一般的に示す図である。オーディオシーン情報が指定されたオブジェクトに対応する信頼度指標を提供するステップを含むことができる第３の方法の例を一般的に示す図である。オーディオ信号特性とオーディオシーンに関して受信された情報の間の対応を決定するステップを含むことができる第４の方法の例を一般的に示す図である。本明細書で論議される方法の何れか１つ又はそれ以上を機械に実行させるために命令のセットを実行することができるコンピュータシステムの形態における機械を一般的に示す図である。

オーディオビジュアルプログラム情報をコーディネートするような空間オーディオ信号処理を実行するシステム、方法、装置、及びデバイスの例を含む以下の説明では、詳細な説明の一部を形成する添付の図面を参照されたい。図面は、本明細書で開示する本発明を実施することができる特定の実施形態を例として示す。これらの実施形態は、本明細書では「実施例」として一般的に示される。このような実施例は、図示又は説明されたものに加えて要素を含むことができる。しかし、本発明者らは、図示又は説明する要素だけが提供される実施例も意図する。本発明者らは、特定の実施例（又はこれらの１又は２以上の態様）に関して、又は本明細書に図示又は記述される他の実施例（又はこれらの１又は２以上の態様）に関しての何れかで、図示又は記述するこれらの要素（又はこれらの１又は２以上の態様）の何れの組み合わせ又は入れ替えも用いた実施例を意図する。

本主題はオーディオ信号（すなわち、物理的な音を表す信号）の処理に関する。これらのオーディオ信号は一般的にはデジタル電子信号によって表される。本明細書で用いる「オーディオ信号」という語句は、物理的な音を表す信号を含むことができる。本明細書に記述するオーディオ処理システム及び方法は、様々なフィルタを用いてオーディオ信号を使用又は処理するように構成されたハードウェア回路及び／又はソフトウェアを含むことができる。一部の例では、本システム及び方法は、複数のオーディオチャネルからの信号、又は複数のオーディオチャネルに対応する信号を用いることができる。１つの例では、オーディオ信号は、複数のオーディオチャネルに対応する情報を含むデジタル信号を含むことができる。本主題の一部の例は、時系列のデジタルバイト又はワードの文脈で作動することができ、ここでこれらのバイト又はワードはアナログ信号の離散的近似値又は最終的には物理的な音を形成する。離散的デジタル信号は、周期的にサンプルされたオーディオ波形のデジタル表現に対応する。

本発明のシステム及び方法は環境キャプチャシステムを含むことができる。この環境キャプチャシステムは、１又は２以上のカメラ、深度センサ、マイクロフォン、又は環境をモニタするように構成された他のセンサを含む光学、視覚、又は聴覚センサなどを含むことができる。本システム及び方法は、環境からオーディオ情報を受信し且つ環境における物理的オブジェクトに関する距離又は位置情報を受信するよう構成することができる。本システム及び方法は、オーディオ情報、又はオーディオ情報の成分と、環境における物理的オブジェクトとの間の相関関係を識別するよう構成することができる。相関関係がオーディオオブジェクトと物理的オブジェクトの間に識別された時、次に基準位置に対する仮想距離又は位置に位置付けられ且つ物理的オブジェクトの１又は２以上に対応するオーディオソースなどを備えたオーディオオブジェクトのオーディオソースを含む空間オーディオ信号を符号化することができる。

１つの例では、マイクロフォンから受信されたオーディオ情報又はオーディオ信号が音場からの情報を含むことができる。受信したオーディオ情報は、深度情報と共にほぼリアルタイムに符号化することができる。例えば、３次元深度カメラなどの深度センサからの情報をオーディオ情報と共に用いることができ、更にオーディオ情報を、方向又は深度大きさ情報などを含む深度特性と共に空間オーディオフォーマットに符号化することができる。

１つの例では、深度と共に空間オーディオキャプチャを実行するシステムは、音場又はサウンドシーンを取り込むように構成されたマイクロフォンアレイ又は音場マイクロフォンを含むことができる。本システムは、センサの視野にある１又は２以上のオブジェクトの深度を決定又は推定するように構成された深度カメラ又は深度センサを含むことができ、更に複数の方向（例えば、上／下、左／右など）からの深度情報を受信するよう任意的に構成することができる。１つの例では、本システムは、深度センサから受信された深度又は距離情報によって取り込まれた音響情報を増補することができ、更に空間オーディオ信号における音響情報及び深度情報を符号化することができる。空間オーディオ信号は、起点又は基準位置に対するそれぞれの深度又は距離を持つ成分又はソースを含むことができる。

１つの例では、深度センサからの情報は基準位置から又は基準方向から１又は２以上の物理的オブジェクト又は任意的オーディオソースへの方向に関する情報を含む。物理的オブジェクトに関する方向情報にオーディオオブジェクトを相関付けることができる。１つの例では、本明細書に記述する符号化された空間オーディオ情報は、近視野から遠視野に渡る基準頭部からの様々な距離で合成又は測定できる頭部伝達関数（ＨＲＴＦ）などを用いることができる。近視野より近い距離などの頭部の内側に拡張させるために追加の合成又は測定伝達関数を用いることができる。加えて、ＨＲＴＦの各セットの相対的な距離に関する利得を遠視野ＨＲＴＦ利得に標準化することができる。

図１Ａ－１Ｃは、例示的オーディオソース又はオブジェクト位置に対する近視野及び遠視野の略図を一般的に示す。図１Ａは基準位置１０１に対するオーディオオブジェクト２２の位置を示す第１図１００Ａを含む。基準位置１０１は、第１図１００Ａによって表される環境における基準ポイントとして用いられるリスナーの位置、マイクロフォンの位置、カメラ又は深度センサの位置、又は他の位置とすることができる。図１Ａ及び１Ｂの例では、半径Ｒ１が、遠視野に一致する基準位置１０１からの距離を表すことができ、更に半径Ｒ２が、近視野又は近視野の境界に一致する基準位置１０１からの距離を表すことができる。環境は、例えば以下に論じる図１Ｃに示すように、２つより多い半径を用いて表すことができる。

図１Ｂは、例えば球面表現２１を用いて図１Ａの第１図１００Ａの球面拡張を示す第２図１００Ｂを含む。図１Ｂでは、オーディオオブジェクト２２が、関連付けられる高さ特性２３、及び接地平面上などへの関連付けられる投影特性２５、関連付けられる仰角特性２７、及び関連付けられる方位角特性２９を有することができる。図１Ａ及び１Ｂの例では、ＨＲＴＦの何れかの適切な数を半径Ｒｎの全３Ｄ球面でサンプルすることができ、更に各共通半径ＨＲＴＦセットでのサンプリングは同じである必要はない。図１Ｃは、深度の任意の数に分割又は定量化された音場を示す第３図１００Ｃを含む。例えば、オブジェクト２２を、遠視野位置、近視野位置、これらの間の何処か、又は近視野の内側又は遠視野を超えて位置付けることができる。

図１Ａ－１Ｃの例では、様々なＨＲＴＦ（Ｈｘｙ）が、基準位置１０１上に中心を置かれる半径Ｒ１及びＲ２の位置に示され、ここでｘはリング番号又は半径を表し、更にｙはリング上の位置を表す。このような位置的に関係付けられるＨＲＴＦを、「共通半径ＨＲＴＦセット」と呼ぶことができる。例では、４つの位置加重が遠視野セットに示されており更に２つがコンベンションＷｘｙを用いて近視野に示されており、ここでｘはリング番号を表し更にｙはリング上の位置を表す。インジケータＷＲ１及びＷＲ２は、共通半径ＨＲＴＦセットの加重組み合わせにオブジェクト２２を分解するために用いることができる半径加重を表す。例えば、オブジェクト２２は、互いにレンダリングされた時に、要求される深度又は位置のオブジェクト２２を提供する第１及び第２ソース２０及び２４の組み合わせを含むことができる。

図１Ａ及び１Ｂの例では、オーディオオブジェクトがリスナー位置に一致するような基準位置１０１を通過した場合に、リスナーの頭部の中心までの半径距離を測定することができる。この半径距離の境界を付ける２つの測定されたＨＲＴＦデータセットを識別することができる。各セットに対して、サウンドソース又はオブジェクト位置の要求される方位角及び仰角に基づいて適切なＨＲＴＦペア（例えば、同側及び対側）を導出することができる。各々の新しいＨＲＴＦペアの周波数反応を補間することによって最終的な組み合わせＨＲＴＦペアを決定することができる。この補間は、レンダリングされるサウンドソースの相対的距離及び各ＨＲＴＦセットの実際の測定された距離に基づくことができる。レンダリングされるサウンドソースは導出されたＨＲＴＦペアによってフィルタすることができ更にリスナーの頭部までの距離に基づいて結果信号の利得を上げるか又は下げることができる。この利得は、サウンドソースがリスナーの耳の１つに近付いた場合の飽和を回避するために制限することができる。

各ＨＲＴＦセットは測定のセット又は水平面だけに作られる合成ＨＲＴＦをスパンすることができるか又はリスナーの周囲のＨＲＴＦ測定の全球面を表すことができる。加えて、各ＨＲＴＦセットは、測定された半径距離に基づいて少ない又は多い数のサンプルを有することができる。

様々な技術を用いて距離又は深度情報を持つオーディオ信号を生成することができる。例えば、全体が引用により本明細書に組み入れられる「６－ＤＯＦトラッキングを用いたオーディオレンダリング」という名称の米国特許第９，９７３，８７４号は、本明細書の図２Ａ－２Ｃの距離キューを備えたバイノーラルオーディオを生成する例を含み、更に本明細書の図３Ａ－３ＣのＨＲＴＦの決定及びＨＲＴＦペア間の補間の例を含む。

１つの例では、近視野及び遠視野の両方においてオーディオオブジェクトをレンダリングするステップは、オブジェクトだけでなく、アンビソニックス、マトリックス符号化などを用いたアクティブステアリング／パンニングによって復号された何れの空間オーディオミックスの深度もレンダリングするのを可能にでき、更にこれによって６自由度（６－ＤＯＦ）トラッキング及びレンダリングによるフル変換ヘッドトラッキング（例えば、ユーザの動き）を可能にする。深度情報を、例えば、キャプチャによって又はアンビソニックパンニングによって作成されたアンビソニックミックスに張り付けるための様々なシステム及び方法は、全体が引用により本明細書に組み入れられる「６－ＤＯＦトラッキングを用いたオーディオレンダリング」という名称の米国特許第９，９７３，８７４号において論じられており、更にこれらの一部の態様を本明細書に要約している。本技術は、一般的には例として第１次アンビソニックスを用いるが、第３次又は他の高次アンビソニックスに適用することができる。

アンビソニックの基礎
マルチチャネルミックスが複数の着信信号からの寄与としてサウンドを取り込む場合、アンビソニックスは、単一ポイントから音場の全てのサウンドの方向を表す固定された信号のセットを取り込む又は符号化するステップを提供する。換言すると、同じアンビソニック信号を用いて、ラウドスピーカの何れの数でも音場を再レンダリングすることができる。マルチチャネルの場合、１つをチャネルの組み合わせから発生したソースの再生に制限することができる。例えば、高さチャネルが無い場合、次に高さ情報は送信されない。他方、アンビソニックスでは、全方向画像に関する情報を取り込み且つ送信することができ、制限は一般的に再生のポイントにだけ課せられる。

大きくは関心のポイントの仮想マイクロフォンと考えることができる第１次（例えば、Ｂフォーマット）パンニング式のセットを考える。
Ｗ＝Ｓ＊１／√２、ここでＷ＝単方向成分、
Ｘ＝Ｓ＊ｃｏｓ（θ）＊ｃｏｓ（Φ）、ここでＸ＝前に示される８の字、
Ｙ＝Ｓ＊ｓｉｎ（θ）＊ｃｏｓ（Φ）、ここでＹ＝右に示される８の字、
Ｚ＝Ｓ＊ｓｉｎ（Φ）、ここでＺ＝上に示される８の字、
及びＳはパンニングされる信号である。

これらの４つの信号（Ｗ、Ｘ、Ｙ、及びＺ）から、何れの方向に向けられた仮想マイクロフォンも生成することができる。従って、信号を受信する復号器は、レンダリングするために用いられるスピーカの各々に向けられた仮想マイクロフォンを再生成することができる。この技術は大きな程度まで働くが、場合によっては、反応を取り込むためにリアルマイクロフォンを用いることと同じである。この結果、復号された信号が各出力チャネルに対する要求された信号を有することができる場合、各チャネルはまた、一定の量の漏れを有するか又は「ブリード」が含まれることがあり、特に非均一スペーシングを有する場合、復号器レイアウトを最も良く表す復号器を設計するための一定の技術が存在する。

復号がＷＸＹＺ指向性ステアリング信号の組み合わせ加重によって達成されるので、ヘッドトラッキングはこれらの種類の解決策によって支援することができる。Ｂフォーマットミックスを回転させるために、例えば、復号前にＷＸＹＺ信号を用いて回転マトリックスを適用することができ更に結果が適切に調節された方向に復号される。しかし、このような解決策は、変換（例えば、ユーザの移動又はリスナー位置の変更）を実施することができない。

アクティブ復号拡張
漏れに対抗し且つ非均一レイアウトの性能を改良することが望ましい。Ｈａｒｐｅｘ又はＤｉｒＡＣなどのアクティブ復号解決策は復号のための仮想マイクロフォンを形成しない。確かに、これらは音場の方向を調査し、信号を再作成し、更に詳細には信号を各時間－周波数に対して識別された方向にレンダリングする。これは復号の指向性を大いに改良すると同時に、各時間－周波数タイルが厳しい決定を用いるので方向性を制限する。ＤｉｒＡＣの場合、これは１つの時間－周波数当たり単一の方向仮定を行う。Ｈａｒｐｅｘの場合、２つの方向波形を検出することができる。何れのシステムにおいても、復号器は方向性決定がどのようにソフト又はハードにあるべきかの制御を提供することができる。このような制御は本明細書では「フォーカス」のパラメータと呼ばれ、ソフトフォーカス、インナーパンニング、又は方向性の判定をやわらげる他の方法を可能にするための有用なメタデータパラメータとすることができる。

アクティブ復号器の場合でも、距離又は深度を紛失関数とすることができる。方向がアンビソニックパンニング式で直接符号化される場合、ソース距離に関する情報はソース距離に基づくレベル又は残響率に対する単純変化を超えて直接符号化することはできない。アンビソニックキャプチャ及び復号シナリオでは、マイクロフォン「接近」又は「マイクロフォン近接性」に対するスペクトラル補償が存在することができるが、信号が方向性情報だけを運ぶことに制限されるので、これは、例えば２メートルで１つのソース及び４メートルの別のソースをアクティブに復号することはできない。実際、リスナーがスイートスポットに完全に位置付けられ全てのチャネルが等距離である場合、パッシブ復号器性能は、漏れがそれほど問題にならないという事実に頼る。これらの条件は意図された音場の再作成を最大化する。

深度符号化
１つの例では、オーディオオブジェクトに関する深度又は距離情報は、オーディオソースに関する他の情報と共に符号化することができる。１つの例では、送信フォーマット又はパンニング式を修正又は拡張してコンテンツ作成中の深度インジケータの追加を支援することができる。ミックスにラウドネス及び残響変化などの深度キューを適用する方法とは異なり、本明細書で論じる方法は、ミックスにおけるソースに関する距離又は深度情報を測定又は回復するステップを含むことができるか又はこれを可能にすることができ、これによって製作側ではなく最終的な再生能力に対してレンダリングすることができる。異なるトレードオフを備えた様々な方法が、全体が引用によって本明細書に組み入れられる「６－ＤＯＦトラッキングを用いたオーディオレンダリング」という名称の米国特許第９，９７３，８７４号で論じられており、深度ベースのサブミキシング及び「Ｄ」チャネル符号化を含む。

深度ベースのサブミキシングでは、メタデータに各ミックスを関連付けることができる。１つの例では、各ミックスに（１）ミックスの距離、及び（２）ミックスのフォーカス（例えばリスナーの頭部の内側のミックスが多すぎるアクティブステアリングによって復号されないように、ミックスをどのくらいシャープに復号しなければならないかの指示）に関する情報をタグ付けすることができる。他の実施形態は、より多い又は少ない反射を有するＨＲＩＲの選択（又はチューナブル反射エンジン）がある場合に使用する空間モデルを示すウェット／ドライミックスパラメータを用いることができる。好ましくは、例えば８チャネルミックスとして送信するのに追加のメタデータが必要ないように適切な仮定をレイアウトに関して行うことになり、従って既存のストリーム及びツールと互換性がある。

「Ｄ」チャネル符号化では、アクティブ深度対応復号器は、指定されたステアリングチャネルＤからの情報を用いることができる。深度チャネルを用いてアンビソニックミックスの有効深度に関する時間－周波数情報を符号化することができ、これは各周波数のサウンドソースの距離レンダリングのために復号器によって用いることができる。「Ｄ」チャネルは、１つの例では、０の値（起点の頭部にある）、近視野では実際に０．２５、及び遠視野では完全にレンダリングされるソースに対して最大１として回復することができる標準化距離として符号化することができる。この符号化は、０ｄＢＦＳなどの絶対値基準を用いることによって又は「Ｗ」チャネルなどの他のチャネルの１又は２以上の相対的大きさ及び／又は位相によって達成することができる。

距離チャネルを符号化する別の方法は方向性分析又は空間分析を用いるステップを含むことができる。例えば、特定の周波数で検出されるサウンドソースが１つしかない場合、次にこのサウンドソースに関連付けられる距離又は深度を符号化することができる。特定の周波数で検出される１より多いサウンドソースがある場合、次にこれらのサウンドソースに関連付けられる距離の加重平均値などの組み合わせを符号化することができる。代替として、深度又は距離チャネルは、特定の時間フレームの各個々のサウンドソースの周波数分析を実行することによって符号化することができる。各周波数の距離は、この周波数の最優位サウンドソースに関連付けられる距離の通りに又はこの周波数のアクティブサウンドソースに関連付けられる距離の加重平均値の通りに符号化することができる。上述の技術は、Ｎチャネルの総数などに拡張する追加のＤチャネルに拡張することができる。復号器が各周波数の複数のサウンドソース方向を支援できる場合、これらの複数の方向への距離の拡張を支援するために追加のＤチャネルを含めることができる。

深度レンダリング及びソース変換
本明細書で論じる距離レンダリング技術を用いてバイノーラルレンダリングにおける深度又は近接性の知覚を達成することができる。距離パンニングを用いて、２又は３以上の基準距離に渡ってサウンドソースを分散させることができる。例えば、遠及び近視野ＨＲＴＦの加重バランスをレンダリングして目標深度を達成することができる。様々な深度のサブミックスを作成するためのこのような距離パナーの使用はまた、深度情報の符号化又は送信にも有用とすることができる。一般的には、サブミックスは各々、シーン符号化の同じ方向性を有する情報を含むか又は表すことができ、更に複数のサブミックスの組み合わせはこれらの相対的エネルギー分布を介して深度情報を明らかにする。このようなエネルギー分布は、例えば「近」及び「遠」などの関連性に対して均一に分配又は分類される深度の直接定量化を含むことができる。１つの例では、このようなエネルギー分布は基準距離に対する相対的ステアリング又は近さ又は遠さ、例えば遠視野ミックスの残りよりも近いものと理解されるある信号を含むことができる。

オーディオビジュアルシーンキャプチャ及び空間オーディオ信号符号化
図２Ａは、環境に関するオーディオ情報及び視覚情報を受信するように構成されたシステムの例を一般的に示す。図２Ｂは、同じ環境に対するオブジェクト識別及び深度分析の例を一般的に示す。

図２Ａの例は様々な物理的オブジェクトを含むことができる第１環境２１０を含み且つ物理的オブジェクトの様々なオブジェクトはサウンドを発生又は生成することができる。物理的オブジェクトは、環境の起点に対して定義することができるそれぞれの座標又は位置などを有することができる。図２Ａの例では、起点が基準位置２０１に指定され、更に図２Ａの例では、基準位置２０１がセンサ位置に一致する。

図２Ａの例はオーディオキャプチャデバイス２２０及び深度センサ２３０を含む。オーディオキャプチャデバイス２２０及び／又は深度センサ２３０からの情報を様々な記録ハードウェア及びソフトウェアを用いてオーディオビジュアルプログラムとして同時に受信及び記録することができる。オーディオキャプチャデバイス２２０は、第１環境２１０からオーディオ情報を受信するように構成された、マイクロフォン、又はマイクロフォンアレイを含むことができる。１つの例では、オーディオキャプチャデバイス２２０は音場マイクロフォン又はアンビソニックマイクロフォンを含み更に３次元オーディオ信号フォーマットでオーディオ情報を取り込むよう構成される。

深度センサ２３０は、１又は複数のレンズ又は画像受信機を有することができるカメラなどを含むことができる。１つの例では、深度センサ２３０は、３６０度カメラなどの大視野カメラを含む。オーディオビジュアルプログラムの一部として深度センサ２３０から受信又は記録された情報を用いて、ビューワがヘッドトラッキングシステム又は他のプログラムナビゲーションツール又はデバイスなどを用いる時に、ビューワが第１環境２１０を「ぐるりと見渡す」ことができる没入型又は対話型経験などをビューワに提供することができる。

深度センサ２３０又はカメラから受信されたビデオ情報と同時にオーディオキャプチャデバイス２２０から受信することができるオーディオ情報などは、ビューワに提供することができる。全体が本明細書に引用により組み入れられる「非一致オーディオビジュアルキャプチャシステム」という名称の国際特許出願ＰＣＴ／ＵＳ２０１９／４０８３７に記述されているようなオーディオ信号処理技術をオーディオキャプチャデバイス２２０から受信されたオーディオ情報に適用して、ビューワがプログラムをナビゲートする時にオーディオ情報がビューワの位置又は見る方向の変化を追跡できるようにする。

深度センサ２３０は様々な方法で又は様々なデバイスを用いて実施することができる。１つの例では、深度センサ２３０は、第１環境２１０の視野の深度画像を取り込み更に深度画像から深度マップを提供又は決定するように構成された３次元深度センサを含む。深度マップは、１又はそれ以上の表面又はオブジェクト距離に関する情報を含むことができる。１つの例では、深度センサ２３０は、入射光を受信し且つ第１環境２１０に関する画像情報を取り込むように構成された１又はそれ以上の２次元画像センサを含み、且つプロセッサ回路を用いてこの画像情報を処理しオブジェクト及び関連付けられる深度情報を識別することができる。深度センサ２３０は、例えば、レーザ、構造光、飛行時間、立体鏡、又は他のセンサ技術を用いて第１環境２１０に関する深度情報を取り込むデバイスを含むことができる。

１つの例では、深度センサ２３０は送信機及び受信機を備えたシステムを含むことができ、更にアクティブサンプリング技術を用いてオブジェクト深度を決定するよう構成することができる。例えば、送信機は、信号を発信して、更にバウンスバック信号に関するタイミング情報を用いて、例えば環境のポイントクラウド表現を確立することができる。深度センサ２３０は、環境から及び様々な視野からの情報を同時に受信することができるパッシブセンサなどの２又はそれ以上のセンサを含むか又は用いることができる。受信したデータ又は画像における視差を用いて、環境における様々なオブジェクトに関する深度情報を決定することができる。１つの例では、深度センサ２３０は、クラスタリング及びオブジェクト識別に用いることができるデータセットをレンダリングするよう構成することができる。例えば、データが共通の深度の比較的大きな連続平面を指示する場合、次にオブジェクトを共通深度で識別することができる。他の技術も同様に用いることができる。

図２Ａの例では、第１環境２１０は基準位置２０１に対するそれぞれの様々な深度の様々なオブジェクトを含む。第１環境２１０は、サウンドを生成又は作成できる一部のオブジェクト及び生成又は作成できない他のオブジェクトを含む。例えば、第１環境２１０は、キイキイ鳴くアヒルのおもちゃなどの第１オブジェクト２１１、及び吠えるライオンのおもちゃなどの第２オブジェクト２１２を含む。第１環境２１０は、カラーパネル、ボックス、キャニスタなどの他のオブジェクトを含むことができる。

図２Ｂは、基準位置２０１、深度センサ２３０、及び文脈に対して例として含まれるオーディオキャプチャデバイス２２０による、第１環境２１０の深度マップ２５０表現を一般的に示す。深度マップ２５０は、基準位置２０１に対して近くの表面又は小さい深度に属するものとしてこれらのオブジェクトを示すために明るい色で第１環境２１０からの物理的オブジェクトの一部を示す。深度マップ２５０は、基準位置２０１に対して離れた表面又は大きな深度に属するものとしてこれらの他のオブジェクトを示すために暗い色で第１環境２０１からの物理的オブジェクトの他のオブジェクトを示す。図２Ｂの例では、第１オブジェクト２１１は、これらの相対的偽カラー（グレースケール）表現によって指示されるように、第２オブジェクト２１２よりも基準位置２０１に近いと識別又は決定される。

１つの例では、第１環境２１０に関するオーディオ又は音響情報はオーディオキャプチャデバイス２２０を用いて受信することができる。例えば、オーディオキャプチャデバイス２２０は、環境から高周波短期持続時間「ＳＱＵＥＡＫ！（キイキイ鳴く）」サウンド及び低周波長期持続時間「ＲＯＡＲ！（吠える）」サウンドを受信することができる。オーディオキャプチャデバイス２２０及び深度センサ２３０に結合することができるプロセッサ回路などが、オーディオキャプチャデバイス２２０からオーディオ情報を受信することができ且つ深度センサ２３０から深度マップ情報を受信することができる。以下に論じる図４の例からのプロセッサ回路４１０を含むプロセッサ回路などが、オーディオ情報と深度情報の間の相関関係を識別することができる。識別された相関関係に基づいて、プロセッサ回路は、本明細書で論じるシステム又は方法の１又はそれ以上などを用いて、それぞれの異なる深度のオーディオオブジェクトに関する情報と共に空間オーディオ信号を符号化することができる。

図３は、第１環境２１０からの情報が異なる深度にどのように定量化できるかを示す定量化例３００を一般的に示す。図３の例では、基準位置２０１が音場の起点に対応する。図３に指示した見る方向は、図２Ａ又は２Ｂに指示された見る方向に対応することができる。図示した例では、見る方向が基準位置２０１の右になる。

定量化例３００は、基準位置２０１に対して遠視野深度又は第１半径Ｒ１に一致する位置にマップされた第２オブジェクト２１２を示す。すなわち、第２オブジェクト２１２が、深度センサ２３０からの深度マップ又は他の情報を用いて決定できるような基準位置２０１からの距離Ｒ１にあると決定された時に、オーディオキャプチャデバイス２２０を用いて受信することができるような第２オブジェクト２１２からのサウンドは、遠視野信号として符号化することができる。１つの例では、第２オブジェクト２１２は半径又は球面座標などの座標によって指示できる位置を有することができ、更に基準位置２０１から又は見る方向などの基準方向からの距離及び角度（例えば、方位角及び／又は仰角を含む）に関する情報を含むことができる。図３の例では、第２オブジェクト２１２は、半径Ｒ１、０°の方位角、及び０°の仰角によって定められる位置を有することができる（図３の例は「仰角」平面を示していない）。

定量化例３００は、中間深度にマップされた第１オブジェクト２１１、又は遠視野深度又は第１半径Ｒ１より小さく且つ近視野深度又はＲ_Nより大きな半径Ｒ２を示す。すなわち、オーディオキャプチャデバイス２２０を用いて受信することができるような第１オブジェクト２１１からのサウンドは、第１オブジェクト２１１が、深度マップ又は深度センサ２３０からの他の情報を用いて決定することができるような基準位置２０１から距離Ｒ２にあると決定された時などに、特定の又は指定された深度Ｒ２を有する信号として符号化することができる。１つの例では、第１オブジェクト２１１は、半径又は球面座標などの座標によって指定できる位置を有することができ、更に基準位置２０１から又は見る方向などの基準方向からの距離及び角度（例えば、方位角及び／又は仰角を含む）に関する情報を含むことができる。図３の例では、第１オブジェクト２１１は、半径Ｒ２、α°の方位角、及び０°の仰角によって定められる位置を有することができる（図３の例は「仰角」平面を示していない）。

１つの例では、オーディオソース、又は仮想ソースを生成することができ、且つオーディオキャプチャデバイス２２０及び深度センサ２３０からの情報を用いて符号化することができる。例えば、深度センサ２３０が基準位置２０１に対して距離（又は半径）Ｒ２及び見る方向に対して角度α°のオブジェクトを示す場合、次に第１空間オーディオ信号を提供することができ更に第１空間オーディオ信号はＲ２及び角度α°に位置付けられるオーディオキャプチャデバイス２２０（例えば、オーディオオブジェクト又は仮想ソース）からのオーディオ信号情報を含むことができる。深度センサ２３０が距離（又は半径）Ｒ１及び方位角０°のオブジェクトを指示する場合、次に第２空間オーディオ信号を提供することができ、更に第２空間オーディオ信号は半径Ｒ１及び方位角０°に位置付けられたオーディオキャプチャデバイス２２０からのオーディオ信号情報を含むことができる。

１つの例では、深度センサ２３０からの情報は、１又は複数のオブジェクトが環境に同時に存在するかどうか指示することができる。様々な技術を用いて、あるとすればオーディオキャプチャデバイス２２０からのオーディオ情報のどれがそれぞれのオブジェクトの１又はそれ以上に対応するか決定することができる。例えば、深度センサ２３０からの情報を用いて決定されるような経時的な物理的オブジェクトの動きに関する情報を、オーディオ情報の変化に相関付けることができる。例えば、環境の１つの側から別の側に移動する物理的オブジェクトが観察され且つオーディオ情報の少なくとも一部が環境の同じ側から他の側に移動した場合、次に物理的オブジェクトとオーディオ情報の一部の間に相関関係を見付けることができ、更にオーディオ情報に移動する物理的オブジェクトの深度に対応する深度を割り当てることができる。１つの例では、オーディオ情報に関連付けられる深度情報が、物理的オブジェクトの動きと共に経時的に変化することがある。様々な閾値条件又は学習されたパラメータを用いて偽陽性相関関係の発見を低減することができる。

１つの例では、分類子回路又はソフトウェア実施分類子モジュールを用いて物理的オブジェクトを分類することができる。例えば、分類子回路は環境に関する深度センサ２３０からの画像情報を処理するように構成されたニューラルネットワーク又は他のレコグナイザ回路を含むことができるか、又は同じ環境に関する画像情報を受信するように構成された画像キャプチャデバイスからの画像情報を処理することができる。１つの例では、様々なオブジェクトを認識し更にこのようなオブジェクトに関連付けられるそれぞれの音響プロファイルに関する情報を提供するよう分類子回路を構成することができる。１つの例では、音響プロファイルは、特定のオブジェクトに関連付けられることが公知であるか又は考えられているサウンドのオーディオ周波数、振幅、又は他の特性に関する情報を含むことができる。図３の例では、分類子回路を用いて、アヒル又はキイキイ鳴くおもちゃとして第１オブジェクト２１１を認識し、更にこれに応じて「ＳＱＵＥＡＫ」サウンドの音響プロファイル（例えば、比較的高い周波数の情報を含み、短期持続時間を有し、更に過渡性の高いサウンド）に第１オブジェクト２１１からのサウンドを一般的に関連付けることができるという指示を提供することができる。同様に、分類子回路を用いて、ライオンとして第２オブジェクト２１２を認識し、更にこれに応じて「ＲＯＡＲ」サウンド（例えば、比較的低い周波数の情報を含み、持続時間が長く更に大きな振幅を有し且つ過渡性を抑制されたサウンド）の音響プロファイルに第２オブジェクト２１２からのサウンドを一般的に関連付けることができるという指示を提供することができる。１つの例では、空間オーディオ符号器回路は分類子回路に結合するか又はこれを含むことができ更に分類されたオブジェクトに関する情報を用いて入力オーディオ情報と環境における物理的オブジェクトの間の相関関係を識別することができる。

図４は、オーディオキャプチャ及び空間オーディオ信号符号化のためのオーディオ符号器システム４００のブロック図の例を一般的に示す。図４の例は、空間オーディオ符号器回路又はモジュール、又はオブジェクト分類子回路又はモジュールを含むことができるプロセッサ回路４１０などを含むことができる。１つの例では、オーディオ符号器システム４００のブロック図に従って構成された回路を用いて、それぞれの方向又は深度特性を有する１又は２以上の信号を符号化又はレンダリングすることができる。図４は、信号の流れ及び処理の１つの例を表し、更に図示した機能的ブロック内又は間の他の相互接続又はデータ共有が許容される。同様に、処理ステップをモジュール間に再分配して、様々なプロセッサ回路アーキテクチャ又は最適化に対応することができる。

１つの例では、オーディオ符号器システム４００を用いて、オーディオキャプチャデバイス２２０を用いてオーディオ信号を受信し、深度センサ２３０を用いて物理的オブジェクト位置又は向き情報を受信し、更に受信したオーディオ信号及び受信した物理的オブジェクト情報を用いて空間オーディオ信号を符号化することができる。例えば、この回路は、異なるそれぞれの深度特性を有する各ソース又はソースのグループなどを備えた３次元音場における１又は２以上のオーディオソース、又は仮想ソースに関する情報と共に空間オーディオ信号を符号化することができる。１つの例では、受信したオーディオ信号は、１又は２以上の成分又はオーディオオブジェクトを含む音場又は３Ｄオーディオ信号を含むことができる。受信した物理的オブジェクト情報は分類されたオブジェクト及び関連付けられる音響プロファイルに関する情報を含むことができるか、又は環境における１又は２以上の物理的オブジェクトの配置又は向きに関する情報を含むことができる。

１つの例では、空間オーディオ信号符号化は、プロセッサ回路４１０、又はこの１又は２以上の処理モジュールを用いるステップを含み、第１オーディオ信号を受信し更にオーディオ信号の成分の位置、方向、及び／又は深度を決定することができる。オーディオ信号成分の基準フレーム座標又は起点情報を受信、測定、又はそうでなければ決定することができる。１又は２以上のオーディオオブジェクトはラウドスピーカ又はヘッドフォンを介した再生のために復号することができるか、又は新しい音場フォーマットに再符号化するためのプロセッサに提供することができる。

１つの例では、プロセッサ回路４１０は、オーディオ信号符号化を実行するための様々なモジュール又は回路又はソフトウェア実施プロセス（汎用又は専用回路を用いて実施できるもの）を含むことができる。図４では、オーディオ信号又はデータソースはオーディオキャプチャデバイス２００を含むことができる。１つの例では、オーディオソースが基準データ又は起点情報のオーディオフレームをプロセッサ回路４１０に提供する。基準データのオーディオフレームは、環境又は深度センサ２３０に対するオーディオ情報の固定された又は変化する基点又は基準ポイントなどに関する情報を含むことができる。深度センサ２３０及びオーディオキャプチャデバイス２２０のそれぞれの起点、基準位置、又は向きは経時的に変化させることができ、更に環境において識別された物理的オブジェクトと環境からのオーディオ情報との間の相関関係を決定する場合に考慮することができる。

１つの例では、プロセッサ回路４１０は、オーディオキャプチャデバイス２２０からのオーディオ信号情報を受信して更に受信した信号を周波数ドメインに変換するように構成されたＦＦＴモジュール４４０を含む。変換された信号は、空間処理、ステアリング、又はパンニングを用いて処理し、受信したオーディオ信号情報の位置、深度、又は基準のフレームを変えることができる。

１つの例では、プロセッサ回路４１０はオブジェクト分類子モジュール４０２を含むことができる。オブジェクト分類子モジュール４０２は、本明細書で論じる分類子回路の１又は２以上の態様を実施するよう構成することができる。例えば、オブジェクト分類子モジュール４０２は、深度センサ２３０からの画像又は深度情報を受信し更に機械学習又はニューラルネットワークに基づく処理などの人工知能に基づくツールを適用して、環境に存在する１又は２以上の物理的オブジェクトを識別するよう構成することができる。

１つの例では、プロセッサ回路４１０は、ＦＦＴモジュール４０４からの周波数ドメインオーディオ信号を受信し、更に任意的には、オーディオ信号に関連付けられるオーディオデータの少なくとも一部分を受信するように構成された空間分析モジュール４０６を含む。空間分析モジュール４０６は、周波数ドメイン信号を用いて１又は２以上の信号又はこの信号成分の相対的位置を決定するよう構成することができる。例えば、空間分析モジュール４０６は、第１サウンドソースがリスナー又は基準ビデオ位置の前（例えば、０°方位角）に位置付けられるか又は位置付けなければならず更に第２サウンドソースがリスナー又は基準ビデオ位置の右に（例えば、９０°方位角に）位置付けられるか又は位置付けなければならないことを決定するよう構成することができる。１つの例では、空間分析モジュール４０６は、受信した信号を処理し且つ、仮想ソースが１又は２以上の入力オーディオ信号からの情報に基づき更に空間オーディオ信号の各々が、基準位置に対してそれぞれの異なる位置などに対応する時を含み、基準ビデオ又は画像位置に対して指定された位置又は深度に位置付けられるか又はレンダリングされることを意図される仮想ソースを生成するよう構成することができる。

１つの例では、空間分析モジュール４０６は、オーディオソース位置又は深度を決定し、更に基準のフレームに基づく分析を用いてビデオソースの基準のフレームに対応する新しい位置などにソースを変換するよう構成され、これは、全体が引用により本明細書に組み入れられる「非一致オーディオビジュアルキャプチャシステム」という名称のＰＣＴ特許出願ＰＣＴ／ＵＳ２０１９／４０８３７に同様に論じられている。アンビソニックス信号を含む音場信号の空間分析及び処理は、「アンビソニック深度抽出」という名称の、及び「６－ＤＯＦトラッキングを用いたオーディオレンダリング」という名称の米国特許第９，９７３，７８４号に詳細に論じられており、これらの各々は全体が引用により本明細書に組み入れられる。

１つの例では、プロセッサ回路４１０は信号フォーミングモジュール４０８を含むことができる。信号フォーミングモジュール４０８は、受信した周波数ドメイン信号を用いて、関連付けられるメタデータを備えたサウンドオブジェクトとして出力することができるか、又は空間オーディオ信号として符号化することができる１又は２以上の仮想ソースを生成するよう構成することができる。１つの例では、信号フォーミングモジュール４０８は空間分析モジュール４０６からの情報を用いて、音場におけるそれぞれの指定された位置又はそれぞれの深度の様々なサウンドオブジェクトを識別又は配置することができる。

１つの例では、信号フォーミングモジュール４０８は、空間分析モジュール４０６及びオブジェクト分類子モジュール４０２の両方からの情報を用いて、空間分析モジュール４０６によって識別された様々なサウンドオブジェクトを識別又は配置するよう構成することができる。１つの例では、信号フォーミングモジュール４０８は、識別されたオブジェクトの音響プロファイル又は署名に関する情報などの識別された物理的オブジェクト又はオーディオオブジェクトに関する情報を用いて、オーディオデータ（例えば、オーディオキャプチャデバイス２２０を用いて受信）が、音響プロファイルに対応する情報を含むかどうかを決定するよう構成することができる。十分な対応が特定のオブジェクト（例えば、環境における他のオブジェクトは区別される）の音響プロファイルとオーディオデータの特定の部分（例えば、特定の周波数帯域又は複数の帯域、又は持続時間、又は経時的なオーディオスペクトラムの他の部分に対応する）との間に存在する場合、次に特定のオブジェクトにオーディオデータの対応する特定の部分を関連付けることができる。更なる例では、このような対応は、機械学習又はニューラルネットワークに基づく処理などの人工知能を用いて決定することができる。

別の例では、信号フォーミングモジュール４０８は、任意的にはオブジェクト分類子モジュール４０２によって処理された深度センサ２３０からの情報を備えた空間分析モジュール４０６の結果又は産物を用いて、オーディオソース位置又は深度を決定することができる。例えば、信号フォーミングモジュール４０８は相関関係情報を用いることができるか又は相関関係が画像データの識別された物理的オブジェクト又は深度と空間分析モジュール４０６から受信されたオーディオ情報との間に存在するかどうかを決定することができる。１つの例では、相関関係を決定するステップは、識別された視覚オブジェクトの方向又は位置と識別されたオーディオオブジェクトの方向又は位置を比較することによって少なくとも一部実行することができる。プロセッサ回路４１０の他のモジュール又は部分は、画像データの情報とオーディオデータの情報との間の相関関係を決定するために同様に又は独立して用いることができる。

高度の対応又は相関関係を持つ例では、信号フォーミングモジュール４０８はオーディオ及び視覚オブジェクトからの位置情報の加重組み合わせを用いることができる。例えば、加重を用いて、空間オーディオ分布に最も一致するオーディオオブジェクトの相対的方向を指示することができ、更に深度センサ視覚データ又は画像データからの深度情報と共に用いることができる。これは、空間オーディオ信号出力の深度能力に最も正確に一致する最終ソース位置符号化を深度センサ及びオーディオキャプチャデバイスが用いられる音響環境に提供することができる。

１つの例では、信号フォーミングモジュール４０８からの信号を、送信、再生、又は他の処理のための信号の生成を助けることができる他のダウンストリーム処理モジュールに提供することができる。例えば、信号フォーミングモジュール４０８からの空間オーディオ信号出力は、仮想化処理、フィルタリング、又は他の信号処理を含むか又は用いて、オーディオ信号又は信号成分を形成又は修正することができる。ダウンストリーム処理モジュールは、１又は２以上のモジュールからデータ及び／又はオーディオ信号入力を受信して更に信号処理を用いて受信したオーディオ信号を回転又はパンすることができる。

１つの例では、複数のダウンストリームモジュールが音響環境を観察する複数のバンテージポイントを作成する。このようなモジュールは、本明細書に引用により組み入れられる「非一致オーディオビジュアルキャプチャシステム」という名称のＰＣＴ特許出願ＰＣＴ／ＵＳ２０１９／４０８３７に記述される方法を利用することができる。

代替の例では、信号フォーミングモジュール４０８のオーディオ符号化／レンダリング部分は、各々の要求されるバンテージポイントに対して複製することができる。１つの例では、空間オーディオ信号出力は、それぞれの異なる基準位置又は向きによる複数の符号化を含むことができる。１つの例では、信号フォーミングモジュール４０８は信号を含むことができるか又は逆ＦＦＴモジュールに信号を提供することができる。逆ＦＦＴモジュールはメタデータあり又はなしの１又は２以上の出力オーディオ信号チャネルを生成することができる。１つの例では、逆ＦＦＴモジュールからのオーディオ出力を、サウンド再生システム又は他のオーディオ処理システムの入力として用いることができる。１つの例では、出力は、引用により本明細書に組み入れられる米国特許第１０，２３１，０７３号の「深度復号によるアンビソニックオーディオレンダリング」で論じられるシステム又は方法によって復号することができる深度拡張アンビソニック信号などを含むことができる。１つの例では、出力フォーマット不可知論を残し且つ、例えば位置情報、ベース／ベッドミックス、又はアンビソニックフォーマットを含む他の音場表現などを備えたモノステムを含む様々なレイアウト又はレンダリング方法への復号を支援することが望ましい。

１つの例では、複数の深度センサをプロセッサ回路４１０に結合することができ更にプロセッサ回路４１０は深度センサの何れか１つ又は１以上からの情報を用いて環境における物理的オブジェクトに関する深度情報を識別することができる。各深度センサは、環境における各深度センサ固有の基準のフレーム又はそれぞれの基準位置を有することができるか又は関連付けることができる。従って環境におけるオーディオオブジェクト又はソースは、各深度センサの基準位置に対して様々な相対的位置又は深度を有することができる。ビューワの視野が変わる場合、例えばビデオ情報が第１カメラの視野から異なる第２カメラの視野に変化した時、次にリスナーの視野は関連付けられる１又は複数のオーディオソースの深度又は向き又は回転を更新又は調節することによって同様に変化させることができる。１つの例では、プロセッサ回路４１０は、例えばクロスフェーディング又は他の信号ブレンディング技術を用いて、オーディオ情報のこのような視野の変更を抑えるよう構成することができる。

１つの例では、複数のオーディオキャプチャデバイス（例えば、オーディオキャプチャデバイス２２０の複数の事例）をプロセッサ回路４１０に結合することができ更にプロセッサ回路４１０はオーディオキャプチャデバイスの何れか１つ又は１以上からの情報を用いて環境に関するオーディオ情報を受信することができる。１つの例では、環境において識別された特定の物理的オブジェクトとの特定のオーディオキャプチャデバイスの近接性に少なくとも一部基づいて使用するオーディオキャプチャデバイスの特定のデバイス又は組み合わせを選択することができる。すなわち、環境における第１オーディオキャプチャデバイスが第１の物理的オブジェクトに近い場合、次に第１オーディオキャプチャデバイスが環境内の別のオーディオキャプチャデバイスによって取り込まれるよりも第１物理的オブジェクトに関するサウンド情報を上手に取り込んだ時などに第１オーディオキャプチャデバイスからのオーディオ情報を用いて第１物理的オブジェクトの深度符号化オーディオ信号を生成することができる。

図５は、空間オーディオ信号を符号化するステップを含むことができる第１方法５００の例を一般的に示す。第１方法５００は、プロセッサ回路４１０の１又は２以上の部分を用いて少なくとも一部実行することができる。ステップ５０２で、第１方法５００は環境におけるオーディオキャプチャソースからオーディオシーン情報を受信するステップを含むことができる。１つの例では、オーディオシーン情報を受信するステップはオーディオキャプチャデバイス２２０を使用するステップを含むことができ更にオーディオシーン情報は深度情報あり又は深度情報なしのオーディオ信号を含むことができる。オーディオシーン情報は、関連付けられる視野、見る方向、向き、又は他の空間特性を任意的に有することができる。

ステップ５０４で、第１方法５００は受信したオーディオシーンに少なくとも１つのオーディオ成分を識別するステップを含むことができる。オーディオ成分を識別するステップは、例えば、受信したオーディオシーン情報の時間－周波数表現への信号寄与を識別するステップを含むことができる。オーディオ成分は、オーディオプログラムの持続時間に渡って又はプログラムの離散的な部分などの特定の周波数帯域又は範囲のオーディオ信号情報を含むことができる。１つの例では、ステップ５０４はオーディオシーン情報に関連付けられるか又はオーディオシーン情報の一部に関連付けられる方向を識別するステップを含むことができる。

ステップ５０６で、第１方法５００は、深度センサから、環境における１又は２以上のオブジェクトに関する深度特性情報を受信するステップを含むことができる。ステップ５０６は、深度センサ２３０からの情報を含むか又は用いることができる。１つの例では、ステップ５０６は、深度センサ２３０の回路を用いて画像又は深度マップ情報を受信し情報を処理して更に深度情報を識別するステップを含むことができるか、又はステップ５０６はセンサに結合された様々なプロセッサ回路を用いるステップを含むことができる。１つの例では、ステップ５０６は、オブジェクトに関する境界情報を識別するステップなどを含む、画像又は深度マップ情報で深度センサ２３０によってモニタされる環境における１又は２以上の物理的オブジェクトを識別するステップを含む。１つの例では、深度センサ２３０の基準位置又は環境の基準位置に対して深度特性情報を提供することができる。

１つの例では、ステップ５０６は、深度センサ２３０からの情報を用いて、環境における１又は２以上のオブジェクトに関する方向情報などを受信するステップを含むことができる。ステップ５０６は、何れかの識別された物理的オブジェクトのそれぞれの方向又は向き情報を識別するステップを含むことができる。方向又は向き情報は、基準位置又は見る方向に対して提供することができる。１つの例では、ステップ５０６で方向情報を受信するステップは、基準に対する方位角又は高度角度に関する情報を受信するステップを含むことができる。

ステップ５０８で、第１方法５００は、識別された少なくとも１つのオーディオ成分及び深度特性情報に基づいて空間オーディオ信号を符号化するステップを含むことができる。ステップ５０８は、ステップ５０２からの受信したオーディオシーン情報を用いて空間オーディオ信号を符号化するステップ、及びステップ５０６からの受信した深度特性を用いるステップを含むことができる。すなわち、ステップ５０８で符号化された空間オーディオ信号は、ステップ５０２で受信したオーディオシーンからのオーディオを備えた仮想ソースなどの情報、及びステップ５０６の受信した深度情報からの深度特性を含むことができる。符号化された空間オーディオ信号は、例えば、様々な深度で定量化されたオーディオ情報を含むアンビソニック信号とすることができる。１つの例では、ステップ５０８は、ステップ５０４で識別された又はステップ５０６で深度特性と共に受信された方向情報に基づいて空間オーディオ信号を符号化するステップを含むことができる。符号化された空間オーディオ信号は従って、オーディオが対応する物理的オブジェクトの深度などに加えて、仮想ソースの方位角又は高度に関する情報を含むことができる。

図６は、相関関係情報に基づいて空間オーディオ信号を符号化するステップを含むことができる第２方法６００の例を一般的に示す。第２方法６００は、プロセッサ回路４１０の１又は２以上の部分を用いて少なくとも一部実行することができる。図６の例では、ステップ６１０は環境からのオーディオシーン情報と環境において識別された物理的オブジェクトの深度特性との間の相関関係を決定するステップを含むことができる。１つの例では、オーディオシーン情報を第１方法５００の例に従って受信又は決定することができる。ステップ６１０はプロセッサ回路４１０を用いてオーディオ情報を分析して、更にオーディオ情報と環境におけるオブジェクト又はオブジェクトの位置との間の対応、又は対応の可能性を決定するステップを含むことができる。

例えば、プロセッサ回路４１０は、環境における１又は２以上の任意的オーディオソースの変化する位置を経時的に識別することができ、更にプロセッサ回路４１０は更に同じ時間に渡る環境における１又は２以上の物理的オブジェクトの変化する位置を更に識別することができる。任意のオーディオソースの少なくとも１つの位置の変化が物理的オブジェクトの少なくとも１つの位置変化に対応する場合、次にプロセッサ回路４１０は、オーディオソース及び物理的オブジェクトが関係付けられるという強力な相関関係又は陽性指示を提供することができる。

様々な因子又は検討事項を用いて、識別されたオーディオソースと物理的オブジェクトの間の相関関係又は対応の強度を決定することができる。例えば、オブジェクト分類子モジュール４０２からの情報を用いて、特定の識別された物理的オブジェクトに関連付けられることが公知であるか又は予想される特定のオーディオ特性に関する情報を提供することができる。特定のオーディオ特性を有するオーディオソースが、識別された物理的オブジェクトに近接して見付けられた場合、オーディオ情報及び物理的オブジェクトが対応する又は相関付けられると考えることができる。対応の強度又は質を更に識別又は計算して、オーディオ及び物理的オブジェクトが相関付けられるという信頼度を指示することができる。

ステップ６２０及び６３０で、プロセッサ回路４１０などを用いてステップ６１０で識別された相関関係の強度を評価することができる。ステップ６２０で、第２方法６００は強力な相関関係が特定の物理的オブジェクトのオーディオシーン情報と深度特性の間に存在するかどうかを決定するステップを含む。１つの例では、相関関係が強力かどうかを、ステップ６１０などで決定できるような相関関係の定量値に基づいて決定することができる。相関関係の定量値は、指定又はプログラムできるような様々な閾値レベルと比較することができるか、又は機械学習システムによって経時的に学習することができる。１つの例では、相関関係が強力であると６２０で決定するステップは、相関関係の値が指定された第１閾値に一致するか又はこれを超えると決定するステップを含むことができる。

図６の例では、相関関係が強力であることがステップ６２０で決定された場合、次に第２方法６００はステップ６２２に進み、特定のオブジェクトの受信した深度特性を用いて空間オーディオ信号を符号化することができる。すなわち、強力な相関関係がステップ６２０で決定された場合、次に受信した又は識別されたオーディオソース情報が特定の物理的オブジェクトに十分対応すると考えることができ、これによってオーディオソースを特定の物理的オブジェクトと同じ深度又は位置に位置付けることができる。

ステップ６２０で、相関関係の相対的強度がステップ６２０からの条件を満足させない場合、次に第２方法６００は、相関関係の更なる評価のためにステップ６３０に進むことができる。相関関係の値が指定された第２閾値条件又は値に一致するか又はこれを超える場合、次に相関関係は弱いと決定することができ、更に第２方法６００はステップ６３２で続く。ステップ６３２はオーディオソースの基準深度特性を用いて空間オーディオ信号を符号化するステップを含むことができる。１つの例では、基準深度特性は遠視野深度又は他のデフォルト深度を含むことができる。例えば、十分な又は最小の相関関係が、オーディオシーンからの特定のオーディオソース又は他のオーディオ情報と環境において識別されたオブジェクトとの間に見付けられなかった場合、又は特定の又は離散的なオブジェクトが識別されないか又は識別可能でない場合、次にオーディオソースが遠視野又は基準平面に属すると決定することができる。

ステップ６３０の相関関係の値が第２閾値条件又は値に一致しなかった場合、次に第２方法６００はステップ６３４で続行することができる。ステップ６３４はオーディオソースの中間深度特性を用いて空間オーディオ信号を符号化するステップを含むことができる。中間深度は、遠視野深度よりも基準位置に近い深度とすることができ、且つ識別された物理的オブジェクトの深度以外の深度である。１つの例では、ステップ６１０で決定された相関関係が、特定のオーディオ信号が特定の物理的オブジェクトに対応する中間確実性又は信頼度を指示する場合、次に特定の物理的オブジェクトの深度に必ずではないが近い位置又は深度の特定のオーディオ信号を符号化することができる。

１つの例では、深度情報は相関関係を決定する場合に検討することができる不確実性の尺度を含むことができる。例えば、深度マップが、オブジェクトが特定の深度にあることが不確実であるが可能性があると指示する場合、次に例えば特定の深度よりも遠視野に近い特定の深度以外の深度のオブジェクトに対応するオーディオ信号を符号化することができる。１つの例では、深度マップが、オブジェクトが様々な深度の範囲に存在できることを指示する場合、次に範囲における最も遠い深度などの範囲における深度の選択された深度のオブジェクトに対応するオーディオ情報を符号化することができる。様々な深度に対して様々に加重されたＨＲＴＦなどを用いて、中間深度特性を備えたオーディオ情報又はミックスを符号化、復号、及び使用するシステム及び方法が、全体が引用により本明細書に組み入れられる「アンビソニック深度抽出」という名称の米国特許出願第１６／２１２，３８７号に詳細に論じられている。

図７は、オーディオシーン情報が指定された物理的オブジェクトに対応するという信頼度指標を提供するステップを含むことができる第３方法７００の例を一般的に示す。第３方法７００はプロセッサ回路４１０の１又は２以上の部分を用いて少なくとも一部実行することができる。

ステップ７１０で、第３方法７００は深度センサ２３０を用いて物理的オブジェクト深度情報を受信するステップを含むことができる。１つの例では、ステップ７１０は複数のオブジェクトに関する深度情報を受信するステップ及び単一のオブジェクト又は複数のオブジェクトのグループに対する組み合わせ深度推定値を決定するステップを含むことができる。１つの例では、ステップ７１０は環境における候補オブジェクトの様々なオブジェクト深度の組み合わせを表すことができる組み合わせ深度推定値を決定するステップを含むことができる。１つの例では、深度情報は、複数のオブジェクトに関する加重深度又は信頼度指標に基づくことができる。オブジェクトに関する信頼度指標は、機械識別のオブジェクトが関心の特定のオブジェクト又は特定のオーディオオブジェクトに対応するという信頼度又は可能性を指示することができる。１つの例では、複数のオブジェクトに基づく組み合わせ深度推定値は、ビデオの複数のフレームに基づくか又は経時的な深度情報などから基づくことができ、様々な位置に迅速にジャンプするのではなくゆっくりと遷移する深度の平滑化又は連続指示を提供することができる。

ステップ７２０で、第３方法７００は、オーディオキャプチャデバイス２２０などを用いて、オーディオセンサからオーディオシーン情報を受信するステップを含むことができる。図７の例では、ステップ７３０は受信したオーディオシーン情報を離散的なオーディオ信号又はオーディオ成分に分解するステップを含むことができる。１つの例では、受信したオーディオシーン情報は、指向性マイクロフォンから、又はマイクロフォンアレイから、又は音場マイクロフォンからの情報を含む。１つの例では、受信したオーディオシーン情報は、複数の異なる基準位置、視野、見る方向からのオーディオ情報などを表すことができる複数の異なるオーディオ信号のマルチチャネルミックスを含むか、又は他の類似の又は異なる特性を有することができる。ステップ７３０は、離散的なオーディオ信号チャネル、時間－周波数タイル、又はオーディオシーン情報の異なる部分の他の表現などの離散的な信号を生成するステップを含むことができる。

ステップ７４０は各オーディオ信号におけるオーディオオブジェクトの優勢な方向を識別するステップを含むことができる。例えば、ステップ７４０はステップ７３０で生成された離散的な信号の各々を分析して、これらの信号におけるオーディオオブジェクトを識別するステップを含むことができる。オーディオオブジェクトは、例えば、特定の周波数帯域に属するオーディオ情報、又は特定の時間又は持続時間に対応するオーディオ情報、又は過渡特性などの指定された信号特性を含むオーディオ情報を含むことができる。ステップ７４０は、オーディオオブジェクトの各々がオーディオシーンにおいて検出された方向を識別するステップを含むことができる。

ステップ７５０は、ステップ７４０で識別された方向とステップ７１０で受信されたオブジェクト深度情報とを比較するステップを含むことができる。方向の比較は、ある方向が、オーディオオブジェクトの共通基準方向又は見る方向などに対して、環境における物理的オブジェクトの方向に対応するかどうかを決定するステップを含むことができる。オーディオオブジェクト及び物理的オブジェクトの両方が共通基準角度に対して３０°の方位角に位置付けられると決定された時などに、対応が識別された場合、次に第３方法７００はオーディオシーン（又はオーディオオブジェクトに対応するオーディオシーンの特定の部分）が環境における識別された物理的オブジェクトに相関付けられるという信頼度指標を提供するステップを含むことができる。この相関関係情報を用いて、例えば図６の例に従ってオーディオシーンを符号化することができる。

図８は、オーディオ信号特性とオーディオシーンに関して受信された情報との間の対応を決定するステップを含むことができる第４方法８００の例を一般的に示す。第４方法８００は、プロセッサ回路４１０の１又は２以上の部分を用いて少なくとも一部実行することができる。ステップ８１０で、第４方法８００は、オーディオキャプチャデバイス２２０などを用いて、オーディオセンサからオーディオシーン情報を受信するステップを含むことができる。ステップ８２０で、第４方法８００はカメラから又は深度センサ２３０などから画像又はビデオ情報を受信するステップを含むことができる。

ステップ８３０で、第４方法８００はステップ８２０で受信された画像又はビデオ情報でオブジェクトを識別するステップを含むことができる。ステップ８３０は、クラスタリング、人工知能に基づく分析、又は機械学習などを用いる画像ベースの処理を含み、カメラの画像又は視野に存在するか、又は存在する可能性がある物理的オブジェクトを識別することができる。１つの例では、ステップ８３０は、識別される何れか１つ又は１以上の様々なオブジェクトの深度特性を決定するステップを含むことができる。

ステップ８４０で、第４方法８００はステップ８３０で識別されたオブジェクトを分類するステップを含むことができる。１つの例では、ステップ８４０はニューラルネットワークに基づく分類子又は機械学習分類子を用いて、画像情報を受信し、更にこれに応じて識別されたオブジェクトの分類を提供するステップを含むことができる。分類子を様々なデータに対して訓練して、例えば、人間、動物、無生物のオブジェクト、又はサウンドを生成できるか又は生成しないこともある他のオブジェクトを認識することができる。ステップ８５０は分類されたオブジェクトに関連付けられるオーディオ特性を決定するステップを含むことができる。例えば、人間の男性がステップ８４０で識別された場合、次にステップ８５０は、様々な周波数及び過渡特性を有することができる人間の男性の声に対応する音響プロファイルを決定するステップを含むことができる。ライオンがステップ８４０で識別された場合、次にステップ８５０は、人間に関連付けられるものとは異なる周波数及び過渡特性などを有することができるライオンに関連付けられることが公知であるノイズ又は発声に対応する音響プロファイルを決定するステップを含むことができる。１つの例では、ステップ８５０はルックアップテーブルを含むか又は用いて、オーディオ特性に様々なオブジェクト又はオブジェクトタイプをマップすることができる。

ステップ８６０で、第４方法８００は、ステップ８５０で決定されたオーディオ特性とステップ８１０で受信されたオーディオシーン情報との間の対応を決定するステップを含むことができる。例えば、ステップ８６０は、オーディオシーン情報が、環境において識別されたオブジェクトの音響プロファイルに一致するか又は対応するオーディオ信号コンテンツを含むかどうかを決定するステップを含むことができる。１つの例では、対応に関する情報を用いて、図６の例に従って使用することができるオーディオシーンと検出された物理的オブジェクトとの間の相関関係を決定することができる。

本明細書で開示する実施形態に関して記述した様々な例証の論理的ブロック、モジュール、方法、及びアルゴリズム処理及びシーケンスは、電子ハードウェア、コンピュータソフトウェア、又はこれら両方の組み合わせとして実施することができる。ハードウェアとソフトウェアのこの互換性を分かり易くするために、様々な例証の構成要素、ブロック、モジュール、及び処理動作を、これらの機能の点で一般的に上述してきた。このような機能がハードウェア又はソフトウェアとして実施されるかどうかは、全体的なシステムに課される特定の応用及び設計制約に依存する。記述した機能は、各々の特定の応用に対して様々な方法で実施できるが、このような実施の決定は、本文書の範囲から逸脱するものとして解釈すべきではない。深度情報を検出して更に深度とオーディオ情報との間の相関関係を用いて空間オーディオ信号を符号化するシステム及び方法の実施形態は、本明細書に記述する他の技術の中でも、図９の論議などに説明されるように、汎用又は専用コンピュータシステム環境又は構成の多数のタイプの中で動作可能である。

本明細書で開示する実施形態に関して記述した様々な例証の論理的ブロック及びモジュールは、汎用プロセッサ、処理デバイス、１又は２以上の処理デバイスを有するコンピュータデバイス、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又は他のプログラマブル論理デバイス、離散的ゲート又はトランジスタ論理、離散的ハードウェア構成要素、又は本明細書に記述した機能を実行するよう設計されたこれらの何れかの組み合わせなどの機械によって実施又は実行することができる。汎用プロセッサ及び処理デバイスはマイクロプロセッサとすることができるが、代替として、プロセッサを、コントローラ、マイクロコントローラ、又は状態機械、同様のものの組み合わせなどとすることができる。プロセッサはまた、ＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアと連結した１又は２以上のマイクロプロセッサ、又は何れかの他のこのような構成などのコンピュータデバイスの組み合わせとして実施することができる。

更に、本明細書に記述する仮想化及び／又はスイートスポット適応の様々な例の一部又は全部を実施するソフトウェア、プログラム、又はコンピュータプログラム製品の１つ又は何れかの組み合わせ、又はこれらの一部は、コンピュータ実行可能命令又は他のデータ構造の形態のコンピュータ又は機械可読媒体又はストレージ媒体及び通信媒体の何れかの要求される組み合わせから格納、受信、送信、又は読み取ることができる。本主題は構造的特徴及び方法の動作に固有の言語で記述されるが、添付の請求項に定義される本主題は本明細書に記述する特定の特徴又は動作に必ずしも制限されないことを理解されたい。むしろ、上述の特定の特徴及び動作は、請求項を実施するための例示的形態として開示される。

様々なシステム及び機械は、限定されないが、ＨＲＴＦ及び／又は他のオーディオ信号処理などを用いるオーディオ成分位置付け又は再位置付け、又は向き決定又は推定を含む本明細書に記述する信号処理タスクの１つ又は２以上を実行又は実施するよう構成することができる。開示する回路又は処理タスクの何れか１つ又はそれ以上は、汎用機械を用いて、又は有形の非一時的プロセッサ可読媒体から検索された命令などを用いて様々な処理タスクを実行する専用構築機械を用いて実施又は実行することができる。

図９は、機械９００に本明細書で論じる方法の何れか１つ又はそれ以上を実行させるための命令９０８（例えば、ソフトウェア、プログラム、アプリケーション、アプレット、ａｐｐ、又は他の実行可能コード）を実行することができる機械９００の図表示である。例えば、命令９０８は本明細書に記述する方法の何れか１つ又はそれ以上を機械９００に実行させることができる。命令９０８は汎用の非プログラム化機械９００をプログラムされた特定の機械９００に変換して記述した方式で記述した及び例示した機能を実行することができる。

１つの例では、機械９００は独立型デバイスとして作動することができるか又は他の機械又はデバイス又はプロセッサに結合する（例えば、ネットワーク化する）ことができる。ネットワーク化された配備では、機械９００はサーバ－クライアントネットワーク環境におけるサーバ機械又はクライアント機械の能力で、又はピアーツーーピア（又は分散）ネットワーク環境におけるピア機械として作動することができる。機械９００は、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ（ＰＣ）、タブレットコンピュータ、ラップトップコンピュータ、ネットブック、セットトップボックス（ＳＴＢ）、ＰＤＡ、娯楽媒体システム、セルラー電話、スマートフォン、移動デバイス、ウェアラブルデバイス（例えば、スマートウォッチ）、スマートホームデバイス（例えば、スマート機器）、他のスマートデバイス、ウェブ機器、ネットワークルータ、ネットワークスイッチ、ネットワークブリッジ、又は機械９００によって取られる動作を指定する命令９０８を順次又はそれ以外で実行することができる何れかの機械を含むことができる。更に、１つの機械９００だけが図示されているが、「機械」という語は、本明細書で論じる方法の何れか１つ又はそれ以上を実行するために命令９０８を個々に又は一緒に実行する機械の集まりを含むものと捉えることができる。１つの例では、命令９０８は、本明細書で論じる方法の１又はそれ以上を実行するために処理回路４１０を用いて実行することができる命令を含むことができる。

機械９００は、バス９４４を介して互いに通信するよう構成することができる、プロセッサ９０２、メモリ９０４、及びＩ／Ｏ構成要素９４２として図９の例に表されるような様々なプロセッサ及びプロセッサ回路を含むことができる。１つの例では、プロセッサ９０２（例えば、中央処理ユニット（ＣＰＵ）、縮小命令セットコンピューティング（ＲＩＳＣ）プロセッサ、複数命令セットコンピューティング（ＣＩＳＣ）プロセッサ、グラフィクス処理ユニット（ＧＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、ＡＳＩＣ、ラジオ周波数集積回路（ＲＦＩＣ）、別のプロセッサ、又は何れかの適切な（これらの）組み合わせは、例えば、命令９０８を実行するプロセッサ９０６及びプロセッサ９１０を含むことができる。「プロセッサ」という語は、命令を同時に実行することができる２又は３以上の独立プロセッサ（「コア」と呼ばれることもある）を含むことができるマルチコアプロセッサを含むものとする。図９は複数のプロセッサを示すが、機械９００は、シングルコアを備えたシングルプロセッサ、複数のコアを備えたシングルプロセッサ（例えば、マルチコアプロセッサ）、シングルコアを備えたマルチプロセッサ、マルチコアを備えたマルチプロセッサ、又はこれらの何れかの組み合わせを含み、例えばプロセッサ回路４１０を提供することができる。

メモリ９０４は、バス９４４を介してプロセッサ９０２にアクセス可能とすることができる主メモリ９１２、静的メモリ９１４、又はストレージユニット９１６などを含むことができる。メモリ９０４、静的メモリ９１４、及びストレージユニット９１６は、本明細書に記述する方法又は機能又は処理の何れか１つ又はそれ以上を実施する命令９０８を格納することができる。命令９０８はまた、主メモリ９１２内、静的メモリ９１４内、機械可読媒体９１８内、ストレージユニット９１６内、プロセッサの少なくとも１つ内（例えば、プロセッサのキャッシュメモリ内）、又は機械９００によって実行中の何れかの適切なこれらの組み合わせ内に、完全に又は部分的に存在することができる。

Ｉ／Ｏ構成要素９４２は、多種多様な構成要素を含み、入力の受信、出力の提供、出力の生成、情報の送信、情報の交換、測定値の取り込みなどを実行することができる。特定の機械に含まれる特定のＩ／Ｏ構成要素９４２は機械のタイプに依存することになる。例えば、移動電話などの携帯式機械はタッチ入力デバイス又は他のこのような入力機構を含むことができるが、ヘッドレスサーバ機械はこのようなタッチ入力デバイスを含まない可能性がある。Ｉ／Ｏ構成要素９４２は図９に示していない多くの他の構成要素を含むことができることが理解されるであろう。様々な例示的実施形態では、I／Ｏ構成要素９４２は出力構成要素９２８及び入力構成要素９３０を含むことができる。出力構成要素９２８は、視覚構成要素（例えば、プラズマディスプレイパネル（ＰＤＰ）、発光ダイオード（ＬＥＤ）ディスプレイ、液晶ディスプレイ（ＬＣＤ）、プロジェクタ、又はブラウン管（ＣＲＴ）などのディスプレイ）、音響構成要素（例えば、スピーカ）、触覚構成要素（例えば、振動モータ、抵抗機構）、他の信号生成器などを含むことができる。入力構成要素９３０は、英数字入力構成要素（例えば、キーボード、英数字入力を受信するように構成されたタッチ画面、光学式キーボード、又は他の英数字入力構成要素）、ポイントベース入力構成要素（例えば、マウス、タッチパッド、トラックボール、ジョイスティック、モーションセンサ、又は別のポインティング器具）、触知性入力構成要素（例えば、物理的ボタン、タッチ又はタッチジェスチャの位置及び／又は力を提供するタッチ画面、又は他の触知性入力構成要素）、オーディオ入力構成要素（例えば、マイクロフォン）、ビデオ入力構成要素などを含むことができる。

１つの例では、Ｉ／Ｏ構成要素９４２は、多種多様な他の構成要素の中でも、生体測定構成要素９３２、モーション構成要素９３４、環境構成要素９３６、又は位置構成要素９３８を含むことができる。例えば、生体測定構成要素９３２は、人間、ペット、又は他の個人又はオブジェクトの存在又は不存在を検出するよう構成されるか、又は表現（例えば、手の表現、顔の表現、声の表現、身体ジェスチャ、又はアイトラッキング）を検出して、生体信号（例えば、血圧、心拍、体温、発汗、又は脳波）を測定し、人（例えば、音声識別、網膜識別、顔識別、指紋識別、又は脳波図に基づく識別）を識別するように構成された構成要素を含む。モーション構成要素９３４は、加速度センサ構成要素（例えば、加速度計）、重力センサ構成要素、回転センサ構成要素（例えば、ジャイロスコープ）などを含むことができる。

環境構成要素９３６は、例えば、照明センサ構成要素（例えば、フォトメータ）、温度センサ構成要素（例えば、周囲温度を検出する１又は２以上のサーモメータ）、湿度センサ構成要素、圧力センサ構成要素（例えば、バロメータ）、音響センサ構成要素（例えば、背景雑音を検出する１又は２以上のマイクロフォン）、近接センサ構成要素（例えば、近くのオブジェクトを検出する赤外線センサ）、ガスセンサ（例えば、安全のために有害なガスの知覚を検出するか又は大気の汚染物質を測定するためのガス検出センサ）、又は周囲の物理的環境に対応する指示、測定値、又は信号を提供することができる他の構成要素を含むことができる。位置構成要素９３８は、位置センサ構成要素（例えば、ＧＰＳ受信機構成要素、ＲＦＩＤタグなど）、高度センサ構成要素（例えば、高度を導きだすことができる気圧を検出する高度計又はバロメータ）、方位センサ構成要素（例えば、磁気探知機）などを含む。

Ｉ／Ｏ構成要素９４２は、カップリング９２４及びカップリング９２６をそれぞれに介してネットワーク９２０又はデバイス９２２に機械９００を結合することができる通信構成要素９４０を含むことができる。例えば、通信構成要素９４０はネットワーク９２０に接続するためのネットワークインタフェース構成要素又は別の適切なデバイスを含むことができる。更なる例では、通信構成要素９４０は、有線通信構成要素、無線通信構成要素、セルラー通信構成要素、近距離通信（ＮＦＣ）構成要素、Ｂｌｕｅｔｏｏｔｈ（登録商標）構成要素（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）ローエネルギー）、Ｗｉ－Ｆｉ（登録商標）構成要素、及び他の通信構成要素を含み、他の様式を介した通信を提供することができる。デバイス９２２は別の機械又は多種多様な周辺デバイスの何れか（例えば、ＵＳＢを介して結合される周辺デバイス）とすることができる。

更にまた、通信構成要素９４０は識別子を検出するか又は識別子を検出できる構成要素を含むことができる。例えば、通信構成要素９４０は、ラジオ周波数識別（ＲＦＩＤ）タグリーダ構成要素、ＮＦＣスマートタグ検出構成要素、光学リーダ構成要素（例えば、ユニバーサル製品コード（ＵＰＣ）バーコードなどの１次元バーコード、クイックレスポンス（ＱＲ）コード、アズテックコード、データマトリックス、データグリフ、マキシコード、ＰＤＦ４１７、ウルトラコード、ＵＣＣＲＳＳ－２Ｄバーコードなどの多次元バーコード、及び他の光学コードを検出するための光学センサ）、又は音響検出構成要素（例えば、タグ付けされたオーディオ信号を識別するためのマイクロフォン）を含むことができる。加えて、インターネットプロトコル（ＩＰ）ジオロケーションを介した位置、Ｗｉ－Ｆｉ（登録商標）信号三角測量を介した位置、又は特定の位置を指示することができるＮＦＣビーコン信号の検出を介した位置などの多種多様な情報を、通信構成要素９４０を介して取得することができる。

様々なメモリ（例えば、メモリ９０４、主メモリ９１２、静的メモリ９１４、及び／又はプロセッサ９０２のメモリ）及び／又はストレージユニット９１６は、本明細書に記述する方法又は機能の何れか１つ又はそれ以上を実施するか又はこれによって用いられる１又は２以上の命令又はデータ構造（例えば、ソフトウェア）を格納することができる。これらの命令（例えば、命令９０８）は、プロセッサ又はプロセッサ回路によって実行された時に、本明細書で論じる実施形態を様々な動作に実施させる。

命令９０８は、ネットワーク９２０を通じて、送信媒体を用いて、ネットワークインタフェースデバイス（例えば、通信構成要素９４０に含まれるネットワークインタフェース構成要素）を介して、及び幾つかの公知の転送プロトコルの何れか１つ（例えば、ハイパーテキスト転送プロトコル（ＨＴＴＰ））を用いて、送信又は受信することができる。同様に、命令９０８はデバイス９２２とのカップリング９２６（例えば、ピア－ツー－ピアカップリング）を介した送信媒体を用いて送信又は受信することができる。

本明細書において、用語「ａ」又は「ａｎ」は、特許文書で共通するように、「少なくとも１つ」又は「１又は２以上」の他の何れかの事例又は使用に関係なく１又は１よりも多いものを含むのに使用される。本明細書において、用語「ｏｒ（又は）」は、非排他的であることを指すのに使用され、すなわち、別途指示がない限り、「Ａ又はＢ」が「ＢではなくＡ」、「ＡではなくＢ」、及び「Ａ及びＢ」を含むものとする。本明細書において、「ｉｎｃｌｕｄｉｎｇ」及び「ｉｎｗｈｉｃｈ」は、それぞれの用語「ｃｏｍｐｒｉｓｉｎｇ」及び「ｗｈｅｒｅｉｎ」の一般的意味の等価物として使用される。

とりわけ、「ｃａｎ（可能性がある）」、「ｍｉｇｈｔ（できた）」、「ｍａｙ（できる）」などの本明細書で用いる条件言語は、他に具体的に明示されない限り、又は用いられる文脈内で他に理解されない限り、一般的には、一定の実施形態は、一定の特徴、要素及び／又は状態を含むが、他の実施形態は含まないということを伝えるものとする。従って、このような条件語は、一般的には、特徴、要素及び／又は状態が、１又は２以上の実施形態に必要である何れかの方法であること、又は１又は２以上の実施形態が、オーサー入力又はプロンプティングあり又はなしで、これらの特徴、要素及び／又は状態が、何れかの特定の実施形態に含まれるか又はこの実施形態で実行されるかどうかを決定する論理を必ず含むことを意図するものではない。

上記の詳細な説明は、様々な実施形態に適用される新規の特徴を図示、説明、及び指摘しているが、例証されたデバイス又はアルゴリズムの形態及び詳細における様々な省略、置換及び変更を行い得ることが理解されるであろう。理解されるように、本明細書に記述する本発明の特定の実施形態は、一部の特徴を他の特徴とは別に使用又は実施できるので、本明細書に記載された特徴及び利点の全てを提供しない形態の範囲内で具現化することができる。

更にまた、本主題は、構造的な特徴又は方法又は動作に固有の言語で記述しているが、添付の請求項に定義される主題は必ずしも上述の特定の特徴又は動作に限定されないことを理解されたい。逆に、上述の特定の特徴及び動作は、請求項を実施する例示的形態として開示される。

５００第１方法
５０２環境におけるオーディオキャプチャソースからオーディオシーン情報を受信する
５０４受信したオーディオシーンにおいて少なくとも１つのオーディオ成分を識別する
５０６深度センサから、環境における１又は２以上のオブジェクトに関する深度特性情報を受信する
５０８識別された少なくとも１つのオーディオ成分及び深度特性情報に基づいて空間オーディオ信号を符号化する

Claims

環境におけるオーディオキャプチャソースからオーディオシーン情報を受信するステップと、
前記受信したオーディオシーンにおいて少なくとも１つのオーディオ成分を識別するステップと、
深度センサから、前記環境における１又は２以上のオブジェクトに関する深度特性情報を受信するステップと、
前記識別された少なくとも１つのオーディオ成分及び前記深度特性情報に基づいて空間オーディオ信号を符号化するステップと、
を含む方法。
前記少なくとも１つのオーディオ成分は、前記受信したオーディオシーン情報の時間－周波数表現に対する信号寄与に関する情報を用いて決定される、
ことを特徴とする請求項１に記載の方法。
前記オーディオキャプチャソースに対して、前記少なくとも１つのオーディオ成分の第１方向及び基準深度を決定するステップを更に含む、
ことを特徴とする請求項１に記載の方法。
前記深度センサからの前記深度特性情報の少なくとも一部が前記少なくとも１つのオーディオ成分に対応するという信頼度を決定するステップと、
前記決定された信頼度を用いて前記識別された少なくとも１つのオーディオ成分の第１深度特性を提供するステップと、
を更に含み、
前記空間オーディオ信号を符号化するステップは、前記第１深度特性を用いるステップを含む、
ことを特徴とする請求項３に記載の方法。
前記第１深度特性を提供するステップは、
前記信頼度が高い時に、前記深度センサからの情報に基づいて前記第１深度特性を提供するステップと、
前記信頼度が低い時に、前記基準深度として前記第１深度特性を提供するステップと、
前記信頼度が中間である時に、前記基準深度と前記深度センサを用いて決定された深度との間にある深度として前記第１深度特性を提供するステップと、
を含む、
ことを特徴とする請求項４に記載の方法。
前記信頼度を決定するステップは、コンピュータビジョンプロセッサを用いて、前記環境において識別されたオブジェクトを分類し、更に前記少なくとも１つのオーディオ成分が、前記分類されたオブジェクトの少なくとも１つからのオーディオを含むか又は含む可能性があるかどうかを決定するステップを含む、
ことを特徴とする請求項４に記載の方法。
前記深度特性情報は、それぞれの深度及び方向特性を備えた複数のオブジェクトに関する情報を含み、
前記信頼度を決定するステップは、前記識別された少なくとも１つのオーディオ成分が前記複数のオブジェクトの特定のオブジェクトに対応するという信頼度を決定するステップを含む、
ことを特徴とする請求項４に記載の方法。
前記信頼度を決定するステップは、
前記深度センサからの前記深度特性情報において１又は２以上のデータクラスタを識別するステップと、
前記少なくとも１つのオーディオ成分の第１方向を前記識別された１又は２以上のデータクラスタに相関付けるステップと、
を含む、
ことを特徴とする請求項４に記載の方法。
前記深度センサから、それぞれの深度の大きさ及び深度方向特性を備えた複数のオブジェクトに関する深度特性情報を受信するステップと、
前記複数のオブジェクトに対して、前記深度特性情報が前記少なくとも１つのオーディオ成分に対応するというそれぞれの信頼度指標を決定するステップと、
前記それぞれの信頼度指標に基づいて組み合わせ深度特性を決定するステップと、
を更に含み、
前記空間オーディオ信号を符号化するステップは、前記組み合わせ深度特性を用いるステップを含む、
ことを特徴とする請求項３に記載の方法。
前記空間オーディオ信号を符号化するステップは、前記オーディオシーン及び前記深度特性情報に基づいて深度拡張アンビソニック信号を符号化するステップを含む、
ことを特徴とする請求項１に記載の方法。
オーディオキャプチャソースから前記オーディオシーン情報を受信するステップは、マルチトランスデューサマイクロフォン、音場マイクロフォン、マイクロフォンアレイ、及びアンビソニックマイクロフォンの１又は２以上から前記オーディオシーン情報を受信するステップを含む、
ことを特徴とする請求項１に記載の方法。
前記深度特性情報を受信するステップは、前記環境における第１オブジェクトの動きを示す第１オブジェクトに関する時間変化深度特性情報を受信するステップを含み、
前記空間オーディオ信号を符号化するステップは、前記オーディオシーン及び前記時間変化深度特性情報に基づくようにするステップを含む、
ことを特徴とする請求項１に記載の方法。
画像ベースのオブジェクト分類子を用いて前記環境における前記１又はそれ以上のオブジェクトの第１オブジェクトの分類を決定するステップを更に含み、
前記空間オーディオ信号を符号化するステップは、前記オーディオシーン情報の第１部分が、前記分類に基づく前記第１オブジェクトからのオーディオ情報を含むこと、又は含む可能性があることの決定が条件付けられる、
ことを特徴とする請求項１に記載の方法。
前記オーディオシーン情報の第１部分が、前記第１オブジェクトの分類に関連付けられるオーディオ周波数コンテンツ及び前記オーディオ情報のオーディオ周波数コンテンツに基づく前記第１オブジェクトからのオーディオ情報を含むかどうか、又は含む可能性があるかどうかを決定するステップを更に含む、
ことを特徴とする請求項１３に記載の方法。
前記深度特性情報を受信するステップは、３次元ビデオキャプチャシステム、ステレオカメラ、又はレーザもしくは赤外線プローブ信号の飛行時間情報を測定するように構成されたアクティブ深度プローブの１又は２以上からの情報を分析するステップを含む、
ことを特徴とする請求項１に記載の方法。
システムであって、
環境におけるオーディオシーンを取り込むように構成されたオーディオキャプチャソースと、
前記環境における１又は２以上のオブジェクトに関する深度特性情報を提供するように構成された深度センサと、
プロセッサ回路と、
を備え、
前記プロセッサ回路が、
前記オーディオシーンにおいて、第１方向と前記オーディオキャプチャソースに対する基準深度とを有する少なくとも１つのオーディオ成分を識別し、
前記オーディオシーンにおける前記識別された少なくとも１つのオーディオ成分及び提供された前記深度特性情報に基づいて空間オーディオ信号を符号化する、
ように構成されている、
ことを特徴とするシステム。
前記オーディオキャプチャソースは、マルチトランスデューサマイクロフォン、音場マイクロフォン、マイクロフォンアレイ、及びアンビソニックマイクロフォンの１又は２以上を含む、
ことを特徴とする請求項１６に記載のシステム。
前記深度センサは、レーザ、変調光源、ステレオカメラ、深度プローブ、赤外線センサ、及びカメラアレイの１又は２以上を含む、
ことを特徴とする請求項１６に記載のシステム。
前記プロセッサ回路は、前記第１オブジェクトの前記オーディオシーン及び前記深度特性に基づいて深度拡張アンビソニック信号として前記空間オーディオ信号を符号化するよう構成される、
ことを特徴とする請求項１６に記載のシステム。
前記深度センサは、前記環境における複数のオブジェクトの深度情報を提供するよう構成され、
前記プロセッサ回路は、前記複数のオブジェクトの選択されたオブジェクトに関する深度情報を用いて前記空間オーディオ信号を符号化するよう構成される、
ことを特徴とする請求項１６に記載のシステム。
前記深度センサは、前記環境における複数のオブジェクトの深度情報を提供するよう構成され、
前記プロセッサ回路は、前記複数のオブジェクトに関する深度情報の加重組み合わせを用いて前記空間オーディオ信号を符号化するよう構成される、
ことを特徴とする請求項１６に記載のシステム。
前記プロセッサ回路は、前記オーディオシーンからの情報が前記環境における前記１又は２以上のオブジェクトの中から第１オブジェクトに対応するという信頼度を決定するよう構成され、
前記プロセッサ回路は、指定された信頼度閾値に一致するか又はこれを超える前記決定された信頼度に基づいて前記空間オーディオ信号を符号化するよう構成される、
ことを特徴とする請求項１６に記載のシステム。
前記深度センサは、前記深度センサからの情報において識別された１又は２以上のデータクラスタからの情報を用いて前記１又は２以上のオブジェクトの深度特性を決定するよう構成される、
ことを特徴とする請求項１６に記載のシステム。
前記１又は２以上のオブジェクトの分類を決定するように構成されたオブジェクト分類子回路を更に備え、
前記プロセッサ回路は、前記オブジェクトの分類と前記少なくとも１つのオーディオ成分との間の対応を決定するよう構成され、
前記プロセッサ回路は、閾値対応条件を満足させる前記決定された対応の値に基づいて前記空間オーディオ信号を符号化するよう構成される、
ことを特徴とする請求項１６に記載のシステム。
オーディオ信号符号器デバイスであって、
プロセッサ及び該プロセッサに動作可能に結合された非一時的コンピュータ可読媒体を備え、
前記非一時的コンピュータ可読媒体は、関連付けられて格納され、前記プロセッサにアクセス可能で且つ前記プロセッサによって実行可能である命令を含み、
前記命令は、
実行された時に、環境におけるオーディオキャプチャソースからオーディオシーンを受信する命令と、
実行された時に、前記オーディオシーンにおける複数の異なるオーディオ成分の中から前記オーディオシーンにおける第１オーディオ成分を識別する命令と、
実行された時に、前記環境における１又は２以上のオブジェクトに関する深度情報を含む前記環境に関する画像情報を受信する命令と、
実行された時に、ニューラルネットワークに基づく分類子を用いて前記１又は２以上のオブジェクトから第１オブジェクトを分類する命令と、
実行された時に、前記第１オブジェクトに関連付けられる予想されるオーディオ特性を識別する命令と、
実行された時に、前記予想されるオーディオ特性が前記オーディオシーンにおいて識別された前記第１オーディオ成分に対応するかどうかを決定する命令と、
を含む、
オーディオ信号符号器デバイス。
実行された時に、空間オーディオ信号を条件的に符号化する命令を更に含み、
前記命令は、実行された時に、
前記予想されるオーディオ特性が前記オーディオシーンにおいて識別された前記第１オーディオ成分に対応する時に、前記環境における前記第１オブジェクトに関する深度情報に基づいて前記空間オーディオ信号を符号化し、
前記予想されるオーディオ特性が前記オーディオシーンにおいて識別された第１オーディオ成分に対応しない時に、基準深度に基づいて前記空間オーディオ信号を符号化する命令を含み、
前記基準深度は、前記オーディオキャプチャソース及び／又は前記環境の特性である、
ことを特徴とする請求項２５に記載のオーディオ信号符号器デバイス。
実行された時に、前記第１オーディオ成分を用いて及び前記環境における前記第１オブジェクトに関する深度情報を用いて空間オーディオ信号を符号化する命令を更に含む、
ことを特徴とする請求項２５に記載の方法。