JP2022547253A

JP2022547253A - 不一致視聴覚捕捉システム

Info

Publication number: JP2022547253A
Application number: JP2022501040A
Authority: JP
Inventors: エドワードシュタイン; マーティンウォルシュ
Original assignee: DTS Inc
Current assignee: DTS Inc
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2022-11-11
Also published as: US11962991B2; CN114270877A; KR102656969B1; KR20220031058A; US20220272477A1; WO2021006871A1; EP3997895A1

Abstract

本明細書で論じるシステムおよび方法は、第１の空間音響信号の座標系を変更することができる。第１の空間音響信号は、環境に対する第１の座標系を有する音響捕捉源装置に関連付けられた音響捕捉位置に対する、異なる深さまたは方向からの音響情報を表す信号成分を含むことができる。座標系を変更することは、第１の空間音響信号成分を受け取ることと、同じ環境に対する第２の座標系に関する情報を受け取ることと、第１のおよび第２の座標系との間の差を決定することと、第１の座標系と第２の座標系との間の決定した差を用いて、第１の空間音響信号に基づき、第２の座標系を参照する第２の空間音響信号の少なくとも１つの成分を生成するのに使用すべき第１のフィルタを決定することと、を含むことができる。【選択図】図１

Description

各々マイクロフォンとカメラを含むか、または使用することができるような音響および映像捕捉システムは、環境に併設することができ、音楽演奏などの視聴覚イベントを捕捉するように構成される。捕捉した視聴覚情報を記録し、伝送し、オンデマンドで再生できる。一例では、視聴覚情報は、空間音響フォーマットおよび多次元映像または画像フォーマットを使用するなどの没入型フォーマットで捕捉することができる。

一例では、音響捕捉システムは、環境から音響情報を受け取るために、１以上のトランスデューサを含むマイクロフォン、マイクロフォンアレイ、または他のセンサを含むことができる。音響捕捉システムは、３次元または３６０度音場を捕捉するように構成された、アンビソニックマイクロフォンなどの空間音響マイクロフォンを含むか、または使用することができる。

一例では、映像捕捉システムは、一眼カメラまたは多眼カメラシステムを含むことができる。一例では、映像捕捉システムは、没入型映像または球体映像と呼ばれることもある３６０度映像情報を受け取るように構成することができる。３６０度映像では、複数の方向からの画像情報を受け取り、同時に記録することができる。再生時には、視聴者やシステムは、視聴方向を選択・制御したり、映像情報を球体スクリーンや他のディスプレイシステムに表示したりすることができる。

録音した３次元音響キューを符号化するために、様々な音響記録フォーマットが利用できる。３次元音響フォーマットは、アンビソニックスや、昇降式スピーカチャンネルから構成されるディスクリート方式のマルチチャンネル音響フォーマットを含む。一例では、ダウンミックスは、マルチチャンネルのデジタル音響信号のサウンドトラック成分に含むことができる。ダウンミックスは後方互換性があり、レガシー・デコーダにより復号し、既存のまたは従来の再生装置で再生できる。ダウンミックスは、レガシー・デコーダで無視することができるが、非レガシー・デコーダで使用することができる、１以上の音響チャンネルを有する拡張データストリームを含むことができる。例えば、非レガシー・デコーダは、追加の音響チャンネルを復元し、後方互換のあるダウンミックスにおける寄与を差し引き、目標の空間音響フォーマットを生成することができる。

一例では、サウンドトラックが意図する対象空間音響フォーマットは、符号化または生成段階で指定することができる。この方式により、レガシー・サラウンドサウンド・デコーダと互換性のあるデータストリーム形式で、マルチチャンネルの音響サウンドトラックを符号化し、符号化または生成段階で選択した１以上の代替の対象空間音響フォーマットを使用することができる。これらの代替の対象フォーマットには、３次元音響キューの改善された再生に適したフォーマットを含むことができる。しかし、この方式の１つの制限は、同じサウンドトラックを他の対象空間音響フォーマットに符号化するには、新しいフォーマットに混合された新しいバージョンのサウンドトラックを記録し、および符号化するために生成施設に戻る必要がある場合がある。

オブジェクトベースの音響シーン符号化は、対象空間音響フォーマットに依存しないサウンドトラック符号化のための一般的な解決策を提供する。オブジェクトベースの音響シーン符号化システムの例として、ＭＰＥＧ－４ＡｄｖａｎｃｅｄＡｕｄｉｏＢｉｎａｒｙＦｏｒｍａｔｆｏｒＳｃｅｎｅｓ（ＡＡＢＩＦＳ）がある。この方式では、各源信号は、レンダーキューのデータストリームとともに個別に伝送する。このデータストリームは、空間音響シーンレンダリングシステムのパラメータの時間変化する値を伝送する。このパラメータ設定は、フォーマットに依存しない音響シーン記述の形式で提供することができるため、このフォーマットに従ってレンダリングシステムを設計することによって、サウンドトラックを任意の対象空間音響フォーマットでレンダリングすることができる。各源信号は、関連するレンダーキューとの組み合わせで、「音響オブジェクト」を定義することができる。この方法により、レンダリング装置は正確な空間音響合成技術を実装し、再生側で選択された任意の対象空間音響フォーマットで、各音響オブジェクトをレンダリングすることができる。オブジェクトベースの音響シーン符号化システムは、リミックスや楽曲の再解釈（例えば、カラオケ）、またはシーン内の仮想ナビゲーション（例えば、テレビゲーム）などの、復号化段階でのレンダリングされた音響シーンの双方向修正も可能にする。

一例では、空間的に符号化されたサウンドトラックは、２つの相補的な方法によって生成することができる。それは、（ａ）シーン内の聴取者またはカメラの仮想位置に配置できるような、一致したまたは密接に間隔をあけたマイクロフォンシステムで、既存の音響シーンを録音する、または、（ｂ）仮想音響シーンを合成する。従来の３Ｄバイノーラル録音を使用する１つ目の方法では、「ダミーヘッド」マイクロフォンの使用により、「あなたがそこにいる」体験にできる限り近いものを作り出すことができる。この場合、通常は両耳の位置にマイクロフォンを設置したマネキンを使って、音響シーンを生で捕捉する。次に、録音した音響をヘッドフォンで耳を覆って再生するバイノーラル再生により、元の空間認識を再現することができる。従来のダミーヘッド録音の限界の１つは、生の出来事のみ、また、ダミーの視点と頭の向きからのみ捕捉できることである。

２つ目の方法では、デジタル信号処理（ＤＳＰ）技術を使用して、ダミーヘッド（または外耳道にプローブマイクロフォンが挿入された人間の頭部）周囲の頭部伝達関数（ＨＲＴＦ）を選択してサンプリングし、それらの測定値を補間して別の場所で測定したであろうＨＲＴＦに近似させることによって、両耳聴を模倣することができる。一般的な手法としては、測定した同側および対側のＨＲＴＦを最小位相に変換し、ＨＲＴＦ対を導出するために、それらの間を線形補間する方法がある。ＨＲＴＦ対は、適切な両耳間時間差（ＩＴＤ）を組み合わせることで、所望の合成位置のＨＲＴＦを表す。補間は一般に時間領域で行われ、時間領域フィルタの線形結合を含むことができる。補間は周波数領域解析（例えば、１以上の周波数サブバンドで行う解析）と、その後の周波数領域解析出力間の線形補間を含むことができる。時間領域解析は、より計算効率の高い結果を提供することができ、一方、周波数領域解析は、より正確な結果を提供することができる。いくつかの実施形態では、補間は、時間周波数解析などの時間領域解析と周波数領域解析の組み合わせを含むことができる。

本発明者らは、解決すべき課題として、映像または画像捕捉要素に一致または併設された音響捕捉要素を有する、視聴覚捕捉システムを提供することと認識している。例えば、本発明者らは、カメラを用いて同時に受け取る映像に、マイクから受け取る音響情報が一致するようにマイクロフォンを配置すると、カメラの視野に干渉することを認識している。その結果、マイクロフォンはしばしば、カメラに対して非理想位置へ変換される。この問題に対する解決策として、音響情報がカメラからの映像情報と一致するように、または、実質的に同じ視点や座標系を持つように視聴者へ聞こえるように、受け取った音響情報を補正または再配置する信号処理を含むか、または使用することができる。一例では、解決策は、空間音響信号を第１の座標系から、６自由度内または３次元空間内などの異なる第２の座標系へ変換することを含む。一例では、解決策は、能動的な符号化および復号化を含むか、または使用する。従って、解決策は、補正または生成段階において、後のフォーマットのアップグレード、他のコンテンツまたは効果の追加、または他の追加を可能にすることができる。一例では、解決策は、空間処理および聴取者の体験をさらに最適化するように、復号化段階において、信号成分を分離することをさらに含む。

一例では、本明細書で論じる視聴覚捕捉システムの問題を解決するためのシステムは、３次元カメラ、３６０度カメラ、または他の広視野カメラを含むことができる。システムは、空間音響マイクロフォンまたはマイクロフォンアレイのような音響捕捉装置またはマイクロフォンを含むことができる。システムは、音響捕捉装置から音響情報を受け取り、音響情報を処理し、仮想化、等化、または他の信号整形などの更なる処理のために、１以上の調整された信号を提供するためのデジタル信号処理回路またはＤＳＰ回路をさらに含むことができる。

一例では、システムは、マイクロフォンの位置およびカメラの位置を受け取り、または決定することができる。位置は、例えば、３次元空間におけるマイクロフォンおよびカメラの各々の座標を含むことができる。システムは、位置間の変換を決定することができる。すなわち、システムは、絶対距離または方向を含むような座標間の差を決定することができる。一例では、システムは変換を決定する際に、マイクロフォンおよびカメラの一方または両方の視野方向に関する情報を含むか、または使用することができる。ＤＳＰ回路は、マイクロフォンから音響情報を受け取り、能動的復号化を使用して音響情報を各々の音場成分または音響オブジェクトに分解して、決定した座標間の差に従ってオブジェクトを回転または並進させ、そして、オブジェクトを音場、オブジェクト、または他の空間音響フォーマットへ再符号化することができる。

本発明の概要は、本特許出願の主題の概要を提供することを意図している。本発明の排他的または網羅的な説明を提供することを意図していない。詳細な説明は、本特許出願に関する更なる情報を提供するために含まれるものである。

図面では、必ずしも縮尺通りに描かれているわけではないが、同じような数字が、異なる視点から見た類似の構成要素を表す場合がある。異なる文字の接尾辞を有する同様の数字は、類似の構成要素の異なる例を表す場合がある。図面は、限定ではなく例として、本明細書で論じられる様々な実施形態を概略的に示す。

視聴覚源、音響捕捉装置、および映像捕捉装置を含むことができる第１の環境の一例を概略的に示す図である。視聴覚源および捕捉装置が空間内の点または位置によって表された、図１の第１の環境の一例を概略的に示す図である。一定の空間的関係で捕捉装置を保持するように構成することができるリグまたは固定具の一例を概略的に示す図である。能動的操作、空間解析、および他の信号処理のためのシステムのブロック図の一例を概略的に示す図である。空間音響信号に対して座標系を変更することを含むことができる方法の一例を概略的に示す図である。第１と第２の座標系との間の差を決定することを含むことができる方法の一例を概略的に示す図である。空間音響信号を生成することを含むことができる方法の一例を概略的に示す図である。異なる音響信号成分の合成または再合成に基づいて、空間音響信号を生成することを含むことができる方法の一例を概略的に示す図である。マシン可読媒体から命令を読み取り、本明細書で論じられる方法のいずれか１以上を実行するように構成されたマシンの構成要素を示すブロック図を概略的に示す図である。

[詳細な説明]
視聴覚プログラム情報を調整するためなどの、空間音響信号処理を実行するためのシステム、方法、装置、および機器の例を含む以下の説明では、詳細な説明の一部を構成する添付の図面を参照するものとする。図面は、本明細書に開示された発明を実施することができる特定の実施形態を、例示として示している。これらの実施形態は、本明細書において一般に「例」と称される。このような例は、示されまたは説明されたものに加えて要素を含むことができる。しかし、本発明者らは、示されまたは説明された要素のみが提供される例も想定している。本発明者らは、特定の例（またはその１以上の実施例）に関して、または本明細書に示されまたは説明される他の例（またはその１以上の実施例）に関して、示されまたは説明されるそれらの要素の任意の組み合わせまたは順列を使用する例を企図する。

本明細書において、「音響信号」という語は、物理的な音を代表する信号である。本明細書で説明する音響処理システムおよび方法は、様々なフィルタを使用して音響信号を使用しまたは処理するように構成されたハードウェア回路および／またはソフトウェアを含むことができる。いくつかの例では、システムおよび方法は、複数の音響チャンネルからの信号、または複数の音響チャンネルに対応する信号を使用することができる。ある一例では、音響信号は、複数の音響チャンネルに対応する情報を含むデジタル信号を含むことができる。本主題のいくつかの例では、デジタルバイトまたはワードの時系列の上で動作することができ、これらのバイトまたはワードは、アナログ信号または最終的に物理的な音の離散的な近似を形成する。離散的なデジタル信号は、周期的にサンプリングされた音響波形のデジタル表現に対応する。

図１は、視聴覚源１１０、音響捕捉装置１２０、および映像捕捉装置１３０を含むことができる第１の環境１００の一例を概略的に示している。第１の環境１００は、軸１０１によって示されるように、幅、奥行き、および高さを有するような三次元空間とすることができる。第１の環境１００の各要素は、示されたように異なる場所に提供されることができる。すなわち、異なる物理的要素は、第１の環境１００の異なる部分を占有することができる。音響捕捉装置１２０および／または映像捕捉装置１３０からの情報は、記録ハードウェアおよびソフトウェアを使用して、視聴覚プログラムとして同時に受け取り、記録することができる。

図１の例では、視聴覚源１１０は、ピアノおよびピアノ演奏者を含み、ピアノ演奏者は歌手とすることができる。音楽、振動、および他の可聴情報は、ピアノから実質的に全方向へ、第１の環境１００に離れて発散することができる。同様に、発声または他の音は、歌手によって生成されることができ、第１の環境１００に発散することができる。歌手およびピアノは、第１の環境１００の全く同じ部分を占めないので、これらの各々の源から発するか、またはこれらの源によって生成される音響は、以下でさらに説明するように、異なる有効な源を有している。

音響捕捉装置１２０は、ピアノまたは歌手などの視聴覚源１１０によって生成された音響情報を受け取るように構成された、マイクロフォンまたはマイクロフォンアレイを含むことができる。一例では、音響捕捉装置１２０は、音場マイクロフォンまたはアンビソニックマイクロフォンを含み、音響情報を３次元音響信号フォーマットで捕捉するように構成される。

映像捕捉装置１３０は、１または複数のレンズまたは受像機を有することができるような、カメラを含むことができる。一例では、映像捕捉装置１３０は、３６０度カメラのような広視野カメラを含む。視聴覚プログラムの一部として映像捕捉装置１３０から受け取ったまたは記録された情報は、視聴者がヘッドトラッキングシステムまたは他のプログラムナビゲーションツールまたは装置を使用する場合など、視聴者が第１の環境１００を「見回す」ことを可能にし得るような、没入型または対話型の体験を視聴者に提供するために使用することができる。映像捕捉装置１３０から記録された映像情報と同時に音響捕捉装置１２０から記録することができるような音響情報を、視聴者に提供することができる。音響信号処理技術を音響捕捉装置１２０から受け取った音響情報に適用して、視聴者がプログラムをナビゲートする際に、視聴者の位置または視線方向の変化に伴って、音響情報が確実に追従するようにすることができる。

一例では、視聴者は、視聴覚プログラムの音響成分と映像成分との間の非局在化または不一致を体験するかもしれない。そのような非局在化は、少なくとも部分的には、視聴覚プログラムが記録または符号化される時点における、音響捕捉装置１２０と映像捕捉装置１３０の位置の物理的な差に起因し得る。換言すれば、音響捕捉装置１２０のトランスデューサと映像捕捉装置１３０のレンズは、空間内の同じ物理的な点を占有することができないので、視聴者は、記録された音響と映像プログラム情報との間の不一致を知覚するかもしれない。いくつかの例では、音響捕捉装置１２０または映像捕捉装置１３０の配置または既定の「見る」方向がずれることがあり、視聴者にとっての非局在化の問題をさらに助長する。

本発明者らは、非局在化問題の解決策は、音響捕捉装置１２０から受け取った音響情報を処理して、映像捕捉装置１３０からの画像情報の原点と一致するように、音響情報を「変換」することを含むことができることを認識している。図１では、音響捕捉装置１２０の理論的な変換は、映像捕捉装置１３０の位置への音響捕捉装置１２０の変換を示すために、矢印１０３によって表されている。一例では、解決策は、音響捕捉装置１２０に関連付けられる第１の座標系に関する情報を受け取ることまたは決定することと、映像捕捉装置１３０に関連付けられる第２の座標系に関する情報を受け取ることまたは決定することとを含むことができる。解決策は、第１の座標系と第２の座標系との間の差を決定し、次に、決定した差に関する情報を音響捕捉装置１２０によって受け取った音響信号成分に適用することを含むことができる。決定した差に関する情報を適用することは、音響情報の知覚された原点を、記録されたときの原点とは異なる場所に変換またはシフトするように、フィルタリング、仮想化処理、またはその他の方法で、１または複数の音響信号または信号成分を形成することを含むことができる。例えば、処理は、音響情報の第１の座標系を、異なる原点または異なる方向を有するなど、異なる第２の座標系へシフトすることができる。

図２では、視聴覚源１１０、音響捕捉装置１２０および映像捕捉装置１３０が、各々第１の、第２の、および第３の点、１１０Ａ、１２０Ａおよび１３０Ａによって表される、第１の環境１００の例２００を概略的に示している。この例では、各点は、第１の環境１００における、その位置を定義する各々の座標を有する。例えば、ピアノと歌手の組み合わせを含むような視聴覚源１１０は、第１の位置（ｘ₁、ｙ₁、ｚ₁）を有する第１の点１１０Ａにおいて音響源を有することができる。音響捕捉装置１２０は、第２の位置（ｘ₂、ｙ₂、ｚ₂）を有する第２の点１２０Ａに聴覚源を有することができる。映像捕捉装置１３０は、第３の位置（ｘ₃、ｙ₃、ｚ₃）を有する第３の点１３０Ａに視覚源を有することができる。様々な源および装置を３次元環境内の点および任意に方向または方位に変換することにより、源の位置の差を決定することができる。

一例では、図２において第２の点１２０Ａによって表されるような音響捕捉源１２０は、第１の方位または第１の基準方向１２１を有することができる。音響捕捉源１２０は、第２の点１２０Ａまたは第１の基準方向１２１におけるその位置（または原点）によって、少なくとも部分的に定義することができるような、第１の座標系を有することができる。映像捕捉源１３０は、第２の方位または第２の基準方向１３１を有することができる。映像捕捉源１３０は、第３の点１３０Ａまたは第２の基準方向１３１におけるその位置（または原点）によって、少なくとも部分的に定義することができるような、第２の座標系を有することができる。第１のおよび第２の基準方向、１２１および１３１は、整列している必要はない、すなわち、それらは同一線上、平行、またはその他の関連性を有する必要はない。しかしながら、基準方向または望ましい受信方向が存在する場合、そのような情報は、以下でさらに論じられるように、下流処理により考慮することができる。図２の例では、第１および第２の基準方向、１２１および１３１は、概略的に第１の点１１０Ａにまたはその方向に向けられているが、整列または平行でない。

図２の例では、第２および第３の点、１２０Ａおよび１３０Ａは、指定された第１の距離だけ離れて提供される。第２と第３の点、１２０Ａと１３０Ａとの間の変換は、２点間の最短経路に沿ったような絶対距離に関する情報を含むことができる。変換は、一方が他方から、または環境内のある基準点から、オフセットされる方向に関する情報を含むことができる。例えば、第２の点１２０Ａから第３の点１３０Ａへの変換ｔ₁は、例えば、ｄ（１２０Ａ、１３０Ａ）＝√［（ｘ₃－ｘ₂）²＋（ｙ₃－ｙ₂）²＋（ｚ₃－ｚ₂）²］のように、座標情報から代数的に求めることができる、２点間の距離に関する情報を含むことができる。変換ｔ₁は任意に、例えば、ｄ（１２０Ａ、１３０Ａ）＝４５度など、度で提供できるような方向成分を含むことができる。他の座標系または測定系も同様に使用することができる。

一例では、第１の環境１００は、源追跡装置２１０を含むことができる。源追跡装置２１０は、第１の環境１００内の１または複数の物体の位置に関する情報を受け取りまたは感知するように構成された機器を含むことができる。例えば、源追跡装置２１０は、音響捕捉装置１２０または映像捕捉装置１３０の位置または配置を監視するように構成された、３Ｄビジョンまたは深さセンサを含むことができる。一例では、源追跡装置２１０は、座標系または座標系間の差を決定する際に使用するために、処理回路（例えば、図４の例の処理回路４１０を参照）に、較正または位置情報を提供することができる。一例では、源追跡装置２１０は、処理回路に割り込みまたは再較正信号を提供することができ、これに応じて処理回路は、１または複数の座標系を再較正、または複数の異なる座標系間の新しい差を決定することができる。図２では、源追跡装置２１０は、第１の環境１００内の軸１０１の原点に配置されるように図示されているが、源追跡装置２１０は、第１の環境１００内の他の場所に配置することができる。一例では、源追跡装置２１０は、音響捕捉源１２０または映像捕捉源１３０または他の機器の一部から構成される。

一例では、１以上の音響捕捉源１２０および映像捕捉源１３０は、自己較正するように、または例えば、指定された基準点に対する第１の環境１００におけるその位置を決定または特定するように構成することができる。

一例では、源は、その位置（例えば、ｘ、ｙ、ｚ座標で、動径座標で、またはいくつかの他の座標系で）を決定または報告することができるように、源追跡装置２１０と、または第１の環境１００に配置されたビーコンなどの他の装置と、インターフェースするように構成された処理回路を含むことができ、またはそれに通信可能に結合することができる。
一例では、一方の源は、その座標または第１の環境における具体的な位置を特定することなく、他方に対するその位置を決定することができる。すなわち、音響捕捉源１２０および映像捕捉源１３０のうちの一方は、変換ｔ₁の大きさまたは方向を特定するために、他方と通信するように構成することができる。一例では、各源は、他方と通信し、決定した変換ｔ₁を認識し、それに同意するように構成される。

図３では、複数の捕捉装置を一定の空間的関係で保持するように構成することができるリグ３０１または固定具の一例を概略的に示している。図３の例では、リグ３０１は、音響捕捉装置１２０および映像捕捉装置１３０を保持するように構成される。リグ３０１は、複数の音響捕捉装置、複数の映像捕捉装置、またはセンサ若しくは受信機の他の組み合わせを保持するように同様に構成することができる。リグ３０１は、２つの装置を保持するように図示されているが、追加のまたはより少ない装置を保持することができる。

リグ３０１は、１以上の次元または方向など装置間の変換が少なくとも部分的に固定されるように、音響捕捉装置１２０および映像捕捉装置１３０を固定および保持するように構成することができる。図３の例では、リグ３０１は、音響捕捉装置１２０の原点が座標（ｘ₂、ｙ₂、ｚ₂）を有するように、音響捕捉装置１２０を保持する。リグ３０１は、映像捕捉装置１３０の原点が座標（ｘ₃、ｙ₃、ｚ₃）を有するように、映像捕捉装置１３０を保持する。この例では、ｘ₃＝ｘ₂＋ｄ₁、ｙ₃＝ｙ₂＋ｄ₂、ｚ₂＝ｚ₃である。したがって、一方の装置の位置情報が分かれば、他方の装置の位置を算出することができる。リグ３０１は、例えばｄ₁またはｄ₂の値を、環境内にまたは捕捉もしくは記録する視聴覚源に対して、リグ３０１を配置するユーザまたは技術者によって選択できるように調整可能であることができる。

一例では、リグ３０１は、リグの原点または基準を有することができ、環境に対するリグの原点の位置に関する情報を、位置処理のために処理回路に提供することができる。リグの原点と、リグ３０１によって保持される１以上の装置との間の関係を決定することができる。すなわち、リグ３０１によって保持される１以上の装置の各々の位置は、リグの原点に対して幾何学的に決定することができる。

一例では、リグ３０１は、リグ基準方向３１１または方位を有することができる。リグ基準方向３１１は、リグ３０１またはリグ３０１に結合された１以上の装置の視線方向または基準方向とすることができる。リグ３０１に結合された装置は、リグ基準方向３１１と同じ基準方向を有するように配置することができ、または、リグ基準方向３１１と装置の基準方向または方位との間にオフセットを提供または決定することができる。

一例では、音響捕捉装置１２０または映像捕捉装置１３０の座標系は、手動で測定され、操作者によって座標系処理システムへ提供することができる。一例では、座標系処理システムは、所望の同期した視聴覚体験を達成するためにユーザが使用することができるような、１以上の座標系または位置または方向の特性またはパラメータを変更し、または調整するユーザからの命令を受けとるためのユーザ入力を含むことができる。

図４は、能動的操作、空間解析、および他の信号処理のためのシステムのブロック図４００の一例を概略的に示している。一例では、ブロック図４００に従って構成された回路は、１以上の形成された信号を各々の方向にレンダリングするために使用することができる。

一例では、ブロック図４００に従って構成された回路は、音響捕捉装置１２０に関連付けることができるような第１の座標系を有する音響信号を受け取り、異なる第２の座標系で視聴者に対し再生できるように、音響信号を移動または変換させるために使用することができる。受け取った音響信号は、１以上の成分または音響オブジェクトを含む、音場または３Ｄ音響信号を含むことができる。第２の座標系は、映像捕捉装置１３０を使用して受け取った１以上の画像に関連付けられた、またはそれに対応する座標系であることができる。第１の座標系と第２の座標系は、固定することも、または動的であることもできる。音響信号の移動または変換は、第１の座標系と第２の座標系との間の関係に関して決定した（例えば、連続的または断続的に更新した）情報に基づくことができる。

一例では、第２の座標系への音響信号変換は、第１の音場音響信号を受け取り、音響信号成分についての位置および方向を決定するために、１以上の処理モジュールを備える処理回路４１０を使用することを含むことができる。音響信号成分の座標系座標は、受け取り、測定し、または他の方法で決定することができる。一例では、該情報は、複数の異なる座標系に関する情報、または、第１の座標系から第２の座標系への変換に関する情報を含むことができる。変換情報を使用して、１以上の音響オブジェクトを移動または再配置して、第２の座標系に対応する仮想源を提供することができる。変換後の１以上の音響オブジェクトは、ラウドスピーカまたはヘッドフォンを介して再生するために復号することができ、または新しい音場フォーマットに再符号化するためにプロセッサに提供することができる。

一例では、処理回路４１０は、座標系間で音響信号変換を実行するための様々なモジュール、または回路、またはソフトウェア実装された処理（汎用または専用回路を用いて実行できるようなものなど）を含むことができる。図４では、空間音響源４０１は、処理回路４１０に音響信号情報を提供する。一例では、空間音響源４０１は、音響信号情報に対応する音響座標系データを処理回路４１０に提供する。音響座標系データは特に、環境に対する相対的なものなど、音響情報の固定または変化する原点または基準点に関する情報を含むことができ、または音響情報の方向または基準方向に関する情報を含むことができる。一例では、空間音響源４０１は、音響捕捉装置１２０を含むか、またはそれを備えることができる。

一例では、処理回路４１０は、空間音響源４０１から音響信号情報を受け取り、受け取った信号を周波数領域に変換するように構成された、ＦＦＴモジュール４２８を含む。変換した信号は、空間処理、操作、またはパンニングを使用して処理し、受け取った音響信号情報の位置または座標系を変更することができる。

処理回路４１０は、座標系解析モジュール４３２を含むことができる。座標系解析モジュール４３２は、空間音響源４０１から、または空間音響源４０１からの音響に関する座標系情報を提供または決定するように構成された別の源から、音響座標系データを受け取るように構成することができる。座標系解析モジュール４３２は、映像源４０２から映像または画像の座標系データを受け取るように構成することができる。一例では、映像源４０２は、映像捕捉装置１３０を含むことができる。一例では、座標系解析モジュール４３２は、音響座標系と映像座標系との間の差を決定するように構成される。差を決定することは、とりわけ、空間音響源４０１または映像源４０２からの聴覚情報または視覚情報の各々の源の、基準点または原点間の距離または変換を決定することを含むことができる。一例では、座標系解析モジュール４３２は、環境内の空間音響源４０１および／または映像源４０２の位置（例えば、座標）を決定し、次に、それらの各々の座標系間の差または関係を決定するように構成することができる。一例では、座標系解析モジュール４３２は、環境内で源を保持または配置するために使用されるリグに関する情報を使用して、源または装置の位置を監視するように構成された位置または深さセンサからの情報を使用して、または他の手段を使用して、源の位置または座標を決定するように構成することができる。

一例では、処理回路４１０は、ＦＦＴモジュール４２８から周波数領域音響信号を受け取り、任意で、音響座標系データまたは音響信号と関連付けられた他のメタデータの少なくとも一部を受け取るように構成された、空間解析モジュール４３３を含む。空間解析モジュール４３３は、周波数領域信号を使用して、１以上の信号またはその信号成分の相対的な位置を決定するように構成することができる。例えば、空間解析モジュール４３３は、第１の音源が聴取者または基準映像位置の前方（例えば、方位角０度）に配置されているか、または配置されるべきであり、第２の音源が聴取者または基準映像位置の右側（例えば、方位角９０度）に配置されているか、または配置されるべきである、と決定するように構成することができる。一例では、空間解析モジュール４３３は、仮想源が１以上の空間音響信号からの情報に基づき、空間音響信号の各々が基準位置に対するものなど、各々の異なる基準位置に対応する場合を含め、受け取った信号を処理し、基準映像位置に対する所定位置に配置し、またはレンダリングすることを目的とした仮想源を生成するように構成することができる。一例では、空間解析モジュール４３３は、源の位置または深さを決定し、座標系に基づく解析を使用して、映像源の座標系に対応するなど新しい位置に源を変換するように構成する。アンビソニック信号を含む音場信号の空間解析および処理は、「アンビソニック深さ抽出（ＡｍｂｉｓｏｎｉｃＤｅｐｔｈＥｘｔｒａｃｔｉｏｎ）」と題する米国特許出願番号１６／２１２，３８７、および「６自由度追跡を用いた音響レンダリング（Ａｕｄｉｏｒｅｎｄｅｒｉｎｇｕｓｉｎｇ６－ＤＯＦｔｒａｃｋｉｎｇ）」と題する米国特許番号９，９７３，８７４で詳細に論じられ、これらの各々は参照によりその全体が本明細書に組み込まれる。

一例では、空間音響源４０１からの音響信号情報は、空間音響信号を含み、サブミックスの一部を含む。信号形成モジュール４３４は、受け取った周波数領域信号を使用して、関連するメタデータを有する音響オブジェクトとして出力できる１以上の仮想源を生成するように構成することができる。一例では、信号形成モジュール４３４は、音場内の指定された位置または深さに様々な音響オブジェクトを特定または配置するために、空間解析モジュール４３３からの情報を使用することができる。

一例では、信号形成モジュール４３４からの信号は、音響信号または信号成分を成形または修正するために、仮想化処理、フィルタリング、または他の信号処理を含むかまたは使用できるような能動的操作モジュール４３８に提供することができる。操作モジュール４３８は、座標系解析モジュール４３２、空間解析モジュール４３３、または信号形成モジュール４３４などの１以上のモジュールから、データおよび／または音響信号入力を受け取ることができる。操作モジュール４３８は、信号処理を使用して、受け取った音響信号を回転またはパンニングすることができる。一例では、能動的操作モジュール４３８は、信号形成モジュール４３４から第１の源出力を受け取り、空間解析モジュール４３３の出力または座標系解析モジュール４３２の出力に基づいて、第１の源をパンニングすることができる。

一例では、操作モジュール４３８は、座標系解析モジュール４３２から回転または並進入力命令を受け取ることができる。このような例では、座標系解析モジュール４３２は、能動的操作モジュール４３８に既知のまたは固定の座標系調整（例えば、受け取った聴覚情報と視覚情報の間）を適用するためのデータまたは命令を提供することができる。

任意の回転または並進の変化に続いて、能動的操作モジュール４３８は、逆ＦＦＴモジュール４４０に信号を提供することができる。逆ＦＦＴモジュール４４０は、追加のメタデータの有無にかかわらず、１以上の出力音響信号チャンネルを生成することができる。一例では、逆ＦＦＴモジュール４４０からの音響出力は、音響再生システムまたは他の音響処理システムの入力として使用することができる。一例では、能動的操作モジュール４３８または逆ＦＦＴモジュール４４０の出力は、参照により本明細書に組み込まれる米国特許第１０，２３１，０７３号「深さ復号化を用いたアンビソニック音響レンダリング（ＡｍｂｉｓｏｎｉｃＡｕｄｉｏＲｅｎｄｅｒｉｎｇｗｉｔｈＤｅｐｔｈＤｅｃｏｄｉｎｇ）」で論じられるシステムまたは方法によって復号することができるような、深さ拡張アンビソニック信号を含むことができる。一例では、出力フォーマットにとらわれず、例えば、位置情報付きのモノステム、ベース／ベッドミックス、またはアンビソニックフォーマットを含むような他の音場表現を含む、様々なレイアウトまたはレンダリング方法への復号をサポートすることが望ましい場合がある。

図５では、処理回路４１０を使用するなどして、空間音響信号の座標系を変更することを含むことができる、第１の方法５００の一例を概略的に示している。ステップ５１０において、第１の方法５００は、第１の座標系を有する第１の空間音響信号を受け取ることを含むことができる。一例では、第１の空間音響信号を受け取ることは、音響捕捉装置１２０を使用することを含むことができ、第１の空間音響信号は、例えば、１以上の異なる信号成分に対する深さまたは重み情報を含むような、アンビソニック信号を含むことができる。一例では、第１の空間音響信号を受け取ることは、第１の空間音響信号に関連付けられるメタデータ、または何らかの他のデータ信号、または第１の座標系の表示を受け取ることを含むことができる。一例では、第１の座標系に関する情報は、音響捕捉装置１２０の位置または座標、音響捕捉装置１２０の方位または視線方向（または他の基準方向）、または音響捕捉装置１２０の位置と環境における基準位置または原点との間の関係を含むことができる。

ステップ５２０では、第１の方法５００は、目標座標系などの第２の座標系に関する情報を受け取ることを含むことができる。一例では、第２の座標系は、音響捕捉装置１２０とは異なる位置を有することができ、または関連付けることができるが、一般に、音響捕捉装置１２０と同じ環境または近傍にあることができる。一例では、第２の座標系は、音響捕捉装置１２０と実質的に同じ環境に提供することができるような、映像捕捉装置１３０の位置に対応する。一例では、第２の座標系は、第１の座標系および音響捕捉装置１２と同じ、または異なる方位または視線方向（または他の基準方向）を含むことができる。一例では、ステップ５１０および５２０など、第１の座標系と第２の座標系に関する情報を受け取ることにより、図４の例からの座標系解析モジュール４３２を使用することができる。

ステップ５３０では、第１の方法５００は、第１の座標系と第２の座標系との間の差を決定することを含むことができる。一例では、図４からの座標系解析モジュール４３２は、第１の座標系と第２の座標系との間の、幾何学的距離および角度または他のオフセットまたは位置の差を含むような、変換を決定することができる。一例では、ステップ５３０では、第１の座標系と第２の座標系との各々の点または位置ベースの表現を使用し、図２の説明において上述したような点の位置間の差、または点間の距離を決定することを含む。一例では、ステップ５３０で差を決定することは、断続的に、周期的に、または第１の座標系と第２の座標系のうちの１以上が変化するときなど、複数の異なる時間で差を決定することを含む。

ステップ５４０では、第１の方法５００は、第２の座標系を参照するか、または第２の座標系と実質的に同じ視点を有する第２の空間音響信号を生成することを含むことができる。すなわち、第２の空間音響信号は、第２の座標系を有することができる。第２の空間音響信号は、第１の空間音響信号の１以上の成分に基づくことができるが、成分が元々、または以前に受けとった、または記録した位置とは異なる位置に由来するものとして、成分を再生するように処理される成分を伴う。

いくつかの例では、ステップ５４０で第２の空間音響信号を生成することは、ステップ５１０で受け取った第１の空間音響信号とは異なるフォーマットを有する信号を生成することを含むことができ、いくつかの例では、第２の空間音響信号を生成することは、第１の空間音響信号と同じフォーマットを有する信号を生成することを含む。一例では、第２の空間音響信号は、第１の空間音響信号よりも高次の信号であるアンビソニック信号を含むか、または第２の空間音響信号は、マトリクス信号、またはマルチチャンネル信号を含む。

図６では、処理回路４１０を使用するなどして、第１の座標系と第２の座標系との間の差を決定することを含むことができる、第２の方法６００の一例を概略的に示している。一例では、第１の座標系と第２の座標系は、環境内に位置する異なる捕捉源に関連付けられ、座標系間の差に関する情報は、座標系解析モジュール４３２を使用して決定することができる。

ステップ６１０では、第２の方法６００は、音響捕捉源と映像捕捉源との間の変換を決定することを含むことができる。例えば、ステップ６１０では、環境内の音響捕捉源１２０と映像捕捉源１３０との間の自由空間における、絶対幾何学的距離または最短経路を決定することを含むことができる。一例では、距離を決定することは、捕捉源に関連付けられた直交座標を使用することと、座標間の最短経路を決定することとを含むことができる。動径座標も同様に使用することができる。一例では、ステップ６１０で変換を決定することは、源の一方から他方への方向を決定することを含むことができる。

ステップ６２０では、第２の方法６００は、音響捕捉源１２０および映像捕捉源１３０の方向を決定することを含むことができる。ステップ６２０は、捕捉源の各々の基準方向または基準方位または視線方向に関する情報を受け取ることを含むことができる。一例では、方位情報は、各源から視聴覚対象への方向（例えば、図１の例では、捕捉源からピアノまたは視聴覚源１１０への方向）についての情報を含むことができる。一例では、ステップ６２０は、指定された基準方位に対する、各々の捕捉源に関する方位情報を受け取ることを含むことができる。

ステップ６３０では、第２の方法６００は、異なる捕捉源に関連付けられる第１の座標系と第２の座標系との間の差を決定することを含むことができる。例えば、ステップ６３０は、ステップ６１０で決定した変換を使用することと、およびステップ６２０で決定する方位情報を使用することとを含むことができる。一例では、ステップ６２０で決定するように音響および映像捕捉源が異なる方位を有する場合、第１の座標系を回転させて第２の座標系の方位と一致させる量を決定するなどして、ステップ６１０で決定する変換を調整することができる。

図７では、空間音響信号を生成することを含むことができる、第３の方法７００の一例を概略的に示している。ステップ７１０は、第１の座標系と第２の座標系に関する差分情報を受け取ることを含むことができる。一例では、差分情報は、例えば、図４の例からの座標系解析モジュール４３２から、または図６の例からのステップ６３０から提供されることができる。

ステップ７２０では、第３の方法７００は、ステップ７１０で受け取った差分情報を用いて、フィルタを生成することを含むことができる。フィルタは、複数の成分信号入力をサポートするように構成でき、マルチチャンネルまたは成分信号出力を有することができる。一例では、ステップ７２０は、受け取った音響信号に受動的に適用することができる多入力および多出力のフィルタを提供することを含む。フィルタを生成することは、チャンネルベースの音響信号の１以上の成分に適用するリパンニング行列フィルタを決定することを含むことができる。アンビソニック信号の場合、フィルタを生成することは、リパンニング行列および／または符号化行列に続く中間復号化行列を使用してフィルタを決定することを含むことができる。

ステップ７２０では、異なるフィルタを選択するために、座標系差分情報を含むかまたは使用することができる。すなわち、受け取った差分情報が第１の大きさを有するなど、第１の座標系と第２の座標系との間の変換を示す場合、ステップ７２０は、第１の大きさに基づいて、第１のフィルタを生成することを含むことができる。受け取った差分情報が、異なる第２の大きさを有する変換を示す場合、ステップ７２０は、第２の大きさに基づいて、異なる第２のフィルタを生成することを含むことができる。

ステップ７３０では、第３の方法７００は、ステップ７２０で生成されたフィルタを使用して、第２の空間音響信号を生成することを含むことができる。第２の空間音響信号は、第１の空間音響信号に基づくことができるが、ステップ７２０で生成されたフィルタなどによって、第２の座標系を有するように更新することができる。一例では、ステップ７３０で第２の空間音響信号を生成することは、図４の例からの信号形成モジュール４３４、能動的操作モジュール４３８、または逆ＦＦＴモジュール４４０のうちの１以上を使用することを含む。

図８では、処理回路４１０を使用するなど、異なる音響信号成分の合成または再合成に基づいて空間音響信号を生成することを含むことができる、第４の方法８００の一例を概略的に示している。第４の方法８００は、ステップ８１０で、第１の座標系を有する第１の空間的音響信号を受け取ることを含むことができる。一例では、第１の空間音響信号を受け取ることは、音響捕捉装置１２０を使用することを含むことができ、第１の空間音響信号は、例えば１以上の異なる信号成分に対する深さ、重さ、または他の情報を含むようなアンビソニック信号を含むことができる。一例では、第１の空間音響信号を受け取ることは、第１の空間音響信号に関連するメタデータ、または何らかの他のデータ信号、または第１の座標系の表示を受け取ることを含むことができる。一例では、第１の座標系に関する情報は、音響捕捉装置１２０の位置、音響捕捉装置１２０の方位もしくは視線方向（または他の基準方向）、または音響捕捉装置１２０の位置と環境内の基準位置もしくは原点との間の関係を含むことができる。

ステップ８２０では、第４の方法８００は、第１の空間音響信号を各々の成分に分解することを含むことができ、各々の成分の各々は、対応する位置または場所を有することができる。すなわち、第１の空間音響信号成分は、環境における各々の位置の設定を有することができる。一例では、第１の空間音響信号が一次Ｂフォーマット信号を含む場合、ステップ８２０は、信号を幾つかの音響オブジェクトまたはサブ信号に分解することを含むことができる。

ステップ８３０では、第４の方法８００は、処理回路４１０を使用するなどの空間変換処理を、第１の空間音響信号成分のうちの１以上の成分に適用することを含むことができる。一例では、空間変換処理を適用することは、音響環境における処理された成分の位置を変更または更新するために使用することができる。空間変換処理のパラメータは、例えば、音響信号成分の対象座標系に基づいて選択することができる。

ステップ８３０では、第１の空間音響信号成分の複数の異なるものの各々に、異なるフィルタまたは信号処理を選択または適用することを含むことができる。すなわち、異なる伝達関数を有するフィルタまたは音響調整を使用して、聴取者のために再結合および再生する際に、音響信号成分が第１の座標系とは異なる座標系を有する干渉性音響プログラムを提供するように、各々の音響信号成分に異なる処理をすることができる。

ステップ８４０では、第４の方法８００は、空間変換した成分を再合成して、第２の空間音響信号を生成することを含むことができる。第２の空間音響信号は、第１の空間音響信号に基づくことができるが、対象座標系を有することができる。したがって、聴取者のために再生する際に、聴取者は第１の空間音響信号からのプログラム情報を、第１の空間音響信号とは異なる位置または座標系を有するものとして知覚することができる。

本明細書に開示される実施形態に関連して説明される様々な例示的な論理ブロック、モジュール、方法、およびアルゴリズムのプロセスおよびシーケンスは、電子ハードウェア、コンピュータソフトウェア、または両方の組み合わせとして実装することができる。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、およびプロセスアクションをその機能性の観点から概略的に上述してきた。このような機能がハードウェアとして実装されるかソフトウェアとして実装されるかは、システム全体に課される特定の用途と設計上の制約に依存する。説明した機能は、特定の用途ごとに様々な方法で実装することができるが、そのような実装の決定は、本明細書の範囲から逸脱するものとして解釈されるべきではない。本明細書に記載された、音響および映像捕捉源などの非同期捕捉源を調整するためのシステムおよび方法、並びに他の技術の実施形態は、図９の議論において説明したような、多数の種類の汎用または特殊用途の計算システム環境または構成内で動作可能である。

本明細書に開示される実施形態に関連して説明された様々な例示的な論理ブロックおよびモジュールは、汎用プロセッサ、処理装置、１以上の処理装置を有する計算装置、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または他のプログラム可能な論理装置、離散ゲートまたはトランジスタ論理、個々のハードウェア要素、または本明細書で説明する機能を実行するように設計されたこれらの任意の組み合わせなどのマシンによって実装または実行することができる。汎用プロセッサおよび処理装置は、マイクロプロセッサであることができるが、代替としてプロセッサはコントローラ、マイクロコントローラ、または状態マシン、これらの組み合わせ、または同様のものであることができる。プロセッサは、ＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアと組み合わせた１以上のマイクロプロセッサ、または他のそのような構成などの計算装置の組み合わせとして実装することもできる。

さらに、本明細書に記載された仮想化および／またはスイートスポット適合の様々な例の一部または全部を具体化する、ソフトウェア、プログラムまたはコンピュータプログラム製品の１または任意の組み合わせまたはその一部を、コンピュータ実行可能命令または他のデータ構造の形態で、コンピュータ、またはマシン可読媒体、または記憶装置、および通信媒体の任意の望ましい組み合わせから、格納、受信、送信、または読み取ることができる。本主題は、構造的特徴および方法論的行為に固有の言語で記載されているが、添付の請求項に定義される主題は、必ずしも本明細書に記載された特定の特徴または行為に限定されないことを理解されたい。むしろ、上述した具体的な特徴や行為は、特許請求の範囲を実施するための例示的な形態として開示されているものである。

様々なシステムおよびマシンは、音響信号の座標系を調整するためのＨＲＴＦおよび／または他の音響信号処理を使用するなど、音響成分の配置決めまたは再配置決め、または方位の決定または推定を含むがこれらに限定されない、本明細書に記載された１以上の信号処理タスクを実行または実施するように構成することができる。開示された回路または処理タスクのいずれか１以上は、汎用機を使用して、または有形の非一時的なプロセッサ可読媒体から取得した命令を使用するなどして様々な処理タスクを実行する、専用マシンを使用して実装または実行することができる。

図９は、いくつかの例による、マシン可読媒体（例えば、マシン可読記憶媒体）から命令９１６を読み取ることができ、本明細書で論じる方法論のうちの任意の１以上を実行することができる、マシン９００の構成要素を示すブロック図である。具体的には図９は、コンピュータシステムの例示的形態でのマシン９００の概略図を示し、その中で、マシン９００に本明細書で議論される方法論のうちの任意の１以上を実行させるための命令９１６（例えば、ソフトウェア、プログラム、アプリケーション、アプレット、アプリ、または他の実行可能なコード）を実行することができる。例えば、命令９１６は、図４～図８のモジュールまたは回路または構成要素のうちの１以上を実装することができ、例えば、本明細書で論じる音響信号処理を実行するように構成することができる。命令９１６は、一般的なプログラムされていないマシン９００を、説明された方法で、説明され図示された機能（例えば、音響処理回路のような）を実行するようにプログラムされた専用マシンに変換することができる。代替の実施形態では、マシン９００は、独立の装置として動作するか、または他のマシンに結合（例えば、ネットワーク化）することができる。ネットワーク化された配備では、マシン９００は、サーバクライアントネットワーク環境において、サーバマシンまたはクライアントマシンとして動作することができ、またはピアツーピア（または分散）ネットワーク環境において、ピアマシンとして動作することができる。

マシン９００は、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ（ＰＣ）、タブレットコンピュータ、ラップトップコンピュータ、ネットブック、セットトップボックス（ＳＴＢ）、パーソナルデジタルアシスタント（ＰＤＡ）、エンタテイメントメディアシステム、またはシステム構成要素、携帯電話、スマートフォン、モバイル機器、ウェアラブル機器（例えば、スマートウォッチ）、スマートホーム機器（例えば、スマート家電）、他のスマート機器、ウェブ機器、ネットワークルータ、ネットワークスイッチ、ネットワークブリッジ、ヘッドフォンドライバ、またはマシン９００が取るべき行動を指定する命令９１６を順次または他の方法で実行できる任意のマシンを備えることができるが、これらに限定されない。さらに、単一のマシン９００のみが図示されているが、用語「マシン」は、本明細書で論じられる方法論のいずれか１以上を実行するために、命令９１６を個別にまたは共同で実行するマシン９００の集合体を含むとも解釈されるべきである。

マシン９００は、バス９０２を介するなどして互いに通信するように構成することができ、音響処理回路、非一時的メモリ／記憶装置９３０、およびＩ／Ｏ構成要素９５０を含むような、処理装置９１０を含むかまたは使用することができる。例示的な実施形態では、処理装置９１０（例えば、中央処理装置（ＣＰＵ）、縮小命令セットコンピュータ（ＲＩＳＣ）プロセッサ、複合命令セットコンピュータ（ＣＩＳＣ）プロセッサ、グラフィック処理装置（ＧＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、ＡＳＩＣ、高周波集積回路（ＲＦＩＣ）、別のプロセッサ、またはそれらの任意の適切な組み合わせ）は、例えば、命令９１６を実行することができるプロセッサ９１２およびプロセッサ９１４などの回路を含むことができる。用語「プロセッサ」は、命令９１６を同時に実行することができる２以上の独立したプロセッサ９１２、９１４（「コア」と呼ばれることもある）を含むことができる、マルチコアプロセッサ９１２、９１４を含むことを意図している。図９では、複数の処理装置９１０を示しているが、マシン９００は、単一のコアを備えた単一のプロセッサ９１２、９１４、複数のコアを備えた単一のプロセッサ９１２、９１４（例えば、マルチコアプロセッサ９１２、９１４）、単一のコアを備えた複数のプロセッサ９１２、９１４、複数のコアを備えた複数のプロセッサ９１２、９１４、またはそれらの任意の組み合わせを含むことができ、プロセッサのいずれか１以上のプロセッサが音響信号情報、および／または映像信号情報、または他のデータを符号化するように構成された回路を含むことができる。

メモリ／記憶装置９３０は、主メモリ回路、または他のメモリ記憶回路などのメモリ９３２、および記憶部９３６を含むことができ、両方ともバス９０２を介してなど処理装置９１０にアクセス可能である。記憶部９３６およびメモリ９３２は、本明細書に記載される方法論または機能のうちの任意の１以上を具現化する命令９１６を格納する。命令９１６はまた、マシン９００によるその実行中に、メモリ９３２内、記憶部９３６内、処理装置９１０の少なくとも１つの内（例えば、プロセッサ９１２、９１４のキャッシュメモリ内）、またはそれらの任意の適切な組み合わせ内で、完全にまたは部分的に存在することができる。したがって、メモリ９３２、記憶部９３６、および処理装置９１０のメモリは、マシン可読媒体の例である。

本明細書で使用する場合、「マシン可読媒体」とは、命令９１６およびデータを一時的にまたは恒久的に格納することができる機器を意味し、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、バッファメモリ、フラッシュメモリ、光学媒体、磁気媒体、キャッシュメモリ、他のタイプの記憶部（例えば、消去可能プログラム可能読み取り専用メモリ（ＥＥＰＲＯＭ））および／またはそれらの任意の適切な組み合わせを含むことができるが、それだけに限定されない。用語「マシン可読媒体」は、命令９１６を格納することができる単一の媒体または複数の媒体（例えば、集中型または分散型データベース、または関連するキャッシュおよびサーバ）を含むと解釈されるべきである。

用語「マシン可読媒体」はまた、マシン（例えば、マシン９００）によって実行するための命令（例えば、命令９１６）を格納することができる任意の媒体、または複数の媒体の組み合わせを含むと解釈されるべきであり、命令９１６が、マシン９００の１以上の処理装置（例えば、処理装置９１０）によって実行されると、マシン９００に本明細書に記載の方法論のいずれか１以上を実行されるようなものであるべきである。したがって、「マシン可読媒体」は、単一の記憶装置または機器、ならびに複数の記憶装置または機器含む「クラウドベース」の記憶システムまたは記憶ネットワークを指す。用語「マシン可読媒体」は、信号自体を除外する。

Ｉ／Ｏ構成要素９５０は、入力を受け取る、出力を提供する、出力を生成する、情報を送信する、情報を交換する、測定値を捕捉する、などのための様々な構成要素を含むことができる。特定のマシン９００に含まれる特定のＩ／Ｏ構成要素９５０は、マシン９００の種類に依存する。例えば、携帯電話などの携帯用マシンは、タッチ入力装置、カメラ、または他のそのような入力機構を含む可能性が高いが、ヘッドレスサーバマシンは、そのようなタッチ入力装置を含まない可能性が高い。Ｉ／Ｏ構成要素９５０は、図９に示されていない他の多くの構成要素を含んでもよいことが理解されよう。Ｉ／Ｏ構成要素９５０は、単に以下の議論を単純化するために機能によってグループ化されており、グループ化は決して限定的なものではない。様々な例示的な実施形態では、Ｉ／Ｏ構成要素９５０は、出力構成要素９５２および入力構成要素９５４を含んでもよい。出力構成要素９５２は、視覚要素（例えば、プラズマディスプレイパネル（ＰＤＰ）、発光ダイオード（ＬＥＤ）ディスプレイ、液晶ディスプレイ（ＬＣＤ）、プロジェクタ、またはブラウン管（ＣＲＴ）などのディスプレイ）、聴覚要素（例えば、ラウドスピーカ）、触覚要素（例えば、振動モータ、抵抗機構）、および他の信号発生器などを含むことができる。入力構成要素９５４は、英数字入力要素（例えば、キーボード、英数字入力を受け取るように構成されたタッチスクリーン、光光学キーボード、または他の英数字入力要素）、ポイントベースの入力要素（例えば、マウス、タッチパッド、トラックボール、ジョイスティック、モーションセンサ、または他のポインティング機器）、触覚入力要素（例えば、物理ボタン、タッチまたはタッチジェスチャーの位置および／または力を提供するタッチスクリーン、または他の触覚入力要素）、音響入力要素（例えば、マイクロフォン）、映像入力要素、およびその類のものを含むことができる。

さらなる例示的な実施形態では、Ｉ／Ｏ構成要素９５０は、他の幅広い構成要素の中でも、生体認証構成要素９５６、動き構成要素９５８、環境構成要素９６０、または位置（例えば、場所および／または向き）構成要素９６２を含むことができる。例えば、生体認証構成要素９５６は、表出（例えば、手相、表情、声色、身ぶり、または目の動き）を検出し、生体信号（例えば、血圧、心拍数、体温、発汗、または脳波）を測定し、人を識別（例えば、音声識別、網膜識別、顔識別、指紋識別、または脳波に基づく識別）する要素など、聴取者固有または環境固有のフィルタを包含し、使用し、または選択に影響を与えることができる。動き構成要素９５８は、加速度センサ要素（例えば、加速度センサ）、重力センサ要素、回転センサ要素（例えば、ジャイロセンサ）などを含むことができ、そのような要素は、聴取者または捕捉装置の位置の変化を追跡するために使用でき、例えば、音響信号の座標系を更新または調整するために、処理装置は更に検討または使用することができる。環境構成要素９６０は、例えば、照度センサ要素（例えば、光度計）、温度センサ要素（例えば、周囲温度を検出する１以上の温度計）、湿度センサ要素、圧力センサ要素（例えば、気圧計）、音響センサ要素（例えば、１以上の周波数または周波数帯などに対する残響減衰時間を検出する１以上のマイクロフォン）、近接センサまたは室容積感知要素（例えば、近くの物体を検出する赤外線センサ）、ガスセンサ（例えば、安全のために危険なガス濃度を検出するための、または大気中の汚染物質を測定するための、ガス検出センサ）、または周囲の物理環境に対応する表示、測定、または信号を提供することができる他の要素を含むことができる。位置構成要素９６２は、位置センサ要素（例えば、全地球位置把握システム（ＧＰＳ）受信機要素）、高さセンサ要素（例えば、高度が導出され得る気圧を検出する高度計または気圧計）、方位センサ要素（例えば、磁気計）、およびその類のものを含むことができる。

通信は、多種多様な技術を使用して実装することができる。Ｉ／Ｏ構成要素９５０は、各々結合部９８２および結合部９７２を介して、マシン９００をネットワーク９８０または装置９７０に結合するように動作可能な通信構成要素９６４を含むことができる。例えば、通信構成要素９６４は、ネットワーク９８０とインターフェースするためのネットワークインターフェース要素、または他の適切な装置を含むことができる。さらなる例では、通信構成要素９６４は、有線通信要素、無線通信要素、移動体通信要素、近距離無線通信（ＮＦＣ）要素、Ｂｌｕｅｔｏｏｔｈ要素（例えば、ＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙ）、Ｗｉ－Ｆｉ要素、および他の通信構成要素を含むことができ、他の様式を介した通信を提供することができる。装置９７０は、他のマシンまたは多種多様な周辺装置（例えば、ＵＳＢを介して結合された周辺装置）のいずれであることができる。

さらに、通信構成要素９６４は識別子を検出することができ、または識別子を検出するために動作可能な要素を含むことができる。例えば、通信構成要素９６４は、無線周波数識別（ＲＦＩＤ）タグリーダー要素、ＮＦＣスマートタグ検出要素、光学読み取り要素（例えば、ユニバーサル製品コード（ＵＰＣ）バーコードなどの一次元バーコード、クイックレスポンス（ＱＲ）コード、アズテックコード、データマトリクス、データグリフ、マキシコード、ＰＤＦ４９、ウルトラコード、ＵＣＣＲＳＳ－２Ｄバーコードなどの多次元バーコード、および他の光学コード）、または音響検出要素（例えば、タグ付き音響信号を識別するためのマイクロフォン）などを含むことができる。さらに、インターネットプロトコル（ＩＰ）地理位置情報による位置、Ｗｉ－Ｆｉ信号の三角測量による位置、特定の位置または方向を示すことができるＮＦＣビーコン信号の検出による位置など、通信構成要素９６４を介して様々な情報を導出することができる。このような識別子は、基準または局所的なインパルス応答、基準または局所的な環境特性、基準または装置の位置または方位、または聴取者固有の特性のうちの１以上に関する情報を決定するために使用することができる。

様々な例示的な実施形態では、符号化された基準データまたは符号化される基準データを伝送するために使用することができるようなネットワーク９８０の１以上の部分は、アドホックネットワーク、イントラネット、エクストラネット、仮想プライベートネットワーク（ＶＰＮ）、構内ネットワーク（ＬＡＮ）、無線ＬＡＮ（ＷＬＡＮ）、広域ネットワーク（ＷＡＮ）、無線ＷＡＮ（ＷＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、インターネット、インターネットの一部、公衆交換電話網（ＰＳＴＮ）の一部、ポッツ（ＰＯＴＳ）ネットワーク、携帯電話ネットワーク、無線ネットワーク、Ｗｉ－Ｆｉネットワーク、他の種類のネットワーク、または２以上のこのようなネットワークの組み合わせであることができる。例えば、ネットワーク９８０またはネットワーク９８０の一部は、無線または移動体ネットワークを含むことができ、結合部９８２は、符号分割多元接続（ＣＤＭＡ）、移動体通信用グローバルシステム（ＧＳＭ）接続、または別の種類のセルラー接続または無線接続であることができるこの例では、結合部９８２は、シングルキャリア無線伝送技術（１ｘＲＴＴ）、エボリューションデータ最適化（ＥＶＤＯ）技術、一般パケット無線サービス（ＧＰＲＳ）技術、ＧＳＭ革新のための拡張データレート（ＥＤＧＥ）技術、３Ｇを含む第３世代標準化プロジェクト（３ＧＰＰ）、第４世代無線（４Ｇ）ネットワーク、ユニバーサル移動通信システム（ＵＭＴＳ）、高速パケット通信（ＨＳＰＡ）、ワイマックス（ＷｉＭＡＸ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）規格、様々な標準化団体によって定義された他の規格、他の長距離プロトコル、または他のデータ転送技術などのいずれかを実装することができる。

命令９１６は、ネットワークインターフェース装置（例えば、通信構成要素９６４に含まれるネットワークインターフェース要素）を介した伝送媒体を使用して、および多数の周知の転送プロトコル（例えば、ハイパーテキスト転送プロトコル（ＨＴＴＰ））のうちの任意の１を使用して、ネットワーク９８０上で送信または受信することができる。

同様に命令９１６は、結合部９７２（例えば、ピアツーピア結合）を介して装置９７０へ、伝送媒体を使用して送信または受信することができる。用語「伝送媒体」は、マシン９００によって実行するための命令９１６を格納、符号化、または搬送することができる任意の無形媒体を含むものとし、このようなソフトウェアの通信を容易にするようなデジタルまたはアナログ通信信号または他の無形媒体を含む。

本発明の様々な実施例は、独立してまたは一緒に使用することができる。例えば、実施例１は、空間音響信号の座標系を更新するための方法を含むことができるような、または使用することができるような主題（装置、システム、機器、方法、行為を実行するための手段、または機器によって実行されると機器に行為を実行させることができる命令を含む機器可読媒体など）を含むことができ、または使用することができる。実施例１は、音響捕捉源から第１の空間音響信号を受け取り、音響捕捉源は環境に対する第１の座標系を有し、同じ環境に対する第２の座標系に関する情報を受け取り、第２の座標系は第２の捕捉源に対応し、第１の座標系と第２の座標系との間の差を決定し、第１の空間音響信号と、第１の座標系と第２の座標系との間の決定した差とを使用して、第２の座標系を参照する第２の空間音響信号を生成することを含むことができる。

実施例２は、映像捕捉センサの座標系に関する情報を受け取ることを含む、第２の座標系に関する情報を受け取ることを任意に含むように、実施例１の主題を含むか、または使用するか、または任意に組み合せることができる。

実施例３は、第２の音響捕捉センサの座標系に関する情報を受け取ることを含む、第２の座標系に関する情報を受け取ることを任意に含むように、実施例１または２のうちの１または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。

実施例４は、少なくとも視野角を含む第２の座標系の幾何学的記述を受け取ることを含む、第２の座標系に関する情報を受け取ることを任意に含むように、実施例１から３のうちの１または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。

実施例５は、音響捕捉源と第２の捕捉源との間の変換を決定することを含む、第１の座標系と第２の座標系との間の差を決定することを任意に含むように、実施例１から４のうちの１または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。

実施例６は、音響捕捉源の基準方向と第２の捕捉源の基準方向との間の方向差を決定することを含む、第１の座標系と第２の座標系との間の差を決定することを任意に含むように、実施例１から５のうちの１または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。

実施例７は、第１の座標系と第２の座標系との間の決定した差に基づいて第１のフィルタを生成することを任意に含むように、実施例１から６のうちの１または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。実施例７では、第２の空間音響信号を生成することは、第１の空間音響信号の少なくとも１つの成分に第１のフィルタを適用することを含むことができる。

実施例８は、第１の空間音響信号成分を空間解析し第１の位置の設定を提供することと、第１の位置の設定に空間変換を適用しそれによって第２の座標系に対する第２の位置の設定を生成することと、第２の位置の設定を使用して第１の空間音響信号成分を再合成することにより、第２の座標系を参照して第２の空間音響信号を生成することとを含む、能動的空間処理を任意に含むように、実施例１から７のうちの１または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。

実施例９は、第１の空間音響信号成分を分離することと、第１の空間音響信号成分に対して各々のフィルタを決定することとを任意に含むように、実施例１から７のうちの１または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができ、フィルタは、第１の座標系と第２の座標系との間の決定した差に基づいて、成分の各々の基準位置を更新するように構成することができる。実施例９の例では、第２の空間音響信号を生成することは、第１の空間音響信号の各々の成分にフィルタを適用することを含むことができる

実施例１０は、第１のアンビソニック信号として第１の空間音響信号を受け取ることを任意に含むように、実施例１から９のうちの１または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。

実施例１１は、第１のアンビソニック信号と、第１の座標系と第２の座標系との間の決定した差とに基づいて第２のアンビソニック信号を生成することを含み、第２の空間音響信号を生成することを任意に含むように、実施例１０の主題を含むか、または使用するか、または任意に組み合わせることができる。

実施例１２は、アンビソニック信号、マトリクス信号、およびマルチチャンネル信号のうちの少なくとも１を生成することを含む第２の空間音響信号を生成することを任意に含むように、実施例１から１１のうちの１つまたは任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。

実施例１３は、マイクロフォンアレイを使用して第１の空間音響信号を受け取ることを任意で含むように、実施例１から１２のうちの１または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。

実施例１４は、音響捕捉源および第２の捕捉源を、固定された空間的関係に保持するように構成されたリグに関する寸法情報を受け取ることを任意に含むように、実施例１から１３のうちの１または任意の組み合わせの主題を含むか、または使用することができ、または任意に組み合わせることができ、第１の座標系と第２の座標系との間の差を決定することは、リグに関する寸法情報を使用することを含む。

実施例１５は、スピーカに対する聴取者の位置に基づいて１以上の入力音響信号を調整するためのシステムを含むか、または使用することができるような、実施例１から１４のうちの１または任意の組み合わせの主題（装置、システム、機器、方法、行為を実行するための手段、または機器によって実行されたときに機器に行為を行わせることができる命令を含む機器可読媒体など）を含むか、または使用することができる。一例では、実施例１４は、空間音響信号の座標系を更新するために音響情報を処理するためのシステムを含む。実施例１５のシステムは、音響捕捉源から第１の空間音響信号を受け取り、音響捕捉源は環境に対する第１の座標系を有し、同じ環境に対する第２の座標系に関する情報を受け取り、第２の座標系は第２の捕捉源に対応し、第１の座標系と第２の座標系の間の差を決定し、第１の空間音響信号と、第１の座標系と第２の座標系との間の決定した差を使用して、第２の座標系を参照して第２の空間音響信号を生成するよう構成された、空間音響信号処理回路を含むことができる。

実施例１６は、音響捕捉源および第２の捕捉源を任意に含み、第２の捕捉源は映像捕捉源から構成されるように、実施例１５の主題を含むか、または使用するか、または任意に組み合わせることができる。

実施例１７は、音響捕捉源および映像捕捉源を固定された空間的または幾何学的関係に保持するように構成されたリグを任意に含むように、実施例１６の主題を含むか、または使用するか、または任意に組み合わせることができる。

実施例１８は、第１または第２の捕捉源の更新された位置に関する情報を感知するように構成された源追跡装置を任意に含むように、実施例１５から１７の１つまたは任意の組み合わせの主題を含むか、または使用することができ、空間音響信号処理回路は、第１または第２の捕捉源の更新された位置を示す源追跡装置からの情報に応答して、第１の座標系と第２の座標系との間の差を決定するように構成することができる。

実施例１９は、音響捕捉源と第２の捕捉源との間の並進距離に基づいて、第１の座標系と第２の座標系との間の差を決定するように構成された空間音響信号処理回路を任意に含むように、実施例１５から１８の１または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合せることができる。

実施例２０は、音響捕捉源の基準方向と第２の捕捉源の基準方向との間の方位差に基づいて、第１の座標系と第２の座標系との間の差を決定するように構成された空間音響信号処理回路を任意に含むように、実施例１５から１９の１または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。

実施例２１は、第１の空間音響信号フォーマットで第１の空間音響信号を受け取り、異なる第２の空間音響信号フォーマットで第２の空間音響信号を生成するように構成された空間音響信号処理回路を任意に含むように、実施例１５から２０の１または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。

実施例２２は、実施例１から２１の１以上を単独でまたは様々な組み合わせで含むことができるような、スピーカに対する聴取者の位置に基づいて、１以上の入力音響信号を調整するためのシステムを含むかまたは使用することができるような主題（装置、システム、機器、方法、行為を行うための手段、または機器によって実行されたときに機器に行為を行わせることができる命令を含む機器可読媒体など）を含むか、または使用することができる。一例では、実施例２２は、音響捕捉源装置に関連する音響捕捉位置に対する異なる深さまたは方向からの音響情報を表す複数の信号成分を含む、第１の空間音響信号の座標系を変更する方法を含む。一例では、実施例２２は、環境に対する第１の基準原点および第１の基準方位を有する音響捕捉源装置から、第１の空間音響信号の少なくとも１つの成分を受け取ることと、同じ環境に対する第２の基準原点および第２の基準方位を有する映像捕捉源に対応する、同じ環境に対する第２の座標系に関する情報を受け取ることと、第１の座標系と第２の座標系との間の差を決定することと、第１の基準原点と第２の基準原点と間の並進差と、および第１の基準方位と第２の基準方位との間の回転差とを少なくとも含むことと、を含むことができる。一例では、実施例２２は、第１の座標系と第２の座標系との間の決定した差を使用することと、第１の空間音響信号の少なくとも１つの成分に基づき、第２の座標系に参照される第２の空間音響信号の少なくとも１つの成分を生成するために使用する第１のフィルタを決定することと、を含むことができる。

実施例２３は、第１の空間音響信号の少なくとも１つの成分を第１のＢフォーマットアンビソニック信号成分として受け取ることを任意に含むように、実施例２２の主題を含み、または使用し、または任意に組み合わせることができる。実施例２３では、第２の空間音響信号の少なくとも１つの成分を生成することは、異なる第２のＢフォーマットアンビソニック信号成分を生成することを含むことができる。

実施例２４は、第１の空間音響フォーマットで第１の成分を受け取ることを含み、第１の空間音響信号の少なくとも１つの成分を受け取ることを任意に含むように、実施例２２または２３の１または任意の組み合わせの主題を含み、または使用し、または任意に組み合わせることができる。実施例２４では、第２の空間音響信号の少なくとも１つの成分を生成することは、異なる第２の空間音響フォーマットで少なくとも１つの成分を生成することを含むことができる。

実施例２５は、第１および／または第２の基準原点または基準方位が変更されたかどうかを決定することと、それに応じて、第２の空間音響信号の少なくとも１つの成分を生成するために使用する異なる第２のフィルタを選択することとを任意で含むように、実施例２２から２４の１または任意の組み合わせの主題を含み、または使用し、または任意に組み合わせることができる。

これらの非限定的な実施例の各々は、それ自体で成り立つことができ、または本明細書に提供される他の実施例または例の１以上と、様々な順列または組み合わせで組み合わせることができる。

本書では、用語「１の（ａ）」または「１の（ａｎ）」は、特許文献で一般的であるように、「少なくとも１つ」または「１つ以上」の他の実施例または用法とは独立して、１またはそれ以上を含むために使用される。本書では、用語「また（ｏｒ）」は、非排他的な、また（ｏｒ）、であることを示すのに使用され、すなわち、特に断らない限り、「ＡまたはＢ」が「ＢではなくＡ」、「ＡではなくＢ」、および「ＡおよびＢ」を含むものとする。本明細書では、「含む（ｉｎｃｌｕｄｉｎｇ）」および「そこで（ｉｎｗｈｉｃｈ）」は、各々の用語「含む（ｃｏｍｐｒｉｓｉｎｇ）」および「そこで（ｗｈｅｒｅｉｎ）」の一般的意味の等価物として使用される。

特に、「できる（ｃａｎ）」、「してもよい（ｍｉｇｈｔ）」、「できる、得る（ｍａｙ）」、「例えば（ｅ．ｇ．）」などの本明細書で使用される条件付き言語は、特に断らない限り、または使用される文脈内で理解される限り、一般に、特定の実施形態が特定の特徴、要素および／または状態を含み、他の実施形態が含まないことを伝えることを意図している。したがって、このような条件付き言語は、特徴、要素および／または状態が１以上の実施形態に何らかの形で必要であること、または１以上の実施形態が、これらの特徴、要素および／または状態が任意の特定の実施形態に含まれるかまたは実行されるべきかを、著者の入力または促しの有無にかかわらず決定するための論理を必ず含むことを意味することは一般的に意図していない。

上述した詳細な説明は、様々な実施形態に適用される新しい特徴を示し、説明し、および指摘しているが、図示した装置またはアルゴリズムの形態および詳細の様々な省略、置換、および変更は、本開示の精神から逸脱することなく行うことができることが理解されるであろう。理解されるように、本明細書で説明した本発明の特定の実施形態は、一部の特徴を他の特徴とは別に使用または実施できる場合に、本明細書に示した特徴および利点の全てを提供しない形式で実施することができる。

さらに、主題は、構造的特徴または方法もしくは行為に固有の言語で説明されてきたが、添付の特許請求の範囲で定義される主題は、必ずしも上述した特定の特徴または行為に限定されないことが理解される。むしろ、上述した特定の特徴および行為は、特許請求の範囲を実施するための例示的な形態として開示されている。

１００第１の環境
１０１軸
１０３矢印
１１０視聴覚源
１２０音響捕捉装置
１３０映像捕捉装置

Claims

空間音響信号の座標系を更新する方法であって、
音響捕捉源から第１の空間音響信号を受け取るステップであって、前記音響捕捉源は環境に対する第１の座標系を有する、ステップと、
同じ前記環境に対する第２の座標系に関する情報を受け取るステップであって、前記第２の座標系は映像捕捉センサに対応する、ステップと、
前記第１の座標系と前記第２の座標系との間の差を決定するステップと、
前記第１の空間音響信号と、前記第１の座標系と前記第２の座標系との間の前記決定した差とを用いて、前記第２の座標系を参照して第２の空間音響信号を生成するステップと、
を含む方法。
前記第１の座標系と前記第２の座標系との間の前記差を決定するステップは、前記音響捕捉源と前記映像捕捉センサとの間の変換を決定するステップを含む、請求項１に記載の方法。
前記第１の座標系と前記第２の座標系との間の前記差を決定するステップは、前記音響捕捉源の基準方向と前記映像捕捉センサの基準方向との間の方位差を決定するステップを含む、請求項１に記載の方法。
前記第１の空間音響信号成分を空間解析して、第１の位置の設定を提供するステップと、
前記第１の位置の設定に空間変換を適用して、それによって前記第２の座標系に対する第２の位置の設定を生成するステップと、
前記第２の位置の設定を用いて前記第１の空間音響信号成分を再合成することにより、前記第２の座標系を参照して前記第２の空間音響信号を生成するステップと、
を含む、能動的空間処理を更に含む、請求項１に記載の方法。
前記第１の空間音響信号成分に対して各々のフィルタを決定するステップを更に含み、前記フィルタは、前記第１の座標系と前記第２の座標系との間の前記決定した差に基づいて、前記成分の各々の基準位置を更新するように構成され、前記第２の空間音響信号を生成するステップは、前記第１の空間音響信号の各々の成分に対して前記フィルタを適用するステップを含む、請求項１に記載の方法。
前記第１の空間音響信号を受け取るステップは、第１のアンビソニック信号を受け取るステップを含み、前記第２の空間音響信号を生成するステップは、前記第１のアンビソニック信号と、前記第１の座標系と前記第２の座標系との間の前記決定した差とに基づいて、第２のアンビソニック信号を生成するステップを含む、請求項１記載の方法。
前記第２の空間音響信号を生成するステップは、アンビソニック信号、マトリクス信号、およびマルチチャンネル信号のうちの少なくとも１つを生成するステップを含む、請求項１に記載の方法。
音響捕捉源から前記第１の空間音響信号を受け取るステップは、マイクロフォンアレイを用いて前記第１の空間音響信号を受け取るステップを含む、請求項１に記載の方法。
前記音響捕捉源と前記映像捕捉センサとを固定された空間的関係で保持するように構成されたリグに関する寸法情報を受け取ることを更に含み、前記第１の座標系と前記第２の座標系との間の前記差を決定することは、前記リグに関する前記寸法情報を用いることを含む、請求項１に記載の方法。
空間音響信号の座標系を更新するために音響情報を処理するためのシステムであって、
空間音響信号処理回路を備え、当該処理回路は、
環境に対する第１の座標系を有する音響捕捉源から第１の空間音響信号を受け取り、
同じ前記環境に対する、第２の捕捉源に対応する第２の座標系に関する情報を受け取り、
前記第１の座標系と前記第２の座標系との間の差を決定し、
前記第１の空間音響信号と、前記第１の座標系と前記第２の座標系との間の前記決定した差とを用いて、前記第２の座標系を参照して第２の空間音響信号を生成する、
ように構成される、
ことを特徴とするシステム。
前記音響捕捉源と前記第２の捕捉源を更に備え、前記第２の捕捉源は映像捕捉源を備える、請求項１０に記載のシステム。
前記音響捕捉源と前記映像捕捉源を固定された幾何学的関係で保持するように構成されたリグを更に備える、請求項１１に記載のシステム。
前記第１または第２の捕捉源の更新された位置に関する情報を感知するように構成された源追跡装置を更に備え、前記空間音響信号処理回路は、前記第１または第２の捕捉源の更新された位置を示す前記源追跡装置からの情報に応じて、前記第１の座標系と前記第２の座標系との間の前記差を決定するように構成される、請求項１０に記載のシステム。
前記空間音響信号処理回路は、前記音響捕捉源と前記第２の捕捉源との間の並進距離に基づいて、前記第１の座標系と前記第２の座標系との間の前記差を決定するように構成される、請求項１０に記載のシステム。
前記空間音響信号処理回路は、前記音響捕捉源の基準方向と前記第２の捕捉源の基準方向との間の方位差に基づいて、前記第１の座標系と前記第２の座標系との間の前記差を決定するように構成される、請求項１０に記載のシステム。
前記空間音響信号処理回路は、第１の空間音響信号フォーマットで前記第１の空間音響信号を受け取り、異なる第２の空間音響信号フォーマットで前記第２の空間音響信号を生成するよう構成される、請求項１０に記載のシステム。
音響捕捉源装置に関連する音響捕捉位置に対して、異なる深さまたは方向からの音響情報を表す複数の信号成分を含む、第１の空間音響信号の座標系を変更する方法であって、
前記音響捕捉源装置からの前記第１の空間音響信号の少なくとも１つの成分を受け取るステップであって、前記音響捕捉源装置は環境に対する第１の基準原点および第１の基準方位を有する、ステップと、
同じ前記環境に対する第２の座標系に関する情報を受け取るステップであって、前記第２の座標系は映像捕捉源に対応し、前記映像捕捉源は同じ前記環境に対する第２の基準原点および第２の基準方位を有する、ステップと、
前記第１の座標系と前記第２の基準原点との間の並進差と、前記第１の座標系と前記第２の基準方位との間の回転差とを少なくとも含む、前記第１の座標系と前記第２の座標系との間の差を決定するステップと、
前記第１の座標系と前記第２の座標系との間の前記決定した差を用いて、前記第１の空間音響信号の少なくとも１つの成分に基づき、および前記第２の座標系に参照され、第２の空間音響信号の少なくとも１つの成分を生成するために使用する第１のフィルタを決定するステップと、
を含む方法。
前記第１の空間音響信号の少なくとも１つの成分を受け取るステップは、第１のＢフォーマットのアンビソニック信号成分を受け取るステップを含み、前記第２の空間音響信号の少なくとも１つの成分を生成するステップは、異なる第２のＢフォーマットのアンビソニック信号成分を生成するステップを含む、請求項１７に記載の方法。
前記第１の空間音響信号の少なくとも１つの成分を受け取るステップは、第１の空間音響フォーマットで前記第１の成分を受け取るステップを含み、前記第２の空間音響信号の少なくとも１つの成分を生成するステップは、異なる第２の空間音響フォーマットで前記少なくとも１つの成分を生成するステップを含む、請求項１７に記載の方法。
前記第１および／または第２の基準原点または基準方位が変化したかどうかを決定するステップと、それに応じて、前記第２の空間音響信号の少なくとも１つの成分を生成するために用いる異なる第２のフィルタを選択するステップと、
を更に含む、請求項１７に記載の方法。