JP2022547253A - 不一致視聴覚捕捉システム - Google Patents

不一致視聴覚捕捉システム Download PDF

Info

Publication number
JP2022547253A
JP2022547253A JP2022501040A JP2022501040A JP2022547253A JP 2022547253 A JP2022547253 A JP 2022547253A JP 2022501040 A JP2022501040 A JP 2022501040A JP 2022501040 A JP2022501040 A JP 2022501040A JP 2022547253 A JP2022547253 A JP 2022547253A
Authority
JP
Japan
Prior art keywords
coordinate system
spatial
signal
acoustic
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022501040A
Other languages
English (en)
Inventor
エドワード シュタイン
マーティン ウォルシュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DTS Inc
Original Assignee
DTS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DTS Inc filed Critical DTS Inc
Publication of JP2022547253A publication Critical patent/JP2022547253A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本明細書で論じるシステムおよび方法は、第1の空間音響信号の座標系を変更することができる。第1の空間音響信号は、環境に対する第1の座標系を有する音響捕捉源装置に関連付けられた音響捕捉位置に対する、異なる深さまたは方向からの音響情報を表す信号成分を含むことができる。座標系を変更することは、第1の空間音響信号成分を受け取ることと、同じ環境に対する第2の座標系に関する情報を受け取ることと、第1のおよび第2の座標系との間の差を決定することと、第1の座標系と第2の座標系との間の決定した差を用いて、第1の空間音響信号に基づき、第2の座標系を参照する第2の空間音響信号の少なくとも1つの成分を生成するのに使用すべき第1のフィルタを決定することと、を含むことができる。【選択図】 図1

Description

各々マイクロフォンとカメラを含むか、または使用することができるような音響および映像捕捉システムは、環境に併設することができ、音楽演奏などの視聴覚イベントを捕捉するように構成される。捕捉した視聴覚情報を記録し、伝送し、オンデマンドで再生できる。一例では、視聴覚情報は、空間音響フォーマットおよび多次元映像または画像フォーマットを使用するなどの没入型フォーマットで捕捉することができる。
一例では、音響捕捉システムは、環境から音響情報を受け取るために、1以上のトランスデューサを含むマイクロフォン、マイクロフォンアレイ、または他のセンサを含むことができる。音響捕捉システムは、3次元または360度音場を捕捉するように構成された、アンビソニックマイクロフォンなどの空間音響マイクロフォンを含むか、または使用することができる。
一例では、映像捕捉システムは、一眼カメラまたは多眼カメラシステムを含むことができる。一例では、映像捕捉システムは、没入型映像または球体映像と呼ばれることもある360度映像情報を受け取るように構成することができる。360度映像では、複数の方向からの画像情報を受け取り、同時に記録することができる。再生時には、視聴者やシステムは、視聴方向を選択・制御したり、映像情報を球体スクリーンや他のディスプレイシステムに表示したりすることができる。
録音した3次元音響キューを符号化するために、様々な音響記録フォーマットが利用できる。3次元音響フォーマットは、アンビソニックスや、昇降式スピーカチャンネルから構成されるディスクリート方式のマルチチャンネル音響フォーマットを含む。一例では、ダウンミックスは、マルチチャンネルのデジタル音響信号のサウンドトラック成分に含むことができる。ダウンミックスは後方互換性があり、レガシー・デコーダにより復号し、既存のまたは従来の再生装置で再生できる。ダウンミックスは、レガシー・デコーダで無視することができるが、非レガシー・デコーダで使用することができる、1以上の音響チャンネルを有する拡張データストリームを含むことができる。例えば、非レガシー・デコーダは、追加の音響チャンネルを復元し、後方互換のあるダウンミックスにおける寄与を差し引き、目標の空間音響フォーマットを生成することができる。
一例では、サウンドトラックが意図する対象空間音響フォーマットは、符号化または生成段階で指定することができる。この方式により、レガシー・サラウンドサウンド・デコーダと互換性のあるデータストリーム形式で、マルチチャンネルの音響サウンドトラックを符号化し、符号化または生成段階で選択した1以上の代替の対象空間音響フォーマットを使用することができる。これらの代替の対象フォーマットには、3次元音響キューの改善された再生に適したフォーマットを含むことができる。しかし、この方式の1つの制限は、同じサウンドトラックを他の対象空間音響フォーマットに符号化するには、新しいフォーマットに混合された新しいバージョンのサウンドトラックを記録し、および符号化するために生成施設に戻る必要がある場合がある。
オブジェクトベースの音響シーン符号化は、対象空間音響フォーマットに依存しないサウンドトラック符号化のための一般的な解決策を提供する。オブジェクトベースの音響シーン符号化システムの例として、MPEG-4 Advanced Audio Binary Format for Scenes(AABIFS)がある。この方式では、各源信号は、レンダーキューのデータストリームとともに個別に伝送する。このデータストリームは、空間音響シーンレンダリングシステムのパラメータの時間変化する値を伝送する。このパラメータ設定は、フォーマットに依存しない音響シーン記述の形式で提供することができるため、このフォーマットに従ってレンダリングシステムを設計することによって、サウンドトラックを任意の対象空間音響フォーマットでレンダリングすることができる。各源信号は、関連するレンダーキューとの組み合わせで、「音響オブジェクト」を定義することができる。この方法により、レンダリング装置は正確な空間音響合成技術を実装し、再生側で選択された任意の対象空間音響フォーマットで、各音響オブジェクトをレンダリングすることができる。オブジェクトベースの音響シーン符号化システムは、リミックスや楽曲の再解釈(例えば、カラオケ)、またはシーン内の仮想ナビゲーション(例えば、テレビゲーム)などの、復号化段階でのレンダリングされた音響シーンの双方向修正も可能にする。
一例では、空間的に符号化されたサウンドトラックは、2つの相補的な方法によって生成することができる。それは、(a)シーン内の聴取者またはカメラの仮想位置に配置できるような、一致したまたは密接に間隔をあけたマイクロフォンシステムで、既存の音響シーンを録音する、または、(b)仮想音響シーンを合成する。従来の3Dバイノーラル録音を使用する1つ目の方法では、「ダミーヘッド」マイクロフォンの使用により、「あなたがそこにいる」体験にできる限り近いものを作り出すことができる。この場合、通常は両耳の位置にマイクロフォンを設置したマネキンを使って、音響シーンを生で捕捉する。次に、録音した音響をヘッドフォンで耳を覆って再生するバイノーラル再生により、元の空間認識を再現することができる。従来のダミーヘッド録音の限界の1つは、生の出来事のみ、また、ダミーの視点と頭の向きからのみ捕捉できることである。
2つ目の方法では、デジタル信号処理(DSP)技術を使用して、ダミーヘッド(または外耳道にプローブマイクロフォンが挿入された人間の頭部)周囲の頭部伝達関数(HRTF)を選択してサンプリングし、それらの測定値を補間して別の場所で測定したであろうHRTFに近似させることによって、両耳聴を模倣することができる。一般的な手法としては、測定した同側および対側のHRTFを最小位相に変換し、HRTF対を導出するために、それらの間を線形補間する方法がある。HRTF対は、適切な両耳間時間差(ITD)を組み合わせることで、所望の合成位置のHRTFを表す。補間は一般に時間領域で行われ、時間領域フィルタの線形結合を含むことができる。補間は周波数領域解析(例えば、1以上の周波数サブバンドで行う解析)と、その後の周波数領域解析出力間の線形補間を含むことができる。時間領域解析は、より計算効率の高い結果を提供することができ、一方、周波数領域解析は、より正確な結果を提供することができる。いくつかの実施形態では、補間は、時間周波数解析などの時間領域解析と周波数領域解析の組み合わせを含むことができる。
本発明者らは、解決すべき課題として、映像または画像捕捉要素に一致または併設された音響捕捉要素を有する、視聴覚捕捉システムを提供することと認識している。例えば、本発明者らは、カメラを用いて同時に受け取る映像に、マイクから受け取る音響情報が一致するようにマイクロフォンを配置すると、カメラの視野に干渉することを認識している。その結果、マイクロフォンはしばしば、カメラに対して非理想位置へ変換される。この問題に対する解決策として、音響情報がカメラからの映像情報と一致するように、または、実質的に同じ視点や座標系を持つように視聴者へ聞こえるように、受け取った音響情報を補正または再配置する信号処理を含むか、または使用することができる。一例では、解決策は、空間音響信号を第1の座標系から、6自由度内または3次元空間内などの異なる第2の座標系へ変換することを含む。一例では、解決策は、能動的な符号化および復号化を含むか、または使用する。従って、解決策は、補正または生成段階において、後のフォーマットのアップグレード、他のコンテンツまたは効果の追加、または他の追加を可能にすることができる。一例では、解決策は、空間処理および聴取者の体験をさらに最適化するように、復号化段階において、信号成分を分離することをさらに含む。
一例では、本明細書で論じる視聴覚捕捉システムの問題を解決するためのシステムは、3次元カメラ、360度カメラ、または他の広視野カメラを含むことができる。システムは、空間音響マイクロフォンまたはマイクロフォンアレイのような音響捕捉装置またはマイクロフォンを含むことができる。システムは、音響捕捉装置から音響情報を受け取り、音響情報を処理し、仮想化、等化、または他の信号整形などの更なる処理のために、1以上の調整された信号を提供するためのデジタル信号処理回路またはDSP回路をさらに含むことができる。
一例では、システムは、マイクロフォンの位置およびカメラの位置を受け取り、または決定することができる。位置は、例えば、3次元空間におけるマイクロフォンおよびカメラの各々の座標を含むことができる。システムは、位置間の変換を決定することができる。すなわち、システムは、絶対距離または方向を含むような座標間の差を決定することができる。一例では、システムは変換を決定する際に、マイクロフォンおよびカメラの一方または両方の視野方向に関する情報を含むか、または使用することができる。DSP回路は、マイクロフォンから音響情報を受け取り、能動的復号化を使用して音響情報を各々の音場成分または音響オブジェクトに分解して、決定した座標間の差に従ってオブジェクトを回転または並進させ、そして、オブジェクトを音場、オブジェクト、または他の空間音響フォーマットへ再符号化することができる。
本発明の概要は、本特許出願の主題の概要を提供することを意図している。本発明の排他的または網羅的な説明を提供することを意図していない。詳細な説明は、本特許出願に関する更なる情報を提供するために含まれるものである。
図面では、必ずしも縮尺通りに描かれているわけではないが、同じような数字が、異なる視点から見た類似の構成要素を表す場合がある。異なる文字の接尾辞を有する同様の数字は、類似の構成要素の異なる例を表す場合がある。図面は、限定ではなく例として、本明細書で論じられる様々な実施形態を概略的に示す。
視聴覚源、音響捕捉装置、および映像捕捉装置を含むことができる第1の環境の一例を概略的に示す図である。 視聴覚源および捕捉装置が空間内の点または位置によって表された、図1の第1の環境の一例を概略的に示す図である。 一定の空間的関係で捕捉装置を保持するように構成することができるリグまたは固定具の一例を概略的に示す図である。 能動的操作、空間解析、および他の信号処理のためのシステムのブロック図の一例を概略的に示す図である。 空間音響信号に対して座標系を変更することを含むことができる方法の一例を概略的に示す図である。 第1と第2の座標系との間の差を決定することを含むことができる方法の一例を概略的に示す図である。 空間音響信号を生成することを含むことができる方法の一例を概略的に示す図である。 異なる音響信号成分の合成または再合成に基づいて、空間音響信号を生成することを含むことができる方法の一例を概略的に示す図である。 マシン可読媒体から命令を読み取り、本明細書で論じられる方法のいずれか1以上を実行するように構成されたマシンの構成要素を示すブロック図を概略的に示す図である。
[詳細な説明]
視聴覚プログラム情報を調整するためなどの、空間音響信号処理を実行するためのシステム、方法、装置、および機器の例を含む以下の説明では、詳細な説明の一部を構成する添付の図面を参照するものとする。図面は、本明細書に開示された発明を実施することができる特定の実施形態を、例示として示している。これらの実施形態は、本明細書において一般に「例」と称される。このような例は、示されまたは説明されたものに加えて要素を含むことができる。しかし、本発明者らは、示されまたは説明された要素のみが提供される例も想定している。本発明者らは、特定の例(またはその1以上の実施例)に関して、または本明細書に示されまたは説明される他の例(またはその1以上の実施例)に関して、示されまたは説明されるそれらの要素の任意の組み合わせまたは順列を使用する例を企図する。
本明細書において、「音響信号」という語は、物理的な音を代表する信号である。本明細書で説明する音響処理システムおよび方法は、様々なフィルタを使用して音響信号を使用しまたは処理するように構成されたハードウェア回路および/またはソフトウェアを含むことができる。いくつかの例では、システムおよび方法は、複数の音響チャンネルからの信号、または複数の音響チャンネルに対応する信号を使用することができる。ある一例では、音響信号は、複数の音響チャンネルに対応する情報を含むデジタル信号を含むことができる。本主題のいくつかの例では、デジタルバイトまたはワードの時系列の上で動作することができ、これらのバイトまたはワードは、アナログ信号または最終的に物理的な音の離散的な近似を形成する。離散的なデジタル信号は、周期的にサンプリングされた音響波形のデジタル表現に対応する。
図1は、視聴覚源110、音響捕捉装置120、および映像捕捉装置130を含むことができる第1の環境100の一例を概略的に示している。第1の環境100は、軸101によって示されるように、幅、奥行き、および高さを有するような三次元空間とすることができる。第1の環境100の各要素は、示されたように異なる場所に提供されることができる。すなわち、異なる物理的要素は、第1の環境100の異なる部分を占有することができる。音響捕捉装置120および/または映像捕捉装置130からの情報は、記録ハードウェアおよびソフトウェアを使用して、視聴覚プログラムとして同時に受け取り、記録することができる。
図1の例では、視聴覚源110は、ピアノおよびピアノ演奏者を含み、ピアノ演奏者は歌手とすることができる。音楽、振動、および他の可聴情報は、ピアノから実質的に全方向へ、第1の環境100に離れて発散することができる。同様に、発声または他の音は、歌手によって生成されることができ、第1の環境100に発散することができる。歌手およびピアノは、第1の環境100の全く同じ部分を占めないので、これらの各々の源から発するか、またはこれらの源によって生成される音響は、以下でさらに説明するように、異なる有効な源を有している。
音響捕捉装置120は、ピアノまたは歌手などの視聴覚源110によって生成された音響情報を受け取るように構成された、マイクロフォンまたはマイクロフォンアレイを含むことができる。一例では、音響捕捉装置120は、音場マイクロフォンまたはアンビソニックマイクロフォンを含み、音響情報を3次元音響信号フォーマットで捕捉するように構成される。
映像捕捉装置130は、1または複数のレンズまたは受像機を有することができるような、カメラを含むことができる。一例では、映像捕捉装置130は、360度カメラのような広視野カメラを含む。視聴覚プログラムの一部として映像捕捉装置130から受け取ったまたは記録された情報は、視聴者がヘッドトラッキングシステムまたは他のプログラムナビゲーションツールまたは装置を使用する場合など、視聴者が第1の環境100を「見回す」ことを可能にし得るような、没入型または対話型の体験を視聴者に提供するために使用することができる。映像捕捉装置130から記録された映像情報と同時に音響捕捉装置120から記録することができるような音響情報を、視聴者に提供することができる。音響信号処理技術を音響捕捉装置120から受け取った音響情報に適用して、視聴者がプログラムをナビゲートする際に、視聴者の位置または視線方向の変化に伴って、音響情報が確実に追従するようにすることができる。
一例では、視聴者は、視聴覚プログラムの音響成分と映像成分との間の非局在化または不一致を体験するかもしれない。そのような非局在化は、少なくとも部分的には、視聴覚プログラムが記録または符号化される時点における、音響捕捉装置120と映像捕捉装置130の位置の物理的な差に起因し得る。換言すれば、音響捕捉装置120のトランスデューサと映像捕捉装置130のレンズは、空間内の同じ物理的な点を占有することができないので、視聴者は、記録された音響と映像プログラム情報との間の不一致を知覚するかもしれない。いくつかの例では、音響捕捉装置120または映像捕捉装置130の配置または既定の「見る」方向がずれることがあり、視聴者にとっての非局在化の問題をさらに助長する。
本発明者らは、非局在化問題の解決策は、音響捕捉装置120から受け取った音響情報を処理して、映像捕捉装置130からの画像情報の原点と一致するように、音響情報を「変換」することを含むことができることを認識している。図1では、音響捕捉装置120の理論的な変換は、映像捕捉装置130の位置への音響捕捉装置120の変換を示すために、矢印103によって表されている。一例では、解決策は、音響捕捉装置120に関連付けられる第1の座標系に関する情報を受け取ることまたは決定することと、映像捕捉装置130に関連付けられる第2の座標系に関する情報を受け取ることまたは決定することとを含むことができる。解決策は、第1の座標系と第2の座標系との間の差を決定し、次に、決定した差に関する情報を音響捕捉装置120によって受け取った音響信号成分に適用することを含むことができる。決定した差に関する情報を適用することは、音響情報の知覚された原点を、記録されたときの原点とは異なる場所に変換またはシフトするように、フィルタリング、仮想化処理、またはその他の方法で、1または複数の音響信号または信号成分を形成することを含むことができる。例えば、処理は、音響情報の第1の座標系を、異なる原点または異なる方向を有するなど、異なる第2の座標系へシフトすることができる。
図2では、視聴覚源110、音響捕捉装置120および映像捕捉装置130が、各々第1の、第2の、および第3の点、110A、120Aおよび130Aによって表される、第1の環境100の例200を概略的に示している。この例では、各点は、第1の環境100における、その位置を定義する各々の座標を有する。例えば、ピアノと歌手の組み合わせを含むような視聴覚源110は、第1の位置(x1、y1、z1)を有する第1の点110Aにおいて音響源を有することができる。音響捕捉装置120は、第2の位置(x2、y2、z2)を有する第2の点120Aに聴覚源を有することができる。映像捕捉装置130は、第3の位置(x3、y3、z3)を有する第3の点130Aに視覚源を有することができる。様々な源および装置を3次元環境内の点および任意に方向または方位に変換することにより、源の位置の差を決定することができる。
一例では、図2において第2の点120Aによって表されるような音響捕捉源120は、第1の方位または第1の基準方向121を有することができる。音響捕捉源120は、第2の点120Aまたは第1の基準方向121におけるその位置(または原点)によって、少なくとも部分的に定義することができるような、第1の座標系を有することができる。映像捕捉源130は、第2の方位または第2の基準方向131を有することができる。映像捕捉源130は、第3の点130Aまたは第2の基準方向131におけるその位置(または原点)によって、少なくとも部分的に定義することができるような、第2の座標系を有することができる。第1のおよび第2の基準方向、121および131は、整列している必要はない、すなわち、それらは同一線上、平行、またはその他の関連性を有する必要はない。しかしながら、基準方向または望ましい受信方向が存在する場合、そのような情報は、以下でさらに論じられるように、下流処理により考慮することができる。図2の例では、第1および第2の基準方向、121および131は、概略的に第1の点110Aにまたはその方向に向けられているが、整列または平行でない。
図2の例では、第2および第3の点、120Aおよび130Aは、指定された第1の距離だけ離れて提供される。第2と第3の点、120Aと130Aとの間の変換は、2点間の最短経路に沿ったような絶対距離に関する情報を含むことができる。変換は、一方が他方から、または環境内のある基準点から、オフセットされる方向に関する情報を含むことができる。例えば、第2の点120Aから第3の点130Aへの変換t1は、例えば、d(120A、130A)=√[(x3-x22+(y3-y22+(z3-z22]のように、座標情報から代数的に求めることができる、2点間の距離に関する情報を含むことができる。変換t1は任意に、例えば、d(120A、130A)=45度など、度で提供できるような方向成分を含むことができる。他の座標系または測定系も同様に使用することができる。
一例では、第1の環境100は、源追跡装置210を含むことができる。源追跡装置210は、第1の環境100内の1または複数の物体の位置に関する情報を受け取りまたは感知するように構成された機器を含むことができる。例えば、源追跡装置210は、音響捕捉装置120または映像捕捉装置130の位置または配置を監視するように構成された、3Dビジョンまたは深さセンサを含むことができる。一例では、源追跡装置210は、座標系または座標系間の差を決定する際に使用するために、処理回路(例えば、図4の例の処理回路410を参照)に、較正または位置情報を提供することができる。一例では、源追跡装置210は、処理回路に割り込みまたは再較正信号を提供することができ、これに応じて処理回路は、1または複数の座標系を再較正、または複数の異なる座標系間の新しい差を決定することができる。図2では、源追跡装置210は、第1の環境100内の軸101の原点に配置されるように図示されているが、源追跡装置210は、第1の環境100内の他の場所に配置することができる。一例では、源追跡装置210は、音響捕捉源120または映像捕捉源130または他の機器の一部から構成される。
一例では、1以上の音響捕捉源120および映像捕捉源130は、自己較正するように、または例えば、指定された基準点に対する第1の環境100におけるその位置を決定または特定するように構成することができる。

一例では、源は、その位置(例えば、x、y、z座標で、動径座標で、またはいくつかの他の座標系で)を決定または報告することができるように、源追跡装置210と、または第1の環境100に配置されたビーコンなどの他の装置と、インターフェースするように構成された処理回路を含むことができ、またはそれに通信可能に結合することができる。
一例では、一方の源は、その座標または第1の環境における具体的な位置を特定することなく、他方に対するその位置を決定することができる。すなわち、音響捕捉源120および映像捕捉源130のうちの一方は、変換t1の大きさまたは方向を特定するために、他方と通信するように構成することができる。一例では、各源は、他方と通信し、決定した変換t1を認識し、それに同意するように構成される。
図3では、複数の捕捉装置を一定の空間的関係で保持するように構成することができるリグ301または固定具の一例を概略的に示している。図3の例では、リグ301は、音響捕捉装置120および映像捕捉装置130を保持するように構成される。リグ301は、複数の音響捕捉装置、複数の映像捕捉装置、またはセンサ若しくは受信機の他の組み合わせを保持するように同様に構成することができる。リグ301は、2つの装置を保持するように図示されているが、追加のまたはより少ない装置を保持することができる。
リグ301は、1以上の次元または方向など装置間の変換が少なくとも部分的に固定されるように、音響捕捉装置120および映像捕捉装置130を固定および保持するように構成することができる。図3の例では、リグ301は、音響捕捉装置120の原点が座標(x2、y2、z2)を有するように、音響捕捉装置120を保持する。リグ301は、映像捕捉装置130の原点が座標(x3、y3、z3)を有するように、映像捕捉装置130を保持する。この例では、x3=x2+d1、y3=y2+d2、z2=z3である。したがって、一方の装置の位置情報が分かれば、他方の装置の位置を算出することができる。リグ301は、例えばd1またはd2の値を、環境内にまたは捕捉もしくは記録する視聴覚源に対して、リグ301を配置するユーザまたは技術者によって選択できるように調整可能であることができる。
一例では、リグ301は、リグの原点または基準を有することができ、環境に対するリグの原点の位置に関する情報を、位置処理のために処理回路に提供することができる。リグの原点と、リグ301によって保持される1以上の装置との間の関係を決定することができる。すなわち、リグ301によって保持される1以上の装置の各々の位置は、リグの原点に対して幾何学的に決定することができる。
一例では、リグ301は、リグ基準方向311または方位を有することができる。リグ基準方向311は、リグ301またはリグ301に結合された1以上の装置の視線方向または基準方向とすることができる。リグ301に結合された装置は、リグ基準方向311と同じ基準方向を有するように配置することができ、または、リグ基準方向311と装置の基準方向または方位との間にオフセットを提供または決定することができる。
一例では、音響捕捉装置120または映像捕捉装置130の座標系は、手動で測定され、操作者によって座標系処理システムへ提供することができる。一例では、座標系処理システムは、所望の同期した視聴覚体験を達成するためにユーザが使用することができるような、1以上の座標系または位置または方向の特性またはパラメータを変更し、または調整するユーザからの命令を受けとるためのユーザ入力を含むことができる。
図4は、能動的操作、空間解析、および他の信号処理のためのシステムのブロック図400の一例を概略的に示している。一例では、ブロック図400に従って構成された回路は、1以上の形成された信号を各々の方向にレンダリングするために使用することができる。
一例では、ブロック図400に従って構成された回路は、音響捕捉装置120に関連付けることができるような第1の座標系を有する音響信号を受け取り、異なる第2の座標系で視聴者に対し再生できるように、音響信号を移動または変換させるために使用することができる。受け取った音響信号は、1以上の成分または音響オブジェクトを含む、音場または3D音響信号を含むことができる。第2の座標系は、映像捕捉装置130を使用して受け取った1以上の画像に関連付けられた、またはそれに対応する座標系であることができる。第1の座標系と第2の座標系は、固定することも、または動的であることもできる。音響信号の移動または変換は、第1の座標系と第2の座標系との間の関係に関して決定した(例えば、連続的または断続的に更新した)情報に基づくことができる。
一例では、第2の座標系への音響信号変換は、第1の音場音響信号を受け取り、音響信号成分についての位置および方向を決定するために、1以上の処理モジュールを備える処理回路410を使用することを含むことができる。音響信号成分の座標系座標は、受け取り、測定し、または他の方法で決定することができる。一例では、該情報は、複数の異なる座標系に関する情報、または、第1の座標系から第2の座標系への変換に関する情報を含むことができる。変換情報を使用して、1以上の音響オブジェクトを移動または再配置して、第2の座標系に対応する仮想源を提供することができる。変換後の1以上の音響オブジェクトは、ラウドスピーカまたはヘッドフォンを介して再生するために復号することができ、または新しい音場フォーマットに再符号化するためにプロセッサに提供することができる。
一例では、処理回路410は、座標系間で音響信号変換を実行するための様々なモジュール、または回路、またはソフトウェア実装された処理(汎用または専用回路を用いて実行できるようなものなど)を含むことができる。図4では、空間音響源401は、処理回路410に音響信号情報を提供する。一例では、空間音響源401は、音響信号情報に対応する音響座標系データを処理回路410に提供する。音響座標系データは特に、環境に対する相対的なものなど、音響情報の固定または変化する原点または基準点に関する情報を含むことができ、または音響情報の方向または基準方向に関する情報を含むことができる。一例では、空間音響源401は、音響捕捉装置120を含むか、またはそれを備えることができる。
一例では、処理回路410は、空間音響源401から音響信号情報を受け取り、受け取った信号を周波数領域に変換するように構成された、FFTモジュール428を含む。変換した信号は、空間処理、操作、またはパンニングを使用して処理し、受け取った音響信号情報の位置または座標系を変更することができる。
処理回路410は、座標系解析モジュール432を含むことができる。座標系解析モジュール432は、空間音響源401から、または空間音響源401からの音響に関する座標系情報を提供または決定するように構成された別の源から、音響座標系データを受け取るように構成することができる。座標系解析モジュール432は、映像源402から映像または画像の座標系データを受け取るように構成することができる。一例では、映像源402は、映像捕捉装置130を含むことができる。一例では、座標系解析モジュール432は、音響座標系と映像座標系との間の差を決定するように構成される。差を決定することは、とりわけ、空間音響源401または映像源402からの聴覚情報または視覚情報の各々の源の、基準点または原点間の距離または変換を決定することを含むことができる。一例では、座標系解析モジュール432は、環境内の空間音響源401および/または映像源402の位置(例えば、座標)を決定し、次に、それらの各々の座標系間の差または関係を決定するように構成することができる。一例では、座標系解析モジュール432は、環境内で源を保持または配置するために使用されるリグに関する情報を使用して、源または装置の位置を監視するように構成された位置または深さセンサからの情報を使用して、または他の手段を使用して、源の位置または座標を決定するように構成することができる。
一例では、処理回路410は、FFTモジュール428から周波数領域音響信号を受け取り、任意で、音響座標系データまたは音響信号と関連付けられた他のメタデータの少なくとも一部を受け取るように構成された、空間解析モジュール433を含む。空間解析モジュール433は、周波数領域信号を使用して、1以上の信号またはその信号成分の相対的な位置を決定するように構成することができる。例えば、空間解析モジュール433は、第1の音源が聴取者または基準映像位置の前方(例えば、方位角0度)に配置されているか、または配置されるべきであり、第2の音源が聴取者または基準映像位置の右側(例えば、方位角90度)に配置されているか、または配置されるべきである、と決定するように構成することができる。一例では、空間解析モジュール433は、仮想源が1以上の空間音響信号からの情報に基づき、空間音響信号の各々が基準位置に対するものなど、各々の異なる基準位置に対応する場合を含め、受け取った信号を処理し、基準映像位置に対する所定位置に配置し、またはレンダリングすることを目的とした仮想源を生成するように構成することができる。一例では、空間解析モジュール433は、源の位置または深さを決定し、座標系に基づく解析を使用して、映像源の座標系に対応するなど新しい位置に源を変換するように構成する。アンビソニック信号を含む音場信号の空間解析および処理は、「アンビソニック深さ抽出(Ambisonic Depth Extraction)」と題する米国特許出願番号16/212,387、および「6自由度追跡を用いた音響レンダリング(Audio rendering using 6-DOF tracking)」と題する米国特許番号9,973,874で詳細に論じられ、これらの各々は参照によりその全体が本明細書に組み込まれる。
一例では、空間音響源401からの音響信号情報は、空間音響信号を含み、サブミックスの一部を含む。信号形成モジュール434は、受け取った周波数領域信号を使用して、関連するメタデータを有する音響オブジェクトとして出力できる1以上の仮想源を生成するように構成することができる。一例では、信号形成モジュール434は、音場内の指定された位置または深さに様々な音響オブジェクトを特定または配置するために、空間解析モジュール433からの情報を使用することができる。
一例では、信号形成モジュール434からの信号は、音響信号または信号成分を成形または修正するために、仮想化処理、フィルタリング、または他の信号処理を含むかまたは使用できるような能動的操作モジュール438に提供することができる。操作モジュール438は、座標系解析モジュール432、空間解析モジュール433、または信号形成モジュール434などの1以上のモジュールから、データおよび/または音響信号入力を受け取ることができる。操作モジュール438は、信号処理を使用して、受け取った音響信号を回転またはパンニングすることができる。一例では、能動的操作モジュール438は、信号形成モジュール434から第1の源出力を受け取り、空間解析モジュール433の出力または座標系解析モジュール432の出力に基づいて、第1の源をパンニングすることができる。
一例では、操作モジュール438は、座標系解析モジュール432から回転または並進入力命令を受け取ることができる。このような例では、座標系解析モジュール432は、能動的操作モジュール438に既知のまたは固定の座標系調整(例えば、受け取った聴覚情報と視覚情報の間)を適用するためのデータまたは命令を提供することができる。
任意の回転または並進の変化に続いて、能動的操作モジュール438は、逆FFTモジュール440に信号を提供することができる。逆FFTモジュール440は、追加のメタデータの有無にかかわらず、1以上の出力音響信号チャンネルを生成することができる。一例では、逆FFTモジュール440からの音響出力は、音響再生システムまたは他の音響処理システムの入力として使用することができる。一例では、能動的操作モジュール438または逆FFTモジュール440の出力は、参照により本明細書に組み込まれる米国特許第10,231,073号「深さ復号化を用いたアンビソニック音響レンダリング(Ambisonic Audio Rendering with Depth Decoding)」で論じられるシステムまたは方法によって復号することができるような、深さ拡張アンビソニック信号を含むことができる。一例では、出力フォーマットにとらわれず、例えば、位置情報付きのモノステム、ベース/ベッドミックス、またはアンビソニックフォーマットを含むような他の音場表現を含む、様々なレイアウトまたはレンダリング方法への復号をサポートすることが望ましい場合がある。
図5では、処理回路410を使用するなどして、空間音響信号の座標系を変更することを含むことができる、第1の方法500の一例を概略的に示している。ステップ510において、第1の方法500は、第1の座標系を有する第1の空間音響信号を受け取ることを含むことができる。一例では、第1の空間音響信号を受け取ることは、音響捕捉装置120を使用することを含むことができ、第1の空間音響信号は、例えば、1以上の異なる信号成分に対する深さまたは重み情報を含むような、アンビソニック信号を含むことができる。一例では、第1の空間音響信号を受け取ることは、第1の空間音響信号に関連付けられるメタデータ、または何らかの他のデータ信号、または第1の座標系の表示を受け取ることを含むことができる。一例では、第1の座標系に関する情報は、音響捕捉装置120の位置または座標、音響捕捉装置120の方位または視線方向(または他の基準方向)、または音響捕捉装置120の位置と環境における基準位置または原点との間の関係を含むことができる。
ステップ520では、第1の方法500は、目標座標系などの第2の座標系に関する情報を受け取ることを含むことができる。一例では、第2の座標系は、音響捕捉装置120とは異なる位置を有することができ、または関連付けることができるが、一般に、音響捕捉装置120と同じ環境または近傍にあることができる。一例では、第2の座標系は、音響捕捉装置120と実質的に同じ環境に提供することができるような、映像捕捉装置130の位置に対応する。一例では、第2の座標系は、第1の座標系および音響捕捉装置12と同じ、または異なる方位または視線方向(または他の基準方向)を含むことができる。一例では、ステップ510および520など、第1の座標系と第2の座標系に関する情報を受け取ることにより、図4の例からの座標系解析モジュール432を使用することができる。
ステップ530では、第1の方法500は、第1の座標系と第2の座標系との間の差を決定することを含むことができる。一例では、図4からの座標系解析モジュール432は、第1の座標系と第2の座標系との間の、幾何学的距離および角度または他のオフセットまたは位置の差を含むような、変換を決定することができる。一例では、ステップ530では、第1の座標系と第2の座標系との各々の点または位置ベースの表現を使用し、図2の説明において上述したような点の位置間の差、または点間の距離を決定することを含む。一例では、ステップ530で差を決定することは、断続的に、周期的に、または第1の座標系と第2の座標系のうちの1以上が変化するときなど、複数の異なる時間で差を決定することを含む。
ステップ540では、第1の方法500は、第2の座標系を参照するか、または第2の座標系と実質的に同じ視点を有する第2の空間音響信号を生成することを含むことができる。すなわち、第2の空間音響信号は、第2の座標系を有することができる。第2の空間音響信号は、第1の空間音響信号の1以上の成分に基づくことができるが、成分が元々、または以前に受けとった、または記録した位置とは異なる位置に由来するものとして、成分を再生するように処理される成分を伴う。
いくつかの例では、ステップ540で第2の空間音響信号を生成することは、ステップ510で受け取った第1の空間音響信号とは異なるフォーマットを有する信号を生成することを含むことができ、いくつかの例では、第2の空間音響信号を生成することは、第1の空間音響信号と同じフォーマットを有する信号を生成することを含む。一例では、第2の空間音響信号は、第1の空間音響信号よりも高次の信号であるアンビソニック信号を含むか、または第2の空間音響信号は、マトリクス信号、またはマルチチャンネル信号を含む。
図6では、処理回路410を使用するなどして、第1の座標系と第2の座標系との間の差を決定することを含むことができる、第2の方法600の一例を概略的に示している。一例では、第1の座標系と第2の座標系は、環境内に位置する異なる捕捉源に関連付けられ、座標系間の差に関する情報は、座標系解析モジュール432を使用して決定することができる。
ステップ610では、第2の方法600は、音響捕捉源と映像捕捉源との間の変換を決定することを含むことができる。例えば、ステップ610では、環境内の音響捕捉源120と映像捕捉源130との間の自由空間における、絶対幾何学的距離または最短経路を決定することを含むことができる。一例では、距離を決定することは、捕捉源に関連付けられた直交座標を使用することと、座標間の最短経路を決定することとを含むことができる。動径座標も同様に使用することができる。一例では、ステップ610で変換を決定することは、源の一方から他方への方向を決定することを含むことができる。
ステップ620では、第2の方法600は、音響捕捉源120および映像捕捉源130の方向を決定することを含むことができる。ステップ620は、捕捉源の各々の基準方向または基準方位または視線方向に関する情報を受け取ることを含むことができる。一例では、方位情報は、各源から視聴覚対象への方向(例えば、図1の例では、捕捉源からピアノまたは視聴覚源110への方向)についての情報を含むことができる。一例では、ステップ620は、指定された基準方位に対する、各々の捕捉源に関する方位情報を受け取ることを含むことができる。
ステップ630では、第2の方法600は、異なる捕捉源に関連付けられる第1の座標系と第2の座標系との間の差を決定することを含むことができる。例えば、ステップ630は、ステップ610で決定した変換を使用することと、およびステップ620で決定する方位情報を使用することとを含むことができる。一例では、ステップ620で決定するように音響および映像捕捉源が異なる方位を有する場合、第1の座標系を回転させて第2の座標系の方位と一致させる量を決定するなどして、ステップ610で決定する変換を調整することができる。
図7では、空間音響信号を生成することを含むことができる、第3の方法700の一例を概略的に示している。ステップ710は、第1の座標系と第2の座標系に関する差分情報を受け取ることを含むことができる。一例では、差分情報は、例えば、図4の例からの座標系解析モジュール432から、または図6の例からのステップ630から提供されることができる。
ステップ720では、第3の方法700は、ステップ710で受け取った差分情報を用いて、フィルタを生成することを含むことができる。フィルタは、複数の成分信号入力をサポートするように構成でき、マルチチャンネルまたは成分信号出力を有することができる。一例では、ステップ720は、受け取った音響信号に受動的に適用することができる多入力および多出力のフィルタを提供することを含む。フィルタを生成することは、チャンネルベースの音響信号の1以上の成分に適用するリパンニング行列フィルタを決定することを含むことができる。アンビソニック信号の場合、フィルタを生成することは、リパンニング行列および/または符号化行列に続く中間復号化行列を使用してフィルタを決定することを含むことができる。
ステップ720では、異なるフィルタを選択するために、座標系差分情報を含むかまたは使用することができる。すなわち、受け取った差分情報が第1の大きさを有するなど、第1の座標系と第2の座標系との間の変換を示す場合、ステップ720は、第1の大きさに基づいて、第1のフィルタを生成することを含むことができる。受け取った差分情報が、異なる第2の大きさを有する変換を示す場合、ステップ720は、第2の大きさに基づいて、異なる第2のフィルタを生成することを含むことができる。
ステップ730では、第3の方法700は、ステップ720で生成されたフィルタを使用して、第2の空間音響信号を生成することを含むことができる。第2の空間音響信号は、第1の空間音響信号に基づくことができるが、ステップ720で生成されたフィルタなどによって、第2の座標系を有するように更新することができる。一例では、ステップ730で第2の空間音響信号を生成することは、図4の例からの信号形成モジュール434、能動的操作モジュール438、または逆FFTモジュール440のうちの1以上を使用することを含む。
図8では、処理回路410を使用するなど、異なる音響信号成分の合成または再合成に基づいて空間音響信号を生成することを含むことができる、第4の方法800の一例を概略的に示している。第4の方法800は、ステップ810で、第1の座標系を有する第1の空間的音響信号を受け取ることを含むことができる。一例では、第1の空間音響信号を受け取ることは、音響捕捉装置120を使用することを含むことができ、第1の空間音響信号は、例えば1以上の異なる信号成分に対する深さ、重さ、または他の情報を含むようなアンビソニック信号を含むことができる。一例では、第1の空間音響信号を受け取ることは、第1の空間音響信号に関連するメタデータ、または何らかの他のデータ信号、または第1の座標系の表示を受け取ることを含むことができる。一例では、第1の座標系に関する情報は、音響捕捉装置120の位置、音響捕捉装置120の方位もしくは視線方向(または他の基準方向)、または音響捕捉装置120の位置と環境内の基準位置もしくは原点との間の関係を含むことができる。
ステップ820では、第4の方法800は、第1の空間音響信号を各々の成分に分解することを含むことができ、各々の成分の各々は、対応する位置または場所を有することができる。すなわち、第1の空間音響信号成分は、環境における各々の位置の設定を有することができる。一例では、第1の空間音響信号が一次Bフォーマット信号を含む場合、ステップ820は、信号を幾つかの音響オブジェクトまたはサブ信号に分解することを含むことができる。
ステップ830では、第4の方法800は、処理回路410を使用するなどの空間変換処理を、第1の空間音響信号成分のうちの1以上の成分に適用することを含むことができる。一例では、空間変換処理を適用することは、音響環境における処理された成分の位置を変更または更新するために使用することができる。空間変換処理のパラメータは、例えば、音響信号成分の対象座標系に基づいて選択することができる。
ステップ830では、第1の空間音響信号成分の複数の異なるものの各々に、異なるフィルタまたは信号処理を選択または適用することを含むことができる。すなわち、異なる伝達関数を有するフィルタまたは音響調整を使用して、聴取者のために再結合および再生する際に、音響信号成分が第1の座標系とは異なる座標系を有する干渉性音響プログラムを提供するように、各々の音響信号成分に異なる処理をすることができる。
ステップ840では、第4の方法800は、空間変換した成分を再合成して、第2の空間音響信号を生成することを含むことができる。第2の空間音響信号は、第1の空間音響信号に基づくことができるが、対象座標系を有することができる。したがって、聴取者のために再生する際に、聴取者は第1の空間音響信号からのプログラム情報を、第1の空間音響信号とは異なる位置または座標系を有するものとして知覚することができる。
本明細書に開示される実施形態に関連して説明される様々な例示的な論理ブロック、モジュール、方法、およびアルゴリズムのプロセスおよびシーケンスは、電子ハードウェア、コンピュータソフトウェア、または両方の組み合わせとして実装することができる。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、およびプロセスアクションをその機能性の観点から概略的に上述してきた。このような機能がハードウェアとして実装されるかソフトウェアとして実装されるかは、システム全体に課される特定の用途と設計上の制約に依存する。説明した機能は、特定の用途ごとに様々な方法で実装することができるが、そのような実装の決定は、本明細書の範囲から逸脱するものとして解釈されるべきではない。本明細書に記載された、音響および映像捕捉源などの非同期捕捉源を調整するためのシステムおよび方法、並びに他の技術の実施形態は、図9の議論において説明したような、多数の種類の汎用または特殊用途の計算システム環境または構成内で動作可能である。
本明細書に開示される実施形態に関連して説明された様々な例示的な論理ブロックおよびモジュールは、汎用プロセッサ、処理装置、1以上の処理装置を有する計算装置、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または他のプログラム可能な論理装置、離散ゲートまたはトランジスタ論理、個々のハードウェア要素、または本明細書で説明する機能を実行するように設計されたこれらの任意の組み合わせなどのマシンによって実装または実行することができる。汎用プロセッサおよび処理装置は、マイクロプロセッサであることができるが、代替としてプロセッサはコントローラ、マイクロコントローラ、または状態マシン、これらの組み合わせ、または同様のものであることができる。プロセッサは、DSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、DSPコアと組み合わせた1以上のマイクロプロセッサ、または他のそのような構成などの計算装置の組み合わせとして実装することもできる。
さらに、本明細書に記載された仮想化および/またはスイートスポット適合の様々な例の一部または全部を具体化する、ソフトウェア、プログラムまたはコンピュータプログラム製品の1または任意の組み合わせまたはその一部を、コンピュータ実行可能命令または他のデータ構造の形態で、コンピュータ、またはマシン可読媒体、または記憶装置、および通信媒体の任意の望ましい組み合わせから、格納、受信、送信、または読み取ることができる。本主題は、構造的特徴および方法論的行為に固有の言語で記載されているが、添付の請求項に定義される主題は、必ずしも本明細書に記載された特定の特徴または行為に限定されないことを理解されたい。むしろ、上述した具体的な特徴や行為は、特許請求の範囲を実施するための例示的な形態として開示されているものである。
様々なシステムおよびマシンは、音響信号の座標系を調整するためのHRTFおよび/または他の音響信号処理を使用するなど、音響成分の配置決めまたは再配置決め、または方位の決定または推定を含むがこれらに限定されない、本明細書に記載された1以上の信号処理タスクを実行または実施するように構成することができる。開示された回路または処理タスクのいずれか1以上は、汎用機を使用して、または有形の非一時的なプロセッサ可読媒体から取得した命令を使用するなどして様々な処理タスクを実行する、専用マシンを使用して実装または実行することができる。
図9は、いくつかの例による、マシン可読媒体(例えば、マシン可読記憶媒体)から命令916を読み取ることができ、本明細書で論じる方法論のうちの任意の1以上を実行することができる、マシン900の構成要素を示すブロック図である。具体的には図9は、コンピュータシステムの例示的形態でのマシン900の概略図を示し、その中で、マシン900に本明細書で議論される方法論のうちの任意の1以上を実行させるための命令916(例えば、ソフトウェア、プログラム、アプリケーション、アプレット、アプリ、または他の実行可能なコード)を実行することができる。例えば、命令916は、図4~図8のモジュールまたは回路または構成要素のうちの1以上を実装することができ、例えば、本明細書で論じる音響信号処理を実行するように構成することができる。命令916は、一般的なプログラムされていないマシン900を、説明された方法で、説明され図示された機能(例えば、音響処理回路のような)を実行するようにプログラムされた専用マシンに変換することができる。代替の実施形態では、マシン900は、独立の装置として動作するか、または他のマシンに結合(例えば、ネットワーク化)することができる。ネットワーク化された配備では、マシン900は、サーバクライアントネットワーク環境において、サーバマシンまたはクライアントマシンとして動作することができ、またはピアツーピア(または分散)ネットワーク環境において、ピアマシンとして動作することができる。
マシン900は、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ(PC)、タブレットコンピュータ、ラップトップコンピュータ、ネットブック、セットトップボックス(STB)、パーソナルデジタルアシスタント(PDA)、エンタテイメントメディアシステム、またはシステム構成要素、携帯電話、スマートフォン、モバイル機器、ウェアラブル機器(例えば、スマートウォッチ)、スマートホーム機器(例えば、スマート家電)、他のスマート機器、ウェブ機器、ネットワークルータ、ネットワークスイッチ、ネットワークブリッジ、ヘッドフォンドライバ、またはマシン900が取るべき行動を指定する命令916を順次または他の方法で実行できる任意のマシンを備えることができるが、これらに限定されない。さらに、単一のマシン900のみが図示されているが、用語「マシン」は、本明細書で論じられる方法論のいずれか1以上を実行するために、命令916を個別にまたは共同で実行するマシン900の集合体を含むとも解釈されるべきである。
マシン900は、バス902を介するなどして互いに通信するように構成することができ、音響処理回路、非一時的メモリ/記憶装置930、およびI/O構成要素950を含むような、処理装置910を含むかまたは使用することができる。例示的な実施形態では、処理装置910(例えば、中央処理装置(CPU)、縮小命令セットコンピュータ(RISC)プロセッサ、複合命令セットコンピュータ(CISC)プロセッサ、グラフィック処理装置(GPU)、デジタル信号プロセッサ(DSP)、ASIC、高周波集積回路(RFIC)、別のプロセッサ、またはそれらの任意の適切な組み合わせ)は、例えば、命令916を実行することができるプロセッサ912およびプロセッサ914などの回路を含むことができる。用語「プロセッサ」は、命令916を同時に実行することができる2以上の独立したプロセッサ912、914(「コア」と呼ばれることもある)を含むことができる、マルチコアプロセッサ912、914を含むことを意図している。図9では、複数の処理装置910を示しているが、マシン900は、単一のコアを備えた単一のプロセッサ912、914、複数のコアを備えた単一のプロセッサ912、914(例えば、マルチコアプロセッサ912、914)、単一のコアを備えた複数のプロセッサ912、914、複数のコアを備えた複数のプロセッサ912、914、またはそれらの任意の組み合わせを含むことができ、プロセッサのいずれか1以上のプロセッサが音響信号情報、および/または映像信号情報、または他のデータを符号化するように構成された回路を含むことができる。
メモリ/記憶装置930は、主メモリ回路、または他のメモリ記憶回路などのメモリ932、および記憶部936を含むことができ、両方ともバス902を介してなど処理装置910にアクセス可能である。記憶部936およびメモリ932は、本明細書に記載される方法論または機能のうちの任意の1以上を具現化する命令916を格納する。命令916はまた、マシン900によるその実行中に、メモリ932内、記憶部936内、処理装置910の少なくとも1つの内(例えば、プロセッサ912、914のキャッシュメモリ内)、またはそれらの任意の適切な組み合わせ内で、完全にまたは部分的に存在することができる。したがって、メモリ932、記憶部936、および処理装置910のメモリは、マシン可読媒体の例である。
本明細書で使用する場合、「マシン可読媒体」とは、命令916およびデータを一時的にまたは恒久的に格納することができる機器を意味し、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、バッファメモリ、フラッシュメモリ、光学媒体、磁気媒体、キャッシュメモリ、他のタイプの記憶部(例えば、消去可能プログラム可能読み取り専用メモリ(EEPROM))および/またはそれらの任意の適切な組み合わせを含むことができるが、それだけに限定されない。用語「マシン可読媒体」は、命令916を格納することができる単一の媒体または複数の媒体(例えば、集中型または分散型データベース、または関連するキャッシュおよびサーバ)を含むと解釈されるべきである。

用語「マシン可読媒体」はまた、マシン(例えば、マシン900)によって実行するための命令(例えば、命令916)を格納することができる任意の媒体、または複数の媒体の組み合わせを含むと解釈されるべきであり、命令916が、マシン900の1以上の処理装置(例えば、処理装置910)によって実行されると、マシン900に本明細書に記載の方法論のいずれか1以上を実行されるようなものであるべきである。したがって、「マシン可読媒体」は、単一の記憶装置または機器、ならびに複数の記憶装置または機器含む「クラウドベース」の記憶システムまたは記憶ネットワークを指す。用語「マシン可読媒体」は、信号自体を除外する。
I/O構成要素950は、入力を受け取る、出力を提供する、出力を生成する、情報を送信する、情報を交換する、測定値を捕捉する、などのための様々な構成要素を含むことができる。特定のマシン900に含まれる特定のI/O構成要素950は、マシン900の種類に依存する。例えば、携帯電話などの携帯用マシンは、タッチ入力装置、カメラ、または他のそのような入力機構を含む可能性が高いが、ヘッドレスサーバマシンは、そのようなタッチ入力装置を含まない可能性が高い。I/O構成要素950は、図9に示されていない他の多くの構成要素を含んでもよいことが理解されよう。I/O構成要素950は、単に以下の議論を単純化するために機能によってグループ化されており、グループ化は決して限定的なものではない。様々な例示的な実施形態では、I/O構成要素950は、出力構成要素952および入力構成要素954を含んでもよい。出力構成要素952は、視覚要素(例えば、プラズマディスプレイパネル(PDP)、発光ダイオード(LED)ディスプレイ、液晶ディスプレイ(LCD)、プロジェクタ、またはブラウン管(CRT)などのディスプレイ)、聴覚要素(例えば、ラウドスピーカ)、触覚要素(例えば、振動モータ、抵抗機構)、および他の信号発生器などを含むことができる。入力構成要素954は、英数字入力要素(例えば、キーボード、英数字入力を受け取るように構成されたタッチスクリーン、光光学キーボード、または他の英数字入力要素)、ポイントベースの入力要素(例えば、マウス、タッチパッド、トラックボール、ジョイスティック、モーションセンサ、または他のポインティング機器)、触覚入力要素(例えば、物理ボタン、タッチまたはタッチジェスチャーの位置および/または力を提供するタッチスクリーン、または他の触覚入力要素)、音響入力要素(例えば、マイクロフォン)、映像入力要素、およびその類のものを含むことができる。
さらなる例示的な実施形態では、I/O構成要素950は、他の幅広い構成要素の中でも、生体認証構成要素956、動き構成要素958、環境構成要素960、または位置(例えば、場所および/または向き)構成要素962を含むことができる。例えば、生体認証構成要素956は、表出(例えば、手相、表情、声色、身ぶり、または目の動き)を検出し、生体信号(例えば、血圧、心拍数、体温、発汗、または脳波)を測定し、人を識別(例えば、音声識別、網膜識別、顔識別、指紋識別、または脳波に基づく識別)する要素など、聴取者固有または環境固有のフィルタを包含し、使用し、または選択に影響を与えることができる。動き構成要素958は、加速度センサ要素(例えば、加速度センサ)、重力センサ要素、回転センサ要素(例えば、ジャイロセンサ)などを含むことができ、そのような要素は、聴取者または捕捉装置の位置の変化を追跡するために使用でき、例えば、音響信号の座標系を更新または調整するために、処理装置は更に検討または使用することができる。環境構成要素960は、例えば、照度センサ要素(例えば、光度計)、温度センサ要素(例えば、周囲温度を検出する1以上の温度計)、湿度センサ要素、圧力センサ要素(例えば、気圧計)、音響センサ要素(例えば、1以上の周波数または周波数帯などに対する残響減衰時間を検出する1以上のマイクロフォン)、近接センサまたは室容積感知要素(例えば、近くの物体を検出する赤外線センサ)、ガスセンサ(例えば、安全のために危険なガス濃度を検出するための、または大気中の汚染物質を測定するための、ガス検出センサ)、または周囲の物理環境に対応する表示、測定、または信号を提供することができる他の要素を含むことができる。位置構成要素962は、位置センサ要素(例えば、全地球位置把握システム(GPS)受信機要素)、高さセンサ要素(例えば、高度が導出され得る気圧を検出する高度計または気圧計)、方位センサ要素(例えば、磁気計)、およびその類のものを含むことができる。
通信は、多種多様な技術を使用して実装することができる。I/O構成要素950は、各々結合部982および結合部972を介して、マシン900をネットワーク980または装置970に結合するように動作可能な通信構成要素964を含むことができる。例えば、通信構成要素964は、ネットワーク980とインターフェースするためのネットワークインターフェース要素、または他の適切な装置を含むことができる。さらなる例では、通信構成要素964は、有線通信要素、無線通信要素、移動体通信要素、近距離無線通信(NFC)要素、Bluetooth要素(例えば、Bluetooth Low Energy)、Wi-Fi要素、および他の通信構成要素を含むことができ、他の様式を介した通信を提供することができる。装置970は、他のマシンまたは多種多様な周辺装置(例えば、USBを介して結合された周辺装置)のいずれであることができる。
さらに、通信構成要素964は識別子を検出することができ、または識別子を検出するために動作可能な要素を含むことができる。例えば、通信構成要素964は、無線周波数識別(RFID)タグリーダー要素、NFCスマートタグ検出要素、光学読み取り要素(例えば、ユニバーサル製品コード(UPC)バーコードなどの一次元バーコード、クイックレスポンス(QR)コード、アズテックコード、データマトリクス、データグリフ、マキシコード、PDF49、ウルトラコード、UCC RSS-2Dバーコードなどの多次元バーコード、および他の光学コード)、または音響検出要素(例えば、タグ付き音響信号を識別するためのマイクロフォン)などを含むことができる。さらに、インターネットプロトコル(IP)地理位置情報による位置、Wi-Fi信号の三角測量による位置、特定の位置または方向を示すことができるNFCビーコン信号の検出による位置など、通信構成要素964を介して様々な情報を導出することができる。このような識別子は、基準または局所的なインパルス応答、基準または局所的な環境特性、基準または装置の位置または方位、または聴取者固有の特性のうちの1以上に関する情報を決定するために使用することができる。
様々な例示的な実施形態では、符号化された基準データまたは符号化される基準データを伝送するために使用することができるようなネットワーク980の1以上の部分は、アドホックネットワーク、イントラネット、エクストラネット、仮想プライベートネットワーク(VPN)、構内ネットワーク(LAN)、無線LAN(WLAN)、広域ネットワーク(WAN)、無線WAN(WWAN)、メトロポリタンエリアネットワーク(MAN)、インターネット、インターネットの一部、公衆交換電話網(PSTN)の一部、ポッツ(POTS)ネットワーク、携帯電話ネットワーク、無線ネットワーク、Wi-Fiネットワーク、他の種類のネットワーク、または2以上のこのようなネットワークの組み合わせであることができる。例えば、ネットワーク980またはネットワーク980の一部は、無線または移動体ネットワークを含むことができ、結合部982は、符号分割多元接続(CDMA)、移動体通信用グローバルシステム(GSM)接続、または別の種類のセルラー接続または無線接続であることができるこの例では、結合部982は、シングルキャリア無線伝送技術(1xRTT)、エボリューションデータ最適化(EVDO)技術、一般パケット無線サービス(GPRS)技術、GSM革新のための拡張データレート(EDGE)技術、3Gを含む第3世代標準化プロジェクト(3GPP)、第4世代無線(4G)ネットワーク、ユニバーサル移動通信システム(UMTS)、高速パケット通信(HSPA)、ワイマックス(WiMAX)、LTE(Long Term Evolution)規格、様々な標準化団体によって定義された他の規格、他の長距離プロトコル、または他のデータ転送技術などのいずれかを実装することができる。
命令916は、ネットワークインターフェース装置(例えば、通信構成要素964に含まれるネットワークインターフェース要素)を介した伝送媒体を使用して、および多数の周知の転送プロトコル(例えば、ハイパーテキスト転送プロトコル(HTTP))のうちの任意の1を使用して、ネットワーク980上で送信または受信することができる。

同様に命令916は、結合部972(例えば、ピアツーピア結合)を介して装置970へ、伝送媒体を使用して送信または受信することができる。用語「伝送媒体」は、マシン900によって実行するための命令916を格納、符号化、または搬送することができる任意の無形媒体を含むものとし、このようなソフトウェアの通信を容易にするようなデジタルまたはアナログ通信信号または他の無形媒体を含む。
本発明の様々な実施例は、独立してまたは一緒に使用することができる。例えば、実施例1は、空間音響信号の座標系を更新するための方法を含むことができるような、または使用することができるような主題(装置、システム、機器、方法、行為を実行するための手段、または機器によって実行されると機器に行為を実行させることができる命令を含む機器可読媒体など)を含むことができ、または使用することができる。実施例1は、音響捕捉源から第1の空間音響信号を受け取り、音響捕捉源は環境に対する第1の座標系を有し、同じ環境に対する第2の座標系に関する情報を受け取り、第2の座標系は第2の捕捉源に対応し、第1の座標系と第2の座標系との間の差を決定し、第1の空間音響信号と、第1の座標系と第2の座標系との間の決定した差とを使用して、第2の座標系を参照する第2の空間音響信号を生成することを含むことができる。
実施例2は、映像捕捉センサの座標系に関する情報を受け取ることを含む、第2の座標系に関する情報を受け取ることを任意に含むように、実施例1の主題を含むか、または使用するか、または任意に組み合せることができる。
実施例3は、第2の音響捕捉センサの座標系に関する情報を受け取ることを含む、第2の座標系に関する情報を受け取ることを任意に含むように、実施例1または2のうちの1または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。
実施例4は、少なくとも視野角を含む第2の座標系の幾何学的記述を受け取ることを含む、第2の座標系に関する情報を受け取ることを任意に含むように、実施例1から3のうちの1または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。
実施例5は、音響捕捉源と第2の捕捉源との間の変換を決定することを含む、第1の座標系と第2の座標系との間の差を決定することを任意に含むように、実施例1から4のうちの1または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。
実施例6は、音響捕捉源の基準方向と第2の捕捉源の基準方向との間の方向差を決定することを含む、第1の座標系と第2の座標系との間の差を決定することを任意に含むように、実施例1から5のうちの1または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。
実施例7は、第1の座標系と第2の座標系との間の決定した差に基づいて第1のフィルタを生成することを任意に含むように、実施例1から6のうちの1または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。実施例7では、第2の空間音響信号を生成することは、第1の空間音響信号の少なくとも1つの成分に第1のフィルタを適用することを含むことができる。
実施例8は、第1の空間音響信号成分を空間解析し第1の位置の設定を提供することと、第1の位置の設定に空間変換を適用しそれによって第2の座標系に対する第2の位置の設定を生成することと、第2の位置の設定を使用して第1の空間音響信号成分を再合成することにより、第2の座標系を参照して第2の空間音響信号を生成することとを含む、能動的空間処理を任意に含むように、実施例1から7のうちの1または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。
実施例9は、第1の空間音響信号成分を分離することと、第1の空間音響信号成分に対して各々のフィルタを決定することとを任意に含むように、実施例1から7のうちの1または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができ、フィルタは、第1の座標系と第2の座標系との間の決定した差に基づいて、成分の各々の基準位置を更新するように構成することができる。実施例9の例では、第2の空間音響信号を生成することは、第1の空間音響信号の各々の成分にフィルタを適用することを含むことができる
実施例10は、第1のアンビソニック信号として第1の空間音響信号を受け取ることを任意に含むように、実施例1から9のうちの1または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。
実施例11は、第1のアンビソニック信号と、第1の座標系と第2の座標系との間の決定した差とに基づいて第2のアンビソニック信号を生成することを含み、第2の空間音響信号を生成することを任意に含むように、実施例10の主題を含むか、または使用するか、または任意に組み合わせることができる。
実施例12は、アンビソニック信号、マトリクス信号、およびマルチチャンネル信号のうちの少なくとも1を生成することを含む第2の空間音響信号を生成することを任意に含むように、実施例1から11のうちの1つまたは任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。
実施例13は、マイクロフォンアレイを使用して第1の空間音響信号を受け取ることを任意で含むように、実施例1から12のうちの1または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。
実施例14は、音響捕捉源および第2の捕捉源を、固定された空間的関係に保持するように構成されたリグに関する寸法情報を受け取ることを任意に含むように、実施例1から13のうちの1または任意の組み合わせの主題を含むか、または使用することができ、または任意に組み合わせることができ、第1の座標系と第2の座標系との間の差を決定することは、リグに関する寸法情報を使用することを含む。
実施例15は、スピーカに対する聴取者の位置に基づいて1以上の入力音響信号を調整するためのシステムを含むか、または使用することができるような、実施例1から14のうちの1または任意の組み合わせの主題(装置、システム、機器、方法、行為を実行するための手段、または機器によって実行されたときに機器に行為を行わせることができる命令を含む機器可読媒体など)を含むか、または使用することができる。一例では、実施例14は、空間音響信号の座標系を更新するために音響情報を処理するためのシステムを含む。実施例15のシステムは、音響捕捉源から第1の空間音響信号を受け取り、音響捕捉源は環境に対する第1の座標系を有し、同じ環境に対する第2の座標系に関する情報を受け取り、第2の座標系は第2の捕捉源に対応し、第1の座標系と第2の座標系の間の差を決定し、第1の空間音響信号と、第1の座標系と第2の座標系との間の決定した差を使用して、第2の座標系を参照して第2の空間音響信号を生成するよう構成された、空間音響信号処理回路を含むことができる。
実施例16は、音響捕捉源および第2の捕捉源を任意に含み、第2の捕捉源は映像捕捉源から構成されるように、実施例15の主題を含むか、または使用するか、または任意に組み合わせることができる。
実施例17は、音響捕捉源および映像捕捉源を固定された空間的または幾何学的関係に保持するように構成されたリグを任意に含むように、実施例16の主題を含むか、または使用するか、または任意に組み合わせることができる。
実施例18は、第1または第2の捕捉源の更新された位置に関する情報を感知するように構成された源追跡装置を任意に含むように、実施例15から17の1つまたは任意の組み合わせの主題を含むか、または使用することができ、空間音響信号処理回路は、第1または第2の捕捉源の更新された位置を示す源追跡装置からの情報に応答して、第1の座標系と第2の座標系との間の差を決定するように構成することができる。
実施例19は、音響捕捉源と第2の捕捉源との間の並進距離に基づいて、第1の座標系と第2の座標系との間の差を決定するように構成された空間音響信号処理回路を任意に含むように、実施例15から18の1または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合せることができる。
実施例20は、音響捕捉源の基準方向と第2の捕捉源の基準方向との間の方位差に基づいて、第1の座標系と第2の座標系との間の差を決定するように構成された空間音響信号処理回路を任意に含むように、実施例15から19の1または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。
実施例21は、第1の空間音響信号フォーマットで第1の空間音響信号を受け取り、異なる第2の空間音響信号フォーマットで第2の空間音響信号を生成するように構成された空間音響信号処理回路を任意に含むように、実施例15から20の1または任意の組み合わせの主題を含むか、または使用するか、または任意に組み合わせることができる。
実施例22は、実施例1から21の1以上を単独でまたは様々な組み合わせで含むことができるような、スピーカに対する聴取者の位置に基づいて、1以上の入力音響信号を調整するためのシステムを含むかまたは使用することができるような主題(装置、システム、機器、方法、行為を行うための手段、または機器によって実行されたときに機器に行為を行わせることができる命令を含む機器可読媒体など)を含むか、または使用することができる。一例では、実施例22は、音響捕捉源装置に関連する音響捕捉位置に対する異なる深さまたは方向からの音響情報を表す複数の信号成分を含む、第1の空間音響信号の座標系を変更する方法を含む。一例では、実施例22は、環境に対する第1の基準原点および第1の基準方位を有する音響捕捉源装置から、第1の空間音響信号の少なくとも1つの成分を受け取ることと、同じ環境に対する第2の基準原点および第2の基準方位を有する映像捕捉源に対応する、同じ環境に対する第2の座標系に関する情報を受け取ることと、第1の座標系と第2の座標系との間の差を決定することと、第1の基準原点と第2の基準原点と間の並進差と、および第1の基準方位と第2の基準方位との間の回転差とを少なくとも含むことと、を含むことができる。一例では、実施例22は、第1の座標系と第2の座標系との間の決定した差を使用することと、第1の空間音響信号の少なくとも1つの成分に基づき、第2の座標系に参照される第2の空間音響信号の少なくとも1つの成分を生成するために使用する第1のフィルタを決定することと、を含むことができる。
実施例23は、第1の空間音響信号の少なくとも1つの成分を第1のBフォーマットアンビソニック信号成分として受け取ることを任意に含むように、実施例22の主題を含み、または使用し、または任意に組み合わせることができる。実施例23では、第2の空間音響信号の少なくとも1つの成分を生成することは、異なる第2のBフォーマットアンビソニック信号成分を生成することを含むことができる。
実施例24は、第1の空間音響フォーマットで第1の成分を受け取ることを含み、第1の空間音響信号の少なくとも1つの成分を受け取ることを任意に含むように、実施例22または23の1または任意の組み合わせの主題を含み、または使用し、または任意に組み合わせることができる。実施例24では、第2の空間音響信号の少なくとも1つの成分を生成することは、異なる第2の空間音響フォーマットで少なくとも1つの成分を生成することを含むことができる。
実施例25は、第1および/または第2の基準原点または基準方位が変更されたかどうかを決定することと、それに応じて、第2の空間音響信号の少なくとも1つの成分を生成するために使用する異なる第2のフィルタを選択することとを任意で含むように、実施例22から24の1または任意の組み合わせの主題を含み、または使用し、または任意に組み合わせることができる。
これらの非限定的な実施例の各々は、それ自体で成り立つことができ、または本明細書に提供される他の実施例または例の1以上と、様々な順列または組み合わせで組み合わせることができる。
本書では、用語「1の(a)」または「1の(an)」は、特許文献で一般的であるように、「少なくとも1つ」または「1つ以上」の他の実施例または用法とは独立して、1またはそれ以上を含むために使用される。本書では、用語「また(or)」は、非排他的な、また(or)、であることを示すのに使用され、すなわち、特に断らない限り、「AまたはB」が「BではなくA」、「AではなくB」、および「AおよびB」を含むものとする。本明細書では、「含む(including)」および「そこで(in which)」は、各々の用語「含む(comprising)」および「そこで(wherein)」の一般的意味の等価物として使用される。
特に、「できる(can)」、「してもよい(might)」、「できる、得る(may)」、「例えば(e.g.)」などの本明細書で使用される条件付き言語は、特に断らない限り、または使用される文脈内で理解される限り、一般に、特定の実施形態が特定の特徴、要素および/または状態を含み、他の実施形態が含まないことを伝えることを意図している。したがって、このような条件付き言語は、特徴、要素および/または状態が1以上の実施形態に何らかの形で必要であること、または1以上の実施形態が、これらの特徴、要素および/または状態が任意の特定の実施形態に含まれるかまたは実行されるべきかを、著者の入力または促しの有無にかかわらず決定するための論理を必ず含むことを意味することは一般的に意図していない。
上述した詳細な説明は、様々な実施形態に適用される新しい特徴を示し、説明し、および指摘しているが、図示した装置またはアルゴリズムの形態および詳細の様々な省略、置換、および変更は、本開示の精神から逸脱することなく行うことができることが理解されるであろう。理解されるように、本明細書で説明した本発明の特定の実施形態は、一部の特徴を他の特徴とは別に使用または実施できる場合に、本明細書に示した特徴および利点の全てを提供しない形式で実施することができる。
さらに、主題は、構造的特徴または方法もしくは行為に固有の言語で説明されてきたが、添付の特許請求の範囲で定義される主題は、必ずしも上述した特定の特徴または行為に限定されないことが理解される。むしろ、上述した特定の特徴および行為は、特許請求の範囲を実施するための例示的な形態として開示されている。
100 第1の環境
101 軸
103 矢印
110 視聴覚源
120 音響捕捉装置
130 映像捕捉装置

Claims (20)

  1. 空間音響信号の座標系を更新する方法であって、
    音響捕捉源から第1の空間音響信号を受け取るステップであって、前記音響捕捉源は環境に対する第1の座標系を有する、ステップと、
    同じ前記環境に対する第2の座標系に関する情報を受け取るステップであって、前記第2の座標系は映像捕捉センサに対応する、ステップと、
    前記第1の座標系と前記第2の座標系との間の差を決定するステップと、
    前記第1の空間音響信号と、前記第1の座標系と前記第2の座標系との間の前記決定した差とを用いて、前記第2の座標系を参照して第2の空間音響信号を生成するステップと、
    を含む方法。
  2. 前記第1の座標系と前記第2の座標系との間の前記差を決定するステップは、前記音響捕捉源と前記映像捕捉センサとの間の変換を決定するステップを含む、請求項1に記載の方法。
  3. 前記第1の座標系と前記第2の座標系との間の前記差を決定するステップは、前記音響捕捉源の基準方向と前記映像捕捉センサの基準方向との間の方位差を決定するステップを含む、請求項1に記載の方法。
  4. 前記第1の空間音響信号成分を空間解析して、第1の位置の設定を提供するステップと、
    前記第1の位置の設定に空間変換を適用して、それによって前記第2の座標系に対する第2の位置の設定を生成するステップと、
    前記第2の位置の設定を用いて前記第1の空間音響信号成分を再合成することにより、前記第2の座標系を参照して前記第2の空間音響信号を生成するステップと、
    を含む、能動的空間処理を更に含む、請求項1に記載の方法。
  5. 前記第1の空間音響信号成分に対して各々のフィルタを決定するステップを更に含み、前記フィルタは、前記第1の座標系と前記第2の座標系との間の前記決定した差に基づいて、前記成分の各々の基準位置を更新するように構成され、前記第2の空間音響信号を生成するステップは、前記第1の空間音響信号の各々の成分に対して前記フィルタを適用するステップを含む、請求項1に記載の方法。
  6. 前記第1の空間音響信号を受け取るステップは、第1のアンビソニック信号を受け取るステップを含み、前記第2の空間音響信号を生成するステップは、前記第1のアンビソニック信号と、前記第1の座標系と前記第2の座標系との間の前記決定した差とに基づいて、第2のアンビソニック信号を生成するステップを含む、請求項1記載の方法。
  7. 前記第2の空間音響信号を生成するステップは、アンビソニック信号、マトリクス信号、およびマルチチャンネル信号のうちの少なくとも1つを生成するステップを含む、請求項1に記載の方法。
  8. 音響捕捉源から前記第1の空間音響信号を受け取るステップは、マイクロフォンアレイを用いて前記第1の空間音響信号を受け取るステップを含む、請求項1に記載の方法。
  9. 前記音響捕捉源と前記映像捕捉センサとを固定された空間的関係で保持するように構成されたリグに関する寸法情報を受け取ることを更に含み、前記第1の座標系と前記第2の座標系との間の前記差を決定することは、前記リグに関する前記寸法情報を用いることを含む、請求項1に記載の方法。
  10. 空間音響信号の座標系を更新するために音響情報を処理するためのシステムであって、
    空間音響信号処理回路を備え、当該処理回路は、
    環境に対する第1の座標系を有する音響捕捉源から第1の空間音響信号を受け取り、
    同じ前記環境に対する、第2の捕捉源に対応する第2の座標系に関する情報を受け取り、
    前記第1の座標系と前記第2の座標系との間の差を決定し、
    前記第1の空間音響信号と、前記第1の座標系と前記第2の座標系との間の前記決定した差とを用いて、前記第2の座標系を参照して第2の空間音響信号を生成する、
    ように構成される、
    ことを特徴とするシステム。
  11. 前記音響捕捉源と前記第2の捕捉源を更に備え、前記第2の捕捉源は映像捕捉源を備える、請求項10に記載のシステム。
  12. 前記音響捕捉源と前記映像捕捉源を固定された幾何学的関係で保持するように構成されたリグを更に備える、請求項11に記載のシステム。
  13. 前記第1または第2の捕捉源の更新された位置に関する情報を感知するように構成された源追跡装置を更に備え、前記空間音響信号処理回路は、前記第1または第2の捕捉源の更新された位置を示す前記源追跡装置からの情報に応じて、前記第1の座標系と前記第2の座標系との間の前記差を決定するように構成される、請求項10に記載のシステム。
  14. 前記空間音響信号処理回路は、前記音響捕捉源と前記第2の捕捉源との間の並進距離に基づいて、前記第1の座標系と前記第2の座標系との間の前記差を決定するように構成される、請求項10に記載のシステム。
  15. 前記空間音響信号処理回路は、前記音響捕捉源の基準方向と前記第2の捕捉源の基準方向との間の方位差に基づいて、前記第1の座標系と前記第2の座標系との間の前記差を決定するように構成される、請求項10に記載のシステム。
  16. 前記空間音響信号処理回路は、第1の空間音響信号フォーマットで前記第1の空間音響信号を受け取り、異なる第2の空間音響信号フォーマットで前記第2の空間音響信号を生成するよう構成される、請求項10に記載のシステム。
  17. 音響捕捉源装置に関連する音響捕捉位置に対して、異なる深さまたは方向からの音響情報を表す複数の信号成分を含む、第1の空間音響信号の座標系を変更する方法であって、
    前記音響捕捉源装置からの前記第1の空間音響信号の少なくとも1つの成分を受け取るステップであって、前記音響捕捉源装置は環境に対する第1の基準原点および第1の基準方位を有する、ステップと、
    同じ前記環境に対する第2の座標系に関する情報を受け取るステップであって、前記第2の座標系は映像捕捉源に対応し、前記映像捕捉源は同じ前記環境に対する第2の基準原点および第2の基準方位を有する、ステップと、
    前記第1の座標系と前記第2の基準原点との間の並進差と、前記第1の座標系と前記第2の基準方位との間の回転差とを少なくとも含む、前記第1の座標系と前記第2の座標系との間の差を決定するステップと、
    前記第1の座標系と前記第2の座標系との間の前記決定した差を用いて、前記第1の空間音響信号の少なくとも1つの成分に基づき、および前記第2の座標系に参照され、第2の空間音響信号の少なくとも1つの成分を生成するために使用する第1のフィルタを決定するステップと、
    を含む方法。
  18. 前記第1の空間音響信号の少なくとも1つの成分を受け取るステップは、第1のBフォーマットのアンビソニック信号成分を受け取るステップを含み、前記第2の空間音響信号の少なくとも1つの成分を生成するステップは、異なる第2のBフォーマットのアンビソニック信号成分を生成するステップを含む、請求項17に記載の方法。
  19. 前記第1の空間音響信号の少なくとも1つの成分を受け取るステップは、第1の空間音響フォーマットで前記第1の成分を受け取るステップを含み、前記第2の空間音響信号の少なくとも1つの成分を生成するステップは、異なる第2の空間音響フォーマットで前記少なくとも1つの成分を生成するステップを含む、請求項17に記載の方法。
  20. 前記第1および/または第2の基準原点または基準方位が変化したかどうかを決定するステップと、それに応じて、前記第2の空間音響信号の少なくとも1つの成分を生成するために用いる異なる第2のフィルタを選択するステップと、
    を更に含む、請求項17に記載の方法。
JP2022501040A 2019-07-08 2019-07-08 不一致視聴覚捕捉システム Pending JP2022547253A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2019/040837 WO2021006871A1 (en) 2019-07-08 2019-07-08 Non-coincident audio-visual capture system

Publications (1)

Publication Number Publication Date
JP2022547253A true JP2022547253A (ja) 2022-11-11

Family

ID=67539592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022501040A Pending JP2022547253A (ja) 2019-07-08 2019-07-08 不一致視聴覚捕捉システム

Country Status (6)

Country Link
US (1) US11962991B2 (ja)
EP (1) EP3997895A1 (ja)
JP (1) JP2022547253A (ja)
KR (1) KR102656969B1 (ja)
CN (1) CN114270877A (ja)
WO (1) WO2021006871A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021006871A1 (en) 2019-07-08 2021-01-14 Dts, Inc. Non-coincident audio-visual capture system
CN114741352B (zh) * 2022-06-09 2022-11-04 杭州未名信科科技有限公司 一种基于fpga的双线性插值重采样实现方法及装置
CN115225884A (zh) * 2022-08-30 2022-10-21 四川中绳矩阵技术发展有限公司 一种图像和声音的交互式重现方法、系统、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010236944A (ja) * 2009-03-30 2010-10-21 Chubu Electric Power Co Inc 音源・振動源の探査方法と音源・振動源探査システム
JP2013514696A (ja) * 2009-12-17 2013-04-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 第1のパラメトリック空間オーディオ信号を第2のパラメトリック空間オーディオ信号に変換する装置および方法
JP2016102741A (ja) * 2014-11-28 2016-06-02 株式会社熊谷組 音源方向推定装置、及び、音源推定用画像作成装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9530421B2 (en) 2011-03-16 2016-12-27 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks
CN105578380B (zh) * 2011-07-01 2018-10-26 杜比实验室特许公司 用于自适应音频信号产生、编码和呈现的系统和方法
EP2637427A1 (en) 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
CN107533843B (zh) 2015-01-30 2021-06-11 Dts公司 用于捕获、编码、分布和解码沉浸式音频的系统和方法
GB2543276A (en) * 2015-10-12 2017-04-19 Nokia Technologies Oy Distributed audio capture and mixing
EP3391330B1 (en) * 2015-12-16 2020-02-05 InterDigital CE Patent Holdings Method and device for refocusing at least one plenoptic video
US10477304B2 (en) * 2016-06-15 2019-11-12 Mh Acoustics, Llc Spatial encoding directional microphone array
WO2017218973A1 (en) 2016-06-17 2017-12-21 Edward Stein Distance panning using near / far-field rendering
GB2551780A (en) * 2016-06-30 2018-01-03 Nokia Technologies Oy An apparatus, method and computer program for obtaining audio signals
US9883302B1 (en) * 2016-09-30 2018-01-30 Gulfstream Aerospace Corporation System for identifying a source of an audible nuisance in a vehicle
GB2557218A (en) * 2016-11-30 2018-06-20 Nokia Technologies Oy Distributed audio capture and mixing
CN111108555B (zh) * 2017-07-14 2023-12-15 弗劳恩霍夫应用研究促进协会 使用深度扩展DirAC技术或其他技术生成经增强的声场描述或经修改的声场描述的装置和方法
FR3074584A1 (fr) * 2017-12-05 2019-06-07 Orange Traitement de donnees d'une sequence video pour un zoom sur un locuteur detecte dans la sequence
WO2021006871A1 (en) 2019-07-08 2021-01-14 Dts, Inc. Non-coincident audio-visual capture system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010236944A (ja) * 2009-03-30 2010-10-21 Chubu Electric Power Co Inc 音源・振動源の探査方法と音源・振動源探査システム
JP2013514696A (ja) * 2009-12-17 2013-04-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 第1のパラメトリック空間オーディオ信号を第2のパラメトリック空間オーディオ信号に変換する装置および方法
JP2016102741A (ja) * 2014-11-28 2016-06-02 株式会社熊谷組 音源方向推定装置、及び、音源推定用画像作成装置

Also Published As

Publication number Publication date
US11962991B2 (en) 2024-04-16
CN114270877A (zh) 2022-04-01
KR102656969B1 (ko) 2024-04-11
KR20220031058A (ko) 2022-03-11
US20220272477A1 (en) 2022-08-25
WO2021006871A1 (en) 2021-01-14
EP3997895A1 (en) 2022-05-18

Similar Documents

Publication Publication Date Title
KR102642275B1 (ko) 증강 현실 헤드폰 환경 렌더링
US10728683B2 (en) Sweet spot adaptation for virtualized audio
JP2022167932A (ja) 没入型オーディオ再生システム
US20190349705A9 (en) Graphical user interface to adapt virtualizer sweet spot
CN106576203B (zh) 确定和使用房间优化传输函数
GB2543276A (en) Distributed audio capture and mixing
EP3354045A1 (en) Differential headtracking apparatus
JP2020510341A (ja) 分散オーディオ仮想化システム
US11962991B2 (en) Non-coincident audio-visual capture system
US20210092545A1 (en) Audio processing
US11937065B2 (en) Adjustment of parameter settings for extended reality experiences
CN114424587A (zh) 控制音频数据的呈现
EP3994864A1 (en) Password-based authorization for audio rendering
WO2021003355A1 (en) Audio capture and rendering for extended reality experiences
US11758348B1 (en) Auditory origin synthesis

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220311

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220705

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240129

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240401