JP2023510141A

JP2023510141A - ローカルストレージを有する無線マイクロフォン

Info

Publication number: JP2023510141A
Application number: JP2022537872A
Authority: JP
Inventors: ソルヴァン，オードゥン
Original assignee: Nomono AS
Current assignee: Nomono AS
Priority date: 2019-12-19
Filing date: 2020-12-17
Publication date: 2023-03-13
Also published as: CA3162214A1; US20230353967A1; GB2590906A; EP4078991A1; WO2021125975A1; GB201918882D0

Abstract

空間的に符号化された音場信号を生成するために複数のローカルオーディオ信号を捕捉するように構成されたマイクロフォンアレイを備えるベースユニットと、マイクロフォンおよび関連する記憶部を有するリモートマイクロフォン装置とを有する装置であって、リモートマイクロフォン装置は、マイクロフォンを用いて音源に関連するリモートオーディオ信号を捕捉し、前記リモートオーディオ信号を関連する記憶部に記憶するように構成されている。装置は、複数のローカルオーディオ信号を使用して、複数の成分を有する空間的に符号化された音場信号を生成し、リモートマイクロフォン装置の位置を決定し、リモートマイクロフォン装置の決定された位置にしたがって、空間的に符号化された音場信号および記憶されたリモートオーディオ信号を使用して、空間的に符号化されたサウンドトラックを生成するようにさらに構成されている。
【選択図】図１

Description

本出願は、音場記録システムおよび／またはオーディオオブジェクトに基づく制作における使用に適したものなどの無線マイクロフォンに関する。

音場（空間オーディオとも呼ばれる）フォーマット（例えば、アンビソニックス、ＤｏｌｂｙＡｔｍｏｓ（商標）、Ａｕｒｏ－３Ｄ（商標）、ＤＴＳ：ＸＴＭ）は、所与のサウンドシーンに関する空間的に符号化されたサウンド情報を記憶する方法を提供する。換言すれば、それらは、空間的に符号化されたサウンドトラックを生成するために、サウンドシーン内の音源に位置情報を割り当てる方法を提供する。いくつかの制作では、空間的に符号化されたサウンドトラックを構成するサウンド情報は、（例えば、別個の従来のマイクロフォンを用いて）別々に記録され、各音源の位置情報は、その後、（例えば、コンピュータ生成されたビデオゲームのサウンドシーンを作成するときに）ポスト制作中に手動で割り当てられる。あるいは、空間的に符号化されたサウンドトラックは、例えば、捕捉されたオーディオを位置／方向情報によってネイティブに符号化する多方向音場マイクロフォンアレイ（例えば、アンビソニックマイクロフォンアレイ）を使用して、部分的または全体的にライブで捕捉されてもよい。ライブ「音場」データの捕捉は、通常、（例えば、オーケストラの間に座っている錯覚を作り出すことによって）従来の音声記録をより没入型にするために使用されてきたが、より最近では、この技術は、仮想現実制作などの他の制作に適用され始めている。

音場マイクロフォンは、空間内の特定の点からライブ音場情報を捕捉するための有用なツールであるが、それらの出力の品質および柔軟性に関していくつかの制限がある。音場制作を記録するとき、オーディオエンジニアは、通常、ストーリーを伝えるオブジェクトによって発せられる音、およびストーリーのためのコンテキストを作成する周囲音の２つのタイプの音を捕捉することに関心がある。周囲のオーディオは、単一の音場マイクロフォンアレイによって容易に捕捉されることができるが、このマイクロフォンアレイから遠く離れて配置された音源からのオーディオの品質が著しく低下する可能性がある。また、効果を追加したりレベルを調整したりする目的で、音場記録内の単一の音源を分離することも困難である。いくつかの制作では、各音源の高品質のオーディオを別々に捕捉するために別々の近接したマイクロフォン（例えば、ブーム、ショットガン、小型、ラペルまたはスポットマイク）が使用されるが、捕捉されたオーディオ（例えば、位置または方向情報のないシングルチャネルオーディオ）は、空間的に符号化されたサウンドトラックに統合することは困難であり得る。本出願は、これらの問題の少なくともいくつかを軽減しようとするものである。

本発明の第１の態様から、
複数の成分を含む空間的に符号化された音場信号を生成するように構成されたマイクロフォンアレイを備えるベースユニットと、
マイクロフォンを用いて音源に関連するリモートオーディオ信号を捕捉し、リモートオーディオ信号を関連する記憶部に記憶するように構成されている、リモートマイクロフォン装置と、を備え、
装置が、
リモートマイクロフォン装置の位置を決定し、
決定されたリモートマイクロフォン装置の位置にしたがって、空間的に符号化された音場信号および記憶されたリモートオーディオ信号を使用して、空間的に符号化されたサウンドトラックを生成する、
ように構成されている、音声捕捉装置が提供される。

したがって、音源からの音がベースユニットのマイクロフォンアレイのみを使用して可能であるよりも高い品質および／または分離レベルで捕捉されることを可能にすることができるリモートマイクロフォン装置を用いてリモートオーディオ信号が捕捉されることができることが当業者によって理解されよう。例えば、リモートマイクロフォン装置は、音源に近接して（すなわち、ベースユニットよりも音源に近い）配置され、背景ノイズおよび／または他の音源に対して音源からの音の振幅を増加させることができる。したがって、リモートマイクロフォン装置の使用は、リモートオーディオ信号の信号対雑音比を増加させることができ、クロストークを低減することによってリモートオーディオ信号内の１つの音源の分離を改善することもできる。

（例えば、単にリモートオーディオ信号を無線でベースユニットに送信してベースユニットに記憶するのではなく）リモートオーディオ信号をリモートマイクロフォン装置の関連する記憶部に記憶することは、リモートオーディオ信号の品質が伝送帯域幅によって制限されないことを意味する。より高品質のリモートオーディオ信号は、より高品質の空間的に符号化されたサウンドトラックが生成されることを可能にすることができ、いくつかの実施形態では、リモートマイクロフォン装置の位置が決定されることができる精度を向上させることもできる。リモートマイクロフォン装置は、圧縮をほとんどまたは全く加えずに（例えば、非圧縮オーディオ信号として）リモートオーディオ信号を記憶するように構成されてもよい。

リモートオーディオ信号をリモートマイクロフォン装置の関連する記憶部に記憶することはまた、（例えば、不十分な信号強度または干渉による無線接続の喪失に起因して）伝送チャネルが故障した場合にオーディオ信号を完全に失うリスクを回避する。さらにまた、リモートオーディオ信号は、ローカルに記憶されるため、リモートマイクロフォン装置は、常にリアルタイム伝送（例えば、無線無線モジュール）を動作させる必要がなく、エネルギー消費を低減することができる。いくつかの実施形態では、リモートマイクロフォン装置は、バッテリ駆動であってもよく、その結果、エネルギー消費の低減は、バッテリ寿命を改善することができる。リモートマイクロフォン装置は、リアルタイム伝送手段を全く含まなくてもよく、装置の複雑さおよびコストを低減する。

いくつかの実施形態では、装置は、記憶されたリモートオーディオ信号を空間的に符号化された音場信号の複数の成分と比較することによって、リモートマイクロフォン装置の位置を決定するように構成されてもよい。例えば、装置は、記憶されたリモートオーディオ信号を複数の構成要素のそれぞれと比較して複数の比較結果（例えば、クロススペクトルなどの相関の複数の尺度）を決定し、複数の比較結果を使用してリモートマイクロフォン装置の位置を決定するように構成されてもよい。例えば、装置は、記憶されたリモートオーディオ信号と成分のそれぞれとの間のクロススペクトルの相対的な大きさを計算するように構成されてもよい。

装置は、リモートマイクロフォン装置とマイクロフォンアレイ（またはリモートマイクロフォン装置の対）との間の周波数応答の変化の分析に基づいて、リモートマイクロフォン装置とマイクロフォンアレイとの間の相対的な向き（または、関連する実施形態では、他のマイクロフォン装置の取り外し）を決定するように構成されてもよい。

いくつかの実施形態では、決定された比較結果が使用されて、記憶されたリモートオーディオ信号と複数の成分のうちの少なくとも１つとの間の１つ以上の伝搬遅延（例えば、リモートオーディオ信号と複数の成分のそれぞれとの間の伝搬遅延）を計算することができる。そのような実施形態では、リモートマイクロフォン装置の位置を決定することは、１つ以上の伝搬遅延を使用して（例えば、伝搬遅延の平均と音速の推定値とを使用して）、ベースユニットからローカルマイクロフォンまでの方向および／または距離を決定することを含むことができる。

実施形態のセットでは、装置は、記憶されたリモートオーディオ信号、および音源の位置における制約を記述する物理システムの先験的モデルを組み込んだ複数の成分に対して後処理を実行するように構成され、例えば、音源が位置しなければならない水平面、人間である可能性が最も高いこれらのオブジェクトに基づく速度および／または加速度を定義する。カルマンもしくは粒子フィルタ、または隠れマルコフモデルなどの機械学習フレームワークは、後処理の一部として使用されることができる。

そのような実施形態では、リモートオーディオ信号は、高品質（例えば、圧縮なし）でリモートマイクロフォン装置の関連する記憶部に記憶されることができるため、リモートオーディオ信号は、空間的に符号化された音場信号の複数の成分と比較するためのより多くの情報（またはより詳細な情報）を含むことができ、より正確な測位を可能にする（したがって、より正確でより没入型の空間的に符号化されたサウンドトラックの生成を容易にする）。記憶されたリモートオーディオ信号および空間的に符号化された音場信号は、位置を決定してサウンドトラックを生成するときに同期を支援するためにタイムコードによってラベル付けされてもよい。

本発明は、制作中に移動する音源の労働集約的な手動追跡の要件を軽減することができるため、音源が移動しているシナリオに特に適用可能とすることができる。移動する音源を特徴とする実施形態では、リモートマイクロフォン装置は、通常、リモートオーディオ信号が音源からの音に対応し続けることを保証するために、音源とともに移動するように構成される。これは、リモートマイクロフォン装置を音源に固定するか、そうでなければ接続することによって達成されることができる。例えば、音源は、話している人を含むことができ、リモートマイクロフォン装置は、人の衣服の物品にクリップ留めされた小型タイプマイクロフォンを備えることができる。

出願人は、３次元の位置情報を一義的に決定することは、マイクロフォンアレイが４つ以上のマイクロフォンを備えることを理論的に必要とし得ることを認識しているが、出願人は、多くの状況において、２つのマイクロフォンのみで十分に正確に位置を決定することができることを認識している。例えば、音源の位置または移動に対する既知の物理的限界、または追跡技術と組み合わせた既知の開始位置などの追加情報が使用されて、音源の位置を解決するのを助けることができる。しかしながら、実施形態のセットでは、マイクロフォンアレイは、少なくとも３つのマイクロフォンを備え、いくつかのそのような実施形態では、マイクロフォンアレイは、少なくとも４つのマイクロフォンを備える。

好ましくは、マイクロフォンアレイの少なくとも２つのマイクロフォンは、互いに隣接しているが、一般に、それらは互いに離間していてもよい。マイクロフォンアレイは、互いに直交して配置された複数のマイクロフォンを備えてもよく、すなわち、最大の応答を有する各マイクロフォンのそれぞれの軸は、互いに直交している。

いくつかの実施形態では、リモートマイクロフォン装置および基地局は、無線リンクを介して（例えば、Ｂｌｕｅｔｏｏｔｈ（商標）またはＷｉＦｉ規格に準拠する接続などの無線周波数（ＲＦ）接続を介して）通信するように構成される。

リモートマイクロフォン装置は、無線リンクを介して基地局にデータを送信するように構成されてもよい。データは、リモートオーディオ信号、またはリモートオーディオ信号のバージョン（例えば、圧縮されている）を含むことができる。追加的または代替的に、データは、バッテリ寿命、関連する記憶部の利用可能な記憶スペース、またはタイミング情報などのメタデータおよび／またはステータス情報を含むことができる。

同様に、ベースユニットは、無線リンクを介してリモートマイクロフォンにデータを送信するように構成されてもよい。例えば、ベースユニットは、無線リンクを介してリモートマイクロフォン装置にソフトウェアおよび／またはファームウェアの更新（いわゆる「無線」更新）を提供するように構成されてもよい。

いくつかの実施形態では、リモートマイクロフォン装置およびベースユニットは、リモートオーディオ信号の捕捉中に通信するように構成されてもよい。例えば、リモートマイクロフォン装置は、記録のライブ監視を可能にするために、リモートオーディオ信号またはリモートオーディオ信号のバージョン（例えば、より低いビットレートでの圧縮バージョン）をリアルタイムで（またはほぼリアルタイムで）ベースユニットに送信するように構成されてもよい。いくつかのそのような実施形態では、装置は、送信されたリモートオーディオ信号を使用して、リアルタイムで（またはほぼリアルタイムで）リモートマイクロフォン装置の位置を決定するように構成されてもよい。例えば、基地局に送信されたリモートオーディオ信号の圧縮バージョンは、空間的に符号化された音場信号の複数の成分と比較されて、オーディオ捕捉が進行している間にリモートマイクロフォン装置の位置を決定することができる。送信された信号は、（例えば、圧縮されているため）記憶部に記憶された信号よりも低品質とすることができるが、より低い精度でリモートマイクロフォン装置の位置をリアルタイムで決定することは依然として可能とすることができ、これは依然として監視目的に非常に有用とすることができる。

リモートマイクロフォン装置は、リモートマイクロフォン装置自体の監視を支援するために、オーディオ捕捉中に他の情報（例えば、メタデータ、バッテリ寿命、記憶スペース、タイミング情報）を送信するように構成されてもよい。

いくつかの実施形態では、リモートマイクロフォン装置は、（例えば、遅延を伴って、または音声捕捉が完了した後でさえ）非リアルタイムで無線リンクを介してベースユニットにリモートオーディオ信号（すなわち、関連する記憶部に記憶された信号）を送信するように構成されてもよい。これは、（例えば、帯域幅が限られているために）無線リンクを介して非圧縮のリモートオーディオ信号をリアルタイムで送信することが不可能である場合、または（例えば、無線干渉に起因して）無線リンクを介してリアルタイムで送信されるリモートオーディオ信号のバージョンの一部が失われている状況において便利とすることができる。例えば、リモートマイクロフォン装置は、低ビットレート（圧縮）バージョンのリモートオーディオ信号を低遅延で（例えば、リアルタイムで）無線リンクを介してベースユニットに送信し、後に（すなわち、より長い遅延で）無線リンクを介して完全品質のリモートオーディオ信号をベースユニットに送信するように構成されてもよい。

いくつかの実施形態では、リモートマイクロフォン装置およびベースユニットは、一時的な有線接続（すなわち、例えば、リモートマイクロフォン装置がオーディオを捕捉していないときなど、特定の時間にのみ形成されるもの）を形成するように構成されてもよい。例えば、リモートマイクロフォン装置およびベースユニットは、一時的な有線接続（例えば、ＵＳＢケーブル）を形成するためにケーブルを使用して接続されるように構成されてもよい。いくつかの実施形態では、リモートマイクロフォン装置は、一時的な有線接続（すなわち、接続ケーブルを必要としない）を形成するためにベースユニットと直接ドッキングするように構成されてもよく、これはより便利とすることができる。例えば、ベースユニットは、第１の組の電気接点を備えてもよく、リモートマイクロフォン装置は、第１の組の電気接点と接触して一時的な有線接続を形成するように構成された第２の組の電気接点を備えてもよい。

一時的な有線接続が使用されて、リモートマイクロフォン装置からベースユニットに（またはその逆に）データを転送することができる。例えば、リモートマイクロフォン装置は、一時的な有線接続を介して、記憶されたリモートオーディオ信号（例えば、関連する記憶部に記憶された非圧縮の完全品質のリモートオーディオ信号）をベースユニットに転送するように構成されてもよい。有線接続は、無線接続よりも高い通信帯域幅を提供することができ、無線（例えば、ＲＦ）接続を介して可能であり得るものに対してより速い転送速度を容易にする。したがって、リモートオーディオ信号は、ベースユニットに迅速に送信されることができ、これは、長い記録（したがって大きな音声ファイルサイズ）を特徴とする制作にとって特に重要であり得る。一時的な有線接続はまた、無線接続よりも少ない電力を消費することができ、より少ないおよび／またはより安価な構成要素を必要とすることもできる。有線接続はまた、無線リンクよりも干渉を受けにくい。

一時的な有線接続はまた、（または代わりに）他の情報（例えば、メタデータ、バッテリ寿命、利用可能な記憶スペース、タイミング情報）をリモートマイクロフォン装置との間で送信するために使用されてもよい。バッテリ駆動の実施形態では、一時的な有線接続が使用されて、リモートマイクロフォン装置のバッテリを充電することができる。

いくつかの実施形態では、リモートオーディオ信号の一部またはバージョンが無線リンクを介して既に送信されている場合、完全に記憶されたリモートオーディオ信号（すなわち、一時的な有線接続または無線リンクを介して）をベースユニットに通信する必要はない場合がある。したがって、いくつかの実施形態では、リモートマイクロフォン装置は、一時的な有線接続または無線リンクを介して、記憶されたリモートオーディオ信号から導出された補足信号をベースユニットに送信するように構成される。

例えば、リモートオーディオ信号の圧縮バージョンを、圧縮されたリモートオーディオ信号には存在しない可能性のあるより高次の情報のみを含む記憶されたリモートオーディオ信号から導出された補足信号と結合することによって、元のリモートオーディオ信号から情報の全てまたは大部分を取り出す（すなわち、記憶されたリモートオーディオ信号を再構成する）ことを可能とすることができる。同様に、（例えば、無線リンクが記録時間の一部または複数の干渉によって失われたため）無線リンクを介して送信されるリモートオーディオ信号のバージョンが不完全である場合、リモートオーディオ信号の欠落部のみを含む記憶されたリモートオーディオ信号から導出された補足信号をベースユニットに送信すれば十分であり得る。

装置は、一時的な有線接続の形成または切断が１つ以上の動作を実行するトリガとして機能するように構成されてもよい。例えば、リモートマイクロフォン装置は、一時的な有線接続が形成されたときに（例えば、リモートマイクロフォン装置がベースユニットにドッキングされているときに）、リモートオーディオ信号および／または他の情報をベースユニットに自動的に送信するように構成されることができる。リモートマイクロフォン装置およびベースユニットは、（記録されたオーディオが正確に同期されることができるのを保証するため）一時的な有線接続が形成されるときにクロックを同期させるように構成されてもよい。一時的な有線接続の形成は、（ベースユニットおよび／またはリモートマイクロフォンユニットによる）記録の停止または一時停止などの他の動作をトリガしてもよい。これに対応して、一時的な有線接続の切断は、記録の開始をトリガすることができる。

いくつかの実施形態では、リモートマイクロフォン装置の記憶部は、フラッシュメモリカードなどの取り外し可能な記憶装置を備える。いくつかのそのような実施形態では、ベースユニットは、対応する記憶装置リーダ（例えば、メモリカードスロット）を備えることができ、ユーザが、単に取り外し可能な記憶装置をリモートマイクロフォン装置から取り外して記憶装置リーダに提供する（例えば、メモリカードスロットに挿入する）だけで、記憶されたリモートオーディオ信号（および任意の追加のメタまたはステータス情報）をリモートマイクロフォン装置からベースユニットに転送することを可能にする。

実施形態のいくつかのセットでは、ベースユニットは、プロセッサを備えてもよい。プロセッサは、リモートマイクロフォン装置の位置を決定し、および／またはリモートマイクロフォン装置の決定された位置にしたがって空間的に符号化された音場信号およびリモートオーディオ信号を使用して空間的に符号化されたサウンドトラックを生成するように構成されてもよい。そのような実施形態では、リモートマイクロフォン装置の位置を決定し、および／または空間的に符号化されたサウンドトラックを生成するために、追加のハードウェアおよび／またはインターネット接続が必要とされなくてもよい。

いくつかの実施形態では、装置は、リモートマイクロフォン装置の位置を決定し、および／または空間的に符号化されたサウンドトラックを生成するように構成された別個の処理装置（すなわち、ベースユニットおよびリモートマイクロフォン装置とは別個である）を備えることができる。例えば、これは、別個のコンピュータシステムまたはリモートサーバ（例えば、クラウドベースの処理サービス）を備えることができる。別個の処理装置を使用することは、リモートマイクロフォン装置および／またはベースユニットの複雑さ、コスト、サイズおよび／または電力需要を最小限に抑えることができ（著しい処理能力を提供する必要がない場合があるため）、これにより、いくつかの記録状況に対する装置の利便性を高めることができる。別個の処理装置はまた、ベースユニットまたはリモートマイクロフォン装置を更新する必要なく、アップグレードおよび／または適合されることもできる。例えば、追加の処理能力は、ベースユニットに対するハードウェアまたはソフトウェアの変更を実施する必要なく、（例えば、測位および／またはサウンドトラック生成を高速化または改善するために）処理装置に追加されることができる。これは、処理装置がクラウドベースの処理サービスの一部として提供される場合に特に有用とすることができる。

いくつかの実施形態では、装置（例えば、プロセッサまたは別個の処理装置）は、リモートマイクロフォン装置の決定された位置に少なくとも部分的に基づいてリモートオーディオ信号を自動的に処理するように構成されてもよい。例えば、装置は、マイクロフォンアレイによって生成された空間的に符号化された音場信号に現れる音源からの音を抑制するように構成されてもよい。

いくつかの実施形態では、装置は、ユーザに情報を出力するように構成された監視装置を備えることができる。例えば、監視装置は、リモートオーディオ信号または空間的に符号化された音場信号に関する情報（例えば、振幅、周波数応答）を（例えば、ディスプレイを介して）出力するように構成されてもよい。監視装置は、リモートマイクロフォン装置自体に関する情報（例えば、バッテリ寿命、利用可能な記憶スペース）を出力するように構成されてもよい。監視装置は、例えばスピーカまたはヘッドホンを介して、リモートオーディオ信号（またはリモートオーディオ信号の圧縮バージョン）を出力するように構成されてもよい。監視装置は、空間的に符号化されたサウンドトラック（または空間的に符号化されたサウンドトラックの大まかなバージョン）を出力するように構成されてもよい。監視装置は、リモートマイクロフォン装置の位置の表示を出力するように構成されてもよい。監視装置は、ベースユニットに統合されてもよく、またはベースユニットおよび／またはリモートマイクロフォン装置に無線で接続された別個の装置（例えば、スマートフォン）であってもよい。

監視装置は、記録のライブ監視を容易にするためにオーディオ捕捉中に情報を出力するように構成されてもよい。したがって、ユーザは、記録設定を評価し、問題を識別またはトラブルシューティングすることができる前に、（例えば、非圧縮の）記憶されたリモートオーディオ信号が関連する記憶部から取り出されるのを待つ必要がなくてもよい。リモートオーディオ信号／サウンドトラックのバージョンは、監視装置によって出力されてもよいが、（例えば、圧縮されていないリモートオーディオ信号を使用する）記録後に生成されるものと同じ品質または精度でなくてもよく、多くの場合、大まかな指示であっても、ユーザがエラーを検出し、および／または高品質の記録を保証するのに十分であり得る。

いくつかの実施形態では、空間的に符号化されたサウンドトラックは、リモートオーディオ信号用の別個のオーディオチャネルを含む。いくつかの実施形態では、空間的に符号化されたサウンドトラックは、チャネルベースのフォーマット（オーディオトラックがスピーカチャネルおよび構成、例えば５．１サラウンドサウンドに直接リンクされている）、シーンベースのフォーマット（オーディオトラックは、「スイートスポット」、例えば、アンビソニックス内の音場を記述する）、またはオブジェクトベースのフォーマット（オーディオトラックが個々の音源にリンクされ、その位置がメタデータとして記憶される）にしたがって符号化される。実施形態のセットでは、サウンドトラックは、オーディオ定義モデル（ＡＤＭ）、ＤｏｌｂｙＡｔｍｏｓ（登録商標）またはＭＰＥＧ－Ｈフォーマットなどの次世代オーディオ（ＮＧＡ）フォーマットまたは規格にしたがって符号化される。

いくつかの実施形態では、音声捕捉装置は、それぞれがマイクロフォンおよび関連する記憶部を備え、マイクロフォンを用いて音源に関連するリモートオーディオ信号を捕捉し、関連する記憶部に前記追加のリモートオーディオ信号を記憶するように構成された複数のリモートマイクロフォン装置を備えてもよい。いくつかのそのような実施形態では、装置は、各リモートマイクロフォン装置の位置を決定し、決定されたリモートマイクロフォン装置の位置にしたがってリモートオーディオ信号を使用して空間的に符号化されたサウンドトラックを生成するように構成されてもよい。

本発明の第２の態様から、
マイクロフォンアレイを備えるベースユニットと、
マイクロフォンと関連する記憶部とを備えるリモートマイクロフォン装置と、を使用して空間的に符号化された音場信号を生成する方法であって、前記方法が、
マイクロフォンアレイを使用して複数の成分を含む空間的に符号化された音場信号を生成することと、
マイクロフォンを用いて音源に関連するリモートオーディオ信号を捕捉することと、
前記リモートオーディオ信号を関連する記憶部に記憶することと、
リモートマイクロフォン装置の位置を決定することと、
決定されたリモートマイクロフォン装置の位置にしたがって、空間的に符号化された音場信号およびリモートオーディオ信号を使用して、空間的に符号化されたサウンドトラックを生成することと、
を含む、方法が提供される。

本明細書に記載された任意の態様または実施形態の特徴は、本明細書に記載された任意の他の態様または実施形態に適切な場合に適用されることができる。異なる実施形態または実施形態のセットを参照する場合、これらは必ずしも別個ではなく、重複してもよいことを理解されたい。

本発明の特定の例が、添付の図面を参照して、単なる例として説明される：
本発明の一実施形態にかかる、オーディオ捕捉中の音声捕捉装置の概略図である。図１のベースユニットのより詳細な概略図である。図１のリモートマイクロフォン装置のより詳細な概略図である。ドッキング構成における音声捕捉装置の概略図である。位置決定の１つの方法を示すフローチャートである。簡略化された三辺測量測位技術を示す概略図である。

図１は、ベースユニット４と、リモートマイクロフォン装置６と、例えばタブレットコンピュータの形態のディスプレイ９を備える監視装置８とを備える音声捕捉装置２を概略的に示している。

ベースユニット４は、４つのマイクロフォンを備えるマイクロフォンアレイ１０と、第１の組の電気コネクタ１６を備えるドッキング部１４とを備える。マイクロフォンアレイ１０の具体的な配置は詳細には示されていないが、マイクロフォンアレイ１０のマイクロフォンは、任意の方向からマイクロフォンアレイ１０に到達する音を捕捉するように構成されている。複数のマイクロフォンのそれぞれの位置および向きは、事前に正確に選択される。図２により詳細に示すように、ベースユニットは、プロセッサ１８と、ＲＦトランシーバ２０と、ユーザインターフェース２２と、ローカル記憶装置２４とをさらに備える。

リモートマイクロフォン装置６は、マイクロフォン２６と、関連する記憶部２８と、第１の組の電気コネクタ１６と嵌合するように適合された第２の組の電気コネクタ３２を備えるドッキング部３０とを備える。図３により詳細に示すように、リモートマイクロフォン装置６は、ＲＦトランシーバ３４と、バッテリ３６と、ユーザインターフェース３８とをさらに備える。マイクロフォン２６は、記憶部２８に記憶された単一（モノラル）のリモートオーディオ信号を出力するように構成される。

以下により詳細に説明するように、音声捕捉装置２は、個々の音源が高品質且つ高空間精度で捕捉されている、サウンドシーンの空間的に符号化されたサウンドトラックを生成するために使用されることができる。装置２はまた、記録のリアルタイム監視を容易にする。

図１に示すように、リモートマイクロフォン装置６は、話している人７の近くに配置され、したがって、サウンドシーン内の音源として機能する。サウンドシーンは、他の音源（図１には示されていない）も含む。リモートマイクロフォン装置６は、人７が動き回ってもその近くに留まるように、（例えば、控え目な小型タイプマイクロフォンとして）人７の衣服に取り付けられている。

上述したように、ベースユニット４のマイクロフォンアレイ１０は、任意の方向から到来する音を捕捉するように構成されている。したがって、マイクロフォンアレイ１０は、音場における他の音源とともに、人７からの音を捕捉する。マイクロフォンアレイ１０によって捕捉された音から、プロセッサ１８は、シーン内の全ての音源からの音を含む複数の成分（例えば、複数のアンビソニックスＡフォーマットまたはＢフォーマット信号）を含む空間的に符号化された音場信号を生成する。

しかしながら、マイクロフォンアレイ１０と人７との間の距離、および結果として低減された信号対雑音比に起因して、人７からの音声がマイクロフォンアレイ１０によって捕捉される音質が悪い場合がある。

リモートマイクロフォン装置６は、マイクロフォン２６によってリモートオーディオ信号を捕捉し、リモートオーディオ信号を関連する記憶部２８に記憶する。上述したように、リモートマイクロフォン装置６は、人７の近くに配置され、したがって、リモートオーディオ信号は、第１の人７からの音によって支配され、高い信号対雑音比が達成されることができる。したがって、人７からの音声は、リモートマイクロフォン装置６によって高品質で捕捉されることができる。リモートマイクロフォン装置６は、リモートオーディオ信号を圧縮することなく（すなわち、可能な限り高い品質で）関連する記憶部２８に記憶する。

音声捕捉中、音声捕捉装置２は、監視装置８を用いたユーザによる記録のリアルタイム監視を容易にするように構成される。これは、ユーザが、記憶されたリモートオーディオ信号が関連する記憶部２８から取り出されるのを待つ必要なく、記録の多くの態様を便利に監視することを可能にすることができる。これは、設定の誤り（例えば、誤って配置されたマイクロフォン）をより早く識別することを可能にするとともに、記録のオーディオ信号レベルまたは実際のオーディオコンテンツなどの特徴がリアルタイムで便利に監視されることを可能にする。

リアルタイム監視を容易にするために、リモートマイクロフォン装置６は、リモートマイクロフォン装置のＲＦトランシーバ３４からベースユニット４のＲＦトランシーバ２０にリモートオーディオ信号の圧縮バージョンをリアルタイムで（またはほぼリアルタイムで）送信する（ならびに、元の非圧縮バージョンを関連する記憶部２８に記憶する）ように構成される。リモートマイクロフォン装置６はまた、バッテリ３６のバッテリ残量または関連する記憶部２８内の利用可能な記憶スペースなど、監視目的に有用とすることができる追加情報をベースユニット４に送信することができる。

記憶されたリモートオーディオ信号に関連して以下により詳細に説明するものと同様のプロセスを使用して、ベースユニット４のプロセッサ１８は、受信されたリモートオーディオ信号の圧縮バージョンを空間的に符号化された音場信号の複数の成分と比較することによって、リモートマイクロフォン装置６の現在位置を決定する。リモートオーディオ信号の圧縮バージョンは、元の（関連する記憶部２８に記憶されている）ものよりも低いビットレート（すなわち、より低い品質）を有するが、監視目的のために依然として十分に正確であり得る位置の推定値が依然として決定されることができる。プロセッサ１８はまた、リモートオーディオ信号の圧縮バージョンを使用して、空間的に符号化されたサウンドトラックをリアルタイムで生成する。

次に、リモートマイクロフォン装置６から受信したリモートオーディオ信号の圧縮バージョン、決定された位置、空間的に符号化されたサウンドトラック、および任意の追加情報が、（例えば、図示されていない無線ネットワークを介して）監視装置８に送信される。そして、監視装置８は、監視目的に有用な情報をユーザに出力することができる。

記録が完了すると、ユーザは、（図４に示すように）リモートマイクロフォン装置６をベースユニット４のドッキング部１４上に置き、第１および第２の組の電気接点１６、３２を接触させる。これは、記録を停止し、（リモートマイクロフォン装置６の関連する記憶部２８に記憶されている）（高品質の）記憶されたリモートオーディオ信号をベースユニット４のローカル記憶装置２４に自動的に転送するようにリモートマイクロフォン装置４およびベースユニット６をトリガする。あるいは、（ベースユニット４に無線で送信される）リモートオーディオ信号の圧縮バージョンに存在しない、記憶されたリモートオーディオ信号の成分のみを含む補足信号が、リモートマイクロフォン装置６からベースユニット４のローカル記憶装置２４に転送されてもよい。次いで、圧縮バージョンと補足信号とを組み合わせることによって、ベースユニット４によって完全品質のリモートオーディオ信号が再構成されることができる。

第１および第２の組の電気接点１６、３２によって提供される一時的な有線接続は、リモートマイクロフォンユニットのバッテリ３６を充電するためにも使用される。

転送が完了すると、ベースユニット４のプロセッサ１８は、（完全品質の）リモートオーディオ信号を空間的に符号化された音場信号の複数の成分と比較して、リモートオーディオ信号の捕捉中のリモートマイクロフォン装置６の位置（または、オーディオ捕捉中に人が移動する場合には複数の位置）を決定する。そうするためのいくつかの可能な手法の具体的な詳細が、図５および図６を参照して以下に説明される。リモートオーディオ信号は、高品質（圧縮なし）で記憶されるため、プロセッサ１８は、位置を正確に決定することができる。もちろん、他の例では、この処理は、別個の処理装置（クラウドベースの処理サービスなど）によって実行されてもよい。

決定された位置を使用して、プロセッサ１８は、リモートオーディオ信号を、マイクロフォンアレイ１０によって捕捉された音場信号に組み込む（すなわち、人７の音声の高品質記録を含む）空間的に符号化されたサウンドトラックを生成する。

リモートオーディオ信号がベースユニット４に転送されると、別の記録を実行するために、リモートマイクロフォン装置６は、ベースユニット４のドッキング部１４から取り外されることができる。第１および第２の組の電気接点１６、３２を切断することは、記録を自動的にトリガして再び開始することができるが、代替的に、ベースユニット４のユーザインターフェース２２および／またはリモートマイクロフォン装置６のユーザインターフェース３８が使用されて記録を開始／停止することができる。

図１では、監視装置８は、リモートマイクロフォン装置６の位置の視覚的表示およびディスプレイ９上のリモートオーディオ信号の視覚的表現を出力するように示されている。もちろん、空間的に符号化されたサウンドトラックの視覚的表現またはリモートマイクロフォン装置６からの追加情報（例えば、バッテリ寿命、記憶スペース）などの他の情報もまた、（例えば、ユーザ選択にしたがって）ディスプレイ９上に出力されてもよい。監視装置８はまた、リモートオーディオ信号または空間的に符号化されたサウンドトラック自体を、ヘッドホン１１を介して出力してもよい。したがって、監視装置８は、ユーザが記録の様々な態様を便利に監視することを可能にする。

図５は、リモートマイクロフォン装置６の位置を決定する１つの方法を示すフロー図を示している。

まず、リモートオーディオ信号および複数の成分が特徴抽出処理される。ステップ５０２において、リモートオーディオ信号と複数の成分のそれぞれとの間の相関（クロススペクトル）の尺度が決定される。ステップ５０４において、システムのマイクロフォン間の時間遅延が、これらの測定値に基づいて決定される。ステップ５０６において、これらの時間遅延を使用して、リモートマイクロフォン装置６とマイクロフォンアレイ１０との間の向きが決定される。最後に、ステップ５０８において、（方位角仰角および距離の形態の）位置が、決定された時間遅延および決定された相関尺度の相対的な大きさに基づいて決定される。

プロセッサ１８（または別個の処理装置）がリモートマイクロフォン装置６の位置を決定することができるいくつかの手法があり、そのうちの２つは、以下に一般的な場合について詳細に説明される。

第１の手法では、マイクロフォンアレイは、

個のマイクロフォンからなり、アンビソニックＡフォーマット信号（すなわち、各マイクロフォンからの生出力）のセット

を出力し、各信号は、音源からの音を含む。ローカルマイクロフォン（例えば、リモートマイクロフォン装置６のマイクロフォン）は、音源からの音に対応するローカルマイクロフォン信号

（例えば、リモートオーディオ信号）を捕捉する。

Ａフォーマット信号が反射壁を有する部屋に配置された

個の独立した音源から構成されると仮定すると、第

のマイクロフォンの信号は、以下のように表されることができる：

、
ここで、

はノイズであり、

は第

の音源と第

のマイクロフォンとの間の部屋インパルス応答である。部屋インパルス応答は、以下のような

個の遅延反射からなると仮定される：

。

離散時間－周波数フーリエ領域では、時間

における第

。

は、サンプリング周波数である。下付き文字

は、読みやすさのために説明の残りについては省略される。位置を推定するために、直接音の到達時間

の推定が行われる。ＰＨＡｓｅ変換（ＰＨＡＴ）アルゴリズムは、ローカルマイクロフォン信号

およびＡフォーマット信号

に対して用いられる：

したがって、

に等しいマイクロフォン

から音源

までの距離が推定されることができ、ここで、

は音速である。

各マイクロフォンから音源までの距離が決定されると、マイクロフォンの位置とともにこれらの距離を使用する単純な代数的操作が、音源の位置を決定するために必要な全てとなる。図６は、このプロセスを２次元で示す簡略図であるが、理論は、完全な３Ｄ実装にも等しく適用可能である。

図６は、図１に示すマイクロフォンアレイと同等のマイクロフォンアレイを構成する３つのマイクロフォン２０２、２０４、２０６の位置を示している。音源２０８は、３つのマイクロフォン２０２、２０４、２０６ならびに近接して配置されたローカルマイクロフォン（図示せず）によって捕捉される音を生成する。上記と同様の方法を使用して、３つのマイクロフォン２０２、２０４、２０６のそれぞれから音源までの距離が決定される。決定された距離のそれぞれは、音源が位置する対応するマイクロフォンを中心とする円の半径を定義する。音源２０８の位置は、３つの円が一致する点を特定することによって決定されてもよい。

ここで、音源の位置を決定するための第２の手法について説明する。複数のマイクロフォンを備えるマイクロフォンアレイは、それぞれが音源からの音を含むアンビソニックＡフォーマット信号のセットを出力する。Ａフォーマット信号は、球面調和関数に分解された部屋の音場を含むアンビソニックＢフォーマット信号のセットを生成するために処理される。Ｂフォーマット信号のそれぞれは、ｍおよびｎを球面調和関数とラベル付けして

とラベル付けされる。好ましい例では、アンビソニックマイクロフォンは、ｎ＝ｍ＝０およびｎ＝１ｍ＝－１、０、１の場合に対応する４つの信号を出力する。これは、３つの直交して配置された８の字型マイクロフォン（ｎ＝１ｍ＝－１、０、１）と一致する無指向性マイクロフォン（ｎ＝ｍ＝１）から発するＡフォーマット信号と概念的に等価である。他の例では、高次球面調和関数が使用されることができる（Ｂフォーマット信号の数を増やす）。

前述のように、ローカルマイクロフォンは、音源からの音に対応するローカルマイクロフォン信号

を捕捉する。

この場合もやはり、

個の相関のない音源

は、反射壁を有する部屋においてモデル化される。この場合に得られるアンビソニックＢフォーマット信号は、以下のように書くことができる：

、
ここで、

は、部屋インパルス応答であり、

は、球面調和関数であり、

は、ノイズを表す。

部屋インパルス応答

は、以下のような

個の遅延反射からなると仮定される：

。

したがって、Ｂフォーマット信号のフーリエ変換は、以下のように書くことができる：

。

位置決めの対象となる、Ｂフォーマット信号

とマイクロフォン信号

との間のクロススペクトルが計算される：

クロススペクトルに対して逆フーリエ変換を実行することは、ｓ番目の音源の推定された自己相関関数

によって畳み込まれたマイクロフォン信号の部屋インパルス応答のアンビソニックＢフォーマット表現（すなわち、球面調和関数に分解される）を生成する：

。

このアンビソニック表現の切り捨てられた総和は、音源の方位角および仰角に対応する球面調和関数によって重み付けされた直接音自己相関の切り捨てられた総和を抽出する（すなわち、任意の反射を除外すること）：

切り捨て限界成分

は、ローカルマイクロフォン信号および

（全方向性Ｂフォーマット成分）に対してＰＨＡＴアルゴリズムを適用することによって、Ａフォーマット信号の場合と同じ方法で抽出される
ことができる。

は、

よりも小さいと仮定され、

のように選択される。

アンビソニックマイクロフォンに対する音源方向（方位角および仰角）は、以下のように

の成分を評価することによって抽出されることができる：

。

音源の位置を完全に定義するために、マイクロフォンアレイから音源までの距離（または範囲）もまたあ、決定されなければならない。これは、

を使用して計算されることができ、ここで、

は音速である。

上述した特定の実施形態は単なる例示であり、特許請求の範囲に定義される本発明の範囲内で多くの可能な変形および変更が想定される。

Claims

音声捕捉装置であって、
空間的に符号化された音場信号を生成するために複数のローカルオーディオ信号を捕捉するように構成されたマイクロフォンアレイを備えるベースユニットと、
マイクロフォンおよび関連する記憶部を備えるリモートマイクロフォン装置であって、前記マイクロフォンを用いて音源に関連するリモートオーディオ信号を捕捉し、前記リモートオーディオ信号を前記関連する記憶部に記憶するように構成されている、リモートマイクロフォン装置と、を備え、
前記装置が、
複数のローカルオーディオ信号を使用して、複数の成分を含む空間的に符号化された音場信号を生成し、
前記リモートマイクロフォン装置の位置を決定し、
前記決定されたリモートマイクロフォン装置の位置にしたがって、前記空間的に符号化された音場信号および前記記憶されたリモートオーディオ信号を使用して、空間的に符号化されたサウンドトラックを生成する、
ように構成されている、音声捕捉装置。
前記リモートオーディオ信号を前記空間的に符号化された音場信号の前記複数の成分と比較することによって前記リモートマイクロフォン装置の前記位置を決定するように構成されている、請求項１に記載の音声捕捉装置。
前記ベースユニットおよび前記リモートマイクロフォン装置が、無線リンクを介して通信するように構成されている、請求項１または２に記載の音声捕捉装置。
前記リモートマイクロフォン装置が、前記リモートマイクロフォン装置から前記ベースユニットに前記無線リンクを介して前記リモートオーディオ信号のバージョンを送信するように構成されている、請求項３に記載の音声捕捉装置。
前記無線リンクを介して送信された信号の１つ以上の特性を使用して、前記リモートマイクロフォン装置の前記位置を決定するように構成されている、請求項３または４に記載の音声捕捉装置。
前記リモートマイクロフォン装置が、前記記憶されたリモートオーディオ信号または前記記憶されたリモートオーディオ信号から導出された補足信号を、前記リモートマイクロフォン装置から前記ベースユニットに前記無線リンクを介して送信するように構成されている、請求項３から５のいずれか一項に記載の音声捕捉装置。
前記ベースユニットがプロセッサを備え、前記プロセッサが、前記リモートマイクロフォン装置の前記位置を決定し、前記リモートマイクロフォン装置の前記決定された位置にしたがって前記空間的に符号化された音場信号および前記リモートオーディオ信号を使用して前記空間的に符号化されたサウンドトラックを生成するように構成されている、請求項１から６のいずれか一項に記載の音声捕捉装置。
前記リモートマイクロフォン装置の前記位置を決定し、前記決定されたリモートマイクロフォン装置の位置にしたがって、前記空間的に符号化されたオーディオ信号および前記リモートオーディオ信号を使用して、前記空間的に符号化されたサウンドトラックを生成するようにさらに構成された別個の処理装置を備える、請求項１から７のいずれか一項に記載の音声捕捉装置。
前記リモートマイクロフォン装置および前記ベースユニットが、一時的な有線接続を形成するように構成され、前記リモートマイクロフォン装置が、前記記憶されたリモートオーディオ信号または前記記憶されたリモートオーディオ信号から導出された補足信号を、前記一時的な有線接続を介して前記ベースユニットに転送するように構成されている、請求項１から８のいずれか一項に記載の音声捕捉装置。
前記関連する記憶部が、取り外し可能な記憶装置を備える、請求項１から９のいずれか一項に記載の音声捕捉装置。
前記リモートオーディオ信号または前記空間的に符号化された音場信号に関する情報をユーザに出力するように構成された監視装置をさらに備える、請求項１から１０のいずれか一項に記載の音声捕捉装置。
前記リモートマイクロフォン装置の前記決定された位置に少なくとも部分的に基づいて前記リモートオーディオ信号を自動的に処理するように構成されている、請求項１から１１のいずれか一項に記載の音声捕捉装置。
前記マイクロフォンアレイによって生成された前記空間的に符号化された音場信号に現れる前記音源からの音を抑制するように構成されている、請求項１から１２のいずれか一項に記載の音声捕捉装置。
前記空間的に符号化されたサウンドトラックが、前記リモートオーディオ信号についての別個のオーディオチャネルを含む、請求項１から１３のいずれか一項に記載の音声捕捉装置。
それぞれがマイクロフォンおよび関連する記憶部を備える複数のリモートマイクロフォン装置を備え、前記複数のリモートマイクロフォン装置が、対応する複数のリモートオーディオ信号を捕捉するように構成され、前記装置が、
各リモートマイクロフォン装置の位置を決定し、
前記決定されたリモートマイクロフォン装置の位置にしたがって前記リモートオーディオ信号を使用して、前記空間的に符号化されたサウンドトラックを生成するようにさらに構成されている、請求項１から１４のいずれか一項に記載の音声捕捉装置。
前記リモートオーディオ信号を処理してクロストークを除去するように構成されている、請求項１５に記載の音声捕捉装置。
マイクロフォンアレイを備えるベースユニットと、
前記マイクロフォンと関連する記憶部とを備えるリモートマイクロフォン装置と、
を使用して空間的に符号化されたサウンドトラックを生成する方法であって、
前記マイクロフォンアレイを使用して複数の成分を含む空間的に符号化された音場信号を生成することと、
前記マイクロフォンを用いて音源に関連するリモートオーディオ信号を捕捉することと、
前記リモートオーディオ信号を前記関連する記憶部に記憶することと、
前記リモートマイクロフォン装置の位置を決定することと、
前記決定されたリモートマイクロフォン装置の位置にしたがって、前記空間的に符号化された音場信号および前記記憶されたリモートオーディオ信号を使用して、空間的に符号化されたサウンドトラックを生成することと、
を含む、方法。