JP2023054779A

JP2023054779A - 空間オーディオキャプチャ内の空間オーディオフィルタリング

Info

Publication number: JP2023054779A
Application number: JP2022159369A
Authority: JP
Inventors: ヘンリクマキネントニ; Henrik Maekinen Toni; タピオタンミミッコ; Tapio Tammi Mikko
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2021-10-04
Filing date: 2022-10-03
Publication date: 2023-04-14
Also published as: CN115942186A; GB202114187D0; US20230106162A1; EP4161105A1; GB2611357A

Abstract

【課題】リスナが体験する結果がより現実的になるような空間オーディオキャプチャを生成する装置及び方法提供する。【解決手段】空間アナライザは、複数マイクロフォンから複数オーディオ信号を取得し、取得した複数オーディオ信号を時間－周波数領域変換すると共に、ストリームオーディオ信号を生成する。空間アナライザはさらに、時間－周波数領域変換された複数オーディオ信号に基づいて、第１音源方向パラメータおよび第１音源エネルギー比パラメータと、第２音源方向パラメータおよび第２音源エネルギー比パラメータを決定し、これらのパラメータとストリームオーディオ信号を多重化してデータストリームを生成する。【選択図】図４

Description

本出願は、空間オーディオキャプチャ内の空間オーディオフィルタリングのための装置および方法に関する。

マイクロフォンアレイを用いた空間オーディオキャプチャは多くの場合、ビデオキャプチャと一緒に、モバイル装置およびカメラなどの多くの最新のデジタル装置において利用される。空間オーディオキャプチャは利用者にマイクロフォンアレイによってキャプチャされたオーディオシーンの体験を提供するために、ヘッドフォンまたはラウドスピーカを用いて再生され得る。

パラメトリック空間オーディオキャプチャ方法は多様なマイクロフォン構成および構成を用いた空間オーディオキャプチャを可能にし、したがって、携帯電話などの消費者デバイスにおいて使用され得る。パラメトリック空間オーディオキャプチャ方法は、複数マイクロフォンからの利用可能な情報を利用して、装置の周囲の空間オーディオフィールドを分析するための信号処理ソリューションに基づく。典型的には、これらの方法がマイクロフォンオーディオ信号を知覚的に分析して、周波数帯域内の関連情報を決定する。この情報は例えば、支配的な音源（または、音源またはオーディオ・オブジェクト）の方向、および、音源エネルギーと全体的な帯域エネルギーとの関係を含む。この決定された情報に基づいて、空間オーディオは例えば、ヘッドフォンまたはラウドスピーカを使用して再生することができる。したがって、最終的に、利用者またはリスナはキャプチャデバイスが記録しているオーディオシーンに存在するかのように、環境オーディオを体験することができる。

オーディオ分析および合成パフォーマンスが良好であればあるほど、利用者またはリスナが体験する結果はより現実的になる。

第１態様によれば、それぞれの複数マイクロフォンから複数オーディオ信号を取得するステップと、前記複数オーディオ信号の１つ以上の周波数帯域において、前記複数オーディオ信号の処理に基づいて、第１音源方向パラメータおよび第１音源エネルギーパラメータを決定するステップと、前記複数オーディオ信号の１つ以上の周波数帯域において、前記複数オーディオ信号の処理に基づいて、第２音源方向パラメータおよび第２音源エネルギーパラメータを決定するステップと、フィルタのための方向および／または範囲を定義する領域を取得するステップと、前記複数オーディオ信号に適用されるべき前記フィルタを生成するステップであって、フィルタ利得／減衰パラメータは、前記第１音源方向パラメータ、前記第１音源エネルギーパラメータ、前記第２音源方向パラメータ、および前記第２音源エネルギーパラメータに関する前記領域に基づいて生成される、ステップと、を実行するように構成された手段を備える装置が提供される。

複数オーディオ信号に適用されるフィルタを生成するように構成された手段であって、フィルタ利得／減衰パラメータは、第１音源方向パラメータ、第１音源エネルギーパラメータ、第２音源方向パラメータ、および第２音源エネルギーパラメータに関連する領域に基づいて生成され、第１音源方向パラメータは領域内または領域外にあることに基づいて第１帯域利得／減衰値を生成し、第２音源方向パラメータは領域内または領域外にあることに基づいて第２帯域利得／減衰値を生成し、第１帯域利得／減衰値と第２帯域利得／減衰値とを組み合わせて、合成帯域利得／減衰値を生成するように構成されることができる。

フィルタのための方向および／または範囲を定義する領域を取得するように構成された手段は、領域を定義する方向および範囲と、音源方向パラメータが領域内にあることに基づく帯域内利得／減衰係数と、音源方向パラメータが領域外にあることに基づく帯域外利得／減衰係数と、音源方向パラメータが領域内にあることに基づく帯域内利得／減衰係数とともに、領域を定義する方向および範囲と、音源方向パラメータがエッジゾーン領域内にあることに基づくエッジゾーン帯域利得／減衰係数とともに、音源方向パラメータが領域外にあることに基づく帯域外利得／減衰係数と、エッジゾーン領域を定義するさらなる範囲とのうちの少なくとも１つを取得するように構成され得る。

前記複数オーディオ信号に適用される前記フィルタを生成するように構成された手段であって、前記第１音源方向パラメータ、前記第１音源エネルギーパラメータ、前記第２音源方向パラメータ、および前記第２音源エネルギーパラメータに関連して前記領域に基づいてフィルタ利得／減衰パラメータが生成される、手段は、前記第１音源エネルギーパラメータの前記平均帯域値の時間平均に基づいて第１時間利得／減衰値を生成し、前記第１音源方向パラメータの前記回数が定義された時間期間にわたって前記領域内にあり、前記第２音源方向パラメータの前記平均帯域値の時間平均、および、前記第２の音源方向パラメータが前記領域内に存在する回数が定義された時間内に存在する回数に基づいて第２時間利得／減衰値を生成し、前記第１時間利得／減衰値と前記第２時間利得／減衰値との組合せに基づいて合成された時間的利得／減衰値を生成して、合成された時間的利得／減衰値を生成するように構成され得る。

複数オーディオ信号に適用されるフィルタを生成するように構成された手段であって、
フィルタ利得／減衰パラメータは、第１音源方向パラメータ、第１音源エネルギーパラメータ、第２音源方向パラメータ、および第２音源エネルギーパラメータに関連する領域に基づいて生成され、フレーム平均化された第１音源エネルギーパラメータとフレーム平均化された第２音源エネルギーパラメータとの組合せに基づいて合成フレーム平均値を生成するように構成され得る。フレーム平均値と、第１及び第２の音源方向パラメータがフレーム期間中にフィルタ領域内にある回数とに基づいてフレーム平滑化利得／減衰を生成することを実行するように構成された手段を備える装置が提供される。

複数オーディオ信号に適用されるフィルタを生成するように構成された手段であって、フィルタ利得／減衰パラメータは、第１音源方向パラメータ、第１音源エネルギーパラメータに関連する領域に基づいて生成される、手段は、第２音源方向パラメータ、および
第２音源エネルギーパラメータは、フレーム平滑化利得／減衰と、合成時間利得／減衰値と、合成帯域利得／減衰値との組合せに基づいて、フィルタ利得／減衰を生成するように構成され得る。

複数オーディオ信号の処理は、複数オーディオ信号に基づいて１つ以上の修正オーディオ信号を提供するように構成され得、複数オーディオ信号の１つ以上の周波数帯域において、複数オーディオ信号の処理に基づいて、第２音源方向パラメータおよび第２音源エネルギーパラメータを決定するように構成された手段は、複数オーディオ信号の１つ以上の周波数帯域において、修正オーディオ信号に基づいて、第２音源方向パラメータおよび第２音源エネルギーパラメータを決定するように構成できる。

複数オーディオ信号に基づいて１つ以上の修正されたオーディオ信号を提供するように構成された手段は、第１音源方向パラメータによって定義された第１音源の射影を用いて複数オーディオ信号を修正することに基づいて、修正された複数オーディオ信号を生成するようにさらに構成され得、複数オーディオ信号の１つ以上の周波数帯域において、少なくとも第２音源方向パラメータを、１つ以上の修正されたオーディオ信号の少なくとも一部に少なくとも部分的に基づいて、ように構成される前記手段は、複数オーディオ信号の１つ以上の周波数帯域において、修正された複数オーディオ信号を処理することによって、少なくとも第２音源方向パラメータを決定するように構成される。

フィルタの方向および／または範囲を規定する領域を取得するように構成された手段は、
ユーザ入力に基づいて領域を取得するように構成されてもよい。

第２態様によれば、装置のための方法であって、それぞれの複数マイクロフォンから複数オーディオ信号を取得するステップと、複数オーディオ信号の処理に基づいて、複数オーディオ信号の１つ以上の周波数帯域において、第１音源方向パラメータおよび第１音源エネルギーパラメータを決定するステップと、複数オーディオ信号の処理に基づいて、複数オーディオ信号の１つ以上の周波数帯域において、第２音源方向パラメータおよび第２音源エネルギーパラメータを決定するステップと、フィルタのための方向および／または範囲を定義する領域を取得するステップと、複数オーディオ信号に適用されるフィルタを生成するステップであって、フィルタ利得／減衰パラメータは、第１音源方向パラメータ、第１音源エネルギーパラメータ、第２音源方向パラメータ、および第２音源エネルギーパラメータに関する領域に基づいて生成される、ステップと、を含む方法が提供される。

複数オーディオ信号に適用されるフィルタを生成するステップであって、フィルタ利得／減衰パラメータが、第１音源方向パラメータ、第１音源エネルギーパラメータ、第２音源方向パラメータおよび第２音源エネルギーパラメータに関連する領域に基づいて生成される、ステップは、第１音源方向パラメータが領域内または領域外にあることに基づいて第１帯域利得／減衰値を生成するステップと、第２音源方向パラメータが領域内または領域外にあることに基づいて第２帯域利得／減衰値を生成するステップと、第１帯域利得／減衰値および第２帯域利得／減衰値を組み合わせて、合成された帯域利得／減衰値を生成するステップと、を含むことができる。

フィルタのための方向および／または範囲を定義する領域を取得するステップは、領域を定義する方向および範囲と、音源方向パラメータが領域内にあることに基づいて帯域内利得／減衰係数と、音源方向パラメータが領域外にあることに基づいて帯域外利得／減衰係数と、領域を定義する方向および範囲と、音源方向パラメータが領域内にあることに基づいて帯域内利得／減衰係数と、音源方向パラメータが領域内にあることに基づいた帯域内利得／減衰係数、および、音源方向パラメータが領域外にあることに基づいた帯域外利得／減衰係数が一緒に、領域を定義する方向と範囲と、音源方向パラメータがエッジゾーン領域内にあることに基づいて帯域外利得／減衰係数とが一緒に、エッジゾーン領域を定義するさらなる範囲とのうちの少なくとも１つを含むことができる。

複数オーディオ信号に適用されるフィルタを生成するステップであって、フィルタ利得／減衰パラメータが、第１音源方向パラメータ、第１音源方向パラメータ、第２音源方向パラメータ、および第２音源エネルギーパラメータに関連する領域に基づいて生成される、ステップは、第１音源エネルギーパラメータの平均帯域値の時間平均に基づいて第１時間的利得／減衰値を生成するステップと、第１音源エネルギーパラメータの平均帯域値の時間平均に基づいて第１音源方向パラメータを生成するステップと、第２音源方向パラメータの時間平均帯域値の時間平均および、前記第２の音源方向パラメータが前記領域内に存在する回数が定義された時間内に存在する回数に基づいて第２音源方向パラメータが定義された時間期間にわたって領域内にある回数を生成するステップと、時間的な利得／減衰の合成値を生成するために、第１時間的利得／減衰値と第２時間的利得／減衰値との組合せに基づいて合成時間的利得／減衰値を生成して合成時間的利得／減衰値を生成するステップと、を含むことができる。

複数オーディオ信号に適用されるフィルタを生成するステップは、第１音源方向パラメータ、第１音源エネルギーパラメータ、第２音源方向パラメータ、および第２音源エネルギーパラメータに関連する領域に基づいて生成されたフィルタ利得／減衰パラメータは、フレーム平均化された第１音源エネルギーパラメータとフレーム平均化された第２音源エネルギーパラメータとの組合せに基づいて、合成されたフレーム平均値を生成するステップと、フレーム期間にわたって、合成されたフレーム平均値と、第１および第２音源方向パラメータがフィルタ領域内にある回数と、に基づいて、フレーム平滑化利得／減衰を生成するステップとを含むことができる。

複数オーディオ信号に適用されるフィルタを生成するステップであって、フィルタ利得／減衰パラメータが、第１音源方向パラメータ、第１音源エネルギーパラメータ、第２音源方向パラメータ、および第２音源エネルギーパラメータに関連する領域に基づいて生成される、ステップは、フレーム平滑化利得／減衰と、合成時間利得／減衰値と、合成帯域利得／減衰値との組合せに基づいて、帯域に対するフィルタ利得／減衰を生成するステップを含むことができる。

複数オーディオ信号を処理するステップは、複数オーディオ信号に基づいて１つ以上の修正オーディオ信号を提供するステップを含むことができ、複数オーディオ信号の１つ以上の周波数帯域において、複数オーディオ信号の処理に基づいて、第２音源方向パラメータおよび第２音源エネルギーパラメータを決定するステップは、複数オーディオ信号の１つ以上の周波数帯域において、修正オーディオ信号に基づいて、第２音源方向パラメータおよび第２音源エネルギーパラメータを決定するステップを含むことができる。

複数オーディオ信号に基づいて１つ以上の修正されたオーディオ信号を提供するステップは、第１音源方向パラメータによって定義される第１音源の投影を用いて複数オーディオ信号を修正することに基づいて修正された複数オーディオ信号を生成するステップを含むことができる。複数オーディオ信号の１つ以上の周波数帯域において、少なくとも部分的に１つ以上の修正されたオーディオ信号に少なくとも部分的に基づいて少なくとも第２音源方向パラメータを決定するステップは、修正された複数オーディオ信号を処理することによって、複数オーディオ信号の１つ以上の周波数帯域において少なくとも第２音源方向パラメータを決定するステップを含む。

フィルタの方向および／または範囲を画定する領域を取得するステップは、ユーザ入力に基づいて領域を取得するステップを含むことができる。

第３態様によれば、少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリとを備える装置が提供され、少なくとも１つのメモリおよびコンピュータプログラムコードは、少なくとも１つのプロセッサを用いて、装置に、すくなくとも、それぞれの複数マイクロフォンから複数オーディオ信号を取得させ、複数オーディオ信号の１つ以上の周波数帯域において、複数オーディオ信号の処理に基づいて、第１音源方向パラメータおよび第１音源エネルギーパラメータを決定させ、複数オーディオ信号の処理に基づいて、第２音源方向パラメータおよび第２音源エネルギーパラメータを決定させ、フィルタのための方向および／または範囲を定義する領域を取得させ、複数オーディオ信号に適用されるフィルタを生成させ、ここで、フィルタ利得／減衰パラメータは、第１音源方向パラメータ第１音源エネルギーパラメータ、第２音源方向パラメータ、および、第２音源エネルギーパラメータに関する領域に基づいて、生成される。

複数オーディオ信号に適用されるフィルタを生成させる装置であって、フィルタ利得／減衰パラメータが、第１音源方向パラメータ、第１音源エネルギーパラメータ、第２音源方向パラメータ、および第２音源エネルギーパラメータに関連する領域に基づいて生成される、装置は、第１音源方向パラメータが領域内または領域外にあることに基づいて第１帯域利得／減衰値を生成させ、第２音源方向パラメータが領域内または領域外にあることに基づいて第２帯域利得／減衰値を生成させ、第１帯域利得／減衰値と第２帯域利得／減衰値とを組み合わせて、合成帯域利得／減衰値を生成させることができる。

フィルタの方向および／または範囲を定義する領域を取得させる装置は、音源方向パラメータが領域内にあることに基づく帯域内利得／減衰係数を有する、領域を定義する方向および範囲と、音源方向パラメータが領域外にあることに基づく帯域外利得／減衰係数と、音源の方向パラメータが領域内にあることに基づく帯域内利得／減衰係数を有する、領域を定義する方向および範囲と、音源方向パラメータが領域外にあることに基づく帯域外利得／減衰係数と、エッジゾーン領域内にある音源方向パラメータに基づくエッジゾーン帯域利得／減衰係数と、を有するエッジゾーン領域を定義する更なる範囲と、のうちの少なくとも１つを、取得することができる。

複数オーディオ信号に適用されるフィルタを生成することを引き起こされる装置であって、フィルタ利得／減衰パラメータが、第１音源方向パラメータ、第１音源エネルギーパラメータ、第２音源方向パラメータ、および、第２音源エネルギーパラメータに関連する領域に基づいて生成される、装置は、第１音源エネルギーパラメータの平均帯域値の時間平均に基づいて第１時間的利得／減衰値を生成するステップであって、前記第１の音源方向パラメータが前記領域内に存在する回数が、定義された時間内に存在する回数である、ステップと、第２音源エネルギーパラメータの平均帯域値の時間平均に基づいて第２時間的利得／減衰値を生成するステップであって、前記第２の音源方向パラメータが前記領域内に存在する回数が、定義された時間内に存在する回数である、ステップと、合成時間的利得／減衰値を生成するために、第１時間的利得／減衰値と第２時間的利得／減衰値との組合せに基づいて、合成時間的利得／減衰値を生成するステップと、を実行することができる。

複数オーディオ信号に適用されるフィルタを生成する装置であって、フィルタ利得／減衰パラメータが、第１音源方向パラメータ、第１音源エネルギーパラメータ、第２音源方向パラメータ、および第２音源エネルギーパラメータに関する領域に基づいて生成される、装置は、フレーム平均化された第１音源エネルギーパラメータとフレーム平均化された第２音源エネルギーパラメータとの組合せに基づいて、合成フレーム平均値を生成するステップと、合成フレーム平均値、および、フレーム期間にわたって、第１および第２音源方向パラメータがフィルタ領域内にある回数に基づいて、フレーム平滑化利得／減衰を生成するステップと、を実行することができる。

複数オーディオ信号に適用されるフィルタを生成する装置であって、フィルタ利得／減衰パラメータは、第１音源方向パラメータ、第１音源エネルギーパラメータ、第２音源方向パラメータ、および第２音源エネルギーパラメータに関する領域に基づいて生成される、装置は、フレーム平滑化利得／減衰、合成時間利得／減衰値、および合成帯域利得／減衰値の組合せに基づいて帯域のフィルタ利得／減衰を生成するステップを実行することができる。

複数オーディオ信号の処理は、複数オーディオ信号に基づいて１つ以上の修正オーディオ信号を提供するように構成されることができ、複数オーディオ信号の１つ以上の周波数帯域において、複数オーディオ信号の処理に基づいて第２音源方向パラメータおよび第２音源エネルギーパラメータを決定する装置は、複数オーディオ信号の１つ以上の周波数帯域において、修正オーディオ信号に基づいて第２音源方向パラメータおよび第２音源エネルギーパラメータを決定することができる。

複数オーディオ信号に基づいて１つ以上の修正されたオーディオ信号を提供することを引き起こされる装置はさらに、第１音源方向パラメータによって定義される第１音源の投影を用いて複数オーディオ信号を修正することに基づいて、修正された複数オーディオ信号を生成するステップを実行することができる。複数オーディオ信号のうちの１つ以上の周波数帯域において、少なくとも１つ以上の修正されたオーディオ信号に少なくとも部分的に基づいて、少なくとも第２音源方向パラメータを決定する装置は、修正された複数オーディオ信号を処理することによって、複数オーディオ信号のうちの１つ以上の周波数帯域において、少なくとも第２音源方向パラメータを決定する。

フィルタの方向および／または範囲を定義する領域を取得する装置は、ユーザ入力に基づいて領域を取得させることができる。

第４の態様によれば、それぞれの複数マイクロフォンから複数オーディオ信号を取得するための手段と、前記複数オーディオ信号の１つ以上の周波数帯域において、前記複数オーディオ信号の処理に基づいて、第１音源方向パラメータおよび第１音源エネルギーパラメータを決定するための手段と、前記複数オーディオ信号の処理に基づいて、前記複数オーディオ信号の１つ以上の周波数帯域において、第２音源方向パラメータおよび第２音源エネルギーパラメータを決定するための手段と、フィルタのための方向および／または範囲を定義する領域を取得するための手段と、前記複数オーディオ信号に適用されるべき前記フィルタを生成するための手段とを備える装置が提供される。ここで、フィルタ利得／減衰パラメータは、前記第１音源方向パラメータ、前記第１音源エネルギーパラメータ、
前記第２音源方向パラメータ、および前記第２音源エネルギーパラメータに関する前記領域に基づいて生成される。

第５の態様によれば、装置に、それぞれの複数マイクロフォンから複数オーディオ信号を取得するステップと、前記複数オーディオ信号の処理に基づいて、前記複数オーディオ信号の１つ以上の周波数帯域において、第１音源方向パラメータおよび第１音源エネルギーパラメータを決定するステップと、前記複数オーディオ信号の処理に基づいて、前記複数オーディオ信号の１つ以上の周波数帯域において、第２音源方向パラメータおよび第２音源エネルギーパラメータを決定するステップと、フィルタのための方向および／または範囲を定義する領域を取得するステップと、前記複数オーディオ信号に適用される前記フィルタを生成するステップと、を少なくとも実行させるための命令［またはプログラム命令を備えるコンピュータ可読媒体］を備えるコンピュータプログラムが提供される。ここで、
第１音源方向パラメータ、第１音源エネルギーパラメータ、第２音源方向パラメータ、および、第２音源エネルギーパラメータに関連する領域に基づいてフィルタのゲイン／減衰パラメータが生成される。

第６の態様によれば、装置に、それぞれの複数マイクロフォンから複数オーディオ信号を取得することと、複数オーディオ信号の処理に基づいて、複数オーディオ信号の１つ以上の周波数帯域において、第１音源方向パラメータおよび第１音源エネルギーパラメータを決定することと、複数オーディオ信号の処理に基づいて、複数オーディオ信号の１つ以上の周波数帯域において、第２音源方向パラメータおよび第２音源エネルギーパラメータを決定することと、フィルタのための方向および／または範囲を定義する領域を取得することと、複数オーディオ信号に適用されるフィルタを生成することと、を少なくとも実行させるためのプログラム命令を備える非一時的コンピュータ可読媒体が提供され、ここで、フィルタ利得／減衰パラメータは、第１音源方向パラメータ、第１音源エネルギーパラメータ、第２音源方向パラメータ、および第２音源エネルギーパラメータに関する領域に基づいて生成される。

第７の態様によれば、それぞれの複数マイクロフォンから複数オーディオ信号を取得するように構成された取得回路と、前記複数オーディオ信号の１つ以上の周波数帯域において、
前記複数オーディオ信号の処理に基づいて、第１音源方向パラメータおよび第１音源エネルギーパラメータを決定するように構成された決定回路と、前記複数オーディオ信号の処理に基づいて、前記複数オーディオ信号の１つ以上の周波数帯域において、第２音源方向パラメータおよび第２音源エネルギーパラメータを決定するように構成された決定回路と、フィルタのための方向および／または範囲を定義する領域を取得するように構成された取得回路と、前記複数オーディオ信号に適用されるべき前記フィルタを生成するように構成された生成回路とを備える、装置が提供される。ここで、フィルタ利得／減衰パラメータは、前記第１音源方向パラメータ、前記第１音源エネルギーパラメータ、前記第２音源方向パラメータ、および前記第２音源エネルギーパラメータに関する前記領域に基づいて生成される、

第８の態様によれば、装置に、それぞれの複数マイクロフォンから複数オーディオ信号を取得することと、複数オーディオ信号の処理に基づいて、複数オーディオ信号の１つ以上の周波数帯域において、第１音源方向パラメータおよび第１音源エネルギーパラメータを決定することと、複数オーディオ信号の処理に基づいて、第２音源方向パラメータおよび第２音源エネルギーパラメータを決定することと、フィルタのための方向および／または範囲を定義する領域を取得することと、複数オーディオ信号に適用されるフィルタを生成することと、を少なくとも実行させるためのプログラム命令を備えるコンピュータ可読媒体が提供される。ここで、フィルタ利得／減衰パラメータは、第１音源方向パラメータ、第１音源エネルギーパラメータ、第２音源方向パラメータ、および第２音源エネルギーパラメータに関する領域に基づいて生成される。

本願装置は、上述のような動作を実行するための手段を含む。

本願装置は、上述のような方法の動作を実行するように構成される。

本願コンピュータプログラムは、コンピュータに上述の方法を実行させるためのプログラム命令を含む。

媒体上に格納されたコンピュータプログラム製品は、装置に、本明細書で説明する方法を実行させることができる。

電子デバイスは、本明細書で説明されるような装置を備えることができる。

チップセットは、本明細書に記載の装置を備えることができる。

本出願の実施形態は、最新技術に関連する課題に対処することを目的とする。

本出願をより良く理解するために、ここで、例として添付の図面を参照する。
図１は、いくつかの実施形態による空間キャプチャおよび再生を実装するための例示的な装置を概略的に示す。図２は、いくつかの実施形態による、図１に示される装置の動作のフロー図を示す。図３は、いくつかの実施形態による、図１に示されるような例示的な空間アナライザを概略的に示す。図４は、いくつかの実施形態による、図３に示される例示的な空間アナライザの動作の流れ図を示す。図５は、音源が関心ゾーン内または外に位置する例示的な状況を示す。図６は、空間フィルタの信号レベルのグラフ例を示す。図７は、いくつかの実施形態による、２つの音源方向推定に基づいて、音源が関心ゾーン内にあることを決定する空間フィルタリング動作のフロー図を示す。図８は、いくつかの実施形態による、２つの音源方向推定に基づく空間フィルタリングのフロー図を示す。図９は、いくつかの実施形態による、図２に示されるような例示的空間シンセサイザを概略的に示す。図１０および図１１は実施形態を実施するのに適した先の図に示されるような装置を備える装置の例示的なシステムを概略的に示す。図１０および図１１は実施形態を実施するのに適した先の図に示されるような装置を備える装置の例示的なシステムを概略的に示す。図１２は、示される装置を実施するのに適した例示的なデバイスを概略的に示す。

以下の実施形態に関して本明細書でさらに詳細に説明する概念は、オーディオシーンのキャプチャに関する。例えば、以下の実施形態は、物／ソース関連オーディオ信号を決定するように構成されたキャプチャデバイス側内に実装することができる。例えば、いくつかの実施形態では、関心のあるセクタ／ゾーンに関する２つのソース方向推定値およびそれらの関連する直接周囲エネルギー比が、オブジェクト／ソース関連オーディオ信号を「フィルタリング」するためにフィルタ利得／減衰量を決定する際に使用され得る。この空間フィルタリングはオブジェクトオーディオ信号を生成するために、従来のビームフォーミングの代わりに（またはそれに加えて）使用され得る。以下の実施形態ではフィルタ利得パラメータについて説明するが、これらの同じアプローチを使用してフィルタ減衰パラメータを生成することができる。

さらに、以下の実施形態は、キャプチャされたオーディオが「ズーム」または「フォーカス」によって処理される再生デバイス内に実装することもできる。さらに、空間フィルタリングは、空間オーディオ信号合成動作の任意の部分として実施することができる。

以下の説明では、音源という用語が音場（またはオーディオシーン）内の（人工的または実際の）定義された要素を説明するために使用される。音源という用語はオーディオ・オブジェクトまたはオーディオ・ソースとして定義することもでき、これらの用語は、本明細書で説明する例の実装形態の理解に関して交換可能である。

本明細書の実施形態は、空間オーディオキャプチャ（ＳＰＡＣ）技術などのパラメトリックオーディオキャプチャ装置および方法に関する。時間－周波数タイルごとに、装置は支配的な音源の方向と、音源の直接および周囲成分の相対エネルギーとを推定するように構成され、これらは直接－全エネルギー比として表される。

以下の例は典型的なモバイルデバイス内に見られるような、困難なマイクロフォン構成または構成を有するデバイスに適しており、モバイルデバイスの寸法は、典型的には他の寸法に対して少なくとも１つの短い（または薄い）寸法を含む。本明細書に示される例では、
キャプチャされた空間オーディオ信号が、ヘッドホンリスニングのためのバイノーラルフォーマットオーディオ信号などの空間オーディオ信号を生成するために、またはラウドスピーカリスニングのためのマルチチャネル信号フォーマットオーディオ信号を生成するために、空間シンセサイザに適した入力である。

いくつかの実施形態では、これらの例が、ＩＶＡＳ互換オーディオ信号およびメタデータを生成することによって、イマーシブボイスアンドオーディオサービス（ＩＶＡＳ）標準コーデックのための空間キャプチャフロントエンドの一部として実装され得る。

オーディオシーン（空間オーディオ環境）は複合体であることができ、異なるスペクトル特性を有するいくつかの同時オーディオまたはサウンドソースを備えることができる。加えて、強いバックグラウンドノイズは、音源の方向を決定することを困難にし得る。これは（捕捉されたオーディオ信号によって表される）オーディオ技術分野をフィルタリングする際に問題を引き起こす可能性があり、これは、また、可聴音場からフィルタリングされる（または減衰される）はずのオーディオ技術分野内の音要素も、空間オーディオ分析の精度や信頼性が不十分なために、処理後の出力に漏れてしまうことを意味する。

さらに、同時音源、エコー、周囲音環境などの現実のオーディオ記録状況は、所望の音方向を良好なオーディオ品質で増幅および／または減衰することを困難にすることが多い。典型的には、空間オーディオキャプチャ方法では周波数帯域当たりの単一方向推定値のみが決定され、フィルタに渡される。したがって、同じ周波数帯域内に存在する２つの同時音方向に関連するオーディオ信号成分を区別し、したがって増幅／減衰することは、困難であるか、または事実上不可能であり得る。２つの同時オーディオソースのうちの少なくとも１つの方向が未知のままであるので、いわゆるオーディオズームまたはオーディオ集束アルゴリズムのためのさらなる問題が存在し得、その目的は指定された方向からのみ到着するオーディオ信号成分（音）を増幅し、他の方向を減衰させることである。「未知の」音源方向はズーム方向またはその付近に位置し得るが、適切なＤＯＡ推定なしに増幅することはできない。それに対応して、他の方向の効率的な減衰量は両方の音源のＤＯＡ推定値を必要とし、そうでない場合、アルゴリズムは、ズーム方向から遠い他の方向に位置する他の音源の単一のＤＯＡ推定値に基づいて、ズーム方向またはその付近の他の音源も偶然に減衰量させ得る。

本明細書で説明される実施形態は、各周波数帯域について改善された（複数の）２方向推定方法を実施することによって、ユーザによって要求されるように音源が増幅および／または減衰され得る方法を改善することを目的とする。推定方法は、フィルタリングのためのオーディオ環境および音源方向についての追加情報を提供する。言い換えれば、サブバンドごとに（複数の）２つの方向推定値およびそれらの直接周囲エネルギー比を提供し、より効率的な空間フィルタリングを可能にする。増大された効率は、（全ての）ＤＯＡ推定値およびそれらのエネルギー比の両方に対応する計算されたフィルタリング利得を組み合わせることに基づく。これは、代わりに、知覚されるオーディオズーム効果を増大および強化し、オーディオズームが音源の数および位置に関してより複雑なサウンド環境において使用されることを可能にする。実施形態はさらに、フィルタリング利得／減衰量の改善された導出に起因して、知覚されるオーディオ品質を改善することを目的とする。改善は、現在時刻フレームのためのフィルタリング利得を形成するときに、少なくとも１つの前のフレームのＤＯＡ推定値（例えば、最後の４０フレームからのＤＯＡ推定値）および（すべての）両方向のエネルギー比を考慮に入れることができることから生じる。

したがって、実施形態は、フィルタリングまたは減衰されるべきであった方向からの出力への「妨害」フィルタ漏れを防止することを目的とする。したがって、これは、知覚されるオーディオズーム効果を強化し、キャプチャ内にいくつかの音源が存在するときに、ユーザ体験を混乱させることを防止する。さらに、ターゲット（焦点）方向は、複雑な環境において他の音方向に対して効率的に増幅することができ、再度、ズーム効果体験を強化する。

したがって、本明細書で説明される実施形態は、複数マイクロフォンを用いたパラメトリック空間オーディオキャプチャに関する。さらに、少なくとも２つの方向およびエネルギー比パラメータが、複数マイクロフォンからのオーディオ信号に基づいて、時間周波数タイルごとに推定される。

これらの実施形態では、複数の音源方向検出精度の改善を達成するために、第２方向を推定するときに、第１推定された方向の効果が考慮される。これは、いくつかの実施形態では合成された空間オーディオの知覚品質の改善をもたらすことができる。

したがって、ＥＰ３７９１６０５に記載されているような同様の技術を使用することが可能であるが、本明細書に記載されているように実施することができる。

実際には、本明細書に記載の実施形態が、空間的により安定であり、（それらの正しい位置または実際の位置に関して）より正確であると知覚される音源の推定値を生成する。

図１に関して、本明細書に記載される実施形態を実施するのに適した装置の模式図が示される。

この例では、マイクロフォンアレイ１０１を備える装置が示される。マイクロフォンアレイ１０１は、オーディオ信号を捕捉するように構成された複数（２つ以上）のマイクロフォンを備える。マイクロフォンアレイ内のマイクロフォンは、任意の適切なマイクロフォンタイプ、配置、または配置であり得る。マイクロフォンアレイ１０１によって生成されたマイクロフォンオーディオ信号１０２は、空間アナライザ１０３に渡すことができる。

ホン装置はマイクロフォンオーディオ信号１０２を受信するか、そうでなければ取得するように構成された空間アナライザ１０３を備えることができ、各時間－周波数ブロックについて少なくとも２つの支配的な音またはオーディオソースを決定するために、マイクロフォンオーディオ信号を空間的に分析するように構成される。

空間アナライザは、いくつかの実施形態ではモバイルデバイスまたはコンピュータのＣＰＵであり得る。空間アナライザ１０３は、分析された空間情報１０４のメタデータと同様にオーディオ信号を含むデータストリームを生成するように構成される。

使用事例に応じて、データストリームは、格納または圧縮され、別の場所に送信され得る。

装置はさらに、空間シンセサイザ１０５を備える。空間シンセサイザ１０５は、オーディオ信号およびメタデータを含むデータストリームを取得するように構成される。いくつかの実施形態では、空間シンセサイザ１０５が（本明細書で図１に示すように）空間アナライザ１０３と同じ装置内に実装されるが、いくつかの実施形態ではさらに、異なる装置またはデバイス内に実装することができる。

空間シンセサイザ１０５は、ＣＰＵまたは同様のプロセッサ内に実装することができる。空間シンセサイザ１０５は、データストリーム１０４からのオーディオ信号および関連するメタデータに基づいて出力オーディオ信号１０６を生成するように構成される。

さらに、使用事例に応じて、出力信号１０６は、任意の適切な出力フォーマットとすることができる。例えば、いくつかの実施形態では、出力フォーマットがバイノーラルヘッドホン信号（同様、出力オーディオ信号を提示する出力装置はヘッドホン／イヤホンまたは同様のものセットである）、またはマルチチャネルラウドスピーカオーディオ信号（同様、出力装置はスピーカのセットである）である。出力デバイス１０７（上述のように、例えば、ヘッドフォンまたはラウドスピーカであり得る）は、出力オーディオ信号１０６を受信し、リスナまたはユーザに出力を提示するように構成され得る。

図１に示される例示的な装置のこれらの動作は図２に示されるフロー図によって示され得る。したがって、例示的な装置の動作は以下のように要約される。

ステップ２０１によって、図２に示されるようなマイクロフォンオーディオ信号を取得する。

マイクロフォンオーディオ信号を空間的に分析して、ステップ２０３によって図２に示されるように、各時間－周波数タイルについて、第１および第２オーディオソースの方向およびエネルギー比を含む空間オーディオ信号およびメタデータを生成する。

空間合成を空間オーディオ信号に適用して、ステップ２０５によって図２に示されるような適切な出力オーディオ信号を生成する。

ステップ２０７によって、図２に示されるように、出力オーディオ信号を出力デバイスに出力する。

いくつかの実施形態では、空間分析がＩＶＡＳコーデックに関連して使用することができる。この例では、空間分析出力がＩＶＡＳエンコーダに直接供給することができるＩＶＡＳ互換ＭＡＳＡ（メタデータ支援空間オーディオ）フォーマットである。ＩＶＡＳエンコーダは、ＩＶＡＳデータストリームを生成する。受信端において、ＩＶＡＳデコーダは、所望の出力オーディオフォーマットを直接生成することができる。言い換えれば、そのような実施形態では、別個の空間合成ブロックは存在しない。

参照番号１０３によって図１に示される空間アナライザは、図３に関してさらに詳細に示される。

いくつかの実施形態では、空間アナライザ１０３がストリーム（搬送）オーディオ信号生成器３０７を備える。ストリームオーディオ信号生成器３０７はマイクロフォンオーディオ信号１０２を受信し、マルチプレクサ３０９に渡されるストリームオーディオ信号３０８を生成するように構成される。オーディオストリーム信号は、任意の適切な方法に基づいて入力マイクロフォンオーディオ信号から生成される。たとえば、いくつかの実施形態では、１つまたは２つのマイクロフォン信号がマイクロフォンオーディオ信号１０２から選択され得る。代替として、いくつかの実施形態では、マイクロフォンオーディオ信号１０２がストリームオーディオ信号３０８を生成するためにダウンサンプリングおよび／または圧縮され得る。

以下の例では、空間分析は周波数領域で実行されるが、いくつかの実施形態では分析がマイクロフォンオーディオ信号の時間領域サンプリングバージョンを使用して時間領域で実施することもできることが理解される。

いくつかの実施形態では、空間アナライザ１０３が時間周波数変換器３０１を備える。時間周波数変換器３０１はマイクロフォンオーディオ信号１０２を受信し、それらを周波数領域に変換するように構成される。いくつかの実施形態では、変換前に、時間領域マイクロフォンオーディオ信号はｔが時間インデックスであり、ｉがマイクロフォンチャンネルインデックスである、ｓ_ｉ（ｔ）として表すことができる。

周波数領域への変換は、ＳＴＦＴ（Ｓｈｏｒｔ－ｔｉｍｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）またはＱＭＦ（Ｑｕａｄｒａｔｕｒｅｍｉｒｒｏｒｆｉｌｔｅｒ）などの任意の適切な時間－周波数変換によって実施することができる。結果として生じる時間－周波数領域マイクロフォン信号３０２は、Ｓ_ｉ（ｂ，ｎ）として示される。ｉは、マイクロフォンチャネルインデックスであり、ｂは、周波数ビンインデックスであり、ｎは、時間フレームインデックスである。ｂの値は、０、．．、Ｂ－１の範囲にあり、ここで、Ｂは、各時間インデックスｎにおけるビンインデックスの数である。

周波数ビンはさらに、サブバンドｋ＝０、．．、Ｋ－１に結合することができる。各サブバンドは、１つ以上の周波数ビンからなる。各サブバンドｋは、最低のビンｂ_{ｋ，ｌｏｗ}と、最高のビンｂ_{ｋ，ｈｉｇｈ}とを有する。サブバンドの幅は典型的には人間の聴力の特性に基づいて選択され、例えば、等価矩形帯域幅（ＥＲＢ）またはバークスケールを使用することができる。

いくつかの実施形態では、空間アナライザ１０３が第１方向アナライザ３０３を備える。第１方向アナライザ３０３は、時間－周波数領域マイクロフォンオーディオ信号３０２を受信し、（第１）第１方向３１４および（第１）第１比率３１６の時間－周波数区画ごとに第１音源の推定値を生成するように構成される。

第１方向アナライザ３０３は、（ＵＳ９３１３５９９にさらに詳細に記載されているように）ＳＰＡＣのような任意の適切な方法に基づいて、第１方向についての推定値を生成するように構成される。

いくつかの実施形態では、例えば、時間的フレームインデックスの最も支配的な方向は、
サブバンドｋの２つの（マイクロフォンオーディオ信号）チャネル間の相関を最大化する時間シフトτ_ｋを探索することによって推定される。Ｓ_ｉ（ｂ，ｎ）は、τサンプルによって、

のようにシフトすることができる。次いで、２つのマイクロフォンチャネル間の相関を最大化する各サブバンドｋについての遅延τ_ｋを求める。

上記の式において、「最適である」遅延は、マイクロフォン１と２との間で探索される。Ｒｅは結果の実部を示し、＊は信号の複素共役である。遅延探索範囲パラメータＤ_ｍａｘは、マイクロフォン間の距離に基づいて定義される。言い換えれば、τ_ｋの値は、マイクロフォン間の距離および音速を考慮して物理的に可能な範囲でのみ探索される。

次いで、第１方向の角度は、

のように定義することができる

示されるように、角度の符号の不確実性が依然として存在する。上記では、マイクロフォン１とマイクロフォン２との間の方向分析を定義した。次いで、他のマイクロフォンペア間でも同様の手順を繰り返して、曖昧さを解消する（および／または別の軸を参照して方向を得る）ことができる。言い換えれば、他の分析ペアからの情報を利用して、

における、符号の曖昧さを取り除くことができる。

例えば、マイクロフォンアレイが３つのマイクロフォンを含む場合、第１マイクロフォン、第２マイクロフォン、および第３マイクロフォンは、第１軸において距離だけ離間された第１対のマイクロフォン（第１マイクロフォンおよび第３マイクロフォン）と、第２軸において距離だけ離間された第２対のマイクロフォン（第１マイクロフォンおよび第２マイクロフォン）とがある構成で配置される（この例では第１軸は第２軸に対して垂直である）。さらに、この例では、３つのマイクロフォンが、第１および第２軸に垂直な（図が印刷される紙面に垂直である）ものとして定義される同じ第３軸上にあることができる。マイクロフォンの第２対の間の遅延の分析は、２つの代替的な角度、αおよび－αをもたらす。第２対のマイクロフォン間の遅延の分析を使用して、代替角度のうちのどれが正しいかを決定することができる。いくつかの実施形態では、この分析から必要とされる情報が、音が最初にマイクロフォン１または３に到着するかどうかである。音がマイクロフォン３に到達する場合、角度αは正しい。そうでない場合、－αが選択される。

さらに、いくつかのマイクロフォン対の間の推論に基づいて、第１空間アナライザは、正しい方向角度

を決定または推定することができる。

限られたマイクロフォン構成または配置、例えば２つのマイクロフォンのみが存在するいくつかの実施形態では、方向の曖昧さを解決することができない。そのような実施形態では、空間アナライザがすべてのソースが常に装置の前にあることを定義するように構成される。この状況は３つ以上のマイクロフォンがある場合にも同じであるが、それらの位置は例えば裏分析を可能にしない。

本明細書では開示されていないが、垂直軸上のマイクロフォンの複数の対は仰角および方位角推定値を決定することができる。

第１方向アナライザ３０３はさらに、例えば、

によって、それを正規化した後の相関値を使用して、角度に対応するエネルギー比を決定または推定することができる。

値は－１～１であり、典型的には、０～１にさらに制限される。

いくつかの実施形態では、第１方向アナライザ３０３が修正された時間周波数マイクロフォンオーディオ信号３０４を生成するように構成される。修正された時間周波数マイクロフォンオーディオ信号３０４は、第１音源成分がマイクロフォン信号から除去されるものである。

したがって、例えば、第１マイクロフォン対（マイクロフォン１および２）に関して。
サブバンドｋについては最高の相関を提供する遅延が各サブバンドｋについて、第２マイクロフォン信号はシフトされた第２マイクロフォン信号を得るためにシフトされたサンプルである。

音源成分の推定値は、これらの時間整合された信号の平均

として決定することができる。

いくつかの実施形態では、音源成分を決定するための任意の他の適当な方法を使用することができる。

（例えば、上記の例の式において）音源成分の推定値を決定すると、これをマイクロフォンオーディオ信号から除去することができる。一方、同時音源は同相ではなく、そのため、同時音源は減衰される。これで、（シフトされた、およびシフトされていない）マイクロフォン信号

から低減することができる。さらに、シフトされた修正されたマイクロフォンオーディオ信号は、シフトバックされて

、サンプル

を取得する

これらの修正された信号

および

は、次いで、第２方向アナライザ３０５に渡され得る。

いくつかの実施形態では、空間アナライザ１０３が第２方向アナライザ３０５を備える。第２方向アナライザ３０５は、時間周波数マイクロフォンオーディオ信号３０２、修正された時間周波数マイクロフォンオーディオ信号３０４、第１方向３１４、および第１比３１６を推定し、第２方向３２４および第２比３２６推定値を生成するように構成される。

第２方向パラメータ値の推定は第１方向推定と同じサブバンド構造を採用することができ、
第１方向推定について前述したのと同様の動作に従うことができる。

したがって、第２方向パラメータを推定することが可能である。そのような実施形態では、
修正された時間周波数マイクロフォンオーディオ信号３０４

および

が、時間周波数マイクロフォンオーディオ信号３０２ではなく、方向推定を決定するために使用される。

さらに、いくつかの実施形態ではエネルギー比は限定されるが、第１および第２比の合計は２つ以上になるべきではない。

いくつかの実施形態では、第２比は

または

ここで、関数ｍｉｎは、提供された選択肢のうちの小さい方を選択する。両方の代替オプションは、良好な品質比値を提供することが分かっている。

上記の例では、いくつかのマイクロフォン対があるので、修正された信号は各対、すなわち、

について別々に計算されなければならず、すなわち、
マイクロフォン対マイクロフォン１および３、または対マイクロフォン１および２を考慮するとき、同じ信号ではないことに留意されたい。

第１方向推定値３１４、第１比推定値３１６、第２方向推定値３２４、第２比推定値３２６は、推定値とストリームオーディオ信号３０８とを組み合わせることからデータストリーム１０４を生成するように構成されたマルチプレクサ（ｍｕｘ）３０９に渡される。

図４に関して、図３に示される空間アナライザの例示的な動作を要約する流れ図が示される。

マイクロフォンオーディオ信号は、ステップ４０１によって図４で示すように得られる。

次いで、ステップ４０２によって、図４に示すように、マイクロフォンオーディオ信号からストリームオーディオ信号が生成される。

マイクロフォンオーディオ信号はさらに、ステップ４０３によって、図４に示されるように、時間－周波数領域変換され得る。

次いで、ステップ４０５によって、図４に示すように、第１方向および第１比パラメータ推定値を決定することができる。

次いで、ステップ４０７によって、図４に示すように、時間周波数領域マイクロフォンオーディオ信号を修正する（第１ソース成分を除去する）ことができる。

次いで、ステップ４０９によって、図４に示されるように、修正された時間周波数領域マイクロフォンオーディオ信号が、第２方向および第２比パラメータ推定値を決定するために分析される。

次いで、ステップ４１１によって、図４に示されるように、第１方向、第１比、第２方向、および第２比パラメータ推定値およびストリームオーディオ信号が多重化されて、データストリーム（ＭＡＳＡフォーマットデータストリームであり得る）が生成される。

以下の例では、いくつかの利得パラメータが決定または計算され、フィルタリング処理を調整するように設定される空間フィルタリング方法および装置が説明される。これらの利得は、帯域ごとの利得、履歴ベースの（時間的）利得、およびフレームベースの平滑化利得に分割され得る。

以下の例では、サブバンドごとの２つの推定された方向（ＤＯＡ）が直接周囲（ＤＡ）比推定値を与えられ、これは基本的に、対応する方向推定値のうちのどれだけ大きい部分が「直接」信号部分と見なされ、どれだけが「周囲」信号部分と見なされるかを示す。これらの例では直接という用語が音源から直接到着する信号を指し、周囲は環境内に存在するエコーおよびバックグラウンドノイズを指す。各サブバンドｂに対する信号の直接成分および周囲成分は範囲［０，１］を有することができ、

のように定義される。

いくつかの実施形態では、方法が、２つの方向推定値のいずれかまたは両方が関心セクタの内側に位置しないかどうかを、サブバンドを通してチェックすることによって、空間フィルタリングゾーン（焦点の関心セクタまたはズームセクタとしても定義され得る）の方向および範囲を取得した後に開始する。以下の例では、空間フィルタリングが関心のあるセクタ内のオーディオ信号が関心のあるセクタの外側のオーディオ信号に対して増加される、ポジティブノッチフィルタリングである。しかしながら、いくつかの実施形態では、空間フィルタリングは負のノッチフィルタリングであり、関心のあるセクタ内のオーディオ信号は関心のあるセクタの外側のオーディオ信号と比較して減少する。２つの間の差異は、
セクタ利得がポジ型の空間切り欠きフィルタをもたらすセクタ外利得よりも大きいかどうか、または、セクタ利得が負の空間切り欠きフィルタをもたらすセクタ外利得よりも小さいかどうかであることが理解されよう。

これら３つの主要なシナリオの簡略化された図が、図５に関して示される。

この例では音はセクタ内で増幅され、セクタ外で減衰されるが、処理は方向推定のＤＡ比によっても著しく影響される。

例えば、ＤＡ比推定値は、実際の方向推定値に対する重みとして考えることができる。以下の表中の数字は、フィルタ例利得Ｇ（ｂ）を導出することに対するそれらの効果の基本原理を実証するための例にすぎない。最初の２つの列は２つのソースのいずれかが周囲のような音として推定される場合を示しており、これは、その方向推定がフィルタリングのためにそのように使用されるべきではないことを意味する。

したがって、低いＤＡ比値は対応する方向推定が実際の音源によって引き起こされない可能性があることを示すことができ、いくつかのケースではキャプチャ中に活性直接音源がないか、または１つの音源のみがある。いくつかの実施形態では、セクタエッジはまた、セクタエッジにおける急激な利得変化を回避するために、適用されたサブバンド利得が線形に平滑化される領域を有することができる。

したがって、図５に示されるように、第１シナリオ５０１があり、両方の音源がセクタ内にあり、その結果、各方向推定ｇ１（ｂ）に対応するフィルタリング利得が生じ、ｇ２（ｂ）が両方とも１より大きく、したがって、空間利得Ｇ（ｂ）が１より大きい値を生じる。

第２シナリオ５０３が示されており、音源のうちの１つは一方向推定（第１ｇ１（ｂ））に対応するセクタフィルタリング利得内にあり、他方（第２ｇ２（ｂ））は１よりも大きく、したがって、空間利得Ｇ（ｂ）は１に近似する値をもたらす。

さらに、第３シナリオ５０５が示されており、音源の両方がセクタの外側にあり、その結果、各方向推定ｇ１（ｂ）に対応するフィルタリング利得が得られ、ｇ２（ｂ）が１未満であり、したがって、空間利得Ｇ（ｂ）が１未満の値になる。

いくつかの実施形態では、任意のエネルギー調整前の入力信号スペクトルＸ（ｂ）のサブバンドｂのエネルギーが以下のように推定することができる。

ここで、

は時間フレーム間のエネルギーレベルを平滑化するために、前の時間フレームエネルギーのどれだけ大きな部分が含まれるかを定義する。各サブバンドｂにおけるエネルギーは最初のフレームの前に、

に初期化することができる。

いくつかの実施形態では、帯域利得が帯域の方向推定ｄ１およびｄ２に基づいて、サブバンドｂごとに導出される。方向推定値は、フォーカスセクタの内側、フォーカスセクタの外側、またはセクタエッジの近くの領域（いわゆるエッジゾーン）に位置し得る。サブバンドｂのための第１方向推定ｄ１のための直接エネルギー成分は、以下のように修正することができる。

ここで、ｉｎＧａｉｎおよびｏｕｔＧａｉｎは、調整可能であり、および／または、ユーザ定義パラメータであり、焦点セクタの内側および外側のソースの焦点効果強度を制御し、

ここで、ａｎｇｌｅＤｉｆｆ１は第１方向推定ｄ１とセクタエッジとの間の観測された角度差であり、一方、ｅｄｇｅＷｉｄｔｈはエッジゾーンの幅、例えば、２０度である。さらに、いくつかの実施形態では、サブバンドｂのための第１方向推定のための周囲信号部分が以下のように変更され得る。

その後、サブバンドｂの総エネルギー調整が計算される。

エネルギー調整後の帯域ｂについて、最初のフレームの前に０に初期化される目標エネルギーは、次のように定義することができる。

その後、第１方向推定ｄ１に対応するサブバンドｂの実際のバンド利得値は、

として計算される。

第２方向推定ｄ２を考慮に入れるために、ｇ２（ｂ）利得値はｇ１（ｂ）値と同様に計算され、その後、利得は全体的な帯域利得

を得るために乗算される。

さらに、いくつかの実施形態では、時間にわたってフィルタリング利得を平滑化するために、時間フィルタリング利得が両方向推定ｄ１およびｄ２のためのサブバンドごとに計算される。これにより、フィルタゲイン全体で不自然なポンプや切り欠きが発生するのを防ぐ。多くの場合、推定された音源ＤＡ比値はサブバンドにわたって変化し得、そのため、フィルタリング周波数範囲全体にわたってＤＡ比を平均することは音環境が現在時刻フレームｆにおいてどの程度周囲環境にあるかの良好な推定を提供する。比率平均値は以下のように、第１方向推定のために各フレームで計算される。

ここで、ｂ_ｌｏｗはフィルタリングされるべき最も高い周波数サブバンドであり、ｂ_ｈｉｇｈは、最も高い周波数サブバンドをｈｉｇｈする（ｌｏｗ）。加えて、過去の比率平均値の追跡が好ましい数の過去のフレーム、すなわち、ユーザ定義および／または調整可能なパラメータであり得る履歴長さにわたって維持される。次いで、計算された平均比は、時間比平均を得るために履歴セグメントにわたってさらに平均化される。

ここで、ｆｒａｍｅｓは履歴セグメント内のフレームの数であり、例えば、６０である。第２方向推定ｄ２について、時間的比率平均は、

のようにさらにスケーリングされる。これは、元のＤＡ比スケールよりも重みのフィルタリングに適している。各サブバンドｂおよび両方向推定ｄ１およびｄ２について、フォーカスセクタ内の過去の方向推定の量も、ブールフラグ（現在のフレームｆにおけるサブバンドの方向推定がフォーカスセクタ内にあるか否かを示す）を使用して追跡される。

履歴区分がそのようなフラグで満たされると、ｄ１、Ｎ１Ｔ（ｂ）のそれぞれのサブバンドｂにおける「真の」フラグの個数が仮スケーリング変数

を得るために使用され、ここで、ｔｅｍｐＧａｉｎは、典型的な数値［１．０、…、６．０］を有するチューナブルおよび／またはユーザ定義パラメータである。見て分かるように、スケーリング変数は「真」フラグが減少することにつれて減少し、逆もまた同様である。最後に、ｄ１の時間的利得は、バイアスが０と１との間の定数であるとき

として計算され、時間的利得を導出する際にＤＡ比値に対してどれだけの重みが与えられるかを制御する。典型的には、値は～０．４～０．６に設定することができる。

過去のＮ１Ｔ（ｂ）におけるそれぞれのサブバンドｂにおけるセクタ内部の方向推定の個数は、

のように、後の使用のためにいわゆるアッテネーション状態を提供するためにも使用することができる。

方向推定値ｄ２に対する時間的利得はｄ１に対するものと同様に計算され、実際の時間的フィルタ利得は乗算

によって得られる。

いくつかの実施形態では、単一の時間フレーム内のすべてのサブバンドにわたる方向推定が音環境内に存在する音源の数およびタイプに応じて著しく変化し得る。したがって、各フレームにおけるスペクトル包絡線内の突然のポンプおよび切り欠きを防止するために、スペクトルを平滑化するために、追加のフレーム平滑化利得が必要とされる。まず、ｄ１とｄ２の比率手段の和を、

のように算出することができる。次に、フレーム内の全方向推定値Ｎに対するセクタ内推定値Ｎｉｎの比率を使用して、平滑化係数

を計算する。これはフレームゲイン計算

に適用される。ここで、ｓｍｏｏｔｈＧａｉｎは一般的な値［１．０、．．．２．０］のチューニング可能なゲインパラメータである。値を大きくすると、より効率的なフィルタリング性能が得られるが、キャプチャに大きなバックグラウンドノイズが存在する場合は特に、不要なゲインレベルのポンピングが発生する可能性がある。

以前に導出された減衰状態は、各サブバンドに対する実際のフィルタ平滑化利得

を計算するために使用される。ここで、

は、調整可能な減衰利得である。ｄ２に対する平滑化利得も同様に計算され、全体の平滑化利得は乗算によって得られる。

帯域利得、時間利得、およびフレーム利得の全ての異なる利得タイプが計算されると、
実際の出力フィルタ利得は、

のように、各サブバンドｂについて決定または計算され得る。出力は圧縮され、次の処理チェーンで使用可能なヘッドルームに応じて制限される。

本明細書に記載の実施形態を実施する利点の例を図６に示す。具体的には、図６がサブバンド６０１ごとに単一方向推定のみを使用する既知の空間フィルタの出力信号レベルをｄＢで示し、いくつかの実施形態６０３による空間フィルタアプローチを示す。この例では、オーディオフォーカス方向が装置の正面に直接設定され、信号は最初に装置の正面で発話し、次いで、信号の中央で装置の背後に移動し、最後に装置の正面に再び戻るスピーカからなる。さらに、音楽は、キャプチャデバイスの左側に位置するスピーカから再生される。平均して、実施形態は、公知方法と比較して、前部からのオーディオを約２～３ｄＢ増幅することが分かる。

加えて、実施形態はまた、既知の空間フィルタリング方法と比較して、装置２～３ｄＢの後方からのオーディオをより減衰させ、これは、実施形態が全体として平均４～６ｄＢで全体的な焦点効果利得を増加させることを意味する。これは、ほとんどの場合において、知覚されるオーディオズーム体験を改善する、明確に可聴で有意な差である。方向推定ｄ１およびｄ２が捕捉から推定され得る限り、空間フィルタは、推定ｄ１のみを有する場合と比較して、常にその性能を改善することができる。

図７に関して、本明細書に記載される実施形態の動作の概要が示される。

第１動作はステップ７０１によって、図７に示すように、サブバンドｂのｄ１およびｄ２の方向推定値を計算または決定することである。

次に、ステップ７０３によって、図７に示すように、第１チェックを実施して、ｄ１がセクタ内にあるかどうかを判定することができる。

ｄ１がセクタ内にある場合、ステップ７０５によって、図７に示すように、ｄ２がセクタ内にあるかどうかを決定するためにさらなるチェックを行うことができる。

ｄ１とｄ２の両方がセクタ内にある場合、サブバンドｂは図７０７に示すように、ｄ１とｄ２の両方の関連推定値のＤＡ比に従って増幅される。

ｄ１がセクタ内にない場合、ステップ７０９によって、図７に示すように、ｄ２がセクタ内にあるかどうかを決定するためにさらなるチェックを行うことができる。

ｄ１はセクタ内にあるが、ｄ２はセクタ内にない、または、ｄ１はセクタ内にないがｄ２はセクタ内にある場合、サブバンドｂは、セクタ内推定のＤＡ比に従って増幅され、ステップ７１１によって図７に示されるように、セクタ外推定のＤＡ比に従ってサブバンドｂを減衰させることができる。

ｄ１とｄ２の両方がセクタの外側にある場合、サブバンドｂは図７１３に示すように、ｄ１とｄ２の両方の関連推定値のＤＡ比に従って減衰される。図８に関して、いくつかの実施形態による利得の生成を示す流れ図が示される。

したがって、いくつかの実施形態では、帯域利得ｇ（ｂ）がステップ８０１によって、図８に示されるように、両方向

について計算される。

次いで、いくつかの実施形態では、帯域利得がステップ８０３によって、図８に示されるように、合成帯域利得

を生成するために、一緒に乗算される。

次に、ステップ８０５によって、図８に示されるように、時間的ゲインｇ１_ｔ（ｂ）、ｇ２_ｔ（ｂ）が、サブバンド毎に生成される。

次いで、時間的利得はステップ８０７によって、図８に示されるように、結合された時間的利得

を生成するために、一緒に乗算され得る。

次いで、フレーム平滑化ゲインｇ１_ｓ（ｂ）、ｇ２_ｓ（ｂ）がサブバンドおよび方向ごとに、ステップ８０９によって図８に示されるように決定され得る。

次いで、フレーム平滑化利得はステップ８１１によって、図８に示されるような合成フレーム平滑化利得

を生成するために、ともに乗算され得る。

次いで、ステップ８１３によって図８に示されるように、結合フレーム平滑化利得、結合時間利得、および結合帯域利得

を乗算することによって、サブバンドｂのための全体的なフィルタ利得を生成することができる。

図９に関して、図１に示されるような例示的な空間シンセサイザ１０５が示される。

空間シンセサイザ１０５は、いくつかの実施形態ではデマルチプレクサ１２０１を備える。デマルチプレクサ（Ｄｅｍｕｘ）１２０１はいくつかの実施形態ではデータストリーム１０４を受信し、データストリームをストリームオーディオ信号１２０８と、第１方向１２１４推定値、第１比１２１６推定値、第２方向１２２４推定値、および第２＜比＞｛比率｝１２２６推定値などの空間パラメータ推定値とに分離する。

次いで、これらは空間プロセッサ／シンセサイザ１２０３に渡される。

空間シンセサイザ１０５は空間プロセッサ／シンセサイザ１２０３を備え、推定値およびストリームオーディオ信号を受信し、出力オーディオ信号をレンダリングするように構成される。空間処理／合成は、ＥＰ３７９１６０５に記載されているような、任意の適切な２方向ベースの合成であり得る。

図１０および図１１は、実施形態のエンドツーエンド実装を示す。図１０に関して、トランスポート／格納チャネル１１０５を介して通信するキャプチャデバイス１１０１および再生デバイス１１１１があることが示されている。

キャプチャデバイス１１０１は、上述のように構成され、フィルタリングされたオーディオ１１０９を送信するように構成される。加えて、フィルタ向き／範囲情報１１０７は、再生デバイス１１１１から受信することができる。

図１１に関して、再生デバイス１１１１によって受信されるフィルタリングされていないオーディオ１１１９を送信するように構成されたキャプチャデバイス１１０１が示されている。再生デバイスは、本明細書で説明する実施形態で説明するように空間フィルタリングを適用するように構成された空間フィルタ１１０３を備える。

図１２に関して、コンピュータ、エンコーダプロセッサ、デコーダプロセッサ、または本明細書に記載の機能ブロックのいずれかとして使用され得る例示的な電子デバイスが示される。デバイスは、任意の適切な電子デバイスまたは装置であってもよい。例えば、いくつかの実施形態では、デバイス１６００がモバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオ再生装置などである。

いくつかの実施形態では、デバイス１６００が少なくとも１つのプロセッサまたは中央処理装置１６０７を備える。プロセッサ１６０７は、本明細書で説明されるような方法などの様々なプログラムコードを実行するように構成され得る。

いくつかの実施形態では、装置１６００がメモリ１６１１を備える。

いくつかの実施形態では、少なくとも１つのプロセッサ１６０７がメモリ１６１１に結合される。メモリ１６１１は、任意の適切な格納手段とすることができる。いくつかの実施形態では、メモリ１６１１がプロセッサ１６０７上で実施可能なプログラムコードを格納するためのプログラムコードセクションを備える。さらに、いくつかの実施形態では、メモリ１６１１がデータ、たとえば、本明細書で説明する実施形態に従って処理された、または処理されるべきデータを格納するための格納データセクションをさらに備えることができる。プログラムコードセクション内に格納された実施されたプログラムコードおよび格納されたデータセクション内に格納されたデータは、必要に応じて、メモリ－プロセッサ結合を介してプロセッサ１６０７によって取り出すことができる。

いくつかの実施形態では、装置１６００がユーザインターフェース１６０５を備える。ユーザインターフェース１６０５は、いくつかの実施形態ではプロセッサ１６０７に結合され得る。いくつかの実施形態では、プロセッサ１６０７がユーザインターフェース１６０５の動作を制御し、ユーザインターフェース１６０５から入力を受信することができる。いくつかの実施形態では、ユーザインターフェース１６０５が、ユーザが例えばキーパッドを介して、デバイス１６００にコマンドを入力することを可能にすることができる。いくつかの実施形態では、ユーザインターフェース１６０５が、ユーザが装置１６００から情報を取得することを可能にすることができる。例えば、ユーザインターフェース１６０５は、装置１６００からの情報をユーザに表示するように構成されたディスプレイを備えてもよい。ユーザインターフェース１６０５は、いくつかの実施形態では、情報が装置１６００に入力されることを可能にすることと、装置１６００のユーザに情報をさらに表示することとの両方が可能なタッチスクリーンまたはタッチインターフェースを備えることができる。

いくつかの実施形態では、装置１６００が入力／出力ポート１６０９を備える。いくつかの実施形態では、入力／出力ポート１６０９がトランシーバを備える。そのような実施形態におけるトランシーバはプロセッサ１６０７に結合され、例えば、無線通信ネットワークを介して、他の装置または電子デバイスとの通信を可能にするように構成され得る。トランシーバまたは任意の好適なトランシーバまたは送信機および／または受信機手段は、いくつかの実施形態では有線または有線ード結合を介して他の電子デバイスまたは装置と通信するように構成され得る。

トランシーバは、任意の適切な既知の通信プロトコルによって、さらなる装置と通信することができる。例えば、いくつかの実施形態では、トランシーバが、適切なユニバーサルモバイルテレコミュニケーションシステム（ＵＭＴＳ）プロトコル、例えばＩＥＥＥ８０２．Ｘなどのワイヤレスローカルエリアネットワーク（ＷＬＡＮ）プロトコル、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの適切な短距離無線周波数通信プロトコル、または赤外線データ通信経路（ＩＲＤＡ）を使用することができる。

トランシーバ入力／出力ポート１６０９はオーディオ信号、ビットストリームを送信／受信するように構成され得、いくつかの実施形態では適切なコードを実行するプロセッサ１６０７を使用することによって、上記で説明したような動作および方法を実行する。

一般に、本発明の様々な実施形態は、ハードウェアまたは専用回路、ソフトウェア、ロジック、またはそれらの任意の組合せで実装され得る。たとえば、いくつかの態様はハードウェアで実装され得るが、他の態様はコントローラ、マイクロプロセッサ、または他の計算装置によって実行され得るファームウェアまたはソフトウェアで実装され得るが、
本発明はそれらに限定されない。本発明の様々な態様はブロック図、フローチャートとして、または何らかの他の図表現を使用して図示および目的され得るが、本明細書で目的するこれらのブロック、装置、システム、技術または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路または論理、汎用ハードウェアもしくはコントローラ、または他の計算装置、あるいはそれらの何らかの組合せで実装され得ることが十分に理解される。

本発明の実施形態は、プロセッサエンティティ内などのモバイルデバイスのデータプロセッサによって、またはハードウェアによって、またはソフトウェアとハードウェアとの組合せによって実行可能なコンピュータソフトウェアによって実装され得る。さらに、この点に関して、図のような論理フローの任意のブロックは、プログラムステップ、または相互接続された論理回路、ブロックおよび機能、またはプログラムステップと論理回路、ブロックおよび機能の組合せを表し得ることに留意されたい。ソフトウェアは、メモリチップ、またはプロセッサ内に実装されたメモリブロック、磁気媒体、および光媒体などの物理媒体に格納され得る。

メモリはローカル技術環境に適した任意のタイプのものとすることができ、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光メモリデバイスおよびシステム、固定メモリおよび取り外し可能メモリなどの任意の適切なデータ格納技術を使用して実装することができる。データプロセッサは、ローカル技術環境に適した任意のタイプであってよく、非限定的な例として、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、ゲートレベル回路、およびマルチコアプロセッサアーキテクチャに基づくプロセッサのうちの１つ以上を含み得る。

本発明の実施形態は、集積回路モジュールなどの様々な部品において実施することができる。集積回路の設計は、大規模で高度に自動化された処理によるものである。論理レベル設計を、エッチングされて半導体基板上に形成される準備ができた半導体回路設計に変換するために、複雑で強力なソフトウェアツールが利用可能である。

Ｓｙｎｏｐｓｙｓ、ＩｎｃｏｆＭｏｕｎｔａｉｎＶｉｅｗ、ＣａｌｉｆｏｒｎｉａａｎｄＣａｄｅｎｃｅＤｅｓｉｇｎ、ｏｆＳａｎＪｏｓｅ、Ｃａｌｉｆｏｒｎｉａによって提供されるプログラムなどのプログラムは、導体を自動的にルーティングし、十分に確立された設計規則および事前に格納された設計モジュールのライブラリを使用して半導体チップ上の構成要素を位置特定する。半導体回路の設計が完了すると、標準化された電子フォーマット（例えば、Ｏｐｕｓ、ＧＤＳＩＩなど）で得られた設計は、製造のために半導体製造設備または「ファブ」に送信され得る。

前述の説明は、例示的かつ非限定的な例として、本発明の例示的な実施形態の完全かつ有益な説明を提供してきた。しかしながら、添付の図面および付随の請求項を熟読する際に、前述の説明を考慮して、種々の修正および適合が、当業者に明白になるのであろう。しかしながら、本発明の教示の全てのそのような同様の修正は、添付の特許請求の範囲に定義される本発明の範囲内に依然として含まれる。

Claims

それぞれの複数マイクロフォンから複数オーディオ信号を得るステップと、
前記複数オーディオ信号の１つ以上の周波数帯域において、前記複数オーディオ信号の処理に基づいて、第１音源方向パラメータおよび第１音源エネルギーパラメータを決定するステップと、
前記複数オーディオ信号の前記１つ以上の周波数帯域において、前記複数オーディオ信号の処理に基づいて、第２音源方向パラメータおよび第２音源エネルギーパラメータを決定するステップと、
フィルタのための方向および／または範囲を定義する領域を取得するステップと、
前記複数オーディオ信号に適用される前記フィルタを生成するステップであって、フィルタ利得／減衰パラメータは、前記第１音源方向パラメータ、前記第１音源エネルギーパラメータ、前記第２音源方向パラメータ、および、前記第２音源エネルギーパラメータに関する前記領域に基づいて生成される、ステップと、
を実行するように構成された手段を備える、装置。
前記複数オーディオ信号に適用されるフィルタを生成するように構成された前記手段であって、前記第１音源方向パラメータ、前記第１音源エネルギーパラメータ、前記第２音源方向パラメータ、および、前記第２音源エネルギーパラメータに関連する前記領域に基づいて、フィルタ利得／減衰パラメータを生成する、前記手段は、
前記領域の内または前記領域の外にある前記第１音源方向パラメータに基づいて、第１帯域利得／減衰値を生成し、
前記第２音源方向パラメータが前記領域の内または前記領域の外にあることに基づいて、第２帯域利得／減衰値を生成し、
合成帯域利得／減衰値を生成するために前記第１帯域利得／減衰値と前記第２帯域利得／減衰値とを合成する
ように構成される、請求項１に記載の装置。
前記フィルタのための前記方向および／または範囲を定義する前記領域を取得するように構成された前記手段は、
前記音源の方向パラメータが前記領域の内にあることに基づく帯域内利得／減衰係数を有する前記領域を定義する方向および範囲と、前記領域の外にある前記音源方向パラメータに基づく帯域外利得／減衰係数と、前記領域内にある前記音源方向パラメータに基づく帯域内利得／減衰係数を有する前記領域を定義する方向および範囲、および、
前記音源方向パラメータに基づく帯域外利得／減衰係数が、前記領域の外にあり、前記エッジゾーン領域内にある音源方向パラメータに基づくエッジゾーン利得／減衰係数と共に、エッジゾーン領域を定義するさらなる範囲、
のうちの少なくとも１つを取得するように構成される、請求項２に記載の装置。
前記複数オーディオ信号に適用される前記フィルタを生成するように構成された前記手段であって、前記第１音源方向パラメータ、前記第１音源エネルギーパラメータ、前記第２音源方向パラメータ、および前記第２音源エネルギーパラメータに関して、前記領域に基づいて、フィルタ利得／減衰パラメータが生成される、前記手段は、
前記第１音源エネルギーパラメータの平均帯域値の時間平均と、
前記第１音源方向パラメータが規定された期間にわたって前記領域内にある回数と
に基づいて、第１時間的利得／減衰値を生成し、
前記第２音源エネルギーパラメータの前記平均帯域値の時間平均に基づいて第２時間的利得／減衰値、および、第２音源方向パラメータが定義された時間期間にわたって領域内にある回数を生成し、
合成時間的利得／減衰値を生成するために、前記第１時間的利得／減衰値と前記第２時間的利得／減衰値との組合せに基づいて合成時間的利得／減衰値を生成する
ように構成される、請求項１から３のいずれか１項に記載の装置。
前記複数オーディオ信号に適用される前記フィルタを生成するように構成された前記手段であって、
前記第１音源方向パラメータ、前記第１音源エネルギーパラメータ、前記第２音源方向パラメータ、および、前記第２音源エネルギーパラメータに関する前記領域に基づいて、フィルタ利得／減衰パラメータを生成する、前記手段は、
フレーム平均化された第１音源エネルギーパラメータと、フレーム平均化された第２音源エネルギーパラメータとの組合せに基づいて、合成されたフレーム平均化値を生成し、
前記合成されたフレーム平均値、および、前記第１音源方向パラメータおよび前記第２音源方向パラメータが前記フレーム期間にわたって前記フィルタ領域内に存在する回数に基づいてフレーム平滑化利得／減衰量を生成する
ように構成される、
請求項１ないし４のいずれか１項に記載の装置。
前記複数オーディオ信号に適用される前記フィルタを生成するように構成された前記手段であって、フィルタ利得／減衰パラメータが、前記第１音源方向パラメータ、前記第１音源エネルギーパラメータ、前記第２音源方向パラメータ、および、前記第２音源エネルギーパラメータに関連する前記領域に基づいて生成される、前記手段が、
前記フレーム平滑化利得／減衰、前記合成時間利得／減衰値、および、前記合成帯域利得／減衰値の組合せに基づいて、前記帯域のための前記フィルタ利得／減衰を生成するように構成される、
請求項４および３にさらに従属する、請求項５に記載の装置。
前記複数オーディオ信号の前記処理は、前記複数オーディオ信号に基づいて１つ以上の修正オーディオ信号を提供するように構成され、前記複数オーディオ信号のうちの前記１つ以上の周波数帯域において、前記複数オーディオ信号の処理に基づいて、第２音源方向パラメータおよび第２音源エネルギーパラメータを決定するように構成された前記手段は、
前記複数オーディオ信号の前記１つ以上の周波数帯域において、前記修正オーディオ信号に基づいて、第２音源方向パラメータおよび第２音源エネルギーパラメータを決定するように構成される、
請求項１ないし６のいずれか１項に記載の装置。
前記複数オーディオ信号に基づいて１つ以上の修正されたオーディオ信号を提供するように構成された前記手段は、さらに、前記第１音源方向パラメータによって定義される第１音源の射影を用いて、前記複数オーディオ信号を修正することに基づいて、修正された複数オーディオ信号を生成するように構成され、
前記複数オーディオ信号のうちの前記１つ以上の周波数帯域において、前記１つ以上の修正されたオーディオ信号の少なくとも一部に基づいて、少なくとも第２音源方向パラメータを決定するように構成された前記手段は、
前記複数オーディオ信号のうちの前記１つ以上の周波数帯域において、前記修正された複数オーディオ信号を処理することによって、前記少なくとも第２音源方向パラメータを、決定するように構成される、
請求項７に記載の装置。
前記フィルタの方向および／または範囲を規定する前記領域を取得するように構成された前記手段は、ユーザ入力に基づいて前記領域を取得するように構成される、請求項１ないし８のいずれか１項に記載の装置。
装置のための方法であって、該方法は、
それぞれの複数マイクロフォンからの複数オーディオ信号を取得するステップと、
前記複数オーディオ信号の１つ以上の周波数帯域において、前記複数オーディオ信号の処理に基づいて、第１音源方向パラメータおよび第１音源エネルギーパラメータを決定するステップと、
前記複数オーディオ信号の前記１つ以上の周波数帯域において、前記複数オーディオ信号の処理に基づいて、第２音源方向パラメータおよび第２音源エネルギーパラメータを決定するステップと、
フィルタのための方向および／または範囲を定義する領域を取得するステップと、
前記複数オーディオ信号に適用される前記フィルタを生成するステップであって、フィルタ利得／減衰パラメータは、前記第１音源方向パラメータ、前記第１音源エネルギーパラメータ、前記第２音源方向パラメータ、および、前記第２音源エネルギーパラメータ
に関する前記領域に基づいて生成される、ステップと、
を含む、方法。
前記複数オーディオ信号に適用されるフィルタを生成するステップであって、フィルタ利得／減衰パラメータが、前記第１の音源方向パラメータ、前記第１の音源エネルギーパラメータ、前記第２の音源方向パラメータ、および、前記第２の音源エネルギーパラメータに関連する前記領域に基づいて生成される、ステップは、
前記領域の内または前記領域の外にある前記第１音源方向パラメータに基づいて第１帯域利得／減衰値を生成するステップと、
前記第２音源方向パラメータが前記領域の内または前記領域の外にあることに基づいて、第２帯域利得／減衰値を生成するステップと、
合成帯域利得／減衰値を生成するために前記第１帯域利得／減衰値と前記第２帯域利得／減衰値とを合成するステップと、
を含む、請求項１０に記載の方法。
前記フィルタのための前記方向および／または範囲を規定する前記領域を取得するステップは、
前記領域内にある前記音源方向パラメータに基づく帯域内利得／減衰係数と一緒に、前記領域を定義する方向と範囲、および、
前記領域内にある前記音源方向パラメータに基づく帯域外利得／減衰係数、および、
前記領域の内にある前記音源方向パラメータに基づく帯域内利得／減衰係数と一緒に、前記領域を定義する方向と範囲、前記領域の外にある前記音源方向パラメータに基づく帯域外利得／減衰係数、
前記エッジゾーン領域の内にある、前記音源方向パラメータに基づくエッジゾーン利得／減衰係数と一緒に、エッジゾーン領域を定義するさらなる範囲、
のうちの少なくとも１つを備える、請求項１１に記載の方法。
前記複数オーディオ信号に適用される前記フィルタを生成するステップであって、フィルタ利得／減衰パラメータが、前記第１音源方向パラメータ、前記第１音源エネルギーパラメータ、前記第２音源方向パラメータ、および、前記第２音源エネルギーパラメータに関連する前記領域に基づいて生成される、ステップは、
前記第１音源エネルギーパラメータの前記平均帯域値と、前記第１音源方向パラメータが、規定された期間にわたって前記領域の内にある回数との時間平均に基づいて第１時間的利得／減衰値を生成するステップと、
前記第２音源エネルギーパラメータの前記平均帯域値の時間平均、および、前記第２の音源方向パラメータが前記定義された時間を超えて前記領域の内に存在する回数に基づいて第２時間的利得／減衰値を生成するステップと、
合成時間的利得／減衰値を生成するための、前記第１時間的利得／減衰値と前記第２時間的利得／減衰値との組合せに基づいて、合成時間的利得／減衰値を生成するステップと、を含む、請求項１０ないし１２のいずれか１項に記載の方法。
前記複数オーディオ信号に適用される前記フィルタを生成するステップであって、フィルタ利得／減衰パラメータが、前記第１音源方向パラメータ、前記第１音源エネルギーパラメータ、前記第２音源方向パラメータ、および、該第２音源エネルギーパラメータに関連する前記領域に基づいて生成される、ステップは、
フレーム平均化された第１音源エネルギーパラメータと、フレーム平均化された第２音源エネルギーパラメータとの組合せに基づいて、合成されたフレーム平均化値を生成するステップと、
前記合成されたフレーム平均化値と、前記第１および第２音源方向パラメータがフレーム期間にわたって前記フィルタ領域の内にある回数とに基づいて、フレーム平滑化利得／減衰量を生成するステップと
を含む、請求項１０ないし１３のいずれか１項に記載の方法。
請求項１３および１２に従属するとき、前記複数オーディオ信号に適用される前記フィルタを生成するステップであって、フィルタ利得／減衰パラメータが、前記第１音源方向パラメータ、前記第１音源エネルギーパラメータ、前記第２音源方向パラメータ、および、前記第２音源エネルギーパラメータに関する前記領域に基づいて生成される、ステップは、前記フレーム平滑化利得／減衰、前記合成時間利得／減衰値、および、前記合成帯域利得／減衰値の組合せに基づいて、前記帯域のための前記フィルタ利得／減衰を生成するステップを含む、請求項１４に記載の方法。
前記複数オーディオ信号を処理するステップは、前記複数オーディオ信号に基づいて、１つ以上の修正されたオーディオ信号を提供するステップを含み、前記複数オーディオ信号の前記１つ以上の周波数帯域において、前記複数オーディオ信号の処理に基づいて、第２音源方向パラメータおよび第２音源エネルギーパラメータを決定するステップは、前記複数オーディオ信号の前記１つ以上の周波数帯域において、前記修正されたオーディオ信号に基づいて、第２音源方向パラメータおよび第２音源エネルギーパラメータを決定するステップを含む、請求項１０から１５のいずれか１項に記載の方法。
前記複数オーディオ信号に基づいて１つ以上の修正されたオーディオ信号を提供するステップは、前記第１音源方向パラメータによって定義される第１音源の投影を用いて前記複数オーディオ信号を修正することに基づいて、修正された複数オーディオ信号を生成するステップを含み、および、
前記複数オーディオ信号の前記１つ以上の周波数帯域において、前記１つ以上の修正されたオーディオ信号の少なくとも一部に基づいて、少なくとも第２音源方向パラメータを決定するステップは、前記複数オーディオ信号の前記１つ以上の周波数帯域において、前記修正された複数オーディオ信号を処理することによって、前記少なくとも第２音源方向パラメータを決定するステップを含む、
請求項１６に記載の方法。
前記フィルタのための前記方向および／または範囲を定義する前記領域を取得するステップは、ユーザ入力に基づいて前記領域を取得するステップを含む、請求項１０ないし１７のいずれか１項に記載の方法。