JP2023529195A

JP2023529195A - 最小限のトレーニングを使用した一般化されたステレオ背景からのパニングされたソースの分離

Info

Publication number: JP2023529195A
Application number: JP2022575892A
Authority: JP
Inventors: スティーヴンマスター，アーロン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2020-06-11
Filing date: 2021-06-11
Publication date: 2023-07-07
Also published as: WO2021252912A1; US20230245664A1; EP4165634A1; KR20230008815A; BR112022025209A2; CN115699171A

Abstract

実施形態では、空間レベルフィルタ（SLF）は、周波数ドメイン内の周波数サブバンド内の複数の目標ソースレベルと空間分布から第１サンプルセットを取得し、周波数ドメイン内の周波数サブバンド内の複数の背景レベルと空間分布から第２サンプルセットを取得し、第１サンプルセットと第２サンプルセットを追加して結合サンプルセットを作成し、サブバンド内の各サブバンド用の結合サンプルセット内の各サンプルのレベルと空間パラメータを検出し、検出されたレベルと空間パラメータを目標ソースと背景の各々のレベルと空間分布によって重み付けし、テーブル内の結合サンプルセット内の各サンプルのサブバンド内の重み付けレベル、空間パラメータ、及び信号対雑音比（SNR）を格納し、重み付けレベル、空間パラメータ、及びサブバンドによってテーブルのインデックスを再作成することにより、生成される。

Description

［関連出願の相互参照］
本願は、米国仮特許出願番号第６３/０３８,０４６号、２０２０年６月１１日出願、及び欧州特許出願番号第２０１７９４４９.２号、２０２０年６月１１日出願、の優先権の利益を請求する。これらの出願は参照によりここに組み込まれる。

［技術分野］
本開示は、概してオーディオ信号処理、特にオーディオソース分離技術に関するものである。

２チャネルオーディオミックス（例えば、ステレオミックス）は、複数のオーディオソースを一緒にミックスすることで作成される。２チャネルミックスから個々のオーディオソースを検出して抽出することが望ましい例は幾つかあり、以下を含むが、これに限定されない：オーディオソースを２チャネルミックスに再配置されるリミックスアプリケーション、オーディオソースをサラウンドサウンドミックスに配置又は再配置するアップミキシングアプリケーション、特定のオーディオソース（例えば、スピーチ/ダイアログ）をブーストして２チャネル又はサラウンドサウンドミックスに戻すオーディオソース拡張アプリケーションなどがある。

開示される実装の詳細は、添付の図面及び以下の説明において説明される。他の特徴、目的、及び利点は、説明、図面、及び請求項から明らかになる。

実施形態では、方法は、
１つ以上のプロセッサを用いて、複数の周波数サブバンドの複数の目標レベル及び空間分布から、第１サンプルセットの周波数ドメイン表現を取得するステップと、
前記１つ以上のプロセッサを用いて、前記複数の周波数サブバンドの複数の背景レベル及び空間分布から、第２サンプルセットの周波数ドメイン表現を取得するステップと、
前記１つ以上のプロセッサを用いて、前記第１サンプルセットと前記第２サンプルセットを加算して、結合サンプルセットを生成するステップと、
前記１つ以上のプロセッサを用いて、前記複数の周波数サブバンドの各サブバンドについて、前記結合サンプルセットのサンプル毎に、レベル及び空間パラメータを検出するステップと、
前記複数の周波数サブバンドの各サブバンドの中で、検出したレベル及び空間パラメータを、目標ソース及び背景のそれら各々のレベル及び空間分布により重み付けするステップと、
前記１つ以上のプロセッサを用いて、前記結合サンプルセットの各サンプルについて前記複数の周波数サブバンド内の重み付けしたレベル及び空間パラメータと信号対雑音比（SNR）をテーブルに格納するステップと、
前記１つ以上のプロセッサを用いて、前記重み付けしたレベル及び空間パラメータとサブバンドにより、前記テーブルを再インデックス化するステップであって、その結果、前記テーブルは前記重み付けされたレベル及び空間パラメータとサブバンドの目標パーセンタイルSNRを含み、量子化された検出した空間及びレベルパラメータとサブバンドの所与の入力について、前記量子化された検出した空間及びレベルパラメータとサブバンドに関連する推定SNRが前記テーブルから取得される、ステップと、
を含む。

実施形態では、前記方法は１つ以上の検出されたレベル、１つ以上の空間パラメータ又は周波数サブバンドにインデックス化されたデータを平滑化するステップ、を更に含む。

実施形態では、前記周波数ドメイン表現は短時間フーリエ変換（STFT）ドメイン表現である。

実施形態では、前記空間パラメータが混合オーディオ信号の２つのチャネル間のパニング及び位相差を含む。

実施形態では、前記目標ソースは定べき法則を使用して振幅パニングされる。

実施形態では、前記目標パーセンタイルSNRは２５パーセンタイルである。

実施形態では、方法は、
１つ以上のプロセッサを使用して、２チャネルの時間ドメインオーディオ信号の１つ以上のフレームを複数の時間周波数タイルを含む時間周波数ドメイン表現に変換するステップであって、前記時間周波数ドメイン表現の前記周波数ドメインは複数のサブバンドにグループ化された複数の周波数ビンを含む、ステップと、
各時間周波数タイルについて、
前記１つ以上のプロセッサを使用して、空間パラメータ、及び時間周波数タイルのレベルを計算するステップと、
前記１つ以上のプロセッサを使用して、時間周波数タイルの各周波数ビンのパーセンタイル信号対雑音比（SNR）を生成するステップと、
前記１つ以上のプロセッサを使用して、前記ビンのSNRに基づく、前記ビンの分数値を生成するステップと、
前記１つ以上のプロセッサを使用して、前記時間周波数タイルの前記ビンの前記分数値を適用して、推定オーディオソースの修正時間周波数タイルを生成するステップと、
を含む。

実施形態では、複数の時間周波数タイルの複数のフレームは複数のチャンクに組み立てられ、各チャンクは複数のサブバンドを含み、方法は、各チャンク内の各サブバンドについて、
１つ以上のプロセッサを使用して、チャンク内の各時間周波数タイルの空間パラメータ及びレベルを計算するステップと、
前記１つ以上のプロセッサを使用して、時間周波数タイルの各周波数ビンのパーセンタイル信号対雑音比（SNR）を生成するステップと、
前記１つ以上のプロセッサを使用して、前記ビンのSNRに基づく、前記ビンの分数値を生成するステップと、
前記１つ以上のプロセッサを使用して、前記時間周波数タイルの前記ビンの前記分数値を適用して、推定オーディオソースの修正時間周波数タイルを生成するステップと、
を含む。

実施形態では、前記方法は、前記１つ以上のプロセッサを使用して、前記修正時間周波数タイルを複数の時間ドメインオーディオソース信号に変換するステップ、を含む。

実施形態では、前記空間パラメータが、時間周波数タイルの各々について、チャネル間のパニング及び位相差を含む。

実施形態では、前記分数値が、パニングされた目標ソースについてトレーニングされた空間レベルフィルタリング（SLF）システムのルックアップテーブル又は関数から取得される。

実施形態では、２チャネル時間ドメインオーディオ信号の１つ以上のフレームを周波数ドメイン信号に変換するステップは、前記２チャネル時間ドメインオーディオ信号に短時間周波数変換（STFT）を適用するステップを含む。

実施形態では、複数の周波数ビンが、オクターブサブバンド又はほぼオクターブサブバンドにグループ化される。

本願明細書に開示される特定の実施形態は、以下の利点のうちの１つ以上を提供する。開示された実施形態は、ソースと幾つかの背景から構成されるミックスの記録から目標ソースを抽出（ソース分離）することを可能にする。より具体的には、開示された実施形態は、テレビや映画でダイアログが混合される最も一般的な方法である振幅パニングを使用して（純粋に又はほとんど）混合されたソースを抽出することを可能にする。そのようなソースを抽出することができることは、ダイアログの強化（ミックスでダイアログを抽出してからブーストする）又はアップミックスを可能にする。さらに、ソースの高品質の推定は、トレーニングデータ又は遅延がほとんどない状態で抽出される場合があり、これはソース分離に対する他のほとんどのアプローチとは異なる特徴である。

以下で参照される添付の図面において、種々の実施形態は、ブロック図、フローチャート、及び他の図で示される。フローチャート又はブロック内の各ブロックは、指定された論理機能を実行するための１つ以上の実行可能命令を含むモジュール、プログラム、又はコードの部分を表してよい。これらのブロックは方法のステップを実行するために特定の順序で示されるが、それらは、必ずしも、図示された順序に厳密に従い実行される必要はない。例えば、それらは、各々の動作の特性に依存して、逆の順序で又は同時に実行されるかもしれない。留意すべきことに、ブロック図及び／又はフローチャートの中の各ブロック、及びそれらの組合せは、指定された機能／動作を実行する専用ソフトウェアベース又はハードウェアベースシステムにより、又は専用ハードウェア及びコンピュータ命令の組合せにより、実施されてよい。

実施形態に従って、時間ドメイン混合を説明するソース分離のための信号モデルを示す。

実施形態に従って、パニングされたソースを抽出するようにトレーニングされた空間レベルフィルタ（SLF）ルックアップテーブルを生成するシステムのブロック図である。

実施形態に従って、パニングされたソースを抽出するようにトレーニングされたSLFルックアップテーブルの入力と出力の視覚的説明である。

実施形態に従って、パニングされたソースを抽出するようにトレーニングされたSLFを使用して、２チャネルミックスから空間的に識別可能なサブバンドオーディオソースを検出及び抽出するためのシステムのブロック図である。

実施形態に従って、パニングされたソースを抽出するようにトレーニングされたSLFルックアップテーブルを生成するための処理のフロー図である。

実施形態に従って、パニングされたソースを抽出するようにトレーニングされたSLFを使用して、２チャネルミックスから空間的に識別可能なサブバンドオーディオソースを検出及び抽出する処理のフロー図である。

実施形態に従って、図１～６を参照して説明されたシステム及び処理を実装するための装置アーキテクチャのブロック図である。

種々の図面で使用される同じ参照符号は同様の要素を示す。

信号モデル及び仮定
図１は、実施形態に従って、時間ドメイン混合を説明するソース分離のための信号モデル１００を示す。信号モデル１００は、目標ソースs_１と背景bを、文脈に応じて「左チャネル」（x_１又はX_L）と「右チャネル」（x_２又はX_R）と呼ばれる２つのチャネルに混合（mixing）する基本的な時間ドメインを想定する。この２つのチャネルは、以下を推定するソース分離システム１０１に入力される。

目標ソースs_１は、定べき法則（constant power law）を使用して振幅パニングされると仮定される。他のパニング法則は定べき法則に変換できるため、信号モデル１００での定べき法則の使用は制限されない。定べき法則パニングでは、ソースs_１、左/右（L/R）チャネルへのミキシングは次のように記述される。

これは、短時間フーリエ変換（Short Time Fourier Transform （STFT））ドメインで次式として表すことができる。

[STFTドメインで続けて、各チャネルへの背景Bの追加は、次のように表される。

背景Bには、追加のパラメータ∠Bとφ_Bが含まれているこれらのパラメータは、各々S_１とBの左チャネル位相の位相差、及びSTFT空間の左及び右チャネルにおけるBの位相のチャネル間位相差を記述する。なお、パニングされたソースのチャネル間位相差は定義上０であるため、式[５]及び[６]にφ_S１パラメータを含める必要はない。目標S_１と背景BはSTFT空間で特定の位相関係を共有しないと仮定されるため、∠Bの分布は一様としてモデル化される。

目標ソースと背景には重要な空間的違いがある。空間的には、Θ_１は特定の単一の値として扱われるが（目標ソースS_１の「パニングパラメータ」）、Θ_BとΦ_Bは各々統計的分布を持つため、統計モデル（例えば、ベイズ（Bayesian）モデル）を使用してソース分離を行うことができる。

その場合を吟味するために、「目標ソース」がパニングされると仮定されることは、Θ_１によって特徴づけることができることを意味する。目標ソースのチャネル間位相差は０であると仮定される。また、そのレベルL_S=|S_１|にも分布があり、少なくともほぼオクターブのサブバンドにわたって既知であると仮定されている。空間情報は、ソースのパニングパラメータによって完全に指定されていると仮定されている。

背景Bは、Θ_B上に分布し、チャネル間位相差φ_B上にも分布していると特徴づけられる。また、背景レベルL_B=|B|にも分布があり、少なくともほぼオクターブのサブバンドにわたって既知であると仮定されている。

このモデルの目的のために、ソースと背景は、両方が「アクティブである」と仮定される時点でのみモデル化されるものとする。この意味で、現在の目的のソースと背景は常に「オン」又は「オフ」であると仮定され、分離は、目標ソースと背景の両方が「オン」であると仮定するものとする。目標ソースがアクティブであるが背景がアクティブでない場合でも、抽出はほぼ完全であることを示すことができる。目標ソースとパニングのパラメータが不明な場合は、当業者に知られている手法を使用して推定することができる。大部分が音楽でるような一部のケースでは、目標ソースと背景の間に調和関係がある場合がある。このような関係は、信号モデル１００で個別にモデル化されない。分布は、特定の用途に適した高調波のある程度の重複を含むと想定される。

トレーニング処理
図２は、実施形態に従って、パニングされたソースを抽出するようにトレーニングされたSLFルックアップテーブルを生成するためのシステム２００のブロック図である。SLFは、所与のレベル分布と空間パラメータを持つ背景を含むミックスから、所与のレベル分布と指定された空間パラメータを持つ目標ソースを抽出するようにトレーニングされたシステムである。

システム２００には、目標ソースパラメータデータベース２０１、目標ソース分布サンプラ２０２、変換部２０３、パラメータ検出部２０４、再インデックス部２０５、目標SNRセレクタ２０６、トレーニング済みSLFルックアップテーブル２０７、背景パラメータデータベース２０８、背景分布サンプラ２０９、変換部２１０が含まれている。分布サンプラ２０２、２０９と変換部２０３、２１０は、図２では別々のブロックとして示されるが、実際には、サンプラ２０２、２０９と変換部２０３、２１０は、目標ソースと背景データベース２０１、２０８の両方で動作する単一のモジュール（例えば、ソフトウェアモジュール）に組み合わせることができる。

システム２００によって実装されるトレーニング手順の目標は、２チャネル入力（例えば、L/Rステレオ入力）が与えられたときに、各STFTドメインビン又はタイルの目標ソースに属するエネルギの相対割合を予測するベイズモデルを作成することである。この目標を達成するために、STFTドメイン内の２チャネル入力に対して検出可能な４つのパラメータが使用される。

第１パラメータはbで、おおよそオクターブの周波数サブバンドを表す。このパラメータは、与えられた周波数ビンωからそれが属するサブバンドbへの自明なマッピングによって得られる。サブバンド境界の例を以下に示す。

第２パラメータは、各（ω、t）タイルに対して検出された「パニング」であり、次のように定義される：

ここで、「左端（full left）」は０、「右端（full right）」はπ/２である。

第３パラメータは、各タイルで検出された「位相差」である。これは次のように定義される：

これは-πからπの範囲で、０は検出された位相が両方のチャネルで同じであることを意味する。

第４パラメータは、各タイルに対して検出された「レベル」であり、次のように定義される：

これは、２つのチャネルの「ピタゴラス」の大きさにすぎない。これは、一種のモノのマグニチュードのスペクトログラムと考えることができる。

各周波数ビンωは、特定の周波数を表すと理解される。ただし、データは、各周波数ビンωがサブバンドに属する、連続したビンの集合であるサブバンド内にグループ化されることもある。サブバンド内のデータのグループ化は、システムで実行される特定の推定タスクに特に役立つ。実施形態では、オクターブサブバンド又はほぼオクターブサブバンドが使用されるが、他のサブバンド定義が使用される場合もある。バンディングの例には、次のようにバンドエッジを定義するものがあり、値はHz単位で表示される：

「オクターブ」の定義に厳密に従うと、最も低いバンドが無限小の幅に近づくようなバンドが無限に存在する可能性があるため、有限数のサブバンドを許可するには何らかの選択が必要になることに注意する。実施形態では、最も低いバンドは２番目のバンドと同じサイズになるように選択されるが、他の実施形態では他の規則が使用される場合がある。ここでは、「サブバンド」と「バンド」という用語は同じ意味で使用される場合がある。

これらの４つのパラメータに基づいてベイズシステムを構築する方法を理解するには、まず次のベイズの規則を思い出す：

この場合、トレーニングプロセスの目標は、幾つかの観測を考慮して、各スペクトログラムタイルのSNR上の分布を推定できるようにすることである。観測b、Θ、φ、Uについては前述した。ベイズの法則は以下で与えられる：

ここでの目標は、式[１１]の右辺のすべての量を生成できるベイズシステムをトレーニングし、式[１１]の左辺の量を推定できるようにすることである。そのためには、背景上の目標ソース上のレベル分布を考慮することによって、p（SNR）を推定する。

p（b,Θ,φ,U|SNR）の条件付確率は、様々なSNRで目標と背景を混合したときの各周波数帯bにおけるパラメータ（Θ、φ、U）の分布から推定される。このデータを生成する手順は、分布サンプラ２０２、２０９を使用して既知又は仮定された空間及びレベル分布からサンプリングすることによって、目標ソースと背景各々について、データベース２０１、２０８からデータの多くのサンプルを生成することを含む。変換部２０３、２１０は、サンプルのプロパティを持つSTFTドメイン値を作成する。

目標ソースは特定のパニングパラメータを持つと想定されているため、ここで説明するトレーニング手順では、後で抽出する目標ソースのパニングパラメータを明示的に指定することを思い出す。ここで説明する例の実施形態では、目標ソースがΘ_１=π/４を持つと想定しており、これは中央のパニングされたソースに対応する。トレーニングデータを生成する場合、前述のように目標と背景の間にランダムな位相関係が存在すると想定される。実際には、１つの位相値を０に設定し、もう１つを単位円上の様々なサンプルに設定することで実装できる。

トレーニングデータを作成するには、変換モジュール２０３、２１０によって出力された周波数ドメイン表現を（図１の信号モデル１００に示すように）加算して、結合周波数ドメイン表現を作成する。ベイズトレーニングを実行すると、目標データアイテムと背景データアイテムの組み合わせが非常に多くなることに注意する。しかし、この非常に多くの組み合わせは、均等に量子化された目標と背景の比率の数がはるかに少なくなる。

この現実を効率的に活用するために、トレーニングプロセスでは、目標と背景のSNR（０から３７dBであるが、より大きな範囲を選択することも可能））、目標と背景の位相差（０～２π）、背景Θ（０～π/２）、及び背景φの大きさ（０～π）の各々について、一様にサンプリングされたデータのセットを個別に作成する。このデータのすべての可能な組み合わせについて、トレーニングプロセスは検出された（Θ,φ,U）値を計算し、各々storeThetaHat、storePhiHat、及びstoreUdBHatに格納する。このような計算では、目標と背景各々の特定の空間及びレベル分布はまだ考慮されていないことに注意する。これらは、関連する入力属性のすべての可能な組み合わせから、検出されたΘ、φ、Uへとマッピングされたルックアップテーブルにすぎない。これらのテーブルを使用すると、後のトレーニングプロセスで効率が向上する。

次に、目標と背景の特定の空間及びレベルデータが組み込まれる。目標はp（b、Θ、φ、U|SNR）を取得することであることを思い出す。実際には、（Θ、φ、U）の各変数上の分布は量子化確率密度関数（probability density function （pdf））で表すことができ、SNRも量子化することができる。実施形態では、φの大きさ（０からπ）に対して５１個のレベルの量子化、Θ（０からπ/２）に対して５１個のレベルの量子化、U（例えば範囲０から１２７dB）に対して１dB増加、DNR（例範囲-４０dBから+６０dB）に対して１dB増加が使用される。このような量子化が与えられた場合、情報p（b,Θ、φ、U|SNR）は、次のようなサイズの多次元配列「storePopularity」に格納される可能性がある。７バンド、１０１個のトレーニングされたSNR（-４０から６０）、５１個のΘビン、５１個のφビン、１２８個のdBレベル（例えば、０から１２７）。各項目について、配列に格納されている値は、配列内の他の組み合わせに対する特定の組み合わせの確率（又は、同様に「人気（popularity）」）を表す。例えば、配列要素（４、４９、２６、２６、９０）は、周波数帯域４と+８dB DNR（４９番目の値）に対して、検出されたΘ値がπ/４（２６番目の値）、φの大きさ値がπ/２（２６番目の値）、レベルUが８９dB（９０番目の値）であることがどれだけ「人気がある」かを表す。

p（b、Θ、φ、U|SNR）を得るために、トレーニングプロセスは、目標とソースの空間及びレベルデータの可能なすべての組み合わせを網羅的に（又はサンプリングを介して）サイクルする。このとき、トレーニングデータで特定のSNR、位相差、背景Θ、背景φが観測されると、以前にstoreThetaHat、storePhiHat、storeUdBHatに格納されていたデータを使用して、各々結果として生じるΘ、φ、Uを検索し、トレーニング計算を削減する。この検索は「パラメータ検出」とも呼ばれ、図２のブロック２０４によって実行される。重要なのは、目標と背景上の空間及びレベル分布の値によって示されるように、このような各組み合わせの人気も使用されることである。これらはstorePopularity配列への貢献度を重み付けし、その際に必要に応じてp（SNR）を組み込む。このような組み合わせをすべて循環させ、その人気度を記録することで、上記のstorePopularity配列が作成される。この配列はまばらな場合もあれば、ノイズが多い場合もあるため、当業者に馴染みのある技術を使用して平滑化するものとする。技術の例としては、テーブルの１つ以上の次元にわたる平滑化がある。

この段階では、ベイズ分析に必要なデータが取得されるが、目的のルックアップテーブル又は関数形式では提供されない。トレーニングプロセスの最後のステップは、使用可能なp（SNR|b、Θ、φ、U）を、以下のサイズのstorePopularity内のデータp（b、Θ、φ、U|SNR）p（SNR）から取得することである：７バンド、１０１個のトレーニングされたSNR（-４０から６０）、５１個のΘビン、５１個のφビン、１２８個のdBレベル（例えば、０から１２８）。これがp（b、Θ、φ、U|SNR）p（SNR）にどのように対応するかを理解するには、p（b、Θ、φ、U|SNR）p（SNR）がp（b、Θ、φ、U、SNR）として等しく表されるか、又は同等にp（b、SNR、Θ、φ、U）として表されることを思い出す。５つのインデックスは、storePopularityのインデックスと同じである。

この再インデックス化又は再マッピングは、図２のブロック２０５及び２０６によって行われる。目的のp（SNR|b、Θ、φ、U）は、単一の値の集合ではなく、各周波数帯域bに対して幾つかの検出された（Θ、φ、U）を与えられた場合の、SNR上の分布の集合であることに留意されたい。表現サイズを管理しやすいように、これらの分布を簡潔に記述する方法について決定がなされる。その典型的な方法には、平均、中央値、又はその他のパラメータを取ることが含まれる。このシステムが設計されている実用的なアプリケーションのニーズを考慮して、実施形態では、各SNR分布の２５パーセンタイルと５０パーセンタイルが使用される。

p（SNR|b、Θ、φ、U）を取得するために、トレーニングプロセスは再インデックス化（ブロック２０５）と目標SNR選択（ブロック２０６）を実行するように動作する。基本的な目標は、周波数帯域bで検出された所定の（Θ、φ、U）トリプレットに対応するstorePopularityからすべてのSNRデータをアセンブルし、特徴付けることである。周波数帯域は独立して扱われるため、N個の周波数帯域ごとにp（SNR|Θ、φ、U）を見つけるためにN個の個別の演習を各々行うことが目標であると考えることと等価である。ブロック２０５はこのタスクを実行する。検出されたΘ、検出されたφ、検出されたレベルの変数について、すべての周波数帯域、及びすべてのサンプリングされた分布レベルを循環する。そのような値ごとに、検出されたΘ、φ、及びU値の特定の組み合わせが与えられた場合に、すべてのSNRとそれらがどれだけ人気があるかを含むバッファがstorePopularityから作成される。より具体的には、バッファは以下のようなstorePopularityのサブセットである：storePopularitySmoothed（バンドインデックス、（全データ）、Θインデックス、φインデックス、Uインデックス）。次のブロック２０６は値のバッファを分析し、実施形態では、トレーニング済みSLFルックアップテーブル（２０７）の２５パーセンタイル値と５０パーセンタイル値を検出して記録する。具体的には、これらの値は各々新しい配列、各々percentile２５SNRvalues及びpercentile５０SNRvaluesに記録され、各々が（バンドインデックス、検出Θインデックス、検出φインデックス、検出Uインデックス）によってインデックスされ、これは実際にp（SNR|b、Θ、φ、U）に対して求められる表現である。

トレーニングデータが疎になる可能性があるため、パーセンタイルSNRが計算される一部のバッファには、信頼できるパーセンタイルSNR値を生成するためのデータポイントが少なすぎる場合がある。これに対処するために、２つの例示的な手法を使用できるが、他の手法を使用することもできる。１つの手法は、パーセンタイルSNRを計算する前に、（周波数帯域とUレベルの共有を優先して）隣接する周波数帯域、Θ値、φ値、又はU値からのデータを共有することである。もう１つの手法は、疎データからでもパーセンタイルSNRを計算し、不安定に見える場合は、パーセンタイルSNR値を隣接するU値からのSNR値、又は必要に応じて周波数帯域からのSNR値に置き換えるか平滑化することである。

この段階で、再インデックス化が完了し、トレーニング済みシステムの適用について説明する。システムには再インデックス化されたテーブルがあり、テーブルのインデックスはΘ、φ、Uの量子化された値、並びに問題の周波数帯域のインデックスbを表す。このようなテーブルを使用してソフトマスク値を取得するために、関数は入力されたΘ、φ、Uの値を各々５１、５１、１２８個のレベルに量子化する。検出されたΘ、φ、U値からそれらのインデックスへの変換は自明であり、上記の量子化分布を作成するときに使用されるのと同じ量子化に従う。関数は、これらの量子化されたインデックスレベルに対応するテーブルの値（及び問題の周波数ビンωに対応する周波数帯域bのインデックス）にアクセスする。

この場合、percentile２５SNRvaluesとpercentile５０SNRvaluesは特定のインデックスを持つテーブルから取得されるが、SNR値は実際には、Θ、φ、U、bの任意の（必ずしも量子化されていない）値を取る、より一般的な関数によって与えられる可能性があることに注意する。実際には、Θ、φ、U、bからソフトマスク値を取得しようとする関数は、ソフトマスク値を出力するためにテーブルにアクセスする必要がない。これは、テーブル内の値を近似及び／又は補間する曲線又は汎用関数（トレーニング済みニューラルネットワークを含む）を使用して、ソフトマスク値を直接計算できる。曲線がテーブル内に表されたデータに適合できることは、図３（２５パーセンタイルSNRシステムの表現）の検査から容易に分かる。テーブルを使用する実施形態では、テーブルは、ソフトマスク値を取得するための限定的方法ではなく、そうするための推奨される効率的な方法であると理解される。最小二乗曲線フィッティングから得られる関数や、テーブルを近似又は補間するニューラルネットワークなどの関数は、当業者に精通した技術を使用して構築することができる。

図３は、実施形態に従って、パニングされたソースを抽出するようにトレーニングされたSLFルックアップテーブルの入力と出力の視覚的説明である。より具体的には、図３は、図２を参照して説明されているように、中央のパニングされた目標ソースについてトレーニングされた２５パーセンタイルの４次元（４D）SLFルックアップテーブルの視覚的な表現を示している。SLFのルックアップテーブルは大きいが、繰り返しも多い。当業者には馴染みのある技術を使用して、このテーブルに情報を格納するために必要なルックアップ時間とメモリを削減したり（例えばエントロピー符号化）、前述のように、テーブル内の情報を連続関数に変換したりすることができる。

前述のように、図３の視覚表現は４Dである。４つの入力変数は、各サブプロットの修正された左右Θ軸と入出力φ軸、及び垂直（サブバンドb）サブプロットインデックスと水平（レベルU）サブプロットインデックスである。実用上の理由から、水平サブプロット次元（レベルU）には、SLFルックアップテーブルに格納されているすべてのレベルが表示されるわけではないことに注意する。この場合、テーブル内の１２８dBの範囲で１dBの増分が使用されるため、１２８個の左右サブプロットが必要になる。実際には、より細かい又は粗い増分を使用して、各々精度を高めたり、検索効率を高めたりできる。図３を見ると、左から右に多くの「表示されない」サブプロットがあることに注意する。

SLFルックアップテーブルの出力変数は、両端を含む０から１までのソフトマスク値であり、各サブプロットの縦軸に表示される。ソフトマスク値は、出力に渡される対応する入力STFTの割合を表す。STFTタイルごとに１つの（４次元の）入力があるため、STFTタイルごとに１つの出力もある。SLFテーブル/関数を適用した結果は、０から１までの値で構成されるSTFTサイズの表現になる。

前述のように、percentile２５SNRvalues又はpercentile５０SNRvaluesによって生成されたソフトマスク値を使用できるが、他のパーセンタイルを使用することもできる。一般的に、percentile２５SNRvaluesの使用は、ソースの推定に幾つかの背景を含めることと、幾つかのアーティファクトを発生させることとのバランスを取るソース分離ソリューションをもたらす。percentile５０SNRvaluesを使用すると、アーティファクトが少ないが、背景も多くなるソリューションにつながる。ソフトマスクパラメータの適用は、図４のブロック４０４に示されている。

実施形態では、ソフトマスク値及び／又は信号値は、当業者に精通した技術を使用して、時間と周波数にわたって平滑化される。４０９６ポイントのFFTを仮定すると、スムーサ[０．１７０．３３１．００．３３０．１７]/sum（[０．１７０．３３１．００．３３０．１７]）を使用する平滑化対周波数を使用できる。高い又は低いFFTサイズについては、平滑化範囲及び係数の幾つかの合理的なスケーリングを実行する必要がある。サンプルホップサイズを１０２４と仮定すると、約[０．１０．５５１．００．５５０．１]/sum（[０．１０．５５１．００．５５０．１]）の平滑化対時間を使用できる。ホップサイズ又はフレーム長を変更すると、平滑化を適切に調整できる。

例示的な適用
図４は、実施形態に従って、SLFを使用して、２チャネルミックスから空間的に識別可能なサブバンドオーディオソースを検出及び抽出するためのシステムのブロック図である。システム４００には、変換部４０１、パラメータ計算機４０２、テーブル検索部４０３、ソフトマスクアプリケータ４０４、逆変換部４０５が含まれる。テーブル検索部４０３は、図２を参照して説明されているように、パニングされたソースを検出するようにトレーニングされたSLFルックアップテーブルを格納するデータベース４０６上で動作する。この例のアプリケーションでは、抽出される目標ソースが既知のパニングパラメータを持つか、又はそのようなパラメータの検出が当業者に知られている任意の数の技術を使用して実行されると仮定する。パニングパラメータを検出する一例の技術は、シータ値のレベル加重ヒストグラムからピークピックすることである。

図４を参照すると、変換部４０１が２チャネル入力信号（例えば、ステレオミックス信号）に適用される。実施形態では、システム４００は、当業者にとってソース分離問題に対して比較的最適であることが知られているウィンドウタイプとホップサイズを含むSTFTパラメータを使用する。しかしながら、他のSTFTパラメータを使用することもできるパラメータ計算機４０２は、STFT表現から、各オクターブサブバンドbのパラメータ（Θ、φ、U）の値を計算する。これらの値は、データベース４０６に格納されているSLFルックアップテーブルに対してテーブル検索を実行するために、テーブル検索部４０３によって使用される。テーブル検索では、各STFTタイル又はビンに対してパーセンタイルSNR（例えば、２５パーセンタイル）が生成される。SNRから、システム４００はベイズ推定として出力されるSTFT入力の割合を計算する。例えば、推定パーセンタイルSNRが０dBの場合、目標ソースと背景が同じレベルUを持つと推定されるため、渡される入力の割合は０．５又は５０%になる。一般的な式は、Wienerフィルタの仮定に従っており、入力の割合=１０^（SNR/２０）/（１０^（SNR/２０）+１）となる。次に、ソフトマスクアプリケータ４０４は、各チャネルの入力STFTに、各STFTタイルの０から１までのこの分数値を乗算する。次に、逆変換部４０５は、STFT表現を反転して、推定された目標ソースを表す２チャネルの時間ドメイン信号を取得する。

前述の例の実施形態では、STFT時間周波数表現（例えばタイル）を使用したが、任意の適切な時間周波数表現を使用できる。

上記の例のソース分離アプリケーションではSLFルックアップテーブルを使用したが、他の実施形態ではルックアップテーブルの代わりにSLF関数を使用できる。

例示的な処理
図５は、実施形態に従って、パニングされたソースを抽出するようにトレーニングされたSLFルックアップテーブルを生成するための処理５００のフロー図である。処理５００は、例えば、図７を参照して記述された装置アーキテクチャ７００によって実装することができる。

処理５００は、まず、サブバンド内の目標ソースレベルと空間分布からサンプルの周波数ドメイン表現を取得し（５０１）、背景レベルと空間分布からサンプルの周波数ドメイン表現を取得し（５０２）、図２を参照して説明されているように、第１及び第２サンプルセットを加算して、結合サンプルセットを作成する（５０３）。

処理５００は、続いて、図２を参照して記述されているように、各サブバンドの結合サンプルセット内の各サンプルのレベル及び空間パラメータを検出し（５０４）、各サブバンド内で、検出されたレベル及び空間パラメータを目標ソースと背景の各々のレベル及び空間分布によって重み付けする（５０５）。

処理５００は、続いて、図２と３を参照して記述されているように、結合サンプルセット内の各サンプル、重み付けされたレベルと空間パラメータ、及びSNRをサブバンドと共にテーブルに格納する（５０６）。

処理５００は、続いて、格納されたパラメータとSNRSを再インデックス化して、図２及び図３を参照して説明したように、重み付きレベル及び空間パラメータとサブバンドの目標パーセンタイルSNRが含まれ、量子化された検出された空間及びレベルパラメータとサブバンドの所定の入力に対して、量子化された検出された空間及びレベルパラメータとサブバンドに関連付けられた推定SNRがテーブルに含まれるようにする（５０７）。その後、SLFルックテーブルは、図４及び６を参照して説明されているようなソース分離アプリケーションで使用するためのデータベースに格納される。

図６は、実施形態に従って、パニングされたソースを検出するようにトレーニングされたSLFを使用して、２チャネルミックスから空間的に識別可能なサブバンドオーディオソースを検出及び抽出する処理６００のフロー図である。処理６００は、例えば、図７を参照して記述された装置アーキテクチャ７００によって実装することができる。

処理６００は、先ず、２チャネルの時間ドメインオーディオ信号を、サブバンドにグループ化された複数の周波数ビンを持つ時間周波数タイルを含む周波数ドメイン表現に変換する（６０１）。例えば、STFTを使用して、２チャネルの時間ドメインオーディオ信号の各チャネルのSTFT表現を作成することができる。

処理６００は、続いて、各周波数ビンの空間及びレベルパラメータを計算する（６０２）。例えば、パラメータ（Θ、φ、U）は、式[７]-[９]を使用して計算することができる。

処理６００は、続いて、図４を参照して説明されているように、タイルごとに、タイル内の各周波数ビンのパーセンタイルSNRを生成し（６０３）、周波数ビンのSNRに基づいて周波数ビンの分数値を生成し（６０４）、タイル内の各々の周波数ビンに分数値を適用して、推定オーディオソースの修正タイルを生成する（６０５）。SLFルックアップテーブル/関数は、図２及び５を参照して説明されているように、パニングされたソースを検出するようにトレーニングされる。上記の分数値は、ここではソフトマスク値とも呼ばれ、両端を含む０から１までの実数であり、出力に渡される対応する入力STFTの分数を表す。SLFテーブル/関数を適用した結果は、０から１までの値で構成されるSTFTサイズの表現になる。実施形態では、ソフトマスク値及び／又はSNR値は、当業者に精通した技術を使用して、時間と周波数にわたって平滑化される。

処理６００は、任意で、図４を参照して説明されているように、推定された目標オーディオソースの時間周波数タイルを目標オーディオソースの２チャネル時間ドメイン推定に逆変換する（６０６）。幾つかの実施形態では、推定されたオーディオソースの時間周波数タイルを周波数ドメインで利用することができ、他の実施形態では、推定されたオーディオソースの２チャネル時間ドメイン推定を利用することができることに注意する。

装置アーキテクチャの例
図７は、実施形態に従って、図１～６を参照して説明されたシステム及び処理を実装するための装置アーキテクチャ７００のブロック図である。
装置アーキテクチャ７００は、上記の数学的計算を実行することができる任意のコンピュータ又は電子装置で使用することができる。

示されている例では、装置アーキテクチャ７００は、１つ以上のプロセッサ７０１（例えば、CPU、DSPチップ、ASIC）、１つ以上の入力装置７０２（例えば、キーボード、マウス、タッチサーフェス）、１つ以上の出力装置（例えば、LED/LCDディスプレイ）、メモリ７０４（例えば、RAM、ROM、フラッシュ）、及びスピーカ７０６に結合されたオーディオサブシステム７０６（例えば、メディアプレイヤ、オーディオアンプ、サポート回路）を含む。これらの各コンポーネントは、１つ以上のバス７０７（例えば、システム、電源、周辺機器など）に結合されている。実施形態では、ここに記述された特徴と処理は、メモリ７０４又は他のコンピュータ可読媒体に格納されたソフトウェア命令として実装でき、１つ以上のプロセッサ７０１によって実行される。ここに記述された特徴と処理を実装するためにソフトウェアとハードウェアの組み合わせを使用するアーキテクチャなど、より多く又はより少ないコンポーネントを有する他のアーキテクチャも可能である。

本願明細書は多数の特定の実装の詳細を含むが、これらは、請求され得るものの範囲に対する限定としてではなく、むしろ、特定の実装の特定の実装に固有の特徴の説明として考えられるべきである。別個の実施形態の文脈で本願明細書に記載された特定の特徴は、単一の実施形態において結合されて実装されてもよい。反対に、単一の実施形態の文脈で記載された種々の特徴は、複数の実施形態で別個に又は任意の適切な部分的組み合わせで実装されてもよい。更に、特徴は特定の組み合わせで動作するよう上述され、そのように初めに請求され得るが、請求される組み合わせからの１つ以上の特徴は、幾つかの場合には、組み合わせから切り離すことができ、請求される組み合わせは、部分的組み合わせ又は部分的組み合わせの変形に向けられてよい。図面に示された論理的フローは、望ましい結果を達成するために示された特定の順序又はシーケンシャルな順序を必要としない。更に、他のステップが設けられてよく、又はステップは記載されたフローから除去されてよく、記載されたシステムに他のコンポーネントが追加されてよく又は除去されてよい。したがって、他の実装は以下の特許請求の範囲の範囲内にある。

Claims

方法であって、
１つ以上のプロセッサを用いて、複数の周波数サブバンドの複数の目標レベル及び空間分布から、第１サンプルセットの周波数ドメイン表現を取得するステップと、
前記１つ以上のプロセッサを用いて、前記複数の周波数サブバンドの複数の背景レベル及び空間分布から、第２サンプルセットの周波数ドメイン表現を取得するステップと、
前記１つ以上のプロセッサを用いて、前記第１サンプルセットと前記第２サンプルセットを加算して、結合サンプルセットを生成するステップと、
前記１つ以上のプロセッサを用いて、前記複数の周波数サブバンドの各サブバンドについて、前記結合サンプルセットのサンプル毎に、レベル及び空間パラメータを検出するステップと、
前記複数の周波数サブバンドの各サブバンドの中で、検出したレベル及び空間パラメータを、目標ソース及び背景のそれら各々のレベル及び空間分布により重み付けするステップと、
前記１つ以上のプロセッサを用いて、前記結合サンプルセットの各サンプルについて前記複数の周波数サブバンド内の重み付けしたレベル及び空間パラメータと信号対雑音比（SNR）をテーブルに格納するステップと、
前記１つ以上のプロセッサを用いて、前記重み付けしたレベルパラメータ、空間パラメータとサブバンドにより、前記テーブルを再インデックス化するステップであって、その結果、前記テーブルは前記重み付けされたレベル及び空間パラメータとサブバンドの目標パーセンタイルSNRを含み、量子化された検出した空間及びレベルパラメータとサブバンドの所与の入力について、前記量子化された検出した空間及びレベルパラメータとサブバンドに関連する推定SNRが前記テーブルから取得される、ステップと、
を含む方法。
１つ以上の検出されたレベル、１つ以上の空間パラメータ又は周波数サブバンドに関してインデックス化されたデータを平滑化するステップ、を更に含む請求項１に記載の方法。
前記周波数ドメイン表現は短時間フーリエ変換（STFT）ドメイン表現である、請求項１又は２に記載の方法。
前記空間パラメータが混合オーディオ信号の２つのチャネル間のパニング及び位相差を含む、請求項１～３のいずれかに記載の方法。
目標ソースが定べき法則を使用して振幅パニングされる、請求項１～４のいずれかに記載の方法。
前記目標パーセンタイルSNRが２５パーセンタイルである、請求項１～５のいずれかに記載の方法。
方法であって、
１つ以上のプロセッサを使用して、２チャネルの時間ドメインオーディオ信号の１つ以上のフレームを複数の時間周波数タイルを含む時間周波数ドメイン表現に変換するステップであって、前記時間周波数ドメイン表現の周波数ドメインは複数のサブバンドにグループ化された複数の周波数ビンを含む、ステップと、
各時間周波数タイルについて、
前記１つ以上のプロセッサを使用して、空間パラメータ、及び時間周波数タイルのレベルを計算するステップと、
前記１つ以上のプロセッサを使用して、時間周波数タイルの各周波数ビンのパーセンタイル信号対雑音比（SNR）を生成するステップと、
前記１つ以上のプロセッサを使用して、前記ビンのSNRに基づく、前記ビンの分数値を生成するステップと、
前記１つ以上のプロセッサを使用して、前記時間周波数タイルの前記ビンの前記分数値を適用して、推定オーディオソースの修正時間周波数タイルを生成するステップと、
を含む方法。
前記１つ以上のプロセッサを使用して、前記修正時間周波数タイルを複数の時間ドメインオーディオソース信号に変換するステップ、を更に含む請求項７に記載の方法。
前記分数値が、パニングされた目標ソースについてトレーニングされた空間レベルフィルタリング（SLF）システムのルックアップテーブル又は関数から取得される、請求項７又は８に記載の方法。
２チャネル時間ドメインオーディオ信号の１つ以上のフレームを周波数ドメイン信号に変換するステップは、前記２チャネル時間ドメインオーディオ信号に短時間周波数変換（STFT）を適用するステップを含む、請求項７～９のいずれかに記載の方法。
複数の周波数ビンがオクターブサブバンド又はほぼオクターブサブバンドにグループ化される、請求項７～１０のいずれかに記載の方法。
機器であって、
１つ以上のプロセッサと、
前記１つ以上のプロセッサにより実行されると前記１つ以上のプロセッサに請求項１～１１のいずれかに記載の方法を実行させる命令を格納しているメモリと、
を含む機器。
命令を格納している非一時的コンピュータ可読記憶媒体であって、前記命令は、１つ以上のプロセッサにより実行されると、前記１つ以上のプロセッサに、請求項１～１１のいずれかに記載の方法を実行させる、非一時的コンピュータ可読記憶媒体。