JP2019515323A

JP2019515323A - スペクトログラムに対する構造テンソルを用いた調波打楽器残差音声分離装置および方法

Info

Publication number: JP2019515323A
Application number: JP2018549258A
Authority: JP
Inventors: アンドレアス・ニーデルマイヤー; リカルト・フェグ; ザッシャ・ディシェ; マイナルト・ミュラー; ジョナサン・ドリードガー
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2016-03-18
Filing date: 2017-03-16
Publication date: 2019-06-06
Anticipated expiration: 2037-03-16
Also published as: WO2017158102A1; JP6800995B2; KR20180121995A; MX2018011104A; KR102250624B1; BR112018068852A2; CA3017558C; RU2712652C1; ES2788682T3; EP3430612B1; CN109247030A; EP3220386A1; CN109247030B; US10770051B2; CA3017558A1; EP3430612A1; US20190012999A1

Abstract

オーディオ信号の振幅スペクトログラムを分析するための装置が提供される。この装置は、オーディオ信号の振幅スペクトログラムに応じて、オーディオ信号の振幅スペクトログラムの複数の時間周波数ビンの各時間周波数ビンについて周波数の変化を判定するように構成された周波数変化判定器（１１０）を備える。さらに、装置は、上記時間周波数ビンについて判定された周波数の変化に応じて、複数の時間周波数ビンの各時間周波数ビンを、２つ以上の信号成分グループのうちの１つの信号成分グループに割り当てるように構成された分類器（１２０）を備える。【選択図】図１

Description

本発明は、オーディオ信号処理に関し、特にスペクトログラムに対する構造テンソルを用いた調波打楽器残差音声分離のための装置および方法に関する。

音声を調波成分と打楽器成分とに分離できることは、多くの用途にとって効果的な前処理ステップである。

「調波打楽器（残差）分離」は一般的な用語であるが、基本周波数の整数倍の周波数を有する正弦波を有する調波構造を意味するため、誤解を招く。正確な用語は「音調打楽器（残差）分離」でなければならないが、理解を容易にするために、以下では「音調」ではなく上記用語および「調波」を使用している。

例えば、音楽録音の打楽器成分の分離を使用すると、ビートトラッキング（［１］参照）、リズム分析およびリズム楽器の音写の品質が向上する。調波成分の分離は、音程のある楽器の音写およびコード検出に適している（［３］参照）。さらに、調波打楽器分離は、両方の信号成分のレベル比を変化させるようなリミックスの目的で使用することができ（［４］参照）、全体的な音声の感覚が「より滑らか」または「より力強い」ものになる。

調波打楽器音分離のためのいくつかの方法は、調波音が入力信号の振幅スペクトログラムにおいて水平構造（時間方向）を有し、一方で、打楽器音が垂直構造（周波数方向）として現れるという仮定に依拠する。Ｏｎｏ他は、まず、時間／周波数方向の拡散によって調波／打楽器強調スペクトログラムを作成する方法を提示している［５］。これらの強調された表現を後で比較することによって、音声が調波か打楽器かを導き出すことができる。

同様の方法がＦｉｔｚｇｅｒａｌｄによって発表されている。当該文献においては、拡散の代わりに垂直方向のメジアンフィルタリングを使用して強調スペクトルが計算され（［６］を参照）、計算複雑度を低減しながら同様の結果がもたらされる。

これは、小さなセットのパラメータによってそれぞれの信号成分を記述することを目指すフレームワークである、正弦波＋過渡＋雑音（Ｓ＋Ｔ＋Ｎ）信号モデル（［７］、［８］、［９］参照）から着想を得ている。その後、Ｆｉｔｚｇｅｒａｌｄの方法は、［１０］の調波打楽器残差（ＨＰＲ）分離まで拡張された。オーディオ信号は、しばしば明瞭な調波でも打楽器でもない音声から構成されているため、この手順ではこれらの音声を第３の残りの成分において捕捉する。これらの残差信号のいくつかは、水平でも垂直でも内もない等方性の構造（例えば雑音）を明瞭に有するが、明瞭な水平構造を持たないにもかかわらず、音調情報を担持し、音声の調波部分として知覚することができる音声が存在する。例は、「ビブラート」があると言われる、ヴァイオリン演奏またはボーカルの録音において発生し得るような周波数変調トーンである。上述の方法は、水平構造または垂直構造のいずれかを認識する戦略のために、その調波成分において常にそのような音声を捕捉することができるとは限らない。

調波成分において非水平スペクトル構造を有する調波音を捕捉することができる非負行列分解に基づく調波打楽器分離手順が［１１］で提案されている。しかしながら、それは第３の残差成分を含まない。

上記を要約すると、最近の方法は、スペクトログラム表現では、調波音が水平構造をもたらし、打楽器音が垂直構造をもたらすという観察に依拠する。さらに、これらの方法は、水平でも垂直でもない構造（すなわち、調波でなく、打楽器でもない音声）と、残差のカテゴリとを関連付ける。しかし、この仮定は、スペクトル構造の変動を示し、一方でそれにもかかわらず音調情報を担持する、周波数変調トーンのような信号には成り立たない。

構造テンソルは、画像処理に使用されるツールであり（［１２］、［１３］参照）、これはその分野において、エッジおよびコーナ検出のために画像をグレースケーリングし（［１４］参照）、または、物体の向きを推定するために適用される。構造テンソルは、オーディオ処理において前処理および特徴抽出にすでに使用されている（［１５］、［１６］参照）。

本発明の目的は、オーディオ信号処理のための改善された概念を提供することである。本発明の目的は、請求項１に記載の装置、請求項１６に記載の方法、および請求項１７に記載のコンピュータプログラムによって解決される。

オーディオ信号の振幅スペクトログラムを分析するための装置が提供される。この装置は、オーディオ信号の振幅スペクトログラムに応じて、オーディオ信号の振幅スペクトログラムの複数の時間周波数ビンの各時間周波数ビンについて周波数の変化を判定するように構成された周波数変化判定器を備える。さらに、装置は、上記時間周波数ビンについて判定された周波数の変化に応じて、複数の時間周波数ビンの各時間周波数ビンを、２つ以上の信号成分グループのうちの１つの信号成分グループに割り当てるように構成された分類器を備える。

さらに、オーディオ信号の振幅スペクトログラムを分析するための方法が提供される。この方法は、以下のステップを含む。
− オーディオ信号の振幅スペクトログラムに応じて、オーディオ信号の振幅スペクトログラムの複数の時間周波数ビンの各時間周波数ビンについて周波数の変化を判定すること、および
− 上記時間周波数ビンについて判定された周波数の変化に応じて、複数の時間周波数ビンの各時間周波数ビンを、２つ以上の信号成分グループのうちの１つの信号成分グループに割り当てること。

さらに、コンピュータプログラムが提供され、コンピュータプログラムは、コンピュータまたは信号プロセッサ上で実行されるときに上記方法を実装するように構成されている。

以下では、本発明の実施形態を、図面を参照してより詳細に説明する。

一実施形態によるオーディオ信号の振幅スペクトログラムを分析するための装置を示す図である。矢印の向きが方向を示し、矢印の長さが異方性測度を示す、一実施形態による、領域的に拡大されている歌声、カスタネット、および拍手の混合音のスペクトログラムを示す図である。一実施形態による構造テンソルを使用することによって計算された様々な配向／異方性値を示す図である。合成入力信号の抜粋に対するＨＰＲ−Ｍ法とＨＰＲ−ＳＴ法との間の比較を示す図である。一実施形態による、信号発生器を備える装置を示す図である。一実施形態による、オーディオ信号を記録するための１つまたは複数のマイクロホンを備える装置を示す図である。

図１は、実施形態によるオーディオ信号の振幅スペクトログラムを分析するための装置を示す。

この装置は周波数変化判定器１１０を備える。周波数変化判定器１１０は、オーディオ信号の振幅スペクトログラムに応じて、オーディオ信号の振幅スペクトログラムの複数の時間周波数ビンの各時間周波数ビンについて周波数の変化を判定するように構成されている。

さらに、この装置は、分類器１２０を備える。分類器１２０は、上記時間周波数ビンについて判定された周波数の変化に応じて、複数の時間周波数ビンの各時間周波数ビンを、２つ以上の信号成分グループのうちの１つの信号成分グループに割り当てるように構成されている。

一実施形態によれば、周波数変化判定器１１０は、例えば、上記時間周波数ビンの角度α（ｂ，ｋ）に応じて、複数の時間周波数ビンの各時間周波数ビンについて周波数の変化を判定するように構成することができる。上記時間周波数ビンの角度α（ｂ，ｋ）は、オーディオ信号の振幅スペクトログラムに依存する。

一実施形態では、周波数変化判定器１１０は、例えば、オーディオ信号のサンプリング周波数ｆ_ｓ、ならびに、分析窓の長さＮおよび分析窓のホップサイズＨにさらに依存して、複数の時間周波数ビンの各時間周波数ビンについて周波数の変化を判定するように構成することができる。

一実施形態によれば、装置周波数変化判定器１１０は、以下の式に応じて、複数の時間周波数ビンの各時間周波数ビンについて周波数の変化を判定するように構成される。

（ｂ，ｋ）は複数の時間周波数ビンのうちの１つの時間周波数ビンを示し、Ｒ（ｂ，ｋ）は上記時間周波数ビン（ｂ，ｋ）の周波数の変化を示し、ｂは時間を示し、ｋは周波数を示し、ｆ_ｓはオーディオ信号のサンプリング周波数を示し、Ｎは分析窓の長さを示し、Ｈは分析窓のホップサイズを示し、α（ｂ，ｋ）は上記時間周波数ビン（ｂ，ｋ）の角度を示し、角度α（ｂ，ｋ）は振幅スペクトログラムに依存する。

一実施形態では、周波数変化判定器１１０は、例えば、時間インデックスに関するオーディオ信号の振幅スペクトログラムＳの偏導関数Ｓ_ｂを決定するように構成することができる。そのような実施形態では、周波数変化判定器１１０は、例えば、時間インデックスに関するオーディオ信号の振幅スペクトログラムＳの偏導関数Ｓ_ｋを決定するように構成することができる。

さらに、このような実施形態では、周波数変化判定器１１０は、時間インデックスに関するオーディオ信号の振幅スペクトログラムＳの偏導関数Ｓ_ｂ、および、周波数インデックスに関するオーディオ信号の振幅スペクトログラムＳの偏導関数Ｓ_ｋに応じて、複数の時間周波数ビンの時間周波数ビンの各時間周波数ビン（ｂ，ｋ）について構造テンソル
を決定するように構成される。

さらにそのような実施形態において、周波数変化判定器１１０は、例えば、上記時間周波数ビン（ｂ，ｋ）の構造テンソル
応じて、複数の時間周波数ビンの各時間周波数ビン（ｂ，ｋ）の角度α（ｂ，ｋ）を決定するように構成することができる。

一実施形態によれば、周波数変化判定器１１０は、例えば、上記時間周波数ビン（ｂ，ｋ）の構造テンソル
の固有ベクトル
の
および
の２つの成分を決定することによって、および、以下の式に従って上記時間周波数ビン（（ｂ，ｋ））の角度（α（ｂ，ｋ））を決定することによって、複数の時間周波数ビンの各時間周波数ビン（ｂ，ｋ）の角度α（ｂ，ｋ）を決定するように構成することができる。

α（ｂ，ｋ）は上記時間周波数ビン（（ｂ，ｋ））の角度を示し、ｂは時間を示し、ｋは周波数を示し、ａｔａｎ（）は逆タンジェント関数を示す。

一実施形態では、分類器１２０は、例えば、以下の式のうちの少なくとも１つに依存して、複数の時間周波数ビンの各時間周波数ビン（ｂ，ｋ）について異方性の測度を決定するように構成することができる。
および
μ（ｂ，ｋ）は第１の固有値であり、λ（ｂ，ｋ）は上記時間周波数ビン（ｂ，ｋ）の構造テンソル
の第２の固有値であり、
である。

そのような実施形態において、分類器１２０は、例えば、異方性の測度の変化にさらに依存して、複数の時間周波数ビンの各時間周波数ビンを、２つ以上の信号成分グループのうちの１つの信号成分グループに割り当てるように構成することができる。

一実施形態によれば、分類器１２０は、例えば、以下の式に応じて上記時間周波数ビン（ｂ，ｋ）の異方性の測度を決定するように構成することができる。
Ｃ（ｂ，ｋ）は上記時間周波数ビン（ｂ，ｋ）について依存する異方性の測度であり、分類器１２０は、異方性の測度Ｃ（ｂ，ｋ）が第１の閾値ｃより小さい場合、上記時間周波数ビン（ｂ，ｋ）を２つ以上の信号成分グループの残差成分グループに割り当てるように構成され、または、分類器１２０は、異方性の測度Ｃ（ｂ，ｋ）が第１の閾値ｃ以下である場合に、上記時間周波数ビン（ｂ，ｋ）を２つ以上の信号成分グループの残差成分グループに割り当てるように構成され、
である。

一実施形態では、分類器１２０は、例えば、複数の時間周波数ビンの各時間周波数ビンを、上記時間周波数ビン（ｂ，ｋ）について判定された周波数の変化Ｒ（ｂ，ｋ）に応じて２つ以上の信号成分グループの信号成分グループに割り当てるように構成することができ、それによって、分類器１２０は、上記時間周波数ビン（ｂ，ｋ）について判定された周波数の変化Ｒ（ｂ，ｋ）絶対値｜（ｂ，ｋ）｜が第２の閾値ｒ_ｈよりも小さいか否かに応じて、または、上記時間周波数ビン（ｂ，ｋ）について判定された周波数の変化Ｒ（ｂ，ｋ）の絶対値｜Ｒ（ｂ，ｋ）｜が第２の閾値ｒ_ｈ以下であるか否かに応じて、複数の時間周波数ビンのうちの１つの時間周波数ビンを、２つ以上の信号成分グループのうちの調波信号成分グループに割り当て、
である。

一実施形態によれば、分類器１２０は、例えば、複数の時間周波数ビンの各時間周波数ビンを、上記時間周波数ビン（ｂ，ｋ）について判定された周波数の変化Ｒ（ｂ，ｋ）に応じて２つ以上の信号成分グループの信号成分グループに割り当てるように構成することができ、それによって、分類器１２０は、上記時間周波数ビン（ｂ，ｋ）について判定された周波数の変化Ｒ（ｂ，ｋ）の絶対値｜Ｒ（ｂ，ｋ）｜が第３の閾値ｒ_ｐよりも大きいか否かに応じて、または、上記時間周波数ビン（ｂ，ｋ）について判定された周波数の変化Ｒ（ｂ，ｋ）の絶対値｜Ｒ（ｂ，ｋ）｜が第３の閾値ｒ_ｐ以上であるか否かに応じて、複数の時間周波数ビンのうちの１つの時間周波数ビンを、２つ以上の信号成分グループのうちの打楽器信号成分グループに割り当て、
である。

以下では、実施形態の詳細な説明を提供する。

実施形態は、構造テンソルに基づく調波打楽器残差（ＨＰＲ）音声分離のための改善された概念を提供する。いくつかの実施形態は、構造テンソルによって提供されるスペクトル構造の向きに関する情報を利用することによって、調波成分内に音調情報を保持する周波数変調音を捕捉する。

いくつかの実施形態は、水平および垂直への厳密な分類がこれらの信号には不適切であり、残差成分への音調情報の漏洩をもたらす可能性があるという知見に基づいている。実施形態は、振幅スペクトログラムにおける優勢な配向角を計算するために、数学的ツールである構造テンソルを代わりに使用する新規の方法に関する。実施形態は、周波数変調された信号の場合であっても、この配向情報を利用して調波、打楽器および残差信号成分を区別する。最後に、実施例の概念の有効性が、客観的評価測度および音声例の両方によって検証される。

さらに、いくつかの実施形態は、構造テンソルが、入力がグレースケール画像であり、出力が最小変化の方向に対応する各ピクセルの角度ｎおよび各ピクセルのこの方向の確実性または異方性測度であるブラックボックスと考えることができるという知見に基づいている。構造テンソルは、平滑化される可能性を付加的に提供し、ロバスト性の向上に対する雑音の影響を低減する。さらに、推定角度の品質を判定するために確実性測度を用いることができる。この確実性測度の低い値は、ピクセルが明瞭な方向なしに一定の明るさの領域にあることを示す。

局所的な周波数変化を、例えば、構造テンソルによって得られる角度から抽出することができる。これらの角度を形成することにより、スペクトログラムの時間周波数ビンが調波（＝低い局所周波数変化）または打楽器（＝高いまたは無限の局所周波数変化）成分に属するかを判定することができる。

調波打楽器残差分類および分離のための改良された実施形態が提供される。

調波打楽器残差音声分離は、音程のある楽器の音写またはリズム抽出などの用途に有用な前処理ツールである。厳密に水平および垂直構造のみを探索する代わりに、いくつかの実施形態は、画像処理から知られている構造テンソルを使用することによって、スペクトログラムの優勢な配向角および局所異方性を判定する。

実施形態では、適切な閾値を設定することによって、スペクトル構造の向きに関する提供された情報を使用して、調波、打楽器および残差信号成分を区別することができる。図２参照。

図２は、構造テンソルによって得られる方向（矢印の向き）および異方性測度（矢印の長さ）をさらに示す、領域的に拡大されている歌声、カスタネットおよび拍手の混合音のスペクトログラムを示す。矢印の色は、それぞれの時間周波数ビンが、向きおよび異方性情報に基づいて、調波成分（領域２１０）、打楽器成分（領域２３０）、または残差成分（領域２２０）に割り当てられるかを示す。

高い局所周波数変化率も低い局所周波数変化率のいずれも有せず、または、一定の領域が割り当てられていることを示す確実性測度も有しないすべてのビンは、残差成分に属する。このスペクトログラムの分離の一例を図２に見ることができる。実施形態は、周波数変調音を含むオーディオ信号に対して、振幅スペクトログラムに作用する同様の方法よりも良好に機能する。

最初に、構造テンソルの概念が記述され、この一般的な概念はオーディオ処理の文脈において適用可能となるように拡張される。

以下では、表記上の便宜のために、行列およびベクトルを太字で表記している。さらに、（・）演算子は特定の要素のインデックスに使用される。この場合、行列またはベクトルはそのスカラーとしての使用を示すために非太字の文字として表記される。

まず、実施形態によるスペクトログラムの計算について説明する。オーディオ信号は、例えば（離散的な）入力オーディオ信号であってもよい。

構造テンソルは、ｆ_ｓのサンプリング周波数による離散入力オーディオ信号
のスペクトログラム表現に適用することができる。
のスペクトル分析のために、以下の短時間フーリエ変換（ＳＴＦＴ）が使用される。
式中、
であり、ｂはフレームインデックスを表し、ｋは周波数インデックスであり、
は長さＮの窓関数である（換言すれば、Ｎは分析窓の長さである）。
Ｈ≦Ｎは、窓の分析ホップサイズを表す。ＳＴＦＴスペクトルはＮ／２にあるナイキスト点を中心とした一定の対称性を有するため、対称性は逆ＳＴＦＴの間に再構築することができるので、例えば、処理は０≦ｋ≦Ｎ／２に制限することができることに留意されたい。

上記式（１）を用いることにより、スペクトログラムを得ることができる。スペクトログラムは複数のスペクトルを含み、複数のスペクトルは互いに時間的に連続する。第２のスペクトルを生成するために使用され、第１のスペクトルを生成するために使用されず、第１のスペクトルを生成するために使用される第１の時間領域サンプルよりも後の時点を参照する時間領域サンプルである少なくともいくつかの第２の時間領域サンプルが存在する場合、複数のスペクトルの第２のスペクトルは、時間的に第１のスペクトルに後続する。時間的に隣接するスペクトルを生成するために使用される時間領域サンプルの窓は、例えば、重なり合い得る。

実施形態では、分析窓の長さＮは、例えば、
２５６サンプル≦Ｎ≦２０４８サンプルであるように定義することができる。

いくつかの実施形態では、分析窓の長さは、例えば、２０４８であってもよい。他の実施形態では、分析窓の長さは、例えば、１０２４サンプルであってもよい。さらなる実施形態では、分析窓の長さは、例えば７６８サンプルであってもよい。またさらなる実施形態では、分析窓の長さは、例えば、２５６サンプルであってもよい。

実施形態では、分析ホップサイズＨは、例えば、分析窓の２５％と７５％との間の範囲にあってもよい。このような実施形態では、
０．２５Ｎ≦Ｈ≦０．７５Ｎである。

したがって、そのような実施形態では、分析窓が、例えば２０４８個のサンプル（Ｎ＝２０４８）を有する場合、分析ホップサイズは、例えば、５１２サンプル≦Ｈ≦１５３６サンプルの範囲内であってもよい。

分析窓が、例えば２５６個のサンプル（Ｎ＝２５６）を有する場合、分析ホップサイズは、例えば、６４サンプル≦Ｈ≦１９２サンプルの範囲内であってもよい。

好ましい実施形態では、分析ホップサイズは、例えば、分析窓の５０％であってもよい。これは、５０％の２つの後続の分析窓の窓重なりに対応する。

いくつかの実施形態では、分析ホップサイズは、例えば、分析窓の２５％であってもよい。これは、７５％の２つの後続の分析窓の窓重なりに対応する。

他の実施形態では、分析ホップサイズは、例えば、分析窓の７５％であってもよい。これは、２５％の２つの後続の分析窓の窓重なりに対応する。

本発明の概念は、ＭＤＣＴ（修正離散コサイン変換）、ＭＤＳＴ（修正離散サイン変換）、ＤＳＴＦＴ（離散短時間フーリエ変換）などのような、任意の種類の時間領域からスペクトル領域への変換に適用可能であることに留意されたい。

実数値の対数スペクトログラムは、例えば、以下のように計算することができる。

オーディオ信号の振幅スペクトログラムはＳとして参照され得、時間周波数ビン（ｂ，ｋ）の振幅スペクトログラムの値は、Ｓ（ｂ，ｋ）として参照され得る。

以下では、実施形態による構造テンソルの計算について説明する。

構造テンソルの計算には、Ｓの偏導関数が必要である。時間インデックスｂに関する偏導関数は、以下によって与えられ、
一方、周波数インデックスｋに関する偏導関数は次のように定義される。
ここで、ｄは離散微分演算子であり（例えば、中心差分についてはｄ＝[-1,0,1]/2を選択することができる）、＊は２次元畳み込みを示す。

さらに、次のように定義することができる。
式中、
は、アダマール積としても知られている点ごとの行列乗算であり、Ｇは、時間インデックス方向の標準偏差σ_ｂおよび周波数インデックス方向の標準偏差σ_ｋを有する２Ｄガウス平滑フィルタである。その後、構造テンソル
が、以下の２×２の対称で半正定値な行列によって与えられる。

構造テンソルは、位置（ｂ，ｋ）におけるスペクトログラムの優勢な向きに関する情報を含む。Ｇがスカラーである特殊な事例では、
は、スペクトログラムのこの位置における勾配よりも多くの情報を含まないことに留意されたい。しかし、勾配とは対照的に、構造テンソルはＧによって相殺効果なしに平滑化することができ、これによって雑音に対してよりロバストになる。

構造テンソル
は、複数の時間周波数ビンの各時間周波数ビン（ｂ，ｋ）に対して定義されることに留意されたい。したがって、複数の時間周波数ビン、例えば時間周波数ビン(0,0);(0,1);(0,2);...(1,0);(1,1);(1,2);...が考慮される場合、複数の構造テンソル
が存在する。例えば、複数の時間周波数ビンの各時間周波数ビン（ｂ，ｋ）に対して、１つの構造テンソル
が決定される。

以下では、実施形態による角度および異方性測度の計算について説明する。

スペクトログラムの各ビンの向きに関する情報は、構造テンソル
の固有値λ（ｂ，ｋ）、μ（ｂ，ｋ）、λ（ｂ，ｋ）≦μ（ｂ，ｋ）、ならびに、対応する固有ベクトル
および
を計算することによって得られる。小さい方の固有値λ（ｂ，ｋ）に対応する固有ベクトルである
は、インデックス（ｂ，ｋ）のスペクトログラムにおける変化が最も低い方向を指しており、一方、
は、最高の変化の方向を指していることに留意されたい。したがって、特定のビンにおける配向の角度は、以下によって得ることができる。
および
は、固有ベクトル
の成分である。
ａｔａｎ（）は逆タンジェント関数を示す。

さらに、異方性の測度は以下のとおりであり、
ここで、
は、各ビンについて決定することができる。
であることに留意されたい。１に近いＣ（ｂ，ｋ）の値は、インデックス（ｂ，ｋ）におけるスペクトログラムの高い異方性を示し、一方、一定の近傍は０に近い値をもたらす。雑音に対するロバスト性をさらに高めるために、異方性とみなされるべきものに対する限界を定める閾値
を選択することができる。

角度の物理的意味α（ｂ，ｋ）は、時間間隔Δｔの間の瞬時周波数の変化Δｆを伴う連続信号を考慮することによって理解することができる。したがって、瞬時周波数変化率Ｒは、以下によって示される。

例えば、実施形態によれば、構造テンソルによって得られる角度（図２の矢印の方向によって示される）は、例えば、以下の、スペクトログラムの各時間周波数ビンの局所周波数変化率に変換することができる。

各時間周波数ビンの周波数の変化は、例えば、瞬時周波数変化率と呼ぶことができる。

適用されているＳＴＦＴ分析のサンプルレート、長さおよびホップサイズを考慮すると、スペクトログラムの角度と各ビンの瞬時周波数変化率Ｒ（ｂ，ｋ）との間の関係は、以下によって導き出すことができる。

また、離散領域σ_ｂおよびσ_ｋにおける平滑化フィルタＧの標準偏差は、以下によって連続的な物理パラメータσ_ｔおよびσ_ｆに変換することができる。

以下では、構造テンソルを使用した調波打楽器残差分離について説明する。

構造テンソルを介して得られた情報は、ＨＰＲ分離の問題、例えばスペクトログラムの各ビンを入力信号の調波、打楽器または残差成分のいずれかの一部として分類するために適用することができる。

実施形態は、調波成分に割り当てられたビンがどちらかと言えば水平構造に属するべきであり、一方、どちらかと言えば垂直構造に属するビンが打楽器成分に割り当てられるべきであるという知見に基づいている。さらに、どのような種類の配向構造にも属さないビンは、残差成分に割り当てられるべきである。

実施形態によれば、ビン（ｂ，ｋ）は、例えば、以下の２つの制約のうちの第１の制約を満たす場合、調波成分に割り当てることができる。

好ましい実施形態によれば、ビン（ｂ，ｋ）は、例えば、以下の２つの制約の両方を満たす場合、調波成分に割り当てることができる。
− 第１の制約は、例えば、角度α（ｂ，ｋ）の絶対値が閾値α_ｈよりも小さい（または閾値α_ｈと等しい）ことであり得る。閾値α_ｈは、例えば、
の範囲内にあってもよい。これは、ビンが、α_ｈより大きいまたはより小さい傾きを有しないいくつかのスペクトル構造の一部であるべきであることを意味する。このようにして、周波数変調音も、パラメータα_ｈに依存して調波成分の一部と考えることができる。
− 第２の制約は、例えば、異方性の測度Ｃ（ｂ，ｋ）が、ビン（ｂ，ｋ）がいくつかの有向異方性構造の一部であることを立証し、したがって第２の閾値ｃを超えることであってもよい。所与のビン（ｂ，ｋ）について、角度α（ｂ，ｋ）および異方性の測度Ｃ（ｂ，ｋ）はともに、極座標で与えられる
内の点を定義することに留意されたい。

同様に、実施形態では、別の角度閾値α_ｐが割り当てられて、ビンが打楽器成分（図３の垂直線で囲まれた領域３３０）に割り当てられるべき場合を定義する。

したがって、実施形態によれば、ビン（ｂ，ｋ）は、例えば、以下の２つの制約のうちの第１の制約を満たす場合、打楽器成分に割り当てることができる。

好ましい実施形態によれば、ビン（ｂ，ｋ）は、例えば、以下の２つの制約の両方を満たす場合、打楽器成分に割り当てることができる。
− 第１の制約は、例えば、角度α（ｂ，ｋ）の絶対値が閾値α_ｐよりも大きい（または閾値α_ｐと等しい）ことであり得る。閾値α_ｐは、例えば、
の範囲内にあってもよい。これは、ビンが、α_ｐより大きいまたはより小さい傾きを有しないいくつかのスペクトル構造の一部であるべきであることを意味する。このようにして、周波数変調音も、パラメータα_ｐに依存して調波成分の一部と考えることができる。
− 第２の制約は、例えば、異方性の測度Ｃ（ｂ，ｋ）が、ビン（ｂ，ｋ）がいくつかの有向異方性構造の一部であることを立証し、したがって第２の閾値ｃを超えることであってもよい。所与のビン（ｂ，ｋ）について、角度α（ｂ，ｋ）および異方性の測度Ｃ（ｂ，ｋ）はともに、極座標で与えられる
内の点を定義することに留意されたい。

最後に、実施形態では、調波および打楽器成分のいずれにも割り当てられないすべてのビンを、例えば、残差成分に割り当てることができる。

上記割り当てプロセスは、調波成分のマスクＭ_ｈ、打楽器成分のマスクＭ_ｐ、残差成分のマスクＭ_ｒを定義することによって表すことができる。

閾値α_ｈおよび閾値α_ｐを使用する代わりに、閾値は、実施形態において、パラメータの選択により良い物理的解釈を与えるために、例えば、ｒ_ｐ≧ｒ_ｈである最大絶対周波数変化率
に関して定義されてもよいことに留意されたい。マスクは以下のように与えられる。

最後に、調波成分Ｘ_ｈ、打楽器成分Ｘ_ｐおよび残差成分Ｘ_ｒのＳＴＦＴは、以下によって得られる。

その後、対応する時間信号を、逆ＳＴＦＴを介して計算することができる。

図３は、構造テンソルによって計算された様々な配向／異方性値を示す。

特に、図３は、調波成分への割り当てをもたらすすべての点のサブセットを示す。特に、波線を有する領域３１０内の値は、調波成分への割り当てをもたらす。

垂直線を有する領域３３０内の値は、打楽器成分への割り当てをもたらす。

点線を有する領域３２０内の値は、残差成分への割り当てをもたらす。

閾値α_ｈは図３の線３０１を規定し、閾値α_ｐは図３の線３０２を規定する。

図５は、一実施形態による装置を示し、装置は、複数の時間周波数ビンの２つ以上の信号成分グループへの割り当てに応じてオーディオ出力信号を生成するように構成された信号発生器１３０を備える。

例えば、信号発生器は、異なる信号成分グループの時間周波数ビンの振幅値に異なる重み付け係数を適用することによって、オーディオ信号の異なる成分をフィルタリングすることができる。例えば、調波信号成分グループは、第１の重み係数ｗ_ｈを有することができ、打楽器信号成分グループは第２の重み係数ｗ_ｐを有することができ、残差信号成分グループは第１の重み係数ｗ_ｒを有することができ、複数の時間周波数ビンの各時間周波数ビンの振幅値は、例えば、その時間周波数ビンが割り当てられる信号成分グループの重み係数で重み付けされる。

例えば、調波信号成分を強調するために、一実施形態では、重み係数に線形振幅値が乗算され、例えば、ｗ_ｈ＝１．３、ｗ_ｐ＝０．７、およびｗ_ｒ＝０．２である。

例えば、調波信号成分を強調するために、一実施形態では、重み係数が対数振幅値に加算され、例えば、ｗ_ｈ＝＋０．２６，ｗ_ｐ＝ −０．３５，およびｗ_ｒ＝ −−１．６１である。

例えば、打楽器信号成分を強調するために、一実施形態では、重み係数に線形振幅値が乗算され、例えば、ｗ_ｈ＝０．７，ｗ_ｐ＝１．３，およびｗ_ｒ＝０．２である。

例えば、打楽器信号成分を強調するために、一実施形態では、重み係数が対数振幅値に加算され、例えば、ｗ_ｈ＝−０．３５，ｗ_ｐ＝＋０．２６，およびｗ_ｒ＝−−１．６１である。

したがって、信号発生器１３０は、複数の時間周波数ビンの各時間周波数ビンの振幅値に重み付け係数を適用して、オーディオ出力信号を得るように構成され、ここで、上記時間周波数ビンに適用される重み付け係数は、上記時間周波数ビンが割り当てられる信号成分グループに依存する。

図５の特定の実施形態では、信号プロセッサ１３０は、例えば、オーディオ信号をアップミックスして２つ以上のオーディオ出力チャネルを含むオーディオ出力信号を得るように構成されたアップミキサであってもよい。アップミキサは、例えば、複数の時間周波数ビンを２つ以上の信号成分グループに割り当てることに応じて２つ以上のオーディオ出力チャネルを生成するように構成することができる。

例えば、２つ以上のオーディオ出力チャネルは、上述したように異なる信号成分グループの時間周波数ビンの振幅値に異なる重み付け係数を適用することによって、オーディオ信号の異なる成分をフィルタリングすることによって、オーディオ信号から生成することができる。

しかしながら、異なるオーディオチャネルを生成するために、例えば、異なるオーディオ出力チャネルの各々に固有であり得る信号成分グループのための異なる重みが使用されてもよい。

例えば、第１のオーディオ出力チャネルの場合、対数振幅値に加算される重みは、例えば、ｗ_１ｈ＝＋０．２６、ｗ_１ｐ＝−０．３５、およびｗ_１ｒ＝−１．６１でもよい。

また、第２のオーディオ出力チャネルの場合、対数振幅値に加算される重みは、例えば、ｗ_２ｈ＝＋０．３５，ｗ_２ｐ＝−０．２６，およびｗ_２ｒ＝−−１．６１でもよい。

例えば、オーディオ信号をアップミックスして、正面左、中央、右、左サラウンドおよび右サラウンドの５つのオーディオ出力チャネルを得る場合、
− 調波重み付け係数ｗ_１ｈは、左サラウンドおよび右サラウンドオーディオ出力チャネルを生成するための調波重み付け係数ｗ_２ｈと比較して、左、中央、および右オーディオ出力チャネルの生成についてより大きくてもよい。
− 打楽器重み付け係数ｗ_１ｐは、左サラウンドおよび右サラウンドオーディオ出力チャネルを生成するための打楽器重み付け係数ｗ_２ｐと比較して、左、中央、および右オーディオ出力チャネルの生成についてより小さくてもよい。

個々の重み付け係数は、生成される各オーディオ出力チャネルに対して使用されてもよい。

図６は、一実施形態による、オーディオ信号を記録するための１つまたは複数のマイクロホン１７１、１７２を備える装置を示す。

図６において、第１のマイクロホン１７１は、オーディオ信号の第１のオーディオチャネルを記録する。任意選択の第２のマイクロホン１７２は、オーディオ信号の任意選択の第２のオーディオチャネルを記録する。

その上、図６の装置は、第１のオーディオチャネルを含み、任意選択的に、任意選択の第２のオーディオチャネルを含むオーディオ信号からオーディオ信号の振幅スペクトログラムを生成するための振幅スペクトログラム生成器１８０をさらに備える。オーディオ信号から振幅スペクトログラムを生成することは、当業者にとって周知の概念である。

以下において、実施形態の評価が考察される。

調波成分の周波数変調音の捕捉における実施形態の有効性を示すために、実施形態による構造テンソルに基づくＨＰＲ法（ＨＰＲ−ＳＴ）を、［１０］に提示されたメジアンフィルタリングに基づく非反復法（ＨＰＲ−Ｍ）と比較する。さらに、達成可能な最大分離品質の基準として機能する理想バイナリマスク（ＩＢＭ）による分離結果についてもこのメトリックが計算される。

ＨＰＲ−ＳＴとＨＰＲ−Ｍの両方について、被試験システムパラメータを考慮して、ＳＴＦＴパラメータは、ｗに対して正弦波窓を使用してｆ_ｓ＝２２０５０Ｈｚ、Ｎ＝１０２４およびＨ＝２５６であるように選択された。ＨＰＲ−Ｍの分離パラメータは［１０］で行われている実験のように選択した。実施形態によれば、構造テンソルは、微分演算子、例えば離散微分演算子ｄとしてのＳｃｈａｒｒ−Ｏｐｅｒａｔｏｒ［１７］を用いて計算される。平滑化は、
および
をもたらす標準偏差σ_ｂ＝σ_ｋ＝１．４を有する９×９等方性ガウスフィルタを使用して実行された。最後に、分離の閾値がｅ＝２０、ｃ＝０．２およびｒ_ｈ＝ｒ_ｐ＝１００００Ｈｚ／ｓに設定された。

実施形態によるｒ_ｈおよびｒ_ｐの選択によれば、スペクトログラムの非常に急峻な構造でさえ、調波成分に割り当てられることに留意されたい。実施形態は、例えば図２に示すように、現実世界のビブラート音についての観察を使用する。ここでは、場合によっては歌声のビブラートが非常に高い瞬時周波数変化率を有することが分かる。さらに、ｒ_ｈ＝ｒ_ｐを選択することによって、スペクトログラム中のビンを残差成分に割り当てることは、純粋にその異方性測定に依存することに留意すべきである。

実施形態によるＨＰＲ−ＳＴの有効性は、客観的評価測度およびオーディオ例の両方によって、［１０］で提示された現行技術水準のメジアンフィルタリングに基づくＨＰＲ−Ｍ方法と比較することによって評価された。

客観的結果を得るために周波数変調音を含む信号に適用した場合の実施形態によるＨＰＲ−ＳＴおよび従来技術のＨＰＲ−Ｍ挙動を比較するために、２つの試験項目が生成された。

試験項目１は純粋な合成音の重ね合わせから成る。調波音源は、基本周波数が１０００Ｈｚ、ビブラート周波数が３Ｈｚ、ビブラート範囲が５０Ｈｚ、および倍音が４つのビブラートトーンになるように選択された。打楽器音源については、いくつかのインパルスが使用され、一方、白色雑音は調波でも打楽器でもない残差音源を表す。

試験項目２は、歌声の実世界の信号にビブラート（調波）、カスタネット（打楽器）、および拍手（調波でも打楽器でもない）を重ね合わせることによって生成された。

これらの項目のＨＰＲ分離を音源分離問題として解釈すると、標準音源分離評価メトリックが、両方の手順の分離結果について計算されている（［１８］で導入されているように、音源対歪比ＳＤＲ、音源対干渉比ＳＩＲ、および音源対アーチファクト比ＳＡＲ）。結果を表１に示す。

表１は、すべての値がｄＢ単位で与えられている客観的評価測度を示す。

項目１について、ＨＰＲ−ＳＴはビブラートトーンについて２１．２５ｄＢのＳＤＲをもたらし、それゆえ、ＨＰＲ−Ｍの分離結果（１１．５１ｄＢ）よりもＩＢＭの最適な分離結果（２９．４３ｄＢ）に近くなる。これは、ＨＰＲ−ＳＴが、ＨＰＲＭと比較して調波成分におけるこの周波数変調音の捕捉を改善することを示している。これは図４にも示されている。

図４は、合成入力信号の抜粋（項目１）に対するＨＰＲ−Ｍ法とＨＰＲ−ＳＴ法との間の比較を示す。見やすくするために、スペクトログラムは、分離アルゴリズムに使用されるものとは異なるＳＴＦＴパラメータを用いて計算された。

図４（ａ）は時間に対する入力信号の周波数を示す。図４には、調波成分のスペクトログラムと、両方の手順について計算された打楽器成分および残差成分の合計がプロットされている。ＨＰＲ−Ｍについて、ビブラートトーンの急峻な勾配が残差成分へと漏洩しており（図４（ｂ）および図４（ｃ））、一方で、ＨＰＲ−ＳＴ（図４（ｄ）および図４（ｅ））は良好な分離をもたらすことが分かる。これはまた、ＨＰＲ−ＳＴと比較して残差成分に対するＨＰＲＭの非常に低いＳＩＲ値を説明する（−１１．９９ｄＢ対１４．１２ｄＢ）。

調波成分に対するＨＰＲ−Ｍの高いＳＩＲ値は、他の成分からの干渉音がほとんどないことを反映しているに過ぎず、ビブラートの音声は全体として十分に捕捉されていないことに留意されたい。一般に、項目１の観察のほとんどは、それほど顕著ではないが、項目２の現実世界の音声の混合音についても有効である。この項目では、ボーカルのＨＰＲ−ＭのＳＩＲ値はＨＰＲ−ＳＴのＳＩＲ値をさらに超える（２０．８３ｄＢ対１５．６１ｄＢ）。ここでも、拍手に関する低いＳＩＲ値は、ボーカルのビブラートの部分がＨＰＲ−Ｍ（１．１１ｄＢ）については残差成分に漏洩していることを立証しており、一方、ＨＰＲ−ＳＴの残差成分はより少ない干渉音（６．３４ｄＢ）を含む。これは、実施形態がＨＰＲ−Ｍよりもはるかに良好に、ボーカルの周波数変調構造を捕捉することができることを示している。

結果を要約すると、周波数変調音を含む信号について、実施形態のＨＰＲ−ＳＴ概念は、ＨＰＲ−Ｍと比較してはるかに良好な分離結果を提供する。

いくつかの実施形態は、歌声検出のために構造テンソルを使用する。（従来技術による歌声検出が［２］に記載されている）。

いくつかの態様を装置の文脈で説明してきたが、これらの態様は、対応する方法の説明も表していることは明らかであり、そこで、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明されている態様は、対応する装置の対応するブロックまたは項目または特徴の説明をも表す。方法ステップの一部または全部は、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって（またはそれを使用して）実行されてもよい。いくつかの実施形態では、最も重要な方法ステップの１つまたは複数は、そのような装置によって実行されてもよい。

特定の実装要件に応じて、本発明の実施形態は、ハードウェアもしくはソフトウェアにおいて、または少なくとも部分的にハードウェアにおいて、もしくは少なくとも部分的にソフトウェアにおいて実装することができる。実装態様は、電子的に読み取り可能な制御信号が記憶された、例えばフロッピーディスク、ＤＶＤ、Ｂｌｕ−Ｒａｙ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリなどのデジタル記憶媒体を使用して実行することができ、これはそれぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働することができる）。したがって、デジタル記憶媒体はコンピュータ可読であってもよい。

本発明によるいくつかの実施形態は、本明細書に記載の方法の１つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子可読制御信号を有するデータキャリアを備える。

一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作するときに、方法の１つを実行するように動作する。プログラムコードは、例えば、機械可読キャリアに格納することができる。

他の実施形態は、機械可読キャリアに格納される、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含む。

換言すれば、それゆえ、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを記録されているデータキャリア（またはデジタル記憶媒体もしくはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体または記録媒体は、典型的には有形かつ／または非一時的である。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは一連の信号は、例えば、データ通信接続を介して、例えば、インターネットを介して転送されるように構成することができる。

さらなる実施形態は、本明細書に記載の方法のうちの１つを実行するように構成または適合される処理手段、例えばコンピュータまたはプログラマブル論理装置を含む。

さらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムをインストールされているコンピュータを含む。

本発明によるさらなる実施形態は、本明細書で説明される方法の１つを実行するためのコンピュータプログラムを受信機に（例えば、電子的にまたは光学的に）転送するように構成された装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。この装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含むことができる。

いくつかの実施形態では、プログラマブル論理デバイス（例えば、フィールド・プログラマブル・ゲート・アレイ）を使用して、本明細書に記載の方法の機能の一部または全部を実行することができる。いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイは、本明細書で説明する方法の１つを実行するためにマイクロプロセッサと協働することができる。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。

本明細書に記載の装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組み合わせを使用して実装することができる。

本明細書に記載の方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組み合わせを使用して実施することができる。

上述の実施形態は、本発明の原理の例示にすぎない。当業者には、本明細書に記載された構成および詳細の修正および変形が明らかになることは理解されたい。したがって、本発明は添付の特許請求の範囲によってのみ限定され、本明細書の実施形態の記述および説明によって示される特定の詳細によっては限定されないことが意図される。

Claims

オーディオ信号の振幅スペクトログラムを分析するための装置であって、
前記オーディオ信号の前記振幅スペクトログラムに応じて、前記オーディオ信号の前記振幅スペクトログラムの複数の時間周波数ビンの各時間周波数ビンについて周波数の変化を判定するように構成された周波数変化判定器（１１０）と、
前記時間周波数ビンについて判定された前記周波数の前記変化に応じて、前記複数の時間周波数ビンの各時間周波数ビンを、２つ以上の信号成分グループのうちの１つの信号成分グループに割り当てるように構成された分類器（１２０）と、を備える、装置。
前記周波数変化判定器（１１０）は、前記時間周波数ビンの角度（α（ｂ，ｋ））に応じて、前記複数の時間周波数ビンの各時間周波数ビンについて前記周波数の前記変化を判定するように構成されており、前記時間周波数ビンの前記角度（α（ｂ，ｋ））は、前記オーディオ信号の前記振幅スペクトログラムに依存する、請求項１に記載の装置。
前記周波数変化判定器（１１０）は、前記オーディオ信号のサンプリング周波数（ｆ_ｓ）、ならびに、分析窓の長さ（Ｎ）および前記分析窓のホップサイズ（Ｈ）にさらに依存して、前記複数の時間周波数ビンの各時間周波数ビンについて前記周波数の前記変化を判定するように構成されている、請求項２に記載の装置。
前記装置周波数変化判定器（１１０）は、以下の式に応じて、前記複数の時間周波数ビンの各時間周波数ビンについて前記周波数の前記変化を判定するように構成されており、

（ｂ，ｋ）は前記複数の時間周波数ビンのうちの１つの時間周波数ビンを示し、
Ｒ（ｂ，ｋ）は前記時間周波数ビン（ｂ，ｋ）の前記周波数の前記変化を示し、
ｂは時間を示し、
ｋは周波数を示し、
ｆ_ｓは前記オーディオ信号の前記サンプリング周波数を示し、
Ｎは前記分析窓の前記長さを示し、
Ｈは前記分析窓の前記ホップサイズを示し、
α（ｂ，ｋ）は前記時間周波数ビン（ｂ，ｋ）の前記角度を示し、
前記角度α（ｂ，ｋ）は前記振幅スペクトログラムに依存する、請求項３に記載の装置。
前記周波数変化判定器（１１０）は、時間インデックスに関する前記オーディオ信号の前記振幅スペクトログラム（Ｓ）の偏導関数（Ｓ_ｂ）を決定するように構成されており、
前記周波数変化判定器（１１０）は、時間インデックスに関する前記オーディオ信号の前記振幅スペクトログラム（Ｓ）の偏導関数（Ｓ_ｋ）を決定するように構成されており、
前記周波数変化判定器１１０は、前記時間インデックスに関する前記オーディオ信号の前記振幅スペクトログラム（Ｓ）の前記偏導関数（Ｓ_ｂ）、および、前記周波数インデックスに関する前記オーディオ信号の前記振幅スペクトログラム（Ｓ）の前記偏導関数（Ｓ_ｋ）に応じて、前記複数の時間周波数ビンの時間周波数ビンの各時間周波数ビン（（ｂ，ｋ））について構造テンソル
を決定するように構成されており、
前記周波数変化判定器（１１０）は、前記時間周波数ビン（（ｂ，ｋ））の前記構造テンソル
に応じて、前記複数の時間周波数ビンの各時間周波数ビン（（ｂ，ｋ））の前記角度（α（ｂ，ｋ））を決定するように構成されている、請求項２〜４のいずれか一項に記載の装置。
前記周波数変化判定器（１１０）は、前記時間周波数ビン（（ｂ，ｋ））の前記構造テンソル
の固有ベクトル
の
および
の２つの成分を決定することによって、および、以下の式に従って前記時間周波数ビン（（ｂ，ｋ）の前記角度（α（ｂ，ｋ））を決定することによって、前記複数の時間周波数ビンの各時間周波数ビン（（ｂ，ｋ））の前記角度（α（ｂ，ｋ））を決定するように構成されており、
α（ｂ，ｋ）は前記時間周波数ビン（（ｂ，ｋ））の前記角度を示し、
ｂは時間を示し、
ｋは周波数を示し、
ａｔａｎ（）は逆タンジェント関数を示す、請求項５に記載の装置。
前記分類器１２０は、以下の式のうちの少なくとも１つに依存して、前記複数の時間周波数ビンの各時間周波数ビン（ｂ，ｋ）について異方性の測度を決定するように構成されており、
および
μ（ｂ，ｋ）は第１の固有値であり、λ（ｂ，ｋ）は前記時間周波数ビン（ｂ，ｋ）の前記構造テンソル
の第２の固有値であり、
であり、
前記分類器（１２０）は、前記異方性の測度の前記変化にさらに依存して、前記複数の時間周波数ビンの各時間周波数ビンを、２つ以上の信号成分グループのうちの１つの信号成分グループに割り当てるように構成されている、請求項５または６に記載の装置。
前記分類器（１２０）は、以下の式に応じて前記時間周波数ビン（ｂ，ｋ）の前記異方性の測度を決定するように構成されており、

Ｃ（ｂ，ｋ）は前記時間周波数ビン（ｂ，ｋ）について依存する前記異方性の測度であり、
前記分類器（１２０）は、前記異方性の測度Ｃ（ｂ，ｋ）が第１の閾値ｃより小さい場合、前記時間周波数ビン（ｂ，ｋ）を前記２つ以上の信号成分グループの残差成分グループに割り当てるように構成されており、または
前記分類器（１２０）は、前記異方性の測度Ｃ（ｂ，ｋ）が前記第１の閾値ｃ以下である場合に、前記時間周波数ビン（ｂ，ｋ）を前記２つ以上の信号成分グループの前記残差成分グループに割り当てるように構成されており、
である、請求項７に記載の装置。
前記分類器（１２０）は、前記複数の時間周波数ビンの各時間周波数ビンを、前記時間周波数ビン（（ｂ，ｋ））について判定された前記周波数の前記変化（Ｒ（ｂ，ｋ））に応じて２つ以上の信号成分グループの信号成分グループに割り当てるように構成されており、結果、前記分類器（１２０）は、前記時間周波数ビン（（ｂ，ｋ））について判定された前記周波数の前記変化（Ｒ（ｂ，ｋ））の絶対値（｜Ｒ（ｂ，ｋ）｜）が第２の閾値ｒ_ｈよりも小さいか否かに応じて、または、前記時間周波数ビン（（ｂ，ｋ））について判定された前記周波数の前記変化（Ｒ（ｂ，ｋ））の前記絶対値（｜Ｒ（ｂ，ｋ）｜）が前記第２の閾値ｒ_ｈ以下であるか否かに応じて、前記複数の時間周波数ビンのうちの１つの時間周波数ビンを、前記２つ以上の信号成分グループのうちの調波信号成分グループに割り当て、
である、請求項１〜８のいずれか一項に記載の装置。
前記分類器（１２０）は、前記複数の時間周波数ビンの各時間周波数ビンを、前記時間周波数ビン（（ｂ，ｋ））について判定された前記周波数の前記変化（Ｒ（ｂ，ｋ））に応じて２つ以上の信号成分グループの信号成分グループに割り当てるように構成されており、結果、前記分類器（１２０）は、前記時間周波数ビン（（ｂ，ｋ））について判定された前記周波数の前記変化（Ｒ（ｂ，ｋ））の絶対値（｜Ｒ（ｂ，ｋ）｜）が第３の閾値ｒ_ｐよりも大きいか否かに応じて、または、前記時間周波数ビン（（ｂ，ｋ））について判定された前記周波数の前記変化（Ｒ（ｂ，ｋ））の前記絶対値（｜Ｒ（ｂ，ｋ）｜）が前記第３の閾値ｒ_ｐ以上であるか否かに応じて、前記複数の時間周波数ビンのうちの１つの時間周波数ビンを、前記２つ以上の信号成分グループのうちの打楽器信号成分グループに割り当て、
である、請求項１〜８のいずれか一項に記載の装置。
前記分類器（１２０）は、前記複数の時間周波数ビンの各時間周波数ビンを、前記時間周波数ビン（（ｂ，ｋ））について判定された前記周波数の前記変化（Ｒ（ｂ，ｋ））に応じて２つ以上の信号成分グループの信号成分グループに割り当てるように構成されており、結果、前記分類器（１２０）は、前記時間周波数ビン（（ｂ，ｋ））について判定された前記周波数の前記変化（Ｒ（ｂ，ｋ））の絶対値（｜Ｒ（ｂ，ｋ）｜）が前記第３の閾値ｒ_ｐよりも大きいか否かに応じて、または、前記時間周波数ビン（（ｂ，ｋ））について判定された前記周波数の前記変化（Ｒ（ｂ，ｋ））の前記絶対値（｜Ｒ（ｂ，ｋ）｜）が前記第３の閾値ｒ_ｐ以上であるか否かに応じて、前記複数の時間周波数ビンのうちの１つの時間周波数ビンを、前記２つ以上の信号成分グループのうちの打楽器信号成分グループに割り当て、
である、請求項９に記載の装置。
前記装置は、前記複数の時間周波数ビンの前記２つ以上の信号成分グループへの前記割り当てに応じてオーディオ出力信号を生成するように構成された信号発生器（１３０）を備える、請求項１〜１１のいずれか一項に記載の装置。
前記信号発生器（１３０）は、前記複数の時間周波数ビンの各時間周波数ビンの振幅値に重み付け係数（ｗ_ｈ，ｗ_ｐ，ｗ_ｒ）を適用して、前記オーディオ出力信号を得るように構成され、ここで、前記時間周波数ビンに適用される前記重み付け係数（ｗ_ｈ，ｗ_ｐ，ｗ_ｒ）は、前記時間周波数ビンが割り当てられる前記信号成分グループに依存する、請求項１２に記載の装置。
前記信号プロセッサ（１３０）は、前記オーディオ信号をアップミックスして２つ以上のオーディオ出力チャネルを含む前記オーディオ出力信号を得るように構成されたアップミキサであり
前記アップミキサは、前記複数の時間周波数ビンを前記２つ以上の信号成分グループに前記割り当てることに応じて前記２つ以上のオーディオ出力チャネルを生成するように構成されている、請求項１２または１３に記載の装置。
前記装置は、前記オーディオ信号を記録するための１つまたは複数のマイクロホン（１７１，１７２）を備え、
前記装置は、前記オーディオ信号から前記オーディオ信号の前記振幅スペクトログラムを生成するための振幅スペクトログラム生成器（１８０）をさらに備える、請求項１〜１４のいずれか一項に記載の装置。
オーディオ信号の振幅スペクトログラムを分析するための方法であって、
前記オーディオ信号の前記振幅スペクトログラムに応じて、前記オーディオ信号の前記振幅スペクトログラムの複数の時間周波数ビンの各時間周波数ビンについて周波数の変化を判定するステップと、
前記時間周波数ビンについて判定された前記周波数の前記変化に応じて、前記複数の時間周波数ビンの各時間周波数ビンを、２つ以上の信号成分グループのうちの１つの信号成分グループに割り当てるステップと、を含む、方法。
コンピュータまたは信号プロセッサ上で実行されるとき、請求項１６に記載の方法を実装するためのコンピュータプログラム。