JP6790114B2

JP6790114B2 - 音声スペクトログラムに基づく構造テンソルを使用して位相情報を復元することによるエンコーディング

Info

Publication number: JP6790114B2
Application number: JP2018549178A
Authority: JP
Inventors: アンドレーアスニーダーマイアー; リヒャルトフューク; サッシャディスヒ
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2016-03-18
Filing date: 2017-03-16
Publication date: 2020-11-25
Anticipated expiration: 2037-03-16
Also published as: US20190019529A1; CN109247069B; RU2714579C1; US10607630B2; WO2017158105A1; EP3430620B1; EP3430620A1; JP2019512740A; CN109247069A; BR112018068892A2

Description

本発明は、音声信号処理に関し、詳細には、スペクトログラムに基づく構造テンソルを使用して調波−打楽器−残留音を分離するための装置および方法に関する。

音をその調波成分と打楽器成分に分離できることは、多くの利用分野のための有効な前処理ステップである。

「調波−打楽器（−残留）分離」は一般的な用語であるものの、それは調波音構造が基本周波数の整数倍数の周波数を有する正弦波を伴うものであることを暗示することから、誤解を招く恐れがある。正しい用語は「音調−打楽器−（残留）分離」であるべきであるにせよ、より容易に理解できるようにするため以下では「音調（ｔｏｎａｌ）」の代りに「調波（ｈａｒｍｏｎｉｃ）」なる用語を使用する。

例えば音楽の録音などの分離された打楽器成分を使用することにより、リズム楽器のビート・トラッキング（文献［１］を参照）、リズム分析および採譜の品質を改善することができる。分離された調波成分は、音程のある楽器の採譜およびコード検出のために好適である（文献［３］を参照）。その上、調波−打楽器分離は、より「スムーズな」またはより「パンチの効いた」全体的な音の知覚のいずれかを導く、両方の信号成分の間のレベル比の変更などのリミキシングの目的のために使用可能である（文献［４］を参照）。

調波−打楽器音分離のためのいくつかの方法は、調波音は入力信号の振幅スペクトログラム（ｍａｇｎｉｔｕｄｅｓｐｅｃｔｒｏｇｒａｍ）内に水平構造（時間方向で）を有しているのに対し、打楽器音が垂直な構造（周波数方向で）として現れる、という仮定に依存している。Ｏｎｏらは、時間／周波数方向での発散により調波的に／打楽器的に強化されたスペクトログラムをまず作成する方法を提示した（文献［５］を参照）。後にこれらの強化された表示を比較することによって、音が調波か打楽器のいずれであるかの決定を導くことができる。

同様の方法がＦｉｔｚｇｅｒａｌｄによっても公開されており、ここでは、強化されたスペクトログラムは発散の代りに直交方向でのメジアンフィルタリングを使用することによって計算されており（文献［６］を参照）、こうして、コンピュータ処理上の複雑性を削減しながら同様の結果が導かれる。

正弦＋過渡＋雑音（Ｓ＋Ｔ＋Ｎ）信号モデルからヒントを得て（文献［７］、［８］、［９］を参照）、フレームワークは、小さなパラメータセットを用いてそれぞれの信号成分を記述することを目的としている。Ｆｉｔｚｇｅｒａｌｄの方法は、その後文献［１０］において、調波−打楽器−残留（ＨＰＲ）分離へと拡張された。音声信号は多くの場合、明らかに調波でも打楽器でもない音で構成されることから、この手順はこれらの音を第３の、残留成分として捕捉する。これらの残留信号のいくつかは、水平でも垂直でもない等方性（ｉｓｏｔｒｏｐｉｃ）の構造を（例えば雑音として）明らかに有するものの、明らかな水平構造を有さずそれでも音調情報を保持しかつ音の調波部分として知覚され得る音が存在する。一つの例としては、「ビブラート」を有すると言われるバイオリン演奏やボーカルの録音において発生し得るような、周波数変調された音調がある。水平または垂直のいずれかの構造を認識するストラテジーのために、上述の方法は、常にこのような音をその調波成分として捕捉することができるわけではない。

調波成分で非水平スペクトルの構造を伴う調波音を捕捉する能力を有する非負値行列因子分解に基づく調波−打楽器分離手順が、文献［１１］で提案されている。しかしながら、これには、第３の残留成分は含まれていなかった。

以上のことを要約すると、近年の方法は、スペクトログラム表示において、調波音が水平構造を導き、打楽器音が垂直構造を導くという観測事実に依存している。その上、これらの方法は、水平でも垂直でもない構造（すなわち非調波音、非打楽器音）を残留カテゴリと結びつけている。しかしながら、この仮定は、音調情報をなおも保持しながら、変動するスペクトルの構造を示す周波数変調された音調のような信号については、有効でない。

画像処理において使用されるツールである構造テンソル（文献［１２］、［１３］を参照）が、エッジおよびコーナーの検出のためのグレースケール画像（文献［１４］を参照）に対して、または物体の向きの推定に対してそこでは適用されている。構造テンソルはすでに、音声処理において、前処理および特徴抽出のために使用されてきている（文献［１５］、［１６］を参照）。

本発明の目的は、音声信号処理のための改良された概念を提供することにある。本発明の目的は、請求項１に係る装置によって、請求項１８に係るシステムによって、請求項１９に係るエンコーダによって、請求項２０に係る方法によって、そして請求項２１に係るコンピュータプログラムによって解決される。

音声信号の振幅スペクトログラムからの位相復元装置が提供されている。装置は、音声信号の振幅スペクトログラムに依存して、音声信号の振幅スペクトログラムの複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するように構成されている周波数変化決定部と、複数の時間−周波数ビンについて決定された周波数の変化に依存して、複数の時間−周波数ビンについての位相値を生成するように構成されている位相復元部と、を含む。

さらに、上述の通りの位相復元装置のために音声信号の振幅スペクトログラムを生成するように構成されているエンコーダが提供されている。

さらに、音声信号の振幅スペクトログラムから位相を復元するための方法が提供されている。この方法は、
− 音声信号の振幅スペクトログラムに依存して、音声信号の振幅スペクトログラムの複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するステップと、
− 複数の時間−周波数ビンについて決定された周波数の変化に依存して、複数の時間−周波数ビンについての位相値を生成するステップと、
を含む。

その上、コンピュータまたは信号プロセッサ上で実行されているときに、上述の方法を実装するように構成されたコンピュータプログラムが提供されている。

以下では、本発明の実施形態について図面を参照しながらより詳細に説明する。

図１は、一実施形態における音声信号の振幅スペクトログラムを分析するための装置を例示する図である。図２は、一実施形態における拡大領域を伴う、歌声、カスタネットおよび拍手の混合のスペクトログラムを例示しており、ここで矢印の向きは方向を表わし、矢印の長さは異方性の大きさ（ａｎｉｓｏｔｒｏｐｙｍｅａｓｕｒｅ）を表わす図である。図３は、一実施形態における構造テンソルを使用することによってコンピュータ処理された向き／異方性の値の範囲を例示する図である。図４は、合成入力信号の抜粋についてのＨＰＲ−ＭとＨＰＲ−ＳＴ法の比較を例示する図である。図５は、信号生成部を含む、一実施形態における装置を例示する図である。図６は、音声信号を記録するための１つ以上のマイクロホンを含む、一実施形態における装置を例示する図である。図７は、一実施形態における位相復元装置を例示する図である。図８は、信号生成部を含む、一実施形態における位相復元装置を例示する図である。図９は、デコーダが一実施形態における位相復元装置である、一実施形態におけるエンコーダとデコーダとを含むシステムを例示する図である。図１０は、伝送のための振幅スペクトル（ｍａｇｎｉｔｕｄｅｓｐｅｃｔｒｕｍ）を使用する実施形態に係る音声エンコーダおよび音声デコーダを例示する図である。

図１は、実施形態に係る音声信号の振幅スペクトログラムを分析するための装置を例示する。

装置は周波数変化決定部１１０を含む。周波数変化決定部１１０は、音声信号の振幅スペクトログラムに依存して、音声信号の振幅スペクトログラムの複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するように構成されている。

さらに、装置は、分類部（ｃｌａｓｓｉｆｉｅｒ）１２０を含む。分類部１２０は、前記時間−周波数ビンについて決定された周波数の変化に依存して、２つ以上の信号成分群のうちの信号成分群に対して複数の時間−周波数ビンのうちの各々の時間−周波数ビンを割当てるように構成されている。

一実施形態によると、周波数変化決定部１１０は、例えば前記時間−周波数ビンについての角度（α（ｂ，ｋ））に依存して、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するように構成されていてよい。前記時間−周波数ビンについての角度α（ｂ，ｋ）は、音声信号の振幅スペクトログラムによって左右される。

一実施形態において、周波数変化決定部１１０は、例えば、さらに音声信号のサンプリング周波数ｆ_sに依存して、および分析ウィンドウの長さＮに依存して、および分析ウィンドウのホップサイズ（ｈｏｐｓｉｚｅ）Ｈに依存して、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての周波数の変化を決定するように構成されていてよい。

このような実施形態において、分類部１２０は、例えば、さらに異方性の大きさの変化に依存して、２つ以上の信号成分群のうちの１つの信号成分群に対して複数の時間−周波数ビンのうちの各々の時間−周波数ビンを割当てるように構成されていてよい。

以下では、実施形態の詳細な説明が提供される。

実施形態は、構造テンソルに基づく調波−打楽器−残留（ＨＰＲ）音分離についての改良された概念を提供する。いくつかの実施形態は、構造テンソルにより提供されるスペクトルの構造の向きに関する情報を活用することによって、調波成分中として、音調情報を保持する周波数変調された音を捕捉する。

いくつかの実施形態は、水平および垂直への厳密な分類がこれらの信号には不適切であり、残留成分内への音調情報の漏出を導く可能性があるという発見に基づいている。実施形態は、その代わりとして、振幅スペクトログラム内の優勢な向きの角度を計算するための数学的ツールである構造テンソルを使用する新しい方法に関する。実施形態は、この向きの情報を用いて、周波数変調された信号の場合でさえ、調波、打楽器および残留信号成分を区別する。最後に、実施形態の概念の有効性は、客観的な評価の大きさならびに音声例の両方を用いて確認される。

さらに、いくつかの実施形態は、ブラックボックスとして構造テンソルを考慮できるという発見に基づいており、そこでは、入力がグレースケール画像であり、出力が、最低の変化の方向に対応する各々の画素についての角度ｎ、および各画素についてのこの方向の確実性または異方性の大きさである。構造テンソルはさらに、平滑化される可能性を提供し、これにより、強化されたロバスト性についての雑音の影響は軽減される。その上、確実性の大きさは、推定された角度の質を決定するために使用することができる。この確実性の大きさの低い値は、いかなる明確な方向も無い一定の明るさの領域内に画素が存在することを表わす。

局所的な周波数の変化は、例えば、構造テンソルによって得られた角度から抽出され得る。これらの角度から、スペクトログラム内の時間−周波数ビンが調波成分（＝低い局所的な周波数の変化）かまたは打楽器成分（＝高いかまたは無限の局所的な周波数の変化）のいずれに属するかを決定することができる。

調波−打楽器−残留分類および分離のための改良された実施形態が提供される。

調波−打楽器−残留音分離は、音程のある楽器の採譜またはリズム抽出などの利用分野のための有用な前処理ツールである。厳密に水平なおよび垂直な構造だけを検索する代りに、いくつかの実施形態は、画像処理から公知である構造テンソルを使用することによって、スペクトログラム内の局所的な異方性と優勢な向きの角度も決定する。

実施形態において、スペクトルの構造の向きに関して提供された情報は、このとき、適切な閾値を設定することによって、調波、打楽器および残留信号成分を区別するために使用可能である。図２を参照されたい。

図２は、歌声、カスタネットおよび拍手の混合のスペクトログラムを例示しており、拡大領域がさらに、構造テンソルにより得られた方向（矢印の向き）および異方性の大きさ（矢印の長さ）を示している。矢印の色は、それぞれの時間−周波数ビンが、向きおよび異方性情報に基づいて、調波成分（区域２１０）、打楽器成分（区域２３０）または残留成分（区域２２０）のいずれに割当てられるかを表わす。

高くも低くもない局所的な周波数の変化率または一定の領域を表わす確実性の大きさを有する全てのビンは、残留成分に属するように割当てられた。スペクトログラムのこの分離についての一つの例が図２に見られる。実施形態は、振幅スペクトログラムに基づいて機能する類似の方法に比べて、周波数変調された音を含む音声信号についてより優れた成果を示す。

最初に、構造テンソルの概念について説明を行い、この一般的な概念を音声処理との関連で適応されるように拡張する。

以下では、表記の便宜上、行列およびベクトルをボールド体で記している。その上、特定の要素の指標となるように（・）演算子が使用されている。この場合、行列またはベクトルは、そのスカラの使用を示すため非ボールド体で記されている。

最初に、実施形態に係るスペクトログラムの計算を説明する。音声信号は、例えば、（離散）入力音声信号であってよい。

上述の式（１）を使用することにより、スペクトログラムを得ることができる。スペクトログラムは複数のスペクトルを含み、ここで複数のスペクトルは互いに時間的に続いて起こる。第２のスペクトルを生成するために使用されるが第１のスペクトルを生成するために使用されず、第１のスペクトルを生成するのに使用される第１の時間領域サンプルよりも遅い時点を基準にする時間領域サンプルである、少なくともいくつかの第２の時間領域サンプルが存在する場合、複数のスペクトルのうちの第２のスペクトルが時間的に第１のスペクトルの後に起こる。近傍のスペクトルを適時に生成するために使用される時間領域サンプルのウィンドウは、例えば重複してよい。

実施形態において、分析ウィンドウの長さＮは、例えば、以下の通りになるように定義されてよい。
２５６サンプル≦Ｎ≦２０４８サンプル

いくつかの実施形態において、分析ウィンドウの長さは、例えば、２０４８であってよい。他の実施形態において、分析ウィンドウの長さは、例えば、１０２４サンプルであってよい。さらなる実施形態において、分析ウィンドウの長さは、例えば、７６８サンプルであってよい。なおさらなる実施形態において、分析ウィンドウの長さは、例えば、２５６サンプルであってよい。

実施形態において、分析ホップサイズＨは、例えば、分析ウィンドウの２５％〜７５％の範囲内にあり得る。このような実施形態では、
０．２５Ｎ≦Ｈ≦０．７５Ｎ
である。

こうして、このような実施形態において、分析ウィンドウが、例えば、２０４８サンプル（Ｎ＝２０４８）を有する場合、分析ホップサイズは、例えば、以下の範囲内にあり得る。
５１２サンプル≦Ｈ≦１５３６サンプル

分析ウィンドウが、例えば、２５６サンプル（Ｎ＝２５６）を有する場合、分析ホップサイズは、例えば、以下の範囲内にあり得る。
６４サンプル≦Ｈ≦１９２サンプル

好ましい実施形態において、分析ホップサイズは、例えば、分析ウィンドウの５０％であってよい。これは、２つの後の分析ウィンドウの５０％というウィンドウの重複に対応する。

いくつかの実施形態において、分析ホップサイズは、例えば、分析ウィンドウの２５％であってよい。これは、２つの後の分析ウィンドウの７５％というウィンドウの重複に対応する。

他の実施形態において、分析ホップサイズは、例えば、分析ウィンドウの７５％であってよい。これは、２つの後の分析ウィンドウの２５％というウィンドウの重複に対応する。

本発明の概念が、ＭＤＣＴ（修正離散コサイン変換）、ＭＤＳＴ（修正離散サイン変換）、ＤＳＴＦＴ（離散短時間フーリエ変換）などの、あらゆる種類の時間領域からスペクトル領域への変換について適用可能である、ということを留意しておくべきである。

音声信号の振幅スペクトログラムをＳと呼び、時間−周波数ビン（ｂ，ｋ）についての振幅スペクトログラムの値をＳ（ｂ，ｋ）と呼ぶことができる。

以下では、実施形態に係る構造テンソルの計算について説明する。

以下では、実施形態に係る角度および異方性の大きさの計算について説明する。

ａｔａｎ（）は、逆正接関数を表わす。

各々の時間−周波数ビンについての周波数の変化は、例えば、瞬時周波数の変化率と呼んでもよい。

以下では、構造テンソルを使用した調波−打楽器−残留分離について説明する。

構造テンソルを介して得られた情報は、例えば、入力信号の調波、打楽器または残留成分のいずれかの一部であるものとしてスペクトログラム内の各ビンを分類する目的で、ＨＰＲ分離の問題に適用可能である。

実施形態は、調波成分に割当てられたビンがどちらかと言えば水平構造に属するべきであるのに対し、どちらかと言えば垂直構造に属するビンは打楽器成分に割当てられるべきである、という発見に基づくものである。その上、どの種類の向きの構造にも属さないビンは、残留成分に割当てられなければならない。

実施形態によると、ビン（ｂ，ｋ）は、例えば、以下の２つの制約条件のうちの第１を満たす場合、調波成分に割当てられてよい。

同様にして、実施形態において、ビンを打楽器成分に割当てなければならない場合を定義するために、別の角度閾値α_pが割当てられる（図３中の垂直線を伴う区域３３０）。

こうして、実施形態によると、ビン（ｂ，ｋ）は、例えば、以下の２つの制約条件のうちの第１を満たす場合、打楽器成分に割当てられてよい。

最終的に、実施形態において、調波成分にも打楽器成分にも割当てられない全てのビンは、例えば、残留成分に割当てられてよい。

対応する時間信号はこのとき、逆ＳＴＦＴにより計算することができる。

図３は、構造テンソルによりコンピュータ処理される向き／異方性の値の範囲を例示する。

詳細には、図３は、調波成分に対する割当てを導く全ての点の部分集合を描いている。詳細には、波線を伴う区域３１０内の値は、調波成分に対する割当てを導く。

垂直線を伴う区域３３０内の値は、打楽器成分に対する割当てを導く。

ドットのある区域３２０内の値は、残留成分に対する割当てを導く。

閾値α_hは図３内で線３０１を画定し、閾値α_Pは図３内で線３０２を画定する。

図５は、２つ以上の信号成分群に対する複数の時間−周波数ビンの割当てに依存して音声出力信号を生成するように構成されている信号生成部１３０を含む、一実施形態における装置を例示する。

こうして、信号生成部１３０は、音声出力信号を得るため、複数の時間−周波数ビンのうちの各々の時間−周波数ビンのマグニチュード値に対して重み付け係数を適用するように構成されており、ここで前記時間−周波数ビンに適用される重み付け係数は、前記時間−周波数ビンが割当てられている信号成分群に左右される。

図５の特定の実施形態において、信号プロセッサ１３０は、例えば、２つ以上の音声出力チャンネルを含む音声出力信号を得るため音声信号をアップミックスするように構成されたアップミキサであり得る。アップミキサは、例えば、２つ以上の信号成分群に対する複数の時間−周波数ビンの割当てに依存して、２つ以上の音声出力チャンネルを生成するように構成されていてよい。

例えば、２つ以上の音声出力チャンネルは、上述の通り、異なる信号成分群の時間−周波数ビンのマグニチュード値に対して異なる重み付け係数を適用することによって、音声信号の異なる成分を音声信号フィルタから生成されてよい。

しかしながら、異なる音声チャンネルを生成するためには、信号成分群のために、異なる音声出力チャンネルの各々について例えば固有であり得る異なる重みを使用することができる。

個別の重み付け係数を、各々の音声出力チャンネルの生成のために使用することができる。

図６は、音声信号を記録するための１つ以上のマイクロホン１７１、１７２を含む、一実施形態における装置を例示する。

図６において、第１のマイクロホン１７１は、音声信号の第１の音声チャンネルを記録する。オプションの第２のマイクロホン１７２は、音声信号のオプションの第２の音声チャンネルを記録する。

さらに、図６の装置は、第１の音声チャンネルを含みオプションで第２の音声チャンネルを含む音声信号から音声信号の振幅スペクトログラムを生成するための、振幅スペクトログラム生成部１８０をさらに含んでいる。音声信号から振幅スペクトログラムを生成することは、当業者にとっては周知の概念である。

以下では、実施形態の評価を検討する。

調波成分内の周波数変調された音の捕捉における実施形態の有効性を示すため、実施形態に係る構造テンソルに基づいたＨＰＲ方法（ＨＰＲ−ＳＴ）は、文献［１０］に提示されているメジアンフィルタリングに基づく非反復法（ＨＰＲ−Ｍ）と比較される。さらに、最大到達可能な分離品質のための基準として役立っているイデアル２進マスク（ＩＢＭ）を用いて分離結果についての測定規準も同様にコンピュータ処理される。

実施形態に係るＨＰＲ−ＳＴの有効性は、客観的な評価の大きさならびに音声例の両方を用いて、文献［１０］に提示されている現状の技術のメジアンフィルタリングに基づく方法ＨＰＲ−Ｍと比較することによって、評価された。

客観的な結果を得るために周波数変調された音を含む信号に適用された場合の実施形態に係るＨＰＲ−ＳＴおよび先行技術のＨＰＲ−Ｍの動きを比較するために、２つのテスト項目が設定された。

テスト項目１は、純粋な合成音の重畳で構成されている。調波源は、１０００Ｈｚの基本周波数、３Ｈｚのビブラート周波数、５０Ｈｚのビブラート範囲および４倍音を有するビブラート音調として選択された。打楽器源については、複数のインパルスが使用される一方で、ホワイトノイズは、調波でも打楽器でもない残留源を表わす。

テスト項目２は、実世界での歌声の信号をビブラート（調波）、カスタネット（打楽器）および拍手（調波でも打楽器でもない）とスーパーインポーズすることによって生成された。

これらの項目のＨＰＲ分離を音源分離の問題として解釈して、両方の手順の分離結果について、標準音源分離評価測定規準がコンピュータ処理されてきた（文献［１８］中で紹介されているような音源対歪比ＳＤＲ、音源対干渉比ＳＩＲおよび音源対アーチファクト比ＳＡＲ）。結果が表１に示されている。

表１は、客観的な評価の大きさが描かれ、表中全ての値はｄＢ単位で示されている。

項目１については、ＨＰＲ−ＳＴがビブラート音調について２１．２５ｄＢのＳＤＲを生み出し、したがって、ＨＰＲ−Ｍの分離結果（１１．５１ｄＢ）よりもＩＢＭの最適分離結果（２９．４３ｄＢ）の方に近い。これは、ＨＰＲ−ＳＴが、ＨＰＲＭに比べて、調波成分内のこの周波数変調された音の捕捉時点で改善することを表わしている。これは図４でも見られる。

図４は、合成入力信号の抜粋についてのＨＰＲ−ＭとＨＰＲ−ＳＴ法の比較を例示している（項目１）。強化された可視性について、スペクトログラムは、分離アルゴリズムのために使用されたものとは異なるＳＴＦＴパラメータを用いて計算された。

図４（ａ）は、時間との関係における入力信号の周波数を例示している。図４では、両方の手順についてコンピュータ処理された調波成分および打楽器および残留成分の和のスペクトログラムがプロットされている。ＨＰＲ−Ｍについては、ビブラート音調の急勾配傾斜が残留成分内に漏出している（図４（ｂ）および（ｃ））のに対して、ＨＰＲ−ＳＴ（図４（ｄ）および（ｅ））は良好な分離を生み出している、ということが分かる。このことは同様に、ＨＰＲ−ＳＴに比べてＨＰＲＭでは残留成分についてのＳＩＲ値が非常に低いこと（−１１．９９ｄＢ対１４．１２ｄＢ）も説明している。

調波成分のみについてのＨＰＲ−Ｍの高いＳＩＲ値は、ビブラート音が全体としてうまく捕捉されていることではなく、他の成分からの干渉音がほとんど存在しないことを反映している、ということを留意しておくべきである。概して、項目１についての観察事実の大部分は、さほど顕著ではないが、項目２内の実世界の音の混合についても有効である。この項目については、ボーカルのＨＰＲ−ＭのＳＩＲ値は、ＨＰＲ−ＳＴのＳＩＲ値を上回ってさえいる（２０．８３ｄＢ対１５．６１ｄＢ）。ここでもまた、拍手についての低いＳＩＲ値は、ボーカル内のビブラート部分がＨＰＲ−Ｍについての残留成分内に漏出しており（１．１１ｄＢ）、その一方でＨＰＲ−ＳＴの残留成分が含む干渉音は比較的低いものである（６．３４ｄＢ）ということを裏付けている。このことは、実施形態が、ボーカルの周波数変調された構造を、ＨＰＲ−Ｍよりもはるかにうまく捕捉する能力を有していたことを表わしている。

結果をまとめると、周波数変調された音調を含む信号について、実施形態のＨＰＲ−ＳＴ概念は、ＨＰＲ−Ｍに比べてはるかに優れた分離結果を提供する。

いくつかの実施形態では、歌声検出のために構造テンソルが利用される（先行技術に係る歌声検出については、文献［２］中に記載されている）。

以下では、実施形態の別の態様が説明されている。このさらなる態様は、振幅スペクトログラムからの位相の復元に関係する。

図７は、一実施形態における音声信号の振幅スペクトログラムからの位相復元装置を例示する。

装置は、音声信号の振幅スペクトログラムに依存して、音声信号の振幅スペクトログラムの複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するように構成されている周波数変化決定部１１０を含む。

さらに、装置は、複数の時間−周波数ビンについて決定された周波数の変化に依存して、複数の時間−周波数ビンについての位相値を生成するように構成されている位相復元部１４０を含む。

実施形態によると、位相復元部１４０は、例えば、周波数の変化を２回積分することにより（時間で２回積分することにより）複数の時間−周波数ビンの各々の時間−周波数ビンについて位相値を生成するように構成されていてよい。換言すると、実施形態において、位相復元部１４０は、時間で２回積分することによって、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて位相値を生成するように構成されている。したがって、換言すると、積分が２回行なわれる間隔（単数または複数）は、スペクトログラムの時間軸に沿って延在する。

他の実施形態によると、位相復元部１４０は、周波数で２回積分することにより（スペクトル的に２回積分することにより）、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて位相値を生成するように構成されている。したがって、換言すると、積分が２回行なわれる間隔（単数または複数）は、スペクトログラムの周波数軸に沿って延在する。例えば、２回行なわれる周波数に渡る積分は、例えば、式（３０）および（３１）に基づいて行なわれてよい。

実施形態において、周波数変化決定部１１０は、例えば、時間−周波数ビンについての角度α（ｂ，ｋ）に依存して、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するように構成されていてよく、ここで、前記時間−周波数ビンについての角度α（ｂ，ｋ）は、音声信号の振幅スペクトログラムによって左右される。

実施形態によると、周波数変化決定部１１０は、例えば、さらに音声信号のサンプリング周波数ｆ_sに依存して、および分析ウィンドウの長さＮに依存して、および分析ウィンドウのホップサイズＨに依存して、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての周波数の変化を決定するように構成されていてよい。

実施形態によると、位相復元部１４０は、複数の時間−周波数ビンについて決定された周波数の変化に依存して、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて位相値を生成するように構成されていてよい。

実施形態において、位相復元部１４０は、例えば、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて決定された周波数の変化に依存して、複数の時間−周波数ビンのうちの各々の時間−周波数ビン（ｂ，ｋ）について異方性の大きさを決定するように構成されていてよい。

実施形態によると、位相復元部１４０は、例えば、位相の復元が行なわれるか否かに関わらず、異方性の大きさに依存して、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて、位相復元モードを決定するように構成されていてよい。

位相復元部１４０は、例えば、前記時間−周波数ビンについて位相復元部１４０が決定した位相復元モードが第１のモードを表わしている場合には、周波数の変化を２回積分することにより複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて位相値を生成するように構成されていてよい。さらに、位相復元部１４０は、例えば、前記時間−周波数ビンについて位相復元部１４０が決定した位相復元モードが、第１のモードと異なるものである第２のモードを表わしている場合には、周波数の変化を２回積分することにより複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての位相を決定するように構成されていてよい。

実施形態において、位相復元部１４０は、例えば、異方性の大きさが下方閾値ｃよりも大きい場合には位相復元モードが第１のモードを表わし、前記時間−周波数ビン（ｂ，ｋ）についての異方性の大きさが下方閾値ｃ以下である場合には、位相復元モードが第２のモードを表わすように、複数の時間−周波数ビンのうちの各々の時間−周波数ビン（ｂ，ｋ）について位相復元モードを決定するように構成されていてよい。

実施形態において、上方閾値および下方閾値ｃは、例えば、等しいものであってよい。

あるいは、位相復元部１４０は、前記時間−周波数ビン（ｂ，ｋ）についての異方性の大きさが閾値ｃ以上である場合には位相復元モードが第１のモードを表わし、異方性の大きさが閾値ｃより小さい場合には、位相復元モードが第２のモードを表わすように、複数の時間−周波数ビンのうちの各々の時間−周波数ビン（ｂ，ｋ）について位相復元モードを決定するように構成されている。

第１のモードは、例えば、時間−周波数ビンが調波または打楽器信号成分群に属することを表わす場合がある。

第１のモードは、例えば、時間−周波数ビンが残留信号成分群に属することを表わす場合がある。

以下では、特定の実施形態に係る位相推定についてより詳細に説明する。

所与の振幅スペクトログラムからの位相情報を推定する作業用のアルゴリズムが、文献［１９］および［２０］で提案されている。しかしながら、これらのアルゴリズムは、計算複雑性が高いか、または一般的な音声信号用としては知覚可能な品質が不十分であるという状況を導く。

振幅スペクトログラムから位相情報を推定することは、例えば、デコーダにおいて位相が修復されている間にエンコーダが振幅のみを伝送する音声コーディングにおいて使用可能と考えられる作業である。一定の音調信号についてさえスペクトルが経時的な変動を示す現状の技術のＭＤＣＴに基づくコーディングと比べて、（例えば、ＤＦＴ、またはＭＣＬＴとして知られるＣＭＤＣＴの）振幅スペクトルは、はるかに安定しており、これにより経時的なビットレート効率の高い差分コーディング（文献［２１］を参照）および有効なマルチチャンネル冗長性削減が可能になる。

こうして、周波数の変化率を２回積分することにより現在の位相を得ることができる。離散領域内で機能する我々のアルゴリズムについては、この積分は総和へと変わる。各々のスペクトログラムビンが局所的な線形チャープ信号に対応すると仮定すると、構造テンソルにより推定される局所的な周波数の変化は、このとき、各局所的なチャープについてＲに対応する。その上、構造テンソルを介して得られる異方性の大きさを使用して、いかなる明示的な信号モデルも事前の意味的な分類も無く、局所的な周波数の変化率の求められる積分を行なうことが可能である。

高い異方性の大きさは、スペクトログラム内の音調または打楽器成分などの有向構造に対応することから、結果として、それは、ランダム位相が仮定され得る等方性の雑音領域とは対照的に、位相の復元が可能である領域に対応する。

ここではこれについて、より詳細に説明する。

これはすなわち、先行の分析ブロックにおける位相および瞬時周波数、さらには一定の周波数の変化Ｒ₀が分かっている場合、分析ブロックｂにおける位相φ（ｂＨ）を計算することができることを意味している。

例えばインパルスなどの過渡信号のために、これらの数式および式の双対（ｄｕａｌ）を計算することができるという点に留意されたい。ただし、そこでは、一定の分析ブロックｂのスペクトル位相ψ（ｋ）＝ａｒｇ（Ｘ（ｂ、ｋ））内の周波数指標ｋとの関係において有限差分が行なわれなければならない。

式（２７）および式（２９）についての双対の数式を、この事例について演繹することができる。

実施形態によると、振幅スペクトルからの位相の復元のためのアルゴリズムが、構造テンソルにより得られた局所的な周波数の変化率の推定値を使用して、以上に説明された通りに提供される。

それぞれ線形の周波数変化を有する局所的な線形チャープ信号に対応する各々のスペクトログラムビンを仮定すると、このとき、構造テンソルにより推定される局所的な周波数の変化Ｒ（ｂ、ｋ）は、先行の節で説明されているようにチャープ率または局所的な線形周波数変化Ｒ₀に対応する。このことはすなわち、構造テンソルによって得られる優勢な方向を、時間指標ｂとの関係においてかつ一部の乗法定数まで、φ_bb（ｂ）の第２の導関数のための平滑化されたロバストな推定値として見ることができる、ということを意味する。

この推定値を使用して、このとき、信号の現在の位相を計算するために、式（２９）を使用することができる。より複雑な周波数変調を伴う信号についてさえ１つのビンの範囲内でのみ線形の周波数の変化が仮定されることから、位相推定値を得ることができる。瞬時周波数ならびに初期位相は、予め既知である（例えばサイド情報として伝送される）かまたは異なる方法で推定されなければならない、ということに留意すべきである。特に、瞬時周波数は、振幅スペクトルの導関数またはＱＦＦＴなどの内挿を使用して推定可能である。

式（２９）は、分析ブロック方向ｂへと厳密に加算する和を示すものの、より高度なアルゴリズムでは、和はスペクトログラム内の信号のメインローブ（ｍａｉｎｌｏｂｅ）の軌道をたどらなければならない、ということに留意すべきである。したがって、総和の方向で暗示的または明示的のいずれかで構造テンソルを介して得られた方向情報と局所的な周波数の変化率をそれぞれ取込む必要がある可能性がある。これにより、推定された位相が周波数指標のｋ方向および分析ブロック指標のｂ方向での和の結果の重畳となる可能性がある。

その上、式（２９）を介して計算された式が、式（２５）に示されている正弦の独立変数に対応する、ということに留意すべきである。これはスペクトル表示内で観察される位相に対する高い対応性を有するにせよ、各ビン（例えばスペクトルのサイドローブ（ｓｉｄｅｌｏｂｅ））についての位相を正しく合成するためには、さらなる知識（例えば、位相に依存しているスペクトルの分析式）を使用する必要があるかもしれない。

その上、構造テンソルを介して得られる異方性の大きさを使用して、いかなる明示的な信号モデルも事前の意味的な分類も無く、局所的な周波数の変化率の必要な積分を行なうことが可能である。高い異方性の大きさは、スペクトログラム内の音調または打楽器成分などの有向構造に対応することから、結果として、それは、ランダム位相が仮定され得る等方性の雑音領域とは対照的に、位相の復元が可能である領域に対応する。

その上、単音色信号（ｍｏｎｏｔｉｍｂｒａｌｓｉｇｎａｌ）にアルゴリズムを限定する必要はない。

実施形態は、先行技術に比べた利点を達成する。例えば、一部の実施形態は、コンピュータ処理に関して適度な複雑性を示す（例えば、文献［１９］の場合より低い）。さらに、一部の実施形態は、周波数変調された信号について文献［２０］の場合よりも優れた位相推定を示す。

一部の実施形態は、信号成分の固有の分類を実現する。

例えば、一部の実施形態によると、調波信号成分について位相推定が可能であり、打楽器信号成分について位相推定が可能であるが、残留信号成分および／または雑音の信号成分について位相推定は不可能である。

以下では、音声コーディングの利用分野が考慮される。

音声コーデックを設計するにあたっては、フィルタバンクの選択が極めて重要なステップである。最新のコーデックは、多くの場合、量子化の不在下で臨界的にサンプリングされた完璧な復元でありながら、５０％の重複を提供することを理由としてＭＤＣＴ（修正離散コサイン変換）を使用する。コーディングの利用分野では、これらの特性は、伝送すべきスペクトル係数のためのデータ量を低く保ちながらブロッキングアーチファクトを削減する。ＭＤＣＴの不利な点は、定常信号についてさえ、経時的にスペクトル変動を示すことにある。これにより、先に伝送されたＭＤＣＴスペクトルの情報が現在のＭＤＣＴスペクトルの復元において限定的にしか使用できないことから、例えばスペクトル係数の差分コーディングについてコーディング利得の損失が導かれる。

スペクトルの大きさ（ｍａｇｎｉｔｕｄｅｏｆａｓｐｅｃｔｒｕｍ）、例えば５０％重複するＭＣＬＴ（変調複素重複変換）フィルタバンクの大きさは、特に定常信号について、経時的にはるかに安定していることから、実施形態は、位相の復元のための上述の概念に基づいたコーデックの設計を提供する文献［２１］。

実施形態によると、エンコーダは、例えば１フレームなどの一定時間の間隔についての複素スペクトルＸ（ｆ）を得るために分析フィルタバンクを使用してＰＣＭ入力信号ｘ（ｔ）の時間周波数分解を行なう。Ｘ（ｆ）は、サイド情報を抽出するために使用される。

実施形態において、サイド情報は、例えば、過渡信号および／または初期位相の基本周波数および／または時間位置（例えば一定の間隔での）および／または現在の信号クラスについての情報などを含む。

次に、Ｘ（ｆ）の大きさは｜Ｙ（ｆ）｜に量子化され、サイド情報と共にデコーダに伝送される。次にデコーダは、サイド情報ならびに量子化された振幅スペクトル｜Ｙ（ｆ）｜を使用して、上述のように、元の複素スペクトルＸ（ｆ）の位相を推定する。この推定された位相を使用して、Ｘ（ｆ）と共通点の多いはずの複素スペクトルＹ（ｆ）を得ることができる。Ｙ（ｆ）は次に、時間領域出力信号ｙ（ｔ）を得るため、合成フィルタバンクに送り込まれる。提案されたＭＣＬＴフィルタバンクを用いて、このようなコーデックは、定常信号の差動コーディングのより効率の良い可能性を提供しながら、重複および臨界サンプリングなどの望ましい特徴をなおも示す。

図８は、信号生成部１５０を含む上述の実施形態の１つに係る位相復元装置を例示する。信号生成部１５０は、音声信号の振幅スペクトログラムに依存して、かつ複数の時間−周波数ビンについての位相値に依存して、音声出力信号を生成するように構成されている。

例えば、振幅スペクトログラムは、特定の時間−周波数ビンについての振幅値を提供し、特定の時間−周波数ビンについての位相値は、位相復元部１４０によってすでに復元されている。

図９は、一実施形態におけるエンコーダ２１０およびデコーダ２２０を含むシステムを例示しており、ここでデコーダ２２０は、上述の実施形態の１つに係る位相復元装置である。

エンコーダ２１０は、音声信号の振幅スペクトログラムを符号化するように構成されている。

デコーダ２２０は、音声信号の振幅スペクトログラムに依存して、音声信号の振幅スペクトログラムの複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するように構成されている。

さらに、デコーダ２２０は、複数の時間−周波数ビンについて決定された周波数の変化に依存して、複数の時間−周波数ビンについての位相値を生成するように構成されている。

その上、デコーダ２２０は、音声信号の振幅スペクトログラムを使用し、かつ複数の時間−周波数ビンについての位相値を使用して、音声信号を復号化するように構成されている。

図１０は、伝送のために振幅スペクトルを使用する、実施形態に係る音声エンコーダ２１０および音声デコーダ２２０を例示する。

音声エンコーダ２１０は、上述のような位相復元装置のために音声信号の振幅スペクトログラムを生成するように構成されている。図１０では、デコーダ２２０は、例えば、上述のような位相復元装置であり得る。

いくつかの態様が装置に関連して説明されてきたが、これらの態様が、対応する方法の説明も表わしていることは明らかであり、そこでは、ブロックまたはデバイスが、方法ステップまたは方法ステップの特徴に対応する。同様にして、方法ステップに関連して説明された態様は同様に、対応する装置の対応するブロックまたは品目または特徴の説明も表わす。方法ステップの一部または全ては、ハードウェア装置、例えばマイクロプロセッサ、プログラマブルコンピュータ、または電子回路などによって（またはこれらを使用して）実行されてよい。一部の実施形態において、最も重要な方法ステップの１つ以上をこのような装置により実行してもよい。

一定の実装の要件に依存して、本発明の実施形態をハードウェアまたはソフトウェアあるいは、少なくとも部分的にハードウェアまたは少なくとも部分的にソフトウェアで実装することができる。実装は、それぞれの方法が行なわれるようにプログラマブルコンピュータシステムと協働し（または協働する能力を有し）、そこに記録された電子的に可読の制御信号を有する、例えばフロッピー（登録商標）ディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはＦＬＡＳＨメモリなどのデジタル記憶媒体を使用して行なうことができる。したがって、デジタル記憶媒体は、コンピュータ可読であってよい。

本発明に係る一部の実施形態は、本明細書中に記載の方法の１つが行なわれるようにプログラマブルコンピュータシステムと協働する能力を有する電子的に可読の制御信号を有するデータキャリアを含む。

概して、本発明の実施形態は、プログラムコードを伴うコンピュータプログラムプロダクトとして実装され得、このプログラムコードは、コンピュータプログラムプロダクトがコンピュータ上で実行されるとき、方法のうちの１つを行なうのに有効であり得る。プログラムコードは、例えば、機械可読キャリア上に記憶されてよい。

他の実施形態は、機械可読キャリア上に記憶された、本明細書中に記載の方法のうちの１つを行なうためのコンピュータプログラムを含む。

換言すると、発明に関する方法の一実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行されるとき、本明細書中に記載の方法のうちの１つを行なうためのプログラムコードを有するコンピュータプログラムである。

発明に関する方法のさらなる実施形態は、したがって、本明細書中に記載の方法のうちの１つを行なうためのコンピュータプログラムを記録して含むデータキャリア（すなわちデジタル記憶媒体またはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体または記録された媒体は、典型的に有形かつ／または非一時的である。

発明に関する方法のさらなる実施形態は、したがって、本明細書中に記載の方法のうちの１つを行なうためのコンピュータプログラムを表わすデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えばインターネットを介してなどのデータ通信接続を介して転送されるように構成されていてよい。

さらなる実施形態は、本明細書中に記載の方法のうちの１つを行なうように構成されたまたはそのように適応された処理手段、例えばコンピュータまたはプログラマブル論理デバイスを含む。

さらなる実施形態は、本明細書中に記載の方法のうちの１つを行なうためのコンピュータプログラムがインストールされたコンピュータを含む。

本発明に係るさらなる実施形態は、本明細書中に記載の方法のうちの１つを行なうためのコンピュータプログラムをレシーバに転送する（例えば電子的にまたは光学的に）ように構成された装置またはシステムを含む。レシーバは、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、例えば、レシーバに対してコンピュータプログラムを転送するためのファイルサーバを含んでいてよい。

一部の実施形態において、プログラマブル論理デバイス（例えばフィールドプログラマブルゲートアレイ）は、本明細書中に記載の方法の機能のいくつかまたは全てを行なうために使用されてよい。一部の実施形態において、フィールドプログラマブルゲートアレイは、マイクロプロセッサと協働して、本明細書中に記載の方法のうちの１つを行なうことができる。概して、本方法は、好ましくは任意のハードウェア装置によって行なわれる。

本明細書中に記載の装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組合せを使用して実装されてよい。

本明細書中に記載の方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組合せを使用して行なわれてよい。

上述の実施形態は、本発明の原理を単に例示しているにすぎない。本明細書中に記載の配置および詳細の修正および変形形態が当業者にとっては明白であるということが理解される。したがって、本明細書中の実施形態の描写および説明として提示された具体的詳細によってではなく、以下の特許請求の範囲によってのみ限定されることが意図されているところである。

１１０周波数変化決定部
１４０位相復元部
１５０信号生成部
２１０エンコーダ
２２０デコーダ

Claims

音声信号の振幅スペクトログラムから位相復元するための装置であって、
前記音声信号の前記振幅スペクトログラムに依存して、前記音声信号の前記振幅スペクトログラムの複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するように構成された周波数変化決定部（１１０）と、
前記複数の時間−周波数ビンについて決定された周波数の変化に依存して、前記複数の時間−周波数ビンについての位相値を生成するように構成された位相復元部（１４０）と、
を含む、装置。
前記位相復元部（１４０）は、前記周波数の変化を２回積分することにより前記複数の時間−周波数ビンの各々の時間−周波数ビンについての前記位相値を生成するように構成される、
請求項１に記載の装置。
前記周波数変化決定部（１１０）は、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて前記周波数の変化を、当該時間−周波数ビンについての角度（α（ｂ，ｋ））に依存して決定するように構成され、
当該時間−周波数ビンについての前記角度（α（ｂ，ｋ））は、前記音声信号の前記振幅スペクトログラムに依存する、
請求項１〜３の１項に記載の装置。
前記周波数変化決定部（１１０）は、さらに前記音声信号のサンプリング周波数（ｆ_s）に依存して、および分析ウィンドウの長さ（Ｎ）に依存して、および前記分析ウィンドウのホップサイズ（Ｈ）に依存して、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての前記周波数の変化を決定するように構成される、
請求項４に記載の装置。
前記位相復元部（１４０）は、前記複数の時間−周波数ビンについて決定された前記周波数の変化に依存して、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての位相値を生成するように構成される、請求項１〜８の１項に記載の装置。
前記位相復元部（１４０）は、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて決定された前記周波数の変化に依存して、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビン（ｂ，ｋ）について異方性の大きさを決定するように構成される、請求項７または８に記載の装置。
前記位相復元部（１４０）は、位相の復元が行なわれるか否かに関わらず、前記異方性の大きさに依存して、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて、位相復元モードを決定するように構成され、
前記位相復元部（１４０）は、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての位相値を、前記位相復元部（１４０）が当該時間−周波数ビンについて決定した前記位相復元モードが第１のモードを表わしている場合には、前記周波数の変化を２回積分することによって生成するように構成され、
前記位相復元部（１４０）は、前記位相復元部（１４０）が当該時間−周波数ビンについて決定した位相復元モードが前記第１のモードと異なる第２のモードを表わしている場合には、前記周波数の変化を２回積分することによって前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての位相を決定するように構成される、
請求項９〜１２の１項に記載の装置。
前記位相復元部（１４０）は、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての前記位相復元モードを、当該時間−周波数ビン（（ｂ，ｋ））についての前記異方性の大きさが下側閾値（ｃ）よりも大きい場合には前記位相復元モードが前記第１のモードを表わし、当該時間−周波数ビン（（ｂ，ｋ））についての前記異方性の大きさが前記下側閾値（ｃ）以下である場合には前記位相復元モードが前記第２のモードを表わすように決定するように構成される、または、
前記位相復元部（１４０）は、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての位相復元モードを、当該時間−周波数ビン（（ｂ，ｋ））についての前記異方性の大きさが前記下側閾値（ｃ）以上である場合には前記位相復元モードが前記第１のモードを表わし、当該時間−周波数ビン（（ｂ，ｋ））についての前記異方性の大きさが前記下側閾値（ｃ）より小さい場合には前記位相復元モードが前記第２のモードを表わすように決定するように構成される、
請求項１３に記載の装置。
前記位相復元部（１４０）は、周波数にわたって２回積分することにより、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての位相値を生成するように構成される、
請求項１〜１４の１項に記載の装置。
前記位相復元部（１４０）は、経時的に２回積分することにより、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての位相値を生成するように構成される、
請求項１〜１５の１項に記載の装置。
前記装置は、前記音声信号の前記振幅スペクトログラムに依存して、かつ前記複数の時間−周波数ビンについての前記位相値に依存して、音声出力信号を生成するように構成された信号生成部（１５０）を含む、請求項１〜１６の１項に記載の装置。
音声信号の振幅スペクトログラムを符号化するためのエンコーダ（２１０）と、
請求項１〜１７の１項に記載の装置である、前記音声信号を復号化するためのデコーダ（２２０）と、
を含むシステムであって、
前記デコーダ（２２０）は、前記音声信号の前記振幅スペクトログラムに依存して、前記音声信号の前記振幅スペクトログラムの複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての周波数の変化を決定するように構成され、
前記デコーダ（２２０）は、前記複数の時間−周波数ビンについて決定された前記周波数の変化に依存して、前記複数の時間−周波数ビンについての位相値を生成するように構成され、
前記デコーダ（２２０）は、前記音声信号の前記振幅スペクトログラムを使用して、且つ、前記複数の時間−周波数ビンについての位相値を使用して、前記音声信号を復号化するように構成される、
システム。
請求項１〜１７の１項に記載の位相復元装置のための、音声信号の振幅スペクトログラムを生成するように構成されるエンコーダ（２１０）。
音声信号の振幅スペクトログラムから位相を復元するための方法であって、
前記音声信号の前記振幅スペクトログラムに依存して、前記音声信号の前記振幅スペクトログラムの複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するステップと、
前記複数の時間−周波数ビンについて決定された前記周波数の変化に依存して、前記複数の時間−周波数ビンについての位相値を生成するステップと、
を含む、方法。
コンピュータまたは信号プロセッサ上で実行されているときに、請求項２０に記載の方法を実装するためのコンピュータプログラム。