JP2006323388A

JP2006323388A - 低帯域音響信号から広帯域音響信号を構築する方法

Info

Publication number: JP2006323388A
Application number: JP2006136465A
Authority: JP
Inventors: Bhiksha Ramakrishnan; ビクシャ・ラマクリシュナン; Paris Smaragdis; パリス・サマラディス
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2005-05-17
Filing date: 2006-05-16
Publication date: 2006-11-30
Also published as: US7698143B2; US20060265210A1

Abstract

【課題】低帯域音響信号から広帯域音響信号を構築する。
【解決手段】入力広帯域トレーニング音響信号から包絡線スペクトルと調波スペクトルを生成する。畳み込み非負行列因子分解を使用して、対応する包絡線スペクトル用の非負包絡線基底がトレーニングされ、かつ調波スペクトル用の非負調波基底がトレーニングされる。非負包絡線基底及び非負調波基底に従って入力低帯域音響信号用の高帯域周波数が生成される。その後、入力低帯域音響信号が高帯域周波数と結合されて、それによって、出力広帯域音響信号が生成される。
【選択図】図１

Description

本発明は、包括的に、音響信号の処理に関し、より詳細には、低帯域音響信号から広帯域音響信号を構築することに関する。

ほぼ０ｋＨｚ〜８ｋＨｚの範囲からの周波数を含む広帯域音響信号、たとえば、音声信号は、ほぼ４ｋＨｚ未満の周波数を有する低帯域音響信号、たとえば、電話品質音響信号に比べて、当然、より明瞭に聞こえ、また、よりよく理解できる。したがって、低帯域音響信号を拡張することが望ましい。

この問題を解決するための種々の方法が知られている。エイリアシングに基づく方法は、種々の手段によって、低周波数を高周波数にエイリアシングすることによって高周波数成分を導出する（Yasukawa, H.著「Signal Restoration of Broad Band Speech Using Nonlinear Processing」Proc. European Signal Processing Conf. (EUSIPCO-96), pp. 987-990, 1996）。

コードブック方法は、低帯域音声信号のスペクトルをコードブックのコードワードにマッピングし、次に、対応する高周波数コードワードから高周波数を導出する（Chennoukh, S.Gerrits, A.,Miet, G.及びSluijter, R.著「Speech Enhancement via Frequency Bandwidth Extension using Line Spectral Frequencies」Proc ICASSP-95, 2001）。

統計的方法は、低帯域周波数成分と高帯域周波数成分の統計的関係を利用して、低帯域周波数成分から高帯域周波数成分を導出する。１つの方法は、音声の低帯域成分と高帯域成分をランダムプロセスの混合としてモデル化する。低帯域信号から導出される混合重みを使用して、高帯域周波数が生成される（Cheng, Y. M.,O'Shaugnessey, D. O.及びMermelstein, P.著「Statistical Recovery of Wideband Speech from Narrow-band Speech」IEEE Trans., ASSP, Vol 2., pp 544-548, 1994）。

統計的なフレーム間相関を使用する方法は、高周波数を予測することができる。しかしながら、これらの方法は、ガウス混合モデル（ＧＭＭ）、隠れマルコフモデル（ＨＭＭ）、または多帯域ＨＭＭ等の複素時系列モデルから、または、明示的な補間によって導出されることが多い（Hosoki, M.,Nagai, T.及びKurematsu, A.著「Speech Signal Bandwidth Extension and Noise Removal Using Subband HIGHER-BAND」Proc ICASSP, 2002）。

線形モデル法は、低帯域周波数成分の線形結合として高帯域周波数成分を導出する（Avendano, C.,Hermansky, H.及びWand, E. A.著「Beyond Nyquist: Towards the Recovery of Broad-bandwidth Speech from Narrow-bandwidth Speech」Proc． Eurospeech-95, 1995）。

方法は、畳み込み非負行列因子分解（ＣＮＭＦ）を使用して、低帯域、たとえば、ほぼ０〜４ｋＨｚの範囲の音響信号から、高周波成分、たとえば、ほぼ４〜８ｋＨｚの範囲の音響信号を推定する。

本方法は、入力トレーニング広帯域音響信号を使用して、低帯域及び対応する高帯域非負「基底」のセットをトレーニングする。音響信号は、たとえば、音声または音楽であることができる。これらの基底の低周波数成分は、高周波数成分を求めるのに使用され、入力低帯域音響信号と結合して、出力広帯域音響信号を構築することができる。出力広帯域音響信号は、真の広帯域音響信号と実質的に識別不可能である。

畳み込み非負行列因子分解
行列因子分解は、下式（１）のように、行列Ｖを２つの行列Ｗ及びＨに分解する。

ここで、ＷはＭ×Ｒ行列であり、ＨはＲ×Ｎ行列であり、ＲはＭより小さく、行列ＷとＨからの行列Ｖの再構築誤差が最小になる。こうした分解では、行列Ｗの列は、基底のセットとして、行列Ｈの列は、基底によるＶの列の座標として解釈される。

代替的に、行列Ｈの列は、行列Ｗの列の最も近い近似を得るために、行列Ｗの基底と結合される重みを表す。

主成分分析（ＰＣＡ）及び独立成分分析（ＩＣＡ）等の従来の因子分解技法は、基底が正と負であることを可能にし、行列Ｈの成分によって指定される項間の相互作用もまた、正と負であることができる。

マグニチュードスペクトルベクトルのシーケンスを表す行列等の厳密に非負のデータセットでは、スペクトルベクトルのマグニチュードが負になり得ないため、基底の負成分も負の相互作用も許されない。

１つの非負行列因子分解（ＮＭＦ）は、行列ＷとＨの要素を厳密に非負であるように制約する（Lee, D. D.及びH. S. Seung著「Learning the parts of objects with nonnegative matrix factorization」Nature 401, pp.788-791, 1999）。著者等は、手で位置合わせした２Ｄ画像内の顔の一部及び要約した文書の意味的特徴を検出するためにＮＭＦを適用する。別のアプリケーションは、楽曲の音響記録における個々の音を検出するためにＮＭＦを適用する（P. Smaragdis著「Discovering Auditory Objects Through Non-Negativity Constraints」SAPA 2004, October 2004）。

Lee等のＮＭＦは、行列Ｖの全ての列基底をＲ個の基底の結合として扱い、全体のデータセットを説明するのに、個々の基底内の構造を説明することで十分であることを暗黙的に仮定する。これは、基底が行列Ｖ内に配列される順序は、無関係であることを実質上仮定する。

しかしながら、これらの仮定は、構造パターンが複数の基底にわたって明らかであり、基底が配列される順序が実際に無関係である、マグニチュードスペクトル基底のシーケンス等のデータセットにおいて、明らかに根拠がない。

スマラグディスは、行列Ｖを説明するのに使用される基底が、特異な基底であるだけでなく、実際には、基底の短いシーケンスであるＮＭＦアルゴリズムの畳み込みバージョン（ＣＮＭＦ）を述べる。この演算は、下式（２）として記号的に表すことができる。

ここで、Ｗ_ｔ ^Ｔは非負Ｍ×Ｒ行列であり、Ｈは上述した非負Ｒ×Ｎ行列であり、（ｔ→）演算子は、行列Ｈの列を右にｔ個の位置だけシフトする右シフト演算子を表す。式（２）の上付き添え字のＴは、転置演算子を表す。行列Ｈのサイズは、シフトして行列から出た列を考慮するために、最も左の位置にゼロの値の列を導入することによって維持される。

本発明者等は、Ｗ_ｔのｊ番目のベクトルをＷ_ｔ ^ｊとして表す。それぞれのベクトルのセットは、音響信号、たとえば、音声信号または音楽信号のスペクトルベクトルｗ^ｊのシーケンス、または、「スペクトルパッチ」を形成する。これらのスペクトルパッチは、本発明者等が、行列Ｖのデータを「説明する」ために使用する基底を形成する。

式（２）は、行列Ｗを、これらのパッチと行列Ｈの対応する行との畳み込みの重ね合わせとして近似する。すなわち、行列Ｖの近似に対するｊ番目のスペクトルパッチの寄与は、パッチを行列Ｈのｊ番目の行で畳み込むことによって得られる。

τ＝１である場合、これは、従来のＮＭＦに帰着する。行列Ｖを推定するための、近似の行列Ｗ_ｔ及び行列Ｈを推定するために、本発明者等は、既に存在するＮＭＦの枠組みを使用することができる。

本発明者等は、コスト関数を、下式（３）として規定する。

ここで、右辺のノルムは、フロベニウスノルムであり、×を○で囲った記号は、成分ごとのアダマール乗算を表す。Λは、Ｈ及びＷ_ｔ行列のその時の推定値を使用した、式（２）の右辺で与えられるその時の再構成であり、Ｆは、低域カットオフ周波数、たとえば、４０００Ｈｚである。右辺の行列の除算は、また、成分ごとであり、式（２）の右辺で与えられる行列Ｖの近似である。

式（３）のコスト関数は、変形カルバック−ライブラコスト関数である。ここで、式（１）の線形分解の代わりに、式（２）の畳み込みＮＭＦ分解によって近似が与えられる。

式（２）は、また、総計して最終結果を生成するＮＭＦ演算子のセットと見なすことができる。この観点から、式（１）と式（２）の主要な差は、式（２）は、行列Ｖをτ＋１個の行列の結合に分解するが、式（１）は、２つの行列を使用するだけであるということである。

この解釈によって、本発明者等は、Lee等のＮＭＦ更新式を変形することによって、行列Ｗ_ｔ及びＨの推定のための反復手順を得ることが可能になる。変形反復更新式は、下式（４）（５）によって与えられる。

ここで、×を○で囲った記号は、成分ごとのアダマール乗算を表し、除算演算子もまた成分ごとである。（←ｔ）演算子は、左シフト演算子、すなわち、式（２）の右シフト演算子の逆を表す。そのため、Ｗ_ｔ及びＨ行列を推定する全体の手順は、以下の通りである。

全ての行列を初期化する、たとえば、ランダム初期化を使用し、その後、式（４）と式（５）を使用して、全ての項を反復して更新する。

ＣＮＭＦによってトレーニングされた全ての行列Ｗ_ｔ ^ｊのｊ番目の列を含むスペクトルパッチＷ^ｊは、音響信号における顕著なスペクトログラフ構造を表す。

以下で述べるように、音声信号に適用されると、トレーニングされた基底は、関連する音素または副音素構造を表す。

帯域制限された音響信号の高周波数構造の構築
図１に示すように、狭帯域信号について高帯域周波数を構築する方法１００は、以下のコンポーネントを含む。

信号処理コンポーネント１１０は、入力広帯域トレーニング音響信号１０１から、低分解能スペクトル及び高分解能スペクトルについての表現、すなわち、以降で、それぞれ、「包絡線スペクトル」１１１及び「調波スペクトル」１１２についての表現を生成する。

トレーニングコンポーネント１２０は、畳み込み非負行列因子分解を使用して、対応する、包絡線スペクトルについての非負包絡線基底１２１と、調波スペクトルについての非負調波基底１２２とをトレーニングする。

構築コンポーネント１３０は、入力低帯域音響信号１３２について高帯域周波数１３１を構築し、高帯域周波数は、次に、結合して（１４０）、出力広帯域音響信号１４１が生成される。

信号処理
音響信号の全てについてのサンプリングレートは、低帯域周波数と高帯域周波数の両方を取得するのに十分である。低帯域周波数でサンプリングされた信号は、このレートにアップサンプリングされる。本発明者等は、１６ｋＨｚのサンプリングレートを使用し、全てのウィンドウサイズ及び以下で述べる他のパラメータは、このサンプリンフレートを参照して与えられる。

本発明者等は、対応する入力広帯域トレーニング音響信号と時間的に同期して、隣接フレーム間で２５６サンプルの重なりがある状態で、各フレームについて、５１２サンプル（３２ｍｓ）のハニング窓を使用して、音響信号の短時間フーリエ変換を求める。

行列Ｓは、音響信号について複素フーリエスペクトルのシーケンスを表し、行列Φは、位相を表し、行列Ｖは、行列Ｓの成分ごとのマグニチュードを表す。そのため、行列Ｖは、信号のマグニチュードスペクトログラムを表す。

行列Ｖ及びΦでは、各列は、それぞれ、音響信号の単一の３２ｍｓフレームのマグニチュードスペクトル及び位相を表す。各フレームについて、フーリエスペクトル内にＭ個の固有のサンプルが存在し、かつ、信号内にＮ個のフレームが存在する場合、行列Ｖ及びΦは、Ｍ×Ｎ行列である。

本発明者等は、行列Ｖをケプストラム重み付けする、または、「リフタリングする」ことによって、トレーニング音響信号１０１の包絡線スペクトル１１１と調波スペクトル１１２を求める。行列Ｖ_ｅは、行列Ｖから導出された包絡線スペクトルのシーケンスを表し、行列Ｖ_ｈは、対応する調波スペクトルのシーケンスを表す。行列Ｖ_ｅ及びＶ_ｈは共に、下式（６）（７）に従って行列Ｖから導出されたＭ×Ｎ行列である。

行列Ｚ_ｅは、１に設定される各行のＫ個の低周波数成分とゼロに設定される残りの周波数成分を有する。行列Ｚ_ｈは、１に設定される高周波数成分とゼロに設定される残りの周波数成分を有する。すなわち、下式の関係である。

式（６）と式（７）における離散コサイン変換（ＤＣＴ）及び逆ＤＣＴ演算は、それぞれの行列引数の各行に個別に適用される。

Ｋ個、たとえば、Ｋ＝Ｍ／３の低周波数成分の適切な選択によって、行列Ｖ_ｅとＶ_ｈは、トレーニング音響信号１０１の包絡線スペクトルと調波スペクトルの構造をモデル化する。

トレーニング音響信号の低帯域部分の包絡線スペクトルの低周波数及びトレーニング音響信号の包絡線スペクトルの高周波数は、結合されて、合成包絡線スペクトル行列を構成することができる。同様に、低帯域トレーニング音響信号の調波スペクトルの低周波数及び入力広帯域トレーニング音響信号の調波スペクトルの高周波数は、結合されて、合成調波スペクトル行列を構成することができる。

スペクトル基底のトレーニング
トレーニングステップ１２０の第１段階は、トレーニング音響信号１０１から行列Ｖ_ｅとＶ_ｈ及びΦをトレーニングする。任意の話者または話者のグループの特徴が、比較的短い、たとえば、５分以内の信号によって取得することができるため、トレーニング音響信号は、話者依存であるか、または、話者独立であることができる。

行列は、２ステッププロセスで得られる。第１ステップでは、トレーニング音響信号は、ろ過されて、低帯域音響信号１３２で予想される周波数帯域にされ、次に、低帯域信号１３２の予想されるサンプリングレートにダウンサンプリングされ、最後に、高帯域信号１３１のサンプリングレートにアップサンプリングされる。この信号は、低帯域信号をアップサンプリングすることによって得られる信号の厳密な近似である。

調波、包絡線、及び位相スペクトル行列Ｖ_ｈ ^ｎ、Ｖ_ｅ ^ｎ、及びΦ^ｎは、アップサンプリングされた低帯域トレーニング音響信号から得られる。

包絡線、調波、及び位相スペクトル行列Ｖ_ｅ ^Ｗ、Ｖ_ｈ ^Ｗ、及びΦ^Ｗは、広帯域トレーニング音響信号１０１から導出される。行列Ｖ_ｈ、Ｖ_ｅ、及びΦは、下式（８）として、所定のカットオフ周波数Ｆ未満の周波数成分から、低帯域用のスペクトル行列から、及び広帯域信号から導出された行列の高周波数成分から形成される。

行列Ｚ_Ｗは、第１対角要素が１に設定され、残りの元がゼロに設定された正方行列である。行列Ｚ_ｎは、また、最後の対角要素が１に設定され、残りの元がゼロに設定された正方行列である。パラメータＬは、カットオフ周波数Ｆに相当する周波数インデックスである。

ｔ＝１、・・・、τ_ｅの場合のスペクトルパッチ基底Ｗ_ｔ ^ｅは、式（４）と式（５）で指定された反復更新プロセスを使用して包絡線スペクトルＶ_ｅについて導出される。行列Ｈは、除去される。

包絡線スペクトルＶ_ｅから導出された低帯域スペクトル包絡線基底のセットＷ_ｔ ^ｅ，ｌは、結果として得られる行列がそれぞれ、サイズＬ×Ｒであるように、Ｌ番目の行において全ての行列を打ち切ることによって、下式（９）として得られる。

行列Ｚ_ＬはＬ×Ｍ行列であり、Ｌ個の主要な対角要素は１であり、残りの元はゼロである。

低帯域スペクトル調波基底のセットＷ_ｔ ^ｈ，ｌは、同様に得られる。行列のセット、Ｗ_ｔ ^ｅ、Ｗ_ｔ ^ｌ，ｔ、Ｗ_ｔ ^ｈは、構築に使用されるスペクトルパッチ基底を形成する。

位相行列Φは、Ｌ×Ｎ低周波数位相行列Φ_ｌとＭ−（Ｌ×Ｎ）高周波数行列Φ_ｕに分離される。

行列間の線形回帰が下式（１０）として得られる。

広帯域音響信号の構築
入力低帯域音響信号１３２は、広帯域トレーニング音響信号１０１のサンプリングレートにアップサンプリングされ、位相、包絡線、及び調波スペクトル行列Φ、Ｖ_ｈ、及びＶ_ｅは、アップサンプリングされた信号から導出される。行列の低周波数成分は、Ｖ_ｅ＝Ｚ_ＬＶ_Ｅ及びＶ_ｈ＝Ｚ_ＬＶ_ｈとして分離される。

トレーニング音響信号から得られたＷ_ｔ ^ｅ，ｌ及びＷ_ｔ ^ｈ，ｌ基底に基づいて、行列Ｖ_ｅ ^ｌ及びＶ_ｈ ^ｌについてＣＮＭＦ近似が得られる。これは、下式（１１）としてＶ_ｅ ^ｌ及びＶ_ｈ ^ｌを近似する。

Ｈ_ｈ及びＨ_ｅ行列は、式（４）の反復を通して得られる。

こうして、広帯域スペクトログラムは、トレーニングによって得られた完全な基底Ｗ_ｔ ^ｅ及びＷ_ｔ ^ｈに対して推定された行列Ｈ_ｈ及びＨ_ｅを適用することによって、下式（１２）として構築される。

高帯域周波数１３１及び入力低帯域周波数１３２は、下式（１３）に従って得られる。

出力広帯域信号１４１についての完全なマグニチュードスペクトルは、結合（Ｃ）として下式で得られる。

出力広帯域信号用の位相は、下式（１４）である。

ここで、Ｚ_Ｕは、Ｍ×Ｌ行列であり、（Ｍ−Ｌ）個の主要な対角要素は、１に設定され、残りの元は、ゼロに設定される。

こうして、完全な出力広帯域信号１４１は、Ｖ(＾)ｅ^ｊΦの逆短時間フーリエ変換を求めることによって得られる（ここで、Ｖ(＾)は、Ｖの上に＾が付されたものを意味する）。

本発明の一実施形態による、音響信号を拡張する方法のブロック図である。

Claims

低帯域音響信号から広帯域音響信号を構築する方法であって、
入力広帯域トレーニング音響信号から包絡線スペクトルと調波スペクトルを生成することと、
畳み込み非負行列因子分解を使用して、対応する前記包絡線スペクトル用の非負包絡線基底及び前記調波スペクトル用の非負調波基底をトレーニングすることと、
前記非負包絡線基底及び前記非負調波基底に従って入力低帯域音響信号用の高帯域周波数を生成することと、
出力広帯域音響信号を生成するために、前記入力低帯域音響信号を前記生成された高帯域周波数と結合することと
を含む低帯域音響信号から広帯域音響信号を構築する方法。
前記入力広帯域トレーニング音響信号及び前記入力低帯域音響信号は、話者依存である請求項１に記載の方法。
前記入力広帯域トレーニング音響信号及び前記入力低帯域音響信号は、話者独立である請求項１に記載の方法。
前記入力広帯域トレーニング音響信号及び前記出力広帯域音響信号は、ほぼ０ｋＨｚ〜８ｋＨｚの範囲の周波数を含み、前記入力低帯域音響信号は、ほぼ０ｋＨｚ〜４ｋＨｚの範囲の周波数を含み、前記高帯域音響信号は、ほぼ４ｋＨｚ〜８ｋＨｚの範囲の周波数を含む請求項１に記載の方法。
前記入力広帯域トレーニング音響信号用のサンプリングレートは、低帯域周波数及び高帯域周波数を取得するのに十分である請求項１に記載の方法。
前記入力広帯域トレーニング音響信号は、前記低帯域音響信号において予想される周波数になるようにローパスフィルタリングされ、前記方法は、
前記ローパスフィルタリングされた信号をより低いサンプリングレートへダウンサンプリングすることと、
低帯域トレーニング音響信号を生成するために、前記ダウンサンプリングした信号を前記入力広帯域トレーニング音響信号の前記サンプリングレートに戻るようにアップサンプリングすることと
さらに含む請求項５に記載の方法。
隣接フレーム間で２５６サンプルの重なりがある状態で、各フレームについて、５１２サンプルのハニング窓を使用して、前記入力広帯域トレーニング音響信号の短時間フーリエ変換を求めることをさらに含み、前記入力広帯域トレーニング音響信号について、行列Ｓは、複素フーリエスペクトルのシーケンスを表し、行列Φ^Ｗは、位相を表し、行列Ｖ^Ｗは、該行列Ｖ^Ｗが前記入力広帯域トレーニング音響信号のマグニチュードスペクトログラムを表すように、前記行列Ｓの成分ごとのマグニチュードを表す請求項５に記載の方法。
前記入力広帯域トレーニング音響信号は、各フレームについて、前記フーリエスペクトル内にＭ個の固有のサンプルを含み、前記入力広帯域トレーニング音響信号内にＮ個のフレームが存在し、前記行列Ｖ^Ｗ及び前記行列Φ^Ｗは、Ｍ×Ｎ行列である請求項７に記載の方法。
前記行列Ｖ^Ｗのケプストラム重み付けによって、前記入力広帯域トレーニング音響信号の前記包絡線スペクトルと前記調波スペクトルを求めることをさらに含む請求項８に記載の方法。
対応する前記入力広帯域トレーニング音響信号と時間的に同期して、隣接フレーム間で２５６サンプルの重なりがある状態で、各フレームについて、５１２サンプルのハニング窓を使用して、前記低帯域トレーニング音響信号の短時間フーリエ変換を求めることをさらに含む請求項６に記載の方法。
前記入力低帯域トレーニング音響信号は、各フレームについて、フーリエスペクトル内にＭ個の固有のサンプルを含み、前記低帯域トレーニング音響信号内にＮ個のフレームが存在し、Ｍ×Ｎスペクトル行列がもたらされ、該Ｍ×Ｎスペクトル行列から、位相を表す行列Φ^ｎ及び成分ごとのマグニチュードを表す行列Ｖ^ｎが導出される請求項１０に記載の方法。
前記行列Ｖ^ｎのケプストラム重み付けによって、前記低帯域トレーニング音響信号の前記包絡線スペクトルと前記調波スペクトルを求めることをさらに含む請求項１１に記載の方法。
合成包絡線スペクトル行列を構成するために、前記低帯域トレーニング音響信号の前記包絡線スペクトルの低周波数と、前記入力広帯域トレーニング音響信号の前記包絡線スペクトルの高周波数とを結合することをさらに含む請求項９または１２に記載の方法。
前記合成包絡線スペクトル行列について、非負包絡線基底を学習することをさらに含む請求項１３に記載の方法。
合成調波スペクトル行列を構成するために、前記低帯域トレーニング音響信号の前記調波スペクトルの低周波数と、前記入力広帯域トレーニング音響信号の前記調波スペクトルの高周波数とを結合することをさらに含む請求項９または１２に記載の方法。
前記合成調波スペクトル行列について、非負調波基底を学習することをさらに含む請求項１５に記載の方法。
線形変換Ａ_Φは、前記行列Φ^Ｗの低周波数と該行列Φ^Ｗの高周波数との間で求められる請求項８または１１に記載の方法。
前記入力低帯域音響信号を、前記入力広帯域トレーニング音響信号のサンプリング周波数にアップサンプリングすることをさらに含む請求項１に記載の方法。
フーリエスペクトル行列を生成するために、隣接フレーム間で２５６サンプルの重なりがある状態で、各フレームについて、５１２サンプルのハニング窓を使用して、前記入力低帯域音響信号の短時間フーリエ変換を求めることと、
ケプストラム重み付けによって、前記フーリエスペクトル行列から前記包絡線スペクトルと前記調波スペクトルを導出することと
をさらに含む請求項１８に記載の方法。
前記入力低帯域音響信号の前記包絡線スペクトルから前記非負包絡線基底の最適な重みを導出することをさらに含む請求項１４または１９に記載の方法。
再構築された高周波数包絡線スペクトルを導出するために、前記包絡線基底の前記高周波数を前記最適な重みと結合することをさらに含む請求項２０に記載の方法。
前記入力低帯域音響信号の前記調波スペクトルから前記非負調波基底の最適な重みを導出することをさらに含む請求項１６または１９に記載の方法。
再構築された高周波数調波スペクトルを導出するために、前記調波基底の前記高周波数を前記最適な重みと結合することをさらに含む請求項２２に記載の方法。
再構築された高周波数マグニチュードスペクトルを導出するために、前記再構築された高周波数包絡線スペクトルと前記再構築された高周波数調波スペクトルとを掛けることをさらに含む請求項２１または２３に記載の方法。
前記高周波数マグニチュードスペクトルの再構築された位相を導出するために、前記低帯域信号の前記低周波数の位相に前記線形変換Ａ_Φを掛けることをさらに含む請求項１７に記載の方法。
前記高周波数マグニチュードスペクトルの前記再構築された位相と前記マグニチュードを結合することと、
前記高周波数信号を導出するために、逆フーリエ変換を求めることと、
出力広帯域音響信号を生成するために、前記高周波数信号と前記入力低帯域信号を結合することと
をさらに含む請求項２４または２５に記載の方法。