JP2006323388A - 低帯域音響信号から広帯域音響信号を構築する方法 - Google Patents

低帯域音響信号から広帯域音響信号を構築する方法 Download PDF

Info

Publication number
JP2006323388A
JP2006323388A JP2006136465A JP2006136465A JP2006323388A JP 2006323388 A JP2006323388 A JP 2006323388A JP 2006136465 A JP2006136465 A JP 2006136465A JP 2006136465 A JP2006136465 A JP 2006136465A JP 2006323388 A JP2006323388 A JP 2006323388A
Authority
JP
Japan
Prior art keywords
acoustic signal
matrix
input
band
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006136465A
Other languages
English (en)
Inventor
Bhiksha Ramakrishnan
ビクシャ・ラマクリシュナン
Paris Smaragdis
パリス・サマラディス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2006323388A publication Critical patent/JP2006323388A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】低帯域音響信号から広帯域音響信号を構築する。
【解決手段】入力広帯域トレーニング音響信号から包絡線スペクトルと調波スペクトルを生成する。畳み込み非負行列因子分解を使用して、対応する包絡線スペクトル用の非負包絡線基底がトレーニングされ、かつ調波スペクトル用の非負調波基底がトレーニングされる。非負包絡線基底及び非負調波基底に従って入力低帯域音響信号用の高帯域周波数が生成される。その後、入力低帯域音響信号が高帯域周波数と結合されて、それによって、出力広帯域音響信号が生成される。
【選択図】図1

Description

本発明は、包括的に、音響信号の処理に関し、より詳細には、低帯域音響信号から広帯域音響信号を構築することに関する。
ほぼ0kHz〜8kHzの範囲からの周波数を含む広帯域音響信号、たとえば、音声信号は、ほぼ4kHz未満の周波数を有する低帯域音響信号、たとえば、電話品質音響信号に比べて、当然、より明瞭に聞こえ、また、よりよく理解できる。したがって、低帯域音響信号を拡張することが望ましい。
この問題を解決するための種々の方法が知られている。エイリアシングに基づく方法は、種々の手段によって、低周波数を高周波数にエイリアシングすることによって高周波数成分を導出する(Yasukawa, H.著「Signal Restoration of Broad Band Speech Using Nonlinear Processing」Proc. European Signal Processing Conf. (EUSIPCO-96), pp. 987-990, 1996)。
コードブック方法は、低帯域音声信号のスペクトルをコードブックのコードワードにマッピングし、次に、対応する高周波数コードワードから高周波数を導出する(Chennoukh, S.Gerrits, A.,Miet, G.及びSluijter, R.著「Speech Enhancement via Frequency Bandwidth Extension using Line Spectral Frequencies」Proc ICASSP-95, 2001)。
統計的方法は、低帯域周波数成分と高帯域周波数成分の統計的関係を利用して、低帯域周波数成分から高帯域周波数成分を導出する。1つの方法は、音声の低帯域成分と高帯域成分をランダムプロセスの混合としてモデル化する。低帯域信号から導出される混合重みを使用して、高帯域周波数が生成される(Cheng, Y. M.,O'Shaugnessey, D. O.及びMermelstein, P.著「Statistical Recovery of Wideband Speech from Narrow-band Speech」IEEE Trans., ASSP, Vol 2., pp 544-548, 1994)。
統計的なフレーム間相関を使用する方法は、高周波数を予測することができる。しかしながら、これらの方法は、ガウス混合モデル(GMM)、隠れマルコフモデル(HMM)、または多帯域HMM等の複素時系列モデルから、または、明示的な補間によって導出されることが多い(Hosoki, M.,Nagai, T.及びKurematsu, A.著「Speech Signal Bandwidth Extension and Noise Removal Using Subband HIGHER-BAND」Proc ICASSP, 2002)。
線形モデル法は、低帯域周波数成分の線形結合として高帯域周波数成分を導出する(Avendano, C.,Hermansky, H.及びWand, E. A.著「Beyond Nyquist: Towards the Recovery of Broad-bandwidth Speech from Narrow-bandwidth Speech」Proc. Eurospeech-95, 1995)。
方法は、畳み込み非負行列因子分解(CNMF)を使用して、低帯域、たとえば、ほぼ0〜4kHzの範囲の音響信号から、高周波成分、たとえば、ほぼ4〜8kHzの範囲の音響信号を推定する。
本方法は、入力トレーニング広帯域音響信号を使用して、低帯域及び対応する高帯域非負「基底」のセットをトレーニングする。音響信号は、たとえば、音声または音楽であることができる。これらの基底の低周波数成分は、高周波数成分を求めるのに使用され、入力低帯域音響信号と結合して、出力広帯域音響信号を構築することができる。出力広帯域音響信号は、真の広帯域音響信号と実質的に識別不可能である。
畳み込み非負行列因子分解
行列因子分解は、下式(1)のように、行列Vを2つの行列W及びHに分解する。
Figure 2006323388
ここで、WはM×R行列であり、HはR×N行列であり、RはMより小さく、行列WとHからの行列Vの再構築誤差が最小になる。こうした分解では、行列Wの列は、基底のセットとして、行列Hの列は、基底によるVの列の座標として解釈される。
代替的に、行列Hの列は、行列Wの列の最も近い近似を得るために、行列Wの基底と結合される重みを表す。
主成分分析(PCA)及び独立成分分析(ICA)等の従来の因子分解技法は、基底が正と負であることを可能にし、行列Hの成分によって指定される項間の相互作用もまた、正と負であることができる。
マグニチュードスペクトルベクトルのシーケンスを表す行列等の厳密に非負のデータセットでは、スペクトルベクトルのマグニチュードが負になり得ないため、基底の負成分も負の相互作用も許されない。
1つの非負行列因子分解(NMF)は、行列WとHの要素を厳密に非負であるように制約する(Lee, D. D.及びH. S. Seung著「Learning the parts of objects with nonnegative matrix factorization」Nature 401, pp.788-791, 1999)。著者等は、手で位置合わせした2D画像内の顔の一部及び要約した文書の意味的特徴を検出するためにNMFを適用する。別のアプリケーションは、楽曲の音響記録における個々の音を検出するためにNMFを適用する(P. Smaragdis著「Discovering Auditory Objects Through Non-Negativity Constraints」SAPA 2004, October 2004)。
Lee等のNMFは、行列Vの全ての列基底をR個の基底の結合として扱い、全体のデータセットを説明するのに、個々の基底内の構造を説明することで十分であることを暗黙的に仮定する。これは、基底が行列V内に配列される順序は、無関係であることを実質上仮定する。
しかしながら、これらの仮定は、構造パターンが複数の基底にわたって明らかであり、基底が配列される順序が実際に無関係である、マグニチュードスペクトル基底のシーケンス等のデータセットにおいて、明らかに根拠がない。
スマラグディスは、行列Vを説明するのに使用される基底が、特異な基底であるだけでなく、実際には、基底の短いシーケンスであるNMFアルゴリズムの畳み込みバージョン(CNMF)を述べる。この演算は、下式(2)として記号的に表すことができる。
Figure 2006323388
ここで、W は非負M×R行列であり、Hは上述した非負R×N行列であり、(t→)演算子は、行列Hの列を右にt個の位置だけシフトする右シフト演算子を表す。式(2)の上付き添え字のTは、転置演算子を表す。行列Hのサイズは、シフトして行列から出た列を考慮するために、最も左の位置にゼロの値の列を導入することによって維持される。
本発明者等は、Wのj番目のベクトルをW として表す。それぞれのベクトルのセットは、音響信号、たとえば、音声信号または音楽信号のスペクトルベクトルwのシーケンス、または、「スペクトルパッチ」を形成する。これらのスペクトルパッチは、本発明者等が、行列Vのデータを「説明する」ために使用する基底を形成する。
式(2)は、行列Wを、これらのパッチと行列Hの対応する行との畳み込みの重ね合わせとして近似する。すなわち、行列Vの近似に対するj番目のスペクトルパッチの寄与は、パッチを行列Hのj番目の行で畳み込むことによって得られる。
τ=1である場合、これは、従来のNMFに帰着する。行列Vを推定するための、近似の行列W及び行列Hを推定するために、本発明者等は、既に存在するNMFの枠組みを使用することができる。
本発明者等は、コスト関数を、下式(3)として規定する。
Figure 2006323388
ここで、右辺のノルムは、フロベニウスノルムであり、×を○で囲った記号は、成分ごとのアダマール乗算を表す。Λは、H及びW行列のその時の推定値を使用した、式(2)の右辺で与えられるその時の再構成であり、Fは、低域カットオフ周波数、たとえば、4000Hzである。右辺の行列の除算は、また、成分ごとであり、式(2)の右辺で与えられる行列Vの近似である。
式(3)のコスト関数は、変形カルバック−ライブラコスト関数である。ここで、式(1)の線形分解の代わりに、式(2)の畳み込みNMF分解によって近似が与えられる。
式(2)は、また、総計して最終結果を生成するNMF演算子のセットと見なすことができる。この観点から、式(1)と式(2)の主要な差は、式(2)は、行列Vをτ+1個の行列の結合に分解するが、式(1)は、2つの行列を使用するだけであるということである。
この解釈によって、本発明者等は、Lee等のNMF更新式を変形することによって、行列W及びHの推定のための反復手順を得ることが可能になる。変形反復更新式は、下式(4)(5)によって与えられる。
Figure 2006323388
ここで、×を○で囲った記号は、成分ごとのアダマール乗算を表し、除算演算子もまた成分ごとである。(←t)演算子は、左シフト演算子、すなわち、式(2)の右シフト演算子の逆を表す。そのため、W及びH行列を推定する全体の手順は、以下の通りである。
全ての行列を初期化する、たとえば、ランダム初期化を使用し、その後、式(4)と式(5)を使用して、全ての項を反復して更新する。
CNMFによってトレーニングされた全ての行列W のj番目の列を含むスペクトルパッチWは、音響信号における顕著なスペクトログラフ構造を表す。
以下で述べるように、音声信号に適用されると、トレーニングされた基底は、関連する音素または副音素構造を表す。
帯域制限された音響信号の高周波数構造の構築
図1に示すように、狭帯域信号について高帯域周波数を構築する方法100は、以下のコンポーネントを含む。
信号処理コンポーネント110は、入力広帯域トレーニング音響信号101から、低分解能スペクトル及び高分解能スペクトルについての表現、すなわち、以降で、それぞれ、「包絡線スペクトル」111及び「調波スペクトル」112についての表現を生成する。
トレーニングコンポーネント120は、畳み込み非負行列因子分解を使用して、対応する、包絡線スペクトルについての非負包絡線基底121と、調波スペクトルについての非負調波基底122とをトレーニングする。
構築コンポーネント130は、入力低帯域音響信号132について高帯域周波数131を構築し、高帯域周波数は、次に、結合して(140)、出力広帯域音響信号141が生成される。
信号処理
音響信号の全てについてのサンプリングレートは、低帯域周波数と高帯域周波数の両方を取得するのに十分である。低帯域周波数でサンプリングされた信号は、このレートにアップサンプリングされる。本発明者等は、16kHzのサンプリングレートを使用し、全てのウィンドウサイズ及び以下で述べる他のパラメータは、このサンプリンフレートを参照して与えられる。
本発明者等は、対応する入力広帯域トレーニング音響信号と時間的に同期して、隣接フレーム間で256サンプルの重なりがある状態で、各フレームについて、512サンプル(32ms)のハニング窓を使用して、音響信号の短時間フーリエ変換を求める。
行列Sは、音響信号について複素フーリエスペクトルのシーケンスを表し、行列Φは、位相を表し、行列Vは、行列Sの成分ごとのマグニチュードを表す。そのため、行列Vは、信号のマグニチュードスペクトログラムを表す。
行列V及びΦでは、各列は、それぞれ、音響信号の単一の32msフレームのマグニチュードスペクトル及び位相を表す。各フレームについて、フーリエスペクトル内にM個の固有のサンプルが存在し、かつ、信号内にN個のフレームが存在する場合、行列V及びΦは、M×N行列である。
本発明者等は、行列Vをケプストラム重み付けする、または、「リフタリングする」ことによって、トレーニング音響信号101の包絡線スペクトル111と調波スペクトル112を求める。行列Vは、行列Vから導出された包絡線スペクトルのシーケンスを表し、行列Vは、対応する調波スペクトルのシーケンスを表す。行列V及びVは共に、下式(6)(7)に従って行列Vから導出されたM×N行列である。
Figure 2006323388
行列Zは、1に設定される各行のK個の低周波数成分とゼロに設定される残りの周波数成分を有する。行列Zは、1に設定される高周波数成分とゼロに設定される残りの周波数成分を有する。すなわち、下式の関係である。
Figure 2006323388
式(6)と式(7)における離散コサイン変換(DCT)及び逆DCT演算は、それぞれの行列引数の各行に個別に適用される。
K個、たとえば、K=M/3の低周波数成分の適切な選択によって、行列VとVは、トレーニング音響信号101の包絡線スペクトルと調波スペクトルの構造をモデル化する。
トレーニング音響信号の低帯域部分の包絡線スペクトルの低周波数及びトレーニング音響信号の包絡線スペクトルの高周波数は、結合されて、合成包絡線スペクトル行列を構成することができる。同様に、低帯域トレーニング音響信号の調波スペクトルの低周波数及び入力広帯域トレーニング音響信号の調波スペクトルの高周波数は、結合されて、合成調波スペクトル行列を構成することができる。
スペクトル基底のトレーニング
トレーニングステップ120の第1段階は、トレーニング音響信号101から行列VとV及びΦをトレーニングする。任意の話者または話者のグループの特徴が、比較的短い、たとえば、5分以内の信号によって取得することができるため、トレーニング音響信号は、話者依存であるか、または、話者独立であることができる。
行列は、2ステッププロセスで得られる。第1ステップでは、トレーニング音響信号は、ろ過されて、低帯域音響信号132で予想される周波数帯域にされ、次に、低帯域信号132の予想されるサンプリングレートにダウンサンプリングされ、最後に、高帯域信号131のサンプリングレートにアップサンプリングされる。この信号は、低帯域信号をアップサンプリングすることによって得られる信号の厳密な近似である。
調波、包絡線、及び位相スペクトル行列V 、V 、及びΦは、アップサンプリングされた低帯域トレーニング音響信号から得られる。
包絡線、調波、及び位相スペクトル行列V 、V 、及びΦは、広帯域トレーニング音響信号101から導出される。行列V、V、及びΦは、下式(8)として、所定のカットオフ周波数F未満の周波数成分から、低帯域用のスペクトル行列から、及び広帯域信号から導出された行列の高周波数成分から形成される。
Figure 2006323388
行列Zは、第1対角要素が1に設定され、残りの元がゼロに設定された正方行列である。行列Zは、また、最後の対角要素が1に設定され、残りの元がゼロに設定された正方行列である。パラメータLは、カットオフ周波数Fに相当する周波数インデックスである。
t=1、・・・、τの場合のスペクトルパッチ基底W は、式(4)と式(5)で指定された反復更新プロセスを使用して包絡線スペクトルVについて導出される。行列Hは、除去される。
包絡線スペクトルVから導出された低帯域スペクトル包絡線基底のセットW e,lは、結果として得られる行列がそれぞれ、サイズL×Rであるように、L番目の行において全ての行列を打ち切ることによって、下式(9)として得られる。
Figure 2006323388
行列ZはL×M行列であり、L個の主要な対角要素は1であり、残りの元はゼロである。
低帯域スペクトル調波基底のセットW h,lは、同様に得られる。行列のセット、W 、W l,t、W は、構築に使用されるスペクトルパッチ基底を形成する。
位相行列Φは、L×N低周波数位相行列ΦとM−(L×N)高周波数行列Φに分離される。
行列間の線形回帰が下式(10)として得られる。
Figure 2006323388
広帯域音響信号の構築
入力低帯域音響信号132は、広帯域トレーニング音響信号101のサンプリングレートにアップサンプリングされ、位相、包絡線、及び調波スペクトル行列Φ、V、及びVは、アップサンプリングされた信号から導出される。行列の低周波数成分は、V=Z及びV=Zとして分離される。
トレーニング音響信号から得られたW e,l及びW h,l基底に基づいて、行列V 及びV についてCNMF近似が得られる。これは、下式(11)としてV 及びV を近似する。
Figure 2006323388
及びH行列は、式(4)の反復を通して得られる。
こうして、広帯域スペクトログラムは、トレーニングによって得られた完全な基底W 及びW に対して推定された行列H及びHを適用することによって、下式(12)として構築される。
Figure 2006323388
高帯域周波数131及び入力低帯域周波数132は、下式(13)に従って得られる。
Figure 2006323388
出力広帯域信号141についての完全なマグニチュードスペクトルは、結合(C)として下式で得られる。
Figure 2006323388
出力広帯域信号用の位相は、下式(14)である。
Figure 2006323388
ここで、Zは、M×L行列であり、(M−L)個の主要な対角要素は、1に設定され、残りの元は、ゼロに設定される。
こうして、完全な出力広帯域信号141は、V(^)ejΦの逆短時間フーリエ変換を求めることによって得られる(ここで、V(^)は、Vの上に^が付されたものを意味する)。
本発明の一実施形態による、音響信号を拡張する方法のブロック図である。

Claims (26)

  1. 低帯域音響信号から広帯域音響信号を構築する方法であって、
    入力広帯域トレーニング音響信号から包絡線スペクトルと調波スペクトルを生成することと、
    畳み込み非負行列因子分解を使用して、対応する前記包絡線スペクトル用の非負包絡線基底及び前記調波スペクトル用の非負調波基底をトレーニングすることと、
    前記非負包絡線基底及び前記非負調波基底に従って入力低帯域音響信号用の高帯域周波数を生成することと、
    出力広帯域音響信号を生成するために、前記入力低帯域音響信号を前記生成された高帯域周波数と結合することと
    を含む低帯域音響信号から広帯域音響信号を構築する方法。
  2. 前記入力広帯域トレーニング音響信号及び前記入力低帯域音響信号は、話者依存である請求項1に記載の方法。
  3. 前記入力広帯域トレーニング音響信号及び前記入力低帯域音響信号は、話者独立である請求項1に記載の方法。
  4. 前記入力広帯域トレーニング音響信号及び前記出力広帯域音響信号は、ほぼ0kHz〜8kHzの範囲の周波数を含み、前記入力低帯域音響信号は、ほぼ0kHz〜4kHzの範囲の周波数を含み、前記高帯域音響信号は、ほぼ4kHz〜8kHzの範囲の周波数を含む請求項1に記載の方法。
  5. 前記入力広帯域トレーニング音響信号用のサンプリングレートは、低帯域周波数及び高帯域周波数を取得するのに十分である請求項1に記載の方法。
  6. 前記入力広帯域トレーニング音響信号は、前記低帯域音響信号において予想される周波数になるようにローパスフィルタリングされ、前記方法は、
    前記ローパスフィルタリングされた信号をより低いサンプリングレートへダウンサンプリングすることと、
    低帯域トレーニング音響信号を生成するために、前記ダウンサンプリングした信号を前記入力広帯域トレーニング音響信号の前記サンプリングレートに戻るようにアップサンプリングすることと
    さらに含む請求項5に記載の方法。
  7. 隣接フレーム間で256サンプルの重なりがある状態で、各フレームについて、512サンプルのハニング窓を使用して、前記入力広帯域トレーニング音響信号の短時間フーリエ変換を求めることをさらに含み、前記入力広帯域トレーニング音響信号について、行列Sは、複素フーリエスペクトルのシーケンスを表し、行列Φは、位相を表し、行列Vは、該行列Vが前記入力広帯域トレーニング音響信号のマグニチュードスペクトログラムを表すように、前記行列Sの成分ごとのマグニチュードを表す請求項5に記載の方法。
  8. 前記入力広帯域トレーニング音響信号は、各フレームについて、前記フーリエスペクトル内にM個の固有のサンプルを含み、前記入力広帯域トレーニング音響信号内にN個のフレームが存在し、前記行列V及び前記行列Φは、M×N行列である請求項7に記載の方法。
  9. 前記行列Vのケプストラム重み付けによって、前記入力広帯域トレーニング音響信号の前記包絡線スペクトルと前記調波スペクトルを求めることをさらに含む請求項8に記載の方法。
  10. 対応する前記入力広帯域トレーニング音響信号と時間的に同期して、隣接フレーム間で256サンプルの重なりがある状態で、各フレームについて、512サンプルのハニング窓を使用して、前記低帯域トレーニング音響信号の短時間フーリエ変換を求めることをさらに含む請求項6に記載の方法。
  11. 前記入力低帯域トレーニング音響信号は、各フレームについて、フーリエスペクトル内にM個の固有のサンプルを含み、前記低帯域トレーニング音響信号内にN個のフレームが存在し、M×Nスペクトル行列がもたらされ、該M×Nスペクトル行列から、位相を表す行列Φ及び成分ごとのマグニチュードを表す行列Vが導出される請求項10に記載の方法。
  12. 前記行列Vのケプストラム重み付けによって、前記低帯域トレーニング音響信号の前記包絡線スペクトルと前記調波スペクトルを求めることをさらに含む請求項11に記載の方法。
  13. 合成包絡線スペクトル行列を構成するために、前記低帯域トレーニング音響信号の前記包絡線スペクトルの低周波数と、前記入力広帯域トレーニング音響信号の前記包絡線スペクトルの高周波数とを結合することをさらに含む請求項9または12に記載の方法。
  14. 前記合成包絡線スペクトル行列について、非負包絡線基底を学習することをさらに含む請求項13に記載の方法。
  15. 合成調波スペクトル行列を構成するために、前記低帯域トレーニング音響信号の前記調波スペクトルの低周波数と、前記入力広帯域トレーニング音響信号の前記調波スペクトルの高周波数とを結合することをさらに含む請求項9または12に記載の方法。
  16. 前記合成調波スペクトル行列について、非負調波基底を学習することをさらに含む請求項15に記載の方法。
  17. 線形変換AΦは、前記行列Φの低周波数と該行列Φの高周波数との間で求められる請求項8または11に記載の方法。
  18. 前記入力低帯域音響信号を、前記入力広帯域トレーニング音響信号のサンプリング周波数にアップサンプリングすることをさらに含む請求項1に記載の方法。
  19. フーリエスペクトル行列を生成するために、隣接フレーム間で256サンプルの重なりがある状態で、各フレームについて、512サンプルのハニング窓を使用して、前記入力低帯域音響信号の短時間フーリエ変換を求めることと、
    ケプストラム重み付けによって、前記フーリエスペクトル行列から前記包絡線スペクトルと前記調波スペクトルを導出することと
    をさらに含む請求項18に記載の方法。
  20. 前記入力低帯域音響信号の前記包絡線スペクトルから前記非負包絡線基底の最適な重みを導出することをさらに含む請求項14または19に記載の方法。
  21. 再構築された高周波数包絡線スペクトルを導出するために、前記包絡線基底の前記高周波数を前記最適な重みと結合することをさらに含む請求項20に記載の方法。
  22. 前記入力低帯域音響信号の前記調波スペクトルから前記非負調波基底の最適な重みを導出することをさらに含む請求項16または19に記載の方法。
  23. 再構築された高周波数調波スペクトルを導出するために、前記調波基底の前記高周波数を前記最適な重みと結合することをさらに含む請求項22に記載の方法。
  24. 再構築された高周波数マグニチュードスペクトルを導出するために、前記再構築された高周波数包絡線スペクトルと前記再構築された高周波数調波スペクトルとを掛けることをさらに含む請求項21または23に記載の方法。
  25. 前記高周波数マグニチュードスペクトルの再構築された位相を導出するために、前記低帯域信号の前記低周波数の位相に前記線形変換AΦを掛けることをさらに含む請求項17に記載の方法。
  26. 前記高周波数マグニチュードスペクトルの前記再構築された位相と前記マグニチュードを結合することと、
    前記高周波数信号を導出するために、逆フーリエ変換を求めることと、
    出力広帯域音響信号を生成するために、前記高周波数信号と前記入力低帯域信号を結合することと
    をさらに含む請求項24または25に記載の方法。
JP2006136465A 2005-05-17 2006-05-16 低帯域音響信号から広帯域音響信号を構築する方法 Pending JP2006323388A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/130,735 US7698143B2 (en) 2005-05-17 2005-05-17 Constructing broad-band acoustic signals from lower-band acoustic signals

Publications (1)

Publication Number Publication Date
JP2006323388A true JP2006323388A (ja) 2006-11-30

Family

ID=37449428

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006136465A Pending JP2006323388A (ja) 2005-05-17 2006-05-16 低帯域音響信号から広帯域音響信号を構築する方法

Country Status (2)

Country Link
US (1) US7698143B2 (ja)
JP (1) JP2006323388A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016522421A (ja) * 2013-10-22 2016-07-28 三菱電機株式会社 入力雑音混入信号を強調する方法およびシステム

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7415392B2 (en) * 2004-03-12 2008-08-19 Mitsubishi Electric Research Laboratories, Inc. System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution
US8145478B2 (en) * 2005-06-08 2012-03-27 Panasonic Corporation Apparatus and method for widening audio signal band
US20080147356A1 (en) * 2006-12-14 2008-06-19 Leard Frank L Apparatus and Method for Sensing Inappropriate Operational Behavior by Way of an Array of Acoustical Sensors
JP5089295B2 (ja) * 2007-08-31 2012-12-05 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理システム、方法及びプログラム
DE602007004504D1 (de) * 2007-10-29 2010-03-11 Harman Becker Automotive Sys Partielle Sprachrekonstruktion
US8015003B2 (en) * 2007-11-19 2011-09-06 Mitsubishi Electric Research Laboratories, Inc. Denoising acoustic signals using constrained non-negative matrix factorization
US8340943B2 (en) * 2009-08-28 2012-12-25 Electronics And Telecommunications Research Institute Method and system for separating musical sound source
US20110078224A1 (en) * 2009-09-30 2011-03-31 Wilson Kevin W Nonlinear Dimensionality Reduction of Spectrograms
CN102044250B (zh) * 2009-10-23 2012-06-27 华为技术有限公司 频带扩展方法及装置
US8326607B2 (en) * 2010-01-11 2012-12-04 Sony Ericsson Mobile Communications Ab Method and arrangement for enhancing speech quality
KR20120031854A (ko) * 2010-09-27 2012-04-04 한국전자통신연구원 시간 및 주파수 특징을 이용하는 음악 음원 분리 장치 및 방법
US20120143604A1 (en) 2010-12-07 2012-06-07 Rita Singh Method for Restoring Spectral Components in Denoised Speech Signals
CA2779232A1 (en) * 2011-06-08 2012-12-08 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry Through The Communications Research Centre Canada Sparse coding using object extraction
EP2830056A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding an audio signal with intelligent gap filling in the spectral domain
US20150194157A1 (en) * 2014-01-06 2015-07-09 Nvidia Corporation System, method, and computer program product for artifact reduction in high-frequency regeneration audio signals
US9930466B2 (en) 2015-12-21 2018-03-27 Thomson Licensing Method and apparatus for processing audio content
KR102645659B1 (ko) 2019-01-04 2024-03-11 삼성전자주식회사 뉴럴 네트워크 모델에 기반하여 무선 통신을 수행하는 장치 및 방법
CN110556122B (zh) 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN112565977B (zh) * 2020-11-27 2023-03-07 大象声科(深圳)科技有限公司 高频信号重建模型的训练方法和高频信号重建方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
DE69619284T3 (de) * 1995-03-13 2006-04-27 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur Erweiterung der Sprachbandbreite
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US6988066B2 (en) * 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
US20050267739A1 (en) * 2004-05-25 2005-12-01 Nokia Corporation Neuroevolution based artificial bandwidth expansion of telephone band speech

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016522421A (ja) * 2013-10-22 2016-07-28 三菱電機株式会社 入力雑音混入信号を強調する方法およびシステム

Also Published As

Publication number Publication date
US7698143B2 (en) 2010-04-13
US20060265210A1 (en) 2006-11-23

Similar Documents

Publication Publication Date Title
JP2006323388A (ja) 低帯域音響信号から広帯域音響信号を構築する方法
Li et al. A deep neural network approach to speech bandwidth expansion
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
US8041577B2 (en) Method for expanding audio signal bandwidth
US7792672B2 (en) Method and system for the quick conversion of a voice signal
Yağlı et al. Artificial bandwidth extension of spectral envelope along a Viterbi path
JPH09101798A (ja) 音声帯域拡大方法および音声帯域拡大装置
Bansal et al. Bandwidth expansion of narrowband speech using non-negative matrix factorization.
EP3040989B1 (fr) Procédé de séparation amélioré et produit programme d'ordinateur
Litvin et al. Single-channel source separation of audio signals using bark scale wavelet packet decomposition
US20070055519A1 (en) Robust bandwith extension of narrowband signals
KR20130057668A (ko) 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법
Sadasivan et al. Joint dictionary training for bandwidth extension of speech signals
HUE033434T2 (en) Process, equipment, device, computer-readable medium for expanding the bandwidth of an audio signal with scaled upper pitch excitation
Islam et al. Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask
Kinjo et al. On HMM speech recognition based on complex speech analysis
JP2010055002A (ja) 信号帯域拡張装置
JP4348393B2 (ja) 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体
Seltzer et al. Robust bandwidth extension of noise-corrupted narrowband speech.
JP2004513399A (ja) 知覚品質を高める電話スピーチの広帯域拡張
JP2009223210A (ja) 信号帯域拡張装置および信号帯域拡張方法
Tufekci et al. Applied mel-frequency discrete wavelet coefficients and parallel model compensation for noise-robust speech recognition
US8675881B2 (en) Estimation of synthetic audio prototypes
Nower et al. Restoration scheme of instantaneous amplitude and phase using Kalman filter with efficient linear prediction for speech enhancement
KR101498113B1 (ko) 사운드 신호의 대역폭 확장 장치 및 방법