JP2006323388A - 低帯域音響信号から広帯域音響信号を構築する方法 - Google Patents
低帯域音響信号から広帯域音響信号を構築する方法 Download PDFInfo
- Publication number
- JP2006323388A JP2006323388A JP2006136465A JP2006136465A JP2006323388A JP 2006323388 A JP2006323388 A JP 2006323388A JP 2006136465 A JP2006136465 A JP 2006136465A JP 2006136465 A JP2006136465 A JP 2006136465A JP 2006323388 A JP2006323388 A JP 2006323388A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic signal
- matrix
- input
- band
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 45
- 239000011159 matrix material Substances 0.000 claims abstract description 91
- 238000001228 spectrum Methods 0.000 claims abstract description 61
- 230000003595 spectral effect Effects 0.000 claims description 19
- 238000005070 sampling Methods 0.000 claims description 11
- 239000002131 composite material Substances 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims 2
- 239000013598 vector Substances 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012880 independent component analysis Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】低帯域音響信号から広帯域音響信号を構築する。
【解決手段】入力広帯域トレーニング音響信号から包絡線スペクトルと調波スペクトルを生成する。畳み込み非負行列因子分解を使用して、対応する包絡線スペクトル用の非負包絡線基底がトレーニングされ、かつ調波スペクトル用の非負調波基底がトレーニングされる。非負包絡線基底及び非負調波基底に従って入力低帯域音響信号用の高帯域周波数が生成される。その後、入力低帯域音響信号が高帯域周波数と結合されて、それによって、出力広帯域音響信号が生成される。
【選択図】図1
【解決手段】入力広帯域トレーニング音響信号から包絡線スペクトルと調波スペクトルを生成する。畳み込み非負行列因子分解を使用して、対応する包絡線スペクトル用の非負包絡線基底がトレーニングされ、かつ調波スペクトル用の非負調波基底がトレーニングされる。非負包絡線基底及び非負調波基底に従って入力低帯域音響信号用の高帯域周波数が生成される。その後、入力低帯域音響信号が高帯域周波数と結合されて、それによって、出力広帯域音響信号が生成される。
【選択図】図1
Description
本発明は、包括的に、音響信号の処理に関し、より詳細には、低帯域音響信号から広帯域音響信号を構築することに関する。
ほぼ0kHz〜8kHzの範囲からの周波数を含む広帯域音響信号、たとえば、音声信号は、ほぼ4kHz未満の周波数を有する低帯域音響信号、たとえば、電話品質音響信号に比べて、当然、より明瞭に聞こえ、また、よりよく理解できる。したがって、低帯域音響信号を拡張することが望ましい。
この問題を解決するための種々の方法が知られている。エイリアシングに基づく方法は、種々の手段によって、低周波数を高周波数にエイリアシングすることによって高周波数成分を導出する(Yasukawa, H.著「Signal Restoration of Broad Band Speech Using Nonlinear Processing」Proc. European Signal Processing Conf. (EUSIPCO-96), pp. 987-990, 1996)。
コードブック方法は、低帯域音声信号のスペクトルをコードブックのコードワードにマッピングし、次に、対応する高周波数コードワードから高周波数を導出する(Chennoukh, S.Gerrits, A.,Miet, G.及びSluijter, R.著「Speech Enhancement via Frequency Bandwidth Extension using Line Spectral Frequencies」Proc ICASSP-95, 2001)。
統計的方法は、低帯域周波数成分と高帯域周波数成分の統計的関係を利用して、低帯域周波数成分から高帯域周波数成分を導出する。1つの方法は、音声の低帯域成分と高帯域成分をランダムプロセスの混合としてモデル化する。低帯域信号から導出される混合重みを使用して、高帯域周波数が生成される(Cheng, Y. M.,O'Shaugnessey, D. O.及びMermelstein, P.著「Statistical Recovery of Wideband Speech from Narrow-band Speech」IEEE Trans., ASSP, Vol 2., pp 544-548, 1994)。
統計的なフレーム間相関を使用する方法は、高周波数を予測することができる。しかしながら、これらの方法は、ガウス混合モデル(GMM)、隠れマルコフモデル(HMM)、または多帯域HMM等の複素時系列モデルから、または、明示的な補間によって導出されることが多い(Hosoki, M.,Nagai, T.及びKurematsu, A.著「Speech Signal Bandwidth Extension and Noise Removal Using Subband HIGHER-BAND」Proc ICASSP, 2002)。
線形モデル法は、低帯域周波数成分の線形結合として高帯域周波数成分を導出する(Avendano, C.,Hermansky, H.及びWand, E. A.著「Beyond Nyquist: Towards the Recovery of Broad-bandwidth Speech from Narrow-bandwidth Speech」Proc. Eurospeech-95, 1995)。
方法は、畳み込み非負行列因子分解(CNMF)を使用して、低帯域、たとえば、ほぼ0〜4kHzの範囲の音響信号から、高周波成分、たとえば、ほぼ4〜8kHzの範囲の音響信号を推定する。
本方法は、入力トレーニング広帯域音響信号を使用して、低帯域及び対応する高帯域非負「基底」のセットをトレーニングする。音響信号は、たとえば、音声または音楽であることができる。これらの基底の低周波数成分は、高周波数成分を求めるのに使用され、入力低帯域音響信号と結合して、出力広帯域音響信号を構築することができる。出力広帯域音響信号は、真の広帯域音響信号と実質的に識別不可能である。
畳み込み非負行列因子分解
行列因子分解は、下式(1)のように、行列Vを2つの行列W及びHに分解する。
行列因子分解は、下式(1)のように、行列Vを2つの行列W及びHに分解する。
ここで、WはM×R行列であり、HはR×N行列であり、RはMより小さく、行列WとHからの行列Vの再構築誤差が最小になる。こうした分解では、行列Wの列は、基底のセットとして、行列Hの列は、基底によるVの列の座標として解釈される。
代替的に、行列Hの列は、行列Wの列の最も近い近似を得るために、行列Wの基底と結合される重みを表す。
主成分分析(PCA)及び独立成分分析(ICA)等の従来の因子分解技法は、基底が正と負であることを可能にし、行列Hの成分によって指定される項間の相互作用もまた、正と負であることができる。
マグニチュードスペクトルベクトルのシーケンスを表す行列等の厳密に非負のデータセットでは、スペクトルベクトルのマグニチュードが負になり得ないため、基底の負成分も負の相互作用も許されない。
1つの非負行列因子分解(NMF)は、行列WとHの要素を厳密に非負であるように制約する(Lee, D. D.及びH. S. Seung著「Learning the parts of objects with nonnegative matrix factorization」Nature 401, pp.788-791, 1999)。著者等は、手で位置合わせした2D画像内の顔の一部及び要約した文書の意味的特徴を検出するためにNMFを適用する。別のアプリケーションは、楽曲の音響記録における個々の音を検出するためにNMFを適用する(P. Smaragdis著「Discovering Auditory Objects Through Non-Negativity Constraints」SAPA 2004, October 2004)。
Lee等のNMFは、行列Vの全ての列基底をR個の基底の結合として扱い、全体のデータセットを説明するのに、個々の基底内の構造を説明することで十分であることを暗黙的に仮定する。これは、基底が行列V内に配列される順序は、無関係であることを実質上仮定する。
しかしながら、これらの仮定は、構造パターンが複数の基底にわたって明らかであり、基底が配列される順序が実際に無関係である、マグニチュードスペクトル基底のシーケンス等のデータセットにおいて、明らかに根拠がない。
スマラグディスは、行列Vを説明するのに使用される基底が、特異な基底であるだけでなく、実際には、基底の短いシーケンスであるNMFアルゴリズムの畳み込みバージョン(CNMF)を述べる。この演算は、下式(2)として記号的に表すことができる。
ここで、Wt Tは非負M×R行列であり、Hは上述した非負R×N行列であり、(t→)演算子は、行列Hの列を右にt個の位置だけシフトする右シフト演算子を表す。式(2)の上付き添え字のTは、転置演算子を表す。行列Hのサイズは、シフトして行列から出た列を考慮するために、最も左の位置にゼロの値の列を導入することによって維持される。
本発明者等は、Wtのj番目のベクトルをWt jとして表す。それぞれのベクトルのセットは、音響信号、たとえば、音声信号または音楽信号のスペクトルベクトルwjのシーケンス、または、「スペクトルパッチ」を形成する。これらのスペクトルパッチは、本発明者等が、行列Vのデータを「説明する」ために使用する基底を形成する。
式(2)は、行列Wを、これらのパッチと行列Hの対応する行との畳み込みの重ね合わせとして近似する。すなわち、行列Vの近似に対するj番目のスペクトルパッチの寄与は、パッチを行列Hのj番目の行で畳み込むことによって得られる。
τ=1である場合、これは、従来のNMFに帰着する。行列Vを推定するための、近似の行列Wt及び行列Hを推定するために、本発明者等は、既に存在するNMFの枠組みを使用することができる。
本発明者等は、コスト関数を、下式(3)として規定する。
ここで、右辺のノルムは、フロベニウスノルムであり、×を○で囲った記号は、成分ごとのアダマール乗算を表す。Λは、H及びWt行列のその時の推定値を使用した、式(2)の右辺で与えられるその時の再構成であり、Fは、低域カットオフ周波数、たとえば、4000Hzである。右辺の行列の除算は、また、成分ごとであり、式(2)の右辺で与えられる行列Vの近似である。
式(3)のコスト関数は、変形カルバック−ライブラコスト関数である。ここで、式(1)の線形分解の代わりに、式(2)の畳み込みNMF分解によって近似が与えられる。
式(2)は、また、総計して最終結果を生成するNMF演算子のセットと見なすことができる。この観点から、式(1)と式(2)の主要な差は、式(2)は、行列Vをτ+1個の行列の結合に分解するが、式(1)は、2つの行列を使用するだけであるということである。
この解釈によって、本発明者等は、Lee等のNMF更新式を変形することによって、行列Wt及びHの推定のための反復手順を得ることが可能になる。変形反復更新式は、下式(4)(5)によって与えられる。
ここで、×を○で囲った記号は、成分ごとのアダマール乗算を表し、除算演算子もまた成分ごとである。(←t)演算子は、左シフト演算子、すなわち、式(2)の右シフト演算子の逆を表す。そのため、Wt及びH行列を推定する全体の手順は、以下の通りである。
全ての行列を初期化する、たとえば、ランダム初期化を使用し、その後、式(4)と式(5)を使用して、全ての項を反復して更新する。
CNMFによってトレーニングされた全ての行列Wt jのj番目の列を含むスペクトルパッチWjは、音響信号における顕著なスペクトログラフ構造を表す。
以下で述べるように、音声信号に適用されると、トレーニングされた基底は、関連する音素または副音素構造を表す。
帯域制限された音響信号の高周波数構造の構築
図1に示すように、狭帯域信号について高帯域周波数を構築する方法100は、以下のコンポーネントを含む。
図1に示すように、狭帯域信号について高帯域周波数を構築する方法100は、以下のコンポーネントを含む。
信号処理コンポーネント110は、入力広帯域トレーニング音響信号101から、低分解能スペクトル及び高分解能スペクトルについての表現、すなわち、以降で、それぞれ、「包絡線スペクトル」111及び「調波スペクトル」112についての表現を生成する。
トレーニングコンポーネント120は、畳み込み非負行列因子分解を使用して、対応する、包絡線スペクトルについての非負包絡線基底121と、調波スペクトルについての非負調波基底122とをトレーニングする。
構築コンポーネント130は、入力低帯域音響信号132について高帯域周波数131を構築し、高帯域周波数は、次に、結合して(140)、出力広帯域音響信号141が生成される。
信号処理
音響信号の全てについてのサンプリングレートは、低帯域周波数と高帯域周波数の両方を取得するのに十分である。低帯域周波数でサンプリングされた信号は、このレートにアップサンプリングされる。本発明者等は、16kHzのサンプリングレートを使用し、全てのウィンドウサイズ及び以下で述べる他のパラメータは、このサンプリンフレートを参照して与えられる。
音響信号の全てについてのサンプリングレートは、低帯域周波数と高帯域周波数の両方を取得するのに十分である。低帯域周波数でサンプリングされた信号は、このレートにアップサンプリングされる。本発明者等は、16kHzのサンプリングレートを使用し、全てのウィンドウサイズ及び以下で述べる他のパラメータは、このサンプリンフレートを参照して与えられる。
本発明者等は、対応する入力広帯域トレーニング音響信号と時間的に同期して、隣接フレーム間で256サンプルの重なりがある状態で、各フレームについて、512サンプル(32ms)のハニング窓を使用して、音響信号の短時間フーリエ変換を求める。
行列Sは、音響信号について複素フーリエスペクトルのシーケンスを表し、行列Φは、位相を表し、行列Vは、行列Sの成分ごとのマグニチュードを表す。そのため、行列Vは、信号のマグニチュードスペクトログラムを表す。
行列V及びΦでは、各列は、それぞれ、音響信号の単一の32msフレームのマグニチュードスペクトル及び位相を表す。各フレームについて、フーリエスペクトル内にM個の固有のサンプルが存在し、かつ、信号内にN個のフレームが存在する場合、行列V及びΦは、M×N行列である。
本発明者等は、行列Vをケプストラム重み付けする、または、「リフタリングする」ことによって、トレーニング音響信号101の包絡線スペクトル111と調波スペクトル112を求める。行列Veは、行列Vから導出された包絡線スペクトルのシーケンスを表し、行列Vhは、対応する調波スペクトルのシーケンスを表す。行列Ve及びVhは共に、下式(6)(7)に従って行列Vから導出されたM×N行列である。
行列Zeは、1に設定される各行のK個の低周波数成分とゼロに設定される残りの周波数成分を有する。行列Zhは、1に設定される高周波数成分とゼロに設定される残りの周波数成分を有する。すなわち、下式の関係である。
式(6)と式(7)における離散コサイン変換(DCT)及び逆DCT演算は、それぞれの行列引数の各行に個別に適用される。
K個、たとえば、K=M/3の低周波数成分の適切な選択によって、行列VeとVhは、トレーニング音響信号101の包絡線スペクトルと調波スペクトルの構造をモデル化する。
トレーニング音響信号の低帯域部分の包絡線スペクトルの低周波数及びトレーニング音響信号の包絡線スペクトルの高周波数は、結合されて、合成包絡線スペクトル行列を構成することができる。同様に、低帯域トレーニング音響信号の調波スペクトルの低周波数及び入力広帯域トレーニング音響信号の調波スペクトルの高周波数は、結合されて、合成調波スペクトル行列を構成することができる。
スペクトル基底のトレーニング
トレーニングステップ120の第1段階は、トレーニング音響信号101から行列VeとVh及びΦをトレーニングする。任意の話者または話者のグループの特徴が、比較的短い、たとえば、5分以内の信号によって取得することができるため、トレーニング音響信号は、話者依存であるか、または、話者独立であることができる。
トレーニングステップ120の第1段階は、トレーニング音響信号101から行列VeとVh及びΦをトレーニングする。任意の話者または話者のグループの特徴が、比較的短い、たとえば、5分以内の信号によって取得することができるため、トレーニング音響信号は、話者依存であるか、または、話者独立であることができる。
行列は、2ステッププロセスで得られる。第1ステップでは、トレーニング音響信号は、ろ過されて、低帯域音響信号132で予想される周波数帯域にされ、次に、低帯域信号132の予想されるサンプリングレートにダウンサンプリングされ、最後に、高帯域信号131のサンプリングレートにアップサンプリングされる。この信号は、低帯域信号をアップサンプリングすることによって得られる信号の厳密な近似である。
調波、包絡線、及び位相スペクトル行列Vh n、Ve n、及びΦnは、アップサンプリングされた低帯域トレーニング音響信号から得られる。
包絡線、調波、及び位相スペクトル行列Ve W、Vh W、及びΦWは、広帯域トレーニング音響信号101から導出される。行列Vh、Ve、及びΦは、下式(8)として、所定のカットオフ周波数F未満の周波数成分から、低帯域用のスペクトル行列から、及び広帯域信号から導出された行列の高周波数成分から形成される。
行列ZWは、第1対角要素が1に設定され、残りの元がゼロに設定された正方行列である。行列Znは、また、最後の対角要素が1に設定され、残りの元がゼロに設定された正方行列である。パラメータLは、カットオフ周波数Fに相当する周波数インデックスである。
t=1、・・・、τeの場合のスペクトルパッチ基底Wt eは、式(4)と式(5)で指定された反復更新プロセスを使用して包絡線スペクトルVeについて導出される。行列Hは、除去される。
包絡線スペクトルVeから導出された低帯域スペクトル包絡線基底のセットWt e,lは、結果として得られる行列がそれぞれ、サイズL×Rであるように、L番目の行において全ての行列を打ち切ることによって、下式(9)として得られる。
行列ZLはL×M行列であり、L個の主要な対角要素は1であり、残りの元はゼロである。
低帯域スペクトル調波基底のセットWt h,lは、同様に得られる。行列のセット、Wt e、Wt l,t、Wt hは、構築に使用されるスペクトルパッチ基底を形成する。
位相行列Φは、L×N低周波数位相行列ΦlとM−(L×N)高周波数行列Φuに分離される。
行列間の線形回帰が下式(10)として得られる。
広帯域音響信号の構築
入力低帯域音響信号132は、広帯域トレーニング音響信号101のサンプリングレートにアップサンプリングされ、位相、包絡線、及び調波スペクトル行列Φ、Vh、及びVeは、アップサンプリングされた信号から導出される。行列の低周波数成分は、Ve=ZLVE及びVh=ZLVhとして分離される。
入力低帯域音響信号132は、広帯域トレーニング音響信号101のサンプリングレートにアップサンプリングされ、位相、包絡線、及び調波スペクトル行列Φ、Vh、及びVeは、アップサンプリングされた信号から導出される。行列の低周波数成分は、Ve=ZLVE及びVh=ZLVhとして分離される。
トレーニング音響信号から得られたWt e,l及びWt h,l基底に基づいて、行列Ve l及びVh lについてCNMF近似が得られる。これは、下式(11)としてVe l及びVh lを近似する。
Hh及びHe行列は、式(4)の反復を通して得られる。
こうして、広帯域スペクトログラムは、トレーニングによって得られた完全な基底Wt e及びWt hに対して推定された行列Hh及びHeを適用することによって、下式(12)として構築される。
高帯域周波数131及び入力低帯域周波数132は、下式(13)に従って得られる。
出力広帯域信号141についての完全なマグニチュードスペクトルは、結合(C)として下式で得られる。
出力広帯域信号用の位相は、下式(14)である。
ここで、ZUは、M×L行列であり、(M−L)個の主要な対角要素は、1に設定され、残りの元は、ゼロに設定される。
こうして、完全な出力広帯域信号141は、V(^)ejΦの逆短時間フーリエ変換を求めることによって得られる(ここで、V(^)は、Vの上に^が付されたものを意味する)。
Claims (26)
- 低帯域音響信号から広帯域音響信号を構築する方法であって、
入力広帯域トレーニング音響信号から包絡線スペクトルと調波スペクトルを生成することと、
畳み込み非負行列因子分解を使用して、対応する前記包絡線スペクトル用の非負包絡線基底及び前記調波スペクトル用の非負調波基底をトレーニングすることと、
前記非負包絡線基底及び前記非負調波基底に従って入力低帯域音響信号用の高帯域周波数を生成することと、
出力広帯域音響信号を生成するために、前記入力低帯域音響信号を前記生成された高帯域周波数と結合することと
を含む低帯域音響信号から広帯域音響信号を構築する方法。 - 前記入力広帯域トレーニング音響信号及び前記入力低帯域音響信号は、話者依存である請求項1に記載の方法。
- 前記入力広帯域トレーニング音響信号及び前記入力低帯域音響信号は、話者独立である請求項1に記載の方法。
- 前記入力広帯域トレーニング音響信号及び前記出力広帯域音響信号は、ほぼ0kHz〜8kHzの範囲の周波数を含み、前記入力低帯域音響信号は、ほぼ0kHz〜4kHzの範囲の周波数を含み、前記高帯域音響信号は、ほぼ4kHz〜8kHzの範囲の周波数を含む請求項1に記載の方法。
- 前記入力広帯域トレーニング音響信号用のサンプリングレートは、低帯域周波数及び高帯域周波数を取得するのに十分である請求項1に記載の方法。
- 前記入力広帯域トレーニング音響信号は、前記低帯域音響信号において予想される周波数になるようにローパスフィルタリングされ、前記方法は、
前記ローパスフィルタリングされた信号をより低いサンプリングレートへダウンサンプリングすることと、
低帯域トレーニング音響信号を生成するために、前記ダウンサンプリングした信号を前記入力広帯域トレーニング音響信号の前記サンプリングレートに戻るようにアップサンプリングすることと
さらに含む請求項5に記載の方法。 - 隣接フレーム間で256サンプルの重なりがある状態で、各フレームについて、512サンプルのハニング窓を使用して、前記入力広帯域トレーニング音響信号の短時間フーリエ変換を求めることをさらに含み、前記入力広帯域トレーニング音響信号について、行列Sは、複素フーリエスペクトルのシーケンスを表し、行列ΦWは、位相を表し、行列VWは、該行列VWが前記入力広帯域トレーニング音響信号のマグニチュードスペクトログラムを表すように、前記行列Sの成分ごとのマグニチュードを表す請求項5に記載の方法。
- 前記入力広帯域トレーニング音響信号は、各フレームについて、前記フーリエスペクトル内にM個の固有のサンプルを含み、前記入力広帯域トレーニング音響信号内にN個のフレームが存在し、前記行列VW及び前記行列ΦWは、M×N行列である請求項7に記載の方法。
- 前記行列VWのケプストラム重み付けによって、前記入力広帯域トレーニング音響信号の前記包絡線スペクトルと前記調波スペクトルを求めることをさらに含む請求項8に記載の方法。
- 対応する前記入力広帯域トレーニング音響信号と時間的に同期して、隣接フレーム間で256サンプルの重なりがある状態で、各フレームについて、512サンプルのハニング窓を使用して、前記低帯域トレーニング音響信号の短時間フーリエ変換を求めることをさらに含む請求項6に記載の方法。
- 前記入力低帯域トレーニング音響信号は、各フレームについて、フーリエスペクトル内にM個の固有のサンプルを含み、前記低帯域トレーニング音響信号内にN個のフレームが存在し、M×Nスペクトル行列がもたらされ、該M×Nスペクトル行列から、位相を表す行列Φn及び成分ごとのマグニチュードを表す行列Vnが導出される請求項10に記載の方法。
- 前記行列Vnのケプストラム重み付けによって、前記低帯域トレーニング音響信号の前記包絡線スペクトルと前記調波スペクトルを求めることをさらに含む請求項11に記載の方法。
- 合成包絡線スペクトル行列を構成するために、前記低帯域トレーニング音響信号の前記包絡線スペクトルの低周波数と、前記入力広帯域トレーニング音響信号の前記包絡線スペクトルの高周波数とを結合することをさらに含む請求項9または12に記載の方法。
- 前記合成包絡線スペクトル行列について、非負包絡線基底を学習することをさらに含む請求項13に記載の方法。
- 合成調波スペクトル行列を構成するために、前記低帯域トレーニング音響信号の前記調波スペクトルの低周波数と、前記入力広帯域トレーニング音響信号の前記調波スペクトルの高周波数とを結合することをさらに含む請求項9または12に記載の方法。
- 前記合成調波スペクトル行列について、非負調波基底を学習することをさらに含む請求項15に記載の方法。
- 線形変換AΦは、前記行列ΦWの低周波数と該行列ΦWの高周波数との間で求められる請求項8または11に記載の方法。
- 前記入力低帯域音響信号を、前記入力広帯域トレーニング音響信号のサンプリング周波数にアップサンプリングすることをさらに含む請求項1に記載の方法。
- フーリエスペクトル行列を生成するために、隣接フレーム間で256サンプルの重なりがある状態で、各フレームについて、512サンプルのハニング窓を使用して、前記入力低帯域音響信号の短時間フーリエ変換を求めることと、
ケプストラム重み付けによって、前記フーリエスペクトル行列から前記包絡線スペクトルと前記調波スペクトルを導出することと
をさらに含む請求項18に記載の方法。 - 前記入力低帯域音響信号の前記包絡線スペクトルから前記非負包絡線基底の最適な重みを導出することをさらに含む請求項14または19に記載の方法。
- 再構築された高周波数包絡線スペクトルを導出するために、前記包絡線基底の前記高周波数を前記最適な重みと結合することをさらに含む請求項20に記載の方法。
- 前記入力低帯域音響信号の前記調波スペクトルから前記非負調波基底の最適な重みを導出することをさらに含む請求項16または19に記載の方法。
- 再構築された高周波数調波スペクトルを導出するために、前記調波基底の前記高周波数を前記最適な重みと結合することをさらに含む請求項22に記載の方法。
- 再構築された高周波数マグニチュードスペクトルを導出するために、前記再構築された高周波数包絡線スペクトルと前記再構築された高周波数調波スペクトルとを掛けることをさらに含む請求項21または23に記載の方法。
- 前記高周波数マグニチュードスペクトルの再構築された位相を導出するために、前記低帯域信号の前記低周波数の位相に前記線形変換AΦを掛けることをさらに含む請求項17に記載の方法。
- 前記高周波数マグニチュードスペクトルの前記再構築された位相と前記マグニチュードを結合することと、
前記高周波数信号を導出するために、逆フーリエ変換を求めることと、
出力広帯域音響信号を生成するために、前記高周波数信号と前記入力低帯域信号を結合することと
をさらに含む請求項24または25に記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/130,735 US7698143B2 (en) | 2005-05-17 | 2005-05-17 | Constructing broad-band acoustic signals from lower-band acoustic signals |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006323388A true JP2006323388A (ja) | 2006-11-30 |
Family
ID=37449428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006136465A Pending JP2006323388A (ja) | 2005-05-17 | 2006-05-16 | 低帯域音響信号から広帯域音響信号を構築する方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7698143B2 (ja) |
JP (1) | JP2006323388A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016522421A (ja) * | 2013-10-22 | 2016-07-28 | 三菱電機株式会社 | 入力雑音混入信号を強調する方法およびシステム |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7415392B2 (en) * | 2004-03-12 | 2008-08-19 | Mitsubishi Electric Research Laboratories, Inc. | System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution |
US8145478B2 (en) * | 2005-06-08 | 2012-03-27 | Panasonic Corporation | Apparatus and method for widening audio signal band |
US20080147356A1 (en) * | 2006-12-14 | 2008-06-19 | Leard Frank L | Apparatus and Method for Sensing Inappropriate Operational Behavior by Way of an Array of Acoustical Sensors |
JP5089295B2 (ja) * | 2007-08-31 | 2012-12-05 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理システム、方法及びプログラム |
DE602007004504D1 (de) * | 2007-10-29 | 2010-03-11 | Harman Becker Automotive Sys | Partielle Sprachrekonstruktion |
US8015003B2 (en) * | 2007-11-19 | 2011-09-06 | Mitsubishi Electric Research Laboratories, Inc. | Denoising acoustic signals using constrained non-negative matrix factorization |
US8340943B2 (en) * | 2009-08-28 | 2012-12-25 | Electronics And Telecommunications Research Institute | Method and system for separating musical sound source |
US20110078224A1 (en) * | 2009-09-30 | 2011-03-31 | Wilson Kevin W | Nonlinear Dimensionality Reduction of Spectrograms |
CN102044250B (zh) * | 2009-10-23 | 2012-06-27 | 华为技术有限公司 | 频带扩展方法及装置 |
US8326607B2 (en) * | 2010-01-11 | 2012-12-04 | Sony Ericsson Mobile Communications Ab | Method and arrangement for enhancing speech quality |
KR20120031854A (ko) * | 2010-09-27 | 2012-04-04 | 한국전자통신연구원 | 시간 및 주파수 특징을 이용하는 음악 음원 분리 장치 및 방법 |
US20120143604A1 (en) | 2010-12-07 | 2012-06-07 | Rita Singh | Method for Restoring Spectral Components in Denoised Speech Signals |
CA2779232A1 (en) * | 2011-06-08 | 2012-12-08 | Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry Through The Communications Research Centre Canada | Sparse coding using object extraction |
EP2830056A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding an audio signal with intelligent gap filling in the spectral domain |
US20150194157A1 (en) * | 2014-01-06 | 2015-07-09 | Nvidia Corporation | System, method, and computer program product for artifact reduction in high-frequency regeneration audio signals |
US9930466B2 (en) | 2015-12-21 | 2018-03-27 | Thomson Licensing | Method and apparatus for processing audio content |
KR102645659B1 (ko) | 2019-01-04 | 2024-03-11 | 삼성전자주식회사 | 뉴럴 네트워크 모델에 기반하여 무선 통신을 수행하는 장치 및 방법 |
CN110556122B (zh) | 2019-09-18 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN112565977B (zh) * | 2020-11-27 | 2023-03-07 | 大象声科(深圳)科技有限公司 | 高频信号重建模型的训练方法和高频信号重建方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2779886B2 (ja) * | 1992-10-05 | 1998-07-23 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
DE69619284T3 (de) * | 1995-03-13 | 2006-04-27 | Matsushita Electric Industrial Co., Ltd., Kadoma | Vorrichtung zur Erweiterung der Sprachbandbreite |
DE10041512B4 (de) * | 2000-08-24 | 2005-05-04 | Infineon Technologies Ag | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
US6988066B2 (en) * | 2001-10-04 | 2006-01-17 | At&T Corp. | Method of bandwidth extension for narrow-band speech |
US20050267739A1 (en) * | 2004-05-25 | 2005-12-01 | Nokia Corporation | Neuroevolution based artificial bandwidth expansion of telephone band speech |
-
2005
- 2005-05-17 US US11/130,735 patent/US7698143B2/en not_active Expired - Fee Related
-
2006
- 2006-05-16 JP JP2006136465A patent/JP2006323388A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016522421A (ja) * | 2013-10-22 | 2016-07-28 | 三菱電機株式会社 | 入力雑音混入信号を強調する方法およびシステム |
Also Published As
Publication number | Publication date |
---|---|
US7698143B2 (en) | 2010-04-13 |
US20060265210A1 (en) | 2006-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006323388A (ja) | 低帯域音響信号から広帯域音響信号を構築する方法 | |
Li et al. | A deep neural network approach to speech bandwidth expansion | |
JP5124014B2 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
US8041577B2 (en) | Method for expanding audio signal bandwidth | |
US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
Yağlı et al. | Artificial bandwidth extension of spectral envelope along a Viterbi path | |
JPH09101798A (ja) | 音声帯域拡大方法および音声帯域拡大装置 | |
Bansal et al. | Bandwidth expansion of narrowband speech using non-negative matrix factorization. | |
EP3040989B1 (fr) | Procédé de séparation amélioré et produit programme d'ordinateur | |
Litvin et al. | Single-channel source separation of audio signals using bark scale wavelet packet decomposition | |
US20070055519A1 (en) | Robust bandwith extension of narrowband signals | |
KR20130057668A (ko) | 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법 | |
Sadasivan et al. | Joint dictionary training for bandwidth extension of speech signals | |
HUE033434T2 (en) | Process, equipment, device, computer-readable medium for expanding the bandwidth of an audio signal with scaled upper pitch excitation | |
Islam et al. | Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask | |
Kinjo et al. | On HMM speech recognition based on complex speech analysis | |
JP2010055002A (ja) | 信号帯域拡張装置 | |
JP4348393B2 (ja) | 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体 | |
Seltzer et al. | Robust bandwidth extension of noise-corrupted narrowband speech. | |
JP2004513399A (ja) | 知覚品質を高める電話スピーチの広帯域拡張 | |
JP2009223210A (ja) | 信号帯域拡張装置および信号帯域拡張方法 | |
Tufekci et al. | Applied mel-frequency discrete wavelet coefficients and parallel model compensation for noise-robust speech recognition | |
US8675881B2 (en) | Estimation of synthetic audio prototypes | |
Nower et al. | Restoration scheme of instantaneous amplitude and phase using Kalman filter with efficient linear prediction for speech enhancement | |
KR101498113B1 (ko) | 사운드 신호의 대역폭 확장 장치 및 방법 |