JP4892021B2 - 信号帯域拡張装置 - Google Patents
信号帯域拡張装置 Download PDFInfo
- Publication number
- JP4892021B2 JP4892021B2 JP2009044521A JP2009044521A JP4892021B2 JP 4892021 B2 JP4892021 B2 JP 4892021B2 JP 2009044521 A JP2009044521 A JP 2009044521A JP 2009044521 A JP2009044521 A JP 2009044521A JP 4892021 B2 JP4892021 B2 JP 4892021B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- band
- unit
- frequency
- priority
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/662—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using a time/frequency relationship, e.g. time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Description
この発明は上記の問題を解決すべくなされたもので、システム負荷の影響によって本来必要な帯域拡張処理の全てを実行できない場合でも、ユーザーが高音質を体感することが可能な信号帯域拡張装置を提供することを目的とする。
前記周波数バランス補正手段は、前記制御手段によって実行された処理により信号のスペクトル重心が拡張された帯域側に所定の閾値以上移動した場合、拡張された帯域のパワーを抑制するよう制御する。また前記周波数バランス補正手段は、前記制御手段によって実行された処理により信号のスペクトル重心が拡張された帯域側に所定の閾値以上移動した場合、既存帯域のパワーを増幅するよう制御する。
図1(a)は、本発明の一実施形態である通信装置の構成を示すものである。この図に示す通信装置は、例えば携帯電話などの無線通信装置の受信系を示すものであって、無線通信部1と、デコーダ2と、帯域拡張処理部3と、ディジタル・アナログ(D/A)変換器4と、スピーカ5とを備えている。
デコーダ2は、無線通信部1が通信相手局から受信した受信データを、事前に決められた単位(1フレーム=Nサンプル)ごとに復号して、ディジタルの入力信号x[n] (n=0,1,…N-1)を得る。そして、デコーダ2は、ディジタルの入力信号x[n]をフレームごとに帯域拡
張部3に出力する。なお、入力信号x[n]の1フレームのサンプル数(N)は、例えば160サンプルとする。また、入力信号x[n]のサンプリング周波数はfs[Hz]であるとする。ただし、この入力信号x[n]は、fs_nb_low[Hz]からfs_nb_high[Hz]までに帯域制限された狭帯域
の信号である。
のとき、出力信号y[n]のサンプリング周波数は、デコーダ2でのサンプリング周波数fs[Hz]のままでも良いし、より高いサンプリング周波数fs’[Hz]に変更しても良い。ここでは、帯域拡張部3によって、サンプリング周波数fs’[Hz]の帯域拡張された出力信号y[n]が1フレーム単位で得られるとして説明する。なお、帯域拡張部3の具体的な構成例については後に詳述する。ただし、fs_wb_low ≦ fs_nb_low < fs_nb_high < fs/2 ≦ fs_wb_high < fs’/2 を満たすものとする。また以下の説明では、低域拡張と高域拡張を例に挙げるため、fs_wb_low < fs_nb_low、fs_nb_high < fs_wb_highとして説明する。これらのパラメータは、例えば、fs=8000[Hz]、fs’=16000[Hz]、fs_nb_low=340[Hz]、fs_nb_high=3950[Hz]、fs_wb_low=50[Hz]、fs_wb_high=7950[Hz]であるが、これに限らない。
ピーカ5に出力する。スピーカ5は、アナログ信号である出力信号y(t)を音響空間へ出力する。
変換するとfs_nb_low_bark= 3.294487107、fs_nb_high_bark= 17.18720761、fs_wb_low_bark= 0.493917983、fs_wb_high_bark= 21.24045106となる。つまり、低域拡張部分(50〜340[Hz])のバーク尺度幅bark_low=3.294487107-0.493917983=2.800569125、高域拡張部分(3950〜7950[Hz])のバーク尺度幅bark_high=21.24045106-17.18720761=4.053243445となり、バーク尺度幅としては、高域拡張部分>低域拡張部分となる。よって、モジュール優先度としては、既存帯域部分であり帯域拡張必須モジュールであるアップサンプリングを最も高い優先度とし、次に高い優先度が高域拡張処理、最も低い優先度が低域拡張処理とする。
ジュール優先度保持部34から出力されるモジュール優先度priorityと、アップサンプリング部331、高域拡張部333、低域拡張部334から出力される実行完了通知notifi_up[f]、notify_hi[f]が入力される。制御部32は、所定時間内に信号帯域拡張処理33の動作が完了するように、高域拡張部333と低域拡張部334を動作させるか動作させないかを制御する制御信号control[f]を出力する。
3)。そして、アップサンプリング部331での処理に要した時間time_start_up[f]=time_up[f]-time_start[f]と所定の閾値THR_Aとを比較する(S14)。
4のNo)、所定時間内に他の信号帯域拡張処理が完了しないと推測できる。そこで、制御部32は、制御信号control[f]を「0」と設定する。制御信号control[f]が「0」であるとき、信号帯域拡張処理部33は、切替器3331と切替器3333と切替器3341と切替器3343を開放し、高域拡張部333と低域拡張部334を動作させない。ここでTHR_Aは、音声フレームが20(ms)とすると例えば3(ms)として設定する。
33は、所定時間内にアップサンプリング以外に帯域拡張処理を行う余裕があると推測できる。そこで、制御部32は、制御信号control[f]を「2」と設定し、信号帯域拡張処理
部33へ通知する。制御信号control[f]に「2」が設定された場合とは、信号帯域拡張処
理部33に切替器3331と切替器3333を閉じて高域拡張部333を動作させるように制御することを意味する。つまり、制御部32は、モジュール優先度priorityによって示されたアップサンプリングの次に優先度の高い処理である高域拡張処理を実行するよう制御する(S15)。高域拡張部333は、処理が完了すると実行完了通知notify_hi[f]を制御部32に出力する。制御部32は、notify_hi[f]を受け取った時点で、再度システム時刻time[f](time_hi[f]と称する)を取得する。そして、アップサンプリングと高域
拡張に要した時間time_start_hi[f]=time_hi[f]−time_start[f]と所定の閾値THR_Bとを
比較する。この閾値THR_Bは、アップサンプリングと高域拡張が帯域拡張処理全体に占め
るシステム負荷の程度に応じて設定する。
合(S16のNo)、低域拡張部334による低域拡張処理を行うことができないと推測できる。そこで、制御部32は、制御信号control[f]を「1」と設定して、信号帯域拡張
処理部33へ通知する。制御信号control[f]に「1」が設定された場合とは、信号帯域拡
張処理部33に切替器3331と切替器3333を閉じて高域拡張333は動作した状態を維持し、切替器3341と切替器3343を開放して低域拡張部334を動作させないように制御することを意味する。ここでTHR_Bは、10(ms)として設定する。
(S16のYes)、低域拡張部334による低域拡張処理を行う時間があると推測できる。そこで、制御部32は、制御信号control[f]を「2」と設定して、信号帯域拡張処理
部33へ通知する。高域拡張部333が動作している状態でcontrol[f]=2の制御信号を受信した信号帯域拡張処理部33は、切替器3341と切替器3343を閉じて低域拡張部334を動作させるように制御する。
たは「2」の場合に、切替器3331が閉じられて、高域拡張部333が動作する。高域
拡張部333が動作する場合は、入力信号x[n]に高域拡張処理を施すことによって入力信号x[n]の周波数帯域よりも高い周波数帯域を拡張した高域の広帯域信号y_high[n]を生成
し、切替器3333を閉じることで高域の広帯域信号y_high[n]を出力する。一方で、高
域拡張部333は、制御信号control[f]=0の場合に切替器3331が開放されることで
動作せず、切替器3333が開放されることで高域の広帯域信号y_high[n]を出力しない
。
ング窓として窓関数を入力信号に乗じて、データ長2Nの窓掛けを行い、窓掛けを行った入力信号wx[n] (n=0,1,…2N-1)を出力する。なお、1フレーム前の入力信号は、窓掛け部333Aが備えるメモリを用いて保持する。ここでは、例として、次の時刻(フレーム)での入力信号x[n]のシフト幅(ここではNサンプル)と窓掛けを行った入力信号wx[n]のデータ長(ここでは2Nサンプル)の比であるオーバーラップは50%としている。ただし、窓掛
けに用いる窓関数は、ハミング窓に限定せず、他の対称窓(ハニング窓、ブラックマン窓、正弦波窓など)あるいは音声符号化処理で用いられるような非対称窓などに適宜変更してよい。またオーバーラップは、50%に限らない。
スペクトル包絡を表す狭帯域スペクトルパラメータとして、Dnb次の線形予測係数LPC[f,d](d=1,…,Dnb)を得る。ここでは例えば、Dnb=10とする。この実施形態では、狭帯域の
スペクトル包絡を表現する狭帯域スペクトルパラメータとして、線形予測係数を用いる場合を例にしているが、狭帯域スペクトルパラメータとして、線スペクトル対(LSP)や線ス
ペクトル周波数(LSF)、PARCOR係数、メルケプストラム係数などを用いてもよい。
クトル包絡を表すスペクトルパラメータから広帯域のスペクトル包絡を表すスペクトルパラメータに変換する手法としては、ベクトル量子化(VQ)による符号帳を用いる手法(例えば、吉田, 阿部, ”コードブックマッピングによる狭帯域音声から広帯域音声の生成法”, 信学論(D-II), vol.J78-D-II, No.3, pp.391-399, Mar. 1995.)や、GMMを用いる手法
(例えば、K. Y. Park, H. S. Kim, ”Narrowband to Wideband Conversion of Speech using GMM based Transformation”, Proc. ICASSP2000, vol.3, pp.1843-1846, Jun. 2000.)や、ベクトル量子化(VQ)による符号帳とHMMを用いる手法(例えば、G. Chen, V. Parsa, ”HMM-based Frequency Bandwidth Extension for Speech Enhancement using Line Spectral Frequencies”, Proc. ICASSP2004, vol.1, pp.709-712, 2004.)や、HMMを用
いる手法(例えば、S. Yao, C. F. Chan, ”Block-based Bandwidth Extension of Narrowband Speech Signal by using CDHMM”, Proc. ICASSP2005, vol.1, pp.793-796, 2005.)などがあり、どれを用いても構わない。ここでは、例えばGMM(Gaussian mixture model)を利用する手法を用いるとして、線形予測分析部333Bで得た狭帯域スペクトルパラ
メータである線形予測係数LPC[f,d]を、fs_wb_low[Hz]からfs_wb_high[Hz]までに対応す
る第2の広帯域スペクトルパラメータであるDwb次の広帯域の線スペクトル周波数LSF_WB[f,d](d=1,…,Dwb)に、事前に線形予測係数LPC[f,d]と線スペクトル周波数LSF_WB[f,d]
の対応をモデル化しておいたGMMを利用して変換する。ここでは例えばDwb=18とする。な
お、狭帯域スペクトルパラメータであるスペクトル包絡を表す特徴量データは、線形予測係数限らず、PARCOR係数や反射係数、線スペクトル周波数、ケプストラム係数、メルケプストラム係数などでも構わない。同様に、広帯域のスペクトルパラメータであるスペクトル包絡を表す特徴量データは、線スペクトル周波数に限らず、例えばLPC係数、PARCOR係
数や反射係数、ケプストラム係数、メルケプストラム係数などでも構わない。
測残差信号e[n]を出力する。
333Fに出力する。
ング周波数fs[Hz]からfs’[Hz]にアップサンプリングし、エイリアシングを除去し、データ長4Nの信号e_us[n]として出力する。
広帯域化処理部333Gは、アップサンプリング部333Fで得たアップサンプリングされたデータ長4Nの線形予測残差信号e_us[n]に非線形処理を施して、有声音では基本周
波数の倍音ごとに周波数領域でピークを持つ構造(調波構造)となる広帯域信号に変換する。これによって、広帯域化されたデータ長4Nの線形予測残差信号e_wb[n]が得られる。
マイナスにした負の平均零交差数Zi[f]を算出する。次に、式(1)に示すように、フレ
ーム単位での入力信号x[n]の2乗和をdB単位で計算し、これをフレームパワーCi[f]とす
る。
また、式(2)に示すように、フレーム単位での1次自己相関係数In[f]を計算する。
そして、狭帯域スペクトルパラメータであるDn次の線形予測係数LPC[f,d]に零詰めしてデータ長を2のべき乗であるNの信号を生成し、次数をNとしたFFTを行う。例えば、N=256とする。以下の説明では、wは周波数ビンの番号を表し、1≦w≦Nとする。FFTの結果
、周波数スペクトルL[f,ω]を得て、周波数スペクトルL[f,ω]の2乗であるパワースペクトル|L[f,ω]|2に対して10を底とする対数を取り−10倍することでLPCによるスペク
トル包絡をdB単位で算出し、基本周波数が存在すると想定される帯域におけるLPCによる
スペクトル包絡の平均値Vi[f]を式(3)に示すように算出する。なお、例えば基本周波
数が存在すると想定される帯域を75[Hz]≦fs・ω/256[Hz]≦325[Hz]とし、つまりVi[f]として2≦ω≦11の平均を求める。
そして有声/無声推定部333Hは、負の平均零交差数Zi[f]、1次自己相関係数In[f]、LPCスペクトル包絡の平均値Vi[f]に対してそれぞれ適宜重みを付けた線形和にフレームパワーCi[f]を乗じた値をフレーム毎に監視し、所定の閾値を超えた場合に「有声音」で
あると推定し、所定の閾値を超えない場合に「無声音」と推定し、その推定情報vuv[f]を出力する。
のレベルまで増幅し、e2_wb[n]として信号加算処理部333Lに出力する。具体的には、まずデータ長4Nの信号e_us[n]の2乗和を求め、データ長4Nの信号e_wb[n]の2乗和を求め、信号e_us[n]の2乗和を信号e_wb[n]の2乗和で割って増幅ゲインg1[f]を求める。次に
、有声音である程レベルを増幅させるために、1次自己相関係数In[f]の絶対値が1に近づけば1に近づき、1次自己相関係数In[f]の絶対値が0に近づけば0に近づく増幅ゲインg2[f]を求める。そして、増幅ゲインg1[f]とg2[f]を信号e_wb[n]に乗じることでパワー制御を行う。
して信号加算処理部333Lに出力する。具体的には、まずデータ長4Nの信号e_us[n]の
2乗和を求め、データ長4Nの雑音信号wn[n]の2乗和を求め、信号e_us[n]の2乗和を雑音信号wn[n]の2乗和で割って増幅ゲインg3[f]を求める。次に、無声音である程レベルを増幅させるために、1次自己相関係数In[f]の絶対値が0に近づけば1に近づき、1次自己相
関係数In[f]の絶対値が1に近づけば0に近づく増幅ゲインg4[f]を求める。そして、増幅ゲインg3[f]とg4[f]を雑音信号wn[n]に乗じることでパワー制御を行う。
信号加算処理部333Lは、パワー制御部333Kから出力される雑音信号wn2[n]と、パワー制御部333Iから出力される信号e2_wb[n]とを加算して、データ長4Nの信号e3_wb[n]を広帯域音源信号として信号合成部333Mに出力する。
信号合成部333Mは、スペクトル包絡広帯域化処理部333Cで得た上記広帯域スペクトルパラメータである線スペクトル周波数LSF_WB[f,d](d=1,…,Dwb)に基づいて線ス
ペクトル対LSP_WB[f,d](d=1,…,Dwb)を生成して、信号加算処理部333Lで得た広帯
域音源信号であるデータ長4Nの線形予測残差信号e3_wb[n]にLSP合成フィルタ処理を行い、データ長4Nの広帯域信号y1_high[n]を算出する。
オーバーラップ50%であるため、データ長4Nの広帯域信号y1_high[n]の時間的に前半のデ
ータ(データ長2N)と、1フレーム前に信号合成部333Mが出力したデータ長4Nの広帯域信号y1_high[n]の時間的に後半のデータ(データ長2N)とを加算して、データ長2Nの広帯域信号y1[n]を算出する。
の広帯域信号y_high[n]として得られる。
作する場合は入力信号x[n]に低域拡張処理を施して、入力信号x[n]の周波数帯域よりも低い周波数帯域を拡張した低域の広帯域信号y_low[n]を生成し、切替器3343が閉じられることで低域の広帯域信号y_low[n]を出力する。一方で、低域拡張部334は、制御信号control[f]=0または1の場合に切替器3341が開放されることで動作せず、切替器3343が開放されることで低域の広帯域信号y_low[n]を出力しない。
掛けを行い、窓掛けを行った入力信号wx_low[n] (n=0,1,…2N-1)を出力する。勿論、wx_low[n]=wx[n] (n=0,1,…2N-1)として、窓掛け部333Aと処理を共通化させてもよい。
狭帯域スペクトルパラメータを同じにして、線形予測分析部333Bと処理を共通化させてもよい。
予測残差信号e_low[n]を得る。勿論、Dn=DnbとしLPC_low[f,d]=LPC[f,d]として、逆フ
ィルタ333Dと処理を共通化させてもよい。
であるため、データ長2Nの広帯域信号y1_low[n]の時間的に前半のデータ(データ長N)と、1フレーム前に信号合成部334Eが出力したデータ長2Nの広帯域信号y1_low[n]の時
間的に後半のデータ(データ長N)とを加算して、データ長Nの広帯域信号y2_low[n]を算
出する。
の広帯域信号y2_low[n]に対して、拡張したい周波数帯域のみを通過させるフィルタ処理
を施し、これにより通過した信号、すなわち拡張したい周波数帯域の信号をデータ長Nの
広帯域信号y3_low[n]として出力する。つまり、上記帯域通過フィルタ処理により、fs_wb_low[Hz]からfs_nb_low[Hz]までの周波数帯域を通過させて、この周波数帯域の信号が広
帯域信号y3_low[n]として得られる。
信号帯域拡張処理部33のアップサンプリング部331は、データ長Nの入力信号x[n]
を、サンプリング周波数fs[Hz]からfs’[Hz]にアップサンプリングし、エイリアシングを除去し、データ長2Nのx_us[n]として出力する。
することによって遅延させ、x_us[n-D1]として出力することで、高域拡張部333から出力される信号y_high[n]とタイミングを合わせて同期をとる。すなわち、所定の時間(D1
サンプル分)は、高域拡張部333での入力から出力が得られるまでの処理遅延の時間D_highから、アップサンプリング部331での入力から出力が得られるまでの処理遅延の時間D_usを引いた分に相当する(D1=D_high−D_us)。この値は、事前に求めておき、D1を常に固定値として用いる。
の広帯域信号y_low[n]が出力される場合のみ動作をする。
力されるデータ長2Nの入力信号x_us[n-D1]と、信号遅延処理部3331から出力されるデータ長2Nの広帯域信号y_low[n-D2]と、高域拡張部333から出力されるデータ長2Nの広
帯域信号y_high[n]とを、サンプリング周波数fs’[Hz]のままで加算して、データ長2Nの
広帯域信号y[n]を出力信号として得る。これにより、アップサンプリングされた入力信号x_us[n-D1]は、広帯域信号y_high[n]と広帯域信号y_low[n]の分だけ帯域拡張される。制
御信号control[f]=1のとき、信号加算部332は、信号遅延処理部3331から出力さ
れるデータ長2Nの入力信号x_us[n-D1]と、高域拡張部333から出力されるデータ長2Nの広帯域信号y_high[n]とを、サンプリング周波数fs’[Hz]で加算して、データ長2Nの広帯
域信号y[n]を出力信号として得る。これにより、アップサンプリングされた入力信号x[n-D1]は、広帯域信号y_high[n]の分だけ帯域拡張される。制御信号control[f]=0のときは
、信号加算部332は、信号遅延処理部3331から出力されるデータ長2Nの入力信号x_us[n-D1]をそのままデータ長2Nの広帯域信号y[n]として出力信号とする。すなわち、この場合はアップサンプリングされるだけで帯域拡張されない。
て異なるため、制御信号control[f]が0、1、2の場合に分けて説明する。
信号加算部332の出力信号は、入力信号がアップサンプリングされただけで帯域拡張されていない。そこで、FFT351、スペクトル重心算出部352、補正利得補正部353、IFFT部354では何も行わず、y[n]をそのまま出力信号y’[n]として出力とする。
信号加算部332から周波数バランス補正部35へ入力される信号y[n]は、アップサンプリングされた入力信号x[n-D1]に対して広帯域信号y_high[n]の分だけ帯域拡張を行った信号である(y_us_high[n]と称する)。
帯域拡張された信号y_us_high[n]がFFT部351に入力され、周波数変換される。なお、周波数変換処理は、ここでは1024点FFTによる時間/周波数変換を例に説明し、1024点FFTして得られるスペクトルの実部、虚部をそれぞれx_us_spec_r[i]、x_us_spec_i[i](i=0,1,…,511)とする。ただし、MDCTなど他の変換方法を使用しても良い。
ただし、P_x_us[i]=x_us_spec_r[i]2+x_us_spec_i[i]2_である。
ただし、P_y_us_high[i]=y_us_high_spec_r[i]2+y_us_high_spec_i[i]2_である。なお、y_us_high_spec_rは、広帯域化された出力信号_y_us_highのFFTスペクトル実部であり、y_us_high_spec_iは、広帯域化された出力信号_y_us_highのFFTスペクトル虚部である。
とから、y_us_high_centroidのスペクトル重心はx_us_centroidに比べて大きな値、つま
り高域側に変化している。これは、高域感が向上するというメリットがある一方で、大きすぎると低域感が相対的に低下するというデメリットがある。そこで、既定の閾値THR1として(y_us_high_centroid-x_us_centroid)> THR1である場合には、式(6)によって出力信号y_us_high[n]の周波数特性の補正を行う。
ここで、iの範囲が252以上としているのは、高域拡張された成分のみを補正することを意味している。またf1(x)は、スペクトル重心y_us_high_centroidとx_us_centroidの差分(重心差分)が大きいほど出力信号us_highの高域成分を抑圧することを目的として、重心
差分が0の場合には出力(利得となる)が1となるような単調減少関数とし、例えば、図9のような関数が考えられる。本関数の形状については、スペクトル重心の差分が大きいほど、利得が小さくなるという趣旨を逸脱しない範囲で設定して良い。また、式(6)による補正によって既存帯域と高域拡張された帯域の境界でスペクトル振幅値のスムージングを行うことで、境界における不連続感を抑制し良好な音質を実現することができる。
’[n]を出力する。
信号加算部332から周波数バランス補正部35へ入力される信号y[n]は、アップサンプリングされた入力信号x[n-D1]に対して、広帯域信号y_high[n]と広帯域信号y_low[n]の分だけ帯域拡張された信号である(y_us_high_low[n]と称する)。
対して周波数変換を行う。周波数変換の処理については、制御信号control[f]=1の場合と同じであるため、説明を省略する。
ただし、P_y_us_high_low[i]=y_us_high_low_spec_r[i]2+y_us_high_low_spec_i[i]2である。また、y_us_high_low_spec_rは、広帯域化された出力信号_y_us_high_lowのFFTス
ペクトル実部であり、y_us_high_low_spec_iは、広帯域化された出力信号_y_us_high_lowのFFTスペクトル虚部である。
お、(y_us_high_low_centroid-x_us_centroid)> THR2である場合には、スペクトル重心が高域側に大きく移動することで低域感が低下すると判断して、式(8)によって出力信号y_us_high[n]の周波数特性の高域成分の補正(抑圧)を行う。
ここで、iの範囲が252以上としているのは、高域拡張された成分のみを補正することを意味している。またf2(x)は、スペクトル重心y_us_high_low_centroidとx_us_centroidの差分(重心差分)が大きいほど出力信号us_high_lowの高域成分を抑圧することを目的と
して、重心差分が0の場合には出力(利得となる)が1となるような単調減少関数とし、例えば、図9のような関数が考えられる。本関数の形状については、スペクトル重心の差分が大きいほど、利得が小さくなるという趣旨を逸脱しない範囲で設定して良い。また、式(8)による補正によって既存帯域と高域拡張された帯域の境界でスペクトル振幅値のスムージングを行うことで、境界における不連続感を抑制し良好な音質を実現することができる。一方、(x_us_centroid- y_us_high_low_centroid)> THR3である場合には、スペクトル重心が低域側に大きく移動することで高域感が低下すると判断して、式(9)によって出力信号y_us_high[n]の周波数特性の低域成分の補正(抑圧)を行う。
ここで、iの範囲を0以上22未満としているのは、低域拡張された成分のみを補正することを意味している。またf3(x)は、スペクトル重心y_us_high_low_centroidとx_us_centroidの差分が大きいほど出力信号us_high_lowの低域成分を抑圧することを目的として、前
記重心差分が0の場合には出力(利得となる)が1となるような単調減少関数とし、例えば、図9のような関数が考えられる。本関数の形状については、スペクトル重心の差分が大きいほど、利得が小さくなるという趣旨を逸脱しない範囲で設定して良い。また、式(9)による補正によって既存帯域と低域拡張された帯域の境界でスペクトル振幅値のスムージングを行うことで、境界における不連続感を抑制し良好な音質を実現することができる。
’[n]を出力する。
幅bark_lowと、高域拡張部分(3950〜7950[Hz])のバーク尺度幅bark_highとを算出する。
るが、MDCTなど他の変換方法を使用しても良い。FFTされた周波数スペクトルを実部spec_r[i]、虚部spec_i[i](ただし、i = 0, 1, …, 1023)とすると、各周波数ビンのパワーspec_pow[i]は、spec_pow[i]=spec_r[i]*spec_r[i]+spec_i[i]*spec_i[i]として求められ
る。続いて、該周波数パワーをラウドネスに変換する。ここでは、周波数スペクトルパワーからラウドネスへの変換関数を便宜上L(x) (ただしxは周波数ビン毎のパワー)と記載する。これにより、周波数ビン毎のラウドネスloudness[i] =L(spec_pow[i])が算出され
る。続いて、信号帯域拡張によって拡張される帯域毎の平均ラウドネスを求める。低域拡張部分の平均ラウドネスは式(10)で表され、高域拡張部分の平均ラウドネスは式(11)で表される。
ここで、低域拡張部分でのΣ関数の加算区間インデックスi=2,…,20、高域拡張部分の
Σ関数の加算区間i=251,…,507は、それぞれ低域拡張部分(50〜340[Hz])、高域拡張部分(3950〜7950[Hz])の両端に対応している。このようにして求めた各拡張部分のラウドネス
を重みとして、前記バーク尺度幅bark_low、bark_highに乗算すると、bark_low’=w(ave_loudness_low)*bark_low、bark_high’=w(ave_loudness_high)*bark_high となる。ここ
でw()はラウドネス値を入力として重みを算出する単調増加の関数とする。以上のように
算出されたbark_low’とbark_high’のうち値が大きい方の帯域が聴覚的な重要度が高い
と判断して、優先度を高く設定する。以上により、システム負荷が大きい場合でも、聴覚的に重要な帯域を優先的に生成することができる高品質な音声帯域処理を行うことが可能となる。なお、ここでは低域拡張と高域拡張の2通りの拡張処理を例に説明したが、より細かく3つ以上の帯域に分割して拡張処理する場合にも同様の方法を取ることが可能である。
出したスペクトル重心をx_us_centroid、広帯域化された信号y[n]に対して算出したスペ
クトル重心をy_centroidとする。イコライザ特性設定部355は、x_un_centroidとy_centroidとの差(重心差分)を所定の閾値THR4、THR5と比較する。
Claims (3)
- 入力信号に対して帯域を拡張する信号帯域拡張装置であって、
時刻情報を取得する時刻取得手段と、
帯域拡張処理のうち、拡張する帯域に応じた処理の優先度情報を保持する優先度保持手段と、
前記優先度保持手段によって保持されている優先度情報を用いて、優先度の高い処理から順に実行し、処理が終了すると前記時刻取得手段を用いて処理にかかった時間を算出し、処理にかかった時間に応じて、次に優先度の高い処理を実行するかどうか制御する制御手段と、
前記制御手段によって実行された処理により拡張された信号のスペクトル重心と帯域拡張前の信号のスペクトル重心との差に応じて拡張された帯域と既存帯域とのパワーのバランスを制御する周波数バランス補正手段とを有し、
前記周波数バランス補正手段は、
前記制御手段によって実行された処理により信号のスペクトル重心が拡張された帯域側に所定の閾値以上移動した場合、拡張された帯域のパワーを抑制するよう制御することを特徴とする信号帯域拡張装置。 - 入力信号に対して帯域を拡張する信号帯域拡張装置であって、
時刻情報を取得する時刻取得手段と、
帯域拡張処理のうち、拡張する帯域に応じた処理の優先度情報を保持する優先度保持手段と、
前記優先度保持手段によって保持されている優先度情報を用いて、優先度の高い処理から順に実行し、処理が終了すると前記時刻取得手段を用いて処理にかかった時間を算出し、処理にかかった時間に応じて、次に優先度の高い処理を実行するかどうか制御する制御手段と、
前記制御手段によって実行された処理により拡張された信号のスペクトル重心と帯域拡張前の信号のスペクトル重心との差に応じて拡張された帯域と既存帯域とのパワーのバランスを制御する周波数バランス補正手段とを有し、
前記周波数バランス補正手段は、
前記制御手段によって実行された処理により信号のスペクトル重心が拡張された帯域側に所定の閾値以上移動した場合、既存帯域のパワーを増幅するよう制御することを特徴とする信号帯域拡張装置。 - 前記優先度保持手段が保持する優先度情報は、拡張する帯域毎の聴感上の重要度に基づいて設定された優先度情報であることを特徴とする請求項1または2いずれか記載の信号帯域拡張装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009044521A JP4892021B2 (ja) | 2009-02-26 | 2009-02-26 | 信号帯域拡張装置 |
US12/573,242 US8271292B2 (en) | 2009-02-26 | 2009-10-05 | Signal bandwidth expanding apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009044521A JP4892021B2 (ja) | 2009-02-26 | 2009-02-26 | 信号帯域拡張装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010197862A JP2010197862A (ja) | 2010-09-09 |
JP4892021B2 true JP4892021B2 (ja) | 2012-03-07 |
Family
ID=42631748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009044521A Expired - Fee Related JP4892021B2 (ja) | 2009-02-26 | 2009-02-26 | 信号帯域拡張装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8271292B2 (ja) |
JP (1) | JP4892021B2 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010070770A1 (ja) * | 2008-12-19 | 2010-06-24 | 富士通株式会社 | 音声帯域拡張装置及び音声帯域拡張方法 |
DE112010000035B4 (de) * | 2009-08-03 | 2015-04-30 | Honda Motor Co., Ltd. | Roboter und Regelungs- /Steuerungssystem |
EP2363852B1 (en) * | 2010-03-04 | 2012-05-16 | Deutsche Telekom AG | Computer-based method and system of assessing intelligibility of speech represented by a speech signal |
US8700391B1 (en) * | 2010-04-01 | 2014-04-15 | Audience, Inc. | Low complexity bandwidth expansion of speech |
US8538035B2 (en) | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
US8781137B1 (en) | 2010-04-27 | 2014-07-15 | Audience, Inc. | Wind noise detection and suppression |
US9245538B1 (en) * | 2010-05-20 | 2016-01-26 | Audience, Inc. | Bandwidth enhancement of speech signals assisted by noise reduction |
US8447596B2 (en) | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
KR101826331B1 (ko) | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
EP3023985B1 (en) | 2010-12-29 | 2017-07-05 | Samsung Electronics Co., Ltd | Methods for audio signal encoding and decoding |
US20130029681A1 (en) * | 2011-03-31 | 2013-01-31 | Qualcomm Incorporated | Devices, methods, and apparatuses for inferring a position of a mobile device |
US9489962B2 (en) * | 2012-05-11 | 2016-11-08 | Panasonic Corporation | Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method |
CN105229738B (zh) * | 2013-01-29 | 2019-07-26 | 弗劳恩霍夫应用研究促进协会 | 用于使用能量限制操作产生频率增强信号的装置及方法 |
US9564141B2 (en) * | 2014-02-13 | 2017-02-07 | Qualcomm Incorporated | Harmonic bandwidth extension of audio signals |
JPWO2021200260A1 (ja) * | 2020-04-01 | 2021-10-07 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3410244B2 (ja) * | 1995-04-17 | 2003-05-26 | 富士通テン株式会社 | 車載用音響システム |
JP3466507B2 (ja) * | 1998-06-15 | 2003-11-10 | 松下電器産業株式会社 | 音声符号化方式、音声符号化装置、及びデータ記録媒体 |
JP2001249692A (ja) * | 2000-03-03 | 2001-09-14 | Hitachi Ltd | 伸長装置 |
JP2002290628A (ja) * | 2001-03-23 | 2002-10-04 | Sumitomo Denko Hightecs Kk | マルチコーデックデータ伝送システム |
JP2007534995A (ja) * | 2004-04-29 | 2007-11-29 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声信号を分類する方法及びシステム |
JP2006259349A (ja) | 2005-03-17 | 2006-09-28 | Matsushita Electric Ind Co Ltd | 負荷適応オーバーサンプリング制御装置 |
JP4629495B2 (ja) * | 2005-05-19 | 2011-02-09 | 大日本印刷株式会社 | 音響信号に対する情報の埋め込み装置および方法 |
US8423356B2 (en) | 2005-10-17 | 2013-04-16 | Koninklijke Philips Electronics N.V. | Method of deriving a set of features for an audio input signal |
JP2008033211A (ja) * | 2006-06-26 | 2008-02-14 | Sony Corp | 付加信号生成装置、信号変換された信号の復元装置、付加信号生成方法、信号変換された信号の復元方法および付加信号生成プログラム |
-
2009
- 2009-02-26 JP JP2009044521A patent/JP4892021B2/ja not_active Expired - Fee Related
- 2009-10-05 US US12/573,242 patent/US8271292B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010197862A (ja) | 2010-09-09 |
US8271292B2 (en) | 2012-09-18 |
US20100217606A1 (en) | 2010-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4892021B2 (ja) | 信号帯域拡張装置 | |
JP4945586B2 (ja) | 信号帯域拡張装置 | |
RU2552184C2 (ru) | Устройство для расширения полосы частот | |
RU2402826C2 (ru) | Способы и устройство кодирования и декодирования части речевого сигнала диапазона высоких частот | |
JP6147744B2 (ja) | 適応音声了解度処理システムおよび方法 | |
KR101266894B1 (ko) | 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법 | |
JP4818335B2 (ja) | 信号帯域拡張装置 | |
JP5127754B2 (ja) | 信号処理装置 | |
RU2683632C2 (ru) | Генерация высокополосного сигнала возбуждения | |
RU2651218C2 (ru) | Гармоническое расширение полосы аудиосигналов | |
Kim et al. | Nonlinear enhancement of onset for robust speech recognition. | |
EP2394269A1 (en) | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder | |
JP5148414B2 (ja) | 信号帯域拡張装置 | |
JP2016537662A (ja) | 帯域幅拡張方法および装置 | |
TW201214419A (en) | Systems, methods, apparatus, and computer program products for wideband speech coding | |
JPH10124088A (ja) | 音声帯域幅拡張装置及び方法 | |
US20080312916A1 (en) | Receiver Intelligibility Enhancement System | |
RU2679346C2 (ru) | Способ, аппарат, устройство, компьютерно-читаемый носитель для расширения полосы частот аудиосигнала с использованием масштабируемого возбуждения верхней полосы | |
RU2625945C2 (ru) | Устройство и способ для генерирования сигнала с улучшенным спектром, используя операцию ограничения энергии | |
Kornagel | Techniques for artificial bandwidth extension of telephone speech | |
WO2018003849A1 (ja) | 音声合成装置および音声合成方法 | |
EP2943954B1 (en) | Improving speech intelligibility in background noise by speech-intelligibility-dependent amplification | |
JP2009223210A (ja) | 信号帯域拡張装置および信号帯域拡張方法 | |
WO2013054484A1 (ja) | オーディオ信号出力装置およびオーディオ信号出力方法 | |
JP6559576B2 (ja) | 雑音抑圧装置、雑音抑圧方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110413 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20110413 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110413 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20110512 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110928 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111122 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111216 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141222 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |