JP2009223210A - 信号帯域拡張装置および信号帯域拡張方法 - Google Patents
信号帯域拡張装置および信号帯域拡張方法 Download PDFInfo
- Publication number
- JP2009223210A JP2009223210A JP2008070045A JP2008070045A JP2009223210A JP 2009223210 A JP2009223210 A JP 2009223210A JP 2008070045 A JP2008070045 A JP 2008070045A JP 2008070045 A JP2008070045 A JP 2008070045A JP 2009223210 A JP2009223210 A JP 2009223210A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- distortion
- processing unit
- band
- wideband
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【課題】少ない計算量で、音質よく帯域拡張された信号を生成することが可能な信号帯域拡張装置および信号帯域拡張方法を提供する。
【解決手段】帯域拡張処理部3にて帯域拡張処理を行うにあたり、歪み制御処理部40を設けて、これにより広帯域化処理に並列して、ピークを除去する処理を実施して基本周波数とその倍音の影響を除去して歪み成分を生成し、この歪み成分を用いて、広帯域化処理によって生じた調波構造の歪みを低減するようにしたものである。
【選択図】 図2
【解決手段】帯域拡張処理部3にて帯域拡張処理を行うにあたり、歪み制御処理部40を設けて、これにより広帯域化処理に並列して、ピークを除去する処理を実施して基本周波数とその倍音の影響を除去して歪み成分を生成し、この歪み成分を用いて、広帯域化処理によって生じた調波構造の歪みを低減するようにしたものである。
【選択図】 図2
Description
この発明は、帯域制限された音声や音楽・オーディオなどの信号を広帯域信号に変換する信号帯域拡張装置に関する。
周知のように、音声や音楽・オーディオなどの信号(入力信号)を広帯域に帯域拡張する場合、人工的ではない自然な音に聞こえるようにするためには、帯域拡張された信号(出力信号)が基本周波数とその倍音ごとに周波数領域でピークを持ち、基本周波数の周波数間隔で幾つもの成分が存在する構造(調波構造)を保つ必要がある。従来は、基本周波数を抽出して調波構造を生成する第1の手法(例えば、特許文献1)と、基本周波数を抽出せずに非線形処理などによって調波構造を生成する第2の手法(例えば、非特許文献1)に大別される。
上記第1の手法は、入力信号を線形予測分析し、基本周波数を抽出する。そして、線形予測残差信号を基本周波数の整数倍だけ周波数シフトして、線形予測合成フィルタで合成し、これにより帯域拡張信号を得る。しかしながら、このような手法では、基本周波数の抽出に、大きな計算量が必要である。また、確実な基本周波数の抽出法が存在しないため、不安定な基本周波数の抽出精度が全体音質に大きく影響するという問題がある。
一方、上記非特許文献1に係わる第2の手法は、入力信号を線形予測分析し、線形予測残差信号に半波整流による非線形処理を施し低域拡張する。さらに、線形予測合成フィルタによる合成で、低域拡張信号を得る。この第2の手法では、計算量が小さくて済むものの、非線形処理などによって調波構造の谷が浅くなり、歪みや異音が生成され音質が悪くなるという問題があった。
特開平9−55778号公報
日本音響学会講演論文集(平成6年10月) 「電話帯域音声の擬似広帯域化の検討」、1−P−6、349−350ページ(富士通研究所)。
従来の信号帯域拡張装置では、計算量が大きかったり、あるいは歪みや異音が生成されたりして音質が悪くなるという問題があった。
この発明は上記の問題を解決すべくなされたもので、少ない計算量で、音質よく帯域拡張された信号を生成することが可能な信号帯域拡張装置および信号帯域拡張方法を提供することを目的とする。
この発明は上記の問題を解決すべくなされたもので、少ない計算量で、音質よく帯域拡張された信号を生成することが可能な信号帯域拡張装置および信号帯域拡張方法を提供することを目的とする。
上記の目的を達成するために、この発明は、帯域制限された入力信号の周波数帯域を拡げて広帯域信号に変換する広帯域化手段と、入力信号から歪み成分を生成する歪み成分生成手段と、この歪み成分生成手段が生成した歪み成分に基づいて、広帯域化手段が広帯域化した広帯域信号の歪みを低減する歪み低減手段とを具備して構成するようにした。
以上述べたように、この発明では、帯域制限された信号の周波数帯域を拡げるとともに、この拡げられた周波数帯域に対応する歪み成分を生成し、この歪み成分に基づいて、広帯域化した信号の調波構造の歪みを低減するようにしている。
したがって、この発明によれば、少ない計算量で、音質よく帯域拡張された信号を生成することが可能な信号帯域拡張装置および信号帯域拡張方法を提供できる。
したがって、この発明によれば、少ない計算量で、音質よく帯域拡張された信号を生成することが可能な信号帯域拡張装置および信号帯域拡張方法を提供できる。
以下、図面を参照して、この発明の一実施形態について説明する。
図1は、この発明の一実施形態に係わる信号帯域拡張装置が適用された通信装置の構成を示すものである。この図に示す通信装置は、例えば携帯電話などの無線通信装置の受信系を示すものであって、無線通信部1と、デコーダ2と、帯域拡張処理部3と、D/A変換器4とを備えている。
図1は、この発明の一実施形態に係わる信号帯域拡張装置が適用された通信装置の構成を示すものである。この図に示す通信装置は、例えば携帯電話などの無線通信装置の受信系を示すものであって、無線通信部1と、デコーダ2と、帯域拡張処理部3と、D/A変換器4とを備えている。
無線通信部1は、移動通信網に収容される無線基地局と無線通信し、そしてこの無線基地局および移動通信網を通じて通信相手局との間に通信リンクを確立して通信する。
デコーダ2は、無線通信部1が通信相手局から受信した受信データを、事前に決められた単位(1フレーム=Nサンプル)ごとに復号して、ディジタルの受話信号x[n] (n=0,1,…N-1)を得る。ただし、この受信データのサンプリング周波数はfs[Hz]とする。このようにして得られたディジタル信号は、フレーム単位で帯域拡張処理部3に出力される。
デコーダ2は、無線通信部1が通信相手局から受信した受信データを、事前に決められた単位(1フレーム=Nサンプル)ごとに復号して、ディジタルの受話信号x[n] (n=0,1,…N-1)を得る。ただし、この受信データのサンプリング周波数はfs[Hz]とする。このようにして得られたディジタル信号は、フレーム単位で帯域拡張処理部3に出力される。
帯域拡張処理部3は、1フレーム単位で上記受話信号(x[0]〜x[N-1])に帯域拡張処理を施す。このとき、サンプリング周波数は変更しない。すなわち、帯域拡張処理部3によって、サンプリング周波数fs[Hz]の帯域拡張された受話信号y[n]が1フレーム単位で得られる。なお、帯域拡張処理部3の具体的な構成例については後に詳述する。
D/A変換器4は、上記帯域拡張された受話信号y[n]をアナログ信号y(t)に変換して、スピーカ5に出力する。スピーカ5は、上記アナログ信号に基づく音声信号を音響空間へ拡声出力する。
次に、帯域拡張処理部3の第1の実施形態について説明する。
帯域拡張処理部3は、ある周波数帯域に帯域制限された音声や音楽・オーディオなどの信号(入力信号)を、この信号が持つ周波数帯域を包含する広い周波数帯域の信号に変換することで、高音質な信号を合成するものである。このために、帯域拡張処理部3は、上記入力信号として受話信号x[n]が入力され(入力信号)、この信号にフレーム毎に帯域拡張処理を施して、帯域拡張された広帯域の受話信号y[n]を出力信号として得る。
帯域拡張処理部3は、ある周波数帯域に帯域制限された音声や音楽・オーディオなどの信号(入力信号)を、この信号が持つ周波数帯域を包含する広い周波数帯域の信号に変換することで、高音質な信号を合成するものである。このために、帯域拡張処理部3は、上記入力信号として受話信号x[n]が入力され(入力信号)、この信号にフレーム毎に帯域拡張処理を施して、帯域拡張された広帯域の受話信号y[n]を出力信号として得る。
以下の説明では、入力信号は、fs_nb_low[Hz]からfs_nb_high[Hz]までに帯域制限されているものとし、帯域拡張処理部3の帯域拡張処理によりfs_wb_low[Hz]からfs_wb_high[Hz]までの帯域に拡張されるとする。ただし、fs_wb_low≦fs_nb_low<fs_nb_high≦fs_wb_high<fs/2 を満たすものとする。
また以下の説明では、低域拡張を例に挙げるため、fs_wb_low<fs_nb_low、fs_nb_high=fs_wb_highとして説明し、例えば、fs=8000[Hz]、fs_nb_low=340[Hz]、fs_nb_high=3950[Hz]、fs_wb_low=50[Hz]、fs_wb_high=3950[Hz]とする。帯域制限の周波数帯域やサンプリング周波数については、これに限らない。また、フレーム長をN=160とする。
図2は、この発明に係わる帯域拡張処理部3の第1の実施形態の構成を示すものである。この図に示すように、第1の実施形態の帯域拡張処理部3は、分析処理部10と、広帯域化処理部20と、合成処理部30と、歪み制御処理部40と、帯域通過フィルタ50と、信号遅延処理部70と、信号加算処理部80とを備える。
分析処理部10は、線形予測分析部101と、逆フィルタ102とを備える。
線形予測分析部101は、狭帯域に帯域制限された入力信号x[n]が入力され、これを線形予測分析して、M次の線形予測係数LPC[m] (m=0,1…M-1)を得る。具体的には、線形予測分析の対象となる現在のフレームの入力信号x[n]と、このフレームの直前の過去の1フレームの入力信号の合計2フレームを用いる。このデータ長2Nの入力信号x[n] (n=0,1,…2N-1)に対して、窓関数をハミング窓としてデータ長2Nの窓掛けを行い、その信号に対してM次の線形予測分析を行う。
線形予測分析部101は、狭帯域に帯域制限された入力信号x[n]が入力され、これを線形予測分析して、M次の線形予測係数LPC[m] (m=0,1…M-1)を得る。具体的には、線形予測分析の対象となる現在のフレームの入力信号x[n]と、このフレームの直前の過去の1フレームの入力信号の合計2フレームを用いる。このデータ長2Nの入力信号x[n] (n=0,1,…2N-1)に対して、窓関数をハミング窓としてデータ長2Nの窓掛けを行い、その信号に対してM次の線形予測分析を行う。
ここでは、例として、次の時刻(フレーム)での入力信号x[n]のシフト幅(Nサンプル)と窓掛けを行った入力信号x[n]のデータ長(2Nサンプル)の比であるオーバーラップは50%としている。ただし、窓掛けに用いる窓関数は、ハミング窓に限定せず、他の対称窓(ハニング窓、ブラックマン窓、sin窓など)あるいは音声符号化処理で用いられるような非対称窓などに適宜変更してよい。またオーバーラップは、50%に限らない。この実施形態では、スペクトル包絡を線形予測係数で表現する場合を例にしているが、線スペクトル対(LSP)や線スペクトル周波数(LSF)、PARCOR係数、メルケプストラム係数などで表現してもよい。
逆フィルタ102は、線形予測分析部101で得た線形予測係数LPC[m]を用いて逆フィルタを形成し、その逆フィルタに線形予測分析部101で窓掛けしたデータ長2Nの入力信号x[n]を入力して、データ長2Nの線形予測残差信号e[n]を得る。
広帯域化処理部20は、残差広帯域化処理部203を備える。残差広帯域化処理部203は、逆フィルタ102で得たデータ長2Nの線形予測残差信号e[n]に、基本周波数の倍音ごとに周波数領域でピークを持つ構造(調波構造)にする非線形処理を施し、これによって、広帯域化されたデータ長2Nの線形予測残差信号e_wb[n]を得る。調波構造にする非線形処理の一例としては、図3に示すような非線形関数による非線形処理(半波整流)がある。また、調波構造にする非線形処理としては全波整流を用いることもでき、これらの処理に限らない。
例えば、図4(a)に、線形予測残差信号e[n]の時間領域での波形の例を示す。この波形に対して図3に示す非線形関数による非線形処理(半波整流)を施して広帯域化された線形予測残差信号e_wb[n]は図4(b)に示す波形になる。この線形予測残差信号e[n]の周波数領域でのパワースペクトルを図5(b)に示す。これに対して、広帯域化された線形予測残差信号e_wb[n]の周波数領域でのパワースペクトルは図5(c)のようになる。一方、この場合の理想的な広帯域信号に対して、仮に線形予測分析した場合の線形予測残差信号の周波数領域でのパワースペクトルを図5(a)に示す。
合成処理部30は、第1の線形予測合成部301を備える。第1の線形予測合成部301は、上記線形予測係数LPC[m]を用いて線形予測合成フィルタを形成し、その線形予測合成フィルタに広帯域化されたデータ長2Nの線形予測残差信号e_wb[n]を入力して、データ長2Nの第1の広帯域信号y1[n]を合成する。
歪み制御処理部40は、歪み成分生成処理部401と、歪み低減処理部402とを備える。また歪み成分生成処理部401は、ピーク除去処理部401Aと、第2の線形予測合成部401Bとを備える。一連の広帯域化処理によって生成された信号である合成処理部30によって生成された第1の広帯域信号y1[n]における広帯域化処理部20の残差広帯域化処理部203における非線形処理によって生成された調波構造は、周波数領域でのパワーの極大点(調波構造の山)のパワーが理想的な広帯域信号と比較すると小さくなっていたり、周波数領域でのパワーの極小点(調波構造の谷)のパワーが理想的な広帯域信号と比較すると大きくなっていたり、周波数領域でのパワーの極大点とその近傍にあるパワーの極小点のパワー差が理想的な広帯域信号と比較すると小さくなっていたりする。また、このようなことが、複数の周波数領域でのパワーの極大点及び極小点で起きる。一連の広帯域化処理によって生成された信号である合成処理部30によって生成された第1の広帯域信号y1[n]と理想的な広帯域信号との差異や違いを、歪みあるいは歪み成分と呼ぶ。歪み制御処理部40は、この歪みを低減し、最終的な帯域拡張された信号が人工的ではない自然な音に聞こえるように制御する。
ピーク除去処理部401Aは、上記データ長2Nの線形予測残差信号e[n]に対して、広帯域化するとともに時間領域の振幅の絶対値が大きいサンプルの振幅を低減することでピーク除去し、データ長2Nのピーク除去された線形予測残差信号p[n]を出力する。
上記線形予測残差信号e[n]には、例えば図4(a)に示すように、時間領域の振幅の絶対値が大きいサンプル(パルス)が含まれている。このパルスの一番長い時間間隔がピッチ周期であり、このピッチ周期は、基本周波数の逆数になっている。パルスの短い時間間隔は、倍音に相当する。つまり、上記振幅の絶対値が大きいサンプルは、例えば図5(b)に示すように、周波数領域では基本周波数とその倍音に相当し、周波数領域での単一の山あるいは調波構造の複数の山を構成する。ピーク除去処理部401Aでは、上記線形予測残差信号e[n]の時間領域の振幅の絶対値が大きいサンプルの振幅を低減させることによって、調波構造の山のレベルを谷のレベルまで下げ、調波構造の山と谷のレベル差を圧縮するように処理を行う。理想的な広帯域信号の線形予測残差信号では調波構造の谷におけるパワーは小さいはずであり、ここでは、理想的な広帯域信号の線形予測残差信号と広帯域化処理部20によって生成された線形予測残差信号e_wb[n]との差異は、例えば図5(a)と図5(c)に示すように、広帯域化処理部20によって生成された線形予測残差信号e_wb[n]のそれぞれの周波数での調波構造の谷のパワー分であると考え、この調波構造の山のレベルが谷のレベルまで下げられた信号を用いて、後述する第2の線形予測合成部401Bにおいて歪み成分を算出する。
具体的には、ピーク除去処理部401Aは、例えば図6(a)や図6(b)に示す非線形関数を用いた非線形処理を施し、広帯域化するとともに時間領域の振幅の絶対値が大きいサンプルの振幅を低減することでピーク除去する。なお、図6中のAは、閾値を示す。図6(a)に示す非線形関数を用いた非線形処理では、時間領域での振幅が0以下である成分を出力する半波整流によって広帯域化し、なおかつ振幅が−Aより小さい成分は振幅を0に低減することでピーク除去を行う。図6(b)に示す非線形関数を用いた非線形処理では、時間領域での振幅が0以上である成分を出力する半波整流によって広帯域化し、なおかつ振幅がAより大きい成分は振幅を0に低減することでピーク除去を行う。図4(a)に示した線形予測残差信号e[n]の時間領域での波形の例に対して図6(b)に示す非線形関数による非線形処理を施して広帯域化され、ピーク除去された線形予測残差信号p[n]は図4(c)に示す波形になる。なお、図4にも図6(b)に示した非線形関数の閾値Aを示している。この線形予測残差信号p[n]の周波数領域でのパワースペクトルの例を図5(d)に示す。また、後述する歪み低減処理部402において出力される歪みが低減された広帯域信号y2[n]に対して、仮に線形予測分析した場合の線形予測残差信号の周波数領域でのパワースペクトルを図5(e)に示す。
なお、ピーク除去処理部401Aで行われるピーク除去処理に用いる非線形関数(図6参照)は、線形予測残差信号e[n]の振幅、パワーあるいは振幅の絶対値などの最大値などを検出し、これに応じてフレーム毎に動的に変化させてもよい。例えば、フレーム毎に線形予測残差信号e[n]の時間領域での振幅の絶対値の平均値を算出し、振幅の絶対値の平均値に事前に設定された一定値を加算した値を閾値Aに設定したり、時間領域での振幅の絶対値の平均値と標準偏差σあるいは分散値(σの2乗)を算出し、平均値から2倍のσだけ大きい値を閾値Aに設定したりしてフレーム毎に変化させてもよい。また、フレーム毎に線形予測残差信号e[n]のパワーの最大値を算出し、事前に設定された一定値をパワーの最大値から減算した値の平方根を閾値Aと設定してもよい。
また、上記ピーク除去処理は、時間領域の振幅の絶対値が大きいサンプルの振幅を低減させる処理であればよく、非線形フィルタであるメディアンフィルタや、下式(1)のように時間方向に平滑化して更新する平滑化フィルタや、線形フィルタである低域通過フィルタを適用してもよい。ただし、低域通過フィルタは、基本周波数を除去するような通過帯域に設定することが望ましい。このときの基本周波数は、人間の声における基本周波数の範囲(凡そ56[Hz]から500[Hz]まで)に従って、事前に設定されていて構わない。
第2の線形予測合成部401Bは、上記線形予測係数LPC[m]を用いて線形予測合成フィルタを形成し、その線形予測合成フィルタに上記データ長2Nのピーク除去された線形予測残差信号p[n]を入力して、データ長2Nの広帯域の歪み信号d[n]を合成する。すなわち、理想的な広帯域信号と合成処理部30によって生成された第1の広帯域信号y1[n]との差異である歪み成分は、広帯域化処理部20によって生成された線形予測残差信号e_wb[n]のそれぞれの周波数領域での調波構造の谷のパワー分に起因していると考え、この調波構造の山のレベルが谷のレベルまで下げられた信号であるピーク除去された線形予測残差信号p[n]を線形予測合成フィルタに入力することで、歪み成分を表した歪み信号d[n]を算出する。
歪み低減処理部402は、データ長2Nの歪み信号d[n]を用いて、データ長2Nの第1の広帯域信号y1[n]に含まれる歪みを低減し、この歪みが低減された広帯域信号を第2の広帯域信号y2[n]として出力する。すなわち歪み低減処理部402は、歪み成分を表した歪み信号d[n]を用いて、第1の広帯域信号y1[n]の調波構造の谷のパワーを下げることで調波構造の歪みを低減し、理想的な広帯域信号に近づける処理を行う。
図7は、歪み低減処理部402の具体的な構成例であって、この例では、周波数領域変換部402A、パワー算出部402B、周波数領域変換部402C、パワー算出部402D、抑圧ゲイン算出部402E、スペクトル抑圧部402F、時間領域変換部402Gを備える。
周波数領域変換部402Aは、データ長2Nの第1の広帯域信号y1[n]に対して、2N点によるFFT(Fast Fourier Transform)などの処理を施して周波数領域の信号に変換して、上記第1の広帯域信号y1[n]の周波数スペクトルY1[ω,f]を算出する。以下の説明では、ωは周波数BINの番号を表し、1≦ω≦2Nとする。
パワー算出部402Bは、第1の広帯域信号y1[n]の周波数スペクトルY1[ω,f]に基づいて、そのパワースペクトル|Y1[ω,f]|2を算出する。
パワー算出部402Bは、第1の広帯域信号y1[n]の周波数スペクトルY1[ω,f]に基づいて、そのパワースペクトル|Y1[ω,f]|2を算出する。
周波数領域変換部402Cは、データ長2Nの歪み信号d[n]に対して、2N点によるFFT(Fast Fourier Transform)などの処理を施して周波数領域の信号に変換して、上記歪み信号d[n]の周波数スペクトルD[ω,f]を算出する。
パワー算出部402Dは、歪み信号d[n]の周波数スペクトルD[ω,f]に基づいて、そのパワースペクトル|D[ω,f]|2を算出する。
パワー算出部402Dは、歪み信号d[n]の周波数スペクトルD[ω,f]に基づいて、そのパワースペクトル|D[ω,f]|2を算出する。
抑圧ゲイン算出部402Eは、ウィナー・フィルタ(Wiener Filter)法を用いて、第1の広帯域信号y1[n]のパワースペクトル|Y1[ω,f]|2と歪み信号d[n]のパワースペクトル|D[ω,f]|2から、下式(2)に示すように抑圧ゲインG[ω,f]を算出する。
そして抑圧ゲイン算出部402Eは、上記算出に結果が0≦G[ω,f]≦1を満たすように、G[ω,f]が0より小さければ0として、1より大きければ1とする制約をかける。そして、下式(3)のように周波数ω方向に平滑化して、抑圧ゲインG[ω,f]を更新し、これを出力する。平滑化に用いる係数εjは、例えば、[0.1,0.2,0.4,0.2,0.1]のように三角窓による移動平均を行う係数にする。
スペクトル抑圧部402Fは、第1の広帯域信号y1[n]の周波数スペクトルY1[ω,f]に対して、抑圧ゲインG[ω,f]に基づくスペクトル抑圧を行い、これにより歪み低減された第2の広帯域信号の周波数スペクトルY2[ω,f]を算出する。すなわち、例えば下式(4)に示す演算により、Y2[ω,f]を算出する。なおここで、Y1[ω,f]の位相スペクトルは、Y2[ω,f]の位相スペクトルに引き継がれるものとする。
時間領域変換部402Gは、第2の広帯域信号の周波数スペクトルY2[ω,f]に対して、IFFT(Inverse Fast Fourier Transform)などの処理を施して、時間領域の信号に変換し、データ長2Nの第2の広帯域信号y2[n]を算出する。
なお、抑圧ゲイン算出部402Eでは、歪み信号d[n]をノイズ成分と見なして、他の一般的なノイズサプレッサのアルゴリズムを用いることで、抑圧ゲインG[ω,f]を算出することもできる。例えば、スペクトル・サブトラクション(Spectral Subtraction)法(S. F. Boll, “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans. Acoustics, Speech, and Signal Processing, vol.ASSP-29, pp.113-120 (1979).)、ウィナー・フィルター(Wiener Filter)法(J. S. Lim, A. V. Oppenheim, “Enhancement and bandwidth compression of noisy speech”, Proc. IEEE Vol.67, No.12, pp.1586-1604, Dec.1979.)および最尤推定(Maximum Likelihood)法(R. J. McAulay, M. L. Malpass, “Speech enhancement using a soft-decision noise suppression filter”, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol.ASSP-28, no.2, pp.137-145, Apr.1980.)などが適用できる。
また同様に、抑圧ゲイン算出部402Eでは、1フレーム前の歪み低減された第2の広帯域信号の周波数スペクトルY2[ω,f-1]を用いて、事前SN比SNRPRIO[ω,f]および事後SN比SNRPOST[ω,f]を推定算出して、抑圧ゲインG[ω,f]を精度よく推定する手法(例えば、P. Scalart, J. V. Filho, ”Speech enhancement based on a priori signal to noise estimation”, Proc. ICASSP96, pp.629-632, May 1996.)、MMSE−STSA(Minimum Mean-Square Error Short-Time Spectral Amplitude estimator)法(Y. Ephraim, D. Malah, “Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator”, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol.ASSP-32, no.6, pp.1109-1121, Dec.1984.)およびJoint MAP法(T. Lotter, P. Vary, “Noise reduction by maximum a posteriori spectral amplitude estimation with super Gaussian speech modeling”, Proc. IWAENC, pp.83-86, Sep.2003.)などがある。
以上のように、歪み低減処理部402は周波数BINごとに処理するように説明したが、隣接する複数の周波数BINをまとめてグループを作り、そのグループ単位で処理を行っても構わない。
帯域通過フィルタ50は、歪み低減処理部402が出力するデータ長2Nの第2の広帯域信号y2[n]のうち、その前半であるデータ(データ長N)と、1フレーム前のデータ長2Nの第2の広帯域信号y2[n]の後半のデータ(データ長N)とを、これらのオーバーラップ分を考慮して加算することで、データ長Nの第2の広帯域信号y2[n]を求める。
そして、この求めたデータ長Nの第2の広帯域信号y2[n]に対して帯域通過フィルタ50は、拡張した周波数帯域のみを通過させるフィルタ処理を施し、これにより通過した信号、すなわち拡張した周波数帯域の信号をデータ長Nの第3の広帯域信号y3[n]として出力する。つまり、この実施例では、上記フィルタ処理により、fs_wb_low[Hz]からfs_nb_low[Hz]までの周波数帯域を通過させて、この周波数帯域の信号が第3の広帯域信号y3[n]として得られる。
信号遅延処理部70は、データ長Nの入力信号x[n]を所定の時間(Dサンプル分)だけバッファし、入力信号x[n-D]として遅延させて出力することで、帯域通過フィルタ50から出力される信号とタイミングを合わせる。すなわち、所定の時間(Dサンプル分)は、分析処理部10への入力から帯域通過フィルタ50から出力が得られるまでの処理遅延の時間に相当する。この値は、事前に求めておき、Dを常に固定値として用いればよい。
信号加算処理部80は、信号遅延処理部70から出力されるデータ長Nの入力信号x[n-D]と、データ長Nの第3の広帯域信号y3[n]とを、共にサンプリング周波数fs[Hz]のままで加算して、データ長Nの広帯域信号y[n]を出力信号として得る。これにより、入力信号x[n-D]は、第3の広帯域信号y3[n]分だけ帯域拡張される。
以上のように、上記構成の信号帯域拡張装置では、帯域拡張処理部3にて帯域拡張処理を行うにあたり、歪み制御処理部40を設けて、これにより広帯域化処理に並列して、ピークを除去する処理を実施して基本周波数とその倍音の影響を除去して歪み成分を生成し、この歪み成分を用いて、広帯域化処理によって生じた調波構造の歪みを低減するようにしている。
したがって、上記構成の信号帯域拡張装置によれば、音質のよい帯域拡張された信号を生成することができる。また歪み制御処理部40における計算量は少ないので、信号処理にかかる演算量を増大することもない。
図8にシミュレーションの結果を示す。この図は、fs=8000[Hz]、fs_nb_low=340[Hz]、fs_wb_low[Hz]=50[Hz]、fs_nb_high=fs_wb_high=3950[Hz]としたものであって、入力信号x[n]を音声信号とした場合のパワースペクトルの一例を示すものである。破線が従来の帯域拡張処理によって得られる出力信号のパワースペクトルであり、実線が本発明による帯域拡張処理によって得られる出力信号y[n]のパワースペクトルである。一点鎖線は、帯域拡張前の入力信号x[n]の音声信号のパワースペクトルを示す。この図に示すように、帯域拡張された出力信号y[n]は、50〜340[Hz]において、低域の調波構造で谷が深くなり、また歪みが低減されていることが分かる。
なお、上記実施の形態では、デコーダ2から帯域拡張処理部3に入力信号x[n]のみが入力される構成となっているが、デコーダ2で得られた情報、例えば線形予測係数LPC[m]や線形予測残差信号e[n]などを帯域拡張処理部3で用いるようにしてもよい。このようにすることで、計算量を少なくすることができる。
次に、上記第1の実施形態に係わる帯域拡張処理部3の第1の変形例について説明する。その構成を図9に示す。この図に示すように、第1の変形例は、広帯域化処理部20と合成処理部30との間に、第2の歪み制御処理部90を設けたものである。この第2の歪み制御処理部90は、周波数領域でのパワースペクトルのピークを強調する処理を実施するピーク強調処理部901と、周波数領域でのパワースペクトルのディップを強調する処理を実施するディップ強調処理部902とを備える。
ピーク強調処理部901は、残差広帯域化処理部203から出力された広帯域化されたデータ長2Nの線形予測残差信号e_wb[n]に対してパワースペクトルのピーク強調処理を施し、この処理によって得た信号e_wb1[n]をディップ強調処理部902に出力する。
ピーク強調処理部901の動作をより具体的に説明すると、ピーク強調処理部901は、はじめに広帯域化されたデータ長2Nの線形予測残差信号e_wb[n]を2N点を用いたFFTなどの処理によって周波数領域に変換して、周波数スペクトルE_wb[ω,f]を得る。またピーク強調処理部901は、周波数スペクトルE_wb[ω,f]からパワースペクトル|E_wb[ω,f]|2を算出する。
次に、ピーク強調処理部901は、fs_wb_low≦fs・ω/2N[Hz]≦fs_nb_low[Hz]を満たす拡張する周波数帯域について、パワースペクトル|E_wb[ω,f]|2の平均値E_wb_powthr[f]を算出する。また、ピーク強調処理部901は、拡張する周波数帯域の内で、|E_wb[ω,f]|2>E_wb_powthr[f]となる周波数帯域でのパワースペクトルの平均値E_wb_powavr1[f]を算出する。
そして、ピーク強調処理部901は、|E_wb[ω-1,f]|2<|E_wb[ω,f]|2かつ|E_wb[ω,f]|2>|E_wb[ω+1,f]|2であって隣接周波数BINのパワースペクトルよりも大きい周波数BINや、|E_wb[ω,f]|2>E_wb_powavr1[f]を満たすパワースペクトルの大きな周波数BINを、周波数領域でのパワースペクトルのピークとして抽出する。それから、ピーク強調処理部901は、これらの抽出した周波数BINに対してピーク強調ゲインG’[ω,f]を下式(5)から算出する。なお、周波数領域でのパワースペクトルのピークとして抽出しない周波数BINについては、G’[ω,f]=1とする。ただし、αは正の定数とし、例えば1≦α≦2を満たす値である。
最後に、ピーク強調処理部901は、周波数スペクトルE_wb[ω,f]に上記ピーク強調ゲインG’[ω,f]を乗じ、この乗算結果をIFFTなどによって時間領域に変換して、ピーク強調したデータ長2Nの信号e_wb1[n]を得る。
ディップ強調処理部902は、ピーク強調したデータ長2Nの信号e_wb1[n]に対してパワースペクトルのディップ強調処理を施し、この処理によって得た信号e_wb2[n]を合成処理部30に出力する。
ディップ強調処理部902の動作をより具体的に説明すると、ディップ強調処理部902は、はじめに広帯域化されたデータ長2Nの線形予測残差信号e_wb[n]を2N点を用いたFFTなどの処理によって周波数領域に変換して、周波数スペクトルE_wb1[ω,f]を得る。またディップ強調処理部902は、周波数スペクトルE_wb1[ω,f]からパワースペクトル|E_wb1[ω,f]|2を算出する。
次に、ディップ強調処理部902は、fs_wb_low≦fs・ω/2N[Hz]≦fs_nb_low[Hz]を満たす拡張する周波数帯域について、パワースペクトル|E_wb1[ω,f]|2の平均値E_wb_powthr1[f]を算出する。また、ディップ強調処理部902は、拡張する周波数帯域の内で、|E_wb1[ω,f]|2<E_wb_powthr1[f]となる周波数帯域でのパワースペクトルの平均値E_wb_powavr2[f]を算出する。
そして、ディップ強調処理部902は、|E_wb1[ω-1,f]|2>|E_wb1[ω,f]|2かつ|E_wb1[ω,f]|2<|E_wb1[ω+1,f]|2であって隣接周波数BINのパワースペクトルよりも小さい周波数BINや、|E_wb1[ω,f]|2<E_wb_powavr2[f]を満たすパワースペクトルの小さな周波数BINを、周波数領域でのパワースペクトルのディップとして抽出する。それから、ディップ強調処理部902は、これらの抽出した周波数BINに対してディップ強調ゲインG’’[ω,f]を例えば0と設定するなど1よりも小さくなるようにし、周波数領域でのパワースペクトルのディップとして抽出しない周波数BINについては、G’’[ω,f]=1とする。
最後に、ディップ強調処理部902は、周波数スペクトルE_wb1[ω,f]に上記ディップ強調ゲインG’’[ω,f]を乗じ、この乗算結果をIFFTなどによって時間領域に変換して、ディップ強調したデータ長2Nの信号e_wb2[n]を得る。このディップ強調したデータ長2Nの信号e_wb2[n]は、第1の線形予測合成部301に出力され、第1の線形予測合成部301では第1の実施形態における広帯域化されたデータ長2Nの線形予測残差信号e_wb[n]と同様に処理される。
以上のように、第1の実施形態の第1の変形例では、第2の歪み制御処理部90を設けることで、拡張する周波数帯域において、線形予測合成前の広帯域化された信号について調波構造の山が盛り上がり谷が深くなり、山と谷がくっきりする。このため、広帯域化処理によって生じた調波構造の歪みをより低減することができ、広帯域化した帯域拡張された信号の音質を向上させることができる。
なお、計算量低減のために、ピーク強調処理部901とディップ強調処理部902において、FFTなどによる周波数領域変換処理、IFFTなどによる時間領域変換処理およびピーク強調ゲインG’[ω,f]やディップ強調ゲインG’’[ω,f]の演算処理を共通化してもよい。
次に、上記第1の実施形態に係わる帯域拡張処理部3の第2の変形例について説明する。その構成を図10に示す。この図に示すように、第2の変形例は、第1の線形予測合成部301の後段に、周波数領域でのパワースペクトルのディップを強調する処理を実施するディップ強調処理部403を設けたものである。
ディップ強調処理部403は、第1の線形予測合成部301から出力されたデータ長2Nの第1の広帯域信号y1[n]に対してパワースペクトルのディップ強調処理を施し、この処理によって得た信号y0[n]を第1の広帯域信号として歪み低減処理部402に出力する。これに対して、歪み低減処理部402は、データ長2Nの歪み信号d[n]を用いて、データ長2Nの第1の広帯域信号y0[n]に含まれる歪みを低減し、この歪みが歪み低減された広帯域信号を第2の広帯域信号y2[n]として出力する。
ディップ強調処理部403の動作をより具体的に説明すると、ディップ強調処理部403は、はじめに広帯域化されたデータ長2Nの線形予測残差信号y1[n]を2N点を用いたFFTなどの処理によって周波数領域に変換して、周波数スペクトルY1[ω,f]を得る。またディップ強調処理部403は、周波数スペクトルY1[ω,f]からパワースペクトル|Y1[ω,f]|2を算出する。
次に、ディップ強調処理部403は、fs_wb_low≦fs・ω/2N[Hz]≦fs_nb_low[Hz]を満たす拡張する周波数帯域について、|Y1[ω-1,f]|2>|Y1[ω,f]|2かつ|Y1[ω,f]|2<|Y1[ω+1,f]|2であって隣接周波数BINのパワースペクトルよりも小さい周波数BINを、周波数領域でのパワースペクトルのディップとして抽出する。それから、ディップ強調処理部403は、これらの抽出した周波数BINに対してディップ強調ゲインG’’’[ω,f]を例えば0と設定するなど1よりも小さくなるようにし、周波数領域でのパワースペクトルのディップとして抽出しない周波数BINについては、G’’’[ω,f]=1とする。
最後に、ディップ強調処理部403は、周波数スペクトルY1[ω,f]に上記ディップ強調ゲインG’’’[ω,f]を乗じ、この乗算結果をIFFTなどによって時間領域に変換して、ディップ強調したデータ長2Nの信号y0[n]を得る。このディップ強調したデータ長2Nの信号y0[n]は、歪み低減処理部402に出力され、歪み低減処理部402では第1の実施形態における第1の広帯域信号y1[n]と同様に処理される。
以上のように、第1の実施形態の第2の変形例では、ディップ強調処理部403を設けることで、拡張する周波数帯域において、線形予測合成前の広帯域化された信号について調波構造の谷が深くなる。このため、広帯域化処理によって生じた調波構造の歪みを低減することができ、広帯域化した帯域拡張された信号の音質を向上させることができる。
次に、上記第1の実施形態に係わる帯域拡張処理部3の第3の変形例について説明する。その構成を図11に示す。この図に示すように、第3の変形例は、第2の線形予測合成部401Bの後段に、低周波数域を強調する処理を実施する低域強調部404を設けたものである。
低域強調部404は、第2の線形予測合成部401Bから出力されたデータ長2Nの広帯域の歪み信号d[n]に対して、ディエンファシスフィルタにより、拡張した低域の周波数帯域を含む低周波数域を強調する処理を施して、拡張した低域の周波数帯域が強調されたデータ長2Nの広帯域の歪み信号d0[n]を得ることができる。ディエンファシスフィルタとしては、例えば下式(6)に示す伝達関数を有するフィルタを用いる。
これに対して、歪み低減処理部402は、データ長2Nの歪み信号d0[n]を用いて、データ長2Nの第1の広帯域信号y1[n]に含まれる歪みを低減し、この歪みが歪み低減された広帯域信号を第2の広帯域信号y2[n]として出力する。すなわち歪み低減処理部402は、歪み成分を表した歪み信号d[n]を用いて、第1の広帯域信号y1[n]の調波構造の谷のパワーを下げることで調波構造の歪みを低減し、理想的な広帯域信号に近づける処理を行う。
以上のように、第1の実施形態の第3の変形例では、歪み成分生成処理部401で生成した歪み成分について、拡張した低域の周波数域を強調するようにしているので、拡張する周波数帯域において、聴覚上、耳障りになりやすい低周波数域での調波構造の歪みをより低減させることができ、このために広帯域に帯域拡張された信号の音質を向上させることができる。
次に、上記第1の実施形態に係わる帯域拡張処理部3の第4の変形例について説明する。その構成を図12に示す。この図に示すように、第4の変形例は、歪み低減処理部402を、残差広帯域化処理部203と第1の線形予測合成部301の間に設けることで、第2の線形予測合成部401Bを不要としたもので、ピーク除去処理部401Aにて得られる線形予測残差信号p[n]を歪み低減処理部402に出力する。
ピーク除去処理部401Aは、上記データ長2Nの線形予測残差信号e[n]に対して、メディアンフィルタや時間方向に平滑化して更新する平滑化フィルタ、あるいは線形フィルタである低域通過フィルタのように、残差広帯域化処理部203と相関が低い処理を実施して、これにより広帯域化されるとともに、時間領域の振幅の絶対値が大きいサンプルの振幅を低減することでピーク除去し、データ長2Nのピーク除去された線形予測残差信号p[n]を出力する。ここでは線形予測残差信号のレベルで歪み成分を考えており、理想的な広帯域信号の線形予測残差信号と広帯域化処理部20によって生成された線形予測残差信号e_wb[n]との差異を歪み成分とし、ピーク除去処理部401Aで得られたデータ長2Nのピーク除去された線形予測残差信号p[n]を歪み成分として用いる。
なお、ピーク除去処理部401Aでの処理は、残差広帯域化処理部203での処理となるべく異なるようにすればよいため、残差広帯域化処理部203の処理を別の処理に変更することで対応してもよい。
歪み低減処理部402は、ピーク除去処理部401Aで得られたデータ長2Nのピーク除去された線形予測残差信号p[n]を用いて、残差広帯域化処理部203で得られた広帯域化されたデータ長2Nの線形予測残差信号e_wb[n]に含まれる歪みを低減し、この歪みが歪み低減された信号を、線形予測残差信号ed[n]として出力する。すなわち、歪み低減処理部402は、図2に示した構成と入力信号は異なるが、同様の処理を実施する。
第1の線形予測合成部301は、上記線形予測係数LPC[m]を用いて線形予測合成フィルタを形成し、その線形予測合成フィルタに広帯域化されたデータ長2Nの線形予測残差信号ed[n]を入力して、データ長2Nの第2の広帯域信号y2[n]を合成し、帯域通過フィルタ50に出力する。
以上のように、第1の実施形態の第4の変形例では、歪み低減処理部402を、第1の線形予測合成部301の前段に設けることで、第2の線形予測合成部401Bを不要としている。したがって、図2に示した構成に比べて線形予測合成の回数を少なくすることができ、演算量を削減することができる。
また、この構成では、ピーク除去処理部401Aが、広帯域化処理とは異なるピーク除去を行って基本周波数とその倍音の影響を除去した歪み成分を生成し、広帯域化処理によって生じた調波構造の歪みを低減するようにしているので、広帯域に帯域拡張された信号の音質を向上させることができる。
次に、帯域拡張処理部3の第2の実施形態について説明する。
以下に述べる帯域拡張処理部3は、第1の実施形態と同様に、ある周波数帯域に帯域制限された音声や音楽・オーディオなどの信号(入力信号)を、この信号が持つ周波数帯域を包含する広い周波数帯域の信号に変換することで、高音質な信号を合成するものである。このために、帯域拡張処理部3は、上記入力信号として受話信号x[n]が入力され、この信号にフレーム毎に帯域拡張処理を施して、帯域拡張された受話信号y[n]を出力信号として得る。
以下に述べる帯域拡張処理部3は、第1の実施形態と同様に、ある周波数帯域に帯域制限された音声や音楽・オーディオなどの信号(入力信号)を、この信号が持つ周波数帯域を包含する広い周波数帯域の信号に変換することで、高音質な信号を合成するものである。このために、帯域拡張処理部3は、上記入力信号として受話信号x[n]が入力され、この信号にフレーム毎に帯域拡張処理を施して、帯域拡張された受話信号y[n]を出力信号として得る。
なお、第1の実施形態に係わる帯域拡張処理部3は、デコーダ2で用いたサンプリング周波数fs[Hz]を変更することなく信号処理しているが、これに対して第2の実施形態に係わる帯域拡張処理部3では、サンプリング周波数をfs’[Hz]にアップサンプリングして信号処理する。すなわち、fs < fs’である。
以下の説明では、入力信号は、fs_nb_low[Hz]からfs_nb_high[Hz]までに帯域制限されているものとし、帯域拡張処理部3の帯域拡張処理によりfs_wb_low[Hz]からfs_wb_high[Hz]までの帯域に拡張される。すなわち、fs_wb_low ≦ fs_nb_low < fs_nb_high ≦ fs_wb_high < fs/2 を満たし、さらにfs_nb_high < fs/2 < fs_wb_high < fs’/2 を満たすものとする。
また以下の説明では、高域拡張を例に挙げるため、fs_nb_low=fs_wb_lowとして説明し、fs=8000[Hz]、fs’=16000[Hz]、fs_nb_low=100[Hz]、fs_nb_high=3950[Hz]、fs_wb_low=100[Hz]、fs_wb_high=7950[Hz]とする。帯域制限の周波数帯域やサンプリング周波数については、これに限らない。また、フレーム長をN=160とする。
図13は、この発明に係わる帯域拡張処理部3の第2の実施形態の構成を示すものである。この図に示すように、第2の実施形態の帯域拡張処理部3は、分析処理部10と、広帯域化処理部20と、合成処理部30と、歪み制御処理部40と、帯域通過フィルタ50と、アップサンプリング部60と、信号遅延処理部70と、信号加算処理部80とを備える。なお、以下の説明において、第1の実施形態に係わる帯域拡張処理部3の構成と同様の部分については、必要に応じて適宜省略して説明する。
分析処理部10は、線形予測分析部101と、逆フィルタ102とを備える。
線形予測分析部101は、狭帯域に帯域制限された入力信号x[n]が入力され、これを線形予測分析して、M次の線形予測係数LPC[m] (m=0,1…M-1)を得る。具体的には、線形予測分析の対象となる現在のフレームの入力信号x[n]と、このフレームの直前の過去の1フレームの入力信号の合計2フレームを用いる。このデータ長2Nの入力信号x[n]に対して、窓関数をハミング窓としてデータ長2Nの窓掛けを行い、その信号に対してM次の線形予測分析を行う。
線形予測分析部101は、狭帯域に帯域制限された入力信号x[n]が入力され、これを線形予測分析して、M次の線形予測係数LPC[m] (m=0,1…M-1)を得る。具体的には、線形予測分析の対象となる現在のフレームの入力信号x[n]と、このフレームの直前の過去の1フレームの入力信号の合計2フレームを用いる。このデータ長2Nの入力信号x[n]に対して、窓関数をハミング窓としてデータ長2Nの窓掛けを行い、その信号に対してM次の線形予測分析を行う。
ここでは、例として、次の時刻(フレーム)での入力信号x[n]のシフト幅(Nサンプル)と窓掛けを行った入力信号x[n]のデータ長(2Nサンプル)の比であるオーバーラップは50%とする。この際、窓掛けに用いる窓関数は、ハミング窓に限定せず、他の対称窓(ハニング窓、ブラックマン窓、sin窓など)あるいは音声符号化処理で用いられるような非対称窓などに適宜変更してよい。またオーバーラップは、50%に限らない。この実施形態では、スペクトル包絡を線形予測係数で表現する場合を例にしているが、線スペクトル対(LSP)や線スペクトル周波数(LSF)、PARCOR係数、メルケプストラム係数などで表現してもよい。
逆フィルタ102は、線形予測分析部101で得た線形予測係数LPC[m]を用いて逆フィルタを形成し、その逆フィルタに線形予測分析部101から出力された窓掛けしたデータ長2Nの入力信号x[n]を入力し、データ長2Nの狭帯域の線形予測残差信号e_nb[n]を得る。
広帯域化処理部20は、スペクトル包絡広帯域化処理部201と、アップサンプリング部202と、残差広帯域化処理部203とを備える。
スペクトル包絡広帯域化処理部201は、線形予測分析部101で得た線形予測係数LPC[m]を、fs_wb_low[Hz]からfs_nb_high[Hz]までに対応するM_WB次の広帯域の線形予測係数LPC_WB[m] (m=0,1…M_WB-1)に変換する。ここで、狭帯域の線形予測係数から広帯域の線形予測係数に変換する手法としては、ベクトル量子化(VQ)による符号帳を用いる手法(例えば、吉田, 阿部, ”コードブックマッピングによる狭帯域音声から広帯域音声の生成法”, 信学論(D-II), vol.J78-D-II, No.3, pp.391-399, Mar 1995.)や、GMMを用いる手法(例えば、K. Y. Park, H. S. Kim, ”Narrowband to Wideband Conversion of Speech using GMM based Transformation”, Proc. ICASSP2000, vol.3, pp.1843-1846, Jun 2000.)や、ベクトル量子化(VQ)による符号帳とHMMを用いる手法(例えば、G. Chen, V. Parsa, ”HMM-based Frequency Bandwidth Extension for Speech Enhancement using Line Spectral Frequencies”, Proc. ICASSP2004, vol.1, pp.709-712, 2004.)や、HMMを用いる手法(例えば、S. Yao, C. F. Chan, ”Block-based Bandwidth Extension of Narrowband Speech Signal by using CDHMM”, Proc. ICASSP2005, vol.1, pp.793-796, 2005.)などがあり、どれを用いても構わない。
ここでは例えばGMMを用いる手法として、狭帯域に帯域制限された信号と理想的な広帯域信号をペアとし、そのペアを多数有するデータベースから、事前にM次の狭帯域の線形予測係数LPC[m] (m=0,1…M-1)とM_WB次の広帯域の線形予測係数LPC_WB[m] (m=0,1…M_WB-1)を求め、それをペアとして連結してGMMを構成しておき、入力信号x[n]のM次の線形予測係数LPC[m]に応じて、GMMから2乗誤差最小の基準(MMSE)でM_WB次の広帯域の線形予測係数LPC_WB[m]を出力する方法とする。
アップサンプリング部202は、逆フィルタ102で得たデータ長2Nの狭帯域の線形予測残差信号e_nb[n]を、サンプリング周波数fs[Hz]からfs’[Hz]にアップサンプリングし、アップサンプリングされたデータ長4Nの線形予測残差信号e[n]を得る。なお、アップサンプリング処理としては、sync関数を畳み込む手法や、1サンプルごとに零挿入してエイリアシングを除去する手法などが考えられる。
残差広帯域化処理部203は、アップサンプリング部202で得たデータ長4Nの線形予測残差信号e[n]に、図3に示したような非線形関数(半波整流)によって基本周波数の倍音ごとに周波数領域でピークを持つ構造(調波構造)にする非線形処理を施し、これによって、広帯域化されたデータ長4Nの線形予測残差信号e_wb[n]を得る。
合成処理部30は、第1の線形予測合成部301を備える。第1の線形予測合成部301は、スペクトル包絡広帯域化処理部201で得たLPC_WB[m]を用いて線形予測合成フィルタを形成し、その線形予測合成フィルタに広帯域化されたデータ長4Nの線形予測残差信号e_wb[n]を入力して、データ長4Nの第1の広帯域信号y1[n]を合成する。
歪み制御処理部40は、歪み成分生成処理部401と、歪み低減処理部402とを備える。また歪み成分生成処理部401は、ピーク除去処理部401Aと、第2の線形予測合成部401Bとを備える。一連の広帯域化処理によって生成された信号である合成処理部30によって生成された第1の広帯域信号y1[n]における広帯域化処理部20の残差広帯域化処理部203における非線形処理によって生成された調波構造は、周波数領域でのパワーの極大点(調波構造の山)のパワーが理想的な広帯域信号と比較すると小さくなっていたり、周波数領域でのパワーの極小点(調波構造の谷)のパワーが理想的な広帯域信号と比較すると大きくなっていたり、周波数領域でのパワーの極大点とその近傍にあるパワーの極小点のパワー差が理想的な広帯域信号と比較すると小さくなっていたりする。また、このようなことが、複数の周波数領域でのパワーの極大点及び極小点で起きる。一連の広帯域化処理によって生成された信号である合成処理部30によって生成された第1の広帯域信号y1[n]と理想的な広帯域信号との差異や違いを、歪みあるいは歪み成分と呼ぶ。歪み制御処理部40は、この歪みを低減し、最終的な帯域拡張された信号が人工的ではない自然な音に聞こえるように制御する。
ピーク除去処理部401Aは、上記データ長4Nの線形予測残差信号e[n]に対して、例えば図6(a)や図6(b)に示した非線形関数を用いて非線形処理を施すものであって、これにより広帯域化されるとともに時間領域の振幅の絶対値が大きいサンプルの振幅を低減して、データ長4Nのピーク除去された線形予測残差信号p[n]を出力する。なお、図6中のAは、閾値を示す。
上記線形予測残差信号e[n]には、時間領域の振幅の絶対値が大きいサンプル(パルス)が含まれている。このパルスの一番長い時間間隔がピッチ周期であり、このピッチ周期は、基本周波数の逆数になっている。パルスの短い時間間隔は、倍音に相当する。つまり、上記振幅の絶対値が大きいサンプルは、周波数領域では基本周波数とその倍音に相当し、周波数領域での単一の山あるいは調波構造の複数の山を構成するため、ピーク除去処理部401Aによって、上記線形予測残差信号e[n]の時間領域の振幅の絶対値が大きいサンプルの振幅を低減させることによって、調波構造の山のレベルを谷のレベルまで下げ、調波構造の山と谷のレベル差を圧縮する。理想的な広帯域信号の線形予測残差信号では調波構造の谷におけるパワーは小さいはずであり、ここでは、理想的な広帯域信号の線形予測残差信号と広帯域化処理部20によって生成された線形予測残差信号e_wb[n]との差異は、広帯域化処理部20によって生成された線形予測残差信号e_wb[n]のそれぞれの周波数領域での調波構造の谷のパワー分であると考え、この調波構造の山のレベルが谷のレベルまで下げられた信号を用いて、後述する第2の線形予測合成部401Bにおいて歪み成分を算出する。
なお、ピーク除去処理部401Aで行われるピーク除去処理に用いる非線形関数(図6参照)は、線形予測残差信号e[n]の振幅、パワーあるいは振幅の絶対値などの最大値などを検出し、これに応じてフレーム毎に動的に変化させてもよい。例えば、前述の実施例1のように、閾値Aを線形予測残差残差信号のパワーに応じてフレーム毎に変化させてもよい。
また、上記ピーク除去処理は、時間領域の振幅の絶対値が大きいサンプルの振幅を低減させる処理であればよく、前述の実施例1のように、非線形フィルタであるメディアンフィルタや、前述の式(1)のように時間方向に平滑化して更新する平滑化フィルタや、線形フィルタである低域通過フィルタを適用してもよい。ただし、低域通過フィルタは、基本周波数を除去するような通過帯域に設定することが望ましい。
第2の線形予測合成部401Bは、上記線形予測係数LPC[m]を用いて線形予測合成フィルタを形成し、その線形予測合成フィルタに上記データ長4Nのピーク除去された線形予測残差信号p[n]を入力して、データ長4Nの広帯域の歪み信号d[n]を合成する。すなわち、理想的な広帯域信号と合成処理部30によって生成された第1の広帯域信号y1[n]との差異である歪み成分は、広帯域化処理部20によって生成された線形予測残差信号e_wb[n]のそれぞれの周波数での調波構造の谷のパワー分に起因していると考え、この調波構造の山のレベルが谷のレベルまで下げられた信号であるピーク除去された線形予測残差信号p[n]を線形予測合成フィルタに入力することで、歪み成分を表した歪み信号d[n]を算出する。
歪み低減処理部402は、データ長4Nの歪み信号d[n]を用いて、データ長4Nの第1の広帯域信号y1[n]に含まれる歪みを低減し、この歪みが歪み低減された広帯域信号を第2の広帯域信号y2[n]として出力する。すわなち、歪み低減処理部402は、歪み成分を表した歪み信号d[n]を用いて、第1の広帯域信号y1[n]の調波構造の谷のパワーを下げることで調波構造の歪みを低減し、理想的な広帯域信号に近づける処理を行う。なお、歪み低減処理部402は、第1の実施形態と同様に、例えば図7に示すように構成できる。ここではその説明を省略する。
帯域通過フィルタ50は、歪み低減処理部402が出力するデータ長4Nの第2の広帯域信号y2[n]のうち、その前半であるデータ(データ長2N)と、1フレーム前のデータ長4Nの第2の広帯域信号y2[n]の後半のデータ(データ長2N)とを、これらのオーバーラップ分を考慮して加算することで、データ長2Nの第2の広帯域信号y2[n]を求める。
そして、この求めたデータ長2Nの第2の広帯域信号y2[n]に対して帯域通過フィルタ50は、拡張した周波数帯域のみを通過させるフィルタ処理を施し、これにより通過した信号、すなわち拡張した周波数帯域の信号をデータ長2Nの第3の広帯域信号y3[n]として出力する。つまり、この実施例では、上記フィルタ処理により、fs_nb_high[Hz]からfs_wb_high[Hz]までの周波数帯域が通過して、この周波数帯域の信号が第3の広帯域信号y3[n]として得られる。
アップサンプリング部60は、狭帯域に帯域制限された入力信号x[n]を、サンプリング周波数fs[Hz]からfs’[Hz]にアップサンプリングし、アップサンプリングされたデータ長2Nの入力信号x_wb[n]を得る。なお、アップサンプリング処理としては、アップサンプリング部202と同様に、sync関数を畳み込む手法や、1サンプルごとに零挿入してエイリアシングを除去する手法などが考えられる。
信号遅延処理部70は、データ長2Nのアップサンプリングされた入力信号x_wb[n]を所定の時間(Dサンプル分)だけバッファし、アップサンプリングされた入力信号x_wb[n-D]として遅延させて出力することで、帯域通過フィルタ50から出力される信号とタイミングを合わせる。すなわち、所定の時間(Dサンプル分)は、分析処理部10への入力から帯域通過フィルタ50から出力が得られるまでの処理遅延の時間から、アップサンプリング部60での処理における処理遅延の時間を引いた分に相当する。この値は、事前に求めておき、Dを常に固定値として用いればよい。
信号加算処理部80は、信号遅延処理部70から出力されるデータ長2Nのアップサンプリングされた入力信号x_wb[n-D]と、データ長2Nの第3の広帯域信号y3[n]とを、共にサンプリング周波数fs’[Hz]のままで加算して、データ長2Nの広帯域信号y[n]を出力信号として得る。これにより、アップサンプリングされた入力信号x_wb[n-D]は、第3の広帯域信号y3[n]分だけ帯域拡張される。
以上のように、上記構成の信号帯域拡張装置では、帯域拡張処理部3にて帯域拡張処理を行うにあたり、歪み制御処理部40を設けて、これにより広帯域化処理に並列して、ピークを除去する処理を実施して基本周波数とその倍音の影響を除去して歪み成分を生成し、この歪み成分を用いて、広帯域化処理によって生じた調波構造の歪みを低減するようにしている。
したがって、上記構成の信号帯域拡張装置によれば、アップサンプリングを行う場合でも、音質のよい帯域拡張された信号を生成することができる。また歪み制御処理部40における計算量は少ないので、信号処理にかかる演算量を増大することもない。
次に、上記第2の実施形態に係わる帯域拡張処理部3の第1の変形例について説明する。その構成を図14に示す。この図に示すように、アップサンプリング部60を、分析処理部10の前段に設けるとともに、アップサンプリング部202を除き逆フィルタ102の出力が残差広帯域化処理部203とピーク除去処理部401Aに入力されるようにしたものである。
線形予測分析部101は、アップサンプリング部60によって入力信号x[n]がアップサンプリングされた入力信号x_wb[n]入力され、これを線形予測分析して、M次の線形予測係数LPC[m] (m=0,1…M-1)を得る。具体的には、線形予測分析の対象となる現在のフレームの入力信号x[n]と、このフレームの直前の過去の1フレームの入力信号の合計2フレームを用いる。このデータ長4Nの入力信号x[n]に対して、ハミング窓による窓掛けを行い、その信号に対してM次の線形予測分析を行う。ここでは、オーバーラップは50%としている。この際、窓掛けやオーバラップ長は適宜変更してよい。
逆フィルタ102は、線形予測分析部101で得た線形予測係数LPC[m]を用いて逆フィルタを形成し、その逆フィルタに線形予測分析部101によって窓掛けしたデータ長4Nの入力信号x_wb[n]を入力し、データ長4Nの線形予測残差信号e[n]を得て、残差広帯域化処理部203に出力される。
このような構成であっても、図13に示した構成と同様に広帯域に帯域拡張された信号の音質を向上させることができるとともに、アップサンプリング部60を、分析処理部10の前段に設けることで、アップサンプリング部202を不要としている。したがって、図13に示した構成と比べて、アップサンプリングの処理を少なくすることができ、演算量を削減することができる。
次に、上記第2の実施形態に係わる帯域拡張処理部3の第2の変形例について説明する。その構成を図15に示す。この図に示すように、第2の変形例は、歪み低減処理部402を、残差広帯域化処理部203と第1の線形予測合成部301の間に設けることで、第2の線形予測合成部401Bを不要としたもので、ピーク除去処理部401Aにて得られる線形予測残差信号p[n]を歪み低減処理部402に出力する。
ピーク除去処理部401Aは、上記データ長4Nの線形予測残差信号e[n]に対して、メディアンフィルタや時間方向に平滑化して更新する平滑化フィルタ、あるいは線形フィルタである低域通過フィルタのように残差広帯域化処理部203と相関が低い処理を実施して、これにより広帯域化されるとともに、時間領域の振幅の絶対値が大きいサンプルの振幅を低減することでピーク除去し、データ長4Nのピーク除去された線形予測残差信号p[n]を得る。ここでは線形予測残差信号のレベルで歪み成分を考えており、理想的な広帯域信号の線形予測残差信号と広帯域化処理部20によって生成された線形予測残差信号e_wb[n]との差異を歪み成分とし、ピーク除去処理部401Aで得られたデータ長4Nのピーク除去された線形予測残差信号p[n]を歪み成分として用いている。
なお、ピーク除去処理部401Aでの処理は、残差広帯域化処理部203での処理となるべく異なるようにすればよいため、残差広帯域化処理部203の処理を別の処理に変更することで対応してもよい。
歪み低減処理部402は、ピーク除去処理部401Aで得られたデータ長4Nのピーク除去された線形予測残差信号p[n]を用いて、残差広帯域化処理部203で得られた広帯域化されたデータ長4Nの線形予測残差信号e_wb[n]に含まれる歪みを低減し、この歪みが歪み低減された信号を、線形予測残差信号ed[n]として出力する。すなわち、歪み低減処理部402は、図13に示した構成と入力信号は異なるが、同様の処理を実施する。
第1の線形予測合成部301は、上記線形予測係数LPC_WB[m]を用いて線形予測合成フィルタを形成し、その線形予測合成フィルタに広帯域化されたデータ長4Nの線形予測残差信号ed[n]を入力して、データ長4Nの第2の広帯域信号y2[n]を合成し、帯域通過フィルタ50に出力する。
以上のように、第2の実施形態の第2の変形例では、歪み低減処理部402を、第1の線形予測合成部301の前段に設けることで、第2の線形予測合成部401Bを不要としている。したがって、図13に示した構成に比べて線形予測合成の回数を少なくすることができ、演算量を削減することができる。
また、この構成では、ピーク除去処理部401Aが、広帯域化処理とは異なるピーク除去を行って基本周波数とその倍音の影響を除去した歪み成分を生成し、広帯域化処理によって生じた調波構造の歪みを低減するようにしているので、広帯域に帯域拡張された信号の音質を向上させることができる。
なお、図14に示した第2の実施形態の第1の変形例のような変形は、図15に示した第2の実施形態の第2の変形例の構成にも適用できる。その構成を、第2の実施形態の第3の変形例として図16に示す。
このような構成によれば、図15に示した構成と同様に広帯域に帯域拡張された信号の音質を向上させることができるとともに、アップサンプリング部60を、分析処理部10の前段に設けることで、アップサンプリング部202を不要としている。また歪み低減処理部402を、第1の線形予測合成部301の前段に設けることで、第2の線形予測合成部401Bを不要としている。
このような構成によれば、図15に示した構成と同様に広帯域に帯域拡張された信号の音質を向上させることができるとともに、アップサンプリング部60を、分析処理部10の前段に設けることで、アップサンプリング部202を不要としている。また歪み低減処理部402を、第1の線形予測合成部301の前段に設けることで、第2の線形予測合成部401Bを不要としている。
したがって、図15に示した構成と比べて、アップサンプリングの処理を少なくすることができ、また線形予測合成の回数を少なくすることができ、演算量を削減することができる。
以上の実施形態では、携帯電話などの無線通信装置の受信系に本発明を適用した場合について説明したが、これに限定されるものではなく、例えばディジタルオーディオプレイヤに適用することもできる。ディジタルオーディオプレイヤとしては、近時、携帯電話機やパーソナルコンピュータ、あるいは専用の携帯型音楽再生機も市場に出回っている。
このようなディジタルオーディオプレイヤは、図1に示した無線通信部1に代わって記憶部6を設け、この記憶部6に符号化された音楽(音声)データを記憶し、これをデコーダ2が必要に応じて読み出して復号を行う。
すなわち、記憶部6に蓄えられ、図示しないユーザインタフェースを通じてユーザから再生が要求された再生データは、デコーダ2により、事前に決められた単位(1フレーム=Nサンプル)ごとに読み出され、入力信号x[n] (n=0,1,…N-1)としてディジタル信号に復号される。以下の説明では、入力信号のサンプリング周波数をfs[Hz]とする。
すなわち、記憶部6に蓄えられ、図示しないユーザインタフェースを通じてユーザから再生が要求された再生データは、デコーダ2により、事前に決められた単位(1フレーム=Nサンプル)ごとに読み出され、入力信号x[n] (n=0,1,…N-1)としてディジタル信号に復号される。以下の説明では、入力信号のサンプリング周波数をfs[Hz]とする。
デコーダ2で復号されたディジタル信号は、1フレームごとに帯域拡張処理部3に出力される。帯域拡張処理部3は、ディジタル信号である入力信号x[n]に対して、サンプリング周波数をfs[Hz]のまま1フレームごとに帯域拡張処理を施す。これによって得られた帯域拡張された入力信号y[n]は、1フレームごとにD/A変換器4に出力され、ここでアナログ信号y(t)に変換されスピーカ5より拡声出力される。
第3の実施形態として、本発明を適用したディジタルオーディオプレイヤについて説明する。ディジタルオーディオプレイヤは、図17に示すように構成される。また帯域拡張処理部3は、例えば図18に示すように構成される。
図18に示す帯域拡張処理部3は、ある周波数帯域に帯域制限された音声や音楽・オーディオなどの信号(入力信号)を、この信号が持つ周波数帯域を包含する広い周波数帯域の信号に変換することで、高音質な信号を合成するものである。このために、帯域拡張処理部3は、上記入力信号として信号x[n]が入力され、この入力信号にフレーム毎に帯域拡張処理を施して、帯域拡張された広帯域信号y[n]を出力信号として得る。
以下の説明では、入力信号は、fs_nb_low[Hz]からfs_nb_high[Hz]までに帯域制限されているものとし、帯域拡張処理部3の帯域拡張処理によりfs_wb_low[Hz]からfs_wb_high[Hz]までの帯域に拡張される。すなわち、fs_wb_low ≦ fs_nb_low < fs_nb_high ≦ fs_wb_high < fs/2 を満たすものとする。
また以下の説明では、音楽・オーディオの周波数帯域を考慮し、fs=44100[Hz]、fs_nb_low = 20[Hz]、fs_nb_high=16000[Hz]、fs_wb_low=20[Hz]、fs_wb_high=22000[Hz]とする。帯域制限の周波数帯域やサンプリング周波数については、これに限らない。また、フレーム長をN=512とする。
図18に示すように、第3の実施形態の帯域拡張処理部3は、広帯域化処理部20と、歪み制御処理部40と、帯域通過フィルタ50と、信号遅延処理部70と、信号加算処理部80とを備える。
広帯域化処理部20は、データ長Nの入力信号x[n]が入力され、これに、図3に示したような非線形関数(半波整流)によって基本周波数の倍音ごとに周波数領域でピークを持つ構造(調波構造)にする非線形処理を施し、これによって、広帯域化されたデータ長Nの第1の広帯域信号y1[n]を得る。図3に示される非線形関数は、倍音ごとに周波数領域でピークを持つ構造に変換する関数であるが、これ以外にも2倍音、3倍音など整数倍の倍音に対応する非線形関数など(例えば、R. M. Aarts, E. Larsen, D. Schobben, ”Improving Perceived Bass and Reconstruction of High Frequencies for Band Limited Signal”, Proc. 1st IEEE Benelux Workshop on Model based Processing and Coding of Audio (MPCA-2002), pp.59-71, Nov 2002.)を用いても構わない。
歪み制御処理部40は、歪み成分生成処理部401と、歪み低減処理部402とを備える。また歪み成分生成処理部401は、ピーク除去処理部401Aを備える。第1の広帯域信号y1[n]における広帯域化処理部20の残差広帯域化処理部203における非線形処理によって生成された調波構造は、周波数領域でのパワーの極大点(調波構造の山)のパワーが理想的な広帯域信号と比較すると小さくなっていたり、周波数領域でのパワーの極小点(調波構造の谷)のパワーが理想的な広帯域信号と比較すると大きくなっていたり、周波数領域でのパワーの極大点とその近傍にあるパワーの極小点のパワー差が理想的な広帯域信号と比較すると小さくなっていたりする。また、このようなことが、複数の周波数領域でのパワーの極大点及び極小点で起きる。第1の広帯域信号y1[n]と理想的な広帯域信号との差異や違いを、歪みあるいは歪み成分と呼ぶ。歪み制御処理部40は、この歪みを低減し、最終的な帯域拡張された信号が人工的ではない自然な音に聞こえるように制御する。
ピーク除去処理部401Aは、データ長Nの入力信号x[n]に対して、例えば図6(a)や図6(b)に示した非線形関数を用いて非線形処理を施すものであって、これにより広帯域化されるとともに時間領域の振幅の絶対値が大きいサンプルの振幅を低減して、データ長Nのピーク除去された歪み信号d[n]を得る。なお、図6中のAは、閾値を示す。理想的な広帯域信号では調波構造の谷におけるパワーは小さいはずであり、ここでは、理想的な広帯域信号と広帯域化処理部20によって生成された第1の広帯域信号y1[n]との差異は、広帯域化処理部20によって生成された第1の広帯域信号y1[n]のそれぞれの周波数での調波構造の谷のパワー分であると考え、この調波構造の山のレベルが谷のレベルまで下げられた信号を歪み信号d[n]として算出する。
歪み低減処理部402は、データ長Nの歪み信号d[n]を用いて、データ長Nの第1の広帯域信号y1[n]に含まれる歪みを低減し、この歪みが歪み低減された広帯域信号を第2の広帯域信号y2[n]として出力する。すなわち、歪み低減処理部402は、歪み成分を表した歪み信号d[n]を用いて、第1の広帯域信号y1[n]の調波構造の谷のパワーを下げることで調波構造の歪みを低減し、理想的な広帯域信号に近づける処理を行う。
帯域通過フィルタ50は、歪み低減処理部402が出力するデータ長Nの第2の広帯域信号y2[n]に対して、拡張した周波数帯域のみを通過させるフィルタ処理を施し、これにより通過した信号、すなわち拡張した周波数帯域の信号をデータ長Nの第3の広帯域信号y3[n]として出力する。つまり、この実施例では、上記フィルタ処理により、fs_nb_high[Hz]からfs_wb_high[Hz]までの周波数帯域が通過して、この周波数帯域の信号が第3の広帯域信号y3[n]として得られる。
信号遅延処理部70は、データ長Nの入力信号x[n]を所定の時間(Dサンプル分)だけバッファし、入力信号x[n-D]として遅延させて出力することで、帯域通過フィルタ50から出力される信号とタイミングを合わせる。すなわち、所定の時間(Dサンプル分)は、広帯域化処理部20などへの入力から帯域通過フィルタ50から出力が得られるまでの処理遅延の時間に相当する。この値は、事前に求めておき、Dを常に固定値として用いればよい。
信号加算処理部80は、信号遅延処理部70から出力されるデータ長Nの入力信号x[n-D]と、データ長Nの第3の広帯域信号y3[n]とを、共にサンプリング周波数fs[Hz]のままで加算して、データ長Nの広帯域信号y[n]を出力信号として得る。これにより、入力信号x[n-D]は、第3の広帯域信号y3[n]分だけ帯域拡張される。
以上のように、上記構成の信号帯域拡張装置では、帯域拡張処理部3にて帯域拡張処理を行うにあたり、歪み制御処理部40を設けて、これにより広帯域化処理に並列して、ピークを除去する処理を実施して基本周波数とその倍音の影響を除去して歪み成分を生成し、この歪み成分を用いて、広帯域化処理によって生じた調波構造の歪みを低減するようにしている。
したがって、上記構成の信号帯域拡張装置によれば、音質のよい帯域拡張された信号を生成することができる。また歪み制御処理部40における計算量は少ないので、信号処理にかかる演算量を増大することもない。
また、入力信号がモノラル信号ではなくステレオ信号であったとしても、例えばL(左)チャネルとR(右)チャネルにそれぞれ上記帯域拡張処理部3における帯域拡張処理を施したり、和信号(LチャネルとRチャネルの信号の和)と差信号(LチャネルからRチャネルの信号の差)にそれぞれ上記の帯域拡張処理を施したりすることで同様の効果が得られる。
次に、上記第4の実施形態に係わる帯域拡張処理部3について説明する。その構成を図19に示す。この図に示す帯域拡張処理部3は、図17に示したディジタルオーディオプレイヤに適用可能な帯域拡張処理部3であって、図18に示した帯域拡張処理部3と比べ、アップサンプリング部60を、広帯域化処理部20、歪み制御処理部40および信号遅延処理部70の前段に設け、各部で扱う信号のサンプリング周波数をfs[Hz]からfs’[Hz]にアップサンプリングしたものである。
以下の説明では、入力信号は、fs_nb_low[Hz]からfs_nb_high[Hz]までに帯域制限されているものとし、帯域拡張処理部3の帯域拡張処理によりfs_wb_low[Hz]からfs_wb_high[Hz]までの帯域に拡張される。すなわち、fs_wb_low ≦ fs_nb_low < fs_nb_high ≦ fs_wb_highを満たすものとする。さらに、fs_nb_high < fs/2 < fs_wb_high < fs’/2を満たすものとする。またこの実施形態では、fs_wb_low = fs_nb_lowとする。
また以下の説明では、音楽・オーディオの周波数帯域を考慮し、fs=32000[Hz]、fs’=44100[Hz]、fs_nb_low = 20[Hz]、fs_nb_high=15900[Hz]、fs_wb_low=20[Hz]、fs_wb_high=22000[Hz]とする。帯域制限の周波数帯域やサンプリング周波数については、これに限らない。また、フレーム長をN=512とする。
また以下の説明では、音楽・オーディオの周波数帯域を考慮し、fs=32000[Hz]、fs’=44100[Hz]、fs_nb_low = 20[Hz]、fs_nb_high=15900[Hz]、fs_wb_low=20[Hz]、fs_wb_high=22000[Hz]とする。帯域制限の周波数帯域やサンプリング周波数については、これに限らない。また、フレーム長をN=512とする。
アップサンプリング部60は、fs_nb_high[Hz]に帯域制限された入力信号x[n]を、サンプリング周波数fs[Hz]からfs’[Hz]にアップサンプリングし、アップサンプリングされたデータ長2Nの入力信号x_wb[n]を得る。
広帯域化処理部20は、アップサンプリングされたデータ長2Nの入力信号x_wb[n]が入力され、これに、図3に示したような非線形関数(半波整流)によって基本周波数の倍音ごとに周波数領域でピークを持つ構造(調波構造)にする非線形処理を施し、これによって、広帯域化されたデータ長2Nの第1の広帯域信号y1[n]を得る。
歪み制御処理部40は、歪み成分生成処理部401と、歪み低減処理部402とを備える。また歪み成分生成処理部401は、ピーク除去処理部401Aを備える。第1の広帯域信号y1[n]における広帯域化処理部20の残差広帯域化処理部203における非線形処理によって生成された調波構造は、周波数領域でのパワーの極大点(調波構造の山)のパワーが理想的な広帯域信号と比較すると小さくなっていたり、周波数領域でのパワーの極小点(調波構造の谷)のパワーが理想的な広帯域信号と比較すると大きくなっていたり、周波数領域でのパワーの極大点とその近傍にあるパワーの極小点のパワー差が理想的な広帯域信号と比較すると小さくなっていたりする。また、このようなことが、複数の周波数領域でのパワーの極大点及び極小点で起きる。第1の広帯域信号y1[n]と理想的な広帯域信号との差異や違いを、歪みあるいは歪み成分と呼ぶ。歪み制御処理部40は、この歪みを低減し、最終的な帯域拡張された信号が人工的ではない自然な音に聞こえるように制御する。
ピーク除去処理部401Aは、アップサンプリングされたデータ長2Nの入力信号x_wb[n]に対して、例えば図6(a)や図6(b)に示した非線形関数を用いて非線形処理を施すものであって、これにより広帯域化されるとともに時間領域の振幅の絶対値が大きいサンプルの振幅を低減して、データ長2Nのピーク除去された歪み信号d[n]を得る。なお、図6中のAは、閾値を示す。理想的な広帯域信号では調波構造の谷におけるパワーは小さいはずであり、ここでは、理想的な広帯域信号と広帯域化処理部20によって生成された第1の広帯域信号y1[n]との差異は、広帯域化処理部20によって生成された第1の広帯域信号y1[n]のそれぞれの周波数での調波構造の谷のパワー分であると考え、この調波構造の山のレベルが谷のレベルまで下げられた信号を歪み信号d[n]として算出する。
歪み低減処理部402は、データ長2Nの歪み信号d[n]を用いて、データ長2Nの第1の広帯域信号y1[n]に含まれる歪みを低減し、この歪みが歪み低減された広帯域信号を第2の広帯域信号y2[n]として出力する。すなわち、歪み低減処理部402は、歪み成分を表した歪み信号d[n]を用いて、第1の広帯域信号y1[n]の調波構造の谷のパワーを下げることで調波構造の歪みを低減し、理想的な広帯域信号に近づける処理を行う。
帯域通過フィルタ50は、歪み低減処理部402が出力するデータ長2Nの第2の広帯域信号y2[n]に対して、拡張した周波数帯域のみを通過させるフィルタ処理を施し、これにより通過した信号、すなわち拡張した周波数帯域の信号をデータ長2Nの第3の広帯域信号y3[n]として出力する。つまり、この実施例では、上記フィルタ処理により、fs_nb_high[Hz]からfs_wb_high[Hz]までの周波数帯域が通過して、この周波数帯域の信号が第3の広帯域信号y3[n]として得られる。
信号遅延処理部70は、アップサンプリングされたデータ長2Nの入力信号x_wb[n]を所定の時間(Dサンプル分)だけバッファし、アップサンプリングされた入力信号x_wb[n-D]として遅延させて出力することで、帯域通過フィルタ50から出力される信号とタイミングを合わせる。すなわち、所定の時間(Dサンプル分)は、広帯域化処理部20などへの入力から帯域通過フィルタ50から出力が得られるまでの処理遅延の時間に相当する。この値は、事前に求めておき、Dを常に固定値として用いればよい。
信号加算処理部80は、信号遅延処理部70から出力されるアップサンプリングされたデータ長2Nの入力信号x_wb[n-D]と、データ長2Nの第3の広帯域信号y3[n]とを、共にサンプリング周波数fs’[Hz]のままで加算して、データ長2Nの帯域拡張された広帯域信号y[n]を出力信号として得る。これにより、アップサンプリングされた入力信号x_wb[n-D]は、第3の広帯域信号y3[n]分だけ帯域拡張される。
以上のように、上記構成の信号帯域拡張装置では、帯域拡張処理部3にて帯域拡張処理を行うにあたり、歪み制御処理部40を設けて、これにより広帯域化処理に並列して、ピークを除去する処理を実施して基本周波数とその倍音の影響を除去して歪み成分を生成し、この歪み成分を用いて、広帯域化処理によって生じた調波構造の歪みを低減するようにしている。
したがって、上記構成の信号帯域拡張装置によれば、アップサンプリングを行う場合でも、音質のよい帯域拡張された信号を生成することができる。また歪み制御処理部40における計算量は少ないので、信号処理にかかる演算量を増大することもない。
また、入力信号がモノラル信号ではなくステレオ信号であったとしても、例えばL(左)チャネルとR(右)チャネルにそれぞれ上記帯域拡張処理部3における帯域拡張処理を施したり、和信号(LチャネルとRチャネルの信号の和)と差信号(LチャネルからRチャネルの信号の差)にそれぞれ上記の帯域拡張処理を施したりすることで同様の効果が得られる。
次に、上記第4の実施形態に係わる帯域拡張処理部3の変形例について説明する。その構成を図20に示す。この図に示すように、この変形例は、ピーク除去処理部401Aの後段に、低周波数域を強調する処理を実施する低域強調部404を設けるとともに、歪み低減処理部402の前段に、第2の歪み制御処理部90を設けたものである。この第2歪み制御処理部90は、周波数領域でのパワースペクトルのピークを強調する処理を実施するピーク強調処理部901と、周波数領域でのパワースペクトルのディップを強調する処理を実施するディップ強調処理部902とを備える。
ピーク強調処理部901は、図9に示した第1の実施例の変形例1で説明したように、広帯域化処理部20から出力された広帯域化されたデータ長2Nの第1の広帯域信号y1[n]に対して周波数領域でのパワースペクトルのピーク強調処理を施し、この処理によって得た信号をディップ強調処理部902に出力する。
ディップ強調処理部902は、ピーク強調した信号に対して周波数領域でのパワースペクトルのディップ強調処理を施し、この処理によって得た広帯域信号y0[n]を歪み低減処理部402に出力する。
ディップ強調処理部902は、ピーク強調した信号に対して周波数領域でのパワースペクトルのディップ強調処理を施し、この処理によって得た広帯域信号y0[n]を歪み低減処理部402に出力する。
一方、低域強調部404は、ピーク除去処理部401Aから出力されたデータ長2Nの広帯域の歪み信号d[n]に対して、ディエンファシスフィルタにより低周波数域を強調する処理を施して、拡張した低周波数域を強調したデータ長2Nの広帯域の歪み信号d0[n]を得る。ディエンファシスフィルタとしては、例えば式(6)に示す伝達関数を有するフィルタを用いる。
これに対して、歪み低減処理部402は、データ長2Nの歪み信号d0[n]を用いて、データ長2Nの広帯域信号y0[n]に含まれる歪みを低減し、この歪みが歪み低減された広帯域信号を第2の広帯域信号y2[n]として出力する。
以上のように、第4の実施形態の変形例では、第2の歪み制御処理部90を設けることで、拡張する周波数帯域において、線形予測合成前の広帯域化された信号について調波構造の山が盛り上がり谷が深くなり、山と谷がくっきりする。このため、広帯域化処理によって生じた調波構造の歪みが低減でき、広帯域化した帯域拡張された信号の音質を向上させることができる。
またこの変形例では、歪み成分生成処理部401で生成した歪み成分の低周波数域を強調するようにしているので、拡張する周波数帯域において、聴覚上、耳障りになりやすい低周波数域での調波構造の歪みをより低減させることができ、このために広帯域に帯域拡張された信号の音質を向上させることができる。
なお、この変形例では、低域強調部404および第2の歪み制御処理部90を両方適用しているが、いずれか一方を適用してもその効果が発揮される。
なお、この変形例では、低域強調部404および第2の歪み制御処理部90を両方適用しているが、いずれか一方を適用してもその効果が発揮される。
なお、この発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。
1…無線通信部、2…デコーダ、3…帯域拡張処理部、4…D/A変換器、5…スピーカ、6…記憶部、10…分析処理部、20…広帯域化処理部、30…合成処理部、40…歪み制御処理部、50…帯域通過フィルタ、60…アップサンプリング部、70…信号遅延処理部、80…信号加算処理部、90…第2の歪み制御処理部、101…線形予測分析部、102…逆フィルタ、201…スペクトル包絡広帯域化処理部、202…アップサンプリング部、203…残差広帯域化処理部、301…第1の線形予測合成部、401…歪み成分生成処理部、401A…ピーク除去処理部、401B…第2の線形予測合成部、402…歪み低減処理部、402A…周波数領域変換部、402B…パワー算出部、402C…周波数領域変換部、402D…パワー算出部、402E…抑圧ゲイン算出部、402F…スペクトル抑圧部、402G…時間領域変換部、403…ディップ強調処理部、404…低域強調部、901…ピーク強調処理部、902…ディップ強調処理部。
Claims (11)
- 帯域制限された入力信号の周波数帯域を拡げて広帯域信号に変換する広帯域化手段と、
前記入力信号から歪み成分を生成する歪み成分生成手段と、
この歪み成分生成手段が生成した歪み成分に基づいて、前記広帯域化手段が広帯域化した広帯域信号の歪みを低減する歪み低減手段とを具備することを特徴とする信号帯域拡張装置。 - 前記広帯域化手段は、非線形関数に基づいて、前記入力信号の周波数帯域を拡げることを特徴とする請求項1に記載の信号帯域拡張装置。
- 前記歪み成分生成手段は、前記広帯域化手段とは異なる非線形関数に基づいて、前記入力信号から歪み成分を生成することによって前記歪み成分を生成することを特徴とする請求項2に記載の信号帯域拡張装置。
- 前記歪み成分生成手段は、前記入力信号からピークを除去することで前記歪み成分を生成することを特徴とする請求項1または請求項2に記載の信号帯域拡張装置。
- 前記歪み成分生成手段は、前記入力信号から振幅の絶対値が所定の閾値以上の成分を除いて前記歪み成分を生成することを特徴とする請求項4に記載の信号帯域拡張装置。
- 前記歪み成分生成手段における前記所定の閾値は、前記入力信号の振幅あるいはパワーに基づいて設定されることを特徴とする請求項5に記載の信号帯域拡張装置。
- 前記歪み成分生成手段は、前記入力信号を平滑化することによって前記歪み成分を生成することを特徴とする請求項4に記載の信号帯域拡張装置。
- さらに、前記歪み成分生成手段が生成した歪み成分に対して、前記広帯域化手段が拡げた周波数帯域を強調する拡張域強調手段を備え、
前記歪み低減手段は、前記拡張域強調手段により強調された歪み成分に基づいて、前記広帯域化手段が広帯域化した広帯域信号の歪みを低減することを特徴とする請求項1乃至請求項7のいずれかに記載の信号帯域拡張装置。 - さらに、前記広帯域化手段によって周波数帯域が拡げられた広帯域信号の周波数スペクトルにおけるピークを強調する強調手段を備え、
前記歪み低減手段は、前記歪み成分生成手段が生成した歪み成分に基づいて、前記強調手段によりピークが強調された広帯域信号の歪みを低減することを特徴とする請求項1乃至請求項8のいずれかに記載の信号帯域拡張装置。 - さらに、前記広帯域化手段によって周波数帯域が拡げられた広帯域信号の周波数スペクトルにおけるディップを強調する強調手段を備え、
前記歪み低減手段は、前記歪み成分生成手段が生成した歪み成分に基づいて、前記強調手段によりディップが強調された広帯域信号の歪みを低減することを特徴とする請求項1乃至請求項8のいずれかに記載の信号帯域拡張装置。 - さらに、前記広帯域化手段によって周波数帯域が拡げられた広帯域信号の周波数スペクトルにおけるピークを強調する第1の強調手段を備え、
さらに、前記第1の強調手段によりピークが強調された広帯域信号の周波数スペクトルにおけるディップを強調する第2の強調手段を備え、
前記歪み低減手段は、前記歪み成分生成手段が生成した歪み成分に基づいて、前記第2の強調手段によりディップが強調された広帯域信号の歪みを低減することを特徴とする請求項1乃至請求項8のいずれかに記載の信号帯域拡張装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008070045A JP2009223210A (ja) | 2008-03-18 | 2008-03-18 | 信号帯域拡張装置および信号帯域拡張方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008070045A JP2009223210A (ja) | 2008-03-18 | 2008-03-18 | 信号帯域拡張装置および信号帯域拡張方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009223210A true JP2009223210A (ja) | 2009-10-01 |
Family
ID=41240017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008070045A Withdrawn JP2009223210A (ja) | 2008-03-18 | 2008-03-18 | 信号帯域拡張装置および信号帯域拡張方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009223210A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009229519A (ja) * | 2008-03-19 | 2009-10-08 | Oki Electric Ind Co Ltd | 音声帯域拡張装置、方法及びプログラム、並びに、音声通信装置 |
JP2009294501A (ja) * | 2008-06-06 | 2009-12-17 | D & M Holdings Inc | オーディオ信号補間装置 |
JP2011081033A (ja) * | 2009-10-02 | 2011-04-21 | Toshiba Corp | 信号処理装置、及び携帯端末装置 |
JP2012027114A (ja) * | 2010-07-21 | 2012-02-09 | Toa Corp | 音声検出装置 |
DE112010003828T5 (de) | 2009-09-28 | 2012-12-27 | Honda Motor Co., Ltd. | Leistungsausgabesystem |
CN110335623A (zh) * | 2019-07-09 | 2019-10-15 | 上海艾为电子技术股份有限公司 | 音频数据处理方法及装置 |
-
2008
- 2008-03-18 JP JP2008070045A patent/JP2009223210A/ja not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009229519A (ja) * | 2008-03-19 | 2009-10-08 | Oki Electric Ind Co Ltd | 音声帯域拡張装置、方法及びプログラム、並びに、音声通信装置 |
JP2009294501A (ja) * | 2008-06-06 | 2009-12-17 | D & M Holdings Inc | オーディオ信号補間装置 |
DE112010003828T5 (de) | 2009-09-28 | 2012-12-27 | Honda Motor Co., Ltd. | Leistungsausgabesystem |
JP2011081033A (ja) * | 2009-10-02 | 2011-04-21 | Toshiba Corp | 信号処理装置、及び携帯端末装置 |
JP2012027114A (ja) * | 2010-07-21 | 2012-02-09 | Toa Corp | 音声検出装置 |
CN110335623A (zh) * | 2019-07-09 | 2019-10-15 | 上海艾为电子技术股份有限公司 | 音频数据处理方法及装置 |
CN110335623B (zh) * | 2019-07-09 | 2022-02-22 | 上海艾为电子技术股份有限公司 | 音频数据处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4945586B2 (ja) | 信号帯域拡張装置 | |
JP5127754B2 (ja) | 信号処理装置 | |
JP5535241B2 (ja) | 音声信号復元装置および音声信号復元方法 | |
JP4818335B2 (ja) | 信号帯域拡張装置 | |
RU2552184C2 (ru) | Устройство для расширения полосы частот | |
US8271292B2 (en) | Signal bandwidth expanding apparatus | |
JP5419876B2 (ja) | スペクトル平滑化装置、符号化装置、復号装置、通信端末装置、基地局装置及びスペクトル平滑化方法 | |
JP5148414B2 (ja) | 信号帯域拡張装置 | |
TW201214419A (en) | Systems, methods, apparatus, and computer program products for wideband speech coding | |
JPWO2009022454A1 (ja) | 音声分離装置、音声合成装置および声質変換装置 | |
JP2008513848A (ja) | 音声信号の帯域幅を疑似的に拡張するための方法および装置 | |
Pulakka et al. | Speech bandwidth extension using gaussian mixture model-based estimation of the highband mel spectrum | |
JP5595605B2 (ja) | 音声信号復元装置および音声信号復元方法 | |
Kornagel | Techniques for artificial bandwidth extension of telephone speech | |
JP2009223210A (ja) | 信号帯域拡張装置および信号帯域拡張方法 | |
JP5443547B2 (ja) | 信号処理装置 | |
JP3748081B2 (ja) | 広帯域音声復元方法及び広帯域音声復元装置 | |
Lai et al. | A discriminative post-filter for speech enhancement in hearing aids | |
Purushotham et al. | Implementation of spectral subtraction using sub-band filtering in DSP C6748 processor for enhancing speech signal | |
JP3770901B2 (ja) | 広帯域音声復元方法及び広帯域音声復元装置 | |
JP4087823B2 (ja) | 広帯域音声復元方法及び広帯域音声復元装置 | |
JP3748080B2 (ja) | 広帯域音声復元方法及び広帯域音声復元装置 | |
JP3773509B2 (ja) | 広帯域音声復元装置及び広帯域音声復元方法 | |
JP3770899B2 (ja) | 広帯域音声復元方法及び広帯域音声復元装置 | |
JP2005321828A (ja) | 広帯域音声復元方法及び広帯域音声復元装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20110607 |