JP6065488B2 - 帯域拡張装置及び方法 - Google Patents

帯域拡張装置及び方法 Download PDF

Info

Publication number
JP6065488B2
JP6065488B2 JP2012206012A JP2012206012A JP6065488B2 JP 6065488 B2 JP6065488 B2 JP 6065488B2 JP 2012206012 A JP2012206012 A JP 2012206012A JP 2012206012 A JP2012206012 A JP 2012206012A JP 6065488 B2 JP6065488 B2 JP 6065488B2
Authority
JP
Japan
Prior art keywords
high frequency
band
frequency amplitude
amplitude
unvoiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012206012A
Other languages
English (en)
Other versions
JP2014059525A (ja
Inventor
大 藤枝
大 藤枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2012206012A priority Critical patent/JP6065488B2/ja
Publication of JP2014059525A publication Critical patent/JP2014059525A/ja
Application granted granted Critical
Publication of JP6065488B2 publication Critical patent/JP6065488B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)

Description

本発明は、帯域拡張装置及び方法に関し、例えば、電話機器が出力する音声信号の音質の向上を図り、明瞭性の高い音声信号を出力する帯域拡張装置及び方法に適用し得るものである。
電話機器で伝送できる音声信号の周波数帯域は、約300Hzから3.4kHzである。
このような電話帯域に帯域制限された狭帯域音声信号は、本来の音声よりもこもった音質になるため、言葉が聞き取りづらくなるといった問題が生じる。
この問題を解決するために、3.4kHz以上の高域成分を追加して、音声の明瞭性を向上させる帯域拡張技術が開発されている。帯域拡張方法は3つの方式に大別される。
第1の方式は、狭帯域音声信号に対してパラメトリックな解析手段を講じ、その結果に基づいて高域成分を追加する方式である。ここでは、この方式を「P方式」と呼ぶ。パラメトリックな解析手段として最も多く利用されているのは線形予測分析(LPC)である。高域成分の追加方法としては、例えば、LPC係数を広帯域に拡張する方法や、LPC係数、PARCOR係数、または線スペクトル周波数と高域成分の情報を紐付けして選択的に拡張する方法等がある。
第2の方式は、狭帯域音声信号に対してノンパラメトリックな解析手段を講じ、その結果に基づいて高域成分を追加する方式である。ここでは、この方式を「NP方式」と呼ぶ。ノンパラメトリックな解析手段としては、例えば、FFTや改良離散コサイン変換(MDCT)、フィルタバンクを使う方法等が代表的である。高域成分の追加方法としては、例えば、解析結果と高域成分の情報を紐付けして選択的に拡張する方法や、狭帯域音声信号の周波数スペクトルを複製して高域に追加する方法等がある。
第3の方式は、狭帯域音声信号に対して時間額域で処理を施すことで高域成分を生成し、狭帯域音声信号と生成した高域成分とを加算することで広帯域音声信号を生成する方式である。ここでは、この方式を「T方式」と呼ぶ。ほとんどの場合、時間額域の処理は非線形な処理である。また、高域成分の一部または全部として適当な雑音を利用する方法も多い。
P方式は、LPC係数の拡張や解析結果と高域成分との紐付けにコードブックを用意しなければならず、リソースを消費する。またコードブック探索にかかる演算量も無視できない。また、NP方式は、時間−周波数変換処理を伴うため、演算量が多い。
これらに対して、T方式は時間領域で処理を行う上にコードブックを必要としないため、少ない計算量と少ないリソースで帯域拡張を実現できるというメリットがある。
T方式の最も基本的な実施形態を、図1に示して簡単に説明する。この形態は、サンプリング周波数変換処理部101、バンドパスフィルタリング処理部102、全波整流処理部103、ハイパスフィルタリング処理部104、乗算処理部106、加算処理部107を有する。
サンプリング周波数変換処理部101は、アップサンプリング処理を行うものであり、例えばサンプリング周波数8kHzの狭帯域音声信号を、サンプリング周波数16kHzサンプリングの音声信号に変換する。
バンドパスフィルタリング処理部102から、例えば帯域2kHz〜4kHzの濾波信号を得る。前記濾波信号は、全波整流処理部103によって0Hz〜8kHzの全帯域を有する信号となる。ハイパスフィルタリング処理部104によって例えば4kHz以上の成分を濾波し、拡張高域成分とする。
乗算処理部106は、事前に設定した倍率105を拡張高域成分に乗じて、高域成分の振幅を調整する。加算処理部107は、アップサンプリングされた狭帯域音声信号と振幅調整された拡張高域成分とを加算して、広帯域音声信号を出力する。
図1の方式において、倍率105は定数であり、多くの場合にこの方式がうまく動作するように経験的に設定する。しかしながら、拡張高域成分の振幅と真の高域成分の振幅とは一般に比例しないため、振幅調整された拡張高域成分の振幅が大きすぎる、または小さすぎる、または広帯域音声信号のスペクトルが不自然な形状となる、といった問題が生じる。
この問題を解決するために、これまでにいくつかの技術が開発されている(特許文献1、特許文献2、特許文献3、特許文献4参照)。
特許文献1〜3の記載技術は、帯域拡張された広帯域音声信号のスペクトルが不連続である場合に音質が劣化するとしており、これを解決することを課題としている。
特許文献1に開示されている技術では、狭帯域音声信号における低域と高域とのパワー関係が、狭帯域音声信号と高域成分間のパワー関係にも類推適用できるとして、狭帯域音声信号を2つの帯域に分割し、それら2つの帯域のパワー比を拡張高域成分のゲインとして使っている。
特許文献2に開示されている技術でも、2つの帯域のパワー比を用いて拡張高域成分のゲインを決定する。特許文献1ではパワーを計算する帯域を低域側0Hz〜2kHz、高域側2kHz〜4kHzというように広くとるのに対して、特許文献2ではパワーを計算する帯域を、低域側は2kHzを含む狭帯域Δω、高域側は4kHzを含む狭帯域Δωとしている。
特許文献3に開示されている技術では、狭帯域音声信号をスペクトル解析し、解析結果に基づいて広帯域音声信号のスペクトル形状が連続となるように拡張高域成分のスペクトル形状の整形及びゲインの調整を行っている。より具体的には、狭帯域音声信号と拡張高域成分のスペクトルの減衰カーブを似せるように拡張高域成分のスペクトル形状を整形し、帯域拡張された広帯域音声信号のスペクトルが連続となるように拡張高域成分のゲインを調整する。
特許文献4に開示されている技術では、狭帯域音声信号をHPFに通して得られた信号の平滑化絶対値の逆数を利用して、拡張高域成分のゲインを算出する。より具体的には、平滑化絶対値に小さな定数を加算した値で、平滑化絶対値の最大値を割った値を拡張高域成分のゲインとしている。ここで小さな定数は、分母が0になる不都合を防ぐために加算される値で、適宜好適な値が設定される。
特開2007−310296号公報 特許第4627548号公報 特許第3810257号公報 WO/2008/015732
しかしながら、上述した特許文献1〜4に記載の音声帯域拡張方式は、以下のような問題が生じ得る。
特許文献1及び2は、狭帯域音声信号を2つに帯域分割した2帯域のパワー比を使っているが、パワー比の分母に当たる帯域のパワーが著しく小さいとき、このパワー比は発散するため、拡張高域成分が異常に強調された広帯域音声信号を生成してしまうという不安定さを有する。
特許文献3は、狭帯域音声信号の帯域から拡張高域成分の帯域に向かってパワーは減衰していくことを前提に処理を行っているため、低域成分よりも高域成分が強くなるような無声音子音の拡張高域成分の振幅またはゲインを正しく推定することはできない。
特許文献4は、比を計算する分母に小さな定数を加算することによって不安定さを排除しているが、狭帯域音声信号のHPF出力だけしか使用しないため、狭帯域音声信号のスペクトル形状を利用出来ず、拡張高域成分のゲインを正しく推定できない。
以上のように、従来の音声帯域拡張方法はシステムの不安定さを有しているか、無声音子音の拡張高域成分の振幅を正しく推定できないという課題があった。
そこで、本発明は、上述の課題に鑑みてなされたものであり、処理を時間領域で行うため演算量が少なく、拡張高域成分の安定な推定が可能で、さらに無声音子音の拡張高域成分の振幅までも推定できる帯域拡張装置及び方法を提供しようとするものである。
かかる課題を解決するために、第1の本発明は、周波数帯域が帯域BL(BLは任意の帯域)に制限された狭帯域信号を、帯域BLより高域の周波数帯域である帯域BH(BHは帯域BLより高域の任意の帯域)の信号成分を含むように拡張する帯域拡張装置において、(1)狭帯域信号のサンプリング周波数を2倍以上のサンプリング周波数に変換するサンプリング周波数変換手段と、(2)サンプリング周波数変換手段の出力信号から帯域BLを有さず帯域BHを有する拡張高域成分を生成する拡張高域成分生成手段と、(3)サンプリング周波数変換手段の出力信号から狭帯域信号のスペクトル形状を解析するスペクトル形状解析手段と、(4)スペクトル形状解析手段の出力結果に基づいて複数の推定方法を用いて本来の高域成分の振幅を推定して高域振幅推定値を出力する高域振幅推定手段と、(5)拡張高域成分の振幅が高域振幅推定値となるように拡張高域成分のゲインを決定するゲイン決定手段と、(6)拡張高域成分に前記ゲインを乗じた信号とサンプリング周波数変換手段出力信号とを加算合成する合成手段とを備え、高域振幅推定手段が、スペクトル形状解析手段の出力結果に基づいて無声音成分の高域振幅を推定する無声音高域振幅推定部と、スペクトル形状解析手段の出力結果に基づいて有声音成分の高域振幅を推定する有声音高域振幅推定部と、スペクトル形状解析手段の出力結果に基づいて高域振幅の補正値を出力する高域振幅補正部と、無声音高域振幅推定部から出力された無声音高域振幅推定値と有声音高域振幅推定部から出力された有声音高域振幅推定値との2個の高域振幅推定値と、高域振幅補正部から出力された高域振幅補正値とを加重加算することで高域振幅推定値を生成する高域振幅決定部とを有することを特徴とする帯域拡張装置である。
第2の本発明は、周波数帯域が帯域BL(BLは任意の帯域)に制限された狭帯域信号を、帯域BLより高域の周波数帯域である帯域BH(BHは帯域BLより高域の任意の帯域)の信号成分を含むように拡張する帯域拡張方法において、(1)サンプリング周波数変換手段が、狭帯域信号のサンプリング周波数を2倍以上のサンプリング周波数に変換し、(2)拡張高域成分生成手段が、サンプリング周波数変換手段の出力信号から帯域BLを有さず帯域BHを有する拡張高域成分を生成し、(3)スペクトル形状解析手段が、サンプリング周波数変換手段の出力信号から狭帯域信号のスペクトル形状を解析し、(4)高域振幅推定手段が、スペクトル形状解析手段の出力結果に基づいて本来の高域成分の振幅を推定して高域振幅推定値を出力し、(5)ゲイン決定手段が、拡張高域成分の振幅が高域振幅推定値となるように拡張高域成分のゲインを決定し、(6)合成手段が、拡張高域成分にゲインを乗じた信号とサンプリング周波数変換手段出力信号とを加算合成し、高域振幅推定手段が、スペクトル形状解析手段の出力結果に基づいて無声音成分の高域振幅を推定する無声音高域振幅推定工程と、スペクトル形状解析手段の出力結果に基づいて有声音成分の高域振幅を推定する有声音高域振幅推定工程と、スペクトル形状解析手段の出力結果に基づいて高域振幅の補正値を出力する高域振幅補正工程と、無声音高域振幅推定工程で出力された無声音高域振幅推定値と有声音高域振幅推定工程で出力された有声音高域振幅推定値との2個の高域振幅推定値と、高域振幅補正工程で出力された高域振幅補正値とを加重加算することで高域振幅推定値を生成する高域振幅決定工程とを有することを有することを特徴とする帯域拡張方法である。
本発明によれば、処理を時間領域で行うため演算量が少なく、拡張高域成分の安定な推定が可能で、さらに無声音子音の拡張高域成分の振幅までも推定できるので、安定かつ高い精度で推定することが可能であり、広帯域音声信号の明瞭度を向上させることができる。
従来のT方式を採用する音声帯域拡張装置の構成を示す構成図である。 第1の実施形態の音声帯域拡張装置の構成を示すブロック図である。 第1の実施形態の拡張高域成分の無声音の振幅特性を説明する説明図である。 第1の実施形態の拡張帯域成分の無声音/sh/の振幅特性を示す図である。 第1の実施形態の拡張高域成分の有声音の振幅特性を説明する説明図である。 第1の実施形態の拡張帯域成分の有声音/a/の振幅特性を示す図である。 第1の実施形態の無声音高域振幅推定処理部と有声音高域振幅推定処理部により推定される振幅を比較する図である。 第1の実施形態の実際に計測された音声の平均振幅特性を示す図である。 第2の実施形態の音声帯域拡張装置の構成を示すブロック図である。 第3の実施形態の音声帯域拡張装置の構成を示すブロック図である。 第3の実施形態において、例えば男声「未知の世界です」の音声波形を示す図である。 第3の実施形態において、例えば男声「未知の世界です」の1次自己相関係数を示す図である。 第4の実施形態の音声帯域拡張装置の構成を示すブロック図である。
(A)第1の実施形態
以下、本発明の帯域拡張装置及び方法の第1の実施形態を、図面を参照しながら詳細に説明する。
第1の実施形態では、上述したT方式をベースとした音声帯域拡張方式に本発明を適用する場合を例示する。
(A−1)第1の実施形態の構成及び動作
図2は、第1の実施形態の音声帯域拡張装置の構成を示すブロック図である。
図2において、第1の実施形態の音声帯域拡張装置200Aは、サンプリング周波数変換部201、拡張広域成分生成部204、スペクトル形状解析部208、高域振幅推定部215、絶対値処理部220、平滑化LPF221、ゲイン計算処理部222、乗算処理部223、加算処理部224を有する。
第1の実施形態の音声帯域拡張装置200Aは、0Hz〜4kHz(帯域BLに相当する)の帯域を有する狭帯域音声信号Sを入力し、この狭帯域音声信号Sに4kHz〜8kHz(帯域BHに相当する)の帯域を有する拡張高域成分XHを生成・付加して、0Hz〜8kHzの広帯域音声信号Xを生成して、より高い明瞭性を有する音声信号を出力する。
以下、個々のブロックを詳細に説明する。
サンプリング周波数変換部201は、アップサンプリング処理部202と、エイリアシングフィルタリング処理部203とで構成される。
アップサンプリング処理部202は、0を1サンプルおきに挿入することで、狭帯域音声信号のサンプリング周波数を2倍以上のサンプリング周波数(例えば8kHzから16kHz)に変更する。すなわち、時刻t(8000tは整数)において、アップサンプリング処理部202の入力をS(n)(n=8000t)とするとき、同時刻にアップサンプリング処理部202は、S’(2n)=S(n)、S’(2n+1)=0を出力する。このようにアップサンプリングを実施すると、S’の周波数スペクトルの4kHz〜8kHzにはSの0Hz〜4kHzを折り返した歪み成分が生じる。
エイリアシングフィルタリング処理部203は、この歪み成分を除去する。エイリアシングフィルタリング処理部203のエイリアシングフィルタはカットオフ周波数4kHzのローパスフィルタである。
拡張高域成分生成部204は、バンドパスフィルタリング処理部205と全波整流処理部206とハイパスフィルタリング処理部207により構成される。
バンドパスフィルタリング処理部205のバンドパスフィルタで通過させる帯域は2kHz〜4kHzとする。バンドパスフィルタリング処理部205の出力に対して全波整流処理部206を施すと、0Hz〜8kHzの全帯域を有する信号が得られる。そして、全波整流処理部206の出力に対して帯域BHを通過させるハイパスフィルタリング処理部207を施すことで、拡張高域成分EHを生成する。なお、ハイパスフィルタリング処理部207のバンドパスフィルタで通過させる帯域には任意の帯域を設定することができる。また、全波整流処理部206の代わりに他の非線形処理(例えば半波整流処理や2乗処理など)を用いても良い。
スペクトル形状解析部208は、帯域分割バンドパスフィルタリング(BPF)処理部209及び210と、絶対値処理部211及び212と、平滑化ローパスフィルタリング(LPF)処理部213及び214とで構成される。
帯域分割バンドパスフィルタリング処理部209及び210は、帯域を分割するためのバンドパスフィルタである。例えば、帯域分割バンドパスフィルタリング処理部209の帯域は0Hz〜2kHz(すなわちローパスフィルタ)とし、帯域分割バンドパスフィルタリング処理部210の帯域は2kHz〜4kHzとする。なお、この例では0Hz〜4kHzの全帯域を通過帯域の重なりなしに2分割するとしたが、2つのバンドパスフィルタを合わせたときの通過帯域が全帯域を網羅しなくてもよいし、2つのバンドパスフィルタの通過帯域は重なってもよい。
絶対値処理部211及び212は、2つの帯域それぞれの振幅を計算するために、帯域分割バンドパスフィルタリング処理部209及び210からのそれぞれの帯域成分の絶対値をとるものである。
平滑化ローパスフィルタリング処理部213及び214は、絶対値化処理部211及び212からの信号を平滑化フィルタで平滑化するものである。平滑化ローパスフィルタリング処理部213及び214の平滑化フィルタは、同じ特性を持ち、その伝達関数はH(z)=(1−α)/(1−αz−1)で表される1次のIIRフィルタである。ここで、αは時定数と呼ばれる0〜1の定数である。
帯域分割バンドパスフィルタリング処理部209、絶対値処理部211、平滑化ローパスフィルタリング処理部213を通って出力された帯域0Hz〜2kHzの短期平均振幅をALL、帯域分割バンドパスフィルタリング処理部210、絶対値処理部212、平滑化ローパスフィルタリング処理部214を通って出力された帯域2kHz〜4kHzの短期平均振幅をALHとおく。
高域振幅推定部215は、無声音高域振幅推定処理部216、有声音高域振幅推定処理部217、高域振幅補正処理部218、高域振幅決定処理部219で構成される。以下、高域振幅推定部215を構成する4つの処理について詳細に説明する。
無声音高域振幅推定処理部216は、次式(1)を用いて、拡張高域成分の無声音の振幅AUを推定する。
AU=ALH/ALL …(1)
この推定式(1)は、特許文献1に記載のゲインの推定式と同じであるが、本発明では主に拡張高域成分の無声音の振幅を推定するために使う。
まず、(1)式が無声音の振幅を推定できる仕組みを説明する。無声音の振幅特性は、図3のような形状となることが多い。図3において、無声音の振幅形状は、ピッチの存在する0Hz〜2kHzにはほとんどエネルギーが存在せず、4kHz〜8kHzにエネルギーのほとんどが集中し、振幅特性の遷移帯域が2kHz〜4kHzの一部に漏れている、という特徴を有する。
したがって、0Hz〜2kHzの平均振幅で2kHz〜4kHzの平均振幅を割ると、大きな値が得られる。これにより、無声音の高域成分のエネルギーが推定できるのである。無声音(/sh/)の振幅特性の例を図4に示す。
次に、無声音高域振幅推定の安定性について説明する。AUは非常に不安定なパラメータである。前述したとおり、無声音は0Hz〜2kHzにはあまりエネルギーを持たない。このエネルギーが著しく小さい場合には、AUは発散する。また無音区間では、ALLとALHは共に小さな値をとる。分母のALLが小さいために、AUは無音区間であるにも関わらず小さな値となるとは限らない。なお、有声音の振幅特性は図5のようになるため(有声音(/a/)の振幅特性の例を図6に示す)、本来(1)式は有声音の振幅を推定する能力も潜在的に有している。しかしながら、以上のような不安定性課題を有しているために、(1)式によって無声音と有声音の両方の振幅を推定するのは事実上困難である。この不安定性課題の解決は、有声音高域振幅推定処理部217と高域振幅決定処理部219によってなされる。
有声音高域振幅推定処理部217は、次式(2)を用いて、拡張高域成分の有声音の振幅AVを推定する。
AV=ALH/(ALL+C0) …(2)
ここで、C0は適当な定数である。(2)式は(1)式と似た動作をするが、定数C0の導入により、無声音でAVが発散することや無音区間でAVが十分小さくならないことを防いでいる。(1)式及び(2)式の2つの式を図7で比較すると、2つの式は似た特徴を持っているが、(2)式はALL→0でも発散しないことがわかる。この安定化効果により、AVはALLとALHの比を拡張高域成分の振幅に安定的に反映することができるが、無声音の拡張高域成分の振幅の推定が不十分となる副作用を生じる。したがって、拡張高域成分の有声音の振幅を推定するのに有効である。
高域振幅補正処理部218は、次式(3)を用いて、拡張高域成分の振幅推定値を補正する値を生成する。
AC=ALL …(3)
音声信号のほとんどは有声音であり、有声音ではほとんどの場合ALLがALHに比べて大きい。実際に計測した音声の平均振幅特性を図8に示した。このため、低域0Hz〜4kHzのエネルギーはほとんどALLの帯域に集中している。これに対して、(1)式と(2)式の推定式の分子には、ALLが存在しない。このため、本来の音声信号の高域成分の振幅と、(1)式と(2)式によって推定した拡張高域成分の振幅には、ズレが生じてしまう。そのズレを、ACを用いて補正する。
高域振幅決定処理部219は、次式(4)を用いて、拡張高域成分の振幅を決定する。
AH=CU×AU+CV×AV+CC×AC …(4)
ここで、CUとCVとCCは2つの推定値と補正値のバランスを調整する適当な定数係数である。定数係数CU、CV、CCそれぞれを調整することによって、無声音の強調度合いとACによる補正度合いを設定することができる。
以上が高域振幅推定部215の説明である。
絶対値処理部220及び平滑化ローパスフィルタリング処理部221は、拡張高域成分EHの短期平均振幅AEHを計算するための処理で、それぞれ絶対値処理部211及び平滑化ローパスフィルタリング処理部213と同様の処理を行うものである。
ゲイン計算処理部222は、高域振幅推定部215が出力する高域振幅の推定値AHと、平滑化ローパスフィルタリング処理部221が出力する拡張高域成分EHの振幅AEHとを用いて、拡張高域成分EHに乗ずるゲインGHを計算する。ゲイン計算処理部222により求められるゲインGHは次式(5)で表される。
GH=AH/AEH …(5)
乗算処理部223は、拡張高域成分生成部204が出力する拡張高域成分EHにゲイン計算処理部222が出力するゲインGHを乗じて拡張高域成分の振幅を調整する。
加算処理部224は、サンプリング周波数変換部201が出力するサンプリング周波数を変換された狭帯域信号XLと乗算処理223が出力する振幅調整済みの拡張高域成分XHを加算して、広帯域音声信号Xを出力する。
(A−2)第1の実施形態の効果
第1の実施形態によれば、無声音と有声音の拡張高域成分の振幅を別々に推定し、さらにこれら2つの推定値で表現できていない低域0Hz〜2kHzから高域4kHz〜8kHzへの直接的な影響を補正して拡張高域成分の振幅を推定しているので、従来よりも自然で明瞭度の高い広帯域音声信号を得ることができる。
(B)第2の実施形態
次に、本発明の帯域拡張装置及び方法の第2の実施形態を、図面を参照しながら詳細に説明する。
第2の実施形態でも、上述したT方式をベースとした音声帯域拡張方式に本発明を適用する場合を例示する。
(B−1)第2の実施形態の構成及び動作
図9は、第2の実施形態の音声帯域拡張装置の構成を示すブロック図である。
図9において、音声帯域拡張装置200Bは、サンプリング周波数変換部201、拡張広域成分生成部204、スペクトル形状解析部208、高域振幅推定部215、絶対値処理部220、平滑化LPF221、ゲイン計算処理部222、乗算処理部223、加算処理部224、音声区間検出処理部901、処理選択部902、無音区間高域振幅設定部903を有して構成される。
なお、図9において、図2の第1の実施形態の音声帯域拡張装置200Aの構成要件と同一又は対応するものについては同一符号を付しており、第1の実施形態と同一又は対応する構成要素の詳細な説明を省略する。
音声区間検出処理部901は、狭帯域音声信号Sを観察して、音声区間の検出結果VAFを出力する。音声区間検出処理部901は、音声区間ならVAF=1を出力し、無音区間ならVAF=0を出力する。音声区間検出方法には任意の方法を適用することが出来る。例えば、音声区間検出処理部901は、狭帯域音声信号Sの短区間平均振幅ASを算出し、短区間平均振幅がある閾値TASより大きければ音声区間(VAF=1)、小さければ無音区間(VAF=0)とすることで、音声区間検出を行うことができる。なお、この方法では音声区間検出処理901の入力と出力でサンプリング周波数が違っているが、例えば入力側で狭帯域音声信号の1サンプルS(n)が音声区間(または無音区間)のときには検出結果の2サンプルVAF(2n)、VAF(2n+1)を1(または0)とすれば、サンプリング周波数の整合を取ることが出来る。
ゲイン選択部902は、音声区間検出処理部901の出力結果に基づいて、拡張広域成分のゲインGHを選択するものである。ゲイン選択部902は、音声区間であると判定した場合、スイッチをSWV側へ切り替え、スペクトル形状解析部208及び高域振幅推定部215により算出される拡張高域成分の振幅推定値に基づいてゲインGHを決定する。すなわち、ゲイン選択部902は、スイッチをSWV側に切り替えてゲイン計算処理部222による拡張高域成分のゲインGHを乗算処理部223に与える。
逆に、無音区間であると判定した場合、ゲイン選択部902は、スイッチをSWS側に切り替え、後述する無音区間ゲイン設定部903から出力されるゲイン値GHSを拡張高域成分のゲインGHとして利用する。すなわち、ゲイン選択部902は、スイッチをSWS側に切り替えて無音区間ゲイン設定部903からの拡張高域成分のゲインGHSを乗算処理部223に与える。
無音区間高域振幅設定部903は、あらかじめ定めておいた無音区間の拡張高域成分のゲインGHSを出力する。無音区間の拡張高域成分のゲインGHSは定数である。
(B−2)第2の実施形態の効果
以上のように、第2の実施形態によれば、無音区間を検出して適当なゲインを与えることで、無音区間には対応していない高域振幅推定部215により誤った高域振幅推定値を拡張高域成分に適用することを避けることが出来るため、第1の実施形態よりも自然で雑音の少ない広帯域音声信号を得ることができる。
(C)第3の実施形態
次に、本発明の帯域拡張装置及び方法の第3の実施形態を、図面を参照しながら詳細に説明する。
第3の実施形態でも、上述したT方式をベースとした音声帯域拡張方式に本発明を適用する場合を例示する。
(C−1)第3の実施形態の構成及び動作
図10は、第3の実施形態の音声帯域拡張装置の構成を示すブロック図である。
図10において、第3の実施形態の音声帯域拡張装置200Cは、サンプリング周波数変換部201、拡張広域成分生成部204、スペクトル形状解析部208、高域振幅推定部1001、絶対値処理部220、平滑化LPF221、ゲイン計算処理部222、乗算処理部223、加算処理部224を有する。
第3の実施形態は、第1の実施形態の高域振幅推定部215に代えて、高域振幅推定部1001を有する。なお、図10において、図2の第1の実施形態の音声帯域拡張装置200Aの構成要件と同一又は対応するものについては同一符号を付しており、第1の実施形態と同一又は対応する構成要素の詳細な説明を省略する。
高域振幅推定部1001は、無声音高域振幅推定処理部216、有声音高域推定処理部217、高域振幅補正処理部218、有声無声推定処理部1002、高域振幅推定値係数決定処理部1003、高域振幅決定処理1004を有する。
なお、図10において、無声音高域振幅推定処理部216、有声音高域推定処理部217、高域振幅補正処理部218は、第1の実施形態と同一又は対応するものであり、これらの構成要素の詳細な説明を省略する。
高域振幅推定部1001は、スペクトル形状解析部208からのALL及びALHの他に、狭帯域音声信号Sの入力を受け、有声無声推定処理部1002と高域振幅推定値係数決定処理部1003を備え、高域振幅決定処理部1004がCUとCVの入力を外部から受けること以外は、第1の実施形態の高域振幅推定部215と同じである。
有声無声推定処理部1002は、狭帯域音声信号Sが有声音か無声音かを推定し、その結果PVを「0」または「1」の2値、または範囲0〜1の実数値で出力する。ここで、PVの数値は、1に近いほど有声音の割合が大きく、0に近いほど無声音の割合が大きいとする。
有声音か無声音かを推定する方法には任意の方法を適用することが出来る。
例えば、有声無声推定処理部1002は、1つの選択肢として、1次自己相関係数を用いることが出来る。1次自己相関係数は−1〜+1の値をとり、有声音の場合は+1に近づき、無声音の場合は小さくなる傾向がある。例として、男声「未知の世界です」の音声波形を図11に示し、その1次自己相関係数を図12に示す。無声音子音である/ch/、/s/、および/k/で、1次自己相関係数が小さくなっていることが確認でき、有声無声推定に有効であることがわかる。有声音か無声音かを推定する方法として1次自己相関係数を用いる場合、1次自己相関係数に1を足して2で割ることで0〜1の範囲に正規化した値を有声無声推定処理部1002の出力とする。
また例えば、別の選択肢として、有声無声推定処理部1002は、線形予測係数を算出し、事前に学習しておいた値と照合して有声音か無声音かを判定する処理を、有声無声推定処理とすることができる。この場合、有声無声推定処理部1002は「0」または「1」のような2値のいずれかを出力する。または、有声無声推定処理部1002は、有声音か無声音かの判定結果を適当な期間(例えば0.1秒間)観測し、有声音となったサンプル数を観測したサンプル数で割って得られる0〜1の範囲の値をPVとして出力してもよい。
なお、この方法では有声無声推定処理1002の入力と出力でサンプリング周波数が違っているが、例えば入力側の狭帯域信号の1サンプルS(n)に対する有声無声推定結果を、出力の2サンプルPV(2n)、PV(2n+1)に出力すれば、サンプリング周波数の整合を取ることが出来る。
高域振幅推定値係数決定処理部1003は、有声無声推定処理部1002の出力結果に基づいて、無声音高域振幅推定値AUの係数CUと有声音高域振幅推定値AVの係数CVを以下の式(6)及び式(7)によって決定する。
CU=CU0X(1−PV) …(6)
CV=CV0XPV …(7)
ここで、CU0およびCV0は適当な定数である。
以上のように、高域振幅推定値係数決定処理部1003は、適応的に決定された係数CUとCVを高域振幅決定処理部1004に入力する。
高域振幅決定処理部1004が(4)式で高域振幅推定値AHを算出する。ただし、定数係数CCは第1の実施形態と同様にあらかじめ決定しておく。なお、高域振幅決定処理1004は、CUとCVの入力を外部から受けること以外は、第1の実施形態の高域振幅決定処理219と同じである。
(C−2)第3の実施形態の効果
以上のように、第3の実施形態によれば、入力音声中の無声音成分と有声音成分の割合に応じて、2つの高域振幅推定値に掛かる重みを適応的に変更することによって、本来の高域振幅の推定精度を向上させることができるため、第1の実施形態よりも自然で明瞭度の高い広帯域音声信号を得ることができる。
(D)第4の実施形態
次に、本発明の帯域拡張装置及び方法の第4の実施形態を、図面を参照しながら詳細に説明する。
第4の実施形態でも、上述したT方式をベースとした音声帯域拡張方式に本発明を適用する場合を例示する。
図13は、第4の実施形態の音声帯域拡張装置の構成を示すブロック図である。
図13において、第4の実施形態の音声帯域拡張装置200Dは、サンプリング周波数変換部201、拡張広域成分生成部204、スペクトル形状解析部208、高域振幅推定部1001、絶対値処理部220、平滑化LPF221、ゲイン計算処理部222、乗算処理部223、加算処理部224、音声区間検出処理部901、処理選択部902、無音区間高域振幅設定部903を有して構成される。
なお、図13において、図2、図9及び図10の構成要件と同一又は対応するものについては同一符号を付しており、これらの構成要件と同一又は対応する構成要素の詳細な説明を省略する。
ゲイン選択部902は、音声区間検出処理部901の出力結果に基づいて、拡張広域成分のゲインGHを選択するものである。ゲイン選択部902は、音声区間であると判定した場合、スイッチをSWV側へ切り替え、スペクトル形状解析部208及び高域振幅推定部1001により算出される拡張高域成分の振幅推定値に基づいてゲインGHを決定する。すなわち、ゲイン選択部902は、スイッチをSWV側に切り替えてゲイン計算処理部222による拡張高域成分のゲインGHを乗算処理部223に与える。
逆に、無音区間であると判定した場合、ゲイン選択部902は、スイッチをSWS側に切り替え、後述する無音区間ゲイン設定部903から出力されるゲイン値GHSを拡張高域成分のゲインGHとして利用する。すなわち、ゲイン選択部902は、スイッチをSWS側に切り替えて無音区間ゲイン設定部903からの拡張高域成分のゲインGHSを乗算処理部223に与える。
無音区間高域振幅設定部903は、第2の実施形態と同様に、あらかじめ定めておいた無音区間の拡張高域成分のゲインGHSを出力する。無音区間の拡張高域成分のゲインGHSは定数である。
(D−2)第4の実施形態の効果
以上のように、第4の実施形態によれば、第2の実施形態の狭帯域音声信号Sが音声区間であると判断された場合にはおいて、2つの高域振幅推定値に掛ける重みを適応的に変更することによって、高域振幅の推定精度を向上させることができ、さらに第3の実施形態の狭帯域音声信号Sが無音と判断されるべき信号であった場合において、無音区間には対応していない高域振幅推定部1001により誤った高域振幅推定値を拡張高域成分に適用することを避けることができるため、第2の実施形態及び第3の実施形態よりも自然で明瞭度が高い雑音の少ない広帯域音声信号を得ることができる。
(E)他の実施形態
上述した第1〜第4の実施形態では、各構成要素がハードウェアに実現されているイメージで説明したが、各実施形態の各構成要素の全て又は一部がソフトウェア的に実行されるものであってもよい。
また、上述した第1〜第4の実施形態では、拡張対象が音声信号である場合を例示して説明したが、音声信号以外に音響信号であってもよい。
上述した第1〜第4の実施形態で例示した本発明によれば、拡張高域成分の振幅推定を無声音成分と有声音成分と補正成分とに分解したことでそれぞれを独立に制御できるようになる。
また、従来の技術によく見られるような、音声を無声音区間か有声音区間かに分類するのでなく、音声を無声音成分と有声音成分とに分解することで、判別ミスを起こす可能性がない。
さらには、発散しやすい無声音高域振幅推定処理と安定な有声音高域振幅推定処理とを併用することで、拡張高域成分の振幅を安定に推定できる。
つまり、本発明は、拡張高域成分の振幅推定を3つの推定処理で構成することによって、安定かつ高い精度で推定することが可能であり、したがって広帯域音声信号の明瞭度を向上させることができる。
200A〜200D…音声帯域拡張装置、
201…サンプリング周波数変換部、202…アップサンプリング処理部、203…エイリアシングフィルタリング処理部203、
204…拡張高域成分生成部、205…バンドパスフィルタリング処理部、206…全波整流処理部、207…ハイパスフィルタリング処理部、
208…スペクトル形状解析部、209及び210…帯域分割バンドパスフィルタリング処理部、211及び212…絶対値処理部、213及び214…平滑化ローパスフィルタリング処理部、
215及び1001…高域振幅推定部、216…無声音高域振幅推定処理部、217…有声音高域振幅推定処理部、218…高域振幅補正処理部、219…高域振幅決定処理部、
1002…有声無声推定処理部、1003…高域振幅推定値係数決定処理部、
220…絶対値処理部、221…平滑化ローパスフィルタリング処理部、
222…ゲイン計算処理部、223…乗算処理部、224…加算処理部、
901…音声区間検出処理部、902…ゲイン選択部、903…無音区間ゲイン設定部。

Claims (6)

  1. 周波数帯域が帯域BLに制限された狭帯域信号を、上記帯域BLより高域の周波数帯域である帯域BHの信号成分を含むように拡張する帯域拡張装置において、
    上記狭帯域信号のサンプリング周波数を2倍以上のサンプリング周波数に変換するサンプリング周波数変換手段と、
    上記サンプリング周波数変換手段の出力信号から上記帯域BLを有さず上記帯域BHを有する拡張高域成分を生成する拡張高域成分生成手段と、
    上記サンプリング周波数変換手段の出力信号から狭帯域信号のスペクトル形状を解析するスペクトル形状解析手段と、
    上記スペクトル形状解析手段の出力結果に基づいて複数の推定方法を用いて本来の高域成分の振幅を推定して高域振幅推定値を出力する高域振幅推定手段と、
    上記拡張高域成分の振幅が上記高域振幅推定値となるように上記拡張高域成分のゲインを決定するゲイン決定手段と、
    上記拡張高域成分に上記ゲインを乗じた信号と上記サンプリング周波数変換手段出力信号とを加算合成する合成手段と
    を備え
    上記高域振幅推定手段が、
    上記スペクトル形状解析手段の出力結果に基づいて無声音成分の高域振幅を推定する無声音高域振幅推定部と、
    上記スペクトル形状解析手段の出力結果に基づいて有声音成分の高域振幅を推定する有声音高域振幅推定部と、
    上記スペクトル形状解析手段の出力結果に基づいて高域振幅の補正値を出力する高域振幅補正部と、
    上記無声音高域振幅推定部から出力された無声音高域振幅推定値と上記有声音高域振幅推定部から出力された有声音高域振幅推定値との2個の高域振幅推定値と、上記高域振幅補正部から出力された高域振幅補正値とを加重加算することで上記高域振幅推定値を生成する高域振幅決定部と
    を有する
    ことを特徴とする帯域拡張装置。
  2. 上記高域振幅推定手段が、
    上記狭帯域信号が有声音か無声音かを判定する有声無声推定部と、
    上記有声無声推定部の判定結果に応じて上記無声音高域振幅推定値の加重係数と上記有声音高域振幅推定値の加重係数を適応的に決定する高域振幅推定値係数決定部と
    を更に有することを特徴とする請求項に記載の帯域拡張装置。
  3. 上記高域振幅推定手段が、
    上記狭帯域信号に含まれる有声音成分と無声音成分との割合を推定する有声無声推定部と、
    上記有声無声推定部の出力結果に応じて上記無声音高域振幅推定値の加重係数と上記有声音高域振幅推定値の加重係数を適応的に決定する高域振幅推定値係数決定部と
    を更に有することを特徴とする請求項に記載の帯域拡張装置。
  4. 上記狭帯域信号が音声区間か無音区間かを判定する音声区間検出手段と、
    上記狭帯域信号が無音区間であった場合に適用する上記ゲインの値を出力する無音区間ゲイン設定手段と、
    上記音声区間検出手段の判定結果に応じて前記ゲイン決定手段と上記無音区間ゲイン設定手段とのどちらの出力を前記ゲインとするかを選択するゲイン選択手段と
    を備えることを特徴とする請求項1〜のいずれかに記載の帯域拡張装置。
  5. 上記スペクトル形状解析手段が、
    少なくとも2つ以上のバンドパスフィルタリング部と、
    上記バンドパスフィルタリング部の出力信号の短期平均振幅を算出する振幅算出手段と
    を有することを特徴とする請求項1〜のいずれかに記載の帯域拡張装置。
  6. 周波数帯域が帯域BLに制限された狭帯域信号を、上記帯域BLより高域の周波数帯域である帯域BHの信号成分を含むように拡張する帯域拡張方法において、
    サンプリング周波数変換手段が、上記狭帯域信号のサンプリング周波数を2倍以上のサンプリング周波数に変換し、
    拡張高域成分生成手段が、上記サンプリング周波数変換手段の出力信号から上記帯域BLを有さず上記帯域BHを有する拡張高域成分を生成し、
    スペクトル形状解析手段が、上記サンプリング周波数変換手段の出力信号から狭帯域信号のスペクトル形状を解析し、
    高域振幅推定手段が、上記スペクトル形状解析手段の出力結果に基づいて複数の推定方法を用いて本来の高域成分の振幅を推定して高域振幅推定値を出力し、
    ゲイン決定手段が、上記拡張高域成分の振幅が上記高域振幅推定値となるように上記拡張高域成分のゲインを決定し、
    合成手段が、上記拡張高域成分に上記ゲインを乗じた信号と上記サンプリング周波数変換手段出力信号とを加算合成し、
    上記高域振幅推定手段が、
    上記スペクトル形状解析手段の出力結果に基づいて無声音成分の高域振幅を推定する無声音高域振幅推定工程と、
    上記スペクトル形状解析手段の出力結果に基づいて有声音成分の高域振幅を推定する有声音高域振幅推定工程と、
    上記スペクトル形状解析手段の出力結果に基づいて高域振幅の補正値を出力する高域振幅補正工程と、
    上記無声音高域振幅推定工程で出力された無声音高域振幅推定値と上記有声音高域振幅推定工程で出力された有声音高域振幅推定値との2個の高域振幅推定値と、上記高域振幅補正工程で出力された高域振幅補正値とを加重加算することで上記高域振幅推定値を生成する高域振幅決定工程と
    を有する
    ことを特徴とする帯域拡張方法。
JP2012206012A 2012-09-19 2012-09-19 帯域拡張装置及び方法 Expired - Fee Related JP6065488B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012206012A JP6065488B2 (ja) 2012-09-19 2012-09-19 帯域拡張装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012206012A JP6065488B2 (ja) 2012-09-19 2012-09-19 帯域拡張装置及び方法

Publications (2)

Publication Number Publication Date
JP2014059525A JP2014059525A (ja) 2014-04-03
JP6065488B2 true JP6065488B2 (ja) 2017-01-25

Family

ID=50616022

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012206012A Expired - Fee Related JP6065488B2 (ja) 2012-09-19 2012-09-19 帯域拡張装置及び方法

Country Status (1)

Country Link
JP (1) JP6065488B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106782594A (zh) * 2016-12-14 2017-05-31 南京航空航天大学 一种抑制窄带主动噪声控制中频率不匹配的方法
EP4296728A4 (en) * 2021-03-19 2024-08-21 Keiwa Incorporated LIGHT DIFFUSION SHEET, BACKLIGHT UNIT, LIQUID CRYSTAL DISPLAY DEVICE AND INFORMATION EQUIPMENT

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4281349B2 (ja) * 2001-12-25 2009-06-17 パナソニック株式会社 電話装置

Also Published As

Publication number Publication date
JP2014059525A (ja) 2014-04-03

Similar Documents

Publication Publication Date Title
EP1638083B1 (en) Bandwidth extension of bandlimited audio signals
US10510363B2 (en) Pitch detection algorithm based on PWVT
EP2788980B1 (en) Harmonicity-based single-channel speech quality estimation
JP4733727B2 (ja) 音声楽音擬似広帯域化装置と音声楽音擬似広帯域化方法、及びそのプログラムとその記録媒体
RU2756435C2 (ru) Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты
JP5453740B2 (ja) 音声強調装置
WO2006006366A1 (ja) ピッチ周波数推定装置およびピッチ周波数推定方法
TWI518676B (zh) 低複雜度聽覺事件邊界檢測技術
JPWO2002080148A1 (ja) 雑音抑圧装置
JP2005165021A (ja) 雑音低減装置、および低減方法
JP6305694B2 (ja) 信号処理装置及び信号処理方法
JP6065488B2 (ja) 帯域拡張装置及び方法
JP5949379B2 (ja) 帯域拡張装置及び方法
JP4173525B2 (ja) 雑音抑圧装置及び雑音抑圧方法
Sun et al. Speech enhancement via two-stage dual tree complex wavelet packet transform with a speech presence probability estimator
JP7152112B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP4098271B2 (ja) 雑音抑圧装置
JP6163785B2 (ja) 音声帯域拡張装置及びプログラム
JP5596618B2 (ja) 擬似広帯域音声信号生成装置、擬似広帯域音声信号生成方法、及びそのプログラム
US8583425B2 (en) Methods, systems, and computer readable media for fricatives and high frequencies detection
JP6559576B2 (ja) 雑音抑圧装置、雑音抑圧方法及びプログラム
JP6089789B2 (ja) 音声帯域拡張装置及びプログラム、並びに、無声音拡張装置及びプログラム
JP6451143B2 (ja) 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム
KR101192366B1 (ko) 현출성을 이용하는 시간-주파수 조합영역의 피치 추정 시스템 및 방법
CN116137154A (zh) 语音信号的信号增强方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160510

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161212

R150 Certificate of patent or registration of utility model

Ref document number: 6065488

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees