JP2014059525A

JP2014059525A - 帯域拡張装置及び方法

Info

Publication number: JP2014059525A
Application number: JP2012206012A
Authority: JP
Inventors: Masaru Fujieda; 大藤枝
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2012-09-19
Filing date: 2012-09-19
Publication date: 2014-04-03
Anticipated expiration: 2032-09-19
Also published as: JP6065488B2

Abstract

【課題】電話帯域に帯域制限された音声信号の再生帯域を拡大して、通話音声の明瞭性を向上させる。
【解決手段】本発明は、電話機器が出力する音声信号の音質の向上を図り、明瞭性の高い音声信号を出力する音声帯域拡張方法に関するものである。そして、入力信号に基づいて、その帯域よりも周波数が高い帯域の信号成分を生成する拡張高域成分生成手段と、入力信号のスペクトル形状に応じ、本来の高域成分の振幅を推定する高域振幅推定手段と、推定した高域成分の振幅を拡張高域成分に反映させる高域振幅調整手段と、入力信号に加算する合成手段とを有することを特徴とする。
【選択図】図２

Description

本発明は、帯域拡張装置及び方法に関し、例えば、電話機器が出力する音声信号の音質の向上を図り、明瞭性の高い音声信号を出力する帯域拡張装置及び方法に適用し得るものである。

電話機器で伝送できる音声信号の周波数帯域は、約３００Ｈｚから３．４ｋＨｚである。

このような電話帯域に帯域制限された狭帯域音声信号は、本来の音声よりもこもった音質になるため、言葉が聞き取りづらくなるといった問題が生じる。

この問題を解決するために、３．４ｋＨｚ以上の高域成分を追加して、音声の明瞭性を向上させる帯域拡張技術が開発されている。帯域拡張方法は３つの方式に大別される。

第１の方式は、狭帯域音声信号に対してパラメトリックな解析手段を講じ、その結果に基づいて高域成分を追加する方式である。ここでは、この方式を「Ｐ方式」と呼ぶ。パラメトリックな解析手段として最も多く利用されているのは線形予測分析（ＬＰＣ）である。高域成分の追加方法としては、例えば、ＬＰＣ係数を広帯域に拡張する方法や、ＬＰＣ係数、ＰＡＲＣＯＲ係数、または線スペクトル周波数と高域成分の情報を紐付けして選択的に拡張する方法等がある。

第２の方式は、狭帯域音声信号に対してノンパラメトリックな解析手段を講じ、その結果に基づいて高域成分を追加する方式である。ここでは、この方式を「ＮＰ方式」と呼ぶ。ノンパラメトリックな解析手段としては、例えば、ＦＦＴや改良離散コサイン変換（ＭＤＣＴ）、フィルタバンクを使う方法等が代表的である。高域成分の追加方法としては、例えば、解析結果と高域成分の情報を紐付けして選択的に拡張する方法や、狭帯域音声信号の周波数スペクトルを複製して高域に追加する方法等がある。

第３の方式は、狭帯域音声信号に対して時間額域で処理を施すことで高域成分を生成し、狭帯域音声信号と生成した高域成分とを加算することで広帯域音声信号を生成する方式である。ここでは、この方式を「Ｔ方式」と呼ぶ。ほとんどの場合、時間額域の処理は非線形な処理である。また、高域成分の一部または全部として適当な雑音を利用する方法も多い。

Ｐ方式は、ＬＰＣ係数の拡張や解析結果と高域成分との紐付けにコードブックを用意しなければならず、リソースを消費する。またコードブック探索にかかる演算量も無視できない。また、ＮＰ方式は、時間−周波数変換処理を伴うため、演算量が多い。

これらに対して、Ｔ方式は時間領域で処理を行う上にコードブックを必要としないため、少ない計算量と少ないリソースで帯域拡張を実現できるというメリットがある。

Ｔ方式の最も基本的な実施形態を、図１に示して簡単に説明する。この形態は、サンプリング周波数変換処理部１０１、バンドパスフィルタリング処理部１０２、全波整流処理部１０３、ハイパスフィルタリング処理部１０４、乗算処理部１０６、加算処理部１０７を有する。

サンプリング周波数変換処理部１０１は、アップサンプリング処理を行うものであり、例えばサンプリング周波数８ｋＨｚの狭帯域音声信号を、サンプリング周波数１６ｋＨｚサンプリングの音声信号に変換する。

バンドパスフィルタリング処理部１０２から、例えば帯域２ｋＨｚ〜４ｋＨｚの濾波信号を得る。前記濾波信号は、全波整流処理部１０３によって０Ｈｚ〜８ｋＨｚの全帯域を有する信号となる。ハイパスフィルタリング処理部１０４によって例えば４ｋＨｚ以上の成分を濾波し、拡張高域成分とする。

乗算処理部１０６は、事前に設定した倍率１０５を拡張高域成分に乗じて、高域成分の振幅を調整する。加算処理部１０７は、アップサンプリングされた狭帯域音声信号と振幅調整された拡張高域成分とを加算して、広帯域音声信号を出力する。

図１の方式において、倍率１０５は定数であり、多くの場合にこの方式がうまく動作するように経験的に設定する。しかしながら、拡張高域成分の振幅と真の高域成分の振幅とは一般に比例しないため、振幅調整された拡張高域成分の振幅が大きすぎる、または小さすぎる、または広帯域音声信号のスペクトルが不自然な形状となる、といった問題が生じる。

この問題を解決するために、これまでにいくつかの技術が開発されている（特許文献１、特許文献２、特許文献３、特許文献４参照）。

特許文献１〜３の記載技術は、帯域拡張された広帯域音声信号のスペクトルが不連続である場合に音質が劣化するとしており、これを解決することを課題としている。

特許文献１に開示されている技術では、狭帯域音声信号における低域と高域とのパワー関係が、狭帯域音声信号と高域成分間のパワー関係にも類推適用できるとして、狭帯域音声信号を２つの帯域に分割し、それら２つの帯域のパワー比を拡張高域成分のゲインとして使っている。

特許文献２に開示されている技術でも、２つの帯域のパワー比を用いて拡張高域成分のゲインを決定する。特許文献１ではパワーを計算する帯域を低域側０Ｈｚ〜２ｋＨｚ、高域側２ｋＨｚ〜４ｋＨｚというように広くとるのに対して、特許文献２ではパワーを計算する帯域を、低域側は２ｋＨｚを含む狭帯域Δω_Ａ、高域側は４ｋＨｚを含む狭帯域Δω_Ｂとしている。

特許文献３に開示されている技術では、狭帯域音声信号をスペクトル解析し、解析結果に基づいて広帯域音声信号のスペクトル形状が連続となるように拡張高域成分のスペクトル形状の整形及びゲインの調整を行っている。より具体的には、狭帯域音声信号と拡張高域成分のスペクトルの減衰カーブを似せるように拡張高域成分のスペクトル形状を整形し、帯域拡張された広帯域音声信号のスペクトルが連続となるように拡張高域成分のゲインを調整する。

特許文献４に開示されている技術では、狭帯域音声信号をＨＰＦに通して得られた信号の平滑化絶対値の逆数を利用して、拡張高域成分のゲインを算出する。より具体的には、平滑化絶対値に小さな定数を加算した値で、平滑化絶対値の最大値を割った値を拡張高域成分のゲインとしている。ここで小さな定数は、分母が０になる不都合を防ぐために加算される値で、適宜好適な値が設定される。

特開２００７−３１０２９６号公報特許第４６２７５４８号公報特許第３８１０２５７号公報ＷＯ／２００８／０１５７３２

しかしながら、上述した特許文献１〜４に記載の音声帯域拡張方式は、以下のような問題が生じ得る。

特許文献１及び２は、狭帯域音声信号を２つに帯域分割した２帯域のパワー比を使っているが、パワー比の分母に当たる帯域のパワーが著しく小さいとき、このパワー比は発散するため、拡張高域成分が異常に強調された広帯域音声信号を生成してしまうという不安定さを有する。

特許文献３は、狭帯域音声信号の帯域から拡張高域成分の帯域に向かってパワーは減衰していくことを前提に処理を行っているため、低域成分よりも高域成分が強くなるような無声音子音の拡張高域成分の振幅またはゲインを正しく推定することはできない。

特許文献４は、比を計算する分母に小さな定数を加算することによって不安定さを排除しているが、狭帯域音声信号のＨＰＦ出力だけしか使用しないため、狭帯域音声信号のスペクトル形状を利用出来ず、拡張高域成分のゲインを正しく推定できない。

以上のように、従来の音声帯域拡張方法はシステムの不安定さを有しているか、無声音子音の拡張高域成分の振幅を正しく推定できないという課題があった。

そこで、本発明は、上述の課題に鑑みてなされたものであり、処理を時間領域で行うため演算量が少なく、拡張高域成分の安定な推定が可能で、さらに無声音子音の拡張高域成分の振幅までも推定できる帯域拡張装置及び方法を提供しようとするものである。

かかる課題を解決するために、第１の本発明は、周波数帯域が帯域ＢＬ（ＢＬは任意の帯域）に制限された狭帯域信号を、帯域ＢＬより高域の周波数帯域である帯域ＢＨ（ＢＨは帯域ＢＬより高域の任意の帯域）の信号成分を含むように拡張する帯域拡張装置において、（１）狭帯域信号のサンプリング周波数を２倍以上のサンプリング周波数に変換するサンプリング周波数変換手段と、（２）サンプリング周波数変換手段の出力信号から帯域ＢＬを有さず帯域ＢＨを有する拡張高域成分を生成する拡張高域成分生成手段と、（３）サンプリング周波数変換手段の出力信号から狭帯域信号のスペクトル形状を解析するスペクトル形状解析手段と、（４）スペクトル形状解析手段の出力結果に基づいて複数の推定方法を用いて本来の高域成分の振幅を推定して高域振幅推定値を出力する高域振幅推定手段と、（５）拡張高域成分の振幅が高域振幅推定値となるように拡張高域成分のゲインを決定するゲイン決定手段と、（６）拡張高域成分に前記ゲインを乗じた信号とサンプリング周波数変換手段出力信号とを加算合成する合成手段とを備えることを特徴とする帯域拡張装置である。

第２の本発明は、周波数帯域が帯域ＢＬ（ＢＬは任意の帯域）に制限された狭帯域信号を、帯域ＢＬより高域の周波数帯域である帯域ＢＨ（ＢＨは帯域ＢＬより高域の任意の帯域）の信号成分を含むように拡張する帯域拡張方法において、（１）サンプリング周波数変換手段が、狭帯域信号のサンプリング周波数を２倍以上のサンプリング周波数に変換し、（２）拡張高域成分生成手段が、サンプリング周波数変換手段の出力信号から帯域ＢＬを有さず帯域ＢＨを有する拡張高域成分を生成し、（３）スペクトル形状解析手段が、サンプリング周波数変換手段の出力信号から狭帯域信号のスペクトル形状を解析し、（４）高域振幅推定手段が、スペクトル形状解析手段の出力結果に基づいて本来の高域成分の振幅を推定して高域振幅推定値を出力し、（５）ゲイン決定手段が、拡張高域成分の振幅が高域振幅推定値となるように拡張高域成分のゲインを決定し、（６）合成手段が、拡張高域成分にゲインを乗じた信号とサンプリング周波数変換手段出力信号とを加算合成することを有することを特徴とする帯域拡張方法である。

本発明によれば、処理を時間領域で行うため演算量が少なく、拡張高域成分の安定な推定が可能で、さらに無声音子音の拡張高域成分の振幅までも推定できるので、安定かつ高い精度で推定することが可能であり、広帯域音声信号の明瞭度を向上させることができる。

従来のＴ方式を採用する音声帯域拡張装置の構成を示す構成図である。第１の実施形態の音声帯域拡張装置の構成を示すブロック図である。第１の実施形態の拡張高域成分の無声音の振幅特性を説明する説明図である。第１の実施形態の拡張帯域成分の無声音／ｓｈ／の振幅特性を示す図である。第１の実施形態の拡張高域成分の有声音の振幅特性を説明する説明図である。第１の実施形態の拡張帯域成分の有声音／ａ／の振幅特性を示す図である。第１の実施形態の無声音高域振幅推定処理部と有声音高域振幅推定処理部により推定される振幅を比較する図である。第１の実施形態の実際に計測された音声の平均振幅特性を示す図である。第２の実施形態の音声帯域拡張装置の構成を示すブロック図である。第３の実施形態の音声帯域拡張装置の構成を示すブロック図である。第３の実施形態において、例えば男声「未知の世界です」の音声波形を示す図である。第３の実施形態において、例えば男声「未知の世界です」の１次自己相関係数を示す図である。第４の実施形態の音声帯域拡張装置の構成を示すブロック図である。

（Ａ）第１の実施形態
以下、本発明の帯域拡張装置及び方法の第１の実施形態を、図面を参照しながら詳細に説明する。

第１の実施形態では、上述したＴ方式をベースとした音声帯域拡張方式に本発明を適用する場合を例示する。

（Ａ−１）第１の実施形態の構成及び動作
図２は、第１の実施形態の音声帯域拡張装置の構成を示すブロック図である。

図２において、第１の実施形態の音声帯域拡張装置２００Ａは、サンプリング周波数変換部２０１、拡張広域成分生成部２０４、スペクトル形状解析部２０８、高域振幅推定部２１５、絶対値処理部２２０、平滑化ＬＰＦ２２１、ゲイン計算処理部２２２、乗算処理部２２３、加算処理部２２４を有する。

第１の実施形態の音声帯域拡張装置２００Ａは、０Ｈｚ〜４ｋＨｚ（帯域ＢＬに相当する）の帯域を有する狭帯域音声信号Ｓを入力し、この狭帯域音声信号Ｓに４ｋＨｚ〜８ｋＨｚ（帯域ＢＨに相当する）の帯域を有する拡張高域成分ＸＨを生成・付加して、０Ｈｚ〜８ｋＨｚの広帯域音声信号Ｘを生成して、より高い明瞭性を有する音声信号を出力する。

以下、個々のブロックを詳細に説明する。

サンプリング周波数変換部２０１は、アップサンプリング処理部２０２と、エイリアシングフィルタリング処理部２０３とで構成される。

アップサンプリング処理部２０２は、０を１サンプルおきに挿入することで、狭帯域音声信号のサンプリング周波数を２倍以上のサンプリング周波数（例えば８ｋＨｚから１６ｋＨｚ）に変更する。すなわち、時刻ｔ（８０００ｔは整数）において、アップサンプリング処理部２０２の入力をＳ（ｎ）（ｎ＝８０００ｔ）とするとき、同時刻にアップサンプリング処理部２０２は、Ｓ’（２ｎ）＝Ｓ（ｎ）、Ｓ’（２ｎ＋１）＝０を出力する。このようにアップサンプリングを実施すると、Ｓ’の周波数スペクトルの４ｋＨｚ〜８ｋＨｚにはＳの０Ｈｚ〜４ｋＨｚを折り返した歪み成分が生じる。

エイリアシングフィルタリング処理部２０３は、この歪み成分を除去する。エイリアシングフィルタリング処理部２０３のエイリアシングフィルタはカットオフ周波数４ｋＨｚのローパスフィルタである。

拡張高域成分生成部２０４は、バンドパスフィルタリング処理部２０５と全波整流処理部２０６とハイパスフィルタリング処理部２０７により構成される。

バンドパスフィルタリング処理部２０５のバンドパスフィルタで通過させる帯域は２ｋＨｚ〜４ｋＨｚとする。バンドパスフィルタリング処理部２０５の出力に対して全波整流処理部２０６を施すと、０Ｈｚ〜８ｋＨｚの全帯域を有する信号が得られる。そして、全波整流処理部２０６の出力に対して帯域ＢＨを通過させるハイパスフィルタリング処理部２０７を施すことで、拡張高域成分ＥＨを生成する。なお、ハイパスフィルタリング処理部２０７のバンドパスフィルタで通過させる帯域には任意の帯域を設定することができる。また、全波整流処理部２０６の代わりに他の非線形処理（例えば半波整流処理や２乗処理など）を用いても良い。

スペクトル形状解析部２０８は、帯域分割バンドパスフィルタリング（ＢＰＦ）処理部２０９及び２１０と、絶対値処理部２１１及び２１２と、平滑化ローパスフィルタリング（ＬＰＦ）処理部２１３及び２１４とで構成される。

帯域分割バンドパスフィルタリング処理部２０９及び２１０は、帯域を分割するためのバンドパスフィルタである。例えば、帯域分割バンドパスフィルタリング処理部２０９の帯域は０Ｈｚ〜２ｋＨｚ（すなわちローパスフィルタ）とし、帯域分割バンドパスフィルタリング処理部２１０の帯域は２ｋＨｚ〜４ｋＨｚとする。なお、この例では０Ｈｚ〜４ｋＨｚの全帯域を通過帯域の重なりなしに２分割するとしたが、２つのバンドパスフィルタを合わせたときの通過帯域が全帯域を網羅しなくてもよいし、２つのバンドパスフィルタの通過帯域は重なってもよい。

絶対値処理部２１１及び２１２は、２つの帯域それぞれの振幅を計算するために、帯域分割バンドパスフィルタリング処理部２０９及び２１０からのそれぞれの帯域成分の絶対値をとるものである。

平滑化ローパスフィルタリング処理部２１３及び２１４は、絶対値化処理部２１１及び２１２からの信号を平滑化フィルタで平滑化するものである。平滑化ローパスフィルタリング処理部２１３及び２１４の平滑化フィルタは、同じ特性を持ち、その伝達関数はＨ（ｚ）＝（１−α）／（１−αｚ^−１）で表される１次のＩＩＲフィルタである。ここで、αは時定数と呼ばれる０〜１の定数である。

帯域分割バンドパスフィルタリング処理部２０９、絶対値処理部２１１、平滑化ローパスフィルタリング処理部２１３を通って出力された帯域０Ｈｚ〜２ｋＨｚの短期平均振幅をＡＬＬ、帯域分割バンドパスフィルタリング処理部２１０、絶対値処理部２１２、平滑化ローパスフィルタリング処理部２１４を通って出力された帯域２ｋＨｚ〜４ｋＨｚの短期平均振幅をＡＬＨとおく。

高域振幅推定部２１５は、無声音高域振幅推定処理部２１６、有声音高域振幅推定処理部２１７、高域振幅補正処理部２１８、高域振幅決定処理部２１９で構成される。以下、高域振幅推定部２１５を構成する４つの処理について詳細に説明する。

無声音高域振幅推定処理部２１６は、次式（１）を用いて、拡張高域成分の無声音の振幅ＡＵを推定する。

ＡＵ＝ＡＬＨ／ＡＬＬ …（１）
この推定式（１）は、特許文献１に記載のゲインの推定式と同じであるが、本発明では主に拡張高域成分の無声音の振幅を推定するために使う。

まず、（１）式が無声音の振幅を推定できる仕組みを説明する。無声音の振幅特性は、図３のような形状となることが多い。図３において、無声音の振幅形状は、ピッチの存在する０Ｈｚ〜２ｋＨｚにはほとんどエネルギーが存在せず、４ｋＨｚ〜８ｋＨｚにエネルギーのほとんどが集中し、振幅特性の遷移帯域が２ｋＨｚ〜４ｋＨｚの一部に漏れている、という特徴を有する。

したがって、０Ｈｚ〜２ｋＨｚの平均振幅で２ｋＨｚ〜４ｋＨｚの平均振幅を割ると、大きな値が得られる。これにより、無声音の高域成分のエネルギーが推定できるのである。無声音（／ｓｈ／）の振幅特性の例を図４に示す。

次に、無声音高域振幅推定の安定性について説明する。ＡＵは非常に不安定なパラメータである。前述したとおり、無声音は０Ｈｚ〜２ｋＨｚにはあまりエネルギーを持たない。このエネルギーが著しく小さい場合には、ＡＵは発散する。また無音区間では、ＡＬＬとＡＬＨは共に小さな値をとる。分母のＡＬＬが小さいために、ＡＵは無音区間であるにも関わらず小さな値となるとは限らない。なお、有声音の振幅特性は図５のようになるため（有声音（／ａ／）の振幅特性の例を図６に示す）、本来（１）式は有声音の振幅を推定する能力も潜在的に有している。しかしながら、以上のような不安定性課題を有しているために、（１）式によって無声音と有声音の両方の振幅を推定するのは事実上困難である。この不安定性課題の解決は、有声音高域振幅推定処理部２１７と高域振幅決定処理部２１９によってなされる。

有声音高域振幅推定処理部２１７は、次式（２）を用いて、拡張高域成分の有声音の振幅ＡＶを推定する。

ＡＶ＝ＡＬＨ／（ＡＬＬ＋Ｃ０） …（２）
ここで、Ｃ０は適当な定数である。（２）式は（１）式と似た動作をするが、定数Ｃ０の導入により、無声音でＡＶが発散することや無音区間でＡＶが十分小さくならないことを防いでいる。（１）式及び（２）式の２つの式を図７で比較すると、２つの式は似た特徴を持っているが、（２）式はＡＬＬ→０でも発散しないことがわかる。この安定化効果により、ＡＶはＡＬＬとＡＬＨの比を拡張高域成分の振幅に安定的に反映することができるが、無声音の拡張高域成分の振幅の推定が不十分となる副作用を生じる。したがって、拡張高域成分の有声音の振幅を推定するのに有効である。

高域振幅補正処理部２１８は、次式（３）を用いて、拡張高域成分の振幅推定値を補正する値を生成する。

ＡＣ＝ＡＬＬ …（３）
音声信号のほとんどは有声音であり、有声音ではほとんどの場合ＡＬＬがＡＬＨに比べて大きい。実際に計測した音声の平均振幅特性を図８に示した。このため、低域０Ｈｚ〜４ｋＨｚのエネルギーはほとんどＡＬＬの帯域に集中している。これに対して、（１）式と（２）式の推定式の分子には、ＡＬＬが存在しない。このため、本来の音声信号の高域成分の振幅と、（１）式と（２）式によって推定した拡張高域成分の振幅には、ズレが生じてしまう。そのズレを、ＡＣを用いて補正する。

高域振幅決定処理部２１９は、次式（４）を用いて、拡張高域成分の振幅を決定する。

ＡＨ＝ＣＵ×ＡＵ＋ＣＶ×ＡＶ＋ＣＣ×ＡＣ …（４）
ここで、ＣＵとＣＶとＣＣは２つの推定値と補正値のバランスを調整する適当な定数係数である。定数係数ＣＵ、ＣＶ、ＣＣそれぞれを調整することによって、無声音の強調度合いとＡＣによる補正度合いを設定することができる。

以上が高域振幅推定部２１５の説明である。

絶対値処理部２２０及び平滑化ローパスフィルタリング処理部２２１は、拡張高域成分ＥＨの短期平均振幅ＡＥＨを計算するための処理で、それぞれ絶対値処理部２１１及び平滑化ローパスフィルタリング処理部２１３と同様の処理を行うものである。

ゲイン計算処理部２２２は、高域振幅推定部２１５が出力する高域振幅の推定値ＡＨと、平滑化ローパスフィルタリング処理部２２１が出力する拡張高域成分ＥＨの振幅ＡＥＨとを用いて、拡張高域成分ＥＨに乗ずるゲインＧＨを計算する。ゲイン計算処理部２２２により求められるゲインＧＨは次式（５）で表される。

ＧＨ＝ＡＨ／ＡＥＨ …（５）
乗算処理部２２３は、拡張高域成分生成部２０４が出力する拡張高域成分ＥＨにゲイン計算処理部２２２が出力するゲインＧＨを乗じて拡張高域成分の振幅を調整する。

加算処理部２２４は、サンプリング周波数変換部２０１が出力するサンプリング周波数を変換された狭帯域信号ＸＬと乗算処理２２３が出力する振幅調整済みの拡張高域成分ＸＨを加算して、広帯域音声信号Ｘを出力する。

（Ａ−２）第１の実施形態の効果
第１の実施形態によれば、無声音と有声音の拡張高域成分の振幅を別々に推定し、さらにこれら２つの推定値で表現できていない低域０Ｈｚ〜２ｋＨｚから高域４ｋＨｚ〜８ｋＨｚへの直接的な影響を補正して拡張高域成分の振幅を推定しているので、従来よりも自然で明瞭度の高い広帯域音声信号を得ることができる。

（Ｂ）第２の実施形態
次に、本発明の帯域拡張装置及び方法の第２の実施形態を、図面を参照しながら詳細に説明する。

第２の実施形態でも、上述したＴ方式をベースとした音声帯域拡張方式に本発明を適用する場合を例示する。

（Ｂ−１）第２の実施形態の構成及び動作
図９は、第２の実施形態の音声帯域拡張装置の構成を示すブロック図である。

図９において、音声帯域拡張装置２００Ｂは、サンプリング周波数変換部２０１、拡張広域成分生成部２０４、スペクトル形状解析部２０８、高域振幅推定部２１５、絶対値処理部２２０、平滑化ＬＰＦ２２１、ゲイン計算処理部２２２、乗算処理部２２３、加算処理部２２４、音声区間検出処理部９０１、処理選択部９０２、無音区間高域振幅設定部９０３を有して構成される。

なお、図９において、図２の第１の実施形態の音声帯域拡張装置２００Ａの構成要件と同一又は対応するものについては同一符号を付しており、第１の実施形態と同一又は対応する構成要素の詳細な説明を省略する。

音声区間検出処理部９０１は、狭帯域音声信号Ｓを観察して、音声区間の検出結果ＶＡＦを出力する。音声区間検出処理部９０１は、音声区間ならＶＡＦ＝１を出力し、無音区間ならＶＡＦ＝０を出力する。音声区間検出方法には任意の方法を適用することが出来る。例えば、音声区間検出処理部９０１は、狭帯域音声信号Ｓの短区間平均振幅ＡＳを算出し、短区間平均振幅がある閾値ＴＡＳより大きければ音声区間（ＶＡＦ＝１）、小さければ無音区間（ＶＡＦ＝０）とすることで、音声区間検出を行うことができる。なお、この方法では音声区間検出処理９０１の入力と出力でサンプリング周波数が違っているが、例えば入力側で狭帯域音声信号の１サンプルＳ（ｎ）が音声区間（または無音区間）のときには検出結果の２サンプルＶＡＦ（２ｎ）、ＶＡＦ（２ｎ＋１）を１（または０）とすれば、サンプリング周波数の整合を取ることが出来る。

ゲイン選択部９０２は、音声区間検出処理部９０１の出力結果に基づいて、拡張広域成分のゲインＧＨを選択するものである。ゲイン選択部９０２は、音声区間であると判定した場合、スイッチをＳＷＶ側へ切り替え、スペクトル形状解析部２０８及び高域振幅推定部２１５により算出される拡張高域成分の振幅推定値に基づいてゲインＧＨを決定する。すなわち、ゲイン選択部９０２は、スイッチをＳＷＶ側に切り替えてゲイン計算処理部２２２による拡張高域成分のゲインＧＨを乗算処理部２２３に与える。

逆に、無音区間であると判定した場合、ゲイン選択部９０２は、スイッチをＳＷＳ側に切り替え、後述する無音区間ゲイン設定部９０３から出力されるゲイン値ＧＨＳを拡張高域成分のゲインＧＨとして利用する。すなわち、ゲイン選択部９０２は、スイッチをＳＷＳ側に切り替えて無音区間ゲイン設定部９０３からの拡張高域成分のゲインＧＨＳを乗算処理部２２３に与える。

無音区間高域振幅設定部９０３は、あらかじめ定めておいた無音区間の拡張高域成分のゲインＧＨＳを出力する。無音区間の拡張高域成分のゲインＧＨＳは定数である。

（Ｂ−２）第２の実施形態の効果
以上のように、第２の実施形態によれば、無音区間を検出して適当なゲインを与えることで、無音区間には対応していない高域振幅推定部２１５により誤った高域振幅推定値を拡張高域成分に適用することを避けることが出来るため、第１の実施形態よりも自然で雑音の少ない広帯域音声信号を得ることができる。

（Ｃ）第３の実施形態
次に、本発明の帯域拡張装置及び方法の第３の実施形態を、図面を参照しながら詳細に説明する。

第３の実施形態でも、上述したＴ方式をベースとした音声帯域拡張方式に本発明を適用する場合を例示する。

（Ｃ−１）第３の実施形態の構成及び動作
図１０は、第３の実施形態の音声帯域拡張装置の構成を示すブロック図である。

図１０において、第３の実施形態の音声帯域拡張装置２００Ｃは、サンプリング周波数変換部２０１、拡張広域成分生成部２０４、スペクトル形状解析部２０８、高域振幅推定部１００１、絶対値処理部２２０、平滑化ＬＰＦ２２１、ゲイン計算処理部２２２、乗算処理部２２３、加算処理部２２４を有する。

第３の実施形態は、第１の実施形態の高域振幅推定部２１５に代えて、高域振幅推定部１００１を有する。なお、図１０において、図２の第１の実施形態の音声帯域拡張装置２００Ａの構成要件と同一又は対応するものについては同一符号を付しており、第１の実施形態と同一又は対応する構成要素の詳細な説明を省略する。

高域振幅推定部１００１は、無声音高域振幅推定処理部２１６、有声音高域推定処理部２１７、高域振幅補正処理部２１８、有声無声推定処理部１００２、高域振幅推定値係数決定処理部１００３、高域振幅決定処理１００４を有する。

なお、図１０において、無声音高域振幅推定処理部２１６、有声音高域推定処理部２１７、高域振幅補正処理部２１８は、第１の実施形態と同一又は対応するものであり、これらの構成要素の詳細な説明を省略する。

高域振幅推定部１００１は、スペクトル形状解析部２０８からのＡＬＬ及びＡＬＨの他に、狭帯域音声信号Ｓの入力を受け、有声無声推定処理部１００２と高域振幅推定値係数決定処理部１００３を備え、高域振幅決定処理部１００４がＣＵとＣＶの入力を外部から受けること以外は、第１の実施形態の高域振幅推定部２１５と同じである。

有声無声推定処理部１００２は、狭帯域音声信号Ｓが有声音か無声音かを推定し、その結果ＰＶを「０」または「１」の２値、または範囲０〜１の実数値で出力する。ここで、ＰＶの数値は、１に近いほど有声音の割合が大きく、０に近いほど無声音の割合が大きいとする。

有声音か無声音かを推定する方法には任意の方法を適用することが出来る。

例えば、有声無声推定処理部１００２は、１つの選択肢として、１次自己相関係数を用いることが出来る。１次自己相関係数は−１〜＋１の値をとり、有声音の場合は＋１に近づき、無声音の場合は小さくなる傾向がある。例として、男声「未知の世界です」の音声波形を図１１に示し、その１次自己相関係数を図１２に示す。無声音子音である／ｃｈ／、／ｓ／、および／ｋ／で、１次自己相関係数が小さくなっていることが確認でき、有声無声推定に有効であることがわかる。有声音か無声音かを推定する方法として１次自己相関係数を用いる場合、１次自己相関係数に１を足して２で割ることで０〜１の範囲に正規化した値を有声無声推定処理部１００２の出力とする。

また例えば、別の選択肢として、有声無声推定処理部１００２は、線形予測係数を算出し、事前に学習しておいた値と照合して有声音か無声音かを判定する処理を、有声無声推定処理とすることができる。この場合、有声無声推定処理部１００２は「０」または「１」のような２値のいずれかを出力する。または、有声無声推定処理部１００２は、有声音か無声音かの判定結果を適当な期間（例えば０．１秒間）観測し、有声音となったサンプル数を観測したサンプル数で割って得られる０〜１の範囲の値をＰＶとして出力してもよい。

なお、この方法では有声無声推定処理１００２の入力と出力でサンプリング周波数が違っているが、例えば入力側の狭帯域信号の１サンプルＳ（ｎ）に対する有声無声推定結果を、出力の２サンプルＰＶ（２ｎ）、ＰＶ（２ｎ＋１）に出力すれば、サンプリング周波数の整合を取ることが出来る。

高域振幅推定値係数決定処理部１００３は、有声無声推定処理部１００２の出力結果に基づいて、無声音高域振幅推定値ＡＵの係数ＣＵと有声音高域振幅推定値ＡＶの係数ＣＶを以下の式（６）及び式（７）によって決定する。

ＣＵ＝ＣＵ０Ｘ（１−ＰＶ） …（６）
ＣＶ＝ＣＶ０ＸＰＶ …（７）
ここで、ＣＵ０およびＣＶ０は適当な定数である。

以上のように、高域振幅推定値係数決定処理部１００３は、適応的に決定された係数ＣＵとＣＶを高域振幅決定処理部１００４に入力する。

高域振幅決定処理部１００４が（４）式で高域振幅推定値ＡＨを算出する。ただし、定数係数ＣＣは第１の実施形態と同様にあらかじめ決定しておく。なお、高域振幅決定処理１００４は、ＣＵとＣＶの入力を外部から受けること以外は、第１の実施形態の高域振幅決定処理２１９と同じである。

（Ｃ−２）第３の実施形態の効果
以上のように、第３の実施形態によれば、入力音声中の無声音成分と有声音成分の割合に応じて、２つの高域振幅推定値に掛かる重みを適応的に変更することによって、本来の高域振幅の推定精度を向上させることができるため、第１の実施形態よりも自然で明瞭度の高い広帯域音声信号を得ることができる。

（Ｄ）第４の実施形態
次に、本発明の帯域拡張装置及び方法の第４の実施形態を、図面を参照しながら詳細に説明する。

第４の実施形態でも、上述したＴ方式をベースとした音声帯域拡張方式に本発明を適用する場合を例示する。

図１３は、第４の実施形態の音声帯域拡張装置の構成を示すブロック図である。

図１３において、第４の実施形態の音声帯域拡張装置２００Ｄは、サンプリング周波数変換部２０１、拡張広域成分生成部２０４、スペクトル形状解析部２０８、高域振幅推定部１００１、絶対値処理部２２０、平滑化ＬＰＦ２２１、ゲイン計算処理部２２２、乗算処理部２２３、加算処理部２２４、音声区間検出処理部９０１、処理選択部９０２、無音区間高域振幅設定部９０３を有して構成される。

なお、図１３において、図２、図９及び図１０の構成要件と同一又は対応するものについては同一符号を付しており、これらの構成要件と同一又は対応する構成要素の詳細な説明を省略する。

ゲイン選択部９０２は、音声区間検出処理部９０１の出力結果に基づいて、拡張広域成分のゲインＧＨを選択するものである。ゲイン選択部９０２は、音声区間であると判定した場合、スイッチをＳＷＶ側へ切り替え、スペクトル形状解析部２０８及び高域振幅推定部１００１により算出される拡張高域成分の振幅推定値に基づいてゲインＧＨを決定する。すなわち、ゲイン選択部９０２は、スイッチをＳＷＶ側に切り替えてゲイン計算処理部２２２による拡張高域成分のゲインＧＨを乗算処理部２２３に与える。

無音区間高域振幅設定部９０３は、第２の実施形態と同様に、あらかじめ定めておいた無音区間の拡張高域成分のゲインＧＨＳを出力する。無音区間の拡張高域成分のゲインＧＨＳは定数である。

（Ｄ−２）第４の実施形態の効果
以上のように、第４の実施形態によれば、第２の実施形態の狭帯域音声信号Ｓが音声区間であると判断された場合にはおいて、２つの高域振幅推定値に掛ける重みを適応的に変更することによって、高域振幅の推定精度を向上させることができ、さらに第３の実施形態の狭帯域音声信号Ｓが無音と判断されるべき信号であった場合において、無音区間には対応していない高域振幅推定部１００１により誤った高域振幅推定値を拡張高域成分に適用することを避けることができるため、第２の実施形態及び第３の実施形態よりも自然で明瞭度が高い雑音の少ない広帯域音声信号を得ることができる。

（Ｅ）他の実施形態
上述した第１〜第４の実施形態では、各構成要素がハードウェアに実現されているイメージで説明したが、各実施形態の各構成要素の全て又は一部がソフトウェア的に実行されるものであってもよい。

また、上述した第１〜第４の実施形態では、拡張対象が音声信号である場合を例示して説明したが、音声信号以外に音響信号であってもよい。

上述した第１〜第４の実施形態で例示した本発明によれば、拡張高域成分の振幅推定を無声音成分と有声音成分と補正成分とに分解したことでそれぞれを独立に制御できるようになる。

また、従来の技術によく見られるような、音声を無声音区間か有声音区間かに分類するのでなく、音声を無声音成分と有声音成分とに分解することで、判別ミスを起こす可能性がない。

さらには、発散しやすい無声音高域振幅推定処理と安定な有声音高域振幅推定処理とを併用することで、拡張高域成分の振幅を安定に推定できる。

つまり、本発明は、拡張高域成分の振幅推定を３つの推定処理で構成することによって、安定かつ高い精度で推定することが可能であり、したがって広帯域音声信号の明瞭度を向上させることができる。

２００Ａ〜２００Ｄ…音声帯域拡張装置、
２０１…サンプリング周波数変換部、２０２…アップサンプリング処理部、２０３…エイリアシングフィルタリング処理部２０３、
２０４…拡張高域成分生成部、２０５…バンドパスフィルタリング処理部、２０６…全波整流処理部、２０７…ハイパスフィルタリング処理部、
２０８…スペクトル形状解析部、２０９及び２１０…帯域分割バンドパスフィルタリング処理部、２１１及び２１２…絶対値処理部、２１３及び２１４…平滑化ローパスフィルタリング処理部、
２１５及び１００１…高域振幅推定部、２１６…無声音高域振幅推定処理部、２１７…有声音高域振幅推定処理部、２１８…高域振幅補正処理部、２１９…高域振幅決定処理部、
１００２…有声無声推定処理部、１００３…高域振幅推定値係数決定処理部、
２２０…絶対値処理部、２２１…平滑化ローパスフィルタリング処理部、
２２２…ゲイン計算処理部、２２３…乗算処理部、２２４…加算処理部、
９０１…音声区間検出処理部、９０２…ゲイン選択部、９０３…無音区間ゲイン設定部。

Claims

周波数帯域が帯域ＢＬに制限された狭帯域信号を、上記帯域ＢＬより高域の周波数帯域である帯域ＢＨの信号成分を含むように拡張する帯域拡張装置において、
上記狭帯域信号のサンプリング周波数を２倍以上のサンプリング周波数に変換するサンプリング周波数変換手段と、
上記サンプリング周波数変換手段の出力信号から上記帯域ＢＬを有さず上記帯域ＢＨを有する拡張高域成分を生成する拡張高域成分生成手段と、
上記サンプリング周波数変換手段の出力信号から狭帯域信号のスペクトル形状を解析するスペクトル形状解析手段と、
上記スペクトル形状解析手段の出力結果に基づいて複数の推定方法を用いて本来の高域成分の振幅を推定して高域振幅推定値を出力する高域振幅推定手段と、
上記拡張高域成分の振幅が上記高域振幅推定値となるように上記拡張高域成分のゲインを決定するゲイン決定手段と、
上記拡張高域成分に上記ゲインを乗じた信号と上記サンプリング周波数変換手段出力信号とを加算合成する合成手段と
を備えることを特徴とする帯域拡張装置。
上記高域振幅推定手段が、
上記スペクトル形状解析手段の出力結果に基づいて無声音成分の高域振幅を推定する無声音高域振幅推定部と、
上記スペクトル形状解析手段の出力結果に基づいて有声音成分の高域振幅を推定する有声音高域振幅推定部と、
上記スペクトル形状解析手段の出力結果に基づいて高域振幅の補正値を出力する高域振幅補正部と、
上記無声音高域振幅推定部から出力された無声音高域振幅推定値と上記有声音高域振幅推定部から出力された有声音高域振幅推定値との２個の高域振幅推定値と、上記高域振幅補正部から出力された高域振幅補正値とを加重加算することで上記高域振幅推定値を生成する高域振幅決定部と
を有する
ことを特徴とする請求項１に記載の帯域拡張装置。
上記高域振幅推定手段が、
上記狭帯域音声信号が有声音か無声音かを判定する有声無声判定部と、
上記有声無声判定部の判定結果に応じて上記無声音高域振幅推定値の加重係数と上記有声音高域振幅推定値の加重係数を適応的に決定する高域振幅推定値係数決定部と
を更に有することを特徴とする請求項２に記載の帯域拡張装置。
上記高域振幅推定手段が、
上記狭帯域音声信号に含まれる有声音成分と無声音成分との割合を推定する有声無声推定部と、
上記有声無声推定部の出力結果に応じて上記無声音高域振幅推定値の加重係数と上記有声音高域振幅推定値の加重係数を適応的に決定する高域振幅推定値係数決定部と
を更に有することを特徴とする請求項２に記載の帯域拡張装置。
上記狭帯域信号が音声区間か無音区間かを判定する音声区間検出手段と、
上記狭帯域信号が無音区間であった場合に適用する上記ゲインの値を出力する無音区間ゲイン設定手段と、
上記音声区間検出手段の判定結果に応じて前記高域ゲイン決定手段と上記無音区間ゲイン設定手段とのどちらの出力を前記ゲインとするかを選択するゲイン選択手段と
を備えることを特徴とする請求項１〜４のいずれかに記載の帯域拡張装置。
上記スペクトル形状解析手段が、
少なくとも２つ以上のバンドパスフィルタリング部と、
上記バンドパスフィルタリング部の出力信号の短期平均振幅を算出する振幅算出手段と
を有することを特徴とする請求項１〜５のいずれかに記載の帯域拡張装置。
周波数帯域が帯域ＢＬに制限された狭帯域信号を、上記帯域ＢＬより高域の周波数帯域である帯域ＢＨの信号成分を含むように拡張する帯域拡張方法において、
サンプリング周波数変換手段が、上記狭帯域信号のサンプリング周波数を２倍以上のサンプリング周波数に変換し、
拡張高域成分生成手段が、上記サンプリング周波数変換手段の出力信号から上記帯域ＢＬを有さず上記帯域ＢＨを有する拡張高域成分を生成し、
スペクトル形状解析手段が、上記サンプリング周波数変換手段の出力信号から狭帯域信号のスペクトル形状を解析し、
高域振幅推定手段が、上記スペクトル形状解析手段の出力結果に基づいて複数の推定方法を用いて本来の高域成分の振幅を推定して高域振幅推定値を出力し、
ゲイン決定手段が、上記拡張高域成分の振幅が上記高域振幅推定値となるように上記拡張高域成分のゲインを決定し、
合成手段が、上記拡張高域成分に上記ゲインを乗じた信号と上記サンプリング周波数変換手段出力信号とを加算合成する
ことを有することを特徴とする帯域拡張方法。