JP6451136B2

JP6451136B2 - 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム

Info

Publication number: JP6451136B2
Application number: JP2014159620A
Authority: JP
Inventors: 大藤枝
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2014-08-05
Filing date: 2014-08-05
Publication date: 2019-01-16
Anticipated expiration: 2034-08-05
Also published as: JP2016038409A

Description

本発明は音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラムに関し、例えば、電話機器（ソフトフォン等を含む）に適用し得るものである。なお、「音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム」とネーミングしているが、本発明が取扱う信号は、音声信号に限定されず、音楽信号等の他の音信号であっても良い。

従来の音声帯域拡張装置として、特許文献１に開示されているものがある。図５は、特許文献１に記載の音声帯域拡張装置の技術をブロック図的に整理して示すブロック図である（なお、特許文献１に図５に示すブロック図は記載されていない）。

特許文献１に開示されている音声帯域拡張装置４００は、周波数変換手段４０１、周波数拡張手段４０２、拡張音声生成手段４０３、特徴量抽出手段４０４、拡張ゲイン算出手段４０５、拡張音声調整手段４０６、拡張音声加算手段４０７及び周波数逆変換手段４０８を有する。

次に、特許文献１に開示の音声帯域拡張装置４００の動作を簡単に説明する。

周波数変換手段４０１には、入力音声（入力音声信号）が与えられる。入力音声は、低いサンプリング周波数でサンプリングされた音声である。低いサンプリング周波数とは、例えば、音声信号であれば８ｋＨｚ、音楽信号であれば４８ｋＨｚなどである。周波数変換手段４０１は、入力音声を周波数変換して入力スペクトルを生成する。周波数拡張手段４０２は、入力スペクトルの高域側に０又は非常に小さな値を付け加えて長くすることで、入力スペクトルを高いサンプリング周波数を有するスペクトルへと拡張する。高いサンプリング周波数とは、例えば、音声信号であれば１６ｋＨｚ、音楽信号であれば９６ｋＨｚなどである。拡張音声生成手段４０３は、入力音声の成分が存在する帯域（以下、入力帯域と呼ぶ）の一部又は全部を、入力音声の成分が存在しない帯域（以下、拡張帯域と呼ぶ）にコピーして、拡張スペクトルを生成する。特徴量抽出手段４０４は、入力帯域中の異なる２つの帯域の振幅を算出し、高い周波数側の振幅を低い周波数側の振幅で除した振幅比を算出する。なお、振幅の代わりにパワーを使用してパワー比を算出しても良い。拡張ゲイン算出手段４０５は、振幅比が小さい場合には小さい拡張ゲインを出力し、振幅比が大きい場合には大きい拡張ゲインを出力する。特許文献１の記載技術によれば、予め３つの閾値を定めておき、振幅比が閾値以上となる閾値の数に応じて予め定めておいた拡張ゲインを割り当てる。拡張音声調整手段４０６は、拡張スペクトルに拡張ゲインを乗じる。拡張音声加算手段４０７は、周波数拡張された入力スペクトルに、拡張ゲインを乗じた拡張スペクトルを加算して、広帯域化スペクトルを生成する。周波数逆変換手段４０８は、広帯域化スペクトルから周波数逆変換によって時間波形を生成する。

特許文献１の記載技術によれば、入力スペクトルの振幅比が小さいときには拡張スペクトルが減衰させられることで広帯域化スペクトルの不連続点が強調されにくくなり、振幅比が大きいときには拡張スペクトルが増幅されることによって高域になるほど振幅が増加する連続性のある構造とすることができ、結果として広帯域化音声の無声部が聴き取り易くなり、音声の明瞭度を向上させることができるとしている。

特開２００９−１３４２６０号公報

しかしながら、特許文献１の記載技術は、通信のための帯域制限やノイズキャンセラ等の前処理によって入力音声が変形している場合が考慮されていない。ここで、前処理とは、当該音声帯域拡張装置を搭載している音声通信装置における処理に限定されず、当該音声帯域拡張装置を搭載している音声通信装置へ音声信号を送信する音声通信装置における処理が該当する場合もある。

例えば、当該音声帯域拡張装置への入力音声が帯域制限を受けている場合がある。この場合は、送信前に帯域制限フィルタがかけられ、さらにボコーダを介して音声を受信するため、帯域制限フィルタとボコーダによって当該音声帯域拡張装置への入力音声の周波数特性が、送信しようとしている原音声の周波数特性から変化している可能性が高い。また例えば、前処理として、ノイズキャンセラが適用されている場合がある。ノイズキャンセラは、低い周波数の雑音をより正確に除去できるため、周波数の低い成分が抑圧され易い。このように入力音声が変形していると、算出される拡張ゲインが不適切な値となり、結果として広帯域化音声の音質劣化が引き起こされる。

そのため、入力音声に前処理が施されていても、高音質の広帯域化音声が得られる音声帯域拡張装置及びプログラムが望まれている。また、入力音声に前処理が施されていても、前処理の影響を除外した音声特徴量を得ることができる音声特徴量抽出装置及びプログラムが望まれている。

以上の課題を解決するために、第１の本発明は、入力音声に成分が存在しない周波数帯域に音声成分を追加して周波数帯域を拡張する音声帯域拡張装置において、（１）上記入力音声から振幅又はパワーに関する１つ以上の特徴量を抽出する特徴量抽出手段と、（２）上記特徴量に対する補正量を推定する補正量推定手段と、（３）上記補正量に基づいて、抽出された上記特徴量を補正して補正特徴量を得る特徴量補正手段と、（４）上記入力音声から、上記入力音声が存在しない周波数帯域に成分を有する、上記補正特徴量に基づいて振幅又はパワーが調整された拡張音声を生成し、上記入力音声と合成して広帯域化音声を生成する広帯域化音声生成手段とを備え、（５）上記補正量推定手段は、上記特徴量のうち１つ以上の特徴量について目標特徴量を予め定めており、抽出された上記特徴量が上記目標特徴量に近付くような上記補正量を推定するものであり、上記特徴量の１つが、入力音声の異なる２つの周波数帯域の振幅において、高域側の振幅を低域側の振幅で除した比である入力帯域振幅比であって、上記目標特徴量は上記入力帯域振幅比についての目標値であり、上記補正量推定手段は、上記高域側の振幅の期待値を上記目標特徴量で除した値から上記低域側の振幅の期待値を減じた値を暫定補正量とし、補正量を、上記暫定補正量が０より小さければ０とし、上記暫定補正量が０以上であれば上記暫定補正量とすることを特徴とする。

第２の本発明の音声帯域拡張プログラムは、入力音声に成分が存在しない周波数帯域に音声成分を追加して周波数帯域を拡張する音声帯域拡張プログラムであって、コンピュータを、（１）上記入力音声から振幅又はパワーに関する１つ以上の特徴量を抽出する特徴量抽出手段と、（２）上記特徴量に対する補正量を推定する補正量推定手段と、（３）上記補正量に基づいて、抽出された上記特徴量を補正して補正特徴量を得る特徴量補正手段と、（４）上記入力音声から、上記入力音声が存在しない周波数帯域に成分を有する、上記補正特徴量に基づいて振幅又はパワーが調整された拡張音声を生成し、上記入力音声と合成して広帯域化音声を生成する広帯域化音声生成手段として機能させ、（５）上記補正量推定手段は、上記特徴量のうち１つ以上の特徴量について目標特徴量を予め定めており、抽出された上記特徴量が上記目標特徴量に近付くような上記補正量を推定するものであり、上記特徴量の１つが、入力音声の異なる２つの周波数帯域の振幅において、高域側の振幅を低域側の振幅で除した比である入力帯域振幅比であって、上記目標特徴量は上記入力帯域振幅比についての目標値であり、上記補正量推定手段は、上記高域側の振幅の期待値を上記目標特徴量で除した値から上記低域側の振幅の期待値を減じた値を暫定補正量とし、補正量を、上記暫定補正量が０より小さければ０とし、上記暫定補正量が０以上であれば上記暫定補正量とすることを特徴とする。

第３の本発明は、入力音声における振幅又はパワーに関する特徴量を抽出する音声特徴量抽出装置において、（１）上記入力音声から振幅又はパワーに関する１つ以上の特徴量を抽出する特徴量抽出手段と、（２）上記特徴量に対する補正量を推定する補正量推定手段と、（３）上記補正量に基づいて、抽出された上記特徴量を補正して出力する特徴量補正手段とを備え、（４）上記補正量推定手段は、上記特徴量のうち１つ以上の特徴量について目標特徴量を予め定めており、抽出された上記特徴量が上記目標特徴量に近付くような上記補正量を推定するものであり、上記特徴量の１つが、入力音声の異なる２つの周波数帯域の振幅において、高域側の振幅を低域側の振幅で除した比である入力帯域振幅比であって、上記目標特徴量は上記入力帯域振幅比についての目標値であり、上記補正量推定手段は、上記高域側の振幅の期待値を上記目標特徴量で除した値から上記低域側の振幅の期待値を減じた値を暫定補正量とし、補正量を、上記暫定補正量が０より小さければ０とし、上記暫定補正量が０以上であれば上記暫定補正量とすることを特徴とする。

第４の本発明の音声特徴量抽出プログラムは、入力音声における振幅又はパワーに関する特徴量を抽出する音声特徴量抽出プログラムであって、コンピュータを、（１）上記入力音声から振幅又はパワーに関する１つ以上の特徴量を抽出する特徴量抽出手段と、（２）上記特徴量に対する補正量を推定する補正量推定手段と、（３）上記補正量に基づいて、抽出された上記特徴量を補正して出力する特徴量補正手段として機能させ、（４）上記補正量推定手段は、上記特徴量のうち１つ以上の特徴量について目標特徴量を予め定めており、抽出された上記特徴量が上記目標特徴量に近付くような上記補正量を推定するものであり、上記特徴量の１つが、入力音声の異なる２つの周波数帯域の振幅において、高域側の振幅を低域側の振幅で除した比である入力帯域振幅比であって、上記目標特徴量は上記入力帯域振幅比についての目標値であり、上記補正量推定手段は、上記高域側の振幅の期待値を上記目標特徴量で除した値から上記低域側の振幅の期待値を減じた値を暫定補正量とし、補正量を、上記暫定補正量が０より小さければ０とし、上記暫定補正量が０以上であれば上記暫定補正量とすることを特徴とする。

第１及び第２の本発明によれば、入力音声に前処理が施されていても、高音質の広帯域化音声が得られる音声帯域拡張装置及びプログラムを実現できる。また、第３及び第４の本発明によれば、入力音声に前処理が施されていても、前処理の影響を除外した音声特徴量を得ることができる音声特徴量抽出装置及びプログラムを実現できる。

第１の実施形態に係る音声帯域拡張装置の構成を示す機能ブロック図である。第２の実施形態に係る音声帯域拡張装置の構成を示す機能ブロック図である。第３の実施形態に係る音声帯域拡張装置の構成を示す機能ブロック図である。第４の実施形態に係る音声帯域拡張装置における、音声特徴量に対する音声区間での補正量の修正方法の説明図である。従来の音声帯域拡張装置の構成を示す機能ブロック図である。

（Ａ）各実施形態に共通する前提
後述する全ての実施形態において、拡張する対象を人間の音声であるとし、入力帯域は０Ｈｚ〜４ｋＨｚ（又は３００Ｈｚ〜３．４ｋＨｚ）の帯域を有することを前提とする。しかし、本発明は、これに限定されず、例えば０Ｈｚ〜２４ｋＨｚの帯域を有する音楽信号を帯域拡張対象とする場合こともでき、周波数に関する数値を音楽信号用に設定し直すことで、本発明を適用することができる。

（Ｂ）第１の実施形態
以下、本発明による音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラムの第１の実施形態を、図面を参照しながら説明する。

（Ｂ−１）第１の実施形態の構成
図１は、第１の実施形態に係る音声帯域拡張装置の構成を示す機能ブロック図である。ここで、第１の実施形態の音声帯域拡張装置は、ハードウェアで構成することも可能であり、また、ＣＰＵが実行するソフトウェア（音声帯域拡張プログラム）とＣＰＵとで実現することも可能であるが、いずれの実現方法を採用した場合であっても、機能的には図１で表すことができる。

また、上述した特許文献１の記載技術の説明では、帯域拡張を周波数領域に変換された信号段階で行うように説明したが、図１に示す第１の実施形態に係る音声帯域拡張装置では、帯域拡張を時間領域の信号のまま行うものである。

第１の実施形態の音声帯域拡張装置１００は、図１に示すように、特徴量抽出手段１０１と、目標特徴量保持手段１０２と、補正量推定手段１０３と、特徴量補正手段１０４と、拡張ゲイン算出手段１０５と、拡張音声生成手段１０６と、拡張音声調整手段１０７と、拡張音声加算手段１０８とを有する。

ここで、特徴量抽出手段１０１、目標特徴量保持手段１０２、補正量推定手段１０３及び特徴量補正手段１０４でなる部分が、第１の実施形態の音声特徴量抽出装置を構成している。

第１の実施形態の音声帯域拡張装置１００に与えられた入力音声は、特徴量抽出手段１０１、補正量推定手段１０３、拡張音声生成手段１０６及び拡張音声加算手段１０８に与えられる。

特徴量抽出手段１０１は、与えられた入力音声の振幅に関する少なくとも１つ以上の情報を抽出し、得られた振幅特徴量を補正量推定手段１０３及び特徴量補正手段１０４に与える。振幅特徴量としては、例えば、入力帯域振幅比が好適に用いられる。入力帯域振幅比は、入力帯域中の異なる２つの帯域に対して、高域側の帯域の振幅を低域側の帯域の振幅で除して算出される。異なる２つの帯域は、入力帯域内であること以外に制限はないが、互いに重ならないように、低域側の帯域は２ｋＨｚ以下とし、高域側の帯域は２ｋＨｚ以上とすることが好適である。例えば、低域側の帯域を３００Ｈｚ〜２ｋＨｚ、高域側の帯域を２ｋＨｚ〜３．４ｋＨｚとし、それぞれの所望の帯域成分を抽出するバンドパスフィルタを設けて、各バンドパスフィルタ出力の絶対値和を各帯域の振幅とする。なお、振幅の代わりにパワーを用いても良く、その場合には絶対値和の代わりに２乗和を用いる。

目標特徴量保持手段１０２は、予め定められたターゲットとなる振幅特徴量（以下、目標振幅特徴量と呼ぶ）を保持し、当該目標振幅特徴量を補正量推定手段１０３に与える。ここで、目標振幅特徴量は、例えば、音声帯域拡張装置１００に与えられた入力音声が前処理の影響を受けないとした場合における、特徴量抽出手段１０１からの振幅特徴量の平均等であり、例えば、前処理が施されていない音声を適用したシミュレーション等によって予め決定されているものである。

補正量推定手段１０３は、特徴量抽出手段１０１で抽出された振幅特徴量が、目標特徴量保持手段１０２が保持している目標振幅特徴量に近付くように補正すべき量を推定し、得られた補正量を特徴量補正手段１０４に与える。

補正量の推定方法としていくつかのアプローチが考えられるが、好適なアプローチとして、振幅特徴量の期待値を目標振幅特徴量と一致させるように補正量を決める方法を挙げることができる。以下、このような補正量の推定方法を詳述する。

今、時刻をｔ、時刻ｔの振幅特徴量をＶ_t、目標振幅特徴量をＵ、時刻ｔの補正量をｃ_tと置き、振幅特徴量を補正する関数をｆ（Ｖ；ｃ）と定義すると、（１）式を満たすように補正量ｃ_tを決定すれば良い。（１）式におけるＥ｛Ａ｜Ｂ｝は条件付き期待値を表しており、ｆ（Ｖτ；ｃ_t）は関数ｆ（Ｖ；ｃ）に対して具体的な値Ｖτ、ｃ_tを適用して得られた値を表している。（１）式の左辺は、時刻τがｔ₀〜ｔの間のｆ（Ｖτ；ｃ_t）の期待値を意味している。ｔ₀は、入力音声の収録環境が変化しないのであれば、ｔ₀＝０すなわち音声帯域拡張処理開始時点としても良く、また、任意の時刻としても良いが、収録環境の変化に対応できるように、期待値を計算する区間ｔ₀〜ｔの値（長さ）を１〜１０秒にするのが好適である。なお、時定数フィルタ（リーク積分とも呼ばれる）を用いるなら、遠い過去の情報よりも近い過去の情報により大きい重みがおかれるので、ｔ₀＝０としても良好に動作する。なお、ｔ₀＝ｔすなわち期待値を取らなくても当該音声帯域拡張装置１００は動作するが、この場合には補正後の振幅特徴量が常にＵとなって、入力音声の変化を無視するようになってしまうため、期待値をＵに近付ける構成が強く望まれる。また、（１）式を満たすｃ_tが解析的に求められない場合には、（２）式を満たすｃ_tを数値的に解くことになる。（２）式は、補正量となり得る範囲内で値ｃ’を変化させた場合に、ｆ（Ｖτ；ｃ’）と目標振幅特徴量Ｕとの差の２乗和が最小となる値ｃ’を時刻ｔの補正量ｃ_tとすることを表しており最小２乗法的なアプローチを表現している。

以上では、補正される振幅特徴量が１つであって、Ｖ_t、Ｕ、ｃ_tがスカラ量である場合を示したが、補正される振幅特徴量が複数存在しても良い。例えば、高域側又は低域側の帯域が異なる複数の振幅特徴量を適用しても良い。また例えば、１つの振幅特徴量のごく短時間の平滑値を異なる振幅特徴量として適用するようにしても良い。補正される振幅特徴量が複数存在する場合には、少なくともＶ_t、Ｕはベクトル量となる。この場合でも、（１）式はそのまま用いることができる（但し、少なくともＶ_t、Ｕはベクトル量である）。補正される振幅特徴量が複数存在する場合には、（２）式はそのまま用いることができず、代わりに（３）式を用いることとなる。ここで、振幅特徴量Ｖ_tと目標振幅特徴量Ｕは列ベクトルである。なお、（３）式においてはベクトルＸの転置をＸ^Tで表している。

ここで、（１）式〜（３）式を計算するのに振幅特徴量Ｖ_tが必要になるとは限らないが（後述する（５）式〜（８）式参照）、仮に、振幅特徴量Ｖ_tが必要となる場合には、振幅特徴量Ｖ_tを当該補正量推定手段１０３で算出するのでなく、特徴量抽出手段１０１から供給されるようにすることで、計算量を減らすことができる。

特徴量補正手段１０４は、与えられた振幅特徴量Ｖ_tと補正量ｃ_tとに基づいて補正振幅特徴量Ｖ^* _tを算出し、拡張ゲイン算出手段１０５に与える。補正振幅特徴量Ｖ^* _tは上述の関数ｆ（）を用いて（４）式で算出される。

なお、補正量推定手段１０３が行う上述した補正量の推定（探索）演算の際に、補正振幅特徴量Ｖ^* _tの算出が実行されるようなアルゴリズムであれば、特徴量補正手段１０４による演算に代え、補正量推定手段１０３が得た補正振幅特徴量Ｖ^* _tを流用するようにしても良い。

拡張ゲイン算出手段１０５は、与えられた補正振幅特徴量Ｖ^* _tに基づいて拡張ゲインを算出して拡張音声調整手段１０７に与える。拡張ゲインの算出方法として、任意の方法を適用することができる。例えば、振幅特徴量が入力帯域振幅比である場合には特許文献１に記載の方法を適用し得る。

拡張音声生成手段１０６は、与えられた入力音声に基づいて拡張帯域に成分を有する拡張音声を生成し、得られた拡張音声を拡張音声調整手段１０７に与える。拡張音声の生成方法として、既存の様々な方法のいずれかを適用できる。例えば、入力音声の２ｋＨｚ〜４ｋＨｚをバンドパスフィルタで抽出した後に全波整流処理を行い、さらに４ｋＨｚ以上をハイパスフィルタで抽出する方法を適用できる。また例えば、特許文献１に記載の方法を用いても良く、これを時間領域で実現する場合には、コピーしたい帯域をバンドパスフィルタで抽出した後にヒルベルト変換を行って負の周波数成分を除去し、適切な周波数の正弦波の解析信号を乗じて実部を取れば良い。

拡張音声調整手段１０７は、与えられた拡張ゲインに基づいて、与えられた拡張音声の振幅を調整し、得られた調整拡張音声を拡張音声加算手段１０８に与える。拡張音声の振幅の調整方法は、拡張ゲインを拡張音声に乗じる方法が好適であるが、拡張ゲインが拡張音声の真の振幅を表していると考えて拡張音声を拡張音声自身の振幅で除した後に拡張ゲインを乗じる構成を取るようにしても良い。

拡張音声加算手段１０８は、与えられた入力音声と調整拡張音声とを加算して広帯域化音声を生成して出力する。ここまで、拡張音声及び調整拡張音声は入力帯域に成分を有さないことを前提として説明したが、仮に、入力帯域に何らかの成分を有していて、しかもこれを除去したい場合には、入力音声との加算を行う前に入力帯域の成分を除去するフィルタを調整拡張音声にかける構成が取られる。

（Ｂ−２）第１の実施形態の動作
次に、第１の実施形態の音声帯域拡張装置１００の動作を説明する。

音声帯域拡張装置１００において、入力音声は、特徴量抽出手段１０１、目標特徴量保持手段１０２、補正量推定手段１０３、拡張音声生成手段１０６及び拡張音声加算手段１０８に与えられる。

特徴量抽出手段１０１においては、与えられた入力音声の振幅に関する少なくとも１つ以上の振幅特徴量が抽出され、抽出された振幅特徴量が特徴量補正手段１０４に与えられる。

予め定められた目標振幅特徴量が目標特徴量保持手段１０２に保持されており、この目標振幅特徴量は補正量推定手段１０３に与えられる。

補正量推定手段１０３においては、特徴量抽出手段１０１で算出された振幅特徴量が与えられた目標振幅特徴量に近付くようにする補正量が推定され、推定された補正量が特徴量補正手段１０４に与えられる。

上述した補正量推定手段１０３の機能説明では一般論として説明したが、以下では、一例として、前処理がノイズキャンセラ（の処理）であり、かつ拡張ゲインの算出に用いる振幅特徴量が入力帯域振幅比である場合の補正量推定手段１０３における動作を具体的に説明する。

ノイズキャンセラは、主マイクロホンと参照マイクロホンと呼ばれて区別される少なくとも２つ以上のマイクロホンを用いて、目的音声が主要な目的音優勢音声と非目的音声が主要な非目的音優勢音声とを含む周囲音声を収録し、得られた２つ以上の収録音声から目的音優勢音声に含まれる非目的音声を推定して減じることで、非目的音声を抑圧し、目的音声を強調する方法である。ノイズキャンセラは、非目的音声を逐次推定するという仕様のため、周波数の低い成分は精度良く推定できるが、周波数の高い成分は追従し切れずに精度が落ちる傾向がある。従って、低い周波数成分の方が高い周波数成分に比べてより強く抑圧され易い。このため、入力音声の前処理としてノイズキャンセラが行われると、前処理が行われない入力音声と比べて低い周波数成分が弱くなる現象が生じ、振幅特徴量（入力帯域振幅比）が想定より大きな値となってしまう。

そこで、ノイズキャンセラで低い周波数成分が高い周波数成分に比べて多く抑圧された量を推定して補正量とし、当該補正量を低域側の振幅に加算してから入力帯域振幅比を得ることで、ノイズキャンセラが行われない場合の入力帯域振幅比に近い値を得ることができる。

今、時刻ｔにおける低域側の帯域の振幅をＬ_t、高域側の帯域の振幅をＨ_tとし、補正量ｃ_tは低域側の帯域の振幅に加算されるものとする。なお、補正量ｃ_tを低域側の帯域の振幅に加算するようにしたのは、ノイズキャンセラでは、低い周波数成分の方が高い周波数成分に比べてより強く抑圧され易く、それを補うためである。この例の場合、特徴量抽出手段１０１は、振幅特徴量として、低域側帯域振幅Ｌ_t及び高域側帯域の振幅Ｈ_tを抽出して補正量推定手段１０３に与え、補正量推定手段１０３に入力音声を与える必要はない。

低域側帯域振幅Ｌ_tの条件付き期待値を（５）式、高域側帯域振幅Ｈ_tの条件付き期待値を（６）式として、（７）式を満たすｃ_tを補正量として推定する。（７）式は、補正後の入力帯域振幅比と目標とする（標準的な）入力帯域振幅比との差が最小となるような補正量を探索することを表しており、その探索範囲を非負値に限定することで、低域側の帯域の振幅を逆に小さくしてしまうような誤った補正が行われないようにしている。（７）式を満たす補正量ｃ_tは、（８）式によって求めることができる。（８）式において、ｍａｘ（Ａ，Ｂ）はＡとＢの大きい方を選択する演算である。

振幅特徴量Ｖ_tは、特徴量補正手段１０４において、推定された補正量ｃ_tに基づいて補正され、得られた補正振幅特徴量Ｖ^* _tが拡張ゲイン算出手段１０５に与えられる。ここで、前処理がノイズキャンセラであり、かつ拡張ゲインの算出に用いる振幅特徴量が入力帯域振幅比である場合には、補正振幅特徴量Ｖ^* _tは（９）式で算出される。

拡張ゲイン算出手段１０５においては、与えられた補正振幅特徴量に基づいて拡張ゲインが算出されて拡張音声調整手段１０７に与えられる。また、拡張音声生成手段１０６においては、与えられた入力音声に基づいて拡張音声が生成され、得られた拡張音声が拡張音声調整手段１０７に与えられる。

拡張音声の振幅は、拡張音声調整手段１０７において、拡張ゲインに基づいて調整され、得られた調整拡張音声が拡張音声加算手段１０８に与えられる。そして、拡張音声加算手段１０８において、入力音声と調整拡張音声とが加算されて広帯域化音声が生成されて出力される。

（Ｂ−３）第１の実施形態の効果
以上のように、第１の実施形態によれば、入力音声が何らかの前処理によって変形させられていても、補正振幅特徴量が前処理によって変形させられていない音声から得た振幅特徴量に近い値を取るようにできるので、前処理の影響を軽減したより明瞭性の高い広帯域化音声を得ることができる。

（Ｃ）第２の実施形態
次に、本発明による音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラムの第２の実施形態を、図面を参照しながら説明する。

第１の実施形態では、補正量を常に推定していた。しかし、音声は振幅も周波数特性も時間と共に大きく変化するため、予め定められる目標振幅特徴量を適切な値に決定するのは難しい。

そこで、第２の実施形態では、音声が存在しない無音区間に対して目標振幅特徴量を定めておき、無音区間で補正量の推定を行う。無音区間が「完全な無音」であれば補正量の推定はできないが、空気のある自然界において「完全な無音」はまず存在しないため、実環境における収録において「完全な無音」となることはない。さらに、自然界で観測される微小な雑音の周波数特性は、エネルギが低域に偏る傾向がある。従って、無音区間の目標振幅特徴量を観測に基づいて決定し、無音区間における振幅特徴量の条件付き期待値が目標振幅特徴量に近付くように補正量を推定することで、安定な補正が可能となる。

（Ｃ−１）第２の実施形態の構成
図２は、第２の実施形態に係る音声帯域拡張装置の構成を示す機能ブロック図であり、第１の実施形態に係る図１との同一、対応部分には同一、対応符号を付して示している。

第２の実施形態の音声帯域拡張装置２００は、図２に示すように、特徴量抽出手段１０１と、目標特徴量保持手段１０２と、無音区間検出手段２０９と、補正量推定手段２０３と、特徴量補正手段１０４と、拡張ゲイン算出手段１０５と、拡張音声生成手段１０６と、拡張音声調整手段１０７と、拡張音声加算手段１０８とを有する。

ここで、特徴量抽出手段１０１、目標特徴量保持手段１０２、無音区間検出手段２０９、補正量推定手段２０３及び特徴量補正手段１０４でなる部分が、第２の実施形態の音声特徴量抽出装置を構成している。

なお、特徴量抽出手段１０１、目標特徴量保持手段１０２、特徴量補正手段１０４、拡張ゲイン算出手段１０５、拡張音声生成手段１０６、拡張音声調整手段１０７及び拡張音声加算手段１０８の機能は、第１の実施形態のものと同様であるので、その説明は省略する。

無音区間検出手段２０９は、与えられた入力音声が無音であるか否かを判定し、無音ならば真（Ｔｒｕｅ）、無音でないならば偽（Ｆａｌｓｅ）を無音区間検出値として設定し、補正量推定手段２０３に与えるものである。ここで、無音区間を検出する方法としては、多数提案されている既存の音声区間検出技術のいずれを適用しても良い。例えば、入力音声の振幅に対して、予め適当な閾値を設定して、当該振幅が閾値以下なら無音区間検出値を真とし、そうでないなら偽とする方法を適用できる。また、１回の無音区間と検出された全区間を真とするのではなく、その区間の先頭若しくは終了間際の所定長の部分区間を偽に変更するようにしても良く、このようにすれば無音の誤判定の悪影響を未然に防止することができる。

第２の実施形態の補正量推定手段２０３は、無音区間における情報だけを用いる点と、無音区間でのみ補正量を更新する点が、第１の実施形態の補正量推定手段１０３と異なっている。

補正量推定手段２０３は、与えられた無音区間検出値が真であるときには、入力音声から補正量の推定に必要な情報を抽出して蓄積し、蓄積されている情報に基づいて補正量を推定して特徴量補正手段１０４に与える。また、補正量推定手段２０３は、無音区間検出値が偽であるときには、情報の蓄積は行わず、最後に更新された補正量を現在の補正量として特徴量補正手段１０４に与える。

（Ｃ−２）第２の実施形態の動作
次に、第２の実施形態の音声帯域拡張装置２００における動作を、第１の実施形態と異なる動作を中心に説明する。

第２の実施形態の場合、入力音声は、特徴量抽出手段１０１、目標特徴量保持手段１０２、無音区間検出手段２０９、補正量推定手段２０３、拡張音声生成手段１０６及び拡張音声加算手段１０８に与えられる。

特徴量抽出手段１０１において、入力音声の振幅に関する振幅特徴量が抽出され、抽出された振幅特徴量が特徴量補正手段１０４に与えられる点、予め定められた目標振幅特徴量が目標特徴量保持手段１０２から補正量推定手段２０３に与えられる点は、第１の実施形態と同様である。

無音区間検出手段２０９においては、入力音声が無音であるか否かが判定され、その判定結果に応じて真偽が設定された無音区間検出値が補正量推定手段２０３に与えられる。

第２の実施形態の補正量推定手段２０３において、無音区間検出値が真であるときには、入力音声から補正量の推定に必要な情報が抽出されて蓄積されると共に、その蓄積された情報に基づいて、第１の実施形態と同様にして、補正量が推定されて特徴量補正手段１０４に与えられる。また、補正量推定手段２０３において、無音区間検出値が偽であるときには、情報の蓄積が実行されず、最後に更新された補正量が現在の補正量として特徴量補正手段１０４に与えられる。

特徴量補正手段１０４において、振幅特徴量が、補正量に基づいて補正され、得られた補正振幅特徴量が拡張ゲイン算出手段１０５に与えられる点、拡張ゲイン算出手段１０５において、与えられた補正振幅特徴量に基づいて拡張ゲインが算出されて拡張音声調整手段１０７に与えられる点、拡張音声生成手段１０６において、与えられた入力音声に基づいて拡張音声が生成され、得られた拡張音声が拡張音声調整手段１０７に与えられる点、拡張音声調整手段１０７において、拡張音声の振幅が拡張ゲインに基づいて調整され、得られた調整拡張音声が拡張音声加算手段１０８に与えられる点、拡張音声加算手段１０８において、入力音声と調整拡張音声とが加算されて広帯域化音声が生成されて出力される点等は、第１の実施形態の場合と同様である。

（Ｃ−３）第２の実施形態の効果
第２の実施形態によれば、変化の少ない無音区間で補正量の推定を行うことにより、振幅特徴量の安定な補正が可能となるため、より明瞭性の高い広帯域化音声を得ることができる。

（Ｄ）第３の実施形態
次に、本発明による音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラムの第３の実施形態を、図面を参照しながら説明する。

第２の実施形態では、無音区間の情報を補正量の推定に利用していた。しかし、入力音声に無音区間がほとんど存在しないこともあり得る。例えば、背景雑音がある場合（例えば、雑踏の中や、走行中の車の中、飲食店の中など）であって、前処理が背景雑音を抑圧する処理でない場合、若しくは、前処理が背景雑音をも抑圧する処理であるが抑圧が完全でない場合、無音区間はほとんど存在しない。このような場合には、第２の実施形態では、補正量の更新が行われなくなってしまう。

そこで、第３の実施形態では、無音区間の代わりに非音声区間（無音区間を含む）を検出すると共に、背景雑音（前処理による抑圧後の残留雑音を含む）の特徴によって目標振幅特徴量を切り替えることによって、背景雑音がある場合に前処理が行われた入力音声に対しても、前処理が行われない場合と同様の広帯域化音声を得られるようにしようとしたものである。

（Ｄ−１）第３の実施形態の構成
図３は、第３の実施形態に係る音声帯域拡張装置の構成を示す機能ブロック図であり、第１の実施形態に係る図１との同一、対応部分には同一、対応符号を付して示している。

第３の実施形態の音声帯域拡張装置３００は、図３に示すように、特徴量抽出手段１０１と、非音声区間情報抽出手段３１０と、目標特徴量決定手段３１１と、補正量推定手段３０３と、特徴量補正手段１０４と、拡張ゲイン算出手段１０５と、拡張音声生成手段１０６と、拡張音声調整手段１０７と、拡張音声加算手段１０８とを有する。

ここで、特徴量抽出手段１０１、非音声区間情報抽出手段３１０、目標特徴量決定手段３１１、補正量推定手段３０３及び特徴量補正手段１０４でなる部分が、第３の実施形態の音声特徴量抽出装置を構成している。

なお、特徴量抽出手段１０１、特徴量補正手段１０４、拡張ゲイン算出手段１０５、拡張音声生成手段１０６、拡張音声調整手段１０７及び拡張音声加算手段１０８の機能は、第１の実施形態のものと同様であるので、その説明は省略する。

非音声区間情報抽出手段３１０は、与えられた入力音声が非音声区間であるか否かを判定して、非音声区間ならば非音声区間検出値を真とし、そうでないならば非音声区間検出値を偽とするものである。また、非音声区間情報抽出手段３１０は、入力音声が非音声区間であるならば、入力音声の周波数特性に関する情報を抽出して背景雑音情報とするものである。非音声区間情報抽出手段３１０は、得られた非音声区間検出値と背景雑音情報とを目標特徴量決定手段３１１に与え、得られた非音声区間検出値を補正量推定手段３０３に与えるものである。

非音声区間の検出については、単純に入力音声の振幅を閾値と比較するだけでは不十分であり、既存の音声検出技術を用いる必要がある。例えば、参考文献『Ｒ．Ｍａｒｔｉｎ，”ＡｎＥｆｆｉｃｉｅｎｔＡｌｇｏｒｉｔｈｍｔｏＥｓｔｉｍａｔｅｔｈｅＩｎｓｔａｎｔａｎｅｏｕｓＳＮＲｏｆＳｐｅｅｃｈＳｉｇｎａｌｓ”，Ｐｒｏｃ．ＥＵＲＯＳＰＥＥＣＨ‘９３，ｐｐ．１０９３−１０９６，１９９３』に開示されている方法を適用することができる。

背景雑音情報として用いられる入力音声の周波数特性は、ある程度、周波数軸方向に平滑化されている方が好ましい。例えば、６個程度の帯域数のフィルタバンクの各フィルタ出力の振幅（又はパワー）を背景雑音情報として適用することは好適である。また例えば、ＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ；高速フーリエ変換）によって得られた振幅スペクトルを６個程度にグルーピングしてグループ毎に平均値を取って、背景雑音情報とするようにしても良い。なお、上記では帯域数が６個である場合に言及したが、帯域数は限定されず、帯域数として４〜１６個を適用することは好適である。

目標特徴量決定手段３１１は、非音声区間検出値が真であるときには、背景雑音情報に基づいて目標振幅特徴量を決定して記憶し、得られた目標振幅特徴量を補正量推定手段３０３に与える。一方、目標特徴量決定手段３１１は、非音声区間検出値が偽であるときには、目標振幅特徴量の決定動作を実行せず、最も直前に決定された目標振幅特徴量を補正量推定手段３０３に与える。

背景雑音情報に基づいた目標振幅特徴量の決定には、例えば、パターンマッチングを利用することが好適である。事前の学習により、背景雑音情報と目標振幅特徴量とを対応付けて（紐付けて）おく。目標特徴量決定手段３１１は、事前に学習しておいた背景雑音情報のコードブック（各帯域の値の集合）と入力音声から得られた現在の背景雑音情報とのパターンマッチングを行って目標振幅特徴量を選択する。例えば、用意しておくパターン（コードブック）は少なくとも４パターン以上であることが好ましい。

なお、前処理によって変形させられた背景雑音情報から変形させられる前の背景雑音を推定でき、適切な目標振幅特徴量を決定することができる方法であれば、パターンマッチング以外の方法を、背景雑音情報に基づいた目標振幅特徴量の決定に用いることもできる。

補正量推定手段３０３は、非音声区間検出値が真であるときには、入力音声から補正量の推定に必要な情報を抽出して蓄積し、与えられた目標振幅特徴量と蓄積されている情報とに基づいて補正量を推定して特徴量補正手段１０４に与える。一方、補正量推定手段３０３は、非音声区間検出値が偽であるときには、補正量の蓄積は行わず、最後に更新された補正量を現在の補正量として特徴量補正手段１０４に与える。

（Ｄ−２）第３の実施形態の動作
次に、第３の実施形態の音声帯域拡張装置３００における動作を、第１の実施形態と異なる動作を中心に説明する。

第３の実施形態の場合、入力音声は、特徴量抽出手段１０１、非音声区間情報抽出手段３１０、目標特徴量決定手段３１１、補正量推定手段３０３、拡張音声生成手段１０６及び拡張音声加算手段１０８に与えられる。

特徴量抽出手段１０１において、入力音声の振幅に関する振幅特徴量が抽出され、抽出された振幅特徴量が特徴量補正手段１０４に与えられる点は、第１の実施形態と同様である。

非音声区間情報抽出手段３１０においては、入力音声が非音声区間であるか否かが判定されて判定結果に応じた非音声区間検出値が形成されると共に、入力音声が非音声区間であるならば、入力音声の周波数特性に関する情報が抽出されて背景雑音情報とされ、得られた非音声区間検出値と背景雑音情報とが目標特徴量決定手段３１１に与えられ、得られた非音声区間検出値が補正量推定手段３０３に与えられる。

目標特徴量決定手段３１１においては、非音声区間検出値が真であるときには、背景雑音情報に基づいて目標振幅特徴量が決定されて記憶され、得られた目標振幅特徴量が補正量推定手段３０３に与えられ、一方、非音声区間検出値が偽であるときには、目標振幅特徴量の決定動作は実行されず、最も直前に決定、記憶された目標振幅特徴量が補正量推定手段３０３に与えられる。

補正量推定手段３０３においては、非音声区間検出値が真であるときには、入力音声から補正量の推定に必要な情報が抽出されて蓄積され、与えられた目標振幅特徴量と蓄積されている情報とに基づいて補正量が推定されて特徴量補正手段１０４に与えられ、一方、非音声区間検出値が偽であるときには、補正量の推定、蓄積は実行されず、最後に更新された補正量が現在の補正量として特徴量補正手段１０４に与えられる。

（Ｄ−３）第３の実施形態の効果
第３の実施形態によれば、背景雑音がある場合でも、振幅特徴量を適切に補正できるため、より明瞭性の高い広帯域化音声を得ることができる。

（Ｅ）第４の実施形態
次に、本発明による音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラムの第４の実施形態を、図面を参照しながら説明する。

第２の実施形態や第３の実施形態では、無音区間若しくは非音声区間でのみ補正量を更新し、音声区間では補正量を更新しない動作となっていた。しかし、音声区間においても前処理によって周波数特性が大きく変形している場合がある。例えば、ノイズキャンセラによって日本語の音素／ｉ／の第１フォルマント（５００Ｈｚ程度）が減衰させられる場合などがある。このような場合、無音区間若しくは非音声区間で推定された補正量では補正の度合いが不十分となることも生じる。

そこで、第４の実施形態では、補正量を入力音声の振幅によって変化させることにより、このような不都合を解決しようとしたものである。

上述のように、第４の実施形態の技術思想は、第２の実施形態の改良として適用することもできれば、第３の実施形態の改良として適用することもできるが、以下では、第２の実施形態を改良したものとして第４の実施形態を説明する。

第４の実施形態の音声帯域拡張装置４００も、構成要素は、図２に示した第２の実施形態の音声帯域拡張装置２００と同様である。しかし、補正量推定手段及び特徴量補正手段の機能が第２の実施形態のものと多少異なっている。以下では、第４の実施形態の補正量推定手段に対してそれぞれ、符号「４０３」を付与して言及する。

第２の実施形態の補正量推定手段２０３は、無音区間検出値が偽であった場合、すなわち、音声区間では補正量の更新は行わず、最も近い過去で更新された補正量（以下、直前更新補正量と呼ぶ）を出力していた。

これに対して、第４の実施形態の補正量推定手段４０３は、無音区間検出値が偽であった場合には、直前更新補正量を入力帯域の振幅で修正した修正補正量を算出し、特徴量補正手段４０４に与える。なお、補正量推定手段４０３は、無音区間検出値が真であった場合には、直前更新補正量をそのまま修正補正量として特徴量補正手段４０４に与える。

音声区間における直前更新補正量の修正は、入力帯域の振幅が大きい場合には大きくなるようにし、入力帯域の振幅が小さい場合には修正しないという処理であれば良い。このような処理を実現できるのであれば、実現方法は限定されない。以下、好適な実現方法例を説明する。

入力帯域の振幅の長期平均値を算出しておいて、現在の入力帯域の振幅を当該長期平均値で除することで正規化振幅を算出する。そして、補正量をｃ_t、修正補正量をｄ_t、正規化振幅をａとして、（１０）式によって修正補正量ｄ_tを算出する。ここで、ｗは修正重み係数、ａ₁とａ₂は正規化振幅ａに対する閾値である。例えば、ａ₁＝０．１２５、ａ₂＝１、ｗが１０〜４０の範囲内の値であることは好適である。図４は、（１０）式の変換式をグラフ状に示した説明図である。

特徴量補正手段１０４は、補正量ｃ_tの代わりに修正補正量ｄ_tを使って、振幅特徴量を補正する。

以上では第２の実施形態を改良した場合を説明したが、第３の実施形態を改良する場合であれば、以上の説明における「無音区間検出値」を「非音声区間検出値」に置き換えて適用すれば良い。

動作説明は省略するが、第４の実施形態によれば、音声区間でも振幅特徴量を適切に補正できるため、より明瞭性の高い広帯域化音声を得ることができる。

（Ｆ）他の実施形態
上記各実施形態の説明においても、種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。

第１及び第２の実施形態においては、目標振幅特徴量は予め定められていたが、利用者ユーザが目標特徴量を指定できるようにしても良い。また、第３の実施形態に関して言えば、ユーザが背景雑音情報を指定し、指定した背景雑音情報を目標特徴量決定手段３１１に入力するようにしても良い。第３の実施形態に関する他の実施形態としては、予め学習して用意しておくパターンマッチング用の複数のパターンでなる組を、複数組用意しておき、適用するパターンの組をユーザが指定できるようにしても良い。

第４の実施形態は、音声区間の補正量を、入力音声の振幅によって修正させるものを示したが、他の特徴量に基づいて音声区間の補正量を修正するようにしても良い。例えば、ノイズキャンセラによって減衰の影響を大きく受ける音素は限られており、そのような音素を検出して音声区間の補正量を修正するようにしても良い。例えば、音素／ｉ／は、５００Ｈｚ近傍に第１フォルマントがあり、２０００Ｈｚ近傍に第２フォルマントがあり、それらの強度の比もある範囲内にあるので、学習情報を用意しておくことで音素／ｉ／を検出でき、音素／ｉ／を検出した際の修正重み係数を予め定めておくことにより補正量を修正できる。

第１の実施形態の説明で用いた（１）式などにおける期待値算出の開始時刻ｔ₀若しくは算出期間τが固定値であったが、ｔ₀若しくはτをユーザが指定できるようにしても良い。例えば、背景雑音の多少が異なる室外と室内とでｔ₀若しくはτとして別個の値を適用し得るようにしても良い。例えば、ユーザが室内、室外を指定できるようにしても良く、また、ＧＰＳ電波の受信強度などに応じて室内、室外を自動判定してｔ₀若しくはτを設定するようにしても良い。

上記各実施形態を、入力音声は広帯域化音声と同一のサンプリング周波数を有しているという前提で説明したが、入力音声のサンプリング周波数が広帯域化音声のサンプリング周波数より低くても良い。この場合には、入力音声と拡張音声加算手段１０８との間の線上の、補正量推定手段１０３、無音区間検出手段２０９、又は補正量推定手段３０３に係る分岐点と、拡張音声生成手段１０６に係る分岐点との間に、入力音声のサンプリング周波数を広帯域化音声のサンプリング周波数へ変換するサンプリング変換手段を挿入することを要する。

上記各実施形態では、特徴的な処理が時間領域の信号で処理される場合を示したが、特許文献１のように、周波数領域の信号で処理するようにしても良い。この場合において、入力音声と広帯域化音声のサンプリング周波数が異なるときには、上述したサンプリング変換手段に替えて特許文献１の周波数拡張手段を用いるようにしても良い。

上記では、音声帯域拡張装置を電話機器に適用する場合に言及したが、本発明の音声帯域拡張装置の用途が電話機器に限定されないことは勿論である。

また、上記各実施形態では、拡張帯域が高域側であるものを示したが、高域側に加えて低域側を拡張する場合にも、本発明の技術思想を適用することができる。

上記各実施形態では、本発明の音声特徴量抽出装置を音声帯域拡張装置に適用する場合を示したが、音声特徴量（振幅特徴量）を利用することを要する他の装置に、本発明の音声特徴量抽出装置を適用するようにしても良い。例えば、有声無声判定装置の中には、音声特徴量（振幅特徴量）を利用するものがあるが、有声無声判定装置における音声特徴量を抽出する構成として、本発明の音声特徴量抽出装置を適用するようにしても良い。

１００、２００、３００、４００…音声帯域拡張装置、１０１…特徴量抽出手段、１０２…目標特徴量保持手段、１０３、２０３、３０３、４０３…補正量推定手段、１０４、４０４…特徴量補正手段、１０５…拡張ゲイン算出手段、１０６…拡張音声生成手段、１０７…拡張音声調整手段、１０８…拡張音声加算手段、２０９…無音区間検出手段、３１０…非音声区間情報抽出手段、３１１…目標特徴量決定手段。

Claims

入力音声に成分が存在しない周波数帯域に音声成分を追加して周波数帯域を拡張する音声帯域拡張装置において、
上記入力音声から振幅又はパワーに関する１つ以上の特徴量を抽出する特徴量抽出手段と、
上記特徴量に対する補正量を推定する補正量推定手段と、
上記補正量に基づいて、抽出された上記特徴量を補正して補正特徴量を得る特徴量補正手段と、
上記入力音声から、上記入力音声が存在しない周波数帯域に成分を有する、上記補正特徴量に基づいて振幅又はパワーが調整された拡張音声を生成し、上記入力音声と合成して広帯域化音声を生成する広帯域化音声生成手段とを備え、
上記補正量推定手段は、上記特徴量のうち１つ以上の特徴量について目標特徴量を予め定めており、抽出された上記特徴量が上記目標特徴量に近付くような上記補正量を推定するものであり、
上記特徴量の１つが、入力音声の異なる２つの周波数帯域の振幅において、高域側の振幅を低域側の振幅で除した比である入力帯域振幅比であって、上記目標特徴量は上記入力帯域振幅比についての目標値であり、
上記補正量推定手段は、上記高域側の振幅の期待値を上記目標特徴量で除した値から上記低域側の振幅の期待値を減じた値を暫定補正量とし、補正量を、上記暫定補正量が０より小さければ０とし、上記暫定補正量が０以上であれば上記暫定補正量とする
ことを特徴とする音声帯域拡張装置。
上記入力音声が無音であるか否かを判定する無音区間検出手段をさらに備え、
上記補正量推定手段は、上記無音区間検出手段が無音区間であると判定した場合には上記補正量の推定を行い、上記無音区間検出手段が無音区間でないと判断した場合には上記補正量を更新しない
ことを特徴とする請求項１に記載の音声帯域拡張装置。
上記補正量推定手段は、上記無音区間検出手段が無音区間でないと判断した場合には、上記入力音声の振幅に応じて、過去に無音区間と判定された中で最後に推定した上記補正量を修正することを特徴とする請求項２に記載の音声帯域拡張装置。
上記入力音声を分析する非音声区間情報抽出手段をさらに備え、
上記非音声区間情報抽出手段は、上記入力音声が非音声区間であるか否かを判定すると共に、非音声区間である場合には、上記入力音声の周波数特性を抽出し、
上記補正量推定手段は、上記入力音声が非音声区間である場合には、上記周波数特性に基づいて目標特徴量を決定し、当該目標特徴量に基づいて上記補正量の推定を行い、上記入力音声が非音声区間でない場合には上記補正量を更新しない
ことを特徴とする請求項１に記載の音声帯域拡張装置。
上記補正量推定手段は、上記入力音声が非音声区間でない場合には、上記入力音声の振幅に応じて、過去に非音声区間と判定された中で最後に推定した上記補正量を修正することを特徴とする請求項４に記載の音声帯域拡張装置。
上記補正量推定手段は、
上記入力音声の振幅の長期平均値を算出し、
上記入力音声の振幅を上記長期平均値で除して正規化振幅を算出し、
上記正規化振幅が第１の閾値より小さい場合には上記補正量を修正せず、
上記正規化振幅が上記第１の閾値以上かつ第２の閾値より小さい場合には上記補正量に予め定められた修正重み係数と上記正規化振幅を乗じることで修正し、
上記正規化振幅が上記第２の閾値以上の場合には上記補正量に上記修正重み係数と上記第２の閾値を乗じることで修正する
ことを特徴とする請求項３又は５に記載の音声帯域拡張装置。
入力音声に成分が存在しない周波数帯域に音声成分を追加して周波数帯域を拡張する音声帯域拡張プログラムであって、
コンピュータを、
上記入力音声から振幅又はパワーに関する１つ以上の特徴量を抽出する特徴量抽出手段と、
上記特徴量に対する補正量を推定する補正量推定手段と、
上記補正量に基づいて、抽出された上記特徴量を補正して補正特徴量を得る特徴量補正手段と、
上記入力音声から、上記入力音声が存在しない周波数帯域に成分を有する、上記補正特徴量に基づいて振幅又はパワーが調整された拡張音声を生成し、上記入力音声と合成して広帯域化音声を生成する広帯域化音声生成手段と
して機能させ、
上記補正量推定手段は、上記特徴量のうち１つ以上の特徴量について目標特徴量を予め定めており、抽出された上記特徴量が上記目標特徴量に近付くような上記補正量を推定するものであり、
上記特徴量の１つが、入力音声の異なる２つの周波数帯域の振幅において、高域側の振幅を低域側の振幅で除した比である入力帯域振幅比であって、上記目標特徴量は上記入力帯域振幅比についての目標値であり、
上記補正量推定手段は、上記高域側の振幅の期待値を上記目標特徴量で除した値から上記低域側の振幅の期待値を減じた値を暫定補正量とし、補正量を、上記暫定補正量が０より小さければ０とし、上記暫定補正量が０以上であれば上記暫定補正量とする
ことを特徴とする音声帯域拡張プログラム。
入力音声における振幅又はパワーに関する特徴量を抽出する音声特徴量抽出装置において、
上記入力音声から振幅又はパワーに関する１つ以上の特徴量を抽出する特徴量抽出手段と、
上記特徴量に対する補正量を推定する補正量推定手段と、
上記補正量に基づいて、抽出された上記特徴量を補正して出力する特徴量補正手段とを備え、
上記補正量推定手段は、上記特徴量のうち１つ以上の特徴量について目標特徴量を予め定めており、抽出された上記特徴量が上記目標特徴量に近付くような上記補正量を推定するものであり、
上記特徴量の１つが、入力音声の異なる２つの周波数帯域の振幅において、高域側の振幅を低域側の振幅で除した比である入力帯域振幅比であって、上記目標特徴量は上記入力帯域振幅比についての目標値であり、
上記補正量推定手段は、上記高域側の振幅の期待値を上記目標特徴量で除した値から上記低域側の振幅の期待値を減じた値を暫定補正量とし、補正量を、上記暫定補正量が０より小さければ０とし、上記暫定補正量が０以上であれば上記暫定補正量とする
ことを特徴とする音声特徴量抽出装置。
入力音声における振幅又はパワーに関する特徴量を抽出する音声特徴量抽出プログラムであって、
コンピュータを、
上記入力音声から振幅又はパワーに関する１つ以上の特徴量を抽出する特徴量抽出手段と、
上記特徴量に対する補正量を推定する補正量推定手段と、
上記補正量に基づいて、抽出された上記特徴量を補正して出力する特徴量補正手段と
して機能させ、
上記補正量推定手段は、上記特徴量のうち１つ以上の特徴量について目標特徴量を予め定めており、抽出された上記特徴量が上記目標特徴量に近付くような上記補正量を推定するものであり、
上記特徴量の１つが、入力音声の異なる２つの周波数帯域の振幅において、高域側の振幅を低域側の振幅で除した比である入力帯域振幅比であって、上記目標特徴量は上記入力帯域振幅比についての目標値であり、
上記補正量推定手段は、上記高域側の振幅の期待値を上記目標特徴量で除した値から上記低域側の振幅の期待値を減じた値を暫定補正量とし、補正量を、上記暫定補正量が０より小さければ０とし、上記暫定補正量が０以上であれば上記暫定補正量とする
ことを特徴とする音声特徴量抽出プログラム。