JP5840087B2

JP5840087B2 - 音声信号復元装置および音声信号復元方法

Info

Publication number: JP5840087B2
Application number: JP2012160355A
Authority: JP
Inventors: 耕佑細谷; 訓古田; 山浦　正; 正山浦
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2012-07-19
Filing date: 2012-07-19
Publication date: 2016-01-06
Anticipated expiration: 2032-07-19
Also published as: JP2014021307A

Description

この発明は、電話回線等の伝送路を介されることにより、周波数帯域が狭帯域に制限されている音声信号から、広帯域の音声信号の生成および、雑音抑圧や音声圧縮等により劣化・欠損した帯域の音声信号を復元するための音声信号復元装置および音声信号復元方法に関するものである。
この発明は、例えば、音声通信、音声蓄積、音声認識システムが導入された、カーナビゲーションまたは携帯電話等の音声通信システム、ハンズフリー通話システム、ＴＶ会議システム、監視システム等の音質改善や、音声認識システムの認識率の向上に供される。

アナログ電話では、電話回線を通じて送られてくる音声の周波数帯域は、例えば３００〜３４００Ｈｚと狭く帯域制限されている。このため、従来の電話回線の音質はあまり良いとはいえない。また、携帯電話等のデジタル音声通信では、ビットレートの制限によりアナログ回線と同様に帯域幅が制限されるため、この場合にも音質が良いとはいえない。

上記の課題に対して、従来より、受信側で狭帯域音声信号から擬似的に広帯域音声信号を生成・復元する音声信号復元技術がある。

従来の音声信号復元技術に特許第３１８９５９８号公報や、特開２０１０−７９２７５号公報に開示されたものがある。

特許第３１８９５９８号公報に記載の音声信号復元技術は、狭帯域音声信号スペクトル包絡を広帯域音声信号スペクトル包絡に変換する写像関数をあらかじめ多量の学習用データから用意しておき、この写像関数を用いて狭帯域音声信号のスペクトル包絡から広帯域音声信号のスペクトル包絡を推定することにより、広帯域音声信号を生成している。

特開２０１０−７９７２５号公報に記載の音声信号復元技術は、狭帯域音声信号をいくつかのサブバンド信号に分割し、狭帯域音声信号のサブバンド信号から生成した周波数包絡に対して、同じく狭帯域音声信号のサブバンド信号のパワーから推定した利得を掛け合わせることにより広帯域音声信号を生成している。

また、音声信号復元技術に平滑化を適用した従来技術として、国際公開第２００８／０１５７２６号公報に記載されたものがある。

国際公開第２００８／０１５７２６号公報に記載の音声信号復元技術は、狭帯域音声信号の振幅の値から復元する高域の音声信号の利得を算出する際に、時間方向の平滑化を行うことによって、復元する高域の音声信号の利得の急激な変化を抑制している。

特許第３１８９５９８号公報特開２０１０−７９２７５号公報国際公開第２００８／０１５７２６号公報

上記の従来法には、以下に述べる課題がある。
特許文献１にて開示されている音声信号復元技術と、特許文献２にて開示されている音声信号復元技術はともに、入力となる狭帯域音声信号に雑音が混入する場合、雑音の影響により算出した復元する高域のパワーが急激に変化するため、復元する高域部のパワー変動と狭帯域部の入力音声信号のパワー変動とに乖離が生じ、明瞭性が低下するという課題がある。
このような推定値の急激な変化を抑圧するための対策として、時間方向の平滑化を行うことが特許文献３にて開示されている。

図１に示すように、平滑化を行うことで復元する高域の急激なパワー変動を低減することができ、狭帯域音声信号に雑音が混入した場合でも明瞭性のある広帯域音声信号を生成できる。しかし従来、この平滑化強度は開発者により一意に定められている。よって、雑音が混入している狭帯域音声信号をもとに定められた平滑化強度で雑音が混入していない狭帯域音声信号に対して平滑化を行うと、図２に示すように平滑化の影響により狭帯域部の音声信号のパワー変動と復元する帯域のパワー変動に乖離が生じ、異音と聞こえてしまう課題がある。

特に、発話開始区間、発話終了区間は狭帯域音声信号のパワーが急激に変化することが多いため、平滑化を行うと狭帯域部の音声信号のパワー変動と復元する帯域のパワー変動に乖離が生じやすく、異音と感じることがある。狭帯域音声信号に雑音が混入する場合には雑音に上記の異音がマスクされ、聴感上、気にならないことが多い。しかし、雑音が混入しない場合には聴感上、気になることが多い。

この発明は上記の課題を解決すべくなされたもので、入力となる狭帯域音声信号に雑音が混入しても、混入していなくても明瞭性のある広帯域音声信号を生成することが可能な音声信号復元装置および音声信号復元方法を提供することを目的とする。

この発明に係る音声信号復元装置は、
第１の周波数帯域に帯域制限された音声信号から第２の周波数帯域の音声信号に対応する音源信号を生成する音源信号生成部と、
上記第１の周波数帯域に帯域制限された音声信号から上記第２の周波数帯域の音声信号に対応するスペクトル包絡を推定し、出力するスペクトル包絡推定部と、
上記第１の周波数帯域に帯域制限された音声信号に混入している雑音成分を推定し、雑音成分の混入度合いを示す指標である雑音情報を出力する雑音推定部と、
上記雑音推定部により推定された上記雑音情報から、上記スペクトル包絡推定部からの出力であるスペクトル包絡の平滑化の強さ度合いを示す指標である平滑化強度決定示数を出力する平滑化強度決定部と、
上記平滑化強度決定部により決定された上記平滑化強度決定示数を用いて上記スペクトル包絡推定部により推定された上記スペクトル包絡の平滑化を行うスペクトル包絡平滑化部と
上記音源信号生成部で生成された上記音源信号と、上記スペクトル包絡平滑化部で平滑化された上記スペクトル包絡とを用いて、上記第２の周波数帯域の音声信号を生成する信号合成部とを備える。

この発明に係る音声信号復元装置によれば、
雑音推定部で、第１の周波数帯域に帯域制限された音声信号に混入している雑音成分を推定して、雑音成分の混入度合いを示す雑音情報を出力し、
第１の周波数帯域に帯域制限された音声信号から第２の周波数帯域の音声信号に対応するスペクトル包絡をスペクトル包絡推定部で推定し、出力された上記スペクトル包絡を平滑化する際に用いる平滑化強度決定示数を、上記雑音情報から算定し、この算定された平滑化強度決定示数を用いて、スペクトル包絡平滑化部で上記スペクトル包絡の平滑化を行い、
音源信号生成部で生成された第１の周波数帯域に帯域制限された音声信号から第２の周波数帯域の音声信号に対応する音源信号と、
上記スペクトル包絡平滑化部で平滑化された上記スペクトル包絡とを用いて、上記第２の周波数帯域の音声信号を生成する信号合成部とを備える構成にされているので、
第１の周波数帯域に帯域制限された音声信号への雑音の混入による生成された第２の周波数帯域の音声信号の明瞭性の低下や、平滑化の影響でパワーの急激な変化により異音と聞こえてしまう課題を解決し、異音感のない明瞭性のある広帯域音声信号を生成する効果がある。

雑音混入音声を入力とした際の平滑化あり・なしの復元帯域の時間対パワーのイメージ特性図である。クリーン音声を入力とした際の平滑化あり・なしの復元帯域の時間対パワーのイメージ特性図である。この発明の実施の形態１による音声信号復元装置を示す構成図である。実施の形態１で用いられる平滑化強度決定関数の特性図である。この発明の実施の形態２による音声信号復元装置を示す構成図である。実施の形態２で用いられる隠れマルコフモデルのイメージ図である。実施の形態２で用いられる平滑化強度を決定するフローチャート図である。この発明の実施の形態３による音声信号復元装置を示す構成図である。この発明の音声信号復元装置による帯域拡張技術を示すイメージ図である。この発明の音声信号復元装置による劣化・欠損帯域部復元の音声復元技術を示すイメージ図である。この発明の音声信号復元装置をカーナビゲーターのハンズフリー音声通話システムに適用した実施の形態５の構成図である。

実施の形態１．
以下、図面を参照してこの発明の実施の形態を説明する。
図３は本実施の形態１による音声信号復元装置の全体構成を示したものである。
図３において、音源生成部１０１は第１の周波数帯域に帯域制限された狭帯域音声信号（以下単に狭帯域音声信号と称す）を入力として、第２の周波数帯域である復元する帯域（以下単に復元する帯域と称す）の音声信号に対応する微細構造を含む音源信号を生成し出力する。スペクトル包絡推定部１０２は狭帯域音声信号を入力として、復元する帯域のスペクトル包絡を推定し出力する。雑音推定部１０３は狭帯域音声信号を入力とし、狭帯域音声信号中に含まれる雑音成分を推定し、その雑音情報を出力する。平滑化強度決定部１０４は雑音推定部１０３で推定された雑音情報を入力として、スペクトル包絡推定部１０２で推定された復元する帯域のスペクトル包絡を平滑する際の指標である平滑化強度決定示数を出力する。スペクトル包絡平滑化部１０５は、スペクトル包絡推定部１０２で推定された復元する帯域のスペクトル包絡と平滑化強度決定部１０４から出力された平滑化強度決定示数を入力とし、復元する帯域のスペクトル包絡の時間方向の平滑化を行い、平滑化された復元される帯域のスペクトル包絡を出力する。

信号合成部１０６は、音源生成部１０１からの音源信号とスペクトル包絡平滑化部１０５からの平滑化された復元する帯域のスペクトル包絡を入力とし、復元する帯域を含む擬似音声信号を生成し、出力する。帯域通過フィルタ部１０７は復元する帯域を有する擬似音声信号を入力とし、狭帯域音声信号の帯域以外の周波数成分を抽出し、帯域制限された擬似音声信号を出力する。信号加算部１０８は、入力信号である狭帯域音声信号と帯域通過フィルタ部１０７の出力である帯域制限された擬似音声信号を入力とし、この２つの信号を加算することにより、復元された広帯域音声信号を出力する。

本実施の形態では、スペクトル包絡平滑化部１０５で行う平滑化の強度を、雑音推定部１０３によって得られる雑音情報に応じて適応的に平滑化強度決定部１０４で決定する。こうすることによって、入力となる狭帯域音声信号に雑音が混入しても、混入していなくても異音感のない明瞭性のある広帯域音声信号を生成できる。

以下、図に基づいてこの音声信号復元装置の動作原理について説明する。
まず、マイクロホン等を通じて取り込まれた音声や音楽等の信号が、Ａ／Ｄ（アナログ・デジタル）変換された後、所定のサンプリング周波数（例えば、８０００Ｈｚ）でサンプリングされると共にフレーム単位に分割（例えば10ms）され、更に帯域制限（例えば、３００〜３４００Ｈｚ）された狭帯域音声信号として、本実施の形態の音声信号復元装置へ入力される。なお、本実施の形態では、最終的に得る広帯域音声信号の周波数帯域を５０〜７０００Ｈｚとして説明する。

音源生成部１０１は、狭帯域音声信号を入力とし、非線形処理を行うことにより、復元する帯域の微細構造を含む音源信号を出力する。復元する帯域の調波構造を生成する非線形処理としては、例えば、二乗処理、全波整流、半波整流を用いることもでき、これらの処理に限らない。

スペクトル包絡推定部１０２は、狭帯域音声信号を入力とし、予め用意した学習モデルを用いて、復元する帯域のスペクトル包絡を推定し、出力する。
ここでは、例として狭帯域音声信号の平均振幅スペクトル値から復元する帯域の平均振幅スペクトル値を推定する方法を述べるが、これに限られるものではなく他の方法であっても構わない。

推定に用いる学習モデル作成は、一般的なアルゴリズムで学習したものでよく、例えば線形回帰予測やニューラルネットワーク（Neural Network）等が挙げられるが、ここに挙げたものでなくてもよい。

なお、入力となる狭帯域音声信号の平均振幅スペクトル値、復元する帯域の平均振幅スペクトル値は、いくつかのサブバンドに分けて求めてもよい。こうすることにより、より高精度に復元する帯域のスペクトル包絡を推定できる効果がある。

また、狭帯域音声信号をいくつかのサブバンドに分ける際には、サブバンド毎の雑音量推定を行い、推定雑音量が少ないサブバンドのみを用いて復元する帯域の平均振幅スペクトル値を求めてもよい。こうすることにより、入力となる狭帯域音声信号に雑音が混入する影響による復元する帯域の平均振幅スペクトル値が過剰に推定されることを抑圧する効果がある。

また、復元する帯域の平均振幅スペクトル値に上限値を設けてもよい。こうすることにより、入力となる狭帯域音声信号に雑音が混入し、復元する帯域の平均振幅スペクトル値が理想的な広帯域音声信号よりも過剰に推定されることを防ぐ効果がある。上限値は固定値でも構わないし、入力となる狭帯域音声信号の平均振幅スペクトル値に応じて、フレーム毎に動的に変更してもよい。

また、音韻によってスペクトルの様態は異なるため、音韻特徴に応じて上記上限値を切り替えてもよい。例えば、無声摩擦音部の振幅スペクトル値は高域になるにしたがい、大きくなることが知られているので、無声摩擦音部では上限値を大きくする。こうすることにより、より明瞭性のある広帯域音声信号を得る効果が期待できる。

ここでは推定に用いる尺度として、振幅スペクトル値を例にとって説明したが、パワースペクトル等でも構わない。

雑音推定部１０３は、狭帯域音声信号を入力とし、狭帯域音声信号中に含まれる雑音成分がどの程度含まれているかを示す指標である雑音情報を出力する。

狭帯域音声信号中に含まれる雑音成分を推定する手法は、一般的な手法でよく例えば発話区間検出を行い、非発話区間と判定された区間のみ以下のような式１で推定雑音成分を学習する。

Ｎ’（ｎ）＝ρ・Ｎ’(ｎ−１）＋（１−ρ）・Ｘ（ｎ）・・・式１
ここで、ｎは現在のフレーム数を表し、Ｘ（ｎ）はｎフレーム目の狭帯域音声信号の平均振幅、Ｎ’（ｎ）は推定ノイズ量を表す。またρは学習の際に用いる忘却係数である。

他にも雑音成分を推定する手法には過去数フレームの中で平均振幅スペクトル値が最小の値を示すものを雑音成分とみなす最小値法等がある。

ここでは、例として狭帯域音声信号の平均振幅値から雑音成分を推定しているが、平均パワーであっても構わない。

また、出力する雑音情報に関しては、雑音成分の平均振幅値であってもよいし、平均パワーであってもよい。また狭帯域音声信号の音声成分とのＳＮ比やサブバンド毎のＳＮ比の分散等であってもよく、狭帯域音声信号にどの程度雑音が含まれているかを示す指標であればなんでもよい。ただし、以下の説明に関しては雑音推定部１０３が出力する推定雑音情報が雑音成分の平均振幅値として説明する。

平滑化強度決定部１０４は雑音推定部１０３が出力する雑音情報を入力とし、雑音情報に応じた平滑化強度決定示数を算出し、出力する。

ここで述べるところの平滑化強度決定示数は、平滑化の強度を決定するための指標であればなんでもよい。例えば、後段のスペクトル包絡平滑化部１０５で行う平滑化が現フレームと直前のフレームとの重み付け加算による平滑化の場合は忘却係数を、過去フレームとの移動平均により平滑化を行う場合は移動平均に用いるフレーム数を平滑化強度示数として出力する。以下では、平滑化強度決定指数を忘却係数として説明する。

平滑化強度決定方式には、例えば、一般的な閾値を用いた決定法がある。閾値は開発者が予め定めておく。閾値よりも雑音情報が小さい場合は狭帯域音声信号に雑音が混入していないとし、平滑化強度決定示数の値を小さく設定して、現フレームの値の重みを大きくすることにより図２で示したような異音が生じることを防ぐ。逆に閾値よりも雑音情報が大きい場合は狭帯域音声信号に雑音が混入しているとし、平滑化強度決定示数の値を大きくして過去フレームの重みを大きくすることにより、雑音によって推定値が急激に変化することを防ぐ。

平滑化強度決定方式には他にも図４で示すような性質をもつ平滑化強度決定関数を用いてもよい。ここで、N_ｌは雑音情報の下限の閾値であり、λ_ｌはその平滑化強度決定示数である。またN_ｈは雑音情報の上限の閾値であり、λ_ｈはその平滑化強度決定示数である。ただし、０＜λ_ｌ＜λ_ｈ＜１とする。
平滑化強度決定示数を上記のような関数で求めることにより、よりその雑音情報に適した平滑化強度決定示数を決定することができる。

スペクトル包絡平滑化部１０５はスペクトル包絡推定部１０２で出力する復元する帯域のスペクトル包絡と平滑化強度決定部１０４で出力する平滑化強度決定示数を入力とし、復元する帯域のスペクトル包絡における時間方向の平滑化を行い、平滑化された復元する帯域のスペクトル包絡を出力する。

スペクトル包絡平滑化部１０５で行う平滑化は雑音混入により復元する帯域のスペクトル包絡の値が乱れることを防ぐのを目的としており、時間方向の平滑化を行う。本実施の形態では直前フレームとの重み付け加算により平滑化を行い、式で表すと式２のようになる。

Ｓ’_ｅｎｖ（ｎ）＝λ・Ｓ’_ｅｎｖ(ｎ−１）＋（１−λ)Ｓ_ｅｎｖ(ｎ）・・・式２
ここで、Ｓ_ｅｎｖ(ｎ）はｎフレーム目の復元する帯域のスペクトル包絡である。λは平滑化強度決定示数であり、Ｓ’_ｅｎｖ(ｎ）は平滑化されたｎフレーム目の復元する帯域のスペクトル包絡である。

また、他にも前述の平滑化強度決定示数の決定方法で述べたとおり、過去数フレームの推定値の移動平均をとることにより平滑化を行うことができる。式３で表すと以下のようになる。

Ｓ’_ｅｎｖ(ｎ) ＝ (Ｓ_ｅｎｖ(ｎ) ＋Ｓ_ｅｎｖ(ｎ−１) ＋・・・＋Ｓ_ｅｎｖ(ｎ−Ｋ＋１））／Ｋ
・・・式３
ここで、Ｋは平滑化強度決定部１０４より出力された平滑化強度決定示数であり、この場合は移動平均に用いるフレーム数を表す。

信号合成部１０６は、音源生成部１０１によって生成した復元する帯域の微細構造を含む音源信号とスペクトル包絡平滑化部１０５で出力する平滑化された復元する帯域のスペクトル包絡を入力とし、この２つを合成することによって、復元する帯域を含む擬似音声信号を出力する。

帯域通過フィルタ部１０７は、信号合成部１０６が出力した復元する帯域を含む擬似音声信号を入力とし、狭帯域音声信号の帯域以外の周波数成分のみを抽出し、帯域制限された擬似音声信号として、信号加算部１０８へ出力する。本実施の形態では、狭帯域音声信号が３００〜３４００Ｈｚに帯域制限されているので、３００Ｈｚ以下の低域成分と、３４００Ｈｚ以上の高域成分を抽出することとなる。低域成分および高域成分の抽出にはＦＩＲフィルタ、ＩＩＲフィルタ等を用いればよい。

信号加算部１０８では、帯域通過フィルタ部１０７により出力された３００Ｈｚ以下の低域成分と、３４００Ｈｚ以上の高域成分に帯域制限された擬似音声信号と本実施の形態の音声信号復元装置へ入力される３００〜３４００Ｈｚの狭帯域音声信号を入力とし、この２つの信号を加算することで、上記構成の音声帯域拡張装置の最終的な出力となる広帯域音声信号を出力する。

以上のように、上記構成の音声信号復元装置では、スペクトル包絡平滑化の際に用いる平滑化強度決定示数を雑音情報に応じて適切に定めることにより、異音感のない明瞭性のある広帯域音声信号を生成する効果がある。

なお、本実施の形態では、低域成分および高域成分の両方の音声信号復元を実施しているが、必要に応じて低域成分のみあるいは高域成分のみの音声信号復元を行っても良い。
また、本実施の形態では、信号合成部１０６が出力した復元する帯域を含む擬似音声信号を、帯域通過フィルタ部１０７で狭帯域音声信号の帯域以外の周波数成分のみを抽出し、この抽出された狭帯域音声信号の帯域以外の帯域制限された擬似音声信号と本実施の形態の音声信号復元装置へ入力される狭帯域音声信号の２つの信号を加算し、原音からの加工部分を少なくして音声帯域が拡張された広帯域音声信号として出力しているが、信号合成部１０６が出力する信号を復元する帯域を含む擬似音声信号として音声信号復元装置の最終的な出力としてもよい。

実施の形態２．
実施の形態１の他の実施の形態として、発話状態判定部１０９を導入することができる。図５は本実施の形態の全体構成を示したものである。図３に示す実施の形態１の構成と異なる点として、発話状態判定部１０９が導入されており、また、平滑化強度決定部１１０は雑音推定部１０３が出力する雑音情報および発話状態判定部１０９が出力する発話状態情報を入力とし、平滑化強度決定示数を決定するようになっている。

発明が解決しようとする課題で述べたとおり、狭帯域部の音声信号においては、発話開始区間と、発話終了区間は音声信号のパワーが急激に変化することが多いため、平滑化を行うと狭帯域部の音声信号のパワー変動と復元する帯域のパワー変動に差異が生じ、異音と感じることがある。狭帯域音声信号に雑音が混入する場合には雑音に上記の異音がマスクされ、聴感上、気にならないことが多い。しかし、雑音が混入しない場合には聴感上、気になることが多い。そこで、本実施の形態では、発話状態判定部１０９を導入することによりこの問題を解決する。

発話状態判定部１０９は、狭帯域音声信号を入力とし、現在のフレームの発話状態を発話状態情報として出力する。

発話状態の判定に用いるモデルには例えば図６に示すようなleft to rightモデルの隠れマルコフモデル（Hidden Markov Model）を適用すればよい。また、発話状態判定に用いる音声特徴量の例としては、現フレームの平均パワー、1フレーム前との平均パワー差分、スペクトルエントロピー、自己相関値等が挙げられるがこれらに限ったものでなくてもよい。また図６の例では発話状態をＳ１：非発話区間、Ｓ２：発話開始区間、Ｓ３：発話中区間、Ｓ４：発話終了区間の４状態に分けているがこれに限らなくてもよい。

平滑化強度決定部１１０は、発話状態判定部１０９からの発話状態情報および雑音推定部１０３からの雑音情報を入力とし、平滑化強度決定示数を決定し出力する。実施の形態１と同様に、後段のスペクトル包絡平滑化部１０５による平滑化方式は直前フレームとの重み付け平均により平滑化を行う方式とし、平滑化強度決定示数は忘却係数とする。

平滑化強度決定部１１０における平滑化強度決定方式は出力する平滑化強度決定示数をλとしたとき、図７で示すようなフローチャート図で決定することができる。
平滑化強度決定部１１０は、まず、雑音推定部１０３により実施の形態１と同様の手法で推定された雑音成分である推定ノイズ量N(n)を、狭帯域音声信号に雑音が混入しているかどうかの判定に用いる閾値であるN_ｌｉｍと比較し、その大小を判定し、推定ノイズ量N(n)が、閾値N_ｌｉｍ以上の時は、狭帯域音声信号に雑音が混入していると判定する（ステップS101）。狭帯域音声信号に雑音が混入していると判定されたときは、平滑化強度決定示数λをλ_ｎと決定する（ステップS102)。

推定ノイズ量N(n)が、閾値N_ｌｉｍ未満の時は、発話状態判定部１０９からの発話状態が発話開始区間Ｓ２であるか否かを判定する（ステップS103）。狭帯域音声信号が発話開始区間Ｓ２であると平滑化強度決定示数λをλ_ｓ１と決定する（ステップS104)。
推定ノイズ量N(n)が、閾値N_ｌｉｍ未満の時で、発話状態判定部１０９からの発話状態が発話開始区間Ｓ２でないときは、発話状態判定部１０９からの発話状態が発話終了区間Ｓ４であるか否かを判定する（ステップS105）。狭帯域音声信号が発話終了区間Ｓ４であると平滑化強度決定示数λをλ_ｓ１と決定する（ステップS106)。発話状態が発話終了区間Ｓ４でないときは、平滑化強度決定示数λをλ_ｓ２と決定する（ステップS107)。

なお、λ_ｎは狭帯域音声信号に雑音が混入していると判定した場合に用いる平滑化強度決定示数であり、λ_ｓ１は現在のフレームが発話開始区間または発話終了区間と判定された場合に用いる平滑化強度決定示数であり、λ_ｓ２はそれ以外に用いる平滑化強度決定示数である。ただし、λ_ｎ、λ_ｓ１、λ_ｓ２は０＜λ_ｓ１＜λ_ｓ２＜λ_ｎ＜１であるとする。
このように、狭帯域音声信号が発話開始区間および発話終了区間のときは平滑化強度決定示数を小さくすることにより現在フレームの値の重みを大きくして、狭帯域音声信号の発話開始区間および発話終了区間のパワー変動に復元する帯域のパワー変動が追従することができるようにする。

以上のように、上記構成の音声復元装置では発話状態判定部１０９を設けることによって、狭帯域音声信号の発話開始区間および発話終了区間で感じる異音を低減し、明瞭性のある広帯域音声信号を生成する効果がある。

実施の形態３．
実施の形態１のさらに他の実施の形態として、スペクトル包絡推定部１０２の前段に雑音抑圧部１１１を導入することができる。図８は本実施の形態の全体構成を示したものである。図３と異なる点として、雑音推定部１０３に代え、雑音抑圧部１１１をスペクトル包絡推定部１０２の前段に備え、平滑化強度決定部１０４は雑音抑圧部１１１によって得られる雑音情報から平滑化強度決定示数を算定する。

雑音抑圧部１１１は音源生成部１０１の前処理用ではなく、スペクトル包絡推定部１０２の前処理に導入する。以下にその理由を述べる。

入力となる狭帯域音声信号に低ＳＮ比で雑音が混入した場合、雑音推定がうまく動作せず、雑音量が過剰に推定される場合がある。過剰に推定された雑音量に応じて雑音抑圧を行うと、狭帯域音声信号の雑音成分だけでなく、音声成分も抑圧してしまい、分離された狭帯域音声信号の音声成分の調波構造が崩れてしまうという課題がある。

そこで本実施の形態では、入力となる狭帯域音声信号の調波構造を崩すことを防ぐために音源生成部１０１の前処理に雑音抑圧部１１１を導入しない。なぜなら音源生成部１０１は狭帯域音声信号の調波構造の情報を使って、復元する帯域の微細構造を含む音源信号を生成するので、雑音抑圧により音声の調波構造の崩れの影響を受けやすいからである。
こうすることによって、音源生成部１０１において、雑音が混入していても本来の音声が持つ調波構造から復元する帯域の微細構造を含む音源信号を生成することができ、入力となる狭帯域音声信号に低ＳＮ比で雑音が混入する場合でも明瞭性のある広帯域音声信号を生成できる。

さらには、本実施の形態によれば、雑音抑圧された狭帯域音声信号から復元する高域の平均スペクトル値を推定するので、雑音の影響を抑圧することができ、より狭帯域音声信号のパワー変動と復元する帯域のパワー変動の乖離を抑えることが出来る効果が得られる。

雑音抑圧部１１１では狭帯域音声信号を入力とし、雑音抑圧を行い、スペクトル包絡推定部１０２へ雑音抑圧された狭帯域音声信号を出力し、平滑化強度決定示数を算定する平滑化強度決定部１０４に雑音情報を出力する。

実施の形態１で述べたように、スペクトル包絡推定部１０２では狭帯域音声信号の振幅スペクトル値の情報のみを用いて復元する帯域の振幅スペクトル値を推定している。このような振幅スペクトル値の情報を用いてスペクトル包絡を推定する手法は狭帯域音声信号に雑音成分が残っていると、推定により復元する帯域の振幅スペクトル値が過剰に推定される傾向にある。そこで、前処理として雑音抑圧を行う。また、このように雑音抑圧を行っても、先ほど述べた通り、スペクトル包絡推定部１０２は振幅スペクトル値の情報のみを用い、調波構造の情報を用いていないので、音源生成部１０１に比べ、雑音抑圧による狭帯域音声信号の音声成分の調波構造の崩れの影響を受けにくい。

なお、用いる雑音抑圧のアルゴリズムは一般的なものでよく、例えば、スペクトル・サブトラクション（Spectral Subtraction）法（S.F. Boll, “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans. Acoustics, Speech, and Signal Processing, vol.ASSP-29, pp.113-120, 1979.）、ウィナー・フィルター（Wiener Filter）法（J. S. Lim, A. V. Oppenheim, “Enhancement and bandwidth compression of noisy speech”, Proc. IEEE Vol.67, No.12, pp.1586-1604, Dec.1979.）および最尤推定法（R. J. McAulay, M. L. Malpass, “Speech enhancement using a soft-decision noise suppressionfilter”, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol.ASSP-28,no.2, pp.137-145, Apr.1980.）等が適用できる。

なお、平滑化強度決定部１０４に出力する雑音情報は狭帯域音声信号に混入する雑音の度合いがわかるものであればよいので、実施の形態１であげたものでもよいし、例えば雑音抑圧の際に狭帯域音声信号に掛け合わせる雑音抑圧ゲインでもよい。

上記のような構成の音声信号復元装置にすることにより、実施の形態１に比べ、雑音抑圧部１１１が導入されるので、狭帯域部の音声信号のパワー変動と復元する帯域のパワー変動の乖離をより抑えることができる効果がある。

以上の実施の形態１から３では、狭帯域音声信号の例として電話音声の場合について説明しており、３００〜３４００Ｈｚに帯域制限された音声信号から５０〜７０００Ｈｚの広帯域音声信号を生成しているが、広帯域音声信号の周波数帯域も５０〜７０００Ｈｚに限られることは無く、例えば、２５〜１４０００Ｈｚ等更に広い帯域で実施することも可能である。

実施の形態４．
実施の形態１から３の音声信号復元装置は、図９のイメージ図のように、（ａ）に示される出力する狭帯域音声信号の帯域幅を拡張し、（ｂ）に示される明瞭性のある広帯域音声信号を生成する技術である。
それに対し、図１０のイメージ図のように、（ａ）に示される雑音抑圧や音声圧縮等により劣化・欠損した帯域を含む狭帯域音声信号を、（ｂ）に示されるように、最終的に出力される音声信号の帯域幅は変わらないが、劣化・欠損した帯域の復元にも実施の形態１から３の音声信号復元装置が応用できる。

即ち、音源生成部１０１は、狭帯域音声信号を入力とし、非線形処理を行うことにより、復元する帯域として狭帯域音声信号と同じ帯域の微細構造を含む音源信号を出力する。スペクトル包絡推定部１０２は、狭帯域音声信号を入力とし、予め用意した学習モデルを用いて、復元する帯域として入力された狭帯域音声信号と同じ帯域のスペクトル包絡を推定し、出力する。
スペクトル包絡平滑化部１０５はスペクトル包絡推定部１０２で出力する復元する帯域として入力された狭帯域音声信号と同じ帯域のスペクトル包絡と平滑化強度決定部１０４で出力する平滑化強度決定示数を入力とし、復元する帯域のスペクトル包絡における時間方向の平滑化を行い、平滑化された復元する帯域のスペクトル包絡を出力する。
信号合成部１０６は、音源生成部１０１によって生成した復元する帯域として入力された狭帯域音声信号と同じ帯域の微細構造を含む音源信号とスペクトル包絡平滑化部１０５で出力する平滑化された復元する帯域として入力された狭帯域音声信号と同じ帯域のスペクトル包絡を入力とし、この２つを合成することによって、復元する帯域として入力された狭帯域音声信号と同じ帯域の擬似音声信号を出力する。

雑音推定部１０３および平滑化強度決定部１０４は各実施の形態と同様の動作を行う。また、劣化・欠損した帯域の復元を処理を行う音声信号復元装置にあっては実施の形態１から３に備えられた帯域通過フィルタ部１０７および信号加算部１０８は備えず、信号合成部１０６の出力を最終出力とする。
このように実施の形態１から３の復元する音声信号の帯域を、入力された音声信号と同じ帯域とすることで、信号合成部１０６の出力は劣化・欠損した帯域の復元が行われた音声信号となり、この信号合成部１０６の出力を最終出力とする。
このように実施の形態１から３を応用することにより、雑音抑圧や音声圧縮等により劣化・欠損した帯域の復元を行うことができ、より明瞭性のある音声信号を生成する効果が期待できる。

実施の形態５．
本実施の形態は、実施の形態１から４で述べた音声信号復元装置をカーナビゲーターのハンズフリー音声通話システムに応用した例である。全体構成を図１１に示す。外部通信部２０１は、車内にあるユーザの携帯電話とブルートゥース等により通信を行い、携帯電話と音声信号の受け渡しを行う。音声信号復元部２０２は、実施の形態１から４で述べた音声信号復元装置であり、外部通信部２０１からの音声信号を音声復元して、外部入出力部２０３へと出力する。外部入出力部２０３は、スピーカ及びマイクロホンを備えており、ユーザとのインターフェースの役割を果たす。エコーキャンセラ部２０４は、音声信号復元部２０２の出力信号と外部入出力部２０３の出力信号を入力とし、スピーカからの出力音声をマイクロホンが拾うことによって生じるエコーを抑圧している。ノイズキャンセラ部２０５は、エコーキャンセラ部２０４の出力信号を入力とし、ユーザが乗車中の車が走行中等により生じる雑音を抑圧し、雑音抑圧した音声信号を外部通信部２０１へと出力する。

以上のように、上記の構成のようなカーナビゲーターのハンズフリー音声通話システムに、この発明の音声信号復元装置を導入することによって、通話相手が無騒音環境下、騒音環境下どちらにいても、明瞭性のある受話音声を提供することができる。

この発明は、例えば、音声通信、音声蓄積、音声認識システムが導入された、カーナビゲーションまたは携帯電話等の音声通信システム、ハンズフリー通話システム、ＴＶ会議システム、監視システム等の音質改善や、音声認識システムの認識率の向上に供される。

１０１音源生成部、１０２スペクトル包絡推定部、１０３雑音推定部、１０４平滑化強度決定部、１０５スペクトル包絡平滑化部、１０６信号合成部、１０７帯域通過フィルタ部、１０８信号加算部、１０９発話状態判定部、１１０平滑化強度決定部、１１１雑音抑圧部、２０１外部通信部、２０２音声信号復元部、２０３外部入出力部、２０４エコーキャンセラ部、２０５ノイズキャンセラ部。

Claims

第１の周波数帯域に帯域制限された音声信号から第２の周波数帯域の音声信号に対応する音源信号を生成する音源信号生成部と、
上記第１の周波数帯域に帯域制限された音声信号から上記第２の周波数帯域の音声信号に対応するスペクトル包絡を推定し、出力するスペクトル包絡推定部と、
上記第１の周波数帯域に帯域制限された音声信号に混入している雑音成分を推定し、雑音成分の混入度合いを示す指標である雑音情報を出力する雑音推定部と、
上記雑音推定部により推定された上記雑音情報から、上記スペクトル包絡推定部からの出力であるスペクトル包絡の平滑化の強さ度合いを示す指標である平滑化強度決定示数を出力する平滑化強度決定部と、
上記平滑化強度決定部により決定された上記平滑化強度決定示数を用いて上記スペクトル包絡推定部により推定された上記スペクトル包絡の平滑化を行うスペクトル包絡平滑化部と
上記音源信号生成部で生成された上記音源信号と、上記スペクトル包絡平滑化部で平滑化された上記スペクトル包絡とを用いて、上記第２の周波数帯域の音声信号を生成する信号合成部とを備えることを特徴とする音声信号復元装置。
上記第１の周波数帯域に帯域制限された音声信号から現在の発話状態を推定する発話状態推定部を備え
上記平滑化強度決定部は上記雑音推定部によって推定された上記雑音情報と上記発話状態推定部によって推定された上記発話状態とから上記平滑化強度決定示数を算出することを特徴とする請求項１に記載の音声信号復元装置。
上記第１の周波数帯域に帯域制限された音声信号に対して雑音抑圧を行い、雑音抑圧の際に推定した上記雑音情報を出力する雑音抑圧部を備え、
上記スペクトル包絡推定部は上記雑音抑圧部により雑音抑圧された上記第１の周波数帯域に帯域制限された音声信号から上記第２の周波数帯域の音声信号に対応するスペクトル包絡を推定し、
上記平滑化強度決定部は上記雑音抑圧部によって得られる上記雑音情報から上記平滑化強度決定示数を決定することを特徴とする請求項１に記載の音声信号復元装置。
第１の周波数帯域に帯域制限された音声信号から第２の周波数帯域の音声信号に対応する音源信号を生成する音源信号生成工程と、
上記第１の周波数帯域に帯域制限された音声信号から上記第２の周波数帯域の音声信号に対応するスペクトル包絡を推定し、出力するスペクトル包絡推定工程と、
上記第１の周波数帯域に帯域制限された音声信号に混入している雑音成分を推定し、雑音成分の混入度合いを示す指標である雑音情報を出力する雑音推定工程と、
上記雑音推定工程により推定された上記雑音情報から、上記スペクトル包絡推定工程からの出力であるスペクトル包絡の平滑化の強さ度合いを示す指標である平滑化強度決定示数を出力する平滑化強度決定工程と、
上記平滑化強度決定工程により決定された上記平滑化強度決定示数を用いて上記スペクトル包絡推定工程により推定された上記スペクトル包絡の平滑化を行うスペクトル包絡平滑化工程と
上記音源信号生成工程で生成された上記音源信号と、上記スペクトル包絡平滑化工程で平滑化された上記スペクトル包絡とを用いて、上記第２の周波数帯域の音声信号を生成する信号合成工程とを備えることを特徴とする音声信号復元方法。