JP5840087B2 - 音声信号復元装置および音声信号復元方法 - Google Patents

音声信号復元装置および音声信号復元方法 Download PDF

Info

Publication number
JP5840087B2
JP5840087B2 JP2012160355A JP2012160355A JP5840087B2 JP 5840087 B2 JP5840087 B2 JP 5840087B2 JP 2012160355 A JP2012160355 A JP 2012160355A JP 2012160355 A JP2012160355 A JP 2012160355A JP 5840087 B2 JP5840087 B2 JP 5840087B2
Authority
JP
Japan
Prior art keywords
noise
signal
band
smoothing
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012160355A
Other languages
English (en)
Other versions
JP2014021307A (ja
Inventor
耕佑 細谷
耕佑 細谷
訓 古田
訓 古田
山浦 正
正 山浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2012160355A priority Critical patent/JP5840087B2/ja
Publication of JP2014021307A publication Critical patent/JP2014021307A/ja
Application granted granted Critical
Publication of JP5840087B2 publication Critical patent/JP5840087B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)

Description

この発明は、電話回線等の伝送路を介されることにより、周波数帯域が狭帯域に制限されている音声信号から、広帯域の音声信号の生成および、雑音抑圧や音声圧縮等により劣化・欠損した帯域の音声信号を復元するための音声信号復元装置および音声信号復元方法に関するものである。
この発明は、例えば、音声通信、音声蓄積、音声認識システムが導入された、カーナビゲーションまたは携帯電話等の音声通信システム、ハンズフリー通話システム、TV会議システム、監視システム等の音質改善や、音声認識システムの認識率の向上に供される。
アナログ電話では、電話回線を通じて送られてくる音声の周波数帯域は、例えば300〜3400Hzと狭く帯域制限されている。このため、従来の電話回線の音質はあまり良いとはいえない。また、携帯電話等のデジタル音声通信では、ビットレートの制限によりアナログ回線と同様に帯域幅が制限されるため、この場合にも音質が良いとはいえない。
上記の課題に対して、従来より、受信側で狭帯域音声信号から擬似的に広帯域音声信号を生成・復元する音声信号復元技術がある。
従来の音声信号復元技術に特許第3189598号公報や、特開2010−79275号公報に開示されたものがある。
特許第3189598号公報に記載の音声信号復元技術は、狭帯域音声信号スペクトル包絡を広帯域音声信号スペクトル包絡に変換する写像関数をあらかじめ多量の学習用データから用意しておき、この写像関数を用いて狭帯域音声信号のスペクトル包絡から広帯域音声信号のスペクトル包絡を推定することにより、広帯域音声信号を生成している。
特開2010−79725号公報に記載の音声信号復元技術は、狭帯域音声信号をいくつかのサブバンド信号に分割し、狭帯域音声信号のサブバンド信号から生成した周波数包絡に対して、同じく狭帯域音声信号のサブバンド信号のパワーから推定した利得を掛け合わせることにより広帯域音声信号を生成している。
また、音声信号復元技術に平滑化を適用した従来技術として、国際公開第2008/015726号公報に記載されたものがある。
国際公開第2008/015726号公報に記載の音声信号復元技術は、狭帯域音声信号の振幅の値から復元する高域の音声信号の利得を算出する際に、時間方向の平滑化を行うことによって、復元する高域の音声信号の利得の急激な変化を抑制している。
特許第3189598号公報 特開2010−79275号公報 国際公開第2008/015726号公報
上記の従来法には、以下に述べる課題がある。
特許文献1にて開示されている音声信号復元技術と、特許文献2にて開示されている音声信号復元技術はともに、入力となる狭帯域音声信号に雑音が混入する場合、雑音の影響により算出した復元する高域のパワーが急激に変化するため、復元する高域部のパワー変動と狭帯域部の入力音声信号のパワー変動とに乖離が生じ、明瞭性が低下するという課題がある。
このような推定値の急激な変化を抑圧するための対策として、時間方向の平滑化を行うことが特許文献3にて開示されている。
図1に示すように、平滑化を行うことで復元する高域の急激なパワー変動を低減することができ、狭帯域音声信号に雑音が混入した場合でも明瞭性のある広帯域音声信号を生成できる。しかし従来、この平滑化強度は開発者により一意に定められている。よって、雑音が混入している狭帯域音声信号をもとに定められた平滑化強度で雑音が混入していない狭帯域音声信号に対して平滑化を行うと、図2に示すように平滑化の影響により狭帯域部の音声信号のパワー変動と復元する帯域のパワー変動に乖離が生じ、異音と聞こえてしまう課題がある。
特に、発話開始区間、発話終了区間は狭帯域音声信号のパワーが急激に変化することが多いため、平滑化を行うと狭帯域部の音声信号のパワー変動と復元する帯域のパワー変動に乖離が生じやすく、異音と感じることがある。狭帯域音声信号に雑音が混入する場合には雑音に上記の異音がマスクされ、聴感上、気にならないことが多い。しかし、雑音が混入しない場合には聴感上、気になることが多い。
この発明は上記の課題を解決すべくなされたもので、入力となる狭帯域音声信号に雑音が混入しても、混入していなくても明瞭性のある広帯域音声信号を生成することが可能な音声信号復元装置および音声信号復元方法を提供することを目的とする。
この発明に係る音声信号復元装置は、
第1の周波数帯域に帯域制限された音声信号から第2の周波数帯域の音声信号に対応する音源信号を生成する音源信号生成部と、
上記第1の周波数帯域に帯域制限された音声信号から上記第2の周波数帯域の音声信号に対応するスペクトル包絡を推定し、出力するスペクトル包絡推定部と、
上記第1の周波数帯域に帯域制限された音声信号に混入している雑音成分を推定し、雑音成分の混入度合いを示す指標である雑音情報を出力する雑音推定部と、
上記雑音推定部により推定された上記雑音情報から、上記スペクトル包絡推定部からの出力であるスペクトル包絡の平滑化の強さ度合いを示す指標である平滑化強度決定示数を出力する平滑化強度決定部と、
上記平滑化強度決定部により決定された上記平滑化強度決定示数を用いて上記スペクトル包絡推定部により推定された上記スペクトル包絡の平滑化を行うスペクトル包絡平滑化部と
上記音源信号生成部で生成された上記音源信号と、上記スペクトル包絡平滑化部で平滑化された上記スペクトル包絡とを用いて、上記第2の周波数帯域の音声信号を生成する信号合成部とを備える。
この発明に係る音声信号復元装置によれば、
雑音推定部で、第1の周波数帯域に帯域制限された音声信号に混入している雑音成分を推定して、雑音成分の混入度合いを示す雑音情報を出力し、
第1の周波数帯域に帯域制限された音声信号から第2の周波数帯域の音声信号に対応するスペクトル包絡をスペクトル包絡推定部で推定し、出力された上記スペクトル包絡を平滑化する際に用いる平滑化強度決定示数を、上記雑音情報から算定し、この算定された平滑化強度決定示数を用いて、スペクトル包絡平滑化部で上記スペクトル包絡の平滑化を行い、
音源信号生成部で生成された第1の周波数帯域に帯域制限された音声信号から第2の周波数帯域の音声信号に対応する音源信号と、
上記スペクトル包絡平滑化部で平滑化された上記スペクトル包絡とを用いて、上記第2の周波数帯域の音声信号を生成する信号合成部とを備える構成にされているので、
第1の周波数帯域に帯域制限された音声信号への雑音の混入による生成された第2の周波数帯域の音声信号の明瞭性の低下や、平滑化の影響でパワーの急激な変化により異音と聞こえてしまう課題を解決し、異音感のない明瞭性のある広帯域音声信号を生成する効果がある。
雑音混入音声を入力とした際の平滑化あり・なしの復元帯域の時間対パワーのイメージ特性図である。 クリーン音声を入力とした際の平滑化あり・なしの復元帯域の時間対パワーのイメージ特性図である。 この発明の実施の形態1による音声信号復元装置を示す構成図である。 実施の形態1で用いられる平滑化強度決定関数の特性図である。 この発明の実施の形態2による音声信号復元装置を示す構成図である。 実施の形態2で用いられる隠れマルコフモデルのイメージ図である。 実施の形態2で用いられる平滑化強度を決定するフローチャート図である。 この発明の実施の形態3による音声信号復元装置を示す構成図である。 この発明の音声信号復元装置による帯域拡張技術を示すイメージ図である。 この発明の音声信号復元装置による劣化・欠損帯域部復元の音声復元技術を示すイメージ図である。 この発明の音声信号復元装置をカーナビゲーターのハンズフリー音声通話システムに適用した実施の形態5の構成図である。
実施の形態1.
以下、図面を参照してこの発明の実施の形態を説明する。
図3は本実施の形態1による音声信号復元装置の全体構成を示したものである。
図3において、音源生成部101は第1の周波数帯域に帯域制限された狭帯域音声信号(以下単に狭帯域音声信号と称す)を入力として、第2の周波数帯域である復元する帯域(以下単に復元する帯域と称す)の音声信号に対応する微細構造を含む音源信号を生成し出力する。スペクトル包絡推定部102は狭帯域音声信号を入力として、復元する帯域のスペクトル包絡を推定し出力する。雑音推定部103は狭帯域音声信号を入力とし、狭帯域音声信号中に含まれる雑音成分を推定し、その雑音情報を出力する。平滑化強度決定部104は雑音推定部103で推定された雑音情報を入力として、スペクトル包絡推定部102で推定された復元する帯域のスペクトル包絡を平滑する際の指標である平滑化強度決定示数を出力する。スペクトル包絡平滑化部105は、スペクトル包絡推定部102で推定された復元する帯域のスペクトル包絡と平滑化強度決定部104から出力された平滑化強度決定示数を入力とし、復元する帯域のスペクトル包絡の時間方向の平滑化を行い、平滑化された復元される帯域のスペクトル包絡を出力する。
信号合成部106は、音源生成部101からの音源信号とスペクトル包絡平滑化部105からの平滑化された復元する帯域のスペクトル包絡を入力とし、復元する帯域を含む擬似音声信号を生成し、出力する。帯域通過フィルタ部107は復元する帯域を有する擬似音声信号を入力とし、狭帯域音声信号の帯域以外の周波数成分を抽出し、帯域制限された擬似音声信号を出力する。信号加算部108は、入力信号である狭帯域音声信号と帯域通過フィルタ部107の出力である帯域制限された擬似音声信号を入力とし、この2つの信号を加算することにより、復元された広帯域音声信号を出力する。
本実施の形態では、スペクトル包絡平滑化部105で行う平滑化の強度を、雑音推定部103によって得られる雑音情報に応じて適応的に平滑化強度決定部104で決定する。こうすることによって、入力となる狭帯域音声信号に雑音が混入しても、混入していなくても異音感のない明瞭性のある広帯域音声信号を生成できる。
以下、図に基づいてこの音声信号復元装置の動作原理について説明する。
まず、マイクロホン等を通じて取り込まれた音声や音楽等の信号が、A/D(アナログ・デジタル)変換された後、所定のサンプリング周波数(例えば、8000Hz)でサンプリングされると共にフレーム単位に分割(例えば10ms)され、更に帯域制限(例えば、300〜3400Hz)された狭帯域音声信号として、本実施の形態の音声信号復元装置へ入力される。なお、本実施の形態では、最終的に得る広帯域音声信号の周波数帯域を50〜7000Hzとして説明する。
音源生成部101は、狭帯域音声信号を入力とし、非線形処理を行うことにより、復元する帯域の微細構造を含む音源信号を出力する。復元する帯域の調波構造を生成する非線形処理としては、例えば、二乗処理、全波整流、半波整流を用いることもでき、これらの処理に限らない。
スペクトル包絡推定部102は、狭帯域音声信号を入力とし、予め用意した学習モデルを用いて、復元する帯域のスペクトル包絡を推定し、出力する。
ここでは、例として狭帯域音声信号の平均振幅スペクトル値から復元する帯域の平均振幅スペクトル値を推定する方法を述べるが、これに限られるものではなく他の方法であっても構わない。
推定に用いる学習モデル作成は、一般的なアルゴリズムで学習したものでよく、例えば線形回帰予測やニューラルネットワーク(Neural Network)等が挙げられるが、ここに挙げたものでなくてもよい。
なお、入力となる狭帯域音声信号の平均振幅スペクトル値、復元する帯域の平均振幅スペクトル値は、いくつかのサブバンドに分けて求めてもよい。こうすることにより、より高精度に復元する帯域のスペクトル包絡を推定できる効果がある。
また、狭帯域音声信号をいくつかのサブバンドに分ける際には、サブバンド毎の雑音量推定を行い、推定雑音量が少ないサブバンドのみを用いて復元する帯域の平均振幅スペクトル値を求めてもよい。こうすることにより、入力となる狭帯域音声信号に雑音が混入する影響による復元する帯域の平均振幅スペクトル値が過剰に推定されることを抑圧する効果がある。
また、復元する帯域の平均振幅スペクトル値に上限値を設けてもよい。こうすることにより、入力となる狭帯域音声信号に雑音が混入し、復元する帯域の平均振幅スペクトル値が理想的な広帯域音声信号よりも過剰に推定されることを防ぐ効果がある。上限値は固定値でも構わないし、入力となる狭帯域音声信号の平均振幅スペクトル値に応じて、フレーム毎に動的に変更してもよい。
また、音韻によってスペクトルの様態は異なるため、音韻特徴に応じて上記上限値を切り替えてもよい。例えば、無声摩擦音部の振幅スペクトル値は高域になるにしたがい、大きくなることが知られているので、無声摩擦音部では上限値を大きくする。こうすることにより、より明瞭性のある広帯域音声信号を得る効果が期待できる。
ここでは推定に用いる尺度として、振幅スペクトル値を例にとって説明したが、パワースペクトル等でも構わない。
雑音推定部103は、狭帯域音声信号を入力とし、狭帯域音声信号中に含まれる雑音成分がどの程度含まれているかを示す指標である雑音情報を出力する。
狭帯域音声信号中に含まれる雑音成分を推定する手法は、一般的な手法でよく例えば発話区間検出を行い、非発話区間と判定された区間のみ以下のような式1で推定雑音成分を学習する。
N’(n)=ρ・N’(n−1)+(1−ρ)・X(n) ・・・ 式1
ここで、nは現在のフレーム数を表し、X(n)はnフレーム目の狭帯域音声信号の平均振幅、N’(n)は推定ノイズ量を表す。またρは学習の際に用いる忘却係数である。
他にも雑音成分を推定する手法には過去数フレームの中で平均振幅スペクトル値が最小の値を示すものを雑音成分とみなす最小値法等がある。
ここでは、例として狭帯域音声信号の平均振幅値から雑音成分を推定しているが、平均パワーであっても構わない。
また、出力する雑音情報に関しては、雑音成分の平均振幅値であってもよいし、平均パワーであってもよい。また狭帯域音声信号の音声成分とのSN比やサブバンド毎のSN比の分散等であってもよく、狭帯域音声信号にどの程度雑音が含まれているかを示す指標であればなんでもよい。ただし、以下の説明に関しては雑音推定部103が出力する推定雑音情報が雑音成分の平均振幅値として説明する。
平滑化強度決定部104は雑音推定部103が出力する雑音情報を入力とし、雑音情報に応じた平滑化強度決定示数を算出し、出力する。
ここで述べるところの平滑化強度決定示数は、平滑化の強度を決定するための指標であればなんでもよい。例えば、後段のスペクトル包絡平滑化部105で行う平滑化が現フレームと直前のフレームとの重み付け加算による平滑化の場合は忘却係数を、過去フレームとの移動平均により平滑化を行う場合は移動平均に用いるフレーム数を平滑化強度示数として出力する。以下では、平滑化強度決定指数を忘却係数として説明する。
平滑化強度決定方式には、例えば、一般的な閾値を用いた決定法がある。閾値は開発者が予め定めておく。閾値よりも雑音情報が小さい場合は狭帯域音声信号に雑音が混入していないとし、平滑化強度決定示数の値を小さく設定して、現フレームの値の重みを大きくすることにより図2で示したような異音が生じることを防ぐ。逆に閾値よりも雑音情報が大きい場合は狭帯域音声信号に雑音が混入しているとし、平滑化強度決定示数の値を大きくして過去フレームの重みを大きくすることにより、雑音によって推定値が急激に変化することを防ぐ。
平滑化強度決定方式には他にも図4で示すような性質をもつ平滑化強度決定関数を用いてもよい。ここで、Nは雑音情報の下限の閾値であり、λはその平滑化強度決定示数である。またNは雑音情報の上限の閾値であり、λはその平滑化強度決定示数である。ただし、0<λ<λ<1とする。
平滑化強度決定示数を上記のような関数で求めることにより、よりその雑音情報に適した平滑化強度決定示数を決定することができる。
スペクトル包絡平滑化部105はスペクトル包絡推定部102で出力する復元する帯域のスペクトル包絡と平滑化強度決定部104で出力する平滑化強度決定示数を入力とし、復元する帯域のスペクトル包絡における時間方向の平滑化を行い、平滑化された復元する帯域のスペクトル包絡を出力する。
スペクトル包絡平滑化部105で行う平滑化は雑音混入により復元する帯域のスペクトル包絡の値が乱れることを防ぐのを目的としており、時間方向の平滑化を行う。本実施の形態では直前フレームとの重み付け加算により平滑化を行い、式で表すと式2のようになる。
S’env(n)=λ・S’env(n−1)+(1−λ)Senv(n) ・・・ 式2
ここで、Senv(n)はnフレーム目の復元する帯域のスペクトル包絡である。λは平滑化強度決定示数であり、S’env(n)は平滑化されたnフレーム目の復元する帯域のスペクトル包絡である。
また、他にも前述の平滑化強度決定示数の決定方法で述べたとおり、過去数フレームの推定値の移動平均をとることにより平滑化を行うことができる。式3で表すと以下のようになる。
S’env(n) = (Senv(n) +Senv(n−1) +・・・+Senv(n−K+1))/K
・・・ 式3
ここで、Kは平滑化強度決定部104より出力された平滑化強度決定示数であり、この場合は移動平均に用いるフレーム数を表す。
信号合成部106は、音源生成部101によって生成した復元する帯域の微細構造を含む音源信号とスペクトル包絡平滑化部105で出力する平滑化された復元する帯域のスペクトル包絡を入力とし、この2つを合成することによって、復元する帯域を含む擬似音声信号を出力する。
帯域通過フィルタ部107は、信号合成部106が出力した復元する帯域を含む擬似音声信号を入力とし、狭帯域音声信号の帯域以外の周波数成分のみを抽出し、帯域制限された擬似音声信号として、信号加算部108へ出力する。本実施の形態では、狭帯域音声信号が300〜3400Hzに帯域制限されているので、300Hz以下の低域成分と、3400Hz以上の高域成分を抽出することとなる。低域成分および高域成分の抽出にはFIRフィルタ、IIRフィルタ等を用いればよい。
信号加算部108では、帯域通過フィルタ部107により出力された300Hz以下の低域成分と、3400Hz以上の高域成分に帯域制限された擬似音声信号と本実施の形態の音声信号復元装置へ入力される300〜3400Hzの狭帯域音声信号を入力とし、この2つの信号を加算することで、上記構成の音声帯域拡張装置の最終的な出力となる広帯域音声信号を出力する。
以上のように、上記構成の音声信号復元装置では、スペクトル包絡平滑化の際に用いる平滑化強度決定示数を雑音情報に応じて適切に定めることにより、異音感のない明瞭性のある広帯域音声信号を生成する効果がある。
なお、本実施の形態では、低域成分および高域成分の両方の音声信号復元を実施しているが、必要に応じて低域成分のみあるいは高域成分のみの音声信号復元を行っても良い。
また、本実施の形態では、信号合成部106が出力した復元する帯域を含む擬似音声信号を、帯域通過フィルタ部107で狭帯域音声信号の帯域以外の周波数成分のみを抽出し、この抽出された狭帯域音声信号の帯域以外の帯域制限された擬似音声信号と本実施の形態の音声信号復元装置へ入力される狭帯域音声信号の2つの信号を加算し、原音からの加工部分を少なくして音声帯域が拡張された広帯域音声信号として出力しているが、信号合成部106が出力する信号を復元する帯域を含む擬似音声信号として音声信号復元装置の最終的な出力としてもよい。
実施の形態2.
実施の形態1の他の実施の形態として、発話状態判定部109を導入することができる。図5は本実施の形態の全体構成を示したものである。図3に示す実施の形態1の構成と異なる点として、発話状態判定部109が導入されており、また、平滑化強度決定部110は雑音推定部103が出力する雑音情報および発話状態判定部109が出力する発話状態情報を入力とし、平滑化強度決定示数を決定するようになっている。
発明が解決しようとする課題で述べたとおり、狭帯域部の音声信号においては、発話開始区間と、発話終了区間は音声信号のパワーが急激に変化することが多いため、平滑化を行うと狭帯域部の音声信号のパワー変動と復元する帯域のパワー変動に差異が生じ、異音と感じることがある。狭帯域音声信号に雑音が混入する場合には雑音に上記の異音がマスクされ、聴感上、気にならないことが多い。しかし、雑音が混入しない場合には聴感上、気になることが多い。そこで、本実施の形態では、発話状態判定部109を導入することによりこの問題を解決する。
発話状態判定部109は、狭帯域音声信号を入力とし、現在のフレームの発話状態を発話状態情報として出力する。
発話状態の判定に用いるモデルには例えば図6に示すようなleft to rightモデルの隠れマルコフモデル(Hidden Markov Model)を適用すればよい。また、発話状態判定に用いる音声特徴量の例としては、現フレームの平均パワー、1フレーム前との平均パワー差分、スペクトルエントロピー、自己相関値等が挙げられるがこれらに限ったものでなくてもよい。また図6の例では発話状態をS1:非発話区間、S2:発話開始区間、S3:発話中区間、S4:発話終了区間の4状態に分けているがこれに限らなくてもよい。
平滑化強度決定部110は、発話状態判定部109からの発話状態情報および雑音推定部103からの雑音情報を入力とし、平滑化強度決定示数を決定し出力する。実施の形態1と同様に、後段のスペクトル包絡平滑化部105による平滑化方式は直前フレームとの重み付け平均により平滑化を行う方式とし、平滑化強度決定示数は忘却係数とする。
平滑化強度決定部110における平滑化強度決定方式は出力する平滑化強度決定示数をλとしたとき、図7で示すようなフローチャート図で決定することができる。
平滑化強度決定部110は、まず、雑音推定部103により実施の形態1と同様の手法で推定された雑音成分である推定ノイズ量N(n)を、狭帯域音声信号に雑音が混入しているかどうかの判定に用いる閾値であるNlimと比較し、その大小を判定し、推定ノイズ量N(n)が、閾値Nlim以上の時は、狭帯域音声信号に雑音が混入していると判定する(ステップS101)。狭帯域音声信号に雑音が混入していると判定されたときは、平滑化強度決定示数λをλと決定する(ステップS102)。
推定ノイズ量N(n)が、閾値Nlim未満の時は、発話状態判定部109からの発話状態が発話開始区間S2であるか否かを判定する(ステップS103)。狭帯域音声信号が発話開始区間S2であると平滑化強度決定示数λをλs1と決定する(ステップS104)。
推定ノイズ量N(n)が、閾値Nlim未満の時で、発話状態判定部109からの発話状態が発話開始区間S2でないときは、発話状態判定部109からの発話状態が発話終了区間S4であるか否かを判定する(ステップS105)。狭帯域音声信号が発話終了区間S4であると平滑化強度決定示数λをλs1と決定する(ステップS106)。発話状態が発話終了区間S4でないときは、平滑化強度決定示数λをλs2と決定する(ステップS107)。
なお、λは狭帯域音声信号に雑音が混入していると判定した場合に用いる平滑化強度決定示数であり、λs1は現在のフレームが発話開始区間または発話終了区間と判定された場合に用いる平滑化強度決定示数であり、λs2はそれ以外に用いる平滑化強度決定示数である。ただし、λ、λs1、λs2は0<λs1<λs2<λ<1であるとする。
このように、狭帯域音声信号が発話開始区間および発話終了区間のときは平滑化強度決定示数を小さくすることにより現在フレームの値の重みを大きくして、狭帯域音声信号の発話開始区間および発話終了区間のパワー変動に復元する帯域のパワー変動が追従することができるようにする。
以上のように、上記構成の音声復元装置では発話状態判定部109を設けることによって、狭帯域音声信号の発話開始区間および発話終了区間で感じる異音を低減し、明瞭性のある広帯域音声信号を生成する効果がある。
実施の形態3.
実施の形態1のさらに他の実施の形態として、スペクトル包絡推定部102の前段に雑音抑圧部111を導入することができる。図8は本実施の形態の全体構成を示したものである。図3と異なる点として、雑音推定部103に代え、雑音抑圧部111をスペクトル包絡推定部102の前段に備え、平滑化強度決定部104は雑音抑圧部111によって得られる雑音情報から平滑化強度決定示数を算定する。
雑音抑圧部111は音源生成部101の前処理用ではなく、スペクトル包絡推定部102の前処理に導入する。以下にその理由を述べる。
入力となる狭帯域音声信号に低SN比で雑音が混入した場合、雑音推定がうまく動作せず、雑音量が過剰に推定される場合がある。過剰に推定された雑音量に応じて雑音抑圧を行うと、狭帯域音声信号の雑音成分だけでなく、音声成分も抑圧してしまい、分離された狭帯域音声信号の音声成分の調波構造が崩れてしまうという課題がある。
そこで本実施の形態では、入力となる狭帯域音声信号の調波構造を崩すことを防ぐために音源生成部101の前処理に雑音抑圧部111を導入しない。なぜなら音源生成部101は狭帯域音声信号の調波構造の情報を使って、復元する帯域の微細構造を含む音源信号を生成するので、雑音抑圧により音声の調波構造の崩れの影響を受けやすいからである。
こうすることによって、音源生成部101において、雑音が混入していても本来の音声が持つ調波構造から復元する帯域の微細構造を含む音源信号を生成することができ、入力となる狭帯域音声信号に低SN比で雑音が混入する場合でも明瞭性のある広帯域音声信号を生成できる。
さらには、本実施の形態によれば、雑音抑圧された狭帯域音声信号から復元する高域の平均スペクトル値を推定するので、雑音の影響を抑圧することができ、より狭帯域音声信号のパワー変動と復元する帯域のパワー変動の乖離を抑えることが出来る効果が得られる。
雑音抑圧部111では狭帯域音声信号を入力とし、雑音抑圧を行い、スペクトル包絡推定部102へ雑音抑圧された狭帯域音声信号を出力し、平滑化強度決定示数を算定する平滑化強度決定部104に雑音情報を出力する。
実施の形態1で述べたように、スペクトル包絡推定部102では狭帯域音声信号の振幅スペクトル値の情報のみを用いて復元する帯域の振幅スペクトル値を推定している。このような振幅スペクトル値の情報を用いてスペクトル包絡を推定する手法は狭帯域音声信号に雑音成分が残っていると、推定により復元する帯域の振幅スペクトル値が過剰に推定される傾向にある。そこで、前処理として雑音抑圧を行う。また、このように雑音抑圧を行っても、先ほど述べた通り、スペクトル包絡推定部102は振幅スペクトル値の情報のみを用い、調波構造の情報を用いていないので、音源生成部101に比べ、雑音抑圧による狭帯域音声信号の音声成分の調波構造の崩れの影響を受けにくい。
なお、用いる雑音抑圧のアルゴリズムは一般的なものでよく、例えば、スペクトル・サブトラクション(Spectral Subtraction)法(S.F. Boll, “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans. Acoustics, Speech, and Signal Processing, vol.ASSP-29, pp.113-120, 1979.)、ウィナー・フィルター(Wiener Filter)法(J. S. Lim, A. V. Oppenheim, “Enhancement and bandwidth compression of noisy speech”, Proc. IEEE Vol.67, No.12, pp.1586-1604, Dec.1979.)および最尤推定法(R. J. McAulay, M. L. Malpass, “Speech enhancement using a soft-decision noise suppressionfilter”, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol.ASSP-28,no.2, pp.137-145, Apr.1980.)等が適用できる。
なお、平滑化強度決定部104に出力する雑音情報は狭帯域音声信号に混入する雑音の度合いがわかるものであればよいので、実施の形態1であげたものでもよいし、例えば雑音抑圧の際に狭帯域音声信号に掛け合わせる雑音抑圧ゲインでもよい。
上記のような構成の音声信号復元装置にすることにより、実施の形態1に比べ、雑音抑圧部111が導入されるので、狭帯域部の音声信号のパワー変動と復元する帯域のパワー変動の乖離をより抑えることができる効果がある。
以上の実施の形態1から3では、狭帯域音声信号の例として電話音声の場合について説明しており、300〜3400Hzに帯域制限された音声信号から50〜7000Hzの広帯域音声信号を生成しているが、広帯域音声信号の周波数帯域も50〜7000Hzに限られることは無く、例えば、25〜14000Hz等更に広い帯域で実施することも可能である。
実施の形態4.
実施の形態1から3の音声信号復元装置は、図9のイメージ図のように、(a)に示される出力する狭帯域音声信号の帯域幅を拡張し、(b)に示される明瞭性のある広帯域音声信号を生成する技術である。
それに対し、図10のイメージ図のように、(a)に示される雑音抑圧や音声圧縮等により劣化・欠損した帯域を含む狭帯域音声信号を、(b)に示されるように、最終的に出力される音声信号の帯域幅は変わらないが、劣化・欠損した帯域の復元にも実施の形態1から3の音声信号復元装置が応用できる。
即ち、音源生成部101は、狭帯域音声信号を入力とし、非線形処理を行うことにより、復元する帯域として狭帯域音声信号と同じ帯域の微細構造を含む音源信号を出力する。スペクトル包絡推定部102は、狭帯域音声信号を入力とし、予め用意した学習モデルを用いて、復元する帯域として入力された狭帯域音声信号と同じ帯域のスペクトル包絡を推定し、出力する。
スペクトル包絡平滑化部105はスペクトル包絡推定部102で出力する復元する帯域として入力された狭帯域音声信号と同じ帯域のスペクトル包絡と平滑化強度決定部104で出力する平滑化強度決定示数を入力とし、復元する帯域のスペクトル包絡における時間方向の平滑化を行い、平滑化された復元する帯域のスペクトル包絡を出力する。
信号合成部106は、音源生成部101によって生成した復元する帯域として入力された狭帯域音声信号と同じ帯域の微細構造を含む音源信号とスペクトル包絡平滑化部105で出力する平滑化された復元する帯域として入力された狭帯域音声信号と同じ帯域のスペクトル包絡を入力とし、この2つを合成することによって、復元する帯域として入力された狭帯域音声信号と同じ帯域の擬似音声信号を出力する。
雑音推定部103および平滑化強度決定部104は各実施の形態と同様の動作を行う。また、劣化・欠損した帯域の復元を処理を行う音声信号復元装置にあっては実施の形態1から3に備えられた帯域通過フィルタ部107および信号加算部108は備えず、信号合成部106の出力を最終出力とする。
このように実施の形態1から3の復元する音声信号の帯域を、入力された音声信号と同じ帯域とすることで、信号合成部106の出力は劣化・欠損した帯域の復元が行われた音声信号となり、この信号合成部106の出力を最終出力とする。
このように実施の形態1から3を応用することにより、雑音抑圧や音声圧縮等により劣化・欠損した帯域の復元を行うことができ、より明瞭性のある音声信号を生成する効果が期待できる。
実施の形態5.
本実施の形態は、実施の形態1から4で述べた音声信号復元装置をカーナビゲーターのハンズフリー音声通話システムに応用した例である。全体構成を図11に示す。外部通信部201は、車内にあるユーザの携帯電話とブルートゥース等により通信を行い、携帯電話と音声信号の受け渡しを行う。音声信号復元部202は、実施の形態1から4で述べた音声信号復元装置であり、外部通信部201からの音声信号を音声復元して、外部入出力部203へと出力する。外部入出力部203は、スピーカ及びマイクロホンを備えており、ユーザとのインターフェースの役割を果たす。エコーキャンセラ部204は、音声信号復元部202の出力信号と外部入出力部203の出力信号を入力とし、スピーカからの出力音声をマイクロホンが拾うことによって生じるエコーを抑圧している。ノイズキャンセラ部205は、エコーキャンセラ部204の出力信号を入力とし、ユーザが乗車中の車が走行中等により生じる雑音を抑圧し、雑音抑圧した音声信号を外部通信部201へと出力する。
以上のように、上記の構成のようなカーナビゲーターのハンズフリー音声通話システムに、この発明の音声信号復元装置を導入することによって、通話相手が無騒音環境下、騒音環境下どちらにいても、明瞭性のある受話音声を提供することができる。
この発明は、例えば、音声通信、音声蓄積、音声認識システムが導入された、カーナビゲーションまたは携帯電話等の音声通信システム、ハンズフリー通話システム、TV会議システム、監視システム等の音質改善や、音声認識システムの認識率の向上に供される。
101 音源生成部、102 スペクトル包絡推定部、103 雑音推定部、104 平滑化強度決定部、105 スペクトル包絡平滑化部、106 信号合成部、107 帯域通過フィルタ部、108 信号加算部、109 発話状態判定部、110 平滑化強度決定部、111 雑音抑圧部、201 外部通信部、202 音声信号復元部、203 外部入出力部、204 エコーキャンセラ部、205 ノイズキャンセラ部。

Claims (4)

  1. 第1の周波数帯域に帯域制限された音声信号から第2の周波数帯域の音声信号に対応する音源信号を生成する音源信号生成部と、
    上記第1の周波数帯域に帯域制限された音声信号から上記第2の周波数帯域の音声信号に対応するスペクトル包絡を推定し、出力するスペクトル包絡推定部と、
    上記第1の周波数帯域に帯域制限された音声信号に混入している雑音成分を推定し、雑音成分の混入度合いを示す指標である雑音情報を出力する雑音推定部と、
    上記雑音推定部により推定された上記雑音情報から、上記スペクトル包絡推定部からの出力であるスペクトル包絡の平滑化の強さ度合いを示す指標である平滑化強度決定示数を出力する平滑化強度決定部と、
    上記平滑化強度決定部により決定された上記平滑化強度決定示数を用いて上記スペクトル包絡推定部により推定された上記スペクトル包絡の平滑化を行うスペクトル包絡平滑化部と
    上記音源信号生成部で生成された上記音源信号と、上記スペクトル包絡平滑化部で平滑化された上記スペクトル包絡とを用いて、上記第2の周波数帯域の音声信号を生成する信号合成部とを備えることを特徴とする音声信号復元装置。
  2. 上記第1の周波数帯域に帯域制限された音声信号から現在の発話状態を推定する発話状態推定部を備え
    上記平滑化強度決定部は上記雑音推定部によって推定された上記雑音情報と上記発話状態推定部によって推定された上記発話状態とから上記平滑化強度決定示数を算出することを特徴とする請求項1に記載の音声信号復元装置。
  3. 上記第1の周波数帯域に帯域制限された音声信号に対して雑音抑圧を行い、雑音抑圧の際に推定した上記雑音情報を出力する雑音抑圧部を備え、
    上記スペクトル包絡推定部は上記雑音抑圧部により雑音抑圧された上記第1の周波数帯域に帯域制限された音声信号から上記第2の周波数帯域の音声信号に対応するスペクトル包絡を推定し、
    上記平滑化強度決定部は上記雑音抑圧部によって得られる上記雑音情報から上記平滑化強度決定示数を決定することを特徴とする請求項1に記載の音声信号復元装置。
  4. 第1の周波数帯域に帯域制限された音声信号から第2の周波数帯域の音声信号に対応する音源信号を生成する音源信号生成工程と、
    上記第1の周波数帯域に帯域制限された音声信号から上記第2の周波数帯域の音声信号に対応するスペクトル包絡を推定し、出力するスペクトル包絡推定工程と、
    上記第1の周波数帯域に帯域制限された音声信号に混入している雑音成分を推定し、雑音成分の混入度合いを示す指標である雑音情報を出力する雑音推定工程と、
    上記雑音推定工程により推定された上記雑音情報から、上記スペクトル包絡推定工程からの出力であるスペクトル包絡の平滑化の強さ度合いを示す指標である平滑化強度決定示数を出力する平滑化強度決定工程と、
    上記平滑化強度決定工程により決定された上記平滑化強度決定示数を用いて上記スペクトル包絡推定工程により推定された上記スペクトル包絡の平滑化を行うスペクトル包絡平滑化工程と
    上記音源信号生成工程で生成された上記音源信号と、上記スペクトル包絡平滑化工程で平滑化された上記スペクトル包絡とを用いて、上記第2の周波数帯域の音声信号を生成する信号合成工程とを備えることを特徴とする音声信号復元方法。
JP2012160355A 2012-07-19 2012-07-19 音声信号復元装置および音声信号復元方法 Expired - Fee Related JP5840087B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012160355A JP5840087B2 (ja) 2012-07-19 2012-07-19 音声信号復元装置および音声信号復元方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012160355A JP5840087B2 (ja) 2012-07-19 2012-07-19 音声信号復元装置および音声信号復元方法

Publications (2)

Publication Number Publication Date
JP2014021307A JP2014021307A (ja) 2014-02-03
JP5840087B2 true JP5840087B2 (ja) 2016-01-06

Family

ID=50196228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012160355A Expired - Fee Related JP5840087B2 (ja) 2012-07-19 2012-07-19 音声信号復元装置および音声信号復元方法

Country Status (1)

Country Link
JP (1) JP5840087B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016024454A (ja) * 2014-07-25 2016-02-08 三菱電機株式会社 音声帯域拡張装置および音声帯域拡張方法
JP6451136B2 (ja) * 2014-08-05 2019-01-16 沖電気工業株式会社 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム
JP6451143B2 (ja) * 2014-08-20 2019-01-16 沖電気工業株式会社 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム
US10347273B2 (en) 2014-12-10 2019-07-09 Nec Corporation Speech processing apparatus, speech processing method, and recording medium

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3189614B2 (ja) * 1995-03-13 2001-07-16 松下電器産業株式会社 音声帯域拡大装置

Also Published As

Publication number Publication date
JP2014021307A (ja) 2014-02-03

Similar Documents

Publication Publication Date Title
JP5183828B2 (ja) 雑音抑圧装置
JP5528538B2 (ja) 雑音抑圧装置
US8521530B1 (en) System and method for enhancing a monaural audio signal
US8010355B2 (en) Low complexity noise reduction method
JP5646077B2 (ja) 雑音抑圧装置
JP5595605B2 (ja) 音声信号復元装置および音声信号復元方法
KR101224755B1 (ko) 음성-상태 모델을 사용하는 다중-감각 음성 향상
JP5535241B2 (ja) 音声信号復元装置および音声信号復元方法
EP1772855A1 (en) Method for extending the spectral bandwidth of a speech signal
JP5153886B2 (ja) 雑音抑圧装置および音声復号化装置
KR101737824B1 (ko) 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치
JP2004502977A (ja) サブバンド指数平滑雑音消去システム
JPWO2006046293A1 (ja) 雑音抑圧装置
JPWO2013118192A1 (ja) 雑音抑圧装置
JPWO2018163328A1 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
US9245538B1 (en) Bandwidth enhancement of speech signals assisted by noise reduction
JP2011033717A (ja) 雑音抑圧装置
JP5840087B2 (ja) 音声信号復元装置および音声信号復元方法
JP3960834B2 (ja) 音声強調装置及び音声強調方法
JP2009223210A (ja) 信号帯域拡張装置および信号帯域拡張方法
KR101850693B1 (ko) 인-이어 마이크로폰을 갖는 이어셋의 대역폭 확장 장치 및 방법
JPH11265199A (ja) 送話器
JP2004020679A (ja) 雑音抑圧装置および雑音抑圧方法
JP2006201622A (ja) 帯域分割型雑音抑圧装置及び帯域分割型雑音抑圧方法
KR20180010115A (ko) 스피치를 향상하는 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151013

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151110

R150 Certificate of patent or registration of utility model

Ref document number: 5840087

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees