JP6707914B2

JP6707914B2 - ゲイン処理装置及びプログラム、並びに、音響信号処理装置及びプログラム

Info

Publication number: JP6707914B2
Application number: JP2016044475A
Authority: JP
Inventors: 大藤枝
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2016-03-08
Filing date: 2016-03-08
Publication date: 2020-06-10
Anticipated expiration: 2036-03-08
Also published as: JP2017161635A

Description

本発明は、ゲイン処理装置及びプログラム、並びに、音響信号処理装置及びプログラムに関し、例えば、入力音響信号に含まれる雑音成分を抑圧して音声成分を強調することを必要とする通信端末、オーディオ機器、音声認識装置などに適用し得る。

自然環境において雑音はいたる所に存在するため、一般に実世界で収録された音声には種々の発信元からの雑音が含まれる。それらの雑音は、人が聴くにしても音声の了解性を低下させ、また、音声認識装置等の音声処理装置に入力するにしても音声処理の精度（例えば音声認識率）を低下させる。そのため、入力信号に混入した雑音成分を抑圧して音声成分を強調する技術の需要は高く、これまでに様々な音声強調方法（雑音抑圧方法と呼ばれることもある）が開発されてきた。

従来の音声強調の標準的な方法として、非特許文献１、２に記載されている技術を挙げることができる。非特許文献１の記載技術は、入力信号の振幅スペクトルから、別途推定した雑音成分の振幅スペクトルを減じる方法であり、スペクトルサブトラクション（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ：ＳＳ）法と呼ばれる。また、非特許文献２の記載技術は、音声成分が強調されるように選定されたゲインを入力信号の周波数スペクトル（以下、単に入力スペクトルと呼ぶ）に乗算する方法で、ＭＭＳＥ−ＳＴＳＡ（ＭｉｎｉｍｕｍＭｅａｎ−ＳｑｕａｒｅＥｒｒｏｒＳｈｏｒｔ−ＴｉｍｅＳｐｅｃｔｒａｌＡｍｐｌｉｔｕｄｅ）法と呼ばれる。

非特許文献１、２に記載された方法は、いずれも、事前に雑音成分の振幅スペクトル又はパワースペクトル（以下、単に「雑音スペクトル」と呼ぶ）を推定しておく必要がある。推定された雑音スペクトルは、必然的に推定誤差を含む。この推定誤差は、ＳＳ法又はＭＭＳＥ−ＳＴＳＡ法等により音声成分が強調された信号に、歪みを生じさせる。特に、ＳＳ法は、ミュージカルノイズと呼ばれる耳障りな歪みを生じることが知られている。

このような背景から、従来、ミュージカルノイズの軽減を目的とした、特許文献１の記載技術がある。

特許文献１に記載の雑音抑圧装置は、音響信号（スペクトル）の強度の度数分布における尖度が、雑音抑圧処理の前後で変化した度合いを示す尖度指標値を算出する尖度指標値算出部と、ＳＳ法を用いる第１の雑音抑圧部と、ＭＭＳＥ−ＳＴＳＡ法を用いる第２の雑音抑圧部とを具備している。尖度指標値は第１の雑音抑圧部と第２の雑音抑圧部との両方に対して算出される。そして、尖度指標値が雑音成分の抑圧後に生じるミュージカルノイズの量と正の相関を有することを利用して、尖度指標値をより小さくできる方の雑音抑圧部を選択する。以上のように、特許文献１の記載技術は、尖度指標値に応じて２つの雑音抑圧部を切り替えることで、ミュージカルノイズの発生を軽減しようとしている。

特開２０１０−１６０２４６号公報

Ｓ．Ｆ．Ｂｏｌｌ，"Ｓｕｐｐｒｅｓｓｉｏｎｏｆａｃｏｕｓｔｉｃｎｏｉｓｅｉｎｕｓｉｎｇｓｐｅｃｔｒａｌｓｕｂｔｒａｃｔｉｏｎ，" ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．ＡＳＳＰ−２７，ｎｏ．２，ｐｐ．１１３−１２０，Ａｐｒｉｌ１９７９．Ｙ．ＥｐｈｒａｉｍａｎｄＤ．Ｍａｌａｈ，"Ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｕｓｉｎｇａｍｉｎｉｍｕｍｍｅａｎ−ｓｑｕａｒｅｅｒｒｏｒｓｈｏｒｔ−ｔｉｍｅｓｐｅｃｔｒａｌａｍｐｌｉｔｕｄｅｅｓｔｉｍａｔｏｒ，" ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．ＡＳＳＰ−３２，ｎｏ．６，ｐｐ．１１０３−１１２１，Ｄｅｃｅｍｂｅｒ１９８４．

しかしながら、特許文献１の記載技術では、全ての周波数帯域で同時にＳＳ法とＭＭＳＥ−ＳＴＳＡ法とを切り替えるため、切り替わった瞬間に出力音声の特性が急に変化し、不自然な音響信号として受聴者に知覚されるという問題が生じ得る。

そのため、入力音響信号に含まれる雑音を抑圧して目的音成分を強調する際に不自然な変化や歪みを抑制するゲイン処理装置及びプログラム、並びに、音響信号処理装置及びプログラムが望まれている。

第１の本発明のゲイン処理装置は、（１）入力音響信号に基づく入力スペクトルと、所定の雑音推定方法から得られる雑音スペクトルとに基づいて、第１の帯域ごとの目的音存在確率を算出する目的音存在確率算出手段と、（２）前記目的音存在確率に基づいて、前記第１の帯域ごとの結合係数を算出する結合係数算出手段と、（３）所定のゲイン算出方法から得られる第１のゲインと、前記第１のゲインを周波数方向と時間方向に平滑化した第２のゲインとを、前記結合係数に基づいて凸結合したゲインを生成するゲイン結合手段とを有し、（４）前記結合係数算出手段は、（４−１）前記目的音存在確率を、前記第１の帯域より帯域数の少ない第２の帯域に集約して集約目的音存在確率を取得する帯域集約手段と、（４−２）前記集約目的音存在確率を時間方向に平滑化して平滑化目的音存在確率を取得する時間平滑化手段と、（４−３）前記平滑化目的音存在確率を、前記第１の帯域へと分配する帯域分配手段とを有することを特徴とする。

第２の本発明の音響信号処理装置は、（１）入力音響信号を周波数変換して入力スペクトルを取得する周波数解析手段と、（２）前記入力スペクトルに含まれる雑音スペクトルを推定して取得する雑音推定手段と、（３）前記入力スペクトルと、前記雑音スペクトルとに基づいて、第１のゲインを算出する、ゲイン算出手段と、（４）前記入力スペクトルと、前記雑音スペクトルと、前記第１のゲインと、前記第１のゲインを周波数方向と時間方向に平滑化した第２のゲインとに基づいて、前記第１のゲインを修正した第３のゲインを算出するゲイン修正手段と、（５）前記入力スペクトルに、前記第３のゲインを乗じて出力スペクトルを取得する乗算手段と、（６）前記出力スペクトルに基づく信号を出力する出力手段とを有し、前記ゲイン修正手段として第１の本発明の、ゲイン処理装置を適用したことを特徴とする。

第３の本発明のゲイン処理プログラムは、コンピュータを、（１）入力音響信号に基づく入力スペクトルと、所定の雑音推定方法から得られる雑音スペクトルとに基づいて、第１の帯域ごとの目的音存在確率を算出する目的音存在確率算出手段と、（２）前記目的音存在確率に基づいて、前記第１の帯域ごとの結合係数を算出する結合係数算出手段と、（３）所定のゲイン算出方法から得られる第１のゲインと、前記第１のゲインを周波数方向と時間方向に平滑化した第２のゲインとを、前記結合係数に基づいて凸結合したゲインを生成するゲイン結合手段と、（４）前記結合係数算出手段は、（４−１）前記目的音存在確率を、前記第１の帯域より帯域数の少ない第２の帯域に集約して集約目的音存在確率を取得する帯域集約手段と、（４−２）前記集約目的音存在確率を時間方向に平滑化して平滑化目的音存在確率を取得する時間平滑化手段と、（４−３）前記平滑化目的音存在確率を、前記第１の帯域へと分配する帯域分配手段とを有することを特徴とする。

第４の本発明の音響信号処理プログラムは、コンピュータを、（１）入力音響信号を周波数変換して入力スペクトルを取得する周波数解析手段と、（２）前記入力スペクトルに含まれる雑音スペクトルを推定して取得する雑音推定手段と、（３）前記入力スペクトルと、前記雑音スペクトルとに基づいて、第１のゲインを算出する、ゲイン算出手段と、（４）前記入力スペクトルと、前記雑音スペクトルと、前記第１のゲインと、前記第１のゲインを周波数方向と時間方向に平滑化した第２のゲインとに基づいて、前記第１のゲインを修正した第３のゲインを算出するゲイン修正手段と、（５）前記入力スペクトルに、前記第３のゲインを乗じる乗算手段と、（６）前記乗算手段によって得られる出力スペクトルから波形を復元する波形復元手段として機能させ、（７）前記ゲイン修正手段として、第１の本発明のゲイン処理装置を適用したことを特徴とする。

本発明によれば、入力音響信号に含まれる雑音を抑圧して目的音成分を強調する際に不自然な変化や歪みを抑制することができる。

第１の実施形態に係るゲイン処理手段の機能的構成について示したブロック図である。第１の実施形態に係る音声処理装置の機能的構成について示したブロック図である。第１の実施形態に係る結合係数算出手段の機能的構成について示した説明図である。第１の実施形態に係る音声処理装置（ゲイン修正手段）で、処理される第１の帯域と第２の帯域との関係について示したグラフである。第１の実施形態に係る音声処理装置（ゲイン修正手段）で、サンプルデータに基づいて算出された音声存在確率Ｌの例について示したグラフである。第１の実施形態に係る音声処理装置（ゲイン修正手段）で、サンプルデータに基づいて算出された集約音声存在確率Ｐの例について示したグラフである。第１の実施形態に係る音声処理装置（ゲイン修正手段）で、サンプルデータに基づいて算出された平滑化音声存在確率Ｍの例について示したグラフである。第１の実施形態に係る音声処理装置（ゲイン修正手段）で、サンプルデータに基づいて算出された結合係数Ｃの例について示したグラフである。第２の実施形態に係る音声処理装置の機能的構成について示したブロック図である。第２の実施形態に係るゲイン処理手段の機能的構成について示したブロック図である。第２の実施形態に係るゲイン平滑化手段の機能的構成について示したブロック図である。

（Ａ）第１の実施形態
以下、本発明によるゲイン処理装置及びプログラム、並びに、音響信号処理装置及びプログラムの第１の実施形態を、図面を参照しながら詳述する。以下では、本発明の音響信号処理装置及びゲイン処理装置を、音声処理装置及びゲイン修正手段に適用した例について説明する。

（Ａ−１）第１の実施形態の構成
図２は、この実施形態に係る音声処理装置３００の全体構成について示したブロック図である。

音声処理装置３００は、例えば、会議端末、携帯電話端末（スマートホン）、ＩＰ電話端末等の電話端末のマイクロホンで捕捉した音響信号に対して目的音（例えば、近端話者の音声）を強調（雑音成分を抑制）する処理等に好適に用いられる。

音声処理装置３００は、音声を含む音声信号（時間領域の音声信号）である入力信号ｘ（時間領域の入力信号）について音声強調を行って、出力信号ｙ（時間領域の出力信号）を生成するものである。

図２に示すように、第１の実施形態の音声処理装置３００は、周波数解析手段３０１、雑音推定手段３０２、ゲイン算出手段３０３、ゲイン修正手段３０４、乗算手段３０５、及び波形復元手段３０６を有している。

音声処理装置３００は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム（実施形態に係る音響信号処理プログラムを含む）をインストールすることにより実現するようにしてもよい。また、ゲイン修正手段３０４についても、例えば、プロセッサ及びメモリを有するコンピュータにプログラム（実施形態に係るゲイン処理プログラム）をインストールすることにより実現するようにしてもよい。

周波数解析手段３０１は、入力信号ｘ（時間領域の信号）を周波数変換して入力スペクトルＸ（周波数領域の信号）を算出するものである。

雑音推定手段３０２は、入力スペクトルＸに基づいて雑音成分を推定し、推定した雑音成分である雑音スペクトルＮを算出するものである。

ゲイン算出手段３０３は、入力スペクトルＸと雑音スペクトルＮとに基づいて、雑音推定手段３０２が推定した雑音成分を抑圧する原ゲインＧを算出するものである。

ゲイン修正手段３０４は、入力スペクトルＸと雑音スペクトルＮと原ゲインＧと所定の定数に基づく無歪ゲインＦとに基づいて、原ゲインＧを修正した修正ゲインＨを算出するものである。

乗算手段３０５は、入力スペクトルＸに修正ゲインＨを乗じて出力スペクトルＹを算出する。

波形復元手段３０６は、出力スペクトルＹ（周波数領域の信号）から波形を復元し、得られた復元波形を出力信号ｙ（時間領域の信号）として出力するものである。波形復元手段３０６が出力信号ｙを出力する方式や信号の形式については限定されないものであり、例えば、音声データ（例えば、ＰＣＭ形式のデータ）として所定のデータ記録媒体に出力するようにしてもよいし、パケット形式に変換して通信により他の通信装置に向けて送出するようにしてもよい。また、音声処理装置３００では、時間領域の出力信号ｙではなく、周波数領域の出力スペクトルＹのまま出力するようにしてもよい。

次に、ゲイン修正手段３０４内部の機能的構成について図１を用いて説明する。

図１に示すように、第１の実施形態のゲイン修正手段３０４は、音声存在確率算出手段１０１、結合係数算出手段１０２、及びゲイン結合手段１０３を有している。

音声存在確率算出手段１０１は、入力スペクトルＸと雑音スペクトルＮとに基づいて音声存在確率Ｌ（詳細については後述）を算出するものである。

結合係数算出手段１０２は、音声存在確率Ｌに基づいて結合係数Ｃ（詳細については後述）を算出するものである。

ゲイン結合手段１０３は、原ゲインＧと無歪ゲインＦと音声存在確率Ｌに基づいて修正ゲインＨを算出するものである。修正ゲインＨの詳細については後述する。

次に、結合係数算出手段１０２の内部構成について図３を用いて説明する。

結合係数算出手段１０２は、帯域集約手段２０１、時間平滑化手段２０２、及び帯域分配手段２０３を有している。

帯域集約手段２０１は、音声存在確率Ｌの帯域を第２の帯域（詳細については後述）へと集約し、得られた集約音声存在確率Ｐ（詳細については後述）を時間平滑化手段２０２に供給するものである。

時間平滑化手段２０２は、帯域集約手段２０１から与えられた集約音声存在確率Ｐを時間平滑化して、得られた平滑化音声存在確率Ｍ（詳細については後述）を帯域分配手段２０３に与えるものである。

帯域分配手段２０３は、時間平滑化手段２０２から与えられた平滑化音声存在確率Ｍを第１の帯域（詳細については後述）へと分配し、得られた結合係数Ｃを後段の処理に与えるものである。

（Ａ−２）第１の実施形態の動作
次に、以上のような構成を有する第１の実施形態の音声処理装置３００（ゲイン修正手段３０４）の動作を説明する。

まず、音声処理装置３００が、入力信号ｘ（時間領域の入力信号）について音声強調を行って、出力信号ｙ（時間領域の出力信号）を生成する処理の概要について図２を用いて説明する。

周波数解析手段３０１は、例えば、フーリエ変換に代表される任意の周波数解析手法、またはフィルタバンクに代表される任意の帯域分割手法によって、入力信号ｘ（入力音声）をＫ個の第１の帯域に分割する。以下では、ｋ番目の第１の帯域に分割された信号を「Ｘ_ｋ」と表し、Ｋ個の帯域すべてをまとめた入力スペクトルを「Ｘ」と表す。そして、周波数解析手段３０１は、得られた入力スペクトルＸを雑音推定手段３０２、ゲイン算出手段３０３、ゲイン修正手段３０４、及び乗算手段３０５に与える。

雑音推定手段３０２は、周波数解析手段３０１から与えられた入力スペクトルＸに基づいて、所定の雑音推定方法によって入力スペクトルＸに含まれる雑音成分を推定して雑音スペクトルＮを算出し、得られた雑音スペクトルＮをゲイン算出手段３０３及びゲイン修正手段３０４に与える。

雑音推定手段３０２で用いられる雑音推定方法には、任意の雑音推定方法を適用することができ、例えば、参考文献１（Ｒ．Ｍａｒｔｉｎ， “ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎＢａｓｅｄｏｎＭｉｎｉｍｕｍＳｔａｔｉｓｔｉｃｓ，” ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆ７ｔｈＥｕｒｏｐｅａｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＣｏｎｆｅｒｅｎｃｅ，ｐｐ．１１８２−１１８５，１９９４）に記載の技術や、参考文献２（特開２０１５−１５２６２７）に記載の技術等を適用することができる。

ゲイン算出手段３０３は、周波数解析手段３０１から与えられた入力スペクトルＸと、雑音推定手段３０２から与えられた雑音スペクトルＮとに基づいて、所定の音声強調方法によって入力スペクトルＸ中に含まれる雑音成分を抑圧して音声成分を強調する音声強調ゲインを算出し、得られた音声強調ゲインを原ゲインＧとしてゲイン修正手段３０４に与える。所定の音声強調方法（雑音抑圧方法）には、任意の音声強調方法（雑音抑圧方法）を適用することができ、例えば、非特許文献１に記載の技術や、非特許文献２に記載の技術等を適用することができる。

ゲイン修正手段３０４は、周波数解析手段３０１から与えられた入力スペクトルＸと、雑音推定手段３０２から与えられた雑音スペクトルＮと、ゲイン算出手段３０３から与えられた原ゲインＧと、所定の定数値で与えられる無歪ゲインＦとに基づいて、修正ゲインＨを算出し、得られた修正ゲインＨを乗算手段３０５に与える。

乗算手段３０５は、周波数解析手段３０１から与えられた入力スペクトルＸに、ゲイン修正手段３０４から与えられた修正ゲインＨを乗じて出力スペクトルＹを算出し、得られた出力スペクトルＹを波形復元手段３０６に与える。

波形復元手段３０６は、周波数解析手段３０１で用いた周波数解析手法または帯域分割手法に対応する波形復元手法を用いて、乗算手段３０５から与えられた出力スペクトルＹに基づいて時間波形を再構成し、得られた出力信号ｙを出力する。

次に、ゲイン修正手段３０４の動作について、図１を用いて説明する。

音声存在確率算出手段１０１は、入力スペクトルＸと雑音スペクトルＮとに基づいて音声存在確率Ｌを算出し、得られた音声存在確率Ｌを結合係数算出手段１０２に与える。

入力スペクトルＸと雑音スペクトルＮは、第１の帯域数Ｋ個に帯域分割された帯域信号である。以下では、ｋ番目の第１の帯域の要素を、Ｘ_ｋ，Ｎ_ｋ（但し、ｋ＝０，１，…Ｋ−１）と表す。また、以下では、音声存在確率Ｌは、第１の帯域それぞれに個別の値を有し、これを同様にＬ_ｋと表す。Ｌ_ｋは、Ｘ_ｋとＮ_ｋを変数とする所定の関数の出力として与えられる。上述の所定の関数は、Ｘ_ｋに関して広義単調増加であり、Ｎ_ｋに関して広義単調減少であり、例えば、値域としては０．０〜１．０の実数値とすることができる。Ｘ_ｋがＮ_ｋより十分大きければ、Ｌ_ｋは１．０となり、確率１．０で音声が存在することを示す。一方、Ｘ_ｋがＮ_ｋより十分小さければ、Ｌ_ｋは０．０となり、確率０．０で音声が存在する（すなわち音声が存在しない）ことを示す。Ｌ_ｋを求めるための所定の関数として、例えば、（１）式が好適に用いられる。

結合係数算出手段１０２は、音声存在確率算出手段１０１から与えられた音声存在確率Ｌに基づいて結合係数Ｃを算出し、得られた結合係数Ｃをゲイン結合手段１０３に与える。

結合係数Ｃは、音声存在確率Ｌと同様に、第１の帯域それぞれに個別の値を有する。以下では、ｋ番目の第１の帯域の結合係数ＣをＣ_ｋと示す。Ｃ_ｋは例えば、０．０〜１．０の実数値で与えられ、大きいほど音声らしさが高いことを意味する。結合係数算出手段１０２は、音声存在確率Ｌを周波数方向と時間方向に平滑化した値を結合係数Ｃとして算出する。結合係数算出手段１０２で適用される平滑化の方法は任意であり、例えば画像処理で用いられるような２次元の移動平均法や２次元ガウシアンフィルタなどを適用できるが、特に図３で示される構成によって平滑化する方式が好ましい。結合係数算出手段１０２の詳細動作（すなわち結合係数Ｃ_ｋの算出方法）については後述する。

ゲイン結合手段１０３は、所定のゲイン算出方法（例えば、従来の任意の音声強調方法）によって算出された原ゲインＧと、所定の定数値で与えられる無歪ゲインＦと、結合係数算出手段１０２より与えられた結合係数Ｃとに基づいて、修正ゲインＨを算出し、得られた修正ゲインＨを出力する。

原ゲインＧ、無歪ゲインＦ及び修正ゲインＨは、結合係数Ｃと同様に、第１の帯域それぞれに個別の値を有し、これをそれぞれＧ_ｋ，Ｆ_ｋ及びＨ_ｋと示す。Ｈ_ｋは、例えば、（２）式のように、Ｇ_ｋとＦ_ｋとを、Ｃ_ｋに基づいて凸結合することで算出することができる。

無歪ゲインの要素Ｆ_ｋは、すべての第１の帯域ｋ＝０，１，…Ｋ−１で同じ値としても良いが、帯域ごとに異なる値とする方がより好適である。但し、隣り合う帯域同士でＦ_ｋが大きく異なると、出力信号に特有の歪み（人工的な定常音や、音楽的な調性を持った定常音）が生じてしまうため、例えば（３）式のように、隣り合う帯域との比が０．９０〜１．１１に収まるように決めるのが好適である。

もし無歪ゲインＦをすべての第１の帯域に適用した場合、出力信号はまったく歪まないが、その理由を説明する。第１の実施形態に示すように、無歪ゲインＦは、時間方向にはまったく変化せず、周波数方向には（３）式の範囲内でのみ変化する。従って、無歪ゲインＦは、時間方向と周波数方向の変化が小さい。このように変化の小さいゲインは、局所的（例えば、時間幅にして数十ミリ秒、周波数幅にして１００Ｈｚ前後）に見ればほとんど変化していない。変化していないゲインを適用することは、音量を変化させることと同じである。従って、無歪ゲインＦをすべての第１の帯域に適用しても、入力信号の音量を変化させるだけなので、出力信号に歪みをまったく生じさせない。

しかし、時間方向と周波数方向の変化が滑らかな無歪ゲインＦをすべての第１の帯域に適用してしまうと、入力信号に含まれる音声成分を強調できない。それどころか、音声成分ごと抑圧してしまう。従って、音声成分がある帯域では、原ゲインＧを用いることで、音声成分を強調する必要がある。

それぞれの帯域ｋにおいて、結合係数Ｃ_ｋが１．０に近いほど、入力スペクトルの要素Ｘ_ｋは音声が優勢であることを示す。そして、結合係数Ｃ_ｋは、周波数方向と時間方向とに平滑化されているので、周波数方向と時間方向とに滑らかに変化する。そこで、ゲイン結合手段１０３は、Ｃ_ｋ＝１．０ではＨ_ｋ＝Ｇ_ｋとなるようにする。一方、Ｃ_ｋ＝０．０ではＨ_ｋ＝Ｆ_ｋとなるようにする。そして、０．０＜Ｃ_ｋ＜１．０の場合、Ｇ_ｋとＦ_ｋとを適切な割合で混合する。以上のようにすることで、修正ゲインＨが帯域ごとに滑らかに変化するので、出力信号に歪みを生じさせないゲインを得ることができる。

次に、結合係数算出手段１０２の詳細動作を、図３を用いて説明する。

帯域集約手段２０１は、与えられた音声存在確率Ｌの帯域を第２の帯域へと集約し、得られた集約音声存在確率Ｐを時間平滑化手段２０２に与える。第２の帯域は、入力信号の帯域を、第１の帯域数Ｋ個より少ない第２の帯域数Ｊ個に分割した帯域である。第２の帯域の定め方は任意であり、例えば、Ｊ個のすべての帯域幅を同じ４００Ｈｚとしても良いが、臨界帯域幅に従うのが好適である。

臨界帯域幅とは、人間の聴覚において、ある純音に対する聴覚マスキングが有効な帯域幅のことである。臨界帯域幅は、純音の周波数に対して非線形で、５００Ｈｚ以下の純音に対しては常に１００Ｈｚであり、５００Ｈｚより上の周波数では純音の周波数に対して１／３〜１／４オクターブの割合で増加していく特性を持つ。臨界帯域幅（単位はＢａｒｋ）の近似式がいくつか提案されているが、例えば（４）式が用いられる。（４）式において、ｆ（Ｈｚ）であり、またｂ（Ｂａｒｋ）である。

以下では、第２の帯域ｊ（ｊ＝１，２，…，Ｊ）に集約される第１の帯域を、ｋ_{（ｊ−１）}ｋ_（ｊ）−１とする。また、以下では、第１の帯域ｋの中心周波数をｆ_ｋとし、第２の帯域ｊの中心周波数をφ_ｊ（ファイ＿ジェー）としたとき、ｋ_（ｊ）は、（５）式を満たす最小の第１の帯域ｋと定義する。このように定義される第１の帯域と第２の帯域との関係を図４に示す。そして、帯域集約手段２０１は、（６）式により、集約音声存在確率Ｐのｊ番目の値であるＰ_ｊを、音声存在確率Ｌのｋ_{（ｊ−１）}〜ｋ_（ｊ）−１の最大値とする。このように、最大値を選択することで、ある第１の帯域に高い確率で音声成分が存在するという情報が、後段の帯域分配手段２０３まで保存されるので、原ゲインＧの音声を強調する性質を修正ゲインＨに反映させることができる。

（６）式によって音声存在確率Ｌが集約される様子を、図５及び図６に示す。

図５は、サンプルデータに基づく音声存在確率Ｌである。図５では、第１の帯域の各値Ｌ_ｋ間を実線で結んでいる。図５では、音声存在確率の値Ｌ_ｋが密に並んだ状態となっている。

図６は、サンプルデータに基づく図５の音声存在確率Ｌから得られた集約音声存在確率Ｐである。図６では、第２の帯域の各値Ｐ_ｊを黒丸で描き、各値Ｐ_ｊ間を点線で結んでいる。図６では、集約音声存在確率の値Ｐ_ｊが疎に並んだ状態となっている。

なお、以上では、第２の帯域に集約される第１の帯域の範囲は、隣り合う第２の帯域で重ならないように記載したが、重なるようにしても良い。また、以上では、第２の帯域に集約する方法として、第１の帯域の所定の範囲の最大値を取るとしたが、平均値を取るようにしても良いし、重み付き平均値を取るようにしても良い。

時間平滑化手段２０２は、帯域集約手段２０１から与えられた集約音声存在確率Ｐを時間平滑化して、得られた平滑化音声存在確率Ｍを帯域分配手段２０３に与える。平滑化音声存在確率Ｍは、集約音声存在確率Ｐと同様に、第２の帯域それぞれに個別の値を有し、これをＭ_ｊと示す。時間平滑化手段２０２による時間平滑化の方法は限定されるものではなく、任意の方法を適用することができる。時間平滑化の代表的な方法には、移動平均法と時定数フィルタ（リーク積分とも呼ばれる）があるが、ここでは、例として時定数フィルタを使うこととする。以下では、第２の帯域ｊにおける前回の平滑化音声存在確率をＭ’_ｊと示すものとする。そうすると、Ｍ_ｊは、Ｐ_ｊ、Ｍ’_ｊ、及び時定数α（アルファ）に基づいて、（７）式によって算出することができる。

（７）式によって集約音声存在確率Ｐが時間平滑化される様子を、図７に示す。

図７はサンプルデータに基づく図６の集約音声存在確率Ｐから得られた平滑化音声存在確率Ｍの例である、図７では、第２の帯域の各値Ｍ_ｊを黒丸で描き、各値Ｍ_ｊ間を点線で結び、平滑化音声存在確率の値Ｍ_ｊが疎に並んでいる。なお、ここでは、時定数αは、例えば０．６とする。

帯域分配手段２０３は、時間平滑化手段２０２から与えられた平滑化音声存在確率Ｍを第１の帯域へと分配し、得られた結合係数Ｃを後段の処理に与える。帯域分配手段２０３で用いる分配の方法としては、例えば、任意の補間法（いわゆる「内挿法」）が好適に用いられる。すなわち、第２の帯域に従って周波数軸上に疎に定義されている平滑化音声存在確率Ｍを、任意の補間法によってより密な第１の帯域へと値を補間し、得られた第１の帯域に従って周波数軸上に密に定義された値を結合係数Ｃとする。また、帯域分配手段２０３で用いる補間法としては、例えば、多項式補間、キュービック補間、スプライン補間などを用いることができるが、特に線形補間が好適に用いられる。

第１の実施形態における帯域分配手段２０３は、（８）式及び（９）式によって、平滑化音声存在確率Ｍを第１の帯域へと分配し、結合係数Ｃを算出する。

図８はサンプルデータに基づく図７の平滑化音声存在確率Ｍから得られた結合係数Ｃの例である、図８では、第１の帯域の各値Ｃ_ｋ間を実線で結んでいる。

（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、以下のような効果を奏することができる。

ゲイン修正手段３０４では、従来の音声強調方法によって算出された、音声成分を強調できるが歪みを生じてしまう原ゲインと、所定の定数値で与えられた、歪みを生じないが音声成分を強調できない無歪ゲインとを、音声存在確率に従って周波数方向と時間方向とに滑らかに変化する結合係数に基づいて凸結合することによって修正ゲインを得る。そして、音声処理装置３００では、ゲイン修正手段３０４によって得られた修正ゲインを用いて音声強調を行うので、従来の音声強調方法と同等の音声強調性能を維持しながら歪みを生じない音声強調方法を提供できる。言い換えると、音声処理装置３００（音声処理装置３００）では、ＳＳ法やＭＭＳＥ−ＳＴＳＡ法をはじめとした従来の目的音強調方法と同等の目的音強調効果を維持しながら、目的音区間では歪みを軽減し、さらに雑音区間では歪みを生じずに（特性を不自然に変化させずに）、雑音成分を抑圧して音声成分を強調することができる。

（Ｂ）第２の実施形態
以下、本発明によるゲイン処理装置及びプログラム、並びに、音響信号処理装置及びプログラムの第２の実施形態を、図面を参照しながら詳述する。

（Ｂ−１）第２の実施形態の構成
図９は、第２の実施形態の音声処理装置６００の構成を示すブロック図である。図９では、上述の図２と同一部分又は対応部分には、同一符号又は対応符号を付している。

以下では、第２の実施形態について第１の実施形態との差異を説明する。

第２の実施形態の音声処理装置６００では、ゲイン修正手段３０４がゲイン修正手段６０４に置き換わっている点で第１の実施形態と異なっている。ゲイン修正手段６０４は、入力スペクトルＸと雑音スペクトルＮと原ゲインＧとに基づいて修正ゲインＨを算出する。

図１０は、第２の実施形態のゲイン修正手段６０４内部の機能的構成について示したブロック図である。図１０では、上述の図１と同一部分又は対応部分には、同一符号又は対応符号を付している。

第２の実施形のゲイン修正手段６０４は、原ゲインＧに基づいて無歪ゲインＦを算出するゲイン平滑化手段４０４が追加されている点で第１の実施形態と異なっている。

次に、ゲイン平滑化手段４０４の詳細構成について図１１を用いて説明する。

図１１に示すように、ゲイン平滑化手段４０４は、帯域集約手段５０１、時間平滑化手段５０２、及び帯域分配手段５０３を有している。

帯域集約手段５０１は、与えられた原ゲインＧの帯域を第３の帯域へと集約して、集約ゲインΓ（大文字のガンマ）を得るものである。

時間平滑化手段５０２は、帯域集約手段５０１から与えられた集約ゲインΓを時間平滑化して、平滑化ゲインΦ（大文字のファイ）を得るものである。

帯域分配手段５０３は、時間平滑化手段５０２から与えられた平滑化ゲインΦを第１の帯域へと分配し、得られた無歪ゲインＦを後段の処理に与えるものである。

（Ｂ−２）第２の実施形態の動作
次に、以上のような構成を有する第２の実施形態の音声処理装置６００の動作を、図９を用いて説明する。なお、第２の実施形態の音声処理装置６００では、第１の実施形態と異なる部分はゲイン修正手段６０４だけであるため、以下では、ゲイン修正手段６０４を中心とした動作についてのみ説明し、他の部分の動作については説明省略する。

ゲイン修正手段６０４は、周波数解析手段３０１から与えられた入力スペクトルＸと、雑音推定手段３０２から与えられた雑音スペクトルＮと、ゲイン算出手段３０３から与えられた原ゲインＧとに基づいて、修正ゲインＨを算出し、得られた修正ゲインＨを乗算手段３０５に与える。

次に、上述した構成を有する第２の実施形態のゲイン修正手段６０４の動作について、図１０を用いて説明する。なお、なお、第２の実施形態のゲイン修正手段６０４では、第１の実施形態と異なる部分はゲイン平滑化手段４０４だけであるため、以下では、ゲイン平滑化手段４０４を中心とした動作についてのみ説明し、他の部分の動作については説明省略する。

ゲイン平滑化手段４０４は、与えられた原ゲインＧを周波数方向と時間方向に平滑化した値を無歪ゲインとして算出する。ゲイン平滑化手段４０４が行う平滑化の方法は任意であり、例えば画像処理で用いられるような２次元の移動平均法や２次元ガウシアンフィルタなどを適用できるが、特に図１１で示される構成を適用することが望ましい。

次に、ゲイン平滑化手段４０４の詳細動作を、図１１を参照しながら説明する。

帯域集約手段５０１は、与えられた原ゲインＧの帯域を第３の帯域へと集約し、得られた集約ゲインΓ（大文字のガンマ）を時間平滑化手段５０２に与える。第２の帯域は、入力信号の帯域を、第１の帯域数Ｋ個より少ない第３の帯域数Ｊ個に分割した帯域である。第３の帯域の定め方は任意であるが、第１の実施形態における第２の帯域と同様とするのが好適である。

帯域集約手段５０１は、（１０）式のように、集約ゲインΓのｊ番目の値を、原ゲインＧのｋ_{（ｊ−１）}〜ｋ_（ｊ）−１の平均値とする。

なお、以上では、第３の帯域に集約する方法として、第１の帯域の所定の範囲の平均値を取るとしたが、最大値、最小値、中央値、重み付き平均値のいずれかを取るようにしても良い。

時間平滑化手段５０２は、帯域集約手段５０１から与えられた集約ゲインΓを時間平滑化して、得られた平滑化ゲインΦ（大文字のファイ）を帯域分配手段５０３に与える。平滑化ゲインΦは、集約ゲインΓと同様に、第３の帯域それぞれに個別の値を有し、これをΦ_ｊと示す。時間平滑化手段５０２による時間平滑化の方法は限定されるものではなく、任意の方法を適用することができる。時間平滑化手段５０２に適用される時間平滑化の代表的な方法には、例えば、移動平均法と時定数フィルタがある。ここでは、例として、時間平滑化手段５０２に時定数フィルタを用いるものとして説明する。例えば、第３の帯域ｊにおける前回の平滑化音声存在確率をΦ’_ｊと示すことにすると、Φ_ｊは、Γ_ｊ、Φ’_ｊ及び時定数βに基づいて、（１１）式によって算出することができる。（１１）式において、時定数βは、例えば０．９９とするようにしてもよい。

帯域分配手段５０３は、時間平滑化手段５０２から与えられた平滑化ゲインΦを第１の帯域へと分配し、得られた無歪ゲインＦを後段の処理に与える。帯域分配手段５０３が行う分配の方法としては、例えば、任意の補間法（いわゆる「内挿法」）が好適に用いられる。すなわち、帯域分配手段５０３は、第３の帯域に従って周波数軸上に疎に定義されている平滑化ゲインΦを、任意の補間法によってより密な第１の帯域へと値を補間し、得られた第１の帯域に従って周波数軸上に密に定義された値を無歪ゲインＦとする。また、帯域分配手段５０３で適用される補間法としては、例えば、多項式補間、キュービック補間、スプライン補間などが挙げられるが、特に線形補間が好適に用いられる。

第２の実施形態における帯域分配手段５０３は、例えば、（１２）式によって、平滑化ゲインΦを第１の帯域へと分配し、無歪ゲインＦを算出する。ここで、（１２）式のＷ_ｋ，ｊは、第１の実施形態における帯域分配手段２０３と同様に、（８）式で求めることができる。

（Ｂ−３）第２の実施形態の効果
第２の実施形態によれば、第１の実施形態の効果に加えて以下のような効果を奏することができる。

第２の実施形態のゲイン修正手段６０４では、無歪ゲインを原ゲインに基づいて算出する。これにより、ゲイン修正手段６０４では、入力信号の特性によって変化する原ゲインに対して適応した無歪ゲインを適用することができ、原ゲインが優勢な帯域及び時刻と無歪ゲインが優勢な帯域及び時刻との差異が適応的に調整される。これにより、第２の実施形態の音声処理装置６００では、音声強調性能を維持しながら、入力信号の特性に適応してより歪みを低減させることができる。

（Ｃ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｃ−１）上記の各実施形態では、強調する目的音を音声としているが、音声以外の音（例えば、機械音や操作音等の音）を目的音（強調対象となる音響信号）としても良い。

３００…音声処理装置、３０１…周波数解析手段、３０２…雑音推定手段、３０３…ゲイン算出手段、３０４…ゲイン修正手段、３０５…乗算手段、３０６…波形復元手段、３０４…ゲイン修正手段、１０１…音声存在確率算出手段、１０２…結合係数算出手段、１０３…ゲイン結合手段、２０１…帯域集約手段、２０２…時間平滑化手段、２０３…帯域分配手段。

Claims

入力音響信号に基づく入力スペクトルと、所定の雑音推定方法から得られる雑音スペクトルとに基づいて、第１の帯域ごとの目的音存在確率を算出する目的音存在確率算出手段と、
前記目的音存在確率に基づいて、前記第１の帯域ごとの結合係数を算出する結合係数算出手段と、
所定のゲイン算出方法から得られる第１のゲインと、前記第１のゲインを周波数方向と時間方向に平滑化した第２のゲインとを、前記結合係数に基づいて凸結合したゲインを生成するゲイン結合手段とを有し、
前記結合係数算出手段は、
前記目的音存在確率を、前記第１の帯域より帯域数の少ない第２の帯域に集約して集約目的音存在確率を取得する帯域集約手段と、
前記集約目的音存在確率を時間方向に平滑化して平滑化目的音存在確率を取得する時間平滑化手段と、
前記平滑化目的音存在確率を、前記第１の帯域へと分配する帯域分配手段とを有する
ことを特徴とするゲイン処理装置。
前記帯域集約手段は、前記第２の帯域へと集約される所定の複数の前記第１の帯域の中から、前記目的音存在確率の要素の最大値を選択して前記第２の帯域の前記集約目的音存在確率の要素の値とすることを特徴とする請求項１に記載のゲイン処理装置。
前記ゲイン結合手段は、
前記第１のゲインを、前記第１の帯域より帯域数の少ない第３の帯域に集約して集約ゲインを取得するゲイン帯域集約手段と、
前記集約ゲインを時間方向に平滑化して平滑化ゲインを取得するゲイン時間平滑化手段と、
前記平滑化ゲインを、前記第１の帯域へと分配するゲイン帯域分配手段と
を有することを特徴とする、請求項１に記載のゲイン処理装置。
入力音響信号を周波数変換して入力スペクトルを取得する周波数解析手段と、
前記入力スペクトルに含まれる雑音スペクトルを推定して取得する雑音推定手段と、
前記入力スペクトルと、前記雑音スペクトルとに基づいて、第１のゲインを算出する、ゲイン算出手段と、
前記入力スペクトルと、前記雑音スペクトルと、前記第１のゲインと、前記第１のゲインを周波数方向と時間方向に平滑化した第２のゲインとに基づいて、前記第１のゲインを修正した第３のゲインを算出するゲイン修正手段と、
前記入力スペクトルに、前記第３のゲインを乗じて出力スペクトルを取得する乗算手段と、
前記出力スペクトルに基づく信号を出力する出力手段とを有し、
前記ゲイン修正手段として、請求項１〜３のいずれかに記載のゲイン処理装置を適用したこと
を特徴とする音響信号処理装置。
コンピュータを、
入力音響信号に基づく入力スペクトルと、所定の雑音推定方法から得られる雑音スペクトルとに基づいて、第１の帯域ごとの目的音存在確率を算出する目的音存在確率算出手段と、
前記目的音存在確率に基づいて、前記第１の帯域ごとの結合係数を算出する結合係数算出手段と、
所定のゲイン算出方法から得られる第１のゲインと、前記第１のゲインを周波数方向と時間方向に平滑化した第２のゲインとを、前記結合係数に基づいて凸結合したゲインを生成するゲイン結合手段として機能させ、
前記結合係数算出手段は、
前記目的音存在確率を、前記第１の帯域より帯域数の少ない第２の帯域に集約して集約目的音存在確率を取得する帯域集約手段と、
前記集約目的音存在確率を時間方向に平滑化して平滑化目的音存在確率を取得する時間平滑化手段と、
前記平滑化目的音存在確率を、前記第１の帯域へと分配する帯域分配手段とを有する
ことを特徴とするゲイン処理プログラム。
コンピュータを、
入力音響信号を周波数変換して入力スペクトルを取得する周波数解析手段と、
前記入力スペクトルに含まれる雑音スペクトルを推定して取得する雑音推定手段と、
前記入力スペクトルと、前記雑音スペクトルとに基づいて、第１のゲインを算出する、ゲイン算出手段と、
前記入力スペクトルと、前記雑音スペクトルと、前記第１のゲインと、前記第１のゲインを周波数方向と時間方向に平滑化した第２のゲインとに基づいて、前記第１のゲインを修正した第３のゲインを算出するゲイン修正手段と、
前記入力スペクトルに、前記第３のゲインを乗じる乗算手段と、
前記乗算手段によって得られる出力スペクトルから波形を復元する波形復元手段として機能させ、
前記ゲイン修正手段として、請求項１〜３のいずれかに記載のゲイン処理装置を適用したこと
を特徴とする音響信号処理プログラム。