JP6707914B2 - ゲイン処理装置及びプログラム、並びに、音響信号処理装置及びプログラム - Google Patents

ゲイン処理装置及びプログラム、並びに、音響信号処理装置及びプログラム Download PDF

Info

Publication number
JP6707914B2
JP6707914B2 JP2016044475A JP2016044475A JP6707914B2 JP 6707914 B2 JP6707914 B2 JP 6707914B2 JP 2016044475 A JP2016044475 A JP 2016044475A JP 2016044475 A JP2016044475 A JP 2016044475A JP 6707914 B2 JP6707914 B2 JP 6707914B2
Authority
JP
Japan
Prior art keywords
gain
band
existence probability
spectrum
target sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016044475A
Other languages
English (en)
Other versions
JP2017161635A (ja
Inventor
大 藤枝
大 藤枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2016044475A priority Critical patent/JP6707914B2/ja
Publication of JP2017161635A publication Critical patent/JP2017161635A/ja
Application granted granted Critical
Publication of JP6707914B2 publication Critical patent/JP6707914B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、ゲイン処理装置及びプログラム、並びに、音響信号処理装置及びプログラムに関し、例えば、入力音響信号に含まれる雑音成分を抑圧して音声成分を強調することを必要とする通信端末、オーディオ機器、音声認識装置などに適用し得る。
自然環境において雑音はいたる所に存在するため、一般に実世界で収録された音声には種々の発信元からの雑音が含まれる。それらの雑音は、人が聴くにしても音声の了解性を低下させ、また、音声認識装置等の音声処理装置に入力するにしても音声処理の精度(例えば音声認識率)を低下させる。そのため、入力信号に混入した雑音成分を抑圧して音声成分を強調する技術の需要は高く、これまでに様々な音声強調方法(雑音抑圧方法と呼ばれることもある)が開発されてきた。
従来の音声強調の標準的な方法として、非特許文献1、2に記載されている技術を挙げることができる。非特許文献1の記載技術は、入力信号の振幅スペクトルから、別途推定した雑音成分の振幅スペクトルを減じる方法であり、スペクトルサブトラクション(Spectral Subtraction:SS)法と呼ばれる。また、非特許文献2の記載技術は、音声成分が強調されるように選定されたゲインを入力信号の周波数スペクトル(以下、単に入力スペクトルと呼ぶ)に乗算する方法で、MMSE−STSA(Minimum Mean−Square Error Short−Time Spectral Amplitude)法と呼ばれる。
非特許文献1、2に記載された方法は、いずれも、事前に雑音成分の振幅スペクトル又はパワースペクトル(以下、単に「雑音スペクトル」と呼ぶ)を推定しておく必要がある。推定された雑音スペクトルは、必然的に推定誤差を含む。この推定誤差は、SS法又はMMSE−STSA法等により音声成分が強調された信号に、歪みを生じさせる。特に、SS法は、ミュージカルノイズと呼ばれる耳障りな歪みを生じることが知られている。
このような背景から、従来、ミュージカルノイズの軽減を目的とした、特許文献1の記載技術がある。
特許文献1に記載の雑音抑圧装置は、音響信号(スペクトル)の強度の度数分布における尖度が、雑音抑圧処理の前後で変化した度合いを示す尖度指標値を算出する尖度指標値算出部と、SS法を用いる第1の雑音抑圧部と、MMSE−STSA法を用いる第2の雑音抑圧部とを具備している。尖度指標値は第1の雑音抑圧部と第2の雑音抑圧部との両方に対して算出される。そして、尖度指標値が雑音成分の抑圧後に生じるミュージカルノイズの量と正の相関を有することを利用して、尖度指標値をより小さくできる方の雑音抑圧部を選択する。以上のように、特許文献1の記載技術は、尖度指標値に応じて2つの雑音抑圧部を切り替えることで、ミュージカルノイズの発生を軽減しようとしている。
特開2010−160246号公報
S. F. Boll,"Suppression of acoustic noise in using spectral subtraction," IEEE Transactions on Acoustics, Speech and Signal Processing, vol. ASSP−27, no.2, pp.113−120, April 1979. Y. Ephraim and D. Malah,"Speech enhancement using a minimum mean−square error short−time spectral amplitude estimator," IEEE Transactions on Acoustics,Speech and Signal Processing, vol.ASSP−32, no.6, pp.1103−1121,December 1984.
しかしながら、特許文献1の記載技術では、全ての周波数帯域で同時にSS法とMMSE−STSA法とを切り替えるため、切り替わった瞬間に出力音声の特性が急に変化し、不自然な音響信号として受聴者に知覚されるという問題が生じ得る。
そのため、入力音響信号に含まれる雑音を抑圧して目的音成分を強調する際に不自然な変化や歪みを抑制するゲイン処理装置及びプログラム、並びに、音響信号処理装置及びプログラムが望まれている。
第1の本発明のゲイン処理装置は、(1)入力音響信号に基づく入力スペクトルと、所定の雑音推定方法から得られる雑音スペクトルとに基づいて、第1の帯域ごとの目的音存在確率を算出する目的音存在確率算出手段と、(2)前記目的音存在確率に基づいて、前記第1の帯域ごとの結合係数を算出する結合係数算出手段と、(3)所定のゲイン算出方法から得られる第1のゲインと、前記第1のゲインを周波数方向と時間方向に平滑化した第2のゲインとを、前記結合係数に基づいて凸結合したゲインを生成するゲイン結合手段とを有し、(4)前記結合係数算出手段は、(4−1)前記目的音存在確率を、前記第1の帯域より帯域数の少ない第2の帯域に集約して集約目的音存在確率を取得する帯域集約手段と、(4−2)前記集約目的音存在確率を時間方向に平滑化して平滑化目的音存在確率を取得する時間平滑化手段と、(4−3)前記平滑化目的音存在確率を、前記第1の帯域へと分配する帯域分配手段とを有することを特徴とする。
第2の本発明の音響信号処理装置は、(1)入力音響信号を周波数変換して入力スペクトルを取得する周波数解析手段と、(2)前記入力スペクトルに含まれる雑音スペクトルを推定して取得する雑音推定手段と、(3)前記入力スペクトルと、前記雑音スペクトルとに基づいて、第1のゲインを算出する、ゲイン算出手段と、(4)前記入力スペクトルと、前記雑音スペクトルと、前記第1のゲインと、前記第1のゲインを周波数方向と時間方向に平滑化した第2のゲインとに基づいて、前記第1のゲインを修正した第3のゲインを算出するゲイン修正手段と、(5)前記入力スペクトルに、前記第3のゲインを乗じて出力スペクトルを取得する乗算手段と、(6)前記出力スペクトルに基づく信号を出力する出力手段とを有し、前記ゲイン修正手段として第1の本発明の、ゲイン処理装置を適用したことを特徴とする。
第3の本発明のゲイン処理プログラムは、コンピュータを、(1)入力音響信号に基づく入力スペクトルと、所定の雑音推定方法から得られる雑音スペクトルとに基づいて、第1の帯域ごとの目的音存在確率を算出する目的音存在確率算出手段と、(2)前記目的音存在確率に基づいて、前記第1の帯域ごとの結合係数を算出する結合係数算出手段と、(3)所定のゲイン算出方法から得られる第1のゲインと、前記第1のゲインを周波数方向と時間方向に平滑化した第2のゲインとを、前記結合係数に基づいて凸結合したゲインを生成するゲイン結合手段と、(4)前記結合係数算出手段は、(4−1)前記目的音存在確率を、前記第1の帯域より帯域数の少ない第2の帯域に集約して集約目的音存在確率を取得する帯域集約手段と、(4−2)前記集約目的音存在確率を時間方向に平滑化して平滑化目的音存在確率を取得する時間平滑化手段と、(4−3)前記平滑化目的音存在確率を、前記第1の帯域へと分配する帯域分配手段とを有することを特徴とする。
第4の本発明の音響信号処理プログラムは、コンピュータを、(1)入力音響信号を周波数変換して入力スペクトルを取得する周波数解析手段と、(2)前記入力スペクトルに含まれる雑音スペクトルを推定して取得する雑音推定手段と、(3)前記入力スペクトルと、前記雑音スペクトルとに基づいて、第1のゲインを算出する、ゲイン算出手段と、(4)前記入力スペクトルと、前記雑音スペクトルと、前記第1のゲインと、前記第1のゲインを周波数方向と時間方向に平滑化した第2のゲインとに基づいて、前記第1のゲインを修正した第3のゲインを算出するゲイン修正手段と、(5)前記入力スペクトルに、前記第3のゲインを乗じる乗算手段と、(6)前記乗算手段によって得られる出力スペクトルから波形を復元する波形復元手段として機能させ、(7)前記ゲイン修正手段として、第1の本発明のゲイン処理装置を適用したことを特徴とする。
本発明によれば、入力音響信号に含まれる雑音を抑圧して目的音成分を強調する際に不自然な変化や歪みを抑制することができる。
第1の実施形態に係るゲイン処理手段の機能的構成について示したブロック図である。 第1の実施形態に係る音声処理装置の機能的構成について示したブロック図である。 第1の実施形態に係る結合係数算出手段の機能的構成について示した説明図である。 第1の実施形態に係る音声処理装置(ゲイン修正手段)で、処理される第1の帯域と第2の帯域との関係について示したグラフである。 第1の実施形態に係る音声処理装置(ゲイン修正手段)で、サンプルデータに基づいて算出された音声存在確率Lの例について示したグラフである。 第1の実施形態に係る音声処理装置(ゲイン修正手段)で、サンプルデータに基づいて算出された集約音声存在確率Pの例について示したグラフである。 第1の実施形態に係る音声処理装置(ゲイン修正手段)で、サンプルデータに基づいて算出された平滑化音声存在確率Mの例について示したグラフである。 第1の実施形態に係る音声処理装置(ゲイン修正手段)で、サンプルデータに基づいて算出された結合係数Cの例について示したグラフである。 第2の実施形態に係る音声処理装置の機能的構成について示したブロック図である。 第2の実施形態に係るゲイン処理手段の機能的構成について示したブロック図である。 第2の実施形態に係るゲイン平滑化手段の機能的構成について示したブロック図である。
(A)第1の実施形態
以下、本発明によるゲイン処理装置及びプログラム、並びに、音響信号処理装置及びプログラムの第1の実施形態を、図面を参照しながら詳述する。以下では、本発明の音響信号処理装置及びゲイン処理装置を、音声処理装置及びゲイン修正手段に適用した例について説明する。
(A−1)第1の実施形態の構成
図2は、この実施形態に係る音声処理装置300の全体構成について示したブロック図である。
音声処理装置300は、例えば、会議端末、携帯電話端末(スマートホン)、IP電話端末等の電話端末のマイクロホンで捕捉した音響信号に対して目的音(例えば、近端話者の音声)を強調(雑音成分を抑制)する処理等に好適に用いられる。
音声処理装置300は、音声を含む音声信号(時間領域の音声信号)である入力信号x(時間領域の入力信号)について音声強調を行って、出力信号y(時間領域の出力信号)を生成するものである。
図2に示すように、第1の実施形態の音声処理装置300は、周波数解析手段301、雑音推定手段302、ゲイン算出手段303、ゲイン修正手段304、乗算手段305、及び波形復元手段306を有している。
音声処理装置300は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態に係る音響信号処理プログラムを含む)をインストールすることにより実現するようにしてもよい。また、ゲイン修正手段304についても、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態に係るゲイン処理プログラム)をインストールすることにより実現するようにしてもよい。
周波数解析手段301は、入力信号x(時間領域の信号)を周波数変換して入力スペクトルX(周波数領域の信号)を算出するものである。
雑音推定手段302は、入力スペクトルXに基づいて雑音成分を推定し、推定した雑音成分である雑音スペクトルNを算出するものである。
ゲイン算出手段303は、入力スペクトルXと雑音スペクトルNとに基づいて、雑音推定手段302が推定した雑音成分を抑圧する原ゲインGを算出するものである。
ゲイン修正手段304は、入力スペクトルXと雑音スペクトルNと原ゲインGと所定の定数に基づく無歪ゲインFとに基づいて、原ゲインGを修正した修正ゲインHを算出するものである。
乗算手段305は、入力スペクトルXに修正ゲインHを乗じて出力スペクトルYを算出する。
波形復元手段306は、出力スペクトルY(周波数領域の信号)から波形を復元し、得られた復元波形を出力信号y(時間領域の信号)として出力するものである。波形復元手段306が出力信号yを出力する方式や信号の形式については限定されないものであり、例えば、音声データ(例えば、PCM形式のデータ)として所定のデータ記録媒体に出力するようにしてもよいし、パケット形式に変換して通信により他の通信装置に向けて送出するようにしてもよい。また、音声処理装置300では、時間領域の出力信号yではなく、周波数領域の出力スペクトルYのまま出力するようにしてもよい。
次に、ゲイン修正手段304内部の機能的構成について図1を用いて説明する。
図1に示すように、第1の実施形態のゲイン修正手段304は、音声存在確率算出手段101、結合係数算出手段102、及びゲイン結合手段103を有している。
音声存在確率算出手段101は、入力スペクトルXと雑音スペクトルNとに基づいて音声存在確率L(詳細については後述)を算出するものである。
結合係数算出手段102は、音声存在確率Lに基づいて結合係数C(詳細については後述)を算出するものである。
ゲイン結合手段103は、原ゲインGと無歪ゲインFと音声存在確率Lに基づいて修正ゲインHを算出するものである。修正ゲインHの詳細については後述する。
次に、結合係数算出手段102の内部構成について図3を用いて説明する。
結合係数算出手段102は、帯域集約手段201、時間平滑化手段202、及び帯域分配手段203を有している。
帯域集約手段201は、音声存在確率Lの帯域を第2の帯域(詳細については後述)へと集約し、得られた集約音声存在確率P(詳細については後述)を時間平滑化手段202に供給するものである。
時間平滑化手段202は、帯域集約手段201から与えられた集約音声存在確率Pを時間平滑化して、得られた平滑化音声存在確率M(詳細については後述)を帯域分配手段203に与えるものである。
帯域分配手段203は、時間平滑化手段202から与えられた平滑化音声存在確率Mを第1の帯域(詳細については後述)へと分配し、得られた結合係数Cを後段の処理に与えるものである。
(A−2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態の音声処理装置300(ゲイン修正手段304)の動作を説明する。
まず、音声処理装置300が、入力信号x(時間領域の入力信号)について音声強調を行って、出力信号y(時間領域の出力信号)を生成する処理の概要について図2を用いて説明する。
周波数解析手段301は、例えば、フーリエ変換に代表される任意の周波数解析手法、またはフィルタバンクに代表される任意の帯域分割手法によって、入力信号x(入力音声)をK個の第1の帯域に分割する。以下では、k番目の第1の帯域に分割された信号を「X」と表し、K個の帯域すべてをまとめた入力スペクトルを「X」と表す。そして、周波数解析手段301は、得られた入力スペクトルXを雑音推定手段302、ゲイン算出手段303、ゲイン修正手段304、及び乗算手段305に与える。
雑音推定手段302は、周波数解析手段301から与えられた入力スペクトルXに基づいて、所定の雑音推定方法によって入力スペクトルXに含まれる雑音成分を推定して雑音スペクトルNを算出し、得られた雑音スペクトルNをゲイン算出手段303及びゲイン修正手段304に与える。
雑音推定手段302で用いられる雑音推定方法には、任意の雑音推定方法を適用することができ、例えば、参考文献1(R. Martin, “Spectral Subtraction Based on Minimum Statistics,” in Proceedings of 7th European Signal Processing Conference, pp. 1182−1185, 1994)に記載の技術や、参考文献2(特開2015−152627)に記載の技術等を適用することができる。
ゲイン算出手段303は、周波数解析手段301から与えられた入力スペクトルXと、雑音推定手段302から与えられた雑音スペクトルNとに基づいて、所定の音声強調方法によって入力スペクトルX中に含まれる雑音成分を抑圧して音声成分を強調する音声強調ゲインを算出し、得られた音声強調ゲインを原ゲインGとしてゲイン修正手段304に与える。所定の音声強調方法(雑音抑圧方法)には、任意の音声強調方法(雑音抑圧方法)を適用することができ、例えば、非特許文献1に記載の技術や、非特許文献2に記載の技術等を適用することができる。
ゲイン修正手段304は、周波数解析手段301から与えられた入力スペクトルXと、雑音推定手段302から与えられた雑音スペクトルNと、ゲイン算出手段303から与えられた原ゲインGと、所定の定数値で与えられる無歪ゲインFとに基づいて、修正ゲインHを算出し、得られた修正ゲインHを乗算手段305に与える。
乗算手段305は、周波数解析手段301から与えられた入力スペクトルXに、ゲイン修正手段304から与えられた修正ゲインHを乗じて出力スペクトルYを算出し、得られた出力スペクトルYを波形復元手段306に与える。
波形復元手段306は、周波数解析手段301で用いた周波数解析手法または帯域分割手法に対応する波形復元手法を用いて、乗算手段305から与えられた出力スペクトルYに基づいて時間波形を再構成し、得られた出力信号yを出力する。
次に、ゲイン修正手段304の動作について、図1を用いて説明する。
音声存在確率算出手段101は、入力スペクトルXと雑音スペクトルNとに基づいて音声存在確率Lを算出し、得られた音声存在確率Lを結合係数算出手段102に与える。
入力スペクトルXと雑音スペクトルNは、第1の帯域数K個に帯域分割された帯域信号である。以下では、k番目の第1の帯域の要素を、X,N(但し、k=0,1,…K−1)と表す。また、以下では、音声存在確率Lは、第1の帯域それぞれに個別の値を有し、これを同様にLと表す。Lは、XとNを変数とする所定の関数の出力として与えられる。上述の所定の関数は、Xに関して広義単調増加であり、Nに関して広義単調減少であり、例えば、値域としては0.0〜1.0の実数値とすることができる。XがNより十分大きければ、Lは1.0となり、確率1.0で音声が存在することを示す。一方、XがNより十分小さければ、Lは0.0となり、確率0.0で音声が存在する(すなわち音声が存在しない)ことを示す。Lを求めるための所定の関数として、例えば、(1)式が好適に用いられる。
Figure 0006707914
結合係数算出手段102は、音声存在確率算出手段101から与えられた音声存在確率Lに基づいて結合係数Cを算出し、得られた結合係数Cをゲイン結合手段103に与える。
結合係数Cは、音声存在確率Lと同様に、第1の帯域それぞれに個別の値を有する。以下では、k番目の第1の帯域の結合係数CをCと示す。Cは例えば、0.0〜1.0の実数値で与えられ、大きいほど音声らしさが高いことを意味する。結合係数算出手段102は、音声存在確率Lを周波数方向と時間方向に平滑化した値を結合係数Cとして算出する。結合係数算出手段102で適用される平滑化の方法は任意であり、例えば画像処理で用いられるような2次元の移動平均法や2次元ガウシアンフィルタなどを適用できるが、特に図3で示される構成によって平滑化する方式が好ましい。結合係数算出手段102の詳細動作(すなわち結合係数Cの算出方法)については後述する。
ゲイン結合手段103は、所定のゲイン算出方法(例えば、従来の任意の音声強調方法)によって算出された原ゲインGと、所定の定数値で与えられる無歪ゲインFと、結合係数算出手段102より与えられた結合係数Cとに基づいて、修正ゲインHを算出し、得られた修正ゲインHを出力する。
原ゲインG、無歪ゲインF及び修正ゲインHは、結合係数Cと同様に、第1の帯域それぞれに個別の値を有し、これをそれぞれG,F及びHと示す。Hは、例えば、(2)式のように、GとFとを、Cに基づいて凸結合することで算出することができる。
Figure 0006707914
無歪ゲインの要素Fは、すべての第1の帯域k=0,1,…K−1で同じ値としても良いが、帯域ごとに異なる値とする方がより好適である。但し、隣り合う帯域同士でFが大きく異なると、出力信号に特有の歪み(人工的な定常音や、音楽的な調性を持った定常音)が生じてしまうため、例えば(3)式のように、隣り合う帯域との比が0.90〜1.11に収まるように決めるのが好適である。
Figure 0006707914
もし無歪ゲインFをすべての第1の帯域に適用した場合、出力信号はまったく歪まないが、その理由を説明する。第1の実施形態に示すように、無歪ゲインFは、時間方向にはまったく変化せず、周波数方向には(3)式の範囲内でのみ変化する。従って、無歪ゲインFは、時間方向と周波数方向の変化が小さい。このように変化の小さいゲインは、局所的(例えば、時間幅にして数十ミリ秒、周波数幅にして100Hz前後)に見ればほとんど変化していない。変化していないゲインを適用することは、音量を変化させることと同じである。従って、無歪ゲインFをすべての第1の帯域に適用しても、入力信号の音量を変化させるだけなので、出力信号に歪みをまったく生じさせない。
しかし、時間方向と周波数方向の変化が滑らかな無歪ゲインFをすべての第1の帯域に適用してしまうと、入力信号に含まれる音声成分を強調できない。それどころか、音声成分ごと抑圧してしまう。従って、音声成分がある帯域では、原ゲインGを用いることで、音声成分を強調する必要がある。
それぞれの帯域kにおいて、結合係数Cが1.0に近いほど、入力スペクトルの要素Xは音声が優勢であることを示す。そして、結合係数Cは、周波数方向と時間方向とに平滑化されているので、周波数方向と時間方向とに滑らかに変化する。そこで、ゲイン結合手段103は、C=1.0ではH=Gとなるようにする。一方、C=0.0ではH=Fとなるようにする。そして、0.0<C<1.0の場合、GとFとを適切な割合で混合する。以上のようにすることで、修正ゲインHが帯域ごとに滑らかに変化するので、出力信号に歪みを生じさせないゲインを得ることができる。
次に、結合係数算出手段102の詳細動作を、図3を用いて説明する。
帯域集約手段201は、与えられた音声存在確率Lの帯域を第2の帯域へと集約し、得られた集約音声存在確率Pを時間平滑化手段202に与える。第2の帯域は、入力信号の帯域を、第1の帯域数K個より少ない第2の帯域数J個に分割した帯域である。第2の帯域の定め方は任意であり、例えば、J個のすべての帯域幅を同じ400Hzとしても良いが、臨界帯域幅に従うのが好適である。
臨界帯域幅とは、人間の聴覚において、ある純音に対する聴覚マスキングが有効な帯域幅のことである。臨界帯域幅は、純音の周波数に対して非線形で、500Hz以下の純音に対しては常に100Hzであり、500Hzより上の周波数では純音の周波数に対して1/3〜1/4オクターブの割合で増加していく特性を持つ。臨界帯域幅(単位はBark)の近似式がいくつか提案されているが、例えば(4)式が用いられる。(4)式において、f(Hz)であり、またb(Bark)である。
Figure 0006707914
以下では、第2の帯域j(j=1,2,…,J)に集約される第1の帯域を、k(j−1)(j)−1とする。また、以下では、第1の帯域kの中心周波数をfとし、第2の帯域jの中心周波数をφ(ファイ_ジェー)としたとき、k(j)は、(5)式を満たす最小の第1の帯域kと定義する。このように定義される第1の帯域と第2の帯域との関係を図4に示す。そして、帯域集約手段201は、(6)式により、集約音声存在確率Pのj番目の値であるPを、音声存在確率Lのk(j−1)〜k(j) −1の最大値とする。このように、最大値を選択することで、ある第1の帯域に高い確率で音声成分が存在するという情報が、後段の帯域分配手段203まで保存されるので、原ゲインGの音声を強調する性質を修正ゲインHに反映させることができる。
(6)式によって音声存在確率Lが集約される様子を、図5及び図6に示す。
図5は、サンプルデータに基づく音声存在確率Lである。図5では、第1の帯域の各値L間を実線で結んでいる。図5では、音声存在確率の値Lが密に並んだ状態となっている。
図6は、サンプルデータに基づく図5の音声存在確率Lから得られた集約音声存在確率Pである。図6では、第2の帯域の各値Pを黒丸で描き、各値P間を点線で結んでいる。図6では、集約音声存在確率の値Pが疎に並んだ状態となっている。
Figure 0006707914
なお、以上では、第2の帯域に集約される第1の帯域の範囲は、隣り合う第2の帯域で重ならないように記載したが、重なるようにしても良い。また、以上では、第2の帯域に集約する方法として、第1の帯域の所定の範囲の最大値を取るとしたが、平均値を取るようにしても良いし、重み付き平均値を取るようにしても良い。
時間平滑化手段202は、帯域集約手段201から与えられた集約音声存在確率Pを時間平滑化して、得られた平滑化音声存在確率Mを帯域分配手段203に与える。平滑化音声存在確率Mは、集約音声存在確率Pと同様に、第2の帯域それぞれに個別の値を有し、これをMと示す。時間平滑化手段202による時間平滑化の方法は限定されるものではなく、任意の方法を適用することができる。時間平滑化の代表的な方法には、移動平均法と時定数フィルタ(リーク積分とも呼ばれる)があるが、ここでは、例として時定数フィルタを使うこととする。以下では、第2の帯域jにおける前回の平滑化音声存在確率をM’と示すものとする。そうすると、Mは、P、M’、及び時定数α(アルファ)に基づいて、(7)式によって算出することができる。
(7)式によって集約音声存在確率Pが時間平滑化される様子を、図7に示す。
図7はサンプルデータに基づく図6の集約音声存在確率Pから得られた平滑化音声存在確率Mの例である、図7では、第2の帯域の各値Mを黒丸で描き、各値M間を点線で結び、平滑化音声存在確率の値Mが疎に並んでいる。なお、ここでは、時定数αは、例えば0.6とする。
Figure 0006707914
帯域分配手段203は、時間平滑化手段202から与えられた平滑化音声存在確率Mを第1の帯域へと分配し、得られた結合係数Cを後段の処理に与える。帯域分配手段203で用いる分配の方法としては、例えば、任意の補間法(いわゆる「内挿法」)が好適に用いられる。すなわち、第2の帯域に従って周波数軸上に疎に定義されている平滑化音声存在確率Mを、任意の補間法によってより密な第1の帯域へと値を補間し、得られた第1の帯域に従って周波数軸上に密に定義された値を結合係数Cとする。また、帯域分配手段203で用いる補間法としては、例えば、多項式補間、キュービック補間、スプライン補間などを用いることができるが、特に線形補間が好適に用いられる。
第1の実施形態における帯域分配手段203は、(8)式及び(9)式によって、平滑化音声存在確率Mを第1の帯域へと分配し、結合係数Cを算出する。
図8はサンプルデータに基づく図7の平滑化音声存在確率Mから得られた結合係数Cの例である、図8では、第1の帯域の各値C間を実線で結んでいる。
Figure 0006707914
(A−3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
ゲイン修正手段304では、従来の音声強調方法によって算出された、音声成分を強調できるが歪みを生じてしまう原ゲインと、所定の定数値で与えられた、歪みを生じないが音声成分を強調できない無歪ゲインとを、音声存在確率に従って周波数方向と時間方向とに滑らかに変化する結合係数に基づいて凸結合することによって修正ゲインを得る。そして、音声処理装置300では、ゲイン修正手段304によって得られた修正ゲインを用いて音声強調を行うので、従来の音声強調方法と同等の音声強調性能を維持しながら歪みを生じない音声強調方法を提供できる。言い換えると、音声処理装置300(音声処理装置300)では、SS法やMMSE−STSA法をはじめとした従来の目的音強調方法と同等の目的音強調効果を維持しながら、目的音区間では歪みを軽減し、さらに雑音区間では歪みを生じずに(特性を不自然に変化させずに)、雑音成分を抑圧して音声成分を強調することができる。
(B)第2の実施形態
以下、本発明によるゲイン処理装置及びプログラム、並びに、音響信号処理装置及びプログラムの第2の実施形態を、図面を参照しながら詳述する。
(B−1)第2の実施形態の構成
図9は、第2の実施形態の音声処理装置600の構成を示すブロック図である。図9では、上述の図2と同一部分又は対応部分には、同一符号又は対応符号を付している。
以下では、第2の実施形態について第1の実施形態との差異を説明する。
第2の実施形態の音声処理装置600では、ゲイン修正手段304がゲイン修正手段604に置き換わっている点で第1の実施形態と異なっている。ゲイン修正手段604は、入力スペクトルXと雑音スペクトルNと原ゲインGとに基づいて修正ゲインHを算出する。
図10は、第2の実施形態のゲイン修正手段604内部の機能的構成について示したブロック図である。図10では、上述の図1と同一部分又は対応部分には、同一符号又は対応符号を付している。
第2の実施形のゲイン修正手段604は、原ゲインGに基づいて無歪ゲインFを算出するゲイン平滑化手段404が追加されている点で第1の実施形態と異なっている。
次に、ゲイン平滑化手段404の詳細構成について図11を用いて説明する。
図11に示すように、ゲイン平滑化手段404は、帯域集約手段501、時間平滑化手段502、及び帯域分配手段503を有している。
帯域集約手段501は、与えられた原ゲインGの帯域を第3の帯域へと集約して、集約ゲインΓ(大文字のガンマ)を得るものである。
時間平滑化手段502は、帯域集約手段501から与えられた集約ゲインΓを時間平滑化して、平滑化ゲインΦ(大文字のファイ)を得るものである。
帯域分配手段503は、時間平滑化手段502から与えられた平滑化ゲインΦを第1の帯域へと分配し、得られた無歪ゲインFを後段の処理に与えるものである。
(B−2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の音声処理装置600の動作を、図9を用いて説明する。なお、第2の実施形態の音声処理装置600では、第1の実施形態と異なる部分はゲイン修正手段604だけであるため、以下では、ゲイン修正手段604を中心とした動作についてのみ説明し、他の部分の動作については説明省略する。
ゲイン修正手段604は、周波数解析手段301から与えられた入力スペクトルXと、雑音推定手段302から与えられた雑音スペクトルNと、ゲイン算出手段303から与えられた原ゲインGとに基づいて、修正ゲインHを算出し、得られた修正ゲインHを乗算手段305に与える。
次に、上述した構成を有する第2の実施形態のゲイン修正手段604の動作について、図10を用いて説明する。なお、なお、第2の実施形態のゲイン修正手段604では、第1の実施形態と異なる部分はゲイン平滑化手段404だけであるため、以下では、ゲイン平滑化手段404を中心とした動作についてのみ説明し、他の部分の動作については説明省略する。
ゲイン平滑化手段404は、与えられた原ゲインGを周波数方向と時間方向に平滑化した値を無歪ゲインとして算出する。ゲイン平滑化手段404が行う平滑化の方法は任意であり、例えば画像処理で用いられるような2次元の移動平均法や2次元ガウシアンフィルタなどを適用できるが、特に図11で示される構成を適用することが望ましい。
次に、ゲイン平滑化手段404の詳細動作を、図11を参照しながら説明する。
帯域集約手段501は、与えられた原ゲインGの帯域を第3の帯域へと集約し、得られた集約ゲインΓ(大文字のガンマ)を時間平滑化手段502に与える。第2の帯域は、入力信号の帯域を、第1の帯域数K個より少ない第3の帯域数J個に分割した帯域である。第3の帯域の定め方は任意であるが、第1の実施形態における第2の帯域と同様とするのが好適である。
帯域集約手段501は、(10)式のように、集約ゲインΓのj番目の値を、原ゲインGのk(j−1)〜k(j)−1の平均値とする。
Figure 0006707914
なお、以上では、第3の帯域に集約する方法として、第1の帯域の所定の範囲の平均値を取るとしたが、最大値、最小値、中央値、重み付き平均値のいずれかを取るようにしても良い。
時間平滑化手段502は、帯域集約手段501から与えられた集約ゲインΓを時間平滑化して、得られた平滑化ゲインΦ(大文字のファイ)を帯域分配手段503に与える。平滑化ゲインΦは、集約ゲインΓと同様に、第3の帯域それぞれに個別の値を有し、これをΦと示す。時間平滑化手段502による時間平滑化の方法は限定されるものではなく、任意の方法を適用することができる。時間平滑化手段502に適用される時間平滑化の代表的な方法には、例えば、移動平均法と時定数フィルタがある。ここでは、例として、時間平滑化手段502に時定数フィルタを用いるものとして説明する。例えば、第3の帯域jにおける前回の平滑化音声存在確率をΦ’と示すことにすると、Φは、Γ、Φ’及び時定数βに基づいて、(11)式によって算出することができる。(11)式において、時定数βは、例えば0.99とするようにしてもよい。
Figure 0006707914
帯域分配手段503は、時間平滑化手段502から与えられた平滑化ゲインΦを第1の帯域へと分配し、得られた無歪ゲインFを後段の処理に与える。帯域分配手段503が行う分配の方法としては、例えば、任意の補間法(いわゆる「内挿法」)が好適に用いられる。すなわち、帯域分配手段503は、第3の帯域に従って周波数軸上に疎に定義されている平滑化ゲインΦを、任意の補間法によってより密な第1の帯域へと値を補間し、得られた第1の帯域に従って周波数軸上に密に定義された値を無歪ゲインFとする。また、帯域分配手段503で適用される補間法としては、例えば、多項式補間、キュービック補間、スプライン補間などが挙げられるが、特に線形補間が好適に用いられる。
第2の実施形態における帯域分配手段503は、例えば、(12)式によって、平滑化ゲインΦを第1の帯域へと分配し、無歪ゲインFを算出する。ここで、(12)式のWk,jは、第1の実施形態における帯域分配手段203と同様に、(8)式で求めることができる。
Figure 0006707914
(B−3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態の効果に加えて以下のような効果を奏することができる。
第2の実施形態のゲイン修正手段604では、無歪ゲインを原ゲインに基づいて算出する。これにより、ゲイン修正手段604では、入力信号の特性によって変化する原ゲインに対して適応した無歪ゲインを適用することができ、原ゲインが優勢な帯域及び時刻と無歪ゲインが優勢な帯域及び時刻との差異が適応的に調整される。これにより、第2の実施形態の音声処理装置600では、音声強調性能を維持しながら、入力信号の特性に適応してより歪みを低減させることができる。
(C)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(C−1)上記の各実施形態では、強調する目的音を音声としているが、音声以外の音(例えば、機械音や操作音等の音)を目的音(強調対象となる音響信号)としても良い。
300…音声処理装置、301…周波数解析手段、302…雑音推定手段、303…ゲイン算出手段、304…ゲイン修正手段、305…乗算手段、306…波形復元手段、304…ゲイン修正手段、101…音声存在確率算出手段、102…結合係数算出手段、103…ゲイン結合手段、201…帯域集約手段、202…時間平滑化手段、203…帯域分配手段。

Claims (6)

  1. 入力音響信号に基づく入力スペクトルと、所定の雑音推定方法から得られる雑音スペクトルとに基づいて、第1の帯域ごとの目的音存在確率を算出する目的音存在確率算出手段と、
    前記目的音存在確率に基づいて、前記第1の帯域ごとの結合係数を算出する結合係数算出手段と、
    所定のゲイン算出方法から得られる第1のゲインと、前記第1のゲインを周波数方向と時間方向に平滑化した第2のゲインとを、前記結合係数に基づいて凸結合したゲインを生成するゲイン結合手段とを有し
    前記結合係数算出手段は、
    前記目的音存在確率を、前記第1の帯域より帯域数の少ない第2の帯域に集約して集約目的音存在確率を取得する帯域集約手段と、
    前記集約目的音存在確率を時間方向に平滑化して平滑化目的音存在確率を取得する時間平滑化手段と、
    前記平滑化目的音存在確率を、前記第1の帯域へと分配する帯域分配手段とを有する
    ことを特徴とするゲイン処理装置。
  2. 前記帯域集約手段は、前記第2の帯域へと集約される所定の複数の前記第1の帯域の中から、前記目的音存在確率の要素の最大値を選択して前記第2の帯域の前記集約目的音存在確率の要素の値とすることを特徴とする請求項に記載のゲイン処理装置。
  3. 前記ゲイン結合手段は、
    前記第1のゲインを、前記第1の帯域より帯域数の少ない第3の帯域に集約して集約ゲインを取得するゲイン帯域集約手段と、
    前記集約ゲインを時間方向に平滑化して平滑化ゲインを取得するゲイン時間平滑化手段と、
    前記平滑化ゲインを、前記第1の帯域へと分配するゲイン帯域分配手段と
    を有することを特徴とする、請求項に記載のゲイン処理装置。
  4. 入力音響信号を周波数変換して入力スペクトルを取得する周波数解析手段と、
    前記入力スペクトルに含まれる雑音スペクトルを推定して取得する雑音推定手段と、
    前記入力スペクトルと、前記雑音スペクトルとに基づいて、第1のゲインを算出する、ゲイン算出手段と、
    前記入力スペクトルと、前記雑音スペクトルと、前記第1のゲインと、前記第1のゲインを周波数方向と時間方向に平滑化した第2のゲインとに基づいて、前記第1のゲインを修正した第3のゲインを算出するゲイン修正手段と、
    前記入力スペクトルに、前記第3のゲインを乗じて出力スペクトルを取得する乗算手段と、
    前記出力スペクトルに基づく信号を出力する出力手段とを有し、
    前記ゲイン修正手段として、請求項1〜のいずれかに記載のゲイン処理装置を適用したこと
    を特徴とする音響信号処理装置。
  5. コンピュータを、
    入力音響信号に基づく入力スペクトルと、所定の雑音推定方法から得られる雑音スペクトルとに基づいて、第1の帯域ごとの目的音存在確率を算出する目的音存在確率算出手段と、
    前記目的音存在確率に基づいて、前記第1の帯域ごとの結合係数を算出する結合係数算出手段と、
    所定のゲイン算出方法から得られる第1のゲインと、前記第1のゲインを周波数方向と時間方向に平滑化した第2のゲインとを、前記結合係数に基づいて凸結合したゲインを生成するゲイン結合手段として機能させ、
    前記結合係数算出手段は、
    前記目的音存在確率を、前記第1の帯域より帯域数の少ない第2の帯域に集約して集約目的音存在確率を取得する帯域集約手段と、
    前記集約目的音存在確率を時間方向に平滑化して平滑化目的音存在確率を取得する時間平滑化手段と、
    前記平滑化目的音存在確率を、前記第1の帯域へと分配する帯域分配手段とを有する
    ことを特徴とするゲイン処理プログラム。
  6. コンピュータを、
    入力音響信号を周波数変換して入力スペクトルを取得する周波数解析手段と、
    前記入力スペクトルに含まれる雑音スペクトルを推定して取得する雑音推定手段と、
    前記入力スペクトルと、前記雑音スペクトルとに基づいて、第1のゲインを算出する、ゲイン算出手段と、
    前記入力スペクトルと、前記雑音スペクトルと、前記第1のゲインと、前記第1のゲインを周波数方向と時間方向に平滑化した第2のゲインとに基づいて、前記第1のゲインを修正した第3のゲインを算出するゲイン修正手段と、
    前記入力スペクトルに、前記第3のゲインを乗じる乗算手段と、
    前記乗算手段によって得られる出力スペクトルから波形を復元する波形復元手段として機能させ、
    前記ゲイン修正手段として、請求項1〜のいずれかに記載のゲイン処理装置を適用したこと
    を特徴とする音響信号処理プログラム。
JP2016044475A 2016-03-08 2016-03-08 ゲイン処理装置及びプログラム、並びに、音響信号処理装置及びプログラム Active JP6707914B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016044475A JP6707914B2 (ja) 2016-03-08 2016-03-08 ゲイン処理装置及びプログラム、並びに、音響信号処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016044475A JP6707914B2 (ja) 2016-03-08 2016-03-08 ゲイン処理装置及びプログラム、並びに、音響信号処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2017161635A JP2017161635A (ja) 2017-09-14
JP6707914B2 true JP6707914B2 (ja) 2020-06-10

Family

ID=59857900

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016044475A Active JP6707914B2 (ja) 2016-03-08 2016-03-08 ゲイン処理装置及びプログラム、並びに、音響信号処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6707914B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112233688B (zh) * 2020-09-24 2022-03-11 北京声智科技有限公司 音频降噪方法、装置、设备及介质
CN113932912B (zh) * 2021-10-13 2023-09-12 国网湖南省电力有限公司 一种变电站噪声抗干扰估计方法、系统及介质

Also Published As

Publication number Publication date
JP2017161635A (ja) 2017-09-14

Similar Documents

Publication Publication Date Title
JP4973873B2 (ja) 残響抑圧の方法、装置及び残響抑圧用プログラム
JP4162604B2 (ja) 雑音抑圧装置及び雑音抑圧方法
US8521530B1 (en) System and method for enhancing a monaural audio signal
JP5341128B2 (ja) 補聴器における安定性の改善
JP4836720B2 (ja) ノイズサプレス装置
JP7094340B2 (ja) 畳み込みニューラルネットワークに基づく電話音声信号の強調のための方法
TW200842824A (en) Speech enhancement employing a perceptual model
JP2001134287A (ja) 雑音抑圧装置
JP2013525843A (ja) 単一又は複数のマイクを備えるシステムにおける雑音低減と音声品質を共に最適化する方法
JP2004502977A (ja) サブバンド指数平滑雑音消去システム
JP2004187283A (ja) マイクロホン装置および再生装置
JP2014531865A (ja) 聴覚装置における安定性と音声の聴き取り易さの改善
US9418677B2 (en) Noise suppressing device, noise suppressing method, and a non-transitory computer-readable recording medium storing noise suppressing program
JP3459363B2 (ja) 雑音低減処理方法、その装置及びプログラム記憶媒体
JPWO2012070670A1 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
JP3454403B2 (ja) 帯域分割型雑音低減方法及び装置
Schröter et al. Low latency speech enhancement for hearing aids using deep filtering
JP6707914B2 (ja) ゲイン処理装置及びプログラム、並びに、音響信号処理装置及びプログラム
JP5086442B2 (ja) 雑音抑圧方法及び装置
JP5609157B2 (ja) 係数設定装置および雑音抑圧装置
JP2007310298A (ja) 帯域外信号生成装置及び周波数帯域拡張装置
JP5458057B2 (ja) 信号広帯域化装置、信号広帯域化方法、及びそのプログラム
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
JP2006201622A (ja) 帯域分割型雑音抑圧装置及び帯域分割型雑音抑圧方法
JP6282925B2 (ja) 音声強調装置、音声強調方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190917

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200504

R150 Certificate of patent or registration of utility model

Ref document number: 6707914

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150