JP6337519B2

JP6337519B2 - 音声処理装置、雑音抑圧方法、およびプログラム

Info

Publication number: JP6337519B2
Application number: JP2014040649A
Authority: JP
Inventors: 智佳子松本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-03-03
Filing date: 2014-03-03
Publication date: 2018-06-06
Anticipated expiration: 2034-03-03
Also published as: JP2015166764A; EP2916322A1; US9761244B2; US20150248895A1

Description

本発明は、音声処理装置、雑音抑圧方法、およびプログラムに関する。

携帯電話機や自動車内でのハンズフリー通話等の普及等に伴い、雑音環境下での通話時の雑音抑圧に対する要求がある。例えば、ロードノイズ等の定常雑音が大きい雑音環境で、雑音抑圧量を増やし、音声を聞きやすくする技術が求められている。このため、雑音環境下における発声データに対し、音声歪の少ない雑音抑圧を行うことが試みられている。

例えば、雑音を含む音声の所定時間分の信号を時間領域から周波数領域へ変換した信号の代表値に基づいて、雑音をどのレベルにまで抑制するかを示す目標値を推定する技術が知られている。所定の周波数帯域毎の音声の振幅成分に基づいて雑音抑制するための係数を算出し、算出した係数を元の信号の周波数軸上の信号に乗算することで、雑音を抑制する技術も知られている。雑音抑圧において、雑音抑圧の上下限を抑制する技術や、信号が音声らしいか非音声らしいかによって係数を補正する技術も知られている（例えば、特許文献１〜４参照）。

関連する技術として、音声信号から取得される複数の所定長のフレームが、音声フレームか、非音声フレームかを判別し、非音声フレームが非定常であることを示す非定常条件に基づいて、非定常フレームを検出する技術も知られている（例えば、特許文献５参照）。

国際公開番号ＷＯ２０１２／０９８５７９号公報特開２００１−２６７９７３号公報特開２０１０−２０４３９２号公報特開２００７−１８３３０６号公報特開２０１０−２３０８１４号公報

ところで、雑音を抑圧する際には、雑音を抑圧することにより音声の歪を起こさないように、雑音を一定比率で抑圧することが考えられる。このような抑圧を行うと、雑音は、ボリュームを絞ったような自然な雑音になると期待される。しかし、雑音そのものが大きい場合は、定常雑音、非定常雑音共に、残留雑音が大きくなってしまう。一方、単純に抑圧比率を下げて雑音抑圧量を増やすと、目的音声を雑音と誤って音声が過度に抑圧され、音声歪につながることがある。逆に、例えば、雑音を目的音声と誤ってしまうと、時間方向で抑圧量が激しく変化する場合がある。その変化が、振幅の激しい変化となり、雑音歪となることもある。

ひとつの側面によれば、本発明の目的は、音声の歪が少ない雑音抑圧を行えるようにすることである。

ひとつの態様である音声処理装置は、雑音由来係数算出部と、目的音判定部と、目的音率算出部と、抑圧信号生成部を有する。雑音由来係数算出部は、所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従って連続して単調減少する雑音由来係数を算出する。目的音判定部は、振幅値に基づき周波数スペクトルの周波数毎の成分が非定常であると判定された場合に、波数毎の成分が目的音であるか否かを判定する。目的音率算出部は、周波数スペクトルにおける目的音の割合を示す目的音率を算出する。抑圧信号生成部は、振幅値に基づき周波数スペクトルが定常であると判定された場合、雑音由来係数に基づく抑圧係数を振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成する。この構成において、抑圧信号生成部は、周波数毎の成分が目的音でないと判定された場合は、抑圧係数を、振幅値と目標値とに応じた定常雑音係数と、雑音由来係数とを乗じた値に基づく係数であって、目的音率に応じて算出された値とする。

ひとつの実施形態によれば、音声の歪が少ない雑音抑圧を行うことが可能になる。

第１の実施の形態による音声処理装置の機能的な構成の一例を示すブロック図である。第１の実施の形態による定常雑音の目標値の一例を示す図である。第１の実施の形態による雑音由来係数と定常雑音モデルの値との関係の一例を示す図である。第１の実施の形態による係数算出テーブルの一例を示す図である。第１の実施の形態による雑音由来係数の定常雑音モデルの値との関係を示す図である。第１の実施の形態による雑音由来係数による作用について説明する図である。第１の実施の形態による雑音歪が減少する現象について説明する図である。第１の実施の形態による音声処理装置の動作を示すフローチャートである。第２の実施の形態による音声処理装置の機能的な構成の一例を示すフローチャートである。第２の実施の形態による音声処理装置の動作を示すフローチャートである。第２の実施の形態による音声処理装置による雑音抑圧効果の一例を示す表である。第３の実施の形態による音声処理装置の機能的な構成の一例を示す図である。第３の実施の形態による音率別係数データテーブルの一例を示す図である。第３の実施の形態による目的音判定値の周波数依存性を示す図である。第３の実施の形態による音声処理装置の動作を示すフローチャートである。第３の実施の形態による音の種類判別処理の詳細を示すフローチャートである。第３の実施の形態による抑圧係数算出処理の詳細を示すフローチャートである。第４の実施の形態による音声処理装置の機能的な構成の一例を示す図である。第４の実施の形態による２つの音声信号を用いた目的音率算出の一例を示す図である。第４の実施の形態による２つのマイクと音源の位置関係の一例を示す図である。第４の実施の形態による残したい音源の方向の一例を示す図である。第４の実施の形態による目的音率高と判定された場合の雑音抑圧係数の一例を示す図である。雑音由来係数の定常雑音モデルの値に対する関係の例を示す図である。雑音由来係数の定常雑音モデルの値に対する関係の別の例を示す図である。標準的なコンピュータのハードウエア構成の一例を示す図である。

（第１の実施の形態）
以下、図面を参照しながら、第１の実施の形態による音声処理装置１について説明する。音声処理装置１は、入力された音声信号に対して雑音抑圧処理を行った音声を出力する装置である。音声処理装置１は、例えば、多機能携帯電話機の受信音または送信音、スピーカやイヤホン等音声出力装置の出力音、音声認識等のための入力音の前処理のために用いることが可能である。音声処理装置１は、例えば、多機能携帯電話機、車載通信装置、音声出力装置、音声認識装置などに備えられる。

図１は、第１の実施の形態による音声処理装置１の機能的な構成の一例を示すブロック図である。図１に示すように、音声処理装置１は、変換部５、定常雑音推定部７、定常判定部９、雑音由来係数算出部１１、抑圧係数算出部１３、抑圧信号生成部１５、逆変換部１７を有している。これらの各機能は、例えば、音声処理装置１が制御プログラムを予め読み込んで実行することにより実現される。また、音声処理装置１は、記憶部１９を有している。

変換部５は、所定時間分の時間軸上の音声信号を、周波数スペクトルに変換する。このとき、音声信号には、目的音声、定常雑音、非定常雑音が混在しているものとする。変換部５は、時系列に所定時間の信号をフレームとして切り出して変換するが、このとき例えば、窓関数などを用いて、例えば時系列の前後の所定時間の少なくとも一部が重なるように処理を行うようにしてもよい。例えば、変換部５は、音声信号に対し、ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ（ＦＦＴ）を行う。フレームとは、周波数軸への変換の際に切り出される所定時間に対応する信号、すなわち、所定時間分の音声信号、または所定時間分の音声信号が変換された周波数スペクトルを指すものとする。

定常雑音推定部７は、周波数スペクトルの周波数毎の振幅値に基づき周波数毎の定常雑音の目標値を推定する。定常雑音推定部７は、例えば、周波数スペクトルの振幅スペクトルを時間軸方向に平滑化して、残留する雑音の目標値を周波数ごとに推定する。以下、推定された雑音の目標値を、定常雑音モデルの値ともいう。また、周波数毎に推定された目標値を総称して、定常雑音モデルという。

定常判定部９は、周波数スペクトルの周波数毎の振幅値に基づき、周波数毎の成分が定常であるか非定常であるかを判定する。具体的には、例えば特許文献５に記載の定常／非定常の判定を応用して、振幅スペクトル毎の時間変化率を算出し、時間変化率が閾値よりも高い場合は非定常、閾値よりも低い場合は定常とするようにしてもよい。

雑音由来係数算出部１１は、目標値が上昇するに従ってなだらかに減少する「１」以下の雑音由来係数を算出する。算出式は、例えば記憶部１９に記憶させておき、読み出すようにしてもよい。「１」以下の雑音由来係数を算出するとは、抑圧係数が「１」のときには抑圧せず、「１」より小さい値であるほど抑圧量が増えるという意味であり、厳密に「１」以下でなければならないということを意味しない。

抑圧係数算出部１３は、定常判定部９で定常であると判定された場合は、雑音由来係数ｙに基づき、例えば、定数Ｃ（０＜Ｃ≦１）と雑音由来係数ｙとを乗じて抑圧係数とする。非定常であると判定された場合は、抑圧係数算出部１３は、「１」を抑圧係数とする。定数Ｃは、定常雑音を目標値からどの程度抑圧するかを示す値であり、例えば、記憶部１９に予め記憶しておくようにしてもよい。「１」以下の定数Ｃを用いるとは、定数Ｃが「１」のときには抑圧せず、「１」より小さい値であるほど抑圧量が増えるという意味であり、厳密に「１」以下でなければならないということを意味しない。

抑圧信号生成部１５は、周波数スペクトルの周波数毎の振幅値と、対応する抑圧係数とを乗じた抑圧信号を生成する。逆変換部１７は、抑圧信号を周波数時間変換して出力する。これらをまとめて記載すると、式１、式２のようになる。
抑圧係数＝定数Ｃ×雑音由来係数ｙ（定常）・・・（式１）
抑圧係数＝１（非定常）・・・（式２）
抑圧係数を「１」とするとは、積極的に抑圧をしないという意味であり、厳密に「１」でなければならないということを意味しない。

図２は、定常雑音の目標値の一例を示す図である。図２において、横軸は周波数、縦軸は振幅値である。振幅スペクトル２０は、変換部５で変換された周波数スペクトルの各周波数の振幅値の一例を示す。目標値２２は、定常雑音推定部７で推定された各周波数の定常雑音の目標値を示す。定常雑音の目標値の算出は、例えば特許文献４に記載の方法など、従来の方法により行うことができる。図２が、自動車電話における雑音の一例を示しているとすると、比較的雑音の振幅値の低い部分は、例えば主に走行雑音であると考えられる。比較的雑音の振幅値の高い部分は、例えば走行雑音と同乗者の音声とが重畳された音声を示していると考えられる。このとき、目標値２２は走行雑音とはほぼ同様の振幅値であり、同乗者の音声が抑圧されたような値となる。

図３は、雑音由来係数と定常雑音モデルの値との関係の一例を示す図である。図３において、横軸は、定常雑音モデルの値、縦軸は、雑音由来係数である。図３に示すように、雑音由来係数３０は、定常雑音モデルの値が上昇するに従ってなだらかに減少する「１」以下の実数であるとすることができる。例えば、雑音由来係数ｙは、定常雑音モデルの値ｘにより、下記式３のように表してもよい。
ｙ＝１．０−０．００００２ｘ・・・（式３）

図４は、係数算出テーブル３２の一例を示す図である。係数算出テーブル３２は、例えば、記憶部１９に記憶される。図４に示すように、係数算出テーブル３２は、雑音由来係数の算出式と、定数Ｃとを有している。定数Ｃは、「１」以下の正の実数とすることができる。定数Ｃ＝１の場合、実質的に定数Ｃはないものと同じとなり、抑圧係数は、雑音由来係数と等しくなる。

ここで、雑音由来係数の詳細について説明する。図５は、雑音由来係数の定常雑音モデルの値との関係を示す図である。雑音由来係数３３、雑音由来係数３４は、定常雑音モデルの値に対し、「１」を最大値として「なだらかに減少」する値となっている。雑音由来係数３６は、「なだらかに減少」していない例である。雑音由来係数３６では、定常雑音モデルの値に対し、雑音由来係数３６が不整合に変化する不整合箇所３８が存在している。不整合に変化するとは、定常雑音モデルの値に対する雑音由来係数３６の変化率が、急激に変化することである。例えば、雑音由来係数３６の定常雑音モデルの値に対する変化率のさらに微分値をとった場合に、曲線的でなく、特異点を持つような変化をすることをいう。音声処理装置１は、定常雑音モデルの値に対し、不整合箇所３８等のような変化をしないように雑音由来係数を定めることにより、歪を防いでいる。

図６は、雑音由来係数による作用について説明する図である。図６において、定常雑音例４０として、白色雑音における振幅スペクトル４２と振幅スペクトル４４とが示されている。定常雑音例４０において、横軸は周波数、縦軸は振幅値を示す。振幅スペクトル４２、振幅スペクトル４４は、音声信号５０における時間帯５２と時間帯５４を夫々時間周波数変換した信号を示している。音声信号５０において、横軸は時間、縦軸は振幅である。

定常雑音例４０において、周波数４６に注目すると、振幅スペクトル４２と振幅スペクトル４４とでは、定常雑音モデルの値が異なっている。これらを夫々雑音由来係数３０にて参照すると、振幅スペクトル４２では、定常雑音モデルの値ｘ１に対し、雑音由来係数３０＝ｙ１が対応する。振幅スペクトル４４では、定常雑音モデルの値ｘ２に対し、雑音由来係数３０＝ｙ２が対応する。このとき、定常雑音モデルの値が大きいほど、雑音由来係数３０の値は小さくなっており、より雑音が抑圧される。

抑圧音声信号６０は、雑音由来係数３０を用いない、すなわち雑音由来係数３０＝１とした場合の雑音抑圧例を示している。抑圧音声信号６２は、雑音由来係数３０を用いて雑音抑圧を行った例を示している。抑圧音声信号７０、抑圧音声信号７２は、抑圧音声信号６０、抑圧音声信号６２を夫々振幅方向に拡大した例を示している。抑圧音声信号６０、抑圧音声信号６２、抑圧音声信号７０、抑圧音声信号７２は、横軸を時間、縦軸を振幅として表されている。

雑音由来係数３０を用いない例では、処理後の抑圧音声信号７０で振幅７４となっている。雑音由来係数３０を用いた例では、処理後の抑圧音声信号７２で振幅７６となっており、振幅７４より縮小されている。このように、雑音由来係数３０を用いることにより、音声信号５０に対して、より雑音抑圧量が多く歪の少ない雑音抑圧が可能となる。

図７は、雑音ひずみが減少する現象について説明する図である。雑音歪とは、音声のうちの雑音に生ずる歪である。振幅スペクトル８０は、雑音抑圧の対象となる入力信号の一例である。抑圧信号８２は、雑音抑圧処理を行った後の出力信号の一例である。振幅スペクトル８０および抑圧信号８２は、周波数を横軸として示されている。振幅スペクトル８０は、例えば音声処理装置１への入力信号を変換した周波数スペクトルの一例である。抑圧信号８２は、例えば、雑音由来係数３０を用いない（雑音由来係数３０＝１）場合の出力信号の例である。抑圧信号８２では、例えばピーク８４のように、周波数Ｆ付近に、雑音部分が目的音声として残されてしまう振幅成分が存在する。

抑圧音声信号８６は、抑圧信号８２における周波数Ｆの成分の振幅スペクトルの時間変化の一例を示している。抑圧音声信号８８は、本実施の形態の雑音由来係数３０を適用して抑圧した信号の周波数Ｆの成分の時間変化の一例を示している。抑圧音声信号８６と抑圧音声信号８８とを比較すると、雑音由来係数３０を用いることにより、時間軸上での雑音の振幅変化が緩和することがわかる。よって、雑音歪が減少する。

図８は、本実施の形態による音声処理装置１の動作を示すフローチャートである。図８に示すように、音声処理装置１は、音声信号を受付ける（Ｓ１０１）。例えば、音声処理装置１は、マイク等により電気信号に変換されディジタル化された時間軸上の音声信号を受付ける。

変換部５は、音声信号を時間周波数変換し、周波数スペクトルを出力する（Ｓ１０２）。時間周波数変換は、例えば、時間軸上の音声信号から所定時間分を時系列に切り出し、高速フーリエ変換することにより行われる。定常雑音推定部７は、周波数スペクトルに基づき、定常雑音の目標値の推定を行う（Ｓ１０３）。すなわち、定常雑音推定部７は、周波数スペクトルの周波数毎の振幅値に基づき、周波数毎の定常雑音モデルの値を推定する。

雑音由来係数算出部１１は、定常雑音モデルの値が上昇するに従ってなだらかに減少する「１」以下の雑音由来係数ｙを算出する（Ｓ１０４）。このとき例えば雑音由来係数算出部１１は、係数算出テーブル３２を参照して雑音由来係数ｙを算出する。

定常判定部９は、周波数スペクトルの周波数毎の振幅値に基づき、周波数毎の成分が定常であるか非定常であるかを判定する（Ｓ１０５）。定常であると判定された場合には（Ｓ１０５：ＹＥＳ）、抑圧係数算出部１３は、「１」以下の定数Ｃと雑音由来係数ｙとを乗じて抑圧係数とする（Ｓ１０６）。このときの抑圧係数を、定常雑音抑圧係数ともいう。非定常であると判定された場合は（Ｓ１０５：ＮＯ）、抑圧係数算出部１３は、「１」を抑圧係数とする（Ｓ１０７）。

抑圧信号生成部１５は、周波数毎の振幅値と抑圧係数とを乗じた抑圧信号を生成する（Ｓ１０８）。逆変換部１７は、抑圧信号を周波数時間変換して（Ｓ１０９）、出力する（Ｓ１１０）。音声処理装置１は、システム終了の入力がない場合にはＳ１０１から処理を繰り返す（Ｓ１１１：ＮＯ）。システム終了の入力があった場合には（Ｓ１１１：ＹＥＳ）、音声処理装置１は、処理を終了する。

以上説明したように、音声処理装置１において、雑音由来係数算出部１１は、所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従ってなだらかに減少する雑音由来係数を算出する。抑圧信号生成部１５は、周波数スペクトルの振幅値に基づき周波数スペクトルが定常であると判定された場合、雑音由来係数に基づく抑圧係数を振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成する。

すなわち、音声処理装置１は、所定時間分の時間軸上の音声信号を周波数スペクトルに変換する。音声処理装置１は、周波数スペクトルの周波数毎の振幅値に基づき、周波数毎の定常雑音の目標値を推定する。音声処理装置１は、目標値が上昇するに従ってなだらかに減少する「１」以下の雑音由来係数を算出する。音声処理装置１は、定常であると判定された周波数スペクトルの周波数成分では、１以下の定数と雑音由来係数とを乗じて抑圧係数とする。音声処理装置１は、非定常であると判定された周波数成分では、「１」を抑圧係数とする。音声処理装置１は、周波数毎の振幅値と抑圧係数とを乗じた抑圧信号を生成し、周波数時間変換して出力する。

以上のように、音声処理装置１においては、定常雑音モデルの値として推定される目標値が上昇するに従ってなだらかに減少する雑音由来係数が用いられる。推定された定常雑音モデルの値に基づいて、不整合のない連続した、なだらかに変化する雑音由来係数を用いることで、雑音抑圧により生ずる歪を低減しながら、雑音抑圧量の増大を実現できる。また、定常雑音モデルの値に応じた雑音由来係数を信号に乗じることにより、定常雑音モデルの値が大きい定常雑音ほど雑音の抑圧量を大きくすることができ、音声信号の振幅の変化が緩和される。

雑音由来係数により、周波数スペクトルの定常と判定された周波数成分が抑圧されるので、雑音が大きい場合にも歪の少ない雑音抑圧が可能である。定常雑音モデルの値に応じた雑音由来係数を用いることにより、必要以上の抑圧を防止することができ、雑音歪が低減される。また、定常と判定されない場合には抑圧を行わないので、音声を雑音として抑圧することが防止され、音声歪も低減される。

なお、定常判定部９は、上記の例では周波数成分毎に定常非定常を判定する場合について説明したが、フレーム毎に判定を行うようにしてもよい。この場合、抑圧係数算出部１３は、定常と判定されたフレームに含まれる周波数成分について、式１に基づき抑圧係数を算出することが好ましい。

（第２の実施の形態）
以下、第２の実施の形態による音声処理装置１３０について図面を参照しながら説明する。第２の実施の形態による音声処理装置１３０において、第１の実施の形態による音声処理装置１と同様の構成および動作については、同一番号を付し、重複説明を省略する。

図９は、第２の実施の形態による音声処理装置１３０の機能的な構成の一例を示す図である。音声処理装置１３０は、音声処理装置１と同様に、変換部５、定常雑音推定部７、定常判定部９、雑音由来係数算出部１１、抑圧信号生成部１５、逆変換部１７、記憶部１９を有している。さらに音声処理装置１３０は、音声受付部１３２、目的音判定部１３４、抑圧係数算出部１３６を有している。

音声受付部１３２は、例えば、マイク等で電気信号に変換されたアナログ音声信号を受付け、ディジタル化して、時間軸上の音声信号として出力する。目的音判定部１３４は、定常判定部９で非定常と判定された場合に、判定された周波数成分が目的音であるか否かを判定する。

目的音の判定は、例えば、音声は振幅が大きいことから、「周波数スペクトルの振幅値／定常雑音モデルの値」が、閾値以上である周波数は目的音と判定する方法などを用いることができる。この方法によれば、周波数毎の成分が目的音であるか否かが判定される。この閾値は、例えば、雑音のみと考えられる音声信号の最大値を上回る値に設定される。この閾値は、例えば、実際に取得された複数の音声信号から統計的手法を用いて求めるようにしてもよい。

例えば、目的音であるか否かは、既に知られている別の判定方法で判定してもよい。例えば別の方法がある場合、上記の方法と共に所定の条件を満足する場合、または、いずれかの条件を満足する場合に、該当する周波数成分が目的音であると判定するようにしてもよい。

抑圧係数算出部１３６は、第１の実施の形態による抑圧係数算出部１３と同様に、定常判定部９で定常であると判定された周波数成分の場合は、式１により抑圧係数を算出する。目的音であると判定された周波数成分については、抑圧係数算出部１３６は、式２のように、抑圧係数を「１」とする。定常でなく、目的音でもないと判定された場合には、抑圧係数算出部１３６は、抑圧係数を、下記式４により算出する。この抑圧係数を、非定常雑音抑圧係数ともいう。
抑圧係数＝係数Ｋ（ｆ）×定数Ｃ×雑音由来係数ｙ・・・（式４）
なお、係数Ｋ（ｆ）は、定常雑音モデルの値の当該周波数成分に対する割合を表す係数であり、当該周波数成分を定常雑音モデルまで抑圧した場合の係数である。係数Ｋ（ｆ）は、定常雑音推定部７で推定された目標値と、変換部５で変換された各周波数成分に基づき下記式５のように算出される。
係数Ｋ（ｆ）＝各周波数の目標値（定常雑音モデルの値）／各周波数成分の振幅値・・・（式５）

図１０は、第２の実施の形態による音声処理装置１３０の動作を示すフローチャートである。図１０に示すように、音声処理装置１３０は、音声受付部１３２により、音声信号を受付ける（Ｓ１５１）。例えば、音声受付部１３２は、マイク等により電気信号に変換された時間軸上の音声信号を受付ける。

変換部５は、音声信号を時間周波数変換し、周波数軸上の周波数スペクトルを出力する（Ｓ１５２）。時間周波数変換は、例えば、時間軸上の音声信号から所定時間分を切り出し、高速フーリエ変換することにより行われる。定常雑音推定部７は、周波数スペクトルに基づき、定常雑音の目標値の推定を行う（Ｓ１５３）。すなわち、定常雑音推定部７は、周波数軸上の周波数スペクトルの周波数毎の振幅値に基づき、周波数毎の定常雑音モデルの値を推定する。

雑音由来係数算出部１１は、定常雑音モデルの値が上昇するに従ってなだらかに減少する「１」以下の雑音由来係数ｙを算出する（Ｓ１５４）。このとき例えば雑音由来係数算出部１１は、係数算出テーブル３２を参照して雑音由来係数ｙを算出する。

定常判定部９は、周波数軸上の周波数スペクトルの周波数毎の振幅値に基づき、周波数毎の成分が定常であるか非定常であるかを判定する（Ｓ１５５）。定常であると判定された場合には（Ｓ１５５：ＹＥＳ）、抑圧係数算出部１３６は、式１により、「１」以下の定数Ｃと雑音由来係数ｙとを乗じて定常雑音抑圧係数を算出する（Ｓ１５６）。非定常であると判定された場合は（Ｓ１５５：ＮＯ）、目的音判定部１３４は、当該周波数成分が、目的音であるか否かを判定する（Ｓ１５７）。目的音であると判定された場合（Ｓ１５７：ＹＥＳ）、抑圧係数算出部１３６は、「１」を抑圧係数とする（Ｓ１５８）。目的音でないと判定された場合（Ｓ１５７：ＮＯ）、抑圧係数算出部１３６は、式４により、非定常雑音抑圧係数を算出する（Ｓ１５９）。

抑圧信号生成部１５は、周波数毎の振幅値と抑圧係数とを乗じた抑圧信号を生成する（Ｓ１６０）。逆変換部１７は、抑圧信号を周波数時間変換して（Ｓ１６１）、出力する（Ｓ１６２）。音声処理装置１３０は、システム終了の入力がない場合にはＳ１５１から処理を繰り返す（Ｓ１６３：ＮＯ）。システム終了の入力があった場合には（Ｓ１６３：ＹＥＳ）、音声処理装置１３０は、処理を終了する。

図１１は、第２の実施の形態による音声処理装置１３０による雑音抑圧効果の一例を示す表である。図１１に示すように、抑圧例１８０は、抑圧例１８２に比べて例えば雑音の平均レベルが約１５ｄＢ大きい場合の例である。抑圧例１８０の場合、雑音抑圧量は、雑音由来係数を用いない従来の場合と比較して、定常雑音で３．４ｄＢ、非定常雑音で１．７ｄＢの抑圧効果がある。音声抑圧量については、従来と同等である。抑圧例１８２の場合、雑音由来係数を用いない従来の場合と比較して、定常雑音で０．４ｄＢ、非定常雑音で０．６ｄＢの抑圧効果がある。音声抑圧量については、従来と同様である。このように、本実施の形態による雑音抑圧では、音声抑圧に関しては従来と同等であり、歪の増大はない。雑音抑圧に関しては、雑音が大きい場合のほうが、雑音由来係数を用いない従来の例に比べて雑音抑圧効果が高いことが分かる。

以上説明したように、音声処理装置１３０は、所定時間分の時間軸上の音声信号を周波数軸上の周波数スペクトルに変換する。音声処理装置１３０は、周波数スペクトルの周波数毎の振幅値に基づき、周波数毎の定常雑音の目標値を推定する。音声処理装置１３０は、目標値が上昇するに従ってなだらかに減少する「１」以下の雑音由来係数を算出する。音声処理装置１３０は、定常であると判定された周波数スペクトルの周波数成分では、１以下の定数Ｃと雑音由来係数とを乗じて抑圧係数とする。音声処理装置１３０は、非定常であると判定された周波数成分では、さらに、目的音であるか否かを判定する。目的音であると判定された場合には、音声処理装置１３０は、「１」を抑圧係数とする目的音でないと判定された場合には、非定常雑音抑圧係数を算出する。音声処理装置１３０は、周波数毎の振幅値と抑圧係数とを乗じた抑圧信号を生成し、周波数時間変換して出力する。

以上のように、音声処理装置１３０においては、第１の実施の形態による音声処理装置１と同様に、定常雑音モデルの値として算出される目標値が上昇するに従ってなだらかに減少する雑音由来係数が用いられる。雑音由来係数により、周波数スペクトルの定常と判定された周波数成分が抑圧されるので、雑音が大きい場合にも歪の少ない雑音抑圧が可能である。さらに、音声処理装置１３０は、非定常であると判定された周波数成分について、目的音であるか否かを判定し、目的音である場合には、抑圧係数＝１として抑圧を行わない。また、目的音でない場合には、音声処理装置１３０は、非定常雑音抑圧係数により抑圧を行う。よって、第１の実施の形態の音声処理装置１による効果に加え、より音声歪を低減しながら、効果的に雑音抑圧を行うことが可能となる。特に、定常雑音がより大きい場合に、雑音抑圧効果が高い。このように、目的音であるか否かの判定が行われるので、雑音抑圧量は大きくすることで雑音が抑圧され、音声抑圧量は小さくすることで、音声歪を低減することが可能となっている。

なお、目的音判定方法として、以下の方法を用いるようにしてもよい。すなわち、目的音判定部１３４は、音声は自己相関が高く、雑音は自己相関が低いことを利用して、該当フレームと時間方向で１つ前のフレームとの間の自己相関値が閾値よりも高い場合を目的音と判定するようにしてもよい。このとき、目的音であるか否かは、時間フレーム毎に算出される。また、この判定は、例えば、定常判定部９により、非定常であるとされた周波数成分を含むフレームに関して行うようにしてもよい。

上記のようにフレームに関して目的音を判定する場合には、定常判定部９は、周波数軸上の周波数スペクトルの周波数毎の振幅値に基づき、フレーム毎に周波数スペクトルが定常であるか非定常であるかを判定するようにしてもよい。具体的には、例えば特許文献５に記載の定常／非定常の判定を応用して、当該フレームの振幅スペクトルの時間変化率が閾値よりも高い場合は非定常、閾値よりも低い場合は定常とするようにしてもよい。時間変化率は、当該フレームの振幅スペクトルの平均値など、統計的代表値に関して算出する方法、周波数成分毎に時間変化率を算出して統計的代表値を時間変化率とする方法など、様々な変形例を適用することができる。別の方法としては、当該フレームの振幅スペクトルの統計的代表値が、当該フレームの定常雑音の目標値の統計的代表値を所定値以上上回っている場合に非定常と判定するなどの判定方法でもよい。なお、フレーム毎に定常であるか否かが判定される場合、抑圧係数算出部１３は、定常であると判定されたフレームの全ての周波数成分に対して、上記式１により定常雑音抑圧係数を算出することが好ましい。

またフレーム毎に目的音を判定する方法を、上記の周波数毎に目的音を判定する方法と組み合わせて用いることもできる。例えば、目的音判定部１３４は、双方の判定方法により目的音であると判定された場合にのみ、当該周波数成分を目的音と判定するようにしてもよい。あるいは、目的音判定部１３４は、いずれかの方法で目的音と判定された場合に、当該フレームまたは当該周波数成分を目的音と判定するようにしてもよい。

（第３の実施の形態）
以下、第３の実施の形態による音声処理装置２００について図面を参照しながら説明する。第３の実施の形態による音声処理装置２００において、第１または第２の実施の形態による音声処理装置１、音声処理装置１３０と同様の構成および動作については、同一番号を付し、重複説明を省略する。

図１２は、第３の実施の形態による音声処理装置２００の機能的な構成の一例を示す図である。音声処理装置２００は、音声処理装置１、音声処理装置１３０と同様に、変換部５、定常雑音推定部７、定常判定部９、雑音由来係数算出部１１、抑圧信号生成部１５、逆変換部１７、記憶部１９を有している。さらに音声処理装置２００は、音声処理装置１３０と同様に、音声受付部１３２、目的音判定部１３４を有している。音声処理装置２００は、さらに、目的音率算出部２０２、抑圧係数算出部２０４を有している。

目的音率算出部２０２は、変換部５で抽出した所定時間、すなわち、時間的なフレーム毎に、目的音率を算出する。目的音率とは、ＦＦＴ長を１フレーム内の周波数成分の数として、下記式６により表される。
目的音率＝１フレーム内で目的音であると判定された周波数の数／ＦＦＴ長
・・・（式６）

抑圧係数算出部２０４は、抑圧係数算出部１３、抑圧係数算出部１３６と同様に、定常判定部９で定常であると判定された周波数成分の場合は、式１により抑圧係数を算出する。目的音であると判定された周波数成分については、抑圧係数算出部２０４は、式２のように、抑圧係数を「１」とする。定常でなく、目的音でもないと判定された場合には、抑圧係数算出部２０４は、抑圧係数を、目的音率に応じて算出する。

図１３は、音率別係数データテーブル２１０の一例を示す図である。図１３に示すように、音率別係数データテーブル２１０は、目的音率に応じた抑圧係数の算出式、および第１および第２の所定値を格納したデータテーブルである。算出式は、目的音率に応じて３段階に分けて抑圧係数を算出する式である。

音率別係数データテーブル２１０では、目的音率が、予め定められた第１の所定値Ｔｈ１以上の場合（目的音率高）、抑圧係数は、第２の実施の形態による音声処理装置１３０において算出した非定常抑圧係数と同様に式４で算出される。ここで便宜のため、式４を再び下記に示す。
目的音率高：抑圧係数 = 係数Ｋ（ｆ）×定数Ｃ×雑音由来係数ｙ
・・・（式４）

目的音率が、第１の所定値Ｔｈ１未満で、第１の所定値Ｔｈ１より小さい第２の所定値Ｔｈ２以上の場合（目的音率中）、抑圧係数は、下記式７で算出される。目的音率が、第２の所定値Ｔｈ２未満の場合（目的音率低）、抑圧係数は、下記式８で算出される。
目的音率中：抑圧係数 = 係数Ｋ（ｆ）×定数Ｃ・・・（式７）
目的音率低：抑圧係数 = 係数Ｋ（ｆ）・・・（式８）
なお、第１の所定値Ｔｈ１、第２の所定値Ｔｈ２は、例えば、予め雑音が少ない状態で取得された、いくつかの音声信号について目的音率を算出し、算出された目的音率の分布の度合いに基づき決定するようにしてもよい。

図１４は、目的音判定値の周波数依存性を示す図である。なお、目的音判定値とは、「周波数スペクトルの振幅値／定常雑音モデルの値」である。また、閾値２１９は、目的音判定値により、当該周波数成分が目的音であるか否かを判定するための閾値である。目的音判定値が閾値２１９を超えている場合には、その周波数成分は目的音であると判定される。

図１４に示すように、目的音判定値２１４は、目的音率高と判定される場合の、目的音判定値の一例を示している。目的音判定値２１６は、目的音率中と判定される場合の、目的音判定値の一例を示している。目的音判定値２１８は、目的音率低と判定される場合の目的音判定値の一例を示している。このように、閾値２１９を超える目的音判定値を有する周波数成分が、目的音であると判定される。また、目的音と判定される周波数成分の数に応じて目的音率が判定される。

図１５は、第３の実施の形態による音声処理装置２００の動作を示すフローチャートである。図１６は、音の種類判別処理の詳細を示すフローチャートである。図１７は、抑圧係数算出処理の詳細を示すフローチャートである。

図１５に示すように、音声処理装置２００は、音声受付部１３２により、音声信号を受付ける（Ｓ２３１）。例えば、音声処理装置２００は、マイク等により電気信号に変換された時間軸上の音声信号を受付ける。

変換部５は、音声信号を時間周波数変換し、周波数軸上の周波数スペクトルを出力する（Ｓ２３２）。時間周波数変換は、例えば、時間軸上の音声信号から所定時間分を切り出し、高速フーリエ変換することにより行われる。定常雑音推定部７は、周波数スペクトルに基づき、定常雑音の目標値の推定を行う（Ｓ２３３）。すなわち、定常雑音推定部７は、周波数軸上の周波数スペクトルの周波数毎の振幅値に基づき、周波数毎の定常雑音モデルの値を推定する。

雑音由来係数算出部１１は、定常雑音モデルの値が上昇するに従ってなだらかに減少する「１」以下の雑音由来係数ｙを算出する（Ｓ２３４）。このとき例えば雑音由来係数算出部１１は、係数算出テーブル３２を参照して雑音由来係数ｙを算出する。

定常判定部９は、周波数軸上の周波数スペクトルの周波数毎の振幅値に基づき、周波数毎の成分が定常であるか非定常であるかを判定する。また、目的音率算出部２０２は、周波数毎の成分が目的音であるか否かを判定する（Ｓ２３５）。Ｓ２３５の処理の詳細については、後述される。目的音率算出部２０２は、目的音率を算出する（Ｓ２３６）。すなわち、後述する音の種類判別の結果に基づき、フレーム毎に目的音率を算出する。抑圧係数算出部２０４は、周波数毎に、抑圧係数を算出する（Ｓ２３７）。抑圧係数算出処理の詳細は、後述される。

抑圧信号生成部１５は、周波数毎の振幅値と抑圧係数とを乗じた抑圧信号を生成する（Ｓ２３８）。逆変換部１７は、抑圧信号を周波数時間変換して（Ｓ２３９）、出力する（Ｓ２４０）。音声処理装置２００は、システム終了の入力がない場合にはＳ２３１から処理を繰り返す（Ｓ２４１：ＮＯ）。システム終了の入力があった場合には（Ｓ２４１：ＹＥＳ）、音声処理装置２００は、処理を終了する。

次に、図１６を参照しながら、音の種類判別処理について説明する。以下の処理において、変数ｎは、目的音と判定される周波数成分の数を計数するための変数である。変数ｉは、目的音であるか否かを判定済みの周波数成分の数を計数するための変数である。フラグｆｌｇは、当該周波数成分の音の種類を表すフラグであり、定常である場合は「０」、目的音である場合は「１」、定常でも目的音でもない場合は「２」で表される。定数ＦＦＴ＿Ｎは、ＦＦＴ長である。

図１６に示すように、定常判定部９は、ｎ＝０と設定する（Ｓ２５１）。定常判定部９は、ｉ＝０と設定する（Ｓ２５２）。定常判定部９は、一つの周波数成分について、定常的な音であるか否か判定する（Ｓ２５３）。当該周波数成分が定常的な音である場合（Ｓ２５３：ＹＥＳ）、定常判定部９は、当該周波数成分について、ｆｌｇ＝０とする（Ｓ２５４）。Ｓ２５３で、定常的な音でないと判定された場合（Ｓ２５３：ＮＯ）、定常判定部９は、当該周波数成分について、ｆｌｇ＝１と設定する（Ｓ２５５）。

目的音判定部１３４は、定常的な音でないと判定された周波数成分について、目的音であるか否か判定する（Ｓ２５６）。目的音であると判定された場合（Ｓ２５６：ＹＥＳ）、目的音判定部１３４は、ｎ＝ｎ＋１とする（Ｓ２５７）。目的音でないと判定された場合（Ｓ２５６：ＮＯ）、目的音判定部１３４は、ｆｌｇ＝２とする（Ｓ２５８）。

Ｓ２５９では、定常判定部９が、ｉ＝ｉ＋１とし（Ｓ２５９）、変数ｉが、ＦＦＴ長ＦＦＴ＿Ｎでない場合（Ｓ２６０：ＮＯ）、Ｓ２５３に戻って処理を繰り返す。変数ｉが、１フレームの周波数成分の数＝ＦＦＴ＿Ｎとなった場合（Ｓ２６０：ＹＥＳ）、定常判定部９は、音の種類判別処理を終了し、図１５の処理に戻す。なおＳ２３６では、目的音率算出部２０２は、目的音率＝ｎ／ＦＦＴ＿Ｎを算出する。

続いて、図１７を参照しながら、抑圧係数算出処理の詳細について説明する。図１７に示すように、抑圧係数算出部２０４は、ｉ＝０とする（Ｓ２７１）。抑圧係数算出部２０４は、一つの周波数成分について、ｆｌｇ＝０である場合は（Ｓ２７２：ＹＥＳ）、定常雑音抑圧係数を算出する（Ｓ２７３）。すなわち、Ｓ２５３において定常であると判定されている場合に、抑圧係数算出部２０４は、式１により、「１」以下の定数Ｃと雑音由来係数ｙとを乗じて定常雑音抑圧係数を算出する（Ｓ２７３）。

抑圧係数算出部２０４は、ｆｌｇ＝１の場合には（Ｓ２７２：ＮＯ、Ｓ２７４：ＹＥＳ）、抑圧係数＝１とする。抑圧係数算出部２０４は、ｆｌｇ＝２の場合には（Ｓ２７４：ＮＯ）、非定常雑音抑圧係数を算出する（Ｓ２７６）。すなわち、抑圧係数算出部２０４は、図１６の処理において算出された目的音率に基づき、音率別係数データテーブル２１０を参照して、夫々の周波数成分毎の非定常雑音抑圧係数を算出する。抑圧係数算出部２０４は、ｉ＝ｉ＋１とし（Ｓ２７７）、ｉ＝ＦＦＴ＿Ｎとなるまで、Ｓ２７２から処理を繰り返す（Ｓ２７８：ＮＯ）。ｉ＝ＦＦＴ＿Ｎとなった場合は（Ｓ２７８：ＹＥＳ）、抑圧係数算出部２０４は、図１５の処理に処理を戻す。

以上詳細に説明したように、第３の実施の形態による音声処理装置２００は、目的音率に応じた雑音抑圧を行う。目的音率は、フレーム毎に目的音と判定される周波数成分の割合に応じて算出される。目的音率が高い場合には、当該フレームにおける非定常雑音が、より抑圧されるように抑圧係数が算出される。

以上のように、第３の実施の形態による音声処理装置２００によれば、第１の実施の形態による音声処理装置１、第２の実施の形態による音声処理装置１３０による効果に加え、非定常雑音部分は、目的音率に応じた雑音抑圧が可能になる。例えば、目的音声か、目的音声でない非音声かの判定を行ったとしても、判定精度が１００％でないために、雑音を目的音声と誤ってしまうと、時間方向で抑圧量が激しく変化する場合がある。それが、振幅の激しい変化となり、雑音歪となるが、このような雑音歪も、目的音率に応じて段階的に雑音抑圧を行うことで、より低減することが可能となる。

なお、上記第３の実施の形態においては、目的音率を３段階に分けたがこれに限定されない。より細かく、あるいはより荒い分け方の場合も、本実施の形態の雑音抑圧の変形の範囲と解釈される。

（第４の実施の形態）
以下、第４の実施の形態による音声処理装置３００について図面を参照しながら説明する。第４の実施の形態による音声処理装置３００において、第１から第３の実施の形態と同様の構成および動作については、同一番号を付し、重複説明を省略する。

図１８は、第４の実施の形態による音声処理装置３００の機能的な構成の一例を示す図である。音声処理装置３００は、音声処理装置１、音声処理装置１３０、音声処理装置２００と同様に、変換部５、定常雑音推定部７、定常判定部９、雑音由来係数算出部１１、抑圧信号生成部１５、逆変換部１７、記憶部１９を有している。さらに音声処理装置３００は、音声処理装置２００と同様に、音声受付部１３２、目的音率算出部２０２、抑圧係数算出部２０４を有している。加えて、音声処理装置３００は、音声受付部３０３、第２の変換部３０５、目的音判定部３０７を有している。

音声処理装置３００は、第２の実施の形態および第３の実施の形態による目的音判定部１３４に代えて、目的音判定部３０７により、目的音であるか否かの判定を行う。音声処理装置３００は、２つの音声信号を受け付ける。音声受付部１３２は、一方の音声信号を受付ける。音声受付部３０３は、他方の音声信号を受付ける。２つの音声信号は、同時に異なる場所（空間的位置）で取得された音声の信号である。２つの音声信号は、例えば、異なる位置に配置された２つのマイクで収音された音声に基づく信号とすることができる。変換部３０５は、音声受付部３０３からの音声信号を周波数軸上の周波数スペクトルに変換する。

目的音判定部３０７は、２つの周波数スペクトルの位相差、または振幅比に基づき、当該周波数成分が目的音であるか否かを判定する。位相差を用いる場合には、２つの周波数スペクトルの位相差が、目的音の方向を示す値となっているか否かが判定される。すなわち、目的音判定部３０７は、２つの周波数スペクトルの周波数毎の位相差を算出し、算出した位相差が、所定の音源の方向についてとり得る位相差の範囲に含まれるか否かを判定する。

図１９は、２つの音声信号を用いた目的音率算出の一例を示す図である。図１９において、音声信号３２０、信号振幅３２２、目的音率３３０は、横軸を時間として表されている。音声信号３２０は、音声受付部１３２で受付けられた音声信号の波形を示す。信号振幅３２２は、音声信号３２０における特定周波数付近の音声信号の振幅の時間変化を表す。定常雑音モデル３２４は、信号振幅３２２から算出された定常雑音モデルの値である。目的音判定部３０７は、同様に算出される他方の周波数スペクトルの同一周波数成分の値を参照して、一方の周波数スペクトルとの位相差が目的音の方向を示しているか否かにより、判定を行う。目的音率３３０は、上記のような判定に基づき、フレーム毎の目的音率を第３の実施の形態と同様に算出し、時間変化として表した例を示している。目的音率３３０は、縦軸を目的音率として表されている。目的音率３３０の例で、例えば、目的音率３３０が目的音率高領域３３２に入る場合には、式４により抑圧係数が算出される。目的音率中領域３３４に入る場合には、式７により抑圧係数が算出される。目的音率低領域３３６に入る場合には、式８により抑圧係数が算出される。

図２０は、２つのマイクと音源の位置関係の一例を示す図である。図２１は、残したい音源の方向の一例を示す図である。図２０において、音源３４０に対し、マイク３４２とマイク３４４とが互いに距離ｄ離れた位置に備えられている。マイク３４２とマイク３４４との中点から音源３４０への方向は、２つのマイク３４２、マイク３４４を結んだ直線に対して角度θの方向である。また、マイク３４２と音源３４０との距離は、距離ｄｓである。このとき、マイク３４２とマイク３４４での振幅スペクトル比Ｒａは、下記式９で表される。
Ｒａ＝（ｄｓ／（ｄｓ＋ｄ×ｃｏｓθ））（０≦θ≦１８０）・・・（式９）

図２１において、例えば、抑圧せずに残したい音源の方向が、角度θｍｉｎから角度θｍａｘの領域３４６である場合、振幅スペクトルの比率Ｒは、下記式１０の範囲となる。
Ｒｍｉｎ≦Ｒ≦Ｒｍａｘ
Ｒｍｉｎ＝ｄｓ／（ｄｓ＋ｄ×ｃｏｓθｍｉｎ）
Ｒｍａｘ＝ｄｓ／（ｄｓ＋ｄ×ｃｏｓθｍａｘ）
・・・（式１０）
式１０を満たす振幅スペクトル比を有する場合、目的音判定部３０７は、当該周波数成分を目的音と判定する。

なお、本実施の形態において、目的音率算出部２０２は、２つの周波数スペクトルの位相差、または振幅比に基づき目的音であると判定された周波数成分の数を用いて、目的音率を算出する。

図２２は、目的音率高と判定された場合の雑音抑圧係数の一例を示す図である。図２２において、横軸は周波数、縦軸は抑圧係数を示す。図２２に示すように、抑圧係数３５０は、雑音由来係数を用いない例である。抑圧係数３５２は、本実施の形態による抑圧係数の例である。抑圧係数小領域３５４を見ると分かるように、本実施の形態による抑圧係数は、従来例よりも低い抑圧係数が算出されており、より雑音を抑圧できることが分かる。

以上詳細に説明したように、本実施の形態においては、目的音判定部３０７が、２つの音声信号の位相差、または振幅比に基づき音源の方向が目的音の方向を示しているか否かにより目的音であるか否かを判定する。このように、音源の方向が規定できる場合には、同時に収音された２つの音声信号を用いて、目的音の判定を行うことができる。第４の実施の形態による音声処理装置３００によれば、第３の実施の形態による音声処理装置２００と同様の効果を奏することができる。さらに、音声として取得したい音源の方向を指定して、雑音抑圧を行うことができる。

（変形例）
以下、雑音由来係数の変形例について説明する。図２３、図２４は、雑音由来係数の定常雑音モデルの値ｘに対する関係の例を示す図である。図２３、図２４において、横軸は定常雑音モデルの値ｘであり、縦軸は、雑音由来係数ｙである。なお、定常雑音モデルの値ｘは、振幅の最大値＝３２７６８、とした場合の例である。雑音モデル係数ｙは、最大値のときに抑圧量が約６ｄＢ増すように調整したものである。定常雑音モデルの値ｘ、雑音由来係数ｙの値は一例であり、これに限定されない。

図２３の例では、例えば雑音由来係数ｙと定常雑音モデルの値ｘとの関係を示す雑音由来係数３６０は、下記の式１１で表される。
ｙ＝１．０−ａｘ（ａ＝１．５３×１０^−５）・・・（式１１）

図２４の例では、例えば雑音由来係数ｙと定常雑音モデルの値ｘとの関係を示す雑音由来係数３６２は、下記の式１２で表される。
ｙ＝１．０−ｂｘ^２（ｂ＝４．６６×１０^−１０）・・・（式１１）

図２３、図２４に示すように、雑音由来係数３６０、雑音由来係数３６２ともに、定常雑音モデルの値ｘが大きくなるに従って、なだらかに減少する値となっている。また、雑音由来係数３６２は、雑音由来係数３６０に比べて、定常雑音モデルの値ｘが大きい場合に、より抑圧量が大きくなるように設定されている。上記第１から第４の実施の形態のそれぞれに、雑音由来係数３６０、または雑音由来係数３６２を適用することができる。同様に設定された雑音由来係数ｙがなだらかに減少する他の計算式により、雑音由来係数ｙを算出することもできる。

以上説明したように、本変形例による雑音由来係数３６０または雑音由来係数３６２を上記第１から第４の実施の形態のいずれかに適用することにより、各実施の形態による効果と同様に、歪を生じさせない雑音抑圧が可能となる。雑音由来係数３６２を適用した場合には、雑音由来係数３６０を適用した場合と比較して、定常雑音モデルｘが大きい場合に、より雑音抑圧量を大きくできる効果がある。

ここで、上記第１から第４の実施の形態および変形例による雑音抑圧方法の動作をコンピュータに行わせるために共通に適用されるコンピュータの例について説明する。図２５は、標準的なコンピュータのハードウエア構成の一例を示すブロック図である。図２５に示すように、コンピュータ４００は、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＣＰＵ）４０２、メモリ４０４、入力装置４０６、出力装置４０８、外部記憶装置４１２、媒体駆動装置４１４、ネットワーク接続装置４１８等がバス４１０を介して接続されている。

ＣＰＵ４０２は、コンピュータ４００全体の動作を制御する演算処理装置である。メモリ４０４は、コンピュータ４００の動作を制御するプログラムを予め記憶したり、プログラムを実行する際に必要に応じて作業領域として使用したりするための記憶部である。メモリ４０４は、例えばＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）等である。入力装置４０６は、コンピュータの使用者により操作されると、その操作内容に対応付けられている使用者からの各種情報の入力を取得し、取得した入力情報をＣＰＵ４０２に送付する装置であり、例えばキーボード装置、マウス装置などである。出力装置４０８は、コンピュータ４００による処理結果を出力する装置であり、表示装置などが含まれる。例えば表示装置は、ＣＰＵ４０２により送付される表示データに応じてテキストや画像を表示する。

外部記憶装置４１２は、例えば、ハードディスク、フラッシュメモリなどの記憶装置であり、ＣＰＵ４０２により実行される各種制御プログラムや、取得したデータ等を記憶しておく装置である。媒体駆動装置４１４は、可搬記録媒体４１６に書き込みおよび読み出しを行うための装置である。ＣＰＵ４０２は、可搬記録媒体４１６に記録されている所定の制御プログラムを、媒体駆動装置４１４を介して読み出して実行することによって、各種の制御処理を行うようにすることもできる。可搬記録媒体４１６は、例えばＣｏｍｐａｃｔＤｉｓｃ（ＣＤ）−ＲＯＭ、ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ（ＤＶＤ）、ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ（ＵＳＢ）メモリ等である。ネットワーク接続装置４１８は、有線または無線により外部との間で行われる各種データの授受の管理を行うインタフェース装置である。バス４１０は、上記各装置等を互いに接続し、データのやり取りを行う通信経路である。

上記第１から第４の実施の形態による雑音抑圧方法をコンピュータに実行させるプログラムは、例えば外部記憶装置４１２に記憶させる。ＣＰＵ４０２は、外部記憶装置４１２からプログラムを読み出し、コンピュータ４００に雑音抑圧の動作を行なわせる。このとき、まず、雑音抑圧の処理をＣＰＵ４０２に行わせるための制御プログラムを作成して外部記憶装置４１２に記憶させておく。そして、入力装置４０６から所定の指示をＣＰＵ４０２に与えて、この制御プログラムを外部記憶装置４１２から読み出させて実行させるようにする。また、このプログラムは、可搬記録媒体４１６に記憶するようにしてもよい。

なお、本発明は、以上に述べた実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の構成または実施形態を採ることができる。例えば、上記第１から第４の実施の形態および変形例は上記に限定されず、論理的に可能な限りの組合せが可能である。

以上の実施形態に関し、さらに以下の付記を開示する。
（付記１）
所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従ってなだらかに減少する雑音由来係数を算出する雑音由来係数算出部と、
前記振幅値に基づき前記周波数スペクトルが定常であると判定された場合、前記雑音由来係数に基づく抑圧係数を前記振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成する抑圧信号生成部と、
を有することを特徴とする音声処理装置。
（付記２）
前記振幅値に基づき、前記周波数スペクトルの周波数毎の成分が非定常であると判定された場合に前記周波数毎の成分が目的音であるか否かを判定する目的音判定部、
をさらに有し、
前記抑圧信号生成部は、前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を前記振幅値と前記目標値とに応じた定常雑音係数と、前記雑音由来係数とを乗じた値に基づく係数とする
ことを特徴とする付記１に記載の音声処理装置。
（付記３）
前記目的音判定部は、前記周波数毎の振幅変動量、前記目標値と前記振幅値との比、および前記目標値と前記振幅値との差のうちの少なくとも一つに基づき、前記所定周波数の成分が目的音であるか否かを判定する、
ことを特徴とする付記２に記載の音声処理装置。
（付記４）
前記周波数スペクトルと、前記周波数スペクトルと対応する前記音声信号が取得された第１の空間的位置と異なる第２の空間的位置で取得された同一の音声の音声信号を時間周波数変換した周波数スペクトルとの周波数毎の振幅差、振幅比、および位相差のうちのいずれか少なくとも一つに基づき、前記周波数毎の成分が目的音であるか否かを判定する目的音判定部、
をさらに有し、
前記抑圧信号生成部は、前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を前記振幅値と前記目標値とに応じた定常雑音係数と、前記雑音由来係数とを乗じた値に基づく係数とする
ことを特徴とする付記１に記載の音声処理装置。
（付記５）
前記周波数スペクトルにおける前記目的音の割合を示す目的音率を算出する目的音率算出部、
をさらに有し、
前記抑圧信号生成部は、前記周波数スペクトルにおいて前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を前記目的音率に応じて算出された値とすることを特徴とする付記２から付記４のいずれかに記載の音声処理装置。
（付記６）
前記抑圧信号生成部は、前記目的音率が第１の所定値以上の場合に、前記抑圧係数を、前記雑音由来係数および前記定常雑音係数を乗じた値に基づく係数とすることを特徴とする付記５に記載の音声処理装置。
（付記７）
前記抑圧信号生成部は、前記目的音率が前記第１の所定値未満であって、前記第１の所定値よりも小さい第２の所定値以上の場合に、前記抑圧係数を前記定常雑音係数に基づく値とすることを特徴とする付記６に記載の音声処理装置。
（付記８）
前記抑圧信号生成部は、前記目的音率が前記第２の所定値未満の場合に、前記抑圧係数を前記定常雑音係数とすることを特徴とする付記７に記載の音声処理装置。
（付記９）
前記振幅値に基づき、前記周波数スペクトル、または前記周波数スペクトルのいずれかの周波数毎の成分が非定常であると判定された場合に前記周波数スペクトルが目的音であるか否かを判定する目的音判定部、
をさらに有し、
前記目的音判定部は、前記周波数スペクトルが非定常であると判定された場合に、前記所定時間に対応する前記周波数スペクトルと、前記所定時間の一つ前の所定時間に対応する周波数スペクトルとの相関値が一定値より高い場合に、前記所定時間に対応する前記周波数スペクトルを目的音であると判定し、
前記抑圧信号生成部は、前記周波数スペクトルが目的音でないと判定された場合は、前記抑圧係数を前記振幅値と前記目標値とに応じた定常雑音係数と、前記雑音由来係数とを乗じた値とする
ことを特徴とする付記１に記載の音声処理装置。
（付記１０）
前記所定時間内の前記目標値の最大値に基づき前記最大値から前記雑音由来係数を算出するための正の係数をａ、前記目標値をｘ、前記雑音由来係数をｙとすると、
ｙ＝１−ａｘ
であることを特徴とする付記１から付記９のいずれかに記載の音声処理装置。
（付記１１）
前記所定時間内の前記目標値の最大値に基づき前記最大値から前記雑音由来係数を算出するための正の係数をｂ、前記目標値をｘ、前記雑音由来係数をｙとすると、
ｙ＝１−ｂｘ^２
であることを特徴とする付記１から付記９のいずれかに記載の音声処理装置。
（付記１２）
コンピュータによる雑音抑圧方法であって、
所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従ってなだらかに減少する雑音由来係数を算出し、
前記振幅値に基づき前記周波数スペクトルが定常であると判定された場合、前記雑音由来係数に基づく抑圧係数を前記振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成する、
ことを特徴とする雑音抑圧方法。
（付記１３）
さらに、前記振幅値に基づき、前記周波数スペクトルの周波数毎の成分が非定常であると判定された場合に、前記周波数毎の成分が目的音であるか否かを判定し、
前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を前記振幅値と前記目標値とに応じた定常雑音係数と、前記雑音由来係数とを乗じた値に基づく係数とする
ことを特徴とする付記１２に記載の雑音抑圧方法。
（付記１４）
さらに、前記周波数スペクトルにおける前記目的音の割合を示す目的音率を算出し、
前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を前記目的音率に応じて算出された値とする
ことを特徴とする付記１３に記載の雑音抑圧方法。
（付記１５）
所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従ってなだらかに減少する雑音由来係数を算出し、
前記振幅値に基づき前記周波数スペクトルが定常であると判定された場合、前記雑音由来係数に基づく抑圧係数を前記振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成する
処理をコンピュータに実行させるプログラム。

１音声処理装置
５変換部
７定常雑音推定部
９定常判定部
１１雑音由来係数算出部
１３抑圧係数算出部
１５抑圧信号生成部
１７逆変換部
１９記憶部
２０振幅スペクトル
２２目標値
３０雑音由来係数
３２係数算出テーブル
３３、３４、３６雑音由来係数
３８不整合箇所
４０定常雑音例
４２、４４振幅スペクトル
５０音声信号
５２、５４時間帯
６０、６２、７０、７２抑圧音声信号
７４、７６振幅
８０振幅スペクトル
８２抑圧信号
８６、８８抑圧音声信号

Claims

所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従って連続して単調減少する雑音由来係数を算出する雑音由来係数算出部と、
前記振幅値に基づき前記周波数スペクトルの周波数毎の成分が非定常であると判定された場合に、前記周波数毎の成分が目的音であるか否かを判定する目的音判定部と、
前記周波数スペクトルにおける前記目的音の割合を示す目的音率を算出する目的音率算出部と、
前記振幅値に基づき前記周波数スペクトルが定常であると判定された場合、前記雑音由来係数に基づく抑圧係数を前記振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成する抑圧信号生成部と、
を有し、
前記抑圧信号生成部は、前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を、前記振幅値と前記目標値とに応じた定常雑音係数と、前記雑音由来係数とを乗じた値に基づく係数であって、前記目的音率に応じて算出された値とする、
ことを特徴とする音声処理装置。
前記目的音判定部は、前記周波数毎の振幅変動量、前記目標値と前記振幅値との比、および前記目標値と前記振幅値との差のうちの少なくとも一つに基づき、前記周波数毎の成分が目的音であるか否かを判定する、
ことを特徴とする請求項１に記載の音声処理装置。
所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従って連続して単調減少する雑音由来係数を算出する雑音由来係数算出部と、
前記周波数スペクトルと、前記周波数スペクトルと対応する前記音声信号が取得された第１の空間的位置と異なる第２の空間的位置で取得された同一の音声の音声信号を時間周波数変換した周波数スペクトルとの周波数毎の振幅差、振幅比、および位相差のうちのいずれか少なくとも一つに基づき、前記周波数毎の成分が目的音であるか否かを判定する目的音判定部と、
前記周波数スペクトルにおける前記目的音の割合を示す目的音率を算出する目的音率算出部と、
前記振幅値に基づき前記周波数スペクトルが定常であると判定された場合、前記雑音由来係数に基づく抑圧係数を前記振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成する抑圧信号生成部と、
を有し、
前記抑圧信号生成部は、前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を、前記振幅値と前記目標値とに応じた定常雑音係数と、前記雑音由来係数とを乗じた値に基づく係数であって、前記目的音率に応じて算出された値とする
ことを特徴とする音声処理装置。
前記抑圧信号生成部は、前記目的音率が第１の所定値以上の場合は、前記抑圧係数を、前記雑音由来係数および前記定常雑音係数を乗じた値に基づく係数とすることを特徴とする請求項１から請求項３のいずれかに記載の音声処理装置。
前記抑圧信号生成部は、前記目的音率が前記第１の所定値未満であって、前記第１の所定値よりも小さい第２の所定値以上の場合は、前記抑圧係数を前記定常雑音係数に基づく値とすることを特徴とする請求項４に記載の音声処理装置。
前記抑圧信号生成部は、前記目的音率が前記第２の所定値未満の場合は、前記抑圧係数を前記定常雑音係数とすることを特徴とする請求項５に記載の音声処理装置。
前記所定時間内の前記目標値の最大値に基づき前記最大値から前記雑音由来係数を算出するための正の係数をａ、前記目標値をｘ、前記雑音由来係数をｙとすると、
ｙ＝１−ａｘ
であることを特徴とする請求項１から請求項６のいずれかに記載の音声処理装置。
前記所定時間内の前記目標値の最大値に基づき前記最大値から前記雑音由来係数を算出するための正の係数をｂ、前記目標値をｘ、前記雑音由来係数をｙとすると、
ｙ＝１−ｂｘ^２
であることを特徴とする請求項１から請求項６のいずれかに記載の音声処理装置。
コンピュータによる雑音抑圧方法であって、
所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従って連続して単調減少する雑音由来係数を算出し、
前記振幅値に基づき前記周波数スペクトルの周波数毎の成分が非定常であると判定された場合に、前記周波数毎の成分が目的音であるか否かを判定し、
前記周波数スペクトルにおける前記目的音の割合を示す目的音率を算出し、
前記振幅値に基づき前記周波数スペクトルが定常であると判定された場合、前記雑音由来係数に基づく抑圧係数を前記振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成し、
前記抑圧信号の生成において、前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を、前記振幅値と前記目標値とに応じた定常雑音係数と、前記雑音由来係数とを乗じた値に基づく係数であって、前記目的音率に応じて算出された値とする、
ことを特徴とする雑音抑圧方法。
コンピュータによる雑音抑圧方法であって、
所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従って連続して単調減少する雑音由来係数を算出し、
前記周波数スペクトルと、前記周波数スペクトルと対応する前記音声信号が取得された第１の空間的位置と異なる第２の空間的位置で取得された同一の音声の音声信号を時間周波数変換した周波数スペクトルとの周波数毎の振幅差、振幅比、および位相差のうちのいずれか少なくとも一つに基づき、前記周波数毎の成分が目的音であるか否かを判定し、
前記周波数スペクトルにおける前記目的音の割合を示す目的音率を算出し、
前記振幅値に基づき前記周波数スペクトルが定常であると判定された場合、前記雑音由来係数に基づく抑圧係数を前記振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成し、
前記抑圧信号の生成において、前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を、前記振幅値と前記目標値とに応じた定常雑音係数と、前記雑音由来係数とを乗じた値に基づく係数であって、前記目的音率に応じて算出された値とする
ことを特徴とする雑音抑圧方法。
所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従って連続して単調減少する雑音由来係数を算出し、
前記振幅値に基づき前記周波数スペクトルの周波数毎の成分が非定常であると判定された場合に、前記周波数毎の成分が目的音であるか否かを判定し、
前記周波数スペクトルにおける前記目的音の割合を示す目的音率を算出し、
前記振幅値に基づき前記周波数スペクトルが定常であると判定された場合、前記雑音由来係数に基づく抑圧係数を前記振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成する
処理をコンピュータに実行させ、
前記抑圧信号の生成において、前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を、前記振幅値と前記目標値とに応じた定常雑音係数と、前記雑音由来係数とを乗じた値に基づく係数であって、前記目的音率に応じて算出された値とする、
プログラム。
所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従って連続して単調減少する雑音由来係数を算出し、
前記周波数スペクトルと、前記周波数スペクトルと対応する前記音声信号が取得された第１の空間的位置と異なる第２の空間的位置で取得された同一の音声の音声信号を時間周波数変換した周波数スペクトルとの周波数毎の振幅差、振幅比、および位相差のうちのいずれか少なくとも一つに基づき、前記周波数毎の成分が目的音であるか否かを判定し、
前記周波数スペクトルにおける前記目的音の割合を示す目的音率を算出し、
前記振幅値に基づき前記周波数スペクトルが定常であると判定された場合、前記雑音由来係数に基づく抑圧係数を前記振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成する
処理をコンピュータに実行させ、
前記抑圧信号の生成において、前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を、前記振幅値と前記目標値とに応じた定常雑音係数と、前記雑音由来係数とを乗じた値に基づく係数であって、前記目的音率に応じて算出された値とする
プログラム。