JP2014122939A

JP2014122939A - 音声処理装置および方法、並びにプログラム

Info

Publication number: JP2014122939A
Application number: JP2012277662A
Authority: JP
Inventors: Keisuke Higashiyama; 恵祐東山
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-12-20
Filing date: 2012-12-20
Publication date: 2014-07-03
Also published as: CN103886865A; US20140177853A1

Abstract

【課題】より精度よく子音を検出することができるようにする。
【解決手段】時間周波数変換部は、供給された入力信号を入力スペクトルに変換し、背景ノイズ推定部は、入力スペクトルから背景ノイズを推定する。ノイズ抑圧スペクトル計算部は、背景ノイズの推定結果に基づいて、入力スペクトルの背景ノイズを抑圧し、ノイズ抑圧スペクトルを算出する。特徴量計算部は、ノイズ抑圧スペクトルから特徴量を算出し、子音検出部は、特徴量に基づいて入力信号から子音フレームを検出する。このように、背景ノイズが抑圧されたノイズ抑圧スペクトルから特徴量を算出し、その特徴量に基づいて周波数領域で子音を検出することで、精度よく子音を検出することができる。本技術は、子音強調装置に適用することができる。
【選択図】図１

Description

本技術は音声処理装置および方法、並びにプログラムに関し、特に、より精度よく子音を検出することができるようにした音声処理装置および方法、並びにプログラムに関する。

近年、高齢社会が進むにつれ、加齢性の難聴に悩まされる人が増えている。加齢性難聴では高い周波数帯域の聴覚感度から悪化する傾向があるため、音声のうち特に子音の聞き取りが困難になる例が多い。

そこで、子音をより聞き取りやすくする技術として、イコライザで入力信号の子音が存在する周波数帯域を強調するものがある。しかし、この技術では、入力信号が何であるかに関わらず常にその周波数帯域の強調が行なわれるため、子音は強調されるものの、それ以外の音の音質が変わり、音声の聞きにくさが発生してしまう。

また、携帯型電話機の発達により、いつでもどこでも携帯型電話機を用いた会話ができるようになったが、これは発話側の環境がうるさい場所である機会が増えたということでもある。音声信号のうち、子音部は母音部よりも相対的にパワーが小さいため、ノイズに子音部が埋もれてしまうことにより音声の明瞭度が下がり、会話音声が聞き取りにくくなる事態が発生する。特に加齢性難聴者にとっては、音声の聞き取りやすさは背景ノイズの大きさに影響されることが知られており、うるさい環境下でも音声を聞き取りやすくする技術が望まれている。

例えば、ノイズが大きい場合には、ノイズ抑圧技術でノイズを低減することで相対的に音声のSN比（Signal to Noise ratio）を上げる技術があるが、この技術では音声自体の音質も変わってしまうことが多く、語音明瞭度や了解度が下がってしまう傾向がある。また、そもそも発話者自体がもごもごとした不明瞭な話し方をしている場合には、ノイズ抑圧技術は何の役にも立たない。

以上のような状況から、子音を検出して強調する技術が要望されており、これまでにもいくつか子音検出強調技術が提案されている。

例えば、そのような技術として、複数の時間フレームによって複数のフレーム信号を抽出し、このフレーム信号の平均パワーを計算して比較するだけで子音を検出し、強調する技術が提案されている（例えば、特許文献１および特許文献２参照）。

特開２０１０−０９１８９７号公報特許第０４８７６２４５号公報

ところで特許文献１や特許文献２に記載の技術では、子音区間や音節の長さを予め定義し、その定義に合うフレームのみを子音としているが、実際の音声がその定義にしたがうとは限らない。特に、言語によってそれらの定義は異なるため、アルゴリズムの言語依存性が高くなってしまう。

また、子音の検出をフレーム信号のパワーの比較だけで行っているため、背景ノイズによりパワーが変動した場合には、子音を正しく検出することができなくなってしまう。

以上のように、上述した子音検出方法では、子音の背景にノイズが存在するような信号については、子音を精度よく検出することが困難であった。

本技術は、このような状況に鑑みてなされたものであり、より精度よく子音を検出することができるようにするものである。

本技術の一側面の音声処理装置は、入力信号の背景ノイズを推定する背景ノイズ推定部と、前記背景ノイズの推定結果に基づいて、前記入力信号の前記背景ノイズを抑圧するノイズ抑圧部と、前記背景ノイズが抑圧された前記入力信号に基づいて特徴量を算出する特徴量計算部と、前記特徴量に基づいて、前記入力信号から子音を検出する子音検出部とを備える。

前記背景ノイズ推定部には、周波数領域で前記背景ノイズを推定させ、前記ノイズ抑圧部には、前記入力信号から得られた入力スペクトルに含まれる前記背景ノイズを抑圧することでノイズ抑圧スペクトルを求めさせ、前記特徴量計算部には、前記ノイズ抑圧スペクトルに基づいて前記特徴量を算出させることができる。

前記背景ノイズ推定部には、過去の前記入力スペクトルの平均値を求めることで前記背景ノイズを推定させることができる。

音声処理装置には、前記ノイズ抑圧スペクトルの値が、前記背景ノイズの推定により得られた背景ノイズスペクトルを定数倍した値よりも大きい周波数について、前記入力スペクトルの強調を行なう子音強調部をさらに設けることができる。

前記子音強調部には、予め定められた強調量で前記入力スペクトルの強調を行なわせることができる。

音声処理装置には、前記入力信号の過去の母音部分のパワーの平均値と、前記入力信号の現在のパワーとの比に基づいて強調量を算出する子音強調レベル計算部をさらに設け、前記子音強調部には、前記強調量で前記入力スペクトルの強調を行なわせることができる。

周波数方向に対して前記強調量の補間が行なわれるようにすることができる。

前記ノイズ抑圧部には、スペクトルサブトラクション法により前記ノイズ抑圧スペクトルを求めさせることができる。

前記入力信号のピッチ強度がさらに前記特徴量として用いられ、前記子音検出部には、前記特徴量としての前記ピッチ強度と、前記ノイズ抑圧スペクトルに基づいて算出された前記特徴量とに基づいて、前記入力信号から子音を検出させることができる。

前記ピッチ強度は、前記ノイズ抑圧スペクトルのピークが、ピッチ周波数位置と、ピッチ周波数の倍音周波数位置とに発生している度合いで表されるようにすることができる。

前記ピッチ強度が、前記入力信号の自己相関係数値であるようにすることができる。

前記特徴量計算部には、前記ノイズ抑圧スペクトルの周波数帯域を複数のバンドに分割させ、前記バンドにおける前記ノイズ抑圧スペクトルの代表値に基づいて前記特徴量を算出させることができる。

前記ノイズ抑圧スペクトルをパワースペクトルとすることができる。

前記ノイズ抑圧スペクトルを振幅スペクトルとすることができる。

前記代表値を、前記バンドにおける前記ノイズ抑圧スペクトルの平均値とすることができる。

前記代表値を、前記バンドにおける前記ノイズ抑圧スペクトルの最大値とすることができる。

前記特徴量計算部には、前記ノイズ抑圧スペクトルにおける前記バンドの前記代表値の時間差分値を前記特徴量として算出させることができる。

本技術の一側面の音声処理方法またはプログラムは、入力信号の背景ノイズを推定し、前記背景ノイズの推定結果に基づいて、前記入力信号の前記背景ノイズを抑圧し、前記背景ノイズが抑圧された前記入力信号に基づいて特徴量を算出し、前記特徴量に基づいて、前記入力信号から子音を検出するステップを含む。

本技術の一側面においては、入力信号の背景ノイズが推定され、前記背景ノイズの推定結果に基づいて、前記入力信号の前記背景ノイズが抑圧され、前記背景ノイズが抑圧された前記入力信号に基づいて特徴量が算出され、前記特徴量に基づいて、前記入力信号から子音が検出される。

本技術の一側面によれば、より精度よく子音を検出することができる。

子音強調装置の構成例を示す図である。時間周波数変換について説明する図である。背景ノイズの推定について説明する図である。ノイズ抑圧スペクトルの算出について説明する図である。特徴量の算出について説明する図である。入力スペクトルの強調について説明する図である。入力信号の強調結果の一例を示す図である。子音強調処理を説明するフローチャートである。子音検出処理を説明するフローチャートである。強調量算出処理を説明するフローチャートである。子音強調装置の他の構成例を示す図である。子音強調装置の他の構成例を示す図である。子音強調装置の他の構成例を示す図である。子音検出装置の構成例を示す図である。子音検出装置の他の構成例を示す図である。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈子音強調装置の構成例〉
本技術は、背景ノイズの抑圧を行った信号を基に子音の検出を行なうことで、背景にノイズがある場合にも精度よく子音を検出することができるようにするものである。また、入力信号、推定した背景ノイズ、およびノイズ抑圧信号のレベルを基にした強調量の決定を行うことで、ノイズを考慮した適切な子音強調を行なうことができるようにするものである。

図１は、本技術を適用した子音強調装置の一実施の形態の構成例を示す図である。

子音強調装置１１は、音声信号である入力信号を入力とし、入力信号から子音部分を検出するとともに、その検出結果に基づいて子音を強調し、その結果得られた音声信号を出力信号として出力する。

子音強調装置１１は、時間周波数変換部２１、背景ノイズ推定部２２、ノイズ抑圧スペクトル計算部２３、ピッチ強度計算部２４、特徴量計算部２５、子音検出部２６、子音強調レベル計算部２７、子音強調部２８、および周波数時間変換部２９から構成される。

時間周波数変換部２１は、供給された入力信号に対して時間周波数変換を行い、その結果得られた入力スペクトルを背景ノイズ推定部２２、ノイズ抑圧スペクトル計算部２３、子音強調レベル計算部２７、および子音強調部２８に供給する。

背景ノイズ推定部２２は、時間周波数変換部２１から供給された入力スペクトルに基づいて背景ノイズ推定を行い、その結果得られた背景ノイズスペクトルをノイズ抑圧スペクトル計算部２３、および子音強調レベル計算部２７に供給する。

なお、背景ノイズとは、入力信号の音声のうちの発話者の音声等とは異なる、環境音などのノイズ成分である。また、背景ノイズスペクトルは、背景ノイズのスペクトルである。

ノイズ抑圧スペクトル計算部２３は、時間周波数変換部２１から供給された入力スペクトルと、背景ノイズ推定部２２から供給された背景ノイズスペクトルとに基づいて入力スペクトルに含まれる背景ノイズ成分を抑圧し、ノイズ抑圧スペクトルを求める。ノイズ抑圧スペクトル計算部２３は、得られたノイズ抑圧スペクトルをピッチ強度計算部２４、特徴量計算部２５、および子音強調レベル計算部２７に供給する。

ピッチ強度計算部２４は、ノイズ抑圧スペクトル計算部２３から供給されたノイズ抑圧スペクトルに基づいて、入力信号のピッチ強度を算出し、特徴量計算部２５および子音検出部２６に供給する。なお、ここでは、ノイズ抑圧スペクトルからピッチ強度を求める場合について説明するが、ノイズ抑圧前のスペクトルや、時間領域の信号である入力信号からピッチ強度が求められてもよい。

特徴量計算部２５は、ノイズ抑圧スペクトル計算部２３から供給されたノイズ抑圧スペクトルに基づいて、またはノイズ抑圧スペクトルと、ピッチ強度計算部２４から供給されたピッチ強度とに基づいて特徴量を算出し、子音検出部２６に供給する。特徴量計算部２５で算出される特徴量は、入力信号からの子音検出に用いられる。

子音検出部２６は、ピッチ強度計算部２４から供給されたピッチ強度と、特徴量計算部２５から供給された特徴量とに基づいて、入力信号の子音区間を検出し、その検出結果を子音強調レベル計算部２７に供給する。

なお、より詳細には、子音区間の検出では処理対象となっている入力信号のフレームが、子音のフレームであるか、母音のフレームであるか、またはその他のフレーム、つまり子音でも母音でもないフレームであるかが特定される。以下では、特に子音のフレームを子音フレームと称し、母音のフレームを母音フレームと称することとする。

子音強調レベル計算部２７は、時間周波数変換部２１からの入力スペクトル、背景ノイズ推定部２２からの背景ノイズスペクトル、ノイズ抑圧スペクトル計算部２３からのノイズ抑圧スペクトル、および子音検出部２６からの検出結果に基づいて強調量を算出する。すなわち、子音検出により子音フレームであるとされたフレームの強調量が算出されて、子音強調レベル計算部２７から子音強調部２８に供給される。

子音強調部２８は、子音強調レベル計算部２７から供給された強調量を、時間周波数変換部２１から供給された入力スペクトルに乗算することで、入力スペクトルの子音部分を強調し、周波数時間変換部２９に供給する。

周波数時間変換部２９は、子音強調部２８から供給された入力スペクトルに対して周波数時間変換を行なって、その結果得られた出力時間波形を出力信号として出力する。

〈入力スペクトルの算出について〉
次に、図１に示した子音強調装置１１を構成する各部の処理について説明する。

まず、入力信号を入力スペクトルに変換する時間周波数変換部２１の処理について説明する。

例えば、時間周波数変換部２１に図２の矢印Ａ１１に示す波形の入力信号が入力されたとする。なお、矢印Ａ１１に示す入力信号において、横方向は時間を示しており、縦方向は振幅を示している。

このような矢印Ａ１１に示す入力信号が供給されると、時間周波数変換部２１は、入力信号を構成する所定の連続する複数のサンプルをまとめてフレーム化する。この例では、入力信号の区間Ｌ１１乃至区間Ｌ１９のそれぞれが１つのフレームとされる。

また、時間周波数変換部２１は、入力信号の各フレームに対して矢印Ａ１２に示す形状の窓、つまり窓関数を用いて窓がけを行なう。ここで、矢印Ａ１２に示す窓関数において縦方向は窓関数の値を示しており、横方向は時間、つまり窓関数の値が乗算される入力信号のサンプル位置を示している。

なお、窓がけには、例えばサイン窓を用いてもよいし、ハニング窓やハミング窓などを用いるようにしてもよい。但し、周波数信号を時間信号に戻す逆変換時との整合が取れるようにする必要がある。

時間周波数変換部２１は、入力信号のフレームを構成する各サンプルに窓関数を乗算することで窓がけを行なうと、その結果得られた信号に対して零詰めを行なう。例えば、入力信号の区間Ｌ１１の部分に対して矢印Ａ１２に示した窓関数により窓がけを行い、その結果得られた信号に零詰めを行なうと、矢印Ａ１３に示す信号が得られる。

矢印Ａ１３に示す信号において、縦方向は振幅を示しており、横方向は時間を示している。この矢印Ａ１３に示す信号では、区間Ｌ３１の部分が、零詰めが行なわれた部分であり、この部分では信号の振幅が０となっている。また、後段の時間周波数変換における周波数分解能を高くするために、零詰め後の信号の長さは、例えば窓の長さの２倍や４倍などとされるとよい。

零詰めが行なわれると、さらに時間周波数変換部２１は、零詰めにより得られた信号に対して離散フーリエ変換などの時間周波数変換を行い、時間信号を周波数信号である入力スペクトルへと変換する。例えば、矢印Ａ１３に示す信号に対して離散フーリエ変換が行なわれると、矢印Ａ１４に示す入力スペクトルが得られる。なお、矢印Ａ１４に示す入力スペクトルにおいて横軸は周波数を示しており、縦軸はパワーまたは振幅を示している。

このようにして入力信号のフレームから得られる入力スペクトルは、パワースペクトルでもよいし、振幅スペクトルや対数振幅スペクトルであってもよい。また、入力スペクトルを得るための時間周波数変換として、離散フーリエ変換に限らず、離散コサイン変換などが行なわれるようにしてもよい。

さらに、図２の例では、周波数分解能を高くするために、零詰めによるオーバーサンプリングにより周波数変換長が窓の長さより長くされているが、特に零詰めが行なわれないようにしてもよい。

以上のような処理により、入力信号の各フレームについて入力スペクトルが得られる。

〈背景ノイズ推定について〉
続いて、背景ノイズ推定部２２により行なわれる背景ノイズ推定について説明する。

例えば図３に示すように、時間周波数変換部２１において、矢印Ａ２１に示す入力信号を構成する５つのフレームＦ（ｔ−１）乃至フレームＦ（ｔ−５）から、それぞれ矢印Ａ２２乃至矢印Ａ２６に示す入力スペクトルＸ（ｔ−１，ｆ）乃至入力スペクトルＸ（ｔ−５，ｆ）が得られたとする。ここで、矢印Ａ２１に示す入力信号の縦方向は振幅を示しており、横方向は時間を示している。また、各フレームの入力スペクトルＸ（ｔ，ｆ）において、ｔは時間インデックスを示しており、ｆは周波数を示している。

背景ノイズ推定部２２は、時間周波数変換部２１で得られた入力スペクトルＸ（ｔ−１，ｆ）乃至入力スペクトルＸ（ｔ−５，ｆ）の平均値を求め、得られた入力スペクトルの平均値を背景ノイズスペクトルＮ（ｔ，ｆ）とする。図３の例では、矢印Ａ２７に示されるスペクトルが、入力スペクトルＸ（ｔ−１，ｆ）乃至入力スペクトルＸ（ｔ−５，ｆ）の平均を求めることで得られた背景ノイズスペクトルＮ（ｔ，ｆ）を表している。

このように、背景ノイズ推定部２２では、入力信号の過去の所定フレーム数分の入力スペクトルの平均値が背景ノイズであるとして背景ノイズの推定が行なわれる。一般的に比較的長い期間について、音声信号の各フレームのスペクトルの平均をとれば、ほぼノイズのスペクトルとなることが知られている。

例えば、過去Ｍフレームの入力スペクトルの平均が背景ノイズスペクトルであるとされる場合には、背景ノイズ推定部２２は次式（１）を計算することで、時間インデクスがｔであるフレームの背景ノイズスペクトルＮ（ｔ，ｆ）を算出する。

なお、式（１）において、Ｘ（ｔ，ｆ）は、時間インデックスがｔであるフレームの入力スペクトルを示している。

また、背景ノイズスペクトルの算出時において、レベル変動の大きなフレームについてはノイズではなく音声信号であるとみなして、そのフレームの入力スペクトルが背景ノイズスペクトルを算出するための平均値計算処理から除かれるようにしてもよい。

レベル変動が大きいフレームの特定は、例えば隣接フレームとの入力スペクトルのパワーの比率に基づいて行なわれてもよいし、入力スペクトルに対する閾値処理などにより行なわれるようにしてもよい。

また、背景ノイズスペクトルの算出は、式（１）の計算に限らず、他の方法により算出されるようにしてもよい。例えば、過去の所定数のフレームの入力スペクトルの平均値を背景ノイズスペクトルとするのではなく、過去のフレームの影響を継続して受けるように、フレームごとに背景ノイズスペクトルが更新されてもよい。

そのような場合、例えば背景ノイズ推定部２２は、次式（２）を計算することで背景ノイズスペクトルＮ（ｔ，ｆ）を算出する。

なお、式（２）において、α_ｎ（ｆ）およびα_ｘ（ｆ）は、所定の係数を示している。

したがって、式（２）では、直前のフレームの背景ノイズスペクトルと、現フレームの入力スペクトルとを重み付き加算することで、現フレームの背景ノイズスペクトルが算出される。例えば、レベル変動の大きなフレームの寄与度を小さくしたい場合には、レベル変動の大きなフレームについては係数α_ｘ（ｆ）の値を、０などの小さい値とすればよい。

なお、以下、特に時間インデックスを区別する必要がない場合には、背景ノイズスペクトルＮ（ｔ，ｆ）を単に背景ノイズスペクトルＮ（ｆ）とも称することとする。同様に、以下、特に時間インデックスを区別する必要がない場合には、入力スペクトルＸ（ｔ，ｆ）を単に入力スペクトルＸ（ｆ）とも称することとする。

〈ノイズ抑圧スペクトルの算出について〉
次に、ノイズ抑圧スペクトル計算部２３により行なわれるノイズ抑圧スペクトルの算出について説明する。

例えば、ノイズ抑圧スペクトルは、図４に示すように、スペクトルサブトラクション法により算出される。

図４では、矢印Ａ４１乃至矢印Ａ４３に示される各スペクトルが、それぞれノイズ抑圧スペクトルＳ（ｆ）、入力スペクトルＸ（ｆ）、および背景ノイズスペクトルＮ（ｆ）を示している。なお、図４に示す各スペクトルにおいて、縦軸はパワーまたは振幅を示しており、横軸は周波数を示している。

スペクトルサブトラクション法では、音声部分のスペクトルであるノイズ抑圧スペクトルＳ（ｆ）と、背景ノイズの成分である背景ノイズスペクトルＮ（ｆ）の和が、入力スペクトルＸ（ｆ）であると仮定される。

したがって、入力スペクトルＸ（ｆ）から背景ノイズスペクトルＮ（ｆ）を減算して得られるスペクトルが、推定により得られたノイズ抑圧スペクトルＳ（ｆ）となる。なお、図４では、入力スペクトルＸ（ｆ）における斜線部分は、入力スペクトルＸ（ｆ）に含まれている背景ノイズ成分を表している。

より具体的には、ノイズ抑圧スペクトル計算部２３は、例えば入力スペクトルＸ（ｆ）と背景ノイズスペクトルＮ（ｆ）に基づいて次式（３）を計算することで、ノイズ抑圧スペクトルＳ（ｆ）を算出する。

なお、式（３）においてβ（ｆ）はノイズ抑圧量を決める係数であり、周波数ごとに異なる値を用いても、全ての周波数で同じ値を用いてもよい。また、ｉはノイズ抑圧のドメインを決定する値である。

以上のようにして求められるノイズ抑圧スペクトルＳ（ｆ）は、パワースペクトルでもよいし、振幅スペクトルでもよい。

〈ピッチ強度の算出について〉
さらに、ピッチ強度計算部２４によるピッチ強度の算出について説明する。

ピッチ強度は、ノイズ抑圧スペクトルＳ（ｆ）から算出される。

ここで、ピッチ強度は、ピッチ周波数と、そのピッチ周波数の倍音周波数において、パワースペクトルまたは振幅スペクトルであるノイズ抑圧スペクトルのピークがどの程度存在するかで表される。すなわち、ピッチ強度は、ノイズ抑圧スペクトルのピークが、ピッチ周波数位置と、そのピッチ周波数の倍音周波数の位置に発生している度合いで表される。

したがって、ピッチ強度は、ピッチ周波数位置にピークが存在するか否かと、その倍音周波数位置にもピークが存在するか否か、つまりピークが存在する倍音周波数がいくつ存在するかとに基づいて定められる。

なお、ピークであるか否かは、例えばピーク周波数近辺のスペクトルの曲率に基づいて、ピークらしさを求めることで決定される。また、ピーク周波数におけるスペクトルと、その周囲のスペクトルまたは周囲のスペクトルの平均値との割合や差などに基づいてピークらしさを求めることで、ピークであるか否かが決定されてもよい。

〈特徴量の算出について〉
続いて、特徴量計算部２５による特徴量の算出について説明する。

なお、特徴量は、ノイズ抑圧スペクトルとピッチ強度とに基づいて算出されるようにしてもよいが、ここではノイズ抑圧スペクトルに基づいて特徴量が算出される例について説明する。

例えば、ノイズ抑圧スペクトル計算部２３から特徴量計算部２５に、図５に示すノイズ抑圧スペクトルＳ（ｆ）が供給されたとする。なお、図５において、縦軸はパワーまたは振幅を示しており、横軸は周波数を示している。

また、ノイズ抑圧スペクトルＳ（ｆ）における１つの長方形は、１つの周波数（周波数ビン）におけるスペクトルの値を表している。この例では、ノイズ抑圧スペクトルＳ（ｆ）には、１７個の周波数ビンにおけるスペクトルの値が含まれている。

このようなノイズ抑圧スペクトルＳ（ｆ）が供給されると、特徴量計算部２５は、ノイズ抑圧スペクトルＳ（ｆ）の周波数帯域を複数のバンドに分割する。すなわち、ノイズ抑圧スペクトルＳ（ｆ）の周波数帯域が、点線の矩形で表される７つのバンドＢＤ１１乃至バンドＢＤ１７に分割される。例えば、最も低周波数側の２つの周波数ビンが束ねられて、バンドＢＤ１１とされている。

なお、バンドの分割方法は、各バンドが均一幅となるように分割されてもよいし、聴覚フィルタを模した不均一幅で分割が行なわれるようにしてもよい。図５の例では、バンドＢＤ１１乃至バンドＢＤ１４は、２つの周波数ビンから構成されているが、バンドＢＤ１５乃至バンドＢＤ１７は、３つの周波数ビンから構成されている。

さらに、特徴量計算部２５は、ノイズ抑圧スペクトルＳ（ｆ）を構成する各バンドについて、バンド内のスペクトルの最大値をそのバンドの代表値とし、各バンドの代表値を組み合わせて得られるベクトルを、ノイズ抑圧スペクトルＳ（ｆ）の特徴量とする。

例えば、バンドＢＤ１１乃至バンドＢＤ１７の代表値が５５、５０、４０、３０、２０、２５、および２０である場合、それらの値を順番に並べて得られるベクトルｂ＝｛55,50,40,30,20,25,20｝が特徴量とされる。

なお、ここでは、バンド内のスペクトルの最大値が代表値とされる例について説明したが、バンド内のスペクトルの値の平均値が代表値とされるようにしてもよい。また、子音の立ち上がりを検出するための特徴量として、ノイズ抑圧スペクトルＳ（ｆ）の各バンドの代表値の時間差分値、つまり時間方向に隣接するフレームについての同じバンドの代表値の差分値が用いられるようにしてもよい。

〈子音フレームの検出について〉
次に、子音検出部２６による子音フレームの検出について説明する。

例えば、子音検出部２６は、特徴量計算部２５から供給された特徴量に基づいて線形判別を行なうことにより、入力信号の処理対象となっている現フレームが子音フレームであるか否かを判定する。

具体的には、例えば子音検出部２６は、次式（４）に示される線形判別式Ｙに特徴量を代入して、判別を行なう。

なお、式（４）において、ａ_ｎ（但し、１≦ｎ≦Ｎ）およびａ_０は、予め学習された係数および定数を示しており、子音検出部２６は、これらの係数と定数からなる係数ベクトルを保持している。また、ｂ_ｎ（但し、１≦ｎ≦Ｎ）は、特徴量計算部２５で算出された特徴量であるベクトルの各要素を示している。

子音検出部２６は、特徴量計算部２５から供給された特徴量を式（４）に示す線形判別式Ｙに代入し、その結果得られた値が負であった場合、つまりＹ＝Σａ_ｎｂ_ｎ＋ａ_０＜０である場合、現フレームは子音フレームであるとする。

また、子音検出部２６は、線形判別式Ｙの値が０以上である場合、さらにピッチ強度が閾値より大きいか否かを判定することで、現フレームが母音フレームであるか否かを判定する。例えば、ピッチ強度が閾値より大きい場合には、現フレームは母音フレームであるとされ、ピッチ強度が閾値以下である場合、現フレームは子音フレームでも母音フレームでもない、その他のフレームであるとされる。

子音検出部２６は、このようにして判別された現フレームの種別を示す情報を、子音の検出結果として子音強調レベル計算部２７に供給する。

例えば母音フレームのスペクトルでは、ピークが周期的に出現することが知られており、入力信号のピッチ強度に基づいて、母音フレームらしいか否かを特定することが可能である。

子音強調装置１１では、周波数領域において入力信号のピッチ強度を求めることで、例えばピークが出現しやすい低域側の周波数帯域のみを用いるなど、特定周波数帯域を選択的に用いてピッチ強度を算出することができる。これにより、母音の検出精度を向上させることができる。

また、子音強調装置１１では、背景ノイズが抑圧されたノイズ抑圧スペクトルがピッチ強度の算出に用いられるが、ノイズ抑圧スペクトルは背景ノイズが抑圧されたスペクトルであるので、より高精度にピークを検出することができるようになる。したがって、ノイズ抑圧スペクトルを用いれば、より高精度にピッチ強度を算出することができる。

なお、以上においては、子音フレームの判別に用いる特徴量として、ノイズ抑圧スペクトルＳ（ｆ）から得られた特徴量を用いる例について説明したが、ノイズ抑圧スペクトルＳ（ｆ）から得られる特徴量だけでなく、ピッチ強度も特徴量として用いられてもよい。

そのような場合、例えば特徴量として用いられるピッチ強度は、線形判別式Ｙの項として含められるようにしてもよいし、ピッチ強度単独による子音の判別結果を線形判別式Ｙにカスケード接続するようにしてもよい。このように子音フレームの判別にピッチ強度を用いることで、さらに子音の検出精度を向上させることができる。

また、子音の判別方法として、線形判別の他にサポートベクターマシンやニューラルネットなどの判別方法を用いるようにしてもよい。

〈強調量の算出と入力スペクトルの強調について〉
さらに、子音強調レベル計算部２７による強調量の算出と、子音強調部２８による入力スペクトルの強調について説明する。

例えば、子音強調レベル計算部２７は、入力信号の過去の母音フレームのパワーの平均値を母音部パワーとして算出し、保持している。母音フレームのパワーは、例えば母音フレームの入力スペクトルにおける各周波数のパワーの平均値などとされる。

子音強調レベル計算部２７は、処理対象の現フレームが母音フレームである場合に、保持している母音部パワーの更新を行なう。

具体的には、子音強調レベル計算部２７は、子音検出部２６から供給された子音の検出結果から、現フレームが母音のフレームであると特定された場合、保持している母音部パワーと、時間周波数変換部２１から供給された現フレームの入力スペクトルとに基づいて、母音部パワーを更新する。

そして、子音強調レベル計算部２７は、子音検出部２６から供給された子音の検出結果から、現フレームが子音のフレームであると特定された場合、保持している母音部パワーを用いて強調量を算出する。

例えば、子音強調レベル計算部２７は、時間周波数変換部２１から供給された現フレームの入力スペクトルにおける各周波数のパワーの平均値を求めて現フレームパワーとする。現フレームパワーは、入力スペクトルの全体のパワーである。そして、子音強調レベル計算部２７は、次式（５）を計算することで、現フレームの強調量を算出する。

式（５）では、現フレームの入力スペクトルのパワーと、過去の母音フレームのパワーの平均値との比（割合）が強調量として算出される。これは、子音部分のパワーが母音部分のパワーと同程度となるように強調すれば、子音が十分聞きとりやすくなるからである。

なお、入力スペクトルの強調量は、式（５）で得られる値に限らず、その他、例えば予め定めた定数とされてもよいし、式（５）で得られる値と、予め定めた定数とのうちの大きい方または小さい方の値などとされてもよい。

また、強調量は、実際の子音強調音を再生する環境に応じて変更されるようにしてもよい。例えば高域が出にくい環境で再生する場合には強調量が多めにされ、高域が元々大きめに再生される環境では強調量が少なめにされるようにしてもよい。

子音強調部２８では、以上のようにして算出された強調量が用いられて、入力スペクトルの強調が行なわれる。

例えば、入力信号を強調する際に、入力信号の全ての帯域、または特定の定められた帯域に対して同じ強調量でスペクトルの強調を行なうと、子音成分だけでなくノイズ成分も同時に強調されてしまう。そうすると、強調後の音声は、ノイズ感の大きい不快な音声となってしまう。

そこで、子音強調装置１１では、背景ノイズが優位なスペクトルについては強調が行なわれないようにする。

具体的には、子音強調レベル計算部２７は、例えば図６に示すように、ノイズ抑圧スペクトルＳ（ｆ）の値が、背景ノイズスペクトルＮ（ｆ）の値の定位数倍よりも大きい場合にのみ強調が行なわれるようにする。

なお、図６において、折れ線Ｃ１１乃至折れ線Ｃ１３は、ノイズ抑圧スペクトルＳ（ｆ）、背景ノイズスペクトルＮ（ｆ）、および定数γが乗算された背景ノイズスペクトルＮ（ｆ）を示している。また、図中、横軸は周波数を示しており、縦軸はパワーまたは振幅を示している。

図６の例では、折れ線Ｃ１３により示される、背景ノイズスペクトルＮ（ｆ）に予め定められた定数γが乗算された値と、曲線Ｃ１１に示すノイズ抑圧スペクトルＳ（ｆ）の値とが周波数ごとに比較される。すなわち、子音強調レベル計算部２７は、定数γが乗算された背景ノイズスペクトルＮ（ｆ）と、ノイズ抑圧スペクトルＳ（ｆ）とを比較し、その比較結果と強調量を子音強調部２８に供給する。

この例では、図中、上方向を向く矢印が記されている周波数において、ノイズ抑圧スペクトルＳ（ｆ）が、背景ノイズスペクトルＮ（ｆ）の定数γ倍の値よりも大きくなっており、この部分のスペクトルが強調される。上向きの矢印は、周波数成分が強調される様子を表している。

このように背景ノイズスペクトルＮ（ｆ）との比較を行なうのは、子音フレームにおいて背景ノイズよりもパワーまたは振幅が大きい周波数帯域は子音成分が含まれている周波数帯域、つまり子音が関係している周波数帯域であるはずだからである。

また、ノイズ抑圧スペクトルＳ（ｆ）が背景ノイズスペクトルＮ（ｆ）の定数γ倍の値以下である周波数帯域は、子音等の音声よりも背景ノイズが優位な周波数帯域であるので、スペクトルの強調は行なわれない。

子音強調部２８は、子音強調レベル計算部２７からの比較結果に基づいて、ノイズ抑圧スペクトルＳ（ｆ）の値が、定数γが乗算された背景ノイズスペクトルＮ（ｆ）の値よりも大きい周波数についてのみ、入力スペクトルに強調量を乗算する。

このように、背景ノイズが優位なスペクトルについては強調を行わないようにすることで、強調後の音声の音質が、子音のみが強調されたように聞こえるものとなるように音声の子音部分を強調することができる。

但し、強調を行うスペクトルが歯抜けになるとミュージカルノイズと呼ばれる耳障りなノイズが発生する可能性があるため、周波数方向に強調量の補間を行うことが望ましい。例えば、強調量の補間は、ノイズ抑圧スペクトルＳ（ｆ）の値と、定数γが乗算された背景ノイズスペクトルＮ（ｆ）の値との比較結果に基づいて行なえばよい。

なお、図６では、定数γが１よりも大きい値である例について説明したが、定数γの値は、１より小さい値であってもよい。また、定数γの値は周波数ごとに異なる値とされるようにしてもよい。

以上のようにして、子音フレームにおける、背景ノイズが優位でない帯域のみスペクトルの強調を行なうと、強調後の入力スペクトルから、例えば図７に示す出力信号が得られる。なお、図７において縦軸は振幅を示しており、横軸は時間を示している。

図７では、矢印Ａ６１は、子音部分が強調される前の入力信号の時間波形を示しており、矢印Ａ６２は、子音部分が強調された出力信号の時間波形を示している。

この例では、矢印Ｑ１１乃至矢印Ｑ１９に示すように、入力信号の子音部分のレベルが強調されて、出力信号における、それらの子音部分と同じ部分のレベルが入力信号と比べてより大きくなっていることが分かる。

上述した従来の技術では、背景にノイズがある場合には、精度よく子音を検出することができなかった。これに対して、子音強調装置１１では、背景ノイズを抑圧したノイズ抑圧スペクトルを求め、少なくともノイズ抑圧スペクトルを用いて得られた特徴量に基づいて、周波数領域で子音を検出することで、より高精度に子音を検出することができる。

また、従来の技術では、音声信号の時間領域での増幅を行なっているため、背景にノイズがある場合には、子音だけでなくノイズも増幅されてしまう。そうすると、増幅後の音声を再生すると、子音ではなくノイズが強調されたように聞こえてしまう。つまり、従来の技術では、ノイズを考慮した強調が行なわれていないため、増幅により得られる音声はノイズ感だけが強くなったように聞こえるものとなってしまう。

これに対して、子音強調装置１１では、周波数領域において子音フレームの背景ノイズが優位な周波数帯域以外の周波数帯域を強調することで、子音のみを強調したような音声を得ることができる。つまり、より効果的に音声の強調を行なうことができる。

また、子音強調装置１１では、周波数領域で母音部パワーや現フレームパワーを算出するので、パワーの算出を行う際に全帯域を用いるのではなく、音声が含まれない帯域を除外するなど、特定周波数帯域を選択的に用いてパワーを算出することができ、より自由度の高い処理を行なうことができる。

〈子音強調処理について〉
ところで、子音強調装置１１に入力信号が供給され、入力信号の子音部分の強調が指示されると、子音強調装置１１は子音強調処理を行い、出力信号を生成する。

以下、図８のフローチャートを参照して、子音強調装置１１による子音強調処理について説明する。なお、子音強調処理は、入力信号のフレームごとに行われる。

ステップＳ１１において、時間周波数変換部２１は、供給された入力信号に対して時間周波数変換を行い、その結果得られた入力スペクトルを背景ノイズ推定部２２、ノイズ抑圧スペクトル計算部２３、子音強調レベル計算部２７、および子音強調部２８に供給する。

例えば、入力信号の処理対象のフレームである現フレームに対して窓関数が乗算され、さらに窓関数が乗算された信号が離散フーリエ変換されて入力スペクトルとされる。

ステップＳ１２において、背景ノイズ推定部２２は、時間周波数変換部２１からの入力スペクトルに基づいて背景ノイズ推定を行い、得られた背景ノイズスペクトルをノイズ抑圧スペクトル計算部２３、および子音強調レベル計算部２７に供給する。

例えば、上述した式（１）または式（２）の計算が行なわれ、背景ノイズスペクトルＮ（ｆ）が求められる。

ステップＳ１３において、ノイズ抑圧スペクトル計算部２３は、時間周波数変換部２１からの入力スペクトルと、背景ノイズ推定部２２からの背景ノイズスペクトルとに基づいてノイズ抑圧スペクトルを求め、ピッチ強度計算部２４、特徴量計算部２５、および子音強調レベル計算部２７に供給する。例えば、上述した式（３）の計算が行なわれて、ノイズ抑圧スペクトルＳ（ｆ）が求められる。

ステップＳ１４において、ピッチ強度計算部２４は、ノイズ抑圧スペクトル計算部２３からのノイズ抑圧スペクトルに基づいて入力信号のピッチ強度を算出し、特徴量計算部２５および子音検出部２６に供給する。

ステップＳ１５において、特徴量計算部２５は、少なくともノイズ抑圧スペクトル計算部２３から供給されたノイズ抑圧スペクトルを用いて特徴量を算出し、子音検出部２６に供給する。例えば、特徴量計算部２５は、図５を参照して説明したようにノイズ抑圧スペクトルを複数のバンドに分割し、各バンドの代表値を並べて得られるベクトルを特徴量とする。

ステップＳ１６において、子音検出部２６は子音検出処理を行なって現フレームの種別を特定し、その結果を子音強調レベル計算部２７に供給する。

ここで、図９のフローチャートを参照して、図８のステップＳ１６の処理に対応する子音検出処理について説明する。

ステップＳ５１において、子音検出部２６は、特徴量計算部２５から供給された特徴量を線形判別式に代入する。例えば、上述した式（４）に示す線形判別式に特徴量を構成する各要素ｂ_ｎが代入される。

ステップＳ５２において、子音検出部２６は、線形判別式への特徴量の代入結果が負の値であるか否かを判定する。

ステップＳ５２において代入結果が負であると判定された場合、ステップＳ５３において、子音検出部２６は、現フレームは子音フレームであるとして、その旨の子音検出結果を子音強調レベル計算部２７に供給する。子音検出結果が子音強調レベル計算部２７に供給されると、子音検出処理は終了し、その後、処理は図８のステップＳ１７に進む。

これに対して、ステップＳ５２において代入結果が負でないと判定された場合、ステップＳ５４において、子音検出部２６は、ピッチ強度計算部２４から供給されたピッチ強度が所定の閾値よりも大きいか否かを判定する。

ステップＳ５４において、ピッチ強度が閾値よりも大きいと判定された場合、ステップＳ５５において、子音検出部２６は、現フレームは母音フレームであるとして、その旨の子音検出結果を子音強調レベル計算部２７に供給する。子音検出結果が子音強調レベル計算部２７に供給されると、子音検出処理は終了し、その後、処理は図８のステップＳ１７に進む。

また、ステップＳ５４において、ピッチ強度が閾値以下であると判定された場合、ステップＳ５６において、子音検出部２６は、現フレームは子音フレームでも母音フレームでもない、その他のフレームであるとする。そして、子音検出部２６は、現フレームはその他のフレームである旨の子音検出結果を子音強調レベル計算部２７に供給する。子音検出結果が子音強調レベル計算部２７に供給されると、子音検出処理は終了し、その後、処理は図８のステップＳ１７に進む。

図８のフローチャートの説明に戻り、ステップＳ１６において子音検出が行なわれると、ステップＳ１７において、子音強調レベル計算部２７は強調量算出処理を行なって、その結果得られた強調量を子音強調部２８に供給する。

ここで、図１０のフローチャートを参照して、図８のステップＳ１７の処理に対応する強調量算出処理について説明する。

ステップＳ８１において、子音強調レベル計算部２７は、子音検出部２６からの子音検出結果に基づいて、現フレームは子音フレームであるか否かを判定する。

ステップＳ８１において、子音フレームではないと判定された場合、ステップＳ８２において、子音強調レベル計算部２７は、子音検出部２６からの子音検出結果に基づいて、現フレームは母音フレームであるか否かを判定する。

ステップＳ８２において、現フレームは母音フレームではないと判定された場合、つまり現フレームはその他のフレームであると判定された場合、入力スペクトルの強調量は出力されずに強調量算出処理は終了し、その後、処理は図８のステップＳ１８に進む。なお、この場合、現フレームは子音フレームではないので、ステップＳ１８では入力スペクトルの強調は行なわれない。

また、ステップＳ８２において、現フレームは母音フレームであると判定された場合、ステップＳ８３において、子音強調レベル計算部２７は、保持している母音部パワーと、時間周波数変換部２１からの入力スペクトルとに基づいて、母音部パワーを更新する。例えば、現フレームを含む過去の母音フレームの入力スペクトルのパワーの平均値が、更新後の母音部パワーとされ、子音強調レベル計算部２７に保持される。

母音部パワーが更新されると強調量算出処理は終了し、その後、処理は図８のステップＳ１８に進む。この場合においても、現フレームは子音フレームではないので、ステップＳ１８において入力スペクトルの強調は行なわれない。

さらに、ステップＳ８１において、現フレームが子音フレームであると判定された場合、ステップＳ８４の処理が行なわれる。

すなわち、ステップＳ８４において、子音強調レベル計算部２７は、保持している母音部パワーと、時間周波数変換部２１からの入力スペクトルとに基づいて強調量を算出し、子音強調部２８に供給する。例えば、上述した式（５）の計算が行なわれ、強調量が算出される。

ステップＳ８５において、子音強調レベル計算部２７は、背景ノイズ推定部２２からの背景ノイズスペクトルと、ノイズ抑圧スペクトル計算部２３からのノイズ抑圧スペクトルとを比較して、その比較結果を子音強調部２８に供給する。

例えば、図６を参照して説明したように、背景ノイズスペクトルＮ（ｆ）に定数γが乗算された値と、ノイズ抑圧スペクトルＳ（ｆ）の値とが周波数ごとに比較される。

背景ノイズスペクトルとノイズ抑圧スペクトルとの比較結果が子音強調部２８に供給されると、強調量算出処理は終了し、その後、処理は図８のステップＳ１８に進む。

図８のフローチャートの説明に戻り、ステップＳ１８において、子音強調部２８は、子音強調レベル計算部２７から供給された強調量を、時間周波数変換部２１から供給された入力スペクトルに乗算して入力スペクトルを強調し、周波数時間変換部２９に供給する。

より具体的には、子音強調部２８は、子音強調レベル計算部２７から供給された比較結果に基づいて、入力スペクトルのうち、背景ノイズが優位であるとされた周波数帯域以外の周波数帯域に強調量を乗算する。

なお、現フレームが子音フレームではない場合には、入力スペクトルの強調は行なわれず、子音強調部２８は、時間周波数変換部２１から供給された入力スペクトルをそのまま周波数時間変換部２９に供給する。

ステップＳ１９において、周波数時間変換部２９は、子音強調部２８から供給された入力スペクトルに対して周波数時間変換を行なって、入力スペクトルを時間信号である出力信号に変換し、出力する。出力信号が出力されると、子音強調処理は終了する。

以上のようにして、子音強調装置１１は、背景ノイズを抑圧したノイズ抑圧スペクトルを求め、ノイズ抑圧スペクトルから得られた特徴量に基づいて周波数領域で子音を検出するとともに、その検出結果に応じて子音フレームを強調する。

このようにノイズ抑圧スペクトルを用いて周波数領域で子音を検出することで、より高精度に子音を検出することができる。また、周波数領域において子音フレームの背景ノイズが優位な周波数帯域以外の周波数帯域を強調することで、より効果的に音声の強調を行なうことができる。

〈第１の実施の形態の変形例１〉
〈子音強調装置の構成例〉
なお、以上においては、入力スペクトルに基づいて強調量が算出されると説明したが、入力信号に基づいて、時間領域で強調量が算出されるようにしてもよい。

そのような場合、子音強調装置１１は、例えば図１１に示すように構成される。なお、図１１において、図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１１に示す子音強調装置１１は、供給された入力信号が子音強調レベル計算部２７にも供給される点で図１の子音強調装置１１と異なり、その他の点では図１の子音強調装置１１と同じ構成とされている。

図１１に示す子音強調装置１１では、子音強調レベル計算部２７は、供給された入力信号に基づいて、時間領域で母音部パワーや、子音フレームであるとされた現フレームの入力信号のパワーを算出する。したがって、式（５）に示した強調量は、時間信号である入力信号から算出されることになる。なお、例えば入力信号のパワーは、RMS（Root Mean Square）などとすればよい。

また、時間周波数変換部２１は、時間周波数変換により得られた入力スペクトルを背景ノイズ推定部２２、ノイズ抑圧スペクトル計算部２３、および子音強調部２８に供給する。

〈第１の実施の形態の変形例２〉
〈子音強調装置の構成例〉
さらに、以上においてはノイズ抑圧スペクトルに基づいて、入力信号のピッチ強度が算出される例について説明したが、入力信号に基づいて時間領域でピッチ強度が算出されるようにしてもよい。

そのような場合、子音強調装置１１は、例えば図１２に示すように構成される。なお、図１２において、図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１２に示す子音強調装置１１は、供給された入力信号がピッチ強度計算部２４にも供給される点で図１の子音強調装置１１と異なり、その他の点では図１の子音強調装置１１と同じ構成とされている。

図１２に示す子音強調装置１１では、ピッチ強度計算部２４は、供給された時間信号である入力信号の自己相関を求めることでピッチ強度を算出し、特徴量計算部２５および子音検出部２６に供給する。つまり、ピッチ強度計算部２４では、時間領域において、入力信号に基づいて算出された自己相関係数値が、そのままピッチ強度とされる。

また、ノイズ抑圧スペクトル計算部２３は、ノイズ抑圧により得られたノイズ抑圧スペクトルを特徴量計算部２５、および子音強調レベル計算部２７に供給する。

〈第１の実施の形態の変形例３〉
〈子音強調装置の構成例〉
さらに、強調量とピッチ強度の両方が時間領域で算出されるようにしてもよい。そのような場合、子音強調装置１１は、例えば図１３に示すように構成される。なお、図１３において、図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１３に示す子音強調装置１１は、供給された入力信号が時間周波数変換部２１の他に、ピッチ強度計算部２４、および子音強調レベル計算部２７にも供給される点で図１の子音強調装置１１と異なり、その他の点では図１の子音強調装置１１と同じ構成とされている。

図１３に示す子音強調装置１１では、時間周波数変換部２１は、時間周波数変換により得られた入力スペクトルを背景ノイズ推定部２２、ノイズ抑圧スペクトル計算部２３、および子音強調部２８に供給する。

ピッチ強度計算部２４は、供給された時間信号である入力信号に基づいてピッチ強度を算出し、特徴量計算部２５および子音検出部２６に供給する。また、ノイズ抑圧スペクトル計算部２３は、ノイズ抑圧により得られたノイズ抑圧スペクトルを特徴量計算部２５、および子音強調レベル計算部２７に供給する。

さらに、子音強調レベル計算部２７は、供給された入力信号に基づいて母音部パワーや、子音フレームであるとされた現フレームの入力信号のパワーを算出する。つまり、強調量が時間領域で計算される。

〈第２の実施の形態〉
〈子音検出装置の構成例〉
さらに、以上においては、入力信号から子音部分を検出し、子音のスペクトルを強調する子音強調装置に本技術を適用する例について説明したが、本技術は、入力信号から子音フレームを検出する子音検出装置に適用されるようにしてもよい。

そのような場合、子音検出装置は、例えば図１４に示すように構成される。なお、図１４において、図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１４の子音検出装置６１は、時間周波数変換部２１、背景ノイズ推定部２２、ノイズ抑圧スペクトル計算部２３、ピッチ強度計算部２４、特徴量計算部２５、および子音検出部２６から構成される。

時間周波数変換部２１は、供給された入力信号に対して時間周波数変換を行い、その結果得られた入力スペクトルを背景ノイズ推定部２２およびノイズ抑圧スペクトル計算部２３に供給する。

背景ノイズ推定部２２は、時間周波数変換部２１からの入力スペクトルに基づいて背景ノイズ推定を行い、その結果得られた背景ノイズスペクトルをノイズ抑圧スペクトル計算部２３に供給する。ノイズ抑圧スペクトル計算部２３は、時間周波数変換部２１からの入力スペクトルと、背景ノイズ推定部２２からの背景ノイズスペクトルとに基づいてノイズ抑圧スペクトルを求め、特徴量計算部２５に供給する。

ピッチ強度計算部２４は、供給された時間信号である入力信号に基づいて、時間領域においてピッチ強度を算出し、特徴量計算部２５および子音検出部２６に供給する。

特徴量計算部２５は、ノイズ抑圧スペクトル計算部２３からのノイズ抑圧スペクトルに基づいて、またはノイズ抑圧スペクトルと、ピッチ強度計算部２４からのピッチ強度とに基づいて特徴量を算出し、子音検出部２６に供給する。

子音検出部２６は、ピッチ強度計算部２４からのピッチ強度と、特徴量計算部２５からの特徴量とに基づいて、入力信号の子音区間を検出し、その検出結果を後段に出力する。すなわち、子音検出部２６では、例えば図９のフローチャートを参照して説明した子音検出処理と同様の処理が行なわれる。

このように子音検出装置６１においても、子音強調装置１１における場合と同様に、より精度よく入力信号から子音を検出することができる。

〈第２の実施の形態の変形例１〉
〈子音検出装置の構成例〉
また、図１４に示した子音検出装置６１では、ピッチ強度が時間領域で求められる例について説明したが、ピッチ強度が周波数領域で求められるようにしてもよい。

そのような場合、子音検出装置６１は、例えば図１５に示すように構成される。なお、図１５において、図１４における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１５に示す子音検出装置６１は、入力信号が時間周波数変換部２１のみに供給され、ノイズ抑圧スペクトル計算部２３からピッチ強度計算部２４にノイズ抑圧スペクトルが供給される点で図１４の子音検出装置６１と異なり、その他の点では図１４の子音検出装置６１と同じ構成とされている。

ノイズ抑圧スペクトル計算部２３は、背景ノイズの抑圧により得られたノイズ抑圧スペクトルをピッチ強度計算部２４、および特徴量計算部２５に供給する。

ピッチ強度計算部２４は、ノイズ抑圧スペクトル計算部２３から供給されたノイズ抑圧スペクトルに基づいて、周波数領域で入力信号のピッチ強度を算出し、特徴量計算部２５および子音検出部２６に供給する。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１６は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）３０１，ROM（Read Only Memory）３０２，RAM（Random Access Memory）３０３は、バス３０４により相互に接続されている。

バス３０４には、さらに、入出力インターフェース３０５が接続されている。入出力インターフェース３０５には、入力部３０６、出力部３０７、記録部３０８、通信部３０９、及びドライブ３１０が接続されている。

入力部３０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部３０７は、ディスプレイ、スピーカなどよりなる。記録部３０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部３０９は、ネットワークインターフェースなどよりなる。ドライブ３１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア３１１を駆動する。

以上のように構成されるコンピュータでは、CPU３０１が、例えば、記録部３０８に記録されているプログラムを、入出力インターフェース３０５及びバス３０４を介して、RAM３０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU３０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア３１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア３１１をドライブ３１０に装着することにより、入出力インターフェース３０５を介して、記録部３０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部３０９で受信し、記録部３０８にインストールすることができる。その他、プログラムは、ROM３０２や記録部３０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

［１］
入力信号の背景ノイズを推定する背景ノイズ推定部と、
前記背景ノイズの推定結果に基づいて、前記入力信号の前記背景ノイズを抑圧するノイズ抑圧部と、
前記背景ノイズが抑圧された前記入力信号に基づいて特徴量を算出する特徴量計算部と、
前記特徴量に基づいて、前記入力信号から子音を検出する子音検出部と
を備える音声処理装置。
［２］
前記背景ノイズ推定部は、周波数領域で前記背景ノイズを推定し、
前記ノイズ抑圧部は、前記入力信号から得られた入力スペクトルに含まれる前記背景ノイズを抑圧することでノイズ抑圧スペクトルを求め、
前記特徴量計算部は、前記ノイズ抑圧スペクトルに基づいて前記特徴量を算出する
［１］に記載の音声処理装置。
［３］
前記背景ノイズ推定部は、過去の前記入力スペクトルの平均値を求めることで前記背景ノイズを推定する
［２］に記載の音声処理装置。
［４］
前記ノイズ抑圧スペクトルの値が、前記背景ノイズの推定により得られた背景ノイズスペクトルを定数倍した値よりも大きい周波数について、前記入力スペクトルの強調を行なう子音強調部をさらに備える
［２］または［３］に記載の音声処理装置。
［５］
前記子音強調部は、予め定められた強調量で前記入力スペクトルの強調を行なう
［４］に記載の音声処理装置。
［６］
前記入力信号の過去の母音部分のパワーの平均値と、前記入力信号の現在のパワーとの比に基づいて強調量を算出する子音強調レベル計算部をさらに備え、
前記子音強調部は、前記強調量で前記入力スペクトルの強調を行なう
［４］に記載の音声処理装置。
［７］
周波数方向に対して前記強調量の補間が行なわれる
［５］または［６］に記載の音声処理装置。
［８］
前記ノイズ抑圧部は、スペクトルサブトラクション法により前記ノイズ抑圧スペクトルを求める
［２］乃至［７］の何れかに記載の音声処理装置。
［９］
前記入力信号のピッチ強度がさらに前記特徴量として用いられ、
前記子音検出部は、前記特徴量としての前記ピッチ強度と、前記ノイズ抑圧スペクトルに基づいて算出された前記特徴量とに基づいて、前記入力信号から子音を検出する
［２］乃至［８］の何れかに記載の音声処理装置。
［１０］
前記ピッチ強度は、前記ノイズ抑圧スペクトルのピークが、ピッチ周波数位置と、ピッチ周波数の倍音周波数位置とに発生している度合いで表される
［９］に記載の音声処理装置。
［１１］
前記ピッチ強度は、前記入力信号の自己相関係数値である
［９］に記載の音声処理装置。
［１２］
前記特徴量計算部は、前記ノイズ抑圧スペクトルの周波数帯域を複数のバンドに分割し、前記バンドにおける前記ノイズ抑圧スペクトルの代表値に基づいて前記特徴量を算出する
［２］乃至［１１］の何れかに記載の音声処理装置。
［１３］
前記ノイズ抑圧スペクトルはパワースペクトルである
［１２］に記載の音声処理装置。
［１４］
前記ノイズ抑圧スペクトルは振幅スペクトルである
［１２］に記載の音声処理装置。
［１５］
前記代表値は、前記バンドにおける前記ノイズ抑圧スペクトルの平均値である
［１２］乃至［１４］の何れかに記載の音声処理装置。
［１６］
前記代表値は、前記バンドにおける前記ノイズ抑圧スペクトルの最大値である
［１２］乃至［１４］の何れかに記載の音声処理装置。
［１７］
前記特徴量計算部は、前記ノイズ抑圧スペクトルにおける前記バンドの前記代表値の時間差分値を前記特徴量として算出する
［１２］乃至［１６］の何れかに記載の音声処理装置。

１１子音強調装置，２１時間周波数変換部，２２背景ノイズ推定部，２３ノイズ抑圧スペクトル計算部，２４ピッチ強度計算部，２５特徴量計算部，２６子音検出部，２７子音強調レベル計算部，２８子音強調部，２９周波数時間変換部，６１子音検出装置

Claims

入力信号の背景ノイズを推定する背景ノイズ推定部と、
前記背景ノイズの推定結果に基づいて、前記入力信号の前記背景ノイズを抑圧するノイズ抑圧部と、
前記背景ノイズが抑圧された前記入力信号に基づいて特徴量を算出する特徴量計算部と、
前記特徴量に基づいて、前記入力信号から子音を検出する子音検出部と
を備える音声処理装置。
前記背景ノイズ推定部は、周波数領域で前記背景ノイズを推定し、
前記ノイズ抑圧部は、前記入力信号から得られた入力スペクトルに含まれる前記背景ノイズを抑圧することでノイズ抑圧スペクトルを求め、
前記特徴量計算部は、前記ノイズ抑圧スペクトルに基づいて前記特徴量を算出する
請求項１に記載の音声処理装置。
前記背景ノイズ推定部は、過去の前記入力スペクトルの平均値を求めることで前記背景ノイズを推定する
請求項２に記載の音声処理装置。
前記ノイズ抑圧スペクトルの値が、前記背景ノイズの推定により得られた背景ノイズスペクトルを定数倍した値よりも大きい周波数について、前記入力スペクトルの強調を行なう子音強調部をさらに備える
請求項３に記載の音声処理装置。
前記子音強調部は、予め定められた強調量で前記入力スペクトルの強調を行なう
請求項４に記載の音声処理装置。
前記入力信号の過去の母音部分のパワーの平均値と、前記入力信号の現在のパワーとの比に基づいて強調量を算出する子音強調レベル計算部をさらに備え、
前記子音強調部は、前記強調量で前記入力スペクトルの強調を行なう
請求項４に記載の音声処理装置。
周波数方向に対して前記強調量の補間が行なわれる
請求項６に記載の音声処理装置。
前記ノイズ抑圧部は、スペクトルサブトラクション法により前記ノイズ抑圧スペクトルを求める
請求項２に記載の音声処理装置。
前記入力信号のピッチ強度がさらに前記特徴量として用いられ、
前記子音検出部は、前記特徴量としての前記ピッチ強度と、前記ノイズ抑圧スペクトルに基づいて算出された前記特徴量とに基づいて、前記入力信号から子音を検出する
請求項２に記載の音声処理装置。
前記ピッチ強度は、前記ノイズ抑圧スペクトルのピークが、ピッチ周波数位置と、ピッチ周波数の倍音周波数位置とに発生している度合いで表される
請求項９に記載の音声処理装置。
前記ピッチ強度は、前記入力信号の自己相関係数値である
請求項９に記載の音声処理装置。
前記特徴量計算部は、前記ノイズ抑圧スペクトルの周波数帯域を複数のバンドに分割し、前記バンドにおける前記ノイズ抑圧スペクトルの代表値に基づいて前記特徴量を算出する
請求項２に記載の音声処理装置。
前記ノイズ抑圧スペクトルはパワースペクトルである
請求項１２に記載の音声処理装置。
前記ノイズ抑圧スペクトルは振幅スペクトルである
請求項１２に記載の音声処理装置。
前記代表値は、前記バンドにおける前記ノイズ抑圧スペクトルの平均値である
請求項１２に記載の音声処理装置。
前記代表値は、前記バンドにおける前記ノイズ抑圧スペクトルの最大値である
請求項１２に記載の音声処理装置。
前記特徴量計算部は、前記ノイズ抑圧スペクトルにおける前記バンドの前記代表値の時間差分値を前記特徴量として算出する
請求項１２に記載の音声処理装置。
入力信号の背景ノイズを推定し、
前記背景ノイズの推定結果に基づいて、前記入力信号の前記背景ノイズを抑圧し、
前記背景ノイズが抑圧された前記入力信号に基づいて特徴量を算出し、
前記特徴量に基づいて、前記入力信号から子音を検出する
ステップを含む音声処理方法。
入力信号の背景ノイズを推定し、
前記背景ノイズの推定結果に基づいて、前記入力信号の前記背景ノイズを抑圧し、
前記背景ノイズが抑圧された前記入力信号に基づいて特徴量を算出し、
前記特徴量に基づいて、前記入力信号から子音を検出する
ステップを含む処理をコンピュータに実行させるプログラム。