JP2000250599A

JP2000250599A - 音響特徴抽出方法及び装置

Info

Publication number: JP2000250599A
Application number: JP11056879A
Authority: JP
Inventors: Tsuneo Nitta; 恒雄新田; Takeshi Inoue; 雄井上
Original assignee: Toshiba Corp; Toshiba Computer Engineering Corp
Current assignee: Toshiba Corp; Toshiba Computer Engineering Corp
Priority date: 1999-03-04
Filing date: 1999-03-04
Publication date: 2000-09-14

Abstract

(57)【要約】【課題】音声認識、話者認識、あるいは音響信号に基づ
くモデル同定などの性能を飛躍的に向上させる音響特徴
を抽出できるようにする。【解決手段】入力された音声信号をＢＰＦ群１にて周波
数分析することで時間−スペクトルパターンに変換す
る。ピーク強調器２は、この時間−スペクトルパターン
に対して周波数方向及び時間方向の両方向にピーク強調
する２次元のピーク強調オペレータ２０を適用すること
で、ピーク強調された時間−スペクトルパターンを取得
する。音響特徴抽出器３は、このピーク強調された時間
−スペクトルパターンに対してそれぞれ方向の異なる微
分オペレータ３０-1〜３０-4を適用することで、当該時
間−スペクトルパターンからそれぞれ異なる音響事象Ｒ
Ｆ，ＡＦ，ＤＦ，ＳＰを投影した４つの音響特徴平面か
らなる複合音響特徴平面（ＭＡＦＰ）を抽出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、雑音環境下におい
て音響信号から聴覚的に重要な特徴を抽出するのに好適
な音響特徴抽出方法及び装置に関する。

【０００２】

【従来の技術】音声認識等で適用される音響信号から抽
出する特徴としては、周波数分析によって得られる時間
−スペクトルパターン（もしくは時間−ケプストラムパ
ターン）が最も一般的である。

【０００３】一方、近年、動的特徴の重要性が指摘され
るようになると、例えば文献 K.Elenius and M.Blomber
g,"Effect of emphasizing transitional or stationar
y parts of the speech signal in a discrete utteran
ce recognition system",IEEE Proc.ICASSSP'82,pp.535
-538(1982) 、文献 S.Furui,"Speaker-indepebdent iso
lated word recognition using dynamic features of s
peech spectrum",IEEETrans.Acoust.Speech Signal Pro
cess.ASSP-34,1,pp.52-59(1986) に記載されているよう
に、時間方向の変化量（微分値、実際には差分値。時間
方向の変動から回帰直線の傾きを計算して使うこともあ
る）を、時間−スペクトルパターンと共に音響特徴とし
て使用することが多くなった。

【０００４】

【発明が解決しようとする課題】上記した従来から用い
られている特徴パラメータ（時間−スペクトルパラメー
タ、もしくは時間−スペクトルパラメータ＋動的パラメ
ータ）は、音響信号が内包する特徴を陽に表現している
わけではない。

【０００５】そこで本出願人は、特願平１０−５３４６
２号において、時間−スペクトルパターンに対して方向
の異なる複数の空間微分オペレータを適用して、所定の
それぞれ異なる音響事象を投影した複数の音響特徴平面
（複合音響平面）を抽出することで、音声認識、話者認
識、あるいは音響信号に基づくモデル同定などの性能を
飛躍的に向上させるようにした音響特徴抽出方法及び同
方法を適用した音声認識装置を提案している。

【０００６】さて、上記した従来の特徴パラメータ（時
間−スペクトルパラメータ、もしくは時間−スペクトル
パラメータ＋動的パラメータ）は音響信号が内包する特
徴を陽に表現していないだけでなく、時間一周波数パタ
ーンに重畳する様々なノイズや、主に周波数特性の変化
に起因する時間一周波数パターンの変形に弱いという問
題がある。

【０００７】一方、上記特願平１０−５３４６２号に記
載の発明（以下、先願発明と称する）で抽出される複合
音響特徴平面は、音響信号が内包する特徴を陽に表現し
ているものの、時間−スペクトルパターンの時間−周波
数−振幅の３次元空間に対して、局所的な空間微分オペ
レータを適用して抽出されることから、周波数特性の変
形には比較的強いものの、雑音環境下でのノイズ重畳に
は弱いという問題がある。

【０００８】本発明は上記事情を考慮してなされたもの
でその目的は、雑音環境下においても音声認識、話者認
識、あるいは音響信号に基づくモデル同定などの性能を
飛躍的に向上させる音響特徴抽出方法及び装置を提供す
ることにある。

【０００９】

【課題を解決するための手段】本発明は、入力された音
響信号を時間−スペクトルパターンに変換し、この時間
−スペクトルパターンに対して周波数方向及び時間方向
の両方向にピーク強調して、ピーク強調された時間−ス
ペクトルパターンを抽出することを特徴とする。

【００１０】このように、音響信号を例えば周波数分析
することにより当該音響信号を時間−スペクトルパター
ンに変換した後に、この時間−スペクトルパターンに対
して周波数方向及び時間方向の両方向にピーク強調する
ことで、周波数方向の有意なピーク（例えば母音のホル
マント）及び時間方向の有意なピーク（例えば子音の破
裂など）が強調された時間−スペクトルパターンを抽出
することができ、白色ノイズのような定常的ノイズの重
畳下でも安定した音響特徴の抽出が可能となる。つま
り、抽出される音響特徴パラメータをノイズに対して頑
健にすることができる。

【００１１】ここで、ピーク強調された時間−スペクト
ルパターンを抽出するには、音響信号から得られる時間
−スペクトルパターンに対して周波数方向及び時間方向
の２次元の空間フィルタを適用し、周波数方向及び時間
方向のスペクトルピークを抽出するとよい。空間フィル
タとは、時間−スペクトルパターンの１点Ｘ(t,f)（ｔ
は時間、ｆは周波数）の性質を、近傍の点Ｘ(t+i,f+j)
（例えば、隣接する点は８つある）を使って表現するも
のである。

【００１２】また本発明は、音響信号から得られる時間
−スペクトルパターンを直接ピーク強調するのではな
く、一旦当該時間−スペクトルパターンからカラードノ
イズ（白色ノイズと異なり、周波数特性を持つ雑音）、
あるいは非定常なノイズ（単発的ノイズを除く）を除去
する前処理（ノイズ抑制処理）を行い、その前処理が施
された（即ちノイズが除去された）時間−スペクトルパ
ターンをピーク強調するようにしたことをも特徴とす
る。

【００１３】このように、ノイズ抑制の前処理の後にピ
ーク強調を行うことにより、当該ピーク強調による悪影
響、例えばノイズのピークまで強調されることを抑える
ことができ、ノイズ重畳下でも安定した音響特徴を抽出
できる。

【００１４】ここで、本発明に利用するノイズ抑制の前
処理には、一般的なスペクトルサブトラクション（Ｓ
Ｓ）が適用可能であるが、後述するようにノイズのスペ
クトルを下限とする足切り処理の適用がより有効であ
る。

【００１５】また本発明は、ピーク強調された時間−ス
ペクトルパターンに方向の異なる複数の微分オペレータ
を適用することにより、所定のそれぞれ異なる音響事象
を投影した複数の音響特徴平面を抽出するようにしたこ
とをも特徴とする。つまり本発明の特徴は、これまで利
用されてこなかった時間−スペクトルパターンの位相構
造を音響特徴として抽出するようにした点にもある。

【００１６】ここでの位相構造とは、それぞれ異なる音
響事象を投影した複数の音響特徴平面を指す。音響事象
の代表的なものとして、次のような４つの型の音響事
象、即ち（１）音勢力（音声パワー）の急激な増大もし
くは減少音（sharply rising(on-type) or falling(off
-type) sound、以下、ＲＦと称する）、（２）急激な上
昇ＦＭ（周波数変調）音（sharply ascending FM soun
d、以下、ＡＦと称する）、（３）急激な下降ＦＭ音（s
harply descending FM sound、以下、ＤＦと称する）、
（４）スペクトルピークを持つ定常的あるいは緩やかに
変化する音（steady or slowly-changing sound with s
pectral peaks、以下ＳＰと称する）がある。

【００１７】この４つの音響事象は、聴覚神経系に関す
る研究において、文献 T.Hashimoto,Y.Katayama,K.Mura
ta,and I.Taniguchi,"Pitch-syncronous response of c
atcochlear nerve fibers to speech sounds",Jpn.J.Ph
ysiol.,25,pp.634-644(1975)、文献 T.Watanabe,Jpn.J.
Physiol.,22.pp.569-583(1972)に記載されているよう
に、対応する聴覚神経系が存在することが知られてい
る。また、この４つの音響事象は、文献 P.Ladefoged,"
A course in phonetics",2nd Edit.,New York:Harcour
t,Brace,Jovanovich(1982) に記載されているように、
音声学上（音韻判別上）も重要な特徴とされてきた。し
かし従来は、時間−スペクトルパターンから、このよう
な音響事象を抽出することは全く考えられていなかっ
た。なお、上記以外の音響事象としては、ピッチ（声帯
音源の持つ基本周波数）等がある。

【００１８】本発明において、ピーク強調された時間−
スペクトルパターンから抽出される複数の音響特徴平面
は、音声学上重要な特徴を反映しているため、入力音声
の音響特徴として元の時間−スペクトルパターンを併用
しないで済み、頑健な音響特徴を取得できる。

【００１９】

【発明の実施の形態】以下、本発明の実施の形態につ
き、音声認識装置に適用した場合を例に図面を参照して
説明する。

【００２０】［第１の実施形態］図１は本発明の第１の
実施形態に係る音声認識装置の全体構成を示すブロック
図である。

【００２１】図１において、１は周波数分析手段として
の帯域通過フィルタ群（以下、ＢＰＦ群と称する）であ
る。話者が発声した音声は、マイクロホン等を含む音声
入力手段（図示せず）により入力されて音声信号（音響
信号）に変換され、その音声信号はＢＰＦ群１により周
波数分析される。ここではＢＰＦ群１は、２６の周波数
チャネル（＃１〜＃２６）のＢＰＦ（帯域通過フィル
タ）から構成されており、８ｍｓ毎に２６チャネルの周
波数分析結果を出力する。

【００２２】このＢＰＦ群１の周波数分析結果のパター
ンを、時間−スペクトルパターンＸ(t,f)と呼ぶ（ｔは
時間、ｆは周波数）。つまりＢＰＦ群１は、入力音声
（入力音響信号）を周波数分析して時間−スペクトルパ
ターンＸ(t,f)に変換する。

【００２３】ＢＰＦ群１から出力される時間−スペクト
ルパターンＸ(t,f)は、ピーク強調器２に入力される。
ピーク強調器２は、図１の例では、後述する３×３のラ
プラシアン（２次微分オペレータ）とサンプル関数δ
(i,j)（ｉ，ｊは各々−１，０，１の値をとる）を組み
合わせた３×３の２次元の空間フィルタ（以下、ピーク
強調オペレータと称する）２０により構成されている。

【００２４】ここで、ピーク強調オペレータ２０の機能
について説明する。まず、時間−スペクトルパターンＸ
(t,f)は、次式（１）に示す８つの近傍を持っている。

【００２５】

【数１】

【００２６】ピーク強調オペレータ２０（により構成さ
れるピーク強調器２）から出力される新たな時間−スペ
クトルパターンＸ'(t,f)は、次式（２）に従って計算さ
れる。

【００２７】

【数２】

【００２８】ここでＷ(i,j)はＸ'(t,f)に対応したピー
ク強調オペレータ２０の係数で、図１中に、その例を示
してある。

【００２９】図２にピーク強調オペレータ（空間オペレ
ータ）２０の構成例を示す。このピーク強調オペレータ
２０は、図２（ａ）〜（ｃ）の例のように、３×３のラ
プラシアンＷ'(i,j)とサンプリング関数δ(i,j)を一定
比率Ａで加えた係数を持つ。したがって、ピーク強調オ
ペレータ２０によりピーク強調された時間−スペクトル
パターンＸ'(t,f)は、正確には次式（３）から求められ
る。

【００３０】

【数３】

【００３１】サンプリング関数δ(i,j)に一定比率（振
幅）Ａを乗じた新たなサンプリング関数Ａδ(i,j)は、
ラプラシアンＷ'(i,j)を用いた２次微分による時間−ス
ペクトルパターンＸ(t,f)に対するピーク強調の割合、
即ちラプラシアンＷ'(i,j)によるピーク強調の影響を決
定するためのものである。ここでは、Ａの値が小さいほ
どピーク強調の影響が大きくなる。

【００３２】図２のピーク強調オペレータ２０の例で
は、図２（ａ）が振幅Ａ＝６とし、図２（ｂ）が振幅Ａ
＝４とし、図２（ｃ）が振幅Ａ＝１とした場合を示して
いる。ここでは、Ａ＝１とした図２（ｃ）のピーク強調
オペレータ２０を適用する場合が、最もピーク値（ラプ
ラシアンによって求められる値）の影響（割合）が大き
くなる。

【００３３】このように、ＢＰＦ群１の出力である時間
−スペクトルパターンＸ(t,f)に対して図２の構成のピ
ーク強調オペレータ２０、つまり２次元の空間オペレー
タを適用することにより、周波数方向の有意なピーク
（具体的には母音のホルマント）を強調すると共に、時
間方向の有意なピーク（具体的には母音に先行する子音
の破裂など）を強調することで、定常的なノイズ重畳下
でも安定した音響特徴を抽出できる。

【００３４】なお、ピーク強調器２には、図２の構成の
ピーク強調オペレータ２０の他に、５×５の空間フィル
タやｎ値（ｎは３以外の整数、図２の例はｎ＝３）の空
間オペレータを用いることも可能である。これらは処理
対象に応じて適宜選択して使用すればよく、要するに２
次元の空間フィルタを使用してピーク強調すればよい。

【００３５】さて、ピーク強調器２のピーク強調オペレ
ータ２０でピーク強調された時間−スペクトルパターン
Ｘ'(t,f)は音響特徴抽出器３に入力される。音響特徴抽
出器３は、方向の異なる４つの微分オペレータ（空間微
分オペレータ）３０-1〜３０-4で構成されており、時間
−スペクトルパターンＸ'(t,f)に当該微分オペレータ３
０-1〜３０-4を適用することで、それぞれ異なる音響事
象を投影した４つの特徴平面、つまり音響特徴平面（ac
oustic-feature plane、以下、ＡＦＰと称する）を抽出
する。

【００３６】本実施形態において、微分オペレータ３０
-1，３０-2，３０-3，３０-4には、それぞれ前記した４
つの音響事象ＲＦ（音勢力の急激な増大もしくは減少
音），ＡＦ（急激な上昇ＦＭ音），ＤＦ（急激な下降Ｆ
Ｍ音），ＳＰ（スペクトルピークを持つ定常的あるいは
緩やかに変化する音）が対応している。

【００３７】ここでは、微分オペレータ３０-1〜３０-4
として、図１に示すように３×３の３値微分オペレータ
を使用している。例えば微分オペレータ３０-1には、対
応する音響事象ＲＦが時間方向（ｔ）に変化することか
ら時間方向（ｔ）の変化を検知する３値微分オペレータ
が用いられ、微分オペレータ３０-4には、対応する音響
事象ＳＰが周波数方向（ｆ）に変化することから周波数
方向（ｆ）の変化を検知する３値微分オペレータが用い
られる。また、微分オペレータ３０-2，３０-3には、対
応する音響事象ＡＦ，ＤＦが時間方向（ｔ）及び周波数
方向（ｆ）の両方向に共に変化することから、時間方向
（ｔ）及び周波数（ｆ）方向の同時変化を検知する３値
微分オペレータが用いられる。但し、ＡＦとＤＦとでは
変化方向が逆のため、使用する３値微分オペレータは異
なる。

【００３８】ここで微分オペレータ３０-i（ｉ＝１〜
４）の機能を簡単に説明する。

【００３９】まず、時間−スペクトルパターンＸ'(t,f)
は、（１）式に示した前記−スペクトルパターンＸ(t,
f)と同様に８つの近傍を持っている。

【００４０】音響特徴抽出器３（内の微分オペレータ３
０-1〜３０-4）から出力される、音響事象ＲＦ，ＡＦ，
ＤＦ，ＳＰを投影した４つの音響特徴平面（以下、ＲＦ
−ＡＦＰ，ＡＦ−ＡＦＰ，ＤＦ−ＡＦＰ，ＳＰ−ＡＦＰ
と称する）の要素Ｘ"(t,f)は、次式（４）に従って計算
される。

【００４１】

【数４】

【００４２】ここでＷ"(ｉ,ｊ)は各ＡＦＰのＸ"(t,f)に
対応した３値微分オペレータの係数（ｉ，ｊは各々−
１，０，１の値をとる）で、図１中の微分オペレータ３
０-1〜３０-4に、その例を示してある。Ｘ"(t,f)の正の
値は正の傾きを、負の値は負の傾きを意味する。そこ
で、例えば定常音中の明瞭なスペクトルピークは、ＳＰ
−ＡＦＰ上の正と負の値のペアで表される。

【００４３】微分オペレータ３０-1〜３０-4に３×３の
３値微分オペレータを使用した例では、３×３近傍内に
は１つの音響事象しか含まれないようにする必要があ
る。そのためには、ＢＰＦ群１を構成する各周波数チャ
ネルのＢＰＦ（帯域通過フィルタ）の中心周波数とフレ
ーム周期を、多くの時間−スペクトルパターンを観察す
ることで最適な値に設定すればよい。

【００４４】さて、音響特徴抽出器３からは上記したよ
うに４つの音響特徴平面（ＡＦＰ）、つまりＲＦ−ＡＦ
Ｐ，ＡＦ−ＡＦＰ，ＤＦ−ＡＦＰ，ＳＰ−ＡＦＰが出力
される。この４つの音響特徴平面（ＡＦＰ）全体を、複
合音響特徴平面（multiple acoustic-feature planes）
と呼ぶ。複合音響特徴平面（以下、ＭＡＦＰと称する）
は、元の時間−スペクトルパターン（時間−スペクトラ
ム）が各時刻（８ｍｓ単位）毎に２６個のスペクトラム
パラメータから構成されていたのに対し、４倍の１０４
個のスペクトラムパラメータからなる。

【００４５】音響特徴抽出器３から出力された４つのＡ
ＦＰ（ＲＦ−ＡＦＰ，ＡＦ−ＡＦＰ，ＤＦ−ＡＦＰ，Ｓ
Ｐ−ＡＦＰ）からなるＭＡＦＰのパラメータは分類器４
に導かれる。分類器４には、標準パターンが予め登録さ
れた標準パターン記憶部（標準パターン辞書）５が接続
されている。この標準パターンには、既知の音声（音
韻、単語、文節、文など）からＢＰＦ群１及び音響特徴
抽出器３（または当該ＢＰＦ群１及び音響特徴抽出器３
と同様の手段）を用いて抽出された、当該音声の特徴を
表す（４つのＡＦＰからなる）ＭＡＦＰが利用される。

【００４６】分類器４は、音響特徴抽出器３から出力さ
れたＭＡＦＰのパラメータ（特徴ベクトル）を標準パタ
ーン記憶部５に登録されている各標準パターンと比較す
ることで、最も近い標準パターンのカテゴリ（音韻、単
語、文節、文など）を認識結果として出力する。

【００４７】ここで、音響特徴抽出器３を実現する４つ
の微分オペレータの構成例について説明する。まず、図
１でも示した微分オペレータ３０-1〜３０-4は、図３
（ａ）に示すように、３×３の３値微分オペレータであ
り、時間方向（ｔ）、周波数方向（ｆ）とも対称な係数
を持ち、且つ同時に平滑が行われるように構成されてい
た。しかし、音響特徴抽出器３を構成する４つの微分オ
ペレータの構成は、図３（ａ）の構成に限るものではな
い。

【００４８】例えば、図３（ｂ）に示すような３×３の
５値微分オペレータ３１-1〜３１-4を、（微分オペレー
タ３０-1〜３０-4に代えて）用い、同じような３×３の
微分オペレータでも、重み付き平滑が行われる構成とし
てもよい。また、図３（ｃ）に示すような、前後の係数
を０とする３×３の３値微分オペレータ３２-1〜３２-4
を、（微分オペレータ３０-1〜３０-4に代えて）用いる
ことで、平滑を行わない構成であっても構わない。この
他に、５×５の微分フィルタやｎ値（ｎは３と５以外の
整数）の微分オペレータを用いることも可能であり、こ
れらは処理対象に応じて適宜選択して使用すればよく、
要するに微分オペレータを使用して音響特徴を抽出すれ
ばよい。

【００４９】図４に図１の構成の音声認識装置における
認識性能の評価結果をピーク強調しなかった場合と対比
して示す。なお本実施形態では、４つのＡＦＰ（音響特
徴平面）からなるＭＡＦＰ（複合音響特徴平面）を使用
するため、そのＭＡＦＰのパラメータ（音響特徴パラメ
ータ）は、元の時間−スペクトルパターン（ＴＳ）に比
べて４倍となり、次元数が大きくなる。そこで実際に
は、分類器４での計算量を減らすために、音響特徴抽出
器３と分類器４との間に圧縮器（図示せず）を設け、例
えば周知のＫＬ変換を用いた統計的圧縮手法（ＫＬ圧縮
手法）により、４つのＡＦＰからなるＭＡＦＰの次元数
を圧縮して、つまりＭＡＦＰの特徴ベクトルを縮小特徴
ベクトルに置き換えて、分類器４に出力するようにして
いる。

【００５０】図４の例は、ＭＡＦＰの音響特徴パラメー
タをＫＬ圧縮で３２次元と４８次元に圧縮し、それぞれ
ピーク強調しなかった場合と、図２（ｂ），（ｃ）の構
成のピーク強調オペレータ２０でピーク強調した場合に
ついて、誤認識率の評価結果を示したものである。図か
ら明らかなように、図２（ｃ）の構成のピーク強調オペ
レータ２０によりピーク強調した場合が最も誤認識率が
低く、ピーク強調の影響が大きいほど認識率が良くなっ
ていることが分かる。

【００５１】以上に述べた実施形態では、ピーク強調器
２によりピーク強調された時間−スペクトルパターン
Ｘ'(t,f)を音響特徴抽出器３に入力して、方向の異なる
４つの微分オペレータ３０-1〜３０-4を適用すること
で、それぞれ異なる音響事象を投影した４つの音響特徴
平面（ＲＦ−ＡＦＰ，ＡＦ−ＡＦＰ，ＤＦ−ＡＦＰ，Ｓ
Ｐ−ＡＦＰ）を抽出し、それを分類器４での認識処理に
用いる場合について説明したが、これに限るものではな
い。例えば音響特徴抽出器３を省略して、ピーク強調器
２の出力をそのまま分類器４での認識処理に用いる構成
としても構わない。この構成においても、図２（ｃ）の
構成のピーク強調オペレータ２０によりピーク強調した
場合が最も誤認識率が低く、ピーク強調の影響が大きい
ほど認識率が良くなる傾向は変わらない。但し、音響特
徴抽出器３を省略した構成では、周波数特性の変形に弱
いため誤認識率自体は上記実施形態より低下した。

【００５２】［第２の実施形態］前記した第１の実施形
態では、ピーク強調器２（内のピーク強調オペレータ２
０）によるピーク強調の効果を（Ａの値を小さくするこ
とで）高めようとすると、雑音も強調される。このた
め、ピーク強調器２を用いたピーク強調は、使用環境の
違い（マイクロホンの違い、マイクロホンと発話者との
距離の違い、音響伝送特性の違いなど）及び白色ノイズ
のように周波数方向、時間方向に一様なノイズ重畳には
効果があるものの、非定常的な雑音環境下ではその影響
が大きくなる。

【００５３】そこで、ピーク強調器２によるピーク強調
の効果を確保しながら、カラードノイズあるいは非定常
なノイズの影響を排除するのを可能とした本発明の第２
の実施形態について説明する。

【００５４】図５は本発明の第２の実施形態に係る音声
認識装置の全体構成を示すブロック図であり、図１と同
一部分には同一符号を付してある。

【００５５】図５の構成の特徴は、ＢＰＦ群１とピーク
強調器２との間にノイズ除去器６を設け、ＢＰＦ群１か
ら出力される時間−スペクトルパターンより予めノイズ
を除去してピーク強調器２に入力することで、当該ピー
ク強調器２によるピーク強調時にノイズが強調されるの
を抑えるようにした点にある。

【００５６】ノイズ除去器６としては、ノイズスペクト
ルの平均値Ｎ(f)を求め、これを時間−スペクトルパタ
ーンから減衰する一般的な手法（スペクトルサブトラク
ション）、あるいはノイズスペクトルの平均値を下限と
して、この平均値より小さい値のスペクトルパターンを
平均値に置き換える足切り手法が適用可能である。但
し、ピーク強調器２の出力側に設けられる、音響特徴抽
出器３でのＭＡＦＰを特徴パラメータとする特徴抽出を
考慮すると、後者の足切り手法が有効であった。

【００５７】ＢＰＦ群１とピーク強調器２との間にノイ
ズ除去器６を設け、ピーク強調器２によるピーク強調時
にノイズのピークが強調されるのを抑えることにより、
図１の構成のように音響特徴抽出器３による音響特徴抽
出をノイズ除去器６を用いずに行う場合に比べて、ノイ
ズを減らし、母音の前に出現する子音（特に破裂音な
ど）を強調することができる。このため、ノイズが重畳
された音声でも、安定して音響特徴を抽出することが可
能になる。

【００５８】以上の実施形態で述べた、ピーク強調器２
によるピーク強調処理、音響特徴抽出器３による音響特
徴平面（ＡＦＰ）抽出処理、分類器４による入力音声の
認識（識別）処理、さらにはノイズ除去器６によるノイ
ズ除去（抑制）処理は、マイクロホンを含む音声入力手
段、及びＢＰＦ群１に相当する周波数分析手段を内蔵し
たプログラム読み取り可能なコンピュータ、例えば図６
に示すようなマイクロホン６２を備えたパーソナルコン
ピュータ６０に、当該処理を実行させるためのプログラ
ムを記録した記録媒体、例えばＣＤ−ＲＯＭ６１を装着
して、当該ＣＤ−ＲＯＭ６１に記録されているプログラ
ムをパーソナルコンピュータ６０で読み取り実行させる
ことによっても実現される。なお、プログラムを記録し
た記録媒体としては、ＣＤ−ＲＯＭ６１の他に、フロッ
ピーディスク、メモリカード、ＤＶＤ−ＲＯＭ等が利用
可能である。また、プログラムを記録した記録媒体の内
容が、通信回線等を介してパーソナルコンピュータ６０
にダウンロードされるものであっても構わない。

【００５９】

【発明の効果】以上詳述したように本発明によれば、音
響信号から得られる時間−スペクトルパターンに対して
周波数方向及び時間方向の両方向にピーク強調して、ピ
ーク強調された時間−スペクトルパターンを抽出するこ
とにより、時間−周波数パターンに重畳する様々なノイ
ズ、周波数特性の変化に起因する時間−周波数パターン
の変形等に対して頑健な特徴特徴（時間−スペクトルパ
ラメータ）を取得できる。この結果、ノイズの重畳下に
おいても、ノイズが白色性のもの（周波数方向、時間方
向に一様なノイズ）であれば音声認識、話者認識、ある
いは音響信号に基づくモデル同定などの性能を飛躍的に
向上させることが可能となる。

【００６０】また本発明によれば、時間−スペクトルパ
ターンから積極的にノイズを除去する前処理を行い、そ
の前処理が施された時間−スペクトルパターンをピーク
強調することにより、ピーク強調による悪影響を抑え、
定常的なノイズの重畳下だけでなく、非定常的なノイズ
の重畳下でも安定した音響特徴を抽出できる。

【００６１】また本発明によれば、ピーク強調された時
間−スペクトルパターンに方向の異なる複数の微分オペ
レータを適用して、所定のそれぞれ異なる音響事象を投
影した複数の音響特徴平面を抽出することにより、従来
のような時間−スペクトルパラメータ、あるいは時間−
スペクトルパラメータと動的パラメータ（時間方向の変
化量）との組み合わせは勿論、先願発明で抽出される音
響特徴、即ちピーク強調されない時間−スペクトルパタ
ーンに方向の異なる複数の微分オペレータを適用するこ
とで抽出される複数の音響特徴平面と比べて、雑音環境
下でもより頑健な音響特徴を取得できる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態に係る音声認識装置の
全体構成を示すブロック図。

【図２】図１中のピーク強調器２を実現するピーク強調
オペレータ２０の構成例を示す図。

【図３】図１中の音響特徴抽出器３を実現する４つの微
分オペレータの構成例を示す図。

【図４】図１の構成の音声認識装置における認識性能の
評価結果をピーク強調しなかった場合と対比して示す
図。

【図５】本発明の第２の実施形態に係る音声認識装置の
全体構成を示すブロック図。

【図６】ピーク強調機能等を実現するためのプログラム
の読み取り実行が可能なパーソナルコンピュータの外観
を示す図。

【符号の説明】

１…ＢＰＦ群（周波数分析手段）２…ピーク強調器３…音響特徴抽出器４…分類器（識別手段）５…標準パターン記憶部６…ノイズ除去器２０…ピーク強調オペレータ３０-1〜３０-4，３１-1〜３１-4，３２-1〜３２-4…微
分オペレータ（空間微分オペレータ）

───────────────────────────────────────────────────── フロントページの続き (72)発明者井上雄東京都青梅市新町３丁目３番地の１東芝コンピュータエンジニアリング株式会社内Ｆターム(参考） 5D015 EE05 5D045 BA01 BA02

Claims

【特許請求の範囲】

【請求項１】入力された音響信号を時間−スペクトル
パターンに変換し、前記時間−スペクトルパターンに対して周波数方向及び
時間方向の両方向にピーク強調して、ピーク強調された
時間−スペクトルパターンを抽出することを特徴とする
音響特徴抽出方法。
【請求項２】入力された音響信号を時間−スペクトル
パターンに変換し、前記時間−スペクトルパターンからノイズを除去し、前記ノイズが除去された時間−スペクトルパターンに対
して周波数方向及び時間方向の両方向にピーク強調し
て、ピーク強調された時間−スペクトルパターンを抽出
することを特徴とする音響特徴抽出方法。
【請求項３】前記時間−スペクトルパターンに対して
周波数方向及び時間方向の２次元の空間フィルタを適用
して、周波数方向及び時間方向のスペクトルピークを抽
出することにより、前記ピーク強調された時間−スペク
トルパターンを抽出することを特徴とする請求項１また
は請求項２記載の音響特徴抽出方法。
【請求項４】前記ピーク強調された時間−スペクトル
パターンに方向の異なる複数の微分オペレータを適用す
ることにより、所定のそれぞれ異なる音響事象を投影し
た複数の音響特徴平面を抽出することを特徴とする請求
項１または請求項２記載の音響特徴抽出方法。
【請求項５】入力された音響信号を周波数分析するこ
とで時間−スペクトルパターンに変換する周波数分析手
段と、前記周波数分析手段により変換された時間−スペクトル
パターンに対して周波数方向及び時間方向の２次元の空
間フィルタを適用して、周波数方向及び時間方向のスペ
クトルピークを抽出することにより、ピーク強調された
時間−スペクトルパターンを抽出するピーク強調手段と
を具備することを特徴とする音響特徴抽出装置。
【請求項６】入力された音響信号を周波数分析するこ
とで時間−スペクトルパターンに変換する周波数分析手
段と、前記周波数分析手段により変換された時間−スペクトル
パターンからノイズを除去するノイズ除去手段と、前記ノイズ除去手段によりノイズが除去された時間−ス
ペクトルパターンに対して周波数方向及び時間方向の２
次元の空間フィルタを適用して、周波数方向及び時間方
向のスペクトルピークを抽出することにより、ピーク強
調された時間−スペクトルパターンを抽出するピーク強
調手段とを具備することを特徴とする音響特徴抽出装
置。
【請求項７】前記ピーク強調手段によりピーク強調さ
れた時間−スペクトルパターンに方向の異なる複数の微
分オペレータを適用することにより、所定のそれぞれ異
なる音響事象を投影した複数の音響特徴平面を抽出する
音響特徴抽出手段を更に具備することを特徴とする音響
特徴抽出装置。
【請求項８】入力された音響信号を周波数分析するこ
とで時間−スペクトルパターンに変換する周波数分析手
段と、前記周波数分析手段により変換された時間−スペクトル
パターンに対して周波数方向及び時間方向の２次元の空
間フィルタを適用して、周波数方向及び時間方向のスペ
クトルピークを抽出することにより、ピーク強調された
時間−スペクトルパターンを抽出するピーク強調手段
と、前記ピーク強調手段によりピーク強調された時間−スペ
クトルパターンに方向の異なる複数の微分オペレータを
適用することにより、所定のそれぞれ異なる音響事象を
投影した複数の音響特徴平面を抽出する音響特徴抽出手
段と、前記音響特徴抽出手段により抽出された複数の音響特徴
平面を予め登録されている標準パターンと比較すること
で、入力音声に対する認識結果を取得する識別手段とを
具備することを特徴とする音声認識装置。
【請求項９】入力された音響信号から得られる時間−
スペクトルパターンからノイズを除去するステップと、前記ノイズが除去された時間−スペクトルパターンに対
して周波数方向及び時間方向の両方向にピーク強調し
て、ピーク強調された時間−スペクトルパターンを抽出
するステップとをコンピュータに実行させるプログラム
を記録したコンピュータ読み取り可能な記録媒体。