JP2000250599A - 音響特徴抽出方法及び装置 - Google Patents

音響特徴抽出方法及び装置

Info

Publication number
JP2000250599A
JP2000250599A JP11056879A JP5687999A JP2000250599A JP 2000250599 A JP2000250599 A JP 2000250599A JP 11056879 A JP11056879 A JP 11056879A JP 5687999 A JP5687999 A JP 5687999A JP 2000250599 A JP2000250599 A JP 2000250599A
Authority
JP
Japan
Prior art keywords
time
peak
frequency
acoustic
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11056879A
Other languages
English (en)
Inventor
Tsuneo Nitta
恒雄 新田
Takeshi Inoue
雄 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Computer Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Computer Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Computer Engineering Corp filed Critical Toshiba Corp
Priority to JP11056879A priority Critical patent/JP2000250599A/ja
Publication of JP2000250599A publication Critical patent/JP2000250599A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】音声認識、話者認識、あるいは音響信号に基づ
くモデル同定などの性能を飛躍的に向上させる音響特徴
を抽出できるようにする。 【解決手段】入力された音声信号をBPF群1にて周波
数分析することで時間−スペクトルパターンに変換す
る。ピーク強調器2は、この時間−スペクトルパターン
に対して周波数方向及び時間方向の両方向にピーク強調
する2次元のピーク強調オペレータ20を適用すること
で、ピーク強調された時間−スペクトルパターンを取得
する。音響特徴抽出器3は、このピーク強調された時間
−スペクトルパターンに対してそれぞれ方向の異なる微
分オペレータ30-1〜30-4を適用することで、当該時
間−スペクトルパターンからそれぞれ異なる音響事象R
F,AF,DF,SPを投影した4つの音響特徴平面か
らなる複合音響特徴平面(MAFP)を抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、雑音環境下におい
て音響信号から聴覚的に重要な特徴を抽出するのに好適
な音響特徴抽出方法及び装置に関する。
【0002】
【従来の技術】音声認識等で適用される音響信号から抽
出する特徴としては、周波数分析によって得られる時間
−スペクトルパターン(もしくは時間−ケプストラムパ
ターン)が最も一般的である。
【0003】一方、近年、動的特徴の重要性が指摘され
るようになると、例えば文献 K.Elenius and M.Blomber
g,"Effect of emphasizing transitional or stationar
y parts of the speech signal in a discrete utteran
ce recognition system",IEEE Proc.ICASSSP'82,pp.535
-538(1982) 、文献 S.Furui,"Speaker-indepebdent iso
lated word recognition using dynamic features of s
peech spectrum",IEEETrans.Acoust.Speech Signal Pro
cess.ASSP-34,1,pp.52-59(1986) に記載されているよう
に、時間方向の変化量(微分値、実際には差分値。時間
方向の変動から回帰直線の傾きを計算して使うこともあ
る)を、時間−スペクトルパターンと共に音響特徴とし
て使用することが多くなった。
【0004】
【発明が解決しようとする課題】上記した従来から用い
られている特徴パラメータ(時間−スペクトルパラメー
タ、もしくは時間−スペクトルパラメータ+動的パラメ
ータ)は、音響信号が内包する特徴を陽に表現している
わけではない。
【0005】そこで本出願人は、特願平10−5346
2号において、時間−スペクトルパターンに対して方向
の異なる複数の空間微分オペレータを適用して、所定の
それぞれ異なる音響事象を投影した複数の音響特徴平面
(複合音響平面)を抽出することで、音声認識、話者認
識、あるいは音響信号に基づくモデル同定などの性能を
飛躍的に向上させるようにした音響特徴抽出方法及び同
方法を適用した音声認識装置を提案している。
【0006】さて、上記した従来の特徴パラメータ(時
間−スペクトルパラメータ、もしくは時間−スペクトル
パラメータ+動的パラメータ)は音響信号が内包する特
徴を陽に表現していないだけでなく、時間一周波数パタ
ーンに重畳する様々なノイズや、主に周波数特性の変化
に起因する時間一周波数パターンの変形に弱いという問
題がある。
【0007】一方、上記特願平10−53462号に記
載の発明(以下、先願発明と称する)で抽出される複合
音響特徴平面は、音響信号が内包する特徴を陽に表現し
ているものの、時間−スペクトルパターンの時間−周波
数−振幅の3次元空間に対して、局所的な空間微分オペ
レータを適用して抽出されることから、周波数特性の変
形には比較的強いものの、雑音環境下でのノイズ重畳に
は弱いという問題がある。
【0008】本発明は上記事情を考慮してなされたもの
でその目的は、雑音環境下においても音声認識、話者認
識、あるいは音響信号に基づくモデル同定などの性能を
飛躍的に向上させる音響特徴抽出方法及び装置を提供す
ることにある。
【0009】
【課題を解決するための手段】本発明は、入力された音
響信号を時間−スペクトルパターンに変換し、この時間
−スペクトルパターンに対して周波数方向及び時間方向
の両方向にピーク強調して、ピーク強調された時間−ス
ペクトルパターンを抽出することを特徴とする。
【0010】このように、音響信号を例えば周波数分析
することにより当該音響信号を時間−スペクトルパター
ンに変換した後に、この時間−スペクトルパターンに対
して周波数方向及び時間方向の両方向にピーク強調する
ことで、周波数方向の有意なピーク(例えば母音のホル
マント)及び時間方向の有意なピーク(例えば子音の破
裂など)が強調された時間−スペクトルパターンを抽出
することができ、白色ノイズのような定常的ノイズの重
畳下でも安定した音響特徴の抽出が可能となる。つま
り、抽出される音響特徴パラメータをノイズに対して頑
健にすることができる。
【0011】ここで、ピーク強調された時間−スペクト
ルパターンを抽出するには、音響信号から得られる時間
−スペクトルパターンに対して周波数方向及び時間方向
の2次元の空間フィルタを適用し、周波数方向及び時間
方向のスペクトルピークを抽出するとよい。空間フィル
タとは、時間−スペクトルパターンの1点X(t,f)(t
は時間、fは周波数)の性質を、近傍の点X(t+i,f+j)
(例えば、隣接する点は8つある)を使って表現するも
のである。
【0012】また本発明は、音響信号から得られる時間
−スペクトルパターンを直接ピーク強調するのではな
く、一旦当該時間−スペクトルパターンからカラードノ
イズ(白色ノイズと異なり、周波数特性を持つ雑音)、
あるいは非定常なノイズ(単発的ノイズを除く)を除去
する前処理(ノイズ抑制処理)を行い、その前処理が施
された(即ちノイズが除去された)時間−スペクトルパ
ターンをピーク強調するようにしたことをも特徴とす
る。
【0013】このように、ノイズ抑制の前処理の後にピ
ーク強調を行うことにより、当該ピーク強調による悪影
響、例えばノイズのピークまで強調されることを抑える
ことができ、ノイズ重畳下でも安定した音響特徴を抽出
できる。
【0014】ここで、本発明に利用するノイズ抑制の前
処理には、一般的なスペクトルサブトラクション(S
S)が適用可能であるが、後述するようにノイズのスペ
クトルを下限とする足切り処理の適用がより有効であ
る。
【0015】また本発明は、ピーク強調された時間−ス
ペクトルパターンに方向の異なる複数の微分オペレータ
を適用することにより、所定のそれぞれ異なる音響事象
を投影した複数の音響特徴平面を抽出するようにしたこ
とをも特徴とする。つまり本発明の特徴は、これまで利
用されてこなかった時間−スペクトルパターンの位相構
造を音響特徴として抽出するようにした点にもある。
【0016】ここでの位相構造とは、それぞれ異なる音
響事象を投影した複数の音響特徴平面を指す。音響事象
の代表的なものとして、次のような4つの型の音響事
象、即ち(1)音勢力(音声パワー)の急激な増大もし
くは減少音(sharply rising(on-type) or falling(off
-type) sound、以下、RFと称する)、(2)急激な上
昇FM(周波数変調)音(sharply ascending FM soun
d、以下、AFと称する)、(3)急激な下降FM音(s
harply descending FM sound、以下、DFと称する)、
(4)スペクトルピークを持つ定常的あるいは緩やかに
変化する音(steady or slowly-changing sound with s
pectral peaks、以下SPと称する)がある。
【0017】この4つの音響事象は、聴覚神経系に関す
る研究において、文献 T.Hashimoto,Y.Katayama,K.Mura
ta,and I.Taniguchi,"Pitch-syncronous response of c
atcochlear nerve fibers to speech sounds",Jpn.J.Ph
ysiol.,25,pp.634-644(1975)、文献 T.Watanabe,Jpn.J.
Physiol.,22.pp.569-583(1972)に記載されているよう
に、対応する聴覚神経系が存在することが知られてい
る。また、この4つの音響事象は、文献 P.Ladefoged,"
A course in phonetics",2nd Edit.,New York:Harcour
t,Brace,Jovanovich(1982) に記載されているように、
音声学上(音韻判別上)も重要な特徴とされてきた。し
かし従来は、時間−スペクトルパターンから、このよう
な音響事象を抽出することは全く考えられていなかっ
た。なお、上記以外の音響事象としては、ピッチ(声帯
音源の持つ基本周波数)等がある。
【0018】本発明において、ピーク強調された時間−
スペクトルパターンから抽出される複数の音響特徴平面
は、音声学上重要な特徴を反映しているため、入力音声
の音響特徴として元の時間−スペクトルパターンを併用
しないで済み、頑健な音響特徴を取得できる。
【0019】
【発明の実施の形態】以下、本発明の実施の形態につ
き、音声認識装置に適用した場合を例に図面を参照して
説明する。
【0020】[第1の実施形態]図1は本発明の第1の
実施形態に係る音声認識装置の全体構成を示すブロック
図である。
【0021】図1において、1は周波数分析手段として
の帯域通過フィルタ群(以下、BPF群と称する)であ
る。話者が発声した音声は、マイクロホン等を含む音声
入力手段(図示せず)により入力されて音声信号(音響
信号)に変換され、その音声信号はBPF群1により周
波数分析される。ここではBPF群1は、26の周波数
チャネル(#1〜#26)のBPF(帯域通過フィル
タ)から構成されており、8ms毎に26チャネルの周
波数分析結果を出力する。
【0022】このBPF群1の周波数分析結果のパター
ンを、時間−スペクトルパターンX(t,f)と呼ぶ(tは
時間、fは周波数)。つまりBPF群1は、入力音声
(入力音響信号)を周波数分析して時間−スペクトルパ
ターンX(t,f)に変換する。
【0023】BPF群1から出力される時間−スペクト
ルパターンX(t,f)は、ピーク強調器2に入力される。
ピーク強調器2は、図1の例では、後述する3×3のラ
プラシアン(2次微分オペレータ)とサンプル関数δ
(i,j)(i,jは各々−1,0,1の値をとる)を組み
合わせた3×3の2次元の空間フィルタ(以下、ピーク
強調オペレータと称する)20により構成されている。
【0024】ここで、ピーク強調オペレータ20の機能
について説明する。まず、時間−スペクトルパターンX
(t,f)は、次式(1)に示す8つの近傍を持っている。
【0025】
【数1】
【0026】ピーク強調オペレータ20(により構成さ
れるピーク強調器2)から出力される新たな時間−スペ
クトルパターンX'(t,f)は、次式(2)に従って計算さ
れる。
【0027】
【数2】
【0028】ここでW(i,j)はX'(t,f)に対応したピー
ク強調オペレータ20の係数で、図1中に、その例を示
してある。
【0029】図2にピーク強調オペレータ(空間オペレ
ータ)20の構成例を示す。このピーク強調オペレータ
20は、図2(a)〜(c)の例のように、3×3のラ
プラシアンW'(i,j)とサンプリング関数δ(i,j)を一定
比率Aで加えた係数を持つ。したがって、ピーク強調オ
ペレータ20によりピーク強調された時間−スペクトル
パターンX'(t,f)は、正確には次式(3)から求められ
る。
【0030】
【数3】
【0031】サンプリング関数δ(i,j)に一定比率(振
幅)Aを乗じた新たなサンプリング関数Aδ(i,j)は、
ラプラシアンW'(i,j)を用いた2次微分による時間−ス
ペクトルパターンX(t,f)に対するピーク強調の割合、
即ちラプラシアンW'(i,j)によるピーク強調の影響を決
定するためのものである。ここでは、Aの値が小さいほ
どピーク強調の影響が大きくなる。
【0032】図2のピーク強調オペレータ20の例で
は、図2(a)が振幅A=6とし、図2(b)が振幅A
=4とし、図2(c)が振幅A=1とした場合を示して
いる。ここでは、A=1とした図2(c)のピーク強調
オペレータ20を適用する場合が、最もピーク値(ラプ
ラシアンによって求められる値)の影響(割合)が大き
くなる。
【0033】このように、BPF群1の出力である時間
−スペクトルパターンX(t,f)に対して図2の構成のピ
ーク強調オペレータ20、つまり2次元の空間オペレー
タを適用することにより、周波数方向の有意なピーク
(具体的には母音のホルマント)を強調すると共に、時
間方向の有意なピーク(具体的には母音に先行する子音
の破裂など)を強調することで、定常的なノイズ重畳下
でも安定した音響特徴を抽出できる。
【0034】なお、ピーク強調器2には、図2の構成の
ピーク強調オペレータ20の他に、5×5の空間フィル
タやn値(nは3以外の整数、図2の例はn=3)の空
間オペレータを用いることも可能である。これらは処理
対象に応じて適宜選択して使用すればよく、要するに2
次元の空間フィルタを使用してピーク強調すればよい。
【0035】さて、ピーク強調器2のピーク強調オペレ
ータ20でピーク強調された時間−スペクトルパターン
X'(t,f)は音響特徴抽出器3に入力される。音響特徴抽
出器3は、方向の異なる4つの微分オペレータ(空間微
分オペレータ)30-1〜30-4で構成されており、時間
−スペクトルパターンX'(t,f)に当該微分オペレータ3
0-1〜30-4を適用することで、それぞれ異なる音響事
象を投影した4つの特徴平面、つまり音響特徴平面(ac
oustic-feature plane、以下、AFPと称する)を抽出
する。
【0036】本実施形態において、微分オペレータ30
-1,30-2,30-3,30-4には、それぞれ前記した4
つの音響事象RF(音勢力の急激な増大もしくは減少
音),AF(急激な上昇FM音),DF(急激な下降F
M音),SP(スペクトルピークを持つ定常的あるいは
緩やかに変化する音)が対応している。
【0037】ここでは、微分オペレータ30-1〜30-4
として、図1に示すように3×3の3値微分オペレータ
を使用している。例えば微分オペレータ30-1には、対
応する音響事象RFが時間方向(t)に変化することか
ら時間方向(t)の変化を検知する3値微分オペレータ
が用いられ、微分オペレータ30-4には、対応する音響
事象SPが周波数方向(f)に変化することから周波数
方向(f)の変化を検知する3値微分オペレータが用い
られる。また、微分オペレータ30-2,30-3には、対
応する音響事象AF,DFが時間方向(t)及び周波数
方向(f)の両方向に共に変化することから、時間方向
(t)及び周波数(f)方向の同時変化を検知する3値
微分オペレータが用いられる。但し、AFとDFとでは
変化方向が逆のため、使用する3値微分オペレータは異
なる。
【0038】ここで微分オペレータ30-i(i=1〜
4)の機能を簡単に説明する。
【0039】まず、時間−スペクトルパターンX'(t,f)
は、(1)式に示した前記−スペクトルパターンX(t,
f)と同様に8つの近傍を持っている。
【0040】音響特徴抽出器3(内の微分オペレータ3
0-1〜30-4)から出力される、音響事象RF,AF,
DF,SPを投影した4つの音響特徴平面(以下、RF
−AFP,AF−AFP,DF−AFP,SP−AFP
と称する)の要素X"(t,f)は、次式(4)に従って計算
される。
【0041】
【数4】
【0042】ここでW"(i,j)は各AFPのX"(t,f)に
対応した3値微分オペレータの係数(i,jは各々−
1,0,1の値をとる)で、図1中の微分オペレータ3
0-1〜30-4に、その例を示してある。X"(t,f)の正の
値は正の傾きを、負の値は負の傾きを意味する。そこ
で、例えば定常音中の明瞭なスペクトルピークは、SP
−AFP上の正と負の値のペアで表される。
【0043】微分オペレータ30-1〜30-4に3×3の
3値微分オペレータを使用した例では、3×3近傍内に
は1つの音響事象しか含まれないようにする必要があ
る。そのためには、BPF群1を構成する各周波数チャ
ネルのBPF(帯域通過フィルタ)の中心周波数とフレ
ーム周期を、多くの時間−スペクトルパターンを観察す
ることで最適な値に設定すればよい。
【0044】さて、音響特徴抽出器3からは上記したよ
うに4つの音響特徴平面(AFP)、つまりRF−AF
P,AF−AFP,DF−AFP,SP−AFPが出力
される。この4つの音響特徴平面(AFP)全体を、複
合音響特徴平面(multiple acoustic-feature planes)
と呼ぶ。複合音響特徴平面(以下、MAFPと称する)
は、元の時間−スペクトルパターン(時間−スペクトラ
ム)が各時刻(8ms単位)毎に26個のスペクトラム
パラメータから構成されていたのに対し、4倍の104
個のスペクトラムパラメータからなる。
【0045】音響特徴抽出器3から出力された4つのA
FP(RF−AFP,AF−AFP,DF−AFP,S
P−AFP)からなるMAFPのパラメータは分類器4
に導かれる。分類器4には、標準パターンが予め登録さ
れた標準パターン記憶部(標準パターン辞書)5が接続
されている。この標準パターンには、既知の音声(音
韻、単語、文節、文など)からBPF群1及び音響特徴
抽出器3(または当該BPF群1及び音響特徴抽出器3
と同様の手段)を用いて抽出された、当該音声の特徴を
表す(4つのAFPからなる)MAFPが利用される。
【0046】分類器4は、音響特徴抽出器3から出力さ
れたMAFPのパラメータ(特徴ベクトル)を標準パタ
ーン記憶部5に登録されている各標準パターンと比較す
ることで、最も近い標準パターンのカテゴリ(音韻、単
語、文節、文など)を認識結果として出力する。
【0047】ここで、音響特徴抽出器3を実現する4つ
の微分オペレータの構成例について説明する。まず、図
1でも示した微分オペレータ30-1〜30-4は、図3
(a)に示すように、3×3の3値微分オペレータであ
り、時間方向(t)、周波数方向(f)とも対称な係数
を持ち、且つ同時に平滑が行われるように構成されてい
た。しかし、音響特徴抽出器3を構成する4つの微分オ
ペレータの構成は、図3(a)の構成に限るものではな
い。
【0048】例えば、図3(b)に示すような3×3の
5値微分オペレータ31-1〜31-4を、(微分オペレー
タ30-1〜30-4に代えて)用い、同じような3×3の
微分オペレータでも、重み付き平滑が行われる構成とし
てもよい。また、図3(c)に示すような、前後の係数
を0とする3×3の3値微分オペレータ32-1〜32-4
を、(微分オペレータ30-1〜30-4に代えて)用いる
ことで、平滑を行わない構成であっても構わない。この
他に、5×5の微分フィルタやn値(nは3と5以外の
整数)の微分オペレータを用いることも可能であり、こ
れらは処理対象に応じて適宜選択して使用すればよく、
要するに微分オペレータを使用して音響特徴を抽出すれ
ばよい。
【0049】図4に図1の構成の音声認識装置における
認識性能の評価結果をピーク強調しなかった場合と対比
して示す。なお本実施形態では、4つのAFP(音響特
徴平面)からなるMAFP(複合音響特徴平面)を使用
するため、そのMAFPのパラメータ(音響特徴パラメ
ータ)は、元の時間−スペクトルパターン(TS)に比
べて4倍となり、次元数が大きくなる。そこで実際に
は、分類器4での計算量を減らすために、音響特徴抽出
器3と分類器4との間に圧縮器(図示せず)を設け、例
えば周知のKL変換を用いた統計的圧縮手法(KL圧縮
手法)により、4つのAFPからなるMAFPの次元数
を圧縮して、つまりMAFPの特徴ベクトルを縮小特徴
ベクトルに置き換えて、分類器4に出力するようにして
いる。
【0050】図4の例は、MAFPの音響特徴パラメー
タをKL圧縮で32次元と48次元に圧縮し、それぞれ
ピーク強調しなかった場合と、図2(b),(c)の構
成のピーク強調オペレータ20でピーク強調した場合に
ついて、誤認識率の評価結果を示したものである。図か
ら明らかなように、図2(c)の構成のピーク強調オペ
レータ20によりピーク強調した場合が最も誤認識率が
低く、ピーク強調の影響が大きいほど認識率が良くなっ
ていることが分かる。
【0051】以上に述べた実施形態では、ピーク強調器
2によりピーク強調された時間−スペクトルパターン
X'(t,f)を音響特徴抽出器3に入力して、方向の異なる
4つの微分オペレータ30-1〜30-4を適用すること
で、それぞれ異なる音響事象を投影した4つの音響特徴
平面(RF−AFP,AF−AFP,DF−AFP,S
P−AFP)を抽出し、それを分類器4での認識処理に
用いる場合について説明したが、これに限るものではな
い。例えば音響特徴抽出器3を省略して、ピーク強調器
2の出力をそのまま分類器4での認識処理に用いる構成
としても構わない。この構成においても、図2(c)の
構成のピーク強調オペレータ20によりピーク強調した
場合が最も誤認識率が低く、ピーク強調の影響が大きい
ほど認識率が良くなる傾向は変わらない。但し、音響特
徴抽出器3を省略した構成では、周波数特性の変形に弱
いため誤認識率自体は上記実施形態より低下した。
【0052】[第2の実施形態]前記した第1の実施形
態では、ピーク強調器2(内のピーク強調オペレータ2
0)によるピーク強調の効果を(Aの値を小さくするこ
とで)高めようとすると、雑音も強調される。このた
め、ピーク強調器2を用いたピーク強調は、使用環境の
違い(マイクロホンの違い、マイクロホンと発話者との
距離の違い、音響伝送特性の違いなど)及び白色ノイズ
のように周波数方向、時間方向に一様なノイズ重畳には
効果があるものの、非定常的な雑音環境下ではその影響
が大きくなる。
【0053】そこで、ピーク強調器2によるピーク強調
の効果を確保しながら、カラードノイズあるいは非定常
なノイズの影響を排除するのを可能とした本発明の第2
の実施形態について説明する。
【0054】図5は本発明の第2の実施形態に係る音声
認識装置の全体構成を示すブロック図であり、図1と同
一部分には同一符号を付してある。
【0055】図5の構成の特徴は、BPF群1とピーク
強調器2との間にノイズ除去器6を設け、BPF群1か
ら出力される時間−スペクトルパターンより予めノイズ
を除去してピーク強調器2に入力することで、当該ピー
ク強調器2によるピーク強調時にノイズが強調されるの
を抑えるようにした点にある。
【0056】ノイズ除去器6としては、ノイズスペクト
ルの平均値N(f)を求め、これを時間−スペクトルパタ
ーンから減衰する一般的な手法(スペクトルサブトラク
ション)、あるいはノイズスペクトルの平均値を下限と
して、この平均値より小さい値のスペクトルパターンを
平均値に置き換える足切り手法が適用可能である。但
し、ピーク強調器2の出力側に設けられる、音響特徴抽
出器3でのMAFPを特徴パラメータとする特徴抽出を
考慮すると、後者の足切り手法が有効であった。
【0057】BPF群1とピーク強調器2との間にノイ
ズ除去器6を設け、ピーク強調器2によるピーク強調時
にノイズのピークが強調されるのを抑えることにより、
図1の構成のように音響特徴抽出器3による音響特徴抽
出をノイズ除去器6を用いずに行う場合に比べて、ノイ
ズを減らし、母音の前に出現する子音(特に破裂音な
ど)を強調することができる。このため、ノイズが重畳
された音声でも、安定して音響特徴を抽出することが可
能になる。
【0058】以上の実施形態で述べた、ピーク強調器2
によるピーク強調処理、音響特徴抽出器3による音響特
徴平面(AFP)抽出処理、分類器4による入力音声の
認識(識別)処理、さらにはノイズ除去器6によるノイ
ズ除去(抑制)処理は、マイクロホンを含む音声入力手
段、及びBPF群1に相当する周波数分析手段を内蔵し
たプログラム読み取り可能なコンピュータ、例えば図6
に示すようなマイクロホン62を備えたパーソナルコン
ピュータ60に、当該処理を実行させるためのプログラ
ムを記録した記録媒体、例えばCD−ROM61を装着
して、当該CD−ROM61に記録されているプログラ
ムをパーソナルコンピュータ60で読み取り実行させる
ことによっても実現される。なお、プログラムを記録し
た記録媒体としては、CD−ROM61の他に、フロッ
ピーディスク、メモリカード、DVD−ROM等が利用
可能である。また、プログラムを記録した記録媒体の内
容が、通信回線等を介してパーソナルコンピュータ60
にダウンロードされるものであっても構わない。
【0059】
【発明の効果】以上詳述したように本発明によれば、音
響信号から得られる時間−スペクトルパターンに対して
周波数方向及び時間方向の両方向にピーク強調して、ピ
ーク強調された時間−スペクトルパターンを抽出するこ
とにより、時間−周波数パターンに重畳する様々なノイ
ズ、周波数特性の変化に起因する時間−周波数パターン
の変形等に対して頑健な特徴特徴(時間−スペクトルパ
ラメータ)を取得できる。この結果、ノイズの重畳下に
おいても、ノイズが白色性のもの(周波数方向、時間方
向に一様なノイズ)であれば音声認識、話者認識、ある
いは音響信号に基づくモデル同定などの性能を飛躍的に
向上させることが可能となる。
【0060】また本発明によれば、時間−スペクトルパ
ターンから積極的にノイズを除去する前処理を行い、そ
の前処理が施された時間−スペクトルパターンをピーク
強調することにより、ピーク強調による悪影響を抑え、
定常的なノイズの重畳下だけでなく、非定常的なノイズ
の重畳下でも安定した音響特徴を抽出できる。
【0061】また本発明によれば、ピーク強調された時
間−スペクトルパターンに方向の異なる複数の微分オペ
レータを適用して、所定のそれぞれ異なる音響事象を投
影した複数の音響特徴平面を抽出することにより、従来
のような時間−スペクトルパラメータ、あるいは時間−
スペクトルパラメータと動的パラメータ(時間方向の変
化量)との組み合わせは勿論、先願発明で抽出される音
響特徴、即ちピーク強調されない時間−スペクトルパタ
ーンに方向の異なる複数の微分オペレータを適用するこ
とで抽出される複数の音響特徴平面と比べて、雑音環境
下でもより頑健な音響特徴を取得できる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る音声認識装置の
全体構成を示すブロック図。
【図2】図1中のピーク強調器2を実現するピーク強調
オペレータ20の構成例を示す図。
【図3】図1中の音響特徴抽出器3を実現する4つの微
分オペレータの構成例を示す図。
【図4】図1の構成の音声認識装置における認識性能の
評価結果をピーク強調しなかった場合と対比して示す
図。
【図5】本発明の第2の実施形態に係る音声認識装置の
全体構成を示すブロック図。
【図6】ピーク強調機能等を実現するためのプログラム
の読み取り実行が可能なパーソナルコンピュータの外観
を示す図。
【符号の説明】
1…BPF群(周波数分析手段) 2…ピーク強調器 3…音響特徴抽出器 4…分類器(識別手段) 5…標準パターン記憶部 6…ノイズ除去器 20…ピーク強調オペレータ 30-1〜30-4,31-1〜31-4,32-1〜32-4…微
分オペレータ(空間微分オペレータ)
───────────────────────────────────────────────────── フロントページの続き (72)発明者 井上 雄 東京都青梅市新町3丁目3番地の1 東芝 コンピュータエンジニアリング株式会社内 Fターム(参考) 5D015 EE05 5D045 BA01 BA02

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 入力された音響信号を時間−スペクトル
    パターンに変換し、 前記時間−スペクトルパターンに対して周波数方向及び
    時間方向の両方向にピーク強調して、ピーク強調された
    時間−スペクトルパターンを抽出することを特徴とする
    音響特徴抽出方法。
  2. 【請求項2】 入力された音響信号を時間−スペクトル
    パターンに変換し、 前記時間−スペクトルパターンからノイズを除去し、 前記ノイズが除去された時間−スペクトルパターンに対
    して周波数方向及び時間方向の両方向にピーク強調し
    て、ピーク強調された時間−スペクトルパターンを抽出
    することを特徴とする音響特徴抽出方法。
  3. 【請求項3】 前記時間−スペクトルパターンに対して
    周波数方向及び時間方向の2次元の空間フィルタを適用
    して、周波数方向及び時間方向のスペクトルピークを抽
    出することにより、前記ピーク強調された時間−スペク
    トルパターンを抽出することを特徴とする請求項1また
    は請求項2記載の音響特徴抽出方法。
  4. 【請求項4】 前記ピーク強調された時間−スペクトル
    パターンに方向の異なる複数の微分オペレータを適用す
    ることにより、所定のそれぞれ異なる音響事象を投影し
    た複数の音響特徴平面を抽出することを特徴とする請求
    項1または請求項2記載の音響特徴抽出方法。
  5. 【請求項5】 入力された音響信号を周波数分析するこ
    とで時間−スペクトルパターンに変換する周波数分析手
    段と、 前記周波数分析手段により変換された時間−スペクトル
    パターンに対して周波数方向及び時間方向の2次元の空
    間フィルタを適用して、周波数方向及び時間方向のスペ
    クトルピークを抽出することにより、ピーク強調された
    時間−スペクトルパターンを抽出するピーク強調手段と
    を具備することを特徴とする音響特徴抽出装置。
  6. 【請求項6】 入力された音響信号を周波数分析するこ
    とで時間−スペクトルパターンに変換する周波数分析手
    段と、 前記周波数分析手段により変換された時間−スペクトル
    パターンからノイズを除去するノイズ除去手段と、 前記ノイズ除去手段によりノイズが除去された時間−ス
    ペクトルパターンに対して周波数方向及び時間方向の2
    次元の空間フィルタを適用して、周波数方向及び時間方
    向のスペクトルピークを抽出することにより、ピーク強
    調された時間−スペクトルパターンを抽出するピーク強
    調手段とを具備することを特徴とする音響特徴抽出装
    置。
  7. 【請求項7】 前記ピーク強調手段によりピーク強調さ
    れた時間−スペクトルパターンに方向の異なる複数の微
    分オペレータを適用することにより、所定のそれぞれ異
    なる音響事象を投影した複数の音響特徴平面を抽出する
    音響特徴抽出手段を更に具備することを特徴とする音響
    特徴抽出装置。
  8. 【請求項8】 入力された音響信号を周波数分析するこ
    とで時間−スペクトルパターンに変換する周波数分析手
    段と、 前記周波数分析手段により変換された時間−スペクトル
    パターンに対して周波数方向及び時間方向の2次元の空
    間フィルタを適用して、周波数方向及び時間方向のスペ
    クトルピークを抽出することにより、ピーク強調された
    時間−スペクトルパターンを抽出するピーク強調手段
    と、 前記ピーク強調手段によりピーク強調された時間−スペ
    クトルパターンに方向の異なる複数の微分オペレータを
    適用することにより、所定のそれぞれ異なる音響事象を
    投影した複数の音響特徴平面を抽出する音響特徴抽出手
    段と、 前記音響特徴抽出手段により抽出された複数の音響特徴
    平面を予め登録されている標準パターンと比較すること
    で、入力音声に対する認識結果を取得する識別手段とを
    具備することを特徴とする音声認識装置。
  9. 【請求項9】 入力された音響信号から得られる時間−
    スペクトルパターンからノイズを除去するステップと、 前記ノイズが除去された時間−スペクトルパターンに対
    して周波数方向及び時間方向の両方向にピーク強調し
    て、ピーク強調された時間−スペクトルパターンを抽出
    するステップとをコンピュータに実行させるプログラム
    を記録したコンピュータ読み取り可能な記録媒体。
JP11056879A 1999-03-04 1999-03-04 音響特徴抽出方法及び装置 Pending JP2000250599A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11056879A JP2000250599A (ja) 1999-03-04 1999-03-04 音響特徴抽出方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11056879A JP2000250599A (ja) 1999-03-04 1999-03-04 音響特徴抽出方法及び装置

Publications (1)

Publication Number Publication Date
JP2000250599A true JP2000250599A (ja) 2000-09-14

Family

ID=13039712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11056879A Pending JP2000250599A (ja) 1999-03-04 1999-03-04 音響特徴抽出方法及び装置

Country Status (1)

Country Link
JP (1) JP2000250599A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012027114A (ja) * 2010-07-21 2012-02-09 Toa Corp 音声検出装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012027114A (ja) * 2010-07-21 2012-02-09 Toa Corp 音声検出装置

Similar Documents

Publication Publication Date Title
Bou-Ghazale et al. A comparative study of traditional and newly proposed features for recognition of speech under stress
JP3006677B2 (ja) 音声認識装置
US10614827B1 (en) System and method for speech enhancement using dynamic noise profile estimation
CN108198545B (zh) 一种基于小波变换的语音识别方法
EP1850328A1 (en) Enhancement and extraction of formants of voice signals
Murugappan et al. DWT and MFCC based human emotional speech classification using LDA
Magre et al. A comparative study on feature extraction techniques in speech recognition
Biswas et al. Hindi vowel classification using GFCC and formant analysis in sensor mismatch condition
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
KR100571427B1 (ko) 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법
Kaminski et al. Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models
KR19990001828A (ko) 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 장치 및 방법
JP2000250599A (ja) 音響特徴抽出方法及び装置
JP2006154212A (ja) 音声評価方法および評価装置
Mehta et al. Robust front-end and back-end processing for feature extraction for Hindi speech recognition
Shome et al. Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech
WO2009055718A1 (en) Producing phonitos based on feature vectors
Bonifaco et al. Comparative analysis of filipino-based rhinolalia aperta speech using mel frequency cepstral analysis and Perceptual Linear Prediction
JP2968976B2 (ja) 音声認識装置
Alam et al. Smoothed nonlinear energy operator-based amplitude modulation features for robust speech recognition
Bharathi et al. Speaker verification in a noisy environment by enhancing the speech signal using various approaches of spectral subtraction
TWI395200B (zh) 一種不用樣本能辨認所有語言的辨認方法
CN117528328A (zh) 一种耳麦音频降噪处理方法及系统
JP2658426B2 (ja) 音声認識方法
Saeed et al. An image-based system for spoken-letter recognition