JPH0546559B2 - - Google Patents
Info
- Publication number
- JPH0546559B2 JPH0546559B2 JP58047664A JP4766483A JPH0546559B2 JP H0546559 B2 JPH0546559 B2 JP H0546559B2 JP 58047664 A JP58047664 A JP 58047664A JP 4766483 A JP4766483 A JP 4766483A JP H0546559 B2 JPH0546559 B2 JP H0546559B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- circuit
- supplied
- parameter
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000007704 transition Effects 0.000 claims description 33
- 230000001052 transient effect Effects 0.000 claims description 27
- 238000001514 detection method Methods 0.000 claims description 24
- 230000005236 sound signal Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 7
- 238000000034 method Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Description
産業上の利用分野
本発明は音声認識に使用して好適な音声過渡点
検出方法に関する。 背景技術とその問題点 音声認識においては、特定話者に対する単語認
識によるものがすでに実用化されている。これは
認識対象とする全ての単語について特定話者にこ
れらを発音させ、バンドパスフイルタバンク等に
よりその音響パラメータを検出して記憶(登録)
しておく。そして特定話者が発声したときその音
響パラメータを検出し、登録された各単語の音響
パラメータと比較し、これらが一致したときその
単語であるとの認識を行う。 このような装置において、話者の発声の時間軸
が登録時と異なつている場合には、一定時間(5
〜20msec)毎に抽出される音響パラメータの時
系列を伸縮して時間軸を整合させる。これによつ
て発声速度の変動に対処させるようにしている。 ところがこの装置の場合、認識対象とする全て
の単語についてその単語の全体の音響パラメータ
をあらかじめ登録格納しておかなければならず、
膨大な記憶容量と演算を必要とする。このため認
識語い数に限界があつた。 一方音韻(日本語でいえばローマ字表記したと
きのA,I,U,E,O,K,S,T等)あるい
は音節(KA,KI,KU等)単位での認識を行う
ことが提案されている。 各音節ごとに離散的に発音された音声を登録
し、離散的に発声された音声を単語認識と同様に
時間軸整合させて認識を行つており、特殊な発声
を行うために限定された用途でしか利用できなか
つた。 さらに不特定話者を認識対象とした場合には、
音響パラメータに個人差による大きな分散があ
り、上述のように時間軸の整合だけでは認識を行
うことができない。そこで例えば一つの単語につ
いて複数の音響パラメータを登録して近似の音響
パラメータを認識する方法や、単語全体を固定次
元のパラメータに変換し、識別函数によつて判別
する方法が提案されているが、いづれも膨大な記
憶容量を必要としたり、演算量が多く、認識語い
数が極めて少くなつてしまう。 これに対して本願発明者は先に、不特定話者に
対しても、容易かつ確実に音声認識を行えるよう
にした新規な音声認識方法を提案した。以下にま
ずその一例について説明しよう。 ところで、音韻の発声現象を観察すると、母音
や摩擦音(S,H等)等の音韻は長く伸して発声
することができる。例えば“はい”という発声を
考えた場合に、この音韻は第1図Aに示すよう
に、「無音→H→A→I→無音」に変化する。こ
れに対して同じ“はい”の発声を第1図Bのよう
に行うこともできる。ここでH,A,Iの準定常
部の長さは発声ごとに変化し、これによつて時間
軸の変動を生じる。ところがこの場合に、各音韻
間の過渡部(斜線で示す)は比較的時間軸の変動
が少いことが判明した。 そこで第2図において、マイクロフオン1に供
給された音声信号がマイクアンプ2、5.5kHz以下
のローパスフイルタ3を通じてAD変換回路4に
供給される。またクロツク発生器5からの12.5k
Hz(80μsec間隔)のサンプリングクロツクがAD
変換回路4に供給され、このタイミングで音声信
号がそれぞれ所定ビツト数(=1ワード)のデジ
タル信号に変換される。この変換された音声信号
が5×64ワードのレジスタ6に供給される。また
クロツク発生器5からの5.12msec間隔のフレー
ムクロツクが5進カウンタ7に供給され、このカ
ウント値がレジスタ6に供給されて音声信号が64
ワードずつシフトされ、シフトされた4×64ワー
ドの信号がレジスタ6から取り出される。 このレジスタ6から取り出された4×64=256
ワードの信号が高速フーリエ変換(FFT)回路
8に供給される。ここでこのFFT回路8におい
て、例えばTの時間長に含まれるnf個のサンプリ
ングデータによつて表される波形函数を UofT(f) ……(1) としたとき、これをフーリエ変換して、ofT (f)=∫T/2 −T/2UofT(f)e-2〓jftdt ≡U1ofT(f)+jU2ofT(f) ……(2) の信号が得られる。 さらにこのFFT回路8からの信号がパワース
ペクトルの検出回路9に供給され、 |∪2|=U2 1ofT(f)+U2 2ofT(f) ……(3) のパワースペクトル信号が取り出される。ここで
フーリエ変換された信号は周波数軸上で対称にな
つているので、フーリエ変換によつて取り出され
るnf個のデータの半分は冗長データである。そこ
で半分のデータを排除して1/2nf個のデータが取
り出される。すなわち上述のFFT回路8に供給
された256ワードの信号が変換されて128ワードの
パワースペクトル信号が取り出される。 このパワースペクトル信号がエンフアシス回路
10に供給されて聴感上の補正を行うための重み
付けが行われる。ここで、重み付けとしては、例
えば周波数の高域成分を増強する補正が行われ
る。 この重み付けされた信号が帯域分割回路11に
供給され、聴感特性に合せた周波数メルスケール
に応じて例えば32の帯域に分割される。ここでパ
ワースペクトルの分割点と異なる場合にはその信
号が各帯域に按分されてそれぞれの帯域の信号の
量に応じた信号が取り出される。これによつて上
述の128ワードのパワースペクトル信号が、音響
的特徴を保存したまま32ワードに圧縮される。 この信号が対数回路12に供給され、各信号の
対数値に変換される。これによつて上述のエンフ
アシス回路10での重み付け等による冗長度が排
除される。ここでこの対数パワースペクトル log|∪2 ofT(f)| ……(4) をスペクトルパラメータx(i)(i=0,1…31)と
称する。 このスペクトルパラメータx(i)が離散的フーリ
エ変換(DFT)回路13に供給される。ここで
このDFT回路13において、例えば分割された
帯域の数をMとすると、このM次元スペクトルパ
ラメータx(i)(i=0,1…M−1)を2M−1点
の実数対称パラメータとみなして2M−2点の
DEFを行う。従つて、 X(n)=2M-3 〓i=0 x(i)・Wmi 2M-2 ……(5) 但し、
検出方法に関する。 背景技術とその問題点 音声認識においては、特定話者に対する単語認
識によるものがすでに実用化されている。これは
認識対象とする全ての単語について特定話者にこ
れらを発音させ、バンドパスフイルタバンク等に
よりその音響パラメータを検出して記憶(登録)
しておく。そして特定話者が発声したときその音
響パラメータを検出し、登録された各単語の音響
パラメータと比較し、これらが一致したときその
単語であるとの認識を行う。 このような装置において、話者の発声の時間軸
が登録時と異なつている場合には、一定時間(5
〜20msec)毎に抽出される音響パラメータの時
系列を伸縮して時間軸を整合させる。これによつ
て発声速度の変動に対処させるようにしている。 ところがこの装置の場合、認識対象とする全て
の単語についてその単語の全体の音響パラメータ
をあらかじめ登録格納しておかなければならず、
膨大な記憶容量と演算を必要とする。このため認
識語い数に限界があつた。 一方音韻(日本語でいえばローマ字表記したと
きのA,I,U,E,O,K,S,T等)あるい
は音節(KA,KI,KU等)単位での認識を行う
ことが提案されている。 各音節ごとに離散的に発音された音声を登録
し、離散的に発声された音声を単語認識と同様に
時間軸整合させて認識を行つており、特殊な発声
を行うために限定された用途でしか利用できなか
つた。 さらに不特定話者を認識対象とした場合には、
音響パラメータに個人差による大きな分散があ
り、上述のように時間軸の整合だけでは認識を行
うことができない。そこで例えば一つの単語につ
いて複数の音響パラメータを登録して近似の音響
パラメータを認識する方法や、単語全体を固定次
元のパラメータに変換し、識別函数によつて判別
する方法が提案されているが、いづれも膨大な記
憶容量を必要としたり、演算量が多く、認識語い
数が極めて少くなつてしまう。 これに対して本願発明者は先に、不特定話者に
対しても、容易かつ確実に音声認識を行えるよう
にした新規な音声認識方法を提案した。以下にま
ずその一例について説明しよう。 ところで、音韻の発声現象を観察すると、母音
や摩擦音(S,H等)等の音韻は長く伸して発声
することができる。例えば“はい”という発声を
考えた場合に、この音韻は第1図Aに示すよう
に、「無音→H→A→I→無音」に変化する。こ
れに対して同じ“はい”の発声を第1図Bのよう
に行うこともできる。ここでH,A,Iの準定常
部の長さは発声ごとに変化し、これによつて時間
軸の変動を生じる。ところがこの場合に、各音韻
間の過渡部(斜線で示す)は比較的時間軸の変動
が少いことが判明した。 そこで第2図において、マイクロフオン1に供
給された音声信号がマイクアンプ2、5.5kHz以下
のローパスフイルタ3を通じてAD変換回路4に
供給される。またクロツク発生器5からの12.5k
Hz(80μsec間隔)のサンプリングクロツクがAD
変換回路4に供給され、このタイミングで音声信
号がそれぞれ所定ビツト数(=1ワード)のデジ
タル信号に変換される。この変換された音声信号
が5×64ワードのレジスタ6に供給される。また
クロツク発生器5からの5.12msec間隔のフレー
ムクロツクが5進カウンタ7に供給され、このカ
ウント値がレジスタ6に供給されて音声信号が64
ワードずつシフトされ、シフトされた4×64ワー
ドの信号がレジスタ6から取り出される。 このレジスタ6から取り出された4×64=256
ワードの信号が高速フーリエ変換(FFT)回路
8に供給される。ここでこのFFT回路8におい
て、例えばTの時間長に含まれるnf個のサンプリ
ングデータによつて表される波形函数を UofT(f) ……(1) としたとき、これをフーリエ変換して、ofT (f)=∫T/2 −T/2UofT(f)e-2〓jftdt ≡U1ofT(f)+jU2ofT(f) ……(2) の信号が得られる。 さらにこのFFT回路8からの信号がパワース
ペクトルの検出回路9に供給され、 |∪2|=U2 1ofT(f)+U2 2ofT(f) ……(3) のパワースペクトル信号が取り出される。ここで
フーリエ変換された信号は周波数軸上で対称にな
つているので、フーリエ変換によつて取り出され
るnf個のデータの半分は冗長データである。そこ
で半分のデータを排除して1/2nf個のデータが取
り出される。すなわち上述のFFT回路8に供給
された256ワードの信号が変換されて128ワードの
パワースペクトル信号が取り出される。 このパワースペクトル信号がエンフアシス回路
10に供給されて聴感上の補正を行うための重み
付けが行われる。ここで、重み付けとしては、例
えば周波数の高域成分を増強する補正が行われ
る。 この重み付けされた信号が帯域分割回路11に
供給され、聴感特性に合せた周波数メルスケール
に応じて例えば32の帯域に分割される。ここでパ
ワースペクトルの分割点と異なる場合にはその信
号が各帯域に按分されてそれぞれの帯域の信号の
量に応じた信号が取り出される。これによつて上
述の128ワードのパワースペクトル信号が、音響
的特徴を保存したまま32ワードに圧縮される。 この信号が対数回路12に供給され、各信号の
対数値に変換される。これによつて上述のエンフ
アシス回路10での重み付け等による冗長度が排
除される。ここでこの対数パワースペクトル log|∪2 ofT(f)| ……(4) をスペクトルパラメータx(i)(i=0,1…31)と
称する。 このスペクトルパラメータx(i)が離散的フーリ
エ変換(DFT)回路13に供給される。ここで
このDFT回路13において、例えば分割された
帯域の数をMとすると、このM次元スペクトルパ
ラメータx(i)(i=0,1…M−1)を2M−1点
の実数対称パラメータとみなして2M−2点の
DEFを行う。従つて、 X(n)=2M-3 〓i=0 x(i)・Wmi 2M-2 ……(5) 但し、
【式】
となる。さらにこのDFTを行う函数は偶函数と
みなされるため Wmi 2M-2=cos(2〓・i・m/2M−2) =cos〓・i・m/M−1 となり、これらより X(n)=2M-3 〓i=0 x(i)cos〓・i・m/M−1 ……(6) となる。このDFTによりスペクトルの包絡特性
を表現する音響パラメータが抽出される。 このようにしてDFTされたスペクトラムパラ
メータx(i)について0〜P−1(例えばP=8)次
までのP次元の値を取り出し、これをローカルパ
ラメータL(p)(p=0,1…P−1)とすると L(p)=2M-3 〓i=0 x(i)cos〓・i・p/M−1 ……(7) となり、ここでスペクトルパラメータが対称であ
ることを考慮して x(i)=x(2M−i−2) ……(8) とおくと、ローカルパラメータL(p)は L(p)=x(p)+M-2 〓i=1 x(i){cos〓・i・p/M−1 +cos〓(2M−2−i)・p/M−1} +x(M−1)cos〓・p/M−1 ……(9) 但し、p=0,1…P−1 となる。このようにして32ワードの信号がP(例
えば8)ワードに圧縮される。 このローカルパラメータL(p)がメモリ装置14
に供給される。このメモリ装置14は1行Pワー
ドの記憶部が例えば16行マトリクス状に配された
もので、ローカルパラメータL(p)が各次元ごとに
順次記憶されると共に、上述のクロツク発生器5
からの5.12msec間隔のフレームクロツクが供給
されて、各行のパラメータが順次横方向へシフト
される。これによつてメモリ装置14には5.12m
sec間隔のP次元のローカルパラメータL(p)が16フ
レーム(81.92msec)分記憶され、フレームクロ
ツクごとに順次新しいパラメータに更新される。 さらに例えばエンフアシス回路10からの信号
が音声過渡点検出回路20に供給されて音韻間の
過渡点が検出される。 この過渡点検出信号T(t)がメモリ装置14に供
給され、この検出信号のタイミングに相当するロ
ーカルパラメータL(p)が8番目の行にシフトされ
た時点でメモリ装置14の読み出しが行われる。
ここでメモリ装置14の読み出しは、各次元Pご
とに16フレーム分の信号が横方向に読み出され
る。そして読み出された信号がDFT回路15に
供給される。 この回路15において上述と同様にDFTが行
われ、音響パラメータの時系列変化の包絡特性が
抽出される。このDFTされた信号の内から0〜
Q−1(例えばQ=3)次までのQ次元の値を取
り出す。このDFTを各次元Pごとに行い、全体
でP×Q(=24)ワードの過渡点パラメータK(p,q)
(p=0,1…P−1)(q=0,1…Q−1)が
形成される。ここで、K(0,0)は音声波形のパワー
を表現しているのでパワー正規化のため、p=0
のときにq=1〜Qとしてもよい。 すなわち第3図において、Aのような入力音声
信号(HAI)に対してBのような過渡点が検出
されている場合に、この信号の全体のパワースペ
クトルはCのようになつている。そして例えば
「H→A」の過渡点のパワースペクトルがDのよ
うであつたとすると、この信号がエンフアシスさ
れてEのようになり、メルスケールで圧縮されて
Fのようになる。この信号がDFTされてGのよ
うになり、Hのように前後の16フレーム分がマト
リツクスされ、この信号が順次時間軸t方向に
DFTされて過渡点パラメータK(p,q)が形成される。 この過渡点パラメータK(p,q)がマハラノビス距
離算出回路1に供給されると共に、メモリ装置1
7からのクラスタ係数が回路16に供給されて各
クラスタ係数とのマハラノビス距離が算出され
る。ここでクラスタ係数は複数の話者の発音から
上述と同様に過渡点パラメータを抽出し、これを
音韻の内容に応じて分類し統計解析して得られた
ものである。 そしてこの算出されたマハラノビス距離が判定
回路18に供給され、検出された過渡点が、何の
音韻から何の音韻への過渡点であるかが判定さ
れ、出力端子19に取り出される。 すなわち例えば“はい”“いいえ”“0(ゼロ)”
〜“9(キユウ)”の12単語について、あらかじめ
多数(百人以上)の話者の音声を前述の装置に供
給し、過渡点を検出し過渡点パラメータを抽出す
る。この過渡点パラメータを例えば第4図に示す
ようなテーブルに分類し、この分類(クラスタ)
ごとに統計解析する。図中*は無音を示す。 これらの過渡点パラメータについて、任意のサ
ンプルR(a) r,n(r=1,2…24)(aはクラス
タ指標で例えばa=1は*→H,a=2はH→A
に対応する。nは話者番号)として、共分散マト
リクス A(a) r,s≡E(R(a) r,n−r (a))(R(a) s,n−s (a)) ……(15) 但し、s (a)=E(R(a) r,n) Eはアンサンブル平均 を計数し、この逆マトリクス B(a) r,s=(A(a) t,u)-1 r,s ……(16) を求める。 ここで任意の過渡点パラメータKrとクラスタ
aとの距離が、マハラノビスの距離 D(Kr,a)d ≡ 〓r 〓s (Kr−r (a))・B(a) r,s・(Kr−s (a)) ……(17) で求められる。 従つて、メモリ装置17に上述のB(a) r,s及び
Rr (a)を求めて記憶しておくことにより、マハラノ
ビス距離算出回路16にて入力音声の過渡点パラ
メータとのマハラノビス距離が算出される。 これによつて回路16から入力音声の過渡点ご
とに各クラスタとの最小距離と過渡点の順位が取
り出される。これらが判定回路18に供給され、
入力音声が無声になつた時点において認識判定を
行う。例えば各単語ごとに、各過渡点パラメータ
とクラスタとの最小距離の平方根の平均値による
単語距離を求める。なお過渡点の一部脱落を考慮
して各単語は脱落を想定した複数のタイプについ
て単語距離を求める。ただし過渡点の順位関係が
テーブルと異なつているものはリジエクトする。
そしてこの単語距離が最小になる単語を認識判定
する。 従つてこの装置によれば音声の過渡点の音韻の
変化を検出しているので、時間軸の変動がなく、
不特定話者について良好な認識を行うことができ
る。 また過渡点において上述のようなパラメータの
抽出を行つたことにより、一つの過渡点を例えば
24次元で認識することができ、認識を極めて容易
かつ正確に行うことができる。 なお上述の装置において120名の話者にて学習
を行い、この120名以外の話者にて上述12単語に
ついて実験を行つた結果、98.2%の平均認識率が
得られた。 さらに上述の例で“はい”の「H→A」と“8
(ハチ)”の「H→A」は同じクラスタに分類可能
である。従つて、認識すべき言語の音韻数をαと
してαP2個のクラスタをあらかじめ計算してクラ
スタ係数をメモリ装置17に記憶させておけば、
種種の単語の認識に適用でき、多くの語いの認識
を容易に行うことができる。 本発明はこのような装置において、検出回路2
0に使用して好適な音声過渡点検出方法に関す
る。 ところで、従来の過渡点検出としては例えば音
響パラメータL(p)の変化量の総和を用いる方法が
ある。すなわちフレームごとにP次のパラメータ
が抽出されている場合に、Gフレームのパラメー
タをL(p)(G)(p=0,1…P−1)としたとき T(G)=P-1 〓p=0 |L(p)(G)−L(p)(G−1)| ……(9′) のような差分量の絶対値の総和を利用して検出を
行う。 ここでP=1次元のときには、第5図A,Bに
示すようにパラメータL(p)(G)の変化点においてパ
ラメータT(G)のピークが得られる。 尚、上述の説明ではL(p)(G)を連続量としたが、
実際にはこのパラメータL(p)(G)は離散量である。
しかし、このような音声認識装置にあつては所定
のMフレームずつの分析で1次元パラメータにお
としているために急峻な変化についていけず、無
音から口腔内の閉鎖部に空気流を吹き付けて生ず
る破裂性子音への過渡点の検出はほとんど不可能
であつた。 発明の目的 本発明はかかる点に鑑み、無音から破裂性子音
への過渡点の検出を良好に行なえるようにしたも
のである。 発明の概要 本発明は、入力音声信号を人間の聴覚特性に応
じて等しく重み付けして音響パラメータを抽出
し、該音響パラメータのレベルに対して正規化を
行い、この正規化された音響パラメータを複数フ
レームにわたつて監視し、上記音響パラメータの
ピークを検出するようにした音声過渡点検出方法
において、1次元パラメータがある閾値を越えて
所定のMフレームの間にピークがない場合、N
(N<M)フレーム目に過渡点があるものとする
ようにしたことを特徴とするものである。 実施例 以下、第6図を参照して本発明音声認識装置の
一実施例について説明しよう。この第6図におい
て、第2図に対応する部分には同一符号を付しそ
れらの詳細な説明は省略する。 第6図において、第2図のエンフアシス回路1
0からの重み付けされた信号が帯域分割回路21
に供給され、上述と同様にメルスケールに応じて
N(例えば20)の帯域に分割され、それぞれの帯
域の信号の量に応じた信号V(o)(n=0,1…N
−1)が取り出される。この信号がバイアス付き
対数回路22に供給されて v′(o)=log(V(o)+B) ……(10) が形成される。また信号V(o)が累算回路23に供
給されて Va=20 〓n=1 V(o)/20 が形成され、この信号Vaが対数回路22に供給
されて v′a=log(Va+B) ……(11) が形成される。そして、これらの信号が演算回路
24に供給されて v(o)=v′a−v′(o) ……(12) が形成される。 ここで、上述のような信号V(o)を用いることに
より、この信号は音韻から音韻への変化に対して
各次(n=0,1…N−1)の変化が同程度とな
り、音韻の種類による変化量のばらつきを回避で
きる。また対数をとり演算を行つて正規化パラメ
ータv(o)を形成したことにより、入力音声のレベ
ルの変化によるパラメータv(o)の変動が排除され
る。さらにバイアスBを加算して演算を行つたこ
とにより、仮りにB→∞とするとパラメータv(o)
→0となることから明らかなように、入力音声の
微少成分(ノイズ等)に対する感度を下げること
ができる。 このパラメータv(o)がメモリ装置25に供給さ
れて2w+1(例えば9)フレーム分が記憶され
る。この記憶された信号が演算回路26に供給さ
れて、 Yo,t= minI∈GFN{v(o)(I)} ……(13) 但し、GFN={I;−w+t≦I≦w+t} が形成され、この信号とパラメータv(o)が演算回
路27に供給されて、 T(t)=N-1 〓N=0 w 〓I=-w (v(o)(I+t)−Yn,t) ……(14) が形成される。このT(t)が、過渡点検出パラメー
タであつて、このT(t)がピーク検出回路28に供
給されて、入力音声信号の音韻の過渡点が検出さ
れ、出力端子32に取り出されて例えば第2図の
メモリ装置14の出力回路に供給される。 また、この過渡点検出パラメータT(t)をレベル
検出器29に供給する。そして、このレベル検出
器29では1次元パラメータとしての過渡点検出
パラメータT(t)がある所定の閾値を越えてから所
定のMフレームの間にピークがない場合にはレベ
ル検出器29よりの制御信号が単安定マルチバイ
ブレータ30に供給され、所定時間長のパルスを
過渡点設定回路31に供給するようにする。ま
た、この過渡点設定回路31にはピーク検出回路
28よりの過渡点パルスも供給するようにする。
そして、この過渡点設定回路31に、単安定マル
チバイブレータ30よりハイレベル信号が供給さ
れている所定のMフレームの間にピーク検出回路
28よりの過渡点パルスの供給がない場合にはか
かるハイレベル信号が立ち下がる地点で過渡点設
定回路31より過渡点パルスを発生させて出力端
子32から取り出し例えば第2図のメモリ装置1
4の出力回路に供給する如くする。そのため、ピ
ーク検出回路28による過渡点検出が困難な無音
から破裂性子音への過渡点についても、過渡点設
定回路31よりの過渡点パルスにより過渡点が検
出される。 このように構成された本実施例に依れば、無音
から破裂性子音への過渡点については設定回路3
1より過渡点パルスを発生させるようにしたの
で、無音から破裂性子音への過渡点の検出を良好
に行なえるようにできる利益がある。 発明の効果 以上述べたように本発明音声過渡点検出方法に
よれば、無音から破裂性子音への過渡点の検出を
良好に行なえる利益がある。
みなされるため Wmi 2M-2=cos(2〓・i・m/2M−2) =cos〓・i・m/M−1 となり、これらより X(n)=2M-3 〓i=0 x(i)cos〓・i・m/M−1 ……(6) となる。このDFTによりスペクトルの包絡特性
を表現する音響パラメータが抽出される。 このようにしてDFTされたスペクトラムパラ
メータx(i)について0〜P−1(例えばP=8)次
までのP次元の値を取り出し、これをローカルパ
ラメータL(p)(p=0,1…P−1)とすると L(p)=2M-3 〓i=0 x(i)cos〓・i・p/M−1 ……(7) となり、ここでスペクトルパラメータが対称であ
ることを考慮して x(i)=x(2M−i−2) ……(8) とおくと、ローカルパラメータL(p)は L(p)=x(p)+M-2 〓i=1 x(i){cos〓・i・p/M−1 +cos〓(2M−2−i)・p/M−1} +x(M−1)cos〓・p/M−1 ……(9) 但し、p=0,1…P−1 となる。このようにして32ワードの信号がP(例
えば8)ワードに圧縮される。 このローカルパラメータL(p)がメモリ装置14
に供給される。このメモリ装置14は1行Pワー
ドの記憶部が例えば16行マトリクス状に配された
もので、ローカルパラメータL(p)が各次元ごとに
順次記憶されると共に、上述のクロツク発生器5
からの5.12msec間隔のフレームクロツクが供給
されて、各行のパラメータが順次横方向へシフト
される。これによつてメモリ装置14には5.12m
sec間隔のP次元のローカルパラメータL(p)が16フ
レーム(81.92msec)分記憶され、フレームクロ
ツクごとに順次新しいパラメータに更新される。 さらに例えばエンフアシス回路10からの信号
が音声過渡点検出回路20に供給されて音韻間の
過渡点が検出される。 この過渡点検出信号T(t)がメモリ装置14に供
給され、この検出信号のタイミングに相当するロ
ーカルパラメータL(p)が8番目の行にシフトされ
た時点でメモリ装置14の読み出しが行われる。
ここでメモリ装置14の読み出しは、各次元Pご
とに16フレーム分の信号が横方向に読み出され
る。そして読み出された信号がDFT回路15に
供給される。 この回路15において上述と同様にDFTが行
われ、音響パラメータの時系列変化の包絡特性が
抽出される。このDFTされた信号の内から0〜
Q−1(例えばQ=3)次までのQ次元の値を取
り出す。このDFTを各次元Pごとに行い、全体
でP×Q(=24)ワードの過渡点パラメータK(p,q)
(p=0,1…P−1)(q=0,1…Q−1)が
形成される。ここで、K(0,0)は音声波形のパワー
を表現しているのでパワー正規化のため、p=0
のときにq=1〜Qとしてもよい。 すなわち第3図において、Aのような入力音声
信号(HAI)に対してBのような過渡点が検出
されている場合に、この信号の全体のパワースペ
クトルはCのようになつている。そして例えば
「H→A」の過渡点のパワースペクトルがDのよ
うであつたとすると、この信号がエンフアシスさ
れてEのようになり、メルスケールで圧縮されて
Fのようになる。この信号がDFTされてGのよ
うになり、Hのように前後の16フレーム分がマト
リツクスされ、この信号が順次時間軸t方向に
DFTされて過渡点パラメータK(p,q)が形成される。 この過渡点パラメータK(p,q)がマハラノビス距
離算出回路1に供給されると共に、メモリ装置1
7からのクラスタ係数が回路16に供給されて各
クラスタ係数とのマハラノビス距離が算出され
る。ここでクラスタ係数は複数の話者の発音から
上述と同様に過渡点パラメータを抽出し、これを
音韻の内容に応じて分類し統計解析して得られた
ものである。 そしてこの算出されたマハラノビス距離が判定
回路18に供給され、検出された過渡点が、何の
音韻から何の音韻への過渡点であるかが判定さ
れ、出力端子19に取り出される。 すなわち例えば“はい”“いいえ”“0(ゼロ)”
〜“9(キユウ)”の12単語について、あらかじめ
多数(百人以上)の話者の音声を前述の装置に供
給し、過渡点を検出し過渡点パラメータを抽出す
る。この過渡点パラメータを例えば第4図に示す
ようなテーブルに分類し、この分類(クラスタ)
ごとに統計解析する。図中*は無音を示す。 これらの過渡点パラメータについて、任意のサ
ンプルR(a) r,n(r=1,2…24)(aはクラス
タ指標で例えばa=1は*→H,a=2はH→A
に対応する。nは話者番号)として、共分散マト
リクス A(a) r,s≡E(R(a) r,n−r (a))(R(a) s,n−s (a)) ……(15) 但し、s (a)=E(R(a) r,n) Eはアンサンブル平均 を計数し、この逆マトリクス B(a) r,s=(A(a) t,u)-1 r,s ……(16) を求める。 ここで任意の過渡点パラメータKrとクラスタ
aとの距離が、マハラノビスの距離 D(Kr,a)d ≡ 〓r 〓s (Kr−r (a))・B(a) r,s・(Kr−s (a)) ……(17) で求められる。 従つて、メモリ装置17に上述のB(a) r,s及び
Rr (a)を求めて記憶しておくことにより、マハラノ
ビス距離算出回路16にて入力音声の過渡点パラ
メータとのマハラノビス距離が算出される。 これによつて回路16から入力音声の過渡点ご
とに各クラスタとの最小距離と過渡点の順位が取
り出される。これらが判定回路18に供給され、
入力音声が無声になつた時点において認識判定を
行う。例えば各単語ごとに、各過渡点パラメータ
とクラスタとの最小距離の平方根の平均値による
単語距離を求める。なお過渡点の一部脱落を考慮
して各単語は脱落を想定した複数のタイプについ
て単語距離を求める。ただし過渡点の順位関係が
テーブルと異なつているものはリジエクトする。
そしてこの単語距離が最小になる単語を認識判定
する。 従つてこの装置によれば音声の過渡点の音韻の
変化を検出しているので、時間軸の変動がなく、
不特定話者について良好な認識を行うことができ
る。 また過渡点において上述のようなパラメータの
抽出を行つたことにより、一つの過渡点を例えば
24次元で認識することができ、認識を極めて容易
かつ正確に行うことができる。 なお上述の装置において120名の話者にて学習
を行い、この120名以外の話者にて上述12単語に
ついて実験を行つた結果、98.2%の平均認識率が
得られた。 さらに上述の例で“はい”の「H→A」と“8
(ハチ)”の「H→A」は同じクラスタに分類可能
である。従つて、認識すべき言語の音韻数をαと
してαP2個のクラスタをあらかじめ計算してクラ
スタ係数をメモリ装置17に記憶させておけば、
種種の単語の認識に適用でき、多くの語いの認識
を容易に行うことができる。 本発明はこのような装置において、検出回路2
0に使用して好適な音声過渡点検出方法に関す
る。 ところで、従来の過渡点検出としては例えば音
響パラメータL(p)の変化量の総和を用いる方法が
ある。すなわちフレームごとにP次のパラメータ
が抽出されている場合に、Gフレームのパラメー
タをL(p)(G)(p=0,1…P−1)としたとき T(G)=P-1 〓p=0 |L(p)(G)−L(p)(G−1)| ……(9′) のような差分量の絶対値の総和を利用して検出を
行う。 ここでP=1次元のときには、第5図A,Bに
示すようにパラメータL(p)(G)の変化点においてパ
ラメータT(G)のピークが得られる。 尚、上述の説明ではL(p)(G)を連続量としたが、
実際にはこのパラメータL(p)(G)は離散量である。
しかし、このような音声認識装置にあつては所定
のMフレームずつの分析で1次元パラメータにお
としているために急峻な変化についていけず、無
音から口腔内の閉鎖部に空気流を吹き付けて生ず
る破裂性子音への過渡点の検出はほとんど不可能
であつた。 発明の目的 本発明はかかる点に鑑み、無音から破裂性子音
への過渡点の検出を良好に行なえるようにしたも
のである。 発明の概要 本発明は、入力音声信号を人間の聴覚特性に応
じて等しく重み付けして音響パラメータを抽出
し、該音響パラメータのレベルに対して正規化を
行い、この正規化された音響パラメータを複数フ
レームにわたつて監視し、上記音響パラメータの
ピークを検出するようにした音声過渡点検出方法
において、1次元パラメータがある閾値を越えて
所定のMフレームの間にピークがない場合、N
(N<M)フレーム目に過渡点があるものとする
ようにしたことを特徴とするものである。 実施例 以下、第6図を参照して本発明音声認識装置の
一実施例について説明しよう。この第6図におい
て、第2図に対応する部分には同一符号を付しそ
れらの詳細な説明は省略する。 第6図において、第2図のエンフアシス回路1
0からの重み付けされた信号が帯域分割回路21
に供給され、上述と同様にメルスケールに応じて
N(例えば20)の帯域に分割され、それぞれの帯
域の信号の量に応じた信号V(o)(n=0,1…N
−1)が取り出される。この信号がバイアス付き
対数回路22に供給されて v′(o)=log(V(o)+B) ……(10) が形成される。また信号V(o)が累算回路23に供
給されて Va=20 〓n=1 V(o)/20 が形成され、この信号Vaが対数回路22に供給
されて v′a=log(Va+B) ……(11) が形成される。そして、これらの信号が演算回路
24に供給されて v(o)=v′a−v′(o) ……(12) が形成される。 ここで、上述のような信号V(o)を用いることに
より、この信号は音韻から音韻への変化に対して
各次(n=0,1…N−1)の変化が同程度とな
り、音韻の種類による変化量のばらつきを回避で
きる。また対数をとり演算を行つて正規化パラメ
ータv(o)を形成したことにより、入力音声のレベ
ルの変化によるパラメータv(o)の変動が排除され
る。さらにバイアスBを加算して演算を行つたこ
とにより、仮りにB→∞とするとパラメータv(o)
→0となることから明らかなように、入力音声の
微少成分(ノイズ等)に対する感度を下げること
ができる。 このパラメータv(o)がメモリ装置25に供給さ
れて2w+1(例えば9)フレーム分が記憶され
る。この記憶された信号が演算回路26に供給さ
れて、 Yo,t= minI∈GFN{v(o)(I)} ……(13) 但し、GFN={I;−w+t≦I≦w+t} が形成され、この信号とパラメータv(o)が演算回
路27に供給されて、 T(t)=N-1 〓N=0 w 〓I=-w (v(o)(I+t)−Yn,t) ……(14) が形成される。このT(t)が、過渡点検出パラメー
タであつて、このT(t)がピーク検出回路28に供
給されて、入力音声信号の音韻の過渡点が検出さ
れ、出力端子32に取り出されて例えば第2図の
メモリ装置14の出力回路に供給される。 また、この過渡点検出パラメータT(t)をレベル
検出器29に供給する。そして、このレベル検出
器29では1次元パラメータとしての過渡点検出
パラメータT(t)がある所定の閾値を越えてから所
定のMフレームの間にピークがない場合にはレベ
ル検出器29よりの制御信号が単安定マルチバイ
ブレータ30に供給され、所定時間長のパルスを
過渡点設定回路31に供給するようにする。ま
た、この過渡点設定回路31にはピーク検出回路
28よりの過渡点パルスも供給するようにする。
そして、この過渡点設定回路31に、単安定マル
チバイブレータ30よりハイレベル信号が供給さ
れている所定のMフレームの間にピーク検出回路
28よりの過渡点パルスの供給がない場合にはか
かるハイレベル信号が立ち下がる地点で過渡点設
定回路31より過渡点パルスを発生させて出力端
子32から取り出し例えば第2図のメモリ装置1
4の出力回路に供給する如くする。そのため、ピ
ーク検出回路28による過渡点検出が困難な無音
から破裂性子音への過渡点についても、過渡点設
定回路31よりの過渡点パルスにより過渡点が検
出される。 このように構成された本実施例に依れば、無音
から破裂性子音への過渡点については設定回路3
1より過渡点パルスを発生させるようにしたの
で、無音から破裂性子音への過渡点の検出を良好
に行なえるようにできる利益がある。 発明の効果 以上述べたように本発明音声過渡点検出方法に
よれば、無音から破裂性子音への過渡点の検出を
良好に行なえる利益がある。
第1図〜第4図は音声認識装置の説明のための
図、第5図は過渡点検出の説明のための図、第6
図は本発明音声過渡点検出方法の一例の系統図で
ある。 1はマイクロフオン、3はローパスフイルタ、
4はAD変換回路、5はクロツク発生器、6はレ
ジスタ、7はカウンタ、8は高速フーリエ変換回
路、9はパワースペクトル検出回路、10はエン
フアシス回路、21は帯域分割回路、22は対数
回路、23,24,26,27は演算回路、25
はメモリ装置、28はピーク検出回路、29はレ
ベル検出器、30は単安定マルチバイブレータ、
31は過渡点設定回路、32は出力端子である。
図、第5図は過渡点検出の説明のための図、第6
図は本発明音声過渡点検出方法の一例の系統図で
ある。 1はマイクロフオン、3はローパスフイルタ、
4はAD変換回路、5はクロツク発生器、6はレ
ジスタ、7はカウンタ、8は高速フーリエ変換回
路、9はパワースペクトル検出回路、10はエン
フアシス回路、21は帯域分割回路、22は対数
回路、23,24,26,27は演算回路、25
はメモリ装置、28はピーク検出回路、29はレ
ベル検出器、30は単安定マルチバイブレータ、
31は過渡点設定回路、32は出力端子である。
Claims (1)
- 【特許請求の範囲】 1 入力音声信号を人間の聴覚特性に応じて等し
く重み付けして音響パラメータを抽出し、該音響
パラメータのレベルに対して正規化を行い、この
正規化された音響パラメータを複数フレームにわ
たつて監視し、上記音響パラメータのピークを検
出するようにした音声過渡点検出方法において、 1次元パラメータがある閾値を越えて所定のM
フレームの間にピークがない場合、N(N<M)
フレーム目に過渡点があるものとするようにした
ことを特徴とする音声過渡点検出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58047664A JPS59172697A (ja) | 1983-03-22 | 1983-03-22 | 音声過渡点検出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58047664A JPS59172697A (ja) | 1983-03-22 | 1983-03-22 | 音声過渡点検出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS59172697A JPS59172697A (ja) | 1984-09-29 |
JPH0546559B2 true JPH0546559B2 (ja) | 1993-07-14 |
Family
ID=12781524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58047664A Granted JPS59172697A (ja) | 1983-03-22 | 1983-03-22 | 音声過渡点検出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS59172697A (ja) |
-
1983
- 1983-03-22 JP JP58047664A patent/JPS59172697A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
JPS59172697A (ja) | 1984-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0441356B2 (ja) | ||
US20100332222A1 (en) | Intelligent classification method of vocal signal | |
JPH0990974A (ja) | 信号処理方法 | |
Patil et al. | Automatic Speech Recognition of isolated words in Hindi language using MFCC | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
JPH0441357B2 (ja) | ||
Chen et al. | Teager Mel and PLP fusion feature based speech emotion recognition | |
JPH0546559B2 (ja) | ||
JPH0552509B2 (ja) | ||
JPH0546558B2 (ja) | ||
Berjon et al. | Frequency-centroid features for word recognition of non-native English speakers | |
JPH0552511B2 (ja) | ||
JPH0552510B2 (ja) | ||
JPH0546560B2 (ja) | ||
JPH0552515B2 (ja) | ||
Garg et al. | Minimal Feature Analysis for Isolated Digit Recognition for varying encoding rates in noisy environments | |
Besbes et al. | Classification of speech under stress based on cepstral features and one-class SVM | |
Naing et al. | Comparison of Three Auditory Frequency Scales in Feature Extraction on Myanmar Digits Recognition | |
Tabassum et al. | Speaker independent speech recognition of isolated words in room environment | |
JPH0552512B2 (ja) | ||
JPS63213899A (ja) | 話者照合方式 | |
JPS6069697A (ja) | 音声認識装置 | |
JPS6086599A (ja) | 音声認識装置 | |
JPS6069696A (ja) | 音声認識装置 | |
JPH054678B2 (ja) |