JPS59171999A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPS59171999A
JPS59171999A JP58046454A JP4645483A JPS59171999A JP S59171999 A JPS59171999 A JP S59171999A JP 58046454 A JP58046454 A JP 58046454A JP 4645483 A JP4645483 A JP 4645483A JP S59171999 A JPS59171999 A JP S59171999A
Authority
JP
Japan
Prior art keywords
parameter
signal
transient
parameters
supplied
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58046454A
Other languages
English (en)
Other versions
JPH0546558B2 (ja
Inventor
雅男 渡
誠 赤羽
平岩 篤信
曜一郎 佐古
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP58046454A priority Critical patent/JPS59171999A/ja
Publication of JPS59171999A publication Critical patent/JPS59171999A/ja
Publication of JPH0546558B2 publication Critical patent/JPH0546558B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声を認識する音声認識装置に関する。
背景技術とその問題点 音声g誠においては、特定話者に対する単語認識による
ものかすでに実用化されている。これはあらかじめ認識
対象とする全ての単語について特定話者にこれらを発音
させ、バンドパスフィルタバンク等によりその音響パラ
メータを検出して記憶(登録)しておき、特定諸省が発
声したときその音響ノ°(ラメータを検出し、登録され
た各単語の音響パラメータと比較し、これらが一致した
ときその乎語であるとの認識を行う。
このような装置において、話者の発声の時間軸が登録時
と異なっている場合には、−短時間(5〜20m(5)
ン毎に抽出される音響パラメータの時系列を伸縮して時
間軸を整合させる。これによって発声速度の変動に対処
させるようにしている。
ところがこの装置の場合、認識対象とする全ての単語に
ついてその単語の全体の音響パラメータをあらがじめ登
録格納しておかなければならず、膨大な記憶容量と演算
を必要とする。このため認識語い数に限界があった。
これに対して音韻(日本語でいえはローマ字衣記したト
@)A、 I 、 U、 B、 0. K、 S、 ’
r等) アルイ。
は音節(KA、 KI 、 KU等)単位での認識を行
うことが提系されている。しかしこの場合に、母音等の
準定常部を有する音韻の認識は容易であっても、破裂音
(K、T、P等ンのよ5に音韻的特徴が非常に短いもの
を音響パラメータのみで一つの音韻に特定することは極
めて困難である。
そこで従来は、各音節ごとに離散的に発音された音声を
登録し、離散的に発声された音声を単語認識と同様に時
間軸整合させて認識を行っており、特殊な発声な行うた
めに限定され1こ用途でしか利用できなかった。
さらに、不特定話者を認識対象とした場合には、音響パ
ラメータに個人差による大きな分散かあり、上述のよう
に時間軸の整合だけでは認識を行うことかできンよい。
そこで、例えは一つの単語について複数の音響パラメー
タを登録して近似の音響パラメータを認識する方法や、
単語全体を固定次元のパラメータに変換し、識別函数に
よって判別する方法が提案されているか、いずれも膨大
な記憶容量を8妥としたり、演算量が多(、認識語い数
が極めて少(なってしまう。
ところで音韻の発声現象を観察すると、母音や摩擦音(
S、H等)の音韻は長く伸して発声することかできるこ
とがわかる。例えは゛はい”という発声を考えた場合に
、この音韻は第1図人、に示すように「無音→H,−+
に→■→無音」に変化する。これに対して同じ゛はい”
の発声を第1図Bのように行うこともできるものである
またここで、H,A、Iの準定常部の長さは発声ごとに
変化し、これによって時間軸の変動を生じる。ところが
この場合に、各音韻間の過渡部(斜線で示すンは比較的
時間軸の変動が少いことか判明した。
この為、この音韻間の過渡部に着目して不特定話者に対
しても良好に音声認識を行えるようにした第2図に示す
如き音声認識装置が提案されている。以下、第2図乃至
第5図を参照してこの音声認識装置の提案例について睨
明する。
第2図において、(1)は音声分析部を示し、この音声
分析部(1)は次に述べるように、音声信号を音響パラ
メータ時系列に変換するものである。まず、マイクロフ
ォン(2)に供給された音声イキ号がマイクアンプ(3
)、5.5kHz以下のローパスフィルタ(4)を通じ
てAD変換回路(5)に供給される。また一方、クロッ
ク発生器(6)からの12.5kHz (80μ派間隔
)のサンプリングクロックがAD変換回路(5)に供給
され、このタイミングで音声信号がそれぞれ所定ビット
数(=1ワード〕のデジタル信号に変換される。そして
、この変換された音声信号が5×64ワードのレジスタ
(7)に供給される。また、クロック発生器(6)から
の5.12m5(資)間隔のフレームクロックが5進カ
ウンタ(8)に供給され、このカウント値がレジスタ(
7)に供給されて音声信号が64ワードずつシフトされ
、シフトされた4X64ワードの信号がレジスタ(力か
ら取り出される。
Iこのレジスタ(力から取り出された4 X 64=2
56ワードの信号が尚速フーリエ変換(F’FT)回路
(9)に供給される。このFFT回路(9)においては
、・例えはTの時間長に含まれるnf1u¥1のサンプ
リングデータによって衣される波形函数を Un (T(t)                 
              −−(1)としたとき、
これをフーリエ変換して、=UxnrTCf)+jUz
n(T<f)      −−−−−−(2)の信号が
得られるごとくなされる。
さらに、とのFFT回路(9)からの信号がパワースペ
クトルの検出回路QQIに供給され、1 (iJ21 
=U1nl T (f) 十U2n(T (f)   
   −・・(31のパワースペクトル信号が取り出さ
れる。ここでフーリエ変換された信号は周波数軸上で対
称になっているので、フーリエ変換によって取り出され
るnf個のデータの半分は冗長データである。そこで、
半分のデータを排除して−nf個のデータが取つ出さ庇
るよ5になされる。すなわち、上述のFFT回路(9)
に供給された256ワードの信号が変換されて128ワ
ードのパワースペクトル信号が取り出される。
このパワースペクトル信号がエンファシスIP!l路a
υに供給されて聴感上の補正を行うための凰み付けが行
われる。ここで1み付けとしては、例えは周波数の高域
成分を増強する補正が行われる。
このようにして音声分析部(1)において、音声信号の
音響パラメータ時系列として重み付けされたパワースペ
クトル信号が得られる。そして、この音声分析部(1)
からの重み付けされたバヮースペクトル信号が過渡パラ
メータ抽出部(17J及び過渡点検出部0に夫々供給さ
れる。この過渡パラメータ抽出部α力は音声分析部(1
)からの音声信号の音響パラメータ時系列から音声信号
の音韻的特徴を保持した低次の過渡点パラメータを抽出
゛するものであり、また過渡点検出部(13)は音声分
析部(1)からの音声信号の音響パラメータ時系列から
音声信号の過渡点を検出して過渡点検出信号を発生する
ものであり、この過渡点検出部(13)からの過渡点検
出信号が過渡パラメータ抽出部(I21に供給され、過
渡パラメータ抽出部(121において過渡点における音
声信号の音韻的特徴を保持した低次の過渡点パラメータ
が抽出される。
以下、これら過渡パラメータ抽出部(1り及び過渡点検
出部(131について説明する。
音声分析部(1)のエンファシス回路αυからの重み付
けされたパワースペクトル信号が帯域分割回路圓に供給
され、聴感特性に合せて周波数メルスケールに応じて例
えば32の帯域に分割される。ここでパワースペクトル
の分割点と異なる場合にはその信号が各帯域に按分され
てそれぞれの帯域の信号の量に応じた信号□が取り出さ
れる。これによって上述の128ワードのパワースペク
トル信号が、音響的特徴を保存したまま32ワードに圧
縮される。
この信号が対数回路(15)に供給され、信号がその信
号の対数値に変換される。これによって上述のエンファ
シス回路(11)での重み伺は等による冗長度が排除さ
れる。この対数パワースペクトルtog l U n 
(T (f) l          ・−・(41を
スペクトルパーラメータx(i)(i=o 、 1・・
・・・・31)と称することにする。
このスペクトルパラメータX(i)が離散的フーリエ変
侠(DFT)回路α6jに供給される。ここでこのDF
T回路uQにおいて、例えば分割された帯域の数をMと
すると、このM次元スペクトルパラメータX(1)(i
−0,1・叩・M−1)を2M点の実数対称パラメータ
とみなしてDFTを行う。従って −f、シ0)櫂ムdi       ・・・・・・(5
)但し、w’i着 −6−」(−) M m=0.1−・−・−2M−1 となる。さらにとのりFTを行う函数は偶函数とみなさ
れるため 、F、−QQS(2yr −i −m。
M となり、これらより M−1 X(7141−Σ X (i) COS”’−”’  
    、、、、、、 (611−OM となる。、このDFTによりスペクトルの包絡特性を表
現する音響パラメータが抽出される。
このようにしてDFTされたスペクトルパラメータX(
j)について、低次元で各音韻の変化例えばH→A、A
→■等間を分離性の良いパラメータに圧縮するタメ泣周
波数軸方向における32ワードからなる信号がらDFT
 Kよりo−p−1(例えはP−8)次までの低次成分
であるP次元の値が取り出され、これをローカルパラメ
ータL(p) (p、=Q 、 1・・・・・・P−1
)とするi ・・・・・・(力 となり、ここでスペクトルパラメータが対称であること
を考慮して x(i)=X(2M−i−,1)          
−−−−−−(81とおくと、ローカルパラメータL(
p〕は・・・・・・(9) 但し、p=0.l・・・・・・p−1 となされる。このようにして周波数軸方向における32
ワードの信号がP(例えば8)ワードに圧縮される。
このローカルパラメータL(p)がメモリ装置(I7)
に供給される。このメモリ装置σηは1行P ’7− 
)”の記憶部が例えば16行マトリクス状に配されたも
ので、ローカルパラメータL (1))が各次元ごとに
順次記憶されると共に、上述のクロック発生器(6)か
らの5.12rrrH聞隔のフレームクロックが供給さ
れて、各行のパラメータが順次横方向ヘシフトされる。
これによってメモリ装置a力には5.12nn(8)間
隔のP次元のローカルパラメータL (p)が16フレ
ーム(81,92m 5ec)分記憶され、フレームク
ロックごとに順次新しいパラメータに更新される。
一方、音声分析部(1)のエンファシス回路Uυからの
重み付けされた信号が過渡点検出部0:31の帯域分割
回路賭に供給され、上述と同様にメルスケールに比;じ
てN(例えは20)の帯域に分割され、それぞれの帯域
の信号の量に応じた信号V(n)(n:=−O9l・・
・・・・N−1)か取り出される。この信号がバイアス
付き対数回路α坤に供給されて u’<ro = Log  (v(n> 十B  ) 
                  −・・(10)
か形成される。また信号V(n)が累算回路uO)に供
給されて V、−Σ ■<n)/2゜ n=1 が形成され、この信号Vaが対数回路(l坤に供給され
て ”a −10g (va十B )          
 ・・・・・・(1υが形成される。そしてこれらの信
号が演算回路しυに供給されて υ(n) ”” vα−v(II)         
  …′°゛仏4が形成される。′ ここで上述のような信号ν(n)を用いることにより、
この信号は音−から音韻への変化に対して各法(n=0
.1・・・・・・N−1)の変化が同程度となり、音頭
の種類による変化量のばらつきを回避できる。
また対数をとり演算を行って正規化パラメータν(n)
を形成したことにより、入力音声のレベルの変化による
パラメータv(n)の変動が排除される。
さらにバイアスBを加算して演算を行ったことにより、
仮りにB→ωとするとパラメータv(n)→0となるこ
とから明らかなように、入力音声の微少成分(ノイズ等
)に対する感度を下げることができる。
このパラメータυ(n)がメモリ装置四に供給されて2
〜ν+1(例えば9)フレーム分が記憶される。この記
1息された信号か演算回路し島に供給されてYn 、t
=  mm   (v(nパリ)          
  ・−−−−・u3iI(GFN 但し、GFN= (1;−W十t≦■≦w+t)か形成
され、この信号とパラメータν(n)が演算回路Q・υ
に供給されて T (t)−Σ Σ (”(n) (I+t) −Yn
 、 t) ・’−・−・Hidn=OI=−w か形成される、このT(t)が過渡点検出パラメータで
あって、このT(t)かピーク判別回路(ハ)に供給さ
れて、入力音声信号の音韻の過渡点が検出される。
ここでパラメータT(t)が、フレームtを挾んで前後
Wフレームずつで定義されているので、不要な凹凸や多
極を生じるおそれがない。なお第3図は例えば”ゼロ”
という発声を、サンプリング周波数12.5kHz 、
 12ビツトデジタルデータとし、5、12m灘フレー
ム周期で256点のFFTを行い、帯域数N−20、バ
イアスB=0、検出フレーム数2w+1=9で上述の検
出を行った場合を示している。図中Aは音声仮形1.B
は音韻、Cは検出信号であって、「無音うZ」 「Z−
+E」 「E→R」 「R→0」「0→無音」の各過渡
部で顕著なピークを発生する。ここで無音部にノイズに
よる多少の凹凸か形成されるがこれはバイアスBを太き
(することにより破線図示のように略0になる。
この過渡点検出信号T (t)が過渡ノ(ラメータ抽出
部(12+のメモリ装置(lηに供給され、この検出信
号のタイミレグに相当す、るローカルノ(ラメータL 
(1))が8番目の行にシフトされた時点でメモリ装置
α7)の読み出しが行われる。ここでメモリ装置α7)
の読み出しは、各次元Pごとに16フレ一ム分の信号か
横方向に読み出される。そして読み出された信号がDF
T回路(至)に供給される。ここでこのDFT回路(2
bJにおいて、例えばメモリ装置(17)から読み出さ
れた16フレ一ム分の信号をP<n)(n=1.2 、
・・・・・・30)とすると、DFT回路(ホ)におい
て、供給された16フレ一ム分の信号が第6図に示す如
(対称化され、この30個の時系列データに対して対称
性が考、慮されてDFTが行なわれ 2π1(n−1)      ・・・・・・(15)=
、41P(n)cos  30 が得られる。この場合、低次元で各音韻の変化例えばH
−+ A 、 A −+ I等間を分離性の良いノくラ
メータに圧縮するために時間軸方向における16フレ一
ム分の信号からDFTにより1〜Q(例えばQ=3)次
までの低次成分であるQ次元の値が取り出される。
この様にして音響パラメータ時系列の時間的変化の包絡
特性か抽出される。このDFTを各次元Pごとに行い、
全体でPXQ(=、24)ワードの過渡点ノくラメータ
K(1) 、 q)(1)=0 、1・・・・・・P−
1) (q=0 、1・・・・・・Q−1)が形成され
る。ここで、K(o、o)は定数なので、p−=Qのと
きにQ=1〜Qとしてもよい。
すなわち第4図において、Aのような入力音声信号(H
AI)に対してBのような過渡点が検出されている場合
に、この信号の全体のパワースペクトルはCのようにな
っている。そして例えば「H→A、Jめ過渡点のパワー
スペクトルがDのようであったとすると、この信号がエ
ンファシスされてEのようになり、メルスケールで圧縮
されてFのようになる。この信号がDFTされてGのよ
うになり、Hのように前後の16フレ一ム分がマトリク
スされ、この信号が順次時間軸を方向にDFTされて例
えば(8x3=−)’24の過渡点パラメータK(p 
、 q)が形成される。
この様にして得られた過渡パラメータ抽出部αカからの
゛過渡点パラメータK(p、q)が音声判定部(27)
に供給され、この音声判定部(2力において音声信号の
認識判定かなされる。以下、この音声判定部(27)に
ついて説明する。
過渡パラメータ抽出部αりのDFT回路(I!brから
の過渡点パラメータK(p、 q)が音声判定部(27
)のマノ1ラノビス距離算出回路弼に供給されると共に
、メモリ装置(ハ)からのクラスタ係数がマハラノビス
距離算出回路困に供給されて各クラスタ係数とのマハラ
ノビス距離が算出される。ここでクラスタ係数は複数の
話者の発音から上述と同様に過渡点パラメータを抽出し
、これを音韻の内容に応じて分類し統計解析して得られ
たものである。
そしてこの算出されたマノ・マノビス距離が判定回路イ
0)に供給され、検出された過渡点が、何の音韻から例
の音韻への過渡点であるかが判定され、出力端子(3υ
に取り出される。
すなわち例えば“はい”いいえ”0(ゼロ)〜“9(キ
ュウ)”の12単語について、あらかじめ多数(巨Å以
上)の話者の音声を前述の装置に供給し、過渡点を検出
し過渡点パラメータを抽出する。この過渡点パラメータ
を例えば第5図に示すようなテーブルに分類し、この分
類(クラスタ)ごとに統計解析する。図中*は無音を示
す。
これらの過渡点パラメータについて、f意のサン7’ 
/L/をI(r”+ンn (r’= 1 、2−−24
 ) (aはクラスタ指標で例えはa == 1は*→
H,a=2はH−+Aに対応する。
11は話者番号)として、共分散マトリクスAr(a)
s=E(Rr守籟−Rr(a))(R8(?)n−I−
tS(8う  ・・・・・・αb)但し、Rr(a)−
E(Rr’?A )Eはアンサンプル平均 を計数し、この逆マトリクス Br(?” ””(At(?)u);1.s     
    °叩’ 171を求める。
ここで、任意の過渡点パラメータKrとクラスタaとの
距離か、マハラノビスの距離 ・・・・・・u8I で求め゛られる。
従ってメモリ装置Glに上述のBr’?S及びRr(a
)を求めて記憶してお(ことにより、マノ1ラノビス距
離算出回路(支)にて入力音声の過渡点パラメータとの
マハラノビス距離が算出される。
これによってマハラノビス距離算出回路(ハ)から入力
音声の過渡点ごとに各クラスタとの最小距離と過渡点の
順位が取り出される。これらが判定回路c30)に供給
され、入力音声が無音になった時点において認識判定を
行う。例えば各単語ごとに、各過渡点パラメータとクラ
スタとの最小距離の平方根の平均値による単語距離を求
める。なお過渡点設点の順位関係がテーブルと異なって
いるものはリジェクトする。そしてこの単語距離が最小
になる単語を認識判定する。
こうして音声認識か行われるわけであるが、かかる構成
よりなる音声認識装置によれば音声の過渡点の音韻の変
化を検出しているので、時間軸の変動がなく、不特定話
者についても良好な認識を行うことができる。
また過渡点において上述のようなパラメータの抽出を行
ったことにより、一つの過渡点を例えは24次元で認識
することになる。
ところで、この音声認識装置に関連してより効率的な過
渡部の情報圧縮技術を必要とした。
例えば、2次元対称化L)FT[gl路剛によりNxM
次元(上述例では24次元)に情報圧縮された過渡点パ
ラメータKr(r−1,・・・・・・、NXM)を音声
認識基本単位とする場合、予め多数話者のデータから各
過渡クラスタの平均ベクトル、共分散マトリクス等を求
めマハラノビス距離等で識別を行なうことになる。この
場合、統計的に十分なサンプルが集められれば、学習外
データに関する認識率と学習データに対する認識率は等
しくなってくる。パラメータの次元か増えるとそれに応
じて統計的に十分1よりンプル数として多(を必要とす
る。1そのため、゛低次元でクラスタ間の分離度のよい
最適過渡点パラメータを得ることが望まれた。そして、
かかる低次元゛の過渡点パラメータを用いて、不特定話
者についての音声の認識を認識効率よべ行なえるように
する要請があった。
発明の目的 本発明はかかる点に鑑み、不特定話者についての音声の
認識を認識効率よく行なえる音声認識装置を提供せんと
するものである。
発明の概要 本発明音声認識装置は、・マイクロホンを有し、該マイ
クロホンからの音声信号な聴感上の処理を施した音響パ
ラメータ時系列に変換し、該音響バラメータ時系列から
過渡点パラメータを得、該過渡点パラメータなに−L変
換して情報圧縮するようにしたもので、不特定話者につ
いての音声の認識を認雛効率よく行なえる音声認識装置
を提供せんとするものである。
実施例 以下、第6図を参照して本発明音声認識装置の一実施例
について説明しよう。この第6図において、第2図に対
応する部分には同一符号を付し、それらの詳細な説明は
省略する。
この実施例においては、過渡パラメータ抽出部(l乃の
DFT回路(ト)から得られる過渡点パラメータK(p
、 q)E)Piを、統計学上周知の主成分分析手法と
して知られるに−L変換を行なうに−L変換回路621
に供給し、このに−L変換回路621の出力を、マハラ
ノビス距離算出回路弼に供給するようにする。
ここで、このに−L変換回路の21においては過渡点パ
ラメータの成分間の相関を利用し、クラスタの分離に対
して冗長な座標を所定数除去するようにする。このに−
L変換はm個の特性値(そのとる値は対象ととに異なる
から、それらはいずれも変数)のもつ情報を、mより小
数個の総合特性1m (これを主成分とよぷ)に要約す
る手法として統計学上よく知られている。
具体的には、過渡点バラメークを所定の順番でPH(i
=1.・・・・・・、 24=NXM)としたとき、新
たに最適化された過渡点パラメータQA(A−1,・・
・・・・、15)を、なる計゛算式で求める。ここで、
A4iは次のように決めるものである。多数話者の全ク
ラスタに対する過渡パラメータから求める場合には、か
かる過渡パラメータについての共分散マトリクスを計算
し、この共分散マトリクスの固有値と固有ベクトルを求
め固有値の大きい朧に固有ベクトルを並べかえてそれを
A4iとする。つまり、固有イ直最大の固有ベクトルは
A、1i s 2査目のものはA2□、・・・・・・。
A15 iという具合にAAik決定していく、この決
定の仕方は、K−L変換について知られる主成分の係数
の決定と同じものである。K−L変換にあっては、共分
散マトリクスの固有値の大きい方からj胆にとつた対応
づ−る固有ベクトルによって第1主成分、第2主成分、
・・・・・・というようにllTh次決定していき、こ
のに−Li換を行なうと、情報が効率よく要約され少な
い情報で効率よく情報が伝達できるという周知の事項に
対応するものである。
このようにに−L変換により新たに最適化し情報圧縮し
た過渡点パラメータQA(A=1.・・・・・・、15
)をマハラノビス距離算出回路(2団に供給するように
する。
また、メモリ装W 129Jにおけるクラスタ係数も功
たに最適化した過渡点パラメータに対応させて従来例に
おけるクラスタ′恍数につ@に−L変俣を行ない、過渡
点パラメータに対応させる順序に谷係飲により自己する
ようにする。
他の部分は、前述提案例の音声認識装置と同様に構成す
るものとする。
このように構成したこの実施例にあっては、マイクロホ
ン(2)からの音声信号か聴感上の処理を施した音響パ
ラメータ時系列に変換され、音曽バラ2メータ蒔系列か
ら過渡点パラメータが得られる、提案側同様の動作の後
、前述提案例における過渡点バラメースに対しに−L変
換が施され、過渡点パラメータが最適化されマハラノビ
ス距離算出回路(ハ)に供給される。また一方に−L変
換の施されたクラスタ係数がマハラノビス距離與出回路
(ハ)に供給されて谷クラスタ係数とのマハラノビス距
離か算出される。
そして、この算出されたマハラノピス距離が判定回m 
’cba+に供給され、以下、前述提案例同様検出され
た過渡点が、何の音韻から何の音韻への過渡点であるか
が判定され、出力端子6υに取り出されることになる。
以上述べたように本実施例によれば、低次元でクラスタ
の分離度のよい最適な、過渡点パラメータを得ることが
できる利益かある。そして、かかる低・次元に懺約され
た過渡点パラメータを用いて不特定話者についての音声
の認識を認識効率よ(行なえる利益かある。
また、上述実施例においては、K−Lz侠に際し、多数
話者の全クラスタ(対する過渡パラメータの共分散マト
リクスの固有値と固有ベクトルを求めるようにしたがこ
れに替えて多数話者の全クラスタに対する相関マトリク
スの固有値と固有ベクトルを求めるようにしても上述実
施例同様の作用効果が得られることは容易に理解できよ
う。
また、K−’L変換回路いりにおいて、各クラスタの平
均ベクトルを用いて共分散マトリクスあるいは相関マト
リクスの固有値と固有ベクトルを求めてに−L変換する
ようにするを可とする。
発明の効果 以上述べたように、本発明音声認識装置によれは、不特
定話者についての音声の認識を認識効率よく行なえる利
益がある。
【図面の簡単な説明】
第1図、第3図、第4図、第5図は音声認識装置の説明
に供する線図、第2図は音声認識装置の提案例を示す構
成図、第6図は本発明音声認識装置の一実施例を示す構
成図である。 (11は音声分析部、(2)はマイクロホン、(121
は過渡パラメニタ抽出部、u4は過渡点検出部、(3力
はに−L変換回路である。 代理人 伊膝 貞 同  松岐秀盛 手続補正書 1.事件の裏車 昭和58年特許願第 46454 号 2、発’01 ノ名称   音声認識装置3、補正をす
る番 中1件との関係   9寺ii’l’ IIP+願人4
、代 理 人 東京都i:li宿区西i’Ji宿1丁l
」8番1ルじ・(i′11イト己ル1’l’lら■、東
工;1、+03+343−5821 f代)、)!33
88 )  弁理士 伊    藤    貞5、袖]
止蘭令の[Iイ・1   昭和  年  月  1−1
6、前止により増加するブ己明の故 7、補正 の JJ  象   明細書の発明の詳細な
説明の欄。 8、袖“正の内f’F 4マヘ (1)  明細書中、第8頁第16行から第17行Kか
けて「2M点め実数対称パラメータとみなしてDETを
行う」とあるを、r2M−1点の実数対称パラメータと
みなして2M−2点のDBTを行う」に訂正する。 (2)同、第8頁第19行から第20行にかけて、と屍
るを、 K訂正する。 −(3(同、第9頁第1行から第2行にかけて、m″″
0・1°”°−2M−t 」 とあるを、 1=0・l゛”−2M−a  」 に訂正する。 (4)同、第9頁第5行から第6行にかけて、とあるを
、 に訂正する。 (5)同、第9頁第8行において、 とあるを、 に訂正する。 (9)  同、第10負第1行において、とあるを、 に訂正する。 (7)同、第10頁第2行及び第3′行を削除する。 (8)同、第10頁第7行において、 r   x(i) =x(zM−i−x )   Jと
あるを、 [x(i) =x(2M−1−2)   Jに訂正する
。 (9)  同、第10頁第9行において、とあるを、 aα 同、第13頁第7行において、 とあるを、 に訂正する。 (11)同、第15頁第14行から第15行くかけて、
rK(0,0)は定数なので」とあるをrK(0゜0)
は音声波形のパワーを表現しているのでパワー正規化の
ため」に訂正する。 a’a  同、第21頁第12行ニオイテ、r(p、q
)3Piとあるを、r(p、q)Jに訂正する。 以上 −7′

Claims (1)

    【特許請求の範囲】
  1. マイクロホンを有し、該マイクロホンからの音声信号を
    聴感上の処理を施した音響ノ(ラメータ時系列に変換し
    、該音響パラメータ時系列から過渡点パラメータを得、
    該過渡点パラメータをに−L変換して情報圧縮するよう
    にしたことを特徴とする音声認識装置。
JP58046454A 1983-03-18 1983-03-18 音声認識方法 Granted JPS59171999A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58046454A JPS59171999A (ja) 1983-03-18 1983-03-18 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58046454A JPS59171999A (ja) 1983-03-18 1983-03-18 音声認識方法

Publications (2)

Publication Number Publication Date
JPS59171999A true JPS59171999A (ja) 1984-09-28
JPH0546558B2 JPH0546558B2 (ja) 1993-07-14

Family

ID=12747605

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58046454A Granted JPS59171999A (ja) 1983-03-18 1983-03-18 音声認識方法

Country Status (1)

Country Link
JP (1) JPS59171999A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6274188A (ja) * 1985-09-27 1987-04-04 Toshiba Corp 主成分分析装置
JPH02239291A (ja) * 1989-03-13 1990-09-21 Nippon Telegr & Teleph Corp <Ntt> 文節音声認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6274188A (ja) * 1985-09-27 1987-04-04 Toshiba Corp 主成分分析装置
JPH02239291A (ja) * 1989-03-13 1990-09-21 Nippon Telegr & Teleph Corp <Ntt> 文節音声認識装置

Also Published As

Publication number Publication date
JPH0546558B2 (ja) 1993-07-14

Similar Documents

Publication Publication Date Title
KR910002198B1 (ko) 음성인식방법과 그 장치
US5056150A (en) Method and apparatus for real time speech recognition with and without speaker dependency
CA2247006C (en) Speech processing
JP2980026B2 (ja) 音声認識装置
JPS59171999A (ja) 音声認識方法
Gedam et al. Development of automatic speech recognition of Marathi numerals-a review
JPH0441357B2 (ja)
Tzudir et al. Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients
Berjon et al. Frequency-centroid features for word recognition of non-native English speakers
Saha et al. Modified mel-frequency cepstral coefficient
JPH0552509B2 (ja)
JPH0552510B2 (ja)
Naing et al. Comparison of Three Auditory Frequency Scales in Feature Extraction on Myanmar Digits Recognition
JPH0546559B2 (ja)
JPH0552511B2 (ja)
JPH0546560B2 (ja)
JPS6069696A (ja) 音声認識装置
JPH0426479B2 (ja)
JPS6069697A (ja) 音声認識装置
JPS6086599A (ja) 音声認識装置
JPH0552515B2 (ja)
JPH0552512B2 (ja)
JPS58146000A (ja) 音声認識方法
Park et al. Zero-crossing-based feature extraction for voice command systems using neck-microphones
Bansal et al. Enhanced feature vector set for VQ recogniser in isolated word recognition