JPH0546558B2 - - Google Patents

Info

Publication number
JPH0546558B2
JPH0546558B2 JP58046454A JP4645483A JPH0546558B2 JP H0546558 B2 JPH0546558 B2 JP H0546558B2 JP 58046454 A JP58046454 A JP 58046454A JP 4645483 A JP4645483 A JP 4645483A JP H0546558 B2 JPH0546558 B2 JP H0546558B2
Authority
JP
Japan
Prior art keywords
signal
parameter
transient
parameters
supplied
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58046454A
Other languages
English (en)
Other versions
JPS59171999A (ja
Inventor
Masao Watari
Makoto Akaha
Atsunobu Hiraiwa
Yoichiro Sako
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP58046454A priority Critical patent/JPS59171999A/ja
Publication of JPS59171999A publication Critical patent/JPS59171999A/ja
Publication of JPH0546558B2 publication Critical patent/JPH0546558B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】
産業上の利用分野 本発明は不特定話者の音声を認識するための音
声認識方法に関する。 背景技術とその問題点 音声認識においては、特定話者に対する単語認
識によるものがすでに実用化されている。これは
あらかじめ認識対象とする全ての単語について特
定話者にこれらを発音させ、バンドパスフイルタ
バンク等によりその音響パラメータを検出して記
憶(登録)しておき、特定話者が発声したときそ
の音響パラメータを検出し、登録された各単語の
音響パラメータと比較し、これらが一致したとき
その単語であるとの認識を行う。 このような装置において、話者の発声の時間軸
が登録時と異なつている場合には、一定時間(5
〜20msec)毎に抽出される音響パラメータの時
系列を伸縮して時間軸を整合させる。これによつ
て発声速度の変動に対処させるようにしている。 ところがこの装置の場合、認識対象とする全て
の単語についてその単語の全体の音響パラメータ
をあらかじめ登録格納しておかなければならず、
膨大な記憶容量と演算を必要とする。このため認
識語い数に限界があつた。 これに対して音韻(日本語でいえばローマ字表
記したときのA,I,U,E,O,K,S,T
等)あるいは音節(KA,KI,KU等)単位での
認識を行うことが提案されている。しかしこの場
合に、母音等の準定常部を有する音韻の認識は容
易であつても、破裂音(K,T,P等)のように
音韻的特徴が非常に短いものを音響パラメータの
みで一つの音韻に特定することは極めて困難であ
る。 そこで従来は、各音節ごとに離散的に発音され
た音声を登録し、離散的に発声された音声を単語
認識と同様に時間軸整合させて認識を行つてお
り、特殊な発声を行うために限定された用途でし
か利用できなかつた。 さらに、不特定話者を認識対象とした場合に
は、音響パラメータに個人差による大きな分散が
あり、上述のように時間軸の整合だけでは認識を
行うことができない。そこで、例えば一つの単語
について複数の音響パラメータを登録して近似の
音響パラメータを認識する方法や、単語全体を固
定次元のパラメータに変換し、識別函数によつて
判別する方法が提案されているが、いずれも膨大
な記憶容量を必要としたり、演算量が多く、認識
語い数が極めて少くなつてしまう。 ところで音韻の発声現象を観察すると、母音や
摩擦音(S,H等)の音韻は長く伸して発声する
ことができることがわかる。例えば“はい”とい
う発声を考えた場合に、この音韻は第1図Aに示
すように「無音→H→A→I→無音」に変化す
る。これに対して同じ“はい”の発声を第1図B
のように行うこともできるものである。 またここで、H,A,Iの準定常部の長さは発
声ごとに変化し、これによつて時間軸の変動を生
じる。ところがこの場合に、各音韻間の過渡部
(斜線で示す)は比較的時間軸の変動が少いこと
が判明した。 この為、この音韻間の過渡部に着目して不特定
話者に対しても良好に音声認識装置を行えるよう
にした第2図に示す如き音声認識装置が提案され
ている。以下、第2図乃至第5図を参照してこの
音声認識装置の提案例について説明する。 第2図において、1は音声分析部を示し、この
音声分析部1は次に述べるように、音声信号を音
響パラメータ時系列に変換するものである。ま
ず、マイクロフオン2に供給された音声信号がマ
イクアンプ3、5.5kHz以下のローパスフイルタ4
を通じてAD変換回路5に供給される。また一
方、クロツク発生器6からの12.5kHz(80μsec間
隔)のサンプリングクロツクがAD変換回路5に
供給され、このタイミングで音声信号がそれぞれ
所定ビツト数(=1ワード)のデジタル信号に変
換される。そして、この変換された音声信号が5
×64ワードのレジスタ7に供給される。また、ク
ロツク発生器6からの5.12msec間隔のフレーム
クロツクが5進カウンタ8に供給され、このカウ
ント値がレジスタ7に供給されて音声信号が64ワ
ードずつシフトされ、シフトされた4×64ワード
の信号がレジスタ7から取り出される。 このレジスタ7から取り出された4×64=256
ワードの信号が高速フーリエ変換(FFT)回路
9に供給される。このFFT回路9においては、
例えばTの時間長に含まれるnf個のサンプリング
データによつて表される波形函数を UnfT(t) ……(1) としたとき、これをフーリエ変換して、 〓nfT(f)=∫T/2 −T/2UnfT(t)e-2jftdt ≡U1nfT(f)+jU2nfT(f) ……(2) の信号が得られるごとくなされる。 さらに、このFFT回路9からの信号がパワー
スペクトルの検出回路10に供給され、 |〓2|=U2 1nfT(f)+U2 2nfT(f) ……(3) のパワースペクトル信号が取り出される。ここで
フーリエ変換された信号は周波数軸上で対称にな
つているので、フーリエ変換によつて取り出され
るnf個のデータの半分は冗長データである。そこ
で、半分のデータを排除して1/2nf個のデータが
取り出されるようになされる。すなわち、上述の
FFT回路9に供給された256ワードの信号が変換
されて128ワードのパワースペクトル信号が取り
出される。 このパワースペクトル信号がエンフアシス回路
11に供給されて聴感上の補正を行うための重み
付けが行われる。ここで重み付けとしては、例え
ば周波数の高域成分を増強する補正が行われる。 このようにして音声分析部1において、音声信
号の音響パラメータ時系列として重み付けされた
パワースペクトル信号が得られる。そして、この
音声分析部1からの重み付けされたパワースペク
トル信号が過渡パラメータ抽出部12及び過渡点
検出部13に夫々供給される。この過渡パラメー
タ抽出部12は音声分析部1からの音声信号の音
響パラメータ時系列から音声信号の音韻的特徴を
保持した低次の過渡点パラメータを抽出するもの
であり、また過渡点検出部13は音声分析部1か
らの音声信号の音響パラメータ時系列から音声信
号の過渡点を検出して過渡点検出信号を発生する
ものであり、この過渡点検出部13からの過渡点
検出信号が過渡パラメータ抽出部12に供給さ
れ、過渡パラメータ抽出部12において過渡点に
おける音声信号の音韻的特徴を保持した低次の過
渡点パラメータが抽出される。 以下、これら過渡パラメータ抽出部12及び過
渡点検出部13について説明する。 音声分析部1のエンフアシス回路11からの重
み付けされたパワースペクトル信号が帯域分割回
路14に供給され、聴感特性に合せて周波数メル
スケールに応じて例えば32の帯域に分割される。
ここでパワースペクトルの分割点と異なる場合に
はその信号が各帯域に按分されてそれぞれの帯域
の信号の量に応じた信号が取り出される。これに
よつて上述の128ワードのパワースペクトル信号
が、音響的特徴を保存したまま32ワードに圧縮さ
れる。 この信号が対数回路15に供給され、信号がそ
の信号の対数値に変換される。これによつて上述
のエンフアシス回路11での重み付け等による冗
長度が排除される。この対数パワースペクトル log|U2nfT(f)| ……(4) をスペクトルパラメータx(i)(i=0,1……31)
と称することにする。 このスペクトルパラメータx(i)が離散的フーリ
エ変換(DFT)回路16に供給される。ここで
このDFT回路16において、例えば分割された
帯域の数をMとすると、このM次元スペクトルパ
ラメータx(i)(i=0,1……M−1)を2M−1
点の実数対称パラメータとみなして2M−2点の
DETを行う。従つて X(n)2M-3i=0 x(i)Wmi 2M−2 ……(5) 但し、
【式】 となる。さらにこのDFTを行う函数は偶函数と
みなされるため Wmi 2M−2=cos(2π・i・m/2M−2) =cosπ・i・m/M−1 となり、これらより X(n)2M-3i=0 x(i)cosπ・i・m/M−1 ……(6) となる。このDFTによりスペクトルの包絡特性
を表現する音響パラメータが抽出される。 このようにしてDFTされたスペクトルパラメ
ータx(i)について、低次元で各音韻の変化例えば
H→A,A→I等間を分離性の良いパラメータに
圧縮するために周波数軸方向における32ワードか
らなる信号からDFTにより0〜P−1(例えばP
=8)次までの低次成分であるP次元の値が取り
出され、これをローカルパラメータL(p)(p=0,
1……P−1)とすると L(p)2M-3i=0 x(i)cosπ・i・p/M−1 ……(7) となり、ここでスペクトルパラメータが対称であ
ることを考慮して x(i)=x(2M-i-2) ……(8) とおくと、ローカルパラメータL(p)は L(p)=x(p)M-2i=1 x(i){cosπ・i・p/M−1 +cosπ・(2M−2−i)・p/M−1 +X(M-1)cosπ・p/M−1} ……(9) 但し、p=0,1……P−1 となされる。このようにして周波数軸方向におけ
る32ワードの信号がP(例えば8)ワードに圧縮
される。 このローカルパラメータL(p)がメモリ装置17
に供給される。このメモリ装置17は1行Pワー
ドの記憶部が例えば16行マトリクス状に配された
もので、ローカルパラメータL(p)が各次元ごとに
順次記憶されると共に、上述のクロツク発生器6
からの5.12msec間隔のフレームクロツクが供給
されて、各行のパラメータが順次横方向へシフト
される。これによつてメモリ装置17には
5.12msec間隔のP次元のローカルパラメータL(p)
が16フレーム(81.92msec)分記憶され、フレー
ムクロツクごとに順次新しいパラメータに更新さ
れる。 一方、音声分析部1のエンフアシス回路11か
らの重み付けされた信号が過渡点検出部13の帯
域分割回路18に供給され、上述と同様にメルス
ケールに応じてN(例えば20)の帯域に分割され、
それぞれの帯域の信号の量に応じた信号V(o)(n
=0,1……N−1)が取り出される。この信号
がバイアス付き対数回路19に供給されて ν′(o)=log(V(o)+B) ……(10) が形成される。また信号V(o)が累算回路20に供
給されて Va20n=1 V(o)/20 が形成されて、この信号Vaが対数回路19に供
給されて v′a=log(Va+B) ……(11) が形成される。そしてこれらの信号が演算回路2
1に供給されて v(o)=v′a−v′(o) ……(12) が形成される。 ここで上述のような信号v(o)を用いることによ
り、この信号は音韻から音韻への変化に対して各
次(n=0,1……N−1)の変化が同程度とな
り、音韻の種類による変化量のばらつきを回避で
きる。また対数をとり演算を行つて正規化パラメ
ータv(o)を形成したことにより、入力音声のレベ
ルの変化によるパラメータv(o)の変動が排除され
る。さらにバイアスBを加算して演算を行つたこ
とにより、仮りにB→∞とするとパラメータv(o)
→0となることから明らかなように、入力音声の
微少成分(ノイズ等)に対する感度を下げること
ができる。 このパラメータv(o)がメモリ装置22に供給さ
れて2w+1(例えば9)フレーム分が記憶され
る。この記憶された信号が演算回路23に供給さ
れて Yn,t= min I∈GFN{v(o)(I)} ……(13) 但し、GFN={I;−w+t≦I≦w+t} が形成され、この信号とパラメータv(o)が演算回
路24に供給されて T(t)N-1n=0 wI=-w (v(o)(I+t)−Yn,t) ……(14) が形成される。このT(t)が過渡点検出パラメータ
であつて、このT(t)がピーク判別回路25に供給
されて、入力音声信号の音韻の過渡点が検出され
る。 ここでパラメータT(t)が、フレームtを挾んで
前後wフレームずつで定義されているので、不要
な凹凸や多極を生じるおそれがない。なお第3図
は例えば“ゼロ”という発声を、サンプリング周
波数12.5kHz、12ビツトデジタルデータとし、
5.12msecフレーム周期で256点のFFTを行い、帯
域数N=20、バイアスB=0、検出フレーム数
2w+1=9で上述の検出を行つた場合を示して
いる。図中Aは音声波形、Bは音韻、Cは検出信
号であつて、「無音→Z」「Z→E」「E→R」「R
→O」「O→無音」の各過渡部で顕著なピークを
発生する。ここで無音部にノイズによる多少の凹
凸が形成されるがこれはバイアスBを大きくする
ことにより破線図示のように略0になる。 この過渡点検出信号T(t)が過渡パラメータ抽出
部12のメモリ装置17に供給され、この検出信
号のタイミングに相当するローカルパラメータ
L(p)が8番目のに行シフトされた時点でメモリ装
置17の読み出しが行われる。ここでメモリ装置
17の読み出しは、各次元Pごとに16フレーム分
の信号が横方向に読み出される。そして読み出さ
れた信号がDFT回路26に供給される。ここで
このDFT回路26において、例えばメモリ装置
17から読み出された16フレーム分の信号をP(o)
(n=1,2,……30)とすると、DFT回路26
において、供給された16フレーム分の信号が第6
図に示す如く対称化され、この30個の時系列デー
タに対して対称性が考慮されてDFTが行なわれ が得られる。この場合、低次元で各音韻の変化例
えばH→A,A→I等間を分離性の良いパラメー
タに圧縮するために時間軸方向における16フレー
ム分の信号からDFTにより1〜Q(例えばQ=
3)次までの低次成分であるQ次元の値が取り出
される。この様にして音響パラメータ時系列の時
間的変化の包絡特性が抽出される。このDFTを
各次元Pごとに行い、全体でP×Q(=24)ワー
ドの過渡点パラメータK(p,q)(p=0,1…
…P−1)(q=0,1……Q−1)が形成され
る。ここで、K(0,0)は音声波形のパワーを
表現しているのでパワー正規化のため、p=0の
ときにq=1〜Qとしてもよい。 すなわち第4図において、Aのような入力音声
信号(HAI)に対してBのような過渡点が検出
されている場合に、この信号の全体のパワースペ
クトルはCのようになつている。そして例えば
「H→A」の過渡点のパワースペクトルがDのよ
うであつたとすると、この信号がエンフアシスさ
れてEのようになり、メルスケールで圧縮されて
Fのようになる。この信号がDFTされてGのよ
うになり、Hのように前後の16フレーム分がマト
リクスされ、この信号が順次時間軸t方向に
DFTされて例えば(8×3=)24の過渡点パラ
メータK(p,q)が形成される。 この様にして得られた過渡パラメータ抽出部1
2からの過渡点パラメータK(p,q)が音声判定部2
7に供給され、この音声判定部27において音声
信号の認識判定がなされる。以下、この音声判定
部部27について説明する。 過渡パラメータ抽出部12のDFT回路26か
らの過渡点パラメータK(p,q)が音声判定部27の
マハラノビス距離算出回路28に供給されると共
に、メモリ装置29からのクラスタ係数がマハラ
ノビス距離算出回路28に供給されて各クラスタ
係数とのマハラノビス距離が算出される。ここで
クラスタ係数は複数の話者の発音から上述と同様
に過渡点パラメータを抽出し、これを音韻の内容
に応じて分類し統計解析して得られたものであ
る。 そしてこの算出されたマハラノビス距離が判定
回路30に供給され、検出された過渡点が、何の
音韻から何の音韻への過渡点であるかが判定さ
れ、出力端子31に取り出される。 すなわち例えば“はい”“いいえ”“0(ゼロ)”
〜“9(キユウ)”の12単語について、あらかじめ
多数(百人以上)の話者の音声を前述の装置に供
給し、過渡点を検出し過渡点パラメータを抽出す
る。この過渡点パラメータを例えば第5図に示す
ようなテーブルに分類し、この分類(クラスタ)
ごとに統計解析する。図中*は無音を示す。 これらの過渡点パラメータについて、任意のサ
ンプルをRr (a),n(r=1,2……24)(aはクラ
スタ指標で例えばa=1は*→H,a=2はH→
Aに対応する。nは話者番号)として、共分散マ
トリクス Ar (a)s≡E(Rr (a),n−r, (a))(Rs (a),n−s (
a)

……(16) 但し、r (a)=E(Rr (a),n) Eはアンサンブル平均 を計数し、この逆マトリクス Br (a),s=(A(a) t,u-1 r,s ……(17) を求める。 ここで、任意の過渡点パラメータKrとクラス
タaとの距離が、マハラノビスの距離 D(Kr,a)d ≡ 〓rs (Krr (a))・B(a) r,s・(Krs (a)) ……(18) で求められる。 従つてメモリ装置29に上述のB(a) r,s及び
Rr (a)を求めて記憶しておくことにより、マハラノ
ビス距離算出回路28にて入力音声の過渡点パラ
メータとのマハラノビス距離が算出される。 これによつてマハラノビス距離算出回路28か
ら入力音声の過渡点ごとに各クラスタとの最小距
離と過渡点の順位が取り出される。これらが判定
回路30に供給され、入力音声が無音になつた時
点において認識判定を行う。例えば各単語ごと
に、各過渡点パラメータとクラスタとの最小距離
の平方根の平均値による単語距離を求める。なお
過渡点の一部脱落を考慮して各単語につき脱落を
想定した複数のタイプについて単語距離を求める
ものとする。ただし過渡点の順位関係がテーブル
と異なつているものはリジエクトする。そしてこ
の単語距離が最小になる単語を認識判定する。 こうして音声認識が行われるわけであるが、か
かる構成よりなる音声認識装置によれば音声の過
渡点の音韻の変化を検出しているので、時間軸の
変動がなく、不特定話者についても良好な認識を
行うことができる。 また過渡点において上述のようなパラメータの
抽出を行つたことにより、一つの過渡点を例えば
24次元で認識することになる。 ところで、この音声認識装置に関連してより効
率的な過渡部の情報圧縮技術を必要とした。 例えば、2次元対称化DFT回路26によりN
×M次元(上述例では24次元)に情報圧縮された
過渡点パラメータKr(r=1,……,N×M)を
音声認識基本単位とする場合、予め多数話者のデ
ータから各過渡クラスタの平均ベクトル、共分散
マトリクス等を求めマハラノビス距離等で識別を
行なうことになる。この場合、統計的に十分なサ
ンプルが集められれば、学習外データに関する認
識率と学習データに対する認識率は等しくなつて
くる。パラメータの次元が増えるとそれに応じて
統計的に十分なサンプル数として多くを必要とす
る。そのため、低次元でクラスタ間の分離度のよ
い最適過渡点パラメータを得ることが望まれた。
そして、かかる低次元の過渡点パラメータを用い
て、不特定話者についての音声の認識を認識効率
よく行なえるようにする要請があつた。 発明の目的 本発明はかかる点に鑑み、不特定話者について
の音声の認識を認識効率よく行なえる音声認識方
法を提供せんとするものである。 発明の概要 本発明は、入力音声信号を聴覚上の処理を施し
た音響パラメータ時系列に変換し、該音響パラメ
ータ時系列から過渡点パラメータを得、該過渡点
パラメータを用いて音声認識を行う音声認識方法
において、過渡点パラメータをK−L変換して情
報圧縮を行うことを特徴とするものである。 実施例 以下、第6図を参照して本発明の音声認識方法
の一実施例について説明しよう。この第6図にお
いて、第2図に対応する部分には同一符号を付
し、それらの詳細な説明は省略する。 この実施例においては、過渡パラメータ抽出部
12のDFT回路26から得られる過渡点パラメ
ータK(p,q)を、統計学上周知の主成分分析
手法として知られるK−L変換を行なうK−L変
換回路32に供給し、このK−L変換回路32の
出力を、マハラノビス距離算出回路28に供給す
るようにする。 ここで、このK−L変換回路32においては過
渡点パラメータの成分間の相関を利用し、クラス
タの分離に対して冗長な座標を所定数除去するよ
うにする。このK−L変換はm個の特性値(その
とる値は対象ごとに異なるから、それらはいずれ
も変数)のもつ情報を、mより小数個の総合特性
値(これを主成分とよぶ)に要約する手法として
統計学上よく知られている。 具体的には、過渡点パラメータを所定の順番で
Pi(i=1,……,24=N×M)としたとき、新
たに最適化された過渡点パラメータQk(k=1,
……,15)を、 QkNXMi=1 AkiPi (k=1,……,K;K<N×M) なる計算式で求める。ここで、Akiは次のように
決めるものである。多数話者の全クラスタに対す
る過渡パラメータから求める場合には、かかる過
渡パラメータについての共分散マトリクスを計算
し、この共分散マトリクスの固有値と固有ベクト
ルを求め固有値の大きい順に固有ベクトルを並べ
かえてそれをAkiとする。つまり、固有値最大の
固有ベクトルはA1i、2番目のものはA2i,……,
A15iという具合にAkiを決定していく、この決定
の仕方は、K−L変換について知られる主成分の
係数の決定と同じものである。K−L変換にあつ
ては、共分散マトリクスの固有値の大きい方から
順にとつた対応する固有ベクトルによつて第1主
成分、第2主成分、……というように順次決定し
ていき、このK−L変換を行なうと、情報が効率
よく要約され少ない情報で効率よく情報が伝達で
きるという周知の事項に対応するものである。 このようにK−L変換により新たに最適化し情
報圧縮した過渡点パラメータQk(k=1,……,
15)をマハラノビス距離算出回路28に供給する
ようにする。 また、メモリ装置29におけるクラスタ係数も
新たに最適化した過渡点パラメータに対応させて
提案例におけるクラスタ係数につきK−L変換を
行ない、過渡点パラメータに対応させる順序に各
係数により配するようにする。 他の部分は、前述提案例の音声認識装置と同様
に構成するものとする。 このように構成したこの実施例にあつては、マ
イクロホン2からの音声信号が聴感上の処理を施
した音響パラメータ時系列に変換され、音響パラ
メータ時系列から過渡点パラメータが得られる、
提案例同様の動作の後、前述提案例における過渡
点パラメータに対しK−L変換が施され、過渡点
パラメータが最適化されマハラノビス距離算出回
路28に供給される。また一方K−L変換の施さ
れたクラスタ係数がマハラノビス距離算出回路2
8に供給されて各クラスタ係数とのマハラノビス
距離が算出される。 そして、この算出されたマハラノビス距離が判
定回路30に供給され、以下、前述提案例同様検
出された過渡点が、何の音韻から何の音韻への過
渡点であるかが判定され、出力端子31に取り出
されることになる。 以上述べたように本実施例によれば、低次元で
クラスタの分離度のよい最適な過渡点パラメータ
を得ることができる利益がある。そして、かかる
低次元に要約された過渡点パラメータを用いて不
特定話者についての音声の認識を認識効率よく行
なえる利益がある。 また、上述実施例においては、K−L変換に際
し、多数話者の全クラスタに対する過渡パラメー
タの共分散マトリクスの固有値と固有ベクトルを
求めるようにしたがこれに替えて多数話者の全ク
ラスタに対する相関マトリクスの固有値と固有ベ
クトルを求めるようにしても上述実施例同様の作
用効果が得られることは容易に理解できよう。 また、K−L変換回路32において、各クラス
タの平均ベクトルを用いて共分散マトリクスある
いは相関マトリクスの固有値と固有ベクトルを求
めてK−L変換するようにするを可とする。 発明の効果 以上述べたように、本発明の音声認識方法によ
れば、不特定話者についての音声の認識を認識効
率よく行なえる利益がある。
【図面の簡単な説明】
第1図、第3図、第4図、第5図は音声認識装
置の説明に供する線図、第2図は音声認識装置の
提案例を示す構成図、第6図は本発明の音声認識
方法の一実施例を示す構成図である。 1は音声分析部、2はマイクロホン、12は過
渡パラメータ抽出部、13は過渡点検出部、32
はK−L変換回路である。

Claims (1)

  1. 【特許請求の範囲】 1 入力音声信号を聴覚上の処理を施した音響パ
    ラメータ時系列に変換し、該音響パラメータ時系
    列から過渡点パラメータを得、該過渡点パラメー
    タを用いて音声認識を行う音声認識方法におい
    て、 上記過渡点パラメータをK−L変換して情報圧
    縮を行うことを特徴とする音声認識方法。
JP58046454A 1983-03-18 1983-03-18 音声認識方法 Granted JPS59171999A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58046454A JPS59171999A (ja) 1983-03-18 1983-03-18 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58046454A JPS59171999A (ja) 1983-03-18 1983-03-18 音声認識方法

Publications (2)

Publication Number Publication Date
JPS59171999A JPS59171999A (ja) 1984-09-28
JPH0546558B2 true JPH0546558B2 (ja) 1993-07-14

Family

ID=12747605

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58046454A Granted JPS59171999A (ja) 1983-03-18 1983-03-18 音声認識方法

Country Status (1)

Country Link
JP (1) JPS59171999A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6274188A (ja) * 1985-09-27 1987-04-04 Toshiba Corp 主成分分析装置
JPH02239291A (ja) * 1989-03-13 1990-09-21 Nippon Telegr & Teleph Corp <Ntt> 文節音声認識装置

Also Published As

Publication number Publication date
JPS59171999A (ja) 1984-09-28

Similar Documents

Publication Publication Date Title
JPH0441356B2 (ja)
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
JPH0990974A (ja) 信号処理方法
Patil et al. Automatic Speech Recognition of isolated words in Hindi language using MFCC
Hai et al. Improved linear predictive coding method for speech recognition
Rudresh et al. Performance analysis of speech digit recognition using cepstrum and vector quantization
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Gedam et al. Development of automatic speech recognition of Marathi numerals-a review
JPH0546558B2 (ja)
JPH0441357B2 (ja)
JPH0552509B2 (ja)
WO2014155652A1 (ja) 話者検索システム、プログラム
JPH0552510B2 (ja)
Naing et al. Comparison of Three Auditory Frequency Scales in Feature Extraction on Myanmar Digits Recognition
JPH0546560B2 (ja)
JPH0546559B2 (ja)
JPH0552511B2 (ja)
CN113963694A (zh) 一种语音识别方法、语音识别装置、电子设备及存储介质
JPH0552515B2 (ja)
JP3032215B2 (ja) 有音検出装置及びその方法
Doddappagol et al. User authentication using text-prompted technique
JPH02192335A (ja) 語頭検出方式
JPH0552512B2 (ja)
JP2000137495A (ja) 音声認識装置および音声認識方法
JPS6069696A (ja) 音声認識装置