JPS6086599A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6086599A
JPS6086599A JP19465583A JP19465583A JPS6086599A JP S6086599 A JPS6086599 A JP S6086599A JP 19465583 A JP19465583 A JP 19465583A JP 19465583 A JP19465583 A JP 19465583A JP S6086599 A JPS6086599 A JP S6086599A
Authority
JP
Japan
Prior art keywords
circuit
vowel
signal
parameter
supplied
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP19465583A
Other languages
English (en)
Inventor
曜一郎 佐古
雅男 渡
誠 赤羽
平岩 篤信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP19465583A priority Critical patent/JPS6086599A/ja
Publication of JPS6086599A publication Critical patent/JPS6086599A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は不特定話者を対象とした音声認識装置に関する
背景技術とその問題点 音声認識においては、特定話者に対する単語認識による
ものがすでに実用化されている。これは認識対象とする
全°この単暗について特定話者にこれらを発音させ、バ
ンドパスフィルタバンク等によりその音響パラメータを
検出して記憶(登録)しておく。そして特定話者が発声
したときその音響パラメータを検出し、登録された各単
語の音響パラメータと比較し、これらが一致したときそ
の1譜であるとの認識を行う。
このような装置において、話者の発声の時間軸が登録時
と異なっている場合には、一定時間(5〜20m se
c )毎に抽出される音響パラメータの時系列を伸縮し
て時間軸を整合させる。これによって発声速度の変動に
対°処させるようにしている。
ところがこの装置の場合、認識対象とする全ての単語に
ついてその単語の全体の音響パラメータをあらかじめ登
録格納しておかなければならず、膨大な記憶容量と演算
を必要とする。このため認識語い数に限界があった。
これに対して音韻(B*語でいえばローマ文表記したと
きのA、r、U、E’、O,に、S、T等)あるいは音
節(Kへ、 Kl、 1等)単位での認識を行うことが
提案されCいる。しかしこの場合に、母音等の準定常部
を有する音韻の認識は容易であっても、破裂音(K、T
、P等)のように音韻的特徴が非常に短いものを音響パ
ラメータのみで一つの音韻に特定することは極めて困難
である。
さらに不特定話者を認識対象とした場合には、音響パラ
メータに個人差による大きな分散があり、上述のように
時間軸の整合だけでは認識を行うことができない。そこ
で例えば一つのfa倍について複数の音響パラメータを
登録して近似の音響パラメータを認識する方法や、単語
全体を固定次元のパラメータに変換し、識別函数によっ
て判別する方法が提案されているが、いずれも膨大な記
憶容量を必要としたり、演算量が多く、認tlik語い
数が極めて少くなってしまう。
ところで音韻の発声現象を観察すると、母音や摩擦音(
S、H等)等の音韻は長く伸して発声することができる
。例えば“はい”という発声を考えた場合に、この音韻
は第1図Aに示すように、「無音→H→A→■→無音」
に変化する。ごれに対して同じ“はい”の発声を第1図
Bのように行うこともできる。ここでH,A、Iの準定
當部の1閂ざは発声ごとに変化し、これによりで時間軸
の変動を生じる。ところがこの場合に、各音fil1間
の過渡部(斜線で不ず)は比較的時間軸の変動が少いこ
とが判明した。
そこで本顧発明者は先にこの点に着目して以下のような
装置を提案した。
第2図において、マイクロフォンTllに供給された音
声信号がマイクアンプ+21.5.5kllz以下のロ
ーパスフィルタ(3)を通じてAD変換1f’!l路(
4)にイハ給される。またクロック発生器(5)からの
12.5kllz(80μsec間隔)のサンプリング
クロックがAD変換回路(4)に供給され、このタイミ
ングで音声信号がそれぞれ所定ビット数(=1ワード)
のデジタル信号に変換される。
このデジタル信号が、周波数分析用のバンドパスフィル
タ(61)、(62)・・・ (63o)に供給され、
人間の聴覚特性に合せた周波数メルスケールに応じζ例
えば3oの帯域に分割される。ごの分割された各帯域の
信号がエンファシス回路(71)、(72)・・・ (
7so)に供給され、人間の聴覚特性に合せた高域増強
が行われる。この信号が絶対値回路(8五)、(82)
・・・(8ao)に供給されて一極性とされ、平均値回
路(91)、(92)・・・ (93(1)に供給され
て信号の包絡線が取り出される。
こよによって例えば5.12m sec間の256ワー
ドのデジタル信号が、音響的特徴を保存したまま30ワ
ードに圧縮される。
この信号が対数回路(101)、(102) ・・・(
1030)に供給され、各信号の対数値に変換される。
これによって上述のエンファシス回路(71)(72)
 ・・・ (7*o)での霜み付は等による冗長度が排
除される。ここで、例えばTの時間長に含まれるn1個
のサンプリングデータによって表される波形函数を UnfTc↑) ・・・C1) としたとき、これを周波数分析して、対数を取った対数
パワースペクトル 1agl U’n f Tea l ・・−+21をス
ペクトルパラメータX山(i=0.1・・・29)と称
する。
このスペクI・ルパラメータX巾が離散的フーリエ変換
(DFT)回路(11)にUt給される。こごでこのD
FTIi!回路(11)において、例えば分割された帯
域の数をMとすると、このM次元スペクトルパラメータ
x<i> (i =0.1 ・= M−1)を2M−1
点の実数対称パラメータとみなして2M−2aのDFT
を行う。従って m=0.1.・・・ 2M−3 となる。さらにこのDFTを行う函数は偶函数とみなさ
れるため π・1−m M−1 となり、これらより となる。このDFTによりスペクトルの包絡特性を表現
する音響パラメータが抽出される。
このようにしてDFTされたスペクトラムパラメータX
 (+)について、O〜P−1(例えばP−8)次まで
のP次元の値を取り出し、これをローカルパラメータL
TP) (p−0,1・P−1)とするととなり、ここ
でスペクトルパラメータが対称であることを考慮して x(1)=x (2M−3−2) とおくと、ローカルパラメータL TP)は但し、p=
o、i・・・P−1 となる。このようにして30ワードの信号がP(例えば
8)ワードに圧縮される。
このローカルパラメータL (P)がメモリ装W(12
)に供給される。このメモリ装置(12)は1行Pワー
ドの記憶部が例えば16行マトリクス状に配されたもの
で、ローカルパラメータL (P)が各次元ごとに順次
記憶されると共に、上述のクロック発生器(5)からの
5.12m5ec間隔のフレームクロックが(It給さ
れて、各行のパラメータが順次横方向ヘシフトされる。
これによっ′ζメそり装W(12)には5.12m5e
c間隔のP次元のローカルパラメータL(ρ)が16フ
レーム(旧、02 m sec )分記憶され、フレー
ムクロックごとに粕次新しいパラメータに更新される。
さらに音声過渡点検出回路(20)が以トのように構成
される。すなわち平均値回路(91)〜(930)から
のそれぞれの帯域の信号の量に応じた信号V(n)(n
 = O+1・・・29)がバイアス付き対数回111
r (21+ )、(212) ・・・(21ao)に
供給されて v2n)= log (V(+n+B) ・・・(71
が形成される。また信号V (n)が界算平均回路(2
2)にイハ給されて 0 が形成され、この信号Vaが対数回路(21x)に供給
されて v′a−log(Va十B) ・・・(8)が形成され
る。そしてこれらの信号が演算回路(23)に供給され
て Van=V’a −v?m ・・−+91が形成される
ここで」二連のような信号V (n)を用いることによ
り、この信号は音韻から音韻への変化に対して6次(n
=0.1・・・29)の変化が同程度となり、音韻の種
類による変化量のばらつきを回避できる。また対数をと
り演算を行って正規化パラメータV (Illを形成し
たことにより、入力音声のレベルの変化によるパラメー
タV (nlの変動が排除される。さらにバイアスBを
加算して演算を行−7たごとにより、仮りにB−(ト)
とするとパラメータV (n)→0となることから明ら
かなように、入力音声の微少成分(ノイズ等)に対する
感度を十げることができる。
このパラメータV (n)がメモリ装置(24)に供給
されて2w41(例えば9)フレーム分が記憶される。
この記憶された信号が演算回IM(25)に(Jj給さ
れて 但し GFt = (1; −W+ t≦■≦w+tl
が形成され、この信号とパラメータV (nlが演算回
路(26)に供給されて ・・・ (11) が形成される。このTjが過渡点検出パラメータであっ
て、このT+がピーク判別回路(27)に(共給されて
、人力音声信号の音韻の過渡点が検出される。
ここでパラメータTjが、フレームtを挾んで前fi 
wフレームずつで定義されているので、不要な凹凸や多
極を生じるおそれがない。なお第3図は例えば“ゼロ”
という発声を、サンプリング周波数12.5kHz 、
 12ビツトデジタルデータとし、フレーム周期” 5
.12m sec 、帯域数N−30、バイアスB=O
1検出フレーム数2賀+1=9で上述の検出を行った場
合を示している0図中Aは音声波形、Bは音韻、Cは検
出信号であって、「無音→Z」rZ−4EJ rE−R
J I−R→0」「0→無音」の各過渡部で顕著なピー
クを発生ずる。ここで無音部にノイズによる多少の凹凸
が形成されるがこれはバ・イアスBを大きくすることに
より破線図示のように略0になる。
この過渡点検出信号T (t)がメモリ装置(12)に
供給され、この検出信号のタイミングに相当するローカ
ルパラメータL (P)が8番目の行にシフトされた時
点でメモリ装w(12)の読み出しが行われる。ここで
メモリ装W(12)の読み出しは、各次元Pごとに16
フレ一ム分の信号が横方向に読み出される。そして読み
出された信号がDFT回路(13)に供給される。
この回I!5(13)において」1述と同様にDFTが
行われ、音響パラメータの時系列変化の包絡特性が抽出
される。このDFTされた信号の内から0〜Q−1(例
えばQ−3)次までのQ次元の値を皐り出す。このDF
Tを斉次7CPごとに行い、全体でPXQ(=24)ワ
ードの過渡点パラメータに+p、q+ ) (p = 
(Ll・・・P−1) (q=o、1・・・0−1)が
形成される。ごごで、K (0,0)は音声波形のパワ
ーを表現しているので、パワー正規化のためp=。
のときにq=t〜Qとしてもよい。
すなわち第4図におい°(、Aのような人力音声信号(
HAT)に対してBのような過渡点が検出されている場
合に、この信号の全体のパワースペクトルはCのように
なっζいる。そして例えば1’H→A」の過渡点のパワ
ースペクトルがDのようであったとすると、この信号が
エンファシスされζEのようになり、メルスケールで圧
縮されζFのようになる。この信号がDFTされてGの
ようになり、Hのように前後の16フレ一ム分がマトリ
ックスされ、この信号が順次時間軸を方向にDFTされ
て過渡点パラメータK (P、 q>が形成される。
この過渡点パラメータK fP、 Q)がマハラノビス
距離算出回路(14)に供給されると共に、メモリ装置
(15)からのクラスタ係数が回路(14)に供給、さ
れて各クラスタ係数とのマハラノピス距離が算出される
。ここでクラスタ係数は複数の話者の発音から−L述と
同様に過渡点パラメータを抽出し、これを音韻の内容に
応じて分類し統計解析して得られたものである。
そしてこの算出されたマハラノビスlAi Itが!p
1定回路(16)に供給され、検出された過渡点が何の
音韻から何の音韻への過渡点であるかが判定され、出力
端子(17)に取り出される。
すなわち例えば“はい″“いいえ”0 (ゼロ)”〜“
9 (キュウ)”の12m語について、あらかじめ多数
(百Å以上)の話者の音声を前述の装置に供給し、過渡
点を検出し過渡点パラメータを抽出する。この過渡点パ
ラメータを例えば第5図に示すようなテーブルに分址し
、この分類(クラスタ)ごとに統計解析する。図中*は
無音を示すにれらの過渡点パラメータについて、任意の
サンプルをRrA(r=1.2・・・24) (aはク
ラスタ指標で例えばa=lは*−1(、a=2はH−A
に対応する。nは話者番号)として、共分散マトリクス Eはアンサンプル平均 を計数し、この逆マトリクス Bfi= (A!?a)−4,s ・・・(13)をめ
る。
ここで任意の過渡点パラメータKrとクラスタaとの距
離が、マハラノビス距離 r 5 (Kr RP) −(14) でめられる。
従ってメモリ装置(15)に上述の3 占及びRsal
をめて記憶しておくことにより、マハラノビス距離算出
回路(14)にて入力音声の過渡点パラメータとのマハ
ラノビス距離が算出される。
これによって回路(14)から入力音声の過渡点ごとに
各クラスタとの最少vt!離と過渡点の順位が取り出さ
れる。これらが判定回路(16)に供給され、入力音声
が無音になった時点において認識判定を行う。例えば各
単語ごとに、各過渡点パラメータとクラスタとの最少距
離の平方根の平均値による単語距離をめる。なお過渡点
の一部脱落を考慮して各単語は脱落を想定した複数のタ
イプについてIB語距離をめる。ただし過渡点の順位関
係がテーブルと異なっているものはリジェクトする。そ
してこの単語距離が最少になる単語を認識判定する。
このようにして音声認識が行われるわけであるが、この
装置によれば音声の過渡点の音韻の変化を検出している
ので、時間軸の変動がなく、不特定話者についても良好
な認識を行うことができる。
また過渡点におい“ζ上述のようなパラメータの抽出を
行ったことにより、一つの過渡点を例えば24次元で認
識することができ、認識を極めて容易かつ正確に行うこ
とができる。
なお上述の装置において120名の話者に°ζ学習を行
い、この120名以外の話者にて上述の12車!hにつ
いて実験を行った結果、98.2%の平均認識率が得ら
れた。
さらに上述の例で“はい”の1−H−+AJと“8(ハ
チ) ”のrH−AJは同じクラスタに分Iff rr
J能である。従っ゛ζ認織ずべきFt語の音韻数をαと
してac2t1Mのクラスタをあらかじめit Wし゛
ζクラスタ係数をメモリ装置(15)に記憶させておけ
ば、種々のl!語の認識に適用でき、多くの語いの認識
を容易に行うことができる。
ところで上述の例では、“はい”°、“いいえ”等の特
定のI!語について認識を行ったが、これをさらに一般
の音声にて例えば単音節ごとにLgmすることも可能で
ある。
しかしながらその場合に、人間の発音における音韻の数
は多く、従って過渡点のクラスタも100〜200と極
めて多くなる。このため、例えばマノ\ラノビス距離の
1算をこれらの全てのクラスタについて行おうとすると
、針算量が極めて多くなり、実用的ではなかった。
また例えば単音節の認識において、最後の母音−無音を
見た場合に、音声レベルのゆれ等によって過渡点が複数
発生し、さらにこの場合の母音がそれぞれ異なることが
ある。その場合にマハラノビス距離の最小のものが必ら
ずしもそのときの音韻とは限らないことが判明した。
発明の目的 本発明ばこのような点にかんがみ、簡単な構成で良好な
音声認識が行えるようにするものである。
発明の概要 本発明は、無音を含む音韻間の過渡部を検出する手段を
有し、この検出された過渡部の音声を所定長抽出してパ
ラメータに変換し、このパラメータを認識基本単位とす
るようにした音声認識装置において、上記過渡点を、ま
ず無音−有音、子音−母音、母音−無音の3つのクラス
につい°ζ判定し、次に上記母音→無音についてその母
音をFl定し、しかる後に1−記無音→イイ音及び子音
−母音を上記判定された母音に基づい°ζ判定するよう
にしたことを特徴とする音声認識装置であって、これに
よれば簡単な構成で良好な音声認識を行うことができる
実施例 とごろで以下の実施例では次のような装置が使用される
。すなわち第6図において、バンドパスフィルタ(61
)〜(6ao)の前段にエンファシス回路(7)が設け
られる。そしてこのエンファシス回路(ηにおいて、例
えば低域側の1〜16番の帯域では信号が無補正でバン
ドパスフィルタ(61)〜(6111)に供給され、l
8Iii3i側の17〜30番の帯域では信号が差分回
路(31)を通じ゛ζバンドパスフィルタ (61?)
〜(63o)に供給される。
このエンフチシス回路(7)において、差分回路(31
)の特性は yCn)=x(nl X<n−1+ 中−・(15)で
現わされ、この式をZ変換すると Y+n+= (1−Z−” ) X(n)・・・(16
)となる。さらにこの回路の伝達関数H(Z)はl H
(Z) P = l H(2ヒH<z−S 1= l 
2−2 cosωT’l ・・(17)となり、第7図
に示すように低域側で小、高域側で大となる特性となっ
ている。そしてこの伝達関数が1となるのは、角周波数
ωがπ/2となる点である。一方上述のメルスケールで
30の帯域に分割した場合に、角周波数ωがπ/2の点
は、16番と176の帯域の間になっている。そこで上
述のように1〜16番の帯域で無補正、17〜30番の
帯域で差分とすることにより、第8図にネオように人間
の聴覚特性に合せた高域増強を行うことができる。
またそれぞれの帯域の平均値回路(91)〜(9io)
からの信号がノイズ除去回路(321)〜(3230)
に供給される。一方AD変換回路(4)からの信号が無
音状態の検出回路(33)に(((給され、この検出信
号が除去回路(321)〜(32ao )に(ハ給され
る。そして除去回路(321)〜(32ao )にて、
無音状態での信号(ノイズ)が測定され、この平均値(
またはピーク値あるいはこれらを演算し”ζ得た値)を
スレショルドレベルNとして、入力信号Xがこのレベル
Nより小のとき0、大のとき(x−N)の信号が出力さ
れる。この信号が対数回路(10+ )〜(10ao)
に供給される。
すなわらノイズ除去回路(32□)〜(3230)にお
いて、−の帯域の除去回路に第9図Aに示すような信号
が供給されている場合に、検出回路(33)にて無音部
が検出され、この部分の信号の例えば平均値からなるス
レショルドレベルNによっ゛ζζ第9ロB示ずような信
号が出力される。そし°ζこの場合にノイズレベルが各
帯域ごとに測定され′(おり、ノイズの周波数特性に応
じたノイズ除去が行われる。
他は第2図と同様に構成される。
この装置によれば乗算器を用いずに簡単な差分回路のみ
で人間の聴覚特性に合せた良好なエンファシスを行うこ
とができる。またソフトウェアで処理する場合にも演算
量を少なくすることができる。
さらにノイズの周波数特性に応じたノイズ除去を行うこ
とができ、パラメータの精度が極めて向上する。
そしてこの装置において、IO!離算出回路(14)及
び判定回路(16)が以下のように構成される。
すなわち第1θ図において、DFTI!!回路(13)
からの信号が第1の距離算出回路(41)にイ」(給さ
れ、メモリ装W(51)からのクラスタ係数との距離が
算出される。
ここでメモリ装置(51)には、1*−■(■ば有音を
示す)」「■−0(■は母音を示す)」If−’*Jの
3通りクラスタ係数が書込まれている。なお単音節はこ
の3通りの過渡点で形成されている。
さらに算出された距離が第1の判定回路(61)に(ハ
給され、人力された過渡点パラメータがl一連の3通り
のクラスタごとに分類される。
この分類されたパラメータの内のr <m −* Jの
パラメータが第2の距離算出回路(42)に供給され、
メモリ装Wt (52)からのクラスタ係数との距離が
算出される。
コ、: テ) % IJ装置i¥(52)ニは、1−A
−*jl’1→*」 「U→*」 「E→*」 10→
*」 [0→*(0は“ん”をネオ)」の6通りのクラ
スタ係数が書込まれている。
さらに算出された距離が第2の′t’ll定回路(62
)に供給され、入力されたパラメータが6通りのクラス
タのどれに相当するか判定される。
さらにこの判定結果が処理回路(71)にイ」(給され
る。ここでこの回路(71)において母音の総合判定が
行われる。
すなわち、1■→*」の過渡点において、いわゆるふか
れ等のノイズ的成分によって、過渡点が複数検出される
場合があり、その場合にたまたま他のクラスタに近いパ
ラメータが出るおそれがある。そこで処理回路(71)
において、算出された距離と共にその数が総合判定され
る。すなわち例えば第11図へのような過渡点検出で、
Bのような判定結果及び距離が算出された場合に、ここ
では距離が最短のものは例えばrUJになっている。
ところがこの場合に判定された数はrAJO方が多い。
そしてこのような場合について実験及びシュミレーシラ
ンを行った結果、このような場合には一般的に多くある
方が正しいことが判明した。
従ってこの処理回路(7I)においては、例えば過渡点
パラメータの多数決による判定を行う。なお多数決で同
数の場合や、極端に距離が異なる場合には、これらの距
離を勘案するようにしてもよい。
このようにして最終母音の判定が行われる。
また判定回路(61)で分類された「*→■」及び10
−■」の過渡点パラメータが、第3及び第4の距離算出
回路(43) 、(44)に供給され、それぞれメモリ
装N、 (53) 、(54)からのクラスタ係数との
距離が算出される。
ここでまずメモリ装置(53)には、以1・の表のよう
なりラスタ係数が、最終母音ごとに分類されて■込まれ
ている。
ここで例えば最終母音rAJに分類されるクラスタは、
50音表のア段のI 011M、濁音・半濁音5 (I
N、1ν1音1音間1及びバズ音の26個に、1°*→
■」 「■−■」の判定のしにくい破裂音511h1を
含めた計31個である。
またIIJばIAJよりヤ行、ワ行、ダ行及び拗音を除
いた115個である。 。
以下rUJ rEJ rOJについ”ζもそれぞれ発音
の特111に合せ”ζ30個、17(lム1.3111
Mのクラスタで構成される。なお「■」は1−U」に含
めである。
またメモリ装置(54)には、以l・の表のよ・)なり
ラスタ係数が、最終母音ごとに分類され′ζ吉込まれて
いる。
ごこでも、上述のメモリ装置(53)の場合と同様に、
それぞれ発音の特性に合せて、I A J 26116
1、rlJ12個、I−UJ25個、r’EJ13個、
I’0J25個のクラスタに分類して書込まれている。
なお拗音はそれぞれをrY−4Al 1−Y−4UJ 
I−Y−OJに統合してもよい。また破裂音はメモリ装
fili!(53)と同じものが繰り返り設けられてい
る。
そして上述の処理回路(71)からの最終母音の判定出
力に応じて、各メモリ装* (53) 、(54)の対
応する母音の部分のみが算出回路(43)。
(44)に供給されて、距離の算出が行われる。
さらに算出された距離が、それぞれ第3、第4の判定回
路(63) 、(64)に供給され、人力されたパラメ
ータがそれぞれのクラスタのどれに相当するか判定され
る。
これらの判定結果及び判定回路(62)からの判定結果
が、単語・単音節の判定回路(81)に供給され、入力
された音声の単語・単音節が識別される。
こうしてこの装置において音声認識が行われるわけであ
るが、この装置によれば、まず過渡点を3種類に分類し
、次に最終母音を判定している。
ここで一般に母音の検出は容呂であり、また最初の3分
頬及び母音の判定はクラスタ数が3及び6と少いので、
パラメータの次元数を多くシ゛ζ極めて精確な判定を行
うことができる。
また最終母音が複数検出された場合に、これを距離及び
個数にて総合判定することにより、判定の確度をさらに
aIめることかできる。
そしてこの判定された最終母音によって、それ以前の過
渡点の検出のクラスタを制限することにより、これらの
距離の針算量を少(することができ、容易に実施できる
ようになると共に、精度を高めることもできる。
発明の効果 本発明によれば、簡単な構成で良好な音声認識が行える
ようになった。
【図面の簡単な説明】
第1図は音声の説明のための図、第2図〜第5図は従来
の装置の説明のための図、第6図〜第9図は本発明の説
明のための図、第10図は本発明の一例の系統図、第1
1図はその説明のための図である。 +11はマイクロフォン、(3)はローパスフィルタ、
(4)はAD変換回路、(5)はクロック発生器、(6
)はバンドパスフィルタ、(7)はエンファシス回路、
(8)は絶対値回路、+91は平均値回路、+lO1は
対数回路、(11) 、(13)は離散的フーリエ変換
回路、(+2) 。 (15) 、(51)〜(54)はメモリ装置、(14
) 。 (41)〜(44)はマハラノビス距離算出回路、(1
6) 、(61)〜(64)は判定回路、(17)は出
力端子、(20)は過渡点検出回路、(31)は差分回
路、(32)はノイズ除去回路、(33)は無音部検出
回路、(71)は処理回路、(81)は単語・単音節判
定回路である。

Claims (1)

    【特許請求の範囲】
  1. 無音を含む音韻間の過渡部を検出する手段を有し、にの
    検出された過渡部の音声を所定長抽出し°Cパラメータ
    に変換し、このパラメータを認tllll基本単位とす
    るようにした音声認識装置において、上記過渡点を、ま
    ず無音−有音、子音−母音、母音榊無音の3つのクラス
    について判定し、次に上記母音−無音についてその母音
    を判定し、しかる後に上記無音−有音及び子音−母音を
    上記判定された母音に基づいて判定するようにしたこと
    を特徴と−rる音声認識装置。
JP19465583A 1983-10-18 1983-10-18 音声認識装置 Pending JPS6086599A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19465583A JPS6086599A (ja) 1983-10-18 1983-10-18 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19465583A JPS6086599A (ja) 1983-10-18 1983-10-18 音声認識装置

Publications (1)

Publication Number Publication Date
JPS6086599A true JPS6086599A (ja) 1985-05-16

Family

ID=16328114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19465583A Pending JPS6086599A (ja) 1983-10-18 1983-10-18 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6086599A (ja)

Similar Documents

Publication Publication Date Title
KR910002198B1 (ko) 음성인식방법과 그 장치
US4100370A (en) Voice verification system based on word pronunciation
US20100332222A1 (en) Intelligent classification method of vocal signal
JPH0990974A (ja) 信号処理方法
Hansen et al. Robust speech recognition training via duration and spectral-based stress token generation
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
JPH0441357B2 (ja)
JPS6086599A (ja) 音声認識装置
Singh et al. A novel algorithm using MFCC and ERB gammatone filters in speech recognition
Saxena et al. Extricate Features Utilizing Mel Frequency Cepstral Coefficient in Automatic Speech Recognition System
Berjon et al. Frequency-centroid features for word recognition of non-native English speakers
JPH0246960B2 (ja)
JPH0552512B2 (ja)
JPS6069697A (ja) 音声認識装置
JPH0552509B2 (ja)
JPS6069696A (ja) 音声認識装置
Artimy et al. Automatic detection of acoustic sub-word boundaries for single digit recognition
JPH0546558B2 (ja)
JPH0552510B2 (ja)
Mishra et al. Comparative wavelet, PLP, and LPC speech recognition techniques on the Hindi speech digits database
JPH0552515B2 (ja)
JPS59172697A (ja) 音声過渡点検出方法
JPS59174899A (ja) 音声過渡点検出方法
Fathoni et al. Optimization of Feature Extraction in Indonesian Speech Recognition Using PCA and SVM Classification
JPH0546560B2 (ja)