JPS6086600A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPS6086600A
JPS6086600A JP19465683A JP19465683A JPS6086600A JP S6086600 A JPS6086600 A JP S6086600A JP 19465683 A JP19465683 A JP 19465683A JP 19465683 A JP19465683 A JP 19465683A JP S6086600 A JPS6086600 A JP S6086600A
Authority
JP
Japan
Prior art keywords
circuit
signal
parameter
supplied
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP19465683A
Other languages
English (en)
Other versions
JPH0552512B2 (ja
Inventor
曜一郎 佐古
雅男 渡
誠 赤羽
平岩 篤信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP19465683A priority Critical patent/JPS6086600A/ja
Publication of JPS6086600A publication Critical patent/JPS6086600A/ja
Publication of JPH0552512B2 publication Critical patent/JPH0552512B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は不特定話者を対象とした音声認識装置に関する
背景技術とその問題点 音声認識においては、特定話者に対する単語認識による
ものがずでに実用化されている。これは!g&all対
象とする全ての単語について特定話者にこれらを発音さ
せ、バンドパスフィルタバンク等によりその音響パラメ
ータを検出して記憶(登録)しておく。そして特定話者
が発声し艶ときその音響パラメータを検出し、登録され
た各tJA語の音響パラメータと比較し、これらが一致
したときそのfflIi語であるとの認識を行う。
このような装置において、話者の発声の時間軸が登録時
と異なっている場合には、一定時間(5〜20m se
c )毎に抽出される音響パラメータの時系列を伸縮し
て時間軸を整合させる。これによって発声速度の変動に
対処させるようにしても)る。
ところがこの装置の場合、認識対象とする全ての単語に
ついてそのffi語の全体の音響パラメータをあらかじ
め登録格納しておかなければならず、膨大な記憶容量と
演算を必要とする。このため認iak語い数に限界があ
った。
これに対して音韻(日本語でいえばローマ文表記したと
きのA、1.U、E、O,に、S、T等)あるいは音節
(K^、 Kl、 Kll等)単位での認識を行うこと
が提案されている。しかしこの場合に、母音等の準定常
部を有する音韻の認識は容易であつても、破裂音(K、
T、P等)のように音韻的特徴が非密に短いものを音響
パラメータのみで一つの音韻に特定することは極めて困
難である。
さらに不特定話者を認識対象とした場合には、音響パラ
メータに個人差による大きな分散があり、上述のように
時間軸の整合だけでは認識を行うことができない。そこ
で例えば一つの単語について複数の音響パラメータを登
録して返信の音響パラメータを認識する方法や、RL語
全体を固定次元のパラメータに変換し、識別函数によっ
゛ζ判別する方法が提案されているが、いずれも膨大な
記憶容量を必要としたり、演算量が多く、認識語い数が
極めζ少くなってしまう。
とごろで音韻の発声現象を観察すると、母音や摩擦音(
S、H等)等の音韻は長く伸して発声することができる
。例えば“はい”という発声を考えた場合に、この音韻
は第1図Aにボずように、[無音−H−A−1=無音」
に変化する。これに対して同じ“はい”の発声を第1図
Bのように行うこともできる。ここでH,A、Iの準定
常部の長さは発声ごとに変化し、これによって時間軸の
変動を生じる。ところがこの場合に、各音fil1間の
過渡部(斜線で示す)は比較的時間軸の変動が少いこと
が判明した。
そこで本願発明者は先にこの点に着目して以トのような
装置を提案した。
第2図において、マイクロフォン+11に供給された音
声信号がマイクアンプ(2)、5.5kllz以下のロ
ーパスフィルタ(3)を通じてAD変換回路+41に供
給される。またクロック発生器(5)からの12.5k
llz(80μsec間隔)のサンプリングクロックが
AI)変換回路(4)に43(給され、このタイミング
で音声信号がそれぞれ所定ビット数(−1ワード)のデ
ジタル信号に変換される。
このデジタル信号が、周波数分析用のバンドパスフィル
タ(61)、(62)・・・ (630)に供給され、
人間の聴覚特性に合ゼた周波数メルスケールに応じて例
えば30の帯域に分割される。この分割された各帯域の
信号がエンファシス回路(71)、(72)・・・ (
73a)に供給され、人間の聴覚特性に合せた高域増強
が行われる。この信号が絶対値回路(81)、(82)
・・・(8ao)に供給されて一極性とされ、xl/l
/同値回路□)、(92)・・・ (930)に供給さ
れて偵〜士の包絡線が取り出される。
こよによって例えば5.12m5ec間の256ワード
のデジタル信号が、音響的特徴を保存したまま30ワー
ドに圧縮される。
この信号が対数回路(101)、(102) ・・・(
103o)に供給され、各信号の対数値に変換される。
これによって上述のエンファシス回路(71)、(72
)・・・ (7ao)での重み付は等による冗長度が排
除される。ここで、例えばTの時間長に含まれるn1個
のサンプリングデータによって表される波形函数を UnfT(↑) ・・・(11 としたとき、これを周波数分析して、対数を取った対数
パワースペクトル 10gIUnfT(f)1 ・・・(2)をスペクトル
パラメータxa> (i =O+1・・・2つ)と称す
る。
このスペクトルパラメータX巾がl1ill ttt的
フーリエ変換(DFT)回路(11)に(l給される。
こごテコのDFTlrtlvpI(II)において、例
えば分割された帯域の数をMとすると、このM次元スペ
クトルパラメータX +i> (+ = 0+ 1 ・
・・M−1)を2M−1点の実数対称パラメータとみな
して2M−2貞のDFTを行う。従って m = Q 、 l 、 ・−2M−3となる。さらに
このDFTを行う函数は偶函数とみなされるため ト」 となり、これらより となる。このDFTによりスペクトルの包絡特性を表現
する音響パラメータが抽出される。
このようにしてDFTされたスペクトラムバラメークX
 (Dについて、O〜P−1(例えばP−8)次までの
P次元の値を取り出し、これをローカルパラメータL(
P) (p = 0.1・・・P−1)とするととなり
、ここでスペクトルバラメークが対称であることを考慮
して x (1) = x (2M−i−2)とおくと、ロー
カルパラメータT−(P)は但し、p=0.1・・・P
−1 となる。このようにし“(3()ワードの信号がP(例
えば8)ワードにIJE を宿される。
このローカルパラメータL fP)がメモリ装置(12
)に(Iζ給される。このメモリ装置(12)は]行P
ワードの記憶部が例えば16行マトリクス状に配された
もので、ローカルパラメータL (P)が各次元ごとに
一1a次記憶されると共に、j−j4sのり[1ツク発
η:器(5)からの5.12m sec間隔のフレーム
クロックが供給されて、各行のパラメータが順次横方向
ヘシフトされる。これによってメモリ装置(12)には
5.12m5ec間隔のP次元のローカルハラ) −夕
L (p+が16フレーム(81,92m sec )
分記憶され、フレームクロックごとに順次新しいパラメ
ータに中断される。
さらに音声過渡点検出回路(20)が以]・のように構
成される。すなわち平均値回路(91)〜(93o)か
らのそれぞれの帯域の信号の量に応じた信号V(nl 
(n −0,1・・・29)がバイアス付き対数回b!
3 (2b )、(212) ・・・ (2]30)に
供給されて v;nl−log(V(n++B) −・ ・(7)が
形成される。また信号V (nlが累算平均回路(22
)にイJ(給されて 0 が形成され、この信号■aが対数回路(21x)に供給
されて ■′a= 10g(■a十B) ・・・(8)が形成さ
れる。そしてこれらの信号が演算回路(23)に供給さ
れて vfn)=Va −V(n) H+ −+91が形成さ
れる。
ここで上述のような信号V fn)を用いることにより
、この信号は音韻から音韻への変化に対して斉次(n−
0,1・・・29)の変化が間程度となり、音韻の種類
による変化量のばらつきを回避できる。また対数をとり
/1tiWを行って正規化バラメークV (Illを形
成したごとにより、人力音声のレベルの変化によるパラ
メータV (n)の変動が1ノ1−除される。さらにバ
イアスBを加算して演算を行ったことにより、1反りに
I3→■とするとパラメータ■(n)−・0となること
から明らかなように、入力音声の微少成分(ノイズ等)
に対する感度を1・げろごとができる。
このパラメータV (nlがメモリ装置i’?(24)
に供給されで2w+1(例えば9)フレーム分が記憶さ
れる。この記憶された信号が演%9回173 (25)
に供給されて 但し GFj = (I i −W+ 1615w +
t lが形成され、この信号とパラメータV (Ill
が演析同11!3 (26)に供給されζ ・・・ (11) が形成される。このT↑が過渡点検出パラメータであっ
て、この1士がピーク刊別回l/8(27)に供給され
て、人力音声信号の音n(1の過渡点が検出される。
ここでパラメータTjが、フレームtを挾んで前後Wフ
レームずつで定義されているので、不要な凹凸や多極を
生じるおそれがない。なお第3図は例えば“ゼロ”とい
う発声を、サンプリング周波数12.5kHz 、12
ビツトデジタルデータとし、フレーム周期−5,12m
 sec 、帯域数N−30、バイアスB=0、検出フ
レーム数2w+ 1 =9で上述の検出をjTった場合
を示し′ζいる。図中Aは音声波形、Bは音韻、Cは検
出信号であって、「無音−Z」rZ−El rlE−4
RJ rR→O」 「0→無音」の各過渡部で顕著なピ
ークを発生ずる。ここで無音部にノイズによる多少の凹
凸が形成されるがこれはバイアスBを大きくするごとに
より破線図示のように略0になる。
この過渡点検出信号T ct)がメモリ装ff(12)
に(1給され、この検出信号のタイミングに相当するロ
ーカルパラメータL (P)が8番目の行にシフトされ
た時点でメモリ装置(12)の読み出しが行われる。こ
こでメモリ装W(12)の読み出しは、各次元Pごとに
16フレ一ム分の信号が横方向に読み出される。そして
読み出された信号がDFT回路(13)にイバ給される
この回路(13)におい゛ζ上述と同様にDFTが行わ
れ、音響パラメータの時系列変化の包銘特4+1が抽出
される。ごのDFTされた信号の内から0′〜Q−1(
例えばQ−3)次までのQ次元の値を取り出す。このD
FTを斉次7CPごとに行い、全体でPXQ(−24)
ワードの過渡点パラメータに+p、q+) (p =0
.1− P−1) (q −0,1−Q−11が形成さ
れる。ここで、K (0,01は音声波形のパワーを表
現し′ζいるので、パワー正規化のためp −= 。
のときにQ=1〜Qとし”ζもよい。
すなわち第4図において、Aのような入力音声信号(H
AT)に対してBのような過渡点が検出されている場合
に、この信号の全体のパワースペクトルはCのようにな
っている。そして例えばrH−AJの過渡点のパワース
ペクトルがDのようであったとすると、この信号がエン
ファシスされてEのようになり、メルスケールで圧縮さ
れてFのようになる。この信号がDFTされてGのよう
になり、Hのように前後の16フレ一ム分がマトリック
スされ、この信号が順次時間軸を方向にる。
この過渡点パラメータK TP、 4)がマハラノビス
距141+1 w出回IM、(14)に供給されると共
に、メモリ装置i!i′(+5)からのクラスタ係数が
回路(14)に供給されて各クラスタ係数とのマハラノ
ビス距離が算出される。ここでクラスタ係数は複数の話
者の発音から上述と同様に過渡点パラメータを抽出し、
これを音韻の内容に応じて分類し統計解析して得られた
ものである。
そしてこの算出されたマハラノビス距離が判定回1i3
(16)に45(給され、検出された過渡点が何の音韻
から何の音韻への過渡点であるかが’l’lJ定され、
出力端子(17)に取り出される。
すなわち例えば“はい゛“いいえ”′0 (ゼロ)〜″
9 (キュウ)″の12m語について、あらかじめ多数
(白°Å以上)の話者の音声をi:1述の装置Wに供給
し、過渡点を検出し過渡点パラメータを抽出する。この
過渡点パラメータを例えば第5図に示”4−ようなテー
ブルに分lfi L、この分類(クラスタ)ごとに統計
解析する。図中*は無音をネオ。
これらの過渡点パラメータについて、任意のザンブルを
Rけ^(r=1.2・・・24) (aはクラスタ指標
で例えばa=lは*”H,a −”lはH−A ニ対応
する。nは話者番号)として、共分散マトリクス Eはアンザンブル平均 を組数し、この逆マトリクス B置−(八%γt、S ・・・ (13)をめる。
ここで任意の過渡点パラメータK rとクラスタaとの
l+′1!離が、マハラノビス距離(K r Rr’)
 ・= (14) でめられる。
従ってメモリ装置(15)に上述のBfy及びR冒をめ
て記憶しておくごとにより、マハラノビス距離算出回路
(14)にて入力音声の過渡点パラメータとのマハラノ
ビス距離が算出される。
これによって回1ffi、(14)から入力音声の過渡
点ごとに各クラスタとの最少距離と過渡点の順位が取り
出される。これらが判定面に!&(16)に供給され、
入力音声が無音になった時点において認識判定を行う。
例えば各単語ごとに、各過渡点パラメータとクラスタと
の最少距離の平方根のilL均値による単語距離をめる
。なお過渡点の一部脱落を名慮し、て各単語は脱落を想
定した複数のタイプについて単語距離をめる。ただし過
渡点の順位関係がう一一ブルと異なっているものはリジ
ェクトする。そしてこの単語距離が最少になるfXi語
を認識判定する。
このようにして音声認識が行われるわけであるが、この
装置によれば音声の過渡点の音韻の変化を検出している
ので、時間軸の変動がなく、不特定話者についても良好
な認識を行うことができる。
また過渡点において上述のようなパラメータの抽出を行
ったことにより、一つの過渡点を例えば24次元で認識
することができ、認識を極めて容易かつ正確に行うこと
ができる。
なお十述の装置において120名の話者にて学習を行い
、この120名以外の話者に°ζ上述の12m Mにつ
いて実験を行った結果、98.2%の平均認識率が得ら
れた。
ざらに上述の例で“はい”のr H→A」と“8(ハチ
)”のrH→A」は同じクラスタに分類r+J能である
。従って認識ずべき百詔の音韻数をαとしてα02個の
クラスタをあらかじめn1算してクラスタ係数をメモリ
装B(15)に記憶さセ”ζおけば、種々のffi脇の
認識に適用でき、多くの語いの認識を容易に行うことが
できる。
ところで−上述の例では、′はい”、“いいえ”等の特
定の単語について認識を行ったが、これをさらに一般の
音声にて例えば単音節ごとに認識することも可能である
しかしながらその場合に、人間の発音におIJる音韻の
数は多く、従って過渡点のクラスタも100〜200と
極めて多くなる。このため、例えばマハラノビス距離の
計算をこれらの全てのクラスタについて行おうとすると
、計算量が棒めて多くなり、実用的ではなかった。
また例えば単音節の認識におい”ζ、最後の母音で過渡
点が複数発生し、さらにこの場合の母音がそれぞれ異な
ることがある。その場合にマハラノビス廂離の最小のも
のが必らずしもそのときの音韻とは限らないことが判明
した。
発明の目的 本発明はこのような点にかんがみ、簡単な構成で良好な
音声認識が行えるようにするものである。
発明の概要 本発明は、無音を含む音韻間の過渡部を検出する手段を
有し、この検出された過渡部の音声を所定長抽出し′ζ
パラメータに変換し、このパラメータを認識基本単位と
するようにした音声認識装置において、上記過渡点の内
の母音−無音の判定を、その各クラスタ係数との距離及
び上記各クラスタ係数に分類される数に応して行うよう
にしたことを特徴とする音声認識装置であっζ、ごれに
よれば簡単な構成で良好な音声認識を行うことができる
実施例 ところで以下の実施例では次のような装置が使用される
。すなわち第6図において、バンドパスフィルタ(61
)〜(6ao)の前段にエンファシス回路(7)が設け
られる。そしてこのエンファシス回路(7)において、
例えば低域側の1〜16番の帯域では信号が無補正でバ
ンドパスフィルタ(61)〜(61G)にイj(給され
、商域例の17〜30番の(;1・域では信号が差分器
M3(3])を通してバンドパスフィルタ(6jv)〜
(630)に供給される。
このエンファシス回1i (71において、差分回路(
31)の特i11ば Vm)−X+n+ −X(n−11HH+ (15)で
現わされ、この式をZ変換すると Y(n+−(1−Z−1) X(n) ・・・(16)
となる。さらにこの回路の伝達関数H(z)はl H(
Z) l’ = l H(21・H(Z−”) l= 
l’2− 2 cosωT l ・・(17)となり、
第7図に示すように低域側で小、高域側で大となる特性
となっている。そしてこの伝達関数が1となるのは、角
周波数ωがπ/2となる点である。一方上述のメルスケ
ールで30の帯域に分割した場合に、角周波数ωがπ/
2の点は、16番と17番の帯域の間になっている。そ
こで上述のように1〜16番の帯域で無補正、17〜3
0番の帯域で差分とすることにより、第8図に示すよう
に人間の聴覚特性に合せた高域増強を行うことができる
またそれぞれの帯域の平均値回1/g(9i)〜(93
0)からの信号がノイズ除去回l?FF(32t ) 
〜(323o)に供給される。一方AD変換回路(4)
からの信号が無音状態の検出回路(33)に41(給さ
れ、この検tJj信号が除去回路(321) 〜(32
ao)に供給される。そして除去回vFr(32t )
〜(32ao )に゛C1無音状恕での信号(ノイズ)
が測定され、この平均値(またはピーク値あるいはこれ
らを演算して得たイ14)をスレショルドレベルNとし
て、入力信号XがこのレベルNよ幻小のとき()、大の
とき(x−N)の信号が出力される。ごのイざ号が対数
回路(](h)〜(]03o)に供給される。
すなわちノイズ除去回路(32+ )〜(323o )
において、−の帯域の除去回路に第9図Aに小ずような
信号が供給されている場合に、検出回路(33)にて無
音部が検出され、この部分の信号の例えば平均値からな
るスレショルドレベルNによっテi49図Bに不ずよう
な信月が出力される。そしてこの場合にノイズレベルが
各帯域ごとに測定されており、ノイズの周波数特性に応
じたノイズ1(、を夫が行われる。
他は第2図と同様に構成される。
この装置によれば乗算器を用いずに簡単な差分11il
路のみで人間の聴覚特性に合せた良好なエンファシスを
行うこ占ができる。またソフトウェアで処理する場合に
も演算量を少なくすることがeきる。
さらにノイズの周波数特性に応じたノイズ除去を行うこ
とができ、パラメータの精度が極めて向−トずイ〕。
そしてこの装置において、距1illtW出回路(14
)及び判定回路(16)が以下のように構成される。
すなわち第10図において、DFT回路(13)からの
信号が第1の距離算出回路(41)に供給され、メモリ
装置t/ (51)からのクラスタ係数との距離が算出
される。
ここでメモリ装置i¥(51)には、[*→■(■は有
音を示す)]「■−■(■は母音を示す)」1’■−”
l’Jの3通りクラスタ係数が1!1込まれている。な
お単音節はこの3通りの過渡点で形成されている。
さらに算出された距離が第1の判定回路(61)に供給
され、入力された過渡点パラメータが上述の3通りのク
ラスタごとに分類される。
この分類されたパラメータの内の「@→*」のパラメー
タが第2の距離算出回路(42)に供給され、メモリ装
W (52)からのクラスタ係数との距離が算出される
コこテメモリ装v(52) ニ4;L、l’A−”kJ
[→*」 I U→*J 1E−1−1kl +−0→
*」 1(9)→*(■は“ん”′をボす)」の6通り
のクラスタ係数が書込まれている。
さらに算出された1?1!離が第2の′111111定
62)に供給され、人力されたパラメータが6通りのク
ラスタのどれに相当するか111定される。
さらにこの゛Fil定結果が処理回路(71)に(J(
給される。ここでこの回路(71)におい°ζ母音の総
合’111+定が1Tねれる。
すなわち、I(u−*Jの過渡点において、いわゆるふ
かれ等のノイズ的成分によって、過渡j:、jが複数検
出される場合があり、その場合にたまたま他のクラスタ
に近いパラメータが出るおそれがある。そこで処理回l
78(71)において、算出された距離と共にその数が
総合判定される。すなわち例えば第11図へのような過
渡点検出で、13のような′1′す定結果及び距離が防
出された場合に、ごごでは距離が最短のものは例えばl
’ U Jになっている。
ところがこの場合に判定された数は1Δ」の方が多い。
そしてこのような場合について実験及びシュミレーショ
ンを行った結果、このような場合には一般的に多くある
方がiFシいことが判明した。
従ってこの処理回路(71)においては、例えば過渡点
パラメータの多数決による判定を行う。なお多数決で同
数の場合や、極端に1llli離が異なる場合には、こ
れらの距離を勘案するようにしてもよい。
このようにして最終母音の判定が行われる。
また判定回II(61)で分類されたr*−c−+>」
及び1■−■」の過渡点パラメータが、第3及び第4の
距離算出回路(43) 、(44)に供給され、それぞ
れメモリ装置(53) 、(54)からのクラスタ係数
との距離が算出される。
ここでまずメモリ装置f(53)には、以上の表のよう
なりラスタ係数が、最終母音ごとに分類されて書込まれ
ている。
ここで例えば最終母音rAJに分類されるクラスタは、
50音表のア段の10個、濁音・半濁音5個、fAl+
音11個、及びバズ音の26個に、[−*−■」[■→
■」の判定のしにくい破裂音5 +11i+を含めた計
31個である。
またrIJはrAJよりヤ行、ワ行、ダ行及び拗音を除
いた計15個である。
以]・l’UJ rEJ rOJについてもそれぞれ発
音の特性に合せて30個、17個、31個のクラスタで
構成される。なお1−■」はr U Jに含めである。
またメモリ装ff1(54)には、以上の表のようなり
ラスタ係数が、最終母音ごとに分類されて書込まれてい
る。
ごこでも、上述のメモリ装置(53)の場合と同様に、
それぞれ発音の特性に合せて、rAJ26個、1−TJ
12個、rUJ25個、rEJ13個、rOJ25個の
クラスタに分類して書込まれている。なお拗音はそれぞ
れを「Y→AJ rY 4UJ r’Y→0」に統合し
てもよい。また破裂音はメモリ装置(53)と同じもの
が繰り返り設けられている。
そして上述の処理回路(71)からの最終母音の判定出
力に応して、各メモリ装置(53) 、(54)の対応
する母音の部分のみが算出回路(43) 。
(44)に供給されて、距離の算出が行われる。
さらに算出された距離が、それぞれ第3、第4の判定回
路(63) 、(64)に供給され、人力されたパラメ
ータがそれぞれのクラスタのどれに相当するか判定され
る。
これらの判定結果及び判定回路(62)からの判定結果
が、単語・単音節の判定回路(81)にイ1(給され、
人力された音声の単語・単音節が識別される。
こうしてこの装置において音声認識が行われるわけであ
るが、この装置によれば、まず過渡点を3種類に分類し
、次に最終母音を判定している。
ここで一般に母音の検出は容易であり、また最初の3分
類及び母音の判定はクラスフ数が3及び6と少いので、
パラメータの次元数を多くして極めて精確な判定を行う
ことができる。 ′また最終母音が複数検出された場合
に、これを距離及び個数にて総合判定することにより、
′+J1定の確度をさらに高めることができる。
そして−この判定された最終母音によって、それ以前の
過渡点の検出のクラスタを制限することにより、これら
の距離の計算量を少くすることができ、容易に実施でき
るようになると共に、精度を高めることもできる。
発明の効果 本発明によれば、簡単な構成で良好な音声認識が行える
ようになった。
【図面の簡単な説明】
第1図は音声の説明のための図、第2図〜第5図は従来
の装置の説明のため9図、第6は1〜第9図は本発明の
説明のための図、第10図は本発明の一例の系統図、第
11図はその説明のための図である。 (1,1はマイクロフォン、(3)はローパスフィルタ
、(4)はAD変換回路、(5)はクロック発生器、(
6)はバンドパスフィルタ、(7)はエンファシス回路
、(8)ハ絶対値回路、(9)は平均値回路、(10)
は対数回路、(11) 、(13)は離散的フーリエ変
換回路、(12) 。 (15) 、(51)〜(54)はメモリ装置、(14
)。 、、(41)〜(44)はマハラノビス距離算出回路、
(16) 、(61)〜(64)は判定回路、(17)
は出力端子、(20)は過渡点検出回路、(31)は差
分回路、(32)はノイズ除去回路、(33)は無音部
検出回路、(71)は処理回路、(81)はl1語・単
音節判定回路である。 1′、′I゛ ((“り5;パ・:

Claims (1)

    【特許請求の範囲】
  1. 無音を含む音韻間の過渡部を検出する手段を有し、この
    検出された過渡部の音声を所定長抽出してパラメータに
    変換し、このパラメータを認識基本単位とするようにし
    た音声認識装置において、上記過渡点の内の母音−無音
    の判定を、その各クラスタ係数との距離及び上記各クラ
    スタ係数に分類される数に応じて行うようにしたことを
    特徴とする音声認識装置。
JP19465683A 1983-10-18 1983-10-18 音声認識方法 Granted JPS6086600A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19465683A JPS6086600A (ja) 1983-10-18 1983-10-18 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19465683A JPS6086600A (ja) 1983-10-18 1983-10-18 音声認識方法

Publications (2)

Publication Number Publication Date
JPS6086600A true JPS6086600A (ja) 1985-05-16
JPH0552512B2 JPH0552512B2 (ja) 1993-08-05

Family

ID=16328131

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19465683A Granted JPS6086600A (ja) 1983-10-18 1983-10-18 音声認識方法

Country Status (1)

Country Link
JP (1) JPS6086600A (ja)

Also Published As

Publication number Publication date
JPH0552512B2 (ja) 1993-08-05

Similar Documents

Publication Publication Date Title
KR910002198B1 (ko) 음성인식방법과 그 장치
US20100332222A1 (en) Intelligent classification method of vocal signal
CN110570870A (zh) 一种文本无关的声纹识别方法、装置及设备
Hamid et al. Makhraj recognition for Al-Quran recitation using MFCC
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
JPS6086600A (ja) 音声認識方法
JPH04369698A (ja) 音声認識方式
JPH0441357B2 (ja)
Barlaskar et al. Study on the varying degree of speaker identity information reflected across the different MFCCs
Artimy et al. Automatic detection of acoustic sub-word boundaries for single digit recognition
Heriyanto et al. The Implementation Of Mfcc Feature Extraction And Selection of Cepstral Coefficient for Qur’an Recitation in TPA (Qur’an Learning Center) Nurul Huda Plus Purbayan
JPS6086599A (ja) 音声認識装置
JPH0426479B2 (ja)
JPS6069696A (ja) 音声認識装置
Upadhyay et al. Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario
JPH0552509B2 (ja)
JPS59172697A (ja) 音声過渡点検出方法
JPS6069697A (ja) 音声認識装置
JPS63213899A (ja) 話者照合方式
JPH0546560B2 (ja)
JPH0552510B2 (ja)
JPH0546558B2 (ja)
JPS59174899A (ja) 音声過渡点検出方法
JPH0552515B2 (ja)
JPS5994800A (ja) 音声認識装置