JPH0546560B2 - - Google Patents

Info

Publication number
JPH0546560B2
JPH0546560B2 JP58048539A JP4853983A JPH0546560B2 JP H0546560 B2 JPH0546560 B2 JP H0546560B2 JP 58048539 A JP58048539 A JP 58048539A JP 4853983 A JP4853983 A JP 4853983A JP H0546560 B2 JPH0546560 B2 JP H0546560B2
Authority
JP
Japan
Prior art keywords
signal
transient
block
frame
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58048539A
Other languages
English (en)
Other versions
JPS59172699A (ja
Inventor
Yoichiro Sako
Masao Watari
Makoto Akaha
Atsunobu Hiraiwa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP58048539A priority Critical patent/JPS59172699A/ja
Publication of JPS59172699A publication Critical patent/JPS59172699A/ja
Publication of JPH0546560B2 publication Critical patent/JPH0546560B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】
産業上の利用分野 本発明は音声認識に使用するデータを作成する
音声認識データ作成方法に関する。 背景技術とその問題点 音声認識においては、特定話者に対する単語認
識によるものがすでに実用化されている。これは
認識対象とする全ての単語について特定話者にこ
れらを発音させ、バンドパスフイルタバンク等に
よりその音響パラメータを検出して記憶(登録)
しておく。そして特定話者が発声したときその音
響パラメータを検出し、登録された各単語の音響
パラメータと比較し、これらが一致したときその
単語であるとの認識を行う。 このような装置において、話者の発声の時間軸
が登録時と異なつている場合には、一定時間(5
〜20msec)毎に抽出される音響パラメータの時
系列を伸縮して時間軸を整合させる。これによつ
て発声速度の変動に対処させるようにしている。 ところがこの装置の場合、認識対象とする全て
の単語についてその単語の全体の音響パラメータ
をあらかじめ登録格納しておかなければならず、
膨大な記憶容量と演算とを必要とする。このため
認識語い数に限界があつた。 これに対して音韻(日本語でいえばローマ字表
記したときのA,I,U,E,O,K,S,T
等)あるいは音節(KA,KI,KU等)単位での
認識を行うことが提案されている。しかしこの場
合に、母音等の準定常部を有する音韻の認識は容
易であつても、破裂音(K,T,P等)のように
音韻的特徴が非常に短いものを音響パラメータの
みで一つの音韻に特定することは極めて困難であ
る。 そこで従来は、各音節ごとに離散的に発音され
た音声を登録し、離散的に発声された音声を単語
認識と同様に時間軸整合させて認識を行つてお
り、特殊な発声を行うために限定された用途でし
か利用できなかつた。 さらに不特定話者を認識対象とした場合には、
音響パラメータに個人差による大きな分散があ
り、上述のように時間軸の整合だけでは認識を行
うことができない。そこで例えば一つの単語につ
いて複数の音響パラメータを登録して近似の音響
パラメータを認識する方法や、単語全体を固定次
元のパラメータに変換し、識別函数によつて判別
する方法が提案されているが、いずれも膨大な記
憶容量を必要としたり、演算量が多く、認識語い
数が極めて少なくなつてしまう。 ところで音韻の発声現象を観察すると、母音や
摩擦音(S,H等)の音韻は長く伸ばして発声す
ることができる。例えば“はい”という発声を考
えた場合に、この音韻は第1図Aに示すように、
「無音→H→A→I→無音」に変化する。これに
対して同じ“はい”の発声を第1図Bのように行
うこともできる。ここでH,A,Iの準定常部の
長さは発声ごとに変化し、これによつて時間軸の
変動を生じる。ところがこの場合に、各音韻間の
過渡部(斜線で示す)は比較的時間軸の変動が少
いことが判明した。 この為、この音韻間の過渡部に着目して不特定
話者に対しても良好に音声認識を行えるようにし
た第2図乃至第5図に示す如き音声認識装置が提
案されている。以下、この第2図乃至第5図に示
す音声認識装置について説明する。 第2図において、1は音響分析部を示し、この
音響分析部1は音声信号を音響パラメータ時系列
に変換するものである。マイクロフオン2に供給
された音声信号がマイクアンプ3、5.5kHz以下の
ローパスフイルタ4を通じてAD変換回路5に供
給される。またクロツク発生器6からの12.5kHz
(80μsec間隔)のサンプリングクロツクがAD変
換回路5に供給され、このタイミングで音声信号
がそれぞれ所定ビツト数(=1ワード)のデジタ
ル信号に変換される。この変換された音声信号が
5×64ワードのレジスタ7に供給される。またク
ロツク発生器6からの5.12msec間隔のフレーム
クロツクが5進カウンタ8に供給され、このカウ
ント値がレジスタ7に供給されて音声信号が64ワ
ードずつシフトされ、シフトされた4×64ワード
の信号がレジスタ7から取り出される。 このレジスタ7から取り出された4×64=256
ワードの信号が高速フーリエ変換(FFT)回路
9に供給される。ここでこのFFT回路9におい
て、例えばTの時間長に含まれるnf個のサンプリ
ングデータによつて表される波形函数を UnfT(t) ……(1) としたとき、これをフーリエ変換して、 〓nfT(f)=∫T/2 −T/2UnfT(f)e-2jftdt ≡U1nfT(f)+jU2nfT(f) ……(2) の信号が得られる。 さらにこのFFT回路9からの信号がパワーペ
クトルの検出回路10に供給され、 |〓2|=U1nfT(f)2+U2nfT(f)2 ……(3) のパワースペクトル信号が取り出される。ここで
フーリエ変換された信号は周波数軸上で対称にな
つているので、フーリエ変換によつて取り出され
るnf個のデータの半分は冗長データである。そこ
で半分のデータを排除して1/2nf個のデータが取
り出される。すなわち上述のFFT回路9に供給
された256ワードの信号が変換されて128ワードの
パワースペクトル信号が取り出される。 このパワースペクトル信号がエンフアシス回路
11に供給されて聴感上の補正を行うための重み
付けが行われる。ここで重み付けとしては、例え
ば周波数の高域成分を増強する補正が行われる。 この様にして音声分析部1において、音声信号
の音響パラメータ時系列として重み付けされたパ
ワースペクトル信号が得られる。そして、この音
声分析部1からの重み付けされたパワースペクト
ル信号が過渡パラメータ抽出部12及び過渡点検
出部13に夫々供給される。この過渡パラメータ
抽出部12は音声分析部1からの音声信号の音響
パラメータ時系列から音声信号の音韻的特徴を保
持した低次の過渡点パラメータを抽出するもので
あり、また過渡点検出部13は音声分析部1から
の音声信号の音響パラメータ時系列から音声信号
の過渡点を検出して過渡点検出信号を発生するも
のであり、この過渡点検出部13からの過渡点検
出信号が過渡パラメータ抽出部12に供給され、
過渡パラメータ抽出部12において過渡点におけ
る音声信号の音韻的特徴を保持した低次の過渡点
パラメータが抽出される。 以下、これら過渡パラメータ抽出部12及び過
渡点検出部13について説明する。 音声分析部1のエンフアシス回路11からの重
み付けされたパワースペクトル信号が帯域分割回
路14に供給され、聴感特性に合わせて周波数メ
ルスケールに応じて例えば32の帯域に分割され
る。ここでパワースペクトルの分割点と異なる場
合にはその信号が各帯域に按分されてそれぞれの
帯域の信号の量に応じた信号が取り出される。 これによつて上述の128ワードのパワースペク
トル信号が、音響的特徴を保持したまま32ワード
に圧縮される。 この信号が対数回路15に供給され、各信号の
対数値に変換される。これによつて上述のエンフ
アシス回路11での重み付け等による冗長度が排
除される。ここでこの対数パワースペクトル log|U2nfT(f)| ……(4) をスペクトルパラメータx(i)(i=0,1…31)と
称する。 このスペクトルパラメータx(i)が離散的フーリ
エ変換(DFT)回路16に供給される。ここで
このDFT回路16において、例えば分割された
帯域の数をMとすると、このM次元スペクトルパ
ラメータx(i)(i=0,1…M−1)を2M−1点
の実数対称パラメータとみなして2M−2点の
DFTを行う。従つて X(n)2M-3i=0 x(i)・Wmi 2M-2 ……(5) 但し、
【式】 となる。さらにこのDFTを行う函数は偶函数と
みなされるため Wmi 2M-2=cos(2〓・i・m/2M−2) =cos〓・i・m/M−1 となり、これらより X(n)2M-3i=0 x(i)cos〓・i・m/M−1 ……(6) となる。このDFTによりスペクトルの包絡特性
を表現する音響パラメータが抽出される。 このようにしてDFTされたスペクトルパラメ
ータx(i)について、低次元で各音韻の変化例えば
H→A,A→I等間を分離性の良いパラメータに
圧縮するための周波数軸方向における32ワードか
らなる信号からDFTにより0〜P−1(例えばP
=8)次までの低次成分であるP次元の値が取り
出され、これをローカルパラメータL(p)(p=0,
1…P−1)とすると L(p)2M-3i=0 x(i)cos〓・i・p/M−1 ……(7) となり、ここでスペクトルパラメータが対称であ
ることを考慮して x(i)=x(2M−i−2) ……(8) とおくと、ローカルパラメータL(p)は L(p)=x(p)M-2i=1 x(i){cos〓・i・p/M−1 +cos〓・(2M−i−2)・p/M−1} +x(M-1)cos〓・p/M−1 ……(9) 但し、p=0,1…P−1 となされる。このようにして周波数軸方向におけ
る32ワードの信号がP(例えば8)ワードに圧縮
される。 このローカルパラメータL(p)がメモリ装置17
に供給される。このメモリ装置17は1行Pワー
ドの記憶部が例えば16行マトリクス状に配された
もので、ローカルパラメータL(p)が各次元ごとに
順次記憶されると共に、上述のクロツク発生器6
からの5.12msec間隔のフレームクロツクが供給
されて、各行のパラメータが順次横方向へシフト
される。これによつてメモリ装置17には5.12m
sec間隔のP次元のローカルパラメータL(p)が16フ
レーム(81.92msec)分記憶され、フレームクロ
ツクごとに順次新しいパラメータに更新される。 一方、音声分析部1のエンフアシス回路11か
らの重み付けされた信号が過渡点検出部13の帯
域分割回路18に供給され、上述と同様にメルス
ケールに応じてN(例えば20)の帯域に分割され、
それぞれの帯域の信号の量に応じた信号V(o)(n
=0,1…N−1)が取り出される。この信号が
バイアス付き対数回路19に供給されて v′(o)=log(V(o)+B) ……(10) が形成される。また信号V(o)が累算回路20に供
給されて Va20n=1 V(o)/20 が形成され、この信号Vaが対数回路19に供給
されて v′a=log(Va+B) ……(11) が形成される。そしてこれらの信号が演算回路2
1に供給されて v(o)=v′a−v′(o) ……(12) が形成される。 ここで上述のような信号v(o)を用いることによ
り、この信号は音韻から音韻への変化に対して各
次(n=0,1…N−1)の変化が同程度とな
り、音韻の種類による変化量のばらつきを回避で
きる。また対数をとり演算を行つて正規化パラメ
ータv(o)を形成したことにより、入力音声のレベ
ルの変化によるパラメータv(o)の変動が排除され
る。さらにバイアスBを加算して演算を行つたこ
とにより、仮にB→∞とするとパラメータv(o)
0となることから明かなように、入力音声の微少
成分(ノイズ等)に対する感度を下げることがで
きる。 このパラメータv(o)がメモリ装置22に供給さ
れて2w+1(例えば9)フレーム分が記憶され
る。この記憶された信号が演算回路23に供給さ
れて Yo,t= minIGFN{υ(o)(I)} ……(13) 但し、GFN={I;−w+t≦I≦w+t} が形成され、この信号とパラメータv(o)が演算回
路24に供給されて T(t)=N-1N=0 wI=-w (v(o)(I+t)−Yo,t) ……(14) が形成される。このT(t)が過渡点検出パラメータ
であつて、このT(t)がピーク判別回路25に
供給されて、入力音声信号の音韻の過渡点が検出
される。 ここでパラメータT(t)が、フレームtを挟んで
前後wフレームずつで定義されているので、不要
な凹凸や多極を生じるおそれがない。なお第3図
は例えば“ゼロ”とい発声を、サンプリング周波
数12.5kHz、12ビツトデジタルデータとし、5.12
msecフレーム周期で256点のFFTを行い、帯域
数N=20、バイアスB=0、検出フレーム数2w
+1=9で上述の検出を行つた場合を示してい
る。図中Aは音声波形、Bは音韻、Cは検出信号
であつて、「無音→Z」「Z→E」「E→R」「R→
O」「O→無音」の各過渡部で顕著なピークを発
生する。ここで無音部にノイズによる多少の凹凸
が形成されるがこれはバイアスBを大きくするこ
とにより破線図示のように略0になる。 この過渡点検出信号T(t)が過渡パラメータ抽出
部12のメモリ装置17に供給され、この検出信
号のタイミングに相当するローカルパラメータ
L(p)が8番目の行にシフトされた時点でメモリ装
置17の読み出しが行われる。ここでメモリ装置
17の読み出しは、各次元Pごとに16フレーム分
の信号が横方向に読み出される。そして読み出さ
れた信号がDFT回路26に供給される。 このDFT回路26において上述と同様にDFT
が行われ、音響パラメータ時系列の時間的変化の
包絡特性が抽出される。このDFTされた信号の
内から0〜Q−1(例えばQ=3)次までのQ次
元の値を取り出す。このDFTを各次元Pごとに
行い、全体でP×Q(=24)ワードの過渡点パラ
メータK(p,q)(p=0,1…P−1)(q=0,1
…Q−1)が形成される。K(0,0)は音声波形のパ
ワーを表現しているのでパワー正規化のためp=
0のときにq=1〜Qとしてもよい。 すなわち第4図において、Aのような入力音声
信号(HAI)に対してBのような過渡点が検出
されている場合に、この信号の全体のパワースペ
クトルはCのようになつている。そして例えば
「H→A」の過渡点のパワースペクトルがDのよ
うであつたとすると、この信号がエンフアシスさ
れてEのようになり、メルスケールで圧縮されて
Fのようになる。この信号がDFTされてGのよ
うになり、Hのように前後の16フレーム分がマト
リクスされ、この信号が順次時間軸t方向に
DFTされて例えば24(=8×3)の過渡点パラメ
ータK(p,q)が形成される。 この様にして得られた過渡パラメータ抽出部1
2からの過渡点パラメータK(p,q)が音声判定部2
7に供給され、この音声判定部27において音声
信号の認識判定がなされる。以下、この音声判定
部27について説明する。 過渡パラメータ抽出部12のDFT回路26か
らの過渡点パラメータK(p,q)が音声判定部27の
マハラノビス距離算出回路28に供給されると共
に、メモリ装置29からのクラスタ係数がマハラ
ノビス距離算出回路28に供給されて各クラスタ
係数とのマハラノビス距離が算出される。ここで
クラスタ係数は複数の話者の発音から上述と同様
に過渡点パラメータを抽出し、これを音韻の内容
に応じて分類し統計解析して得られたものであ
る。 そしてこの算出されたマハラノビス距離が判定
回路30に供給され、検出された過渡点が、何の
音韻から何の音韻への過渡点であるかが判定さ
れ、出力端子31に取り出される。 すなわち例えば“はい”“いいえ”“0(ゼロ)”
〜“9(キユウ)”の12単語について、あらかじめ
多数(百人以上)の話者の音声を前述の装置に供
給し、過渡点を検出し過渡点パラメータを抽出す
る。この過渡点パラメータを例えば第5図に示す
ようなテーブルに分類し、この分類(クラスタ)
ごとに統計解析する。図中*は無音を示す。 これらの過渡点パラメータについて、任意のサ
ンプルをR(a) r,n(r=1,2…24)(aはクラ
スタ指標で例えばa=1は*→H,a=2はH→
Aに対応する。nは話者番号)として、共分散マ
トリクス A(a) r,s≡E(R(a) r,n−r (a))(R(a) s,n−s (a)) ……(16) 但し、s (a)=E(R(a) r,n) Eはアンサンブル平均 を計算し、この逆マトリクス B(a) r,s=(A(a) t,u)-1 r,s ……(17) を求める。 ここで任意の過渡点パラメータKrとクラスタ
aとの距離が、マハラノビスの距離 D(Kr,a)d ≡ 〓rs (Kr−Rr (a))・B(a) r,s・(Krs (a)) ……(18) で求められる。 従つて、メモリ装置29に上述のB(a) r,s及び
Rr (a)を求めて記憶しておくことにより、マハラノ
ビス距離算出回路28にて入力音声の過渡点パラ
メータとのマハラノビス距離が算出される。 これによつてマハラノビス距離算出回路28か
ら入力音声の過渡点ごとに各クラスタとの最小距
離と過渡点の順位が取り出される。これらが判定
回路30に供給され、入力音声が無声になつた時
点において認識判定を行う。例えば各単語ごと
に、各過渡点パラメータとクラスタとの最小距離
の平方根の平均値による単語距離を求める。なお
過渡点の一部脱落を考慮して各単語は脱落を想定
した複数のタイプについて単語距離を求める。た
だし過渡点の順位関係がテーブルと異なつている
ものはリジエクトする。そしてこの単語距離が最
小になる単語を認識判定する。 こうして音声認識が行われるわけであるが、斯
かる構成よりなる音声認識装置によれば音声の過
渡点の音韻の変化を検出しているので、時間軸の
変動がなく、不特定話者についても良好な認識を
行うことができる。 また過渡点において上述のようなパラメータの
抽出を行つたことにより、一つの過渡点を例えば
24次元で認識することができ、認識を極めて容易
かつ正確に行うことができる。 ところで、この様にしてなる音声認識装置のメ
モリ装置29に記憶しておく音声認識データを作
成するには、音声分析部1、過渡点検出部13及
び過渡パラメータ抽出部12により音韻間の過渡
点における過渡点パラメータを抽出し、これを音
韻の内容に応じて分類し統計解析してクラスタ係
数を得るのであるが、この場合過渡点検出信号
(波形)とパラメータとをテイスプレイし視察に
より観測して対応づけを行つている為ばらつきが
大きく、又例えば「KA」という音節に対して過
渡点検出信号が第6図Aに示す如く音韻間で1
つ、全体で3つのピークを生じるべきところが、
同図Bに示す如く4つのピークを生じたり、同図
Cに示す如く2つのピークしか得られなかつたり
同図Dに示す如くピークは3つあるけれども1箇
所の音韻間に2つと偏つていたりして、判断等に
手数がかかる等の不都合があつた。又、これを自
動化しようとすると不要な組み合わせに対する演
算を必要としたりしてかなり演算時間がかかつて
しまうという不都合があつた。 発明の目的 本発明は斯かる点に鑑み演算時間の短縮及び信
頼性向上を計ろうとするものである。 発明の概要 本発明の音声認識データ作成方法は、音声信号
より音響パラメータ時系列を得、該音響パラメー
タ時系列から過渡点検出信号を検出し、該過渡点
検出信号のピーク位置と強度とより過渡部の種類
を識別するようにしたことを特徴とするものであ
る。 実施例 以下、第7図乃至第9図を参照しながら本発明
音声認識データ作成方法の一実施例について説明
しよう。この第7図乃至第9図において第1図乃
至第6図と対応する部分に同一符号を付してその
詳細な説明は省略する。 本例においては過渡点検出部13のピーク判別
回路25からの過渡点検出信号T(t)をプリクラス
タリング回路32に供給する。このプリクラスタ
リング回路32は過渡点検出信号T(t)のピーク値
とそれに対応するフレーム番号とより本来あるべ
き過渡点検出信号T(t)のピーク位置を判別し検出
して過渡点検出信号及びクラスタリング信号を形
成する。ここでこのプリクラスタリング回路32
について更に説明する。 まず、音声信号が「A」「I」「U」「E」「O」
「N」の母音又はNの音韻である場合、第8図に
示すフローチヤートの如く、ブロツク8aにて本
来あるべき過渡点の数2が変数iに設定され、ブ
ロツク8bにて過渡点検出信号T(t)のピーク点の
個数Npが2以上であるかどうかが判別され、2
以上でない場合は本来あるべき過渡点に対応する
ピーク点が不足していることが検出され、ブロツ
ク8cにてパラメータの分類(クラスタリング)
ができない処理がなされる。又、ピーク点の個数
Npが2以上である場合は、過渡点検出信号T(t)
ピーク点をピーク値の大きさの降順に並べた時の
1番大きなピーク値のフレーム番号(以下、降順
i(この場合は1)番目のフレーム番号という。)
と降順2番目のフレーム番号との差の絶対値が所
定数aフレーム以下であるかどうかによりピーク
点とピーク点との間隔がaフレーム以下すなわち
1箇所の音韻間にこれらのピーク点が位置するか
どうかが判別され、aフレーム以下である(位置
する)場合ブロツク8eにて変数iに「1」が加
えられ、再びブロツク8b及び8dにて上述の処
理がなされる。又、a以下でない(1箇所の音韻
間にこれらのピーク点が位置しない)場合ブロツ
ク8fにて降順1番目のフレーム番号が降順3番
目のフレーム番号より小さいかどうかが判別さ
れ、小さい場合にはブロツク8gにて降順1番目
のフレームが「*→母音(又はN)」に対応し、
降順3番目のフレームが「母音(又はN)→*」
に対応することを示す過渡点検出信号及びクラス
タリング信号が形成される。又小さくない場合に
はこれとは逆にブロツク8hにて降順3番目のフ
レームが「*→母音(又はN)」に対応し、降順
1番目のフレームが「母音(又はN)→*」に対
応することを示す過渡点検出信号及びクラスタリ
ング信号が形成される。 次に、音声信号が「K」「T」「H」「P」と母
音との組み合わせされた音節である場合、第9図
に示すフローチヤートの如く、ブロツク9aにて
ピーク点の個数Npが本来あるべき音韻間の数3
以上あるかどうかが判別され、3以上ない場合更
にブロツク9bにて2番目のピーク点のフレーム
番号から1番目のピーク点のフレーム番号を引い
たフレーム数が所定数a1フレーム以上大きいかど
うかにより、1番目及び3番目のピーク点が1箇
所の音韻間に位置していないかどうかが判別さ
れ、a1フレーム以上大きい(音韻間毎にピーク点
が位置している)とき、「*→子音」に対応する
ピーク点はなく、1番目のピーク点のフレームが
「子音→母音」に対応し、2番目のピーク点のフ
レームが「母音→*」に対応することを示す過渡
点検出信号及びクラスタリング信号が形成され
る。又、a1フレーム以上大きくない(1箇所の音
韻間にピーク点が偏つて位置している)とき、ブ
ロツク9dにてパラメータの分類ができない処理
がなされる。 そして、ブロツク9aにてピーク点の個数Np
が3以上あることが判別された過渡点検出信号
T(t)がブロツク9eにて1番目のピーク点のピー
ク値が相対的に2番目のピーク点のピーク値より
も所定値a2以上大きく且つ絶対的に所定値a3以上
大きいかどうかが判別され、これを満たすときブ
ロツク9fにて変数iに値2が設定され、ブロツ
ク9gにて変数i(=2)がピーク点の個数Np
下であるかどうか判別され、Np以下である場合
ブロツク9hにて降順1番目のフレーム番号と降
順i(この場合2)番目のフレーム番号との差の
絶対値が所定値a4以下であるかどうかにより、ピ
ーク点とピーク点との間隔がa4フレーム以下即ち
1箇所の音韻間にこれらのピーク点が位置するか
が判別され、a4フレーム以下である(位置する)
場合変数iに「1」が加えられ、再びブロツク9
g及び9hにて上述の処理がなされ、ブロツク9
gにて変数iがピーク点の個数Npを越えたこと
が検出されるとブロツク9jにてパラメータの分
類ができない処理がなされる。又、ブロツク9h
にてa4フレーム以下でない(降順1番目及び3番
目のフレームが1箇所の音韻間に位置してない)
場合、ブロツク9kにて降順1番目のフレーム番
号が降順3番目のフレーム番号より小さいかどう
かが判別され、小さい場合にはブロツク9lにて
「*→子音」に対応するピーク点はなく降順1番
目のフレームが「子音→母音」に対応し、降順3
番目のフレームが「母音→*」に対応することを
示す過渡点検出信号及びクラスタリング信号が形
成される。又、ブロツク9kにて小さくない場合
はこれとは逆にブロツク9mにて「*→子音」に
対応するピーク点はなく、降順3番目のフレーム
が「子音→母音」に対応し、降順1番目のフレー
ムが「母音→*」に対応することを示す過渡点検
出信号及びクラスタリング信号が形成される。 そして又、ブロツク9eにて条件が満たされな
い場合ブロツク9nにて降順1番目のフレーム番
号と1番目のピーク点のフレーム番号とが等しく
ないかどうかにより、1番目のピーク点が1番大
きなピーク値をとらないかどうかが判別され、と
らない場合ブロツク9oおて変数iに値2が設定
され、ブロツク9pにてピーク点の個数Npが2
以上であるかどうかが判別され、Npが2以上で
ある場合ブロツク9qにて降順i(この場合2)
番目のフレーム番号が1番目のピーク点のフレー
ム番号に等しくないかどうかにより降順i番目の
フレームが1番目のピーク点のフレームでないか
どうかが判別され、等しくない場合ブロツク9r
にて変数iに「1」が加えられ、再びブロツク9
p及び9qにて上述の処理がなされ、ブロツク9
pにて変数iがNp以下でない場合ブロツク9s
にてパラメータの分類ができない処理がなされ
る。又、ブロツク9qにて等しくない場合ブロツ
ク9tにて降順1番目のフレーム番号と降順i
(例えば4)番目のフレーム番号との差の絶対値
が所定数a5フレーム以下であるかどうかによりピ
ーク点とピーク点との間隔a5フレーム以下即ち1
箇所の音韻間にこれらのピーク点が位置するかど
うかが判別され、a5フレーム以下である(位置す
る)場合ブロツク9rにて変数iに「1」が加え
られ再びブロツク9p,9q及び9tにて上述の
処理がなされ、ブロツク9tにてa5フレーム以下
でない場合ブロツク9uにて降順1番目のフレー
ム番号が降順i(例えば5)番目のフレーム番号
より小さいかどうかが判別され、小さい場合には
ブロツク9vにて1番目のピーク点のフレームが
「*→子音」に対応し、降順1番目のフレームが
「子音→母音」に対応し、降順5番目のフレーム
が「母音→*」に対応することを示す過渡点検出
信号及びクラスタリング信号が形成される。又、
ブロツク9uにて小さい場合、ブロツク9wにて
1番目のピーク点のフレームが「*→子音」に対
応し、降順5番目のフレームが「子音→母音」に
対応し、降順1番目のフレームが「母音→*」に
対応することを示す過渡点検出信号及びクラスタ
リング信号が形成される。 そして更に、ブロツク9nにて条件が満たされ
ない場合ブロツク9xにて変数iに値3が設定さ
れブロツク9yにてピーク点の個数Npが変数i
以上であるかどうか判別され、i以上である場合
ブロツク9zにて降順2番目のフレーム番号と降
順i(この場合3)番目のフレーム番号との差の
絶対値が所定数a6フレーム以下であるかどうかに
よりピーク点とピーク点との間隔がa6フレーム以
下即ち1箇所の音韻間にこれらのピーク点が位置
するかどうかが判別され、a6フレーム以下である
(位置する)場合ブロツク9αにて変数iに1が
加えられ、再びブロツク9y及び9zにて上述の
処理がなされ、ブロツク9yにて変数iがNp
下でない場合ブロツク9βにてパラメータの分類
ができない処理がなされる。又、ブロツク9zに
てa6フレーム以下でない場合ブロツク9γにて降
順2番目のフレーム番号が降順i(例えば5)番
目のフレーム番号より小さいかどうかが判別さ
れ、小さい場合にはブロツク9δにて1番目のピ
ーク点のフレームが「*→子音」に対応し、降順
2番目のフレームが「子音→母音」に対応し、降
順5番目のフレームが「母音→*」に対応するこ
とを示す過渡点検出信号及びクラスタリング信号
が形成される。又、ブロツク9γにて小さくない
場合、ブロツク9εにて1番目のピーク点のフレ
ームが「*→子音」に対応し、降順5番目のフレ
ームが「子音→母音」に対応し、降順2番目のフ
レームが「母音→*」に対応することを示す過渡
点検出信号及びクラスタリング信号が形成され
る。 このプリクラスタリング回路32からの過渡点
検出信号を過渡パラメータ抽出部12のメモリ装
置17に供給する。又、過渡パラメータ抽出部1
2のDFT回路26からの過渡点パラメータK(p,q)
をデータ集積部33のメモリ装置34に供給す
る。一方、プリクラスタリング回路32からのク
ラスタリング信号をメモリ装置34のアドレスを
指定するメモリ制御回路35に供給し、このメモ
リ制御回路35からの制御信号をメモリ装置34
に供給する。この場合、メモリ制御回路35はク
ラスタリング信号に応じて第5図に示すようなテ
ーブルに応じて過渡点パラメータが分類されるよ
うにメモリ装置34のアドレスを指定する。その
他音声分析部1、過渡パラメータ抽出部12及び
過渡点検出部13は第2図に示すものと同様に構
成する。 斯かる構成によれば、音声分析部1にて音声信
号が音響パラメータ時系列に変換され、過渡点検
出部13にてこの音響パラメータ時系列が処理さ
れピーク判別回路25からの過渡点検出信号T(t)
が得られこの過渡点検出信号T(t)がプリクラスタ
リング回路32により処理され、過渡点検出信号
T(t)のピーク値とそれに対応するフレーム番号と
より本来あるべき過渡点検出信号及びクラスタリ
ング信号が形成される。そして、このプリクラス
タリング回路32からの過渡点検出信号が過渡パ
ラメータ抽出部12に供給され、この過渡パラメ
ータ抽出部12において音響パラメータ時系列か
ら音韻間の過渡点における過渡点パラメータ
K(p,q)が抽出され、この過渡点パラメータK(p,q)
データ集積部33のメモリ装置34に順次記憶さ
れる。このとき、プリクラスタリング回路32か
らのクラスタリング信号に応じてメモリ制御回路
35がメモリ装置34のアドレスを指定し、メモ
リ装置34に記憶される過渡点パラメータK(p,q)
が無音及び音韻に応じて分類される。 以上述べた如く本例によれば、音声信号より音
響パラメータ時系列を得、この音響パラメータ時
系列から過渡点検出信号を得て、この過渡点検出
信号のピーク値とそれに対応するフレーム番号と
より無音及び音韻を分類するようにした為、音声
認識データを作成するのに、過渡点検出信号T(t)
と過渡点パラメータとを自動で音韻の内容に応じ
て分類できるので、視察で行なう場合に比べて信
頼性の向上が計れると共に、演算時間の短縮を計
ることができる。 尚、本発明は上述の母音及び子音に限らずその
他の子音及びこの子音と母音との組み合わされた
音節に対しても本発明の要旨を逸脱することなく
その他種々の構成を取ることは勿論である。 発明の効果 本発明音声認識データ作成方法によれば、音声
信号より音響パラメータ時系列を得、この音響パ
ラメータ時系列のピーク位置と強度とより無音及
び音韻を分類するようにした為、信頼性向上及び
演算時間の短縮を計ることができる。
【図面の簡単な説明】
第1図、第3図、第4図、第5図及び第6図は
音声認識装置の例の説明に供する線図、第2図は
音声認識装置の例を示す構成図、第7図は本発明
音声認識データ作成方法の一実施例を示す構成
図、第8図及び第9図は夫々第7図の説明に供す
る線図である。 1は音声分析部、12は過渡パラメータ抽出
部、13は過渡点検出部、32はプリクラスタリ
ング回路、33はデータ集積部、34はメモリ装
置、35はメモリ制御回路がある。

Claims (1)

    【特許請求の範囲】
  1. 1 音声信号より音響パラメータ時系列を得、該
    音響パラメータ時系列から過渡点検出信号を検出
    し、該過渡点検出信号のピーク位置と強度とより
    過渡部の種類を識別するようにしたことを特徴と
    する音声認識データ作成方法。
JP58048539A 1983-03-23 1983-03-23 音声認識デ−タ作成方法 Granted JPS59172699A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58048539A JPS59172699A (ja) 1983-03-23 1983-03-23 音声認識デ−タ作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58048539A JPS59172699A (ja) 1983-03-23 1983-03-23 音声認識デ−タ作成方法

Publications (2)

Publication Number Publication Date
JPS59172699A JPS59172699A (ja) 1984-09-29
JPH0546560B2 true JPH0546560B2 (ja) 1993-07-14

Family

ID=12806168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58048539A Granted JPS59172699A (ja) 1983-03-23 1983-03-23 音声認識デ−タ作成方法

Country Status (1)

Country Link
JP (1) JPS59172699A (ja)

Also Published As

Publication number Publication date
JPS59172699A (ja) 1984-09-29

Similar Documents

Publication Publication Date Title
JPH0441356B2 (ja)
US20100332222A1 (en) Intelligent classification method of vocal signal
CN106571150B (zh) 一种识别音乐中的人声的方法和系统
Nwe et al. Detection of stress and emotion in speech using traditional and FFT based log energy features
Eringis et al. Improving speech recognition rate through analysis parameters
JP2007316330A (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
JPH0441357B2 (ja)
Chen et al. Teager Mel and PLP fusion feature based speech emotion recognition
JPH0546560B2 (ja)
Saxena et al. Extricate Features Utilizing Mel Frequency Cepstral Coefficient in Automatic Speech Recognition System
JPH0546558B2 (ja)
JPH0552509B2 (ja)
Majidnezhad A HTK-based method for detecting vocal fold pathology
Chakraborty et al. An automatic speaker recognition system
JPH0552510B2 (ja)
Laleye et al. Automatic boundary detection based on entropy measures for text-independent syllable segmentation
Artimy et al. Automatic detection of acoustic sub-word boundaries for single digit recognition
Naing et al. Comparison of Three Auditory Frequency Scales in Feature Extraction on Myanmar Digits Recognition
JPH0546559B2 (ja)
JPH0552511B2 (ja)
JPH0552515B2 (ja)
JPH0552512B2 (ja)
Garg et al. Minimal Feature Analysis for Isolated Digit Recognition for varying encoding rates in noisy environments
Doddappagol et al. User authentication using text-prompted technique