JPH045398B2 - - Google Patents

Info

Publication number
JPH045398B2
JPH045398B2 JP59021056A JP2105684A JPH045398B2 JP H045398 B2 JPH045398 B2 JP H045398B2 JP 59021056 A JP59021056 A JP 59021056A JP 2105684 A JP2105684 A JP 2105684A JP H045398 B2 JPH045398 B2 JP H045398B2
Authority
JP
Japan
Prior art keywords
vowel
word
syllable
pattern
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59021056A
Other languages
English (en)
Other versions
JPS60164799A (ja
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed filed Critical
Priority to JP59021056A priority Critical patent/JPS60164799A/ja
Publication of JPS60164799A publication Critical patent/JPS60164799A/ja
Publication of JPH045398B2 publication Critical patent/JPH045398B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、音節を予め登録しておき、連続発声
して入力された単語または文節を、単語辞書を用
いて認識する音声認識装置に関する。
従来例の構成とその問題点 人間にとつて最も自然な情報発生手段である音
声が、人間−機械系の入力手段として使用できれ
ば、その効果は非常に大きい。
従来、音声認識装置としては特定話者登録方式
によるものが実用化されている。即ち、認識装置
を使用しようとする話者が、予め、認識すべきす
べての単語を自分の声で特徴ベクトルの系列に変
換し単語辞書に標準パターンとして登録してお
き、認識時に発声された音声を、同様に特徴ベク
トルの系列に変換し、前記単語辞書中のどの単語
に最も近いかを予め定められた規則によつて計算
し、最も類似している単語を認識結果とするもの
である。
ところが、この方法によると、認識単語数が少
いときは良いが、数百、数千単語といつたように
増加してくると、主として次の三つの問題が無視
し得なくなる。
(1) 登録時における話者の負担が著しく増大す
る。
(2) 認識時に発声された音声と標準パターンとの
類似度あるいは距離を計算するのに要する時間
が著しく増大し、認識装置の応答速度が遅くな
る。
(3) 前記単語辞書のために要するメモリが非常に
大きくなる。
以上の欠点を回避するための方法として認識の
単位を子音+母音および母音の単音節(以後それ
ぞれCV、Vで表す。Cは子音、Vは母音を意味
する。)とする方法がある。即ち、標準パターン
として単音節を特徴ベクトルの系列として登録し
ておき、認識時に特徴ベクトルの系列に変換され
た入力音声を、前記単音節の標準パターンとマツ
チングすることにより、単音節の系列に変換する
ものである。日本語の場合、単音節はたかだか
101種類であり、単音節は仮名文字に対応してい
るから、この方法によれば、日本語の任意の単語
あるいは文章を単音節列に変換する(認識する)
ことができ、前記(1)〜(3)の問題はすべて解決され
ることになる。しかし、この場合の問題として調
音結合とセグメンテーシヨンがある。調音結合
は、音節を連続して発声すると各音節は前後の音
節の影響を受け、スペクトル構造が前後に接続さ
れる音節によつて変化する現象である。セグメン
テーシヨンは、連続して発声された音声を単音節
単位に区切ることであるが、これを確実に行う決
定的な方法は未だ見出されていない。この2つの
問題を解決するために、現在のところ各単音節を
区切つて、発声することが行われており、実用化
されている装置もある。
しかし、単音節を離散的に発声するのは不自然
であり、話者に緊張を強いるものである。
発明の目的 本発明は、認識されるべき単語または文節に対
し、それらの数が多い場合でも小形低価格かつ標
準パターンの登録操作が簡単であつて、認識精度
および処理速度の向上が可能な音声認識装置を実
現することを目的とする。
発明の構成 本発明はV、CV、VV、VCV等の音節を予め
登録しておき、これらを連続発声して入力された
単語または文節を、単語辞書を用いて、これら音
節列として認識するものであつて、その構成は、
入力音声信号を特徴ベクトルの系列に変換する特
徴抽出手段と、特徴ベクトルの系列中のスペクト
ルの変化の少ない定常部分の母音認識を行い母音
定常点を抽出する母音定常点検出手段と、これら
母音定常点の種々の組合せに関して選ばれた入力
パターンの部分パターンと、先行母音、後続母音
が前記選ばれた入力パターンの部分パターンの開
始、終了フレームにそれぞれ等しい母音である
VCV(Vは母音、Cは子音)、後続母音が前記選
ばれた入力パターンの部分パターンの終了フレー
ムに等しい母音であるCV、V等のそれぞれの音
節に対応する標準パターンとのマツチングを行つ
て距離(または類似度)を計算するための音節マ
ツチング手段と、認識されるべき各単語または文
節がそれぞれ音節記号列で記憶されている単語辞
書と、この単語辞書によつて指定される音節名の
系列に対応するように前記入力パターンの部分パ
ターンを重複区間がなく連続するように最適に定
めることにより、その各部分パターンとその部分
パターンの前記音節名に対し、前記音節マツチン
グ手段により得られている距離(または類似度)
の総和を最小(または最大)となし、得られる最
小値(または最大値)を各単語または文節に対す
る入力パターンの距離(または類似度)として出
力する単語マツチング手段と、この単語マツチン
グ手段によつて各単語または文節に対して計算さ
れる距離(または類似度)が最小(または最大)
となる単語または文節を判定して認識結果として
出力する判定手段とから構成される。
実施例の説明 以後、「単語」という言葉は「文節」という言
葉も代表するものとする。また、「類似度」は
「距離」で代表して説明する。即ち、距離が小さ
いとは類似度が大きいということである。
第1図は本発明の実施例である。1は音声信号
入力端子、2は特徴抽出手段としての特徴抽出部
であつて、例えば20チヤネルのフイルタバンクを
用い、1フレームを10msecとすれば、その出力
には10msec毎に20個の数値(特徴ベクトル)が
得られる。即ち入力音声信号は特徴ベクトルの系
列A=a1a2…aIに変換される。aiは第iフレーム
で得られる特徴ベクトル、Iは入力音声のフレー
ム数である。3は電力計算部であつて、第iフレ
ームの電力をPiとすれば、フレーム毎にPii1 2
+ai2 2+…+ai2が計算される。ここに、ai=(ai1
ai2、…、ai〓)である。4は音声区間検出部であ
つて、このPiの変化パターンから入力音声信号の
始終端を検出する。即ち、無音、有音を判別する
閾値を定め、この閾値以上の区間が予め定めた一
定期間以上続いたとき、この閾値を越えた時点を
音声の開始時点とし、この閾値以下の期間が予め
定めたある一定期間以上続いたとき、この閾値以
下となつた時点を無音の終端とする等の方法が可
能である。5は母音標準パターン記憶部であつ
て、各母音の定常部のスペクトルを予め記憶して
おくものである。6はバツフアメモリで、入力音
声信号を音声区間検出部4によつて検出される始
端から終端まで一時的に記憶するものである。7
は定常点検出部で、バツフアメモリ6の内容を読
み出し、定常点を検出するものである。定常点の
検出は、例えば、各フレームに対して前後数フレ
ームのスペクトルの分散を計算し、これが最小と
なるフレームとして検出できる。即ち、第1フレ
ームにおけるこの分散をσi 2とすると入力パター
ンA=a1a2…ai…aI、ai=(ai1、ai2、…、ai〓)に
対し、 σi 2=〓 〓i=1 i+Nk=i=N (aiki2 i=1/2N+1i+Nk=i=N aik として与えられる。8は母音パターン比較部であ
つて、定常点検出部7で前記の如く検出された定
常点(フレーム)を母音中心フレームと見做して
母音認識を行う。即ち、前記定常点の特徴ベクト
ルと前記母音標準パターン記憶部5の各母音に対
応する特徴ベクトルとの距離を計算するものであ
る。9は母音判定部であつて、前記母音パターン
比較部8の出力のうち、最小値を与える前記母音
を前記定常フレームの母音認識結果とするもので
ある。以上で母音認識を行い母音定常点を求める
母音定常点検出手段を構成している。10は母
音・促音判定結果記憶部であつて、母音判定部9
で得られた母音系列、音声区間検出部4で検出さ
れた無音区間から促音と判定される部分を記憶す
るものである。促音の検出は、前記定義に基づく
無音期間の時間長によつて判定される。例えば、
この期間が100msec〜250msecを促音とする等で
ある。11は音節標準パターン記憶部であつて、
V、CV、VV、VCV等の音節に対する特徴ベク
トルの系列を、CVについては語頭から母音定常
部までVについては語頭から定常部までのものV
と、定常部から語尾までのものV′、VV、VCV
については先行母音の定常部から後続母音の定常
部まで標準パターンとして予め話者が発声し登録
しておく。音節標準パターン記憶部11とともに
音節マツチング手段を構成し、定常点検出部7で
検出された第m定常点と第p定常点(p>m)の
m、pに関する種々の組合せに対し、第m定常点
からP定常点までの対応する入力パターンをバツ
フアメモリ6から読み出した入力パターンの部分
パターンA(m、p)と、定常点m、pのそれぞ
れの母音認識結果を母音・促音判定結果記憶部1
0から読み出し、定常点mに対して認識された母
音を先行母音、定常点pに対して認識された母音
を後続母音とする前記音節標準パターン記憶部1
1に記憶されている各音節標準パターンとのマツ
チングを行うものである。マツチングは周知の
DPマツチングで行うことが可能である。即ち、
入力パターンの第m定常点の母音をv(m)、先行
母音がx、後続母音がy、子音がcの標準パター
ンをB(x、c、y)(x=0、c≠0はCV音節
に、x=c=0は無音直後のV音節に、c=y=
0は無音直前のV音節に(V′で表す)、c=0は
VV音節に対応するものとする)で表わすとき、
前記部分パターンA(m、p)と標準パターンBn
=B(v(m)、c、v(p))との距離gn(R、Sn
は次の漸化式を解くことによつて求まる。nは先
行母音v(m)、後続母音v(p)、子音cの標準パ
ターンの音節番号である。
gn(r、s)=mingn(r−2、s−1)+dn
r−1、s)+dn(r、s) gn(r−1、s−1)+dn(r、s) gn(r−1、s−2)+dn(r、s) 初期値gn(1、1)=dn(1、1) ここで、rは部分パターンA(m、p)の開始
フレームを1として数えた部分パターンA(m、
p)のフレーム番号、sは標準パターンBnの開
始フレームから数えたフレーム番号、Rは部分パ
ターンA(m、p)のフレーム数、Snは標準パタ
ーンBnのフレーム数、dn(r、s)は部分パター
ンA(m、p)の第rフレームと標準パターンBn
の第sフレームとの距離であつて、ユークリツド
距離、市街地距離等周知のものが用いられる。部
分パターンA(m、p)と標準パターンBnの距離
は従つてgn(R、Sn)となる。これをDn(m:p)
と置く。即ち、Dn(m:p)は、入力パターンの
第m番の定常点から第p番の定常点までの部分パ
ターンA(m、p)と、先行母音が入力パターン
の第m番の定常点の母音認識結果v(m)で、後
続母音が入力パターンの第p番の定常点の母音認
識結果v(p)で、両者に挾まれる子音がcであ
るVCV音節標準パターンとの距離である。13
は距離記憶部であつて、音節パターン比較部12
で、m、p、cの種々の組合せに対して得られた
距離Dn(m:p)のそれぞれを記憶する。14は
単語辞書であつて、認識すべき単語がそれぞれ音
節記号列の形で記憶されている。15は単語間距
離計算部であつて、距離記憶部13、単語辞書1
4とともに単語マツチング手段を構成し、単語辞
書14の各単語に対し、前記距離記憶部13を参
照して、その単語によつて指定される音節列に対
応するように前記入力パターンの部分パターンを
重複区間がなく連続するように最適に定めること
により、その各部分パターンとその部分パターン
の前記音節名に対し、前記距離記憶部13に記憶
されている距離の総和を最小となし、得られる最
小値を各単語に対する入力パターンの距離として
算出する。すなわち、単語辞書14内の単語と最
終的なマツチングを行う段階で入力パターンの最
適性を求めている。この計算は動的計画法により
容易に実行することができる。以下にその詳細を
述べる。
第l番の単語をWlとし、単語Wlを構成する音
節数がXlであるとする。また、促音も一つの音節
とする。例えば「オオサカ」という単語は|o|
|oo||osa||aka|のように4つの音節から
成るからXl=4であり、「サツポロ」という単語
は|sa||・||po||oro|のようになるから
Xl=4である(|・|は促音を意味する)。いま、
入力パターンを単語Wlとマツチングする場合を
考える。単語Wlによつて指定される音節名の第
x番までの系列に対応するように部分パターンA
(m、p)を入力パターンの第k定常点まで重複
区間がなく連続するように最適に定めることによ
り、その各部分パターンとその部分パターンの前
記音節名に対し、前記距離記憶部13に記憶され
ている距離の総和を最小となしたときの最小値を
Dl x(k)とすれば、動的計画法の原理により次式が
成立する。
Dl x(k)=min m〔Dl x-1(m)+Dn(m:k)〕 ……(1) ただし、1xk、x=1のときm=O、x
≠1のときx−1mk−1、Dl p(o)=Oで
ある。また、nは単語Wlの第x音節を表す番号
であつて、単語Wlの第x番の音節の先行母音をvf
(l、x)、後続母音をvr(l、x)とするとき、
v(m)≠vf(l、x)、v(k)≠vr(l、x)、前記
第x番の音節が促音であつて、入力音声の第m、
第k定常点の間に促音がない、前記第x番の音節
が促音でなく、入力音声の第m、第k定常の間に
促音がある、の何れかが成立するときはDn(m:
k)=∽であるとする。また、前記第x番の音節
が促音であつて、入力音声の第m、第k定常点の
間にも促音が検出されるときは、Dn(m:k)は
この促音の直後から第k定常点までの入力パター
ンと、第n音節標準パターンとの距離と、第m定
常点から促音までの入力パターンと母音V
(m)′との距離の和であり、第n音節がVCVま
たはVVまたはV′のときはDn(m:k)=∽であ
る。また、入力パターンの母音定常部として検出
された箇所の総数をKとするとき、入力パターン
の最終フレームを第K+1の定常点とみなして
Dn(m:K+1)=Du(m)′(m:k+1)とする。第
2図は単語間距離計算部15の詳細を示す図であ
る。破線内部が単語間距離計算部15であつて、
第1図と番号を同じくするブロツクは第1図のも
のと同じである。150はlカウンタであつて、
l=1、2、…、Lを出力し、単語辞書14に対
し、単語Wlを指定するもので、認識動作を始め
る前にリセツトされる。152はxカウンタであ
つて、x=1、2、…、Xlを出力し、単語Wl
構成する音節系列の音節を指定する。151はk
カウンタであつて、k=1、2、…、K+1を出
力し、入力パターンの第k定常点を指示するもの
である。153はmカウンタであつて、m=x−
1、…、k−1を出力し、入力パターンの第m定
常点を指示するものである。150〜153のカ
ウンタは認識動作を始める前にリセツトされ、l
=1、k=1、x=1、m=0から計数を開始す
る。mカウンタ153はk−1まで計数するとキ
ヤリー信号を出力し、xカウンタ152は1つカ
ウントアツプする。x>kのときはm=k−1を
保つたままキヤリー信号を出力する。xカウンタ
152は、Xlまで計数するとキヤリー信号を出
し、kカウンタ151は1つカウントアツプす
る。Kは入力パターンの定常点の総数であつて、
定常点検出部7から読み出され、kカウンタ15
1はK+1までカウントアツプするとキヤリー信
号を出し、lカウンタ150は1つカウントアツ
プする。
lカウンタ150の出力lによつて指定された
単語Wlのxカウンタ152の出力xによつて指
定された音節nが単語辞書14から出力される。
母音促音判定結果記憶部10からは、kカウンタ
151の出力kと、mカウンタ153の出力mに
よつて指定される定常点に対応する母音v(m)、
v(k)が読み出される。距離記憶部13ではvf(l、
x)=v(m)、vr(l、x)=v(k)の何れもが成立
するかどうかを確かめこれが成立するときは、音
節nの標準パターンと入力パターンの部分パター
ンA(m、k)との距離Dn(m:k)が既に計算
され記憶されているはずであるから、距離記憶部
13からこのDn(m:k)が読み出される。vf
(l、x)=v(m)、vr(l、x)=v(k)の何れか

方が成立しないときは、Dn(m:k)=∽が距離
記憶部13から出力される。154は累積距離記
憶部であつて、漸化式(1)において既に計算済の累
算距離Dl x′(m′)を記憶している。156は漸化
式計算部であつて、累積距離記憶部154から読
み出したDl x-1(m)と距離記憶部13から読み出
したDn(m:k)からDlx-1(m)+Dn(m:k)を
計算し、mについての最小値Dl x(k)を算出するも
のである。各k、lについて計算されたDl x(k)は
再び累積距離記憶部154に記憶される。以上の
動作がk=K+1、x=Xlまで行われると、単語
Wlと入力パターンとの距離はDl Xl(K+1)で与
えられることになる。即ち、Dl Xl(K+1)は単語
Wlによつて指定される音節列に対応するように、
入力パターンの部分パターンを重複区間がなく連
続するように、その各部分パターンとその部分パ
ターンの前記音節名に対し前記距離記憶部13に
記憶されている距離の総和を最小となすという意
味で最適化した結果得られた前記距離の総和の最
小値である。16は単語判定部であつて、l=
1、2、…、Lについて以上の処理を行つた結果
得られ、累積距離記憶部154に記憶されている
Dl Xl(K+1)を読み出し、Dl Xl(K+1)を最小に
するlを求め、これを1^とするとき単語Wlを入力
パターンに対する認識結果とするものである。
第3図は単語判定部16の詳細を説明する図で
ある。lカウンタ150がカウントアツプし、単
語辞書14の全ての単語との照合が完了すると、
端子164を通じてlカウンタ163はリセツト
され、計数を始め、累積距離記憶部154から
Dl Xl(k)を読み出す。160は比較部であつて、累
積距離記憶部154から読み出された入力音声の
単語Wlに対する累積距離Dl Xl(K+1)と比較し、
小さい方の値をバツフアメモリ161に記憶す
る。もし、Dl Xl(K+1)<DlXl′(K+1)であれ
ば、そのときのlカウンタ163の計数値が単語
番号記憶部162に記憶される。このようにし
て、単語番号記憶部162には、lカウンタ16
3の計数値をlとするとき、l=1〜lにおい
て、Dl Xl(K+1)を最小にするlの値が記憶され
ることになる。l=Lとなると、lカウンタ16
3はキヤリーを出力し、単語番号記憶部162の
内容を読み出し、出力端子17には認識された単
語に対応する単語の番号が出力される。
発明の効果 本発明によれば、単音節を連続して発声した場
合でも、定常点を抽出し、母音と見做して母音認
識を行い、入力部分パターンとV、CV、VCV、
VV等の音節標準パターンとマツチングするとと
もに、単語辞書内の単語とマツチングするように
したので、比較照合すべき単語と音節標準パター
ンを限定することができ、認識率、照合速度にお
いて大幅な改善が得られる。
【図面の簡単な説明】
第1図は本発明の一実施例の構成を示すブロツ
ク図、第2図、第3図は前記実施例の要部の構成
の詳細を説明するブロツク図である。 1……音声信号入力端子、2……特徴抽出部、
3……電力計算部、4……音声区間検出部、5…
…母音標準パターン記憶部、6……バツフアメモ
リ、7……定常点検出部、8……母音パターン比
較部、9……母音判定部、10……母音・促音判
定結果記憶部、11……音節標準パターン記憶
部、12……音節パターン比較部、13……距離
記憶部、14……単語辞書、15……単語間距離
計算部、16……単語判定部、17……認識結果
出力端子。

Claims (1)

    【特許請求の範囲】
  1. 1 入力音声信号を特徴ベクトルの系列に変換す
    る特徴抽出手段と、前記特徴ベクトルの系列中の
    スペクトルの変化の少ない定常部分の母音認識を
    行ない母音定常点を抽出する母音定常点検出手段
    と、これら母音定常点の種々の組合せに関して選
    ばれた入力パターンの部分パターンと、先行母
    音、後続母音が前記選ばれた入力パターンの部分
    パターンの開始、終了フレームにそれぞれ等しい
    母音であるVCV(Vは母音、Cは子音)、後続母
    音が前記選ばれた入力パターンの部分パターンの
    終了フレームに等しい母音であるCV、V等のそ
    れぞれの音節に対応する標準パターンとのマツチ
    ングを行つて距離(または類似度)を計算するた
    めの音節マツチング手段と、認識すべき単語また
    は文節がそれぞれ音節記号列で記憶されている単
    語辞書と、前記単語辞書によつて指定される音節
    名の系列に対応するように前記入力パターンの部
    分パターンを重複区間がなく連続するように最適
    に定めることにより、その各部分パターンの前記
    音節名に対し、前記音節マツチング手段により得
    られている距離(または類似度)の緩和を最小
    (または最大)となし、得られる最小値(または
    最大値)を各単語または文節に対する入力パター
    ンの距離(または類似度)として出力する単語マ
    ツチング手段と、この単語マツチング手段によつ
    て各単語または文節に対して計算される距離(ま
    たは類似度)が最小(または最大)となる単語ま
    たは文節を判定しで認識結果として出力する判定
    手段とを備えたことを特徴とする音声認識装置。
JP59021056A 1984-02-07 1984-02-07 音声認識装置 Granted JPS60164799A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59021056A JPS60164799A (ja) 1984-02-07 1984-02-07 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59021056A JPS60164799A (ja) 1984-02-07 1984-02-07 音声認識装置

Publications (2)

Publication Number Publication Date
JPS60164799A JPS60164799A (ja) 1985-08-27
JPH045398B2 true JPH045398B2 (ja) 1992-01-31

Family

ID=12044246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59021056A Granted JPS60164799A (ja) 1984-02-07 1984-02-07 音声認識装置

Country Status (1)

Country Link
JP (1) JPS60164799A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4918402A (ja) * 1972-06-09 1974-02-18
JPS5610700B2 (ja) * 1975-10-20 1981-03-10

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5610700U (ja) * 1979-07-04 1981-01-29

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4918402A (ja) * 1972-06-09 1974-02-18
JPS5610700B2 (ja) * 1975-10-20 1981-03-10

Also Published As

Publication number Publication date
JPS60164799A (ja) 1985-08-27

Similar Documents

Publication Publication Date Title
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
JPH045398B2 (ja)
JPS60164800A (ja) 音声認識装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JPH067359B2 (ja) 音声認識装置
JP3299170B2 (ja) 音声登録認識装置
JPS60182499A (ja) 音声認識装置
JPS6180298A (ja) 音声認識装置
JPS6312000A (ja) 音声認識装置
JPS6148897A (ja) 音声認識装置
JPH0827640B2 (ja) 音声認識装置
JPH0552516B2 (ja)
JPH0566596B2 (ja)
JPH0585918B2 (ja)
JPS6335996B2 (ja)
JPH0646357B2 (ja) 連続音声認識装置
JPH0638198B2 (ja) 連続音声認識装置
JPS62219000A (ja) 単語音声認識装置
JPH09198078A (ja) 音声認識装置
JPS60147797A (ja) 音声認識装置
JPH10333692A (ja) 音韻テーブルと音声認識方法及び音声認識プログラムを格納した記録媒体
JPS607492A (ja) 単音節音声認識方式
JPS6155680B2 (ja)
JPS62218997A (ja) 単語音声認識装置
JPH0534680B2 (ja)

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term