JPS60164799A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS60164799A
JPS60164799A JP59021056A JP2105684A JPS60164799A JP S60164799 A JPS60164799 A JP S60164799A JP 59021056 A JP59021056 A JP 59021056A JP 2105684 A JP2105684 A JP 2105684A JP S60164799 A JPS60164799 A JP S60164799A
Authority
JP
Japan
Prior art keywords
word
vowel
syllable
distance
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59021056A
Other languages
English (en)
Other versions
JPH045398B2 (ja
Inventor
英一 坪香
樺澤 哲
三船 義照
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP59021056A priority Critical patent/JPS60164799A/ja
Publication of JPS60164799A publication Critical patent/JPS60164799A/ja
Publication of JPH045398B2 publication Critical patent/JPH045398B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、音節を予め登録しておき、連続発声して入力
された単語または文節を、単語辞書を用いて認識する音
声認識装置に関する。
従来例の構成とその問題点 人間にとって最も自然な情報発生手段である音声が、人
間−機械系の大刀手段として使用できれば、その効果は
非常に大きい。
従来、音声認識装置としては特定話者登録方式によるも
のが実用化されている。即ち、認識装置を使用しようと
する話者が、予め、認識すべきすべての単語を自分の声
で特徴ベクトルの系列に変換し単語辞書に標準パターン
として登録しておき、認識時に発声された音声を、同様
に特徴ベクトルの系列に変換し、前記単語辞書中のどの
単語に最も近いかを予め定められた規則によって計算し
、最も類似している単語を認識結果とするものである。
ところが、この方法によると、認識単語数が少いときは
良いが、数百、数千単語といったように増加してくると
、主として次の三つの問題が無視し得なくなる。
(1)登録時における話者の負担が著しく増大する。
(2)認識時に発声された音声と標準パターンとの類似
度あるいは距離を計算するのに要する時間が著しく増大
し、認識装置の応答速度が遅くなる。
(3)前記単語辞書のために要するメモリが非常に大き
くなる。
以上の欠点を回避するだめの方法として認識の単位を子
音+母音および母音の単音節(以後それぞれCV、Vで
表す。Cは子音、■は母音を意味する。)とする方法が
ある。即ち、標準パターンとして単音節を特徴ベクトル
の系列として登録しておき、認識時に特徴ベクトルの系
列に変換された入力音声を、前記単音節の標準パターン
とマツチングすることにより、単音節の系列に変換する
ものである。日本語の場合、単音節はたかだか101種
類であり、単音節は仮名文字に対応しているから、との
方法によれば、日本語の任意の単語あるいは文章を単音
節列に変換する(認識する)ことができ、前記0)〜(
3)の問題はすべて解決されることになる。しかし、こ
の場合の問題として調音結合とセグメンテーションがあ
る。調音結合は、音節を連続して発声すると各音節は前
後の音節の影響を受け、スペクトル構造が前後に接続さ
れる音節によって変化する現象である。セグメンテーシ
ョンは、連続して発声された音声を単音節単位に区切る
ことであるが、これを確実に行う決定的な方法は未だ見
出されていない。この2つの問題を解決するために、現
在のところ各単音節を区切って、発声することが行われ
ておシ、実用化されている装置もある。
しかし、単音節を離散的に発声するのは不自然であり、
話者に緊張を強いるものである。
発明の目的 本発明は、認識されるべき単語または文節に対し、それ
らの数が多い場合でも小形低価格かつ標準パターンの登
録操作が簡単であって、認識精度および処理速度の向上
が可能な音声認識装置を実現することを目的とする。
発明の構成 本発明はV 、CV 、VV 、VCV等’v 音節t
’ 予め登録しておき、これらを連続発声して入力され
た単語または文節を、単語辞書を用いて、これら音節列
として認識するものであって、その構成は、入力音声信
号を特徴ベクトルの系列に変換する特6 、s 。
徴抽出手段と、前記入力音声信号の定常点を抽出する定
常点抽出手段と、抽出されたそれぞれの定常点を母音と
見做して母音認識を行う手段と、とれら母音定常点の種
々の組合せに関して選ばれた入カバターンの部分パター
ンと、先行母音、後続母音が前記選ばれた入カバターン
の部分パターンの開始、終了フレームにそれぞれ等しい
母音であるV、CV、VV、VCV(Vは母音、Cは子
音)等のそれぞれの音節に対応する標準パターンとのマ
ツチングを行って距!(または類似度)を計算するだめ
の音節マツチング手段と、認識されるべき各単語または
文節に対して、それらによって指δ 定される音節各の系列に対応するように前記入カバター
ンの部分パターンを重複区間がなく連続スるように最適
に定めることにより、その各部分パターンとその部分パ
ターンの前記音節基に対し、前記音節マツチング手段に
より得られている距離(または類似度)の総和を最小(
またけ最大)となし、得られる最小値(または最大値)
を各単語まだは文節に対する入カバターンの距離(また
は7 ・ 類似度)として出力する単語マツチング手段と、この単
語マツチング手段によって各単語または文節に対して計
算される距離(または類似度)が最小(または最大)と
なる単語または文節を判定して認識結果として出力する
判定手段とから構成される。
実施例の説明 以後、「単語」という言葉は「文節」という言葉も代表
するものとする。また、「類似度」は「距離」で代表し
て説明する。即ち、距離が小さいとは類似度が太きいと
いうことである゛。
第1図は本発明の実施例である。1は音声信号入力端子
、2は特徴抽出部であって、例えば20チヤネルのフィ
ルタバンクを用い、1フレームを10m8eCとすれば
、その出力には1omsec毎に20個の数値(特徴ベ
クトル)が得られる。即ち入力音声信号は特徴ベクトル
の系列A 7 a 1 a2・・・・・・alに変換さ
れる。aiは第iフレームで得られる特徴ベクトル、■
は入力音声のフレーム数である。3は電力計算部であっ
て、第iフレームの電力をPi とすれば、フレーム毎
に こに、at= (at1+ ai2+・・・・・・r 
”i、)である。4は音声区間検出部であって、このP
i の変化パターンから入力音声信号の始終端を検出す
る。即ち、無音、有音を判別する閾値を定め、この閾値
以上の区間が予め定めた一定期間以上続いたとき、この
閾値を越えた時点を音声の開始時点とし、この閾値以下
の期間が予め定めたある一定期間以上続いたとき、この
閾値以下となった時点を音声の終端とする等の方法が可
能である。5は母音標準パターン記憶部であって、各母
音の定常部のスペクトルを予め記憶しておくものである
。6はバッファメモリで、入力音声信号を音声区間検出
部4によって検出される始端から終端まで一時的に記憶
するものである。7は定常点検出部で、バッファメモリ
6の内容を読み出し、定常点を検出するものである。定
常点の検出は、例えば、各フレームに対して前後数フレ
ームのスペクトルの分散を計算し、これが最小となるフ
レームとして検出できる。即ち、第iフレームにおける
この分散をaiとすると入カバターンA−aI a2・
・・・・・a、・・・・・・aI。
a 1−(al 1+ al2 ’・・・・・・、a、
ッ)に対し、として与えられる。8は母音パターン比較
部であって、定常点検出部7で前記の如く検出された定
常点(フレーム)を母音中心フレームと見做して母音認
識を行う。即ち、前記定常点の特徴ベクトルと前記母音
標準パターン記憶部6の各母音に対応する特徴ベクトル
との距離を計算するものである。9は母音判定部であっ
て、前記母音パターン比較部8の出力のうち、最小値を
与える前記母音を前記定常フレームの母音認識結果とす
るものである。1oは母音・促音判定結果記憶部であっ
て、9°)音判定部9で得られた母音系列、音声区間検
出10 、 。
部4で検出された無音区間から促音と判定される部分を
記憶するものである。促音の検出は、前記宇義に基づく
無音期間の時間長によって判定される。例えば、この期
間が100 m5ec〜250m5ecを促音とする等
である。11は音節標準ノくターン記憶部であッテ、V
 、 CV 、 VV 、 VCV 等の音節に対する
特徴ベクトルの系列をV、CVについては語頭から母音
定常部まで、VV、VCVについては先行母音の定常部
から後続母音の定常部まで標準パターンとして予め話者
が発声し登録しておく。12は音節パターン比較部であ
って、定常点検出部7で検出された第m定常点と第p定
常点(p>m)のm 、 pに関する種々の組合せに対
し、第m定常点からp定常点までの対応する入カバター
ンをバッファメモリ6から読み出した入カバターンの部
分パターンA(mt p )と、定常点m 、 pのそ
れぞれの母音認識結果を母音・促音判定結果記憶部10
から読み出し、定常点mに対して認識された母音を先行
母音、定常点pに対して認識された母音を後続母音とす
る前記音節標準パターン記憶部11に記憶されている各
音節標準パターンとのマツチングを行うものである。マ
ツチングは周知のDPマツチングで行うことが可能であ
る。即ち、入カバターンの第m定常点の母音をv(m)
、先行母音がX、後続母音がy、子音がCの標準パター
ンをB(X、c、y)(x=o。
C\0はCV音節に、X=C=OはV音節にX\0゜C
=OはVV音節に対応するものとする)で表わすとき、
前記部分パターンA(mt p )と標準パターyB”
=B(v(m)、c、v(p))との距離cr”(R,
S”)は次の漸化式を解くことによってまる。nは先行
母音v(m) 、後続母音 (p)+子音Cの標準バ初
期値g”(1,1)−d”(1,1)ここで、rは部分
パターンA(m、p)の開始フレームを1として数えた
部分パターンA(m、p)のフレーム番号、Sは標準パ
ターンBnの開始フレームから数えたフレーム番号、R
は部分・ぐターンA(m、p)のフレーム数 3nは標
準・くターンBn のフレーム数、 d”(r 、 s
 )は部分ノくターンA(m、p)の第rフレームと標
準・ぐターンBnの第Bフレームとの距離であって、ユ
ークリッド距離、市街地距離等周知のものが用いられる
。部分パターンA(m、p)と標準・々ターン枦の距離
は従ッテqn(R9Sr″)となる。これをD”(m:
p)と置く。即ち、D”(m:p)は、入カバターンの
第m番の定常点から第p番の定常点までの部分ノくター
ンA(m、p)と、先行母音が入カッでターンの第m番
の定常点の母音認識結果v (m)で、後続母音が入カ
バターンの第p番の定常点の母音認識結果v(p)で、
両者に挾まれる子音がCであるVCV音節標準パターン
との距離である。13は距離記憶部であって、音節パタ
ーン比較部12で、m 、 p 、 cの種々の組合せ
に対して得られた距離D”(m:p)のそれぞれを記憶
する。14は単語辞書であって、認識すべき単語がそれ
ぞれ音節記%列。形ア記憶され、い、。、6は単語間距
離計′721 3 算部であって、単語辞書14の各単語に対し、前記距離
記憶部13を参照して、その単語によって指定される音
節列に対応するように前記入カバターンの部分パターン
を重複区間がなく連続するように最適に定めることによ
シ、その各部分パターンとその部分パターンの前記音節
名に対し、前記距離記憶部13に記憶されている距離の
総和を最小となし、得られる最小値を各単語に対する入
カバターンの距離として算出する。この計算は動的計画
法により容易に実行することができる。以下にその詳細
を述べる。
第り番の単語をW” とし、単語W”を構成する音節数
がXユであるとする。また、促音も一つの音節とする。
例えば「オオサカ」という単語は1ol 1ool 1
osal 1akalのように4つの文節から成るから
x2=4であり、「サラポロ」という単語は1sal 
l・l 1pol 1orolのようになるからx2−
4である(1・1は無音を意味する)。
いま、入カバターンを単語が とマツチングする場合r
l考える。単語WQ によって指定される音節名の14
7゜−1 第1番までの系列に対応するように部分パターンA(m
、p)を入カバターンの第に定常点まで重複区間がなく
連続するように最適に定めることにより、その各部分パ
ターンとその部分パターンの前記音節名に対し、前記距
離記憶部13に記憶されている距離の総和を最小となし
たときの最小値をD巴(k)とすれば、動的計画法の原
理により次式が成立する。
D4(k)=min(Df4−1(m)+D”(m:k
)] ・・・町−(1)ただし、1くx(:に、x=1
のときm=o、x\1のときx−1くmくに−1,D只
(o)−〇である。まだ、怪は単語WQの第X音節を表
す番号であって、単語−の第1番の音節の先行母音をv
f(Q 、 り。
後続母音をvr(fi、x) とするとき、v(m)\
Vf(Q 、 ! )T V (k)\vr (n r
 x ) +前記第X番の音節が促音であって、入力音
声の第m、第に定常点の間に促音がない、前記第1番の
音節が促音で々く、入力音声の第m、第に定常の間に促
音がある、の何れかが成立するときはD”(m:k)=
〜であるとする。また、前記第1番の音節が促音であ1
5 。
って、入力音声の第m、第に定常点の間にも促音が検出
されるときは、D”(m : k )はこの促音の直後
から第に定常点までの入カバターンと、第n音節標準パ
ターンとの距離であり、第n音節がVCVまたはvvの
ときはD”(m:k)−〜である。
第2図は単語間距離計算部15の詳細を示す図である。
破線内部が単語間距離計算部15であって、第1図と番
号を同じくするブロックは第1図のものと同じである。
160は2カウンタであって、R−1,2,・・・・・
・、Lを出力し、単語辞書14に対し、単語W” を指
定するもので、認識動作を始める前にリセットされる。
152はXカウンタであって、x=1.2.・・・・・
・、X℃ を出力し、単語W”を構成する音節系列の音
節を指定する。151はにカウンタであって、k=1.
2.・・・・・・、Kを出力し、入カバターンの第に定
常点を指示するものである。153はmカウンタであっ
て、m=x−1゜・・・・・・、に−1を出力し、入カ
バターンの第m定常点を指示するものである。150〜
153のカウンタは認識動作を始める前にリセットされ
、1−1゜k=1 、x=1 、m=oから計数を開始
する。mカウンタ163はに−1まで計数するとキャリ
ー信号を出力し、Xカウンタ162は1つカウントアツ
プする。x > kのときはm = k−1を保ったま
まキャリー信号を出力する。Xカウンタ162は、X℃
 まで計数するとキャリー信号を出し、kカウンタ16
1は1つカウントアツプする。Kは入カバターンの定常
点の総数であって、定常点検出部7から読み出され、k
カウンタ161はkまでカウントアツプするとキャリー
信号を出し、aカウンタ150は1つカウントアツプす
る。
aカウンタ150の出力ρによって指定された単語Wf
lのXカウンタ152の出力xによっテ指定された音節
nが単語辞書14がら出力される。
母音促音判定結果記憶部10からは、kカウンタ151
の出力にと、mカウンタ153の出力mによって指定さ
れる定常点に対応する母音v(m)。
v(k)が読み出される。距離記憶部13ではv、(f
i、x)=v(m)、v、(42,x)=v(k)の何
れもが成立するかどうか確かめこれが成立するときは、
音節nの標準パターンと入カバターンの部分パター7A
 (m 、 k )との距離D”(m:k)が既に計算
され記憶されているはずであるから、距離記憶部13か
らこのDn(m:k)が読み出される。
v((!l、x)=v(m)、vr(fi、x)=v(
k)の何れか一方が成立しないときは、D”(m:k)
−〜が距離記憶部13から出力される。164は累積距
離記憶部であって、漸化式(1)において既に麩算済の
累積距離Dシ(m′)を記憶している。166は漸化式
、計算部であって、累積距離記憶部154から読み出し
たD÷−1(m)と距離記憶部13から読み出したD”
(m:k)からD4−1(m) +D” (m : k
 )を計算し、mについての最小値D4(k)を算出す
るものである。各に、Ilについて計算されたD4(k
)は再び累積距離記憶部154に記憶される。以上の動
作がk =K 、 x =Xp、 iで行われると、単
語W”ととになる。即ち、司ξ(K)は単語W”によっ
て指定される音節列に対応するように、入カバターンの
部分パターンを重複区間がなく連続するように、18 
・ その各部分パターンとその部分パターンの前記音節名に
対し前記距離記憶部13に記憶されている距離の総和を
最小となすという意味で最適化した結果得られた前記距
離の総和の最小値である。16は単語判定部であって、
R=1.2.・・・・・・、Lについて以上の処理を行
った結果得られ、累積距離とするものである。
第3図は単語判定部16の詳細を説明する図である。2
カウンタ150がカウントアツプし、単語辞書14の全
ての単語との照合が完了すると、端子164を通じてa
カウンタ163はリセットされ、計数を始め、累積距離
記憶部154から司醜(K)を読み出す。160は比較
部であって、累積距離記憶部154から読み出された入
力音声の単語W”に対する累積距離用ξ(K) トバッ
ツアメモリ161に蓄えられている累積距離I4,2.
(K)T六、比較し、小さい方の値をバ・フ・メモリ′
61に記憶する。もし、’fi、(K) < ”4.’
 (K)であれば、そのときのλカウンタ163の計数
値が単語番号記憶部162に記憶される。このようにし
て、単語番号記憶部162には、Uカウンタ163の計
数値を℃とするとき、fi−1〜℃において、司ξ(6
)を最小にする℃の値が記憶されることになる。
Q=Lとなると、℃カウンタ163はキャリーを出力し
、単語番号記憶部162の内容を読み出し、出力端子1
7には認識された単語に対応する単語の番号が出力され
る。
発明の効果 本発明によれば、単音節を連続して発声した場合でも、
定常点を抽出し、母音と見做して母音認識を行い、入力
部分パターンとV、CV、VCv。
vv等の音節標準パターンとマツチングするようにした
ので、比較照合すべき単語と音節標準ノ(ターンを限定
することができ、認識率、照合速度において大幅な改善
が得られる。
【図面の簡単な説明】
第1図は本発明の一実施例の構成を示すブロック図、第
2図、第3図は前記実施例の要部の構成の詳細を説明す
るブロック図である。 1・・・・・・音声信号入力端子、2・・・・・・特徴
抽出部、3・・・・・・電力計算部、4・・・・・・音
声区間検出部、6・・・・・・母音標準パターン記憶部
、6・・・・・・バッファメモリ、7・・・・・・定常
点検出部、8・・・・・・母音パターン比較部、9・・
・・・・母音判定部、1o・・・・・・母音・促音判定
結果記憶部、11・・・・・・音節標準パターン記憶部
12・・・・・・音節パターン比較部、13・・・・・
・距離記憶部、14・・・・・・単語辞書、15・・・
・・・単語間距離計算部、16・・・・・・単語判定部
、17・・・・・・認識結果出力端子。

Claims (1)

  1. 【特許請求の範囲】 入力音声信号を特徴ベクトルの系列に変換する特徴抽出
    手段と、前記入力音声信号の定常点を抽出する定常点抽
    出手段と、抽出されたそれぞれの定常点を母音と見做し
    て母音認識を行う手段と、これら母音定常点の種々の組
    合せに関して選ばれた入カバターンの部分パターンと、
    先行母音、後続母音が前記選ばれた入カバターンの部分
    パターンの開始、終了フレームにそれぞれ等しい母音で
    あるV 、CV 、VV、VCV(Vは母音、Cは子音
    )等のそれぞれの音節に対応する標準パターンとのマツ
    チングを行って距離(または類似度)を計算するだめの
    音節マツチング手段と、認識されるべき各単語または文
    節に対して、それらによって指定される音節名の系列に
    対応するように前記入カバターンの部分パターンを重複
    区間がなく連続するように最適に定めることにより、そ
    の各部2 ・〜・−シ 分パターンとその部分パターンの前記音節名に対し、前
    記音節マツチング手段により得られている距離(または
    類似度)の総和を最小(または最大)となし、得られる
    最小値(または最大値)を各単語または文節に対する入
    カバターンの距離(または類似度)として出力する単語
    マツチング手段と、この単語マツチング手段によって各
    単語または文節に対して計算される距離(または類似度
    )が最小(または最大)となる単語または文節を判定し
    て認識結果として出力する判定手段とを備えたことを特
    徴とする音声認識装置。
JP59021056A 1984-02-07 1984-02-07 音声認識装置 Granted JPS60164799A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59021056A JPS60164799A (ja) 1984-02-07 1984-02-07 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59021056A JPS60164799A (ja) 1984-02-07 1984-02-07 音声認識装置

Publications (2)

Publication Number Publication Date
JPS60164799A true JPS60164799A (ja) 1985-08-27
JPH045398B2 JPH045398B2 (ja) 1992-01-31

Family

ID=12044246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59021056A Granted JPS60164799A (ja) 1984-02-07 1984-02-07 音声認識装置

Country Status (1)

Country Link
JP (1) JPS60164799A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4918402A (ja) * 1972-06-09 1974-02-18
JPS5610700U (ja) * 1979-07-04 1981-01-29

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5250210A (en) * 1975-10-20 1977-04-22 Matsushita Electric Ind Co Ltd Magnetic recorder and reproducer

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4918402A (ja) * 1972-06-09 1974-02-18
JPS5610700U (ja) * 1979-07-04 1981-01-29

Also Published As

Publication number Publication date
JPH045398B2 (ja) 1992-01-31

Similar Documents

Publication Publication Date Title
JPS60164799A (ja) 音声認識装置
JPS60164800A (ja) 音声認識装置
JPS61137198A (ja) 音声認識装置
JPS58108590A (ja) 音声認識装置
JP3128251B2 (ja) 音声認識装置
JPS60150098A (ja) 音声認識装置
JPS60182499A (ja) 音声認識装置
Mary Two‐stage spoken term detection system for under‐resourced languages.
JPS6180298A (ja) 音声認識装置
JPS6148897A (ja) 音声認識装置
JP2760096B2 (ja) 音声認識方式
JPS6312000A (ja) 音声認識装置
JPS59173884A (ja) パタ−ン比較装置
JPS60249197A (ja) 音声認識装置
JPS6069694A (ja) 語頭子音のセグメンテ−ション法
JPH01260496A (ja) 単語認識装置
JPS60147797A (ja) 音声認識装置
JPS62219000A (ja) 単語音声認識装置
JPS63236094A (ja) 音声認識方法
JPS6155680B2 (ja)
JPS6225797A (ja) 音声認識装置
JPS5961893A (ja) 標準パタ−ン更新機能付音声入力装置
JPS6335996B2 (ja)
JPS62218997A (ja) 単語音声認識装置
JPH0585918B2 (ja)

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term