JPH0534680B2 - - Google Patents

Info

Publication number
JPH0534680B2
JPH0534680B2 JP58113091A JP11309183A JPH0534680B2 JP H0534680 B2 JPH0534680 B2 JP H0534680B2 JP 58113091 A JP58113091 A JP 58113091A JP 11309183 A JP11309183 A JP 11309183A JP H0534680 B2 JPH0534680 B2 JP H0534680B2
Authority
JP
Japan
Prior art keywords
frame
pattern
matching
word
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58113091A
Other languages
English (en)
Other versions
JPS604996A (ja
Inventor
Seiichi Nakagawa
Hidekazu Tsuboka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP58113091A priority Critical patent/JPS604996A/ja
Publication of JPS604996A publication Critical patent/JPS604996A/ja
Publication of JPH0534680B2 publication Critical patent/JPH0534680B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】
産業上の利用分野 本発明は音声認識装置、特に登録が容易な、少
ない標準パターンで認識が可能な音声認識装置に
関する。 従来例の構成とその問題点 人間にとつて最も自然な情報発生手段である音
声が、人間−機械系の入力手段として使用できれ
ば、その効果は非常に大きい。 従来、音声認識装置としては特定話者登録方式
によるものが実用化されている。即ち、認識装置
を使用しようとする話者が、予め、認識すべきす
べての単語を自分の声で特徴ベクトルの系列に変
換し単語辞書に標準パターンとして登録してお
き、認識時に発声された音声を、同様に特徴ベク
トルの系列に変換し、前記単語辞書中のどの単語
に最も近いかを予め定められた規則によつて計算
し、最も類似している単語を認識結果とするもの
である。 ところが、この方法によると、認識単語数が少
ないときは良いが、数百、数千単語といつたよう
に増加してくると、主として次の三つの問題が無
視し得なくなる。 (1) 登録時における話者の負担が著しく増大す
る。 (2) 認識時に発声された音声と標準パターンとの
類似度あるいは距離を計算するのに要する時間
が著しく増大し、認識距離の応答速度が遅くな
る。 (3) 前記単語辞書のために要するメモリが非常に
大きくなる。 一方、以上の欠点を回避するための方法として
認識の単位を子音+母音および母音の単音節(以
後それぞれCV,Vで表す。Cは子音、Vは母音
を意味する。)とする方法がある。即ち、標準パ
ターンとして単音節を特徴ベクトルの系列として
登録しておき、認識時に特徴ベクトルの系列に変
換された入力音声を、前記単音節の標準パターン
とマツチングすることにより、単音節の系列に変
換するものである。日本語の場合、単音節はたか
だか101種類であり、単音節は仮名文字に対応し
ているから、この方法によれば、日本語の任意の
単語あるいは文章を単音節列に変換する(認識す
る)ことができることになり、前記(1)〜(3)の問題
はすべて解決されることになる。しかしこの場合
の問題の一つに調音結合がある。即ち、音節を連
続して発声すると、各音節は前後の音節の影響を
受けるため、スペクトル構造が前後に接続される
音節の影響を受けて変化する。従つて、標準パタ
ーンとして登録されている単音節のスペクトルと
語中の音節とはスペクトル構造が異り、正確に認
識することが難しくなる。この問題を解決するた
めに二つの方法が考えられる。一つは、認識の際
の入力音声を音節毎に区切つて発声し、1音節ず
つ認識する方法、もう一つはそれぞれの単音節の
語頭から母音の定常部までと母音+子音+母音お
よび母音+母音(以後それぞれVCV,VVで表
す)のそれぞれの先行母音の定常部から後続母音
の定常部までを標準パターンとしてもつ方法であ
る。前者は、発声が不自然になる欠点がある。後
者はCV,V,VV,VCVの連鎖を母音定常部で
接続しながら作り出すことになるので、調音結合
の影響が回避できるものであるが、CV,V,
VV,VCVのあらゆる組合せを標準パターン登録
時に発声するとなるとその種類は単音節の6〜7
倍の量となり、標準パターンの登録の手間が非常
に大きくなる欠点がある。 発明の目的 本発明は上記従来の欠点を除き、連続的に発声
された任意の入力音声を音節列に変換すなわち認
識するために必要な標準パターンが少なくてよい
音声認識装置を提供することを目的とする。 発明の構成 本発明は、入力音声信号を特徴ベクトルの系列
a1,a2,……aIに変換する特徴抽出手段と、第n
単音節に対する特徴ベクトルの系列b1 n,b2 n,…
…,bn Jo(ただし、n=1,2,……,N;Nは単
音節数、Jnは第n単音節の母音定常部のフレー
ム)を標準パターンとして記憶する標準パターン
記憶手段と、前記入力音声信号の特徴ベクトルの
系列を、前記単音節標準パターンとマツチングす
るとともにいくつかのn′に対しては、第n′単音節
の特徴ベクトルの系列b1 n′,b2 n′,……bnJo′を逆

順序に並べた特徴ベクトルの系列bnJo′,bnJo-1
,…
…,b2 n′,b1 n′ともマツチングするパターンマツ
チング手段とを備えた音声認識装置である。 VCV音声パターンのスペクトルを詳細に検討
してみると、先行母音と後続母音が同じ場合、無
声破裂音、拗音等を除いて子音を中心としてほぼ
対称であることが認められる。また、このような
VCVに含まれるCVと同じ子音および母音からな
る単音節のスペクトルはほぼ同じ形をしている。
従つて、VCV標準パターンのうち前記対称でな
い一部のものを除けば、先行母音V1、先行子音
C、後続母音V2の音節V1CV2を単音節CV1
CV2から作ることができる。即ち、CV1から得ら
れた特徴ベクトルの系列を時間的に逆向に並べ、
CV2から得られた特徴ベクトルの系列と結合した
ものをV1CV2に対応する標準パターンとするこ
とができる。このようにすれば、VCVのあらゆ
る種類を標準パターンとして登録する場合に比
べ、大幅にその数を減らすことができる。例え
ば、日本語に含まれる全ての音韻を含むように
VCVとCVの標準パターンを持つことにすれば、
その総数は630程度であるが、本発明における以
上の考えによれば370程度で済む。また、「キヨウ
ト」と発声すべきときは「キヨウト」というよう
に発声することにして、拗音は発声に用いないこ
とにすれば、430程度を170程度と半分以下に減ず
ることができる。 上記のように、V1CV2に対する標準パターン
をCV1とCV2とから作るというのが本発明の基本
的な考え方である。ところでこのようにしてV1
CV2の形で標準パターンを持つ方法も考えられる
が、その場合は、標準パターンを記憶するに要す
るメモリはVCVのあらゆる種類を標準パターン
として持つ場合と同じ量になり、あまり得策では
ない。そこで、入力音声と例えばV1CV2とのマ
ツチング計算を行う場合は単音節CV1の特徴ベク
トルの逆系列V1Cとのマツチング計算を先ず行
い、次にCV2とのマツチング計算を行うようにす
れば、V1Cに対応する特徴ベクトルの系列は、
単音節CV1に対応する特徴ベクトルを記憶してい
る標準パターンメモリから逆向に読出すのみで良
いから、V1Cに対応する標準パターンは記憶す
る必要がなく、(勿論、V1CV2に対応する標準パ
ターンも記憶する必要はない)標準パターンを記
憶するためのメモリも大幅に減らすことができ
る。 本発明による音声認識装置は以上の原理に基づ
くものである。 実施例の説明 パターンマツチングの効果的な方法として、
DPマツチングと呼ばれる方法がある。次に説明
する本発明の一実施例は、前記発明の構成におい
て述べたパターンマツチングとして、DPマツチ
ングを用いたものである。実施例の説明に入る前
にDPマツチングによる単語音声の認識について
説明する。 パターンマツチングによる音声認識装置の一般
的な構成は次のようなものである。 入力音声信号を、フイルタバンク、周波数分
析、LPC分析等によつて特徴ベクトルの系列に
変換する特徴抽出手段と、予め発声され、この特
徴抽出手段により抽出された特徴ベクトルの系列
を認識単語全部について標準パターンとして登録
しておく標準パターン記憶手段と、認識させるべ
く発声され、前記特徴抽出手段により抽出された
入力パターンと前記標準パターン記憶手段に記憶
されている標準パターンの全てと特徴ベクトルと
の系列としての類似度あるいは距離を計算するパ
ターン比較手段と、パターン比較の効果、最も類
似度の高かつた(距離の小さかつた)標準パター
ンに対応する単語を認識結果として判定出力する
判定手段からなる。 このとき、同一話者が同一の単語を発声して
も、発声の都度、その発声時間長が異なるので、
前記パターン比較手段で標準パターンと入力パタ
ーンの比較を行う際には、両者の時間軸を伸縮さ
せ、両者のパターン長を揃えて比較する必要があ
る。その際、発声時間長の変化は、発声単語の各
部で一様に生じているわけではないので、各部を
不均一に伸縮する必要がある。その伸縮は、比較
すべき両者のパターンの類似度が最大になる(距
離が最小になる、以下距離で説明する)ように行
われるのが最も良い結果が得られている。このよ
うなマツチングを効率的に行うのに動的計画法を
用いる装置が一般的であり、このマツチングは
DPマツチングと呼ばれている。 DPマツチングの方法は格子グラフによつて説
明できる。第1図は格子グラフであつて、横軸は
入力パターンT=a1,a2……aIに対応するi座
標、縦軸は標準パターンRn=b1 n,b2 n,……,bn Jo
に対応するj座標を表わす。入力パターンTと標
準パターンRnを時間軸を非線形に伸縮してマツ
チングするとは、この格子グラフ上において、両
パターンの各特徴ベクトルの対応関係を示す径路
1を何らかの標価基準によつて決定し、この径路
に関して両パターンの距離を評価することであ
る。この径路を決定する際には音声の性質を考慮
して制限条件を設ける。第2図aは径路選択の制
限条件の一例である。即ち、この例では点(i,
j)へ至る径路は、点(i−2,j−1)から点
(i−1,j)を通る径路2か、点(i−1,j
−1)から来る径路3か、点(i−1,j−2)
から点(i,j−1)を通る径路4かの何れかし
か取り得ないということを意味している。このと
き、入力パターンと標準パターンの始端と終端は
必ず対応させるという条件をつければ、前記マツ
チングの径路は第1図の斜線の部分に制限され
る。この制限は、いかに時間軸が伸縮するといつ
ても、同一単語に対してはそれ程極端に伸縮する
はずはないという事実からあまり極端な対応づけ
が生じないようにするためである。 aiとbn jのベクトル間距離をdn(i,j)とすれ
ば、入力パターンTと標準パターンRnのパター
ン間の前記径路に沿う距離は、その径路に沿うdn
(i,j)の荷重平均として定義される。第2図
の経路上のa,b,c,d,eはそれに対応する
径路が選ばれたときの荷重である。DPマツチン
グが適用できるためには、この荷重の決め方は、
格子グラフ上で前記制限条件の下でいかなる径路
が選ばれようともその径路に沿う荷重の和が一定
になるように決めれば良い。a=c=e=2,b
=d=1とすれば、この荷重の和はI+Jnとな
り、a=b=c=1,d=e=0.5とすれば、こ
の荷重の和はIとなり、a=b=0.5,c=d=
e=1とすれば、この荷重の和はJnとなり、径路
の選ばれ方によらず一定となる。これらは共によ
く用いられる。また、前記荷重の和一定という条
件の下で、この荷重をjに関する関数とすること
により、より重視してマツチングしたい径路上の
部分の荷重を重くする等の操作も可能である。 入力パターンTと標準パターンRnの距離は前
記制限条件の下で前記荷重平均の最小値として定
義される。即ち、次の漸化式を解くことによつて
前記荷重平均の最小値とその最小値を与える径路
が決定され得る。 gn(i,j)=mingn(i−2,j−1)+a
dn(i−1,j)+bdn(i,j) gn(i−1,j+1)+cdn(i,j) gn(i−1,j+1)+cdn(i,j) gn(i−1,j−2)+edn(i,j−1)+ddn(i,
j)……(1) 初期条件 gn(1,1)=dn(1,1), D(T,Rn)=gn(I,Jn)/荷重の和 ここにD(T,Rn)は入力パターンTと標準パ
ターンnの距離である。 径路選択の条件としては他にも種々考えられ
る。第2図b〜j等は他の例である。この他にも
さらに種々の変形が考えられ得る。これら径路の
選択条件に伴つて前記漸化式は対応するものに書
き換えられるのは勿論である。 また、孤立して発声された単語を認識する場合
は勿論、連続して発声された(単語と単語の間に
切れ目なく発声された)音声を認識する場合も
DPマツチングは良好な成績をおさめている。 連続単語音声認識の問題は次のように定式化さ
れる。 入力パターンのフレーム数をI、第iフレーム
の特徴ベクトルをai、単語nの標準パターンのフ
レーム数をJn、第jフレームの特徴ベクトルをbj
とするとき、単語nの標準パターンRnは次のよ
うに表わされる。 Rn=b1 nb2 n……bj n……bn Jo そこでX個の単語列に対応する標準パターンの
結合 R=Rq(1)Rq(2)……Rq(x) =b1 q(1)b2 q(1)……bq(1) Jq(1)b1 q(2)b2 q(2)……bq(2) J
q(2)
……
b1 q(x)b2 q(x)……bq(x) Jq(x) ……(2) と入力パターンT=a1a2……aiaIとのベクトル系
列間の距離が最小になる単語列q(1)q(2)……q(x)
求める。 以上の計算を前記孤立単語の場合と同様にして
そのままDPマツチングで解こうとすれば、例え
ば10数字の単語を標準パターンとしてもつている
とき、3数字の連続発声された音声を認識するに
は103=1000種類の標準パターンとマツチングし
なければならない。標準パターンの数が増せば、
たちまちその組合せの数は禁止的な量になる。 そこで、連続単語の認識にもDPマツチングを
適用するために、マツチングの累積距離の正規化
係数(前記荷重の和のこと)は入力のフレーム数
にのみ依存するように径路の選択の条件を設定す
れば、以下に示すように標準パターンの単語の組
合せにも動的計画法が適用でき計算量を大幅に減
らし得る。 径路の選択条件としては一般に第3図a〜eに
示すものがあるが、径路上に示した数値はその径
路が選ばれたときの荷重係数である。 入力パターンTの第iフレームの特徴ベクトル
(以後フレームとのみ称する)a1とX個の標準パ
ターンの連結からなる連続標準パターンRの第j
フレームbR Jのフレーム間距離(ベクトル間距離)
をdR(i,j)とし、入力パターンと連続標準パ
ターンとの対応づけする時間関数(前記マツチン
グの径路)をu(i)として、この時間関数に沿つて
求められる次の累積距離(フレーム間距離の荷重
の和)D(T,R)を最小化するR(以下R^と記
す)が求めるものであるとする。即ち D(T,R)= min u(i)〔Ii=1 dR(i,u(i))〕 ……(3) R^= argmin R〔D(T,R)〕 ここで、第3図aの径路のときは、 Ou(i)−u(i−1)2,u(1)=1,u
(I)=JR である。また、 min z〔f(z)〕はzに関して最小化
されたf(z), arg zmin〔f(z)〕はf(z)を最小にする
zの値を意味する。 式(3)は次の漸化式を解くことで求められる。た
だし、DX(i)は入力が第iフレームで終端すると
仮定したX単語列に対する最小累積距離、NX(i)
はDX(i)に対応する単語列の最後尾単語名、BX(i)
はNX(i)の始点位置マイナス1(NX(i)の一つ前の
単語の最終フレーム、バツクポインタと称する)、
Dn(s:t)は入力のs〜tフレームと単語nと
の最小累積距離、DX n(i,j)はDX-1(m)と、入
力のm+1〜iフレームと単語nの1〜jフレー
ムとの最小累積距離の和のmについての最小値で
ある。 初期条件D(o)=O,B(o)=Oとして Dx(i)= min n,m{Dx-1(m)+Dn(m+1:i)} = minDX n n(i,jn) ……(4) をX=1,2,……,Xについて求め、この式を
満たすn,mをn^,m^とするとき、 NX(i)=n^,BX(i)=m^ ととする。i=Iまでこの計算を行えば、次のよ
うにして最後尾の単語から逆順に単語が求まる。
即ち 最後尾の単語:NX(I) 最後から2番目の単語:NX-1(BX(I)) 最後から3番目の単語:NX-2(BX-1(BX(I)) … 最初の単語:N1(B2(B3(……(BX(I))…
…))) でB1(B2(B3(……(BX(I))……)))=0となつ
て終了する。第4図はNX(i),BX(i)から上の単語
列を求めるフローチヤートである。 Xについても最適化する場合は、次のようにな
る。ここで、D(i)は入力のiフレームで終端する
と仮定したときの単語列の最小累積距離(D(i)=
miXnDX(i)),N(i)はD(i)に対応する単語列の最
後尾単語名、B(i)はN(i)の始点位置マイナス1
(N(i)の一つ前の単語の最終フレーム)、Dn(i,
j)はD(m)と入力のm+1〜iフレームと単語n
の1〜jフレームとの最小累積距離の和のmにつ
いての最小値である。 初期条件D(o)=O,B(o)=Oとして D(i)= minDX(i) X=min〔DX-1(m)+Dn(m+1:i)〕= min n,mD(m)+Dn(m+1:i)〕 = min n〔Dn(i,j〕 ……(5) を求め、この式を満たすn,mをn^,m^とすると
き、 N(i)=n^,B(i)=m^ とする。認識結果は次のようにXが既知の場合と
同様に求まる。 最後の単語:N(I) 最後から2番目の単語:N(B(I))) 最後から3番目の単語:N(B(B(I)) … 最初の単語:N(B(B(……(B(I)……))) でB(B(B(……(B(I))……)))=Oとなつ

とき終了する。第5図はN(i),B(i)から上の単
語列を求めるフローチヤートである。 なおDn(m+1:i)は次式で定義され、前記
孤立単語のDPマツチングと同じ方法で求められ
る。 Dn(m+1:i)= min u(i) ik=m+1 dn(k,u(k)) ……(6) Ou(k))−u(K−1)2,u(m+1)=
1,u(i)=Jn 以上の連続単語音声認識において、単語の標準
パターンを前記VCV,CV,VC,V,VVの標準
パターンに置き替えれば、任意の入力音声を音節
列に変換することができる音声認識装置の実現が
可能である。 第6図は、本発明の第1の実施例である。入力
音節数未知の場合について本発明の実施例を説明
する。100は音声信号の入力端子、101はフ
イルタバンク等で構成された特徴抽出部であつ
て、入力音声信号を特徴ベクトルの系列a1,a2
……aIに変換する。102は標準パターン記憶部
であつて、前記VCVおよびCVに対応するN個の
標準パターンが特徴ベクトルの系列として予め登
録されている。103はフレーム間距離計算部で
あつて、入力の第iフレームにおける特徴ベクト
ルa1とn番目の標準パターンRn=bn 1,n2 n……bn J
nのそれぞれの特徴ベクトルとの距離dn(i,j)
を1nN,1jJnについて求める。Dn
(i,j)は例えばaiとbjの市街地距離として定
義できる。即ち、ベクトルの次元をlとし、ai
(ai1,ai2,……,ail),bj n=(bn j1,bn jz,……

bn jlとするとき、 dn(i,j)=lk=1 |aiK−bn jk| ……(7) とすることができる。104,105は、このフ
レーム間距離を必要がなくなるまで記憶するフレ
ーム間距離記憶部である。104は前記の如く
VCに対応するパターンとしても用いられるCVに
対応する標準パターンに関して計算されたフレー
ム間距離を記憶するフレーム間距離記憶部1,1
05はVCV,V,VV、その他前記CV以外のCV
に対応する標準パターンに関して計算されたフレ
ーム間距離を記憶するフレーム間距離記憶部2で
ある。VCに対応するフレーム間距離は、CVに関
して求められたフレーム間距離dn(i,1),dn
(i,2),……,dn(i,j),……,dn(i,Jn
をjに関して逆に並べたdn(i,Jn),dn(i,Jn
−1),……dn(i,j),……,dn(i,2),dn
(i,1)となるにすぎないから、フレーム間距
離についてはVCについては求める必要はない。
106はフレーム間距離記憶部1,104に対
し、以後の処理において、CVに対するフレーム
間距離を必要とする場合と、VCに対するフレー
ム間距離を必要とする場合について、フレーム間
距離dn(i,j)のjに関する読出順序を切り替
える読み出しアドレス制御部である。107は累
積距離計算部であつて式(5)の漸化式を計算するも
のである。具体的には、前記Dn(i,j)とそれ
に対応するバツクポインタBn(i,j)をn=
1,2,……,N;j=1,2,……,Jnについ
て求める。径路の拘束条件の例とては第3図a〜
e等が考えられるが、ここでは第3図bのマツチ
ング径路を採用するものとすれば、次の漸化式を
計算することになる。即ち、CV,V,VV,
VCVに対する標準パターンの一連番号をn=1,
2,……,N′,VCに対する標準パターンの一連
番号をn=N′+1,N′+2,……,Nとし、同
一の子音、同一の母音からなるCV音節とVC音節
のそれぞれの標準パターンに対応する番号n,
n′をn=n′−N′となるように番号付けたとき、n
=1,2,……N′に関しては Dn(i,j)=minDn(i−2,j−1)+dn(i−1
,j)+dn(i,j) Dn(i−1,j−1)+dn(,j) Dn(i−1,j−2)+dn(i,j)…… …… …… ……(8-1) また、n+N′+1,N′+2,……,Nに関し
ては Do(i,j)=minDn(i−2,j−1)+dn-N′(i
−1,jn-N′−j)+dn-N′(i,Jn-N′−j+1) Dn(i−1,j−1)+dn-N′(i,Jn-N′−j+1) Dn(i−1,j−1)+dn-N′(i,Jn-N′−j+1) Dn(i−1,j−2)+dn-N′(i,jn-N′−j+1)
…… …… …… ……(8-2) となる。 バツクポインタは Bn(i,j)=Bn(i−2,j−1):Dn
i,j)=のとき =Bn(i−1,j−1):Dn(i,j)=のとき =Bn(i−1,j−1):Dn(i,j)=のとき =Bn(i−1,j−2):Dn(i,j)=のとき……
(9) ただし、初期値は Dn(−1,j)=∞(OjJn) Dn(0,0)=O D(O)=O Dn(O,−1)=∞ Dn(O,j)=∞(1jJn) Dn(i,−1)=∞ Dn(i,O)=D(i−1)(i1) Bn(i,−1,O)=i−1 B(O)=O ……(10) である。 第7図は漸化式(8)が計算される様子を図解した
ものであつて、格子点114へ至る一つ前の格子
点は115,116,117の何れかである。同
様にして格子点115,116,117のそれぞ
れの一つ前の格子点は、格子点115については
118,119,120、格子点116についい
ては119,121,122、格子点117につ
いては120,122,123の何れかとなる。
従つて、格子点(i,Jn)に至る径路は、第8図
の斜線部の内部に限定される。ただし、横軸は入
力パターン、縦軸は標準パターンnであつて、1
24は傾斜1/2の直線、125は傾斜2の直線で
ある。また、この図の意味するところは入力のi
フレームを終端と仮定して、最後尾の入力パター
ンの部分パターンを標準パターンnとマツチング
したときの累積距離Dn(i,jn)は、i′〜i″のうち
Dn(i,Jn)が最小になるという意味で最適な点
が標準パターンnに対応する始端点として自動的
に選択された結果として計算される。また、その
点がBn(i,Jn)+1ということになる。ただし
i′,i″はそれぞれ直線124,125とi軸との
交点である。また、第7図の説明からも明らかな
ように、第iフレームにおけるフレーム間距離dn
(i,j)、累積距離Dn(i,j)はiが変わる度
に対応する第8図で示した斜線部のすべての格子
点について求め直す必要はなく、各格子点につい
て1回計算するのみでよい。 累積距離計算部107は、さらに終端累積距離
D(i)、醜態バツクポインタB(i)、最後尾音節N(i)
を次のようにして求める。 n=1,2,……,N′に対して Dn(i)=Dn(i,Jn) Bn(i)=Bn(i,Jn) とおく。 また、V1CとCV2を結合するとき、そのまま
結合するとV1CのCとCV2のCの長さの和にな
るので、長くなりすぎる場合がある。従つて、実
際はV1Cに対応する標準パターンに対しては終
端点自由、CV2に対応する標準パターンについて
は始端点自由にしてマツチングするのがよい。最
も簡単にはVCパターンに対して終端点自由のみ
のマツチングを行えばよい。 即ちn=N′+1,N′+2,……,Nに対して
それぞれのnに対してjnを定め Dn(i)=min〔Dn(i,j)〕 ……(12) jnjJn Bn(i)=Bn(i,j^) とおく。ただし、j^は式(12)を満足するjであ
る。 しかる後 D(i)=min〔Dn(i)) ……(13) 1nN B(i)=Bn(i) N(i)=n^ を求める。ただしn^は式(13)を満足するnであ
る。 108は累積距離記憶部であつて、累積距離計
算部107で求められたDn(i,Jn),Bn(i,
Jn)を一時的に記憶するものである。これらの値
は、累積距離計算部107における計算の際に必
要なものであるが、第7図からも明らかなよう
に、第iフレームのDn(i,j),Bn(i,j)の
計算に対しては、第3図bの径路を採用するとき
は、Dn(i−1,j),Dn(i−2,j),Bn(i−
1,j),Bn(i−2,j)のみ必要であるから、
2フレーム分のみ記憶していれば良い。第3図a
の径路を採用するときは勿論1フレーム分のみ記
憶していればよい。このことは、前記フレーム間
距離記憶部104,105についても言えること
であつて累積距離Dn(i,j)の計算に必要なフ
レーム間距離は第3図bの径路のときはdn(i,
j),dn(i−1,j)のみであり、第3図aの径
路のときはdn(i,j)のみであるから、フレー
ム間距離記憶部104,105についてもたかだ
か2フレーム分のフレーム間距離に対する記憶容
量があれば良いことになる。 109はバツクポインタ記憶部であつて、累積
距離計算部107で計算されたバツクポインタB
(i)を記憶するものである。112は最後尾音節記
憶部であつて、累積距離計算部107で計算され
た、前記第iフレームにおけるn^をN(i)=n^とし
て記憶するものである。 以上の処理はフレームが1進む毎に行われる。
110は音声区間検出部であつて、入力信号の大
きさ等から周知の方法により音声区間を判定する
ものであつて、音声区間検出部110が音声入力
が開始されたことを検出すると、フレーム数計数
部111はフレーム毎に計数を始める。これまで
の説明は第iフレームにおける処理であつたが、
このフレーム数計数部111の係数値が、このi
を設定している。フレーム数計数部111は音声
区間が検出されると計数を始め、音声区間が終了
するとリセツトされる。音声区間の終了は入力音
声の最後の定常部とする。これは日本語において
は必ず母音で終了するものであり、母音部の中心
付近は定常だからである。従つて、最後尾音節記
憶部113、バツクポインタ記憶部109には、
N(i),B(i)がi=1,2,……,Iについて記憶
されることになる。 セグメンテーシヨン部112はバツクポインタ
記憶部109に対し、所定のバツクポインタを読
出すべき命令を発するものである。即ち、セグメ
ンテーシヨン部112がiなる値をバツクポイン
タ記憶部109に発すると、バツクポインタ記憶
部109からはバツクポインタB(i)が読出され
る。セグメンテーシヨン部112は、バツクポイ
ンタ記憶部109からB(i)なる値を受け取ると、
その同じ値をバツクポインタ記憶部109に発す
る。従つて、音声区間検出部110が音声入力終
了を検知すると、フレーム数計数部111の最終
値Iがセグメンテーシヨン部112に供給され、
セグメンテーシヨン部112は先ずIなる値をバ
ツクポインタ記憶部109に発する。以後、前記
説明の動作に従つて、バツクポインタ記憶部10
9からB(I),B(B(I)),……,Oなる出力が
順次得られることになる。これらの値は最後から
2番目のパターンの終りのフレーム、同3番目の
終りのフレーム、同4番目の終りのフレーム、…
…というものであり、N(i)は第iフレームで終る
パターンであるから、この値をそのまま最後尾音
節記憶部113に与えると、端子126には最後
の音節から逆の順序で認識結果が得られる。 第9図は以上の実施例の動作をプログラム的に
表現した図であり、ソフトウエアで実現する場合
もこれに従えばよい。なお、同図において
【表】 なる記法は、条件Aが成立する間Bを行うという
ことを意味する。また、
【表】 なる記法は、条件Aが成立するまでBを行うとい
うことを意味する。 ステツプ200,201は累積距離D(i),Dn(i,
j)バツクポインタB(i),B(i,j)の初期化
を行う部分である。 ステツプ203は第iフレームにおける処理を示
しており、大きくわけて中間累積距離Dn(i,
j)および中間バツクポインタBn(i,j)を求
める部分204,207と終端累積距離D(i)、終端バツ
クポインタB(i)、最後尾音節N(i)を求める部分
205に分かれる。 ステツプ204はn=1,2,……,N′につい
て、ステツプ207はn=N′+1,N′+2,……,
Nについて前記Dn(i,j),Bn(i,j)を求め
るものである。 ステツプ205,208は前記Dn(i,j),Bn(i,
j)を求めるに際し、フレーム毎に初期化する部
分である。 ステツプ206,209では、Dn(i,j)に関する
漸化式を計算し、Dn(i,j),Bn(i,j)を求
めると共に、標準パターンnに関する終端累積距
離Dn(i)と終端バツクポインタBn(i)を求めている。
このとき、フレーム間距離については前述したよ
うに、ステツプ206で求めておけば、ステツプ
209では計算する必要はない。 ステツプ210はDn(i)を最小にするn^を求め、終
端累積距離D(i)=Dn(i)と終端バツクポインタB
(i)=Bn(i)、最後尾パターンN(i)=n^を求める部分
である。 ステツプ211,212はステツプ203で得られたi
=1,2,……,IについてのB(i),N(i)から認
識音節列を得る判定処理部であつて、第5図のフ
ローチヤートに従つている。この部分で得られる
n^を逆順に並べ替えれば、VCV,VV,CV,V,
VCの形で認識された音節列が得られる。 以上の処理を前記第6図の実施例と対応させて
みると、ステツプ203における処理はブロツク103
〜109における処理に対応しており、ステツプ212
の処理は、ブロツク108,109,112,113の処理に
対応している。 以上、第1の実施例においては、入力パターン
と、標準パターンの連結したものとをマツチング
するとき、とにかく、入力パターンに最も近くな
るようにマツチングされるのであつて、VCV,
CV,VVなど母音で終る音節の次にCVなど子音
で始まる音節が存在するように認識される場合が
ある。また、VC音節の次に、母音で始まる音節
が存在するとして認識される恐れもある。この問
題を除くには、母音VXで終る音節の次には必ず
母音VXで始まる音節が続き、子音CXで終る音節
の次には必ず子音CXで始まる音節が続くように
マツチングすればよい。次にこのように改良した
第2の実施例について説明する。 この改良は第1の実施例を少し変更するだけで
簡単に実現できる。即ち、第iフレームにおける
終端累積距離D(i)を後続音韻毎に求めておき、後
続音韻mの音節に対する終端累積距離をDm(i)と
するとき、次のフレームで先行音韻がmの音節と
マツチングするときは累積距離の初期値として
Dm(i)を用いるものである。従つて、後続音韻m
の終端バツクポインタをBm(i)、音節nの先行音
韻を(n)とすると式(9)の初期条件は次のように変
更される。 Dn(−1,j)=∞(OjJn) Dn(0,0)=O Dn(O)=O (1mM) Dn(O,−1)=∞ Dn(i,−1)=∞ Dn(i,O)=Df(m)(i−1)(i1) Bn(i−1,O)=i−1 Bn(O)=O(1mM) ……(14) ただし、Mは音韻に付された番号で後続音韻と
なり得る音韻の種類に等しい。 式(14)を初期値として式(8−1),(8−
2),(9)を解くことになる。終端累積距離Dn(i)、
終端バツクポインタBn(i)、最後尾音節Nn(i)は次
のようにして求まる。 Dn(i),Bn(i)は第1の実施例の場合と同様にし
て求める。次にDn(i),Bn(i),Nn(i)(Dn(i)に対
応する後続音韻mの最後尾音節)をm=1,2,
……,Mについて求める。 Dn(i)= min 〔Dn(i)〕 ……(15) 1nN m=p(n) Bn(i)=Bn(i) Nn(i)=n^ ただし、p(n)は音節nの後続音韻、n^は式
(15)を満足するnである。 第10図は本発明の第2の実施例の構成を示す
ブロツク図である。同図において、第6図の第1
の実施例と同一の番号を付したブロツクは、第1
の実施例とほぼ同じ動作をする。ただ、累積距離
計算部107における処理が上記の如く変更にな
つたのと、累積距離記憶部108、バツクポイン
タ記憶部109、最後尾音節記憶部113におい
てDn(i),Bn(i),Nn(i)を1mMに対して記憶
する点が異なる。127は後続音韻決定部であつ
て、第2の実施例において付加されるものであ
る。即ちm=1,2,……,M′を母音に対して
付された番号、m=M′+1,M′+2,……,M
を子音に対して付された番号とするとき、 m^=argmin〔Dn(I)〕 1mM′ を求めるものである。このm^に対し、最後尾音節
記憶部113からn^=Nm(I)が読み出され、セ
グメンテーシヨン部112を通じてバツクポインタ
記憶部109からBm(I)が読み出される。即ち、
Nm(I)の1つ前の音節はフレームBm(I)で
終端している。128は先行音韻決定部であつ
て、n^=Nm(I)の先行音韻f(n^)を探索する。
これは、フレームi=Bm(I)において、後続
音韻f(n^)の音節がNm(I)の1つ前の音節と
なるからである。故に後続音韻決定部127にお
いて新たなm^としてm^f(n^)とおいて最後尾音節
記憶部113から後続音韻m^の新たな音節n^=
Nm(i)が読み出される。同時に、セグメンテーシ
ヨン部112はmとiから、バツクポインタ記憶
部109に対してフレームiにおける後続音韻m
のバツクポインタBm(i)を読み出すべく作用す
る。 以下、同様な動作が行われて、音節列が逆の順
序で求まつてゆく。 第11図は第2の実施例の動作をプログラム的
に表現した図であり、ソフトウエアで実現する場
合もこれに従えばよい。 第9図と同じ番号を付したステツプはほぼ同じ
処理をするものである第9図と異なる点は、ステ
ツプ200においてD(o),B(o)がDn(o),Bn(o)とな
つている点、ステツプ205,208においてD(i−
1)が、Df(m)(i−1)となつている点、ステツ
プ210において、終端累積距離Dn(i)、終端バツク
ポインタBn(i)、最後尾音節Nn(i)等後続音韻毎に
求めている点、ステツプ211,212において、フレ
ームiで終端する音節に続く音節の先行音韻は前
者の後続音韻と等しいという制限のもとで、各フ
レームiに対して求められているBn(i),Nn(i)と
Dn(I)から音節列を逆向に決定してゆく点であ
る。これらの処理は既に第10図の実施例で説明
済である。 発明の効果 以上のように、本発明によれば、少い登録パタ
ーン数で連続的に発声された音声を認識して、音
節列に変換することが可能となつたものである。 なお、本発明の実施例として、DPマツチング
を用い、入力音節数未知の場合について説明した
が、本発明はそれに限定されるものではない。即
ち、式(3)を解くことによつて、連続パターンの認
識を行う装置は他にも種々考えられるが、本発明
は、それらすべてに適用可能である。例えば、入
力音節数が既知の場合は、式(4)に基づく認識装置
に適用できるものである。さらに、本発明はDP
マツチングを用いた装置ばかりでなくVCV音節
を標準パターンとして必要とするあらゆる音声認
識装置に適用することができる。
【図面の簡単な説明】
第1図はDOマツチングの原理を説明する格子
グラフ、第2図a〜jは格子グラフ上におけるマ
ツチング径路の制限条件の一例を示す図、第3図
a〜eは連続単語音声の認識等に用いられるマツ
チング径路の制限条件の一例を示す図、第4図、
第5図はそれぞれ入力単語数既知の場合と、未知
の場合についての最終的に認識単語列を得る方法
を示すフローチヤート、第6図は本発明の一実施
例を示すブロツク部、第7図、第8図は同実施例
におけるマツチング計算の様子を説明する図、第
9図は本発明の実施例に対応する処理をプログラ
ム的に実現する方法を示す図、第10図は本発明
の第2の実施例を示すブロツク図、第11図は第
2の実施例に対応する処理をソフトウエア的に実
現する方法を示す図である。 101……特徴抽出部、102……標準パター
ン記憶部、103……フレーム間距離計算部、1
04……フレーム間距離記憶部(1)、105…
…フレーム間距離記憶部(2)、106……読み
出しアドレス制御部、107……累積距離計算
部、108……累積距離記憶部、109……バツ
クポインタ記憶部、110……音声区間検出部、
111……フレーム数計数部、112……セグメ
ンテーシヨン部、113……最後尾音節記憶部。

Claims (1)

    【特許請求の範囲】
  1. 1 入力音声信号を特徴ベクトルの系列a1,a2
    ……arに変換する特徴抽出手段と、第n単音節に
    対する特徴ベクトルの系列b1 n,b2 n,……,bjnn
    (ただし、n=1,2,……,N;Nは単音節数、
    Jnは第n単音節の母音定常部のフレーム)を標準
    パターンとして記憶する標準パターン記憶手段
    と、前記入力音声信号の特徴ベクトルの系列を、
    前記単音節標準パターンとマツチングするととも
    に前記単音節の中、少なくとも1つ以上の単音節
    について、それを代表的にn′とするとき、前記
    n′に対しては、第n′単音節の特徴ベクトルの系列
    b1 n′,b2 n′,……bjn′n′を逆の順序に並べた特徴ベ
    クトルの系列bjn′n′,bjn′−1n′,……b2 n′,b1 n
    ′と
    もマツチングするパターンマツチング手段とを備
    えたことを特徴とする音声認識装置。
JP58113091A 1983-06-22 1983-06-22 音声認識装置 Granted JPS604996A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58113091A JPS604996A (ja) 1983-06-22 1983-06-22 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58113091A JPS604996A (ja) 1983-06-22 1983-06-22 音声認識装置

Publications (2)

Publication Number Publication Date
JPS604996A JPS604996A (ja) 1985-01-11
JPH0534680B2 true JPH0534680B2 (ja) 1993-05-24

Family

ID=14603248

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58113091A Granted JPS604996A (ja) 1983-06-22 1983-06-22 音声認識装置

Country Status (1)

Country Link
JP (1) JPS604996A (ja)

Also Published As

Publication number Publication date
JPS604996A (ja) 1985-01-11

Similar Documents

Publication Publication Date Title
JPS62235998A (ja) 音節識別方式
JPS58102299A (ja) 部分単位音声パタン発生装置
JP2955297B2 (ja) 音声認識システム
JPH0247760B2 (ja)
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JPH0534680B2 (ja)
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JPS60164800A (ja) 音声認識装置
JPH024919B2 (ja)
JP3277522B2 (ja) 音声認識方法
JPH0449954B2 (ja)
JP3231365B2 (ja) 音声認識装置
JP2862306B2 (ja) 音声認識装置
JP2979912B2 (ja) 音声認識装置
JPH0566598B2 (ja)
JPH0361957B2 (ja)
JPH0827638B2 (ja) 音素を単位とした音声認識装置
JPH0566599B2 (ja)
An et al. A Study on Speech Recognition using DMS Model
JPS59173884A (ja) パタ−ン比較装置
JPH0638198B2 (ja) 連続音声認識装置
JPS60150098A (ja) 音声認識装置
JPH11249682A (ja) 標準パタン学習装置及び音声認識装置
JPH045398B2 (ja)