JPH0247757B2 - - Google Patents

Info

Publication number
JPH0247757B2
JPH0247757B2 JP57110528A JP11052882A JPH0247757B2 JP H0247757 B2 JPH0247757 B2 JP H0247757B2 JP 57110528 A JP57110528 A JP 57110528A JP 11052882 A JP11052882 A JP 11052882A JP H0247757 B2 JPH0247757 B2 JP H0247757B2
Authority
JP
Japan
Prior art keywords
frame
pattern
input
cumulative distance
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP57110528A
Other languages
English (en)
Other versions
JPS59197A (ja
Inventor
Seiichi Nakagawa
Hidekazu Tsuboka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP57110528A priority Critical patent/JPS59197A/ja
Publication of JPS59197A publication Critical patent/JPS59197A/ja
Publication of JPH0247757B2 publication Critical patent/JPH0247757B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 本発明は特徴ベクトルの系列として登録された
標準パターンのそれぞれと、特徴ベクトルの系列
に変換された入力パターンとの比較を行い、入力
パターンを認識するパターン比較装置、特に標準
パターンとしてパターンの一部のみが異なるのみ
で他のパターン部分が非常に類似している標準パ
ターンの認識に適したパターン比較装置に関す
る。
人間にとつて最も自然な情報発生手段である音
声が、人間―機械系の入力手段として実現される
ことに対する期待は大きい。近年、ワードプロセ
ツサの入力を仮名漢字変換の技術と組合せ、仮名
キーによる入力の代りに単音節音声の発声により
実行することが試みられている。この場合、各単
音節は弧立して発生されるが、「タ」、「パ」、「カ」
のようにそのパターンの一部が異なるのみで全体
として非常に類似した入力パターン(以下、類似
パターンという)の場合、誤認識の問題が生じて
いる。
ところで標準パターンと入力パターンとを比較
し、その類似度や距離を計算して音声認識を行う
場合、類似度や距離の計算に動的計画法(以下、
DP法という)の手法が用いられる。この動的計
画法を用いた音声認識において前記類似パターン
の誤認識の問題を解決しようとすると、単音節1
個当りの特徴ベクトルの数を増したり、ベクトル
の次元を増したりすることが必要である。しかし
ながら特徴ベクトルの数や次元を増すと計算量は
飛躍的に増大し、実用化することができなくな
る。
また単音節を弧立して発生した場合でなく、連
続して発生した場合の認識、すなわち連続単音節
認識においては、前記問題に加えて単音節間の堺
界を分離するという問題があり、これも計算量の
増大に影響する。ところで人間により発声される
音声は人によりまた時により変化し、基準となる
標準パターンに対し時間的に非線形に伸縮したも
のとなつている。この非線形にに伸縮している入
力パターンと標準パターンとを比較し入力音声の
認識を行うためには、入力パターンと標準パター
ンの各特徴ベクトルの対応付けを非線形に行い、
入力パターンがどの標準パターンと最も類似して
いるかを計算する必要がある。しかしこの入力音
声は非線形に伸縮するとはいつても異常に長く伸
びたり、短くなつたりすることはない。
本発明はこのような入力パターンの物理的な特
徴に注目し、入力パターンと標準パターンを比較
する際には無制限にすべての可能性について比較
するのではなく、入力パターンの物理的な性質に
より定まるある妥当と考えられる範囲について比
較を行うようにしたものである。
入力音声信号はパターン比較装置において、周
波数分析、LPC分析、PARCOR分析、相関分析
等により、いくつかの数値の組(特徴ベクトル)
の系列に変換され、この入力パターンの特徴ベク
トルと比較の対象となる標準パターンの特徴ベク
トルとが各ベクトル毎に比較される。この各ベク
トル毎の比較値、すなわちベクトル間の距離を合
計した累積距離というものをパターンの類似の尺
度に用いる。この累積距離を計算する場合、各ベ
クトル毎の比較をすべての組み合わせについて行
うのは計算量が膨大となり、パターン比較装置と
して実用化することができない。
入力パターンを一方の軸に、標準パターンを他
方の軸とする平面(以下、i―j平面という)を
考えると、入力パターンおよび標準パターンの各
ベクトルの組み合わせというのはi―j平面上の
各格子点(以下、単に点という)により示すこと
ができる。従つて前記あらゆる組み合わせについ
て各ベクトル間の距離を計算するとは、各点にお
けるベクトル間の距離を計算することであり、累
積距離を計算するとは、入力パターンの特徴ベク
トルと、それにに対応する標準パターンの特徴ベ
クトルのベクトル間距離を順次計算し合計してい
くことである。この累積距離を計算する過程で選
択された、入力パターンと標準パターンの特徴ベ
クトルの対応、すなわち点列を径路という。
前記した入力パターンの物理的な性質を考慮し
て比較の範囲を限定するということは、本発明に
おいては径路の選択に拘束条件を設けるというこ
とである。
ここで、以後の説明において用いる用語および
記号について説明する。
A:入力パターン(A=a1,a2…ai…aI)、aiは第
iフレームの特徴ベクトル、Iは入力パター
ンのフレーム数 Rn:第n標準パターン(Rn=bn 1bn 2…bn j…bn Jn)bn j
は第n標準パターンの第jフレームの特徴ベ
クトル Jnは第n標準パターンのフレーム数、Nを標
準パターンの総数とするとき1nN dn(i,j):第n標準パターンの第jフレームの
特徴ベクトルbn jと入力パターンの第iフレー
ムの特徴ベクトルaiとのベクトル間距離 D(i):第1〜第iフレームまでの入力パターン
と、各標準パターンの最適な組み合せの結合
パターンとのパターン間の距離(以下、終端
累積距離という) N(i):第1〜第iフレームまでの入力パターンに
対する各標準パターンの最適な組み合せの結
合パターンを求めたときの当該結合パターン
を構成する最後尾標準パターンを示す番号
(以下、最後尾標準パターン名) B(i):N(i)の始点フレームの1つ手前のフレーム
を示す番号(以下、バツクポインタという) Dn(i,j):入力パターンの第i′〜第iフレーム
までの部分パターンとRnの第1〜第jフレ
ームまでの部分パターンのパターン間の距離
(以下、部分累積距離Dn i′(i,j)という)
と、D(i′−1)との和のi′についての最小値
(以下、中間累積距離という) Bn(i,j):部分累積距離Dn i′(i,j)とD(i′

j)との和を最小にするi′をi^′、すなわちi^′=
argmjn i〔D(i′−1)+Dn i′(i,j)〕とす
るとき、当該i^′フレームの1つ手前のフレー
ムを示す番号(以下、中間バツクポインタと
いう)ただしargmin x〔 〕は〔 〕内の値
をXについて最小化したときのXの値を示
す。
Dn(i):j=jnのときの中間累積距離であり、Dn(I)
=Dn(i,jn)である。
Bn(i):J=Jnのときの中間バツクポインタであ
り、Bn(I)=Bn(i,Jn)である。
Dn p(i,j):入力パターンの第i′(始端)フレー
ム〜第iフレームまでの部分パターンと第n
標準パターンの第1〜第jフレームまでの部
分パターン間の距離(以下、特定区間累積距
離という) 本発明においては、入力パターンが第ipフレー
ムで終了すると仮定した場合、最後尾パターンを
Rnとしたときの中間累積距離Dn(ip)を求めるの
に、i′を始端フレーム、ipを終端フレームとする
入力パターンの部分パターンA(i′−1,ip)と標
準パターンRnとのDPマツチングを始端点自由、
終端点固定として行うものであつて、始端点i′に
おける中間累積距離の初期値Dn(i′,1)と中間
バツクポインタの初期値Bn(i′,O)を Dn(i′,1)=D(i′−1) +dn(i,1) Bn(i′,O)=Bn(i′−1) とすることによつて、第i′−1フレームまでの
DPマツチングの続きとして部分パターンA(i′−
1,ip)と標準パターンRnのDPマツチングを行
つている。
このようにすることによつて、例えば、第1図
に示すようなマツチング径路に対する拘束条件の
もとでは、取り得るマツチング径路は第2図のP
の領域内に制限され、Dn(ip)を求めるために必
要とされるdn(i,j)、Dn(i,j)の計算は領
域P内の各点についてそれぞれ1回行うのみでよ
い。第2図において横軸は入力パターン、縦軸は
最後尾標準パターンRnである。領域Pは傾き1/2
の直線P1と傾き2の直線P2とで囲まれた領域と
なつている。Dn(i,j)を求めるには、第1図
から明らかなようにDn(i−2、j−1)、Dn(i
−1、j−1)、Dn(i−1、j−2)、dn(i−
1、j)、dn(i,j)のみわかつていればよいか
ら、第iフレーム上の中間累積距離Dn(ip,j)
(ただしj=1,2,…Jn)を求めるには第i−
1フレーム、第i−2フレーム上の中間累積距離
Dn(i−1、j)、Dn(i−2、j)および第i―
1フレーム、第iフレーム上のベクトル間距離dn
(i−1、j)、dn(i,j)(ただしj=1,2,
…Jn)を記憶しておくのみでよい。このとき、
Dn(ip)は、 Dn(ip)=Dn(ip、Jn) として求めることができる。
以上のように、入力パターンのフレームiが1
フレーム進む毎に、そのフレーム上の中間累積距
離Dn(i,j)(ただし、j=1,2,…,Jn
n=1,2,…,N)を1フレーム前と2フレー
ム前の中間累積距離Dn(i−1、j)、Dn(i−
2、j)と1フレーム前および当該フレームのベ
クトル間距離dn(i−1、j)、dn(i,j)(ただ
しj=1,2,…,Jn;n=1,2,…,N)か
ら求め、D(i)=min n〔Dn(i+Jn)〕として第iフ
レームまでの終端累積距離を求めることができ
る。このようにして求められたDn(i,j)(た
だしj=1,2,…,Jn;n=1,2,…,N)
は必要がなくなるまですなわち次のフレームない
ししその次のフレームにおけるDn(i,j)の計
算終了まで記憶される。
また、D(i)に対するバツクポインタ(D(i)に対
する始端点から1を差し引いた値)B(i)は次のよ
うにして求まる。
Dn(i,j)に対する中間バツクポインタをBn
(i,j)とするとき、 1 Dn(i,j)=Dn(i−2、j−1)+dn(i−
1、j)+dn(i,j)のときは Bn(i,j)=Bn(i−2、j−1) 2 Dn(i,j)=Dn(i−1、j−1)+dn(i,
j)のときは Bn(i,j)=Bn(i−1、j−1) 3 Dn(i,j)=Dn(i−1、j−2)+dn(i,
j)のときは Bn(i,j)=Bn(i−1、j−2) とおくことにより Dn(i)=Dn^(i,jn^) とすれば B(i)=Bn^(i,Jn^) となる。従つて、Bn(i,j)についても、1フ
レーム前と2フレーム前のものを覚えておく。
なお、第3図のような径路の場合はDn(i,
j)、Bn(i,j)は1フレーム前の値を覚えて
おくだけでよい。
この考え方を連続単音節音声の認識に適用する
ことを考える。単音節音声は子音プラス母音とい
う形をしており、子音部は母音部よりかなり短
い。しかるに、特に、母音部が同じである単音節
音声は、子音部の微妙な違いにより区別されなけ
ればならない。従つて、前記のパターンマツチン
グにおいて入力された単音節音声と標準パターン
の単音節音声のそれぞれと単音節音声全体として
マツチングするとマツチング結果に与える母音部
の影響が大きく子音部の微妙な差を区別するのが
難かしくなる。
本発明はこの欠点を補うものであつて、連続単
音節音声に上記アルゴリズムを適用するにあたつ
て子音部のマツチング結果を重視するものであ
る。すなわち、単音節全体としてのマツチング結
果の他にそのマツチングの過程における子音部の
みのマツチング結果をも認識に利用しようとする
ものである。
第4図は入力パターンの第ipフレームを終端点
とし、始端点をb+1としてマツチングした場合
のマツチングの様子を示したものである。Cは第
b+1フレームを始端とし、第ipフレームを終端
としたときのマツチングの径路を示している。な
お、径路の拘束条件は第1図に示したものを用い
ている。jnは標準パターンnを構成する単音節の
子音部と母音部を分けるフレームであつて、標準
パターンとしてのこの単音節を登録するときに同
時に登録しておくものである。従つて、登楼単音
節nの第1フレームから第jnフレームまではその
単音節の子音部、第jn+1フレームから第Jnフレ
ームまではその単音節の母音部ということにな
る。eは径路Cにおいて、jnに対応する入力パタ
ーンのフレームである。
本発明においては、前記のDPマツチングにお
いて、D(i)、B(i)、N(i)を求めるのに単音節全体
としてのマツチング結果以外に子音部のみのマツ
チング結果も加味することを特徴としている。す
なわち、第4図に示したi−j平面において、第
ipフレームに至る単語nに対する最適のマツチン
グ径路がCのようであつたとすると、この径路に
沿う点(b+1,1)から点(e,jn)までの特
定区間累積距離をDn p(ip,jn)、第b+1フレーム
から第eフレームまでの長さ(フレーム数)を
Ln(ip,jn)とするとき、Dn p(ip,Jn)/Ln(ip,Jn

とDn(ip)との荷重和が最小になる単音節nを求
め、D(ip)=Dn^(ip,Jn^)、B(ip)=Bn
(ip,Jn^)、
N(ip)=n^とするのである。
また、第ipフレームは常に単音節の最終フレー
ムと仮定してマツチングを行つているわけである
から、第ipフレームから数フレーム溯つたところ
は母音であると仮定していることになる。従つて
第iフレームを始端とするマツチングにおいて、
数フレーム溯つたところのフレームi″を母音の標
準パターンと比較し、今からマツチングを行おう
とする単音節はア、イ、ウ、エ、オの何れの段で
あるかを予め決定することができる。第ipフレー
ムが実際に単音節の最終フレームであれば、そこ
から数フレーム溯つたところは母音の定常部であ
ると考えられ、母音の認識はかなりの精度で認識
できる。その認識の具体的方法は、識別函数によ
る方法など周知の方法が用いられ得る。このi″フ
レームの母音としての認識結果をv(i″)とすれ
ば、荷重和を計算すべきnとしてはv(i″)段の
単音節のみに対して計算すればよいことになる。
i″の決め方としては、ipから一定数のフレームを
溯るという方法の他に、Dn(ip)を最小にする単
音節n^が求まれば、そのときのマツチング径路に
関してjn^に対応する入力フレームをeとすると
き(e+ip)/2に最も近いフレームをi″として
もよい。
第5図は、以上の原理に基づく連続単音節音声
の認識を行う本発明の実施例を示すブロツク図で
ある。
音声信号入力端子10に入力された音声信号
は、フイルタバンク等で構成された特徴抽出部1
1で特徴ベクトルの系列A=a1,a2…aIに変換さ
れる。12はこのそれぞれの特徴ベクトルを母音
とみなして認識する母音認識部で、13は母音認
識部12で前記特徴ベクトルを母音とみなして認
識するために必要な識別函数を記憶している識別
函数記憶部である。識別函数による認識は通常の
良く知られたパターン認識の手法が、そのまま使
用される。14は母音認識部12で前記のように
母音として認識された結果をフレーム番号と共に
記憶する母音認識結果記憶部である。15は単音
節標準パターン記憶部で、それぞれの単音節は特
徴ベクトルの系列の形で記憶されている。16は
入力音声信号の第iフレームにおいて、単音節標
準パターン記憶部15に記憶されている第n単音
節bn 1bn 2…bn Jnを構成するベクトルのそれぞれと、
特徴抽出部11の出力の特徴ベクトルaiとの距離
dn(i,j)を計算し、その計算結果を必要がな
くなるまで一時的に記憶するベクトル間距離計算
部である。ベクトルai=(ai1,ai2…,aiM)とベク
トルbn j=(bn j1,bn j2…,bn jM)との距離dn(i,j

は例えばdn(i,j)=Mm=1 |ain−bn jn|とすること
ができる。
18は累積距離計算部で、第iフレームにおい
てDn(i,j)、Bn(i,j)、Dn p(i,j)、Ln
(i,j)をj=1,2,…,Jnn=1,2,…,
Nに関してベクトル間距離計算部16の出力から
計算するとともにその結果を必要がなくなるまで
一時的に記憶する。
前記のようにマツチング径路の拘束条件を第1
図とするときは、第iフレームのDn(i,j)を
計算するには第i―1フレームのベクトル間距離
dn(i,j)と、第i―2、第i―1フレームの
中間累積距離Dn(i,j)と中間バツクポインタ
Bn(i,j)をn=1,2,…N;j=1,2,
…Jnについて覚えておく必要がある。Dn(i,
j)、Bn(i,j)の求め方については既に前記
した通りである。
この計算を行うとき、子音部のみの累積距離
Dn p(i,j)と子音部に対応する入力フレームの
数Ln(i,j)も同時に計算される。すなわち 1 j=jnまたはj=jn+1でjn+1に到る最適
の径路の1フレーム前のjがjn−1のとき、す
なわち Dn(i−1、jn−1) =min〔Dn(i−2、jn)+dn(i−1、jn+1)、
Dn(i−1、jn)、 Dn(i−1、jn−1)〕のときは Ln(i,j)=i−Bn(i,j) Dn p(i,j)=Dn(i,j)−D(Bn(i,j) 2 それ以外のjj+1に対し P=Dn(i−2、j−1)+dn(i−1、j)
+dn(i,j) Q=Dn(i−1、j−1)+dn(i,j) R=Dn(i−1、j−2)+dn(i,j) とおくとき、 Dn p(i,j)=Dn p(i−2、j−1)(Dn
(i,j)=Pのとき) Dn p(i−1、j−1)(Dn(i,j)=Qのとき) Dn p(i−1、j−2)(Dn(i,j)=Rのとき) Ln(i,j)=Ln(i−2、j−1)(Dn
i,j)=Pのとき) Ln(i−1、j−1)(Dn(i,j)=Qのとき) Ln(i−1、j−2)(Dn(i,j)=Rのとき) なる計算がなされる。この結果第4図のb,eに
対し e−b=Ln(ip,Jn) Dn p(e,jn)=Dn p(ip+Jn) となる。すなわち、Dn p(ip,Jn)はDn(ip)を求め
たときの径路に沿つたj=1からjnまたはjn+1
までの子音部のみの累積マツチング距離であり、
Ln(ip,Jn)はj=1からj=jnまたはj=jn+1
までの前記径路の入力方向のフレームの数であ
る。言い換えれば、単音節nに対し、最終フレー
ムをipと仮定したときの子音部のみのマツチング
距離はDn p(ip,Jn)、子音部の入力方向の長さはLn
(ip,Jn)となる。なお、1)の条件は、子音部
の終点がマツチング径路がjnを通るときはjnであ
り、jnを通らないときはjn−1となることを意味
している。
19は最後尾単音節母音フレーム計算部であつ
て、ベクトル間距離計算部16、累積距離計算部
18における計算をn=1,2,…,Nについて
実行した結果から、最後尾単音節を n^=argmin n〔Dn(i)〕 として仮に求めると共に、単音節n^に対し、その
マツチング径路に関し、jn^に対応する入力フレー
ムと第iフレームの中点(母音の定常部に相当)
i″を求めるものである。i″は次のようにして求め
ることができる。
i″≒1/2(Bn^(i,jn^)+Ln^(i,Jn
^)+i) 20は候補単音節発生部であつて、最後尾単音
節母音フレーム計算部19で計算されたi″に対
し、既に第i″フレームが、何れの母音であつたか
記憶されている母音認識結果記憶部14の第i″フ
レームに対応する出力から、その母音を母音部と
してもつ単音節を発生するものである。
21はこの候補単音節をkとするとき、Dk p
(i,Jk)、Lk(i,Jk)、Dk(i,jk)を累積距離
計算部18から読み出し、w1,w2を重み係数と
するとき、 k^=argmin k^=argmin k〔w1Dkp(i,Jk)/Lk(i,Jk)+w2Dk(i,Jk
)〕
(28) を計算する最後尾単音節決定部である。このよう
にして、第iフレームにおける最後尾単音節はk^
であると決定される。
22は最後尾単音節記憶部であつて、 N(i)=k^ として記憶される。
また、最後尾単音節が、k^であると決定される
と、累積距離計算部18に記憶されているDk
(i,Jk^)、Bk^(i,Jk^)がそれぞれD(i)、
B(i)と
して累積距離記憶部23、バツクポインタ記憶部
24に記憶される。累積距離計算部18における
計算において用いられる初期値D(i−1、0)=
D(i−1)はこの累積距離記憶部23に以上の
ようにして既に記憶されているものである。ただ
しD(o)=0である。
25は音声区間検出部であつて、入力信号の大
きさ等から音声区間を判定するものであつて、音
声区間検出部25が、音声入力が開始されたこと
を検出するとフレーム数計数器26はフレーム毎
に計数をはじめる。前記の処理は第iフレームに
ついての処理であつたが、このフレーム数計数器
26の計数値がすなわちこのiを設定している。
従つて、前記と同様の処理がフレームが1進む毎
に行われることになる。フレーム数計数器26は
音声区間が検出されると計数を始め、音声区間が
終了するとリセツトされる。最後尾単音節記憶部
22、バツクポインタ記憶部24には従つて、N
(i)、B(i)がi=1,2,…,Iについて記憶され
ることになる。
セグメンテーシヨン部27はバツクポインタ記
憶部24に対し、所定のバツクポインタを読出す
べき命令を発するものである。すなわち、セグメ
ンテーシヨン部27がiなる値をバツクポインタ
記憶部24に発すると、バツクポインタ記憶部2
4からはバツクポインタB(i)が読出される。セグ
メンテーシヨン部27はバツクポインタ記憶部2
4からB(i)なる値を受け取ると、その同じ値をバ
ツクポインタ記憶部24に発する。従つて、音声
区間検出部25が音声入力の終了を検知すると、
フレーム数計数器の最終値Iがセグメンテーシヨ
ン部27に供給され、セグメンテーシヨン部27
は先ずIなる値をバツクポインタ記憶部24に発
する。以後、前記説明の動作に従つて、バツクポ
インタ記憶部24から、B(I)B(B(I))、B(B(B
(I))),…,Oなる出力が順次得られることにな
る。これらの値は、最後から2番目の単音節の終
りのフレーム、同3番目の終りのフレーム、同4
番目の終りのフレーム、…というものであり、N
(i)はiフレームで終る単音節であつたから、この
値をそのまま最後尾単音節記憶部22に与える
と、最後の単音節から逆の順序で認識結果が得ら
れる。なお認識結果が逆の順序で得られないよう
にするためには、この順序の変換をバツクポイン
タ記憶部24の出力に対して行なうか最後尾単音
節記憶部22の出力に対して行なえばよい。
第6図はソフトウエアによつて前記実施例装置
の機能を実現した場合のフローチヤートであり、
以下、前記実施例装置の各部の動作と関連づけな
がら説明する。
ステツプは初期化する部分で無音区間でこの
処理を行う。ステツプ,,は入力フレーム
iに対して行う処理である。
ステツプは入力の第iフレームを母音とみな
したとき、如何なる母音であるかを認識する部分
であつて、母音認識部12、母音認識結果記憶部
14で行う処理である。
ステツプは主として累積距離計算部18で行
う処理であつて、ステツプは累積距離Dn(i,
j)バツクポインタBn(i,j)を求めている。
ステツプは子音部のみのマツチング結果を求め
ている。
ステツプはステツプの計算をn=1,2,
…,Nについて行つた結果、入力の第iフレーム
を音声入力の終端としたとき、累積距離Dn(i,
Jn)が最小となる最後尾単音節n^と、n^の母音部の
フレームi″を求める部分で、最後尾単音節母音フ
レーム計算部19で行う処理である。
ステツプはステツプで求められた単音節の
母音フレームに対する母音を母音部としてもつ単
音節kに対し、子音部のみのマツチング結果をそ
の入力フレーム数で正規化した値Dk(i,Jk)/
Lk(i,Jk)と最後尾単語をkとしたときの累積
距離Dk(i,Jk)との荷重和を計算し、それが最
小となる単音節k^を計算する部分であつて、最後
尾単音節決定部21で行う処理である。
なお前記フローチヤート中、 P=Dn(i−2、j−1)+dn(i−1)+dn
(i,j) Q=Dn(i−1、j−1)+dn(i,j) R=Dn(i−1、j−2)+dn(i,j) であり、 またステツプ4aにおいては、 Dn(i,j)=P or Qのときはj^=j−1、 Dn(i,j)=Rのときはj=j^−2 である。
またステツプ6においては、 k:i″フレームを母音として認識した結果その
母音を含む単音節 w1,w2:重み である。
ステツプはステツプで求まつた最適の単音
節k^に対し、N(i)=k^、D(i)=Dk^(i)、B(i)=Bk
^(i)
としてそれぞれメモリに記憶されることを示して
おり、それらのメモリは、最後尾単音節記憶部2
2、累積距離記憶部23、バツクポインタ記憶部
24に対応している。
ステツプは以上のようにして求められたN
(i)、B(i)から逆の順序で単音節の認識結果を求め
る部分でセグメンテーシヨン部27、バツクポイ
ンタ記憶部24、最後尾単音節記憶部22の間で
行われる処理である。
以上のように本実施例においては、連続して発
声された音声を精度よく単音節列に変換すること
ができ、音声タイプライタ等への応用が可能とな
つたものである。
なお、前記実施例においては、子音プラス母音
のいわゆるCVを単位とする単音節について説明
したが、VCV(母音+子音+母音)を単位とする
場合にも本発明は適用することができる。この場
合、第7図に示すように、jn1,jn2を標準パター
ンの子音部と母音部の境界とするとき、マツチン
グ径路29において、j=jn2〜1の部分の累積
距離からj=jn1〜1の部分の累積距離を差し引
いたものをjn1〜jn2の累積距離として評価すれば
よい。jn2〜1あるいはjn1〜1の部分の累積距離
は、CVの場合のjnをjn2あるいはjn1におきかえれ
ばよいから、結局前記実施例において次の置き換
えをすればよいだけである。すなわち、jn1〜1
の間の累積距離は前記実施例において、jnをjn1
Ln(i,j)をLn1(i,j)、Dn p(i,j)をDn1 p
(i,j)にそれぞれおきかえればよく、jn2〜1
の間の累積距離はjnをjn2、Ln(i,j)をLn2(i,
j)、Dn p(i,j)をDn2 p(i,j)にそれぞれお
きかえればよい。従つて、第ipフレームを終端フ
レームとすると子音部のみの累積距離Dn p(ip
Jn)、入力軸方向の長さLn(ip,Jn)は次のように
なる。
Dn p(ip,Jn)=Dn2 p(ip,Jn)−Dn1 p(ip,Jn) Dn p(ip,Jn)=Dn2 p(ip,Jn)−Dn1(ip,Jn)=g
−f 第5図に示した実施例装置における累積距離計
算部18を以上の動作を行う機能を有するものに
置き換えれば、前記実施例装置はそのままVCV
を標準パターンにする場合のものになる。
なお、前記実施例においては、単音節全体とし
ては、その区間を種々に想定した場合が、考慮さ
れていたが、子音区間のマツチング結果は単音節
の認識結果についての子音区間のマツチングに対
応したものであつて、子音区間を種々に想定した
場合は考慮されていない。
そこで、前記マツチング方法で子音区間の抽出
を行い、その区間で子音パターンの始端点自由に
よる累積DPマツチング距離を求める子音区間を
より重視したマツチング方法を用いた実施例につ
いて次に述べる。
第8図は以上の考え方を説明する概念図であ
る。すなわち、30は前記の方法で求められた単
音節全体に対して求められたマツチング径路であ
つて、点線31はマツチング径路30によつて規
定された子音と母音の境界点(e,jn)を固定し
たときの子音部に対する他の径路である。本実施
例の考え方はこの点(e,jn)を固定して、始端
点をある制限のもとに変化させたとき子音部にお
いて最も良くマツチングする径路を求め、その径
路におけるマツチング結果を子音部のマツチング
結果とするものである。
第10図は子音部のマツチングに用いられる径
路の拘束条件の一実施例である。このような径路
の拘束を課すと子音部のマツチング径路は第9図
の32,33で示される点(e,jn)を通る傾き
1/2、および傾き2の直線で囲まれる領域内に制
限されることになる。
このような考え方を前記実施例に導入するには
累積距離計算部18と最後尾単音節決定部21に
おける処理を次のように変更するだけでよい。す
なわち累積距離計算部18における子音部のみの
マツチング結果を計算し記憶する部分であつて、
第6図のステツプにおける処理をDn p(i,j)
についてのみ次のように変更する。
1 J=1のとき Dn p(i,1)=d(i,1) 2 jjnのとき Dn p(i,j)=min〔Dn p(i、j−1)、Dn p(i
−1、j−1)、 Dn p(i−2、j−1)〕+d(i,j) 3 j″=jn+1かつDn(i,j)=Rのとき Dn p(i,j)=Dn p(i−1、j−1) 4 3)以外のjjn+1のとき Dn p(i,j)=Dn p(i−2、j−1)(Dn
(i,j)=Pのとき) Dn p(i−1、j−1)(Dn(i,j)=Qのとき) Dn p(i−1、j−2)(Dn(i,j)=Rのとき) また最後尾単音節決定部21に従つて第6図の
ステツプの処理を次のように変更する。
k^=argmin k〔w1Dnp(i,Jk)/jk+w2Dk(i,Jk)〕 1)は子音部の始端点自由のマツチングを行う
とき、Dn pの初期値を定義している。2)は子音
部のマツチングを行う規則を式で表現したもの
で、第18図のマツチング径路の拘束条件に対応
している。3)はマツチング径路がjn−1の点か
らjn+1の点へjn上の点を経ずに躍ぶ場合は強制
的にjnからjn+1へ移るように変更することを意
味している。すなわち子音区間は必ずjn上の点で
終端するようにしている。4)は3)以外のj
jn+1に対してはjn上の点で決定された子音区間
のみのマツチング結果をjn+1より上の点に対し
ては伝えてゆくのみであることを示している。
k^を求める式において、第1の実施例では第1
項の分母がLk(i,Jk)であつたのに対し、jk
なつているのは、第10図のマツチング径路の拘
束条件のもとでは、径路長はj軸上の長さとのみ
比例するからである。
以上のように、第1の実施例に対し、第2の実
施例のように、子音部のみではあるが、始端点自
由とすることによつて、さらに、認識率の向上が
実現できる。
なお前記第1、第2の実施例においては、単音
節音声について説明したが、ベクトルの系列で表
わされるあらゆるパターンのマツチングにおいて
一部重視してマツチングを行いたいときは本発明
のパターン比較装置が使用できる。
以上のように本発明は、全体として類似し、一
部のみが微妙に異なるような入力パターンであつ
ても、計算量を大幅に減少させて認識することが
でき、その実用的価値は高い。
【図面の簡単な説明】
第1図はマツチング計算径路の拘束条件を示す
図、第2図はマツチング計算を行う領域を示す
図、第3図はマツチング計算径路の別の拘束条件
を示す図、第4図は本発明の原理の説明図、第5
図は本発明における一実施例の音声認識装置のブ
ロツク図、第6図は同実施例装置の機能をソフト
ウエアで実現したときのフローチヤート、第7図
はパターンの重視する区間を異ならせた場合の実
施例を説明するための図、第8図〜第10図は子
音区間をより重視する実施例を説明するための図
である。 11…特徴抽出部、12…母音認識部、13…
識別函数記憶部、14…母音認識結果記憶部、1
5…単音節標準パターン記憶部、16…ベクトル
間距離計算部、18…累積距離計算部、19…最
後尾単音節母音フレーム計算部、20…候補単音
節発生部、21…最後尾単音節決定部、22…最
後尾単音節記憶部、23…累積距離記憶部、24
…バツクポインタ記憶部、25…音声区間検出
部、26…フレーム数計数器、27…セグメンテ
ーシヨン部。

Claims (1)

  1. 【特許請求の範囲】 1 入力信号を特徴ベクトルa1,a2…ai…aIの系
    列に変換する特徴抽出手段と;特徴ベクトルの系
    列bn 1bn 2…bn j…bn Jnから成る標準パターンRn(ただ
    しn=1,2,…,N)を記憶する標準パターン
    記憶手段と;入力パターンの第iフレームにおい
    て、前記特徴ベクトルaiとbjとの距離dn(i,j)
    をj=1,2,…,Jn;n=1,2,…,Nにつ
    いて計算し、必要がなくなるまで一時的に記憶す
    るベクトル間距離計算手段と;入力パターンの第
    iフレームにおいて、j=1,2,…,Jn;n=
    1,2,…Nについて中間累積距離Dn(i,j)
    と、それを求めるに至つた径路に沿う、パターン
    nに対して予め指定した区間の第iフレームまで
    の特定累積距離Dn p(i,j)と、中間バツクポイ
    ンタBn(i,j)とを求め、それらを必要がなく
    なるまで記憶すると共に、n=1,2,…,Nに
    ついて、中間累積距離Dn(i,Jn)と特定累積距
    離Dn p(i,jn)との荷重和を含んで定義された距
    離を最小にするn=n^と、その最小値Dn^(i,
    n^)、それに対する中間バツクポインタBn^(i,
    n^)を求める累積距離計算手段と;前記Dn^(i,
    n^)を終端累積距離D(i)としてフレーム毎に記憶
    する終端累積距離記憶手段と;前記Bn^(i,Jn^)
    を終端バツクポインタB(i)としてフレーム毎に記
    憶する終端バツクポインタ記憶手段と;前記n^を
    第iフレームで終端する最後尾パターンN(i)とし
    てフレーム毎に記憶する最後尾パターン記憶手段
    と;入力パターンの最終フレームIで入力が完了
    したとき、前記終端バツクポインタ記憶手段から
    B(I)、B(B(I)),…,0すなわち連続して入力さ
    れたパターンの堺界を逆の順序で求めるセグメン
    テーシヨン手段と;入力パターンが存在する区間
    を検出する入力パターン区間検出手段と;この入
    力パターン区間検出手段により入力パターンが存
    在していないと判定されたときにリセツトされ、
    入力パターンが存在していると判定されている間
    入力パターンのフレーム数を計数し、前記入力フ
    レーム番号iを得るフレーム数計数手段とを備
    え;前記入力パターン区間検出手段により入力パ
    ターンが終了したことが検出されると、前記計数
    手段のその時の値Iと前記セグメンテーシヨン手
    段の出力とから前記最終尾パターン記憶手段に記
    憶されている内容N(I),N(B(I)),N(B(B(I)
    ),
    …を順次読み出すように構成したことを特徴とす
    るパターン比較装置。 2 累積距離計算手段が、特定累積距離Dn p(i,
    j)を、パターンnに対して予め指定した区間の
    み適当な範囲で始端自由として求めるように構成
    されていることを特徴とする特許請求の範囲第1
    項記載のパターン比較装置。
JP57110528A 1982-06-25 1982-06-25 パタ−ン比較装置 Granted JPS59197A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57110528A JPS59197A (ja) 1982-06-25 1982-06-25 パタ−ン比較装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57110528A JPS59197A (ja) 1982-06-25 1982-06-25 パタ−ン比較装置

Publications (2)

Publication Number Publication Date
JPS59197A JPS59197A (ja) 1984-01-05
JPH0247757B2 true JPH0247757B2 (ja) 1990-10-22

Family

ID=14538086

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57110528A Granted JPS59197A (ja) 1982-06-25 1982-06-25 パタ−ン比較装置

Country Status (1)

Country Link
JP (1) JPS59197A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60164798A (ja) * 1984-02-03 1985-08-27 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 単音節音声認識方法
JP2596536B2 (ja) * 1984-10-15 1997-04-02 三井東圧化学株式会社 ポリイミド樹脂粉末からなる耐熱性接着剤
JP2602198B2 (ja) * 1984-10-15 1997-04-23 三井東圧化学株式会社 ポリイミド樹脂粉末からなる耐熱性接着剤

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5255414A (en) * 1975-10-31 1977-05-06 Nec Corp Continuous voice recognition equipment
JPS5255413A (en) * 1975-10-31 1977-05-06 Nec Corp Continous voice recognition equipment
JPS54145409A (en) * 1978-05-06 1979-11-13 Hiroya Fujisaki Monosyllable speech recognition system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5255414A (en) * 1975-10-31 1977-05-06 Nec Corp Continuous voice recognition equipment
JPS5255413A (en) * 1975-10-31 1977-05-06 Nec Corp Continous voice recognition equipment
JPS54145409A (en) * 1978-05-06 1979-11-13 Hiroya Fujisaki Monosyllable speech recognition system

Also Published As

Publication number Publication date
JPS59197A (ja) 1984-01-05

Similar Documents

Publication Publication Date Title
EP0285353A2 (en) Speech recognition system and technique
US5369728A (en) Method and apparatus for detecting words in input speech data
JP4340685B2 (ja) 音声認識装置及び音声認識方法
US4910782A (en) Speaker verification system
JPH0247757B2 (ja)
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
JP3129164B2 (ja) 音声認識方法
JP2004177551A (ja) 音声認識用未知発話検出装置及び音声認識装置
JPH07230294A (ja) 言語識別装置
JPH0361957B2 (ja)
JPH0247756B2 (ja)
JP2574242B2 (ja) 音声入力装置
Lee et al. Speaker‐independent phoneme recognition using hidden Markov models
JPS6180298A (ja) 音声認識装置
JPS60182499A (ja) 音声認識装置
JPH0320759B2 (ja)
JPS60150098A (ja) 音声認識装置
JPH067359B2 (ja) 音声認識装置
JPS6336678B2 (ja)
JPH07113838B2 (ja) 音声認識方法
JPH0552516B2 (ja)
JP3231365B2 (ja) 音声認識装置
JPH0247758B2 (ja)
JPS62294298A (ja) 音声入力装置
JPH06100919B2 (ja) 音声認識装置