JPH0346840B2 - - Google Patents

Info

Publication number
JPH0346840B2
JPH0346840B2 JP59269919A JP26991984A JPH0346840B2 JP H0346840 B2 JPH0346840 B2 JP H0346840B2 JP 59269919 A JP59269919 A JP 59269919A JP 26991984 A JP26991984 A JP 26991984A JP H0346840 B2 JPH0346840 B2 JP H0346840B2
Authority
JP
Japan
Prior art keywords
pattern
section
standard pattern
length
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP59269919A
Other languages
English (en)
Other versions
JPS61148496A (ja
Inventor
Masao Watari
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP59269919A priority Critical patent/JPS61148496A/ja
Publication of JPS61148496A publication Critical patent/JPS61148496A/ja
Publication of JPH0346840B2 publication Critical patent/JPH0346840B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明の連続音声認識装置に関し、特に文法に
従つて連続発声された文音声を認識する装置の改
良に関する。
(従来の技術) 音声認識装置の中でも文法に従つて発声された
文音声を認識する装置は、計算機プログラムや限
定業務用文章あるいは航空管制や各種機器の制御
用指令などの認識ができ広範囲な応用分野を有し
ている。文法の拘束が与えられている場合には、
その文法規則を利用することによつて誤認識を防
止できることが原理的に知られている。特に連続
数字認識において入力音声に桁数の制約がある場
合、その制約を規則化することにより認識率を改
善することができる。
このような文法に従つて連続に発声された文音
声を認識する手法が本願の発明者による特願昭59
−68015号明細書「連続音声認識装置」に記載さ
れている。
この原理である斜めブロツクワイズDPマツチ
ング法は大略次のようである。文法をオートマト
ンαで表現し、そのオートマトンαを次のように
定義する。
α=<K、Σ、Δ、P0、F> ……(1) ここで、 K:状態pの集合{p|p=1、2、…π} Σ:入力単語nの集合{n|n=1、2、…N Δ:状態遷移規則{(p、q、n)}ここで、(p、
q、n)はpn → qなる状態遷移を意味する。
P0:初期状態、以後はp=0で示す。
F:最終対集合F⊂K 次に前記オートマトンαに従つて単語n∈Σを
連続して発声して得られる音声パタンAを A=a1、a2、…a1、…aI ……(2) で示し、これを(未知)入力パタンと呼ぶ。各単
語n∈Σに対して標準的なパタン Bn=Bn 1、bn 2、…bn j、…bo o j ……(3) を用意し、これを単語標準パタンと呼ぶ。この単
語標準パタンBnをオートマトンαに従つて接続
することによつて得られる連続音声標準パタンC
=Bn1、Bn2、…Bnxと入力パタンAとのDPマツチ
ングを行い、2つのパタンの相互に異なる度合を
表わす量(以下相異度と称する)を算出し、最小
の相異度を与える単語系列を認識結果とする。
ここで最小の相異度を次のような動的計画の手
法で求める。初期条件を T(0、0)=0 T(m、q)=∞、m≠0、q≠0 ……(4) G(p、n、j)=∞ とし、i=1よりI/IL(ここでI/ILは説明の
簡単のため割り切れるとする)まで順次次の(5)、
(6)式の境界条件を基に(7)式の漸化式を(p、q、
n)∈Δなるすべての対(p、n)について計算
する。すなわち、境界条件を g(m−1、0)=T(m−1、
p)m=msp、…mep h(m−1、0)=m−1 m=msp、…mep ただしmsp=(i−1)・IL+1、mep=i・JL ……(5) とし、j=1、…Jnなる各標準パタン時刻jにつ
いて msj=msp+〔j・a〕 mej=msj+IL−1 ただし〔x〕はxより小さな最大の整数とし、
境界条件 g(msj−1、j)=G(p、n、j) h(msj−1、j)=H(p、n、j) ……(6) とし、漸化式 g(m、j)=d(m、j)+g(m−1、j^ h(m、j)=h(m−1、j^ ただし d(m、j)=Dis(an、bn j j^=argmin g(m−1、j′) j−2j′j ……(7) を時刻m=msjよりmejまで計算し、境界値である
g(mej、j)、h(mej、j)をそれぞれテーブル
記憶G(p、n、j)、H(p、n、j)へ格納す
る。
(7)式の計算が標準パタン時刻j=Jnまで終了し
た後、単語境界における最小化として if T(m、q)>g(m、Jn) then T(m、q)=g(m、Jn) N(m、q)=n P(m、q)=p L(m、q)=h(m、Jn) ただしm=ms、…me ms=msp+〔Jn・a〕 me=ms+IL−1 ……(8) を計算する。
以上述べたように(7)式の漸化式計算は、第2図
に示すように入力パタンのエレフレーム分をブロ
ツク化し、さらに斜めに傾斜させた斜めブロツク
ごとに実行している。
最後に、入力パタンの認識結果は判定処理とし
て次のような手続きにより求められる。
初期条件 q^=argmin ……(9) q∈F q=q^、m=I ……(10) 認識単語 n^=N(m、q) 単語始点 l^=L(m、q) 状態遷移 q^=P(m、q) ……(11) を求める。
もしl^>0ならばq=q^、m=l^として(11)式
を繰り返す、l^=0ならば終了。
(従来技術の問題点) 前述の特願昭59−68015の方法では、標準パタ
ンと計算の途中結果であるG(p、n、j)、H
(p、n、j)の読み出し、書き込み回数はブロ
ツク幅ILに反比例しており、このブロツク幅IL
が大きいほどメモリアクセス時間を少なくするこ
とができる。
一方、このブロツク幅ILには、aBLをブロツク
の傾きとすると、 mi o〔Jn〕/aBLIL ……(12) なる制約条件があり、最大ブロツク幅は標準パタ
ンの最小フレーム数に依存する。例えば、aBL
DPマツチングパスの最大傾きと等しく通常2で
あるので標準パタンの最小フレーム数を10とすれ
ば、IL=5とすることができる。しかし、IL=
5とすれば10フレームより小さい標準パタンの計
算は実行できない。
このように従来技術による方法では、IL×aBL
フレームより短い標準パタンが存在する場合は、
ブロツク幅ILを小さく変更しなければならず、
メモリアクセス時間が増加し認識結果が得られる
までの応答時間が大きくなるという欠点があつ
た。
また、ブロツク幅ILは漸化式計算の制御部で
定めており、利用者が変更できない場合、標準パ
タンがIL×aBLフレームより長くなるまで再度登
録をやり直さなければならないという欠点があつ
た。さらに、ブロツク幅ILを変更できるように
装置を構成する場合回路が複雑になるという欠点
もあつた。
(発明の目的) 本発明の目的は、標準パタンを登録時に許容さ
れるパタン長より短い標準パタンがある場合、そ
の短い標準パタンを伸長し、許容パタン長以上の
長さの標準パタンに置き換えることにより、前記
欠点を解決し、ブロツク幅ILを変更させること
がなく常に短い一定の応答時間内に認識結果を出
力できる連続音声認識装置を提供することにあ
る。
(発明の構成) 本発明の連続音声認識装置の構成は、標準パタ
ンを登録する際に標準パタン長が許容パタン長よ
り長いか否かを検定するパタン長検定部と、この
パタン長検定部にて標準パタン長が短いと判定さ
れたときこの標準パタンを前記許容パタン長以上
に伸長する伸長パタン部と、前記有限状態オート
マトンにより指定される全ての組合せに対して単
語標準パタンを連結した連続標準パタンと入力パ
タンとの最小距離を入力パタン上で所定の時間幅
を持ち標準パタン軸に対した傾斜した斜めブロツ
クごとに動的計画法を用いて計算する斜めブロツ
クワイズDPマツチング部と、この斜めブロツク
ワイズDPマツチング部で求められた最小距離が
得られる単語の組合せを認識結果として出力する
認識出力部と備えることを特徴とする。
(実施例) 次に本発明を図面に従つて詳細に説明する。
第1図は本発明の一実施例を示すブロツク図で
ある。マイクロホン1より音声が入力されると、
音声分析部2によつて音声分析、例えば周波数分
析が行われ特徴を示すベクトル時系列に変換され
ると同時に音声検出が行われ、音声が存在する時
刻の区間が求められる。
利用者は初めに定められた単語セツトΣ={n}
を音声を発声し、標準パタンとして標準パタンメ
モリ6へ登録する。この登録を行う場合、スイツ
チS1は下側へ倒される。音声分析部2より得られ
た音声区間長lがパタン長検定部3へ送られ、許
容パタン長lmtと比較器により比較される。ま
た、llmtの場合は、制御線Cを介してスイツ
チS2、S3がA側へ倒され、音声分析部2で得られ
た特徴ベクトルの時系列が標準パタンとして標準
パタンメモリ6に格納される。
一方、l<lmtの場合は制御線Cを介してスイ
ツチS2、S3がB側へ倒され、音声分析部2で得ら
れた特徴ベクトル時系列がパタン伸長部4へ送ら
れる。このパタン伸長部4ではlmt−l個の特徴
ベクトルが等間隔に挿入され、lフレームのパタ
ンが線形に伸長されてlmtフレームのパタンとな
る。この場合挿入する特徴ベクトルは隣接する特
徴ベクトルと同一のものである。このパタン伸長
部4にて伸長されたパタンは標準パタンメモリ6
に格納される。
以上のようにしてすべての単語が登録された後
に、スイツチS1はR側へ倒され、認識が開始され
る。未知の入力音声は登録時と同様に音声分析部
2にて特徴ベクトルの時系列に変換され入力パタ
ンメモリ5に格納される。
続いてブロツクワイズDPマツチング部7にて、
入力パタンと標準パタンの間でDPマツチングが
行われ、(4)式を初期値として(5)、(6)、(7)、(8)式が
計算される。このブロツクワイズDPマツチング
部7は特願昭59−68015号明細書や特願昭59−
67116号明細書に記載されている実施例を用いる
ことができる。
最後に、認識結果の出力として判定部8では
(9)、(10)、(11)式が計算され認識結果n^が出力さ
れる。この判定部8も特願昭59−68015に記載さ
れている判定部を用いることができる。
以上本発明を実施例にもとづいて説明したが、
これらの記載は本発明の権利範囲を限定するもの
ではない。本実施例のパタン伸長部ではパタンを
線形に伸長したが、パタンを非線形に伸長する方
法も考えられる。例えば、同じカテゴリですでに
登録されているパタンとDPマツチングを行い、
その結果求められたDPマツチングパスより伸長
させたいパタンとすでに登録されているパタンと
間の時間対応を求めこの時間対応に従つて伸長さ
せる方法も考えられる。
(発明の効果) 以上説明したように、本発明の連続音声認識装
置では、登録時にパタン長を検定し許容されるパ
タン長より短い場合はそのパタンを伸長すること
により、標準パタンを許容パタン長より常に長く
できる。これによつて斜めブロツクワイズDPマ
ツチング部の計算単位であるブロツク幅ILを小
さく変更する必要がなくなり、常に短い一定の応
答時間内に認識結果を得ることができる。また、
従来の方法では標準パタンが短い場合パタンが長
くなるまで登録をやり直さなければならなかつた
が、本発明では再登録する必要はなくなり使い勝
手が向上する。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロツク図、
第2図は斜めブロツクワイズDPマツチングの計
算手順を示す図である。図において、 1……マイクロホン、2……音声分析部、3…
…パタン長検定部、4……パタン伸長部、5……
入力パタンメモリ、6……標準パタンメモリ、7
……斜めブロツクワイズDPマツチング部、8…
…判定部、である。

Claims (1)

    【特許請求の範囲】
  1. 1 有限状態オートマトンにより指定される単語
    列を連続に発声した音声を標準パタンとDPマツ
    チングすることにより認識する連続音声認識装置
    において、前記標準パタンを登録する際に標準パ
    タン長が許容パタン長より短いか否かを検定する
    パタン長検定部と、このパタン長検定部にて標準
    パタン長が短いと判定されたときこの標準パタン
    を前記許容パタン長以上に伸長する伸長パタン部
    と、前記有限状態オートマトンにより指定される
    全ての組合せに対して単語標準パタンを連結した
    連続標準パタンと入力パタンとの最小距離を入力
    パタン上で所定の時間の幅を持ち標準パタン軸に
    対した傾斜した斜めブロツクごとに動的計画法を
    用いて計算する斜めブロツクワイズDPマツチン
    グ部と、この斜めブロツクワイズDPマツチング
    部で求められた最小距離が得られる単語の組合せ
    を認識結果として出力する認識出力部とを備える
    ことを特徴とする連続音声認識装置。
JP59269919A 1984-12-21 1984-12-21 連続音声認識装置 Granted JPS61148496A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59269919A JPS61148496A (ja) 1984-12-21 1984-12-21 連続音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59269919A JPS61148496A (ja) 1984-12-21 1984-12-21 連続音声認識装置

Publications (2)

Publication Number Publication Date
JPS61148496A JPS61148496A (ja) 1986-07-07
JPH0346840B2 true JPH0346840B2 (ja) 1991-07-17

Family

ID=17479040

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59269919A Granted JPS61148496A (ja) 1984-12-21 1984-12-21 連続音声認識装置

Country Status (1)

Country Link
JP (1) JPS61148496A (ja)

Also Published As

Publication number Publication date
JPS61148496A (ja) 1986-07-07

Similar Documents

Publication Publication Date Title
EP0103245B1 (en) Pattern matching apparatus
JP2005043666A (ja) 音声認識装置
JPH0159600B2 (ja)
JPH0157358B2 (ja)
JPH029359B2 (ja)
JP2841404B2 (ja) 連続音声認識装置
JPH0296800A (ja) 連続音声認識装置
JPH0346840B2 (ja)
JPH0346839B2 (ja)
JPH08123469A (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
US4794645A (en) Continuous speech recognition apparatus
JPH0355836B2 (ja)
JP3251480B2 (ja) 音声認識方法
JP3315565B2 (ja) 音声認識装置
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
KR100560916B1 (ko) 인식 후 거리를 이용한 음성인식 방법
CA1308195C (en) Continuous speech recognition apparatus
KR960001950B1 (ko) 음성인식방법 및 그 장치
CA1229922A (en) Speech recognition training method
KR100349341B1 (ko) 유사단어 및 문장 인식시의 인식율 개선 방법
JPH0223876B2 (ja)
JPH0337199B2 (ja)
JPS59172698A (ja) 音声認識装置
JPH0534680B2 (ja)
Lee et al. Dynamic sharings of Gaussian densities using phonetic features