JPH0159600B2

JPH0159600B2 -

Info

Publication number: JPH0159600B2
Application number: JP56199098A
Authority: JP
Inventors: Hiroaki Sekoe
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1981-12-10
Filing date: 1981-12-10
Publication date: 1989-12-18
Also published as: EP0082000B1; EP0082000A1; JPS58100195A; CA1193729A; DE3271214D1; US4555796A

Description

【発明の詳細な説明】本発明は連続音声認識装置、特に文法に従がつ
て連続発生された文音声を該文法に予循すること
なく、しかも効率良く認識する連続音声認識装置
に関する。

音声認識装置の中でも文法に従がつて発声され
た文音声の認識装置は、計算機プログラムや限定
業務用文章あるいは航空管制や船舶制御用の指令
音声の認識など広範囲な応用分野を有している。
文法の拘束が与えられている場合には、その文法
規則を利用することによつて誤認識を防止できる
ことが原理的には知られているが、実用的な音声
認識装置において実現することは必らずしも容易
ではない。

電子通信学会技術報告書PRL80−19（1980年７
月）に“単語を単位とした連続音声認識の一手
法”と題して発表された論文（以下文献(1)とい
う）には有限状態オートマン（以後単にオートマ
ンと呼ぶ）と動的計画法（Dynamic
Pvogramming 以後DPと略称）を利用して、正
規文法言語音声を正確に認識する手法が示されて
いる。

本発明の原理構成を述べるに先立つて上記文献
(1)に示された方法（以後従来方法(1)と称する）の
原理を引用説明する。まず、オートマンαを次の
ように定義する。

α＝＜Ｋ、Σ、△、p₀、Ｆ＞。 (1) ここに、Ｋ：状態ｐの集合｛ｐ｜ｐ＝１、２、……π｝ Σ：入力単語ｎの集合｛ｎ｜ｎ＝１、２……Ｎ｝ △：状態遷移テーブル｛（ｐ、ｑ、ｎ）｝ここに、（ｐ、ｑ、ｍ）はｐｎ ―→ ｑなる状態遷移を意味する。

p₀：初期状態。以後はｐ＝０で示す。

Ｆ：最終状態集合FCK。

次に上記オートマンαに従がつて単語ｎ∈Σを
連続して発声して得られる音声パタンＡをＡ＝〓₁、〓₂、……〓_i……〓_I (2) で示し、これを（未知）入力パタンと呼ぶ。この
音声パタンは、特願昭51−61984におけると同様
に音声波形を分析してフレーム標本化を行なうこ
とによつて得られるものである。

次に各単語ｎ∈Σに対して標準パタン Bⁿ＝〓₁ ⁿ、〓₂ ⁿ……〓_j ⁿ……〓_J ⁿ (3) を用意する（説明の簡単のために各標準パタンの
長さはＪは一定とする）。

いま、入力パタンＡの部分パタンＡ（ｌ、ｍ）
をＡ（ｌ、ｍ）＝〓_l+1、〓_l+2……〓_n (4) と定義し、この部分パタンＡ（ｌ、ｍ、ｎ）と標
準パタンBⁿとの距離をＤ（ｌ、ｍ、ｎ）＝Ｄ（Ａ（ｌ、ｍ）、Bⁿ） (5) で示す。この距離Ｄ（ｌ、ｍ、ｎ）は周知のDPマ
ツチング法で計算される。この距離計算は各時刻
ｉ＝ｍにおいて各単語ｎに対して繰り返される。

次に、（実際には上記の距離計算と並列同期的
に）あらかじめ用意されているテーブルＴ（ｌ、
ｐ）、Ｌ（ｌ、ｐ）、Ｐ（ｌ、ｐ）、Ｎ（ｌ、ｐ）を用
いて、初期条件Ｔ（ｏ、ｏ）＝ｏのもとに、Ｔ（ｍ、ｑ）＝min〔Ｔ（ｌ、ｐ）＋Ｄ（ｌ、ｍ、ｎ）
〕ｌ、ｐ、ｎ (6) ただし、（ｐ、ｑ、ｎ）Ｅ△、ｌ＜ｍなる漸化式計算と、Ｌ（ｍ、ｑ）＝ｌＰ（ｍ、ｑ）＝ｐＮ（ｍ、ｑ）＝ｎ (7) なる代入処理が行なわれる。ここにｌ、ｐ、ｎそ
れぞれは(6)式のパラメータｌ、ｐ、ｎの最適値で
ある。

(6)、(7)式の計算は時刻ｍ＝ＩにおけるＴ、Ｌ、
Ｐ、Ｎの値が得られるまで続けられる。その後 q^＝argmin〔Ｔ（Ｉ、ｑ）〕 (8) ｑ∈Ｆなる操作によつて最適な最終状態q^が決定され
る。ここにargminなる記号は〔〕内の最小を
与えるパラメタを選択することを意味する。

認識結果の導出は次のような手続きで実行され
る。

(i) 初期条件ｑ＝q^、ｍ＝Ｉ (ii) 単語認識結果 n^＝Ｎ（ｍ、ｑ）単語始点 l^＝Ｌ（ｍ、ｑ）状態 p^＝Ｐ（ｍ、ｑ） (iii) もしl^＞ｏならばｑ＝p^、ｍ＝l^として(ii)を
繰
り返す。ｌ＝ｏなら終了。

以上述べた方法では、距離Ｄ（ｌ、ｍ、ｎ）を
算出するためのDPマツチング計算を多数回繰り
返さなくてはならないのが欠点と考えられる。す
なわち、各標準パタンＢ＝Bⁿに対して、各時刻
ｍにおいてｇ（ｍ、Ｊ）＝ｄ（ｍ、Ｊ）を初期条件としてｇ（ｉ、ｊ）＝ｄ（ｉ、ｊ）＋min ｇ（ｉ、＋１、ｊ）ｇ（ｉ、＋１、ｊ＋１）ｇ（ｉ、＋１、ｊ＋２） (9) （ただしｄ（ｉ＋１）はベクトルa_iとb_jとの距離
を示す）なる漸化式をｊ＋ｍ−Ｊ−ｒ≦ｉ≦ｊ＋ｍ−Ｊ＋ｒ (10) なる整合窓内でｊ＝Ｊからｊ＝１まで逆順に繰り
返す必要がある。このことは特願昭54−66589の
第１図に関連して指摘されているように膨大な計
算量を必要とすることになる。

さて、(6)、(7)、(9)式によつて達成されているこ
とは過去の時刻ｌ及び状態ｐにおいて定まつてい
るＴ（ｌ、ｐ）と、その時刻ｌを始端とする部分
パタンＡ（ｌ、ｍ）と標準パタンBⁿとの距離Ｄ
（ｌ、ｍ、ｎ）とから時刻ｍと状態ｑにおけるＴ
（ｍ、ｑ）Ｌ（ｍ、ｑ）、Ｐ（ｍ、ｑ）、Ｎ（ｍ、ｑ）
を定めるという操作である。

IEEE TRANSACTION ON ACOUSTICS、
SPEECH、AND SISNAL PROCESSING、
VOL.ASSP−29、NO.2、（APRIL 1981）の第
284ページから第297ページに“Ａ Level
building dynamic programming algorithm for
connected word recognihion”と題して発表さ
れた論文（以下文献(2)という）には、上記(6)、
(7)、(8)と等価なことを効率良く行なう代案が示さ
れている。それによると文献(2)のFig.3あるいは
それと同種の本明細書の第１図（記号法は本願の
ものに統一している。）に示されるように、状態
ｐにおいてある時刻幅（第１図に参照数字１で示
す）でｇ（ｌ、ｏ）＝Ｔ（ｌ、ｐ）及びｈ（ｌ、ｏ）＝ｌ (11) を境界状件として、漸化式ｇ（ｉ、＋１、ｊ）ｇ（ｉ、ｊ）＝ｄ（ｉ、ｊ）＋min ｇ（ｉ−１、ｊ−
１）ｇ（ｉ−１、ｊ−２） (12) 及び代入演算ｈ（ｉ、ｊ）＝ｈ（ｉ−１、ｊ）、ｇ（ｉ−１、ｊ）が
最小のときｈ（ｉ、ｊ）＝ｈ（ｉ−１、ｊ）、ｇ（ｉ−１、ｊ）が
最小のときｈ（ｉ−１、ｊ−１）、ｇ（ｉ−１、ｊ−１）が最小の
ときｈ（ｉ、ｊ）＝ｈ（ｉ−１、ｊ）、ｇ（ｉ−１、ｊ）が
最小のときｈ（ｉ−１、ｊ−１）、ｇ（ｉ−１、ｊ−１）が最小の
ときｈ（ｉ−１、ｊ−２）、ｇ（ｉ−１、ｊ−２）が最小の
とき（13）を図１の横軸ｉに関してしかるべき幅内で実行し
つつｊを２、３、……Ｊと変化させることによつ
てｇ（ｍ、Ｊ）とｈ（ｍ、Ｊ）を第１図に参照数字
２で示す幅内で得ている。この処理は各標準パタ
ンBⁿに対して実行され、さらに出発点となる状
態ｐも（ｐ、ｑ、ｎ）Ｅ△なる範囲で変化され
る。いま状態ｐを出発点とし、単語ｎに対して実
行された結果得られるｇ（ｍ、Ｊ）をg_p ⁿ（ｍ、
ｑ）で、またｈ（ｍ、Ｊ）をh_p ⁿ（ｍ、ｑ）で示
す。これらが第１図の参照数字１で示す区間内で
求まつた後で状態ｑにおいては第１図の参照数字
２で示した範囲内の各時刻ｍにおいてＴ（ｍ、ｑ）＝min ｐ、ｎ〔g_p ⁿ（ｍ、ｑ）〕（14）Ｐ（ｍ、ｑ）＝p〓；p〓は(14)式の最適なｐＮ（ｍ、ｑ）＝n〓；n〓は(14)式の最適なｎＬ（ｍ、ｑ）＝h_pn〓（ｍ、ｑ）（15）なる操作によつてＴ（ｍ、ｑ）、Ｎ（ｍ、ｑ）、Ｐ
（ｍ、ｑ）、Ｌ（ｍ、ｑ）を定めている。

ここに引用した文献(2)の方法によると、(9)、(10)
式の漸化式計算を各時刻ｍで繰り返していた文献
(1)の方法に比較してかなり少ない計算量でＴ、
Ｎ、Ｐ、Ｌ等の値を算出しすることができる。す
なわち、第１図の参照数字１で示した区間と参照
数字２で示した区間内で(11)、(12)、（13）式を計算
することによつて時刻ｍに対する繰り返しが不要
になり並列的にＴ、Ｎ、Ｐ、Ｌの諸値が求まるの
である。

しかし、この文献(2)の方法ではホートマトンα
の状態遷移△にループが含まれている場合に適用
不可能であるという欠点がある。すなわち、第２
図ａのように自己ループの有る場合を例にとつて
説明すると、状態遷移はｐから発して同じｐに度
入ることになる。このため第２図ｂに示すよう
に、参照数字３で示す区間と参照数字４で示す区
間が重複してしまう。第２図ｂに示した２つの状
態ｐは実際には同一のものであるから、これら区
間３と４の共通部分５のＴ、Ｎ、Ｐ、Ｌのテーブ
ルは(11)〜（14）式の結果破壊されてしまうことに
ある。判定結果を得るためにはＮ、Ｐ、Ｌ等のテ
ーブルを参照する必要があるが、これらのテーブ
ルの内容が破壊されていると正しい判定結果の導
出は不可能である。このことは自己ループに限ら
ず一般的なループ構造に対して言えることであ
る。文献(1)の方法ではループが扱かえることは同
文献に記されているとうりであるが計算量は大き
かつた。文献(2)の方法に至つて、計算量は減少で
きるが、ループが処理できないという重大な欠陥
が生じたのである。

本発明は文献(1)、(2)の従来の技術が有する欠点
を改良して、計算量が少なく、かつループをも処
理できる連続音声認識の原理を確立し、経済的で
かつ高性能な認識装置を提供することを目的とす
る。

本発明の構成を述べるに先立つてその動作原理
の要点を説明しておく。本発明による連続音声認
識装置では(11)、(12)、（13）式の漸化式計算を時刻
ｉ＝ｍに関して同期的に行なうことを特徴として
いる。すなわち時刻ｍにおいて、状態ｐに対してｇ（ｍ−１、ｏ）＝Ｔ（ｍ−１、ｐ）及びｈ（ｍ−１、ｏ）＝ｍ−１（16）なる境界条件を与え、標準パタンＢ＝Bⁿ（ｐ、
ｑ、ｎ）Ｅ△）についてｇ（ｍ、ｊ）＝ｄ（ｍ、ｊ）＋minｇ（ｍ−１、ｊ）ｇ（ｍ−１、ｊ−１）ｇ（ｍ−１、ｊ−２）（17）なる漸化式演算と、ｈ（ｍ、ｊ）＝ｈ（ｍ−１、ｊ）、ｇ（ｍ−
１、ｊ）が最小の時ｈ（ｍ−１、ｊ−１）、ｇ（
ｍ−１、ｊ−１）が最小の時（18）ｈ（ｍ−１、ｊ−２）、ｇ
（ｍ−１、ｊ−２）が最小の時なる代入演算をｊ＝１、２、……Ｊに対じて行な
うことによつて、この時刻ｍにおける g_p ⁿ（ｍ、ｑ）＝ｇ（ｍ、Ｊ） h_p ⁿ（ｎ、ｑ）＝ｈ（ｍ、Ｊ）（19）を得る。通常は（17）式がDP漸化式と呼ばれて
いるが、以下では（17）、（18）式を合わせてDP
マツチング漸化式と呼ぶ。この同一時刻ｍにおい
て（ｐ、ｑ、ｎ）Ｅ△なるすべての標準パタン
Bⁿ及び状態ｐに対して同様の処理を繰り返して
g_p ⁿ（ｍ、ｑ）とh_p ⁿ（ｍ、ｑ）とh_p ⁿ（ｍ、ｑ）と
を得Ｔ（ｍ、ｑ）＝min ｐ、ｎ〔g_p ⁿ（ｍ、ｑ）〕（20）Ｎ（ｍ、ｑ）＝n〓；n〓は(20)式の最適なｎｐ（ｍ、ｑ）＝p〓；p〓は(20)式の最適なｐＬ（ｍ、ｑ）＝h_pn〓（ｍ、ｑ）（21）なる操作によつて（14）、（15）式と等価な結果を
得る。

以上原理を第３図ａ，ｂを引用して、より具体
的に説明する。これらの図はある状態遷移（ｐ、
ｑ、ｎ）に対して（16）、（17）式により漸化式ｇ
が計算される様子を示すもので、ｈに関する計算
も同様である。各時刻ｍにおいては、第３図ａに
示すようにｇ（ｍ、−１、ｊ）の段を参照しつつ、
ｇ（ｍ、ｊ）を算出する。境界条件はｇ（ｍ−１、
ｏ）に対して与えられる。ｇ（ｍ−１、１）から
ｇ（ｍ−１、Ｊ）までの値としては、時刻ｍ−１
における該当（ｐ、ｑ、ｎ）に対する処理の結果
得られた漸化式値ｇ（ｍ−１、１）……ｇ（ｍ−
１、Ｊ）を保存しておきそのまま用いる。ｊを１
からＪまで変化させて（17）式を繰り返すことに
よつて時刻ｍにおける（（ｐ、ｑ、ｎ）に対する）
ｇ（ｍ、１）……ｇ（ｍ、Ｊ）が得られる。この中
のｇ（ｍ、Ｊ）としてg_p ⁿ（ｍ、ｑ）が得られる。
また、ｇ（ｍ、１）……ｇ（ｍ、Ｊ）は次時刻ｍ＋
１での処理での参照されるべく保存される。

このような処理をある状態ｑに対して（ｐ、
ｑ、ｎ）Ｅ△となるすべての組（ｐ、ｎ）に対し
て実行した後（20）式を実行することによつてＴ
（ｍ、ｑ）が得られる。また（21）式の実行によ
つてＮ（ｍ、ｑ）とＰ（ｍ、ｑ）も得られる。（17）
式の処理に並行して（18）式を計算することによ
つてＬ（ｍ、ｑ）も得られる。その後、指定もｑ
をqEKで変化させることによつてこの時刻ｍに
おける処理が終了する。

以上の処理をある特定の単語ｎと状態ｐ及びｑ
の組に関して固定して見ると第３図ｂのような処
理が行なわれている事になる。すなわち第３図ａ
に示したような処理範囲（以下処理窓と呼ぶ）は
時刻ｍと同期して進行する。各時刻での処理窓内
で（16）式から（19）式が計算される。かくして
時刻ｍにおいては、この時刻に至るまでの各時刻
で（16）式から（19）式までを計算し続けて得ら
れた漸化式値g_p ⁿ（ｍ、Ｊ）＝ｇ（ｍ、Ｊ）が得ら
れるのである。また、h_p ⁿ（ｍ、ｑ）＝ｈ（ｍ、Ｊ）
としては、この漸化式値ｇ（ｍ、Ｊ）が第３図ｂ
に参照数字１で示すような軌跡上の距離ｄ（ｉ、
ｊ）の和として得られている場合には、その先頭
時刻（ｌ−１）なる値が得られることになる。

第４図以上の原理を実行するための演算用メモ
リーＴ（ｍ、ｑ）、Ｎ（ｍ、ｑ）、Ｐ（ｍ、ｑ）、Ｌ
（ｍ、ｑ）の構成を示す概念図である。これらは
時として時刻ｌ、状態ｐに対応する（ｌ、ｐ）な
る組によつても番地指定される。

漸化式値ｇ（ｍ、ｊ）は次の時刻ｍ＋１におい
て参照されるから保存される必要がある。これを
記憶するためのテーブルとしてＧ（ｐ、ｎ、ｊ）
を用意する。このテーブルは１時刻間のバツフア
リングができればよいので各時刻で繰り返して使
用できる。したがつて時刻ｍに間する番地指定は
不要である。またｑに関するアドレツシングが不
要なことは後で第６図に関連して説明する。漸化
式Ｇ（ｐ、ｎ、ｊ）のテーブルを第５図に示す。
同様な理由でポインターｈ（ｍ、ｊ）を記憶する
テーブルＨ（ｐ、ｎ、ｊ）を第６図のＧ（ｐ、ｎ、
ｊ）とまつたく同様に用意する。

第６図ａ〜ｃは以上記載の原理を実行する具体
的アルゴリズムを示すフローチヤートである。ブ
ロツク10と11はＧ（ｐ、ｎ、ｊ）とＴ（ｌ、ｐ）及
びＬ（ｌ、ｐ）に初期状件を設定するためのもの
である。各時刻ｍにおいて単語指定信号ｎは１、
２……Ｎと変化される。各単語指定ｎに対して、
ブロツク、12で標準パタンＢ＝Bⁿとして処理窓
内の距離ｄ（ｍ、ｊ）が計算される。これらの距
離ｄ（ｍ、ｊ）は後でブロツク14での処理で参照
されるべく一時記憶される。

この距離ｄ（ｍ、ｊ）が記憶されている間に状
態ｐとｑの対が続々と発生される。（ｐ、ｑ、ｎ）
が状態遷移テーブル△に含まれるような状態対
（ｐ、ｑ）に対してはブロツク13、14、15、16等
の処理が実行される。まず、ブロツク13では単語
指定ｎと状態指定ｐに対応するＧ（ｐ、ｎ、ｊ）
とＨ（ｐ、ｎ、ｊ）とがそれぞれ現時点ｍにおけ
る初期条件ｇ（ｍ−１、ｏ）とｈ（ｍ−１、ｏ）と
してセツトされる。また、Ｇ（ｐ、ｎ、ｊ）及び
Ｈ（ｐ、ｎ、ｊ）が前段時刻ｍ−１における漸化
式値ｇ（ｍ−１、ｊ）、Ｈ（ｍ−１、ｊ）としてセ
ツトされる。ブロツク14では（17）、（18）式の漸
化式計算が行なわれる。その結果得られるｇ（ｍ、
ｊ）とｈ（ｍ、ｊ）とは新たなＧ（ｐ、ｎ、ｊ）と
Ｈ（ｐ、ｎ、ｊ）としてテーブルに格納される。

漸化式値ｇ（ｍ、Ｊ）とｈ（ｍ、ｊ）とは（19）
式のg_p ⁿ（ｍ、ｑ）及びh_p ⁿ（ｍ、ｑ）、相当する
量としてブロツク15、16の処理に引き渡される。
これらのブロツク15、16では（20）、（21）式の最
小値検出及び代入計算が行なわれる。

ここでブロツク13及び14における処理が状態指
定ｑに無関係であることを注意しておく。単語指
定ｎと状態指定ｐのみに依存するのである。この
ためＧ及びＨのテーブルには状態指定ｑによる番
地指定が不要である。さらに後で述べる実施例に
おいては、ブロツク13と14の処理がｑに無関係で
あるという、この性質を利用して処理量を低減で
きることが示される。

かくしてｐ及びｑの組合せがすべて処理される
と次の単語指定（ｎ＋１）に対応する処理に移行
する。すべての単語の処理が終了すると時刻信号
ｍが１増加される。かくして入力音声パタンＡの
最後であるｍ＝Ｉまでの処理が終了すると、第６
図ｄのフローチヤートに示す判定処理に移行す
る。

第６図ｄは判定処理を示すフローチヤートであ
る。これは前記(i)〜(iii)の手続きを図示したもので
ある。

本発明は以上述べた原理に基づくものである。
それゆえ本発明による連続音声認識装置は、入力
音声を特徴の時系列Ａ＝〓₁、〓₂……〓_i……〓_I
に変換する入力部と；単語セツトΣ＝｛ｎ｜ｎ＝
１、２……Ｎ｝中の各単語ｎに対して標準パタン
Bⁿ＝〓₁ ⁿ、〓₂ ⁿ……〓_j ⁿ……〓_J ⁿを記憶する標準パ
タン記憶部と；単語ｎの入力によつて状態ｐより
状態ｑへの遷移が発生することを意味する状態遷
移規則（ｐ、ｑ、ｎ）の群である状態遷移テーブ
ル△と、最終状態の群Ｆとを記憶するオートマト
ン記憶部と；時刻ｍと状態ｑとによつて番地指定
され４種類のテーブル記憶Ｔ（ｍ、ｑ）、Ｐ（ｍ、
ｑ）、Ｎ（ｍ、ｑ）及びＬ（ｍ、ｑ）と；状態ｐと
単語指定ｎ及び標準パタン時刻ｊとによつて番地
指定される２種のテーブル記憶Ｇ（ｐ、ｎ、ｊ）
及びＨ（ｐ、ｎ、ｊ）と；各時刻ｉ＝ｍにおいて
順次変更指定される単語指定信号ｎに対応して標
準パタンBⁿ特徴b_j ⁿと入力パタンの特徴a_nとの距
離ｄ（ｍ、ｊ）（ｊ＝１、２……Ｊ）を算出する距
離計算部と；この単語指定信号ｎによつて生起し
得る状態遷移に対する状態対（ｐ、ｑ）に対し
て、状態ｐと単語指定ｎによつて指定され標準パ
タン時刻指定ｊに対応して前記テーブル記憶Ｇ
（ｐ、ｎ、ｊ）及びＨ（ｐ、ｎ、ｊ）を参照し、前
記テーブル記憶Ｔ（ｍ、ｑ）より読み出される信
号を漸化式境界条件とし、（ｍ−１）を経路境界
条件としてDPマツチング漸化式計算を行ない漸
化式値ｇ（ｍ、ｊ）と経路値ｈ（ｍ、ｊ）を求めて
前記テーブル記憶Ｇ（ｐ、ｎ、ｊ）とＨ（ｐ、ｎ、
ｊ）とに格納するDPマツチング部と、；これによ
り各単語指定ｎに対して算出される漸化式値ｇ
（ｍ、Ｊ）の最小値とそれに対応する単語名ｎ、
経路値ｈ（ｍ、Ｊ）状態指定ｐを定めて前記テー
ブル記憶Ｔ（ｍ、ｑ）、Ｎ（ｍ、ｑ）、Ｌ（ｍ、ｑ）、
Ｐ（ｍ、ｑ）にそれぞれ書き込む比較回路と；前
記時刻ｍ、単語ｎ、状態ｐ、ｑ及び時刻ｊを指定
する信号を発生するための制御部と；最終時刻ｍ
＝Ｉにおいて前記最終状態群Ｆに含まれる状態ｑ
で前記テーブル記憶Ｔ（ｍ、ｑ）の内容が最小と
なるものを定め、この状態ｑ及び時刻ｍをもとに
して前記テーブル記憶Ｐ（ｍ、ｑ）、Ｎ（ｍ、ｑ）
及びＬ（ｍ、ｑ）を参照して認識結果を定める判
定部とより構成される。

以上のごとき構成によれば第６図のフローチヤ
ートに示すアルゴリズムを効率良く実行すること
ができ、これによつてループ構造を有するオート
マトンによる構文制御が可能になる。

第７図は本発明の一実施例を示すブロツク図で
あり、第８図はその動作例を示すタイムチヤート
である。

標準パタン記憶部１３０には単語セツトΣに含
まれる単語ｎの標準パタンBⁿが記憶されている。
オートマトン記憶部２４０には状態遷移規則と最
終状態の指定情態とが記憶されている。本実施例
では状態遷移規則は第９図ａおよびｂのように記
憶されている。第９図ａは状態指定テーブルと呼
ばれ単語ｎによる状態遷移ｐ→ｑとして許される
ｐの集合を指定している。図の例では単語ｎに対
応するｐとしてp₁……ｐ……p_eが生じ得ることが
例示されている。第９図ｂは状遷移テーブルと呼
ばれ単語ｎによつて状態ｐから遷移し得る状態ｑ
の集合を記憶している。図の例ではｑとしてq₁、
q₂、q₃、q₄が生じ得ることを示している。

マイクロホン１００より未知入力音声が入力さ
れると入力部１１０によつて周波数分析がなされ
特徴を示すベクトル〓_iに変換され順次入力パタ
ンバツフア１２０に送られる。また、入力部１１
０には音声レベルを検知することによつて音声区
間を決定する機能が与えられており、音声区間中
では「１」その他は「０」なる音声区間信号Ｓを
発生する。制御部２５０は、この音声区間信号Ｓ
の立上りの時刻において初期化パルスjn（図中省
略）を発生する。これによつて第６図のブロツク
10に対応する初期化がＧメモリー１７０に対して
なされ、ブロツク11に対応する初期化がテーブル
記憶２２０に対してなされる。

以上の初期化が終了すると、以後の入力特徴〓
_ｉの入力に同期して時刻信号ｍが１、２……と計
数される。時刻ｍにおいては入力特徴〓_nが入力
パタンバツフア１２０に保持されている。この時
刻ｍにおいて制御部よりの単語指定信号ｎは１、
２、……Ｎなるごとく変化される。各ｎの値にお
いてオートマトン記憶部２４０中の状態指定テー
ブルが参照され、状態指定信号ｐがp₁からp_eまで
変化されるが、それに先だつて第６図のブロツク
12の処理が実行される。すなわち、距離計算部１
４０において単語指定信号ｎの指定により前記標
準パタン記憶部１３０より読み出されるベクトル
〓_i ⁿと前記入力パタンバツフア１２０より読み出
される特徴ベクトル〓_iとの間の距離ｄ（ｍ、ｊ）
がｊ＝１、２、……Ｊの範囲で算出され、ｊを番
地指定信号として距離記憶部１５０に記憶され
る。

前述の如く、続いて状態指定信号ｐがp₁からp_e
まで変化される。このあたりより以後の処理は第
６図と異なつているが、原理的には等価であり、
かつ効率的にはより有効であることが以下に示さ
れる。状態指定信号がｐなる値の１サイクル内の
動作を以下に説明する。DPマツチング部１６０
の詳細構成例を第１０図に示す。状態指定信号ｐ
が指定されると、最初にテーブル記憶２２０より
Ｔ（ｍ−１、ｐ）が信号線T₂に読み出されレジス
タ１６０１に記入されレジスタ１６０６には（ｍ
−１）なる数値が書き込まれる。また、これと同
時にレジスタ１６０２には十分大きな数値（設計
によりこのレジスタに割り当てられたビツト数で
表現し得る最大の数値）がセツトされる。続いて
標準パタン時刻信号ｊが１にセツトされるとレジ
スタ１６０１，１６０２，１６０３の内容は左方
向へ、またレジスタ１６０６，１６０７，１６０
８は下方向へシフトするが如く転送され、同時に
テーブル記憶１７０（第７図参照）よりＧ（ｐ、
ｑ、１）が読み出され、レジスタ１６０１に記入
され、テーブル記憶１８０（第７図）からＨ（ｐ、
ｎ、１）が読み出されレジスタ１６０６に記入さ
れる。この時点でレジスタ１６０２と１６０７の
中に保持される値g₂とh₂はそれぞれ第６図のブロ
ツク13、14及び（16）式より分るように、漸化式
（17）、（18）の境界条件ｇ（ｍ−１、ｏ）とｈ（ｍ
−１、ｏ）に対応している。またレジスタ１６０
１と１６０６の中に保持される値g₁とh₁はそれれ
ぞれｇ（ｍ−１、１）ｈ（ｍ−１、１）となつてい
る。かくして（17）、（18）式をｊ＝１に関して計
算するのに必要なｇ（ｍ−１、ｊ）が与えられた
ことになる。なお、この時点でレジスタ１６０３
にg₃∞が保持されているのはｊ＝１の時点におい
てはｇ（ｍ−１、ｊ−２）＝ｇ（ｍ−１、−１）が定
義されないことに対応している。すなわち（17）
式においてg₃＝ｇ（ｍ−１、ｊ−２）が選択され
るのを防止するためである。

以後は順次標準パタン時刻ｍ信号ｊが増加され
ながら（17）、（18）式の計算が繰り返し実行され
る。標準パタン時刻信号が一般的にｊなる値をと
る時の動作を以下に説明する。この時点ではレジ
スタ１６０１，１６０２，１６０３にはそれぞれ
ｇ（ｍ−１、ｊ）＝Ｇ（ｐ、ｎ、ｊ）、ｇ（ｍ−１、
ｊ−１）＝Ｇ（ｐ、ｎ、ｊ−１）、ｇ（ｍ−１、ｊ−
２）＝Ｇ（ｐ、ｎ、ｊ−１）が、またレジスタ１６
０６，１６０７，１６０８にはそれぞれｈ（ｍ−
１、ｊ）、ｈ（ｍ−１、ｊ−１）、ｈ（ｍ−１、ｊ−
２）が保持されている。最小値検出部１６０４で
はレジスタ１６０１，１６０２，１６０３の内容
である信号g₁、g₂、g₃の最小値が決定され最小値
信号g_nとして出力される。同時にこの最小値が
g₁、g₂、g₃のいずれであつたかに対応してスイツ
チ信号Ｃ＝１、２、３を出力する。距離記憶部１
５０（第７図）からは、制御部よりの標準パタン
時刻信号ｊの指定によつて距離ｄ（ｍ、ｊ）が信
号ｄとして出力される。加算器１６０９ではこの
信号ｄと前記最小値信号g_nとの和を計算する。
かくして得られる信号g²は漸化式（17）の計算結
果ｇ（ｍ、ｊ）となる。この信号g²は新たなＧ
（ｐ、ｎ、ｊ）としてテーブル記憶１７０に記入
される。マルチプレクサ１６０５では前記のスイ
ツチ信号ｃに制御されてレジスタ１６０６，１６
０７，１６０８よりの信号h₁、h₂、h₃が選択され
る。すなわちｃが１、２、３であるのに対応して
h₁、h₂、h₃が選ばれる。この結果出力される信号
h²は（18）式の計算結果ｈ（ｍ、ｊ）となつてい
る。この信号h²はテーブル記憶１８０に新たなＨ
（ｐ、ｎ、ｊ）として書き込まれる。

かくして標準パタン時刻指定信号がｊ＝Ｊまで
変化され終つた時点でｇ（ｍ、Ｊ）とｈ（ｍ、Ｊ）
とが得られる。これらの信号はレジスタ１６１０
と１６０２とに書き込まれ、これらを経由してそ
れぞれ信号T₁、ｈとして出力される。かくして
DPマツチング部１６０の動作が１回終了する。

次に制御部２４０から、オートマトン記憶部、
２４０内の状態遷移テーブルを参照することによ
つて、現在の状態指定信号ｐと単語指定信号ｎに
対応する状態群ｑ＝q₁、q₂、q₃、q₄が読み出さ
れ、これらに対して第６図ブロツク15と16の処理
が実行される。テーブル記憶２２０に上記の状態
指定ｑが与えられると、信号T₂としてＴ（ｍ、
ｑ）が読み出される。この信号は比較回路１９０
に送られDPマツチング部１６０より前記信号、
T₁（＝ｇ（ｍ、Ｊ））と比較される。T₁＜T₂なる
時は書き込みパルスwpが発生される。これによ
つて、テーブル記憶２２０には信号T₁＝ｇ（ｍ、
Ｊ）が、テーブル記憶２３０には信号ｈ＝ｈ（ｍ、
Ｊ）がテーブル記憶２２０には状態指定信号ｐ
が、テーブル記憶２１０には単語指定信号ｎが、
それぞれＴ（ｍ、ｑ）、Ｌ（ｍ、ｑ）、Ｐ（ｍ、ｑ）、
Ｎ（ｍ、ｑ）として記入される。すなわち、第６
図のブロツク16の処理が実行される。これに対し
てT₁＞T₂なる時はこれらの記入処理はなされな
い。

状態指定信号ｑがq₁からq₄まで変化され各ｑの
値において上記の条件につき代入処理を繰返すこ
とによつて、この状態指定信号ｐに関する処理が
終了する。

さらに状態指定信号ｐがp₁からp_eまで変化さ
れ、この間に各ｐの値に対して上記処理が繰り返
されることによつてこの単語指定信号ｎに対する
処理が終了する。

単語指定信号ｎが１、２、……Ｎと変化される
間に上記と同様な処理が繰り返されて現時刻ｍに
おける処理が終了する。

以下の説明では状態指定信号ｑに関する繰り返
しが第６図のフローチヤートと異なつている。こ
れは第６図のブロツク15、16におけるｇ（ｍ、
Ｊ）、ｈ（ｍ、Ｊ）が単語指定ｎと状態指定ｐにの
み依存し、もう１個の状態指定ｑには独立である
ことを利用したものである。すなわち、本実施例
に述べた繰り返し制御によれば、ブロツク13と、
14の処理をｑに関して繰り返す必要が無いため計
算量の低減が可能になる。また、第６図のブロツ
ク15と16の処理は、本実施例の方法でもすべての
状態遷移規則（ｐ、ｑ、ｎ）に対して実行される
ことは明らかであるので、得られる結果は第６図
の場合と等価である。

ともあれ、かくのごとき処理が時刻ｍの増加に
同期して繰り返される。音声の入力が終了すると
前記音声区間信号ＳはＯにリセツトされる。これ
によつて上記各部の処理が終了し、その時点の時
刻信号ｍが入力パタン長Ｉに対応する。

続いて判定処理が開始される。判定部２６０
は、周知のマイクロプロセツサで構成され、オー
トマトン記憶部２４０から最終状態集合Ｆを、テ
ーブル記憶２００，２２０，２３０からそれぞれ
Ｐ（ｍ、ｑ）、Ｎ（ｍ、ｑ）、Ｌ（ｍ、ｑ）を参照し
て第６図ｄの判定処理を実行し、判定結果を出力
する。この処理略はマイクロプロセツサのプログ
ラムで実行できるものであるので詳細は省略す
る。

以上、本発明の構成を実施例にもとづいて説明
したが、これらの記載は本発明の権利範囲を限定
するものではない。特に本発明ではDPマツチン
グの漸化式として最も簡単な（17）式を用いた
が、他のより高性能なものを用いる方法も考えら
れる。

例えばｇ（ｍ、ｊ）＝min ｇ（ｍ−２、ｊ−１）＋ｄ（
ｍ−１、ｊ）＋ｄ（ｍ、ｊ）ｇ（ｍ−１、ｊ−１）＋ｄ（ｍ、ｊ）ｇ（ｍ−１、ｊ−２）＋ｄ（ｍ、ｊ）なるものを用いる方法が考えられる。ただし、こ
の場合には漸化式値は時刻（ｍ−２）まで、距離
も時刻（ｍ−１）まで保存しなくてはならないの
でテーブル記憶Ｇ（ｐ、ｎ、ｊ）と同様なものを
増設する必要がある。また、本説明では距離を基
本として認識を行なつたが、相関を基本として認
識する方法も考えられる。この場合には、大小関
係が逆になるので本説明の最大値検出機能を、す
べて最小値検出機能に置換する必要がある。これ
らの自明な変更は本発明の権利範囲に属するもの
である。

【図面の簡単な説明】

第１図、第２図ａおよびｂは従来技術を説明す
るための図である。第３図ａおよびｂ、第４図な
らびに第５図は本発明の原理を説明するための図
である。第６図ａ〜ｄは本発明の原理を説明する
ためのフローチヤートである。第７図は本発明の
一実施例のブロツク図である。第８図は第７図の
実施例の動作を説明するためのタイムチヤートで
ある。第９図ａおよびｂは第７図の実施例の一部
詳細構成を示す説明図である。第１０図は第７図
の実施例の一部詳細構成を示すブロツク図であ
る。１００……マイクロホン、１１０……入力部、
１２０……入力パタンバツフア、１３０……標準
パタン記憶部、１４０……距離計算部、１５０…
…距離記憶部、１６０……DPマツチング部、１
７０……テーブル記憶Ｇ、１８０……テーブル記
憶、１９０……比較回路、２００，２１０，２２
０，２３０……テーブル記憶、２４０……オート
マトン記憶部、２５０……制御部、２６０……判
定部。

Claims

【特許請求の範囲】

１入力音声を特徴の時系列Ａ＝〓₁、〓₂……〓_i
……〓_Iに変換する入力部と；単語セツトΣ＝
｛ｎ｝の中の各単語ｎに対して標準パタンBⁿ＝〓
₁ ⁿ、〓₂ ⁿ……〓_j ⁿ……〓_J ⁿを記憶する標準パタン記
憶部と；単語ｎの入力によつて状態遷移ｐ→ｑが
生じることを意味する規則（ｐ、ｑ、ｎ）の群で
ある状態遷移テーブル△と最終状態の群Ｆとを記
憶するオートマトン記憶部と；時刻ｍと状態ｑと
によつて番地指定されるテーブル記憶Ｔ（ｍ、
ｑ）、Ｐ（ｍ、ｑ）、Ｎ（ｍ、ｑ）及びＬ（ｍ、ｑ）
と、；状態ｐと単語指定ｎ及び標準パタン明刻ｊ
とによつて番地指定されるテーブルＧ（ｐ、ｎ、
ｊ）及びＨ（ｐ、ｎ、ｊ）と；各時刻ｉ＝ｍにお
いて順次変更指定される単語指定信号ｎに対応し
て標準パタンの各特徴〓_j ⁿと入力パタンの特徴〓
_ｎとの距離ｄ（ｍ、ｊ）を算出する距離計算部と；
この単語指定ｎに対応して生起し得る状態（ｐ、
ｑ）に対して、状態ｐと単語指定ｎによつて指定
され、かつ標準パタン時刻指定ｊに対応して前記
テーブル記憶Ｇ（ｐ、ｎ、ｊ）及びＨ（ｐ、ｎ、
ｊ）を参照し、前記テーブル記憶Ｔ（ｍ、ｑ）よ
り読み出される信号を漸化式境界条件とし、（ｍ
−１）を経路境界条件としてDPマツチング漸化
式値ｇ（ｍ、ｊ）と経路値ｈ（ｍ、ｊ）を求めて前
記テーブル記憶Ｇ（ｐ、ｎ、ｊ）とＨ（ｐ、ｎ、
ｊ）とに格納するDPマツチング部と；これによ
り各単語指定ｎに対して算出される漸化式値ｇ
（ｍ、Ｊ）の最小値を単語名ｎ、状態指定ｐに関
し定め、これ及びそれに対応する単語名ｎ、経路
値ｈ（ｍ、Ｊ）、及び状態指定ｐを定めて前記テー
ブル記憶Ｔ（ｍ、ｑ）、Ｎ（ｍ、ｑ）、Ｌ（ｍ、ｑ）
及びＰ（ｍ、ｑ）にそれぞれ書き込む比較回路と、
前記時刻ｍ、単語指定ｎ、状態指定ｐ、ｑ及び標
準パタン時刻ｊ等の信号を発生するための制御部
と；最終時刻ｍ＝Ｉにおいて、前記最終状態群Ｆ
に含まれる状態ｑで前記テーブル記憶Ｔ（ｍ、ｑ）
が最小となるものを定め、この状態ｑ及び時刻ｍ
をもとにして前記テーブル記憶Ｐ（ｍ、ｑ）、Ｎ
（ｍ、ｑ）及びＬ（ｍ、ｑ）を参照して認識結果を
定める判定部とを具備することを特徴とする連続
音声認識装置。