JPH0465397B2

JPH0465397B2 -

Info

Publication number: JPH0465397B2
Application number: JP62061736A
Authority: JP
Inventors: Hiroaki Sekoe
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1987-03-16
Filing date: 1987-03-16
Publication date: 1992-10-19
Also published as: JPS63226697A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は人間が発声した音声を自動認識する音
声認識等の主要処理であるパターンマツチング方
式に関する。

（従来の技術）音声認識のパターンマツチングに関しては種々
の技術が開発されているが、それらの中で最も重
用されているものの一つとして「日本音響学会誌
第42巻９号（昭和61年９月発行）の第725頁に記
載されるが如きDPマツチング法がある。これは
音声の時間軸歪を整合する手法として極めて有効
とされている。また、DPマツチング法を連続単
語認識に拡張したものとして、特願昭56−199098
号明細書に記載される如きクロツクワイズDP法
がある。この手法は構文制御を有する連続単語認
識法として説明されているが、その特殊形として
当然離散単語認識をも包含している。ここでは簡
単のため離散単語認識の形式で、クロツクワイズ
DP法の要部を説明する。

単語名を番号ｎで指定することとして｛ｎ｜ｎ＝１、２、……Ｎ｝なる単語セツトを認識対象とする。各単語に標準
パターン Bⁿ＝〓₁ ⁿ、〓₂ ⁿ……〓_j ⁿ……〓ⁿ _Jo を考える。ここにｊは時刻を示し、〓_j ⁿは標準パ
ターンBⁿの時刻ｊの特徴を意味する。入力音声
パターンを同様にＡ＝ａ｜₁、ａ｜₂……ａ｜_i……ａ｜_I と示す。

音声認識は、入力パターンＡと標準パターン
Bⁿとのパターン間距離Ｄ（Ａ、Bⁿ）を求め、それ
が最小となるｎを定め、認識結果とすることによ
つて行なわれる。

DPマツチングではこのパターン間距離の計算
を一例として次のような動的計画法計算によつて
行なう。

Γ 初期条件 gⁿ（１、１）＝dⁿ（１、１） ……(1) Γ漸化式 gⁿ（ｉ、ｊ）＝dⁿ（ｉ、ｊ）＋mingⁿ（ｉ−
１、ｊ） gⁿ（ｉ−１、ｊ−１） gⁿ（ｉ−１、ｊ−２） ……(2) ｉ＝１、２、……Ｉｊ＝１、２、……Ｊパターン間距離Ｄ（Ａ、Bⁿ）＝gⁿ（Ｉ、Jⁿ） ……(3) ここにdⁿ（ｉ、ｊ）は特徴ａ｜_iと〓_j ⁿの距離dⁿ
（ｉ、ｊ）＝‖ａ｜_i、−〓_j ⁿ‖である。これを積分し
た形式となる。gⁿ（ｉ、ｊ）を最適累積距離と呼
ぶ。

このDPマツチング処理は当初、単語ごとに実
行されていたが、クロツクワイズDP法では各単
語に対して並列的に実行される形式に改良され
た。すなわち、第１図のような、ｉ、ｊ、ｎが張
る空間において入力パターンの各時刻ｉにおい
て、各標準パターンBⁿの指定ｎと、それらの中
のｊのすべての組み合わせで指定されるｎ、ｊに
対してgⁿ（ｉ、ｊ）なる最適累積値を計算し、し
かる後に時刻ｉを進めて処理を実行するという方
式になつている。

実際の計算においては図の空間すべてのワーク
エリアを用意する必要はなく、ｉ方向に関しては
時刻ｉとｉ−１の２時刻分あれば(2)の計算を進め
ることができる。このような方法は入力パターン
の特徴ａ｜_iの入力に同期して処理を進めることが
できるので、発声と並行して認識のための計算を
進行することができ、実時間性が良いとされる。

（発明が解決しようとする問題点）しかし、この方法を大語いの認識に適用しよう
とする計算量が大でgⁿ（ｉ、ｊ）を保持するため
のワークエリアが膨大になるという問題がある。
すなわち(2)式の漸化式はｉのサイクル内でｎとｊ
のすべての組み合わせについて実行し、かつ記憶
しなくてはならない。標準パターン長がJⁿ＝30
で、Ｎ＝1000語を認識しようとすると、３×10⁴
の点で(2)式を計算し、その結果を保持しなくては
ならない。

本発明はクロツクワイズDPマツチングの有す
る計算量が多く、かつワークエリアが大となると
いう上記欠点を改良して、高速で大語い認識が可
能でありながら、小型で低価格な音声認識装置を
実現できるパターンマツチング方式を提供するこ
とを目的とする。

（問題点を解決するための手段）本発明によるパターンマツチング方式は、上記
クロツクワイズDPマツチングの(2)式の漸化式計
算を実行するに当り、過去に計算された最適累積
値に基づいて新たな最適累積値gⁿ（ｉ、ｊ）を計
算する点（ｎ、ｊ）を制限し、かつこれらの新た
な最適累積値の記憶エリアを生成することを特徴
とする。

（作用・原理）元来DPマツチングは第１図の如きｎ、ｉ、ｊ
が張る空間において、各単語ごとに、（１、１）
点から（Ｉ、Jⁿ）点に至る経路でdⁿ（ｉ、ｊ）の
総和、すなわち累積値が最小となるものを探索す
るものである。この過程で計算される最適累積値
gⁿ（ｉ、ｊ）は、単語ｎの（１、１）点から（ｉ、
ｊ）点に至る距離dⁿ（ｉ、ｊ）の累積値を与えて
いる。したがつてgⁿ（ｉ、ｊ）の値が大であると
いうこと、この点（ｉ、ｊ）が最適経路上にある
可能性が低いことを意味する。本発明の第１の特
徴はgⁿ（ｉ、ｊ）が大となる予測される場合は、
DPの漸化式計算を省略することによつて高速化
を画る点にある。

具体的には第２図に示すように、過去のクロツ
ク（ｉ−１）で計算された最適累積値gⁿ（ｉ、ｊ）
を所定の基準で検定し、その値が小である（ｎ、
ｊ）の点の集合ｗ（図の○で表示）を定め、新た
な最適累積値gⁿ（ｉ、ｊ）を算出するための(2)式
の漸化式計算は、これらの点の近傍のみで行なう
ものとする。

しかし、この対策のみでは確かに計算量は低減
されるが、gⁿ（ｉ、ｊ）の記憶エリアが大である
という問題が依然として残る。そこで本発明では
新たに計算されたgⁿ（ｉ、ｊ）を保持するための
ワークエリアを生成し用いることにより、算出さ
れないgⁿ（ｉ、ｊ）に対する記憶を不要とするこ
とを特徴とする。

第３図ａ，ｂはこのためのワークエリアの構成
例である。第１のエリアは同図ａのようにG1(k)
にgⁿ（ｉ、ｊ）が記憶され、それに対応するｎと
ｊがn1(k)とj1(k)に記憶される。第２のエリアは同
図ｂのように１時刻前の情報が記憶される。G2
(k)にgⁿ（ｉ−１、ｊ）が、それに対応するｎとｊ
がn2(k)とj2(k)とに、それぞれに記憶される。

このような形式でgⁿ（ｉ−１、ｊ）やgⁿ（ｉ、
ｊ）を扱う場合、第２図のように直接的な形式で
記憶様式のときのように、(2)式の漸化式をそのま
ま実行するのは不可能である。なぜならば、右辺
のgⁿ（ｉ−１、ｊ）、gⁿ（ｉ−１、ｊ−１）、gⁿ（ｉ
−１、ｊ−２）の１部あるいは全部がG2(k)、n2
(k)、j2(k)として記憶されていない事態が生じるか
らである。

そこで本発明の実施態様においては、処理しよ
うとする（ｎ、ｊ）と、直前に処理したｎとｊの
組（n′、j′）との間の相互関係によつて、漸化式
の計算と、gⁿ（ｉ、ｊ）のためのワークエリア生
成を制御することを特徴とする。

以上を整理して、動的計画法の漸化式(2)の例を
用い本発明の原理を以下に説明する。時刻ｉにお
いて漸化式(2)を計算しようとする場合、gⁿ（ｉ−
１、ｊ）が大であるということは、この最適累積
値は漸化式(2)の最小値検出機能で除外されてしま
い、将来の時刻における最適累積値に貢献するこ
とは少ないと考えられる。そこで各時刻ｉにおい
て、閾値θ(i)を定め gⁿ（ｉ−１、ｊ）＞θ(i) ……(4) なる、最適累積値が関係する処理は省略すること
とする。すなわち、G2(k)≦θ（ｉ）なるｎ＝n2
(k)、ｊ＝j2(k)に対応する（ｎ、ｊ）のみで処理を
行なう。次に、このｋの直前でG2(k)≦θ(i)とな
つて処理されたn′＝n2(k)、j′＝j2(k)の組（n′、j′
）
を考える。また、漸化式計算を行なうプロセツサ
にR0、R1、R2なるレジスタが内蔵され、（n′、
j′）における処理が終了した時点で、R1＝gⁿ′
（ｉ−１、j′）、R2＝gⁿ′（ｉ−１、j′−１）となつ
ているとする。この状態で（ｎ、ｊ）において行
なう処理は（ｎ、ｊ）と（n′、j′）の相互関係に
よつて次のように切り分けることができる。

(A) ｎ＝n′、ｊ−j′＝１のとき第４図ａの場合に相当する。すなわち、（ｉ、
j′）においてgⁿ′（ｉ、j′）が計算され、次にｊ
＝j′＋１なる点において、gⁿ（ｉ、ｊ）を計算
する場合である。このときR1の内容はgⁿ′（ｉ
−１、j′）＝gⁿ（ｉ−１、ｊ−１）、R2の内容は
gⁿ′（ｉ−１、j′−１）＝gⁿ（ｉ−１、ｊ−２）で
ある。R0にG2(k)＝gⁿ（ｉ−１、ｊ）を読み出す
と、これらからgⁿ（ｉ、ｊ）が gⁿ（ｉ、ｊ）＝dⁿ（ｉ、ｊ）＋min （R0、R1、R2） ……(5) と計算される。この値はG1（k′）に書き込ま
れ、かつｎとｊとがn1（k′）とj1（k′）とに書き
込まれる。かくして新たな情報がG1（k′）、n1
（k′）、j1（k′）に書き込まれたのでk′を１だけ
カウントアツプする。以上の処理の後でR1→
R2、R0→R1とすると次の（ｎ、ｊ）の処理を
行なうときにはR1＝gⁿ′（ｉ−１、j′）、R2＝
gⁿ′（ｉ−１、j′−１）という状態となる。

以上をまとめるとｎ＝n′、ｊ−j′＝１のとき
の処理は、R0にすでにG1(k)＝gⁿ（ｉ、ｊ）がセ
ツトされているとして dⁿ（ｉ、ｊ）＋min（R0、R1、R2）→G1（k
′）ｎ→n1（k′）、ｊ→j1（k′） k′＋１→k′ R1→R2、R0→R1 (6) となる。

(B) ｎ＝n′、ｊ−j′＝２のとき、第４図ｂの場合である。このときはgⁿ（ｉ−
１、j′＋１）がG2(k)のテーブルに含まれていな
かつたことになる。しかし、R1＝gⁿ′（ｉ−
１、j′）、R2＝gⁿ′（ｉ−１、j′−１）となつて
いるので、gⁿ（ｉ、j′＋１）は次のように計算
される。

gⁿ（ｉ、j′＋１）＝dⁿ（ｉ、j′＋１）＋min（R1、R2）また、gⁿ′（ｉ−１、j′）＝gⁿ（ｉ−１、ｊ−２）と
なることから gⁿ（ｉ、ｊ）＝dⁿ（ｉ、ｊ）＋min（R0、R1）と計算される。以上を(6)式と同様にまとめると dⁿ（ｉ、j′＋１）＋min（R1、R2）→G1（k′）ｎ→n1（k′）、j′＋１→j1（k′） k′＋１→k′ dⁿ（ｉ、j′）＋min（R0、R1）→G1（k′）ｎ→n1（k′）、ｊ→j1（k′） k′＋１→k′ R0→R1、∞→R2 ……(7) この中での∞→R2なる操作はgⁿ（ｉ−１、ｊ−
１）が未定義であることを示すものである。

(C) ｎ＝n′、ｊ−j′＞２のとき第４図ｃの場合である。上記(B)の類堆とし
て、次のような処理を行なうことになる。

（gⁿ′（ｉ、j′＋１）のため） dⁿ′（ｉ、j′＋１）＋min（R1、R2）→G1（k′） n′→n1（k′）、j′＋１→j1（k′） k′＋１→k′ （gⁿ′（ｉ、j′＋２）のため） dⁿ′（ｉ、j′＋２）＋R1→G1（k′） n′→n1（k′）、j′＋２→j1（k′） k′＋１→k′ （gⁿ（ｉ、ｊ）のため） dⁿ（ｉ、ｊ）＋R0→G1（k′）ｎ→n1（k′）、ｊ→j1（k′） k′＋１→k′ （次の（ｎ、ｊ）への準備） R0→R1、∞→R2 ……(8) (D) ｎ≠n′のとき R1、R2の内容が、gⁿ（ｉ、ｊ）に影響しない
ので、上記(C)と同様の処理でよい。

以上の如く、（ｎ、ｊ）と（n′、j′）の相互関係
によつて処理を切り替えて行なう。R0＝G2(k)＞
θ(i)なる総てのｎ＝n2(k)、ｊ＝j2(k)に対してこの
ような処理を行なうことによつて、この時刻ｉで
の処理が終了する。G1(k)、n1(k)、j1(k)をG2(k)、
n2(k)、j2(k)とそれぞれ切り替え、ｉ＋１→ｉとし
て次の時刻での処理へ移行する。

かくして、元の漸化式空間（ｎ、ｉ、ｊ）での
処理と同等の処理を、性能はほとんど落すことな
く少量の計算量とメモリー量で実行できることと
なつた。

実施例以上のパターンマツチング原理により動作する
音声認識装置の構成例を第５図に示す。マイクロ
ホン１０より入力された音声波形は分析部２０に
よつて周波数分析され、特徴a_iの時系列として、
マイクロプロセツサ３０に入力される。このマイ
クロプロセツサ３０には、レジスタR0、R1、R2
及びｋ、k′、ｎが内蔵され、かつ３種のメモリ４
０，５０，６０が接続されている。標準パターン
メモリ４０には標準パターンBⁿ＝b₁ ⁿ、b₂ ⁿ……b_j ⁿ
……bⁿ _Joが記憶される。ワークメモリ５０には１
時刻前に計算されたデータG2(k)、n2(k)、j2(k)が
記憶され、ワークメモリ６０は新たに計算される
G1(k)、n1(k)、j1(k)の記憶エリアとなる。入力パ
ターンが与えられると、ａ｜₁の入力に応じて(1)式
の初期条件設定がワークメモリ５０に対して、次
のように行なわれる。

G2(k)＝d^k（１、１） n2(k)＝ｋ j2(k)＝１Ｋ＝Ｎ ……(9) これはgⁿ（１、１）＝dⁿ（１、１）なる初期条件
をｎ＝１、２……Ｎに対して行なうことに相当す
る。時刻ｉでａ｜_iが与えられた時の処理をフロー
チヤートして第６図ａ〜ｅに示す。ａ｜_iを入力し
て以後ブロツク１１０までの処理はｋ＝１である
初期の（ｎ、ｊ）に対する処理である。ブロツク
１１３の処理でワークメモリ５０よりG2(k)がレ
ジスタR0に移され、ブロツク１１４の判定処理
で闘値θ(i)との比較がなされる。闘値θ(i)の定義
には種々のものが考えられるが、最も簡単なもの
は θ(i)＝α・ｉ＋β ……(10) なる単調増加関数とすることである。R0＞θ(i)
なるときは、このｋに対する処理は省略される。
R0≦(i)のとき、ワークメモリ５０よりｎ＝n2(k)、
ｊ＝j2(k)が読み出され、ブロツク１１１の処理で
定まつているn′、j′との相互比較がなされ、その
結果に応じて l1 、 l2 、 l3 、 l4 の処理（第
６図ｃ〜ｅ）が選択され、実行される。 l1 の処
理は上記の(D)に対応し、 l2 、 l3 、 l4 は(A)、
(B)、(C)の処理にそれぞれ対応する。それぞれの処
理が終了すると l5 に戻りｋを１増加し、かつ、
ブロツク１１１の処理でｎ→n′、ｊ→j′と推移さ
せた後にブロツク１１３以下同様の処理が繰り返
される。なお、例えば l3 の処理（第６図ｅ）の
ブロツク１３０内のdⁿ（ｉ、j′＋１）のような、
ベクトル間の距離の計算は、ｎとj′＋１（図では
省略）を標準パターンメモリ４０に与えてbⁿ _j′＋
１を読み出して行なわれる。

ブロツク１１２によつて、ワークメモリ５０内
のすべてのデータが処理されたと判定されたとき
は、 l0 の処理（第６図ｂ）に移行する。ブロツ
ク１２０と１２１は最後の（n′、j′）に対して残
されていた処理を実行するものである。ブロツク
１２２によつてG1、n1、j1のデータをG2、n2、
j1へ移す処理が行なわれるが、これはデータの転
送でなく、ワークメモリ５０と６０の切り替えに
よつて実行される。ブロツク１２３の処理によつ
てこの時刻ｉの処理は終了し、次の時刻ｉ＋１で
の処理へ移行する。

以上の処理が、ｉ＝Ｉまで終了した時点では、
ワークメモリ６０内にG1(k)、n1(k)、j1(k)にgⁿ
（Ｉ、Jⁿ）の情報が含まれている。ｎ＝n1(k)とし
て、j1(k)＝Jⁿとなるｋに対応するG1(k)がそれであ
る。これを入力パターンＡと標準パターンBⁿと
の距離Ｄ（Ａ、Bⁿ）とし、それらの最小値を与え
をｎ＝n^を定め認識結果として出力する。

以上本発明の原理を実施例に基づいて説明した
が、これらの記載は本発明の範囲を限定するもの
ではない。特に第６図のブロツク１１４の判定の
基準としては種々考えられる。θ(i)をG2(k)＝gⁿ
（ｉ−１、ｊ）の最小値にリンクさせて適応させ
ることも可能である。別に、G2(k)＝gⁿ（ｉ−１、
ｊ）の小さなものから一定個数を選び、それ以外
のものに対しては処理を省略するという方式も可
能である。

また以上の説明では、基本的な漸化式として(2)
式を用いたが、「日経エレクロトニクスの1983年
11月７日号第184頁の表１」に記載されるが如き、
種々の変形の漸化式についても本発明の原理は適
用される。さらに本発明は特願昭56−199088記載
のクロツクワイズDP法と同様連続単語認識に利
用できるものである。

（発明の効果）以上述べた本発明の原理によるとDP漸化式の
計算を、必要な（ｎ、ｊ）点のみで、極めて無駄
なく実行することができ、かつワークメモリの量
を低減され、安価かつ高速な音声認識装置を実
現・提供できる。

【図面の簡単な説明】

第１図、第２図、第３図ａ，ｂ、第４図ａ，
ｂ，ｃは本発明の原理説明図、第５図は実施例ブ
ロツク図、第６図ａ〜ｅはその動作を説明するフ
ローチヤートである。１０……マイクロホン、２０……分析部、３０
……マイクロプロセツサ、４０……標準パターン
メモリー、５０……ワークメモリ、６０……ワー
クメモリー。

Claims

【特許請求の範囲】１各単語ｎの標準パターンを特徴〓_j ⁿの時系列
として記憶する手段と、入力音声パターンの特徴
ａ｜_iを一時保持する手段と、それぞれの単語ｎに
対応して前記特徴ａ｜_iと〓_j（ｉ、Ｊ）の最適累積
値gⁿ（ｉ、ｊ）を動的計画法の漸化式によつて計
算する手段とを有し、各時刻ｉにて過去の最適累
積値に基づいて新たな最適累積値gⁿ（ｉ、ｊ）を
計算する（ｎ、ｊ）を制限し、これらの（ｎ、
ｊ）に対するgⁿ（ｉ、ｊ）の記憶エリアを生成す
ることを特徴とする高効率パターンマツチング方
式。２最適累積値gⁿ（ｉ、ｊ）を計算するための漸
化式計算処理と、gⁿ（ｉ、ｊ）の記憶エリア生成
を現（ｎ、ｊ）と、直前に処理したｎ、ｊの組み
（n′、j′）との相互関係によつて制御する特許請求
の範囲第１項記載の高効率パターンマツチング方
式。