JP3097134B2 - Dpマッチング法 - Google Patents

Dpマッチング法

Info

Publication number
JP3097134B2
JP3097134B2 JP03013267A JP1326791A JP3097134B2 JP 3097134 B2 JP3097134 B2 JP 3097134B2 JP 03013267 A JP03013267 A JP 03013267A JP 1326791 A JP1326791 A JP 1326791A JP 3097134 B2 JP3097134 B2 JP 3097134B2
Authority
JP
Japan
Prior art keywords
pattern
frame
word
input pattern
grid point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03013267A
Other languages
English (en)
Other versions
JPH04248595A (ja
Inventor
宮沢康永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP03013267A priority Critical patent/JP3097134B2/ja
Publication of JPH04248595A publication Critical patent/JPH04248595A/ja
Application granted granted Critical
Publication of JP3097134B2 publication Critical patent/JP3097134B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はパターンマッチング方法
に関する。
【0002】
【従来の技術】従来、「情報基礎学詳説」(コロナ社出
版、坂井利之編)に記載されているように、u(i)を
入力パターンAのiフレームを標準パターンBのu
(i)フレームに対応づけるパターン伸縮関数とする
時、入力パターンAと標準パターンBの時系列間の距離
の定義式が、
【0003】
【数3】
【0004】で表され、境界条件を{u(1)=1、u
(I)=J}とするDPマッチング法や、「Two-level
DP-matching-a dynamic programming based pattern ma
ttingalgorithm for connected word recognitions」
(IEEE Trans. Acoust.,Speech& Signal Process.,ASSP
-27,6,pp588-595 by H. Sakoe)に記載されているよう
に、連続単語認識のための2段DPマッチング法が知ら
れていた。
【0005】ここで、Iは入力パターンのフレーム数、
Jは標準パターンのフレーム数を表す。
【0006】
【発明が解決しようとする課題】しかし、従来のDPマ
ッチング法では、入力パターン中に、本来照合すべきパ
ターンの前後に、標準パターンの特徴パラメータと特徴
量が異なる余分なパターンが付加された場合、入力パタ
ーン全体と、標準パターン全体を照合するため、正確な
パターンマッチングが不可能となるという問題点を有し
ていた。
【0007】従来のDPマッチング法を単語音声認識に
応用した場合、単語の前後に、話者が自然に発声してし
まう、「えー」「んー」「です」等の言葉を付けて発声
した時に、余分なパターンを含んだ入力パターン全体
と、単語の標準パターンとのパターンマッチングを行う
ため、誤認識を起こしてしまうという問題点を有してい
た。この問題を解決する方法として、2段DPマッチン
グ法を用いて、入力パターンから、単語部分をスポッテ
ィングする方法があるが、この方法では、入力パターン
長がIフレームであった場合、入力パターンの総てのフ
レームを始点とするI個の入力パターンと標準パターン
とのパターンマッチングを行うため、計算時間が長くな
り、音声認識の実時間処理が難しくなる、という問題点
を有している。
【0008】
【課題を解決するための手段】本発明は、DPマッチン
グ法において、入力パターンAと標準パターンBの特徴
パラメータの列を、A=a1、a2、・・、ai、・・、
I、B=b1、b2、・・、bj、・・、bJ(Iは入力
パターンのフレーム数、Jは標準パターンのフレーム
数)で表し、u(i)を、前記入力パターンAのiフレ
ームに対応づけられる前記標準パターンBのフレーム番
号とするとき、前記入カパターンAと前記標準パターン
Bの列間の距離の定義式を、
【数4】 とし、前記列間の距離の定義式中の部分式
【数5】 における境界条件を{u(i1)=1、u(i2)=
J}とし、前記列間の距離の定義式において、i>
1、の時、u(i)≠1とすることを特徴とする。
【0009】
【数4】
【0010】とし、前記列間の距離の定義式中の部分式
【0011】
【数5】
【0012】における境界条件を{u(i1)=1、u
(i2)= J}とし、前記列間の距離の定義式におい
て、i>i1の時、u(i)≠1とすることを特徴とす
る。
【0013】
【実施例】(実施例1)本発明のDPマッチング法を、
ワードスポッティングを行う単語認識の音声認識装置に
応用した実施例を図面に沿って説明する。
【0014】図1は、本発明のDPマッチング法を用い
た音声認識装置のシステム構成図である。話者によって
発話された音声を、マイク1より入力し、A/D変換部
2において、16[KHz]、12ビットのディジタル
信号に変換し、特徴抽出部3において、20[ms]を
1フレームとして、1フレーム毎に、ハミングウィンド
ウ処理、線形予測分析を行い、14次LPCケプストラ
ム係数を特徴パラメータとして求める。この時、フレー
ムのシフト量は10[ms]とする。このようにして得
た特徴パラメータ列を入力パターンとして、単語認識部
4において、あらかじめ学習させてあるN個の単語の標
準パターンと、本発明のDPマッチング法を用いてパタ
ーンマッチングを行うことにより、単語をスポッティン
グし、認識する。このときN個の単語の標準パターンは
単語辞書5に登録されている。
【0015】まず、図2、図3の説明に必要な記号を定
義する。
【0016】話者が発話した音声を入力パターンαと
し、入力パターン長をIとし、単語名をnとし、単語数
をNとし、単語nの標準パターンをβnとし、単語nの
標準パターン長をJnとし、入力パターンαの特徴パラ
メータの時系列を、a(1)、a(2)、・・・、a(I)、と
し、単語nの標準パターンβnの特徴パラメータの時
系列を、bn(1)、bn(2)、・・・、bn(Jn)、とする。
【0017】dn(i、j)を入力パターンαの第iフ
レーム(a(i))と単語nの標準パターンβnの第jフレ
ーム(bn(j))のフレーム間距離とする。
【0018】BPn(i、j)は、格子点(i、j)に
おいて、照合する入力パターンαの照合開始位置を示す
バックポインタとする。
【0019】gn(i、j)は、入力パターンαのBPn
(i、j)フレームからiフレームと、単語nの標準パ
ターンβnの1フレームからjフレームとの最小累積距
離とする。
【0020】 un(i)を、入力パターンαのiフレ
ームに対応づけられる標準パターンβnのフレーム番号
とするとし、本実施例においては、un(i)の条件
を、un(i−1)=j、または、un(i−1)=j−
1、または、un(i−1)=j−2、の時に限り、un
(i)=j、とする。この条件は、図4で示すDPパス
41、42、43に対応する。
【0021】入力パターンαと標準パターンβnの時系
列間の距離の定義式を、
【0022】
【数6】 ・・・(1)式
【0023】とする。
【0024】ここで、in(1)は{1≦in(1)<I}の範
囲の任意の入力パターンαのフレーム番号で、単語nの
標準パターンβと入力パターンαの照合開始位置を示
す。
【0025】in(2)は{1<in(2)≦I}の範囲の任意
の入力パターンαのフレーム番号で、単語nの標準パタ
ーンβと入力パターンαの照合終了位置を示す。
【0026】(1)式で表される時系列間の距離の定義
式中の部分式、
【0027】
【数7】 ・・・(2)式
【0028】における境界条件を、{un(in(1))=
1、un(in(2))=Jn}とする。これは、「入力パタ
ーンαの照合開始フレームが任意の第in(1)フレームの
時、単語nの標準パターンβnの照合開始フレームは第
1フレームである」ということ と、「入力パターンα
の照合終了フレームが任意の第in(2)フレームの時、単
語nの標準パターンβnの照合終了フレームは第Jnフレ
ームである」ということを示す。この境界条件により、
部分式(2)式は、単語nの標準パターンβnと、 入
力パターンα中の任意のin(1)フレームから任意のi
n(2)フレームまでのパターンとの最小累積距離を表す。
【0029】よって、部分式(2)式を最小にする、i
n(1)フレームとin(2)フレームを選択することにより、
単語nの標準パターンβnとの距離を最小にする、入力
パターンα中の最適範囲をスポッティングできる。この
ようにスポッティングされた入力パターンα中のin(1)
フレームからin(2)フレームまでのパターンと標準パタ
ーンβnとの最小累積距離が、入力パターンαと標準パ
ターンβnとの最小累積距離であり、この定義式は
(1)式となる。
【0030】本発明においては、部分式(2)式を計算
するアルゴリズムを高速化するために、i>in(1)
の時、un(i)≠1とする。これは図4において、j
=1の時、DPパス41を許可しない、ということであ
る。この条件により、入力パターンαの任意の第iフレ
ームと単語nの標準パターンβnの第1フレームとのフ
レーム格子点(i、1)における最小累積距離g
n(i、1)は、常にその格子点でのフレーム間距離と
なり、他のフレーム間距離とは無関係となる。すなわ
ち、どのフレーム格子点(i、1)もパターン照合開始
点となり得ることになる。
【0031】この条件を用いることにより計算が高速に
なることを、図2を用いて説明する。
【0032】格子点14における最小累積距離のDPパ
スが、DPパス16、17であった場合、格子点14に
おける最小累積距離は、格子点10、13、14のフレ
ーム間距離の和であり、この照合開始格子点は、格子点
10である。格子点12における最小累積距離は、j=
1の時は、上記の条件により格子点11から格子点12
へのDPパスは許可しないため、格子点12におけるフ
レーム間距離であり、照合開始格子点は格子点12であ
る。格子点15における最小累積距離を求めるためのD
Pパスは、格子点14における最小累積距離と格子点1
2における最小累積距離のうち、最小累積距離の値の小
さい方の格子点と格子点15を結ぶパスとして求められ
る。ここで、DPパス19が選択された場合、本発明の
DPマッチング法では、上記で述ベたように、照合開始
格子点は格子点12となる。このように、最初の照合開
始格子点を、格子点(1、1)として、最小累積距離の
計算を始めた場合、任意の格子点(i、j)の最小累積
距離は、格子点(1、1)から格子点(i−1、1)の
うちの最適な格子点から格子点(i、j)までの累積距
離として計算され、格子点(1、1)から格子点(i−
1、1)のうちの最適な格子点が、新たに照合開始格子
点として選択される。このようにして、i=1からIま
で、順にiの値を増やしながら、j(1からJnまで)
との格子点における最小累積距離を、1回だけ求めてい
くことにより、任意のiを入力パターンαの終了フレー
ムとする、単語nの標準パターンβn=との最小累積距
離と、その照合開始格子点を1点だけ求めることができ
る。
【0033】従来方法では、格子点15へのDPパス
が、DPパス19となった時、格子点12における最小
累積距離は、格子点10、11、12におけるフレーム
間距離の和で、照合開始格子点は格子点10である。す
なわち、格子点10から照合を開始した場合、どの格子
点においても、照合開始格子点は格子点10となる。よ
って、任意のiを入力パターンαの終了フレームとす
る、単語nの標準パターンβnとの最小累積距離を求め
るためには、照合開始格子点を格子点(1、1)から格
子点(i−1、1)までのそれぞれの格子点とする、i
−1回の計算を行い、どの格子点を照合開始格子点とし
て計算した時が、最も累積距離が小さいかを計算する必
要がある。よって、入力パターン数をIフレームとした
場合、最小累積距離の計算ループは本発明の(I−1)
/2倍となる。仮に、入力フレーム数Iが100フレー
ムの場合、最小累積距離の計算ループは、本発明の約5
0倍となる。
【0034】次に、図3を用いて、本発明のDPマッチ
ング法を実際に行うアルゴリズムを説明する。
【0035】ループ21では、単語辞書5に登録してあ
るN個の単語の標準パターンと入力パターンとのパター
ンマッチングを行うために、n=1、2、・・・、Nに
ついて、ループ22、演算23、演算24、ループ2
5、演算26、演算27、ループ28、ループ29、演
算30、演算31、演算32を実行する。
【0036】ループ22では、入力パターンの各フレー
ム、i=1、2、・・・、Iについて、演算23、演算
24を実行し、累積距離gn(i、1)、バックポイン
タBPn(i、1)を初期化する。
【0037】累積距離gn(i、1)の初期値は、入力
フレームαの第iフレームと単語nの標準パターンβn
の第1フレームとのフレーム間距離dn(i、1)とす
る。格子点(i、1)におけるバックポインタBP
n(i、1)の初期値はiとする。 この初期化は、単
語nの標準パターンβnと入力パターンαの照合開始位
置にお ける境界条件を示す。
【0038】ループ25では、単語nの標準パターンの
各フレーム、j=2、3、・・・、Jnについて、演算
26、演算27を実行し、累積距離gn(1、j)、バ
ックポインタBPn(1、j)を初期化する。ここで、
累積距離gn(1、j)の初期値は無限大とする。この
初期化も、単語nの標準パターンβnと入力パターンα
の照合開始位置における境界条件を満たすための初期化
である。
【0039】ループ28では、入力パターンの各フレー
ム、i=2、3、・・・、Iについて、ループ29、演
算30、演算31、演算32を実行する。
【0040】ループ29では、単語nの標準パターン、
j=2、3、・・・、Jnについて、演算30、演算3
1、演算32を実行する。
【0041】演算30では、格子点(i、j)におい
て、本実施例で許可する3つのDPパス、(図4で示さ
れる、DPパス41、DPパス42、DPパス43)の
うち、最適なDPパスを選択する演算を行う。すなわ
ち、格子点(i−1、j)、(i−1、j−1)、(i
−1、j−2)までの累積距離が最小である格子点を選
択する値である。演算30の中で用いられている関数、
【0042】
【数8】
【0043】は、{}中の関数gn(i−1,k)の値
を最小にするkを求める関数と定義する。この演算によ
って求められるk′の値は、上記に示したパターン伸縮
関数un(iー1)の値である。よって、jまたは、j
−1、または、jー2、のい づれかの値である。
【0044】演算31では、格子点(i、j)における
累積距離gn(i、j)を求める。この時、照合してい
るパターンは、入力パターンαのBPn(i−1、
k′)フ レームからiフレームと、単語nの標準パタ
ーンβnの1フレームからjフレー ムである。ここ
で、バックポインタBPn(i−1、k′)には、格子
点(i− 1、k′)における、入力パターンαの照合
開始位置が保存されている。また、累積距離gn(i、
k′)は、入力パターンαのBPn(i−1、k′)フ
レームからiフレームと、単語nの標準パターンβn
1フレームからk′フレームと の最小累積距離であ
る。更に、格子点(i、k′)は、演算30で演算され
たように、格子点(i、j)にとって、最適なDPパス
をとる格子点ある。よって、gn(i、k′)の値に、
格子点(i、j)におけるフレーム間距離dn(i、
j)を加えることにより、入力パターンαのBPn(i
−1、k′)フレームからi フレームと、単語nの標
準パターンβnの1フレームからjフレームとの最小累
積距離gn(i、j)を求めることができる。
【0045】
【0046】演算32では格子点(i、j)におけるバ
ックポインタを演算している。この演算により、格子点
(i、j)における累積距離gn(i、j)の入力パタ
ーンの照合開始位置を、バックポインタBPn(i、
j)に保存する。
【0047】以上のように演算された累積距離g
n(i、j)の中から、入力パターンαの照合終了位置
に関する境界条件{un(in(2))=Jn}を満たす累積
距離gn( i、Jn)を用いて、(ここで、in(2)は入
力パターンαの任意のフレーム番号 なので、入力パタ
ーンαの任意のフレーム番号iと同義である。)演算3
3を実行することにより、累積距離gn(i、Jn)を最
小にする、単語n′と入力パターンαの照合終了位置
i′フレームを選択する。
【0048】このn′とi′をバックポインタBP
n(i、j)に代入して、演算34を実行することによ
り、単語名がn′で、入力パターンαの照合終了位置が
i′の時の、入力パターンαの照合開始位置Bフレーム
が得られる。
【0049】以上の全ての演算によって、話者が発話し
た余分な音声を含む入力パターンαの中から、最適な単
語n′を認識し、その単語が存在する最適区間(Bフレ
ーム〜i′フレーム)をスポッティングする、「ワード
スポッティング」を行うことができる。
【0050】
【発明の効果】本発明のDPマッチング法を用いること
により、話者が自然に発話した音声中から、単語部分だ
けをスポッティングし認識する「ワードスポッティン
グ」を、従来方法に比べ短時間で実行することが可能と
なる効果がある。この効果を以下に、具体的な数字で示
す。
【0051】従来方法の2段DPマッチングを用いて計
算を行った場合、入力パターン長がIフレーム、標準パ
ターン長がJフレームの場合、累積距離を計算するルー
プの回数が、(I−1)/2*I*J回であるのに対
し、本発明のDPマッチング法を用いた場合、累積距離
を計算するループの回数は、I*J回となる。すなわ
ち、累積距離を計算するループの回数は、従来方法の、
2/(I−1)となる。
【0052】本実施例の様に、音声を16[KHz]で
サンプリングし、1フレームを20[ms]とし、シフ
ト量を10[ms]とした場合、1秒間の入力音声のパ
ターン長Iは、99フレームとなるので、累積距離を計
算するループの回数は、従来方法の1/48となる。
【図面の簡単な説明】
【図1】本発明に関する音声認識装置のシステム構成
図。
【図2】本発明に関するDPパスと、入力フレームと標
準フレームとの格子点を示す図。
【図3】本発明に関する音声認識方法のアルゴリズムを
示す流れ図。
【図4】本発明に関するDPパスを示す図。
【符号の説明】
1 マイク 2 A/D変換部 3 特徴抽出部 4 単語認識部 5 単語辞書 10 格子点 11 格子点 12 格子点 13 格子点 14 格子点 15 格子点 16 DPパス 17 DPパス 18 DPパス 19 DPパス 21 ループ 22 ループ 23 演算 24 演算 25 ループ 26 演算 27 演算 28 ループ 29 ループ 30 演算 31 演算 32 演算 33 演算 34 演算 41 DPパス 42 DPパス 43 DPパス

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 DPマッチング法において、 入力パターンAと標準パターンBの特徴パラメータの列
    を、 A=a1、a2、・・、ai、・・、aI、B=b1、b2
    ・・、bj、・・、bJ(Iは入力パターンのフレーム
    数、Jは標準パターンのフレーム数)で表し、 u(i)を、前記入力パターンAのiフレームに対応づ
    けられる前記標準パターンBのフレーム番号とすると
    き、 前記入カパターンAと前記標準パターンBの列間の距離
    の定義式を、 【数1】 とし、 前記列間の距離の定義式中の部分式 【数2】 における境界条件を{u(i1)=1、u(i2)=J}
    とし、 前記列間の距離の定義式において、i>i1、の時、u
    (i)≠1とすることを特徴とする、DPマッチング
    法。
JP03013267A 1991-02-04 1991-02-04 Dpマッチング法 Expired - Fee Related JP3097134B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03013267A JP3097134B2 (ja) 1991-02-04 1991-02-04 Dpマッチング法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03013267A JP3097134B2 (ja) 1991-02-04 1991-02-04 Dpマッチング法

Publications (2)

Publication Number Publication Date
JPH04248595A JPH04248595A (ja) 1992-09-04
JP3097134B2 true JP3097134B2 (ja) 2000-10-10

Family

ID=11828448

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03013267A Expired - Fee Related JP3097134B2 (ja) 1991-02-04 1991-02-04 Dpマッチング法

Country Status (1)

Country Link
JP (1) JP3097134B2 (ja)

Also Published As

Publication number Publication date
JPH04248595A (ja) 1992-09-04

Similar Documents

Publication Publication Date Title
JP3762327B2 (ja) 音声認識方法および音声認識装置および音声認識プログラム
JP5282737B2 (ja) 音声認識装置および音声認識方法
US7783484B2 (en) Apparatus for reducing spurious insertions in speech recognition
JP4340685B2 (ja) 音声認識装置及び音声認識方法
JP2002149186A (ja) 識別可能な適合に関する代替の単語列の選択
JPH0247760B2 (ja)
JP3097134B2 (ja) Dpマッチング法
JP3403838B2 (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
JP2853418B2 (ja) 音声認識方法
JP3477751B2 (ja) 連続単語音声認識装置
JP3440840B2 (ja) 音声認識方法及びその装置
JPH0823758B2 (ja) 話者適応形音声認識装置
JP2543584B2 (ja) 音声標準パタン登録方式
JP3818154B2 (ja) 音声認識方法
JPH0632006B2 (ja) 音声認識装置
JP3291073B2 (ja) 音声認識方式
JP2995941B2 (ja) 不特定話者用音声認識装置
JPH06175684A (ja) 連続音声認識方法および装置
JPH09305195A (ja) 音声認識装置および音声認識方法
JPH0451037B2 (ja)
JPH0247758B2 (ja)
JP2882088B2 (ja) 音声認識方法
JP2005091709A (ja) 音声認識装置
JPH05158493A (ja) 音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070811

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080811

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080811

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090811

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees