JP3063855B2 - 音声認識におけるマッチング距離値の極小値探索方法 - Google Patents

音声認識におけるマッチング距離値の極小値探索方法

Info

Publication number
JP3063855B2
JP3063855B2 JP2325829A JP32582990A JP3063855B2 JP 3063855 B2 JP3063855 B2 JP 3063855B2 JP 2325829 A JP2325829 A JP 2325829A JP 32582990 A JP32582990 A JP 32582990A JP 3063855 B2 JP3063855 B2 JP 3063855B2
Authority
JP
Japan
Prior art keywords
value
matching distance
minimum value
distance value
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2325829A
Other languages
English (en)
Other versions
JPH04198999A (ja
Inventor
正宏 八幡
正範 牛込
昇 菅村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Oki Electric Industry Co Ltd
Original Assignee
Nippon Telegraph and Telephone Corp
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Oki Electric Industry Co Ltd filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2325829A priority Critical patent/JP3063855B2/ja
Publication of JPH04198999A publication Critical patent/JPH04198999A/ja
Application granted granted Critical
Publication of JP3063855B2 publication Critical patent/JP3063855B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、入力音声の特徴パタンと標準パタンとの連
続DP(Dynamic Programming)マッチング方式によって
得られたマッチング距離値における極小値を求める方法
に関するものである。
[従来の技術] 音声認識装置においては、入力音声について得られた
特徴パタンと、予め所定の単語等について用意されてい
る複数の標準パタンとのマッチング距離値(類似度)を
求めて、このマッチング距離値に基づいて入力音声を特
定(認識)する。この際、入力音声における音素又は音
節と標準パタンにおける音素又は音節との対応をとるこ
となく実行できる非線形マッチング方法が採用されるこ
とが多く、しかも、計算量の削減のためにそのうちの連
続DPマッチング方式が採用されることが多い。
この連続DPマッチング方式においては、マッチング距
離値の極小値情報に基づいて、対象となっている標準パ
タンにかかる音声(単語等)が入力音声に含まれている
か否か等を判別している。第2図は、極小値情報がかか
る判別に用いられることを説明する概念図である。
入力音声に含まれている単語や音節等についての1個
の標準パタンと、入力音声についての時系列の特徴パタ
ンとのマッチング距離値を順次求めていく場合を考え
る。なお、第2図におけるパタンを表す数値列は、実際
の数値列とは異なり、この説明に用いる仮想的な数値列
である。
入力音声の特徴パタンと標準パタンとが無関係なとき
は、第2図(A)に示すように、マッチング距離値は大
きな値をとり、このような無関係な区間ではこのような
大きな値を連続させる。入力音声の特徴パタンの入力が
進み、標準パタンとの一致部分が生じると、マッチング
距離値はその一致部分が大きくなるに従い、徐々に小さ
くなっていく(第2図(B)〜(D))。そして、入力
音声の特徴パタンと標準パタンとが一致したときにマッ
チング距離値は最も小さな値となる(第2図(E))。
さらに、入力音声の特徴パタンの入力が進むと一致部分
が少なくなって徐々にマッチング距離値が大きくなって
いき(第2図(F))、一致部分もなくなるとマッチン
グ距離値は第2図(A)を示すような大きな値に戻る。
このように、入力音声に含まれている単語や音節等に
ついての1個の標準パタンに対するマッチング距離値の
変化は、極小値を有するものとなり、極小値を検出する
ことで、その単語や音節が含まれているか否か及び含ま
れている位置情報を得ることができる。
第3図(A)〜(D)は、入力音声「あたまがいた
い」の特徴パタン列と、4個の標準パタン「あたま」、
「が」、「いたい」及び「はら」のそれぞれとのマッチ
ング距離値の時間変化を示すものである。標準パタン
「あたま」に対するマッチング距離値は、第3図(A)
に示すように早い時期で極小値をとり、標準パタン
「が」に対するマッチング距離値は、第3図(B)に示
すように中間時期に極小値をとり、標準パタン「いた
い」に対するマッチング距離値は、第3図(C)に示す
ように遅い時期で極小値をとる。入力音声「あたまがい
たい」に含まれていない標準パタン「はら」についての
マッチング距離値は、第3図(D)に示すようにほぼ一
定値をとる。
このように複数の標準パタンとのマッチング距離値を
得、その極小値情報に基づいて入力音声を特定(認識)
することができる。
このように連続DPマッチング方式においては、マッチ
ング距離値の極小値を検出することが重要である。従
来、複数のマッチング距離値から極小値を以下のように
して検出(探索)していた。
第4図は、1つの標準パタンとのマッチング距離値を
時間軸上に並べた図であり、入力音声サンプル値を複数
毎に纏めた複数の処理フレーム(同一サンプル値が複数
のフレームの成分になっていても良い)のうちn番目の
処理フレーム(以下、単にnフレームと呼ぶ)を中心と
した複数フレームのマッチング距離値を示している。
今、nフレームが極小値のフレームか否かの判定処理
対象フレームとする。極小値である場合には、nフレー
ムのマッチング距離値は、その近傍のフレームのマッチ
ング距離値より小さい値になっているので、当該nフレ
ームのマッチング距離値を近傍の各フレーム(n−mフ
レームからn+mフレーム)のマッチング距離値と順次
大小比較し、近傍の全フレームより小さいときに極小値
と判断し、いずれかのフレームよりその値が大きいこと
を検出したときに極小値でないと判定するようにしてい
た。
[発明が解決しようとする課題] ところで、実際上、音声認識装置は利用者の音声を認
識するものであるので、この音声認識装置を備えた装置
は、認識結果を表示させたり、認識された内容に応じた
処理(例えば発話処理)を行ったりして利用者に対する
何等かの応答を行なう。そのため、音声の認識時間を短
くして応答までの時間をも短くすることが求められる。
そこで、音声認識処理の各要素処理をできるだけ音声
のサンプリング周期に同期させて行ない、音声認識時間
の短縮化を計っている。
しかしながら、マッチング距離値の最小値の探索や探
索された最小値情報から認識結果を得る処理において、
サンプリング周期に同期させて行なうことが難しくなっ
てきた。
これは、第1に、音声認識装置の発達に伴い、取扱う
標準パタン数が非常に多くなってきたためである。第2
に、マッチング距離値の変化は本来の対応する処理フレ
ーム以外にも部分的に極小値をとることがあり、不要な
極小値が多数検出されるためである。
本発明は、以上の点を考慮してなされたものであり、
マッチング距離値の極小値探索を高速に実行することが
できる、しかも不要な極小値の検出をできるだけ押さえ
ることができる音声認識におけるマッチング距離値の極
小値探索方法を提供しようとするものである。
[課題を解決するための手段] 本発明は、音声認識装置を用いて、入力音声から抽出
した特徴パタンと標準パタンとのマッチング距離値が極
小値となる標準パタン及び極小値の位置情報を得る音声
認識におけるマッチング距離値の極小値探索方法におい
て、入力音声から特徴パタンを抽出する工程と、抽出し
た特徴パタンに対し、処理対象フレームを順次変えなが
ら、予め用意されている複数の標準パタンの各々とのマ
ッチング距離値を求める工程と、マッチング距離値が所
定の閾値よりも小さくなる処理対象フレームを抽出する
工程と、抽出した処理対象フレームのマッチング距離値
とその近傍フレームのマッチング距離値とを大小比較
し、ある処理対象フレームがある標準パタンの極小値に
なっているか否かを判断する工程と、を有することを特
徴とするものである。
[作用] 標準パタンと特徴パタンとが真に対応するためにマッ
チング距離値が極小値をとる以外にも、マッチング距離
値が部分的にみて極小値をとることがあるが、対応しな
い場合の極小値は標準パタンと特徴パタンとが真に対応
する場合の極小値よりかなり大きなものである。
そこで、本発明では、まず処理対象フレームのマッチ
ング距離値が、標準パタンと特徴パタンとが真に対応し
ている可能性を有することを、所定の閾値との大小比較
により確認することとした。そして、その後に、処理対
象フレームとその近傍フレームとのマッチング距離値を
大小比較して、ある処理対象フレームがある標準パタン
の極小値になっているか否かを判断することとした。
[実施例] 以下、本発明の一実施例を図面を参照しながら詳述す
る。
ここで、第1図はこの実施例によるマッチング距離値
の極小値探索方法の処理フローチャート、第5図はこの
実施例の極小値探索方法が適用された音声認識装置の機
能ブロック図、第6図はこの実施例のマッチング距離値
と閾値との関係を示す説明図である。
第5図において、マイクロフォン1によって捕捉され
た入力音声信号(アナログ信号)は、アナログ/デジタ
ル変換部2に与えられ、このアナログ/デジタル変換部
2によって例えば12kHzでサンプリングされ、デジタル
データ列に変換されて特徴パタン抽出部3に与えられ
る。特徴パタン抽出部3は、連続する所定個数のサンプ
リングデータを1フレームとして所定の分析(例えばLP
C分析等)を行ない、フレーム毎に入力音声情報が圧縮
された特徴パタンを抽出する。このようにして抽出され
た特徴パタン列は照合演算部4に与えられる。照合演算
部4には関連して標準パタン記憶部5が設けられてお
り、照合演算部4は、入力音声の特徴パタンと各標準パ
タンとの連続DPマッチングを行ない、その結果であるマ
ッチング距離値列を極小値探索部6に与える。
極小値探索部6は、第1図に示す処理を実行して、処
理対象フレームの特徴パタンとのマッチング距離値がそ
の処理対象フレームについて極小値を取る標準パタン
(複数のこともある)を得て処理対象フレームを明らか
にしてその標準パタン情報をセーブする。また、この
際、極小値のマッチング距離値もセーブする。
認識処理部7は、同一フレームについて極小値をとる
標準パタンが複数ある場合には、マッチング距離値に基
づいて1個の標準パタンに絞り込んだ後、極小値を有す
る標準パタンについての単語等を極小値が現れた位置順
に繋げて入力音声の認識結果を得る(第3図参照)。
次に、この実施例の最も特徴部分である極小値探索部
6の処理を第1図に基づいて説明する。
極小値探索部6は、入力音声の特徴パタン列のフレー
ム毎に第1図に示す処理を繰返す。ここで、処理対象フ
レームをnフレームとする。
nフレームが極小値探索にかかる処理対象フレームに
なると、第1図に示す処理を開始し、まず、標準パタン
を特定するパラメータiを初期値0にする(ステップ10
0)。
その後、照合演算部4から与えられた、入力音声のn
フレームの特徴パタンと標準パタンiとのマッチング距
離値D(i,n)が閾値THより小さいことを確認する(ス
テップ101)。
これは標準パタンiが対応していないものであっても
部分的に極小値を有することがあることに鑑みて設けら
れた処理ステップである。このような極小値は真に標準
パタンiが対応している場合の極小値より格段的に大き
く、閾値THを適当に選定することで対応していない偽の
極小値を排除することができる。
処理対象のnフレームのマッチング距離値D(i,n)
が真の極小値の可能性を有しない場合には、標準パタン
パラメータiを1インクリメントして次の標準パタンを
指示するものとした後、このインクリメントされたパラ
メータiを標準パタン個数DICNと比較することで、全標
準パタンに対する処理を終了していないことを確認して
上述したステップ101に戻る(ステップ108、109)。な
お、パラメータiの初期値を0としているので、全標準
パタンについての処理が終了したときにはパラメータi
はDICNとなっており、ステップ109で肯定結果が得られ
て当該処理が終了することになる。
第6図(A)は、処理対象のnフレームが閾値THより
大きく、そのため、上述したように近傍フレームとの大
小比較を行なうことなく直ちに次の標準パタンについて
の処理に進む場合を示している。
ステップ101の判別の結果、処理対象のnフレームの
マッチング距離値D(i,n)が閾値THより小さくて真の
極小値の可能性を有すると判定されると、このnフレー
ムのマッチング距離値D(i,n)と、直前のn−1フレ
ームのマッチング距離値D(i,n−1)との大小比較を
行なう(ステップ102)。nフレームのマッチング距離
値D(i,n)が大きければ、このnフレームは極小値フ
レームでないので、上述したステップ108に進んで次の
標準パタンを対象とする。
他方、nフレームのマッチング距離値D(i,n)がn
−1フレームのマッチング距離値D(i,n−1)より小
さければ(等しい場合を含む)、このマッチング距離値
D(i,n)と、直後のn+1フレームのマッチング距離
値D(i,n+1)との大小比較を行なう(ステップ10
3)。この場合でも、nフレームのマッチング距離値D
(i,n)が大きければ、このnフレームは極小値フレー
ムでないので、上述したステップ108に進んで次の標準
パタンを対象とする。
この判別によっても極小値の可能性を有すると判定さ
れると、処理対象のnフレームのマッチング距離値D
(i,n)とn−2フレームのマッチング距離値D(i,n−
2)との大小比較を行なう(ステップ104)。この場合
でも、nフレームのマッチング距離値D(i,n)が大き
ければ、nフレームは極小値フレームでないので、上述
したステップ108に進んで次の標準パタンを対象とし、
他方、極小値の可能性が残っていれば、n+2フレーム
のマッチング距離値(i,n+2)との大小比較を行なう
(ステップ105)。
以下、同様にして、前側についてはn−mフレームの
マッチング距離値D(i,n−m)、後側についてはn+
mフレームのマッチング距離値D(i,n+m)までの大
小比較を極小値の可能性を有するならば順次行なう(…
ステップ106)。この場合に、比較対象のフレームを、
当該処理対象フレームの前側及び後側を交互に変化させ
ると共に、当該処理対象のnフレームとの時間差が徐々
に大きくなるように変更させていく。
ここで、mは極小値か否かを見極めるための範囲を規
定するものであり、例えば3程度が妥当である。このm
が大きければ極小値探索の平均処理時間が長くなり、小
さすぎれば誤検出の恐れが大きくなるためである。
また、上述のように、処理対象のnフレームのマッチ
ング距離値D(i,n)と、マッチング距離値が大小比較
されるフレームを、前側及び後側で交互に変えるように
したのは、単調増加変化及び単調減少変化の中間に処理
対象フレームが位置しても、両者の場合共に迅速に極小
値でないことを検出できるようにしたためである。
さらに、上述のように、処理対象のnフレームに時間
が近いフレームから比較対象フレームとするようにした
のは、nフレームに近い位置に極小値フレームがあった
ときに、当該nフレームを極小値フレームでないと迅速
に検出できるようにしたためである。
第6図(B)は、処理対象のnフレームについてのマ
ッチング距離値D(i,n)が閾値THより小さく、近傍フ
レームとの大小比較により極小値か否かの確認を行なう
処理に進む場合を示している。
ステップ102から106の判断の結果、n−mフレームか
らn+mフレームの間では、当該nフレームのマッチン
グ距離値D(i,n)が最小値(極小値)であると判断さ
れると、標準パタンパラメータi、処理対象フレームを
指示するパラメータn及びマッチング距離値D(i,n)
をセーブして、上述したステップ108に進んで次の標準
パタンを対象とする(ステップ107)。
このようにしてセーブされた情報が、上述したように
認識処理部7で利用される。
以上のように、この実施例によれば、処理対象のnフ
レームが標準パタンiについて極小値フレームか否かを
判断するにつき、近傍フレームとの大小比較に先立っ
て、マッチング距離値D(i,n)が閾値THより小さいこ
とを確認するようにしたので、真の極小値の可能性を有
しない場合には、近傍フレームとの大小比較処理を省略
でき、従来に比して極小値探索時間を短くすることがで
きる。その結果、認識処理部7に与えられる不要な極小
値情報も少なくなり、極小値情報の競合が少なくなって
認識処理をも迅速に実行させることができる。
また、上述の実施例によれば、極小値か否かを判断す
るための比較対象のフレームを、処理対象のnフレーム
の前側及び後側を交互に切り替えながら、しかも、徐々
にnフレームとの時間差が大きくなるように選んでいく
ようにしたので、この点からも極小値でないことを検出
する平均時間を従来より短くすることができる。
このように極小値の探索及び認識処理に要する時間が
短くなったので、標準パタン数が増大してもサンプリン
グ周期に同期させて処理を実行させることが可能となっ
て実際上問題とならない程度の時間で音声を認識するこ
とができる。
なお、上述の実施例では、処理対象フレームについて
複数の標準パタンが極小値を有するものとなることがあ
り、これの絞り込みを認識処理部7で行なうものを示し
たが、極小値探索部6で行なうようにしても良い。
また、第1図に示す処理は、一例であって種々の変形
が可能である。例えば、最初の比較対象を後側のフレー
ムのマッチング距離値とするようにしても良く、また、
比較対象フレームを固定して標準パタンを変えながら処
理し、その後に比較対象フレームを変更するものであっ
ても良い。また、比較対象フレームを前側及び後側で交
互に切り替えないようにしても良い。
[発明の効果] 以上のように、本発明によれば、極小値探索部が処理
対象フレームのマッチング距離値が極小値か否かをある
標準パタンについて判断する際に、処理対象フレームの
マッチング距離値が真の極小値である可能性を有するこ
とを閾値との比較で確認した後、近傍フレームとの大小
比較を行なうようにしたので、極小値でないことを検出
する平均時間を従来より短くすることができ、また、得
られる極小値情報の数を少なくすることができて音声認
識時間を従来より短くすることができる。
【図面の簡単な説明】
第1図は本発明の一実施例による極小値探索処理を示す
フローチャート、第2図及び第3図はマッチング距離値
列における極小値の意味の説明図、第4図は従来の極小
値探索方法の説明図、第5図は上記実施例にかかる音声
認識装置の構成を示すブロック図、第6図は上記実施例
のマッチング距離値と閾値との関係を示す説明図であ
る。 3……特徴パタン抽出部、4……照合演算部、5……標
準パタン記憶部、6……極小値探索部、7……認識処理
部、TH……真の極小値である可能性を有するか否かを判
断するための閾値、n……処理対象フレーム、i……標
準パタン、DICN……標準パタン数、D(i,n)……nフ
レームの標準パタンiについてのマッチング距離値、m
……比較対象のフレーム範囲を規定する数。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 菅村 昇 東京都千代田区内幸町1丁目1番6号 日本電信電話株式会社内 (56)参考文献 特開 平4−199000(JP,A) 特開 平1−116599(JP,A) 特開 平1−116598(JP,A) 特開 平1−116597(JP,A) 特開 昭61−20096(JP,A) 特開 昭62−65091(JP,A) 特許2534125(JP,B2) 特許2506808(JP,B2) 特公 昭61−40120(JP,B2) (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 17/00 H03H 21/00 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】音声認識装置を用いて、入力音声から抽出
    した特徴パタンと標準パタンとのマッチング距離値が極
    小値となる標準パタン及び極小値の位置情報を得る音声
    認識におけるマッチング距離値の極小値探索方法におい
    て、 入力音声から特徴パタンを抽出する工程と、 抽出した特徴パタンに対し、処理対象フレームを順次変
    えながら、予め用意されている複数の標準パタンの各々
    とのマッチング距離値を求める工程と、 マッチング距離値が所定の閾値よりも小さくなる処理対
    象フレームを抽出する工程と、 抽出した処理対象フレームのマッチング距離値とその近
    傍フレームのマッチング距離値とを大小比較し、ある処
    理対象フレームがある標準パタンの極小値になっている
    か否かを判断する工程と、 を有することを特徴とする音声認識におけるマッチング
    距離値の極小値探索方法。
JP2325829A 1990-11-29 1990-11-29 音声認識におけるマッチング距離値の極小値探索方法 Expired - Fee Related JP3063855B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2325829A JP3063855B2 (ja) 1990-11-29 1990-11-29 音声認識におけるマッチング距離値の極小値探索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2325829A JP3063855B2 (ja) 1990-11-29 1990-11-29 音声認識におけるマッチング距離値の極小値探索方法

Publications (2)

Publication Number Publication Date
JPH04198999A JPH04198999A (ja) 1992-07-20
JP3063855B2 true JP3063855B2 (ja) 2000-07-12

Family

ID=18181072

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2325829A Expired - Fee Related JP3063855B2 (ja) 1990-11-29 1990-11-29 音声認識におけるマッチング距離値の極小値探索方法

Country Status (1)

Country Link
JP (1) JP3063855B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6826350B1 (en) 1998-06-01 2004-11-30 Nippon Telegraph And Telephone Corporation High-speed signal search method device and recording medium for the same
JP3574075B2 (ja) * 2001-02-07 2004-10-06 日本電信電話株式会社 信号検出方法、信号検出装置、記録媒体及びプログラム

Also Published As

Publication number Publication date
JPH04198999A (ja) 1992-07-20

Similar Documents

Publication Publication Date Title
EP0077194B1 (en) Speech recognition system
JPS62217295A (ja) 音声認識方式
JP2996019B2 (ja) 音声認識装置
JP3063855B2 (ja) 音声認識におけるマッチング距離値の極小値探索方法
JPS6123560B2 (ja)
JP3063856B2 (ja) 音声認識におけるマッチング距離値の極小値探索方法
JPH06266386A (ja) ワードスポッティング方法
JP3477751B2 (ja) 連続単語音声認識装置
CN111681671A (zh) 异常音识别方法、装置及计算机存储介质
JP2975772B2 (ja) 音声認識装置
JP3011421B2 (ja) 音声認識装置
JP3458285B2 (ja) 音声認識装置
JP2856429B2 (ja) 音声認識方式
JP3473704B2 (ja) 音声認識装置
JPH0997095A (ja) 音声認識装置
JP3439602B2 (ja) 音声認識装置
JP2000515991A (ja) パターン認識
JPS59170894A (ja) 音声区間の切り出し方式
JPS59224900A (ja) 音声認識方法
JPH10171488A (ja) 音声認識方法及び装置及び記憶媒体
JP2744622B2 (ja) 破裂子音識別方式
JP3422822B2 (ja) 音声認識装置
JPS63173100A (ja) キ−ワ−ド抽出装置
JPS6312000A (ja) 音声認識装置
JPS63226691A (ja) 標準パターン作成方式

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080512

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090512

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees