JPH04198999A - 音声認識におけるマッチング距離値の極小値探索方法 - Google Patents

音声認識におけるマッチング距離値の極小値探索方法

Info

Publication number
JPH04198999A
JPH04198999A JP2325829A JP32582990A JPH04198999A JP H04198999 A JPH04198999 A JP H04198999A JP 2325829 A JP2325829 A JP 2325829A JP 32582990 A JP32582990 A JP 32582990A JP H04198999 A JPH04198999 A JP H04198999A
Authority
JP
Japan
Prior art keywords
value
minimum value
frame
matching distance
distance value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2325829A
Other languages
English (en)
Other versions
JP3063855B2 (ja
Inventor
Masahiro Hachiman
八幡 正宏
Masanori Ushigome
正範 牛込
Noboru Sugamura
菅村 昇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Oki Electric Industry Co Ltd
Original Assignee
Nippon Telegraph and Telephone Corp
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Oki Electric Industry Co Ltd filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2325829A priority Critical patent/JP3063855B2/ja
Publication of JPH04198999A publication Critical patent/JPH04198999A/ja
Application granted granted Critical
Publication of JP3063855B2 publication Critical patent/JP3063855B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、入力音声の特徴パタンと標準パタンとの連続
D P (DVnamic Programming)
 ? ツチング方式によって得られたマツチング距離値
における極小値を求める方法に関するものである9  
 ・[従来の技術] 音声認識装置においては、入力音声について得られた特
徴パタンと、予め所定の単語等について用意されている
複数の標準パタンとのマツチング距離値(類似度)を求
めて、このマツチング距離値に基づいて入力音声を特定
(認識)する。この際、入力音声における音素又は音節
と標準パタンにおける音素又は音節との対応をとること
なく実行できる非線形マツチング方法が採用されること
が多く、しかも、計算1の削減のためにそのうちの連続
DPマツチング方式が採用されることが多い。
この連続DPマツチング方式においては、マツチング距
離値の極小値情報に基づいて、対象となっている標準パ
タンにかかる音声(単語等)が入力音声に含まれている
か否か等を判別している。
第2図は、極小値情報がかかる判別に用いられることを
説明する概念図である。
入力音声に含まれている単語や音節等についての1個の
標準パタンと、入力音声についての時系列の特徴パタン
とのマツチング距離値を順次求めていく場合を考える。
なお、第2図におけるパタンを表す数値列は、実際の数
値列とは異なり、この説明に用いる仮想的な数値列であ
る。
入力音声の特徴パタンと標準パタンとか無関係なときは
、第2図(A)に示すように、マツチング距離値は大き
な値をとり、このような無関係な区間ではこのような大
きな値を連続させる。入力音声の特徴パタンの入力が進
み、標準パタンとの一致部分が生じると、マツチング距
離値はその一致部分が大きくなるに従い、徐々に小さく
なっていく(第2図(B)〜(D))。そして、入力音
声の特徴パタンと標準パタンとか一致したときにマツチ
ング距離値は最も小さな値となる(第2図(E))。さ
らに、入力音声の特徴パタンの入力が進むと一致部分が
少なくなって徐々にマ・ンチング距離値が大きくなって
いき(第2図(F))、一致部分もなくなるとマ・・l
チング距離値は第2図(A>に示すような大きな値に戻
る。
このように、入力音声に含まれている単語や音節等につ
いての1個の標準パタンに対するマツチング距離値の変
化は、極小値を有するものとなり、極小値を検出するこ
とで、その単語や音節が含まれているか否か及び含まれ
ている位置情報を得ることができる。
第3図(A)〜(D>は、入力音声「あだまがいたいj
の特徴パタン列と、4個の標準パタン「あたま」、「が
j、[いたいj及び[はらJのそれぞれとのマツチング
距離値の時間変化を示すものである。標準パタン「あた
まJに対するマツチング距離値は、第3図(A>に示す
ように早い時期で極小値をとり、標準パタン「か」に対
するマツチング距離値は、第3図(B)に示すように中
間時期に極小値をとり、標準パタン「いたい」に対する
マツチング距離値は、第3図(C)に示すように遅い時
期で極小値をとる。入力音声「あなまがいたい」に含ま
れていない標準パタン「はら」についてのマツチング距
離値は、第3図(D>に示すようにほぼ一定値をとる。
このように複数の標準パタンとのマツチング距離値を得
、その極小値情報に基づいて入力音声を特定(認識)す
ることができる。
このように連続DPマツチング方式においては、マツチ
ング距離値の極小値を検出することが重要である。従来
、複数のマツチング距離値から極小値を以下のようにし
て検出(探索)していた。
第4図は、1つの標準パタンとのマツチング距離値を時
間軸上に並べた図であり、入力音声サンプル値を複数毎
に纏めた複数の処理フレーム(同一サンプル値が複数の
フレームの成分になっていても良い)のうちn番目の処
理フレーム(以下、単にnフレームと呼ぶ)を中心とし
た複数フレームのマツチング距離値を示している。
今、nフレームが極小値のフレームか否かの判定処理対
象フレームとする。極小値である場合には、nフレーム
のマツチング距離値は、その近傍のフレームのマツチン
グ距離値より小さい値になっているので、当該nフレー
ムのマツチング距離値を近傍の各フレーム(n−mフレ
ームからn+mフレーム)のマツチング距離値と順次大
小比較し、近傍の全フレームより小さいときに極小値と
判断し、いずれかのフレームよりその値が大きいことを
検出したときに極小値でないと判定するようにしていた
し発明が解決しようとする課題] ところで、実際上、音声認識装置は利用者の音声を認識
するものであるので、この音声認識装置を備えた装置は
、認識結果を表示させたり、認識された内容に応じた処
理(例えば発話処理)を行ったりして利用者に対する何
等かの応答を行なう。
そのため、音声の認識時間を短くして応答までの時間を
も短くすることが求められる。
そこで、音声認識処理の各要素処理をできるだけ音声の
サンプリング周期に同期させて行ない、音声認識時間の
短縮化を計っている。
しかしながら、マツチング距離値の最小値の探索や探索
された最小値情報から認識結果を得る処理において、サ
ンプリング周期に同期させて行なうことが難しくなって
きた。
これは、第1に、音声認識装置の発達に伴い、取扱う標
準パタン数が非常に多くなってきたためである。第2に
、゛マツチング距離値の変化は本来の対応する処理フレ
ーム以外にも部分的に極小値をとることがあり、不要な
極小値が多数検出されるためである。
本発明は、以上の点を考慮してなされたものであり、マ
ツチング距離値の極小値探索を高速に実行することがで
きる、しかも不要な極小値の検出をできるだけ押さえる
ことができる音声認識におけるマツチング距離値の極小
値探索方法を提供しようとするものである。
[課題を解決するための手段] 本発明は、入力音声の特徴パタンを抽出する特徴パタン
抽出部と、予め用意されている標準パタンを記憶してい
る標準パタン記憶部と、特徴パタンと各標準パタンとの
マツチング距離値を各フレームについて求める連続DP
マツチング方式に従う照合演算部と、処理対象フレーム
を順次変えながらマツチング距離値の極小値を有する標
準パタン及び極小値の位置情報を得る極小値探索部と、
得られたマツチング距離値の極小値を有する標準パタン
及び極小値の位置情報から認識結果を得る認識処理部と
を備えた音声認識装置に関し、特に、極小値探索部が実
行するマツチング距離値の極小値の探索方法に関する。
極小値探索部は、処理対象フレームのマツチング距離値
が所定の閾値より小さいことを確認し、その後、処理対
象フレームとその近傍フレームとのマツチング距離値を
大小比較して、ある処理対象フレームがある標準パタン
の極小値になっているか否かを判断する。
[作用] 標準パタンと特徴パタンとか真に対応するなめにマツチ
ング距離値が極小値をとる以外にも、マツチング距離値
が部分的にみて極小値をとることがあるが、対応しない
場合の極小値は標準パタンと特徴パタンとが真に対応す
る場合の極小値よりかなり大きなものである。
そこで、本発明では、まず処理対象フレームのマツチン
グ距離値が、標準パタンと特徴パタンとか真に対応して
いる可能性を有することを、所定の閾値との大小比較に
より確認することとした。
そして、その後に、処理対象フレームとその近傍フレー
ムとのマツチング距離値を大小比較して、ある処理対象
フレームがある標準パタンの極小値になっているか否か
を判断することとした。
[実施例] 以下、本発明の一実施例を図面を参照しながら詳述する
ここで、第1図はこの実施例によるマツチング距離値の
極小値探索方法の処理フローチャート、第5図はこの実
施例の極小値探索方法が適用された音声認識装置の機能
ブロック図、第6図はこの実施例のマツチング距離値と
閾値との関係を示す説明図である。
第5図において、マイクロフォン1によって捕捉された
入力音声信号(アナログ信号)li、アナログ/デジタ
ル変換部2に与えられ、このアナログ/デジタル変換部
2によって例えば12kH2でサンプリングされ、デジ
タルデータ列に変換されて特徴パタン抽出部3に与えら
れる。特徴パタン抽出部3は、連続する所定個数のサン
プリングデータを1フレームとして所定の分析(例えば
LPC分析等)を行ない、フレーム毎に入力音声情報が
圧縮された特徴パタンを抽出する。このようにして抽出
された特徴パタン列は照合演算部4に与えられる。照合
演算部4には関連して標準パタン記憶部5が設けられて
おり、照合演算部4は、入力音声の特徴パタンと各標準
パタンとの連続DPマツチングを行ない、その結果であ
るマツチング距離値列を極小値探索部6に与える。
極小値探索部6は、第1図に示す処理を実行して、処理
対象フレームの特徴パタンとのマツチング距離値がその
処理対象フレームについて極小値を取る標準パタン(複
数のこともある)を得て処理対象フレームを明らかにし
てその標準パタン情報をセーブする。また、この際、極
小値のマツチング距離値もセーブする。
認識処理部7は、同一フレームについて極小値をとる標
準パタンか複数ある場合には、マツチング距離値に基づ
いて1個の標準パタンに絞り込んだ後、極小値を有する
標準パタンについての単語等を極小値が現れた位置順に
繋げて入力音声の認識結果を得る(第3図参照)。
次に、この実施例の最も特徴部分である極小値探索部6
の処理を第1図に基づいて説明する。
極小値探索部6は、入力音声の特徴パタン列のフレーム
毎に第1図に示す処理を繰返す。ここで、処理対象フレ
ームをnフレームとする。
nフレームが極小値探索にかかる処理対象フレームにな
ると、第1図に示す処理を開始し、まず、標準パタンを
特定するパラメータiを初期値0にする(ステップ10
0)。
その後、照合演算部4から与えられた、入力音声のnフ
レームの特徴パタンと標準パタンiとのマツチング距離
値D(i、n)が閾値THより小さいことを確認する(
ステ・・Iプ101)。
これは標準パタンiが対応していないものであっても部
分的に極小値を有することがあることに鑑みて設けられ
た処理ステップである。このような極小値は真に標準パ
タンiが対応している場合の極小値より格段的に大きく
、閾値THを適当に選定することで対応していない偽の
極小値を排除することができる。
処理対象のnフレームのマツチング距離値D(i、n)
が真の極小値の可能性を有しない場合には、標準パタン
パラメータiを1インクリメントして次の標準パタンを
指示するものとした後、このインクリメントされたパラ
メータiを標準パタン個数DICNと比較することで、
全標準パタンに対する処理を終了していないことを確認
して上述したステップ101に戻る(ステップ108.
109)。なお、パラメータiの初期値を0としている
ので、全標準パタンについての処理が終了したときには
パラメータiはDICNとなっており、ステップ109
で肯定結果が得られて当該処理が終了することになる。
第6図(A)は、処理対象のnフレームが閾値THより
大きく、そのため、上述したように近傍フレームとの大
小比較を行なうことなく直ちに次の標準パタンについて
の処理に進む場合を示している。
ステップ101の判別の結果、処理対象のnフレームの
マツチング距離値D(i、n)が闇値THより小さくて
真の極小値の可能性を有すると判定されると、このnフ
レームのマツチング距離値D(i、n)と、直前のn−
1フレームのマツチング距離値D(i、n−1>との大
小比較を行なう(ステップ102)。nフレームのマツ
チング距離値D(i、n>が大きければ、このnフレー
ムは極小値フレームでないので、上述したステップ10
8に進んで次の標準パタンを対象とする。
他方、nフレームのマツチング距離値D(i。
n)がn−1フレームのマツチング距離値D (i。
n−1)より小さけれはく等しい場合を含む)、このマ
ツチング距離値D(i、n>と、直後のn+1フレーム
のマツチング距離値D(i、n+1)との大小比較を行
なう(ステップ103)。この場合でも、nフレームの
マツチング距離値D (i。
n)が大きければ、このnフレームは極小値フレームで
ないので、上述したステップ108に進んで次の標準パ
タンを対象とする。
この判別によっても極小値の可能性を有すると判定され
ると、処理対象のnフレームのマツチング距離値D(i
、n)とn−2フレームのマツチング距離値D(i、n
−2)との大小比較を行なう(ステップ104)。この
場合でも、nフレームのマツチング距離値D(i、n)
が大きければ、nフレームは極小値フレームでないので
、上述したステップ108に進んで次の標準パタンを対
象とし、他方、極小値の可能性が残っていれば、n+2
フレームのマツチング距離値D(i、n+2)との大小
比較を行なう(ステップ105)。
以下、同様にして、前側についてはn−mフレームのマ
ツチング距離値D(i、n−m)、後側についてはn+
mフレームのマツチング距離値D(i、n+m)までの
大小比較を極小値の可能性を有するならば順次行なう(
・・・ステップ106)。
この場合に、比較対象のフレームを、当該処理対象フレ
ームの前側及び後側を交互に変化させると共に、当該処
理対象のnフレームとの時間差が徐々に大きくなるよう
に変更させていく。
ここで、mは極小値か否かを見極めるための範囲を規定
するものであり、例えば3程度が妥当である。このmが
大きければ極小値探索の平均処理時間が長くなり、小さ
すぎれば誤検出の恐れが大きくなるためである。
また、上述のように、処理対象のnフレームのマツチン
グ距離値D(i、n>と、マツチング距離値が大小比較
されるフレームを、前側及び後側で交互に変えるように
したのは、単調増加変化及び単調減少変化の中間に処理
対象フレームが位置しても、両者の場合共に迅速に極小
値でないことを検出できるようにしたためである。
さらに、上述のように、処理対象のnフレームに時間が
近いフレームから比較対象フレームとするようにしたの
は、nフレームに近い位置に極小値フレームがあったと
きに、当該nフレームを極小値フレームでないと迅速に
検出できるようにしたためである。
第6図(B)は、処理対象のnフレームについてのマツ
チング距離値D(i、n)が閾値THより小さく、近傍
フレームとの大小比較により極小値か否かの確認を行な
う処理に進む場合を示している。
ステップ102から106の判断の結果、n−mフレー
ムからn+mフレームの間では、当該nフレームのマツ
チング距離値D(i、n>が最小値(極小値)であると
判断されると、標準パタンパラメータi、処理対象フレ
ームを指示するパラメータn及びマツチング距離値D(
i、n>をセーブして、上述したステップ108に進ん
で次の標準パタンを対象とする(ステップ107)。
このようにしてセーブされた情報が、上述したように認
識処理部7で利用される。
以上のように、この実施例によれば、処理対象のnフレ
ームが標準パタンiについて極小値フレームか否かを判
断するにつき、近傍フレームとの大小比較に先立って、
マツチング距離値D(i。
n)が閾値THより小さいことを確認するようにしたの
で、真の極小値の可能性を有しない場合に ゛は、近傍
フレームとの大小比較処理を省略でき、従来に比して極
小値探索時間を短くすることができる。その結果、認識
処理部7に与えられる不要な極小値情報も少なくなり、
極小値情報の競合が少なくなって認識処理をも迅速に実
行させることができる。
また、上述の実施例によれば、極小値か否かを判断する
ための比較対象のフレームを、処理対象のnフレームの
前側及び後側を交互に切り替えながら、しかも、徐々に
nフレームとの時間差が大きくなるように選んでいくよ
うにしたので、この点からも極小値でないことを検出す
る平均時間を従来より短くすることができる。
このように極小値の探索及び認識処理に要する時間が短
くなったので、標準パタン数が増大してもサンプリング
周期に同期させて処理を実行させることが可能となって
実際上問題とならない程度の時間で音声を認識すること
ができる。
なお、上述の実施例では、処理対象フレームについて複
数の標準パタンか極小値を有するものとなることがあり
、これの絞り込みを認識処理部7で行なうものを示した
が、極小値探索部6で行なうようにしても良い。
また、第1図に示す処理は、−例であって種々の変形が
可能である。例えば、最初の比較対象を後側のフレーム
のマツチング距離値とするようにしても良く、また、比
較対象フレームを固定して標準パタンを変えながら処理
し、その後に比較対象フレームを変更するものであって
も良い。また、比較対象フレームを前側及び後側で交互
に切り替えないようにしても良い。
[発明の効果] 以上のように、本発明によれば、極小値探索部が処理対
象フレームのマツチング距離値が極小値か否かをある標
準パタンについて判断する際に、処理対象フレームのマ
ツチング距離値が真の極小値である可能性を有すること
を閾値との比較で確認した後、近傍フレームとの大小比
較を行なうようにしたので、極小値でないことを検出す
る平均時間を従来より短くすることができ、また、得ら
れる極小値情報の数を少なくすることができて音声認識
時間を従来より短くすることができる。
【図面の簡単な説明】
第1図は本発明の一実施例による極小値探索処理を示す
フローチャート、第2図及び第3図はマツチング距離値
列における極小値の意味の説明図、第4図は従来の極小
値探索方法の説明図、第5図は上記実施例にかかる音声
認識装置の構成を示すブロック図、第6図は上記実施例
のマツチング距離値と閾値との関係を示す説明図である
。 3・・・特徴パタン抽出部、4・・・照合演算部、5・
・・標準パタン記憶部、6・・・極小値探索部、7・・
・認識処理部、TH・・・真の極小値である可能性を有
するか否かを判断するための閾値、n・・・処理対象フ
レーム、i・・・標準パタン、DICN・・・標準パタ
ン数、D(i、n>・・・nフレームの標準パタンiに
ついてのマツチング距離値、m・・・比較対象のフレー
ム範囲を規定する数。

Claims (1)

  1. 【特許請求の範囲】 入力音声の特徴パタンを抽出する特徴パタン抽出部と、
    予め用意されている標準パタンを記憶している標準パタ
    ン記憶部と、特徴パタンと各標準パタンとのマッチング
    距離値を各フレームについて求める連続DPマッチング
    方式に従う照合演算部と、処理対象フレームを順次変え
    ながらマッチング距離値の極小値を有する標準パタン及
    び極小値の位置情報を得る極小値探索部と、得られたマ
    ッチング距離値の極小値を有する標準パタン及び極小値
    の位置情報から認識結果を得る認識処理部とを備えた音
    声認識装置において、 上記極小値探索部が、処理対象フレームのマッチング距
    離値が所定の閾値より小さいことを確認し、その後、処
    理対象フレームとその近傍フレームとのマッチング距離
    値を大小比較して、ある処理対象フレームがある標準パ
    タンの極小値になっているか否かを判断することを特徴
    とする音声認識におけるマッチング距離値の極小値探索
    方法。
JP2325829A 1990-11-29 1990-11-29 音声認識におけるマッチング距離値の極小値探索方法 Expired - Fee Related JP3063855B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2325829A JP3063855B2 (ja) 1990-11-29 1990-11-29 音声認識におけるマッチング距離値の極小値探索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2325829A JP3063855B2 (ja) 1990-11-29 1990-11-29 音声認識におけるマッチング距離値の極小値探索方法

Publications (2)

Publication Number Publication Date
JPH04198999A true JPH04198999A (ja) 1992-07-20
JP3063855B2 JP3063855B2 (ja) 2000-07-12

Family

ID=18181072

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2325829A Expired - Fee Related JP3063855B2 (ja) 1990-11-29 1990-11-29 音声認識におけるマッチング距離値の極小値探索方法

Country Status (1)

Country Link
JP (1) JP3063855B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002236496A (ja) * 2001-02-07 2002-08-23 Nippon Telegr & Teleph Corp <Ntt> 信号検出方法、信号検出装置、記録媒体及びプログラム
US6826350B1 (en) 1998-06-01 2004-11-30 Nippon Telegraph And Telephone Corporation High-speed signal search method device and recording medium for the same

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6826350B1 (en) 1998-06-01 2004-11-30 Nippon Telegraph And Telephone Corporation High-speed signal search method device and recording medium for the same
JP2002236496A (ja) * 2001-02-07 2002-08-23 Nippon Telegr & Teleph Corp <Ntt> 信号検出方法、信号検出装置、記録媒体及びプログラム

Also Published As

Publication number Publication date
JP3063855B2 (ja) 2000-07-12

Similar Documents

Publication Publication Date Title
EP0380297A2 (en) Method and apparatus for speech recognition
CN112992191B (zh) 语音端点检测方法、装置、电子设备及可读存储介质
JPH03167600A (ja) 音声認識装置
JPH04198999A (ja) 音声認識におけるマッチング距離値の極小値探索方法
US4868879A (en) Apparatus and method for recognizing speech
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP3063856B2 (ja) 音声認識におけるマッチング距離値の極小値探索方法
EP1391876A1 (en) Method of determining phonemes in spoken utterances suitable for recognizing emotions using voice quality features
JP2856429B2 (ja) 音声認識方式
JP3011421B2 (ja) 音声認識装置
JPH0777998A (ja) 連続単語音声認識装置
JPH0585917B2 (ja)
JP2744622B2 (ja) 破裂子音識別方式
KR100269429B1 (ko) 음성 인식시 천이 구간의 음성 식별 방법
JPH10171488A (ja) 音声認識方法及び装置及び記憶媒体
JPH02296297A (ja) 音声認識装置
CN112562657A (zh) 一种基于深度神经网络的个性语言离线学习方法
JP3473704B2 (ja) 音声認識装置
JPH08146996A (ja) 音声認識装置
JPH01209499A (ja) パターン照合方式
JPH01290000A (ja) 音声認識方式
JPH096387A (ja) 音声認識装置
JPS6363919B2 (ja)
JPH0816186A (ja) 音声認識装置
JPH07146696A (ja) 音声認識における単語テンプレートの自動作成方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080512

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090512

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees