JPH07508360A - ボキャブラリーモデル予備選択を利用した音声認識システム - Google Patents

ボキャブラリーモデル予備選択を利用した音声認識システム

Info

Publication number
JPH07508360A
JPH07508360A JP6502671A JP50267194A JPH07508360A JP H07508360 A JPH07508360 A JP H07508360A JP 6502671 A JP6502671 A JP 6502671A JP 50267194 A JP50267194 A JP 50267194A JP H07508360 A JPH07508360 A JP H07508360A
Authority
JP
Japan
Prior art keywords
frames
sequence
model
state
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6502671A
Other languages
English (en)
Inventor
ウィルソン、ブライアン ディー
イェナナラヤマン、ギリジャ
セノワ、ウラジミール
ギャノン、ウィリアム エフ ザ サード
Original Assignee
クーツウェイル・アプライド・インテリジェンス・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by クーツウェイル・アプライド・インテリジェンス・インコーポレーテッド filed Critical クーツウェイル・アプライド・インテリジェンス・インコーポレーテッド
Publication of JPH07508360A publication Critical patent/JPH07508360A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Complex Calculations (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 ボキャブラリーモデル予備選択を利用した音声認識システム発明の背景 本発明は、音声認識に係わり、特に、未知の音声セグメントとの正確なマツチン グのために候補モデルを予備選択(preselect)あるいはスクリーニン グする方法に係わる。
多くのユーザーの用途に有用であるためには、音声認識システムは多量の単語ボ キャブラリーを認識できなければならない。多量のボキャブラリー系中の単語間 の判別には、未知の音声セグメントと単語ボキャブラリー(vocabular y word)を表すモデルとの比較において高い精度の能力をシステムが有す ることを必要とする。周知のように、高い精度は計算上の複雑さの点でかなりの コストを伴い、必要な計算を効率的に行うための種々の方法が開発されているが 、高精度マツチングアルゴリズムを適用する前に候補モデルをスクリーニングま たは予備選択するための何らかの方法が益々必要となってきている。本発明にお いては、尤もらしくない(unlikely)候補を迅速に排除し、しかも最適 なマツチングを除去してしまうリスクを最小限にするような方法で、候補モデル の予備選択を行ういくつかの新規な方法が採用される。
発明の要旨 未知の音声セグメントは、フレームの細かいシーケンス(fine 5eque nce of frames)によって表され、ボキャブラリーモデルはそれぞ れの状態の細かいシーケンス(fine 5equence of 5tate s)によって表される。好ましくは、モデル状態は、所定の状態の限定された集 合の中から引き出される。未知のセグメント及びモデルの両方はサブサンプリン グされ、それぞれの粗いシーケンスを与え、それが本発明のスクリーニング距離 測定機能に使用される。サブサンプリングされたシーケンスは実際に各比較のた めのマトリックスを規定する。
本発明の1つの態様によれば、未知の音声セグメントのそれぞれについてテーブ ルか予め計算される。そのテーブルは、前記限定された集合のそれぞれの状態に ついて、それぞれの可能な状態位置においてその状態との最適なマツチング(適 合)を与えるサブサンプリングされた入力フレームのマツチングの程度の尺度を 有する。好ましくは、最適のマツチングの選択は、粗いシーケンス中の隣接する 状態に基づいた選択を拘束することなく、即ち、例えばビタビ翻訳による、マツ チング計算に通常課される時間ワーブ拘束(time warp constr aint)なしになされる。従って、考慮されるべきそれぞれのモデルについて 、フレームの粗シーケンスと状態の粗シーケンスのそれぞれとの全体のマツチン グを示す累積値が、 ゛単に前記テーブルにアクセスし、得られた値を累積する だけで迅速に得られるものである。
本発明の他の1の形態によれば、未知の音声シーケンスにおける単語の尤もらし い開始端点及び終了端点が特定されるが、終点の外部のフレームが全てのボキャ ブラリーモデルに共通の予備選択されたノイズモデルと比較され、これによりマ トリックスの角辺外の位置においてマトリックスを出入するためのコスト値を予 備計算する。この手法は、端点検出における起こりそうな(forpossib le)エラーに適応し、かつ計算の全体的コストを殆ど増加させないものであり 、これは未知の各音声人力セグメントについて、ノイズモデルに対するセグメン トのマツチングの評価が、考慮される全ての参照モデルに共通であることによる ものである。
両方の距離測定機能についてのさらに別の改良は、サブサンプリングされた個々 の入力フレームとモデル状態との比較のそれぞれについて、サブサンプリングさ れたフレームのみならず、サブサンプリングされたフレームの前及び後の一定数 のフレームをも考慮することである。この他のフレームを考慮することは、連続 するサブサンプリングされたフレームの近隣のものとの組合せや並べ変えにおい てではなく、個々のマツチングベースにおいて行われるので、計算上の負荷はそ れほど上昇しない。
図面の簡単な説明 図1は、本発明によるボキャブラリーモデル予備選択方法を使用する音声認識装 置のブロック図である。
図2は、その後の未知の音声セグメントとの高精度比較のために候補モデルを予 備選択する方法の全体を表すフローチャートである。
図3は、未知の音声セグメントを表すフレームのシーケンスのサブサンプリング を示す図である。
図4は、ボキャブラリーモデルを表す状態のシーケンスのサブサンプリングを示 す図である。
図5は、図2の距離計算機能の作動を図解的に表す図である。
図6は、図1の方法において使用される第1の距離測定機能を示すフローチャー トである。
図7は、端点の特定において起こり得るエラーに適応するための、未知の音声セ グメント中の単語の所定の端点の外部のフレームと単語モデルに付加された予備 選択ノイズモデルとの比較を示す。
図8は、余分のフレームの最初のセットを最初のノイズモデルと比較して、未知 の単語をモデルと比較するマトリックスに異なるエントリーポイントで入るため のコスト値を得る方法を示す。
図9は、異なる点での比較マトリックスから出るエキジットのコストを計算する 方法を示す。
図10は、図8及び図9に示されたようにして誘導されたエントリー値及びエキ ジット値を圧縮するための方法を示す図である。
図11は、サブサンプリングされた人力フレーム及びサブサンプリングされたボ キャブラリーモデル状態のマトリックスを通しての時間ワーブ方法を示す図であ る。
対応する参照文字はいくつかの図を通して対応する部分を示している。
好ましい態様の説明 多くの先行技術のシステムと同様に、本発明の装置は最初に音響音声波形を変換 して対応する電気信号を得ることによって作動し、次にその信号をデジタル化す る。図1を参照すると、そこに示されたトランスデユーサは、適当なプリアンプ 13を介してアナログ−デジタル変換器15に接続されたマイクロフォン11で ある。
やはり当業界で常用されているように、音声信号を処理して、一連のサンプル時 間における、音声を特性化するデジタル値のシーケンスを得る。示した態様にお いては、このような値は、音声信号を、入力音声を特性化するスペクトル特性を 抽出するようにフーリエ変換をおこなうデジタル信号プロセッサ17を通すこと により得られる。時間の所与の瞬間における入カスベクトルを規定するデジタル 値の集合を、以後本明細書においてフレームと呼ぶ。当業者に理解されるように 、各フレームは多次元ベクトルと考えることができる。
フロントエンド回路機構は集合的に参照番号20で特定されている。入ノj信号 の処理はデジタル的に実行されるように示されているが、アナログフィルタリン グとそれに続くアナログ−デジタル変換も使用できることは理解されるであろう 。
同様に、現時点では多チヤンネルフィルタリングが好ましいが、未加工入力信号 を処理またはコード化するその他の方法も使用でき、例えば特別な用途のハード ウェアにおいても行われる線形予測コード化(linear predicti ve encoding)によって行うことができることは理解されるであろう 。
汎用マイクロコンピュータシステム23は、例えばインテル80386マイクロ プロセツサを使用したもので、全体的システムマネジメント及び制御機能、並び に本発明の距離の処理またはスコア計算、及びアルゴリズムの実行のためのもの である。慣用されるように、コンピュータ23はシステムのユーザとの対話のた めに与えられるビデオディスプレイ24及びキーボード26を備えている。
フロントエンド回路機構20からの未知ニスベクトル情報はコンピュータ23に よってさらに予備処理され、各試料スペクトルを1対のインデックス、即ちポイ ンタに置き換える。これら1対のインデックスの最初の1つは、準スペクトル分 布の所与のセットの1つに対応またはそれを特定し、もう1つは標準エネルギー レベル値の所与のセットの1つを特定する。記載される特定の態様においては、 256のそのような標準スペクトルが使用される。その他のコードブックサイズ ももちろん使用できる。システムは256の標準エネルギー値を収容できるが、 システム中で実際に必要であり使用されるのは約80である。当業界においては 、この置換はベクトル量子化と指称されるのが慣例であり、前記インデックスは VQインデックスと呼ばれる。
先に示したように、ボキャブラリーモデルは状態のシーケンスで示され、各状態 はスペクトルインデックス及びエネルギーインデックスにより規定される。フレ ームスベクトルインデックスに対応するのではなく、状態スペクトルインデック スか確率分布を特定しあるいはそれに対応するものである。状態スペクトルイン デックスは、各状態インデックスについて、各フレームあるいはVQインデック スが前記状態インデックスに対応するものとして観察されることになる、確率の セットを特定するテーブルへのポインタとして働く。テーブルは、実際、全ての 可能なフレームスベクトルインデックス及び全ての状態スペクトルインデックス の間を予備;I算マンピングしたものである。フレームエネルギーインデックス を状態エネルギーインデックスとともにマツピングするためのテーブルが対応し て設けられる。従って、単一のフレームと単一の状態を比較するために、距離測 定、即ちマツチングの尺度は、各インデックスを使用してテーブル中に直接イン デックスし、得られた値に適当な重み付けを組合せることにより得ることができ る。本発明に記載する特定の実施においては、スペクトルマツピングテーブルか ら得られた距離を2倍にし、エネルギーマツピングテーブルから得られた値に加 え、入ってくるフレームと所与の状態との間のマツチングの程度を示す全距離あ るいはコスト値を得る。
記載する特定の態様においてはインデックスの対が人力データの単一のフレーム を特定あるいは特性化するのに使用されるが、単一インデックスシステムが当業 界において知られており、本発明の方法はそのようなシステムに適用できること か理解されるであろう。以下の記載の一部においては、実際に、単一のVQイン デックスあるいはそのようなインデックスの対(スペクトル及びエネルギー)の いずれをも使用できる場合においては、記載を簡明にするためにしばしばフレー ムインデックスと称している。
当業者に理解されるように、テーブルを埋める距離あるいは尤もらしさの値は統 計的トレーニング法により生成することかできる。種々のそのようなトレーニン グ方法か当業界において知られており、それらは本発明の特徴の一部をなすもの ではないので、本明細書においてはさらに詳しくは記載しない。それよりも、本 発明の目的においては、!lに、人力フレーム及びボキャブラリーモデルを表す のに使用される状態の間の対応のマツチングあるいは尤もらしさの程度を測定す るいくつかの計量法かあるとする。コンピュータ23による入力データの予備処 理には、未知の音声入力セグメントにおける単語の始まりと終わりをエネルギー レベル値に基づいて見積もることが含まれる。記載される特定の態様は連続的な 音声の認識装置ではなく分離した単語の認識装置であるが、本発明の方法はいず れにも適用できることも理解すべきである。
やはり当業者に理解されるように、会話速度の自然な変化により、未知の音声セ グメントを示すフレームのシーケンスを、単語ボキャブラリーを示す状態のシ  ゛−ケンスのそれぞれと時間的に整数するための何等かの方法が必要となる。こ の方法は通常、時間ワーブ(time warping)と呼ばれる。未知の音 声セグメントを構成するフレームのシーケンスは、ボキャブラリーモデルを表す 状態のシーケンスとともに実際にマトリックスを規定し、時間ワーブプロセスは 、最適なスコア、例えば最小の距離あるいはコストを生成するマトリックスを横 切るパスを発見することを含む。距離あるいはコストには、典型的には、VQ( ベクトル量子化)方法について前述したように、フレームインデックスの状態イ ンデックスとのそれぞれの対形成に関連したコストまたは距離値を蓄積すること により到達できる。
当業者に理解されるように、未知の音声セグメントと競合ボキャブラリーモデル (competing vocabulary models)との最終的な比 較は、方法が多量のボキャブラリーを有するシステム中の同じような競合ボキャ ブラリーモデル間を識別しなければならない場合、高度に正確でなければならな い。高精度比較は、ベクトル量子化を使用したとしても計算上負担の大きいもの であり、これはマトリックスを横切る多数の可能性のあるバスを探査しなければ ならないからである。最終的な、即ち最も正確なマツチング機能のための時間ワ ーブの現時点での好ましい形態は、同時に係属中であり同一人に譲渡された出願 で、Vladimir 5ejnohaにより1992年6月9日に出願された 出願番号077895.618号の音声認識装置の題名を有する出願に開示され ている。
実施しなければならない高精度比較の数を減らすため、本発明では連続的なスク リーニングステップを使用して候補を予備選択する。予備選択方法により尤もら しくない候補が迅速に排除されるか、良好な候補を不正確にスクリーニングから もらす危険は極めて低い。
記載される特定の態様で実施されるスクリーニングシステムにおいては、2種の 異なる高速度の距離測定機能を使用し、連続的に候補モデルを選択してマツチン グ測定の正確さを徐々に改善する。これらの距離測定機能は、本明細書中におい て後により詳細に記載するが、以下の簡潔な記載は前記2種の機能を全体的に特 徴付け、全体的なシステム中でのそれらの使用を説明するのに役立つであろう。
両方の距離測定機能は、未知の音声セグメント及び未知のセグメントが比較され るモデルのサブサンプリングあるいは圧縮を利用する。本明細書において以後D M2と指称する、第2の、即ちより詳細な距離測定機能は、本質的には、各サブ サンプリングされた候補モデルに対するサブサンプリングされた未知のものの慣 用の時間ワープを行うものであるが、サブサンプリングすることにもかかわらず 正確さを顕著に改近する、高精度の示唆的端点決定方法を使用するものである。
以後DMIと指称する、最初の最高速度の測定機能は、各状態のインデックスに ついての最小距離値の前もって計算されたテーブルを使用することによって、サ ブサンプリングされたシーケンスの非常にルーズに拘束された時間ワーブと考え られるものを行うものであり、これは多数のモデルと未知のものとの比較を可能 とするが計算上の負荷は最小であるようにするものである。
先に記載したように、本発明は、多数のボキャブラリーの音声認識システム、例 えば50.00035のオーダーのボキャブラリーを有するようなシステムにお いて特に有用性を有する。そのようなシステムにおいては、ボキャブラリーか区 分されており、それぞれ区分されたものの中のモデルはモデル中の代表により示 されていることか非常に望ましい。ボキャブラリーを区分し、ボキャブラリーの 中から候補を選択する方法は、同時に係属中であり同一人に譲渡された出願で、 William F、 Ganong、 III: William F、 B auer: Daniel 5evush及びHarley M、 Ro唐獅盾 翌■ より1989年10月19日に出願された出願番号07/424.139号の音 声認識の題名を有する出願に開示されている。出願番号07/424 、139 号の開示は引用により本明細書の一部とする。
未知の音声セグメントと高精度に比較されるための候補を予備選択する全体的な 方法は図2に示されており、理解されるように、距離測定機能(DMI及び0M 2)のそれぞれは、群あるいは区分の代表、及びその後のより良好なスコアを付 けた群及び/または区分のメンバーの両者に適用される。第1のステップとして 、最も速い距離測定機能を群の代表の集合の全体に適用してこれらの代表のうち 最尤であるN1を選択する。このステップは参照番号41で示される。その後、 より正確な距離測定機能DM2がN1群代表に適用され(ステップ43)、それ らの中の最尤のものを、第2の予備選択数N2まで、選択し再配列する。最尤群 即ち区分を選択した後、最高速距離測定機能DMIを再度使用しくステップ45 )、このときは選択された区分のメンバーに適用し、所定の距離基準に合致する 候補を選択し、これにより選択された候補の数をN3とする。さらにより詳細な 距離測定機能DM2を、先に得られたN3候補に適用しくステップ47)、これ により、それらのうちのより小さい数、N4を選択し再配列する。次にフル解像 度細密ワープ、即ちフレームの細密シーケンス及びモデル状態の細密シーケンス を利用するものを、ボキャブラリーからの単語のリストを最終的に決定し配列す るのに適用しくステップ49)、それはその後ユーザープログラムに出力される 。
先に示したように、当初の未知の音声人ツノはフレームの細密シーケンスで表さ れ、各ボキャブラリーモデルは状態のシーケンスで表される。フレーム及び状態 のシーケンスは長さにおいて等しくなく、即ちそれらが異なる数のエレメントを イ■しているかもしれない。それぞれのエレメントの数は、典型的には100の オーダーである。入力セグメント及びモデルを圧縮するため、シーケンスを線形 にサブサンプリングし、圧縮バージョンが最初と最後のエレメントを含み、各シ ーケンスのエレメントの合計数が合計16になるようにする。入力フレームに適 用されるこのようなサブサンプリングを図3に図解的に示す。先に示した通り、 音声入力の予備処理は、話される単語の尤もらしい開始端点及び終末端点を指示 することを含む。しかしこの端点決定の操作にはいくらかのエラーがあり得るの で、システムは実際には開始端点の前の所定の数のフレーム及び終了端点の後の 同数のフレームを処理し記憶する。示した態様においては、各末端に10のその ような余分のフレームがある。微細シーケンスからのこれらの余分のフレームは 、第2の距離測定機能DM2について本明細書で後に記載するように、ある種の 計算に使用されて粗シーケンスあるいは圧縮シーケンスのための余分のフレーム を与え、これらの計算は、細密シーケンスからの余分のフレームの単なる線形の サブサンプリングよりもより正確な表示を与える。図4は、ボキャブラリーモデ ルを表す状態の微細シーケンスの線形サブサンプリングの同様な図である。
先に示したように、距離測定機能の最も速いもの(DMl)は、通常は時間ワー プ手法に適用される拘束のいくつかのものなしに作動し、前もって計算された最 小距離測定を使用し、多数の候補モデルのスクリーニングをスピードアップする 。図5及び6を参照すると、距離測定機能DMIは、未知の音声シーケンスから 線形にサブサンプリングされた16のフレームを、考慮される各ボキャブラリー モデルから線形にサブサンプリングされた16の状態と比較し、この比較は図5 におけるマトリックスにより示される。マド1ルツクス内の全ての位置か考慮さ れるわけではなく、各状態のカラムに関して考慮されるフレームの数は所定のサ イズのウィンドウに制限される。図5においては、ウィンドウは各状態カラムに ついて閉鎖されたブロックにより示されている。従来のこのようなマド1ルツク スを通る時間ワーブされたパスを決定する際においては、ノくスは何等かの位置 的制限を受け、例えば、各位置はその左から、あるいは下から、あるいはその2 方向の間の斜め方向からのみ接近できる。しかし、距離機能DM1には、そのよ うな制限は見られず、各状態カラムにおいて、カラムを占める状態について、前 記方法か最適のマツチング、即ち最低の距離あるいはコストを与えるフレームを 決定し、ここでその状態のカラムについて予備選択されたウィンドウまたは通路 (corridor)内のそれらのフレームのみが考慮され、その時点の状態の カラムのいずれの側であるかの決定は考慮されない。これは本質的に、ウィンド ウ内で利用可能な鎖中て最小のものを発見することを含む計算である。
本発明の別の形態においては、考慮される新しいモデルのそれぞれにつ(1てこ のような最小値を計算する必要はない。そうではなく、人力フレームのサブサン プリングシーケンスか一旦決定されると、各状態カラムについて及びそのカラム を占め得る256の各状態について、前記方法により、最小コストあるいは距離 、即ち、最適のマツチングを与える考慮されるフレームの1つについてのコスト あるいは距離か決定される。コスト値はテーブルに記憶され、これか全てのモデ ルにスコアを付けるのに使用される。従って、これは、16x256のエントリ ーを含むテーブルであり、各テーブルの位置において、対応する状態カラムを占 める対応する状態インデックスについて対応する最小物を表す値を含む。従って 、新しい各モデルが考慮する際には、各状態カラムについてのコスト値は、単に カラム番号及びそのカラムを占める状態のインデックスを使用してテーブル中に インデックスし、最小のコスト値を抽出するだけで得られる。そして未知の人力 セグメントとモデルとのマツチングの全体的な尺度はこれらのコストまたは距離 値の単なる合計値である。当業者には理解されるであろうように、このテーブル 検査及び合計操作は非常に簡単な操作であり、比較的迅速に達成できる。従って 、多数のモデルを迅速に考慮することができる。この方法は図6のフローチャー トに示した。
先に示したように、この距離測定機能により得られる蓄積的マツチング測定の正 確さは、最終的な選択には適当でない。しかしエラーは、良好な候補のスコアを 低下させることよりも、より良いスコアを付ける候補を生成する傾向にあるので 、前記方法は、尤もらしくない候補を排除するのに極めて効果的であり、一方、 予備選択段階で良好な候補をυ1除してしまう危険を殆ど生成しない。確率数学 の点からみると、距離測定機能DMIのスコアを付ける手順は以下のように説明 できる。
参照モデルは固定されており、大力ベクトルシーケンスは、誤った終点決定、線 型サブサンプリング等のためにエラーを受けると仮定した。
各モデルMについて、固定された参照シーケンスRが与えられたならば、入力ベ クトルシーケンスF又は変化したものか観察される可能性を計算する必要かある 。各ベクトルfjは、任意の時間jにおいて参照状態riにより発生され得た。
従って、Fにおけるベクトルか固定された状態シーケンスRにより発生された確 率は、 P(F/M) 二P(fji/ri) * P(fji) (1)j で表され、ここでP(fji)はベクトルfjがシーケンスにおいてi番目であ る確率を示す。
P(fji/ri) 二〇(fj、ri) = 状態riにおいてベクトルfj を観察する確率式(1)を簡略化するためにいくつかの仮定を使用する。
(1)一時的にFに近い、少しのへりトルシーケンスのみが、与えられた入力発 声について適当なシーケンスでありそうだと仮定する。即ち、P(fji) =  Wji max(1,1−N) j m1n(16,j+N) (Wji 1 /2N+1の場合)・0 そうでない場合 IIIax及びwin操作は境界における適当な挙動のために与えられる。
(2)確率の合計は、これらの確率の最大値により近似され得ると仮定する。
そこで式(1)は、max(1,1−N) j m1n(16,i+N)につい て、P(F/M) = max over j (0(fj、ri)本Wji  l (2)j と書き換えることができる。
ウィンドウi−Nからi+N内の全ての」について確率は1/(2N+1)に等 しいものとし、その結果の全ての参照モデルについて同じである定数は無視する 。式の両辺1こついてm1ng(ンを取り、−1og O<fj、ri)をd( fj、ri)、−1ogP(F/M)をD(F、 w)と表す。
max(1,1−N) j m1n(16,i+N)について、D(F、 it ) = min d(fj、ri) (2)このアルゴリズムは、 BEGIN イニシャライズi =1: D(Flw) :0:と要約すること ができる。
モデルMにおけるそれぞれの参照状態r1について、ステップ1:境界において 適当なウィンドウサイズを適用するfj周辺の2N+1ベクトルのウィンドウ内 でrl及び各ベクトルfjについてd(fj、ri)を得、ステップ2:これら のd(fj 、ri)の最小値を見つけ、ステップ3:これをD(F、w)に加 え、ステップ4・1−16の場合、ストップしてD(F、 W)を出力し、さも なければ、1を増加させてステップ1から繰り返す。
当業者に理解されるように、エレメントの細密シーケンスのサブサンプリングに 基づいたシステムは、前記細密シーケンスがらサブサンプルが採られる特定のタ イミングあるいは同期に影響されやすい。そのようなエラーは、仮定される端点 に直接基づいてサブサンプリングされたシーケンスのみに本発明の距離測定機能 を適用するばかりではなく、当初シーケンスから線形にシフトしたサブサンプル にも測定機能を適用することによって、実質的に減じることができる。この手順 は試行されるシフトシーケンスの数だけ実施されなければならない計算の数を増 加させるが、本発明の距離測定機能が必要とする計算能力は最小限のものであり 、従って余分な計算時間も比較的容易に耐えられるものである。この代替物は確 率の用語においては以下のように表現される。
線形サブサンプリングの問題を克服するために、ただ1つのシーケンスではなく 、同じ入力発声から誘導された多数のシーケンスを観察する確率を最大にするよ うにする。これらシーケンスのそれぞれは、当初の入力ベクトルシーケンスを、 終了において適当なパッディングを使用して、線形に移動させ、その後各移動し たシーケンスをサンプリングすることにより誘導されると仮定される。これらの rnJ代替シーケンスをFsと表して、確率P(Fs/M)P(Fs/M) : P(Fl/M)本(F2/M)、、、、、P(Fn/M)を最大にすることがで きる。これは、F中の各ベクトルfiをそれの周りのベクトルs1%s2 、  、 、 、 、 snのセントにより置き換えることにより達成される。これに より距離d(fn、ri)か合計 d(fj、ri) =−log(0(fn、ri) ) (3)となるように修 正される。ここで1つのサンプルベクトルfjの代わりに入力ベクトルのセット が詰め込まれるので、この手順を便宜的に「フレームスタッフィング」と呼ぶ。
(3)における合計の代わりに平均を使用することにより、距離のダイナミック レンジか保存される。この「フレームスタッフィング」法は、第2の距離測定機 能にも有利に適用される。
先に示したように、第2の距離測定機能DM2は、サブサンプリングされたシー ケンスのマトリックスを横切る、より慣用的な時間ワーブを行うものであり、こ こでは時間ワーブは、左から、下から、またはこれらの2方向の間の斜め方向か ら所与の位置に接近するパスのみが考慮されるという通常の拘束が見られる。
しかしこの距離測定は、斜め角に加えた地点におけるマトリックスへのエントリ ーとマトリックスからのエキジットを可能とすることにより実質的に改善された 正確性を与える。これは、推定される単語終点の前及び後の余分のフレームと、 ボキャブラリー単語モデルに付加されたノイズモデルとマツチングすることによ り達成される。これらは参照番号73及び75によりそれぞれ示される。
図7に図解的に示したように、未知の音声セグメント71は、予備処理の間の端 点決定機能により決定されるように開始と終末の端点により区画された16のフ レームを圧縮した形態で含む。しかし、距離測定機能DM2によれば、未知の入 力セグメントは、JIP定される人力+11語の前及び後に続く10の余分のフ レームも含む。未知の人力セグメントと比較されるボキャブラリーモデルのそれ ぞれは、参照番号81において示されるように、圧縮された形態で16の状態を 含む。各モデルに付加されているのは、最初のノイズモデル83及び最終ノイズ モデル85である。これらのノイズモデルは、典型的なバックグラウンドノイズ に基づくものであり、同じノイズモデルが、考慮される異なる単語モデルの全て について使用される。最初の余分のフレーム及び最初のノイズモデルが、図7中 の参照番号87で示されるようにエントリー延長ワーブ領域(entry ex tension warp region)を規定し、後に続く余分のフレーム 及び最後のノイズモデルがエキジット延長ワーブ領域88を規定する。未知の単 語の前及び後の余分のフレーム及び最初及び最後のノイズモデルの両方は、最初 に採られたように、圧縮されていない、あるいは細密に段階化された(grad iated)形態にある。
余分のフレームは、連続的なモデルか試験入力と比較される際に同一のままであ り、ノイズモデルが連続的な111語モデルについて使用されるので、エントリ ー延長領域を通る異なるワープパスに関連したコスト値は、図8に示したように 一旦計算され、その後参照番号89で示されるようにテーブル中に記憶されるこ とができる。記憶された値は、次に、考慮されるへき異なるボキャブラリーモデ ルの全てについてのマツチング計算の間に種々の位置において主フープマトリッ クス領域にエントリーするためのコスト値として使用できる。エキジット延長ワ ーブ類vt、88においては、図9に示したように逆時間ワープ(revers e time warp)が行わね、即ち、北部右手の角から出発し、種々の位 置において主ワーブ領域86をエキジットすることに関連するコストを与える。
これらの値も、参照番号9oで示したように、カラムテーブル中に記憶される。
当業者に理解されるように、前方あるいは逆の方向においてパスか計算されても 同し値が得られる。
先に示した通り、延長ワープ領域を横切ることに関連するコスト値は、フレーム と状態の細かに段階化されたシーケンスに基づいて31算される。細密シーケン スは次に、図10に示したように圧縮され、延長領域における時間ワーブの間に コスト値はノーマライズされて、横断されるより多い数のフレーム及び状態につ いて補償する。提案された端点から余分の10フレームの最初に向かって、4番 目ごとにサンプルを選択することにより、最初の端点の前の10フレームから2 つのサンプルを取る。同様に、終末端点の後の余分の10のフレームにおいて、 提案された端点から余分の10フレームの端点に向かって、4番目ごとのサンプ ルを選択する。これにより提案された最後の端点の後に2つのサンプルが得られ る。
次に、DM2中の、ノーマライズされた、より細密なノイズカラムからの対応す るサンプルを使用する。圧縮された延長領域を有する圧縮された試験入力はその 後、図11に示されたように圧縮された参照トークン(token)に対して時 間ワーブすることができる。時間ワーブを行う場合、考慮される位置は通路(c orridor)内に限定され計算の合計数を実質的に減じることが好ましい。
示した態様においては、それぞれの状態、カラムについて、通路は最短の斜めの パスからのプラス及びマイナスの3つのフレーム位置を包含するウィンドウを与 える。この時間ワーブからi!)られた最良のスコアは、前処理することにより 行われた端点決定におけるエラーを許容し或いは含み、未知の入力及びそれぞれ のボキャブラリー単語モデルの間のマツチングの程度のより正確な測定を与える 。
先に示したように、この第2の距離測定機能DM2は全体のシステム中において 2回使用され、より速い距離測定機能DMIによる最初のスクリーニングを改良 する。それぞれの距離測定機能は最初に区分を示すモデルの集合に適用され、そ の後よりよいスコア区分のメンバーに適用される。従って、選択方法は多数の段 階を含むが、これらの段階は、最も早いスクリーニングを最も速い機能により行 い、正確さにおいて段階化されている。さらに、スクリーニング機能が正確な結 果を与えない程度において、尤もらしい候補のスコアを悪化させるのではなく、 尤もらしくない候補がより良いスコアを示すことをより許す方向にあり、従って 選択の全体的速度は顕著に数群され、最良あるいは任意の良好な候補を不適当に 排除する危険を最小にする。
上記より、本発明のいくつかの目的が達成され、その他の有利な結果が得られた ことが判るであろう。
本発明の範囲から離れることなく上記の構成について種々の変更を加えることが 可能であり、上記の記載に含まれ、添付した図面に示した全ての事項は例示的な ものであり、限定的な意味にあるものでないと解されるべきと理解されなければ ならない。
図面 16 サブサンプリングされtこ状態 ro rl r2 rl6 [王妃された状qぢ →1 W潜1 !Q q← ヰb 和卆 ヒ和 フロントページの続き (72)発明者 イエナナラヤマン、ギリシャアメリカ合衆国、マサチューセッ ツ州 01863、エヌケルムフォード、ウェルマンアベニュー 519 (72)発明者 七ノワ、ウラジミールアメリカ合衆国、マサチューセッツ州 02140、ケンブリッジ、マウント バーノン ストリート 29 (72)発明者 ギヤノン、ウィリアム エフ ザ サードアメリカ合衆国、マ サチューセッツ州 02146、プルツクリン、ディビス アベニュー 128

Claims (8)

    【特許請求の範囲】
  1. 1.フレームの細密シーケンスによって表される未知の音声セグメントが、それ ぞれの状態の細密シーケンスと比較され、ここで前記状態は所定の状態の限定さ れた集合から選択されるものであり、これにより最良のマッチングを決定する音 声認識システムにおける、正確な比較のために候補モデルを予備選択するための 方法であって、 考慮されるそれぞれのモデルについて、対応する状態の細密シーケンスをサブサ ンプリングして所定の数の状態を含むそれぞれの粗シーケンスを得、前記フレー ムの細密シーケンスをサブサンプリングして所定の数のフレームを含む粗シーケ ンスを得、ここで所定の数は全部でマトリックスを規定するものであり、該マト リックス内には前記方法により調べられる予備選択された領域があるものであり 、 前記限定された集合内のそれぞれの状態につき、前記マトリックスにおけるそれ ぞれの状態位置について、その状態と最良のマッチングを与える入力フレームを 決定し、ここで前記予備選択された領域内にあるフレームのみが考慮され調べら れるものであり、マッチングの尺度はテーブルに記憶されているものであり;前 記テーブルを使用して、考慮される各モデルについて前記フレームの粗シーケン スとそれぞれの状態の粗シーケンスとの全体的マッチングを示す値を計算し、正 確な比較のために、そのように計算されたような、より良い全体的マッチングを 有するこれらのモデルを予備選択することを含む前記方法。
  2. 2.前記全体的マッチングの値を、前記テーブルに格納されたマッチングの尺度 のそれぞれを累積することによって得る請求項1に記載の方法。
  3. 3.各可能なマトリックスの位置において各可能な状態について最良のマッチン グを与える入力フレームを決定する際に、該方法がそれぞれのサブサンプリング されたフレームのみではなく、前記フレームの細密シーケンス中のそれぞれのサ ブサンプリングされたフレームの前及び後の所定の数のフレームをも調べるもの である請求項1に記載の方法。
  4. 4.未知の入力音声セグメントが、ボキャブラリーモデルと比較され、入力音声 はフレームの細密シーケンスとしてコード化され、前記細密シーケンス中の単語 の尤もらしい開始端点及び終了端点を同定するための手段が与えられており、前 記モデルは状態の細密シーケンスにより対応して表されるものである音声認識シ ステムにおける、正確な比較のために候補モデルを予備選択するための方法であ って、 考慮されるそれぞれのモデルについて、対応するフレームの細密シーケンスをサ ブサンプリングして所定の数の状態を含むそれぞれの粗シーケンスを得、前記端 点間の前記フレームの細密シーケンスをサブサンプリングして所定の数のフレー ムを含む粗シーケンスを得、ここで所定の数は全部でマトリックスを規定するも のであり、 前記開始端点の前の所定の数のフレームを予備選択されたノイズモデルと比較し 、これにより種々の位置におけるマトリックスヘのエントリーのためのコスト値 を予備計算し、 前記終了端点の後の所定の数のフレームを予備選択されたノイズモデルと比較し 、これにより種々の位置におけるマトリックスからのエキジットのためのコスト 値を予備計算し、 考慮される各モデルについて、種々の位置におけるマトリックスヘのエントリー 及びマトリックスからのエキジットのコストを含む前記マトリックスを横切る最 良のマッチングバスを決定し、その最良のパスに基づいてモデルにスコアを付け 、 入力音声セグメントとの正確な比較のために、そのように得られた最良のスコア を有するモデルを選択することを含む前記方法。
  5. 5.各可能なマトリックスの位置において各可能な状態について最良のマッチン グを与える人力フレームを決定する際に、該方法がそれぞれのサブサンプリング されたフレームのみではなく、前記フレームの微細シーケンス中のそれぞれのサ ブサンプリングされたフレームの前及び後の所定の数のフレームをも調べるもの である請求項4に記載の方法。
  6. 6.フレームの細密シーケンスによって表される未知の音声セグメントを、それ ぞれの状態の微細シーケンスによって表されるボキャブラリーのモデルと比較し 、これにより最良のマッチングを決定する音声認識システムにおける、正確な比 較のために候補モデルを予備選択するための方法であって、考慮されるそれぞれ のモデルについて、対応する状態の細密シーケンスをサブサンプリングして所定 の数の状態を含むそれぞれの粗シーケンスを得、前記フレームの細密シーケンス をサブサンプリングして所定の数のフレームを含む粗シーケンスを得、ここで所 定の数は全部でマトリックスを規定するものであり、該マトリックス内には前記 方法により調べられる予備選択された領域があるものであり、 前記マトリックスにおけるそれぞれの状態位置について、その状態との最良のマ ッチングを与える入力フレームを決定し、ここで前記予備選択された領域内にあ るフレームのみが考慮され調べられ、マッチングの程度の尺度が与えられるもの であり; いくつかの状態位置についての尺度を組合わせて、これにより前記フレームの粗 シーケンスとそれぞれの状態の粗シーケンスとの全体的マッチングを示す値を得 ; 正確な比較のために、そのように計算されたような、より良い全体的マッチング を有するこれらのモデルを予備選択することを含む前記方法。
  7. 7.各可能なマトリックスの位置において各可能な状態について最良のマッチン グを与える入力フレームを決定する際に、該方法がそれぞれのサブサンプリング されたフレームのみではなく、前記フレームの細密シーケンス中のそれぞれのサ ブサンプリングされたフレームの前及び後の所定の数のフレームをも調べるもの である請求項6に記載の方法。
  8. 8.フレームの細密シーケンスによって表される未知の音声セグメントが、それ ぞれの状態の細密シーケンスにより表されるボキャブラリーモデルと比較され、 ここで前記ボキャブラリーは音響的に類似するモデルの群に区分されており、各 群の1つのモデルはその群を代表するものであり、これにより最良のマッチング を決定する音声認識システムにおける、正確な比較のために候補モデルを予備選 択するための方法であって、 各モデルについて、対応する状態の細密シーケンスをサブサンプリングして所定 の数の状態を含むそれぞれの粗シーケンスを得、前記フレームの細密シーケンス をサブサンプリングして所定の数のフレームを含む粗シーケンスを得、ここで所 定の数は全部でマトリックスを規定するものであり、該マトリックス内には前記 方法により調べられる予備選択された領域があるものであり、 前記マトリックスにおける各状態位置について、その状態と最良のマッチングを 与える入力フレームを決定する、第1の距離測定機能を与え、ここで前記予備選 択された領域内にあるフレームのみが考慮され調べられ、マッチングの程度の尺 度が与えられるものであり; いくつかの状態位置についての尺度を組合わせて、これにより前記フレームの粗 シーケンスとそれぞれの状態の粗シーケンスとの全体的マッチングを示す第1の 値を得、 前記マトリックスを横切る連結されたバスを決定し、前記フレームの粗シーケン スとそれぞれの状態の粗シーケンスとの全体的マッチングを示す第2の値を計算 する第2の距離測定機能を与え、 前記第1の距離測定機能を群を代表するモデルに適用し、より良いスコアの代表 モデルを選択し、選択されたモデルに前記第2の距離測定機能を適用し、これに より減少した数のより良いスコアの群を同定し、前記第1の距離測定機能を前記 より良いスコアの群のメンバーに適用し、より良いスコアのモデルのメンバーを 選択し、選択されたモデルのメンバーに前記第2の距離測定機能を適用し、これ により前記未知の音声セグメントとの正確な比較のために、減少した数のモデル のメンバーを予備選択することを含む前記方法。
JP6502671A 1992-06-29 1993-06-29 ボキャブラリーモデル予備選択を利用した音声認識システム Pending JPH07508360A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US905,345 1992-06-29
US07/905,345 US5386492A (en) 1992-06-29 1992-06-29 Speech recognition system utilizing vocabulary model preselection
PCT/US1993/006362 WO1994000836A1 (en) 1992-06-29 1993-06-29 Speech regognition system utilizing vocabulary model preselection

Publications (1)

Publication Number Publication Date
JPH07508360A true JPH07508360A (ja) 1995-09-14

Family

ID=25420659

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6502671A Pending JPH07508360A (ja) 1992-06-29 1993-06-29 ボキャブラリーモデル予備選択を利用した音声認識システム

Country Status (4)

Country Link
US (1) US5386492A (ja)
EP (1) EP0648366A4 (ja)
JP (1) JPH07508360A (ja)
WO (1) WO1994000836A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020201478A (ja) * 2019-06-11 2020-12-17 ネイバー コーポレーションNAVER Corporation 動的ノートマッチングのための電子装置およびその動作方法

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5682464A (en) * 1992-06-29 1997-10-28 Kurzweil Applied Intelligence, Inc. Word model candidate preselection for speech recognition using precomputed matrix of thresholded distance values
US6092043A (en) * 1992-11-13 2000-07-18 Dragon Systems, Inc. Apparatuses and method for training and operating speech recognition systems
US5920837A (en) * 1992-11-13 1999-07-06 Dragon Systems, Inc. Word recognition system which stores two models for some words and allows selective deletion of one such model
EP0618565A3 (en) * 1993-04-02 1996-06-26 Ibm Speech recognition with interactive dynamic grammar restriction.
US5515475A (en) * 1993-06-24 1996-05-07 Northern Telecom Limited Speech recognition method using a two-pass search
US6253178B1 (en) * 1997-09-22 2001-06-26 Nortel Networks Limited Search and rescoring method for a speech recognition system
US5970446A (en) 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6466906B2 (en) * 1999-01-06 2002-10-15 Dspc Technologies Ltd. Noise padding and normalization in dynamic time warping
US6275800B1 (en) * 1999-02-23 2001-08-14 Motorola, Inc. Voice recognition system and method
JP4802434B2 (ja) * 2000-02-28 2011-10-26 ソニー株式会社 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
US7366645B2 (en) * 2002-05-06 2008-04-29 Jezekiel Ben-Arie Method of recognition of human motion, vector sequences and speech
JP4301102B2 (ja) * 2004-07-22 2009-07-22 ソニー株式会社 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US7744940B2 (en) * 2005-01-07 2010-06-29 Hickey Charles P Food product warming or cooling package
EP1938310A2 (en) * 2005-10-21 2008-07-02 Callminer, Inc. Method and apparatus for processing heterogeneous units of work
US20080162129A1 (en) * 2006-12-29 2008-07-03 Motorola, Inc. Method and apparatus pertaining to the processing of sampled audio content using a multi-resolution speech recognition search process
US8880203B2 (en) * 2010-05-21 2014-11-04 Fisher-Rosemount Systems, Inc. On-line alignment of a process analytical model with actual process operation
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
US9413891B2 (en) 2014-01-08 2016-08-09 Callminer, Inc. Real-time conversational analytics facility
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53113179A (en) * 1977-03-15 1978-10-03 Japan Storage Battery Co Ltd Ultraviolet ray setting illuminator
JPS5517513A (en) * 1978-07-25 1980-02-07 Screen Purinteingu Sapuraizu P Light developing method printed on sheet material and its device
JPS5849258A (ja) * 1981-09-17 1983-03-23 Toshiba Electric Equip Corp 紫外線照射装置
JPS5874360A (ja) * 1981-09-02 1983-05-04 アメリカン・スクリ−ン・プリンテイング・イクイプメント・カンパニ− スクリ−ン印刷用乾燥装置
JPS61158453A (ja) * 1984-12-29 1986-07-18 Toshiba Electric Equip Corp 紫外線照射装置
JPH0386235A (ja) * 1989-08-28 1991-04-11 Toshiba Lighting & Technol Corp 紫外線照射装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58111989A (ja) * 1981-12-25 1983-07-04 シャープ株式会社 音声認識装置
JPS59121100A (ja) * 1982-12-28 1984-07-12 株式会社東芝 連続音声認識装置
US4712243A (en) * 1983-05-09 1987-12-08 Casio Computer Co., Ltd. Speech recognition apparatus
JPS59216284A (ja) * 1983-05-23 1984-12-06 Matsushita Electric Ind Co Ltd パタ−ン認識装置
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
JPS62220998A (ja) * 1986-03-22 1987-09-29 工業技術院長 音声認識装置
US4903305A (en) * 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
US4866778A (en) * 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
JP2630769B2 (ja) * 1987-01-19 1997-07-16 株式会社トリオ電子 録音再生装置を備えたカード及びメール
US5136654A (en) * 1989-10-19 1992-08-04 Kurzweil Applied Intelligence, Inc. Vocabulary partitioned speech recognition apparatus

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53113179A (en) * 1977-03-15 1978-10-03 Japan Storage Battery Co Ltd Ultraviolet ray setting illuminator
JPS5517513A (en) * 1978-07-25 1980-02-07 Screen Purinteingu Sapuraizu P Light developing method printed on sheet material and its device
JPS5874360A (ja) * 1981-09-02 1983-05-04 アメリカン・スクリ−ン・プリンテイング・イクイプメント・カンパニ− スクリ−ン印刷用乾燥装置
JPS5849258A (ja) * 1981-09-17 1983-03-23 Toshiba Electric Equip Corp 紫外線照射装置
JPS61158453A (ja) * 1984-12-29 1986-07-18 Toshiba Electric Equip Corp 紫外線照射装置
JPH0386235A (ja) * 1989-08-28 1991-04-11 Toshiba Lighting & Technol Corp 紫外線照射装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020201478A (ja) * 2019-06-11 2020-12-17 ネイバー コーポレーションNAVER Corporation 動的ノートマッチングのための電子装置およびその動作方法
US11556585B2 (en) 2019-06-11 2023-01-17 Naver Corporation Electronic apparatus for dynamic note matching and operating method of the same

Also Published As

Publication number Publication date
EP0648366A1 (en) 1995-04-19
EP0648366A4 (en) 1996-04-03
US5386492A (en) 1995-01-31
WO1994000836A1 (en) 1994-01-06

Similar Documents

Publication Publication Date Title
JPH07508360A (ja) ボキャブラリーモデル予備選択を利用した音声認識システム
Dubnov Generalization of spectral flatness measure for non-gaussian linear processes
US7231350B2 (en) Speaker verification system using acoustic data and non-acoustic data
US5732394A (en) Method and apparatus for word speech recognition by pattern matching
US8249870B2 (en) Semi-automatic speech transcription
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
WO1993018505A1 (en) Voice transformation system
JPS63500683A (ja) 並列処理型ピッチ検出器
US4937870A (en) Speech recognition arrangement
US20030177002A1 (en) Pitch extraction methods and systems for speech coding using sub-multiple time lag extraction
US4426551A (en) Speech recognition method and device
EP0344017B1 (en) Speech recognition system
US5953699A (en) Speech recognition using distance between feature vector of one sequence and line segment connecting feature-variation-end-point vectors in another sequence
JP3428058B2 (ja) 音声認識装置
Geckinli et al. Algorithm for pitch extraction using zero-crossing interval sequence
JP3934556B2 (ja) 信号識別子の抽出方法及びその装置、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置
Dharini et al. CD-HMM Modeling for raga identification
JP2001083978A (ja) 音声認識装置
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
JP3471889B2 (ja) 音声符号化方法及び装置
JPH0772899A (ja) 音声認識装置
JP3199338B2 (ja) フォルマント抽出方法
KR100293465B1 (ko) 음성인식방법
JPH0731504B2 (ja) ピツチ抽出装置
JPH0247758B2 (ja)