JPH10503033A - 新ワードのモデル化に基づく音声認識方法及びその装置 - Google Patents

新ワードのモデル化に基づく音声認識方法及びその装置

Info

Publication number
JPH10503033A
JPH10503033A JP8533155A JP53315596A JPH10503033A JP H10503033 A JPH10503033 A JP H10503033A JP 8533155 A JP8533155 A JP 8533155A JP 53315596 A JP53315596 A JP 53315596A JP H10503033 A JPH10503033 A JP H10503033A
Authority
JP
Japan
Prior art keywords
word
model
utterance
sequence
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP8533155A
Other languages
English (en)
Inventor
ラインホルト ヘブ―ウンバッハ
ペーター ベイェーライン
エリック テレン
Original Assignee
フィリップス エレクトロニクス ネムローゼ フェン ノートシャップ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フィリップス エレクトロニクス ネムローゼ フェン ノートシャップ filed Critical フィリップス エレクトロニクス ネムローゼ フェン ノートシャップ
Publication of JPH10503033A publication Critical patent/JPH10503033A/ja
Abandoned legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Abstract

(57)【要約】 音声認識に当たり、新ワードを、格納されたサブワードユニットの在庫管理に基づくものとして表示する。先ず、全てがワードに一致する複数の発声を表示する。発声からワードモデルを構築するに当たり、これらを特定ベクトルのシーケンスによって表す。先ず、発声を用いて、サブワードユニットのモデルに依存しない全ワードモデルを処理する。全ワードモデルの長さは、発声の平均長に等しい。次いで、全ワードモデルの音響事象のマルコフ状態及び関連の確率密度のシーケンスを、平均した特定ベクトルのストリングによって表された基準テンプレートとして解釈する。最後に、ストリングを、在庫管理のモデルに整合させることによって認識し、認識結果を、発声のモデルとして格納する。

Description

【発明の詳細な説明】 新ワードのモデル化に基づく音声認識方法及びその装置 本発明は、格納されたサブワードユニットのモデルの在庫管理に基づいて音声 認識する新ワード表示方法であって、この新ワードに対して全て意図的に一致す る複数の発声を存在させるステップと、特定ベクトルのシーケンスにより前記発 声を表すステップと、前記発声からワードモデルを構築するステップとを具える 新ワード表示方法に関するものである。 本発明の状況では、ワードを、長かれ短かれ限定された長さの任意の言語の構 成要素を意味するものと理解されたい。したがって、ワードは、音声の形態で表 示されると機械認識を許可する短文、個人名、他の名称及び他の項目を含むこと ができる。特に、本発明は、サブワードユニットのシーケンスとして未知のワー ドの音響表現(以後、表現とも称する。)を見つける問題を指摘する。これは、 未知の(一つ又は複数の)ワードの少数のサンプル発声と、話者独立サブワード ユニットモデルの在庫管理によって行われる。 少数の新ワードの発声のみで話者独立システムを処理することによりユーザが 一つ以上の追加の語彙のワードをシステムに加えたい場合には問題が生じる。特 定のタイプのシステムを用いる際に考えられる話者の数が非常に多い場合及び/ 又はシステムが比較的廉価な場合には、話者独立認識が用いられる。代表的な例 は、通常10個の数字及び少数の基準用語を認識できる音声作動電話装置であり 、この場合、使用者は、頻繁に呼び出す電話短縮に関連するこのような名前又は 他のラベルに加えて認識するように処理することができる。 他の例は、20のような限定された認識しうるワードの標準的なセットのみを 有することができる話者独立音声認識システムを利用する。このシステムは、多 数の相違する話者を処理する必要がある。この場合、システムを追加のワードで 拡張する必要があり、多くても3人のような非常に限定された数の話者しか処理 できず、追加のワードに対して、同一の認識頑強性が元のセットに対する場合と 同様に要求される。 さらに別の例では、キーボードエントリからの新ワードを音響モデルで表現す る記号素対音素変換が行われる。この場合、信頼性を向上させるために、キーボ ードエントリを同一ワードの音響エントリによって補足する。並列表示は頑強性 も向上させ、特定の状況では、正しい字の誤りが原因、すなわち相違する意味を 表す単一の書き込まれたワードの二つの正確な発音が存在するのが原因で、信頼 性の問題も解決する。 特に、後に認識するために信頼性のあるパフォーマンスを達成するにもかかわ らず、処理するのに最低必要な発声の数を、最大でも3のように低くする必要が ある。一般に、上記問題により、限定されたワードのセット、例えば10ワード までしか加算を許容しないようシステムが制限される。加算されるワード数が非 常に多くなる場合、表現が不明確な結果となりうる。それに対して、標準的なワ ードのセットが小さく又は大きくなるおそれがある。 発明の要約 その結果、とりわけ、本発明の目的は、種々の処理される発声間の偏差を、害 を及ぼさないものとし、これら偏差により、ユーザによる見せ掛けの形の悪い発 声をシステムで処理されないようにする冒頭のような方法を提供することである 。その結果、その態様の一つによれば、本発明は、第1に、前記サブワードユニ ットのモデルに依存せず、かつ、前記発声の平均長に対応する長さを有する全ワ ードモデルを、前記発声を用いて処理し、 第2に、前記伝ワードモデルの音響事象のマルコフ状態及び関連の確率密度の 第1シーケンスを、平均した特定ベクトルの第2シーケンスとして表した基準テ ンプレートとして解釈し、 第3に、前記在庫管理のサブワードユニットのモデルに整合させることにより 前記第2シーケンスを認識するとともに、認識結果を前記発声のモデルとして格 納することを特徴とするものである。 これに反して、1993年10月に刊行されたL.R.Bahl等による刊行物であるA meth od for the Construction of Acoustic Markov Models for Words,IEEE Trans .on Speech and Audio Processing のVol.1,No.4の443 〜452 頁は、複数の発 声に基づく他の表現発声方法を記載している。これを参照すると、各発声により そ れ自身の表現となる。その後、全ての表現の各々を全ての発声にマップして、最 適な発声も含む適切な表現を見つける。本発明者は、発声間の全ての音響歪み、 時間の重なり、スケール変動、及び他の不一致を考慮すると手順が相当量の処理 を必要とすることを見つけた。特に、例えばハンドヘルド電話機(これに限定さ れるわけではない。)のような限定された機能の装置における本発明の使用を考 慮すると、これにより、他の機能が利用できない間、装置が長時間停止される。 実際、既知の手順は、発声数の2乗に比例する処理時間を必要とし、それに対し て、本発明は、発声数に正比例する処理時間のみ必要とする。 他の関連の参照文献として、モデル化に関する米国特許出願明細書07/175,976 号(PHD87.073)に対応する欧州特許明細書第285,222 号と、音声認識中のツリー 検索動作の実行に関する米国特許出願明細書07/944,544号(PHD91.138)に対応す る欧州サーチレポート533 260 号がある。これら全てを本明細書の譲り受け人に 譲り受け、参照することにより全てを組み込む。 さらに、本発明の好適な実施の形態をBahl等の教授に組合せ、本発明によって 達成されるような平均的な発声に基づく表現は、次の動作において、Bahl等の方 法に基づいて生じた種々の1発声表現に匹敵する。所定の状況では、これにより 、上記のようにして得られた結果を更に向上させる。 本発明はまた、上記方法を実現する装置に関するものである。他の好適な態様 を、従属請求の範囲に列挙する。 図面の簡単な説明 本発明のこれら及び他の態様及び利点を、好適実施の形態及び添付図面を参照 して後に詳細に説明する。 図1は、認識を行うシステムを示す。 図2は、表現を行うシステムを示す。 図3は、表現を行うフローチャートを示す。 図4は、表現を行う装置を示す。 実施の形態の基礎概念 先ず、本発明による方法の簡単な公式化を与える。手順の開始では、格納され たサブワードユニットのモデルの在庫管理の提供を行う。この場合の方法では、 単一密度放出確率を有する個別の全ワードモデルを、nの所定の発声から獲得す る。ここで、nを、3又は5のような適切な数とすることができる。このモデル この場合、この平均発声の観察ベクトルを、状態特定放出確率密度の平均ベクト ードユニットシーケンスによって与える。 その後、このサブワードユニットシーケンスを、連続的な音声認識手順によっ て見つけることができる。特に、選択した表現Tavgを、サブワードユニットシ ーケンスのセットSのうちの任意の一つとすることができる。 幾分広い態様において、本発明は先ず、サブワードユニットのモデルに依存し ないとともに発生の平均長に等しい長さを有する全ワードモデルを処理する種々 の発声を用いる。次いで、全ワードモデルを、音響事象のマルコフ状態及び関連 の確率密度のシーケンスをそれから獲得するのに用いる。隠れマルコフプロセス のようなこのような表示はそれ自体、音声認識技術で広く用いられている。また 、この表現により、発声中のサブワードユニットの区別が行われ、その結果、解 釈の結果を、平均された特性ベクトルのシーケンスからなるテンプレートとして 用いることができる。その後、この後者のシーケンスの要素を、在庫管理のサブ ワードユニットのモデルに整合することができ、その結果、実際に認識ストリン グは、平均した発声のモデルとなり、かつ、その後他の発声を認識するのに用い ることができる。 図1は、話されたワードの認識を行うシステムを示す。ここで、ブロック20 は、認識すべき話されたワードを表し、この場合、時間は図において左から右に 経過し、ブロックの成分を、サンプルされる際の時間変動する音声の特性ベクト ルとする。先ず、ワードを、より少ない在庫として示したサブワードユニットに 分解する。このような種々のユニットを、単音、複音、音節部、全音節、又はこ のような単一の特性ベクトルとすることができる。サブワードユニットが音響適 合を有する必要がない。この分解を、上記特性ベクトルのうちの種々のものに基 づいて行い、かつ、これを従来の方法で行うことができる。分離を垂直線で表し 、これは、長短のサブワードユニットを混合することができる間は、図示したよ うに当距離である必要がない。次いで、当該ワードの一端から開始すると、サブ ワードユニットを、大きな音声の本体の解析を行う在庫管理22に格納された項 目に適合させる。このような解析それ自体は、本発明の範囲外であり、付与され たように在庫管理から取り出す。各々の連続的なサブワードユニットは、一つ以 上の在庫管理項目との整合を発生させる。 ここで、各整合によりスコアが生じ、そのスコアは、二つの整合した項目間の 不一致の程度に依存することができ、その結果、低スコアは、より良好な整合を 表し、高スコアは、より不良な整合を表す。さらに、スコアは、ワードの特定の 連結の可能性を表す言語モデルに依存する。この場合も、低確率は高スコアを表 し、高確率は低スコアを表す。あるストラテジによれば、このようにして、分岐 したスコア付けを有する認識されたサブワードの種々のあり得る連結からツリー を構築する。高スコアにより関連の認識の確率が非常に低いようなツリーの分岐 を終了し及び短縮する刈り込み機構を設ける。相違する特定の割当てに対しても はや並列である確率がない所定の点では、関連のスコアが非現実的な低確率を表 さない場合、当該ワード又はワード部が認識される。後者により、音声の一部を 、スコア付けが認識されずかつリセットされたものとして廃棄する。符号化によ り、種々の経路が表され、各点は、格納システム22の関連の列から項目へのサ ブワードの割り当てを表す。図の表示が完全に概略的であることは明らかである 。他の種々のスコア付け及びストラテジの検索は容易である。 図2は、使用者によって(推定上)同一ワードの三つの発声(30,32,3 4)に基づく表現を行うシステムを示す。使用者は、同一であってもよく、又は そうでなくてもよい。先ず、発声の長さを、例えば、各発声に対して一様な間隔 のサンプル数を計数することによって決定し、その平均を計算する。次いで、発 声の平均長を有する、サブワードモデル在庫管理に依存しない全ワードモデル( 36)を、種々の発声を用いて処理する。この処理を、標準的な音声認識処理方 法によって行うことができる。次いで、この処理結果を、全ワードモデルの音響 事象のマルコフ状態及び関連の確率密度のシーケンスによって解釈する。結果( 38)を、一連の平均特定ベクトルとして表現された基準テンプレートとする。 次いで、この音響モデルは、テンプレート、例えばある種の平均発声として動作 する。次いで、この後者のシーケンスは、在庫管理22の種々のサブワードユニ ットモデルに整合させることによって認識され、結果(40)を、後者の発声の モデルとする。 最後に、新ワードの表現を、図1で用いた手順と同様にして、平均した特定ベ クトルのシーケンスに最も整合するサブワードユニットのシーケンスを見つける ことによって獲得する。しかしながら、図1と対比すると、この場合言語モデル が用いられない場合がしばしばある。その理由は、発声の特徴に優先知識が存在 する場合があるからである。この優先知識を、単一ワード又は上記電話システム で呼び出すべき人の所定の名前に名字を加えたような合成項とすることができる 。しかしながら、他の環境においては、この種の言語モデルの使用を、サブワー ドユニットのあり得るシーケンスに対して行うことができる。 また、一般的に音響モデルが音節に内在する意味に必ずしも依存しない間、音 響モデルを認識に用いる。平均した発声の認識スコアが著しく高く、したがって 著しく低い認識確率を表す場合、処理が成功せず、かつ、新たな処理を始める必 要であることを示す信号が、音声メッセージ又は標示灯によりユーザに送信され る。処理が成功した場合、サブワードユニットの認識されたストリングを、ブロ ック40で示した在庫管理に格納し、この際、その後の認識に応じて次にストリ ング40に関連すべき電話拡張番号を指定するか否かを、音声メッセージ又は標 示灯によってユーザに尋ねる。次いで、このような特定により、この際システム が処理したワードを認識するのにこの表現を用いる音声制御されたダイヤリング を許容する。 図3は、表現を行うフローチャートを示す。ブロック60において、特にサブ ワードモデル在庫管理を提供するとともに作動パラメータをリセットすることに より、システムを初期化する。ブロック62において、システムは、発声を受信 したか否か検出する。受信しない場合、待機ループによってシステムを再びブロ ック62に戻す。受信した場合、ブロック64において、発声がサンプルされ、 サンプルを特定ベクトルとして表した後発声を格納する。ブロック66において 、意図的に一致した発声の数が3のような適切なレベルに到達したか否か検出す る。他のストラテジは「実行」コマンドを検出すべきである。到達しない場合も 、システムは、他の発声を予期するためにブロック62に戻る。ブロック68に おいて、受信した種々の発声により、発声の全ワードモデルは、在庫管理に頼る ことなく、種々の発声の平均の長さで処理される。次いで、ブロック70におい て、音響事象のマルコフ状態及び関連の確率密度のシーケンスとして表した全ワ ードモデルは、平均した特定ベクトルのシーケンスとして付与された基準テンプ レートとして解釈される。次いで、ブロック72において、後者のシーケンスは 、在庫管理のサブワードユニットのモデルに整合させることによって認識される 。これにより、受信された発声を、サブワードモデルのストリングによって表さ れる発声のうちの一つとして後に識別することができる。次いで、ステップ76 において、システムは、任意の新たな発声が処理のために受信すべきか否か検出 する。まだ準備されていない場合、システムはその後ブロック62に戻る。準備 された場合、ある「終了」コマンドによって、終了ブロック78によりシステム は実行を行う。 図4は、本発明による表現を行う装置を示す。ブロック80を、ある種のマイ クロホン又は他の音声入力装置とする。ブロック82は、受信した発声の周期的 なサンプリングを行い、音声を有効に受信したときにのみサンプリングを行う音 声検出器を具えることができる。ブロック84は、サンプルのストリームから音 声特性の特性ベクトルを展開する。その結果、装置は、帯域通過フィルタ、A/ Dコンバータのような種々の従来の素子を具え、その結果、最終的には特定ベク トルは次の処理で使用できる手段となる。ブロック86において、発声の特定ベ クトルストリングを、各サブブロックA,B,Cに格納する。この格納を結合し てアクセスすることにより、処理ブロック88は、発声の平均長に対応する長さ で全ワードモデルを処理する。これは、種々の発声表示の整列も要求する。単一 発声のモデル化それ自体は、上記従来の技術で説明されている。次いで、ブロッ ク90は、特に音響事象のマルコフ状態及び関連の確率密度分布のシーケンスを モデルが具えるブロック88から受信した全ワードモデルを解釈する。この解釈 からの結果を、平均した特定ベクトルのシーケンスを具える基準テンプレートと する。最後に、ブロック92は、格納ブロック96のサブワードユニットモデル の格納された在庫管理にアクセスするとともに、格納されたサブワードユニット モデルの特定のシーケンスに整合するようなブロック90から受け取ったテンプ レートを認識する。ブロック94は、必要に応じて他の種々の装置にインタフェ ースする。例えば、それは、次に認識する音声を保持するブロック96から一連 のサブワードモデルを格納する追加の記憶装置を含むことができ、その結果、特 定ベクトルへの変換後単一発声の次の受け取りを、特定のサブワードユニットモ デルに直接整合することができる。 複数の追加しうる任意のユーザインタフェース装置を示す。ブロック98を電 話機で使用するキーボードとする。場合によっては、これを12個のキー装置と する。順次の発声に関連するサブワードユニットモデルのシーケンスを格納した 後、電話拡張番号のキー入力は、キー入力番号に対するこの発声にリンクし、そ の結果、関連のラベル発声の音声入力の制御下でこの番号の起動を順次許容する 。ブロック100を、文字数字式のQWERTYのようなアルファベットのキー ボードとする。ブロック102のテキスト入力の結果、それ自体は従来の態様の 書記素対音素変換される。用いられる音素は、在庫管理記憶装置96のサブワー ドユニットのモデル化に一致してモデル化される。コンバータ102の出力を、 認識ブロック92に供給する。このようにして、書記素対音素変換は、例えば相 違する綴りを有する外国名の場合、本発明による音声対音素表示によって強化さ れる。また、音声の特定ワードを認識するのが困難である場合、他の方向の強化 も可能である。

Claims (1)

  1. 【特許請求の範囲】 1.格納されたサブワードユニットのモデルの在庫管理に基づいて音声認識する 新ワード表示方法であって、この新ワードに対して全て意図的に一致する複数の 発声を存在させるステップと、特定ベクトルのシーケンスにより前記発声を表す ステップと、前記発声からワードモデルを構築するステップとを具える新ワード 表示方法において、 第1に、前記サブワードユニットのモデルに依存せず、かつ、前記発声の平 均長に対応する長さを有する全ワードモデルを、前記発声を用いて処理し、 第2に、全ワードモデルの音響事象のマルコフ状態及び関連の確率密度の第 1シーケンスを、平均した前記特定ベクトルの第2シーケンスによって表した基 準テンプレートとして解釈し、 第3に、前記在庫管理のサブワードユニットのモデルの整合により前記第2 シーケンスを認識するとともに、認識結果を前記発声のモデルとして格納するこ とを特徴とする新ワード表示方法。 2.一連の発声の各々をそれ自体の表現によって表すことによりモデル化動作を 行い、全ての表現の各々を、最適発声も含む適切な表現を見つけるために候補と して全ての発声にマップするとともに、前記結果を前記候補の他のものとして表 すことを特徴とする請求の範囲1記載の新ワード表示方法。 3.格納されたサブワードユニットのモデルの在庫管理に基づいて音声認識する 新ワード表示装置であって、この新ワードに対して全て意図的に一致する複数の 発声を受け取る入力手段と、特定ベクトルのシーケンスにより前記発声を表す表 示手段と、前記発声からワードモデルを構築する構築手段とを具える新ワード表 示装置において、 前記サブワードユニットのモデルに依存せず、かつ、前記発声の平均長に対 応する長さを有する全ワードモデルを、前記発声を用いて処理するために、前記 入力手段から供給が行われる処理手段と、 前記全ワードモデルの音響事象のマルコフ状態及び関連の確率密度の第1シ ーケンスを、平均した特定ベクトルの第2シーケンスによって表した基準テン プレートとして解釈するために、前記処理手段から供給が行われる解釈手段と、 前記在庫管理のサブワードユニットのモデルの整合により前記第2シーケン スを認識するとともに認識結果を前記発声のモデルとして格納する認識手段と、 次に後の発声と比較するための基礎として前記識別結果を出力するために、 前記識別手段から供給が行われる第1出力手段とを具えることを特徴とする新ワ ード表示装置。 4.電話機能を有し、デジタル形式の音声で動作するダイヤリングを許容し、か つ、前記発声が短縮ダイヤルのラベルを表すようにしたことを特徴とする請求の 範囲3記載の新ワード表示装置。 5.前記在庫管理は、話者独立の標準的なワードセットの認識を許容し、これを 、前記標準的なワードセットに匹敵する頑強性で前記新ワードを認識しうるよう に配置したことを特徴とする請求の範囲3記載の新ワード表示装置。 6.前記認識手段に供給を行う第2出力手段を有する記号素対音素コンバータを 有し、この記号素対音素コンバータの動作を調整して向上させるようにしたこと を特徴とする請求の範囲3記載の新ワード表示装置。
JP8533155A 1995-05-03 1996-05-02 新ワードのモデル化に基づく音声認識方法及びその装置 Abandoned JPH10503033A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP95201139 1995-05-03
NL95201139.3 1995-05-03
PCT/IB1996/000396 WO1996035207A1 (en) 1995-05-03 1996-05-02 Speech recognition methods and apparatus on the basis of the modelling of new words

Publications (1)

Publication Number Publication Date
JPH10503033A true JPH10503033A (ja) 1998-03-17

Family

ID=8220249

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8533155A Abandoned JPH10503033A (ja) 1995-05-03 1996-05-02 新ワードのモデル化に基づく音声認識方法及びその装置

Country Status (6)

Country Link
US (1) US5873061A (ja)
EP (1) EP0769184B1 (ja)
JP (1) JPH10503033A (ja)
CN (1) CN1130688C (ja)
DE (1) DE69607913T2 (ja)
WO (1) WO1996035207A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100397435B1 (ko) * 1996-07-20 2003-12-24 엘지전자 주식회사 음성인식시스템에서새로운등록단어처리가가능한클래식를이용한언어학적모델처리방법
DE19751123C1 (de) * 1997-11-19 1999-06-17 Deutsche Telekom Ag Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen
US5927988A (en) * 1997-12-17 1999-07-27 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI subjects
AU777693B2 (en) * 1999-03-05 2004-10-28 Canon Kabushiki Kaisha Database annotation and retrieval
ATE320650T1 (de) * 1999-06-30 2006-04-15 Ibm Verfahren zur erweiterung des wortschatzes eines spracherkennungssystems
US6434547B1 (en) 1999-10-28 2002-08-13 Qenm.Com Data capture and verification system
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
CN1329861C (zh) 1999-10-28 2007-08-01 佳能株式会社 模式匹配方法和装置
DE19952049A1 (de) * 1999-10-28 2001-05-10 Siemens Ag Verfahren und Anordnung zur Verifikation eines Sprechers anhand eines Rechners
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
US6961703B1 (en) * 2000-09-13 2005-11-01 Itt Manufacturing Enterprises, Inc. Method for speech processing involving whole-utterance modeling
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
GB0027178D0 (en) * 2000-11-07 2000-12-27 Canon Kk Speech processing system
GB0028277D0 (en) 2000-11-20 2001-01-03 Canon Kk Speech processing system
US6973427B2 (en) * 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
GB0204474D0 (en) * 2002-02-26 2002-04-10 Canon Kk Speech recognition system
US20080208578A1 (en) * 2004-09-23 2008-08-28 Koninklijke Philips Electronics, N.V. Robust Speaker-Dependent Speech Recognition System
DE102005002474A1 (de) 2005-01-19 2006-07-27 Obstfelder, Sigrid Handy und Verfahren zur Spracheingabe in ein solches sowie Spracheingabebaustein und Verfahren zur Spracheingabe in einen solchen
WO2007097390A1 (ja) * 2006-02-23 2007-08-30 Nec Corporation 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム
DE102012202391A1 (de) * 2012-02-16 2013-08-22 Continental Automotive Gmbh Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen
US9570069B2 (en) * 2014-09-09 2017-02-14 Disney Enterprises, Inc. Sectioned memory networks for online word-spotting in continuous speech
KR102413067B1 (ko) * 2015-07-28 2022-06-24 삼성전자주식회사 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스
CN106548787B (zh) * 2016-11-01 2019-07-09 云知声(上海)智能科技有限公司 优化生词的评测方法及评测系统
WO2019077013A1 (en) 2017-10-18 2019-04-25 Soapbox Labs Ltd. METHODS AND SYSTEMS FOR PROCESSING AUDIO SIGNALS CONTAINING VOICE DATA

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5165007A (en) * 1985-02-01 1992-11-17 International Business Machines Corporation Feneme-based Markov models for words
US4819271A (en) * 1985-05-29 1989-04-04 International Business Machines Corporation Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
JP2955297B2 (ja) * 1988-05-27 1999-10-04 株式会社東芝 音声認識システム
DE3931638A1 (de) * 1989-09-22 1991-04-04 Standard Elektrik Lorenz Ag Verfahren zur sprecheradaptiven erkennung von sprache
US5129001A (en) * 1990-04-25 1992-07-07 International Business Machines Corporation Method and apparatus for modeling words with multi-arc markov models
US5454062A (en) * 1991-03-27 1995-09-26 Audio Navigation Systems, Inc. Method for recognizing spoken words
DE4130632A1 (de) * 1991-09-14 1993-03-18 Philips Patentverwaltung Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
EP0562138A1 (en) * 1992-03-25 1993-09-29 International Business Machines Corporation Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
JPH0772840B2 (ja) * 1992-09-29 1995-08-02 日本アイ・ビー・エム株式会社 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
US5528728A (en) * 1993-07-12 1996-06-18 Kabushiki Kaisha Meidensha Speaker independent speech recognition system and method using neural network and DTW matching technique
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
US5429513A (en) * 1994-02-10 1995-07-04 Diaz-Plaza; Ruth R. Interactive teaching apparatus and method for teaching graphemes, grapheme names, phonemes, and phonetics
US5638487A (en) * 1994-12-30 1997-06-10 Purespeech, Inc. Automatic speech recognition

Also Published As

Publication number Publication date
EP0769184B1 (en) 2000-04-26
WO1996035207A1 (en) 1996-11-07
EP0769184A1 (en) 1997-04-23
US5873061A (en) 1999-02-16
DE69607913D1 (de) 2000-05-31
CN1153567A (zh) 1997-07-02
CN1130688C (zh) 2003-12-10
DE69607913T2 (de) 2000-10-05

Similar Documents

Publication Publication Date Title
JPH10503033A (ja) 新ワードのモデル化に基づく音声認識方法及びその装置
EP1936606B1 (en) Multi-stage speech recognition
US6937983B2 (en) Method and system for semantic speech recognition
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
JPH0583918B2 (ja)
JP2000035795A (ja) 音声認識におけるノンインタラクティブ方式のエンロ―ルメント
JPH06214587A (ja) 事前指定ワードスポッティングサブシステム及び事前ワードスポッティング方法
KR19980070329A (ko) 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템
JP2003022089A (ja) オーディオ専用インターフェースにおけるボイス・スペリング
JPH06259090A (ja) 音声対話システム
CA2613154A1 (en) Dictionary lookup for mobile devices using spelling recognition
US20050071170A1 (en) Dissection of utterances into commands and voice data
JP3634863B2 (ja) 音声認識システム
JPH05143093A (ja) 発声された単語のモデルを生成する方法および装置
EP1213706B1 (en) Method for online adaptation of pronunciation dictionaries
JP4230142B2 (ja) 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術
JP3058125B2 (ja) 音声認識装置
KR101250897B1 (ko) 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
JP3254977B2 (ja) 音声認識方法及び音声認識装置
JPH06202689A (ja) 音声認識方法および装置
JP2731133B2 (ja) 連続音声認識装置
JPH06250689A (ja) 音声認識装置
Mohanty et al. Design of an Odia Voice Dialler System
JP2004309654A (ja) 音声認識装置

Legal Events

Date Code Title Description
A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20050930