JPH10198396A - ユーザが定義したフレーズの話者に依存しない認識方法及びシステム - Google Patents

ユーザが定義したフレーズの話者に依存しない認識方法及びシステム

Info

Publication number
JPH10198396A
JPH10198396A JP10000477A JP47798A JPH10198396A JP H10198396 A JPH10198396 A JP H10198396A JP 10000477 A JP10000477 A JP 10000477A JP 47798 A JP47798 A JP 47798A JP H10198396 A JPH10198396 A JP H10198396A
Authority
JP
Japan
Prior art keywords
grammar
phrase
score
speaker
registration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10000477A
Other languages
English (en)
Inventor
Coimbatore S Ramalingam
エス ラマリンガム コインバトーア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of JPH10198396A publication Critical patent/JPH10198396A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】本発明は従来システムに関連した問題を実質的
に減少、或いは除去する話者に依存しない認識システム
及び方法を提供する。 【解決手段】ユーザが定義したフレーズの話者に依存し
ない認識のための外れ語彙のスコアを決定するシステム
及び方法が、登録文法(36)を用いて話者に依存しな
い(SI)認識モデル(34)のセットと共にユーザが
定義したフレーズを登録することを含む。話されたフレ
ーズの登録文法のスコアは、登録文法(36)を用いて
話されたフレーズの特徴をSI認識モデル(34)と比
較することによって、決定される。登録文法のスコア
は、外れスコアを発生するためにペナルティーが適用さ
れる。

Description

【発明の詳細な説明】
【0001】
【発明の属する分野】本発明は、一般にスピーチ処理の
分野に関し、特にユーザが定義したフレーズの話者(ス
ピーカー)に依存しない認識方法及びシステムに関す
る。
【0002】
【発明の背景】音声を基にしたスピードダイヤリングの
ような音声で作動するユーザの注文可能なアプリケーシ
ョンに対する要求が急速に増大している。認識のために
用いられるテンプレートは話者の発生から抽出された音
響モデルである。代表的には、話者に依存したテンプレ
ートは、ユーザの定義したフレーズが外れ語彙の拒否を
与えるために記録される“ガーベージ”モデルを用い
る。話者に依存したテンプレートは、それらは一般に加
えられる各フレーズやユーザに対応して増大する大きな
メモリ量を必要にすると言う点で問題である。話者に依
存しないテンプレートは固定した音響モデルを利用し、
ユーザが定義したフレーズに対する記憶装置の数百バイ
トのみを必要とする。その結果、話者に依存しないテン
プレートは非常に多くのユーザを収容するこができ、ユ
ーザの定義したフレーズはメモリ容量を殆ど増加しな
い。しかし、話者に依存しないテンプレートの問題は、
ガーベージモデルが話者に依存しない環境においてうま
く機能しないことである。これは、不十分な外れ語彙の
拒否を生じ、間違い電話番号をダイヤルするような費用
のかかる誤りを導く。
【0003】
【発明の概要】従って、優れた外れ語彙の拒否能力のあ
る改善された話者に依存しない認識システムの必要性が
ある。本発明は、従来のシステムに関連した問題を実質
的に減少、或いは除去する話者に依存しない認識システ
ム及び方法を提供する。本発明によると、ユーザが定義
したフレーズの話者に依存しない認識のための外れ語彙
のスコア(score) が、登録文法(enrollment grammar)を
用いて話者に依存しない(speaker-independent: SI) 認
識モデルのセットを有するユーザが定義したフレーズを
先ず登録することによって決定される。次に、話された
フレーズの登録文法のスコアが登録文法を用いてSI認
識モデルと話されたフレーズの特徴を比較することによ
って決定される。登録文法のスコアは、外れ語彙のスコ
アを発生するために、ペナルティーが適用されることが
できる。
【0004】特に、本発明の一つの実施形態によれば、
登録文法は音素配列の文法であり、SI認識モデルはサ
ブワードユニットを含むことができる。外れ語彙のスコ
アが非定義フレーズの60%と80%の間で拒否する場
合に、登録文法のスコアはそれにペナルティーを加える
ことによってペナルティーが適用される。特定の実施形
態においては、登録スコアは、外れ語彙のスコアが非定
義フレーズの約70%拒否する場合に、ペナルティーが
適用される。本発明の技術的利点は、外れ語彙の拒否を
実質的に改善する、話者に依存しない認識システム及び
方法を提供することを含む。特に、話されたフレーズ
は、ユーザが定義したフレーズに加えて、ペナルティが
適用された登録文法のスコアに対してスコアされる。
【0005】ペナルティが適用された登録文法スコアが
ユーザが定義したフレーズより良く一致する場合、話さ
れたフレーズは外れ語彙として拒否される。逆に、話さ
れたフレーズは、それがペナルティーが適用された登録
文法のスコアよりユーザが定義したフレーズに良く一致
する場合、一致語彙として受け入れられる。従って、外
れ語彙を一致語彙として認識すること、および間違い番
号をダイヤルするような関連した誤は、軽減される。本
発明の他の技術的利点は、話者に依存しない認識システ
ムのある要素(コンポーネント)を用いて、外れ語彙の
拒否システム及び方法を提供することである。特に、登
録システムの要素は外れ語彙のスコアを決定するために
用いられることができる。従って、追加の認識モデルを
設ける必要がない。
【0006】本発明の更に他の技術的利点は、所謂当業
者には以下の詳細な説明と図面、及び特許請求の範囲か
ら明らかであろう。
【0007】
【実施の形態】本発明の好適な実施の形態およびその利
点は、同じ番号は同じ部分を表している図1〜図3を詳
細に参照することによって良く理解されるであろう。図
1〜図3は、ユーザが定義したフレーズの話者に依存し
ない認識方法及びシステムを示す。以下により詳細に述
べるように、この方法及びシステムは、外れ語彙の拒否
のため、ユーザが定義したフレーズに対してスコアされ
るペナルティーが適用された登録文法のスコアを用い
る。従って、話者に依存しない認識システム及び方法は
外れ語彙の拒否を実質的に改善する。図1は、本発明の
1つの実施の形態による話者に依存しない認識システム
10のブロック図を示す。話者に依存しない認識システ
ム10は、入力/出力装置12、マイクロプロセッサ1
4およびメモリ16を有する。この入力/出力装置12
は電話回路網(図示せず)に接続され、スピードダイヤ
ルのような音声作動サービスを提供する。この実施の形
態において、入力/出力装置12は、アナログ入力信号
を変換するためのアナログ−ディジタルコンバータ1
8、及びディジタル出力信号を変換するためのディジタ
ル−アナログコンバータ20を含む。入力/出力装置1
2は、スピーチ信号を送信し及び/又は処理することが
できる他のネットワーク又はシステムに接続されること
ができる。
【0008】本発明は、メモリ16にロードされ、マイ
クロプロセッサ14によって実行されるコンピュータソ
フトウェアを含む。このコンピュータソフトウェアは、
モジュール及びメモリ16における同様な装置によって
一般に識別される。その他に、コンピュータソフトウェ
アは、本発明の範囲内で処理するために結合及び/又は
分割されることができることが理解されるであろう。従
って、モジュール及び他のソフトウェアシステムのラベ
ルは図示のためであり、本発明の範囲内で変更すること
ができる。コンピュータソフトウェアはディスク記憶装
置(図示せず)からメモリ16にロードされる。ディス
ク記憶装置は、いろいろな型式の記憶媒体、例えばフロ
ッピーディスク駆動装置、ハードディスク駆動装置、C
D−ROM駆動装置或いは磁気テープ駆動装置を含むこ
とができる。
【0009】メモリ16は、特徴抽出モジュール30、
認識モジュール32、話者に依存しない(SI)認識モ
デル34のセット、登録文法36、及びユーザが定義し
たフレーズ38を含むことができる。モジュール30、
32、モデル34、文法36、及びユーザが定義したフ
レーズ38は、読者の便宜のために単一のメモリ16に
示されている。メモリ16は、RAM、ROM、ディス
ク記憶装置等の1つ以上のメモリ装置を有してよい。特
徴抽出モジュール30は、入力/出力装置12を介して
受信した話されたフレーズから特徴を抽出する。代表的
には、特徴は話されたフレーズの信号スペクトラムから
得られる。1つの実施の形態において、スペクトラムは
線形予測符号化(linear predictive coding: LPC) 法を
用いて算出される。話されたフレーズの特徴は本発明の
範囲内で他の方法を用いて抽出されてもよい。
【0010】以下に、より詳細に述べるように、登録中
に認識モジュール32はSIモデル34と登録文法36
と協同して動作し、ユーザが定義したフレーズ38に対
する一連のSI認識モデルを出力する。更に、登録を使
用しない間、認識モジュール32の出力は、ペナルティ
ーが適用され、外れ語彙の拒否に対してユーザが定義し
たフレーズと比較される登録文法のスコアを与える。S
I認識モデル34は、あらゆる特別な語彙と無関係なサ
ブワードユニットである。1つの実施の形態において、
SI認識モデル34は、コンテキストに依存する電話モ
デルであってもよい。この実施の形態において、一般に
モデルは、各電話モデルが良くトレイニングされるよう
に非常に大きな数の話者や語彙からの入力スピーチでト
レイニングされる。SI認識モデル34の他の型式が本
発明の範囲内で用いられることは理解されるであろう。
【0011】登録文法36は、モデルの音響シーケンス
の許されたシーケンスを特定する。簡単な実施の形態に
おいて、登録文法36は“ナル(null)”文法であってよ
い。この実施の形態において、文法はモデルの全ての数
があらゆる順番に生じるようにすることができる。他の
実施の形態において、登録文法は“nグラム(n-gram)”
文法であることができる。この文法は長さnの許された
シーケンスを特定することができる。また、登録文法3
6は、音素配列文法であってもよい。音素配列文法は、
例えば可能なシラブル或いは部分シラブルのような言語
における可能な音のシーケンスによる許されたシーケン
スを特定する。従って、登録文法36はSI認識モデル
34上の制約として作用する。他の登録文法36を本発
明の範囲内で用いることができることが理解されるであ
ろう。
【0012】図2は本発明の1つの実施の形態による話
者に依存しない認識システム10のための登録方法を示
す。この方法は、フレーズが話者に依存しない認識シス
テム10へ登録のために受信された場合にステップ50
において開始する。前に述べたように、フレーズは入力
/出力装置12を介して受信され、アナログ−ディジタ
ルコンバータ18によってディジタル化される。登録フ
レーズはあらゆる音または音のシーケンスを含むことが
できる。ステップ52に進んで、特徴抽出モジュール3
0は登録フレーズから特徴を抽出する。1つの実施の形
態において、特徴抽出モジュール30は、登録フレーズ
の各フレームから線形予測符号化(LPC)パラメータ
を用いて、スペクトラムの特徴を抽出する。他の特徴抽
出技術を本発明の範囲内でステップ52において用いる
ことができることが理解されるであろう。
【0013】ステップ54において、認識モジュール3
2はSI認識モデル34を受信する。前述のように、S
I認識モデル34はあらゆる特別な語彙と無関係なサブ
ワードユニットを有する。特定の実施の形態において、
SI認識モデル34は、非常に多くの話者や語彙から入
力スピーチでトレイニングされるコンテキストに依存す
る電話モデルを含むことができる。ステップ56に進ん
で、認識モジュール32は登録文法36を受信する。前
述のように、登録文法は音素配列文法、n−グラム文
法、或いはナル文法を含むことができる。登録文法は本
発明の範囲内で他の型式の文法を含むことができる。ス
テップ58において、認識モジュール32は、抽出され
た特徴に極めて一致するSI認識モデルのシーケンスを
決定する。これは登録文法36を用いて抽出された特徴
をSI認識モデル34と比較することによって行われ
る。次に、ステップ60において、認識モジュール32
は、登録フレーズ用のユーザが定義したフレーズ38と
してSI認識モデルのシーケンスを記憶する。登録フレ
ーズ用のユーザが定義したフレーズ38のために記憶さ
れたSI認識モデルのシーケンスはSI認識モデルと関
連する一連のシンボルを含む。ステップ60はプロセス
の終わりへ導く。
【0014】図3は本発明の1つの実施形態による話者
に依存しない認識システムの非登録使用の認識方法を示
す。この方法は、話されたフレーズが受信された場合に
ステップ80において開始する。登録フレーズに関して
前述したように、話されたフレーズはあらゆる音或いは
音のシーケンスを含み、入力/出力装置12を介して受
信される。入力/出力装置12において、話されたフレ
ーズは、アナログ−ディジタルコンバータ18によって
ディジタルフォーマットに変換される。ステップ82へ
進んで、特徴抽出モジュール30は話されたフレーズか
ら特徴を抽出する。前述のように、抽出された特徴は線
形予測符号化(LPC)パラメータに基づくスペクトラ
ムの特徴を含む。ステップ84において、認識モジュー
ル32はユーザが定義したフレーズ38を受信すること
ができる。ステップ86に進んで、認識モジュール32
は、各ユーザが定義したフレーズ38を抽出した特徴と
比較することによって話されたフレーズのために一致語
彙のスコアを決定する。このスコアはユーザが定義した
フレーズと抽出した特徴間の相違であることができる。
【0015】次に、ステップ88において、認識モジュ
ール32はSI認識モデル34を受信する。ステップ9
0において、認識モジュール32は登録文法36を受信
する。SI認識モデル34と登録文法36は図1と図2
に関連して前に述べられた。ステップ92へ進んで、認
識モジュール32は、登録文法36を用いてSI認識モ
デル34を抽出された特徴と比較することによって、話
されたフレーズ用の登録文法のスコアを決定する。登録
文法のスコアは、文法によって許されたSI認識モデル
と抽出された特徴間の相違である。ステップ94におい
て、認識モジュール32は登録文法のスコアにペナルテ
ィーを適用して外れ語彙のスコアを発生する。1つの実
施形態において、認識モジュール32はペナルティーを
スコアに加えることによって登録文法スコアにペナルテ
ィーを適用する。1つの実施の形態において、登録文法
のスコアは、外れ語彙のスコアが定義のないフレーズの
60%と80%の間で拒否する場合にペナルティーが適
用される。特別の実施の形態において、登録文法のスコ
アは、外れ語彙のスコアが非定義フレーズの約70%を
拒否する場合にペナルティーが適応される。ペナルティ
ーは本発明の範囲内で変えることができ、また他の方法
で決定されることが理解されるであろう。
【0016】ステップ96において、スコアは認識モジ
ュール32によって比較される。次に、決定ステップ9
8において、認識モジュール32は、外れ語彙のスコア
が話されたフレーズに極めて一致しているか否かを決定
する。もし、外れ語彙が話されたフレーズに一致するの
に最も近いならば、決定ステップ98のYESブランチ
は話されたフレーズが外れ語彙として拒否されるステッ
プ100へ導く。この場合、話者に依存しない認識シス
テム10は話者に再認識のためにフレーズを繰り返すよ
うに要求することができる。決定ステップ98に戻っ
て、もし、外れ語彙のスコアが話されたフレーズに極め
て一致していないなら、決定ステップ98のNOブラン
チがステップ102へ導く。ステップ102において、
認識モジュール32は話されたフレーズを一致語彙フレ
ーズとして受け入れる。従って、フレーズは認識され、
実行される。ステップ100とステップ102はプロセ
スの終了へ導く。
【0017】前述に従って、本発明の話者に依存しない
認識システム及び方法は外れ語彙の拒否を実質的に改善
する。特に、話されたフレーズは、ユーザが定義したフ
レーズに加えてペナルティが適用された登録文法のスコ
アに対してスコアされる。ペナルティが適用された登録
文法のスコアがユーザが定義したフレーズより優れた一
致を与える場合、話されたフレーズは外れ語彙として拒
否される。逆に、話されたフレーズは、それがペナルテ
ィーが適用された登録文法のスコアよりユーザが定義し
たフレーズと良く一致する場合、一致語彙として受け入
れられる。本発明は幾つかの実施の形態について述べら
れたが、いろいろな変更および変形が当業者に示唆され
る。本発明は、特許請求の範囲内に入る変更および変形
を含むことが意図される。
【0018】以上の記載に関連して、以下の項が開示さ
れる。 (1)ユーザが定義したフレーズの話者に依存しない認
識のための外れ語彙のスコアを決定する方法であって、
登録文法を用いて話者に依存しない認識モデルのセット
でユーザが定義したフレーズを登録するステップと、登
録文法を用いて話されたフレーズの特徴を話者に依存し
ない認識モデルと比較することによって、話されたフレ
ーズの登録文法のスコアを決定するステップと、登録文
法にペナルティーを適用して外れ語彙のスコアを発生す
るステップ、を有することを特徴とする方法。 (2)前記登録文法のスコアにペナルティーを適用する
ステップは、ペナルティーを登録文法のスコアに加える
ステップを有することを特徴とする前記(1)に記載の
方法。 (3)前記登録文法は、音素配列文法であることを特徴
とする前記(1)に記載の方法。 (4)前記登録文法は、ナル文法であることを特徴とす
る前記(1)に記載の方法。 (5)前記登録文法は、n−グラム文法であることを特
徴とする前記(1)に記載の方法。 (6)前記話者に依存しない認識モデルは、サブワード
ユニットを有することを特徴とする前記(1)に記載の
方法。 (7)前記話者に依存しない認識モデルは、コンテキス
トに依存する電話モデルを有することを特徴とする前記
(1)に記載の方法。 (8)前記登録文法のスコアは、外れ語彙のスコアが非
定義フレーズの60%と80%の間で拒否する場合にペ
ナルティーが適用されることを特徴とする前記(1)に
記載の方法。 (9)前記登録文法のスコアは、外れ語彙のスコアの文
法が非定義フレーズの約70%をする場合にペナルティ
ーが適用されることを特徴とする前記(1)に記載の方
法。 (10) ユーザが定義したフレーズの話者に依存しない認
識方法であって、話されたフレーズを受信するステップ
と、話されたフレーズから特徴を抽出するステップと、
ユーザが定義したフレーズを受信するステップと、抽出
された特徴をユーザが前記定義したフレーズと比較する
ことによって、話されたフレーズの一致語彙のスコアを
決定するステップと、話者に依存しない認識モデルのセ
ットを受信するステップと、登録文法を用いて抽出され
た特徴を話者に依存しない認識モデルと比較することに
よって、話されたフレーズの登録文法のスコアを決定す
るステップと、前記登録文法のスコアにペナルティーを
適用して、外れ語彙のスコアを発生するステップと、ス
コアを比較して、もし、外れ語彙のスコアが一致スコア
に近いならば、話されたフレーズを外れ語彙のフレーズ
として拒否し、もし、外れ語彙が一致スコアに近くない
ならば、話されたフレーズを一致フレーズとして受入れ
るステップ、を有することを特徴とする方法。 (11) 前記登録文法のスコアにペナルティを適用するス
テップは、ペナルティーを登録文法のスコアに加えるス
テップを有することを特徴とする前記(10)に記載の
方法。 (12) 前記登録文法は、音素配列文法であることを特徴
とする前記(10)に記載の方法。 (13) 前記文法は、ナル文法であることを特徴とする前
記(10)に記載の方法。 (14) 前記文法は、nグラム文法であることを特徴とす
る前記(10)に記載の方法。 (15) 前記話者に依存しない認識モデルは、サブワード
ユニットを含むことを特徴とする前記(10)に記載の
方法。 (16) 前記話者に依存しない認識モデルは、コンテキス
トに依存する電話モデルを含むことを特徴とする前記
(10)に記載の方法。 (17) 抽出された特徴は、線形予測符号化の特徴である
ことを特徴とする前記(10)に記載の方法。 (18) 登録文法スコアは、外れ語彙のスコアが非定義フ
レーズの60%と80%の間で拒否する場合にペナルテ
ィーが適用されることを特徴とする前記(10)に記載
の方法。 (19) 登録文法のスコアは、外れ語彙のスコアが非定義
フレーズの約70%拒否する場合にペナルティーが適用
されることを特徴とする前記(10)に記載の方法。 (20) 話者に依存しない認識システムであって、話者に
依存しない認識モデルのセットと、登録文法と、登録文
法を用いて前記話者に依存しない認識モデルと共に登録
されたユーザが定義したフレーズと、前記話者に依存し
ない認識モデルと登録文法を用いて話されたフレーズの
登録文法のスコアを決めるために動作可能な認識モジュ
ールと、登録文法スコアにペナルティーを適用して外れ
語彙のスコアを発生するために動作可能な認識モジュー
ル、を有することを特徴とするシステム。 (21) 更に、話されたフレーズの特徴をユーザが定義し
たフレーズと比較することによって、話されたフレーズ
の一致語彙のスコアを決めるために動作可能な認識モジ
ュールと、前記スコアを比較するために動作可能な前記
認識モジュールと、前記外れ語彙のスコアが一致スコア
に近い場合、外れ語彙のフレーズとして話されたフレー
ズを拒否するために動作可能な前記認識モジュールと、
前記外れ語彙のスコアが一致スコアに近いくない場合、
一致語彙のフレーズとして話されたフレーズを受入れる
ために動作可能な前記認識モジュールと、を有すること
を特徴とする前記(20)に記載のシステム。 (22) 前記話者に依存しない認識モデルは、更にサブワ
ードユニットを有することを特徴とする前記(20)に
記載のシステム。 (23) 本発明は従来システムに関連した問題を実質的に
減少、或いは除去する話者に依存しない認識システム及
び方法を提供する。ユーザが定義したフレーズの話者に
依存しない認識のための外れ語彙のスコアを決定するシ
ステム及び方法が、登録文法(36)を用いて話者に依
存しない(SI)認識モデル(34)のセットと共にユ
ーザが定義したフレーズを登録することを含む。話され
たフレーズの登録文法のスコアは、登録文法(36)を
用いて話されたフレーズの特徴をSI認識モデル(3
4)と比較することによって、決定される。登録文法の
スコアは、外れスコア(94)を発生するためにペナル
ティーが適用される。
【図面の簡単な説明】
【図1】本発明の実施の形態による話者に依存しない認
識システムのブロック図を示す。
【図2】本発明の1つの実施形態による図1の話者に依
存しない認識システムのための登録方法のフロー図を示
す。
【図3】本発明の1つの実施形態による図1の話者に依
存しない認識システムのための認識方法のフロー図を示
す。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】ユーザが定義したフレーズの話者に依存し
    ない認識のための外れ語彙のスコアを決定する方法であ
    って、 登録文法を用いて話者に依存しない認識モデルのセット
    でユーザが定義したフレーズを登録するステップと、 登録文法を用いて話されたフレーズの特徴を話者に依存
    しない認識モデルと比較することによって、話されたフ
    レーズの登録文法のスコアを決定するステップと、 登録文法にペナルティーを適用して外れ語彙のスコアを
    発生するステップ、を有することを特徴とする方法。
  2. 【請求項2】話者に依存しない認識システムであって、 話者に依存しない認識モデルのセットと、 登録文法と、 登録文法を用いて前記話者に依存しない認識モデルと共
    に登録されたユーザが定義したフレーズと、 前記話者に依存しない認識モデルと登録文法を用いて話
    されたフレーズの登録文法のスコアを決めるために動作
    可能な認識モジュールと、 登録文法スコアにペナルティーを適用して外れ語彙のス
    コアを発生するために動作可能な認識モジュール、を有
    することを特徴とするシステム。
JP10000477A 1997-01-02 1998-01-05 ユーザが定義したフレーズの話者に依存しない認識方法及びシステム Withdrawn JPH10198396A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US3447797P 1997-01-02 1997-01-02
US60/034477 1997-01-02

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2007124314A Division JP2007233412A (ja) 1997-01-02 2007-05-09 ユーザが定義したフレーズの話者に依存しない認識方法及びシステム

Publications (1)

Publication Number Publication Date
JPH10198396A true JPH10198396A (ja) 1998-07-31

Family

ID=21876675

Family Applications (2)

Application Number Title Priority Date Filing Date
JP10000477A Withdrawn JPH10198396A (ja) 1997-01-02 1998-01-05 ユーザが定義したフレーズの話者に依存しない認識方法及びシステム
JP2007124314A Pending JP2007233412A (ja) 1997-01-02 2007-05-09 ユーザが定義したフレーズの話者に依存しない認識方法及びシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2007124314A Pending JP2007233412A (ja) 1997-01-02 2007-05-09 ユーザが定義したフレーズの話者に依存しない認識方法及びシステム

Country Status (4)

Country Link
US (1) US6058363A (ja)
EP (1) EP0852374A3 (ja)
JP (2) JPH10198396A (ja)
KR (1) KR19980070329A (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6567778B1 (en) * 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech
US6275801B1 (en) * 1998-11-03 2001-08-14 International Business Machines Corporation Non-leaf node penalty score assignment system and method for improving acoustic fast match speed in large vocabulary systems
US7082397B2 (en) 1998-12-01 2006-07-25 Nuance Communications, Inc. System for and method of creating and browsing a voice web
US6570964B1 (en) 1999-04-16 2003-05-27 Nuance Communications Technique for recognizing telephone numbers and other spoken information embedded in voice messages stored in a voice messaging system
US7058573B1 (en) * 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
DE60028219T8 (de) * 2000-12-13 2007-06-14 Sony Deutschland Gmbh Verfahren zur Spracherkennung
FR2820872B1 (fr) * 2001-02-13 2003-05-16 Thomson Multimedia Sa Procede, module, dispositif et serveur de reconnaissance vocale
US7739115B1 (en) 2001-02-15 2010-06-15 West Corporation Script compliance and agent feedback
US7191133B1 (en) 2001-02-15 2007-03-13 West Corporation Script compliance using speech recognition
US7966187B1 (en) 2001-02-15 2011-06-21 West Corporation Script compliance and quality assurance using speech recognition
US8180643B1 (en) 2001-02-15 2012-05-15 West Corporation Script compliance using speech recognition and compilation and transmission of voice and text records to clients
US7664641B1 (en) 2001-02-15 2010-02-16 West Corporation Script compliance and quality assurance based on speech recognition and duration of interaction
US6952674B2 (en) * 2002-01-07 2005-10-04 Intel Corporation Selecting an acoustic model in a speech recognition system
US7403967B1 (en) 2002-06-18 2008-07-22 West Corporation Methods, apparatus, and computer readable media for confirmation and verification of shipping address data associated with a transaction
US7711560B2 (en) * 2003-02-19 2010-05-04 Panasonic Corporation Speech recognition device and speech recognition method
US6930759B2 (en) * 2003-09-23 2005-08-16 Eastman Kodak Company Method and apparatus for exposing a latent watermark on film
US8924212B1 (en) 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US20070226164A1 (en) * 2006-03-21 2007-09-27 Honeywell International Inc. Type variables and/or temporal constraints in plan recognition
US8108205B2 (en) 2006-12-01 2012-01-31 Microsoft Corporation Leveraging back-off grammars for authoring context-free grammars
US8731925B2 (en) * 2006-12-22 2014-05-20 Nuance Communications, Inc. Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack
US20080273672A1 (en) * 2007-05-03 2008-11-06 Microsoft Corporation Automated attendant grammar tuning
US7974411B2 (en) * 2008-01-31 2011-07-05 International Business Machines Corporation Method for protecting audio content
US7978853B2 (en) * 2008-01-31 2011-07-12 International Business Machines Corporation System and computer program product for protecting audio content
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
JP5681811B2 (ja) 2010-12-10 2015-03-11 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 話者認識のためのモデリング・デバイスおよび方法、ならびに話者認識システム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0562138A1 (en) * 1992-03-25 1993-09-29 International Business Machines Corporation Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary
US5732187A (en) * 1993-09-27 1998-03-24 Texas Instruments Incorporated Speaker-dependent speech recognition using speaker independent models
US5699456A (en) * 1994-01-21 1997-12-16 Lucent Technologies Inc. Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
US5710864A (en) * 1994-12-29 1998-01-20 Lucent Technologies Inc. Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech

Also Published As

Publication number Publication date
US6058363A (en) 2000-05-02
EP0852374A2 (en) 1998-07-08
KR19980070329A (ko) 1998-10-26
EP0852374A3 (en) 1998-11-18
JP2007233412A (ja) 2007-09-13

Similar Documents

Publication Publication Date Title
US6058363A (en) Method and system for speaker-independent recognition of user-defined phrases
US7630878B2 (en) Speech recognition with language-dependent model vectors
US6041300A (en) System and method of using pre-enrolled speech sub-units for efficient speech synthesis
JP3126985B2 (ja) 音声認識システムの言語モデルのサイズを適応させるための方法および装置
KR100383353B1 (ko) 음성인식장치및음성인식장치용어휘발생방법
EP2048655B1 (en) Context sensitive multi-stage speech recognition
EP0769184B1 (en) Speech recognition methods and apparatus on the basis of the modelling of new words
US6836758B2 (en) System and method for hybrid voice recognition
EP1936606A1 (en) Multi-stage speech recognition
US20050033575A1 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JPH0394299A (ja) 音声認識方法と音声認識装置訓練方法
JPH06214587A (ja) 事前指定ワードスポッティングサブシステム及び事前ワードスポッティング方法
WO2001099096A1 (fr) Systeme de communication a entree vocale, terminal d'utilisateur et systeme central
EP1734509A1 (en) Method and system for speech recognition
US7844459B2 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
JP2004053742A (ja) 音声認識装置
Boite et al. A new approach towards keyword spotting.
US20040006469A1 (en) Apparatus and method for updating lexicon
Lee et al. Cantonese syllable recognition using neural networks
US20020095282A1 (en) Method for online adaptation of pronunciation dictionaries
JP3058125B2 (ja) 音声認識装置
US20080243498A1 (en) Method and system for providing interactive speech recognition using speaker data
JP3277579B2 (ja) 音声認識方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060508

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060808

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060811

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070109

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20070517