JP2007233412A - ユーザが定義したフレーズの話者に依存しない認識方法及びシステム - Google Patents

ユーザが定義したフレーズの話者に依存しない認識方法及びシステム Download PDF

Info

Publication number
JP2007233412A
JP2007233412A JP2007124314A JP2007124314A JP2007233412A JP 2007233412 A JP2007233412 A JP 2007233412A JP 2007124314 A JP2007124314 A JP 2007124314A JP 2007124314 A JP2007124314 A JP 2007124314A JP 2007233412 A JP2007233412 A JP 2007233412A
Authority
JP
Japan
Prior art keywords
score
phrase
vocabulary
grammar
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007124314A
Other languages
English (en)
Inventor
Coimbatore S Ramalingam
エス ラマリンガム コインバトーア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of JP2007233412A publication Critical patent/JP2007233412A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

【課題】本発明は従来システムに関連した問題を実質的に減少、或いは除去する話者に依存しない認識システム及び方法を提供する。
【解決手段】ユーザが定義したフレーズの話者に依存しない認識のための外れ語彙のスコアを決定するシステム及び方法が、登録文法(36)を用いて話者に依存しない(SI)認識モデル(34)のセットと共にユーザが定義したフレーズを登録することを含む。話されたフレーズの登録文法のスコアは、登録文法(36)を用いて話されたフレーズの特徴をSI認識モデル(34)と比較することによって、決定される。登録文法のスコアは、外れスコア(94)を発生するためにペナルティーが適用される。
【選択図】図1

Description

本発明は、一般にスピーチ処理の分野に関し、特にユーザが定義したフレーズの話者(スピーカー)に依存しない認識方法及びシステムに関する。
音声を基にしたスピードダイヤリングのような音声で作動するユーザの注文可能なアプリケーションに対する要求が急速に増大している。認識のために用いられるテンプレートは話者の発生から抽出された音響モデルである。代表的には、話者に依存したテンプレートは、ユーザの定義したフレーズが外れ語彙(out-of-vocabulary:「未知語」を意味する)の拒否を与えるために記録される“ガーベージ”モデルを用いる。話者に依存した(話者独立の)テンプレートは、それらは一般に加えられる各フレーズやユーザに対応して増大する大きなメモリ量を必要にすると言う点で問題である。
話者に依存しないテンプレートは固定した音響モデルを利用し、ユーザが定義したフレーズに対する記憶装置の数百バイトのみを必要とする。その結果、話者に依存しないテンプレートは非常に多くのユーザを収容することができ、ユーザの定義したフレーズはメモリ容量を殆ど増加しない。しかし、話者に依存しないテンプレートの問題は、ガーベージモデルが話者に依存しない環境においてうまく機能しないことである。これは、不十分な外れ語彙の拒否を生じ、間違い電話番号をダイヤルするような費用のかかる誤りを導く。
従って、優れた外れ語彙の拒否能力のある改善された話者に依存しない認識システムの必要性がある。本発明は、従来のシステムに関連した問題を実質的に減少、或いは除去する話者に依存しない認識システム及び方法を提供する。
本発明によると、ユーザが定義したフレーズの話者に依存しない認識のための外れ語彙のスコア(score)が、登録文法(enrollment grammar)を用いて話者に依存しない(speaker-independent: SI)認識モデルのセットを有するユーザが定義したフレーズを先ず登録することによって決定される。次に、話されたフレーズの登録文法のスコアが登録文法を用いてSI認識モデルと話されたフレーズの特徴を比較することによって決定される。登録文法のスコアは、外れ語彙のスコアを発生するために、ペナルティーが適用されることができる。
特に、本発明の一つの実施形態によれば、登録文法は音素配列の文法であり、SI認識モデルはサブワードユニットを含むことができる。外れ語彙のスコアが非定義フレーズの60%と80%の間で拒否する場合に、登録文法のスコアはそれにペナルティーを加えることによってペナルティーが適用される。特定の実施形態においては、登録スコアは、外れ語彙のスコアが非定義フレーズの約70%拒否する場合に、ペナルティーが適用される。
本発明の技術的利点は、外れ語彙の拒否を実質的に改善する、話者に依存しない認識システム及び方法を提供することを含む。特に、話されたフレーズは、ユーザが定義したフレーズに加えて、ペナルティが適用された登録文法のスコアに対してスコアされる。
ペナルティが適用された登録文法スコアがユーザが定義したフレーズより良く一致する場合、話されたフレーズは外れ語彙(未知語)として拒否される。逆に、話されたフレーズは、それがペナルティーが適用された登録文法のスコアよりユーザが定義したフレーズに良く一致する場合、一致語彙(in-vocabulary:「登録語」を意味する。)として受け入れられる。従って、外れ語彙を一致語彙として認識すること、および間違い番号をダイヤルするような関連した誤は、軽減される。
本発明の他の技術的利点は、話者に依存しない認識システムのある要素(コンポーネント)を用いて、外れ語彙の拒否システム及び方法を提供することである。特に、登録システムの要素は外れ語彙のスコアを決定するために用いられることができる。従って、追加の認識モデルを設ける必要がない。
本発明の更に他の技術的利点は、所謂当業者には以下の詳細な説明と図面、及び特許請求の範囲から明らかであろう。
本発明の好適な実施の形態およびその利点は、同じ番号は同じ部分を表している図1〜図3を詳細に参照することによって良く理解されるであろう。図1〜図3は、ユーザが定義したフレーズの話者に依存しない認識方法及びシステムを示す。以下により詳細に述べるように、この方法及びシステムは、外れ語彙の拒否のため、ユーザが定義したフレーズに対してスコアされるペナルティーが適用された登録文法のスコアを用いる。従って、話者に依存しない認識システム及び方法は外れ語彙の拒否を実質的に改善する。
図1は、本発明の1つの実施の形態による話者に依存しない認識システム10のブロック図を示す。話者に依存しない認識システム10は、入力/出力装置12、マイクロプロセッサ14およびメモリ16を有する。この入力/出力装置12は電話回路網(図示せず)に接続され、スピードダイヤルのような音声作動サービスを提供する。この実施の形態において、入力/出力装置12は、アナログ入力信号を変換するためのアナログ−ディジタルコンバータ18、及びディジタル出力信号を変換するためのディジタル−アナログコンバータ20を含む。入力/出力装置12は、スピーチ信号を送信し及び/又は処理することができる他のネットワーク又はシステムに接続されることができる。
本発明は、メモリ16にロードされ、マイクロプロセッサ14によって実行されるコンピュータソフトウェアを含む。このコンピュータソフトウェアは、モジュール及びメモリ16における同様な装置によって一般に識別される。その他に、コンピュータソフトウェアは、本発明の範囲内で処理するために結合及び/又は分割されることができることが理解されるであろう。従って、モジュール及び他のソフトウェアシステムのラベルは図示のためであり、本発明の範囲内で変更することができる。コンピュータソフトウェアはディスク記憶装置(図示せず)からメモリ16にロードされる。ディスク記憶装置は、いろいろな型式の記憶媒体、例えばフロッピー(登録商標)ディスク駆動装置、ハードディスク駆動装置、CD−ROM駆動装置或いは磁気テープ駆動装置を含むことができる。
メモリ16は、特徴抽出モジュール30、認識モジュール32、話者に依存しない(SI)認識モデル34のセット、登録文法36、及びユーザが定義したフレーズ38を含むことができる。モジュール30、32、モデル34、文法36、及びユーザが定義したフレーズ38は、読者の便宜のために単一のメモリ16に示されている。メモリ16は、RAM、ROM、ディスク記憶装置等の1つ以上のメモリ装置を有してよい。
特徴抽出モジュール30は、入力/出力装置12を介して受信した話されたフレーズから特徴を抽出する。代表的には、特徴は話されたフレーズの信号スペクトラムから得られる。1つの実施の形態において、スペクトラムは線形予測符号化(linear predictive coding: LPC)法を用いて算出される。話されたフレーズの特徴は本発明の範囲内で他の方法を用いて抽出されてもよい。
以下に、より詳細に述べるように、登録中に認識モジュール32はSIモデル34と登録文法36と協同して動作し、ユーザが定義したフレーズ38に対する一連のSI認識モデルを出力する。更に、登録を使用しない間、認識モジュール32の出力は、ペナルティーが適用され、外れ語彙の拒否に対してユーザが定義したフレーズと比較される登録文法のスコアを与える。
SI認識モデル34は、あらゆる特別な語彙と無関係なサブワードユニットである。1つの実施の形態において、SI認識モデル34は、コンテキストに依存する電話モデルであってもよい。この実施の形態において、一般にモデルは、各電話モデルが良くトレイニングされるように非常に大きな数の話者や語彙からの入力スピーチでトレイニングされる。SI認識モデル34の他の型式が本発明の範囲内で用いられることは理解されるであろう。
登録文法36は、モデルの音響シーケンスの許されたシーケンスを特定する。簡単な実施の形態において、登録文法36は“ナル(null)”文法であってよい。この実施の形態において、文法はモデルの全ての数があらゆる順番に生じるようにすることができる。他の実施の形態において、登録文法は“nグラム(n-gram)”文法であることができる。この文法は長さnの許されたシーケンスを特定することができる。また、登録文法36は、音素配列文法であってもよい。音素配列文法は、例えば可能なシラブル或いは部分シラブルのような言語における可能な音のシーケンスによる許されたシーケンスを特定する。従って、登録文法36はSI認識モデル34上の制約として作用する。他の登録文法36を本発明の範囲内で用いることができることが理解されるであろう。
図2は本発明の1つの実施の形態による話者に依存しない認識システム10のための登録方法を示す。この方法は、フレーズが話者に依存しない認識システム10へ登録のために受信された場合にステップ50において開始する。前に述べたように、フレーズは入力/出力装置12を介して受信され、アナログ−ディジタルコンバータ18によってディジタル化される。登録フレーズはあらゆる音または音のシーケンスを含むことができる。
ステップ52に進んで、特徴抽出モジュール30は登録フレーズから特徴を抽出する。1つの実施の形態において、特徴抽出モジュール30は、登録フレーズの各フレームから線形予測符号化(LPC)パラメータを用いて、スペクトラムの特徴を抽出する。他の特徴抽出技術を本発明の範囲内でステップ52において用いることができることが理解されるであろう。
ステップ54において、認識モジュール32はSI認識モデル34を受信する。前述のように、SI認識モデル34はあらゆる特別な語彙と無関係なサブワードユニットを有する。特定の実施の形態において、SI認識モデル34は、非常に多くの話者や語彙から入力スピーチでトレイニングされるコンテキストに依存する電話モデルを含むことができる。
ステップ56に進んで、認識モジュール32は登録文法36を受信する。前述のように、登録文法は音素配列文法、n−グラム文法、或いはナル文法を含むことができる。登録文法は本発明の範囲内で他の型式の文法を含むことができる。
ステップ58において、認識モジュール32は、抽出された特徴に極めて一致するSI認識モデルのシーケンスを決定する。これは登録文法36を用いて抽出された特徴をSI認識モデル34と比較することによって行われる。次に、ステップ60において、認識モジュール32は、登録フレーズ用のユーザが定義したフレーズ38としてSI認識モデルのシーケンスを記憶する。登録フレーズ用のユーザが定義したフレーズ38のために記憶されたSI認識モデルのシーケンスはSI認識モデルと関連する一連のシンボルを含む。ステップ60はプロセスの終わりへ導く。
図3は本発明の1つの実施形態による話者に依存しない認識システムの非登録使用の認識方法を示す。この方法は、話されたフレーズが受信された場合にステップ80において開始する。登録フレーズに関して前述したように、話されたフレーズはあらゆる音或いは音のシーケンスを含み、入力/出力装置12を介して受信される。入力/出力装置12において、話されたフレーズは、アナログ−ディジタルコンバータ18によってディジタルフォーマットに変換される。
ステップ82へ進んで、特徴抽出モジュール30は話されたフレーズから特徴を抽出する。前述のように、抽出された特徴は線形予測符号化(LPC)パラメータに基づくスペクトラムの特徴を含む。ステップ84において、認識モジュール32はユーザが定義したフレーズ38を受信することができる。ステップ86に進んで、認識モジュール32は、各ユーザが定義したフレーズ38を抽出した特徴と比較することによって話されたフレーズのために一致語彙のスコアを決定する。このスコアはユーザが定義したフレーズと抽出した特徴間の相違であることができる。
次に、ステップ88において、認識モジュール32はSI認識モデル34を受信する。ステップ90において、認識モジュール32は登録文法36を受信する。SI認識モデル34と登録文法36は図1と図2に関連して前に述べられた。
ステップ92へ進んで、認識モジュール32は、登録文法36を用いてSI認識モデル34を抽出された特徴と比較することによって、話されたフレーズ用の登録文法のスコアを決定する。登録文法のスコアは、文法によって許されたSI認識モデルと抽出された特徴間の相違である。
ステップ94において、認識モジュール32は登録文法のスコアにペナルティーを適用して外れ語彙のスコアを発生する。1つの実施形態において、認識モジュール32はペナルティーをスコアに加えることによって登録文法スコアにペナルティーを適用する。1つの実施の形態において、登録文法のスコアは、外れ語彙のスコアが定義のないフレーズの60%と80%の間で拒否する場合にペナルティーが適用される。特別の実施の形態において、登録文法のスコアは、外れ語彙のスコアが非定義フレーズの約70%を拒否する場合にペナルティーが適応される。ペナルティーは本発明の範囲内で変えることができ、また他の方法で決定されることが理解されるであろう。
ステップ96において、スコアは認識モジュール32によって比較される。次に、決定ステップ98において、認識モジュール32は、外れ語彙のスコアが話されたフレーズに極めて一致しているか否かを決定する。もし、外れ語彙が話されたフレーズに一致するのに最も近いならば、決定ステップ98のYESブランチは話されたフレーズが外れ語彙として拒否されるステップ100へ導く。この場合、話者に依存しない認識システム10は話者に再認識のためにフレーズを繰り返すように要求することができる。
決定ステップ98に戻って、もし、外れ語彙のスコアが話されたフレーズに極めて一致していないなら、決定ステップ98のNOブランチがステップ102へ導く。ステップ102において、認識モジュール32は話されたフレーズを一致語彙フレーズとして受け入れる。従って、フレーズは認識され、実行される。ステップ100とステップ102はプロセスの終了へ導く。
前述に従って、本発明の話者に依存しない認識システム及び方法は外れ語彙の拒否を実質的に改善する。特に、話されたフレーズは、ユーザが定義したフレーズに加えてペナルティが適用された登録文法のスコアに対してスコアされる。ペナルティが適用された登録文法のスコアがユーザが定義したフレーズより優れた一致を与える場合、話されたフレーズは外れ語彙として拒否される。逆に、話されたフレーズは、それがペナルティーが適用された登録文法のスコアよりユーザが定義したフレーズと良く一致する場合、一致語彙として受け入れられる。
本発明は幾つかの実施の形態について述べられたが、いろいろな変更および変形が当業者に示唆される。本発明は、特許請求の範囲内に入る変更および変形を含むことが意図される。
以上の記載に関連して、以下の項が開示される。
(1)ユーザが定義したフレーズの話者に依存しない認識のための外れ語彙のスコアを決定する方法であって、
登録文法を用いて話者に依存しない認識モデルのセットでユーザが定義したフレーズを登録するステップと、
登録文法を用いて話されたフレーズの特徴を話者に依存しない認識モデルと比較することによって、話されたフレーズの登録文法のスコアを決定するステップと、
登録文法にペナルティーを適用して外れ語彙のスコアを発生するステップ、
を有することを特徴とする方法。
(2)前記登録文法のスコアにペナルティーを適用するステップは、ペナルティーを登録文法のスコアに加えるステップを有することを特徴とする前記(1)に記載の方法。
(3)前記登録文法は、音素配列文法であることを特徴とする前記(1)に記載の方法。
(4)前記登録文法は、ナル文法であることを特徴とする前記(1)に記載の方法。
(5)前記登録文法は、n−グラム文法であることを特徴とする前記(1)に記載の方法。
(6)前記話者に依存しない認識モデルは、サブワードユニットを有することを特徴とする前記(1)に記載の方法。
(7)前記話者に依存しない認識モデルは、コンテキストに依存する電話モデルを有することを特徴とする前記(1)に記載の方法。
(8)前記登録文法のスコアは、外れ語彙のスコアが非定義フレーズの60%と80%の間で拒否する場合にペナルティーが適用されることを特徴とする前記(1)に記載の方法。
(9)前記登録文法のスコアは、外れ語彙のスコアの文法が非定義フレーズの約70%をする場合にペナルティーが適用されることを特徴とする前記(1)に記載の方法。
(10) ユーザが定義したフレーズの話者に依存しない認識方法であって、
話されたフレーズを受信するステップと、
話されたフレーズから特徴を抽出するステップと、
ユーザが定義したフレーズを受信するステップと、
抽出された特徴をユーザが前記定義したフレーズと比較することによって、話されたフレーズの一致語彙のスコアを決定するステップと、
話者に依存しない認識モデルのセットを受信するステップと、
登録文法を用いて抽出された特徴を話者に依存しない認識モデルと比較することによって、話されたフレーズの登録文法のスコアを決定するステップと、
前記登録文法のスコアにペナルティーを適用して、外れ語彙のスコアを発生するステップと、
スコアを比較して、もし、外れ語彙のスコアが一致スコアに近いならば、話されたフレーズを外れ語彙のフレーズとして拒否し、もし、外れ語彙が一致スコアに近くないならば、話されたフレーズを一致フレーズとして受入れるステップ、を有することを特徴とする方法。
(11) 前記登録文法のスコアにペナルティを適用するステップは、ペナルティーを登録文法のスコアに加えるステップを有することを特徴とする前記(10)に記載の方法。
(12) 前記登録文法は、音素配列文法であることを特徴とする前記(10)に記載の方法。
(13) 前記文法は、ナル文法であることを特徴とする前記(10)に記載の方法。
(14) 前記文法は、nグラム文法であることを特徴とする前記(10)に記載の方法。
(15) 前記話者に依存しない認識モデルは、サブワードユニットを含むことを特徴とする前記(10)に記載の方法。
(16) 前記話者に依存しない認識モデルは、コンテキストに依存する電話モデルを含むことを特徴とする前記(10)に記載の方法。
(17) 抽出された特徴は、線形予測符号化の特徴であることを特徴とする前記(10)に記載の方法。
(18) 登録文法スコアは、外れ語彙のスコアが非定義フレーズの60%と80%の間で拒否する場合にペナルティーが適用されることを特徴とする前記(10)に記載の方法。
(19) 登録文法のスコアは、外れ語彙のスコアが非定義フレーズの約70%拒否する場合にペナルティーが適用されることを特徴とする前記(10)に記載の方法。
(20) 話者に依存しない認識システムであって、
話者に依存しない認識モデルのセットと、
登録文法と、
登録文法を用いて前記話者に依存しない認識モデルと共に登録されたユーザが定義したフレーズと、
前記話者に依存しない認識モデルと登録文法を用いて話されたフレーズの登録文法のスコアを決めるために動作可能な認識モジュールと、
登録文法スコアにペナルティーを適用して外れ語彙のスコアを発生するために動作可能な認識モジュール、
を有することを特徴とするシステム。
(21) 更に、話されたフレーズの特徴をユーザが定義したフレーズと比較することによって、話されたフレーズの一致語彙のスコアを決めるために動作可能な認識モジュールと、
前記スコアを比較するために動作可能な前記認識モジュールと、
前記外れ語彙のスコアが一致スコアに近い場合、外れ語彙のフレーズとして話されたフレーズを拒否するために動作可能な前記認識モジュールと、
前記外れ語彙のスコアが一致スコアに近くない場合、一致語彙のフレーズとして話されたフレーズを受入れるために動作可能な前記認識モジュールと、
を有することを特徴とする前記(20)に記載のシステム。
(22) 前記話者に依存しない認識モデルは、更にサブワードユニットを有することを特徴とする前記(20)に記載のシステム。
(23) 本発明は従来システムに関連した問題を実質的に減少、或いは除去する話者に依存しない認識システム及び方法を提供する。ユーザが定義したフレーズの話者に依存しない認識のための外れ語彙のスコアを決定するシステム及び方法が、登録文法(36)を用いて話者に依存しない(SI)認識モデル(34)のセットと共にユーザが定義したフレーズを登録することを含む。話されたフレーズの登録文法のスコアは、登録文法(36)を用いて話されたフレーズの特徴をSI認識モデル(34)と比較することによって、決定される。登録文法のスコアは、外れスコア(94)を発生するためにペナルティーが適用される。
本発明の実施の形態による話者に依存しない認識システムのブロック図を示す。 本発明の1つの実施形態による図1の話者に依存しない認識システムのための登録方法のフロー図を示す。 本発明の1つの実施形態による図1の話者に依存しない認識システムのための認識方法のフロー図を示す。

Claims (14)

  1. ユーザが定義したフレーズの話者に依存しない認識のための外れ語彙のスコアを決定する方法であって、
    登録文法を用いて話者に依存しない認識モデルのセットでユーザが定義したフレーズを登録するステップと、
    登録文法を用いて話されたフレーズの特徴を前記話者に依存しない認識モデルと比較することによって、前記話されたフレーズの登録文法のスコアを決定するステップと、
    前記登録文法のスコアにペナルティーを適用して、外れ語彙のスコアを発生するステップと、
    を有し、
    前記登録文法のスコアにペナルティーを適用して、外れ語彙のスコアを発生するステップは、ペナルティーを前記登録文法のスコアに加えるステップを有することを特徴とする方法。
  2. 外れ語彙の拒否を伴うユーザが定義したフレーズの話者に依存しない認識方法であって、
    話されたフレーズを受信するステップと、
    前記話されたフレーズから特徴を抽出するステップと、
    ユーザが定義したフレーズを受信するステップと、
    抽出された特徴を前記ユーザが定義したフレーズと比較することによって、前記話されたフレーズの一致語彙のスコアを決定するステップと、
    話者に依存しない認識モデルのセットを受信するステップと、
    登録文法を受信するステップと、
    前記登録文法を用いて前記抽出された特徴を前記話者に依存しない認識モデルと比較することによって、前記話されたフレーズの登録文法のスコアを決定するステップと、
    前記登録文法のスコアにペナルティーを適用して、外れ語彙のスコアを発生するステップと、
    もし、前記一致語彙のスコアが前記外れ語彙のスコアより良ければ、一致語彙であるとして認識するために前記話されたフレーズを受け入れるステップと、
    もし、前記外れ語彙のスコアが前記一致語彙のスコアより良ければ、外れ語彙であるとして認識するために前記話されたフレーズを拒否するステップと、
    を有することを特徴とする方法。
  3. 前記登録文法は、音素配列文法であることを特徴とする請求項1または請求項2に記載の方法。
  4. 前記登録文法は、ナル文法であることを特徴とする請求項1または請求項2に記載の方法。
  5. 前記登録文法は、n−グラム文法あることを特徴とする請求項1または請求項2に記載の方法。
  6. 前記話者に依存しない認識モデルは、サブワードユニットを有することを特徴とする請求項1または請求項2に記載の方法。
  7. 前記話者に依存しない認識モデルは、コンテキストに依存する電話モデルを有することを特徴とする請求項1または請求項2に記載の方法。
  8. ユーザが定義したフレーズの話者に依存しない認識のための外れ語彙のスコアを決定する方法であって、
    登録文法を用いて話者に依存しない認識モデルのセットでユーザが定義したフレーズを登録するステップと、
    登録文法を用いて話されたフレーズの特徴を前記話者に依存しない認識モデルと比較することによって、前記話されたフレーズの登録文法のスコアを決定するステップと、
    登録文法のスコアにペナルティーを適用して外れ語彙のスコアを発生するステップ、
    を有し、
    前記登録文法のスコアは、前記外れ語彙のスコアが非定義フレーズの60%と80%の間を拒否する場合に、ペナルティーが適用されることを特徴とする方法。
  9. ユーザが定義したフレーズの話者に依存しない認識のための外れ語彙のスコアを決定する方法であって、
    登録文法を用いて話者に依存しない認識モデルのセットでユーザが定義したフレーズを登録するステップと、
    登録文法を用いて話されたフレーズの特徴を前記話者に依存しない認識モデルと比較することによって、前記話されたフレーズの登録文法のスコアを決定するステップと、
    登録文法のスコアにペナルティーを適用して外れ語彙のスコアを発生するステップと、
    を有し、
    前記外れ語彙のスコアが非定義フレーズのおよそ70%を拒否する場合に、前記登録文法のスコアにペナルティーが適用されることを特徴とする方法。
  10. ユーザが定義したフレーズの話者に依存しない認識方法であって、
    話されたフレーズを受信するステップと、
    前記話されたフレーズから特徴を抽出するステップと、
    ユーザが定義したフレーズを受信するステップと、
    抽出された特徴を前記ユーザが定義したフレーズと比較することによって、前記話されたフレーズの一致語彙のスコアを決定するステップと、
    話者に依存しない認識モデルのセットを受信するステップと、
    登録文法を受信するステップと、
    前記登録文法を用いて前記抽出された特徴を前記話者に依存しない認識モデルと比較することによって、前記話されたフレーズの登録文法のスコアを決定するステップと、
    前記登録文法のスコアにペナルティーを適用して、外れ語彙のスコアを発生するステップと、
    前記スコアを比較するステップと、
    もし、前記外れ語彙のスコアが一致スコアに近ければ、外れ語彙のフレーズとして前記話されたフレーズを拒否するステップと、
    もし、前記外れ語彙のスコアが一致スコアに近くなければ、一致語彙のフレーズとして前記話されたフレーズを受け入れるステップと、
    を有し、
    前記登録文法のスコアにペナルティーを適用するステップは、ペナルティーを前記登録文法のスコアに加えるステップを有することを特徴とする方法。
  11. ユーザが定義したフレーズの話者に依存しない認識方法であって、
    話されたフレーズを受信するステップと、
    前記話されたフレーズから特徴を抽出するステップと、
    ユーザが定義したフレーズを受信するステップと、
    抽出された特徴を前記ユーザが定義したフレーズと比較することによって、前記話されたフレーズの一致語彙のスコアを決定するステップと、
    話者に依存しない認識モデルのセットを受信するステップと、
    登録文法を受信するステップと、
    前記登録文法を用いて前記抽出された特徴を前記話者に依存しない認識モデルと比較することによって、前記話されたフレーズの登録文法のスコアを決定するステップと、
    前記登録文法のスコアにペナルティーを適用して、外れ語彙のスコアを発生するステップと、
    前記スコアを比較するステップと、
    もし、前記外れ語彙が一致スコアに近ければ、外れ語彙のフレーズとして前記話されたフレーズを拒否するステップと、
    もし、前記外れ語彙が一致スコアに近くなければ、一致語彙のフレーズとして前記話されたフレーズを受け入れるステップと、
    を有し、
    前記外れ語彙のスコアが非定義フレーズの60%と80%の間で拒否する場合に、前記登録文法のスコアにペナルティーが適用されることを特徴とする方法。
  12. ユーザが定義したフレーズの話者に依存しない認識方法であって、
    話されたフレーズを受信するステップと、
    前記話されたフレーズから特徴を抽出するステップと、
    ユーザが定義したフレーズを受信するステップと、
    抽出された特徴を前記ユーザが定義したフレーズと比較することによって、前記話されたフレーズの一致語彙のスコアを決定するステップと、
    話者に依存しない認識モデルのセットを受信するステップと、
    登録文法を受信するステップと、
    前記登録文法を用いて前記抽出された特徴を前記話者に依存しない認識モデルと比較することによって、前記話されたフレーズの登録文法のスコアを決定するステップと、
    前記登録文法のスコアにペナルティーを適用して、外れ語彙のスコアを発生するステップと、
    前記スコアを比較するステップと、
    もし、前記外れ語彙が一致スコアに近ければ、外れ語彙のフレーズとして前記話されたフレーズを拒否するステップと、
    もし、前記外れ語彙が一致スコアに近くなければ、一致語彙のフレーズとして前記話されたフレーズを受け入れるステップと、
    を有し、
    前記外れ語彙のスコアが非定義フレーズのおよそ70%を拒否する場合に、前記登録文法のスコアにペナルティーが適用されることを特徴とする方法。
  13. 話者に依存しない認識システムであって、
    話者に依存しない認識モデルのセットと、
    登録文法と、
    登録文法を用いて、前記話者に依存しない認識モデルと共に登録されたユーザが定義したフレーズと、
    前記話者に依存しない認識モデルと前記登録文法を用いて、話されたフレーズの登録文法のスコアを決定するために動作可能な認識モジュールと、
    を有し、
    前記認識モジュールは、前記登録文法のスコアにペナルティーを適用して、外れ語彙を発生するように動作可能であり、
    前記認識モジュールは、前記話されたフレーズの特徴を前記ユーザが定義したフレーズと比較することによって、前記話されたフレーズの一致語彙のスコアを決定するように動作可能であり、
    前記認識モジュールは、前記スコアを比較するために動作可能であり、
    前記認識モジュールは、もし、外れ語彙のスコアが一致スコアに近いならば、外れ語彙のフレーズとして前記話されたフレーズを拒否するように動作可能であり、
    前記認識モジュールは、もし、外れ語彙のスコアが一致スコアに近くないならば、一致語彙のフレーズとして前記話されたフレーズを受け入れるように動作可能であることを特徴とする認識システム。
  14. 前記話者に依存しない認識モデルは、更に、サブワードユニットを有することを特徴とする請求項13に記載の認識システム。
JP2007124314A 1997-01-02 2007-05-09 ユーザが定義したフレーズの話者に依存しない認識方法及びシステム Pending JP2007233412A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US3447797P 1997-01-02 1997-01-02

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP10000477A Division JPH10198396A (ja) 1997-01-02 1998-01-05 ユーザが定義したフレーズの話者に依存しない認識方法及びシステム

Publications (1)

Publication Number Publication Date
JP2007233412A true JP2007233412A (ja) 2007-09-13

Family

ID=21876675

Family Applications (2)

Application Number Title Priority Date Filing Date
JP10000477A Withdrawn JPH10198396A (ja) 1997-01-02 1998-01-05 ユーザが定義したフレーズの話者に依存しない認識方法及びシステム
JP2007124314A Pending JP2007233412A (ja) 1997-01-02 2007-05-09 ユーザが定義したフレーズの話者に依存しない認識方法及びシステム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP10000477A Withdrawn JPH10198396A (ja) 1997-01-02 1998-01-05 ユーザが定義したフレーズの話者に依存しない認識方法及びシステム

Country Status (4)

Country Link
US (1) US6058363A (ja)
EP (1) EP0852374A3 (ja)
JP (2) JPH10198396A (ja)
KR (1) KR19980070329A (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6567778B1 (en) * 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech
US6275801B1 (en) * 1998-11-03 2001-08-14 International Business Machines Corporation Non-leaf node penalty score assignment system and method for improving acoustic fast match speed in large vocabulary systems
US7082397B2 (en) 1998-12-01 2006-07-25 Nuance Communications, Inc. System for and method of creating and browsing a voice web
US6570964B1 (en) 1999-04-16 2003-05-27 Nuance Communications Technique for recognizing telephone numbers and other spoken information embedded in voice messages stored in a voice messaging system
US7058573B1 (en) 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
EP1215654B1 (en) * 2000-12-13 2006-05-24 Sony Deutschland GmbH Method for recognizing speech
FR2820872B1 (fr) * 2001-02-13 2003-05-16 Thomson Multimedia Sa Procede, module, dispositif et serveur de reconnaissance vocale
US7966187B1 (en) 2001-02-15 2011-06-21 West Corporation Script compliance and quality assurance using speech recognition
US8180643B1 (en) 2001-02-15 2012-05-15 West Corporation Script compliance using speech recognition and compilation and transmission of voice and text records to clients
US7191133B1 (en) 2001-02-15 2007-03-13 West Corporation Script compliance using speech recognition
US7739115B1 (en) 2001-02-15 2010-06-15 West Corporation Script compliance and agent feedback
US7664641B1 (en) 2001-02-15 2010-02-16 West Corporation Script compliance and quality assurance based on speech recognition and duration of interaction
US6952674B2 (en) * 2002-01-07 2005-10-04 Intel Corporation Selecting an acoustic model in a speech recognition system
US7403967B1 (en) 2002-06-18 2008-07-22 West Corporation Methods, apparatus, and computer readable media for confirmation and verification of shipping address data associated with a transaction
US7711560B2 (en) * 2003-02-19 2010-05-04 Panasonic Corporation Speech recognition device and speech recognition method
US6930759B2 (en) * 2003-09-23 2005-08-16 Eastman Kodak Company Method and apparatus for exposing a latent watermark on film
US8924212B1 (en) * 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US20070226164A1 (en) * 2006-03-21 2007-09-27 Honeywell International Inc. Type variables and/or temporal constraints in plan recognition
US8108205B2 (en) * 2006-12-01 2012-01-31 Microsoft Corporation Leveraging back-off grammars for authoring context-free grammars
US8731925B2 (en) * 2006-12-22 2014-05-20 Nuance Communications, Inc. Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack
US20080273672A1 (en) * 2007-05-03 2008-11-06 Microsoft Corporation Automated attendant grammar tuning
US7978853B2 (en) * 2008-01-31 2011-07-12 International Business Machines Corporation System and computer program product for protecting audio content
US7974411B2 (en) * 2008-01-31 2011-07-05 International Business Machines Corporation Method for protecting audio content
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
CN103229233B (zh) * 2010-12-10 2015-11-25 松下电器(美国)知识产权公司 用于识别说话人的建模设备和方法、以及说话人识别系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0562138A1 (en) * 1992-03-25 1993-09-29 International Business Machines Corporation Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary
US5732187A (en) * 1993-09-27 1998-03-24 Texas Instruments Incorporated Speaker-dependent speech recognition using speaker independent models
US5699456A (en) * 1994-01-21 1997-12-16 Lucent Technologies Inc. Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
US5710864A (en) * 1994-12-29 1998-01-20 Lucent Technologies Inc. Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech

Also Published As

Publication number Publication date
US6058363A (en) 2000-05-02
EP0852374A3 (en) 1998-11-18
JPH10198396A (ja) 1998-07-31
EP0852374A2 (en) 1998-07-08
KR19980070329A (ko) 1998-10-26

Similar Documents

Publication Publication Date Title
JP2007233412A (ja) ユーザが定義したフレーズの話者に依存しない認識方法及びシステム
US5913192A (en) Speaker identification with user-selected password phrases
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
KR100383353B1 (ko) 음성인식장치및음성인식장치용어휘발생방법
US6243680B1 (en) Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US7392189B2 (en) System for speech recognition with multi-part recognition
US5983177A (en) Method and apparatus for obtaining transcriptions from multiple training utterances
US7630878B2 (en) Speech recognition with language-dependent model vectors
US8050925B2 (en) Recognizing the numeric language in natural spoken dialogue
US7415411B2 (en) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US5732187A (en) Speaker-dependent speech recognition using speaker independent models
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US20060020461A1 (en) Speech processing apparatus, speech processing method, program, and recording medium
EP0769184B1 (en) Speech recognition methods and apparatus on the basis of the modelling of new words
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
JPH0394299A (ja) 音声認識方法と音声認識装置訓練方法
JPH06214587A (ja) 事前指定ワードスポッティングサブシステム及び事前ワードスポッティング方法
JP3803029B2 (ja) 音声認識装置
EP1734509A1 (en) Method and system for speech recognition
JP2004053742A (ja) 音声認識装置
JP2003150194A (ja) 音声対話装置および音声対話装置における入力音声最適化方法ならびに音声対話装置における入力音声最適化処理プログラム
EP1213706B1 (en) Method for online adaptation of pronunciation dictionaries
Lee et al. Cantonese syllable recognition using neural networks
EP1418570A1 (en) Cross-lingual speech recognition method
US5765124A (en) Time-varying feature space preprocessing procedure for telephone based speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070509

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090105

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090402

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090407

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090427

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090501

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090604

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090609

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090706

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090806