JP2007233412A

JP2007233412A - ユーザが定義したフレーズの話者に依存しない認識方法及びシステム

Info

Publication number: JP2007233412A
Application number: JP2007124314A
Authority: JP
Inventors: Coimbatore S Ramalingam; エスラマリンガムコインバトーア
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1997-01-02
Filing date: 2007-05-09
Publication date: 2007-09-13
Also published as: US6058363A; EP0852374A3; JPH10198396A; EP0852374A2; KR19980070329A

Abstract

【課題】本発明は従来システムに関連した問題を実質的に減少、或いは除去する話者に依存しない認識システム及び方法を提供する。
【解決手段】ユーザが定義したフレーズの話者に依存しない認識のための外れ語彙のスコアを決定するシステム及び方法が、登録文法（３６）を用いて話者に依存しない（ＳＩ）認識モデル（３４）のセットと共にユーザが定義したフレーズを登録することを含む。話されたフレーズの登録文法のスコアは、登録文法（３６）を用いて話されたフレーズの特徴をＳＩ認識モデル（３４）と比較することによって、決定される。登録文法のスコアは、外れスコア（９４）を発生するためにペナルティーが適用される。
【選択図】図１

Description

本発明は、一般にスピーチ処理の分野に関し、特にユーザが定義したフレーズの話者（スピーカー）に依存しない認識方法及びシステムに関する。

音声を基にしたスピードダイヤリングのような音声で作動するユーザの注文可能なアプリケーションに対する要求が急速に増大している。認識のために用いられるテンプレートは話者の発生から抽出された音響モデルである。代表的には、話者に依存したテンプレートは、ユーザの定義したフレーズが外れ語彙(out-of-vocabulary:「未知語」を意味する)の拒否を与えるために記録される“ガーベージ”モデルを用いる。話者に依存した（話者独立の）テンプレートは、それらは一般に加えられる各フレーズやユーザに対応して増大する大きなメモリ量を必要にすると言う点で問題である。
話者に依存しないテンプレートは固定した音響モデルを利用し、ユーザが定義したフレーズに対する記憶装置の数百バイトのみを必要とする。その結果、話者に依存しないテンプレートは非常に多くのユーザを収容することができ、ユーザの定義したフレーズはメモリ容量を殆ど増加しない。しかし、話者に依存しないテンプレートの問題は、ガーベージモデルが話者に依存しない環境においてうまく機能しないことである。これは、不十分な外れ語彙の拒否を生じ、間違い電話番号をダイヤルするような費用のかかる誤りを導く。

従って、優れた外れ語彙の拒否能力のある改善された話者に依存しない認識システムの必要性がある。本発明は、従来のシステムに関連した問題を実質的に減少、或いは除去する話者に依存しない認識システム及び方法を提供する。

本発明によると、ユーザが定義したフレーズの話者に依存しない認識のための外れ語彙のスコア(score)が、登録文法(enrollment grammar)を用いて話者に依存しない(speaker-independent: SI)認識モデルのセットを有するユーザが定義したフレーズを先ず登録することによって決定される。次に、話されたフレーズの登録文法のスコアが登録文法を用いてＳＩ認識モデルと話されたフレーズの特徴を比較することによって決定される。登録文法のスコアは、外れ語彙のスコアを発生するために、ペナルティーが適用されることができる。

特に、本発明の一つの実施形態によれば、登録文法は音素配列の文法であり、ＳＩ認識モデルはサブワードユニットを含むことができる。外れ語彙のスコアが非定義フレーズの６０％と８０％の間で拒否する場合に、登録文法のスコアはそれにペナルティーを加えることによってペナルティーが適用される。特定の実施形態においては、登録スコアは、外れ語彙のスコアが非定義フレーズの約７０％拒否する場合に、ペナルティーが適用される。

本発明の技術的利点は、外れ語彙の拒否を実質的に改善する、話者に依存しない認識システム及び方法を提供することを含む。特に、話されたフレーズは、ユーザが定義したフレーズに加えて、ペナルティが適用された登録文法のスコアに対してスコアされる。

ペナルティが適用された登録文法スコアがユーザが定義したフレーズより良く一致する場合、話されたフレーズは外れ語彙（未知語）として拒否される。逆に、話されたフレーズは、それがペナルティーが適用された登録文法のスコアよりユーザが定義したフレーズに良く一致する場合、一致語彙(in-vocabulary：「登録語」を意味する。)として受け入れられる。従って、外れ語彙を一致語彙として認識すること、および間違い番号をダイヤルするような関連した誤は、軽減される。

本発明の他の技術的利点は、話者に依存しない認識システムのある要素（コンポーネント）を用いて、外れ語彙の拒否システム及び方法を提供することである。特に、登録システムの要素は外れ語彙のスコアを決定するために用いられることができる。従って、追加の認識モデルを設ける必要がない。

本発明の更に他の技術的利点は、所謂当業者には以下の詳細な説明と図面、及び特許請求の範囲から明らかであろう。

本発明の好適な実施の形態およびその利点は、同じ番号は同じ部分を表している図１〜図３を詳細に参照することによって良く理解されるであろう。図１〜図３は、ユーザが定義したフレーズの話者に依存しない認識方法及びシステムを示す。以下により詳細に述べるように、この方法及びシステムは、外れ語彙の拒否のため、ユーザが定義したフレーズに対してスコアされるペナルティーが適用された登録文法のスコアを用いる。従って、話者に依存しない認識システム及び方法は外れ語彙の拒否を実質的に改善する。

図１は、本発明の１つの実施の形態による話者に依存しない認識システム１０のブロック図を示す。話者に依存しない認識システム１０は、入力／出力装置１２、マイクロプロセッサ１４およびメモリ１６を有する。この入力／出力装置１２は電話回路網（図示せず）に接続され、スピードダイヤルのような音声作動サービスを提供する。この実施の形態において、入力／出力装置１２は、アナログ入力信号を変換するためのアナログ−ディジタルコンバータ１８、及びディジタル出力信号を変換するためのディジタル−アナログコンバータ２０を含む。入力／出力装置１２は、スピーチ信号を送信し及び／又は処理することができる他のネットワーク又はシステムに接続されることができる。

本発明は、メモリ１６にロードされ、マイクロプロセッサ１４によって実行されるコンピュータソフトウェアを含む。このコンピュータソフトウェアは、モジュール及びメモリ１６における同様な装置によって一般に識別される。その他に、コンピュータソフトウェアは、本発明の範囲内で処理するために結合及び／又は分割されることができることが理解されるであろう。従って、モジュール及び他のソフトウェアシステムのラベルは図示のためであり、本発明の範囲内で変更することができる。コンピュータソフトウェアはディスク記憶装置（図示せず）からメモリ１６にロードされる。ディスク記憶装置は、いろいろな型式の記憶媒体、例えばフロッピー（登録商標）ディスク駆動装置、ハードディスク駆動装置、ＣＤ−ＲＯＭ駆動装置或いは磁気テープ駆動装置を含むことができる。

メモリ１６は、特徴抽出モジュール３０、認識モジュール３２、話者に依存しない（ＳＩ）認識モデル３４のセット、登録文法３６、及びユーザが定義したフレーズ３８を含むことができる。モジュール３０、３２、モデル３４、文法３６、及びユーザが定義したフレーズ３８は、読者の便宜のために単一のメモリ１６に示されている。メモリ１６は、ＲＡＭ、ＲＯＭ、ディスク記憶装置等の１つ以上のメモリ装置を有してよい。

特徴抽出モジュール３０は、入力／出力装置１２を介して受信した話されたフレーズから特徴を抽出する。代表的には、特徴は話されたフレーズの信号スペクトラムから得られる。１つの実施の形態において、スペクトラムは線形予測符号化(linear predictive coding: LPC)法を用いて算出される。話されたフレーズの特徴は本発明の範囲内で他の方法を用いて抽出されてもよい。

以下に、より詳細に述べるように、登録中に認識モジュール３２はＳＩモデル３４と登録文法３６と協同して動作し、ユーザが定義したフレーズ３８に対する一連のＳＩ認識モデルを出力する。更に、登録を使用しない間、認識モジュール３２の出力は、ペナルティーが適用され、外れ語彙の拒否に対してユーザが定義したフレーズと比較される登録文法のスコアを与える。

ＳＩ認識モデル３４は、あらゆる特別な語彙と無関係なサブワードユニットである。１つの実施の形態において、ＳＩ認識モデル３４は、コンテキストに依存する電話モデルであってもよい。この実施の形態において、一般にモデルは、各電話モデルが良くトレイニングされるように非常に大きな数の話者や語彙からの入力スピーチでトレイニングされる。ＳＩ認識モデル３４の他の型式が本発明の範囲内で用いられることは理解されるであろう。

登録文法３６は、モデルの音響シーケンスの許されたシーケンスを特定する。簡単な実施の形態において、登録文法３６は“ナル(null)”文法であってよい。この実施の形態において、文法はモデルの全ての数があらゆる順番に生じるようにすることができる。他の実施の形態において、登録文法は“ｎグラム(n-gram)”文法であることができる。この文法は長さｎの許されたシーケンスを特定することができる。また、登録文法３６は、音素配列文法であってもよい。音素配列文法は、例えば可能なシラブル或いは部分シラブルのような言語における可能な音のシーケンスによる許されたシーケンスを特定する。従って、登録文法３６はＳＩ認識モデル３４上の制約として作用する。他の登録文法３６を本発明の範囲内で用いることができることが理解されるであろう。

図２は本発明の１つの実施の形態による話者に依存しない認識システム１０のための登録方法を示す。この方法は、フレーズが話者に依存しない認識システム１０へ登録のために受信された場合にステップ５０において開始する。前に述べたように、フレーズは入力／出力装置１２を介して受信され、アナログ−ディジタルコンバータ１８によってディジタル化される。登録フレーズはあらゆる音または音のシーケンスを含むことができる。

ステップ５２に進んで、特徴抽出モジュール３０は登録フレーズから特徴を抽出する。１つの実施の形態において、特徴抽出モジュール３０は、登録フレーズの各フレームから線形予測符号化（ＬＰＣ）パラメータを用いて、スペクトラムの特徴を抽出する。他の特徴抽出技術を本発明の範囲内でステップ５２において用いることができることが理解されるであろう。

ステップ５４において、認識モジュール３２はＳＩ認識モデル３４を受信する。前述のように、ＳＩ認識モデル３４はあらゆる特別な語彙と無関係なサブワードユニットを有する。特定の実施の形態において、ＳＩ認識モデル３４は、非常に多くの話者や語彙から入力スピーチでトレイニングされるコンテキストに依存する電話モデルを含むことができる。

ステップ５６に進んで、認識モジュール３２は登録文法３６を受信する。前述のように、登録文法は音素配列文法、ｎ−グラム文法、或いはナル文法を含むことができる。登録文法は本発明の範囲内で他の型式の文法を含むことができる。

ステップ５８において、認識モジュール３２は、抽出された特徴に極めて一致するＳＩ認識モデルのシーケンスを決定する。これは登録文法３６を用いて抽出された特徴をＳＩ認識モデル３４と比較することによって行われる。次に、ステップ６０において、認識モジュール３２は、登録フレーズ用のユーザが定義したフレーズ３８としてＳＩ認識モデルのシーケンスを記憶する。登録フレーズ用のユーザが定義したフレーズ３８のために記憶されたＳＩ認識モデルのシーケンスはＳＩ認識モデルと関連する一連のシンボルを含む。ステップ６０はプロセスの終わりへ導く。

図３は本発明の１つの実施形態による話者に依存しない認識システムの非登録使用の認識方法を示す。この方法は、話されたフレーズが受信された場合にステップ８０において開始する。登録フレーズに関して前述したように、話されたフレーズはあらゆる音或いは音のシーケンスを含み、入力／出力装置１２を介して受信される。入力／出力装置１２において、話されたフレーズは、アナログ−ディジタルコンバータ１８によってディジタルフォーマットに変換される。

ステップ８２へ進んで、特徴抽出モジュール３０は話されたフレーズから特徴を抽出する。前述のように、抽出された特徴は線形予測符号化（ＬＰＣ）パラメータに基づくスペクトラムの特徴を含む。ステップ８４において、認識モジュール３２はユーザが定義したフレーズ３８を受信することができる。ステップ８６に進んで、認識モジュール３２は、各ユーザが定義したフレーズ３８を抽出した特徴と比較することによって話されたフレーズのために一致語彙のスコアを決定する。このスコアはユーザが定義したフレーズと抽出した特徴間の相違であることができる。

次に、ステップ８８において、認識モジュール３２はＳＩ認識モデル３４を受信する。ステップ９０において、認識モジュール３２は登録文法３６を受信する。ＳＩ認識モデル３４と登録文法３６は図１と図２に関連して前に述べられた。

ステップ９２へ進んで、認識モジュール３２は、登録文法３６を用いてＳＩ認識モデル３４を抽出された特徴と比較することによって、話されたフレーズ用の登録文法のスコアを決定する。登録文法のスコアは、文法によって許されたＳＩ認識モデルと抽出された特徴間の相違である。

ステップ９４において、認識モジュール３２は登録文法のスコアにペナルティーを適用して外れ語彙のスコアを発生する。１つの実施形態において、認識モジュール３２はペナルティーをスコアに加えることによって登録文法スコアにペナルティーを適用する。１つの実施の形態において、登録文法のスコアは、外れ語彙のスコアが定義のないフレーズの６０％と８０％の間で拒否する場合にペナルティーが適用される。特別の実施の形態において、登録文法のスコアは、外れ語彙のスコアが非定義フレーズの約７０％を拒否する場合にペナルティーが適応される。ペナルティーは本発明の範囲内で変えることができ、また他の方法で決定されることが理解されるであろう。

ステップ９６において、スコアは認識モジュール３２によって比較される。次に、決定ステップ９８において、認識モジュール３２は、外れ語彙のスコアが話されたフレーズに極めて一致しているか否かを決定する。もし、外れ語彙が話されたフレーズに一致するのに最も近いならば、決定ステップ９８のＹＥＳブランチは話されたフレーズが外れ語彙として拒否されるステップ１００へ導く。この場合、話者に依存しない認識システム１０は話者に再認識のためにフレーズを繰り返すように要求することができる。

決定ステップ９８に戻って、もし、外れ語彙のスコアが話されたフレーズに極めて一致していないなら、決定ステップ９８のＮＯブランチがステップ１０２へ導く。ステップ１０２において、認識モジュール３２は話されたフレーズを一致語彙フレーズとして受け入れる。従って、フレーズは認識され、実行される。ステップ１００とステップ１０２はプロセスの終了へ導く。

前述に従って、本発明の話者に依存しない認識システム及び方法は外れ語彙の拒否を実質的に改善する。特に、話されたフレーズは、ユーザが定義したフレーズに加えてペナルティが適用された登録文法のスコアに対してスコアされる。ペナルティが適用された登録文法のスコアがユーザが定義したフレーズより優れた一致を与える場合、話されたフレーズは外れ語彙として拒否される。逆に、話されたフレーズは、それがペナルティーが適用された登録文法のスコアよりユーザが定義したフレーズと良く一致する場合、一致語彙として受け入れられる。

本発明は幾つかの実施の形態について述べられたが、いろいろな変更および変形が当業者に示唆される。本発明は、特許請求の範囲内に入る変更および変形を含むことが意図される。

以上の記載に関連して、以下の項が開示される。
（１）ユーザが定義したフレーズの話者に依存しない認識のための外れ語彙のスコアを決定する方法であって、
登録文法を用いて話者に依存しない認識モデルのセットでユーザが定義したフレーズを登録するステップと、
登録文法を用いて話されたフレーズの特徴を話者に依存しない認識モデルと比較することによって、話されたフレーズの登録文法のスコアを決定するステップと、
登録文法にペナルティーを適用して外れ語彙のスコアを発生するステップ、
を有することを特徴とする方法。

（２）前記登録文法のスコアにペナルティーを適用するステップは、ペナルティーを登録文法のスコアに加えるステップを有することを特徴とする前記（１）に記載の方法。

（３）前記登録文法は、音素配列文法であることを特徴とする前記（１）に記載の方法。

（４）前記登録文法は、ナル文法であることを特徴とする前記（１）に記載の方法。

（５）前記登録文法は、ｎ−グラム文法であることを特徴とする前記（１）に記載の方法。

（６）前記話者に依存しない認識モデルは、サブワードユニットを有することを特徴とする前記（１）に記載の方法。

（７）前記話者に依存しない認識モデルは、コンテキストに依存する電話モデルを有することを特徴とする前記（１）に記載の方法。

（８）前記登録文法のスコアは、外れ語彙のスコアが非定義フレーズの６０％と８０％の間で拒否する場合にペナルティーが適用されることを特徴とする前記（１）に記載の方法。

（９）前記登録文法のスコアは、外れ語彙のスコアの文法が非定義フレーズの約７０％をする場合にペナルティーが適用されることを特徴とする前記（１）に記載の方法。

(10) ユーザが定義したフレーズの話者に依存しない認識方法であって、
話されたフレーズを受信するステップと、
話されたフレーズから特徴を抽出するステップと、
ユーザが定義したフレーズを受信するステップと、
抽出された特徴をユーザが前記定義したフレーズと比較することによって、話されたフレーズの一致語彙のスコアを決定するステップと、
話者に依存しない認識モデルのセットを受信するステップと、
登録文法を用いて抽出された特徴を話者に依存しない認識モデルと比較することによって、話されたフレーズの登録文法のスコアを決定するステップと、
前記登録文法のスコアにペナルティーを適用して、外れ語彙のスコアを発生するステップと、
スコアを比較して、もし、外れ語彙のスコアが一致スコアに近いならば、話されたフレーズを外れ語彙のフレーズとして拒否し、もし、外れ語彙が一致スコアに近くないならば、話されたフレーズを一致フレーズとして受入れるステップ、を有することを特徴とする方法。

(11) 前記登録文法のスコアにペナルティを適用するステップは、ペナルティーを登録文法のスコアに加えるステップを有することを特徴とする前記（１０）に記載の方法。

(12) 前記登録文法は、音素配列文法であることを特徴とする前記（１０）に記載の方法。

(13) 前記文法は、ナル文法であることを特徴とする前記（１０）に記載の方法。

(14) 前記文法は、ｎグラム文法であることを特徴とする前記（１０）に記載の方法。

(15) 前記話者に依存しない認識モデルは、サブワードユニットを含むことを特徴とする前記（１０）に記載の方法。

(16) 前記話者に依存しない認識モデルは、コンテキストに依存する電話モデルを含むことを特徴とする前記（１０）に記載の方法。

(17) 抽出された特徴は、線形予測符号化の特徴であることを特徴とする前記（１０）に記載の方法。

(18) 登録文法スコアは、外れ語彙のスコアが非定義フレーズの６０％と８０％の間で拒否する場合にペナルティーが適用されることを特徴とする前記（１０）に記載の方法。

(19) 登録文法のスコアは、外れ語彙のスコアが非定義フレーズの約７０％拒否する場合にペナルティーが適用されることを特徴とする前記（１０）に記載の方法。

(20) 話者に依存しない認識システムであって、
話者に依存しない認識モデルのセットと、
登録文法と、
登録文法を用いて前記話者に依存しない認識モデルと共に登録されたユーザが定義したフレーズと、
前記話者に依存しない認識モデルと登録文法を用いて話されたフレーズの登録文法のスコアを決めるために動作可能な認識モジュールと、
登録文法スコアにペナルティーを適用して外れ語彙のスコアを発生するために動作可能な認識モジュール、
を有することを特徴とするシステム。

(21) 更に、話されたフレーズの特徴をユーザが定義したフレーズと比較することによって、話されたフレーズの一致語彙のスコアを決めるために動作可能な認識モジュールと、
前記スコアを比較するために動作可能な前記認識モジュールと、
前記外れ語彙のスコアが一致スコアに近い場合、外れ語彙のフレーズとして話されたフレーズを拒否するために動作可能な前記認識モジュールと、
前記外れ語彙のスコアが一致スコアに近くない場合、一致語彙のフレーズとして話されたフレーズを受入れるために動作可能な前記認識モジュールと、
を有することを特徴とする前記（２０）に記載のシステム。

(22) 前記話者に依存しない認識モデルは、更にサブワードユニットを有することを特徴とする前記（２０）に記載のシステム。

(23) 本発明は従来システムに関連した問題を実質的に減少、或いは除去する話者に依存しない認識システム及び方法を提供する。ユーザが定義したフレーズの話者に依存しない認識のための外れ語彙のスコアを決定するシステム及び方法が、登録文法（３６）を用いて話者に依存しない（ＳＩ）認識モデル（３４）のセットと共にユーザが定義したフレーズを登録することを含む。話されたフレーズの登録文法のスコアは、登録文法（３６）を用いて話されたフレーズの特徴をＳＩ認識モデル（３４）と比較することによって、決定される。登録文法のスコアは、外れスコア（９４）を発生するためにペナルティーが適用される。

本発明の実施の形態による話者に依存しない認識システムのブロック図を示す。本発明の１つの実施形態による図１の話者に依存しない認識システムのための登録方法のフロー図を示す。本発明の１つの実施形態による図１の話者に依存しない認識システムのための認識方法のフロー図を示す。

Claims

ユーザが定義したフレーズの話者に依存しない認識のための外れ語彙のスコアを決定する方法であって、
登録文法を用いて話者に依存しない認識モデルのセットでユーザが定義したフレーズを登録するステップと、
登録文法を用いて話されたフレーズの特徴を前記話者に依存しない認識モデルと比較することによって、前記話されたフレーズの登録文法のスコアを決定するステップと、
前記登録文法のスコアにペナルティーを適用して、外れ語彙のスコアを発生するステップと、
を有し、
前記登録文法のスコアにペナルティーを適用して、外れ語彙のスコアを発生するステップは、ペナルティーを前記登録文法のスコアに加えるステップを有することを特徴とする方法。
外れ語彙の拒否を伴うユーザが定義したフレーズの話者に依存しない認識方法であって、
話されたフレーズを受信するステップと、
前記話されたフレーズから特徴を抽出するステップと、
ユーザが定義したフレーズを受信するステップと、
抽出された特徴を前記ユーザが定義したフレーズと比較することによって、前記話されたフレーズの一致語彙のスコアを決定するステップと、
話者に依存しない認識モデルのセットを受信するステップと、
登録文法を受信するステップと、
前記登録文法を用いて前記抽出された特徴を前記話者に依存しない認識モデルと比較することによって、前記話されたフレーズの登録文法のスコアを決定するステップと、
前記登録文法のスコアにペナルティーを適用して、外れ語彙のスコアを発生するステップと、
もし、前記一致語彙のスコアが前記外れ語彙のスコアより良ければ、一致語彙であるとして認識するために前記話されたフレーズを受け入れるステップと、
もし、前記外れ語彙のスコアが前記一致語彙のスコアより良ければ、外れ語彙であるとして認識するために前記話されたフレーズを拒否するステップと、
を有することを特徴とする方法。
前記登録文法は、音素配列文法であることを特徴とする請求項１または請求項２に記載の方法。
前記登録文法は、ナル文法であることを特徴とする請求項１または請求項２に記載の方法。
前記登録文法は、ｎ−グラム文法あることを特徴とする請求項１または請求項２に記載の方法。
前記話者に依存しない認識モデルは、サブワードユニットを有することを特徴とする請求項１または請求項２に記載の方法。
前記話者に依存しない認識モデルは、コンテキストに依存する電話モデルを有することを特徴とする請求項１または請求項２に記載の方法。
ユーザが定義したフレーズの話者に依存しない認識のための外れ語彙のスコアを決定する方法であって、
登録文法を用いて話者に依存しない認識モデルのセットでユーザが定義したフレーズを登録するステップと、
登録文法を用いて話されたフレーズの特徴を前記話者に依存しない認識モデルと比較することによって、前記話されたフレーズの登録文法のスコアを決定するステップと、
登録文法のスコアにペナルティーを適用して外れ語彙のスコアを発生するステップ、
を有し、
前記登録文法のスコアは、前記外れ語彙のスコアが非定義フレーズの６０％と８０％の間を拒否する場合に、ペナルティーが適用されることを特徴とする方法。
ユーザが定義したフレーズの話者に依存しない認識のための外れ語彙のスコアを決定する方法であって、
登録文法を用いて話者に依存しない認識モデルのセットでユーザが定義したフレーズを登録するステップと、
登録文法を用いて話されたフレーズの特徴を前記話者に依存しない認識モデルと比較することによって、前記話されたフレーズの登録文法のスコアを決定するステップと、
登録文法のスコアにペナルティーを適用して外れ語彙のスコアを発生するステップと、
を有し、
前記外れ語彙のスコアが非定義フレーズのおよそ７０％を拒否する場合に、前記登録文法のスコアにペナルティーが適用されることを特徴とする方法。
ユーザが定義したフレーズの話者に依存しない認識方法であって、
話されたフレーズを受信するステップと、
前記話されたフレーズから特徴を抽出するステップと、
ユーザが定義したフレーズを受信するステップと、
抽出された特徴を前記ユーザが定義したフレーズと比較することによって、前記話されたフレーズの一致語彙のスコアを決定するステップと、
話者に依存しない認識モデルのセットを受信するステップと、
登録文法を受信するステップと、
前記登録文法を用いて前記抽出された特徴を前記話者に依存しない認識モデルと比較することによって、前記話されたフレーズの登録文法のスコアを決定するステップと、
前記登録文法のスコアにペナルティーを適用して、外れ語彙のスコアを発生するステップと、
前記スコアを比較するステップと、
もし、前記外れ語彙のスコアが一致スコアに近ければ、外れ語彙のフレーズとして前記話されたフレーズを拒否するステップと、
もし、前記外れ語彙のスコアが一致スコアに近くなければ、一致語彙のフレーズとして前記話されたフレーズを受け入れるステップと、
を有し、
前記登録文法のスコアにペナルティーを適用するステップは、ペナルティーを前記登録文法のスコアに加えるステップを有することを特徴とする方法。
ユーザが定義したフレーズの話者に依存しない認識方法であって、
話されたフレーズを受信するステップと、
前記話されたフレーズから特徴を抽出するステップと、
ユーザが定義したフレーズを受信するステップと、
抽出された特徴を前記ユーザが定義したフレーズと比較することによって、前記話されたフレーズの一致語彙のスコアを決定するステップと、
話者に依存しない認識モデルのセットを受信するステップと、
登録文法を受信するステップと、
前記登録文法を用いて前記抽出された特徴を前記話者に依存しない認識モデルと比較することによって、前記話されたフレーズの登録文法のスコアを決定するステップと、
前記登録文法のスコアにペナルティーを適用して、外れ語彙のスコアを発生するステップと、
前記スコアを比較するステップと、
もし、前記外れ語彙が一致スコアに近ければ、外れ語彙のフレーズとして前記話されたフレーズを拒否するステップと、
もし、前記外れ語彙が一致スコアに近くなければ、一致語彙のフレーズとして前記話されたフレーズを受け入れるステップと、
を有し、
前記外れ語彙のスコアが非定義フレーズの６０％と８０％の間で拒否する場合に、前記登録文法のスコアにペナルティーが適用されることを特徴とする方法。
ユーザが定義したフレーズの話者に依存しない認識方法であって、
話されたフレーズを受信するステップと、
前記話されたフレーズから特徴を抽出するステップと、
ユーザが定義したフレーズを受信するステップと、
抽出された特徴を前記ユーザが定義したフレーズと比較することによって、前記話されたフレーズの一致語彙のスコアを決定するステップと、
話者に依存しない認識モデルのセットを受信するステップと、
登録文法を受信するステップと、
前記登録文法を用いて前記抽出された特徴を前記話者に依存しない認識モデルと比較することによって、前記話されたフレーズの登録文法のスコアを決定するステップと、
前記登録文法のスコアにペナルティーを適用して、外れ語彙のスコアを発生するステップと、
前記スコアを比較するステップと、
もし、前記外れ語彙が一致スコアに近ければ、外れ語彙のフレーズとして前記話されたフレーズを拒否するステップと、
もし、前記外れ語彙が一致スコアに近くなければ、一致語彙のフレーズとして前記話されたフレーズを受け入れるステップと、
を有し、
前記外れ語彙のスコアが非定義フレーズのおよそ７０％を拒否する場合に、前記登録文法のスコアにペナルティーが適用されることを特徴とする方法。
話者に依存しない認識システムであって、
話者に依存しない認識モデルのセットと、
登録文法と、
登録文法を用いて、前記話者に依存しない認識モデルと共に登録されたユーザが定義したフレーズと、
前記話者に依存しない認識モデルと前記登録文法を用いて、話されたフレーズの登録文法のスコアを決定するために動作可能な認識モジュールと、
を有し、
前記認識モジュールは、前記登録文法のスコアにペナルティーを適用して、外れ語彙を発生するように動作可能であり、
前記認識モジュールは、前記話されたフレーズの特徴を前記ユーザが定義したフレーズと比較することによって、前記話されたフレーズの一致語彙のスコアを決定するように動作可能であり、
前記認識モジュールは、前記スコアを比較するために動作可能であり、
前記認識モジュールは、もし、外れ語彙のスコアが一致スコアに近いならば、外れ語彙のフレーズとして前記話されたフレーズを拒否するように動作可能であり、
前記認識モジュールは、もし、外れ語彙のスコアが一致スコアに近くないならば、一致語彙のフレーズとして前記話されたフレーズを受け入れるように動作可能であることを特徴とする認識システム。
前記話者に依存しない認識モデルは、更に、サブワードユニットを有することを特徴とする請求項１３に記載の認識システム。