JPH10198396A

JPH10198396A - ユーザが定義したフレーズの話者に依存しない認識方法及びシステム

Info

Publication number: JPH10198396A
Application number: JP10000477A
Authority: JP
Inventors: Coimbatore S Ramalingam; エスラマリンガムコインバトーア
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1997-01-02
Filing date: 1998-01-05
Publication date: 1998-07-31
Also published as: US6058363A; EP0852374A2; KR19980070329A; EP0852374A3; JP2007233412A

Abstract

(57)【要約】【課題】本発明は従来システムに関連した問題を実質的
に減少、或いは除去する話者に依存しない認識システム
及び方法を提供する。【解決手段】ユーザが定義したフレーズの話者に依存し
ない認識のための外れ語彙のスコアを決定するシステム
及び方法が、登録文法（３６）を用いて話者に依存しな
い（ＳＩ）認識モデル（３４）のセットと共にユーザが
定義したフレーズを登録することを含む。話されたフレ
ーズの登録文法のスコアは、登録文法（３６）を用いて
話されたフレーズの特徴をＳＩ認識モデル（３４）と比
較することによって、決定される。登録文法のスコア
は、外れスコアを発生するためにペナルティーが適用さ
れる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する分野】本発明は、一般にスピーチ処理の
分野に関し、特にユーザが定義したフレーズの話者（ス
ピーカー）に依存しない認識方法及びシステムに関す
る。

【０００２】

【発明の背景】音声を基にしたスピードダイヤリングの
ような音声で作動するユーザの注文可能なアプリケーシ
ョンに対する要求が急速に増大している。認識のために
用いられるテンプレートは話者の発生から抽出された音
響モデルである。代表的には、話者に依存したテンプレ
ートは、ユーザの定義したフレーズが外れ語彙の拒否を
与えるために記録される“ガーベージ”モデルを用い
る。話者に依存したテンプレートは、それらは一般に加
えられる各フレーズやユーザに対応して増大する大きな
メモリ量を必要にすると言う点で問題である。話者に依
存しないテンプレートは固定した音響モデルを利用し、
ユーザが定義したフレーズに対する記憶装置の数百バイ
トのみを必要とする。その結果、話者に依存しないテン
プレートは非常に多くのユーザを収容するこができ、ユ
ーザの定義したフレーズはメモリ容量を殆ど増加しな
い。しかし、話者に依存しないテンプレートの問題は、
ガーベージモデルが話者に依存しない環境においてうま
く機能しないことである。これは、不十分な外れ語彙の
拒否を生じ、間違い電話番号をダイヤルするような費用
のかかる誤りを導く。

【０００３】

【発明の概要】従って、優れた外れ語彙の拒否能力のあ
る改善された話者に依存しない認識システムの必要性が
ある。本発明は、従来のシステムに関連した問題を実質
的に減少、或いは除去する話者に依存しない認識システ
ム及び方法を提供する。本発明によると、ユーザが定義
したフレーズの話者に依存しない認識のための外れ語彙
のスコア(score) が、登録文法(enrollment grammar)を
用いて話者に依存しない(speaker-independent: SI) 認
識モデルのセットを有するユーザが定義したフレーズを
先ず登録することによって決定される。次に、話された
フレーズの登録文法のスコアが登録文法を用いてＳＩ認
識モデルと話されたフレーズの特徴を比較することによ
って決定される。登録文法のスコアは、外れ語彙のスコ
アを発生するために、ペナルティーが適用されることが
できる。

【０００４】特に、本発明の一つの実施形態によれば、
登録文法は音素配列の文法であり、ＳＩ認識モデルはサ
ブワードユニットを含むことができる。外れ語彙のスコ
アが非定義フレーズの６０％と８０％の間で拒否する場
合に、登録文法のスコアはそれにペナルティーを加える
ことによってペナルティーが適用される。特定の実施形
態においては、登録スコアは、外れ語彙のスコアが非定
義フレーズの約７０％拒否する場合に、ペナルティーが
適用される。本発明の技術的利点は、外れ語彙の拒否を
実質的に改善する、話者に依存しない認識システム及び
方法を提供することを含む。特に、話されたフレーズ
は、ユーザが定義したフレーズに加えて、ペナルティが
適用された登録文法のスコアに対してスコアされる。

【０００５】ペナルティが適用された登録文法スコアが
ユーザが定義したフレーズより良く一致する場合、話さ
れたフレーズは外れ語彙として拒否される。逆に、話さ
れたフレーズは、それがペナルティーが適用された登録
文法のスコアよりユーザが定義したフレーズに良く一致
する場合、一致語彙として受け入れられる。従って、外
れ語彙を一致語彙として認識すること、および間違い番
号をダイヤルするような関連した誤は、軽減される。本
発明の他の技術的利点は、話者に依存しない認識システ
ムのある要素（コンポーネント）を用いて、外れ語彙の
拒否システム及び方法を提供することである。特に、登
録システムの要素は外れ語彙のスコアを決定するために
用いられることができる。従って、追加の認識モデルを
設ける必要がない。

【０００６】本発明の更に他の技術的利点は、所謂当業
者には以下の詳細な説明と図面、及び特許請求の範囲か
ら明らかであろう。

【０００７】

【実施の形態】本発明の好適な実施の形態およびその利
点は、同じ番号は同じ部分を表している図１〜図３を詳
細に参照することによって良く理解されるであろう。図
１〜図３は、ユーザが定義したフレーズの話者に依存し
ない認識方法及びシステムを示す。以下により詳細に述
べるように、この方法及びシステムは、外れ語彙の拒否
のため、ユーザが定義したフレーズに対してスコアされ
るペナルティーが適用された登録文法のスコアを用い
る。従って、話者に依存しない認識システム及び方法は
外れ語彙の拒否を実質的に改善する。図１は、本発明の
１つの実施の形態による話者に依存しない認識システム
１０のブロック図を示す。話者に依存しない認識システ
ム１０は、入力／出力装置１２、マイクロプロセッサ１
４およびメモリ１６を有する。この入力／出力装置１２
は電話回路網（図示せず）に接続され、スピードダイヤ
ルのような音声作動サービスを提供する。この実施の形
態において、入力／出力装置１２は、アナログ入力信号
を変換するためのアナログ−ディジタルコンバータ１
８、及びディジタル出力信号を変換するためのディジタ
ル−アナログコンバータ２０を含む。入力／出力装置１
２は、スピーチ信号を送信し及び／又は処理することが
できる他のネットワーク又はシステムに接続されること
ができる。

【０００８】本発明は、メモリ１６にロードされ、マイ
クロプロセッサ１４によって実行されるコンピュータソ
フトウェアを含む。このコンピュータソフトウェアは、
モジュール及びメモリ１６における同様な装置によって
一般に識別される。その他に、コンピュータソフトウェ
アは、本発明の範囲内で処理するために結合及び／又は
分割されることができることが理解されるであろう。従
って、モジュール及び他のソフトウェアシステムのラベ
ルは図示のためであり、本発明の範囲内で変更すること
ができる。コンピュータソフトウェアはディスク記憶装
置（図示せず）からメモリ１６にロードされる。ディス
ク記憶装置は、いろいろな型式の記憶媒体、例えばフロ
ッピーディスク駆動装置、ハードディスク駆動装置、Ｃ
Ｄ−ＲＯＭ駆動装置或いは磁気テープ駆動装置を含むこ
とができる。

【０００９】メモリ１６は、特徴抽出モジュール３０、
認識モジュール３２、話者に依存しない（ＳＩ）認識モ
デル３４のセット、登録文法３６、及びユーザが定義し
たフレーズ３８を含むことができる。モジュール３０、
３２、モデル３４、文法３６、及びユーザが定義したフ
レーズ３８は、読者の便宜のために単一のメモリ１６に
示されている。メモリ１６は、ＲＡＭ、ＲＯＭ、ディス
ク記憶装置等の１つ以上のメモリ装置を有してよい。特
徴抽出モジュール３０は、入力／出力装置１２を介して
受信した話されたフレーズから特徴を抽出する。代表的
には、特徴は話されたフレーズの信号スペクトラムから
得られる。１つの実施の形態において、スペクトラムは
線形予測符号化(linear predictive coding: LPC) 法を
用いて算出される。話されたフレーズの特徴は本発明の
範囲内で他の方法を用いて抽出されてもよい。

【００１０】以下に、より詳細に述べるように、登録中
に認識モジュール３２はＳＩモデル３４と登録文法３６
と協同して動作し、ユーザが定義したフレーズ３８に対
する一連のＳＩ認識モデルを出力する。更に、登録を使
用しない間、認識モジュール３２の出力は、ペナルティ
ーが適用され、外れ語彙の拒否に対してユーザが定義し
たフレーズと比較される登録文法のスコアを与える。Ｓ
Ｉ認識モデル３４は、あらゆる特別な語彙と無関係なサ
ブワードユニットである。１つの実施の形態において、
ＳＩ認識モデル３４は、コンテキストに依存する電話モ
デルであってもよい。この実施の形態において、一般に
モデルは、各電話モデルが良くトレイニングされるよう
に非常に大きな数の話者や語彙からの入力スピーチでト
レイニングされる。ＳＩ認識モデル３４の他の型式が本
発明の範囲内で用いられることは理解されるであろう。

【００１１】登録文法３６は、モデルの音響シーケンス
の許されたシーケンスを特定する。簡単な実施の形態に
おいて、登録文法３６は“ナル(null)”文法であってよ
い。この実施の形態において、文法はモデルの全ての数
があらゆる順番に生じるようにすることができる。他の
実施の形態において、登録文法は“ｎグラム(n-gram)”
文法であることができる。この文法は長さｎの許された
シーケンスを特定することができる。また、登録文法３
６は、音素配列文法であってもよい。音素配列文法は、
例えば可能なシラブル或いは部分シラブルのような言語
における可能な音のシーケンスによる許されたシーケン
スを特定する。従って、登録文法３６はＳＩ認識モデル
３４上の制約として作用する。他の登録文法３６を本発
明の範囲内で用いることができることが理解されるであ
ろう。

【００１２】図２は本発明の１つの実施の形態による話
者に依存しない認識システム１０のための登録方法を示
す。この方法は、フレーズが話者に依存しない認識シス
テム１０へ登録のために受信された場合にステップ５０
において開始する。前に述べたように、フレーズは入力
／出力装置１２を介して受信され、アナログ−ディジタ
ルコンバータ１８によってディジタル化される。登録フ
レーズはあらゆる音または音のシーケンスを含むことが
できる。ステップ５２に進んで、特徴抽出モジュール３
０は登録フレーズから特徴を抽出する。１つの実施の形
態において、特徴抽出モジュール３０は、登録フレーズ
の各フレームから線形予測符号化（ＬＰＣ）パラメータ
を用いて、スペクトラムの特徴を抽出する。他の特徴抽
出技術を本発明の範囲内でステップ５２において用いる
ことができることが理解されるであろう。

【００１３】ステップ５４において、認識モジュール３
２はＳＩ認識モデル３４を受信する。前述のように、Ｓ
Ｉ認識モデル３４はあらゆる特別な語彙と無関係なサブ
ワードユニットを有する。特定の実施の形態において、
ＳＩ認識モデル３４は、非常に多くの話者や語彙から入
力スピーチでトレイニングされるコンテキストに依存す
る電話モデルを含むことができる。ステップ５６に進ん
で、認識モジュール３２は登録文法３６を受信する。前
述のように、登録文法は音素配列文法、ｎ−グラム文
法、或いはナル文法を含むことができる。登録文法は本
発明の範囲内で他の型式の文法を含むことができる。ス
テップ５８において、認識モジュール３２は、抽出され
た特徴に極めて一致するＳＩ認識モデルのシーケンスを
決定する。これは登録文法３６を用いて抽出された特徴
をＳＩ認識モデル３４と比較することによって行われ
る。次に、ステップ６０において、認識モジュール３２
は、登録フレーズ用のユーザが定義したフレーズ３８と
してＳＩ認識モデルのシーケンスを記憶する。登録フレ
ーズ用のユーザが定義したフレーズ３８のために記憶さ
れたＳＩ認識モデルのシーケンスはＳＩ認識モデルと関
連する一連のシンボルを含む。ステップ６０はプロセス
の終わりへ導く。

【００１４】図３は本発明の１つの実施形態による話者
に依存しない認識システムの非登録使用の認識方法を示
す。この方法は、話されたフレーズが受信された場合に
ステップ８０において開始する。登録フレーズに関して
前述したように、話されたフレーズはあらゆる音或いは
音のシーケンスを含み、入力／出力装置１２を介して受
信される。入力／出力装置１２において、話されたフレ
ーズは、アナログ−ディジタルコンバータ１８によって
ディジタルフォーマットに変換される。ステップ８２へ
進んで、特徴抽出モジュール３０は話されたフレーズか
ら特徴を抽出する。前述のように、抽出された特徴は線
形予測符号化（ＬＰＣ）パラメータに基づくスペクトラ
ムの特徴を含む。ステップ８４において、認識モジュー
ル３２はユーザが定義したフレーズ３８を受信すること
ができる。ステップ８６に進んで、認識モジュール３２
は、各ユーザが定義したフレーズ３８を抽出した特徴と
比較することによって話されたフレーズのために一致語
彙のスコアを決定する。このスコアはユーザが定義した
フレーズと抽出した特徴間の相違であることができる。

【００１５】次に、ステップ８８において、認識モジュ
ール３２はＳＩ認識モデル３４を受信する。ステップ９
０において、認識モジュール３２は登録文法３６を受信
する。ＳＩ認識モデル３４と登録文法３６は図１と図２
に関連して前に述べられた。ステップ９２へ進んで、認
識モジュール３２は、登録文法３６を用いてＳＩ認識モ
デル３４を抽出された特徴と比較することによって、話
されたフレーズ用の登録文法のスコアを決定する。登録
文法のスコアは、文法によって許されたＳＩ認識モデル
と抽出された特徴間の相違である。ステップ９４におい
て、認識モジュール３２は登録文法のスコアにペナルテ
ィーを適用して外れ語彙のスコアを発生する。１つの実
施形態において、認識モジュール３２はペナルティーを
スコアに加えることによって登録文法スコアにペナルテ
ィーを適用する。１つの実施の形態において、登録文法
のスコアは、外れ語彙のスコアが定義のないフレーズの
６０％と８０％の間で拒否する場合にペナルティーが適
用される。特別の実施の形態において、登録文法のスコ
アは、外れ語彙のスコアが非定義フレーズの約７０％を
拒否する場合にペナルティーが適応される。ペナルティ
ーは本発明の範囲内で変えることができ、また他の方法
で決定されることが理解されるであろう。

【００１６】ステップ９６において、スコアは認識モジ
ュール３２によって比較される。次に、決定ステップ９
８において、認識モジュール３２は、外れ語彙のスコア
が話されたフレーズに極めて一致しているか否かを決定
する。もし、外れ語彙が話されたフレーズに一致するの
に最も近いならば、決定ステップ９８のＹＥＳブランチ
は話されたフレーズが外れ語彙として拒否されるステッ
プ１００へ導く。この場合、話者に依存しない認識シス
テム１０は話者に再認識のためにフレーズを繰り返すよ
うに要求することができる。決定ステップ９８に戻っ
て、もし、外れ語彙のスコアが話されたフレーズに極め
て一致していないなら、決定ステップ９８のＮＯブラン
チがステップ１０２へ導く。ステップ１０２において、
認識モジュール３２は話されたフレーズを一致語彙フレ
ーズとして受け入れる。従って、フレーズは認識され、
実行される。ステップ１００とステップ１０２はプロセ
スの終了へ導く。

【００１７】前述に従って、本発明の話者に依存しない
認識システム及び方法は外れ語彙の拒否を実質的に改善
する。特に、話されたフレーズは、ユーザが定義したフ
レーズに加えてペナルティが適用された登録文法のスコ
アに対してスコアされる。ペナルティが適用された登録
文法のスコアがユーザが定義したフレーズより優れた一
致を与える場合、話されたフレーズは外れ語彙として拒
否される。逆に、話されたフレーズは、それがペナルテ
ィーが適用された登録文法のスコアよりユーザが定義し
たフレーズと良く一致する場合、一致語彙として受け入
れられる。本発明は幾つかの実施の形態について述べら
れたが、いろいろな変更および変形が当業者に示唆され
る。本発明は、特許請求の範囲内に入る変更および変形
を含むことが意図される。

【００１８】以上の記載に関連して、以下の項が開示さ
れる。（１）ユーザが定義したフレーズの話者に依存しない認
識のための外れ語彙のスコアを決定する方法であって、
登録文法を用いて話者に依存しない認識モデルのセット
でユーザが定義したフレーズを登録するステップと、登
録文法を用いて話されたフレーズの特徴を話者に依存し
ない認識モデルと比較することによって、話されたフレ
ーズの登録文法のスコアを決定するステップと、登録文
法にペナルティーを適用して外れ語彙のスコアを発生す
るステップ、を有することを特徴とする方法。（２）前記登録文法のスコアにペナルティーを適用する
ステップは、ペナルティーを登録文法のスコアに加える
ステップを有することを特徴とする前記（１）に記載の
方法。（３）前記登録文法は、音素配列文法であることを特徴
とする前記（１）に記載の方法。（４）前記登録文法は、ナル文法であることを特徴とす
る前記（１）に記載の方法。（５）前記登録文法は、ｎ−グラム文法であることを特
徴とする前記（１）に記載の方法。（６）前記話者に依存しない認識モデルは、サブワード
ユニットを有することを特徴とする前記（１）に記載の
方法。（７）前記話者に依存しない認識モデルは、コンテキス
トに依存する電話モデルを有することを特徴とする前記
（１）に記載の方法。（８）前記登録文法のスコアは、外れ語彙のスコアが非
定義フレーズの６０％と８０％の間で拒否する場合にペ
ナルティーが適用されることを特徴とする前記（１）に
記載の方法。（９）前記登録文法のスコアは、外れ語彙のスコアの文
法が非定義フレーズの約７０％をする場合にペナルティ
ーが適用されることを特徴とする前記（１）に記載の方
法。 (10) ユーザが定義したフレーズの話者に依存しない認
識方法であって、話されたフレーズを受信するステップ
と、話されたフレーズから特徴を抽出するステップと、
ユーザが定義したフレーズを受信するステップと、抽出
された特徴をユーザが前記定義したフレーズと比較する
ことによって、話されたフレーズの一致語彙のスコアを
決定するステップと、話者に依存しない認識モデルのセ
ットを受信するステップと、登録文法を用いて抽出され
た特徴を話者に依存しない認識モデルと比較することに
よって、話されたフレーズの登録文法のスコアを決定す
るステップと、前記登録文法のスコアにペナルティーを
適用して、外れ語彙のスコアを発生するステップと、ス
コアを比較して、もし、外れ語彙のスコアが一致スコア
に近いならば、話されたフレーズを外れ語彙のフレーズ
として拒否し、もし、外れ語彙が一致スコアに近くない
ならば、話されたフレーズを一致フレーズとして受入れ
るステップ、を有することを特徴とする方法。 (11) 前記登録文法のスコアにペナルティを適用するス
テップは、ペナルティーを登録文法のスコアに加えるス
テップを有することを特徴とする前記（１０）に記載の
方法。 (12) 前記登録文法は、音素配列文法であることを特徴
とする前記（１０）に記載の方法。 (13) 前記文法は、ナル文法であることを特徴とする前
記（１０）に記載の方法。 (14) 前記文法は、ｎグラム文法であることを特徴とす
る前記（１０）に記載の方法。 (15) 前記話者に依存しない認識モデルは、サブワード
ユニットを含むことを特徴とする前記（１０）に記載の
方法。 (16) 前記話者に依存しない認識モデルは、コンテキス
トに依存する電話モデルを含むことを特徴とする前記
（１０）に記載の方法。 (17) 抽出された特徴は、線形予測符号化の特徴である
ことを特徴とする前記（１０）に記載の方法。 (18) 登録文法スコアは、外れ語彙のスコアが非定義フ
レーズの６０％と８０％の間で拒否する場合にペナルテ
ィーが適用されることを特徴とする前記（１０）に記載
の方法。 (19) 登録文法のスコアは、外れ語彙のスコアが非定義
フレーズの約７０％拒否する場合にペナルティーが適用
されることを特徴とする前記（１０）に記載の方法。 (20) 話者に依存しない認識システムであって、話者に
依存しない認識モデルのセットと、登録文法と、登録文
法を用いて前記話者に依存しない認識モデルと共に登録
されたユーザが定義したフレーズと、前記話者に依存し
ない認識モデルと登録文法を用いて話されたフレーズの
登録文法のスコアを決めるために動作可能な認識モジュ
ールと、登録文法スコアにペナルティーを適用して外れ
語彙のスコアを発生するために動作可能な認識モジュー
ル、を有することを特徴とするシステム。 (21) 更に、話されたフレーズの特徴をユーザが定義し
たフレーズと比較することによって、話されたフレーズ
の一致語彙のスコアを決めるために動作可能な認識モジ
ュールと、前記スコアを比較するために動作可能な前記
認識モジュールと、前記外れ語彙のスコアが一致スコア
に近い場合、外れ語彙のフレーズとして話されたフレー
ズを拒否するために動作可能な前記認識モジュールと、
前記外れ語彙のスコアが一致スコアに近いくない場合、
一致語彙のフレーズとして話されたフレーズを受入れる
ために動作可能な前記認識モジュールと、を有すること
を特徴とする前記（２０）に記載のシステム。 (22) 前記話者に依存しない認識モデルは、更にサブワ
ードユニットを有することを特徴とする前記（２０）に
記載のシステム。 (23) 本発明は従来システムに関連した問題を実質的に
減少、或いは除去する話者に依存しない認識システム及
び方法を提供する。ユーザが定義したフレーズの話者に
依存しない認識のための外れ語彙のスコアを決定するシ
ステム及び方法が、登録文法（３６）を用いて話者に依
存しない（ＳＩ）認識モデル（３４）のセットと共にユ
ーザが定義したフレーズを登録することを含む。話され
たフレーズの登録文法のスコアは、登録文法（３６）を
用いて話されたフレーズの特徴をＳＩ認識モデル（３
４）と比較することによって、決定される。登録文法の
スコアは、外れスコア（９４）を発生するためにペナル
ティーが適用される。

【図面の簡単な説明】

【図１】本発明の実施の形態による話者に依存しない認
識システムのブロック図を示す。

【図２】本発明の１つの実施形態による図１の話者に依
存しない認識システムのための登録方法のフロー図を示
す。

【図３】本発明の１つの実施形態による図１の話者に依
存しない認識システムのための認識方法のフロー図を示
す。

Claims

【特許請求の範囲】

【請求項１】ユーザが定義したフレーズの話者に依存し
ない認識のための外れ語彙のスコアを決定する方法であ
って、登録文法を用いて話者に依存しない認識モデルのセット
でユーザが定義したフレーズを登録するステップと、登録文法を用いて話されたフレーズの特徴を話者に依存
しない認識モデルと比較することによって、話されたフ
レーズの登録文法のスコアを決定するステップと、登録文法にペナルティーを適用して外れ語彙のスコアを
発生するステップ、を有することを特徴とする方法。
【請求項２】話者に依存しない認識システムであって、話者に依存しない認識モデルのセットと、登録文法と、登録文法を用いて前記話者に依存しない認識モデルと共
に登録されたユーザが定義したフレーズと、前記話者に依存しない認識モデルと登録文法を用いて話
されたフレーズの登録文法のスコアを決めるために動作
可能な認識モジュールと、登録文法スコアにペナルティーを適用して外れ語彙のス
コアを発生するために動作可能な認識モジュール、を有
することを特徴とするシステム。