JP2002538534A - 音声認識システムの動的意味論的制御 - Google Patents
音声認識システムの動的意味論的制御Info
- Publication number
- JP2002538534A JP2002538534A JP2000601630A JP2000601630A JP2002538534A JP 2002538534 A JP2002538534 A JP 2002538534A JP 2000601630 A JP2000601630 A JP 2000601630A JP 2000601630 A JP2000601630 A JP 2000601630A JP 2002538534 A JP2002538534 A JP 2002538534A
- Authority
- JP
- Japan
- Prior art keywords
- value
- word
- semantic
- probability
- true
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
Abstract
Description
システムに関する。
作したり更なる処理を実行したりするように構成された特殊なコンピュータ・シ
ステムである。このようなシステムは、現在、航空券の予約、オートアテンダン
ト(auto-attendants)、命令の入力などを含む様々な応用例において広く用い
られている。一般に、このシステムは、コンピュータ・ハードウェア若しくはコ
ンピュータ・ソフトウェアのいずれか、又は、これらの組合せで構成される。
ことによって動作する。ここで、音響信号とは、話された発話(utterance)か
ら受け取られたトランスデューサにおける音響エネルギを表す電子信号、又は、
データの組である。次に、このシステムは、P(A|W)*P(W)という確率
を最大にする一連のテキスト・キャラクタ(「単語ストリング」)を見つけよう
とする。ここで、Aは音響信号を意味し、Wは与えられた単語ストリングを意味
する。P(A|W)という成分は音響モデルと称され、P(W)は言語モデルと
称される。
更させることによって、又は、その両方を変更させることによって、改良するこ
とができる。言語は、ワード(単語)ベース、又は、「意味論的モデル」(sema
ntic model)でありうる。これは、P(W)を導く特定の方法である。
を取得し、これらの発話を、どのような単語ストリングが与えられてもP(W)
を評価することができるワード・ベースの言語モデルを生じる言語モデル訓練プ
ログラムに提供する。この例には、バイグラム(bigram)モデル、トライグラム
(trigram)モデル、又は、より一般的にnグラム言語モデルが含まれる。
n−1個のワードが与えられたときに、この発話がワードjである確率を評価す
る。従って、トライグラムでは、P(Wj|発話)は、P(Wj|Wj-1,Wj-2)
によって評価される。nグラム・タイプの言語モデルは、アプリケーション環境
に対して比較的静的であると見ることができる。例えば、静的なnグラム言語モ
デルは、音声認識手段が用いられている特定のアプリケーション又はそのアプリ
ケーションに関する外部的な事実情報に基づいて、その振る舞いを変更すること
はできない。従って、この分野では、用いられる特定のアプリケーションに対し
て適用させることができるような改良型の音声認識手段が強く求められている。
練用発話を有するアプリケーションでうまく機能し、この言語モデルは、時間経
過と共に変更することはない。従って、大量の訓練用データが利用可能でないア
プリケーションに対しては、又は、基礎となる言語モデルが時間経過と共に変更
する場合には、アプリケーションに特有の情報を考慮することによって、より正
確な結果を得ることができる改良型の音声認識手段が望まれる。
び目的は、本発明によって達成される。本発明は、ある側面においては、音声認
識手段によって認識される単語ストリングと関連付けられている1つ又は複数の
確率値を、単語ストリングから導かれるキーワード及び値のペアによって表され
る意味論的値に基づいて動的に修正する方法であって、意味論的値が所定の意味
論的タグと一致するときには、確率値の1つ又は複数における変更を定義する1
つ又は複数の規則を作成して記憶するステップであって、この規則は、音声認識
手段が用いられているコンテキストに関する1つ又は複数の外部的条件に基づい
ている、ステップと、条件の1つが現に真であるかどうかを判断し、真である場
合には、真である条件と関連付けられているタグと一致する確率値の1つ又は複
数を修正するステップと、を含む方法によって構成される。
ログラムまで運ぶ。前記判断するステップでは、アプリケーション・プログラム
において、条件の1つが現に真であるかどうかが判断され、真である場合には、
音声認識手段に対して、真である条件と関連付けられているタグと一致する意味
論的値と関連付けられている単語ストリングの確率値の1つ又は複数を修正する
ように命令がなされる。
関連付けられている意味論的値が、1つ又は複数のキーワード値ペアとして表現
され、キーワード値ペアがアプリケーション・プログラムまで運ばれ、アプリケ
ーション・プログラムにおいて、条件の1つが現に真であるかどうかを判断し、
真である場合には、音声認識手段に対して、真である条件と関連付けられている
タグと一致するキーワード値ペアと関連付けられている単語ストリングの確率値
を修正するように命令がなされる。
合されたアプリケーション・プログラムまで運ばれ、真である条件と関連付けら
れているタグと一致する意味論的値と関連付けられている単語ストリングの確率
値の1つ又は複数を修正することができるアプリケーション・プログラムによっ
てコール可能な機能が、前記音声認識手段と共同して、作成されて記憶され、こ
のアプリケーション・プログラムにおいて、条件の1つが現に真であるかどうか
が判断され、真である場合には、意味論的値の1つ又は複数をどのように修正す
べきかを識別するパラメータ値を用いて、前記機能がコールされる。
再順序付けすることが含まれる。更に別の特徴としては、確率値の1つ又は複数
を真である条件と関連付けられているスケーリング・ファクタと乗算することに
よって、確率値を修正することが含まれる。
段に論理的に結合されたアプリケーション・プログラムまで運ぶことが含まれる
。真である条件と関連付けられているタグ・ワードと一致するワード値ペアのワ
ードと関連付けられている単語ストリングの確率値の1つ又は複数を修正するこ
とができる機能が、音声認識手段と共同して、作成され記憶される。アプリケー
ション・プログラムにおいて、条件の1つが現に真であるかどうかが判断され、
真である場合には、真である条件と関連付けられているスケーリング・ファクタ
を含めて、意味論的値と関連付けられている単語ストリングの確率値をどのよう
に修正すべきかを識別するパラメータ値を用いて、前記の機能がコールされる。
この機能は、確率値を、この確率値とスケーリング・ファクタとを乗算すること
によって、修正することができる。
ピュータ読取可能な媒体と装置とも包含する。
面では、同じ参照番号は同じ構成要素を示している。
の方法及び装置が説明される。以下では、説明の目的で、特定の詳細を多数与え
ることにより、本発明の十分な理解が得られることが意図されている。しかし、
当業者であれば、本発明は、これらの特定の詳細とは関係なく実現可能であるこ
とを理解するはずである。また、既知の構造及び装置をブロック図形式で示すこ
とにより、本発明を不必要に曖昧にすることを回避している。
量の訓練用データを用いることができない場合や、基礎となる言語モデルが時間
の経過と共に変更する場合には、単語(ワード)レベルからだけではなく、発話
(utterance)の意味も考慮してモデルを導くことにより、音声認識手段を改良
することができる。このような場合には、意味論的情報を用いることにより、言
語モデルの精度を著しく向上させることができる。
の番号に電話をかけ、その番号に音声認識手段を含む対話型音声応答(IVR)
システムが関連付けられているとする。その場合、IVRシステムは、この顧客
に、搭乗を希望する日付を告げるように促す。
うとするのは、やや脆弱なアプローチである。このモデルでは、ユーザが「12
月16日(December sixteenth)」と発言した確率は、「9月15日(Septembe
r fifteenth)」と発言した確率と類似する。また、このモデルでは、この両方
の確率が、ユーザが「12月の16日(the sixteen of December)」と発言し
た確率よりはいくらか確からしい(likely)し、「9月15(September one fi
ve)」よりもはるかに確からしい、ということも分かる。このように、静的で単
語ベースの言語モデルでは、特定の発話が「12月」(December)という単語を
表すのか「9月」(September)という単語を表すのかに関する混乱を音声認識
手段が解消することの役には立たない。
ている日から数日以内での搭乗を希望しているのが一般的であることを知ってい
る。従って、現在が12月14日であるとすると、ユーザは、「9月15日」で
はなく、「12月16日」と発言するであろう確率の方が高い。この事実は、認
識手段において曖昧さを解消するのに意味論的な情報が用いられ、それによって
、その性能が向上する例である。
ing)の確率が発話の基礎にある意味に部分的に依存していることを意味する。
上述の例では、与えられた発話が「12月16日」すなわち「あさって」である
確率値は、ユーザが現在から2日後に搭乗を希望する確率と、これら2つの言い
方のそれぞれでその発言をする確率との両方に依存する。
それぞれが関連付けられている1つ又は複数の確率値を変更させうる、というこ
とを意味する。この変更は、外部イベントを記述する情報とその外部イベントが
生じるときになされる応答とに依存して起こりうる。ある特定の変更は、ある発
話の特定の抽象的な言語要素を表す1つ又は複数の意味論的値と、外部イベント
を記述する情報とが組み合わされたものに依存して、決定される。上述の例では
、意味論的モデルによって、「12月16日」及び「9月16日」というストリ
ングと関連付けられている1つ又は複数の確率値が、現在の日付を識別する情報
に基づいて変更される。
て作用するように構成される。このモデルでは、都市名がキーワードである。こ
のシステムは、キーワードの例に関連して、発話が特定の都市名であるかどうか
を電話している者(発呼者)が電話をかけているエリア・コードによって指示す
る1つ又は複数の値を作成し記憶する。例えば、音声認識手段が、発呼者を識別
するデータを受け取り、このデータには、発呼者がエリア・コード「617」か
ら電話をかけていることを示すエリア・コード値が含まれる、と仮定する。更に
、音声認識手段が発話を受け取り、その発話を表しうる2つの単語ストリングで
ある「ボストン」及び「オースチン」を発生すると仮定する。また、音声認識手
段は、それぞれの単語ストリングと関連する確率値を作成し記憶する。この確率
値は、その単語ストリングが実際に発言された可能性(蓋然性)を示す。音声認
識手段は、また、それぞれの単語ストリングと関連付けられたキーワード値ペア
(=「キーワード」と「値」との対)を作成し記憶する。第1の単語ストリング
のキーワード値ペアは、(都市名、「ボストン」)という対であり、第2の単語
ストリングのキーワード値ペアは、(都市名、「オースチン」)という対である
。
のいずれか一方を認識したかどうかを判断することができない。マサチューセッ
ツ州ボストンのエリア・コードは「617」であるから、発呼者が電話をかけて
いる発信地の都市がオースチンである可能性は非常に低く、また、発呼者が電話
をかけている目的地の都市がボストンである可能性も非常に低い。このように、
エリア・コード情報とキーワード値ペアとに基づき、動的意味論的機構を用いる
と、一方又は他方の単語ストリングと関連付けられている確率値を変更できるし
、適切な重み付けも可能である。
デルがありうる。システムが株式(Stock)という意味論的キーワードを有して
おり、このシステムの顧客又はユーザが、IBM社の株式を含む株式ポートフォ
リオを有していると仮定する。更に、仮に、「Iビーム社」という会社も株式市
場に上場されていると仮定する。このような状況では、音声認識手段が「IBM
」なのか「Iビーム」なのかが混同される可能性があるような発話を識別する場
合には、意味論的モデルは、この顧客が自分のポートフォリオの中にIBMの株
式を有しているという理由から、その発話は「IBM」である確率の方がはるか
に高いと判断する。このように、例えば「IBM」又は「Iビーム」という2つ
の単語ストリングに割り当てられる確率値は、それぞれのユーザのポートフォリ
オに含まれている株式に依存する。
よる重要な利点が認識されていることが分かっている。場合によっては、静的な
単語ベースの言語モデルと比較して、非常に著しい精度の向上が得られることが
分かっている。
論的情報には作用しないので、動的意味論的モデルは、認識後のプロセスに適用
することができる。例えば、音声認識手段は、n個の最良の単語ストリングを決
定し、それに意味抽出機能を備えたパーザを適用し、これらのn個の最良の単語
ストリングをn組の最良のキーワード値ペアに変換する。単語ストリングのそれ
ぞれ又はキーワード値ペアのそれぞれと関連して、確率値が記憶される。意味論
的モデルが適用され、1つ又は複数の確率値を修正するのに用いられ、n組の最
良のキーワード値ペアが再順序付けされる。あるいは、単語ストリングが再順序
付けされる。
用されうる。音声認識手段と共同して実行されているアプリケーションは、1つ
又は複数のコールバックを用いることにより、開発者が提供する意味論的情報に
基づいて、任意のキーワードと関連付けられている値を変更することができる。
の主要な構成要素を示すブロック図である。電話2は接続部4に結合され、この
接続部4は公共交換式電話ネットワーク(PSTN)や、任意のそれ以外の音声
又はデータ・ネットワークを通過して、音声認識手段102を用いて、音声情報
を送受信する。ある例示的なアプリケーションでは、電話2は、音声認識システ
ム100を所有する又は操作する企業の顧客と関連付けられている。音声認識シ
ステム100は、対話型の音声応答アプリケーション108を実行して、顧客サ
ービスを提供する。適切な顧客サービス・アプリケーションの例としては、カタ
ログ注文、株式取引、航空券予約などがある。
的機構112とに結合されている。音響モデル113は、音声認識手段102が
電話2から受け取る信号に対して音声認識機能を実行するのを助ける情報を有し
ている。例えば、音声認識手段102は、音響モデル113を用いて、複数の音
素の中のどの音素が電話2から受け取った発言の1つ又は複数のフレーム又はセ
グメントによって表されている可能性が最も高いか、を判断する。音声認識手段
102は、出力として、可能性のある音素の組を提供することができる。好まし
くは、音声認識手段102は、更に、それらの音素によって表される可能性が最
も高い単語である1つ又は複数の単語ストリングを出力する。この単語ストリン
グはn個あって、これらn個が、ワード・ストリングと関連して作成され記憶さ
れている確率値に従って、可能性が最も高いものから最も低いものへ、という順
序になっているのが通常である。従って、このワード・ストリングは、n個の最
良の単語ストリング104と称される。
的意味論的機構112はデータ114に結合されそのデータを用いる。動的意味
論的機構112は、音声認識手段102が電話2から受け取った信号に対してよ
り高度な音声認識機能を実行するのを助ける。例えば、音声認識手段102は、
動的意味論的機構112を用いて、複数の単語の中のどの単語がn個の最良の単
語ストリング104の意味を表すかを判断する。動的意味論的機能は、アプリケ
ーション108、音声処理モジュール106又は音声認識手段102からコール
することができる関数、サブルーチン、方法又はそれ以外のソフトウェア・プロ
セスとして実現することができる。
02の出力に影響する可能性があるそれ以外の外部的事実若しくは条件である。
ある実施例では、データ114は、不揮発性メモリに記憶され音声認識手段10
2が初期化される際にメイン・メモリにロードされるテーブル、リスト又はそれ
以外のデータ構造の形式で実現することができる。テーブルは、発言者の発話に
一致する可能性があるキー値のリストを記憶して、ある発話があるキー値と一致
する又はある範囲のキー値に含まれるときに置換される値を置き換える。また、
テーブルは、それぞれのキー値に対して、n個の最良の単語ストリング104の
中の特定の単語ストリングと関連付けられている確率値を修正するのに用いられ
るウェイト値、フロア値及びオフセット値を記憶することができる。
計的情報のテーブルによって、又は、そのような統計的な情報に基づく規則若し
くはデータによって構成されうる。例えば、アプリケーション108が航空券予
約システムであるときには、リアルタイム環境でこのアプリケーションを長期間
用いることを通じて、エリア・コードが617である場所(ボストン及びその近
郊)の顧客は、ほとんど常に出発地がボストンである航空券を予約することが分
かる。この意味論的規則は、アプリケーション108が動作しているときにアプ
リケーション108によって記憶され発呼者がエリア・コードが617である地
域にいるときには出発地として「ボストン」を認識するという例が反復されてい
ることを示す統計又はログ・ファイルから導かれる。
の音声によって表されるn個の最良の単語ストリング104の組を作成する。音
声認識手段102は、次に、このn個の最良の単語ストリング104にパーザ1
03を適用する。パーザ103は、バッカス・ナウア形式(Backus-Naur Form =
BNF)のパーザであり、n個の最良の単語ストリング104を解析して、この単
語ストリングによって表される言語的な意味を決定する。その結果、パーザ10
3は、単語ストリングのそれぞれに対して、1つ又は複数のキーワード値ペアを
作成して記憶する。
意味を表す。例えば、航空券予約システムにおける発話の例で、発言者がそのフ
ライトの出発地と目的地とを発言することを考える。ある発言者の発話が、「わ
たしは、3月24日にボストンからデンバーまで飛びたい」であったとする。こ
のときに、音声認識手段102は、この発話から2つのn個の最良の単語ストリ
ング104を発生しうる。すなわち、単語ストリングAである「わたしは、3月
24日にボストンからデンバーまで飛びたい」と、単語ストリングBである「わ
たしは、3月24日にオースチンからデンバーまで飛びたい」の2つが発生され
たとする。単語ストリングAは確率値が90であり、単語ストリングBは確率値
が20であるとする。ここで、0から100までのスケールにおいて、高い値の
方が可能性が高いことを表す。パーザ103は、単語ストリングAに対しては次
のようなキーワード値ペアを作成することができよう。すなわち、(出発地、ボ
ストン);(目的地、デンバー);(日付、1999年3月24日)である。同
様に、パーザ103は、単語ストリングBに対しては次のようなキーワード値ペ
アを作成することができよう。すなわち、(出発地、オースチン);(目的地、
デンバー);(日付、1999年3月24日)である。
は、ただ1つの確率値が作成され記憶されることが好ましい。確率値とは、特定
の単語ストリングが実際にその発言者によって発言された蓋然性を表すものであ
る。あるいは、このシステムは、1つの単語ストリングと関連付けられているそ
れぞれのキーワード値ペアに対して1つの確率値を作成し記憶することができ、
また、そのような複数の確率値をそのストリング全体に対する1つの値に統合す
ることもできる。
は複数の音声処理モジュール106に送ることができる。このモジュール106
は、より高度な音声処理機能を実行するソフトウェア要素である。音声処理モジ
ュール106として用いるのに適している商用の製品の例として、米国マサチュ
ーセッツ州ボストン所在のスピーチ・ワークス・インターナショナル社から市販
されているダイアログ・モジュールズ(DialogModulesTM)がある。
プリケーション108によって用いられることにより、その論理演算を実行する
。例えば、アプリケーション108は、音声処理モジュールの1つのコールし、
電話2を用いている発言者がアプリケーション108によって発生された特定の
促しに対して「イエス」と答えたのか「ノー」と答えたのか、を判断する。アプ
リケーション・プログラムと相互に作用しあう音声処理モジュールの実施例の詳
細は、この出願と同時出願中であり発明者Matthew T. Marx他による"System and
Method for Developing Interactive Speech Applications"と題する1998
年5月6日に出願された米国特許出願第09/081,719号に記載されてい
る。
意味論的モデルは、後処理として適用することができる。コールバック110は
、アプリケーション108と、音声認識手段102と、n個の最良の単語ストリ
ング104とに結合されている。コールバック110は、アプリケーション・プ
ログラミング・インターフェース(API)に従って定義されアプリケーション
108がそのキーワード値ペアと規則データ114とに基づいて任意の単語スト
リングの確率値を変更するためにコールすることができる関数コールの形式で実
現することができる。ある実施例では、このコールバックは、複数のパラメータ
を用いてコールされる。このパラメータは、キーワードと、値と、関連付けられ
ている単語ストリングの確率値を調節するのに用いることができるスケーリング
・ファクタと、このスケーリング・ファクタをいつ適用すべきかを定義する1つ
又は複数の意味論的タグとを含む。
意味論的モデルのアプリケーションを実行する関数と、その関数にアクセスする
アプリケーション・プログラムに配置されるコールバックとの例が、C言語によ
って与えられている。この関数は、"get_time_lm()"と称され、コールバックは
、"TimeLMCCallback"と称される。データ構造TIME_LM*tlmは、テーブルの形式で
の言語モデルを含み、起動時の間に読み取られる。
n_lm)と、代替時間値のアレイと、フロア値と、ウェイト値と、オフセット値と
によって構成されている。発言者によって発っせられた分単位の時間値がキー値
の1つと一致する場合には、この関数は、データ構造から対応する代替値を取得
する。この代替値は、オフセット値を減算しウェイト値を乗算して返却される。
そうでない場合には、関数は、フロア値を戻す。従って、発話された時間値と関
連付けられているキーワード値ペアにおける値は、現在のアプリケーションとそ
のコンテンツとに基づき、発話のなされた時間値を発話が予測される1つ又は複
数の時間値と比較されることによって、修正することができる。あるいは、関連
付けられている単語ストリングの確率値を修正することもできる。
能性はある意味論的値にゼロより大きな所定の最小の確率値を割り当てられるこ
とを保証することが可能になる。これにより、動的意味論的機構が可能性が低い
発話をフィルタリングによって排除してしまうことが回避できる。オフセット値
によって、システムは、割り当てられた最低の確率値を任意の所望の値に調節す
る又は移動させることが可能になる。実際、オフセット値を用いることにより、
確率値の範囲が上下に移動される。実施例によっては、オフセット値がゼロであ
り、最小の確率値がゼロであるような場合もある。
ト及びフロア値の何らかの組合せによって発生された確率値が、音響的な確率値
と組み合わされて、最終的すなわち包括的な確率値を生じる。
。従って、ある単語ストリングと関連付けられた現在の確率値から修正された確
率値を決定する計算は、次の通りである。
行する。システム100の顧客又はユーザが、システムをコールする。アプリケ
ーション108が実行され、顧客に何らかの情報を発言するように促す。顧客は
、電話2において音声信号を提供し、この信号は、接続4を介して、音声認識手
段102まで送られる。音声認識手段102は、音響モデル113を用いて音声
信号をその信号の内部で認識又は検出された1つ又は複数の音素に変換すること
によって、信号の音声認識を実行する。音声認識手段102は、次に、この1つ
又は複数の音素を当該音素によって表される可能性があるn個の最良の単語スト
リングに変換する。確率値が、このn個の最良の単語ストリング104のそれぞ
れの関連して作成され記憶される。この確率値は、特定の単語ストリングが実際
に発話された言葉である蓋然性を表している。
る。パーザ103は、意味抽出能力を備えている。その結果、1つ又は複数のキ
ーワード値ペア105が作成され記憶される。キーワード値ペア105は、発言
者の発話の意味を表している。それぞれのキーワードは、音声信号の内部で認識
された何らかの単語又は言語要素に対する抽象的な識別子である。それぞれのキ
ーワードには、アプリケーション108における変数を1つ関連付けることがで
きる。それぞれの値は、関連付けられている抽象的な言語要素に対して発言され
たものとして認識されたものである。例えば、キーワードは「出発地」であり、
関連付けられている値は「オースチン」である。
、キーワード値ペアに論理操作を実行する。場合によっては、音声処理モジュー
ル106は、このキーワード値ペアをアプリケーション108に送り、アプリケ
ーションにおいて現実化されている業務規則(business rules)に従って、更な
る処理と論理的決定を行う。
の1つと関連して記憶されている確率値の1つを、キーワード値ペアの1つ又は
複数に基づいて、アプリケーションの現在の意味論的コンテキストとアプリケー
ションによってなされた意味論的決定とに従って変更させることができる。例え
ば、(出発地、オースチン)という上述したキーワード値ペアを考えてみよう。
アプリケーション108は、それ自身が利用することができる他の情報から、発
呼者はエリア・コードが617である地域から電話をしているのであるから、発
呼者がオースチンから出発することを希望している蓋然性は極度に低いと判断す
ることができる。それに対して、アプリケーションは、(出発地、オースチン)
というキーワード値ペアと関連付けられているn個の最良の単語ストリング10
4の1つの確率値を変更して、発話の実際の意味をより適切に反映するようにす
ることができる。
チン、方法又は手順をコールし、音声認識手段が確率値をどのように変更すべき
かを定義するパラメータを送ることができる。音声認識手段102は、パラメー
タに従って、関数コールを受け取り、それを実行する。それに対して、確率値を
変更した後で、音声認識手段102は、変更された値を考慮するために、n個の
最良の単語ストリング104のペアをソート又は再順序付けする。
テキストに動的に従って、顧客又はユーザからの音声を認識する方法を調節して
いる。このようにして、音声認識における精度の改善が達成される。
論的モデルを用いて音声認識を実行する方法の流れ図である。 ブロック202では、1つ又は複数の動的意味論的な規則が確立される。ブロ
ック202は、アプリケーション108の実際のパフォーマンスに関する統計的
な情報を解析し、ログ・ファイルや統計ファイルなどに基づいて規則データ11
4を導くことを含む。このように、規則データ114とブロック202で識別さ
れる規則とは、統計テーブル、又は、アプリケーションからのパフォーマンス情
報に基づいて、確率的に導くことができる。
は、1つ又は複数の外部的な要因によって変更される業務上の規則や意味論的な
規則を抽象的に定義することを含む。動的意味論的な規則の例としては、次のも
のがある。 (エリア・コードが617)であるならば、(目的地はボストン)である。
テキストを表すキーワード値ペアと関連付けられている単語ストリングの確率値
の修正を実行する音声認識手段の関数への1つ又は複数のコールを、アプリケー
ション・プログラムに配置することによって確立される。この意味論的規則は、
それぞれが、そのようなものが存在すれば確率値が修正されるべきであるような
、アプリケーションのコンテキスト、外部的条件又は内部的条件を定義する意味
論的なタグを含んでいる。それぞれの意味論的タグには、確率値をどのように変
更すべきかを定義するスケーリング・ファクタを関連付けることができる。スケ
ーリング・ファクタの例としては、「0.2」、「50%」などがある。現在の
値にスケーリング・ファクタを乗算すると、修正値が得られる。あるいは、それ
ぞれの意味論的タグに、その代わりとなる代替値を関連付け、現在の値を削除し
て代替値で置き換えることもできる。
ーチンが作成され記憶される。ブロック204は、1つ又は複数の関数コールを
、音声認識手段と共同して動作するアプリケーション・プログラムに配置するこ
とを含む。関数コールは、それぞれが、動的意味論的な規則を実現する1つ又は
複数のパラメータを有する。別の実施例では、アプリケーションが、音声認識手
段へのコールバックを行うことなく、値の変更に必要なすべての業務論理及び処
理論理を含むこともありうる。
ムの顧客又はユーザがシステムをコールするときに、受け取られる。アプリケー
ションが動作し、顧客に、何らかの情報を発言するように促す。顧客は、電話で
音声信号を提供し、それが音声認識手段まで運ばれる。
は複数の音素に変換することによって、音声認識を実行する。ブロック210で
は、音声認識手段は、1つ又は複数の音素を、その音素によって表現される可能
性があるn個の最良の単語ストリングに変換する。また、ブロック210は、n
個の最良の単語ストリングのそれぞれと関連付けられている確率値を作成し記憶
することを含みうる。この確率値はその単語ストリングが実際に発言されたもの
である蓋然性を示す。
の最良の単語ストリングに適用する。その結果、ブロック213に示されている
ように、単語ストリングのそれぞれに対して、1つ又は複数のキーワード値ペア
が作成され記憶される。キーワード値ペアは、抽象的な言語要素と、発言者の発
話において認識された関連付けられた値とを表す。それぞれのキーワード値ペア
に、あるキーワード確率値が関連付けられるのが最適である。ただし、このキー
ワード確率値は、関連付けられた値が当該キーワードに対して実際に発言された
ものである蓋然性を表すものである。
処理モジュールは、キーワード値ペアに対して、論理操作を実行する。場合によ
っては、音声処理モジュールは、キーワード値ペアを、アプリケーションに送っ
て、そのアプリケーションにおいて具体化されている業務規則に従って更なる処
理と論理的な意志決定とを行う。
ある実施例では、アプリケーションが、音声認識手段に、1つ又は複数のキーワ
ードと関連付けられている単語ストリングの確率値を、現在の意味論的コンテキ
ストやアプリケーションによってなされた意味論的な決定に従って変更するよう
に命令する場合もある。このようにして、ブロック215に示されているように
、確率値は修正される。
において、アプリケーションは、それ自身がその上で動作しているコンピュータ
・システムのシステム・クロックの現在値を読み取る。それにより、アプリケー
ションは、現在の日付が「12月2日」であると判断する。次に、アプリケーシ
ョンは、(現在の月、9月)及び(現在の月、12月)というような1つ又は複
数の曖昧又は混乱した値を含む単語ストリングと関連付けられているキーワード
値ペアとを受け取ると、「9月」が実際の発話であった可能性は低いと判断する
。抽象的に述べると、想定されている単語が現在の月よりも前の月であるときに
は、アプリケーションは、その想定されている単語が到着日の一部である可能性
は低く、従って、その関連付けられている単語ストリングの確率値は変更される
べきであると判断することができる。
は手順をコールし、キーワード値ペアと関連付けられている単語ストリングの確
率値を音声認識手段がどのように変更すべきかを定義するパラメータを送ること
ができる。音声認識手段は、パラメータに従って、関数コールを受け取り、それ
を実行する。関数コールの実行には、現在のキーワード値ペアを調べ、それを当
該キーワードに対して予測される又は可能性のある値のテーブルと比較し、現在
のキーワードと関連付けられている単語ストリングの確率値を代替値、ウェイト
又はオフセット値に従って修正することを含む。代替値、ウェイト及びオフセッ
ト値は、アプリケーションの現在のコンテキストに従って、アプリケーションの
開発者が前もって選択しておくことが可能である。
ート又は再順序付けし、変更された値を考慮する。再順序付けされた単語ストリ
ングは、アプリケーション・プログラムに送られ、アプリケーション・プログラ
ムによって任意の所望の関数を実行するとき用いられる。
ションの現在の意味論的コンテキストに従ってその出力を修正する。 次に、ハードウェアの概要を述べる。図3は、本発明のある実施例がその上で
実現されているコンピュータ・システム300を図解するブロック図である。コ
ンピュータ・システム300は、バス302又は情報を通信するそれ以外の通信
機構と、バス302に結合されており情報を処理するプロセッサ304とを含ん
でいる。コンピュータ・システム300は、また、RAM又はそれ以外のダイナ
ミックな記憶装置であるメイン・メモリ306を含む。そして、このメイン・メ
モリ306は、バス302に結合されており、プロセッサ304によって実行さ
れる情報及び命令を記憶する。また、メイン・メモリ306は、プロセッサ30
4によって命令が実行される間、一時的な変数やそれ以外の中間的な情報を記憶
するのに用いられることもある。コンピュータ・システム300は、更に、バス
302に結合されておりプロセッサ304のための静的な情報及び命令を記憶す
るROM308やそれ以外の静的な記憶装置を含む。また、磁気ディスクや光デ
ィスクなどの記憶装置310がバスに結合され、情報や命令を記憶する。
のユーザに表示する、ブラウン管(CRT)などのディスプレイ312に結合す
ることができる。英数字やそれ以外のキーを含む入力装置314が、バス302
に結合され、情報やコマンドの選択をプロセッサ304に送る。別のタイプのユ
ーザ入力装置として、マウスやトラックボールなどのカーソル制御316や、方
向情報及びコマンドの選択をプロセッサ304に送り、ディスプレイ312上で
のカーソルの移動を制御するカーソル方向キーがある。この入力装置は、典型的
には、第1の軸(例えばx)と第2の軸(例えばy)という2つの軸に関する自
由度2を有し、それによって、この入力装置が平面上での位置を特定することが
可能になる。
いて音声認識処理を実行することに関する。本発明のある実施例では、動的意味
論的モデルを用いた音声認識処理が、プロセッサ304がメイン・メモリ306
に含まれている1つ又は複数の命令で構成される1つ又は複数のシーケンスを実
行することに応答して、コンピュータ・システム300によって提供される。こ
れらの命令は、記憶装置310など他のコンピュータ読取可能媒体から、メイン
・メモリ306に読み取られる。メイン・メモリ306に含まれる命令シーケン
スを実行することにより、プロセッサは、ここで説明されている各処理ステップ
を実行する。別の実施例では、ソフトウェア的な命令の代わりに、又は、ソフト
ウェア的な命令と共に、ハードワイアード回路を用いて本発明を実現することも
できる。このように、本発明の実施例は、ハードウェア回路やソフトウェアのど
のような特定の組合せにも限定されない。
04に提供して実行させる命令を有する任意の媒体を意味する。このような媒体
は、多くの形態をとりうる。例えば、限定は意味していないが、不揮発性媒体、
揮発性媒体、伝送媒体などが含まれる。不揮発性媒体には、例えば、記憶装置3
10などの光ディスクや磁気ディスクが含まれる。揮発性媒体には、例えば、メ
イン・メモリ306のようなダイナミック・メモリが含まれる。伝送媒体には、
バス302を構成するワイヤを含む、同軸ケーブル、銅線、光ファイバなどが含
まれる。伝送媒体は、更に、無線波及び赤外線データ通信の間に発生されるよう
な、音波や光波の形態もとりうる。
スク(登録商標)、ハード・ディスク、磁気テープ、それ以外の磁気媒体、CD
−ROM、それ以外の光媒体、パンチカード、紙テープ、ホールのパターンを有
するそれ以外の物理的媒体、RAM、ROM、PROM、EPROM、フラッシ
ュEPROM、それ以外のメモリ・チップ又はカートリッジ、後に述べる搬送波
など、コンピュータが読み取ることが可能な任意の媒体がありうる。
命令で構成される1つ又は複数のシーケンスをプロセッサ304まで運ぶことに
関係する。例えば、命令は、当初、リモート・コンピュータの磁気ディスク上で
運ぶことができる。このリモート・コンピュータは、これらの命令を、そのダイ
ナミック・メモリにロードし、モデムを用いて電話回線を介して送ることができ
る。コンピュータ・システム300のローカル・モデムは、電話回線上のデータ
を受信し、赤外線送信機を用いてデータを赤外線信号に変換することができる。
赤外線検出器が赤外線信号において運ばれたデータを受信し、適当な回路によっ
てこのデータをバス302の上に配置する。バス302は、データをメイン・メ
モリ306まで運び、このメイン・メモリからプロセッサ304がデータを得て
命令を実行する。メイン・メモリ304が受け取る命令は、プロセッサ304に
よる実行の前又は後のいずれかに、記憶装置310に最適な態様で記憶される。
ーフェース318を含む。通信インターフェース318は、ローカル・ネットワ
ーク322に接続されたネットワーク・リンク320との間の双方向のデータ通
信結合を与える。例えば、通信インターフェース318は、対応するタイプの電
話回線へのデータ通信接続を提供するISDNカード又はモデムでありうる。別
の例としては、通信インターフェース318は、ローカル・エリア・ネットワー
ク(LAN)カードであり、互換性を有するLANへのデータ通信接続を提供す
る。無線リンクを実現することもできる。そのような場合には、通信インターフ
ェース318は、様々なタイプの情報を表すデジタル・データ・ストリームを運
ぶ電気、電磁気又は光信号を送受信する。
介して、他のデータ装置へのデータ通信を提供する。例えば、ネットワーク・リ
ンク320は、ローカル・ネットワーク322を介して、ホスト・コンピュータ
324への、又は、インターネット・サービス・プロバイダ(ISP)326に
よって運営されているデータ装置への接続を与える。ISP326は、これに対
して、現在では一般的に「インターネット」328と称されている全世界的なパ
ケット・データ通信ネットワークを介して、データ通信サービスを提供する。ロ
ーカル・ネットワーク322とインターネット328とは、共に、デジタル・デ
ータ・ストリームを運ぶ電気、電磁気又は光信号を用いる。コンピュータ・シス
テム300まで及びコンピュータ・システムからデジタル・データを運ぶ様々な
ネットワークを通過する信号や、ネットワーク・リンク320上及び通信インタ
ーフェース318を介する信号は、情報を運ぶ搬送波の例示的な形態である。
ータを、ネットワーク、ネットワーク・リンク320、通信インターフェース3
18を介して送受信する。インターネットの例では、サーバ330が、インター
ネット328、ISP326、ローカル・ネットワーク322、通信インターフ
ェース318を介して、アプリケーション・プログラムのための要求されている
コードを送信する。本発明では、そのようなダウンロードされたアプリケーショ
ンが、ここで説明されている動的意味論的モデルを用いて音声認識処理を提供す
る。
か、記憶装置310や、後で実行される場合にはそれ以外の不揮発性記憶装置に
記憶される。このようにして、コンピュータ・システム300は、搬送波の形態
でアプリケーション・コードを得ることができる。
操作のアルゴリズムや記号による表現として提供することもできる。アルゴリズ
ムによる記述や表現は、データ処理の技術分野における当業者によって用いられ
る手段であり、彼らの間で自らの仕事の実体を最も効果的に伝達するのに用いら
れる。
テップとして理解することができる。これらのステップは、物理的数量に関する
物理的表明を要するのが一般的である。必ずしもそうではないが、通常は、これ
らの数量は、記憶、転送、合成、比較などの操作が可能な電気又は磁気信号の形
式を有する。この出願では、これらの信号を、ビット、値、要素、シンボル、キ
ャラクタ、項(terms)、数字などを用いて表している。しかし、これらの用語
は、すべてが、適切な物理的数量と関連付けられ、これらの数量に適用される便
宜的なラベルに過ぎない。
心理的な操作(mental operations)と通常は関連付けられている(「加える」
とか「比較する」とかいう)用語で言及される。ほとんどの場合に、特に指定さ
れない限り、人間のオペレータのそのような能力は不要であり、望まれてもいな
い。操作は、機械的な操作である。本発明の操作を実行する便利な機械には、汎
用のデジタル・コンピュータやそれに類似する装置が含まれる。この出願は、電
気的又はそれ以外の物理信号を処理しそれ以外の所望の物理信号を発生させるコ
ンピュータの操作方法に関するものである。
な装置は、求められている目的のために専用に構築され、汎用のデジタル・コン
ピュータで構成され、そのコンピュータに記憶されているコンピュータ・プログ
ラムによって選択的に動作し再構成が可能であるようになっている。この出願に
おいて与えられているアルゴリズムは、どのような特定のコンピュータやそれ以
外の装置と本質的に関係しているということはない。特に、ここで述べている本
発明の内容を実現するには、様々な汎用の機械を用いることができるし、あるい
は、必要な方法ステップを実行するのに専用の装置を構築するならば、それはそ
れで非常に便利である。これらの様々な機械に要求される構造は、この出願にお
ける開示内容から明らかであろう。
十分な理解を与えるために多数の詳細を含むものである。本発明の精神と範囲と
から逸脱することなく、これらの詳細を割愛することは可能であるし、様々な修
正や変更を行うことも可能である。従って、この明細書及び図面は、限定を意味
するものではなく、例示と見なさなければならない。
ロック図である。
Claims (14)
- 【請求項1】 音声認識手段によって認識される1つ又は複数の単語スト
リングと関連付けられている確率値を、前記単語ストリングと関連付けられてい
る意味論的値に基づいて動的に修正する方法であって、 前記意味論的値の1つが所定の意味論的タグと一致するときには、前記確率値
の1つ又は複数における変更を定義する1つ又は複数の規則を作成して記憶する
ステップであって、前記規則は、前記音声認識手段が用いられているコンテキス
トに関する1つ又は複数の外部的条件に基づいている、ステップと、 前記条件の1つが現に真であるかどうかを判断し、真である場合には、真であ
る条件と関連付けられているタグと一致する意味論的値と関連付けられている単
語ストリングの確率値の1つ又は複数を修正するステップと、 を含むことを特徴とする方法。 - 【請求項2】 請求項1記載の方法において、前記音声認識手段は前記単語
ストリングをアプリケーション・プログラムまで運び、前記判断するステップは
、前記アプリケーション・プログラムにおいて、前記条件の1つが現に真である
かどうかを判断し、真である場合には、真である条件と関連付けられているタグ
と一致する意味論的値と関連付けられている単語ストリングの確率値の1つ又は
複数を修正するように前記音声認識手段に命令するステップと、 を含むことを特徴とする方法。 - 【請求項3】 請求項1記載の方法において、 前記音声認識手段によって認識された単語ストリングと関連付けられている意
味論的値を1つ又は複数のキーワード値ペアとして記憶するステップと、 前記キーワード値ペアをアプリケーション・プログラムまで運ぶステップと、 前記アプリケーション・プログラムにおいて、前記条件の1つが現に真である
かどうかを判断し、真である場合には、真である条件と関連付けられているタグ
と一致する意味論的値と関連付けられている単語ストリングの確率値の1つ又は
複数を修正するように前記音声認識手段に命令するステップと、 を更に含むことを特徴とする方法。 - 【請求項4】 請求項1記載の方法において、 前記ワード及び意味論的値を、前記音声認識手段に論理的に結合されたアプリ
ケーション・プログラムまで運ぶステップと、 真である条件と関連付けられているタグと一致する意味論的値を有する単語ス
トリングの確率値の1つ又は複数を修正することができるアプリケーション・プ
ログラムによってコール可能な機能を、前記音声認識手段と共同して、作成し記
憶するステップと、 前記アプリケーション・プログラムにおいて、前記条件の1つが現に真である
かどうかを判断し、真である場合には、前記確率値の1つ又は複数をどのように
修正すべきかを識別するパラメータ値を用いて、前記機能をコールするステップ
と、 を更に含むことを特徴とする方法。 - 【請求項5】 請求項4記載の方法において、前記確率値の1つ又は複数を
修正した後で前記単語ストリングを再順序付けするステップを更に含むことを特
徴とする方法。 - 【請求項6】 請求項3記載の方法において、前記確率値の1つ又は複数を
修正した後で確率値によって前記単語ストリングを再順序付けするステップを更
に含むことを特徴とする方法。 - 【請求項7】 請求項1記載の方法において、前記修正するステップは、前
記確率値の1つ又は複数を真である条件と関連付けられているスケーリング・フ
ァクタと乗算することによって、前記確率値を修正するステップを更に含むこと
を特徴とする方法。 - 【請求項8】 請求項1記載の方法において、 前記意味論的値を含む1つ又は複数のワード値ペアを、前記音声認識手段に論
理的に結合されたアプリケーション・プログラムまで運ぶステップと、 真である条件と関連付けられているタグ・ワードと一致するワード値ペアと関
連付けられている単語ストリングの確率値の1つ又は複数を修正することができ
るアプリケーション・プログラムによってコール可能な機能を、前記音声認識手
段と共同して、作成し記憶するステップと、 前記アプリケーション・プログラムにおいて、前記条件の1つが現に真である
かどうかを判断し、真である場合には、真である条件と関連付けられているスケ
ーリング・ファクタを含めて、前記確率値の1つ又は複数をどのように修正すべ
きかを識別するパラメータ値を用いて、前記機能をコールするステップと、 真である条件と関連付けられているタグ・ワードと一致するワード値ペアの1
つと関連付けられている単語ストリングの確率値の1つを、その確率値と前記ス
ケーリング・ファクタとを乗算することによって修正するステップと、 を更に含むことを特徴とする方法。 - 【請求項9】 音声認識手段において受け取られた発話を認識する方法であ
って、 前記発話を、1つ又は複数のキーワード値ペアとそれぞれが関連付けられてい
る1つ又は複数の単語ストリングに変換するステップであって、前記ペアは、そ
れぞれが、前記発話の1つの意味論的要素を表すキーワードとその意味論的要素
に対応する前記発話の部分を表す意味論的値とを有している、ステップと、 前記単語ストリングのそれぞれと関連する確率値を記憶するステップと、 前記意味論的値の1つ又は複数が所定のタグ・ワードと一致するときに前記確
率値の1つ又は複数における変更を定義する1つ又は複数の規則を作成し記憶す
るステップであって、前記規則は、前記音声認識手段が用いられているコンテキ
ストに関する1つ又は複数の外部的条件に基づく、ステップと、 前記条件の1つが現に真であるかどうかを判断し、真である場合には、真であ
る条件と関連付けられているタグ・ワードと一致する意味論的値と関連付けられ
ている単語ストリングの1つの確率値の1つ又は複数を修正するステップと、 前記ワード値ペアを前記音声認識手段に論理的に結合されたアプリケーション
・プログラムまで運ぶステップと、 真である条件と関連付けられているタグ・ワードと一致するワードと関連付け
られている確率値の1つ又は複数を修正することができるアプリケーション・プ
ログラムによってコール可能な機能を、前記音声認識手段と共同して、作成し記
憶するステップと、 前記アプリケーション・プログラムにおいて、前記条件の1つが現に真である
かどうかを判断し、真である場合には、前記確率値の1つ又は複数をどのように
修正すべきかを識別するパラメータ値を用いて、前記機能をコールするステップ
と、 前記機能を用いて前記確率値の1つ又は複数を修正するステップと、 前記確率値に従って前記単語ストリングを再順序付けするステップと、 を含むことを特徴とする方法。 - 【請求項10】 請求項9記載の方法において、前記修正するステップは、
前記確率値の1つ又は複数を真である条件と関連付けられているスケーリング・
ファクタと乗算することによって、前記単語ストリングを修正するステップを更
に含むことを特徴とする方法。 - 【請求項11】 請求項9記載の方法において、 前記ワード値ペアを、前記音声認識手段に論理的に結合されたアプリケーショ
ン・プログラムまで運ぶステップと、 真である条件と関連付けられているタグ・ワードと一致するワードと関連付け
られている確率値の1つ又は複数を修正することができるアプリケーション・プ
ログラムによってコール可能な機能を、前記音声認識手段と共同して、作成し記
憶するステップと、 前記アプリケーション・プログラムにおいて、前記条件の1つが現に真である
かどうかを判断し、真である場合には、真である条件と関連付けられているスケ
ーリング・ファクタを含めて、前記確率値の1つ又は複数をどのように修正すべ
きかを識別するパラメータ値を用いて、前記機能をコールするステップと、 真である条件と関連付けられているタグ・ワードと一致するワードの1つと関
連付けられている確率値の1つを、その確率値と前記スケーリング・ファクタと
を乗算することによって修正するステップと、 を更に含むことを特徴とする方法。 - 【請求項12】 請求項1記載の方法において、前記作成し記憶するステッ
プは、 所定の意味論的タグのテーブルを作成し記憶するステップであって、前記意味
論的タグはそれぞれが代替的な確率値と関連付けられている、ステップと、 仮定されたワードの1つ又は複数が所定の意味論的タグと一致するときには、
前記値の1つ又は複数を前記代替的な確率値に変更する機能コールを、この機能
コールの中にあり前記音声認識手段が用いられているコンテキストに関する1つ
又は複数の外部的条件に基づく規則に従って、作成し記憶するステップと、 を含むことを特徴とする方法。 - 【請求項13】 請求項1記載の方法において、前記作成し記憶するステッ
プは、 所定の意味論的タグのテーブルを作成し記憶するステップであって、前記意味
論的タグは、それぞれが、代替的な確率値、ウェイト値及びオフセット値と関連
付けられている、ステップと、 仮定されたワードの1つ又は複数が所定の意味論的タグと一致するときには、
前記値の1つ又は複数を前記代替的な確率値に変更する、又は、前記ウェイト値
若しくは前記オフセット値を前記確率値に与える機能コールを、この機能コール
の中にあり前記音声認識手段が用いられているコンテキストに関する1つ又は複
数の外部的条件に基づく規則に従って、作成し記憶するステップと、 を含むことを特徴とする方法。 - 【請求項14】 音声認識手段によって認識される1つ又は複数の単語スト
リングと関連付けられている確率値を、前記単語ストリングと関連付けられてい
る意味論的値に基づいて動的に修正する命令の1つ又は複数のシーケンスが記憶
されているコンピュータ読取可能な媒体であって、前記命令の1つ又は複数のシ
ーケンスが実行されると、1つ又は複数のプロセッサが、 前記意味論的値の1つが所定の意味論的タグと一致するときには、前記確率値
の1つ又は複数における変更を定義する1つ又は複数の規則を作成して記憶する
ステップであって、前記規則は、前記音声認識手段が用いられているコンテキス
トに関する1つ又は複数の外部的条件に基づいている、ステップと、 前記条件の1つが現に真であるかどうかを判断し、真である場合には、真であ
る条件と関連付けられているタグと一致する意味論的値と関連付けられている単
語ストリングの確率値の1つ又は複数を修正するステップと、 を実行することを特徴とするコンピュータ読取可能な媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/258,012 US6519562B1 (en) | 1999-02-25 | 1999-02-25 | Dynamic semantic control of a speech recognition system |
US09/258,012 | 1999-02-25 | ||
PCT/US2000/004810 WO2000051106A1 (en) | 1999-02-25 | 2000-02-25 | Dynamic semantic control of a speech recognition system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002538534A true JP2002538534A (ja) | 2002-11-12 |
Family
ID=22978725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000601630A Pending JP2002538534A (ja) | 1999-02-25 | 2000-02-25 | 音声認識システムの動的意味論的制御 |
Country Status (7)
Country | Link |
---|---|
US (2) | US6519562B1 (ja) |
EP (1) | EP1163664A4 (ja) |
JP (1) | JP2002538534A (ja) |
AU (1) | AU3377400A (ja) |
CA (1) | CA2372437A1 (ja) |
TW (1) | TW480472B (ja) |
WO (1) | WO2000051106A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015526797A (ja) * | 2012-06-21 | 2015-09-10 | グーグル・インコーポレーテッド | 動的言語モデル |
Families Citing this family (111)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6519562B1 (en) * | 1999-02-25 | 2003-02-11 | Speechworks International, Inc. | Dynamic semantic control of a speech recognition system |
US8321411B2 (en) | 1999-03-23 | 2012-11-27 | Microstrategy, Incorporated | System and method for management of an automatic OLAP report broadcast system |
US9208213B2 (en) | 1999-05-28 | 2015-12-08 | Microstrategy, Incorporated | System and method for network user interface OLAP report formatting |
US8607138B2 (en) | 1999-05-28 | 2013-12-10 | Microstrategy, Incorporated | System and method for OLAP report generation with spreadsheet report within the network user interface |
US20050223408A1 (en) * | 1999-09-13 | 2005-10-06 | Microstrategy, Incorporated | System and method for real-time, personalized, dynamic, interactive voice services for entertainment-related information |
US8130918B1 (en) | 1999-09-13 | 2012-03-06 | Microstrategy, Incorporated | System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with closed loop transaction processing |
US6263051B1 (en) * | 1999-09-13 | 2001-07-17 | Microstrategy, Inc. | System and method for voice service bureau |
US6964012B1 (en) * | 1999-09-13 | 2005-11-08 | Microstrategy, Incorporated | System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, including deployment through personalized broadcasts |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US7392185B2 (en) * | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
TW472232B (en) * | 2000-08-11 | 2002-01-11 | Ind Tech Res Inst | Probability-base fault-tolerance natural language understanding method |
AUPR082400A0 (en) * | 2000-10-17 | 2000-11-09 | Telstra R & D Management Pty Ltd | An information retrieval system |
AU2001295283B2 (en) * | 2000-10-17 | 2007-03-22 | Telstra Corporation Limited | An information retrieval system |
US20040190688A1 (en) * | 2003-03-31 | 2004-09-30 | Timmins Timothy A. | Communications methods and systems using voiceprints |
US6950793B2 (en) * | 2001-01-12 | 2005-09-27 | International Business Machines Corporation | System and method for deriving natural language representation of formal belief structures |
US7127402B2 (en) * | 2001-01-12 | 2006-10-24 | International Business Machines Corporation | Method and apparatus for converting utterance representations into actions in a conversational system |
US7085723B2 (en) * | 2001-01-12 | 2006-08-01 | International Business Machines Corporation | System and method for determining utterance context in a multi-context speech application |
US7257537B2 (en) * | 2001-01-12 | 2007-08-14 | International Business Machines Corporation | Method and apparatus for performing dialog management in a computer conversational interface |
US7249018B2 (en) * | 2001-01-12 | 2007-07-24 | International Business Machines Corporation | System and method for relating syntax and semantics for a conversational speech application |
US6856957B1 (en) * | 2001-02-07 | 2005-02-15 | Nuance Communications | Query expansion and weighting based on results of automatic speech recognition |
US7027987B1 (en) | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
US7103549B2 (en) * | 2001-03-22 | 2006-09-05 | Intel Corporation | Method for improving speech recognition performance using speaker and channel information |
US6785647B2 (en) * | 2001-04-20 | 2004-08-31 | William R. Hutchison | Speech recognition system with network accessible speech processing resources |
KR20040058328A (ko) * | 2001-11-26 | 2004-07-03 | 바스프 악티엔게젤샤프트 | 고객 비지니스 프로세스의 컴퓨터 구현 평가 프로세스 및장치 |
US20030191646A1 (en) * | 2002-04-08 | 2003-10-09 | D'avello Robert F. | Method of setting voice processing parameters in a communication device |
EP1450350A1 (en) * | 2003-02-20 | 2004-08-25 | Sony International (Europe) GmbH | Method for Recognizing Speech with attributes |
US7548858B2 (en) * | 2003-03-05 | 2009-06-16 | Microsoft Corporation | System and method for selective audible rendering of data to a user based on user input |
JP4027269B2 (ja) * | 2003-06-02 | 2007-12-26 | キヤノン株式会社 | 情報処理方法及び装置 |
US7383172B1 (en) * | 2003-08-15 | 2008-06-03 | Patrick William Jamieson | Process and system for semantically recognizing, correcting, and suggesting domain specific speech |
US7460652B2 (en) * | 2003-09-26 | 2008-12-02 | At&T Intellectual Property I, L.P. | VoiceXML and rule engine based switchboard for interactive voice response (IVR) services |
US20050080628A1 (en) * | 2003-10-10 | 2005-04-14 | Metaphor Solutions, Inc. | System, method, and programming language for developing and running dialogs between a user and a virtual agent |
US7356475B2 (en) * | 2004-01-05 | 2008-04-08 | Sbc Knowledge Ventures, L.P. | System and method for providing access to an interactive service offering |
US7936861B2 (en) * | 2004-07-23 | 2011-05-03 | At&T Intellectual Property I, L.P. | Announcement system and method of use |
US8165281B2 (en) * | 2004-07-28 | 2012-04-24 | At&T Intellectual Property I, L.P. | Method and system for mapping caller information to call center agent transactions |
US20060026049A1 (en) * | 2004-07-28 | 2006-02-02 | Sbc Knowledge Ventures, L.P. | Method for identifying and prioritizing customer care automation |
US7580837B2 (en) * | 2004-08-12 | 2009-08-25 | At&T Intellectual Property I, L.P. | System and method for targeted tuning module of a speech recognition system |
US7602898B2 (en) * | 2004-08-18 | 2009-10-13 | At&T Intellectual Property I, L.P. | System and method for providing computer assisted user support |
US20060062375A1 (en) * | 2004-09-23 | 2006-03-23 | Sbc Knowledge Ventures, L.P. | System and method for providing product offers at a call center |
EP2317508B1 (en) * | 2004-10-05 | 2012-06-27 | Inago Corporation | Grammar rule generation for speech recognition |
US7925506B2 (en) | 2004-10-05 | 2011-04-12 | Inago Corporation | Speech recognition accuracy via concept to keyword mapping |
US7197130B2 (en) | 2004-10-05 | 2007-03-27 | Sbc Knowledge Ventures, L.P. | Dynamic load balancing between multiple locations with different telephony system |
US7668889B2 (en) | 2004-10-27 | 2010-02-23 | At&T Intellectual Property I, Lp | Method and system to combine keyword and natural language search results |
US7657005B2 (en) * | 2004-11-02 | 2010-02-02 | At&T Intellectual Property I, L.P. | System and method for identifying telephone callers |
US7724889B2 (en) * | 2004-11-29 | 2010-05-25 | At&T Intellectual Property I, L.P. | System and method for utilizing confidence levels in automated call routing |
US7242751B2 (en) | 2004-12-06 | 2007-07-10 | Sbc Knowledge Ventures, L.P. | System and method for speech recognition-enabled automatic call routing |
US7864942B2 (en) * | 2004-12-06 | 2011-01-04 | At&T Intellectual Property I, L.P. | System and method for routing calls |
US20060126811A1 (en) * | 2004-12-13 | 2006-06-15 | Sbc Knowledge Ventures, L.P. | System and method for routing calls |
US20060126808A1 (en) * | 2004-12-13 | 2006-06-15 | Sbc Knowledge Ventures, L.P. | System and method for measurement of call deflection |
US7751551B2 (en) | 2005-01-10 | 2010-07-06 | At&T Intellectual Property I, L.P. | System and method for speech-enabled call routing |
US7450698B2 (en) * | 2005-01-14 | 2008-11-11 | At&T Intellectual Property 1, L.P. | System and method of utilizing a hybrid semantic model for speech recognition |
US7627096B2 (en) * | 2005-01-14 | 2009-12-01 | At&T Intellectual Property I, L.P. | System and method for independently recognizing and selecting actions and objects in a speech recognition system |
US7627109B2 (en) * | 2005-02-04 | 2009-12-01 | At&T Intellectual Property I, Lp | Call center system for multiple transaction selections |
US20060188087A1 (en) * | 2005-02-18 | 2006-08-24 | Sbc Knowledge Ventures, Lp | System and method for caller-controlled music on-hold |
EP1693829B1 (en) * | 2005-02-21 | 2018-12-05 | Harman Becker Automotive Systems GmbH | Voice-controlled data system |
US8130936B2 (en) * | 2005-03-03 | 2012-03-06 | At&T Intellectual Property I, L.P. | System and method for on hold caller-controlled activities and entertainment |
US7933399B2 (en) * | 2005-03-22 | 2011-04-26 | At&T Intellectual Property I, L.P. | System and method for utilizing virtual agents in an interactive voice response application |
US8223954B2 (en) | 2005-03-22 | 2012-07-17 | At&T Intellectual Property I, L.P. | System and method for automating customer relations in a communications environment |
US7937396B1 (en) | 2005-03-23 | 2011-05-03 | Google Inc. | Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments |
US7584099B2 (en) * | 2005-04-06 | 2009-09-01 | Motorola, Inc. | Method and system for interpreting verbal inputs in multimodal dialog system |
US7636432B2 (en) * | 2005-05-13 | 2009-12-22 | At&T Intellectual Property I, L.P. | System and method of determining call treatment of repeat calls |
US8005204B2 (en) * | 2005-06-03 | 2011-08-23 | At&T Intellectual Property I, L.P. | Call routing system and method of using the same |
US7657020B2 (en) * | 2005-06-03 | 2010-02-02 | At&T Intellectual Property I, Lp | Call routing system and method of using the same |
US20060287867A1 (en) * | 2005-06-17 | 2006-12-21 | Cheng Yan M | Method and apparatus for generating a voice tag |
US7457753B2 (en) * | 2005-06-29 | 2008-11-25 | University College Dublin National University Of Ireland | Telephone pathology assessment |
US7471775B2 (en) * | 2005-06-30 | 2008-12-30 | Motorola, Inc. | Method and apparatus for generating and updating a voice tag |
US8503641B2 (en) | 2005-07-01 | 2013-08-06 | At&T Intellectual Property I, L.P. | System and method of automated order status retrieval |
US8175253B2 (en) * | 2005-07-07 | 2012-05-08 | At&T Intellectual Property I, L.P. | System and method for automated performance monitoring for a call servicing system |
US8526577B2 (en) * | 2005-08-25 | 2013-09-03 | At&T Intellectual Property I, L.P. | System and method to access content from a speech-enabled automated system |
US8548157B2 (en) | 2005-08-29 | 2013-10-01 | At&T Intellectual Property I, L.P. | System and method of managing incoming telephone calls at a call center |
US7937265B1 (en) * | 2005-09-27 | 2011-05-03 | Google Inc. | Paraphrase acquisition |
WO2007066704A1 (ja) * | 2005-12-09 | 2007-06-14 | Nec Corporation | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム |
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US20080010069A1 (en) * | 2006-07-10 | 2008-01-10 | Microsoft Corporation | Authoring and running speech related applications |
US8346555B2 (en) * | 2006-08-22 | 2013-01-01 | Nuance Communications, Inc. | Automatic grammar tuning using statistical language model generation |
US8374874B2 (en) | 2006-09-11 | 2013-02-12 | Nuance Communications, Inc. | Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction |
US7957976B2 (en) | 2006-09-12 | 2011-06-07 | Nuance Communications, Inc. | Establishing a multimodal advertising personality for a sponsor of a multimodal application |
US7840409B2 (en) * | 2007-02-27 | 2010-11-23 | Nuance Communications, Inc. | Ordering recognition results produced by an automatic speech recognition engine for a multimodal application |
US8515757B2 (en) | 2007-03-20 | 2013-08-20 | Nuance Communications, Inc. | Indexing digitized speech with words represented in the digitized speech |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US20090164387A1 (en) * | 2007-04-17 | 2009-06-25 | Semandex Networks Inc. | Systems and methods for providing semantically enhanced financial information |
US8676577B2 (en) * | 2008-03-31 | 2014-03-18 | Canyon IP Holdings, LLC | Use of metadata to post process speech recognition output |
US8082148B2 (en) | 2008-04-24 | 2011-12-20 | Nuance Communications, Inc. | Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise |
US8536976B2 (en) * | 2008-06-11 | 2013-09-17 | Veritrix, Inc. | Single-channel multi-factor authentication |
US8166297B2 (en) | 2008-07-02 | 2012-04-24 | Veritrix, Inc. | Systems and methods for controlling access to encrypted data stored on a mobile device |
WO2010051342A1 (en) * | 2008-11-03 | 2010-05-06 | Veritrix, Inc. | User authentication for social networks |
US8290780B2 (en) | 2009-06-24 | 2012-10-16 | International Business Machines Corporation | Dynamically extending the speech prompts of a multimodal application |
US8510117B2 (en) | 2009-07-09 | 2013-08-13 | Nuance Communications, Inc. | Speech enabled media sharing in a multimodal application |
US8416714B2 (en) | 2009-08-05 | 2013-04-09 | International Business Machines Corporation | Multimodal teleconferencing |
US9070360B2 (en) * | 2009-12-10 | 2015-06-30 | Microsoft Technology Licensing, Llc | Confidence calibration in automatic speech recognition systems |
US8738377B2 (en) * | 2010-06-07 | 2014-05-27 | Google Inc. | Predicting and learning carrier phrases for speech input |
US9576570B2 (en) | 2010-07-30 | 2017-02-21 | Sri International | Method and apparatus for adding new vocabulary to interactive translation and dialogue systems |
US8527270B2 (en) * | 2010-07-30 | 2013-09-03 | Sri International | Method and apparatus for conducting an interactive dialogue |
US8688453B1 (en) * | 2011-02-28 | 2014-04-01 | Nuance Communications, Inc. | Intent mining via analysis of utterances |
US8660847B2 (en) * | 2011-09-02 | 2014-02-25 | Microsoft Corporation | Integrated local and cloud based speech recognition |
US8965763B1 (en) * | 2012-02-02 | 2015-02-24 | Google Inc. | Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training |
US8543398B1 (en) | 2012-02-29 | 2013-09-24 | Google Inc. | Training an automatic speech recognition system using compressed word frequencies |
US8374865B1 (en) | 2012-04-26 | 2013-02-12 | Google Inc. | Sampling training data for an automatic speech recognition system based on a benchmark classification distribution |
US8805684B1 (en) | 2012-05-31 | 2014-08-12 | Google Inc. | Distributed speaker adaptation |
US8571859B1 (en) | 2012-05-31 | 2013-10-29 | Google Inc. | Multi-stage speaker adaptation |
US9502029B1 (en) * | 2012-06-25 | 2016-11-22 | Amazon Technologies, Inc. | Context-aware speech processing |
US8554559B1 (en) | 2012-07-13 | 2013-10-08 | Google Inc. | Localized speech recognition with offload |
US9123333B2 (en) | 2012-09-12 | 2015-09-01 | Google Inc. | Minimum bayesian risk methods for automatic speech recognition |
US9805718B2 (en) * | 2013-04-19 | 2017-10-31 | Sri Internaitonal | Clarifying natural language input using targeted questions |
US9026431B1 (en) * | 2013-07-30 | 2015-05-05 | Google Inc. | Semantic parsing with multiple parsers |
TWI509465B (zh) * | 2013-10-28 | 2015-11-21 | Univ Kun Shan | Intelligent voice control system and method |
US8868409B1 (en) | 2014-01-16 | 2014-10-21 | Google Inc. | Evaluating transcriptions with a semantic parser |
TWI526856B (zh) * | 2014-10-22 | 2016-03-21 | 財團法人資訊工業策進會 | 服務需求分析系統、方法與電腦可讀取記錄媒體 |
US10672390B2 (en) | 2014-12-22 | 2020-06-02 | Rovi Guides, Inc. | Systems and methods for improving speech recognition performance by generating combined interpretations |
US11848025B2 (en) | 2020-01-17 | 2023-12-19 | ELSA, Corp. | Methods for measuring speech intelligibility, and related systems and apparatus |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4593367A (en) * | 1984-01-16 | 1986-06-03 | Itt Corporation | Probabilistic learning element |
US4984178A (en) | 1989-02-21 | 1991-01-08 | Texas Instruments Incorporated | Chart parser for stochastic unification grammar |
US5146406A (en) * | 1989-08-16 | 1992-09-08 | International Business Machines Corporation | Computer method for identifying predicate-argument structures in natural language text |
US5418717A (en) * | 1990-08-27 | 1995-05-23 | Su; Keh-Yih | Multiple score language processing system |
US5390279A (en) * | 1992-12-31 | 1995-02-14 | Apple Computer, Inc. | Partitioning speech rules by context for speech recognition |
US5475588A (en) | 1993-06-18 | 1995-12-12 | Mitsubishi Electric Research Laboratories, Inc. | System for decreasing the time required to parse a sentence |
DE69423838T2 (de) * | 1993-09-23 | 2000-08-03 | Xerox Corp | Semantische Gleichereignisfilterung für Spracherkennung und Signalübersetzungsanwendungen |
US5510981A (en) * | 1993-10-28 | 1996-04-23 | International Business Machines Corporation | Language translation apparatus and method using context-based translation models |
US5748841A (en) * | 1994-02-25 | 1998-05-05 | Morin; Philippe | Supervised contextual language acquisition system |
US5642519A (en) | 1994-04-29 | 1997-06-24 | Sun Microsystems, Inc. | Speech interpreter with a unified grammer compiler |
US5835667A (en) * | 1994-10-14 | 1998-11-10 | Carnegie Mellon University | Method and apparatus for creating a searchable digital video library and a system and method of using such a library |
US5717828A (en) | 1995-03-15 | 1998-02-10 | Syracuse Language Systems | Speech recognition apparatus and method for learning |
EP0838073B1 (en) * | 1995-05-26 | 2002-07-24 | Speechworks International, Inc. | Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system |
US5675707A (en) * | 1995-09-15 | 1997-10-07 | At&T | Automated call router system and method |
US5799276A (en) | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
US5905773A (en) * | 1996-03-28 | 1999-05-18 | Northern Telecom Limited | Apparatus and method for reducing speech recognition vocabulary perplexity and dynamically selecting acoustic models |
US5828999A (en) * | 1996-05-06 | 1998-10-27 | Apple Computer, Inc. | Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems |
US5797123A (en) * | 1996-10-01 | 1998-08-18 | Lucent Technologies Inc. | Method of key-phase detection and verification for flexible speech understanding |
JPH10143191A (ja) * | 1996-11-13 | 1998-05-29 | Hitachi Ltd | 音声認識システム |
US6029124A (en) * | 1997-02-21 | 2000-02-22 | Dragon Systems, Inc. | Sequential, nonparametric speech recognition and speaker identification |
CN1163869C (zh) * | 1997-05-06 | 2004-08-25 | 语音工程国际公司 | 用于开发交互式语音应用程序的系统和方法 |
US5860063A (en) * | 1997-07-11 | 1999-01-12 | At&T Corp | Automated meaningful phrase clustering |
EP0960417B1 (en) * | 1997-12-12 | 2003-05-28 | Koninklijke Philips Electronics N.V. | Method of determining model-specific factors for pattern recognition, in particular for speech patterns |
US6397179B2 (en) * | 1997-12-24 | 2002-05-28 | Nortel Networks Limited | Search optimization system and method for continuous speech recognition |
US6519562B1 (en) * | 1999-02-25 | 2003-02-11 | Speechworks International, Inc. | Dynamic semantic control of a speech recognition system |
US6901366B1 (en) * | 1999-08-26 | 2005-05-31 | Matsushita Electric Industrial Co., Ltd. | System and method for assessing TV-related information over the internet |
US6675159B1 (en) * | 2000-07-27 | 2004-01-06 | Science Applic Int Corp | Concept-based search and retrieval system |
-
1999
- 1999-02-25 US US09/258,012 patent/US6519562B1/en not_active Expired - Lifetime
-
2000
- 2000-02-25 EP EP00911965A patent/EP1163664A4/en not_active Withdrawn
- 2000-02-25 WO PCT/US2000/004810 patent/WO2000051106A1/en not_active Application Discontinuation
- 2000-02-25 CA CA002372437A patent/CA2372437A1/en not_active Abandoned
- 2000-02-25 TW TW089103429A patent/TW480472B/zh not_active IP Right Cessation
- 2000-02-25 AU AU33774/00A patent/AU3377400A/en not_active Abandoned
- 2000-02-25 JP JP2000601630A patent/JP2002538534A/ja active Pending
-
2003
- 2003-02-10 US US10/364,298 patent/US7127393B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015526797A (ja) * | 2012-06-21 | 2015-09-10 | グーグル・インコーポレーテッド | 動的言語モデル |
US10140362B2 (en) | 2012-06-21 | 2018-11-27 | Google Llc | Dynamic language model |
Also Published As
Publication number | Publication date |
---|---|
US6519562B1 (en) | 2003-02-11 |
US20040006465A1 (en) | 2004-01-08 |
CA2372437A1 (en) | 2000-08-31 |
EP1163664A4 (en) | 2005-07-27 |
EP1163664A1 (en) | 2001-12-19 |
TW480472B (en) | 2002-03-21 |
US7127393B2 (en) | 2006-10-24 |
WO2000051106A1 (en) | 2000-08-31 |
AU3377400A (en) | 2000-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002538534A (ja) | 音声認識システムの動的意味論的制御 | |
US6704710B2 (en) | Assigning meanings to utterances in a speech recognition system | |
US5390279A (en) | Partitioning speech rules by context for speech recognition | |
US5384892A (en) | Dynamic language model for speech recognition | |
EP1043711B1 (en) | Natural language parsing method and apparatus | |
US5613036A (en) | Dynamic categories for a speech recognition system | |
US6477488B1 (en) | Method for dynamic context scope selection in hybrid n-gram+LSA language modeling | |
US8645122B1 (en) | Method of handling frequently asked questions in a natural language dialog service | |
US6178401B1 (en) | Method for reducing search complexity in a speech recognition system | |
US20020188446A1 (en) | Method and apparatus for distribution-based language model adaptation | |
EP0387602A2 (en) | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system | |
US20040243393A1 (en) | Semantic object synchronous understanding implemented with speech application language tags | |
JP2002041080A (ja) | 単語予測方法、音声認識方法、単語予測装置、音声認識装置、コンピュータ・システム、記憶媒体およびプログラム伝送装置 | |
Tur et al. | Intent determination and spoken utterance classification | |
JP3634863B2 (ja) | 音声認識システム | |
US6735560B1 (en) | Method of identifying members of classes in a natural language understanding system | |
JP3088364B2 (ja) | 音声言語理解装置及び音声言語理解システム | |
US11626107B1 (en) | Natural language processing | |
JP3059413B2 (ja) | 自然言語理解装置及び自然言語理解システム | |
JP2002278589A (ja) | 音声対話装置、音声対話処理方法、音声対話処理プログラムおよびその記録媒体 | |
JP2817406B2 (ja) | 連続音声認識方式 | |
JP2901850B2 (ja) | 統計的言語モデルを用いた音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071204 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20080304 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20080311 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080604 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090326 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090626 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090703 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090724 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090731 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091202 |