JP2002538534A - 音声認識システムの動的意味論的制御 - Google Patents

音声認識システムの動的意味論的制御

Info

Publication number
JP2002538534A
JP2002538534A JP2000601630A JP2000601630A JP2002538534A JP 2002538534 A JP2002538534 A JP 2002538534A JP 2000601630 A JP2000601630 A JP 2000601630A JP 2000601630 A JP2000601630 A JP 2000601630A JP 2002538534 A JP2002538534 A JP 2002538534A
Authority
JP
Japan
Prior art keywords
value
word
semantic
probability
true
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000601630A
Other languages
English (en)
Inventor
フィリップス,マイケル・エス
バーナード,エティエンネ
ダハン,ジーン−ガイ
メッツガー,マイケル・ジェイ
Original Assignee
スピーチワークス・インターナショナル・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=22978725&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2002538534(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by スピーチワークス・インターナショナル・インコーポレーテッド filed Critical スピーチワークス・インターナショナル・インコーポレーテッド
Publication of JP2002538534A publication Critical patent/JP2002538534A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Abstract

(57)【要約】 音声認識システムは、音声を認識して、それぞれが音声の仮説である1つ又は複数の単語ストリングを発生し、確率値(210)すなわちそれぞれの単語ストリングのスコアを作成し記憶する。更に、この音声認識システムは、それぞれの単語ストリングに対して、話された音声に対する意味論的要素とその意味論的要素の意味論的値とを表す1つ又は複数のキーワード値ペア(213)を作成し記憶する。1つ又は複数の動的意味論的規則が定義されるのであるが、この動的意味論的規則は、単語ストリングの確率値が、外部的条件に関する情報、事実、アプリケーションの環境などに基づき、単語ストリング(214)の意味論的値との関係で、どのように修正されるべきかを特定するものである。そして、この動的意味論的規則は、単語ストリング及びキーワード値ペア(214)に適用される。音声認識手段は、1つ又は複数の確率値を修正し、単語ストリング(216)を再順序付けし、制御をアプリケーションに戻す。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】
本発明は、広くは、データ処理に関する。更に詳しくは、本発明は、音声認識
システムに関する。
【0002】
【従来の技術】
音声認識システムは、人間が話した音声を認識し、認識された音声に従って動
作したり更なる処理を実行したりするように構成された特殊なコンピュータ・シ
ステムである。このようなシステムは、現在、航空券の予約、オートアテンダン
ト(auto-attendants)、命令の入力などを含む様々な応用例において広く用い
られている。一般に、このシステムは、コンピュータ・ハードウェア若しくはコ
ンピュータ・ソフトウェアのいずれか、又は、これらの組合せで構成される。
【0003】 音声認識システムは、典型的には、音響(アコースティック)信号を受け取る
ことによって動作する。ここで、音響信号とは、話された発話(utterance)か
ら受け取られたトランスデューサにおける音響エネルギを表す電子信号、又は、
データの組である。次に、このシステムは、P(A|W)*P(W)という確率
を最大にする一連のテキスト・キャラクタ(「単語ストリング」)を見つけよう
とする。ここで、Aは音響信号を意味し、Wは与えられた単語ストリングを意味
する。P(A|W)という成分は音響モデルと称され、P(W)は言語モデルと
称される。
【0004】 音声認識手段(speech recognizer)は、音響モデル若しくは言語モデルを変
更させることによって、又は、その両方を変更させることによって、改良するこ
とができる。言語は、ワード(単語)ベース、又は、「意味論的モデル」(sema
ntic model)でありうる。これは、P(W)を導く特定の方法である。
【0005】 典型的には、言語モデルは、開発中の特定のアプリケーションから多数の発話
を取得し、これらの発話を、どのような単語ストリングが与えられてもP(W)
を評価することができるワード・ベースの言語モデルを生じる言語モデル訓練プ
ログラムに提供する。この例には、バイグラム(bigram)モデル、トライグラム
(trigram)モデル、又は、より一般的にnグラム言語モデルが含まれる。
【0006】 発話における一連のワードW0−Wmでは、nグラム限度モデルは、それまでの
n−1個のワードが与えられたときに、この発話がワードjである確率を評価す
る。従って、トライグラムでは、P(Wj|発話)は、P(Wj|Wj-1,Wj-2
によって評価される。nグラム・タイプの言語モデルは、アプリケーション環境
に対して比較的静的であると見ることができる。例えば、静的なnグラム言語モ
デルは、音声認識手段が用いられている特定のアプリケーション又はそのアプリ
ケーションに関する外部的な事実情報に基づいて、その振る舞いを変更すること
はできない。従って、この分野では、用いられる特定のアプリケーションに対し
て適用させることができるような改良型の音声認識手段が強く求められている。
【0007】 nグラム言語モデルや、それ以外のワード・ベースの言語モデルは、大量の訓
練用発話を有するアプリケーションでうまく機能し、この言語モデルは、時間経
過と共に変更することはない。従って、大量の訓練用データが利用可能でないア
プリケーションに対しては、又は、基礎となる言語モデルが時間経過と共に変更
する場合には、アプリケーションに特有の情報を考慮することによって、より正
確な結果を得ることができる改良型の音声認識手段が望まれる。
【0008】 これ以外の課題や目的は、以下の詳細な説明から明らかになるはずである。
【0009】
【発明の概要】
以上で述べた課題や、以下の説明から明らかになるであろうそれ以外の課題及
び目的は、本発明によって達成される。本発明は、ある側面においては、音声認
識手段によって認識される単語ストリングと関連付けられている1つ又は複数の
確率値を、単語ストリングから導かれるキーワード及び値のペアによって表され
る意味論的値に基づいて動的に修正する方法であって、意味論的値が所定の意味
論的タグと一致するときには、確率値の1つ又は複数における変更を定義する1
つ又は複数の規則を作成して記憶するステップであって、この規則は、音声認識
手段が用いられているコンテキストに関する1つ又は複数の外部的条件に基づい
ている、ステップと、条件の1つが現に真であるかどうかを判断し、真である場
合には、真である条件と関連付けられているタグと一致する確率値の1つ又は複
数を修正するステップと、を含む方法によって構成される。
【0010】 ある特徴によると、音声認識手段は、単語ストリングをアプリケーション・プ
ログラムまで運ぶ。前記判断するステップでは、アプリケーション・プログラム
において、条件の1つが現に真であるかどうかが判断され、真である場合には、
音声認識手段に対して、真である条件と関連付けられているタグと一致する意味
論的値と関連付けられている単語ストリングの確率値の1つ又は複数を修正する
ように命令がなされる。
【0011】 これ以外の特徴によると、音声認識手段によって認識された単語ストリングと
関連付けられている意味論的値が、1つ又は複数のキーワード値ペアとして表現
され、キーワード値ペアがアプリケーション・プログラムまで運ばれ、アプリケ
ーション・プログラムにおいて、条件の1つが現に真であるかどうかを判断し、
真である場合には、音声認識手段に対して、真である条件と関連付けられている
タグと一致するキーワード値ペアと関連付けられている単語ストリングの確率値
を修正するように命令がなされる。
【0012】 更に別の特徴によると、ワード及び意味論的値は、音声認識手段に論理的に結
合されたアプリケーション・プログラムまで運ばれ、真である条件と関連付けら
れているタグと一致する意味論的値と関連付けられている単語ストリングの確率
値の1つ又は複数を修正することができるアプリケーション・プログラムによっ
てコール可能な機能が、前記音声認識手段と共同して、作成されて記憶され、こ
のアプリケーション・プログラムにおいて、条件の1つが現に真であるかどうか
が判断され、真である場合には、意味論的値の1つ又は複数をどのように修正す
べきかを識別するパラメータ値を用いて、前記機能がコールされる。
【0013】 関連する特徴として、確率値の1つ又は複数を修正した後で単語ストリングを
再順序付けすることが含まれる。更に別の特徴としては、確率値の1つ又は複数
を真である条件と関連付けられているスケーリング・ファクタと乗算することに
よって、確率値を修正することが含まれる。
【0014】 別の特徴では、意味論的値を含む1つ又は複数のワード値ペアを、音声認識手
段に論理的に結合されたアプリケーション・プログラムまで運ぶことが含まれる
。真である条件と関連付けられているタグ・ワードと一致するワード値ペアのワ
ードと関連付けられている単語ストリングの確率値の1つ又は複数を修正するこ
とができる機能が、音声認識手段と共同して、作成され記憶される。アプリケー
ション・プログラムにおいて、条件の1つが現に真であるかどうかが判断され、
真である場合には、真である条件と関連付けられているスケーリング・ファクタ
を含めて、意味論的値と関連付けられている単語ストリングの確率値をどのよう
に修正すべきかを識別するパラメータ値を用いて、前記の機能がコールされる。
この機能は、確率値を、この確率値とスケーリング・ファクタとを乗算すること
によって、修正することができる。
【0015】 本発明は、また、以上のステップを実行するように構成することができるコン
ピュータ読取可能な媒体と装置とも包含する。
【0016】
【発明の実施の形態】
本発明は、制限的にではなく、例示として、添付の図面に図解されている。図
面では、同じ参照番号は同じ構成要素を示している。
【0017】 動的意味論的モデル(dynamic semantic model)を用いた音声認識処理のため
の方法及び装置が説明される。以下では、説明の目的で、特定の詳細を多数与え
ることにより、本発明の十分な理解が得られることが意図されている。しかし、
当業者であれば、本発明は、これらの特定の詳細とは関係なく実現可能であるこ
とを理解するはずである。また、既知の構造及び装置をブロック図形式で示すこ
とにより、本発明を不必要に曖昧にすることを回避している。
【0018】 動的意味論的モデルを用いた音声認識システムの動作理論について述べる。大
量の訓練用データを用いることができない場合や、基礎となる言語モデルが時間
の経過と共に変更する場合には、単語(ワード)レベルからだけではなく、発話
(utterance)の意味も考慮してモデルを導くことにより、音声認識手段を改良
することができる。このような場合には、意味論的情報を用いることにより、言
語モデルの精度を著しく向上させることができる。
【0019】 例えば、航空券の予約システムを考察してみよう。航空会社の顧客がある専用
の番号に電話をかけ、その番号に音声認識手段を含む対話型音声応答(IVR)
システムが関連付けられているとする。その場合、IVRシステムは、この顧客
に、搭乗を希望する日付を告げるように促す。
【0020】 静的で単語ベースの言語モデルを用いて発言された日付を表す単語を認識しよ
うとするのは、やや脆弱なアプローチである。このモデルでは、ユーザが「12
月16日(December sixteenth)」と発言した確率は、「9月15日(Septembe
r fifteenth)」と発言した確率と類似する。また、このモデルでは、この両方
の確率が、ユーザが「12月の16日(the sixteen of December)」と発言し
た確率よりはいくらか確からしい(likely)し、「9月15(September one fi
ve)」よりもはるかに確からしい、ということも分かる。このように、静的で単
語ベースの言語モデルでは、特定の発話が「12月」(December)という単語を
表すのか「9月」(September)という単語を表すのかに関する混乱を音声認識
手段が解消することの役には立たない。
【0021】 しかし、航空会社は、その経験から、IVRシステムを用いる顧客は電話をし
ている日から数日以内での搭乗を希望しているのが一般的であることを知ってい
る。従って、現在が12月14日であるとすると、ユーザは、「9月15日」で
はなく、「12月16日」と発言するであろう確率の方が高い。この事実は、認
識手段において曖昧さを解消するのに意味論的な情報が用いられ、それによって
、その性能が向上する例である。
【0022】 「意味論的モデル」という用語は、単語ストリング(単語の連なり、word str
ing)の確率が発話の基礎にある意味に部分的に依存していることを意味する。
上述の例では、与えられた発話が「12月16日」すなわち「あさって」である
確率値は、ユーザが現在から2日後に搭乗を希望する確率と、これら2つの言い
方のそれぞれでその発言をする確率との両方に依存する。
【0023】 「動的意味論的モデル」という用語は、意味論的モデルが、単語ストリングと
それぞれが関連付けられている1つ又は複数の確率値を変更させうる、というこ
とを意味する。この変更は、外部イベントを記述する情報とその外部イベントが
生じるときになされる応答とに依存して起こりうる。ある特定の変更は、ある発
話の特定の抽象的な言語要素を表す1つ又は複数の意味論的値と、外部イベント
を記述する情報とが組み合わされたものに依存して、決定される。上述の例では
、意味論的モデルによって、「12月16日」及び「9月16日」というストリ
ングと関連付けられている1つ又は複数の確率値が、現在の日付を識別する情報
に基づいて変更される。
【0024】 別の実施例では、意味論的モデルは、旅行システムにおける都市名の値に対し
て作用するように構成される。このモデルでは、都市名がキーワードである。こ
のシステムは、キーワードの例に関連して、発話が特定の都市名であるかどうか
を電話している者(発呼者)が電話をかけているエリア・コードによって指示す
る1つ又は複数の値を作成し記憶する。例えば、音声認識手段が、発呼者を識別
するデータを受け取り、このデータには、発呼者がエリア・コード「617」か
ら電話をかけていることを示すエリア・コード値が含まれる、と仮定する。更に
、音声認識手段が発話を受け取り、その発話を表しうる2つの単語ストリングで
ある「ボストン」及び「オースチン」を発生すると仮定する。また、音声認識手
段は、それぞれの単語ストリングと関連する確率値を作成し記憶する。この確率
値は、その単語ストリングが実際に発言された可能性(蓋然性)を示す。音声認
識手段は、また、それぞれの単語ストリングと関連付けられたキーワード値ペア
(=「キーワード」と「値」との対)を作成し記憶する。第1の単語ストリング
のキーワード値ペアは、(都市名、「ボストン」)という対であり、第2の単語
ストリングのキーワード値ペアは、(都市名、「オースチン」)という対である
【0025】 結果的に、音声認識手段は、都市名値として「ボストン」と「オースチン」と
のいずれか一方を認識したかどうかを判断することができない。マサチューセッ
ツ州ボストンのエリア・コードは「617」であるから、発呼者が電話をかけて
いる発信地の都市がオースチンである可能性は非常に低く、また、発呼者が電話
をかけている目的地の都市がボストンである可能性も非常に低い。このように、
エリア・コード情報とキーワード値ペアとに基づき、動的意味論的機構を用いる
と、一方又は他方の単語ストリングと関連付けられている確率値を変更できるし
、適切な重み付けも可能である。
【0026】 別の例として、株式市場及び取引システムにおける会社名のための意味論的モ
デルがありうる。システムが株式(Stock)という意味論的キーワードを有して
おり、このシステムの顧客又はユーザが、IBM社の株式を含む株式ポートフォ
リオを有していると仮定する。更に、仮に、「Iビーム社」という会社も株式市
場に上場されていると仮定する。このような状況では、音声認識手段が「IBM
」なのか「Iビーム」なのかが混同される可能性があるような発話を識別する場
合には、意味論的モデルは、この顧客が自分のポートフォリオの中にIBMの株
式を有しているという理由から、その発話は「IBM」である確率の方がはるか
に高いと判断する。このように、例えば「IBM」又は「Iビーム」という2つ
の単語ストリングに割り当てられる確率値は、それぞれのユーザのポートフォリ
オに含まれている株式に依存する。
【0027】 アプリケーションによっては、このような動的意味論的モデルを用いることに
よる重要な利点が認識されていることが分かっている。場合によっては、静的な
単語ベースの言語モデルと比較して、非常に著しい精度の向上が得られることが
分かっている。
【0028】 音声認識手段はほとんどが基本的に単語ストリングに作用するのであって意味
論的情報には作用しないので、動的意味論的モデルは、認識後のプロセスに適用
することができる。例えば、音声認識手段は、n個の最良の単語ストリングを決
定し、それに意味抽出機能を備えたパーザを適用し、これらのn個の最良の単語
ストリングをn組の最良のキーワード値ペアに変換する。単語ストリングのそれ
ぞれ又はキーワード値ペアのそれぞれと関連して、確率値が記憶される。意味論
的モデルが適用され、1つ又は複数の確率値を修正するのに用いられ、n組の最
良のキーワード値ペアが再順序付けされる。あるいは、単語ストリングが再順序
付けされる。
【0029】 ある実施例では、1つ又は複数のコールバックを用いて、意味論的モデルが適
用されうる。音声認識手段と共同して実行されているアプリケーションは、1つ
又は複数のコールバックを用いることにより、開発者が提供する意味論的情報に
基づいて、任意のキーワードと関連付けられている値を変更することができる。
【0030】 次に、システム構造の例について説明する。図1は、音声認識システム100
の主要な構成要素を示すブロック図である。電話2は接続部4に結合され、この
接続部4は公共交換式電話ネットワーク(PSTN)や、任意のそれ以外の音声
又はデータ・ネットワークを通過して、音声認識手段102を用いて、音声情報
を送受信する。ある例示的なアプリケーションでは、電話2は、音声認識システ
ム100を所有する又は操作する企業の顧客と関連付けられている。音声認識シ
ステム100は、対話型の音声応答アプリケーション108を実行して、顧客サ
ービスを提供する。適切な顧客サービス・アプリケーションの例としては、カタ
ログ注文、株式取引、航空券予約などがある。
【0031】 音声認識手段102は、音響(アコースティック)モデル113と動的意味論
的機構112とに結合されている。音響モデル113は、音声認識手段102が
電話2から受け取る信号に対して音声認識機能を実行するのを助ける情報を有し
ている。例えば、音声認識手段102は、音響モデル113を用いて、複数の音
素の中のどの音素が電話2から受け取った発言の1つ又は複数のフレーム又はセ
グメントによって表されている可能性が最も高いか、を判断する。音声認識手段
102は、出力として、可能性のある音素の組を提供することができる。好まし
くは、音声認識手段102は、更に、それらの音素によって表される可能性が最
も高い単語である1つ又は複数の単語ストリングを出力する。この単語ストリン
グはn個あって、これらn個が、ワード・ストリングと関連して作成され記憶さ
れている確率値に従って、可能性が最も高いものから最も低いものへ、という順
序になっているのが通常である。従って、このワード・ストリングは、n個の最
良の単語ストリング104と称される。
【0032】 音声認識手段102は、また、動的意味論的機構112にも結合され、この動
的意味論的機構112はデータ114に結合されそのデータを用いる。動的意味
論的機構112は、音声認識手段102が電話2から受け取った信号に対してよ
り高度な音声認識機能を実行するのを助ける。例えば、音声認識手段102は、
動的意味論的機構112を用いて、複数の単語の中のどの単語がn個の最良の単
語ストリング104の意味を表すかを判断する。動的意味論的機能は、アプリケ
ーション108、音声処理モジュール106又は音声認識手段102からコール
することができる関数、サブルーチン、方法又はそれ以外のソフトウェア・プロ
セスとして実現することができる。
【0033】 データ114は、システム100の環境に関する情報、又は、音声認識手段1
02の出力に影響する可能性があるそれ以外の外部的事実若しくは条件である。
ある実施例では、データ114は、不揮発性メモリに記憶され音声認識手段10
2が初期化される際にメイン・メモリにロードされるテーブル、リスト又はそれ
以外のデータ構造の形式で実現することができる。テーブルは、発言者の発話に
一致する可能性があるキー値のリストを記憶して、ある発話があるキー値と一致
する又はある範囲のキー値に含まれるときに置換される値を置き換える。また、
テーブルは、それぞれのキー値に対して、n個の最良の単語ストリング104の
中の特定の単語ストリングと関連付けられている確率値を修正するのに用いられ
るウェイト値、フロア値及びオフセット値を記憶することができる。
【0034】 データ114は、アプリケーション108を長期間用いたことから導かれる統
計的情報のテーブルによって、又は、そのような統計的な情報に基づく規則若し
くはデータによって構成されうる。例えば、アプリケーション108が航空券予
約システムであるときには、リアルタイム環境でこのアプリケーションを長期間
用いることを通じて、エリア・コードが617である場所(ボストン及びその近
郊)の顧客は、ほとんど常に出発地がボストンである航空券を予約することが分
かる。この意味論的規則は、アプリケーション108が動作しているときにアプ
リケーション108によって記憶され発呼者がエリア・コードが617である地
域にいるときには出発地として「ボストン」を認識するという例が反復されてい
ることを示す統計又はログ・ファイルから導かれる。
【0035】 動作としては、電話2から音声入力を受け取ると、音声認識手段102は、そ
の音声によって表されるn個の最良の単語ストリング104の組を作成する。音
声認識手段102は、次に、このn個の最良の単語ストリング104にパーザ1
03を適用する。パーザ103は、バッカス・ナウア形式(Backus-Naur Form =
BNF)のパーザであり、n個の最良の単語ストリング104を解析して、この単
語ストリングによって表される言語的な意味を決定する。その結果、パーザ10
3は、単語ストリングのそれぞれに対して、1つ又は複数のキーワード値ペアを
作成して記憶する。
【0036】 それぞれのキーワード値ペアは、n個の最良の単語ストリング104の1つの
意味を表す。例えば、航空券予約システムにおける発話の例で、発言者がそのフ
ライトの出発地と目的地とを発言することを考える。ある発言者の発話が、「わ
たしは、3月24日にボストンからデンバーまで飛びたい」であったとする。こ
のときに、音声認識手段102は、この発話から2つのn個の最良の単語ストリ
ング104を発生しうる。すなわち、単語ストリングAである「わたしは、3月
24日にボストンからデンバーまで飛びたい」と、単語ストリングBである「わ
たしは、3月24日にオースチンからデンバーまで飛びたい」の2つが発生され
たとする。単語ストリングAは確率値が90であり、単語ストリングBは確率値
が20であるとする。ここで、0から100までのスケールにおいて、高い値の
方が可能性が高いことを表す。パーザ103は、単語ストリングAに対しては次
のようなキーワード値ペアを作成することができよう。すなわち、(出発地、ボ
ストン);(目的地、デンバー);(日付、1999年3月24日)である。同
様に、パーザ103は、単語ストリングBに対しては次のようなキーワード値ペ
アを作成することができよう。すなわち、(出発地、オースチン);(目的地、
デンバー);(日付、1999年3月24日)である。
【0037】 n個の最良の単語ストリング104の中のそれぞれの単語ストリングに対して
は、ただ1つの確率値が作成され記憶されることが好ましい。確率値とは、特定
の単語ストリングが実際にその発言者によって発言された蓋然性を表すものであ
る。あるいは、このシステムは、1つの単語ストリングと関連付けられているそ
れぞれのキーワード値ペアに対して1つの確率値を作成し記憶することができ、
また、そのような複数の確率値をそのストリング全体に対する1つの値に統合す
ることもできる。
【0038】 また、音声認識手段102は、n個の最良の単語ストリング104を、1つ又
は複数の音声処理モジュール106に送ることができる。このモジュール106
は、より高度な音声処理機能を実行するソフトウェア要素である。音声処理モジ
ュール106として用いるのに適している商用の製品の例として、米国マサチュ
ーセッツ州ボストン所在のスピーチ・ワークス・インターナショナル社から市販
されているダイアログ・モジュールズ(DialogModulesTM)がある。
【0039】 音声処理モジュール106は、アプリケーション108と共同し、そして、ア
プリケーション108によって用いられることにより、その論理演算を実行する
。例えば、アプリケーション108は、音声処理モジュールの1つのコールし、
電話2を用いている発言者がアプリケーション108によって発生された特定の
促しに対して「イエス」と答えたのか「ノー」と答えたのか、を判断する。アプ
リケーション・プログラムと相互に作用しあう音声処理モジュールの実施例の詳
細は、この出願と同時出願中であり発明者Matthew T. Marx他による"System and
Method for Developing Interactive Speech Applications"と題する1998
年5月6日に出願された米国特許出願第09/081,719号に記載されてい
る。
【0040】 音声認識手段102は意味論的情報ではなく単語ストリングを扱うので、動的
意味論的モデルは、後処理として適用することができる。コールバック110は
、アプリケーション108と、音声認識手段102と、n個の最良の単語ストリ
ング104とに結合されている。コールバック110は、アプリケーション・プ
ログラミング・インターフェース(API)に従って定義されアプリケーション
108がそのキーワード値ペアと規則データ114とに基づいて任意の単語スト
リングの確率値を変更するためにコールすることができる関数コールの形式で実
現することができる。ある実施例では、このコールバックは、複数のパラメータ
を用いてコールされる。このパラメータは、キーワードと、値と、関連付けられ
ている単語ストリングの確率値を調節するのに用いることができるスケーリング
・ファクタと、このスケーリング・ファクタをいつ適用すべきかを定義する1つ
又は複数の意味論的タグとを含む。
【0041】 テーブル1はコードの例であり、時間値を処理するコンテキストにおいて動的
意味論的モデルのアプリケーションを実行する関数と、その関数にアクセスする
アプリケーション・プログラムに配置されるコールバックとの例が、C言語によ
って与えられている。この関数は、"get_time_lm()"と称され、コールバックは
、"TimeLMCCallback"と称される。データ構造TIME_LM*tlmは、テーブルの形式で
の言語モデルを含み、起動時の間に読み取られる。
【0042】
【表1】 この例では、データ構造TIME_LMのそれぞれのローは、分単位のキー値(num_i
n_lm)と、代替時間値のアレイと、フロア値と、ウェイト値と、オフセット値と
によって構成されている。発言者によって発っせられた分単位の時間値がキー値
の1つと一致する場合には、この関数は、データ構造から対応する代替値を取得
する。この代替値は、オフセット値を減算しウェイト値を乗算して返却される。
そうでない場合には、関数は、フロア値を戻す。従って、発話された時間値と関
連付けられているキーワード値ペアにおける値は、現在のアプリケーションとそ
のコンテンツとに基づき、発話のなされた時間値を発話が予測される1つ又は複
数の時間値と比較されることによって、修正することができる。あるいは、関連
付けられている単語ストリングの確率値を修正することもできる。
【0043】 ある実施例では、フロア値によって、システムが、確率は低いが依然として可
能性はある意味論的値にゼロより大きな所定の最小の確率値を割り当てられるこ
とを保証することが可能になる。これにより、動的意味論的機構が可能性が低い
発話をフィルタリングによって排除してしまうことが回避できる。オフセット値
によって、システムは、割り当てられた最低の確率値を任意の所望の値に調節す
る又は移動させることが可能になる。実際、オフセット値を用いることにより、
確率値の範囲が上下に移動される。実施例によっては、オフセット値がゼロであ
り、最小の確率値がゼロであるような場合もある。
【0044】 更に別の実施例では、動的意味論的機構によって、又は、ウェイト、オフセッ
ト及びフロア値の何らかの組合せによって発生された確率値が、音響的な確率値
と組み合わされて、最終的すなわち包括的な確率値を生じる。
【0045】 確率値の発生は、元の確率値の対数をとることによって実行することができる
。従って、ある単語ストリングと関連付けられた現在の確率値から修正された確
率値を決定する計算は、次の通りである。
【0046】
【数1】 確率=(log(現在の確率値)*ウェイト)+オフセット>=フロア これらの実施例のいずれにおいても、システム100の動作は、次のように進
行する。システム100の顧客又はユーザが、システムをコールする。アプリケ
ーション108が実行され、顧客に何らかの情報を発言するように促す。顧客は
、電話2において音声信号を提供し、この信号は、接続4を介して、音声認識手
段102まで送られる。音声認識手段102は、音響モデル113を用いて音声
信号をその信号の内部で認識又は検出された1つ又は複数の音素に変換すること
によって、信号の音声認識を実行する。音声認識手段102は、次に、この1つ
又は複数の音素を当該音素によって表される可能性があるn個の最良の単語スト
リングに変換する。確率値が、このn個の最良の単語ストリング104のそれぞ
れの関連して作成され記憶される。この確率値は、特定の単語ストリングが実際
に発話された言葉である蓋然性を表している。
【0047】 音声認識手段102は、パーザ103をn個の最良の単語ストリングに適用す
る。パーザ103は、意味抽出能力を備えている。その結果、1つ又は複数のキ
ーワード値ペア105が作成され記憶される。キーワード値ペア105は、発言
者の発話の意味を表している。それぞれのキーワードは、音声信号の内部で認識
された何らかの単語又は言語要素に対する抽象的な識別子である。それぞれのキ
ーワードには、アプリケーション108における変数を1つ関連付けることがで
きる。それぞれの値は、関連付けられている抽象的な言語要素に対して発言され
たものとして認識されたものである。例えば、キーワードは「出発地」であり、
関連付けられている値は「オースチン」である。
【0048】 キーワード値ペアは、音声処理モジュール106に送られ、このモジュールは
、キーワード値ペアに論理操作を実行する。場合によっては、音声処理モジュー
ル106は、このキーワード値ペアをアプリケーション108に送り、アプリケ
ーションにおいて現実化されている業務規則(business rules)に従って、更な
る処理と論理的決定を行う。
【0049】 アプリケーション108は、音声認識手段102に命令して、単語ストリング
の1つと関連して記憶されている確率値の1つを、キーワード値ペアの1つ又は
複数に基づいて、アプリケーションの現在の意味論的コンテキストとアプリケー
ションによってなされた意味論的決定とに従って変更させることができる。例え
ば、(出発地、オースチン)という上述したキーワード値ペアを考えてみよう。
アプリケーション108は、それ自身が利用することができる他の情報から、発
呼者はエリア・コードが617である地域から電話をしているのであるから、発
呼者がオースチンから出発することを希望している蓋然性は極度に低いと判断す
ることができる。それに対して、アプリケーションは、(出発地、オースチン)
というキーワード値ペアと関連付けられているn個の最良の単語ストリング10
4の1つの確率値を変更して、発話の実際の意味をより適切に反映するようにす
ることができる。
【0050】 ある実施例では、アプリケーション108は、音声認識手段102のサブルー
チン、方法又は手順をコールし、音声認識手段が確率値をどのように変更すべき
かを定義するパラメータを送ることができる。音声認識手段102は、パラメー
タに従って、関数コールを受け取り、それを実行する。それに対して、確率値を
変更した後で、音声認識手段102は、変更された値を考慮するために、n個の
最良の単語ストリング104のペアをソート又は再順序付けする。
【0051】 結果的に、音声認識手段102は、アプリケーションの現在の意味論的なコン
テキストに動的に従って、顧客又はユーザからの音声を認識する方法を調節して
いる。このようにして、音声認識における精度の改善が達成される。
【0052】 動的意味論的モデルを用いた音声認識方法について述べる。図2は、動的意味
論的モデルを用いて音声認識を実行する方法の流れ図である。 ブロック202では、1つ又は複数の動的意味論的な規則が確立される。ブロ
ック202は、アプリケーション108の実際のパフォーマンスに関する統計的
な情報を解析し、ログ・ファイルや統計ファイルなどに基づいて規則データ11
4を導くことを含む。このように、規則データ114とブロック202で識別さ
れる規則とは、統計テーブル、又は、アプリケーションからのパフォーマンス情
報に基づいて、確率的に導くことができる。
【0053】 あるいは、ブロック202は、アプリケーションのコンテキストによって、又
は、1つ又は複数の外部的な要因によって変更される業務上の規則や意味論的な
規則を抽象的に定義することを含む。動的意味論的な規則の例としては、次のも
のがある。 (エリア・コードが617)であるならば、(目的地はボストン)である。
【0054】 ある実施例では、意味論的な規則は、現在のアプリケーションの意味論的コン
テキストを表すキーワード値ペアと関連付けられている単語ストリングの確率値
の修正を実行する音声認識手段の関数への1つ又は複数のコールを、アプリケー
ション・プログラムに配置することによって確立される。この意味論的規則は、
それぞれが、そのようなものが存在すれば確率値が修正されるべきであるような
、アプリケーションのコンテキスト、外部的条件又は内部的条件を定義する意味
論的なタグを含んでいる。それぞれの意味論的タグには、確率値をどのように変
更すべきかを定義するスケーリング・ファクタを関連付けることができる。スケ
ーリング・ファクタの例としては、「0.2」、「50%」などがある。現在の
値にスケーリング・ファクタを乗算すると、修正値が得られる。あるいは、それ
ぞれの意味論的タグに、その代わりとなる代替値を関連付け、現在の値を削除し
て代替値で置き換えることもできる。
【0055】 ブロック204では、動的意味論的な規則を現実化する1つ又は複数の論理ル
ーチンが作成され記憶される。ブロック204は、1つ又は複数の関数コールを
、音声認識手段と共同して動作するアプリケーション・プログラムに配置するこ
とを含む。関数コールは、それぞれが、動的意味論的な規則を実現する1つ又は
複数のパラメータを有する。別の実施例では、アプリケーションが、音声認識手
段へのコールバックを行うことなく、値の変更に必要なすべての業務論理及び処
理論理を含むこともありうる。
【0056】 ブロック206では、発話が受け取られる。発話は、例えば、音声認識システ
ムの顧客又はユーザがシステムをコールするときに、受け取られる。アプリケー
ションが動作し、顧客に、何らかの情報を発言するように促す。顧客は、電話で
音声信号を提供し、それが音声認識手段まで運ばれる。
【0057】 ブロック208では、音声認識手段は、音響モデルを用いて音声信号を1つ又
は複数の音素に変換することによって、音声認識を実行する。ブロック210で
は、音声認識手段は、1つ又は複数の音素を、その音素によって表現される可能
性があるn個の最良の単語ストリングに変換する。また、ブロック210は、n
個の最良の単語ストリングのそれぞれと関連付けられている確率値を作成し記憶
することを含みうる。この確率値はその単語ストリングが実際に発言されたもの
である蓋然性を示す。
【0058】 ブロック212では、音声認識手段は、意味抽出機能を備えたパーザを、n個
の最良の単語ストリングに適用する。その結果、ブロック213に示されている
ように、単語ストリングのそれぞれに対して、1つ又は複数のキーワード値ペア
が作成され記憶される。キーワード値ペアは、抽象的な言語要素と、発言者の発
話において認識された関連付けられた値とを表す。それぞれのキーワード値ペア
に、あるキーワード確率値が関連付けられるのが最適である。ただし、このキー
ワード確率値は、関連付けられた値が当該キーワードに対して実際に発言された
ものである蓋然性を表すものである。
【0059】 このキーワード値ペアは、1つ又は複数の音声処理モジュールに送らる。音声
処理モジュールは、キーワード値ペアに対して、論理操作を実行する。場合によ
っては、音声処理モジュールは、キーワード値ペアを、アプリケーションに送っ
て、そのアプリケーションにおいて具体化されている業務規則に従って更なる処
理と論理的な意志決定とを行う。
【0060】 ブロック214では、動的意味論的モデルがキーワード値ペアに適用される。
ある実施例では、アプリケーションが、音声認識手段に、1つ又は複数のキーワ
ードと関連付けられている単語ストリングの確率値を、現在の意味論的コンテキ
ストやアプリケーションによってなされた意味論的な決定に従って変更するよう
に命令する場合もある。このようにして、ブロック215に示されているように
、確率値は修正される。
【0061】 ここで、上述した航空券予約システムを考えてみる。サブルーチンのある関数
において、アプリケーションは、それ自身がその上で動作しているコンピュータ
・システムのシステム・クロックの現在値を読み取る。それにより、アプリケー
ションは、現在の日付が「12月2日」であると判断する。次に、アプリケーシ
ョンは、(現在の月、9月)及び(現在の月、12月)というような1つ又は複
数の曖昧又は混乱した値を含む単語ストリングと関連付けられているキーワード
値ペアとを受け取ると、「9月」が実際の発話であった可能性は低いと判断する
。抽象的に述べると、想定されている単語が現在の月よりも前の月であるときに
は、アプリケーションは、その想定されている単語が到着日の一部である可能性
は低く、従って、その関連付けられている単語ストリングの確率値は変更される
べきであると判断することができる。
【0062】 ある実施例では、アプリケーションは、音声認識手段のサブルーチン、方法又
は手順をコールし、キーワード値ペアと関連付けられている単語ストリングの確
率値を音声認識手段がどのように変更すべきかを定義するパラメータを送ること
ができる。音声認識手段は、パラメータに従って、関数コールを受け取り、それ
を実行する。関数コールの実行には、現在のキーワード値ペアを調べ、それを当
該キーワードに対して予測される又は可能性のある値のテーブルと比較し、現在
のキーワードと関連付けられている単語ストリングの確率値を代替値、ウェイト
又はオフセット値に従って修正することを含む。代替値、ウェイト及びオフセッ
ト値は、アプリケーションの現在のコンテキストに従って、アプリケーションの
開発者が前もって選択しておくことが可能である。
【0063】 ブロック216では、値を変更した後で、音声認識手段が単語ストリングをソ
ート又は再順序付けし、変更された値を考慮する。再順序付けされた単語ストリ
ングは、アプリケーション・プログラムに送られ、アプリケーション・プログラ
ムによって任意の所望の関数を実行するとき用いられる。
【0064】 その結果、音声認識手段は、顧客又はユーザからの音声を認識し、アプリケー
ションの現在の意味論的コンテキストに従ってその出力を修正する。 次に、ハードウェアの概要を述べる。図3は、本発明のある実施例がその上で
実現されているコンピュータ・システム300を図解するブロック図である。コ
ンピュータ・システム300は、バス302又は情報を通信するそれ以外の通信
機構と、バス302に結合されており情報を処理するプロセッサ304とを含ん
でいる。コンピュータ・システム300は、また、RAM又はそれ以外のダイナ
ミックな記憶装置であるメイン・メモリ306を含む。そして、このメイン・メ
モリ306は、バス302に結合されており、プロセッサ304によって実行さ
れる情報及び命令を記憶する。また、メイン・メモリ306は、プロセッサ30
4によって命令が実行される間、一時的な変数やそれ以外の中間的な情報を記憶
するのに用いられることもある。コンピュータ・システム300は、更に、バス
302に結合されておりプロセッサ304のための静的な情報及び命令を記憶す
るROM308やそれ以外の静的な記憶装置を含む。また、磁気ディスクや光デ
ィスクなどの記憶装置310がバスに結合され、情報や命令を記憶する。
【0065】 コンピュータ・システム300は、バス302を介して、情報をコンピュータ
のユーザに表示する、ブラウン管(CRT)などのディスプレイ312に結合す
ることができる。英数字やそれ以外のキーを含む入力装置314が、バス302
に結合され、情報やコマンドの選択をプロセッサ304に送る。別のタイプのユ
ーザ入力装置として、マウスやトラックボールなどのカーソル制御316や、方
向情報及びコマンドの選択をプロセッサ304に送り、ディスプレイ312上で
のカーソルの移動を制御するカーソル方向キーがある。この入力装置は、典型的
には、第1の軸(例えばx)と第2の軸(例えばy)という2つの軸に関する自
由度2を有し、それによって、この入力装置が平面上での位置を特定することが
可能になる。
【0066】 本発明は、コンピュータ・システム300を用い、動的意味論的モデルに基づ
いて音声認識処理を実行することに関する。本発明のある実施例では、動的意味
論的モデルを用いた音声認識処理が、プロセッサ304がメイン・メモリ306
に含まれている1つ又は複数の命令で構成される1つ又は複数のシーケンスを実
行することに応答して、コンピュータ・システム300によって提供される。こ
れらの命令は、記憶装置310など他のコンピュータ読取可能媒体から、メイン
・メモリ306に読み取られる。メイン・メモリ306に含まれる命令シーケン
スを実行することにより、プロセッサは、ここで説明されている各処理ステップ
を実行する。別の実施例では、ソフトウェア的な命令の代わりに、又は、ソフト
ウェア的な命令と共に、ハードワイアード回路を用いて本発明を実現することも
できる。このように、本発明の実施例は、ハードウェア回路やソフトウェアのど
のような特定の組合せにも限定されない。
【0067】 ここで用いている「コンピュータ読取可能媒体」という用語は、プロセッサ3
04に提供して実行させる命令を有する任意の媒体を意味する。このような媒体
は、多くの形態をとりうる。例えば、限定は意味していないが、不揮発性媒体、
揮発性媒体、伝送媒体などが含まれる。不揮発性媒体には、例えば、記憶装置3
10などの光ディスクや磁気ディスクが含まれる。揮発性媒体には、例えば、メ
イン・メモリ306のようなダイナミック・メモリが含まれる。伝送媒体には、
バス302を構成するワイヤを含む、同軸ケーブル、銅線、光ファイバなどが含
まれる。伝送媒体は、更に、無線波及び赤外線データ通信の間に発生されるよう
な、音波や光波の形態もとりうる。
【0068】 コンピュータ読取可能媒体の一般的な形態としては、例えば、フロッピ・ディ
スク(登録商標)、ハード・ディスク、磁気テープ、それ以外の磁気媒体、CD
−ROM、それ以外の光媒体、パンチカード、紙テープ、ホールのパターンを有
するそれ以外の物理的媒体、RAM、ROM、PROM、EPROM、フラッシ
ュEPROM、それ以外のメモリ・チップ又はカートリッジ、後に述べる搬送波
など、コンピュータが読み取ることが可能な任意の媒体がありうる。
【0069】 様々な形態のコンピュータ読取可能媒体が、実行するために、1つ又は複数の
命令で構成される1つ又は複数のシーケンスをプロセッサ304まで運ぶことに
関係する。例えば、命令は、当初、リモート・コンピュータの磁気ディスク上で
運ぶことができる。このリモート・コンピュータは、これらの命令を、そのダイ
ナミック・メモリにロードし、モデムを用いて電話回線を介して送ることができ
る。コンピュータ・システム300のローカル・モデムは、電話回線上のデータ
を受信し、赤外線送信機を用いてデータを赤外線信号に変換することができる。
赤外線検出器が赤外線信号において運ばれたデータを受信し、適当な回路によっ
てこのデータをバス302の上に配置する。バス302は、データをメイン・メ
モリ306まで運び、このメイン・メモリからプロセッサ304がデータを得て
命令を実行する。メイン・メモリ304が受け取る命令は、プロセッサ304に
よる実行の前又は後のいずれかに、記憶装置310に最適な態様で記憶される。
【0070】 コンピュータ・システム300は、また、バス302に結合された通信インタ
ーフェース318を含む。通信インターフェース318は、ローカル・ネットワ
ーク322に接続されたネットワーク・リンク320との間の双方向のデータ通
信結合を与える。例えば、通信インターフェース318は、対応するタイプの電
話回線へのデータ通信接続を提供するISDNカード又はモデムでありうる。別
の例としては、通信インターフェース318は、ローカル・エリア・ネットワー
ク(LAN)カードであり、互換性を有するLANへのデータ通信接続を提供す
る。無線リンクを実現することもできる。そのような場合には、通信インターフ
ェース318は、様々なタイプの情報を表すデジタル・データ・ストリームを運
ぶ電気、電磁気又は光信号を送受信する。
【0071】 ネットワーク・リンク320は、典型的には、1つ又は複数のネットワークを
介して、他のデータ装置へのデータ通信を提供する。例えば、ネットワーク・リ
ンク320は、ローカル・ネットワーク322を介して、ホスト・コンピュータ
324への、又は、インターネット・サービス・プロバイダ(ISP)326に
よって運営されているデータ装置への接続を与える。ISP326は、これに対
して、現在では一般的に「インターネット」328と称されている全世界的なパ
ケット・データ通信ネットワークを介して、データ通信サービスを提供する。ロ
ーカル・ネットワーク322とインターネット328とは、共に、デジタル・デ
ータ・ストリームを運ぶ電気、電磁気又は光信号を用いる。コンピュータ・シス
テム300まで及びコンピュータ・システムからデジタル・データを運ぶ様々な
ネットワークを通過する信号や、ネットワーク・リンク320上及び通信インタ
ーフェース318を介する信号は、情報を運ぶ搬送波の例示的な形態である。
【0072】 コンピュータ・システム300は、プログラム・コードを含むメッセージやデ
ータを、ネットワーク、ネットワーク・リンク320、通信インターフェース3
18を介して送受信する。インターネットの例では、サーバ330が、インター
ネット328、ISP326、ローカル・ネットワーク322、通信インターフ
ェース318を介して、アプリケーション・プログラムのための要求されている
コードを送信する。本発明では、そのようなダウンロードされたアプリケーショ
ンが、ここで説明されている動的意味論的モデルを用いて音声認識処理を提供す
る。
【0073】 受信されたコードは、受信されたときにプロセッサ304によって実行される
か、記憶装置310や、後で実行される場合にはそれ以外の不揮発性記憶装置に
記憶される。このようにして、コンピュータ・システム300は、搬送波の形態
でアプリケーション・コードを得ることができる。
【0074】 この出願での説明は、コンピュータ・メモリ内部でのデータ・ビットに対する
操作のアルゴリズムや記号による表現として提供することもできる。アルゴリズ
ムによる記述や表現は、データ処理の技術分野における当業者によって用いられ
る手段であり、彼らの間で自らの仕事の実体を最も効果的に伝達するのに用いら
れる。
【0075】 アルゴリズムは、一般に、所望の結果に到達するための自己完結的な一連のス
テップとして理解することができる。これらのステップは、物理的数量に関する
物理的表明を要するのが一般的である。必ずしもそうではないが、通常は、これ
らの数量は、記憶、転送、合成、比較などの操作が可能な電気又は磁気信号の形
式を有する。この出願では、これらの信号を、ビット、値、要素、シンボル、キ
ャラクタ、項(terms)、数字などを用いて表している。しかし、これらの用語
は、すべてが、適切な物理的数量と関連付けられ、これらの数量に適用される便
宜的なラベルに過ぎない。
【0076】 更に、実行される操作は、多くの場合、人間のオペレータによって実行される
心理的な操作(mental operations)と通常は関連付けられている(「加える」
とか「比較する」とかいう)用語で言及される。ほとんどの場合に、特に指定さ
れない限り、人間のオペレータのそのような能力は不要であり、望まれてもいな
い。操作は、機械的な操作である。本発明の操作を実行する便利な機械には、汎
用のデジタル・コンピュータやそれに類似する装置が含まれる。この出願は、電
気的又はそれ以外の物理信号を処理しそれ以外の所望の物理信号を発生させるコ
ンピュータの操作方法に関するものである。
【0077】 本発明の1つの実施例として、これらの操作を実行する装置がある。このよう
な装置は、求められている目的のために専用に構築され、汎用のデジタル・コン
ピュータで構成され、そのコンピュータに記憶されているコンピュータ・プログ
ラムによって選択的に動作し再構成が可能であるようになっている。この出願に
おいて与えられているアルゴリズムは、どのような特定のコンピュータやそれ以
外の装置と本質的に関係しているということはない。特に、ここで述べている本
発明の内容を実現するには、様々な汎用の機械を用いることができるし、あるい
は、必要な方法ステップを実行するのに専用の装置を構築するならば、それはそ
れで非常に便利である。これらの様々な機械に要求される構造は、この出願にお
ける開示内容から明らかであろう。
【0078】 以上では、本発明を特定の実施例を参照しながら説明した。ここでの説明は、
十分な理解を与えるために多数の詳細を含むものである。本発明の精神と範囲と
から逸脱することなく、これらの詳細を割愛することは可能であるし、様々な修
正や変更を行うことも可能である。従って、この明細書及び図面は、限定を意味
するものではなく、例示と見なさなければならない。
【図面の簡単な説明】
【図1】 音声認識システムのブロック図である。
【図2】 動的意味論的モデルを用いた音声認識処理方法の流れ図である。
【図3】 これを用いてある実施例を実現することができるコンピュータ・システムのブ
ロック図である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 バーナード,エティエンネ アメリカ合衆国マサチューセッツ州02143, サマーヴィル,クレイジー・ストリート 50,ナンバー20 (72)発明者 ダハン,ジーン−ガイ アメリカ合衆国マサチューセッツ州02445 −4522,ブルックリン,コルボーン・クレ セント 12,ナンバー3 (72)発明者 メッツガー,マイケル・ジェイ アメリカ合衆国マサチューセッツ州02138, ケンブリッジ,エルマー・ストリート 16,アパートメント ナンバー304 Fターム(参考) 5B091 AA15 CA12 CA14 CB12 5D015 HH23

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 音声認識手段によって認識される1つ又は複数の単語スト
    リングと関連付けられている確率値を、前記単語ストリングと関連付けられてい
    る意味論的値に基づいて動的に修正する方法であって、 前記意味論的値の1つが所定の意味論的タグと一致するときには、前記確率値
    の1つ又は複数における変更を定義する1つ又は複数の規則を作成して記憶する
    ステップであって、前記規則は、前記音声認識手段が用いられているコンテキス
    トに関する1つ又は複数の外部的条件に基づいている、ステップと、 前記条件の1つが現に真であるかどうかを判断し、真である場合には、真であ
    る条件と関連付けられているタグと一致する意味論的値と関連付けられている単
    語ストリングの確率値の1つ又は複数を修正するステップと、 を含むことを特徴とする方法。
  2. 【請求項2】 請求項1記載の方法において、前記音声認識手段は前記単語
    ストリングをアプリケーション・プログラムまで運び、前記判断するステップは
    、前記アプリケーション・プログラムにおいて、前記条件の1つが現に真である
    かどうかを判断し、真である場合には、真である条件と関連付けられているタグ
    と一致する意味論的値と関連付けられている単語ストリングの確率値の1つ又は
    複数を修正するように前記音声認識手段に命令するステップと、 を含むことを特徴とする方法。
  3. 【請求項3】 請求項1記載の方法において、 前記音声認識手段によって認識された単語ストリングと関連付けられている意
    味論的値を1つ又は複数のキーワード値ペアとして記憶するステップと、 前記キーワード値ペアをアプリケーション・プログラムまで運ぶステップと、 前記アプリケーション・プログラムにおいて、前記条件の1つが現に真である
    かどうかを判断し、真である場合には、真である条件と関連付けられているタグ
    と一致する意味論的値と関連付けられている単語ストリングの確率値の1つ又は
    複数を修正するように前記音声認識手段に命令するステップと、 を更に含むことを特徴とする方法。
  4. 【請求項4】 請求項1記載の方法において、 前記ワード及び意味論的値を、前記音声認識手段に論理的に結合されたアプリ
    ケーション・プログラムまで運ぶステップと、 真である条件と関連付けられているタグと一致する意味論的値を有する単語ス
    トリングの確率値の1つ又は複数を修正することができるアプリケーション・プ
    ログラムによってコール可能な機能を、前記音声認識手段と共同して、作成し記
    憶するステップと、 前記アプリケーション・プログラムにおいて、前記条件の1つが現に真である
    かどうかを判断し、真である場合には、前記確率値の1つ又は複数をどのように
    修正すべきかを識別するパラメータ値を用いて、前記機能をコールするステップ
    と、 を更に含むことを特徴とする方法。
  5. 【請求項5】 請求項4記載の方法において、前記確率値の1つ又は複数を
    修正した後で前記単語ストリングを再順序付けするステップを更に含むことを特
    徴とする方法。
  6. 【請求項6】 請求項3記載の方法において、前記確率値の1つ又は複数を
    修正した後で確率値によって前記単語ストリングを再順序付けするステップを更
    に含むことを特徴とする方法。
  7. 【請求項7】 請求項1記載の方法において、前記修正するステップは、前
    記確率値の1つ又は複数を真である条件と関連付けられているスケーリング・フ
    ァクタと乗算することによって、前記確率値を修正するステップを更に含むこと
    を特徴とする方法。
  8. 【請求項8】 請求項1記載の方法において、 前記意味論的値を含む1つ又は複数のワード値ペアを、前記音声認識手段に論
    理的に結合されたアプリケーション・プログラムまで運ぶステップと、 真である条件と関連付けられているタグ・ワードと一致するワード値ペアと関
    連付けられている単語ストリングの確率値の1つ又は複数を修正することができ
    るアプリケーション・プログラムによってコール可能な機能を、前記音声認識手
    段と共同して、作成し記憶するステップと、 前記アプリケーション・プログラムにおいて、前記条件の1つが現に真である
    かどうかを判断し、真である場合には、真である条件と関連付けられているスケ
    ーリング・ファクタを含めて、前記確率値の1つ又は複数をどのように修正すべ
    きかを識別するパラメータ値を用いて、前記機能をコールするステップと、 真である条件と関連付けられているタグ・ワードと一致するワード値ペアの1
    つと関連付けられている単語ストリングの確率値の1つを、その確率値と前記ス
    ケーリング・ファクタとを乗算することによって修正するステップと、 を更に含むことを特徴とする方法。
  9. 【請求項9】 音声認識手段において受け取られた発話を認識する方法であ
    って、 前記発話を、1つ又は複数のキーワード値ペアとそれぞれが関連付けられてい
    る1つ又は複数の単語ストリングに変換するステップであって、前記ペアは、そ
    れぞれが、前記発話の1つの意味論的要素を表すキーワードとその意味論的要素
    に対応する前記発話の部分を表す意味論的値とを有している、ステップと、 前記単語ストリングのそれぞれと関連する確率値を記憶するステップと、 前記意味論的値の1つ又は複数が所定のタグ・ワードと一致するときに前記確
    率値の1つ又は複数における変更を定義する1つ又は複数の規則を作成し記憶す
    るステップであって、前記規則は、前記音声認識手段が用いられているコンテキ
    ストに関する1つ又は複数の外部的条件に基づく、ステップと、 前記条件の1つが現に真であるかどうかを判断し、真である場合には、真であ
    る条件と関連付けられているタグ・ワードと一致する意味論的値と関連付けられ
    ている単語ストリングの1つの確率値の1つ又は複数を修正するステップと、 前記ワード値ペアを前記音声認識手段に論理的に結合されたアプリケーション
    ・プログラムまで運ぶステップと、 真である条件と関連付けられているタグ・ワードと一致するワードと関連付け
    られている確率値の1つ又は複数を修正することができるアプリケーション・プ
    ログラムによってコール可能な機能を、前記音声認識手段と共同して、作成し記
    憶するステップと、 前記アプリケーション・プログラムにおいて、前記条件の1つが現に真である
    かどうかを判断し、真である場合には、前記確率値の1つ又は複数をどのように
    修正すべきかを識別するパラメータ値を用いて、前記機能をコールするステップ
    と、 前記機能を用いて前記確率値の1つ又は複数を修正するステップと、 前記確率値に従って前記単語ストリングを再順序付けするステップと、 を含むことを特徴とする方法。
  10. 【請求項10】 請求項9記載の方法において、前記修正するステップは、
    前記確率値の1つ又は複数を真である条件と関連付けられているスケーリング・
    ファクタと乗算することによって、前記単語ストリングを修正するステップを更
    に含むことを特徴とする方法。
  11. 【請求項11】 請求項9記載の方法において、 前記ワード値ペアを、前記音声認識手段に論理的に結合されたアプリケーショ
    ン・プログラムまで運ぶステップと、 真である条件と関連付けられているタグ・ワードと一致するワードと関連付け
    られている確率値の1つ又は複数を修正することができるアプリケーション・プ
    ログラムによってコール可能な機能を、前記音声認識手段と共同して、作成し記
    憶するステップと、 前記アプリケーション・プログラムにおいて、前記条件の1つが現に真である
    かどうかを判断し、真である場合には、真である条件と関連付けられているスケ
    ーリング・ファクタを含めて、前記確率値の1つ又は複数をどのように修正すべ
    きかを識別するパラメータ値を用いて、前記機能をコールするステップと、 真である条件と関連付けられているタグ・ワードと一致するワードの1つと関
    連付けられている確率値の1つを、その確率値と前記スケーリング・ファクタと
    を乗算することによって修正するステップと、 を更に含むことを特徴とする方法。
  12. 【請求項12】 請求項1記載の方法において、前記作成し記憶するステッ
    プは、 所定の意味論的タグのテーブルを作成し記憶するステップであって、前記意味
    論的タグはそれぞれが代替的な確率値と関連付けられている、ステップと、 仮定されたワードの1つ又は複数が所定の意味論的タグと一致するときには、
    前記値の1つ又は複数を前記代替的な確率値に変更する機能コールを、この機能
    コールの中にあり前記音声認識手段が用いられているコンテキストに関する1つ
    又は複数の外部的条件に基づく規則に従って、作成し記憶するステップと、 を含むことを特徴とする方法。
  13. 【請求項13】 請求項1記載の方法において、前記作成し記憶するステッ
    プは、 所定の意味論的タグのテーブルを作成し記憶するステップであって、前記意味
    論的タグは、それぞれが、代替的な確率値、ウェイト値及びオフセット値と関連
    付けられている、ステップと、 仮定されたワードの1つ又は複数が所定の意味論的タグと一致するときには、
    前記値の1つ又は複数を前記代替的な確率値に変更する、又は、前記ウェイト値
    若しくは前記オフセット値を前記確率値に与える機能コールを、この機能コール
    の中にあり前記音声認識手段が用いられているコンテキストに関する1つ又は複
    数の外部的条件に基づく規則に従って、作成し記憶するステップと、 を含むことを特徴とする方法。
  14. 【請求項14】 音声認識手段によって認識される1つ又は複数の単語スト
    リングと関連付けられている確率値を、前記単語ストリングと関連付けられてい
    る意味論的値に基づいて動的に修正する命令の1つ又は複数のシーケンスが記憶
    されているコンピュータ読取可能な媒体であって、前記命令の1つ又は複数のシ
    ーケンスが実行されると、1つ又は複数のプロセッサが、 前記意味論的値の1つが所定の意味論的タグと一致するときには、前記確率値
    の1つ又は複数における変更を定義する1つ又は複数の規則を作成して記憶する
    ステップであって、前記規則は、前記音声認識手段が用いられているコンテキス
    トに関する1つ又は複数の外部的条件に基づいている、ステップと、 前記条件の1つが現に真であるかどうかを判断し、真である場合には、真であ
    る条件と関連付けられているタグと一致する意味論的値と関連付けられている単
    語ストリングの確率値の1つ又は複数を修正するステップと、 を実行することを特徴とするコンピュータ読取可能な媒体。
JP2000601630A 1999-02-25 2000-02-25 音声認識システムの動的意味論的制御 Pending JP2002538534A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/258,012 US6519562B1 (en) 1999-02-25 1999-02-25 Dynamic semantic control of a speech recognition system
US09/258,012 1999-02-25
PCT/US2000/004810 WO2000051106A1 (en) 1999-02-25 2000-02-25 Dynamic semantic control of a speech recognition system

Publications (1)

Publication Number Publication Date
JP2002538534A true JP2002538534A (ja) 2002-11-12

Family

ID=22978725

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000601630A Pending JP2002538534A (ja) 1999-02-25 2000-02-25 音声認識システムの動的意味論的制御

Country Status (7)

Country Link
US (2) US6519562B1 (ja)
EP (1) EP1163664A4 (ja)
JP (1) JP2002538534A (ja)
AU (1) AU3377400A (ja)
CA (1) CA2372437A1 (ja)
TW (1) TW480472B (ja)
WO (1) WO2000051106A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015526797A (ja) * 2012-06-21 2015-09-10 グーグル・インコーポレーテッド 動的言語モデル

Families Citing this family (111)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6519562B1 (en) * 1999-02-25 2003-02-11 Speechworks International, Inc. Dynamic semantic control of a speech recognition system
US8321411B2 (en) 1999-03-23 2012-11-27 Microstrategy, Incorporated System and method for management of an automatic OLAP report broadcast system
US9208213B2 (en) 1999-05-28 2015-12-08 Microstrategy, Incorporated System and method for network user interface OLAP report formatting
US8607138B2 (en) 1999-05-28 2013-12-10 Microstrategy, Incorporated System and method for OLAP report generation with spreadsheet report within the network user interface
US20050223408A1 (en) * 1999-09-13 2005-10-06 Microstrategy, Incorporated System and method for real-time, personalized, dynamic, interactive voice services for entertainment-related information
US8130918B1 (en) 1999-09-13 2012-03-06 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with closed loop transaction processing
US6263051B1 (en) * 1999-09-13 2001-07-17 Microstrategy, Inc. System and method for voice service bureau
US6964012B1 (en) * 1999-09-13 2005-11-08 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, including deployment through personalized broadcasts
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
TW472232B (en) * 2000-08-11 2002-01-11 Ind Tech Res Inst Probability-base fault-tolerance natural language understanding method
AUPR082400A0 (en) * 2000-10-17 2000-11-09 Telstra R & D Management Pty Ltd An information retrieval system
AU2001295283B2 (en) * 2000-10-17 2007-03-22 Telstra Corporation Limited An information retrieval system
US20040190688A1 (en) * 2003-03-31 2004-09-30 Timmins Timothy A. Communications methods and systems using voiceprints
US6950793B2 (en) * 2001-01-12 2005-09-27 International Business Machines Corporation System and method for deriving natural language representation of formal belief structures
US7127402B2 (en) * 2001-01-12 2006-10-24 International Business Machines Corporation Method and apparatus for converting utterance representations into actions in a conversational system
US7085723B2 (en) * 2001-01-12 2006-08-01 International Business Machines Corporation System and method for determining utterance context in a multi-context speech application
US7257537B2 (en) * 2001-01-12 2007-08-14 International Business Machines Corporation Method and apparatus for performing dialog management in a computer conversational interface
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
US6856957B1 (en) * 2001-02-07 2005-02-15 Nuance Communications Query expansion and weighting based on results of automatic speech recognition
US7027987B1 (en) 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US7103549B2 (en) * 2001-03-22 2006-09-05 Intel Corporation Method for improving speech recognition performance using speaker and channel information
US6785647B2 (en) * 2001-04-20 2004-08-31 William R. Hutchison Speech recognition system with network accessible speech processing resources
KR20040058328A (ko) * 2001-11-26 2004-07-03 바스프 악티엔게젤샤프트 고객 비지니스 프로세스의 컴퓨터 구현 평가 프로세스 및장치
US20030191646A1 (en) * 2002-04-08 2003-10-09 D'avello Robert F. Method of setting voice processing parameters in a communication device
EP1450350A1 (en) * 2003-02-20 2004-08-25 Sony International (Europe) GmbH Method for Recognizing Speech with attributes
US7548858B2 (en) * 2003-03-05 2009-06-16 Microsoft Corporation System and method for selective audible rendering of data to a user based on user input
JP4027269B2 (ja) * 2003-06-02 2007-12-26 キヤノン株式会社 情報処理方法及び装置
US7383172B1 (en) * 2003-08-15 2008-06-03 Patrick William Jamieson Process and system for semantically recognizing, correcting, and suggesting domain specific speech
US7460652B2 (en) * 2003-09-26 2008-12-02 At&T Intellectual Property I, L.P. VoiceXML and rule engine based switchboard for interactive voice response (IVR) services
US20050080628A1 (en) * 2003-10-10 2005-04-14 Metaphor Solutions, Inc. System, method, and programming language for developing and running dialogs between a user and a virtual agent
US7356475B2 (en) * 2004-01-05 2008-04-08 Sbc Knowledge Ventures, L.P. System and method for providing access to an interactive service offering
US7936861B2 (en) * 2004-07-23 2011-05-03 At&T Intellectual Property I, L.P. Announcement system and method of use
US8165281B2 (en) * 2004-07-28 2012-04-24 At&T Intellectual Property I, L.P. Method and system for mapping caller information to call center agent transactions
US20060026049A1 (en) * 2004-07-28 2006-02-02 Sbc Knowledge Ventures, L.P. Method for identifying and prioritizing customer care automation
US7580837B2 (en) * 2004-08-12 2009-08-25 At&T Intellectual Property I, L.P. System and method for targeted tuning module of a speech recognition system
US7602898B2 (en) * 2004-08-18 2009-10-13 At&T Intellectual Property I, L.P. System and method for providing computer assisted user support
US20060062375A1 (en) * 2004-09-23 2006-03-23 Sbc Knowledge Ventures, L.P. System and method for providing product offers at a call center
EP2317508B1 (en) * 2004-10-05 2012-06-27 Inago Corporation Grammar rule generation for speech recognition
US7925506B2 (en) 2004-10-05 2011-04-12 Inago Corporation Speech recognition accuracy via concept to keyword mapping
US7197130B2 (en) 2004-10-05 2007-03-27 Sbc Knowledge Ventures, L.P. Dynamic load balancing between multiple locations with different telephony system
US7668889B2 (en) 2004-10-27 2010-02-23 At&T Intellectual Property I, Lp Method and system to combine keyword and natural language search results
US7657005B2 (en) * 2004-11-02 2010-02-02 At&T Intellectual Property I, L.P. System and method for identifying telephone callers
US7724889B2 (en) * 2004-11-29 2010-05-25 At&T Intellectual Property I, L.P. System and method for utilizing confidence levels in automated call routing
US7242751B2 (en) 2004-12-06 2007-07-10 Sbc Knowledge Ventures, L.P. System and method for speech recognition-enabled automatic call routing
US7864942B2 (en) * 2004-12-06 2011-01-04 At&T Intellectual Property I, L.P. System and method for routing calls
US20060126811A1 (en) * 2004-12-13 2006-06-15 Sbc Knowledge Ventures, L.P. System and method for routing calls
US20060126808A1 (en) * 2004-12-13 2006-06-15 Sbc Knowledge Ventures, L.P. System and method for measurement of call deflection
US7751551B2 (en) 2005-01-10 2010-07-06 At&T Intellectual Property I, L.P. System and method for speech-enabled call routing
US7450698B2 (en) * 2005-01-14 2008-11-11 At&T Intellectual Property 1, L.P. System and method of utilizing a hybrid semantic model for speech recognition
US7627096B2 (en) * 2005-01-14 2009-12-01 At&T Intellectual Property I, L.P. System and method for independently recognizing and selecting actions and objects in a speech recognition system
US7627109B2 (en) * 2005-02-04 2009-12-01 At&T Intellectual Property I, Lp Call center system for multiple transaction selections
US20060188087A1 (en) * 2005-02-18 2006-08-24 Sbc Knowledge Ventures, Lp System and method for caller-controlled music on-hold
EP1693829B1 (en) * 2005-02-21 2018-12-05 Harman Becker Automotive Systems GmbH Voice-controlled data system
US8130936B2 (en) * 2005-03-03 2012-03-06 At&T Intellectual Property I, L.P. System and method for on hold caller-controlled activities and entertainment
US7933399B2 (en) * 2005-03-22 2011-04-26 At&T Intellectual Property I, L.P. System and method for utilizing virtual agents in an interactive voice response application
US8223954B2 (en) 2005-03-22 2012-07-17 At&T Intellectual Property I, L.P. System and method for automating customer relations in a communications environment
US7937396B1 (en) 2005-03-23 2011-05-03 Google Inc. Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments
US7584099B2 (en) * 2005-04-06 2009-09-01 Motorola, Inc. Method and system for interpreting verbal inputs in multimodal dialog system
US7636432B2 (en) * 2005-05-13 2009-12-22 At&T Intellectual Property I, L.P. System and method of determining call treatment of repeat calls
US8005204B2 (en) * 2005-06-03 2011-08-23 At&T Intellectual Property I, L.P. Call routing system and method of using the same
US7657020B2 (en) * 2005-06-03 2010-02-02 At&T Intellectual Property I, Lp Call routing system and method of using the same
US20060287867A1 (en) * 2005-06-17 2006-12-21 Cheng Yan M Method and apparatus for generating a voice tag
US7457753B2 (en) * 2005-06-29 2008-11-25 University College Dublin National University Of Ireland Telephone pathology assessment
US7471775B2 (en) * 2005-06-30 2008-12-30 Motorola, Inc. Method and apparatus for generating and updating a voice tag
US8503641B2 (en) 2005-07-01 2013-08-06 At&T Intellectual Property I, L.P. System and method of automated order status retrieval
US8175253B2 (en) * 2005-07-07 2012-05-08 At&T Intellectual Property I, L.P. System and method for automated performance monitoring for a call servicing system
US8526577B2 (en) * 2005-08-25 2013-09-03 At&T Intellectual Property I, L.P. System and method to access content from a speech-enabled automated system
US8548157B2 (en) 2005-08-29 2013-10-01 At&T Intellectual Property I, L.P. System and method of managing incoming telephone calls at a call center
US7937265B1 (en) * 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
WO2007066704A1 (ja) * 2005-12-09 2007-06-14 Nec Corporation テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US20080010069A1 (en) * 2006-07-10 2008-01-10 Microsoft Corporation Authoring and running speech related applications
US8346555B2 (en) * 2006-08-22 2013-01-01 Nuance Communications, Inc. Automatic grammar tuning using statistical language model generation
US8374874B2 (en) 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US7957976B2 (en) 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
US7840409B2 (en) * 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
US8515757B2 (en) 2007-03-20 2013-08-20 Nuance Communications, Inc. Indexing digitized speech with words represented in the digitized speech
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US20090164387A1 (en) * 2007-04-17 2009-06-25 Semandex Networks Inc. Systems and methods for providing semantically enhanced financial information
US8676577B2 (en) * 2008-03-31 2014-03-18 Canyon IP Holdings, LLC Use of metadata to post process speech recognition output
US8082148B2 (en) 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
US8536976B2 (en) * 2008-06-11 2013-09-17 Veritrix, Inc. Single-channel multi-factor authentication
US8166297B2 (en) 2008-07-02 2012-04-24 Veritrix, Inc. Systems and methods for controlling access to encrypted data stored on a mobile device
WO2010051342A1 (en) * 2008-11-03 2010-05-06 Veritrix, Inc. User authentication for social networks
US8290780B2 (en) 2009-06-24 2012-10-16 International Business Machines Corporation Dynamically extending the speech prompts of a multimodal application
US8510117B2 (en) 2009-07-09 2013-08-13 Nuance Communications, Inc. Speech enabled media sharing in a multimodal application
US8416714B2 (en) 2009-08-05 2013-04-09 International Business Machines Corporation Multimodal teleconferencing
US9070360B2 (en) * 2009-12-10 2015-06-30 Microsoft Technology Licensing, Llc Confidence calibration in automatic speech recognition systems
US8738377B2 (en) * 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
US9576570B2 (en) 2010-07-30 2017-02-21 Sri International Method and apparatus for adding new vocabulary to interactive translation and dialogue systems
US8527270B2 (en) * 2010-07-30 2013-09-03 Sri International Method and apparatus for conducting an interactive dialogue
US8688453B1 (en) * 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
US8660847B2 (en) * 2011-09-02 2014-02-25 Microsoft Corporation Integrated local and cloud based speech recognition
US8965763B1 (en) * 2012-02-02 2015-02-24 Google Inc. Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US8805684B1 (en) 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US9502029B1 (en) * 2012-06-25 2016-11-22 Amazon Technologies, Inc. Context-aware speech processing
US8554559B1 (en) 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
US9805718B2 (en) * 2013-04-19 2017-10-31 Sri Internaitonal Clarifying natural language input using targeted questions
US9026431B1 (en) * 2013-07-30 2015-05-05 Google Inc. Semantic parsing with multiple parsers
TWI509465B (zh) * 2013-10-28 2015-11-21 Univ Kun Shan Intelligent voice control system and method
US8868409B1 (en) 2014-01-16 2014-10-21 Google Inc. Evaluating transcriptions with a semantic parser
TWI526856B (zh) * 2014-10-22 2016-03-21 財團法人資訊工業策進會 服務需求分析系統、方法與電腦可讀取記錄媒體
US10672390B2 (en) 2014-12-22 2020-06-02 Rovi Guides, Inc. Systems and methods for improving speech recognition performance by generating combined interpretations
US11848025B2 (en) 2020-01-17 2023-12-19 ELSA, Corp. Methods for measuring speech intelligibility, and related systems and apparatus

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4593367A (en) * 1984-01-16 1986-06-03 Itt Corporation Probabilistic learning element
US4984178A (en) 1989-02-21 1991-01-08 Texas Instruments Incorporated Chart parser for stochastic unification grammar
US5146406A (en) * 1989-08-16 1992-09-08 International Business Machines Corporation Computer method for identifying predicate-argument structures in natural language text
US5418717A (en) * 1990-08-27 1995-05-23 Su; Keh-Yih Multiple score language processing system
US5390279A (en) * 1992-12-31 1995-02-14 Apple Computer, Inc. Partitioning speech rules by context for speech recognition
US5475588A (en) 1993-06-18 1995-12-12 Mitsubishi Electric Research Laboratories, Inc. System for decreasing the time required to parse a sentence
DE69423838T2 (de) * 1993-09-23 2000-08-03 Xerox Corp Semantische Gleichereignisfilterung für Spracherkennung und Signalübersetzungsanwendungen
US5510981A (en) * 1993-10-28 1996-04-23 International Business Machines Corporation Language translation apparatus and method using context-based translation models
US5748841A (en) * 1994-02-25 1998-05-05 Morin; Philippe Supervised contextual language acquisition system
US5642519A (en) 1994-04-29 1997-06-24 Sun Microsystems, Inc. Speech interpreter with a unified grammer compiler
US5835667A (en) * 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
US5717828A (en) 1995-03-15 1998-02-10 Syracuse Language Systems Speech recognition apparatus and method for learning
EP0838073B1 (en) * 1995-05-26 2002-07-24 Speechworks International, Inc. Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
US5675707A (en) * 1995-09-15 1997-10-07 At&T Automated call router system and method
US5799276A (en) 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5905773A (en) * 1996-03-28 1999-05-18 Northern Telecom Limited Apparatus and method for reducing speech recognition vocabulary perplexity and dynamically selecting acoustic models
US5828999A (en) * 1996-05-06 1998-10-27 Apple Computer, Inc. Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
JPH10143191A (ja) * 1996-11-13 1998-05-29 Hitachi Ltd 音声認識システム
US6029124A (en) * 1997-02-21 2000-02-22 Dragon Systems, Inc. Sequential, nonparametric speech recognition and speaker identification
CN1163869C (zh) * 1997-05-06 2004-08-25 语音工程国际公司 用于开发交互式语音应用程序的系统和方法
US5860063A (en) * 1997-07-11 1999-01-12 At&T Corp Automated meaningful phrase clustering
EP0960417B1 (en) * 1997-12-12 2003-05-28 Koninklijke Philips Electronics N.V. Method of determining model-specific factors for pattern recognition, in particular for speech patterns
US6397179B2 (en) * 1997-12-24 2002-05-28 Nortel Networks Limited Search optimization system and method for continuous speech recognition
US6519562B1 (en) * 1999-02-25 2003-02-11 Speechworks International, Inc. Dynamic semantic control of a speech recognition system
US6901366B1 (en) * 1999-08-26 2005-05-31 Matsushita Electric Industrial Co., Ltd. System and method for assessing TV-related information over the internet
US6675159B1 (en) * 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015526797A (ja) * 2012-06-21 2015-09-10 グーグル・インコーポレーテッド 動的言語モデル
US10140362B2 (en) 2012-06-21 2018-11-27 Google Llc Dynamic language model

Also Published As

Publication number Publication date
US6519562B1 (en) 2003-02-11
US20040006465A1 (en) 2004-01-08
CA2372437A1 (en) 2000-08-31
EP1163664A4 (en) 2005-07-27
EP1163664A1 (en) 2001-12-19
TW480472B (en) 2002-03-21
US7127393B2 (en) 2006-10-24
WO2000051106A1 (en) 2000-08-31
AU3377400A (en) 2000-09-14

Similar Documents

Publication Publication Date Title
JP2002538534A (ja) 音声認識システムの動的意味論的制御
US6704710B2 (en) Assigning meanings to utterances in a speech recognition system
US5390279A (en) Partitioning speech rules by context for speech recognition
US5384892A (en) Dynamic language model for speech recognition
EP1043711B1 (en) Natural language parsing method and apparatus
US5613036A (en) Dynamic categories for a speech recognition system
US6477488B1 (en) Method for dynamic context scope selection in hybrid n-gram+LSA language modeling
US8645122B1 (en) Method of handling frequently asked questions in a natural language dialog service
US6178401B1 (en) Method for reducing search complexity in a speech recognition system
US20020188446A1 (en) Method and apparatus for distribution-based language model adaptation
EP0387602A2 (en) Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US20040243393A1 (en) Semantic object synchronous understanding implemented with speech application language tags
JP2002041080A (ja) 単語予測方法、音声認識方法、単語予測装置、音声認識装置、コンピュータ・システム、記憶媒体およびプログラム伝送装置
Tur et al. Intent determination and spoken utterance classification
JP3634863B2 (ja) 音声認識システム
US6735560B1 (en) Method of identifying members of classes in a natural language understanding system
JP3088364B2 (ja) 音声言語理解装置及び音声言語理解システム
US11626107B1 (en) Natural language processing
JP3059413B2 (ja) 自然言語理解装置及び自然言語理解システム
JP2002278589A (ja) 音声対話装置、音声対話処理方法、音声対話処理プログラムおよびその記録媒体
JP2817406B2 (ja) 連続音声認識方式
JP2901850B2 (ja) 統計的言語モデルを用いた音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071204

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080304

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080311

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080604

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090326

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090626

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090703

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090724

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090731

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091202