JP2002538534A

JP2002538534A - 音声認識システムの動的意味論的制御

Info

Publication number: JP2002538534A
Application number: JP2000601630A
Authority: JP
Inventors: フィリップス，マイケル・エス; バーナード，エティエンネ; ダハン，ジーン−ガイ; メッツガー，マイケル・ジェイ
Original assignee: スピーチワークス・インターナショナル・インコーポレーテッド
Priority date: 1999-02-25
Filing date: 2000-02-25
Publication date: 2002-11-12
Also published as: US6519562B1; US20040006465A1; CA2372437A1; EP1163664A4; EP1163664A1; TW480472B; US7127393B2; WO2000051106A1; AU3377400A

Abstract

(57)【要約】音声認識システムは、音声を認識して、それぞれが音声の仮説である１つ又は複数の単語ストリングを発生し、確率値（２１０）すなわちそれぞれの単語ストリングのスコアを作成し記憶する。更に、この音声認識システムは、それぞれの単語ストリングに対して、話された音声に対する意味論的要素とその意味論的要素の意味論的値とを表す１つ又は複数のキーワード値ペア（２１３）を作成し記憶する。１つ又は複数の動的意味論的規則が定義されるのであるが、この動的意味論的規則は、単語ストリングの確率値が、外部的条件に関する情報、事実、アプリケーションの環境などに基づき、単語ストリング（２１４）の意味論的値との関係で、どのように修正されるべきかを特定するものである。そして、この動的意味論的規則は、単語ストリング及びキーワード値ペア（２１４）に適用される。音声認識手段は、１つ又は複数の確率値を修正し、単語ストリング（２１６）を再順序付けし、制御をアプリケーションに戻す。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】

本発明は、広くは、データ処理に関する。更に詳しくは、本発明は、音声認識
システムに関する。

【０００２】

【従来の技術】

音声認識システムは、人間が話した音声を認識し、認識された音声に従って動
作したり更なる処理を実行したりするように構成された特殊なコンピュータ・シ
ステムである。このようなシステムは、現在、航空券の予約、オートアテンダン
ト（auto-attendants）、命令の入力などを含む様々な応用例において広く用い
られている。一般に、このシステムは、コンピュータ・ハードウェア若しくはコ
ンピュータ・ソフトウェアのいずれか、又は、これらの組合せで構成される。

【０００３】音声認識システムは、典型的には、音響（アコースティック）信号を受け取る
ことによって動作する。ここで、音響信号とは、話された発話（utterance）か
ら受け取られたトランスデューサにおける音響エネルギを表す電子信号、又は、
データの組である。次に、このシステムは、Ｐ（Ａ｜Ｗ）＊Ｐ（Ｗ）という確率
を最大にする一連のテキスト・キャラクタ（「単語ストリング」）を見つけよう
とする。ここで、Ａは音響信号を意味し、Ｗは与えられた単語ストリングを意味
する。Ｐ（Ａ｜Ｗ）という成分は音響モデルと称され、Ｐ（Ｗ）は言語モデルと
称される。

【０００４】音声認識手段（speech recognizer）は、音響モデル若しくは言語モデルを変
更させることによって、又は、その両方を変更させることによって、改良するこ
とができる。言語は、ワード（単語）ベース、又は、「意味論的モデル」（sema
ntic model）でありうる。これは、Ｐ（Ｗ）を導く特定の方法である。

【０００５】典型的には、言語モデルは、開発中の特定のアプリケーションから多数の発話
を取得し、これらの発話を、どのような単語ストリングが与えられてもＰ（Ｗ）
を評価することができるワード・ベースの言語モデルを生じる言語モデル訓練プ
ログラムに提供する。この例には、バイグラム（bigram）モデル、トライグラム
（trigram）モデル、又は、より一般的にｎグラム言語モデルが含まれる。

【０００６】発話における一連のワードＷ₀−Ｗ_mでは、ｎグラム限度モデルは、それまでの
ｎ−１個のワードが与えられたときに、この発話がワードｊである確率を評価す
る。従って、トライグラムでは、Ｐ（Ｗ_j｜発話）は、Ｐ（Ｗ_j｜Ｗ_j-1，Ｗ_j-2）
によって評価される。ｎグラム・タイプの言語モデルは、アプリケーション環境
に対して比較的静的であると見ることができる。例えば、静的なｎグラム言語モ
デルは、音声認識手段が用いられている特定のアプリケーション又はそのアプリ
ケーションに関する外部的な事実情報に基づいて、その振る舞いを変更すること
はできない。従って、この分野では、用いられる特定のアプリケーションに対し
て適用させることができるような改良型の音声認識手段が強く求められている。

【０００７】ｎグラム言語モデルや、それ以外のワード・ベースの言語モデルは、大量の訓
練用発話を有するアプリケーションでうまく機能し、この言語モデルは、時間経
過と共に変更することはない。従って、大量の訓練用データが利用可能でないア
プリケーションに対しては、又は、基礎となる言語モデルが時間経過と共に変更
する場合には、アプリケーションに特有の情報を考慮することによって、より正
確な結果を得ることができる改良型の音声認識手段が望まれる。

【０００８】これ以外の課題や目的は、以下の詳細な説明から明らかになるはずである。

【０００９】

【発明の概要】

以上で述べた課題や、以下の説明から明らかになるであろうそれ以外の課題及
び目的は、本発明によって達成される。本発明は、ある側面においては、音声認
識手段によって認識される単語ストリングと関連付けられている１つ又は複数の
確率値を、単語ストリングから導かれるキーワード及び値のペアによって表され
る意味論的値に基づいて動的に修正する方法であって、意味論的値が所定の意味
論的タグと一致するときには、確率値の１つ又は複数における変更を定義する１
つ又は複数の規則を作成して記憶するステップであって、この規則は、音声認識
手段が用いられているコンテキストに関する１つ又は複数の外部的条件に基づい
ている、ステップと、条件の１つが現に真であるかどうかを判断し、真である場
合には、真である条件と関連付けられているタグと一致する確率値の１つ又は複
数を修正するステップと、を含む方法によって構成される。

【００１０】ある特徴によると、音声認識手段は、単語ストリングをアプリケーション・プ
ログラムまで運ぶ。前記判断するステップでは、アプリケーション・プログラム
において、条件の１つが現に真であるかどうかが判断され、真である場合には、
音声認識手段に対して、真である条件と関連付けられているタグと一致する意味
論的値と関連付けられている単語ストリングの確率値の１つ又は複数を修正する
ように命令がなされる。

【００１１】これ以外の特徴によると、音声認識手段によって認識された単語ストリングと
関連付けられている意味論的値が、１つ又は複数のキーワード値ペアとして表現
され、キーワード値ペアがアプリケーション・プログラムまで運ばれ、アプリケ
ーション・プログラムにおいて、条件の１つが現に真であるかどうかを判断し、
真である場合には、音声認識手段に対して、真である条件と関連付けられている
タグと一致するキーワード値ペアと関連付けられている単語ストリングの確率値
を修正するように命令がなされる。

【００１２】更に別の特徴によると、ワード及び意味論的値は、音声認識手段に論理的に結
合されたアプリケーション・プログラムまで運ばれ、真である条件と関連付けら
れているタグと一致する意味論的値と関連付けられている単語ストリングの確率
値の１つ又は複数を修正することができるアプリケーション・プログラムによっ
てコール可能な機能が、前記音声認識手段と共同して、作成されて記憶され、こ
のアプリケーション・プログラムにおいて、条件の１つが現に真であるかどうか
が判断され、真である場合には、意味論的値の１つ又は複数をどのように修正す
べきかを識別するパラメータ値を用いて、前記機能がコールされる。

【００１３】関連する特徴として、確率値の１つ又は複数を修正した後で単語ストリングを
再順序付けすることが含まれる。更に別の特徴としては、確率値の１つ又は複数
を真である条件と関連付けられているスケーリング・ファクタと乗算することに
よって、確率値を修正することが含まれる。

【００１４】別の特徴では、意味論的値を含む１つ又は複数のワード値ペアを、音声認識手
段に論理的に結合されたアプリケーション・プログラムまで運ぶことが含まれる
。真である条件と関連付けられているタグ・ワードと一致するワード値ペアのワ
ードと関連付けられている単語ストリングの確率値の１つ又は複数を修正するこ
とができる機能が、音声認識手段と共同して、作成され記憶される。アプリケー
ション・プログラムにおいて、条件の１つが現に真であるかどうかが判断され、
真である場合には、真である条件と関連付けられているスケーリング・ファクタ
を含めて、意味論的値と関連付けられている単語ストリングの確率値をどのよう
に修正すべきかを識別するパラメータ値を用いて、前記の機能がコールされる。
この機能は、確率値を、この確率値とスケーリング・ファクタとを乗算すること
によって、修正することができる。

【００１５】本発明は、また、以上のステップを実行するように構成することができるコン
ピュータ読取可能な媒体と装置とも包含する。

【００１６】

【発明の実施の形態】

本発明は、制限的にではなく、例示として、添付の図面に図解されている。図
面では、同じ参照番号は同じ構成要素を示している。

【００１７】動的意味論的モデル（dynamic semantic model）を用いた音声認識処理のため
の方法及び装置が説明される。以下では、説明の目的で、特定の詳細を多数与え
ることにより、本発明の十分な理解が得られることが意図されている。しかし、
当業者であれば、本発明は、これらの特定の詳細とは関係なく実現可能であるこ
とを理解するはずである。また、既知の構造及び装置をブロック図形式で示すこ
とにより、本発明を不必要に曖昧にすることを回避している。

【００１８】動的意味論的モデルを用いた音声認識システムの動作理論について述べる。大
量の訓練用データを用いることができない場合や、基礎となる言語モデルが時間
の経過と共に変更する場合には、単語（ワード）レベルからだけではなく、発話
（utterance）の意味も考慮してモデルを導くことにより、音声認識手段を改良
することができる。このような場合には、意味論的情報を用いることにより、言
語モデルの精度を著しく向上させることができる。

【００１９】例えば、航空券の予約システムを考察してみよう。航空会社の顧客がある専用
の番号に電話をかけ、その番号に音声認識手段を含む対話型音声応答（ＩＶＲ）
システムが関連付けられているとする。その場合、ＩＶＲシステムは、この顧客
に、搭乗を希望する日付を告げるように促す。

【００２０】静的で単語ベースの言語モデルを用いて発言された日付を表す単語を認識しよ
うとするのは、やや脆弱なアプローチである。このモデルでは、ユーザが「１２
月１６日（December sixteenth）」と発言した確率は、「９月１５日（Septembe
r fifteenth）」と発言した確率と類似する。また、このモデルでは、この両方
の確率が、ユーザが「１２月の１６日（the sixteen of December）」と発言し
た確率よりはいくらか確からしい（likely）し、「９月１５（September one fi
ve）」よりもはるかに確からしい、ということも分かる。このように、静的で単
語ベースの言語モデルでは、特定の発話が「１２月」（December）という単語を
表すのか「９月」（September）という単語を表すのかに関する混乱を音声認識
手段が解消することの役には立たない。

【００２１】しかし、航空会社は、その経験から、ＩＶＲシステムを用いる顧客は電話をし
ている日から数日以内での搭乗を希望しているのが一般的であることを知ってい
る。従って、現在が１２月１４日であるとすると、ユーザは、「９月１５日」で
はなく、「１２月１６日」と発言するであろう確率の方が高い。この事実は、認
識手段において曖昧さを解消するのに意味論的な情報が用いられ、それによって
、その性能が向上する例である。

【００２２】「意味論的モデル」という用語は、単語ストリング（単語の連なり、word str
ing）の確率が発話の基礎にある意味に部分的に依存していることを意味する。
上述の例では、与えられた発話が「１２月１６日」すなわち「あさって」である
確率値は、ユーザが現在から２日後に搭乗を希望する確率と、これら２つの言い
方のそれぞれでその発言をする確率との両方に依存する。

【００２３】「動的意味論的モデル」という用語は、意味論的モデルが、単語ストリングと
それぞれが関連付けられている１つ又は複数の確率値を変更させうる、というこ
とを意味する。この変更は、外部イベントを記述する情報とその外部イベントが
生じるときになされる応答とに依存して起こりうる。ある特定の変更は、ある発
話の特定の抽象的な言語要素を表す１つ又は複数の意味論的値と、外部イベント
を記述する情報とが組み合わされたものに依存して、決定される。上述の例では
、意味論的モデルによって、「１２月１６日」及び「９月１６日」というストリ
ングと関連付けられている１つ又は複数の確率値が、現在の日付を識別する情報
に基づいて変更される。

【００２４】別の実施例では、意味論的モデルは、旅行システムにおける都市名の値に対し
て作用するように構成される。このモデルでは、都市名がキーワードである。こ
のシステムは、キーワードの例に関連して、発話が特定の都市名であるかどうか
を電話している者（発呼者）が電話をかけているエリア・コードによって指示す
る１つ又は複数の値を作成し記憶する。例えば、音声認識手段が、発呼者を識別
するデータを受け取り、このデータには、発呼者がエリア・コード「６１７」か
ら電話をかけていることを示すエリア・コード値が含まれる、と仮定する。更に
、音声認識手段が発話を受け取り、その発話を表しうる２つの単語ストリングで
ある「ボストン」及び「オースチン」を発生すると仮定する。また、音声認識手
段は、それぞれの単語ストリングと関連する確率値を作成し記憶する。この確率
値は、その単語ストリングが実際に発言された可能性（蓋然性）を示す。音声認
識手段は、また、それぞれの単語ストリングと関連付けられたキーワード値ペア
（＝「キーワード」と「値」との対）を作成し記憶する。第１の単語ストリング
のキーワード値ペアは、（都市名、「ボストン」）という対であり、第２の単語
ストリングのキーワード値ペアは、（都市名、「オースチン」）という対である
。

【００２５】結果的に、音声認識手段は、都市名値として「ボストン」と「オースチン」と
のいずれか一方を認識したかどうかを判断することができない。マサチューセッ
ツ州ボストンのエリア・コードは「６１７」であるから、発呼者が電話をかけて
いる発信地の都市がオースチンである可能性は非常に低く、また、発呼者が電話
をかけている目的地の都市がボストンである可能性も非常に低い。このように、
エリア・コード情報とキーワード値ペアとに基づき、動的意味論的機構を用いる
と、一方又は他方の単語ストリングと関連付けられている確率値を変更できるし
、適切な重み付けも可能である。

【００２６】別の例として、株式市場及び取引システムにおける会社名のための意味論的モ
デルがありうる。システムが株式（Stock）という意味論的キーワードを有して
おり、このシステムの顧客又はユーザが、ＩＢＭ社の株式を含む株式ポートフォ
リオを有していると仮定する。更に、仮に、「Ｉビーム社」という会社も株式市
場に上場されていると仮定する。このような状況では、音声認識手段が「ＩＢＭ
」なのか「Ｉビーム」なのかが混同される可能性があるような発話を識別する場
合には、意味論的モデルは、この顧客が自分のポートフォリオの中にＩＢＭの株
式を有しているという理由から、その発話は「ＩＢＭ」である確率の方がはるか
に高いと判断する。このように、例えば「ＩＢＭ」又は「Ｉビーム」という２つ
の単語ストリングに割り当てられる確率値は、それぞれのユーザのポートフォリ
オに含まれている株式に依存する。

【００２７】アプリケーションによっては、このような動的意味論的モデルを用いることに
よる重要な利点が認識されていることが分かっている。場合によっては、静的な
単語ベースの言語モデルと比較して、非常に著しい精度の向上が得られることが
分かっている。

【００２８】音声認識手段はほとんどが基本的に単語ストリングに作用するのであって意味
論的情報には作用しないので、動的意味論的モデルは、認識後のプロセスに適用
することができる。例えば、音声認識手段は、ｎ個の最良の単語ストリングを決
定し、それに意味抽出機能を備えたパーザを適用し、これらのｎ個の最良の単語
ストリングをｎ組の最良のキーワード値ペアに変換する。単語ストリングのそれ
ぞれ又はキーワード値ペアのそれぞれと関連して、確率値が記憶される。意味論
的モデルが適用され、１つ又は複数の確率値を修正するのに用いられ、ｎ組の最
良のキーワード値ペアが再順序付けされる。あるいは、単語ストリングが再順序
付けされる。

【００２９】ある実施例では、１つ又は複数のコールバックを用いて、意味論的モデルが適
用されうる。音声認識手段と共同して実行されているアプリケーションは、１つ
又は複数のコールバックを用いることにより、開発者が提供する意味論的情報に
基づいて、任意のキーワードと関連付けられている値を変更することができる。

【００３０】次に、システム構造の例について説明する。図１は、音声認識システム１００
の主要な構成要素を示すブロック図である。電話２は接続部４に結合され、この
接続部４は公共交換式電話ネットワーク（ＰＳＴＮ）や、任意のそれ以外の音声
又はデータ・ネットワークを通過して、音声認識手段１０２を用いて、音声情報
を送受信する。ある例示的なアプリケーションでは、電話２は、音声認識システ
ム１００を所有する又は操作する企業の顧客と関連付けられている。音声認識シ
ステム１００は、対話型の音声応答アプリケーション１０８を実行して、顧客サ
ービスを提供する。適切な顧客サービス・アプリケーションの例としては、カタ
ログ注文、株式取引、航空券予約などがある。

【００３１】音声認識手段１０２は、音響（アコースティック）モデル１１３と動的意味論
的機構１１２とに結合されている。音響モデル１１３は、音声認識手段１０２が
電話２から受け取る信号に対して音声認識機能を実行するのを助ける情報を有し
ている。例えば、音声認識手段１０２は、音響モデル１１３を用いて、複数の音
素の中のどの音素が電話２から受け取った発言の１つ又は複数のフレーム又はセ
グメントによって表されている可能性が最も高いか、を判断する。音声認識手段
１０２は、出力として、可能性のある音素の組を提供することができる。好まし
くは、音声認識手段１０２は、更に、それらの音素によって表される可能性が最
も高い単語である１つ又は複数の単語ストリングを出力する。この単語ストリン
グはｎ個あって、これらｎ個が、ワード・ストリングと関連して作成され記憶さ
れている確率値に従って、可能性が最も高いものから最も低いものへ、という順
序になっているのが通常である。従って、このワード・ストリングは、ｎ個の最
良の単語ストリング１０４と称される。

【００３２】音声認識手段１０２は、また、動的意味論的機構１１２にも結合され、この動
的意味論的機構１１２はデータ１１４に結合されそのデータを用いる。動的意味
論的機構１１２は、音声認識手段１０２が電話２から受け取った信号に対してよ
り高度な音声認識機能を実行するのを助ける。例えば、音声認識手段１０２は、
動的意味論的機構１１２を用いて、複数の単語の中のどの単語がｎ個の最良の単
語ストリング１０４の意味を表すかを判断する。動的意味論的機能は、アプリケ
ーション１０８、音声処理モジュール１０６又は音声認識手段１０２からコール
することができる関数、サブルーチン、方法又はそれ以外のソフトウェア・プロ
セスとして実現することができる。

【００３３】データ１１４は、システム１００の環境に関する情報、又は、音声認識手段１
０２の出力に影響する可能性があるそれ以外の外部的事実若しくは条件である。
ある実施例では、データ１１４は、不揮発性メモリに記憶され音声認識手段１０
２が初期化される際にメイン・メモリにロードされるテーブル、リスト又はそれ
以外のデータ構造の形式で実現することができる。テーブルは、発言者の発話に
一致する可能性があるキー値のリストを記憶して、ある発話があるキー値と一致
する又はある範囲のキー値に含まれるときに置換される値を置き換える。また、
テーブルは、それぞれのキー値に対して、ｎ個の最良の単語ストリング１０４の
中の特定の単語ストリングと関連付けられている確率値を修正するのに用いられ
るウェイト値、フロア値及びオフセット値を記憶することができる。

【００３４】データ１１４は、アプリケーション１０８を長期間用いたことから導かれる統
計的情報のテーブルによって、又は、そのような統計的な情報に基づく規則若し
くはデータによって構成されうる。例えば、アプリケーション１０８が航空券予
約システムであるときには、リアルタイム環境でこのアプリケーションを長期間
用いることを通じて、エリア・コードが６１７である場所（ボストン及びその近
郊）の顧客は、ほとんど常に出発地がボストンである航空券を予約することが分
かる。この意味論的規則は、アプリケーション１０８が動作しているときにアプ
リケーション１０８によって記憶され発呼者がエリア・コードが６１７である地
域にいるときには出発地として「ボストン」を認識するという例が反復されてい
ることを示す統計又はログ・ファイルから導かれる。

【００３５】動作としては、電話２から音声入力を受け取ると、音声認識手段１０２は、そ
の音声によって表されるｎ個の最良の単語ストリング１０４の組を作成する。音
声認識手段１０２は、次に、このｎ個の最良の単語ストリング１０４にパーザ１
０３を適用する。パーザ１０３は、バッカス・ナウア形式（Backus-Naur Form =
BNF）のパーザであり、ｎ個の最良の単語ストリング１０４を解析して、この単
語ストリングによって表される言語的な意味を決定する。その結果、パーザ１０
３は、単語ストリングのそれぞれに対して、１つ又は複数のキーワード値ペアを
作成して記憶する。

【００３６】それぞれのキーワード値ペアは、ｎ個の最良の単語ストリング１０４の１つの
意味を表す。例えば、航空券予約システムにおける発話の例で、発言者がそのフ
ライトの出発地と目的地とを発言することを考える。ある発言者の発話が、「わ
たしは、３月２４日にボストンからデンバーまで飛びたい」であったとする。こ
のときに、音声認識手段１０２は、この発話から２つのｎ個の最良の単語ストリ
ング１０４を発生しうる。すなわち、単語ストリングＡである「わたしは、３月
２４日にボストンからデンバーまで飛びたい」と、単語ストリングＢである「わ
たしは、３月２４日にオースチンからデンバーまで飛びたい」の２つが発生され
たとする。単語ストリングＡは確率値が９０であり、単語ストリングＢは確率値
が２０であるとする。ここで、０から１００までのスケールにおいて、高い値の
方が可能性が高いことを表す。パーザ１０３は、単語ストリングＡに対しては次
のようなキーワード値ペアを作成することができよう。すなわち、（出発地、ボ
ストン）；（目的地、デンバー）；（日付、１９９９年３月２４日）である。同
様に、パーザ１０３は、単語ストリングＢに対しては次のようなキーワード値ペ
アを作成することができよう。すなわち、（出発地、オースチン）；（目的地、
デンバー）；（日付、１９９９年３月２４日）である。

【００３７】ｎ個の最良の単語ストリング１０４の中のそれぞれの単語ストリングに対して
は、ただ１つの確率値が作成され記憶されることが好ましい。確率値とは、特定
の単語ストリングが実際にその発言者によって発言された蓋然性を表すものであ
る。あるいは、このシステムは、１つの単語ストリングと関連付けられているそ
れぞれのキーワード値ペアに対して１つの確率値を作成し記憶することができ、
また、そのような複数の確率値をそのストリング全体に対する１つの値に統合す
ることもできる。

【００３８】また、音声認識手段１０２は、ｎ個の最良の単語ストリング１０４を、１つ又
は複数の音声処理モジュール１０６に送ることができる。このモジュール１０６
は、より高度な音声処理機能を実行するソフトウェア要素である。音声処理モジ
ュール１０６として用いるのに適している商用の製品の例として、米国マサチュ
ーセッツ州ボストン所在のスピーチ・ワークス・インターナショナル社から市販
されているダイアログ・モジュールズ（DialogModules^TM）がある。

【００３９】音声処理モジュール１０６は、アプリケーション１０８と共同し、そして、ア
プリケーション１０８によって用いられることにより、その論理演算を実行する
。例えば、アプリケーション１０８は、音声処理モジュールの１つのコールし、
電話２を用いている発言者がアプリケーション１０８によって発生された特定の
促しに対して「イエス」と答えたのか「ノー」と答えたのか、を判断する。アプ
リケーション・プログラムと相互に作用しあう音声処理モジュールの実施例の詳
細は、この出願と同時出願中であり発明者Matthew T. Marx他による"System and
Method for Developing Interactive Speech Applications"と題する１９９８
年５月６日に出願された米国特許出願第０９／０８１，７１９号に記載されてい
る。

【００４０】音声認識手段１０２は意味論的情報ではなく単語ストリングを扱うので、動的
意味論的モデルは、後処理として適用することができる。コールバック１１０は
、アプリケーション１０８と、音声認識手段１０２と、ｎ個の最良の単語ストリ
ング１０４とに結合されている。コールバック１１０は、アプリケーション・プ
ログラミング・インターフェース（ＡＰＩ）に従って定義されアプリケーション
１０８がそのキーワード値ペアと規則データ１１４とに基づいて任意の単語スト
リングの確率値を変更するためにコールすることができる関数コールの形式で実
現することができる。ある実施例では、このコールバックは、複数のパラメータ
を用いてコールされる。このパラメータは、キーワードと、値と、関連付けられ
ている単語ストリングの確率値を調節するのに用いることができるスケーリング
・ファクタと、このスケーリング・ファクタをいつ適用すべきかを定義する１つ
又は複数の意味論的タグとを含む。

【００４１】テーブル１はコードの例であり、時間値を処理するコンテキストにおいて動的
意味論的モデルのアプリケーションを実行する関数と、その関数にアクセスする
アプリケーション・プログラムに配置されるコールバックとの例が、Ｃ言語によ
って与えられている。この関数は、"get_time_lm()"と称され、コールバックは
、"TimeLMCCallback"と称される。データ構造TIME_LM*tlmは、テーブルの形式で
の言語モデルを含み、起動時の間に読み取られる。

【００４２】

【表１】この例では、データ構造TIME_LMのそれぞれのローは、分単位のキー値（num_i
n_lm）と、代替時間値のアレイと、フロア値と、ウェイト値と、オフセット値と
によって構成されている。発言者によって発っせられた分単位の時間値がキー値
の１つと一致する場合には、この関数は、データ構造から対応する代替値を取得
する。この代替値は、オフセット値を減算しウェイト値を乗算して返却される。
そうでない場合には、関数は、フロア値を戻す。従って、発話された時間値と関
連付けられているキーワード値ペアにおける値は、現在のアプリケーションとそ
のコンテンツとに基づき、発話のなされた時間値を発話が予測される１つ又は複
数の時間値と比較されることによって、修正することができる。あるいは、関連
付けられている単語ストリングの確率値を修正することもできる。

【００４３】ある実施例では、フロア値によって、システムが、確率は低いが依然として可
能性はある意味論的値にゼロより大きな所定の最小の確率値を割り当てられるこ
とを保証することが可能になる。これにより、動的意味論的機構が可能性が低い
発話をフィルタリングによって排除してしまうことが回避できる。オフセット値
によって、システムは、割り当てられた最低の確率値を任意の所望の値に調節す
る又は移動させることが可能になる。実際、オフセット値を用いることにより、
確率値の範囲が上下に移動される。実施例によっては、オフセット値がゼロであ
り、最小の確率値がゼロであるような場合もある。

【００４４】更に別の実施例では、動的意味論的機構によって、又は、ウェイト、オフセッ
ト及びフロア値の何らかの組合せによって発生された確率値が、音響的な確率値
と組み合わされて、最終的すなわち包括的な確率値を生じる。

【００４５】確率値の発生は、元の確率値の対数をとることによって実行することができる
。従って、ある単語ストリングと関連付けられた現在の確率値から修正された確
率値を決定する計算は、次の通りである。

【００４６】

【数１】確率＝（ｌｏｇ（現在の確率値）＊ウェイト）＋オフセット＞＝フロアこれらの実施例のいずれにおいても、システム１００の動作は、次のように進
行する。システム１００の顧客又はユーザが、システムをコールする。アプリケ
ーション１０８が実行され、顧客に何らかの情報を発言するように促す。顧客は
、電話２において音声信号を提供し、この信号は、接続４を介して、音声認識手
段１０２まで送られる。音声認識手段１０２は、音響モデル１１３を用いて音声
信号をその信号の内部で認識又は検出された１つ又は複数の音素に変換すること
によって、信号の音声認識を実行する。音声認識手段１０２は、次に、この１つ
又は複数の音素を当該音素によって表される可能性があるｎ個の最良の単語スト
リングに変換する。確率値が、このｎ個の最良の単語ストリング１０４のそれぞ
れの関連して作成され記憶される。この確率値は、特定の単語ストリングが実際
に発話された言葉である蓋然性を表している。

【００４７】音声認識手段１０２は、パーザ１０３をｎ個の最良の単語ストリングに適用す
る。パーザ１０３は、意味抽出能力を備えている。その結果、１つ又は複数のキ
ーワード値ペア１０５が作成され記憶される。キーワード値ペア１０５は、発言
者の発話の意味を表している。それぞれのキーワードは、音声信号の内部で認識
された何らかの単語又は言語要素に対する抽象的な識別子である。それぞれのキ
ーワードには、アプリケーション１０８における変数を１つ関連付けることがで
きる。それぞれの値は、関連付けられている抽象的な言語要素に対して発言され
たものとして認識されたものである。例えば、キーワードは「出発地」であり、
関連付けられている値は「オースチン」である。

【００４８】キーワード値ペアは、音声処理モジュール１０６に送られ、このモジュールは
、キーワード値ペアに論理操作を実行する。場合によっては、音声処理モジュー
ル１０６は、このキーワード値ペアをアプリケーション１０８に送り、アプリケ
ーションにおいて現実化されている業務規則（business rules）に従って、更な
る処理と論理的決定を行う。

【００４９】アプリケーション１０８は、音声認識手段１０２に命令して、単語ストリング
の１つと関連して記憶されている確率値の１つを、キーワード値ペアの１つ又は
複数に基づいて、アプリケーションの現在の意味論的コンテキストとアプリケー
ションによってなされた意味論的決定とに従って変更させることができる。例え
ば、（出発地、オースチン）という上述したキーワード値ペアを考えてみよう。
アプリケーション１０８は、それ自身が利用することができる他の情報から、発
呼者はエリア・コードが６１７である地域から電話をしているのであるから、発
呼者がオースチンから出発することを希望している蓋然性は極度に低いと判断す
ることができる。それに対して、アプリケーションは、（出発地、オースチン）
というキーワード値ペアと関連付けられているｎ個の最良の単語ストリング１０
４の１つの確率値を変更して、発話の実際の意味をより適切に反映するようにす
ることができる。

【００５０】ある実施例では、アプリケーション１０８は、音声認識手段１０２のサブルー
チン、方法又は手順をコールし、音声認識手段が確率値をどのように変更すべき
かを定義するパラメータを送ることができる。音声認識手段１０２は、パラメー
タに従って、関数コールを受け取り、それを実行する。それに対して、確率値を
変更した後で、音声認識手段１０２は、変更された値を考慮するために、ｎ個の
最良の単語ストリング１０４のペアをソート又は再順序付けする。

【００５１】結果的に、音声認識手段１０２は、アプリケーションの現在の意味論的なコン
テキストに動的に従って、顧客又はユーザからの音声を認識する方法を調節して
いる。このようにして、音声認識における精度の改善が達成される。

【００５２】動的意味論的モデルを用いた音声認識方法について述べる。図２は、動的意味
論的モデルを用いて音声認識を実行する方法の流れ図である。ブロック２０２では、１つ又は複数の動的意味論的な規則が確立される。ブロ
ック２０２は、アプリケーション１０８の実際のパフォーマンスに関する統計的
な情報を解析し、ログ・ファイルや統計ファイルなどに基づいて規則データ１１
４を導くことを含む。このように、規則データ１１４とブロック２０２で識別さ
れる規則とは、統計テーブル、又は、アプリケーションからのパフォーマンス情
報に基づいて、確率的に導くことができる。

【００５３】あるいは、ブロック２０２は、アプリケーションのコンテキストによって、又
は、１つ又は複数の外部的な要因によって変更される業務上の規則や意味論的な
規則を抽象的に定義することを含む。動的意味論的な規則の例としては、次のも
のがある。（エリア・コードが６１７）であるならば、（目的地はボストン）である。

【００５４】ある実施例では、意味論的な規則は、現在のアプリケーションの意味論的コン
テキストを表すキーワード値ペアと関連付けられている単語ストリングの確率値
の修正を実行する音声認識手段の関数への１つ又は複数のコールを、アプリケー
ション・プログラムに配置することによって確立される。この意味論的規則は、
それぞれが、そのようなものが存在すれば確率値が修正されるべきであるような
、アプリケーションのコンテキスト、外部的条件又は内部的条件を定義する意味
論的なタグを含んでいる。それぞれの意味論的タグには、確率値をどのように変
更すべきかを定義するスケーリング・ファクタを関連付けることができる。スケ
ーリング・ファクタの例としては、「０．２」、「５０％」などがある。現在の
値にスケーリング・ファクタを乗算すると、修正値が得られる。あるいは、それ
ぞれの意味論的タグに、その代わりとなる代替値を関連付け、現在の値を削除し
て代替値で置き換えることもできる。

【００５５】ブロック２０４では、動的意味論的な規則を現実化する１つ又は複数の論理ル
ーチンが作成され記憶される。ブロック２０４は、１つ又は複数の関数コールを
、音声認識手段と共同して動作するアプリケーション・プログラムに配置するこ
とを含む。関数コールは、それぞれが、動的意味論的な規則を実現する１つ又は
複数のパラメータを有する。別の実施例では、アプリケーションが、音声認識手
段へのコールバックを行うことなく、値の変更に必要なすべての業務論理及び処
理論理を含むこともありうる。

【００５６】ブロック２０６では、発話が受け取られる。発話は、例えば、音声認識システ
ムの顧客又はユーザがシステムをコールするときに、受け取られる。アプリケー
ションが動作し、顧客に、何らかの情報を発言するように促す。顧客は、電話で
音声信号を提供し、それが音声認識手段まで運ばれる。

【００５７】ブロック２０８では、音声認識手段は、音響モデルを用いて音声信号を１つ又
は複数の音素に変換することによって、音声認識を実行する。ブロック２１０で
は、音声認識手段は、１つ又は複数の音素を、その音素によって表現される可能
性があるｎ個の最良の単語ストリングに変換する。また、ブロック２１０は、ｎ
個の最良の単語ストリングのそれぞれと関連付けられている確率値を作成し記憶
することを含みうる。この確率値はその単語ストリングが実際に発言されたもの
である蓋然性を示す。

【００５８】ブロック２１２では、音声認識手段は、意味抽出機能を備えたパーザを、ｎ個
の最良の単語ストリングに適用する。その結果、ブロック２１３に示されている
ように、単語ストリングのそれぞれに対して、１つ又は複数のキーワード値ペア
が作成され記憶される。キーワード値ペアは、抽象的な言語要素と、発言者の発
話において認識された関連付けられた値とを表す。それぞれのキーワード値ペア
に、あるキーワード確率値が関連付けられるのが最適である。ただし、このキー
ワード確率値は、関連付けられた値が当該キーワードに対して実際に発言された
ものである蓋然性を表すものである。

【００５９】このキーワード値ペアは、１つ又は複数の音声処理モジュールに送らる。音声
処理モジュールは、キーワード値ペアに対して、論理操作を実行する。場合によ
っては、音声処理モジュールは、キーワード値ペアを、アプリケーションに送っ
て、そのアプリケーションにおいて具体化されている業務規則に従って更なる処
理と論理的な意志決定とを行う。

【００６０】ブロック２１４では、動的意味論的モデルがキーワード値ペアに適用される。
ある実施例では、アプリケーションが、音声認識手段に、１つ又は複数のキーワ
ードと関連付けられている単語ストリングの確率値を、現在の意味論的コンテキ
ストやアプリケーションによってなされた意味論的な決定に従って変更するよう
に命令する場合もある。このようにして、ブロック２１５に示されているように
、確率値は修正される。

【００６１】ここで、上述した航空券予約システムを考えてみる。サブルーチンのある関数
において、アプリケーションは、それ自身がその上で動作しているコンピュータ
・システムのシステム・クロックの現在値を読み取る。それにより、アプリケー
ションは、現在の日付が「１２月２日」であると判断する。次に、アプリケーシ
ョンは、（現在の月、９月）及び（現在の月、１２月）というような１つ又は複
数の曖昧又は混乱した値を含む単語ストリングと関連付けられているキーワード
値ペアとを受け取ると、「９月」が実際の発話であった可能性は低いと判断する
。抽象的に述べると、想定されている単語が現在の月よりも前の月であるときに
は、アプリケーションは、その想定されている単語が到着日の一部である可能性
は低く、従って、その関連付けられている単語ストリングの確率値は変更される
べきであると判断することができる。

【００６２】ある実施例では、アプリケーションは、音声認識手段のサブルーチン、方法又
は手順をコールし、キーワード値ペアと関連付けられている単語ストリングの確
率値を音声認識手段がどのように変更すべきかを定義するパラメータを送ること
ができる。音声認識手段は、パラメータに従って、関数コールを受け取り、それ
を実行する。関数コールの実行には、現在のキーワード値ペアを調べ、それを当
該キーワードに対して予測される又は可能性のある値のテーブルと比較し、現在
のキーワードと関連付けられている単語ストリングの確率値を代替値、ウェイト
又はオフセット値に従って修正することを含む。代替値、ウェイト及びオフセッ
ト値は、アプリケーションの現在のコンテキストに従って、アプリケーションの
開発者が前もって選択しておくことが可能である。

【００６３】ブロック２１６では、値を変更した後で、音声認識手段が単語ストリングをソ
ート又は再順序付けし、変更された値を考慮する。再順序付けされた単語ストリ
ングは、アプリケーション・プログラムに送られ、アプリケーション・プログラ
ムによって任意の所望の関数を実行するとき用いられる。

【００６４】その結果、音声認識手段は、顧客又はユーザからの音声を認識し、アプリケー
ションの現在の意味論的コンテキストに従ってその出力を修正する。次に、ハードウェアの概要を述べる。図３は、本発明のある実施例がその上で
実現されているコンピュータ・システム３００を図解するブロック図である。コ
ンピュータ・システム３００は、バス３０２又は情報を通信するそれ以外の通信
機構と、バス３０２に結合されており情報を処理するプロセッサ３０４とを含ん
でいる。コンピュータ・システム３００は、また、ＲＡＭ又はそれ以外のダイナ
ミックな記憶装置であるメイン・メモリ３０６を含む。そして、このメイン・メ
モリ３０６は、バス３０２に結合されており、プロセッサ３０４によって実行さ
れる情報及び命令を記憶する。また、メイン・メモリ３０６は、プロセッサ３０
４によって命令が実行される間、一時的な変数やそれ以外の中間的な情報を記憶
するのに用いられることもある。コンピュータ・システム３００は、更に、バス
３０２に結合されておりプロセッサ３０４のための静的な情報及び命令を記憶す
るＲＯＭ３０８やそれ以外の静的な記憶装置を含む。また、磁気ディスクや光デ
ィスクなどの記憶装置３１０がバスに結合され、情報や命令を記憶する。

【００６５】コンピュータ・システム３００は、バス３０２を介して、情報をコンピュータ
のユーザに表示する、ブラウン管（ＣＲＴ）などのディスプレイ３１２に結合す
ることができる。英数字やそれ以外のキーを含む入力装置３１４が、バス３０２
に結合され、情報やコマンドの選択をプロセッサ３０４に送る。別のタイプのユ
ーザ入力装置として、マウスやトラックボールなどのカーソル制御３１６や、方
向情報及びコマンドの選択をプロセッサ３０４に送り、ディスプレイ３１２上で
のカーソルの移動を制御するカーソル方向キーがある。この入力装置は、典型的
には、第１の軸（例えばｘ）と第２の軸（例えばｙ）という２つの軸に関する自
由度２を有し、それによって、この入力装置が平面上での位置を特定することが
可能になる。

【００６６】本発明は、コンピュータ・システム３００を用い、動的意味論的モデルに基づ
いて音声認識処理を実行することに関する。本発明のある実施例では、動的意味
論的モデルを用いた音声認識処理が、プロセッサ３０４がメイン・メモリ３０６
に含まれている１つ又は複数の命令で構成される１つ又は複数のシーケンスを実
行することに応答して、コンピュータ・システム３００によって提供される。こ
れらの命令は、記憶装置３１０など他のコンピュータ読取可能媒体から、メイン
・メモリ３０６に読み取られる。メイン・メモリ３０６に含まれる命令シーケン
スを実行することにより、プロセッサは、ここで説明されている各処理ステップ
を実行する。別の実施例では、ソフトウェア的な命令の代わりに、又は、ソフト
ウェア的な命令と共に、ハードワイアード回路を用いて本発明を実現することも
できる。このように、本発明の実施例は、ハードウェア回路やソフトウェアのど
のような特定の組合せにも限定されない。

【００６７】ここで用いている「コンピュータ読取可能媒体」という用語は、プロセッサ３
０４に提供して実行させる命令を有する任意の媒体を意味する。このような媒体
は、多くの形態をとりうる。例えば、限定は意味していないが、不揮発性媒体、
揮発性媒体、伝送媒体などが含まれる。不揮発性媒体には、例えば、記憶装置３
１０などの光ディスクや磁気ディスクが含まれる。揮発性媒体には、例えば、メ
イン・メモリ３０６のようなダイナミック・メモリが含まれる。伝送媒体には、
バス３０２を構成するワイヤを含む、同軸ケーブル、銅線、光ファイバなどが含
まれる。伝送媒体は、更に、無線波及び赤外線データ通信の間に発生されるよう
な、音波や光波の形態もとりうる。

【００６８】コンピュータ読取可能媒体の一般的な形態としては、例えば、フロッピ・ディ
スク（登録商標）、ハード・ディスク、磁気テープ、それ以外の磁気媒体、ＣＤ
−ＲＯＭ、それ以外の光媒体、パンチカード、紙テープ、ホールのパターンを有
するそれ以外の物理的媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、フラッシ
ュＥＰＲＯＭ、それ以外のメモリ・チップ又はカートリッジ、後に述べる搬送波
など、コンピュータが読み取ることが可能な任意の媒体がありうる。

【００６９】様々な形態のコンピュータ読取可能媒体が、実行するために、１つ又は複数の
命令で構成される１つ又は複数のシーケンスをプロセッサ３０４まで運ぶことに
関係する。例えば、命令は、当初、リモート・コンピュータの磁気ディスク上で
運ぶことができる。このリモート・コンピュータは、これらの命令を、そのダイ
ナミック・メモリにロードし、モデムを用いて電話回線を介して送ることができ
る。コンピュータ・システム３００のローカル・モデムは、電話回線上のデータ
を受信し、赤外線送信機を用いてデータを赤外線信号に変換することができる。
赤外線検出器が赤外線信号において運ばれたデータを受信し、適当な回路によっ
てこのデータをバス３０２の上に配置する。バス３０２は、データをメイン・メ
モリ３０６まで運び、このメイン・メモリからプロセッサ３０４がデータを得て
命令を実行する。メイン・メモリ３０４が受け取る命令は、プロセッサ３０４に
よる実行の前又は後のいずれかに、記憶装置３１０に最適な態様で記憶される。

【００７０】コンピュータ・システム３００は、また、バス３０２に結合された通信インタ
ーフェース３１８を含む。通信インターフェース３１８は、ローカル・ネットワ
ーク３２２に接続されたネットワーク・リンク３２０との間の双方向のデータ通
信結合を与える。例えば、通信インターフェース３１８は、対応するタイプの電
話回線へのデータ通信接続を提供するＩＳＤＮカード又はモデムでありうる。別
の例としては、通信インターフェース３１８は、ローカル・エリア・ネットワー
ク（ＬＡＮ）カードであり、互換性を有するＬＡＮへのデータ通信接続を提供す
る。無線リンクを実現することもできる。そのような場合には、通信インターフ
ェース３１８は、様々なタイプの情報を表すデジタル・データ・ストリームを運
ぶ電気、電磁気又は光信号を送受信する。

【００７１】ネットワーク・リンク３２０は、典型的には、１つ又は複数のネットワークを
介して、他のデータ装置へのデータ通信を提供する。例えば、ネットワーク・リ
ンク３２０は、ローカル・ネットワーク３２２を介して、ホスト・コンピュータ
３２４への、又は、インターネット・サービス・プロバイダ（ＩＳＰ）３２６に
よって運営されているデータ装置への接続を与える。ＩＳＰ３２６は、これに対
して、現在では一般的に「インターネット」３２８と称されている全世界的なパ
ケット・データ通信ネットワークを介して、データ通信サービスを提供する。ロ
ーカル・ネットワーク３２２とインターネット３２８とは、共に、デジタル・デ
ータ・ストリームを運ぶ電気、電磁気又は光信号を用いる。コンピュータ・シス
テム３００まで及びコンピュータ・システムからデジタル・データを運ぶ様々な
ネットワークを通過する信号や、ネットワーク・リンク３２０上及び通信インタ
ーフェース３１８を介する信号は、情報を運ぶ搬送波の例示的な形態である。

【００７２】コンピュータ・システム３００は、プログラム・コードを含むメッセージやデ
ータを、ネットワーク、ネットワーク・リンク３２０、通信インターフェース３
１８を介して送受信する。インターネットの例では、サーバ３３０が、インター
ネット３２８、ＩＳＰ３２６、ローカル・ネットワーク３２２、通信インターフ
ェース３１８を介して、アプリケーション・プログラムのための要求されている
コードを送信する。本発明では、そのようなダウンロードされたアプリケーショ
ンが、ここで説明されている動的意味論的モデルを用いて音声認識処理を提供す
る。

【００７３】受信されたコードは、受信されたときにプロセッサ３０４によって実行される
か、記憶装置３１０や、後で実行される場合にはそれ以外の不揮発性記憶装置に
記憶される。このようにして、コンピュータ・システム３００は、搬送波の形態
でアプリケーション・コードを得ることができる。

【００７４】この出願での説明は、コンピュータ・メモリ内部でのデータ・ビットに対する
操作のアルゴリズムや記号による表現として提供することもできる。アルゴリズ
ムによる記述や表現は、データ処理の技術分野における当業者によって用いられ
る手段であり、彼らの間で自らの仕事の実体を最も効果的に伝達するのに用いら
れる。

【００７５】アルゴリズムは、一般に、所望の結果に到達するための自己完結的な一連のス
テップとして理解することができる。これらのステップは、物理的数量に関する
物理的表明を要するのが一般的である。必ずしもそうではないが、通常は、これ
らの数量は、記憶、転送、合成、比較などの操作が可能な電気又は磁気信号の形
式を有する。この出願では、これらの信号を、ビット、値、要素、シンボル、キ
ャラクタ、項（terms）、数字などを用いて表している。しかし、これらの用語
は、すべてが、適切な物理的数量と関連付けられ、これらの数量に適用される便
宜的なラベルに過ぎない。

【００７６】更に、実行される操作は、多くの場合、人間のオペレータによって実行される
心理的な操作（mental operations）と通常は関連付けられている（「加える」
とか「比較する」とかいう）用語で言及される。ほとんどの場合に、特に指定さ
れない限り、人間のオペレータのそのような能力は不要であり、望まれてもいな
い。操作は、機械的な操作である。本発明の操作を実行する便利な機械には、汎
用のデジタル・コンピュータやそれに類似する装置が含まれる。この出願は、電
気的又はそれ以外の物理信号を処理しそれ以外の所望の物理信号を発生させるコ
ンピュータの操作方法に関するものである。

【００７７】本発明の１つの実施例として、これらの操作を実行する装置がある。このよう
な装置は、求められている目的のために専用に構築され、汎用のデジタル・コン
ピュータで構成され、そのコンピュータに記憶されているコンピュータ・プログ
ラムによって選択的に動作し再構成が可能であるようになっている。この出願に
おいて与えられているアルゴリズムは、どのような特定のコンピュータやそれ以
外の装置と本質的に関係しているということはない。特に、ここで述べている本
発明の内容を実現するには、様々な汎用の機械を用いることができるし、あるい
は、必要な方法ステップを実行するのに専用の装置を構築するならば、それはそ
れで非常に便利である。これらの様々な機械に要求される構造は、この出願にお
ける開示内容から明らかであろう。

【００７８】以上では、本発明を特定の実施例を参照しながら説明した。ここでの説明は、
十分な理解を与えるために多数の詳細を含むものである。本発明の精神と範囲と
から逸脱することなく、これらの詳細を割愛することは可能であるし、様々な修
正や変更を行うことも可能である。従って、この明細書及び図面は、限定を意味
するものではなく、例示と見なさなければならない。

【図面の簡単な説明】

【図１】音声認識システムのブロック図である。

【図２】動的意味論的モデルを用いた音声認識処理方法の流れ図である。

【図３】これを用いてある実施例を実現することができるコンピュータ・システムのブ
ロック図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者バーナード，エティエンネアメリカ合衆国マサチューセッツ州02143，サマーヴィル，クレイジー・ストリート 50，ナンバー20 (72)発明者ダハン，ジーン−ガイアメリカ合衆国マサチューセッツ州02445 −4522，ブルックリン，コルボーン・クレセント 12，ナンバー３ (72)発明者メッツガー，マイケル・ジェイアメリカ合衆国マサチューセッツ州02138，ケンブリッジ，エルマー・ストリート 16，アパートメントナンバー304 Ｆターム(参考） 5B091 AA15 CA12 CA14 CB12 5D015 HH23

Claims

【特許請求の範囲】

【請求項１】音声認識手段によって認識される１つ又は複数の単語スト
リングと関連付けられている確率値を、前記単語ストリングと関連付けられてい
る意味論的値に基づいて動的に修正する方法であって、前記意味論的値の１つが所定の意味論的タグと一致するときには、前記確率値
の１つ又は複数における変更を定義する１つ又は複数の規則を作成して記憶する
ステップであって、前記規則は、前記音声認識手段が用いられているコンテキス
トに関する１つ又は複数の外部的条件に基づいている、ステップと、前記条件の１つが現に真であるかどうかを判断し、真である場合には、真であ
る条件と関連付けられているタグと一致する意味論的値と関連付けられている単
語ストリングの確率値の１つ又は複数を修正するステップと、を含むことを特徴とする方法。
【請求項２】請求項１記載の方法において、前記音声認識手段は前記単語
ストリングをアプリケーション・プログラムまで運び、前記判断するステップは
、前記アプリケーション・プログラムにおいて、前記条件の１つが現に真である
かどうかを判断し、真である場合には、真である条件と関連付けられているタグ
と一致する意味論的値と関連付けられている単語ストリングの確率値の１つ又は
複数を修正するように前記音声認識手段に命令するステップと、を含むことを特徴とする方法。
【請求項３】請求項１記載の方法において、前記音声認識手段によって認識された単語ストリングと関連付けられている意
味論的値を１つ又は複数のキーワード値ペアとして記憶するステップと、前記キーワード値ペアをアプリケーション・プログラムまで運ぶステップと、前記アプリケーション・プログラムにおいて、前記条件の１つが現に真である
かどうかを判断し、真である場合には、真である条件と関連付けられているタグ
と一致する意味論的値と関連付けられている単語ストリングの確率値の１つ又は
複数を修正するように前記音声認識手段に命令するステップと、を更に含むことを特徴とする方法。
【請求項４】請求項１記載の方法において、前記ワード及び意味論的値を、前記音声認識手段に論理的に結合されたアプリ
ケーション・プログラムまで運ぶステップと、真である条件と関連付けられているタグと一致する意味論的値を有する単語ス
トリングの確率値の１つ又は複数を修正することができるアプリケーション・プ
ログラムによってコール可能な機能を、前記音声認識手段と共同して、作成し記
憶するステップと、前記アプリケーション・プログラムにおいて、前記条件の１つが現に真である
かどうかを判断し、真である場合には、前記確率値の１つ又は複数をどのように
修正すべきかを識別するパラメータ値を用いて、前記機能をコールするステップ
と、を更に含むことを特徴とする方法。
【請求項５】請求項４記載の方法において、前記確率値の１つ又は複数を
修正した後で前記単語ストリングを再順序付けするステップを更に含むことを特
徴とする方法。
【請求項６】請求項３記載の方法において、前記確率値の１つ又は複数を
修正した後で確率値によって前記単語ストリングを再順序付けするステップを更
に含むことを特徴とする方法。
【請求項７】請求項１記載の方法において、前記修正するステップは、前
記確率値の１つ又は複数を真である条件と関連付けられているスケーリング・フ
ァクタと乗算することによって、前記確率値を修正するステップを更に含むこと
を特徴とする方法。
【請求項８】請求項１記載の方法において、前記意味論的値を含む１つ又は複数のワード値ペアを、前記音声認識手段に論
理的に結合されたアプリケーション・プログラムまで運ぶステップと、真である条件と関連付けられているタグ・ワードと一致するワード値ペアと関
連付けられている単語ストリングの確率値の１つ又は複数を修正することができ
るアプリケーション・プログラムによってコール可能な機能を、前記音声認識手
段と共同して、作成し記憶するステップと、前記アプリケーション・プログラムにおいて、前記条件の１つが現に真である
かどうかを判断し、真である場合には、真である条件と関連付けられているスケ
ーリング・ファクタを含めて、前記確率値の１つ又は複数をどのように修正すべ
きかを識別するパラメータ値を用いて、前記機能をコールするステップと、真である条件と関連付けられているタグ・ワードと一致するワード値ペアの１
つと関連付けられている単語ストリングの確率値の１つを、その確率値と前記ス
ケーリング・ファクタとを乗算することによって修正するステップと、を更に含むことを特徴とする方法。
【請求項９】音声認識手段において受け取られた発話を認識する方法であ
って、前記発話を、１つ又は複数のキーワード値ペアとそれぞれが関連付けられてい
る１つ又は複数の単語ストリングに変換するステップであって、前記ペアは、そ
れぞれが、前記発話の１つの意味論的要素を表すキーワードとその意味論的要素
に対応する前記発話の部分を表す意味論的値とを有している、ステップと、前記単語ストリングのそれぞれと関連する確率値を記憶するステップと、前記意味論的値の１つ又は複数が所定のタグ・ワードと一致するときに前記確
率値の１つ又は複数における変更を定義する１つ又は複数の規則を作成し記憶す
るステップであって、前記規則は、前記音声認識手段が用いられているコンテキ
ストに関する１つ又は複数の外部的条件に基づく、ステップと、前記条件の１つが現に真であるかどうかを判断し、真である場合には、真であ
る条件と関連付けられているタグ・ワードと一致する意味論的値と関連付けられ
ている単語ストリングの１つの確率値の１つ又は複数を修正するステップと、前記ワード値ペアを前記音声認識手段に論理的に結合されたアプリケーション
・プログラムまで運ぶステップと、真である条件と関連付けられているタグ・ワードと一致するワードと関連付け
られている確率値の１つ又は複数を修正することができるアプリケーション・プ
ログラムによってコール可能な機能を、前記音声認識手段と共同して、作成し記
憶するステップと、前記アプリケーション・プログラムにおいて、前記条件の１つが現に真である
かどうかを判断し、真である場合には、前記確率値の１つ又は複数をどのように
修正すべきかを識別するパラメータ値を用いて、前記機能をコールするステップ
と、前記機能を用いて前記確率値の１つ又は複数を修正するステップと、前記確率値に従って前記単語ストリングを再順序付けするステップと、を含むことを特徴とする方法。
【請求項１０】請求項９記載の方法において、前記修正するステップは、
前記確率値の１つ又は複数を真である条件と関連付けられているスケーリング・
ファクタと乗算することによって、前記単語ストリングを修正するステップを更
に含むことを特徴とする方法。
【請求項１１】請求項９記載の方法において、前記ワード値ペアを、前記音声認識手段に論理的に結合されたアプリケーショ
ン・プログラムまで運ぶステップと、真である条件と関連付けられているタグ・ワードと一致するワードと関連付け
られている確率値の１つ又は複数を修正することができるアプリケーション・プ
ログラムによってコール可能な機能を、前記音声認識手段と共同して、作成し記
憶するステップと、前記アプリケーション・プログラムにおいて、前記条件の１つが現に真である
かどうかを判断し、真である場合には、真である条件と関連付けられているスケ
ーリング・ファクタを含めて、前記確率値の１つ又は複数をどのように修正すべ
きかを識別するパラメータ値を用いて、前記機能をコールするステップと、真である条件と関連付けられているタグ・ワードと一致するワードの１つと関
連付けられている確率値の１つを、その確率値と前記スケーリング・ファクタと
を乗算することによって修正するステップと、を更に含むことを特徴とする方法。
【請求項１２】請求項１記載の方法において、前記作成し記憶するステッ
プは、所定の意味論的タグのテーブルを作成し記憶するステップであって、前記意味
論的タグはそれぞれが代替的な確率値と関連付けられている、ステップと、仮定されたワードの１つ又は複数が所定の意味論的タグと一致するときには、
前記値の１つ又は複数を前記代替的な確率値に変更する機能コールを、この機能
コールの中にあり前記音声認識手段が用いられているコンテキストに関する１つ
又は複数の外部的条件に基づく規則に従って、作成し記憶するステップと、を含むことを特徴とする方法。
【請求項１３】請求項１記載の方法において、前記作成し記憶するステッ
プは、所定の意味論的タグのテーブルを作成し記憶するステップであって、前記意味
論的タグは、それぞれが、代替的な確率値、ウェイト値及びオフセット値と関連
付けられている、ステップと、仮定されたワードの１つ又は複数が所定の意味論的タグと一致するときには、
前記値の１つ又は複数を前記代替的な確率値に変更する、又は、前記ウェイト値
若しくは前記オフセット値を前記確率値に与える機能コールを、この機能コール
の中にあり前記音声認識手段が用いられているコンテキストに関する１つ又は複
数の外部的条件に基づく規則に従って、作成し記憶するステップと、を含むことを特徴とする方法。
【請求項１４】音声認識手段によって認識される１つ又は複数の単語スト
リングと関連付けられている確率値を、前記単語ストリングと関連付けられてい
る意味論的値に基づいて動的に修正する命令の１つ又は複数のシーケンスが記憶
されているコンピュータ読取可能な媒体であって、前記命令の１つ又は複数のシ
ーケンスが実行されると、１つ又は複数のプロセッサが、前記意味論的値の１つが所定の意味論的タグと一致するときには、前記確率値
の１つ又は複数における変更を定義する１つ又は複数の規則を作成して記憶する
ステップであって、前記規則は、前記音声認識手段が用いられているコンテキス
トに関する１つ又は複数の外部的条件に基づいている、ステップと、前記条件の１つが現に真であるかどうかを判断し、真である場合には、真であ
る条件と関連付けられているタグと一致する意味論的値と関連付けられている単
語ストリングの確率値の１つ又は複数を修正するステップと、を実行することを特徴とするコンピュータ読取可能な媒体。