JP2002259372A5

JP2002259372A5 -

Info

Publication number: JP2002259372A5
Application number: JP2001279145A
Authority: JP
Filing date: 2001-09-14
Publication date: 2012-05-10
Anticipated expiration: 2021-09-14

Description

【特許請求の範囲】
【請求項１】コンピュータ・システムにおいてダイアログ・インターフェースを提供する方法であって、
ユーザ入力を受け取るステップと、
前記ユーザ入力を言語モデルに適用するステップであって、前記ユーザ入力の内容を記述する少なくとも１つの表面的意味を生成し、かつ該少なくとも１つの表面的意味の各々に対するスコアを決定し、各前記少なくとも１つの表面的意味が、少なくとも１つの表面的意味トークンを含む、ステップと、
各前記少なくとも１つの表面的意味を談話モデルに適用するステップであって、ユーザとのダイアログの現状態を記述する少なくとも１つの談話意味を生成し、かつ各該少なくとも１つの談話意味に対するスコアを決定し、各前記少なくとも１つの談話意味が、少なくとも１つの談話意味トークンを含む、ステップと、
各前記少なくとも１つの談話意味を挙動モデルに適用するステップであって、前記コンピュータ・システムがとる少なくとも１つのアクションを定め、かつ各該少なくとも１つのアクションに対するスコアを決定する、ステップと、
前記談話モデルが与える前記スコアに部分的に基づき、かつ前記挙動モデルが与える前記スコアに部分的に基づいて、前記少なくとも１つのアクションのうちの１つを選択して行なうステップと、
を備えた方法。
【請求項２】請求項１記載の方法であって、更に、
前記ユーザ入力を受け取るステップは、複数のモードのユーザ入力を受け取るステップを含み、
前記ユーザ入力を言語モデルに適用するステップは、
各前記モードのユーザ入力を、当該各モードのユーザ入力に対して用意された言語モデルに適用するステップであって、受け取った各前記モードのユーザ入力に対し、少なくとも１つの表面的意味を生成し、かつ各該少なくとも１つの表面的意味に対してスコアを決定する、ステップ、
を含む、方法。
【請求項３】請求項１記載の方法において、各前記少なくとも１つの表面的意味を談話モデルに適用するステップは、更に、
談話意味が含む談話意味トークンに対する可能な置換物として、前記談話意味トークンに関連する属性と同じ属性をもつ複数のエンティティをデータベースから検索するステップと、
前記談話意味トークンの前記属性を表す子談話意味トークンとして、前記複数のエンティティを追加して、各前記エンティティに対し別個の談話意味構造を形成するステップと、
各エンティティに関連する各前記談話意味構造に対し、スコアを決定するステップと、を含む、方法。
【請求項４】請求項１記載の方法において、各前記少なくとも１つの談話意味を挙動モデルに適用するステップは、更に、使用可能なユーザ・インターフェースの識別を前記挙動モデルに適用し、前記使用可能なユーザ・インターフェースと適合するアクションが、前記ユーザ・インターフェースと適合しないアクションよりも総合的に高いスコアを受けるようにするステップを含む、方法。
【請求項５】請求項１記載の方法であって、
各前記少なくとも１つの談話意味を挙動モデルに適用するステップは、拡張可能スタイルシート言語を用いて設計された挙動モデルを使うことによって、マークアップ言語を用いて記述されるアクションに、マークアップ言語を用いて記述される各前記少なくとも１つの談話意味を変換するステップを含み、使用可能なユーザ・インターフェースに基づいて、前記アクションに対する前記マークアップ言語が選択される、
方法。
【請求項６】請求項５記載の方法において、各前記少なくとも１つの談話意味の前記マークアップ言語は、拡張可能マークアップ言語であり、マークアップ言語を用いて記述されるアクションに各前記少なくとも１つの談話意味を変換することは、各前記少なくとも１つの談話意味を拡張可能スタイルシート言語変換に適用することを含む、方法。
【請求項７】請求項６記載の方法であって、更に、
前記使用可能なユーザ・インターフェースを変更する命令をユーザから受け取るステップと、
各前記少なくとも１つの談話意味を第２の拡張可能スタイルシート言語変換に適用して、各前記少なくとも１つの談話意味を、第２マークアップ言語を用いて記述したアクションに変換するステップと、
を含む、方法。
【請求項８】コンピュータに基づく談話インターフェースをユーザに提供するシステムであって、
ユーザから入力を受け取り、少なくとも１つのモデルを用いて、少なくとも１つの現ダイアログ状態に対する少なくとも１つのスコアを生成するダイアログ状態エンジンであって、各前記少なくとも１つの現ダイアログ状態が、談話意味構造によって表され、該談話意味構造が、特定のエンティティの一般的な表現を与える意味トークンを含み、前記スコアが、前記ユーザからの入力と以前のダイアログ状態とに基づき、前記ダイアログ状態エンジンが、
モデルを用いて、前記ユーザ入力に基づいて少なくとも１つの表面的意味に対するスコアを決定する認識エンジンと、
モデルを用いて、前記認識エンジンからの少なくとも１つの表面的意味および以前のダイアログ状態に基づいて、少なくとも１つの現ダイアログ状態に対するスコアを決定する談話エンジンと、
を含む、ダイアログ状態エンジンと、
モデルを用いて、前記少なくとも１つの現ダイアログ状態に基づいて少なくとも１つのアクションに対するスコアを特定するレンダリング・エンジンであって、前記少なくとも１つのアクションに対するスコアが、前記少なくとも１つのアクションのうちから１つを選択するために使用される、レンダリング・エンジンと、
を備えたシステム。
【請求項９】請求項８記載のシステムにおいて、前記ダイアログ状態エンジンは、マークアップ言語を用いることによって、前記レンダリング・エンジンに対する前記現ダイアログ状態を記述し、前記レンダリング・エンジンは、前記現ダイアログ状態を記述する前記マークアップ言語を、アクションを記述する第２マークアップ言語に変換する、システム。
【請求項１０】請求項９記載のシステムにおいて、前記現ダイアログ状態は、拡張可能マークアップ言語を用いて記述され、前記レンダリング・エンジンは、拡張可能スタイルシート言語変換を利用して、前記拡張可能マークアップ言語を前記第２マークアップ言語に変換する、システム。
【請求項１１】請求項１０記載のシステムにおいて、前記ダイアログ状態エンジンは、更に、ユーザから、前記出力インターフェースを変更したいという指示を受け取り、前記レンダリング・エンジンは、前記出力インターフェースの変更に基づいて、前記拡張可能スタイルシート言語変換を変更して、前記現ダイアログ状態の同じ拡張可能マークアップ言語記述を、前記第２マークアップ言語とは異なる第３マークアップ言語に変換するようにした、システム。

各ユーザ入力インターフェースは、関連する言語モデル２１０，２１２を有する、それ自体の認識エンジン２０６，２０８に設けられている。認識エンジン２０６および２０８は、それぞれ、言語モデル２１０および２１２を用いて、可能な表面的意味構造を識別し、評点を付けてそれぞれの入力を表わす。各認識エンジン２０６，２０８は、少なくとも１つの表面的意味出力と、この意味出力の確率を表わすスコアとを与える。実施形態によっては、認識エンジン２０６，２０８の少なくとも１つが、１つよりも多い代わりの表面的意味構造に、代わりの構造毎に、関連するスコアを与えることができるようにする場合もある。意味構造および対応するスコアの各々を談話エンジン２１４に供給する。表面的意味を生成するステップは、図３においてステップ３００として示してある。

スピーチおよび手書き文字のような、言語系ユーザ入力では、認識エンジンが用いる言語モデルは、多数の公知の確率モデルのいずれでも可能である。例えば、入力にＮ個の連続する単語から成る１群が与えられた場合、言語モデルは、ある言語における単語の確率をモデル化するＮ−グラム・モデルとすることができる。また、言語モデルは、意味情報および／または構文情報を特定の単語および句と関連付ける自由コンテクスト文法(context free grammar)とすることも可能である。本発明の一実施形態では、Ｎ−グラム言語モデルを自由コンテクスト文法と組み合わせた統一言語モデルを用いる。この統一モデルでは、意味トークンおよび／または構文トークンは、単語に対するプレース値(place value)として扱われ、Ｎ−グラム確率は、仮説的な単語およびトークン結合毎に計算する。

いくつかの実施形態では、言語モデルは、階層状の表面的意味構造を生成可能である。これは、談話モデル２１６において定義され、談話エンジン２１４によって用いられる談話意味構造と同様である。双方のモデルにおいて同様の階層構造を用いることによって、認識した入力値を表面的意味構造から談話意味構造に変換することが一層容易になる。尚、多くの実施形態では、ポインティング・デバイスのような非言語入力と関連する言語モデルでも、意味トークンをポインティング・デバイスの入力に結び付けることができる。殆どの実施形態では、意味トークンは、談話意味構造において発見した１組の意味トークンから取り込まれる。したがって、ユーザがマウスを用いてあるファイル・アイコン上でクリックすると、マウスの認識エンジンは、入力として示されたファイルのＩＤを指し示しつつ、FileNameトークンをその行為と関連付けることができる。

談話意味構造にツリー構造を用いる実施形態では、意味トークンは、ツリー上のノードとして現れ、そのトークンの属性はそのノードの子として現れる。このような実施形態では、談話エンジン２１４は、下から上に談話ツリーを押し潰そうとすることにより、最初に子ノードを押し潰して、ノードの解明を「沸き上げる」(bubble up)。

アクションのコストを判定するとき、レンダリング・エンジン２２４および挙動モデル２２６は、レンダリング・エンジンが単に談話意味構造に関連するアクションを行なうことによって高い成功の尤度を有する程、意味構造が十分高いスコアを有するか否か検討する。例えば、先に記した例におけるように、ユーザが"Send this message to John"（このメッセージをジョンに送れ）と言った場合、そして、John Aに対するスコアがJohn BおよびJohn Cに対するスコアよりもはるかに高かった場合、レンダリング・エンジンは、ユーザから更なる明確化を要求することなく、単にメッセージをJohn Aに送る。このような場合、電子メールをJohn Aに送る際にエラーを起こすことのコストは、どのJohnに電子メール・メッセージを送りたいのか明確にするためにユーザに尋ねる場合のコストよりも少ない。一方、電子メールをJohn Aに送る際にエラーを起こすことのコストが高い場合、適正なアクションは、ユーザに確認の問い合わせを生成することであろう。多くの実施形態では、コストおよびスレシホルドは、挙動モデル２２６において明示的に表現することができる。

レンダリング・エンジン２２４がアクションを選択した後、実施形態によっては、１つ以上の言語モデル２１０および２１２を修正して、ユーザのそのアクションに対する応答を適正に解釈するために言語モデルを使用できるようにする場合もある。例えば、レンダリング・エンジンが３つの代替案をユーザに提示した場合、言語モデルを更新して、「最初のもの」、「２番目のもの」、のような句を特定のエンティティと関連付けるようにすることができる。これによって、認識エンジンは、その特定した句を特定のエンティティと置換することが可能となり、談話エンジン２１４は、談話意味構造の適正なスロットにそれらエンティティを挿入することが一層容易となる。

尚、図４の意味ツリー構造と関連する認識エンジンは、システム上で動作することができる唯一の認識システムであることを注記しておく。図５は、スピーチ認識エンジンと並行して動作する認識エンジンが生成する表面的意味構造を示す。即ち、図５の表面的意味構造は、ポインティング・デバイスと関連する認識エンジンによって生成する。この例では、ポインティング・デバイスは、ユーザが、"Send it to those in the meeting on Wednesday"と言いながら、特定のメッセージ上でクリックしたことを示す信号を発生する。このクリック・ジェスチャに基づいて、ポインティング・デバイスと関連する認識エンジンは、ユーザがクリックしたメッセージのメッセージＩＤと関連がある<Message>意味トークンを収容する単一のノード構造５００を生成する。

属性が満たされていなくても、図６の各意味トークンに対して全ての属性が示しているが、他の実施形態では、これらの属性がより大きな談話ツリーに追加されるべきことを表面的意味が示すまで、これらの属性は談話構造のノードとしては含まれない。

この小さな展開の後、談話エンジン２１４は、送信メール談話構造のノードをできるだけ多く押し潰そうとする。押し潰す最初のノードは、<Meeting ID>トークンである。これを行なうには、単に、展開の間これと関連のあったミーティングＩＤで、そのトークンを置換すればよい。