JP2009528621A

JP2009528621A - 適応的セマンティックプラットフォームアーキテクチャ

Info

Publication number: JP2009528621A
Application number: JP2008557284A
Authority: JP
Inventors: ディー．ラムジーウィリアム; カタリヤサンジーヴ; リュージュン; ガオジェンフェン; ヤオチー; チェンチャンリァン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2006-02-28
Filing date: 2007-02-13
Publication date: 2009-08-06
Also published as: WO2007100519A1; EP1994476A1; CN101395600A; US20070203869A1; KR20080107383A

Abstract

容易に利用してユーザ（複数）と機械システム（複数）との間の自然な対話を可能とできる適応的な共有インフラストラクチャを提供する。さらに、本新規発明は、ユーザ入力に基づいて正確な意図からアクションへのマッピングを生成する対話的な技術を提供することができる。さらに、本発明は資産（例えば、ドキュメント、アクション）をオーサリング可能な新規のメカニズムを提供することができる。そのオーサリングメカニズムは、システムが少なくとも部分的にユーザ入力の分析に基づいてユーザの意図を推論できるように、学習モデルの生成を可能とすることができる。それに応じて、システムは資産、または資産のグループをその推論に基づいて発見することができる。さらに、本発明は、１つまたは複数のユーザ入力（複数）、アクション（複数）、および／または状態（複数）基づいて学習および／または適応する自然言語インタフェースを提供することができる。

Description

人間の言語は豊富で複雑であり、複雑な文法と文脈的な意味を有する何百もの語彙を含む。例として、特定の文、質問、思考、意味、等を多数の異なる方法で表現することができる。従って、人間の言語を機械的に解釈することは極端に複雑な作業である。少なくともこの理由のため、人間の入力から生成した結果またはアクションはユーザの意図に正確にマップまたは対応しないことがよくある。

機械またはソフトウェアのアプリケーションおよび言語では一般に、特定のフォーマットまたはルールに従ってデータを入力することが必要である。機械との対話を望む人間は、厳格なルールおよび上記ルールに対する不慣れまたは知識不足のため、苛立つかまたは効率的に通信できないことがある。機械固有の言語または文法を学習する必要なく自動化システムと効率的に通信できる能力をユーザに提供すると有用性が増す。しかしながらユーザは自動化システムおよび機械がユーザ入力を正確に解釈できないと直ぐに苛立つ可能性がある。その自動化システムおよび機械は、予期しない結果、望ましくない結果を生成する恐れがあり、および／または結果を全く生成しない恐れがある。

自然言語入力は多様なアプリケーションに対して有用である可能性がある。そのアプリケーションには、人間が対話する事実上全てのソフトウェアアプリケーションが含まれる。一般に、自然言語処理中に、自然言語入力はトークンに分離され、ソフトウェアアプリケーションが提供する１つまたは複数のアクションにマップされる。それぞれのソフトウェアアプリケーションは一意なアクション集合を有することができる。そのアクション集合は本質的に幾分限定されている。結果として、ソフトウェア開発者が自然言語入力を解釈するコードを設計してその入力をそれぞれのアプリケーションに対する適切なアクションにマップすることは時間を浪費し、反復的である恐れがある。

以下で、本発明の幾つかの態様の基本的な理解を与えるため、本発明の簡単な要約を提示する。本要約は本発明の広範的な概要ではない。本要約は本発明の主要／決定的な要素を特定するよう、または本発明の範囲を区別するよう意図していない。その唯一の目的は本発明の幾つかの概念を、後述するより詳細な説明に対する前置きとして簡潔な形態で提示することである。

本明細書で開示および主張する本発明は、その１つの態様では、適応的な共有インフラストラクチャを備える。そのインフラストラクチャを容易に利用して、ユーザ（複数）と機械システム（複数）との間の自然な対話を可能とすることができる。さらに、本新規発明は、ユーザ入力に基づいて正確な意図からアクションへのマッピングを生成する対話的な技術を提供することができる。さらに、本発明は、資産（ａｓｓｅｔｓ，例えば、ドキュメント、アクション）をオーサリング可能な新規のメカニズムを提供することができる。従って、「資産」を２つのクラスに取り出すことができる。即ち、「ドキュメント」は静的な資産であり、「アクション」は動的でありかつアクションを実施可能な資産である。

オーサリングメカニズムは、システムが少なくとも部分的にユーザ入力の分析に基づいてユーザの意図を推論できるように、学習モデルの生成を可能とすることができる。それに応じて、システムは推論に基づいて資産、または資産のグループを発見することができる。さらに、本発明は自然言語インタフェースを提供することができる。その自然言語インタフェースは、１つもしくは複数のユーザ入力（複数）、アクション（複数）、および／または状態（複数）に基づいて学習および／または適応する。

原則として、１つの態様では、本新規発明は統計ベースのシステムのアーキテクチャを含むことができる。そのアーキテクチャは意図をアクションに対して調整する能力を有し、ユーザの振る舞いから学習して時間とともに改善することができる。より詳細には、そのアーキテクチャは以下を対象とするエンドツーエンドのシステムを網羅することができる。すなわち、
資産のオーサリング、
ユーザの意図の判定、
意図の、資産または資産集合へのマッピング、
資産（複数）の実行、
フィードバックの取得、および
フィードバックからの学習
である。

他の態様では新規の意図からアクションへのシステムを適用して、人間と機械との間の対話をシナリオにおいてより自然にすることができる。そのシナリオにはサーバ上で実行されている音声アプリケーション、携帯電話上で実行されているより小型のアプリケーション、パーソナルコンピュータ上で実行されているデスクトップアプリケーション、またはインターネット上で実行されているウェブサービスが含まれるがこれらに限らない。

本アーキテクチャは、オーサリングから推論までの共通のエンドツーエンドインフラストラクチャを提供してフィードバックすることにより、アプリケーション内で自然特徴を有するコストを大幅に下げることができる。このアーキテクチャは万能であり、様々なシナリオで使用することができる。そのシナリオには音声、デスクトップ、モバイル、およびウェブアプリケーションが含まれるがこれらに限らない。同様に、そのアーキテクチャは、それを行うための単純なＡＰｌ（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍｍｉｎｇｉｎｔｅｒｆａｃｅ）を提供することができる。

態様によると、３つの主要なフロー（論理およびデータ）図が存在することができる。上記のアーキテクチャは３つの列挙したエンドツーエンドのフローをサポートする。そのフローは、モデル構築および管理のフロー、ユーザ対話フローならびにフィードバックおよび分析のフローを含む。

さらにその別の態様では、人工知能コンポーネントを提供する。その人工知能コンポーネントは、ユーザが自動的な実施を望む、意図またはアクションを推論するための確率および／または統計ベースの分析を使用する。

前述および関連する目的を達成するため、本発明の或る特定の態様の例を以下の説明および付属図面に関連して本明細書で説明する。しかしながらこれらの態様は、本発明の原理を使用できる様々な方法のうち２、３を示すに過ぎず、本発明は全ての上記態様およびその等価物を含むように意図している。本発明の他の利点および新規特徴は、図面に関連して考慮すると以下の本発明の詳細な説明から明らかになるであろう。

図面を参照して本発明を説明する。図面に渡って同じ参照番号を使用して同じ要素を参照する。以下の説明では、説明の目的のため、多数の具体的な詳細を説明して本発明の徹底的な理解を与える。しかしながら、本発明をこれらの具体的な詳細なしに実践できることは明らかであろう。他の事例では、公知の構造および装置をブロック図の形で示して本発明の説明を促進する。

本出願で使用するとき、用語「コンポーネント」および「システム」は、コンピュータ関連のエンティティ、ハードウェア、ハードウェアおよびソフトウェアの組合せ、ソフトウェア、または実行中のソフトウェアのいずれかを指すよう意図している。例えば、コンポーネントは、プロセッサ上で実行されるプロセス、プロセッサ、オブジェクト、実行可能ファイル、実行スレッド、プログラム、および／またはコンピュータであることができるがこれらに限らない。例として、サーバ上で実行されるアプリケーションおよびサーバの両方はコンポーネントであることができる。１つまたは複数のコンポーネントはプロセスおよび／または実行スレッド内部に存在することができ、コンポーネントを１つのコンピュータ上にローカライズすることおよび／または複数のコンピュータ間で分散させることができる。

本明細書で使用するとき、用語「推論する」または「推論」は一般に、システム、環境、および／またはユーザの状態を、事象および／またはデータを介して取得した一連の観察結果から類推または推論するプロセスを指す。例えば、推論を使用して特定のコンテキストまたはアクションを識別することができ、または状態の確率分布を生成することができる。推論は確率的であることができる。即ち、着目する状態の確率分布の計算はデータおよび事象を考慮して行う。推論は、より高レベルの事象を一連の事象および／またはデータから構成するために使用する技術も指すことができる。上記の推論の結果、事象が時間的に近接して相関するか否かに関わらず、および事象およびデータが１つまたは幾つかの事象およびデータ源から来るか否かに関わらず、一連の観測した事象および／または記憶した事象データから新しい事象またはアクションが構築される。

情報をユーザに表示する或る特定の方法をスクリーンショットとして或る特定の図面に関して図示および説明するが、当業者は様々な他の代替手段を使用できることを認識するであろう。本明細書では用語「スクリーン」、「ウェブページ」、および「ページ」を一般に同じ意味で使用する。ページまたはスクリーンをディスプレイ記述として、グラフィカルユーザインタフェースとして、もしくはページ上に表示されるレイアウトおよび情報またはコンテンツがメモリ、データベース、または別の記憶設備に記憶されるスクリーン（例えば、パーソナルコンピュータ、ＰＤＡ、携帯電話、または他の適切な装置）上に情報を描画する他の方法により、記憶および／または送信する。

最初に図面を参照する。図１は、ユーザと機械との間の自然で直感的な対話を促進するシステム１００を示す。一般に、システム１００は類推コンポーネント１０２、オーサリング／分析コンポーネント１０４およびデータストア１０６を含むことができる。より詳細には、システム１００は、ユーザ（またはアプリケーション）からの入力クエリを受信し、その後類推コンポーネント１０２を使用することによりクエリを処理することができる。動作中は、類推コンポーネント１０２は入力をトークン集合に構文解析することができる。そのトークン集合を処理および解釈して適切なタスクをユーザにレンダリングすることができる。

オーサリング／分析コンポーネント１０４およびデータストア１０６をそれぞれ使用して、特定のユーザ入力に応じてタスクを確立および促進することができる。以下の図面を検討すると、入力クエリは任意の形態であることができることは理解されるであろう。その形態にはテキストおよび音声、等が含まれるがこれらに限らない。前述のシステム１００のコンポーネントの各々を以下でさらに詳細に説明する。特定の態様および例を後述するが、無数の入力およびタスクを本発明の新規性に適用できることは理解されるべきである。従って、これらの代替的な態様は本開示および添付請求項の範囲内に含まれるべきである。

上述のように、自然言語のクエリからユーザの意図を判定することはコンピュータ科学における最も難しい問題の１つである。例えば、ユーザは入力情報を含むウェブサイトに対してヘルプドキュメント、同様な作業のサンプル、または恐らくはアクションを実施する何かを探している可能性がある。ユーザが見つけようと試みる情報の量が事実上無限であるとすると、本発明は取り出すことができる「資産」または「タスク」の種類を２つのクラス、すなわち「ドキュメント」および「アクション」に分類する。従って、ドキュメントは静的である資産を指し、「アクション」は動的でありかつ特定のアクションを実施できる資産である。

従来システムにより課され未解決である１つの問題はどのようにしてユーザの「意図」にマッチする資産を発見するかということであることは理解されるであろう。それによると、本システム１００のアーキテクチャは統計ベースのシステムとして実施することができる。そのシステムは、意図をアクションに対して調整する能力を有し、ユーザの振る舞いから学習して時間とともに改善し、より正確になることができる。

例として、および図１を再度参照すると、ユーザは、ユーザが行いたいまたは発見したいものを表す入力クエリを話すかまたはタイプすることができる。従って、１つの態様では類推コンポーネント１０２は命令を、有用であるドキュメントに、またはユーザマシン上で実施可能なアクションに、それぞれ入力クエリに基づいてマップすることができる。

入力クエリを動的に解釈することに加えて、本フレームワークまたはアーキテクチャ（例えば、システム１００）はオーサリング／分析コンポーネント１０４を含むことができる。オーサリング／分析コンポーネント１０４は、任意の入力を処理可能なアプリケーション（例えば、タスク、アクション）のオーサリングまたは作成を可能とすることができる。同様に、アーキテクチャ（システム１００）は任意の入力に従ってユーザの好みを判定することができる。

ハードコードシステムは更新および維持が非常に困難であることは理解されるであろう。ハードコードシステムでは、全ての可能な入力を特定のタスク、アクション、ドキュメント、等へ予めマップすることが必要である。さらに入力が不規則に変化すると、絶え間なく変化する範囲の入力を構築するために、ハードコードシステムも修正しなければならないであろう。従来のハードコードシステムと対照的に、本発明は手動調整を、あったとしてもほとんど必要としない統計ベースのシステムである。換言すれば、本発明はユーザ入力と結果を自動的に構築することができ、従って人間の介入および／またはメンテナンスに対する必要性が排除される。

より詳細には、システム１００は例えばインターネット経由およびコールセンタ内部で利用可能な大量のデータを利用することができる。この大量のデータを活用して、ユーザ入力のアクションへのマッピングを探ることで、ユーザが行っていることを学習することができる。以下の図面を検討すると理解されるように、本システム１００はオーサリング／分析コンポーネント１０４を使用して新規のフィードバックベースのシステムを達成することができる。

図２は、本発明の態様に従ってユーザ入力を処理する方法を示す。説明の簡単さのため、本明細書で示す１つまたは複数の方法を例えばフロー図の形態で一連の動作として図示および説明してあるが、本発明に従って幾つかの動作を異なる順序で、および／または本明細書で図示および説明した他の動作と並行に実施できるので、本発明は動作順序により限定されないことは理解されるべきである。例えば、当業者は、方法を状態図のような一連の相関する状態または事象として代替的に表現できることを理解するであろう。さらに、全ての示した動作が、本発明に従った方法を実装する必要はない。

２０２で、ユーザクエリを表す入力クエリを受信することができる。１つの態様では、入力クエリはユーザの問合せに従う検索語を含む英数字文字列であることができる。別の態様では、入力クエリは音声クエリの形を取ることができる。本発明の範囲から逸脱せずに任意の入力方法を使用できることは理解されるであろう。

入力方法は異なってもよいが、本発明の１つの新規特徴は２０４での入力クエリの分析であることは理解されるであろう。従って、入力クエリを構文解析してトークン（例えば、検索語）に分離することができる。これらの検索語を２０６で使用して、入力クエリに従う関連タスクを判定することができる。換言すれば、システムは入力クエリを２０４で分析して、その後２０６で分析結果を使用して適切なタスクを判定することができる。

タスクを判定すると、２０８でフィードバックを分析して、ユーザの意図、履歴、等に従ってタスクの使用をさらに自動化することができる。例として、スロット自動補完を使用して、選択したタスクに関する入力ボックスを予めポピュレートすることでユーザの意図を動的に自動化することができる。フィードバックを必要に応じて分析および実装すると、２１０でタスクをユーザにレンダリングすることができる。情報（例えば、フィードバック）を継続的に収集して記憶および利用し、対話を構築して、それによりシステムの対話性および能力を向上できるように、タスクをレンダリングするプロセスおよびフィードバックをコンパイルするプロセスは再帰的プロセスであることができることは理解されるべきである。

図３を参照する。本発明の態様に従ってタスクをオーサリングする方法を示してある。理解されるように、図１に示すアーキテクチャはタスクのオーサリングからユーザの意図の判定、および最終的にその意図の特定の資産またはタスクへのマッピングまでのプロセスを促進することができる。例として、資産は特定のドキュメント、特定の対象またはユーザが実施を希望するアクション（例えば、電子メールのオープンおよび特定のフィールドのプレローディング）に関するヘルプドキュメントであることができる。それによると、図３に示す方法は最初にタスクをオーサリングする例示的なプロセスフローを示す。

３０２で、タスクの種類を判定することができる。例えば、特定の種類のアクション（例えば、テーブルの作成）に関連付けたタスクを開発することができる。従って、３０４でタスクの一般的なフレームワークを生成する。フレームワークを確立すると、３０６でタスクパラメータをそのフレームワークに適用することができる。

より具体的な例では、タスクがワード処理ドキュメントにおけるテーブルの作成に関すると仮定する。従って、パラメータは行数、列数、列幅、等のような要素であることができる。最後に、一度オーサリングすると、ユーザの問合せに応じて後日タスクを取り出せるように、３０８でタスクをストア内で索引付けすることができる。最後に停止ブロックに到達する。

図１に示すシステム１００のアーキテクチャに再度戻ると、システムは、資産（例えば、タスク）を選択するだけでなくユーザ入力に従う資産の実行方法も判定するアーキテクチャを提供することができる。換言すれば、本発明はアクションの実施方法とハンドオフの場所を本発明および対象システムから制御することができる。従って、この情報を使用してシステムにフィードバックを提供することができる。この例におけるフィードバックは、ユーザが特定のアクションに関して行ったものとして緩く定義できることは理解されるべきである。

特定の例では、音声アプリケーションを使用してフライトの予約に対するクエリを解釈することができる。この場合、目的地の都市を自動的に埋めることができる（例えば、ピッツバーグ）。この自動スロット補完は任意の基準に基づくことができる。その基準には過去のユーザのアクションが含まれるがこれに限らない。

上の例を続けると、ピッツバーグへのフライトの予約希望を示すユーザクエリに応じて、システム１００は特定のインターネットウェブサイトにアクセスしてそのフライトを予約することで、自動的にタスクを実施することができる。それに従って、類推コンポーネント１０２を使用して目的地の都市のフィールドを「ピッツバーグ」になるように自動的に補完することができる。さらに、システムは（オーサリング／分析コンポーネント１０４を介して）この情報（例えば、ウェブサイトにアクセスして目的地の都市を埋めること）を、同一または同様な後続のアクションに関連して使用されるフィードバックとして記録することができる。

全体として、システムはフィードバックを活用して学習し、ユーザ入力に対してより高度およびより敏感となることができる。図１に示すように、システム１００のアーキテクチャは以下を含むエンドツーエンドのシステムを網羅することができる。すなわち、
資産のオーサリング、
ユーザの意図の判定、
意図の資産へのマッピング、
資産の実行、
フィードバックの取得、および
フィードバックからの学習
である。

「意図からアクションへ」はアプリケーションにおける繰り返し発生するテーマであることは理解されるべきである。サーバ上で実行されている音声アプリケーション、携帯電話上で実行されているより小型のアプリケーション、パーソナルコンピュータ上で実行されているデスクトップアプリケーション、またはインターネット上で実行されているウェブサービスであるかどうかに関わらず、ユーザはコンピュータとより自然に対話する希望を一貫して示し、「意図からアクションへ」はこの目標の実現を促進することができる。

従来は、意図をアクションへ変換しそれに関するフィードバックを監視するためのフレームワークまたはシステムは存在しない。本明細書で説明する新規のシステム１００は、オーサリングから推論までの共通のエンドツーエンドインフラストラクチャを提供してフィードバックすることにより、アプリケーション内で自然特徴を有するコストを大幅に下げることができる。本システム１００を音声、デスクトップ、モバイル、およびウェブアプリケーションにより使用することができ、それを行う単純なＡＰＩ（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍｉｎｔｅｒｆａｃｅ）を提供することができる。

システム１００のアーキテクチャがサポートする少なくとも３つの主要なフロー（論理およびデータ）図がある。そのフローの各々をシステム１００の新規のコンポーネントを参照して説明することができる。図４−６はそれぞれ、類推コンポーネント１０２、オーサリング／分析コンポーネント１０４、およびデータストアコンポーネント１０６の詳細なブロック図を示す。理解されるように、これらのコンポーネントは後述する３つの異なるフローを達成することができる。

第１に、システム１００はモデル構築および管理フローを促進することができる。一般に、これは、資産、即ち、タスク、ドキュメントおよび階層（分類法）の作成および管理に関するフローである。より詳細には、これは資産（例えば、タスク、ドキュメント）を作成し、類推システムを支援する注釈を作成し、フィードバックデータを取り込んで学習モデルをトレーニングし、中間および実行時の索引（逆索引、プロパティストア）を作成する部分である。動作中は、オーサリング／分析コンポーネント１０４およびデータストア１０６を使用してこのフローを達成することができる。

第２に、システム１００はユーザ対話フローを促進することができる。一般に、これは、システムとのユーザの対話に関するフローである。より詳細には、これは、ユーザの対話を選択（例えば、音声、テキスト）およびコンテキスト（例えば、コードまたはデータ）の様式で表す場合である。動作中は、システムはランク付けされたセマンティックソリューションをアプリケーション空間に提供し戻す「資産空間」上で類推し、アプリケーションは支援ユーザインタフェース要素（例えば、ダイアログ、再表示、確認、エンド資産（ｅｎｄａｓｓｅｔ）、実行順序）を提示する。その支援インタフェース要素は、ユーザが自身の意図を最高の「顧客満足」を有するアクションにマップすることを支援する。さらにこのフローでは、資産タイプに基づいて、アプリケーションがＡＰＩセットを通してシステムと対話し、実行または列挙につながるデータの結果セットを戻す。動作中は、類推コンポーネント１０２を使用してこの新規の機能性を促進することができる。

第３に、システム１００はフィードバックおよび分析フローを促進することができる。これは、フィードバックを収集して次いで後にその収集したフィードバックを分析してより良いユーザおよびモデル構築フローを作成し、開発および対話エクスペリエンスを改善することを求めることに関わるフローである。再度、データストア１０６とともにオーサリング／分析コンポーネント１０４を使用してこのフロー部分を達成することができる。

図４を参照する。類推コンポーネント１０２の例示的なブロック図を示してある。示すように、類推コンポーネント１０２は語彙処理コンポーネント４０２、統計的タスク検索コンポーネント４０４、統計的スロット補完コンポーネント４０６、ランク付けコンポーネント４０８および結果提示コンポーネント４１０を含むことができる。これらのコンポーネントの各々をそれらの新規機能性に関して後述する。これらの異種のコンポーネントの各々を含むように類推コンポーネント１０２を示してあるが、本発明の全体の新規機能性から逸脱せずに、これらのコンポーネントの任意のサブセットを類推コンポーネントから省略できることは理解されるべきである。

動作中は、類推コンポーネント１０２はタスク実行を通して入力クエリを処理することができる。以下で、旅行関連の入力クエリに関する特定の例を議論する。本発明にコンテキストを追加するためにこれらの例を提供するが、これらの例は決して本発明を限定するようには意図していないことは理解されるべきである。寧ろ、本発明の説明に観点を追加するために本明細書で説明した例を提供し、当業者は本開示および添付請求項の範囲内に含まれるべき無数のさらなる例が存在することを理解するであろう。

例において、入力クエリは話したまたはタイプした語句「私はピッツバーグからシアトルに行きたい」であることができる。例えば、この句を検索エンジンに入力することができる。入力を受信すると、類推コンポーネント１０２は語彙処理コンポーネント４０２を使用することでその入力を処理することができる。より詳細には、語彙処理コンポーネント４０２はクエリを一連のトークンに構文解析することができる。換言すれば、語彙処理コンポーネント４０２は入力に対して単語分割手続きを実施することができる。

この態様は入力の構文解析に単語分割を使用するが、様々なツールを使用して入力の単語を分離できることは理解されるであろう。単語を分割すると、語彙処理コンポーネント４０２は入力クエリ内部に含まれる名前付きエンティティ（例えば、ピッツバーグ、シアトル）を発見することができる。名前付きエンティティは、特定の領域に対して特定の意味を有する単語であると理解される。さらなるより具体的な例として、入力が「私は２００６年１１月１３日にピッツバーグからシアトルに行きたい」であったとすると、システムは日付／時刻の入力を名前付きエンティティ（例えば、２００６年１１月１３日）として認識することもできる。

名前付きエンティティを使用してユーザ特性を正規化できることは理解されるであろう。上の例では、使用される日付形式は日付に関するユーザの好みを識別し、その後クエリのどの領域が日付、都市、等に関するかを判定することができる。システムが単語分割からのトークンを有し、認識した名前付きエンティティを有すると、システムは統計的タスク検索コンポーネント４０４を使用することができる。

換言すると、クエリおよび認識した名前付きエンティティが与えられると最も可能性のある全ての利用可能なアクションおよびドキュメントから、統計的タスク検索コンポーネント４０４を使用して最も適切なタスク、または一連のタスクを発見することができる。この新規のタスク検索を実現するため、本発明はクエリ分類子、情報検索、コンテンツ分類子等を使用することができる。

例えば、今日、多数の検索エンジンは情報検索メカニズムを使用して検索クエリに関して結果を返してレンダリングする。換言すれば、情報検索メカニズムは特定の単語セットを特定のドキュメントにマップする方法を判定することは理解されるであろう。しかしながら、情報検索のこれらの従来の使用は調整したハードコードシステムによるものであり、統計的タスク検索コンポーネント４０４により使用される新規の統計的な適応的な方法には基づかない。

さらに、統計的タスク検索コンポーネント４０４は、どのクエリによりどの結果が返されたかを判定するクエリ分類子を使用することができる。前述の例に関してクエリ分類子は、クエリ内の単語「フライト」が最も頻繁にユーザが特定のウェブサイトを選択する結果になることを発見することができる。従ってクエリ分類子は、単語「フライト」が特定のウェブサイトまたはウェブサイトのグループの名前に関連付けられることを「学習」することができる。従って、この学習した類推に基づいて、情報検索システムからの結果を微調整して異なる結果セットまたは異なるランク付け結果セットをレンダリングすることができる。

さらに統計的タスク検索コンポーネント４０４は、ユーザアクションの履歴を評価してその履歴データに基づいてユーザの好みを判定できるコンテキスト分類子を使用することができる。上の例を続けると、クエリを参照し、コンテキスト分類子は履歴のアクションを見て、ユーザが特定のクエリを入力するときに例えばユーザがホテルではなくフライトを探している可能性が高いことを判定することができる。この目的のため、コンテキスト分類子はさらに、収集した統計データに基づいてユーザの好みまたは意図を絞ることを支援することができる。全体として、統計的タスク検索コンポーネント４０４は、ユーザ入力クエリの分析を介して判定されるアクションおよび／またはドキュメントのリストを返すことができる。

統計的スロット補完コンポーネント４０６を参照する。このコンポーネントは所望のパラメータおよび／または情報基準の自動補完を実施することができる。フライトの例を再度参照すると、スロット補完コンポーネント４０６はフライト時刻、到着地の都市、目的地、等のような基準を自動補完することができ、その全てはユーザの好みまたは意図に基づくことができ、またはその全てをユーザの好みまたは意図から判定することができる。全体として、統計的スロット補完コンポーネント４０６は入力クエリに基づいて特定のスロットを自動補完することができる。

それによると、統計的スロット補完コンポーネント４０６はクラスモデルコンポーネント、タグモデルコンポーネント等を含むことができる。スロット補完の特定のメカニズムを開示するが、スロット補完の代替的なメカニズムを本発明に関連して使用できることは理解されるべきである。これらの代替的なアルゴリズム的メカニズムは本開示および添付請求項の範囲内に含まれるべきである。動作中は、システムは統計的タスク検索４０４により識別したタスクを使用して適切なスロットを自動補完することができる。

ランク付けコンポーネント４０８を使用して、識別したタスクをランク付けすることができる。タスクを様々な情報源から提供できることは理解されるべきである。例えば、幾つかのタスクは或るウェブサイトから調達することができ、他のタスクを別のウェブサイトから調達することができる等である。従って、タスクを必要に応じて調達して、利用可能な最良の情報源（複数）から最良のタスクに関する結果を得ることができる。従って、ランク付けコンポーネント４０８は様々な情報源からの結果を結合することができ、その後最良の結果をユーザに提示することができる。

結果提示コンポーネント４１０は結果（例えば、タスク（複数））を様々な方法でレンダリングすることができる。例として、結果提示は単純な検索結果提示から音声作動式システム（例えば、「フライトを予約するには１を押してください」、「フライト状態については２を押してください」）まで様々であることができる。提示は多数の変数に依存することができる。その変数には装置タイプ、様式（例えば、音声、テキスト）、等が含まれるがこれらに限らない。

ユーザがオプションまたはリンクを選択すると、システムはタスク実行段階に入ることができる。理解されるべきであるが、タスク実行および入力クエリはアプリケーション側にある。換言すれば、これらのコンポーネントは、処理を実施して可能性のあるタスク、スロット補完、等を判定するバックエンドプロセスには結びついていない。換言すれば、アプリケーションは、自身がどのようにタスクをレンダリングしたいか、および自身をどのように実行（例えば、実施）すべきかを判定する。タスク実行内部で、ユーザはウェブフォーム、音声ダイアログ、等に導いてもよい。フライトの例を続けると、システム１００はユーザに、出発地の都市、到着地の都市、等を入力または確認するよう促すことができる。

図５および図６はそれぞれ、例示的なオーサリング／分析コンポーネント１０４およびデータストアコンポーネント１０６を示す。一般に、オーサリング／分析コンポーネント１０４はトレーニングコンポーネント５０２およびタスクエディタコンポーネント５０４を含むことができる。他の情報の中で、データストアコンポーネント１０６はタスク索引コンポーネント６０２、タスクプロパティコンポーネント６０４、クエリモデルコンポーネント６０６およびスロットモデルコンポーネント６０８を含むことができる。これらのコンポーネントの各々およびそれぞれのサブコンポーネントを、図７を参照して以下でさらに詳細に説明する。

図７を参照する。システム１００の代替的なアーキテクチャ図を示してある。より詳細には、上記の代替的なアーキテクチャ図は、類推、オーサリング／分析およびデータストアコンポーネント（１０２、１０４、１０６）を含めてサブコンポーネントを示す。動作中は、システム１００はフィードバックをシステムに渡すことができる。このフィードバック渡しをタスクの出力（即ち、実行）からトレーニングコンポーネント５０４への矢印で示す。この矢印は、ユーザが行ったことは何か、クエリが何であったかに関するフィードバックを示す。従ってこのフィードバックをシステムに戻して統計モデルを構築することができる。

図７に示すようにトレーニングコンポーネント５０４はスロットモデル６０８およびクエリモデル６０６にフィードバックすることができる。スロットモデル６０８およびクエリモデル６０６を統計的タスク検索およびスロット補完コンポーネント（４０４、４０６）を介して使用してタスク検索およびスロット補完ボックスを更新することができる。示すようにトレーニングコンポーネント５０４（モデルビルダ）へのタスク出力からスロットモデル６０８およびクエリモデル６０６へのフィードバックループが存在することができる。スロットモデル６０８およびクエリモデル６０６はそれぞれ、統計的スロット補完コンポーネント４０６および統計的タスク検索コンポーネント４０４と通信することができる。本ループは、システム１００がさらなるデータに応答する方法およびシステム１００がより良いモデルを構築することで時間をかけて情報を構築する方法を示す（６０６、６０８）。

タスクエディタコンポーネント５０２、タスクプロパティコンポーネント６０４およびタスク索引コンポーネント６０２を議論する。最初に任意のデータが存在する前に、領域が何をできるかまたはその範囲の資産は何であるかを理解するためにオーサリングを行うことができる。これをオーサリングと称する。換言すれば、オーサリングを、領域に関してこのコンテキストを作成することと考えることができる。

フライトの例を再度参照する。第１のステップは、ユーザが何をできるかをオーサリングすることであることができる。例えば、タスクエディタコンポーネント５０２を使用してタスクを生成することができる。そのタスクにより、ユーザはフライトを予約すること、フライト状態をチェックすること、カスタマーサービスエージェントと話すこと、価格を問い合わせること、等を行うことができる。これらの項目の各々をタスクのリストに含めることができる。

さらに、タスクエディタコンポーネント５０２を使用してこれらのタスクの各々に対してパラメータを定義することができる。例として、フライトの予約は、目的地の都市、到着地の都市、時刻および乗客数のようなパラメータを含むことができる。示すように、この情報をデータストア１０６内のタスクプロパティ６０４内部に記憶することができる。同様に、タスク索引６０２もデータストア１０６内部に記憶することができる。この記憶した情報はクエリの領域および種類に関してシステム１００に対する開始点を提供することができる。ユーザはその開始点を使用して、これらの領域にマップすることができる。

オーサリング／分析コンポーネント１０４に関して簡単に端から端まで検証する。この検証は本発明に観点を追加するために提供し、決して本発明の範囲を限定するようには意図していない。動作中は、オーサリング／分析コンポーネント１０４、より詳細にはタスクエディタコンポーネント５０２を使用して、任意の様式（例えば、音声、ＧＵＩ（ｇｒａｐｈｉｃａｌｕｓｅｒｉｎｔｅｒｆａｃｅ）テキスト）に関するタスクをオーサリングすることができる。

図８は、本発明のオーサリングの態様に従う例示的なＧＵＩタスクウィザード８００を示す。このタスクウィザードによりユーザは、パラメータ（例えば、フライトの予約）を有する資産であるタスクを作成することができる。例示的なスクリーンショット８００に示すように、「ｃｒｅａｔｅｔａｂｌｅ」タスクがオーサリングされている。この「ｃｒｅａｔｅｔａｂｌｅ」タスクにより、テーブルをワード処理アプリケーション内で作成することができる。この「ｃｒｅａｔｅｔａｂｌｅ」タスクを、後続の図面を参照してより詳細に説明する。

それによると、パラメータは行数、列数、等であることができる。動作中は、タスクウィザード８００は、パラメータを含むマッピングおよびタスクを作成するプロセスを通してユーザをガイドすることができる。基本的には本発明によりユーザはタスクを作成することができ、さらにユーザは、特定のタスクの作成に関する実際のユーザのフィードバックにシステムが応答する方法を定義することができる。

オーサリング／分析コンポーネント１０４を、タスクの作成方法および、一旦データが存在するとモデルに関してシステムが応答する方法の両方に結びつける。音声呼び出しフローに対して、異なるオーサリングパラダイムを使用することは理解されるであろう。換言すれば、オーサリングは「ＡＢＣエアラインにようこそ」のような音声ダイアログに関する。

本開示ではタスクとともに到着する入力クエリの処理に関するプロセス（およびそれに関連付けたコンポーネント）を説明したが、開発者がアプリケーション空間内部の「タスク」（およびスロットの関連性）をオーサリングすることでこのアーキテクチャ１００内での開発を開始できることは理解されるべきである。それによると、アプリケーション空間はウェブ中心またはデスクトップ中心であることができる。なぜならば、１つの態様ではシステム１００はＸＭＬを介してタスクを表現できるからである。同様に、マニフェストからコードへマッピングする１つの方法はアプリケーションコード領域依存（例えば、ウェブサービスまたはＣＬＲ）である。

図８に示すように、タスクを「タスク」オーサリングツールを使用してオーサリングすることができる。換言すれば、オーサリング／分析コンポーネント１０４は基本的に、そのスロットおよび認識装置によるタスクスキーマの構築を支援するツールであることができる。従って、これらのタスクを、ウェブまたはＣＬＲまたはＣＯＭであろうとインタフェースを通して公開して、これらのタスクのネイティブコード環境との統合を可能とすることができる。

図９を参照する。例示的な電話帳オーサリングＧＵＩを示してある。特に、システム１００を設計して、「ようこそ」と提示することで促すことができる。次に、システムは、ユーザが接続したい人のファーストネームを促すことができる。認識できない場合、システムはユーザにその名前の綴りを言うよう促すことができる。なお有効でない場合、システムは電子メールエイリアスのような別の記述的基準を促すことができる。示すように、マッチするまで正確な情報にカスケードし続けるようにシステムをプログラムすることができる。

別の例では、音声呼び出しフローを使用することができる。音声アプリケーションのオーサリングの場合、ユーザは、タスクフレームワークを構築するが異なる「視覚的な」フロー形態を提示する別のツールを有することができる。異なる「視覚的な」フロー形態は、ダイアログフロー、プロンプト設計、文法生成、ならびに混合および有向イニシアチブ（ｄｉｒｅｃｔｅｄｉｎｉｔｉａｔｉｖｅｓ）のサポートに関することができる。

この音声フローの態様では、開発はなお最後のタスクで始まるが、スロットはダイアログ要素として提示される。初期プロンプト、有向スロットダイアログ、混合イニシアチブのサポート、カスケーディングおよび障害プロンプト設計に対する正確なＵＩ設計があることができる。さらに、戻って結びつけるべき呼び出し設計フロー内のそれぞれの「状態」遷移をアプリケーションコード空間内のイベントハンドラに結びつける能力があることができる。この関係により、アプリケーションに、テキスト入力をアクティブに「管理」して合成を支援する能力を提供する。

さらに、ダイアログフローを管理すると、入力を取ってそれを音声フォーマット（例えば、ＳＲＧＳ）にマップするツール（例えば、オーサリング／分析コンポーネント１０４）が存在できる。さらに、ツールはそれぞれのダイアログ要素に関して関連する認識文法を生成することもできる。このツールの新規特徴の１つは、テキストトレーニングをこのダイアログフロー／プロンプト設計ツールに適用できることである。なぜならば、両方の空間はテキスト（または音声）上でトレーニングされるからである。

別の態様では、および図１０に示すように、オーサリング／分析コンポーネント１０２はテキスト抽出コンポーネント１０００を含むことができる。テキスト抽出コンポーネント１０２はウェブページを分析してその後ユーザ入力の観点からウェブサイトに関するタスクを生成することを促進することができる。動作中は、システムを使用してウェブサイトを指し示し、自動的にタスクを生成することができる。

例として、ユーザはＡＢＣトラベルのウェブサイトに行くことができ、テキスト抽出コンポーネント１０００はＡＢＣトラベルをタスクとして識別することができる。このタスク内部で、パラメータ（例えば、入力ボックス）を自動的に検出および構成することができる。例えば、目的地の都市、到着地の都市、等を入力ボックスとして自動的に構成することができる。図１０に示すように、例えばクローラを使用してこれらのパラメータを自動的に発見できることは理解されるであろう。

本質的に、検索クエリを入力し関連タスクを定義するユーザに対して、本新規発明は、ユーザがフォームに遭遇して、初期クエリにマッチする情報でそれを埋めるまで基本的にユーザに追随するシステム（例えば、ブラウザのプラグイン）を含む。結果に基づいて、オーサリング／分析コンポーネント１０２は自動的にそのサイトを「新規タスク」として提示することができる。

上述のように、および図１０に示すように、バックグラウンドでは、インターネットクローラ１００２を使用することができる。インターネットクローラ１００２はサイトを巡回して、ＨＴＭＬのタイトル、説明、キーワード、等のような様々な特徴を使用して「セマンティック情報」（フィールドおよびフィールド値）を抽出する。タスクをデータストア１０６内部に登録すると、オーサリング／分析コンポーネシト１０４は初期サンプルクエリを使用して「新規タスク」をトレーニングすることができる。

タスク抽出器１０００の１つの目的は、所与のシードウェブサイトから自動的にタスクを抽出することである。ここでシステムはタスクの定義をフォーム可能タスク、例えば入力パラメータとしてフォームを有するタスクに限定することができる。タスク抽出コンポーネント１０００の出力は、タスクストア（例えば、データストア１０６）に書き込んだタスクオブジェクト（．ＴＳＫ）である。そのタスクオブジェクト（．ＴＳＫ）をオーサリング／分析コンポーネント１０４（例えば、タスクウィザード）によりさらに利用することができる。

タスクオブジェクトはキーワードのフィールド及びタスクの説明を必要とするので、タスク抽出器１０００内の最も重要かつ困難な部分の１つは、タスクに関するセマンティック情報、即ちエンドーユーザに対するこのタスクの機能性を発見することである可能性がある。もう１ステップ進めると、タスク抽出器コンポーネント１０００は、ユーザが特定のタスクを実施したいときにそのユーザが入力するであろう説明を定義することができる。

それによると、このマッピングに多数の方法で対処することができる。１つの例では、システムはＨＴＭＬフォームおよびそのコンテキストから情報を発見することができる。別のアプローチでは、システムはクエリプロービング技術をデータストア１０６に適用することができる。事前に共通タスクを含むとして識別されるシードウェブサイトが与えられると、クローラ１００２は最初にこのシードウェブサイト下のウェブページを巡回してそれらをデータベース（例えば、データストア１０６）に書き込むことができる。また、ウェブページに対するリンクおよびウェブページからのリンクはウェブページ上のタスクに対して幾つかのセマンティック情報を生じさせうるという理由で、クローラ１００２は異なるウェブページ間のリンクまたはマッピングを別のテーブルに記録することができる。

フォームフィルタ１００４およびスキーマプローブ１００６はデータベース内のウェブページ情報を入力として使用することができる。フォームフィルタ１００４の１つの機能はＨＴＭＬパーサ１００８を介してＨＴＭＬの生のテキストからＨＴＭＬフォームを抽出することである。さらに可能ならば、同一のウェブサイト下のウェブページにしばしば当てはまるが、フォームフィルタは同一の機能性を有するかまたは同一のアクションを指し示すフォームをフィルタリングすべきである。この場合に対する単純な例は、Ｇｏｏｇｌｅ「商標」検索フォームを有する多数のページがありうるが単一のタスクオブジェクトのみが我々のタスクストア内では望まれることである。しかしながら、この問題は異なるウェブサイトに存在する同一タスクに対してより困難となる恐れがある。

フォームフィルタ１００４はフィルタリングしたフォームをＨＴＭＬパーサ１００８に渡すことができ、次いでＨＴＭＬパーサ１００８は、アクションＵＲＩ、メソッド、入力タイプ、等を含むフォームの構造化情報を抽出することができる。さらに、ＨＴＭＬフォーム内のＩＮＰＵＴに対するデフォルト値はスロットエンティティに関する情報を提供することができる。コンテキストセマンティック抽出器１０１０はＨＴＭＬタグ内のもの以外の情報を捕捉することができる。

システムはスロットレベルの情報およびタスクレベルの情報の両方を捕捉できることは理解されるであろう。例えば、ＩＮＰＵＴ要素の真正面に現れる単語は、それに対するスロットレベルの情報を取り込む可能性が高い。他方、ウェブページのＴＩＴＬＥもしくはフォームの直前または直後の単語はタスクレベルの情報を提供することができる。しかしながら、単に或る特定のコンテキスト位置内の情報を抽出するだけでは良い性能が得られない可能性がある。この場合、システムはウェブページ上の全てのデータをよりリッチなコンテキストとして使用することができ、同時に幾つかの不要なノイズをもたらす恐れがある。

同一のウェブページ上のデータに対する重み付け重要度モデルを導入してこのノイズフィルタリング／関連情報抽出問題に対処することができる。重要度はフォームからの距離、またはその単語のＩＤＦ、等に依存することができる。スキーマプローブ１００６の１つの特徴は、スロットに対するエンティティに関してさらなる情報を提供することである。スロットに対する値がウェブページ内に存在しないため、単にウェブページを巡回するだけではそれぞれのスロットに対するエンティティを得ることはしばしば困難である。

シードウェブサイトからのログはこの問題の軽減を支援することができる。オプショナルスキーマプローブコンポーネント１００６は自動的にクエリを生成することができ、スロットエンティティに関するフィードバックまたはさらなる説明を取得することができる。最後に、それぞれのフォームに対して、タスクオブジェクト生成器１０１２は全てのタスク情報をＨＴＭＬパーサ１００８、コンテキストセマンティック抽出器１０１０、およびオプショナルスキーマプローブ１００６から収集して、タスクストアまたはデータストア１０６に記憶可能であるタスクオブジェクトを作成することができる。

上述のように、ユーザ入力をＶＵＩ（ｖｏｉｃｅｕｓｅｒｉｎｔｅｒｆａｃｅ）またはＧＵＩ（ｇｒａｐｈｉｃａｌｕｓｅｒｉｎｔｅｒｆａｃｅ）（ＮＵＩ（ｎａｔｕｒａｌｕｓｅｒｉｎｔｅｒｆａｃｅ）と呼ばれる場合もある）を通して促進することができる。先ずＶＵＩの態様を参照する。１つの態様では、ユーザはマイクロフォン（またはＰＤＡ電話、等）を通して対話して、アプリケーション空間内部のタスク（およびそれに関するスロットの関連性）のオーサリングの開始に影響を及ぼすことができる。動作中は、アプリケーションはロードしたモデルを有することができる。そのモデルに対して、呼び出しフローオーサリング時に判定されるように認識および評価する。入力は、認識オブジェクトインタフェースに関連付けた音声インタフェースオブジェクトを通してシステムに渡って流れることができる。

入力は次いで認識エンジンからの音声テキストラティスに変わることができる。音声テキストラティスから、最も可能性のあるラティスの解釈を選択する。次いでこれを以下で定義するＮＵＩ入力インタフェースに送り込むことができる。その対話モデルを次いでアプリケーション空間により定義し、タスク実行空間ならびにその呼び出し経路およびダイアログフロー実装により支配する。その実装および対話を、暗黙的および明示的の両方でフィードバック向けに具備することができる。

ＧＵＩオーサリングの例を参照する。図１１および図１２はテーブル作成の検証のスクリーンショットを示す。図１１は本発明の態様に従うテーブル作成に関する明示的なフィードバックの例を示す。特に、検証を２掛ける３テーブルの作成から開始する。動作中は、ユーザは入力クエリとして「２掛ける３テーブルを作成」とタイプする。システムは語彙処理コンポーネント、例えば図４の４０２を使用することができ、それによりクエリ入力を分析してそのクエリをトークン「作成」「２」「掛ける」「３」および「テーブル」に分離することができる。

従って、システムは、名前付きエンティティメカニズムを使用して「２」および「３」が整数であることを認識することができる。次に、システムは統計的タスク検索コンポーネント、例えば図４の４０４を使用することで、利用可能な最良のタスクを発見することができる。例えば、および図１１に示すように、システムはテーブルを戻すおよび作成すること、テーブル内容を作成すること、等を行うことができる。

ここで、ユーザは挿入テーブルダイアログを開く「テーブルを作成」リンクをクリックすることができる。示すように、システムはスロット補完結果（例えば、図４の統計的スロット補完４０６）に基づいてボックスを自動補完することができる。「ＯＫ」を押下することでユーザが受け入れると、特定のアクションは、ユーザが初期入力クエリに関して行ったことから成る意図パケットまたは「明示的なフィードバック」を送信し戻すことができる。この場合、入力クエリは「２掛ける３テーブルの作成」であり、列数は３で行数は２であった。

結果として、システムは、「２掛ける３」が行列にマップすることを学習することができる。ユーザ数を与えると、システムは、関連する確率の重みに基づいて機能するモデルをトレーニングすることができる。

図１１の態様では、ユーザは、アプリケーション空間をナビゲートまたは命令するために必要な入力の提供を支援するＧＵＩ要素をタイプまたはそのＧＵＩ要素をクリックすることができる。任意の適切な装置を介して入力を達成できることは理解されるであろう。その入力には、マウスクリック（例えば、選択／非選択）またはキーボード入力（例えば、制御キーまたはテキスト入力）が含まれるがこれらに限らない。

代替的な態様において、および図１２を参照して、示すようにタスクの結果をユーザのオプショナルスロット補完の代替手段に提示することができる。再度、これは、結果の見え方と提示する情報とを理解するためのアプリケーション次第である。示すように、２掛ける３が意味することの代替的な仮定を表示することができる。ユーザがオプションをクリックした後、自動的に埋められた行および列でＧＵＩ要素を開くことができる。同様に、「暗黙的なフィードバック」を、２列および３行よりも３列および２行に対するユーザの好みを識別する意図パケットの形で送信し戻すことができる。この暗黙的なフィードバックは、ユーザが「ＯＫ」を押下して自動スロット補完を受け入れる図１１の明示的なフィードバックほど明確ではないことは理解されるであろう。寧ろ、図１２の態様では、システムはＧＵＩダイアログ要素のレンダリングと同時に暗黙的なフィードバックを送信する。換言すれば、ユーザが挿入テーブルダイアログボックス内の自動補完情報を検討する前に、フィードバックを送信する。

代替的な態様によると、システム１００はＡＩ（ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）コンポーネントを使用することができる。ＡＩは本発明に従って１つまたは複数の特徴の自動化を促進することができる。本発明は（例えば、タスク選択に関連して）、その様々な態様を実行するための様々なＡＩベースのスキーマを使用することができる。例えば、入力クエリに基づいて選択すべきタスクを判定するプロセスを、自動分類器システムおよびプロセスを介して促進することができる。

分類器は、入力属性ベクトルｘ＝（ｘ１，ｘ２，ｘ３，ｘ４，ｘｎ）を、入力がクラスに属する信頼度にマップする関数、即ちｆ（ｘ）＝ｃｏｎｆｉｄｅｎｃｅ（ｃｌａｓｓ）である。上記の分類は、確率および／または統計ベースの分析（例えば、分析ユーティリティおよびコストへのファクタリング）を使用して、ユーザが自動的な実施を望むアクションを予知または推論することができる。例えば、データベースシステムの場合、属性は、単語または語句または単語から導出した他のデータ固有属性（例えば、データベーステーブル、キー用語の存在）であることができ、クラスは関心のあるカテゴリまたはエリア（例えば、優先度レベル）であることができる。

ＳＶＭ（ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ）は使用可能な分類器の例である。ＳＶＭは、可能な入力の空間内で超曲面を見つけることで動作し、超曲面はトリガ基準を非トリガ事象から分割することを試みる。直感的には、これにより、トレーニングデータに近いが同じではない試験データに対して分類は正確になる。他の有向および無向モデル分類アプローチには例えば、ナイーブベイズ、ベイジアンネットワーク、決定木、ニューラルネットワーク、ファジーロジックモデルが含まれ、異なる独立性パターンを提供する確率的分類モデルを使用することができる。本明細書で使用する分類は、優先度モデルの開発に利用される統計的回帰も含む。

本明細書から容易に理解されるように、本発明は、（例えば汎用トレーニングデータを介して）明示的にトレーニングした分類器および（例えば、ユーザの振る舞いの観察、外部情報の受信を介して）暗黙的にトレーニングした分類器を使用することができる。例えば、ＳＶＭを、分類器コンストラクタおよび特徴選択モジュール内部で語句を学習またはトレーニングすることを介して構成する。従って、分類器（複数）を使用して多数の機能を自動的に学習および実施することができる。その機能には、所定基準に従って特定のタスクにマップする時点、選択すべきタスクを判定することが含まれるがこれに限らない。

図１３を参照する。開示した適応的セマンティックプラットフォームアーキテクチャを実行するよう動作するコンピュータのブロック図を示してある。本発明の様々な態様に追加のコンテキストを提供するため、図１３および以下の議論は、本発明の様々な態様の実装に適したコンピューティング環境１３００の簡潔で一般的な説明を提供することを意図している。本発明を１つまたは複数のコンピュータ上で実行可能なコンピュータ実行可能命令の一般的なコンテキストで上述したが、当業者は本発明を他のプログラムモジュールとの組み合わせで、および／またはハードウェアおよびソフトウェアの組み合わせとして実装することもできることを理解するであろう。

一般に、プログラムモジュールは、特定のタスクを実施するかまたは特定の抽象データ型を実装するルーチン、プログラム、コンポーネント、データ構造、等を含む。さらに、当業者は本発明の方法を他のコンピュータシステム構成で実践できることを理解するであろう。そのコンピュータシステム構成には、単一プロセッサまたはマルチプロセッサのコンピュータシステム、ミニコンピュータ、メインフレームコンピュータ、およびパーソナルコンピュータ、ハンドヘルドコンピューティング装置、マイクロプロセッサベースまたはプログラム可能家庭用電化製品、等が含まれ、それらの各々は１つまたは複数の関連装置に動作可能なように結合することができる。

本発明の態様の例を分散コンピューティング環境で実践することもできる。分散コンピューティング環境では或る特定のタスクを、通信ネットワークを通して接続したリモート処理装置により実施する。分散コンピューティング環境では、プログラムモジュールをローカルおよびリモートメモリ記憶装置の両方に配置することができる。

コンピュータは一般に様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータがアクセス可能である任意の利用可能な媒体であることができ、揮発性および不揮発性媒体、取り外し可能および取り外し不能媒体の両方を含む。限定ではなく例として、コンピュータ可読媒体はコンピュータ記憶媒体と通信媒体を備えることができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータのような情報を記憶する任意の方法または技術で実装した、揮発性および不揮発性、取り外し可能および取り外し不能媒体の両方を含む。コンピュータ記憶媒体には、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたは他のメモリ技術、ＣＤ−ＲＯＭ、ＤＶＤ（ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ）もしくは他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶もしくは他の磁気記憶装置、または所望の情報の記憶に使用可能でコンピュータがアクセス可能である任意の他の媒体が含まれるがこれらに限らない。

通信媒体は一般にコンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータを搬送波のような変調データ信号または他のトランスポート機構で具現化し、任意の情報配信媒体を含む。用語「変調データ信号」は、１つまたは複数の特性集合を含むかまたは信号内の情報をエンコードするように変化した信号を意味する。限定ではなく例として、通信媒体には有線ネットワークまたは直接有線接続のような有線媒体、および音響、ＲＦ、赤外線および他の無線媒体のような無線媒体が含まれる。上記の任意の組み合わせもコンピュータ可読媒体の範囲内に含まれるべきである。

図１３を再度参照する。本発明の様々な態様を実装する例示的な環境１３００はコンピュータ１３０２を含む。コンピュータ１３０２は処理ユニット１３０４、システムメモリ１３０６およびシステムバス１３０８を含む。システムバス１３０８はシステムコンポーネントを処理装置１３０４に結合する。そのシステムコンポーネントにはシステムメモリ１３０６が含まれるがこれに限らない。処理ユニット１３０４は任意の様々な商用的に利用可能なプロセッサであることができる。２相マイクロプロセッサおよび他のマルチプロセッサアーキテクチャを処理ユニット１３０４として使用することもできる。

システムバス１３０８は、（メモリコントローラを有するかまたは有さない）メモリバス、周辺バス、および任意の様々な商用的に利用可能なバスアーキテクチャを使用するローカルバスにさらに相互接続可能な数種のバス構造のうち任意のものであることができる。システムメモリ１３０６はＲＯＭ（ｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ）１３１０およびＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）１３１２を含む。ＢＩＯＳ（ｂａｓｉｃｉｎｐｕｔ／ｏｕｔｐｕｔｓｙｓｔｅｍ）をＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭのような不揮発性メモリ１３１０に記憶する。ＢＩＯＳは、例えば起動中にコンピュータ１３０２内部の要素間の情報転送を支援する基本ルーチンを含む。ＲＡＭ１３１２は、データをキャッシュするためにスタティックＲＡＭのような高速ＲＡＭを含むこともできる。

コンピュータ１３０２はさらに、適切な筐体（示さず）内で外的に使用するように構成することもできる内部ＨＤＤ（ｈａｒｄｄｉｓｋｄｒｉｖｅ）１３１４（例えば、ＥＩＤＥ、ＳＡＴＡ）、（例えば、取り外し可能ディスケット１３１８を読み書きするための）磁気ＦＤＤ（ｆｌｏｐｐｙｄｉｓｋｄｒｉｖｅ）１３１６、および（例えば、ＣＤ−ＲＯＭディスク１３２２を読むか、またはＤＶＤのような他の大容量光媒体を読み書きするための）光ディスクドライブ１３２０を含む。ハードディスクドライブ１３１４、磁気ディスクドライブ１３１６および光ディスクドライブ１３２０をそれぞれ、ハードディスクドライブインタフェース１３２４、磁気ディスクドライブインタフェース１３２６および光ドライブインタフェース１３２８によりシステムバス１３０８に接続することができる。外部ドライブの実装に対するインタフェース１３２４は、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）およびＩＥＥＥ１３９４インタフェース技術のうち少なくとも１つまたは両方を含む。他の外部ドライブ接続技術は本発明の想定内にある。

ドライブおよびその関連コンピュータ可読媒体はデータ、データ構造、コンピュータ実行可能命令、等の不揮発性記憶を提供する。コンピュータ１３０２に対して、ドライブおよび媒体は任意のデータを適切なデジタルフォーマットで記憶する。上のコンピュータ可読媒体の説明はＨＤＤ、取り外し可能磁気ディスケット、およびＣＤまたはＤＶＤのような取り外し可能光媒体を参照するが、ジップドライブ、磁気カセット、フラッシュメモリカード、カートリッジ、等のような、コンピュータが読み取り可能な他種の媒体を例示的な動作環境で使用してもよいこと、およびさらに、任意の上記媒体は本発明の方法を実施するためのコンピュータ実行可能命令を含んでもよいことは当業者により理解されるべきである。

多数のプログラムモジュールをドライブおよびＲＡＭ１３１２に記憶することができる。そのプログラムモジュールには、オペレーティングシステム１３３０、１つまたは複数のアプリケーションプログラム１３３２、他のプログラムモジュール１３３４およびプログラムデータ１３３６が含まれる。オペレーティングシステム、アプリケーション、モジュール、および／またはデータの全部または一部をＲＡＭ１３１２にキャッシュすることもできる。本発明を様々な商用的に利用可能なオペレーティングシステムまたはオペレーティングシステムの組み合わせで実装できることが分かる。

ユーザは命令および情報を１つまたは複数の有線／無線入力装置、例えばキーボード１３３８および、マウス１３４０のようなポインティングデバイスを通してコンピュータ１３０２に入力することができる。他の入力装置（示さず）はマイクロフォン、ＩＲリモートコントロール、ジョイスティック、ゲームパッド、スタイラスペン、タッチスクリーン、等を含むことができる。これらおよび他の入力装置を、システムバス１３０８に結合した入力装置インタフェース１３４２を通して処理ユニット１３０４に接続することがよくあるが、パラレルポート、ＩＥＥＥ１３９４シリアルポート、ゲームポート、ＵＳＢポート、ＩＲインタフェース、等のような他のインタフェースにより接続することができる。

モニタ１３４４または他種の表示装置も、ビデオアダプタ１３４６のようなインタフェースを介してシステムバス１３０８に接続する。モニタ１３４４に加えて、コンビュ一夕は一般に、スピーカ、プリンタ、等のような他の周辺出力装置（示さず）を含む。

コンピュータ１３０２は、リモートコンピュータ（複数）１３４８のような１つまたは複数のリモートコンピュータに対する有線および／または無線通信を介した論理接続を使用してネットワーク環境で動作することができる。リモートコンピュータ（複数）１３４８はワークステーション、サーバコンピュータ、ルータ、パーソナルコンピュータ、ポータブルコンピュータ、マイクロプロセッサベースの娯楽機器、ピアデバイスまたは他の共通ネットワークノードであることができ、一般にコンピュータ１３０２に関して説明した要素の多数または全部を含むが、簡潔さのため、メモリ／記憶装置１３５０のみを示してある。示した論理接続はＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）１３５２および／または例えばＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）１３５４のようなより大規模なネットワークに対する有線／無線接続性を含む。上記ＬＡＮおよびＷＡＮネットワーキング環境は職場および企業で一般的であり、イントラネットのような企業規模のコンピュータネットワークを促進する。それらの全てをグローバル通信ネットワーク、例えばインターネットに接続することができる。

ＬＡＮネットワーキング環境で使用するとき、コンピュータ１３０２を有線および／または無線通信ネットワークインタフェースまたはアダプタ１３５６を通してローカルネットワーク１３５２に接続する。アダプタ１３５６はＬＡＮ１３５２に対する有線または無線通信を促進することができる。ＬＡＮ１３５２は、無線アダプタ１３５６と通信するための公開無線アクセスポイントも含むことができる。

ＷＡＮネットワーキング環境で使用するとき、コンピュータ１３０２はモデム１３５８を含ことができ、またはＷＡＮ１３５４上の通信サーバに接続され、またはインターネットの手段のような、ＷＡＮ１３５４上で通信を確立するための他の手段を有する。モデム１３５８は、内部または外部にあって有線または無線装置であることができ、シリアルポートインタフェース１３４２を介してシステムバス１３０８に接続される。ネットワーク環境では、コンピュータ１３０２に関して示したプログラムモジュール、またはその一部をリモートメモリ／記憶装置１３５０に記憶することができる。示したネットワーク接続は例であって、コンピュータ間の通信リンクを確立する他の手段を使用できることは理解されるであろう。

コンピュータ１３０２は、無線通信内で動作するように公開した任意の無線装置またはエンティティ、例えば、プリンタ、スキャナ、デスクトップおよび／またはポータブルコンピュータ、ポータブルデータアシスタント、通信衛星、無線で検出可能なタグに関連付けた任意の装置または位置（例えば、キオスク、新聞売店、休憩室）、および電話と通信するように動作する。これは少なくともＷｉ−ＦｉおよびＢｌｕｅｔｏｏｔｈ「商標」無線技術を含む。従って、通信は、従来のネットワークまたは単に少なくとも２つの装置間のアドホック通信のように所定の構造であることができる。

Ｗｉ−Ｆｉ、またはＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙにより、家のソファ、ホテルの部屋のベッド、または職場の会議室から配線なしにインターネットに接続することができる。Ｗｉ−Ｆｉは、上記装置、例えばコンピュータが屋内および屋外、基地局の範囲内の任意の場所でデータを送受信できる携帯電話で使用されるものと同様の無線技術である。Ｗｉ−ＦｉネットワークはＩＥＥＥ８０２．１１（ａ，ｂ，ｇ，等）と呼ばれる無線技術を使用して、安全で信頼性のある高速な無線接続性を提供する。Ｗｉ−Ｆｉネットワークを使用してコンピュータを互いに、インターネットに、および（ＩＥＥＥ８０２．３またはイーサネット（登録商標）を使用する）有線ネットワークに接続することができる。Ｗｉ−Ｆｉネットワークはたとえば、無認可の２．４および５ＧＨｚ無線帯域内で、１１Ｍｂｐｓ（８０２．１１ａ）または５４Ｍｂｐｓ（８０２．１１ｂ）データ速度で、または両方の帯域を含む（デュアルバンドの）製品と動作し、その結果、ネットワークは多数の職場で使用されるベーシック１０ＢａｓｅＴ有線イーサネット（登録商標）ネットワークと同様な実世界の性能を提供することができる。

図１４を参照する。本発明に従う例示的なコンピューティング環境１４００の略ブロック図を示してある。システム１４００は１つまたは複数のクライアント（複数）１４０２を含む。クライアント（複数）１４０２はハードウェアおよび／またはソフトウェア（例えば、スレッド、プロセス、コンピューティング装置）であることができる。クライアント（複数）１４０２は例えば、本発明を使用することによりクッキー（複数）および／または関連コンテキスト情報を格納することができる。

システム１４００は１つまたは複数のサーバ（複数）１４０４も含む。サーバ（複数）１４０４もハードウェアおよび／またはソフトウェア（例えば、スレッド、プロセス、コンピューティング装置）であることができる。サーバ（複数）１４０４は例えば、本発明を使用することにより変換を実施するためのスレッドを格納することができる。クライアント１４０２とサーバ１４０４との間の可能な通信の１つは、複数のコンピュータプロセス間で送信されるよう適応させたデータパケットの形であることができる。データパケットは例えば、クッキーおよび／または関連コンテキスト情報を含むことができる。システム１４００は、クライアント（複数）１４０２とサーバ（複数）１４０４との間の通信を促進するために使用可能な通信フレームワーク１４０６（例えば、インターネットのようなグローバル通信ネットワーク）を含む。

通信を有線（光ファイバを含む）および／または無線技術を介して促進することができる。クライアント（複数）１４０２は、１つまたは複数のクライアントデータストア（複数）１４０８に動作するよう接続する。クライアントデータストア（複数）１４０８を使用して、クライアント（複数）１４０２にローカルな情報（例えば、クッキー（複数）および／または関連コンテキスト情報）を記憶することができる。同様に、サーバ（複数）１４０４は、１つまたは複数のサーバデータストア（複数）１４１０に動作するように接続する。サーバデータストア（複数）１４１０を使用して、サーバ（複数）１４０４にローカルな情報を記憶することができる。

上述したことは本発明の例を含む。勿論、本発明を説明する目的で構成要素または方法の全ての考えうる組合せを説明することは不可能であるが、当業者は、本発明の多数のさらなる組み合わせおよび置換が可能であることを認識することができる。従って、本発明は、添付請求項の精神および範囲内にある全ての上記変更、修正および変形を包含するよう意図している。さらに、用語「含む」を詳細な説明または請求項のいずれかで使用する限り、上記用語は、請求項で移行語として使用するときに「備える」が解釈されるように、用語「備える」と同様に包括的であると意図している。

本発明の態様に従って意図からアクションへの対話を促進するシステムを示す図である。本発明の態様に従って、ユーザ入力に基づくタスクの判定を促進する手続きの例示的なフロー図である。本発明の態様に従ってタスクのオーサリングを促進する手続きの例示的なフロー図である。本発明の態様に従う推論コンポーネントのブロック図である。本発明の態様に従うオーサリング／分析コンポーネントのブロック図である。本発明の態様に従って資産情報の維持を促進するデータストアのブロック図である。本発明の態様に従う適応的セマンティックプラットフォームアーキテクチャの代替的なブロック図である。本発明の態様に従ってタスクのオーサリングを促進する例示的なＧＵＩ（ｇｒａｐｈｉｃａｌｕｓｅｒｉｎｔｅｒｆａｃｅ）タスクウィザードを示す図である。本発明の態様に従う例示的な電話帳オーサリングＧＵＩを示す図である。本発明の態様に従ってウェブページ関連タスクの自動オーサリングを促進する例示的なテキスト抽出コンポーネントを示す図である。本発明の態様に従って明示的なフィードバックを生成する例示的なＧＵＩ表現を示す図である。本発明の態様に従って暗黙的なフィードバックを生成する例示的なＧＵＩ表現を示す図である。開示したアーキテクチャを実行するよう動作するコンピュータのブロック図である。本発明に従う例示的なコンピューティング環境の略ブロック図である。

Claims

人間と機械との間の直感的な対話を促進するシステムであって、
複数の資産の生成を促進するオーサリング／分析コンポーネントであって、前記の複数の資産のそれぞれは入力基準にマップされる複数のパラメータを有するオーサリング／分析コンポーネントと、
前記入力基準を統計的に分析して、少なくとも部分的に前記入力基準に基づいて資産をレンダリングする類推コンポーネントと
を備えることを特徴とするシステム。
前記オーサリング／分析コンポーネントは、少なくとも部分的に前記入力および前記のレンダリングされた資産に基づいてフィードバックを収集することを特徴とする請求項１に記載のシステム。
前記オーサリング／分析コンポーネントは、前記フィードバックから学習して、少なくとも部分的に前記フィードバックに基づいてユーザの意図を推論することを特徴とする請求項２に記載のシステム。
前記類推コンポーネントは、少なくとも部分的に前記ユーザの意図の分析に基づいて前記資産を選択することを特徴とする請求項３に記載のシステム。
前記資産はドキュメントおよびアクションのうち少なくとも１つであることを特徴とする請求項４に記載のシステム。
前記オーサリング／分析コンポーネントは、
前記資産の生成、および前記入力基準の分析において前記推論コンポーネントを支援する複数の注釈の確立を可能とするタスクエディタコンポーネントと、
フィードバックデータを取り込み、学習モデルをトレーニングし、前記資産の選択において前記推論コンポーネントを支援する索引を生成するトレーニングコンポーネントと
を備えることを特徴とする請求項１に記載のシステム。
前記タスクエディタは、前記資産をウェブページの分析に基づいて自動的に生成するテキスト抽出器を含むことを特徴とする請求項６に記載のシステム。
前記テキスト抽出器は、前記ウェブページを分析して前記ウェブページに関連付けた前記資産の自動生成を促進するセマンティック情報を抽出するクローラを含むことを特徴とする請求項７に記載のシステム。
前記索引はタスク索引およびタスクプロパティのうち少なくとも１つを含むことを特徴とする請求項６に記載のシステム。
前記学習モデルはクエリモデルおよびスロットモデルのうち少なくとも１つを含むことを特徴とする請求項７に記載のシステム。
ユーザの意図を推論し少なくとも部分的に前記ユーザの意図に基づいて前記資産を選択する統計ベースの分析を使用するＡＩ（ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）コンポーネントをさらに備えることを特徴とする請求項１に記載のシステム。
ユーザ入力に反応するコンピュータ実装方法であって、
資産をオーサリングするステップと、
前記ユーザ入力に関してユーザの意図を判定するステップと、
少なくとも部分的に前記ユーザの意図に基づいて、前記資産を前記ユーザ入力にマップするステップと、
前記資産を実行するステップと、
フィードバックを取得するステップと、
前記フィードバックから学習するステップと
を備えることを特徴とするコンピュータ実装方法。
前記資産をレンダリングするステップをさらに備えることを特徴とする請求項１２に記載のコンピュータ実装方法。
前記資産をオーサリングするステップは、ドキュメントおよびアクションのうち少なくとも１つを生成するステップを備えることを特徴とする請求項１３に記載のコンピュータ実装方法。
前記資産をオーサリングするステップは、タスクフレームワークを生成するステップを備えることを特徴とする請求項１２に記載のコンピュータ実装方法。
前記資産をオーサリングするステップは、複数のパラメータを前記タスクフレームワークに適用するステップをさらに備えることを特徴とする請求項１５に記載のコンピュータ実装方法。
前記資産に対して索引を生成するステップであって、前記索引は前記資産を前記ユーザ入力の特性にマップするステップをさらに備えることを特徴とする請求項１５に記載のコンピュータ実装方法。
統計ベースの対話を促進するコンピュータ実行可能システムであって、
複数の資産をオーサリングする手段と、
ユーザ入力に基づいてユーザの意図を判定する手段と、
前記複数の資産のサブセットを、少なくとも部分的に前記ユーザの意図に基づいて前記ユーザ入力にマップする手段と
を備えることを特徴とするコンピュータ実行可能なシステム。
少なくとも部分的に前記複数の資産のサブセットに基づいてフィードバックをコンパイルする手段をさらに備えることを特徴とする請求項１８に記載のコンピュータ実行可能なシステム。
前記フィードバックから知識を生成する手段と、
前記知識を適用して前記複数の資産のサブセットを異なるユーザ入力にマップする手段と
をさらに備えることを特徴とする請求項１９に記載のコンピュータ実行可能なシステム。