JP6657124B2

JP6657124B2 - 会話理解システムのためのセッションコンテキストモデリング

Info

Publication number: JP6657124B2
Application number: JP2016573985A
Authority: JP
Inventors: アクバカク，ムラト; ゼット．ハッカニター，ディレク; ター，ゴクハン; ピー．ヘック，ラリー
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2014-06-18
Filing date: 2015-06-17
Publication date: 2020-03-04
Anticipated expiration: 2035-06-17
Also published as: RU2016149498A; CN106575503B; RU2693184C2; BR112016028797A2; EP3158559B1; CN106575503A; JP2017518588A; RU2016149498A3; EP3158559A1; WO2015195729A1; US20150370787A1

Description

音声対応ヒューマンマシン会話システム、例えば、エンターテインメントシステム又はパーソナル装置との音声インタラクションなどは、ユーザの発話の正確な認識に依存する。例えば、効果的な音声検索アプリケーションは、ユーザによりサブミットされたクエリ又は他のインタラクションを、ユーザに返される情報が上記クエリ又はアクションのサブミットにおけるユーザの意図に相関するように、正確に認識しなければならない。上記システムのうち１つとの一連のインタラクション又は「ターン」内で、ユーザは、いくつかのクエリをサブミットし得る。典型的に、上記クエリの内容は、あるターンからその次へ、単語レベルにおいて又は辞書的に変化するが、上記内容は、同じセッション内で、セマンティック（semantic）又は意図レベルにおいていくらかの関連性をしばしば共有する。例えば、ユーザが映画について尋ね、それから、映画が上映されている近くの劇場の場所について知りたい場合がある。

上記シナリオは、構造化されたドメイン、例えば、エンターテインメントシステム又はパーソナルアシスタントアプリケーションなどにおいて特に一般的であり、これにおいて、ユーザは、タスク完了のためのいくらかの情報ピースを指定し得る。（例えば、フライト予約を行うタスクについて、このことは、出発及び到着場所、フライト日付、好ましい時間、好ましい航空会社等を指定することを含み得る。）しかし、ユーザのターゲットにした意図があるターンからその次へと変化するときでさえ、連続したクエリ間にいくらかの関連性又は相関が依然として存在することがあり、例えば、フライトチケットを買った後、レンタカーを予約すること又はホテルを探すことである。

上記ユーザセッションコンテキスト情報を、発話認識のために会話システムにより使用される言語モデルに組み入れることにより、より良好なターゲット及び予測モデリングを提供することによって、システムの正確さを向上させることができる。しかしながら、上記情報を、限られた過去データ（例えば、特定のセッションにおける、現在時までの過去のクエリ）を用いてセマンティックレベルで捕捉することは、チャレンジングである。さらに、セッションコンテキストをモデル化するための既存の努力は、現在のセッション内の過去のクエリのみ考慮し、セッション全体がただ１つの特定のトピック又は意図に向けられると仮定する。さらに、上記アプローチは、各セッション内でユーザにより取られる順次的アクションをモデル化しない。

本発明の概要は、以下で詳細な説明においてさらに説明される概念のうち選択されたものを簡素化された形式で紹介するよう提供される。本発明の概要は、請求される対象事項の重要な特徴又は必須の特徴を識別するものではなく、請求される対象事項の範囲を決定することの助けとして使用されるものでもない。

本発明の実施形態は、発話認識のための言語モデル及び口語理解（spoken language understanding）（ＳＬＵ）モデルを、上記モデルにより利用される知識ソースをセッションコンテキストに適合させることによって向上させる、システム及び方法に向けられる。詳細には、知識ソース、例えば知識グラフなどが使用されて、知識ソースにマッピングされる使用履歴、例えばセッションログなどからのユーザインタラクション情報に基づいて、動的なセッションコンテキストを捕捉し、モデル化することができる。さらに説明されるとおり、一実施形態において、知識ソースは、ユーザ又は他の類似ユーザの使用履歴からのユーザインタラクション情報を組み入れることによって、ユーザのセッションコンテキストに適合される。例えば、アプリケーション又は装置とのユーザインタラクション又は「ターン（turns）」からの情報が、知識ソースにマッピングされることができる。マッピングされたユーザインタラクションのシーケンスに基づいて、意図シーケンスモデルが決定される。それから、意図シーケンスモデルが使用されて、セッションコンテキストに基づいて言語モデル及びＳＬＵモデルを構築し、あるいは適合させることができ、このことには、上記モデルのリアルタイム生成及び補間が含まれ、これにより、セッションコンテキストモデルとして機能する。こうして、モデルは、前の１つ又は複数のターンを所与として、起こり得る次ターンのセットを決定することに使用されることができる。それから、起こり得る次ターンのセットのための言語モデルがアクセスされ又は生成されて、次ターンの正確な認識を容易にすることができる。

いくつかの実施形態には、知識ソースを適合させて、すべてのユーザについて又は特定グループのユーザのみについて大局的にセッションコンテキストをモデル化することが含まれる。例えば、知識ソースに組み入れられる使用履歴情報は、ユーザのソーシャルネットワーキングデータ、ユーザログ、又は他のユーザ情報に基づいて、類似の関心又は意図を有するユーザに合わせられることができる。こうして、セッションコンテキストモデルが、類似のユーザに共通する集団特性に基づいて構築されることができる。

本発明は、添付図面において限定でなく例として示され、該図面において、同様の参照番号は類似の要素を示す。
本発明の一実施形態が採用され得る一例示的システムアーキテクチャのブロック図である。本発明の一実施形態に従う、個人向け知識グラフの一例の部分を表す。本発明の一実施形態に従う、セッションコンテキストモデルの一態様の例示的な表現を表す。本発明の実施形態に従う、言語モデルをユーザ履歴に基づいてセッションコンテキストに適合させて将来のインタラクションをより良く理解する方法のフロー図を表す。本発明の実施形態に従う、言語モデルをユーザ履歴に基づいてセッションコンテキストに適合させて将来のインタラクションをより良く理解する方法のフロー図を表す。本発明の実施形態に従う、言語モデルをユーザ履歴に基づいてセッションコンテキストに適合させて将来のインタラクションをより良く理解する方法のフロー図を表す。本発明の実施形態に従う、ユーザ履歴情報に基づいてセッションコンテキストモデルを提供する方法のフロー図を表す。本発明の実施形態に従う、ユーザ履歴情報に基づいてセッションコンテキストモデルを提供する方法のフロー図を表す。本発明の実施形態に従う、セッションコンテキスト情報を用いて個人向けにされた知識ソースを使用して言語モデルを提供する方法のフロー図を表す。本発明の実施形態を実装することにおける使用に適した一例示的なコンピューティング環境のブロック図である。

本発明の対象事項は、本明細書において、法定要件を満たす特定性で説明される。しかしながら、説明それ自体は、本特許の範囲を限定するものではない。むしろ、発明者は、請求される対象事項が他の方法で具現化されて、他の現在又は将来のテクノロジーと関連して、異なるステップ、又は、本文献内に説明されるステップと類似のステップの組み合わせを含む可能性もあると考えている。さらに、用語「ステップ」及び／又は「ブロック」が本明細書において使用されて、採用される方法の異なる要素を意味し得るが、上記用語は、個々のステップの順序が明示的に説明されるときでない限り、及びこうしたときを除き、本明細書に開示される様々なステップ間におけるいずれかの個別順序を暗示するものと解釈されるべきではない。

本明細書に説明されるテクノロジーの態様は、一般に、とりわけ、言語モデルにより利用される知識ソースをセッションコンテキストに適合させることによって発話認識のための言語モデルを向上させるシステム、方法、及びコンピュータ記憶媒体に向けられる。詳細には、知識ソース、例えば知識グラフなどが使用されて、知識ソースにマッピングされる使用履歴、例えばセッションログなどから、ユーザインタラクション情報に基づいて動的なセッションコンテキストを捕捉し、モデル化することができる。知識ソースは、ユーザ又は類似ユーザの個人使用履歴から知識ソースにユーザインタラクション情報をマッピングし又は整合させる（aligning）ことによって、ユーザのセッションコンテキストに適合させることができ、これにより、ユーザ又はユーザのセットに対して知識ソースが個人向けにされる。上記マッピングから、各インタラクションに対応するユーザ意図が、マッピングを囲むエリアからのありそうなエンティティタイプ及び関連情報に基づいて、決定されることができる。マッピングされたユーザインタラクション情報からのシーケンス又はパターンに基づいて、より高いレベルの意図シーケンスが決定され、使用されて、類似の意図を予期するが異なる項（arguments）を有するモデルを形成することができ、上記異なる項は、使用履歴内に必ずしも出現しない項を含む。一実施形態において、モデルは、第１のインタラクションから第２のインタラクションに推移すること（transitioning）の見込み（likelihood）を示す推移確率（transition probabilities）のセットを含む。

セッションコンテキストモデルが利用されて、ユーザとの起こり得る（likely）将来のインタラクション、例えば、ユーザによりサブミットされるクエリ又は他のユーザインタラクションに関する情報を、前のユーザインタラクション情報に基づいて決定することができる。起こり得る将来インタラクション情報に基づいて、言語モデル又はＳＬＵモデルが生成され、又は適合されて、次のインタラクションに関連付けられる発話認識及び理解を向上させることができる。

例として、一実施形態において、ユーザインタラクション情報、例えば、ユーザクエリログからの情報などが、知識ソース、例えば知識グラフなどのセマンティックリレーションシップにマッピングされる。ユーザインタラクション情報は、ユーザとアプリケーション又は装置とにおける１つ以上のセッションからの、ユーザインタラクションイベントのシーケンス（又はパターン）を含み得る。上記マッピングから、各々のマッピングされたユーザインタラクションイベントに関連付けられた起こり得るユーザ意図が、セマンティックリレーションシップ（例えば、１つ以上のエンティティ、エンティティタイプ、又はリレーションシップなど）、及び／又は、マッピングされたインタラクションイベントに対応する知識ソース内の他の情報に基づいて決定されることができる。マッピングと、ユーザインタラクション関連情報のセッション内のユーザインタラクションイベントのシーケンス（又はパターン）とに基づいて、起こり得るユーザ意図のシーケンス（又はパターン）が決定され、意図シーケンスモデルに使用されることができる。一実施形態において、意図シーケンスモデルは、意図シーケンス（又はパターン）内の意図推移の統計（statistics）、例えば、意図推移確率のセットなどを含み、上記意図推移確率は、１つ以上の前の意図を所与として、後のユーザ意図の見込みを表す。意図シーケンスモデルが使用されて、セッションコンテキストに基づいて言語モデル及びＳＬＵモデルを構築し、あるいは適合させることができ、このことには、上記言語及びＳＬＵモデルのリアルタイム生成及び補間が含まれ、これにより、セッションコンテキストモデルが形成される。こうして、セッションコンテキストモデルは、前の１つ又は複数のターンを所与として、起こり得る次ターンのセットを決定することに使用されることができる。それから、起こり得る次ターンのセットのための（１つ以上の）言語モデルがアクセスされ又は生成されて、次ターンの正確な認識を容易にすることができる。

例えば、第１のターンにおいて、ユーザが自身のパーソナル装置に「Life is Beautifulの監督は誰か？」と尋ねる。このクエリは、映画‐監督セマンティックリレーションシップに対応する知識ソースの一部分にマッピングされることができる（例えば、Life is Beautiful ‐ directed by ‐ Robert Benigni）。前のパーソナル使用履歴情報を入れられて（populated）いる知識ソースに基づくセッションコンテキストモデルから、クエリの監督‐映画タイプに続いて、次ターンにおいてユーザが映画キャストについて尋ねる０．４の確率があり、次ターンにおいてユーザがオスカー又は賞について尋ねる０．２の確率があり、ユーザが監督の国籍について次に尋ねる０．１の確率があると決定されることができる。こうした推移確率に基づいて、推移（例えば、Life is Beautifulのキャスト、その賞、又は監督の国籍）に対応する言語モデルが補間されて、次ターンをより良く認識し、あるいは理解することができる。各々の後続ターンで、セッションコンテキストモデルは、前の（１つ以上の）ターンからの意図及びドメインを使用して次ターンの見込みを予測し、したがって、言語モデル及びＳＬＵモデルが予測に対して適合されることができる。

本発明の実施形態は、ユーザインタラクション情報を含むパーソナル使用履歴をより一般的な知識ソースにマッピングし又は整合させることによって、知識ソースを「個人向けにする（personalize）」ように見なされ得る。ユーザインタラクション情報は、限定なしに例として、１つ以上のユーザクエリ、話されたクエリを含む発声、他のマルチモーダル又は文脈（contextual）データ、例えば、セッション内の或る複数時点におけるユーザ発声、ユーザアクション又はセッション内でユーザに対して表示されるもの、及び他のユーザインタラクション関連情報などを含み得る。上記で説明されたとおり、ユーザインタラクション情報はパーソナル使用履歴から来てもよく、上記パーソナル使用履歴は、限定なしに例として、ユーザのウェブクエリログ、デスクトップ又はパーソナル装置クエリログ、ソーシャルネットワーキングインタラクション、訪問したウェブサイト、又は類似のユーザインタラクション情報を含み得る。このことに応じて、一実施形態において、パーソナル使用履歴が、汎用的な又はあまり個人向けにされていない知識ソースにマッピングされてこれを個人向けにし、このことから、意図シーケンスが決定される。別の実施形態において、ユーザインタラクション情報を含むパーソナル使用履歴のサブセット又は部分が、汎用的な（又はあまり個人向けにされていない）知識ソースにマッピングされて、これをユーザインタラクション関連情報に基づいて個人向けにする。個人向けにされた知識ソースから、意図シーケンスが意図シーケンスモデルについて決定される。

さらに、ユーザの情報の様々なパーソナルソース及びより一般化された（あまり個人向けにされていない）知識ソース、例えば、ドメインデータベース及び知識グラフなどが、個人向けにされた知識ソースを作成するとき、利用されることができる。いくつかの実施形態において、個人向けにされた知識ソースは、それから、例えば、言語モデルをユーザの使用履歴情報内に出現するエンティティ又はエンティティペアに対応するクエリで訓練することなどによって、個人向けにされた言語モデルとして使用されることができる。個人向けにされた知識ソースがさらに使用されて、使用履歴情報からのユーザインタラクション情報のシーケンス又はパターンに対応するエンティティ及びエンティティペアのシーケンス（又はパターン）を決定することによって、意図シーケンスモデルを決定することができる。それから、意図シーケンスモデル内の意図推移に関連付けられた確率が使用されて、個人向けにされた言語モデルの重みを調整することができ、これにより、セッションコンテキストモデルが作成される。

いくつかの実施形態には、知識ソースを適合させて、すべてのユーザについて又は特定グループのユーザのみについて大局的にセッションコンテキストをモデル化することがさらに含まれる。例えば、個人向けにされた知識ソースが使用されて、例えばクラスタ化することなどによって、類似の関心又は意図を有するユーザを識別することができる。こうして、セッションコンテキストモデルは、類似のユーザに共通する集団特性（population characteristics）に基づいて構築されることができる。さらに、ターゲットユーザに対して個人向けにされた知識ソースが、類似のユーザに対して個人向けにされた知識ソースに基づいて拡張され、あるいは強化されることができる。ゆえに、新しいユーザのパーソナル使用履歴がまばら又は未知である場合、例えばエンティティ、エンティティリレーションシップペア、意図、又はエンティティ人気（entity popularity）に関する情報を含む類似のユーザからの情報が、新しいユーザのセッションコンテキストモデルを訓練することに使用されることができる。

次に図１を参照すると、本発明の一実施形態を実装するのに適した一例示的なシステムアーキテクチャの態様を示すブロック図が提供され、概してシステム１００として指定される。本明細書に説明される上記及び他の配置は、単に例として明記されることが理解されるべきである。ゆえに、システム１００は、適切なコンピューティングシステムアーキテクチャの単に一例を表す。他の配置及び要素（例えば、ユーザ装置、データストア等）が、図示されるものに対して追加で又は代わって使用されることができ、いくつかの要素が、明確さのために合わせて省略され得る。さらに、本明細書に説明される要素の多くが、別々の若しくは分散されたコンポーネントとして又は他のコンポーネントと関連して、任意の適切な組み合わせ及び場所において実装され得る機能エンティティである。１つ以上のエンティティにより実行されるものとして本明細書に説明される様々な機能が、ハードウェア、ファームウェア、及び／又はソフトウェアによって実行され得る。例えば、いくつかの機能が、メモリ内に記憶された命令を実行するプロセッサによって実行され得る。

図示されていない他のコンポーネントの中でも、システム１００は、１つ以上のユーザ装置（例えば、アイテム１０２及び１０４）に通信可能に結合されたネットワーク１１５、記憶装置１０６、及び個人向け知識ソース生成器１２０を含む。図１に示されるコンポーネントは、１つ以上のコンピューティング装置、例えば、図１０に関連して説明されるコンピューティング装置１０００などを用いて実装されることができる。ネットワーク１１５は、限定なしに、１つ以上のローカルエリアネットワーク（ＬＡＮ）及び／又はワイドエリアネットワーク（ＷＡＮ）を含み得る。こうしたネットワーキング環境は、オフィス、企業範囲のコンピュータネットワーク、イントラネット、及びインターネットにおいてありふれている。任意数のユーザ装置、記憶コンポーネント、及び個人向け知識ソース生成器が、本発明の範囲内でシステム１００内で採用されてもよいことが理解されるべきである。各々が、単一の装置、又は分散環境において協働する複数の装置を含んでもよい。例えば、個人向け知識ソース生成器は、本明細書に説明される機能性を集合的に提供する分散環境内に配置された複数装置を介して提供されてもよい。さらに、図示されていない他のコンポーネントが、ネットワーク環境内にさらに含まれてもよい。例えば、知識グラフデータストアがさらに提供されて、本明細書に説明される実施形態によって容易にアクセスされることができる知識グラフを別個に記憶してもよい。

例示的なユーザ装置１０２及び１０４は各々、ユーザから入力を受け取ることができる任意タイプのユーザ装置、例えば以下で説明されるものなどを含む。図１は２つの例示的なユーザ装置１０２及び１０４を示しているが、ユーザがただ１つのユーザ装置又は３つ以上の装置に関連付けられてもよい。いくつかの実施形態において、ユーザから入力を受け取るユーザ装置は、ユーザのユーザ識別に関連付けられる。

一実施形態において、ユーザ装置１０２及び１０４は、本明細書において図１０に関連して説明されるタイプのコンピューティング装置であり得る。限定でなく例として、ユーザ装置は、パーソナルデータアシスタント（ＰＤＡ）、モバイル装置、ラップトップ、タブレット、リモートコントロール、又はエンターテインメントシステム、車載コンピュータシステム、組み込みシステムコントローラ、電化製品、消費者電子装置、又はユーザから入力を受け取ることができる他の電子装置として具現化され得る。入力は、多くの異なるモダリティのうち１つ、例えば、限定でなく例として、音声又はサウンド、テキスト、タッチ、クリック、ジェスチャ、ユーザの物理的周囲、又は図１０に関連して説明される他の入力テクノロジーなどによって受け取られることができる。例えば、ユーザは、セッション内で検索エンジンを利用して１つ以上のクエリを入力し、クエリに高度に関連した情報を受信することを意図することがある。あるいは、ユーザは、１つ以上のソーシャルネットワーキングウェブサイトと相互作用し、ユーザが友達又はさらには他人と共有することを意図する入力を提供することがある。ユーザは、ソーシャルネットワーキングウェブサイトとさらに相互作用し、ユーザが別のユーザの投稿を読んでおり、好きであることを示すことがある。またさらに、ユーザは、ゲーミングシステム、テレビジョン等で音声コマンドを使用することがある。上記の入力形式のすべてと、本明細書に具体的に言及されない他のものとが、本発明の範囲内であると考えられる。

記憶装置１０６は概して、使用される１つ以上の知識ソース１０７とパーソナルソース１０９とを記憶して、一実施形態において、言語モデルを適合させるためのセッションコンテキストモデルを構築して発話認識を向上させ、例えば、ユーザの次の発声についての確率を正確に決定するなどすることができる。いくつかの実施形態において、知識ソース１０７から構築されるモデル及び／又は知識ソース１０７とパーソナルソース１０９とから構築されるモデルを含む１つ以上のモデル（図示されていない）が、記憶装置１０６内にさらに記憶される。さらに、単一のデータストアコンポーネントとして表されているが、記憶装置１０６は、１つ以上のデータストアとして具現化されてもよく、あるいはクラウド内であってもよい。

知識ソース１０７は、一実施形態において、関係データベースを含み、上記関係データベースは、ドメインデータベース、知識ベース、知識グラフ、又は類似の情報ソースを含む。一実施形態において、知識ソース１０７は、構造化されたセマンティック知識ベース、例えば、セマンティックウェブなどを含む。バックグラウンドとして、セマンティックウェブ（又は、類似の構造化された知識ベース又はウェブスケール（web-scale）セマンティックグラフ）は、リソースディスクリプションフレームワーク（Resource Description Framework）（ＲＤＦ）を用いて表現されることができる。上記ＲＤＦは、関連付けの、トリプル（triple）に基づく構造であり、該構造は、何らかの関係によりリンクされる２つのエンティティを典型的に含み、よく知られる述語／項構造に類似である。一例が、“directed_by （Avatar，James Cameron）”である。ＲＤＦが使用及び人気において増加しているので、様々なドメインをカバーするトリプルストア（知識ベース又は知識グラフといわれる）が登場しており、例えば、Freebase.orgなどである。一実施形態において、知識ソース１０７は、１つ以上の知識グラフ（又は、関係グラフ）を含む。上記グラフは、２つのエンティティ間の関係を示すトリプル（例えば、Avatar ‐ directed by ‐ James Cameron）のセットを含み、グラフ構造へと編集される（compiled）ことができる。一例示的な知識グラフが、例示的なエンティティ及びそのリレーションシップを例示する図２において提供され、本明細書においてより詳細に論じられる。

一例において、知識ソースは、少なくとも１つのエンティティを識別する。本明細書において使用されるとき、用語エンティティは、概念又はオブジェクトを含め、他アイテムとの潜在的リレーションシップを有する任意タイプのアイテムを含むように広く定義される。例えば、エンティティは、映画“Life is Beautiful”、監督“Roberto Benigni”、又は賞“Oscar”であり得る。類似の統語的又はセマンティックな意味を伝えるエンティティの集合が、エンティティタイプ（例えば、映画タイトル、歌、時間表現等）を含む。さらに、関連エンティティタイプが、ドメインへと編成されることができ、上記ドメインは、エンティティのカテゴリ、例えば、映画、運動、音楽、スポーツ、ビジネス、製品、組織等などと考えられ得る。例えば、映画ドメイン内で、映画“Life is Beautiful”は“Roberto Benigni”によって監督され、この映画はさらにオスカーを勝ち取っている。

パーソナルソース１０９は、ユーザの情報の、１つ以上のソースを含む。限定でなく例として、上記ユーザ情報は、ユーザのクエリログを含むことができ、上記ログには、サブミットされたクエリ、クエリ結果、及び／又はクリックした（clicked-on）結果；訪問したウェブサイト及びブラウザ履歴；オンライン購入履歴；ソーシャルネットワーキングインタラクション；及び他のユーザインタラクション情報又は使用履歴が含まれる。一実施形態において、ユーザ情報は、ユーザ装置（例えば、アイテム１０２又は１０４）上で取られたアクションを含み、上記アクションは、ユーザＩＤと相関させられることができる。

記憶装置１０６は、本明細書において説明される実施形態に従って生成される個人向け知識ソース又は拡張された個人向け知識ソースをさらに記憶することができる。例えば、さらに説明されるとおり、個人向け知識ソースは、個別のユーザに対してカスタマイズされ、このユーザのためのセッションコンテキストモデルを決定することに、及び上記個別のユーザの発話認識を向上させるよう言語モデルを適合させることに使用されることができる。拡張された個人向け知識ソースは、個別のユーザに対してカスタマイズされるが、個人向け知識ソースに関連付けられたユーザと類似の関心を有する他ユーザからのマッピングをさらに含む。本明細書においてマッピングが参照されるとき、１つ以上のパーソナルソースからデータを取得することと、知識ソースに対してそれを整合させること又はそれをマッピングすることとの処理が参照される。

一実施形態において、上記データが特定のエンティティ又はエンティティタイプを含む場合、このエンティティ又はエンティティタイプは、個人向け知識ソース、例えば知識グラフなどの中で識別されることができ、上記エンティティ又はエンティティタイプに対して、カウントが加算される。ゆえに、個人向け知識ソースは、確率的個人向け知識ソースになる。例えば、データが映画“Life is Beautiful”の名前を含む場合、その映画名がユーザの個人向け知識グラフ内に位置し、そのエンティティの現在のカウントが１だけ増加される。マッピングの他の方法が、同様に本発明の実施形態の範囲内であるよう考えられる。例えば、アルゴリズムが使用されて、各エンティティ及び／又はエンティティタイプの重みを提供し又は算出してもよい。こうした実施形態において、上記アルゴリズムは、１対１のカウント方法を使用してもよく、あるいは、異なる要因、例えば、エンティティ又はエンティティタイプがどのソースから言及されたか、ユーザが如何にしてエンティティ又はエンティティタイプにおける関心を示したか等を考慮に入れてもよい。一実施形態において、ターゲットユーザの個人向け知識ソースが拡張される場合、個人向け知識ソースからの重み付けが使用されて、他ユーザのクエリから来る或るＮ‐グラムのカウントをスケール変更し（scale）てもよく、したがって、ターゲットユーザの関心又は意図が、依然として表現される。

個人向け知識ソース生成器１２０は、ユーザ履歴収集コンポーネント１２２、ユーザ履歴解析コンポーネント１２４、知識ソース拡張コンポーネント１２６、マッピングコンポーネント１２８、及び意図シーケンス決定コンポーネント１３０を含む。いくつかの実施形態において、個人向け知識ソース生成器１２０は、より少ないコンポーネント、例えば、解析コンポーネント１２４、マッピングコンポーネント１２８、及び意図シーケンス決定コンポーネント１３０を含んでもよい。図１の実施形態において示されるとおり、個人向け知識ソース生成器１２０は、個人向け知識ソース、個別のユーザからか又は該個別のユーザと類似であるように決定される他のユーザからのパーソナルソースデータを利用する拡張された個人向け知識ソースを生成し、マッピングされたユーザインタラクション情報の意図シーケンスを決定するように構成され、上記意図シーケンスは、意図シーケンスモデルに使用されることができる。一実施形態において、パーソナル知識ソース生成器１２０は、１つ以上のユーザ装置上、例えばユーザ装置１０２及び１０４などに、又はサーバ若しくはバックエンドコンポーネント（図示されていない）上に、又はクラウド内の分散プラットフォーム（図示されていない）上に実装されることができる。

高いレベルにおいて、一実施形態において、個人向け知識ソースは、汎用の（個人向けにされていない）知識ソース、又はさらに個人向けにされることができる個人向け知識ソースに対してパーソナルソースデータをマッピングすることによって、作成される。詳細には、ユーザ履歴収集コンポーネント１２２が、個別のユーザのための個人向けユーザ履歴を抽出し、あるいはその他の方法で収集するように構成される。この個人向けユーザ履歴は、様々なパーソナルソース１０９から収集されることができる。一実施形態において、任意のソースが、該ソースが個別のユーザに結び付けられることができる限り、利用されることができ、例えば、ユーザ識別を必要とし、あるいはその他の方法で個別のユーザに関連付けられるソースなどである。上記ソースからデータを収集することは、システムがユーザのパーソナルな関心及び意図を捕捉することを可能にし、それから、上記関心及び意図が使用されて、セッションコンテキストをモデル化し、個人向け言語モデリングに使用されるまだ見ぬ（unseen）クエリ（例えば、音声クエリ）の見込みを予測し又は決定することができる。したがって、ユーザの関心又は意図を理解することは、ユーザが関心があり得るもの又はユーザが将来のクエリ内で尋ね得るものを予測するのに役立つ。

単に個別ユーザに関連付けられたユーザ履歴に対して追加で、いくつかの実施形態において、ユーザ履歴収集コンポーネント１２２は、個別ユーザと類似する他ユーザ、例えば、その関心、意図、及び／又は意図シーケンスを含む類似のユーザ履歴を有する他ユーザなどに関して、履歴を収集することについてさらに責任を負う。詳細には、個別ユーザのユーザ履歴がまばら又は未知である場合、ユーザの個人向け知識ソースを、上記個別ユーザと類似する関心、意図、又は意図シーケンスを共有する他ユーザからのデータで補強することが役立ち得る。限定でなく例として、個別ユーザが一般に映画に高レベルの関心を有し、様々な映画のキャスト情報についてウェブで頻繁に検索することが決定され得る。さらに、このユーザのユーザ履歴が、ユーザは映画を時折購入する傾向があると示す。したがって、異なるユーザ又はユーザのグループが、映画のキャストについて検索すること及び映画をさらに購入する傾向があることの、映画における類似の関心を有するように決定される場合、上記異なるユーザの又はユーザのグループの履歴からのデータが、個別ユーザに関連付けられた個人向け知識ソースにマッピングされて、発話認識に関して個人向け知識ソースの有用性を補強することができる。同様に、異なるユーザ又はユーザのグループが、類似の意図シーケンスを有するように決定される場合、上記異なるユーザの又はユーザのグループの履歴からのデータが、個別ユーザに関連付けられた個人向け知識ソースにマッピングされることができる。

ユーザ履歴解析コンポーネント１２４は、ユーザ履歴収集コンポーネント１２２により抽出され又は収集される起こり得る大量のデータをとおして解析して、ユーザインタラクションイベントを含む任意のエンティティ関連又はユーザアクション関連の情報を識別するように一般に構成される。ユーザインタラクション又はアクションは、本明細書において使用されるとき、ユーザにより取られるアクションを参照し、該アクションは、個別のエンティティ及び／又はエンティティタイプに関連付けられたユーザの意図及びユーザの意図レベルに関して、情報を提供することができる。ユーザインタラクションイベントは、特定のユーザインタラクションを参照する。例えば、上記の例を続けると、ユーザが映画に関心があり、ウェブサイト上で映画購入を行う傾向がある場合、時折の映画購入を行うというアクションが、識別され、解析され、ユーザのパーソナル知識ソースにマッピングされることができる。

ユーザアクション関連情報は、他ユーザからのデータを用いてユーザの個人向け知識グラフを拡張することに特に役立つ可能性があり、なぜならば、アクションが使用されて、個別ユーザの関心又は意図と類似する関心又は意図を他ユーザが有するかどうかを決定することができるからである。別の例示的なユーザアクションには、例えば、ユーザがソーシャルネットワーキングサイト上で、自身が何らかのアイテム（例えば、著名人、有名人、本、映画、別のユーザによる投稿）を「好きである」との指標を提供することが含まれる。いくつかの実施形態において、ユーザが「好きである」何らかに関連付けられたエンティティが、ユーザ履歴解析コンポーネント１２４によって識別されることができる。

個別ユーザに関連付けられた個人向けユーザ履歴を解析することに対して追加で、いくつかの実施形態において、ユーザ履歴解析コンポーネント１２４は、本明細書に説明されるとおり、個別ユーザと類似する関心及び／又は意図を有する他ユーザに関連付けられたデータを解析することについてさらに責任を負う。こうした実施形態において、他ユーザに関連付けられた、解析されたデータは、それから、個別ユーザの個人向け知識グラフにマッピングされることができる。

知識ソース拡張コンポーネント１２６は、個別ユーザの個人向け知識ソースが拡張されるべきかどうかと、いくつかの実施形態において、如何にして及びどの程度まで上記個人向け知識ソースが拡張され得るかとを、決定するように構成される。一実施形態において、例えば、ユーザの個人向け知識ソースがユーザの履歴からの情報のマッピングを大量に入れられていないところ、知識ソース内のエンティティのカウント又は重みが特に高くなく、あるいは閾値を満たしていない場合に、ユーザの個人向け知識ソースが拡張されるべきであると決定されることができる。知識ソース拡張コンポーネント１２６は、如何にしてパーソナル知識ソースが拡張されるべきかを決定することについてさらに責任を負い得る。上記決定の一態様が、個別ユーザと類似である他ユーザ又はユーザのグループを識別することを含むことができる。一実施形態において、類似ユーザは、集団特性、例えば、特定ドメイン内における関心、実行されるクエリのタイプ（例えば、映画のキャストメンバについて検索すること）、ユーザアクション（例えば、映画を購入すること）、意図シーケンス（又はパターンであって、意図タイプシーケンスを含む）等を共有し得る。

一実施形態において、パーソナル知識ソースを拡張することは、ターゲットユーザの個人向け知識ソース内のエンティティ及びエンティティ対エンティティリレーションシップを重み付けすることを伴う。重み付けは、特定のエンティティ及びリレーションシップがユーザ履歴データからマッピングされた回数に基づいてもよい。類似の重み付けが、他ユーザの個人向け知識ソースに関して適用されてもよい。ターゲットユーザの個人向け知識ソースのうち特定部分内のエンティティ及びエンティティ対エンティティリレーションシップが、他ユーザの個人向け知識ソースの同じ部分内の同じエンティティ及びエンティティ対エンティティリレーションシップと類似の重みのものである（例えば、重み付けされた値の最小閾値を満たす）場合、個別ユーザと他ユーザとが知識グラフの上記部分の対象事項において類似の関心を有することが、決定されることができる。

別の実施形態において、エンティティが何回マッピングされたかのカウントに対して代わって又は追加で、知識ソース内のエンティティの人気が利用される。例えば、特定のエンティティが、他ユーザのグループに対して特に高い人気を有する（例えば、該エンティティがソーシャルネットワーキングサイト上で頻繁に問い合わせられ、言及され、これに関して投稿される）場合、個別ユーザもまた上記の人気のあるエンティティに関心を有すると予測されることができる。このことに応じて、個別ユーザの個人向け知識ソースは、上記エンティティに関して拡張されることができ、個別ユーザが上記エンティティについての個人向け知識ソースの部分に関心がある（又は、その見込みを有する）との指標を含むことができる。

さらに別の実施形態において、ユーザの個人向け知識ソースが使用されて、個人向け知識ソースの第１の部分、例えば、個別のエンティティ又はエンティティ対エンティティリレーションシップなどにおけるユーザの関心のレベルを決定することができる。例えば、関心のレベルを決定することは、ユーザ（又は他ユーザ）が知識ソースの何らかの部分に関心があるとの見込みを示す或る閾値を、ユーザが満たしているかどうかを決定することを含み得る。別法として、又は追加で、知識ソースの部分におけるユーザの関心を定量化するのに満たされ得る複数の関心レベルがあってもよい。

個人向け知識ソース生成器１２０のマッピングコンポーネント１２８は、データを知識ソースにマッピングするように構成される。本明細書において説明されるとき、ユーザ履歴解析コンポーネント１２４は一般に、ユーザ履歴データ、例えば、エンティティ及びユーザアクションなどを、パーソナルソースから識別し、抽出する。このデータは、それから、知識ソースにマッピングされ、これにより、知識ソースをユーザに対して合わせ、あるいは個人向けにする。上記データのマッピングは、複数の方法において発生し得る。例えば、上記で説明されたとおり、個別のエンティティ又はエンティティタイプがユーザのパーソナル履歴情報内で毎回識別されるたび、知識ソース内における上記エンティティ又はエンティティタイプのカウントが増やされることができ、したがって、任意の個別の時間に、エンティティ又はエンティティタイプが、これに関連付けられたカウントを有する。ゆえに、エンティティが１０回マッピングされている場合、個人向け知識ソース内のこのエンティティに関連付けられたカウントは、１０であり得る。あるいは別法として、一実施形態において、アルゴリズムが使用されて、１対１カウントというよりも、各エンティティの重みを算出してもよい。上記アルゴリズムは、他の要因、例えば、エンティティ（又はエンティティタイプ）がどこで及び／又は如何にして言及され、あるいはその他の方法でユーザ又はコンテキストにリンクされるかなどを考慮してもよい。このことに応じて、本明細書において使用されるとき、用語「マッピング」、「にマッピングされる」、又は「整合させる」は、知識ソース内のエンティティ、関係、エンティティエンティティペア、又はエンティティタイプとの関連付け、又は、ユーザ履歴情報に基づいて知識ソースの特定部分におけるユーザの関心を表す他のインジケータについて、カウントを増加させること、重み付けすること、又は作成することを意味するよう、広く用いられる。

意図シーケンス決定コンポーネント１３０は、ユーザ意図（ドメインを含む）のシーケンス又はパターンを決定するように構成される。本明細書において使用されるとき、用語意図シーケンスは、１つ以上のドメインによって表現され得る１つ以上のユーザ意図又は意図タイプの連続又はパターンを含む。

いくつかの実施形態において、ユーザがその一般的意図に沿って会話システムとのインタラクションをしばしば有してタスク（例えば、金曜の夜の活動をアレンジすること）を達成することが、仮定されることができる。ゆえに、ユーザは、特定のセッション内の意図又は意図タイプの類似シーケンスに従う見込みがある。種々のユーザについて、意図の項は異なる可能性があり、しかしながら、上記ユーザは、意図タイプの類似シーケンスを共有し得る（例えば、最初、ディナーの予約を行い、それから、映画の時間又はライブミュージックのあるバーを確認し、友達に電子メールを送ってプラン詳細を共有する等）。このことに応じて、ユーザのより高いレベルの意図シーケンスを、例えば、そのセッションログから受信され得るユーザインタラクション情報のシーケンス又はパターンをマッピングすることなどにより、捕捉することによって、類似の意図を予期するが異なる項（例えば、セッションログ又は他の使用履歴情報内に出現しなかった特定のエンティティ又は特定の関係などの項）を有するモデル、例えば意図シーケンスモデルなどが、作成されることができる。

一実施形態において、意図シーケンスは、知識ソースにマッピングされたデータ内に存在するユーザセッション情報内のユーザインタラクションのシーケンス又はパターンに基づいて決定される。前に説明されたとおり、知識ソースにマッピングされるデータは、ユーザとアプリケーション装置との間の１つ以上のセッションからのユーザインタラクション情報、例えばユーザインタラクションイベントなどを含み得る。マッピングコンポーネント１２８により実行されるマッピングから、各々のマッピングされたユーザインタラクションイベントに関連付けられた起こり得るユーザ意図が、決定されることができる。一実施形態において、起こり得るユーザ意図は、セマンティックリレーションシップ（例えば、１つ以上のエンティティ、エンティティタイプ、又はリレーションシップなど）、及び／又は、マッピングされたユーザインタラクション情報に対応する知識ソース内の他の情報、例えば、知識ソースのそのサブ空間（sub-space）のドメインなどに基づいて、決定される。ゆえに、ユーザ意図のシーケンス又はパターンは、マッピングされたユーザインタラクションのシーケンス又はパターンに基づいて決定されることができる。一実施形態において、意図のシーケンス又はパターンがコンポーネント１３０により使用されて意図シーケンスモデルが生成され、意図シーケンスモデルは、シーケンス又はパターン内の意図又はドメイン推移の統計を含む。例えば、上記統計は、意図推移確率のセットを含んでもよく、意図推移確率は、一実施形態において、１つ以上の前の意図を所与として、次のユーザ意図（又は、後のユーザ意図）の確率を表す。さらに、図３に関連してさらに説明されるとおり、意図シーケンスモデルの推移確率が使用されて、個人向け言語モデル又はＳＬＵモデルを構築し、あるいは適合させることができ、このことには、上記言語及びＳＬＵモデルのリアルタイム生成及び補間が含まれ、これにより、セッションコンテキストモデルが形成される。

次に図２を参照すると、本発明の実施形態に従う、個人向け知識ソースの態様が表される。例として、図２の個人向け知識ソースは個人向け知識グラフを含み、一般に知識グラフ２００といわれる。知識グラフ２００は、個別のユーザに対して個人向けにされ得る知識ソースの一例を表す。詳細には、以下に説明されるとおり、図２は、ユーザ履歴情報（この場合、過去のユーザ発声）を知識グラフ２００に整合させることと、ユーザ履歴からのパーソナル使用統計に従ってグラフ上の関係を重み付けすることとの一例を示す。

知識グラフは複数の部分に分割され、各部分がサブグラフといわれ得る。図２において、例示的な知識グラフ２００の２つのサブグラフが示され、すなわち、映画ドメイン２０２に対応する部分、及び、本ドメイン２０４に対応する部分である。明りょうさのために、映画ドメイン２０２及び本ドメイン２０４は各々、ドメイン内のエンティティ及びエンティティ対エンティティリレーションシップのサブセットのみ示す。具体的に、映画ドメイン２０２は、映画エンティティ“Life is Beautiful”を中心として示され、本ドメイン２０４は、本エンティティ“Leviathan”を中心として示される。３つのドット（アイテム２１４及び２１６）が示すとおり、知識グラフの他のサブパート（例えば、他の映画、他の本）は、存在するが図示されていない。

図２においてさらに示されるのが、ユーザ履歴情報のボックス２０６である。この例において、ユーザ履歴情報は、過去のユーザインタラクション、例えば、Roberto Benigniによる映画について尋ねるユーザによってサブミットされた前のクエリなどを含む。ここで、エンティティ“Roberto Benigni”及びエンティティ関係“director”がユーザ発声から識別され、知識グラフ２００にマッピングされる（矢印２０９）。第２の例は、ユーザが映画“Life is Beautiful”のコピーを購入したことを示すユーザアクションを示す。矢印２１１が、上記ユーザアクションが如何にして知識グラフ２００内の“Life is Beautiful”エンティティに整合させられるかを示す。類似して、ボックス２０６は、他のユーザクエリの例を示し、該クエリは、ユーザに関連付けられた１つ以上のクエリログから来てもよい。上記クエリは、例えば、オスカー獲得映画について尋ねることを含む。ここで、“Oscar”がエンティティとして識別され、知識グラフ内の“Oscar, Best Actor”エンティティ２１０に、及び／又は、ここで示されるとおり“Oscar, Best Actor”エンティティ２１０に接続された“award”のエンティティエンティティリレーションシップにマッピングされることができる。なぜならば、ユーザの意図が、オスカーを受賞した映画を識別することだからである。次の例は、ユーザ装置上で行われたユーザからの過去のクエリを含むデスクトップ（又はユーザ装置）クエリログからのクエリを表す。ここで、ユーザは、フィクションである自身のユーザ装置上にローカルに保存された本について検索していた。ゆえに、“fiction”がエンティティとして認識され、フィクションエンティティに、及び／又はフィクションに接続されたエンティティリレーションシップ“genre”にマッピングされることができる。なぜならば、ユーザの意図が、フィクションである本を見つけることだったからである。

最後、ユーザが“Paul Auster books”についてのクエリをサブミットする一例示的なユーザインタラクションイベントが提供される。図示されるとおり、エンティティ“Paul Auster”は、エンティティとして、又は“Paul Auster”の著者（エンティティ）を有する本（エンティティ）“Leviathan”の間のリレーションシップとして、ユーザの個人向け知識グラフにマッピングされることができる。こうして、ボックス２０６内に提供される例示的なユーザ履歴情報を知識グラフ２００にマッピングすることによって、知識グラフ２００はユーザに対して個人向けにされたものになる。

図２にさらに示されるとおり、いくつかのエンティティ、例えば、“Prix Medicis Etranger”２０８、“Roberto Benigni”２１２、及び“Oscar, Best Actor”２１０などは、マッピングがエンティティに対して発生するたびに該エンティティの下に置かれる楕円形上によって示されるとおり（例えば、カウントを表す）、上記個別のユーザに対してより高い関心のあるものと決定されることができる。別法として、或るエンティティ、エンティティエンティティペア、又は関係に関連付けられた、カウント又は重みが、ユーザが上記エンティティ、エンティティペア、又は関係に関心があるという別の指標（例えば、関連付けられた値など）を提供してもよい。

図３を参照すると、個人向け知識グラフ３００に基づくセッションコンテキストモデルの一態様を示す例が提供される。図３は、個人向け知識グラフ３００の３つのサブグラフを表し、各サブグラフが、様々なエンティティ及びエンティティ関係（例えば、矢印３１４に従って関連するエンティティ３１３及び３１７のペア）、例えば、図２に関連して説明されるものなどを含む。図３は、エンティティ３０３と３０７との間のセマンティックリレーションシップ３０４を示す知識グラフの第１の部分３０５と、エンティティ３１３と３１７、３２３と３２７、及び３３３と３３７それぞれの間におけるセマンティックリレーションシップ３１４、３２４、及び３３４を示す知識グラフの第２の部分３１５、３２５、及び３３５のセットとをさらに表す。

各部分３０５、３１５、３２５、及び３３５が、マッピングされたユーザ履歴情報からのユーザインタラクションイベントのマッピングに対応し、知識グラフ上のセマンティックリレーションシップを表す。各マッピングから、マッピングされたユーザインタラクションイベントに関連付けられた起こり得るユーザ意図が、セマンティックリレーションシップ、例えば、１つ以上のエンティティ、エンティティタイプ、又はリレーションシップなどに基づいて、及び／又は、マッピングされたイベントの場所に対応する知識ソース内に存在し得る他の情報に基づいて決定されることができる。ゆえに、各部分３０５、３１５、３２５、及び３３５は、マッピングされたユーザインタラクション情報の起こり得るユーザ意図にさらに対応する。

図１に関連して説明されたとおり、本発明のいくつかの実施形態において、意図のシーケンスが、個人向け知識ソースにマッピングされたデータの中に存在するユーザセッション情報内のユーザインタラクション情報のシーケンス又はパターンに基づいて（例えば、意図シーケンス決定コンポーネント１３０などによって）決定されることができる。このことに応じて、知識グラフ３００の第１の部分３０５は、（知識ソースにマッピングされた）第１のユーザインタラクションイベントに基づく第１の意図に対応し、部分３１５、３２５、及び３３５は各々、セッション内で第１のユーザインタラクションイベントの後に発生する第２のユーザインタラクションイベントに基づく第２の意図に対応する（これにより、第２の意図のセットが形成される）。矢印３１０、３２０、及び３３０は、第１の意図（部分３０５に対応する）から第２の意図のセット（部分３１５、３２５、及び３３５それぞれ）への推移を示し、個別の第２の意図（例えば、部分３３５に対応する第２の意図）が第１の意図（部分３０５に対応する）に続く確率又は見込みとして表現されることができる。ゆえに、推移３１０、３２０、及び３３０のセットは、第１の意図と第２の意図との間の意図推移確率のセットを表し、意図シーケンスモデルに使用されることができる。

例えば、ユーザ履歴情報が、ユーザとモバイル装置上で動作するパーソナルアシスタントアプリケーションとの間の、ユーザによりサブミットされたクエリのうち１つ以上のセッションを有するクエリログを含み、各セッションが、クエリのシーケンスを含むと仮定する。セッションのうち１０個が、映画の監督について尋ねるユーザサブミットクエリ（例えば、「Life is Beautifulの監督は誰か？」）を含むと仮定する。上記１０セッションのうち３つにおいて、次のユーザサブミットクエリが映画監督の国籍について尋ね、上記１０セッションのうち５つにおいて、次のユーザサブミットクエリが映画のキャストについて尋ね、上記１０セッションのうち２つにおいて、次のユーザサブミットクエリが映画が受け取った賞を尋ねると仮定する。例示的な個人向け知識ソース３００を用いて、意図推移確率のセットが、上記のクエリのシーケンスに基づいて決定されることができる。詳細には、部分３０５は、第１のユーザインタラクションイベント（映画の監督に関連したユーザサブミットクエリ、すなわち、「Life is Beautifulの監督は誰か？」）に基づく第１の意図に対応する。部分３１５、３２５、及び３３５は各々、セッション内で第１のユーザインタラクションイベントの後に発生する第２のユーザインタラクションに基づく第２の意図に対応する。ここで、部分３１５、３２５、及び３３５を、監督の国籍、キャスト、及び賞についての後にサブミットされたクエリにそれぞれ対応させる。したがって、矢印３１０、３２０、及び３３０に関連付けられた推移確率は、０．３（すなわち、１０セッションのうちの３つにおいて、次クエリが監督の国籍についてだった）、０．５（すなわち、１０セッションのうち５回、次クエリがキャストについてだった）、及び０．２（すなわち、１０セッションのうち２つにおいて、次クエリが賞についてだった）として決定されることができる。上記推移確率（０．５、０．３、及び０．２）は、意図シーケンスモデルに使用されることができる。（この例において、明りょうさのため、モデルはシーケンス内に２つの意図のみ含むことになり、すなわち、監督‐映画についてのクエリに対応する第１の意図、及び、監督‐国籍、映画‐キャスト、又は映画‐賞のいずれかについての第２のクエリに対応する第２の意図である。）上記意図シーケンスモデルについて、第１の意図が映画‐監督に関連する場合、次の意図が監督の国籍であろう０．３の確率があり、次の意図がキャストに関連するであろう０．５の確率があり、次の意図が賞に関連するであろう０．２の確率がある。いくつかの実施形態において、意図シーケンスモデルは、（図３に示されるとおり）エンティティ対エンティティペアから他のエンティティ対エンティティペアへの、関係から他の関係への、又は意図／ドメインから他の意図／ドメインへの推移を表す。

意図シーケンスモデルに基づいて、言語モデル又はＳＬＵモデルが必要とされるとおり補間され、これにより、セッションコンテキストモデルが形成されることができる。例えば、所与の知識ソースについて、エンティティ及びエンティティリレーションシップに対応する重みが同じ（すなわち、等しい分布）であると仮定する。（こうした分布はありそうもないが、説明の目的で提供される。）ゆえに、この知識ソースに基づく言語モデルは、前の発声に基づくすべてのとり得る次の発声について、等しい確率を有することになる。ここで、上記で説明されたとおり、知識ソースがユーザインタラクション情報で個人向けにされて、意図シーケンスモデルを決定すると仮定する。ここで、重みは、この意図シーケンスモデルに関連付けられた推移確率に基づいて調整されることができる。ゆえに、とり得る次の発声の確率は、前の１つ又は複数の発声に基づいて改変され、これにより、セッションコンテキストモデルが形成される。重みは、当分野において知られる任意の手段によって調整されてもよい。例えば、いくつかの実施形態において、重みは、平均をとること、例えば、初期値と対応する意図推移確率の値とを平均することなどによって、調整されることができる。いくつかの実施形態において、重みは、減らされ又は増やされた対応する意図推移確率に基づいて、それぞれ、値をデクリメントすること又はインクリメントすることによって調整されることができる。

いくつかの実施形態において、セッションコンテキストモデルは、言語モデル又はＳＬＵモデルが意図シーケンスモデルに基づいて補間されるとき、リアルタイムで又は必要に応じて生成される。いくつかの実施形態において、セッションコンテキストモデルは、（例えば、ノード又は関係における重み付けを調整することなどによって）修正された個人向け知識ソースから決定されて、エンティティ対エンティティペアから他のエンティティエンティティペアへの、関係から他の関係への、又は意図／ドメインから他の意図／ドメインへの推移（すなわち、推移確率）を表す。セッションコンテキストモデルは、知識ソースに関連付けられた意図推移確率のセットとしてさらに具現化されてもよく、したがって、第１のターンから識別される所与のエンティティ又はセマンティックリレーションシップについて、起こり得る第２のターン（又は、起こり得る第２のターンのセット）が、セッションコンテキストモデルを用いて、意図推移確率と知識ソース内の上記個別のエンティティ又はセマンティックリレーションシップに関連付けられた重み付けとに基づいて、決定されることができる。いくつかの実施形態において、セッションコンテキストモデルは、例えば、知識グラフに関連付けられたテーブルとして、知識ソースを表す関係データベースの一部、又はセマンティックリレーションシップに関連付けられた確率のセットとして具現化されてもよい。

図４〜図９は、本発明の例示的な方法実施形態を示すフロー図のセットを提供する。詳細には、図４〜図６は、個別のユーザ又はユーザのセットのための知識ソースを、ユーザインタラクション情報を含み得る使用履歴に基づいて、個人向けにする方法に向けられる。図７〜図９は、セッションコンテキストモデリングのために、セッションコンテキスト情報、例えばユーザインタラクションのシーケンス又はパターンからのデータなどを、知識ソースに組み入れる（又は、セッションコンテキスト情報を用いて個人向けにされた知識ソースを使用する）方法に向けられる。図４〜図６に関連して論じられる知識ソースを個人向けにする実施形態に説明される処理のうち任意のものが、図７〜図９に関連して論じられるセッションコンテキスト情報を組み入れる方法に適用されてもよいと考えられる。

次に図４を参照すると、ユーザ履歴情報に基づいて個別のターゲットユーザの知識ソースを個人向けにする一例示的な方法４００を示すフロー図が提供される。方法４００に従って作成される個人向け知識ソースが使用されて、例えば、ユーザによりサブミットされる将来のまだ見ぬクエリ（例えば、音声クエリ）を予測することなどによって、ターゲットユーザの発話認識に対して言語モデルを個人向けにすることができる。個人向け知識ソースがさらに使用されて、ユーザ履歴からのユーザインタラクション情報のシーケンス又はパターンに対応するエンティティ及びエンティティペアのシーケンス（又はパターン）を決定することによって、意図シーケンスモデルを作成することができる。それから、意図シーケンスモデル内の意図推移に関連付けられた統計が使用されて個人向け言語モデルの重み付けを調整し、これにより、セッションコンテキストモデルを作成することができる。

このことに応じて、高いレベルにおいて、方法４００の実施形態は、ターゲットユーザのための情報の様々なパーソナルソースと、利用可能な知識ソースとを用いて、個人向けにされた知識ソースを最初作成する。上記利用可能な知識ソースは、個人向けにされていない知識ソース、又は、ターゲットユーザに対して個人向けにされることが可能な知識ソースを含み得る。過去の発声、ユーザインタラクション、及びユーザ履歴情報の他のパーソナルソースから抽出された情報が、知識ソースと整合させられる。例えば、知識グラフの部分に対するユーザの過去の発声の、エンティティに基づく類似度が識別され、該部分上にマッピングされることができる。ユーザ履歴内に出現するエンティティ及びエンティティタイプが追跡され、そのカウントが、個人向け言語モデルを構築するときに使用されることができる。一実施形態が、ターゲットにされた口語理解モデルをアプリケーションドメインに使用して、過去のユーザ発声（又は、他のユーザデータ）を所与とした個別ドメインの確率、及び／又は、過去のユーザ発声を所与としたユーザ意図及び個別関係の確率を推定することをさらに含み、
P(domain｜past user utterance)，P(intent & relation｜past user utterance)
上記確率が使用されて、例えば図２に示されるものなど、個人向け言語モデルを構築するときに知識ソースの特定部分のカウントを押し上げることができる。

図４を続けると、ステップ４１０において、ターゲットユーザの使用履歴情報が１つ以上のパーソナルソースから受信される。使用履歴は、図１に関連して説明されたパーソナルソース１０９などの１つ以上のパーソナルソースから収集されるターゲットユーザに相関したデータを含み、例えば、ユーザ装置を介してターゲットユーザにより実行された、クエリログからの過去のユーザクエリ、ウェブサイトインタラクション、ユーザアクション等である。ユーザ意図が、使用履歴によって表現される過去の振る舞いから推論されることができる。

一実施形態において、使用履歴が収集され、図１の記憶装置１０６などのデータストアに記憶される。例えば、ターゲットユーザがユーザ装置、装置上で実行されるアプリケーション、又は特定のウェブサイト若しくはオンラインサービス、例えば検索エンジンなどにログオンする場合、使用履歴に関する情報が集められ、ユーザに関連付けられることができる。一実施形態において、使用履歴情報に対するアドレス又はポインタが記憶されることができ、したがって、使用履歴が受信されることができ、特定の情報が次ステップにおいて使用履歴から解析されることができる。

ステップ４２０において、使用履歴情報が解析されて、１つ以上のエンティティ及び／又はユーザアクションが決定される。上記エンティティ及び／又はユーザアクションは、ユーザインタラクション、例えば、ユーザによりサブミットされたクエリ、発声、又はユーザアクションなどの、シーケンス又はパターンの一部であり得る。一実施形態において、ステップ４２０は、ターゲットユーザに関連付けられた使用履歴情報から、エンティティエンティティペア及びエンティティ関係を含むエンティティ、及び／又はユーザアクションを抽出することを含む。一実施形態において、解析された使用履歴情報は、ユーザインタラクションイベントの１つ以上のシーケンスを識別する。

ステップ４３０において、解析されたデータ、例えば、ユーザインタラクションイベントからの情報に関連したエンティティ又はユーザアクションなどが、知識ソース上にマッピングされ、これにより、個人向け知識ソースが作成され、ターゲットユーザに対して最も関心のある知識ソースのうちの部分が示される。ゆえに、使用履歴によって表現されるとおりのユーザのパーソナルな関心及び意図が個人向け知識ソース上に捕捉され、それから、個人向け言語モデリング、例えば、将来のまだ見ぬクエリ（例えば、音声クエリ）を予測することなどに使用されることができる。例えば、ターゲットユーザのユーザ発声又は過去のインタラクションが、例えば図２に関連して説明されたものなどの、知識グラフ上に整合させられることができる。

一実施形態において、ステップ４３０は、知識ソースによって表現され得る既存の言語モデルを、ターゲットユーザの使用履歴、例えば過去の発声などに適合させることを含む。ユーザがその一般的関心に従って会話システムへの要求を大抵有し、ユーザは類似のドメインからの、類似の意図を有する要求を繰り返し、ただし意図の項が異なる場合を仮定する。このことに応じて、いくつかの実施形態において意図のシーケンスを含む、ユーザのより高いレベルの関心及び意図を捕捉することによって、類似の意図を予期するが異なる項（すなわち、使用履歴内に出現しない項）を有する言語モデルが作成されることができる。意図シーケンス情報を組み入れることによって、言語モデルがセッションコンテキストに適合され、ゆえに、より正確にされる。上記で説明されたとおり、一実施形態において、このことは、知識ソースの部分を用いて使用履歴のエンティティに基づく類似度を識別することと、これらを知識ソースの対応する部分へマッピングすることとによって達成される。ゆえに、ユーザ履歴内に出現するエンティティ及びエンティティタイプが追跡され、そのカウントが、個人向け言語モデルを構築するときに使用される。いくつかの実施形態において、本ステップ内で決定される個人向けデータソースは確率的知識ソースを表し、なぜならば、ユーザ履歴からの使用統計が利用されて、知識ソースの関係及びエンティティを重み付けする（又はこれらに対するカウントを加算する）からである。

ステップ４４０において、個人向け知識ソースが利用されて、ターゲットユーザに対して言語モデルを個人向けにする（又は、訓練する）ことができる。高いレベルにおいて、ステップ４４０の一実施形態は、例えば、使用履歴内で識別されたエンティティ又はエンティティエンティティペアに対応するクエリから言語モデル（例えば、Ｎ‐グラム）を訓練することなどによって、個人向け確率的知識ソースを個人向け言語モデルに統合することを含む。言語モデルは、ターゲットユーザのクエリについて該モデルを最初訓練することと、それからそれをすべてのユーザから来る同じエンティティ又はエンティティエンティティペアのクエリで補間することとによって、ターゲットユーザについてさらに訓練されることができる。別法として、すべてのユーザのための言語モデル、例えば、ユニバーサル言語モデル（ＵＬＭ）などが、ターゲットユーザの知識ソース空間について訓練されてもよい。双方の場合において、ターゲットユーザの知識ソースからの重みが使用されて、他のユーザクエリから来る或るＮ‐グラムのカウントをスケール変更することができ、したがって、ターゲットユーザの関心又は意図が依然として表現される。

いくつかの実施形態において、個人向け知識ソースが利用されて、マッピングされたエンティティ又はユーザアクション情報のシーケンス又はパターンを決定し、このことからユーザ意図が推論され得ることによって、意図推移確率のセットが決定される。推移確率が使用されて、知識ソースの関係及びエンティティの重み（又はカウント）を調整することができ、これにより、セッションコンテキストモデルが作成される。こうして、知識ソースに基づく個人向け言語モデルが、セッションコンテキストをモデル化するように適合される。

方法４００の一実施形態において、他のユーザに関連付けられた個人向け知識グラフが分析される。こうした個人向け知識グラフから、上記他のユーザのうち１以上が、例えば、ターゲットユーザのものに対して共通にマッピングされたエンティティ及びエンティティ対エンティティリレーションシップを有することなどによって、ターゲットユーザと類似の関心及び／又は意図を有するものとして識別されることができる。こうして、他の類似のユーザに関連付けられたエンティティ及び／又はユーザアクションが、ターゲットユーザの個人向け知識グラフ上にマッピングされることができる。このことは、ターゲットユーザの個人向け知識グラフを増大させ、したがって、ユーザの個人向け言語モデルがより良く適切にされて、発話認識を向上させる。一実施形態において、２ユーザ又はユーザのグループ間における関心及び／又は意図の類似度が、各ユーザ又はグループに関連付けられた２つの確率的知識グラフ空間を比較することによって決定されることができ、この場合、各空間は確率グラフを用いて表現される。上記類似度メトリックを用いて、補間重みが評価されて、ターゲットユーザの個人向け知識ソースを類似のユーザの又はユーザグループのソースで補間するのにいずれの重みが使用されるかを決定することができる。

方法４００のいくつかの実施形態は、類似ネットワークにおけるソーシャルネットワークインタラクション又は他のユーザ入力を、上記インタラクションを収集し、解析し、及び上記で説明されたとおりの知識ソースにマッピングすることによって、言語モデル個人化のために利用することを含む。いくつかの実施形態において、知識ソースは、ターゲットユーザに対してすでに個人向けにされており、ソーシャルネットワークインタラクションをマッピングすることによってさらに個人向けにされ、あるいは拡張されることができる。こうした実施形態において、又は、ターゲットユーザの個人向け知識ソースが他ユーザとの類似度に基づいて拡張される実施形態において、他の類似ユーザ又はソーシャルネットワーキングフレンドのための言語モデルが使用されて、ターゲットユーザの個人向け言語モデルを補間することができる。それから、ソーシャルネットワーキングフレンドがターゲットユーザによる将来のクエリに対して何らかの影響をもたらすことになると仮定して、新しい個人向け言語モデルが使用されて、ターゲットユーザの将来のクエリを予測することができる。

次に図５を参照すると、ユーザ履歴情報と類似ユーザからの情報とに基づいて個別のターゲットユーザに対して知識ソースを個人向けにする一例示的な方法５００を示すフロー図が提供される。個人向け知識ソースが利用されて、例えば、ターゲットユーザによりサブミットされる将来のまだ見ぬクエリを予測することなどによって、ターゲットユーザの発話認識に対して言語モデルを個人向けにすることができる。個人向け知識ソースは、さらに、本明細書に説明されるとおり、セッションコンテキストモデルを作成することに使用されることができる。

高いレベルにおいて、方法５００の実施形態は、類似のユーザ及び／又はソーシャルネットワーキングフレンドに対して個人向けにされた知識ソースからの情報を組み入れることによって、ターゲットユーザに対して個人向けにされた知識ソースを「拡張する」ことに使用されることができる。個人向け知識グラフが拡張され得る一方法が、既知のパーソナル関係を使用することによる。一例示的な関係が、“works at <company>”又は“is father of <contact>”などの三つ組（triplets）を含み得る。それから、前の使用履歴によって活性化されるとおりのウェブスケールの知識グラフのサブグラフが、この拡張されたパーソナル知識グラフに対して増大されることができる。こうした実施形態において、ノード及びエッジ（例えば、知識グラフのエンティティ及びエンティティ対エンティティリレーションシップ）が使用履歴に関して重み付けされ、したがって、言語モデル訓練がすぐに恩恵を受けることができる。それから、上記重みは、グラフの上記部分を活性化するのに使用されるＮ‐グラムの重みを決定することができる。さらに、ユーザが拡張された個人向け知識ソースをいったん有すると、他のユーザの個人向け知識ソースが使用されて、ターゲットユーザの知識ソースを強化することができる。例えば、ターゲットユーザの言語モデルが、コンタクト頻度に基づく事前重みと共に他ユーザの言語モデルを用いて適合されることができる。

類似して、個人向け知識ソースは、ターゲットユーザに類似する他ユーザの知識ソースを利用することによって拡張されることができる。例えば、各ユーザが個人向け言語モデルを有し、該言語モデルは、例えば図４に関連して説明されたものなど、その使用履歴及びメタデータに基づいて決定される確率的個人向け知識ソースによって提供されることができ、それから、言語モデルが異なるユーザ集団特性について作成されることができると仮定する。一実施形態において、類似のユーザが、ユーザの個人向け知識ソースに対応する言語モデルをクラスタ化することによって識別されることができる。当業者によって知られるクラスタリングのための複数の様々な手法のうち任意のものが、適用されてもよい。一実施形態において、ボトムアップクラスタリングが適用され、これにおいて、何らかのメトリックに関して互いに対して最も類似である言語モデルのペアが、反復的にマージされる（一実施形態において、等しい重みで組み合わせられる）。２つの確率分布間における距離を計算するのに典型的に使用される対称カルバックライブラー（Kullback Leibler）距離、又は類似のメトリックが、使用されてもよい。別の実施形態において、Ｋ平均（K-Means）クラスタリングが適用され、これにおいて、候補言語モデルが、Ｎ個のクラスタについてＮビンへと最初分けられる。言語モデルが、その内部で上記言語モデルの線形補間を用いて計算される。それから、各言語モデルが、何らかの距離又は類似度メトリックを再度用いて、最も類似であるビンに移動される。

補足的なアプローチとして、いくつかの実施形態において、辞書的情報に対して追加で、グラフ類似度に基づくクラスタリング法が使用されて、個人向け知識グラフをクラスタ化して、類似の関心又は意図を有するユーザのグループを識別することができる。ユーザのアクションパターンに依存し得るこうした実施形態は、セマンティックにクラスタ化されたユーザを結果としてもたらす。一実施形態において、データベースエントリをクラスタ化する方法、例えば潜在的意味索引（latent semantic indexing）（ＬＳＩ）などが、使用されてもよい。いくつかのケースにおいて、知識ソースが知識グラフである場合、このグラフは、セマンティックなトリプル（関係／エンティティペア、例えば、“Cameron-director-Avatar”など）の関係テーブルへと平板化される（flattened）ことができる。こうした実施形態において、グラフエントリをクラスタ化することに代わって、ユーザは、簡素なテーブル変換によって、トリプルの使用に基づいてクラスタ化される。クラスタがいったん決定されると、該クラスタが使用されてより円滑な言語モデルを提供することができ、なぜならば、上記モデルはより多数の類似データで訓練されることができるからである。

図５を続けると、ステップ５１０において、少なくとも１つのエンティティ又は少なくとも１つのユーザアクションを含むデータの第１のセットが、ターゲットユーザの使用履歴から識別される。上記少なくとも１つのエンティティは、知識ソースに対応する１つ以上のエンティティ、エンティティエンティティペア、又はエンティティ関係を含み得る。いくつかの実施形態において、ターゲットユーザのための情報の１つ以上のパーソナルソースからの使用履歴が分析されて、データの第１のセットが識別され、いくつかの実施形態において、データの第１のセットは、図４のステップ４２０に説明されるとおり、使用履歴から解析される。

ステップ５２０において、データの第１のセットは、ターゲットユーザの個人向け知識ソースに対してマッピングされる。一実施形態において、知識ソースは、データの第１のセットをマッピングすると個人向けになる汎用的（個人向けにされていない）知識ソースを含む。別法として、別の実施形態において、データの第１のセットは、例えば図４の方法４００に従って作成される個人向け知識ソースなど、ターゲットユーザに対してすでに個人向けにされている知識ソース上にマッピングされる。実施形態において、少なくとも１つのエンティティ又はユーザアクションを含むデータの第１のセットは、図４のステップ４３０に説明されるとおり、マッピングされることができる。

ステップ５３０において、ターゲットユーザに類似するユーザのセットが決定される。一実施形態において、１以上の類似ユーザが、例えば上記で説明されたものなどの、クラスタリングによって決定される。一実施形態において、ステップ５３０は、ターゲットユーザの個人向け知識ソース内のエンティティ及びエンティティ対エンティティリレーションシップを重み付けすることを含む。重み付けは、特定のエンティティ及びリレーションシップがユーザ履歴データからマッピングされた回数に基づいてもよい。類似の重み付けが、他ユーザの個人向け知識ソースに関して適用されてもよい。ターゲットユーザの個人向け知識ソースのうち特定の部分内のエンティティ及びエンティティ対エンティティリレーションシップが、他ユーザの個人向け知識ソースのうち同じ部分内の同じエンティティ及びエンティティ対エンティティリレーションシップと類似の重みのものである（例えば、重み付けされた値の最小閾値を満たす）場合、ターゲットユーザと他のユーザとが知識グラフの上記部分の対象事項において類似の関心を有すると決定されることができる。

別の実施形態において、エンティティが何回マッピングされたかのカウントに代わって、知識ソース内のエンティティの人気が利用される。例えば、特定のエンティティが、ターゲットユーザのソーシャルネットワーキングフレンドのグループに対して特に高い人気を有する場合（例えば、該エンティティがソーシャルネットワーキングサイト上で頻繁に問い合わせられ、言及され、これに関して投稿される）、ターゲットユーザもまたその人気のあるエンティティに関心を有する、増加した見込みがあり得る。このことに応じて、ターゲットユーザの個人向け知識ソースは、上記エンティティに関して（ステップ５４０において説明されるとおり）拡張されることができ、個別のユーザが上記エンティティについての個人向け知識ソースの部分に関心がある（又は、その見込みを有する）との指標を含むことができる。

別の実施形態において、ターゲットユーザ及び他ユーザの関心のレベル（関心レベル）が、ターゲットユーザの個人向け知識ソースと他ユーザの個人向け知識ソースとを利用して決定される。例えば、関心レベルが、それぞれの知識ソースの第１の部分において比較されて、ユーザ間に類似の又は重なる関心があるかを決定することができる。一例において、決定された関心レベルが、最小閾値を満たすかどうかと、さらに、他ユーザのグループが、ターゲットユーザの関心レベルに対して、知識ソースの第１の部分内に同等な（comparable）関心レベルを有することとが決定されることができる。一実施形態において、ユーザの関心レベルを決定するのに使用される１つの閾値があり、異なる実施形態において、２つ以上の閾値が使用され、したがって、例えば、低い関心レベル閾値、中間の関心レベル閾値、高い関心レベル閾値等があり得る。ターゲットユーザの関心に対して類似の関心を共有するユーザのセットを含むユーザが、一実施形態において、互いに対して共通の関心を有する。本明細書に具体的に開示されないユーザ類似度を決定する他の方法が、本発明の範囲内であると考えられる。

ステップ５４０において、ターゲットユーザに類似するユーザのセットに対応するデータの第２のセットが、ターゲットユーザの個人向け知識ソースにマッピングされ、これにより、ターゲットユーザの個人向け知識ソースが拡張される。データの第２のセットは、少なくとも１つのエンティティ（エンティティエンティティペア又はエンティティ関係を含む）又はユーザアクションを含む。いくつかの実施形態において、データの第２のセットは、類似ユーザの個人向け知識ソースから識別され、抽出される。一実施形態において、データの第２のセットは、類似ユーザのセットの個人向け知識ソース内でより頻繁に発生しているエンティティ情報及び／又は関連メタデータを含み、このことは、閾値によって決定され得る。ステップ５５０において、拡張されているターゲットユーザの個人向け知識ソースが、ターゲットユーザに対して言語モデルを個人向けにする（又は、訓練する）ことに利用される。ステップ５５０の実施形態は、方法４００（図４）のステップ４４０に関連して説明された実施形態に類似である。

図６を参照すると、ターゲットユーザに対して個人向けにされた知識グラフを拡張する一例示的な方法６００を示すフロー図が提供される。拡張された個人向け知識グラフが使用されて、ターゲットユーザに対して言語モデルを個人向けにすることができる。個人向けにされた言語モデルは、ターゲットユーザによりサブミットされる将来のまだ見ぬクエリを予測することなどによって、ターゲットユーザの発話認識に使用されることができる。

ステップ６１０において、第１のユーザに関連付けられた１つ以上のパーソナルソースからの使用履歴が集約される。使用履歴は、例えば図１に関連して説明されたパーソナルソース１０９などの、１つ以上のパーソナルソースからの第１のユーザに相関したデータを含む。例えば、ユーザ装置を介して第１のユーザにより実行された、クエリログからの過去のユーザクエリ、ウェブサイトインタラクション、ユーザアクション等である。

ステップ６２０において、エンティティ及びユーザアクション情報が、第１のユーザの集約された使用履歴から抽出される。エンティティ及びユーザアクション情報は、１つ以上のエンティティ、エンティティエンティティペア、エンティティ関係、又はユーザアクション関連情報を含み得る。一実施形態において、エンティティ及びユーザアクション情報は、方法４００（図４）のステップ４２０において説明されたとおり、集約された使用履歴から解析される。

ステップ６３０において、ステップ６２０において抽出されたエンティティ及びユーザアクション情報が、第１のユーザに関連付けられた第１の知識グラフ上にマッピングされ、これにより、第１の知識グラフがユーザに対して個人向けにされる。一実施形態において、ステップ６３０において実行されるマッピング動作は、方法４００（図４）のステップ４３０において説明されたマッピング動作に類似であり、ここで、知識ソースは知識グラフである。

ステップ６４０において、第１のユーザに類似する第２のユーザが決定される。一実施形態において、ステップ６４０は、第１のユーザに類似する第２のユーザを、第２のユーザのための個人向け知識グラフが第１のユーザの個人向け知識グラフに類似であると決定することによって、識別することを含む。一実施形態において、第２のユーザは、方法５００（図５）のステップ５３０において説明されたとおり、クラスタリング又は他の方法によって決定される類似ユーザのセットからのものである。前に説明されたとおり、第１のユーザと第２のユーザとにおける決定された類似度に基づいて、第１のユーザ及び第２のユーザが類似の関心及び意図を共有する見込みを有することが、予測されることができる。

ステップ６５０において、第１のユーザの個人向け知識グラフが、ステップ６４０において決定された第２の（類似）ユーザに関連付けられた個人向け知識グラフからの情報を含むように拡張される。一実施形態において、ステップ６５０は、第２のユーザの個人向け知識グラフからのエンティティ又はユーザアクション情報を、第１のユーザの個人向け知識グラフ上にマッピングすることを含む。ステップ６５０のいくつかの実施形態は、方法５００（図５）のステップ５４０に関連して説明された実施形態に類似であり、ここで、知識ソースは知識グラフである。一実施形態において、第２の個人向け知識グラフは、第１のグラフを拡張する前、第１の個人向け知識グラフよりもより発展している（より多くの情報を含む）。方法６００のいくつかの実施形態において、拡張された個人向け知識グラフが使用されて、例えば方法５００のステップ５５０において説明されたとおり、第１のユーザに対して言語モデル及び／又はセッションコンテキストモデルを個人向けにすることができる。

図７を参照すると、言語モデルをユーザ履歴に基づいてセッションコンテキストに適合させる一例示的な方法７００を示すフロー図が提供される。高いレベルにおいて、一実施形態において、方法７００は、セッションコンテキスト情報、例えば、ユーザセッションログからのユーザインタラクションのシーケンス（又はパターン）などを、知識ソースに組み入れる。インタラクションのシーケンスに基づいて、インタラクションに対応する、より高いレベルの意図又は意図タイプのシーケンスが、特定の前の意図を所与として個別の後に発生する意図が起こることになる見込みを表現する推移統計のセットと共に、決定されることができる。上記統計に基づいて、知識ソース内のエンティティ及びエンティティ関係に対応する重みが補間され、これにより、セッションコンテキストモデルが作成されることができる。セッションコンテキストモデルから、一実施形態において、知識ソースの今や補間された重みに基づいて、１つ以上の言語モデルが提供されることができる。

ステップ７１０において、使用履歴情報が、１つ以上のパーソナルソースから受信される。使用履歴情報は、ユーザインタラクションイベントの１つ以上のシーケンス又はパターンを含む。一実施形態において、使用履歴情報はマルチモーダルデータを含み、１つ以上のセッションログから受信されることができる。一実施形態において、使用履歴情報が（例えば、図４のステップ４２０において説明されたとおり）解析されて、ユーザインタラクションイベントの１つ以上のシーケンス又はパターンを決定することができる。

ステップ７２０において、ユーザインタラクションイベントの１つ以上のシーケンス内の各イベントについて、イベントに対応する起こり得るユーザ意図が決定される。一実施形態において、ステップ７２０は、例えばステップ４３０（図４）に説明されたとおり、イベントを知識ソースにマッピングすることと、このマッピングにおいて知識ソースの部分に関連付けられたセマンティックリレーションシップ又は他の情報に基づいて意図を決定することとを含む。一実施形態において、意図は、エンティティタイプ及び関係タイプを含むエンティティ及び関係情報、又は、マッピングにおいて知識ソースの部分に関連付けられた他のセマンティックリレーションシップ情報に基づいて推論されることができる。一実施形態において、意図は、例えば、シーケンス内のインタラクションイベント、又は特定のエンティティ若しくはエンティティ関係又は関心を有するインタラクションイベント、又はターゲットユーザと共通するインタラクションイベントなど、インタラクションイベントのサブセットに対してのみ決定されることができる。一実施形態において、知識ソースが、マッピングされるべきユーザインタラクションイベントに対応するエンティティ又はエンティティリレーションシップを有さない場合、この知識ソースは、例えば、該イベントに関連付けられた、使用履歴情報内で識別されるエンティティ又はエンティティ関係に基づいて、追加されることができる（あるいは、知識グラフの場合、（１つ以上の）ノード及び（１つ以上の）関係エッジが作成されることができる）。例えば、ユーザターンが、知識ソースにまだ組み入れられていない、新たにリリースされた映画の監督について尋ねる場合、監督‐映画セマンティックリレーションシップが推論されることができ、映画に対応するエンティティと、映画に関連付けられた“director”関係とが、知識ソースに追加されることができる。

ステップ７３０において、１つ以上のシーケンス内の各ユーザインタラクションイベントについて決定された意図に基づいて、意図推移確率のセットが決定される。一実施形態において、推移確率は、個別の意図が前の意図の後に発生することになる見込みを表現する。ステップ７３０の一実施形態において、１つ以上の高レベル意図シーケンスが、ユーザインタラクションイベントの１つ以上のシーケンスに基づいて決定されることができ、これにおいて、意図シーケンス内の各意図は、ユーザインタラクションイベントシーケンス内のイベントに対応する。意図についての上記１つ以上のシーケンスから、意図推移確率のセットが、所与の意図の後に発生する特定の意図の確率に基づいて決定されることができる。例えば、推移確率は、前のターンにおいてユーザが特定の映画の特定の監督について尋ねたと仮定して、次のターンにおいてユーザが映画のキャストについて尋ねることになる見込みを示し得る。

一実施形態において、意図推移確率のセットは、少なくとも２つの意図のリレーションシップと第１の意図を所与とした第２の意図の確率とを含む意図シーケンスモデルを含む。いくつかの実施形態において、意図シーケンスモデルは、ユーザセッションの次ターン、例えば、ユーザにより話される次クエリなどを認識することにおいて使用される言語モデルを補間するのに使用されることができる。一実施形態において、推移先意図（少なくとも２つの意図のリレーションシップにおける第２の意図）に対応する知識ソースの部分に関連付けられた重み付けが、推移確率に少なくとも部分的に基づいて調整されることができる。

ステップ７４０において、意図推移確率のセットが、言語モデルを提供することに利用される。一実施形態において、言語モデルは、意図推移確率と前に受信した（１つ以上の）ユーザターンとに基づいて、必要に応じて補間される。一実施形態において、意図推移確率のセットは、知識ソース上のエンティティ又はエンティティ関係に関連付けられた重みを決定し又は修正するのに使用され、これにより、知識ソースが個人向けにされ（あるいは、さらに個人向けにされ）、セッションコンテキストモデルが形成されることができる。それから、セッションコンテキストモデルは、１つ以上の前のユーザ発声又はインタラクションに基づいて、必要に応じて１つ以上の言語モデルを作成することに使用されることができる。いくつかの実施形態において、言語モデルは、例えばステップ４４０（図４）において説明されたとおり、個人向けにされた知識ソースから提供される。

次に図８を参照すると、発話認識又は口語理解における使用のためにユーザ履歴情報に基づいてセッションコンテキストモデルを提供する一例示的な方法８００を示すフロー図が提供される。セッションコンテキストモデルは、ユーザからすでに受信した第１のターンを所与として、ユーザにより話される第２のターンを認識する（又は理解する）ことに使用される１つ以上の言語モデル（又はＳＬＵモデル）を提供するのに使用されることができる。例えば、高いレベルにおいて、一実施形態において、第１の話されたユーザインタラクション（第１のターン）を受信すると、知識ソースの部分（本例において「第１ターン部分」といわれる）が、第１のターン内で識別されるエンティティ及びエンティティ関係に対応して、決定される。知識ソースのうち上記特定の第１ターン部分に関連付けられた推移確率のセットに基づいて、知識ソースのうち１つ以上の起こり得る第２ターン部分が決定されることができ、これにおいて、第２ターン部分は、ユーザから受信されることになる、起こり得る次ターン（次に話されるユーザインタラクション）に対応する。それから、言語モデル（又はＳＬＵモデル）が、上記の起こり得る第２ターン部分の各々又は第２ターン部分のサブセット（例えば、最も起こり得る複数の第２ターン部分など）に基づいて提供されることができる。こうした提供される言語モデル（又はＳＬＵモデル）の各々は、一実施形態において、第２ターン部分におけるエンティティ及び／又はエンティティ関係に関連付けられた重み又は分布に基づく。さらに、モデルによって使用される上記重みは、知識ソースの第１ターン部分からその個別の第２ターン部分に推移する推移確率に基づいて補間されることができる。

換言すると、セッションコンテキストモデルは、前の１つ又は複数のターンを所与として、ユーザによって受信されることになる起こり得る次ターンに基づいて、必要に応じて特定の言語モデルを生成するのに使用されることができる。ゆえに、例として、ユーザが第１のターン内で映画‐監督について最初尋ねると仮定して、それからユーザが映画キャスト又は映画賞のいずれかについて次に（第２のターンにおいて）尋ねることになる見込みが高い（すなわち、高い推移確率である）と仮定する。ユーザが「Life Is Beautifulの監督は誰か」と最初尋ねると、ユーザから受信され得る次の（後の）ターンを認識することに対して第１の言語モデルが生成され、提供されることができ、これにおいて、ユーザは、Life Is Beautifulのキャストについて尋ねるよう期待される。（例えば、この第１の言語モデルは、後のユーザ発声、例えば「彼は映画において主役を演じたか？」などを、より正確に認識するように適合されることができる。ここで、「彼」は監督のRobert Benigniを指し、なぜならば、ユーザが、誰が監督であるかについてちょうど尋ねたからである。）類似して、ユーザが「Life Is Beautifulの監督は誰か」を最初尋ねると、ユーザから受信され得る次の（後の）ターンを認識することに対して第２の言語モデルが生成され、提供されることができ、これにおいて、ユーザは、Life Is Beautifulによって受領された賞について尋ねるよう期待される。（例えば、この第２の言語モデルは、後のユーザ発声、例えば「それはオスカーにノミネートされたか？」などを、より正確に認識するように適合されることができる。ここで、「それ」は映画のLife Is Beautifulを指し、なぜならば、ユーザが、Life Is Beautifulの監督は誰かをちょうど尋ねており、「オスカー」が賞であるからである）。

図８を続けると、ステップ８１０において、ユーザインタラクションの１つ以上のシーケンスを含む使用履歴情報が受信される。一実施形態において、使用履歴は、ユーザセッションログなどの１つ以上のパーソナルソースから受信され、マルチモーダル情報を含み得る。ユーザインタラクションの１つ以上のシーケンスは、少なくとも第１のユーザインタラクション及び第２のユーザインタラクションに関する情報を含み、例えば、第１のユーザによりサブミットされたクエリ又はターンと、ユーザによって後にサブミットされた第２のクエリ（又は第２のターン）である。一実施形態において、第２のインタラクションは、第１のインタラクションの後に（すぐ後で）発生する次インタラクションである。一実施形態において、使用履歴情報が（例えば、図４のステップ４２０において説明されたとおり）解析されて、１つ以上のシーケンス又はユーザインタラクションを決定することができる。

ステップ８２０において、ユーザインタラクションの１つ以上のシーケンス内の各第１ユーザインタラクションについて、第１インタラクションに対応する知識ソースの第１ターン部分が決定され、これにより、知識ソースの第１ターン部分のセットが形成される。例えば、一実施形態において、ユーザインタラクションに対応する知識ソースの部分が、例えばステップ４３０（図４）において説明されたとおり、ユーザインタラクション（又は、ユーザインタラクションに関連付けられた使用履歴情報）を知識ソースにマッピングすることによって決定されることができる。上記マッピングに基づいて、ユーザインタラクションに関連し又は対応する知識ソースのうち（１つ以上の）部分（すなわち、インタラクションがマッピングされる知識ソースの部分）が、決定されることができる。

ステップ８３０において、類似の決定が、第２のユーザインタラクションについて実行される。詳細には、ステップ８３０において、ユーザインタラクションの１つ以上のシーケンス内の各第２ユーザインタラクションについて、第２インタラクションに対応する知識ソースの第２ターン部分が決定され、これにより、知識ソースの第２ターン部分のセットが形成される。ステップ８３０の様々な実施形態が、ステップ８２０において説明された実施形態に類似である。一実施形態において、ステップ８２０及び８３０は、第１ターン部分及び第２ターン部分それぞれに対応する第１のユーザインタラクション及び第２のユーザインタラクションの数に基づいて、各第１ターン部分及び第２ターン部分の重み付けを決定することをさらに含む。一実施形態において、知識ソースの各部分に含まれるエンティティ又はエンティティ関係に関連付けられた重み又は分布が、第１ターン部分及び第２ターン部分それぞれに対応する第１のユーザインタラクション及び第２のユーザインタラクションの数に基づいて、設定され、あるいは修正される。

ステップ８４０において、各第１ターン部分に関連付けられた意図タイプが決定され、これにより、第１ターン意図タイプのセットが形成され、各第２ターン部分に関連付けられた意図タイプが決定され、これにより、第２ターン意図タイプのセットが形成される。一実施形態において、意図タイプは、ユーザ意図、又はより高いレベルの意図であり、該より高いレベルの意図は、ユーザにより取られるアクション、例えばユーザインタラクションなどに対応する。一実施形態において、各第１ターン及び第２ターン部分に関連付けられる意図タイプは、例えば方法７００（図７）のステップ７２０において説明されたとおり、知識ソースのそれぞれの部分内のエンティティ及び関係情報に基づいて決定されることができる。

ステップ８５０において、推移確率のセットが決定され、各推移確率は、個別の第２ターン意図タイプが特定の第１ターン意図タイプを所与として発生することになる見込みを表現する。一実施形態において、推移確率は、第１ターン意図タイプにすぐに続くターン又はユーザインタラクションにおいて第２ターン意図タイプが発生することになる見込みを表現する。例えば、一実施形態において、推移確率は、ユーザがLife is Beautifulの監督について尋ねた後（ゆえに、第１ターン意図タイプはmovie-directed-byである）、Life is Beautifulにおいて誰が主役を演じているかを次に尋ねる（ゆえに、第２ターン意図タイプはmovie-castについてである）ことになる確率を表現し得る。一実施形態において、推移確率のセットは、意図シーケンスモデル、例えば方法７００（図７）のステップ７３０において説明されたものなどを含み、いくつかの実施形態において、上記シーケンスモデルが使用されて、ユーザセッションの次ターン、例えば、ユーザにより話される次クエリなどを認識することにおいて使用される言語モデルを補間することができる。

一実施形態において、知識グラフの第２ターン部分に関連付けられた重み付けが、知識ソースの第１ターン部分から上記第２ターン部分への推移確率に少なくとも部分的に基づいて調整されることができる。このことに応じて、ステップ８６０において、１つ以上の言語モデル（又はＳＬＵモデル）が、推移確率のセットに少なくとも部分的に基づいて提供される。例えば、前に説明されたとおり、一実施形態において、第１の話されたユーザインタラクション（第１ターン）を受信すると、知識ソースの第１ターン部分が、第１ターン内で識別されるエンティティ及びエンティティ関係に対応して決定されることができる。（方法８００の前のステップにおいて使用履歴からの１つ以上のシーケンスに基づいて決定されるとおりの）知識ソースの上記特定の第１ターン部分に関連付けられた推移確率のセットに基づいて、知識ソースの起こり得る第２ターン部分が決定されることができ、これにおいて、上記第２ターン部分は、ユーザから受信されることになるよう期待される、起こり得る次ターン（次に話されるユーザインタラクション）に対応する。このことに基づいて、それから、起こり得る第２ターン部分の各々について、特定の第２ターン部分におけるエンティティ及び／又はエンティティ関係に関連付けられた重みを用いて、言語モデル（ＳＬＵモデル）が提供されることができる。さらに、モデルにより使用される重みは、知識ソースの第１ターン部分からその個別の第２ターン部分に推移する推移確率に基づいて補間されてもよい。（換言すると、特定の言語モデルが、前の１つ又は複数のターンを所与として、ユーザによって受信されることになる起こり得る次ターンに基づいて、必要に応じて生成されることができる）。

図９を参照すると、セッションコンテキスト情報を用いて個人向けにされた知識ソースを使用して、セッションコンテキストに適合させた言語モデル（又はＳＬＵモデル）を提供する一例示的な方法９００を示すフロー図が提供される。言語モデル又はＳＬＵモデルは、ユーザから受信される次の発声（次のターン）をより正確に認識し又は理解するのに使用されることができる。方法９００の実施形態は、セッションコンテキスト情報を用いて個人向けにされた知識ソースを使用する。知識ソースは、図４〜図８に関連して説明された実施形態に従って、個人向けにされることができる。

一実施形態において、知識ソースが（例えば、セッションログを知識グラフ内のエンティティ又はエンティティエンティティペアにマッピングすることなどによって）いったん個人向けにされると、統計が、１つの意図から別の意図に、又は１つのドメインから別のドメインに切り替わることについて収集されることができる。上記統計は、知識ソース内でさらなる推移として表現されることができ、例えば、ユーザが音楽検索という１つのジャンルにとどまること、対、別のジャンル又はドメインに切り替えることの確率である。このことに応じて、ユーザが、そのパーソナル装置（又は、他のヒューマンマシン会話システム）に対して話し始めるとき、いくつかのターンの後、方法９００のいくつかの実施形態は、知識ソース内の対応するサブ空間（すなわち、部分）を最初識別する。それから、上記サブ空間（subspaces）に関連付けられた推移確率が、（関係又は意図／ドメイン変更を表現する）推移重みとして使用されることができ、上記推移重みは、考慮下である他のサブ空間（すなわち、次のターンにおいて推移先である見込みのあるサブ空間）を表現する言語モデルのための補間重みとして使用されることができる。例えば、第１のターンにおいて、ユーザは、「今夜、ジャイアンツゲームは何時か？」と発声する。本発明の一実施形態は、「ジャイアンツ」をエンティティとして検出し、これを知識ソースにマッピングし（又は、存在しない場合は、知識ソース内にこのエンティティのためのエントリを作成し）、そのサブ空間（すなわち、知識ソースの部分）に関連付けられた確率又は重みを押し上げ、ユーザが知識ソース内のこのエンティティ（ジャイアンツ）のまわりの概念又はアクションに関心があることを示す。サブ空間に基づいて、ジャイアンツエンティティからのすべてのとり得る推移（又は、起こり得る推移だけ）が算出される。それから、こうした推移に対応する言語モデルが、その場で（on-the fly）補間される。

上記の例を続けて、次のターンが個別のプレーヤに推移することになる（例えば、ユーザがSergio Romoについて次に尋ねることになる）０．８の確率と、次のターンがチームジャージに推移することになる（例えば、ユーザが「ジャイアンツのジャージはいくらか？」と次に尋ねることになる）０．２の確率とがあると仮定する。Sergio Romoとジャイアンツのジャージ（ジャイアンツ関連の商品）とに対応する２つのサブ空間に基づく２つの言語モデルが提供され、使用されて、ユーザからの次の発声をより正確に決定することができ、したがって、各言語モデルの重み又は分布は、上記推移確率に基づいて補間される。（この例において、言語モデルのうち一方が０．８で、他方の言語モデルが０．２で補間される）。

さらに、第２のターンにおいてユーザが「Sergio Romoは如何にプレーしたか？」と尋ねると仮定する。（ゆえに、ユーザは、前の段落内で論じられた２つの起こり得る次ターンのうち一方を尋ねた。）ここで、本発明の一実施形態は、プレーヤ名をエンティティとして検出し、これを知識ソースにマッピングし（又は、存在しない場合は、知識ソース内にこのエンティティのためのエントリを作成し）、そのサブ空間に関連付けられた確率又は重みを押し上げ、ユーザが知識ソース内のこのエンティティ（Sergio Romo）のまわりの概念又はアクションに関心があることを示す。上記サブ空間に基づいて、及び、前のターン及び意図／ドメイン、例えば、第１のターンからのスポーツチームサブ空間（ジャイアンツ）などに基づいて、現在のサブ空間（Sergio Romoに対応するサブ空間）からのすべてのとり得る推移（又は、起こり得る推移だけ）が算出される。それから、こうした新しい推移に対応する言語モデルが補間され、使用されて、ユーザから受信される次の発声（第３のターン）がより正確に認識される。

図９を続けると、ステップ９１０において、第１のクエリが受信される。クエリは、ユーザ装置、例えば図１の装置１０２及び１０４など、又はヒューマンマシン会話システムとのセッションに関与するユーザから受け取られることができる。一実施形態において、第１のクエリは、話されたクエリ又は他の発声として、ユーザによって提供される。

ステップ９２０において、第１のクエリは、セッションコンテキスト情報で個人向けにされた知識ソースの第１のサブ空間（又は部分）にマッピングされる。一実施形態において、個人向け知識ソースは、他のサブ空間に関連する複数のサブ空間を含み、したがって、関連サブ空間の各セット（又は、「関連サブ空間セット」）は、少なくとも、第１サブ空間と、次のターン又はユーザインタラクションに対応する１つ以上の第２サブ空間と、各第２サブ空間に関連付けられた、該個別の第２サブ空間が関連サブ空間セット内の第１のサブ空間から推移される見込みを表現する推移確率とを含む。ゆえに、第１のクエリを第１の部分又はサブ空間にマッピングすると、第１サブ空間から推移されることになる見込みのある１つ以上の第２サブ空間が、（ステップ９３０において説明されるとおりの）各第２サブ空間に関連付けられた１つ以上の推移統計と共に、決定されることができる。一実施形態において、推移統計は、個人向け知識空間に組み入れられ、かつユーザインタラクションのシーケンスに対応する履歴情報に基づいて、決定される。一実施形態において、関連サブ空間セットは、第２のエンティティエンティティペアに対する第１のエンティティエンティティペア、第２のエンティティ関係に対する第１のエンティティ関係、第２の（１つ以上の）意図／ドメインに対する第１の（１つ以上の）意図／ドメイン、又は第２のエンティティペア／関係／（１つ以上の）意図／ドメインに対する第１のエンティティペア／関係／（１つ以上の）意図／ドメインの、リレーションシップを含む。一実施形態において、クエリは、方法４００（図４）のステップ４３０において説明されたとおり、マッピングされることができる。

ステップ９３０において、ステップ９２０において決定されたマッピングに基づいて、推移統計の第１のセットが決定され、この第１のセットは、ユーザから受信される見込みのある将来のクエリ（第２のクエリ）に対応する。一実施形態において、推移統計の第１のセットは、第１のサブ空間から推移され得る１つ以上の第２のサブ空間の各々に関連付けられた推移統計を含む。一実施形態において、推移統計は推移確率のセットを含み、例えば方法８００（図８）のステップ８５０又は方法７００（図７）のステップ７３０において説明されたとおり、決定される。

ステップ９４０において、推移統計のセットに基づいて、１つ以上の言語モデル（又はＳＬＵモデル）が、ユーザから受信されるよう期待される第２のクエリ又はインタラクション（第２のターン）での使用に対して提供される。一実施形態において、１つ以上の言語モデルは、ユーザからの後の発声をより正確に決定するように提供される。一実施形態において、言語モデルの重み又は分布は、推移統計のセットに基づいて補間される。

方法９００の一実施形態において、個人向け知識ソース内の複数の関連サブ空間セットが、第３のターン又はユーザインタラクションに対応する１つ以上の第３のサブ空間をさらに含み、これにおいて、推移統計は、個別の第１サブ空間から個別の第２サブ空間への推移を所与として、個別の第３サブ空間が上記個別の第２サブ空間から推移される見込みをさらに表現する。さらに、一実施形態において、第２のクエリが、例えばステップ９１０及び９２０において説明されたとおり、受信され、個人向け知識ソースにマッピングされる。第１のクエリ及び第２のクエリのマッピングに基づいて、実施形態は、ユーザから受信される見込みのある将来のクエリ（第３のクエリ）に対応する推移統計の第２のセットを決定する。さらに、推移統計の第２のセットに基づいて、１つ以上の言語モデルが、ユーザから受信されるよう期待される第３のクエリ又はインタラクション（第３のターン）での使用に対して提供される。一実施形態において、こうした「第３ターン言語モデル」が、ステップ９４０において説明されるとおり、提供されることができる。

したがって、言語モデル及びＳＬＵモデルを向上させるシステム及び方法に向けられたテクノロジーの様々な態様が説明されており、上記モデルは、該モデルにより利用される知識ソースをセッションコンテキスト情報を含むように個人向けにすることによって、発話認識及び会話理解システムに使用されることができる。

本明細書に説明される実施形態の様々な特徴、サブコンビネーション、及び修正が実用的なものであり、他の特徴又はサブコンビネーションに対する参照なしに他の実施形態において採用され得ることが理解される。さらに、例示的な方法４００、５００、６００、７００、８００、及び９００に示されるステップの順序及びシーケンスは、いずれかの方法で本発明の範囲を限定するようには意図されず、実際、ステップは、その実施形態内で様々な異なるシーケンスにおいて発生してもよい。ステップのこうしたバリエーション及び組み合わせもまた、本発明の実施形態の範囲内であると考えられる。例えば、前に説明されたとおり、知識ソースを個人向けにする方法４００、５００、及び６００において説明された処理のうち任意のものが、方法７００、８００、及び９００で使用されてもよいと考えられる。

本発明の様々な実施形態を説明したので、次に、本発明の実施形態を実装するのに適した一例示的なコンピューティング環境が説明される。図１０を参照すると、一例示的なコンピューティング装置が提供され、概してコンピューティング装置１０００といわれる。コンピューティング装置１０００は、ただし、適切なコンピューティング環境の一例であり、本発明の使用又は機能性の範囲に関して何らかの限定を示唆するようには意図されない。コンピューティング装置１０００は、例示されるコンポーネントのうち任意の１つ又は組み合わせに関して何らかの依存性又は要件を有するものと解釈されるべきでもない。

本発明の実施形態は、コンピュータ使用可能又はコンピュータ実行可能命令、例えばプログラムモジュールなどを含む、コンピュータコード又はマシン使用可能命令の一般的文脈において説明され、上記コード又は命令は、コンピュータ又は他のマシン、例えば、パーソナルデータアシスタント、スマートフォン、タブレットＰＣ、又は他のハンドヘルド装置などにより実行され得る。一般に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含むプログラムモジュールは、個別のタスクを実行し又は個別の抽象データタイプを実装するコードを参照する。本発明の実施形態は、ハンドヘルド装置、消費者電子機器、汎用目的コンピュータ、さらなる特殊コンピューティング装置等を含む様々なシステム構成において実施され得る。本発明の実施形態は、さらに、通信ネットワークをとおしてリンクされるリモート処理装置によってタスクが実行される分散コンピューティング環境において実施されてもよい。分散コンピューティング環境において、プログラムモジュールは、メモリ記憶装置を含むローカル及びリモート双方のコンピュータ記憶装置内に位置してもよい。

図１０を参照すると、コンピューティング装置１０００はバス１０１０を含み、バス１０１０は、下記の装置、すなわち、メモリ１０１２、１つ以上のプロセッサ１０１４、１つ以上の提示コンポーネント１０１６、１つ以上の入力／出力（Ｉ／Ｏ）ポート１０１８、１つ以上のＩ／Ｏコンポーネント１０２０、及び例示的なパワーサプライ１０２２を、直接的又は間接的に結合する。バス１０１０は、１つ以上のバスであり得るもの（例えば、アドレスバス、データバス、又はこれらの組み合わせなど）を表現する。図１０の様々なブロックは明りょうさのために線で示されているが、実際には、これらブロックは論理的な、必ずしも実在でないコンポーネントを表現する。例えば、表示装置などの提示コンポーネントは、Ｉ／Ｏコンポーネントであると考えられ得る。また、プロセッサはメモリを有する。本発明の発明者は、こうしたことはその分野の性質であると認識しており、図１０の図は、本発明の１つ以上の実施形態に関連して使用されることができる一例示的なコンピューティング装置の単に例示であると反復して言う。例えば「ワークステーション」、「サーバ」、「ラップトップ」、「ハンドヘルド装置」等のカテゴリ間において、すべてが図１０の範囲内でかつ「コンピューティング装置」を参照すると考えられるとき、区別は行われない。

コンピューティング装置１０００は、様々なコンピュータ読取可能媒体を典型的に含む。コンピュータ読取可能媒体は、コンピューティング装置１０００によってアクセスされることができる任意の利用可能媒体であってもよく、揮発性及び不揮発性双方の媒体、取外し可能及び取外し不能の媒体を含む。限定でなく例として、コンピュータ読取可能媒体は、コンピュータ記憶媒体及び通信媒体を含み得る。コンピュータ記憶媒体は、コンピュータ読取可能命令、データ構造、プログラムモジュール、又は他のデータなどの情報の記憶のための任意の方法又はテクノロジーにおいて実装される揮発性及び不揮発性双方の、取外し可能及び取外し不能の媒体を含む。コンピュータ記憶媒体は、これらに限られないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、若しくは他のメモリテクノロジー、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）、若しくは他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置、若しくは他の磁気記憶装置、又は、所望される情報を記憶するのに使用されることができ、かつコンピューティング装置１０００によってアクセスされることができる任意の他の媒体を含む。コンピュータ記憶媒体は、それ自体、信号を含まない。通信媒体は、変調されたデータ信号、例えば搬送波など、又は他のトランスポートメカニズムにおいて、コンピュータ読取可能命令、データ構造、プログラムモジュール、又は他のデータを典型的に具現化し、任意の情報伝達媒体を含む。用語「変調されたデータ信号」は、信号内に情報をエンコードする仕方で設定され又は変更された、その特性のうち１つ以上を有する信号を意味する。限定でなく例として、通信媒体は、有線媒体、例えば有線ネットワーク又は直接有線接続など、及び、無線媒体、例えば音響、ＲＦ、赤外線、及び他の無線媒体などを含む。上記のうち任意のものの組み合わせが、コンピュータ読取可能媒体の範囲内にさらに含まれるべきである。

メモリ１０２０は、揮発性及び／又は不揮発性メモリの形態におけるコンピュータ記憶媒体を含む。メモリは、取外し可能、取外し不能、又はこれらの組み合わせであり得る。例示的なハードウェア装置には、ソリッドステートメモリ、ハードドライブ、光ディスクドライブ等が含まれる。コンピューティング装置１０００は、メモリ１０１２又はＩ／Ｏコンポーネント１０２０などの様々なエンティティからデータを読み出す１つ以上のプロセッサ１０１４を含む。提示コンポーネント１０１６は、ユーザ又は他の装置に対するデータ指標を提示する。例示的な提示コンポーネントには、表示装置、スピーカー、印刷コンポーネント、振動コンポーネント等が含まれる。

Ｉ／Ｏポート１０１８は、Ｉ／Ｏコンポーネント１０２０を含む他の装置に対してコンピューティング装置１０００が論理的に結合されることを可能にし、Ｉ／Ｏポート１０１８のうちいくつかは、ビルトインであり得る。例示的なコンポーネントには、マイクロフォン、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナ、プリンタ、通信コンポーネント（例えば、ネットワーク通信コンポーネント、ラジオ又は無線通信コンポーネントなど）等が含まれる。Ｉ／Ｏコンポーネント１０２０は、エアジェスチャ（air gestures）、音声、又はユーザにより生成される他の生理的入力を処理するナチュラルユーザインターフェース（ＮＵＩ）を提供し得る。いくつかの例において、入力は、さらなる処理のために適切なネットワーク要素に送信され得る。ＮＵＩは、発話認識、タッチ及びスタイラス認識、顔面認識、バイオメトリック認識、画面上及び画面に隣接しての双方のジェスチャ認識、エアジェスチャ、頭及び目追跡、並びにコンピューティング装置１０００上のディスプレイに関連付けられたタッチ認識のうち、任意の組み合わせを実施し得る。コンピューティング装置１０００は、ジェスチャ検出及び認識のために、深度カメラ、例えば、立体カメラシステム、赤外線カメラシステム、ＲＧＢカメラシステム、及びこれらの組み合わせなどを装備されてもよい。さらに、コンピューティング装置１０００は、モーションの検出を可能にする加速度計又はジャイロスコープを装備されてもよい。加速度計及びジャイロスコープの出力がコンピューティング装置１０００のディスプレイに提供されて、没入型の拡張現実又は仮想現実をレンダリングしてもよい。

表された様々なコンポーネントと図示されていないコンポーネントとの多くの異なる配置が、下記の特許請求の範囲から逸脱することなく可能である。本発明の実施形態は、限定的でなく例示的である意図で説明された。代替的な実施形態が、本開示を読んだ後、本開示を読んだため、その読み手に明らかになるであろう。前述のことを実施する代替的な手段が、下記の特許請求の範囲から逸脱することなく完成され得る。特定の特徴及びサブコンビネーションが実用的なものであり、他の特徴及びサブコンビネーションに対する参照なしに採用されてもよく、特許請求の範囲内と考えられる。

このことに応じて、一態様において、本発明の一実施形態は、コンピュータ実行可能命令を具現化させた１つ以上のコンピュータ読取可能媒体に向けられ、上記命令は、プロセッサ及びメモリを有するコンピューティングシステムによって実行されるときに、ユーザ履歴に基づいてセッションコンテキストに適合させた言語モデルを提供する方法をコンピューティングシステムに実行させる。上記方法は、ユーザインタラクションイベントの１つ以上のシーケンスを含む使用履歴情報を受信することと、１つ以上のシーケンス内の各イベントについて、イベントに対応する起こり得るユーザ意図を決定することとを含む。上記方法は、各イベントについて決定された起こり得るユーザ意図に基づいて、意図推移確率のセットを決定することと、意図推移確率のセットを利用して言語モデルを提供することとをさらに含む。

別の態様において、コンピュータ実行可能命令を具現化させた１つ以上のコンピュータ読取可能媒体が提供され、上記命令は、プロセッサ及びメモリを有するコンピューティングシステムにより実行されるときに、ユーザ履歴情報に基づいてセッションコンテキストモデルを提供する方法をコンピューティングシステムに実行させる。上記方法は、ユーザインタラクションの１つ以上のシーケンスに関する情報を含む使用履歴情報を受信することであって、各シーケンスは少なくとも第１及び第２インタラクションを含む、ことと、１つ以上のシーケンス内の各第１インタラクションについて、第１インタラクションに対応する知識ソースの第１ターン部分を決定することとを含む。上記方法は、１つ以上のシーケンス内の各第２インタラクションについて、第２インタラクションに対応する知識ソースの第２ターン部分を決定し、これにより、第２ターン部分のセットを形成することと、各第１ターン部分及び各第２ターン部分に関連付けられた意図タイプを決定し、これにより、第１ターン意図タイプのセット及び第２ターン意図タイプのセットを形成することとをさらに含む。上記方法は、第１ターン意図タイプ及び第２ターン意図タイプのセットとユーザインタラクションの１つ以上のシーケンスとに基づいて、推移確率のセットを決定することをさらに含む。

いくつかの実施形態において、上記方法は、推移確率のセットに少なくとも部分的に基づいて、第２ターン部分のセットのうちのサブセット内の第２ターン部分に各々が対応する言語モデルのセットを決定し、これにより、セッションコンテキストモデルを形成することをさらに含む。いくつかの実施形態において、上記方法は、知識ソースの少なくとも１つの第２ターン部分に関連付けられた重み付けを決定することと、重み付けに基づいて言語モデルを提供することとをさらに含む。いくつかの実施形態において、上記方法は、各第１ターン部分について、対応する第１インタラクションの数に基づいて第１ターン部分の重み付けを決定することと、各第２ターン部分について、対応する第２インタラクションの数に基づいて第２ターン部分の重み付けを決定することとをさらに含む。

さらに別の態様において、コンピュータ実行可能命令を具現化させた１つ以上のコンピュータ読取可能媒体が提供され、上記命令は、プロセッサ及びメモリを有するコンピューティングシステムにより実行されるときに、セッションコンテキストに適合させた言語モデルを提供する方法をコンピューティングシステムに実行させる。上記方法は、第１のクエリを受信することと、第１のクエリを個人向け知識ソースの第１のサブ空間にマッピングすることと、上記マッピングと個人向け知識ソースとに基づいて、第２のクエリに対応する推移統計の第１のセットを決定することとを含む。上記方法は、推移統計の第１のセットに基づいて、第２のクエリでの使用のための１つ以上の言語モデルを提供することをさらに含む。

いくつかの実施形態において、個人向け知識ソースは、複数の関連サブ空間セットを含み、各関連サブ空間セットは、第１サブ空間と、起こり得る第２のクエリに各第２サブ空間が対応する、１つ以上の第２サブ空間と、各第２サブ空間に関連付けられた、該第２サブ空間が第１サブ空間から推移される見込みを表す推移統計とを含む。さらに、いくつかの実施形態において、関連サブ空間セットは１つ以上の第３サブ空間をさらに含み、各第３サブ空間は起こり得る第３のクエリに対応し、推移統計は、第１サブ空間から個別の第２サブ空間への推移を所与として、個別の第３サブ空間が上記個別の第２サブ空間から推移される見込みをさらに表す。いくつかの実施形態において、上記方法は、第２のクエリを受信することと、第２のクエリを個人向け知識ソースの１つ以上の第２サブ空間のうちの１つにマッピングすることと、上記マッピング及び個人向け知識ソースに基づいて、第３のクエリに対応する推移統計の第２のセットを決定することと、推移統計の第２のセットに基づいて、第３のクエリでの使用のための１つ以上の第３ターン言語モデルを提供することとをさらに含む。

Claims

コンピューティングシステムにより実行されるときに、ユーザの履歴に基づいて、発話認識のための言語モデルにより利用される知識ソースをセッションコンテキストに適合させることによって、向上した言語モデルを提供する方法を前記コンピューティングシステムに実行させるコンピュータプログラムであって、前記方法は、
ユーザインタラクションイベントの１つ以上のシーケンスを含む使用履歴情報を受信することであって、各シーケンスはセッションの一連のターンであり、前記シーケンス内の各イベントは、前記一連のターンのそれぞれのユーザターンに対応することと、
前記１つ以上のシーケンス内の各イベントについて、該イベントに対応する起こり得るユーザ意図を決定することと、
各イベントについて決定された前記起こり得るユーザ意図に基づいて、意図推移確率のセットを決定することであって、各意図推移確率は、第１ユーザ意図から第２ユーザ意図への推移が発生する確率を表すことと、
前記意図推移確率のセットを利用して、前記知識ソースを前記ユーザについて個人向けにして、前記言語モデルを補間することにより、セッションコンテキストモデルを生成することと、
を含む、コンピュータプログラム。
前記使用履歴情報は１つ以上のユーザセッションログを含む、請求項１に記載のコンピュータプログラム。
前記１つ以上のシーケンス内の各イベントの起こり得るユーザ意図は、前記知識ソースにおけるエンティティ間のセマンティックリレーションシップを含む、請求項１に記載のコンピュータプログラム。
前記言語モデルは、前記意図推移確率のセット内の意図推移確率のサブセットに少なくとも部分的に基づいて補間される、請求項１に記載のコンピュータプログラム。
ユーザの履歴に基づいて、発話認識のための言語モデルにより利用される知識ソースをセッションコンテキストに適合させることによって、向上した言語モデルを提供するために、コンピュータが実行する方法であって、
ユーザインタラクションイベントの１つ以上のシーケンスに関する情報を含む使用履歴情報を受信することであって、各シーケンスはセッションの一連のターンであり、前記シーケンス内の各イベントは、前記一連のターンのそれぞれのユーザターンに対応することと、
前記１つ以上のシーケンス内の各イベントについて、該イベントに対応する起こり得るユーザ意図を決定することと、
各イベントについて、意図推移確率のセットを決定することであって、各意図推移確率は、第１ユーザ意図から第２ユーザ意図への推移が発生する確率を表すことと、
前記意図推移確率のセットを利用して、前記知識ソースを前記ユーザについて個人向けにして、前記言語モデルを補間することにより、セッションコンテキストモデルを生成することと、
を含む方法。
前記知識ソースのエンティティに関連付けられた重み付けを決定することと、
前記重み付けに基づいて前記言語モデルを調整することと、
をさらに含む請求項５に記載の方法。
前記１つ以上のシーケンス内の各イベントの起こり得るユーザ意図は、前記知識ソースにおけるエンティティ間のセマンティックリレーションシップを含む、請求項５に記載の方法。