JP6087899B2

JP6087899B2 - 会話ダイアログ学習および会話ダイアログ訂正

Info

Publication number: JP6087899B2
Application number: JP2014502723A
Authority: JP
Inventors: ヘック，ラリー・ポール; チンサクンタ，マドゥスーダン; ミトバイ，デヴィッド; スティフェルマン，リサ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2011-03-31
Filing date: 2012-03-27
Publication date: 2017-03-01
Anticipated expiration: 2032-03-27
Also published as: CN102750271B; KR20140025361A; CN102750270B; CN102737104A; EP2691870A4; WO2012135783A3; CN102750271A; CN102737104B; EP2691949A4; JP2014509757A; KR20140025362A; CN102750270A; KR20140014200A; CN102737099B; WO2012135157A2; EP2691885A1; EP2691875A4; EP2691870A2; CN102750311A; WO2012135218A2

Description

[001]会話ダイアログ学習および会話ダイアログ訂正は、ユーザクエリおよびユーザ会話の自然言語理解を円滑にするための機構を提供することが可能である。会話音声認識アプリケーションおよび会話音声認識技術は、特定のユーザの音声パターン、または或るユーザの他のユーザとの会話の特定の音声パターンを学習するため、および個人用設定するための良好な機構を提供しない。例えば、ユーザ１がユーザ２と音声会話を行う際、或る特定の音声パターンが使用される可能性があり、この特定の音声パターンは、ユーザ１がユーザ３と音声会話を行う際に使用される音声パターンとは異なり得る。さらに、現在の音声認識システムは、ユーザから音声をオンザフライで動的に学習し、さらに様々な人々がどのように互いに会話を行うかについても学習する能力をほとんど有さない。例えば、ユーザが、音声認識システムが、別の語、および／または正しい語の別の意味に関連付ける或る語を話した場合、ユーザは、その話された語のシステムによる解釈を同時に訂正するとともに、システムが、その語が置かれている特定のコンテキストの中でその語を「学習する」ことを可能にする機構を全く有さない。

[002]音声／テキスト変換（すなわち、音声認識）は、発話された語句を、コンピューティングシステムによって処理され得るテキストの語句に変換することを含み得る。音響モデリングおよび／または言語モデリングが、最新の統計ベースの音声認識アルゴリズムにおいて使用され得る。隠れマルコフモデル（ＨＭＭ）が、多くの従来のシステムにおいて広く使用される。ＨＭＭは、一連のシンボルまたは量を出力することが可能な統計モデルを備え得る。ＨＭＭは、音声信号が区分定常信号または短時間定常信号と見なされ得るため、音声認識において使用され得る。或る短時間（例えば、１０ミリ秒）内で、音声は、定常プロセスとして近似され得る。このため、音声は、多くの確率論的な目的でマルコフモデルと考えられ得る。

[003]この「発明の概要」は、「発明を実施するための形態」においてさらに後述される概念の選定を、簡略化された形態で紹介するように与えられる。この「発明の概要」は、主張される主題の重要な特徴、または不可欠な特徴を特定することは意図していない。また、この「発明の概要」は、主張される主題の範囲を限定するのに使用されることも意図していない。

[004]会話ダイアログ学習および会話ダイアログ訂正が、提供され得る。第１のユーザから自然言語の語句を受け取ると、この自然言語の語句に関連する少なくとも１名の第２のユーザが、識別され得る。第１のユーザおよび少なくとも１名の第２のユーザに従ってコンテキスト状態が作成され得る。次に、自然言語の語句が、このコンテキスト状態に従ってエージェントアクション（agent action）に変換され得る。

[005]以上の一般的な説明と以下の詳細な説明はともに、例を与えるものであり、例示的であるに過ぎない。したがって、以上の一般的な説明、および以下の詳細な説明は、限定するものと考慮されるべきではない。さらに、本明細書に記載される特徴に加えて、いくつかの特徴または変形形態が与えられ得る。例えば、いくつかの実施形態が、詳細な説明で説明される様々な特徴の組合せおよび部分的組合せを対象とし得る。

[006]本開示に組み込まれ、本開示の一部を構成する添付の図面は、本発明の様々な実施形態を例示する。

[007]動作環境のブロック図である。 [008]会話学習および会話訂正を実現するためのインターフェースを示すブロック図である。会話学習および会話訂正を実現するためのインターフェースを示すブロック図である。会話学習および会話訂正を実現するためのインターフェースを示すブロック図である。 [009]会話学習および会話訂正を実現するための方法の流れ図である。 [010]コンピューティングデバイスを含むシステムのブロック図である。

[011]以下の詳細な説明は、添付の図面を参照する。可能な場合はいつでも、図面および以下の説明において同一の要素、または同様の要素を指すのに同一の参照符号が使用される。本発明のいくつかの実施形態が説明され得るが、変形形態、適合形態、および他の実装形態が可能である。例えば、図面に例示される要素に置換、追加、または変形が行われ得るとともに、本明細書で説明される方法が、開示される方法の段階を置換すること、並べ替えること、または追加することによって変形され得る。したがって、以下の詳細な説明は、本発明を限定しない。代わりに、本発明の適切な範囲は、添付の特許請求の範囲によって規定される。

[012]会話学習および会話訂正が、実現され得る。自然言語音声認識システムが、特定のユーザからの、または会話している特定のユーザらの間の音声認識パターンを個人用設定する能力をもたらし得る。また、このシステムは、ユーザとの訂正対話を介して音声パターンを学習することも可能である。その結果、ユーザの音声パターンおよびコンテキストのより個人用設定された理解の下で、このシステムは、音声クエリのより正確な結果を提供すること、およびパーソナルアシスタントシステムにおいて、ユーザらの間、またはユーザとマシンの間の音声会話に応答して、より関係のある情報を提供することができる。

[013]図１は、サーバ１０５を含む動作環境１００のブロック図である。サーバ１０５は、ダイアログマネージャ１１１を備えた音声対話システム（ＳＤＳ）１１０、パーソナルアシスタントプログラム１１２、コンテキストデータベース１１６、および／または検索エージェント１１８などの様々なコンピューティングリソースおよび／またはソフトウェアモジュールを備え得る。サーバ１０５は、ネットワーク１２０を介してユーザからクエリおよび／またはアクション要求を受信することが可能である。そのようなクエリは、例えば、コンピュータおよび／またはセルラ電話機などの第１のユーザデバイス１３０および／または第２のユーザデバイス１３５から送信され得る。ネットワーク１２０は、例えば、プライベートネットワーク、セルラデータネットワーク、および／またはインターネットなどの公共ネットワークを含み得る。

[014]図２Ａは、会話学習および会話訂正を実現するためのインターフェース２００のブロック図である。インターフェース２００は、ユーザ入力パネル２１０と、パーソナルアシスタントパネル２２０とを含み得る。ユーザ入力パネル２１０は、ユーザステートメント２３０などの変換されたユーザクエリおよび／またはアクション要求を表示することが可能である。ユーザステートメント２３０は、例えば、ユーザデバイス１３０のユーザから受け取った音声／テキスト変換からの結果を含み得る。パーソナルアシスタントパネル２２０は、ユーザおよびユーザステートメント２３０に関連するコンテキスト状態から導き出された複数のアクション示唆２４０（Ａ）〜（Ｂ）を含み得る。本発明の実施形態に合致して、コンテキスト状態は、ユーザステートメント２３０が話されるのを聞いた可能性がある、第２のユーザデバイス１３５のユーザなどの、会話の他の任意の参加者を考慮に入れることが可能である。このため、パーソナルアシスタントプログラム１１２は、会話の能動的な参加者であることなしに、会話を監視し、さらにアクション示唆２４０（Ａ）〜（Ｂ）を第１のユーザデバイス１３０および／または第２のユーザデバイス１３５のユーザに提供することが可能である。

[015]図２Ｂは、ユーザがユーザステートメント２３０に更新をもたらした後の更新された表示を含むインターフェース２００のさらなる例示である。例えば、第２のユーザデバイス１３５のユーザからの質問２４５、および第１のユーザデバイス１３０のユーザからの応答２４７が、パーソナルアシスタントプログラム１１２がコンテキスト状態を更新し、さらに第２の複数のアクション示唆２５０（Ａ）〜（Ｃ）を提供するようにさせることが可能である。例えば、第２の複数のアクション示唆２５０（Ａ）〜（Ｃ）は、ユーザが食べることを所望する可能性がある様々な示唆される料理を含み得る。本発明の実施形態に合致して、エージェントは、そのような更新を、これら２名のユーザ間の会話に関連付けることを学習することが可能であり、さらにそのような更新を、将来の会話において使用するように記憶していることが可能である。

[016]図２Ｃは、エージェントアクションに対する訂正を含んだインターフェース２００の例示である。例えば、「ｔｈａｔＩｔａｌｉａｎｐｌａｃｅｏｎＭａｉｎ（メインにあるそのイタリアンの場所）」という第２のユーザステートメント２６０が、エージェントによって、メイン通り１２３番にある「Ｍａｒｉｏ’ｓ（マリオの店）」という名称のレストランを指すように変換され得る。マリオの店と関係するアクションを含んだ第３の複数のアクション示唆２６５（Ａ）〜（Ｂ）が表示され得るが、ユーザは、メイン通り３００番にある異なるレストラン、「Ｌｕｉｇｉ’ｓ（ルイジの店）」を意図していた可能性がある。ユーザは、インターフェース２００を介して、さらに／または音声コマンドなどの別の入力方法を介して、パーソナルアシスタントプログラム１１２と対話して、訂正を与えることができる。例えば、ユーザは、それらのアクションのうちの１つを右クリックし、さらにそのアクションを訂正するための表示されたメニューアイテムを選択することができ、またはユーザは、「ｃｏｒｒｅｃｔｉｏｎ（訂正）」と発言して、訂正ウインドウ２７０を出現させることができる。次に、ユーザは、メインにあるそのイタリアンの場所がルイジの店を指すことを入力することなどによって、これまでのステートメントのうちのいずれかに関する正しい解釈を与えることができる。

[017]図３は、会話学習および会話訂正の環境を実現するための本発明の或る実施形態に合致する方法２００に関与する一般的な段階を説明する流れ図である。方法３００は、図４に関連して後段でより詳細に説明されるコンピューティングデバイス４００を使用して実施され得る。方法３００の段階を実施する様態は、後段でさらに詳細に説明される。方法３００は、開始ブロック３０５で始まり、さらに段階３１０に進むことが可能であり、コンピューティングデバイス４００が、第１のユーザから発話された自然言語の語句を受け取ることが可能である。例えば、第１のユーザデバイス１３０の第１のユーザが、「Ｌｅｔ’ｓｇｏｏｕｔｔｏｎｉｇｈｔ（今夜、出かけよう）」と発言することが可能である。この語句が、第１のユーザデバイス１３０によってキャプチャされ、さらにパーソナルアシスタントプログラム１１２と共有され得る。

[018]次に、方法３００は、段階３１５に進むことが可能であり、コンピューティングデバイス４００が、発話された自然言語の語句が向けられた少なくとも１名の第２のユーザを識別することが可能である。例えば、第１のユーザが、第２のユーザと会話していることが可能である。第１のユーザと第２のユーザはともに、第１のユーザデバイス１３０によって聞き取られる範囲内にいる可能性があり、かつ／またはセルラ電話機などのそれぞれの第１のユーザデバイス１３０および第２のユーザデバイス１３５を介して会話をしていることが可能である。パーソナルアシスタントプログラム１１２が、その会話を傍聴し、さらに第２のユーザ、およびこのユーザの、第１のユーザに対する関係（例えば、個人的な友人、仕事上の同僚、配偶者など）を識別することが可能である。

[019]次に、方法３００は、段階３２０に進むことが可能であり、コンピューティングデバイス４００が、第１のユーザおよび第２のユーザに関連するコンテキスト状態が存在するかどうかを判定することが可能である。例えば、サーバ１０５が、その２名のユーザに関連するコンテキスト状態がコンテキストデータベース１１６の中に格納されているかどうかを判定することが可能である。そのようなコンテキスト状態は、先立った会合、コミュニケーション、話し方の習慣、および／または選好など、その２名のユーザ間のこれまでのやりとりの詳細を含み得る。

[020]コンテキスト状態が存在しない場合、方法３００は、段階３２５に進むことが可能であり、コンピューティングデバイス４００が、少なくとも１名の第２のユーザに関連する少なくとも１つの特性に従ってコンテキスト状態を作成することが可能である。例えば、第２のユーザが第１のユーザの上司であるというデータを含んだコンテキスト状態が作成され得る。

[021]コンテキスト状態が存在する場合、方法３００は、段階３１５に進むことが可能であり、コンピューティングデバイス４００が、コンテキスト状態をロードすることが可能である。例えば、パーソナルアシスタントプログラム１１２が、コンテキストデータベース１１６からコンテキスト状態をロードすることが可能である。

[022]段階３２５でコンテキスト状態を作成した後、または段階３３０でコンテキスト状態をロードした後、方法３００は、段階３３５に進むことが可能であり、コンピューティングデバイス４００が、そのコンテキスト状態に従って、発話された自然言語の語句をテキストベースの自然言語の語句に変換することが可能である。例えば、サーバ１０５が、発話された語句に対して音声／テキスト変換を行い、さらに／または自然言語の語句をコンテキスト依存のシンタックスに変換することが可能である。第１のユーザの語句が、同僚と話している間、「Ｈｅｗａｓａｇｒｅａｔｒａｉｎｍａｎ（彼は、偉大な雨男だった）」を含む場合、クエリサーバは、その意味を、沢山の商取引をもって来る誰かを指しているものとして変換することが可能である。しかし、同一の語句が、ユーザが映画を一緒に観ることを楽しむ友人に対して発言された場合、クエリサーバは、その意味をダスティンホフマンの映画、「ＲａｉｎＭａｎ（レインマン）」を指しているものとして変換することが可能である。

[023]次に、方法３００は、段階３４０に進むことが可能であり、コンピューティングデバイス４００が、テキストベースの自然言語の語句に関連する少なくとも１つのエージェントアクションを識別することが可能である。このエージェントアクションは、例えば、ハイパーテキストリンク、ビジュアルイメージ、少なくとも１つのさらなるテキスト語、および／または示唆されるアクションをユーザに提供することを含み得る。また、このエージェントアクションは、その語句に関連する何らかのタスクを行う、ネットワークベースのアプリケーションに対する呼出しなどの実行されるアクションを含むことも可能である。第１のユーザが、商取引をもって来る誰かについて職場の同僚に話している場合、当該の「ｒａｉｎｍａｎ（雨男）」と連絡をとる示唆されるアクションが識別され得る。映画を指している場合、その映画についてのウェブサイトに対するハイパーテキストリンクが、代わりに識別され得る。

[024]次に、方法３００は、段階３４５に進むことが可能であり、コンピューティングデバイス４００が、テキストベースの自然言語の語句、および少なくとも１つの意味的示唆を第１のユーザに表示することが可能である。例えば、変換された語句が、ユーザ入力パネル２１０内で表示されることが可能であり、さらに示唆されるアクションおよび／またはハイパーリンクが、パーソナルアシスタントパネル２２０内で表示されることが可能である。

[025]次に、方法３００は、段階３５０に進むことが可能であり、コンピューティングデバイス４００が、第１のユーザから訂正を受け取ることが可能である。例えば、ユーザが、会話の１つの語および／または複数の語を選択し、さらに訂正された変換への変更を行うことが可能である。別の例として、ユーザが、ユーザの語句が「ｔｈｅＩｔａｌｉａｎｐｌａｃｅｏｎＭａｉｎ（メインにあるイタリアンの場所）」であり、さらにパーソナルアシスタントプログラム１１２が誤ったレストランを識別し、さらにユーザが意図されるレストランを選択した場合などに、少なくとも１つの言葉を訂正することが可能である。

[026]次に、方法３００は、段階３５５に進むことが可能であり、コンピューティングデバイス４００が、受け取った訂正に従ってコンテキスト状態を更新することが可能である。例えば、ユーザが、「ｔｈｅＩｔａｌｉａｎｐｌａｃｅｏｎ１０^ｔｈ（１０番にあるイタリアンの場所）」でいずれのレストランが意図されるのかを訂正した場合、この訂正が、コンテキスト状態の一部として格納され、さらにユーザが次回にそのような言及を行った場合に思い出されることが可能である。次に、方法３００は、段階３６０で終了することが可能である。

[027]本発明に合致する或る実施形態が、コンテキストを認識した環境を実現するためのシステムを含み得る。このシステムは、メモリストレージと、このメモリストレージに結合された処理装置とを備え得る。処理装置は、第１のユーザから自然言語の語句を受け取り、この自然言語の語句に関連する少なくとも１名の第２のユーザを識別し、第１のユーザおよび少なくとも１名の第２のユーザに従ってコンテキスト状態を作成し、このコンテキスト状態に従って自然言語の語句をエージェントアクションに変換し、このエージェントアクションをユーザに表示し、ユーザからこのエージェントアクションに対する訂正を受け取り、さらに受け取った訂正に従ってコンテキスト状態を更新するように動作することが可能である。この訂正は、エージェントの通常の動作中に、さらに／またはエージェントが学習モードで動作している間に受け取られ得る。例えば、ユーザが、航空券を予約することなどの、或る特定のアクションを行う意図を指定にすることによって学習モードを呼び出すことができる。すると、エージェントが、いくつかのユーザ選好（例えば、選好される航空会社、座席のタイプ、移動時間帯）を学習する。自然言語の語句は、テキストの語句として、さらに／または発話された語句として受け取られることが可能である。処理装置は、エージェントアクションを第１のユーザに表示し、第１のユーザがこのエージェントアクションを行うことを許可するかどうかを判定し、さらに、許可する場合、このエージェントアクションを行うようにさらに動作することが可能である。次に、処理装置は、このアクションを行ったことの結果を第１のユーザおよび／または第２のユーザに表示するように動作することが可能である。許可を待つ代わりに、処理装置は、エージェントアクションを自動的に行い、さらにエージェントアクションを行ったことに関連する結果を第１のユーザおよび／または第２のユーザに表示するように動作してもよい。

[028]第１のユーザから同一の自然言語の語句を受け取ると、処理装置は、この自然言語の語句に関連する少なくとも１名の第３の（例えば、異なる）ユーザを識別し、第１のユーザおよび少なくとも１名の第３のユーザに従って第２のコンテキスト状態を作成し、さらにこのコンテキスト状態に従って自然言語の語句を第２のエージェントアクションに変換するように動作することが可能である。例えば、第２のユーザが、第１のユーザの仕事上の連絡先を含むことが可能であり、さらに第３のユーザが、第１のユーザの個人的な連絡先を含むことが可能である。

[029]本発明に合致する別の実施形態が、コンテキストを認識した環境を実現するためのシステムを含み得る。このシステムは、メモリストレージと、このメモリストレージに結合された処理装置とを備え得る。処理装置は、第１のユーザおよび第２のユーザに関連するコンテキスト状態を確立し、第１のユーザから発話された自然言語の語句を受け取り、この発話された自然言語の語句をテキストベースの自然言語の語句に変換し、このテキストベースの自然言語の語句を第１のユーザに表示し、このテキストベースの自然言語の語句に対する訂正を受け取り、さらに第１のユーザおよび第２のユーザに関連するコンテキスト状態を更新するように動作することが可能である。テキストベースの自然言語の語句は、ハイパーテキストリンク、ビジュアルイメージ、および／または示唆されるアクションなどの少なくとも１つの意味的示唆を含み得る。処理装置は、示唆されるアクションを実行し、さらに示唆されるアクションを実行したことに関連する結果を第１のユーザに表示するように動作することが可能である。訂正は、例えば、意味的示唆に対する訂正、および／または発話された自然言語の語句からテキストベースの自然言語の語句への変換に関連する訂正を含み得る。本発明の実施形態に合致して、訂正は、語句の中の或る言葉の意味を追加すること、および／または変更することを含み得る。例えば、「ｍｙｂａｎｄ（私のバンド）」を含む語句が、その言葉を、ユーザが演奏するバンドに関連する名前、記述、および／またはウェブページに関連付けるのに使用されることが可能である一方で、「ｄｏｌｐｈｉｎｓ（ドルフィンズ）」という語句が、プロのチームまたは動物ではなく、ユーザがプレーするチームに関連付けられ得る。処理装置は、特定のユーザらの間の会話に関連するコンテキスト状態を格納し、さらにそれらの状態を、同一のユーザらの間の後の会話に関してロードするように動作することが可能である。

[030]本発明と合致するさらに別の実施形態が、コンテキストを認識した環境を実現するためのシステムを含み得る。このシステムは、メモリストレージと、このメモリストレージに結合された処理装置とを備え得る。処理装置は、第１のユーザから発話された自然言語の語句を受け取り、この発話された自然言語の語句が向けられた少なくとも１名の第２のユーザを識別し、さらに第１のユーザおよび第２のユーザに関連するコンテキスト状態がメモリストレージの中に存在するかどうかを判定するように動作することが可能である。存在しない場合、処理装置は、少なくとも１名の第２のユーザに関連する少なくとも１つの特性に従って、コンテキスト状態を作成するように動作することが可能である。存在する場合、処理装置は、そのコンテキスト状態をロードするように動作することが可能である。

[031]次に、処理装置は、そのコンテキスト状態に従って発話された自然言語の語句をテキストベースの自然言語の語句に変換し、このテキストベースの自然言語の語句に関連する少なくとも１つのエージェントアクションを識別し、さらにこのテキストベースの自然言語の語句、および少なくとも１つの意味的示唆を第１のユーザに表示するように動作することが可能である。このエージェントアクションは、例えば、ハイパーテキストリンク、ビジュアルイメージ、少なくとも１つのさらなるテキスト語、および示唆されるアクションを含み得る。処理装置は、第１のユーザから訂正を受け取り、さらに受け取った訂正に従ってコンテキスト状態を更新するように動作することが可能である。

[032]図４は、コンピューティングデバイス４００を含むシステムのブロック図である。本発明の或る実施形態に合致して、前述したメモリストレージおよび処理装置は、図４のコンピューティングデバイス４００のようなコンピューティングデバイス内で実施され得る。ハードウェア、ソフトウェア、またはファームウェアの任意の適切な組合せが、メモリストレージおよび処理装置を実施するのに使用され得る。例えば、メモリストレージおよび処理装置は、コンピューティングデバイス４００内に、またはコンピューティングデバイス４００と組み合わされた他のいくつかのコンピューティングデバイス４１８において実施され得る。前述したシステム、デバイス、およびプロセッサは、例であり、さらに他のシステム、デバイス、およびプロセッサが、本発明の実施形態に合致して、前述したメモリストレージおよび処理装置を備え得る。さらに、コンピューティングデバイス４００は、前述した動作環境１００を含み得る。動作環境１００は、他の構成要素を備えることが可能であり、コンピューティングデバイス４００に限定されない。

[033]図４を参照すると、本発明の或る実施形態に合致するシステムが、コンピューティングデバイス４００のようなコンピューティングデバイスを含み得る。或る基本的な構成において、コンピューティングデバイス４００は、少なくとも１つの処理装置４０２と、システムメモリ４０４とを含み得る。コンピューティングデバイスの構成およびタイプに依存して、システムメモリ４０４は、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ））、不揮発性メモリ（例えば、読取り専用メモリ（ＲＯＭ））、フラッシュメモリ、または任意の組合せを含み得るが、これらに限定されない。システムメモリ４０４は、オペレーティングシステム４０５、および１つまたは複数のプログラミングモジュール４０６を含むことが可能であり、さらに証明書管理モジュール４０７を含み得る。オペレーティングシステム４０５は、例えば、コンピューティングデバイス４００の動作を制御することに適することが可能である。さらに、本発明のいくつかの実施形態は、グラフィックスライブラリ、他のオペレーティングシステム、または他の任意のアプリケーションプログラムと連携して実施されてもよく、いずれの特定のアプリケーションにも、いずれの特定のシステムにも限定されない。この基本的な構成が、図４に破線４０８内の構成要素で例示される。

[034]コンピューティングデバイス４００は、さらなる特徴または機能を有することが可能である。例えば、コンピューティングデバイス４００は、例えば、磁気ディスク、光ディスク、またはテープなどのさらなるデータストレージデバイス（リムーバブルおよび／または非リムーバブルの）を含むことも可能である。そのようなさらなるストレージが、図４にリムーバブルストレージ４０９および非リムーバブルストレージ４１０で例示される。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を格納するために任意の方法または技術で実施された揮発性媒体および不揮発性媒体、リムーバブルの媒体および非リムーバブルの媒体を含み得る。システムメモリ４０４、リムーバブルストレージ４０９、および非リムーバブルストレージ４１０はすべて、コンピュータ記憶媒体の例（すなわち、メモリストレージ）である。コンピュータ記憶媒体には、ＲＡＭ、ＲＯＭ、電気的に消去可能な読取り専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリもしくは他のメモリ技術、ＣＤ−ＲＯＭ、デジタルバーサタイルディスク（ＤＶＤ）もしくは他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、または情報を格納するのに使用され得るとともに、コンピューティングデバイス４００によってアクセスされ得る他の任意の媒体が含まれることが可能であるが、これらに限定されない。任意のそのようなコンピュータ記憶媒体が、デバイス４００の一部であり得る。また、コンピューティングデバイス４００は、キーボード、マウス、ペン、サウンド入力デバイス、タッチ入力デバイスなどの入力デバイス４１２（複数可）を有することも可能である。また、ディスプレイ、スピーカ、プリンタなどの出力デバイス４１４（複数可）が含められることも可能である。前述したデバイスは、例であり、他のデバイスが使用されてもよい。

[035]また、コンピューティングデバイス４００は、デバイ４００が、分散コンピューティング環境においてネットワーク、例えば、イントラネットまたはインターネットを介するなどして、他のコンピューティングデバイス４１８と通信できるようにすることが可能な通信接続部４１６を含むことも可能である。通信接続部４１６は、通信媒体の一例である。通信媒体は、典型的には、搬送波などの変調されたデータ信号、または他のトランスポート機構におけるコンピュータ可読命令、データ構造、プログラムモジュール、または他のデータによって具現化可能であり、さらに任意の情報配信媒体を含む。「変調されたデータ信号」という用語は、信号内に情報を符号化するように１つまたは複数の特性が設定されている、または変更されている信号を表すことが可能である。例として、限定としてではなく、通信媒体には、有線ネットワークまたは直接配線接続などの有線媒体、ならびに音響媒体、無線周波数（ＲＦ）媒体、赤外線媒体、または他のワイヤレス媒体などのワイヤレス媒体が含まれ得る。本明細書で使用されるコンピュータ可読媒体という用語には、記憶媒体と通信媒体がともに含まれ得る。

[036]前述したとおり、オペレーティングシステム４０５を含め、いくつかのプログラムモジュールおよびデータファイルが、システムメモリ４０４の中に格納され得る。処理装置４０２において実行される間、プログラミングモジュール４０６（例えば、パーソナルアシスタントプログラム１１２）は、例えば、前述した方法３００の段階のうちの１つまたは複数を含めたプロセスを行うことが可能である。前述したプロセスは、例であり、さらに処理装置４０２は、他のプロセスを行うことが可能である。本発明の実施形態に従って使用され得る他のプログラミングモジュールには、電子メールアプリケーションおよび電子コンタクトアプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、データベースアプリケーション、スライドプレゼンテーションアプリケーション、描画アプリケーションプログラムもしくはコンピュータ支援アプリケーションプログラムなどが含まれ得る。

[037]概して、本発明の実施形態に合致して、プログラムモジュールには、特定のタスクを行うことが可能な、または特定の抽象データ型を実施することが可能なルーチン、プログラム、構成要素、データ構造、および他のタイプの構造が含まれ得る。さらに、本発明の実施形態は、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースの家庭用電子機器もしくはプログラマブル家庭用電子機器、ミニコンピュータ、メインフレームコンピュータなどを含む他のコンピュータシステム構成で実施され得る。また、本発明の実施形態は、通信ネットワークを介して結び付けられた複数の遠隔処理デバイスによってタスクが行われる分散コンピューティング環境において実施されることも可能である。分散コンピューティング環境において、プログラムモジュールは、ローカルメモリストレージデバイスと遠隔メモリストレージデバイスの両方の中に配置され得る。

[038]さらに、本発明の実施形態は、ディスクリートの電子素子を備えた電気回路、論理ゲートを含むパッケージ化された、もしくは集積された電子チップ、またはマイクロプロセッサを利用する回路において、あるいは電子素子もしくはマイクプロセッサを含む単一のチップ上で実施され得る。また、本発明の実施形態は、機械技術、光学技術、流体技術、および量子技術を含むが、これらに限定されない、例えば、論理積、論理和、および否定などの論理演算を行うことができる他の技術を使用して実施されることも可能である。さらに、本発明の実施形態は、汎用コンピュータ内で、または他の任意の回路もしくはシステムにおいて実施されてもよい。

[039]本発明の実施形態は、例えば、コンピュータプロセス（メソッド）として、コンピューティングシステムとして、あるいはコンピュータプログラム製品またはコンピュータ可読媒体などの製造品として実施され得る。コンピュータプログラム製品は、コンピュータシステムによって可読であるとともに、コンピュータプロセスを実行するための命令のコンピュータプログラムを符号化したコンピュータ記憶媒体であり得る。また、このコンピュータプログラム製品は、コンピューティングシステムによって可読な、かつコンピュータプロセスを実行するための命令のコンピュータプログラムを符号化した、搬送波において伝搬される信号であることも可能である。したがって、本発明は、ハードウェアで、かつ／またはソフトウェア（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）で実施され得る。つまり、本発明の実施形態は、命令実行システムによって、または命令実行システムに関連して使用されるように、コンピュータによって使用可能な、または可読のプログラムコードが具現化されているコンピュータによって使用可能な、または可読の記憶媒体上のコンピュータプログラム製品の形態をとり得る。コンピュータによって使用可能な、または可読の媒体は、命令実行システム、命令実行装置、もしくは命令実行デバイスによって、または命令実行システム、命令実行装置、もしくは命令実行デバイスに関連して使用されるようにプログラムを含む、格納する、通信する、伝搬する、またはトランスポートすることが可能な任意の媒体であり得る。

[040]コンピュータによって使用可能な、または可読の媒体は、例えば、電子、磁気、光、電磁、赤外線、または半導体のシステム、装置、デバイス、または伝搬媒体であり得るが、これらに限定されない。より特定のコンピュータ可読媒体の例（網羅的でないリスト）として、コンピュータ可読媒体には、以下、すなわち、１つまたは複数の配線を有する電気接続、ポータブルコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、消去可能なプログラマブル読取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、およびポータブルコンパクトディスク読取り専用メモリ（ＣＤ−ＲＯＭ）が含まれる。コンピュータによって使用可能な、または可読の媒体は、プログラムが、例えば、紙または他の媒体の光学スキャンを介して電子的にキャプチャされ、その後、必要な場合、コンパイルされ、解釈され、またはそれ以外で適切に処理され、さらにその後、コンピュータメモリの中に格納され得るので、プログラムが印刷される紙または別の適切な媒体でさえあり得ることに留意されたい。

[041]本発明の実施形態は、例えば、本発明の実施形態による方法、システム、およびコンピュータプログラム製品のブロック図および／または動作上の例示を参照して前段で説明される。それらのブロックに記載される機能／動作は、いずれの流れ図に示される順序も外れて生じる場合がある。例えば、関与する機能／動作に依存して、連続して示される２つのブロックが、実際には、実質的に同時に実行可能であり、またはそれらのブロックが、ときとして、逆の順序で実行可能である。

[042]本発明のいくつかの実施形態が説明されてきたが、他の実施形態が存在することも可能である。さらに、本発明の実施形態は、メモリおよび他の記憶媒体の中に格納されたデータに関連するものとして説明されてきたものの、データは、ハードディスク、フロッピー（登録商標）ディスク、もしくはＣＤ−ＲＯＭのような二次ストレージデバイス、インターネットからの搬送波、または他の形態のＲＡＭもしくはＲＯＭなどの、他のタイプのコンピュータ可読媒体上に格納されること、またはそのようなコンピュータ可読媒体から読み取られることも可能である。さらに、開示される方法の段階は、本発明を逸脱することなく、段階を並べ替えることによること、ならびに／または段階を挿入すること、および／もしくは削除することによることを含め、任意の様態で変形され得る。

[043]本明細書に含められたコードの著作権を含むすべての権利は、本出願人に帰属し、本出願人の所有権である。本出願人は、本明細書に含められたコードに対するすべての権利を保有するとともに、留保し、さらに許可された特許の再現に関連してのみ本資料を再現する許可を与え、それ以外の目的では許可を与えない。

[044]本明細書は、例を含むが、本発明の範囲は、添付の特許請求の範囲によって示される。さらに、本明細書は、構造上の特徴、および／または方法上の動作に特有の言語で説明されてきたが、特許請求の範囲は、前述した特徴または動作に限定されない。むしろ、前述した特有の特徴および動作は、本発明の実施形態の例として開示される。

Claims

会話学習および会話訂正を実現するための方法であって、
エージェントによる、第１のユーザから自然言語の語句を受け取るステップと、
前記自然言語の語句が向けられた第２のユーザを識別するステップと、
前記第１のユーザおよび前記第２のユーザに関連するコンテキスト状態が存在しないときに、前記第１のユーザおよび前記第２のユーザに関連するコンテキスト状態を、前記第１のユーザと前記第２のユーザとの関係に基づいて作成するステップであって、前記第１のユーザと前記第２のユーザとの関係は、前記第１のユーザと前記第２のユーザの会話に基づいて識別されたものであるステップと、
前記第１のユーザおよび前記第２のユーザに関連するコンテキスト状態に従って前記自然言語の語句をエージェントアクションに変換するステップと、
前記エージェントアクションを前記第１のユーザに表示するステップと、
前記第１のユーザから前記エージェントアクションに対する訂正を受け取るステップと、
前記受け取った訂正に従って前記第１のユーザおよび前記第２のユーザに関連するコンテキスト状態を更新するステップと、
を含む、方法。
前記第１のユーザが前記エージェントアクションを行うことを許可するかどうかを判定するステップと、
前記許可に従って前記第１のユーザおよび前記第２のユーザに関連するコンテキスト状態を更新するステップと、
前記第１のユーザが前記エージェントアクションを行うことを許可すると判定したことに応答して、前記エージェントアクションを行うステップと、
をさらに含む請求項１に記載の方法。
前記第１のユーザから第２の自然言語の語句を受け取るステップと、
前記第２の自然言語の語句が向けられた第３のユーザを識別するステップと、
前記第１のユーザおよび前記第３のユーザに関連する第２のコンテキスト状態が存在しないときに、前記第１のユーザおよび前記第３のユーザに関連する第２のコンテキスト状態を、前記第１のユーザと前記第３のユーザとの関係に基づいて作成するステップであって、前記第１のユーザと前記第３のユーザとの関係は、前記第１のユーザと前記第３のユーザの会話に基づいて識別されたものであるステップと、
前記第１のユーザおよび前記第３のユーザに関連する第２のコンテキスト状態に従って前記第２の自然言語の語句を第２のエージェントアクションに変換するステップと、
をさらに含む請求項１又は２に記載の方法。
前記第１のユーザから前記第２のエージェントアクションに対する第２の訂正を受け取るステップと、
前記受け取った第２の訂正に従って前記第１のユーザおよび前記第３のユーザに関連する第２のコンテキスト状態を更新するステップと、
をさらに含む請求項３に記載の方法。
請求項１〜４のいずれか一項に記載の方法を実行するためのプログラム。
請求項１〜４のいずれか一項に記載の方法を実行するためのプログラムを記録した記録媒体。
会話学習および会話訂正を実現するためのシステムであって、
メモリストレージと、
前記メモリストレージに結合された処理装置とを備え、前記処理装置は、
第１のユーザから発話された自然言語の語句を受け取るステップと、
前記発話された自然言語の語句が向けられた第２のユーザを識別するステップと、
前記第１のユーザおよび前記第２のユーザに関連するコンテキスト状態が前記メモリストレージの中に存在するかどうかを判定するステップと、
前記第１のユーザおよび前記第２のユーザに関連するコンテキスト状態が前記メモリストレージの中に存在しないと判定したことに応答して、前記第１のユーザおよび第２のユーザに関連するコンテキスト状態を、前記第１のユーザと前記第２のユーザとの関係に基づいて作成するステップであって、前記第１のユーザと前記第２のユーザとの関係は、前記第１のユーザと前記第２のユーザの会話に基づいて識別されたものであるステップと、
前記第１のユーザおよび前記第２のユーザに関連するコンテキスト状態が前記メモリストレージの中に存在すると判定したことに応答して、前記第１のユーザおよび前記第２のユーザに関連するコンテキスト状態をロードすることと、
前記第１のユーザおよび前記第２のユーザに関連するコンテキスト状態に従って、前記発話された自然言語の語句をアクションに変換するステップと、
前記アクションを前記第１のユーザに表示するステップと、
前記第１のユーザから前記アクションに対する訂正を受け取るステップと、
前記受け取った訂正に従って前記第１のユーザおよび前記第２のユーザに関連するコンテキスト状態を更新するステップと、
を実行する、
システム。
前記処理装置は、
前記第１のユーザが前記アクションを行うことを許可するかどうかを判定するステップと、
前記許可に従って前記第１のユーザおよび前記第２のユーザに関連するコンテキスト状態を更新するステップと、
前記第１のユーザが前記アクションを行うことを許可すると判定したことに応答して、前記アクションを行うステップと、
をさらに実行する請求項７に記載のシステム。
前記処理装置は、
前記第１のユーザから第２の自然言語の語句を受け取るステップと、
前記第２の自然言語の語句が向けられた第３のユーザを識別するステップと、
前記第１のユーザおよび前記第３のユーザに関連する第２のコンテキスト状態が存在しないときに、前記第１のユーザおよび前記第３のユーザに関連する第２のコンテキスト状態を、前記第１のユーザと前記第３のユーザとの関係に基づいて作成するステップであって、前記第１のユーザと前記第３のユーザとの関係は、前記第１のユーザと前記第３のユーザの会話に基づいて識別されたものであるステップと、
前記第１のユーザおよび前記第３のユーザに関連する第２のコンテキスト状態に従って前記第２の自然言語の語句を第２のアクションに変換するステップと、
をさらに実行する請求項７又は８に記載のシステム。
前記処理装置は、
前記第１のユーザから前記第２のアクションに対する第２の訂正を受け取るステップと、
前記受け取った第２の訂正に従って前記第１のユーザおよび前記第３のユーザに関連する第２のコンテキスト状態を更新するステップと、
をさらに実行する請求項９に記載のシステム。