JP2010020273A

JP2010020273A - 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Info

Publication number: JP2010020273A
Application number: JP2008307076A
Authority: JP
Inventors: Di Profio Ugo; プロフィオウゴディ
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-12-07
Filing date: 2008-12-02
Publication date: 2010-01-28
Also published as: WO2009072567A1; CN101884064A; US20100312561A1; CN101884064B

Abstract

【課題】ＰＯＭＤＰを適用したグラウンディング処理を実行する装置および方法を実現する。
【解決手段】ユーザ発話を入力して言語解析を実行する言語解析部の解析情報と、タスクを実行するタスク管理部からのタスク実現性情報とを含む実体的情報などの観測情報を設定した部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を適用して、ユーザ発話によるユーザ要求の理解処理としてのグラウンディング処理を実行する構成としたので、効率的な理解が可能となり、迅速かつ正確なユーザ要求の把握およびユーザ要求に基づくタスク実行が可能となる。
【選択図】図４

Description

本発明は、情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。例えばユーザとテレビなどの情報処理装置とのコミュニケーションによって処理を実行する構成、具体的にはユーザの発する言葉を情報処理装置が解釈してユーザ要求に従ったタスクを実行する構成に適用される情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。

さらに、本発明は、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を適用して、システムがユーザの意思を正確に把握するためのグラウンディング処理を行なう情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。

例えば、テレビなどのシステムに対してリモコンの操作を行なうことなくユーザの発する言葉をシステムが解釈して処理を実行するといった構成について様々な研究がなされている。システムがユーザの言葉を理解して正確な処理を実行するためには、ユーザとシステムの共通理解が必要となる。

例えば、システムがユーザの要求を理解できない場合に、ユーザに対して疑問を解決するための質問を行い、ユーザからの応答などによって問題を解決してユーザの意思を正しく理解するといった処理が必要とされる。

このようなユーザとのコミュニケーションを行なうシステムの実行する処理は、大きく分けて２つの処理に分類できる。
１つは、ユーザの要求に応じてシステム内で実行する処理、例えばシステムがテレビであれば、ユーザ要求に応じてチャンネルを切り換えるといったシステム内部での処理を行なう処理である。このような処理はドメインタスク（ｄｏｍａｉｎｔａｓｋ）と呼ばれる。
もう１つは、例えばユーザの要求が理解できない場合などに、システムがユーザに質問をしてユーザの応答を確認するなどの会話処理を行いシステムとユーザ間の相互理解を深める処理である。この処理は会話タスク（ｃｏｎｖｅｒｓａｔｉｏｎａｌｔａｓｋ）と呼ばれる。

例えば、人と人との会話において、会話を行なっている複数の会話者が相互理解を行なうための処理はグラウンディング（Ｇｒｏｕｎｄｉｎｇ）と呼ばれる。このグラウンディングにおいて行なうべき処理には以下の２つの処理がある。
（１）相互理解がなされているかの確認処理
（２）相互理解のために実行する処理

（１）相互理解の確認のためには、理解しているか否かを判断するための基準が必要であり、例えば理解の確信度や、満足度を計る指標が必要と考えられる。また発話者と聴取者各々において、相互に理解していると判断するレベルが一致しているといったことも要求される。
（２）相互理解のために実行する処理、すなわち、グラウディング処理の実行に際しては、ユーザ間で、どのような会話や、やり取りが有効であるかといった指標や、グラウンディング行為（Ａｃｔ）の規格化といったことが重要であると考えられる。

相互理解を行なうための処理、すなわちグラウンディング処理について記述した従来技術として非特許文献１（ＤａｖｉｄＲ．ＴｒａｕｍａｎｄＪａｍｅｓＦ．Ａｌｌｅｎ．Ａｓｐｅｅｃｈａｃｔｓａｐｐｒｏａｃｈｔｏｇｒｏｕｎｄｉｎｇｉｎｃｏｎｖｅｒｓａｔｉｏｎ．ＩｎＰｒｏｃｅｅｄｉｎｇｓ２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｐｏｋｅｎＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＩＣＳＬＰ−９２），ｐａｇｅｓ１３７−４０，Ｏｃｔｏｂｅｒ１９９２）がある。

この非特許文献に示された構成について、図１、図２を参照して説明する。この文献では、例えば複数の人の間で行なわれるコミュニケーション処理において図１に示すような状態遷移構成を示している。図１に示す７つの状態、すなわち、
Ｓ．初期状態
１．開始直後状態
２．システム困惑状態
３．要確認状態
４．ユーザ困惑状態
Ｆ．グラウンディング状態
Ｄ．キャンセル状態
コミュニケーション処理においては、これらの７つの状態の遷移が発生すると想定している。

非特許文献１では、この状態遷移に対応する現在の状態と、状態遷移を発生させるアクションとの対応関係を図２に示す表のように定義している。図２は、現在の状態（Ｓ〜Ｄ）にあるときに、表に示す次のアクション（Ｉｎｉｔｉａｔｅ（Ｉ）〜ｃａｎｃｅｌ（Ｒ））を実行した場合に遷移する可能性のある次の状態を示している。次のアクションに示す（Ｉ）はアクション開始者（Ｉｎｉｔｉａｔｅｒ）、（Ｒ）は応答者（Ｒｅｓｐｏｎｄｅｒ）のアクションであることを示している。

例えば、初期状態（Ｓ）において、アクション開始者（Ｉｎｉｔｉａｔｅｒ）が何らかのアクション、例えばアクション開始者（Ｉｎｉｔｉａｔｅｒ）を第１ユーザとした場合、第１ユーザが発話した場合、状態は（Ｓ）から（１）に遷移する。さらに、状態（１）において、アクション開始者（Ｉｎｉｔｉａｔｅｒ）が発話を継続（ｃｏｎｔｉｎｕｅ）した場合、状態は（１）に留まるか、あるいは状態（４）に遷移する。

Ｆ．グラウンディング状態に進めば、会話を実行している複数のユーザは相互理解した状態に至ったと判断される。
Ｄ．キャンセルは相互理解に失敗した状態である。

この非特許文献１では、主として、人と人とのコミュニケーション処理における相互理解のプロセス、すなわちグラウンディングプロセスを解析している。このような相互理解（グラウンディング）処理は、人とシステム間のコミュニケーションにおいても必要となると考えられる。すなわち、ユーザがテレビなどのシステムに対して処理要求を行なう場合、ユーザとシステムとの間でも相互理解がなされることが正しい処理を実行するために必要であると考えられる。
ＤａｖｉｄＲ．ＴｒａｕｍａｎｄＪａｍｅｓＦ．Ａｌｌｅｎ．Ａｓｐｅｅｃｈａｃｔｓａｐｐｒｏａｃｈｔｏｇｒｏｕｎｄｉｎｇｉｎｃｏｎｖｅｒｓａｔｉｏｎ．ＩｎＰｒｏｃｅｅｄｉｎｇｓ２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｐｏｋｅｎＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＩＣＳＬＰ−９２），ｐａｇｅｓ１３７−４０，Ｏｃｔｏｂｅｒ１９９２

本発明は、上述の問題点に鑑みてなされたものであり、システムとユーザ間のコミュニケーションにおいて相互理解を行い、効率的にシステムに正しい処理を実行させることを可能とする情報処理装置、および情報処理方法、並びにコンピュータ・プログラムを提供することを目的とする。

さらに、本発明は、例えばユーザの発する言葉を、テレビなどのシステムが解釈して処理を実行する構成において、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を適用して、システムがユーザの意思を正確に把握して処理を行なうことを可能とする情報処理装置、および情報処理方法、並びにコンピュータ・プログラムを提供することを目的とする。

本発明の第１の側面は、
ユーザの発話を入力して解析する情報処理装置であり、
ユーザ発話を入力し言語解析を実行するユーザインタフェースと、
前記ユーザインタフェースを介して入力するユーザ発話情報の認識結果を入力し、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を適用して、ユーザ要求を理解するグラウンディング処理を実行する会話管理部と、
前記会話管理部のグラウンディング処理結果情報に基づいてタスクを実行するタスク管理部を有することを特徴とする情報処理装置にある。

さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、さらに、前記会話管理部の実行するグラウンディング処理においてユーザに対するシステムアクションの表示を実行する表示部を有することを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記会話管理部は、ユーザ発話に対応して生成される言語意味解析情報と、前記タスク管理部のタスク実現性を含む情報に基づいて生成される実体的情報を観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）として設定したＰＯＭＤＰを適用したグラウンディング処理を実行する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記会話管理部は、前記言語意味解析情報を観測情報として算出される状態値と、前記実体的情報を観測情報として算出される状態値を状態情報（Ｓｔａｔｅｓｐａｃｅ）として設定したＰＯＭＤＰを適用したグラウンディング処理を実行する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記会話管理部は、前記言語意味解析情報を観測情報として算出される状態値と、前記実体的情報を観測情報として算出される状態値とその他の観測情報から算出される状態値を状態情報（Ｓｔａｔｅｓｐａｃｅ）として設定したＰＯＭＤＰを適用したグラウンディング処理を実行する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記会話管理部は、前記言語意味解析情報を観測情報として算出される状態値と、前記実体的情報を観測情報として算出される状態値を含む状態情報（Ｓｔａｔｅｓｐａｃｅ）に基づいてコストを算出する構成を持つＰＯＭＤＰを適用したグラウンディング処理を実行する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記会話管理部は、前記ユーザの発話を含むユーザアクションを観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）として設定したＰＯＭＤＰを適用したグラウンディング処理を実行する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記会話管理部は、前記ユーザアクションを観測情報として算出される状態値を状態情報（Ｓｔａｔｅｓｐａｃｅ）として設定したＰＯＭＤＰを適用したグラウンディング処理を実行する構成であることを特徴とする。

さらに、本発明の第２の側面は、
ユーザの発話を入力して解析する情報処理装置における情報処理方法であり、
ユーザインタフェースが、ユーザ発話を入力し言語解析を実行する言語入力解析ステップと、
会話管理部が、前記ユーザインタフェースを介して入力するユーザ発話情報の認識結果を入力し、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を適用して、ユーザ要求を理解するグラウンディング処理を実行する会話管理ステップと、
タスク管理部が、前記会話管理ステップにおけるグラウンディング処理結果情報に基づいてタスクを実行するタスク管理ステップを有することを特徴とする情報処理方法にある。

さらに、本発明の情報処理方法の一実施態様において、前記情報処理方法は、さらに、表示部が、前記会話管理ステップにおけるグラウンディング処理においてユーザに対するシステムアクションの表示を実行するステップを有することを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記会話管理ステップは、ユーザ発話に対応して生成される言語意味解析情報と、前記タスク管理部のタスク実現性を含む情報に基づいて生成される実体的情報を観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）として設定したＰＯＭＤＰを適用したグラウンディング処理を実行するステップであることを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記会話管理ステップは、前記言語意味解析情報を観測情報として算出される状態値と、前記実体的情報を観測情報として算出される状態値を状態情報（Ｓｔａｔｅｓｐａｃｅ）として設定したＰＯＭＤＰを適用したグラウンディング処理を実行するステップであることを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記会話管理ステップは、前記言語意味解析情報を観測情報として算出される状態値と、前記実体的情報を観測情報として算出される状態値とその他の観測情報から算出される状態値を状態情報（Ｓｔａｔｅｓｐａｃｅ）として設定したＰＯＭＤＰを適用したグラウンディング処理を実行するステップであることを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記会話管理ステップは、前記言語意味解析情報を観測情報として算出される状態値と、前記実体的情報を観測情報として算出される状態値を含む状態情報（Ｓｔａｔｅｓｐａｃｅ）に基づいてコストを算出する構成を持つＰＯＭＤＰを適用したグラウンディング処理を実行するステップであることを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記会話管理ステップは、前記ユーザの発話を含むユーザアクションを観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）として設定したＰＯＭＤＰを適用したグラウンディング処理を実行するステップであることを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記会話管理ステップは、前記ユーザアクションを観測情報として算出される状態値を状態情報（Ｓｔａｔｅｓｐａｃｅ）として設定したＰＯＭＤＰを適用したグラウンディング処理を実行するステップであることを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記会話管理ステップは、前記ユーザアクションを観測情報として算出される状態値を含む状態情報（Ｓｔａｔｅｓｐａｃｅ）に基づいてコストを算出する構成を持つＰＯＭＤＰを適用したグラウンディング処理を実行するステップであることを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記会話管理ステップは、前記グラウンディング処理における実行アクションとして、処理開始（Ｉｎｉｔｉａｔｅ）、継続処理（ｃｏｎｔｉｎｕｅ）、確認処理（ｒｅｐａｉｒ）、確認要求処理（ＲｅｑＲｅｐａｉｒ）、理解確認応答（ａｃｋ）、理解確認応答要求（Ｒｅｑａｃｋ）、キャンセル（ｃａｎｃｅｌ）の各処理を定義したグラウンディングモデルを適用した処理を実行するステップである。

さらに、本発明の情報処理方法の一実施態様において、前記会話管理ステップは、前記グラウンディング処理における実行アクションとして、処理開始（Ｉｎｉｔｉａｔｅ）、理解確認応答（ａｃｋ）、キャンセル（ｃａｎｃｅｌ）の各処理を定義したグラウンディングモデルを適用した処理を実行するステップである。

さらに、本発明の第３の側面は、
情報処理装置において、ユーザの発話を入力して解析する情報処理を実行させるコンピュータ・プログラムであり、
ユーザインタフェースに、ユーザ発話を入力し言語解析を実行させる言語入力解析ステップと、
会話管理部に、前記ユーザインタフェースを介して入力するユーザ発話情報の認識結果を入力し、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を適用して、ユーザ要求を理解するグラウンディング処理を実行させる会話管理ステップと、
タスク管理部に、前記会話管理ステップにおけるグラウンディング処理結果情報に基づいてタスクを実行させるタスク管理ステップを有することを特徴とするコンピュータ・プログラムにある。

なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能な汎用コンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ・システム上でプログラムに応じた処理が実現される。

本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

本発明の一実施例の構成によれば、ユーザ発話を入力して言語解析を実行する言語解析部の解析情報と、タスクを実行するタスク管理部からのタスク実現性を含む実体的情報などの観測情報を設定した部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を適用して、ユーザ発話によるユーザ要求の理解処理としてのグラウンディング処理を実行する構成としたので、効率的な理解が可能となり、迅速かつ正確なユーザ要求の把握およびユーザ要求に基づくタスク実行が可能となる。

以下、図面を参照しながら本発明の実施形態に係る情報処理装置、および情報処理方法、並びにコンピュータ・プログラムの詳細について説明する。なお、説明は、以下の項目に従って行う。
（１）本発明の情報処理装置の実行する処理の概要
（２）本発明の情報処理装置の構成例および処理の詳細
（３）会話管理部の実行するグラウンディング処理の詳細
（４）ＰＯＭＤＰを適用したグラウンディング処理の具体例
（５）本発明の情報処理装置のハードウェア構成例

［（１）本発明の情報処理装置の実行する処理の概要］
本発明の情報処理装置は、例えばテレビなどのシステムであり、ユーザの発する言葉によって様々な処理、例えばチャンネルの切り替えなどの処理を行なう装置である。すなわちシステムとユーザとのコミュニケーションによって、ユーザの意図に従った処理を実行する。より正しいユーザの意図を得るために情報処理装置は、ユーザとの相互理解をえるための処理、すなわちグラウンディング（Ｇｒｏｕｎｄｉｎｇ）処理を行なう。

本発明の一実施例に係る情報処理装置は、この相互理解（グラウンディング）処理において、
（１）ベイジアンネットワーク（ＢＮ：ＢａｙｅｓｉａｎＮｅｔｗｏｒｋ）
（２）部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）
これらを利用する。

ベイジアンネットワーク（ＢＮ：ＢａｙｅｓｉａｎＮｅｔｗｏｒｋ）は、複数ノードからなり、各ノード間の関連性を定義したネットワークである。ベイジアンネットワークの生成処理、利用処理については、例えばＵＳ公開特許２００４／０２２０８９２、ＵＳ公開特許２００２／０１０３７９３などに記載されている。これらの文献はノード間の関連性を正しく設定した信頼度の高いベイジアンネットワークを生成するための処理について記載している。本発明の情報処理装置は、相互理解の推定やトラッキングを行なうためにベイジアンネットワークを利用する。例えば、ユーザの言葉に対する音声認識、言語処理、意味理解、内容把握といった様々なレベルでのデータを利用した処理を行なう。

部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）は、状態予測や行動決定手法の１つとして知られている。部分観測マルコフ決定過程（以下ＰＯＭＤＰ）の概要について説明する。

ＰＯＭＤＰは、以下の情報を適用した状態予測や行動決定を行なう手法である。
（ａ）状態情報（Ｓｔａｔｅｓｐａｃｅ）：Ｓ
（ｂ）行動情報（Ａｃｔｉｏｎｓｐａｃｅ）：Ａ
（ｃ）観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）：Ｏ
（ｄ）報酬情報（Ｒｅｗａｒｄｓｐａｃｅ）：Ｒ
これらの各情報が、時間（ｔ）の経過に伴って推移するものとし、
例えば状態遷移確率の算出関数や、報酬の算出関数、ある観測状態の発生確率を算出する関数などを定義して、取得可能な情報と、定義関数に基づいて状態予測や行動決定を実行する。

関数としては、例えば、時間Ｔ＝（ｔ−１）の状態Ｓ＝ｓ_ｔ−１と行動Ａ＝ａ_ｔ−１から、次の時間Ｔ＝（ｔ）の状態Ｓ＝ｓ_ｔへの状態遷移確率を算出する状態遷移確率算出関数：Ｔ（ｓ_ｔ，ａ_ｔ−１，ｓ_ｔ−１）＝Ｐ（ｓ_ｔ｜ａ_ｔ−１，ｓ_ｔ−１）
時間Ｔ＝（ｔ）の状態Ｓ＝ｓ_ｔと行動Ａ＝ａ_ｔからの報酬（Ｒｅｗａｒｄ）を算出する報酬関数：Ｒ（ｓ_ｔ，ａ_ｔ）
時間Ｔ＝（ｔ−１）の行動Ａ＝ａ_ｔ−１と、時間Ｔ＝（ｔ）の状態Ｓ＝ｓ_ｔとから時間Ｔ＝（ｔ）の観測状態の発生確率を算出する観測状態確率関数：Ｏ（ｓ_ｔ，ａ_ｔ−１，ｏ_ｔ−１）＝Ｐ（ｏ_ｔ｜ａ_ｔ−１，ｓ_ｔ）
などが定義され、利用されることになる。

ＰＯＭＤＰは、上記の各種の情報や関数を適用した状態予測や行動決定処理を行なう手法である。例えば、取得可能な少ない情報から最適と判断される行動（Ａｃｔｉｏｎ）を決定する処理などに適用され、具体的には、ロボットの行動を決定する処理や、計算機を使用したシミュレーションや、データ処理、さらには、事業経営などにおける最適なアクションの決定処理など、様々な行動の決定に適用可能である。

上記の各情報を適用したＰＯＭＤＰによる状態予測や行動決定処理について図３を参照して説明する。図３には時間Ｔ＝ｔ−１における状態ｓ_ｔ−１，行動ａ_ｔ−１、報酬Ｒ_ｔ−１、観測ｏ_ｔ−１と、その後の時間Ｔ＝ｔにおける状態ｓ_ｔ，行動ａ_ｔ、報酬Ｒ_ｔ、観測ｏ_ｔとを示している。各ブロックを結ぶ矢印は、相互の影響を示している。矢印の出力元（ｐａｒｅｎｔ）の情報や状態が矢印の出力先（ｃｈｉｌｄ）の状態や情報に変化を及ぼす可能性があることを示している。

例えば、時間Ｔ＝ｔ−１において、
報酬Ｒ_ｔ−１は、時間Ｔ＝ｔ−１の状態ｓ_ｔ−１，行動ａ_ｔ−１に基づいて、上述したように、報酬関数：Ｒ（ｓ_ｔ−１，ａ_ｔ−１）で求められる。
また、観測情報ｏ_ｔ−１は、例えば、状態ｓ_ｔ−１の変化に伴って変化する観察可能な情報である。
これらの関係は、いずれの時間Ｔ＝ｔ−１，ｔ，ｔ＋１，・・・においても同様となる。

さらに、異なる時間の関係において、時間Ｔ＝ｔにおける状態ｓ_ｔと、時間Ｔ＝ｔ−１における状態ｓ_ｔ−１および行動ａ_ｔ−１との関係は、上述した状態遷移確率算出関数：Ｔ（ｓ_ｔ，ａ_ｔ−１，ｓ_ｔ−１）＝Ｐ（ｓ_ｔ｜ａ_ｔ−１，ｓ_ｔ−１）によって対応付けられている。すなわち、時間Ｔ＝ｔにおける状態ｓ_ｔとなる確率は、前の時間Ｔ＝ｔ−１における、状態ｓ_ｔ−１および行動ａ_ｔ−１とから算出される。この関係は、連続する事象観測時間の間において、すべて成立する。

このように、ＰＯＭＤＰでは不確実性を含む対象領域において様々な情報（状態、行動、報酬、観測）を定義し、これらの情報に関連性に基づいて、不確実性を含む対象領域における状態遷移の予測や、自己の行動を決定する。行動の決定処理に際しては、例えば報酬が最も高く算出される行動を最善の行動として決定する処理を行なう。

なお、ＰＯＭＤＰの構築処理においては、情報（状態、行動、報酬、観測）間の関連性を正しく設定することが重要であり、このような処理にベイジアンネットワーク（ＢＮ：ＢａｙｅｓｉａｎＮｅｔｗｏｒｋ）が利用される。

本発明の一実施例に係る情報処理装置では、例えば、ユーザや装置の実行する発話レベルでのグラウンディングプロセスのモデリングやトラッキング処理、すなわち具体的なグラウンディングプロセスの構築のためにＰＯＭＤＰを利用する。

その他、本発明の一実施例に係る情報処理装置では、会話レベルでのグラウンディング実行のためのルールを利用する。例えばユーザからの指示に対して明確な理解を得るための質問の生成などのルールである。
具体的には、
ユーザ：ＩｎｅｅｄａｆｌｉｇｈｔｔｏＬｏｎｄｏｎ
このようなリクエストに対して、システムが相互理解を得るための確認処理として、
システム：Ｄｉｄｙｏｕｓａｙ "ｔｏＬｏｎｄｏｎ"？
このような確認のための質問を実行し、この質問に対してユーザから、
ユーザ：Ｙｅｓ
このような答えを取得することで、理解の確信度：Ｐを高めるといったプロセスである。
目的地がロンドンであることについての［確信度（Ｐ）］は、をユーザ応答（ｙｅｓ）によって高められることになる。
この場合の確信度Ｐは、
Ｐ（Ｄｅｓｔｉｎａｔｉｏｎ＝Ｌｏｎｄｏｎ｜Ｅｖｉｄｅｎｃｅ＝Ｙｅｓ）
として示される。

［（２）本発明の情報処理装置の構成例および処理の詳細］
本発明の情報処理装置の一構成例を図４に示す。ここでは、例えばチャンネル切り替えなどの処理を実行するテレビシステムを例として示している。テレビ装置の中に、ユーザとのコミュニケーションを実行するデータ処理部が構成されており、データ処理部において、ＰＯＭＤＰやベイジアンネットワークを利用した相互理解処理、すなわちグラウンディング処理を実行する。

図４に示す情報処理装置１００は、会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）１０１、表示部（Ｄｉｓｐｌａｙ）１０２、タスク管理部（ＴａｓｋＭａｎａｇｅｒ）１０３、ユーザインタフェース（ＧＵＩＦｒｏｎｔ−Ｅｎｄ）１０４を有する。ユーザインタフェース（ＧＵＩＦｒｏｎｔ−Ｅｎｄ）１０４には、言語解析部（ＳｅｍａｎｔｉｃＰａｒｓｅｒＥｍｕｌａｔｏｒ）１０５、グラウンディング処理解析部（ＧｒｏｕｎｄｉｎｇＡｃｔＥｍｕｌａｔｏｒ）１０６が含まれる。会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）１０１にはＰＯＭＤＰ実行部２００が含まれる。ＰＯＭＤＰ実行部２００は、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を適用したグラウンディング処理を実行する。

ユーザ２０の発生した言葉は、ユーザインタフェース（ＧＵＩＦｒｏｎｔ−Ｅｎｄ）１０４における言語解析部（ＳｅｍａｎｔｉｃＰａｒｓｅｒＥｍｕｌａｔｏｒ）１０５において既存の音声認識や意味解析が実行され言葉の意味の把握などが実行される。解釈された言葉は、会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）１０１に出力される。

また、グラウンディング処理の実行時には、ユーザの発した言葉はグラウンディング処理解析部（ＧｒｏｕｎｄｉｎｇＡｃｔＥｍｕｌａｔｏｒ）１０６にも入力され、グラウンディング処理、すなわちユーザ２０と情報処理装置１００との相互理解処理において実行されたユーザの行動や発話情報がグラウンディングアクト情報（ＧｒｏｕｎｄｉｎｇＡｃｔ）として抽出され、ユーザの発話情報とともに会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）１０１に出力される。

ユーザの言葉の意味が言語解析部（ＳｅｍａｎｔｉｃＰａｒｓｅｒＥｍｕｌａｔｏｒ）１０５において十分に把握された場合、会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）１０１は、タスク管理部（ＴａｓｋＭａｎａｇｅｒ）１０３に対してタスク実行要求を出力する。具体的には、例えばチャンネル切り替え指示情報や番組表（ＥＰＧ）表示要求などの言語情報（ＳｅｍａｎｔｉｃＥｌｅｍｅｎｔ）を出力する。タスク管理部（ＴａｓｋＭａｎａｇｅｒ）１０３は、会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）１０１から入力される要求に応じたタスクを実行する。タスクの実行結果は、例えば表示部（Ｄｉｓｐｌａｙ）１０２に出力される。

なお、タスク管理部（ＴａｓｋＭａｎａｇｅｒ）１０３は、会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）１０１に対して許容されるタスク情報などについてのタスク情報を通知する。

一方、ユーザの言葉の意味が言語解析部（ＳｅｍａｎｔｉｃＰａｒｓｅｒＥｍｕｌａｔｏｒ）１０５において十分に把握されなかった場合などにおいて実行されるグラウンディング処理の実行時には、グラウンディング処理解析部（ＧｒｏｕｎｄｉｎｇＡｃｔＥｍｕｌａｔｏｒ）１０６において、ユーザの行動や発話情報がグラウンディングアクト情報（ＧｒｏｕｎｄｉｎｇＡｃｔ）として抽出され、ユーザの発話情報とともに会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）１０１に出力される。

会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）１０１は、グラウンディング処理解析部（ＧｒｏｕｎｄｉｎｇＡｃｔＥｍｕｌａｔｏｒ）１０６からの情報入力に応じてグラウンディング処理、すなわち、ユーザとの相互理解を行なうためのグラウンディング処理を行なう。このグラウンディング処理に際しては、ＰＯＭＤＰが利用される。

グラウンディング処理では、例えば、表示部（Ｄｉｓｐｌａｙ）１０２に対する質問の表示などを実行し、その質問に対するユーザ２０からの回答をユーザインタフェース（ＧＵＩＦｒｏｎｔ−Ｅｎｄ）１０４を介して入力し、言語解析部（ＳｅｍａｎｔｉｃＰａｒｓｅｒＥｍｕｌａｔｏｒ）１０５における音声認識や意味解析などを含む言語解析、グラウンディング処理解析部（ＧｒｏｕｎｄｉｎｇＡｃｔＥｍｕｌａｔｏｒ）１０６におけるグラウンディングアクトの抽出などが実行され、その結果情報が会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）１０１に入力される。グラウンディング処理においては、この処理が繰り返し実行されることになる。

会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）１０１におけるＰＯＭＤＰを利用したグラウンディング処理によって、最終的にユーザの発した言葉の意味が確認された場合は、会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）１０１は、タスク管理部（ＴａｓｋＭａｎａｇｅｒ）１０３に対してタスク実行要求を出力する。具体的には、例えばチャンネル切り替え指示情報や番組表（ＥＰＧ）表示要求などの言語情報（ＳｅｍａｎｔｉｃＥｌｅｍｅｎｔ）を出力する。タスク管理部（ＴａｓｋＭａｎａｇｅｒ）１０３は、会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）１０１から入力される要求に応じたタスクを実行する。タスクの実行結果は、例えば表示部（Ｄｉｓｐｌａｙ）１０２に出力される。

［（３）会話管理部の実行するグラウンディング処理の詳細］
会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）１０１の実行するグラウンディング処理の詳細シーケンスについて、図５〜図７に示すフローチャートを参照して説明する。

図５は、会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）１０１の実行するグラウンディング処理の全体シーケンスを示すフローチャートである。
図６は、図５に示すステップＳ１０２の処理、すなわち、ユーザ発話に基づいてＰＯＭＤＰに適用する観測値（ｏｂｓｅｒｖａｔｉｏｎｓＩＤ）を生成する処理の詳細シーケンスを示すフローチャートである。
図７は、図５に示すステップＳ１０４の処理、すなわち、ＰＯＭＤＰ実行部２００におけるグラウンディング処理の詳細シーケンスを示すフローチャートである。ＰＯＭＤＰ実行部２００は、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を適用したグラウンディング処理が実行される。

図５に示すフローチャートの各ステップの処理について説明する。
まず、ステップＳ１０１においてユーザ発話が実行される。このユーザの発話情報は、図４に示すユーザインタフェース１０４を介して会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）１０１に入力される。

次に、会話管理部１０１はステップＳ１０２において、ユーザ発話に基づいてＰＯＭＤＰに適用する観測値（ｏｂｓｅｒｖａｔｉｏｎｓＩＤ）を生成する。

このステップＳ１０２の処理の詳細について、図６に示すフローチャートを参照して説明する。
会話管理部１０１は、ステップＳ２０１において、図４に示すユーザインタフェース１０４を介して入力したユーザ発話に対する理解確信度（ＢｅｌｉｅｆｏｆＵｎｄｅｒｓｔａｎｄｉｎｇ）を算出する。この時点では、言語解析処理に基づく情報（セマンティック情報）のみからの理解確信度を算出する。言語解析処理に基づく情報（セマンティック情報）のみからの言語意味的確信度［ＳｅｍＣｏｎｆ］の算出式を以下に示す。
ＳｅｍＣｏｎｆ＝ｆ（ＳｅｍａｎｔｉｃＣｏｎｆｉｄｅｎｃｅｆｒｏｍｌａｎｇｕａｇｅＰｒｏｃｅｓｓｅｉｎｇ）
なお、上記式において、ｆ（）は、会話管理部１０１が保持している言語意味的確信度［ＳｅｍＣｏｎｆ］算出のための関数である。

次に、会話管理部１０１は、ステップＳ２０２において、ユーザインタフェース１０４を介して入力したユーザ発話の言語解析結果の妥当性（ｒｅｌｅｖａｎｃｅ）の有無をタスク管理部（ＴａｓｋＭａｎａｇｅｒ）１０３に問い合わせる。タスク管理部１０３は、ユーザ発話の言語解析結果の妥当性（ｒｅｌｅｖａｎｃｅ）の有無を会話管理部１０１に通知する。

例えば、この処理がテレビシステムにおいて実行されている場合、チャンネル切り替えなどテレビの操作に関するユーザ発話が認識されていれば、タスク管理部１０３は、妥当性ありの判定結果を返し、テレビの操作に関係のない言葉、例えば「疲れた」等のユーザ発話が認識されていれば、タスク管理部１０３は、妥当性なしの判定結果を返す。なお、タスク管理部１０３はこの判定を行うためのプログラムを保持しており、そのプログラムに従って判定処理を行う。

次に、会話管理部１０１は、ステップＳ２０３において、ユーザインタフェース１０４を介して入力したユーザ発話の一貫性（ｃｏｎｓｉｓｔｅｎｃｙ）の有無をタスク管理部１０３に問い合わせる。タスク管理部１０３は、ユーザ発話の一貫性（ｃｏｎｓｉｓｔｅｎｃｙ）の有無を会話管理部１０１に通知する。

例えば、タスク管理部１０３が、すでに何らかのユーザからの要求に応じた処理を実行している場合などにおいて、その次の指示として入力されたユーザ発話が、現在の処理に矛盾のない一貫性を有するものであるか否かについてタスク管理部１０３が判定する。なお、タスク管理部１０３は、ユーザ発話の言語解析結果の妥当性（ｒｅｌｅｖａｎｃｅ）や一貫性（ｃｏｎｓｉｓｔｅｎｃｙ）の判定を行うためのプログラムを保持しており、そのプログラムに従って判定処理を行う。

次に、会話管理部１０１は、ステップＳ２０４において、タスク管理部１０３から受領した情報、すなわち実体的情報（ＰｒａｇｍａｔｉｃＯｐｉｎｉｏｎ）に基づいて、実体的情報に対応した理解確信度を算出する。この実体的情報からの理解確信度である実体的確信度［ＰｒａｇＣｏｎｆ］の算出式を以下に示す。
ＰｒａｇＣｏｎｆ＝ｇ（ｒｅｌｅｖａｎｃｅ，ｃｏｎｓｉｓｔｅｎｃｙ）
なお、上記式において、ｇ（）は、会話管理部１０１が保持している実体的確信度［ＰｒａｇＣｏｎｆ］算出のための関数である。

次に、ステップＳ２０５において、会話管理部１０１は、ステップＳ２０１で算出した言語解析処理に基づく情報（セマンティック情報）のみからの理解確信度である言語意味的確信度［ＳｅｍＣｏｎｆ］と、ステップＳ２０４で算出した実体的情報からの理解確信度である実体的確信度［ＰｒａｇＣｏｎｆ］の双方を加味した総合的確信度［ＯｖｅｒａｌｌＣｏｎｆ］を算出する。総合的確信度［ＯｖｅｒａｌｌＣｏｎｆ］の算出式を以下に示す。
ＯｖｅｒａｌｌＣｏｎｆ＝ｈ（ｓｅｍａｎｔｉｃ，ｐｒａｇｍａｔｉｃ）
なお、上記式において、ｈ（）は、会話管理部１０１が保持している総合的確信度［ＯｖｅｒａｌｌＣｏｎｆ］算出のための関数である。

次に、ステップＳ２０６において、会話管理部１０１は、ユーザインタフェース１０４を介して入力したユーザ発話のグラウンディングアクト（ＧｒｏｕｎｄｉｎｇＡｃｔ）の種類（カテゴリ）をタスク管理部１０３に問い合わせる。すなわち、ユーザ発話が、図２に示すＩｎｉｔｉａｔｅ（Ｉ）〜ｃａｎｃｅｌ（Ｒ）のいずれに相当するかについて問い合わせる。タスク管理部１０３は、ユーザ発話のアクションを予め保持するプログラムに従って解析し、解析結果としてユーザ発話がどのグラウンディングアクト（ＧｒｏｕｎｄｉｎｇＡｃｔ）であるかを会話管理部１０１に通知する。

ステップＳ２０７において、会話管理部１０１はＰＯＭＤＰに適用する観測値（ｏｂｓｅｒｖａｔｉｏｎｓＩＤ）を生成する。入力したユーザ発話に対応する観測値である。この観測値（ｏｂｓｅｒｖａｔｉｏｎｓＩＤ）は、以下の各値に基づいて算出される。
（ａ）ステップＳ２０１で算出した言語解析処理に基づく情報（セマンティック情報）のみからの言語意味的確信度［ＳｅｍＣｏｎｆ］
（ｂ）ステップＳ２０４で算出した実体的情報からの実体的確信度［ＰｒａｇＣｏｎｆ］
（ｃ）ステップＳ２０５で算出した総合的確信度［ＯｖｅｒａｌｌＣｏｎｆ］
（ｄ）ステップＳ２０６でタスク管理部１０３から取得したユーザ発話のグラウンディングアクト（ＧｒｏｕｎｄｉｎｇＡｃｔ）情報
これらの情報に基づいて、予め定めた算出プログラムに従って観測値（ｏｂｓｅｒｖａｔｉｏｎｓＩＤ）を決定する。

観測値（ｏｂｓｅｒｖａｔｉｏｎｓＩＤ）の決定式は以下のように示される。
ｏｂｓｅｒｖａｔｉｏｎｓＩＤ＝ｚ（ｓｅｍａｎｔｉｃ，ｐｒａｇｍａｔｉｃ，ｏｖｅｒａｌｌ，ｇｒｏｕｎｄｉｎｇａｃｔ）
なお、上記式において、ｚ（）は、会話管理部１０１が保持している観測値（ｏｂｓｅｒｖａｔｉｏｎｓＩＤ）算出のための関数である。

例えば、言語意味的確信度［ＳｅｍＣｏｎｆ］や、実体的確信度［ＰｒａｇＣｏｎｆ］や、総合的確信度［ＯｖｅｒａｌｌＣｏｎｆ］は、
確信度の高い［Ｈ（Ｈｉｇｈ）］、
確信度の低い［Ｌ（Ｌｏｗ）］
中間的な確信度［Ａ（Ａｍｂｉｇｕｏｕｓ）］
これらの３種類の値のいずれかに設定される。
また、ユーザ発話のグラウンディングアクト（ＧｒｏｕｎｄｉｎｇＡｃｔ）は、図２に示すＩｎｉｔｉａｔｅ（Ｉ）〜ｃａｎｃｅｌ（Ｒ）のいずれか（図２に示す例では１３種類）である。
結果として３×３×３×１３の異なる組み合わせパターンが存在することになる。

会話管理部１０１は、これらの組み合わせパターンの各々に対応する観測値（ｏｂｓｅｒｖａｔｉｏｎｓＩＤ）との対応データを保持し、この対応データに基づいて観測値（ｏｂｓｅｒｖａｔｉｏｎｓＩＤ）を算出する。

このように、図６に示すフローのステップＳ２０１〜Ｓ２０７の処理によって、会話管理部１０１はＰＯＭＤＰに適用する観測値（ｏｂｓｅｒｖａｔｉｏｎｓＩＤ）を生成する。入力したユーザ発話に対応する観測値である。

図５に戻り、会話管理部１０１の全体処理シーケンスについての説明を続ける。ステップＳ１０２において、会話管理部１０１は、図６に示すフローのステップＳ２０１〜Ｓ２０７の処理に従って、ユーザ発話に対応する観測値（ｏｂｓｅｒｖａｔｉｏｎｓＩＤ）を生成する。

次にステップＳ１０３において、ユーザ発話に対応する観測値（ｏｂｓｅｒｖａｔｉｏｎｓＩＤ）をＰＯＭＤＰ実行部２００に出力する。次のステップＳ１０４の処理は、ＰＯＭＤＰ実行部２００の実行するグラウンディング処理である。このＰＯＭＤＰ実行部２００の実行するグラウンディング処理の詳細について図７に示すフローチャートを参照して説明する。

ステップＳ３０１において、ＰＯＭＤＰ実行部２００は、ユーザ発話に対応する観測値（ｏｂｓｅｒｖａｔｉｏｎｓＩＤ）を受領する。次にステップＳ３０２において、ユーザ発話に対応する観測値（ｏｂｓｅｒｖａｔｉｏｎｓＩＤ）に基づいて理解確信度（ｂｅｌｉｅｆｓｔａｔｕｓ）の更新処理を実行する。

先に説明したように、ＰＯＭＤＰでは、理解確信度（ｂｅｌｉｅｆｓｔａｔｕｓ）は、観測値（ｏｂｓｅｒｖａｔｉｏｎｓＩＤ）に基づいて更新される。例えば前述したように、
ユーザ：ＩｎｅｅｄａｆｌｉｇｈｔｔｏＬｏｎｄｏｎ
このようなリクエストに対して、システムが相互理解を得るための確認処理として、
システム：Ｄｉｄｙｏｕｓａｙ "ｔｏＬｏｎｄｏｎ"？
このような質問を実行し、この質問に対してユーザから、
ユーザ：Ｙｅｓ
このような答えを取得することで、理解の確信度：Ｐを高めるといったプロセスである。
目的地がロンドンであることについての［確信度（Ｐ）］は、をユーザ応答（ｙｅｓ）によって高められることになる。
この場合の確信度Ｐは、
Ｐ（Ｄｅｓｔｉｎａｔｉｏｎ＝Ｌｏｎｄｏｎ｜Ｅｖｉｄｅｎｃｅ＝Ｙｅｓ）
として示される。

ステップＳ３０２においては、上記処理と同様の処理を行い、ユーザ発話に対応する観測値（ｏｂｓｅｒｖａｔｉｏｎｓＩＤ）に基づいて理解確信度（ｂｅｌｉｅｆｓｔａｔｕｓ）の更新処理を実行する。

次にステップＳ３０３において、装置からユーザに対して次に実行するアクションを決定する。このアクションは、例えば図２に示すＩｎｉｔｉａｔｅ（Ｉ）〜ｃａｎｃｅｌ（Ｒ）のいずれか（図２に示す例では１３種類）である。

先に説明したように、ＰＯＭＤＰは、以下の情報を適用した状態予測や行動決定を行なう手法である。
（ａ）状態情報（Ｓｔａｔｅｓｐａｃｅ）：Ｓ
（ｂ）行動情報（Ａｃｔｉｏｎｓｐａｃｅ）：Ａ
（ｃ）観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）：Ｏ
（ｄ）報酬情報（Ｒｅｗａｒｄｓｐａｃｅ）：Ｒ
これらの各情報が、時間（ｔ）の経過に伴って推移するものとし、
例えば状態遷移確率の算出関数や、報酬の算出関数、ある観測状態の発生確率を算出する関数などを定義して、取得可能な情報と、定義関数に基づいて状態予測や行動決定を実行する。

ここでは、ステップＳ３０１において、ユーザ発話に対応する新たな観測値（ｏｂｓｅｒｖａｔｉｏｎｓＩＤ）が取得され、この観測値に基づいて予め規定されたアルゴリズムに従って、次の行動（アクション）を決定する。例えば図２に示すＩｎｉｔｉａｔｅ（Ｉ）〜ｃａｎｃｅｌ（Ｒ）の各々を行った場合の報酬（Ｒｅｗａｒｄ）を算出する。なお、この場合の報酬（Ｒｅｗａｒｄ）は例えば理解確信度に相当する。

ステップＳ３０４では、ステップＳ３０３において算出した各アクション対応の報酬（Ｒｅｗａｒｄ）（＝理解確信度）のを比較して、最も高い値を示すアクションを実行アクションとして決定し、ＰＯＭＤＰ実行部２００が装置側のアクションとして実行する。

次に、ＰＯＭＤＰ実行部２００は、ステップＳ３０５において、実行アクションの識別子であるアクションＩＤを会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）１０１に通知する。

図５に戻り、会話管理部１０１の全体処理シーケンスについての説明を続ける。ステップＳ１０４において、ＰＯＭＤＰ実行部２００は、図７に示すフローのステップＳ３０１〜Ｓ３０７の処理に従ってグラウンディング処理を行う。すなわち装置側のアクションを決定し実行し、装置側の実行したアクションＩＤが会話管理部１０１に通知される。

会話管理部１０１は、ステップＳ１０５において、装置側の実行したアクションＩＤにより、グラウンディング、すなわち相互理解の達成状況を解析する。具体的には、装置側の実行アクションが、
（ａ）理解確認応答を意味する［Ａｃｋ］、または
（ｂ）タスク管理部（ＴａｓｋＭａｎａｇｅｒ）への処理要求を意味する［ＳｅｎｄｔｏＴＭ］
これらのいずれかである場合は、グラウンディング、すなわち相互理解が達成された（Ｇｒｏｕｎｄｅｄ）と判定する。

一方、装置側の実行アクションが、上記の（ａ）［Ａｃｋ］、（ｂ）［ＳｅｎｄｔｏＴＭ］、これら以外のアクションである場合には、グラウンディング、すなわち相互理解が達成されなかった（ＮｏｔＧｒｏｕｎｄｅｄ）と判定する。

グラウンディング、すなわち相互理解が達成された（Ｇｒｏｕｎｄｅｄ）と判定した場合は、ステップＳ１０６の判定がＹｅｓとなり、ステップＳ１０８に進む。
ステップＳ１０８では、グラウンディング・アクト（ＧｒｏｕｎｄｉｎｇＡｃｔ）のリセットを行い、ステップＳ１０９において、タスク管理部（ＴＭ）に対する通知（タスク依頼）を実行する。

一方、グラウンディング、すなわち相互理解が達成されなかった（ＮｏｔＧｒｏｕｎｄｅｄ）と判定した場合は、ステップＳ１０６の判定がＮｏとなり、ステップＳ１０７に進む。
ステップＳ１０７では、グラウンディング・アクト（ＧｒｏｕｎｄｉｎｇＡｃｔ）の結果、すなわち相互理解が得られていないことを例えば装置のディスプレイなどに表示してユーザに通知する処理を行う。その後、さらに継続してグラウンディング処理が行われることになる。

なお、図５に示す処理は、例えばグラウンディング処理の実行期間において継続的に繰り返し実行され、ステップＳ１０６において相互理解の達成が確認されるか、あるいは、グラウンディングフェーズが終了するまで繰り返し実行される。

次に、会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）１０１のＰＯＭＤＰ実行部２００の実行する処理、すなわち、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を適用した処理について図８を参照して説明する。

ＰＯＭＤＰ実行部２００は、ＰＯＭＤＰを適用した処理として、以下の２つの処理を行なう。
（Ａ）ユーザ発話がグラウンディング（理解）されたかの管理処理
（Ｂ）グラウンディングの状態（フェーズ）遷移の管理処理
これらの２種類の処理を実行する。

図８に、これら（Ａ），（Ｂ）２つの処理についてＰＯＭＤＰにおける管理情報、すなわち、先に図３を参照して説明した以下の情報
（ａ）状態情報（Ｓｔａｔｅｓｐａｃｅ）：Ｓ
（ｂ）行動情報（Ａｃｔｉｏｎｓｐａｃｅ）：Ａ
（ｃ）観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）：Ｏ
（ｄ）報酬情報（Ｒｅｗａｒｄｓｐａｃｅ）：Ｒ
を示す。

なお、このＰＯＭＤＰは、観測情報（Ｏｂｓｅｒｖａｔｉｏｎ）を末端ノードとしたベイジアンネットワーク（ＢａｙｅｓｉａｎＮｅｔｗｏｒｋ）によって構築されている。ベイジアンネットワークは、確率変数の依存関係を有向グラフの形式で表現したネットワークであり、例えば、事象をノード、各事象間の因果関係をリンクにより記述した有向グラフである。学習サンプルデータを用いた学習によって、ベイジアンネットワークを構成するノードについて、個別の条件に基づいて発生する確率をまとめたテーブルとしてのコンディショナル確率テーブル（ＣＰＴ：ＣｏｎｄｉｔｉｏｎａｌＰｒｏｂａｂｉｌｉｔｙＴａｂｌｅｓ）を得ることができる。

ベイジアンネットワークおよびコンディショナル確率テーブル（ＣＰＴ）について、図９を参照して説明する。ベイジアンネットワークは確率推論を行なうために適用され、特に、一部の事象のみしか観察できない不確実性を含む対象領域における予測や意思決定を定量的に取り扱うことができる。このアルゴリズムの基本は、複数の事象をノードとして設定しノード間の依存関係をモデル化するものである。

図９に示す例では、ノードとして、［Ｃｌｏｕｄｙ（曇り）］、［Ｓｐｒｉｎｋｌｅｒ（噴水）］、［Ｒａｉｎ（雨）］、［ＷｅｔＧｌａｓｓ（濡れ芝）］の４つの事象ノードを設定した例を示している。各ノードを結ぶ矢印は、矢印の出力元（親ノード）が、矢印の出力先（子ノード）の状態に影響を及ぼすことを示す。

図に示す例では、ノード［Ｃｌｏｕｄｙ（曇り）］が、
真（Ｔｒｕｅ）の確率＝０．５
偽（Ｆａｌｓｅ）の確率＝０．５
であるとする。

この場合、ノード［Ｃｌｏｕｄｙ（曇り）］を親ノードとする子ノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］において、Ｓｐｒｉｎｋｌｅｒ（噴水）が動作する（Ｔｒｕｅ）確率と、動作しない（Ｆａｌｓｅ）確率を、親ノード［Ｃｌｏｕｄｙ（曇り）］の状態に応じたコンディショナル確率テーブル（ＣＰＴ：ＣｏｎｄｉｔｉｏｎａｌＰｒｏｂａｂｉｌｉｔｙＴａｂｌｅｓ）として得ることができる。図９に示すＣＰＴ３０１である。

ＣＰＴ３０１は、
親ノード［Ｃｌｏｕｄｙ（曇り）］＝Ｆ（Ｆａｌｓｅ）の場合、
子ノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］が、
動作しない（Ｆａｌｓｅ）確率＝０．５
動作する（Ｔｒｕｅ）確率＝０．５
であり、
親ノード［Ｃｌｏｕｄｙ（曇り）］＝Ｔ（Ｔｒｕｅ）の場合、
子ノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］が、
動作しない（Ｆａｌｓｅ）確率＝０．９
動作する（Ｔｒｕｅ）確率＝０．１
であることを示している。
ＣＰＴ３０１において、Ｐ（Ｓ＝Ｆ）は、子ノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］が偽（Ｆａｌｓｅ）である確率（Ｐｏｓｓｉｂｉｌｉｔｙ）を示し、Ｐ（Ｓ＝Ｔ）は、子ノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］が真（Ｔｒｕｅ）である確率（Ｐｏｓｓｉｂｉｌｉｔｙ）を示している。

また、ノード［Ｃｌｏｕｄｙ（曇り）］を親ノードとする子ノード［Ｒａｉｎ（雨）］において、Ｒａｉｎ（雨）である（Ｔｒｕｅ）確率と、Ｒａｉｎ（雨）でない（Ｆａｌｓｅ）確率を、親ノード［Ｃｌｏｕｄｙ（曇り）］の状態に応じたコンディショナル確率テーブル（ＣＰＴ：ＣｏｎｄｉｔｉｏｎａｌＰｒｏｂａｂｉｌｉｔｙＴａｂｌｅｓ）として得ることができる。図９に示すＣＰＴ３０２である。

ＣＰＴ３０２は、
親ノード［Ｃｌｏｕｄｙ（曇り）］＝Ｆ（Ｆａｌｓｅ）の場合、
子ノード［Ｒａｉｎ（雨）］が、
雨でない（Ｆａｌｓｅ）確率＝０．８
雨である（Ｔｒｕｅ）確率＝０．２
であり、
親ノード［Ｃｌｏｕｄｙ（曇り）］＝Ｔ（Ｔｒｕｅ）の場合、
子ノード［Ｒａｉｎ（雨）］が、
雨でない（Ｆａｌｓｅ）確率＝０．２
雨である（Ｔｒｕｅ）確率＝０．８
であることを示している。

さらに、ノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］と、ノード［Ｒａｉｎ（雨）］を親ノードとする子ノード［ＷｅｔＧｌａｓｓ（濡れ芝）］において、芝が濡れている（Ｔｒｕｅ）確率と、芝が濡れていない（Ｆａｌｓｅ）確率を、親ノードノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］と［Ｒａｉｎ（雨）］の状態に応じたコンディショナル確率テーブル（ＣＰＴ：ＣｏｎｄｉｔｉｏｎａｌＰｒｏｂａｂｉｌｉｔｙＴａｂｌｅｓ）として得ることができる。図９に示すＣＰＴ３０３である。

ＣＰＴ３０３は、
親ノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］＝Ｆ（Ｆａｌｓｅ）
親ノード［Ｒａｉｎ（雨）］＝Ｆ（Ｆａｌｓｅ）の場合、
子ノード［ＷｅｔＧｌａｓｓ（濡れ芝）］が、
芝が濡れていない（Ｆａｌｓｅ）確率＝１．０
芝が濡れている（Ｔｒｕｅ）確率＝０．０
であり、
親ノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］＝Ｔ（Ｔｒｕｅ）
親ノード［Ｒａｉｎ（雨）］＝Ｆ（Ｆａｌｓｅ）の場合、
子ノード［ＷｅｔＧｌａｓｓ（濡れ芝）］が、
芝が濡れていない（Ｆａｌｓｅ）確率＝０．１
芝が濡れている（Ｔｒｕｅ）確率＝０．９
であり、
親ノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］＝Ｆ（Ｆａｌｓｅ）
親ノード［Ｒａｉｎ（雨）］＝Ｔ（Ｔｒｕｅ）の場合、
子ノード［ＷｅｔＧｌａｓｓ（濡れ芝）］が、
芝が濡れていない（Ｆａｌｓｅ）確率＝０．１
芝が濡れている（Ｔｒｕｅ）確率＝０．９
であり、
親ノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］＝Ｔ（Ｔｒｕｅ）
親ノード［Ｒａｉｎ（雨）］＝Ｔ（Ｔｒｕｅ）場合、
子ノード［ＷｅｔＧｌａｓｓ（濡れ芝）］が、
芝が濡れていない（Ｆａｌｓｅ）確率＝０．０１
芝が濡れている（Ｔｒｕｅ）確率＝０．９９
であることを示している。

このように子ノードでのそれぞれの結果が生じる確率を親ノードのコンディションの確率に依存した分布を示すテーブルとして設定したテーブルが、コンディショナル確率テーブル（ＣＰＴ：ＣｏｎｄｉｔｉｏｎａｌＰｒｏｂａｂｉｌｉｔｙＴａｂｌｅｓ）である。このようにベイジアンネットワークを適用することで、ある原因が生じたという条件のもとである結果が得られる条件付確率の表としてのＣＰＴを取得することができる。

本発明の構成では、先に図３を参照して説明した以下の情報
（ａ）状態情報（Ｓｔａｔｅｓｐａｃｅ）：Ｓ
（ｂ）行動情報（Ａｃｔｉｏｎｓｐａｃｅ）：Ａ
（ｃ）観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）：Ｏ
（ｄ）報酬情報（Ｒｅｗａｒｄｓｐａｃｅ）：Ｒ
これらの各情報に含まれる要素の依存関係を、ベイジアンネットワークを利用して表現し、図８に示すＰＯＭＤＰを設定している。ＰＯＭＤＰ実行部２００は、ベイジアンネットワークを利用したＰＯＭＤＰ処理として、以下の２つの処理を個別のベイジアンネットワークを設定して実行する。
（Ａ）ユーザ発話がグラウンディング（理解）されたかの管理処理
（Ｂ）グラウンディングの状態（フェーズ）遷移の管理処理
これらの２種類の処理を実行する。

図８に示す各ノードの情報について説明する。
（Ａ）ユーザ発話がグラウンディング（理解）されたかの管理処理において、
観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）は、
実体的情報（ＰｒａｇｍａｔｉｃＥｖｉｄｅｎｃｅ）２２１
全体観察情報（ＯｖｅｒａｌｌＵｎｄｅｒｓｔａｎｄｉｎｇ）２２２
言語意味解析情報（ＳｅｍａｎｔｉｃＥｖｉｄｅｎｃｅ）２２３
これら３つの観測情報によって構成される。

状態情報（Ｓｔａｔｅｓｐａｃｅ）は、
実体的状態（Ｐｒａｇｍａｔｉｃ）２３１
意味解析状態（Ｓｅｍａｎｔｉｃ）２３２
理解完了状態（Ｇｒｏｕｎｄｅｄ）２３３
これら３つの状態情報によって構成される。

さらに、報酬情報（Ｒｅｗａｒｄｓｐａｃｅ）として、
グラウンディングコスト（ＧｒｏｕｎｄｉｎｇＣｏｓｔ）２４１
が設定される。

観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）に含まれる実体的情報（ＰｒａｇｍａｔｉｃＥｖｉｄｅｎｃｅ）２２１は、例えば先に説明した図６のフローにおけるステップＳ２０２〜Ｓ２０３においてタスク管理部１０３から得られるタスクの実現性などに基づいて得られる情報である。
例えば先に説明したように、確信度の高い［Ｈ（Ｈｉｇｈ）］、確信度の低い［Ｌ（Ｌｏｗ）］、中間的な確信度［Ａ（Ａｍｂｉｇｕｏｕｓ）］これらの情報が得られる。なお、情報の取得態様は様々な設定が可能であり、タスクの実現性の有無に応じた（Ｙｅｓ，Ｎｏ）の２つの観測情報が得るような設定でもよい。

また、観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）に含まれる全体観察情報（ＯｖｅｒａｌｌＵｎｄｅｒｓｔａｎｄｉｎｇ）２２２は、観測情報２４１，２４３から得られる観測情報以外の様々な情報が含まれる。例えば発話を実行したユーザの会話状況、システムの出力した質問に応答した／しないといった状況や、ユーザが存在するか否かといった各種の情報についての観察情報などが含まれる。
各観測情報に応じて、上述した［Ｈ（Ｈｉｇｈ）］、［Ｌ（Ｌｏｗ）］、［Ａ（Ａｍｂｉｇｕｏｕｓ）］、あるいは、（Ｙｅｓ，Ｎｏ）等の観測情報が得られる。

さらに、観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）に含まれる言語意味解析情報（ＳｅｍａｎｔｉｃＥｖｉｄｅｎｃｅ）２２３は、ユーザの発した言葉の音声認識、意味解析結果の情報である。
例えば意味解析成功か否かに応じた［Ｈ（Ｈｉｇｈ）］、［Ｌ（Ｌｏｗ）］、［Ａ（Ａｍｂｉｇｕｏｕｓ）］、あるいは、（Ｙｅｓ，Ｎｏ）等の観測情報が得られる。

状態情報（Ｓｔａｔｅｓｐａｃｅ）に含まれるタスク実現性を含む実体的状態（Ｐｒａｇｍａｔｉｃ）２３１は、観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）に含まれる実体的情報（ＰｒａｇｍａｔｉｃＥｖｉｄｅｎｃｅ）２２１の解析情報に基づく状態値が設定される。
例えば、例えばタスクの実現性の有無に応じて［Ｈ（Ｈｉｇｈ）］、［Ｌ（Ｌｏｗ）］、［Ａ（Ａｍｂｉｇｕｏｕｓ）］、あるいは、（Ｙｅｓ，Ｎｏ）等の各状態が確率値として設定される。（Ｙｅｓ，Ｎｏ）の２状態を適用した場合には、例えばＹｅｓの確率［０．８］、Ｎｏの確率［０．２］などの確率値データが設定される。

図１０（１）に実体的解析状態（Ｐｒａｇｍａｔｉｃ）２３１の持つ時間経過に従った状態値データの推移例を示す。［Ｙｅｓ］の確率値と、［Ｎｏ］の確率値が観測情報（実体的情報（ＰｒａｇｍａｔｉｃＥｖｉｄｅｎｃｅ）２２１）の入力に従った時間経過に伴って変化する。

また、状態情報（Ｓｔａｔｅｓｐａｃｅ）に含まれる意味解析状態（Ｓｅｍａｎｔｉｃ）２３２は、観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）に含まれる言語意味解析情報（ＳｅｍａｎｔｉｃＥｖｉｄｅｎｃｅ）２２３の解析情報に基づく状態が設定される。
例えば、意味解析成功か否かの観測情報に応じて（Ｙｅｓ，Ｎｏ）の２つの状態が確率値として設定される。具体的には、Ｙｅｓの確率［０．９］、Ｎｏの確率［０．１］などの確率値データである。

図１０（２）に意味解析状態（Ｓｅｍａｎｔｉｃ）２３２の持つ時間経過に従った状態値データの推移例を示す。［Ｙｅｓ］の確率値と、［Ｎｏ］の確率値が観測情報（言語意味解析情報（ＳｅｍａｎｔｉｃＥｖｉｄｅｎｃｅ）２２３）の入力に従った時間経過に伴って変化する。

さらに、状態情報（Ｓｔａｔｅｓｐａｃｅ）に含まれる理解完了状態（Ｇｒｏｕｎｄｅｄ）２３３は、状態情報（Ｓｔａｔｅｓｐａｃｅ）に含まれるタスク実現性などを含む実体的状態（Ｐｒａｇｍａｔｉｃ）２３１と、意味解析状態（Ｓｅｍａｎｔｉｃ）２３２の情報と、その他の観測情報である全体観察情報（ＯｖｅｒａｌｌＵｎｄｅｒｓｔａｎｄｉｎｇ）２２２によって取得される観測情報、例えば発話を実行したユーザの会話状況、システムの出力した質問に応答した／しないといった状況や、ユーザが存在するか否かといった各種の情報についての観察情報などに基づく総合的な状態値が設定される。
例えば、理解が完了したか否かの（Ｙｅｓ，Ｎｏ）の２つの状態が確率値として設定される。具体的には、Ｙｅｓの確率［０．７］、Ｎｏの確率［０．３］などの確率値データである。

図１０（３）に理解完了状態（Ｇｒｏｕｎｄｅｄ）２３３の持つ時間経過に従った状態値データの推移例を示す。［Ｙｅｓ］の確率値と、［Ｎｏ］の確率値が、タスク実現性情報などによって生成される実体的状態（Ｐｒａｇｍａｔｉｃ）２３１と、意味解析状態（Ｓｅｍａｎｔｉｃ）２３２の情報と、その他の観測情報である全体観察情報（ＯｖｅｒａｌｌＵｎｄｅｒｓｔａｎｄｉｎｇ）２２２の入力に従った時間経過に伴って変化する。

報酬情報（Ｒｅｗａｒｄｓｐａｃｅ）として設定されるグラウンディングコスト（ＧｒｏｕｎｄｉｎｇＣｏｓｔ）２４１は、状態情報（Ｓｔａｔｅｓｐａｃｅ）に含まれる理解完了状態（Ｇｒｏｕｎｄｅｄ）２３３の実行のコストに相当する。例えば、グラウンディング処理によって十分な理解が得られて正しい処理が可能となった場合や、結果として理解が得られず時間の浪費となった場合にコストに差が生じる設定とされる。

また、（Ｂ）グラウンディングの状態（フェーズ）遷移の管理処理において、
観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）は、
ユーザグラウンディングアクション（ＵｓｅｒＧｒｏｕｎｄｉｎｇＡｃｔ）２５１
この情報によって構成される。

状態情報（Ｓｔａｔｅｓｐａｃｅ）は、
事前プロセス（Ｐｒｏｃｅｓｓｐｒｅｖｉｏｕｓｓｔａｔｅ）２６１
プロセス（ｐｒｏｃｅｓｓ）２６２
これら２つの状態情報によって構成される。

行動情報（Ａｃｔｉｏｎｓｐａｃｅ）は、
情報処理装置の実行するシステムグラウンディングアクション（ＳｙｓｔｅｍＧｒｏｕｎｄｉｎｇＡｃｔｉｏｎ）２７１
によって構成される。

さらに、報酬情報（Ｒｅｗａｒｄｓｐａｃｅ）として、
プロセスコスト（ＰｒｏｃｅｓｓＣｏｓｔｓ）２８１
アクションコスト（ＡｃｔｉｏｎＣｏｓｔｓ）２８２
これらの２つの報酬情報が設定される。

観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）に含まれるユーザグラウンディングアクション（ＵｓｅｒＧｒｏｕｎｄｉｎｇＡｃｔ）２５１は、グラウンディング処理において実行するユーザのアクション情報である。具体的には、例えば、先に図１、図２を参照して説明したグラウンディングモデルを適用する場合、ユーザのアクションとして、
発話開始処理（Ｉｎｉｔｉａｔｅ）
継続処理（ｃｏｎｔｉｎｕｅ）
確認処理（ｒｅｐａｉｒ）
確認要求処理（ＲｅｑＲｅｐａｉｒ）
理解確認応答（ａｃｋ）
理解確認応答要求（Ｒｅｑａｃｋ）
キャンセル（ｃａｎｃｅｌ）
これらの観測情報が得られることになる。

状態情報（Ｓｔａｔｅｓｐａｃｅ）に含まれる事前プロセス（Ｐｒｏｃｅｓｓｐｒｅｖｉｏｕｓｓｔａｔｅ）２６１、およびプロセス（ｐｒｏｃｅｓｓ）２６２は、グラウンディングアクションにおける時系列の２つの実行プロセス状態に相当する。例えば、先に図１、図２を参照して説明したグラウンディングモデルを適用する場合、これらの事前プロセス２６１、およびプロセス２６２の状態値は、Ｓ，１，２，３，４，Ｆ，Ｄ、すなわち、
Ｓ：初期状態、
１：開始直後、
２．システム困惑、
３．要確認
４．ユーザ困惑、
Ｄ．キャンセル
Ｆ．グラウンディング完了
これらの７状態のそれぞれに対する確率値が設定される。Ｓ〜Ｆのそれぞれの確率値の総計が［１］になるように、Ｓ〜Ｆ対応の確率値が設定される。

図１１にプロセス（ｐｒｏｃｅｓｓ）２６２の持つ時間経過に従った状態値データの推移例を示す。Ｓ〜Ｆ対応の確率値が観測情報（ユーザグラウンディングアクション（ＵｓｅｒＧｒｏｕｎｄｉｎｇＡｃｔ）２５１）の入力に従った時間経過に伴って変化する。

行動情報（Ａｃｔｉｏｎｓｐａｃｅ）に含まれるシステムグラウンディングアクション（ＳｙｓｔｅｍＧｒｏｕｎｄｉｎｇＡｃｔｉｏｎ）２７１は、情報処理装置の実行する相互理解のためのグラウンディングアクションである。これは、システム側の実行する処理であり、先に図１、図２を参照して説明したグラウンディングモデルを適用する場合、システムの実行アクションとして、
処理開始（Ｉｎｉｔｉａｔｅ）
継続処理（ｃｏｎｔｉｎｕｅ）
確認処理（ｒｅｐａｉｒ）
確認要求処理（ＲｅｑＲｅｐａｉｒ）
理解確認応答（ａｃｋ）
理解確認応答要求（Ｒｅｑａｃｋ）
キャンセル（ｃａｎｃｅｌ）
これらの処理が行なわれることになる。

報酬情報（Ｒｅｗａｒｄｓｐａｃｅ）として設定されるプロセスコスト（ＰｒｏｃｅｓｓＣｏｓｔｓ）２８１は、状態情報（Ｓｔａｔｅｓｐａｃｅ）に含まれるプロセス（Ｐｒｏｃｅｓｓ）２６２の実行のコストに相当する。例えば、プロセスに要する時間や、処理負荷などに応じてコストに差が生じる設定とされる。

報酬情報（Ｒｅｗａｒｄｓｐａｃｅ）として設定されるアクションコスト（ＡｃｔｉｏｎＣｏｓｔｓ）２８２は、行動情報（Ａｃｔｉｏｎｓｐａｃｅ）に含まれるシステムグラウンディングアクション（ＳｙｓｔｅｍＧｒｏｕｎｄｉｎｇＡｃｔｉｏｎ）２７１の実行のコストに相当する。例えば、グラウンディング処理に要する時間や、処理負荷などに応じてコストに差が生じる設定とされる。

図８に示すシステムグラウンディングアクション（ＳｙｓｔｅｍＧｒｏｕｎｄｉｎｇＡｃｔｉｏｎ）２７１は、ＰＯＭＤＰにおける行動情報（Ａｃｔｉｏｎｓｐａｃｅ）に対応する。システムグラウンディングアクション（ＳｙｓｔｅｍＧｒｏｕｎｄｉｎｇＡｃｔｉｏｎ）２７１は、情報処理装置の実行する相互理解のためのグラウンディングアクションである。

先に図１、図２を参照して説明したグラウンディングモデルを適用する場合、システムの実行アクションは、
処理開始（Ｉｎｉｔｉａｔｅ）
継続処理（ｃｏｎｔｉｎｕｅ）
確認処理（ｒｅｐａｉｒ）
確認要求処理（ＲｅｑＲｅｐａｉｒ）
理解確認応答（ａｃｋ）
理解確認応答要求（Ｒｅｑａｃｋ）
キャンセル（ｃａｎｃｅｌ）
これらの処理のいずれかとなる。これらの処理のいずれを実行するかについては、ＰＯＭＤＰにおいて設定されたコスト算出アルゴリズムに従って算出されたコストに応じて決定される。

先に図１、図２を参照して説明したグラウンディングモデルを適用する場合、システムの実行アクションは上記の７種類のアクション［処理開始（Ｉｎｉｔｉａｔｅ）〜キャンセル（ｃａｎｃｅｌ）］のいずれかとなる。しかし、先に説明したように、図１，２に示すグラウンディングモデルは一例であり、他の形態のグラウンディングモデルを適用することも可能である。

例えば、システムやユーザの実行アクションとして、
処理開始（Ｉｎｉｔｉａｔｅ）
理解確認応答（ａｃｋ）
キャンセル（ｃａｎｃｅｌ）
これらの３つのみのアクションのみを定義した簡略化したグラウンディングモデルを適用してもよい。

例えば図１に示すグラウンディングモデルから、処理開始（Ｉｎｉｔｉａｔｅ）、理解確認応答（ａｃｋ）、キャンセル（ｃａｎｃｅｌ）、これらの３つのアクションのみを残して、他のアクションを省略したグラウンディングモデルが利用できる。なお、図１に示すグラウンディングフェーズＳ，１，２，３，４，Ｆ，Ｄ、これらのフェーズも一部省略した設定としてもよい。

処理開始（Ｉｎｉｔｉａｔｅ）、理解確認応答（ａｃｋ）、キャンセル（ｃａｎｃｅｌ）、これらの３つのアクションのみを定義した簡略化したグラウンディングモデルを適用した場合の処理例について説明する。

例えば、ＰＯＭＤＰに従ったグラウンディング処理を実行する装置がテレビを持つ装置であり、ユーザがテレビのチャンネル変更を要求した場合についての具体例について説明する。
ユーザが「チャンネルを１にして下さい。」と装置側に要求した場合、まず、ユーザの言葉の意味を図４に示す言語解析部（ＳｅｍａｎｔｉｃＰａｒｓｅｒＥｍｕｌａｔｏｒ）１０５が解析する。

言語解析部（ＳｅｍａｎｔｉｃＰａｒｓｅｒＥｍｕｌａｔｏｒ）１０５においてユーザの発話が十分に把握されなかった場合などに、グラウンディング処理が実行される。この場合、グラウンディング処理解析部（ＧｒｏｕｎｄｉｎｇＡｃｔＥｍｕｌａｔｏｒ）１０６において、ユーザの行動や発話情報がグラウンディングアクト情報（ＧｒｏｕｎｄｉｎｇＡｃｔ）として抽出され、ユーザの発話情報とともに会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）１０１に出力される。

ユーザが「チャンネルを１にして下さい。」と装置側に要求した場合、会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）１０１は、ユーザとの相互理解を行なうためのグラウンディング処理として、表示部（Ｄｉｓｐｌａｙ）１０２に対して、例えば、以下の質問の表示を行う。
「チャンネルは１チャンネルでよろしいですか」

この質問に対するユーザ応答は、
（ａ）はい（Ｙｅｓ）、
（ｂ）いいえ（Ｎｏ）、
（ｃ）その他（Ｅｌｓｅ）、
これら（ａ）〜（ｃ）の３種類であることが想定される。

会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）１０１は、上記の３種類のユーザ応答に応じて、実行アクションを決定する。
例えば、
（Ａ）ユーザ応答がはい（Ｙｅｓ）の場合は、実行アクション（ＧｒｏｕｎｄｉｎｇＡｃｔ）＝理解確認応答（ａｃｋ）とする。
（Ｂ）ユーザ応答がいいえ（Ｎｏ）の場合は、実行アクション（ＧｒｏｕｎｄｉｎｇＡｃｔ）＝キャンセル（ｃａｎｃｅｌ）とする。
（Ｃ）ユーザ応答がその他（Ｅｌｓｅ）の場合は、実行アクション（ＧｒｏｕｎｄｉｎｇＡｃｔ）＝処理開始（Ｉｎｉｔｉａｔｅ）とする。

上記の実行アクション（ＧｒｏｕｎｄｉｎｇＡｃｔ）決定アルゴリズムは以下のように示すことができる。
ＩｆＡｎｓｗｅｒｉｓＹｅｓＮｏＡｎｓｗｅｒ
ＩｆＡｎｓｗｅｒｉｓＮｅｇａｔｉｖｅ
ＧｒｏｕｎｄｉｎｇＡｃｔ＝Ｃａｎｃｅｌ
Ｅｌｓｅ
ＧｒｏｕｎｄｉｎｇＡｃｔ＝Ａｃｋ
Ｅｌｓｅ
ＧｒｏｕｎｄｉｎｇＡｃｔ＝Ｉｎｉｔｉａｔｅ
このように示すことができる。

なお、実行アクション（ＧｒｏｕｎｄｉｎｇＡｃｔ）＝処理開始（Ｉｎｉｔｉａｔｅ）の場合には、さらなるユーザ発話を入力して新たなグラウンディング処理を開始するといった設定である。このようにアクション数を限定（上記例では３つ）として、簡略化したグラウンディングモデルを適用して処理を行ってもよい。

このように、本発明のグラウンディング処理は、様々な形態のグラウンディングモデルを利用して、またＰＯＭＤＰを適用したプロセスを実行することで、ユーザと情報処理装置間の相互理解を効率的に進めることができる。

［（４）ＰＯＭＤＰを適用したグラウンディング処理の具体例］
図１２以下を参照して、本発明のＰＯＭＤＰを適用したグラウンディング処理についての評価データについて説明する。図１２、図１３は、本発明のＰＯＭＤＰを適用したグラウンディング処理と、ＰＯＭＤＰを利用しないグラウンディング処理の処理結果の比較を示す図である。

まず、タスクとしてユーザが情報処理装置としてのシステム（テレビ）に対してある番組の表示要求を行なうものとする。例えばユーザが「スポーツが見たい」といった要求を行なって会話を開始、目的のスポーツ番組を表示するまでの処理を比較した。

比較対象は、
（１）ｂｅｌｉｅｖｅ：システムがユーザの言葉を全て信頼する処理
（２）ｃｏｎｆｉｒｍ：システムがユーザの言葉を入力した際、必ず確認を行なう処理
（３）ＰＯＭＤＰ：上述の本発明に従ったＰＯＭＤＰを利用した処理
これらの３つの処理態様である。

評価は、２つの指標、すなわち、
（Ａ）タスク達成率：目的の番組の選択に成功した割合、
（Ｂ）所要ターン数：目的の番組を選択するまでに要したユーザの発話数、
これらの指標を採用した。

４人のユーザが各々１０番組を選択する処理を行い、計４０回の処理を上記（１）〜（３）の処理を実行して得られた評価結果（Ａ）、（Ｂ）を図１２、図１３に示す。なお、それぞれ言語処理の精度が低精度のシステムと高精度のシステムの２通りのシステムを適用した場合の処理結果を示している。

図１２は、
（Ａ）タスク達成率：目的の番組の選択に成功した割合、
について、
（１）ｂｅｌｉｅｖｅ：システムがユーザの言葉を全て信頼する処理
（２）ｃｏｎｆｉｒｍ：システムがユーザの言葉を入力した際、必ず確認を行なう処理
（３）ＰＯＭＤＰ：上述の本発明に従ったＰＯＭＤＰを利用した処理
これらの３つの処理態様の各々の結果データを示している。図から理解されるように、ＰＯＭＤＰを適用した処理が、最もタスク達成率が高くなっており、他の処理態様に比較して優れた結果が得られている。

図１３は、
（Ｂ）所要ターン数：目的の番組を選択するまでに要したユーザの発話数、
について、
（１）ｂｅｌｉｅｖｅ：システムがユーザの言葉を全て信頼する処理
（２）ｃｏｎｆｉｒｍ：システムがユーザの言葉を入力した際、必ず確認を行なう処理
（３）ＰＯＭＤＰ：上述の本発明に従ったＰＯＭＤＰを利用した処理
これらの３つの処理態様の各々の結果データを示している。図から理解されるように、［ｂｅｌｉｅｖｅ］、すなわち、システムがユーザの言葉を全て信頼する処理は、ターン数が最も少ないが、ＰＯＭＤＰを適用した処理も［ｂｅｌｉｅｖｅ］と同レベルのターン数で処理が完了している。

［ｂｅｌｉｅｖｅ］すなわち、システムがユーザの言葉を全て信頼する処理は図１２に示すタスク達成率が低く、タスク達成率と、所要ターン数を考慮した総合的な評価として本発明に従ったＰＯＭＤＰを適用した処理が優れている結論づけることができる。

次に、図１４〜図１７を参照して、ＰＯＭＤＰを利用したグラウンディング所の具体的な処理例について説明する。図１４〜図１７の例は、それぞれ以下の処理例である。
（１）ユーザとシステム間のコミュニケーションが良好に行なわれた場合（図１４）
（２）ユーザからの要求が曖昧（低信頼度）である場合（図１５）
（３）ユーザからの要求をシステムが間違って理解した場合（図１６）
（４）ユーザとシステム間のコミュニケーションが長い場合（図１７）
これらの処理例である。

図１４〜図１７には、それぞれ、
ユーザとシステム（情報処理装置）との質問シーケンスと、
（Ａ）グラウンディング状態遷移
（Ｂ）グラウンディング完了状態遷移
をユーザからの発話入力に対応する遷移データとして示している。
（Ａ）グラウンディング状態遷移は、図８に示すＰＯＭＤＰにおけるプロセス（Ｐｒｏｃｅｓｓ）２６２の状態遷移に相当し、
（Ｂ）グラウンディング完了状態遷移は、図８に示すＰＯＭＤＰにおける理解完了（Ｇｒｏｕｎｄｅｄ）２３３、タスク実現性などの情報によって生成される実体的解析（Ｐｒａｇｍａｔｉｃ）２３１、意味解析（Ｓｅｍａｎｔｉｃ）２３２各々における［Ｙｅｓ］の確率値に対応する。
以下、図１４〜図１７の各々について説明する。

（１）ユーザとシステム間のコミュニケーションが良好に行なわれた場合
図１４は、ユーザとシステム間のコミュニケーションが良好に行なわれた場合である。
この場合、例えば、（Ａ）グラウンディング状態遷移は、
Ｓ（初期状態）→１（開始直後）→Ｆ（グラウンディング）
と順調に推移してグラウンディング、すなわちユーザとシステム間の相互理解が行なわれたことを示している。

（Ｂ）グラウンディング完了状態遷移については、理解完了（Ｇｒｏｕｎｄｅｄ）２３３、実体的解析（Ｐｒａｇｍａｔｉｃ）２３１、意味解析（Ｓｅｍａｎｔｉｃ）２３２各々における［Ｙｅｓ］の確率値が、２回目の発話入力時点で、［Ｙｅｓ］の確信度が高くなり、ほぼユーザの要求が理解されたことが確信された状態であることが示されている。

（２）ユーザからの要求が曖昧（低信頼度）である場合
図１５は、ユーザからの要求が曖昧（低信頼度）である場合である。ユーザからの２番目の発話入力、
［スポーツが見たい］
この発話がシステム側ではっきり聞き取れないなどの問題が発生したものであり、システム側では、
［アニメで間違いないでしょうか］
という確認を求める質問を行なった例である。

この場合、例えば、（Ａ）グラウンディング状態遷移は、
Ｓ（初期状態）→１（開始直後）→（１（開始直後）≒０．６，２（システム困惑）≒０．１，４（ユーザ困惑）≒０．３）→Ｆ（グラウンディング）
といった推移になっており、ユーザグラウンディング、すなわちユーザとシステム間の理解がユーザ発話２〜３において困惑した状態が発生したことを示している。

（Ｂ）グラウンディング完了状態遷移については、理解完了（Ｇｒｏｕｎｄｅｄ）２３３、実体的む解析（Ｐｒａｇｍａｔｉｃ）２３１、意味解析（Ｓｅｍａｎｔｉｃ）２３２各々における［Ｙｅｓ］の確率値が、２回目の発話入力時点で、［Ｙｅｓ］の確信度が一旦、低くなり、３回目の発話入力時点で、［Ｙｅｓ］の確信度が低くなり、ほぼユーザの要求が理解されたことが確信された状態であることが示されている。

（３）ユーザからの要求をシステムが間違って理解した場合
図１６は、ユーザからの要求をシステムが間違って理解した場合である。ユーザからの２番目の発話入力、
［スポーツが見たい］
この発話がシステム側ではっきり聞き取れないなどの問題が発生したものであり、システム側では、
［アニメで間違いないでしょうか］
という確認を求める質問を行ない、さらに、この質問をユーザが聞き取れず、３番目の発話入力、
［何て言いましたか］
このユーザ発話があり、さらにシステムが、
［アニメが見たいのですか］
と質問して、結果として、ユーザから否定応答、
［違います］
と入力された場合の処理である。

この場合、例えば、（Ａ）グラウンディング状態遷移は、
Ｓ（初期状態）→１（開始直後）→（２（システム困惑）≒０．２，４（ユーザ困惑）≒０．８）→（３（要確認）≒０．２，Ｄ（キャンセル）≒０．８）
といった推移になっており、ユーザグラウンディング、すなわちユーザとシステム間の理解が実現されず、キャンセル状態に至ったことを示している。

（Ｂ）グラウンディング完了状態遷移については、理解完了（Ｇｒｏｕｎｄｅｄ）２３３、実体的解析（Ｐｒａｇｍａｔｉｃ）２３１、意味解析（Ｓｅｍａｎｔｉｃ）２３２各々における［Ｙｅｓ］の確率値が、２回目の発話入力時点で、［Ｙｅｓ］の確信度が低くなっているが、その後回復しており、解析情報については、大きな問題が発生していないことを示している。

（４）ユーザとシステム間のコミュニケーションが長い場合
図１７は、ユーザとシステム間のコミュニケーションが長い場合の例であり、ユーザ発話１〜５の入力によってグラウンディングされた例である。

この場合、例えば、（Ａ）グラウンディング状態遷移は、
Ｓ（初期状態）→１（開始直後）→・・・・→Ｆ（グラウンディング）
といったユーザ発話回数に応じて、複数の状態を経過した後グラウンディング状態に至る推移になっており、最終的にユーザグラウンディング、すなわちユーザとシステム間の理解状態に至ったことを示している。

（Ｂ）グラウンディング完了状態遷移については、理解完了（Ｇｒｏｕｎｄｅｄ）２３３、実体的解析（Ｐｒａｇｍａｔｉｃ）２３１、意味解析（Ｓｅｍａｎｔｉｃ）２３２各々における［Ｙｅｓ］の確率値が、２回目の発話入力時点で、［Ｙｅｓ］の確信度が高くなり、この解析情報については、何ら問題が発生していないことを示している。

［（５）本発明の情報処理装置のハードウェア構成例］
次に、上述したＰＯＭＤＰを利用したグラウンディング処理を実行する情報処理装置の構成例について、図１８を参照して説明する。情報処理装置４５０は例えば、プログラム実行機能を備えた情報処理装置、例えば一般的なＰＣやプログラム実行部としてのＣＰＵを備えたテレビなど様々な装置によって実現される。なお、ハードウェア構成の具体例については、後段で説明する。

情報処理装置４５０は、ユーザインタフェース４５１、ＰＯＭＤＰを適用したグラウンディング処理などを実行する会話管理部４５２、タスク管理部４５３、表示部４５４、記憶部４５５、データベース４５６を有する。ユーザインタフェース４５１、会話管理部４５２、タスク管理部４５３、表示部４５４の各々は、先に図４を参照して説明した各構成に対応する。

例えば、ユーザインタフェース４５１を介してユーザ発話が入力されると、会話管理部４５２においてＰＯＭＤＰを適用したグラウンディング処理が実行される。会話管理部４５２は、先に図４〜図８等を参照して説明したＰＯＭＤＰによるグラウンディング処理を実行する。タスク管理部４５２は、情報処理装置４５０において実行するタスクの管理を実行する。詳細は、先に図４を参照して説明した通りである。

なお、データベース４５６には、ＰＯＭＤＰに適用するプログラム、コスト算出アルゴリズム、ＰＯＭＤＰに適用される状態遷移確率の算出関数や、報酬の算出関数、ある観測状態の発生確率を算出する関数などの情報、質問ルールなどのデータを格納している。記憶部４５４は、各種データ処理に適用するパラメータ、プログラムの格納領域、ワーク領域などに用いられるメモリである。

最後に、上述した処理を実行する情報処理装置のハードウェア構成例について、図１９を参照して説明する。ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）５０１は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）に対応する処理、上述の実施例において説明したデータ処理部の実行主体として機能する。具体的には、ＰＯＭＤＰを適用したグラウンディング処理、タスク管理処理などを実行する。これらの処理は、各情報処理装置のＲＯＭ、ハードディスクなどのデータ記憶部に格納されたコンピュータ・プログラムに従って実行される。

ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）５０２は、ＣＰＵ５０１が使用するプログラム、ＰＯＭＤＰ生成処理プログラムや演算パラメータ等を格納する。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）５０３は、ＣＰＵ５０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはＣＰＵバスなどから構成されるホストバス５０４により相互に接続されている。

ホストバス５０４は、ブリッジ５０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス５０６に接続されている。

音声入力部５０８はユーザの発話を入力する。入力部５０９はユーザにより操作される入力デバイスである。ディスプレイ５１０は、液晶表示装置またはＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）などから成る。

ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）５１１は、ハードディスクを内蔵し、ハードディスクを駆動し、ＣＰＵ５０１によって実行するプログラムや情報を記録または再生させる。ハードディスクは、例えばＰＯＭＤＰ生成に適用するルールなどの格納手段などに利用され、さらに、データ処理プログラム等、各種コンピュータ・プログラムが格納される。

ドライブ５１２は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体５２１に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース５０７、外部バス５０６、ブリッジ５０５、およびホストバス５０４を介して接続されているＲＡＭ５０３に供給する。

接続ポート５１４は、外部接続機器５２２を接続するポートであり、ＵＳＢ，ＩＥＥＥ１３９４等の接続部を持つ。接続ポート５１４は、インタフェース５０７、および外部バス５０６、ブリッジ５０５、ホストバス５０４等を介してＣＰＵ５０１等に接続されている。通信部５１５は、ネットワークに接続されている。

なお、図１９に示す情報処理装置のハードウェア構成例は、ＰＣを適用して構成した装置の一例であり、図１９に示す構成に限らず、上述した実施例において説明した処理を実行可能な様々な装置が適用可能である。

以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

以上、説明したように、本発明の一実施例の構成によれば、ユーザ発話を入力して言語解析を実行する言語解析部の解析情報と、タスクを実行するタスク管理部からのタスク実現性情報とを含む実体的情報などの観測情報を設定した部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を適用して、ユーザ発話によるユーザ要求の理解処理としてのグラウンディング処理を実行する構成としたので、効率的な理解が可能となり、迅速かつ正確なユーザ要求の把握およびユーザ要求に基づくタスク実行が可能となる。

グラウンディングプロセスにおける状態遷移の一例について説明する図である。グラウンディングプロセスにおけるアクションと状態遷移の対応例について説明する図である。部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）の適用処理例について説明する図である。本発明の一実施例に係る情報処理装置の構成および処理について説明する図である。本発明の一実施例に係る情報処理装置の会話管理部の処理について説明するフローチャートを示す図である。本発明の一実施例に係る情報処理装置の会話管理部の処理について説明するフローチャートを示す図である。本発明の一実施例に係る情報処理装置の会話管理部のＰＯＭＤＰ実行部の処理について説明するフローチャートを示す図である。本発明の一実施例に係る情報処理装置の会話管理部の実行するＰＯＭＤＰ適用処理について説明する図である。ベイジアンネットワークおよびコンディショナル確率テーブル（ＣＰＴ）について説明する図である。ＰＯＭＤＰにおいて設定される状態情報の時間経過に従った状態値データの推移例を示す図である。ＰＯＭＤＰにおいて設定される状態情報の時間経過に従った状態値データの推移例を示す図である。本発明の情報処理装置の実行するＰＯＭＤＰ適用処理およびその他の処理におけるグラウンディング処理の比較結果について説明する図である。本発明の情報処理装置の実行するＰＯＭＤＰ適用処理およびその他の処理におけるグラウンディング処理の比較結果について説明する図である。本発明の情報処理装置の実行するＰＯＭＤＰを適用したグラウンディング処理例について説明する図である。本発明の情報処理装置の実行するＰＯＭＤＰを適用したグラウンディング処理例について説明する図である。本発明の情報処理装置の実行するＰＯＭＤＰを適用したグラウンディング処理例について説明する図である。本発明の情報処理装置の実行するＰＯＭＤＰを適用したグラウンディング処理例について説明する図である。本発明の情報処理装置の構成例について説明する図である。本発明の情報処理装置のハードウェア構成例について説明する図である。

符号の説明

２０ユーザ
１００情報処理装置
１０１会話管理部（ＤｉｓｃｏｕｒｓｅＭａｎａｇｅｒ）
１０２表示部（Ｄｉｓｐｌａｙ）
１０３タスク管理部（ＴａｓｋＭａｎａｇｅｒ）
１０４ユーザインタフェース（ＧＵＩＦｒｏｎｔ−Ｅｎｄ）
１０５言語解析部（ＳｅｍａｎｔｉｃＰａｒｓｅｒＥｍｕｌａｔｏｒ）
１０６グラウンディング処理解析部（ＧｒｏｕｎｄｉｎｇＡｃｔＥｍｕｌａｔｏｒ）
２００ＰＯＭＤＰ実行部
２２１実体的情報（ＰｒａｇｍａｔｉｃＥｖｉｄｅｎｃｅ）
２２２全体観察情報（ＯｖｅｒａｌｌＵｎｄｅｒｓｔａｎｄｉｎｇ）
２２３言語意味解析情報（ＳｅｍａｎｔｉｃＥｖｉｄｅｎｃｅ）
２３１タスク実現性解析状態（Ｐｒａｇｍａｔｉｃ）
２３２意味解析状態（Ｓｅｍａｎｔｉｃ）
２３３理解完了状態（Ｇｒｏｕｎｄｅｄ）
２４１グラウンディングコスト（ＧｒｏｕｎｄｉｎｇＣｏｓｔ）
２５１ユーザグラウンディングアクション（ＵｓｅｒＧｒｏｕｎｄｉｎｇＡｃｔ）
２６１事前プロセス（Ｐｒｏｃｅｓｓｐｒｅｖｉｏｕｓｓｔａｔｅ）
２６２プロセス（ｐｒｏｃｅｓｓ）
２７１システムグラウンディングアクション（ＳｙｓｔｅｍＧｒｏｕｎｄｉｎｇＡｃｔｉｏｎ）
２８１プロセスコスト（ＰｒｏｃｅｓｓＣｏｓｔｓ
２８２アクションコスト（ＡｃｔｉｏｎＣｏｓｔｓ）
３０１〜３０３ＣＰＴ（ＣｏｎｄｉｔｉｏｎａｌＰｒｏｂａｂｉｌｉｔｙＴａｂｌｅｓ）
４５０情報処理装置
４５１ユーザインタフェース
４５２会話管理部
４５３タスク管理部
４５４表示部
４５５記憶部
４５６データベース
５０１ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）
５０２ＲＯＭ（Ｒｅａｄ−Ｏｎｌｙ−Ｍｅｍｏｒｙ）
５０３ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）
５０４ホストバス
５０５ブリッジ
５０６外部バス
５０７インタフェース
５０８音声入力部
５０９入力部
５１０ディスプレイ
５１１ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）
５１２ドライブ
５１４接続ポート
５１５通信部
５２１リムーバブル記録媒体
５２２外部接続機器

Claims

ユーザの発話を入力して解析する情報処理装置であり、
ユーザ発話を入力し言語解析を実行するユーザインタフェースと、
前記ユーザインタフェースを介して入力するユーザ発話情報の認識結果を入力し、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を適用して、ユーザ要求を理解するグラウンディング処理を実行する会話管理部と、
前記会話管理部のグラウンディング処理結果情報に基づいてタスクを実行するタスク管理部を有することを特徴とする情報処理装置。
前記情報処理装置は、さらに、
前記会話管理部の実行するグラウンディング処理においてユーザに対するシステムアクションの表示を実行する表示部を有することを特徴とする請求項１に記載の情報処理装置。
前記会話管理部は、
ユーザ発話に対応して生成される言語意味解析情報と、前記タスク管理部のタスク実現性を含む情報に基づいて生成される実体的情報を観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）として設定したＰＯＭＤＰを適用したグラウンディング処理を実行する構成であることを特徴とする請求項１に記載の情報処理装置。
前記会話管理部は、
前記言語意味解析情報を観測情報として算出される状態値と、前記実体的情報を観測情報として算出される状態値を状態情報（Ｓｔａｔｅｓｐａｃｅ）として設定したＰＯＭＤＰを適用したグラウンディング処理を実行する構成であることを特徴とする請求項３に記載の情報処理装置。
前記会話管理部は、
前記言語意味解析情報を観測情報として算出される状態値と、前記実体的情報を観測情報として算出される状態値とその他の観測情報から算出される状態値を状態情報（Ｓｔａｔｅｓｐａｃｅ）として設定したＰＯＭＤＰを適用したグラウンディング処理を実行する構成であることを特徴とする請求項３に記載の情報処理装置。
前記会話管理部は、
前記言語意味解析情報を観測情報として算出される状態値と、前記実体的情報を観測情報として算出される状態値を含む状態情報（Ｓｔａｔｅｓｐａｃｅ）に基づいてコストを算出する構成を持つＰＯＭＤＰを適用したグラウンディング処理を実行する構成であることを特徴とする請求項３に記載の情報処理装置。
前記会話管理部は、
前記ユーザの発話を含むユーザアクションを観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）として設定したＰＯＭＤＰを適用したグラウンディング処理を実行する構成であることを特徴とする請求項１に記載の情報処理装置。
前記会話管理部は、
前記ユーザアクションを観測情報として算出される状態値を状態情報（Ｓｔａｔｅｓｐａｃｅ）として設定したＰＯＭＤＰを適用したグラウンディング処理を実行する構成であることを特徴とする請求項７に記載の情報処理装置。
ユーザの発話を入力して解析する情報処理装置における情報処理方法であり、
ユーザインタフェースが、ユーザ発話を入力し言語解析を実行する言語入力解析ステップと、
会話管理部が、前記ユーザインタフェースを介して入力するユーザ発話情報の認識結果を入力し、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を適用して、ユーザ要求を理解するグラウンディング処理を実行する会話管理ステップと、
タスク管理部が、前記会話管理ステップにおけるグラウンディング処理結果情報に基づいてタスクを実行するタスク管理ステップを有することを特徴とする情報処理方法。
前記情報処理方法は、さらに、
表示部が、前記会話管理ステップにおけるグラウンディング処理においてユーザに対するシステムアクションの表示を実行するステップを有することを特徴とする請求項９に記載の情報処理方法。
前記会話管理ステップは、
ユーザ発話に対応して生成される言語意味解析情報と、前記タスク管理部のタスク実現性を含む情報に基づいて生成される実体的情報を観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）として設定したＰＯＭＤＰを適用したグラウンディング処理を実行するステップであることを特徴とする請求項９に記載の情報処理方法。
前記会話管理ステップは、
前記言語意味解析情報を観測情報として算出される状態値と、前記実体的情報を観測情報として算出される状態値を状態情報（Ｓｔａｔｅｓｐａｃｅ）として設定したＰＯＭＤＰを適用したグラウンディング処理を実行するステップであることを特徴とする請求項１１に記載の情報処理方法。
前記会話管理ステップは、
前記言語意味解析情報を観測情報として算出される状態値と、前記実体的情報を観測情報として算出される状態値とその他の観測情報から算出される状態値を状態情報（Ｓｔａｔｅｓｐａｃｅ）として設定したＰＯＭＤＰを適用したグラウンディング処理を実行するステップであることを特徴とする請求項１１に記載の情報処理方法。
前記会話管理ステップは、
前記言語意味解析情報を観測情報として算出される状態値と、前記実体的情報を観測情報として算出される状態値を含む状態情報（Ｓｔａｔｅｓｐａｃｅ）に基づいてコストを算出する構成を持つＰＯＭＤＰを適用したグラウンディング処理を実行するステップであることを特徴とする請求項１１に記載の情報処理方法。
前記会話管理ステップは、
前記ユーザの発話を含むユーザアクションを観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）として設定したＰＯＭＤＰを適用したグラウンディング処理を実行するステップであることを特徴とする請求項９に記載の情報処理方法。
前記会話管理ステップは、
前記ユーザアクションを観測情報として算出される状態値を状態情報（Ｓｔａｔｅｓｐａｃｅ）として設定したＰＯＭＤＰを適用したグラウンディング処理を実行するステップであることを特徴とする請求項１５に記載の情報処理方法。
前記会話管理ステップは、
前記ユーザアクションを観測情報として算出される状態値を含む状態情報（Ｓｔａｔｅｓｐａｃｅ）に基づいてコストを算出する構成を持つＰＯＭＤＰを適用したグラウンディング処理を実行するステップであることを特徴とする請求項１５に記載の情報処理方法。
前記会話管理ステップは、
前記グラウンディング処理における実行アクションとして、処理開始（Ｉｎｉｔｉａｔｅ）、継続処理（ｃｏｎｔｉｎｕｅ）、確認処理（ｒｅｐａｉｒ）、確認要求処理（ＲｅｑＲｅｐａｉｒ）、理解確認応答（ａｃｋ）、理解確認応答要求（Ｒｅｑａｃｋ）、キャンセル（ｃａｎｃｅｌ）の各処理を定義したグラウンディングモデルを適用した処理を実行するステップである請求項９に記載の情報処理方法。
前記会話管理ステップは、
前記グラウンディング処理における実行アクションとして、処理開始（Ｉｎｉｔｉａｔｅ）、理解確認応答（ａｃｋ）、キャンセル（ｃａｎｃｅｌ）の各処理を定義したグラウンディングモデルを適用した処理を実行するステップである請求項９に記載の情報処理方法。
情報処理装置において、ユーザの発話を入力して解析する情報処理を実行させるコンピュータ・プログラムであり、
ユーザインタフェースに、ユーザ発話を入力し言語解析を実行させる言語入力解析ステップと、
会話管理部に、前記ユーザインタフェースを介して入力するユーザ発話情報の認識結果を入力し、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を適用して、ユーザ要求を理解するグラウンディング処理を実行させる会話管理ステップと、
タスク管理部に、前記会話管理ステップにおけるグラウンディング処理結果情報に基づいてタスクを実行させるタスク管理ステップを有することを特徴とするコンピュータ・プログラム。