JP2005003926A

JP2005003926A - 情報処理装置および方法、並びにプログラム

Info

Publication number: JP2005003926A
Application number: JP2003167109A
Authority: JP
Inventors: Naoto Iwahashi; 直人岩橋
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-06-11
Filing date: 2003-06-11
Publication date: 2005-01-06
Also published as: US20050021334A1

Abstract

【課題】人や状況の変化に応じて適応的に発話を生成する。
【解決手段】行動決定部１５は、音声信号、画像に含まれるオブジェクトに関する情報、並びに重み付け係数生成部１２より供給された重み付け係数を、決定関数に適用して行動を決定する。生成発話決定部１８は、音声信号、および画像に含まれるオブジェクトに関する情報を、決定関数と全体確信度関数に適用して発話を決定し、決定した発話に対応する発話信号を生成し、発話出力部１９に出力する。発話出力部１９は、生成発話決定部１８より供給された発話信号を、対話者が認識できるように、対応する音声を出力したり、あるいは対応する文字列を表示したりする。本発明は、意図する動作を対話者に指示する発話を生成させるためにロボットに組み込まれる言行決定装置に適用することができる。
【選択図】図３

Description

【０００１】
【発明の属する技術分野】
本発明は、情報処理装置および方法、並びにプログラムに関し、特に、人と対話するシステムに対して、人とより正確に意志を疎通させることができるようにした、情報処理装置および方法、並びにプログラムに関する。
【０００２】
【従来の技術】
従来、人と対話するシステムを例えばロボットに搭載することが行われている。当該システムは、人の発話を認識する機能と、人に対する発話を生成する機能が必要となる。
【０００３】
発話を生成する従来の方法としては、例えば、スロット法、言い換え法、文の変形法、格構造に基づく生成法等を挙げることができる。
【０００４】
スロット法は、予め設定されている構文（例えば「Ａは、ＢにＣをあげます」）の単語（いまの場合、Ａ，Ｂ，Ｃ）に、人の発話から抽出した単語を当てはめることにより発話を生成する方法である。言い換え法は、人の発話（例えば「彼は熱心に勉強している」）に含まれる単語を認識し、認識結果を言い換えることにより発話（例えば「彼は、一生懸命学習している」）を生成する方法である。
【０００５】
文の変形法は、人の発話（例えば「彼は人形を机の上に載せる」）を認識し、単語の順序を変化させることにより発話（例えば「彼が机の上に載せるのは人形だ」）を生成する方法である。格構造に基づく生成法は、例えば人の発話（例えば「お正月に私は親戚の子供達にお年玉をたくさんあげた」）の各構造を認識し、予め許容されている語順に従い単語に適切な助詞を付加して発話（例えば「親戚の子供達はお正月に私からたくさんのお年玉をもらった」）を生成する方法である。
【０００６】
なお、上述した発話を生成する従来の方法については、例えば、非特許文献１に記載されている。
【０００７】
【非特許文献１】
長尾真著「自然言語処理」岩波書店、１９９６年４月２６日発行、９章
【０００８】
【発明が解決しようとする課題】
人との円滑なコミュニケーションを実現するためには、人や状況（当該システムの発話に対する人の理解の状況等）の変化に応じて適応的に適切な発話を生成することが望ましいが、発話を生成するための上述したような従来の方法では、発話方策が予めシステム設計者によって与えられており固定されていたので、人や状況の変化に応じて適応的に発話を生成することができないという課題があった。
【０００９】
本発明はこのような状況に鑑みてなされたものであり、人や状況の変化に応じて適応的に発話を生成できるようにすることを目的とする。
【００１０】
【課題を解決するための手段】
本発明の情報処理装置は、発話を対話者が正しく理解する確率を表す全体確信度関数を学習によって推測する推測手段と、全体確信度関数に基づき、対話者が正しく理解する確率を予測して、発話を生成する生成手段とを含むことを特徴とする。
【００１１】
前記生成手段は、発話と発話から解釈可能な意味とを入力として発話と意味の対応の妥当性を表す決定関数にも基づき、発話を生成するようにすることができる。
【００１２】
前記全体確信度関数は、生成される候補となる発話と意図する意味を入力とする決定関数の出力と、生成される候補となる発話と意図する意味以外の意味を入力とする決定関数の出力の最大値との差を入力とするようにすることができる。
【００１３】
本発明の情報処理方法は、発話を対話者が正しく理解する確率を表す全体確信度関数を学習によって推測する推測ステップと、全体確信度関数に基づき、対話者が正しく理解する確率を予測して、発話を生成する生成ステップとを含むことを特徴とする。
【００１４】
本発明のプログラムは、発話を対話者が正しく理解する確率を表す全体確信度関数を学習によって推測する推測ステップと、全体確信度関数に基づき、対話者が正しく理解する確率を予測して、発話を生成する生成ステップとを含む処理をコンピュータに実行させることを特徴とする。
【００１５】
本発明の情報処理装置および方法、並びにプログラムにおいては、発話を対話者が正しく理解する確率を表す全体確信度関数に基づいて発話が生成される。
【００１６】
【発明の実施の形態】
以下に本発明の実施の形態を説明するが、請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係を例示すると、次のようになる。この記載は、請求項に記載されている発明をサポートする具体例が、発明の実施の形態に記載されていることを確認するためのものである。従って、発明の実施の形態中には記載されているが、構成要件に対応するものとして、ここには記載されていない具体例があったとしても、そのことは、その具体例が、その構成要件に対応するものではないことを意味するものではない。逆に、具体例が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その具体例が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
【００１７】
さらに、この記載は、発明の実施の形態に記載されている具体例に対応する発明が、請求項に全て記載されていることを意味するものではない。換言すれば、この記載は、発明の実施の形態に記載されている具体例に対応する発明であって、この出願の請求項には記載されていない発明の存在、すなわち、将来、分割出願されたり、補正により追加されたりする発明の存在を否定するものではない。
【００１８】
すなわち、本発明の情報処理装置（例えば、図３の言行決定装置１）は、発話を対話者が正しく理解する確率を表す全体確信度関数を学習によって推測する推測手段（例えば、図４の統合部３８）と、全体確信度関数に基づき、対話者が正しく理解する確率を予測して、発話を生成する生成手段（例えば、発話信号生成部４２）とを含むことを特徴とする。
【００１９】
なお、本発明の情報処理方法の請求項に記載の構成要件と、プログラムの請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係は、上述した本発明の情報処理装置のものと同様であるので、その記載は省略する。
【００２０】
本発明を適用した言行決定装置の概要について説明する。当該言行決定装置は、対話の相手となる人（以下、対話者と記述する）と、例えば、図１に示すように卓上に用意されている人形や箱等のオブジェクトを用いたコミュニケーションを行い（例えば、対話者が「カーミット（商標）箱載せる」と発話し、左端の人形を右端の箱の上に載せる動作を行い）、発話と動作にそれぞれ対応する音声信号と画像信号を入力として言語を漸増的に学習し、学習結果を用いて対話者の発言に対応して所定の動作を実行したり、対話者に対して動作を指示する発話を生成したりするものである。
【００２１】
言行決定装置は、初期状態ではオブジェクトやその動かし方についての概念と、概念に対応する単語および文法等からなる言語信念を有していない。この言語信念は、図２に示すフローチャートに示すように段階的に生成される。すなわち、ステップＳ１として、対話者の発話および動作に基づいて受動的に学習される。次に、ステップＳ２として、発話および動作を用いた対話者とのインタラクションにより能動的に学習される。
【００２２】
ここで、インタラクションとは、言行決定装置と対話者が相互に、一方が他方に対して動作を指示する発話を行い、この発話を他方が理解して指示された動作を行い、この他方の動作を一方が評価することを指す。
【００２３】
次に、図３は、本発明を適用した言行決定装置の構成例を示している。この例において、この言行決定装置１は、この例においては、ロボットに組み込まれている。
【００２４】
タッチセンサ１１は、ロボットアーム１７の所定の位置に取り付けられており、対話者がロボットアーム５７を手で叩いたとき、叩かれたことを検知し、叩かれたことを表す検知信号を重み付け係数生成部１２に出力する。重み付け係数生成部１２は、タッチセンサ５１の出力に基づいて、所定の重み付け係数を生成し、行動決定部１５に出力する。
【００２５】
音声入力部１３は、例えば、マイクロホンなどにより構成され、対話者の発話内容を取得し、取得した音声信号を行動決定部１５および生成発話決定部１８に出力する。画像入力部１４は、例えば、ビデオカメラにより構成され、ロボットの周囲の環境を撮像し、得られた画像信号を行動決定部１５および生成発話決定部１８に出力する。
【００２６】
行動決定部１５は、音声入力部１３より入力された音声信号、画像入力部１４より入力された画像に含まれるオブジェクトに関する情報、並びに重み付け係数生成部１２より供給された重み付け係数を、決定関数に適用して行動を決定する。また、行動決定部１５は、決定された行動に対応する制御信号を生成し、ロボットアーム駆動部１６に出力する。ロボットアーム駆動部１６は、行動決定部１５より供給された制御信号に基づいて、ロボットアーム１７を駆動する。
【００２７】
生成発話決定部１８は、音声入力部１３より入力された音声信号、および画像入力部１４より入力された画像に含まれるオブジェクトに関する情報を、決定関数と全体確信度関数に適用して発話を決定する。また、生成発話決定部１８は、決定された発話に対応する発話信号を生成し、発話出力部１９に出力する。
【００２８】
発話出力部１９は、生成発話決定部１８より供給された発話信号を、対話者が認識できるように、対応する音声を出力したり、あるいは対応する文字列を表示したりする。
【００２９】
次に、図４は、生成発話決定部１８の構成例を示している。音声推測部３１は、音声入力部１３からの音声信号に基づいて、対話者の発話内容に基づく推測処理を実行し、推測結果に基づく信号を統合部３８に出力する。
【００３０】
オブジェクト推測部３２は、画像入力部１４より入力された画像信号に含まれるオブジェクトに基づいて推測処理を行い、得られた信号を統合部３８に出力する。
【００３１】
動作推測部３３は、画像入力部１４より入力された画像信号から動作を検出し、動作に基づく推測処理を行い、得られた推測結果の信号を統合部８３に出力する。
【００３２】
動作オブジェクト推測部３４は、画像入力部１４より入力された信号から動作を検出するとともに、オブジェクトを検出し、動作とオブジェクトの関係に基づいて、推測処理を行い、得られた推測結果の信号を統合部８３に出力する。
【００３３】
バッファメモリ３５は、画像入力部１４より入力された画像信号を蓄積する。コンテキスト生成部３６は、バッファメモリ３５に蓄積された過去分を含む画像データに基づいて、時間的な前後の関係を含む行動コンテキストを生成し、行動コンテキスト推測部３７に出力する。
【００３４】
行動コンテキスト推測部３７は、コンテキスト生成部３６より供給された行動コンテキストに基づいて推測処理を実行し、得られた推測結果に対応する信号を統合部８３に出力する。
【００３５】
統合部３８は、音声推測部３１乃至行動コンテキスト推測部３７より供給された推測結果に所定の重み付け係数を乗算し、決定関数および全体確信度関数（いずれも詳細は後述する）に適用して、指示動作決定部３９から供給される信号に対応する動作を対話者に対して指示するための発話を生成する。また、統合部３８は、生成した発話に対応する信号を発話信号生成部４２に出力する。
【００３６】
指示動作決定部３９は、対話者に指示する行動を決定し、決定した行動に対応する信号を統合部３８および動作比較部４０に出力する。
【００３７】
動作比較部４０は、画像入力部１４より入力された信号から対話者の動作を検出し、指示動作決定部３９からの信号に対応する動作と一致しているか否かを判断する。すなわち、指示動作決定部３９によって決定された動作を、対話者が正確に理解して動作しているか否かを判断する。また、動作比較部４０は、その判断結果を全体確信度関数更新部４１に出力する。
【００３８】
全体確信度関数更新部４１は、動作比較部４０から供給される判断結果に基づき、統合部３８で生成された全体確信度関数を更新する。
【００３９】
発話信号生成部４２は、統合部３８より供給された信号に基づいて発話信号を生成し、発話出力部１９に出力する。
【００４０】
次に、その動作の概略について説明する。
【００４１】
指示動作決定部３９は、対話者に指示する行動を決定し、決定した行動に対応する信号を統合部３８および動作比較部４０に出力する。動作比較部４０は、画像入力部１４より入力された信号から対話者の動作を検出し、指示動作決定部３９からの信号に対応する動作と一致しているか否かを判断する。すなわち、指示動作決定部３９によって決定された動作を、対話者が正確に理解して動作しているか否かを判断する。また、動作比較部４０は、その判断結果を全体確信度関数更新部４１に出力する。
【００４２】
全体確信度関数更新部４１は、動作比較部４０から供給される判断結果に基づき、統合部３８で生成された全体確信度関数を更新する。
【００４３】
発話信号生成部４２は、統合部３８より供給された信号に基づいて発話信号を生成し、発話出力部１９に出力する。
【００４４】
発話出力部１９は、発話信号生成部４２より供給された発話信号に対応する発話信号に対応する音声を出力する。
【００４５】
この発話に対応して対話者は、発話内容を理解し、対応する動作を実行する。画像入力部１４は、ユーザの動作を撮影し、得られた画像を、オブジェクト推測部３２、動作推測部３３、動作オブジェクト推測部３４、バッファメモリ３５、および動作比較部４０に出力する。
【００４６】
動作比較部４０は、画像入力部１４より入力された信号から対話者の動作を検出し、指示動作決定部３９からの信号に対応する動作と一致しているか否かを判断する。すなわち、指示動作決定部３９によって決定された動作を、対話者が正確に理解して動作しているか否かを判断する。また、動作比較部４０は、その判断結果を全体確信度関数更新部４１に出力する。
【００４７】
全体確信度関数更新部４１は、動作比較部４０から供給される判断結果に基づき、統合部３８で生成されている全体確信度関数を更新する。
【００４８】
統合部３８は、音声推測部３１乃至行動コンテキスト推測部３７より供給された推測結果に基づく決定関数と、更新された全体確信度関数とに基づき、次に対話者に対して指示するための発話を生成し、生成した発話に対応する信号を発話信号生成部４２に出力する。
【００４９】
発話信号生成部４２は、統合部３８より供給された信号に基づいて発話信号を生成し、発話出力部１９に出力する。
【００５０】
以上のように、生成発話決定部１８において、ロボットの発話に対する対話者の理解度に応じて適切に発話が生成されるような学習が行われる。
【００５１】
さらに、このロボットに組み込まれている言行決定装置１の詳細について説明する。
【００５２】
アルゴリズム概要
ロボットの言語獲得に関しては、音韻と語彙、関係の概念、文法、および語用のそれぞれの相互信念が４つのアルゴリズムにより別々に学習される。
【００５３】
音韻と語彙、関係の概念、および文法の相互信念の学習では、対話者がロボットに対してオブジェクトを提示したり動かして見せたりすることによる共同知覚経験を基盤にして、対応付けられた音声情報と画像情報の統合確率度密度を推定することを基本原理とする。
【００５４】
語用論的相互信念の学習では、ロボットと対話者が相互に、相手の発話に従って行動する共同行為を基盤として、対話者の発話をロボットが正しく理解する確率が最大となるようにすること、およびロボットが生成した発話を対話者が正しく理解できる確率が最大となるようにすることを基本原理とする。
【００５５】
なお、アルゴリズムは、対話者が協力的に振る舞うことを前提としている。また、アルゴリズムの基本原理の追求を目的としているため、各相互信念はかなり単純なものである。全てのアルゴリズムを通して学習基準の一貫性がなるべく保たれるように考慮されているが、４つのアルゴリズムは個別に評価されており、全体としての統合は行われない。
【００５６】
相互信念の学習
語彙Ｌと文法Ｇを学習すれば、ロボットは、結合確率密度関数ｐ（ｓ，ａ，Ｏ；Ｌ，Ｇ）の最大化を基準にしてある程度、発話を理解できるようになるが、より現状に依存した発話の理解と生成を可能とするために、対話者とのコミュニケーションを通して語用論的相互信念をオンラインで漸増的に学習する。
【００５７】
ここで、相互信念を用いた発話の生成と理解とは、例えば、以下のようなものである。例えば、図１に示されたように、対話者が直前の動作として人形を左側に置いた後、ロボットに対して当該人形を箱の上に載せる指示を出す場合、「人形箱載せて」と発話しても良いが、仮に、「ロボットは直前に移動されたオブジェクトが次の動作対象になりやすいという信念を持っている」と対話者が想定していれば、動作の対象を省略して「箱載せて」と断片的に発話する可能性がある。さらに、「ロボットは、箱にはオブジェクトが載せられやすいという信念を持っている」と対話者が想定していれば、単に「載せて」と発話する可能性がある。
【００５８】
このような断片的な発話をロボットが理解するためには、ロボットが想定したような信念を持っていて、それらを対話者と共有しているものだと想定していなければならない。ロボットが発話を生成する場合も同様である。
【００５９】
相互信念の表現
アルゴリズムにおいて相互信念は、発話と動作の対応の適切さを表す決定関数Ψと、決定関数Ψに対するロボットの確信度を表す全体確信度関数ｆによって表される。
【００６０】
決定関数Ψは、重み付けられた信念の集合によって表されるものである。重みは、各信念が対話者とロボットに共有されていることに対するロボットの確信度を示す。
【００６１】
全体確信度関数ｆは、ロボットの発話を対話者が正しく理解する確率の推定値を出力するものである。
【００６２】
決定関数Ψ
アルゴリズムは、様々な信念を扱うことが可能であるが、音声、オブジェクト、動きの各々に関する信念（これらは語彙と文法によって表される）、および２つの非言語的信念を例として扱う。
【００６３】
語彙
語彙の学習は、対話者が卓上にオブジェクトを置いたり指差したりしながら、そのオブジェクトを表す単語を発話するものとし、ロボットはこのときの音声とオブジェクトを関連づけることにより行われる。これを繰り返すことで得られる音声の特徴量ｓと、オブジェクト画像の特徴量ｏの対の集合データを学習データとする。
【００６４】
語彙Ｌは、各語彙項目に対応した音声の確率密度関数（以下、ｐｄｆとも記述する）と、オブジェクト画像のｐｄｆの対の集合ｐ（ｓ｜ｃ_ｉ），ｐ（ｏ｜ｃ_ｉ），（ｉ＝１，…，Ｍ）で表される。ここで、Ｍは、語彙項目の数であり、ｃ_１，ｃ_２，…，ｃ_Ｍは、語彙項目を表すインデックスである。
【００６５】
語彙項目数Ｍ、および語彙を構成する全てのｐｄｆ（ｓ｜ｃ_ｉ），ｐ（ｏ｜ｃ_ｉ）（ｉ＝１，…，Ｍ）を表すパラメータを学習することが目的となる。この問題の特徴は、２つの連続特徴量空間におけるクラスメンバーシップ関数の対の集合を、対の数が未知という条件で教師なし学習で求めることである。
【００６６】
学習は以下のように行われる。各語彙項目に対して単語の音韻列が決められていても音声は発話毎に変動するが、通常、各発話におけるその変動は、その発話が示しているオブジェクトの特徴と反映しないので、次式（１）に示すようにおくことができる。
ｐ（ｓ，ｏ｜ｃ_ｉ）＝ｐ（ｓ｜ｃ_ｉ）ｐ（ｏ｜ｃ_ｉ） …（１）
【００６７】
よって、全体での音声とオブジェクト画像の結合ｐｄｆは、次式（２）に示すように表すことができる。
【数１】

【００６８】
そこで、上記問題を、式（２）のｐ（ｓ，ｏ）に対して最適なモデルを選択して確率分布パラメータの値を推定する統計的学習問題と見なすことにする。
【００６９】
なお、「語彙は正確な情報伝達が行われ、かつ、できるだけ少ない語彙項目数で構成されることが望ましい」との考えに基づき、語彙項目数Ｍを音声とオブジェクト画像の相互情報量を基準にして選択すれば、オブジェクトの色、形、大きさ、名称を意味する十数語程度を学習する実験で良好な結果が得られている。
【００７０】
音韻のｐｄｆを表す隠れマルコフモデル（ＨＭＭ）の結合により単語音声のｐｄｆを表すことにより、音韻ｐｄｆの集合も同時に学習することができ、また、動かされたオブジェクトの軌道を画像特徴量として使用することができる。
【００７１】
関係概念の学習
言語の意味構造は、モノと他の２つ以上のモノの関係に分けることができる。上述した語彙の説明において、モノの概念は語彙項目が与えられたときのオブジェクト画像の条件付きｐｄｆによって表された。ここで説明する関係概念には、最も際だつモノ（以下、トラジェクタと記述する）と、トラジェクタの基準点として働くモノ（以下、ランドマークと記述する）が関与する。
【００７２】
例えば、図１に示されたように人形が移動された場合、移動された人形がトラジェクタであるが、中心の人形をランドマークと見なせば、「飛び越える」という動作として解釈され、右端の箱をランドマークと見なせば、「載る」という動作として解釈される。このような情景の集合を学習データとして用い、オブジェクトの動かし方に関する概念を、トラジェクタとランドマークの位置関係の変化のプロセスとして学習する。
【００７３】
動きの概念は、語彙項目ｃ、トラジェクタオブジェクトｔの位置ｏ_ｔ，ｐ、およびランドマークオブジェクトｌの位置ｏ_ｌ，ｐが与えられたときの動きの軌道ｕの条件付きｐｄｆｐ（ｕ｜ｏ_ｔ，ｐ，ｏ_ｌ，ｐ，ｃ）によって表される。
【００７４】
アルゴリズムは、情景の中でどれがランドマークとなるオブジェクトであるかという非観測情報を推定しながら、動きの概念の条件付きｐｄｆを表す隠れマルコフモデルを学習する。同時に、動きの軌道を適切に記述する座標系の選択も行われる。例えば、「載る」の軌道は、ランドマークを原点、垂直と水平方向を軸とする座標系が選択され、「離れる」の軌道は、ランドマークを原点、トラジェクタとランドマークを結ぶ線を２軸のうちの一方とする座標系が選択される。
【００７５】
文法
発話中の単語が表す外音の間の関係を表すためのための単語の並びの規則である文法の学習と運用においてｈ、上述した関係の概念が重要な役割を果たす。ロボットに文法を学習させる場合、対話者がオブジェクトを動かしながら、その動作を表す発話を行い、これを繰り返すことにより得られる、動作前の情景情報Ｏ、音声ｓ、および動作ａ＝（ｔ，ｕ）の組（ｓ，ａ，Ｏ）の集合が学習データとして用いられる。
【００７６】
ここで、情景情報Ｏは、情景の中の全てのオブジェクトの位置と画像特徴量の集合で表される。ｔは、各情景の中の各オブジェクトに対して一意の与えられるインデックスのうち、トラジェクタオブジェクタと示すものである。ｕは、トラジェクタの軌道である。
【００７７】
情景Ｏと動作ａは発話の意味構造ｚを推測するために用いられる。意味構造ｚは、トラジェクタとランドマークと軌道を構成要素とし、各要素に対する発話中の単語の対応付けによって表される。例えば、図１の例を説明する発話は「大きいカーミット（商標）茶色箱載せて」となり、意味構造は以下のようになる。
トラジェクタ：大きいカーミット
ランドマーク：茶色箱
軌道：載せて
【００７８】
文法Ｇは、発話におけるこれらの構成要素の出現順序の生起確率分布によって表され、音声ｓと動作ａと情景Ｏの結合ｐｄｆｐ（ｓ，ａ，Ｏ；Ｌ，Ｇ）の尤度が最大となるように学習される。対数結合ｐｄｆｌｏｇｐ（ｓ，ａ，Ｏ；Ｌ，Ｇ）は、語彙Ｌと文法Ｇのパラメータを用いて次式（３）のように表される。
【数２】

【００７９】
ここで、Ｗ_Ｍ，Ｗ_Ｔ，Ｗ_Ｌは、意味構造ｚの中の軌道、トラジェクタ、ランドマークにそれぞれ対応する単語（列）であり、αは正規化項である。
【００８０】
行動コンテキスト効果Ｂ_１（ｉ，ｑ；Ｈ）
行動コンテキスト効果Ｂ_１（ｉ，ｑ；Ｈ）は、行動コンテキストｑの下で、オブジェクトｉが発話による指示対象になるという信念を表す。ｑは各オブジェクトが直前の動作において、トラジェクタまたはランドマークとして関与したか否か、対話者によって指差される等によって注意が向けられているか否か等についての情報によって表される。この信念は、２つのパラメータＨ＝｛ｈ_ｃ，ｈ_ｇ｝によって表され、ｑに応じて対応する一方のパラメータの値、あるいは０を出力する。
【００８１】
動きオブジェクト関係Ｂ２（ｏ_ｔ，ｆ，ｏ_ｌ，ｆ，Ｗ_Ｍ；Ｒ）
動きオブジェクト関係Ｂ２（ｏ_ｔ，ｆ，ｏ_ｌ，ｆ，Ｗ_Ｍ；Ｒ）は、オブジェクトの特徴量ｏ_ｔ，ｆ，ｏ_ｌ，ｆが、それぞれ動きの概念Ｗ_Ｍにおけるトラジェクタとランドマークの特徴量として典型的なものであるという信念を表す。条件付き結合ｐｄｆｐ（ｏ_ｔ，ｆ，ｏ_ｌ，ｆ｜Ｗ_Ｍ；Ｒ）によって表される。この共起ｐｄｆはガウス分布で表現され、Ｒはそのパラメータ集合を示す。
【００８２】
決定関数Ψ
決定関数Ψは、次式（４）に示すように、上述した信念モデルの出力の重み付け和として表される。
【数３】

【００８３】
ここで、Γ＝｛γ_１，γ_２，γ_３，γ_４｝は、各信念モデルの出力に対する重み付けパラメータの集合である。対話者の発話ｓに対応するロボットの行動ａは、決定関数Ψの値が最大となるように決定される。
【００８４】
全体確信度関数ｆ
まず、情景Ｏと行動コンテキストｑの下で、動作ａを表す発話ｓの生成を決定する際の決定関数Ψの値のマージンｄを次式（５）のように定義する。
【数４】

【００８５】
なお、式（５）において、ａはロボットが意図した動作であり、Ａはロボットの発話を理解した対話者の動作である。
【００８６】
全体確信度関数ｆは、次式（６）に示されるように、マージンｄを入力とし、発話が正しく理解される確率を出力するものである。
【数５】

【００８７】
ここで、λ_１，λ_２は、全体確信度関数ｆを表すパラメータである。式（６）から明らかなように、マージンｄが大きい場合、ロボットの発話がユーザに正しく理解される確率が高くなることがわかる。仮に、マージンｄが小さくてもロボットの発話が高い確率でユーザに正しく理解されるならば、ロボットの想定する相互信念が、対話者の相互信念と良く一致していることを意味している。
【００８８】
行動コンテキストｑの下での情景Ｏにおいて、ユーザに動作ａを指示する場合、ロボットは、次式（７）に示すように、全体確信度関数ｆの出力と、期待する正理解率ξ（例えば、０．７５程度）との差ができるだけ小さくなるように、発話ｓ￣を生成する。
【数６】

【００８９】
ロボットは、ロボットの発話が対話者によって正しく理解される確率が低い場合、より多くの単語を用いることにより、正しく理解される確率を高めることができる。反対に、正しく理解される確率が十分に高いと予想した場合、より単語数の少ない断片的な発話を行うことができる。
【００９０】
全体確信度関数ｆの学習アルゴリズム
全体確信度関数ｆは、図５のフローチャートに示す処理が繰り返されることにより、オンラインで漸増的に学習される。
【００９１】
ステップＳ１１において、ロボットは、対話者に行わせようと意図する動作に対して、全体確信度関数ｆの出力と、期待する正理解率ξとの差ができるだけ小さくなるように発話ｓ￣を生成する。この発話に対応して対話者は、指示された動作を実行する。ステップＳ１２において、ロボットは、入力される画像信号から、対話者の動作を解析し、ステップＳ１３において、ロボットは、対話者の動作が、指示した意図どおりの動作であったか否かを判定する。ステップＳ１４において、ロボットは、発話生成の際に生じたマージンｄに基づき、全体確信度関数ｆを表すパラメータλ_１，λ_２を更新する。この後、処理はステップＳ１１に戻り、それ以降の処理が繰り返される。
【００９２】
なお、ステップＳ１１の処理において、ロボットは、単語の多い発話を生成することによって正しく理解される確率を高めることができる。また、所定の程度の確率で理解されればよいのであれば、最低限の単語数で発話を生成するようにすればよい。ここで、重要なことは、単語数を節約できるということではなく、断片的な発話が生成され、対話者に理解されることで相互信念の形成が促進されるということである。
【００９３】
また、ステップＳ１４の処理において、発話生成の際に生じたマージンｄに対して、その発話が対話者に正しく理解されたか否かの情報が対応付けられて、学習データとされる。ｉ番目のエピソード（ステップＳ１１乃至Ｓ１４の処理）が終了した時のパラメータλ_１，λ_２は次式（８）に示すように更新される。
【数７】

【００９４】
ここで、
【数８】

であり、ｅ_ｉは、対話者の発話理解が正しければ１とされ、誤りであるならば０とされる変数である。δは、学習速度を決定するための値である。
【００９５】
全体確信度関数ｆの検証
全体確信度関数ｆの実験について説明する。
全体確信度関数ｆの初期形状は、対話者によって発話が理解されるように大きなマージンｄを必要とするような状態、すなわち、相互信念の全体的な確信度が低い状態を表すものに設定した。発話生成に使われる、期待する正理解率ξは固定値０．７５とした。ただし、期待する正理解率ξを固定しても、実際に得られる全体確信度関数ｆの出力は、期待する正理解率ξの近傍でばらついたものとなり、かつ、発話が正しくされることもされないこともあるので、ｆがｆ^−１（ξ）の近傍の比較的広い範囲で良好に推定することができた。ｆの変化と、動作に関わる全てのオブジェクトを記述するために使用された単語数の変化の様子は図６および図７に示すとおりである。なお、図６は、学習過程における全体確信度関数ｆの変化を示しており、図７は、各発話でオブジェクトを記述するために用いられた単語数を示している。
【００９６】
また、図６においては、全体確信度関数ｆの形状の変化がわかりやすいように、ｆ^−１（０．９），ｆ^−１（０．７５），ｆ^−１（０．５）の３種類をプロットした。図６は、学習開始から、すぐに全体確信度関数ｆの出力は急速に０に近づいてゆき、使用される単語数が減少した。その後、１５エピソード付近で単語数が減少し過ぎて正しく理解されないことが多くなってきたので、全体確信度関数ｆの傾きが小さくなってきており、一旦は相互信念に対する確信を弱めていることを示している。
【００９７】
効果
語用論的信念の形成のアルゴリズムにおける行為の誤りと修復の意味について考察する。ロボットの発話理解過程における学習では、１回目では誤った動作を行って、かつ、２回目で正しい動作が行えたエピソードでは、相互信念のパラメータが比較的大きく更新される。また、ロボットの発話生成による学習では、期待する正理解率ξを０．７５に固定した実験結果を示したが、期待する正理解率ξを０．９５に固定した他の実験では、ほとんど全ての発話が正しく理解されたことから全体確信度関数ｆの推定を適切に行うことができなかった。
【００９８】
発話理解と発話生成の両方のアルゴリズムにおいて、発話が時々間違えて理解されることが相互信念の形成を促進していることがわかる。相互信念を形成するためには、発話が意味を正しく伝達するだけでは不十分であり、そこに誤解されるリスクが付与されていなければならないのである。そのようなリスクを対話者とロボットで共有することが、発話が相互信念の情報を同時に送受信するという機能を支えているということができる。
【００９９】
上述した一連の処理は、ハードウエアにより実行させることもできるが、ソフトウエアにより実行させることもできる。この場合、例えば、情報処理装置は、図８に示されるようなパーソナルコンピュータにより構成される。
【０１００】
図８において、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１０２に記憶されているプログラム、または記憶部１０８からＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０３にロードされたプログラムに従って各種の処理を実行する。ＲＡＭ１０３にはまた、ＣＰＵ１０１が各種の処理を実行する上において必要なデータなども適宜記憶される。
【０１０１】
ＣＰＵ１０１、ＲＯＭ１０２、およびＲＡＭ１０３は、バス１０４を介して相互に接続されている。このバス１０４にはまた、入出力インタフェース１０５も接続されている。
【０１０２】
入出力インタフェース１０５には、キーボード、マウスなどよりなる入力部１０６、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌｄｉｓｐｌａｙ）などよりなるディスプレイ、並びにスピーカなどよりなる出力部１０７、ハードディスクなどより構成される記憶部１０８、モデム、ターミナルアダプタなどより構成される通信部１０９が接続されている。通信部１０９は、インターネットを含むネットワークを介しての通信処理を行う。
【０１０３】
入出力インタフェース１０５にはまた、必要に応じてドライブ１１０が接続され、磁気ディスク１１１、光ディスク１１２、光磁気ディスク１１３、或いは半導体メモリ１１４などが適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部１２８にインストールされる。
【０１０４】
一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。
【０１０５】
この記録媒体は、図８に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク１１１（フロッピディスクを含む）、光ディスク１１２（ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ），ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）を含む）、光磁気ディスク１１３（ＭＤ（Ｍｉｎｉ−Ｄｉｓｋ）を含む）、もしくは半導体メモリ１１４などよりなるパッケージメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているＲＯＭ１０２や、記憶部１０８に含まれるハードディスクなどで構成される。
【０１０６】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【０１０７】
また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
【０１０８】
【発明の効果】
以上のように、本発明によれば、人間と対話が可能な装置を実現することが可能となる。
【０１０９】
また、本発明によれば、人や状況の変化に応じて適応的に発話を生成することが可能となる。
【図面の簡単な説明】
【図１】ロボットと対話者のコミュニケーションを説明するための図です。
【図２】ロボットによる言語獲得処理の概要を説明するフローチャートである。
【図３】本発明を適用した言行決定装置の構成例を説明するフローチャートである。
【図４】図３の生成発話決定部の構成例を示すブロック図である。
【図５】全体確信度関数が学習される処理を説明するフローチャートである。
【図６】全体確信度関数の学習過程を説明する図である。
【図７】全体確信度関数の学習過程を説明する図である。
【図８】本発明を適用したパーソナルコンピュータの構成例を示すブロック図である。
【符号の説明】
１言行決定装置，１３音声入力部，１４画像入力部，１８生成発話決定部，３１音声推測部，３２オブジェクト推測部，３３動作推測部，３４動作オブジェクト推測部，３６コンテキスト生成部，３７行動コンテキスト推測部，３８統合部，３９指示動作決定部，４０動作比較部，４１全体確信度関数更新部，４２発話信号生成部

Claims

意図する意味を対話者に理解させるための発話を生成する情報処理装置において、
前記発話を前記対話者が正しく理解する確率を表す全体確信度関数を学習によって推測する推測手段と、
前記全体確信度関数に基づき、前記対話者が正しく理解する確率を予測して、前記発話を生成する生成手段と
を含むことを特徴とする情報処理装置。
前記生成手段は、前記発話と前記発話から解釈可能な意味とを入力として前記発話と前記意味の対応の妥当性を表す決定関数にも基づき、前記発話を生成する
ことを特徴とする請求項１に記載の情報処理装置。
前記全体確信度関数は、生成される候補となる前記発話と前記意図する意味を入力とする前記決定関数の出力と、生成される候補となる前記発話と前記意図する意味以外の意味を入力とする前記決定関数の出力の最大値との差を入力とする
ことを特徴とする請求項２に記載の情報処理装置。
意図する意味を対話者に理解させるための発話を生成する情報処理方法において、
前記発話を前記対話者が正しく理解する確率を表す全体確信度関数を学習によって推測する推測ステップと、
前記全体確信度関数に基づき、前記対話者が正しく理解する確率を予測して、前記発話を生成する生成ステップと
を含むことを特徴とする情報処理方法。
意図する意味を対話者に理解させるための発話を生成するためのプログラムであって、
前記発話を前記対話者が正しく理解する確率を表す全体確信度関数を学習によって推測する推測ステップと、
前記全体確信度関数に基づき、前記対話者が正しく理解する確率を予測して、前記発話を生成する生成ステップと
を含む処理をコンピュータに実行させることを特徴とするプログラム。