JP2003302998A

JP2003302998A - 情報処理装置および方法、記録媒体、並びにプログラム

Info

Publication number: JP2003302998A
Application number: JP2002106538A
Authority: JP
Inventors: Naoto Iwahashi; 直人岩橋
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2002-04-09
Filing date: 2002-04-09
Publication date: 2003-10-24

Abstract

(57)【要約】【課題】より確実に発話を認識させることができるよ
うにする。【解決手段】音声入力部５３により入力された音声と
画像入力部５４により入力された画像、並びに重み付け
係数生成部５２により生成された重み付け係数が行動決
定部５５に入力される。行動決定部５５は、これらの入
力を決定関数に適用し、行動を決定する。決定された行
動に対応する制御信号が生成され、ロボットアーム駆動
部５６に供給される。ロボットアーム駆動部５６は、入
力された制御信号に基づいて、ロボットアーム６７を駆
動する。本発明は、人間の発話をロボットに理解させる
ために、ロボットに組み込まれる行動決定装置に適用す
ることができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、情報処理装置およ
び方法、記録媒体、並びにプログラムに関し、特に、人
間と対話する対話システムに対して、人間の意志をより
正確に認識させることができるようにした、情報処理装
置および方法、記録媒体、並びにプログラムに関する。

【０００２】

【従来の技術】図１は、ロボットに組み込まれた従来の
行動決定装置の構成例を表している。この行動決定装置
１は、音声入力と画像入力を取得し、その入力に基づい
て、なすべき行動を決定する行動決定部１１を有してい
る。行動決定部１１は、決定された行動に対応する制御
信号を、ロボットアーム駆動部１２に出力する。ロボッ
トアーム駆動部１２は、行動決定部１１より供給された
制御信号に基づいて、ロボットアーム１３を制御する。

【０００３】行動決定部１１は、図２に示されるように
構成される。音声推測部２１は、人間が発声した音声入
力を取り込み、その音声信号を音声認識し、認識した結
果を分析し、人間がロボットに対して何を要求している
のかを推測する。音声推測部２１より出力された推測結
果は、統合部２４に供給される。

【０００４】ビデオカメラからの画像入力は、オブジェ
クト推測部２２と動作推測部２３に供給される。オブジ
ェクト推測部２２は、入力された画像入力から、その画
像に含まれるオブジェクトに基づく人間の要求を推測
し、推測結果を統合部２４に出力する。動作推測部２３
は、画像入力から人間が要求する内容を、動作に基づい
て推測し、推測結果を統合部２４に出力する。

【０００５】統合部２４は、音声推測部２１、オブジェ
クト推測部２２、および動作推測部２３の出力する推測
結果を統合し、統合した結果を制御信号生成部２５に出
力する。制御信号生成部２５は、統合部２４からの統合
された推測結果に基づいて、制御信号を生成し、ロボッ
トアーム駆動部１２に供給する。

【０００６】次に、その動作について説明する。人間が
ロボットに対して発話すると、その音声が音声推測部２
１に入力される。音声推測部２１は、入力された音声に
基づいて、人間の要求を推測し、推測結果を統合部２４
に出力する。

【０００７】ロボットは、また、ビデオカメラにより自
分自身の周囲の環境を撮影する。オブジェクト推測部２
２は、その画像に含まれるオブジェクトに基づいて、人
間の発話に付随するオブジェクトに基づく推測処理を実
行し、その推測結果を統合部２４に出力する。動作推測
部２３は、入力された画像に含まれる動作を分析し、そ
の動作に基づいて得られる推測結果を、統合部２４に出
力する。

【０００８】統合部２４は、音声推測部２１、オブジェ
クト推測部２２、および動作推測部２３のそれぞれの推
測結果を統合し、最終的な推測結果を生成する。制御信
号生成部２５は、統合部２４より供給された推測結果
を、対応する制御信号に変換し、ロボットアーム駆動部
１２に供給する。

【０００９】ロボットアーム駆動部１２は、入力された
制御信号に基づいて、ロボットアーム１３を駆動する。

【００１０】以上のようにして、人間がロボットに対し
て行った発話に対応する行動が、ロボットアーム１３を
駆動することにより実行される。

【００１１】

【発明が解決しようとする課題】しかしながら、従来の
このような行動決定装置は、人間の発話内容を正確に把
握することが困難である課題があった。

【００１２】特に、人間がオブジェクトを代名詞で称呼
するなどして、省略表現をした場合、その内容を理解す
ることが困難となる課題があった。

【００１３】これは、行動決定装置１が行動を決定する
際に用いている決定関数として、相手が知っている内容
を表現することができるように構成されている決定関数
を用いていないことに起因する。

【００１４】本発明は、このような状況に鑑みてなされ
たものであり、相手の発話内容をより正確に認識し、行
動することができるようにするものである。

【００１５】

【課題を解決するための手段】本発明の情報処理装置
は、音声入力信号と画像入力信号から音声に関する情報
とオブジェクトに関する情報を抽出する抽出手段と、抽
出手段により抽出された音声に関する情報とオブジェク
トに関する情報を決定関数に適用して、行動を決定する
決定手段とを備え、決定関数は、抽出手段により抽出さ
れた音声に関する情報とオブジェクトに関する情報のそ
れぞれに、重み付けを行う項を含む関数であることを特
徴とする。

【００１６】前記重み付けのための係数を学習する学習
手段をさらに備えるようにすることができる。

【００１７】前記決定関数は、音声に関する情報の項、
オブジェクトに関する情報の項、動作に関する項、動作
とオブジェクトとの関係の項、および行動コンテキスト
の項を含むことができる。

【００１８】前記動作とオブジェクトとの関係を表す第
１のパラメータ、行動コンテキストを表す第２のパラメ
ータ、および重み付けのための係数を、同時に学習する
学習手段をさらに備えるようにすることができる。

【００１９】本発明の情報処理方法は、音声入力信号と
画像入力信号から音声に関する情報とオブジェクトに関
する情報を抽出する抽出ステップと、抽出ステップの処
理により抽出された音声に関する情報とオブジェクトに
関する情報を決定関数に適用して、行動を決定する決定
ステップとを含み、決定関数は、抽出ステップの処理に
より抽出された音声に関する情報とオブジェクトに関す
る情報のそれぞれに、重み付けを行う項を含む関数であ
ることを特徴とする。

【００２０】本発明の記録媒体のプログラムは、情報処
理装置を制御するプログラムであって、音声入力信号と
画像入力信号から音声に関する情報とオブジェクトに関
する情報を抽出する抽出ステップと、抽出ステップの処
理により抽出された音声に関する情報とオブジェクトに
関する情報を決定関数に適用して、行動を決定する決定
ステップとを含み、決定関数は、抽出ステップの処理に
より抽出された音声に関する情報とオブジェクトに関す
る情報のそれぞれに、重み付けを行う項を含む関数であ
ることを特徴とする。

【００２１】本発明のプログラムは、情報処理装置を制
御するコンピュータに、音声入力信号と画像入力信号か
ら音声に関する情報とオブジェクトに関する情報を抽出
する抽出ステップと、抽出ステップの処理により抽出さ
れた音声に関する情報とオブジェクトに関する情報を決
定関数に適用して、行動を決定する決定ステップとを含
む処理を実行させるプログラムであって、決定関数は、
抽出ステップの処理により抽出された音声に関する情報
とオブジェクトに関する情報のそれぞれに、重み付けを
行う項を含む関数であることを特徴とする。

【００２２】本発明においては、決定関数が、音声に関
する情報と、オブジェクトに関する情報のそれぞれに、
重み付けを行う項を含む関数とされる。

【００２３】

【発明の実施の形態】図３は、本発明を適用した行動決
定装置の構成例を表している。この行動決定装置４１
は、この例においては、ロボットに組み込まれている。

【００２４】タッチセンサ５１は、ロボットアーム５７
の所定の位置に取り付けられており、ロボットと対話す
る人間がロボットアーム５７を手で叩いたとき、叩かれ
たことを検知し、叩かれたことを表す検知信号を重み付
け係数生成部５２に出力する。重み付け係数生成部５２
は、タッチセンサ５１の出力に基づいて、所定の重み付
け係数を生成し、行動決定部５５に出力する。

【００２５】音声入力部５３は、例えば、マイクロホン
などにより構成され、人間の発話内容を取得し、取得し
た音声信号を行動決定部５５に出力する。画像入力部５
４は、例えば、ビデオカメラにより構成され、ロボット
の周囲の環境を撮像し、得られた画像信号を行動決定部
５５に出力する。

【００２６】行動決定部５５は、音声入力部５３より入
力された音声信号、画像入力部５４より入力された画像
に含まれるオブジェクトに関する情報、並びに重み付け
係数生成部５２より供給された重み付け係数を、決定関
数に適用して行動を決定する。

【００２７】行動決定部５５は、決定された行動に対応
する制御信号を生成し、ロボットアーム駆動部５６に出
力する。ロボットアーム駆動部５６は、行動決定部５５
より供給された制御信号に基づいて、ロボットアーム５
７を駆動する。

【００２８】行動決定部５５は、例えば、図４に示され
るように構成される。音声推測部７１は、音声入力部５
３からの音声信号に基づいて、人間の発話内容に基づく
推測処理を実行し、推測結果に基づく信号を、乗算器７
８に出力する。乗算器７８は、音声推測部７１より供給
された信号に、重み付け係数生成部５２より供給された
係数γ₁を乗算し、統合部８３に出力する。

【００２９】オブジェクト推測部７２は、画像入力部５
４より入力された画像信号に含まれるオブジェクトに基
づいて推測処理を行い、得られた信号を乗算器７９に出
力する。乗算器７９は、オブジェクト推測部７２より供
給された信号に、重み付け係数生成部５２より供給され
た重み付け係数γ₂を乗算し、乗算した結果を統合部８
３に出力する。

【００３０】動作推測部７３は、画像入力部５４より入
力された画像信号から動作を検出し、動作に基づく推測
処理を行い、得られた推測結果の信号を乗算器８０に出
力する。乗算器８０は、動作推測部７３より供給された
信号に、重み付け係数生成部５２より供給された重み付
け係数γ₃を乗算し、統合部８３に出力する。

【００３１】動作オブジェクト推測部７４は、画像入力
部５４より入力された信号から動作を検出するととも
に、オブジェクトを検出し、動作とオブジェクトの関係
に基づいて、推測処理を実行する。動作オブジェクト推
測部７４より出力された信号は、乗算器８１に入力され
る。乗算器８１は、動作オブジェクト推測部７４より入
力された信号に、重み付け係数生成部５２より供給され
た重み付け係数γ₄を乗算し、統合部８３に出力する。

【００３２】バッファメモリ７５は、画像入力部５４よ
り入力された画像信号を蓄積する。コンテキスト生成部
７６は、バッファメモリ７５に蓄積された過去分を含む
画像データに基づいて、時間的な前後の関係を含む行動
コンテキストを生成し、行動コンテキスト推測部７７に
出力する。

【００３３】行動コンテキスト推測部７７は、コンテキ
スト生成部７６より供給された行動コンテキストに基づ
いて推測処理を実行し、得られた推測結果に対応する信
号を乗算器８２に出力する。乗算器８２は、行動コンテ
キスト推測部７７より供給された信号に、重み付け係数
生成部５２より供給された重み付け係数γ₅を乗算し、
統合部８３に出力する。

【００３４】統合部８３は、乗算器７８乃至８２より供
給された重み付け係数γ₁乃至γ₅によりそれぞれ重み付
けがなされた推測結果を統合し、統合された推測結果に
基づく信号を制御信号生成部８４に出力する。制御信号
生成部８４は、統合部８３より供給された信号に基づい
て、ロボットアーム５７を駆動するための制御信号を生
成する。制御信号生成部８４は、生成した制御信号をロ
ボットアーム駆動部５６に供給する。

【００３５】次に、その動作の概略について説明する。

【００３６】ロボットのユーザ（人間）は、ロボットに
対して音声で所定の内容を発話する。発話内容は、音声
入力部５３により取得され、音声推測部７１に入力され
る。音声推測部７１は、音声信号に基づいて、推測処理
を実行し、得られた推測結果に対応する信号を乗算器７
８に供給する。乗算器７８は、音声推測部７１より供給
された信号に、重み付け係数生成部５２より供給された
重み付け係数γ₁を乗算し、統合部８３に出力する。

【００３７】画像入力部５４は、ユーザの発話のタイミ
ングにおける画像を取得し、オブジェクト推測部７２、
動作推測部７３、動作オブジェクト推測部７４、および
バッファメモリ７５に出力する。

【００３８】オブジェクト推測部７２は、入力された画
像信号からオブジェクトを抽出し、そのオブジェクトに
基づいて、推測処理を実行し、得られた信号を乗算器７
９に出力する。乗算器７９は、オブジェクト推測部７２
より供給された信号に重み付け係数生成部５２により生
成された重み付け係数γ₂を乗算し、統合部８３に出力
する。

【００３９】動作推測部７３は、入力された画像信号に
基づいて動作を検出し、その動作に基づいて推測処理を
行い、得られた推測結果に対応する信号を、乗算器８０
に出力する。乗算器８０は、動作推測部７３より入力さ
れた信号に、重み付け係数生成部５２より供給された重
み付け係数γ₃を乗算し、統合部８３に出力する。

【００４０】動作オブジェクト推測部７４は、入力され
た画像信号から動作を検出するとともに、オブジェクト
を検出し、動作とオブジェクトの関係に基づく推測処理
を実行する。動作オブジェクト推測部７４は、推測の結
果得られた信号を乗算器８１に出力する。乗算器８１
は、動作オブジェクト推測部７４より入力された信号
に、重み付け係数生成部５２より供給された重み付け係
数γ₄を乗算し、統合部８３に出力する。

【００４１】バッファメモリ７５には、そのとき音声入
力部５３により取り込まれたユーザの発話タイミングに
おける画像はもとより、それより時間的に前に取り込ま
れた過去の画像も記憶されている。コンテキスト生成部
７６は、バッファメモリ７５に記憶されている画像に基
づいて、行動コンテキストを生成し、行動コンテキスト
推測部７７に出力する。行動コンテキスト推測部７７
は、入力された行動コンテキストに基づいて、推測処理
を実行し、得られた信号を乗算器８２に出力する。乗算
器８２は、行動コンテキスト推測部７７より入力された
信号に、重み付け係数生成部５２により生成された重み
付け係数γ₅を乗算し、統合部８３に出力する。

【００４２】統合部８３は、乗算器７８乃至８２より入
力された信号を決定関数（その詳細は、後述する）に適
用し、その決定関数に基づいて、ユーザからの発話に対
応する行動を決定する。統合部８３は、決定した行動に
対応する信号を制御信号生成部８４に出力する。制御信
号生成部８４は、入力された信号に基づいて、ロボット
アーム５７を駆動する制御信号を生成し、ロボットアー
ム駆動部５６に出力する。ロボットアーム駆動部５６
は、入力された制御信号に基づいて、ロボットアーム５
７を駆動する。

【００４３】以上のようにして、ロボットは、ユーザの
発話内容に対応して、ロボットアーム５７を駆動する
（所定の行動を実行する）ことになる。ユーザは、その
行動（ロボットアーム５７の動作）が、自分自身の発話
内容と矛盾していれば（間違っていれば）、ロボットア
ーム５７を手で叩く操作を行う。ロボットアーム５７が
手で叩かれると、タッチセンサ５１がこれを検出する。
重み付け係数生成部５２は、タッチセンサ５１よりロボ
ットアーム５７が叩かれたことを検知すると、新たな重
み付け係数を生成し、行動決定部５５に出力する。

【００４４】以上のようにして、行動決定部５５におい
て、ロボットがユーザの発話に対して適切な行動をする
ような学習が行われる。

【００４５】さらに、このロボットに組み込まれている
行動決定装置４１の詳細について説明する。

【００４６】相互信念のシステムは、ロボットと人間
（ユーザ）により共有されるそれぞれの信念により構成
されている。このシステムは、ガウス分布および隠れマ
ルコフモデル（HMM）を含む確率モデルにより表され
る。各信念における信頼は、各信念の確率モデルの出力
のための重み付けファクタにより表される。ここで取り
扱う信念は、語彙、文法、行動コンテキスト、モーショ
ンとオブジェクトの関係といったものである。

【００４７】いま、Ｌを語彙項目ｃ_i（ｉ＝１，・・・
Ｍ）を含む語彙のパラメトリックモデルとする。各項目
は、概念と単語の組み合わせから構成される。語彙項目
ｃ_iにおける単語の発話（スピーチ）ｓと、概念のイメ
ージ（画像）ｖは、それぞれ分布ｐ（ｓ｜ｃ_i）とｐ
（ｖ｜ｃ_i）により表される。

【００４８】語彙Ｌは、積み重ねられた玩具（toy）の
静的イメージよりなる概念と、モーションの概念を含
む。積み重ねられた玩具の静的イメージの概念の分布
は、ガウス分布により表され、モーションの概念の分布
と単語の分布は、いずれもHMMにより表される。

【００４９】文法をＧで表す。文章の発話における各フ
レーズは、ランドマーク、トラジェクタ、またはモーシ
ョンにより記述されるものとし、各文章の概念の構造ｚ
は、意味の属性［motion］, ［trajector］, ［landmar
k］により表されるものとする。

【００５０】図５の場面において、対応する発話された
文章は、「big Kermit brown box move-onto」という発
話された単語のシーケンスであり、概念構造は、次のよ
うになる。

【００５１】

【数１】

【００５２】ここで、上記構造の右側のコラムは、発話
された単語を表し、左側のコラムは、トラジェクタ、ラ
ンドマークおよびモーションに対応する。ｙを、それが
文章における意味的属性の構成要素の順序を表すように
するために、意味的属性の順序を表すものとする。例え
ば、発話された文章の与えられた例において、その順番
は、［trajector］−［landmark］−［motion］であ
る。文法Ｇは、順番の有り得る組み合わせの生起確率の
セットにより表されるので、次式により表される。

【００５３】

【数２】

【００５４】行動コンテキストは、発話が記述する内容
を予測するのに用いられる任意の行動である。行動コン
テキストは、特に、前回のアクションおよび現在の注目
ジェスチャを含む。行動コンテキストｑが与えられた場
合、現在の発話により記述されているアクションにおい
て、オブジェクトｏがトラジェクタまたはランドマーク
として含まれる可能性は、ｆ（ｏ，ｑ）により表され
る。

【００５５】このシステムにおいて、注目ジェスチャ
は、ポインティングおよびホールディングの２つのタイ
プに区分される。図６は、ユーザが図中最も右側に位置
するオブジェクトをポインティングしている状態を表
し、図７は、ユーザが最も右側に位置するオブジェクト
をホールディングしている状態を表している。

【００５６】２つのタイプのジェスチャは、ホールディ
ングジェスチャがその位置において、１つのオブジェク
トをホールドする試みを表示するだけであるのに対し
て、ポインティングジェスチャは、直接的な注意を表示
するのに使用されることで、区別される。

【００５７】ｆ（ｏ，ｑ）の値は、ｏがポイントされて
いる場合、ｂ_pとなり、ｏがホールドされている場合、
ｂ_hとなり、ｏが前回のアクションにおけるプロジェク
タまたはランドマークとして含まれている場合、ｂ_cと
なり、その他の場合、０となる。

【００５８】Ｒをモーションとオブジェクトの関係に関
する信念を表すパラメータセットを表すものとする。モ
ーションＷ_mと、アクションに含まれるトラジェクタオ
ブジェクトの特徴ｔおよびランドマークオブジェクトの
特徴ｌとの間の関係に関する信念は、ｐ（ｔ，ｌ｜
Ｗ_m，Ｒ）により表される。何故ならば、次式で表され
るベクトルｏ_t,_lは、ガウス分布しているからである。

【００５９】

【数３】

【００６０】ここで、Ｒ，ｏ_tおよびｏ_lは、それぞれこ
の信念、プロジェクタオブジェクトの特徴、およびラン
ドマークオブジェクトの特徴を、それぞれ表している。

【００６１】ここでは、発話の理解は、発話により記述
される行為の推測として定義される。発話は、状況に関
する信念を利用して理解される。状況は、テーブル上の
オブジェクトの配置、発話期間において使用された注目
ジェスチャ、並びに前回のアクションにおいて利用され
たオブジェクトを含む。アクションは、トラジェクタｔ
およびモーションｕの規跡により表される。行動コンテ
キストｑ、信念（語彙Ｌ、文法Ｇ、および行動コンテキ
ストの効果Ｂ、モーションとオブジェクトの関係Ｒ）、
並びに信念の確からしさ Γ＝「γ₁，・・・，γ₄」が与えられたとすると、対応するスピーチｓの意味を反
映するために理解されたアクションは、次の式（１）で
表される決定関数を最大にすることで決定される。

【００６２】

【数４】

【００６３】上記式（１）における右辺の項の第１の項
が図４における音声推測部７１により生成される項であ
り、その重み付け係数γ₁は、乗算器７８により乗算さ
れる係数である。同様に、第２の項は、オブジェクト推
測部７２により生成される項であり、その重み付け係数
γ₂は、乗算器７９により乗算される係数である。

【００６４】第３の項は、動作推測部７３により生成さ
れる項であり、その重み付け係数γ ₃は、乗算器８０に
より乗算される係数である。第４の項は、動作オブジェ
クト推測部７４により生成される項であり、その重み付
け係数γ₄は、乗算器８１により乗算される係数であ
る。第５の項は、行動コンテキスト推測部７７により生
成される項であり、その重み付け係数γ₅は、乗算器８
２により乗算される係数である。

【００６５】統合部８３は、この決定関数の演算を行う
ことになる。

【００６６】このように、式（１）は、各項が、重み付
けを行う項とされている。このため、相手が知っている
項目に関しては、重み付け係数の値を小さくし、知らな
い項目に関しては、重み付け係数の値を大きくすること
が可能となる。すなわち、この決定関数は、相手が知ら
ない項目（知っている項目）を表現できる関数となって
いる。その結果、人間がオブジェクトを代名詞で表現す
るなどの、省略した表現を行ったとしても、ロボットは
それを理解することができる。

【００６７】次に、相互信念のパラメータの学習につい
て説明する。

【００６８】ｓ_iは、学習期間における第ｉ番目の発話
を表すものとする。また、｛ｔ_i，ｕ _i｝は、人間によっ
て予期された正しい応答を表すものとする。

【００６９】信念のパラメータＬ，Ｇ，Ｒ，およびＢ
は、ベイズ学習法を利用することで、学習することがで
きる。この学習は、ロボットが最初の応答または２番目
の応答において、発話ｓ_iの正しい理解を示した各エピ
ソードの後に行われる。

【００７０】確からしさのパラメータΓは、決定エラー
の数を最小にするように、エピソードのシーケンスによ
り順次最適化される。最初の応答または２番目の応答に
おいて、ロボットが発話ｓ_iに対して正しい理解を示し
た場合、その損失ｌ_iは、次式で表される。

【００７１】

【数５】

【００７２】ここで、（ｔ'_i，ｕ'_I）は、次式で表され
る。

【００７３】

【数６】上記式のＬ，Ｇ，Ｒ，Ｂ，Γが、学習するパラメータで
ある。

【００７４】ロボットが最初の応答および２番目の応答
のいずれにおいても、ｓ_iの正しい理解を示さなかった
場合には、ロボットは、正しいアクション｛ｔ_i，ｕ_i｝
の情報を得ることができず、損失ｌ_iは、便宜上０にセ
ットされる。

【００７５】損失ｌ_iは、次式で表される第ｉ番目のエ
ピソードにおける全体的損失の計算に使用される。

【００７６】

【数７】

【００７７】相互信念のパラメータは、最初の応答が誤
っており、第２番目の応答が正しい各エプソードの後に
学習される。グローバル損失Ｌ_iは、勾配法によって最
小化され、パラメータは、収束するまで更新される。

【００７８】このように、Ｌ，Ｇ，Ｒ，Ｂ，Γの各パラ
メータが同時に学習される。

【００７９】次に、図８のフローチャートを参照して、
行動決定装置４１により実行される学習処理について説
明する。

【００８０】ステップＳ１１において、音声入力部５３
は、人間（ユーザ）からの発話を入力し、画像入力部５
４は、その時点における周囲の環境（主に、人間とその
周囲に配置されているオブジェクト）の画像を撮像す
る。音声推測部７１は、音声入力部５３により入力され
た音声信号を抽出する。また、オブジェクト推測部７
２、動作推測部７３、動作オブジェクト推測部７４、お
よびバッファメモリ７５は、それぞれ画像入力部５４よ
り入力された画像信号を抽出する。コンテキスト生成部
７６は、バッファメモリ７５に蓄積されている過去の画
像をも参照して、行動コンテキストを生成し、行動コン
テキスト推測部７７に供給する。

【００８１】ステップＳ１２において、ステップＳ１１
の処理で抽出された音声と画像に対応するパラメータを
生成する処理が実行される。具体的には、音声推測部７
１は、上述した式（１）の右辺の第１項の成分を推測す
る処理を実行し、その成分に対応する信号を乗算器７８
に供給する。乗算器７８は、音声推測部７１より供給さ
れた信号に重み付け係数γ₁を乗算し、統合部８３に出
力する。

【００８２】オブジェクト推測部７２は、式（１）の右
辺の第２項の成分を推測する処理を実行し、得られた信
号を乗算器７９に出力する。乗算器７９は、オブジェク
ト推測部７２より入力された信号に、重み付け係数γ₂
を乗算し、統合部８３に出力する。

【００８３】動作推測部７３は、式（１）の第３項の成
分を推測し、得られた信号を乗算器８０に出力する。乗
算器８０は、動作推測部７３より供給された信号に、重
み付け係数γ₃を乗算し、統合部８３に出力する。

【００８４】動作オブジェクト推測部７４は、式（１）
の右辺の第４項の成分を推測し、得られた結果を乗算器
８１に出力する。乗算器８１は、動作オブジェクト推測
部７４より供給された信号に、重み付け係数γ₄を乗算
し、統合部８３に出力する。

【００８５】行動コンテキスト推測部７７は、式（１）
の右辺の第５項の成分を推測し、得られた結果を乗算器
８２に出力する。乗算器８２は、行動コンテキスト推測
部７７より供給された信号に、重み付け係数γ₅を乗算
し、統合部８３に出力する。

【００８６】ステップＳ１３において、ステップＳ１２
の処理で生成されたパラメータに対応する行動を推定す
る処理が実行される。すなわち、統合部８３は、乗算器
７８乃至８２より供給された式（１）の右辺の第１項乃
至第５項の成分を、式（１）に適用し、これを解くこと
で、行動を推定する。

【００８７】ステップＳ１４において、ステップＳ１３
の処理で推定された行動を実行する処理が実行される。
すなわち、制御信号生成部８４は、統合部８３より供給
された信号に基づいて、制御信号を生成し、ロボットア
ーム駆動部５６を介して、ロボットアーム５７を駆動す
る。これにより、ロボットアーム５７が人間のスピーチ
に対応して、所定の行動（動作）行うことになる。

【００８８】人間は、その行動が正しければ何もせず、
間違っている場合には、ロボットアーム５７を手で叩
く。

【００８９】そこで、ステップＳ１５において、ロボッ
トアーム５７が叩かれたか否かが判定される。ロボット
アーム５７が叩かれた場合には、タッチセンサ５１がこ
れを検出する。ロボットアーム５７が叩かれた場合、ロ
ボットは、人間のスピーチに対して、誤った行動をした
ことを知る。そこで、この場合、ステップＳ１６に進
み、統合部８３は、ステップＳ１３の処理で推定された
行動のうち、次の候補の行動を実行する。すなわち、統
合部８３は、次の候補の行動に対応する信号を制御信号
生成部８４に供給する。制御信号生成部８４は、入力さ
れた信号に対応する制御信号を生成し、ロボットアーム
駆動部５６を介して、ロボットアーム５７を駆動する。

【００９０】人間は、第２回目のロボットの行動に対し
て、それが正しければ何もせず、誤っている場合には、
ロボットアーム５７を叩く操作を行う。

【００９１】そこで、ステップＳ１７において、ロボッ
トアーム５７が叩かれたか否かが判定される。ロボット
アーム５７が叩かれなかった場合には、第２回目の行動
は正しかったことになる。そこで、ステップＳ１８に進
み、統合部８３は、パラメータを更新する処理を実行す
る。ステップＳ１９において、統合部８３は、パラメー
タが収束したか否かを判定し、収束していない場合に
は、ステップＳ１８に戻り、再びパラメータを更新する
処理を実行する。

【００９２】以上のようにして、ステップＳ１９におい
て、パラメータが収束したと判定されるまで、パラメー
タを更新する処理が実行される。

【００９３】ステップＳ１５において、ロボットアーム
５７が叩かれなかったと判定された場合、およびステッ
プＳ１７において、ロボットアーム５７が叩かれたと判
定された場合、並びにステップＳ１９の処理が終了した
後、処理はステップＳ２０に進む。ステップＳ２０にお
いて、次の発話がなされたか否かが判定され、次の発話
がなされた場合には、ステップＳ１１に戻り、それ以降
の処理が繰り返し実行される。ステップＳ２０におい
て、次の発話がなされていないと判定された場合、処理
は終了される。

【００９４】次に、実験の結果について説明する。実験
は、スピーチ、オブジェクトの画像、並びに行動コンテ
キスト（ポインティングジェスチャ、ホールディングジ
ェスチャ、および前回のアクション）のデータのセット
を使用して行われた。各データのセット毎に、人間によ
って正しいとラベル化された応答がロボットに与えられ
た。実験において、各データのセットに対するロボット
の反応は、自動的に、予め正しいとラベル化されている
応答によってチェックされた。その結果、シミュレート
の実験を行うことが可能であった。

【００９５】スピーチは、メルスケールケプストラム係
数と、そのデルタパラメータ（３２次元）を使用して表
された。カメラにより撮像された静的オブジェクトの特
徴は、そのサイズ（１次元）、色（３次元：Ｌ^*，ａ^*，
ｂ^*）、および形状（２次元：幅または高さ、正方形
状）により表された。モーションは、座標のシーケンス
（２次元：垂直および水平）、および速度（２次元）に
より表された。ポインティングが注意を直接誘発するの
で、行動コンテキストにおける注目ジェスチャのため
に、充分大きい値１００を有するように、ｂ_pを定義し
た。

【００９６】モーションとオブジェクトの関係のモデル
Ｒは、１００のランダムに選択されたオブジェクトによ
り初期化された。

【００９７】最初に、確信度が与えられたパラメータ
（γ₁＝γ₂＝０．５，γ₃＝γ₄＝０．０）に設定され
た。この実験において、確信度は、 γ₁＋γ₂＋γ₃＝１として、定義された。また、γ₄は、２つの独立の確信
度（γ₄,₁，γ₄,₂）に分割された。γ₄,₁は、ジェスチ
ャアテンション（γ₄,₁＝γ₄・ｂ_h）のためのコンフィ
デンスを表し、γ₄,₂は、行動コンテキスト（γ₄,₂＝γ
₄・ｂ_c）のためのコンフィデンスを表す。

【００９８】実験のためのインタラクションは、異なる
難しさの３つのレベルに分類された。

【００９９】実験において、シーケンスＡとシーケンス
Ｂという２つのシーケンの発話が使用された。各シーケ
ンスは、１２８個の発話を含む。

【０１００】（１）シーケンスＡ

【０１０１】シーケンスＡにおいては、最初の３２個の
エピソードにおいて使用された発話から、何の情報も削
除されていない。図９は、このタイプのインタラクショ
ンの例を示す。発話は、"Kermit Elmo put-beside"であ
り、それに対する応答において、人間が予期するのは、
ロボットがKermitをElmo（いずれも商標）の横に置くこ
とである。

【０１０２】エピソード３３から６４の発話は、行動コ
ンテキストの理解を要求した。図１０は、このタイプの
インタラクションの例を示す。発話は、"Green toy-box
blue toy-box jump-over"である。ここでは、１つのシ
ーンに、２つのgreen toy-boxesがあり、１つは、人間
によって保持され、他の１つは、テーブル上に位置して
いる。人間は、ホールディングアクションが、保持して
いるオブジェクトに対して注意を向けさせることを予期
しているので、正しいアクションは、ロボットが人間に
より保持されているgreen toy-boxを掴み、それをblue
toy-boxの上を飛び越させることである。

【０１０３】エピソード６５から１２８のために、人間
は、断片的な発話を行った。図１１は、このタイプのイ
ンタラクションの例を表す。この例においては、発話
は、"move-onto"であり、このときKermitは、人間によ
って保持されている。ロボットに予期されている応答
は、人間の手からKermitを取り、それをtoy-box上に動
かすことである。

【０１０４】（２）シーケンスＢ

【０１０５】シーケンスＢにおいては、１２８個の全て
のエピソードにおいて、断片的発話が使用された。比較
のために、シーケンスＢにおける最後の６４個のエピソ
ードは、シーケンスＡにおけるエピソードと同一とされ
た。

【０１０６】図１２と図１３は、それぞれ、シーケンス
ＡとシーケンスＢにおけるエラーレートを表している。
図１２の方が、ロボットが学習により、よりコミュニケ
ーションすることができたことを表している。図１４と
図１５は、それぞれシーケンスＡとシーケンスＢのモー
ションとオブジェクトの関係を表している。図１４に学
習の効果を見てとることができる。この場合、モーショ
ンとオブジェクトの関係の信念における鮮鋭な分布
が、"move-onto"というモーションにおけるランドマー
クオブジェクトの正方形状性の信念を表している。

【０１０７】図１６乃至図２０は、スピーチ（図１
６）、モーションとオブジェクト（図１７）、モーショ
ンとオブジェクトの関係（図１８）、ジェスチャの注意
（図１９）、および行動コンテキスト（図２０）の確信
度を表している。

【０１０８】図１８に示されるように、エピソード６４
の後、モーションとオブジェクトの関係の信念における
増加するコンフィデンスは、ロボットがモーションとオ
ブジェクトの関係の信念を使用することを学習している
ことを表している。

【０１０９】しかしながら、図１３に示されるように、
同じエピソードが使用されているにも関わらず、エピソ
ード９６より後のシーケンスＢのエラーレートは、シー
ケンスＡのそれとマッチしていない。この差異は、図１
４と図１５に示されている。シーケンスＡにおいては、
多くの成功的なエピソードを持って、ロボットは、既に
エピソード６４により信念を開発した。しかしながら、
シーケンスＢにおいては、初期の成功的なエピソードの
欠如が、ロボットが信念を開発するには、より多くのエ
ピソードが必要であることを意味する。

【０１１０】図２１乃至図２３は、学習の後の発話の理
解の結果として生成されたアクションを表している。第
１回目と第２回目の決定のための候補における計算され
た対する確率の差も、また表されている。

【０１１１】図２１において、人間は、ロボットがKerm
itを彼の手にLiftすべきことを示すために、"Lift"と話
した。人間によって保持されたKermitは、最初の候補と
して選択された。対数確率の詳細は、例えば、人間の手
に基づく行動コンテキストの信念は、効果的であったこ
とを表す。

【０１１２】図２２において、左側のオブジェクトBarb
a（商標）は、前回のアクションにおいて、テーブル上
に置かれた。人間がBarbaをtoy-box上に置くことを意味
して、"move-onto"と話した。行動コンテキストに関す
る信念、並びにモーションとオブジェクトの関係を使用
することは、正しい理解を得るのに効果的であった。

【０１１３】図２３において、右側のオブジェクトであ
る大きなKermitは、前回のアクションにおいて、テーブ
ル上に置かれた。人間が、Grover（商標）が、toy-box
上の小さなKermitを飛び越すことを意味して、"Grover
small Kermit jump-over"と話した。対数確率の結果
は、最初の候補におけるオブジェクトの信念が"small K
ermit"の記述により適合するため、オブジェクト概念に
関する信念に大きな差があることを表している。この最
初の２つの例において、行動コンテキストの信念は、発
話の理解における一要素である。しかしながら、この例
において、行動コンテキストの信念より強いオブジェク
ト信念は、正しい理解に効果的であった。

【０１１４】以上のように、音声に関する情報とオブジ
ェクトに関する情報のそれぞれに、重み付けを行う項を
含む関数により、行動を決定するようにすることで、省
略した表現を用いた場合においても、その表現をより確
実に理解させることが可能となる。

【０１１５】上述した一連の処理は、ハードウエアによ
り実行させることもできるが、ソフトウエアにより実行
させることもできる。この場合、例えば、情報処理装置
は、図２４に示されるようなパーソナルコンピュータに
より構成される。

【０１１６】図２４において、CPU（Central Processin
g Unit）１２１は、ROM（Read OnlyMemory）１２２に記
憶されているプログラム、または記憶部１２８からRAM
（Random Access Memory）１２３にロードされたプログ
ラムに従って各種の処理を実行する。RAM１２３にはま
た、CPU１２１が各種の処理を実行する上において必要
なデータなども適宜記憶される。

【０１１７】CPU１２１、ROM１２２、およびRAM１２３
は、バス１２４を介して相互に接続されている。このバ
ス１２４にはまた、入出力インタフェース１２５も接続
されている。

【０１１８】入出力インタフェース１２５には、キーボ
ード、マウスなどよりなる入力部１２６、CRT(Cathode
Ray Tube)、LCD(Liquid Crystal display)などよりなる
ディスプレイ、並びにスピーカなどよりなる出力部１２
７、ハードディスクなどより構成される記憶部１２８、
モデム、ターミナルアダプタなどより構成される通信部
１２９が接続されている。通信部１２９は、インターネ
ットを含むネットワークを介しての通信処理を行う。

【０１１９】入出力インタフェース１２５にはまた、必
要に応じてドライブ３０が接続され、磁気ディスク４
１、光ディスク４２、光磁気ディスク４３、或いは半導
体メモリ４４などが適宜装着され、それらから読み出さ
れたコンピュータプログラムが、必要に応じて記憶部１
２８にインストールされる。

【０１２０】一連の処理をソフトウエアにより実行させ
る場合には、そのソフトウエアを構成するプログラム
が、専用のハードウエアに組み込まれているコンピュー
タ、または、各種のプログラムをインストールすること
で、各種の機能を実行することが可能な、例えば汎用の
パーソナルコンピュータなどに、ネットワークや記録媒
体からインストールされる。

【０１２１】この記録媒体は、図２４に示されるよう
に、装置本体とは別に、ユーザにプログラムを提供する
ために配布される、プログラムが記録されている磁気デ
ィスク１４１（フロッピディスクを含む）、光ディスク
１４２（CD-ROM(Compact Disk-Read Only Memory),DVD
(Digital Versatile Disk)を含む）、光磁気ディスク１
４３（ＭＤ（Mini-Disk）を含む）、もしくは半導体メ
モリ１４４などよりなるパッケージメディアにより構成
されるだけでなく、装置本体に予め組み込まれた状態で
ユーザに提供される、プログラムが記録されているROM
１２２や、記憶部１２８に含まれるハードディスクなど
で構成される。

【０１２２】なお、本明細書において、記録媒体に記録
されるプログラムを記述するステップは、記載された順
序に沿って時系列的に行われる処理はもちろん、必ずし
も時系列的に処理されなくとも、並列的あるいは個別に
実行される処理をも含むものである。

【０１２３】また、本明細書において、システムとは、
複数の装置により構成される装置全体を表すものであ
る。

【０１２４】

【発明の効果】以上の如く、本発明によれば、人間と対
話が可能な装置を実現することが可能となる。

【０１２５】また、本発明によれば、人間が省略した表
現を用いた場合においても、それを、より確実に、理解
することが可能な装置を実現することができる。

【図面の簡単な説明】

【図１】従来の行動決定装置の構成例を示すブロック図
である。

【図２】図１の行動決定部の構成例を示すブロック図で
ある。

【図３】本発明を適用した行動決定装置の構成例を示す
ブロック図である。

【図４】図３の行動決定部の構成例を示すブロック図で
ある。

【図５】学習の場面の例を示す図である。

【図６】学習の場面の例を示す図である。

【図７】学習の場面の例を示す図である。

【図８】図３の行動決定装置の学習処理を説明するフロ
ーチャートである。

【図９】学習の場面の例を示す図である。

【図１０】学習の場面の例を示す図である。

【図１１】学習の場面の例を示す図である。

【図１２】エラーレートを示す図である。

【図１３】エラーレートを示す図である。

【図１４】モーションとオブジェクトの関係を示す図で
ある。

【図１５】モーションとオブジェクトの関係を示す図で
ある。

【図１６】スピーチの確信度を説明する図である。

【図１７】モーションとオブジェクトの確信度を説明す
る図である。

【図１８】モーションとオブジェクトの関係の確信度を
説明する図である。

【図１９】ジェスチャ注意の確信度を説明する図であ
る。

【図２０】行動コンテキストの確信度を説明する図で
る。

【図２１】学習の場面の例を示す図である。

【図２２】学習の場面の例を示す図である。

【図２３】学習の場面の例を示す図である。

【図２４】本発明を適用したパーソナルコンピュータの
構成例を示すブロック図である。

【符号の説明】

５１タッチセンサ，５２重み付け係数生成部，
５３音声入力部，５４画像入力部，５５行動決
定部，５６ロボットアーム駆動部，５７ロボッ
トアーム，７１音声推測部，７２オブジェクト
推測部，７３動作推測部，７４動作オブジェク
ト推測部，７５バッファメモリ，７６コンテキス
ト生成部，７７行動コンテキスト推測部，７８乃
至８２乗算器，８３統合部，８４制御信号生
成部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｎ 5/225 Ｇ１０Ｌ 3/00 ５７１ＵＦターム(参考） 2C150 CA01 CA02 CA04 DF03 DF04 DF06 DF08 DF33 ED42 ED47 ED52 EF03 EF07 EF16 EF17 EF23 EF29 EF33 EF36 3C007 KS31 KS39 KT01 LW12 WB17 WB19 5C022 AC41 AC69 AC72 5D015 KK01 LL07

Claims

【特許請求の範囲】

【請求項１】音声入力信号と画像入力信号から音声に
関する情報とオブジェクトに関する情報を抽出する抽出
手段と、前記抽出手段により抽出された音声に関する情報とオブ
ジェクトに関する情報を決定関数に適用して、行動を決
定する決定手段とを備え、前記決定関数は、前記抽出手段により抽出された音声に
関する情報とオブジェクトに関する情報のそれぞれに、
重み付けを行う項を含む関数であることを特徴とする情
報処理装置。
【請求項２】前記重み付けのための係数を学習する学
習手段をさらに備えることを特徴とする請求項１に記載
の情報処理装置。
【請求項３】前記決定関数は、前記音声に関する情報
の項、前記オブジェクトに関する情報の項、動作に関す
る項、前記動作と前記オブジェクトとの関係の項、およ
び行動コンテキストの項を含むことを特徴とする請求項
１に記載の情報処理装置。
【請求項４】前記動作と前記オブジェクトとの関係を
表す第１のパラメータ、前記行動コンテキストを表す第
２のパラメータ、および前記重み付けのための係数を、
同時に学習する学習手段をさらに備えることを特徴とす
る請求項３に記載の情報処理装置。
【請求項５】情報処理装置の情報処理方法において、音声入力信号と画像入力信号から音声に関する情報とオ
ブジェクトに関する情報を抽出する抽出ステップと、前記抽出ステップの処理により抽出された音声に関する
情報とオブジェクトに関する情報を決定関数に適用し
て、行動を決定する決定ステップとを含み、前記決定関数は、前記抽出ステップの処理により抽出さ
れた音声に関する情報とオブジェクトに関する情報のそ
れぞれに、重み付けを行う項を含む関数であることを特
徴とする情報処理方法。
【請求項６】情報処理装置を制御するプログラムであ
って、音声入力信号と画像入力信号から音声に関する情報とオ
ブジェクトに関する情報を抽出する抽出ステップと、前記抽出ステップの処理により抽出された音声に関する
情報とオブジェクトに関する情報を決定関数に適用し
て、行動を決定する決定ステップとを含み、前記決定関数は、前記抽出ステップの処理により抽出さ
れた音声に関する情報とオブジェクトに関する情報のそ
れぞれに、重み付けを行う項を含む関数であることを特
徴とするコンピュータが読み取り可能なプログラムが記
録されている記録媒体。
【請求項７】情報処理装置を制御するコンピュータ
に、音声入力信号と画像入力信号から音声に関する情報とオ
ブジェクトに関する情報を抽出する抽出ステップと、前記抽出ステップの処理により抽出された音声に関する
情報とオブジェクトに関する情報を決定関数に適用し
て、行動を決定する決定ステップとを含む処理を実行さ
せるプログラムであって、前記決定関数は、前記抽出ステップの処理により抽出さ
れた音声に関する情報とオブジェクトに関する情報のそ
れぞれに、重み付けを行う項を含む関数であることを特
徴とするプログラム。