JP2003302998A - 情報処理装置および方法、記録媒体、並びにプログラム - Google Patents

情報処理装置および方法、記録媒体、並びにプログラム

Info

Publication number
JP2003302998A
JP2003302998A JP2002106538A JP2002106538A JP2003302998A JP 2003302998 A JP2003302998 A JP 2003302998A JP 2002106538 A JP2002106538 A JP 2002106538A JP 2002106538 A JP2002106538 A JP 2002106538A JP 2003302998 A JP2003302998 A JP 2003302998A
Authority
JP
Japan
Prior art keywords
information
action
voice
unit
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002106538A
Other languages
English (en)
Inventor
Naoto Iwahashi
直人 岩橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2002106538A priority Critical patent/JP2003302998A/ja
Publication of JP2003302998A publication Critical patent/JP2003302998A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Toys (AREA)
  • Manipulator (AREA)
  • Studio Devices (AREA)

Abstract

(57)【要約】 【課題】 より確実に発話を認識させることができるよ
うにする。 【解決手段】 音声入力部53により入力された音声と
画像入力部54により入力された画像、並びに重み付け
係数生成部52により生成された重み付け係数が行動決
定部55に入力される。行動決定部55は、これらの入
力を決定関数に適用し、行動を決定する。決定された行
動に対応する制御信号が生成され、ロボットアーム駆動
部56に供給される。ロボットアーム駆動部56は、入
力された制御信号に基づいて、ロボットアーム67を駆
動する。本発明は、人間の発話をロボットに理解させる
ために、ロボットに組み込まれる行動決定装置に適用す
ることができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報処理装置およ
び方法、記録媒体、並びにプログラムに関し、特に、人
間と対話する対話システムに対して、人間の意志をより
正確に認識させることができるようにした、情報処理装
置および方法、記録媒体、並びにプログラムに関する。
【0002】
【従来の技術】図1は、ロボットに組み込まれた従来の
行動決定装置の構成例を表している。この行動決定装置
1は、音声入力と画像入力を取得し、その入力に基づい
て、なすべき行動を決定する行動決定部11を有してい
る。行動決定部11は、決定された行動に対応する制御
信号を、ロボットアーム駆動部12に出力する。ロボッ
トアーム駆動部12は、行動決定部11より供給された
制御信号に基づいて、ロボットアーム13を制御する。
【0003】行動決定部11は、図2に示されるように
構成される。音声推測部21は、人間が発声した音声入
力を取り込み、その音声信号を音声認識し、認識した結
果を分析し、人間がロボットに対して何を要求している
のかを推測する。音声推測部21より出力された推測結
果は、統合部24に供給される。
【0004】ビデオカメラからの画像入力は、オブジェ
クト推測部22と動作推測部23に供給される。オブジ
ェクト推測部22は、入力された画像入力から、その画
像に含まれるオブジェクトに基づく人間の要求を推測
し、推測結果を統合部24に出力する。動作推測部23
は、画像入力から人間が要求する内容を、動作に基づい
て推測し、推測結果を統合部24に出力する。
【0005】統合部24は、音声推測部21、オブジェ
クト推測部22、および動作推測部23の出力する推測
結果を統合し、統合した結果を制御信号生成部25に出
力する。制御信号生成部25は、統合部24からの統合
された推測結果に基づいて、制御信号を生成し、ロボッ
トアーム駆動部12に供給する。
【0006】次に、その動作について説明する。人間が
ロボットに対して発話すると、その音声が音声推測部2
1に入力される。音声推測部21は、入力された音声に
基づいて、人間の要求を推測し、推測結果を統合部24
に出力する。
【0007】ロボットは、また、ビデオカメラにより自
分自身の周囲の環境を撮影する。オブジェクト推測部2
2は、その画像に含まれるオブジェクトに基づいて、人
間の発話に付随するオブジェクトに基づく推測処理を実
行し、その推測結果を統合部24に出力する。動作推測
部23は、入力された画像に含まれる動作を分析し、そ
の動作に基づいて得られる推測結果を、統合部24に出
力する。
【0008】統合部24は、音声推測部21、オブジェ
クト推測部22、および動作推測部23のそれぞれの推
測結果を統合し、最終的な推測結果を生成する。制御信
号生成部25は、統合部24より供給された推測結果
を、対応する制御信号に変換し、ロボットアーム駆動部
12に供給する。
【0009】ロボットアーム駆動部12は、入力された
制御信号に基づいて、ロボットアーム13を駆動する。
【0010】以上のようにして、人間がロボットに対し
て行った発話に対応する行動が、ロボットアーム13を
駆動することにより実行される。
【0011】
【発明が解決しようとする課題】しかしながら、従来の
このような行動決定装置は、人間の発話内容を正確に把
握することが困難である課題があった。
【0012】特に、人間がオブジェクトを代名詞で称呼
するなどして、省略表現をした場合、その内容を理解す
ることが困難となる課題があった。
【0013】これは、行動決定装置1が行動を決定する
際に用いている決定関数として、相手が知っている内容
を表現することができるように構成されている決定関数
を用いていないことに起因する。
【0014】本発明は、このような状況に鑑みてなされ
たものであり、相手の発話内容をより正確に認識し、行
動することができるようにするものである。
【0015】
【課題を解決するための手段】本発明の情報処理装置
は、音声入力信号と画像入力信号から音声に関する情報
とオブジェクトに関する情報を抽出する抽出手段と、抽
出手段により抽出された音声に関する情報とオブジェク
トに関する情報を決定関数に適用して、行動を決定する
決定手段とを備え、決定関数は、抽出手段により抽出さ
れた音声に関する情報とオブジェクトに関する情報のそ
れぞれに、重み付けを行う項を含む関数であることを特
徴とする。
【0016】前記重み付けのための係数を学習する学習
手段をさらに備えるようにすることができる。
【0017】前記決定関数は、音声に関する情報の項、
オブジェクトに関する情報の項、動作に関する項、動作
とオブジェクトとの関係の項、および行動コンテキスト
の項を含むことができる。
【0018】前記動作とオブジェクトとの関係を表す第
1のパラメータ、行動コンテキストを表す第2のパラメ
ータ、および重み付けのための係数を、同時に学習する
学習手段をさらに備えるようにすることができる。
【0019】本発明の情報処理方法は、音声入力信号と
画像入力信号から音声に関する情報とオブジェクトに関
する情報を抽出する抽出ステップと、抽出ステップの処
理により抽出された音声に関する情報とオブジェクトに
関する情報を決定関数に適用して、行動を決定する決定
ステップとを含み、決定関数は、抽出ステップの処理に
より抽出された音声に関する情報とオブジェクトに関す
る情報のそれぞれに、重み付けを行う項を含む関数であ
ることを特徴とする。
【0020】本発明の記録媒体のプログラムは、情報処
理装置を制御するプログラムであって、音声入力信号と
画像入力信号から音声に関する情報とオブジェクトに関
する情報を抽出する抽出ステップと、抽出ステップの処
理により抽出された音声に関する情報とオブジェクトに
関する情報を決定関数に適用して、行動を決定する決定
ステップとを含み、決定関数は、抽出ステップの処理に
より抽出された音声に関する情報とオブジェクトに関す
る情報のそれぞれに、重み付けを行う項を含む関数であ
ることを特徴とする。
【0021】本発明のプログラムは、情報処理装置を制
御するコンピュータに、音声入力信号と画像入力信号か
ら音声に関する情報とオブジェクトに関する情報を抽出
する抽出ステップと、抽出ステップの処理により抽出さ
れた音声に関する情報とオブジェクトに関する情報を決
定関数に適用して、行動を決定する決定ステップとを含
む処理を実行させるプログラムであって、決定関数は、
抽出ステップの処理により抽出された音声に関する情報
とオブジェクトに関する情報のそれぞれに、重み付けを
行う項を含む関数であることを特徴とする。
【0022】本発明においては、決定関数が、音声に関
する情報と、オブジェクトに関する情報のそれぞれに、
重み付けを行う項を含む関数とされる。
【0023】
【発明の実施の形態】図3は、本発明を適用した行動決
定装置の構成例を表している。この行動決定装置41
は、この例においては、ロボットに組み込まれている。
【0024】タッチセンサ51は、ロボットアーム57
の所定の位置に取り付けられており、ロボットと対話す
る人間がロボットアーム57を手で叩いたとき、叩かれ
たことを検知し、叩かれたことを表す検知信号を重み付
け係数生成部52に出力する。重み付け係数生成部52
は、タッチセンサ51の出力に基づいて、所定の重み付
け係数を生成し、行動決定部55に出力する。
【0025】音声入力部53は、例えば、マイクロホン
などにより構成され、人間の発話内容を取得し、取得し
た音声信号を行動決定部55に出力する。画像入力部5
4は、例えば、ビデオカメラにより構成され、ロボット
の周囲の環境を撮像し、得られた画像信号を行動決定部
55に出力する。
【0026】行動決定部55は、音声入力部53より入
力された音声信号、画像入力部54より入力された画像
に含まれるオブジェクトに関する情報、並びに重み付け
係数生成部52より供給された重み付け係数を、決定関
数に適用して行動を決定する。
【0027】行動決定部55は、決定された行動に対応
する制御信号を生成し、ロボットアーム駆動部56に出
力する。ロボットアーム駆動部56は、行動決定部55
より供給された制御信号に基づいて、ロボットアーム5
7を駆動する。
【0028】行動決定部55は、例えば、図4に示され
るように構成される。音声推測部71は、音声入力部5
3からの音声信号に基づいて、人間の発話内容に基づく
推測処理を実行し、推測結果に基づく信号を、乗算器7
8に出力する。乗算器78は、音声推測部71より供給
された信号に、重み付け係数生成部52より供給された
係数γ1を乗算し、統合部83に出力する。
【0029】オブジェクト推測部72は、画像入力部5
4より入力された画像信号に含まれるオブジェクトに基
づいて推測処理を行い、得られた信号を乗算器79に出
力する。乗算器79は、オブジェクト推測部72より供
給された信号に、重み付け係数生成部52より供給され
た重み付け係数γ2を乗算し、乗算した結果を統合部8
3に出力する。
【0030】動作推測部73は、画像入力部54より入
力された画像信号から動作を検出し、動作に基づく推測
処理を行い、得られた推測結果の信号を乗算器80に出
力する。乗算器80は、動作推測部73より供給された
信号に、重み付け係数生成部52より供給された重み付
け係数γ3を乗算し、統合部83に出力する。
【0031】動作オブジェクト推測部74は、画像入力
部54より入力された信号から動作を検出するととも
に、オブジェクトを検出し、動作とオブジェクトの関係
に基づいて、推測処理を実行する。動作オブジェクト推
測部74より出力された信号は、乗算器81に入力され
る。乗算器81は、動作オブジェクト推測部74より入
力された信号に、重み付け係数生成部52より供給され
た重み付け係数γ4を乗算し、統合部83に出力する。
【0032】バッファメモリ75は、画像入力部54よ
り入力された画像信号を蓄積する。コンテキスト生成部
76は、バッファメモリ75に蓄積された過去分を含む
画像データに基づいて、時間的な前後の関係を含む行動
コンテキストを生成し、行動コンテキスト推測部77に
出力する。
【0033】行動コンテキスト推測部77は、コンテキ
スト生成部76より供給された行動コンテキストに基づ
いて推測処理を実行し、得られた推測結果に対応する信
号を乗算器82に出力する。乗算器82は、行動コンテ
キスト推測部77より供給された信号に、重み付け係数
生成部52より供給された重み付け係数γ5を乗算し、
統合部83に出力する。
【0034】統合部83は、乗算器78乃至82より供
給された重み付け係数γ1乃至γ5によりそれぞれ重み付
けがなされた推測結果を統合し、統合された推測結果に
基づく信号を制御信号生成部84に出力する。制御信号
生成部84は、統合部83より供給された信号に基づい
て、ロボットアーム57を駆動するための制御信号を生
成する。制御信号生成部84は、生成した制御信号をロ
ボットアーム駆動部56に供給する。
【0035】次に、その動作の概略について説明する。
【0036】ロボットのユーザ(人間)は、ロボットに
対して音声で所定の内容を発話する。発話内容は、音声
入力部53により取得され、音声推測部71に入力され
る。音声推測部71は、音声信号に基づいて、推測処理
を実行し、得られた推測結果に対応する信号を乗算器7
8に供給する。乗算器78は、音声推測部71より供給
された信号に、重み付け係数生成部52より供給された
重み付け係数γ1を乗算し、統合部83に出力する。
【0037】画像入力部54は、ユーザの発話のタイミ
ングにおける画像を取得し、オブジェクト推測部72、
動作推測部73、動作オブジェクト推測部74、および
バッファメモリ75に出力する。
【0038】オブジェクト推測部72は、入力された画
像信号からオブジェクトを抽出し、そのオブジェクトに
基づいて、推測処理を実行し、得られた信号を乗算器7
9に出力する。乗算器79は、オブジェクト推測部72
より供給された信号に重み付け係数生成部52により生
成された重み付け係数γ2を乗算し、統合部83に出力
する。
【0039】動作推測部73は、入力された画像信号に
基づいて動作を検出し、その動作に基づいて推測処理を
行い、得られた推測結果に対応する信号を、乗算器80
に出力する。乗算器80は、動作推測部73より入力さ
れた信号に、重み付け係数生成部52より供給された重
み付け係数γ3を乗算し、統合部83に出力する。
【0040】動作オブジェクト推測部74は、入力され
た画像信号から動作を検出するとともに、オブジェクト
を検出し、動作とオブジェクトの関係に基づく推測処理
を実行する。動作オブジェクト推測部74は、推測の結
果得られた信号を乗算器81に出力する。乗算器81
は、動作オブジェクト推測部74より入力された信号
に、重み付け係数生成部52より供給された重み付け係
数γ4を乗算し、統合部83に出力する。
【0041】バッファメモリ75には、そのとき音声入
力部53により取り込まれたユーザの発話タイミングに
おける画像はもとより、それより時間的に前に取り込ま
れた過去の画像も記憶されている。コンテキスト生成部
76は、バッファメモリ75に記憶されている画像に基
づいて、行動コンテキストを生成し、行動コンテキスト
推測部77に出力する。行動コンテキスト推測部77
は、入力された行動コンテキストに基づいて、推測処理
を実行し、得られた信号を乗算器82に出力する。乗算
器82は、行動コンテキスト推測部77より入力された
信号に、重み付け係数生成部52により生成された重み
付け係数γ5を乗算し、統合部83に出力する。
【0042】統合部83は、乗算器78乃至82より入
力された信号を決定関数(その詳細は、後述する)に適
用し、その決定関数に基づいて、ユーザからの発話に対
応する行動を決定する。統合部83は、決定した行動に
対応する信号を制御信号生成部84に出力する。制御信
号生成部84は、入力された信号に基づいて、ロボット
アーム57を駆動する制御信号を生成し、ロボットアー
ム駆動部56に出力する。ロボットアーム駆動部56
は、入力された制御信号に基づいて、ロボットアーム5
7を駆動する。
【0043】以上のようにして、ロボットは、ユーザの
発話内容に対応して、ロボットアーム57を駆動する
(所定の行動を実行する)ことになる。ユーザは、その
行動(ロボットアーム57の動作)が、自分自身の発話
内容と矛盾していれば(間違っていれば)、ロボットア
ーム57を手で叩く操作を行う。ロボットアーム57が
手で叩かれると、タッチセンサ51がこれを検出する。
重み付け係数生成部52は、タッチセンサ51よりロボ
ットアーム57が叩かれたことを検知すると、新たな重
み付け係数を生成し、行動決定部55に出力する。
【0044】以上のようにして、行動決定部55におい
て、ロボットがユーザの発話に対して適切な行動をする
ような学習が行われる。
【0045】さらに、このロボットに組み込まれている
行動決定装置41の詳細について説明する。
【0046】相互信念のシステムは、ロボットと人間
(ユーザ)により共有されるそれぞれの信念により構成
されている。このシステムは、ガウス分布および隠れマ
ルコフモデル(HMM)を含む確率モデルにより表され
る。各信念における信頼は、各信念の確率モデルの出力
のための重み付けファクタにより表される。ここで取り
扱う信念は、語彙、文法、行動コンテキスト、モーショ
ンとオブジェクトの関係といったものである。
【0047】いま、Lを語彙項目ci(i=1,・・・
M)を含む語彙のパラメトリックモデルとする。各項目
は、概念と単語の組み合わせから構成される。語彙項目
iにおける単語の発話(スピーチ)sと、概念のイメ
ージ(画像)vは、それぞれ分布p(s|ci)とp
(v|ci)により表される。
【0048】語彙Lは、積み重ねられた玩具(toy)の
静的イメージよりなる概念と、モーションの概念を含
む。積み重ねられた玩具の静的イメージの概念の分布
は、ガウス分布により表され、モーションの概念の分布
と単語の分布は、いずれもHMMにより表される。
【0049】文法をGで表す。文章の発話における各フ
レーズは、ランドマーク、トラジェクタ、またはモーシ
ョンにより記述されるものとし、各文章の概念の構造z
は、意味の属性[motion], [trajector], [landmar
k]により表されるものとする。
【0050】図5の場面において、対応する発話された
文章は、「big Kermit brown box move-onto」という発
話された単語のシーケンスであり、概念構造は、次のよ
うになる。
【0051】
【数1】
【0052】ここで、上記構造の右側のコラムは、発話
された単語を表し、左側のコラムは、トラジェクタ、ラ
ンドマークおよびモーションに対応する。yを、それが
文章における意味的属性の構成要素の順序を表すように
するために、意味的属性の順序を表すものとする。例え
ば、発話された文章の与えられた例において、その順番
は、[trajector]−[landmark]−[motion]であ
る。文法Gは、順番の有り得る組み合わせの生起確率の
セットにより表されるので、次式により表される。
【0053】
【数2】
【0054】行動コンテキストは、発話が記述する内容
を予測するのに用いられる任意の行動である。行動コン
テキストは、特に、前回のアクションおよび現在の注目
ジェスチャを含む。行動コンテキストqが与えられた場
合、現在の発話により記述されているアクションにおい
て、オブジェクトoがトラジェクタまたはランドマーク
として含まれる可能性は、f(o,q)により表され
る。
【0055】このシステムにおいて、注目ジェスチャ
は、ポインティングおよびホールディングの2つのタイ
プに区分される。図6は、ユーザが図中最も右側に位置
するオブジェクトをポインティングしている状態を表
し、図7は、ユーザが最も右側に位置するオブジェクト
をホールディングしている状態を表している。
【0056】2つのタイプのジェスチャは、ホールディ
ングジェスチャがその位置において、1つのオブジェク
トをホールドする試みを表示するだけであるのに対し
て、ポインティングジェスチャは、直接的な注意を表示
するのに使用されることで、区別される。
【0057】f(o,q)の値は、oがポイントされて
いる場合、bpとなり、oがホールドされている場合、
hとなり、oが前回のアクションにおけるプロジェク
タまたはランドマークとして含まれている場合、bc
なり、その他の場合、0となる。
【0058】Rをモーションとオブジェクトの関係に関
する信念を表すパラメータセットを表すものとする。モ
ーションWmと、アクションに含まれるトラジェクタオ
ブジェクトの特徴tおよびランドマークオブジェクトの
特徴lとの間の関係に関する信念は、p(t,l|
m,R)により表される。何故ならば、次式で表され
るベクトルot,lは、ガウス分布しているからである。
【0059】
【数3】
【0060】ここで、R,otおよびolは、それぞれこ
の信念、プロジェクタオブジェクトの特徴、およびラン
ドマークオブジェクトの特徴を、それぞれ表している。
【0061】ここでは、発話の理解は、発話により記述
される行為の推測として定義される。発話は、状況に関
する信念を利用して理解される。状況は、テーブル上の
オブジェクトの配置、発話期間において使用された注目
ジェスチャ、並びに前回のアクションにおいて利用され
たオブジェクトを含む。アクションは、トラジェクタt
およびモーションuの規跡により表される。行動コンテ
キストq、信念(語彙L、文法G、および行動コンテキ
ストの効果B、モーションとオブジェクトの関係R)、
並びに信念の確からしさ Γ=「γ1,・・・,γ4」 が与えられたとすると、対応するスピーチsの意味を反
映するために理解されたアクションは、次の式(1)で
表される決定関数を最大にすることで決定される。
【0062】
【数4】
【0063】上記式(1)における右辺の項の第1の項
が図4における音声推測部71により生成される項であ
り、その重み付け係数γ1は、乗算器78により乗算さ
れる係数である。同様に、第2の項は、オブジェクト推
測部72により生成される項であり、その重み付け係数
γ2は、乗算器79により乗算される係数である。
【0064】第3の項は、動作推測部73により生成さ
れる項であり、その重み付け係数γ 3は、乗算器80に
より乗算される係数である。第4の項は、動作オブジェ
クト推測部74により生成される項であり、その重み付
け係数γ4は、乗算器81により乗算される係数であ
る。第5の項は、行動コンテキスト推測部77により生
成される項であり、その重み付け係数γ5は、乗算器8
2により乗算される係数である。
【0065】統合部83は、この決定関数の演算を行う
ことになる。
【0066】このように、式(1)は、各項が、重み付
けを行う項とされている。このため、相手が知っている
項目に関しては、重み付け係数の値を小さくし、知らな
い項目に関しては、重み付け係数の値を大きくすること
が可能となる。すなわち、この決定関数は、相手が知ら
ない項目(知っている項目)を表現できる関数となって
いる。その結果、人間がオブジェクトを代名詞で表現す
るなどの、省略した表現を行ったとしても、ロボットは
それを理解することができる。
【0067】次に、相互信念のパラメータの学習につい
て説明する。
【0068】siは、学習期間における第i番目の発話
を表すものとする。また、{ti,u i}は、人間によっ
て予期された正しい応答を表すものとする。
【0069】信念のパラメータL,G,R,およびB
は、ベイズ学習法を利用することで、学習することがで
きる。この学習は、ロボットが最初の応答または2番目
の応答において、発話siの正しい理解を示した各エピ
ソードの後に行われる。
【0070】確からしさのパラメータΓは、決定エラー
の数を最小にするように、エピソードのシーケンスによ
り順次最適化される。最初の応答または2番目の応答に
おいて、ロボットが発話siに対して正しい理解を示し
た場合、その損失liは、次式で表される。
【0071】
【数5】
【0072】ここで、(t'i,u'I)は、次式で表され
る。
【0073】
【数6】 上記式のL,G,R,B,Γが、学習するパラメータで
ある。
【0074】ロボットが最初の応答および2番目の応答
のいずれにおいても、siの正しい理解を示さなかった
場合には、ロボットは、正しいアクション{ti,ui
の情報を得ることができず、損失liは、便宜上0にセ
ットされる。
【0075】損失liは、次式で表される第i番目のエ
ピソードにおける全体的損失の計算に使用される。
【0076】
【数7】
【0077】相互信念のパラメータは、最初の応答が誤
っており、第2番目の応答が正しい各エプソードの後に
学習される。グローバル損失Liは、勾配法によって最
小化され、パラメータは、収束するまで更新される。
【0078】このように、L,G,R,B,Γの各パラ
メータが同時に学習される。
【0079】次に、図8のフローチャートを参照して、
行動決定装置41により実行される学習処理について説
明する。
【0080】ステップS11において、音声入力部53
は、人間(ユーザ)からの発話を入力し、画像入力部5
4は、その時点における周囲の環境(主に、人間とその
周囲に配置されているオブジェクト)の画像を撮像す
る。音声推測部71は、音声入力部53により入力され
た音声信号を抽出する。また、オブジェクト推測部7
2、動作推測部73、動作オブジェクト推測部74、お
よびバッファメモリ75は、それぞれ画像入力部54よ
り入力された画像信号を抽出する。コンテキスト生成部
76は、バッファメモリ75に蓄積されている過去の画
像をも参照して、行動コンテキストを生成し、行動コン
テキスト推測部77に供給する。
【0081】ステップS12において、ステップS11
の処理で抽出された音声と画像に対応するパラメータを
生成する処理が実行される。具体的には、音声推測部7
1は、上述した式(1)の右辺の第1項の成分を推測す
る処理を実行し、その成分に対応する信号を乗算器78
に供給する。乗算器78は、音声推測部71より供給さ
れた信号に重み付け係数γ1を乗算し、統合部83に出
力する。
【0082】オブジェクト推測部72は、式(1)の右
辺の第2項の成分を推測する処理を実行し、得られた信
号を乗算器79に出力する。乗算器79は、オブジェク
ト推測部72より入力された信号に、重み付け係数γ2
を乗算し、統合部83に出力する。
【0083】動作推測部73は、式(1)の第3項の成
分を推測し、得られた信号を乗算器80に出力する。乗
算器80は、動作推測部73より供給された信号に、重
み付け係数γ3を乗算し、統合部83に出力する。
【0084】動作オブジェクト推測部74は、式(1)
の右辺の第4項の成分を推測し、得られた結果を乗算器
81に出力する。乗算器81は、動作オブジェクト推測
部74より供給された信号に、重み付け係数γ4を乗算
し、統合部83に出力する。
【0085】行動コンテキスト推測部77は、式(1)
の右辺の第5項の成分を推測し、得られた結果を乗算器
82に出力する。乗算器82は、行動コンテキスト推測
部77より供給された信号に、重み付け係数γ5を乗算
し、統合部83に出力する。
【0086】ステップS13において、ステップS12
の処理で生成されたパラメータに対応する行動を推定す
る処理が実行される。すなわち、統合部83は、乗算器
78乃至82より供給された式(1)の右辺の第1項乃
至第5項の成分を、式(1)に適用し、これを解くこと
で、行動を推定する。
【0087】ステップS14において、ステップS13
の処理で推定された行動を実行する処理が実行される。
すなわち、制御信号生成部84は、統合部83より供給
された信号に基づいて、制御信号を生成し、ロボットア
ーム駆動部56を介して、ロボットアーム57を駆動す
る。これにより、ロボットアーム57が人間のスピーチ
に対応して、所定の行動(動作)行うことになる。
【0088】人間は、その行動が正しければ何もせず、
間違っている場合には、ロボットアーム57を手で叩
く。
【0089】そこで、ステップS15において、ロボッ
トアーム57が叩かれたか否かが判定される。ロボット
アーム57が叩かれた場合には、タッチセンサ51がこ
れを検出する。ロボットアーム57が叩かれた場合、ロ
ボットは、人間のスピーチに対して、誤った行動をした
ことを知る。そこで、この場合、ステップS16に進
み、統合部83は、ステップS13の処理で推定された
行動のうち、次の候補の行動を実行する。すなわち、統
合部83は、次の候補の行動に対応する信号を制御信号
生成部84に供給する。制御信号生成部84は、入力さ
れた信号に対応する制御信号を生成し、ロボットアーム
駆動部56を介して、ロボットアーム57を駆動する。
【0090】人間は、第2回目のロボットの行動に対し
て、それが正しければ何もせず、誤っている場合には、
ロボットアーム57を叩く操作を行う。
【0091】そこで、ステップS17において、ロボッ
トアーム57が叩かれたか否かが判定される。ロボット
アーム57が叩かれなかった場合には、第2回目の行動
は正しかったことになる。そこで、ステップS18に進
み、統合部83は、パラメータを更新する処理を実行す
る。ステップS19において、統合部83は、パラメー
タが収束したか否かを判定し、収束していない場合に
は、ステップS18に戻り、再びパラメータを更新する
処理を実行する。
【0092】以上のようにして、ステップS19におい
て、パラメータが収束したと判定されるまで、パラメー
タを更新する処理が実行される。
【0093】ステップS15において、ロボットアーム
57が叩かれなかったと判定された場合、およびステッ
プS17において、ロボットアーム57が叩かれたと判
定された場合、並びにステップS19の処理が終了した
後、処理はステップS20に進む。ステップS20にお
いて、次の発話がなされたか否かが判定され、次の発話
がなされた場合には、ステップS11に戻り、それ以降
の処理が繰り返し実行される。ステップS20におい
て、次の発話がなされていないと判定された場合、処理
は終了される。
【0094】次に、実験の結果について説明する。実験
は、スピーチ、オブジェクトの画像、並びに行動コンテ
キスト(ポインティングジェスチャ、ホールディングジ
ェスチャ、および前回のアクション)のデータのセット
を使用して行われた。各データのセット毎に、人間によ
って正しいとラベル化された応答がロボットに与えられ
た。実験において、各データのセットに対するロボット
の反応は、自動的に、予め正しいとラベル化されている
応答によってチェックされた。その結果、シミュレート
の実験を行うことが可能であった。
【0095】スピーチは、メルスケールケプストラム係
数と、そのデルタパラメータ(32次元)を使用して表
された。カメラにより撮像された静的オブジェクトの特
徴は、そのサイズ(1次元)、色(3次元:L*,a*
*)、および形状(2次元:幅または高さ、正方形
状)により表された。モーションは、座標のシーケンス
(2次元:垂直および水平)、および速度(2次元)に
より表された。ポインティングが注意を直接誘発するの
で、行動コンテキストにおける注目ジェスチャのため
に、充分大きい値100を有するように、bpを定義し
た。
【0096】モーションとオブジェクトの関係のモデル
Rは、100のランダムに選択されたオブジェクトによ
り初期化された。
【0097】最初に、確信度が与えられたパラメータ
(γ1=γ2=0.5,γ3=γ4=0.0)に設定され
た。この実験において、確信度は、 γ1+γ2+γ3=1 として、定義された。また、γ4は、2つの独立の確信
度(γ4,1,γ4,2)に分割された。γ4,1は、ジェスチ
ャアテンション(γ4,1=γ4・bh)のためのコンフィ
デンスを表し、γ4,2は、行動コンテキスト(γ4,2=γ
4・bc)のためのコンフィデンスを表す。
【0098】実験のためのインタラクションは、異なる
難しさの3つのレベルに分類された。
【0099】実験において、シーケンスAとシーケンス
Bという2つのシーケンの発話が使用された。各シーケ
ンスは、128個の発話を含む。
【0100】(1)シーケンスA
【0101】シーケンスAにおいては、最初の32個の
エピソードにおいて使用された発話から、何の情報も削
除されていない。図9は、このタイプのインタラクショ
ンの例を示す。発話は、"Kermit Elmo put-beside"であ
り、それに対する応答において、人間が予期するのは、
ロボットがKermitをElmo(いずれも商標)の横に置くこ
とである。
【0102】エピソード33から64の発話は、行動コ
ンテキストの理解を要求した。図10は、このタイプの
インタラクションの例を示す。発話は、"Green toy-box
blue toy-box jump-over"である。ここでは、1つのシ
ーンに、2つのgreen toy-boxesがあり、1つは、人間
によって保持され、他の1つは、テーブル上に位置して
いる。人間は、ホールディングアクションが、保持して
いるオブジェクトに対して注意を向けさせることを予期
しているので、正しいアクションは、ロボットが人間に
より保持されているgreen toy-boxを掴み、それをblue
toy-boxの上を飛び越させることである。
【0103】エピソード65から128のために、人間
は、断片的な発話を行った。図11は、このタイプのイ
ンタラクションの例を表す。この例においては、発話
は、"move-onto"であり、このときKermitは、人間によ
って保持されている。ロボットに予期されている応答
は、人間の手からKermitを取り、それをtoy-box上に動
かすことである。
【0104】(2)シーケンスB
【0105】シーケンスBにおいては、128個の全て
のエピソードにおいて、断片的発話が使用された。比較
のために、シーケンスBにおける最後の64個のエピソ
ードは、シーケンスAにおけるエピソードと同一とされ
た。
【0106】図12と図13は、それぞれ、シーケンス
AとシーケンスBにおけるエラーレートを表している。
図12の方が、ロボットが学習により、よりコミュニケ
ーションすることができたことを表している。図14と
図15は、それぞれシーケンスAとシーケンスBのモー
ションとオブジェクトの関係を表している。図14に学
習の効果を見てとることができる。この場合、モーショ
ンとオブジェクトの関係の信念における鮮鋭な分布
が、"move-onto"というモーションにおけるランドマー
クオブジェクトの正方形状性の信念を表している。
【0107】図16乃至図20は、スピーチ(図1
6)、モーションとオブジェクト(図17)、モーショ
ンとオブジェクトの関係(図18)、ジェスチャの注意
(図19)、および行動コンテキスト(図20)の確信
度を表している。
【0108】図18に示されるように、エピソード64
の後、モーションとオブジェクトの関係の信念における
増加するコンフィデンスは、ロボットがモーションとオ
ブジェクトの関係の信念を使用することを学習している
ことを表している。
【0109】しかしながら、図13に示されるように、
同じエピソードが使用されているにも関わらず、エピソ
ード96より後のシーケンスBのエラーレートは、シー
ケンスAのそれとマッチしていない。この差異は、図1
4と図15に示されている。シーケンスAにおいては、
多くの成功的なエピソードを持って、ロボットは、既に
エピソード64により信念を開発した。しかしながら、
シーケンスBにおいては、初期の成功的なエピソードの
欠如が、ロボットが信念を開発するには、より多くのエ
ピソードが必要であることを意味する。
【0110】図21乃至図23は、学習の後の発話の理
解の結果として生成されたアクションを表している。第
1回目と第2回目の決定のための候補における計算され
た対する確率の差も、また表されている。
【0111】図21において、人間は、ロボットがKerm
itを彼の手にLiftすべきことを示すために、"Lift"と話
した。人間によって保持されたKermitは、最初の候補と
して選択された。対数確率の詳細は、例えば、人間の手
に基づく行動コンテキストの信念は、効果的であったこ
とを表す。
【0112】図22において、左側のオブジェクトBarb
a(商標)は、前回のアクションにおいて、テーブル上
に置かれた。人間がBarbaをtoy-box上に置くことを意味
して、"move-onto"と話した。行動コンテキストに関す
る信念、並びにモーションとオブジェクトの関係を使用
することは、正しい理解を得るのに効果的であった。
【0113】図23において、右側のオブジェクトであ
る大きなKermitは、前回のアクションにおいて、テーブ
ル上に置かれた。人間が、Grover(商標)が、toy-box
上の小さなKermitを飛び越すことを意味して、"Grover
small Kermit jump-over"と話した。対数確率の結果
は、最初の候補におけるオブジェクトの信念が"small K
ermit"の記述により適合するため、オブジェクト概念に
関する信念に大きな差があることを表している。この最
初の2つの例において、行動コンテキストの信念は、発
話の理解における一要素である。しかしながら、この例
において、行動コンテキストの信念より強いオブジェク
ト信念は、正しい理解に効果的であった。
【0114】以上のように、音声に関する情報とオブジ
ェクトに関する情報のそれぞれに、重み付けを行う項を
含む関数により、行動を決定するようにすることで、省
略した表現を用いた場合においても、その表現をより確
実に理解させることが可能となる。
【0115】上述した一連の処理は、ハードウエアによ
り実行させることもできるが、ソフトウエアにより実行
させることもできる。この場合、例えば、情報処理装置
は、図24に示されるようなパーソナルコンピュータに
より構成される。
【0116】図24において、CPU(Central Processin
g Unit)121は、ROM(Read OnlyMemory)122に記
憶されているプログラム、または記憶部128からRAM
(Random Access Memory)123にロードされたプログ
ラムに従って各種の処理を実行する。RAM123にはま
た、CPU121が各種の処理を実行する上において必要
なデータなども適宜記憶される。
【0117】CPU121、ROM122、およびRAM123
は、バス124を介して相互に接続されている。このバ
ス124にはまた、入出力インタフェース125も接続
されている。
【0118】入出力インタフェース125には、キーボ
ード、マウスなどよりなる入力部126、CRT(Cathode
Ray Tube)、LCD(Liquid Crystal display)などよりなる
ディスプレイ、並びにスピーカなどよりなる出力部12
7、ハードディスクなどより構成される記憶部128、
モデム、ターミナルアダプタなどより構成される通信部
129が接続されている。通信部129は、インターネ
ットを含むネットワークを介しての通信処理を行う。
【0119】入出力インタフェース125にはまた、必
要に応じてドライブ30が接続され、磁気ディスク4
1、光ディスク42、光磁気ディスク43、或いは半導
体メモリ44などが適宜装着され、それらから読み出さ
れたコンピュータプログラムが、必要に応じて記憶部1
28にインストールされる。
【0120】一連の処理をソフトウエアにより実行させ
る場合には、そのソフトウエアを構成するプログラム
が、専用のハードウエアに組み込まれているコンピュー
タ、または、各種のプログラムをインストールすること
で、各種の機能を実行することが可能な、例えば汎用の
パーソナルコンピュータなどに、ネットワークや記録媒
体からインストールされる。
【0121】この記録媒体は、図24に示されるよう
に、装置本体とは別に、ユーザにプログラムを提供する
ために配布される、プログラムが記録されている磁気デ
ィスク141(フロッピディスクを含む)、光ディスク
142(CD-ROM(Compact Disk-Read Only Memory),DVD
(Digital Versatile Disk)を含む)、光磁気ディスク1
43(MD(Mini-Disk)を含む)、もしくは半導体メ
モリ144などよりなるパッケージメディアにより構成
されるだけでなく、装置本体に予め組み込まれた状態で
ユーザに提供される、プログラムが記録されているROM
122や、記憶部128に含まれるハードディスクなど
で構成される。
【0122】なお、本明細書において、記録媒体に記録
されるプログラムを記述するステップは、記載された順
序に沿って時系列的に行われる処理はもちろん、必ずし
も時系列的に処理されなくとも、並列的あるいは個別に
実行される処理をも含むものである。
【0123】また、本明細書において、システムとは、
複数の装置により構成される装置全体を表すものであ
る。
【0124】
【発明の効果】以上の如く、本発明によれば、人間と対
話が可能な装置を実現することが可能となる。
【0125】また、本発明によれば、人間が省略した表
現を用いた場合においても、それを、より確実に、理解
することが可能な装置を実現することができる。
【図面の簡単な説明】
【図1】従来の行動決定装置の構成例を示すブロック図
である。
【図2】図1の行動決定部の構成例を示すブロック図で
ある。
【図3】本発明を適用した行動決定装置の構成例を示す
ブロック図である。
【図4】図3の行動決定部の構成例を示すブロック図で
ある。
【図5】学習の場面の例を示す図である。
【図6】学習の場面の例を示す図である。
【図7】学習の場面の例を示す図である。
【図8】図3の行動決定装置の学習処理を説明するフロ
ーチャートである。
【図9】学習の場面の例を示す図である。
【図10】学習の場面の例を示す図である。
【図11】学習の場面の例を示す図である。
【図12】エラーレートを示す図である。
【図13】エラーレートを示す図である。
【図14】モーションとオブジェクトの関係を示す図で
ある。
【図15】モーションとオブジェクトの関係を示す図で
ある。
【図16】スピーチの確信度を説明する図である。
【図17】モーションとオブジェクトの確信度を説明す
る図である。
【図18】モーションとオブジェクトの関係の確信度を
説明する図である。
【図19】ジェスチャ注意の確信度を説明する図であ
る。
【図20】行動コンテキストの確信度を説明する図で
る。
【図21】学習の場面の例を示す図である。
【図22】学習の場面の例を示す図である。
【図23】学習の場面の例を示す図である。
【図24】本発明を適用したパーソナルコンピュータの
構成例を示すブロック図である。
【符号の説明】
51 タッチセンサ, 52 重み付け係数生成部,
53 音声入力部,54 画像入力部, 55 行動決
定部, 56 ロボットアーム駆動部, 57 ロボッ
トアーム, 71 音声推測部, 72 オブジェクト
推測部, 73 動作推測部, 74 動作オブジェク
ト推測部, 75 バッファメモリ,76 コンテキス
ト生成部, 77 行動コンテキスト推測部, 78乃
至82 乗算器, 83 統合部, 84 制御信号生
成部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04N 5/225 G10L 3/00 571U Fターム(参考) 2C150 CA01 CA02 CA04 DF03 DF04 DF06 DF08 DF33 ED42 ED47 ED52 EF03 EF07 EF16 EF17 EF23 EF29 EF33 EF36 3C007 KS31 KS39 KT01 LW12 WB17 WB19 5C022 AC41 AC69 AC72 5D015 KK01 LL07

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 音声入力信号と画像入力信号から音声に
    関する情報とオブジェクトに関する情報を抽出する抽出
    手段と、 前記抽出手段により抽出された音声に関する情報とオブ
    ジェクトに関する情報を決定関数に適用して、行動を決
    定する決定手段とを備え、 前記決定関数は、前記抽出手段により抽出された音声に
    関する情報とオブジェクトに関する情報のそれぞれに、
    重み付けを行う項を含む関数であることを特徴とする情
    報処理装置。
  2. 【請求項2】 前記重み付けのための係数を学習する学
    習手段をさらに備えることを特徴とする請求項1に記載
    の情報処理装置。
  3. 【請求項3】 前記決定関数は、前記音声に関する情報
    の項、前記オブジェクトに関する情報の項、動作に関す
    る項、前記動作と前記オブジェクトとの関係の項、およ
    び行動コンテキストの項を含むことを特徴とする請求項
    1に記載の情報処理装置。
  4. 【請求項4】 前記動作と前記オブジェクトとの関係を
    表す第1のパラメータ、前記行動コンテキストを表す第
    2のパラメータ、および前記重み付けのための係数を、
    同時に学習する学習手段をさらに備えることを特徴とす
    る請求項3に記載の情報処理装置。
  5. 【請求項5】 情報処理装置の情報処理方法において、 音声入力信号と画像入力信号から音声に関する情報とオ
    ブジェクトに関する情報を抽出する抽出ステップと、 前記抽出ステップの処理により抽出された音声に関する
    情報とオブジェクトに関する情報を決定関数に適用し
    て、行動を決定する決定ステップとを含み、 前記決定関数は、前記抽出ステップの処理により抽出さ
    れた音声に関する情報とオブジェクトに関する情報のそ
    れぞれに、重み付けを行う項を含む関数であることを特
    徴とする情報処理方法。
  6. 【請求項6】 情報処理装置を制御するプログラムであ
    って、 音声入力信号と画像入力信号から音声に関する情報とオ
    ブジェクトに関する情報を抽出する抽出ステップと、 前記抽出ステップの処理により抽出された音声に関する
    情報とオブジェクトに関する情報を決定関数に適用し
    て、行動を決定する決定ステップとを含み、 前記決定関数は、前記抽出ステップの処理により抽出さ
    れた音声に関する情報とオブジェクトに関する情報のそ
    れぞれに、重み付けを行う項を含む関数であることを特
    徴とするコンピュータが読み取り可能なプログラムが記
    録されている記録媒体。
  7. 【請求項7】 情報処理装置を制御するコンピュータ
    に、 音声入力信号と画像入力信号から音声に関する情報とオ
    ブジェクトに関する情報を抽出する抽出ステップと、 前記抽出ステップの処理により抽出された音声に関する
    情報とオブジェクトに関する情報を決定関数に適用し
    て、行動を決定する決定ステップとを含む処理を実行さ
    せるプログラムであって、 前記決定関数は、前記抽出ステップの処理により抽出さ
    れた音声に関する情報とオブジェクトに関する情報のそ
    れぞれに、重み付けを行う項を含む関数であることを特
    徴とするプログラム。
JP2002106538A 2002-04-09 2002-04-09 情報処理装置および方法、記録媒体、並びにプログラム Withdrawn JP2003302998A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002106538A JP2003302998A (ja) 2002-04-09 2002-04-09 情報処理装置および方法、記録媒体、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002106538A JP2003302998A (ja) 2002-04-09 2002-04-09 情報処理装置および方法、記録媒体、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2003302998A true JP2003302998A (ja) 2003-10-24

Family

ID=29390829

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002106538A Withdrawn JP2003302998A (ja) 2002-04-09 2002-04-09 情報処理装置および方法、記録媒体、並びにプログラム

Country Status (1)

Country Link
JP (1) JP2003302998A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008254122A (ja) * 2007-04-05 2008-10-23 Honda Motor Co Ltd ロボット

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008254122A (ja) * 2007-04-05 2008-10-23 Honda Motor Co Ltd ロボット

Similar Documents

Publication Publication Date Title
US10902845B2 (en) System and methods for adapting neural network acoustic models
US20210327410A1 (en) Using corrections, of predicted textual segments of spoken utterances, for training of on-device speech recognition model
JP5633042B2 (ja) 音声認識装置、音声認識方法、及び音声認識ロボット
JP3945356B2 (ja) 音声対話装置及びプログラム
US11264009B2 (en) System and method for a dialogue response generation system
JP2023029973A (ja) 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション
EP3791383B1 (en) On-device speech synthesis of textual segments for training of on-device speech recognition model
US8532989B2 (en) Command recognition device, command recognition method, and command recognition robot
US11545133B2 (en) On-device personalization of speech synthesis for training of speech model(s)
JP7418563B2 (ja) オンデバイスの機械学習モデルの訓練のための自動化アシスタントの機能の訂正の使用
TWI760015B (zh) 互動物件的驅動方法、裝置、設備以及儲存媒體
JP2005003926A (ja) 情報処理装置および方法、並びにプログラム
EP3956884B1 (en) Identification and utilization of misrecognitions in automatic speech recognition
US20240055002A1 (en) Detecting near matches to a hotword or phrase
US20240021207A1 (en) Multi-factor audio watermarking
JP2003302998A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
US20230252995A1 (en) Altering a candidate text representation, of spoken input, based on further spoken input
US20240112673A1 (en) Identifying and correcting automatic speech recognition (asr) misrecognitions in a decentralized manner
KR20230131015A (ko) 전자 장치 및 그 제어 방법
JP2005004473A (ja) 発話生成装置および方法、並びにプログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050705