JP2011054088A - 情報処理装置、情報処理方法、プログラム及び対話システム - Google Patents

情報処理装置、情報処理方法、プログラム及び対話システム Download PDF

Info

Publication number
JP2011054088A
JP2011054088A JP2009204599A JP2009204599A JP2011054088A JP 2011054088 A JP2011054088 A JP 2011054088A JP 2009204599 A JP2009204599 A JP 2009204599A JP 2009204599 A JP2009204599 A JP 2009204599A JP 2011054088 A JP2011054088 A JP 2011054088A
Authority
JP
Japan
Prior art keywords
utterance
function
response
user
certainty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009204599A
Other languages
English (en)
Inventor
Komei Sugiura
孔明 杉浦
Naoto Iwahashi
直人 岩橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2009204599A priority Critical patent/JP2011054088A/ja
Publication of JP2011054088A publication Critical patent/JP2011054088A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】ユーザの発話の意味が適切に理解されないことによる動作失敗を減少できる情報処理装置、情報処理方法、プログラム及び対話システムを提供する。
【解決手段】対話ロボットの制御部4は、ユーザの発話の曖昧性を確信度関数として定量化する統合確信度関数演算部19と、確信度関数に基づいて動作応答又は確認発話応答を選択する応答選択部21と、確認発話応答が選択されたときに確認応答を生成する確認発話生成部23とを備える。
【選択図】図2

Description

本発明は、ユーザによる発話に応じたタスクを実行する対話ロボット等の対話システムに適用される情報処理装置、情報処理方法、プログラム及びそれらを用いた対話システムに関するものである。
高齢化社会の到来とともに、生活環境で人間を支援するロボットへの期待が高まっている。このような生活支援ロボットにとって、ユーザとのコミュニケーション機能は極めて重要である。
ユーザとのコミュニケーション機能を実現するための従来の対話処理技術としては、特許文献1や非特許文献1を例示することができる。これらの文献には、ユーザの音声による物体操作命令(「コップを箱に載せて。」などの発話)を受けて、ロボットが物体操作を行なう技術が開示されている。
特開2005−3926号公報
Iwahashi, N.: Robots That Learn Language: Developmental Approach to Human-Machine Conversations, Human-Robot Interaction, pp. 95-118 (2007)
生活支援ロボットが日常環境に導入されるためには、ユーザとの安全・安心なインタラクションを実現する必要がある。しかしながら、特許文献1や非特許文献1に開示されている従来の対話処理技術には、安全性の観点から大きな問題を有している。
それは、ユーザの発話の意味がロボットにおいて適切に理解されずにロボットが予期しない動作を行ってしまう動作失敗を回避するための機構がないという問題である。
さらに、ロボットに言語や動作を学習させる学習フェーズにおいても、ロボットがある程度の動作失敗を行なう必要がある。学習フェーズにおける動作失敗であっても、ハードウェアの故障などを引き起こす可能性があるため、ユーザの予期しないような動作失敗を減少させることが望ましい。
本発明は、上記の問題を解決するためになされたものであり、ユーザの発話の意味が適切に理解されないことによる動作失敗を減少させることができる情報処理装置、情報処理方法、プログラム及び対話システムを提供することを目的とする。
本発明の情報処理装置は、ユーザによる発話に応じたタスクを実行する対話システムを制御する情報処理装置であって、前記発話の曖昧性を確信度関数として定量化する確信度関数演算手段と、前記確信度関数に基づいて、前記タスクを実行する動作応答又は前記タスクの実行前にユーザに確認を行う確認応答を選択する応答選択手段と、前記応答選択手段により前記確認応答が選択されたときに、前記対話システムに実行させる確認応答を生成する確認応答生成手段とを備える。
この構成によれば、実行フェーズにおいて、確信度関数演算手段によりユーザによる発話の曖昧性が確信度関数として定量化され、当該確信度関数に基づいて応答選択手段により動作応答又は確認応答が選択される。よって、ユーザによる発話の曖昧性が高い場合には、確認応答が選択され、タスクの実行前にユーザに確認(例えば確認発話)を行うことができる。このタスク実行前のユーザへの確認により、システムがユーザの発話の意味を正確に理解することができ、システムが予期しない応答動作を行ってしまう動作失敗を大幅に減少させることができる。
また、上記の情報処理装置において、前記確信度関数演算手段は、マルチモーダル入力から学習される複数の信念に基づいて算出される共有信念関数を演算する共有信念関数演算部と、前記共有信念関数の値を最大化する最適行動と当該最適行動以外の行動との共有信念関数の値の差であるマージンを演算するマージン演算部とを含み、前記マージンに基づいて前記確信度関数を演算することが好ましい。
この構成は、マルチモーダル入力から学習される複数の信念に基づいて共有信念関数を算出し、当該共有信念関数に基づいてマージンを演算し、当該マージンに基づいて前記確信度関数を演算する好ましい構成である。このような、マルチモーダル入力から学習される共有信念モデル(実世界にグラウンドした動作のイメージをユーザとシステムとが共有するユーザモデル)は、本発明に好適に用いられる。
また、上記の情報処理装置において、前記応答選択手段は、前記最適行動の確信度関数の値が所定の閾値以上の場合に当該最適行動を前記タスクとする前記動作応答を選択する一方、当該最適行動の確信度関数の値が前記閾値より小さい場合に前記確認応答を選択することが好ましい。
この構成によれば、確信度関数についての閾値を導入することにより、当該閾値を基準にして動作応答と確認応答との何れか一方を選択する処理を容易に構築でき、処理の単純化を図れる。
また、上記の情報処理装置において、前記確認応答生成手段は、前記確信度関数の値が前記閾値以上になるまで、予め学習されたレキシコンの要素から前記マージンを最大化する単語を1語ずつ追加し、前記確信度関数の値が前記閾値以上になったときの単語を用いて確認応答を生成することが好ましい。
この構成によれば、ユーザが曖昧性の高い発話を行った場合には、前記確認応答生成手段により、確信度関数の値が閾値以上になるまでマージンを最大化する単語を1語ずつ追加しながら確認応答が生成される。これにより、過不足ない自然な確認応答を生成することができる。
また、上記の情報処理装置において、前記確信度関数をベイズロジスティック回帰に能動学習を適用したパラメータ学習手段をさらに備えていることが好ましい。
上記の構成において、能動学習とは、システム側からの発話を受けてユーザが動作応答することにより行う学習をいう。従来の対話システムでは、ユーザの発話を受けてシステムが応答を生成し、ユーザ発話を理解する学習が一般的である。これに対して、本発明の情報処理装置では、前記の共有信念モデルによりシステム側とユーザとが実世界にグラウンドした対話を行うため、システム側が「ユーザが用いる語彙」を用いてユーザに動作応答させる能動学習が可能となる。そして、確信度関数の能動学習において、ベイズロジスティック回帰による推定を用いている。これにより、学習フェーズにおいて、能動学習で得られた学習結果をベイズ推定の事前分布に用いることにより、学習が収束するまでにシステム側が動作を失敗する回数を減少させることができる。
ここでは、説明の簡略化のため明示的に学習フェーズと実行フェーズとを分けた。しかしながら、本発明はこれに限定されず、実行フェーズにおいて学習を行えば、常にユーザに適応し続けることが可能となる。学習フェーズと実行フェーズとの違いは、実行フェーズでは確信度関数のパラメータの更新を明示的に止めているに過ぎない。そのため、上記情報処理装置において、実行フェーズにおいてもパラメータの更新も行えば、ユーザへのオンライン適応が可能となる。このオンライン適応に導入された上記能動学習により、より少ない回数で学習が可能となるような発話をユーザに対して行うことができる。
また、上記の情報処理装置において、前記パラメータ学習手段は、学習フェーズにおけるシーンにおいて可能な全ての発話の中から期待対数損失を最小化する発話を選択する発話選択部と、前記発話選択部にて選択された発話に対してユーザが正しい動作を行ったか否かを評価して正解ラベルを生成する正誤評価部と、前記発話選択部にて選択された発話についてのマージンと、前記正解ラベルとを学習サンプルとして、ベイズロジスティック回帰により前記確信度関数のパラメータを推定するパラメータ推定部とを備えていることが好ましい。
この構成によれば、能動学習のために選択された発話についてのマージンと正解ラベルとを学習サンプルとしてベイズロジスティック回帰により確信度関数のパラメータを推定する場合において、能動学習のための発話の選択に、期待対数損失を用いている。すなわち、学習フェーズにおけるシーンにおいて可能な全ての発話の中から期待対数損失を最小化する発話を選択する。これにより、確信度の能動学習に有効な発話を適切に選択することができる。
本発明の対話システムは、ユーザによる発話を入力する音声入力部と、上記の何れかの構成の情報処理装置を備えている。これにより、ユーザの発話の意味が適切に理解されないことによる動作失敗を減少させることができる対話システムを実現できる。
本発明の情報処理方法は、ユーザによる発話に応じたタスクを実行する対話システムを制御する方法であって、前記発話の曖昧性を確信度関数として定量化する確信度関数演算工程と、前記確信度関数に基づいて、前記タスクを実行する動作応答又は前記タスクの実行前にユーザに確認を行う確認応答を選択する応答選択工程と、前記応答選択工程により前記確認応答が選択されたときに、前記対話システムに実行させる確認応答を生成する確認応答生成工程とを含む。
上記の方法によれば、ユーザの発話の意味が適切に理解されないことによる動作失敗を減少させることができる情報処理方法を実現できる。
本発明のプログラムは、ユーザによる発話に応じたタスクを実行する対話システムを制御するためのプログラムであって、前記発話の曖昧性を確信度関数として定量化する確信度関数演算工程と、前記確信度関数に基づいて、前記タスクを実行する動作応答又は前記タスクの実行前にユーザに確認を行う確認応答を選択する応答選択工程と、前記応答選択工程により前記確認応答が選択されたときに、前記対話システムに実行させる確認応答を生成する確認応答生成工程と、をコンピュータに実行させるものである。
この構成により、ユーザの発話の意味が適切に理解されないことによる動作失敗を減少させることができるプログラムを実現できる。
本発明の他の情報処理装置は、ユーザによる発話に応じたタスクを実行する対話システムを制御する情報処理装置であって、前記発話の曖昧性を確信度関数として定量化し、当該確信度関数に基づいて前記対話システムを制御する制御手段と、前記確信度関数をベイズロジスティック回帰に能動学習を適用したパラメータ学習手段とを備えている。
上記の構成では、確信度関数の能動学習において、ベイズロジスティック回帰による推定を用いている。これにより、学習フェーズにおいて、能動学習で得られた学習結果をベイズ推定の事前分布に用いることにより、学習が収束するまでに対話システム側が動作を失敗する回数を減少させることができる。
本発明によれば、実行フェーズにおいて、ユーザによる発話の曖昧性が高い場合には、確認応答が選択され、タスクの実行前にユーザに確認を行うことができるので、対話システムがユーザの発話の意味を正確に理解することができ、対話システムが予期しない応答動作を行ってしまう動作失敗を大幅に減少させることが可能となる。
また、学習フェーズにおいて、確信度関数の能動学習にベイズロジスティック回帰による推定を用いるので、学習が収束するまでにシステム側が動作を失敗する回数を減少させることができる。
本発明の一実施の形態に係る対話ロボットの概略構成を示すブロック図である。 対話ロボットにおける制御部の機能的な概略構成を示すブロック図である。 対話ロボットにおける制御部のハード的な概略構成を示すブロック図である。 レキシコンを説明するものであり、確率モデルと概念インデックスとの対応を示す説明図である。 対話ロボットにおける撮像画像の一例を示す説明図である。 効用を説明する説明図である。 統合確信度と期待効用との関係を示すグラフである。 対話ロボットの処理ルーチンを示すフローチャートである。 対話ロボットに学習させた単語を示す説明図である。 学習後の共有信念関数のパラメータを示す説明図である。 統合確信度関数の学習結果を示すものであり、マージンと統合確信度関数との関係を示すグラフである。 訓練サンプル数と統合確信度関数の対数尤度との関係を示すグラフである。 対話ロボットとユーザとの対話例を説明するための説明図である。 対話ロボットとユーザとの別の対話例を説明するための説明図である。 確信度に基づく意志決定手法の定量的結果を示す説明図である。 本発明のその他の実施の形態を示すものであり、対話ロボットにおける制御部の機能的な概略構成を示すブロック図である。 制御部における統合確信度関数学習部の概略構成を示すブロック図である。 統合確信度関数の学習結果を表すものであり、マージンと統合確信度との関係を示すグラフである。 学習フェーズにおける対話ロボットとユーザとの対話例を説明するための説明図である。 ロボットの発話数とマージンとの関係を示すグラフである。 ユーザの発話数と統合確信度関数の対数尤度との関係を示すグラフである。
以下添付図面を参照しながら、本発明の実施の形態について説明する。なお、以下の実施の形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格のものではない。
(実施の形態1)
図1は、本実施の形態に係る情報処理装置を適用した対話ロボット1(対話システム)の概略構成を示すブロック図である。図1に示すように、対話ロボット1は、音声入力部2、画像入力部3、制御部4(情報処理装置、制御手段)、ロボットアーム駆動部5、ロボットアーム6、タッチセンサ7及び発話出力部8を具備している。
対話ロボット1は、例えば、家庭内においてユーザの生活支援を行なうロボットとして構成されるものであって、ユーザによる発話に応じたタスクを実行する。以下に詳述するように、本実施の形態に係る対話ロボット1は、ユーザとの安全・安心なインタラクションを実現することができる。
音声入力部2は、例えば、マイクロホン等により構成され、ユーザの発話内容を音声信号として取得し、取得した音声信号を制御部8へ出力するものである。
画像入力部3は、例えば、ビデオカメラ等の撮像手段により構成され、対話ロボット1の周囲の画像を撮像して画像信号を生成し、当該画像信号を制御部8へ出力するものである。
制御部4は、音声入力部2からの音声信号や画像入力部3からの画像信号などに基づいて、対話ロボット1全体の動作制御を行なうものである。制御部4の機能的構成を図2に示しているが、その詳細は後述する。図3に示すように、情報処理装置としての制御部4は、例えば、CPU(Central Processing Unit)41、プログラムを記憶するROM(Read Only Memory)42、各種処理の実行時にプログラムやデータを記憶するRAM(Random Access Memory)43、入出力インタフェース44及びこれらを接続するバス45により構成することができる。CPU41は、ROM42に記憶されているプログラムや入出力インタフェース44を介して入力されるプログラムをRAM43にロードして各種の処理を実行する。
ロボットアーム駆動部5は、制御部4からの制御信号に基づいてロボットアーム6の関節等を駆動するアクチュエータである。ロボットアーム6は、アーム部及びハンド部を備え、物体をハンド部で把持しながらアーム部の動作により当該物体を移動できるように構成されている。
タッチセンサ7は、例えばロボットアーム6に取り付けられており、ユーザが当該タッチセンサ7に触れたときにそれを検知し、制御部4に検知信号を出力するものである。このタッチセンサ7は、学習フェーズにおいて、対話ロボット1が動作失敗をした場合にユーザが当該タッチセンサ7に触れることによって、対話ロボット1に不正解の評価を与えるとき等に使用されるものである。
発話出力部8は、例えば、スピーカ等により構成され、制御部4からの発話出力信号を物理振動に変換して音声合成された発話を出力するものである。
本実施の形態の対話ロボット1は、マルチモーダル入力から学習された共有信念モデル(ユーザモデル)を用いてユーザの発話を理解する(共有信念モデルに基づく発話理解)。
さらに、本実施の形態の対話ロボット1は、前記の共有信念モデル(ユーザモデル)に基づく発話理解の確信度を推定し、適切な行動や発話を生成する(発話理解確信度の推定に基づく発話と動作の生成)。より詳しくは、対話ロボット1は、行動を指示(命令)するユーザの発話の曖昧性を、共有信念モデルを用いて定量化し、当該定量化された情報に基づいて、あらかじめ定義された効用(タスク達成の効用)を最大化する応答(動作あるいは確認発話)を生成する。
前記の「共有信念モデルに基づく発話理解」及び「発話理解確信度の推定に基づく発話と動作の生成」は、対話ロボット1の制御部4により実現される。この制御部4は、図2に示すように、音声信念モジュール10、視覚信念モジュール11、動作信念モジュール12、動作−オブジェクト関係信念モジュール13、行動コンテキスト信念モジュール14、バッファメモリ15、コンテキスト生成部16、共有信念関数演算部17、マージン関数演算部18、統合確信度関数演算部19(確信度関数演算手段)、統合確信度関数学習部20、応答選択部21(応答選択手段)、動作応答生成部22及び確認発話応答生成部23(確認応答生成手段)を具備している。制御部4の各構成要素は、専用のLSI等によりハードウェア的に構成することもできるが、図3に示すCPU41等を有するコンピュータがプログラムを実行することによってソフトウェア的に実現することもできる。制御部4の各構成要素の詳細については、後述する。
まず、前記「共有信念モデルに基づく発話理解」について、以下に詳述する。
「1.共有信念モデルに基づく発話理解」
対話ロボット1は、マルチモーダル入力から学習されたユーザモデルを用いてユーザの発話を理解する。ここで、音声・画像・動作などの各モダリティに対応するユーザモデルを信念モジュールと称する。また、(1)音声、(2)視覚、(3)動作、(4)動作−オブジェクト関係、(5)行動コンテキストの5つの信念モジュールを統合したユーザモデルを共有信念と称する。
これらの信念モジュール及び共有信念は、教師あり学習の枠組みにより学習されるものである。学習フェーズにおける教師データは、ユーザとロボットとの実世界インタラクションを通じて収集される。このインタラクションとは、対話ロボット1とユーザとの何れか一方が他方に対して動作を指示(命令)する発話を行い、当該発話を他方が理解して指示された動作を行い、さらに当該動作を一方が評価する(正しい動作を行なったか否かを評価する)ことをいう。また、教師データとは、当該動作に対する評価結果を示す正誤ラベル情報(0又は1)である。
ここで、音声、視覚、動作と対応付けた単語集合をレキシコンと称する。以下、レキシコンについて説明する。
「1−1.レキシコン」
「1−1−1.視覚情報・動作と対応した単語集合」
レキシコンLは、図4に示すような概念インデックスと対応づけられた確率モデルの集合である。各確率モデルは、音声入力部2や画像入力部3などから得られた入力に統計的学習手法を適用することにより得られる。図4において、C <i>はオブジェクト(例えばコップや箱などの物体)の視覚的特徴を表す要素であり、C <j>は動作(物体操作軌道)を表す要素である。また、i及びjは、要素のインデックスを表すものである。以下においは、各信念モジュールに対する説明の準備として、音声・視覚・動作信念に関する確率モデルについて説明する。
「1−1−2.視覚特徴を表す確率モデル」
<i>は2 種類の確率モデルに対応づけられている。すなわち,音声特徴量を表す確率モデルM <i>と、オブジェクトの画像特徴量ベクトルを表す確率モデルM <i>である。M <i>は隠れマルコフモデル(HMM)で表現され、M <i>は多次元ガウス分布で表現される。C <i>により、「アカイ」「ハコ」などの音声(実際には音韻列)と、対応する視覚特徴が対応づけられる。M <i>とM <i>の学習には、例えば、文献「Iwahashi, N.: Robots That Learn Language: Developmental Approach to Human-Machine Conversations, Human-Robot Interaction, pp. 95-118 (2007)」に示される公知の方法を用いることができる。
「1−1−3.動作を表す確率モデル」
<j>は3 種類の確率モデルと固有座標系タイプ(「Sugiura, K. et al.: Learning object-manipulation verbs for human-robot communication, Proc. of IWMISI 2007, pp.32-38 (2007)」参照)に対応づけられている。すなわち、音声特徴量を表す確率モデルM <j>、動作(物体操作軌道)を表す確率モデルM <j>、動作−オブジェクト関係を表す確率モデルM <j>である。C <i>の場合と同様に、M <j>はHMMで表現される。M <j>は、オブジェクトの位置、速度、加速度の時系列を表す確率モデルであり、HMMを用いて表現される。C <j>により、「まわす」や「のせる」などの音声、動作、及び動作に関連する視覚特徴が対応づけられる。
M <j>は動作に関連するオブジェクト(群)の画像特徴量を表す確率モデルである。M <j>は多次元ガウス分布で表現され、分布の推定にはベイズ学習を用いる。M <j>により、物体に対する行為の可能性(アフォーダンス)を、画像特徴量に対するモデルの尤度として評価することが可能になる。
M <j>の学習には、参照点に依存した物体操作の学習手法を用いることができる(「Sugiura, K. et al.: Learning object-manipulation verbs for human-robot communication, Proc. of IWMISI 2007, pp.32-38 (2007)」及び「羽岡哲郎ほか: 言語獲得のための参照点に依存した空間的移動の概念の学習, 信学技報, PRMU2000-105, pp. 39-46 (2000)」参照)。これは、動作の基準となる参照点の推定を行ない、参照点に依存した物体操作軌道を表すHMMを学習する手法である。例えば、図5に示すように、対話ロボット1がオブジェクト1〜オブジェクト4を撮影画像から抽出している場面において、ユーザが点線に沿ってオブジェクト4を動かしたとする。この軌道は、トラジェクタ(動かされるオブジェクト)とランドマーク(動作の基準となるオブジェクト)との相対軌道としてモデル化される。図5では、オブジェクト2の重心が参照点となる。
次に、音声信念モジュールに関係するもう一つの確率モデルである文法について、以下に説明する。
「1−2.文法」
発話における文節や単語の並びの規則は、文法Gにより表現される。文法Gは、(1)文節列の出現確率Pと、(2)文節内での単語インデックス列の出現確率Pとからなる。
ユーザの発話sは、トラジェクタを表す文節WT、ランドマークを表す文節WL、及び動作を表す文節WMからなる概念構造z=(WT,WL,WM)と対応づけて解釈される。ただし、本手法では、ユーザの発話sに含まれる動詞の活用形は全て命令形であり、音声認識時に助詞を扱わないこととする。また、ランドマークを必要としない動作概念では、z=(WT,WM)である。
及びPは、ユーザが与えた教師データから学習される(文法G の学習の詳細については「羽岡哲郎ほか: 言語獲得のための参照点に依存した空間的移動の概念の学習, 信学技報, PRMU2000-105, pp. 39-46 (2000)」を参照)。Pにより、語順や文節が省略される傾向をモデル化できる。さらに、語順をモデル化するので、語順が異なる言語にも対応できる。Pは、文節中の単語列の出現頻度をバイグラム確率として学習させる。
次に信念モジュールについて説明する。
「1−3.信念モジュール」
シーンOにおいて発話sが与えられたとする。このとき、シーンOにおいて可能な動作の集合Aは下式(1)により与えられる。
Figure 2011054088
ここに、トラジェクタのインデックスをi、参照点のインデックスをr、O中のオブジェクトの数をO、動作を表す単語数をV、C <j>に対して可能な参照点の数をRとする。従って、発話sによって物体操作を行わせるタスクは、発話sに対してa∈Aを選択するタスクであると言える。
このとき、各信念モジュールを以下のように定義する。まず、レキシコンLと文法Gをパラメータとして、音声信念Bを発話sに対する概念構造zの対数尤度として表す。視覚信念Bは、オブジェクトiの視覚特徴量x <i>に対するレキシコンLの対数尤度である。同様に、動作−オブジェクト関係信念Bは、オブジェクト(i,j)の視覚特徴量に対するレキシコンLの対数尤度である。また、行動aに対する最尤軌道をYとすると、動作信念Bは、トラジェクタiの位置x <it>が与えられたうえでの最尤軌道Yに対するレキシコンLの対数尤度で表される。
行動コンテキスト信念Bは、コンテキストq<i>=(q <i>,q <i>)のもとでの、指示対象としてのオブジェクトiの適切さ(スコア)を表す。q <i>、q <i>をそれぞれ、オブジェクトiが「把持されている」、「直前に操作された」状態を表す真偽値であるとすると、行動コンテキスト信念Bは下式(2)で定義される。
Figure 2011054088
行動コンテキスト信念Bにより、指示語や日本語に多い目的語の省略をモデル化できる。行動コンテキスト信念Bのパラメータhは、例えばMinimum Classification Error(MCE)学習(「Katagiri, S. et al.: Pattern recognition using a family of design algorithms based upon the generalized probabilistic descent method, Proc. of the IEEE, Vol. 86, No. 11, pp.2345-2373 (1998)」参照)に基づいて学習される。
前記の5つの信念モジュールは、図2に示す音声信念モジュール10、視覚信念モジュール11、動作信念モジュール12、動作−オブジェクト関係信念モジュール13及び行動コンテキスト信念モジュール14である。
音声信念モジュール10は、音声入力部2から入力される音声信号に基づいて、前記の音声信念Bを演算し、その結果を共有信念関数演算部17に出力する。
視覚信念モジュール11は、画像入力部3から入力される画像信号に基づいて、前記の視覚信念Bを演算し、その結果を共有信念関数演算部17に出力する。
動作信念モジュール12は、画像入力部3から入力される画像信号に基づいて、前記の動作信念Bを演算し、その結果を共有信念関数演算部17に出力する。
動作−オブジェクト関係信念モジュール13は、画像入力部3から入力される画像信号に基づいて、前記の動作−オブジェクト関係信念Bを演算し、その結果を共有信念関数演算部17に出力する。
バッファメモリ15は、画像入力部3より入力された画像信号を一時的に蓄積する。コンテキスト生成部16は、バッファメモリ15に蓄積された過去分を含む画像信号に基づいて、時間的な前後の関係を含む前記コンテキストqを生成し、当該コンテキストqを行動コンテキスト信念モジュール14に出力する。
行動コンテキスト信念モジュール14は、ンテキスト生成部16より入力されたコンテキストqに基づいて、前記の行動コンテキスト信念Bを演算し、その結果を共有信念関数演算部17に出力する。
そして、共有信念関数演算部17では、5つの信念モジュールからの信念B、B、B、B、Bの入力に基づいて、共有信念関数Φを演算する。以下に共有信念関数Φについて説明する。
「1−4.共有信念関数」
共有信念関数Φを、各信念モジュールの演算出力の重み付け和として、下式(3)のように定義する。
Figure 2011054088
ここで、γ=(γ,・・・,γ)は、各信念B、B、B、B、Bに対する重みを表し、iはランドマークのインデックスを表す。γの学習には、MCE学習を用いることができる。この共有信念関数Φにより、発話sと行動aの対応の適切さを評価することができる。図2に示す共有信念関数演算部17は、共有信念関数Φの演算結果をマージン関数演算部18に出力する。
次に、前記「発話理解確信度の推定に基づく発話と動作の生成」について以下に詳述する。
「2.発話理解確信度の推定に基づく発話と動作の生成」
前述のとおり、対話ロボット1は、行動を指示(命令)するユーザの発話の曖昧性を、共有信念モデルを用いて定量化し、当該定量化された情報に基づいて、あらかじめ定義された効用(タスク達成の効用)を最大化する応答(動作あるいは確認発話)を生成する。そこで、まず共有信念関数Φに基づく発話の曖昧性の尺度について言及した上で、統合確信度による発話理解確率をモデル化することについて、以下に説明する。
「2−1.統合確信度による発話理解確率のモデル化」
共有信念関数Φを用いると、コンテキストq、シーンO、発話sが与えられたときの最適行動a(hat) は、下式(4)にて得られる。
Figure 2011054088
そして、行動aと、最適行動a(hat) (k≠j)のマージンを下式(5)の関数dにより定義する。
Figure 2011054088
ただし、上式(5)において、パラメータL、G、γの表記を省略している。ここで、最大値の次に大きい共有信念関数Φの値を与える行動をaとする。式(5)より、最適行動a(hat) に対するマージンは、最適行動a(hat)と行動aとの共有信念関数Φの値の差であることがわかる。よって、a(hat)に対するマージンが0に近ければ、発話sは最適行動a(hat)と行動aを指示する発話として同程度に適した表現であると言える。逆に、マージンが大きい場合には、最適行動a(hat)の方が発話sの指示する行動として適している。従ってマージン関数は、行動a(hat)を指示する発話としてのsの曖昧性の尺度として用いることができる。
図2に示すマージン関数演算部18は、共有信念関数演算部17から入力される共有信念関数Φに基づいて前記マージン関数dを演算し、その結果を統合確信度関数演算部19に出力する。
ここで、マージンを用いてa(hat)に対する確信度を得ることを考える。音声認識の分野では、認識結果に対する確信度を導入することにより、発話を棄却するか否かを制御する研究が行われている(「Kawahara et al.: Flexible speech understanding based on combined key-phrase detection and verification, IEEE Trans. Speech and Audio Processing, Vol. 6, No. 6, pp. 558-568 (1998)」参照)。また、確信度は、動作認識や音声認識において新規動作や未登録語の検出にも用いられている。
本実施の形態では、統合確信度関数f(d)をシグモイド関数を用いて下式(6)のように定義する。
Figure 2011054088
ここで、w=(w,w)は、統合確信度関数f(d)のパラメータである。この統合確信度関数f(d)により、マージンdのもとで発話が正しく理解される確率をモデル化することができる。統合確信度関数f(d)の形から、0<f(d)<1であり、マージンdが大きいほどf(d)が1に近付くことがわかる。
統合確信度関数演算部19は、マージン関数演算部18から入力されるマージンdに基づいて統合確信度関数f(d)を演算し、その結果を応答選択部19に出力する。
次に、音声・視覚・動作などを統合した前記ユーザモデルに対する統合確信度関数f(d)を、統計的学習手法に基づいて学習することについて、以下に説明する。
「2−2.統合確信度関数の学習」
マージンと正解ラベル(教師信号)とを学習サンプルとして、ロジスティック回帰により統合確信度関数f(d;w)のパラメータwを推定することを考える。学習フェーズにおいて、学習サンプル集合を、入力マージンdと教師信号uとの組{(d、u)|i=1,・・・,N}として与える。ただし、教師信号uは0又は1の2値であるとする。
ここで、入力マージンdを与えたときの統合確信度関数の出力f(d)を、入力マージンdのもとで教師信号uが1である確率の推定値であると考える。このとき、学習サンプル集合に対する統合確信度関数の対数尤度LLは、下式(7)で与えられる。
Figure 2011054088
ただし、学習サンプル間の独立性を仮定する。
統合確信度関数f(d;w)のパラメータwの学習には、Fisherのスコアリングアルゴリズム(「Kurita, T.: Iterative weighted least squares algorithms for neural networks classifiers, New generation computing, Vol. 12, No. 4, pp. 375-394 (1994)」参照)を用いることができる。これは、統合確信度関数の対数尤度LLを最大化するパラメータ推定法である。パラメータの最尤推定値は、Fisher情報行列を用いた繰り返しアルゴリズムにより求められる。
上記の統合確信度関数の学習処理は、図2に示す統合確信度関数学習部20にてなされる。学習フェーズにおいては、ユーザの発話に対して対話ロボット1に行動を行わせて、統合確信度関数を学習させる。より具体的には、(1)ユーザの発話、(2)対話ロボット1がマージンや統合確信度関数などを演算し、ユーザの発話に応じて行動、(3)対話ロボット1が正しい行動を行なったか否かの正解ラベル(教師信号)をユーザがタッチセンサ7を用いて対話ロボット1に与える、という工程により学習が実行される。すなわち、このとき得られるマージンと正解ラベル(教師信号)とを学習サンプルとして、統合確信度関数学習部20が、統合確信度関数f(d;w)のパラメータwの推定処理(学習)を行う。
なお、ユーザが正解ラベル(教師信号)を対話ロボット1に与える手段としては、タッチセンサ7を用いることなく、対話ロボット1に音声でもって「正解」又は「不正解」を入力するものであってもよい。
次に、統合確信度関数演算部19で演算された統合確信度関数f(d)を用いて、予め定義された効用(タスク達成の効用)を最大化する応答(動作あるいは確認発話)を決定する処理について、以下に説明する。
「2−3.期待効用最大化に基づく応答の決定」
ユーザの発話sに対して対話ロボット1が行った動作応答が、ユーザが対話ロボット1に行わせたい行動と異なることは、安全性の観点から望ましくない。これに対し、統合確信度を用いれば、このような問題を回避できる可能性がある。例えば、発話sに対する最適行動a(hat)の統合確信度が小さければ、ユーザに当該最適行動a(hat)を行うか否かを確認する発話をすればよい。本実施の形態では、応答に対する効用の概念を導入し、これを最大化する応答(最適応答)に関する意志決定を対話ロボット1が行う。以下、この意志決定について説明する。
今、応答として、動作応答bと確認発話応答bがあるとする。動作応答bとは、ユーザの発話に応じた動作を実行する応答である。確認発話応答bとは、ユーザの発話に応じた動作を実行する前に確認発話を行う応答である。統合確信度f(d)は、マージンdのもとで発話が正しく理解される確率をモデル化するものであるから、応答b(i=1、2)に対する期待効用E[R]及び最適応答b(hat)を、下式(8)及び(9)のように推定することができる。
Figure 2011054088
Figure 2011054088
式(8)中、ri1、ri2はそれぞれ、a(hat)が正解、不正解であったときの応答bに対する効用を示している。図6に効用をまとめている。
ここで、r12<r22<r21<r11であるとする。E[R]は統合確信度関数f(d)の線形関数であるので、図7に示すように、このとき等式E[R]=E[R]は0<θ<1なる解θを持つ。つまり、θを閾値として最適応答を選択することができる。
図2に示す応答選択部21は、統合確信度関数演算部19で演算された統合確信度関数f(d)に基づいて、タスク達成の効用を最大化する応答として、動作応答b又は確認発話応答bの何れかを選択する。すなわち、応答選択部21は、ユーザの発話sに対して統合確信度f(d)を最大化する最適行動a(hat)についての統合確信度f(d)が閾値θ以上であれば動作応答bを選択し、当該統合確信度f(d)が閾値θより小さければ確認発話応答bを選択する。
このように、統合確信度関数f(d)についての閾値θを導入することにより、当該閾値θを基準にして動作応答と確認発話応答との何れか一方を選択する処理を容易に構築でき、処理の単純化を図れる。
図2において、応答選択部21が動作応答を選択した場合、動作応答生成部22は、最適行動a(hat)が実行されるようにロボットアーム駆動部5に出力する制御信号を生成する。そして、ロボットアーム駆動部5は、動作応答生成部22からの制御信号に基づいてロボットアーム6(図1参照)を駆動する。
一方、応答選択部21が確認発話応答を選択した場合、確認発話応答生成部23が確認発話を生成することになる。この確認発話応答生成部23は、統合確信度f(d)を用いて過不足ない自然な確認発話を生成することができる。以下、この確認発話の生成について説明する。
確認発話において、共有信念として学習されたユーザモデルを言語表現の生成に用いることを考える。例えば、食器が複数ある状況では、「四角くて白い皿」のように最も曖昧性が減少し、かつ冗長でない表現でオブジェクトを表現できることが望ましい。本実施の形態では、ユーザの発話に対しマージンを最大化する単語を加えることで曖昧性を減少させる。ただし、加える単語数は、f(d)≧θを満たす最小の単語数とする。
以上の構成において、対話ロボット1における制御部4の処理ルーチン(アルゴリズム)を図8のフローチャートに基づいて説明する。制御部4は、シーンO、コンテキストq及び発話sを入力として、以下のように最適応答又は確認発話応答を生成する。
まず、ユーザの発話sが音声入力部2から対話ロボット1に入力された場合(S1でYES)、動作候補集合A={a|k=1,2,・・・,|A|}の全ての要素について実行予定軌道を生成し、共有信念関数Φ(s,a,O,q)を求める(S2)。
そして、共有信念関数Φ(s,a,O,q)に基づいてマージン関数d(s,a,O,q)を求める(S3)。さらに、マージン関数d(s,a,O,q)に基づいて統合確信度関数f(d(s,a,O,q))を求める(S4)。
また、動作候補集合Aの中で統合確信度関数を最大化する最適行動a(hat)を下式(10)として求める(S5)。もちろん、最適行動a(hat)は、式(4)により求めてもよい。
Figure 2011054088
そして、最適行動a(hat)に対し、f(d(s,a(hat),O,q))≧θならば(S6でYES)、最適行動a(hat)を動作応答として終了する(S7)。これは、ユーザが曖昧性の低い発話sを行った場合である。
一方、f(d(s,a(hat),O,q))<θならば(S6でNO)S8へ移行する。これは、ユーザが曖昧性の高い発話sを行ったことにより確認発話応答が選択された場合であり、S8以降は確認発話応答のためのルーチンである。
S8では、確認動作ターゲット集合A’をA’=Aで初期化する。
その後、ターゲット動作aを下式(11)として求める(S9)。
Figure 2011054088
その後、レキシコンLの要素から、マージンdを最大化する単語1語を概念構造zに追加する(S10)。すなわち、下式(12)を満たす視覚特徴を表す単語C(hat) <i>をW又はWに加える。ただし、分節中で重複する単語は用いない。
Figure 2011054088
その後、更新されたマージンd’について、f(d’)≧θならば(S11でYES)、ターゲット動作aについて確認発話を行う(S12)。すなわち、更新された概念構造zに基づいて音声を合成して、発話出力部8より発話を行う。ただし、トラジェクタを表す分節Wとランドマークを表す分節Wのうち単語が追加されない文節については確認しない。
一方、f(d’)<θならば(S11でNO)、概念構造zに追加可能な単語が存在するか否かを判断する(S13)。ここで、概念構造zに追加可能な単語が存在すれば(S13でYES)、S10へ移行してマージンを最大化する単語1語をさらに概念構造zに追加する。概念構造zに追加可能な単語が存在しなければ(S13でNO)、発話sを棄却し、例えば「わかりません」という発話を発話出力部8より出力して終了する(S18)。
上記のS12で確認発話を行った後、ユーザの応答(音声による「はい」、「いいえ」等の応答)が肯定であれば(S14でYES)、ターゲット動作aを動作応答として終了する(S15)。一方、ユーザの応答が否定であれば(S14でNO)、確認動作ターゲット集合A’からaを除き(S16)、S17へ移行する。なお、この場合のユーザの応答は、音声による応答に限定されるものではなく、例えばタッチセンサ7を用いた応答としてもよい。
S17では、A’が空集合か否かを判断する。A’が空集合であれば(S17でYES)、S18に移行して上記のように発話sを棄却する。一方、A’が空集合でなければ(S17でNO)、S9に移行して新たなターゲット動作aを求め、以降は上記のS10からS18に示したルーチンを実行することになる。
上記のルーチンのように、ユーザが曖昧性の高い発話sを行った場合には、確認発話応答が選択され、統合確信度関数の値が閾値θ以上になるまでマージンを最大化する単語を1語ずつ追加しながら確認発話応答が生成される。これにより、過不足ない自然な確認発話応答を生成することができる。
上記一連の工程(ルーチン)の実行は、ハードウェアにより実行させることもできるが、各工程をコンピュータに実行させるプロブラムがインストールされた情報処理装置(コンピュータ)により実現することもできる。
なお、本実施の形態では、曖昧性の高いユーザによる発話に対して応答選択部21が確認応答を選択した場合、確認発話(ユーザに確認すべき内容を音声によって確認)しているが、これに限定されない。例えば、ユーザに確認すべき内容を図示しないディスプレイ部に文字(文章)で表示する確認表示としてもよい。
次に、実験により本実施の形態の情報処理及び方法の効果について考察する。
「3.実験手法:タスク環境及び実験設定」
「3−1.ハードウェア」
実験に用いた対話ロボット1としてのロボットシステム(以下、ロボットと称す)は、7自由度のロボットアーム(三菱重工製PA−10)、4自由度のロボットハンド(BarrettTechnology製BarrettHand)、音声入力部2としてのマイクロフォン、画像入力部3としてのステレオカメラ(PointGreyResearch製Bumblebee2)、視線表出ユニットからなる。
オブジェクトに関する画像特徴や座標は、ステレオカメラから得られた画像から抽出される。図5に、ステレオカメラより得られた画像の例と、それに対応する観測情報の内部表現を示す。ステレオカメラのフレームレートを30[frame/sec]とし、解像度を320×240とした。また、画像特徴量として、色3次元(L*a*b*)、形状3次元を用いる。
「3−2.信念モジュールと共有信念関数の学習」
共有信念関数の学習を行う前に、ロボットに予めレキシコンLと文法Gとを学習させた。学習させた単語の一覧を図9に示す。なお、図9において、グローバー、エルモ、カーミット、チュートトロ、プーサン、バーバズー及びバーバブライトは何れも商標である。
オブジェクトを指示する単語に対しては、音声・画像特徴量の組を平均7セットずつロボットに与えた。また、動作を指示する単語に対しては、音声・軌道の組を15セットずつロボットシステムに与えた。ただし、動作を指示する単語についての動作−オブジェクト関係については、共有信念関数の学習時に同時に教示した。文法Gを学習させるための教師データは、被験者にオブジェクトを操作させながら発話を行わせることで収集した。文法Gの学習に用いた教師データの総数は72セットである。
次に、動作−オブジェクト関係信念M、行動コンテキスト信念B、共有信念関数のパラメータγの学習を行わせた。まず、図5に示すように、被験者をロボットとオブジェクト(ぬいぐるみ等)が置かれたテーブルをはさんで対面させた。そして、被験者に、オブジェクトをロボットに操作させるための発話を行わせ、常に最適行動を動作応答とする方策によりロボットにオブジェクト操作を行わせた。「ユーザによる発話、ロボットによる動作、ユーザによる正解・不正解の評価(正解ラベルの付与)」を1つのエピソードとして、オンラインで、動作−オブジェクト関係信念M、行動コンテキスト信念B、共有信念関数のパラメータγの学習を行わせた。エピソード数は96であり、1エピソードのチャンスレベルは平均2.37%であった。ユーザの発話に含まれる単語数は平均3.39語であった。学習後における共有信念関数のパラメータγの値を図10に示す。
「3−3.評価実験」
本実施の形態の評価のために、(1)統合確信度関数の学習、(2)統合確信度に基づく意志決定、の2種類の実験を行なった。実験(1)の目的は、学習が収束するサンプル数について検討することで、本実施の形態に係る統合確信度の学習に関する性能評価を行うことである。また、実験(2)の目的は、本実施の形態に係る情報処理による動作失敗率の減少について検証することである。
実験(1)において、統合確信度関数の学習の訓練及び評価データは、以下のように収集した。まず、共有信念関数の学習と同様の実験環境で、ロボットにオブジェクトを操作させるための発話を被験者に行わせ、カメラ画像と音声とを100セット収録した。得られた画像・音声セットに、ユーザが意図した行動を正解としてラベル付けした。収録データのチャンスレベルは平均2.34%であり、収録した音声に含まれる単語数は平均2.54語であった。なお、収録データのうち、半数の50個を訓練集合、残りの50個を評価集合とした。実験(1)では、共有信念関数における重み(パラメータ)γの更新を行わない。また、Fisherのスコアリングアルゴリズムにおけるパラメータ更新回数を20とした。
実験(2)では、被験者と本実施の形態の構成を実装した前記ロボットとを対話させる。本実験(2)では、前記実験(1)の訓練集合を用いて学習がなされ統合確信度関数のパラメータを固定して用いる。ここで、被験者とロボットの対話は、以下のようにして行う。まず、評価集合からデータを1つ選択し、オブジェクト配置を再現する。次に、対応する音声をロボットに入力し、本実施の形態の情報処理によりロボットに応答を生成させる。確認発話応答に対しては、被験者に肯定又は否定の応答をさせる。なお、ロボットによる動作又は発話棄却により終了する一連のインタラクションをエピソードと定義する。そして、動作を行ったエピソードにおける、正解動作以外の動作が実行されたエピソードの割合を動作失敗率として評価する。
以下に、上記の実験に対する結果と考察をまとめる。
「4.実験結果と考察」
「4−1.統合確信度関数の学習」
統合確信度関数の学習に関する定性的結果を図11に示す。同図におけるそれぞれの曲線は、訓練サンプル数を変えたときの回帰結果である。同図中の(a)〜(d)は、それぞれ訓練サンプル数10、15、20、25のときの結果に対応する。同図より、サンプル数20までに学習が収束していることがわかる。
次に、定量的結果について検討する。図12に、テスト集合に対する統合確信度関数の対数尤度LLを示す。同図には、訓練サンプル数に対する統合確信度関数の対数尤度LLをプロットした。ただし、図中に示した統合確信度関数の対数尤度LLは、10回の実験における平均値である。各実験は、100個の教師データを50個ずつ訓練集合とテスト集合にランダムに振り分けて行った。同図より、訓練サンプル数20までに学習が収束していることがわかる。
ここで、統合確信度関数の対数尤度LLが、サンプル数i=10付近で最小値をとる理由を考察する。d(tilde)を下式(13)とすると、訓練サンプルを無作為に抽出すれば、d(tilde)は単調減少することがわかる。
Figure 2011054088
今、有限回のパラメータ更新により、訓練集合iでd(tilde)<i>、w1 <i>、LL<i>が得られるとする。このとき、d(tilde)<i1> > d(tilde)<i2> > 0 > d(tilde)<i3> の条件下でd(tilde)<i2>を0に近づけると、シグモイド関数の傾きはw1 <i1>,w1 <i3> <w1 <i2>となる。つまり、このような単調減少するd(tilde)に対して、テストセット尤度はLL<i1>,LL<i3> >LL<i2>となる。
「4−2.確信度に基づく意志決定」
はじめに、定性的な結果について述べる。図13及び図14にユーザ(U)とロボット(R)との対話例を示す。これらは共に、統合確信度関数の閾値θ=0.7と設定したときに得られたものである。各図において右上の数値は、統合確信度の値を表す。
図13の対話例では、ユーザはトラジェクタ及びランドマークについて発話しなかったものの、ロボットの動作は正しいもの(「オブジェクト2をオブジェクト3に載せる」)であった。この理由は以下のように考えられる。図13に示すシーンでは、正解動作の軌道に対する尤度(動作信念モジュールから得られる尤度)は比較的小さい。具体的には、正解動作軌道の尤度は、動作候補60通りのうち24位であった。しかしながら、動作−オブジェクト関係信念モジュールと、コンテキスト信念モジュールから得られるスコアを加えることで、正解動作に対するスコアが動作候補のなかで最大になった。さらに、この正解動作(すなわち最適行動a(hat))の統合確信度は、f(d)=0.998>θであったので、動作を実行する動作応答の効用が確認発話をする確認発話応答の効用を上回り、動作を実行する意志決定が行われた。
一方、図14の対話例では、最適行動a(hat)の確信度は、f(d)=0.478<θであった。よって、確認発話が最適応答であり、「アオイハコ・・・」等の言語表現が生成された。この言語表現は、オブジェクト2とオブジェクト3(これらは色の異なるハコ)の視覚的特徴のなかで最も異なる属性(ここでは色)について述べており、ユーザにとって理解しやすい。ランドマーク(ここではオブジェクト1)については確認発話を行わなくても統合確信度に影響はないため、確認を省略している。
図15に、統合確信度に基づく意志決定手法の定量的結果を示す。同図における各項目は以下に示す通りである。
実行失敗率は、動作を行ったエピソードにおける、正解動作以外の動作が実行されたエピソードの割合を示す。なお、実行失敗率において、ロボットによるブジェクトの把持失敗やオブジェクト同士の衝突などに関する失敗については考慮しない。棄却率は、全エピソードの中で、動作が実行されなかったエピソードの割合を示す。確認発話率は、全エピソードの中で、確認発話がなされたエピソードの割合を示す。平均確認発話数は、確認発話が行われたエピソードにおける確認発話の平均回数を示す。
図15において、統合確信度関数の閾値θ=0とすることは、確認発話を行うことなく、ユーザの発話に対して常に動作を行う方策である。このときの実行失敗率は12.0%(6/50)であった。同図より、閾値θ=0以外の場合(すなわち、統合確信度関数が閾値θより小さいときに確認発話応答を選択する場合)には、実行失敗率が12.0%より小さくなっている。これにより、必要に応じて確認発話を実行する本実施の形態の構成により、動作失敗が減少していることが解る。さらに、閾値θの増加に伴って、実行失敗率が低下する傾向が見られた。例えばθ=0.9の場合には、実行失敗率は6.5%(3/46)であった。なお、同図に示すように、閾値θ=0以外の実験条件において、確認発話率は50%以下であり、平均確認発話数は1.3以下であった。
最後に、棄却率について検討する。図15より、閾値θの増加に伴って実行失敗率が低下する一方、棄却率は上昇していることが解る。ユーザの発話が棄却されるエピソードは、(1)閾値θを超える効用を与える確認発話を生成できないと判断された場合と、(2)確認発話に用いられた表現をユーザが理解できなかった場合とに分けられる。前記(1)の例は、(学習させた)言語表現のみではオブジェクトを同定できないシーンにおける発話が挙げられる。特に、本実験では「右」や「左」などの位置関係を表す語彙を用いていないので、同じオブジェクトが2つあるシーンでは、片方のオブジェクトを同定する言語表現は存在しない。よって、位置関係を表す語彙等を追加学習させることにより、棄却率の低下を図ることが可能である。前記(2)の例は、画像処理における不確実性により、シーンに存在しないオブジェクトの名前を用いた言語表現を生成することが挙げられる。これに関し、より高い画像処理技術を用いることにより、棄却率の低下を図ることが可能である。
以上の実験結果から解るように、本実施の形態に係る対話ロボット1は、動作失敗を減少させることができる。この対話ロボット1は、家庭用の生活支援ロボット等として用いることができる。生活支援ロボットとして日常環境に導入されるためには、ユーザとの安全・安心なインタラクションを実現する必要がある。この点、本実施の形態に係る対話ロボット1は、ユーザの発話の曖昧性を定量化し、タスク達成の効用を最大化する応答を生成する手法を用いる。これにより、ユーザが曖昧性の少ない発話を行った場合は、状況に応じて最も適切な動作軌道を隠れマルコフモデル(HMM)を用いて生成し、動作応答をする。この動作はユーザの教示から学習されたものであり、ユーザにとってロボットの動作がイメージしやすいため、予期しない動作を行う不安を解消できる。また、ユーザが曖昧性の大きい発話を行った場合には、ユーザにとって自然な確認発話を生成することで、不適切な動作を実行前に中止させて実行失敗率を減少させることができる。
なお、本実施の形態では、家庭用ロボット等の対話ロボット1について説明したが、本発明は特にこれに限定されず、対話システム全般に応用することができる。例えば、ユーザの音声に応じて観光名所に関する情報を提供する観光案内対話システムに適用することもできる。以下に、本実施の形態に係る情報処理を適用した対話システムの具体例を挙げる。
「5.対話システムの具体例」
「5−1.具体例1:家庭用ロボット」
「get a cup.」と「put a cup.」とは音声として非常に似ているので、音声認識が難しい。そのため、ユーザが「get a cup.」と言ったのに、ロボットが「put a cup.」だと判断し、カップを置こうとすることが起こりえる。このとき、例えばカップを置く台が不安定であるといった理由から、ユーザはカップを置くことを想定していないとすると、ロボットの動作実行は事故を招く可能性がある。この点、本実施の形態に係る情報処理を適用した家庭用ロボットでは、音声認識が難しい単語であっても、画像情報や状況から自動的に判断して(この場合、最適行動の統合確信度が閾値θより低くなり、動作応答の効用より確認発話応答の効用が上回る)、ユーザに確認を求めることができる。
「5−2.具体例2:家庭用ロボット」
食器が複数ある状況で、ユーザが「食器棚からコップ取って。」などの曖昧な発話をした場合に(最適行動の統合確信度が閾値θより低くければ)、「大きいコップでいいですか?」などの確認発話を生成することができる。このとき、対象となるコップが一つだけであれば、「コップを取ってきますか?」という確認発話でよいが、その傍に同じコップがあれば、「左のコップを取ってきますか?」などと言わなくてはならない。つまり、同じオブジェクトを指す場合でも、シーンによって確認発話の言葉が変わり得る。本実施の形態に係る情報処理を適用した家庭用ロボットでは、冗長でない表現が自動的に選択される。
「5−3.具体例3:観光案内対話システム」
例えば「金閣寺」と「銀閣寺」とは、音声として非常に似ているので、音声認識が難しい。よって、ユーザの発話により「銀閣寺」についての道順や観光案内が求められたにも関わらず、京都観光案内対話システムが「金閣寺」についての情報を提供してしまうことが起こりえる。一方、「苔寺」などの単語は、類似の単語が少ないので認識誤りが少ない。この点、本実施の形態に係る情報処理を適用した観光案内対話システムでは、認識誤りが起こりそうな場合には(最適行動(最適案内)の統合確信度が閾値θより低くければ)、確認発話によりユーザに聞き返すことができる。具体的には、以下の例のような分岐が起こる。
<音声認識成功例>
ユーザ発話:「苔寺へはどうやって行けば良いですか?」
システム:「駅前のバス亭から〜系統バスへ乗り、〜で降りてください。所要時間は・・・。」
<確認発話例>
ユーザ発話:「銀閣寺(発音不明瞭)について教えて。」
システム:「銀閣寺でよろしいですか?」
(実施の形態2)
前記実施の形態1では、発話理解確信度(統合確信度)を最尤推定に基づいて学習する処理及び方法を示し、ユーザの発話が曖昧である場合に確認発話を行って、動作失敗率を減少させることができることを説明した。本実施の形態2では、これらの処理及び方法を拡張し、能動学習の枠組みにより確信度を学習する処理及び方法を説明する。
従来の学習フェーズでは、ユーザの発話を受けてロボットが行動し、その結果をもとに確信度の学習を行っていたため、学習フェーズで動作失敗(負事例)を行わせて、過学習を防ぐ必要があった。しかし、学習フェーズにおける動作失敗であってもハードウェアの故障などを引き起こす可能性があるため、ユーザの予期しないような動作失敗を減少させることが望ましい。これに対し、本実施の形態2では、統合確信度関数の学習に必要な発話をロボットに選択させ、その発話を受けてユーザが物体を操作するという能動学習を実行する。能動学習のための発話の選択には、Expected Log Loss Reduction(ELLR)(「Roy, N. and McCallum, A.: Toward optimal active learning through sampling estimation of error reduction, in Proceedings of 18th International Conference on Machine Learning, pp. 441-448 (2001)」参照)を用いる。
本実施の形態2では、(1)対話システムへの能動学習の導入、及び(2)統合確信度関数の学習にBayesian Logistic Regression(BLR)(「Genkin, A., Lewis, D., and Madigan, D.: Large-scale bayesian logistic regression for text categorization, Technometrics, Vol. 49, No. 3, pp. 291-304 (2007)」参照)を用いること、の2点が前記実施の形態1とは異なる点である。
これまで一般の対話システムでは、ユーザの発話を受けてシステムが応答を生成し、ユーザ発話を理解するモデル(ユーザモデル)を学習させることは可能であったものの、システムの発話によりユーザモデルを学習させることは極めて困難であった。一方、本実施の形態2の手法では、ロボットとユーザとが実世界にグラウンドした対話を行うため、ロボットが「ユーザが用いる語彙」を用いてユーザに動作応答させることができる。このような特徴から、対話戦略として能動学習を用いることが可能である。
以下、本実施の形態2の対話システムを、図面を参照しながら詳述する。なお、前記実施の形態1と同様の構成部材には同一の部材番号を付記し、その説明を省略する。
図16は、本実施の形態2に係る情報処理装置を適用した対話ロボット1(対話システム)における主に制御部4(制御手段)の機能的な概略構成を示すブロック図である。同図に示すように、対話ロボット1の制御部4は、実施の形態1の統合確信度関数学習部20に代えて、統合確信度関数学習部30(パラメータ学習手段)を具備している。本実施の形態2の対話システムにおけるその他の基本構成は、実施の形態1と同様である。
なお、統合確信度関数学習部30は、能動学習だけでなく、実施の形態1と同様に「ユーザによる発話、ロボットによる動作、ユーザによる正解・不正解の評価(正解ラベルの付与)」による統合確信度関数の学習も行う。
図17に示すように、統合確信度関数学習部30は、前記の能動学習を実現するために、発話選択部31、正誤評価部32及びパラメータ推定部33を具備している。発話選択部31は、ELLRに基づき、シーンOにおいて可能な全ての発話の中から期待対数損失を最小化する発話を選択するものである。統合確信度関数学習部30の各構成要素の詳細については後述する。
まず、「発話理解確信度(統合確信度関数)の能動学習」について、以下に詳述する。
「6.発話理解確信度の能動学習」
「6−1.統合確信度関数の学習」
前記のマージンと正解ラベル(教師信号)とを学習サンプルとして、ベイズロジスティック回帰により統合確信度関数f(d;w)のパラメータwを推定することを考える。学習フェーズにおいて、学習サンプル集合を、入力マージンdと教師信号uとの組{(d、u)|i=1,・・・,N}として与える。ただし、教師信号uは0又は1の2値であるとする。
ここで、入力マージンdを与えたときの統合確信度関数の出力f(d)を、入力マージンdのもとで教師信号uが1である確率の推定値であると考える。本実施の形態では、BLR(Bayesian Logistic Regression)を用いて、式(6)に示す統合確信度関数f(d;w)のパラメータwの推定を行う。ベイズ推定におけるパラメータw(j=0,1)の事前分布Pとして、例えば下式(14)に示すような、平均m、分散τのガウス分布を用いることができる。
Figure 2011054088
このBLRを用いて統合確信度関数f(d;w)のパラメータwの推定を行うのが、図17に示すパラメータ推定部33である。
「6−2.ELLRに基づく発話の選択」
本来、確信度関数の学習に用いる教師データは、ユーザの発話を受けたロボットの応答から得られる。一方、確信度関数をユーザとロボットが共有していると仮定すれば、ロボットの発話に対するユーザの応答を教師データとみなすことができる。つまり、シーンOにおいて、全ての可能な言語表現に対してマージンを計算すれば、特定の損失基準を最小化するマージンが選択できる。損失最小のマージンに対応する発話に対するユーザの応答から、そのマージンに対するラベル(発話がユーザに正しく理解されたか否かの教師データ)を取得できる。このように、学習者(ロボット)が訓練集合に加えるサンプルを選択できる枠組みを能動学習、又は最適実験計画などと呼ぶ。本実施の形態のように、サンプル候補が有限集合である場合は、pool−basedな能動学習と呼ばれる。
本実施の形態では、ELLR(Expected Log Loss Reduction)に基づき、統合確信度関数の学習に有効な発話をロボットに選択させる。今、データ集合T<N>を用いて訓練された統合確信度関数をf(hat)<N>(d)とする。このとき、対数損失L(T<N>)を下式(15)で定義する。
Figure 2011054088
シーンOで可能な発話をV={v|j=1,・・・,|V|}、vから得られるマージンをeとする。このVは、学習済みの単語を用いて生成できる、可能な単語列集合である。ただし、単語列の長さに制約を設けることが望ましい。このとき、発話vを選択することに対する期待対数損失E(T<N>,e)は下式(16)のようになる。
Figure 2011054088
つまり、正解のラベル付けがされていない入力eに対して、正解ラベルが0又は1であった場合の損失を求め、Nサンプル時の確信度(確率)で重み付ける。ELLRに基づく発話生成では、上記の期待対数損失E(T<N>,e)を最小化する発話vを選択する。これにより、統合確信度関数の能動学習に有効な発話vを適切に選択することができる。
上記のELLRに基づく発話の選択処理は、図17の発話選択部31にて実行される。学習フェーズにおいて、発話選択部31にて選択されて音声合成された発話は、発話出力部8より出力される。出力された発話に対してユーザ(被験者)は、当該発話に応じた動作(オブジェクトの操作等)をすることになる。このユーザの動作に対して正解又は不正解の評価を行って正解ラベル(教師信号)を生成するのが、図17の正誤評価部32である。
正誤評価部32は、発話選択部31にて選択された発話に対応する動作と、画像入力部3から入力されるユーザの動作の観測結果とを比較して、ユーザの動作に対して正解ラベル(教師信号)を生成し、当該正解ラベルをパラメータ推定部33へ出力する。
パラメータ推定部33には、発話選択部31にて選択された発話についてのマージンが発話選択部31より入力されると共に、発話選択部31にて選択された発話に対応する正解ラベルが正誤評価部32より入力される。そして、パラメータ推定部33は、発話選択部31にて選択された発話についてのマージンと、当該選択された発話に対応する正解ラベルとを学習サンプルとして、前記BLR(ベイズロジスティック回帰)により統合確信度関数f(d;w)のパラメータwの推定を行うのである。
次に、実験により本実施の形態2の効果について考察する。
「7.実験」
「7−1.設定」
実験に用いた対話ロボット1としてのロボットシステム(以下、ロボットと称す)は、前記「3−1.ハードウェア」で示したロボットと同一のものである。
オブジェクトに関する画像特徴や座標は、ステレオカメラから得られた画像から抽出される。ステレオカメラのフレームレートを30[frame/sec]とし、解像度を320×240とした。また、画像特徴量として、色3次元(L*a*b*)、形状3次元を用いる。「Iwahashi, N.: Interactive Learning of Spoken Words and Their Meanings through an Audio-Visual Interface, IEICE Transactions on information and systems, Vol. 91, No. 2, p. 312 (2008)」や「Sugiura, K. and Iwahashi, N.: Learning object-manipulation verbs for human-robot communication, in Proceedings of the 2007 workshop on Multimodal interfaces in semantic interaction, pp. 32-38 (2007)」に記載の公知の手法により、予め、ロボットに図9に示す単語を学習させた。
本実施の形態2に係る処理及び方法を評価するために、2種類の実験を行った。すなわち、(1)確信度関数の能動学習、(2)事前分布としての学習結果の評価、である。実験(1)の目的は、学習に必要なサンプルを調査することである。また、実験(2)の目的は、能動学習により得られた確信度関数の学習結果を、事前知識(ベイズ推定の事前分布)として用いることの有効性評価である。
実験(1)では、まず、オブジェクト(ぬいぐるみ等)が置かれたテーブルを挟んで、被験者をロボットと対面させた。次に、前記「6−2.ELLRに基づく発話の選択」に記載の手法を用いてロボットに発話を行わせ、被験者にオブジェクトを操作させた。「ロボットによる発話、被験者による動作、ロボットによる正解・不正解の評価(正解ラベルの付与)」を1つのエピソードとして、ロボットに30エピソードまで統合確信度関数の学習を行わせた。前記の式(14)におけるハイパーパラメータを、m=0、m=1、τ=τ=100と設定した。ELLRに基づいて生成する発話の単語列の長さは、トラジェクタを表す分節W及びランドマークを表す分節Wがそれぞれ三語以内、動作を表す分節Wは一語であるとした。
実験(2)では、ユーザの発話に対してロボットに行動を行わせて、統合確信度関数を学習させる。実験(2)で用いる訓練及びテストデータは、以下のように収集した。実験(1)と同様の実験環境で、被験者にロボットにオブジェクトを操作させるための発話を行わせ、カメラ画像と音声を60セット収録した。得られた画像・音声セットに、ユーザが意図した行動を正解としてラベル付けした。収録データのうち半数の30個を訓練集合、残りの30個を評価集合とした。実験(1)で得たパラメータを事前分布として訓練を行った場合と、実験(1)で用いた無情報事前分布に近い分布(m=0、m=1、τ=τ=100)を用いて訓練を行った場合のテストセット尤度を比較する。
「7−2.結果(1):確信度関数の能動学習」
統合確信度関数の能動学習に関する定性的結果を図18に示す。同図における(a)から(c)の曲線は、それぞれ訓練サンプル数10、20、30のときのBLRによるベイズロジスティック回帰結果を表す。同図中の「○」は訓練サンプルを示す。同図より、サンプル数30において収束していることがわかる。
図19に、学習フェーズにおける被験者(U)とロボット(R)との対話例を示す。このとき、可能な動作とオブジェクトの組は合計45種類であった。この中で、「プーサンカーミットとびこえさせて」という単語列でオブジェクト2とオブジェクト3を表現するものが、式(16)の期待対数損失E(T<N>,e)を最小化する発話であった。このときの最適マージンは13.4であった。
図20は、エピソード数(ロボットの発話数)に対する、選択されたマージンの変化を示す。同図において、点線はユーザの動作が失敗したエピソードを示す。同図より、ユーザの動作失敗の次のエピソードでは、より大きいマージンを持つ(曖昧性の低い)発話が選択されていることがわかる。
「7−3.結果(2):事前分布としての有効性評価」
図21は、ユーザの発話数(サンプル数)と統合確信度関数の対数尤度との関係を示したグラフであり、各手法のテストセット尤度を比較したものである。同図において、(A)は能動学習の適用により得られたパラメータを事前知識とする本実施の形態の手法、(B)は当該事前知識を用いない通常の事前分布を用いた手法の結果をそれぞれ表す。同図には、10種類の異なる訓練集合と評価集合を用いた場合の平均を示した。同図より、特に学習の初期において、(A)の能動学習の適用により得られたパラメータを事前知識とする本実施の形態の手法が、(B)の当該事前知識を用いない場合を上回る効果を奏することがわかる。
さらに、(A)の本実施の形態の手法による統合確信度関数の対数尤度が、3サンプル時においてほぼ収束しているのに対し、(B)では統合確信度関数の対数尤度が収束するには10サンプル程度必要である。訓練集合中の負事例の割合は18%であったので、収束までの負事例数の期待値は、(A)の本実施の形態の手法では0.54であるのに対し、(B)では1.8となり、3倍以上の開きがある。このことから、本実施の形態の手法による能動学習で得られた学習結果を事前分布に用いることにより、学習が収束するまでにロボットが動作を失敗する回数の期待値を減少できることが解る。
本発明に係る情報処理装置、情報処理方法、プログラム及び対話システムは、家庭用の生活支援ロボットや観光案内対話システム等の、ユーザによる発話に応じたタスクを実行するシステム全般に利用可能である。
1 対話ロボット(システム、対話システム)
2 音声入力部
3 画像入力部
4 制御部(情報処理装置、制御手段)
5 ロボットアーム駆動部
6 ロボットアーム
7 タッチセンサ
8 発話出力部
10 音声信念モジュール
11 視覚信念モジュール
12 動作視覚信念モジュール
13 動作−オブジェクト関係信念モジュール
14 行動コンテキスト信念モジュール
15 バッファメモリ
16 コンテキスト生成部
17 共有信念関数演算部(確信度関数演算手段)
18 マージン関数演算部(確信度関数演算手段)
19 統合確信度関数演算部(確信度関数演算手段)
20 統合確信度関数学習部(パラメータ学習手段)
21 応答選択部(応答選択手段)
22 動作応答生成部
23 確認発話応答生成部(確認応答生成手段)
30 統合確信度関数学習部(確信度関数演算手段)
31 発話選択部
32 正誤評価部
33 パラメータ推定部

Claims (10)

  1. ユーザによる発話に応じたタスクを実行する対話システムを制御する情報処理装置であって、
    前記発話の曖昧性を確信度関数として定量化する確信度関数演算手段と、
    前記確信度関数に基づいて、前記タスクを実行する動作応答又は前記タスクの実行前にユーザに確認を行う確認応答を選択する応答選択手段と、
    前記応答選択手段により前記確認応答が選択されたときに、前記システムに実行させる確認応答を生成する確認応答生成手段と、を備えることを特徴とする情報処理装置。
  2. 前記確信度関数演算手段は、
    マルチモーダル入力から学習される複数の信念に基づいて算出される共有信念関数を演算する共有信念関数演算部と、
    前記共有信念関数の値を最大化する最適行動と当該最適行動以外の行動との共有信念関数の値の差であるマージンを演算するマージン演算部と、を含み、
    前記マージンに基づいて前記確信度関数を演算することを特徴とする請求項1に記載の情報処理装置。
  3. 前記応答選択手段は、前記最適行動の確信度関数の値が所定の閾値以上の場合に当該最適行動を前記タスクとする前記動作応答を選択する一方、当該最適行動の確信度関数の値が前記閾値より小さい場合に前記確認応答を選択することを特徴とする請求項2に記載の情報処理装置。
  4. 前記確認応答生成手段は、前記確信度関数の値が前記閾値以上になるまで、予め学習されたレキシコンの要素から前記マージンを最大化する単語を1語ずつ追加し、前記確信度関数の値が前記閾値以上になったときの単語を用いて確認応答を生成することを特徴とする請求項3に記載の情報処理装置。
  5. 前記確信度関数をベイズロジスティック回帰に能動学習を適用したパラメータ学習手段をさらに備えていることを特徴とする請求項2ないし4の何れか1項に記載の情報処理装置。
  6. 前記能動学習手段は、
    学習フェーズにおけるシーンにおいて可能な全ての発話の中から期待対数損失を最小化する発話を選択する発話選択部と、
    前記発話選択部にて選択された発話に対してユーザが正しい動作を行ったか否かを評価して正解ラベルを生成する正誤評価部と、
    前記発話選択部にて選択された発話についてのマージンと、前記正解ラベルとを学習サンプルとして、ベイズロジスティック回帰により前記確信度関数のパラメータを推定するパラメータ推定部と、を備えていることを特徴とする請求項5に記載の情報処理装置。
  7. ユーザによる発話を入力する音声入力部と、
    請求項1ないし6の何れか1項に記載の情報処理装置と、を備えていることを特徴とする対話システム。
  8. ユーザによる発話に応じたタスクを実行する対話システムを制御する情報処理方法であって、
    前記発話の曖昧性を確信度関数として定量化する確信度関数演算工程と、
    前記確信度関数に基づいて、前記タスクを実行する動作応答又は前記タスクの実行前にユーザに確認を行う確認応答を選択する応答選択工程と、
    前記応答選択工程により前記確認応答が選択されたときに、前記システムに実行させる確認応答を生成する確認応答生成工程と、を含むことを特徴とする情報処理方法。
  9. ユーザによる発話に応じたタスクを実行する対話システムを制御するためのプログラムであって、
    前記発話の曖昧性を確信度関数として定量化する確信度関数演算工程と、
    前記確信度関数に基づいて、前記タスクを実行する動作応答又は前記タスクの実行前にユーザに確認を行う確認応答を選択する応答選択工程と、
    前記応答選択工程により前記確認応答が選択されたときに、前記システムに実行させる確認応答を生成する確認応答生成工程と、をコンピュータに実行させることを特徴とするプログラム。
  10. ユーザによる発話に応じたタスクを実行する対話システムを制御する情報処理装置であって、
    前記発話の曖昧性を確信度関数として定量化し、当該確信度関数に基づいて前記対話システムを制御する制御手段と、
    前記確信度関数をベイズロジスティック回帰に能動学習を適用したパラメータ学習手段と、を備えていることを特徴とする情報処理装置。
JP2009204599A 2009-09-04 2009-09-04 情報処理装置、情報処理方法、プログラム及び対話システム Pending JP2011054088A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009204599A JP2011054088A (ja) 2009-09-04 2009-09-04 情報処理装置、情報処理方法、プログラム及び対話システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009204599A JP2011054088A (ja) 2009-09-04 2009-09-04 情報処理装置、情報処理方法、プログラム及び対話システム

Publications (1)

Publication Number Publication Date
JP2011054088A true JP2011054088A (ja) 2011-03-17

Family

ID=43942991

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009204599A Pending JP2011054088A (ja) 2009-09-04 2009-09-04 情報処理装置、情報処理方法、プログラム及び対話システム

Country Status (1)

Country Link
JP (1) JP2011054088A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018001403A (ja) * 2016-07-07 2018-01-11 深▲せん▼狗尾草智能科技有限公司Shenzhen Gowild Robotics Co.,Ltd. 音声と仮想動作を同期させる方法、システムとロボット本体
JP2018001404A (ja) * 2016-07-07 2018-01-11 深▲せん▼狗尾草智能科技有限公司Shenzhen Gowild Robotics Co.,Ltd. 音声と仮想動作を同期させる方法、システムとロボット本体
JP2018091911A (ja) * 2016-11-30 2018-06-14 綜合警備保障株式会社 音声対話システム及び音声対話方法
WO2018147405A1 (ja) 2017-02-10 2018-08-16 株式会社アナリティックウェア 対話装置、制御装置、対話システム、対話方法、および制御方法
WO2019026617A1 (ja) 2017-08-01 2019-02-07 ソニー株式会社 情報処理装置、及び情報処理方法
CN109800864A (zh) * 2019-01-18 2019-05-24 中山大学 一种基于图像输入的机器人主动学习方法
WO2019123775A1 (ja) 2017-12-22 2019-06-27 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2020105309A1 (ja) * 2018-11-21 2020-05-28 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN111783856A (zh) * 2020-06-18 2020-10-16 杭州未名信科科技有限公司 一种面向制造业的设备故障辅助诊断方法及系统
JP2022509886A (ja) * 2018-12-25 2022-01-24 日本電気株式会社 情報処理装置、制御方法、およびプログラム
WO2022249226A1 (ja) * 2021-05-24 2022-12-01 三菱電機株式会社 ロボット教示装置、ロボット制御システム、ロボット教示方法、及びロボット教示プログラム
US11942081B2 (en) 2018-12-07 2024-03-26 Sony Group Corporation Information processing device and information processing method for response presentation

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018001403A (ja) * 2016-07-07 2018-01-11 深▲せん▼狗尾草智能科技有限公司Shenzhen Gowild Robotics Co.,Ltd. 音声と仮想動作を同期させる方法、システムとロボット本体
JP2018001404A (ja) * 2016-07-07 2018-01-11 深▲せん▼狗尾草智能科技有限公司Shenzhen Gowild Robotics Co.,Ltd. 音声と仮想動作を同期させる方法、システムとロボット本体
JP2018091911A (ja) * 2016-11-30 2018-06-14 綜合警備保障株式会社 音声対話システム及び音声対話方法
WO2018147405A1 (ja) 2017-02-10 2018-08-16 株式会社アナリティックウェア 対話装置、制御装置、対話システム、対話方法、および制御方法
WO2019026617A1 (ja) 2017-08-01 2019-02-07 ソニー株式会社 情報処理装置、及び情報処理方法
US11430437B2 (en) 2017-08-01 2022-08-30 Sony Corporation Information processor and information processing method
JPWO2019026617A1 (ja) * 2017-08-01 2020-09-10 ソニー株式会社 情報処理装置、及び情報処理方法
JP7276129B2 (ja) 2017-12-22 2023-05-18 ソニーグループ株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2019123775A1 (ja) 2017-12-22 2019-06-27 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US11328716B2 (en) 2017-12-22 2022-05-10 Sony Corporation Information processing device, information processing system, and information processing method, and program
JPWO2019123775A1 (ja) * 2017-12-22 2020-10-22 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JPWO2020105309A1 (ja) * 2018-11-21 2021-10-07 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
CN113056315B (zh) * 2018-11-21 2023-01-31 索尼集团公司 信息处理装置、信息处理方法和程序
EP3885013A4 (en) * 2018-11-21 2022-03-02 Sony Group Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM
CN113056315A (zh) * 2018-11-21 2021-06-29 索尼集团公司 信息处理装置、信息处理方法和程序
WO2020105309A1 (ja) * 2018-11-21 2020-05-28 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP7363809B2 (ja) 2018-11-21 2023-10-18 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
US11942081B2 (en) 2018-12-07 2024-03-26 Sony Group Corporation Information processing device and information processing method for response presentation
JP2022509886A (ja) * 2018-12-25 2022-01-24 日本電気株式会社 情報処理装置、制御方法、およびプログラム
JP7205628B2 (ja) 2018-12-25 2023-01-17 日本電気株式会社 情報処理装置、制御方法、およびプログラム
CN109800864A (zh) * 2019-01-18 2019-05-24 中山大学 一种基于图像输入的机器人主动学习方法
CN111783856A (zh) * 2020-06-18 2020-10-16 杭州未名信科科技有限公司 一种面向制造业的设备故障辅助诊断方法及系统
CN111783856B (zh) * 2020-06-18 2022-10-04 杭州未名信科科技有限公司 一种面向制造业的设备故障辅助诊断方法及系统
JP7272521B2 (ja) 2021-05-24 2023-05-12 三菱電機株式会社 ロボット教示装置、ロボット制御システム、ロボット教示方法、及びロボット教示プログラム
JPWO2022249226A1 (ja) * 2021-05-24 2022-12-01
WO2022249226A1 (ja) * 2021-05-24 2022-12-01 三菱電機株式会社 ロボット教示装置、ロボット制御システム、ロボット教示方法、及びロボット教示プログラム

Similar Documents

Publication Publication Date Title
JP2011054088A (ja) 情報処理装置、情報処理方法、プログラム及び対話システム
CN111344779B (zh) 训练和/或使用编码器模型确定自然语言输入的响应动作
Liu et al. Data-driven HRI: Learning social behaviors by example from human–human interaction
Taniguchi et al. Spatial concept acquisition for a mobile robot that integrates self-localization and unsupervised word discovery from spoken sentences
EP2973546B1 (en) Multilingual deep neural network
Taniguchi et al. Online spatial concept and lexical acquisition with simultaneous localization and mapping
US8566097B2 (en) Lexical acquisition apparatus, multi dialogue behavior system, and lexical acquisition program
US11282522B2 (en) Artificial intelligence apparatus and method for recognizing speech of user
JP5386692B2 (ja) 対話型学習装置
Pulasinghe et al. Modular fuzzy-neuro controller driven by spoken language commands
Liu et al. How to train your robot-teaching service robots to reproduce human social behavior
JP2019049604A (ja) 命令文推定システムおよび命令文推定方法
CN114830139A (zh) 使用模型提供的候选动作训练模型
Iwahashi et al. Robots that learn to communicate: A developmental approach to personally and physically situated human-robot conversations
Taniguchi et al. Unsupervised spatial lexical acquisition by updating a language model with place clues
JP5828552B2 (ja) 物体分類装置、物体分類方法、物体認識装置及び物体認識方法
Sugiura et al. Situated spoken dialogue with robots using active learning
Nakano et al. Grounding new words on the physical world in multi-domain human-robot dialogues
Sugiura et al. Active learning of confidence measure function in robot language acquisition framework
Nakano et al. A robot that can engage in both task-oriented and non-task-oriented dialogues
Giachos et al. A contemporary survey on intelligent human-robot interfaces focused on natural language processing
Holzapfel A dialogue manager for multimodal human‐robot interaction and learning of a humanoid robot
Sugiura et al. Active learning for generating motion and utterances in object manipulation dialogue tasks
Chinaei et al. Learning user intentions in spoken dialogue systems
Shaif et al. Vision and voice-based human-robot interactive interface for humanoid robot