JP2006247780A - Communication robot - Google Patents
Communication robot Download PDFInfo
- Publication number
- JP2006247780A JP2006247780A JP2005066734A JP2005066734A JP2006247780A JP 2006247780 A JP2006247780 A JP 2006247780A JP 2005066734 A JP2005066734 A JP 2005066734A JP 2005066734 A JP2005066734 A JP 2005066734A JP 2006247780 A JP2006247780 A JP 2006247780A
- Authority
- JP
- Japan
- Prior art keywords
- interaction
- parameter
- robot
- distance
- human
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
この発明はコミュニケーションロボットに関し、特にたとえば、人間との間で発話および身体動作の少なくとも一方を含むインタラクション行動を行う、コミュニケーションロボットに関する。 The present invention relates to a communication robot, and more particularly to a communication robot that performs an interaction action including at least one of speech and body movement with a human.
自然なコミュニケーションを行うためには、相手への適応が重要であり、たとえば人が快適に過ごすためには、適度なパーソナルスペースが必要である。このパーソナルスペースはコミュニケーションの内容により異なることが非特許文献1に開示されている。また、非特許文献2に開示されるように、視線を合わせる頻度が人により異なることも知られている。快適なパーソナルスペースや視線頻度は人により異なるが、人はコミュニケーション相手に合わせ、互いに快適さを保っている。たとえば、相手が近すぎると感じれば少し離れ、また、非特許文献3に開示されるように、見つめられ過ぎると感じれば視線を反らす。さらに、非特許文献4〜非特許文献6に開示されるように、人と関わるロボットについて、パーソナルスペースの考え方を応用する研究が行われている。
In order to communicate naturally, adaptation to the partner is important. For example, in order for a person to spend comfortably, an appropriate personal space is required. Non-Patent
また、この種のコミュニケーションロボットに近似する背景技術の一例が特許文献1に開示される。この特許文献1によれば、行動パターン生成装置は、たとえば、ロボットに適用される。行動パターン生成装置は、ロボットに対するユーザの対人距離を検出し、対人距離に応じてロボットに対するユーザの親密度を求めて、親密度に応じて、ユーザがロボットをコミュニケーション対象としているかどうかを判断するようにしてある。また、行動パターン生成装置では、ユーザの音声の強弱やトーンの高低、さらには血圧や体温等に基づいて、ユーザの感情が推定される。行動パターン生成装置は、対人距離やユーザの感情に応じた行動をロボットに実行させるようにしてある。
しかし、背景技術のロボットでは、パーソナルスペースは固定的であり、個人に適応させたものは存在しなかった。ただし、特許文献1に開示される行動パターン生成装置では、ユーザの音声の強弱やトーンの高低、さらには、血圧や体温等に基づいてユーザの感情を推定するようにしてあるため、この点では、個人および個人の感情に適応させたコミュニケーション(インタラクション)を行っていると言えるが、対人距離については、閾値処理により、ロボットとコミュニケーションしているか否かを判断するのみである。つまり、適切なパーソナルスペースを個人に適応させていなかった。このため、ロボットとコミュニケーションするユーザないし人間は、コミュニケーションにおいて不快に感じてしまうこともあった。
However, in the background art robot, the personal space is fixed, and there is no one adapted to the individual. However, in the behavior pattern generation device disclosed in
それゆえに、この発明の主たる目的は、新規な、コミュニケーションロボットを提供することである。 Therefore, the main object of the present invention is to provide a novel communication robot.
この発明の他の目的は、人同士のような自然なインタラクションを実現できる、コミュニケーションロボットを提供することである。 Another object of the present invention is to provide a communication robot capable of realizing natural interactions like people.
請求項1の発明は、人間との間でインタラクションするコミュニケーションロボットであって、インタラクションについてのパラメータを設定するパラメータ設定手段、パラメータ設定手段によって設定されたパラメータに従って発話および身体動作の少なくとも一方を含むインタラクションを実行するインタラクション実行手段、インタラクション中におけるパラメータの適切度を検出する適切度検出手段、および適切度検出手段によって検出された適切度を最適化する最適化手段を備える、コミュニケーションロボットである。
The invention according to
請求項1の発明では、コミュニケーションロボットは、人間との間で、身体動作および発話少なくとも一方を含むインタラクション行動を実行する。パラメータ設定手段は、インタラクション(インタラクション行動)についてのパラメータを設定する。インタラクション実行手段は、パラメータ設定手段によって設定されたパラメータに従ってインタラクション行動を実行する。適切度検出手段は、インタラクション中におけるパラメータの適切度を検出する。ここで、インタラクション(コミュニケーション)相手としての人間がインタラクションを快いと感じている場合には、パラメータの適切度は高いと言える。一方、人間がインタラクションを不快に感じている場合には、パラメータの適切度は低いと言える。たとえば、インタラクションを不快に感じているか否かは、コミュニケーションロボットに対する人間の距離(移動距離)、コミュニケーションロボットに対する人間の顔の向き、人間が貧乏ゆすりをしているか否か、人間の顔の表情(笑い(柔らかい)、辛い(硬い))や人間の足音の大小で知ることができる。最適化手段は、適切度検出手段によって検出された適切度を最適化する。つまり、インタラクションパラメータがインタラクション相手に適応される。 According to the first aspect of the present invention, the communication robot performs an interaction action including at least one of body movement and speech with a human. The parameter setting means sets a parameter for interaction (interaction action). The interaction executing means executes the interaction action according to the parameter set by the parameter setting means. The appropriateness detection means detects the appropriateness of the parameter during the interaction. Here, if a person as an interaction (communication) partner feels comfortable, it can be said that the appropriateness of the parameter is high. On the other hand, when a human feels uncomfortable, it can be said that the appropriateness of the parameter is low. For example, whether or not the interaction feels uncomfortable depends on the distance (movement distance) of the human relative to the communication robot, the orientation of the human face relative to the communication robot, whether or not the human is poverty, Laughter (soft), hard (hard) and human footsteps can be known. The optimization means optimizes the appropriateness detected by the appropriateness detection means. That is, the interaction parameter is adapted to the interaction partner.
請求項1の発明によれば、インタラクションパラメータをインタラクション相手に適応させるので、インタラクションを重ねるに従って、快適にインタラクションを行うことができる。したがって、人同士のような自然なコミュニケーションが可能である。 According to the first aspect of the present invention, the interaction parameter is adapted to the interaction partner, so that the interaction can be performed comfortably as the interaction is repeated. Therefore, natural communication like people is possible.
請求項2の発明は請求項1に従属し、インタラクション中における人間の移動距離を検出する移動距離検出手段、およびインタラクション中において人間がコミュニケーションロボット自身の顔を見る時間を検出する時間検出手段をさらに備え、適切度検出手段は、パラメータ設定手段によって設定されたパラメータでインタラクションを実行したときの行動距離検出手段および時間検出手段の少なくとも一方の検出結果に基づいて、当該パラメータの適切度を検出する。
The invention of
請求項2の発明では、コミュニケーションロボットは、行動距離検出手段および時間検出手段をさらに備える。移動距離検出手段は、インタラクション中における人間の移動距離を検出する。また、時間検出手段は、インタラクション中において人間が自身の顔を見ている時間すなわち注視している時間を検出する。たとえば、インタラクション中における人間の移動距離が長い(大きい)場合や注視時間が短い場合には、人間はインタラクションに不快さを感じていると判断できる。逆に、移動距離が短い(小さい)場合や注視時間が長い場合には、人間はインタラクションを快適である感じていると判断できる。適切度検出手段は、パラメータ設定手段によって設定されたパラメータでインタラクションを実行したときの行動距離検出手段および時間検出手段の少なくとも一方の検出結果に基づいて、当該パラメータの適切度を検出する。 According to a second aspect of the present invention, the communication robot further includes action distance detecting means and time detecting means. The movement distance detection means detects the movement distance of the person during the interaction. The time detection means detects the time during which the human is looking at his / her face during the interaction, that is, the time during which he / she is gazing. For example, when the movement distance of a person during interaction is long (large) or when the gaze time is short, it can be determined that the person feels uncomfortable with the interaction. Conversely, when the moving distance is short (small) or when the gaze time is long, it can be determined that the person feels comfortable in the interaction. The appropriateness detecting means detects the appropriateness of the parameter based on the detection result of at least one of the action distance detecting means and the time detecting means when the interaction is executed with the parameter set by the parameter setting means.
請求項2の発明によれば、インタラクション中における人間の所作に基づいてインタラクションの快適さを知ることができ、快適さを増大させるように、パラメータを最適化することができる。 According to the second aspect of the present invention, it is possible to know the comfort of the interaction based on the human action during the interaction, and it is possible to optimize the parameters so as to increase the comfort.
請求項3の発明は請求項1または2に従属し、パラメータは、人間とのインタラクションにおける対人距離、人間の顔に自身の顔を向ける時間の長さ、発話から身体動作の動作開始までの遅れ時間および身体動作の動作速度の少なくとも1つを含む。
The invention of
請求項3の発明では、パラメータは、ロボットと人間とがコミュニケーションする場合に、インタラクションの快適さを決定すると考えられる成分を含む。具体的には、パラメータは、人間とのインタラクションにおける対人距離、人間の顔に自身の顔を向ける時間の長さ(注視時間)、発話から身体動作の動作開始までの遅れ時間および身体動作の動作速度の少なくとも1つを含む。
In the invention of
請求項3の発明によれば、インタラクションの快適さを決定すると考えられる成分を更新するようにすれば、パラメータの適切度を最適化して、快適なインタラクションを実現することができる。 According to the third aspect of the present invention, if the component that is considered to determine the comfort of the interaction is updated, the appropriateness of the parameter can be optimized to realize a comfortable interaction.
請求項4の発明は請求項3に従属し、対人距離は、親密距離、個体距離および社会距離を含む。
The invention of
請求項4の発明では、対人距離は、親密距離、個体距離および社会距離を含む。これは、インタラクション行動の種類に応じて適切な対人距離を、個人に適応して取るようにさせるためである。たとえば、自己紹介や挨拶のようなインタラクション行動を実行する場合には、社会距離が取られる。
In the invention of
請求項4の発明によれば、パラメータの対人距離として親密距離、個体距離および社会距離を含むので、インタラクション行動の種類に応じた対人距離を、個人に対応して取らせることができる。
According to the invention of
請求項5の発明は請求項1ないし4のいずれかに従属し、最適化手段は、パラメータを更新するパラメータ更新手段を含む。
The invention of
請求項5の発明では、パラメータ更新手段が、パラメータを更新する。したがって、たとえば、インタラクションする度に、パラメータの適切度を最適化されるように、パラメータを更新することができる。
In the invention of
請求項5の発明によれば、インタラクションを行う度に、パラメータを更新して、パラメータの適切度を最適化するので、インタラクションを繰り返すに従ってより快適なインタラクションを行うことができる。 According to the fifth aspect of the present invention, since the parameter is updated each time the interaction is performed and the appropriateness of the parameter is optimized, more comfortable interaction can be performed as the interaction is repeated.
請求項6の発明は請求項1ないし5のいずれかに従属し、パラメータを人間に対応して記憶するパラメータ記憶手段、およびインタラクションの開始時に人間を識別する人間識別手段をさらに備え、パラメータ設定手段は、人間識別手段によって識別された人間に対応するパラメータがパラメータ記憶手段によって記憶されているとき、当該パラメータを設定し、人間識別手段によって識別された人間に対応するパラメータがパラメータ記憶手段によって記憶されていないとき、パラメータ記憶手段によって記憶されているすべてのパラメータの平均値を設定する。
The invention of
請求項6の発明では、パラメータ記憶手段は、パラメータを人間に対応して記憶する。つまり、人間との間でインタラクションを実行し、最適化されたパラメータを当該人間に対応して記憶する。人間識別手段は、インタラクション開始時に人間を識別する。パラメータ設定手段は、人間識別手段によって識別された人間に対応するパラメータがパラメータ記憶手段によって記憶されているとき、つまり以前インタラクションした相手であれば、当該パラメータを設定する。しかし、人間識別手段によって識別された人間に対応するパラメータがパラメータ記憶手段によって記憶されていないとき、つまり以前インタラクションした相手でなければ、パラメータ記憶手段によって記憶されているすべてのパラメータの平均値を設定する。ただし、かかる場合には、今回インタラクションする人間と似ている人間についてのパラメータを設定するようにしてもよい。
In the invention of
請求項6の発明によれば、インタラクションした経験がある人間に対しては前回最適化されたパラメータを用いるので、今回のインタラクションでは、その当初から比較的快適なインタラクションを実行できる。 According to the sixth aspect of the present invention, since the parameter optimized last time is used for a person who has experience of interaction, relatively comfortable interaction can be executed from the beginning in this interaction.
この発明によれば、インタラクション時の人間の移動距離および顔の向きに基づいてインタラクションについてのパラメータの適切度を検出し、これを最適化するので、インタラクション相手に適応させることができる。つまり、個人に適応したインタラクションにより、人同士のような自然なコミュニケーションを実現することができる。 According to the present invention, since the appropriateness of the parameter for the interaction is detected and optimized based on the moving distance and the face direction of the person at the time of interaction, it can be adapted to the interaction partner. In other words, natural communication like people can be realized by interaction adapted to individuals.
この発明の上述の目的,その他の目的,特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。 The above object, other objects, features and advantages of the present invention will become more apparent from the following detailed description of embodiments with reference to the drawings.
図1を参照して、この実施例のコミュニケーションロボットシステム(以下、単に「システム」という。)10は、コミュニケーションロボット(以下、単に「ロボット」という。)12を含む。このロボット12は、たとえば人間14のようなコミュニケーションの対象(相手)とコミュニケーションすることを目的とした相互作用指向のものであり、身体動作(身振り、手振り)および発話(音声)の少なくとも一方を用いたコミュニケーション(インタラクション)の行動(以下、「インタラクション行動」ということがある。)を行う機能を備えている。
Referring to FIG. 1, a communication robot system (hereinafter simply referred to as “system”) 10 of this embodiment includes a communication robot (hereinafter simply referred to as “robot”) 12. The
ロボット12は、人間のような身体を有し、その身体を用いてインタラクションのために必要な複雑な身体動作を生成する。具体的には、図2を参照して、ロボット12は台車32を含み、この台車32の下面には、このロボット12を自律移動させる車輪34が設けられる。この車輪34は、車輪モータ(ロボット12の内部構成を示す図3において参照番号「36」で示す。)によって駆動され、台車32すなわちロボット12を前後左右任意の方向に動かすことができる。
The
なお、図2では示さないが、この台車32の前面には、衝突センサ(図3において参照番号「38」で示す。)が取り付けられ、この衝突センサ38は、台車32への人や他の障害物の接触を検知する。そして、ロボット12の移動中に障害物との接触を検知すると、直ちに車輪34の駆動を停止してロボット12の移動を急停止させる。
Although not shown in FIG. 2, a collision sensor (indicated by reference numeral “38” in FIG. 3) is attached to the front surface of the
また、ロボット12の背の高さは、この実施例では、人、特に子供に威圧感を与えることがないように、100cm程度とされている。ただし、この背の高さは任意に変更可能である。
In this embodiment, the height of the
台車32の上には、多角形柱のセンサ取付パネル40が設けられ、このセンサ取付パネル40の各面には、超音波距離センサ42が取り付けられる。この超音波距離センサ42は、取付パネル40すなわちロボット12の周囲の主として人との間の距離を計測するものである。
A polygonal column
台車32の上には、さらに、ロボット12の胴体が、その下部が上述の取付パネル40に囲まれて、直立するように取り付けられる。この胴体は下部胴体44と上部胴体46とから構成され、これら下部胴体44および上部胴体46は、連結部48によって連結される。連結部48には、図示しないが、昇降機構が内蔵されていて、この昇降機構を用いることによって、上部胴体46の高さすなわちロボット12の高さを変化させることができる。昇降機構は、後述のように、腰モータ(図3において参照番号「50」で示す。)によって駆動される。上で述べたロボット12の身長100cmは、上部胴体46をそれの最下位置にしたときの値である。したがって、ロボット12の身長は100cm以上にすることができる。
Further, the body of the
上部胴体46のほぼ中央には、1つの全方位カメラ52と、1つのマイク16とが設けられる。全方位カメラ52は、ロボット12の周囲を撮影するもので、後述の眼カメラ54と区別される。マイク16は、周囲の音、とりわけ人の声を取り込む。
One
上部胴体46の両肩には、それぞれ、肩関節56Rおよび56Lによって、上腕58Rおよび58Lが取り付けられる。肩関節56Rおよび56Lは、それぞれ3軸の自由度を有する。すなわち、右肩関節56Rは、X軸,Y軸およびZ軸の各軸廻りにおいて上腕58Rの角度を制御できる。Y軸は、上腕58Rの長手方向(または軸)に平行な軸であり、X軸およびZ軸は、そのY軸に、それぞれ異なる方向から直交する軸である。左肩関節56Lは、A軸,B軸およびC軸の各軸廻りにおいて上腕58Lの角度を制御できる。B軸は、上腕58Lの長手方向(または軸)に平行な軸であり、A軸およびC軸は、そのB軸に、それぞれ異なる方向から直交する軸である。
上腕58Rおよび58Lのそれぞれの先端には、肘関節60Rおよび60Lを介して、前腕62Rおよび62Lが取り付けられる。肘関節60Rおよび60Lは、それぞれ、W軸およびD軸の軸廻りにおいて、前腕62Rおよび62Lの角度を制御できる。
なお、上腕58Rおよび58Lならびに前腕62Rおよび62L(いずれも図2)の変位を制御するX,Y,Z,W軸およびA,B,C,D軸では、「0度」がホームポジションであり、このホームポジションでは、上腕58Rおよび58Lならびに前腕62Rおよび62Lは下方向に向けられる。
In the X, Y, Z, W axes and the A, B, C, D axes that control the displacement of the
また、図2では示さないが、上部胴体46の肩関節56Rおよび56Lを含む肩の部分や上述の上腕58Rおよび58Lならびに前腕62Rおよび62Lを含む腕の部分には、それぞれ、タッチセンサ(図3において参照番号64で包括的に示す。)が設けられていて、これらのタッチセンサ64は、人がロボット12のこれらの部位に接触したかどうかを検知する。
Although not shown in FIG. 2, a touch sensor (FIG. 3) is provided on the shoulder portion including the
前腕62Rおよび62Lのそれぞれの先端には、手に相当する球体66Rおよび66Lがそれぞれ固定的に取り付けられる。ただし、指の機能(握る、掴む、摘むなど)が必要な場合には、球体66Rおよび66Lに代えて、人の手の形をした「手」を用いることも可能である。
上部胴体46の中央上方には、首関節68を介して、頭部70が取り付けられる。この首関節68は、3軸の自由度を有し、S軸,T軸およびU軸の各軸廻りに角度制御可能である。S軸は首から真上に向かう軸であり、T軸およびU軸は、それぞれ、このS軸に対して異なる方向で直交する軸である。頭部70には、人の口に相当する位置に、スピーカ72が設けられる。スピーカ72は、ロボット12が、それの周囲の人に対して音声または声によってコミュニケーションを図るために用いられる。ただし、スピーカ72は、ロボット12の他の部位たとえば胴体に設けられてもよい。
A
また、頭部70には、目に相当する位置に眼球部74Rおよび74Lが設けられる。眼球部74Rおよび74Lは、それぞれ眼カメラ54Rおよび54Lを含む。なお、右の眼球部74Rおよび左の眼球部74Lをまとめて眼球部74といい、右の眼カメラ54Rおよび左の眼カメラ54Lをまとめて眼カメラ54ということもある。眼カメラ54は、ロボット12に接近した人の顔や他の部分ないし物体等を撮影してその映像信号を取り込む。
The
なお、上述の全方位カメラ52および眼カメラ54のいずれも、たとえばCCDやCMOSのような固体撮像素子を用いるカメラであってよい。
Note that each of the
たとえば、眼カメラ54は眼球部74内に固定され、眼球部74は眼球支持部(図示せず)を介して頭部70内の所定位置に取り付けられる。眼球支持部は、2軸の自由度を有し、α軸およびβ軸の各軸廻りに角度制御可能である。α軸およびβ軸は頭部70に対して設定される軸であり、α軸は頭部70の上へ向かう方向の軸であり、β軸はα軸に直交しかつ頭部70の正面側(顔)が向く方向に直交する方向の軸である。この実施例では、頭部70がホームポジションにあるとき、α軸はS軸に平行し、β軸はU軸に平行するように設定されている。このような頭部70において、眼球支持部がα軸およびβ軸の各軸廻りに回転されることによって、眼球部74ないし眼カメラ54の先端(正面)側が変位され、カメラ軸すなわち視線方向が移動される。
For example, the
なお、眼カメラ54の変位を制御するα軸およびβ軸では、「0度」がホームポジションであり、このホームポジションでは、図2に示すように、眼カメラ54のカメラ軸は頭部70の正面側(顔)が向く方向に向けられ、視線は正視状態となる。
In the α axis and β axis that control the displacement of the
図3には、ロボット12の内部構成を示すブロック図が示される。この図3に示すように、ロボット12は、全体の制御のためにマイクロコンピュータまたはCPU76を含み、このCPU76には、バス78を通して、メモリ80,モータ制御ボード82,センサ入力/出力ボード84および音声入力/出力ボード86が接続される。
FIG. 3 is a block diagram showing the internal configuration of the
メモリ80は、図示しないが、ROMやHDD、RAM等を含み、ROMまたはHDDにはこのロボット12の制御プログラムおよびデータ等が予め格納されている。CPU76は、このプログラムに従って処理を実行する。具体的には、ロボット12の身体動作を制御するための複数のプログラム(行動モジュールと呼ばれる。)が記憶される。たとえば、行動モジュールが示す身体動作としては、「握手」、「抱っこ」、「指差し」…などがある。行動モジュールが示す身体動作が「握手」である場合には、当該行動モジュールを実行すると、ロボット12は、たとえば、右手を前に差し出す。また、行動モジュールが示す身体動作が「抱っこ」である場合には、当該行動モジュールを実行すると、ロボット12は、たとえば、両手を広げた状態で前に差し出し、人間が近づくと、両手を閉じる。さらに、行動モジュールが示す身体動作が「指差し」である場合には、当該行動モジュールを実行すると、ロボット12は、たとえば、右手(右腕)または左手(左腕)で所望の方向を指示する。また、RAMは、一時記憶メモリとして用いられるとともに、ワーキングメモリとして利用され得る。
Although not shown, the
モータ制御ボード82は、たとえばDSP(Digital Signal Processor)で構成され、右腕、左腕、頭および眼等の身体部位を駆動するためのモータを制御する。すなわち、モータ制御ボード82は、CPU76からの制御データを受け、右肩関節56RのX,YおよびZ軸のそれぞれの角度を制御する3つのモータと右肘関節60RのW軸の角度を制御する1つのモータを含む計4つのモータ(図3ではまとめて、「右腕モータ」として示す。)88の回転角度を調節する。また、モータ制御ボード82は、左肩関節56LのA,BおよびC軸のそれぞれの角度を制御する3つのモータと左肘関節60LのD軸の角度を制御する1つのモータとを含む計4つのモータ(図3ではまとめて、「左腕モータ」として示す。)90の回転角度を調節する。モータ制御ボード82は、また、首関節68のS,TおよびU軸のそれぞれの角度を制御する3つのモータ(図3ではまとめて、「頭部モータ」として示す。)92の回転角度を調節する。モータ制御ボード82は、また、腰モータ50、および車輪34を駆動する2つのモータ(図3ではまとめて、「車輪モータ」として示す。)36を制御する。さらに、モータ制御ボード82は、右眼球部74Rのα軸およびβ軸のそれぞれの角度を制御する2つのモータ(図3ではまとめて、「右眼球モータ」として示す。)94の回転角度を調節し、また、左眼球部74Lのα軸およびβ軸のそれぞれの角度を制御する2つのモータ(図3ではまとめて、「左眼球モータ」として示す。)96の回転角度を調節する。
The
なお、この実施例の上述のモータは、車輪モータ36を除いて、制御を簡単化するためにそれぞれステッピングモータまたはパルスモータであるが、車輪モータ36と同様に、直流モータであってよい。
The above-described motors of this embodiment are stepping motors or pulse motors for simplifying the control except for the
センサ入力/出力ボード84も、同様に、DSPで構成され、各センサやカメラからの信号を取り込んでCPU76に与える。すなわち、超音波距離センサ42の各々からの反射時間に関するデータがこのセンサ入力/出力ボード84を通して、CPU76に入力される。また、全方位カメラ52からの映像信号が、必要に応じてこのセンサ入力/出力ボード84で所定の処理が施された後、CPU76に入力される。眼カメラ54からの映像信号も、同様にして、CPU76に与えられる。また、タッチセンサ64からの信号がセンサ入力/出力ボード84を介してCPU76に与えられる。
Similarly, the sensor input /
スピーカ72には音声入力/出力ボード86を介して、CPU76から、合成音声データが与えられ、それに応じて、スピーカ72からはそのデータに従った音声または声が出力される。また、マイク24からの音声入力が、音声入力/出力ボード86を介してCPU76に取り込まれる。
Synthetic voice data is given to the
また、CPU76には、バス78を通して、通信LANボード98が接続される。この通信LANボード98も、同様に、DSPで構成され、CPU76から与えられた送信データを無線通信装置100に与え、無線通信装置100から送信データを送信させる。また、通信LANボード98は無線通信装置100を介してデータを受信し、受信データをCPU76に与える。
Further, a
さらに、CPU76には、バス78を通して、データベース102が接続される。図示は省略するが、データベース102には、後述するインタラクションパラメータΘが対応する人物(人間14等)の名称ないしは識別情報(タグ情報,識別番号)とともに記憶される。また、人物の識別情報に対応して、ロボット12の眼カメラ54で撮影した人物の顔画像および全身画像から推定した身長の値も記憶される。これは、後述するように、インタラクション相手に応じて、インタラクションパラメータΘの初期値を設定するようにしてあるためである。
Further, the
なお、この実施例では、データベース102をロボット12内部に設けるようにしてあるが、ロボット12の外部に通信可能に設けるようにしてもよい。
In this embodiment, the
図1に戻って、システム10はモーションキャプチャシステム20を含む。モーションキャプチャシステム(3次元動作計測装置)20としては、公知のモーションキャプチャシステムが適用される。たとえば、VICON社(http://www.vicon.com/)の光学式のモーションキャプチャシステムを用いることができる。図示は省略するが、モーションキャプチャシステム20は、PC或いはWSのようなコンピュータを含み、このコンピュータとロボット12とが、有線または無線LAN(図示せず)によって互いに接続される。
Returning to FIG. 1, the
図4を用いて具体的に説明すると、モーションキャプチャシステム20においては、複数(少なくとも3つ)の赤外線照射機能を有するカメラ20aが、空間ないし環境に存在するロボット12および人間14に対して異なる方向に配置される。ロボット12および人間14には、複数(この実施例では、4個)の赤外線反射マーカ30が取り付けられる。具体的には、図4からも分かるように、赤外線反射マーカ30は、ロボット12および人間14共に、眼の上(額)と肩とに取り付けられる。これは、この実施例では、ロボット12および人間14の位置(3次元位置)および顔(視線)の方向を検出するためである。ただし、位置や顔の方向を正確に検出するために、さらに他の部位に赤外線反射マーカ30を取り付けるようにしてもよい。
Specifically, referring to FIG. 4, in the
モーションキャプチャシステム20のコンピュータは、カメラ20aから画像データをたとえば60Hz(1秒間に60フレーム)で取得し、画像データを画像処理することによって、その計測時の全ての画像データにおける各マーカ30の2次元位置を抽出する。そして、コンピュータは、画像データにおける各マーカ30の2次元位置に基づいて、実空間における各マーカ30の3次元位置を算出するとともに、ロボット12および人間14の顔の方向も算出する。次いで、コンピュータは、算出した3次元位置の座標データ(位置データ)および顔の方向データを、ロボット12(CPU76)からの要求に応じてロボット12に送信する。
The computer of the
ロボット12は、モーションキャプチャシステム20から送信される座標データおよび方向データを取得し、自身および人間14の3次元位置を取得する。そして、ロボット12は、自身を中心(原点)とした場合(ロボット座標)における、人間14の位置(距離)を検出(算出)する。また、ロボット12は、方向データに基づいて、人間14がロボット12の顔を見ているかどうかを判断する。
The
このような構成のロボット12は、上述したように、人間14との間でコミュニケーションする場合には、身体動作(ジェスチャ)および音声(発話)の少なくとも一方を用いたインタラクション行動を行う。たとえば、ロボット12は、自身に対する人間14のジェスチャや発話を検出して、そのようなインタラクション行動を決定する。
As described above, the
ここで、人と人とのコミュニケーションについて考察すると、自然な(快適な)コミュニケーションを行うためには、相手への適応が重要である。たとえば、人が快適に過ごすためには、適度なパーソナルスペースが必要であり、コミュニケーションの内容により異なる。また、視線を合わせる頻度が人により異なることも知られている。快適なパーソナルスペースや視線頻度は人により異なるが、人はコミュニケーション相手に合わせ、互いに快適さを保っている。たとえば、相手が近すぎると感じれば少し離れ、見つめられ過ぎると感じれば視線を反らす。こういった適応を人は無意識に行っている。 Here, considering communication between people, adaptation to the other party is important for natural (comfortable) communication. For example, in order for people to spend comfortably, an appropriate personal space is required, which varies depending on the content of communication. It is also known that the frequency of matching the line of sight varies from person to person. Comfortable personal spaces and eye-gaze frequency vary from person to person, but people are comfortable with each other according to their communication partners. For example, if you feel that the other person is too close, you will move away a little, and if you feel you are staring too much, you will bend your line of sight. People are unconsciously making these adaptations.
したがって、ロボット12と人間14とがインタラクション(コミュニケーション)する場合には、ロボット12が、相手に合わせて、適切なパーソナルスペースを確保したり、視線を合わせる頻度を個人に合わせたりする必要がある。
Therefore, when the
また、人とロボットとの間のインタラクションにおいて、身体動作を解析した研究(T. Kanda, H. Ishiguro, M. Imai, and T. Ono. Body Movement Analysis of Human-Robot Interaction. In Int. Joint Conference on Artificial Intelligence (IJCAI 2003),pp.177-182, 2003)によると、ロボットの振る舞いに好印象を持つ被験者はロボットに顔を向ける傾向があり、インタラクション中の移動距離も短い傾向が見られている。また、パートナーの動きが緩慢で退屈である場合や、速過ぎて理解できない場合にも他に顔を向けると考えるのは自然である。 In addition, a study analyzing body movements in human-robot interaction (T. Kanda, H. Ishiguro, M. Imai, and T. Ono. Body Movement Analysis of Human-Robot Interaction. In Int. Joint Conference on Artificial Intelligence (IJCAI 2003), pp.177-182, 2003), subjects who have a good impression of robot behavior tend to turn their faces toward the robot, and there is a tendency that the moving distance during the interaction is also short. Yes. It's also natural to think of your face as a partner when your partner's movement is slow and boring, or when it's too fast to understand.
以上より、ロボット12とのインタラクションにおいて、人の快・不快が無意識に移動距離とロボットに顔を向ける時間とに現れる(いずれか一方でも可。)と仮定して、報酬関数(図5参照)を設計した。ここで、ロボット12のインタラクション行動についてのパラメータ(インタラクションパラメータ)Θとしては、3種の対人距離(親密距離、個体距離、社会距離)、人の顔の方向にカメラ(眼カメラ54)を向ける時間の長さ、発話からモーション再生までの遅れ時間、モーションの速度である。ロボット12は、報酬関数の演算により得られる報酬を最大化するように、方策勾配型強化学習(policy gradient reinforcement learning :PGRL)により、パラメータΘを学習し、インタラクションパートナー(ここでは、人間14)に個人適応する。どのようなパラメータΘが適切であるかを直接得ることが出来ないため、学習方法として教師なし学習が必要である。これは、たとえば、個々に適切と思う対人距離(パーソナルスペース等)が異なるからである。また、人とのインタラクションにおいて学習するためには収束が速いことも重要であることから、方策勾配型強化学習が用いられる。
From the above, it is assumed that in the interaction with the
報酬関数は、ロボット12のCPU76によってソフト的に処理される。その機能的なブロック図が図5に示される。図5を参照して、報酬関数200は、入力端子P1およびP2を含む。この入力端子P1およびP2には、モーションキャプチャシステム20から入力された位置データがそのまま入力される。ただし、後述するように、1つのインタラクション行動が実行される毎に、報酬関数200による演算を実行するようにしてあるため、入力端子P1およびP2には、1つのインタラクション行動を実行中に得られた、時間変化に従う位置データが入力されるのである。
The reward function is processed in software by the
入力端子P1に入力された位置データは、フィルタ部202でノイズ除去される。たとえば、フィルタ部202は、5HzのLPFであり、位置データに含まれる高域成分を除去する。これは、細かい人間14の身体の揺れを移動距離に含めないためである。高域成分が除去された位置データは積分部204で積分される。つまり、人間14の移動距離が算出される。そして、積分部204の出力に、正規化/重み付け部206で、正規化および重み付けが施され、加算器208に反転して入力される。これは、上述したように、インタラクション中における人間14の移動量は、インタラクションを不快に感じていると考えられ、報酬としてはマイナス要因だからである。
The position data input to the input terminal P1 is noise-removed by the
一方、入力端子P2に入力された位置データは、首角度算出部210に与えられ、首角度算出部210によってロボット12に対する人間14の首角度が算出される。厳密に言うと、ロボット12の顔に対する人間14の顔の向きが算出されるのである。人間14の首角度が算出されると、閾値処理部212で、所定の角度(この実施例では、10°)以下であるかどうかが判断される。つまり、人間14がロボット12の顔を見ているかどうかが判断される。ここで、図6に示すように、ロボット12と人間14とが対面しているとき、ロボット12と人間14とを結ぶ直線(線分)に対して人間14の顔の方向がなす角度が10°以下である場合には、人間14がロボット12の顔を見ていると判断するようにしてある。ただし、人間14がロボット12の顔を見ているかどうかを厳密に判断する場合には、人間14の視線方向も検出する必要があると考えられる。そして、閾値処理部212では、首角度算出部210によって算出された首角度が10°以下である場合には、閾値処理部212で、その時間が加算される。つまり、インタラクション中に、人間14がロボット12の顔を見ている時間の合計が算出されるのである。そして、閾値処理部212の出力に、正規化/重み付け部214で、正規化および重み付けが施され、加算器208にそのまま入力する。これは、上述したように、インタラクション中における人間14がロボット12の顔を見る時間は、インタラクションを快いと感じていると考えられ、報酬としてはプラス要因だからである。そして、加算器208の結果が報酬取得部216に与えられる。
On the other hand, the position data input to the input terminal P <b> 2 is given to the neck
なお、この実施例においては、正規化/重み付け部206および214における重み付けは、簡単のため、1対1となるようにした。ただし、対人距離またはロボットに顔を向ける時間のいずれか一方に基づいて、報酬すなわちインタラクション中における快適さを知ることができるため、たとえば、1対0や0対1で重み付けするようにしてもよい。
In this embodiment, the weights in the normalization /
また、この実施例では、対人距離およびロボットに顔をむける時間に基づいて、インタラクションの快適さを知るようにしてあるが、これに限定される必要はない。たとえば、人間の足音の大小、人間がいわゆる貧乏ゆすりをしているか否か、または、人間の顔の表情(笑い(柔らかい)、辛い(硬い))によって、インタラクションの快適さを知ることもできる。たとえば、人間の足音はいらいらに関係し、足音が小さければ、いらいらしておらず、インタラクショクションが快適であると言え、逆に、足音が大きければ、いらいらしており、インタラクションが不快であると言える。ただし、人間の足音は、騒音計により検出することができる。また、人間が貧乏ゆすりをしているか否か、および人間の顔の表情は、画像認識技術を用いることにより検出することができる。 In this embodiment, the comfort of interaction is known based on the interpersonal distance and the time to face the robot. However, the present invention is not limited to this. For example, it is possible to know the comfort of interaction based on the level of human footsteps, whether or not a human is so-called poor, or facial expressions (laughter (soft), hard (hard)). For example, human footsteps are related to annoyance, and if footsteps are low, it is not frustrating and interaction is comfortable, and conversely, if footsteps are high, it is frustrating and interaction is uncomfortable. I can say that. However, human footsteps can be detected by a sound level meter. Further, whether or not a human is poverty and whether or not the human facial expression can be detected by using an image recognition technique.
このような報酬関数200による演算は、インタラクションにおいて、ロボット12がインタラクション行動を実行する毎に実行される。そして、人間14がインタラクションを快いと感じるように、ロボット12のインタラクションパラメータΘを強化学習により求める。
Such calculation by the
ここで、Q学習に代表される強化学習では、最適な振る舞い(政策ないし方策)を学習するために、出来るだけ広範囲の空間を探索し、あらゆる方策を試行する。そのため、学習結果はグローバルに最適なものが得られるが探索には長期間かかってしまう。それに対し方策勾配型強化学習(または、方策勾配法による強化学習)では、現在の方策を、報酬を得られる方向へ修正していくことで局所最適解を求める。報酬から方策を直接変化させるので、報酬伝播の遅れが少なく学習時間が短い特長がある。この実施例では、インタラクション開始以降は、センサによってインタラクションを変化させないオープンループシステムの方策勾配型強化学習を採用した。 Here, in reinforcement learning represented by Q-learning, in order to learn the optimal behavior (policy or policy), a wide range of space is searched as much as possible, and every policy is tried. Therefore, the learning result can be optimized globally, but the search takes a long time. On the other hand, in policy gradient type reinforcement learning (or reinforcement learning by the policy gradient method), a local optimal solution is obtained by correcting the current policy in a direction in which a reward can be obtained. Since the policy is changed directly from the reward, there is a feature that there is little delay in reward propagation and a short learning time. In this embodiment, policy gradient reinforcement learning of an open loop system in which the interaction is not changed by the sensor after the start of the interaction is adopted.
具体的には、図7および図8で示すフロー図に従って全体処理を実行し、その中で強化学習を実行し、インタラクションパラメータΘを更新するようにしてある。ここで、この実施例における方策勾配型強化学習のアルゴリズムについて簡単に説明する。学習には、まず現在の方策すなわちインタラクションパラメータΘを少し変動させたT通りの方策θijを用意する。方策θijは、インタラクションパラメータΘの各成分θjにランダムにεj,0,−εjのいずれかを加えて生成する。ただし、変動ステップサイズεjはパラメータ(インタラクションパラメータΘの成分)θj毎に異なる値でよい。 Specifically, the entire process is executed according to the flowcharts shown in FIGS. 7 and 8, reinforcement learning is executed therein, and the interaction parameter Θ is updated. Here, the algorithm of the policy gradient type reinforcement learning in this embodiment will be briefly described. In the learning, first, the current policy, that is, T policies θ ij in which the interaction parameter Θ is slightly changed is prepared. The policy θ ij is generated by randomly adding any one of ε j , 0, and −ε j to each component θ j of the interaction parameter Θ. However, the variable step size ε j may be different for each parameter (component of the interaction parameter Θ) θ j .
次に、それぞれの方策Riに従ってインタラクションをT回行い、報酬を得る。T通りの方策θijすべてについてインタラクションを行った後、報酬関数200のインタラクションパラメータΘに対する勾配Aを近似的に求める。各パラメータθjについて、εjを加えた時の平均報酬、0を加えた時の平均報酬、−εjを加えた時の平均報酬を、それぞれ求める。
Next, the interaction is performed T times according to each policy R i to obtain a reward. After performing the interaction for all T policies θ ij, the gradient A with respect to the interaction parameter Θ of the
0を加えた時の平均報酬が最も大きい場合には、各パラメータθjについての勾配Aは0とする。一方、0を加えた時の平均報酬が最も大きくない場合には、各パラメータθjについての勾配Aは、εを加えた時の平均報酬と−εを加えた時の平均報酬との差とする。勾配Aを求めた後、勾配Aを正規化して、ηを掛けたものに、各成分にεjの重みをつけ、インタラクションパラメータΘを更新する。このT回のインタラクションとインタラクションパラメータΘの更新が1ステップである。これを繰り返すことで、報酬が極大となる、つまり人間14が快いと感じるインタラクション行動を実行できる、インタラクションパラメータΘに更新される。 When the average reward when 0 is added is the largest, the gradient A for each parameter θ j is 0. On the other hand, when the average reward when 0 is added is not the largest, the gradient A for each parameter θ j is the difference between the average reward when ε is added and the average reward when −ε is added. To do. After obtaining the gradient A, the gradient A is normalized and multiplied by η, each component is weighted with ε j , and the interaction parameter Θ is updated. The T times of interaction and the update of the interaction parameter Θ are one step. By repeating this, the reward is maximized, that is, the interaction parameter Θ that can execute the interaction behavior that the human 14 feels comfortable is updated.
図7に示すように、CPU76は、全体処理を開始すると、ステップS1で、インタラクションの相手(たとえば、人間14)が過去にインタラクションしたことのある人物であるかどうかを判断する。図示は省略するが、たとえば、人間14にタグを装着させて、タグの受信機をロボット12に設けておき、データベース102を参照して、タグの識別情報(タグ情報または番号)に対応する人物についてのインタラクションパラメータΘが記憶されているかどうかを判断する。ここで、その人物についてのインタラクションパラメータΘが記憶されている場合には、過去にインタラクションしたことがあると判断することができる。一方、その人物についてのインタラクションパラメータΘが記憶されていない場合には、過去にインタラクションしたことがないと判断することができる。
As shown in FIG. 7, when starting the entire process, the
ステップS1で“YES”であれば、つまり過去にインタラクションしたことがあれば、ステップS3で、インタラクションパラメータΘをデータベース102から読み出し、変数Θに代入して、ステップS11に進む。一方、ステップS1で“NO”であれば、つまり過去にインタラクションしたことがなければ、ステップS5で、インタラクションの相手に似た人物とインタラクションした経験があるかどうかを判断する。
If “YES” in the step S1, that is, if there has been an interaction in the past, in a step S3, the interaction parameter Θ is read from the
この実施例では、似た人物か否かは、人物の顔(主に形状)と身長とに基づいて判断される。人物の顔や身長は、ロボット12に設けられた眼カメラ54の撮影画像(顔画像および全身画像)に基づいて判断(推定)される。上述したように、インタラクションした人物についての顔画像と推定した身長とを、タグ情報に対応してデータベース102に記憶しておくので、現在インタラクションしている人物の顔画像および推定した身長と比較することにより、似た人物が存在するかどうかを判断することができる。つまり、似た人物とインタラクションした経験があるかどうかを判断することができるのである。
In this embodiment, whether or not the person is similar is determined based on the person's face (mainly shape) and height. The face and height of the person are determined (estimated) based on the images (face image and whole body image) taken by the
ステップS5で“YES”であれば、つまり似た人物とインタラクションした経験があれば、ステップS7で、似た人物のインタラクションパラメータΘをデータベース102か読み出し、変数Θに代入して、ステップS11に進む。一方、ステップS5で“NO”であれば、つまり似た人物とインタラクションした経験がなければ、ステップS9で、平均的なインタラクションパラメータΘをデータベース102から読み出し、変数Θに代入して、ステップS11に進む。ここで、平均的なインタラクションパラメータΘは、たとえば、データベース102に記憶してあるすべてのインタラクションパラメータΘの平均値である。
If “YES” in the step S5, that is, if there is an experience of interacting with a similar person, in a step S7, the interaction parameter Θ of the similar person is read from the
なお、図示は省略するが、初めて全体処理を実行する場合には、インタラクションパラメータΘはデータベース102に記憶されていないため、ユーザによって初期値が設定(入力)される。
Although not shown in the figure, when the entire process is executed for the first time, the interaction parameter Θ is not stored in the
ステップS11では、インタラクション回数iを初期化(i=1)する。続くステップS13では、変数Θに基づいて今回試すインタラクションパラメータΘiの決定処理(図9参照)を実行する。なお、この決定処理については、後で詳細に説明するため、ここではその詳細な説明は省略する。次に、ステップS15では、インタラクション行動を実行する。ただし、ここでは、予め用意されている複数のインタラクション行動のうち、いずれか1つのインタラクション行動がランダム(所定のルール)或いは人間14の振る舞いに応じて選択的に実行される。 In step S11, the number of interactions i is initialized (i = 1). In the subsequent step S13, the process of determining the interaction parameter Θ i to be tested this time based on the variable Θ (see FIG. 9) is executed. Since this determination process will be described later in detail, the detailed description thereof is omitted here. Next, in step S15, an interaction action is executed. However, here, any one of the plurality of interaction actions prepared in advance is selectively executed according to random (predetermined rule) or the behavior of the human 14.
続いて、ステップS17では、インタラクションの評価を算出し、変数Riに代入する。ここで、インタラクションの評価は、上述した報酬関数200(図5)に従って求められる報酬である。図8に示すように、次のステップS19では、インタラクション回数iを1加算(i=i+1)する。そして、ステップS21では、インタラクション回数iが所定回数T(たとえば、10)を超えたかどうかを判断する。ステップS21で“NO”であれば、つまりインタラクション回数iが所定回数以下であれば、図7に示したステップS13に戻る。一方、ステップS21で“YES”であれば、つまりインタラクション回数iが所定回数Tを超えていれば、ステップS23で、インタラクションパラメータΘの更新処理(図10参照)を実行して、ステップS25で、インタラクションの終了かどうかを判断する。ここでは、たとえば、インタラクションの終了指示が入力されたり、一定時間が経過したりしたかを判断しているのである。 Then, in step S17, it calculates an evaluation of the interaction, into a variable R i. Here, the evaluation of the interaction is a reward obtained according to the above-described reward function 200 (FIG. 5). As shown in FIG. 8, in the next step S19, 1 is added to the number of interactions i (i = i + 1). In step S21, it is determined whether or not the number of times of interaction i has exceeded a predetermined number of times T (for example, 10). If “NO” in the step S21, that is, if the number of times of interaction i is equal to or less than the predetermined number, the process returns to the step S13 shown in FIG. On the other hand, if “YES” in the step S21, that is, if the number of times of interaction i exceeds the predetermined number T, an update process of the interaction parameter Θ (see FIG. 10) is executed in a step S23, and in step S25, Determine if the interaction is over. Here, for example, it is determined whether an instruction to end the interaction is input or whether a certain time has passed.
ステップS25で“NO”であれば、つまりインタラクションの終了でなければ、図7に示したステップS11に戻る。一方、ステップS25で“YES”であれば、つまりインタラクションの終了であれば、更新された変数Θを、インタラクション相手に対応するインタラクションパラメータΘとして、データベース102に登録(更新)して、全体処理を終了する。
If “NO” in the step S25, that is, if the interaction is not ended, the process returns to the step S11 shown in FIG. On the other hand, if “YES” in the step S25, that is, if the interaction is ended, the updated variable Θ is registered (updated) in the
図9は、図7に示したステップS13の今回試すインタラクションパラメータΘiの決定処理を示すフロー図である。この図9を参照して、CPU76は、今回試すインタラクションパラメータΘiの決定処理を開始すると、ステップS41で、変数jに初期値を設定する(j=1)。続くステップS43では、0,εj,−εjからランダムに1つ選択し、変数Δに代入する。次のステップS45では、今回試すインタラクションパラメータΘiの第j番目の成分θijを算出する(θij=θj+Δ)。続いて、ステップS47で、変数jをインクリメントする(j=j+1)。そして、ステップS49で、変数jがインタラクションパラメータΘ(インタラクションパラメータベクトル)の大きさ(全成分θjの個数)nを超えているかどうかを判断する。ステップS49で“NO”であれば、つまり変数jがインタラクションパラメータΘの大きさn以下であれば、そのままステップS43に戻る。一方、ステップS49で“YES”であれば、つまり変数jがインタラクションパラメータΘの大きさnを超えていれば、今回試すインタラクションパラメータΘiを決定したと判断して、今回試すインタラクションパラメータΘiの決定処理をリターンする。
FIG. 9 is a flowchart showing the determination process of the interaction parameter Θ i to be tried this time in step S13 shown in FIG. Referring to FIG. 9, when starting the determination process of interaction parameter Θ i to be tested this time,
図10は、図8に示したステップS23におけるインタラクションパラメータΘの更新処理を示すフロー図である。図10を参照して、CPU76は、インタラクションパラメータΘの更新処理を開始すると、ステップS61で、変数jに初期値を設定する(j=1)。続くステップS63では、今回試したインタラクションパラメータΘiについて、θijをθjとした場合の平均報酬R0,θijをθj+εjとした場合の平均報酬R1,θijをθj−εjとした場合の平均報酬R2を、それぞれ求める。ただし、θjはインタラクションパラメータ(ベクトル)Θの第j成分であり、θijはインタラクションパラメータΘiの第j成分であり、εjはインタラクションパラメータΘの第j成分を変動させる値である。
FIG. 10 is a flowchart showing the update processing of the interaction parameter Θ in step S23 shown in FIG. Referring to FIG. 10, when starting the update process of the interaction parameter Θ, the
次にステップS65では、ステップS63で算出したR0,R1,R2を用いて、R0>R1であり、かつR0>R2であるかどうかを判断する。ステップS65で“YES”であれば、つまりR0>R1であり、かつR0>R2であれば、ステップS65で、勾配Aの第j成分ajに0を設定(aj=0)して、ステップS71に進む。一方、ステップS65で“NO”であれば、つまりR0≦R1およびR0≦R2の少なくとも一方を満たしていれば、ステップS69で、勾配Aの第j成分ajに平均報酬R1と平均報酬R2の差分(aj=R1−R2)を設定して、ステップS71に進む。 Next, in step S65, it is determined whether R0> R1 and R0> R2 using R0, R1, and R2 calculated in step S63. If “YES” in the step S65, that is, if R0> R1 and R0> R2, the j-th component a j of the gradient A is set to 0 (a j = 0) in a step S65, Proceed to step S71. On the other hand, if “NO” in the step S65, that is, if at least one of R0 ≦ R1 and R0 ≦ R2 is satisfied, the average reward R1 and the average reward R2 are added to the j-th component a j of the gradient A in the step S69. The difference (a j = R1−R2) is set, and the process proceeds to step S71.
ステップS71では、変数jをインクリメントする。そして、ステップS73では、変数jがインタラクションパラメータΘの大きさnを超えているかどうかを判断する。ステップS71で“NO”であれば、つまり変数jがインタラクションパラメータΘの大きさnを超えていれば、ステップS63に戻る。一方、ステップS73で“YES”であれば、つまり変数jがインタラクションパラメータΘの大きさn以下であれば、ステップS75で、勾配Aを正規化(A=A/|A|)する。続くステップS77では、勾配Aの第j成分ajを更新(aj=aj×εj×η)する。ただし、ηはスカラーであり、全体としての更新の大きさを決定するパラメータである。そして、ステップS79で、インタラクションパラメータΘを更新(Θ=Θ+A)して、インタラクションΘの更新処理をリターンする。 In step S71, the variable j is incremented. In step S73, it is determined whether or not the variable j exceeds the size n of the interaction parameter Θ. If “NO” in the step S71, that is, if the variable j exceeds the magnitude n of the interaction parameter Θ, the process returns to the step S63. On the other hand, if “YES” in the step S73, that is, if the variable j is equal to or smaller than the magnitude n of the interaction parameter Θ, the gradient A is normalized (A = A / | A |) in a step S75. In the subsequent step S77, the j-th component a j of the gradient A is updated (a j = a j × ε j × η). However, η is a scalar and is a parameter that determines the magnitude of the update as a whole. In step S79, the interaction parameter Θ is updated (Θ = Θ + A), and the interaction Θ update processing is returned.
このような構成のロボット12を実際に人間(被験者)との間でインタラクションさせて、インタラクションパラメータΘを更新させるとともに、被験者がロボット12とのインタラクションから受けた印象(快・不快)等から強化学習によるパラメータΘの適応度を実験により検証した。上述したように、インタラクションパラメータΘは、3種類の対人距離(親密距離、個体距離、社会距離)、人の顔の方向に眼カメラ54を向ける時間の長さ(注視時間)、発話からモーション再生(インタラクション行動の開始)までの遅れ時間、モーション再生速度である。ロボット12に用意するすべのモーション(インタラクション行動)は、対人距離によって分類し(図12参照)、同じ分類に含まれるインタラクション行動では、同じ距離を用いた。1つののモーションに関係するインタラクションパラメータΘは距離、注視時間、遅れ時間、再生速度の4つの要素(パラメータθj)である。適応するパラメータθjを多くすると、学習に時間がかかってしまうため、インタラクションに大きな影響があると考えられる。また、パラメータθjは可能な限り少ない方が、実装が容易であるため、上述したようなパラメータθjを選択することとした。
The
また、人とロボット12との距離(対人距離)は、それぞれの額間の水平距離とした。ロボット12は5秒を1周期として、人の顔を見て、他の方向を向く。注視時間は、この人の顔を見る時間の5秒に対する割合とした。ここで、5秒を1周期としたのは、人と人とのインタラクションにおける注視の周期に合わせたためである。遅れ時間は、たとえばロボット12が「握手してね」と発話してから、手を出すモーションを再生するまでの時間である。再生速度はモーションを作成した際の動きの速さを1としてある。
The distance between the person and the robot 12 (interpersonal distance) was the horizontal distance between the foreheads. The
実験は、モーションキャプチャシステム20を有する実験室において、精度良くモーションキャプチャが行える中央の所定範囲(4.5×3.5(m))で行った。図11に示すように、12台のカメラ20aからなるモーションキャプチャシステム20が備えられている。ただし、図11においては、簡単のため、カメラ20a以外のコンピュータ等は省略してある。このような構成で、実験領域内では1(mm)程度の測定精度がある。上述したように、マーカ30が被験者(人間14)とロボット12の額と肩とに取り付けられ、そのマーカ30からそれぞれの額の位置および方向を求めた。モーションキャプチャにより求められた位置と方向はロボット12にLANのようなネットワークを介して送り、ロボット12の動作決定と報酬関数200の計算に用いた。実験中では、通信による時間遅れは0.1秒以内であり、この通信による遅れは無視することができた。
The experiment was performed in a laboratory having the
図12には、実験のために用意したロボット12の振る舞い(インタラクション行動)についての第1テーブルが示される。図12を参照して分かるように、インタラクション行動としては、抱っこ(Hug)、握手(Shake hands) 、どこから来たの?(Ask where person comes from)、ロボビー(ロボット12の商品名)ってかわいい?(Ask if robot is cute)、触ってね(Ask person to touch robot)、じゃんけん(Play paper-scissors-stone)、あっちむいてほい(Play pointing game)、運動(Perform arm-swinging exercise)、自己紹介(Hold “thank you” monologue)、相手を見る(just looking)の10通りである。これらのインタラクションを、親密距離(intimate distance)、個体距離(personal distance)、社会距離(social distance)の3つの対人距離に、予備実験により分類した。なお、分類の予備実験では、8名の被験者を集めて、ロボット12の位置を固定し、各被験者に、それぞれのインタラクションに適していると考える距離に移動してもらい、その距離を測定した。被験者間で多少の距離の差は見られたが、分散は小さく、分類に影響するほどではなかった。
FIG. 12 shows a first table regarding the behavior (interaction behavior) of the
次に実験の手順について説明する。実験開始時に、ロボット12は、モーションキャプチャシステム20の測定領域の中央に存在し、被験者はロボット12の正面に立った状態から、リラックスして自然な気持ちでロボット12とインタラクションするよう求められた。モーションキャプチャシステム20の測定範囲内に存在することを要求した以外は、被験者に対してインタラクションについて何も要求していない。
Next, an experimental procedure will be described. At the start of the experiment, the
実験においては、ロボット12と各被験者との間で、約30分間のインタラクションを行った。この30分の間に、上述した10個のインタラクション行動をランダムに実行した。詳細な説明は省略するが、いずれのインタラクション行動を実行する場合にも、ロボット12は、その腕や頭の動きを伴う。つまり、身体動作を伴うのである。たとえば、抱っこ(hug)では、ロボット12が「抱っこしてね」と発声し、腕を広げ、これに応じて、人(被験者)がロボット12の正面の適当な位置(距離)に立つと、その後、腕で当該人に抱きつく。30分間のインタラクションを行い、上述したような強化学習を行った。また、上述したように、報酬関数200はロボット12が1つのインタラクション行動を終了(約10秒)する毎に計算される。インタラクションパラメータΘの各成分(パラメータ)θjを少しずつ変化させ、T回(この実施例では、10回)のインタラクションが終了すると、報酬からインタラクションパラメータΘの変動方向(勾配A)を決定し、インタラクションパラメータΘを更新した。図13には、各パラメータθjに対応して、各々の初期値およびステップサイズを示す第2テーブルが示される。具体的には、パラメータ「親密距離」では、初期値が50(cm)であり、ステップサイズが15(cm)である。パラメータ「個体距離」では、初期値が80(cm)であり、ステップサイズが15(cm)である。パラメータ「社会距離」では、初期値が100(cm)であり、ステップサイズが15(cm)である。パラメータ「注視時間」では、初期値が0.7であり、ステップサイズが0.1である。パラメータ「遅れ時間」では、初期値が0.17(s)であり、ステップサイズが0.3(s)である。パラメータ「再生速度」では、初期値が1.0であり、ステップサイズが0.1である。
In the experiment, an interaction of about 30 minutes was performed between the
インタラクション後、被験者にロボット12の動きとインタラクションについて、ロボット12の動き、距離、視線の合わせ方の印象と、実験中それらがどのように変化していったかを聞き、個人距離の測定を行った。親密距離、個体距離、社会距離、それぞれについてモーションを行っているロボット12の正面の適当と感じる位置へ被験者に立ってもらい、モーションキャプチャシステム20で距離を測定した。ここでは、注視時間0.75、遅れ時間0.3(s)、再生速度1.0とし、親密距離についてはインタラクション「抱っこ」を用い、個体距離についてはインタラクション「握手」を用い、社会距離についてはインタラクション「ありがとう(Hold “thank you” monologue)」を用いた。また、適当と感じる距離からロボット12を近づけた場合と、逆にロボット12を遠ざけた場合とで、被験者が距離を適切でないと感じる位置を測定した。
After the interaction, the subjects were asked about the movement and interaction of the
さらに、1つのパラメータθjのみを低、中、高と3通りに変化させ、他のパラメータθjを全被験者の平均値に固定した場合のロボット12のインタラクションモーションを被験者に見せ、適切と感じるものを選択してもらった。注視時間と再生速度の測定には、「ありがとう」のモーションを用い、人との距離は1.0(m)とした。遅れ時間の測定には、「抱っこ」のモーションを用い、距離についてはロボット12の移動を止めて、被験者に適切と思われる位置に立ってもらった。これは、親密距離は個人差が大きかったためである。被験者の中には、複数の値で適切であると感じた者や中間の値が適切であると感じた者がいた。
In addition, the interaction motion of the
このような実験を15名の被験者に対して行った。被験者は、1名を除き、日本人で、全員がロボット12の発話を聞き取ることが出来た。被験者の年齢は20才から35才で、多くは20才から25才であった。また、被験者のうち、6名が女性で、残りは男性であった。ただし、被験者の中に、ロボット12について知っている者が多少いた。
Such an experiment was conducted on 15 subjects. Except for one subject, all the subjects were Japanese, and all of them were able to hear the utterance of the
被験者のうち、3名は我々が期待したようには振舞わなかった。具体的には、ロボット12のインタラクションが適当なものであっても、そうでなくても、顔の方向を変えたり、立ち位置を変えることなく、感想を言葉でロボット12或いは実験者に述べたり、顔に表出したりするのみであった。このような被験者は、想定しているインタラクション評価モデルには当てはまらず、システム10(強化学習の処理)は正しく動作しない。したがって、以下に説明する実験結果においては、これら被験者(3名の被験者)の結果を除いている。それ以外の多くの被験者に対しては、15分から20分(約10回のPGRLのパラメータ更新)で適切な値にインタラクションパラメータΘが収束した。
Three of the subjects did not behave as we expected. Specifically, whether or not the interaction of the
図14(A),(B),(C)には、12名の被験者の距離(親密距離、個体距離、社会距離)について、適応の結果得られた値と被験者が適当と判断した値を示す。距離に関しては、全インタラクション最後の1/4の期間(約7分半)の平均を示している。これはPGRLが常に極所最適値を探索しているためである。図14(A)〜(C)において、「*」印が適応した結果であり、縦棒は被験者を示し、横棒のうち短い棒は許容限度(許容範囲)を示し、横棒のうち長い棒は最適とした値(最適値)を示す。 14 (A), (B) and (C) show the values obtained as a result of adaptation and the values determined by the subjects as appropriate for the distances (intimacy distance, individual distance, social distance) of the 12 subjects. Show. Regarding the distance, the average of the last quarter period (about 7 and a half minutes) of all the interactions is shown. This is because PGRL always searches for the optimum local value. 14 (A) to 14 (C), “*” marks are the results of adaptation, the vertical bar indicates the subject, the short bar among the horizontal bars indicates the allowable limit (allowable range), and the long among the horizontal bars. The bar indicates the optimum value (optimum value).
図15(A),図15(B)および図15(C)は、注視時間(motion meeting ratio)、遅れ時間(waiting time)、モーション再生速度(motion speed)についての結果を示す。図15(A)〜図15(C)において、「○」印は被験者が適当と判断した値であり、「*」印は適応結果(全インタラクション最後の1/4の期間の平均)である。ただし、2つの値の中間が適当とした被験者については、中間に「▽」印を記してある。図14(A)〜図14(C)および図15(A)〜図15(C)から、被験者の判断との一致度合はパラメータθjによって大きく異なると言える。これは、それぞれのパラメータθjのインタラクションへの重要性が異なり、報酬へ寄与の大きいパラメータθjから収束し、許容範囲の広いパラメータθjの収束は遅くなるためである。 FIG. 15A, FIG. 15B, and FIG. 15C show the results for gaze time (motion meeting ratio), delay time (waiting time), and motion playback speed (motion speed). 15 (A) to 15 (C), “◯” indicates a value determined by the subject as appropriate, and “*” indicates an adaptation result (an average of the last quarter of all interactions). . However, for subjects whose midpoint between the two values is appropriate, a “▽” mark is marked in the middle. From FIG. 14 (A) to FIG. 14 (C) and FIG. 15 (A) to FIG. 15 (C), it can be said that the degree of coincidence with the judgment of the subject greatly varies depending on the parameter θ j . This is because the importance of each parameter θ j to the interaction is different, and it converges from the parameter θ j having a large contribution to the reward, and the convergence of the parameter θ j having a wide allowable range is delayed.
また、ロボット12がよく適応できていた被験者の印象には、パラメータθjの変化があまり含まれない傾向があった。これは、自然な適応が行われると、パラメータθjの適応が認識されなくなる可能性を示唆している。
Also, the impression of the subject who was able to adapt well to the
図16は、各パラメータθjの最適とされる値(最適値)からの分散を12名の被験者について平均した第3テーブルを示す。分散は、全インタラクションについての最後の1/4期間について計算した。これは、最後の1/4期間中におけるパラメータθjの変動の影響を分散に含めるためである。また、各パラメータθjは、その更新のステップサイズが1になるように正規化している。なお、図16の第3テーブルでは、参考のため、右端に初期値の分散を示している。第3テーブルからも分かるように、個人距離、社会距離を除いて、ステップサイズの1.1倍以下になっている。許容される範囲は、個人距離についてはステップサイズの3倍であり、社会距離に関しては5倍であった。社会距離に関しては、1人の被験者を除き、適応結果は許容範囲に入った。したがって、PGRLに基づいた適応により各パラメータθjは適切な値に収束したと言える。より誤差を小さくするには、ステップサイズをより小さくしたり、適応が進むにつれて徐々に小さくしたりする必要があると考えられる。 FIG. 16 shows a third table in which the variances from the optimum values (optimum values) of the parameters θ j are averaged for 12 subjects. The variance was calculated for the last quarter period for all interactions. This is because the influence of the variation of the parameter θ j during the last quarter period is included in the variance. Each parameter θ j is normalized so that the update step size is 1. Note that in the third table of FIG. 16, the initial value variance is shown at the right end for reference. As can be seen from the third table, the step size is 1.1 times or less excluding personal distance and social distance. The allowable range was 3 times the step size for personal distance and 5 times for social distance. With regard to social distance, the adaptation results were within acceptable limits, with the exception of one subject. Therefore, it can be said that each parameter θ j has converged to an appropriate value due to adaptation based on PGRL. In order to further reduce the error, it is considered necessary to reduce the step size or gradually decrease the adaptation.
また、第3テーブルに示すように、初期値もそれほど最適値から離れているわけではないが、最適値への収束には10回程度の適応が必要となっている。ただし、図14(A)〜図14(C)および図15(A)〜図15(C)に示したように、被験者によっては、15回〜20回の適応でも最適値に収束しないパラメータθjがあった。また、報酬関数200を意識し、現在のインタラクションパラメータΘに応じて、一貫して人が同じ振る舞いをした場合には、4〜5回の適応で収束した。なお、かかる場合には、シミュレーション上では、3〜4回で最適値へ収束することもあった。したがって、収束するまでに必要な適応の回数が多くなってしまう一因としては、人の動きが毎回一定ではないことが考えられる。以下では、適応結果により被験者を4つのグループに分け、更に詳細な実験結果を説明する。
Moreover, as shown in the third table, the initial value is not so far from the optimum value, but about 10 adaptations are required for convergence to the optimum value. However, as shown in FIGS. 14 (A) to 14 (C) and FIGS. 15 (A) to 15 (C), depending on the subject, the parameter θ that does not converge to the optimum value even after 15 to 20 adaptations. There was j . Also, in consideration of the
まず、最適値への適応が良好であり、被験者の印象も良い場合について説明する。ロボット12は、3名の被験者(被験者2,10,12)に対してスムーズに適応した。各パラメータθjの最適値への収束が見られ、この3名の被験者は、「インタラクションについて適当と感じる」と述べた。つまり、ロボット12がインタラクションしたときのインタラクションパラメータΘが適切であったと言える。この3名の被験者に見られた共通点は、ロボット12とのインタラクションを楽しみ、ロボット12であることを意識せず、人に対する場合と同様にロボット12と接していたことである。
First, the case where the adaptation to the optimal value is good and the impression of the subject is good will be described. The
図17(A)〜(F)は、被験者10についての各パラメータθjの変化を示す。被験者10は、「ロボット12の振る舞い(インタラクション行動)の改善が速かった」と感想を述べている。図17(A)〜(F)からも分かるように、個体距離が若干最適値から離れているだけで、各パラメータθjは十分に最適値近くに収束しており、被験者10の感想と一致する結果であると言える。また、被験者は、モーション開始のタイミング(遅れ時間)に関して許容範囲が広く、適応結果も許容範囲内に入っていることが分かる。
17A to 17F show changes in the parameters θ j for the subject 10. The subject 10 states that “the behavior (interaction behavior) of the
次に、一部のパラメータθjが最適値に収束していないが、被験者の印象がよい場合について説明する。2名の被験者(被験者5,8)は、「ロボット12の動作について印象が良かった」と回答したが、一部のパラメータθjは最適値から大きく外れていた。図18(A)〜図18(F)は、被験者5に対する各パラメータθjの変化を示す。図18(A)〜図18(F)からも分かるように、3つの個人距離に関しては最適値に収束しており、モーション開始のタイミング(遅れ時間)に関しては許容範囲が広く、適切に学習したと言えるが、他の2つのパラメータθj(注視時間,再生速度)は最適値から大きく離れている。しかし、被験者5は、「注視時間、再生速度についても適当であった」と述べた。この原因としては、実験中の条件と最適値を測定した条件の違い、或いは、被験者5のパラメータθj(特に、注視時間,再生時間)の許容範囲が実際には広かったと考えられる。また、被験者5は、他の被験者には見られない行動(振る舞い)を行った。具体的には、この被験者5は、社会距離に分類される、ロボット12が話すインタラクションにおいても、ロボット12の各部を触っていた。その結果、社会距離が他の被験者と比較してかなり短くなっている。また、このような振る舞いを予期していなかったが、他の被験者と同じ報酬関数200(図5参照)により、ロボット12は被験者5が満足する適応が出来たと言える。
Next, a case will be described in which some of the parameters θ j do not converge to the optimum value but the impression of the subject is good. Two subjects (
続いて、最適値へ収束(適応)したが、被験者が一部の適応について不満をもった場合について説明する。図19(A)〜(F)は、被験者7に対するロボット12の各パラメータθjの適応を示す。各パラメータθjは最適値へ十分に収束しているように見られるが、被験者7は距離に関して近過ぎたと述べた。しかし、図19(A)〜(C)から分かるように、社会距離を除き被験者が許容する最も遠い距離近くに収束している。また、被験者7は、初期の印象としては「ためらった感じ」だったが、次第に「活発」になる印象を受けたと述べている。距離に関する印象が良くなかったのは、ロボット12はPGRLによる適応により、被験者7の好みに合わせてモーションの再生速度を上げていったが、最適距離の測定はモーションの再生速度を「1」で行ったためと考えられる。この場合、被験者7にとっての最適距離は、より遠かった可能性がある。
Subsequently, the case where the subject has converged (adapted) to the optimum value but was unhappy with some of the adaptations will be described. FIGS. 19A to 19F show adaptation of each parameter θ j of the
次に、一部のパラメータθjが最適値へ収束せず、被験者も一部の適応に不満を持った場合について説明する。5名の被験者(被験者1,3,4,6,11)については、一部のパラメータθjが最適値へ収束せず、各被験者もそれらのパラメータθjの適応結果については不満を述べた。図20(A)〜(F)は、被験者1に対するパラメータθjの変化の様子を示す。なお、この実験は、トラブルにより他の被験者よりも実験時間が21分間と短くなっている。
Next, a case will be described in which some parameters θ j do not converge to the optimum values and the subject is also dissatisfied with some adaptations. For five subjects (
図20(A)〜(C)を参照して分かるように、個体距離と社会距離とについては最適値へ収束しているが、親密距離については許容範囲に入っていない。これは、被験者1に対してロボット12が取った親密距離が許容範囲外にあり、どの距離に対しても被験者1はほぼ同じ振る舞いであったため、最適な距離に近付くようパラメータθjを変化することができなかったと考えられる。また、被験者1は親密距離が不適当であったと述べている。図20(D)に示すように、視線を合わせる頻度(注視時間)は、適応により約90%になっている。被験者1は、注視時間については、100%が最もよく、75%〜50%程度でもよいと述べたので、適当な値に収束していると言える。被験者1は、遅れ時間についてはあまり気にならないと述べ、再生速度についてはどの値でもよいと述べたため、親密距離以外はうまく適応したと言える。
As can be seen with reference to FIGS. 20A to 20C, the individual distance and the social distance converge to the optimum values, but the intimate distance is not within the allowable range. This is because the intimate distance taken by the
図21(A)〜(F)は、被験者3に対するパラメータθjの変化の様子を示す。被験者3は、「個体距離が実験の前半で不適当であった」と指摘した。このことは、図21(B)の個体距離のグラフと一致している。視線合わせ頻度(注視時間)については、図21(D)示すように、適応の結果は75%程度であり、最適値は100%であったが、被験者3は「十分に満足できた」と述べた。親密距離の適応結果は、ロボット12が安全のため人に接触しないように設けた下限の15(cm)になっている。この被験者3は、タイミング(遅れ時間)については許容範囲が広かったため、図21(E)に示すように、適応の結果は適当と言える。ただし、図21(F)に示すように、被験者3では、再生速度の適応結果が最適値から大きく離れている。また、被験者3は、再生速度は不適当だったと述べている。これは、被験者3は、モーションが速すぎると、ロボット12をじっと見る傾向があり、ロボット12が再生速度を上げ過ぎて、報酬が誤って大きくなったためと考えられる。
21A to 21F show how the parameter θ j changes with respect to the
最後に、上手く適応できなかった場合について説明する。図22(A)〜(F)は、被験者9に対するパラメータθjの変化の様子を示す。図22(A)〜(F)から分かるように、個人距離と視線合わせ頻度(注視時間)以外のパラメータθjは最適値から大きく離れている。被験者9は、「ロボビー(ロボット12)に嫌われていて、ロボビーはいやいや普通に振舞うよう努力している印象を受けた」と述べている。実験中の様子からは大きな問題があるとは観察されなかったが、被験者9が素直にロボット12に対して反応しなかった可能性がある。
Finally, the case where the adaptation was not successful will be described. 22A to 22F show how the parameter θ j changes with respect to the
以上より、ロボット12の個人適応の実現を確認することができた。また、適応したロボット12の振る舞いが自然に見えたという感想が被験者から得られている。個人適応は、より自然に人とインタラクションを行えるロボット12の実現への重要な要素の一つであり、この実施例における手法はその一歩となると言える。
From the above, it was possible to confirm the personal adaptation of the
この実施例によれば、RPGLによりロボットの振る舞いをインタラクション相手に合わせることができるので、人間同士がコミュニケーションするように、自然なコミュニケーションを実行することができる。 According to this embodiment, since the behavior of the robot can be matched to the interaction partner by RPGL, natural communication can be executed so that humans can communicate with each other.
なお、これらの実施例では、モーションキャプチャシステムを用いて、ロボットおよび人間の3次元位置とロボットおよび人間の視線方向とを検出するようにしたが、これは他のセンサを用いて検出することも可能である。たとえば、ロボットに、ステレオカメラ(イメージセンサ)や超音波センサを搭載すれば、超音波センサの出力やステレオカメラによる視差で、人間との距離を測定することができる。また、人間の顔の向きは、カメラの画像から顔の向きをパターンマッチングして検出することができる。ただし、超音波センサとしては、ロボットに搭載されている超音波距離センサを用いたりすることが可能である。 In these embodiments, the motion capture system is used to detect the three-dimensional position of the robot and the human and the direction of the line of sight of the robot and the human, but this may be detected using other sensors. Is possible. For example, if a stereo camera (image sensor) or an ultrasonic sensor is mounted on the robot, the distance from the human can be measured by the output of the ultrasonic sensor or the parallax from the stereo camera. Further, the orientation of the human face can be detected by pattern matching of the orientation of the face from the camera image. However, an ultrasonic distance sensor mounted on the robot can be used as the ultrasonic sensor.
また、この実施例では、方策勾配型強化学習により、インタラクションパラメータを更新するようにしたが、これに限定される必要はなく、他のアルゴリズムによって更新することもできる。たとえば、遺伝的アルゴリズムによりインタラクションパラメータを更新することができる。 In this embodiment, the interaction parameter is updated by the policy gradient reinforcement learning. However, the interaction parameter is not limited to this, and can be updated by another algorithm. For example, the interaction parameters can be updated by a genetic algorithm.
さらに、この実施例では、今回試すインタラクションパラメータΘiの決定処理)(図9)では、i番目に試すパラメータθjを決定する場合に、Δ(0,εj,−εj)を用いるようにしてあるが、これに限らず、乱数を用いることもできる。ただし、乱数を用いる場合には、これに従ってインタラクションパラメータΘの更新処理(図10)も変更する必要がある。 Further, in this embodiment, in the determination process of the interaction parameter Θ i to be tried this time (FIG. 9), Δ (0, ε j , −ε j ) is used when determining the i-th parameter θ j to be tried. However, the present invention is not limited to this, and a random number can be used. However, when a random number is used, it is necessary to change the update processing of the interaction parameter Θ (FIG. 10) accordingly.
さらにまた、この実施例では、対人距離として、親密距離、個体距離、社会距離を用いるようにしたが、これに限定されるべきではない。たとえば、握手専用の「握手距離」、挨拶用の「挨拶距離」のような他の距離を仮定して調整した方が良い結果が出る可能性がある。 Furthermore, in this embodiment, the intimate distance, the individual distance, and the social distance are used as the interpersonal distance, but should not be limited to this. For example, there is a possibility that a better result may be obtained by adjusting other distances such as “shake distance” for handshake and “greeting distance” for greeting.
10 …コミュニケーションロボットシステム
12 …コミュニケーションロボット
20 …モーションキャプチャシステム
38 …衝突センサ
42 …超音波距離センサ
52 …全方位カメラ
54 …眼カメラ
64 …タッチセンサ
76 …CPU
80 …メモリ
82 …モータ制御ボード
84 …センサ入力/出力ボード
86 …音声入力/出力ボード
88−96 …モータ
98 …通信LANボード
100 …無線通信装置
102 …データベース
DESCRIPTION OF
DESCRIPTION OF
Claims (6)
インタラクションについてのパラメータを設定するパラメータ設定手段、
前記パラメータ設定手段によって設定されたパラメータに従って発話および身体動作の少なくとも一方を含むインタラクションを実行するインタラクション実行手段、
インタラクション中における前記パラメータの適切度を検出する適切度検出手段、および
前記適切度検出手段によって検出された適切度を最適化する最適化手段を備える、コミュニケーションロボット。 A communication robot that interacts with humans,
Parameter setting means to set parameters for interaction,
Interaction executing means for executing an interaction including at least one of speech and physical movement according to the parameter set by the parameter setting means;
A communication robot, comprising: an appropriateness detection unit that detects an appropriateness of the parameter during an interaction; and an optimization unit that optimizes the appropriateness detected by the appropriateness detection unit.
インタラクション中において前記人間がコミュニケーションロボット自身の顔を見る時間を検出する時間検出手段をさらに備え、
前記適切度検出手段は、前記パラメータ設定手段によって設定されたパラメータでインタラクションを実行したときの前記行動距離検出手段および前記時間検出手段の少なくとも一方の検出結果に基づいて、当該パラメータの適切度を検出する、請求項1記載のコミュニケーションロボット。 A moving distance detecting means for detecting a moving distance of the human during the interaction; and a time detecting means for detecting a time during which the human looks at the face of the communication robot itself during the interaction,
The appropriateness detection means detects the appropriateness of the parameter based on the detection result of at least one of the action distance detection means and the time detection means when the interaction is executed with the parameter set by the parameter setting means. The communication robot according to claim 1.
インタラクションの開始時に前記人間を識別する人間識別手段をさらに備え、
前記パラメータ設定手段は、前記人間識別手段によって識別された人間に対応するパラメータが前記パラメータ記憶手段によって記憶されているとき、当該パラメータを設定し、前記人間識別手段によって識別された人間に対応するパラメータが前記パラメータ記憶手段によって記憶されていないとき、前記パラメータ記憶手段によって記憶されているすべてのパラメータの平均値を設定する、請求項1ないし5のいずれかに記載のコミュニケーションロボット。 Parameter storage means for storing the parameter corresponding to the person, and human identification means for identifying the person at the start of an interaction,
The parameter setting means sets the parameter when the parameter corresponding to the person identified by the person identification means is stored in the parameter storage means, and the parameter corresponding to the person identified by the person identification means 6. The communication robot according to claim 1, wherein when the parameter is not stored by the parameter storage unit, an average value of all the parameters stored by the parameter storage unit is set.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005066734A JP5120745B2 (en) | 2005-03-10 | 2005-03-10 | Communication robot |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005066734A JP5120745B2 (en) | 2005-03-10 | 2005-03-10 | Communication robot |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006247780A true JP2006247780A (en) | 2006-09-21 |
JP2006247780A5 JP2006247780A5 (en) | 2008-02-28 |
JP5120745B2 JP5120745B2 (en) | 2013-01-16 |
Family
ID=37088785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005066734A Active JP5120745B2 (en) | 2005-03-10 | 2005-03-10 | Communication robot |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5120745B2 (en) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008246665A (en) * | 2007-03-07 | 2008-10-16 | Matsushita Electric Ind Co Ltd | Action control unit, method and program |
JP2008254122A (en) * | 2007-04-05 | 2008-10-23 | Honda Motor Co Ltd | Robot |
JP2009045692A (en) * | 2007-08-20 | 2009-03-05 | Saitama Univ | Communication robot and its operating method |
JP2009166184A (en) * | 2008-01-17 | 2009-07-30 | Saitama Univ | Guide robot |
JP2010110864A (en) * | 2008-11-06 | 2010-05-20 | Nec Corp | Robot system and method and program for activating communication |
JP2010110862A (en) * | 2008-11-06 | 2010-05-20 | Nec Corp | Communication robot system and method and program for controlling communication robot |
JP2011000681A (en) * | 2009-06-19 | 2011-01-06 | Advanced Telecommunication Research Institute International | Communication robot |
CN102245356A (en) * | 2008-12-10 | 2011-11-16 | Abb研究有限公司 | Method and system for in-production optimization of the parameters of a robot used for assembly |
JP2012076162A (en) * | 2010-09-30 | 2012-04-19 | Waseda Univ | Conversation robot |
WO2014162162A1 (en) * | 2013-04-01 | 2014-10-09 | Tosy Robotics Joint Stock Company | Sound system for humanoid robot |
WO2014162161A1 (en) * | 2013-04-01 | 2014-10-09 | Tosy Robotics Joint Stock Company | Shoulder and arm arrangement for a humanoid robot |
US9020643B2 (en) | 2011-12-01 | 2015-04-28 | Sony Corporation | Robot apparatus, control method thereof, and computer program |
CN105437211A (en) * | 2015-12-11 | 2016-03-30 | 塔米智能科技(北京)有限公司 | Double-expression service robot |
WO2016170808A1 (en) * | 2015-04-22 | 2016-10-27 | ソニー株式会社 | Moving body control system, control method, and storage medium |
WO2017141575A1 (en) * | 2016-02-15 | 2017-08-24 | オムロン株式会社 | Contact determination device, control device, contact determination system, contact determination method, and contact determination program |
JPWO2017187620A1 (en) * | 2016-04-28 | 2018-11-22 | 富士通株式会社 | robot |
CN109531565A (en) * | 2018-08-27 | 2019-03-29 | 苏州博众机器人有限公司 | A kind of control method of mechanical arm, device, service robot and storage medium |
JP2019053593A (en) * | 2017-09-15 | 2019-04-04 | 富士通株式会社 | Policy improvement program, policy improvement method, and policy improvement device |
JP2019084641A (en) * | 2017-11-08 | 2019-06-06 | 学校法人早稲田大学 | Autonomous mobile robot, and control device and operation control program of the same |
JP2021009393A (en) * | 2020-09-09 | 2021-01-28 | カシオ計算機株式会社 | Learning support device, learning support system, learning support method, robot, and program |
JP2021064067A (en) * | 2019-10-10 | 2021-04-22 | 沖電気工業株式会社 | Apparatus, information processing method, program, information processing system, and method of information processing system |
WO2023017745A1 (en) * | 2021-08-10 | 2023-02-16 | 本田技研工業株式会社 | Communication robot, communication robot control method, and program |
JP7312511B1 (en) | 2023-02-17 | 2023-07-21 | 独立行政法人国立高等専門学校機構 | Behavior control method, behavior control program, behavior control device, and communication robot |
WO2024004622A1 (en) * | 2022-06-29 | 2024-01-04 | ソニーグループ株式会社 | Robot, and robot control method |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107486863B (en) * | 2017-08-18 | 2020-04-17 | 南京阿凡达机器人科技有限公司 | Robot active interaction method based on perception |
CN112223308B (en) * | 2020-09-30 | 2021-07-20 | 江苏迪迪隆机器人科技发展有限公司 | Bionic robot motion control method and system |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004230480A (en) * | 2003-01-28 | 2004-08-19 | Sony Corp | Robot device and robot control method, recording medium, and program |
JP2004252111A (en) * | 2003-02-19 | 2004-09-09 | Sony Corp | Learning system and method, and robot apparatus |
JP2004283958A (en) * | 2003-03-20 | 2004-10-14 | Sony Corp | Robot device, method of controlling its behavior and program thereof |
JP2004295766A (en) * | 2003-03-28 | 2004-10-21 | Sony Corp | Robot apparatus and user authentication method through robot |
-
2005
- 2005-03-10 JP JP2005066734A patent/JP5120745B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004230480A (en) * | 2003-01-28 | 2004-08-19 | Sony Corp | Robot device and robot control method, recording medium, and program |
JP2004252111A (en) * | 2003-02-19 | 2004-09-09 | Sony Corp | Learning system and method, and robot apparatus |
JP2004283958A (en) * | 2003-03-20 | 2004-10-14 | Sony Corp | Robot device, method of controlling its behavior and program thereof |
JP2004295766A (en) * | 2003-03-28 | 2004-10-21 | Sony Corp | Robot apparatus and user authentication method through robot |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4682217B2 (en) * | 2007-03-07 | 2011-05-11 | パナソニック株式会社 | Behavior control apparatus, method, and program |
JP2008246665A (en) * | 2007-03-07 | 2008-10-16 | Matsushita Electric Ind Co Ltd | Action control unit, method and program |
JP2008254122A (en) * | 2007-04-05 | 2008-10-23 | Honda Motor Co Ltd | Robot |
JP2009045692A (en) * | 2007-08-20 | 2009-03-05 | Saitama Univ | Communication robot and its operating method |
JP2009166184A (en) * | 2008-01-17 | 2009-07-30 | Saitama Univ | Guide robot |
JP2010110864A (en) * | 2008-11-06 | 2010-05-20 | Nec Corp | Robot system and method and program for activating communication |
JP2010110862A (en) * | 2008-11-06 | 2010-05-20 | Nec Corp | Communication robot system and method and program for controlling communication robot |
CN102245356A (en) * | 2008-12-10 | 2011-11-16 | Abb研究有限公司 | Method and system for in-production optimization of the parameters of a robot used for assembly |
CN102245356B (en) * | 2008-12-10 | 2017-04-05 | Abb研究有限公司 | For optimizing the method and system of the parameter of the robot for assembling in production |
JP2011000681A (en) * | 2009-06-19 | 2011-01-06 | Advanced Telecommunication Research Institute International | Communication robot |
JP2012076162A (en) * | 2010-09-30 | 2012-04-19 | Waseda Univ | Conversation robot |
US9020643B2 (en) | 2011-12-01 | 2015-04-28 | Sony Corporation | Robot apparatus, control method thereof, and computer program |
WO2014162162A1 (en) * | 2013-04-01 | 2014-10-09 | Tosy Robotics Joint Stock Company | Sound system for humanoid robot |
WO2014162161A1 (en) * | 2013-04-01 | 2014-10-09 | Tosy Robotics Joint Stock Company | Shoulder and arm arrangement for a humanoid robot |
US10613538B2 (en) | 2015-04-22 | 2020-04-07 | Sony Corporation | Mobile body control system, control method, and storage medium |
WO2016170808A1 (en) * | 2015-04-22 | 2016-10-27 | ソニー株式会社 | Moving body control system, control method, and storage medium |
US11385647B2 (en) | 2015-04-22 | 2022-07-12 | Sony Corporation | Mobile body control system, control method, and storage medium |
CN105437211A (en) * | 2015-12-11 | 2016-03-30 | 塔米智能科技(北京)有限公司 | Double-expression service robot |
WO2017141575A1 (en) * | 2016-02-15 | 2017-08-24 | オムロン株式会社 | Contact determination device, control device, contact determination system, contact determination method, and contact determination program |
US10695919B2 (en) | 2016-02-15 | 2020-06-30 | Omron Corporation | Contact determination device, control device, contact determination system, contact determination method, and non-transitory computer-readable recording medium |
JPWO2017187620A1 (en) * | 2016-04-28 | 2018-11-22 | 富士通株式会社 | robot |
US11331808B2 (en) | 2016-04-28 | 2022-05-17 | Fujitsu Limited | Robot |
JP2019053593A (en) * | 2017-09-15 | 2019-04-04 | 富士通株式会社 | Policy improvement program, policy improvement method, and policy improvement device |
JP2019084641A (en) * | 2017-11-08 | 2019-06-06 | 学校法人早稲田大学 | Autonomous mobile robot, and control device and operation control program of the same |
JP7036399B2 (en) | 2017-11-08 | 2022-03-15 | 学校法人早稲田大学 | Autonomous mobile robots, their control devices and motion control programs |
CN109531565B (en) * | 2018-08-27 | 2023-11-03 | 苏州博众智能机器人有限公司 | Control method and device of mechanical arm, service robot and storage medium |
CN109531565A (en) * | 2018-08-27 | 2019-03-29 | 苏州博众机器人有限公司 | A kind of control method of mechanical arm, device, service robot and storage medium |
JP7392377B2 (en) | 2019-10-10 | 2023-12-06 | 沖電気工業株式会社 | Equipment, information processing methods, programs, information processing systems, and information processing system methods |
JP2021064067A (en) * | 2019-10-10 | 2021-04-22 | 沖電気工業株式会社 | Apparatus, information processing method, program, information processing system, and method of information processing system |
JP7078082B2 (en) | 2020-09-09 | 2022-05-31 | カシオ計算機株式会社 | Learning support device, learning support system, learning support method, robot and program |
JP2021009393A (en) * | 2020-09-09 | 2021-01-28 | カシオ計算機株式会社 | Learning support device, learning support system, learning support method, robot, and program |
WO2023017745A1 (en) * | 2021-08-10 | 2023-02-16 | 本田技研工業株式会社 | Communication robot, communication robot control method, and program |
WO2024004622A1 (en) * | 2022-06-29 | 2024-01-04 | ソニーグループ株式会社 | Robot, and robot control method |
JP7312511B1 (en) | 2023-02-17 | 2023-07-21 | 独立行政法人国立高等専門学校機構 | Behavior control method, behavior control program, behavior control device, and communication robot |
Also Published As
Publication number | Publication date |
---|---|
JP5120745B2 (en) | 2013-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5120745B2 (en) | Communication robot | |
CN110900617B (en) | Robot and method for operating the same | |
US11348300B2 (en) | Avatar customization for optimal gaze discrimination | |
JP4822319B2 (en) | Communication robot and attention control system using the same | |
JP7400923B2 (en) | Information processing device and information processing method | |
JP5732632B2 (en) | Robot system and space formation recognition device used therefor | |
JP5429462B2 (en) | Communication robot | |
JP6572943B2 (en) | Robot, robot control method and program | |
JP2004078316A (en) | Attitude recognition device and autonomous robot | |
JP7351383B2 (en) | Information processing device, information processing method, and program | |
KR20060079832A (en) | Humanoid robot using emotion expression based on the embedded system | |
JP4435212B2 (en) | Posture recognition device and autonomous robot | |
JP7205148B2 (en) | ROBOT, CONTROL METHOD AND PROGRAM | |
US20180376069A1 (en) | Erroneous operation-preventable robot, robot control method, and recording medium | |
JP2004230479A (en) | Communication robot and communication system using the same | |
JP4399603B2 (en) | Communication robot | |
WO2019087478A1 (en) | Information processing device, information processing method, and program | |
JP2024023193A (en) | Information processing device and information processing method | |
JP4617428B2 (en) | Motion generation system | |
JP2005131713A (en) | Communication robot | |
JP2018051701A (en) | Communication apparatus | |
JP2006205343A (en) | Communication robot system, and robot control device | |
JP2004034274A (en) | Conversation robot and its operation method | |
WO2019123744A1 (en) | Information processing device, information processing method, and program | |
JP7363809B2 (en) | Information processing device, information processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080110 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080110 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100727 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100909 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110406 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110927 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111215 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20111226 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20120127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120910 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121012 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151102 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5120745 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |