JP7328463B1

JP7328463B1 - ロボットシステム、ロボットの制御装置、及びロボットの制御方法

Info

Publication number: JP7328463B1
Application number: JP2022563038A
Authority: JP
Inventors: 忠幸松村; 佳奈子江▲崎▼; 弘之水野
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2023-08-16
Anticipated expiration: 2041-11-12
Also published as: JPWO2023084745A1; WO2023084745A1; US20240061431A1

Abstract

ロボットシステムであって、計算機によって制御されるロボットを備え、ロボットは制御装置と観測装置とを有し、計算機は、観測装置が観測した観測情報を用いて、周囲に存在する複数の物体を検出し、検出された複数の物体の各々の第１の状態情報を保持し、物体の将来の状態を予測するための第１のモデルを用いて、第１の状態情報から検出された複数の物体の将来の状態を予測し、検出された複数の物体が観測する周囲の第２の状態情報を生成し、第１のモデルを用いて、第２の状態情報からロボットの将来の状態を予測し、与えられた行動目標と、予測された複数の物体の将来の状態と、予測されたロボットの将来の状態とに基づいて、ロボットの将来の行動を決定する。

Description

本発明は、人とロボットが同一環境下で稼働する際の、ロボット及びその制御に関する。

自動運転車や、ショッピングモールや空港などにおける巡視ロボットや案内ロボット、人とコミュニケーションする会話ロボットなど、人が生活する空間内で、人と共生する自律ロボットが開発されている。人と共生するロボットの制御においては、ロボットの行動目標に対して最適化された行動を生成するのではなく、周囲の人や他のロボットが期待している行動を考慮した適切な行動の生成が望ましい。例えば、自律移動ロボットの移動制御においては、経路長の最短化や、所要時間の最小化だけでなく、周囲の人や他のロボットの安全を考慮して自己との距離に余裕を持った経路や走行速度を期待する場合、それらの期待に応える移動制御が望まれる。

周囲の人のロボットに対する期待を考慮してロボットの移動経路を決定する方法として、例えば、非特許文献１に記載の技術が知られている。非特許文献１では、推定した歩行者の感情に従って歩行者とロボットの間に保つべき距離を計算し、計算された距離を考慮して移動経路を生成する。

また、コミュニケーションロボットの制御において、コミュニケーション相手の人がロボットに期待する行動の優先度を考慮して行動を生成する方法として、例えば、特許文献１に記載の技術が知られている。特許文献１には、ロボット装置における行動選択制御システムは、複数の行動から特定の行動を選択して出力可能な状況依存行動階層（ＳＢＬ）を有し、行動選択のために、各行動の実行優先度を示す行動価値（ＡＬ）を算出するＡＬ算出部を有する。このＡＬ算出部は、自己及びインタラクション対象となる他者を基準にして行動の実行優先度を示すそれぞれ自己ＡＬ及び他者ＡＬを算出するそれぞれ自己ＡＬ算出部及び他者ＡＬ算出部と、自己ＡＬ及び他者ＡＬを自己の状態を重視するか他者の状態を重視するかを決定するパラメータにより重み付けして加算し、最終的なＡＬを出力するＡＬ統合部とを有する行動制御システムが記載されている。

特開２００５－１９９４０２号公報

Narayanan, Venkatraman, et al. "ProxEmo: Gait-Based Emotion Learning and Multi-View Proxemic Fusion for Socially-Aware Robot Navigation." 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2020, pp. 8200-8207. Eslami, S. M.Ali, et al. "Neural Scene Representation and Rendering." Science, vol. 360, no. 6394, 2018, pp. 1204-1210.

人のロボットに対する期待は、ロボットが実行する仕事（タスク）によって異なるため、人のロボットに対する期待をロボットのタスク毎に定義する必要があるという設計コストの課題がある。また、タスク毎に、人のロボットに対する期待を定義する必要があるため、あるタスクを想定して設計されたロボットの別のタスクへの転用が困難であるというロボット適用の汎用性の課題がある。特許文献１に記載された方法は、予め設計されたデータベースを用いて、推定された人の状態をロボットに期待される行動の優先度に変換するため、人の状態とロボットに期待される行動の関係の定義が必要であり、人の感情毎に期待行動を設計するコストの課題、及び他のタスクへのロボットの適用が困難であるという課題がある。非特許文献１に記載の方法は、予め設計した計算式を用いて、推定された人の感情を人とロボットの間に確保するべき距離に変換するため、人のロボットに対する期待を人とロボットの間の距離以外の表現で表現できず、他のタスクへの適用が困難であるという課題がある。

本発明は、ロボットに与えられるタスクによらず、汎用的に多用途に適用可能な、周囲の人やロボットの期待を考慮したロボットの行動の実現を目的とする。

本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、ロボットシステムであって、計算機によって制御されるロボットを備え、前記ロボットは、前記計算機に接続され、前記ロボットの行動を制御する制御装置と、前記計算機に接続され、前記ロボットの周囲を観測する観測装置とを有し、前記計算機は、プログラムを実行する演算装置、前記演算装置に接続される記憶装置、前記演算装置に接続されるインタフェースを有しと、前記観測装置が観測した観測情報を用いて、周囲に存在する複数の物体を検出し、前記検出された複数の物体の各々の第１の状態情報を保持し、物体の将来の状態を予測するための第１のモデルを用いて、前記第１の状態情報から前記検出された複数の物体の将来の状態を予測し、前記検出された複数の物体が観測する周囲の第２の状態情報を生成し、前記第１のモデルを用いて、前記第２の状態情報から前記ロボットの将来の状態を予測し、与えられた行動目標と、前記予測された複数の物体の将来の状態と、前記予測されたロボットの将来の状態とに基づいて、前記ロボットの将来の行動を決定し、行動を制御することを特徴とする。

本発明の一態様によれば、ロボットに与えられるタスクによらず、汎用的に多用途に適用可能な、周囲の人やロボットの期待を考慮したロボットの行動を実現できる。前述した以外の課題、構成及び効果は、以下の実施例の説明によって明らかにされる。

実施例１の自律ロボットのハードウェア構成の一例を示す図である。実施例１の計算機の機能構成の一例を示す図である。実施例１の自律ロボットの稼働状況の一例を示す図である。図３の状況における自律ロボットが取得する後方の観測画像の一例を示す図である。図３の状況における自律ロボットが取得する前方の観測画像の一例を示す図である。図３の状況における自律ロボットの周囲の物体の位置情報の一例を示す図である。将来状態予測部の構成例を示す図である。図３に示す例における自律ロボットの自己状態情報の一例を示す図である。図３に示す例における他者の状態情報の一例を示す図である。将来状態予測部に与える自己と他者の第２の場合を示す図である。第１の場合で生成される予測情報を示す図である。第２の場合で生成される予測情報を示す図である。行動決定部が、自己予測情報、他者予測情報、及び他者自己予測情報と、外部から入力される行動目標情報から行動を選択する方法を示す図である。複数時刻の予測情報に基づいて行動を決定する場合を示す図である。実施例２の計算機の機能構成の一例を示す図である。実施例３の計算機の機能構成の一例を示す図である。他者行動推論部の構成の一例を示す図である。実施例４の計算機の機能構成の一例を示す図である。

以下、本発明の実施例を、図面を参照して説明する。ただし、本発明は以下に示す実施例に限定して解釈されるものではない。本発明の技術的思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解できる。

以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。本明細書等における「第１」、「第２」、「第３」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。図面等において示す各構成の位置、大きさ、形状、及び範囲等は、発明の理解を容易にするため、実際の位置、大きさ、形状、及び範囲等を表していない場合がある。従って、本発明では、図面等に開示された位置、大きさ、形状、及び範囲等に限定されない。

＜実施例１＞
図１は、実施例１の自律ロボットのハードウェア構成の一例を示す図である。

自律ロボットは、計算機１００、入力装置１１１、出力装置１１２、観測装置１１３、及び制御装置１１４を有する。計算機１００は、図示したように、自律ロボット内に実装されてもよいし、自律ロボットとは別体に実装されてもよい。

計算機１００は、プロセッサ１０１、メモリ１０２、補助記憶装置１０３、ネットワークインタフェース１０４、及び入出力インタフェース１０５を有する。各ハードウェア要素はバスを介して互いに接続される。

プロセッサ１０１は、計算機１００全体を制御する演算装置であり、メモリ１０２に格納されるプログラムを実行する。プロセッサ１０１がプログラムに従って処理を実行することによって、特定の機能を実現する機能部（モジュール）として動作する。以下の説明では、機能部を主語に処理を説明する場合、プロセッサ１０１が当該機能部を実現するプログラムを実行していることを示す。

メモリ１０２は、プロセッサ１０１が実行するプログラム及びプログラムが実行時に使用する情報を格納する記憶装置である。メモリ１０２はワークエリアとしても使用される。

補助記憶装置１０３は、データを永続的に格納する記憶装置であり、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）及びＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等である。メモリ１０２に格納されるプログラム及び情報は、補助記憶装置１０３に格納されてもよい。この場合、プロセッサ１０１が補助記憶装置１０３からプログラム及び情報を読み出し、メモリ１０２にロードする。

ネットワークインタフェース１０４は、ネットワークを介して外部装置と接続するためのインタフェースである。

入出力インタフェース１０５は、入力装置１１１、出力装置１１２、観測装置１１３、及び制御装置１１４と接続するためのインタフェースである。

入力装置１１１は、キーボード、マウス、及びタッチパネル等であり、ユーザが計算機１００への指示を入力する。出力装置１１２は、ディスプレイ等であり、ユーザが計算機１００による演算結果を認識可能に出力する。自律ロボットがコミュニケーションロボットである場合、出力装置１１２は音を出力するスピーカを含んでもよい。観測装置１１３は、画像及び動画データを取得する撮影装置、深度カメラ、ミリ波レーダー、ＬｉＤＡＲ（ＬｉｇｈｔＤｅｔｅｃｔｉｏｎａｎｄＲａｎｇｉｎｇ）等、の自律ロボットの周囲環境を観測する装置、位置、ステアリング状態、アクセル状態等のロボットの状態を検出する装置である。自律ロボットがコミュニケーションロボットである場合、観測装置１１３は音を取得するマイクロフォン等を含んでもよい。制御装置１１４は、ロボットのステアリング角や、アクセル等を制御する装置である。

図２は、実施例１の計算機１００の機能構成の一例を示す図である。

自律ロボットは、他者検出・トラッキング部２００、他者観測情報生成部２１０、モデル入力情報生成部２２０、将来状態予測部２３０、及び行動決定部２４０を有する。自律ロボットは、外部から観測情報２５０、及び行動目標情報２６０が入力され、行動情報２７０を出力する。また、自律ロボットは、分類定義情報２８０、他者重み情報２８１、及びモデル情報２８２を保持する。

観測情報２５０は、ロボットの状態及びロボットの周囲を観測した結果であり、例えば、ＧＮＳＳによるロボットの位置情報や、ロボットのバッテリの残量情報や、ロボットの周囲を撮影した観測画像、ＬｉＤＡＲが取得した点群情報等を含む。

他者検出・トラッキング部２００は、観測情報に含まれる観測画像中の人や他のロボットなどの周囲の物体を検出し、トラッキングする。本明細書では、特定の人やロボットを自己又は自身とした時に、当該自己である人やロボットの周囲の人やロボットを他者と称する。他者検出・トラッキング部２００は、他者のトラッキングが不要な場合には、検出機能のみで構成できる。分類定義情報２８０は、検出された他者を分類するために参照される情報である。例えば、分類定義情報２８０は、物体分類器の定義情報であり、検出した他者が人であるかロボットであるか等の分類情報を表す。

他者観測情報生成部２１０は、検出された他者の観測情報を推論によって生成する、又は、他者がロボットなど通信可能な相手である場合、外部通信によって他者の観測情報を取得してもよい。また、他者観測情報生成部２１０は、複数地点から撮影された二次元又は三次元の画像から三次元マップを構成し、構成された三次元マップから他者観測情報を生成してもよい。

モデル入力情報生成部２２０は、生成又は取得した観測情報を、将来状態予測部２３０のモデルに入力可能な形式に変換する。

将来状態予測部２３０は、入力される観測情報の将来の情報を予測する。モデル情報２８２は、将来状態予測部２３０のモデルの構成情報である。例えば、モデル情報２８２は、ニューラルネットワークの構成情報や、学習済みパラメータ情報等を含む。

行動決定部２４０は、外部から入力される行動目標情報２６０、将来状態予測部２３０が生成する自ロボットの観測情報の予測情報、及び他者の観測情報の予測情報に従って行動情報２７０を決定する。他者重み情報２８１は、物体の種別及び特徴を含む情報であり、他者の種別ごとに重み付け操作をするために参照される。行動情報２７０は、ロボットのステアリング角や、アクセルの制御信号である。

本実施例では、学習済みのモデルを使用して行動を決定する方法について説明するが、モデルの学習方法については説明していない。モデルの学習は、観測及び行動の履歴を入出力情報として、一般的にモデルの学習に適用される方法を用いて学習する。例えば、モデルがニューラルネットワークである場合、誤差逆伝播法などを用いて学習できる。自律ロボットの観測及び行動の履歴情報を稼働中（オンライン）に取得、及び保持し、稼働中の適切なタイミングでモデルを再学習する構成でもよい。この場合、学習データとなる入出力情報を保持するためのストレージ、及び学習を実行するための機能を自律ロボットは含む構成となる。

図３は、実施例１の自律ロボットの稼働状況の一例を示す図である。図３には、制御対象である自律ロボット３００が存在する。自律ロボット３００の後方に、自律ロボット３００と同じ方向に移動している他のロボット３０１、及び自律ロボット３００と反対方向に移動している人３０２が存在する。また、自律ロボット３００の前方に、自律ロボット３００と対向する方向に移動している人３０３及び他のロボット３０４が存在する。自律ロボットは前方に設定された所与の目的地に向けて移動する。

実施例１では、自律ロボット３００は、前方、及び後方の画像を観測装置１１３によって常に取得する。また、自律ロボット３００はＬｉＤＡＲ、深度センサ、又はミリ波センサによって、前方及び後方の物体までの距離を常に計測している。図４Ａは、図３の状況における自律ロボット３００が取得する後方を観測した画像情報４０１の一例を示す図であり、図４Ｂは、図３の状況における自律ロボット３００が取得する前方を観測した画像情報４０２の一例を示す図であり、図４Ｃは、図３の状況における自律ロボット３００の周囲の物体の位置情報４１０の一例を示す図である。

観測装置１１３のＬｉＤＡＲが取得する取得情報は点群データであり、また、深度カメラが取得する取得情報は深度情報が付与された２次元画像である。これらの観測装置１１３が直接取得する取得情報は、周囲の物体の位置情報４１０に示す形式の物体毎の情報ではなく、周囲の物体の位置情報４１０は、ＬｉＤＡＲ、深度カメラ、観測画像などの観測情報を統合することで生成される。本明細書では、説明の容易化のため、観測情報の統合処理を観測装置１１３に含め、観測装置１１３により、周囲の物体の位置情報４１０が取得されるとして説明する。周囲の物体の位置情報４１０には、自己である自律ロボット３００を原点とし、周囲の人やロボットの位置が２次元座標（Ｘ座標、Ｙ座標）で表示される例を示す。実施例１では、二次元情報として各物体の位置を表しているが、高さ方向を含めた三次元空間上の位置として表してもよい。

図５は、将来状態予測部２３０の構成例を示す図である。将来状態予測部２３０は、予測モデル５００を有する。

予測モデル５００は、自己の現在の状態を表す自己状態情報５０１、自己が仮にとったとする行動を表す行動候補情報５０２、及び複数の他者の現在の状態を表す他者状態情報５０３を入力とし、自己の将来の状態の予測情報である自己状態予測情報５０４、及び他者の将来の状態の予測情報である他者状態予測情報５０５を出力する。予測モデル５００は、例えば、ニューラルネットワークは、複数の物体を頂点（ノード）とし、物体間の関係性を枝（エッジ）とするグラフ表現を扱うことが可能なグラフニューラルネットワークなどで構成できる。また、点群を扱うニューラルネットワーク、通常の多層ニューラルネットワーク、及びニューラルネットワークではない時系列モデルなどの確率モデルも使用できる。予測モデル５００は、一つの予測値を予測するモデルではなく、確率分布として予測するベイズモデルによって構成できる。例えば、将来の位置を確率分布として予測する場合、将来、周囲の各位置に、対象のロボットや人が存在する確率として予測情報を出力する。

予測モデル５００は、自己の行動と、その時の自己及び他者の状態の観測の履歴情報を用いて学習する。学習は、計算機１００の稼働前に実施するとよく、また、稼働中に得られる観測情報から、適時オンラインで学習してモデルを更新してもよい。

実施例１では、将来状態予測部２３０に入力する自己と他者を、二つの異なる場合に適用する。

第１の場合では、図４Ｃに示すように、自律ロボット３００を自己とし、自律ロボット３００の周囲の人３０２、３０３及びロボット３０１、３０４を他者とする。

図６Ａは、図３に示す例における自律ロボットの自己状態情報５０１の一例を示す図であり、図６Ｂは、図３に示す例における他者状態情報５０３の一例を示す図である。

自己状態情報５０１は、現在の時刻をｔとした場合に、物体ＩＤ６０１、時刻ｔ－１の位置６０２、及び時刻ｔの位置６０３を含む。本実施例では、時刻ｔ－１、ｔの２時刻分の情報を使用する例を示すが、３時刻分以上の情報を用いてもよい。また、本実施例では、自己状態として位置を使用する場合を説明するが、速度や、加速度や、ステアリング角や、方位角などの情報を自己状態として使用してもよい。位置は、現在の位置からの相対値で表現されるとよい。

他者状態情報５０３は、物体ＩＤ６１１、時刻ｔ－１の位置６１２、時刻ｔの位置６１３、及び物体の種類６１４を含む。実施例１では、複数時刻で物体の位置を計算するため、他者検出・トラッキング部２００は、物体検出、及びトラッキング機能を有する。位置は、自律ロボットの現在の時刻ｔの位置からの相対値で表現される。物体の種類とは、例えば、物体が人であるか車であるか等の情報である。自己状態情報５０１と同様に、３時刻分以上の位置情報を用いてもよい。また、自己状態情報５０１と同様に、速度や、加速度を自己状態としてもよい。

自己状態情報５０１及び他者状態情報５０３は、モデル入力情報生成部２２０により、観測情報２５０、他者検出・トラッキング部２００の処理情報から生成される。予測モデル５００としてグラフニューラルネットワークを用いる場合、各物体間の関係性を枝（エッジ）情報として付与してもよい。例えば、物体の種類や、物体間の距離に従って、エッジ情報を付与できる。

本実施例では、観測情報内の全ての他者を対象とする場合を説明するが、予め予測対象の物体を定めて、対象外の物体を予測対象から除いてもよい。例えば、分類定義情報２８０により定められる物体の種類に従い、対象外とする物体を指定する。また、制御対象の自律ロボットとの距離に応じて、予測対象の物体を選択してもよい。例えば、自律ロボットとの距離が所定値以内の物体を予測対象とし、それ以外の物体を予測対象から除いてもよい。予測対象の取捨選択は、モデル入力情報生成部２２０が行うとよい。分類定義情報を用いた判別結果によって予測対象を限定することで、大量の他者が周囲に存在する場合における計算コストの削減や、予測モデル５００のパラメタ数を削減することによる予測モデルの学習性の向上効果が期待される。

行動候補情報５０２は、例えば、自律ロボットのステアリング角、アクセル量などの制御信号である。

例えば、予測モデル５００は、現在の自己、及び他者の状態と、仮に、自己が、ステアリングを右に３０°操舵し、アクセル１０％の出力で駆動する場合に、自己、及び他者の将来の状態を予測する。

第２の場合は、第１の場合において他者となる周囲の人やロボットの一つを自己として、自己とされた人やロボットの周囲の人及びロボットを他者とする。第２の場合には、制御対象である自律ロボット３００は、周囲の人やロボットの他者の一つとして扱われる。図７は、将来状態予測部２３０に与える自己と他者の第２の場合を示す図である。

自律ロボット３００を自己とする場合の例（図４Ｃに示す位置情報４１０）に対し、図７は、自律ロボット３００の周囲の人３０３を自己とする場合の例を示す。以降の説明は、周囲の人３０２及び周囲のロボット３０１、３０４を自己とする場合にも同様に考えられる。

第２の場合において、モデル入力情報生成部２２０は、自己及び他者の観測情報を人３０３を自己とする観測情報に変換する。例えば、観測情報が、周囲の他者の位置情報４１０（図４Ｃ）である場合、中心座標を自律ロボット３００から、人３０３に移動することで、人３０３を自己とする場合の、周囲の他者の位置情報７１０を生成する。自己が人３０３であるとして、変換された観測情報に従い、第１の場合と同様に、モデル入力情報生成部２２０は、予測モデル５００に入力する自己状態情報５１０及び他者状態情報５０３を生成する。

予測モデル５００を用いて将来状態を予測するには、自己の行動候補情報５０２を入力する必要がある。ただし、制御対象である自律ロボット３００以外の物体が自己である場合には、他者が選択する適切な行動は不明である。実施例１では、他者の行動候補情報５０２として、行動を取らない場合を想定する。行動を取らない場合とは、例えば、ステアリング角は変更されず、アクセルの制御も変化しない場合などが例として考えられる。また、別の方法として、ランダムに生成した複数の行動予測の平均を採用しても、全ての行動予測を知り得る場合には、全ての行動予測の平均を採用してもよい。

以上により生成する情報によって、自律ロボット３００の周囲の人や、ロボットのそれぞれを自己とした場合の予測情報を出力できる。

以上により、予測モデル５００を、二つの場合に対して適用することで、異なる種類の予測情報を生成できる。図８Ａ、図８Ｂは、それぞれ、第１の場合及び第２の場合で生成される予測情報を示す図である。

第１の場合の予測により、自律ロボット３００を自己とした場合の、自律ロボット３００の将来の状態の予測情報である自己予測情報８０１が生成される。また、第１の場合の予測により、自律ロボット３００を自己とした場合の、自律ロボット３００が、周囲の他者に対して予測する将来の状態である他者予測情報８０２が生成される。次に、第２の場合の予測により、自律ロボット３００の周囲の人やロボットの一つを自己とした場合に、当該の他者が、自律ロボット３００に対して予測する将来の状態である他者自己予測情報８０３が生成される。他者自己予測情報８０３は、自律ロボット３００の周囲の人や、ロボット、それぞれに対して生成される。例えば、図３の状況では、周囲の人３０２、３０３、及び周囲のロボット３０１、３０４、の４つの他者に対して、他者自己予測情報８０３が生成される。

実施例１は、人と共生する自律ロボットにおいて、人の自律ロボットに対する期待を、人が予測する自律ロボットの将来の状態として考えることによって、自律ロボットの適用タスクに依存しない汎用的な表現が可能となり、自律ロボットの適用タスク毎に、人の期待と自律ロボットの行動を定義する設計コストの上昇を抑制できる。

実施例１では、自律ロボット３００が、自律ロボット３００の周囲の特定の他者が、自律ロボット３００の将来の状態を予測するためにも、周囲の他者を予測するための予測モデル５００を使用する。つまり、予測モデル５００は、自己が自律ロボット３００の場合も、自己が自律ロボット３００の周囲の人及びロボットである場合も、同じ予測モデル５００を用いて予測する。これは、他者推論の仕組みの仮説であるミラーシステム（シミュレーション仮説とも呼ばれる）の考え方に基づくものである。ミラーシステムは、他者推論は、自身の身体を用いて他者の感情、認知をシミュレーションすることで実現される、とする。実施例１は、自律ロボット３００の周囲の他者の予測を生成するために、自律ロボット３００が自己である場合と同じ予測モデル５００を使用して、かつ、他者の観測情報を予測モデル５００へ入力することで、自身のモデルによって他者の予測をシミュレーションしている。

行動決定部２４０は、将来状態予測部２３０が生成する、自己予測情報８０１、他者予測情報８０２、及び他者自己予測情報８０３と、外部から入力される行動目標情報２６０に従って、行動を選択する。図９は、行動決定部２４０が、自己予測情報８０１、他者予測情報８０２、及び他者自己予測情報８０３と、外部から入力される行動目標情報２６０から行動を選択する方法を示す図である。実施例１では、自己予測情報８０１、他者予測情報８０２、及び他者自己予測情報８０３は、確率分布として生成され、行動目標情報２６０も確率分布として与えられる場合について説明する。行動目標情報２６０を確率分布として与える方法は、例えば、所与の目的地への移動が行動目標である場合、目的地のＧＮＳＳ情報によって定まる座標情報から、目標地点をピークとする正規分布で与える方法が一例として考えられる。図９において、自己及び他者の状態である位置は、図示の容易化のため１次元上の位置として図示するが、図３の場合のように、位置情報が２次元の場合には、２次元空間上の位置を示す確率分布として考えるとよい。

行動決定部２４０は、将来状態予測部２３０が生成する、自己予測情報８０１、他者予測情報８０２、及び他者自己予測情報８０３を受け取る。行動決定部２４０は、行動候補毎に、その行動を取った場合の自己予測情報８０１と行動目標情報２６０の差（距離）を表す行動目標差９０１を計算する。行動目標差９０１は、ある行動を取った際に、自己の将来の状態が、行動目標の状態にどれくらい近づいているかを表す量である。また、行動決定部２４０は、自己予測情報８０１と他者自己予測情報８０３の差（距離）を表す他者期待差９０２を計算する。他者期待差９０２は、ある行動を取った際に、自己の将来の状態が、他者が自身に対して予測している状態にどれくらい近づいているかを表す量である。複数の他者が存在する場合、それぞれの他者について他者期待差９０２が計算される。

また、行動決定部２４０は、他者予測情報８０２のエントロピー（平均情報量）を他者不確実性９０３として計算する。他者不確実性９０３は、他者の予測の不確実さを表す。複数の他者が存在する場合、他者不確実性９０３は、それぞれの他者について計算される。

行動決定部２４０は、行動候補の中で、行動目標差９０１、他者期待差９０２、及び他者不確実性９０３の重み付き和が最小となる行動を最適な行動として選択する。つまり、行動目標差９０１をＡ、それぞれの他者に対する他者自己予測情報をＢｉ、それぞれの他者に対する他者不確実性をＣｉとした時、下記の式（１）で表される指標Ｆを最小化する行動を最適行動として選択する。
Ｆ＝Ａ＋ＳＵＭ（ｂｉ×Ｂｉ）＋ＳＵＭ（ｃｉ×Ｃｉ） …（１）

式（１）において、ＳＵＭはそれぞれの他者（ｉ）に対して和を計算する演算である。また、ｂｉ、及びｃｉは、それぞれの他者についての他者自己予測情報Ｂｉ、及び他者不確実性Ｃｉの重みを表し、他者重み情報２８１によって与えられる。他者の重みは、他者の種類に応じて予め決めておき、検出された他者を分類定義情報２８０の物体の種別及び特徴の少なくとも一つを参照してラベル付けして、他者各々の重みの値を決めてもよい。例えば、人をロボットよりも優先する場合に、他者の種類が人かロボットかによって、人の重みを大きくするように重み情報を定めるとよい。また、ｃｉを小さくして他者不確実性の影響を小さくしてもよい。例えば、遠い位置にいる他者の不確実性は自己の行動への貢献が少ないので、遠い位置にいる他者の重みを小さくするとよい。他者からの予測を重み付けて考慮して自己の行動を決定することで、近い位置にいる他者との衝突回避を優先するなど、より他者との衝突を回避しやすくなる。また、ｃｉは負の値としても良い。ｃｉを負とする場合、他者不確実性がより大きい行動を選択することで、学習データ量が少ない観測データを収集する行動をとることができると期待される。また、他者の重みは他者毎に同じ値としてもよい。さらに、第３項ＳＵＭ（ｃｉ＊Ｃｉ）を使わなくてもよい。

自己予測情報８０１、他者自己予測情報８０３、及び行動目標情報２６０が、確率分布として与えられる場合には、確率分布間の差はカルバックライブラダイバージェンスとして行動目標差９０１を計算方法が一例である。予測情報、及び行動目標情報２６０が確率分布ではなく、一つの予測値として与えられる場合についても、予測値と目標値、及び予測値同士の差の計算方法を定義することで、行動決定部２４０は同様の方法で最適な行動を選択する。

また、前述した式（１）の代わりに下記式（２）を使用して指標Ｆを最小化する最適行動を選択してもよい。
Ｆ＝Ａ＋ＳＵＭ（ｖｉ×Ｂｉ×Ｃｉ）＋ＳＵＭ（ｂｉ×Ｂｉ） …（２）

Ｂｉが他者予測の不確実性を示す予測誤差の情報を含んでいることから、式（２）では、ＣｉにＢｉを乗じることによって、不確実度が高い他者からの期待は予測に意味が薄いことから比率を下げている。なお、ｖｉは、他者不確実性Ｃｉの重みを表す。

図９では、行動決定部２４０は、将来状態予測部２３０を用いて、１時刻先の予測情報に基づいて行動を決定する場合を説明しているが、将来状態予測部２３０で複数回繰り返し計算することで、複数時刻先の予測情報に基づいて行動を決定してもよい。図１０は、複数時刻の予測情報に基づいて行動を決定する場合を示す図である。複数時刻の予測情報に基づいて行動を決定する場合には、各将来時刻毎の状態において、選択する行動で分岐する木を考え、葉までの一連の行動列に対して、行動の価値を求め、最適な行動を探索する。例えば、図１０では、開始状態（根）から、各状態において、五つの行動候補の選択肢があるとして、木探索が実行される場合の一例を図示している。木探索において、終了状態（葉）は、予め定める探索時の深さに到達した場合や、ロボットのタスクによって定められる場合の状態である。ロボットのタスクによって定められる場合とは、例えば、移動タスクにおいては、他者との衝突時や、目標地点への到達時などである。一連の行動に対して、各葉における式（１）によって計算される値や、根から葉までの一連のノードにおける式（１）によって計算される値の和や平均値など、一連の行動に対する評価は式（１）に基づいて様々に定義できる。また、移動タスク時の場合のように、葉が他者との衝突時や、目標地点への到達時などの避けるべき状態又は到達するべき状態などの論理値（成否）により価値の定義が可能な場合には、式（１）の値だけでなく葉の論理値を考慮して、最適な行動を選択してもよい。状態の論理値を考慮することは、複数時刻の将来を予測する場合に限らず、１時刻先を予測する場合についても同様に適用できる。行動選択の候補数が多い場合には、モンテカルロ木探索などの確率的木探索を適用してもよい。

＜実施例２＞
実施例２では、他者の重み付け情報に関する点が実施例１と異なる。以下、実施例１との差異を中心に実施例２について説明し、実施例１と同じ構成の説明は省略する。

実施例２の自律ロボットのハードウェア構成は実施例１と同じである。

図１１は、実施例２の計算機１００の機能構成の一例を示す図である。

実施例２では、将来状態予測部２３０が生成する他者予測情報８０２を保持する他者予測結果１１０１と他者重み計算部１１０２を持つ点が実施例１の機能構成と異なる。

実施例２では、他者重み計算部１１０２が、他者予測結果１１０１と、次時刻に新たに観測される観測情報２５０と、次時刻の観測情報２５０を用いた他者検出・トラッキング部２００による処理の結果から、他者に対する重みを自律ロボット内部で生成する。

他者重み計算部１１０２は、他者予測結果１１０１と、次時刻の観測情報２５０中の他者の観測値を比較し、予測誤差を計算し、計算された予測誤差に従って他者の重みを計算する。予測誤差に応じて他者の重み付ける方法は、例えば、予測誤差が小さいほど重みを大きくする方法や、逆に予測誤差が大きいほど重みを小さくする方法がある。また、重みの値は、予測誤差を正規化した値を順位付けしたり、予測誤差に応じて他者を順位付けして、定められた順位と重みの対応に従って重みの値を決定してもよい。

他者重み計算部１１０２は、予測誤差だけでなく、他者検出・トラッキング部２００から得られる他者の位置情報に従って重みの値を決めてもよい。例えば、自律ロボット３００と他者の距離に応じて重みの値を決定してもよい。重み付け、重みの値の計算法は、予測誤差計算方法と同様に考えられる。

また、他者重み計算部１１０２は、予測誤差及び他者検出・トラッキング部２００から得られる他者の位置情報の両方を考慮して重みの値を決定してもよい。

実施例２では、行動予測の精度が向上し、自律ロボットと他者との衝突を回避しやすくなる。

＜実施例３＞
実施例３では、自律ロボット３００の周囲の他者が、自律ロボット３００に対して将来の状態を予測する、他者自己予測情報８０３の生成に関する点が異なる。以下、実施例１との差異を中心に実施例３について説明し、実施例１と同じ構成の説明は省略する。

実施例３のハードウェア構成は実施例１と同じである。

図１２は、実施例３の計算機１００の機能構成の一例を示す図である。

実施例３では、観測情報の履歴を保持する状態履歴１２０１と、状態履歴１２０１に保持される情報の時刻において、自律ロボット３００が実行した行動の履歴を保持する行動履歴１２０２と、他者行動を推論する他者行動推論部１２０３を有する点で実施例１と異なる。

図１３は、他者行動推論部１２０３の構成の一例を示す図である。他者行動推論部１２０３は、行動推論モデル１３００、学習制御部１３０１を持つ。行動推論モデル１３００は、状態情報１３０２を入力とし、行動情報１３０３を出力する推論モデルである。状態情報１３０２は、自律ロボット３００の行動を決定する際に、将来状態予測部２３０に入力するために、モデル入力情報生成部２２０にて生成される、自己状態情報５０１及び他者状態情報５０３と同じ形式である。行動推論モデル１３００は、状態履歴１２０１を入力とし、行動履歴１２０２を出力とする教師有り学習により学習されたモデルである。つまり、行動推論モデル１３００は、ある状態において、自律ロボット３００が、どのような行動をとったかを学習している。学習制御部１３０１は、学習の実行、モデルの更新などの行動推論モデル１３００の学習を制御する。

実施例３では、将来状態予測部２３０が、他者自己予測情報８０３を生成する際に、他者の行動候補である行動候補情報５０２の代わりに、他者行動推論部１２０３が推論した行動情報１３０３を入力する。他者行動推論部１２０３は、他者の自己状態情報５０１及び他者状態情報５０３を状態情報１３０２として入力し、他者行動の推論情報を出力する。行動推論モデル１３００は、自律ロボット３００である自己が、ある状態において、どのような行動を取るかを推論するモデルである。そのため、実施例３における他者行動推論は、自律ロボット３００が他者の状況に置かれた場合にとる行動と推論される行動を、他者の行動の推論とする。

実施例３は、将来状態予測部２３０が、他者自己予測情報８０３の予測の際に、他者行動推論部１２０３が推論する他者行動を用いる以外は、実施例１と同じ方法によって、自律ロボット３００の行動を決定する。実施例３では、他者自己予測情報８０３の予測精度が向上することで、自律ロボットと他者との衝突を回避しやすくなる。

＜実施例４＞
実施例４では、他者観測情報生成部２１０が、実施例１より多くの情報に基づいて他者観測情報を生成する例を示す。以下、実施例１との差異を中心に実施例４について説明し、実施例１と同じ構成の説明は省略する。

実施例１において、観測情報は図４Ｃに示す観測された位置情報４１０に示される、自己、及び周囲の他者の位置情報の場合の例を説明した。観測された位置情報４１０の場合に、周囲の他者の観測情報は、位置情報である座標情報を移動することで生成が可能である。実施例４では、観測情報として、カメラによる画像情報４０１、４０２（図４Ａ、図４Ｂ）を観測情報として利用する一例を示す。画像情報を観測情報として用いる場合、将来状態予測部２３０に入力される他者状態情報５０３として画像情報４０１、４０２を入力し、他者予測情報８０２も次時刻にカメラが取得する画像を出力するように構成する。一般に、画像情報は物体の位置情報よりも高次元であるため、予測モデル５００の学習は困難になる。一方、画像情報を直接扱うことは、画像情報から物体情報に変換する際に捨てられる情報を捨てずに活用できるため、入力情報の表現が豊富になることによって、より良い行動生成に繋がる予測情報を生成する可能性が期待できる。

図１４は、実施例４の計算機１００の機能構成の一例を示す図である。

実施例４では、観測情報の履歴を保持する観測履歴１４０１と、他者に観測情報の送信を依頼する観測情報クエリ１４０２と、他者から送信される他者観測情報１４０３が入力される点が実施例１と異なる。

観測情報を画像情報とする場合、他者の観測情報として自律ロボット３００の周囲の他者が観測している画像を生成する必要がある。つまり、自律ロボット３００の位置情報及び観測画像が与えられた時に、自律ロボット３００の周囲の、特定の他者の視点から見た場合の観測画像を推論する必要がある。このような推論技術は、取得済みの複数の画像、及びその視点情報から、別の異なる視点からの画像を合成するタスク（ＮｏｖｅｌＶｉｅｗＳｙｎｔｈｅｓｉｓ）として知られており、多くの既存技術が存在する。例えば、非特許文献２に開示される技術である、複数視点の画像と、その画像の視点情報によって学習されたニューラルネットワークを用いて、複数の画像と、その画像の視点情報と、画像を推定したい別の視点情報を入力することで、別の視点からの観測画像を出力する技術を使用できる。

実施例４は、非特許文献２に開示される方法などの別視点からの観測画像を推論する方法を他者観測情報生成部２１０に実装することによって、画像を観測情報とする他者観測情報１４０３を生成できる。他者の画像を自律ロボット３００が生成することで、他者がロボットでなく人などのように観測情報を通信により直接取得することができない場合においても、実施例１と同様の方法により、自律ロボット３００の行動を生成することが可能となる。

この時、複数視点の観測画像、その観測画像の視点情報、及び、他者の視点情報が入力として必要である。複数の視点の観測画像、及びその観測画像の視点情報は、自律ロボット３００が複数時刻にわたり観測する画像情報、及びその視点情報を内部に観測履歴１４０１として保持する構成が一例である。また、図４Ａ、図４Ｂに示す前方と後方の複数の視点から観測画像を取得しているように、自律ロボット３００が、複数の視点に対して観測画像を逐次取得する構成を用いれば、それら複数視点に対して取得される複数の観測画像、及びその視点情報を用いる構成も一例である。他者の視点情報は、観測された位置情報４１０にて取得する構成が一例である。

また、自律ロボット３００の周囲の他者が人ではなく、自律ロボット３００とシステムを共有する別の自律ロボットや、監視カメラなどの観測画像を逐次取得する装置である場合には、それら周囲の装置に、他者が観測する画像の送信依頼クエリ（観測情報クエリ１４０２）を他者に送信することで、他者の観測画像（他者観測情報１４０３）を取得し、取得した他者観測画像を、複数視点からの観測画像とする構成も一例である。

他者観測情報生成部２１０は、周囲の他者に対して観測画像の送受信を制御する機能を有する。また、観測画像の生成対象である他者が、観測画像を通信可能な装置である場合には、同様の手段により、通信により他者の観測画像を取得することで、他者観測画像を生成する構成も可能である。

以上の方法により、実施例４では、予測モデル５００が画像情報を扱う場合に、予測モデル５００の入力である他者状態情報５０３の生成が可能となる。実施例４では、他者状態情報を画像情報とする点以外は、実施例１と同様の方法により、自律ロボット３００の行動を決定する。

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加・削除・置換をしてもよい。

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、又は、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に格納することができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

Claims

ロボットシステムであって、
計算機によって制御されるロボットを備え、
前記ロボットは、
前記計算機に接続され、前記ロボットの行動を制御する制御装置と、
前記計算機に接続され、前記ロボットの周囲を観測する観測装置とを有し、
前記計算機は、
プログラムを実行する演算装置、前記演算装置に接続される記憶装置、前記演算装置に接続されるインタフェースを有し、
前記観測装置が観測した観測情報を用いて、周囲に存在する複数の物体を検出し、前記検出された複数の物体の各々の第１の状態情報を保持し、
物体の将来の状態を予測するための第１のモデルを用いて、前記第１の状態情報から前記検出された複数の物体の将来の状態を予測し、
前記検出された複数の物体が観測する周囲の第２の状態情報を生成し、
前記第１のモデルを用いて、前記第２の状態情報から前記ロボットの将来の状態を予測し、
与えられた行動目標と、前記予測された複数の物体の将来の状態と、前記予測されたロボットの将来の状態とに基づいて、前記ロボットの将来の行動を決定することを特徴とするロボットシステム。
請求項１に記載のロボットシステムであって、
前記計算機は、
前記検出された物体の種類及び特徴の少なくとも一つに基づいて、
前記検出された物体毎の重みを計算し、
前記計算された重みを用いて、前記行動を決定することを特徴とするロボットシステム。
請求項２に記載のロボットシステムであって、
前記計算機は、前記与えられた行動目標と実際の行動の差を表す行動目標差、自己による前記ロボットの将来の状態の予測と前記検出された複数の物体による前記ロボットの将来の状態の予測の差を表す他者期待差、及び、前記検出された複数の物体の予測された将来の状態のエントロピーを表す他者不確実性の重み付け和が小さい行動を決定することを特徴とするロボットシステム。
請求項１に記載のロボットシステムであって、
前記計算機は、
物体の種別を特定するための分類定義情報に従って、前記物体の種別を判定し、
前記物体の種別に従って第２の状態情報を生成することを特徴とするロボットシステム。
請求項１に記載のロボットシステムであって、
前記計算機は、
前記複数の物体の将来の予測情報と、次の時刻において、前記観測情報から生成される周囲の状態情報とを比較し、前記複数の物体の予測誤差を計算し、
前記計算された予測誤差に基づいて計算された物体毎の重みを用いて、前記行動を決定することを特徴とするロボットシステム。
請求項１に記載のロボットシステムであって、
前記計算機は、
前記観測情報から生成される周囲の状態情報を入力とし、前記行動の制御結果を表す行動情報を出力とする第２のモデルを有し、
前記第２のモデルを用いて、前記検出された複数の物体が観測する周囲の状態情報から前記複数の物体の行動情報を予測し、
前記予測された複数の物体の行動情報を用いて、前記複数の物体の将来の状態を予測することを特徴とするロボットシステム。
請求項１に記載のロボットシステムであって、
前記計算機は、
前記観測装置が取得した観測画像を用いて、前記複数の物体からの観測画像を生成し、
前記第１のモデルを用いて、前記複数の物体からの観測画像を前記第２の状態情報として前記ロボットの将来の状態情報を予測することを特徴とするロボットシステム。
請求項７に記載のロボットシステムであって、
前記計算機は、
前記観測画像と当該観測画像を取得した視点の視点情報から、別の視点における観測画像を生成する第３のモデルを有し、
複数地点で観測された観測画像を用いて、前記第３のモデルを学習し、
前記学習された第３のモデルを用いて、前記観測画像と当該観測画像を取得した視点の視点情報から、前記複数の物体の観測画像を生成することを特徴とするロボットシステム。
請求項１に記載のロボットシステムであって、
前記計算機は、前記ロボットに内蔵される又は別体に設けられることを特徴とするロボットシステム。
ロボットの制御装置であって、
プログラムを実行する演算装置、前記演算装置に接続される記憶装置、前記演算装置に接続されるインタフェースを有する計算機によって構成され、
前記ロボットは、前記インタフェースに接続され、前記ロボットの行動を制御する制御装置と、前記インタフェースに接続され、前記ロボットの周囲を観測する観測装置とを有し、
前記制御装置は、
前記観測装置が取得したデータを用いて、周囲に存在する複数の物体を検出し、前記検出された複数の物体の各々の第１の状態情報を保持し、
物体の将来の状態を予測するための第１のモデルを用いて、前記第１の状態情報から前記検出された複数の物体の将来の状態を予測し、
前記検出された複数の物体が観測する周囲の第２の状態情報を生成し、
前記第１のモデルを用いて、前記第２の状態情報から前記ロボットの将来の状態を予測し、
与えられた行動目標と、前記予測された複数の物体の将来の状態と、前記予測されたロボットの将来の状態とに基づいて、前記ロボットの将来の行動を決定することを特徴とする制御装置。
計算機が実行するロボットの制御方法であって、
前記計算機は、プログラムを実行する演算装置、前記演算装置に接続される記憶装置、前記演算装置に接続されるインタフェースを有し、
前記ロボットは、前記インタフェースに接続される制御装置と、前記インタフェースに接続される観測装置とを有し、
前記制御方法は、
前記演算装置は、前記観測装置が取得したデータを用いて、周囲に存在する複数の物体を検出し、前記検出された複数の物体の各々の第１の状態情報を前記記憶装置に保持し、
前記演算装置が、物体の将来の状態を予測するための第１のモデルを用いて、前記第１の状態情報から前記検出された複数の物体の将来の状態を予測し、
前記演算装置が、前記検出された複数の物体が観測する周囲の第２の状態情報を生成し、
前記演算装置が、前記第１のモデルを用いて、前記第２の状態情報から前記ロボットの将来の状態を予測し、
前記演算装置が、与えられた行動目標と、前記予測された複数の物体の将来の状態と、前記予測されたロボットの将来の状態とに基づいて、前記ロボットの将来の行動を決定することを特徴とする制御方法。