JP7342600B2 - 移動制御モデル生成装置、移動制御モデル生成方法、移動制御モデル生成プログラム、移動体制御装置、移動体制御方法、および移動体制御プログラム - Google Patents

移動制御モデル生成装置、移動制御モデル生成方法、移動制御モデル生成プログラム、移動体制御装置、移動体制御方法、および移動体制御プログラム Download PDF

Info

Publication number
JP7342600B2
JP7342600B2 JP2019189576A JP2019189576A JP7342600B2 JP 7342600 B2 JP7342600 B2 JP 7342600B2 JP 2019189576 A JP2019189576 A JP 2019189576A JP 2019189576 A JP2019189576 A JP 2019189576A JP 7342600 B2 JP7342600 B2 JP 7342600B2
Authority
JP
Japan
Prior art keywords
information
destination
control model
possibility
moving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019189576A
Other languages
English (en)
Other versions
JP2021064268A (ja
Inventor
雄太 水野
龍二 齊院
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisin Corp
Original Assignee
Aisin Seiki Co Ltd
Aisin Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisin Seiki Co Ltd, Aisin Corp filed Critical Aisin Seiki Co Ltd
Priority to JP2019189576A priority Critical patent/JP7342600B2/ja
Publication of JP2021064268A publication Critical patent/JP2021064268A/ja
Application granted granted Critical
Publication of JP7342600B2 publication Critical patent/JP7342600B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)

Description

本開示は、移動制御モデル生成装置、移動制御モデル生成方法、移動制御モデル生成プログラム、移動体制御装置、移動体制御方法、および移動体制御プログラムに関する。
従来から、移動体を目的地まで(自律的に)到達させるための技術について検討されている。
特開2018-106466号公報
上記のような従来の技術では、移動体がオブジェクトと接触するのを回避するために、移動体とオブジェクトとの間の距離の検知結果に応じて、移動体に実行させるべき動作が決定される場合がある。
上記のような動作の決定には、たとえば、「移動体を目的地まで到達させる」という目的に応じて設計された報酬に基づく強化学習によって予め生成された、検知結果の入力に応じて移動体に実行させるべき動作を出力する学習済みモデルが利用されることがある。移動体に達成させるべき目的が、「移動体を目的地まで到達させる」という目的だけであるならば、報酬の設計は容易であるので、学習に要する時間を抑制することが可能である。
しかしながら、移動体に達成させることが望まれる目的は、「移動体を目的地まで到達させる」という目的だけでなく、「遠回りをしない」という目的などといった他の目的も考えられる。この場合、一般的な強化学習のみによって複数の目的への対応を実現しようとすると、報酬の設計が煩雑になるとともに、学習に要する時間が急激に増大する。
そこで、本開示の課題の一つは、複数の目的を移動体に達成させるための移動制御モデルの学習に要する時間を低減することが可能な移動制御モデル生成装置、移動制御モデル生成方法、および移動制御モデル生成プログラムと、生成された移動制御モデルを利用した移動体制御装置、移動体制御方法、および移動体制御プログラムと、を提供することである。
本開示の一例としての移動制御モデル生成装置は、移動体と当該移動体の周囲に存在するオブジェクトとの位置関係を示す検知情報と、移動体と当該移動体が到達すべき目的地との位置関係を示す目的地情報と、の入力に応じて、目的地への移動にあたり移動体が実行しうる複数の動作の各々が移動体の目的地への到達につながる可能性を示す可能性情報と、複数の動作の各々を移動体が実行した結果として変動しうる移動体の移動に関して予め決められた指標の予測結果を示す予測情報と、を出力するように構成され、移動体のアクチュエータを制御するための移動制御モデルを取得する取得部と、強化学習により、検知情報および目的地情報と、可能性情報と、の対応関係を、取得部により取得された移動制御モデルに学習させるとともに、教師あり学習により、検知情報および目的地情報と、予測情報と、の対応関係を、取得部により取得された移動制御モデルに学習させる学習部と、を備える。
上述した移動制御モデル生成装置によれば、「移動体を目的地まで到達させる」という目的を移動体に達成させるために用いられる可能性情報については、強化学習が実行され、他の目的を移動体に達成させるために用いられる予測情報については、強化学習ではなく、教師あり学習が実行される。したがって、たとえば強化学習のみによって複数の目的への対応を実現する場合と異なり、複数の目的を移動体に達成させるための移動制御モデルの学習に要する時間を低減することができる。
上述した移動制御モデル生成装置において、可能性情報は、目的地への移動にあたり移動体が実行しうる複数の動作としての複数の移動方向への移動動作の各々が移動体の目的地への到達につながる確率を示す確率情報を含み、予測情報の予め決められた指標は、移動体が目的地へ到達するのに要する時間に関する時間指標を含む。このような構成によれば、「移動体を目的地まで到達させる」という目的に対応するのに適当な確率情報を可能性情報に含めることができるとともに、他の目的の一つとしての「遠回りしない」という目的に対応するのに適当な時間指標を予測情報の予め決められた指標に含めることができる。
また、上述した移動制御モデル生成装置において、移動体は、アクチュエータの制御に応じて自律的に移動するパーソナルモビリティを含む。このような構成によれば、複数の目的への対応を実現することが特に有効なパーソナルモビリティに本開示の技術を適用することができる。
本開示の他の一例としての移動制御モデル生成方法は、移動体と当該移動体の周囲に存在するオブジェクトとの位置関係を示す検知情報と、移動体と当該移動体が到達すべき目的地との位置関係を示す目的地情報と、の入力に応じて、目的地への移動にあたり移動体が実行しうる複数の動作の各々が移動体の目的地への到達につながる可能性を示す可能性情報と、複数の動作の各々を移動体が実行した結果として変動しうる移動体の移動に関して予め決められた指標の予測結果を示す予測情報と、を出力するように構成され、移動体のアクチュエータを制御するための移動制御モデルを取得する取得ステップと、強化学習により、検知情報および目的地情報と、可能性情報と、の対応関係を、取得ステップにより取得された移動制御モデルに学習させるとともに、教師あり学習により、検知情報および目的地情報と、予測情報と、の対応関係を、取得ステップにより取得された移動制御モデルに学習させる学習ステップと、を備える。
上述した移動制御モデル生成方法によれば、「移動体を目的地まで到達させる」という目的を移動体に達成させるために用いられる可能性情報については、強化学習が実行され、他の目的を移動体に達成させるために用いられる予測情報については、強化学習ではなく、教師あり学習が実行される。したがって、たとえば強化学習のみによって複数の目的への対応を実現する場合と異なり、複数の目的を移動体に達成させるための移動制御モデルの学習に要する時間を低減することができる。
また、本開示の他の一例としての移動制御モデル生成プログラムは、移動体と当該移動体の周囲に存在するオブジェクトとの位置関係を示す検知情報と、移動体と当該移動体が到達すべき目的地との位置関係を示す目的地情報と、の入力に応じて、目的地への移動にあたり移動体が実行しうる複数の動作の各々が移動体の目的地への到達につながる可能性を示す可能性情報と、複数の動作の各々を移動体が実行した結果として変動しうる移動体の移動に関して予め決められた指標の予測結果を示す予測情報と、を出力するように構成され、移動体のアクチュエータを制御するための移動制御モデルを取得する取得ステップと、強化学習により、検知情報および目的地情報と、可能性情報と、の対応関係を、取得ステップにより取得された移動制御モデルに学習させるとともに、教師あり学習により、検知情報および目的地情報と、予測情報と、の対応関係を、取得ステップにより取得された移動制御モデルに学習させる学習ステップと、をコンピュータに実行させるためのプログラムである。
上述した移動制御モデル生成プログラムによれば、「移動体を目的地まで到達させる」という目的を移動体に達成させるために用いられる可能性情報については、強化学習が実行され、他の目的を移動体に達成させるために用いられる予測情報については、強化学習ではなく、教師あり学習が実行される。したがって、たとえば強化学習のみによって複数の目的への対応を実現する場合と異なり、複数の目的を移動体に達成させるための移動制御モデルの学習に要する時間を低減することができる。
さらに、本開示の他の一例としての移動体制御装置は、移動体と当該移動体の周囲に存在するオブジェクトとの位置関係を示す検知情報と、移動体と当該移動体が到達すべき目的地との位置関係を示す目的地情報と、を取得する取得部と、検知情報および目的地情報の入力に応じて、目的地への移動にあたり移動体が実行しうる複数の動作の各々が移動体の目的地への到達につながる可能性を示す可能性情報と、複数の動作の各々を移動体が実行した結果として変動しうる移動体の移動に関して予め決められた指標の予測結果を示す予測情報と、を出力するように、強化学習および教師あり学習の組み合わせにより予め生成された移動制御モデルを用いて、取得部により取得された検知情報および目的地情報に対応した可能性情報および予測情報を出力する出力部と、出力部により出力される可能性情報および予測情報に基づいて複数の動作から選択される少なくとも1つの動作を移動体に実行させるように、移動体のアクチュエータを制御する制御部と、を備える。
上述した移動体制御装置によれば、強化学習および教師あり学習の組み合わせにより予め生成された移動制御モデルを利用して、「移動体を目的地まで到達させる」という目的を移動体に達成させるために用いられる可能性情報と、他の目的を移動体に達成させるために用いられる予測情報とを、検知情報および目的地情報の入力に応じて出力することができる。そして、可能性情報および予測情報に基づいて、複数の目的を移動体に達成させるようにアクチュエータを適切に制御することができる。
また、本開示の他の一例としての移動体制御方法は、移動体と当該移動体の周囲に存在するオブジェクトとの位置関係を示す検知情報と、移動体と当該移動体が到達すべき目的地との位置関係を示す目的地情報と、を取得する取得ステップと、検知情報および目的地情報の入力に応じて、目的地への移動にあたり移動体が実行しうる複数の動作の各々が移動体の目的地への到達につながる可能性を示す可能性情報と、複数の動作の各々を移動体が実行した結果として変動しうる移動体の移動に関して予め決められた指標の予測結果を示す予測情報と、を出力するように、強化学習および教師あり学習の組み合わせにより予め生成された移動制御モデルを用いて、取得ステップにより取得された検知情報および目的地情報に対応した可能性情報および予測情報を出力する出力ステップと、出力ステップにより出力される可能性情報および予測情報に基づいて複数の動作から選択される少なくとも1つの動作を移動体に実行させるように、移動体のアクチュエータを制御する制御ステップと、を備える。
上述した移動体制御方法によれば、強化学習および教師あり学習の組み合わせにより予め生成された移動制御モデルを利用して、「移動体を目的地まで到達させる」という目的を移動体に達成させるために用いられる可能性情報と、他の目的を移動体に達成させるために用いられる予測情報とを、検知情報および目的地情報の入力に応じて出力することができる。そして、可能性情報および予測情報に基づいて、複数の目的を移動体に達成させるようにアクチュエータを適切に制御することができる。
また、本開示の他の一例としての移動体制御プログラムは、移動体と当該移動体の周囲に存在するオブジェクトとの位置関係を示す検知情報と、移動体と当該移動体が到達すべき目的地との位置関係を示す目的地情報と、を取得する取得ステップと、検知情報および目的地情報の入力に応じて、目的地への移動にあたり移動体が実行しうる複数の動作の各々が移動体の目的地への到達につながる可能性を示す可能性情報と、複数の動作の各々を移動体が実行した結果として変動しうる移動体の移動に関して予め決められた指標の予測結果を示す予測情報と、を出力するように、強化学習と教師あり学習との組み合わせにより予め生成された移動制御モデルを用いて、取得ステップにより取得された検知情報および目的地情報に対応した可能性情報および予測情報を出力する出力ステップと、出力ステップにより出力される可能性情報および予測情報に基づいて複数の動作から選択される少なくとも1つの動作を移動体に実行させるように、移動体のアクチュエータを制御する制御ステップと、をコンピュータに実行させるためのプログラムである。
上述した移動体制御プログラムによれば、強化学習および教師あり学習の組み合わせにより予め生成された移動制御モデルを利用して、「移動体を目的地まで到達させる」という目的を移動体に達成させるために用いられる可能性情報と、他の目的を移動体に達成させるために用いられる予測情報とを、検知情報および目的地情報の入力に応じて出力することができる。そして、可能性情報および予測情報に基づいて、複数の目的を移動体に達成させるようにアクチュエータを適切に制御することができる。
図1は、実施形態にかかる移動体を示した例示的かつ模式的な図である。 図2は、実施形態にかかる移動制御モデル生成装置が有する機能を示した例示的かつ模式的なブロック図である。 図3は、実施形態にかかる移動制御モデルを説明するための例示的かつ模式的な図である。 図4は、実施形態にかかる移動制御モデルの学習方法を概念的に表した例示的かつ模式的な図である。 図5は、実施形態にかかる移動体制御装置が有する機能を示した例示的かつ模式的なブロック図である。 図6は、実施形態にかかる移動体制御装置が移動体の自律走行の際に実行する処理を説明するための例示的かつ模式的なフローチャートである。 図7は、実施形態にかかる移動体制御装置を実現するための情報処理装置のハードウェア構成を示した例示的かつ模式的なブロック図である。
以下、本開示の実施形態および変形例を図面に基づいて説明する。以下に記載する実施形態および変形例の構成、ならびに当該構成によってもたらされる作用および効果は、あくまで一例であって、以下の記載内容に限られるものではない。
<実施形態>
図1は、実施形態にかかる移動体100を示した例示的かつ模式的な図である。
図1に示されるように、実施形態にかかる移動体100は、たとえば、周囲に存在するオブジェクトX1~X5を回避しながら所定の目的地Gへ到達するように自律走行(矢印A100参照)を実行するパーソナルモビリティとして構成される。オブジェクトX1~X5は、たとえば標識および柱などのような、位置が不変のものであってもよいし、たとえば人などのような、位置が変動するものであってもよい。
なお、実施形態の技術は、図1に示されるようなパーソナルモビリティ以外の一般的な車両に適用することも可能である。この場合、車両は、自律走行を実行する機能を有するように構成されていてもよいし有しないように構成されていてもよい。
ここで、従来から、上記のような移動体100を目的地Gまで(自律的に)到達させるための技術について検討されている。このような従来の技術では、移動体100がオブジェクトX1~X5と接触するのを回避するために、移動体100とオブジェクトX1~X5との間の距離の検知結果に応じて、移動体100に実行させるべき動作が決定される場合がある。
上記のような動作の決定には、たとえば、「移動体100を目的地Gまで到達させる」という目的に応じて設計された報酬に基づく強化学習によって予め生成された、検知結果の入力に応じて移動体100に実行させるべき動作を出力する学習済みモデルが利用されることがある。移動体100に達成させるべき目的が、「移動体100を目的地Gまで到達させる」という目的だけであるならば、報酬の設計は容易であるとともに、学習に要する時間を抑制することが可能である。
しかしながら、移動体100に達成させることが望まれる目的は、「移動体100を目的地Gまで到達させる」という目的だけでなく、「遠回りをしない」という目的などといった他の目的も考えられる。この場合、一般的な強化学習のみによって複数の目的への対応を実現しようとすると、報酬の設計が煩雑になるとともに、学習に要する時間が急激に増大する。
そこで、実施形態は、次の図2に示されるような機能を有した移動制御モデル生成装置200により、複数の目的を移動体100に達成させるための学習済みモデルの学習に要する時間を低減することを実現する。
図2は、実施形態にかかる移動制御モデル生成装置200が有する機能を示した例示的かつ模式的なブロック図である。
図2に示されるように、移動制御モデル生成装置200は、取得部210と、学習部220と、を備えている。
取得部210は、機械学習によるトレーニングの対象となる移動制御モデル211を取得する。移動制御モデル211は、次の図3に示されるように構成されている。
図3は、実施形態にかかる移動制御モデル211を説明するための例示的かつ模式的な図である。
図3に示されるように、移動制御モデル211は、検知情報および目的地情報の入力に応じて、確率情報および予測情報を出力するように構成されている。
検知情報とは、移動体100と当該移動体100の周囲に存在するオブジェクトX1~X5との位置関係を示す情報である。また、目的地情報とは、移動体100と当該移動体100が到達すべき目的地Gとの位置関係を示す情報である。詳細は後述するが、検知情報および目的地情報は、いずれも、移動体100に搭載されるセンサ501(図5参照)の検知結果に基づいて取得することが可能な情報である。
また、確率情報とは、目的地Gへの移動にあたり移動体100が実行しうる複数の動作の各々が移動体100の目的地Gへの到達につながる可能性を示す可能性情報の一例である。より具体的に、確率情報とは、目的地Gへの移動にあたり移動体100が実行しうる複数の動作としての複数の進行方向への移動動作(旋回動作を含む)の各々が移動体100の目的地Gへの到達につながる確率を示す情報である(実線L310参照)。
また、予測情報とは、複数の動作の各々を移動体100が実行した結果として変動しうる移動体の移動に関して予め決められた指標の予測結果を示す情報である。予め決められた指標は、たとえば、移動体100が目的地Gへ到達するのに要する時間、より具体的には、移動体100が目的地Gまで到達するまでに要する所要時間、に関する時間指標として設計される(実線L320参照)。
上記のような確率情報および予測情報によれば、「移動体100を目的地Gまで到達させる」という目的と「遠回りをしない」という目的との両方を達成可能な移動体100の動作を状態に応じて適切に選択することができる。より具体的に、確率情報によれば、目的地Gまで到達する確率が最も高い進行方向に移動するように移動体100を制御することができるので、「移動体100を目的地Gまで到達させる」という目的を達成することができる。また、予測情報によれば、目的地Gまで到達するのに要する所要時間が短くなるように移動体100を制御することができるので、「遠回りをしない」という目的を達成することができる。
なお、確率情報および予測情報の両方を考慮して移動体100の動作を選択することは、確率情報だけでは選択すべき動作が一意に決まらないような場合にも、有効な効果を発揮する。
たとえば、図3に示される例において、確率情報を示す実線L310は、同程度の確率を示す2つのピークP310およびP320を有しているので、実線L310だけしか考慮しない場合、2つのピークP311およびP312のいずれに対応した進行方向を選択することが適切であるかを判別することが難しい。しかしながら、図3に示される例において、予測情報を示す実線L320は、上記のピークP311と同様の進行方向を示すピークP320を1つだけ有している。したがって、確率情報および予測情報の両方を考慮すれば、ピークP311(すなわちピークP320)に対応した進行方向を、ピークP312に対応した進行方向よりも適切な進行方向として選択することができる。
ここで、上記のような適切な選択を実現するためには、取得部210により取得された移動制御モデル211を、予め収集または生成したデータに基づく機械学習により適切にトレーニングする必要がある。
そこで、図2に戻り、学習部220は、取得部210により取得された移動制御モデル211の、機械学習によるトレーニングを実行する。機械学習によるトレーニングは、たとえば次の図4に示されるような学習方法で実行される。
図4は、実施形態にかかる移動制御モデル211の学習方法を概念的に表した例示的かつ模式的な図である。
図4に示されるように、実施形態において、学習部220は、シミュレーションにより、複数の状態S、S、…、SN-1、およびSの各々に対応した確率情報および予測情報を取得する。そして、学習部220は、検知情報および目的地情報と、確率情報との、各状態における対応関係を、「移動体100を目的地Gまで到達させる」という目的(だけ)に応じて設計された報酬に基づく強化学習により、移動制御モデル211に学習させる。
なお、強化学習がDQN(Deep Q-Network)に基づいて実行される場合、確率情報は、検知情報および目的地情報で示される状態において移動体100が実行しうる行動(動作)の価値を示すQ値に相当する。この場合、学習部220は、状態Sにおいて移動体100が目的地Gに到達しているときは状態Sに対応したQ値として1(=100%)が得られ、状態Sにおいて移動体100が目的地Gに到達していないときは状態Sに対応したQ値として0(=0%)が得られるように、移動制御モデル211のトレーニングを実行する。そして、学習部220は、状態SN-1、S、…、およびSに対応したQ値として状態Sに対応したQ値を基準にした値が適宜得られるように、移動制御モデル211のトレーニングを実行する(矢印A401参照)。
ここで、前述した通り、移動体100に達成させることが望まれる目的は、「移動体100を目的地Gまで到達させる」という目的だけでなく、「遠回りをしない」という目的などといった他の目的も考えられるが、これら複数の目的への対応を強化学習のみによって実現しようとすると、報酬の設計が煩雑になるとともに、学習に要する時間が急激に増大する。
したがって、実施形態において、学習部220は、検知情報および目的地情報と、予測情報と、の対応関係を、強化学習ではなく、教師あり学習により、移動制御モデル211に学習させる。たとえば、学習部220は、状態Sにおいて移動体100が目的地Gに到達しているときに、それまでに要した所要時間に関する時間指標が、状態S、S、…、SN-1、およびSの各々の予測情報として得られるように、移動制御モデル211のトレーニングを実行する(矢印A402参照)。
このようにして、実施形態にかかる移動制御モデル生成装置200は、検知情報および目的情報の入力に応じて適切な確率情報および予測情報を出力する学習済みモデルが得られるように、移動制御モデル211のトレーニングを実行する。
なお、実施形態において、移動制御モデル生成装置200による上記のようなトレーニングを経た移動制御モデル211は、次の図5に示されるような形で、移動体100に搭載される。
図5は、実施形態にかかる移動体制御装置500が有する機能を示した例示的かつ模式的なブロック図である。
図5に示されるように、移動体制御装置500は、取得部510と、出力部520と、制御部530と、を備えている。
取得部510は、移動体100に設けられるセンサ501の検知結果に基づいて、検知情報および目的地情報を取得する。
ここで、実施形態において、センサ501は、たとえば、LiDAR(Light Detection and Ranging)またはソナーなどのような測距センサと、カメラなどにより撮像される画像に対する画像処理によって情報を検知する画像センサと、を含んでいる。検知情報は、たとえば、測距センサによるオブジェクトX1~X5までの距離の検知結果に基づいて取得することができ、目的地情報は、たとえば、画像センサによる目的地Gの検知結果と、移動体100が走行する領域として予め記憶された地図データと、の照合結果に基づいて取得することができる。
出力部520は、移動制御モデル生成装置200による上記のようなトレーニングを経た移動制御モデル211としての移動制御モデル521を用いて、取得部510により取得された検知情報および目的地情報の入力に応じて、確率情報および予測情報を出力する。
そして、制御部530は、出力部520から出力される確率情報および予測情報に基づいて、移動体100を動作させるためのアクチュエータ502を制御する。より具体的に、制御部530は、出力部520により出力される確率情報および予測情報に基づいて複数の動作から選択される少なくとも1つの動作、すなわち、「移動体100を目的地Gまで到達させる」という目的とともに「遠回りをしない」という目的などといった他の目的を達成することが見込まれる動作を移動体100に実行させるように、アクチュエータ502を制御する。
以上の構成に基づき、実施形態にかかる移動体制御装置500は、自律走行によって移動体100が目的地Gに到達するまでの間、次の図6に示されるような処理を、たとえば所定の制御周期で繰り返し実行する。
図6は、実施形態にかかる移動体制御装置500が移動体100の自律走行の際に実行する処理を説明するための例示的かつ模式的なフローチャートである。
図6に示されるように、実施形態では、まず、S601において、移動体制御装置500の取得部510は、センサ501の検知結果に基づいて、検知情報および目的地情報を取得する。
そして、S602において、移動体制御装置500の出力部520は、移動制御モデル521を用いて、S601において取得された検知情報および目的地情報に応じた確率情報および予測情報を出力する。
そして、S603において、移動体制御装置500の制御部530は、S602において出力された確率情報および予測情報に基づいて、移動体100に実行させるべき動作を選択する。
そして、S604において、移動体制御装置500の制御部530は、S503において選択された動作を移動体100が実行するように、アクチュエータ502を制御する。そして、処理が終了する。
このような処理により、実施形態にかかる移動体制御装置500は、移動体100に、「移動体100を目的地Gまで到達させる」という目的とともに「遠回りをしない」という目的などといった他の目的を達成させることができる。
なお、実施形態にかかる移動制御モデル生成装置200および移動体制御装置500は、たとえば次の図7に示されるような、一般的なコンピュータと同様のハードウェア構成を有する情報処理装置700によって実現される。なお、移動制御モデル生成装置200を実現する情報処理装置700は、たとえばPC(Personal Computer)であり、移動体制御装置500を実現する情報処理装置700は、たとえばECU(Electronic Control Unit)である。
図7は、実施形態にかかる移動体制御装置500を実現するための情報処理装置700のハードウェア構成を示した例示的かつ模式的なブロック図である。
図6に示されるように、実施形態にかかる情報処理装置700は、プロセッサ710と、メモリ720と、ストレージ730と、入出力インターフェース(I/F)740と、通信インターフェース(I/F)750と、を備えている。これらのハードウェアは、バス760に接続されている。
プロセッサ710は、たとえばCPU(Central Processing Unit)として構成され、情報処理装置700の各部の動作を統括的に制御する。メモリ720は、たとえばROM(Read Only Memory)およびRAM(Random Access Memory)を含み、プロセッサ710により実行されるプログラムなどの各種のデータの揮発的または不揮発的な記憶、およびプロセッサ710がプログラムを実行するための作業領域の提供などを実現する。
ストレージ730は、たとえばHDD(Hard Disk Drive)またはSSD(Solid State Drive)を含み、各種のデータを不揮発的に記憶する。入出力インターフェース740は、情報処理装置700へのデータの入力および情報処理装置700からのデータの出力を制御する。通信インターフェース750は、情報処理装置700が他の装置と通信を実行することを可能にする。
実施形態において、上述した図2および図5に示される機能モジュール群は、プロセッサ710がメモリ720またはストレージ730に記憶された移動体制御プログラムを実行した結果として、ハードウェアとソフトウェアとの協働により実現される。ただし、実施形態では、上述した図2および図5に示される機能モジュール群の少なくとも一部が、専用のハードウェア(回路:circuitry)として実現されてもよい。
なお、実施形態にかかる移動体制御プログラムは、メモリ720またはストレージ730などの記憶装置に予め組み込まれた状態で提供されてもよいし、フレキシブルディスク(FD)のような各種の磁気ディスク、またはDVD(Digital Versatile Disk)のような各種の光ディスクなどといった、コンピュータで読み取り可能な記録媒体にインストール可能な形式または実行可能な形式で記録されたコンピュータプログラムプロダクトとして提供されてもよい。
また、実施形態にかかる移動体制御プログラムは、インターネットなどのネットワーク経由で提供または配布されてもよい。すなわち、実施形態にかかる移動体制御プログラムは、インターネットなどのネットワークに接続されたコンピュータ上に格納された状態で、当該コンピュータからネットワーク経由でダウンロードする、といった形で提供されてもよい。
以上説明したように、実施形態にかかる移動制御モデル生成装置200は、取得部210と、学習部220と、を備えている。
取得部210は、移動体100のアクチュエータ502の制御に利用される移動制御モデル211であって、検知情報および目的地情報の入力に応じて可能性情報および予測情報を出力する移動制御モデル211を取得するように構成されている。検知情報は、移動体100と当該移動体100の周囲に存在するオブジェクトX1~X5との位置関係を示す情報である。目的地情報は、移動体100と当該移動体100が到達すべき目的地Gとの位置関係を示す情報である。可能性情報は、目的地Gへの移動にあたり移動体100が実行しうる複数の動作の各々が移動体100の目的地Gへの到達につながる可能性を示す情報である。予測情報は、複数の動作の各々を移動体100が実行した結果として変動しうる移動体100の移動に関して予め決められた指標の予測結果を示す情報である。
ここで、学習部220は、強化学習により、検知情報および目的地情報と、可能性情報と、の対応関係を、取得部210により取得された移動制御モデル211に学習させるとともに、教師あり学習により、検知情報および目的地情報と、予測情報と、の対応関係を、取得部210により取得された移動制御モデルに学習させるように構成されている。
上記のような移動制御モデル生成装置200によれば、「移動体100を目的地Gまで到達させる」という目的を移動体100に達成させるために用いられる可能性情報については、強化学習が実行され、他の目的を移動体100に達成させるために用いられる予測情報については、強化学習ではなく、教師あり学習が実行される。したがって、たとえば強化学習のみによって複数の目的への対応を実現する場合と異なり、複数の目的を移動体100に達成させるための移動制御モデル211の学習に要する時間を低減することができる。
なお、実施形態において、可能性情報は、目的地Gへの移動にあたり移動体100が実行しうる複数の動作としての複数の移動方向への移動動作の各々が移動体100の目的地Gへの到達につながる確率を示す確率情報を含むように設計されている。また、予測情報の予め決められた指標は、移動体100が目的地Gへ到達するのに要する時間に関する時間指標を含むように設計されている。このような設計によれば、「移動体100を目的地Gまで到達させる」という目的に対応するのに適当な確率情報を可能性情報に含めることができるとともに、他の目的の一つとしての「遠回りしない」という目的に対応するのに適当な時間指標を予測情報の予め決められた指標に含めることができる。
また、実施形態において、移動体100は、アクチュエータ502の制御に応じて自律的に移動するパーソナルモビリティとして構成されている。このような構成によれば、複数の目的への対応を実現することが特に有効なパーソナルモビリティに実施形態の技術を適用することができる。
さらに、実施形態にかかる移動体制御装置500は、取得部510と、出力部520と、制御部530と、を備えている。
取得部510は、検知情報および目的地情報を取得するように構成されている。そして、出力部520は、検知情報および目的地情報の入力に応じて可能性情報および予測情報を出力するように、強化学習および教師あり学習の組み合わせにより予め生成された移動制御モデル521、つまり移動制御モデル生成装置200によるトレーニングを経た移動制御モデル211である移動制御モデル521を用いて、取得部510により取得された検知情報および目的地情報に対応した可能性情報および予測情報を出力するように構成されている。そして、制御部530は、出力部520により出力される可能性情報および予測情報に基づいて複数の動作から選択される少なくとも1つの動作を移動体100に実行させるように、移動体100のアクチュエータ502を制御するように構成されている。
上記のような移動体制御装置500によれば、強化学習および教師あり学習の組み合わせにより予め生成された移動制御モデル521を利用して、「移動体100を目的地Gまで到達させる」という目的を移動体100に達成させるために用いられる可能性情報と、他の目的を移動体100に達成させるために用いられる予測情報とを、検知情報および目的地情報の入力に応じて出力することができる。そして、可能性情報および予測情報に基づいて、複数の目的を移動体100に達成させるようにアクチュエータ502を適切に制御することができる。
<変形例>
上述した実施形態では、目的地への移動にあたり移動体が実行しうる複数の動作の各々が移動体の目的地への到達につながる可能性を示す可能性情報として、目的地への移動にあたり移動体が実行しうる複数の進行方向への移動動作の各々が移動体の目的地への到達につながる確率を示す確率情報が用いられる構成が例示されている。しかしながら、変形例として、進行方向と確率との関係を示す確率情報ではなく、移動体が実現しうる速度または加速度などと確率との関係を示す確率情報が用いられる構成も考えられる。また、さらなる変形例として、目的地への移動にあたり移動体が実行しうる複数の動作の各々が移動体の目的地への到達につながる可能性を確率以外の指標で示す可能性情報が確率情報に替えて用いられる構成も考えられる。
また、上述した実施形態では、予測情報の予め決められた指標が、移動体が目的地へ到達するのに要する時間、より具体的には、移動体が目的地まで到達するまでに要する所要時間、に関する時間指標として設計されている構成が主として例示されている。しかしながら、変形例として、予め決められた指標が、時間指標以外の指標として設計される構成も考えられる。時間指標以外の指標としては、たとえば、「移動体の乗り心地の悪化を抑制する」という目的に対応した、移動体に発生する加速度に関する指標などが考えられる。また、さらなる変形例として、予測情報の予め決められた指標が2つ以上の指標の組み合わせとして設計される構成も考えられる。
以上、本開示の実施形態および変形例を説明したが、上述した実施形態および変形例はあくまで一例であって、発明の範囲を限定することは意図していない。上述した新規な実施形態および変形例は、様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上述した実施形態および変形例は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 移動体
200 移動制御モデル生成装置
210 取得部
211 移動制御モデル
220 学習部
500 移動体制御装置
502 アクチュエータ
510 取得部
520 出力部
521 移動制御モデル
530 制御部

Claims (8)

  1. 移動体と当該移動体の周囲に存在するオブジェクトとの位置関係を示す検知情報と、前記移動体と当該移動体が到達すべき目的地との位置関係を示す目的地情報と、の入力に応じて、前記目的地への移動にあたり前記移動体が実行しうる複数の動作の各々が前記移動体の前記目的地への到達につながる可能性を示す可能性情報と、前記複数の動作の各々を前記移動体が実行した結果として変動しうる前記移動体の移動に関して予め決められた指標の予測結果を示す予測情報と、を出力するように構成され、前記移動体のアクチュエータを制御するための移動制御モデルを取得する取得部と、
    強化学習により、前記検知情報および前記目的地情報と、前記可能性情報と、の対応関係を、前記取得部により取得された前記移動制御モデルに学習させるとともに、教師あり学習により、前記検知情報および前記目的地情報と、前記予測情報と、の対応関係を、前記取得部により取得された前記移動制御モデルに学習させる学習部と、
    を備える、移動制御モデル生成装置。
  2. 前記可能性情報は、前記目的地への移動にあたり前記移動体が実行しうる前記複数の動作としての複数の移動方向への移動動作の各々が前記移動体の前記目的地への到達につながる確率を示す確率情報を含み、
    前記予測情報の前記予め決められた指標は、前記移動体が前記目的地へ到達するのに要する時間に関する時間指標を含む、
    請求項1に記載の移動制御モデル生成装置。
  3. 前記移動体は、前記アクチュエータの制御に応じて自律的に移動するパーソナルモビリティを含む、
    請求項1または2に記載の移動制御モデル生成装置。
  4. 移動体と当該移動体の周囲に存在するオブジェクトとの位置関係を示す検知情報と、前記移動体と当該移動体が到達すべき目的地との位置関係を示す目的地情報と、の入力に応じて、前記目的地への移動にあたり前記移動体が実行しうる複数の動作の各々が前記移動体の前記目的地への到達につながる可能性を示す可能性情報と、前記複数の動作の各々を前記移動体が実行した結果として変動しうる前記移動体の移動に関して予め決められた指標の予測結果を示す予測情報と、を出力するように構成され、前記移動体のアクチュエータを制御するための移動制御モデルを取得する取得ステップと、
    強化学習により、前記検知情報および前記目的地情報と、前記可能性情報と、の対応関係を、前記取得ステップにより取得された前記移動制御モデルに学習させるとともに、教師あり学習により、前記検知情報および前記目的地情報と、前記予測情報と、の対応関係を、前記取得ステップにより取得された前記移動制御モデルに学習させる学習ステップと、
    を備える、移動制御モデル生成方法。
  5. 移動体と当該移動体の周囲に存在するオブジェクトとの位置関係を示す検知情報と、前記移動体と当該移動体が到達すべき目的地との位置関係を示す目的地情報と、の入力に応じて、前記目的地への移動にあたり前記移動体が実行しうる複数の動作の各々が前記移動体の前記目的地への到達につながる可能性を示す可能性情報と、前記複数の動作の各々を前記移動体が実行した結果として変動しうる前記移動体の移動に関して予め決められた指標の予測結果を示す予測情報と、を出力するように構成され、前記移動体のアクチュエータを制御するための移動制御モデルを取得する取得ステップと、
    強化学習により、前記検知情報および前記目的地情報と、前記可能性情報と、の対応関係を、前記取得ステップにより取得された前記移動制御モデルに学習させるとともに、教師あり学習により、前記検知情報および前記目的地情報と、前記予測情報と、の対応関係を、前記取得ステップにより取得された前記移動制御モデルに学習させる学習ステップと、
    をコンピュータに実行させるための、移動制御モデル生成プログラム。
  6. 移動体と当該移動体の周囲に存在するオブジェクトとの位置関係を示す検知情報と、前記移動体と当該移動体が到達すべき目的地との位置関係を示す目的地情報と、を取得する取得部と、
    前記検知情報および前記目的地情報の入力に応じて、前記目的地への移動にあたり前記移動体が実行しうる複数の動作の各々が前記移動体の前記目的地への到達につながる可能性を示す可能性情報と、前記複数の動作の各々を前記移動体が実行した結果として変動しうる前記移動体の移動に関して予め決められた指標の予測結果を示す予測情報と、を出力するように、強化学習および教師あり学習の組み合わせにより予め生成された移動制御モデルを用いて、前記取得部により取得された前記検知情報および前記目的地情報に対応した前記可能性情報および前記予測情報を出力する出力部と、
    前記出力部により出力される前記可能性情報および前記予測情報に基づいて前記複数の動作から選択される少なくとも1つの動作を前記移動体に実行させるように、前記移動体のアクチュエータを制御する制御部と、
    を備える、移動体制御装置。
  7. 移動体と当該移動体の周囲に存在するオブジェクトとの位置関係を示す検知情報と、前記移動体と当該移動体が到達すべき目的地との位置関係を示す目的地情報と、を取得する取得ステップと、
    前記検知情報および前記目的地情報の入力に応じて、前記目的地への移動にあたり前記移動体が実行しうる複数の動作の各々が前記移動体の前記目的地への到達につながる可能性を示す可能性情報と、前記複数の動作の各々を前記移動体が実行した結果として変動しうる前記移動体の移動に関して予め決められた指標の予測結果を示す予測情報と、を出力するように、強化学習および教師あり学習の組み合わせにより予め生成された移動制御モデルを用いて、前記取得ステップにより取得された前記検知情報および前記目的地情報に対応した前記可能性情報および前記予測情報を出力する出力ステップと、
    前記出力ステップにより出力される前記可能性情報および前記予測情報に基づいて前記複数の動作から選択される少なくとも1つの動作を前記移動体に実行させるように、前記移動体のアクチュエータを制御する制御ステップと、
    を備える、移動体制御方法。
  8. 移動体と当該移動体の周囲に存在するオブジェクトとの位置関係を示す検知情報と、前記移動体と当該移動体が到達すべき目的地との位置関係を示す目的地情報と、を取得する取得ステップと、
    前記検知情報および前記目的地情報の入力に応じて、前記目的地への移動にあたり前記移動体が実行しうる複数の動作の各々が前記移動体の前記目的地への到達につながる可能性を示す可能性情報と、前記複数の動作の各々を前記移動体が実行した結果として変動しうる前記移動体の移動に関して予め決められた指標の予測結果を示す予測情報と、を出力するように、強化学習と教師あり学習との組み合わせにより予め生成された移動制御モデルを用いて、前記取得ステップにより取得された前記検知情報および前記目的地情報に対応した前記可能性情報および前記予測情報を出力する出力ステップと、
    前記出力ステップにより出力される前記可能性情報および前記予測情報に基づいて前記複数の動作から選択される少なくとも1つの動作を前記移動体に実行させるように、前記移動体のアクチュエータを制御する制御ステップと、
    をコンピュータに実行させるための、移動体制御プログラム。
JP2019189576A 2019-10-16 2019-10-16 移動制御モデル生成装置、移動制御モデル生成方法、移動制御モデル生成プログラム、移動体制御装置、移動体制御方法、および移動体制御プログラム Active JP7342600B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019189576A JP7342600B2 (ja) 2019-10-16 2019-10-16 移動制御モデル生成装置、移動制御モデル生成方法、移動制御モデル生成プログラム、移動体制御装置、移動体制御方法、および移動体制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019189576A JP7342600B2 (ja) 2019-10-16 2019-10-16 移動制御モデル生成装置、移動制御モデル生成方法、移動制御モデル生成プログラム、移動体制御装置、移動体制御方法、および移動体制御プログラム

Publications (2)

Publication Number Publication Date
JP2021064268A JP2021064268A (ja) 2021-04-22
JP7342600B2 true JP7342600B2 (ja) 2023-09-12

Family

ID=75486355

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019189576A Active JP7342600B2 (ja) 2019-10-16 2019-10-16 移動制御モデル生成装置、移動制御モデル生成方法、移動制御モデル生成プログラム、移動体制御装置、移動体制御方法、および移動体制御プログラム

Country Status (1)

Country Link
JP (1) JP7342600B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018106466A (ja) 2016-12-27 2018-07-05 株式会社日立製作所 制御装置及び制御方法
US10254759B1 (en) 2017-09-14 2019-04-09 Waymo Llc Interactive autonomous vehicle agent

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0876810A (ja) * 1994-09-06 1996-03-22 Nikon Corp 強化学習方法及び装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018106466A (ja) 2016-12-27 2018-07-05 株式会社日立製作所 制御装置及び制御方法
US10254759B1 (en) 2017-09-14 2019-04-09 Waymo Llc Interactive autonomous vehicle agent

Also Published As

Publication number Publication date
JP2021064268A (ja) 2021-04-22

Similar Documents

Publication Publication Date Title
US11231717B2 (en) Auto-tuning motion planning system for autonomous vehicles
JP6615840B2 (ja) 自律走行車の個人運転好みの認識方法及びシステム
JP6674019B2 (ja) 自律走行車を運行させるための制御エラー補正計画方法
JP6539408B2 (ja) 学習に基づくモデル予測制御を利用して自律走行車の路面摩擦を決定する方法及びシステム
US9738278B2 (en) Creation of an obstacle map
CN111380534B (zh) 用于自动驾驶车辆的基于st图学习的方法
JP6550678B2 (ja) 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム
KR20210006971A (ko) 지오로케이션 예측을 위한 시스템 및 방법
CN108885836A (zh) 驾驶辅助方法和利用该驾驶辅助方法的驾驶辅助装置、自动驾驶控制装置、车辆、驾驶辅助系统以及程序
US11602854B2 (en) Method and apparatus for controlling behavior of service robot
JP2020200033A (ja) 視覚ベース知覚システムによる敵対的サンプルの検出
US11170266B2 (en) Apparatus and method for identifying object
US11964671B2 (en) System and method for improving interaction of a plurality of autonomous vehicles with a driving environment including said vehicles
US11631028B2 (en) Method of updating policy for controlling action of robot and electronic device performing the method
KR20190098735A (ko) 차량 단말 및 그의 동작 방법
CN111007858A (zh) 车辆行驶决策模型的训练方法、行驶决策确定方法及装置
KR102675698B1 (ko) 자율 주행 방법 및 장치
US20210019644A1 (en) Method and apparatus for reinforcement machine learning
JP2021077359A (ja) 単眼画像を用いた深度推定のためのシステムおよび方法
CN110942181A (zh) 一种障碍物轨迹预测的方法及装置
JPWO2021127417A5 (ja)
KR20210022941A (ko) Slam을 구현하는 방법 및 전자 장치
US12061481B2 (en) Robot navigation using a high-level policy model and a trained low-level policy model
KR102246418B1 (ko) 차선 유지 제어 방법 및 그 장치
JP7342600B2 (ja) 移動制御モデル生成装置、移動制御モデル生成方法、移動制御モデル生成プログラム、移動体制御装置、移動体制御方法、および移動体制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220908

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230727

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230814

R150 Certificate of patent or registration of utility model

Ref document number: 7342600

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150