JP6706223B2 - 移動体制御方法、移動体制御装置、及びプログラム - Google Patents

移動体制御方法、移動体制御装置、及びプログラム Download PDF

Info

Publication number
JP6706223B2
JP6706223B2 JP2017103409A JP2017103409A JP6706223B2 JP 6706223 B2 JP6706223 B2 JP 6706223B2 JP 2017103409 A JP2017103409 A JP 2017103409A JP 2017103409 A JP2017103409 A JP 2017103409A JP 6706223 B2 JP6706223 B2 JP 6706223B2
Authority
JP
Japan
Prior art keywords
moving body
control
feature amount
deduction
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017103409A
Other languages
English (en)
Other versions
JP2018198031A (ja
Inventor
后宏 水谷
后宏 水谷
吉田 学
学 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017103409A priority Critical patent/JP6706223B2/ja
Publication of JP2018198031A publication Critical patent/JP2018198031A/ja
Application granted granted Critical
Publication of JP6706223B2 publication Critical patent/JP6706223B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)

Description

本開示は、移動体の動作を制御する技術に関する。
移動体の動作を制御する技術として、障害物を回避するように移動体を操縦する研究がなされている。
R. S. Sutton and A. G. Barto, Introduction to reinforcement learning, MIT Press Cambridge, 1998, vol. 135. V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski et al., "Human−level control through deep reinforcement learning", Nature, vol. 518, no. 7540, pp. 529−533, 2015. H. Van Hasselt, A. Guez, and D. Silver, "Deep reinforcement learning with double q−learning", in AAAI, pp. 2094−2100, 2016.
しかし、移動体の回避すべき対象は障害物だけではない。物理的に移動体が「通過可能」ではあるが、ペナルティが与えられるような対象も回避すべき対象といえる。例えば、シューティングゲームにおける減点対象区間や、自動車の運転における交通規則も回避すべき対象といえる。以下、障害物とともに、このような回避すべき対象を「減点対象」と記載する。従来、このような減点対象を回避する研究はなされていない。
さらに、従来と同様に減点対象の回避時に移動体の速度をなるべく下げないことも求められる。そこで、本発明は、自律的に減点対象を回避でき、減点対象の回避時に移動体の速度低下を防止できる移動体制御方法、移動体制御装置、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る移動体制御方法及び装置は、障害物だけではなくペナルティが与えられるエリアや法規則をも含む減点対象を回避するために、移動体と法規制との関係性も数値化(距離に変換)して特徴量ベクトルに含ませ、移動体の速度、制御指針による減点対象回避の可否、並びに距離の総和からなる報酬値を利用して強化学習を行い、新たな制御指針を算出することとした。
具体的には、本発明に係る移動体制御方法は、
移動体の位置及び前記移動体に対する複数の減点対象を取得する状態把握手順と、
前記移動体の位置から前記移動体の現在の速度を算出し、前記移動体と前記減点対象との関係を前記減点対象ごとに数値化し、現在の前記速度及び数値化した前記関係の特徴量ベクトルを取得する特徴量抽出手順と、
前記特徴量ベクトルに対して、現在の前記速度、数値化した前記関係、及び前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果を含む報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御手順と、
を行う。
また、本発明に係る移動体制御装置は、
移動体の位置及び前記移動体に対する複数の減点対象を取得する状態把握部と、
前記移動体の位置から前記移動体の現在の速度を算出し、前記移動体と前記減点対象との関係を前記減点対象ごとに数値化し、現在の前記速度及び数値化した前記関係の特徴量ベクトルを取得する特徴量抽出部と、
前記特徴量ベクトルに対して、現在の前記速度、数値化した前記関係、及び前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果を含む報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御部と、
を備える。
本発明に係る移動体制御方法及び装置は、減点対象を考慮して移動体の制御指針を強化学習にて求める。そして、報酬値に移動体の速度をパラメータとして加えたので、移動体の減点対象の回避時になるべく速度を下げないような制御が可能となった。従って、本発明は、自律的に減点対象を回避でき、減点対象の回避時に移動体の速度低下を防止できる移動体制御方法及び移動体制御装置を提供することができる。
本発明に係る移動体制御方法及び移動体制御装置は、前記特徴量ベクトルが前記減点対象の軌跡を含むことを特徴とする。減点対象が動的に動く場合に対応できる。
本発明に係るプログラムは、前記移動体制御方法を実行させるためのプログラムである。本発明に係る移動体制御方法及び移動体制御装置は、コンピュータとプログラムによっても実現でき、プログラムを記録媒体に記録することも、ネットワークを通して提供することも可能である。
本発明は、自律的に減点対象を回避でき、減点対象の回避時に移動体の速度低下を防止できる移動体制御方法、移動体制御装置、及びプログラムを提供することができる。
本発明に係る移動体制御方法を説明するフローチャートである。 本発明に係る移動体制御方法で使用する移動体の特徴量ベクトルを説明する図である。 本発明に係る移動体制御方法を行った結果を説明する図である。 本発明に係る移動体制御装置を説明する図である。
添付の図面を参照して本発明の実施形態を説明する。以下に説明する実施形態は本発明の実施例であり、本発明は、以下の実施形態に制限されるものではない。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。
図4は、本実施形態の移動体制御装置を説明するブロック図である。本移動体制御装置は、
移動体の位置及び前記移動体に対する複数の減点対象を取得する状態把握部11と、
前記移動体の位置から前記移動体の現在の速度を算出し、前記移動体と前記減点対象との関係を前記減点対象ごとに数値化し、現在の前記速度及び数値化した前記関係の特徴量ベクトルを取得する特徴量抽出部12と、
前記特徴量ベクトルに対して、現在の前記速度、数値化した前記関係、及び前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果を含む報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御部13と、
を備える。
図1は、本実施形態の移動体制御方法を説明するフローチャートである。本移動体制御方法は、
状態把握部11が、移動体の位置及び前記移動体に対する複数の減点対象を取得する状態把握手順S11と、
特徴量抽出部12が、前記移動体の位置から前記移動体の現在の速度を算出し、前記移動体と前記減点対象との関係を前記減点対象ごとに数値化し、現在の前記速度及び数値化した前記関係の特徴量ベクトルを取得する特徴量抽出手順S12と、
学習制御部13が、前記特徴量ベクトルに対して、現在の前記速度、数値化した前記関係、及び前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果を含む報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御手順S13と、
を行う。
強化学習とは、状態、行動及び報酬の値を環境に応じて設定し、設定した全ての状態にて報酬の累積和を最大化する行動を算出する方法であり、障害物回避等の技術に応用されている。本移動体制御装置が行う減点対象回避制御は、状態把握部11、特徴量抽出部12、及び学習制御部13の3つのモジュールを用いて達成される。
状態把握部11は、現在の移動体の位置等の情報を取得し、特徴量抽出部12は、当該情報の空間特徴量を算出する部分である。学習制御部13は、得られた特徴量をもとに、制御指針(例えば、加減速の程度、旋回等)を強化学習にて求め、実行する部分である。
〔状態把握部〕
状態把握部11は、位置情報の取得等を既存の技術によって得る。例えば、状態把握部11は、移動体自身の位置や速度、及び移動体の前方の減点対象を移動体に取り付けられたセンサー、GPS情報及び予め入力された情報(地図やルール(例:進入禁止区域等の情報))から得ることができる。
〔特徴量抽出部〕
特徴量抽出部12は、状態把握部11からの情報に基づき、移動体の現在の速度(履歴)vと、360度方向に対する各角度方向(θ, θ, ..., θ)にある減点対象との距離(d(θ)、i=1〜n)とを特徴量として検出する。各距離は、任意の定数より大きいものを1、小さいものを0として[0,1]に正規化する。ここで、1を超える場合は1とみなし、0を下回るものは0とみなす。なお、進入禁止区域等のルールについては、当該区域までの距離を用いる。また、時間によって変動するルール(例:時間指定の進入禁止)については、距離の次元だけでなく、時間の次元を含めた多次元空間を加味し、進入禁止になるまでの時空間距離を特徴量に利用する。特徴量(速度vと距離d(θ))のベクトルを学習制御部13に伝達する。図2は特徴量を説明する図である。
なお、減点対象が動的に動く場合は、その軌跡“histories”も特徴量ベクトルに含むこととし、減点対象以外の動作物“etc”に関しても同様に、特徴量ベクトルに含むものとする。以下に、特徴量ベクトル表記の一例を示す。
Figure 0006706223
〔学習制御部〕
学習制御部13は、得られた特徴量ベクトルに対して、減点対象を回避するための最適な制御指針を決定するために、強化学習を用いる。強化学習では、現在(時刻t)、観測している特徴量ベクトルsに対して、制御指針aを実行した際に得られる数2の報酬値を用いて、sにおける制御指針aの価値Q(s,a)を数3のように更新する。
Figure 0006706223
Figure 0006706223
α(0≦α≦1)は学習率を示し、γ(0≦γ≦1)は割引率を示している。αが大きい場合には最新の報酬を重視し、αが1の場合には、過去の報酬を全く考慮しない。また、γは遷移先の状態に対する制御評価値が現在の制御評価値に与える影響を表し、γが0の時は遷移先の状態st+1に対する制御評価値が現在の状態sの制御評価値に依存しない。
この更新式は、Q学習(例えば、非特許文献1を参照。)と呼ばれており、上記の更新を再帰的に行うことで、最も大きい報酬値を得ることのできる制御の評価値Q(s,a)を理論上、最大にすることが可能とされる。
次に、減点対象を速度を保ちつつ回避するための報酬関数は、移動体の加速動作と移動体の回避動作の結果B(a)、現在の状態sにおける、各角度における減点対象までの距離を含む任意の関数(f)を用いて構成されるものとする。
Figure 0006706223
B(a)は、数5の3つの値域をとる値であり、図3にその概要を示す。
Figure 0006706223
減点対象を速度を保ちつつ回避するための報酬関数は、移動体の加速動作と移動体の回避動作の結果B(s)、減点対象までの距離を加味することで、減点対象の回避精度を向上させることが可能となる。その効果は実験によって確認できた。なお、特徴量の数や値域によりQ(s,a)が膨大になる場合がある。この場合、深層強化学習(例えば、非特許文献2、3を参照。)を用いることで計算時間を短縮することが可能になる。
本発明に係る移動体制御方法及び装置は、コンピュータによって制御可能な移動体を制御し、センサーやカメラ等にて減点対象(障害物、障害区間、制限区間)を認識し、移動体の動きを止めずして回避運動を行うことができる。
本発明は、外部から操作可能な小型飛行機や車等の自律制御に応用することが可能である。
11:状態把握部
12:特徴量抽出部
13:学習制御部

Claims (5)

  1. 移動体の位置及び前記移動体に対する複数の減点対象を取得する状態把握手順と、
    前記移動体の位置から前記移動体の現在の速度を算出し、前記移動体と前記減点対象との関係を前記減点対象ごとに数値化し、現在の前記速度及び数値化した前記関係の特徴量ベクトルを取得する特徴量抽出手順と、
    前記特徴量ベクトルに対して、現在の前記速度、数値化した前記関係、及び前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果を含む報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御手順と、
    を行う移動体制御方法。
  2. 前記特徴量ベクトルが前記減点対象の軌跡を含むことを特徴とする請求項1に記載の移動体制御方法。
  3. 移動体の位置及び前記移動体に対する複数の減点対象を取得する状態把握部と、
    前記移動体の位置から前記移動体の現在の速度を算出し、前記移動体と前記減点対象との関係を前記減点対象ごとに数値化し、現在の前記速度及び数値化した前記関係の特徴量ベクトルを取得する特徴量抽出部と、
    前記特徴量ベクトルに対して、現在の前記速度、数値化した前記関係、及び前記移動体に加減速と方向転換の少なくとも一つをさせる制御指針を行った結果を含む報酬値を用いて強化学習を行い、新たな制御指針を算出して前記移動体の制御を行う学習制御部と、
    を備える移動体制御装置。
  4. 前記特徴量ベクトルが前記減点対象の軌跡を含むことを特徴とする請求項3に記載の移動体制御装置。
  5. 請求項1又は2に記載の移動体制御方法を実行させるためのプログラム。
JP2017103409A 2017-05-25 2017-05-25 移動体制御方法、移動体制御装置、及びプログラム Active JP6706223B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017103409A JP6706223B2 (ja) 2017-05-25 2017-05-25 移動体制御方法、移動体制御装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017103409A JP6706223B2 (ja) 2017-05-25 2017-05-25 移動体制御方法、移動体制御装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018198031A JP2018198031A (ja) 2018-12-13
JP6706223B2 true JP6706223B2 (ja) 2020-06-03

Family

ID=64663516

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017103409A Active JP6706223B2 (ja) 2017-05-25 2017-05-25 移動体制御方法、移動体制御装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP6706223B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220017106A1 (en) * 2018-12-26 2022-01-20 Mitsubishi Electric Corporation Moving object control device, moving object control learning device, and moving object control method
JP7407401B2 (ja) * 2019-03-04 2024-01-04 パナソニックIpマネジメント株式会社 制御システム、及び制御方法
CN112162555B (zh) * 2020-09-23 2021-07-16 燕山大学 混合车队中基于强化学习控制策略的车辆控制方法
CN116540553B (zh) * 2023-07-05 2023-08-25 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于强化学习的移动机器人安全运动方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06161551A (ja) * 1992-11-19 1994-06-07 Mitsubishi Heavy Ind Ltd 自律移動物体の障害物回避システム
JP4269055B2 (ja) * 2004-03-31 2009-05-27 国立大学法人広島大学 障害物回避装置および移動体
JP5052013B2 (ja) * 2005-03-17 2012-10-17 ソニー株式会社 ロボット装置及びその制御方法
JP5750657B2 (ja) * 2011-03-30 2015-07-22 株式会社国際電気通信基礎技術研究所 強化学習装置、制御装置、および強化学習方法

Also Published As

Publication number Publication date
JP2018198031A (ja) 2018-12-13

Similar Documents

Publication Publication Date Title
JP6706223B2 (ja) 移動体制御方法、移動体制御装置、及びプログラム
CN110036353B (zh) 用于控制地面车辆横向运动的方法和系统
Drews et al. Aggressive deep driving: Combining convolutional neural networks and model predictive control
JP6668375B2 (ja) 比例、積分及び微分(pid)コントローラを用いた自律走行車のステアリング制御方法及びシステム
CN108698595A (zh) 用于控制车辆运动的方法和车辆的控制系统
CN109318890A (zh) 一种基于动态窗口及障碍物势能场的无人车动态避障方法
KR101475826B1 (ko) 백스테핑 기법을 이용한 선도 추종자 대형제어 장치, 방법 및 이동로봇
JP6959056B2 (ja) 移動ロボットの制御装置と制御方法
US11597388B2 (en) System and method for connected vehicle lane merge
Drews et al. Aggressive deep driving: Model predictive control with a cnn cost model
US20200285202A1 (en) Control device, unmanned system, control method, and program
EP3164786B1 (en) Apparatus and method for determining an intended target
CN108391429A (zh) 用于自主车辆速度跟随的方法和系统
Dobrevski et al. Adaptive dynamic window approach for local navigation
US11320269B2 (en) Information processing apparatus, information processing method, and information processing program
KR102303126B1 (ko) 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템
US11358612B2 (en) Method for controlling an automated or autonomous locomotive device, and evaluation unit
KR101605994B1 (ko) 미지의 스키딩과 슬리핑을 갖는 이동 로봇을 위한 적응적 선도-추종 군집 제어 방법 및 그 장치
CN111399534B (zh) 多无人机对空中高速运动目标的围捕方法及系统
Ferrari et al. A potential field approach to finding minimum-exposure paths in wireless sensor networks
CN114667494A (zh) 机器人控制模型学习方法、机器人控制模型学习装置、机器人控制模型学习程序、机器人控制方法、机器人控制装置、机器人控制程序以及机器人
van Breugel et al. Active anemosensing hypothesis: how flying insects could estimate ambient wind direction through sensory integration and active movement
CN112711255A (zh) 移动机器人避障方法、控制设备及存储介质
Clark et al. Proportional navigation based guidance laws for UAV obstacle avoidance in complex urban environments
JP2007178049A (ja) 飛翔体誘導装置と目標会合時間予測方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190628

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200512

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200515

R150 Certificate of patent or registration of utility model

Ref document number: 6706223

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150