JP6854549B2 - 強化学習に基づくauv行動計画及び動作制御の方法 - Google Patents
強化学習に基づくauv行動計画及び動作制御の方法 Download PDFInfo
- Publication number
- JP6854549B2 JP6854549B2 JP2020139299A JP2020139299A JP6854549B2 JP 6854549 B2 JP6854549 B2 JP 6854549B2 JP 2020139299 A JP2020139299 A JP 2020139299A JP 2020139299 A JP2020139299 A JP 2020139299A JP 6854549 B2 JP6854549 B2 JP 6854549B2
- Authority
- JP
- Japan
- Prior art keywords
- auv
- reward
- target
- wall
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 56
- 230000033001 locomotion Effects 0.000 title claims description 42
- 230000002787 reinforcement Effects 0.000 title claims description 26
- 230000010391 action planning Effects 0.000 title claims description 21
- 230000009471 action Effects 0.000 claims description 93
- 230000006399 behavior Effects 0.000 claims description 53
- 238000001514 detection method Methods 0.000 claims description 38
- 230000007613 environmental effect Effects 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 34
- 230000008569 process Effects 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 238000013461 design Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 7
- 238000013459 approach Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000003542 behavioural effect Effects 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 5
- 230000007423 decrease Effects 0.000 claims description 4
- 238000012938 design process Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 7
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 239000012530 fluid Substances 0.000 description 3
- 238000003973 irrigation Methods 0.000 description 3
- 230000002262 irrigation Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Artificial Intelligence (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Aviation & Aerospace Engineering (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Description
水中ロボットによるトンネル検出を総タスク、即ちタスクとして定義し、タスクを完了するための行動には、ターゲットへの移動、壁追跡及び障害物回避が含まれ、ロボットが計画する行動を水中で完了するために生じる具体的な制御命令を動作として定義するステップと、
AUVはトンネル検出タスクを実行するときに、検出対象の水中環境に基づいて、ディープ強化学習DQNアルゴリズムを用いて行動計画をリアルタイムで行い、つまり、マルチ行動ネットワーク呼び出しに基づく行動計画アーキテクチャを構築し、タスクのニーズに応じて3つの行動の環境状態特徴の入力及び出力の動作を定義して、対応するディープ学習の行動ネットワークを構築し、報酬関数を設計するステップと、
計画システムがトレーニング済み行動ネットワークを呼び出すことでトンネル検出タスクを完了するステップと、
制御システムがトレーニング済み動作ネットワークを呼び出すことで計画された行動を完了するステップと、を含む。
前記強化学習に基づくAUV行動計画及び動作制御方法において、対応するディープ学習の行動ネットワークを構築し、報酬関数を設計する前記過程においては、以下のステップを含み、
トンネル検出タスクを行動シーケンスに分解し、グローバル経路計画において事前環境情報に基づいて複数の実現可能な経路ポイントを計画し、AUVが配置位置から出発し、各経路ポイントに順次到着し、
経路ポイントが既知環境下のグローバル計画であるため、航渡過程において、AUVはリアルタイム環境状態に基づいて、障害物回避行動を呼び出して安全に経路ポイントに到着し、トンネル検出タスクのうちAUVは主に壁追跡行動を呼び出し、所定の検出目標に従ってタスクを完了し、
決定モジュールは、グローバルデータ、決定システム、行動ライブラリ及び評価システムを含み、グローバルデータにタスク情報、状況情報、計画知識が記憶されており、決定システムは、DQNアルゴリズムと組み合わせた自学習計画システムであり、トレーニングされておき、計画タスクを実行するに先立って行動ライブラリからトレーニング済みネットワークパラメータを抽出し、次に現在の環境状態情報を入力として現在の行動動作を計画し、評価システムは、強化学習アルゴリズムの報酬関数システムであり、AUVが1つの行動動作計画を計画して実行するたびに、状態環境とタスク情報に基づいて報酬を提供し、すべてのデータはグローバルデータベースに記憶されており
前記行動のうちターゲットへの移動過程においては、以下のステップを含み、
ターゲットポイントへの移動行動は、AUVが障害物を検知しないときに向首角を調整しながらターゲットポイントへ航行することであり、特徴入力量として主にAUVとターゲットポイントの位置と角度の関係を考慮し、具体的には、現在のAUV位置座標(xAUV,yAUV)、ターゲットポイント座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βの計6次元の入力を設定し、その中でも、ターゲット向首角βはAUVがターゲットへ航行しているときの向首角であり、
報酬関数については、ターゲットへの移動行動によりAUVが障害物無し環境でターゲットポイントへ航行するときに、報酬関数は2項に設定され、
第1項r11はAUVとターゲットポイントの距離の変化を考慮し、
α=θ−βであり、
αの絶対値が小さいほど、取得する報酬値が大きく、具体的には、
r12=kAcos(α)
式中、kAはターゲットへの移動過程に対応する報酬係数であり、
総報酬値は2項を加重したものであり、
r1=k11r11+k12r12
式中、k11、k12はそれぞれ加重値であり、
前記行動のうち壁追跡過程においては、以下のステップを含み、
AUV壁追跡行動は、AUVと壁の距離及び相対角度の情報を考慮し、AUVは、一方の側に配置された前後にある2つのレンジングソナーを通じて壁からのAUVの距離x4とx5を取得し、
方位磁針で現在のAUV向首角θを取得して、現在の壁角度θwallを推定し、
報酬関数は、AUVができるだけ壁に平行し、壁とは一定の距離を保持するようにし、仮想ターゲットポイントに基づく壁追跡行動の報酬信号が主に4項に設定され、一般的な壁追跡行動の報酬信号が主に2項に設定され、
第1項は、式(6)のようにAUVと現在の壁がなす角度を考慮し、AUVと壁の角度が増大し閾値を超えると、負の報酬値を取得し、AUVと壁の角度が減少すると、正の報酬値を取得し、
r2=k21r21+k22r22
式中、k21、k22はそれぞれ加重値であり、
仮想ターゲットポイントに基づく追跡では、この仮想ターゲットポイントは外直角と内直角の壁により作成された仮想ターゲットポイントであり、環境が外直角である場合、前側のソナーが障害物を検知していないときに入力が最大検出距離であるので、仮想壁が構築され、仮想ターゲットポイントが追加され、環境が内直角である場合、前方ソナーが壁を検知したとき、AUVが対向する現在のターゲット壁の他方の側で仮想ターゲットポイントが構築され、
仮想ターゲットポイントに基づく報酬関数の構築は、以下のとおりであり、
式中、kBは壁追跡過程に対応する報酬係数であり、
仮想ターゲットポイントに基づく追跡行動の総報酬rは4項の報酬を加重したものであり、
r2=k21r21+k22r22+k23r23+k24r24
式中、k23、k24はそれぞれ加重値であり、
AUVが次の部分の壁を追跡するまで徐々に調整したとき、たとえば、外直角環境におけるレンジングソナーが再度ターゲット壁を検知したか、内直角環境における前方ソナーがさらに前方の壁を検知しない場合、仮想ターゲットポイントを削除し、一般的な壁追跡行動ネットワークを呼び出し、
前記行動のうち障害物回避過程においては、以下のステップを含み、
AUV障害物回避行動のニーズについて、環境状態の特徴入力は3つの前方ソナーと両側のそれぞれに設けられたフロントソナーのデータを含み、AUVは、障害物を回避しながらターゲットポイントの方向へ近づき、特徴入力はAUVの現在の位置座標(xAUV,yAUV)、ターゲットポイント位置座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βの計11次元の入力をさらに含み、
報酬関数については、報酬信号が3項に分けられ、第1項は障害物に対するAUV距離に基づいて得られた報酬値r31であり、AUVが障害物に近づくと、負の報酬の警告を取得し、AUVが障害物から離間すると、正の報酬を取得し、AUVが障害物から離間して航行するように促し、障害物と衝突すると報酬値−1を取得し、現在のトレーニング周期を終了し、
r33=kccos(α)
式中、kCは壁障害物の回避過程に対応する報酬係数であり、
最後の総報酬信号はこの3項の報酬値を加重したものに等しく、
r3=k31r31+k32r32+k33r33
式中、k31〜k33はそれぞれ加重値であり、
強化学習は、動作から環境へのマッピングをトレーニングするものであり、ロボットを環境として、DDPGトレーニングを通じて力とトルクを得て水中ロボットに作用させ、AUVモデルを用いて計算することによりロボットの速度と角速度を得て、速度、角速度とターゲット速度、ターゲット角速度との誤差を利用して報酬値r4=−|△v+△Ψ|を設計し、ここで△vは速度誤差であり、△Ψは向首誤差であり、
また、トレーニング中のAUVモデルにランダム干渉力を追加することで、DDPGに基づく制御システムをトレーニングにより得て、制御システムのトレーニングが完了した後、ロボットの現在の位置及びターゲット経路から、経路追跡戦略に従ってターゲット命令を得て、DDPG制御システムを用いてロボットを計画命令に従うように制御する。
1、本発明で設計された3層計画システムは、総タスクをターゲットへの移動と障害物回避のサブ動作に分解し、環境状態モデルと報酬関数を設計し、動作中の戦略最適化により空間次元を削減し、それによって、複雑な環境モデルでも安全で衝突のない経路を計画することができ、「次元の呪い」の問題を解決する。
また、本発明は、インテリジェントレベルが高く、計画が手動プログラミングに依存する必要がなく、人工経験によらずにロボット制御を実現することができる。
2、本発明は、ディープ強化学習アルゴリズムを行動計画システムに適用し、ニューラルネットワークを介して高次元データ特徴を抽出することで、連続的な環境状態での検知の問題を解決し、また強化学習を使用して行動決定計画を行うものである。トンネル検出タスクのニーズに応じて、ターゲットポイントへの移動、壁追跡、障害物回避という3つの典型的な動作が定義され、動作ごとに動作ネットワークが構築され、対応する環境状態変数と報酬関数が設計されて、壁の隅の問題については、仮想ターゲットポイントに基づく追跡方法が提案される。各動作は対応する目標に達しており、各動作ネットワークを呼び出すことでトンネル検出タスクを完了し、それにより、アルゴリズムは、安定性が高く、汎化能力が強い。
3、本発明は、AUVの運動学モデルを環境として、力から速度へのマッピング関係をトレーニングしているため、本発明の制御方法は、正確な環境モデルを必要とせず、トレーニング経験が制限され、実環境への適用が困難であるという問題を解決し、他のインテリジェント制御アルゴリズムの研究と比較して、普遍的な適応性を有し、一度だけトレーニングに成功すると、さまざまなタスクに適用できる。
本実施形態は、強化学習に基づくAUV行動計画及び動作制御方法である。
(1)自律型無人潜水機のタスクの階層的設計
(2)行動計画システムの構築
(3)DDPG制御アルゴリズムに基づく設計。
水中ロボットによるトンネル検出タスクを階層化するには、自律型無人潜水機によるトンネル検出タスク、行動及び動作の概念を定義し、つまり、自律型無人潜水機によるトンネル検出を総タスクとして定義し、総タスクを完了するためには、ターゲットへの移動、壁追跡及び障害物回避という3つの典型的な行動を定義し、ロボットが水中で航行して計画された行動を完了するために生じる特定の制御命令を動作として定義し、たとえば、n度左折、n度右折、nノットの速度での前進などがある。
AUVは、トンネル検出タスクを実行する際に、タスクのニーズに応じて、グローバル経路計画によって指定されたクリティカル経路ポイントに順次到着する。ただし、実際の作業過程では、急に現れた障害物やトンネル壁の損傷によるトンネル壁環境の変化など、未知の環境情報が存在するため、安全性を確保するために、AUVは環境情報と自身の状況に基づいてタイムリーに応答する必要がある。ディープ強化学習に基づく行動計画システムは、反応式に基づく計画アーキテクチャを採用しており、環境状態と動作の間のマッピング関係を構築することにより、AUVは環境の変化に応じて動作をすばやく計画することができ、緊急環境変化に対するAUVの対処能力を向上できる。
AUVは、トンネル検出タスクを実行する過程に亘って、予めグローバルに計画されたターゲットポイントに到着する必要があり、経路を最短にするために、ターゲットポイントへの移動行動は、AUVが障害物を検知していないときに向首角を調整しながらターゲットポイントへ航行するようにし、したがって、ターゲットへの移動行動過程におけるAUVのリアルタイム向首をできるだけターゲット方向付近に制御する必要がある。ターゲットへの移動行動のニーズに応じて、図2に示すように、特徴入力量は主にAUVとターゲットポイントの位置及び角度の関係を考慮し、具体的には、現在のAUV位置座標(xAUV,yAUV)、ターゲットポイント座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βの計6次元の入力を設定する。ターゲット向首角βは、AUVがターゲットへ航行しているときの向首角である。
ターゲットへの移動行動は、主にAUVが障害物無し環境でターゲットポイントへ航行するように駆動し、したがって、具体的な報酬関数は、2項に設定され、第1項r11はAUVとターゲットポイントの距離の変化を考慮し、具体的には、
α=θ−β (2)であり、
αの絶対値が小さいほど、取得する報酬値が大きく、具体的には、
r12=kAcos(α) (3)
式中、kAはターゲットへの移動過程に対応する報酬係数であり、
総報酬値は2項を加重したものであり、
r1=k11r11+k12r12 (4)
式中、k11、k12はそれぞれ加重値である。
ほとんどのトンネルの距離が長いため、水利プロジェクト全体が10km以上に達する可能性があり、AUVがトンネルの入口に入ると、手動による介入が困難になり、このため、AUVがトンネル環境に応じて自律的に検出タスクを完了することが求められる。衝突を回避するには、AUVは壁から安全な距離だけ離れる必要があり、そして、水中の光源や視認性などによって制限されて、AUVと壁の間の距離が画像収集の品質にも直接影響し、したがって、AUVには、壁から一定の距離を保持しながら壁に沿って航行する能力が求められる。
AUVの壁追跡行動学習において、報酬関数は、AUVができるだけ壁に平行し、壁となす角度を約0°に維持し、壁とは一定の距離を保持するようにすることに用いられる。
r2=k21r21+k22r22 (8)
式中、k21、k22はそれぞれ加重値である。
一般的な壁環境では、壁追跡行動には、ターゲットの向首角とターゲットの追跡距離のみを考慮すればよく、ターゲットへの移動行動や障害物回避行動に比べて、実際ターゲットポイントによる案内がないので、壁の隅などのような特殊な環境の場合は、正確な計画結果を提供することができない。壁の隅の問題は、AUV壁追跡行動における主な難問であり、本発明では、主に2種類の壁の隅の環境、つまり外直角環境と内直角環境を考慮する。壁の隅の環境の特殊性のため、外直角を追跡する場合、AUVの前方にあるレンジングソナーが壁を検出できず、AUVはタイムリーに向首角を調整できず、ターゲットを失うことがある。内側の壁の隅の場合、基本報酬の設計に前方の障害物を考慮しないので、衝突が発生する。
式中、kBは壁追跡過程に対応する報酬係数であり、
仮想ターゲットポイントに基づく追跡行動の総報酬rは4項の報酬を加重したものである。
r2=k21r21+k22+r22+k23r23+k24r24 (15)
式中、k23、k24はそれぞれ加重値であり、
報酬係数k23とk24値が大きいため、壁の隅の環境ではAUVは仮想ターゲットポイントにより案内される傾向がある。
障害物回避行動は、行動計画システムのキーであり、AUVの自律的決定レベルを決定し、AUVが作業タスクを安全的に実施できるかを左右する。
障害物回避行動は、AUVが急に現れた障害物を回避しターゲットポイントに順調に到着するようにするために用いられ、したがって、報酬信号分が3項に分けられ、第1項は障害物に対するAUV距離に基づいて得られた報酬値r31であり、式16に示すように、AUVが障害物に近づくと、負の報酬の警告を取得し、AUVが障害物から離間すると、正の報酬を取得し、AUVが障害物から離間して航行するように促し、障害物と衝突すると報酬値−1を取得し、現在のトレーニング周期を終了する。
r33=kccos(α) (18)
式中、kCは障害物回避過程に対応する報酬係数であり、
最後の総報酬信号はこの3項の報酬値を加重したものに等しく、
r3=k31r31+k32r32+k33r33 (19)
式中、k31〜k33はそれぞれ加重値である。
強化学習は、動作から環境へのマッピングをトレーニングするものであり、ロボットモデルを環境モデルとして、動作からロボットモデルへのマッピングをトレーニングすることができる。したがって、本発明では、直接ロボットを環境として、ファジー流体力学パラメータのロボットの運動学及び動力学モデル、即ちAUVモデルを作成し、DDPGトレーニングを通じて力とトルクを得て水中ロボットに作用させ、AUVモデルを用いて計算することによりロボットの速度と角速度を得て、速度、角速度とターゲット速度、ターゲット角速度との誤差を利用して報酬値r4=-|△v+△Ψ|を設計し、ここで、△vは速度誤差であり、△Ψは向首誤差である。また、トレーニング中のAUVモデルにランダム干渉力を追加することで、動的に変化している水中環境をシミュレーションし、それにより、抗干渉能力を有するDDPGに基づく完全な制御システムがトレーニングにより得られる。制御システムのトレーニングが完了した後、ロボットの現在の位置及びターゲット経路から、経路追跡戦略に従ってターゲット命令を得て、DDPG制御システムを用いてロボットを計画命令に従うように制御する。
τ=μ(st|θμ) (22)として表し、
ロボット状態sは主にロボットの速度と向首として示され、
V=[u,v,r]
Ψ=[0,θ,Ψ] (23)
式中、u、v、rはそれぞれAUVの縦方向速度、横方向速度及び角速度であり、ΨはAUVの向首角であり、
水平運動であるので、v、rは無視され、このため、
τ=μ(st)=μ(μ(t),Ψ(t)) (24)
この式は、制御システムの出力力がロボットの速度、向首及びトリム角がターゲット命令のようになるように制御することを示す。
実施形態1に記載のファジー流体力学パラメータのAUVモデルの作成過程は、一般的なAUVダイナミックモデリングの過程であり、本分野の従来技術を用いて実現でき、上記過程をより明瞭にするために、本実施形態では、ファジー流体力学パラメータのAUVモデルの作成過程を説明するが、ただし、本発明は、以下のファジー流体力学パラメータのAUVモデルの作成方式を含むが、それに制限されない。ファジー流体力学パラメータのAUVモデルの作成過程には、
水中ロボットの流体力学方程を作成するステップと、
Mは水中ロボットの全水中排水量の質量であり、
xG、yG、zGは水中ロボットの重心の艇体座標系における座標であり、
Iy、Izはそれぞれ艇体座標系のy、z軸に対する水中ロボットの質量の慣性モーメントであり、
u、v、ω、q、rはそれぞれ水中ロボットの艇体座標系での縦方向速度、横方向速度、垂向速度、トリム角速度、回転角速度であり、
本発明の最も主な目的は、水中ロボットが水中環境において現在の環境状態に基づいて行動決定及び動作制御を自律的に行うことによって、人を複雑なプログラミングプロセスから解放することであり、具体的には、以下のように実現される。
1.1)環境モデルを作成して、初期位置とターゲットポイントを決定し、アルゴリズムパラメータを初期化させる。
1.2)現在のt時刻での環境状態及びロボットタスクを決定し、タスクをターゲットへの移動行動、壁追跡行動、障害物回避行動に分解する。
1.3)現在の状態に基づいてターゲットへの移動、壁追跡又は障害物回避を選択して、行動を動作に分解する。
1.4)動作aを実行して、新しい状態s’を観察し、報酬値Rを得る。
1.5)ニューラルネットワークをトレーニングして各動作のQ値を得て、最大Q値に基づいて動作を出力する。
1.6)Q関数を更新する。
1.7)現在の時刻の状態を判断し、ターゲット状態に達する場合、1.8)に入り、そうではない場合、1.4)に入る。
1.8)選択した行動が完了した後、Q関数を更新する。
1.9)検出が完了したか否かを判断し、完了した場合、1.10)に入り、そうではない場合、1.3)に入る。
1.10)Q値が収束しているか否かを判断し、収束している場合、トレーニング又は計画を終了し、収束していない場合、ロボット位置を初期化させ、1.2)に入る。
2.1)パラメータを初期化する。
2.2)外部ループを行う。
2.2.1)ターゲット向首、ターゲット速度をランダムに生成する。
2.2.2)内部ループを行う。
2.2.2.1)DDPGアルゴリズムを実行させて、動作τ=a=μ(st|θμ)を出力する。
2.2.2.2)AUV運動学モデルに基づいてAUVの加速度を計算する。
r=−|△v+△Ψ+△θ|
2.2.2.4)制御誤差が0であり、r+=1である場合、小ループを終了する。
2.2.2.5)criticニューラルネットワークを更新して最小損失を取得する。
2.2.2.8)内ループのステップ数に達すると、内ループを終了する。
2.2.3)外ループのステップ数に達すると、外ループを終了する。
Claims (6)
- 強化学習に基づくAUV行動計画及び動作制御の方法であって、
水中ロボットによるトンネル検出を総タスク、即ちタスクとして定義し、タスクを完了するための行動には、ターゲットへの移動、壁追跡及び障害物回避が含まれ、ロボットが計画する行動を水中で完了するために生じる具体的な制御命令を動作として定義するステップと、
AUVはトンネル検出タスクを実行するときに、検出対象の水中環境に基づいて、ディープ強化学習DQNアルゴリズムを用いて行動計画をリアルタイムで行い、つまり、マルチ行動ネットワーク呼び出しに基づく行動計画アーキテクチャを構築し、タスクのニーズに応じて3つの行動の環境状態特徴の入力及び出力の動作を定義して、対応するディープ学習の行動ネットワークを構築し、報酬関数を設計するステップと、
計画システムが学習済み行動ネットワークを呼び出すことで前記トンネル検出タスクを完了するステップと、
制御システムが学習済み動作ネットワークを呼び出すことで計画された行動を完了するステップと、を含み、
対応するディープ学習の行動ネットワークを構築し、報酬関数を設計する設計過程においては、以下のステップを含み、
前記トンネル検出タスクを行動シーケンスに分解し、グローバル経路計画において事前環境情報に基づいて複数の実現可能な経路ポイントを計画し、AUVが配置位置から出発し、各経路ポイントに順次到着し、
航行過程において、AUVはリアルタイム環境状態に基づいて、障害物回避行動を呼び出して安全に経路ポイントに到着し、前記トンネル検出タスクのうちAUVは主に壁追跡行動を呼び出し、所定の検出目標に従ってタスクを完了し、
決定モジュールは、前記強化学習に基づくAUV行動計画を実行するものであって、グローバルデータベース、決定システム、行動ライブラリ及び評価システムを含み、
前記グローバルデータベースは、タスク情報、状況情報、計画知識が含まれるグローバルデータを記憶し、
前記決定システムは、前記ディープ強化学習DQNアルゴリズムを用いる自学習計画システムであり、動作から環境へのマッピングを学習したうえ、計画タスクを実行するに先立って前記行動ライブラリから学習済みネットワークパラメータを抽出し、次に現在の環境状態情報を入力として現在の行動動作を計画し、
前記評価システムは、前記ディープ強化学習DQNアルゴリズムの報酬関数システムであり、AUVが1つの行動動作計画を計画して実行するたびに、状態環境とタスク情報に基づいて報酬を提供し、
前記行動のうちターゲットへの移動過程においては、以下のステップを含み、
ターゲットポイントへの移動行動は、AUVが障害物を検知しないときに向首角を調整しながらターゲットポイントへ航行することであり、特徴入力量として主にAUVとターゲットポイントの位置と角度の関係を考慮し、具体的には、現在のAUV位置座標(xAUV,yAUV)、ターゲットポイント座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βの計6次元の入力を設定し、その中でも、ターゲット向首角βはAUVがターゲットへ航行しているときの向首角であり、
報酬関数については、ターゲットへの移動行動によりAUVが障害物無し環境でターゲットポイントへ航行するときに、報酬関数は2項に設定され、
第1項r11はAUVとターゲットポイントの距離の変化を考慮し、
α=θ−β (2)であり、
αの絶対値が小さいほど、取得する報酬値が大きく、具体的には、
r12=kAcos(α) (3)
式中、kAはターゲットへの移動過程に対応する報酬係数であり、
総報酬値は2項を加重したものであり、
r1=k11r11+k12r12 (4)
式中、k11、k12はそれぞれ加重値であり、
前記行動のうち壁追跡過程においては、以下のステップを含み、
AUV壁追跡行動は、AUVと壁の距離及び相対角度の情報を考慮し、AUVは、一方の側に配置された前後にある2つのレンジングソナーを通じて壁からのAUVの距離x4とx5を取得し、
方位磁針で現在のAUV向首角θを取得して、現在の壁角度θwallを推定し、
報酬関数は、AUVができるだけ壁に平行し、壁とは一定の距離を保持するようにし、仮想ターゲットポイントに基づく壁追跡行動の報酬信号が主に4項に設定され、一般的な壁追跡行動の報酬信号が主に2項に設定され、
第1項は、式(6)のようにAUVと現在の壁がなす角度を考慮し、AUVと壁の角度が増大し閾値を超えると、負の報酬値を取得し、AUVと壁の角度が減少すると、正の報酬値を取得し、
r2=k21r21+k22r22 (8)
式中、k21、k22はそれぞれ加重値であり、
仮想ターゲットポイントに基づく追跡では、この仮想ターゲットポイントは外直角と内直角の壁により作成された仮想ターゲットポイントであり、環境が外直角である場合、前側のソナーが障害物を検知していないときに入力が最大検出距離であるので、仮想壁が構築され、仮想ターゲットポイントが追加され、環境が内直角である場合、前方ソナーが壁を検知したとき、AUVが対向する現在のターゲット壁の他方の側で仮想ターゲットポイントが構築され、
仮想ターゲットポイントに基づく報酬関数の構築は、以下のとおりであり、
式中、kBは壁追跡過程に対応する報酬係数であり、
仮想ターゲットポイントに基づく追跡行動の総報酬rは4項の報酬を加重したものであり、
r2=k21r21+k22r22+k23r23+k24r24
式中、k23、k24はそれぞれ加重値であり、
AUVが次の部分の壁を追跡するまで徐々に調整したとき、たとえば、外直角環境におけるレンジングソナーが再度ターゲット壁を検知したか、内直角環境における前方ソナーがさらに前方の壁を検知しない場合、仮想ターゲットポイントを削除し、一般的な壁追跡行動ネットワークを呼び出し、
前記行動のうち障害物回避過程においては、以下のステップを含み、
AUV障害物回避行動のニーズについて、環境状態の特徴入力は3つの前方ソナーと両側のそれぞれに設けられたフロントソナーのデータを含み、AUVは、障害物を回避しながらターゲットポイントの方向へ近づき、特徴入力はAUVの現在の位置座標(xAUV,yAUV)、ターゲットポイント位置座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βの計11次元の入力をさらに含み、
報酬関数については、報酬信号が3項に分けられ、第1項は障害物に対するAUV距離に基づいて得られた報酬値r31であり、AUVが障害物に近づくと、負の報酬の警告を取得し、AUVが障害物から離間すると、正の報酬を取得し、AUVが障害物から離間して航行するように促し、障害物と衝突すると報酬値−1を取得し、現在の学習周期を終了し、
r33=kccos(α)
式中、kCは壁障害物の回避過程に対応する報酬係数であり、
最後の総報酬信号はこの3項の報酬値を加重したものに等しく、
r3=k31r31+k32r32+k33r33
式中、k31〜k33はそれぞれ加重値であり、
強化学習は、動作から環境へのマッピングを学習するものであり、ロボットを環境として、DDPG学習を通じて力とトルクを得て水中ロボットに作用させ、AUVモデルを用いて計算することによりロボットの速度と角速度を得て、速度、角速度とターゲット速度、ターゲット角速度との誤差を利用して報酬値r4=−|△v+△Ψ|を設計し、ここで△vは速度誤差であり、△Ψは向首誤差であり、
また、学習中のAUVモデルにランダム干渉力を追加することで、DDPGに基づく制御システムを学習により得て、制御システムの学習が完了した後、ロボットの現在の位置及びターゲット経路から、経路追跡戦略に従ってターゲット命令を得て、DDPG制御システムを用いてロボットを計画命令に従うように制御する、ことを特徴とする強化学習に基づくAUV行動計画及び動作制御の方法。 - DDPG制御システムを利用してロボットを計画命令に従うように制御する制御過程では、
DDPGコントローラが、強化学習アルゴリズムにおける動作をロボットの推力及びトルクに対応させ、アルゴリズムにおける状態をロボットの速度及び角速度に対応させ、アルゴリズムについて学習を行い、力から状態へのマッピング関係を取得するステップと、
DDPGをAUV制御に適用するには、まず、Criticニューラルネットワーク構造Q(stat|θQ)及びActorニューラルネットワーク構造μ(st|θμ)(θQとθμはネットワークの重みパラメータを示す。)を作成し、それぞれCriticとActorの2つの構造中に、ターゲットネットワークtarget_netと予測ネットワークeval_netという2つのニューラルネットワークを作成し、次に、DDPGの動作出力を制御システムの作用力τとして、制御システムが出力する作用力でロボットの動きを制御し、
ロボット状態sは主にロボットの速度と向首として示され、
V=[u,v,r]
Ψ=[0,θ,Ψ]
式中、u、v、rはそれぞれAUVの縦方向速度、横方向速度及び角速度であり、ΨはAUVの向首角であり、
v、rは無視され、
式τ=μ(st)=μ(μ(t),Ψ(t))は、制御システムの出力力がロボットの速度、向首及びトリム角がターゲット命令のようになるように制御することを示す、ことを特徴とする請求項1、2又は3に記載の強化学習に基づくAUV行動計画及び動作制御の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910775602.7 | 2019-08-21 | ||
CN201910775602.7A CN110333739B (zh) | 2019-08-21 | 2019-08-21 | 一种基于强化学习的auv行为规划及动作控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021034050A JP2021034050A (ja) | 2021-03-01 |
JP6854549B2 true JP6854549B2 (ja) | 2021-04-07 |
Family
ID=68150103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020139299A Active JP6854549B2 (ja) | 2019-08-21 | 2020-08-20 | 強化学習に基づくauv行動計画及び動作制御の方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6854549B2 (ja) |
CN (1) | CN110333739B (ja) |
Families Citing this family (106)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110658827B (zh) * | 2019-10-25 | 2020-06-23 | 嘉应学院 | 一种基于物联网的运输车自动引导系统及其方法 |
CN112731804A (zh) * | 2019-10-29 | 2021-04-30 | 北京京东乾石科技有限公司 | 一种实现路径跟随的方法和装置 |
CN111079936B (zh) * | 2019-11-06 | 2023-03-14 | 中国科学院自动化研究所 | 基于强化学习的波动鳍推进水下作业机器人追踪控制方法 |
CN110909859B (zh) * | 2019-11-29 | 2023-03-24 | 中国科学院自动化研究所 | 基于对抗结构化控制的仿生机器鱼运动控制方法、系统 |
CN111198568A (zh) * | 2019-12-23 | 2020-05-26 | 燕山大学 | 一种基于q学习的水下机器人避障控制方法 |
CN111142522B (zh) * | 2019-12-25 | 2023-06-09 | 北京航空航天大学杭州创新研究院 | 一种分层强化学习的智能体控制方法 |
CN111061277B (zh) * | 2019-12-31 | 2022-04-05 | 歌尔股份有限公司 | 一种无人车全局路径规划方法和装置 |
CN111240345B (zh) * | 2020-02-11 | 2023-04-07 | 哈尔滨工程大学 | 基于双bp网络增强学习框架的水下机器人轨迹跟踪方法 |
CN111273677B (zh) * | 2020-02-11 | 2023-05-12 | 哈尔滨工程大学 | 基于强化学习技术的自主水下机器人速度和艏向控制方法 |
CN111290270B (zh) * | 2020-02-11 | 2022-06-03 | 哈尔滨工程大学 | 一种基于Q-learning参数自适应技术的水下机器人反步速度和艏向控制方法 |
EP4110431A4 (en) * | 2020-02-27 | 2023-08-02 | Siemens Healthcare Diagnostics Inc. | AUTOMATIC VALIDATION OF SENSOR TRACKS USING MACHINE LEARNING |
CN111667513B (zh) * | 2020-06-01 | 2022-02-18 | 西北工业大学 | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 |
CN111813143B (zh) * | 2020-06-09 | 2022-04-19 | 天津大学 | 一种基于强化学习的水下滑翔机智能控制系统及方法 |
CN113799949B (zh) * | 2020-06-11 | 2022-07-26 | 中国科学院沈阳自动化研究所 | 一种基于q学习的auv浮力调节方法 |
CN111982117B (zh) * | 2020-08-17 | 2022-05-10 | 电子科技大学 | 一种基于深度学习的auv光学引导与测向方法 |
CN112162564B (zh) * | 2020-09-25 | 2021-09-28 | 南京大学 | 基于模仿学习和强化学习算法的无人机飞行控制方法 |
CN112179367B (zh) * | 2020-09-25 | 2023-07-04 | 广东海洋大学 | 一种基于深度强化学习的智能体自主导航方法 |
CN112241176B (zh) * | 2020-10-16 | 2022-10-28 | 哈尔滨工程大学 | 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法 |
CN112347961B (zh) * | 2020-11-16 | 2023-05-26 | 哈尔滨工业大学 | 水流体内无人平台智能目标捕获方法及系统 |
CN112526524B (zh) * | 2020-12-09 | 2022-06-17 | 青岛澎湃海洋探索技术有限公司 | 一种基于前视声纳图像和auv平台的水下渔网检测方法 |
CN112560671B (zh) * | 2020-12-15 | 2022-04-12 | 哈尔滨工程大学 | 基于旋转卷积神经网络的船舶检测方法 |
CN113052372B (zh) * | 2021-03-17 | 2022-08-02 | 哈尔滨工程大学 | 一种基于深度强化学习的动态auv追踪路径规划方法 |
CN113050430B (zh) * | 2021-03-29 | 2023-05-02 | 浙江大学 | 一种基于鲁棒强化学习的排水系统控制方法 |
CN113515119A (zh) * | 2021-04-25 | 2021-10-19 | 华北电力大学 | 一种基于强化学习的变电站内巡检机器人路径规划方案 |
CN113406957B (zh) * | 2021-05-19 | 2022-07-08 | 成都理工大学 | 基于免疫深度强化学习的移动机器人自主导航方法 |
CN113290557A (zh) * | 2021-05-21 | 2021-08-24 | 南京信息工程大学 | 一种基于数据驱动的蛇形机器人控制方法 |
CN113177366B (zh) * | 2021-05-28 | 2024-02-02 | 华北电力大学 | 一种综合能源系统规划方法、装置和终端设备 |
CN113268074B (zh) * | 2021-06-07 | 2022-05-13 | 哈尔滨工程大学 | 一种基于联合优化的无人机航迹规划方法 |
CN113093773B (zh) * | 2021-06-10 | 2021-09-03 | 深之蓝海洋科技股份有限公司 | 基于水下机器人的水下结构检测方法、系统、设备及介质 |
CN115494831B (zh) * | 2021-06-17 | 2024-04-16 | 中国科学院沈阳自动化研究所 | 一种人机自主智能协同的跟踪方法 |
CN113268933B (zh) * | 2021-06-18 | 2022-02-15 | 大连理工大学 | 基于强化学习的蛇形急救机器人结构参数快速设计方法 |
CN113283181B (zh) * | 2021-06-28 | 2024-02-27 | 上海海事大学 | 一种障碍物和海流环境中多auv快速围捕方法 |
CN113252028B (zh) * | 2021-06-28 | 2021-09-21 | 深之蓝海洋科技股份有限公司 | 输水隧洞内机器人的定位方法、电子设备及存储介质 |
CN113821903B (zh) * | 2021-07-09 | 2024-02-06 | 腾讯科技(深圳)有限公司 | 温度控制方法和设备、模块化数据中心及存储介质 |
CN113552881B (zh) * | 2021-07-15 | 2024-03-26 | 浙江工业大学 | 一种用于神经网络训练的多路径规划数据集生成方法 |
CN113592162B (zh) * | 2021-07-22 | 2023-06-02 | 西北工业大学 | 一种基于多智能体强化学习的多水下无人航行器协同搜索方法 |
CN113916254A (zh) * | 2021-07-22 | 2022-01-11 | 北京控制工程研究所 | 一种停靠式抓捕的航天器自主交会对接试验方法 |
CN113589842B (zh) * | 2021-07-26 | 2024-04-19 | 中国电子科技集团公司第五十四研究所 | 一种基于多智能体强化学习的无人集群任务协同方法 |
CN113592958A (zh) * | 2021-08-13 | 2021-11-02 | 大连海事大学 | 一种基于单目视觉的auv对接坞站光学引导方法 |
CN113573235A (zh) * | 2021-08-16 | 2021-10-29 | 苏州云享阁智能科技有限公司 | 一种基于ddpg算法获得最优资源分配以提升定位精度的方法 |
CN113791612B (zh) * | 2021-08-17 | 2023-10-24 | 中南民族大学 | 智能体实时路径规划方法、装置、设备及存储介质 |
CN113671834B (zh) * | 2021-08-24 | 2023-09-01 | 郑州大学 | 一种机器人柔性行为决策方法及设备 |
CN113836788B (zh) * | 2021-08-24 | 2023-10-27 | 浙江大学 | 基于局部数据增强的流程工业强化学习控制的加速方法 |
CN113433953A (zh) * | 2021-08-25 | 2021-09-24 | 北京航空航天大学 | 多机器人协同避障方法、装置和智能机器人 |
CN114003029B (zh) * | 2021-09-12 | 2023-06-30 | 西北工业大学 | 一种声光融合导引的自主水下航行器鲁棒对接回收方法 |
CN113741533A (zh) * | 2021-09-16 | 2021-12-03 | 中国电子科技集团公司第五十四研究所 | 一种基于模仿学习与强化学习的无人机智能决策系统 |
CN113821035A (zh) * | 2021-09-22 | 2021-12-21 | 北京邮电大学 | 无人船轨迹追踪控制方法和装置 |
CN113848974B (zh) * | 2021-09-28 | 2023-08-15 | 西安因诺航空科技有限公司 | 一种基于深度强化学习的飞行器轨迹规划方法及系统 |
CN114296440B (zh) * | 2021-09-30 | 2024-04-09 | 中国航空工业集团公司北京长城航空测控技术研究所 | 一种融合在线学习的agv实时调度方法 |
CN113848927A (zh) * | 2021-10-07 | 2021-12-28 | 兰州理工大学 | 一种自主规划路径的自动驾驶系统 |
CN113919217B (zh) * | 2021-10-08 | 2024-05-17 | 南开大学 | 自抗扰控制器自适应参数整定方法及装置 |
CN113771044B (zh) * | 2021-10-09 | 2022-11-11 | 北京卫星环境工程研究所 | 一种机器人末端负载动态受力感知方法 |
CN113829351B (zh) * | 2021-10-13 | 2023-08-01 | 广西大学 | 一种基于强化学习的移动机械臂的协同控制方法 |
CN113848946B (zh) * | 2021-10-20 | 2023-11-03 | 郑州大学 | 一种基于神经调节机制的机器人行为决策方法及设备 |
CN114063624A (zh) * | 2021-10-22 | 2022-02-18 | 中国船舶重工集团公司第七一九研究所 | 一种爬游无人潜水器多模式规划运动控制器及其控制方法 |
CN113867396B (zh) * | 2021-10-22 | 2024-04-26 | 吉林大学 | 一种网联无人机航线规划与航线平滑方法及装置 |
CN114020013B (zh) * | 2021-10-26 | 2024-03-15 | 北航(四川)西部国际创新港科技有限公司 | 一种基于深度强化学习的无人机编队避撞方法 |
CN113985876B (zh) * | 2021-10-27 | 2023-09-26 | 广州大学 | 基于仿生鱼类觅食的海洋垃圾回收路径规划方法及系统 |
CN114019805B (zh) * | 2021-11-17 | 2023-05-23 | 九江职业技术学院 | 一种欠驱动auv的模型预测对接控制方法 |
CN114089633B (zh) * | 2021-11-19 | 2024-04-26 | 江苏科技大学 | 一种水下机器人多电机耦合驱动控制装置及方法 |
CN114077258B (zh) * | 2021-11-22 | 2023-11-21 | 江苏科技大学 | 一种基于强化学习ppo2算法的无人艇位姿控制方法 |
CN113885549B (zh) * | 2021-11-23 | 2023-11-21 | 江苏科技大学 | 基于维度裁剪的ppo算法的四旋翼姿态轨迹控制方法 |
CN114200833B (zh) * | 2021-11-24 | 2024-04-12 | 华中科技大学 | 一种基于观测器的机器人网络动态区域覆盖的控制方法 |
CN114155298B (zh) * | 2021-12-09 | 2024-05-17 | 山东大学 | 一种基于主动感知的机器人堵漏方法及系统 |
CN114153216B (zh) * | 2021-12-14 | 2023-10-03 | 浙江大学湖州研究院 | 基于深度强化学习和块规划的月面路径规划系统和方法 |
CN114692890A (zh) * | 2021-12-24 | 2022-07-01 | 中国人民解放军军事科学院战争研究院 | 基于模型的权值组合规划值扩展的方法 |
CN114355915B (zh) * | 2021-12-27 | 2024-04-02 | 杭州电子科技大学 | 一种基于深度强化学习的agv路径规划 |
CN114355980B (zh) * | 2022-01-06 | 2024-03-08 | 上海交通大学宁波人工智能研究院 | 基于深度强化学习的四旋翼无人机自主导航方法与系统 |
CN114527642B (zh) * | 2022-03-03 | 2024-04-02 | 东北大学 | 一种基于深度强化学习的agv自动调整pid参数的方法 |
CN114675535B (zh) * | 2022-03-07 | 2024-04-02 | 大连理工大学 | 一种基于强化学习的航空发动机过渡态寻优控制方法 |
CN114578712B (zh) * | 2022-03-08 | 2023-09-26 | 北京航空航天大学 | 多功能水下自主航行器集群仿真系统 |
CN114785397B (zh) * | 2022-03-11 | 2023-04-07 | 成都三维原光通讯技术有限公司 | 无人机基站控制方法、飞行轨迹优化模型构建、训练方法 |
CN114800488B (zh) * | 2022-03-18 | 2023-06-20 | 清华大学深圳国际研究生院 | 一种基于深度强化学习的冗余机械臂可操作度优化方法及装置 |
CN114679699A (zh) * | 2022-03-23 | 2022-06-28 | 重庆邮电大学 | 基于深度强化学习的多无人机节能巡航通信覆盖方法 |
CN114879660B (zh) * | 2022-04-14 | 2023-08-15 | 海南大学 | 一种基于目标驱动的机器人环境感知方法 |
CN114923486B (zh) * | 2022-04-21 | 2024-05-17 | 厦门大学 | 一种基于全局环境图和注意力侧重的机器人导航方法 |
CN114910072A (zh) * | 2022-04-21 | 2022-08-16 | 海南大学 | 基于深度强化学习的无人机导航方法、装置、设备及介质 |
CN114840928B (zh) * | 2022-05-07 | 2023-04-18 | 西北工业大学 | 一种基于深度学习的水下航行器集群运动仿真方法 |
CN115167484B (zh) * | 2022-05-13 | 2024-04-19 | 西北工业大学 | 基于神经网络的自主水下航行器模型预测路径跟踪方法 |
CN114895697B (zh) * | 2022-05-27 | 2024-04-30 | 西北工业大学 | 一种基于元强化学习并行训练算法的无人机飞行决策方法 |
CN114995468B (zh) * | 2022-06-06 | 2023-03-31 | 南通大学 | 一种基于贝叶斯深度强化学习的水下机器人智能控制方法 |
CN115291616B (zh) * | 2022-07-25 | 2023-05-26 | 江苏海洋大学 | 一种基于近端策略优化算法的auv动态避障方法 |
CN114964268B (zh) * | 2022-07-29 | 2023-05-02 | 白杨时代(北京)科技有限公司 | 一种无人机导航方法及装置 |
CN115278901B (zh) * | 2022-08-04 | 2023-06-06 | 哈尔滨工程大学 | 水下无定位移动网络的自适应通信方法 |
CN115314854B (zh) * | 2022-08-08 | 2023-05-30 | 广东智能无人系统研究院(南沙) | 一种海上风电水下设施无人巡检系统及方法 |
CN115328143B (zh) * | 2022-08-26 | 2023-04-18 | 齐齐哈尔大学 | 一种基于环境驱动的主从水面机器人回收导引方法 |
CN115468454A (zh) * | 2022-08-30 | 2022-12-13 | 南京理工大学 | 虚拟力法与引战配合相结合的多弹协同对抗策略 |
CN115550236B (zh) * | 2022-08-31 | 2024-04-30 | 国网江西省电力有限公司信息通信分公司 | 一种面向安全中台资源池路由优化的数据保护方法 |
CN115586782B (zh) * | 2022-10-17 | 2024-04-12 | 湖南大学 | 一种自主式水下机器人运动控制方法及装置 |
CN115494733A (zh) * | 2022-10-27 | 2022-12-20 | 南方电网调峰调频发电有限公司储能科研院 | 一种基于gazebo的水下机器人自适应控制方法 |
CN115657678B (zh) * | 2022-10-28 | 2024-04-26 | 中国船舶重工集团公司第七一九研究所 | 面向复杂动态环境的水下无人潜航器航迹生成方法及系统 |
CN115493597B (zh) * | 2022-11-15 | 2023-04-18 | 山东大学 | 一种基于sac算法的auv路径规划控制方法 |
CN115981369B (zh) * | 2023-01-09 | 2023-12-01 | 南京航空航天大学 | 有限通信下面向多无人机联合任务分配和航迹规划的方法 |
CN116301027B (zh) * | 2023-02-08 | 2023-12-05 | 北京航空航天大学 | 一种基于安全强化学习的城市空域内无人机路径规划方法 |
CN115855226B (zh) * | 2023-02-24 | 2023-05-30 | 青岛科技大学 | 基于dqn和矩阵补全的多auv协同水下数据采集方法 |
CN115993831B (zh) * | 2023-03-23 | 2023-06-09 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
CN116430900B (zh) * | 2023-05-04 | 2023-12-05 | 四川大学 | 基于深度强化学习的高超声速弹头的博弈轨迹规划方法 |
CN116295449B (zh) * | 2023-05-25 | 2023-09-12 | 吉林大学 | 水下自主航行器路径指示方法及装置 |
CN116578102B (zh) * | 2023-07-13 | 2023-09-19 | 清华大学 | 水下自主航行器避障方法、装置、计算机设备和存储介质 |
CN117130379B (zh) * | 2023-07-31 | 2024-04-16 | 南通大学 | 一种基于lqr近视距的无人机空战攻击方法 |
CN116700020B (zh) * | 2023-08-10 | 2023-11-24 | 西安爱生无人机技术有限公司 | 变后掠翼无人机的控制方法、系统、无人机及存储介质 |
CN117140527B (zh) * | 2023-09-27 | 2024-04-26 | 中山大学·深圳 | 一种基于深度强化学习算法的机械臂控制方法及系统 |
CN117055591B (zh) * | 2023-10-11 | 2024-03-15 | 青岛哈尔滨工程大学创新发展中心 | 综合洋流影响和机动性约束的auv全局路径规划方法 |
CN117233520B (zh) * | 2023-11-16 | 2024-01-26 | 青岛澎湃海洋探索技术有限公司 | 基于改进Sim-GAN的AUV推进系统故障检测评估方法 |
CN117682429B (zh) * | 2024-02-01 | 2024-04-05 | 华芯(嘉兴)智能装备有限公司 | 一种物料控制系统的天车搬运指令调度方法及装置 |
CN117744540B (zh) * | 2024-02-19 | 2024-04-30 | 青岛哈尔滨工程大学创新发展中心 | 水下无人航行器的水下作业水动力特性趋势预测方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006309519A (ja) * | 2005-04-28 | 2006-11-09 | Institute Of National Colleges Of Technology Japan | 強化学習システム、及び強化学習プログラム |
JP4929449B2 (ja) * | 2005-09-02 | 2012-05-09 | 国立大学法人横浜国立大学 | 強化学習装置および強化学習方法 |
JP4495703B2 (ja) * | 2006-08-24 | 2010-07-07 | 日本電信電話株式会社 | 水中ロボットの動作制御方法、装置及びプログラム |
CN102402712B (zh) * | 2011-08-31 | 2014-03-05 | 山东大学 | 基于神经网络的机器人强化学习初始化方法 |
CN115338859A (zh) * | 2016-09-15 | 2022-11-15 | 谷歌有限责任公司 | 机器人操纵的深度强化学习 |
JP6875513B2 (ja) * | 2016-10-10 | 2021-05-26 | ディープマインド テクノロジーズ リミテッド | ロボットエージェントによって実行されるべきアクションを選択するためのニューラルネットワーク |
CN107102644B (zh) * | 2017-06-22 | 2019-12-10 | 华南师范大学 | 基于深度强化学习的水下机器人轨迹控制方法及控制系统 |
CN107490965B (zh) * | 2017-08-21 | 2020-02-07 | 西北工业大学 | 一种空间自由漂浮机械臂的多约束轨迹规划方法 |
CN108594834B (zh) * | 2018-03-23 | 2020-12-22 | 哈尔滨工程大学 | 一种面向未知环境下多auv自适应目标搜索和避障方法 |
CN109540151B (zh) * | 2018-03-25 | 2020-01-17 | 哈尔滨工程大学 | 一种基于强化学习的auv三维路径规划方法 |
CN108444481B (zh) * | 2018-03-25 | 2019-08-06 | 哈尔滨工程大学 | 一种基于辅助决策系统的水下潜器路径规划方法 |
CN108803321B (zh) * | 2018-05-30 | 2020-07-10 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN108873687B (zh) * | 2018-07-11 | 2020-06-26 | 哈尔滨工程大学 | 一种基于深度q学习的智能水下机器人行为体系结规划方法 |
CN109241552B (zh) * | 2018-07-12 | 2022-04-05 | 哈尔滨工程大学 | 一种基于多约束目标的水下机器人运动规划方法 |
CN109212476B (zh) * | 2018-09-18 | 2023-03-14 | 广西大学 | 一种基于ddpg的rfid室内定位算法 |
CN109407676B (zh) * | 2018-12-20 | 2019-08-02 | 哈尔滨工业大学 | 基于DoubleDQN网络和深度强化学习的机器人避障方法 |
-
2019
- 2019-08-21 CN CN201910775602.7A patent/CN110333739B/zh active Active
-
2020
- 2020-08-20 JP JP2020139299A patent/JP6854549B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
CN110333739A (zh) | 2019-10-15 |
JP2021034050A (ja) | 2021-03-01 |
CN110333739B (zh) | 2020-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6854549B2 (ja) | 強化学習に基づくauv行動計画及び動作制御の方法 | |
Cai | ROBOTICS: From Manipulator to Mobilebot | |
CN109765929B (zh) | 一种基于改进rnn的uuv实时避障规划方法 | |
CN109784201B (zh) | 基于四维风险评估的auv动态避障方法 | |
Kanakakis et al. | Fuzzy-logic based navigation of underwater vehicles | |
CN112925319B (zh) | 一种基于深度强化学习的水下自主航行器动态避障方法 | |
CN113534668B (zh) | 基于最大熵的演员-评论家框架的auv运动规划方法 | |
CN113848974B (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及系统 | |
CN111930141A (zh) | 一种水下机器人三维路径可视化跟踪方法 | |
Haugaløkken et al. | Monocular vision-based gripping of objects | |
Hadi et al. | Adaptive formation motion planning and control of autonomous underwater vehicles using deep reinforcement learning | |
Ramírez et al. | Coordinated sea rescue system based on unmanned air vehicles and surface vessels | |
CN116540717A (zh) | 一种基于改进dwa的auv局部路径规划方法 | |
CN114995468B (zh) | 一种基于贝叶斯深度强化学习的水下机器人智能控制方法 | |
CN114609925B (zh) | 水下探索策略模型的训练方法及仿生机器鱼水下探索方法 | |
Kang et al. | Fuzzy logic based behavior fusion for multi-AUV formation keeping in uncertain ocean environment | |
Zhai et al. | Path planning algorithms for USVs via deep reinforcement learning | |
Cui et al. | Intelligent Ship Decision System Based on DDPG Algorithm | |
Ridao et al. | O2CA2: A New Hybrid Control Architecture for A Low Cost AUV | |
Emrani et al. | An adaptive leader-follower formation controller for multiple AUVs in spatial motions | |
Fernández et al. | Expert guidance system for unmanned aerial vehicles based on artifical neural networks | |
Gao et al. | Increased autonomy and situation awareness for rov operations | |
Lin et al. | Cross-domain Monitoring of Underwater Targets Based on Q-learning for Heterogeneous Unmanned Vehicles | |
Xu et al. | An AUV fuzzy obstacle avoidance method under event feedback supervision | |
CN117590867B (zh) | 基于深度强化学习的水下自主航行器接驳控制方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200820 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200820 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20201005 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210209 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210309 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6854549 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |