JP6854549B2 - 強化学習に基づくauv行動計画及び動作制御の方法 - Google Patents

強化学習に基づくauv行動計画及び動作制御の方法 Download PDF

Info

Publication number
JP6854549B2
JP6854549B2 JP2020139299A JP2020139299A JP6854549B2 JP 6854549 B2 JP6854549 B2 JP 6854549B2 JP 2020139299 A JP2020139299 A JP 2020139299A JP 2020139299 A JP2020139299 A JP 2020139299A JP 6854549 B2 JP6854549 B2 JP 6854549B2
Authority
JP
Japan
Prior art keywords
auv
reward
target
wall
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020139299A
Other languages
English (en)
Other versions
JP2021034050A (ja
Inventor
玉山 孫
玉山 孫
祥瑞 冉
祥瑞 冉
国成 張
国成 張
岳明 李
岳明 李
建 曹
建 曹
力鋒 王
力鋒 王
相斌 王
相斌 王
昊 徐
昊 徐
新雨 呉
新雨 呉
陳飛 馬
陳飛 馬
Original Assignee
哈爾浜工程大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 哈爾浜工程大学 filed Critical 哈爾浜工程大学
Publication of JP2021034050A publication Critical patent/JP2021034050A/ja
Application granted granted Critical
Publication of JP6854549B2 publication Critical patent/JP6854549B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Description

本発明は、水中ロボットの技術分野に属し、具体的には、AUV行動計画及び動作制御方法に関する。
21世紀は海洋の利用が進まれている世紀であり、海洋産業への取り組みは世界各国により認められている。中国も重要な海洋戦略を発表・実施しており、現在、中国が高速発展段階であって、土地資源が限られている人口の多い国であるため、海洋資源は持続可能な開発を支える重要な資源貯蔵空間となっている。海洋資源の開発及び探査は、海洋戦略を実施するための重要な前提及び基盤といえ、主要な水中技術及び機器として、自律型無人潜水機(Autonomous Underwater Vehicle、AUV)は、海洋の民間用、軍事用や科学などの研究分野において、実用的で効果的な開発ツールとなっており、海洋の開発及び探査の重要な手段である。自律型無人潜水機の応用及び技術の研究開発・アップグレードは将来注目を集めると予測でき、世界の国々が海洋分野で主導的な地位を取得するための重要な手段となる。AUVの研究には、さまざまなハイエンド技術の適用が必要であり、ナビゲーション・測位、水中ターゲット検出、通信技術、インテリジェント制御、シミュレーション技術、エネルギーシステム技術や計画技術など、多くの技術が含まれる。
計画及び制御技術は、AUVインテリジェント化を実現するための重要な要素の1つであり、AUVが自律的な決定を行い、作業タスクを完了するための前提及び基盤である。水中環境は複雑で動的であり、構造化されておらず、不確実であるので、水中環境情報の入手が困難であり、したがって、AUVは水中で作業を行うときに予期しない緊急事態に直面することは避けられない。水中通信手段の制限により、AUVは、緊急事態に対処するために独自の決定に依存するしかなく、このため、AUVは、元の計画指示を変更し、環境緊急事態に応じて再計画する必要がある。本発明は、複雑な環境でのAUV計画技術を焦点として研究しており、加圧送水トンネルを複雑な水中環境とし、トンネル検出タスクを適用背景の代表例として、強化学習に基づくAUVの行動計画及び制御方法を提案している。
加圧送水トンネルの検出は、水利工事管理の重要な項目の1つであり、加圧送水トンネルは、水力発電所などの水利プロジェクトを接続するための地下送水チャネルである。現在、中小型貯水池のほとんどの危険事態は、送水トンネルのリスクをタイムリーに発見できなかったことに起因するものであり、トンネルの長期運用では堆積、腐食、漏水や障害物などの欠陥や問題が発生し、特に増水期では、送水トンネルはパイプラインの老朽化の問題を起こしやすく、水中プロジェクトの安全運用に直接影響を及ぼし、このため、トンネルを定期的に点検して、水中プロジェクトの状況を把握することは重視化されてきた。ただし、送水トンネルでは、一部のトンネルの直径が小さいこと、増水期の流速が大きいこと、及び水中工事環境が複雑であることなどの問題から、作業者がトンネルに入って点検することができ、点検タスクを完了するには、点検員の代わりに他の検出装置を使用しなければならない。
自律型無人潜水機(AUV)は、水中検出装置の搭載プラットフォームとして好適であり、水中で長期間にわたって自律的かつ安全にターゲットタスクを実行することができ、トンネルの複雑な水環境では、強力な柔軟性及び状態維持性を有し、水中検出装置とセンサーを搭載して検出のニーズに対応し、トンネル検出タスクを自律的に完了することができ、トンネル検出のための主な手段として機能することが期待される。本発明は、強化学習アルゴリズムに基づいてAUVトンネル検出タスクの行動計画及び制御方法を設計するものであり、AUVの環境適応性を高め、緊急事態におけるAUVの決定能力を向上させる。
本発明は、複雑なタスクを実施するときに、水中ロボットのインテリジェントレベルが不十分であり、人工経験に頼りすぎる問題、及び従来の水中ロボットではインテリジェントアルゴリズムに基づいて設計される制御方法には正確な環境モデルが必要であることにより、トレーニング経験が制限され、実環境への適用が困難である問題を解決する。
強化学習に基づくAUV行動計画及び動作制御方法であって、
水中ロボットによるトンネル検出を総タスク、即ちタスクとして定義し、タスクを完了するための行動には、ターゲットへの移動、壁追跡及び障害物回避が含まれ、ロボットが計画する行動を水中で完了するために生じる具体的な制御命令を動作として定義するステップと、
AUVはトンネル検出タスクを実行するときに、検出対象の水中環境に基づいて、ディープ強化学習DQNアルゴリズムを用いて行動計画をリアルタイムで行い、つまり、マルチ行動ネットワーク呼び出しに基づく行動計画アーキテクチャを構築し、タスクのニーズに応じて3つの行動の環境状態特徴の入力及び出力の動作を定義して、対応するディープ学習の行動ネットワークを構築し、報酬関数を設計するステップと、
計画システムがトレーニング済み行動ネットワークを呼び出すことでトンネル検出タスクを完了するステップと、
制御システムがトレーニング済み動作ネットワークを呼び出すことで計画された行動を完了するステップと、を含む。
前記強化学習に基づくAUV行動計画及び動作制御方法において、対応するディープ学習の行動ネットワークを構築し、報酬関数を設計する前記過程においては、以下のステップを含み、
トンネル検出タスクを行動シーケンスに分解し、グローバル経路計画において事前環境情報に基づいて複数の実現可能な経路ポイントを計画し、AUVが配置位置から出発し、各経路ポイントに順次到着し、
経路ポイントが既知環境下のグローバル計画であるため、航渡過程において、AUVはリアルタイム環境状態に基づいて、障害物回避行動を呼び出して安全に経路ポイントに到着し、トンネル検出タスクのうちAUVは主に壁追跡行動を呼び出し、所定の検出目標に従ってタスクを完了し、
決定モジュールは、グローバルデータ、決定システム、行動ライブラリ及び評価システムを含み、グローバルデータにタスク情報、状況情報、計画知識が記憶されており、決定システムは、DQNアルゴリズムと組み合わせた自学習計画システムであり、トレーニングされておき、計画タスクを実行するに先立って行動ライブラリからトレーニング済みネットワークパラメータを抽出し、次に現在の環境状態情報を入力として現在の行動動作を計画し、評価システムは、強化学習アルゴリズムの報酬関数システムであり、AUVが1つの行動動作計画を計画して実行するたびに、状態環境とタスク情報に基づいて報酬を提供し、すべてのデータはグローバルデータベースに記憶されており
前記行動のうちターゲットへの移動過程においては、以下のステップを含み、
ターゲットポイントへの移動行動は、AUVが障害物を検知しないときに向首角を調整しながらターゲットポイントへ航行することであり、特徴入力量として主にAUVとターゲットポイントの位置と角度の関係を考慮し、具体的には、現在のAUV位置座標(xAUV,yAUV)、ターゲットポイント座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βの計6次元の入力を設定し、その中でも、ターゲット向首角βはAUVがターゲットへ航行しているときの向首角であり、
報酬関数については、ターゲットへの移動行動によりAUVが障害物無し環境でターゲットポイントへ航行するときに、報酬関数は2項に設定され、
第1項r11はAUVとターゲットポイントの距離の変化を考慮し、
Figure 0006854549
第2項r12はAUVの向首角の変化を考慮し、向首角がターゲットに近いほど、ターゲット値の報酬値が大きく、現在のAUV向首とターゲット向首との夾角αが
α=θ−βであり、
αの絶対値が小さいほど、取得する報酬値が大きく、具体的には、
12=kAcos(α)
式中、kAはターゲットへの移動過程に対応する報酬係数であり、
総報酬値は2項を加重したものであり、
1=k1111+k1212
式中、k11、k12はそれぞれ加重値であり、
前記行動のうち壁追跡過程においては、以下のステップを含み、
AUV壁追跡行動は、AUVと壁の距離及び相対角度の情報を考慮し、AUVは、一方の側に配置された前後にある2つのレンジングソナーを通じて壁からのAUVの距離x4とx5を取得し、
方位磁針で現在のAUV向首角θを取得して、現在の壁角度θwallを推定し、
Figure 0006854549
式中、lAUVは前後にある2つのソナーの間の距離であり、壁追跡行動の環境状態の特徴入力はx1、x2、x3、x4、x5、θ、θwall及びターゲット追跡距離lgoalに設定され、ここで、x1〜x5はそれぞれ3つの前方ソナーと一側に設けられた前後ソナーにより測定されたデータであり、特徴入力量は8個であり、AUVと壁の間の状態関係を完全に記述することができ、距離閾値を設定してソナーデータについて判断を行い、トレーニング中に閾値を超えると、現在のトレーニング周期を終了し、
報酬関数は、AUVができるだけ壁に平行し、壁とは一定の距離を保持するようにし、仮想ターゲットポイントに基づく壁追跡行動の報酬信号が主に4項に設定され、一般的な壁追跡行動の報酬信号が主に2項に設定され、
第1項は、式(6)のようにAUVと現在の壁がなす角度を考慮し、AUVと壁の角度が増大し閾値を超えると、負の報酬値を取得し、AUVと壁の角度が減少すると、正の報酬値を取得し、
Figure 0006854549
第2項は、式(7)のようにAUVの前後両端と壁の距離を考慮し、AUVと壁の距離と予め設定された値との差が減少すると、正の報酬を取得し、この差が増大すると負の報酬を取得し、追跡距離が予め設定された値の±0.2mの範囲にあることができ、追跡範囲内のこの項の報酬値が0である場合、この場所と壁の距離値は、同一側面にある2つのレンジングソナーによるデータの平均値であり、
Figure 0006854549
一般的な壁追跡行動の総報酬rは2項の報酬を加重したものであり、
2=k2121+k2222
式中、k21、k22はそれぞれ加重値であり、
仮想ターゲットポイントに基づく追跡では、この仮想ターゲットポイントは外直角と内直角の壁により作成された仮想ターゲットポイントであり、環境が外直角である場合、前側のソナーが障害物を検知していないときに入力が最大検出距離であるので、仮想壁が構築され、仮想ターゲットポイントが追加され、環境が内直角である場合、前方ソナーが壁を検知したとき、AUVが対向する現在のターゲット壁の他方の側で仮想ターゲットポイントが構築され、
仮想ターゲットポイントに基づく報酬関数の構築は、以下のとおりであり、
Figure 0006854549
24=kBcos(α)
式中、kBは壁追跡過程に対応する報酬係数であり、
仮想ターゲットポイントに基づく追跡行動の総報酬rは4項の報酬を加重したものであり、
2=k2121+k2222+k2323+k2424
式中、k23、k24はそれぞれ加重値であり、
AUVが次の部分の壁を追跡するまで徐々に調整したとき、たとえば、外直角環境におけるレンジングソナーが再度ターゲット壁を検知したか、内直角環境における前方ソナーがさらに前方の壁を検知しない場合、仮想ターゲットポイントを削除し、一般的な壁追跡行動ネットワークを呼び出し、
前記行動のうち障害物回避過程においては、以下のステップを含み、
AUV障害物回避行動のニーズについて、環境状態の特徴入力は3つの前方ソナーと両側のそれぞれに設けられたフロントソナーのデータを含み、AUVは、障害物を回避しながらターゲットポイントの方向へ近づき、特徴入力はAUVの現在の位置座標(xAUV,yAUV)、ターゲットポイント位置座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βの計11次元の入力をさらに含み、
報酬関数については、報酬信号が3項に分けられ、第1項は障害物に対するAUV距離に基づいて得られた報酬値r31であり、AUVが障害物に近づくと、負の報酬の警告を取得し、AUVが障害物から離間すると、正の報酬を取得し、AUVが障害物から離間して航行するように促し、障害物と衝突すると報酬値−1を取得し、現在のトレーニング周期を終了し、
Figure 0006854549
第2項は、現在のAUVとターゲットポイントの距離に基づいて生じる報酬値r32であり、AUVが障害物を回避しながらターゲットポイントへ航行するように促し、このため、AUVがターゲットポイントから離間すると、負の報酬を取得し、ターゲットポイントに近づくと正の報酬を取得し、AUVターゲットポイントに到着すると、正の報酬値1.0を取得し、トレーニング周期を終了し、
Figure 0006854549
第3項は、AUVと現在のターゲットがなす角度αに基づいて生じる報酬r33であり、同様にAUVがターゲットポイントの方向へ航行するように促すが、この項の報酬は、主に、現在のターゲット向首に近くなるように向首角を調整することをAUVに学習させ、経路の長さを減らすようにするためであり、
33=kccos(α)
式中、kCは壁障害物の回避過程に対応する報酬係数であり、
最後の総報酬信号はこの3項の報酬値を加重したものに等しく、
3=k3131+k3232+k3333
式中、k31〜k33はそれぞれ加重値であり、
強化学習は、動作から環境へのマッピングをトレーニングするものであり、ロボットを環境として、DDPGトレーニングを通じて力とトルクを得て水中ロボットに作用させ、AUVモデルを用いて計算することによりロボットの速度と角速度を得て、速度、角速度とターゲット速度、ターゲット角速度との誤差を利用して報酬値r4=−|△v+△Ψ|を設計し、ここで△vは速度誤差であり、△Ψは向首誤差であり、
また、トレーニング中のAUVモデルにランダム干渉力を追加することで、DDPGに基づく制御システムをトレーニングにより得て、制御システムのトレーニングが完了した後、ロボットの現在の位置及びターゲット経路から、経路追跡戦略に従ってターゲット命令を得て、DDPG制御システムを用いてロボットを計画命令に従うように制御する。
本発明の有益な効果は以下のとおりである。
1、本発明で設計された3層計画システムは、総タスクをターゲットへの移動と障害物回避のサブ動作に分解し、環境状態モデルと報酬関数を設計し、動作中の戦略最適化により空間次元を削減し、それによって、複雑な環境モデルでも安全で衝突のない経路を計画することができ、「次元の呪い」の問題を解決する。
また、本発明は、インテリジェントレベルが高く、計画が手動プログラミングに依存する必要がなく、人工経験によらずにロボット制御を実現することができる。
2、本発明は、ディープ強化学習アルゴリズムを行動計画システムに適用し、ニューラルネットワークを介して高次元データ特徴を抽出することで、連続的な環境状態での検知の問題を解決し、また強化学習を使用して行動決定計画を行うものである。トンネル検出タスクのニーズに応じて、ターゲットポイントへの移動、壁追跡、障害物回避という3つの典型的な動作が定義され、動作ごとに動作ネットワークが構築され、対応する環境状態変数と報酬関数が設計されて、壁の隅の問題については、仮想ターゲットポイントに基づく追跡方法が提案される。各動作は対応する目標に達しており、各動作ネットワークを呼び出すことでトンネル検出タスクを完了し、それにより、アルゴリズムは、安定性が高く、汎化能力が強い。
3、本発明は、AUVの運動学モデルを環境として、力から速度へのマッピング関係をトレーニングしているため、本発明の制御方法は、正確な環境モデルを必要とせず、トレーニング経験が制限され、実環境への適用が困難であるという問題を解決し、他のインテリジェント制御アルゴリズムの研究と比較して、普遍的な適応性を有し、一度だけトレーニングに成功すると、さまざまなタスクに適用できる。
自律型無人潜水機のタスクを3層に分割した模式図である。 タスクの分解模式図である。 壁追跡行動の模式図である。 外直角壁環境の模式図である。 内直角壁環境の模式図である。 障害物回避行動の模式図である。 AUVソナーの配置図である。
実施形態1
本実施形態は、強化学習に基づくAUV行動計画及び動作制御方法である。
本発明は、自律型無人潜水機のタスクの3層構造、すなわち、タスク層、行動層、及び行動層を定義し、緊急事態が発生したときにAUV行動計画が実行され、Deep Deterministic Policy Gradient(DDPG)コントローラによってAUVの行動制御が行われる。
実現過程においては、次の3つの部分が含まれる。
(1)自律型無人潜水機のタスクの階層的設計
(2)行動計画システムの構築
(3)DDPG制御アルゴリズムに基づく設計。
さらに、前記(1)の過程は以下の通りである。
水中ロボットによるトンネル検出タスクを階層化するには、自律型無人潜水機によるトンネル検出タスク、行動及び動作の概念を定義し、つまり、自律型無人潜水機によるトンネル検出を総タスクとして定義し、総タスクを完了するためには、ターゲットへの移動、壁追跡及び障害物回避という3つの典型的な行動を定義し、ロボットが水中で航行して計画された行動を完了するために生じる特定の制御命令を動作として定義し、たとえば、n度左折、n度右折、nノットの速度での前進などがある。
図1に示すように、自律型無人潜水機の行動計画システムのアーキテクチャは、総タスク層、行動層及び動作層という3層に分かれている。このモデルは、下から上に階層化されたフレームワークであり、動作層は、AUVが環境と相互作用するプロセスと見なすことができ、AUVは、動作を実行して環境に作用し、計画システムは、この層を通じてリアルタイムな環境と自体状態データを取得し、計画システムの以前の学習経験に従って学習とトレーニングを行うことで、グローバル計画知識を更新する。トレーニングサンプルライブラリ内の環境状態データの履歴経験情報を現在の環境状態と比較・分析し、次に、比較結果と計画知識更新データを層タスク層にフィードバックし、総タスク層は、主に現在の環境状態を分析して、特定の内部戦略に従って計画結果を出力し、行動動作シーケンスの形で行動層に送信し、つまり、現在の環境状態データに従って行動シーケンスを計画する計画システムの上位層であり、行動層は、主に現在の動作層によって取得されたローカル環境状態情報を考慮し、総タスク層による上位層の計画結果に基づき、特定の戦略に従って行動を選択する中間層である。以上説明するように、総タスク層は、環境状態データに基づいて上位層の計画結果を提供し、行動層は、上位層の計画結果に基づいて行動を選択して実行し、動作層では、AUVは行動戦略に従って基本的な動作を実行し、環境状態の変化を検知する役割を果たし、3層のフレームワークは、ボトムアップ計画の決定モデルを構成する。
また、前記(2)の過程は以下の通りである。
AUVは、トンネル検出タスクを実行する際に、タスクのニーズに応じて、グローバル経路計画によって指定されたクリティカル経路ポイントに順次到着する。ただし、実際の作業過程では、急に現れた障害物やトンネル壁の損傷によるトンネル壁環境の変化など、未知の環境情報が存在するため、安全性を確保するために、AUVは環境情報と自身の状況に基づいてタイムリーに応答する必要がある。ディープ強化学習に基づく行動計画システムは、反応式に基づく計画アーキテクチャを採用しており、環境状態と動作の間のマッピング関係を構築することにより、AUVは環境の変化に応じて動作をすばやく計画することができ、緊急環境変化に対するAUVの対処能力を向上できる。
本発明は、研究対象としてインテリジェント加圧送水トンネルを検出するAUVを採用し、このAUVは、AUVに装備した水中音響機器やセンサーなどを利用して水中環境を検出し、ディープ強化学習DQNアルゴリズムを使用して行動計画をリアルタイムで行い、つまり、マルチ行動ネットワークコール呼び出しに基づく行動計画アーキテクチャを構築し、タスクのニーズに応じて3つの基本動作の環境状態特徴の入力及び出力の動作を定義し、対応するディープ学習動作ネットワークを構築し、報酬関数を設計し、壁追跡行動では、壁の隅の問題に対しては、仮想ターゲットポイントに基づく追跡方法が提案されている。
行動層の計画の問題については、本発明は、トンネル検出を適用背景の代表例として、ターゲットへの移動行動、壁追跡行動、及び障害物回避行動という3つの代表的行動を提案し、底層の基本行動を定義し、行動ネットワークを設計し、計画システムは、トレーニング済み行動ネットワークを呼び出すことでトンネル検出タスクを完了する。トンネル検出タスクの場合、このタスクは一連の行動シーケンスに分解でき、図2に示すように、グローバル経路計画は、事前環境情報に基づいて複数の実行可能な経路ポイントを計画し、AUVは配置位置から出発し、各経路ポイントに順次到着する。
航渡タスクは、AUVが各経路の開始ポイントから各クリティカルポイントに到着することであり、各航渡タスクごとに異なる速度制約を設定することができる。経路ポイントは既知環境下のグローバル計画であるため、航渡中、AUVはリアルタイム環境状態に従って障害物回避行動を呼び出して、経路ポイントに安全に到着するため、各トラックは一意ではない。トンネル検出タスクは経路ポイント3から始まり経路ポイント4で終わり、AUVは主に壁追跡行動を呼び出して、所定の検出目標に従ってタスクを完了する。
さらに、アーキテクチャ内の検知モジュール(ソナーを含む)は、AUVセンサーのデータを取得し、行動のニーズに応じてデータを分析することで、リアルタイムなAUV状態情報と環境情報を検出する。決定モジュールは、グローバルデータ、決定システム、行動ライブラリ及び評価システムを含む、計画システムの中核である。グローバルデータには、タスク情報、状況情報、計画知識などが記憶されており、決定システムは、DQNアルゴリズムと組み合わせた自己学習計画システムでもあり、決定システムは、まず大量のトレーニングを行い、計画タスクを実行するに先立って行動データベースからトレーニング済みネットワークパラメータを抽出し、次に、現在の環境状態情報を入力として、現在の行動動作を計画し、評価システムは強化学習アルゴリズムの報酬関数システムであり、AUVが行動動作を計画して実行すると、状態環境とタスク情報に基づいて報酬を提供し、すべてのデータはグローバルデータベースに記憶されている。
2.1)ターゲットへの移動
AUVは、トンネル検出タスクを実行する過程に亘って、予めグローバルに計画されたターゲットポイントに到着する必要があり、経路を最短にするために、ターゲットポイントへの移動行動は、AUVが障害物を検知していないときに向首角を調整しながらターゲットポイントへ航行するようにし、したがって、ターゲットへの移動行動過程におけるAUVのリアルタイム向首をできるだけターゲット方向付近に制御する必要がある。ターゲットへの移動行動のニーズに応じて、図2に示すように、特徴入力量は主にAUVとターゲットポイントの位置及び角度の関係を考慮し、具体的には、現在のAUV位置座標(xAUV,yAUV)、ターゲットポイント座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βの計6次元の入力を設定する。ターゲット向首角βは、AUVがターゲットへ航行しているときの向首角である。
2.1.1)報酬関数の設計
ターゲットへの移動行動は、主にAUVが障害物無し環境でターゲットポイントへ航行するように駆動し、したがって、具体的な報酬関数は、2項に設定され、第1項r11はAUVとターゲットポイントの距離の変化を考慮し、具体的には、
Figure 0006854549
第2項r12はAUVの向首角の変化を考慮し、AUVがターゲット向首に調整して航行するように促し、首角がターゲットに近いほど、ターゲット値の報酬値が大きく、現在のAUV向首とターゲット向首との夾角αが、
α=θ−β (2)であり、
αの絶対値が小さいほど、取得する報酬値が大きく、具体的には、
12=kAcos(α) (3)
式中、kAはターゲットへの移動過程に対応する報酬係数であり、
総報酬値は2項を加重したものであり、
1=k1111+k1212 (4)
式中、k11、k12はそれぞれ加重値である。
2.2)壁追跡
ほとんどのトンネルの距離が長いため、水利プロジェクト全体が10km以上に達する可能性があり、AUVがトンネルの入口に入ると、手動による介入が困難になり、このため、AUVがトンネル環境に応じて自律的に検出タスクを完了することが求められる。衝突を回避するには、AUVは壁から安全な距離だけ離れる必要があり、そして、水中の光源や視認性などによって制限されて、AUVと壁の間の距離が画像収集の品質にも直接影響し、したがって、AUVには、壁から一定の距離を保持しながら壁に沿って航行する能力が求められる。
2.2.1)上記AUVの壁追跡機能のニーズに応じて、この行動は主にAUVと壁の距離及び相対角度の情報を考慮する。図3に示すように、AUVが自体の右側の壁を追跡して航行する例では、AUVは、右側に配置された前後の2つのレンジングソナーを通じて壁からのAUVの距離x4とx5を取得する。
本実施形態では、AUVは、合計7個のレンジングソナーが設けられており、図7に示すように、AUVの前端には3つの前方ソナー(図7の1、2、3)が設けられ、AUVの両側のそれぞれに2つのソナー(図7の4、5、と6、7)が設けられ、各側にある2つのソナーはそれぞれ前後でそれぞれ1つ設けられ、前端のものをフロントソナー、後端のものをリアソナーと呼ぶ。
方位磁針で現在のAUV向首角θを取得し、現在の壁角度θwallを推定する。
Figure 0006854549
式中、lAUVは前後の2つのソナーの間の距離であり、壁追跡行動の環境状態の特徴入力はx1、x2、x3、x4、x5、θ、θwall及びターゲット追跡距離lgoalに設定され、ここで、x1〜x5はそれぞれ3つの前方ソナーと一側に設けられた前後ソナー(本実施形態では、1−5ソナーと記載する)により測定されたデータであり、特徴入力量は8個であり、前方ソナーと側面ソナーのデータを含み、前方ソナーは主に壁環境での前方の壁からの距離x1を検出し、以上の特徴変量はAUVと壁の間の状態関係を完全に記述することができる。距離閾値を設定してソナーデータについて判断を行い、トレーニング中に閾値を超えると、現在のトレーニング周期を終了する。
2.2.2)報酬関数の設計
AUVの壁追跡行動学習において、報酬関数は、AUVができるだけ壁に平行し、壁となす角度を約0°に維持し、壁とは一定の距離を保持するようにすることに用いられる。
以上の要素を考慮して、仮想ターゲットポイントに基づく壁追跡行動の報酬信号が主に4項に設定され、一般的な壁追跡行動の報酬信号が主に2項に設定される。
第1項は、式(6)のようにAUVと現在の壁がなす角度を考慮し、AUVと壁の角度が増大し閾値を超えると、負の報酬値を取得し、AUVと壁の角度が減小すると、正の報酬値を取得し、
Figure 0006854549
第2項は、式(7)のようにAUVの前後両端と壁の距離を考慮し、AUVと壁の距離と予め設定された値との差が減小すると、正の報酬を取得し、この差が増大すると、負の報酬を取得し、追跡距離が予め設定された値の±0.2mの範囲にあることができ、追跡範囲内のこの項の報酬値が0である場合、この場所と壁の距離値は、同一側面にある2つのレンジングソナーデータによる平均値である。
Figure 0006854549
一般的な壁追跡行動の総報酬rは2項の報酬を加重したものであり、
2=k2121+k2222 (8)
式中、k21、k22はそれぞれ加重値である。
2.2.3)仮想ターゲットポイントに基づく追跡方法
一般的な壁環境では、壁追跡行動には、ターゲットの向首角とターゲットの追跡距離のみを考慮すればよく、ターゲットへの移動行動や障害物回避行動に比べて、実際ターゲットポイントによる案内がないので、壁の隅などのような特殊な環境の場合は、正確な計画結果を提供することができない。壁の隅の問題は、AUV壁追跡行動における主な難問であり、本発明では、主に2種類の壁の隅の環境、つまり外直角環境と内直角環境を考慮する。壁の隅の環境の特殊性のため、外直角を追跡する場合、AUVの前方にあるレンジングソナーが壁を検出できず、AUVはタイムリーに向首角を調整できず、ターゲットを失うことがある。内側の壁の隅の場合、基本報酬の設計に前方の障害物を考慮しないので、衝突が発生する。
この問題に対しては、本発明は、AUV壁追跡をガイドするための仮想ターゲットポイントを構築する方法を提案する。図4及び図5には、外直角の壁と内直角の壁について構築される仮想ターゲットポイントが示されている。環境が外直角である場合、フロントソナーが障害物を検出していないときに入力が最大検出距離であるので、仮想壁は点線のように構築され、これに基づいて仮想ターゲットポイントが追加される。仮想ターゲットポイントの位置は、AUV位置、レンジングソナーデータ、及び安全距離L1によって決定される。
Figure 0006854549
環境が内直角である場合、図5に示すように、仮想壁を構築できず、AUVがタイムリーに方向を変更して前方の壁の障害物を回避することを考慮すると、前方ソナーにより壁が検知されると、AUVが対向する現在のターゲット壁の他方の側で仮想ターゲットポイントが構築され、仮想ターゲットポイントの位置はAUV位置、向首角及び安全距離L2により決定される。
Figure 0006854549
2種の環境のいずれにも安全距離L1とL2が設定され、シミュレーションテストを行った結果、その値がターゲット追跡距離程度である場合、行動計画の効果が良好である。仮想ターゲットポイントに基づく報酬関数の構築は以下のとおりである。
Figure 0006854549
24=kBcos(α) (14)
式中、kBは壁追跡過程に対応する報酬係数であり、
仮想ターゲットポイントに基づく追跡行動の総報酬rは4項の報酬を加重したものである。
2=k2121+k22+r22+k2323+k2424 (15)
式中、k23、k24はそれぞれ加重値であり、
報酬係数k23とk24値が大きいため、壁の隅の環境ではAUVは仮想ターゲットポイントにより案内される傾向がある。
AUVが次の部分の壁を追跡するまで徐々に調整したとき、つまり、外直角環境におけるレンジングソナーが再度ターゲット壁を検知したか、内直角環境における前方ソナーがさらに前方の壁を検知しない場合、仮想ターゲットポイントを削除し、一般的な壁追跡行動ネットワークを呼び出す。
2.3)障害物回避
障害物回避行動は、行動計画システムのキーであり、AUVの自律的決定レベルを決定し、AUVが作業タスクを安全的に実施できるかを左右する。
2.3.1)AUV障害物回避行動のニーズに応じて、図6に示すように、行動計画システムは、周辺の障害物環境情報を十分に取得する必要があるので、環境状態の特徴入力には、3つの前方ソナーと両側のそれぞれに設けられたフロントソナーによるデータが含まれる。
AUVは、障害物回避を実行しながらターゲットポイントの方向へ近づき、AUVとターゲットポイントの相対位置情報を取得する必要があるので、特徴入力は、AUVの現在の位置座標(xAUV,yAUV)、ターゲットポイント位置座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βという計11次元の入力を含む。
2.3.2)報酬関数の設計
障害物回避行動は、AUVが急に現れた障害物を回避しターゲットポイントに順調に到着するようにするために用いられ、したがって、報酬信号分が3項に分けられ、第1項は障害物に対するAUV距離に基づいて得られた報酬値r31であり、式16に示すように、AUVが障害物に近づくと、負の報酬の警告を取得し、AUVが障害物から離間すると、正の報酬を取得し、AUVが障害物から離間して航行するように促し、障害物と衝突すると報酬値−1を取得し、現在のトレーニング周期を終了する。
Figure 0006854549
第2項は、現在のAUVとターゲットポイントの距離に基づいて生じる報酬値r32であり、AUVが障害物を回避しながらターゲットポイントへ航行するように促し、このため、AUVがターゲットポイントから離間すると、負の報酬を取得し、ターゲットポイントに使づくと正の報酬を取得し、AUVがターゲットポイントに到着すると、正の報酬値1.0を取得し、トレーニング周期を終了する。
Figure 0006854549
第3項は、AUVと現在のターゲットがなす角度αに基づいて生じる報酬r33であり、同様にAUVがターゲットポイントの方向へ航行するように促すが、この項の報酬は、主に、現在のターゲット向首に近くなるように向首角を調整することをAUVに学習させ、経路の長さを減らすようにするためである。
33=kccos(α) (18)
式中、kCは障害物回避過程に対応する報酬係数であり、
最後の総報酬信号はこの3項の報酬値を加重したものに等しく、
3=k3131+k3232+k3333 (19)
式中、k31〜k33はそれぞれ加重値である。
さらに、前記(3)の過程は以下のとおりである。
強化学習は、動作から環境へのマッピングをトレーニングするものであり、ロボットモデルを環境モデルとして、動作からロボットモデルへのマッピングをトレーニングすることができる。したがって、本発明では、直接ロボットを環境として、ファジー流体力学パラメータのロボットの運動学及び動力学モデル、即ちAUVモデルを作成し、DDPGトレーニングを通じて力とトルクを得て水中ロボットに作用させ、AUVモデルを用いて計算することによりロボットの速度と角速度を得て、速度、角速度とターゲット速度、ターゲット角速度との誤差を利用して報酬値r4=-|△v+△Ψ|を設計し、ここで、△vは速度誤差であり、△Ψは向首誤差である。また、トレーニング中のAUVモデルにランダム干渉力を追加することで、動的に変化している水中環境をシミュレーションし、それにより、抗干渉能力を有するDDPGに基づく完全な制御システムがトレーニングにより得られる。制御システムのトレーニングが完了した後、ロボットの現在の位置及びターゲット経路から、経路追跡戦略に従ってターゲット命令を得て、DDPG制御システムを用いてロボットを計画命令に従うように制御する。
前記DDPGの制御システムは動作ネットワークに対応し、Deep Deterministic Policy Gradient(DDPG)は、Actor CriticとDQNを組み合わせたアルゴリズムであり、Actor Criticの安定性及び収束性を向上させる。その構想は、DQN構造中のメモリバンク、及び構造が同じであるが、パラメータの更新頻度が異なる2つのニューラルネットワークの構想をActor Criticに適用することである。さらに、Deterministic構想を利用して、従来のActor Criticが連続動作区間においてランダムにスクリーニングするという方式を、連続空間において2つだけの動作値を出力するように変更する。
Criticシステムでは、Criticの学習過程はDQNと類似しており、下式のように現実Q値と推定Q値の損失関数を用いてネットワーク学習を行う。
Figure 0006854549
式中、Q(s,a)は、状態推定ネットワークに基づいて得られるものであり、aは動作推定ネットワークから伝送してきた動作である。前の部分R+γmaxaQ(s’,a)は現実Q値であり、DQNと異なるのは、Q値を計算するときに、貪欲法を使用して動作a’を選択するのではなく、動作現実ネットワークによりここでのa’を得るのである。前記のように、Criticの状態推定ネットワークのトレーニングは、現実Q値と推定Q値の二乗損失に基づくものであり、推定Q値は、現在の状態sに基づいて、動作推定ネットワークにより出力される動作aの入力状態を推定ネットワークに入力して得るものであり、現実Q値は、現実の報酬Rに基づいて、次の時刻の状態s’と、動作現実ネットワークにより得られた動作a’を状態現実ネットワークに入力して得たQ値とを加算して得るものである。
Actorシステムでは、下記式に基づいて動作推定ネットワークのパラメータを更新する。
Figure 0006854549
sは状態を表し、stはt時刻での状態であり、aは動作を表し、θQとθμはネットワークの重みパラメータを表す。
同じ状態について、システムが2つの異なる動作a1とa2を出力し、状態推定ネットワークから2つのQ値Q1及びQ2がフィードバックされる場合、Q1>Q2であれば、動作1を用いると、より多くの報酬を得て、この場合、Policy gradientの構想によれば、a1の確率が増加し、a2の確率が低下し、つまり、Actorはできるだけ大きなQ値を取得しようとする。したがって、Actorの損失については、得たフィードバックQ値が大きいほど、損失が小さく、得たフィードバックQ値が小さいほど、損失が大きいと理解でき、このため、状態推定ネットワークから戻されたQ値を負にすればよい。
DDPGコントローラの構想は、強化学習アルゴリズム中の動作をロボットの推力及びトルクに対応させ、アルゴリズム中の状態をロボットの速度及び角速度に対応させることである。アルゴリズムに対して学習トレーニングを行うことにより力から状態へのマッピング関係が実現される。
DDPGをAUV制御に適用するには、まず、Criticニューラルネットワーク構造Q(stt|θQ)及びActorニューラルネットワーク構造μ(st|θμ)、(θQとθμはネットワークの重みパラメータを示す。)を作成する。次に、それぞれCriticとActorの2つの構造中に、ターゲットネットワーク(target_net)と予測ネットワーク(eval_net)との2つのニューラルネットワークを作成する。次に、DDPGの動作出力を制御システムの作用力τとして、制御システムが出力する作用力でロボットの動きを制御すると、DDPG制御システムをAUVの現在の状態sからロボットの受ける力へのマッピングとすることができ、式(21)の
Figure 0006854549
と組み合わせ、関数で
τ=μ(st|θμ) (22)として表し、
ロボット状態sは主にロボットの速度と向首として示され、
V=[u,v,r]
Ψ=[0,θ,Ψ] (23)
式中、u、v、rはそれぞれAUVの縦方向速度、横方向速度及び角速度であり、ΨはAUVの向首角であり、
水平運動であるので、v、rは無視され、このため、
τ=μ(st)=μ(μ(t),Ψ(t)) (24)
この式は、制御システムの出力力がロボットの速度、向首及びトリム角がターゲット命令のようになるように制御することを示す。
実施形態2
実施形態1に記載のファジー流体力学パラメータのAUVモデルの作成過程は、一般的なAUVダイナミックモデリングの過程であり、本分野の従来技術を用いて実現でき、上記過程をより明瞭にするために、本実施形態では、ファジー流体力学パラメータのAUVモデルの作成過程を説明するが、ただし、本発明は、以下のファジー流体力学パラメータのAUVモデルの作成方式を含むが、それに制限されない。ファジー流体力学パラメータのAUVモデルの作成過程には、
水中ロボットの流体力学方程を作成するステップと、
Figure 0006854549
式中、f−ランダム干渉力;M−システムの慣性係数行列、M=MRB+A≧0; MRB−キャリアの慣性行列、
Figure 0006854549
且つ
Figure 0006854549
;MA−追加品質係数行列、
Figure 0006854549

Figure 0006854549
−コリオリ力・求心力係数行列、
Figure 0006854549
;CRB−求心力係数行列;
Figure 0006854549
−コリオリ力(モーメント)係数行列、
Figure 0006854549

Figure 0006854549
−粘性流体力係数行列、
Figure 0006854549
;τ−制御入力ベクター;g0−静圧荷重ベクター、研究し易さからゼロとする;
Figure 0006854549
−復元力/トルクベクター。
自律型無人潜水機の実行機構の構成から、その横揺れが小さく、主にスラスターを用いて上昇・ダイビング、縦方向動き、前後揺れ及び縦揺れの動きが行われると考えられ、その運動学モデルは5自由度の方程式で近似的に記述することができる。
Figure 0006854549
Figure 0006854549
式中、X、Y、Z、M、Nは、水中ロボットのアクチュエータが発生する作用による水中ロボットの各自由度での力(トルク)を表し、水中ロボットの受ける重力と浮力、スラスターの推力、水中ロボットの動きによる流体動力やいくつかの環境からの外力を含み、
Mは水中ロボットの全水中排水量の質量であり、
G、yG、zGは水中ロボットの重心の艇体座標系における座標であり、
y、Izはそれぞれ艇体座標系のy、z軸に対する水中ロボットの質量の慣性モーメントであり、
u、v、ω、q、rはそれぞれ水中ロボットの艇体座標系での縦方向速度、横方向速度、垂向速度、トリム角速度、回転角速度であり、
Figure 0006854549
は水中ロボットの艇体座標系での対応する自由度の(角)加速度であり、
Figure 0006854549
などはすべて艇体の一次又は二次流体力学的導関数であり、理論計算、制約付きモデルの試験、識別及び近似推定により得られ得る。
実施例
本発明の最も主な目的は、水中ロボットが水中環境において現在の環境状態に基づいて行動決定及び動作制御を自律的に行うことによって、人を複雑なプログラミングプロセスから解放することであり、具体的には、以下のように実現される。
1)プログラミングソフトウェアを用いてディープ強化学習に基づく自律型無人潜水機の行動計画シミュレーションシステムを作成し、シミュレーショントレーニングによりロボットの最適決定戦略を得て、具体的には、
1.1)環境モデルを作成して、初期位置とターゲットポイントを決定し、アルゴリズムパラメータを初期化させる。
1.2)現在のt時刻での環境状態及びロボットタスクを決定し、タスクをターゲットへの移動行動、壁追跡行動、障害物回避行動に分解する。
1.3)現在の状態に基づいてターゲットへの移動、壁追跡又は障害物回避を選択して、行動を動作に分解する。
1.4)動作aを実行して、新しい状態s’を観察し、報酬値Rを得る。
1.5)ニューラルネットワークをトレーニングして各動作のQ値を得て、最大Q値に基づいて動作を出力する。
1.6)Q関数を更新する。
1.7)現在の時刻の状態を判断し、ターゲット状態に達する場合、1.8)に入り、そうではない場合、1.4)に入る。
1.8)選択した行動が完了した後、Q関数を更新する。
1.9)検出が完了したか否かを判断し、完了した場合、1.10)に入り、そうではない場合、1.3)に入る。
1.10)Q値が収束しているか否かを判断し、収束している場合、トレーニング又は計画を終了し、収束していない場合、ロボット位置を初期化させ、1.2)に入る。
2)DDPGコントローラを用いて、計画して出力する動作を完了するようにロボットを制御し、具体的には、以下のステップを含む。
2.1)パラメータを初期化する。
2.2)外部ループを行う。
2.2.1)ターゲット向首、ターゲット速度をランダムに生成する。
2.2.2)内部ループを行う。
2.2.2.1)DDPGアルゴリズムを実行させて、動作τ=a=μ(st|θμ)を出力する。
2.2.2.2)AUV運動学モデルに基づいてAUVの加速度を計算する。
Figure 0006854549
2.2.2.3)AUV運動学モデルに基づいてAUV速度
Figure 0006854549
、向首角
Figure 0006854549
及びトリム角
Figure 0006854549
、速度誤差△v、向首誤差△Ψ及びトリム誤差△θを計算し、報酬戦略に従って報酬値を取得する。
r=−|△v+△Ψ+△θ|
2.2.2.4)制御誤差が0であり、r+=1である場合、小ループを終了する。
2.2.2.5)criticニューラルネットワークを更新して最小損失を取得する。
Figure 0006854549
2.2.2.6)勾配降下法によってactorを更新する。
Figure 0006854549
2.2.2.7)ネットワークパラメータ
Figure 0006854549
を更新する。
2.2.2.8)内ループのステップ数に達すると、内ループを終了する。
2.2.3)外ループのステップ数に達すると、外ループを終了する。

Claims (6)

  1. 強化学習に基づくAUV行動計画及び動作制御方法であって、
    水中ロボットによるトンネル検出を総タスク、即ちタスクとして定義し、タスクを完了するための行動には、ターゲットへの移動、壁追跡及び障害物回避が含まれ、ロボットが計画する行動を水中で完了するために生じる具体的な制御命令を動作として定義するステップと、
    AUVはトンネル検出タスクを実行するときに、検出対象の水中環境に基づいて、ディープ強化学習DQNアルゴリズムを用いて行動計画をリアルタイムで行い、つまり、マルチ行動ネットワーク呼び出しに基づく行動計画アーキテクチャを構築し、タスクのニーズに応じて3つの行動の環境状態特徴の入力及び出力の動作を定義して、対応するディープ学習の行動ネットワークを構築し、報酬関数を設計するステップと、
    計画システムが学習済み行動ネットワークを呼び出すことで前記トンネル検出タスクを完了するステップと、
    制御システムが学習済み動作ネットワークを呼び出すことで計画された行動を完了するステップと、を含み、
    対応するディープ学習の行動ネットワークを構築し、報酬関数を設計する設計過程においては、以下のステップを含み、
    前記トンネル検出タスクを行動シーケンスに分解し、グローバル経路計画において事前環境情報に基づいて複数の実現可能な経路ポイントを計画し、AUVが配置位置から出発し、各経路ポイントに順次到着し、
    航行過程において、AUVはリアルタイム環境状態に基づいて、障害物回避行動を呼び出して安全に経路ポイントに到着し、前記トンネル検出タスクのうちAUVは主に壁追跡行動を呼び出し、所定の検出目標に従ってタスクを完了し、
    決定モジュールは、前記強化学習に基づくAUV行動計画を実行するものであって、グローバルデータベース、決定システム、行動ライブラリ及び評価システムを含み、
    前記グローバルデータベースは、タスク情報、状況情報、計画知識が含まれるグローバルデータを記憶し、
    前記決定システムは、前記ディープ強化学習DQNアルゴリズムを用いる自学習計画システムであり、動作から環境へのマッピングを学習したうえ、計画タスクを実行するに先立って前記行動ライブラリから学習済みネットワークパラメータを抽出し、次に現在の環境状態情報を入力として現在の行動動作を計画し、
    前記評価システムは、前記ディープ強化学習DQNアルゴリズムの報酬関数システムであり、AUVが1つの行動動作計画を計画して実行するたびに、状態環境とタスク情報に基づいて報酬を提供し
    前記行動のうちターゲットへの移動過程においては、以下のステップを含み、
    ターゲットポイントへの移動行動は、AUVが障害物を検知しないときに向首角を調整しながらターゲットポイントへ航行することであり、特徴入力量として主にAUVとターゲットポイントの位置と角度の関係を考慮し、具体的には、現在のAUV位置座標(xAUV,yAUV)、ターゲットポイント座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βの計6次元の入力を設定し、その中でも、ターゲット向首角βはAUVがターゲットへ航行しているときの向首角であり、
    報酬関数については、ターゲットへの移動行動によりAUVが障害物無し環境でターゲットポイントへ航行するときに、報酬関数は2項に設定され、
    第1項r11はAUVとターゲットポイントの距離の変化を考慮し、
    Figure 0006854549
    第2項r12はAUVの向首角の変化を考慮し、向首角がターゲットに近いほど、ターゲット値の報酬値が大きく、現在のAUV向首とターゲット向首との夾角αが
    α=θ−β (2)であり、
    αの絶対値が小さいほど、取得する報酬値が大きく、具体的には、
    12=kAcos(α) (3)
    式中、kAはターゲットへの移動過程に対応する報酬係数であり、
    総報酬値は2項を加重したものであり、
    1=k1111+k1212 (4)
    式中、k11、k12はそれぞれ加重値であり、
    前記行動のうち壁追跡過程においては、以下のステップを含み、
    AUV壁追跡行動は、AUVと壁の距離及び相対角度の情報を考慮し、AUVは、一方の側に配置された前後にある2つのレンジングソナーを通じて壁からのAUVの距離x4とx5を取得し、
    方位磁針で現在のAUV向首角θを取得して、現在の壁角度θwallを推定し、
    Figure 0006854549
    式中、lAUVは前後にある2つのソナーの間の距離であり、壁追跡行動の環境状態の特徴入力はx1、x2、x3、x4、x5、θ、θwall及びターゲット追跡距離lgoalに設定され、ここで、x1〜x5はそれぞれ3つの前方ソナーと一側に設けられた前後ソナーにより測定されたデータであり、特徴入力量は8個であり、AUVと壁の間の状態関係を完全に記述することができ、距離閾値を設定してソナーデータについて判断を行い、学習中に閾値を超えると、現在の学習周期を終了し、
    報酬関数は、AUVができるだけ壁に平行し、壁とは一定の距離を保持するようにし、仮想ターゲットポイントに基づく壁追跡行動の報酬信号が主に4項に設定され、一般的な壁追跡行動の報酬信号が主に2項に設定され、
    第1項は、式(6)のようにAUVと現在の壁がなす角度を考慮し、AUVと壁の角度が増大し閾値を超えると、負の報酬値を取得し、AUVと壁の角度が減少すると、正の報酬値を取得し、
    Figure 0006854549
    第2項は、式(7)のようにAUVの前後両端と壁の距離を考慮し、AUVと壁の距離と予め設定された値との差が減少すると、正の報酬を取得し、この差が増大すると負の報酬を取得し、追跡距離が予め設定された値の±0.2mの範囲にあることができ、追跡範囲内のこの項の報酬値が0である場合、この場所と壁の距離値は、同一側面にある2つのレンジングソナーによるデータの平均値であり、
    Figure 0006854549
    一般的な壁追跡行動の総報酬rは2項の報酬を加重したものであり、
    2=k2121+k2222 (8)
    式中、k21、k22はそれぞれ加重値であり、
    仮想ターゲットポイントに基づく追跡では、この仮想ターゲットポイントは外直角と内直角の壁により作成された仮想ターゲットポイントであり、環境が外直角である場合、前側のソナーが障害物を検知していないときに入力が最大検出距離であるので、仮想壁が構築され、仮想ターゲットポイントが追加され、環境が内直角である場合、前方ソナーが壁を検知したとき、AUVが対向する現在のターゲット壁の他方の側で仮想ターゲットポイントが構築され、
    仮想ターゲットポイントに基づく報酬関数の構築は、以下のとおりであり、
    Figure 0006854549
    24=kBcos(α)
    式中、kBは壁追跡過程に対応する報酬係数であり、
    仮想ターゲットポイントに基づく追跡行動の総報酬rは4項の報酬を加重したものであり、
    2=k2121+k2222+k2323+k2424
    式中、k23、k24はそれぞれ加重値であり、
    AUVが次の部分の壁を追跡するまで徐々に調整したとき、たとえば、外直角環境におけるレンジングソナーが再度ターゲット壁を検知したか、内直角環境における前方ソナーがさらに前方の壁を検知しない場合、仮想ターゲットポイントを削除し、一般的な壁追跡行動ネットワークを呼び出し、
    前記行動のうち障害物回避過程においては、以下のステップを含み、
    AUV障害物回避行動のニーズについて、環境状態の特徴入力は3つの前方ソナーと両側のそれぞれに設けられたフロントソナーのデータを含み、AUVは、障害物を回避しながらターゲットポイントの方向へ近づき、特徴入力はAUVの現在の位置座標(xAUV,yAUV)、ターゲットポイント位置座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βの計11次元の入力をさらに含み、
    報酬関数については、報酬信号が3項に分けられ、第1項は障害物に対するAUV距離に基づいて得られた報酬値r31であり、AUVが障害物に近づくと、負の報酬の警告を取得し、AUVが障害物から離間すると、正の報酬を取得し、AUVが障害物から離間して航行するように促し、障害物と衝突すると報酬値−1を取得し、現在の学習周期を終了し、
    Figure 0006854549
    第2項は、現在のAUVとターゲットポイントの距離に基づいて生じる報酬値r32であり、AUVが障害物を回避しながらターゲットポイントへ航行するように促し、このため、AUVがターゲットポイントから離間すると、負の報酬を取得し、ターゲットポイントに近づくと正の報酬を取得し、AUVターゲットポイントに到着すると、正の報酬値1.0を取得し、学習周期を終了し、
    Figure 0006854549
    第3項は、AUVと現在のターゲットがなす角度αに基づいて生じる報酬r33であり、同様にAUVがターゲットポイントの方向へ航行するように促すが、この項の報酬は、主に、現在のターゲット向首に近くなるように向首角を調整することをAUVに学習させ、経路の長さを減らすようにするためであり、
    33=kccos(α)
    式中、kCは壁障害物の回避過程に対応する報酬係数であり、
    最後の総報酬信号はこの3項の報酬値を加重したものに等しく、
    3=k3131+k3232+k3333
    式中、k31〜k33はそれぞれ加重値であり、
    強化学習は、動作から環境へのマッピングを学習するものであり、ロボットを環境として、DDPG学習を通じて力とトルクを得て水中ロボットに作用させ、AUVモデルを用いて計算することによりロボットの速度と角速度を得て、速度、角速度とターゲット速度、ターゲット角速度との誤差を利用して報酬値r4=−|△v+△Ψ|を設計し、ここで△vは速度誤差であり、△Ψは向首誤差であり、
    また、学習中のAUVモデルにランダム干渉力を追加することで、DDPGに基づく制御システムを学習により得て、制御システムの学習が完了した後、ロボットの現在の位置及びターゲット経路から、経路追跡戦略に従ってターゲット命令を得て、DDPG制御システムを用いてロボットを計画命令に従うように制御する、ことを特徴とする強化学習に基づくAUV行動計画及び動作制御方法。
  2. 外直角及び内直角壁のために仮想ターゲットポイントを構築する構築過程では、環境が外直角である場合、前記仮想ターゲットポイントの位置は、AUV位置、レンジングソナーデータ及び安全距離L1により決定される、ことを特徴とする請求項1に記載の強化学習に基づくAUV行動計画及び動作制御方法。
    Figure 0006854549
  3. 外直角及び内直角壁のために仮想ターゲットポイントを構築する構築過程では、環境が内直角である場合、前記仮想ターゲットポイントの位置は、AUV位置、向首角及び安全距離L2により決定される、ことを特徴とする請求項2に記載の強化学習に基づくAUV行動計画及び動作制御方法。
    Figure 0006854549
  4. DDPG制御システムを利用してロボットを計画命令に従うように制御する制御過程では、
    DDPGコントローラが、強化学習アルゴリズムにおける動作をロボットの推力及びトルクに対応させ、アルゴリズムにおける状態をロボットの速度及び角速度に対応させ、アルゴリズムについて学習を行い、力から状態へのマッピング関係を取得するステップと、
    DDPGをAUV制御に適用するには、まず、Criticニューラルネットワーク構造Q(stt|θQ)及びActorニューラルネットワーク構造μ(st|θμ)(θQとθμはネットワークの重みパラメータを示す。)を作成し、それぞれCriticとActorの2つの構造中に、ターゲットネットワークtarget_netと予測ネットワークeval_netという2つのニューラルネットワークを作成し、次に、DDPGの動作出力を制御システムの作用力τとして、制御システムが出力する作用力でロボットの動きを制御し、
    Figure 0006854549
    と組み合わせて関数で、τ=μ(st|θμ)として表し、
    ロボット状態sは主にロボットの速度と向首として示され、
    V=[u,v,r]
    Ψ=[0,θ,Ψ]
    式中、u、v、rはそれぞれAUVの縦方向速度、横方向速度及び角速度であり、ΨはAUVの向首角であり、
    v、rは無視され、
    式τ=μ(st)=μ(μ(t),Ψ(t))は、制御システムの出力力がロボットの速度、向首及びトリム角がターゲット命令のようになるように制御することを示す、ことを特徴とする請求項1、2又は3に記載の強化学習に基づくAUV行動計画及び動作制御方法。
  5. 前記Criticでは、現実Q値と推定Q値の損失関数を用いてネットワーク学習を行い、
    Figure 0006854549
    式中、Q(s,a)は状態推定ネットワークに基づいて得られるものであり、aは動作推定ネットワークから伝送してきた動作であり、
    R+γmaxaQ(s’,a)は現実Q値であり、現実Q値は、実際報酬Rに基づいて、次の時刻の状態s’と動作現実ネットワークにより得た動作a’を状態現実ネットワークにより得たQ値とを加算して得るものである、ことを特徴とする請求項4に記載の強化学習に基づくAUV行動計画及び動作制御方法。
  6. 前記Actorでは、下記式に基づいて動作推定ネットワークのパラメータを更新する、ことを特徴とする請求項5に記載の強化学習に基づくAUV行動計画及び動作制御方法。
    Figure 0006854549
JP2020139299A 2019-08-21 2020-08-20 強化学習に基づくauv行動計画及び動作制御の方法 Active JP6854549B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910775602.7 2019-08-21
CN201910775602.7A CN110333739B (zh) 2019-08-21 2019-08-21 一种基于强化学习的auv行为规划及动作控制方法

Publications (2)

Publication Number Publication Date
JP2021034050A JP2021034050A (ja) 2021-03-01
JP6854549B2 true JP6854549B2 (ja) 2021-04-07

Family

ID=68150103

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020139299A Active JP6854549B2 (ja) 2019-08-21 2020-08-20 強化学習に基づくauv行動計画及び動作制御の方法

Country Status (2)

Country Link
JP (1) JP6854549B2 (ja)
CN (1) CN110333739B (ja)

Families Citing this family (106)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110658827B (zh) * 2019-10-25 2020-06-23 嘉应学院 一种基于物联网的运输车自动引导系统及其方法
CN112731804A (zh) * 2019-10-29 2021-04-30 北京京东乾石科技有限公司 一种实现路径跟随的方法和装置
CN111079936B (zh) * 2019-11-06 2023-03-14 中国科学院自动化研究所 基于强化学习的波动鳍推进水下作业机器人追踪控制方法
CN110909859B (zh) * 2019-11-29 2023-03-24 中国科学院自动化研究所 基于对抗结构化控制的仿生机器鱼运动控制方法、系统
CN111198568A (zh) * 2019-12-23 2020-05-26 燕山大学 一种基于q学习的水下机器人避障控制方法
CN111142522B (zh) * 2019-12-25 2023-06-09 北京航空航天大学杭州创新研究院 一种分层强化学习的智能体控制方法
CN111061277B (zh) * 2019-12-31 2022-04-05 歌尔股份有限公司 一种无人车全局路径规划方法和装置
CN111240345B (zh) * 2020-02-11 2023-04-07 哈尔滨工程大学 基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
CN111273677B (zh) * 2020-02-11 2023-05-12 哈尔滨工程大学 基于强化学习技术的自主水下机器人速度和艏向控制方法
CN111290270B (zh) * 2020-02-11 2022-06-03 哈尔滨工程大学 一种基于Q-learning参数自适应技术的水下机器人反步速度和艏向控制方法
EP4110431A4 (en) * 2020-02-27 2023-08-02 Siemens Healthcare Diagnostics Inc. AUTOMATIC VALIDATION OF SENSOR TRACKS USING MACHINE LEARNING
CN111667513B (zh) * 2020-06-01 2022-02-18 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN111813143B (zh) * 2020-06-09 2022-04-19 天津大学 一种基于强化学习的水下滑翔机智能控制系统及方法
CN113799949B (zh) * 2020-06-11 2022-07-26 中国科学院沈阳自动化研究所 一种基于q学习的auv浮力调节方法
CN111982117B (zh) * 2020-08-17 2022-05-10 电子科技大学 一种基于深度学习的auv光学引导与测向方法
CN112162564B (zh) * 2020-09-25 2021-09-28 南京大学 基于模仿学习和强化学习算法的无人机飞行控制方法
CN112179367B (zh) * 2020-09-25 2023-07-04 广东海洋大学 一种基于深度强化学习的智能体自主导航方法
CN112241176B (zh) * 2020-10-16 2022-10-28 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112347961B (zh) * 2020-11-16 2023-05-26 哈尔滨工业大学 水流体内无人平台智能目标捕获方法及系统
CN112526524B (zh) * 2020-12-09 2022-06-17 青岛澎湃海洋探索技术有限公司 一种基于前视声纳图像和auv平台的水下渔网检测方法
CN112560671B (zh) * 2020-12-15 2022-04-12 哈尔滨工程大学 基于旋转卷积神经网络的船舶检测方法
CN113052372B (zh) * 2021-03-17 2022-08-02 哈尔滨工程大学 一种基于深度强化学习的动态auv追踪路径规划方法
CN113050430B (zh) * 2021-03-29 2023-05-02 浙江大学 一种基于鲁棒强化学习的排水系统控制方法
CN113515119A (zh) * 2021-04-25 2021-10-19 华北电力大学 一种基于强化学习的变电站内巡检机器人路径规划方案
CN113406957B (zh) * 2021-05-19 2022-07-08 成都理工大学 基于免疫深度强化学习的移动机器人自主导航方法
CN113290557A (zh) * 2021-05-21 2021-08-24 南京信息工程大学 一种基于数据驱动的蛇形机器人控制方法
CN113177366B (zh) * 2021-05-28 2024-02-02 华北电力大学 一种综合能源系统规划方法、装置和终端设备
CN113268074B (zh) * 2021-06-07 2022-05-13 哈尔滨工程大学 一种基于联合优化的无人机航迹规划方法
CN113093773B (zh) * 2021-06-10 2021-09-03 深之蓝海洋科技股份有限公司 基于水下机器人的水下结构检测方法、系统、设备及介质
CN115494831B (zh) * 2021-06-17 2024-04-16 中国科学院沈阳自动化研究所 一种人机自主智能协同的跟踪方法
CN113268933B (zh) * 2021-06-18 2022-02-15 大连理工大学 基于强化学习的蛇形急救机器人结构参数快速设计方法
CN113283181B (zh) * 2021-06-28 2024-02-27 上海海事大学 一种障碍物和海流环境中多auv快速围捕方法
CN113252028B (zh) * 2021-06-28 2021-09-21 深之蓝海洋科技股份有限公司 输水隧洞内机器人的定位方法、电子设备及存储介质
CN113821903B (zh) * 2021-07-09 2024-02-06 腾讯科技(深圳)有限公司 温度控制方法和设备、模块化数据中心及存储介质
CN113552881B (zh) * 2021-07-15 2024-03-26 浙江工业大学 一种用于神经网络训练的多路径规划数据集生成方法
CN113592162B (zh) * 2021-07-22 2023-06-02 西北工业大学 一种基于多智能体强化学习的多水下无人航行器协同搜索方法
CN113916254A (zh) * 2021-07-22 2022-01-11 北京控制工程研究所 一种停靠式抓捕的航天器自主交会对接试验方法
CN113589842B (zh) * 2021-07-26 2024-04-19 中国电子科技集团公司第五十四研究所 一种基于多智能体强化学习的无人集群任务协同方法
CN113592958A (zh) * 2021-08-13 2021-11-02 大连海事大学 一种基于单目视觉的auv对接坞站光学引导方法
CN113573235A (zh) * 2021-08-16 2021-10-29 苏州云享阁智能科技有限公司 一种基于ddpg算法获得最优资源分配以提升定位精度的方法
CN113791612B (zh) * 2021-08-17 2023-10-24 中南民族大学 智能体实时路径规划方法、装置、设备及存储介质
CN113671834B (zh) * 2021-08-24 2023-09-01 郑州大学 一种机器人柔性行为决策方法及设备
CN113836788B (zh) * 2021-08-24 2023-10-27 浙江大学 基于局部数据增强的流程工业强化学习控制的加速方法
CN113433953A (zh) * 2021-08-25 2021-09-24 北京航空航天大学 多机器人协同避障方法、装置和智能机器人
CN114003029B (zh) * 2021-09-12 2023-06-30 西北工业大学 一种声光融合导引的自主水下航行器鲁棒对接回收方法
CN113741533A (zh) * 2021-09-16 2021-12-03 中国电子科技集团公司第五十四研究所 一种基于模仿学习与强化学习的无人机智能决策系统
CN113821035A (zh) * 2021-09-22 2021-12-21 北京邮电大学 无人船轨迹追踪控制方法和装置
CN113848974B (zh) * 2021-09-28 2023-08-15 西安因诺航空科技有限公司 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN114296440B (zh) * 2021-09-30 2024-04-09 中国航空工业集团公司北京长城航空测控技术研究所 一种融合在线学习的agv实时调度方法
CN113848927A (zh) * 2021-10-07 2021-12-28 兰州理工大学 一种自主规划路径的自动驾驶系统
CN113919217B (zh) * 2021-10-08 2024-05-17 南开大学 自抗扰控制器自适应参数整定方法及装置
CN113771044B (zh) * 2021-10-09 2022-11-11 北京卫星环境工程研究所 一种机器人末端负载动态受力感知方法
CN113829351B (zh) * 2021-10-13 2023-08-01 广西大学 一种基于强化学习的移动机械臂的协同控制方法
CN113848946B (zh) * 2021-10-20 2023-11-03 郑州大学 一种基于神经调节机制的机器人行为决策方法及设备
CN114063624A (zh) * 2021-10-22 2022-02-18 中国船舶重工集团公司第七一九研究所 一种爬游无人潜水器多模式规划运动控制器及其控制方法
CN113867396B (zh) * 2021-10-22 2024-04-26 吉林大学 一种网联无人机航线规划与航线平滑方法及装置
CN114020013B (zh) * 2021-10-26 2024-03-15 北航(四川)西部国际创新港科技有限公司 一种基于深度强化学习的无人机编队避撞方法
CN113985876B (zh) * 2021-10-27 2023-09-26 广州大学 基于仿生鱼类觅食的海洋垃圾回收路径规划方法及系统
CN114019805B (zh) * 2021-11-17 2023-05-23 九江职业技术学院 一种欠驱动auv的模型预测对接控制方法
CN114089633B (zh) * 2021-11-19 2024-04-26 江苏科技大学 一种水下机器人多电机耦合驱动控制装置及方法
CN114077258B (zh) * 2021-11-22 2023-11-21 江苏科技大学 一种基于强化学习ppo2算法的无人艇位姿控制方法
CN113885549B (zh) * 2021-11-23 2023-11-21 江苏科技大学 基于维度裁剪的ppo算法的四旋翼姿态轨迹控制方法
CN114200833B (zh) * 2021-11-24 2024-04-12 华中科技大学 一种基于观测器的机器人网络动态区域覆盖的控制方法
CN114155298B (zh) * 2021-12-09 2024-05-17 山东大学 一种基于主动感知的机器人堵漏方法及系统
CN114153216B (zh) * 2021-12-14 2023-10-03 浙江大学湖州研究院 基于深度强化学习和块规划的月面路径规划系统和方法
CN114692890A (zh) * 2021-12-24 2022-07-01 中国人民解放军军事科学院战争研究院 基于模型的权值组合规划值扩展的方法
CN114355915B (zh) * 2021-12-27 2024-04-02 杭州电子科技大学 一种基于深度强化学习的agv路径规划
CN114355980B (zh) * 2022-01-06 2024-03-08 上海交通大学宁波人工智能研究院 基于深度强化学习的四旋翼无人机自主导航方法与系统
CN114527642B (zh) * 2022-03-03 2024-04-02 东北大学 一种基于深度强化学习的agv自动调整pid参数的方法
CN114675535B (zh) * 2022-03-07 2024-04-02 大连理工大学 一种基于强化学习的航空发动机过渡态寻优控制方法
CN114578712B (zh) * 2022-03-08 2023-09-26 北京航空航天大学 多功能水下自主航行器集群仿真系统
CN114785397B (zh) * 2022-03-11 2023-04-07 成都三维原光通讯技术有限公司 无人机基站控制方法、飞行轨迹优化模型构建、训练方法
CN114800488B (zh) * 2022-03-18 2023-06-20 清华大学深圳国际研究生院 一种基于深度强化学习的冗余机械臂可操作度优化方法及装置
CN114679699A (zh) * 2022-03-23 2022-06-28 重庆邮电大学 基于深度强化学习的多无人机节能巡航通信覆盖方法
CN114879660B (zh) * 2022-04-14 2023-08-15 海南大学 一种基于目标驱动的机器人环境感知方法
CN114923486B (zh) * 2022-04-21 2024-05-17 厦门大学 一种基于全局环境图和注意力侧重的机器人导航方法
CN114910072A (zh) * 2022-04-21 2022-08-16 海南大学 基于深度强化学习的无人机导航方法、装置、设备及介质
CN114840928B (zh) * 2022-05-07 2023-04-18 西北工业大学 一种基于深度学习的水下航行器集群运动仿真方法
CN115167484B (zh) * 2022-05-13 2024-04-19 西北工业大学 基于神经网络的自主水下航行器模型预测路径跟踪方法
CN114895697B (zh) * 2022-05-27 2024-04-30 西北工业大学 一种基于元强化学习并行训练算法的无人机飞行决策方法
CN114995468B (zh) * 2022-06-06 2023-03-31 南通大学 一种基于贝叶斯深度强化学习的水下机器人智能控制方法
CN115291616B (zh) * 2022-07-25 2023-05-26 江苏海洋大学 一种基于近端策略优化算法的auv动态避障方法
CN114964268B (zh) * 2022-07-29 2023-05-02 白杨时代(北京)科技有限公司 一种无人机导航方法及装置
CN115278901B (zh) * 2022-08-04 2023-06-06 哈尔滨工程大学 水下无定位移动网络的自适应通信方法
CN115314854B (zh) * 2022-08-08 2023-05-30 广东智能无人系统研究院(南沙) 一种海上风电水下设施无人巡检系统及方法
CN115328143B (zh) * 2022-08-26 2023-04-18 齐齐哈尔大学 一种基于环境驱动的主从水面机器人回收导引方法
CN115468454A (zh) * 2022-08-30 2022-12-13 南京理工大学 虚拟力法与引战配合相结合的多弹协同对抗策略
CN115550236B (zh) * 2022-08-31 2024-04-30 国网江西省电力有限公司信息通信分公司 一种面向安全中台资源池路由优化的数据保护方法
CN115586782B (zh) * 2022-10-17 2024-04-12 湖南大学 一种自主式水下机器人运动控制方法及装置
CN115494733A (zh) * 2022-10-27 2022-12-20 南方电网调峰调频发电有限公司储能科研院 一种基于gazebo的水下机器人自适应控制方法
CN115657678B (zh) * 2022-10-28 2024-04-26 中国船舶重工集团公司第七一九研究所 面向复杂动态环境的水下无人潜航器航迹生成方法及系统
CN115493597B (zh) * 2022-11-15 2023-04-18 山东大学 一种基于sac算法的auv路径规划控制方法
CN115981369B (zh) * 2023-01-09 2023-12-01 南京航空航天大学 有限通信下面向多无人机联合任务分配和航迹规划的方法
CN116301027B (zh) * 2023-02-08 2023-12-05 北京航空航天大学 一种基于安全强化学习的城市空域内无人机路径规划方法
CN115855226B (zh) * 2023-02-24 2023-05-30 青岛科技大学 基于dqn和矩阵补全的多auv协同水下数据采集方法
CN115993831B (zh) * 2023-03-23 2023-06-09 安徽大学 基于深度强化学习的机器人无目标网络的路径规划方法
CN116430900B (zh) * 2023-05-04 2023-12-05 四川大学 基于深度强化学习的高超声速弹头的博弈轨迹规划方法
CN116295449B (zh) * 2023-05-25 2023-09-12 吉林大学 水下自主航行器路径指示方法及装置
CN116578102B (zh) * 2023-07-13 2023-09-19 清华大学 水下自主航行器避障方法、装置、计算机设备和存储介质
CN117130379B (zh) * 2023-07-31 2024-04-16 南通大学 一种基于lqr近视距的无人机空战攻击方法
CN116700020B (zh) * 2023-08-10 2023-11-24 西安爱生无人机技术有限公司 变后掠翼无人机的控制方法、系统、无人机及存储介质
CN117140527B (zh) * 2023-09-27 2024-04-26 中山大学·深圳 一种基于深度强化学习算法的机械臂控制方法及系统
CN117055591B (zh) * 2023-10-11 2024-03-15 青岛哈尔滨工程大学创新发展中心 综合洋流影响和机动性约束的auv全局路径规划方法
CN117233520B (zh) * 2023-11-16 2024-01-26 青岛澎湃海洋探索技术有限公司 基于改进Sim-GAN的AUV推进系统故障检测评估方法
CN117682429B (zh) * 2024-02-01 2024-04-05 华芯(嘉兴)智能装备有限公司 一种物料控制系统的天车搬运指令调度方法及装置
CN117744540B (zh) * 2024-02-19 2024-04-30 青岛哈尔滨工程大学创新发展中心 水下无人航行器的水下作业水动力特性趋势预测方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309519A (ja) * 2005-04-28 2006-11-09 Institute Of National Colleges Of Technology Japan 強化学習システム、及び強化学習プログラム
JP4929449B2 (ja) * 2005-09-02 2012-05-09 国立大学法人横浜国立大学 強化学習装置および強化学習方法
JP4495703B2 (ja) * 2006-08-24 2010-07-07 日本電信電話株式会社 水中ロボットの動作制御方法、装置及びプログラム
CN102402712B (zh) * 2011-08-31 2014-03-05 山东大学 基于神经网络的机器人强化学习初始化方法
CN115338859A (zh) * 2016-09-15 2022-11-15 谷歌有限责任公司 机器人操纵的深度强化学习
JP6875513B2 (ja) * 2016-10-10 2021-05-26 ディープマインド テクノロジーズ リミテッド ロボットエージェントによって実行されるべきアクションを選択するためのニューラルネットワーク
CN107102644B (zh) * 2017-06-22 2019-12-10 华南师范大学 基于深度强化学习的水下机器人轨迹控制方法及控制系统
CN107490965B (zh) * 2017-08-21 2020-02-07 西北工业大学 一种空间自由漂浮机械臂的多约束轨迹规划方法
CN108594834B (zh) * 2018-03-23 2020-12-22 哈尔滨工程大学 一种面向未知环境下多auv自适应目标搜索和避障方法
CN109540151B (zh) * 2018-03-25 2020-01-17 哈尔滨工程大学 一种基于强化学习的auv三维路径规划方法
CN108444481B (zh) * 2018-03-25 2019-08-06 哈尔滨工程大学 一种基于辅助决策系统的水下潜器路径规划方法
CN108803321B (zh) * 2018-05-30 2020-07-10 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN108873687B (zh) * 2018-07-11 2020-06-26 哈尔滨工程大学 一种基于深度q学习的智能水下机器人行为体系结规划方法
CN109241552B (zh) * 2018-07-12 2022-04-05 哈尔滨工程大学 一种基于多约束目标的水下机器人运动规划方法
CN109212476B (zh) * 2018-09-18 2023-03-14 广西大学 一种基于ddpg的rfid室内定位算法
CN109407676B (zh) * 2018-12-20 2019-08-02 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的机器人避障方法

Also Published As

Publication number Publication date
CN110333739A (zh) 2019-10-15
JP2021034050A (ja) 2021-03-01
CN110333739B (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
JP6854549B2 (ja) 強化学習に基づくauv行動計画及び動作制御の方法
Cai ROBOTICS: From Manipulator to Mobilebot
CN109765929B (zh) 一种基于改进rnn的uuv实时避障规划方法
CN109784201B (zh) 基于四维风险评估的auv动态避障方法
Kanakakis et al. Fuzzy-logic based navigation of underwater vehicles
CN112925319B (zh) 一种基于深度强化学习的水下自主航行器动态避障方法
CN113534668B (zh) 基于最大熵的演员-评论家框架的auv运动规划方法
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN111930141A (zh) 一种水下机器人三维路径可视化跟踪方法
Haugaløkken et al. Monocular vision-based gripping of objects
Hadi et al. Adaptive formation motion planning and control of autonomous underwater vehicles using deep reinforcement learning
Ramírez et al. Coordinated sea rescue system based on unmanned air vehicles and surface vessels
CN116540717A (zh) 一种基于改进dwa的auv局部路径规划方法
CN114995468B (zh) 一种基于贝叶斯深度强化学习的水下机器人智能控制方法
CN114609925B (zh) 水下探索策略模型的训练方法及仿生机器鱼水下探索方法
Kang et al. Fuzzy logic based behavior fusion for multi-AUV formation keeping in uncertain ocean environment
Zhai et al. Path planning algorithms for USVs via deep reinforcement learning
Cui et al. Intelligent Ship Decision System Based on DDPG Algorithm
Ridao et al. O2CA2: A New Hybrid Control Architecture for A Low Cost AUV
Emrani et al. An adaptive leader-follower formation controller for multiple AUVs in spatial motions
Fernández et al. Expert guidance system for unmanned aerial vehicles based on artifical neural networks
Gao et al. Increased autonomy and situation awareness for rov operations
Lin et al. Cross-domain Monitoring of Underwater Targets Based on Q-learning for Heterogeneous Unmanned Vehicles
Xu et al. An AUV fuzzy obstacle avoidance method under event feedback supervision
CN117590867B (zh) 基于深度强化学习的水下自主航行器接驳控制方法和系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200820

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200820

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20201005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210309

R150 Certificate of patent or registration of utility model

Ref document number: 6854549

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250