JP6854549B2

JP6854549B2 - 強化学習に基づくａｕｖ行動計画及び動作制御の方法

Info

Publication number: JP6854549B2
Application number: JP2020139299A
Authority: JP
Inventors: 玉山孫; 祥瑞冉; 国成張; 岳明李; 建曹; 力鋒王; 相斌王; 昊徐; 新雨呉; 陳飛馬
Original assignee: 哈爾浜工程大学
Priority date: 2019-08-21
Filing date: 2020-08-20
Publication date: 2021-04-07
Anticipated expiration: 2040-08-20
Also published as: CN110333739A; JP2021034050A; CN110333739B

Description

本発明は、水中ロボットの技術分野に属し、具体的には、ＡＵＶ行動計画及び動作制御方法に関する。

２１世紀は海洋の利用が進まれている世紀であり、海洋産業への取り組みは世界各国により認められている。中国も重要な海洋戦略を発表・実施しており、現在、中国が高速発展段階であって、土地資源が限られている人口の多い国であるため、海洋資源は持続可能な開発を支える重要な資源貯蔵空間となっている。海洋資源の開発及び探査は、海洋戦略を実施するための重要な前提及び基盤といえ、主要な水中技術及び機器として、自律型無人潜水機（ＡｕｔｏｎｏｍｏｕｓＵｎｄｅｒｗａｔｅｒＶｅｈｉｃｌｅ、ＡＵＶ）は、海洋の民間用、軍事用や科学などの研究分野において、実用的で効果的な開発ツールとなっており、海洋の開発及び探査の重要な手段である。自律型無人潜水機の応用及び技術の研究開発・アップグレードは将来注目を集めると予測でき、世界の国々が海洋分野で主導的な地位を取得するための重要な手段となる。ＡＵＶの研究には、さまざまなハイエンド技術の適用が必要であり、ナビゲーション・測位、水中ターゲット検出、通信技術、インテリジェント制御、シミュレーション技術、エネルギーシステム技術や計画技術など、多くの技術が含まれる。

計画及び制御技術は、ＡＵＶインテリジェント化を実現するための重要な要素の１つであり、ＡＵＶが自律的な決定を行い、作業タスクを完了するための前提及び基盤である。水中環境は複雑で動的であり、構造化されておらず、不確実であるので、水中環境情報の入手が困難であり、したがって、ＡＵＶは水中で作業を行うときに予期しない緊急事態に直面することは避けられない。水中通信手段の制限により、ＡＵＶは、緊急事態に対処するために独自の決定に依存するしかなく、このため、ＡＵＶは、元の計画指示を変更し、環境緊急事態に応じて再計画する必要がある。本発明は、複雑な環境でのＡＵＶ計画技術を焦点として研究しており、加圧送水トンネルを複雑な水中環境とし、トンネル検出タスクを適用背景の代表例として、強化学習に基づくＡＵＶの行動計画及び制御方法を提案している。

加圧送水トンネルの検出は、水利工事管理の重要な項目の１つであり、加圧送水トンネルは、水力発電所などの水利プロジェクトを接続するための地下送水チャネルである。現在、中小型貯水池のほとんどの危険事態は、送水トンネルのリスクをタイムリーに発見できなかったことに起因するものであり、トンネルの長期運用では堆積、腐食、漏水や障害物などの欠陥や問題が発生し、特に増水期では、送水トンネルはパイプラインの老朽化の問題を起こしやすく、水中プロジェクトの安全運用に直接影響を及ぼし、このため、トンネルを定期的に点検して、水中プロジェクトの状況を把握することは重視化されてきた。ただし、送水トンネルでは、一部のトンネルの直径が小さいこと、増水期の流速が大きいこと、及び水中工事環境が複雑であることなどの問題から、作業者がトンネルに入って点検することができ、点検タスクを完了するには、点検員の代わりに他の検出装置を使用しなければならない。

自律型無人潜水機（ＡＵＶ）は、水中検出装置の搭載プラットフォームとして好適であり、水中で長期間にわたって自律的かつ安全にターゲットタスクを実行することができ、トンネルの複雑な水環境では、強力な柔軟性及び状態維持性を有し、水中検出装置とセンサーを搭載して検出のニーズに対応し、トンネル検出タスクを自律的に完了することができ、トンネル検出のための主な手段として機能することが期待される。本発明は、強化学習アルゴリズムに基づいてＡＵＶトンネル検出タスクの行動計画及び制御方法を設計するものであり、ＡＵＶの環境適応性を高め、緊急事態におけるＡＵＶの決定能力を向上させる。

本発明は、複雑なタスクを実施するときに、水中ロボットのインテリジェントレベルが不十分であり、人工経験に頼りすぎる問題、及び従来の水中ロボットではインテリジェントアルゴリズムに基づいて設計される制御方法には正確な環境モデルが必要であることにより、トレーニング経験が制限され、実環境への適用が困難である問題を解決する。

強化学習に基づくＡＵＶ行動計画及び動作制御方法であって、
水中ロボットによるトンネル検出を総タスク、即ちタスクとして定義し、タスクを完了するための行動には、ターゲットへの移動、壁追跡及び障害物回避が含まれ、ロボットが計画する行動を水中で完了するために生じる具体的な制御命令を動作として定義するステップと、
ＡＵＶはトンネル検出タスクを実行するときに、検出対象の水中環境に基づいて、ディープ強化学習ＤＱＮアルゴリズムを用いて行動計画をリアルタイムで行い、つまり、マルチ行動ネットワーク呼び出しに基づく行動計画アーキテクチャを構築し、タスクのニーズに応じて３つの行動の環境状態特徴の入力及び出力の動作を定義して、対応するディープ学習の行動ネットワークを構築し、報酬関数を設計するステップと、
計画システムがトレーニング済み行動ネットワークを呼び出すことでトンネル検出タスクを完了するステップと、
制御システムがトレーニング済み動作ネットワークを呼び出すことで計画された行動を完了するステップと、を含む。
前記強化学習に基づくＡＵＶ行動計画及び動作制御方法において、対応するディープ学習の行動ネットワークを構築し、報酬関数を設計する前記過程においては、以下のステップを含み、
トンネル検出タスクを行動シーケンスに分解し、グローバル経路計画において事前環境情報に基づいて複数の実現可能な経路ポイントを計画し、ＡＵＶが配置位置から出発し、各経路ポイントに順次到着し、
経路ポイントが既知環境下のグローバル計画であるため、航渡過程において、ＡＵＶはリアルタイム環境状態に基づいて、障害物回避行動を呼び出して安全に経路ポイントに到着し、トンネル検出タスクのうちＡＵＶは主に壁追跡行動を呼び出し、所定の検出目標に従ってタスクを完了し、
決定モジュールは、グローバルデータ、決定システム、行動ライブラリ及び評価システムを含み、グローバルデータにタスク情報、状況情報、計画知識が記憶されており、決定システムは、ＤＱＮアルゴリズムと組み合わせた自学習計画システムであり、トレーニングされておき、計画タスクを実行するに先立って行動ライブラリからトレーニング済みネットワークパラメータを抽出し、次に現在の環境状態情報を入力として現在の行動動作を計画し、評価システムは、強化学習アルゴリズムの報酬関数システムであり、ＡＵＶが１つの行動動作計画を計画して実行するたびに、状態環境とタスク情報に基づいて報酬を提供し、すべてのデータはグローバルデータベースに記憶されており
前記行動のうちターゲットへの移動過程においては、以下のステップを含み、
ターゲットポイントへの移動行動は、ＡＵＶが障害物を検知しないときに向首角を調整しながらターゲットポイントへ航行することであり、特徴入力量として主にＡＵＶとターゲットポイントの位置と角度の関係を考慮し、具体的には、現在のＡＵＶ位置座標（ｘ_AUV,ｙ_AUV）、ターゲットポイント座標（ｘ_goal,ｙ_goal）、現在の向首角θ及びターゲット向首角βの計６次元の入力を設定し、その中でも、ターゲット向首角βはＡＵＶがターゲットへ航行しているときの向首角であり、
報酬関数については、ターゲットへの移動行動によりＡＵＶが障害物無し環境でターゲットポイントへ航行するときに、報酬関数は２項に設定され、
第１項ｒ₁₁はＡＵＶとターゲットポイントの距離の変化を考慮し、

第２項ｒ₁₂はＡＵＶの向首角の変化を考慮し、向首角がターゲットに近いほど、ターゲット値の報酬値が大きく、現在のＡＵＶ向首とターゲット向首との夾角αが
α＝θ−βであり、
αの絶対値が小さいほど、取得する報酬値が大きく、具体的には、
ｒ₁₂＝ｋ_Aｃｏｓ（α）
式中、ｋ_Aはターゲットへの移動過程に対応する報酬係数であり、
総報酬値は２項を加重したものであり、
ｒ₁＝ｋ₁₁ｒ₁₁＋ｋ₁₂ｒ₁₂
式中、ｋ₁₁、ｋ₁₂はそれぞれ加重値であり、
前記行動のうち壁追跡過程においては、以下のステップを含み、
ＡＵＶ壁追跡行動は、ＡＵＶと壁の距離及び相対角度の情報を考慮し、ＡＵＶは、一方の側に配置された前後にある２つのレンジングソナーを通じて壁からのＡＵＶの距離ｘ₄とｘ₅を取得し、
方位磁針で現在のＡＵＶ向首角θを取得して、現在の壁角度θ_wallを推定し、

式中、ｌ_AUVは前後にある２つのソナーの間の距離であり、壁追跡行動の環境状態の特徴入力はｘ₁、ｘ₂、ｘ₃、ｘ₄、ｘ₅、θ、θ_wall及びターゲット追跡距離ｌ_goalに設定され、ここで、ｘ₁〜ｘ₅はそれぞれ３つの前方ソナーと一側に設けられた前後ソナーにより測定されたデータであり、特徴入力量は８個であり、ＡＵＶと壁の間の状態関係を完全に記述することができ、距離閾値を設定してソナーデータについて判断を行い、トレーニング中に閾値を超えると、現在のトレーニング周期を終了し、
報酬関数は、ＡＵＶができるだけ壁に平行し、壁とは一定の距離を保持するようにし、仮想ターゲットポイントに基づく壁追跡行動の報酬信号が主に４項に設定され、一般的な壁追跡行動の報酬信号が主に２項に設定され、
第１項は、式（６）のようにＡＵＶと現在の壁がなす角度を考慮し、ＡＵＶと壁の角度が増大し閾値を超えると、負の報酬値を取得し、ＡＵＶと壁の角度が減少すると、正の報酬値を取得し、

第２項は、式（７）のようにＡＵＶの前後両端と壁の距離を考慮し、ＡＵＶと壁の距離と予め設定された値との差が減少すると、正の報酬を取得し、この差が増大すると負の報酬を取得し、追跡距離が予め設定された値の±０．２ｍの範囲にあることができ、追跡範囲内のこの項の報酬値が０である場合、この場所と壁の距離値は、同一側面にある２つのレンジングソナーによるデータの平均値であり、

一般的な壁追跡行動の総報酬ｒは２項の報酬を加重したものであり、
ｒ₂＝ｋ₂₁ｒ₂₁＋ｋ₂₂ｒ₂₂
式中、ｋ₂₁、ｋ₂₂はそれぞれ加重値であり、
仮想ターゲットポイントに基づく追跡では、この仮想ターゲットポイントは外直角と内直角の壁により作成された仮想ターゲットポイントであり、環境が外直角である場合、前側のソナーが障害物を検知していないときに入力が最大検出距離であるので、仮想壁が構築され、仮想ターゲットポイントが追加され、環境が内直角である場合、前方ソナーが壁を検知したとき、ＡＵＶが対向する現在のターゲット壁の他方の側で仮想ターゲットポイントが構築され、
仮想ターゲットポイントに基づく報酬関数の構築は、以下のとおりであり、

ｒ₂₄＝ｋ_Bｃｏｓ（α）
式中、ｋ_Bは壁追跡過程に対応する報酬係数であり、
仮想ターゲットポイントに基づく追跡行動の総報酬ｒは４項の報酬を加重したものであり、
ｒ₂＝ｋ₂₁ｒ₂₁＋ｋ₂₂ｒ₂₂＋ｋ₂₃ｒ₂₃＋ｋ₂₄ｒ₂₄
式中、ｋ₂₃、ｋ₂₄はそれぞれ加重値であり、
ＡＵＶが次の部分の壁を追跡するまで徐々に調整したとき、たとえば、外直角環境におけるレンジングソナーが再度ターゲット壁を検知したか、内直角環境における前方ソナーがさらに前方の壁を検知しない場合、仮想ターゲットポイントを削除し、一般的な壁追跡行動ネットワークを呼び出し、
前記行動のうち障害物回避過程においては、以下のステップを含み、
ＡＵＶ障害物回避行動のニーズについて、環境状態の特徴入力は３つの前方ソナーと両側のそれぞれに設けられたフロントソナーのデータを含み、ＡＵＶは、障害物を回避しながらターゲットポイントの方向へ近づき、特徴入力はＡＵＶの現在の位置座標（ｘ_AUV,ｙ_AUV）、ターゲットポイント位置座標（ｘ_goal,ｙ_goal）、現在の向首角θ及びターゲット向首角βの計１１次元の入力をさらに含み、
報酬関数については、報酬信号が３項に分けられ、第１項は障害物に対するＡＵＶ距離に基づいて得られた報酬値ｒ₃₁であり、ＡＵＶが障害物に近づくと、負の報酬の警告を取得し、ＡＵＶが障害物から離間すると、正の報酬を取得し、ＡＵＶが障害物から離間して航行するように促し、障害物と衝突すると報酬値−１を取得し、現在のトレーニング周期を終了し、

第２項は、現在のＡＵＶとターゲットポイントの距離に基づいて生じる報酬値ｒ₃₂であり、ＡＵＶが障害物を回避しながらターゲットポイントへ航行するように促し、このため、ＡＵＶがターゲットポイントから離間すると、負の報酬を取得し、ターゲットポイントに近づくと正の報酬を取得し、ＡＵＶターゲットポイントに到着すると、正の報酬値１．０を取得し、トレーニング周期を終了し、

第３項は、ＡＵＶと現在のターゲットがなす角度αに基づいて生じる報酬ｒ₃₃であり、同様にＡＵＶがターゲットポイントの方向へ航行するように促すが、この項の報酬は、主に、現在のターゲット向首に近くなるように向首角を調整することをＡＵＶに学習させ、経路の長さを減らすようにするためであり、
ｒ₃₃＝ｋ_cｃｏｓ（α）
式中、ｋ_Cは壁障害物の回避過程に対応する報酬係数であり、
最後の総報酬信号はこの３項の報酬値を加重したものに等しく、
ｒ₃＝ｋ₃₁ｒ₃₁＋ｋ₃₂ｒ₃₂＋ｋ₃₃ｒ₃₃
式中、ｋ₃₁〜ｋ₃₃はそれぞれ加重値であり、
強化学習は、動作から環境へのマッピングをトレーニングするものであり、ロボットを環境として、ＤＤＰＧトレーニングを通じて力とトルクを得て水中ロボットに作用させ、ＡＵＶモデルを用いて計算することによりロボットの速度と角速度を得て、速度、角速度とターゲット速度、ターゲット角速度との誤差を利用して報酬値ｒ₄＝−｜△ｖ＋△Ψ｜を設計し、ここで△ｖは速度誤差であり、△Ψは向首誤差であり、
また、トレーニング中のＡＵＶモデルにランダム干渉力を追加することで、ＤＤＰＧに基づく制御システムをトレーニングにより得て、制御システムのトレーニングが完了した後、ロボットの現在の位置及びターゲット経路から、経路追跡戦略に従ってターゲット命令を得て、ＤＤＰＧ制御システムを用いてロボットを計画命令に従うように制御する。

本発明の有益な効果は以下のとおりである。
１、本発明で設計された３層計画システムは、総タスクをターゲットへの移動と障害物回避のサブ動作に分解し、環境状態モデルと報酬関数を設計し、動作中の戦略最適化により空間次元を削減し、それによって、複雑な環境モデルでも安全で衝突のない経路を計画することができ、「次元の呪い」の問題を解決する。
また、本発明は、インテリジェントレベルが高く、計画が手動プログラミングに依存する必要がなく、人工経験によらずにロボット制御を実現することができる。
２、本発明は、ディープ強化学習アルゴリズムを行動計画システムに適用し、ニューラルネットワークを介して高次元データ特徴を抽出することで、連続的な環境状態での検知の問題を解決し、また強化学習を使用して行動決定計画を行うものである。トンネル検出タスクのニーズに応じて、ターゲットポイントへの移動、壁追跡、障害物回避という３つの典型的な動作が定義され、動作ごとに動作ネットワークが構築され、対応する環境状態変数と報酬関数が設計されて、壁の隅の問題については、仮想ターゲットポイントに基づく追跡方法が提案される。各動作は対応する目標に達しており、各動作ネットワークを呼び出すことでトンネル検出タスクを完了し、それにより、アルゴリズムは、安定性が高く、汎化能力が強い。
３、本発明は、ＡＵＶの運動学モデルを環境として、力から速度へのマッピング関係をトレーニングしているため、本発明の制御方法は、正確な環境モデルを必要とせず、トレーニング経験が制限され、実環境への適用が困難であるという問題を解決し、他のインテリジェント制御アルゴリズムの研究と比較して、普遍的な適応性を有し、一度だけトレーニングに成功すると、さまざまなタスクに適用できる。

自律型無人潜水機のタスクを３層に分割した模式図である。タスクの分解模式図である。壁追跡行動の模式図である。外直角壁環境の模式図である。内直角壁環境の模式図である。障害物回避行動の模式図である。ＡＵＶソナーの配置図である。

実施形態１
本実施形態は、強化学習に基づくＡＵＶ行動計画及び動作制御方法である。

本発明は、自律型無人潜水機のタスクの３層構造、すなわち、タスク層、行動層、及び行動層を定義し、緊急事態が発生したときにＡＵＶ行動計画が実行され、ＤｅｅｐＤｅｔｅｒｍｉｎｉｓｔｉｃＰｏｌｉｃｙＧｒａｄｉｅｎｔ（ＤＤＰＧ）コントローラによってＡＵＶの行動制御が行われる。

実現過程においては、次の３つの部分が含まれる。
（１）自律型無人潜水機のタスクの階層的設計
（２）行動計画システムの構築
（３）ＤＤＰＧ制御アルゴリズムに基づく設計。

さらに、前記（１）の過程は以下の通りである。
水中ロボットによるトンネル検出タスクを階層化するには、自律型無人潜水機によるトンネル検出タスク、行動及び動作の概念を定義し、つまり、自律型無人潜水機によるトンネル検出を総タスクとして定義し、総タスクを完了するためには、ターゲットへの移動、壁追跡及び障害物回避という３つの典型的な行動を定義し、ロボットが水中で航行して計画された行動を完了するために生じる特定の制御命令を動作として定義し、たとえば、ｎ度左折、ｎ度右折、ｎノットの速度での前進などがある。

図１に示すように、自律型無人潜水機の行動計画システムのアーキテクチャは、総タスク層、行動層及び動作層という３層に分かれている。このモデルは、下から上に階層化されたフレームワークであり、動作層は、ＡＵＶが環境と相互作用するプロセスと見なすことができ、ＡＵＶは、動作を実行して環境に作用し、計画システムは、この層を通じてリアルタイムな環境と自体状態データを取得し、計画システムの以前の学習経験に従って学習とトレーニングを行うことで、グローバル計画知識を更新する。トレーニングサンプルライブラリ内の環境状態データの履歴経験情報を現在の環境状態と比較・分析し、次に、比較結果と計画知識更新データを層タスク層にフィードバックし、総タスク層は、主に現在の環境状態を分析して、特定の内部戦略に従って計画結果を出力し、行動動作シーケンスの形で行動層に送信し、つまり、現在の環境状態データに従って行動シーケンスを計画する計画システムの上位層であり、行動層は、主に現在の動作層によって取得されたローカル環境状態情報を考慮し、総タスク層による上位層の計画結果に基づき、特定の戦略に従って行動を選択する中間層である。以上説明するように、総タスク層は、環境状態データに基づいて上位層の計画結果を提供し、行動層は、上位層の計画結果に基づいて行動を選択して実行し、動作層では、ＡＵＶは行動戦略に従って基本的な動作を実行し、環境状態の変化を検知する役割を果たし、３層のフレームワークは、ボトムアップ計画の決定モデルを構成する。

また、前記（２）の過程は以下の通りである。
ＡＵＶは、トンネル検出タスクを実行する際に、タスクのニーズに応じて、グローバル経路計画によって指定されたクリティカル経路ポイントに順次到着する。ただし、実際の作業過程では、急に現れた障害物やトンネル壁の損傷によるトンネル壁環境の変化など、未知の環境情報が存在するため、安全性を確保するために、ＡＵＶは環境情報と自身の状況に基づいてタイムリーに応答する必要がある。ディープ強化学習に基づく行動計画システムは、反応式に基づく計画アーキテクチャを採用しており、環境状態と動作の間のマッピング関係を構築することにより、ＡＵＶは環境の変化に応じて動作をすばやく計画することができ、緊急環境変化に対するＡＵＶの対処能力を向上できる。

本発明は、研究対象としてインテリジェント加圧送水トンネルを検出するＡＵＶを採用し、このＡＵＶは、ＡＵＶに装備した水中音響機器やセンサーなどを利用して水中環境を検出し、ディープ強化学習ＤＱＮアルゴリズムを使用して行動計画をリアルタイムで行い、つまり、マルチ行動ネットワークコール呼び出しに基づく行動計画アーキテクチャを構築し、タスクのニーズに応じて３つの基本動作の環境状態特徴の入力及び出力の動作を定義し、対応するディープ学習動作ネットワークを構築し、報酬関数を設計し、壁追跡行動では、壁の隅の問題に対しては、仮想ターゲットポイントに基づく追跡方法が提案されている。

行動層の計画の問題については、本発明は、トンネル検出を適用背景の代表例として、ターゲットへの移動行動、壁追跡行動、及び障害物回避行動という３つの代表的行動を提案し、底層の基本行動を定義し、行動ネットワークを設計し、計画システムは、トレーニング済み行動ネットワークを呼び出すことでトンネル検出タスクを完了する。トンネル検出タスクの場合、このタスクは一連の行動シーケンスに分解でき、図２に示すように、グローバル経路計画は、事前環境情報に基づいて複数の実行可能な経路ポイントを計画し、ＡＵＶは配置位置から出発し、各経路ポイントに順次到着する。

航渡タスクは、ＡＵＶが各経路の開始ポイントから各クリティカルポイントに到着することであり、各航渡タスクごとに異なる速度制約を設定することができる。経路ポイントは既知環境下のグローバル計画であるため、航渡中、ＡＵＶはリアルタイム環境状態に従って障害物回避行動を呼び出して、経路ポイントに安全に到着するため、各トラックは一意ではない。トンネル検出タスクは経路ポイント３から始まり経路ポイント４で終わり、ＡＵＶは主に壁追跡行動を呼び出して、所定の検出目標に従ってタスクを完了する。

さらに、アーキテクチャ内の検知モジュール（ソナーを含む）は、ＡＵＶセンサーのデータを取得し、行動のニーズに応じてデータを分析することで、リアルタイムなＡＵＶ状態情報と環境情報を検出する。決定モジュールは、グローバルデータ、決定システム、行動ライブラリ及び評価システムを含む、計画システムの中核である。グローバルデータには、タスク情報、状況情報、計画知識などが記憶されており、決定システムは、ＤＱＮアルゴリズムと組み合わせた自己学習計画システムでもあり、決定システムは、まず大量のトレーニングを行い、計画タスクを実行するに先立って行動データベースからトレーニング済みネットワークパラメータを抽出し、次に、現在の環境状態情報を入力として、現在の行動動作を計画し、評価システムは強化学習アルゴリズムの報酬関数システムであり、ＡＵＶが行動動作を計画して実行すると、状態環境とタスク情報に基づいて報酬を提供し、すべてのデータはグローバルデータベースに記憶されている。

２．１）ターゲットへの移動
ＡＵＶは、トンネル検出タスクを実行する過程に亘って、予めグローバルに計画されたターゲットポイントに到着する必要があり、経路を最短にするために、ターゲットポイントへの移動行動は、ＡＵＶが障害物を検知していないときに向首角を調整しながらターゲットポイントへ航行するようにし、したがって、ターゲットへの移動行動過程におけるＡＵＶのリアルタイム向首をできるだけターゲット方向付近に制御する必要がある。ターゲットへの移動行動のニーズに応じて、図２に示すように、特徴入力量は主にＡＵＶとターゲットポイントの位置及び角度の関係を考慮し、具体的には、現在のＡＵＶ位置座標（ｘ_AUV,ｙ_AUV）、ターゲットポイント座標（ｘ_goal,ｙ_goal）、現在の向首角θ及びターゲット向首角βの計６次元の入力を設定する。ターゲット向首角βは、ＡＵＶがターゲットへ航行しているときの向首角である。

２．１．１）報酬関数の設計
ターゲットへの移動行動は、主にＡＵＶが障害物無し環境でターゲットポイントへ航行するように駆動し、したがって、具体的な報酬関数は、２項に設定され、第１項ｒ₁₁はＡＵＶとターゲットポイントの距離の変化を考慮し、具体的には、

第２項ｒ₁₂はＡＵＶの向首角の変化を考慮し、ＡＵＶがターゲット向首に調整して航行するように促し、首角がターゲットに近いほど、ターゲット値の報酬値が大きく、現在のＡＵＶ向首とターゲット向首との夾角αが、
α＝θ−β （２）であり、
αの絶対値が小さいほど、取得する報酬値が大きく、具体的には、
ｒ₁₂＝ｋ_Aｃｏｓ（α）（３）
式中、ｋ_Aはターゲットへの移動過程に対応する報酬係数であり、
総報酬値は２項を加重したものであり、
ｒ₁＝ｋ₁₁ｒ₁₁＋ｋ₁₂ｒ₁₂ （４）
式中、ｋ₁₁、ｋ₁₂はそれぞれ加重値である。

２．２）壁追跡
ほとんどのトンネルの距離が長いため、水利プロジェクト全体が１０ｋｍ以上に達する可能性があり、ＡＵＶがトンネルの入口に入ると、手動による介入が困難になり、このため、ＡＵＶがトンネル環境に応じて自律的に検出タスクを完了することが求められる。衝突を回避するには、ＡＵＶは壁から安全な距離だけ離れる必要があり、そして、水中の光源や視認性などによって制限されて、ＡＵＶと壁の間の距離が画像収集の品質にも直接影響し、したがって、ＡＵＶには、壁から一定の距離を保持しながら壁に沿って航行する能力が求められる。

２．２．１）上記ＡＵＶの壁追跡機能のニーズに応じて、この行動は主にＡＵＶと壁の距離及び相対角度の情報を考慮する。図３に示すように、ＡＵＶが自体の右側の壁を追跡して航行する例では、ＡＵＶは、右側に配置された前後の２つのレンジングソナーを通じて壁からのＡＵＶの距離ｘ₄とｘ₅を取得する。

本実施形態では、ＡＵＶは、合計７個のレンジングソナーが設けられており、図７に示すように、ＡＵＶの前端には３つの前方ソナー（図７の１、２、３）が設けられ、ＡＵＶの両側のそれぞれに２つのソナー（図７の４、５、と６、７）が設けられ、各側にある２つのソナーはそれぞれ前後でそれぞれ１つ設けられ、前端のものをフロントソナー、後端のものをリアソナーと呼ぶ。

方位磁針で現在のＡＵＶ向首角θを取得し、現在の壁角度θ_wallを推定する。

式中、ｌ_AUVは前後の２つのソナーの間の距離であり、壁追跡行動の環境状態の特徴入力はｘ₁、ｘ₂、ｘ₃、ｘ₄、ｘ₅、θ、θ_wall及びターゲット追跡距離ｌ_goalに設定され、ここで、ｘ₁〜ｘ₅はそれぞれ３つの前方ソナーと一側に設けられた前後ソナー（本実施形態では、１−５ソナーと記載する）により測定されたデータであり、特徴入力量は８個であり、前方ソナーと側面ソナーのデータを含み、前方ソナーは主に壁環境での前方の壁からの距離ｘ₁を検出し、以上の特徴変量はＡＵＶと壁の間の状態関係を完全に記述することができる。距離閾値を設定してソナーデータについて判断を行い、トレーニング中に閾値を超えると、現在のトレーニング周期を終了する。

２．２．２）報酬関数の設計
ＡＵＶの壁追跡行動学習において、報酬関数は、ＡＵＶができるだけ壁に平行し、壁となす角度を約０°に維持し、壁とは一定の距離を保持するようにすることに用いられる。

以上の要素を考慮して、仮想ターゲットポイントに基づく壁追跡行動の報酬信号が主に４項に設定され、一般的な壁追跡行動の報酬信号が主に２項に設定される。

第１項は、式（６）のようにＡＵＶと現在の壁がなす角度を考慮し、ＡＵＶと壁の角度が増大し閾値を超えると、負の報酬値を取得し、ＡＵＶと壁の角度が減小すると、正の報酬値を取得し、

第２項は、式（７）のようにＡＵＶの前後両端と壁の距離を考慮し、ＡＵＶと壁の距離と予め設定された値との差が減小すると、正の報酬を取得し、この差が増大すると、負の報酬を取得し、追跡距離が予め設定された値の±０．２ｍの範囲にあることができ、追跡範囲内のこの項の報酬値が０である場合、この場所と壁の距離値は、同一側面にある２つのレンジングソナーデータによる平均値である。

一般的な壁追跡行動の総報酬ｒは２項の報酬を加重したものであり、
ｒ₂＝ｋ₂₁ｒ₂₁＋ｋ₂₂ｒ₂₂ （８）
式中、ｋ₂₁、ｋ₂₂はそれぞれ加重値である。

２．２．３）仮想ターゲットポイントに基づく追跡方法
一般的な壁環境では、壁追跡行動には、ターゲットの向首角とターゲットの追跡距離のみを考慮すればよく、ターゲットへの移動行動や障害物回避行動に比べて、実際ターゲットポイントによる案内がないので、壁の隅などのような特殊な環境の場合は、正確な計画結果を提供することができない。壁の隅の問題は、ＡＵＶ壁追跡行動における主な難問であり、本発明では、主に２種類の壁の隅の環境、つまり外直角環境と内直角環境を考慮する。壁の隅の環境の特殊性のため、外直角を追跡する場合、ＡＵＶの前方にあるレンジングソナーが壁を検出できず、ＡＵＶはタイムリーに向首角を調整できず、ターゲットを失うことがある。内側の壁の隅の場合、基本報酬の設計に前方の障害物を考慮しないので、衝突が発生する。

この問題に対しては、本発明は、ＡＵＶ壁追跡をガイドするための仮想ターゲットポイントを構築する方法を提案する。図４及び図５には、外直角の壁と内直角の壁について構築される仮想ターゲットポイントが示されている。環境が外直角である場合、フロントソナーが障害物を検出していないときに入力が最大検出距離であるので、仮想壁は点線のように構築され、これに基づいて仮想ターゲットポイントが追加される。仮想ターゲットポイントの位置は、ＡＵＶ位置、レンジングソナーデータ、及び安全距離Ｌ₁によって決定される。

環境が内直角である場合、図５に示すように、仮想壁を構築できず、ＡＵＶがタイムリーに方向を変更して前方の壁の障害物を回避することを考慮すると、前方ソナーにより壁が検知されると、ＡＵＶが対向する現在のターゲット壁の他方の側で仮想ターゲットポイントが構築され、仮想ターゲットポイントの位置はＡＵＶ位置、向首角及び安全距離Ｌ₂により決定される。

２種の環境のいずれにも安全距離Ｌ₁とＬ₂が設定され、シミュレーションテストを行った結果、その値がターゲット追跡距離程度である場合、行動計画の効果が良好である。仮想ターゲットポイントに基づく報酬関数の構築は以下のとおりである。

ｒ₂₄＝ｋ_Bｃｏｓ（α）（１４）
式中、ｋ_Bは壁追跡過程に対応する報酬係数であり、
仮想ターゲットポイントに基づく追跡行動の総報酬ｒは４項の報酬を加重したものである。
ｒ₂＝ｋ₂₁ｒ₂₁＋ｋ₂₂＋ｒ₂₂＋ｋ₂₃ｒ₂₃＋ｋ₂₄ｒ₂₄（１５）
式中、ｋ₂₃、ｋ₂₄はそれぞれ加重値であり、
報酬係数ｋ₂₃とｋ₂₄値が大きいため、壁の隅の環境ではＡＵＶは仮想ターゲットポイントにより案内される傾向がある。

ＡＵＶが次の部分の壁を追跡するまで徐々に調整したとき、つまり、外直角環境におけるレンジングソナーが再度ターゲット壁を検知したか、内直角環境における前方ソナーがさらに前方の壁を検知しない場合、仮想ターゲットポイントを削除し、一般的な壁追跡行動ネットワークを呼び出す。

２．３）障害物回避
障害物回避行動は、行動計画システムのキーであり、ＡＵＶの自律的決定レベルを決定し、ＡＵＶが作業タスクを安全的に実施できるかを左右する。

２．３．１）ＡＵＶ障害物回避行動のニーズに応じて、図６に示すように、行動計画システムは、周辺の障害物環境情報を十分に取得する必要があるので、環境状態の特徴入力には、３つの前方ソナーと両側のそれぞれに設けられたフロントソナーによるデータが含まれる。

ＡＵＶは、障害物回避を実行しながらターゲットポイントの方向へ近づき、ＡＵＶとターゲットポイントの相対位置情報を取得する必要があるので、特徴入力は、ＡＵＶの現在の位置座標（ｘ_AUV,ｙ_AUV）、ターゲットポイント位置座標（ｘ_goal,ｙ_goal）、現在の向首角θ及びターゲット向首角βという計１１次元の入力を含む。

２．３．２）報酬関数の設計
障害物回避行動は、ＡＵＶが急に現れた障害物を回避しターゲットポイントに順調に到着するようにするために用いられ、したがって、報酬信号分が３項に分けられ、第１項は障害物に対するＡＵＶ距離に基づいて得られた報酬値ｒ₃₁であり、式１６に示すように、ＡＵＶが障害物に近づくと、負の報酬の警告を取得し、ＡＵＶが障害物から離間すると、正の報酬を取得し、ＡＵＶが障害物から離間して航行するように促し、障害物と衝突すると報酬値−１を取得し、現在のトレーニング周期を終了する。

第２項は、現在のＡＵＶとターゲットポイントの距離に基づいて生じる報酬値ｒ₃₂であり、ＡＵＶが障害物を回避しながらターゲットポイントへ航行するように促し、このため、ＡＵＶがターゲットポイントから離間すると、負の報酬を取得し、ターゲットポイントに使づくと正の報酬を取得し、ＡＵＶがターゲットポイントに到着すると、正の報酬値１．０を取得し、トレーニング周期を終了する。

第３項は、ＡＵＶと現在のターゲットがなす角度αに基づいて生じる報酬ｒ₃₃であり、同様にＡＵＶがターゲットポイントの方向へ航行するように促すが、この項の報酬は、主に、現在のターゲット向首に近くなるように向首角を調整することをＡＵＶに学習させ、経路の長さを減らすようにするためである。
ｒ₃₃＝ｋ_cｃｏｓ（α）（１８）
式中、ｋ_Cは障害物回避過程に対応する報酬係数であり、
最後の総報酬信号はこの３項の報酬値を加重したものに等しく、
ｒ₃＝ｋ₃₁ｒ₃₁＋ｋ₃₂ｒ₃₂＋ｋ₃₃ｒ₃₃ （１９）
式中、ｋ₃₁〜ｋ₃₃はそれぞれ加重値である。

さらに、前記（３）の過程は以下のとおりである。
強化学習は、動作から環境へのマッピングをトレーニングするものであり、ロボットモデルを環境モデルとして、動作からロボットモデルへのマッピングをトレーニングすることができる。したがって、本発明では、直接ロボットを環境として、ファジー流体力学パラメータのロボットの運動学及び動力学モデル、即ちＡＵＶモデルを作成し、ＤＤＰＧトレーニングを通じて力とトルクを得て水中ロボットに作用させ、ＡＵＶモデルを用いて計算することによりロボットの速度と角速度を得て、速度、角速度とターゲット速度、ターゲット角速度との誤差を利用して報酬値ｒ₄＝-｜△ｖ＋△Ψ｜を設計し、ここで、△ｖは速度誤差であり、△Ψは向首誤差である。また、トレーニング中のＡＵＶモデルにランダム干渉力を追加することで、動的に変化している水中環境をシミュレーションし、それにより、抗干渉能力を有するＤＤＰＧに基づく完全な制御システムがトレーニングにより得られる。制御システムのトレーニングが完了した後、ロボットの現在の位置及びターゲット経路から、経路追跡戦略に従ってターゲット命令を得て、ＤＤＰＧ制御システムを用いてロボットを計画命令に従うように制御する。

前記ＤＤＰＧの制御システムは動作ネットワークに対応し、ＤｅｅｐＤｅｔｅｒｍｉｎｉｓｔｉｃＰｏｌｉｃｙＧｒａｄｉｅｎｔ（ＤＤＰＧ）は、ＡｃｔｏｒＣｒｉｔｉｃとＤＱＮを組み合わせたアルゴリズムであり、ＡｃｔｏｒＣｒｉｔｉｃの安定性及び収束性を向上させる。その構想は、ＤＱＮ構造中のメモリバンク、及び構造が同じであるが、パラメータの更新頻度が異なる２つのニューラルネットワークの構想をＡｃｔｏｒＣｒｉｔｉｃに適用することである。さらに、Ｄｅｔｅｒｍｉｎｉｓｔｉｃ構想を利用して、従来のＡｃｔｏｒＣｒｉｔｉｃが連続動作区間においてランダムにスクリーニングするという方式を、連続空間において２つだけの動作値を出力するように変更する。

Ｃｒｉｔｉｃシステムでは、Ｃｒｉｔｉｃの学習過程はＤＱＮと類似しており、下式のように現実Ｑ値と推定Ｑ値の損失関数を用いてネットワーク学習を行う。

式中、Ｑ（ｓ,ａ）は、状態推定ネットワークに基づいて得られるものであり、ａは動作推定ネットワークから伝送してきた動作である。前の部分Ｒ＋γｍａｘ_aＱ（ｓ’,ａ）は現実Ｑ値であり、ＤＱＮと異なるのは、Ｑ値を計算するときに、貪欲法を使用して動作ａ’を選択するのではなく、動作現実ネットワークによりここでのａ’を得るのである。前記のように、Ｃｒｉｔｉｃの状態推定ネットワークのトレーニングは、現実Ｑ値と推定Ｑ値の二乗損失に基づくものであり、推定Ｑ値は、現在の状態ｓに基づいて、動作推定ネットワークにより出力される動作ａの入力状態を推定ネットワークに入力して得るものであり、現実Ｑ値は、現実の報酬Ｒに基づいて、次の時刻の状態ｓ’と、動作現実ネットワークにより得られた動作ａ’を状態現実ネットワークに入力して得たＱ値とを加算して得るものである。

Ａｃｔｏｒシステムでは、下記式に基づいて動作推定ネットワークのパラメータを更新する。

ｓは状態を表し、ｓ_tはｔ時刻での状態であり、ａは動作を表し、θ^Qとθμはネットワークの重みパラメータを表す。

同じ状態について、システムが２つの異なる動作ａ１とａ２を出力し、状態推定ネットワークから２つのＱ値Ｑ１及びＱ２がフィードバックされる場合、Ｑ１＞Ｑ２であれば、動作１を用いると、より多くの報酬を得て、この場合、Ｐｏｌｉｃｙｇｒａｄｉｅｎｔの構想によれば、ａ１の確率が増加し、ａ２の確率が低下し、つまり、Ａｃｔｏｒはできるだけ大きなＱ値を取得しようとする。したがって、Ａｃｔｏｒの損失については、得たフィードバックＱ値が大きいほど、損失が小さく、得たフィードバックＱ値が小さいほど、損失が大きいと理解でき、このため、状態推定ネットワークから戻されたＱ値を負にすればよい。

ＤＤＰＧコントローラの構想は、強化学習アルゴリズム中の動作をロボットの推力及びトルクに対応させ、アルゴリズム中の状態をロボットの速度及び角速度に対応させることである。アルゴリズムに対して学習トレーニングを行うことにより力から状態へのマッピング関係が実現される。

ＤＤＰＧをＡＵＶ制御に適用するには、まず、Ｃｒｉｔｉｃニューラルネットワーク構造Ｑ（ｓ_tａ_t｜θ^Q）及びＡｃｔｏｒニューラルネットワーク構造μ（ｓ_t｜θμ）、（θ^Qとθμはネットワークの重みパラメータを示す。）を作成する。次に、それぞれＣｒｉｔｉｃとＡｃｔｏｒの２つの構造中に、ターゲットネットワーク（ｔａｒｇｅｔ＿ｎｅｔ）と予測ネットワーク（ｅｖａｌ＿ｎｅｔ）との２つのニューラルネットワークを作成する。次に、ＤＤＰＧの動作出力を制御システムの作用力τとして、制御システムが出力する作用力でロボットの動きを制御すると、ＤＤＰＧ制御システムをＡＵＶの現在の状態ｓからロボットの受ける力へのマッピングとすることができ、式（２１）の

と組み合わせ、関数で
τ＝μ（ｓ_t｜θμ）（２２）として表し、
ロボット状態ｓは主にロボットの速度と向首として示され、
Ｖ＝［ｕ,ｖ,ｒ］
Ψ＝［０,θ,Ψ］（２３）
式中、ｕ、ｖ、ｒはそれぞれＡＵＶの縦方向速度、横方向速度及び角速度であり、ΨはＡＵＶの向首角であり、
水平運動であるので、ｖ、ｒは無視され、このため、
τ＝μ（ｓ_t）＝μ（μ（ｔ）,Ψ（ｔ））（２４）
この式は、制御システムの出力力がロボットの速度、向首及びトリム角がターゲット命令のようになるように制御することを示す。

実施形態２
実施形態１に記載のファジー流体力学パラメータのＡＵＶモデルの作成過程は、一般的なＡＵＶダイナミックモデリングの過程であり、本分野の従来技術を用いて実現でき、上記過程をより明瞭にするために、本実施形態では、ファジー流体力学パラメータのＡＵＶモデルの作成過程を説明するが、ただし、本発明は、以下のファジー流体力学パラメータのＡＵＶモデルの作成方式を含むが、それに制限されない。ファジー流体力学パラメータのＡＵＶモデルの作成過程には、
水中ロボットの流体力学方程を作成するステップと、

式中、ｆ−ランダム干渉力；Ｍ−システムの慣性係数行列、Ｍ＝Ｍ_RB+Ｍ_A≧０；Ｍ_RB−キャリアの慣性行列、

且つ

；Ｍ_A−追加品質係数行列、

；

−コリオリ力・求心力係数行列、

；Ｃ_RB−求心力係数行列；

−コリオリ力（モーメント）係数行列、

；

−粘性流体力係数行列、

；τ−制御入力ベクター；ｇ₀−静圧荷重ベクター、研究し易さからゼロとする；

−復元力／トルクベクター。

自律型無人潜水機の実行機構の構成から、その横揺れが小さく、主にスラスターを用いて上昇・ダイビング、縦方向動き、前後揺れ及び縦揺れの動きが行われると考えられ、その運動学モデルは５自由度の方程式で近似的に記述することができる。

式中、Ｘ、Ｙ、Ｚ、Ｍ、Ｎは、水中ロボットのアクチュエータが発生する作用による水中ロボットの各自由度での力（トルク）を表し、水中ロボットの受ける重力と浮力、スラスターの推力、水中ロボットの動きによる流体動力やいくつかの環境からの外力を含み、
Ｍは水中ロボットの全水中排水量の質量であり、
ｘ_G、ｙ_G、ｚ_Gは水中ロボットの重心の艇体座標系における座標であり、
Ｉ_y、Ｉ_zはそれぞれ艇体座標系のｙ、ｚ軸に対する水中ロボットの質量の慣性モーメントであり、
ｕ、ｖ、ω、ｑ、ｒはそれぞれ水中ロボットの艇体座標系での縦方向速度、横方向速度、垂向速度、トリム角速度、回転角速度であり、

は水中ロボットの艇体座標系での対応する自由度の（角）加速度であり、

などはすべて艇体の一次又は二次流体力学的導関数であり、理論計算、制約付きモデルの試験、識別及び近似推定により得られ得る。

実施例
本発明の最も主な目的は、水中ロボットが水中環境において現在の環境状態に基づいて行動決定及び動作制御を自律的に行うことによって、人を複雑なプログラミングプロセスから解放することであり、具体的には、以下のように実現される。

１）プログラミングソフトウェアを用いてディープ強化学習に基づく自律型無人潜水機の行動計画シミュレーションシステムを作成し、シミュレーショントレーニングによりロボットの最適決定戦略を得て、具体的には、
１．１）環境モデルを作成して、初期位置とターゲットポイントを決定し、アルゴリズムパラメータを初期化させる。
１．２）現在のｔ時刻での環境状態及びロボットタスクを決定し、タスクをターゲットへの移動行動、壁追跡行動、障害物回避行動に分解する。
１．３）現在の状態に基づいてターゲットへの移動、壁追跡又は障害物回避を選択して、行動を動作に分解する。
１．４）動作ａを実行して、新しい状態ｓ’を観察し、報酬値Ｒを得る。
１．５）ニューラルネットワークをトレーニングして各動作のＱ値を得て、最大Ｑ値に基づいて動作を出力する。
１．６）Ｑ関数を更新する。
１．７）現在の時刻の状態を判断し、ターゲット状態に達する場合、１．８）に入り、そうではない場合、１．４）に入る。
１．８）選択した行動が完了した後、Ｑ関数を更新する。
１．９）検出が完了したか否かを判断し、完了した場合、１．１０）に入り、そうではない場合、１．３）に入る。
１．１０）Ｑ値が収束しているか否かを判断し、収束している場合、トレーニング又は計画を終了し、収束していない場合、ロボット位置を初期化させ、１．２）に入る。

２）ＤＤＰＧコントローラを用いて、計画して出力する動作を完了するようにロボットを制御し、具体的には、以下のステップを含む。
２．１）パラメータを初期化する。
２．２）外部ループを行う。
２．２．１）ターゲット向首、ターゲット速度をランダムに生成する。
２．２．２）内部ループを行う。
２．２．２．１）ＤＤＰＧアルゴリズムを実行させて、動作τ＝ａ＝μ（ｓ_t｜θμ）を出力する。
２．２．２．２）ＡＵＶ運動学モデルに基づいてＡＵＶの加速度を計算する。

２．２．２．３）ＡＵＶ運動学モデルに基づいてＡＵＶ速度

、向首角

及びトリム角

、速度誤差△ｖ、向首誤差△Ψ及びトリム誤差△θを計算し、報酬戦略に従って報酬値を取得する。
ｒ＝−｜△ｖ＋△Ψ＋△θ｜
２．２．２．４）制御誤差が０であり、ｒ＋＝１である場合、小ループを終了する。
２．２．２．５）ｃｒｉｔｉｃニューラルネットワークを更新して最小損失を取得する。

２．２．２．６）勾配降下法によってａｃｔｏｒを更新する。

２．２．２．７）ネットワークパラメータ

を更新する。
２．２．２．８）内ループのステップ数に達すると、内ループを終了する。
２．２．３）外ループのステップ数に達すると、外ループを終了する。

Claims

強化学習に基づくＡＵＶ行動計画及び動作制御の方法であって、
水中ロボットによるトンネル検出を総タスク、即ちタスクとして定義し、タスクを完了するための行動には、ターゲットへの移動、壁追跡及び障害物回避が含まれ、ロボットが計画する行動を水中で完了するために生じる具体的な制御命令を動作として定義するステップと、
ＡＵＶはトンネル検出タスクを実行するときに、検出対象の水中環境に基づいて、ディープ強化学習ＤＱＮアルゴリズムを用いて行動計画をリアルタイムで行い、つまり、マルチ行動ネットワーク呼び出しに基づく行動計画アーキテクチャを構築し、タスクのニーズに応じて３つの行動の環境状態特徴の入力及び出力の動作を定義して、対応するディープ学習の行動ネットワークを構築し、報酬関数を設計するステップと、
計画システムが学習済み行動ネットワークを呼び出すことで前記トンネル検出タスクを完了するステップと、
制御システムが学習済み動作ネットワークを呼び出すことで計画された行動を完了するステップと、を含み、
対応するディープ学習の行動ネットワークを構築し、報酬関数を設計する設計過程においては、以下のステップを含み、
前記トンネル検出タスクを行動シーケンスに分解し、グローバル経路計画において事前環境情報に基づいて複数の実現可能な経路ポイントを計画し、ＡＵＶが配置位置から出発し、各経路ポイントに順次到着し、
航行過程において、ＡＵＶはリアルタイム環境状態に基づいて、障害物回避行動を呼び出して安全に経路ポイントに到着し、前記トンネル検出タスクのうちＡＵＶは主に壁追跡行動を呼び出し、所定の検出目標に従ってタスクを完了し、
決定モジュールは、前記強化学習に基づくＡＵＶ行動計画を実行するものであって、グローバルデータベース、決定システム、行動ライブラリ及び評価システムを含み、
前記グローバルデータベースは、タスク情報、状況情報、計画知識が含まれるグローバルデータを記憶し、
前記決定システムは、前記ディープ強化学習ＤＱＮアルゴリズムを用いる自学習計画システムであり、動作から環境へのマッピングを学習したうえ、計画タスクを実行するに先立って前記行動ライブラリから学習済みネットワークパラメータを抽出し、次に現在の環境状態情報を入力として現在の行動動作を計画し、
前記評価システムは、前記ディープ強化学習ＤＱＮアルゴリズムの報酬関数システムであり、ＡＵＶが１つの行動動作計画を計画して実行するたびに、状態環境とタスク情報に基づいて報酬を提供し、
前記行動のうちターゲットへの移動過程においては、以下のステップを含み、
ターゲットポイントへの移動行動は、ＡＵＶが障害物を検知しないときに向首角を調整しながらターゲットポイントへ航行することであり、特徴入力量として主にＡＵＶとターゲットポイントの位置と角度の関係を考慮し、具体的には、現在のＡＵＶ位置座標（ｘ_AUV,ｙ_AUV）、ターゲットポイント座標（ｘ_goal,ｙ_goal）、現在の向首角θ及びターゲット向首角βの計６次元の入力を設定し、その中でも、ターゲット向首角βはＡＵＶがターゲットへ航行しているときの向首角であり、
報酬関数については、ターゲットへの移動行動によりＡＵＶが障害物無し環境でターゲットポイントへ航行するときに、報酬関数は２項に設定され、
第１項ｒ₁₁はＡＵＶとターゲットポイントの距離の変化を考慮し、

第２項ｒ₁₂はＡＵＶの向首角の変化を考慮し、向首角がターゲットに近いほど、ターゲット値の報酬値が大きく、現在のＡＵＶ向首とターゲット向首との夾角αが
α＝θ−β （２）であり、
αの絶対値が小さいほど、取得する報酬値が大きく、具体的には、
ｒ₁₂＝ｋ_Aｃｏｓ（α）（３）
式中、ｋ_Aはターゲットへの移動過程に対応する報酬係数であり、
総報酬値は２項を加重したものであり、
ｒ₁＝ｋ₁₁ｒ₁₁＋ｋ₁₂ｒ₁₂ （４）
式中、ｋ₁₁、ｋ₁₂はそれぞれ加重値であり、
前記行動のうち壁追跡過程においては、以下のステップを含み、
ＡＵＶ壁追跡行動は、ＡＵＶと壁の距離及び相対角度の情報を考慮し、ＡＵＶは、一方の側に配置された前後にある２つのレンジングソナーを通じて壁からのＡＵＶの距離ｘ₄とｘ₅を取得し、
方位磁針で現在のＡＵＶ向首角θを取得して、現在の壁角度θ_wallを推定し、

式中、ｌ_AUVは前後にある２つのソナーの間の距離であり、壁追跡行動の環境状態の特徴入力はｘ₁、ｘ₂、ｘ₃、ｘ₄、ｘ₅、θ、θ_wall及びターゲット追跡距離ｌ_goalに設定され、ここで、ｘ₁〜ｘ₅はそれぞれ３つの前方ソナーと一側に設けられた前後ソナーにより測定されたデータであり、特徴入力量は８個であり、ＡＵＶと壁の間の状態関係を完全に記述することができ、距離閾値を設定してソナーデータについて判断を行い、学習中に閾値を超えると、現在の学習周期を終了し、
報酬関数は、ＡＵＶができるだけ壁に平行し、壁とは一定の距離を保持するようにし、仮想ターゲットポイントに基づく壁追跡行動の報酬信号が主に４項に設定され、一般的な壁追跡行動の報酬信号が主に２項に設定され、
第１項は、式（６）のようにＡＵＶと現在の壁がなす角度を考慮し、ＡＵＶと壁の角度が増大し閾値を超えると、負の報酬値を取得し、ＡＵＶと壁の角度が減少すると、正の報酬値を取得し、

第２項は、式（７）のようにＡＵＶの前後両端と壁の距離を考慮し、ＡＵＶと壁の距離と予め設定された値との差が減少すると、正の報酬を取得し、この差が増大すると負の報酬を取得し、追跡距離が予め設定された値の±０．２ｍの範囲にあることができ、追跡範囲内のこの項の報酬値が０である場合、この場所と壁の距離値は、同一側面にある２つのレンジングソナーによるデータの平均値であり、

一般的な壁追跡行動の総報酬ｒは２項の報酬を加重したものであり、
ｒ₂＝ｋ₂₁ｒ₂₁＋ｋ₂₂ｒ₂₂ （８）
式中、ｋ₂₁、ｋ₂₂はそれぞれ加重値であり、
仮想ターゲットポイントに基づく追跡では、この仮想ターゲットポイントは外直角と内直角の壁により作成された仮想ターゲットポイントであり、環境が外直角である場合、前側のソナーが障害物を検知していないときに入力が最大検出距離であるので、仮想壁が構築され、仮想ターゲットポイントが追加され、環境が内直角である場合、前方ソナーが壁を検知したとき、ＡＵＶが対向する現在のターゲット壁の他方の側で仮想ターゲットポイントが構築され、
仮想ターゲットポイントに基づく報酬関数の構築は、以下のとおりであり、

ｒ₂₄＝ｋ_Bｃｏｓ（α）
式中、ｋ_Bは壁追跡過程に対応する報酬係数であり、
仮想ターゲットポイントに基づく追跡行動の総報酬ｒは４項の報酬を加重したものであり、
ｒ₂＝ｋ₂₁ｒ₂₁＋ｋ₂₂ｒ₂₂＋ｋ₂₃ｒ₂₃＋ｋ₂₄ｒ₂₄
式中、ｋ₂₃、ｋ₂₄はそれぞれ加重値であり、
ＡＵＶが次の部分の壁を追跡するまで徐々に調整したとき、たとえば、外直角環境におけるレンジングソナーが再度ターゲット壁を検知したか、内直角環境における前方ソナーがさらに前方の壁を検知しない場合、仮想ターゲットポイントを削除し、一般的な壁追跡行動ネットワークを呼び出し、
前記行動のうち障害物回避過程においては、以下のステップを含み、
ＡＵＶ障害物回避行動のニーズについて、環境状態の特徴入力は３つの前方ソナーと両側のそれぞれに設けられたフロントソナーのデータを含み、ＡＵＶは、障害物を回避しながらターゲットポイントの方向へ近づき、特徴入力はＡＵＶの現在の位置座標（ｘ_AUV,ｙ_AUV）、ターゲットポイント位置座標（ｘ_goal,ｙ_goal）、現在の向首角θ及びターゲット向首角βの計１１次元の入力をさらに含み、
報酬関数については、報酬信号が３項に分けられ、第１項は障害物に対するＡＵＶ距離に基づいて得られた報酬値ｒ₃₁であり、ＡＵＶが障害物に近づくと、負の報酬の警告を取得し、ＡＵＶが障害物から離間すると、正の報酬を取得し、ＡＵＶが障害物から離間して航行するように促し、障害物と衝突すると報酬値−１を取得し、現在の学習周期を終了し、

第２項は、現在のＡＵＶとターゲットポイントの距離に基づいて生じる報酬値ｒ₃₂であり、ＡＵＶが障害物を回避しながらターゲットポイントへ航行するように促し、このため、ＡＵＶがターゲットポイントから離間すると、負の報酬を取得し、ターゲットポイントに近づくと正の報酬を取得し、ＡＵＶターゲットポイントに到着すると、正の報酬値１．０を取得し、学習周期を終了し、

第３項は、ＡＵＶと現在のターゲットがなす角度αに基づいて生じる報酬ｒ₃₃であり、同様にＡＵＶがターゲットポイントの方向へ航行するように促すが、この項の報酬は、主に、現在のターゲット向首に近くなるように向首角を調整することをＡＵＶに学習させ、経路の長さを減らすようにするためであり、
ｒ₃₃＝ｋ_cｃｏｓ（α）
式中、ｋ_Cは壁障害物の回避過程に対応する報酬係数であり、
最後の総報酬信号はこの３項の報酬値を加重したものに等しく、
ｒ₃＝ｋ₃₁ｒ₃₁＋ｋ₃₂ｒ₃₂＋ｋ₃₃ｒ₃₃
式中、ｋ₃₁〜ｋ₃₃はそれぞれ加重値であり、
強化学習は、動作から環境へのマッピングを学習するものであり、ロボットを環境として、ＤＤＰＧ学習を通じて力とトルクを得て水中ロボットに作用させ、ＡＵＶモデルを用いて計算することによりロボットの速度と角速度を得て、速度、角速度とターゲット速度、ターゲット角速度との誤差を利用して報酬値ｒ₄＝−｜△ｖ＋△Ψ｜を設計し、ここで△ｖは速度誤差であり、△Ψは向首誤差であり、
また、学習中のＡＵＶモデルにランダム干渉力を追加することで、ＤＤＰＧに基づく制御システムを学習により得て、制御システムの学習が完了した後、ロボットの現在の位置及びターゲット経路から、経路追跡戦略に従ってターゲット命令を得て、ＤＤＰＧ制御システムを用いてロボットを計画命令に従うように制御する、ことを特徴とする強化学習に基づくＡＵＶ行動計画及び動作制御の方法。
外直角及び内直角壁のために仮想ターゲットポイントを構築する構築過程では、環境が外直角である場合、前記仮想ターゲットポイントの位置は、ＡＵＶ位置、レンジングソナーデータ及び安全距離Ｌ₁により決定される、ことを特徴とする請求項１に記載の強化学習に基づくＡＵＶ行動計画及び動作制御の方法。
外直角及び内直角壁のために仮想ターゲットポイントを構築する構築過程では、環境が内直角である場合、前記仮想ターゲットポイントの位置は、ＡＵＶ位置、向首角及び安全距離Ｌ₂により決定される、ことを特徴とする請求項２に記載の強化学習に基づくＡＵＶ行動計画及び動作制御の方法。
ＤＤＰＧ制御システムを利用してロボットを計画命令に従うように制御する制御過程では、
ＤＤＰＧコントローラが、強化学習アルゴリズムにおける動作をロボットの推力及びトルクに対応させ、アルゴリズムにおける状態をロボットの速度及び角速度に対応させ、アルゴリズムについて学習を行い、力から状態へのマッピング関係を取得するステップと、
ＤＤＰＧをＡＵＶ制御に適用するには、まず、Ｃｒｉｔｉｃニューラルネットワーク構造Ｑ（ｓ_tａ_t｜θ^Q）及びＡｃｔｏｒニューラルネットワーク構造μ（ｓ_t｜θμ）（θ^Qとθμはネットワークの重みパラメータを示す。）を作成し、それぞれＣｒｉｔｉｃとＡｃｔｏｒの２つの構造中に、ターゲットネットワークｔａｒｇｅｔ＿ｎｅｔと予測ネットワークｅｖａｌ＿ｎｅｔという２つのニューラルネットワークを作成し、次に、ＤＤＰＧの動作出力を制御システムの作用力τとして、制御システムが出力する作用力でロボットの動きを制御し、

と組み合わせて関数で、τ＝μ（ｓ_t｜θμ）として表し、
ロボット状態ｓは主にロボットの速度と向首として示され、
Ｖ＝［ｕ,ｖ,ｒ］
Ψ＝［０,θ,Ψ］
式中、ｕ、ｖ、ｒはそれぞれＡＵＶの縦方向速度、横方向速度及び角速度であり、ΨはＡＵＶの向首角であり、
ｖ、ｒは無視され、
式τ＝μ（ｓ_t）＝μ（μ（ｔ）,Ψ（ｔ））は、制御システムの出力力がロボットの速度、向首及びトリム角がターゲット命令のようになるように制御することを示す、ことを特徴とする請求項１、２又は３に記載の強化学習に基づくＡＵＶ行動計画及び動作制御の方法。
前記Ｃｒｉｔｉｃでは、現実Ｑ値と推定Ｑ値の損失関数を用いてネットワーク学習を行い、

式中、Ｑ（ｓ,ａ）は状態推定ネットワークに基づいて得られるものであり、ａは動作推定ネットワークから伝送してきた動作であり、
Ｒ＋γｍａｘ_aＱ（ｓ’,ａ）は現実Ｑ値であり、現実Ｑ値は、実際報酬Ｒに基づいて、次の時刻の状態ｓ’と動作現実ネットワークにより得た動作ａ’を状態現実ネットワークにより得たＱ値とを加算して得るものである、ことを特徴とする請求項４に記載の強化学習に基づくＡＵＶ行動計画及び動作制御の方法。
前記Ａｃｔｏｒでは、下記式に基づいて動作推定ネットワークのパラメータを更新する、ことを特徴とする請求項５に記載の強化学習に基づくＡＵＶ行動計画及び動作制御の方法。