CN112347961A - 水流体内无人平台智能目标捕获方法及系统 - Google Patents

水流体内无人平台智能目标捕获方法及系统 Download PDF

Info

Publication number
CN112347961A
CN112347961A CN202011276516.0A CN202011276516A CN112347961A CN 112347961 A CN112347961 A CN 112347961A CN 202011276516 A CN202011276516 A CN 202011276516A CN 112347961 A CN112347961 A CN 112347961A
Authority
CN
China
Prior art keywords
target
capturing
water
unmanned platform
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011276516.0A
Other languages
English (en)
Other versions
CN112347961B (zh
Inventor
李玉庆
陈智超
王日新
江飞龙
黄胜全
杨金鸿
陈卓
徐敏强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
CSSC Systems Engineering Research Institute
Original Assignee
Harbin Institute of Technology
CSSC Systems Engineering Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology, CSSC Systems Engineering Research Institute filed Critical Harbin Institute of Technology
Priority to CN202011276516.0A priority Critical patent/CN112347961B/zh
Publication of CN112347961A publication Critical patent/CN112347961A/zh
Application granted granted Critical
Publication of CN112347961B publication Critical patent/CN112347961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/30Assessment of water resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明涉及一种水流体内无人平台智能目标捕获方法及系统,所述方法包括如下步骤:步骤一、构建水流体内无人平台决策模型:构建水流体内探测信号模拟模型,完成水流体内探测信号的重叠判定,然后构建水流体内运动学模型以及导引模型;步骤二、构建线导式自航行体追踪捕获场景模型:场景包括场景设定、决策内容和环境设置;步骤三、在线导式自航行体追踪捕获场景模型中,应用强化学习方法,最终实现水流体内无人平台的智能目标捕获。在不同的场景下,能够分别采取合适的线导式自航行体的导引方法‑速度组合策略,并且捕获命中率均可达到80%以上,均优于单一策略综合命中率。

Description

水流体内无人平台智能目标捕获方法及系统
技术领域
本发明属于水流体内无人平台技术领域,具体涉及一种水流体内无人平台智能目标捕获方法及系统。
背景技术
水流体内无人平台搭载有可以发射并具备驱动能力的自航行体功能性载荷,可用于对目标的捕获,其捕获追踪能力由导引方式的先进程度决定,导引方式基本上可归纳为线导式与自导式两大类,相比自导式,线导式自航行体具有反应速度快,对目标运动要素的依赖性小,对目标机动有较好的适应能力,抗干扰能力强等特点。线导式自航行体虽然在发射条件上降低了要求,但在发射之后,仍与无人平台保持线导联系,决策系统需要实时对线导式自航行体进行遥控导引。同时,导引方法的多样化(如现在方位法,前置点法、未来方位法等),也给线导式自航行体的使用带来更大的难度及复杂性。
现有的关于水流体内无人平台使用线导式自航行体追踪捕获目标的研究,大多着手于提出各种改进的导引方法,但在整个追踪捕获过程中,各阶段的情况并不相同,只是使用单一的线导导引方法不能发挥自航行体的最大效能。目前关于线导导引方法组合策略的研究很少,并且只以规则的形式表达了导引方法的切换策略,只能应用于特定的场景,灵活性不足,方法泛化性能差。另外,目前也缺少对于自航行体引导方法和速度进行共同决策的研究,所以目前急需一种新的水流体内无人平台智能目标捕获决策方法。
发明内容
本发明为解决目前线导导引方法组合策略灵活性不足,方法泛化性能差,并且缺少自航行体引导方法和速度共同决策方法的问题,提出一种新的水流体内无人平台智能目标捕获决策方法。
本发明涉及一种水流体内无人平台智能目标捕获方法,包括如下步骤:
步骤一、构建水流体内无人平台决策模型:构建水流体内探测信号模拟模型,完成水流体内探测信号的重叠判定,然后构建水流体内运动学模型以及导引模型;
步骤二、构建线导式自航行体追踪捕获场景模型:场景包括场景设定、决策内容和环境设置;
步骤三、在线导式自航行体追踪捕获场景模型中,应用强化学习方法,最终实现水流体内无人平台的智能目标捕获。
所述步骤一中,所述水流体内探测信号模拟模型的构建方法如下:将水流体内探测信号以采样点的形式进行模拟表达,水流体内探测信号表示为-180deg~+180deg上多个离散的信号值;
依据环境扰动程度的不同,增加水流体内探测器信号背景噪声,以正态随机信号的形式添加到离散信号值上,信号平均值与环境扰动程度成正比;
对于每个信号目标,以呈正态分布的信号峰进行模拟表达,波峰位置μ为目标方位角,波峰宽度2σ与目标距离成反比,波峰强度与目标速度成正比;
对于多个信号目标的信号峰有重叠的情况,在重叠位置上取多个信号之中的最大值。
所述步骤一中,水流体内探测信号的重叠判定方法如下:
对原始探测信号使用Savitzky-Golay平滑滤波方法过滤信号噪声;
使用波峰检测算法对所有的信号峰进行识别并标定其对应方位值;
根据方位值差以及检测到的波峰数量判定信号峰是否重叠。
所述步骤二中,场景设定为:目标使用不同机动方式,无人平台使用线导式自航行体对其进行追踪捕获。无人平台需要根据态势信息进行决策。
决策内容包括线导式自航行体引导方法及速度设定:引导方法包括现在方位法、修正方位法、前置点法;速度设定包括高速、低速;
环境设置包括场景地图和初始态势。
所述步骤二中,场景地图包含地图大小及环境扰动:地图大小根据需要动态调整,设置环境扰动程度。初始态势包含目标、无人平台和线导式自航行体的初始状态:目标初始态势包括初始位置、航速、航向,无人平台初始态势包括初始位置、航速、航向,线导式自航行体初始态势包括初始瞄准角度和速度。
所述步骤三中,强化学习方法中的Double-DQN算法中包含了两个结构相同的神经网络,分别为目标网络θ-和评估网络θ;利用评估网络θ和目标网络θ-的输出差异来构建损失函数,损失函数定义为:
L(θ)=(y-Q(s,a;θ))2
其中y为由目标网络计算的目标值函数:
Figure BDA0002779233820000021
值函数评估网络参数θ的更新过程为:
Figure BDA0002779233820000022
其中α为学习速率,决定神经网络参数更新速度;
评估网络θ根据误差反向传播进行实时更新,目标网络θ-的参数虽继承于评估网络θ,但其更新方式为周期更新,即在评估网络θ训练多轮次后再继承其网络参数,更新过程为:
θ-←τθ+(1-τ)θ-
其中,τ为参数更新速率,决定更新时目标网络参数的替换程度。
在训练过程中,Double-DQN采用经验回放来强化学习过程,将智能体在环境中交互所产生的的数据存放到记忆库中,在训练时采用随机采样方法从记忆库中抽取部分数据,然后用于训练,以此来打乱每一轮训练所采集数据之间的相关性,强化训练效果。
所述步骤三中,使用事后经验回放HER方法改进样本回放缓冲区,丰富有效奖励样本:
对非优指令序列进行采样,获得多段片段式的中间指令序列以及对应的状态转化过程,并将这些指令序列和对应的始末状态存储到样本回放缓冲区中;
将各个末状态(Gi)设定为其对应指令序列的目标状态,并依据奖励机制对各段指令序列给予奖励;
通过原始目标状态与中间末态之间的关联关系,利用的奖励指导智能体达到状态的学习目标。
本发明还涉及一种水流体内无人平台智能目标捕获系统,所述系统包括数据仿真系统、数据分析系统以及数据结果输出系统;数据分析系统包括无人平台目标追踪捕获系统、线导式自航行体追踪捕获场景构建系统以及应用强化学习系统。
本发明构建了完整的水流体内无人平台智能目标捕获决策模型,在考虑线导式自航行体导引策略以及目标探测信号被自航行体干扰的情况下,构建了水流体内探测信号模拟模型和探测信号重叠判定方法;然后构建了水流体内运动学和引导方法模型,定义了线导式自航行体追踪捕获问题模型。应用强化学习方法对线导式自航行体的导引方法-速度组合策略决策问题进行求解,在多种场景下与单一导引方法-速度策略相比较,验证了强化学习算法在无人平台目标追踪捕获决策问题中的有效性与可泛化性。
附图说明
图1为本发明目标水流体内探测信号示意图;
图2为本发明探测信号重叠时波形图;
图3为本发明HER方法原理流程图;
图4为本发明机动模式下目标运动轨迹图。
具体实施方式
本发明涉及一种水流体内无人平台智能目标捕获方法及系统,包括如下步骤:
步骤一、建水流体内无人平台决策模型:构建水流体内探测信号模拟模型,完成水流体内探测信号的重叠判定,然后构建水流体内运动学模型以及导引模型;
水流体内探测信号模拟模型的构建方法如下:将水流体内探测信号以采样点的形式进行模拟表达,水流体内探测信号表示为-180deg~+180deg上多个离散的信号值;依据环境扰动程度的不同,增加水流体内探测信号背景噪声,以正态随机信号的形式添加到离散信号值上;对于每个信号目标,以呈正态分布的信号峰进行模拟表达,波峰位置μ为目标方位角,波峰宽度2σ与目标距离成反比,波峰强度与目标速度成正比;对于多个信号目标的信号峰有重叠的情况,在重叠位置上取多个信号之中的最大值。
可视化成果如图1所示。参照状况目标航速6节,相对方位90°,距离3000海里。
水流体内探测信号的重叠判定方法如下:
对原始水流体内探测信号使用Savitzky-Golay平滑滤波方法过滤信号噪声;使用波峰检测算法对所有的信号峰进行识别并标定其对应方位值;根据方位值差以及检测到的波峰数量判定信号峰是否重叠。声纳信号发生重叠时,声纳信号图及单元相对位置如图2a至2c所示。
建立带约束的水流体内运动学模型,约束条件包括法向极限过载及切向极限过载,极速等。约束条件如表1所示。
然后构建引导方法模型,对现在方位法、修正方位法、前置点法等三种引导方法进行数学建模。
表1
Figure BDA0002779233820000041
步骤二、构建线导式自航行体追踪捕获场景模型:场景包括场景设定、决策内容和环境设置;
场景设定为:目标使用不同机动方式,无人平台使用线导式自航行体对其进行追踪捕获。无人平台需要根据态势信息进行决策。具体设置如下表2所示。
表2
Figure BDA0002779233820000051
对抗环境包括场景地图和初始态势。场景地图包含地图大小及环境扰动:地图大小根据需要动态调整,设置环境扰动程度。初始态势包含目标、无人平台和线导式自航行体的初始状态:目标初始态势包括初始位置、航速、航向,无人平台初始态势包括初始位置、航速、航向,线导式自航行体初始态势包括初始瞄准角度和速度。对抗环境具体设置如下表3所示。
表3
Figure BDA0002779233820000052
步骤三、在线导式自航行体追踪捕获场景模型中,应用强化学习方法,最终实现水流体内无人平台的智能目标捕获。
强化学习方法中的Double-DQN算法中包含了两个结构相同的神经网络,分别为目标网络θ-和评估网络θ;利用评估网络θ和目标网络θ-的输出差异来构建损失函数,损失函数定义为:
L(θ)=(y-Q(s,a;θ))2
其中y为由目标网络计算的目标值函数:
Figure BDA0002779233820000061
值函数评估网络参数θ的更新过程为:
Figure BDA0002779233820000062
其中α为学习速率,决定神经网络参数更新速度;
评估网络θ根据误差反向传播进行实时更新,目标网络θ-的参数虽继承于评估网络θ,但其更新方式为周期更新,即在评估网络θ训练多轮次后再继承其网络参数,更新过程为:
θ-←τθ+(1-τ)θ-
其中,τ为参数更新速率,决定更新时目标网络参数的替换程度。
在训练过程中,Double-DQN采用经验回放来强化学习过程,将智能体在环境中交互所产生的的数据存放到记忆库中,在训练时采用随机采样方法从记忆库中抽取部分数据,然后用于训练,以此来打乱每一轮训练所采集数据之间的相关性,强化训练效果。
使用事后经验回放HER方法改进样本回放缓冲区,丰富有效奖励样本:
对非优指令序列进行采样,获得多段片段式的中间指令序列以及对应的状态转化过程,并将这些指令序列和对应的始末状态存储到样本回放缓冲区中;
将各个末状态(Gi)设定为其对应指令序列的目标状态,并依据奖励机制对各段指令序列给予奖励;
通过原始目标状态与中间末态之间的关联关系,利用的奖励指导智能体达到状态的学习目标。
改进的Double-DQN方法的流程图3所示。改进的Double-DQN方法的伪代码如下:
Figure BDA0002779233820000063
Figure BDA0002779233820000071
验证结果:
为验证深度强化学习算法在水流体内无人平台智能目标捕获决策中的有效性。在水流体内目标追踪捕获场景中,使用强化学习算法进行训练并分析学习效果。通过对比分析最终的捕获命中率验证算法的可行性。
为避免偶然性,为目标设计了蛇形加速运动、直航转弯运动以及蛇形加环形运动三种机动方式。三种机动模式下目标运动轨迹如图4所示。
决策的输入项包括了目标信息、无人平台信息、自航行体信息和特征信息,如下表4 所示。
表4
Figure BDA0002779233820000072
Figure BDA0002779233820000081
决策的输出项包括了自航行体线导跟踪方式及自航行体高低速。
为验证算法的有效性,提供对比依据,在三种机动模式中分别使用单一导引方法单一速度进行打靶试验,打靶次数为50次,统计6种导引方法-速度组合模式的打靶命中率,结果如下表5所示。
表5
Figure BDA0002779233820000082
针对三种机动模式,使用深度强化学习算法对智能体进行训练,并给出网络收敛时智能体采用的导引方法-速度组合模式以及综合命中率。如下表6所示:
表6
Figure BDA0002779233820000091
可以看出:强化学习算法智能体经过训练后,能够分别在三种不同的场景下采取合适的线导式自航行体的导引方法-速度组合策略,并且命中率均可达到80%以上,均优于单一策略综合命中率,验证了强化学习算法在无人平台目标追踪捕获决策问题中的有效性与可泛化性。

Claims (8)

1.一种水流体内无人平台智能目标捕获方法,其特征在于,包括如下步骤:
步骤一、构建水流体内无人平台决策模型:构建水流体内探测信号模拟模型,完成水流体内探测信号的重叠判定,然后构建水流体内运动学模型以及导引模型;
步骤二、构建线导式自航行体追踪捕获场景模型:场景包括场景设定、决策内容和环境设置;
步骤三、在线导式自航行体追踪捕获场景模型中,应用强化学习方法,最终实现水流体内无人平台的智能目标捕获。
2.根据权利要求1所述的水流体内无人平台智能目标捕获方法,其特征在于,所述步骤一中,所述水流体内探测信号模拟模型的构建方法如下:将水流体内探测信号以采样点的形式进行模拟表达,水流体内探测信号表示为-180deg~+180deg上多个离散的信号值;
依据海况程度的不同,增加水流体内探测信号背景噪声,以正态随机信号的形式添加到离散信号值上;
对于每个信号目标,以呈正态分布的信号峰进行模拟表达,波峰位置μ为目标方位角,波峰宽度2σ与目标距离成反比,波峰强度与目标速度成正比;
对于多个信号目标的信号峰有重叠的情况,在重叠位置上取多个信号之中的最大值。
3.根据权利要求1所述的水流体内无人平台智能目标捕获方法,其特征在于,所述步骤一中,水流体内探测信号的重叠判定方法如下:
对原始水流体内探测信号使用Savitzky-Golay平滑滤波方法过滤信号噪声;
使用波峰检测算法对所有的信号峰进行识别并标定其对应方位值;
根据方位值差以及检测到的波峰数量判定信号峰是否重叠。
4.根据权利要求1所述的水流体内无人平台智能目标捕获方法,其特征在于,所述步骤二中,场景设定中设置如下内容:目标使用不同机动方式,无人平台使用线导式自航行体对其进行追踪捕获。无人平台需要根据态势信息进行决策;
对抗环境包括场景地图和初始态势。
5.根据权利要求1所述的水流体内无人平台智能目标捕获方法,其特征在于,所述步骤二中,场景地图包含地图大小及海况:地图大小根据需要动态调整,设置环境扰动程度。
6.根据权利要求1所述的水流体内无人平台智能目标捕获方法,其特征在于,所述步骤三中,强化学习方法中的Double-DQN算法中包含了两个结构相同的神经网络,分别为目标网络θ-和评估网络θ;利用评估网络θ和目标网络θ-的输出差异来构建损失函数,损失函数定义为:
L(θ)=(y-Q(s,a;θ))2
其中y为由目标网络计算的目标值函数:
Figure FDA0002779233810000021
值函数评估网络参数θ的更新过程为:
Figure FDA0002779233810000022
其中α为学习速率,决定神经网络参数更新速度;
评估网络θ根据误差反向传播进行实时更新,目标网络θ-的参数虽继承于评估网络θ,但其更新方式为周期更新,即在评估网络θ训练多轮次后再继承其网络参数,更新过程为:
θ-←τθ+(1-τ)θ-
其中,τ为参数更新速率,决定更新时目标网络参数的替换程度。
在训练过程中,Double-DQN采用经验回放来强化学习过程,将智能体在环境中交互所产生的的数据存放到记忆库中,在训练时采用随机采样方法从记忆库中抽取部分数据,然后用于训练,以此来打乱每一轮训练所采集数据之间的相关性,强化训练效果。
7.根据权利要求1所述的水流体内无人平台智能目标捕获方法,其特征在于,所述步骤三中,使用事后经验回放HER方法改进样本回放缓冲区,丰富有效奖励样本:
对非优指令序列进行采样,获得多段片段式的中间指令序列以及对应的状态转化过程,并将这些指令序列和对应的始末状态存储到样本回放缓冲区中;
将各个末状态(Gi)设定为其对应指令序列的目标状态,并依据奖励机制对各段指令序列给予奖励;
通过原始目标状态与中间末态之间的关联关系,利用的奖励指导智能体达到状态的学习目标。
8.一种包括上述权利要求1至7任一项所述方法的水流体内无人平台智能目标捕获系统,其特征在于,所述系统包括数据仿真系统、数据分析系统以及数据结果输出系统;数据分析系统包括无人平台目标追踪捕获系统、线导式自航行体追踪捕获场景构建系统以及应用强化学习系统。
CN202011276516.0A 2020-11-16 2020-11-16 水流体内无人平台智能目标捕获方法及系统 Active CN112347961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011276516.0A CN112347961B (zh) 2020-11-16 2020-11-16 水流体内无人平台智能目标捕获方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011276516.0A CN112347961B (zh) 2020-11-16 2020-11-16 水流体内无人平台智能目标捕获方法及系统

Publications (2)

Publication Number Publication Date
CN112347961A true CN112347961A (zh) 2021-02-09
CN112347961B CN112347961B (zh) 2023-05-26

Family

ID=74363808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011276516.0A Active CN112347961B (zh) 2020-11-16 2020-11-16 水流体内无人平台智能目标捕获方法及系统

Country Status (1)

Country Link
CN (1) CN112347961B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118626867A (zh) * 2024-08-14 2024-09-10 哈尔滨工业大学(威海) 基于双向深度强化学习的多无人船协同围捕训练方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109348707A (zh) * 2016-04-27 2019-02-15 纽拉拉股份有限公司 针对基于深度神经网络的q学习修剪经验存储器的方法和装置
CN109409775A (zh) * 2018-11-14 2019-03-01 中国电子科技集团公司第五十四研究所 一种卫星联合观测任务规划方法
US20190236455A1 (en) * 2018-01-31 2019-08-01 Royal Bank Of Canada Pre-training neural networks with human demonstrations for deep reinforcement learning
CN110333739A (zh) * 2019-08-21 2019-10-15 哈尔滨工程大学 一种基于强化学习的auv行为规划及动作控制方法
CN111141300A (zh) * 2019-12-18 2020-05-12 南京理工大学 基于深度强化学习的智能移动平台无地图自主导航方法
CN111340868A (zh) * 2020-02-26 2020-06-26 大连海事大学 基于视觉深度估计的无人水下航行器自主决策控制方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109348707A (zh) * 2016-04-27 2019-02-15 纽拉拉股份有限公司 针对基于深度神经网络的q学习修剪经验存储器的方法和装置
US20190236455A1 (en) * 2018-01-31 2019-08-01 Royal Bank Of Canada Pre-training neural networks with human demonstrations for deep reinforcement learning
CN109409775A (zh) * 2018-11-14 2019-03-01 中国电子科技集团公司第五十四研究所 一种卫星联合观测任务规划方法
CN110333739A (zh) * 2019-08-21 2019-10-15 哈尔滨工程大学 一种基于强化学习的auv行为规划及动作控制方法
CN111141300A (zh) * 2019-12-18 2020-05-12 南京理工大学 基于深度强化学习的智能移动平台无地图自主导航方法
CN111340868A (zh) * 2020-02-26 2020-06-26 大连海事大学 基于视觉深度估计的无人水下航行器自主决策控制方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
QINGXIANG WANG等: "Experimental investigation of Gas/Paricle Two-Phase flow Characteristics in a down-fired boiler by PDA measurements", 《EXPERIMENTAL THERMAL AND FLUID SCIENCE》 *
XIAO HAN等: "Intelligent decision-making for 3-Dimensional dynamic obstacle avoidance of UVA based on deep Reinforcement Learning", 《2019 11TH INTERNATIONAL CONFERENCE ON WIRELESS COMMUNICATIONS AND SIGNAL PROCESSING(WCSP)》 *
ZHANG,CHAO等: "Satellite group autonomous operation mechanism and planning algorithm for marine target surveillance", 《CHINESE JOURNAL OF AERONAUTICS》 *
孙瀛: "探鱼声纳回波重叠情况下的峰值分布", 《台湾海峡》 *
尹金等: "计算流体力学中流体表面追踪方法概述", 《电脑知识与技术》 *
曲丰等: "基于提升线导鱼雷捕获概率的导引方法优化研究", 《舰船电子工程》 *
郑文恩等: "潜艇报警鱼雷制导方式的模式识别方法", 《计算机仿真》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118626867A (zh) * 2024-08-14 2024-09-10 哈尔滨工业大学(威海) 基于双向深度强化学习的多无人船协同围捕训练方法
CN118626867B (zh) * 2024-08-14 2024-10-08 哈尔滨工业大学(威海) 基于双向深度强化学习的多无人船协同围捕训练方法

Also Published As

Publication number Publication date
CN112347961B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN112766561B (zh) 一种基于注意力机制的生成式对抗轨迹预测方法
CN110136481B (zh) 一种基于深度强化学习的停车策略
CN109726866A (zh) 基于q学习神经网络的无人船路径规划方法
CN107063280A (zh) 一种基于控制采样的智能车辆路径规划系统及方法
CN109782807A (zh) 一种回形障碍物环境下的auv避障方法
CN113052372B (zh) 一种基于深度强化学习的动态auv追踪路径规划方法
CN110525428B (zh) 一种基于模糊深度强化学习的自动泊车方法
CN116804879B (zh) 一种改进蜣螂算法融合dwa算法的机器人路径规划框架方法
CN104464379B (zh) 基于分段匹配的航行计划与雷达航迹关联方法及系统
CN112506218B (zh) 一种基于轨迹智能预测的再入飞行器任意禁飞区绕飞方法
CN116360434A (zh) 基于改进的csac-apf算法的船舶路径规划方法
CN113139331A (zh) 一种基于贝叶斯网络的空空导弹态势感知与决策方法
CN112347961A (zh) 水流体内无人平台智能目标捕获方法及系统
CN115097861B (zh) 一种基于cel-maddpg的多无人机围捕策略方法
CN116952239A (zh) 一种基于改进a*与dwa融合的无人艇路径规划方法
CN113032896A (zh) 一种基于船舶驾驶员偏好的避碰辅助决策方法
CN116432514A (zh) 无人机攻防博弈的拦截意图识别策略仿真系统及方法
CN117606490A (zh) 一种水下自主航行器协同搜索路径规划方法
CN117666589A (zh) 一种基于强化学习的无人艇导弹拦截和规避算法、拦截和规避系统及可读存储介质
CN117553792A (zh) 基于蚁群算法的无人平台搜潜航路优化方法
CN116047886B (zh) 一种基于神经网络的管道潜航机器人控制方法及系统
Zhu et al. Path planning of mobile robot based on deep reinforcement learning with transfer learning strategy
CN116579372A (zh) 一种基于深度强化学习的多智能体协同导航方法
CN114997048A (zh) 基于探索策略改进的td3算法的自动驾驶车辆车道保持方法
Wang et al. Efficient reinforcement learning for autonomous ship collision avoidance under learning experience reuse

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant