CN113359820A - 一种基于dqn的无人机路径规划方法 - Google Patents
一种基于dqn的无人机路径规划方法 Download PDFInfo
- Publication number
- CN113359820A CN113359820A CN202110591320.9A CN202110591320A CN113359820A CN 113359820 A CN113359820 A CN 113359820A CN 202110591320 A CN202110591320 A CN 202110591320A CN 113359820 A CN113359820 A CN 113359820A
- Authority
- CN
- China
- Prior art keywords
- value
- size
- image
- dqn
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims abstract description 19
- 230000002787 reinforcement Effects 0.000 claims abstract description 7
- 238000003709 image segmentation Methods 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims abstract description 5
- 230000009471 action Effects 0.000 claims description 27
- 210000002569 neuron Anatomy 0.000 claims description 17
- 230000000875 corresponding effect Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/106—Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于DQN的无人机路径规划方法,首先用栅格法生成训练集;设置障碍的奖励函数,并初始化强化学习的Q值;构建DQN中的卷积神经网络,并训练模型;在DQN中构建图像分割网络Mask R‑NN,并使用遥感图像对训练好的Mask R‑NN进行测试;将Mask R‑CNN网络输出的栅格图输入到已经训练好的模型,最终输出成功通过障碍到达终点的遥感图像。本发明实现DQN算法在真实环境图像中进行路径规划,为DQN在真实环境中路径规划研究做铺垫。
Description
技术领域
本发明涉及路径规划技术领域,尤其涉及一种基于DQN的无人机路径规划方法。
背景技术
全局路径规划是在全局环境已知的前提下,提前做好全局性的路径规划方案。全局路径规划对算法的实时性要求不高,使用起来方便快捷。是当下无人机路径规划的主要研究方向之一。
传统的算法如A*、Voronoi图等算法计算效率高、规划简单。李得伟等人通过改进搜索顺序和优化估价函数,将A*算法中的无向搜索改成有向搜索,将全局估价变为局部估价,提高了算法效率。但传统算法在解决路径规划问题中存在很多局限性,如精确法只适用于小规模路径规划问题,当目标函数和约束条件较为复杂时,精确方法很难给出有效解。并且启发式算法无法解决环境变化这一问题。
鉴于传统算法解决无人机全局路径规划的局限性,越来越多的学者利用机器学习算法求解无人机全局路径规划,机器学习算法是通过无人机与环境的交互来学习策略和更新模型,其本质是通过最大化累积奖励的概念来训练智能体在环境中采取最优行动。其中Q学习算法、深度Q网络算法是使用最为广泛的两种方法。
Zhao用一种自适应随机探索方法结合Q学习算法完成了无人机导航和避障任务,其动作选择模块中包含了两个子模块:学习模块和避障模块。学习模块可以通过无人机的历史状态和位置信息训练其动作选择策略,而避障模块通过使用随机搜索树算法来进行紧急避障。Siyu Zhou提出了一种新的基于DQN的全局路径规划方法,使移动机器人能够在密集环境中高效地获得最优路径。这个方法可以分为三个步骤。首先,我们需要设计和训练一个DQN来逼近移动机器人的状态——动作值函数。然后,我们确定每个可能的动作对应的Q值,如右转和前进。DQN的输入是代表环境结构的原始RGB图像。最后,通过动作选择策略选择当前最优动作,使移动机器人在避开障碍物的同时到达目标点。不同环境下的多次仿真表明,该方法比传统的路径规划方法更有效。
王俊等人2019年发明了一种快速搜索机制下改进DQN的机器人路径规划算法,该发明首先设置算法中所需的参数;其次根据三维地形环境的坡度特征和机器人运动几何学特性,建立一个二维的栅格地图用来模拟环境;设计快速搜索机制;从次建立机器人的动作集;设计一个连续的报酬函数;机器人通过训练输出一条最佳路径;该发明提供了--种快速搜索机制下改进DQN的机器人路径规划算法,改善了Deep Q_Learning算法存在的环境利用率低、搜索效率低等问题,能够使机器人在未知环境下快速搜索出最佳路径。
邓三鹏等人2019年针对强化学习中Q-learning算法在复杂环境下难以进行路径规划的问题,将深度卷积神经网络的特征提取能力与强化学习的决策能力相结合,提出了一种基于深度强化学习的改进算法。该方法用值函数近似法代替Q-learning中的动作值函数,设计了包含4层结构的深度卷积神经网络,以网络的输出代替传统的Q值表,解决了Q-learning在状态空间较大时产生的维数灾难问题。在栅格环境下进行仿真实验,结果表明该方法相较于Q-learning算法能够在复杂的环境下进行路径规划,并在新的测试集上取得了87%的识别率,具有较强的泛化能力。
丁勇等人2019年发明了一种基于迁移学习策略深度Q网络的无人机路径规划方法,所述方法首先利用栅格法对UAV所处的动态环境进行建模并对其进行描述,建立UAV的状态空间和动作空间模型;其次,初始化DQN的网络参数和无人机的当前状态;然后,在静态环境模型下采用基于社会力模型的回报机制对DQN进行训练,得到网络权值和最优动作值;接着,利用迁移学习将静态环境下训练.得到的网络权值和最优动作值迁移到动态环境下,继续进行神经网络训练,得到UAV将要执行的动作;最后,计算当前时刻无人机的位置,实现动态环境下无人机的路径规划。本发明有效解决了无人机在动态环境下进行路径规划时,DQN训练收敛速度慢、路径规划不理想、成功率较低的问题。
上述发明,都是基于DQN在路径规划中的应用,但是都有一个共同的缺陷,即都是在栅格环境下进行的路径规划,利用栅格法随机分布障碍点或对环境进行建模的方式生成栅格环境,其中,随机分布障碍点的方法完全不符合真实环境信息,训练好的模型无法应用于真实环境;而利用栅格法对环境进行建模的方法,要针对每一张需要路径规划的环境图像进行建模,建模速度慢且无法保证与真实环境一致。以上两种方法都识别遥感图像中障碍物并实现路径规划。
针对以上问题,本发明提出一种基于改进DQN算法的无人机全局路径规划方法。该方法弥补了使用栅格法训练的模型,无法识别遥感图像中障碍物并实现路径规划的缺陷。
发明内容
有鉴于此,本发明目的是提供一种基于DQN的无人机路径规划方法,包括以下步骤:
S1、用栅格法生成训练集;
S2、设置障碍的奖励函数,并初始化强化学习的Q值;
S3、构建DQN中的卷积神经网络,并训练模型;
S4、在DQN中构建图像分割网络Mask R-NN,并使用遥感图像对训练好的Mask R-NN进行测试;
S5、将Mask R-CNN网络输出的栅格图输入到S3中已经训练好的模型,最终输出成功躲避障碍到达终点的遥感图像。
本发明提供的技术方案带来的有益效果是:实现DQN算法在真实环境图像中进行路径规划,为DQN在真实环境中路径规划研究做铺垫。
附图说明
图1是本发明一种基于DQN的无人机路径规划方法的流程图;
图2是本发明改进DQN算法框架图;
图3是本发明栅格环境像素图;
图4是本发明DQN中卷积神经网络框架图;
图5是本发明DQN算法框架图;
图6是本发明改进的Mask R-CNN框架图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。
请参考图1和图2,本发明提供了一种基于DQN的无人机路径规划方法,具体包括以下步骤:
S1、用栅格法生成训练集;用二值化方法,设置灰度值为255表示白色,灰度值为0表示黑色,将85个1*1大小的黑色像素块随机分布在25*25大小的白色像素图中构成的栅格图,通过不断改变栅格图中起始点、障碍点的位置,生成数量大约有125000张路径丰富多样且复杂的栅格图组成训练集,保存至训练集文件夹中,请参考图3。
S2、设置障碍的奖励函数,并初始化强化学习的Q值;设置无人机到达终点的奖励值为200和碰撞到障碍点的奖励值为-200的奖励函数,并对训练集中每张图片中的起始点、终点和障碍点的分布情况进行奖励值设置;当初始点与终点重合时,该状态图像奖励值为200,其余正常状态的图像奖励值设置为0,并将以上奖励值作为每张训练图片的初始Q值保存至Q值文件夹中。
S3、构建DQN中的卷积神经网络,并训练模型;具体如下:
S31、将一张大小长*宽*张量=25*25*3的栅格图输入进DQN算法的当前值卷积神经网络中;请参考图4,该卷积神经网络由3个卷积层和2个全连接层和1个含有8个神经元的输出层组成,具体的输出值大小即为对应的动作Q值;
S32、由10个步长为1,大小为2*2的卷积核构成的卷积层1对输入的图像张量进行卷积操作,卷积后得到的特征图尺寸为24,产生10个大小为24*24的特征图,即输出24*24*10的特征向量;
S33、由20个步长为1,大小为2*2的卷积核构成的卷积层2对输入的特征张量,即卷积层1的输出进行卷积操作,卷积后得到的特征图尺寸为23,最后产生20个大小为23*23的特征图,即输出23*23*20大小的特征向量图;
S34、由全连接层1对卷积层2产生的特征向量进行拉伸,每一个像素代表一个神经元,共有23*23*20=10580个神经元作为输入,最后使用全连接层操作输出512个神经元;
S35、输出层与全连接层1进行全连接操作,输出8个神经元,具体的输出值大小Q(s,a,θi)即为对应的动作Q值Qπ(s,a),公式为:Q(s,a,θi)≈Qπ(s,a);其中,s为动作,a为状态,θi为权重参数;
S36、将输出层的输出值Q(s,a,θi)与当前值网络结构相同的目标值网络的输出值r+γmax Q(s′,a′,θi)传输给误差损失函数使用公式计算参数θ的梯度;其中,r为奖励,γ为折扣系数,s′为下一步动作,a′为下一步状态,θi为权重参数;
S37、使用小批量随机梯度下降算法实现卷积神经网络模型对目标函数的优化,从而得到最优动作值arg maxa Q(s,a;θ);
S38、不断重复以上步骤进行模型训练,当误差损失函数达到收敛时停止训练。
S4、S4、在DQN中构建图像分割网络Mask R-NN,并使用遥感图像对训练好的MaskR-NN进行测试;该网络采用了Faster R-CNN实现目标识别,并同时利用全卷积网络(卷积层1和卷积层2)实现包容盒内前景目标的分割;请参考图5和图6。具体步骤如下:
S41、将一张大小为512*512的遥感图像输入进图像分割网络,网络对遥感图像进行预处理,将预处理后的图像输入到预训练好的FPN中,获得对应的图像特征图的集合;
S42、对特征图集中的每一点设定预定数量的ROI,最后获得多个最佳的候选ROI;
S43、将候选的ROI送入RPN网络进行前景或背景的而知分类和边框回归,过滤一部分候选的ROI;
S44、对S43过滤之后的ROI进行ROIAlign操作,即将原图和特征图的像素对应起来,随后将特征图和固定的特征对应起来;
S45、对ROI进行N类别的分类、位置的预测以及目标框回归,通过分割网络Mask R-NN进行Mask的预测和语义的分割,得到二值的掩模图像;
S46、图像转换处理模块对二值的掩模图像进行包括转换、压缩、二值化、奖励值设置操作,输出为25*25的栅格图。
S5、将Mask R-CNN网络输出的栅格图输入到S3中已经训练好的模型,最终输出成功通过障碍到达终点的遥感图像,具体为:
S51、将Mask R-CNN输出的长*宽*张量=25*25*3的栅格图输入到DQN算法的当前值网络中;
S52、由10个步长为1,大小为2*2的卷积核构成的卷积层1对输入的图像张量进行卷积操作,卷积后得到的特征图尺寸为24,产生10个大小为24*24的特征图,即输出24*24*10的特征向量;
S53、由20个步长为1,大小为2*2的卷积核构成的卷积层2对输入的特征张量即卷积层1的输出进行卷积操作,卷积后得到的特征图尺寸为23,产生20个大小为23*23的特征图,即输出23*23*20大小的特征向量图;为了避免下采样操作导致图像的信息丢失,上述卷积层都没有使用池化层对输入的特征图进行更高维的特征抽取,而是直接使用卷积层后接着卷积层;
S54、由全连接层1对卷积层2产生的特征向量进行拉伸,每一个像素代表一个神经元,共有23*23*20=10580个神经元作为输入,最后使用全连接层操作输出512个神经元;
S55、输出层与全连接层1进行全连接操作,输出8个神经元,具体的输出值大小Q(s,a,θi)即为对应的动作Q值Qπ(s,a),公式为:Q(s,a,θi)≈Qπ(s,a);其中,s为动作,a为状态,θi为权重参数;
S56、请参考图4,将输出层的输出值Q(s,a,θi)与当前值网络结构相同的目标值网络的输出值r+γmax Q(s′,a′,θi)传输给误差损失函数
S57、使用小批量随机梯度下降算法实现卷积神经网络模型对目标函数的优化,从而得到最优动作值arg maxa Q(s,a;θ),无人机根据最有动作值做出对应的动作,并循环以上步骤,当误差损失函数达到收敛时停止迭代。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (6)
1.一种基于DQN的无人机路径规划方法,其特征在于,包括以下步骤:
S1、用栅格法生成训练集;
S2、设置障碍的奖励函数,并初始化强化学习的Q值;
S3、构建DQN中的卷积神经网络,并训练模型;
S4、在DQN中构建图像分割网络Mask R-NN,并使用遥感图像对训练好的Mask R-NN进行测试;
S5、将Mask R-CNN网络输出的栅格图输入到S3中已经训练好的模型,最终输出成功躲避障碍到达终点的遥感图像。
2.根据权利要求1所述的一种基于DQN的无人机路径规划方法,其特征在于,所述S1具体为:用二值化方法,设置灰度值为255表示白色,灰度值为0表示黑色,将85个1*1大小的黑色像素块随机分布在25*25大小的白色像素图中构成的栅格图,通过不断改变栅格图中起始点、障碍点的位置,生成数量大约有125000张路径丰富多样且复杂的栅格图组成训练集,保存至训练集文件夹中。
3.根据权利要求1所述的一种基于DQN的无人机路径规划方法,其特征在于,所述S2具体为:设置无人机到达终点的奖励值为200和碰撞到障碍点的奖励值为-200的奖励函数,并对训练集中每张图片中的起始点、终点和障碍点的分布情况进行奖励值设置;当初始点与终点重合时,该状态图像奖励值为200,其余正常状态的图像奖励值设置为0,并将以上奖励值作为每张训练图片的初始Q值保存至Q值文件夹中。
4.根据权利要求1所述的一种基于DQN的无人机路径规划方法,其特征在于,所述S3中模型训练具体步骤如下:
S31、将一张大小长*宽*张量=25*25*3的栅格图输入进DQN算法的当前值卷积神经网络中;
S32、由10个步长为1,大小为2*2的卷积核构成的卷积层1对输入的图像张量进行卷积操作,卷积后得到的特征图尺寸为24,产生10个大小为24*24的特征图,即输出24*24*10的特征向量;
S33、由20个步长为1,大小为2*2的卷积核构成的卷积层2对输入的特征张量,即卷积层1的输出进行卷积操作,卷积后得到的特征图尺寸为23,最后产生20个大小为23*23的特征图,即输出23*23*20大小的特征向量图;
S34、由全连接层1对卷积层2产生的特征向量进行拉伸,每一个像素代表一个神经元,共有23*23*20=10580个神经元作为输入,最后使用全连接层操作输出512个神经元;
S35、输出层与全连接层1进行全连接操作,输出8个神经元,具体的输出值大小Q(s,a,θi)即为对应的动作Q值Qπ(s,a),公式为:Q(s,a,θi)≈Qπ(s,a);其中,s为动作,a为状态,θi为权重参数;
S36、将输出层的输出值Q(s,a,θi)与当前值网络结构相同的目标值网络的输出值r+γmaxQ(s′,a′,θi)传输给误差损失函数使用公式计算参数θ的梯度;其中,r为奖励,γ为折扣系数,s′为下一步动作,a′为下一步状态,θi为权重参数;
S37、使用小批量随机梯度下降算法实现卷积神经网络模型对目标函数的优化,从而得到最优动作值argmaxaQ(s,a;θ);
S38、不断重复以上步骤进行模型训练,当误差损失函数达到收敛时停止训练。
5.根据权利要求1所述的一种基于DQN的无人机路径规划方法,其特征在于,所述S4具体步骤如下:
S41、将一张大小为512*512的遥感图像输入进图像分割网络,网络对遥感图像进行预处理,将预处理后的图像输入到预训练好的FPN中,获得对应的图像特征图的集合;
S42、对特征图集中的每一点设定预定数量的ROI,最后获得多个最佳的候选ROI;
S43、将候选的ROI送入RPN网络进行前景或背景的而知分类和边框回归,过滤一部分候选的ROI;
S44、对S43过滤之后的ROI进行ROIAlign操作,即将原图和特征图的像素对应起来,随后将特征图和固定的特征对应起来;
S45、对ROI进行N类别的分类、位置的预测以及目标框回归,通过分割网络Mask R-NN进行Mask的预测和语义的分割,得到二值的掩模图像;
S46、图像转换处理模块对二值的掩模图像进行包括转换、压缩、二值化、奖励值设置操作,输出为25*25的栅格图。
6.根据权利要求1所述的一种基于DQN的无人机路径规划方法,其特征在于,所述S5具体为:
S51、将Mask R-CNN输出的长*宽*张量=25*25*3的栅格图输入到DQN算法的当前值网络中;
S52、由10个步长为1,大小为2*2的卷积核构成的卷积层1对输入的图像张量进行卷积操作,卷积后得到的特征图尺寸为24,产生10个大小为24*24的特征图,即输出24*24*10的特征向量;
S53、由20个步长为1,大小为2*2的卷积核构成的卷积层2对输入的特征张量即卷积层1的输出进行卷积操作,卷积后得到的特征图尺寸为23,产生20个大小为23*23的特征图,即输出23*23*20大小的特征向量图;
S54、由全连接层1对卷积层2产生的特征向量进行拉伸,每一个像素代表一个神经元,共有23*23*20=10580个神经元作为输入,最后使用全连接层操作输出512个神经元;
S55、输出层与全连接层1进行全连接操作,输出8个神经元,具体的输出值大小Q(s,a,θi)即为对应的动作Q值Qπ(s,a),公式为:Q(s,a,θi)≈Qπ(s,a);其中,s为动作,a为状态,θi为权重参数;
S56、将输出层的输出值Q(s,a,θi)与当前值网络结构相同的目标值网络的输出值r+γmaxQ(s′,a′,θi)传输给误差损失函数使用公式计算参数θ的梯度;其中,r为奖励,γ为折扣系数,s′为下一步动作,a′为下一步状态,θi为权重参数;
S57、使用小批量随机梯度下降算法实现卷积神经网络模型对目标函数的优化,从而得到最优动作值argmaxaQ(s,a;θ),无人机根据最有动作值做出对应的动作,并循环以上步骤,当误差损失函数达到收敛时迭代结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110591320.9A CN113359820A (zh) | 2021-05-28 | 2021-05-28 | 一种基于dqn的无人机路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110591320.9A CN113359820A (zh) | 2021-05-28 | 2021-05-28 | 一种基于dqn的无人机路径规划方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113359820A true CN113359820A (zh) | 2021-09-07 |
Family
ID=77528079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110591320.9A Pending CN113359820A (zh) | 2021-05-28 | 2021-05-28 | 一种基于dqn的无人机路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113359820A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723371A (zh) * | 2021-11-01 | 2021-11-30 | 陕西欧卡电子智能科技有限公司 | 无人船清洁路线规划方法、装置、计算机设备及存储介质 |
CN113985870A (zh) * | 2021-10-19 | 2022-01-28 | 复旦大学 | 一种基于元强化学习的路径规划方法 |
CN114153216A (zh) * | 2021-12-14 | 2022-03-08 | 浙江大学湖州研究院 | 基于深度强化学习和块规划的月面路径规划系统和方法 |
CN114415663A (zh) * | 2021-12-15 | 2022-04-29 | 北京工业大学 | 基于深度强化学习的路径规划方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN109870162A (zh) * | 2019-04-04 | 2019-06-11 | 北京航空航天大学 | 一种基于竞争深度学习网络的无人机飞行路径规划方法 |
CN110134140A (zh) * | 2019-05-23 | 2019-08-16 | 南京航空航天大学 | 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法 |
CN110307848A (zh) * | 2019-07-04 | 2019-10-08 | 南京大学 | 一种移动机器人导航方法 |
CN110515303A (zh) * | 2019-09-17 | 2019-11-29 | 余姚市浙江大学机器人研究中心 | 一种基于ddqn的自适应动态路径规划方法 |
CN110673637A (zh) * | 2019-10-08 | 2020-01-10 | 福建工程学院 | 一种基于深度强化学习的无人机伪路径规划的方法 |
CN110703766A (zh) * | 2019-11-07 | 2020-01-17 | 南京航空航天大学 | 一种基于迁移学习策略深度q网络的无人机路径规划方法 |
US20210073972A1 (en) * | 2019-09-06 | 2021-03-11 | Accenture Global Solutions Limited | Intelligent defect detection from image data |
-
2021
- 2021-05-28 CN CN202110591320.9A patent/CN113359820A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN109870162A (zh) * | 2019-04-04 | 2019-06-11 | 北京航空航天大学 | 一种基于竞争深度学习网络的无人机飞行路径规划方法 |
CN110134140A (zh) * | 2019-05-23 | 2019-08-16 | 南京航空航天大学 | 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法 |
CN110307848A (zh) * | 2019-07-04 | 2019-10-08 | 南京大学 | 一种移动机器人导航方法 |
US20210073972A1 (en) * | 2019-09-06 | 2021-03-11 | Accenture Global Solutions Limited | Intelligent defect detection from image data |
CN110515303A (zh) * | 2019-09-17 | 2019-11-29 | 余姚市浙江大学机器人研究中心 | 一种基于ddqn的自适应动态路径规划方法 |
CN110673637A (zh) * | 2019-10-08 | 2020-01-10 | 福建工程学院 | 一种基于深度强化学习的无人机伪路径规划的方法 |
CN110703766A (zh) * | 2019-11-07 | 2020-01-17 | 南京航空航天大学 | 一种基于迁移学习策略深度q网络的无人机路径规划方法 |
Non-Patent Citations (1)
Title |
---|
技术挖掘者: "Mask R-CNN详解", 《CSDN博客》, 6 March 2018 (2018-03-06), pages 1 - 15 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113985870A (zh) * | 2021-10-19 | 2022-01-28 | 复旦大学 | 一种基于元强化学习的路径规划方法 |
CN113985870B (zh) * | 2021-10-19 | 2023-10-03 | 复旦大学 | 一种基于元强化学习的路径规划方法 |
CN113723371A (zh) * | 2021-11-01 | 2021-11-30 | 陕西欧卡电子智能科技有限公司 | 无人船清洁路线规划方法、装置、计算机设备及存储介质 |
CN113723371B (zh) * | 2021-11-01 | 2022-03-29 | 陕西欧卡电子智能科技有限公司 | 无人船清洁路线规划方法、装置、计算机设备及存储介质 |
CN114153216A (zh) * | 2021-12-14 | 2022-03-08 | 浙江大学湖州研究院 | 基于深度强化学习和块规划的月面路径规划系统和方法 |
CN114153216B (zh) * | 2021-12-14 | 2023-10-03 | 浙江大学湖州研究院 | 基于深度强化学习和块规划的月面路径规划系统和方法 |
CN114415663A (zh) * | 2021-12-15 | 2022-04-29 | 北京工业大学 | 基于深度强化学习的路径规划方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113359820A (zh) | 一种基于dqn的无人机路径规划方法 | |
CN106970615B (zh) | 一种深度强化学习的实时在线路径规划方法 | |
CN108520535B (zh) | 基于深度恢复信息的物体分类方法 | |
EP3405845B1 (en) | Object-focused active three-dimensional reconstruction | |
CN110738309B (zh) | Ddnn的训练方法和基于ddnn的多视角目标识别方法和系统 | |
WO2022252272A1 (zh) | 一种基于迁移学习的改进vgg16网络猪的身份识别方法 | |
WO2020192736A1 (zh) | 物体识别方法及装置 | |
CN109964237A (zh) | 图像深度预测神经网络 | |
US11783500B2 (en) | Unsupervised depth prediction neural networks | |
KR20200121206A (ko) | 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법 | |
CN113392584B (zh) | 基于深度强化学习和方向估计的视觉导航方法 | |
CN111489394B (zh) | 物体姿态估计模型训练方法、系统、装置及介质 | |
CN110281949B (zh) | 一种自动驾驶统一分层决策方法 | |
CN112580662A (zh) | 一种基于图像特征识别鱼体方向的方法及系统 | |
CN113313176A (zh) | 一种基于动态图卷积神经网络的点云分析方法 | |
CN115018039A (zh) | 一种神经网络蒸馏方法、目标检测方法以及装置 | |
CN112560865A (zh) | 一种室外大场景下点云的语义分割方法 | |
US20220215617A1 (en) | Viewpoint image processing method and related device | |
KR101563569B1 (ko) | 학습형 다이내믹 시각 이미지 패턴 인식 시스템 및 방법 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
CN111914639A (zh) | 轻量级卷积时空简单循环单元模型的驾驶动作识别方法 | |
US20210224619A1 (en) | Image processing using generative graphical models | |
CN114882423A (zh) | 一种基于改进Yolov5m模型和DeepSort的货车入库货物识别方法 | |
Mousavi et al. | A layered architecture for active perception: Image classification using deep reinforcement learning | |
CN114022727A (zh) | 一种基于图像知识回顾的深度卷积神经网络自蒸馏方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210907 |