CN106970615A - 一种深度强化学习的实时在线路径规划方法 - Google Patents

一种深度强化学习的实时在线路径规划方法 Download PDF

Info

Publication number
CN106970615A
CN106970615A CN201710167590.0A CN201710167590A CN106970615A CN 106970615 A CN106970615 A CN 106970615A CN 201710167590 A CN201710167590 A CN 201710167590A CN 106970615 A CN106970615 A CN 106970615A
Authority
CN
China
Prior art keywords
deep
network
neutral net
cycle
intelligent body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710167590.0A
Other languages
English (en)
Other versions
CN106970615B (zh
Inventor
布树辉
孙林杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201710167590.0A priority Critical patent/CN106970615B/zh
Publication of CN106970615A publication Critical patent/CN106970615A/zh
Application granted granted Critical
Publication of CN106970615B publication Critical patent/CN106970615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0242Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using non-visible light signals, e.g. IR or UV signals
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0251Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting 3D information from a plurality of images taken from different locations, e.g. stereo vision
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0255Control of position or course in two dimensions specially adapted to land vehicles using acoustic signals, e.g. ultra-sonic singals
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • G05D1/028Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle using a RF signal

Abstract

本发明提出了一种深度强化学习的实时在线路径规划方法,利用深度学习方法来得到图像的高层语义信息,并利用强化学习的方法来完成从环境的端到端的实时场景的路径规划。训练过程中将在环境中采集到的图像信息作为当前状态带入场景解析网络中得到解析结果,然后将解析结果输入到设计好的深度循环神经网络中,通过训练得到特定场景中智能体的每步决策动作,进而得到最优的完整路径。实际应用过程,利用训练好的深度强化学习网络,将相机采集到的图像信息输入,即可得到智能体行走的方向信息。本发明在保证其鲁棒性、在对环境依赖比较少的前提下,最大限度利用获取到的图像信息,实现即时的场景行走信息路径规划。

Description

一种深度强化学习的实时在线路径规划方法
技术领域
本发明涉及计算机图像处理与机器学习领域,具体为一种深度强化学习的实时在线路径规划方法,应用深度学习和强化学习实现实时场景的路径规划。
背景技术
传统的路径规划方法有模拟退火算法、人工势场法、模糊逻辑算法、禁忌搜索算法等;智能仿生学方法有蚁群算法、神经网络算法、粒子群算法、遗传算法等;也有一些人为发明的算法因为其优秀的特点得到广泛应用,这些算法一般具有很强的路径搜索能力,可以很好地在离散的路径拓扑网络中发挥作用,包括:A*算法、Dijkstra算法、Floyd算法等。随着科学技术的不断发展,路径规划技术面对的环境更为复杂多变,这就要求路径规划算法具有迅速响应复杂环境变化的能力,但传统的路径规划算法不能满足复杂多变的环境,因此传统的路径规划算法无法应用到智能设备的导航、制导与控制。
直接利用图像信息进行路径规划是目前在路径规划领域的前沿研究方向。2015年初Google Deepmind在Nature上发表一篇应用深度强化学习来进行人工智能游戏应用的文章,其中涉及了直接利用游戏视频信息来进行游戏控制的方法概述,提出了直接利用图像信息进行任务处理的雏形。针对智能设备的路径规划,本发明申请人研究并提出了直接利用图像信息进行实时、在线路径规划的算法。
神经网络和强化学习是机器学习领域中的两个重要分支,由于其重要的理论与应用价值,一直以来都是学者研究的热点。
强化学习问题通常被建模成马尔科夫决策过程,其目标是寻找一个能使我们获得最大累积奖励的策略。通常累积奖励表示为:
Rt=rt+1+γrt+22rt+3+…
其中γ为折扣因子(0≤γ≤1),t+1,t+2等表示第几个时间步。
马尔科夫决策过程中有四元组信息的概念,即由当前状态s,动作a,立即奖励r以及影响状态转移的概率Pss′组成。在这个模型下,未来状态只与当前状态有关,而与之前的状态无关,即所谓的马尔科夫性。一个马尔科夫决策过程可以表示为一个序列信息:s0,a0,r0,s1,a1,r1,s2,…,基于这个假设,很容易得到值函数的一个递归表达式:
Q(s,a)=E[rt+1+γrt+22rt+3+…|s,a]
=E[rt+1+γ(rt+2+γrt+3+…)|s,a]
=E[rt+1+γmaxa′Q(s′,a′)|s,a]
其中Q(s,a)表示当前状态s下的状态动作值,Q(s′,a′)表示执行动作a后的下一状态s′对应的状态动作值。
神经网络和强化学习各自都存在一定的问题,神经网络具有优秀的学习能力,但是泛化能力差是其致命的缺点;而对于强化学习,当系统变得复杂时,需要大量的参数来刻画,这样就引起状态空间到动作空间映射的组合爆炸,进而影响行动决策的优化问题。深度强化学习将神经网络与强化学习进行了结合,其中神经网络主要完成环境状态感知,而强化学习完成决策,实现状态到动作的映射。目前还没有利用图像解析信息通过深度强化学习进行路径规划的研究报道。
发明内容
基于深度学习和强化学习的研究,本发明提出了一种深度强化学习的实时、在线路径规划方法,在保证其鲁棒性、在对环境依赖比较少的前提下,最大限度利用获取到的图像信息,实现即时的场景行走信息路径规划。
本发明利用深度学习方法来得到图像的高层语义信息,并利用强化学习的方法来完成从环境的端到端的实时场景的路径规划。训练过程中将在环境中采集到的图像信息作为当前状态带入场景解析网络中得到解析结果,然后将解析结果输入到设计好的深度循环神经网络中,通过训练得到特定场景中智能体的每步决策动作,进而得到最优的完整路径。实际应用过程,利用训练好的深度强化学习网络,将相机采集到的图像信息输入,即可得到智能体行走的方向信息。本文涉及:1、相机采集的原始图像的场景解析处理,即对环境图像通过场景解析网络进行解析处理,作为后续深度循环网络的输入;2、深度循环神经网络的应用:智能体在环境中获得当前的图像状态经过场景解析网络,将其输入到事先设计好的深度循环神经网络中,进行进一步的高度抽象特征提取,为后续的训练处理做准备;3、深度学习与强化学习的结合:即用深度循环神经网络(deep recurrent Q-Network)去逼近表达强化学习(Q-Learning)方法;4、网络参数的训练:对深度循环神经网络产生的损失函数通过随机梯度下降(SGD)法进行迭代训练,得到所需的最优参数。本发明将可以应用于以下场合:机器人机械臂的动作规划、飞行器航迹规划、机器人在某环境的路径规划等。
本发明的技术方案为:
所述一种深度强化学习的实时在线路径规划方法,其特征在于:包括以下步骤:
步骤1:采集相机图像,将采集的图像输入到场景解析网络中,得到对应的解析结果图,所述解析结果图中,解析得到的属于同一类的物体采用同一颜色表示;
步骤2:将解析结果图输入到带初始权重的深度循环神经网络中,并做如下处理:
步骤2.1:采集待规划智能体与环境进行交互的历史经验,并存储在经验回放存储器中,所述历史经验为四元组信息(s,a,r,s’),s为当前状态,a为执行动作,r为对应动作a的回报值,s’为执行动作a后的下一个状态;所述历史经验的获取过程为:智能体根据当前状态s,从可行的动作集中任意选择一个动作a,智能体对动作a进行评估,如果智能体执行动作a后遇到障碍物或不能通行的标记,则给予惩罚值,如果智能体执行动作a后更加接近目的地或到达目的地时,则给予奖励值;智能体采集执行动作a后的环境图像,并输入到场景解析网络后,得到状态s’;
步骤2.2:持续采集待规划智能体与环境进行交互的历史经验,并存储到经验回放存储器中,得到训练样本集D;
步骤3:在经验回放存储器中随机采样四元组信息(s,a,r,s’),输入到深度循环神经网络和目标深度循环神经网络中,并做如下处理;其中初始时,深度循环神经网络和目标深度循环神经网络参数相同;
步骤3.1:将状态s代入深度循环神经网络中进行前馈操作得到所有可行动作对应的预测Q值;
步骤3.2:将状态s在其四元组信息中对应的状态s’代入目标深度循环神经网络中进行前馈操作计算网络输出的最大值maxa'Q(s',a',w-),其中a’为状态s’代入目标深度循环神经网络后对应最大Q值的动作,w-为目标深度循环神经网络的权重;将状态s在其四元组信息中对应的动作a的动作值Q(s,a;w)更新为r+γmaxa'Q(s',a',w-),其中γ为折扣因子;
步骤3.3:根据深度循环神经网络和目标深度循环神经网络的输出构建损失函数为:
L(w)=Es,a,r,s'~D[(r+γmaxa'Q(s',a',w-)-Q(s,a,w))2]
其中E表示数学期望
步骤3.4:应用随机梯度下降方法进行深度循环神经网络和目标深度循环神经网络权重的迭代更新,其中深度循环神经网络中的权重实时更新,而目标深度循环神经网络中的权重每隔设定时间步进行更新;当达到迭代步数后,得到训练完成的深度循环神经网络;
步骤4:深度循环神经网络训练完成后,智能体将采集到的图像信息输入由场景解析网络和训练完成的深度循环神经网络组成的深度强化学习网络中,得到智能体的行走方向信息。
进一步的优选方案,所述一种深度强化学习的实时在线路径规划方法,其特征在于:步骤1中的场景解析网络包括卷积神经网络特征学习层,条件随机场结构化学习层,基于深度置信网络的特征融合层。
进一步的优选方案,所述一种深度强化学习的实时在线路径规划方法,其特征在于:根据步骤3,获得N个不同网络架构的深度循环神经网络模型,对于第i个模型,采用以下公式计算第i个模型的权重系数θi
其中Qij表示第i个模型在样本集D上训练时得到的平均回报;将N个深度循环神经网络模型融合,对于状态s的融合决策动作a为:
进一步的优选方案,所述一种深度强化学习的实时在线路径规划方法,其特征在于:根据计算机的处理能力,在步骤2之前对原始解析结果图进行灰度处理和降采样,然后输入到带初始权重的深度循环神经网络中。
有益效果
本发明提出的方法与诸多现有方法相比,最大的不同是根据视觉信息在智能体与环境进行交互的过程中完成路径规划,不需要完整的场景信息,仅仅根据智能体与环境的交互得到每步决策的回报进行优化学习。而且还可以运用迁移学习使本发明适用于不同的环境。本方法是直接根据视觉信息,通过场景解析网络生成语义层面的场景信息,然后再使用深度强化学习网络来学习决策信息,能够完成端到端的实时场景的路径规划。深度强化学习方法解决路径规划问题,方法设计合理,能够在不同场景下结合迁移学习实现准确的路径规划,适用性广泛。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1:系统流程图;
图2:场景解析网络结构示意图;
图3:特征学习层的基本原理图;
图4:结构学习层示意图;
图5:特征融合层示意图;
图6:深度循环网络结构示意图;
图7:加权融合模型示意图;
图8:仿真环境示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本实施例中的深度强化学习路径规划方法包括以下步骤:
步骤1:相机图像采集,然后将图像输入到场景解析网络中,得到对应的解析结果图。其中场景解析网络包括卷积神经网络特征学习层(Feature Learning Layers),条件随机场结构化学习层(Structural Learning Layer),基于深度置信网络的特征融合层(Feature Fusion Layers)。
步骤1.1:特征学习层(Feature Learning Layers):卷积神经网络对相机采集的图像进行特征学习,产生图像每个像素上对应的高层信息特征。该网络通过每一层的卷积操作和池化操作学习不同尺度的视觉表达,这说明该网络可以捕获到丰富的形状和纹理高层信息。这里将这些高层信息称作为深度高层特征(Deep Hierarchical Features,DHF)。
卷积神经网络(CNN)的训练是多步骤的,每一层的输入输出都叫做特征映射。本发明中,彩色图像被用作神经网络的输入,因此每一个特征映射看做一个二维阵列。每经过一层,输出特征映射被视作输入特征映射的进一步抽象。每一层包括三个部分:卷积操作,非线性变形,和特征池化。一个典型的卷积神经网络包含多个这样的层,最后利用Softmax分类器进行分类。
对于一个L层的卷积神经网络可以描述成一连串的卷积变换,非线性变换(sigmoid函数,tanh函数),降采样操作(池化操作)。对于输入图像I的网络可以被看成一个三维阵列。三个维度大小分别为特征映射的个数,映射的高度以及映射的宽度。从第lth步骤输出的特征可以用Fl来表示,对于每一层l,我们有:
Fl=pool(tanh(Wl*Fl-1+bl))
公式中l∈1,...,L,bl是第lth层的偏差参数,Wl是卷积核。初始化特征映射为输入图像F0=I。因此,每一层堆叠起来直到最后形成整个网络。
在本发明的模型中,Wl是卷积核,bl为训练参数。对于池化操作,本发明采用最大池化操作,即在邻域信息内找出最大的激活值作为输出,该方法能够对图像的变形具有不变性。一旦求得所有层的输出特征映射,我们利用上采样的方法将这些大小不一的特征映射统一到同样大小的尺寸,并且将其拼接在一起产生一个三维阵列N为特征映射的个数,H为图像的高度,W为图像的宽度。阵列F被看成高层特征描述符:
F=[up(F1),up(F2),...,up(FL)]
公式中up操作符是一个上采样操作函数,Nl为特征映射的个数或者是第lth的滤波核的个数。对于一个图像上的像素来说,它最后的特征描述为原则上,充分利用每层的输出可以参数更加强健的特征。但是,实际上一些层的输出信息是冗余的,反而降低计算效率和特征使用。因此在实际使用中我们仅仅选用几个层的输出去产生特征F。
不考虑邻域信息独立预测每个像素的标签,可能会由于噪音的影响而产生错误的预测判断。一个简单而有效的方法是将图像根据颜色等信息预归类到一起,形成像素块。本发明主要采用简单线性迭代聚类(Simple Linear Iterative Clustering,SLIC)算法对输入图像产生超像素块。使用超像素作为基本元素的优点有三个:(1)提高抗噪能力;(2)一张图像上像素的个数远比对应的超像素块多,因此用超像素块可以大大加快数据处理速度;(3)因为超像素块能够保存图像中物体的轮廓,有些区域的精确轮廓可以通过超像素块获得,这大大增加了图像场景解析的性能。
将图像超像素块分割后,每个像素块包含若干像素,我们通过计算像素块区域内所有像素的平均值,并将其作为该像素块的特征表示
步骤1.2:结构学习层(Structural Learning Layer):为了提高深度学习对结构化信息的学习能力,我们将CRF嵌入到网络里将其作为网络的一层去显示的学习物体在图像中的空间位置关系。用DHF作为输入训练该CRF图模型,参数训练完毕后,根据参数给出每个像素的最优化标签。然后结合产生的像素标签对局部区域编码产生基于空间关系的推理特征(Spatially Inferred Features,SIF);
尽管卷积神经网络(CNN)能够学习很好的特征包括高层信息,但是CNN学习得到的特征缺少充足的物体之间的空间结构化信息。为了弥补CNN的缺点,我们引入基于超像素块的条件随机场(CRF)模型去显示的学习图像中不同物体之间的空间位置信息,产生结构推理特征(Structural Inference Feature,SIF),结构学习的说明如图4所示。
根据输入图像的超像素块,我们定义图模型G=(V,E),顶点v∈V,边图像中的每一像素块可以看做一个顶点,相邻区域像素块之间的连接关系可以看做是边。一个包含两个端点vi和vj的边定义为eij。CRF的能量函数由单元项和双元项组成。能量函数定义如下:
我们定义单元项为:
ψ(ci,li)=exp(-αuci)
双元项为:
公式中ci是超像素块对应的初始分类概率,通过Softmax分类器计算得到。l是对应的类别。是vi和vj之间的特征距离。w是控制单元项和双元项之间的比重。该CRF模型用图割的方法进行优化。一旦CRF模型得到后,我们可以推理出每个超像素块所对应的概率 n是物体所属类别的个数。
为进一步提高特征的结构化邻域信息,根据上述求得的超像素块所对应的标签概率,我们提出了一种构建邻域信息的方法,大大增强了特征的空间信息。针对于超像素块u和它的局部连接关系图Gu=(Vu,Eu),基于空间推理的特征表达(Spatially InferredFeature,SIF)为:
公式中λ为归一化因子,d(vi,vj)是超像素块i和j之间的距离,kd是距离衰减系数,σd是图Gu结构中任何点之间的最大距离。最终的特征表示Θ是一个n×n的矩阵,该公式表达了邻域像素块对i和j出现的概率,并将其称作SIF。
步骤1.3:特征融合层(Feature Fusion Layer):以上两种特征有它们独自的优势。这层网络我们使用深度置信网络(Deep Belief Networks,DBNs)去融合DHF和SIF,有效的探索彼此之间的非线性关系从而生成更具表达力的高层特征。
一个输入图像经过特征学习层和结构学习的处理,会产生两种属性的特征DHFSp和SIFΘ。我们将这两种特征拼接起来然后用深度置信网络(Deep BeliefNetworks,DBNs)将两种基本特征融合起来,并探索特征维度之间丰富的非线性关系。特征融合层示意图如图所示。
深度置信网络由受限玻尔兹曼机层层堆叠而成,在训练该网络模型时,利用对比散度的方法对受限玻尔兹曼机进行无监督训练,一旦一层受限玻尔兹曼机训练完毕,将其输出作为下一层的输入进一步训练下一层的受限玻尔兹曼机。最后再利用无监督的反向传播算法对整个网络参数进行微调得到最优参数。参数训练完毕后,最后一层的输出被视为一种高表达力的特征。根据输入训练特征[Sp,Θ],经过深度置信网络的前向算法得到最后一层的特征输出特征,被称做“混合特征”。
原始的解析结果图像直接处理从计算机角度而言会非常耗时,所以我们采用基本的预处理步骤来减少维度。先将原始的RGB三色图像(210*160)转换为灰度图并降采样成110*84的图像,最后将输入图像截断成84*84像素大小,截取的图像区域大致覆盖主要的区域。
其中RGB转灰度图的过程我们使用Luminosity算法,Luminosity是均值方法中比较复杂的版本,它根据人类视觉感知能力对颜色加权。视觉对绿色更加敏感,所以绿色的权值会加大。公式如下:
像素值=0.21R+0.72G+0.07B
其中R指红色,G指绿色,B指蓝色。
步骤2:将预处理后的场景解析结果(当前状态s)输入到带初始权重的深度循环神经网络(deep recurrent Q-Network,即由卷积神经网络(CNN)和循环神经网络(RNN)构成)中,并做如下处理:
步骤2.1:存储历史经验,即我们将待规划的智能体(也称作agent)与环境进行交互的信息存储到经验回放存储器中。agent与获得环境当前状态,然后agent从可行的动作集中任意选择一个动作a,agent需要对这个动作(策略)进行评估,也就是当agent执行动作后遇到障碍物或不能通行的标记(需要传感器测量,例如超声传感器或红外传感器)时,我们给系统一个负标量信号(如-10)以示惩罚;或者当agent更加接近目的地亦或到达目的地时,我们给予系统一个正的标量信号(如+10)以示奖励。这里的奖励或惩罚我们叫做回报reward,用r表示。当agent执行动作后会使智能系统面对新的环境状态,这时候采集图像信息并进行步骤1以及预处理,即得到下一个状态s′
步骤2.2:上面只是一个时间步(time step)的处理过程,只要agent没有遇到障碍物或者到达目标位置,我们就一直采集四元组信息(s,a,r,s’)(当前输入的状态信息s、选择的动作a、执行动作后的下一个状态信息s’和环境反馈的奖励r)存储到初始好容量的经验回放存储器(replay memory)中,即采集足够的训练样本集。
步骤3:在经验回放存储器中按照所经过时间的概率表达1/exp(-t/δ2)随机采样训练过程中的四元组信息(s,a,r,s’),输入到我们设计的深度循环神经网络(deeprecurrent Q-Network)和目标深度循环神经网络(deep recurrent Q-Network)中,并做如下处理,其中初始时,深度循环神经网络和目标深度循环神经网络参数相同。
根据图6所示,我们的网络输入是单帧的经过与处理后的84*84像素大小的图像,而不是原始DQN算法中所需的连续四帧图像。第一个卷积层是由32个8*8大小的卷积核组成,并施加了非线性整流器(Relu);第二个卷积层包括64个4*4大小的卷积核组成,并且再次通过非线性整流单元;第三个卷积层由64个3*3大小的卷积核组成,随后是整流单元。然后将卷积层的输出馈送到全连接的循环网络层(LSTM layer)。最后,全连接的线性层为每个可能的动作输出对应的状态动作值Q。这里我们给出了两个时间步的示意图结构。
步骤3.1:将状态s代入深度循环神经网络中进行前馈操作得到所有可行动作对应的预测Q值;
步骤3.2:将状态s在其四元组信息中对应的状态s’代入目标深度循环神经网络中进行前馈操作计算网络输出的最大值maxa'Q(s',a',w-),其中a’为状态s’代入目标深度循环神经网络后,对应最大Q值的动作,w-为目标深度循环神经网络的权重。将将状态s的动作a的动作值Q(s,a;w)重新更新为r+γmaxa'Q(s',a',w-),其中γ为折扣因子。
步骤3.3:根据深度循环神经网络和目标深度循环神经网络的输出构建损失函数如下:
L(w)=Es,a,r,s'~D[(r+γmaxa'Q(s',a',w-)-Q(s,a,w))2]
步骤3.4:应用随机梯度下降(SGD)方法进行权重的迭代更新,深度循环神经网络中的权重实时更新,而目标深度循环神经网络中的权重每隔一定时间步进行更新,以便构建出有意义的,可用于优化网络权重的损失函数;当达到迭代步数后,得到训练完成深度循环神经网络;
步骤3.5:在训练过程中采样出不同的经验样本,用这些不同的样本训练出来的模型会导致在同一个状态的策略选择上有较大的不同。例如,如果当前时刻状态的最大化回报对应的动作是向左移动,并且agent持续偏向选择向左移动的话,这样训练数据中游戏画面的左侧会被更多的使用。如果左侧画面占据大量的训练样本,将对优化过程产生不良影响。
模型权重的微小扰动可能造成策略扫过的状态大不相同,而我们希望agent尽可能地收集多的训练数据用于训练,所以通过从大量的历史样本中采样样本并使用融合多个不同深度循环网络架构的深度强化学习模型(多个模型融合也是间接地将历史样本增加了)得到的决策方案来减缓这个现象。本发明中使用了多种不同网络架构的DRL模型进行融合,这些模型的网络结构可以有如下的不同点:
1卷积核大小、数量或者卷积步长不同;
2每层使用不同的激活函数,如sigmoid}maxout等;
3全连接层的层数或者节点数量不同。
对于每个模型i,我们赋予一个权重θi,计算方法如下:
其中Qij表示第i个模型在样本集D上训练时得到的平均回报,θi表示第i个模型的权重系数,N表示网络模型的个数。最后对于状态s的融合决策动作a为:
步骤4:网络参数训练完毕后,智能系统完成优化过程,然后我们将智能体上相机采集到的图像信息输入由场景解析网络和训练完成的深度循环神经网络组成的深度强化学习网络中,得到智能体的行走方向信息。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (4)

1.一种深度强化学习的实时在线路径规划方法,其特征在于:包括以下步骤:
步骤1:采集相机图像,将采集的图像输入到场景解析网络中,得到对应的解析结果图,所述解析结果图中,解析得到的属于同一类的物体采用同一颜色表示;
步骤2:将解析结果图输入到带初始权重的深度循环神经网络中,并做如下处理:
步骤2.1:采集待规划智能体与环境进行交互的历史经验,并存储在经验回放存储器中,所述历史经验为四元组信息(s,a,r,s’),s为当前状态,a为执行动作,r为对应动作a的回报值,s’为执行动作a后的下一个状态;所述历史经验的获取过程为:智能体根据当前状态s,从可行的动作集中任意选择一个动作a,智能体对动作a进行评估,如果智能体执行动作a后遇到障碍物或不能通行的标记,则给予惩罚值,如果智能体执行动作a后更加接近目的地或到达目的地时,则给予奖励值;智能体采集执行动作a后的环境图像,并输入到场景解析网络后,得到状态s’;
步骤2.2:持续采集待规划智能体与环境进行交互的历史经验,并存储到经验回放存储器中,得到训练样本集D;
步骤3:在经验回放存储器中随机采样四元组信息(s,a,r,s’),输入到深度循环神经网络和目标深度循环神经网络中,并做如下处理;其中初始时,深度循环神经网络和目标深度循环神经网络参数相同;
步骤3.1:将状态s代入深度循环神经网络中进行前馈操作得到所有可行动作对应的预测Q值;
步骤3.2:将状态s在其四元组信息中对应的状态s’代入目标深度循环神经网络中进行前馈操作计算网络输出的最大值maxa'Q(s',a',w-),其中a’为状态s’代入目标深度循环神经网络后对应最大Q值的动作,w-为目标深度循环神经网络的权重;将状态s在其四元组信息中对应的动作a的动作值Q(s,a;w)更新为r+γmaxa'Q(s',a',w-),其中γ为折扣因子;
步骤3.3:根据深度循环神经网络和目标深度循环神经网络的输出构建损失函数为:
L(w)=Es,a,r,s'~D(r+γmaxa'Q(s',a',w-)-Q(s,a,w))2]
其中E表示数学期望
步骤3.4:应用随机梯度下降方法进行深度循环神经网络和目标深度循环神经网络权重的迭代更新,其中深度循环神经网络中的权重实时更新,而目标深度循环神经网络中的权重每隔设定时间步进行更新;当达到迭代步数后,得到训练完成的深度循环神经网络;
步骤4:深度循环神经网络训练完成后,智能体将采集到的图像信息输入由场景解析网络和训练完成的深度循环神经网络组成的深度强化学习网络中,得到智能体的行走方向信息。
2.根据权利要求1所述一种深度强化学习的实时在线路径规划方法,其特征在于:步骤1中的场景解析网络包括卷积神经网络特征学习层,条件随机场结构化学习层,基于深度置信网络的特征融合层。
3.根据权利要求2所述一种深度强化学习的实时在线路径规划方法,其特征在于:根据步骤3,获得N个不同网络架构的深度循环神经网络模型,对于第i个模型,采用以下公式计算第i个模型的权重系数θi
θ i = Σ j = 1 D Q i j Σ i = 1 N Q i j
其中Qij表示第i个模型在样本集D上训练时得到的平均回报;将N个深度循环神经网络模型融合,对于状态s的融合决策动作a为:
a = argmax a { Σ i = 1 N Q ( s , a ; w ) * θ i } .
4.根据权利要求3所述一种深度强化学习的实时在线路径规划方法,其特征在于:根据计算机的处理能力,在步骤2之前对原始解析结果图进行灰度处理和降采样,然后输入到带初始权重的深度循环神经网络中。
CN201710167590.0A 2017-03-21 2017-03-21 一种深度强化学习的实时在线路径规划方法 Active CN106970615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710167590.0A CN106970615B (zh) 2017-03-21 2017-03-21 一种深度强化学习的实时在线路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710167590.0A CN106970615B (zh) 2017-03-21 2017-03-21 一种深度强化学习的实时在线路径规划方法

Publications (2)

Publication Number Publication Date
CN106970615A true CN106970615A (zh) 2017-07-21
CN106970615B CN106970615B (zh) 2019-10-22

Family

ID=59329401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710167590.0A Active CN106970615B (zh) 2017-03-21 2017-03-21 一种深度强化学习的实时在线路径规划方法

Country Status (1)

Country Link
CN (1) CN106970615B (zh)

Cited By (116)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107479547A (zh) * 2017-08-11 2017-12-15 同济大学 基于示教学习的决策树行为决策算法
CN107610235A (zh) * 2017-08-21 2018-01-19 北京精密机电控制设备研究所 一种基于深度学习的移动平台导航方法和装置
CN107633258A (zh) * 2017-08-21 2018-01-26 北京精密机电控制设备研究所 一种基于前馈特征提取的深度学习识别系统及方法
CN107703945A (zh) * 2017-10-30 2018-02-16 洛阳中科龙网创新科技有限公司 一种多目标融合的智能农用机械路径规划方法
CN107817798A (zh) * 2017-10-30 2018-03-20 洛阳中科龙网创新科技有限公司 一种基于深度学习系统的农用机械避障方法
CN108090443A (zh) * 2017-12-15 2018-05-29 华南理工大学 基于深度强化学习的场景文本检测方法及系统
CN108121347A (zh) * 2017-12-29 2018-06-05 北京三快在线科技有限公司 用于控制设备运动的方法、装置及电子设备
CN108255182A (zh) * 2018-01-30 2018-07-06 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
CN108288094A (zh) * 2018-01-31 2018-07-17 清华大学 基于环境状态预测的深度强化学习方法及装置
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN108375379A (zh) * 2018-02-01 2018-08-07 上海理工大学 基于变异的双重dqn的快速路径规划方法及移动机器人
CN108459614A (zh) * 2018-01-17 2018-08-28 哈尔滨工程大学 一种基于cw-rnn网络的uuv实时避碰规划方法
CN108536144A (zh) * 2018-04-10 2018-09-14 上海理工大学 一种融合稠密卷积网络和竞争架构的路径规划方法
CN108549928A (zh) * 2018-03-19 2018-09-18 清华大学 深度强化学习指导下基于连续移动的视觉跟踪方法及装置
CN108550162A (zh) * 2018-03-27 2018-09-18 清华大学 一种基于深度强化学习的物体检测方法
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
CN108614561A (zh) * 2018-05-31 2018-10-02 重庆大学 一种适用于全向轮移动机器人的人工势场避障方法
CN108647789A (zh) * 2018-05-15 2018-10-12 浙江大学 一种基于状态分布感知采样的智能体深度价值函数学习方法
CN108762281A (zh) * 2018-06-08 2018-11-06 哈尔滨工程大学 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法
CN108803313A (zh) * 2018-06-08 2018-11-13 哈尔滨工程大学 一种基于海流预测模型的路径规划方法
CN108804611A (zh) * 2018-05-30 2018-11-13 浙江大学 一种基于自我评论序列学习的对话回复生成方法及系统
CN108830376A (zh) * 2018-06-13 2018-11-16 中国科学技术大学 针对时间敏感的环境的多价值网络深度强化学习方法
CN108848561A (zh) * 2018-04-11 2018-11-20 湖北工业大学 一种基于深度强化学习的异构蜂窝网络联合优化方法
CN108897313A (zh) * 2018-05-23 2018-11-27 清华大学 一种分层式端到端车辆自动驾驶系统构建方法
CN108900594A (zh) * 2018-06-21 2018-11-27 中国联合网络通信集团有限公司 移动视频的优化方法、装置及系统
CN108984275A (zh) * 2018-08-27 2018-12-11 洛阳中科龙网创新科技有限公司 基于Unity3D和深度增强学习的智能无人农用驾驶训练方法
CN109059931A (zh) * 2018-09-05 2018-12-21 北京航空航天大学 一种基于多智能体强化学习的路径规划方法
CN109063823A (zh) * 2018-07-24 2018-12-21 北京工业大学 一种智能体探索3d迷宫的批a3c强化学习方法
CN109088452A (zh) * 2018-08-15 2018-12-25 深圳市烽焌信息科技有限公司 机器人充电方法及机器人
CN109189078A (zh) * 2018-10-31 2019-01-11 山东师范大学 基于深度增强学习的家用安全防护机器人及方法
CN109190720A (zh) * 2018-07-28 2019-01-11 深圳市商汤科技有限公司 智能体强化学习方法、装置、设备及介质
CN109190751A (zh) * 2018-07-19 2019-01-11 杭州电子科技大学 一种基于深度强化学习的机器自主决策方法
CN109213147A (zh) * 2018-08-01 2019-01-15 上海交通大学 一种基于深度学习的机器人避障轨迹规划方法及系统
CN109240280A (zh) * 2018-07-05 2019-01-18 上海交通大学 基于强化学习的锚泊辅助动力定位系统控制方法
CN109269518A (zh) * 2018-08-31 2019-01-25 北京航空航天大学 一种基于智能体的可移动装置有限空间路径生成方法
CN109298712A (zh) * 2018-10-19 2019-02-01 大连海事大学 一种基于自适应航行态势学习的无人驾驶船舶自主避碰决策方法
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN109447096A (zh) * 2018-04-13 2019-03-08 西安电子科技大学 一种基于机器学习的扫视路径预测方法和装置
CN109460015A (zh) * 2017-09-06 2019-03-12 通用汽车环球科技运作有限责任公司 用于自主驾驶应用的无监督学习代理
CN109523029A (zh) * 2018-09-28 2019-03-26 清华大学深圳研究生院 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法
CN109547505A (zh) * 2019-01-26 2019-03-29 福州大学 基于强化学习的多径tcp传输调度方法
CN109591012A (zh) * 2018-12-03 2019-04-09 深圳市越疆科技有限公司 加强学习方法、机器人和存储介质
CN109635917A (zh) * 2018-10-17 2019-04-16 北京大学 一种多智能体合作决策及训练方法
CN109682392A (zh) * 2018-12-28 2019-04-26 山东大学 基于深度强化学习的视觉导航方法及系统
CN109710741A (zh) * 2018-12-27 2019-05-03 中山大学 一种面向在线问答平台的基于深度强化学习的问题标注方法
CN109711529A (zh) * 2018-11-13 2019-05-03 中山大学 一种基于值迭代网络的跨领域联邦学习模型及方法
CN109741341A (zh) * 2018-12-20 2019-05-10 华东师范大学 一种基于超像素和长短时记忆网络的图像分割方法
CN109782600A (zh) * 2019-01-25 2019-05-21 东华大学 一种通过虚拟环境建立自主移动机器人导航系统的方法
CN109843401A (zh) * 2017-10-17 2019-06-04 腾讯科技(深圳)有限公司 一种ai对象行为模型优化方法以及装置
CN109871011A (zh) * 2019-01-15 2019-06-11 哈尔滨工业大学(深圳) 一种基于预处理层与深度强化学习的机器人导航方法
CN109936865A (zh) * 2018-06-30 2019-06-25 北京工业大学 一种基于深度强化学习算法的移动sink路径规划方法
CN110032359A (zh) * 2019-02-03 2019-07-19 清华大学 用于3d应用的模型获取方法及装置、介质及计算设备
CN110070239A (zh) * 2019-03-29 2019-07-30 北京航空航天大学 一种基于a星搜索和深度学习的个性化路线推荐方法
CN110108292A (zh) * 2019-06-12 2019-08-09 山东师范大学 车辆导航路径规划方法、系统、设备及介质
CN110136481A (zh) * 2018-09-20 2019-08-16 初速度(苏州)科技有限公司 一种基于深度强化学习的停车策略
CN110188263A (zh) * 2019-05-29 2019-08-30 国网山东省电力公司电力科学研究院 一种面向异构时距的科学研究热点预测方法及系统
CN110222824A (zh) * 2019-06-05 2019-09-10 中国科学院自动化研究所 智能算法模型自主生成及进化方法、系统、装置
CN110244701A (zh) * 2018-03-08 2019-09-17 通用汽车环球科技运作有限责任公司 用于基于自动生成的课程序列的自主车辆的强化学习的方法和装置
CN110278651A (zh) * 2018-03-14 2019-09-24 兰州大学 一种校准加速器束流偏移的强化学习方法
CN110314379A (zh) * 2018-03-29 2019-10-11 腾讯科技(深圳)有限公司 动作输出深度训练模型的学习方法及相关设备
CN110345959A (zh) * 2019-06-10 2019-10-18 同济人工智能研究院(苏州)有限公司 一种基于“门”点的路径规划方法
CN110390248A (zh) * 2018-04-23 2019-10-29 罗伯特·博世有限公司 用于操作技术系统的方法、设备、产品和计算机程序
CN110443412A (zh) * 2019-07-18 2019-11-12 华中科技大学 动态优化加工过程中物流调度及路径规划的强化学习方法
CN110458429A (zh) * 2019-07-29 2019-11-15 暨南大学 一种针对地理网点的智能任务分配和人员调度方法、系统
CN110471444A (zh) * 2019-08-19 2019-11-19 西安微电子技术研究所 基于自主学习的无人机智能避障方法
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110503661A (zh) * 2018-05-16 2019-11-26 武汉智云星达信息技术有限公司 一种基于深度强化学习和时空上下文的目标图像追踪方法
CN110515303A (zh) * 2019-09-17 2019-11-29 余姚市浙江大学机器人研究中心 一种基于ddqn的自适应动态路径规划方法
CN110514206A (zh) * 2019-08-02 2019-11-29 中国航空无线电电子研究所 一种基于深度学习的无人机飞行路径预测方法
CN110703766A (zh) * 2019-11-07 2020-01-17 南京航空航天大学 一种基于迁移学习策略深度q网络的无人机路径规划方法
CN110716574A (zh) * 2019-09-29 2020-01-21 哈尔滨工程大学 一种基于深度q网络的uuv实时避碰规划方法
CN110728368A (zh) * 2019-10-25 2020-01-24 中国人民解放军国防科技大学 一种仿真机器人深度强化学习的加速方法
CN110796266A (zh) * 2019-10-30 2020-02-14 深圳前海微众银行股份有限公司 基于公共信息的强化学习实现方法、设备及存储介质
CN110850861A (zh) * 2018-07-27 2020-02-28 通用汽车环球科技运作有限责任公司 基于注意的分层变道深度强化学习
CN110895876A (zh) * 2018-09-11 2020-03-20 深圳云天励飞技术有限公司 一种车辆监控方法、装置及存储介质
CN110989602A (zh) * 2019-12-12 2020-04-10 齐鲁工业大学 医学病理检验实验室内自主引导车路径规划方法及系统
CN111027143A (zh) * 2019-12-18 2020-04-17 四川大学 一种基于深度强化学习的舰载机进近引导方法
CN111123963A (zh) * 2019-12-19 2020-05-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法
CN111142557A (zh) * 2019-12-23 2020-05-12 清华大学 无人机路径规划方法、系统、计算机设备及可读存储介质
CN111260658A (zh) * 2020-01-10 2020-06-09 厦门大学 一种用于图像分割的新型深度强化学习算法
CN111309907A (zh) * 2020-02-10 2020-06-19 大连海事大学 一种基于深度强化学习的实时Bug分派方法
CN111352419A (zh) * 2020-02-25 2020-06-30 山东大学 基于时序差分更新经验回放缓存的路径规划方法及系统
CN111351489A (zh) * 2020-04-29 2020-06-30 金陵科技学院 一种基于CNN与改进A-Star算法的护理机器人路径规划方法
CN111444782A (zh) * 2020-03-10 2020-07-24 五邑大学 基于深度强化学习的道路目标检测方法、装置及存储介质
CN111566583A (zh) * 2019-10-04 2020-08-21 香港应用科技研究院有限公司 自适应路径规划的系统和方法
CN111587408A (zh) * 2018-01-12 2020-08-25 华为技术有限公司 机器人导航和对象跟踪
CN111753377A (zh) * 2020-07-06 2020-10-09 吉林大学 基于道路信息的纯电动汽车能耗最优路径规划方法
CN111949032A (zh) * 2020-08-18 2020-11-17 中国科学技术大学 一种基于强化学习的3d避障导航系统及方法
CN111972394A (zh) * 2020-06-11 2020-11-24 广东电网有限责任公司 一种基于dqn的超声波驱鸟最优频率的选择方法
CN112034887A (zh) * 2020-09-10 2020-12-04 南京大学 无人机躲避柱状障碍物到达目标点的最优路径训练方法
CN112101556A (zh) * 2020-08-25 2020-12-18 清华大学 识别与去除环境观测量中冗余信息的方法及装置
CN112136141A (zh) * 2018-03-23 2020-12-25 谷歌有限责任公司 基于自由形式自然语言输入控制机器人
CN112264999A (zh) * 2020-10-28 2021-01-26 复旦大学 用于智能体连续空间行动规划的方法、装置及存储介质
CN112327821A (zh) * 2020-07-08 2021-02-05 东莞市均谊视觉科技有限公司 一种基于深度强化学习的智能清洁机器人路径规划方法
CN112484733A (zh) * 2020-12-04 2021-03-12 东南大学 一种基于拓扑图的强化学习室内导航方法
CN112712159A (zh) * 2020-12-28 2021-04-27 广州市交通规划研究院 一种基于改进pso算法的lstm短时交通流预测方法
CN112766499A (zh) * 2021-02-02 2021-05-07 电子科技大学 一种通过强化学习技术实现无人机自主飞行的方法
CN112771542A (zh) * 2018-09-27 2021-05-07 渊慧科技有限公司 以学习的视觉实体为基础的强化学习神经网络
CN112815957A (zh) * 2020-12-31 2021-05-18 出门问问(武汉)信息科技有限公司 一种语音识别路径规划方法、系统及平台
CN113066111A (zh) * 2021-03-12 2021-07-02 北京工业大学 一种基于ct影像的心脏二尖瓣顶点的自动定位方法
WO2021135554A1 (zh) * 2019-12-31 2021-07-08 歌尔股份有限公司 一种无人车全局路径规划方法和装置
CN113110493A (zh) * 2021-05-07 2021-07-13 北京邮电大学 一种基于光子神经网络的路径规划设备及路径规划方法
CN113111296A (zh) * 2019-12-24 2021-07-13 浙江吉利汽车研究院有限公司 一种车辆的路径规划方法、装置、电子设备及存储介质
CN113139652A (zh) * 2020-01-17 2021-07-20 百度(美国)有限责任公司 用于自动车辆的神经任务规划器
CN113159430A (zh) * 2021-04-27 2021-07-23 广东电网有限责任公司清远供电局 一种路线规划方法、装置、设备及存储介质
CN113218400A (zh) * 2021-05-17 2021-08-06 太原科技大学 一种基于深度强化学习的多智能体导航算法
CN113232019A (zh) * 2021-05-13 2021-08-10 中国联合网络通信集团有限公司 机械臂控制方法、装置、电子设备及存储介质
CN113296500A (zh) * 2021-04-30 2021-08-24 浙江吉利控股集团有限公司 一种局部路径规划方法及系统
CN113359820A (zh) * 2021-05-28 2021-09-07 中国地质大学(武汉) 一种基于dqn的无人机路径规划方法
CN113420942A (zh) * 2021-07-19 2021-09-21 郑州大学 一种基于深度q学习的环卫车实时路线规划方法
CN113472419A (zh) * 2021-06-23 2021-10-01 西北工业大学 一种基于空基可重构智能表面的安全传输方法及系统
CN113781190A (zh) * 2021-01-13 2021-12-10 北京沃东天骏信息技术有限公司 账单数据的处理方法、系统、计算机系统和介质
CN114371717A (zh) * 2022-01-21 2022-04-19 厦门理工学院 一种用于茶叶修剪的绿篱机智能控制方法及系统
CN114745317A (zh) * 2022-02-09 2022-07-12 北京邮电大学 面向算力网络的计算任务调度方法及相关设备
CN114924587A (zh) * 2022-05-27 2022-08-19 江苏科技大学 一种无人机路径规划方法
CN116187611A (zh) * 2023-04-25 2023-05-30 南方科技大学 一种多智能体路径规划方法及终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117692A (zh) * 2015-08-05 2015-12-02 福州瑞芯微电子股份有限公司 一种基于深度学习的实时人脸识别方法及系统
CN105137967A (zh) * 2015-07-16 2015-12-09 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
WO2017004626A1 (en) * 2015-07-01 2017-01-05 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for providing reinforcement learning in a deep learning system
US9569736B1 (en) * 2015-09-16 2017-02-14 Siemens Healthcare Gmbh Intelligent medical image landmark detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017004626A1 (en) * 2015-07-01 2017-01-05 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for providing reinforcement learning in a deep learning system
CN105137967A (zh) * 2015-07-16 2015-12-09 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
CN105117692A (zh) * 2015-08-05 2015-12-02 福州瑞芯微电子股份有限公司 一种基于深度学习的实时人脸识别方法及系统
US9569736B1 (en) * 2015-09-16 2017-02-14 Siemens Healthcare Gmbh Intelligent medical image landmark detection

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BAILONG LIU等: "AUV Path Planning under Ocean Current based on Reinforcement Learning in Electronic Chart", 《2013 INTERNATIONAL CONFERENCE ON COMPUTATIONAL AND INFORMATION SCIENCES》 *
刘智斌等: "基于BP神经网络的双层启发式强化学习方法", 《计算机研究与发展》 *

Cited By (172)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107479547B (zh) * 2017-08-11 2020-11-24 同济大学 基于示教学习的决策树行为决策算法
CN107479547A (zh) * 2017-08-11 2017-12-15 同济大学 基于示教学习的决策树行为决策算法
CN107633258B (zh) * 2017-08-21 2020-04-10 北京精密机电控制设备研究所 一种基于前馈特征提取的深度学习识别系统及方法
CN107610235A (zh) * 2017-08-21 2018-01-19 北京精密机电控制设备研究所 一种基于深度学习的移动平台导航方法和装置
CN107633258A (zh) * 2017-08-21 2018-01-26 北京精密机电控制设备研究所 一种基于前馈特征提取的深度学习识别系统及方法
CN107610235B (zh) * 2017-08-21 2020-11-10 北京精密机电控制设备研究所 一种基于深度学习的移动平台导航方法和装置
CN109460015A (zh) * 2017-09-06 2019-03-12 通用汽车环球科技运作有限责任公司 用于自主驾驶应用的无监督学习代理
CN109460015B (zh) * 2017-09-06 2022-04-15 通用汽车环球科技运作有限责任公司 用于自主驾驶应用的无监督学习代理
CN109843401A (zh) * 2017-10-17 2019-06-04 腾讯科技(深圳)有限公司 一种ai对象行为模型优化方法以及装置
CN109843401B (zh) * 2017-10-17 2020-11-24 腾讯科技(深圳)有限公司 一种ai对象行为模型优化方法以及装置
CN107817798A (zh) * 2017-10-30 2018-03-20 洛阳中科龙网创新科技有限公司 一种基于深度学习系统的农用机械避障方法
CN107703945A (zh) * 2017-10-30 2018-02-16 洛阳中科龙网创新科技有限公司 一种多目标融合的智能农用机械路径规划方法
CN108090443A (zh) * 2017-12-15 2018-05-29 华南理工大学 基于深度强化学习的场景文本检测方法及系统
CN108090443B (zh) * 2017-12-15 2020-09-22 华南理工大学 基于深度强化学习的场景文本检测方法及系统
CN108121347A (zh) * 2017-12-29 2018-06-05 北京三快在线科技有限公司 用于控制设备运动的方法、装置及电子设备
CN111587408A (zh) * 2018-01-12 2020-08-25 华为技术有限公司 机器人导航和对象跟踪
CN111587408B (zh) * 2018-01-12 2022-07-12 华为技术有限公司 机器人导航和对象跟踪
CN108459614B (zh) * 2018-01-17 2020-12-04 哈尔滨工程大学 一种基于cw-rnn网络的uuv实时避碰规划方法
CN108459614A (zh) * 2018-01-17 2018-08-28 哈尔滨工程大学 一种基于cw-rnn网络的uuv实时避碰规划方法
CN108255182A (zh) * 2018-01-30 2018-07-06 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
CN108288094B (zh) * 2018-01-31 2021-06-29 清华大学 基于环境状态预测的深度强化学习方法及装置
CN108288094A (zh) * 2018-01-31 2018-07-17 清华大学 基于环境状态预测的深度强化学习方法及装置
CN108375379A (zh) * 2018-02-01 2018-08-07 上海理工大学 基于变异的双重dqn的快速路径规划方法及移动机器人
CN110244701A (zh) * 2018-03-08 2019-09-17 通用汽车环球科技运作有限责任公司 用于基于自动生成的课程序列的自主车辆的强化学习的方法和装置
CN108319286B (zh) * 2018-03-12 2020-09-22 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN110278651A (zh) * 2018-03-14 2019-09-24 兰州大学 一种校准加速器束流偏移的强化学习方法
CN108549928A (zh) * 2018-03-19 2018-09-18 清华大学 深度强化学习指导下基于连续移动的视觉跟踪方法及装置
CN108549928B (zh) * 2018-03-19 2020-09-25 清华大学 深度强化学习指导下基于连续移动的视觉跟踪方法及装置
CN112136141A (zh) * 2018-03-23 2020-12-25 谷歌有限责任公司 基于自由形式自然语言输入控制机器人
CN108550162A (zh) * 2018-03-27 2018-09-18 清华大学 一种基于深度强化学习的物体检测方法
CN110314379A (zh) * 2018-03-29 2019-10-11 腾讯科技(深圳)有限公司 动作输出深度训练模型的学习方法及相关设备
CN108536144A (zh) * 2018-04-10 2018-09-14 上海理工大学 一种融合稠密卷积网络和竞争架构的路径规划方法
CN108848561A (zh) * 2018-04-11 2018-11-20 湖北工业大学 一种基于深度强化学习的异构蜂窝网络联合优化方法
CN109447096A (zh) * 2018-04-13 2019-03-08 西安电子科技大学 一种基于机器学习的扫视路径预测方法和装置
CN110390248A (zh) * 2018-04-23 2019-10-29 罗伯特·博世有限公司 用于操作技术系统的方法、设备、产品和计算机程序
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
CN108647789B (zh) * 2018-05-15 2022-04-19 浙江大学 一种基于状态分布感知采样的智能体深度价值函数学习方法
CN108647789A (zh) * 2018-05-15 2018-10-12 浙江大学 一种基于状态分布感知采样的智能体深度价值函数学习方法
CN110503661A (zh) * 2018-05-16 2019-11-26 武汉智云星达信息技术有限公司 一种基于深度强化学习和时空上下文的目标图像追踪方法
CN108897313A (zh) * 2018-05-23 2018-11-27 清华大学 一种分层式端到端车辆自动驾驶系统构建方法
CN108804611A (zh) * 2018-05-30 2018-11-13 浙江大学 一种基于自我评论序列学习的对话回复生成方法及系统
CN108614561A (zh) * 2018-05-31 2018-10-02 重庆大学 一种适用于全向轮移动机器人的人工势场避障方法
CN108762281A (zh) * 2018-06-08 2018-11-06 哈尔滨工程大学 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法
CN108803313B (zh) * 2018-06-08 2022-07-12 哈尔滨工程大学 一种基于海流预测模型的路径规划方法
CN108803313A (zh) * 2018-06-08 2018-11-13 哈尔滨工程大学 一种基于海流预测模型的路径规划方法
CN108830376A (zh) * 2018-06-13 2018-11-16 中国科学技术大学 针对时间敏感的环境的多价值网络深度强化学习方法
CN108830376B (zh) * 2018-06-13 2021-12-14 中国科学技术大学 针对时间敏感的环境的多价值网络深度强化学习方法
CN108900594A (zh) * 2018-06-21 2018-11-27 中国联合网络通信集团有限公司 移动视频的优化方法、装置及系统
CN108900594B (zh) * 2018-06-21 2021-03-19 中国联合网络通信集团有限公司 移动视频的优化方法、装置及系统
CN109936865A (zh) * 2018-06-30 2019-06-25 北京工业大学 一种基于深度强化学习算法的移动sink路径规划方法
CN109936865B (zh) * 2018-06-30 2021-01-15 北京工业大学 一种基于深度强化学习算法的移动sink路径规划方法
CN109240280B (zh) * 2018-07-05 2021-09-07 上海交通大学 基于强化学习的锚泊辅助动力定位系统控制方法
CN109240280A (zh) * 2018-07-05 2019-01-18 上海交通大学 基于强化学习的锚泊辅助动力定位系统控制方法
CN109190751B (zh) * 2018-07-19 2020-12-22 杭州电子科技大学 一种基于深度强化学习的机器自主决策方法
CN109190751A (zh) * 2018-07-19 2019-01-11 杭州电子科技大学 一种基于深度强化学习的机器自主决策方法
CN109063823A (zh) * 2018-07-24 2018-12-21 北京工业大学 一种智能体探索3d迷宫的批a3c强化学习方法
CN110850861A (zh) * 2018-07-27 2020-02-28 通用汽车环球科技运作有限责任公司 基于注意的分层变道深度强化学习
CN110850861B (zh) * 2018-07-27 2023-05-23 通用汽车环球科技运作有限责任公司 基于注意的分层变道深度强化学习
CN109190720B (zh) * 2018-07-28 2021-08-06 深圳市商汤科技有限公司 智能体强化学习方法、装置、设备及介质
CN109190720A (zh) * 2018-07-28 2019-01-11 深圳市商汤科技有限公司 智能体强化学习方法、装置、设备及介质
WO2020024791A1 (zh) * 2018-07-28 2020-02-06 深圳市商汤科技有限公司 智能体强化学习方法、装置、设备及介质
CN109213147A (zh) * 2018-08-01 2019-01-15 上海交通大学 一种基于深度学习的机器人避障轨迹规划方法及系统
CN109088452B (zh) * 2018-08-15 2021-12-28 中用科技有限公司 机器人充电方法及机器人
CN109088452A (zh) * 2018-08-15 2018-12-25 深圳市烽焌信息科技有限公司 机器人充电方法及机器人
CN108984275A (zh) * 2018-08-27 2018-12-11 洛阳中科龙网创新科技有限公司 基于Unity3D和深度增强学习的智能无人农用驾驶训练方法
CN109269518B (zh) * 2018-08-31 2022-01-11 北京航空航天大学 一种基于智能体的可移动装置有限空间路径生成方法
CN109269518A (zh) * 2018-08-31 2019-01-25 北京航空航天大学 一种基于智能体的可移动装置有限空间路径生成方法
CN109059931A (zh) * 2018-09-05 2018-12-21 北京航空航天大学 一种基于多智能体强化学习的路径规划方法
CN110895876B (zh) * 2018-09-11 2021-07-20 深圳云天励飞技术有限公司 一种车辆监控方法、装置及存储介质
CN110895876A (zh) * 2018-09-11 2020-03-20 深圳云天励飞技术有限公司 一种车辆监控方法、装置及存储介质
CN110136481B (zh) * 2018-09-20 2021-02-02 初速度(苏州)科技有限公司 一种基于深度强化学习的停车策略
CN110136481A (zh) * 2018-09-20 2019-08-16 初速度(苏州)科技有限公司 一种基于深度强化学习的停车策略
CN112771542B (zh) * 2018-09-27 2024-03-05 渊慧科技有限公司 以学习的视觉实体为基础的强化学习神经网络
CN112771542A (zh) * 2018-09-27 2021-05-07 渊慧科技有限公司 以学习的视觉实体为基础的强化学习神经网络
CN109523029A (zh) * 2018-09-28 2019-03-26 清华大学深圳研究生院 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法
CN109523029B (zh) * 2018-09-28 2020-11-03 清华大学深圳研究生院 自适应双自驱动深度确定性策略梯度强化学习方法
US11461654B2 (en) 2018-10-17 2022-10-04 Peking University Multi-agent cooperation decision-making and training method
CN109635917B (zh) * 2018-10-17 2020-08-25 北京大学 一种多智能体合作决策及训练方法
CN109635917A (zh) * 2018-10-17 2019-04-16 北京大学 一种多智能体合作决策及训练方法
CN109298712A (zh) * 2018-10-19 2019-02-01 大连海事大学 一种基于自适应航行态势学习的无人驾驶船舶自主避碰决策方法
CN109189078A (zh) * 2018-10-31 2019-01-11 山东师范大学 基于深度增强学习的家用安全防护机器人及方法
CN109711529B (zh) * 2018-11-13 2022-11-08 中山大学 一种基于值迭代网络的跨领域联邦学习模型及方法
CN109711529A (zh) * 2018-11-13 2019-05-03 中山大学 一种基于值迭代网络的跨领域联邦学习模型及方法
CN109591012B (zh) * 2018-12-03 2022-03-29 日照市越疆智能科技有限公司 加强学习方法、机器人和存储介质
CN109591012A (zh) * 2018-12-03 2019-04-09 深圳市越疆科技有限公司 加强学习方法、机器人和存储介质
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN109741341B (zh) * 2018-12-20 2022-11-01 华东师范大学 一种基于超像素和长短时记忆网络的图像分割方法
CN109741341A (zh) * 2018-12-20 2019-05-10 华东师范大学 一种基于超像素和长短时记忆网络的图像分割方法
CN109710741A (zh) * 2018-12-27 2019-05-03 中山大学 一种面向在线问答平台的基于深度强化学习的问题标注方法
CN109682392A (zh) * 2018-12-28 2019-04-26 山东大学 基于深度强化学习的视觉导航方法及系统
CN109682392B (zh) * 2018-12-28 2020-09-01 山东大学 基于深度强化学习的视觉导航方法及系统
CN109871011A (zh) * 2019-01-15 2019-06-11 哈尔滨工业大学(深圳) 一种基于预处理层与深度强化学习的机器人导航方法
CN109782600A (zh) * 2019-01-25 2019-05-21 东华大学 一种通过虚拟环境建立自主移动机器人导航系统的方法
CN109547505A (zh) * 2019-01-26 2019-03-29 福州大学 基于强化学习的多径tcp传输调度方法
CN109547505B (zh) * 2019-01-26 2021-05-18 福州大学 基于强化学习的多径tcp传输调度方法
CN110032359B (zh) * 2019-02-03 2021-06-11 清华大学 用于3d应用的模型获取方法及装置、介质及计算设备
CN110032359A (zh) * 2019-02-03 2019-07-19 清华大学 用于3d应用的模型获取方法及装置、介质及计算设备
CN110070239A (zh) * 2019-03-29 2019-07-30 北京航空航天大学 一种基于a星搜索和深度学习的个性化路线推荐方法
CN110070239B (zh) * 2019-03-29 2021-05-11 北京航空航天大学 一种基于a星搜索和深度学习的个性化路线推荐方法
CN110188263A (zh) * 2019-05-29 2019-08-30 国网山东省电力公司电力科学研究院 一种面向异构时距的科学研究热点预测方法及系统
CN110222824A (zh) * 2019-06-05 2019-09-10 中国科学院自动化研究所 智能算法模型自主生成及进化方法、系统、装置
CN110345959B (zh) * 2019-06-10 2023-11-03 同济人工智能研究院(苏州)有限公司 一种基于“门”点的路径规划方法
CN110345959A (zh) * 2019-06-10 2019-10-18 同济人工智能研究院(苏州)有限公司 一种基于“门”点的路径规划方法
CN110108292A (zh) * 2019-06-12 2019-08-09 山东师范大学 车辆导航路径规划方法、系统、设备及介质
CN110443412A (zh) * 2019-07-18 2019-11-12 华中科技大学 动态优化加工过程中物流调度及路径规划的强化学习方法
CN110458429A (zh) * 2019-07-29 2019-11-15 暨南大学 一种针对地理网点的智能任务分配和人员调度方法、系统
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110514206B (zh) * 2019-08-02 2023-08-04 中国航空无线电电子研究所 一种基于深度学习的无人机飞行路径预测方法
CN110514206A (zh) * 2019-08-02 2019-11-29 中国航空无线电电子研究所 一种基于深度学习的无人机飞行路径预测方法
CN110471444B (zh) * 2019-08-19 2022-07-12 西安微电子技术研究所 基于自主学习的无人机智能避障方法
CN110471444A (zh) * 2019-08-19 2019-11-19 西安微电子技术研究所 基于自主学习的无人机智能避障方法
CN110515303B (zh) * 2019-09-17 2022-09-09 余姚市浙江大学机器人研究中心 一种基于ddqn的自适应动态路径规划方法
CN110515303A (zh) * 2019-09-17 2019-11-29 余姚市浙江大学机器人研究中心 一种基于ddqn的自适应动态路径规划方法
CN110716574B (zh) * 2019-09-29 2023-05-02 哈尔滨工程大学 一种基于深度q网络的uuv实时避碰规划方法
CN110716574A (zh) * 2019-09-29 2020-01-21 哈尔滨工程大学 一种基于深度q网络的uuv实时避碰规划方法
CN111566583A (zh) * 2019-10-04 2020-08-21 香港应用科技研究院有限公司 自适应路径规划的系统和方法
CN110728368B (zh) * 2019-10-25 2022-03-15 中国人民解放军国防科技大学 一种仿真机器人深度强化学习的加速方法
CN110728368A (zh) * 2019-10-25 2020-01-24 中国人民解放军国防科技大学 一种仿真机器人深度强化学习的加速方法
CN110796266B (zh) * 2019-10-30 2021-06-15 深圳前海微众银行股份有限公司 基于公共信息的强化学习实现方法、设备及存储介质
CN110796266A (zh) * 2019-10-30 2020-02-14 深圳前海微众银行股份有限公司 基于公共信息的强化学习实现方法、设备及存储介质
CN110703766A (zh) * 2019-11-07 2020-01-17 南京航空航天大学 一种基于迁移学习策略深度q网络的无人机路径规划方法
CN110703766B (zh) * 2019-11-07 2022-01-11 南京航空航天大学 一种基于迁移学习策略深度q网络的无人机路径规划方法
CN110989602A (zh) * 2019-12-12 2020-04-10 齐鲁工业大学 医学病理检验实验室内自主引导车路径规划方法及系统
CN110989602B (zh) * 2019-12-12 2023-12-26 齐鲁工业大学 医学病理检验实验室内自主引导车路径规划方法及系统
CN111027143A (zh) * 2019-12-18 2020-04-17 四川大学 一种基于深度强化学习的舰载机进近引导方法
CN111123963A (zh) * 2019-12-19 2020-05-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法
CN111142557A (zh) * 2019-12-23 2020-05-12 清华大学 无人机路径规划方法、系统、计算机设备及可读存储介质
CN113111296A (zh) * 2019-12-24 2021-07-13 浙江吉利汽车研究院有限公司 一种车辆的路径规划方法、装置、电子设备及存储介质
US11747155B2 (en) 2019-12-31 2023-09-05 Goertek Inc. Global path planning method and device for an unmanned vehicle
WO2021135554A1 (zh) * 2019-12-31 2021-07-08 歌尔股份有限公司 一种无人车全局路径规划方法和装置
CN111260658B (zh) * 2020-01-10 2023-10-17 厦门大学 一种用于图像分割的深度强化学习方法
CN111260658A (zh) * 2020-01-10 2020-06-09 厦门大学 一种用于图像分割的新型深度强化学习算法
CN113139652A (zh) * 2020-01-17 2021-07-20 百度(美国)有限责任公司 用于自动车辆的神经任务规划器
CN111309907A (zh) * 2020-02-10 2020-06-19 大连海事大学 一种基于深度强化学习的实时Bug分派方法
CN111352419A (zh) * 2020-02-25 2020-06-30 山东大学 基于时序差分更新经验回放缓存的路径规划方法及系统
CN111444782B (zh) * 2020-03-10 2023-06-16 五邑大学 基于深度强化学习的道路目标检测方法、装置及存储介质
CN111444782A (zh) * 2020-03-10 2020-07-24 五邑大学 基于深度强化学习的道路目标检测方法、装置及存储介质
CN111351489A (zh) * 2020-04-29 2020-06-30 金陵科技学院 一种基于CNN与改进A-Star算法的护理机器人路径规划方法
CN111972394A (zh) * 2020-06-11 2020-11-24 广东电网有限责任公司 一种基于dqn的超声波驱鸟最优频率的选择方法
CN111753377A (zh) * 2020-07-06 2020-10-09 吉林大学 基于道路信息的纯电动汽车能耗最优路径规划方法
CN111753377B (zh) * 2020-07-06 2022-09-30 吉林大学 基于道路信息的纯电动汽车能耗最优路径规划方法
CN112327821A (zh) * 2020-07-08 2021-02-05 东莞市均谊视觉科技有限公司 一种基于深度强化学习的智能清洁机器人路径规划方法
CN111949032A (zh) * 2020-08-18 2020-11-17 中国科学技术大学 一种基于强化学习的3d避障导航系统及方法
CN112101556A (zh) * 2020-08-25 2020-12-18 清华大学 识别与去除环境观测量中冗余信息的方法及装置
CN112101556B (zh) * 2020-08-25 2021-08-10 清华大学 识别与去除环境观测量中冗余信息的方法及装置
CN112034887A (zh) * 2020-09-10 2020-12-04 南京大学 无人机躲避柱状障碍物到达目标点的最优路径训练方法
CN112264999A (zh) * 2020-10-28 2021-01-26 复旦大学 用于智能体连续空间行动规划的方法、装置及存储介质
CN112484733A (zh) * 2020-12-04 2021-03-12 东南大学 一种基于拓扑图的强化学习室内导航方法
CN112712159A (zh) * 2020-12-28 2021-04-27 广州市交通规划研究院 一种基于改进pso算法的lstm短时交通流预测方法
CN112815957A (zh) * 2020-12-31 2021-05-18 出门问问(武汉)信息科技有限公司 一种语音识别路径规划方法、系统及平台
CN113781190A (zh) * 2021-01-13 2021-12-10 北京沃东天骏信息技术有限公司 账单数据的处理方法、系统、计算机系统和介质
CN112766499A (zh) * 2021-02-02 2021-05-07 电子科技大学 一种通过强化学习技术实现无人机自主飞行的方法
CN113066111B (zh) * 2021-03-12 2024-03-01 北京工业大学 一种基于ct影像的心脏二尖瓣顶点的自动定位方法
CN113066111A (zh) * 2021-03-12 2021-07-02 北京工业大学 一种基于ct影像的心脏二尖瓣顶点的自动定位方法
CN113159430A (zh) * 2021-04-27 2021-07-23 广东电网有限责任公司清远供电局 一种路线规划方法、装置、设备及存储介质
CN113296500A (zh) * 2021-04-30 2021-08-24 浙江吉利控股集团有限公司 一种局部路径规划方法及系统
CN113110493A (zh) * 2021-05-07 2021-07-13 北京邮电大学 一种基于光子神经网络的路径规划设备及路径规划方法
CN113232019A (zh) * 2021-05-13 2021-08-10 中国联合网络通信集团有限公司 机械臂控制方法、装置、电子设备及存储介质
CN113218400B (zh) * 2021-05-17 2022-04-19 太原科技大学 一种基于深度强化学习的多智能体导航算法
CN113218400A (zh) * 2021-05-17 2021-08-06 太原科技大学 一种基于深度强化学习的多智能体导航算法
CN113359820A (zh) * 2021-05-28 2021-09-07 中国地质大学(武汉) 一种基于dqn的无人机路径规划方法
CN113472419A (zh) * 2021-06-23 2021-10-01 西北工业大学 一种基于空基可重构智能表面的安全传输方法及系统
CN113420942B (zh) * 2021-07-19 2023-04-25 郑州大学 一种基于深度q学习的环卫车实时路线规划方法
CN113420942A (zh) * 2021-07-19 2021-09-21 郑州大学 一种基于深度q学习的环卫车实时路线规划方法
CN114371717B (zh) * 2022-01-21 2023-04-25 厦门理工学院 一种用于茶叶修剪的绿篱机智能控制方法及系统
CN114371717A (zh) * 2022-01-21 2022-04-19 厦门理工学院 一种用于茶叶修剪的绿篱机智能控制方法及系统
CN114745317B (zh) * 2022-02-09 2023-02-07 北京邮电大学 面向算力网络的计算任务调度方法及相关设备
CN114745317A (zh) * 2022-02-09 2022-07-12 北京邮电大学 面向算力网络的计算任务调度方法及相关设备
CN114924587A (zh) * 2022-05-27 2022-08-19 江苏科技大学 一种无人机路径规划方法
CN114924587B (zh) * 2022-05-27 2024-03-19 江苏科技大学 一种无人机路径规划方法
CN116187611A (zh) * 2023-04-25 2023-05-30 南方科技大学 一种多智能体路径规划方法及终端

Also Published As

Publication number Publication date
CN106970615B (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
CN106970615B (zh) 一种深度强化学习的实时在线路径规划方法
Liu et al. 3DCNN-DQN-RNN: A deep reinforcement learning framework for semantic parsing of large-scale 3D point clouds
CN109887282B (zh) 一种基于层级时序图卷积网络的路网交通流预测方法
WO2021043193A1 (zh) 神经网络结构的搜索方法、图像处理方法和装置
CN107818302A (zh) 基于卷积神经网络的非刚性多尺度物体检测方法
CN106845499A (zh) 一种基于自然语言语义的图像目标检测方法
CN109597087A (zh) 一种基于点云数据的3d目标检测方法
Chen et al. Vehicle trajectory prediction based on intention-aware non-autoregressive transformer with multi-attention learning for Internet of Vehicles
CN110096950A (zh) 一种基于关键帧的多特征融合行为识别方法
CN110110599B (zh) 一种基于多尺度特征融合的遥感图像目标检测方法
CN104217214A (zh) 基于可配置卷积神经网络的rgb-d人物行为识别方法
CN106096729A (zh) 一种面向大规模环境中复杂任务的深度策略学习方法
CN104463191A (zh) 一种基于注意机制的机器人视觉处理方法
CN110874578A (zh) 一种基于强化学习的无人机视角车辆识别追踪方法
CN111881802B (zh) 基于双分支时空图卷积网络的交警手势识别方法
WO2022007867A1 (zh) 神经网络的构建方法和装置
CN107833239A (zh) 一种基于加权模型约束的寻优匹配目标跟踪方法
Dong et al. Image transformer for explainable autonomous driving system
CN108536144A (zh) 一种融合稠密卷积网络和竞争架构的路径规划方法
CN114463837A (zh) 基于自适应时空卷积网络的人体行为识别方法及系统
CN114997067A (zh) 一种基于时空图与空域聚合Transformer网络的轨迹预测方法
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
CN114973125A (zh) 智能导航场景中利用知识图谱辅助导航的方法及系统
Liu et al. Data augmentation technology driven by image style transfer in self-driving car based on end-to-end learning
Zhu et al. Tri-HGNN: Learning triple policies fused hierarchical graph neural networks for pedestrian trajectory prediction

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant