CN108594804B - 基于深度q网络配送小车的自动行驶控制方法 - Google Patents
基于深度q网络配送小车的自动行驶控制方法 Download PDFInfo
- Publication number
- CN108594804B CN108594804B CN201810199115.6A CN201810199115A CN108594804B CN 108594804 B CN108594804 B CN 108594804B CN 201810199115 A CN201810199115 A CN 201810199115A CN 108594804 B CN108594804 B CN 108594804B
- Authority
- CN
- China
- Prior art keywords
- information
- action
- network
- state
- current value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000009471 action Effects 0.000 claims abstract description 68
- 230000007613 environmental effect Effects 0.000 claims abstract description 26
- 230000002787 reinforcement Effects 0.000 claims abstract description 13
- 230000033001 locomotion Effects 0.000 claims abstract description 5
- 230000026676 system process Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 16
- 230000000007 visual effect Effects 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000001133 acceleration Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 230000002093 peripheral effect Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 9
- 238000005457 optimization Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于深度Q网络配送小车的自动行驶控制方法,其特征在于:包括传感系统、控制系统、驱动系统及电力系统,所述传感系统采集环境信息和电力系统信息,并将环境信息和电力系统信息传入控制系统,所述控制系统根据接收到的信息通过自我学习控制方法来处理,控制配送小车的运动状态。本发明通过在无人控制小车的控制系统中采用有安全距离的深度强化学习优化方法,处理来自传感系统获取的环境信息,然后选择合适的行动,并利用传感系统传递控制系统的控制信号到驱动系统,使无人控制小车执行对应的行动来适应千变万化的道路环境。
Description
技术领域
本发明属于人工智能以及控制技术领域,尤其涉及一种基于深度Q网络配送小车的自动行驶控制方法,可以进行自我学习,完成对无人控制小车的控制。
背景技术
近年来,随着社会生活方法的变化,各类物流公司承接配送的物品量越来越多。传统物流公司的主要工作流程是:物流到达目的城市后,快递配送员人工配送至最终目的地。然而,随着物流业务量越来越多,配送的时间要求越来越短,快递配送员承担的任务也越来越沉重,增加快递配送员又会增加物流公司的人工成本。此外,人工送达快递方式存在着出错率高、送达时间不稳定等问题。这些现实问题催生了对物流“最后一公里”的配送方式的研究。
随着人工智能的发展,包括无人驾驶汽车在内的各类智能自动控制设备在社会生活的各领域得到了广泛的应用。使用无人控制的自动行驶小车,完成物流最后的配送环节,有效缓解快递配送员人手不足的问题,并减少出错率,显得尤为有价值。而在现实环境中的复杂道路环境,如何保证自动行驶的配送小车在行驶过程中的安全性无疑是首要考虑目标。由于道路交通环境复杂、多变,无法预先设定,因此需要无人控制的配送小车具有自主学习能力,通过与外界环境交互而进行学习,随着道路环境的变化改变行进策略。目前的无人控制小车主要采用雷达传感器等方式测量汽车与障碍物之间的距离,该控制方法成本较高,使之很难在无人驾驶的配送小车上大面积推广。
发明内容
本发明目的是:提供一种基于深度Q网络配送小车的自动行驶控制方法,通过对控制方法的改良,通过自我学习能够更快的适应新的环境,保证策略更新的有效性,实现自动驾驶,并在其过程中能够充分利用之前经验有效处理问题。
本发明的技术方案是:一种基于深度Q网络配送小车的自动行驶控制方法,包括传感系统、控制系统、驱动系统及电力系统,所述传感系统采集环境信息和电力系统信息,并将环境信息和电力系统信息传入控制系统,所述控制系统根据接收到的信息通过自我学习控制方法来处理,再由传感系统接收控制信息后控制配送小车的运动状态,其自我学习控制方法包括如下步骤:
⑴通过传感系统获取环境信息,包括视觉环境信息和非视觉信息;
⑵根据所述步骤⑴中获取的环境信息,初始化神经网络参数,包括环境状态信息和奖赏信息,并初始化强化学习算法的各项参数;
⑶对周边环境反馈的图像信息进行处理,通过数字化处理将图像信息处理为灰度图像,使用深度卷积网络进行特征提取和训练,将高维度的环境视觉信息转换成低纬度的特征信息,低维度特征信息与所述非视觉信息作为当前值网络和目标值网络的输入状态st;
⑷在状态st下,根据当前值网络利用强化学习算法中的动作值函数Q(s,a)计算获得行动at,配送小车执行行动at后,获得新的环境状态st+1和立即奖赏rt;
⑸更新当前值网络和目标值网络的参数,采用随机小批量梯度下降更新方式更新参数;
所述当前值网络损失函数计算方式:其中表示下一个状态下的状态动作值,Q(s,a;θi)为当前状态下的状态动作值,γ为回报函数的折扣因子,γ(0≤γ≤1),E()为梯度下降算法中的损失函数,r为立即奖赏值,θ表示网络参数;
所述目标值网络在每执行N步后更新为当前值网络的值;
⑹查看是否满足学习终止条件,若不满足,则返回到步骤4继续循环,否则结束;所述学习终止条件为完成配送任务,或完成设定步数。
上述技术方案中,在所述步骤⑷中,设置经验池E,该经验池E中存放内容为:根据动作值函数Q(s,a)选择动作并执行,将当前状态s、动作a、执行动作所获得立即奖赏r和到达的下一个状态s′作为一个元组保存到经验池E中,并重复上述步骤三~五万步,均存放于经验池E中,所述步骤⑸中的更新当前值网络和目标值网络的参数,需从经验池E中进行采样。
进一步的技术方案是,所述经验池E中还包括一碰撞经验池E2,该碰撞经验池E2中填充内容为:从经验池E中随机抽取四个样本,将其状态s作为当前值网络的第一层隐藏层的输入,由当前值网络输出动作值函数Q(s,a),并根据动作值函数选择所采取的动作at,若在碰撞经验池E2中已经存在(s,a),则在其余动作中重新选择动作at;配送小车执行动作at后,获得新的环境状态st+1和立即奖赏rt,并通过当前值网络损失函数更新当前值网络的参数,若配送小车状态为碰撞到杂物状态,则将该状态前X帧的动作值保存至碰撞经验池E2内,所述步骤⑸中的采样样本从碰撞经验池E2中选取。
上述技术方案中,所述当前值网络由三层卷积神经网络和一层全连接层组成,激活函数为relu函数;用于处理经过传感系统处理得到的图像信息,其中卷积神经网络提取图像特征后通过激活函数relu输出动作值函数Q(s,a),并根据动作值函数Q(s,a)用ε-Greedy贪心策略选择动作a。
上述技术方案中,状态S表示为:传感系统感知的环境状态,是配送小车视野内的道路环境信息和其它道路周边信息;
行动a表示为:在当前状态下可以执行的操作集合,包括控制配送小车的加速、减速和转弯;
立即奖赏r是:在当前状态下配送小车所采取的行动的评价,若配送小车执行动作后依然在道路上且未被磕碰,则给一个+1的奖赏;若配送小车在行进过程中撞到了其他障碍物,则给一个-1000的奖赏。
本发明的优点是:
1、本发明中配送小车与道路环境的交互,通过强化学习方法的计算,获得配送小车在不同环境下的行驶策略,以使配送小车能够自主适应千变万化的道路环境;
2、通过在配送小车的控制系统中采用有安全距离的深度强化学习优化方法(设置碰撞经验池E2),处理来自传感系统获取的环境信息,然后选择合适的行动,充分考虑了安全性,有效避免训练和应用过程中出现的配送小车损耗,并加快训练过程;
3、本发明能够有效处理具有连续动作空间的控制问题;
4、本发明中的配送小通过充分训练后,可适应在各类复杂场景中的应用。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1是本发明实施例一中配送小车的信息传送结构框图;
图2是本发明实施例一中有安全距离的强化学习控制器结构框图;
图3是本发明实施例一中深度Q网络结构示意图。
具体实施方式
下面结合附图及实施例对本发明作进一步描述:
实施例:参见附图1~3所示,一种基于深度Q网络配送小车的自动行驶控制方法,包括传感系统、控制系统、驱动系统及电力系统,所述传感系统采集环境信息和电力系统信息,并将环境信息和电力系统信息传入控制系统,所述控制系统根据接收到的信息通过自我学习控制方法来处理,再由传感系统接收控制信息后控制配送小车的运动状态。
在本实施例中,整体控制框架为深度强化学习中的深度Q网络(DeepQ-Network,DQN),采用了强化学习领域的Q-学习(Q-Learning)算法进行控制。假设在每个时间步t=1,2,…,无人控制小车传感器系统观察马尔科夫决策过程的状态为st,控制系统选择行动at,获得环境反馈的立即奖赏rt,并使系统转移到下一个状态st+1,转移概率为p(st,at,st+1)。强化学习系统中智能体的目标是学习到一个策略π,使得在未来时间步内获得的累积折扣奖赏最大(0≤γ≤1为折扣因子),该策略即为最优策略。但是在现实环境中,环境的状态转移概率函数p和回报函数R未知。智能体要学习到最优策略,只有立即奖赏rt可用,这样可以直接采用策略梯度方法优化损失函数。本实施例中,采用随机梯度下降方法更新当前值网络参数,寻找最优策略,如图2所示。
仿真过程中,在不同的环境下,控制系统的网络结构相同,算法参数也采用同一套参数。回报函数的折扣因子γ=0.99,采用三层卷积神经网络来提取传感系统收集的图像信息,卷积神经网络的网络参数固定,值网络和策略网络由三层隐藏层和一层输出层组成。在每次实验中,配送小车所处的环境初始状态是一个随机的初始状态,从随机的初始状态开始学习,若控制失败,则配送小车重新进行学习,直到配送小车能够在实际驾驶过程中达到甚至超越人类控制水平。
具体的控制方法为:
步骤1:获取配送小车所处的环境信息。
无人控制配送小车的传感器系统通过摄像机以及各种图像采集设备采集信息,周围环境的图像信息。
步骤2:初始化控制系统中的神经网络参数和强化学习算法参数,其中神经网络参数包括前馈网络的权值和偏置。
步骤3:对于环境反馈的视觉信息进行处理。
通过传感系统感知配送小车所处的状态。通过数字化处理将图像信息处理为灰度图像,将高维度的环境视觉信息转换成低纬度的特征信息。低维度特征信息与传感器感知的非视觉信息作为策略网络和值网络的输入状态st。
状态:为配送小车视野内的道路环境信息和其它道路周边信息。
行动:在当前状态下可以执行的操作集合,本实例中行动分为控制小车的加速、减速和转弯。
立即奖赏:是环境对在当前状态下配送小车所采取的行动的评价。若小车执行动作后依然在道路上且未被磕碰,则给一个+1的奖赏;若小车在行进过程中撞到了其他障碍物,则给一个-1000的奖赏。
步骤4:填充经验池
配送小车在与环境交互后,获得环境反馈的状态信息、奖赏信息等。环境反馈的高维视觉信息经过步骤3处理,产生一个处理后的输出,将该操作重复四次后作为当前值网络输入得到输出,根据动作值函数选择动作并执行,将当前状态s、动作a、执行动作所获得立即奖赏r和到达的下一个状态s′作为一个元组保存到经验池E中,重复步骤4五万步。
步骤5:由当前值网络控制配送小车的行动。
从经验池E中随机抽取4个样本,将其状态s作为当前值网络的第一层隐藏层的输入,由当前值网络输出动作值函数Q(s,a),并根据动作值函数选择所采取的动作at,若在碰撞经验池E2中已经存在(s,a),则在其余动作中重新选择动作at。配送小车执行动作at后,获得新的环境状态st+1和立即奖赏rt。并通过当前值网络损失函数更新当前值网络的参数,若配送小车状态为碰撞到杂物状态,则将该状态前五帧保存至碰撞经验池E2。
当前值网络由三层卷积神经网络和一层全连接层组成,激活函数为relu函数。用于处理经过传感系统处理得到的图像信息。卷积神经网络提取图像特征后通过激活函数输出动作值函数,并根据动作值函数用ε-Greedy策略选择动作。
步骤6:将当前状态s、动作a、执行动作所获得立即奖赏r和到达的下一个状态s′作为一个元组保存到经验池E中。
步骤7:更新控制系统的当前值网络参数和目标值网络参数。
配送小车通过步骤4的方式不断与环境进行交互,从碰撞经验池E2采样一批样本用来更新当前值网络和目标值网络。具体更新方式如下:
当前值网络损失函数Li(θi)的计算方式为:其中表示下一个状态下的状态动作值,Q(s,a;θi)为当前状态下的状态动作值,该方法使用了强化学习中的Q-Learning算法,并采用RMSProp梯度下降方法(设置动量参数γ为0.95)来更新当前值网络参数。
步骤8:查看控制结果
查看是否满足学习终止条件,若不满足,则返回到步骤5继续循环。否则结束算法。
在真实环境中,配送小车的初始状态初始化为小车所处位置的环境状态,是一个随机位置。控制系统通过处理环境的状态和反馈信息来对配送小车下一步需要采取的行动做出决策,并利用这些数据更新当前值网络和目标值网络,直到配送小车遇到终止状态,则重新进行学习。在环境中执行100个情节(情节设定为有限长度),若平均表现不比人类表现差,则判定学习成功,若平均表现比人类差,则判定失败。
本发明中,利用卷积神经网络能有效提取图像特征,使得系统能够更好地寻找到合适的动作。无人控制的配送小车可以在任何环境(如雨雪天、上下坡等)下进行训练,大大提高了应用的广泛性。
Claims (3)
1.一种基于深度Q网络配送小车的自动行驶控制方法,包括传感系统、控制系统、驱动系统及电力系统,所述传感系统采集环境信息和电力系统信息,并将环境信息和电力系统信息传入控制系统,所述控制系统根据接收到的信息通过自我学习控制方法来处理,再由传感系统接收控制信息后控制配送小车的运动状态,其自我学习控制方法包括如下步骤:
⑴通过传感系统获取环境信息,包括视觉环境信息和非视觉信息;
⑵根据所述步骤⑴中获取的环境信息,初始化神经网络参数,包括环境状态信息和奖赏信息,并初始化强化学习算法的各项参数;
⑶对周边环境反馈的图像信息进行处理,通过数字化处理将图像信息处理为灰度图像,使用深度卷积网络进行特征提取和训练,将高维度的环境视觉信息转换成低维度的特征信息,低维度特征信息与所述非视觉信息作为当前值网络和目标值网络的输入状态st;
⑷在状态st下,根据当前值网络利用强化学习算法中的动作值函数Q(s,a)计算获得行动at,配送小车执行行动at后,获得新的环境状态st+1和立即奖赏rt;
⑸更新当前值网络和目标值网络的参数,采用随机小批量梯度下降更新方式更新参数;
所述当前值网络损失函数计算方式:其中Q(s′,a′;θi -)表示下一个状态下的状态动作值,Q(s,a;θi)为当前状态下的状态动作值,γ为回报函数的折扣因子,γ:0≤γ≤1,E()为梯度下降算法中的损失函数,r为立即奖赏值,θ表示网络参数;
所述目标值网络在每执行N步后更新为当前值网络的值;
⑹查看是否满足学习终止条件,若不满足,则返回到步骤4继续循环,否则结束;所述学习终止条件为完成配送任务,或完成设定步数;
在所述步骤⑷中,设置经验池E,该经验池E中存放内容为:根据动作值函数Q(s,a)选择动作并执行,将当前状态s、动作a、执行动作所获得立即奖赏r和到达的下一个状态s′作为一个元组保存到经验池E中,并重复上述步骤三万~五万步,均存放于经验池E中,所述步骤⑸中的更新当前值网络和目标值网络的参数,需从经验池E中进行采样;
所述经验池E中还包括一碰撞经验池E2,该碰撞经验池E2中填充内容为:从经验池E中随机抽取四个样本,将其状态s作为当前值网络的第一层隐藏层的输入,由当前值网络输出动作值函数Q(s,a),并根据动作值函数选择所采取的动作at,若在碰撞经验池E2中已经存在(s,a),则在其余动作中重新选择动作at;配送小车执行动作at后,获得新的环境状态st+1和立即奖赏rt,并通过当前值网络损失函数更新当前值网络的参数,若配送小车状态为碰撞到杂物状态,则将该状态前X帧的动作值保存至碰撞经验池E2内,所述步骤⑸中的采样样本从碰撞经验池E2中选取。
2.根据权利要求1所述基于深度Q网络配送小车的自动行驶控制方法,其特征在于:所述当前值网络由三层卷积神经网络和一层全连接层组成,激活函数为relu函数;用于处理经过传感系统处理得到的图像信息,其中卷积神经网络提取图像特征后通过激活函数relu输出动作值函数Q(s,a),并根据动作值函数Q(s,a)用ε-Greedy贪心策略选择动作a。
3.根据权利要求1所述的基于深度Q网络配送小车的自动行驶控制方法,其特征在于:
状态S表示为:传感系统感知的环境状态,是配送小车视野内的道路环境信息和其它道路周边信息;
行动a表示为:在当前状态下可以执行的操作集合,包括控制配送小车的加速、减速和转弯;
立即奖赏r是:在当前状态下配送小车所采取的行动的评价,若配送小车执行动作后依然在道路上且未被磕碰,则给一个+1的奖赏;若配送小车在行进过程中撞到了其他障碍物,则给一个-1000的奖赏。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810199115.6A CN108594804B (zh) | 2018-03-12 | 2018-03-12 | 基于深度q网络配送小车的自动行驶控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810199115.6A CN108594804B (zh) | 2018-03-12 | 2018-03-12 | 基于深度q网络配送小车的自动行驶控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108594804A CN108594804A (zh) | 2018-09-28 |
CN108594804B true CN108594804B (zh) | 2021-06-18 |
Family
ID=63625988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810199115.6A Active CN108594804B (zh) | 2018-03-12 | 2018-03-12 | 基于深度q网络配送小车的自动行驶控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108594804B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11138888B2 (en) | 2018-12-13 | 2021-10-05 | Beijing Didi Infinity Technology And Development Co., Ltd. | System and method for ride order dispatching |
CN109743666A (zh) * | 2018-12-27 | 2019-05-10 | 北京普诺兴科技有限公司 | 基于增强学习的室内声源移动方法、介质、设备和装置 |
CN109726676B (zh) * | 2018-12-28 | 2020-07-07 | 苏州大学 | 自动驾驶系统的规划方法 |
CN109857107A (zh) * | 2019-01-30 | 2019-06-07 | 广州大学 | Agv小车导航方法、装置、系统、介质和设备 |
CN109960259B (zh) * | 2019-02-15 | 2021-09-24 | 青岛大学 | 一种基于梯度势的多智能体强化学习的无人导引车路径规划方法 |
CN110363295A (zh) * | 2019-06-28 | 2019-10-22 | 电子科技大学 | 一种基于dqn的智能车多车道换道方法 |
CN112731804A (zh) * | 2019-10-29 | 2021-04-30 | 北京京东乾石科技有限公司 | 一种实现路径跟随的方法和装置 |
CN111580526B (zh) * | 2020-05-27 | 2022-11-22 | 多伦科技股份有限公司 | 面向固定车辆编队场景的协同驾驶方法 |
CN112216129B (zh) * | 2020-10-13 | 2021-07-27 | 大连海事大学 | 一种基于多智能体强化学习的自适应交通信号控制方法 |
CN113553934B (zh) * | 2021-07-19 | 2024-02-20 | 吉林大学 | 基于深度强化学习的地面无人车智能决策方法及系统 |
CN114358128A (zh) * | 2021-12-06 | 2022-04-15 | 深圳先进技术研究院 | 一种训练端到端的自动驾驶策略的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105690392A (zh) * | 2016-04-14 | 2016-06-22 | 苏州大学 | 基于行动者-评论家方法的机器人运动控制方法和装置 |
CN106094516A (zh) * | 2016-06-08 | 2016-11-09 | 南京大学 | 一种基于深度强化学习的机器人自适应抓取方法 |
CN107357757A (zh) * | 2017-06-29 | 2017-11-17 | 成都考拉悠然科技有限公司 | 一种基于深度增强学习的代数应用题自动求解器 |
-
2018
- 2018-03-12 CN CN201810199115.6A patent/CN108594804B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105690392A (zh) * | 2016-04-14 | 2016-06-22 | 苏州大学 | 基于行动者-评论家方法的机器人运动控制方法和装置 |
CN106094516A (zh) * | 2016-06-08 | 2016-11-09 | 南京大学 | 一种基于深度强化学习的机器人自适应抓取方法 |
CN107357757A (zh) * | 2017-06-29 | 2017-11-17 | 成都考拉悠然科技有限公司 | 一种基于深度增强学习的代数应用题自动求解器 |
Non-Patent Citations (3)
Title |
---|
Self-Paced Prioritized Curriculum Learning With Coverage Penalty in Deep Reinforcement Learning;Zhipeng Ren等;《IEEE Transactions on Neural Networks and Learning Systems》;IEEE;20180201;第29卷(第6期);第2216-2226页 * |
一种基于视觉注意力机制的深度循环Q网络模型;刘全等;《计算机学报》;中国科学院计算技术研究所;20170630;第40卷(第6期);第1353-1366页 * |
基于深度Q值网络的自动小车控制方法;王立群等;《电子测量技术》;北京无线电技术研究所;20171130;第40卷(第11期);第226-229页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108594804A (zh) | 2018-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108594804B (zh) | 基于深度q网络配送小车的自动行驶控制方法 | |
Duan et al. | Hierarchical reinforcement learning for self‐driving decision‐making without reliance on labelled driving data | |
Zhang et al. | Human-like autonomous vehicle speed control by deep reinforcement learning with double Q-learning | |
CN113485380B (zh) | 一种基于强化学习的agv路径规划方法及系统 | |
CN111222630B (zh) | 一种基于深度强化学习的自主驾驶规则学习方法 | |
CN109901572B (zh) | 自动驾驶方法、训练方法及相关装置 | |
Naveed et al. | Trajectory planning for autonomous vehicles using hierarchical reinforcement learning | |
CN109726804B (zh) | 一种基于行车预测场和bp神经网络的智能车辆驾驶行为拟人化决策方法 | |
CN112162555A (zh) | 混合车队中基于强化学习控制策略的车辆控制方法 | |
CN112799386B (zh) | 基于人工势场与强化学习的机器人路径规划方法 | |
CN112947562A (zh) | 一种基于人工势场法和maddpg的多无人机运动规划方法 | |
CN108415254B (zh) | 基于深度q网络的废品回收机器人控制方法 | |
CN109739218A (zh) | 一种基于gru网络的仿优秀驾驶员换道模型建立方法 | |
CN109910909A (zh) | 一种多车运动状态的汽车轨迹网联交互式预测方法 | |
CN109727490A (zh) | 一种基于行车预测场的周边车辆行为自适应矫正预测方法 | |
CN111625989B (zh) | 一种基于a3c-sru的智能车汇入车流方法及系统 | |
CN112550314B (zh) | 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统 | |
CN111783994A (zh) | 强化学习的训练方法和装置 | |
CN114153213A (zh) | 一种基于路径规划的深度强化学习智能车行为决策方法 | |
CN111487863A (zh) | 一种基于深度q神经网络的主动悬架强化学习控制方法 | |
CN115257809A (zh) | 一种人在环的自动驾驶车辆交互学习控制方法及设备 | |
CN114859905A (zh) | 一种基于人工势场法和强化学习的局部路径规划方法 | |
CN111824182A (zh) | 一种基于深度强化学习的三轴重型车自适应巡航控制算法 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
Bautista | Self-Driving Cars with Markovian Model-Based Safety Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |