CN116859755B - 无人车驾驶控制的最小化协方差强化学习训练加速方法 - Google Patents
无人车驾驶控制的最小化协方差强化学习训练加速方法 Download PDFInfo
- Publication number
- CN116859755B CN116859755B CN202311092025.4A CN202311092025A CN116859755B CN 116859755 B CN116859755 B CN 116859755B CN 202311092025 A CN202311092025 A CN 202311092025A CN 116859755 B CN116859755 B CN 116859755B
- Authority
- CN
- China
- Prior art keywords
- unmanned vehicle
- unmanned
- reinforcement learning
- vehicle
- optional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012549 training Methods 0.000 title claims abstract description 32
- 230000002787 reinforcement Effects 0.000 title claims abstract description 28
- 230000001133 acceleration Effects 0.000 title claims description 13
- 239000013598 vector Substances 0.000 claims description 45
- 230000009471 action Effects 0.000 claims description 43
- 238000003062 neural network model Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 8
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 abstract description 10
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000011217 control strategy Methods 0.000 abstract description 4
- 230000006872 improvement Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007306 turnover Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明提供了一种无人车驾驶控制的最小化协方差强化学习训练加速方法,包括以下步骤:将工程问题建立成强化学习环境模型,利用坡度传感器、地面湿度传感器以及定位器等传感器获取丘陵地段的地形、天气信息以及无人车自身信息;然后,通过已训练好的神经网络将这些(状态信息‑动作)转化为特征;接着利用最小化协方差算法进行强化学习训练,通过不断的训练,可以得到无人车在山丘地形中驾驶控制的最优策略。本发明的方法通过强化学习提高丘陵地形中无人车驾驶控制的训练速度,更快学到最优控制策略,提高无人车丘陵地形驾驶的准确性和效率,有效的解决了现有技术中无人车在丘陵地形驾驶控制存在的问题,具有较好的使用价值和经济效益。
Description
技术领域
本发明涉及智能军事技术领域,尤其是指一种丘陵地形无人车驾驶控制的最小化协方差强化学习训练加速方法。
背景技术
随着无人车技术的发展,军事领域中的无人车在后勤保障和战场物资运输等方面扮演着越来越重要的角色。在复杂的丘陵地形中,无人车面临着诸多挑战,例如道路起伏、天气变化等因素,这些挑战不仅给无人车的运行带来了巨大的风险,同时也限制了其在这些环境下的运输能力。为了克服这些挑战,研究人员致力于发展适应丘陵地形的无人车驾驶控制算法。
本发明提供了一种新的无人车驾驶控制算法,该算法能够更快地学习无人车在丘陵地形中的最优行动策略。该算法能够更好地应对丘陵中的复杂环境和地形变化。本发明可应用于军事领域的无人车丘陵地形的运输,能够提高无人车在复杂地形中的行驶效率和运输能力,有望成为未来无人车驾驶控制算法的重要发展方向。
发明内容
本发明目的在于提供一种能够更快学到最优控制策略,提高驾驶控制的准确性和效率的最小化协方差强化学习训练加速方法。
为实现上述目的,本发明提供了一种无人车驾驶控制的最小化协方差强化学习训练加速方法,用于对丘陵地形无人车驾驶控制的训练过程进行加速,包括以下步骤:
步骤1、针对丘陵地形无人车的作业要求建立强化学习环境模型,实例化已训练好的神经网络模型;
步骤2、获取无人车当前的状态信息;
步骤3、将所有所述状态信息及无人车可选动作输入到所述神经网络模型中,得到对应的特征向量,结合线性方法,通过/>方法选择动作/>,保存对应的特征向量/>;
步骤4、执行动作,获得奖励,进入下一个状态/>,利用所述步骤3,获得状态/>对应的/>和/>;
步骤5、无人车利用最小化协方差方法对参数进行更新,从而更新了当前策略;
步骤6、重复所述步骤2-步骤5,直到无人车到达目的地或达到最大迭代更新次数。
作为本发明的进一步改进,所述步骤1具体包括:根据丘陵地形无人车的作业要求建立强化学习环境模型;将所有所述状态信息及无人车可选动作依次输入到已训练好的所述神经网络模型,获取相应的特征,所述神经网络模型已通过打好状态特征标签的数据集训练完成。
作为本发明的进一步改进,所述步骤2中,所述无人车当前的状态信息s至少包括由地形坡度、路面潮湿情况、无人车距终点距离、无人车当前速度、无人车车损情况。
作为本发明的进一步改进,所述步骤3中具体包括:
步骤31、获取无人车当前所有可选择的动作,将所有可选的所述状态信息及无人车动作依次输入到已训练好的所述神经网络模型中,获得所有可选的特征向量,其中/>为无人车当前的状态信息,A为无人车可选动作,/>为当前状态s下采取动作/>的特征;
步骤32、通过线性的方法,求得所有可选择的,即/>,其中,/>为特征权重参数向量,/>为向量转置符号,通过/>方法选择动作/>,保存对应的特征向量/>。
作为本发明的进一步改进,步骤4具体包括:无人车执行了动作,获取了即时奖励,进入了下一个状态/>,此时无人车通过坡度传感器、路面湿度传感器、定位器等传感器获取状态信息,同时获取无人车当前所有可选择的动作,将所有可选的所述状态信息及无人车动作依次输入到已训练好的所述神经网络模型中,获得所有可选的特征向量/>,/>表示可选动作;通过线性的方法,求得所有可选择的/>,即,其中,/>为特征权重参数向量,/>为向量转置符号,通过方法选择动作/>,保存对应的特征向量/>。
作为本发明的进一步改进,无人车获得即时奖励分别为h,j,k,具体奖励形式如下:
;
;
;
其中h为地形坡度时的奖励,j为路面潮湿情况时的奖励,k为无人车距离终点距离时的奖励,地形坡度、路面潮湿情况、无人车距终点位置分别由坡度传感器、地面湿度传感器以及定位器获得,且最终奖励为上述所述h、j、k加权之和。
作为本发明的进一步改进,所述步骤5具体包括:
步骤51、无人车利用强化学习训练加速方法对参数进行更新,该方法的优化过程是最小化,其中/>表示误差,/>,/>为奖励,/>表示误差的期望,因为期望项/>不容易求解,因此定义/>来表示/>的估计近似,利用随机梯度下降方法,分别对/>进行更新,最终的更新公式如下所示:
;
;
其中,表示特征权重参数向量;/>表示/>的近似;表示误差;/>和/>分别是/>和/>的学习率。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明能够加速无人车在丘陵地形中的驾驶控制的训练速度,更快学到最优控制策略,提高驾驶控制的准确性和效率,有效的解决了现有技术中驾驶控制存在的问题,具有较好的使用价值和经济效益。
附图说明
图1 为该方法的流程图示意图。
图2为该方法的一具体实施例的示意图。
图3是本发明的方法与传统训练方法进行对比的结果图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在此,需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
另外,还需要说明的是,术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
如图1至图2所示,本发明提出了一种丘陵地形无人车驾驶控制的最小化协方差强化学习训练加速方法,通过利用最小化协方差算法,能够加快收敛到最优策略的速度,提高驾驶控制的准确性和效率,有效的解决了现有技术中驾驶控制存在的问题,具有较好的使用价值和经济效益,主要包括以下步骤:
步骤1、针对丘陵地形无人车的作业要求建立强化学习环境模型,实例化已训练好的神经网络模型;
步骤2、利用坡度传感器、地面湿度传感器、速度传感器以及定位器等传感器获取无人车当前状态信息,包括丘陵地段的地形、路面潮湿情况以及无人车自身信息等;
步骤3、将所有可选(状态信息-无人车动作)输入到神经网络中,得到对应的特征向量,结合线性方法,求得对应的/>值,即/>,其中,/>为特征权重参数向量,/>为向量转置符号,并通过/>方法选择动作/>,保存对应的特征向量/>;
步骤4、执行动作,获得奖励,进入下一个状态/>,利用步骤3,获得状态/>对应的和/>;
步骤5、无人车利用最小化协方差方法对参数进行更新,从而更新了当前策略;
步骤6、重复步骤2-5,直到无人车到达目的地或达到最大迭代更新次数。
以下将对步骤1-6进行具体说明。
步骤1中,根据丘陵地形无人车的作业要求建立强化学习环境模型;由于本文中的最小化协方差强化学习训练加速方法采用线性近似动作值函数,即,/>为无人车可选动作,/>为当前状态下采取动作/>的特征向量,/>为特征权重参数向量,/>为向量转置符号;将所有可选择的(状态信息-无人车动作)依次输入到已训练好的神经网络,获取相应的特征,该神经网络已通过打好状态特征标签的数据集训练完成。
步骤2中,无人车当前的状态s具体包括由地形坡度、、无人车距终点距离、无人车当前速度、无人车车损情况,无人车通过坡度传感器、地面湿度传感器、速度传感器以及定位器等获取这些状态信息。
步骤3中,获取无人车当前所有可选择的动作,将所有可选的(状态信息,无人车动作)依次输入到已训练好的神经网络中,获得所有对应的特征向量,/>表示可选动作;通过线性的方法,求得所有对应的/>,即/>,其中,/>为特征权重参数向量,/>为向量转置符号,通过/>方法选择动作/>,即无人车有/>概率随机选取可选动作,有/>的概率选取让/>值最大的动作,并保存对应的特征向量/>。
步骤4中,无人车执行了动作,获取了即时奖励,进入了下一个状态/>,此时无人车通过坡度传感器、路面湿度传感器、定位器等传感器获取状态信息,同时获取无人车当前所有可选择的动作,将所有可选的(状态信息,无人车动作)依次输入到已训练好的神经网络中,获得所有对应的特征向量/>,/>表示可选动作;通过线性的方法,求得所有对应的/>,即/>,其中,/>为特征权重参数向量,/>为向量转置符号,通过/>方法选择动作/>,保存对应的特征向量/>。
步骤4中,无人车获得即时奖励分别为h(地形坡度),j(),k(无人车距终点位置)。具体奖励形式如下:
;
;
;
地形坡度、路面潮湿情况、无人车距终点位置分别由坡度传感器、地面湿度传感器以及定位器获得,最终奖励为上述奖励的加权之和。
步骤5中,无人车利用强化学习训练加速方法对参数进行更新,该方法的优化过程是最小化,其中/>表示误差,/>为奖励,又因为期望项/>不容易求解,因此/>来表示/>的估计近似,利用随机梯度下降方法,分别对/>进行更新。因此最终的更新公式如下所示:
;
;
其中,表示特征权重参数向量;/>表示/>的近似;表示误差;/>和/>分别是/>和/>的学习率。
步骤6中,无人车将会判断是否到达终点或者判断是否达到最大训练迭代次数,若是则结束该轮训练;若不是,则继续重复步骤2-5。
以下将结合具体实施例进行说明。
这里讨论的实际问题设置为:考虑丘陵地形军工无人车航迹运行控制训练上采用最小化协方差强化学习的训练加速,此处具体操作步骤如下:
S1、根据实际作业要求搭建强化学习模型环境,考虑当前作业需求如下:军用无人车在丘陵地段勘察地形或者运输物品。由于处于丘陵地段,会相当频繁的翻阅小山丘,动力过小会导致无人车翻越不了山丘,而动力过大则可能导致无人车翻车。强化学习环境搭建如图2所示,军用无人车则是我们需要训练的智能体,军用无人车可以采取向前施加动力、向后施加动力、不施加动力三个动作;状态信息包括地形坡度、、无人车距终点距离、无人车当前速度、无人车车损情况;奖励包括r(地形坡度),r(路面潮湿情况),r(无人车距终点位置),不同的奖励的设定为:
;
;
;
地形坡度、路面潮湿情况和无人车距终点距离分别由坡度传感器、潮湿传感器以及定位器获得。最终奖励由上述三种奖励,采用不同的权重进行线性累加,为;实例化已训练好的神经网络,通过将所有可选择的(状态信息,无人车动作)输入到神经网络,可以得到对应的特征,倘若没有训练好的神经网络模型,也可以采用tile coding编码器(状态信息,无人车动作)进行编码,输出特征。
S2、无人车通过坡度传感器、地面湿度传感器、速度传感器以及定位器等传感器获取当前的状态s,具体包括地形坡度、、无人车距终点距离、无人车当前速度、无人车车损情况。
S3、获取无人车当前所有可选择的动作,将所有可选的(状态信息,无人车动作)依次输入到已训练好的神经网络中,获得所有对应的特征向量,/>表示可选动作;通过线性的方法,求得所有对应的/>,即/>,其中,/>为特征权重参数向量,/>为向量转置符号,通过/>方法选择动作/>,即无人车有/>概率随机选取可选动作,有/>的概率选取让/>值最大的动作,并保存对应的特征向量/>,其中在实验过程中,我们将/>设置为0.01。
S4、无人车执行了动作,获取了最终奖励,进入了下一个状态/>,此时无人车通过坡度传感器、路面湿度传感器、定位器等传感器获取状态信息,同时获取无人车当前所有可选择的动作,将所有可选的(状态信息,无人车动作)依次输入到已训练好的神经网络中,获得所有对应的特征向量/>,/>表示可选动作;通过线性的方法,求得所有对应的,即/>,其中,/>为特征权重参数向量,/>为向量转置符号,通过/>方法选择动作/>,保存对应的特征向量/>。
S5、无人车利用强化学习训练加速方法对参数进行更新,该方法的优化过程是最小化,其中/>表示误差,/>为奖励,又因为期望项/>不容易求解,因此/>来表示/>的估计近似,利用随机梯度下降方法,分别对/>进行更新。因此最终的更新公式如下所示:
;
;
其中,表示特征权重参数向量,初始化为/>维/>向量,/>也对应特征向量的维度;/>表示/>的近似,初始化为0;/>表示误差;/>和/>分别是/>和/>的学习率,分别设置为0.01和0.0001
S6、无人车将会判断是否到达终点或者判断是否达到最大训练迭代次数,其中,最大迭代次数为2000次,若是则结束该轮训练;若不是,则继续重复步骤S2-S5。
将本文提出的方法与传统训练方法进行对比,结果统计如图3所示,在图3中,本文所提出的最小化协方差强化学习训练加速方法(图3中用英文minimize covariance表示)收敛速度显著大于传统的时序差分控制算法Sarsa。
综上所述,本发明方法能够通过最小化协方差强化学习方法提高丘陵地形中无人车驾驶控制的训练速度,更快学到最优控制策略,提高驾驶控制的准确性和效率,有效的解决了现有技术中驾驶控制存在的问题,具有较好的使用价值和经济效益。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。
Claims (2)
1.一种无人车驾驶控制的最小化协方差强化学习训练加速方法,用于对丘陵地形无人车驾驶控制的训练过程进行加速,其特征在于,包括以下步骤:
步骤1、针对丘陵地形无人车的作业要求建立强化学习环境模型,实例化已训练好的神经网络模型;
步骤2、获取无人车当前的状态信息,所述无人车当前的状态信息至少包括由地形坡度、路面潮湿情况、无人车距终点距离、无人车当前速度、无人车车损情况;
步骤3、获取无人车当前所有可选择的动作,将所有可选的所述状态信息及无人车动作依次输入到已训练好的所述神经网络模型中,获得所有可选的特征向量,其中/>为无人车当前的状态信息,A为无人车可选动作,/>为当前状态s下采取动作/>的特征向量;通过线性的方法,求得所有可选择的/>,即/>,其中,/>为特征权重参数向量,/>为向量转置符号,通过/>方法选择动作/>,保存对应的特征向量/>;
步骤4、无人车执行了动作,获取了即时奖励,进入了下一个状态/>,此时无人车通过坡度传感器、路面湿度传感器、定位器获取状态信息,同时获取无人车当前所有可选择的动作,将所有可选的所述状态信息及无人车动作依次输入到已训练好的所述神经网络模型中,获得所有可选的特征向量/>,/>表示可选动作;通过线性的方法,求得所有可选择的/>,即/>,其中,/>为特征权重参数向量,/>为向量转置符号,通过/>方法选择动作/>,保存对应的特征向量/>;无人车获得即时奖励分别为h,j,k,具体奖励形式如下:
;
;
;
其中h为地形坡度时的奖励,j为路面潮湿情况时的奖励,k为无人车距离终点距离时的奖励,地形坡度、路面潮湿情况、无人车距终点位置分别由坡度传感器、地面湿度传感器以及定位器获得,且最终奖励为上述所述h、j、k加权之和;
步骤5、无人车利用强化学习训练加速方法对参数进行更新,该方法的优化过程是最小化,其中/>表示误差,/>,/>为奖励,/>表示误差的期望,因为期望项/>不容易求解,因此定义/>来表示对/>的估计近似,利用随机梯度下降方法,分别对/>进行更新,最终的更新公式如下所示:
;
;
其中,表示特征权重参数向量;/>表示/>的估计近似;表示误差;/>和/>分别是/>和/>的学习率;
步骤6、重复所述步骤2-步骤5,直到无人车到达目的地或达到最大迭代更新次数。
2.根据权利要求1所述的无人车驾驶控制的最小化协方差强化学习训练加速方法,其特征在于,所述步骤1具体包括:根据丘陵地形无人车的作业要求建立强化学习环境模型;将所有所述状态信息及无人车可选动作依次输入到已训练好的所述神经网络模型,获取相应的特征,所述神经网络模型已通过打好状态特征标签的数据集训练完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311092025.4A CN116859755B (zh) | 2023-08-29 | 2023-08-29 | 无人车驾驶控制的最小化协方差强化学习训练加速方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311092025.4A CN116859755B (zh) | 2023-08-29 | 2023-08-29 | 无人车驾驶控制的最小化协方差强化学习训练加速方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116859755A CN116859755A (zh) | 2023-10-10 |
CN116859755B true CN116859755B (zh) | 2023-12-08 |
Family
ID=88219549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311092025.4A Active CN116859755B (zh) | 2023-08-29 | 2023-08-29 | 无人车驾驶控制的最小化协方差强化学习训练加速方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116859755B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118114746A (zh) * | 2024-04-26 | 2024-05-31 | 南京邮电大学 | 基于贝尔曼误差的方差最小化强化学习机械臂训练加速方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101154095A (zh) * | 2006-09-13 | 2008-04-02 | 通用汽车环球科技运作公司 | 虚拟加速度计 |
CN107145936A (zh) * | 2017-04-22 | 2017-09-08 | 大连理工大学 | 一种基于强化学习的车辆跟驰模型建立方法 |
CN111241952A (zh) * | 2020-01-03 | 2020-06-05 | 广东工业大学 | 一种离散制造场景中的强化学习奖励自学习方法 |
CN111343608A (zh) * | 2020-02-24 | 2020-06-26 | 南京邮电大学 | 一种基于位置信息的车联网强化学习路由方法 |
CN112379592A (zh) * | 2020-10-23 | 2021-02-19 | 南京邮电大学 | 一种基于降维区间观测器的多智能体系统一致性分析方法 |
CN112937564A (zh) * | 2019-11-27 | 2021-06-11 | 初速度(苏州)科技有限公司 | 换道决策模型生成方法和无人车换道决策方法及装置 |
CN113947732A (zh) * | 2021-12-21 | 2022-01-18 | 北京航空航天大学杭州创新研究院 | 基于强化学习图像亮度调节的空中视角人群计数方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11327156B2 (en) * | 2018-04-26 | 2022-05-10 | Metawave Corporation | Reinforcement learning engine for a radar system |
-
2023
- 2023-08-29 CN CN202311092025.4A patent/CN116859755B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101154095A (zh) * | 2006-09-13 | 2008-04-02 | 通用汽车环球科技运作公司 | 虚拟加速度计 |
DE102007043175A1 (de) * | 2006-09-13 | 2008-04-17 | GM Global Technology Operations, Inc., Detroit | Virtueller Beschleunigungsmesser |
CN107145936A (zh) * | 2017-04-22 | 2017-09-08 | 大连理工大学 | 一种基于强化学习的车辆跟驰模型建立方法 |
CN112937564A (zh) * | 2019-11-27 | 2021-06-11 | 初速度(苏州)科技有限公司 | 换道决策模型生成方法和无人车换道决策方法及装置 |
CN111241952A (zh) * | 2020-01-03 | 2020-06-05 | 广东工业大学 | 一种离散制造场景中的强化学习奖励自学习方法 |
CN111343608A (zh) * | 2020-02-24 | 2020-06-26 | 南京邮电大学 | 一种基于位置信息的车联网强化学习路由方法 |
CN112379592A (zh) * | 2020-10-23 | 2021-02-19 | 南京邮电大学 | 一种基于降维区间观测器的多智能体系统一致性分析方法 |
CN113947732A (zh) * | 2021-12-21 | 2022-01-18 | 北京航空航天大学杭州创新研究院 | 基于强化学习图像亮度调节的空中视角人群计数方法 |
Non-Patent Citations (6)
Title |
---|
Control of Rough Terrain Vehicles Using Deep Reinforcement Learning;Viktor Wiberg etal.;《IEEE ROBOTICS AND AUTOMATION LETTERS》;第390-397页 * |
DHQN: a Stable Approach to Remove Target Network from Deep Q-learning Network;Guang Yang etal.;《2021 IEEE 33rd International Conference on Tools with Artificial Intelligence (ICTAI)》;第1474-1479页 * |
Hierarchical Reinforcement Learning Combined with Motion Primitives for Automated Overtaking;Yang Yu etal.;《2020 IEEE Intelligent Vehicles Symposium (IV)》;第1-6页 * |
从虚拟到现实的智能车辆深度强化学习控制研究;杨顺;《中国博士学位论文全文数据库工程科技Ⅱ辑》;第C035-9页 * |
坡路工况面向节能的智能电动汽车车速在线优化研究;黄川;《中国博士学位论文全文数据库工程科技Ⅱ辑》;第C035-20页 * |
基于值函数估计的强化学习算法研究;陈兴国;《中国博士学位论文全文数据库信息科技辑》;第I140-21页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116859755A (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110262511B (zh) | 基于深度强化学习的双足机器人自适应性行走控制方法 | |
CN113485380B (zh) | 一种基于强化学习的agv路径规划方法及系统 | |
CN108646734B (zh) | 基于量子粒子群算法的非线性模型预测控制方法 | |
CN116859755B (zh) | 无人车驾驶控制的最小化协方差强化学习训练加速方法 | |
CN114859911A (zh) | 一种基于drl的四足机器人路径规划方法 | |
CN111538241A (zh) | 一种平流层飞艇水平轨迹智能控制方法 | |
CN114237235B (zh) | 一种基于深度强化学习的移动机器人避障方法 | |
CN115993831B (zh) | 基于深度强化学习的机器人无目标网络的路径规划方法 | |
CN116991076B (zh) | 一种基于状态估计信息输入的轮式机器人转向控制方法 | |
CN111580526B (zh) | 面向固定车辆编队场景的协同驾驶方法 | |
CN113689502B (zh) | 一种多信息融合的障碍物测量方法 | |
Fan et al. | Spatiotemporal path tracking via deep reinforcement learning of robot for manufacturing internal logistics | |
CN110926470B (zh) | 一种agv导航控制方法及系统 | |
CN115009291B (zh) | 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统 | |
CN112965487A (zh) | 基于策略迭代的移动机器人轨迹跟踪控制方法 | |
CN116360454A (zh) | 行人环境下基于深度强化学习的机器人路径避碰规划方法 | |
CN115016499A (zh) | 一种基于sca-ql的路径规划方法 | |
CN114839878A (zh) | 基于改进ppo算法的双足机器人行走稳定性优化方法 | |
CN111221340B (zh) | 一种基于粗粒度特征的可迁移视觉导航设计方法 | |
CN117193378B (zh) | 基于改进ppo算法的多无人机路径规划方法 | |
Sasaki et al. | A study on behavior acquisition of mobile robot by deep Q-network | |
CN115907248B (zh) | 基于几何图神经网络的多机器人未知环境路径规划方法 | |
Kumar et al. | Benchmarking Deep Reinforcement Learning Algorithms for Vision-based Robotics | |
CN114675660B (zh) | 一种基于pso-lshade-clm的多uuv协同搜索方法 | |
CN117093005B (zh) | 一种智能汽车自主避障方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |