CN115009291B - 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统 - Google Patents

基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统 Download PDF

Info

Publication number
CN115009291B
CN115009291B CN202210562890.XA CN202210562890A CN115009291B CN 115009291 B CN115009291 B CN 115009291B CN 202210562890 A CN202210562890 A CN 202210562890A CN 115009291 B CN115009291 B CN 115009291B
Authority
CN
China
Prior art keywords
graph
state
reinforcement learning
nodes
driving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210562890.XA
Other languages
English (en)
Other versions
CN115009291A (zh
Inventor
汤胤
陈永健
高婉婷
李泽峥
廖冬雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202210562890.XA priority Critical patent/CN115009291B/zh
Publication of CN115009291A publication Critical patent/CN115009291A/zh
Application granted granted Critical
Publication of CN115009291B publication Critical patent/CN115009291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0043Signal treatments, identification of variables or parameters, parameter estimation or state estimation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统,该方法步骤包括:使用强化学习智能体对基于驾驶时态序列数据的环境进行交互,根据相同取值的状态或者动作的数据作为枢纽转化成包含状态节点集合和动作节点集合的基于图结构的重放缓冲区;再基于该重放缓冲区进行深度遍历搜索得到子图,将子图输入到图自动编码器中进行特征提取,获取包含邻居信息的新的状态节点表示。根据新的状态节点表示进行学习,最终输出自动驾驶辅助执行策略,调整汽车驾驶状态。本发明利用图神经网络的节点表示能力,获取包含邻居信息的状态节点表示,一方面解决了样本相关性的问题,另一方面仍然保留邻居信息,能够更加快速解决决策问题。

Description

基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统
技术领域
本发明涉及自动驾驶辅助决策技术领域,具体涉及一种基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统。
背景技术
强化学习是由环境和智能体两个部分组成,智能体通过与环境的不断交互,并且根据设计的激励函数的反馈,最终得到最优的决策策略,现有的强化学习算法利用了深度神经网络作为特征提取层,因此必须假设样本之间是独立同分布的。这种假设会忽略样本与样本之间的联系以及结构信息,导致只能学习到次优的策略;
另外,传统获取孤立节点信息的做法无法关联获取邻居信息,存在对线性重放缓冲区难以表达时序状态的承继关系的问题。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种基于网络演化重放缓冲区的自动驾驶辅助决策方法,本发明利用图结构对驾驶时态序列样本构建样本之间的关联关系,并且利用强化学习算法获得最优的策略,对序列数据做建模,将序列数据转化成图结构的形式,将样本之间的相关性考虑在内;当序列数据转换成图结构数据之后,采用图神经网络的方法在非欧式空间的数据上提取特征,形成结合邻居节点信息的节点表示,再使用强化学习方法对包含邻居信息的节点表示进行学习,能够获得更加全面、更加具有可解释性的效果。
本发明的第二目的在于提供一种基于网络演化重放缓冲区的自动驾驶辅助决策系统。
本发明的第三目的在于提供一种计算机可读存储介质。
本发明的第四目的在于提供一种计算设备。
为了达到上述目的,本发明采用以下技术方案:
一种基于网络演化重放缓冲区的自动驾驶辅助决策方法,包括下述步骤:
构建虚拟驾驶环境,使用图神经网络建立图自动编码器,使用DQN强化学习方法建立驾驶决策预测模型;
初始化基于图数据结构的重放缓冲区、线性缓冲区、搜索邻居阶数K和子图节点个数W,同时子图的节点个数W小于重放缓冲区的状态节点个数;
获取存储器上的数据构造环境,强化学习智能体根据虚拟驾驶环境当前所处于的驾驶状态输出决策,经过多轮与虚拟驾驶环境的交互,得到多个交互序列并存储至线性缓冲区:
遍历线性缓冲区,计算每两个状态节点之间的余弦相似度,将相似度达到预设阈值的两个状态节点进行连接,基于以上两个状态节点的连接规则形成包含状态节点集合和动作节点集合的基于图数据结构的重放缓冲区;
根据均匀分布随机选择重放缓冲区的一个状态节点,基于该状态节点进行K阶邻居的深度遍历搜索,当搜索邻居节点的个数为W-1时则停止搜索,最终得到一个节点个数为W的子图;
利用图自动编码器对子图进行编码,获得该子图各个节点的表示,将除了状态节点之后的所有节点进行均值处理,最终得到状态节点所有邻居节点的总体表示,并且与原本状态节点进行拼接形成DQN强化学习方法的输入,经过DQN强化学习方法中的深度神经网络计算后输出决策,并且与虚拟驾驶环境进行交互,得到本次决策的奖励,根据图神经网络和DQN强化学习方法的损失函数对参数进行更新;
将新的状态节点表示作为强化学习智能体的输入,强化学习智能体根据新的状态节点表示进行学习,最终输出自动驾驶辅助执行策略,调整汽车驾驶状态。
作为优选的技术方案,所述虚拟驾驶环境包括状态空间、动作空间和奖励函数,状态空间为当前的路况,动作空间为根据当前状态做出的决策,奖励函数包括奖励部分和惩罚部分,奖励部分为DQN强化学习方法正常驾驶的时间与比例因子的乘积,惩罚部分为智能体输出的决策使汽车不安全的驾驶行为。
作为优选的技术方案,所述图自动编码器采用图卷积网络,包括编码器和解码器,利用邻接矩阵和节点的特征矩阵作为输入,通过编码器进行特征提取,获得数据的高级特征,再通过解码器计算任意两个节点之间存在边的概率重构图,根据生成图和原始图的差异进行参数的迭代优化。
作为优选的技术方案,图自动编码器和DQN强化学习方法为交替训练关系,更新过程如下:
DQN强化学习方法采用基于价值的强化学习算法,初始化基于价值的强化学习算法,与驾驶时间序列数据构成的环境进行交互;
将每批驾驶时间序列数据中相同的状态或者动作作为起点,获取其n阶邻居,将其转化为图结构;
将该图结构的邻接矩阵和节点的特征矩阵输入到图自动编码器中进行自动特征工程,不断迭代,更新每个原始状态节点的新的表示;
根据新的状态节点的表示输入到基于价值的强化学习算法中进行训练。
作为优选的技术方案,所述经过多轮与虚拟驾驶环境的交互,得到多个交互序列并存储至线性缓冲区,多个交互序列具体表示为:
Figure 957363DEST_PATH_IMAGE001
其中,LN表示经过N轮交互得到的交互序列,s表示驾驶状态,a表示输出的决策,i表示交互的轮数,j表示每一轮中的步数。
作为优选的技术方案,所述图自动编码器按照如下公式进行更新:
Figure DEST_PATH_IMAGE002
/>
其中,X表示为图结构节点的特征矩阵,A表示为图结构的邻接矩阵,GCN为图卷积网络拟合的函数,Z为经过图自动编码器后得到的隐向量,L为损失函数,具体形式为p分布和q分布的KL散度,
Figure 982826DEST_PATH_IMAGE003
表示期望。
作为优选的技术方案,所述DQN强化学习方法采用基于价值的强化学习算法,具体更新方式为:
Figure DEST_PATH_IMAGE004
其中,(s,a)表示某一步数的状态和动作;(S,A)表示一轮的状态与动作的集合;q表示目标网络对环境下一状态的估值和环境返回奖励之和,
Figure 559301DEST_PATH_IMAGE005
表示基于价值的强化学习算法的网络参数;/>
Figure DEST_PATH_IMAGE006
表示基于价值的强化学习算法目标网络对下一状态s和动作空间a的估值的权重;/>
Figure 829876DEST_PATH_IMAGE007
表示梯度优化的方向;/>
Figure DEST_PATH_IMAGE008
表示学习率;/>
Figure 18150DEST_PATH_IMAGE009
表示基于价值的强化学习算法中目标网络对某状态下执行不同动作估值的最大值,/>
Figure DEST_PATH_IMAGE010
表示目标网络/>
Figure 247137DEST_PATH_IMAGE011
对状态集合和动作集合的估值;r表示环境返回的奖励。
为了达到上述第二目的,本发明采用以下技术方案:
一种基于网络演化重放缓冲区的自动驾驶辅助决策系统,包括:模型构建模块、初始化模块、决策训练模块和驾驶策略输出模块;
所述模型构建模块用于构建虚拟驾驶环境,使用图神经网络建立图自动编码器,使用DQN强化学习方法建立驾驶决策预测模型;
所述初始化模块用于初始化基于图数据结构的重放缓冲区、线性缓冲区、搜索邻居阶数K和子图节点个数W,同时子图的节点个数W小于重放缓冲区的状态节点个数;
所述决策训练模块用于获取存储器上的数据构造环境,强化学习智能体根据虚拟驾驶环境当前所处于的驾驶状态输出决策,经过多轮与虚拟驾驶环境的交互,得到多个交互序列并存储至线性缓冲区:
遍历线性缓冲区,计算每两个状态节点之间的余弦相似度,将相似度达到预设阈值的两个状态节点进行连接,基于以上两个状态节点的连接规则形成包含状态节点集合和动作节点集合的基于图数据结构的重放缓冲区;
根据均匀分布随机选择重放缓冲区的一个状态节点,基于该状态节点进行K阶邻居的深度遍历搜索,当搜索邻居节点的个数为W-1时则停止搜索,最终得到一个节点个数为W的子图;
利用图自动编码器对子图进行编码,获得该子图各个节点的表示,将除了状态节点之后的所有节点进行均值处理,最终得到状态节点所有邻居节点的总体表示,并且与原本状态节点进行拼接形成DQN强化学习方法的输入,经过DQN强化学习方法中的深度神经网络计算后输出决策,并且与虚拟驾驶环境进行交互,得到本次决策的奖励,根据图神经网络和DQN强化学习方法的损失函数对参数进行更新;
所述驾驶策略输出模块用于将新的状态节点表示作为强化学习智能体的输入,强化学习智能体根据新的状态节点表示进行学习,最终输出自动驾驶辅助执行策略,调整汽车驾驶状态。
为了达到上述第三目的,本发明采用以下技术方案:
一种计算机可读存储介质,存储有程序,所述程序被处理器执行时实现如上述基于网络演化重放缓冲区的自动驾驶辅助决策方法。
为了达到上述第四目的,本发明采用以下技术方案:
一种计算机设备,包括处理器和用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现如上述基于网络演化重放缓冲区的自动驾驶辅助决策方法。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明引入了图神经网络非欧式空间的特征提取能力,相比传统获取孤立节点信息的做法,可以在图结构上获取包含邻居信息的节点表示。
(2)本发明提出将强化学习算法中的线性重放缓冲区转化为基于图结构的重放缓冲区,针对线性重放缓冲区难以表达时序状态的承继关系的问题,利用图神经网络的节点表示能力,获取包含邻居信息的状态节点表示,一方面解决了样本相关性的问题,另一方面仍然保留邻居信息,有助于加快算法的收敛速度,能够更加快速解决动态的、依赖时间顺序的决策问题。
附图说明
图1为本发明基于网络演化重放缓冲区的自动驾驶辅助决策方法的流程示意图;
图2为本发明序列数据转化成图结构的示意图;
图3为本发明聚类后构成新的样本空间的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
如图1所示,本实施例提供一种基于网络演化重放缓冲区的自动驾驶辅助决策方法,包括虚拟驾驶环境的建立,图自动编码器和基于DQN的强化学习预测模型。本实施例使用强化学习智能体与虚拟驾驶环境进行交互,也就是做出驾驶决策,使得虚拟驾驶环境的状态发生变化,获取足够多的驾驶决策的序列数据并且保存在线性的缓冲区,然后根据相同取值的状态信息或者相同决策的数据作为枢纽转化成包含状态节点集合和动作节点集合的基于图结构的重放缓冲区;再基于该重放缓冲区进行深度遍历搜索得到子图,将子图输入到图自动编码器中进行特征提取,获取包含邻居信息的新的状态节点表示。
具体步骤包括:
S1、构建虚拟驾驶环境,使用图神经网络建立图自动编码器,使用DQN强化学习方法建立驾驶决策预测模型。初始化基于图数据结构的重放缓冲区G、线性缓冲区L、搜索邻居阶数K和子图节点个数W,同时子图的节点个数W应该小于重放缓冲区G的状态节点个数;
虚拟驾驶环境包括状态空间,动作空间和奖励函数三个部分,其中,状态空间为此时的路况,例如车辆附近障碍物的数量,车辆与周围障碍物的距离,当前车速,当前方向盘的角度等,而动作空间为根据现在的状态而做出的决策,一般为方向盘的调整角度,车速的控制等。奖励函数主要分为奖励和惩罚两个部分,奖励部分为DQN强化学习方法正常驾驶的时间与比例因子的乘积,惩罚部分为智能体输出的决策使汽车碰到障碍物,或者方向盘调整幅度过大不安全的驾驶行为等。
S2、如图2、图3所示,获取存储器上的数据构造环境,强化学习智能体根据虚拟驾驶环境目前所处于的状态s i 输出决策,状态s i 包括当前车速、当前方向盘所处角度、障碍物的数量、障碍物的分布情况等,其中a i 主要包括方向盘角度调整参数、车速调整参数等,那么虚拟驾驶环境的状态就是发生相应的变化也就是从s i s i+1 并且虚拟驾驶环境还会根据事先设定的奖励函数R(s i a i )得到本次决策的a i 奖励值r i ;当交互的次数足够多,就能将以上的交互序列
Figure DEST_PATH_IMAGE012
保存到线性缓冲区,经过多轮与虚拟驾驶环境的交互,则可以得到多个交互序列/>
Figure 888072DEST_PATH_IMAGE001
,LN表示经过N轮交互得到的交互序列,s表示驾驶状态,a表示输出的决策,i表示交互的轮数,j表示每一轮中的步数。
S3、遍历线性缓冲区L,计算每两个状态之间余弦相似度
Figure 634442DEST_PATH_IMAGE013
,相似度较高的两个状态节点(也就是当前车速、当前方向盘和路况信息等高度相似)进行连接,同时由于动作的取值集合有限,因此可以根据做出相同决策a的两个状态进行连接。基于以上两个状态节点的连接规则就能保证形成一个包含状态节点集合S和动作节点集合A的基于图结构重放缓冲区G;
S4、根据均匀分布随机选择重放缓冲区G的一个状态节点s k ,之后基于该节点进行K阶邻居的深度遍历搜索,当搜索邻居节点的个数为W-1时则停止搜索,最终得到一个节点个数为W的子图;
在本实施例中,按照均匀分布随机选择一个状态节点是为了可以充分选取重放缓冲区G的所有节点,使得每一个子图都会被考虑在内。
S5、利用图自动编码器对子图进行编码,获得该子图各个节点的表示,将除了节点s k 之后的所有节点进行均值处理,最终得到节点s k 所有邻居节点的总体表示n k ,并且与原本状态节点s k 进行拼接形成DQN算法的输入,经过DQN算法中的深度神经网络计算后输出决策a k ,并且与虚拟驾驶环境进行交互,得到本次决策的奖励r k ,根据图神经网络和DQN方法的损失函数对参数进行更新;
在模型的迭代过程中,强化学习智能体会与虚拟驾驶环境交互产生数据并且转化成包含动作a i 和状态节点s i 的图结构,同时图自动编码器会结合节点特征和邻居信息,也就是汽车的当前状况(车速,方向盘所处角度和路况信息等)以及与该状况相似的一些节点,不断更新邻居节点的表示,当图神经网络收敛之后,之后与当前选择的状态节点s i 进行拼接,那么拼接之后就具有包含了当前状态节点以及邻近节点的全局信息,也就会修改了强化学习智能体交互的状态的特征,因此强化学习智能体根据新的状态节点表示进行学习,由于新的状态节点结合了邻居节点的信息,可以参考邻居节点所采取的决策同时也具有全局信息,使得强化学习智能体给出的驾驶决策更加具有可解释性,再通过强化学习智能体与环境不断交互得到学习样本,最终获得一个更加准确和具有可解释性的执行策略π(s i )=a i ,该执行策略可以根据当前汽车的车速、方向盘的位置、附近障碍物的数量和附近障碍物的分布情况等给出具体的驾驶决策,也就是调整方向盘的角度和车速调整的幅度。
其中,图自动编码器会根据原子图和重构子图前后的差异和虚拟驾驶环境返回的奖励值的加权平均进行图神经网络参数的更新,而强化学习算法则只根据返回的奖励值进行网络参数的更新。
基于价值的强化学习算法的特征提取层为卷积神经网络或者全连接神经网络。
在本实施例中,图自动编码器和基于价值的强化学习DQN算法为交替训练关系,更新过程如下:
(1)初始化基于价值的强化学习算法,与驾驶时间序列数据构成的环境进行交互;
(2)如图2所示,把每批序列数据中相同的状态或者动作作为起点,获取其n阶邻居,将其转化为图结构;
(3)将该图结构的邻接矩阵和节点的特征矩阵输入到图自动编码器中进行自动特征工程,不断迭代,最后使图自动编码器生成图与原始图的差异足够小,更新每个原始状态节点的新的表示;
(4)再根据新的状态节点的表示输入到基于价值的强化学习算法中进行训练,使强化学习算法可以更快地收敛到最优策略;
在本实施例中,可应用的图自动编码器范围广泛,包括但不限于图深度学习领域中对图结构数据进行特征抽取的图卷积网络、图循环网络;预测模型范围广泛,包括但不限于全连接神经网络、卷积神经网络和循环神经网络等深度神经网络,可根据实际需要灵活选择。
S5、将新的状态节点表示作为强化学习智能体的输入。
在本实施例中,时态序列预测模型(即驾驶决策预测模型)采用off-policy的深度强化学习模型方法进行训练;时态序列的预测模型为基于价值的强化学习算法;预测模型迭代更新是根据深度强化学习模型对当前状态的估值和环境奖励之和的差异进行更新。图自动编码器为图卷积网络,由编码器和解码器组成,图自动编码器是根据图的重构损失进行更新的,利用邻接矩阵和节点的特征矩阵作为输入,通过编码器进行特征提取,获得数据的高级特征,再通过解码器计算任意两个节点之间存在边的概率来重构图,根据生成图和原始图的差异进行参数的迭代优化。
图自动编码器的按照如下公式进行更新:
Figure DEST_PATH_IMAGE014
其中,X表示为图结构节点的特征矩阵,A表示为图结构的邻接矩阵,GCN为图卷积网络拟合的函数,Z为经过图自动编码器后得到的隐向量,L为损失函数,具体形式为p分布和q分布的KL散度,
Figure 834479DEST_PATH_IMAGE003
表示期望。
在本实施例中,基于价值的强化学习算法按照如下更新公式进行更新:
Figure 139427DEST_PATH_IMAGE015
其中,(s,a)表示某一步数的状态和动作;(S,A)表示一轮的状态与动作的集合;q表示目标网络对环境下一状态的估值和环境返回奖励之和,
Figure 956074DEST_PATH_IMAGE005
表示基于价值的强化学习算法的网络参数;/>
Figure 37293DEST_PATH_IMAGE006
表示基于价值的强化学习算法目标网络对下一状态s和动作空间a的估值的权重;/>
Figure 622995DEST_PATH_IMAGE007
表示梯度优化的方向;/>
Figure 787260DEST_PATH_IMAGE008
表示学习率;/>
Figure 74891DEST_PATH_IMAGE009
表示基于价值的强化学习算法中目标网络对某状态下执行不同动作估值的最大值,/>
Figure 209069DEST_PATH_IMAGE010
表示目标网络/>
Figure 400010DEST_PATH_IMAGE011
对状态集合和动作集合的估值;r表示环境返回的奖励。
在公式4中,q为目标网络对环境下一状态的估值和环境返回奖励之和,也就是基于价值的强化学习模型中对于状态价值的估计值;公式5为模型参数的更新公式。
本发明针对传统线性的重放缓冲区问题,构造图结构的重放缓冲区结构,引入图神经网络表示技术,所得到的节点表示包含了更多邻居节点信息,强化学习预测模型利用新的包含邻居节点信息的状态表示进行学习,并且根据奖励函数不断修正参数化的动作策略,使动作策略的参数不断往使奖励函数最大化的方向进行调整,最终收敛至最优的策略。
本发明可以应用在时态序列预测及处理领域,更加快速解决各类动态的、依赖时间顺序的决策问题,例如动驾驶领域辅助决策领域和游戏控制领域等序列决策问题。
实施例2
一种基于网络演化重放缓冲区的自动驾驶辅助决策系统,包括:模型构建模块、初始化模块、决策训练模块和驾驶策略输出模块;
在本实施例中,模型构建模块用于构建虚拟驾驶环境,使用图神经网络建立图自动编码器,使用DQN强化学习方法建立驾驶决策预测模型;
在本实施例中,初始化模块用于初始化基于图数据结构的重放缓冲区、线性缓冲区、搜索邻居阶数K和子图节点个数W,同时子图的节点个数W小于重放缓冲区的状态节点个数;
在本实施例中,决策训练模块用于获取存储器上的数据构造环境,强化学习智能体根据虚拟驾驶环境当前所处于的驾驶状态输出决策,经过多轮与虚拟驾驶环境的交互,得到多个交互序列并存储至线性缓冲区:
遍历线性缓冲区,计算每两个状态节点之间的余弦相似度,将相似度达到预设阈值的两个状态节点进行连接,基于以上两个状态节点的连接规则形成包含状态节点集合和动作节点集合的基于图数据结构的重放缓冲区;
根据均匀分布随机选择重放缓冲区的一个状态节点,基于该状态节点进行K阶邻居的深度遍历搜索,当搜索邻居节点的个数为W-1时则停止搜索,最终得到一个节点个数为W的子图;
利用图自动编码器对子图进行编码,获得该子图各个节点的表示,将除了状态节点之后的所有节点进行均值处理,最终得到状态节点所有邻居节点的总体表示,并且与原本状态节点进行拼接形成DQN强化学习方法的输入,经过DQN强化学习方法中的深度神经网络计算后输出决策,并且与虚拟驾驶环境进行交互,得到本次决策的奖励,根据图神经网络和DQN强化学习方法的损失函数对参数进行更新;
在本实施例中,驾驶策略输出模块用于将新的状态节点表示作为强化学习智能体的输入,强化学习智能体根据新的状态节点表示进行学习,最终输出自动驾驶辅助执行策略,调整汽车驾驶状态。
实施例3
本实施例提供一种存储介质,存储介质可以是ROM、RAM、磁盘、光盘等储存介质,该存储介质存储有一个或多个程序,程序被处理器执行时,实现实施例1的基于网络演化重放缓冲区的自动驾驶辅助决策方法。
实施例4
本实施例提供一种计算设备,该计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备,该计算设备包括处理器和存储器,存储器存储有一个或多个程序,处理器执行存储器存储的程序时,实现实施例1的基于网络演化重放缓冲区的自动驾驶辅助决策方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于网络演化重放缓冲区的自动驾驶辅助决策方法,其特征在于,包括下述步骤:
构建虚拟驾驶环境,使用图神经网络建立图自动编码器,使用DQN强化学习方法建立驾驶决策预测模型;
初始化基于图数据结构的重放缓冲区、线性缓冲区、搜索邻居阶数K和子图节点个数W,同时子图的节点个数W小于重放缓冲区的状态节点个数;
获取存储器上的数据构造环境,强化学习智能体根据虚拟驾驶环境当前所处于的驾驶状态输出决策,经过多轮与虚拟驾驶环境的交互,得到多个交互序列并存储至线性缓冲区:
遍历线性缓冲区,计算每两个状态节点之间的余弦相似度,将相似度达到预设阈值的两个状态节点进行连接,基于以上两个状态节点的连接规则形成包含状态节点集合和动作节点集合的基于图数据结构的重放缓冲区;
根据均匀分布随机选择重放缓冲区的一个状态节点,基于该状态节点进行K阶邻居的深度遍历搜索,当搜索邻居节点的个数为W-1时则停止搜索,最终得到一个节点个数为W的子图;
利用图自动编码器对子图进行编码,获得该子图各个节点的表示,将除了状态节点之后的所有节点进行均值处理,最终得到状态节点所有邻居节点的总体表示,并且与原本状态节点进行拼接形成DQN强化学习方法的输入,经过DQN强化学习方法中的深度神经网络计算后输出决策,并且与虚拟驾驶环境进行交互,得到本次决策的奖励,根据图神经网络和DQN强化学习方法的损失函数对参数进行更新;
图自动编码器和DQN强化学习方法为交替训练关系,更新过程如下:
DQN强化学习方法采用基于价值的强化学习算法,初始化基于价值的强化学习算法,与驾驶时间序列数据构成的环境进行交互;
将每批驾驶时间序列数据中相同的状态或者动作作为起点,获取其n阶邻居,将其转化为图结构;
将该图结构的邻接矩阵和节点的特征矩阵输入到图自动编码器中进行自动特征工程,不断迭代,更新每个原始状态节点的新的表示;
根据新的状态节点的表示输入到基于价值的强化学习算法中进行训练;
将新的状态节点表示作为强化学习智能体的输入,强化学习智能体根据新的状态节点表示进行学习,最终输出自动驾驶辅助执行策略,调整汽车驾驶状态。
2.根据权利要求1所述的基于网络演化重放缓冲区的自动驾驶辅助决策方法,其特征在于,所述虚拟驾驶环境包括状态空间、动作空间和奖励函数,状态空间为当前的路况,动作空间为根据当前状态做出的决策,奖励函数包括奖励部分和惩罚部分,奖励部分为DQN强化学习方法正常驾驶的时间与比例因子的乘积,惩罚部分为智能体输出的决策使汽车不安全的驾驶行为。
3.根据权利要求1所述的基于网络演化重放缓冲区的自动驾驶辅助决策方法,其特征在于,所述图自动编码器采用图卷积网络,包括编码器和解码器,利用邻接矩阵和节点的特征矩阵作为输入,通过编码器进行特征提取,获得数据的高级特征,再通过解码器计算任意两个节点之间存在边的概率重构图,根据生成图和原始图的差异进行参数的迭代优化。
4.根据权利要求1所述的基于网络演化重放缓冲区的自动驾驶辅助决策方法,其特征在于,所述经过多轮与虚拟驾驶环境的交互,得到多个交互序列并存储至线性缓冲区,多个交互序列具体表示为:
LN={(s1i,a1i),...,(sij,aij)}N
其中,LN表示经过N轮交互得到的交互序列,s表示驾驶状态,a表示输出的决策,i表示交互的轮数,j表示每一轮中的步数。
5.根据权利要求1所述的基于网络演化重放缓冲区的自动驾驶辅助决策方法,其特征在于,所述图自动编码器按照如下公式进行更新:
Z=GCN(X,A)
Figure FDA0004162079850000031
Figure FDA0004162079850000032
其中,X表示为图结构节点的特征矩阵,A表示为图结构的邻接矩阵,GCN为图卷积网络拟合的函数,Z为经过图自动编码器后得到的隐向量,L为损失函数,具体形式为p分布和q分布的KL散度,
Figure FDA0004162079850000033
表示期望。
6.根据权利要求1所述的基于网络演化重放缓冲区的自动驾驶辅助决策方法,其特征在于,所述DQN强化学习方法采用基于价值的强化学习算法,具体更新方式为:
q=r+γmaxQ(s,a;ω)
Figure FDA0004162079850000034
其中,(s,a)表示某一步数的状态和动作;(S,A)表示一轮的状态与动作的集合;q表示目标网络对环境下一状态的估值和环境返回奖励之和,ω表示基于价值的强化学习算法的网络参数;γ表示基于价值的强化学习算法目标网络对下一状态s和动作空间a的估值的权重;
Figure FDA0004162079850000035
表示梯度优化的方向;α表示学习率;maxQ(s,a:ωi)表示基于价值的强化学习算法中目标网络对某状态下执行不同动作估值的最大值,Q(S,A;ω)表示目标网络ωi对状态集合和动作集合的估值;r表示环境返回的奖励。
7.一种基于网络演化重放缓冲区的自动驾驶辅助决策系统,其特征在于,包括:模型构建模块、初始化模块、决策训练模块和驾驶策略输出模块;
所述模型构建模块用于构建虚拟驾驶环境,使用图神经网络建立图自动编码器,使用DQN强化学习方法建立驾驶决策预测模型;
所述初始化模块用于初始化基于图数据结构的重放缓冲区、线性缓冲区、搜索邻居阶数K和子图节点个数W,同时子图的节点个数W小于重放缓冲区的状态节点个数;
所述决策训练模块用于获取存储器上的数据构造环境,强化学习智能体根据虚拟驾驶环境当前所处于的驾驶状态输出决策,经过多轮与虚拟驾驶环境的交互,得到多个交互序列并存储至线性缓冲区:
遍历线性缓冲区,计算每两个状态节点之间的余弦相似度,将相似度达到预设阈值的两个状态节点进行连接,基于以上两个状态节点的连接规则形成包含状态节点集合和动作节点集合的基于图数据结构的重放缓冲区;
根据均匀分布随机选择重放缓冲区的一个状态节点,基于该状态节点进行K阶邻居的深度遍历搜索,当搜索邻居节点的个数为W-1时则停止搜索,最终得到一个节点个数为W的子图;
利用图自动编码器对子图进行编码,获得该子图各个节点的表示,将除了状态节点之后的所有节点进行均值处理,最终得到状态节点所有邻居节点的总体表示,并且与原本状态节点进行拼接形成DQN强化学习方法的输入,经过DQN强化学习方法中的深度神经网络计算后输出决策,并且与虚拟驾驶环境进行交互,得到本次决策的奖励,根据图神经网络和DQN强化学习方法的损失函数对参数进行更新;
图自动编码器和DQN强化学习方法为交替训练关系,更新过程如下:
DQN强化学习方法采用基于价值的强化学习算法,初始化基于价值的强化学习算法,与驾驶时间序列数据构成的环境进行交互;
将每批驾驶时间序列数据中相同的状态或者动作作为起点,获取其n阶邻居,将其转化为图结构;
将该图结构的邻接矩阵和节点的特征矩阵输入到图自动编码器中进行自动特征工程,不断迭代,更新每个原始状态节点的新的表示;
根据新的状态节点的表示输入到基于价值的强化学习算法中进行训练;
所述驾驶策略输出模块用于将新的状态节点表示作为强化学习智能体的输入,强化学习智能体根据新的状态节点表示进行学习,最终输出自动驾驶辅助执行策略,调整汽车驾驶状态。
8.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6任一项所述基于网络演化重放缓冲区的自动驾驶辅助决策方法。
9.一种计算机设备,包括处理器和用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现如权利要求1-6任一项所述基于网络演化重放缓冲区的自动驾驶辅助决策方法。
CN202210562890.XA 2022-05-23 2022-05-23 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统 Active CN115009291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210562890.XA CN115009291B (zh) 2022-05-23 2022-05-23 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210562890.XA CN115009291B (zh) 2022-05-23 2022-05-23 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统

Publications (2)

Publication Number Publication Date
CN115009291A CN115009291A (zh) 2022-09-06
CN115009291B true CN115009291B (zh) 2023-05-23

Family

ID=83068401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210562890.XA Active CN115009291B (zh) 2022-05-23 2022-05-23 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统

Country Status (1)

Country Link
CN (1) CN115009291B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115688861B (zh) * 2022-10-28 2023-08-01 北京理工大学 一种用于混合交通环境行为决策的模块化图强化学习系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019023628A1 (en) * 2017-07-27 2019-01-31 Waymo Llc NEURAL NETWORKS FOR VEHICLE TRACK PLANNING
JP7346401B2 (ja) * 2017-11-10 2023-09-19 エヌビディア コーポレーション 安全で信頼できる自動運転車両のためのシステム及び方法
US10733510B2 (en) * 2018-08-24 2020-08-04 Ford Global Technologies, Llc Vehicle adaptive learning
CN111310915B (zh) * 2020-01-21 2023-09-01 浙江工业大学 一种面向强化学习的数据异常检测防御方法
CN113692021B (zh) * 2021-08-16 2023-11-28 北京理工大学 一种基于亲密度的5g网络切片智能资源分配方法

Also Published As

Publication number Publication date
CN115009291A (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN110262511B (zh) 基于深度强化学习的双足机器人自适应性行走控制方法
Tessler et al. A deep hierarchical approach to lifelong learning in minecraft
CN111260027B (zh) 一种基于强化学习的智能体自动决策方法
CN111461325B (zh) 一种用于稀疏奖励环境问题的多目标分层强化学习算法
CN113051815B (zh) 一种基于独立指针网络的敏捷成像卫星任务规划方法
CN115009291B (zh) 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统
CN114860893A (zh) 基于多模态数据融合与强化学习的智能决策方法及装置
CN111707270A (zh) 一种基于分布估计和强化学习的无地图避障导航方法
CN114839884B (zh) 一种基于深度强化学习的水下航行器底层控制方法及系统
CN112613608A (zh) 一种强化学习方法及相关装置
CN115409158A (zh) 基于分层深度强化学习模型的机器人行为决策方法及设备
CN113276852B (zh) 一种基于最大熵强化学习框架的无人驾驶车道保持方法
CN113947022B (zh) 一种基于模型的近端策略优化方法
CN114493013A (zh) 基于强化学习的智能体路径规划方法、电子设备及介质
CN114626598A (zh) 一种基于语义环境建模的多模态轨迹预测方法
CN115630566B (zh) 一种基于深度学习和动力约束的资料同化方法和系统
CN112595326A (zh) 一种融合先验知识的改进Q-learning路径规划算法
Desai et al. Auxiliary tasks for efficient learning of point-goal navigation
CN113240118B (zh) 优势估计方法、装置、电子设备和存储介质
CN115457240A (zh) 图像目标驱动导航方法、装置、设备和存储介质
CN114911157A (zh) 基于部分可观测强化学习的机器人导航控制方法及系统
CN114596464A (zh) 多特征交互的无监督目标检测方法、系统、电子设备和可读存储介质
CN114662656A (zh) 一种深度神经网络模型训练方法、自主导航方法及系统
CN116822659B (zh) 自动驾驶运动技能学习方法、系统、设备及计算机介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant