CN115009291B

CN115009291B - 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统

Info

Publication number: CN115009291B
Application number: CN202210562890.XA
Authority: CN
Inventors: 汤胤; 陈永健; 高婉婷; 李泽峥; 廖冬雪
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2023-05-23
Anticipated expiration: 2042-05-23
Also published as: CN115009291A

Abstract

本发明公开了一种基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统，该方法步骤包括：使用强化学习智能体对基于驾驶时态序列数据的环境进行交互，根据相同取值的状态或者动作的数据作为枢纽转化成包含状态节点集合和动作节点集合的基于图结构的重放缓冲区；再基于该重放缓冲区进行深度遍历搜索得到子图，将子图输入到图自动编码器中进行特征提取，获取包含邻居信息的新的状态节点表示。根据新的状态节点表示进行学习，最终输出自动驾驶辅助执行策略，调整汽车驾驶状态。本发明利用图神经网络的节点表示能力，获取包含邻居信息的状态节点表示，一方面解决了样本相关性的问题，另一方面仍然保留邻居信息，能够更加快速解决决策问题。

Description

基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统

技术领域

本发明涉及自动驾驶辅助决策技术领域，具体涉及一种基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统。

背景技术

强化学习是由环境和智能体两个部分组成，智能体通过与环境的不断交互，并且根据设计的激励函数的反馈，最终得到最优的决策策略，现有的强化学习算法利用了深度神经网络作为特征提取层，因此必须假设样本之间是独立同分布的。这种假设会忽略样本与样本之间的联系以及结构信息，导致只能学习到次优的策略；

另外，传统获取孤立节点信息的做法无法关联获取邻居信息，存在对线性重放缓冲区难以表达时序状态的承继关系的问题。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于网络演化重放缓冲区的自动驾驶辅助决策方法，本发明利用图结构对驾驶时态序列样本构建样本之间的关联关系，并且利用强化学习算法获得最优的策略，对序列数据做建模，将序列数据转化成图结构的形式，将样本之间的相关性考虑在内；当序列数据转换成图结构数据之后，采用图神经网络的方法在非欧式空间的数据上提取特征，形成结合邻居节点信息的节点表示，再使用强化学习方法对包含邻居信息的节点表示进行学习，能够获得更加全面、更加具有可解释性的效果。

本发明的第二目的在于提供一种基于网络演化重放缓冲区的自动驾驶辅助决策系统。

本发明的第三目的在于提供一种计算机可读存储介质。

本发明的第四目的在于提供一种计算设备。

为了达到上述目的，本发明采用以下技术方案：

一种基于网络演化重放缓冲区的自动驾驶辅助决策方法，包括下述步骤：

构建虚拟驾驶环境，使用图神经网络建立图自动编码器，使用DQN强化学习方法建立驾驶决策预测模型；

初始化基于图数据结构的重放缓冲区、线性缓冲区、搜索邻居阶数K和子图节点个数W，同时子图的节点个数W小于重放缓冲区的状态节点个数；

获取存储器上的数据构造环境，强化学习智能体根据虚拟驾驶环境当前所处于的驾驶状态输出决策，经过多轮与虚拟驾驶环境的交互，得到多个交互序列并存储至线性缓冲区：

遍历线性缓冲区，计算每两个状态节点之间的余弦相似度，将相似度达到预设阈值的两个状态节点进行连接，基于以上两个状态节点的连接规则形成包含状态节点集合和动作节点集合的基于图数据结构的重放缓冲区；

根据均匀分布随机选择重放缓冲区的一个状态节点，基于该状态节点进行K阶邻居的深度遍历搜索，当搜索邻居节点的个数为W-1时则停止搜索，最终得到一个节点个数为W的子图；

利用图自动编码器对子图进行编码，获得该子图各个节点的表示，将除了状态节点之后的所有节点进行均值处理，最终得到状态节点所有邻居节点的总体表示，并且与原本状态节点进行拼接形成DQN强化学习方法的输入，经过DQN强化学习方法中的深度神经网络计算后输出决策，并且与虚拟驾驶环境进行交互，得到本次决策的奖励，根据图神经网络和DQN强化学习方法的损失函数对参数进行更新；

将新的状态节点表示作为强化学习智能体的输入，强化学习智能体根据新的状态节点表示进行学习，最终输出自动驾驶辅助执行策略，调整汽车驾驶状态。

作为优选的技术方案，所述虚拟驾驶环境包括状态空间、动作空间和奖励函数，状态空间为当前的路况，动作空间为根据当前状态做出的决策，奖励函数包括奖励部分和惩罚部分，奖励部分为DQN强化学习方法正常驾驶的时间与比例因子的乘积，惩罚部分为智能体输出的决策使汽车不安全的驾驶行为。

作为优选的技术方案，所述图自动编码器采用图卷积网络，包括编码器和解码器，利用邻接矩阵和节点的特征矩阵作为输入，通过编码器进行特征提取，获得数据的高级特征，再通过解码器计算任意两个节点之间存在边的概率重构图，根据生成图和原始图的差异进行参数的迭代优化。

作为优选的技术方案，图自动编码器和DQN强化学习方法为交替训练关系，更新过程如下：

DQN强化学习方法采用基于价值的强化学习算法，初始化基于价值的强化学习算法，与驾驶时间序列数据构成的环境进行交互；

将每批驾驶时间序列数据中相同的状态或者动作作为起点，获取其n阶邻居，将其转化为图结构；

将该图结构的邻接矩阵和节点的特征矩阵输入到图自动编码器中进行自动特征工程，不断迭代，更新每个原始状态节点的新的表示；

根据新的状态节点的表示输入到基于价值的强化学习算法中进行训练。

作为优选的技术方案，所述经过多轮与虚拟驾驶环境的交互，得到多个交互序列并存储至线性缓冲区，多个交互序列具体表示为：

其中，LN表示经过N轮交互得到的交互序列，s表示驾驶状态，a表示输出的决策，i表示交互的轮数，j表示每一轮中的步数。

作为优选的技术方案，所述图自动编码器按照如下公式进行更新：

/>

其中，X表示为图结构节点的特征矩阵，A表示为图结构的邻接矩阵，GCN为图卷积网络拟合的函数，Z为经过图自动编码器后得到的隐向量，L为损失函数，具体形式为p分布和q分布的KL散度，

表示期望。

作为优选的技术方案，所述DQN强化学习方法采用基于价值的强化学习算法，具体更新方式为：

其中，（s,a）表示某一步数的状态和动作；（S,A）表示一轮的状态与动作的集合；q表示目标网络对环境下一状态的估值和环境返回奖励之和，

表示基于价值的强化学习算法的网络参数；/>

表示基于价值的强化学习算法目标网络对下一状态s和动作空间a的估值的权重；/>

表示梯度优化的方向；/>

表示学习率；/>

表示基于价值的强化学习算法中目标网络对某状态下执行不同动作估值的最大值，/>

表示目标网络/>

对状态集合和动作集合的估值；r表示环境返回的奖励。

为了达到上述第二目的，本发明采用以下技术方案：

一种基于网络演化重放缓冲区的自动驾驶辅助决策系统，包括：模型构建模块、初始化模块、决策训练模块和驾驶策略输出模块；

所述模型构建模块用于构建虚拟驾驶环境，使用图神经网络建立图自动编码器，使用DQN强化学习方法建立驾驶决策预测模型；

所述初始化模块用于初始化基于图数据结构的重放缓冲区、线性缓冲区、搜索邻居阶数K和子图节点个数W，同时子图的节点个数W小于重放缓冲区的状态节点个数；

所述决策训练模块用于获取存储器上的数据构造环境，强化学习智能体根据虚拟驾驶环境当前所处于的驾驶状态输出决策，经过多轮与虚拟驾驶环境的交互，得到多个交互序列并存储至线性缓冲区：

所述驾驶策略输出模块用于将新的状态节点表示作为强化学习智能体的输入，强化学习智能体根据新的状态节点表示进行学习，最终输出自动驾驶辅助执行策略，调整汽车驾驶状态。

为了达到上述第三目的，本发明采用以下技术方案：

一种计算机可读存储介质，存储有程序，所述程序被处理器执行时实现如上述基于网络演化重放缓冲区的自动驾驶辅助决策方法。

为了达到上述第四目的，本发明采用以下技术方案：

一种计算机设备，包括处理器和用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现如上述基于网络演化重放缓冲区的自动驾驶辅助决策方法。

本发明与现有技术相比，具有如下优点和有益效果：

（1）本发明引入了图神经网络非欧式空间的特征提取能力，相比传统获取孤立节点信息的做法，可以在图结构上获取包含邻居信息的节点表示。

（2）本发明提出将强化学习算法中的线性重放缓冲区转化为基于图结构的重放缓冲区，针对线性重放缓冲区难以表达时序状态的承继关系的问题，利用图神经网络的节点表示能力，获取包含邻居信息的状态节点表示，一方面解决了样本相关性的问题，另一方面仍然保留邻居信息，有助于加快算法的收敛速度，能够更加快速解决动态的、依赖时间顺序的决策问题。

附图说明

图1为本发明基于网络演化重放缓冲区的自动驾驶辅助决策方法的流程示意图；

图2为本发明序列数据转化成图结构的示意图；

图3为本发明聚类后构成新的样本空间的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

如图1所示，本实施例提供一种基于网络演化重放缓冲区的自动驾驶辅助决策方法，包括虚拟驾驶环境的建立，图自动编码器和基于DQN的强化学习预测模型。本实施例使用强化学习智能体与虚拟驾驶环境进行交互，也就是做出驾驶决策，使得虚拟驾驶环境的状态发生变化，获取足够多的驾驶决策的序列数据并且保存在线性的缓冲区，然后根据相同取值的状态信息或者相同决策的数据作为枢纽转化成包含状态节点集合和动作节点集合的基于图结构的重放缓冲区；再基于该重放缓冲区进行深度遍历搜索得到子图，将子图输入到图自动编码器中进行特征提取，获取包含邻居信息的新的状态节点表示。

具体步骤包括：

S1、构建虚拟驾驶环境，使用图神经网络建立图自动编码器，使用DQN强化学习方法建立驾驶决策预测模型。初始化基于图数据结构的重放缓冲区G、线性缓冲区L、搜索邻居阶数K和子图节点个数W，同时子图的节点个数W应该小于重放缓冲区G的状态节点个数；

虚拟驾驶环境包括状态空间，动作空间和奖励函数三个部分，其中，状态空间为此时的路况，例如车辆附近障碍物的数量，车辆与周围障碍物的距离，当前车速，当前方向盘的角度等，而动作空间为根据现在的状态而做出的决策，一般为方向盘的调整角度，车速的控制等。奖励函数主要分为奖励和惩罚两个部分，奖励部分为DQN强化学习方法正常驾驶的时间与比例因子的乘积，惩罚部分为智能体输出的决策使汽车碰到障碍物，或者方向盘调整幅度过大不安全的驾驶行为等。

S2、如图2、图3所示，获取存储器上的数据构造环境，强化学习智能体根据虚拟驾驶环境目前所处于的状态s _i输出决策，状态s _i包括当前车速、当前方向盘所处角度、障碍物的数量、障碍物的分布情况等，其中a _i主要包括方向盘角度调整参数、车速调整参数等，那么虚拟驾驶环境的状态就是发生相应的变化也就是从s _i→s _i+1并且虚拟驾驶环境还会根据事先设定的奖励函数R（s _i，a _i）得到本次决策的a _i奖励值r_i；当交互的次数足够多，就能将以上的交互序列

保存到线性缓冲区，经过多轮与虚拟驾驶环境的交互，则可以得到多个交互序列/>

，LN表示经过N轮交互得到的交互序列，s表示驾驶状态，a表示输出的决策，i表示交互的轮数，j表示每一轮中的步数。

S3、遍历线性缓冲区L，计算每两个状态之间余弦相似度

，相似度较高的两个状态节点（也就是当前车速、当前方向盘和路况信息等高度相似）进行连接，同时由于动作的取值集合有限，因此可以根据做出相同决策a的两个状态进行连接。基于以上两个状态节点的连接规则就能保证形成一个包含状态节点集合S和动作节点集合A的基于图结构重放缓冲区G；

S4、根据均匀分布随机选择重放缓冲区G的一个状态节点s _k，之后基于该节点进行K阶邻居的深度遍历搜索，当搜索邻居节点的个数为W-1时则停止搜索，最终得到一个节点个数为W的子图；

在本实施例中，按照均匀分布随机选择一个状态节点是为了可以充分选取重放缓冲区G的所有节点，使得每一个子图都会被考虑在内。

S5、利用图自动编码器对子图进行编码，获得该子图各个节点的表示，将除了节点s _k之后的所有节点进行均值处理，最终得到节点s _k所有邻居节点的总体表示n _k，并且与原本状态节点s _k进行拼接形成DQN算法的输入，经过DQN算法中的深度神经网络计算后输出决策a _k，并且与虚拟驾驶环境进行交互，得到本次决策的奖励r _k，根据图神经网络和DQN方法的损失函数对参数进行更新；

在模型的迭代过程中，强化学习智能体会与虚拟驾驶环境交互产生数据并且转化成包含动作a _i和状态节点s _i的图结构，同时图自动编码器会结合节点特征和邻居信息，也就是汽车的当前状况(车速，方向盘所处角度和路况信息等)以及与该状况相似的一些节点，不断更新邻居节点的表示，当图神经网络收敛之后，之后与当前选择的状态节点s _i进行拼接，那么拼接之后就具有包含了当前状态节点以及邻近节点的全局信息，也就会修改了强化学习智能体交互的状态的特征，因此强化学习智能体根据新的状态节点表示进行学习，由于新的状态节点结合了邻居节点的信息，可以参考邻居节点所采取的决策同时也具有全局信息，使得强化学习智能体给出的驾驶决策更加具有可解释性，再通过强化学习智能体与环境不断交互得到学习样本，最终获得一个更加准确和具有可解释性的执行策略π（s _i）=a _i，该执行策略可以根据当前汽车的车速、方向盘的位置、附近障碍物的数量和附近障碍物的分布情况等给出具体的驾驶决策，也就是调整方向盘的角度和车速调整的幅度。

其中，图自动编码器会根据原子图和重构子图前后的差异和虚拟驾驶环境返回的奖励值的加权平均进行图神经网络参数的更新，而强化学习算法则只根据返回的奖励值进行网络参数的更新。

基于价值的强化学习算法的特征提取层为卷积神经网络或者全连接神经网络。

在本实施例中，图自动编码器和基于价值的强化学习DQN算法为交替训练关系，更新过程如下：

（1）初始化基于价值的强化学习算法，与驾驶时间序列数据构成的环境进行交互；

（2）如图2所示，把每批序列数据中相同的状态或者动作作为起点，获取其n阶邻居，将其转化为图结构；

（3）将该图结构的邻接矩阵和节点的特征矩阵输入到图自动编码器中进行自动特征工程，不断迭代，最后使图自动编码器生成图与原始图的差异足够小，更新每个原始状态节点的新的表示；

（4）再根据新的状态节点的表示输入到基于价值的强化学习算法中进行训练，使强化学习算法可以更快地收敛到最优策略；

在本实施例中，可应用的图自动编码器范围广泛，包括但不限于图深度学习领域中对图结构数据进行特征抽取的图卷积网络、图循环网络；预测模型范围广泛，包括但不限于全连接神经网络、卷积神经网络和循环神经网络等深度神经网络，可根据实际需要灵活选择。

S5、将新的状态节点表示作为强化学习智能体的输入。

在本实施例中，时态序列预测模型（即驾驶决策预测模型）采用off-policy的深度强化学习模型方法进行训练；时态序列的预测模型为基于价值的强化学习算法；预测模型迭代更新是根据深度强化学习模型对当前状态的估值和环境奖励之和的差异进行更新。图自动编码器为图卷积网络，由编码器和解码器组成，图自动编码器是根据图的重构损失进行更新的，利用邻接矩阵和节点的特征矩阵作为输入，通过编码器进行特征提取，获得数据的高级特征，再通过解码器计算任意两个节点之间存在边的概率来重构图，根据生成图和原始图的差异进行参数的迭代优化。

图自动编码器的按照如下公式进行更新：

表示期望。

在本实施例中，基于价值的强化学习算法按照如下更新公式进行更新：

表示基于价值的强化学习算法的网络参数；/>

表示梯度优化的方向；/>

表示学习率；/>

表示目标网络/>

对状态集合和动作集合的估值；r表示环境返回的奖励。

在公式4中，q为目标网络对环境下一状态的估值和环境返回奖励之和，也就是基于价值的强化学习模型中对于状态价值的估计值；公式5为模型参数的更新公式。

本发明针对传统线性的重放缓冲区问题，构造图结构的重放缓冲区结构，引入图神经网络表示技术，所得到的节点表示包含了更多邻居节点信息，强化学习预测模型利用新的包含邻居节点信息的状态表示进行学习，并且根据奖励函数不断修正参数化的动作策略，使动作策略的参数不断往使奖励函数最大化的方向进行调整，最终收敛至最优的策略。

本发明可以应用在时态序列预测及处理领域，更加快速解决各类动态的、依赖时间顺序的决策问题，例如动驾驶领域辅助决策领域和游戏控制领域等序列决策问题。

实施例2

在本实施例中，模型构建模块用于构建虚拟驾驶环境，使用图神经网络建立图自动编码器，使用DQN强化学习方法建立驾驶决策预测模型；

在本实施例中，初始化模块用于初始化基于图数据结构的重放缓冲区、线性缓冲区、搜索邻居阶数K和子图节点个数W，同时子图的节点个数W小于重放缓冲区的状态节点个数；

在本实施例中，决策训练模块用于获取存储器上的数据构造环境，强化学习智能体根据虚拟驾驶环境当前所处于的驾驶状态输出决策，经过多轮与虚拟驾驶环境的交互，得到多个交互序列并存储至线性缓冲区：

在本实施例中，驾驶策略输出模块用于将新的状态节点表示作为强化学习智能体的输入，强化学习智能体根据新的状态节点表示进行学习，最终输出自动驾驶辅助执行策略，调整汽车驾驶状态。

实施例3

本实施例提供一种存储介质，存储介质可以是ROM、RAM、磁盘、光盘等储存介质，该存储介质存储有一个或多个程序，程序被处理器执行时，实现实施例1的基于网络演化重放缓冲区的自动驾驶辅助决策方法。

实施例4

本实施例提供一种计算设备，该计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备，该计算设备包括处理器和存储器，存储器存储有一个或多个程序，处理器执行存储器存储的程序时，实现实施例1的基于网络演化重放缓冲区的自动驾驶辅助决策方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于网络演化重放缓冲区的自动驾驶辅助决策方法，其特征在于，包括下述步骤：

图自动编码器和DQN强化学习方法为交替训练关系，更新过程如下：

根据新的状态节点的表示输入到基于价值的强化学习算法中进行训练；

2.根据权利要求1所述的基于网络演化重放缓冲区的自动驾驶辅助决策方法，其特征在于，所述虚拟驾驶环境包括状态空间、动作空间和奖励函数，状态空间为当前的路况，动作空间为根据当前状态做出的决策，奖励函数包括奖励部分和惩罚部分，奖励部分为DQN强化学习方法正常驾驶的时间与比例因子的乘积，惩罚部分为智能体输出的决策使汽车不安全的驾驶行为。

3.根据权利要求1所述的基于网络演化重放缓冲区的自动驾驶辅助决策方法，其特征在于，所述图自动编码器采用图卷积网络，包括编码器和解码器，利用邻接矩阵和节点的特征矩阵作为输入，通过编码器进行特征提取，获得数据的高级特征，再通过解码器计算任意两个节点之间存在边的概率重构图，根据生成图和原始图的差异进行参数的迭代优化。

4.根据权利要求1所述的基于网络演化重放缓冲区的自动驾驶辅助决策方法，其特征在于，所述经过多轮与虚拟驾驶环境的交互，得到多个交互序列并存储至线性缓冲区，多个交互序列具体表示为：

LN＝{(s_1i,a_1i),...，(s_ij，a_ij)}_N

5.根据权利要求1所述的基于网络演化重放缓冲区的自动驾驶辅助决策方法，其特征在于，所述图自动编码器按照如下公式进行更新：

Z＝GCN(X，A)

表示期望。

6.根据权利要求1所述的基于网络演化重放缓冲区的自动驾驶辅助决策方法，其特征在于，所述DQN强化学习方法采用基于价值的强化学习算法，具体更新方式为：

q＝r+γmaxQ(s，a；ω)

其中，(s,a)表示某一步数的状态和动作；(S,A)表示一轮的状态与动作的集合；q表示目标网络对环境下一状态的估值和环境返回奖励之和，ω表示基于价值的强化学习算法的网络参数；γ表示基于价值的强化学习算法目标网络对下一状态s和动作空间a的估值的权重；

表示梯度优化的方向；α表示学习率；maxQ(s，a：ω_i)表示基于价值的强化学习算法中目标网络对某状态下执行不同动作估值的最大值，Q(S，A；ω)表示目标网络ω_i对状态集合和动作集合的估值；r表示环境返回的奖励。

7.一种基于网络演化重放缓冲区的自动驾驶辅助决策系统，其特征在于，包括：模型构建模块、初始化模块、决策训练模块和驾驶策略输出模块；

8.一种计算机可读存储介质，存储有程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6任一项所述基于网络演化重放缓冲区的自动驾驶辅助决策方法。

9.一种计算机设备，包括处理器和用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现如权利要求1-6任一项所述基于网络演化重放缓冲区的自动驾驶辅助决策方法。