CN111487863B

CN111487863B - 一种基于深度q神经网络的主动悬架强化学习控制方法

Info

Publication number: CN111487863B
Application number: CN202010289979.4A
Authority: CN
Inventors: 庄伟超; 王茜; 薛文根; 李荣粲; 高珊; 张宁; 史文波; 彭俊
Original assignee: Southeast University; CRRC Changchun Railway Vehicles Co Ltd
Current assignee: Southeast University; CRRC Changchun Railway Vehicles Co Ltd
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2022-06-17
Anticipated expiration: 2040-04-14
Also published as: CN111487863A

Abstract

本发明涉及一种基于深度Q神经网络的主动悬架强化学习控制方法，属于汽车动态控制和人工智能技术领域。本发明中强化学习控制器主体从悬架系统中获取车身加速度、悬架动挠度等状态观测量，利用策略来决定合理的主动力施加给悬架系统，悬架系统根据主动力改变当前时刻的状态，同时产生一个奖励值来评判当前主动力的好坏。设定合理的奖励函数，结合从环境中获取的动态数据，便能确定出一种最优策略来决定主动控制力的大小，使得控制系统整体在大量训练下性能更加优越。基于深度Q神经网络的强化学习控制方法使得主动悬架系统能够动态自适应调节，从而克服传统悬架控制方法难以解决的参数不确定性和多变路面干扰等因素带来的影响，在保证车辆整体的安全性前提下，尽可能提高乘客的乘坐舒适性。

Description

一种基于深度Q神经网络的主动悬架强化学习控制方法

技术领域

本发明主要涉及汽车动态控制技术领域，具体为一种基于深度Q神经网络的主动悬架强化学习控制方法。

背景技术

随着科学技术的不断发展和人民生活水平的日益提高，在不久的将来，我国汽车保有量将满足一户一辆的需求。汽车的平顺性、乘坐舒适性作为人体能直接感觉到的指标，某种程度上直接决定了汽车产品的价值。汽车悬架系统作为汽车行驶系统的一部分，对于汽车的乘坐舒适性、行驶平顺性以及操纵稳定性至关重要。传统被动悬架参数一经确定，无法更改，也无法根据汽车行驶状况而调节，性能有所限制。主动悬架系统能根据不同的路况信息，自身进行实时调节，保证汽车的整体的安全性，同时提高乘客的乘坐舒适性。

传统的悬架控制方法如PID控制、天棚阻尼(Skyhook)控制、滑模控制等偏为保守，依赖于系统的具体模型，甚至有线性模型的约束，同时不能很好处理行驶过程中悬架自身参数不确定的情况，无法适应复杂多变的路面情况。汽车行驶过程中，弹簧的老化、阻尼的氧化、乘员数目的变化等都会带来不可避免的参数变化，使得模型具有复杂的非线性，传统控制方法不能很好地解决不确定性所带来的影响。近年来，人工智能技术飞速发展，各种人工智能算法不断应用到控制领域。强化学习方法没有严格的理论框架，仅仅通过环境获得的动态数据观测量，制定出一种最优策略来确定施加给悬架的主动力，从而能够达到减振目的，通过设置合理的奖励函数，最终实现悬架系统的多目标控制。强化学习的泛化性能使得车辆在充足训练后能够适应大部分路面。本发明采用基于神经网络的强化学习方法，使得主动悬架系统能够动态自适应调节，从而克服传统悬架控制方法无法解决的参数不确定性和多变路面干扰等因素带来的影响。

发明内容

基于以上原因，本发明提供了一种基于深度Q神经网络的主动悬架强化学习控制方法，在仿真环境中进行训练，训练成功后悬架可以自主生成策略，作动器输出合理的主动力，能够实现保证车辆整体的安全性，同时提高乘客的乘坐舒适性。

本发明通过以下技术方案实现：

一种基于深度Q神经网络的主动悬架强化学习控制方法，主动悬架强化学习控制框架包括以下几部分：主动悬架强化学习控制器主体、主动悬架系统、状态观测量、主动悬架控制力和奖励。控制器从悬架系统中获取悬架动挠度、车身加速度和车身垂向位移等状态观测量，利用一定的策略来决定每个状态下采取何种主动力施加给悬架，悬架根据当前施加的主动力改变状态，并产生一个奖励用来评判当前动作的好坏；其中利用基于深度Q网络的强化学习算法来更新策略。

首先所述主动悬架强化学习算法包括如下几点定义：

(1)获取主动悬架系统状态信息，定义MDP(Markov Decision Processes，马可夫决策过程)过程的状态s＝[y₁,y₂,y₃]。其中，y₁为车身加速度，y₂为悬架动挠度，y₃为车身位移。

(2)定义MDP过程的动作a＝[F_a]，即悬架系统作动器主动控制力。

(3)考虑到悬架系统的主要性能评价指标包括：①车身垂向加速度，用以表征汽车行驶平顺性和乘坐舒适性；②悬架动挠度，影响车身姿态并与结构设计和布置密切相关，将奖励函数定义为r＝-δF_a ²-αy₁ ²-βy₂ ²-γy₃ ²，其中δ、α、β、γ分别为主动控制力、车身加速度、悬架动挠度、车身位移的权值，r为状态转移时获得的即时奖励；

(4)构建评价网络CurrentQ(s,a)与目标网络TargetQ(s,a)，所述两个网络为相同结构的深度神经网络，考虑到系统的复杂度，网络采用三层连接，每层之间神经元两两连接，激活函数使用线性整流函数ReLU；网络的输入为悬架系统的三个状态量和主动力，即[y₁,y₂,y₃,F_a]输出为当下状态的价值。

所述基于深度Q网络的主动悬架强化学习算法的步骤包括：

步骤一：初始化经验池D用于存储悬架系统经验数据，容量为N。

步骤二：初始化CurrentQ的权值为θ。

步骤三：初始化TargetQ的权值为θ^-。

步骤四：对神经网络进行训练。

设置训练M个回合，每个回合中包含T步。

每步训练过程中，以概率ε随机选取主动力a_t，(1-ε)的概率选取

将a_t作为悬架的主动力输入得到当前奖励r_t和执行a_t后悬架系统下一时刻的输出状态s_t+1。

然后将[s_t,a_t,r_t,s_t+1]存入经验池D中，随后从经验池D中小批量随机取样得到一组历史数据[s_j,a_j,r_j,s_j+1]，计算TargetQ，将目标神经网络输出层的最大值作为下一状态的目标值：

其中，y_j即为目标Q网络的值，γ为折扣因子。

使用随机梯度下降法进行优化，使得目标函数(即损失函数)L(θ)＝E[(y_j-Q(s_j,a_j；θ))²]最小，并反向传播至θ。

重复训练更新CurrentQ(s,a；θ)的参数θ，每过N步利用θ更新θ^-。

当完成T步训练后，即开始下一个回合的训练，当M个回合训练结束后，则TargetQ(s,a；θ^-)为训练结果。

本发明进一步改进在于：所述步骤四中为了解决样本独立性，创建了一个有限大小的经验池来存储悬架系统的经验样本；对神经网络进行训练时，存在的假设是样本独立同分布；而通过强化学习采集到的数据之间存在着关联性，利用这些数据进行顺序训练，神经网络固然会不稳定；每步训练都从经验池中随机采样以更新网络，这就打乱了样本之间的顺序，减少样本间的相关度，使得训练收敛且稳定。

本发明具有以下有益效果：

(1)创新性地将深度强化学习方法应用到主动悬架控制中，该方法在仿真环境中进行大量的学习训练，达到要求后再进行实际应用。由于应用结合了深度神经网络的强化学习方法，在保障安全的情况下，悬架可以保证较好的舒适性和道路适应性。

(2)对神经网络进行训练时，存在的假设是样本独立同分布。而通过强化学习采集到的数据之间存在着关联性，利用这些数据进行顺序训练，神经网络固然会不稳定。方法中为了解决样本独立性，创建了一个有限大小的经验池来存储悬架系统的经验样本。每步训练都从经验池中随机采样以更新网络，这就打乱了样本之间的顺序，减少样本间的相关度，使得训练收敛且稳定。

附图说明

图1为主动悬架深度强化学习控制框架；

图2为基于深度Q神经网络的强化学习算法原理；

图3为基于深度Q神经网络的强化学习算法伪代码；

具体实施方式

下面将结合本发明实施例中的附图，对技术方案进行清楚、完整地描述。

如图1所示，本实施例的主动悬架强化学习控制框架包括以下几部分：主动悬架强化学习控制器主体、主动悬架系统、状态观测量、主动悬架控制力和奖励。控制器从悬架系统中获取悬架动挠度、车身加速度和车身垂向位移等状态观测量，利用一定的策略来决定每个状态下采取何种主动力施加给悬架，悬架根据当前施加的主动力改变状态，并产生一个奖励用来评判当前动作的好坏；其中利用基于深度Q网络的强化学习算法来更新策略。

如图2所示，本实施例的一种基于深度Q神经网络的强化学习算法包括如下几点定义：

如图2、3所示，本实施例的一种基于深度Q神经网络的强化学习算法包括如下步骤：

步骤二：初始化CurrentQ的权值为θ。

步骤三：初始化TargetQ的权值为θ^-。

步骤四：对神经网络进行训练。

设置训练M个回合，每个回合中包含T步。

其中，y_j即为目标Q网络的值，γ为折扣因子。

重复训练更新CurrentQ(s,a；θ)的参数θ，每过N步利用θ更新θ^-。当完成T步训练后，即开始下一个回合的训练，当M个回合训练结束后，则TargetQ(s,a；θ^-)为训练结果。

Claims

1.一种基于深度Q神经网络的主动悬架强化学习控制方法，其特征在于：主动悬架强化学习控制框架包括以下几部分：主动悬架强化学习控制器主体、主动悬架系统、状态观测量、悬架主动控制力和奖励；控制器从悬架系统中获取悬架动挠度、车身加速度和车身垂向位移状态观测量，利用控制策略来决定每个状态下采取何种主动力施加给悬架，悬架根据当前施加的主动力改变当前状态，并产生一个奖励用来评判该动作的好坏，其中利用基于深度Q网络的强化学习算法来更新策略；

其中基于深度Q网络的强化学习算法的步骤包括：

步骤一：初始化经验池D用于存储悬架系统经验数据，容量为N；

步骤二：初始化Current Q的权值为θ；

步骤三：初始化Target Q的权值为θ^-；

步骤四：对神经网络进行训练；

设置训练M个回合，每个回合中包含T步；

每步训练过程中，以概率ε随机选取主动力a_t，以1-ε的概率选取

其中，s_t为t时刻悬架系统的状态观测量[y₁,y₂,y₃]，y₁为车身加速度，y₂为悬架动挠度，y₃为车身位移；

将a_t作为悬架系统的主动力输入，悬架系统产生当前奖励r_t和执行a_t后下一时刻的输出状态s_t+1；

然后将悬架的经验数据[s_t,a_t,r_t,s_t+1]存入经验池D中，随后从经验池D中小批量随机取样得到一组历史数据[s_j,a_j,r_j,s_j+1]，计算Target Q，将目标神经网络输出层的最大值作为下一状态的目标值：

其中，y_j即为目标Q网络的值，γ为折扣因子，r_j为主动悬架系统状态转移时获得的即时奖励；

使用随机梯度下降法进行优化，使得目标函数，即损失函数；L(θ)＝E[(y_j-Q(s_j,a_j；θ))²]最小，并反向传播至θ；

重复训练更新Current Q(s,a；θ)的参数θ，每过N步利用θ更新θ^-；

当完成T步训练后，即开始下一个回合的训练，当M个回合训练结束后，则Target Q(s,a；θ^-)为训练结果；

考虑到悬架系统的主要性能评价指标包括：①车身垂向加速度，用以表征汽车行驶平顺性和乘坐舒适性；②悬架动挠度，影响车身姿态并与结构设计和布置密切相关，将主动悬架系统状态转移时获得的即时奖励定义为：

r＝-δF_a ²-αy₁ ²-βy₂ ²-γy₃ ²

其中，F_a为控制器输出的悬架主动控制力，δ、α、β、γ分别为主动控制力、车身加速度、悬架动挠度、车身位移的权值；

评价网络Current Q(s,a)与目标网络Tar get Q(s,a)为相同结构的深度神经网络，考虑到系统的复杂度，网络采用三层连接，每层之间神经元两两连接，激活函数使用线性整流函数ReLU；网络的输入为悬架系统的三个状态量和主动力，即[y₁,y₂,y₃,F_a]，输出为当下状态的价值。

2.根据权利要求1所述一种基于深度Q神经网络的主动悬架强化学习控制方法，其特征在于：所述步骤四中为了解决样本独立性，创建了一个有限大小的经验池来存储悬架系统的经验样本；对神经网络进行训练时，存在的假设是样本独立同分布，而通过强化学习采集到的数据之间存在着关联性，利用这些数据进行顺序训练，神经网络固然会不稳定；每步训练都从经验池中随机采样以更新网络，这就打乱了样本之间的顺序，减少样本间的相关度，使得训练收敛且稳定。