CN111487863B - 一种基于深度q神经网络的主动悬架强化学习控制方法 - Google Patents
一种基于深度q神经网络的主动悬架强化学习控制方法 Download PDFInfo
- Publication number
- CN111487863B CN111487863B CN202010289979.4A CN202010289979A CN111487863B CN 111487863 B CN111487863 B CN 111487863B CN 202010289979 A CN202010289979 A CN 202010289979A CN 111487863 B CN111487863 B CN 111487863B
- Authority
- CN
- China
- Prior art keywords
- suspension
- training
- reinforcement learning
- suspension system
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Vehicle Body Suspensions (AREA)
Abstract
本发明涉及一种基于深度Q神经网络的主动悬架强化学习控制方法,属于汽车动态控制和人工智能技术领域。本发明中强化学习控制器主体从悬架系统中获取车身加速度、悬架动挠度等状态观测量,利用策略来决定合理的主动力施加给悬架系统,悬架系统根据主动力改变当前时刻的状态,同时产生一个奖励值来评判当前主动力的好坏。设定合理的奖励函数,结合从环境中获取的动态数据,便能确定出一种最优策略来决定主动控制力的大小,使得控制系统整体在大量训练下性能更加优越。基于深度Q神经网络的强化学习控制方法使得主动悬架系统能够动态自适应调节,从而克服传统悬架控制方法难以解决的参数不确定性和多变路面干扰等因素带来的影响,在保证车辆整体的安全性前提下,尽可能提高乘客的乘坐舒适性。
Description
技术领域
本发明主要涉及汽车动态控制技术领域,具体为一种基于深度Q神经网络的主动悬架强化学习控制方法。
背景技术
随着科学技术的不断发展和人民生活水平的日益提高,在不久的将来,我国汽车保有量将满足一户一辆的需求。汽车的平顺性、乘坐舒适性作为人体能直接感觉到的指标,某种程度上直接决定了汽车产品的价值。汽车悬架系统作为汽车行驶系统的一部分,对于汽车的乘坐舒适性、行驶平顺性以及操纵稳定性至关重要。传统被动悬架参数一经确定,无法更改,也无法根据汽车行驶状况而调节,性能有所限制。主动悬架系统能根据不同的路况信息,自身进行实时调节,保证汽车的整体的安全性,同时提高乘客的乘坐舒适性。
传统的悬架控制方法如PID控制、天棚阻尼(Skyhook)控制、滑模控制等偏为保守,依赖于系统的具体模型,甚至有线性模型的约束,同时不能很好处理行驶过程中悬架自身参数不确定的情况,无法适应复杂多变的路面情况。汽车行驶过程中,弹簧的老化、阻尼的氧化、乘员数目的变化等都会带来不可避免的参数变化,使得模型具有复杂的非线性,传统控制方法不能很好地解决不确定性所带来的影响。近年来,人工智能技术飞速发展,各种人工智能算法不断应用到控制领域。强化学习方法没有严格的理论框架,仅仅通过环境获得的动态数据观测量,制定出一种最优策略来确定施加给悬架的主动力,从而能够达到减振目的,通过设置合理的奖励函数,最终实现悬架系统的多目标控制。强化学习的泛化性能使得车辆在充足训练后能够适应大部分路面。本发明采用基于神经网络的强化学习方法,使得主动悬架系统能够动态自适应调节,从而克服传统悬架控制方法无法解决的参数不确定性和多变路面干扰等因素带来的影响。
发明内容
基于以上原因,本发明提供了一种基于深度Q神经网络的主动悬架强化学习控制方法,在仿真环境中进行训练,训练成功后悬架可以自主生成策略,作动器输出合理的主动力,能够实现保证车辆整体的安全性,同时提高乘客的乘坐舒适性。
本发明通过以下技术方案实现:
一种基于深度Q神经网络的主动悬架强化学习控制方法,主动悬架强化学习控制框架包括以下几部分:主动悬架强化学习控制器主体、主动悬架系统、状态观测量、主动悬架控制力和奖励。控制器从悬架系统中获取悬架动挠度、车身加速度和车身垂向位移等状态观测量,利用一定的策略来决定每个状态下采取何种主动力施加给悬架,悬架根据当前施加的主动力改变状态,并产生一个奖励用来评判当前动作的好坏;其中利用基于深度Q网络的强化学习算法来更新策略。
首先所述主动悬架强化学习算法包括如下几点定义:
(1)获取主动悬架系统状态信息,定义MDP(Markov Decision Processes,马可夫决策过程)过程的状态s=[y1,y2,y3]。其中,y1为车身加速度,y2为悬架动挠度,y3为车身位移。
(2)定义MDP过程的动作a=[Fa],即悬架系统作动器主动控制力。
(3)考虑到悬架系统的主要性能评价指标包括:①车身垂向加速度,用以表征汽车行驶平顺性和乘坐舒适性;②悬架动挠度,影响车身姿态并与结构设计和布置密切相关,将奖励函数定义为r=-δFa 2-αy1 2-βy2 2-γy3 2,其中δ、α、β、γ分别为主动控制力、车身加速度、悬架动挠度、车身位移的权值,r为状态转移时获得的即时奖励;
(4)构建评价网络CurrentQ(s,a)与目标网络TargetQ(s,a),所述两个网络为相同结构的深度神经网络,考虑到系统的复杂度,网络采用三层连接,每层之间神经元两两连接,激活函数使用线性整流函数ReLU;网络的输入为悬架系统的三个状态量和主动力,即[y1,y2,y3,Fa]输出为当下状态的价值。
所述基于深度Q网络的主动悬架强化学习算法的步骤包括:
步骤一:初始化经验池D用于存储悬架系统经验数据,容量为N。
步骤二:初始化CurrentQ的权值为θ。
步骤三:初始化TargetQ的权值为θ-。
步骤四:对神经网络进行训练。
设置训练M个回合,每个回合中包含T步。
将at作为悬架的主动力输入得到当前奖励rt和执行at后悬架系统下一时刻的输出状态st+1。
然后将[st,at,rt,st+1]存入经验池D中,随后从经验池D中小批量随机取样得到一组历史数据[sj,aj,rj,sj+1],计算TargetQ,将目标神经网络输出层的最大值作为下一状态的目标值:
其中,yj即为目标Q网络的值,γ为折扣因子。
使用随机梯度下降法进行优化,使得目标函数(即损失函数)L(θ)=E[(yj-Q(sj,aj;θ))2]最小,并反向传播至θ。
重复训练更新CurrentQ(s,a;θ)的参数θ,每过N步利用θ更新θ-。
当完成T步训练后,即开始下一个回合的训练,当M个回合训练结束后,则TargetQ(s,a;θ-)为训练结果。
本发明进一步改进在于:所述步骤四中为了解决样本独立性,创建了一个有限大小的经验池来存储悬架系统的经验样本;对神经网络进行训练时,存在的假设是样本独立同分布;而通过强化学习采集到的数据之间存在着关联性,利用这些数据进行顺序训练,神经网络固然会不稳定;每步训练都从经验池中随机采样以更新网络,这就打乱了样本之间的顺序,减少样本间的相关度,使得训练收敛且稳定。
本发明具有以下有益效果:
(1)创新性地将深度强化学习方法应用到主动悬架控制中,该方法在仿真环境中进行大量的学习训练,达到要求后再进行实际应用。由于应用结合了深度神经网络的强化学习方法,在保障安全的情况下,悬架可以保证较好的舒适性和道路适应性。
(2)对神经网络进行训练时,存在的假设是样本独立同分布。而通过强化学习采集到的数据之间存在着关联性,利用这些数据进行顺序训练,神经网络固然会不稳定。方法中为了解决样本独立性,创建了一个有限大小的经验池来存储悬架系统的经验样本。每步训练都从经验池中随机采样以更新网络,这就打乱了样本之间的顺序,减少样本间的相关度,使得训练收敛且稳定。
附图说明
图1为主动悬架深度强化学习控制框架;
图2为基于深度Q神经网络的强化学习算法原理;
图3为基于深度Q神经网络的强化学习算法伪代码;
具体实施方式
下面将结合本发明实施例中的附图,对技术方案进行清楚、完整地描述。
如图1所示,本实施例的主动悬架强化学习控制框架包括以下几部分:主动悬架强化学习控制器主体、主动悬架系统、状态观测量、主动悬架控制力和奖励。控制器从悬架系统中获取悬架动挠度、车身加速度和车身垂向位移等状态观测量,利用一定的策略来决定每个状态下采取何种主动力施加给悬架,悬架根据当前施加的主动力改变状态,并产生一个奖励用来评判当前动作的好坏;其中利用基于深度Q网络的强化学习算法来更新策略。
如图2所示,本实施例的一种基于深度Q神经网络的强化学习算法包括如下几点定义:
(1)获取主动悬架系统状态信息,定义MDP(Markov Decision Processes,马可夫决策过程)过程的状态s=[y1,y2,y3]。其中,y1为车身加速度,y2为悬架动挠度,y3为车身位移。
(2)定义MDP过程的动作a=[Fa],即悬架系统作动器主动控制力。
(3)考虑到悬架系统的主要性能评价指标包括:①车身垂向加速度,用以表征汽车行驶平顺性和乘坐舒适性;②悬架动挠度,影响车身姿态并与结构设计和布置密切相关,将奖励函数定义为r=-δFa 2-αy1 2-βy2 2-γy3 2,其中δ、α、β、γ分别为主动控制力、车身加速度、悬架动挠度、车身位移的权值,r为状态转移时获得的即时奖励;
(4)构建评价网络CurrentQ(s,a)与目标网络TargetQ(s,a),所述两个网络为相同结构的深度神经网络,考虑到系统的复杂度,网络采用三层连接,每层之间神经元两两连接,激活函数使用线性整流函数ReLU;网络的输入为悬架系统的三个状态量和主动力,即[y1,y2,y3,Fa]输出为当下状态的价值。
如图2、3所示,本实施例的一种基于深度Q神经网络的强化学习算法包括如下步骤:
步骤一:初始化经验池D用于存储悬架系统经验数据,容量为N。
步骤二:初始化CurrentQ的权值为θ。
步骤三:初始化TargetQ的权值为θ-。
步骤四:对神经网络进行训练。
设置训练M个回合,每个回合中包含T步。
将at作为悬架的主动力输入得到当前奖励rt和执行at后悬架系统下一时刻的输出状态st+1。
然后将[st,at,rt,st+1]存入经验池D中,随后从经验池D中小批量随机取样得到一组历史数据[sj,aj,rj,sj+1],计算TargetQ,将目标神经网络输出层的最大值作为下一状态的目标值:
其中,yj即为目标Q网络的值,γ为折扣因子。
使用随机梯度下降法进行优化,使得目标函数(即损失函数)L(θ)=E[(yj-Q(sj,aj;θ))2]最小,并反向传播至θ。
重复训练更新CurrentQ(s,a;θ)的参数θ,每过N步利用θ更新θ-。当完成T步训练后,即开始下一个回合的训练,当M个回合训练结束后,则TargetQ(s,a;θ-)为训练结果。
Claims (2)
1.一种基于深度Q神经网络的主动悬架强化学习控制方法,其特征在于:主动悬架强化学习控制框架包括以下几部分:主动悬架强化学习控制器主体、主动悬架系统、状态观测量、悬架主动控制力和奖励;控制器从悬架系统中获取悬架动挠度、车身加速度和车身垂向位移状态观测量,利用控制策略来决定每个状态下采取何种主动力施加给悬架,悬架根据当前施加的主动力改变当前状态,并产生一个奖励用来评判该动作的好坏,其中利用基于深度Q网络的强化学习算法来更新策略;
其中基于深度Q网络的强化学习算法的步骤包括:
步骤一:初始化经验池D用于存储悬架系统经验数据,容量为N;
步骤二:初始化Current Q的权值为θ;
步骤三:初始化Target Q的权值为θ-;
步骤四:对神经网络进行训练;
设置训练M个回合,每个回合中包含T步;
将at作为悬架系统的主动力输入,悬架系统产生当前奖励rt和执行at后下一时刻的输出状态st+1;
然后将悬架的经验数据[st,at,rt,st+1]存入经验池D中,随后从经验池D中小批量随机取样得到一组历史数据[sj,aj,rj,sj+1],计算Target Q,将目标神经网络输出层的最大值作为下一状态的目标值:
其中,yj即为目标Q网络的值,γ为折扣因子,rj为主动悬架系统状态转移时获得的即时奖励;
使用随机梯度下降法进行优化,使得目标函数,即损失函数;L(θ)=E[(yj-Q(sj,aj;θ))2]最小,并反向传播至θ;
重复训练更新Current Q(s,a;θ)的参数θ,每过N步利用θ更新θ-;
当完成T步训练后,即开始下一个回合的训练,当M个回合训练结束后,则Target Q(s,a;θ-)为训练结果;
考虑到悬架系统的主要性能评价指标包括:①车身垂向加速度,用以表征汽车行驶平顺性和乘坐舒适性;②悬架动挠度,影响车身姿态并与结构设计和布置密切相关,将主动悬架系统状态转移时获得的即时奖励定义为:
r=-δFa 2-αy1 2-βy2 2-γy3 2
其中,Fa为控制器输出的悬架主动控制力,δ、α、β、γ分别为主动控制力、车身加速度、悬架动挠度、车身位移的权值;
评价网络Current Q(s,a)与目标网络Tar get Q(s,a)为相同结构的深度神经网络,考虑到系统的复杂度,网络采用三层连接,每层之间神经元两两连接,激活函数使用线性整流函数ReLU;网络的输入为悬架系统的三个状态量和主动力,即[y1,y2,y3,Fa],输出为当下状态的价值。
2.根据权利 要求1所述一种基于深度Q神经网络的主动悬架强化学习控制方法,其特征在于:所述步骤四中为了解决样本独立性,创建了一个有限大小的经验池来存储悬架系统的经验样本;对神经网络进行训练时,存在的假设是样本独立同分布,而通过强化学习采集到的数据之间存在着关联性,利用这些数据进行顺序训练,神经网络固然会不稳定;每步训练都从经验池中随机采样以更新网络,这就打乱了样本之间的顺序,减少样本间的相关度,使得训练收敛且稳定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010289979.4A CN111487863B (zh) | 2020-04-14 | 2020-04-14 | 一种基于深度q神经网络的主动悬架强化学习控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010289979.4A CN111487863B (zh) | 2020-04-14 | 2020-04-14 | 一种基于深度q神经网络的主动悬架强化学习控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111487863A CN111487863A (zh) | 2020-08-04 |
CN111487863B true CN111487863B (zh) | 2022-06-17 |
Family
ID=71794938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010289979.4A Active CN111487863B (zh) | 2020-04-14 | 2020-04-14 | 一种基于深度q神经网络的主动悬架强化学习控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111487863B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898211B (zh) * | 2020-08-07 | 2022-11-01 | 吉林大学 | 基于深度强化学习的智能车速度决策方法及其仿真方法 |
CN112078318B (zh) * | 2020-08-28 | 2024-05-07 | 的卢技术有限公司 | 一种基于深度强化学习算法的汽车主动悬架智能控制方法 |
CN112158045A (zh) * | 2020-09-14 | 2021-01-01 | 东南大学 | 一种基于深度确定性策略梯度的主动悬架控制方法 |
CN112698572B (zh) * | 2020-12-22 | 2022-08-16 | 西安交通大学 | 一种基于强化学习的结构振动控制方法、介质及设备 |
CN113759715A (zh) * | 2021-08-11 | 2021-12-07 | 中国船舶重工集团公司第七一九研究所 | 一种具有强化学习功能的舰船设备智能振动控制系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034124A (zh) * | 2012-12-15 | 2013-04-10 | 江苏大学 | 汽车底盘集成系统广义逆内模控制器及构造方法 |
CN105159094A (zh) * | 2015-10-08 | 2015-12-16 | 山东理工大学 | 汽车主动悬架lqg控制器最优控制力的设计方法 |
CN107992939A (zh) * | 2017-12-06 | 2018-05-04 | 湖北工业大学 | 基于深度增强学习的等切削力齿轮加工方法 |
CN108052004A (zh) * | 2017-12-06 | 2018-05-18 | 湖北工业大学 | 基于深度增强学习的工业机械臂自动控制方法 |
CN110546653A (zh) * | 2017-02-24 | 2019-12-06 | 渊慧科技有限公司 | 使用神经网络的用于强化学习的动作选择 |
CN110716550A (zh) * | 2019-11-06 | 2020-01-21 | 南京理工大学 | 一种基于深度强化学习的换挡策略动态优化方法 |
-
2020
- 2020-04-14 CN CN202010289979.4A patent/CN111487863B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034124A (zh) * | 2012-12-15 | 2013-04-10 | 江苏大学 | 汽车底盘集成系统广义逆内模控制器及构造方法 |
CN105159094A (zh) * | 2015-10-08 | 2015-12-16 | 山东理工大学 | 汽车主动悬架lqg控制器最优控制力的设计方法 |
CN110546653A (zh) * | 2017-02-24 | 2019-12-06 | 渊慧科技有限公司 | 使用神经网络的用于强化学习的动作选择 |
CN107992939A (zh) * | 2017-12-06 | 2018-05-04 | 湖北工业大学 | 基于深度增强学习的等切削力齿轮加工方法 |
CN108052004A (zh) * | 2017-12-06 | 2018-05-18 | 湖北工业大学 | 基于深度增强学习的工业机械臂自动控制方法 |
CN110716550A (zh) * | 2019-11-06 | 2020-01-21 | 南京理工大学 | 一种基于深度强化学习的换挡策略动态优化方法 |
Non-Patent Citations (3)
Title |
---|
李龙澍.基于神经网络的批强化学习在Robocup中的应用.《计算机技术与发展》.2009,第19卷(第7期),第98-101页. * |
郑帅等.主动悬架LQG控制与模糊PID控制的比较研究.《安徽理工大学学报(自然科学版)》.2014,第34卷(第3期),第67-72页. * |
钟宇平等.基于神经网络及强化学习的智能控制系统.《西南大学学报(自然科学版)》.2013,第35卷(第11期),第172-179页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111487863A (zh) | 2020-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111487863B (zh) | 一种基于深度q神经网络的主动悬架强化学习控制方法 | |
CN112668235B (zh) | 基于离线模型预训练学习的ddpg算法的机器人控制方法 | |
CN111845701B (zh) | 一种跟车环境下基于深度强化学习的hev能量管理方法 | |
CN112162555B (zh) | 混合车队中基于强化学习控制策略的车辆控制方法 | |
CN111781940B (zh) | 一种基于dqn强化学习的列车姿态控制方法 | |
CN103324085B (zh) | 基于监督式强化学习的最优控制方法 | |
CN110806759A (zh) | 一种基于深度强化学习的飞行器航线跟踪方法 | |
CN112150808B (zh) | 一种基于深度学习的城市交通系统调度策略生成方法 | |
CN109204390B (zh) | 一种基于深度学习的列车控制方法 | |
CN112078318B (zh) | 一种基于深度强化学习算法的汽车主动悬架智能控制方法 | |
CN112158045A (zh) | 一种基于深度确定性策略梯度的主动悬架控制方法 | |
CN113110052B (zh) | 一种基于神经网络和强化学习的混合能量管理方法 | |
CN112506043B (zh) | 轨道车辆及垂向减振器的控制方法和控制系统 | |
Cheng et al. | Grey FNN control and robustness design for practical nonlinear systems | |
CN114148349B (zh) | 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法 | |
CN115826402A (zh) | 一种基于深度强化学习算法的主动悬架控制策略生成方法 | |
CN114415507B (zh) | 基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法 | |
CN106347059A (zh) | 一种基于粒子群算法的轮毂驱动电动汽车主动悬架双回路pid控制方法 | |
CN116587275A (zh) | 基于深度强化学习的机械臂智能阻抗控制方法及系统 | |
CN115062539A (zh) | 基于强化学习转角权重分配的人车协同转向控制方法 | |
CN113022247B (zh) | 主动车辆悬架系统自适应固定时间事件触发模糊控制方法 | |
CN116068894A (zh) | 基于双层强化学习的火箭回收制导方法 | |
Safari et al. | Full-car active suspension system identification using flexible deep neural network | |
CN114386620A (zh) | 一种基于动作约束的离线多智能体强化学习方法 | |
CN114839878A (zh) | 基于改进ppo算法的双足机器人行走稳定性优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |