CN112078318A - 一种基于深度强化学习算法的汽车主动悬架智能控制方法 - Google Patents

一种基于深度强化学习算法的汽车主动悬架智能控制方法 Download PDF

Info

Publication number
CN112078318A
CN112078318A CN202010883936.9A CN202010883936A CN112078318A CN 112078318 A CN112078318 A CN 112078318A CN 202010883936 A CN202010883936 A CN 202010883936A CN 112078318 A CN112078318 A CN 112078318A
Authority
CN
China
Prior art keywords
suspension
automobile
vehicle body
learning algorithm
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010883936.9A
Other languages
English (en)
Other versions
CN112078318B (zh
Inventor
董舒
孙亚龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dilu Technology Co Ltd
Original Assignee
Dilu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dilu Technology Co Ltd filed Critical Dilu Technology Co Ltd
Priority to CN202010883936.9A priority Critical patent/CN112078318B/zh
Publication of CN112078318A publication Critical patent/CN112078318A/zh
Application granted granted Critical
Publication of CN112078318B publication Critical patent/CN112078318B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60GVEHICLE SUSPENSION ARRANGEMENTS
    • B60G17/00Resilient suspensions having means for adjusting the spring or vibration-damper characteristics, for regulating the distance between a supporting surface and a sprung part of vehicle or for locking suspension during use to meet varying vehicular or surface conditions, e.g. due to speed or load
    • B60G17/015Resilient suspensions having means for adjusting the spring or vibration-damper characteristics, for regulating the distance between a supporting surface and a sprung part of vehicle or for locking suspension during use to meet varying vehicular or surface conditions, e.g. due to speed or load the regulating means comprising electric or electronic elements
    • B60G17/0152Resilient suspensions having means for adjusting the spring or vibration-damper characteristics, for regulating the distance between a supporting surface and a sprung part of vehicle or for locking suspension during use to meet varying vehicular or surface conditions, e.g. due to speed or load the regulating means comprising electric or electronic elements characterised by the action on a particular type of suspension unit
    • B60G17/0157Resilient suspensions having means for adjusting the spring or vibration-damper characteristics, for regulating the distance between a supporting surface and a sprung part of vehicle or for locking suspension during use to meet varying vehicular or surface conditions, e.g. due to speed or load the regulating means comprising electric or electronic elements characterised by the action on a particular type of suspension unit non-fluid unit, e.g. electric motor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Mechanical Engineering (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Analysis (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Vehicle Body Suspensions (AREA)

Abstract

本发明公开了一种基于深度强化学习算法的汽车主动悬架智能控制方法,该方法采集车身参数作为训练数据,并对深度强化学习算法进行自主训练,得到训练好的深度强化学习算法,利用该算法实时调整汽车主动控制悬架的阻尼力或刚度。本发明在主动悬架中引入自学习能力,对可能的情况进行不断的探索,因而学习到比手动编码更优秀的控制策,且提高了主动悬架的实现效率。

Description

一种基于深度强化学习算法的汽车主动悬架智能控制方法
技术领域
本发明涉及悬架系统控制领域。
背景技术
汽车目前已经成为普通人日常代步的工具,在汽车技术的发展过程中,悬架设计一直是一个重点工作,汽车悬架系统性能的好坏直接决定汽车行驶过程中的平顺性和操纵稳定性。平顺性要求汽车的悬架比较“软”,通过不平整路面时不能出现大地颠簸,而操纵稳定性则要求汽车悬架比较“硬”,通过不平整路面以及转弯时能够保持一定地支撑。
平顺性和操纵稳定性之间要求互斥,而被动悬架在设计完成之后,其参数是固定的,导致其只能针对某些情况保证车辆的平顺性和操纵稳定性,对于真实世界中复杂多变的路面,被动悬架无法改变参数来对不同的路面进行适应。
针对被动悬架的缺点,人们进行了能够自动调整悬架参数的主动悬架(包含半主动悬架,下同)的大量研究,主动悬架系统克服了被动悬架刚度和阻尼不可调整的技术缺陷,是现在悬架技术研究的热点,至今已有几十年的研究历史。主动悬架的根本优势是悬架的刚度和阻尼可以控制,并在车辆工作过程中改变,即针对不同的路面可以进行悬架参数地调节,从而适应不同的路面。目前在乘用车中,主动悬架越来越成为主流的设计。
目前人工智能技术的发展已经取得看了让人惊叹地进步,从人工智能技术地发展来看,其具有无限的潜力,尤其是其中的深度强化学习,深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,被研究者认为是一种更接近人类思维方式的人工智能方法,因此使用深度强化学习来解决现实中的实际问题,具有可行性的基础。
随着人工智能技术发展,自然会与汽车技术相结合,但目前的人工智能技术在汽车中的落地更多的是基于人机交互的程度,例如智能语音控制车机设备、辅助驾驶等。人工智能技术与汽车的深度结合,尤其是主动悬架系统上的应用,目前尚未公开的应用。
汽车主动悬架技术经过几十年地发展,目前已经有很多的控制策略,例如传统的经典控制策略天-地棚控制、PID控制、最优控制、模糊控制等。这些控制算法各有特点,对主动悬架的控制效果各有优缺点,但均有一个明显的问题点,即需要对控制策略进行手动编码,调试上较为繁琐,控制参数多,控制器调整较为复杂;另外,传统的主动悬架控制策略目前尚不具有自学习的能力,其应对不同路面的策略还是技术人员通过不断采集数据、不断手动更新策略,不能实现根据不同的情况进行自学习。
发明内容
发明目的:为解决背景技术中现有技术存在的问题,本发明提供了一种基于深度强化学习算法的汽车主动悬架智能控制方法。
技术方案:本发明提供了一种基于深度强化学习算法的汽车主动悬架智能控制方法,具体包括如下步骤:
步骤1:采集某一时刻汽车在路面行驶时的车身参数;所述车身参数包括:车身悬架垂直于地面方向上的加速度、车身悬架垂直于地面方向上的速度、悬架动行程、车身俯仰角、车身横摆角、车身侧倾角和车轮动载;
步骤2:对车身参数进行预处理,具体为:将车身参数中每个参数进行缩放,使每个参数都缩放到该参数对应的数值范围内;
步骤3:对深度强化学习算法进行训练:将缩放后的车身参数作为深度强化学习算法的输入,将深度强化学习算法的输出作为悬架控制系统的控制信号,在汽车继续行驶的过程中,悬架控制系统根据该控制信号做出响应,并得到车身参数的反馈值,将反馈值预处理后再次作为深度强化学习算法的输入;进行多次循环过程,采集每次循环过程中的车身参数数据,并使用该数据对深度强化学习算法进行训练;对步骤3进行多次迭代训练,从而得到训练好的深度强化学习算法;所述深度强化学习算法的输出为悬架阻尼力控制量和/或悬架的刚度控制量;
步骤4:在汽车行驶的过程中,实时采集车身参数,并对车身参数进行预处理,将该预处理后的车身参数输入至训练好的深度强化学习算法中,得到实时的悬架控制系统的控制信号,基于该控制信号对汽车主动悬架进行实时的调整。
进一步的,所述步骤1具体为:基于真实的路面变化情况在仿真平台中建立汽车行驶路面的仿真模型,该行驶路面中的仿真模型包括:连续搓板路面,单一起伏路面和扭曲路面;根据汽车的悬架特性在仿真平台中建立能够反映车身实际变化和整车响应的汽车悬架仿真模型;在仿真平台中模拟汽车行驶,从而实现车身参数的采集。
进一步的,所述深度强化学习算法采用近端策略优化算法。
进一步的,所述深度强化学习算法中的奖励函数包括:车身悬架垂直于地面方向上的加速度奖励函数,汽车俯仰角奖励函数,车身航向角奖励函数;
所述垂直于地面方向上的车身加速度奖励函数Racc为:
Figure BDA0002654974390000031
其中,acc为车身悬架垂直于地面方向上的加速度,|.|表示求绝对值,max_acc为预设的车身悬架垂直于地面方向上的加速度最大值,acc_th为acc的阈值,且max_acc≥acc_th≥0;
所述车身俯仰角奖励函数Rpitch为:
Figure BDA0002654974390000032
其中,pitch为车身俯仰角;△pitch=|pitch–pitch_normal|,表示车身俯仰角变化量;所述pitch_normal表示在平整路面上汽车的车身俯仰角;max_pitch为△pitch的最大值,pitch_th为△pitch的阈值,且max_pitch≥pitch_th≥0;
所示车身航向角奖励函数Ryaw为:
Figure BDA0002654974390000033
其中,yaw为车身航向角,所述yaw_normal为汽车在平整路面上行驶时车身航向角的值;△yaw=|yaw–yaw_normal|,为车身航向角的变化值;yaw_th为△yaw的阈值,max_yaw为△yaw的最大值,且max_yaw≥yaw_th≥0。
进一步的,该方法还包括判断训练好的深度强化学习算法是否需要进行优化,具体为:实时采集步骤4中主动悬架调整后的汽车的车身悬架垂直于地面方向上的加速度,悬架动行程和轮胎动载荷,将该三个参数进行加权算法后的值作为对训练好的深度强化学习算法的评分,当该评分不在预设的阈值范围内时,则认定需要对训练好的深度强化学习算法进行优化。
有益效果:本发明利用深度强化学习算法的强大自学习能力,在算法与仿真平台的不断的交互过程中,算法不断的探索各种控制策略(动作),从中挑出最优的策略,而人类的手动编码过程无法实现这种庞大的探索过程,自然难以寻找到最优的策略。在深度强化学习算法找到最优策略的条件下,算法进而能够自动学习到良好的汽车主动悬架控制策略。在实现良好的控制效果同时,避免被动悬架的较差控制性能,以及传统主动悬架的大量调试过程。本发明一方面避免了手动制定规则、手动编码过程中的所耗费的大量时间,并且提高了主动控制悬架的控制效果,另一方面能通过参考实车主动悬架设计仿真悬架模型,并使用该模型进行训练,节省大量的实车训练时间、算法模型从仿真环境迁移到实车环境中的再次训练时间。
附图说明
图1本发明的流程图。
图2为近端策略优化算法的结构图。
图3为近端策略优化算法应用于本发明中的结构图。
图4为搓板路面上,被动悬架与深度强化学习实现的主动悬架对比图,图(a)为被动悬架控制效果图,(b)为采用深度强化学习实现的主动悬架控制效果图。
图5为单个起伏的路面上,被动悬架与深度强化学习实现的主动悬架对比图,图(a)为被动悬架控制效果图,(b)为采用深度强化学习实现的主动悬架控制效果图。
具体实施方式
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
如图1所示,本实施例提供了一种基于深度强化学习算法的汽车主动悬架智能控制方法,具体包括如下步骤:
步骤1:采集某一时刻汽车在路面的行驶时的车身参数;所述车身参数包括:车身悬架垂直于地面方向上的加速度、车身悬架垂直于地面方向上的速度、悬架动行程、车身俯仰角、车身横摆角、车身侧倾角、车轮动载等;
步骤2:对车身参数进行预处理,具体为:将车身参数中每个参数进行缩放,使每个参数都缩放到该参数对应的数值范围;
步骤3:对深度强化学习算法进行训练:将缩放后的车身参数作为深度强化学习算法的输入,将深度强化学习算法的输出作为悬架控制系统的控制信号,在汽车继续行驶的过程中,悬架控制系统根据该控制信号做出响应,并得到车身参数的反馈值,将反馈值预处理后再次作为深度强化学习算法的输入;进行多次循环过程,采集每次循环过程中的车身参数数据,并使用该数据对深度强化学习算法进行训练;对步骤3进行多次迭代训练,从而得到训练好的深度强化学习算法;所述深度强化学习算法的输出为悬架阻尼力控制量,或悬架的刚度控制量或悬架阻尼力控制量和悬架的刚度控制量;
步骤4:在汽车行驶的过程中,实时采集车身参数,并对车身参数进行预处理,将该预处理后的车身参数输入至训练好的深度强化学习算法中,得到实时的悬架控制系统的控制信号,基于该控制信号对汽车主动悬架进行实时的调整。
优选的,强化学习算法通过不断探索来学习知识,里面必然包含大量无效低效的探索,如果在实际汽车上直接进行深度强化学习算法的训练存在较大的难度(时间、金钱成本较高),可以使用仿真模型和仿真平台为深度强化学习算法的训练提供训练数据集;步骤1具体为:
步骤1.1:选择专业级的汽车悬架仿真平台,依据实际汽车的悬架特性,在仿真平台中建立符合参考悬架的汽车悬架仿真模型,反应汽车悬架实际变化及整车响应,步骤2中的深度强化学习算法模型能够利用逼近实车的悬架数据进行训练,可以提高主动悬架实现的效率;
步骤1.2:参考真实世界中的道路路面变化情况,在仿真平台中建立汽车行驶的路面,路面的种类以及变化情况能够覆盖真实世界的路面种类和变化情况,例如:
1)连续搓板路面,高70mm,长350mm,搓板间隔150mm,车速30km/h,匀速通过,可以模拟连续减速带、连续坑洼路面;
2)单一起伏路面,最高点50mm,长500mm,车速30km/h,匀速通过,可以模拟单个低矮减速带;
3)左右交错搓板路(扭曲路),高70mm,单块搓板长1m,车速20km/h,匀速通过,可以模拟非水泥/柏油硬化路的泥泞路面。
优选的,深度强化学习算法种类繁多,各有各自的特点,需要针对不同的算法进行相应的调参;根据如下的要求选择算法:算法效率高、参数调节方便。所以本实施例中选择PPO算法(近端策略优化算法),如图2所示为该算法的本身结构图,图2中FC layer是“全连接层”的英文表示,“n个FC+激活层”中的n表示数量,可以根据实际的情况进行调整,也可以使用其他网络替换;PPO算法网络由train net(和下文中“actor网络”含义相同)和evalnet(和下文中“critic网络”含义相同)组成,eval net是用于辅助train net进行的训练的网络,与train net结构、参数相同,eval net输出的value,表示对train net输出的动作action的评分/评论,辅助train训练。
优选的,所述步骤3如图3所示,环境在本实施例中指代汽车的悬架系统,包含算法指令下发后的悬架进行调整时控制、执行系统部分;本实施例中PPO算法由actor网络和critic网络组成,其中actor网络用于输出动作action,critic网络用于对输出的动作进行评价,辅助训练;训练时需要先采集一定量的数据,存在在“训练数据存放池”中,算法训练时会从“训练数据存放池”中采样数据进行训练,该池中的数据随着训练的进行会进行更新。
所述步骤3具体为:
步骤3.1:通过仿真和实际测试,分析汽车通过不平整路面的表现,考虑汽车行驶性能的评价,建立强化学习算法和仿真环境/实车环境的接口数据(深度强化学习算法与仿真环境和实车环境的接口数据相同,便于仿真环境中训练的算法向实车环境迁移),选择(深度)强化学习算法的输入状态(state):车身悬架的垂直方向上变化数据(加速度、速度)、悬架动行程、汽车俯仰角、汽车横摆角、汽车侧倾角、车轮动载等相关数据;
步骤3.2:将仿真环境给出的数据处理成深度强化学习算法使用的特征值(数据缩放),并送入至深度强化学习算法中训练,算法输出的动作action作为悬架控制系统的控制信号,用于控制悬架的刚度、阻尼力等变化(悬架系统中具体被控制内容由具体的悬架控制和执行机构决定,在本实施例中为悬架阻尼力),悬架系统响应控制信号后给出新的状态,从而实现循环训练;
上述整个训练过程中,没有对数据进行人为的标注(例如某些场景加大阻尼、某些场景减小阻尼),算法通过奖励函数提供的奖励值来自动学习如何进行控制,从而实现自动学习;
步骤3.3:深度强化学习算法是依据奖励来进行训练的,部分环境不会主动提供奖励,需要通过手动设定奖励函数,奖励函数设计思路、优化思路如下:
垂直于地面方向上的车身加速度越接近于0值越好,即汽车通过不平整路面时,车身垂直于地面的起伏越小越好,加速有一个中间阈值,加速度超过阈值越大,负奖励越大,加速度小于阈值越大,正奖励越大,函数的形式如:
Figure BDA0002654974390000071
其中,acc为车身悬架垂直于地面方向上的加速度,|.|表示求绝对值,max_acc为预设的车身悬架垂直于地面方向上的加速度最大值,acc_th为acc的阈值,且max_acc≥acc_th≥0;|acc|超过max_ac则认为控制失败,|acc|超过acc_th则为负奖励,小于则为正奖励。
对车头的角度(pitch,车身俯仰角)进行奖励,汽车通过平整路面时,pitch通常为默认的自然角度,当汽车通过不平整路面时,pitch会发生变化。此时,车身俯仰角度越小越好,pitch超过阈值越大,负奖励越大,pitch小于阈值越大,正奖励越大,函数的形式如下:
Figure BDA0002654974390000072
其中,pitch为车身俯仰角;△pitch=|pitch–pitch_normal|,表示车身俯仰角变化量;所述pitch_normal表示在平整路面上汽车的车身俯仰角;max_pitch为△pitch的最大值,pitch_th为△pitch的阈值,且max_pitch≥pitch_th≥0;△pitch超过max_pitch则认为控制失败,超过pitch_th则为负奖励,小于则为正奖励;
对汽车偏离正常行驶方向(航向角)yaw进行奖励,汽车在平整路面上行驶的角度yaw为yaw_normal,当在不平整路面上行驶时,行驶方向可能发生改变,△yaw为行驶方向改变的程度,yaw_th为yaw改变值的阈值,△yaw超过阈值越大,负奖励越大,△yaw小于阈值越大,正奖励越大,奖励函数的形式如下:
Figure BDA0002654974390000073
其中,其中,yaw为车身航向角,所述yaw_normal为汽车在平整路面上行驶时车身航向角的值;△yaw=|yaw–yaw_normal|,为车身航向角的变化值;yaw_th为△yaw的阈值,max_yaw为△yaw的最大值,且max_yaw≥yaw_th≥0。
上述各个部分奖励值通过加权算法后作为当前状态的总奖励:
辅助奖励:根据不同悬架的设计,可能需要添加额外的辅助奖励,例如乘坐舒适性、悬架调整时间长度等;
训练中需要达成的最基本目标为:优于被动悬架;
优选的,该方法还包括判断训练好的深度强化学习算法是否需要进行优化,在训练结束后,需要依据如下的关键指标进行评价:操纵稳定性、平顺性(乘坐舒适性),这两者会由车身垂直地面加速度大小、悬架动行程大小、轮胎载荷大小三个数据来体现,但也不只局限于上述三种数据。由于操纵稳定性和平顺性存在互斥关系(操纵稳定性高要求悬架硬、舒适性好要求悬架软),所以上述三个数据并不是越小越好,需做进一步评价。根据训练和评价的结果,深度强化学习算法调参优化,继续训练优化步骤2.4的目标,优化的过程中会涉及到算法的状态state-动作action的调整,训练直至达到或超过预期目标。
评价指标的设计如下:
1)对于车身垂直地面加速度评价指标,加速度越大、加速时间长,理论上会导致车身上下震动的幅度就更大,车内人员感受的晃动就更明显,舒适感差,所以加速度值理论上越小越好、加速时间越短越好,悬架的上下震动幅度就会越小、时间就越短;
2)实际汽车悬架在通过不平整路面时能够上下震动的范围是有限,悬架动行程的峰值越大,撞击汽车悬架缓冲装置(该装置有多种名称:缓冲块、限位块等)的可能性就越大,汽车的操纵稳定性差,对汽车的安全和寿命产生不利的影响,但悬架动行程也不不是越小越好,某些情况下,悬架动行程为0意味着悬架没有吸收冲击,舒适性会很差;
3)对于轮胎动载荷,代表轮胎和路面受到的冲击,该值越小,意味着冲击越小,轮胎、路面的磨损理论上越低,但轮胎动载荷同时影响轮胎与路面的附着效果,对于正常行驶是有帮助的(某些情况下,当轮胎静载荷和动载荷之和为0时,可能导致车轮不能传递水平力,此时意味着汽车不能正常行驶,对于汽车操纵稳定性带来危害),即轮胎动载荷不是越小越好,且轮胎动载荷的值变化不能过于剧烈,变化值小能够保证较好的操纵稳定性。仿真环境中轮胎动载荷参考平整路面下的值进行设定范围,实车环境中需要综合考虑汽车和路面情况;
4)对于上述3个评价指标,相互之间会存在一定的影响,并不是相互独立,将对该三个参数进行加权算法后的值作为对训练好的深度强化学习算法的评分,判断该评分是否超过预设的范围,若是超过范围时则需要进行优化算法,在设定范围内时,则不需要优化算法。
本实施例中,以平整路面中出现的局部不平整的路面为例,对比的内容为车身垂直于平整路面的加速度,如图4所示,图4中的搓板路面指路面上有连续较多个等间距的起伏,纵坐标轴上的数字越接近于0,说明在经过不平整路面时的车身的起伏越小即平稳性越好,汽车经过搓板路面,深度强化学习算法实现的主动悬架控制的车身垂直加速度值明显低于被动悬架,被动悬架实现加速度峰值为±0.3g左右,而深度强化学习算法实现的主动悬架只有±0.15g左右,如图5所示,汽车经过单个起伏的路面,深度强化学习算法实现的主动悬架控制的车身垂直加速度值只有被动悬架的10%左右。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (5)

1.一种基于深度强化学习算法的汽车主动悬架智能控制方法,其特征在于,具体包括如下步骤:
步骤1:采集某一时刻汽车在路面行驶时的车身参数;所述车身参数包括:车身悬架垂直于地面方向上的加速度、车身悬架垂直于地面方向上的速度、悬架动行程、车身俯仰角、车身横摆角、车身侧倾角和车轮动载;
步骤2:对车身参数进行预处理,具体为:将车身参数中每个参数进行缩放,使每个参数都缩放到该参数对应的数值范围内;
步骤3:对深度强化学习算法进行训练:将缩放后的车身参数作为深度强化学习算法的输入,将深度强化学习算法的输出作为悬架控制系统的控制信号,在汽车继续行驶的过程中,悬架控制系统根据该控制信号做出响应,并得到车身参数的反馈值,将反馈值预处理后再次作为深度强化学习算法的输入;进行多次循环过程,采集每次循环过程中的车身参数数据,并使用该数据对深度强化学习算法进行训练;对步骤3进行多次迭代训练,从而得到训练好的深度强化学习算法;所述深度强化学习算法的输出为悬架阻尼力控制量和/或悬架的刚度控制量;
步骤4:在汽车行驶的过程中,实时采集车身参数,并对车身参数进行预处理,将该预处理后的车身参数输入至训练好的深度强化学习算法中,得到实时的悬架控制系统的控制信号,基于该控制信号对汽车主动悬架进行实时的调整。
2.根据权利要求1所述的一种基于深度强化学习算法的汽车主动悬架智能控制方法,其特征在于,所述步骤1具体为:基于真实的路面变化情况在仿真平台中建立汽车行驶路面的仿真模型,该行驶路面中的仿真模型包括:连续搓板路面,单一起伏路面和扭曲路面;根据汽车的悬架特性在仿真平台中建立能够反映车身实际变化和整车响应的汽车悬架仿真模型;在仿真平台中模拟汽车行驶,从而实现车身参数的采集。
3.根据权利要求1所述的一种基于深度强化学习算法的汽车主动悬架智能控制方法,其特征在于,所述深度强化学习算法采用近端策略优化算法。
4.根据权利要求1所述的一种基于深度强化学习算法的汽车主动悬架智能控制方法,其特征在于,所述深度强化学习算法中的奖励函数包括:车身悬架垂直于地面方向上的加速度奖励函数,汽车俯仰角奖励函数,车身航向角奖励函数;
所述垂直于地面方向上的车身加速度奖励函数Racc为:
Figure FDA0002654974380000021
其中,acc为车身悬架垂直于地面方向上的加速度,|.|表示求绝对值,max_acc为预设的车身悬架垂直于地面方向上的加速度最大值,acc_th为acc的阈值,且max_acc≥acc_th≥0;
所述车身俯仰角奖励函数Rpitch为:
Figure FDA0002654974380000022
其中,pitch为车身俯仰角;△pitch=|pitch–pitch_normal|,表示车身俯仰角变化量;所述pitch_normal表示在平整路面上汽车的车身俯仰角;max_pitch为△pitch的最大值,pitch_th为△pitch的阈值,且max_pitch≥pitch_th≥0;
所示车身航向角奖励函数Ryaw为:
Figure FDA0002654974380000023
其中,yaw为车身航向角,所述yaw_normal为汽车在平整路面上行驶时车身航向角的值;△yaw=|yaw–yaw_normal|,为车身航向角的变化;yaw_th为△yaw的阈值,max_yaw为△yaw的最大值,且max_yaw≥yaw_th≥0。
5.根据权利要求1所述的一种基于1深度强化学习算法的汽车主动悬架智能控制方法,其特征在于,该方法还包括判断训练好的深度强化学习算法是否需要进行优化,具体为:实时采集步骤4中主动悬架调整后的汽车的车身悬架垂直于地面方向上的加速度,悬架动行程和轮胎动载荷,将该三个参数进行加权算法后的值作为对训练好的深度强化学习算法的评分,当该评分不在预设的阈值范围内时,则认定需要对训练好的深度强化学习算法进行优化。
CN202010883936.9A 2020-08-28 2020-08-28 一种基于深度强化学习算法的汽车主动悬架智能控制方法 Active CN112078318B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010883936.9A CN112078318B (zh) 2020-08-28 2020-08-28 一种基于深度强化学习算法的汽车主动悬架智能控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010883936.9A CN112078318B (zh) 2020-08-28 2020-08-28 一种基于深度强化学习算法的汽车主动悬架智能控制方法

Publications (2)

Publication Number Publication Date
CN112078318A true CN112078318A (zh) 2020-12-15
CN112078318B CN112078318B (zh) 2024-05-07

Family

ID=73728703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010883936.9A Active CN112078318B (zh) 2020-08-28 2020-08-28 一种基于深度强化学习算法的汽车主动悬架智能控制方法

Country Status (1)

Country Link
CN (1) CN112078318B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112698572A (zh) * 2020-12-22 2021-04-23 西安交通大学 一种基于强化学习的结构振动控制方法、介质及设备
CN112949604A (zh) * 2021-04-12 2021-06-11 石河子大学 一种基于深度学习的主动悬架智能控制方法及装置
CN113119952A (zh) * 2021-05-31 2021-07-16 周宇 实时车辆稳定系统及其方法
CN113232566A (zh) * 2021-07-01 2021-08-10 周宇 Ai电磁瞬控主动防震座椅及其方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108608822A (zh) * 2018-07-23 2018-10-02 浙江大学滨海产业技术研究院 一种agv悬挂系统弹性调节方法及系统
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
KR102097571B1 (ko) * 2019-03-31 2020-04-07 연세대학교 산학협력단 강화학습 기반 서스펜션 제어장치
CN111487863A (zh) * 2020-04-14 2020-08-04 东南大学 一种基于深度q神经网络的主动悬架强化学习控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108608822A (zh) * 2018-07-23 2018-10-02 浙江大学滨海产业技术研究院 一种agv悬挂系统弹性调节方法及系统
KR102097571B1 (ko) * 2019-03-31 2020-04-07 연세대학교 산학협력단 강화학습 기반 서스펜션 제어장치
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN111487863A (zh) * 2020-04-14 2020-08-04 东南大学 一种基于深度q神经网络的主动悬架强化学习控制方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112698572A (zh) * 2020-12-22 2021-04-23 西安交通大学 一种基于强化学习的结构振动控制方法、介质及设备
CN112698572B (zh) * 2020-12-22 2022-08-16 西安交通大学 一种基于强化学习的结构振动控制方法、介质及设备
CN112949604A (zh) * 2021-04-12 2021-06-11 石河子大学 一种基于深度学习的主动悬架智能控制方法及装置
CN113119952A (zh) * 2021-05-31 2021-07-16 周宇 实时车辆稳定系统及其方法
CN113232566A (zh) * 2021-07-01 2021-08-10 周宇 Ai电磁瞬控主动防震座椅及其方法

Also Published As

Publication number Publication date
CN112078318B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
CN112078318A (zh) 一种基于深度强化学习算法的汽车主动悬架智能控制方法
CN112936290B (zh) 一种基于分层强化学习的四足机器人运动规划方法
CN112668235A (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN110631596B (zh) 一种基于迁移学习的装备车辆路径规划方法
CN107200017A (zh) 一种基于深度学习的无人驾驶车辆控制系统
CN107331179A (zh) 一种基于大数据云平台的经济性驾驶辅助系统及实现方法
CN114379583B (zh) 一种基于神经网络动力学模型的自动驾驶车辆轨迹跟踪系统及方法
Soleymani et al. Adaptive fuzzy controller for vehicle active suspension system based on traffic conditions
CN112232490A (zh) 一种基于视觉的深度模仿强化学习驾驶策略训练方法
CN113715842B (zh) 一种基于模仿学习和强化学习的高速运动车辆控制方法
US20220155732A9 (en) System and Method of Efficient, Continuous, and Safe Learning Using First Principles and Constraints
CN111487863A (zh) 一种基于深度q神经网络的主动悬架强化学习控制方法
CN110456634A (zh) 一种基于人工神经网络的无人车控制参数选取方法
CN113911172A (zh) 一种基于自适应动态规划的高速列车优化运行控制方法
CN110879595A (zh) 一种基于深度强化学习的无人矿卡循迹控制系统及方法
JP2007233985A (ja) システムの最適制御方法
CN117227834B (zh) 一种特种车辆人机协同转向控制方法
CN113591360A (zh) 基于整车动力学模型的磁流变阻尼器结构参数优化方法
CN112434407A (zh) 一种履带式车辆多悬挂动力学参数分配优化设计方法
CN116620327A (zh) 基于PPO和Lattice实现自动驾驶的高速场景的变道决策方法
CN108608822B (zh) 一种agv悬挂系统弹性调节方法及系统
CN115629608A (zh) 基于深度预测网络和深度强化学习的自动驾驶车辆控制方法
CN114117944B (zh) 一种模型更新方法、装置、设备及可读存储介质
CN115871742A (zh) 一种多场景下人机混驾智能列车的控制方法
CN115031753A (zh) 基于安全势场和dqn算法的行车工况局部路径规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 210000 11th floor, building A1, Huizhi science and Technology Park, 8 Hengtai Road, Nanjing Economic and Technological Development Zone, Nanjing City, Jiangsu Province

Applicant after: DILU TECHNOLOGY Co.,Ltd.

Address before: Building C4, No.55 Liyuan South Road, moling street, Jiangning District, Nanjing City, Jiangsu Province

Applicant before: DILU TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant