CN114802306A - 一种基于人机共驾理念的智能车辆集成式决策系统 - Google Patents

一种基于人机共驾理念的智能车辆集成式决策系统 Download PDF

Info

Publication number
CN114802306A
CN114802306A CN202210465478.6A CN202210465478A CN114802306A CN 114802306 A CN114802306 A CN 114802306A CN 202210465478 A CN202210465478 A CN 202210465478A CN 114802306 A CN114802306 A CN 114802306A
Authority
CN
China
Prior art keywords
decision
vehicle
driving
cabin
sensing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210465478.6A
Other languages
English (en)
Inventor
郑鑫宇
刘信凡
樊洪志
李培杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Junsheng Intelligent Automobile Technology Research Institute Co ltd
Original Assignee
Ningbo Junsheng Intelligent Automobile Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Junsheng Intelligent Automobile Technology Research Institute Co ltd filed Critical Ningbo Junsheng Intelligent Automobile Technology Research Institute Co ltd
Priority to CN202210465478.6A priority Critical patent/CN114802306A/zh
Publication of CN114802306A publication Critical patent/CN114802306A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0062Adapting control system settings
    • B60W2050/0075Automatic parameter input, automatic initialising or calibrating means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0062Adapting control system settings
    • B60W2050/0075Automatic parameter input, automatic initialising or calibrating means
    • B60W2050/0082Automatic parameter input, automatic initialising or calibrating means for initialising the control system
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0062Adapting control system settings
    • B60W2050/0075Automatic parameter input, automatic initialising or calibrating means
    • B60W2050/0095Automatic control mode change
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/22Psychological state; Stress level or workload
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/221Physiology, e.g. weight, heartbeat, health or special needs
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2556/00Input parameters relating to data
    • B60W2556/10Historical data

Abstract

本发明公开了一种基于人机共驾理念的智能车辆集成式决策系统,包括:外界环境感知模块,用于将外界传感信息进行处理,输出感知目标结果Senv;座舱感知模块,用于将座舱内感知信息进行处理,输出感知结果Scab;决策模块,用于将混合感知状态S=[Senv,Scab]作为输入,并根据深度强化学习决策算法输出决策动作A=[aenv,acab],决策动作A其中一路输出为针对车辆的行驶行为决策指令aenv,另一路输出为座舱控制指令acab;行驶行为控制模块,根据aenv对车辆的行驶状态进行适应性调整;舱内控制模块,根据acab对舱内执行设备进行适应性调整。本发明利用舱内信息指导车辆的道路行驶决策,提升系统的鲁棒性和安全性,同时利用外界行驶环境信息提升舱内乘客用户体验。

Description

一种基于人机共驾理念的智能车辆集成式决策系统
技术领域
本发明涉及汽车自动驾驶技术领域,特别是一种基于人机共驾理念的智能车辆集成式决策系统。
背景技术
随着汽车自动驾驶等级的提高,功能场景对车辆应对复杂多变场景下的自主决策能力的要求也在不断提升。传统的基于规则和人工设计的决策方法的比重会逐渐下降,学术界提出了很多基于数据驱动的AI算法来搭建决策模块,但是这类端到端的方法对数据量的需求较大,且具有不可解释性、不可预测的特点。如专利公开号CN113920484A基于单目RGB_D特征和强化学习的端到端自动驾驶决策方法,该专利基于相机的特征和强化学习进行端到端的自动驾驶决策,直接输出车辆的控制动作信号如刹车、油门、转向等,这种方法首先只考虑使用了单目相机的信息作为输入,并且端到端的直接输出控制指令,风险较高,实际可行性差。又如专利公开号CN112348201A一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法,该专利中引入了更多的传感器以及环境信息作为模型的输入,但是还没考虑到对人机共驾场景的适应,也并不具备全局上的一个多车之间的最优博弈决策能力。专利公开号CN113602284A人机共驾模式决策方法、装置、设备及存储介质中通过手表收集感应驾驶员的生理特征,为车辆功能的模式降级切换提供依据,但并未涉及到车辆在复杂场景下的行为决策。因此,亟需研发一种更为全面化的基于人机共驾理念的智能车辆集成式决策系统及决策方法,从而更好地进行决策。
发明内容
本发明的目的在于,提供一种基于人机共驾理念的智能车辆集成式决策系统。本发明针对L2-L3级别自动驾驶人机共驾场景,实现了利用舱内信息指导车辆的道路行驶决策,提升系统的鲁棒性和安全性,同时利用外界行驶环境信息提升舱内乘客用户体验。
本发明的技术方案:一种基于人机共驾理念的智能车辆集成式决策系统,包括:
外界环境感知模块,用于将当前车辆外界环境传感信息进行处理,输出感知目标结果Senv
座舱感知模块,用于将座舱内感知系统的信息进行处理,输出感知结果Scab
决策模块,用于将混合感知状态S=[Senv,Scab]作为输入,并根据深度强化学习决策算法输出深度融合的决策动作A=[aenv,acab],决策动作A分两路输出,其中一路输出为针对车辆的行驶行为决策指令aenv,另一路输出为座舱控制指令acab
行驶行为控制模块,根据行驶行为决策指令aenv对车辆的行驶状态进行适应性调整;
舱内控制模块,根据座舱控制指令acab对舱内执行设备进行适应性调整。
前述的一种基于人机共驾理念的智能车辆集成式决策系统中,所述决策系统还包括规划模块,所述规划模块用于处理行驶行为决策指令aenv,根据aenv进行轨迹点规划,再输出至行驶行为控制模块控制车辆的行驶状态。
前述的一种基于人机共驾理念的智能车辆集成式决策系统中,所述决策系统还包括定位模块,所述定位模块用于将车辆的定位信息分别输出至决策模块、规划模块和行驶行为控制模块。
前述的一种基于人机共驾理念的智能车辆集成式决策系统中,决策模块中深度强化学习决策算法采用的框架包括但不限于DQN、DDPG、A3C、PPO、SAC中的一种强化学习框架。
前述的一种基于人机共驾理念的智能车辆集成式决策系统中,决策模块中深度强化学习决策算法的使用过程包括:将混合感知状态S输入到当前网络参数为w的神经网络N中,从而输出决策值V,根据决策值V确定最终输出的决策动作A。
前述的一种基于人机共驾理念的智能车辆集成式决策系统中,所述决策值V=[行驶决策v1,舱内决策(空调v2,灯光v3,音乐v4,车窗v5)],包含v1至v5的5类决策对象,在每一类决策对象中,根据贪婪策略选择最大数值所对应的决策作为最终的决策动作输出A=[a1,a2,a3,a4,a5]。
前述的一种基于人机共驾理念的智能车辆集成式决策系统中,决策模块中深度强化学习决策算法的训练过程包括以下步骤:
步骤1、初始化探索阈值E,初始化神经网络N的网络参数w;
步骤2、将当前车辆的混合感知状态S=[Senv,Scab]输入进神经网络N中,生成一个随机数e,
若e≥E,则根据贪婪策略选择最大数值所对应的决策作为最终输出的决策动作A;
若e<E,则随机生成决策动作A;
步骤3、对此时处于混合感知状态S的车辆执行决策动作A,从而得到一个新的混合感知状态S’和奖励R,通过新的混合感知状态S’判断:
若车辆发生碰撞,则得到终止标志Flag=1;
若车辆未发生碰撞,则Flag=0;
步骤4、将{S,A,S’,R,Flag}这一组数据存入数据池中;
步骤5、将S’赋值给S,车辆进入新的混合感知状态S’,同时将E*0.99999赋值给E,再进入步骤6;
步骤6、从数据池中采集n组样本数据{Sn,An,Sn’,Rn,Flagn},对于每一组样本数据计算当前决策目标值Vtarget
若Flag=1,则Vtarget=R;
若Flag=0,则Vtarget=R+γmax N(S′,w),其中γmax N(S′,w)的含义是将新的混合感知状态S’输入到当前网络参数为w的神经网络N中,根据贪婪策略输出最大的决策值,并乘以固定折扣值γ;
步骤7、使用均方误差函数计算n个决策目标值Vtarget的损失:
Figure BDA0003623832570000041
步骤8、使用神经网络梯度反向传播来更新神经网络N的网络参数w,返回到步骤2,进行循环训练。
前述的一种基于人机共驾理念的智能车辆集成式决策系统中,所述步骤3中奖励R的函数为:R=A*安全性+B*效率性+C*舒适性+D*乘客体验,其中A、B、C、D分别代表各项评估指标的权重,安全性由碰撞惩罚计算,效率性由车速衡量,舒适性由换道惩罚以及加速度变化得出,乘客体验通过座舱内的感知系统给出。
前述的一种基于人机共驾理念的智能车辆集成式决策系统中,所述步骤6中的固定折扣值γ=0.999。
与现有技术相比,本发明的有益效果体现在:
一、本发明改进了现有基于强化学习的端到端的自动驾驶决策方案中数据从仿真往实际迁移鸿沟大、训练难收敛、不可解释性等问题,也不同于那些完全基于人工设计规则的方法,本发明中提出的决策系统具备一定的自主应对复杂场景的能力;
二、本发明利用深度强化学习框架,将L2-L3级别的自动驾驶系统与座舱系统集成为人机共驾系统,做成整车级别的包含车辆内外部的全局决策功能,提升安全性以及座舱内乘客的用户体验,其中,更是实现了利用舱内信息指导车辆的道路行驶决策提升系统的鲁棒性和安全性,同时利用外界行驶环境信息提升舱内乘客用户体验;
三、本发明经过特殊设计的深度强化学习框架训练状态特征,提升了算法的泛化性和一致性,缩小了AI模型从仿真训练到实车部署之间的鸿沟,使大量的来自仿真环境的低成本数据能够很好地应用在实车上;同时,本发明结合了联邦学习和强化学习,为系统提供更多有价值的数据,提升技术迭代的效率。
附图说明
图1是本发明的系统框架结合决策流程的示意图;
图2是实施例中的一种车辆驾驶场景;
图3是深度强化学习决策算法的网络模型图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
实施例:一种基于人机共驾理念的智能车辆集成式决策系统,系统结构参考图1所示,包括外界环境感知模块、座舱感知模块、决策模块、行驶行为控制模块、舱内控制模块、规划模块和定位模块,其中:
外界环境感知模块,是用于将当前车辆外界环境传感信息进行处理,输出感知目标结果Senv
座舱感知模块,是用于将座舱内感知系统的信息进行处理,输出感知结果Scab
即本发明中的强化学习的状态量为:外界环境传感器输入经过感知模块运算后得到的感知目标结果Senv,以及座舱内感知系统的感知结果(包括乘客、驾驶员的状态等)Scab的拼接[Senv,Scab]。
为了实现以上数据的采集,人机共驾系统包含现有自动驾驶系统中自带的传感器:激光雷达、毫米波雷达、相机、超声波雷达等传感器,也涵盖了车内座舱感知系统:DMS、OMS,以充分收集车辆外部的道路信息以及车内的驾驶员、乘客的当前状态。
决策模块,是用于将混合感知状态S=[Senv,Scab]作为输入,并根据深度强化学习决策算法输出深度融合的决策动作A=[aenv,acab],决策动作A分两路输出,其中一路输出为针对车辆的行驶行为决策指令aenv,如变道、直行、左转、右转、停车等,由后续的下游规划模块以及行驶行为控制模块去做进一步的解释和执行;另一路输出为座舱控制指令acab,如空调的功率、灯光开关、各种类型音乐的播放等。
举例:检测到外界车流较多、天气状况恶劣的情况下,可以改变氛围灯为红色,同时输出的行为决策偏向于保守,尽量避免超车和换道;当检测到驾驶员精神不振时,可以舱内播放提神的音乐,同时整车放缓车速。
本发明中针对强化学习的状态量做了特殊设计,不再是将传感器的原始输入或经过特征提取后的特征向量作为输入,而是保留了上游的感知模块(见图1),将感知算法输出的目标结果作为状态量的一部分,同时接入座舱内的司机、乘客状态信息,进行综合的针对性决策。
决策模块中深度强化学习决策算法采用的框架包括但不限于DQN、DDPG、A3C、PPO、SAC中的一种强化学习框架。
行驶行为控制模块,能根据行驶行为决策指令aenv对车辆的行驶状态进行适应性调整。
舱内控制模块,能根据座舱控制指令acab对舱内执行设备进行适应性调整。
规划模块,用于处理行驶行为决策指令aenv,根据aenv进行轨迹点规划,再输出至行驶行为控制模块控制车辆的行驶状态。
定位模块,用于将车辆的定位信息分别输出至决策模块、规划模块和行驶行为控制模块。
当强化学习决策算法模型在仿真环境训练时,使用相同的混合感知状态输入[Senv,Scab],即把经过感知模块处理后的目标数据作为输入,避免了由仿真和现实中原始环境的差异带来的偏差。奖励函数的设计:R=A*安全性+B*效率性+C*舒适性+D*乘客体验,其中A、B、C、D分别代表各项评估指标的权重。安全性由碰撞惩罚计算、效率性由车速衡量、舒适性由换道惩罚得出、乘客体验通过座舱内的感知系统给出。
每当决策系统根据当前混合感知状态S=[Senv,Scab],采取决策动作A=[aenv,acab],收获奖励R以及进入下一决策周期的混合感知状态S’时,即收集到一组经验[S,A,R,S’]。所有部署了本发明中的决策系统的智能车辆将自身经验定期上传存于云端经验池中进行共享。
每个智能车辆可以定期将自己的强化学习决策算法模型上传至云服务器中,通过横向联邦学习的方式训练迭代模型,再下载到本地进行模型替换更新。对经验数据在不侵犯法律法规的情况下,进行最大限度地利用。
下面通过一个实例来演示本发明决策系统中深度强化学习决策算法的使用过程及深度强化学习决策算法的训练过程。
决策算法的使用过程:
本发明中提出的决策算法框架通过特殊设计的状态量(混合感知状态S)输入来规避仿真训练到实际部署的鸿沟:即不再需求传感器原始信号作为算法的输入(因为仿真环境很难做到对现实场景的完全还原,导致仿真传感器输出的信号会和实际有很大的偏差,基于仿真中的传感器信号训练的AI算法模型就很难在实际中进行应用)。本发明中的决策算法选择使用感知模块运算后的目标及结果作为输入。
比如当汽车A行驶在高速路上时,参考图2,传感器可以感知到周围的车B、C、D、E,则决策算法输入的外界感知结果Senv会是[B车相对位置,B车速度,B车加速度,B车朝向,C车相对位置,C车速度,C车加速度,C车朝向,D车相对位置,D车速度,D车加速度,D车朝向,E车相对位置,E车速度,E车加速度,E车朝向],假如此时检测到舱内驾驶员由于困意导致注意力级别不高,感觉寒冷且心情不佳,则此时座舱内的感知结果Scab=[驾驶员注意力级别,体感温度,心情指数],决策算法的输入会是S=[Senv,Scab]。
决策算法的网络模型可采用如图3所示的全连接网络结构,其中输入的节点个数与混合感知状态量[Senv,Scab]的矩阵维度相关,如本例中是19个输入节点(为了附图具有较好的显示效果,图3只表示网络模型的作用原理,并未将19个输入节点全部画出来),分别对应[B车相对位置,B车速度,B车加速度,B车朝向,C车相对位置,C车速度,C车加速度,C车朝向,D车相对位置,D车速度,D车加速度,D车朝向,E车相对位置,E车速度,E车加速度,E车朝向,驾驶员注意力级别,体感温度,心情指数]。而输出的决策值V=[行驶决策v1,舱内决策(空调v2,灯光v3,音乐v4,车窗v5)],详情:
Figure BDA0003623832570000081
针对v1,由于在高速场景,所以不需要考虑假如转弯决策行为,如果在城市场景则还可加入转弯,掉头等决策。
Figure BDA0003623832570000091
针对v2,还可以加入功率增大、减小等选项。
Figure BDA0003623832570000092
针对v3,还可以加入其他颜色,以及氛围灯光模式。
Figure BDA0003623832570000093
针对v4,也可加入驾驶员预设的喜好音乐。
Figure BDA0003623832570000094
本例中输出的决策值V一共会有18个值,包含v1到v5的5类决策对象。最终在每一类决策对象中,根据贪婪策略只选择v值最大的决策作为最终的决策动作输出A=[a1,a2,a3,a4,a5]。假如根据本例中的混合感知状态输入:
Figure BDA0003623832570000095
Figure BDA0003623832570000101
Figure BDA0003623832570000102
Figure BDA0003623832570000103
Figure BDA0003623832570000104
根据输入的混合感知状态量,完整合理的决策动作输出值应该是A=[减速,空调升温,氛围灯切换成黄色,打开提神音乐,关闭窗户],下游的规划模块及行驶行为控制模块根据减速决策指令执行相应的动作,舱内的执行器(音响、空调、灯、车窗等)也根据相应的决策指令进行控制。
决策算法的训练过程:
以上已经介绍了深度强化学习决策算法的使用过程,包括:将混合感知状态S输入到当前网络参数为w的神经网络N中,从而输出决策值V,即V=N(S,w),根据决策值V确定最终输出的决策动作A。
基于以上算法的训练过程包括以下步骤:
步骤1、初始化探索阈值E=0.8(可以自由调整),初始化神经网络N的网络参数w。
步骤2、将当前车辆的混合感知状态S=[Senv,Scab](可以来自于仿真环境或者实际行车过程中采集的数据)输入进神经网络N中,生成一个随机数e,
假设e=0.9,则满足e≥E,采取的决策行为依照先前的贪婪策略,直接选择v值最大的决策动作A;
若e<E,则随机生成决策动作A。
步骤3、对此时处于混合感知状态S的车辆执行决策动作A,从而得到一个新的混合感知状态S’和奖励R,奖励函数的设计:R=A*安全性+B*效率性+C*舒适性+D*乘客体验,其中A、B、C、D分别代表各项评估指标的权重。安全性由碰撞惩罚计算(如发生碰撞则安全性=-100)、效率性由车速衡量(如效率性=当前车速)、舒适性由换道惩罚以及加速度变化得出(如舒适性=-10*换道行为次数-10*加速度变化)、乘客体验通过座舱内的感知系统给出(如乘客体验=乘客心情指数*5);通过新的混合感知状态S’和奖励R判断:
若车辆发生碰撞,则得到终止标志F1ag=1;
若车辆未发生碰撞,则F1ag=0。
步骤4、将{S,A,S’,R,Flag}这一组数据存入数据池中。
步骤5、将S’赋值给S,车辆进入新的混合感知状态S’,同时将E*0.99999赋值给E(让探索阈值E逐步减少),再进入步骤6。
步骤6、从数据池中采集n组样本数据{Sn,An,Sn′,Rn,Flagn},对于每一组样本数据计算当前决策目标值Vtarget
若Flag=1,则Vtarget=R;
若Flag=0,则Vtarget=R+γmax N(S′,w),其中γmax N(S′,w)的含义是将新的混合感知状态S’输入到当前网络参数为w的神经网络N中,根据贪婪策略输出最大的决策值,并乘以固定折扣值γ,γ一般为接近1的小数,本例中的γ=0.999。
步骤7、使用均方误差函数计算n个决策目标值Vtarget的损失:
Figure BDA0003623832570000121
步骤8、使用神经网络梯度反向传播来更新神经网络N的网络参数w,返回到步骤2,进行循环训练。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种基于人机共驾理念的智能车辆集成式决策系统,其特征在于:包括:
外界环境感知模块,用于将当前车辆外界环境传感信息进行处理,输出感知目标结果Senv
座舱感知模块,用于将座舱内感知系统的信息进行处理,输出感知结果Scab
决策模块,用于将混合感知状态S=[Senv,Scab]作为输入,并根据深度强化学习决策算法输出深度融合的决策动作A=[aenv,acab],决策动作A分两路输出,其中一路输出为针对车辆的行驶行为决策指令aenv,另一路输出为座舱控制指令acab
行驶行为控制模块,根据行驶行为决策指令aenv对车辆的行驶状态进行适应性调整;
舱内控制模块,根据座舱控制指令acab对舱内执行设备进行适应性调整。
2.根据权利要求1所述的一种基于人机共驾理念的智能车辆集成式决策系统,其特征在于:所述决策系统还包括规划模块,所述规划模块用于处理行驶行为决策指令aenv,根据aenv进行轨迹点规划,再输出至行驶行为控制模块控制车辆的行驶状态。
3.根据权利要求2所述的一种基于人机共驾理念的智能车辆集成式决策系统,其特征在于:所述决策系统还包括定位模块,所述定位模块用于将车辆的定位信息分别输出至决策模块、规划模块和行驶行为控制模块。
4.根据权利要求1所述的一种基于人机共驾理念的智能车辆集成式决策系统,其特征在于:决策模块中深度强化学习决策算法采用的框架包括但不限于DQN、DDPG、A3C、PPO、SAC中的一种强化学习框架。
5.根据权利要求1-4中任一项所述的一种基于人机共驾理念的智能车辆集成式决策系统,其特征在于:决策模块中深度强化学习决策算法的使用过程包括:将混合感知状态S输入到当前网络参数为w的神经网络N中,从而输出决策值V,根据决策值V确定最终输出的决策动作A。
6.根据权利要求5所述的一种基于人机共驾理念的智能车辆集成式决策系统,其特征在于:所述决策值V=[行驶决策v1,舱内决策(空调v2,灯光v3,音乐v4,车窗v5)],包含v1至v5的5类决策对象,在每一类决策对象中,根据贪婪策略选择最大数值所对应的决策作为最终的决策动作输出A=[a1,a2,a3,a4,a5]。
7.根据权利要求6所述的一种基于人机共驾理念的智能车辆集成式决策系统,其特征在于:决策模块中深度强化学习决策算法的训练过程包括以下步骤:
步骤1、初始化探索阈值E,初始化神经网络N的网络参数w;
步骤2、将当前车辆的混合感知状态S=[Senv,Scab]输入进神经网络N中,生成一个随机数e,
若e≥E,则根据贪婪策略选择最大数值所对应的决策作为最终输出的决策动作A;
若e<E,则随机生成决策动作A;
步骤3、对此时处于混合感知状态S的车辆执行决策动作A,从而得到一个新的混合感知状态S’和奖励R,通过新的混合感知状态S’判断:
若车辆发生碰撞,则得到终止标志Flag=1;
若车辆未发生碰撞,则Flag=0;
步骤4、将{S,A,S’,R,Flag}这一组数据存入数据池中;
步骤5、将S’赋值给S,车辆进入新的混合感知状态S’,同时将E*0.99999赋值给E,再进入步骤6;
步骤6、从数据池中采集n组样本数据{Sn,An,Sn’,Rn,Flagn},对于每一组样本数据计算当前决策目标值Vtarget
若Flag=1,则Vtarget=R;
若Flag=0,则Vtarget=R+γmaxN(S′,w),其中γmaxN(S′,w)的含义是将新的混合感知状态S’输入到当前网络参数为w的神经网络N中,根据贪婪策略输出最大的决策值,并乘以固定折扣值γ;
步骤7、使用均方误差函数计算n个决策目标值Vtarget的损失:
Figure FDA0003623832560000031
步骤8、使用神经网络梯度反向传播来更新神经网络N的网络参数w,返回到步骤2,进行循环训练。
8.根据权利要求7所述的一种基于人机共驾理念的智能车辆集成式决策系统,其特征在于:所述步骤3中奖励R的函数为:R=A*安全性+B*效率性+C*舒适性+D*乘客体验,其中A、B、C、D分别代表各项评估指标的权重,安全性由碰撞惩罚计算,效率性由车速衡量,舒适性由换道惩罚以及加速度变化得出,乘客体验通过座舱内的感知系统给出。
9.根据权利要求7所述的一种基于人机共驾理念的智能车辆集成式决策系统,其特征在于:所述步骤6中的固定折扣值γ=0.999。
CN202210465478.6A 2022-04-29 2022-04-29 一种基于人机共驾理念的智能车辆集成式决策系统 Pending CN114802306A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210465478.6A CN114802306A (zh) 2022-04-29 2022-04-29 一种基于人机共驾理念的智能车辆集成式决策系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210465478.6A CN114802306A (zh) 2022-04-29 2022-04-29 一种基于人机共驾理念的智能车辆集成式决策系统

Publications (1)

Publication Number Publication Date
CN114802306A true CN114802306A (zh) 2022-07-29

Family

ID=82509104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210465478.6A Pending CN114802306A (zh) 2022-04-29 2022-04-29 一种基于人机共驾理念的智能车辆集成式决策系统

Country Status (1)

Country Link
CN (1) CN114802306A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115891871A (zh) * 2022-11-16 2023-04-04 阿维塔科技(重庆)有限公司 车辆座舱的控制方法、装置及计算机可读存储介质
CN117227834A (zh) * 2023-11-10 2023-12-15 中国矿业大学 一种特种车辆人机协同转向控制方法
CN115891871B (zh) * 2022-11-16 2024-05-17 阿维塔科技(重庆)有限公司 车辆座舱的控制方法、装置及计算机可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115891871A (zh) * 2022-11-16 2023-04-04 阿维塔科技(重庆)有限公司 车辆座舱的控制方法、装置及计算机可读存储介质
CN115891871B (zh) * 2022-11-16 2024-05-17 阿维塔科技(重庆)有限公司 车辆座舱的控制方法、装置及计算机可读存储介质
CN117227834A (zh) * 2023-11-10 2023-12-15 中国矿业大学 一种特种车辆人机协同转向控制方法
CN117227834B (zh) * 2023-11-10 2024-01-30 中国矿业大学 一种特种车辆人机协同转向控制方法

Similar Documents

Publication Publication Date Title
CN110969848B (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN109213148B (zh) 一种基于深度强化学习的车辆低速跟驰决策方法
CN113253739B (zh) 一种用于高速公路的驾驶行为决策方法
CN110956851B (zh) 一种智能网联汽车协同调度换道方法
CN114312830A (zh) 一种考虑危险驾驶工况的智能车耦合决策模型及方法
CN113581182B (zh) 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统
CN114013443A (zh) 一种基于分层强化学习的自动驾驶车辆换道决策控制方法
CN113255998B (zh) 基于多智能体强化学习的高速道路无人驾驶车辆编队方法
CN112201070B (zh) 基于深度学习的自动驾车高速公路瓶颈路段行为决策方法
CN114153213A (zh) 一种基于路径规划的深度强化学习智能车行为决策方法
CN116432448B (zh) 基于智能网联车和驾驶员遵从度的可变限速优化方法
CN115257819A (zh) 城市低速环境下的大型营运车辆安全驾驶决策方法
CN113665593A (zh) 一种车辆智能驾驶纵向控制方法、系统及存储介质
CN115257789A (zh) 城市低速环境下的营运车辆侧向防撞驾驶决策方法
CN115123159A (zh) 一种基于ddpg深度强化学习的aeb控制方法及系统
CN114802306A (zh) 一种基于人机共驾理念的智能车辆集成式决策系统
CN114475607B (zh) 自动驾驶车辆的拟人化换道方法、装置、车辆及存储介质
CN115973179A (zh) 模型训练方法、车辆控制方法、装置、电子设备及车辆
CN114954498A (zh) 基于模仿学习初始化的强化学习换道行为规划方法及系统
CN112835362B (zh) 一种自动变道规划方法及装置、电子设备和存储介质
CN115700626A (zh) 用于车辆的奖励函数
CN110378460B (zh) 决策方法
CN117077753B (zh) 类脑智能驾驶控制模型升级方法及类脑智能驾驶方法
CN116534055A (zh) 一种基于驾驶员个性化的拟人变道轨迹优化方法
Jun et al. A HEURISTIC-ACTION-INVOLVED SAFE LANE-CHANGE OF AUTONOMOUS VEHICLES WITH MULTIPLE CONSTRAINTS ON ROAD CENTERLINE AND SPEED UNDER HIGHWAY ENVIRONMENT.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination