CN114312811B - 自动驾驶汽车的自车状态近似最优估计方法、装置及设备 - Google Patents
自动驾驶汽车的自车状态近似最优估计方法、装置及设备 Download PDFInfo
- Publication number
- CN114312811B CN114312811B CN202210102104.8A CN202210102104A CN114312811B CN 114312811 B CN114312811 B CN 114312811B CN 202210102104 A CN202210102104 A CN 202210102104A CN 114312811 B CN114312811 B CN 114312811B
- Authority
- CN
- China
- Prior art keywords
- estimator
- self
- vehicle
- optimal estimator
- automatic driving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 49
- 230000008569 process Effects 0.000 claims abstract description 31
- 230000006870 function Effects 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000002474 experimental method Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 230000036961 partial effect Effects 0.000 claims description 7
- 238000013461 design Methods 0.000 abstract description 13
- 238000005516 engineering process Methods 0.000 abstract description 12
- 230000002829 reductive effect Effects 0.000 abstract description 12
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000001133 acceleration Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000005431 greenhouse gas Substances 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Feedback Control In General (AREA)
Abstract
本申请涉及一种自动驾驶汽车的自车状态近似最优估计方法、装置及设备,方法包括:获取自动驾驶车辆的当前行驶环境并识别实际行驶工况;利用训练后的近似最优估计器获取其自车状态的近似最优估计结果,其中,近似最优估计器是迭代类型估计器,其将迭代估计过程转化为马尔可夫决策过程。由此,解决了在建立车辆系统状态空间方程后还需结合实车实验数据反复检验、校正模型并调整系统参数以及设计有效的基于模型的估计算法,耗费大量时间与精力等问题,通过把车辆状态迭代估计问题转化为马尔可夫决策问题,利用自学习技术训练后得到的策略网络作为近似最优估计器,从而减轻建模、调参负担,减小估计器设计难度。
Description
技术领域
本申请涉及自动驾驶车辆状态估计技术领域,特别涉及一种自动驾驶汽车的自车状态近似最优估计方法、装置及设备。
背景技术
各类科学技术更新迭代,促使无人驾驶技术的开发逐步从低级别的辅助自动驾驶向高级别的无人自动驾驶技术迈进。自动驾驶技术潜在的应用场景繁多,落脚的车辆种类和用途也呈现多样化趋势,针对干线物流、封闭园区、无人环卫及末端配送等典型适用场景,国内外各大企业设计出特色不一的自动驾驶货车、港口特种车辆、智能仓储物流车等阶段性无人驾驶技术产品。相比于传统车辆,无人驾驶技术主导的车辆可以大大提高行驶的安全性,在减少温室气体排放、缓解交通压力、减少运输成本等方面有着显著优势,有利于推动各行各业乃至整个社会的发展。
自动驾驶技术主导的各类车辆,其智能性受感知决策控制算法的制约,而准确的车辆参数和状态是提高自车控制算法性能,保证车辆安全、舒适且经济驾驶的关键。比如整车质量是车辆动力学模型中基础参数之一,特别是载货车辆的质量变化频繁,极大影响着车辆控制算法的设计;行驶速度是车辆状态中核心的控制目标之一,控制效果直接影响着车辆的经济性与舒适性;其他的各种车辆参数和状态也在不同程度上,直接或间接的影响着车辆的各项性能。
现有的车辆参数和状态的估计方法一般依赖车辆模型建立的系统状态空间方程,为获取良好的估计结果,在建模后还需结合实车实验数据反复检验和校正模型并调整系统参数,同时还需设计有效的基于模型的估计算法,耗费大量时间与精力。
发明内容
本申请提供一种自动驾驶汽车的自车状态近似最优估计方法、装置及设备,以解决在建立车辆模型系统状态空间方程后还需结合实车实验数据反复检验、校正模型并调整系统参数以及设计有效的基于模型的估计算法,耗费大量时间与精力等问题。
本申请第一方面实施例提供一种自动驾驶汽车的自车状态近似最优估计方法,包括以下步骤:
获取自动驾驶车辆的当前行驶环境;
识别所述自动驾驶车辆的实际行驶工况;以及
利用训练后的近似最优估计器获取所述自动驾驶车辆的自车状态的近似最优估计结果,其中,所述近似最优估计器是迭代类型估计器,其将迭代估计过程转化为马尔可夫决策过程得到。
根据本申请的一个实施例,在利用所述预设的近似最优估计器获取所述自动驾驶汽车的自车状态的近似最优估计结果之前,还包括:
根据自动驾驶汽车的行驶环境和自车行驶工况生成近似最优估计器;
确定所述近似最优估计器的任一时刻的代价函数,并将所述近似最优估计器的关键组成与序贯决策问题中的核心元素相对应,得到初始近似最优估计器;以及
利用预设的自学习数据训练所述初始近似最优估计器,并将所述训练后的近似最优估计器部署于所述自动驾驶车辆的车载工控机。
根据本申请的一个实施例,所述根据自动驾驶汽车的行驶环境和自车行驶工况生成近似最优估计器,包括:
根据所述行驶环境和由所述自动驾驶汽车模型得到由所述任一时刻及对应的观测量的组成;
根据所述组成和所述任一时刻的控制量及其前一时刻的状态估计结果设计所述近似最优估计器。
根据本申请的一个实施例,所述利用预设的自学习数据训练所述初始近似最优估计器,包括:
判断系统模型是否已知;
若所述系统模型未知,则通过实车实验采集所述自学习数据,并利用预设的无模型自学习算法训练所述初始近似最优估计器;
若所述系统模型已知,则通过所述系统模型生成所述自学习数据,或采用基于所述系统模型的自学习算法训练所述初始近似最优估计器。
根据本申请的一个实施例,所述利用预设的自学习数据训练所述初始近似最优估计器,还包括:
获取自学习得到的策略网络;
将所述策略网络作为部分或整个近似最优估计器,并以最小化期望累积折扣代价函数为目标,不断学习训练,直至神经网络达到网络稳定条件,完成训练。
根据本申请实施例的自动驾驶汽车的自车状态近似最优估计方法,获取自动驾驶车辆的当前行驶环境并识别实际行驶工况;利用训练后的近似最优估计器获取其自车状态的近似最优估计结果,其中,近似最优估计器是迭代类型估计器,其将迭代估计过程转化为马尔可夫决策过程。由此,解决了在建立车辆模型系统状态空间方程后还需结合实车实验数据反复检验、校正模型并调整系统参数以及设计有效的基于模型的估计算法,耗费大量时间与精力等问题,通过把车辆状态迭代估计问题转化为马尔可夫决策问题,利用自学习技术训练后得到的策略网络作为近似最优估计器,从而减轻建模、调参负担,减小估计器设计难度。
本申请第二方面实施例提供一种自动驾驶汽车的自车状态近似最优估计装置,包括:
获取模块,用于获取自动驾驶车辆的当前行驶环境;
识别模块,用于识别所述自动驾驶车辆的实际行驶工况;以及
估计模块,用于利用训练后的近似最优估计器获取所述自动驾驶车辆的自车状态的近似最优估计结果,其中,所述近似最优估计器是迭代类型估计器,其将迭代估计过程转化为马尔可夫决策过程得到。
根据本申请的一个实施例,在利用所述预设的近似最优估计器获取所述自动驾驶汽车的自车状态的近似最优估计结果之前,所述估计模块,还用于:
根据自动驾驶汽车的行驶环境和自车行驶工况生成近似最优估计器;
确定所述近似最优估计器的任一时刻的代价函数,并将所述近似最优估计器的关键组成与序贯决策问题中的核心元素相对应,得到初始近似最优估计器;以及
利用预设的自学习数据训练所述初始近似最优估计器,并将所述训练后的近似最优估计器部署于所述自动驾驶车辆的车载工控机。
根据本申请的一个实施例,所述估计模块,具体用于:
根据所述行驶环境和由所述自动驾驶汽车模型得到由所述任一时刻及对应的观测量的组成;
根据所述组成和所述任一时刻的控制量及其前一时刻的状态估计结果设计所述近似最优估计器。
根据本申请的一个实施例,所述估计模块,具体用于:
判断系统模型是否已知;
若所述系统模型未知,则通过实车实验采集所述自学习数据,并利用预设的无模型自学习算法训练所述初始近似最优估计器;
若所述系统模型已知,则通过所述系统模型生成所述自学习数据,或采用基于所述系统模型的自学习算法训练所述初始近似最优估计器。
根据本申请的一个实施例,所述估计模块,还用于:
获取自学习得到的策略网络;
将所述策略网络作为部分或整个近似最优估计器,并以最小化期望累积折扣代价函数为目标,不断学习训练,直至神经网络达到网络稳定条件,完成训练。
根据本申请实施例的自动驾驶汽车的自车状态近似最优估计装置,获取自动驾驶车辆的当前行驶环境并识别实际行驶工况;利用训练后的近似最优估计器获取其自车状态的近似最优估计结果,其中,近似最优估计器是迭代类型估计器,其将迭代估计过程转化为马尔可夫决策过程。由此,解决了在建立车辆模型系统状态空间方程后还需结合实车实验数据反复检验、校正模型并调整系统参数以及设计有效的基于模型的估计算法,耗费大量时间与精力等问题,通过把车辆状态迭代估计问题转化为马尔可夫决策问题,利用自学习技术训练后得到的策略网络作为近似最优估计器,从而减轻建模、调参负担,减小估计器设计难度。
本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的自动驾驶汽车的自车状态近似最优估计方法。
本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现上述的自动驾驶汽车的自车状态近似最优估计方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例提供的一种自动驾驶汽车的自车状态近似最优估计方法的流程图;
图2为根据本申请一个实施例提供的近似最优估计器训练过程图;
图3为根据本申请一个实施例提供的一种自动驾驶汽车纵向动力学模型示例图;
图4为根据本申请一个实施例提供的一种自动驾驶汽车的自车状态近似最优估计方法的总体流程框图;
图5为根据本申请实施例的自动驾驶汽车的自车状态近似最优估计装置的示例图;
图6为根据本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的自动驾驶汽车的自车状态近似最优估计方法、装置及设备。针对上述背景技术中心提到的在建立车辆模型系统状态空间方程后还需结合实车实验数据反复检验、校正模型并调整系统参数以及设计有效的基于模型的估计算法,耗费大量时间与精力的问题,本申请提供了一种自动驾驶汽车的自车状态近似最优估计方法,在该方法中,获取自动驾驶车辆的当前行驶环境并识别实际行驶工况;利用训练后的近似最优估计器获取其自车状态的近似最优估计结果,其中,近似最优估计器是迭代类型估计器,其将迭代估计过程转化为马尔可夫决策过程。由此,解决了在建立车辆模型系统状态空间方程后还需结合实车实验数据反复检验、校正模型并调整系统参数以及设计有效的基于模型的估计算法,耗费大量时间与精力等问题,通过把车辆状态迭代估计问题转化为马尔可夫决策问题,利用自学习技术训练后得到的策略网络作为近似最优估计器,从而减轻建模、调参负担,减小估计器设计难度。
具体而言,图1为本申请实施例所提供的一种自动驾驶汽车的自车状态近似最优估计方法的流程示意图。
如图1所示,该自动驾驶汽车的自车状态近似最优估计方法包括以下步骤:
在步骤S101中,获取自动驾驶车辆的当前行驶环境。
在步骤S102中,识别自动驾驶车辆的实际行驶工况。
进一步地,在一些实施例中,根据自动驾驶汽车的行驶环境和自车行驶工况生成近似最优估计器,包括:根据行驶环境和由自动驾驶汽车模型得到由任一时刻及对应的观测量的组成;根据组成和任一时刻的控制量及其前一时刻的状态估计结果设计近似最优估计器。
具体地,如图2所示,本申请实施例可以将近似最优估计器设计为迭代类型估计器,其形式可表示为。其中,ht为t时刻近似最优估计器的输入;/>为近似最优估计器的主体,由训练所得神经网络参与组成,用于实时迭代更新估计结果;/>为t时刻近似最优估计器的输出,也是t时刻估计结果。结合自动驾驶汽车行驶环境和自车行驶工况的特点,设计t时刻近似最优估计器输入ht。本申请实施例选择t-1时刻状态估计结果/>t时刻部分车载传感器的观测量yt以及控制量ut作为近似最优估计器的输入ht,即其中,t时刻观测量yt的组成是通过分析自动驾驶汽车行驶环境特点及车辆模型确定的。
进一步地,本申请实施例通过设计自学习算法训练得到策略网络π(·),若系统模型已知,估计器迭代形式可选择典型估计器,并将策略网络作为其中一部分,如
其中,式(1)中,At、Bt、Ct是线性系统的系数矩阵,yt、ut、为估计器的输入;Kt为增益矩阵,由策略网络输出,即Kt=(·),由此构成近似最优估计器。
若不知道具体系统模型,则将策略网络作为整个估计器 其中,ω是策略网络的参数,/>ht分别是t时刻近似最优估计器的输出与输入,本申请实施例将基于此类近似最优估计器进行深入分析。
进一步地,本申请实施例以某款仓储物流AGV(Automated Guided Vehicle,自动导引运输车)为例,其参数如表1所示:
表1
具体地,对该款AGV进行建模分析,因物流AGV仓库路面一般平坦无坡度,其纵向动力学模型如图3所示,表达式如下:
其中,m是AGV整车质量;是其加速度;Ft=Ikiη/r是驱动力,I是驱动电机电流,k是电机电流-力矩转化系数,i是传动比,η是传动效率;Ff=mgf是滚动阻力项,g=9.81ms-2,f是滚动阻力系数,可视为定值;Fv=bv2+cv+d是速度阻力项,可由二次多项式表示。此时,虽然不明确模型参数具体取值,但可确定加速度、速度和驱动力或驱动电流是输入近似最优估计器的核心观测量。
在步骤S103中,利用训练后的近似最优估计器获取自动驾驶车辆的自车状态的近似最优估计结果,其中,近似最优估计器是迭代类型估计器,其将迭代估计过程转化为马尔可夫决策过程得到。
进一步地,在一些实施例中,在利用预设的近似最优估计器获取自动驾驶汽车的自车状态的近似最优估计结果之前,还包括:根据自动驾驶汽车的行驶环境和自车行驶工况生成近似最优估计器;确定近似最优估计器的任一时刻的代价函数,并将近似最优估计器的关键组成与序贯决策问题中的核心元素相对应,得到初始近似最优估计器;以及利用预设的自学习数据训练初始近似最优估计器,并将训练后的近似最优估计器部署于自动驾驶车辆的车载工控机。
进一步地,在一些实施例中,利用预设的自学习数据训练初始近似最优估计器,包括:判断系统模型是否已知;若系统模型未知,则通过实车实验采集自学习数据,并利用预设的无模型自学习算法训练初始近似最优估计器;若系统模型已知,则通过系统模型生成自学习数据,或采用基于系统模型的自学习算法训练初始近似最优估计器。
进一步地,在一些实施例中,利用预设的自学习数据训练初始近似最优估计器,还包括:获取自学习得到的策略网络;将策略网络作为部分或整个近似最优估计器,并以最小化期望累积折扣代价函数为目标,不断学习训练,直至神经网络达到网络稳定条件,完成训练。
具体地,本申请实施例可以设计近似最优估计器的t时刻的代价函数lt,将近似最优估计器的关键组成与序贯决策问题中的核心元素相对应,设计车辆控制算法,使近似最优估计器的迭代估计过程转化为一个马尔可夫序贯决策过程。
具体而言,lt设计形式如式(3)所示:
其中,xt是被估计的车辆状态,此处指AGV的速度和整车质量,即xt=[vt mt]T;Wt是权重系数矩阵,体现着对被估计状态的重视程度,用于调整不同被估计状态的优先级。选择t-1时刻的迭代结果和传感器测t时刻观测的车辆速度、加速度、驱动力作为t时刻近似最优估计器的输入,即近似最优估计器的核心元素及其表示符号如表2所示:
表2
为使具有马尔可夫性,将控制量ut设为反馈控制器,选择PID控制算法,以驱动力Ft为控制量,通过调节Ft,使AGV做匀加速运动。结合公式(2),Ft满足下式:
ut=m(vt,mt)=mtac+mtgf+bv2+cv+d; (4)
其中,ac是加速度,为定值。考虑系统模型具有随机性,即离散-随机状态转移方程表示如下式所示:
x2,t+1=mt+1=mt+ξ2,t; (6)
其中,δt是离散时间间隔,本申请实施例中是0.02秒。此时,将控制量ut视为观测量yt一部分,yt满足:
进而得到近似最优估计器状态的递推关系,如下式(10)所示:
当近似最优估计器确定时,结合公式(7)-(10)易知,ht仅取决于ht-1,具有马尔可夫性。
进一步地,本申请实施例可以设计合适的自学习算法训练近似最优估计器,若系统模型未知,则通过实车实验采集数据,设计无模型自学习算法训练近似最优估计器;若系统模型已知,可以通过系统模型生成数据,或直接采用基于模型的自学习算法训练近似最优估计器。本申请实施例可以通过近似最优估计器训练时,以最小化期望累积折扣代价函数为目标,通过不断学习训练,使神经网络性能不断提高,直至网络稳定。本申请实施例可以用稳定的策略网络构造近似最优估计器,部署于自动驾驶车辆的车载工控机,高实时应用。
具体地,根据表1所示AGV参数设计实验。首先,选择几组质量不同的货物,要求货物质量均匀等间隔的分布于载重范围内;然后,AGV承载不同质量的货物反复进行一段匀加速度运动,起步时AGV都处于静止状态,采用时间间隔固定为0.02秒;最后,将实验观测数据yt,用于组成ht训练近似最优估计器。其中,设计训练近似最优估计器的算法时,AGV整车质量估计算法伪代码如下所示:
(1)初始化:
(2)策略网络ω、值网络θ1,θ2,空容器目标值网络θt,1←θ1,θt,2←θ2;
(3)重复以下步骤:
(4)输入ht,得到估计lt、ht+1和信号d;
(5)若ht+1是终止状态d=1,初始化h0~p(h0),否则d=0;
(6)简写为/>存入容器/>
(7)if满足更新网络条件:
(8)从中随机选取n个样本组成集合/>
(9)计算目标动作值函数:
(10)
(11)计算梯度,更新值网络参数:
(12)
(13)计算梯度,更新策略网络:
(14)
(15)结合权重因子ρ∈(0,1)更新目标网络:
(16)θt,i←ρθt,i+(1-ρ)θi,i=1,2;
(17)Endif;
(18)直至收敛。
进一步地,近似最优估计器的目标函数为:
在训练过程中,策略网络不断更新迭代,得到不同的估计器,待策略网络收敛后,将其作为性能最优的近似最优估计器,并部署在AGV上实时应用。需要注意的是,近似最优估计器使用场景及适用工况应被训练数据所涉及的场景和工况覆盖,且神经网络种类可选但不局限于全连接网络或循环神经网络。
综上,如图4所示,自动驾驶汽车的自车状态近似最优估计方法的总体步骤如下:
S401,开始。
S402,设计近似最优估计器迭代形式,分析其组成。
S403,设计控制算法,使迭代估计过程具备马尔可夫性并同时执行步骤S404和步骤S406。
S404,判断系统模型、参数及噪声是否已知,若是,则执行步骤S405。
S405,系统模型生成数据或者实车采集数据,并跳转执行步骤S407。
S406,实车采集数据。
S407,设计算法训练近似最优估计器。
S408,判断策略网络是否满足收敛条件,若是,则执行步骤S409,否则,执行步骤S407。
S409,实车部署近似最优估计器。
S410,结束。
根据本申请实施例的自动驾驶汽车的自车状态近似最优估计方法,获取自动驾驶车辆的当前行驶环境并识别实际行驶工况;利用训练后的近似最优估计器获取其自车状态的近似最优估计结果,其中,近似最优估计器是迭代类型估计器,其将迭代估计过程转化为马尔可夫决策过程。由此,解决了在建立车辆模型系统状态空间方程后还需结合实车实验数据反复检验、校正模型并调整系统参数以及设计有效的基于模型的估计算法,耗费大量时间与精力等问题,通过把车辆状态迭代估计问题转化为马尔可夫决策问题,利用自学习技术训练后得到的策略网络作为近似最优估计器,从而减轻建模、调参负担,减小估计器设计难度。
其次参照附图描述根据本申请实施例提出的自动驾驶汽车的自车状态近似最优估计装置。
图5是本申请实施例的自动驾驶汽车的自车状态近似最优估计装置的方框示意图。
如图5所示,该自动驾驶汽车的自车状态近似最优估计装置10包括:获取模块100、识别模块200、估计模块300。
其中,获取模块100用于获取自动驾驶车辆的当前行驶环境;
识别模块200用于识别自动驾驶车辆的实际行驶工况;
估计模块300用于利用训练后的近似最优估计器估计自动驾驶车辆的自车状态的近似最优估计结果,其中,近似最优估计器是迭代类型估计器,其将迭代估计过程转化为马尔可夫决策过程得到。
进一步地,在一些实施例中,在利用预设的近似最优估计器估计自动驾驶汽车的自车状态的近似最优估计结果之前,估计模块300,还用于:
根据自动驾驶汽车的行驶环境和自车行驶工况生成近似最优估计器;
确定近似最优估计器的任一时刻的代价函数,并将近似最优估计器的关键组成与序贯决策问题中的核心元素相对应,得到初始近似最优估计器;以及
利用预设的自学习数据训练初始近似最优估计器,并将训练后的近似最优估计器部署于自动驾驶车辆的车载工控机。
进一步地,在一些实施例中,估计模块300,具体用于:
根据行驶环境和由自动驾驶汽车模型得到由任一时刻及对应的观测量的组成;
根据组成和任一时刻的控制量及其前一时刻的状态估计结果设计近似最优估计器。
进一步地,在一些实施例中,估计模块300,具体用于:
判断系统模型是否已知;
若系统模型未知,则通过实车实验采集自学习数据,并利用预设的无模型自学习算法训练初始近似最优估计器;
若系统模型已知,则通过系统模型生成自学习数据,或采用基于系统模型的自学习算法训练初始近似最优估计器。
进一步地,在一些实施例中,估计模块300,还用于:
获取自学习得到的策略网络;
将策略网络作为部分或整个近似最优估计器,并以最小化期望累积折扣代价函数为目标,不断学习训练,直至神经网络达到网络稳定条件,完成训练。
根据本申请实施例的自动驾驶汽车的自车状态近似最优估计装置,获取自动驾驶车辆的当前行驶环境并识别实际行驶工况;利用训练后的近似最优估计器获取其自车状态的近似最优估计结果,其中,近似最优估计器是迭代类型估计器,其将迭代估计过程转化为马尔可夫决策过程。由此,解决了在建立车辆模型系统状态空间方程后还需结合实车实验数据反复检验、校正模型并调整系统参数以及设计有效的基于模型的估计算法,耗费大量时间与精力等问题,通过把车辆状态迭代估计问题转化为马尔可夫决策问题,利用自学习技术训练后得到的策略网络作为近似最优估计器,从而减轻建模、调参负担,减小估计器设计难度。
图6为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器601、处理器602及存储在存储器601上并可在处理器602上运行的计算机程序。
处理器602执行程序时实现上述实施例中提供的自动驾驶汽车的自车状态近似最优估计方法。
进一步地,电子设备还包括:
通信接口603,用于存储器601和处理器602之间的通信。
存储器601,用于存放可在处理器602上运行的计算机程序。
存储器601可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器601、处理器602和通信接口603独立实现,则通信接口603、存储器601和处理器602可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器601、处理器602及通信接口603,集成在一块芯片上实现,则存储器601、处理器602及通信接口603可以通过内部接口完成相互间的通信。
处理器602可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的自动驾驶汽车的自车状态近似最优估计方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.一种自动驾驶汽车的自车状态近似最优估计方法,其特征在于,包括以下步骤:
获取自动驾驶车辆的当前行驶环境;
识别所述自动驾驶车辆的实际行驶工况;以及
利用训练后的近似最优估计器获取所述自动驾驶车辆的自车状态的近似最优估计结果,其中,所述近似最优估计器是迭代类型估计器,其将迭代估计过程转化为马尔可夫决策过程得到;
其中,在利用所述训练后的近似最优估计器获取所述自动驾驶汽车的自车状态的近似最优估计结果之前,还包括:根据自动驾驶汽车的行驶环境和自车行驶工况生成近似最优估计器;确定所述近似最优估计器的任一时刻代价函数,并将所述近似最优估计器的关键组成与序贯决策问题中的核心元素相对应,得到初始近似最优估计器;利用预设的自学习数据训练所述初始近似最优估计器,并将所述训练后的近似最优估计器部署于所述自动驾驶车辆的车载工控机;
所述根据自动驾驶汽车行驶环境和自车行驶工况生成近似最优估计器,包括:根据所述行驶环境和由所述自动驾驶汽车模型得到由所述任一时刻及对应的观测量组成;根据所述组成和所述任一时刻的控制量及其前一时刻的状态估计结果设计所述近似最优估计器。
2.根据权利要求1所述的方法,其特征在于,所述利用预设的自学习数据训练所述初始近似最优估计器,包括:
判断系统模型是否已知;
若所述系统模型未知,则通过实车实验采集所述自学习数据,并利用预设的无模型自学习算法训练所述初始近似最优估计器;
若所述系统模型已知,则通过所述系统模型生成所述自学习数据,或采用基于所述系统模型的自学习算法训练所述初始近似最优估计器。
3.根据权利要求2所述的方法,其特征在于,所述利用预设的自学习数据训练所述初始近似最优估计器,还包括:
获取自学习得到的策略网络;
将所述策略网络作为部分或整个近似最优估计器,并以最小化期望累积折扣代价函数为目标,不断学习训练,直至神经网络达到网络稳定条件,完成训练。
4.一种自动驾驶汽车的自车状态近似最优估计装置,其特征在于,包括:
获取模块,用于获取自动驾驶车辆的当前行驶环境;
识别模块,用于识别所述自动驾驶车辆的实际行驶工况;以及
估计模块,用于利用训练后的近似最优估计器获取所述自动驾驶车辆的自车状态的近似最优估计结果,其中,所述近似最优估计器是迭代类型估计器,其将迭代估计过程转化为马尔可夫决策过程得到;
其中,在利用所述训练后的近似最优估计器获取所述自动驾驶汽车的自车状态的近似最优估计结果之前,所述估计模块,还用于:根据自动驾驶汽车的行驶环境和自车行驶工况生成近似最优估计器;确定所述近似最优估计器的任一时刻代价函数,并将所述近似最优估计器的关键组成与序贯决策问题中的核心元素相对应,得到初始近似最优估计器;利用预设的自学习数据训练所述初始近似最优估计器,并将所述训练后的近似最优估计器部署于所述自动驾驶车辆的车载工控机;
所述估计模块,具体用于:根据所述行驶环境和由所述自动驾驶汽车模型得到由所述任一时刻及对应的观测量组成;根据所述组成和所述任一时刻的控制量及其前一时刻的状态估计结果设计所述近似最优估计器。
5.根据权利要求4所述的装置,其特征在于,所述估计模块,具体用于:
判断系统模型是否已知;
若所述系统模型未知,则通过实车实验采集所述自学习数据,并利用预设的无模型自学习算法训练所述初始近似最优估计器;
若所述系统模型已知,则通过所述系统模型生成所述自学习数据,或采用基于所述系统模型的自学习算法训练所述初始近似最优估计器。
6.根据权利要求5所述的装置,其特征在于,所述估计模块,还用于:
获取自学习得到的策略网络;
将所述策略网络作为部分或整个近似最优估计器,并以最小化期望累积折扣代价函数为目标,不断学习训练,直至神经网络达到网络稳定条件,完成训练。
7.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-3任一项所述的自动驾驶汽车的自车状态近似最优估计方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-3任一项所述的自动驾驶汽车的自车状态近似最优估计方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210102104.8A CN114312811B (zh) | 2022-01-27 | 2022-01-27 | 自动驾驶汽车的自车状态近似最优估计方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210102104.8A CN114312811B (zh) | 2022-01-27 | 2022-01-27 | 自动驾驶汽车的自车状态近似最优估计方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114312811A CN114312811A (zh) | 2022-04-12 |
CN114312811B true CN114312811B (zh) | 2023-11-07 |
Family
ID=81030882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210102104.8A Active CN114312811B (zh) | 2022-01-27 | 2022-01-27 | 自动驾驶汽车的自车状态近似最优估计方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114312811B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110497916A (zh) * | 2019-08-15 | 2019-11-26 | 太原科技大学 | 基于bp神经网络的汽车行驶状态估计方法 |
CN112758097A (zh) * | 2020-12-30 | 2021-05-07 | 北京理工大学 | 一种用于无人驾驶车辆的状态预测与估计方法 |
CN113650620A (zh) * | 2021-08-30 | 2021-11-16 | 东南大学 | 一种四轮电驱动汽车状态预测方法 |
CN113682302A (zh) * | 2021-08-03 | 2021-11-23 | 中汽创智科技有限公司 | 一种驾驶状态估计方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3502977A1 (en) * | 2017-12-19 | 2019-06-26 | Veoneer Sweden AB | A state estimator |
-
2022
- 2022-01-27 CN CN202210102104.8A patent/CN114312811B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110497916A (zh) * | 2019-08-15 | 2019-11-26 | 太原科技大学 | 基于bp神经网络的汽车行驶状态估计方法 |
CN112758097A (zh) * | 2020-12-30 | 2021-05-07 | 北京理工大学 | 一种用于无人驾驶车辆的状态预测与估计方法 |
CN113682302A (zh) * | 2021-08-03 | 2021-11-23 | 中汽创智科技有限公司 | 一种驾驶状态估计方法、装置、电子设备及存储介质 |
CN113650620A (zh) * | 2021-08-30 | 2021-11-16 | 东南大学 | 一种四轮电驱动汽车状态预测方法 |
Non-Patent Citations (1)
Title |
---|
《四轮驱动电动汽车运动状态估计》;车广旭;《中国优秀硕士学位论文全文数据库 工程科技II辑》(第1期);1-89 * |
Also Published As
Publication number | Publication date |
---|---|
CN114312811A (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109204314B (zh) | 推进高效的自主驾驶策略 | |
CN103381826B (zh) | 基于近似策略迭代的自适应巡航控制方法 | |
CN110615003B (zh) | 基于策略梯度在线学习算法的巡航控制系统及设计方法 | |
CN111009134A (zh) | 一种基于前车与自车互动的短期车速工况实时预测方法 | |
Di Cairano et al. | Stochastic MPC with learning for driver-predictive vehicle control and its application to HEV energy management | |
CN110888322B (zh) | 基于加速度前馈的异构车队协同自适应巡航控制方法 | |
CN109927725A (zh) | 一种具有驾驶风格学习能力的自适应巡航系统及实现方法 | |
CN107272405B (zh) | 匀质车辆队列的车辆分布式控制器增益求取方法和装置 | |
US20210263526A1 (en) | Method and device for supporting maneuver planning for an automated driving vehicle or a robot | |
JP2010095067A (ja) | ハイブリッド自動車およびコンピュータ装置ならびにプログラム | |
US20210213977A1 (en) | Nearby Driver Intent Determining Autonomous Driving System | |
CN112977412A (zh) | 一种车辆控制方法、装置、设备及计算机存储介质 | |
CN110879595A (zh) | 一种基于深度强化学习的无人矿卡循迹控制系统及方法 | |
CN111830962A (zh) | 强化学习代理控制器的解释数据 | |
Fu et al. | Nmpc-based path tracking control strategy for autonomous vehicles with stable limit handling | |
Sampathnarayanan et al. | Model predictive control as an energy management strategy for hybrid electric vehicles | |
CN114312811B (zh) | 自动驾驶汽车的自车状态近似最优估计方法、装置及设备 | |
Yu et al. | Automatic vehicle trajectory tracking control with self-calibration of nonlinear tire force function | |
CN113613978B (zh) | 用于操作车辆的车载控制系统 | |
CN113246958A (zh) | 基于td3多目标hev能量管理方法及系统 | |
CN114919585B (zh) | 一种基于车辆动力学模型的车重及道路坡度的估算方法 | |
CN112660136B (zh) | 汽车底盘动力学域控制器的路面附着系数辨识方法及装置 | |
Hu et al. | Robust tube-based model predictive control for autonomous vehicle path tracking | |
CN115649182A (zh) | 车辆的车重及所处坡度的计算方法、装置及设备 | |
CN115107734A (zh) | 用于混合动力电驱动车辆前后功率链协调控制方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |