CN113844441B

CN113844441B - 前碰预警制动系统的机器学习方法

Info

Publication number: CN113844441B
Application number: CN202111206058.8A
Authority: CN
Inventors: 黄秋生; 淳海晏; 周思荣; 张中刚; 余纪邦; 肖路路
Original assignee: Anhui Jianghuai Automobile Group Corp
Current assignee: Anhui Jianghuai Automobile Group Corp
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2023-01-31
Anticipated expiration: 2041-10-14
Also published as: CN113844441A

Abstract

本发明公开了一种前碰预警制动系统的机器学习方法，包括：基于车辆状态设定车辆安全度；建立主动制动系统的制动电信号与作出的动作信号的关系；针对每个车辆状态，根据制动电信号确定主动制动系统作出动作的初始设定动作；基于初始设定动作，根据执行动作前后车辆安全度的变化量调整动作决策，以使当前车辆状态通过最优选动作进入安全度更高的车辆状态。本发明的前碰预警制动系统的机器学习方法，将安全度的增减作为动作决策的奖励，来实现对机器学习的训练，通过迭代学习，使机器掌握不同的车辆状态下的最优选动作；使主动制动系统在各种车辆状态下作出最优选的动作决策，而不用考虑车辆复杂的制动效能计算公式，符合人学习驾驶技能的过程。

Description

前碰预警制动系统的机器学习方法

技术领域

本发明涉及安全驾驶技术领域，尤其涉及一种前碰预警制动系统的机器学习方法。

背景技术

FCW(前方碰撞预警)实现的基本功能是在前方出现障碍物时，及时作出预警，提示驾驶员或者自动驾驶系统作出减速动作。通过将FCW和AEB(自动/主动制动)系统配合，可以在前方出现障碍物时主动作出减速动作。而AEB系统针对气压制动和液压制动作用原理有所区别，对于液压制动系统可以通过在制动主缸上加装ibooster(机电伺服助力机构)，通过电机驱动主缸活塞，完成管路加压产生制动效果；对于气压制动系统可以通过控制继动阀的开关，使高压气体进入制动气室产生制动效果。作为L2级别的辅助驾驶功能，为达到商业化量产应用，对于FCW和AEB系统的成本要求是很严格的。不宜安装较多、成本较高的雷达传感器设备，也不宜采用较为复杂的控制系统，和需要较大算力的域控制系统。

现有的前碰预警制动系统的实现较大程度上依赖于具体的车型配置参数，其算法的实现需要深刻掌握车辆本身的制动系统效能，控制的变量是制动主缸的压力，制动主缸的压力与制动减速度之间存在非线性关系，且不同配置参数的车辆各不相同。这样的控制系统需要经过较为复杂的标定过程才能实现精准控制。

因此，亟需一种前碰预警制动系统的机器学习方法。

发明内容

本发明的目的是提供一种前碰预警制动系统的机器学习方法，以解决上述现有技术中的问题，能够通过机器学习使得主动制动系统可以在各种车辆状态下作出最优选的动作决策，而不用考虑车辆复杂的制动效能计算公式，符合人学习驾驶技能的客观过程。

本发明提供了一种前碰预警制动系统的机器学习方法，其中，包括：

基于车辆状态设定车辆安全度；

建立主动制动系统的制动电信号与主动制动系统作出的动作信号的关系；

针对每个车辆状态，根据对应的制动电信号确定主动制动系统作出动作的初始设定动作；

基于所述初始设定动作，根据执行动作前后车辆安全度的变化量调整主动制动系统作出的动作决策，以使当前的车辆状态通过对应的最优选动作进入安全度更高的车辆状态。

如上所述的前碰预警制动系统的机器学习方法，其中，优选的是，所述基于车辆状态设定车辆安全度，具体包括：

根据取值范围，分别将碰预警距离、当前车速和当前制动减速度划分为有限个区段；

根据碰预警距离、当前车速、当前制动减速度的区段，构建车辆状态矩阵；

将所述车辆状态矩阵中的每个单元格内的参数设定为车辆当前的安全度，安全度数值越大表示车辆越安全。

如上所述的前碰预警制动系统的机器学习方法，其中，优选的是，所述将所述车辆状态矩阵中的每个单元格内的参数设定为车辆当前的安全度，具体包括：

根据车辆发生前碰的可能性和车辆与后车发生碰撞的可能性，设定车辆当前的安全度。

如上所述的前碰预警制动系统的机器学习方法，其中，优选的是，所述主动制动系统作出的动作信号包括制动踏板开度，

所述建立主动制动系统的制动电信号与主动制动系统作出的动作信号的关系，具体包括：

针对液压制动的车辆，若是采用机电伺服助力机构实现主动制动，则采集伺服电机的控制信号和制动踏板开度的离散点，通过拟合形成用于表示伺服电机的控制信号和制动踏板开度之间关系的连续的关系曲线，所述伺服电机的控制信号包括伺服电机的电流信号或PWM波的占空比；

针对气压制动车辆，在无主动制动功能时，驾驶员踩下制动踏板时，在制动脚阀连接继动阀的管路中并联比例阀，并通过PWM波的占空比控制比例阀的开启大小，即实现了主动制动功能，通过采集PWM波的占空比和制动踏板开度的离散点，通过拟合形成用于表示比例阀的开启大小和制动踏板开度之间关系的连续的关系曲线。

如上所述的前碰预警制动系统的机器学习方法，其中，优选的是，所述针对每个车辆状态，根据对应的制动电信号确定主动制动系统作出动作的初始设定动作，具体包括：

通过摄像头和/或雷达探测出车辆前方出现危险物时的车辆状态Q，Q＝(S,V,a)，其中，S表示碰预警距离、V表示当前车速，a表示当前制动减速度；

定义主动制动系统作出的动作为M；

在所述车辆状态矩阵中，针对每个单元格的车辆状态，设定一个初始设定动作M₀。

如上所述的前碰预警制动系统的机器学习方法，其中，优选的是，所述主动制动系统作出的动作表示制动踏板开度，M＝α％。

如上所述的前碰预警制动系统的机器学习方法，其中，优选的是，所述基于所述初始设定动作，根据执行动作前后车辆安全度的变化量调整主动制动系统作出的动作决策，以使当前的车辆状态通过对应的最优选动作进入安全度更高的车辆状态，具体包括：

在机器学习过程中，针对每个车辆状态，基于所述初始设定动作产生一个新的执行动作，在执行新动作后，根据新的车辆状态确定此时的车辆安全度；

在再次处于相同的车辆状态下，基于所述初始设定动作产生一个新一的执行动作，将新产生的执行动作与上一轮的执行动作按照可变的权重关系得到新一轮的执行动作，并根据执行新一轮动作前后的车辆安全度的变化量，更新该车辆状态下所对应的执行动作。

如上所述的前碰预警制动系统的机器学习方法，其中，优选的是，所述在机器学习过程中，针对每个车辆状态，基于所述初始设定动作产生一个新的执行动作，在执行新动作后，根据新的车辆状态确定此时的车辆安全度，具体包括：

在对应的车辆状态Q_i下，产生一个基于初始设定动作M₀并附加一定大小的随机数的偏移量形成新的M_i，并将M_i填入对应的车辆状态的单元格内；

在经过一定的单步长时间Δt后，探测新的车辆状态Q_i+Δt，并根据新的车辆状态Q_i+Δt，记录车辆安全度P_i+Δt。

如上所述的前碰预警制动系统的机器学习方法，其中，优选的是，所述在再次处于相同的车辆状态下，基于所述初始设定动作产生一个新一的执行动作，将新产生的执行动作与上一轮的执行动作按照可变的权重关系得到新一轮的执行动作，并根据执行新一轮动作前后的车辆安全度的变化量，更新该车辆状态下所对应的执行动作，具体包括：

在再次处于相同的车辆状态Q_i下，此时的动作按照初始设定动作M₀附加一定大小的随机数得到的M′_i与上一轮M_i按照预设的权重关系进行加权，形成新一轮的执行动作M_i；

在经过一定的单步长时间Δt后，探测新的车辆状态Q′_i+Δt，并根据新的车辆状态Q′_i+Δt，记录车辆安全度P′_i+Δt；

对比新一轮的车辆安全度P′_i+Δt和上一轮的车辆安全度P_i+Δt相比是否有增加，若有增加，将该轮的动作M_i填入车辆状态矩阵Q_i对应的单元格内，作为Q_i状态下更优选的动作方案，若没有增加，则保持原M_i不变；

在再次处于相同的车辆状态Q_i下，进行迭代学习，但每次迭代学习时均调整本轮M′_i与上一轮M_i的权重关系，M′_i代表探索新的动作方案，M_i为目前学习的最优方案，在学习初期M′_i占的比重更多，随着学习的深入，M_i占的比重逐渐增大。

如上所述的前碰预警制动系统的机器学习方法，其中，优选的是，所述前碰预警制动系统的机器学习方法还包括：

根据主动制动系统在每个车辆状态下作出的动作，解除前碰预警状态，具体包括：

在主动制动系统实际发生作用的时候，探测出车辆前方出现危险物时的车辆状态，按照机器学习得到的最优动作决策进行动作，并在经过单步长时间Δt后，再次判断车辆是否已经解除前碰预警，若没有则继续执行当前车辆状态下的最优动作决策，直至前碰预警解除。

本发明提供一种前碰预警制动系统的机器学习方法，依据车辆状态来设定车辆安全度，构建了安全度的矩阵，并将安全度的增减作为动作决策的奖励，来实现对机器学习的训练；通过迭代学习，使机器掌握不同的车辆状态下的最优选动作；采用较容易控制的电信号作为控制变量实现对主动制动系统的控制，控制精准、反应灵敏，通过机器学习使得主动制动系统可以在各种车辆状态下作出最优选的动作决策，而不用考虑车辆复杂的制动效能计算公式，符合人学习驾驶技能的客观过程；本发明算法实现简单，不需要增加高成本的传感器和控制器，只需要将学习好的动作决策写入主动制动系统程序中即可实现优选的主动制动控制策略。

附图说明

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步描述，其中：

图1为本发明提供的前碰预警制动系统的机器学习的实施例的流程图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。对示例性实施例的描述仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。本公开可以以许多不同的形式实现，不限于这里所述的实施例。提供这些实施例是为了使本公开透彻且完整，并且向本领域技术人员充分表达本公开的范围。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、材料的组分、数字表达式和数值应被解释为仅仅是示例性的，而不是作为限制。

本公开中使用的“第一”、“第二”：以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的部分。“包括”或者“包含”等类似的词语意指在该词前的要素涵盖在该词后列举的要素，并不排除也涵盖其他要素的可能。“上”、“下”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

在本公开中，当描述到特定部件位于第一部件和第二部件之间时，在该特定部件与第一部件或第二部件之间可以存在居间部件，也可以不存在居间部件。当描述到特定部件连接其它部件时，该特定部件可以与所述其它部件直接连接而不具有居间部件，也可以不与所述其它部件直接连接而具有居间部件。

本公开使用的所有术语(包括技术术语或者科学术语)与本公开所属领域的普通技术人员理解的含义相同，除非另外特别定义。还应当理解，在诸如通用字典中定义的术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为说明书的一部分。

如图1所示，本实施例提供的前碰预警制动系统的机器学习在实际执行过程中，具体包括如下步骤：

步骤S1、基于车辆状态设定车辆安全度。

在本发明的前碰预警制动系统的机器学习的一种实施方式中，所述步骤S1具体可以包括：

步骤S11、根据取值范围，分别将碰预警距离(S)、当前车速(V)和当前制动减速度(a)划分为有限个区段。

步骤S12、根据碰预警距离、当前车速、当前制动减速度的区段，构建车辆状态矩阵(见表1)。

在本发明中，为了说明的方便，本文将碰预警距离、当前车速和当前制动减速度均分为3个区段，考虑到减速度是负值，将三者按照绝对值的大小分为大、中、小三个区段，区段的边界可以根据需要定义，以当前车速为例进行说明，车速在60km/h-90km/h区段时定义为高，车速在30km/h-60km/h区段时定义为中，车速在30km/h以下区段时定义为低。碰预警距离(S)和当前制动减速度(a)的区段划分方法与此相类似。本发明在一些实施方式中，还可以将区段进一步划分为4段或者更多，本发明对具体划分的区段数量和区段的边界数值不作具体限定。

步骤S13、将所述车辆状态矩阵中的每个单元格内的参数设定为车辆当前的安全度(见表1)，安全度数值越大表示车辆越安全。

具体地，根据车辆发生前碰的可能性和车辆与后车发生碰撞的可能性，设定车辆当前的安全度。可以理解的是，在高速行驶情况下的紧急制动(V和a均为大值)车辆的安全度是较低的。需要说明的是，本发明对安全度的设定方法不作具体限定，安全度的设定是为了在后续步骤中计算关于机器学习的奖励值。

表1车辆状态矩阵与安全度的关系表

步骤S2、建立主动制动系统的制动电信号与主动制动系统作出的动作信号的关系。

其中，所述主动制动系统作出的动作信号包括制动踏板开度。在本发明的前碰预警制动系统的机器学习的一种实施方式中，所述步骤S2具体可以包括：

步骤S21、针对液压制动的车辆，若是采用机电伺服助力机构(ibooster)实现主动制动，则采集伺服电机的控制信号和制动踏板开度的离散点，通过拟合形成用于表示伺服电机的控制信号和制动踏板开度之间关系的连续的关系曲线，所述伺服电机的控制信号包括伺服电机的电流信号或PWM波的占空比。

机电伺服助力机构通过伺服电机驱动主缸活塞前进/后退，完成管路加压或泄压。其工作原理和制动踏板通过杠杆结构推动主缸活塞前进/后退完成管路加压或泄压是相同的。可以理解的是，在进行简单的数据采集的情况下，可以得出伺服电机的控制信号(可以是电流大小，或者是PWM波的占空比)与制动踏板开度之间的对应关系。因此，在本发明中，可以采集一定数量的离散点，通过拟合形成连续的关系曲线。

步骤S22、针对气压制动车辆，在无主动制动功能时，驾驶员踩下制动踏板时，在制动脚阀连接继动阀的管路中并联比例阀，并通过PWM波的占空比控制比例阀的开启大小，即实现了主动制动功能，通过采集PWM波的占空比和制动踏板开度的离散点，通过拟合形成用于表示比例阀的开启大小和制动踏板开度之间关系的连续的关系曲线。

气压制动车辆在无主动制动功能时，驾驶员踩下制动踏板时，制动脚阀连接继动阀的气路打开，踏板开度越大，制动脚阀连接继动阀的气路打开越大。该气路内的压缩空气顶开继动阀的控制阀门，使得继动阀进口和出口连通，储气筒内的压缩空气通过继动阀进入制动气室产生制动效果。在制动脚阀连接继动阀的管路中并联比例阀，并通过PWM波的占空比控制比例阀的开启大小，即实现了主动制动功能。通过PWM波的占空比控制比例阀的开启大小与踩下制动踏板时制动脚阀连接继动阀的气路打开的大小的效果和原理是相同的。可以理解的是，这个PMW波的占空比与制动踏板的开度依然具备对应关系，是可以通过一定数量的数据采集实现拟合的。

上述步骤S21和步骤S22中涉及的电流信号和PWM波占空比，都是电信号，这种信号在常规的汽车控制器芯片上都具备输出功能，且芯片自带的控制方法控制精准，反应灵敏，而且并不需要额外增加反馈调节的环节。

步骤S3、针对每个车辆状态，根据对应的制动电信号确定主动制动系统作出动作的初始设定动作。

在本发明的前碰预警制动系统的机器学习的一种实施方式中，所述步骤S3具体可以包括：

步骤S31、通过摄像头和/或雷达探测出车辆前方出现危险物时的车辆状态Q，Q＝(S,V,a)，其中，S表示碰预警距离、V表示当前车速，a表示当前制动减速度。

步骤S32、定义主动制动系统作出的动作为M。

其中，所述主动制动系统作出的动作表示制动踏板开度，M＝α％。

步骤S33、在所述车辆状态矩阵中，针对每个单元格的车辆状态，设定一个初始设定动作M₀。

步骤S4、基于所述初始设定动作，根据执行动作前后车辆安全度的变化量调整主动制动系统作出的动作决策，以使当前的车辆状态通过对应的最优选动作进入安全度更高的车辆状态。

本发明的机器学习可以在离线环境下进行，最后在实车上进行在线测试，在具有了学习经验以后，也可以直接在实车上进行在线学习。在本发明的前碰预警制动系统的机器学习的一种实施方式中，所述步骤S4具体可以包括：

步骤S41、在机器学习过程中，针对每个车辆状态，基于所述初始设定动作产生一个新的执行动作，在执行新动作后，根据新的车辆状态确定此时的车辆安全度。

在本发明的前碰预警制动系统的机器学习的一种实施方式中，所述步骤S41具体可以包括：

步骤S411、在对应的车辆状态Q_i下，产生一个基于初始设定动作M₀并附加一定大小的随机数(可正可负)的偏移量形成新的M_i，并将M_i填入对应的车辆状态的单元格内。

步骤S412、在经过一定的单步长时间Δt后，探测新的车辆状态Q_i+Δt，并根据新的车辆状态Q_i+Δt，记录车辆安全度P_i+Δt。

步骤S42、在再次处于相同的车辆状态下，基于所述初始设定动作产生一个新一的执行动作，将新产生的执行动作与上一轮的执行动作按照可变的权重关系得到新一轮的执行动作，并根据执行新一轮动作前后的车辆安全度的变化量，更新该车辆状态下所对应的执行动作。

随着持续的机器学习，车辆还会遇到相同的Q_i状态，此时执行步骤S42。在迭代学习过程中，包含了新动作的探索和已有知识经验的总结，并按照可变的权重关系推进学习过程。在本发明的前碰预警制动系统的机器学习的一种实施方式中，所述步骤S42具体可以包括：

步骤S421、在再次处于相同的车辆状态Q_i下，此时的动作按照初始设定动作M₀附加一定大小的随机数得到的M′_i与上一轮M_i按照预设的权重关系进行加权，形成新一轮的执行动作M_i。

步骤S422、在经过一定的单步长时间Δt后，探测新的车辆状态Q′_i+Δt，并根据新的车辆状态Q′_i+Δt，记录车辆安全度P′_i+Δt。

步骤S423、对比新一轮的车辆安全度P′_i+Δt和上一轮的车辆安全度P_i+Δt相比是否有增加，若有增加，将该轮的动作M_i填入车辆状态矩阵Q_i对应的单元格内，作为Q_i状态下更优选的动作方案，若没有增加，则保持原M_i不变。

步骤S424、在再次处于相同的车辆状态Q_i下，进行迭代学习(即重复步骤S421-步骤S423)，但每次迭代学习时均调整本轮M′_i与上一轮M_i的权重关系，M′_i代表探索新的动作方案，M_i为目前学习的最优方案，在学习初期M′_i占的比重更多，随着学习的深入，M_i占的比重逐渐增大。

通过一定数量的迭代学习，主动制动系统学习了在所有车辆状态下的最优选动作，可以使当前的车辆状态通过对应的最优选动作进入一个安全度更高的车辆状态。

本发明以上描述的实施例是对单步长的动作决策学习，因为本发明的车辆状态变化具有方向性，即速度V只会越来越小，前碰预警距离S只会越来越小，因此本发明实施例不会出现单步长的动作决策仅是局部最优解，而不是全局最优解的情况。

但若对较为复杂的状态矩阵，还需要考虑多步长情况下的综合收益。这需要重新定义车辆状态矩阵里的安全度，将车辆状态矩阵的每个单元格构建为一个结点，若两个结点之间可以有方向地转化，则这两个结点之间建立一条有向边，有向边的长度即是可转化的两个车辆状态结点相互转化的代价(即安全度增减的数值)。例如A结点在经过动作M可以转化为B结点，转化后安全度增加了2。则在有向图中，画一条A到B的有向边，起点为A终点为B，边的属性包括动作M和安全度收益2。重复这种步骤，构建与整个车辆状态矩阵相对应的有向图。

在上述有向图定义几个最安全的终结点，即为多步长动作决策后的最佳归宿，可以理解为经过主动制动后安全度较高的车辆状态。当主动制动系统需要开始做出动作时，以当前车辆的状态找到在有向图中对应的结点。以该结点为起点，以有望能到达的最安全的终结点为终点(有些车辆状态结点之间是没有路径的，例如在主动制动过程中车速不会由低变到高)，按照最短路径的规划(即安全度收益最佳的路径)有选择地通过不同的动作切换车辆状态，达到最安全的终结点(终结点可以不唯一)。在此过程中，单步长的状态切换可能并不是局部的最优解，但是整体的路径规划是全局最优解。

进一步地，本发明在一些实施方式中，所述前碰预警制动系统的机器学习方法还包括：

步骤S5、根据主动制动系统在每个车辆状态下作出的动作，解除前碰预警状态。

具体而言，在主动制动系统实际发生作用的时候，探测出车辆前方出现危险物时的车辆状态，例如可通过摄像头和雷达识别当前车辆处于哪种状态下，在探测出车辆状态后，按照机器学习得到的最优动作决策进行动作，并在经过单步长时间Δt后，再次判断车辆是否已经解除前碰预警，若没有则继续执行当前车辆状态下的最优动作决策，直至前碰预警解除。

虽然在主动制动系统实际发生作用的过程中，前方预警障碍物可能会相对于本车发生相对运动(例如前车也在减速，并且减速度比本车更大)，但本发明的实施例中的每个车辆状态均为一个区段，即在一个S、V、a的区间范围内都可以采用本发明的最优动作决策，因此，通过选择合适的区段的大小可以消除前车减速带来的干扰。

本发明实施例提供的前碰预警制动系统的机器学习方法，依据车辆状态来设定车辆安全度，构建了安全度的矩阵，并将安全度的增减作为动作决策的奖励，来实现对机器学习的训练；通过迭代学习，使机器掌握不同的车辆状态下的最优选动作；采用较容易控制的电信号作为控制变量实现对主动制动系统的控制，控制精准、反应灵敏，通过机器学习使得主动制动系统可以在各种车辆状态下作出最优选的动作决策，而不用考虑车辆复杂的制动效能计算公式，符合人学习驾驶技能的客观过程；本发明算法实现简单，不需要增加高成本的传感器和控制器，只需要将学习好的动作决策写入主动制动系统程序中即可实现优选的主动制动控制策略。

至此，已经详细描述了本公开的各实施例。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改或者对部分技术特征进行等同替换。本公开的范围由所附权利要求来限定。

Claims

1.一种前碰预警制动系统的机器学习方法，其特征在于，包括：

基于车辆状态设定车辆安全度；

基于所述初始设定动作，根据执行动作前后车辆安全度的变化量调整主动制动系统作出的动作决策，以使当前的车辆状态通过对应的最优选动作进入安全度更高的车辆状态，

所述基于车辆状态设定车辆安全度，具体包括：

2.根据权利要求1所述的前碰预警制动系统的机器学习方法，其特征在于，所述将所述车辆状态矩阵中的每个单元格内的参数设定为车辆当前的安全度，具体包括：

3.根据权利要求1所述的前碰预警制动系统的机器学习方法，其特征在于，所述主动制动系统作出的动作信号包括制动踏板开度，

4.根据权利要求1所述的前碰预警制动系统的机器学习方法，其特征在于，所述针对每个车辆状态，根据对应的制动电信号确定主动制动系统作出动作的初始设定动作，具体包括：

定义主动制动系统作出的动作为M；

5.根据权利要求4所述的前碰预警制动系统的机器学习方法，其特征在于，所述主动制动系统作出的动作表示制动踏板开度，M＝α％。

6.根据权利要求4所述的前碰预警制动系统的机器学习方法，其特征在于，所述基于所述初始设定动作，根据执行动作前后车辆安全度的变化量调整主动制动系统作出的动作决策，以使当前的车辆状态通过对应的最优选动作进入安全度更高的车辆状态，具体包括：

7.根据权利要求6所述的前碰预警制动系统的机器学习方法，其特征在于，所述在机器学习过程中，针对每个车辆状态，基于所述初始设定动作产生一个新的执行动作，在执行新动作后，根据新的车辆状态确定此时的车辆安全度，具体包括：

8.根据权利要求7所述的前碰预警制动系统的机器学习方法，其特征在于，所述在再次处于相同的车辆状态下，基于所述初始设定动作产生一个新一的执行动作，将新产生的执行动作与上一轮的执行动作按照可变的权重关系得到新一轮的执行动作，并根据执行新一轮动作前后的车辆安全度的变化量，更新该车辆状态下所对应的执行动作，具体包括：

在再次处于相同的车辆状态Q_i下，此时的动作按照初始设定动作M₀附加一定大小的随机数得到的M'_i与上一轮M_i按照预设的权重关系进行加权，形成新一轮的执行动作M_i；

在经过一定的单步长时间Δt后，探测新的车辆状态Q'_i+Δt，并根据新的车辆状态Q'_i+Δt，记录车辆安全度P'_i+Δt；

对比新一轮的车辆安全度P'_i+Δt和上一轮的车辆安全度P_i+Δt相比是否有增加，若有增加，将该轮的动作M_i填入车辆状态矩阵Q_i对应的单元格内，作为Q_i状态下更优选的动作方案，若没有增加，则保持原M_i不变；

在再次处于相同的车辆状态Q_i下，进行迭代学习，但每次迭代学习时均调整本轮M'_i与上一轮M_i的权重关系，M'_i代表探索新的动作方案，M_i为目前学习的最优方案，在学习初期M'_i占的比重更多，随着学习的深入，M_i占的比重逐渐增大。

9.根据权利要求1所述的前碰预警制动系统的机器学习方法，其特征在于，所述前碰预警制动系统的机器学习方法还包括：