CN116691689A

CN116691689A - 一种车辆控制方法、系统、设备及计算机可读存储介质

Info

Publication number: CN116691689A
Application number: CN202310980967.XA
Authority: CN
Inventors: 邓琪; 李茹杨; 张恒; 张腾飞
Original assignee: Shandong Mass Institute Of Information Technology
Current assignee: Shandong Mass Institute Of Information Technology
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2023-09-05
Anticipated expiration: 2043-08-07
Also published as: CN116691689B

Abstract

本发明公开了一种车辆控制方法、系统、设备及计算机可读存储介质，涉及自动驾驶技术领域，获取目标车辆的目标行驶数据；基于预先训练好的干扰分析模型，确定目标行驶数据中各类目标干扰的目标概率值；基于预先训练好的干扰处理模型，确定与目标行驶数据中各类目标干扰对应的各类目标控制子策略；基于目标概率值对目标控制子策略进行融合，得到目标控制策略，以基于目标控制策略对目标车辆的驾驶动作进行调整。本发明可以准确确定目标行驶数据中各类目标干扰的目标概率值、准确确定对各类目标干扰的目标控制子策略，且基于目标概率值对目标控制子策略进行融合来得到目标控制策略，提高了目标控制策略的鲁棒性，可以精确全面的对车辆进行驾驶控制。

Description

一种车辆控制方法、系统、设备及计算机可读存储介质

技术领域

本发明涉及自动驾驶技术领域，更具体地说，涉及一种车辆控制方法、系统、设备及计算机可读存储介质。

背景技术

汽车智能化是汽车发展的一个重要的技术方向，随着自动驾驶场景越来越复杂，车辆控制的要求越来越高，对自动驾驶安全性的要求也越来越高，然而，车辆在行驶过程中面临的干扰较多，难以准确对该干扰进行分析，且每种干扰需要一个对应的控制策略来对车辆进行控制，多种控制策略又会导致难以对车辆进行准确控制，最终导致难于对车辆实现精确全面的驾驶控制。

综上所述，如何精确全面的对车辆进行驾驶控制是目前本领域技术人员亟待解决的问题。

发明内容

本发明的目的是提供一种车辆控制方法，其能在一定程度上解决如何精确全面的对车辆进行驾驶控制的技术问题。本发明还提供了一种车辆控制系统、电子设备及计算机可读存储介质。

根据本发明实施例的第一方面，提供一种车辆控制方法，包括：

获取目标车辆的目标行驶数据；

基于预先训练好的干扰分析模型，确定所述目标行驶数据中各类目标干扰的目标概率值；

基于预先训练好的干扰处理模型，确定与所述目标行驶数据中各类所述目标干扰对应的各类目标控制子策略；

基于所述目标概率值对所述目标控制子策略进行融合，得到目标控制策略，以基于所述目标控制策略对所述目标车辆的驾驶动作进行调整。

在一示例性实施例中，所述基于预先训练好的干扰分析模型，确定所述目标行驶数据中各类目标干扰的目标概率值之前，还包括：

获取第一训练行驶数据及对应的第一训练概率值；

基于所述第一训练行驶数据及所述第一训练概率值，对初始的所述干扰分析模型进行训练，得到初步训练的所述干扰分析模型；

获取初步训练的所述干扰分析模型对所述第一训练行驶数据的分析结果；

基于预先训练的人工偏好模型，确定所述第一训练行驶数据与所述分析结果的目标人工评分结果；

基于所述目标人工评分结果对初步训练的所述干扰分析模型进行调整，得到预先训练好的所述干扰分析模型。

在一示例性实施例中，所述对初始的所述干扰分析模型进行训练，包括：

通过近端策略优化方法对初始的所述干扰分析模型进行训练。

在一示例性实施例中，所述通过近端策略优化方法对初始的所述干扰分析模型进行训练的过程中，包括：

计算初始的所述干扰分析模型的第一价值网络目标函数值；

计算初始的所述干扰分析模型的第一策略网络目标函数值；

通过所述第一价值网络目标函数值和所述第一策略网络目标函数值，基于梯度下降方法更新初始的所述干扰分析模型的网络参数。

在一示例性实施例中，生成价值网络目标函数值的价值网络目标函数生成公式包括：

；

其中，表示所述价值网络目标函数值；表示期望运算；表示时刻；表示所训练的目标模型；表示价值网络的参数；表示所述目标模型在时刻的训练数据；表示所述目标模型在时刻的输出值；表示所述目标模型在时刻的目标价值；表示二范数运算；表示所述目标模型在时刻的动作价值函数；表示所述目标模型在时刻的奖励函数；表示奖励衰减因子；表示所述目标模型在时刻的训练数据；表示所述目标模型在时刻的输出值。

在一示例性实施例中，生成策略网络目标函数值的策略网络目标函数生成公式包括：

；

其中，表示所述策略网络目标函数值；表示策略网络的参数；表示价值函数的平方误差损失；、表示损失权值；表示基于KL散度计算的策略熵损失，表示范围内的均匀分布；表示所述策略网络，表示前一时刻下的所述策略网络；表示取最小值运算；表示重要性权重；表示优势函数，表示裁剪参数；表示裁剪运算。

在一示例性实施例中，初始的所述干扰分析模型的奖励函数包括：

；

其中，表示初始的所述干扰分析模型的奖励函数值；表示调整奖励幅度的系数；表示调整奖励尺度的系数；表示所述第一训练概率值；表示指数函数；表示初始的所述干扰分析模型的输出值。

在一示例性实施例中，所述基于所述目标人工评分结果对初步训练的所述干扰分析模型进行调整，包括：

通过所述近端策略优化方法，基于所述目标人工评分结果对初步训练的所述干扰分析模型进行调整；

其中，初步训练的所述干扰分析模型在所述近端策略优化方法中的奖励函数包括：

；

其中，表示初步训练的所述干扰分析模型的奖励函数值；、表平衡奖励尺度的奖励权值；表示所述目标人工评分结果对应的人工反馈奖励；表示模型偏移惩罚；表示基于KL散度计算的策略熵损失；表示更新后的初步训练的所述干扰分析模型；表示更新前的初步训练的所述干扰分析模型。

在一示例性实施例中，所述基于预先训练的人工偏好模型，确定所述第一训练行驶数据与所述分析结果的目标人工评分结果之前，还包括：

获取第二训练行驶数据及对应的第二训练概率值；

获取所述第二训练行驶数据与所述第二训练概率值的训练人工评分结果；

基于所述第二训练行驶数据、所述第二训练概率值和所述训练人工评分结果对初始的所述人工偏好模型进行训练，得到预先训练好的所述人工偏好模型。

在一示例性实施例中，所述人工偏好模型基于多层感知机模型构建，所述人工偏好模型包括第一全连接层，第二全连接层，与所述第一全连接层和所述第二全连接层连接的拼接层，与所述拼接层连接的第三全连接层、第四全连接层和第五全连接层，与所述第五全连接层连接的隐藏层；

其中，所述第一全连接层用于对所述第二训练行驶数据进行编码，所述第二全连接层用于对所述第二训练概率值进行编码；所述第三全连接层、所述第四全连接层和所述第五全连接层用于进行特征处理；所述隐藏层用于将特征处理后的融合特征映射为标量作为输出。

在一示例性实施例中，所述基于所述第二训练行驶数据、所述第二训练概率值和所述训练人工评分结果对初始的所述人工偏好模型进行训练的过程中，包括：

基于均方误差损失生成公式，计算初始的所述人工偏好模型的均方误差损失值；

基于所述均方误差损失值更新初始的所述人工偏好模型；

所述均方误差损失生成公式包括：

；

其中，表示所述均方误差损失值；表示所述人工偏好模型的第个输出结果；表示所述训练人工评分结果中的第个值；表示样本数量；表示所述第二训练行驶数据；表示所述第二训练概率值。

在一示例性实施例中，所述基于预先训练好的干扰处理模型，确定与所述目标行驶数据中各类所述目标干扰对应的各类目标控制子策略之前，还包括：

获取第三训练行驶数据及对应的训练控制子策略；

构建所述第三训练行驶数据对应的训练干扰；

基于所述训练控制子策略，生成与所述训练干扰对应的干扰控制子策略；

基于所述第三训练行驶数据、所述训练控制子策略、所述训练干扰、所述干扰控制子策略对初始的所述干扰处理模型进行训练，得到预先训练好的所述干扰处理模型。

在一示例性实施例中，所述训练干扰包括观测干扰，所述观测干扰包括因测量误差导致的干扰。

在一示例性实施例中，所述构建所述第三训练行驶数据对应的训练干扰，包括：

通过观测干扰生成公式，构建所述第三训练行驶数据对应的所述训练干扰；

所述观测干扰生成公式包括：

；；

；

所述基于所述训练控制子策略，生成与所述训练干扰对应的干扰控制子策略，包括：

通过第一子策略生成公式，基于所述训练控制子策略，生成与所述训练干扰对应的所述干扰控制子策略；

所述第一子策略生成公式包括：

；

其中，表示所述观测干扰；表示最优的所述观测干扰；表示所述观测干扰中的乘法干扰；表示期望运算；表示所述观测干扰中的加法干扰；表示所述乘法干扰的期望边界；表示所述加法干扰的期望边界；表示起始的所述乘法干扰；表示起始的所述加法干扰；表示JS散度运算；表示所述训练控制子策略；表示车辆驾驶动作；表示当前时刻下未受干扰的车辆驾驶状态；表示所述干扰控制子策略；表示当前时刻下受干扰的车辆驾驶状态，；表示下一时刻下未受干扰的车辆驾驶状态；表示下一时刻下受干扰的车辆驾驶状态，；表示最优的所述干扰控制子策略；表示最优的所述观测干扰；表示期望最小偏差；表示奖励函数；表示奖励衰减因子；表示时刻；表示最大值自变量点集运算；表示时刻下未受干扰的车辆驾驶状态；表示时刻下的车辆驾驶动作；表示取最大值运算。

在一示例性实施例中，所述训练干扰包括动作干扰，所述动作干扰包括动力学干扰、动作缺失干扰和动作延迟干扰；所述动力学干扰包括因车辆控制动作无法达到预期效果产生的干扰。

通过动作干扰生成公式，构建所述第三训练行驶数据对应的所述训练干扰；

所述动作干扰生成公式包括：

；

，；

通过第二子策略生成公式，基于所述训练控制子策略，生成与所述训练干扰对应的所述干扰控制子策略；

所述第二子策略生成公式包括：

；

其中，表示所述动力学干扰；表示动作系数；表示车辆驾驶动作；表示受干扰动作；表示所述动作缺失干扰；表示动作屏蔽操作；表示被屏蔽动作的维度，，表示动作维度；表示所述动作延迟干扰；表示最大延迟步数；表示最优的所述干扰控制子策略；表示期望最小偏差；表示奖励函数；表示奖励衰减因子；表示时刻；表示所述动作干扰；表示期望运算；表示当前时刻下未受干扰的车辆驾驶状态；表示约束函数；表示二范数运算；表示时刻下未受干扰的车辆驾驶状态；表示时刻下的所述动作干扰；表示取最大值运算；表示取最小值运算。

在一示例性实施例中，所述训练干扰包括外部干扰；所述外部干扰包括其他交通元素对所述目标车辆的干扰。

通过策略生成公式，生成对所述目标车辆进行干扰的对抗智能体的对抗策略；

基于所述对抗策略构建所述第三训练行驶数据对应的所述训练干扰；

所述策略生成公式包括：

；

其中，表示最优的所述对抗策略；表示可选的所述对抗策略；表示期望运算；表示奖励衰减因子；表示时刻；表示所述对抗策略的奖励函数；表示所述目标车辆；表示所述对抗智能体；表示使所述目标车辆与所述对抗智能体直接碰撞的策略的奖励函数；用于确定所述目标车辆与所述对抗智能体是否发生了碰撞；表示所述对抗智能体直接导致碰撞的奖励；表示所述目标车辆与所述对抗智能体间的距离度量函数；表示使所述对抗智能体之外的其他智能体与所述目标车辆发生碰撞的策略的奖励函数；用于确定所述对抗智能体是否与所述其他智能体发生了碰撞；用于确定所述目标车辆是否与所述其他智能体发生了碰撞；表示所述目标车辆出现碰撞的奖励；表示所述对抗智能体发生期望外碰撞的惩罚；表示使所述目标车辆产生轨迹偏离的策略的奖励函数；表示期望轨迹中时刻时所述目标车辆所处位置；表示所述对抗智能体在时刻的运动状态；表示所述对抗智能体在时刻的干扰动作；表示取最大值运算。

在一示例性实施例中，所述基于所述目标概率值对所述目标控制子策略进行融合，得到目标控制策略，包括：

对所述目标概率值进行归一化处理，得到归一化概率值；

基于所述归一化概率值对所述目标控制子策略进行融合，得到所述目标控制策略。

在一示例性实施例中，所述对所述目标概率值进行归一化处理，得到归一化概率值，包括：

通过归一化公式，对所述目标概率值进行归一化处理，得到所述归一化概率值；

所述归一化公式包括：

；

其中，表示第个所述归一化概率值；表示第个所述目标概率值；表示所述目标概率值的总个数值。

在一示例性实施例中，所述基于所述归一化概率值对所述目标控制子策略进行融合，得到所述目标控制策略，包括：

通过策略融合公式，基于所述归一化概率值对所述目标控制子策略进行融合，得到所述目标控制策略；

所述策略融合公式包括：

；

其中，表示所述目标控制策略；表示第个所述目标控制子策略；表示当前时刻下未受干扰的车辆驾驶状态。

根据本发明实施例的第二方面，提供一种车辆控制系统，包括：

第一获取模块，用于获取目标车辆的目标行驶数据；

第一确定模块，用于基于预先训练好的干扰分析模型，确定所述目标行驶数据中各类目标干扰的目标概率值；

第二确定模块，用于基于预先训练好的干扰处理模型，确定与所述目标行驶数据中各类所述目标干扰对应的各类目标控制子策略；

第一融合模块，用于基于所述目标概率值对所述目标控制子策略进行融合，得到目标控制策略，以基于所述目标控制策略对所述目标车辆的驾驶动作进行调整。

根据本发明实施例的第三方面，提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上任一所述车辆控制方法的步骤。

根据本发明实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述车辆控制方法的步骤。

本发明提供的一种车辆控制方法，获取目标车辆的目标行驶数据；基于预先训练好的干扰分析模型，确定目标行驶数据中各类目标干扰的目标概率值；基于预先训练好的干扰处理模型，确定与目标行驶数据中各类目标干扰对应的各类目标控制子策略；基于目标概率值对目标控制子策略进行融合，得到目标控制策略，以基于目标控制策略对目标车辆的驾驶动作进行调整。本发明的有益效果是：可以基于干扰分析模型准确确定目标行驶数据中各类目标干扰的目标概率值，基于干扰处理模型准确确定对各类目标干扰的目标控制子策略，且之后需基于目标概率值对目标控制子策略进行融合来得到目标控制策略，提高了目标控制策略的鲁棒性，可以精确全面的对车辆进行驾驶控制。本发明提供的一种车辆控制系统、电子设备及计算机可读存储介质也解决了相应技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种车辆控制方法的流程图；

图2为本发明中干扰分析模型的训练示意图；

图3为基于人工反馈的控制干扰分析模型在线微调示意图；

图4为本发明中干扰处理模型的训练示意图；

图5为本发明实施例提供的一种车辆控制方法的另一流程图；

图6为五种控制子策略的融合示意图；

图7为本发明实施例提供的一种车辆控制系统的结构示意图；

图8为本发明实施例提供的一种电子设备的结构示意图；

图9为本发明实施例提供的一种电子设备的另一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种车辆控制方法的流程图。

本发明实施例提供的一种车辆控制方法，可以包括以下步骤：

步骤S101：获取目标车辆的目标行驶数据。

实际应用中，可以先获取目标车辆的目标行驶数据，目标行驶数据的类型可以根据实际需要确定，比如目标行驶数据可以包括目标车辆的环境感知数据、传感器状态以及设备配置数据等，其中，环境感知数据包括对目标车辆的周边环境进行感知后得到的数据，设备配置数据包括对目标车辆上的各类设备进行配置后的数据等。

具体应用场景中，考虑到某些干扰需要依靠时间来判别，比如车辆因设备故障延迟响应某动作而产生干扰，此类干扰需在时间维度上进行分析才能确定，所以为了能够准确分析目标车辆存在的干扰，目标行驶数据可以包括基于时间对目标车辆的行驶数据进行序列采集得到的数据，也即目标行驶数据可以包括目标车辆在一段时间内的行驶数据。

步骤S102：基于预先训练好的干扰分析模型，确定目标行驶数据中各类目标干扰的目标概率值。

实际应用中，在获取目标行驶数据后，可以将目标行驶数据输入至预先训练好的干扰分析模型，并获取该预先训练好的干扰分析模型输出的目标行驶数据中的各类目标干扰的目标概率值，也即干扰分析模型用于预估行驶数据中各类干扰的概率值，其中干扰的类型可以根据实际需要确定。

步骤S103：基于预先训练好的干扰处理模型，确定与目标行驶数据中各类目标干扰对应的各类目标控制子策略。

实际应用中，对车辆进行驾驶控制离不开相应的控制策略，而车辆行驶过程中出现的每种干扰，可能均需要相应的控制策略来进行消除，所以还需基于预先训练好的干扰处理模型，确定与目标行驶数据中各类目标干扰对应的各类目标控制子策略，以便后续基于目标控制子策略消除对应的目标干扰。不难理解，干扰处理模型的输入为行驶数据，输出为行驶数据中各类干扰对的控制子策略，且控制子策略的类型可以根据应用场景来确定，比如控制子策略可以为车辆执行动作的程度等，比如车辆左转的角度、车辆油门的踩合距离等。

步骤S104：基于目标概率值对目标控制子策略进行融合，得到目标控制策略，以基于目标控制策略对目标车辆的驾驶动作进行调整。

实际应用中，为了提高对车辆控制的鲁棒性，在得到目标概率值和目标控制子策略之后，还需基于目标概率值对目标控制子策略进行融合，得到最终的目标控制策略，以便根据最终的目标控制策略对目标车辆的驾驶动作进行调整来消除目标干扰对目标车辆的影响。

本发明提供的一种车辆控制方法，获取目标车辆的目标行驶数据；基于预先训练好的干扰分析模型，确定目标行驶数据中各类目标干扰的目标概率值；基于预先训练好的干扰处理模型，确定与目标行驶数据中各类目标干扰对应的各类目标控制子策略；基于目标概率值对目标控制子策略进行融合，得到目标控制策略，以基于目标控制策略对目标车辆的驾驶动作进行调整。本发明中，可以基于干扰分析模型准确确定目标行驶数据中各类目标干扰的目标概率值，基于干扰处理模型准确确定对各类目标干扰的目标控制子策略，且之后需基于目标概率值对目标控制子策略进行融合来得到目标控制策略，提高了目标控制策略的鲁棒性，可以精确全面的对车辆进行驾驶控制。

请参阅图2，图2为本发明中干扰分析模型的训练示意图。

在上述实施例的基础上，本发明提供的一种车辆控制方法中，在基于预先训练好的干扰分析模型，确定目标行驶数据中各类目标干扰的目标概率值之前，还可以对干扰分析模型进行训练，可以包括以下步骤：

步骤S201：获取第一训练行驶数据及对应的第一训练概率值。

实际应用中，可以先获取用于对干扰分析模型进行训练的第一训练行驶数据和对应的第一训练概率值，第一训练行驶数据和目标行驶数据的性质相同，第一训练概率值用于表征第一训练行驶数据中各类干扰的存在概率，其性质与目标概率值相同，具体的，可以借助人工对第一训练行驶数据中的干扰进行分析来得到第一训练概率值等。

具体应用场景中，在获取行驶数据的过程中，假设车辆一次行驶过程中遭遇干扰信号，车辆总行驶时长为T，干扰出现在时段内，获取该行驶过程内的车辆环境感知、传感器状态以及设备配置等数据，作为第一训练行驶数据；设置干扰判定窗口，长度为，将T个训练行驶数据样本加入数据集，其中干扰数据对应标签为“1”，其余为“0”，任意t时刻的训练行驶数据对应于序列，为车辆在时刻的环境感知、传感器状态以及设备配置数据；且考虑到车辆行驶时可能会同时出现多种控制干扰信号，数据集中的行驶数据与标签的关系并非一对一，而是一对多，则可以借助多维动作空间来表征相应的干扰出现情况，比如多维动作空间借助值1来表征对应干扰出现，借助值0来表征对应干扰未出现等。

步骤S202：基于第一训练行驶数据及第一训练概率值，对初始的干扰分析模型进行训练，得到初步训练的干扰分析模型。

实际应用中，在得到第一训练行驶数据和第一训练概率值之后，便可以将第一训练行驶数据作为模型输入，将第一训练概率值作为模型输出，对初始的干扰分析模型进行训练，得到初步训练的干扰分析模型，其中，干扰分析模型的架构可以根据实际需要确定，本发明在此不做具体限定。

具体应用场景中，将干扰数据集中的数据样本作为状态空间，基于干扰分类构建多维动作空间，表示干扰的种类，则可以基于强化学习训练干扰分析模型，但考虑到行驶数据的动作连续性和模型收敛性，可以通过近端策略优化方法（Proximal Policy Optimization，PPO）对初始的干扰分析模型进行训练，该近端策略优化方法基于演员-评论家（actor-critic）框架，包含1个策略网络（Policy_Net）和1个价值网络（Value_Net），其中，策略网络用于选取动作，价值网络用于评估动作优劣，二者均由2层全连接网络构成。在基于近端策略优化方法对干扰分析模型进行训练的过程中，设置交互次数和单次交互步长，每一步从状态空间干扰数据集中随机抽取样本，干扰分析模型根据每个样本作出分析决策，输出为各干扰类别的分析概率。

实际应用中，在通过近端策略优化方法对初始的干扰分析模型进行训练的过程中，可以计算初始的干扰分析模型的第一价值网络目标函数值；计算初始的干扰分析模型的第一策略网络目标函数值；通过第一价值网络目标函数值和第一策略网络目标函数值，基于梯度下降方法更新初始的干扰分析模型的网络参数。且考虑到训练效果，本发明对进行模型训练的近端策略优化方法进行了改进，其中，近端策略优化方法中生成价值网络目标函数值的价值网络目标函数生成公式为：

；

其中，表示价值网络目标函数值；表示期望运算；表示时刻；表示所训练的目标模型；表示价值网络的参数；表示目标模型在时刻的训练数据；表示目标模型在时刻的输出值；表示目标模型在时刻的目标价值；表示二范数运算；表示目标模型在时刻的动作价值函数；表示目标模型在时刻的奖励函数；表示奖励衰减因子；表示目标模型在时刻的训练数据；表示目标模型在时刻的输出值；

近端策略优化方法中生成策略网络目标函数值的策略网络目标函数生成公式包括：

；

其中，表示策略网络目标函数值；表示策略网络的参数；表示价值函数的平方误差损失；、表示损失权值；表示基于KL散度计算的策略熵损失，表示范围内的均匀分布；表示策略网络，表示前一时刻下的策略网络；表示取最小值运算；表示重要性权重；表示优势函数，表示裁剪参数；表示裁剪运算；之后的参数表示值已确定的变量。在应用本发明改进后的近端策略优化方法进行模型训练的过程中，只需按照目标模型的具体奖励函数、相应参数来调整公式中的相应参数即可对相应模型进行训练。

本发明中，动作空间涉及多类干扰，模型输出为一个多维概率向量。奖励函数通过数据的干扰标签和模型输出的分析概率来计算，其中干扰标签用于确定真实的干扰概率，标签对应维度的干扰概率为1，否则为0。以标签为“1”和“5”的干扰数据为例，其真实干扰概率可表示为，而对于标签为“0”的数据，所有维度的干扰概率均为0，即。根据以上设定，初始的干扰分析模型的奖励函数定义为如下形式：

；

其中，表示初始的干扰分析模型的奖励函数值；和分别为调整奖励幅度和尺度的系数；为干扰分析模型输出的分析概率；

价值网络通过回归预期回报以衡量模型的干扰分析性能，表示为：

；

其中，为价值函数，为t时刻的奖励，为奖励衰减因子，表示t时刻的训练行驶数据，表示t时刻的分析概率值。相应地，考虑相同状态下采取不同动作的影响，动作价值函数表示为：

；

价值网络的目标函数可定义为：

；

其中，为目标价值，可以基于时间差分误差（time-differenceerror，TD-Error）进行估计，也即：

；

策略网络将采用裁剪的目标函数更新网络参数：

；

其中，表示重要性权重；表示优势函数，表示裁剪参数；表示干扰分析模型的最新策略网络，表示干扰分析模型在前一时刻下的策略网络；在此基础上，为了提升策略探索效率，添加两项损失来改进上述目标函数，也即：

；

其中，、表示损失权值；表示价值函数的平方误差损失；表示基于KL散度计算的策略熵损失，表示范围内的均匀分布。

换言之，在通过近端策略优化方法对初始的干扰分析模型进行训练的过程中，可以通过价值网络目标函数生成公式，计算初始的干扰分析模型的第一价值网络目标函数值；通过策略网络目标函数生成公式，计算初始的干扰分析模型的第一策略网络目标函数值；通过第一价值网络目标函数值和第一策略网络目标函数值，基于梯度下降方法更新初始的干扰分析模型的网络参数；若结束训练，则输出干扰分析模型，若不结束训练，则从训练数据集中随机抽取小批量数据对干扰分析模型进行训练，返回执行通过价值网络目标函数生成公式，计算初始的干扰分析模型的第一价值网络目标函数值及之后的步骤。

步骤S203：获取初步训练的干扰分析模型对第一训练行驶数据的分析结果。

实际应用中，在得到初步训练的干扰分析模型之后，还需获取初步训练的干扰分析模型对第一训练行驶数据的分析结果，以便后续基于该分析结果进一步对初步训练的干扰分析模型进行训练。

步骤S204：基于预先训练的人工偏好模型，确定第一训练行驶数据与分析结果的目标人工评分结果。

步骤S205：基于目标人工评分结果对初步训练的干扰分析模型进行调整，得到预先训练好的干扰分析模型。

实际应用中，考虑到专家等能够分析出车辆行驶过程中的干扰，所以为了进一步提高干扰分析模型对干扰的预测准确性，在得到初步训练的干扰分析模型之后，还需基于预先训练的人工偏好模型，确定第一训练行驶数据与分析结果的目标人工评分结果，也即本发明中的人工偏好模型可以对输入的训练行驶数据和分析结果进行处理，得到人工对分析结果的准确性评分结果，换言之，目标人工评分结果用于反馈人工对分析结果的准确性评价，因此之后可以基于目标人工评分结果对初步训练的干扰分析模型再次进行调整，得到预先训练好的干扰分析模型。

实际应用中，在基于目标人工评分结果对初步训练的干扰分析模型进行调整的过程中，可以通过近端策略优化方法，基于目标人工评分结果对初步训练的干扰分析模型进行调整；即训练期间仅考虑当前批次的PPD参数更新，最大程度地提高当前数据批次中的奖励，且为了避免模型微调时产生过大偏差，该阶段的奖励函数部分引入了策略转移约束，也即初步训练的干扰分析模型在近端策略优化方法中的奖励函数包括：

；

其中，表示初步训练的干扰分析模型的奖励函数值；、表平衡奖励尺度的奖励权值；表示目标人工评分结果对应的人工反馈奖励；表示模型偏移惩罚；表示基于KL散度计算的策略熵损失；表示更新后的初步训练的干扰分析模型；表示更新前的初步训练的干扰分析模型。在每个更新回合期间，将收集到的行驶数据、分析结果和对应的人工反馈奖励放入一个临时缓冲区R_tmp中，随机从缓冲区R_tmp中抽取小批次数据，基于带约束的奖励函数计算PPO优化目标，在此过程中，仍然应用价值网络目标函数生成公式及策略网络目标函数生成公式生成相应的函数值，只是奖励公式需进行相应替换，参数含义也需根据其特征做相应替换，并利用梯度下降方法更新模型参数，重复上述操作确保R_tmp中的所有数据都被采样过，当一个更新回合结束，重置R_tmp，并继续下一轮驾驶交互过程，当交互数达到设定上限，则完成模型微调，输出更新后的干扰分析模型，此过程如图3所示。由此实施例可知，本发明结合干扰数据集与人工评估反馈，通过离线预训练+在线微调的两阶段学习框架获取干扰分析模型，增强了干扰分析准确性和风险前瞻性。

实际应用中，在基于预先训练的人工偏好模型，确定第一训练行驶数据与分析结果的目标人工评分结果之前，还可以对人工偏好模型进行训练，也即可以获取第二训练行驶数据及对应的第二训练概率值；获取第二训练行驶数据与第二训练概率值的训练人工评分结果；基于第二训练行驶数据、第二训练概率值和训练人工评分结果对初始的人工偏好模型进行训练，得到预先训练好的人工偏好模型。

具体应用场景中，对于车辆任意t时刻的行驶数据s_t，干扰分析模型将输出相应的分析结果，专家进一步对其进行评估，并得到一个标量分数，用于衡量干扰分析模型分析结果的置信度。为了提高人工反馈效率，本发明基于专家打分经验构建人工偏好模型，并利用该模型替代完成模型在线微调阶段的专家评估工作。首先需完成专家经验收集，即在前若干个驾驶过程中，仍依靠专家手工打分完成模型干扰分析结果的评估工作，期间收集评估样本以构建人工反馈数据集D_RF，每个样本包含行驶数据、相应的干扰分析结果以及专家评估，用以训练人工偏好模型。本发明将行驶数据与干扰分析结果作为模型输入，专家评估作为模型输出，基于MLP模型构建偏好模型，以拟合干扰数据对-与评估间的映射关系。也即人工偏好模型基于多层感知机模型构建，人工偏好模型包括第一全连接层，第二全连接层，与第一全连接层和第二全连接层连接的拼接层，与拼接层连接的第三全连接层、第四全连接层和第五全连接层，与第五全连接层连接的隐藏层；其中，第一全连接层用于对第二训练行驶数据进行编码，第二全连接层用于对第二训练概率值进行编码；第三全连接层、第四全连接层和第五全连接层用于进行特征处理；隐藏层用于将特征处理后的融合特征映射为标量作为输出。

具体应用场景中，在基于第二训练行驶数据、第二训练概率值和训练人工评分结果对初始的人工偏好模型进行训练的过程中，基于均方误差损失生成公式，计算初始的人工偏好模型的均方误差损失值；基于均方误差损失值更新初始的人工偏好模型；

均方误差损失生成公式包括：

；

其中，表示均方误差损失值；表示人工偏好模型的第个输出结果；表示训练人工评分结果中的第个值；表示样本数量；表示第二训练行驶数据；表示第二训练概率值。也即训练期间，随机从数据集D_RF中抽取小批次数据，根据均方误差损失更新人工偏好模型，当更新回合数达到设定上限，则训练结束，得到训练好的人工偏好模型。

请参阅图4，图4为本发明中干扰处理模型的训练示意图。

在上述实施例基础上，本发明提供的一种车辆控制方法，在基于预先训练好的干扰处理模型，确定与目标行驶数据中各类目标干扰对应的各类目标控制子策略之前，还可以对干扰处理模型进行训练，可以包括以下步骤：

步骤S301：获取第三训练行驶数据及对应的训练控制子策略。

实际应用中，因为干扰处理模型用于对行驶数据进行处理，得到消除相应干扰的控制策略，所以在对干扰处理模型进行训练的过程中，需先获取第三训练行驶数据及对应的训练控制子策略，第三训练行驶数据的性质与目标行驶数据相同，训练控制子策略为用于消除第三训练行驶数据中存在的干扰的相应策略，其性质与目标控制子策略相同。

步骤S302：构建第三训练行驶数据对应的训练干扰。

实际应用中，可以通过构建第三训练行驶数据对应的训练干扰来为干扰处理模型提供训练样本，以尽可能方便的对干扰处理模型进行训练。

步骤S303：基于训练控制子策略，生成与训练干扰对应的干扰控制子策略。

实际应用中，可以通过构建第三训练行驶数据对应的训练干扰来为干扰处理模型提供训练样本，可以基于训练控制子策略，生成与训练干扰对应的干扰控制子策略，以尽可能方便的对干扰处理模型进行训练，其中，干扰控制子策略表示消除训练干扰的相应策略。

实际应用中，训练干扰的类型可以根据具体需要来确定，比如训练干扰可以包括观测干扰，观测干扰包括因测量误差导致的干扰；比如因传感器无法获取车辆准确的驾驶状态，如存在测量噪声，传感器出现故障造成信息不完整而产生的干扰等。

相应的，可以采用基于贝叶斯优化的黑盒攻击方法来近似最优对抗观测扰动以构建第三训练行驶数据对应的训练干扰，也即可以通过观测干扰生成公式，构建第三训练行驶数据对应的训练干扰；

观测干扰生成公式包括：

；；

；

基于训练控制子策略，生成与训练干扰对应的干扰控制子策略，包括：

通过第一子策略生成公式，基于训练控制子策略，生成与训练干扰对应的干扰控制子策略；

第一子策略生成公式包括：

；

其中，表示观测干扰；表示最优的观测干扰；表示观测干扰中的乘法干扰；表示期望运算；表示观测干扰中的加法干扰；表示乘法干扰的期望边界；表示加法干扰的期望边界；表示起始的乘法干扰；表示起始的加法干扰；表示JS散度运算；表示训练控制子策略；表示车辆驾驶动作；表示当前时刻下未受干扰的车辆驾驶状态；表示干扰控制子策略；表示当前时刻下受干扰的车辆驾驶状态，；表示下一时刻下未受干扰的车辆驾驶状态；表示下一时刻下受干扰的车辆驾驶状态，；表示最优的干扰控制子策略；表示最优的观测干扰；表示期望最小偏差；表示奖励函数；表示奖励衰减因子；表示时刻；表示最大值自变量点集运算；表示时刻下未受干扰的车辆驾驶状态；表示时刻下的车辆驾驶动作；表示取最大值运算。

具体应用场景中，本发明可以基于PPO算法完成鲁棒控制策略的对抗学习。在模拟环境中，车辆基于控制策略与环境持续交互，其中，基于黑盒攻击方法生成的观测扰动将被主动添加至驾驶状态中，以模拟存在观测干扰的驾驶条件。在一次交互过程中，车辆与环境的交互数据将被收集到回放缓冲区中，用于更新控制策略和优化观测扰动。当一次交互步数达到设定最大值，进入策略更新阶段，按照PPO算法更新方式，随机抽取小批次数据，根据式

更新最优观测扰动，同时根据第一子策略生成公式更新控制策略。在结束当前更新回合后，重置回放缓冲区，继续下一轮交互过程。当更新回合数达到设置上限，结束对抗训练并输出控制策略。

实际应用中，训练干扰的类型可以根据具体需要来确定，比如训练干扰可以包括动作干扰，动作干扰包括动力学干扰、动作缺失干扰和动作延迟干扰；动力学干扰包括因车辆控制动作无法达到预期效果产生的干扰，比如因车辆、路面的物理性质发生变化，导致控制动作无法达到预期效果，如道路坡度变化、路面附着力变化、车重变化、车体倾斜等干扰；动作缺失干扰可以包括因电机驱动出现故障导致实际动作与预期动作之间存在差异，如机械结构的磨损或零部件的故障所引起的车辆的动力、制动、转向发生故障或失效等干扰；动作延迟干扰可以包括因数据传输时钟不一致导致发送动作与执行动作不一致，存在动作延迟的干扰。

具体应用场景中，对于动力学干扰、动作缺失干扰、动作延迟干扰这三种干扰情况，均表现为某种动作偏差，考虑通过训练一个对抗策略来生成最优动作干扰。车辆控制策略表示为，其中为车辆驾驶状态，为车辆驾驶动作，奖励函数表示为，为奖励衰减因子受，干扰动作表示为，采用对抗策略生成动作干扰，则针对不同的干扰情况，和均具有不同的表现形式：

对于动力学干扰，干扰信号表现为某种动作噪声或误差，采用对抗策略生成对抗动作，则受干扰动作表示为两种动作的混合形式，其中为动作系数；

对于动作缺失干扰，干扰信号可视为某种动作屏蔽操作，采用对抗策略生成动作屏蔽索引，为动作维度，则受干扰动作将表现为部分元素缺失，，其中Mask(⋅)为动作屏蔽操作，该操作将主动屏蔽a的第idx维的元素；

对于动作延迟干扰，干扰信号表现为传输上的时间滞后，采用对抗策略生成动作滞后时间步，为最大延迟步数，则受干扰动作本质上为个时间步前传输的延迟动作；

且为学习鲁棒驾驶控制策略，引入动作干扰进行对抗学习，由于优化过程涉及两个策略学习，即控制策略和对抗策略，基于两人零和马尔可夫博弈理论进行问题建模，其中控制策略学习最大化累计奖励，对抗策略则学习产生最优干扰以最小化奖励。基于纳什均衡求解该类非合作博弈问题，优化过程表示为：

；

其中，为约束函数，表示期望最小偏差。

相应的，在构建第三训练行驶数据对应的训练干扰的过程中，可以通过动作干扰生成公式，构建第三训练行驶数据对应的训练干扰；

动作干扰生成公式包括：

；

，；

在基于训练控制子策略，生成与训练干扰对应的干扰控制子策略的过程中，可以通过第二子策略生成公式，基于训练控制子策略，生成与训练干扰对应的干扰控制子策略；

第二子策略生成公式包括：

；

其中，表示动力学干扰；表示动作系数；表示车辆驾驶动作；表示受干扰动作；表示动作缺失干扰；表示动作屏蔽操作；表示被屏蔽动作的维度，，表示动作维度；表示动作延迟干扰；表示最大延迟步数；表示最优的干扰控制子策略；表示期望最小偏差；表示奖励函数；表示奖励衰减因子；表示时刻；表示动作干扰；表示期望运算；表示当前时刻下未受干扰的车辆驾驶状态；表示约束函数；表示二范数运算；表示时刻下未受干扰的车辆驾驶状态；表示时刻下的动作干扰；表示取最大值运算；表示取最小值运算。

实际应用中，训练干扰的类型可以根据具体需要来确定，比如训练干扰可以包括外部干扰；外部干扰包括其他交通元素对目标车辆的干扰，也即由于其他交通元素的不确定性产生的干扰，比如其他车辆或行人的运动行为无法完全预知，如行人可能突然在非人行道上穿越马路，其他车辆违反交通规则的行为或发生失控等产生的干扰。

具体应用场景中，针对由其他车辆或行人的未知运动行为产生的外部干扰，可考虑在模拟驾驶环境中引入对抗智能体对车辆行驶过程发起主动攻击，如碰撞、轨迹干扰等行为。假设为自我车辆，也即目标车辆，为对抗智能体，二者驾驶策略分别为和，同时具有相同的状态空间和动作空间，针对的对抗驾驶策略，本发明考虑以下几种学习目标：

直接碰撞：学习在最短时间内导致与直接碰撞的最佳导航策略，其对抗奖励函数定义为；其中，系数用于确定与是否发生了碰撞，为直接导致碰撞的奖励，为与间的距离度量函数，可采用欧氏距离计算等；

诱发碰撞：学习一个最优的导航策略来影响的驾驶行为，使其与以外的任何车辆或物体发生碰撞，其对抗奖励函数定义为；其中，系数、分别用于确定、与除对方以外的其他目标是否发生了碰撞，为出现碰撞的奖励，为发生期望外碰撞的惩罚；

轨迹干扰：学习一个最优的导航策略来影响的驾驶行为，利用其避撞机动产生轨迹偏离，相应的奖励函数可设置为；其中，为期望轨迹中时刻的所在位置；

综合考虑上述干扰行为，对抗策略的奖励函数定义为：

；

在策略学习阶段，为学习鲁棒驾驶控制策略，引入对抗智能体进行对抗学习，该过程同样涉及控制策略与对抗策略学习，但因为二者奖励函数相互独立，其对抗学习过程与前述的动作干扰情况有所差异。基于式中的奖励函数，对抗智能体的优化目标表示为：

；

其中，表示对抗智能体的运动状态；为对抗智能体的干扰动作；控制策略则采用第一子策略生成公式中不带约束的优化目标进行更新。外部干扰环境下，策略与协同进行交互驾驶，同时根据各自优化目标，二者交替进行参数更新。当更新回合数达到设置上限，结束对抗训练并输出控制策略。

也即，在构建第三训练行驶数据对应的训练干扰的过程中，可以通过策略生成公式，生成对目标车辆进行干扰的对抗智能体的对抗策略；基于对抗策略构建第三训练行驶数据对应的训练干扰；

策略生成公式包括：

；

其中，表示最优的对抗策略；表示可选的对抗策略；表示期望运算；表示奖励衰减因子；表示时刻；表示对抗策略的奖励函数；表示目标车辆；表示对抗智能体；表示使目标车辆与对抗智能体直接碰撞的策略的奖励函数；用于确定目标车辆与对抗智能体是否发生了碰撞；表示对抗智能体直接导致碰撞的奖励；表示目标车辆与对抗智能体间的距离度量函数；表示使对抗智能体之外的其他智能体与目标车辆发生碰撞的策略的奖励函数；用于确定对抗智能体是否与其他智能体发生了碰撞；用于确定目标车辆是否与其他智能体发生了碰撞；表示目标车辆出现碰撞的奖励；表示对抗智能体发生期望外碰撞的惩罚；表示使目标车辆产生轨迹偏离的策略的奖励函数；表示期望轨迹中时刻时目标车辆所处位置；表示对抗智能体在时刻的运动状态；表示对抗智能体在时刻的干扰动作；表示取最大值运算。

步骤S304：基于第三训练行驶数据、训练控制子策略、训练干扰、干扰控制子策略对初始的干扰处理模型进行训练，得到预先训练好的干扰处理模型。

实际应用中，在生成与训练干扰对应的干扰控制子策略之后，便可以基于第三训练行驶数据、训练控制子策略、训练干扰、干扰控制子策略对初始的干扰处理模型进行训练，得到预先训练好的干扰处理模型。

由此实施例可知，本发明根据各类控制干扰信号的作用目标及特性进行差异化建模，采用对抗学习方式针对性训练用于响应各类干扰风险的鲁棒控制子策略，提升了驾驶安全性和稳定性。

请参阅图5，图5为本发明实施例提供的一种车辆控制方法的另一流程图。

步骤S401：获取目标车辆的目标行驶数据。

步骤S402：基于预先训练好的干扰分析模型，确定目标行驶数据中各类目标干扰的目标概率值。

步骤S403：基于预先训练好的干扰处理模型，确定与目标行驶数据中各类目标干扰对应的各类目标控制子策略。

步骤S404：对目标概率值进行归一化处理，得到归一化概率值。

步骤S405：基于归一化概率值对目标控制子策略进行融合，得到目标控制策略，以基于目标控制策略对目标车辆的驾驶动作进行调整。

实际应用中，考虑到车辆行驶期间会同时受多种控制干扰因素影响，所以可以根据干扰分析概率对多个控制子策略的输出结果进行加权融合，也即基于目标概率值对目标控制子策略进行融合，得到目标控制策略的过程中，可以对目标概率值进行归一化处理，得到归一化概率值；基于归一化概率值对目标控制子策略进行融合，得到目标控制策略。

具体应用场景中，对目标概率值进行归一化处理，得到归一化概率值的过程中，可以通过归一化公式，对目标概率值进行归一化处理，得到归一化概率值；

归一化公式包括：

；

其中，表示第个归一化概率值；表示第个目标概率值；表示目标概率值的总个数值。

具体应用场景中，在基于归一化概率值对目标控制子策略进行融合，得到目标控制策略的过程中，可以通过策略融合公式，基于归一化概率值对目标控制子策略进行融合，得到目标控制策略；

策略融合公式包括：

；

其中，表示目标控制策略；表示第个目标控制子策略；表示当前时刻下未受干扰的车辆驾驶状态。假设的值为5，则控制子策略的融合过程如图6所示。

由此实施例可知，本申请结合干扰分析模型与多种控制子策略构建鲁棒容错控制系统，将干扰分析概率作为上层决策指导多策略输出融合，提升了控制系统机动性和容错性，可以确保车辆在差异化干扰环境中具备强大的风险响应能力和抗干扰能力。

请参阅图7，图7为本发明实施例提供的一种车辆控制系统的结构示意图。

本发明实施例提供的一种车辆控制系统，可以包括：

第一获取模块101，用于获取目标车辆的目标行驶数据；

第一确定模块102，用于基于预先训练好的干扰分析模型，确定目标行驶数据中各类目标干扰的目标概率值；

第二确定模块103，用于基于预先训练好的干扰处理模型，确定与目标行驶数据中各类目标干扰对应的各类目标控制子策略；

第一融合模块104，用于基于目标概率值对目标控制子策略进行融合，得到目标控制策略，以基于目标控制策略对目标车辆的驾驶动作进行调整。

本发明实施例提供的一种车辆控制系统，还可以包括：

第二获取模块，用于第一确定模块基于预先训练好的干扰分析模型，确定目标行驶数据中各类目标干扰的目标概率值之前，获取第一训练行驶数据及对应的第一训练概率值；

第一训练模块，用于基于第一训练行驶数据及第一训练概率值，对初始的干扰分析模型进行训练，得到初步训练的干扰分析模型；

第三获取模块，用于获取初步训练的干扰分析模型对第一训练行驶数据的分析结果；

第三确定模块，用于基于预先训练的人工偏好模型，确定第一训练行驶数据与分析结果的目标人工评分结果；

第二训练模块，用于基于目标人工评分结果对初步训练的干扰分析模型进行调整，得到预先训练好的干扰分析模型。

本发明实施例提供的一种车辆控制系统，第一训练模块具体用于：通过近端策略优化方法对初始的干扰分析模型进行训练。

本发明实施例提供的一种车辆控制系统，第一训练模块具体用于：通过近端策略优化方法对初始的干扰分析模型进行训练的过程中，通过价值网络目标函数生成公式，计算初始的干扰分析模型的第一价值网络目标函数值；通过策略网络目标函数生成公式，计算初始的干扰分析模型的第一策略网络目标函数值；通过第一价值网络目标函数值和第一策略网络目标函数值，基于梯度下降方法更新初始的干扰分析模型的网络参数。

本发明实施例提供的一种车辆控制系统，生成价值网络目标函数值的价值网络目标函数生成公式包括：

；

其中，表示价值网络目标函数值；表示期望运算；表示时刻；表示所训练的目标模型；表示价值网络的参数；表示目标模型在时刻的训练数据；表示目标模型在时刻的输出值；表示目标模型在时刻的目标价值；表示二范数运算；表示目标模型在时刻的动作价值函数；表示目标模型在时刻的奖励函数；表示奖励衰减因子；表示目标模型在时刻的训练数据；表示目标模型在时刻的输出值。

本发明实施例提供的一种车辆控制系统，生成策略网络目标函数值的策略网络目标函数生成公式包括：

；

其中，表示策略网络目标函数值；表示策略网络的参数；表示价值函数的平方误差损失；、表示损失权值；表示基于KL散度计算的策略熵损失，表示范围内的均匀分布；表示策略网络，表示前一时刻下的策略网络；表示取最小值运算；表示重要性权重；表示优势函数，表示裁剪参数；表示裁剪运算。

本发明实施例提供的一种车辆控制系统，初始的干扰分析模型的奖励函数包括：

；

其中，表示初始的干扰分析模型的奖励函数值；表示调整奖励幅度的系数；表示调整奖励尺度的系数；表示第一训练概率值；表示指数函数；表示初始的干扰分析模型的输出值。

本发明实施例提供的一种车辆控制系统，第二训练模块具体用于：通过近端策略优化方法，基于目标人工评分结果对初步训练的干扰分析模型进行调整；

其中，初步训练的干扰分析模型在近端策略优化方法中的奖励函数包括：

；

其中，表示初步训练的干扰分析模型的奖励函数值；、表平衡奖励尺度的奖励权值；表示目标人工评分结果对应的人工反馈奖励；表示模型偏移惩罚；表示基于KL散度计算的策略熵损失；表示更新后的初步训练的干扰分析模型；表示更新前的初步训练的干扰分析模型。

本发明实施例提供的一种车辆控制系统，还可以包括：

第四获取模块，用于第三确定模块基于预先训练的人工偏好模型，确定第一训练行驶数据与分析结果的目标人工评分结果之前，获取第二训练行驶数据及对应的第二训练概率值；

第五获取模块，用于获取第二训练行驶数据与第二训练概率值的训练人工评分结果；

第三训练模块，用于基于第二训练行驶数据、第二训练概率值和训练人工评分结果对初始的人工偏好模型进行训练，得到预先训练好的人工偏好模型。

本发明实施例提供的一种车辆控制系统，人工偏好模型基于多层感知机模型构建，人工偏好模型包括第一全连接层，第二全连接层，与第一全连接层和第二全连接层连接的拼接层，与拼接层连接的第三全连接层、第四全连接层和第五全连接层，与第五全连接层连接的隐藏层；

其中，第一全连接层用于对第二训练行驶数据进行编码，第二全连接层用于对第二训练概率值进行编码；第三全连接层、第四全连接层和第五全连接层用于进行特征处理；隐藏层用于将特征处理后的融合特征映射为标量作为输出。

本发明实施例提供的一种车辆控制系统，第三训练模块具体用于基于第二训练行驶数据、第二训练概率值和训练人工评分结果对初始的人工偏好模型进行训练的过程中，基于均方误差损失生成公式，计算初始的人工偏好模型的均方误差损失值；基于均方误差损失值更新初始的人工偏好模型；

均方误差损失生成公式包括：

；

其中，表示均方误差损失值；表示人工偏好模型的第个输出结果；表示训练人工评分结果中的第个值；表示样本数量；表示第二训练行驶数据；表示第二训练概率值。

本发明实施例提供的一种车辆控制系统，还可以包括：

第六获取模块，用于第二确定模块基于预先训练好的干扰处理模型，确定与目标行驶数据中各类目标干扰对应的各类目标控制子策略之前，获取第三训练行驶数据及对应的训练控制子策略；

第一构建模块，用于构建第三训练行驶数据对应的训练干扰；

第一生成模块，用于基于训练控制子策略，生成与训练干扰对应的干扰控制子策略；

第四训练模块，用于基于第三训练行驶数据、训练控制子策略、训练干扰、干扰控制子策略对初始的干扰处理模型进行训练，得到预先训练好的干扰处理模型。

本发明实施例提供的一种车辆控制系统，训练干扰包括观测干扰，观测干扰包括因测量误差导致的干扰。

本发明实施例提供的一种车辆控制系统，第一构建模块具体用于：通过观测干扰生成公式，构建第三训练行驶数据对应的训练干扰；

观测干扰生成公式包括：

；；

；

第一子策略生成公式包括：

；

本发明实施例提供的一种车辆控制系统，训练干扰包括动作干扰，动作干扰包括动力学干扰、动作缺失干扰和动作延迟干扰；动力学干扰包括因车辆控制动作无法达到预期效果产生的干扰。

本发明实施例提供的一种车辆控制系统，第一构建模块具体用于：通过动作干扰生成公式，构建第三训练行驶数据对应的训练干扰；

动作干扰生成公式包括：

；

，；

通过第二子策略生成公式，基于训练控制子策略，生成与训练干扰对应的干扰控制子策略；

第二子策略生成公式包括：

；

本发明实施例提供的一种车辆控制系统，训练干扰包括外部干扰；外部干扰包括其他交通元素对目标车辆的干扰。

本发明实施例提供的一种车辆控制系统，第一构建模块具体用于：通过策略生成公式，生成对目标车辆进行干扰的对抗智能体的对抗策略；基于对抗策略构建第三训练行驶数据对应的训练干扰；

策略生成公式包括：

；

本发明实施例提供的一种车辆控制系统，第一融合模块具体用于：对目标概率值进行归一化处理，得到归一化概率值；基于归一化概率值对目标控制子策略进行融合，得到目标控制策略。

本发明实施例提供的一种车辆控制系统，第一融合模块具体用于：通过归一化公式，对目标概率值进行归一化处理，得到归一化概率值；

归一化公式包括：

；

本发明实施例提供的一种车辆控制系统，第一融合模块具体用于：通过策略融合公式，基于归一化概率值对目标控制子策略进行融合，得到目标控制策略；

策略融合公式包括：

；

其中，表示目标控制策略；表示第个目标控制子策略；表示当前时刻下未受干扰的车辆驾驶状态。

本发明还提供了一种电子设备及计算机可读存储介质，其均具有本发明实施例提供的一种车辆控制方法具有的对应效果。请参阅图8，图8为本发明实施例提供的一种电子设备的结构示意图。

本发明实施例提供的一种电子设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如上任一实施例所描述车辆控制方法的步骤。

请参阅图9，本发明实施例提供的另一种电子设备中还可以包括：与处理器202连接的输入端口203，用于传输外界输入的命令至处理器202；与处理器202连接的显示单元204，用于显示处理器202的处理结果至外界；与处理器202连接的通信模块205，用于实现电子设备与外界的通信。显示单元204可以为显示面板、激光扫描使显示器等；通信模块205所采用的通信方式包括但不局限于移动高清链接技术（Mobile High-Definition Link，MHL）、通用串行总线（Universal Serial Bus，USB）、高清多媒体接口（High－DefinitionMultimedia Interface，HDMI）、无线连接：无线保真技术（WIreless Fidelity，WiFi）、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术。

本发明实施例提供的一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如上任一实施例所描述车辆控制方法的步骤。

本发明所涉及的计算机可读存储介质包括随机存储器（Random Access Memory，RAM）、内存、只读存储器（Read-Only Memory，ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM（Compact Disc Read-Only Memory，只读光盘）、或技术领域内所公知的任意其它形式的存储介质。

本发明实施例提供的车辆控制系统、电子设备及计算机可读存储介质中相关部分的说明请参见本发明实施例提供的车辆控制方法中对应部分的详细说明，在此不再赘述。另外，本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种车辆控制方法，其特征在于，包括：

获取目标车辆的目标行驶数据；

2.根据权利要求1所述的方法，其特征在于，所述基于预先训练好的干扰分析模型，确定所述目标行驶数据中各类目标干扰的目标概率值之前，还包括：

获取第一训练行驶数据及对应的第一训练概率值；

3.根据权利要求2所述的方法，其特征在于，所述对初始的所述干扰分析模型进行训练，包括：

4.根据权利要求3所述的方法，其特征在于，所述通过近端策略优化方法对初始的所述干扰分析模型进行训练的过程中，包括：

计算初始的所述干扰分析模型的第一价值网络目标函数值；

计算初始的所述干扰分析模型的第一策略网络目标函数值；

5.根据权利要求4所述的方法，其特征在于，生成价值网络目标函数值的价值网络目标函数生成公式包括：

；

6.根据权利要求5所述的方法，其特征在于，生成策略网络目标函数值的策略网络目标函数生成公式包括：

；

7.根据权利要求6所述的方法，其特征在于，初始的所述干扰分析模型的奖励函数包括：

；

8.根据权利要求6所述的方法，其特征在于，所述基于所述目标人工评分结果对初步训练的所述干扰分析模型进行调整，包括：

；

9.根据权利要求2所述的方法，其特征在于，所述基于预先训练的人工偏好模型，确定所述第一训练行驶数据与所述分析结果的目标人工评分结果之前，还包括：

获取第二训练行驶数据及对应的第二训练概率值；

10.根据权利要求9所述的方法，其特征在于，所述人工偏好模型基于多层感知机模型构建，所述人工偏好模型包括第一全连接层，第二全连接层，与所述第一全连接层和所述第二全连接层连接的拼接层，与所述拼接层连接的第三全连接层、第四全连接层和第五全连接层，与所述第五全连接层连接的隐藏层；

11.根据权利要求10所述的方法，其特征在于，所述基于所述第二训练行驶数据、所述第二训练概率值和所述训练人工评分结果对初始的所述人工偏好模型进行训练的过程中，包括：

基于所述均方误差损失值更新初始的所述人工偏好模型；

所述均方误差损失生成公式包括：

；

12.根据权利要求1至11任一项所述的方法，其特征在于，所述基于预先训练好的干扰处理模型，确定与所述目标行驶数据中各类所述目标干扰对应的各类目标控制子策略之前，还包括：

获取第三训练行驶数据及对应的训练控制子策略；

构建所述第三训练行驶数据对应的训练干扰；

13.根据权利要求12所述的方法，其特征在于，所述训练干扰包括观测干扰，所述观测干扰包括因测量误差导致的干扰。

14.根据权利要求13所述的方法，其特征在于，所述构建所述第三训练行驶数据对应的训练干扰，包括：

所述观测干扰生成公式包括：

；；

；

所述第一子策略生成公式包括：

；

15.根据权利要求12所述的方法，其特征在于，所述训练干扰包括动作干扰，所述动作干扰包括动力学干扰、动作缺失干扰和动作延迟干扰；所述动力学干扰包括因车辆控制动作无法达到预期效果产生的干扰。

16.根据权利要求15所述的方法，其特征在于，所述构建所述第三训练行驶数据对应的训练干扰，包括：

所述动作干扰生成公式包括：

；

，；

所述第二子策略生成公式包括：

；

17.根据权利要求12所述的方法，其特征在于，所述训练干扰包括外部干扰；所述外部干扰包括其他交通元素对所述目标车辆的干扰。

18.根据权利要求17所述的方法，其特征在于，所述构建所述第三训练行驶数据对应的训练干扰，包括：

所述策略生成公式包括：

；

19.根据权利要求1所述的方法，其特征在于，所述基于所述目标概率值对所述目标控制子策略进行融合，得到目标控制策略，包括：

对所述目标概率值进行归一化处理，得到归一化概率值；

20.根据权利要求19所述的方法，其特征在于，所述对所述目标概率值进行归一化处理，得到归一化概率值，包括：

所述归一化公式包括：

；

21.根据权利要求20所述的方法，其特征在于，所述基于所述归一化概率值对所述目标控制子策略进行融合，得到所述目标控制策略，包括：

所述策略融合公式包括：

；

22.一种车辆控制系统，其特征在于，包括：

第一获取模块，用于获取目标车辆的目标行驶数据；

23.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至21任一项所述车辆控制方法的步骤。

24.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至21任一项所述车辆控制方法的步骤。