CN116820138B

CN116820138B - 一种基于编队行驶的控制器智能决策方法及系统

Info

Publication number: CN116820138B
Application number: CN202311084948.5A
Authority: CN
Inventors: 张龙; 段续庭; 赵一翰; 吴诒轩
Original assignee: Institute of Systems Engineering of PLA Academy of Military Sciences
Current assignee: Institute of Systems Engineering of PLA Academy of Military Sciences
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2024-04-12
Anticipated expiration: 2043-08-28
Also published as: CN116820138A

Abstract

本发明提出一种基于编队行驶的控制器智能决策方法及系统，属于智能控制技术领域。所述方法根据车辆编队中各个车辆的状态参数和车辆行驶约束条件建立车辆编队的非线性路径跟踪表达式模型；基于车辆编队的非线性路径跟踪表达式模型配置车辆编队的控制器，控制器包括安全控制器和先进控制器；根据车辆编队的运行指标确定车辆编队的安全等级；当安全等级超过控制器切换阈值时，将车辆编队的控制器从安全控制器切换到先进控制器。本发明在线实时监测系统运行状态，精准决策控制器安全等级并实现控制器的平稳切换，同时解决控制器切换过程中系统的瞬态突变问题，在保障车辆编队的行驶安全性前提下提升编队行驶性能。

Description

一种基于编队行驶的控制器智能决策方法及系统

技术领域

本发明属于智能控制技术领域，尤其涉及一种基于编队行驶的控制器智能决策方法及系统。

背景技术

车辆编队控制技术使得两台或两台以上的车辆形成一个编队整体，通过协同控制，形成有序的行驶队列，从而实现对车队的集中控制，保持特定的车辆间距与行驶速度。它是实现高速公路、城市快速路、机场等场景自动驾驶的关键技术之一。目前，车辆编队控制技术已在国内外民商两用领域内有了许多部署与应用，这对于提升道路总体车辆通行效率，降低车辆行驶能源消耗，增加驾驶员的驾驶舒适性与驾驶安全性，缓解交通拥堵，具有广泛而深远的意义。具体来说，车辆编队技术通过先进的车联网通信技术来交换各个车辆的行驶速度、路况位置等多源信息，基于此跟随车辆可以保持与领航车辆一致的行驶状态，这在现有交通基础硬件设施及固定道路通行能力条件下，不失为是一种提高道路利用效率，缓解交通拥堵的务实解决措施。并且，车辆编队通常可以以较小的行车间距行驶，由于领航车为后面的跟随车辆起到领航作用，将有效降低编队车辆的行驶能耗，这在商用重型卡车上的效果尤为明显。目前绝大部分交通事故跟驾驶员人为操作失误有关联，通过编车辆队控制，车辆可以分担驾驶员的操作，有效缓解了驾驶员的驾驶疲劳，提升驾乘舒适性。其将跟车驾驶行为交给车辆来进行判断，相比于人类可以实现更快的行驶决策，减少反应时间，降低人为失误。

当前，传统的车辆编队控制技术主要为MPC（Model Predictive Control，模型预测控制），它可以根据系统动态模型和预测模型来计算控制器的输出，实现车辆之间的协调运动和避障控制。具体来说，该技术下的编队中每辆车都装备了传感器来感知前方车辆的位置和速度，然后根据MPC算法来预测未来的运动轨迹和车辆间的相互作用，最终决定车辆的加速度或制动力，以使其与前车保持一定的距离和速度。其优点在于可以考虑车辆动态模型和非线性特性，从而提高系统的控制稳定性，同时考虑车辆之间的相互作用和避障问题，保障车辆队列的安全性，避免发生碰撞等行驶事故。然而，这类控制方法往往需要提前确定好车辆的数学模型和系统参数，在车辆实时高强度的运行状态下，MPC控制器对于参数选择和调节比较敏感，需要经过精细的参数设计和实验验证。此外，MPC控制器在处理非线性系统时，可能会出现局部最优和不稳定的问题，需要采用一些高级技术来解决。

随着人工智能技术的不断发展，利用强化学习方法来实现车辆编队控制已成为研究热点之一。基于强化学习的车辆编队控制技术通过编队系统与行车环境交互的方式，从奖励信号中学习如何在对应路况下做出最优控制的行为，以达到最大化长期奖励的目标。具体地，强化学习技术在车辆编队控制中的应用主要有以下几个方面：

（1）目标跟踪和路径规划：利用强化学习技术对场景进行分析，从而实现对目标物体的跟踪和路径规划。

（2）状态估计和预测：通过对车辆状态的预测和估计，实现对车辆行驶状态的精确控制。

（3）行为决策和路径规划：利用强化学习技术实现车辆行为决策和路径规划，从而实现智能车辆编队控制。

（4）控制器设计和优化：强化学习技术可以用于控制器的设计和优化，从而提高控制精度和鲁棒性。

该技术优势在于可以在不依赖于系统参数的情况下，通过大量的数据驱动学习系统的非线性特性和映射关系，自主地进行最佳决策从而提高编队控制精度和鲁棒性。这种自适应性使得强化学习能够处理复杂、不确定和动态的环境，并且可以在不同的任务中进行迁移学习。此外，强化学习还可以在不需要人工干预的情况下实现自我调整和优化，从而提高编队控制的效率和性能。然而，强化学习的缺点是其学习过程通常需要大量的时间和计算资源，并且具有较高的计算复杂度，这对车载控制器构成了庞大的计算压力。同时，强化学习在设计奖励函数时可能存在困难，因为某些路况状态可能无法被明确地定义，或者可能存在非预期的副作用。最后，强化学习的决策过程通常是不确定的，因此在实际应用中需要对其结果进行评估和验证。

当前，车路协同相关基础设施尚未广泛普及，车辆行驶面临多变环境与复杂路况等问题，以MPC为代表的传统安全控制器与强化学习为代表的人工智能先进控制器各有优劣。同时将传统的安全控制器（MPC控制器）和先进控制器（强化学习控制器）装备车辆编队，可以拓宽编队行驶场景，同时兼顾高性能和安全性，对于自动驾驶技术的推广和落地应用具有现实意义。由此，如何正确决策编队系统的运行模型，实现安全控制器和先进控制器的准确平稳切换，解决控制器切换过程中系统的瞬态突变问题，是当前车辆编队控制技术发展中亟待解决的关键性难题。

发明内容

针对上述技术问题，提出一种基于编队行驶的控制器智能决策方案。

本发明第一方面提出一种基于编队行驶的控制器智能决策方法。所述方法包括：步骤S1、根据车辆编队中各个车辆的状态参数和车辆行驶约束条件建立车辆编队的非线性路径跟踪表达式模型；步骤S2、基于所述车辆编队的非线性路径跟踪表达式模型配置所述车辆编队的控制器，所述控制器包括安全控制器和先进控制器；步骤S3、根据所述车辆编队的运行指标确定所述车辆编队的安全等级；其中，当所述安全等级超过控制器切换阈值时，计算平滑过渡系数，基于所述平滑过渡系数将所述车辆编队的控制器从所述安全控制器切换到所述先进控制器。

根据本发明第一方面的方法，在所述步骤S1中：

在所述车辆编队所涉及的车道上建立一维直线坐标系，行驶方向为x轴正方向，t时刻所述车辆编队中的所有车辆均处于控制范围内；

基于所述状态参数对单个车辆进行非线性动力学建模：

其中，m表示车辆质量，v表示车辆速度，表示车辆加速度，F表示车辆受到的外部力，由车辆速度v和控制器的控制量输入u确定，表示空气阻力，表示摩擦力；

所述车辆行驶约束条件包括：

第i辆车在t时刻的速度为：

第i辆车在t时刻的加速度为：

其中，表示第i辆车在进行队列运动时所在的空间离散化点，表示离散空间中连续两点之间的距离，表示到达离散化点j的时刻，表示到达离散化点j+1的时刻，C表示车辆集合，N表示车辆总数；

速度约束条件为：

加速度约束条件为：

其中，v _min表示速度约束下限，v _max表示速度约束上限，a _min表示加速度约束下限，a _max表示加速度约束上限，同时车头间隔距离不小于最小安全车头间距；

所述车辆编队的非线性路径跟踪表达式模型为：

其中，e表示车辆当前位置与期望路径之间的误差，表示所述误差的变化率，k ₁、k ₂、k ₃表示控制器参数。

根据本发明第一方面的方法，在所述步骤S2中：

所述车辆编队的状态函数方程为：

其中，x _t表示所述车辆编队在时刻t的状态量，x _t+1表示所述车辆编队在时刻t+1的状态量，所述状态量包括车间距、车辆位置、车辆速度和车辆加速度，表示在时刻t所述控制器的控制量，表示在时刻t的系统噪声，f表示状态方程；

所述安全控制器对所述车辆编队进行优化，优化函数为：

其中，x _k表示在时刻t车辆k的状态向量，u _k表示车辆k的控制向量，等于所述非线性路径跟踪表达式模型中第k辆车的控制器输入向量，表示参考状态向量，由所述安全控制器利用所述非线性路径跟踪表达式模型通过计算得出，Q和R表示所述安全控制器的权重矩阵。

根据本发明第一方面的方法，在所述步骤S2中：

所述先进控制器的奖励函数为：

其中，s _t表示当前编队状态，由所述非线性路径跟踪表达式模型通过计算得出，a _t表示当前控制动作，s _t+1表示下一个编队状态，表示奖励函数，通过调整所述先进控制器的控制动作，使得所述奖励函数具有最大值。

根据本发明第一方面的方法，在所述步骤S3中：

利用组内平方和表征所述车辆编队的运行指标：

其中，K表示运行指标数据的初始类簇数量，K=N，c _j表示所述车辆编队第i辆车的第j项性能指标，p表示c _j的数据样本点，m _i表示安全标准参考值；

所述车辆编队的运行指标数据为高维数据，高维空间中两个数据点的相似性采用联合概率P _ij进行度量：

其中，表示正态分布中的方差，x _i和x _j表示所述高维空间中两个数据点，n表示所述高维空间中数据点的个数；将所述高维数据映射到低维空间，所述低维空间中对应的所述两个数据点的相似性采用联合概率q _ij进行度量：

其中，y _i和y _j表示所述低维空间中两个数据点；

利用KL距离损失函数表征所述车辆编队的安全等级：

其中，C表示所述车辆编队的安全等级。

根据本发明第一方面的方法，在所述方法中：

所述平滑过渡系数为：

其中，表示所述控制器切换阈值，表示平滑过渡系数的控制参数。

根据本发明第一方面的方法，在所述方法中，将所述车辆编队的控制器从所述安全控制器切换到所述先进控制器的公式为：

其中，表示切换后所述先进控制器的输出，t ₀表示切换前的初始时刻，t表示当前时刻，表示切换前所述安全控制器的输出，表示切换前所述先进控制器的输出。

本发明第二方面提出一种基于编队行驶的控制器智能决策系统。所述系统包括：第一处理单元，被配置为：根据车辆编队中各个车辆的状态参数和车辆行驶约束条件建立车辆编队的非线性路径跟踪表达式模型；第二处理单元，被配置为：基于所述车辆编队的非线性路径跟踪表达式模型配置所述车辆编队的控制器，所述控制器包括安全控制器和先进控制器；第三处理单元，被配置为：根据所述车辆编队的运行指标确定所述车辆编队的安全等级；其中，当所述安全等级超过控制器切换阈值时，计算平滑过渡系数，基于所述平滑过渡系数将所述车辆编队的控制器从所述安全控制器切换到所述先进控制器。

根据本发明第二方面的系统，所述第一处理单元具体被配置为：

基于所述状态参数对单个车辆进行非线性动力学建模：

所述车辆行驶约束条件包括：

第i辆车在t时刻的速度为：

第i辆车在t时刻的加速度为：

速度约束条件为：

加速度约束条件为：

所述车辆编队的非线性路径跟踪表达式模型为：

根据本发明第二方面的系统，所述第二处理单元具体被配置为：

所述车辆编队的状态函数方程为：

所述安全控制器对所述车辆编队进行优化，优化函数为：

所述先进控制器的奖励函数为：

根据本发明第二方面的系统，所述第三处理单元具体被配置为：

利用组内平方和表征所述车辆编队的运行指标：

其中，表示正态分布中的方差，x _i和x _j表示所述高维空间中两个数据点，n表示所述高维空间中数据点的个数；

将所述高维数据映射到低维空间，所述低维空间中对应的所述两个数据点的相似性采用联合概率q _ij进行度量：

其中，y _i和y _j表示所述低维空间中两个数据点；

利用KL距离损失函数表征所述车辆编队的安全等级：

其中，C表示所述车辆编队的安全等级。

根据本发明第二方面的系统，在所述方法中：

所述平滑过渡系数为：

根据本发明第二方面的系统，在所述方法中，将所述车辆编队的控制器从所述安全控制器切换到所述先进控制器的公式为：

本发明第三方面公开了一种电子设备。所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现本公开第一方面所述的一种基于编队行驶的控制器智能决策方法中的步骤。

本发明第四方面公开了一种计算机可读存储介质。所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现本公开第一方面所述的一种基于编队行驶的控制器智能决策方法中的步骤。

综上，本发明通过在线实时监测系统运行状态，精准决策控制器安全等级并实现控制器的平稳切换，同时解决控制器切换过程中系统的瞬态突变问题，发挥不同控制器的最佳效用，在保障车辆编队的行驶安全性前提下提升编队行驶性能，如提升运行速度，减小行车间距，降低燃油消耗。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的基于编队行驶的控制器智能决策方法的流程图。

图2为根据本发明实施例的一种电子设备的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明第一方面提出一种基于编队行驶的控制器智能决策方法。如图1所示，所述方法包括：步骤S1、根据车辆编队中各个车辆的状态参数和车辆行驶约束条件建立车辆编队的非线性路径跟踪表达式模型；步骤S2、基于所述车辆编队的非线性路径跟踪表达式模型配置所述车辆编队的控制器，所述控制器包括安全控制器和先进控制器；步骤S3、根据所述车辆编队的运行指标确定所述车辆编队的安全等级；其中，当所述安全等级超过控制器切换阈值时，计算平滑过渡系数，基于所述平滑过渡系数将所述车辆编队的控制器从所述安全控制器切换到所述先进控制器。

具体地，在开放路段上布设自动驾驶车辆组成的车辆编队，车辆装备先进的感知设备，如鱼眼摄像头，高精度激光雷达，高性能车载计算单元，在行驶过程中实时监测路况环境及行驶状态，智能切换车辆编队控制器。实现过程为：建立编队非线性路径跟踪表达式模型；装配车辆编队控制器，包括安全控制器（MPC控制器）和先进控制器（强化学习控制器）以及相应通信模块和传感器；设定控制器切换阈值，对系统运行状态进行监控和观测，实现控制器安全等级的精准切换；设计在线平稳切换算法，解决控制器切换过程中系统的瞬态突变问题，确保切换过程平稳可控。

根据本发明第一方面的方法，在所述步骤S1中：

基于所述状态参数对单个车辆进行非线性动力学建模：

所述车辆行驶约束条件包括：

第i辆车在t时刻的速度为：

第i辆车在t时刻的加速度为：

速度约束条件为：

加速度约束条件为：

所述车辆编队的非线性路径跟踪表达式模型为：

具体地，建立编队非线性路径跟踪表达式模型。

在车辆编队中，每辆车都需要遵循特定的路径和速度，以便整个编队可以保持协调运行。本发明考虑车辆编队纵向动力学控制问题，不考虑横向换道过程。

在涉及车道上建立参考坐标系，本发明采用一维直线坐标系；令车队行驶方向为x轴正方向；令时刻t，处于编队中的所有车辆均处于系统控制范围内。通过无人驾驶车辆的车载感知设备对相应行驶数据进行特征提取。该过程的数据延迟为纳秒级，在本方法应用中不考虑这一延迟。

对单个车辆进行非线性动力学建模，公式如下：

建立编队安全约束。车辆队列在行驶的过程中，为保证安全，其速度和加速度等运动指标不能超过一定阈值限制，因本发明采用的是空间离散化的思想，速度可以表示为离散空间连续两点的距离除以到达两点时的时刻之差，即第i辆车在t时刻的速度和加速度可分别表示为：

速度约束：

加速度约束：

同时车辆间的车头间隔距离也不应该小于最小安全车头间距。当车辆的速度、加速度和车头间距在约束范围之外，取其上下阈值作为约束。

建立编队跟踪表达式。

其中，e是车辆当前位置与期望路径的误差，是误差的变化率，k ₁、k ₂、k ₃是控制器参数。编队控制器围绕编队非线性路径跟踪表达式模型进行设计。

根据本发明第一方面的方法，在所述步骤S2中：

所述车辆编队的状态函数方程为：

所述安全控制器对所述车辆编队进行优化，优化函数为：

根据本发明第一方面的方法，在所述步骤S2中：

所述先进控制器的奖励函数为：

具体地，装配车辆编队控制器，包括安全控制器（MPC控制器）和先进控制器（强化学习控制器）以及相应通信模块和传感器。

在编队系统中装配基于模型预测的安全控制器，主要负责保障极端路况下的行车安全。该控制器采用MPC算法，根据通信模块和传感器数据，能够预测未来一段时间内的路况和车辆行为，以便进行适时的控制。编队系统的状态函数方程可表示为：

MPC控制器对车辆编队的优化目标为：

装配基于强化学习模型的先进控制器，主要负责提升编队行驶效率。该控制器可以通过不断试错和学习来提高车辆编队的控制效果，能够根据通信模块和传感器自动识别车辆的行驶状态，进行智能控制，使车辆能够高速行驶并保持稳定。本发明中的强化学习控制器奖励函数可以表示为：

根据上述奖励函数调整控制器控制动作，使得奖励函数值最大。

根据本发明第一方面的方法，在所述步骤S3中：

利用组内平方和表征所述车辆编队的运行指标：

其中，y _i和y _j表示所述低维空间中两个数据点；

利用KL距离损失函数表征所述车辆编队的安全等级：

其中，C表示所述车辆编队的安全等级。

根据本发明第一方面的方法，在所述方法中：

所述平滑过渡系数为：

具体地，依据上述控制器及编队非线性路径跟踪表达式设定控制器切换阈值，对编队系统运行状态进行监控和观测，实现控制器安全等级的精准切换。

在系统中引入一个监控系统，实时监测系统运行状态等各项性能指标，以便进行决策。该监控系统包含传感器、通信模块和监测算法，能够获取车辆位置、速度、路面平台系数、行驶阻力和控制器输出等信息，并对这些信息进行处理和分析，得出当前控制器的安全等级。

A、本发明采用组内平方和 (sum of squares for error, SSE) 表示各系统运行指标与其安全标准参考值的误差平方和，反映编队此时的控制安全指标。组内平方和的计算公式为：

K为高维数据的初始类簇数量，反应数据可以聚合成几类，一般以编队车辆总数进行分类。式中c _j为编队第i个簇（辆车）中的第j项性能指标；p表示c _j的数据样本点；m _i表示为c _j的质心，即安全标准参考值；SSE为所有指标的聚类误差，代表了编队系统整理安全指标。

原始数据是高维数据，难以得出标准的安全指，故需要对其先做降维处理。本发明采用T分布式随机相邻嵌入(T-stochastic neighbor embedding, TSNE) 算法将原始高维数据进行降维处理。

其中高维空间中两数据点的相似性采用联合概率P _ij度量：

低维空间中两数据点的相似性采用联合概率q _ij度量：

为使得高维空间点映射到低维空间后，尽可能保持同样分布，本发明采用KL(Kullback-Leibler divergence)距离进行衡量。KL距离损失函数为：

KL距离C即表示本编队系统的安全等级。当控制器的安全等级达到一定阈值时，系统会自动切换到更安全的MPC控制器。

具体地，设计在线平稳切换算法，解决控制器切换过程中系统的瞬态突变问题，确保切换过程平稳可控。该算法采用滑动模式控制理论，通过引入一个切换控制器，降低系统的瞬态响应和抖动。其中，平滑过渡系数计算公式为：

式中，是控制器切换阈值，是平滑过渡系数的控制参数。

具体地，在线平稳切换算法的迭代过程可以用以下流程概况：

设定初始状态下的编队控制器为A，控制器切换阈值为，初始时刻为t ₀，设平滑过渡时间系数为；在每个控制周期内，记录当前状态下控制器A的输出值和控制器B的输出值，以及当前状态下系统的状态值（例如，车速、加速度等）；在每个控制周期结束时，使用KL距离损失函数对当前状态进行评估，并计算此时系统的安全等级C；如果安全等级C超过预设阈值，则将控制器切换到控制器B，并使用平稳过渡算法平滑过渡到控制器B的输出值；否则继续使用控制器A，并记录当前状态下控制器A的输出值；重复执行上述步骤，直至系统运行结束。其中，平稳过渡算法可以采用如下的公式：

其中，表示平滑过渡后的控制器输出值。

基于所述状态参数对单个车辆进行非线性动力学建模：

所述车辆行驶约束条件包括：

第i辆车在t时刻的速度为：

第i辆车在t时刻的加速度为：

速度约束条件为：

加速度约束条件为：

所述车辆编队的非线性路径跟踪表达式模型为：

所述车辆编队的状态函数方程为：

所述安全控制器对所述车辆编队进行优化，优化函数为：

所述先进控制器的奖励函数为：

利用组内平方和表征所述车辆编队的运行指标：

其中，y _i和y _j表示所述低维空间中两个数据点；

利用KL距离损失函数表征所述车辆编队的安全等级：

其中，C表示所述车辆编队的安全等级。

根据本发明第二方面的系统，在所述方法中：

所述平滑过渡系数为：

图2为根据本发明实施例的一种电子设备的结构图，如图2所示，电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、近场通信（NFC）或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本公开的技术方案相关的部分的结构图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明的技术效果在于：

（1）本发明是一种基于编队行驶的控制器智能决策方法，解决了当前自动驾驶尚未普及下的车辆队列全地形路况控制下的性能与安全的矛盾问题。充分利用安全控制器与先进控制器的各自优势，在不影响车辆正常行驶的前提下，精确判断系统运行状态，实现控制器的在线平稳切换，使得无人驾驶车辆编队行驶更加安全、高效。

（2）本发明提供了一种可靠的系统监控方案。通过对车辆编队行驶过程中的系统状态进行实时监测，能够在关键时刻及时采取措施，保障车辆编队行驶的安全性。同时，本发明所提供的系统监控方案还能够对系统状态进行预测和预警，从而更好地防范潜在的风险和安全问题。

（3）本发明提供的在线平稳切换算法，能够有效解决控制器切换过程中系统的瞬态突变问题，使得控制器的切换更加平稳，从而保证了车辆编队行驶的稳定性和安全性。

请注意，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于编队行驶的控制器智能决策方法，其特征在于，所述方法包括：

步骤S1、根据车辆编队中各个车辆的状态参数和车辆行驶约束条件建立车辆编队的非线性路径跟踪表达式模型；

步骤S2、基于所述车辆编队的非线性路径跟踪表达式模型配置所述车辆编队的控制器，所述控制器包括安全控制器和先进控制器；

步骤S3、根据所述车辆编队的运行指标确定所述车辆编队的安全等级；

其中，当所述安全等级超过控制器切换阈值时，计算平滑过渡系数，基于所述平滑过渡系数将所述车辆编队的控制器从所述安全控制器切换到所述先进控制器；

其中，在所述步骤S3中：

利用组内平方和表征所述车辆编队的运行指标：

其中，K表示运行指标数据的初始类簇数量，K＝N，c_j表示所述车辆编队第i辆车的第j项性能指标，p表示c_j的数据样本点，m_i表示安全标准参考值；

所述车辆编队的运行指标数据为高维数据，高维空间中两个数据点的相似性采用联合概率P_ij进行度量：

其中，σ²表示正态分布中的方差，x_i和x_j表示所述高维空间中两个数据点，n表示所述高维空间中数据点的个数；

将所述高维数据映射到低维空间，所述低维空间中对应的所述两个数据点的相似性采用联合概率q_ij进行度量：

其中，y_i和y_j表示所述低维空间中两个数据点；

利用KL距离损失函数表征所述车辆编队的安全等级：

其中，C表示所述车辆编队的安全等级。

2.根据权利要求1所述的一种基于编队行驶的控制器智能决策方法，其特征在于，在所述步骤S1中：

基于所述状态参数对单个车辆进行非线性动力学建模：

其中，m表示车辆质量，v表示车辆速度，表示车辆加速度，F表示车辆受到的外部力，由车辆速度v和控制器的控制量输入u确定，f_drag(v)表示空气阻力，f_friction(v)表示摩擦力；

所述车辆行驶约束条件包括：

第i辆车在t时刻的速度v_i(t)为：

第i辆车在t时刻的加速度为：

其中，P_i表示第i辆车在进行队列运动时所在的空间离散化点，δ表示离散空间中连续两点之间的距离，t_i(j)表示到达离散化点j的时刻，t_i(j+1)表示到达离散化点j+1的时刻，C表示车辆集合，N表示车辆总数；

速度约束条件为：

加速度约束条件为：

其中，v_min表示速度约束下限，v_max表示速度约束上限，a_min表示加速度约束下限，a_max表示加速度约束上限，同时车头间隔距离不小于最小安全车头间距h_s；

所述车辆编队的非线性路径跟踪表达式模型为：

其中，e表示车辆当前位置与期望路径之间的误差，表示所述误差的变化率，k₁、k₂、k₃表示控制器参数。

3.根据权利要求2所述的一种基于编队行驶的控制器智能决策方法，其特征在于，在所述步骤S2中：

所述车辆编队的状态函数方程为：

x_t+1＝f(x_t，u_t，w_t)其中，x_t表示所述车辆编队在时刻t的状态量，x_t+1表示所述车辆编队在时刻t+1的状态量，所述状态量包括车间距、车辆位置、车辆速度和车辆加速度，u_t表示在时刻t所述控制器的控制量，w_t表示在时刻t的系统噪声，f表示状态方程；

所述安全控制器对所述车辆编队进行优化，优化函数为：

其中，x_k表示在时刻t车辆k的状态向量，u_k表示车辆k的控制向量，等于所述非线性路径跟踪表达式模型中第k辆车的控制器输入向量，x_ref，k表示参考状态向量，由所述安全控制器利用所述非线性路径跟踪表达式模型通过计算得出，Q和R表示所述安全控制器的权重矩阵。

4.根据权利要求3所述的一种基于编队行驶的控制器智能决策方法，其特征在于，在所述步骤S2中：

所述先进控制器的奖励函数为：

r_t＝R(s_t，a_t，s_t+1)

其中，s_t表示当前编队状态，由所述非线性路径跟踪表达式模型通过计算得出，a_t表示当前控制动作，s_t+1表示下一个编队状态，R(s_t，a_t，a_t+1)表示奖励函数，通过调整所述先进控制器的控制动作，使得所述奖励函数具有最大值。

5.根据权利要求4所述的一种基于编队行驶的控制器智能决策方法，其特征在于，在所述方法中：

所述平滑过渡系数为：

其中，θ表示所述控制器切换阈值，∈表示平滑过渡系数α的控制参数。

6.根据权利要求5所述的一种基于编队行驶的控制器智能决策方法，其特征在于，在所述方法中，将所述车辆编队的控制器从所述安全控制器切换到所述先进控制器的公式为：

其中，u(t)表示切换后所述先进控制器的输出，t₀表示切换前的初始时刻，t表示当前时刻，u_A(t)表示切换前所述安全控制器的输出，u_B(t)表示切换前所述先进控制器的输出。

7.一种基于编队行驶的控制器智能决策系统，其特征在于，所述系统包括：

第一处理单元，被配置为：根据车辆编队中各个车辆的状态参数和车辆行驶约束条件建立车辆编队的非线性路径跟踪表达式模型；

第二处理单元，被配置为：基于所述车辆编队的非线性路径跟踪表达式模型配置所述车辆编队的控制器，所述控制器包括安全控制器和先进控制器；

第三处理单元，被配置为：根据所述车辆编队的运行指标确定所述车辆编队的安全等级；

其中，所述第三处理单元具体被配置为，利用组内平方和表征所述车辆编队的运行指标：

其中，y_i和y_j表示所述低维空间中两个数据点；

利用KL距离损失函数表征所述车辆编队的安全等级：

其中，C表示所述车辆编队的安全等级。

8.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现权利要求1-6任一项所述的一种基于编队行驶的控制器智能决策方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1-6任一项所述的一种基于编队行驶的控制器智能决策方法。