CN115303290B

CN115303290B - 车辆混合关键级系统的系统关键级切换方法及系统

Info

Publication number: CN115303290B
Application number: CN202211223802.XA
Authority: CN
Inventors: 邹渊; 张旭东; 王天予; 孙逢春
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2022-12-06
Anticipated expiration: 2042-10-09
Also published as: CN115303290A

Abstract

本发明涉及一种车辆混合关键级系统的系统关键级切换方法及系统，属于混合关键级系统技术领域，先根据车辆的驾驶主体确定驾驶主体状态值，对车辆的内部环境数据进行处理，得到车辆内部状态值，对车辆的外部环境数据进行处理，得到车辆外部状态值，然后以驾驶主体状态值、车辆内部状态值和车辆外部状态值作为输入，利用强化学习模型确定待切换的目标系统关键级，最后执行目标系统关键级对应的功能集，使车辆处于目标系统关键级，从而结合多种因素进行系统关键级切换的综合判断，通过强化学习的方法确定系统关键级的最佳切换点，提高车辆的整体安全性和计算资源的利用效率。

Description

车辆混合关键级系统的系统关键级切换方法及系统

技术领域

本发明涉及混合关键级系统技术领域，特别是涉及一种车辆混合关键级系统的系统关键级切换方法及系统。

背景技术

把具有不同关键等级的多个功能集成于同一嵌入式计算平台，以平衡系统中越来越复杂的功能与受限的计算资源、硬件尺寸、功耗以及成本等资源之间的矛盾，是当代嵌入式系统发展的重要趋势，这种系统被称为混合关键级系统。在混合关键级系统的调度中，一方面需要充分考虑功能的关键等级，通过保证具有较高关键等级的功能的及时完成，以满足系统的安全性和可靠性要求，另一方面需要通过对系统资源的有效配置，优化具有低关键等级的功能调度，以提升系统的整体性能。

车辆的混合关键级系统具有多个系统关键级，每一系统关键级对应多个不同的功能，车辆需要按照实际需求处于不同的系统关键级。但目前，车辆的混合关键级系统的系统提升和降落机制存在不足，无法确定系统关键级的最佳切换点。基于此，亟需一种车辆混合关键级系统的系统关键级切换技术。

发明内容

本发明的目的是提供一种车辆混合关键级系统的系统关键级切换方法及系统，通过强化学习的方法确定系统关键级的最佳切换点，提高车辆的整体安全性和计算资源的利用效率。

为实现上述目的，本发明提供了如下方案：

一种车辆混合关键级系统的系统关键级切换方法，所述系统关键级切换方法包括：

根据车辆的驾驶主体确定驾驶主体状态值；

对所述车辆的内部环境数据进行处理，得到车辆内部状态值；所述车辆内部状态值包括电池荷电状态和处理器平均负载；

对所述车辆的外部环境数据进行处理，得到车辆外部状态值；所述车辆外部状态值包括前后方车辆数目、前后方行人数目、道路类型和天气类别；

以所述驾驶主体状态值、所述车辆内部状态值和所述车辆外部状态值作为输入，利用强化学习模型确定待切换的目标系统关键级；

执行所述目标系统关键级对应的功能集，使所述车辆处于所述目标系统关键级。

一种车辆混合关键级系统的系统关键级切换系统，所述系统关键级切换系统包括：

状态确定模块，用于根据车辆的驾驶主体确定驾驶主体状态值；对所述车辆的内部环境数据进行处理，得到车辆内部状态值；所述车辆内部状态值包括电池荷电状态和处理器平均负载；对所述车辆的外部环境数据进行处理，得到车辆外部状态值；所述车辆外部状态值包括前后方车辆数目、前后方行人数目、道路类型和天气类别；

关键级确定模块，用于以所述驾驶主体状态值、所述车辆内部状态值和所述车辆外部状态值作为输入，利用强化学习模型确定待切换的目标系统关键级；

关键级切换模块，用于执行所述目标系统关键级对应的功能集，使所述车辆处于所述目标系统关键级。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明用于提供一种车辆混合关键级系统的系统关键级切换方法及系统，先根据车辆的驾驶主体确定驾驶主体状态值，对车辆的内部环境数据进行处理，得到车辆内部状态值，对车辆的外部环境数据进行处理，得到车辆外部状态值，然后以驾驶主体状态值、车辆内部状态值和车辆外部状态值作为输入，利用强化学习模型确定待切换的目标系统关键级，最后执行目标系统关键级对应的功能集，使车辆处于目标系统关键级，从而结合多种因素进行系统关键级切换的综合判断，通过强化学习的方法确定系统关键级的最佳切换点，提高车辆的整体安全性和计算资源的利用效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1所提供的系统关键级切换方法的方法流程图；

图2为本发明实施例1所提供的系统关键级切换方法的原理框图；

图3为本发明实施例1所提供的Q表训练过程的流程示意图；

图4为本发明实施例2所提供的系统关键级切换系统的系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

本实施例用于提供一种车辆混合关键级系统的系统关键级切换方法，如图1和图2所示，所述系统关键级切换方法包括：

S1：根据车辆的驾驶主体确定驾驶主体状态值；

驾驶主体判断是进行系统关键级切换的首要依据，如自适应巡航、自动泊车等高级别自动驾驶功能应在无人驾驶状态下被赋予更高的执行保障。本实施例通过判断车辆的驾驶主体，得到驾驶主体状态值。具体的，获取车辆的驾驶主体，若车辆的驾驶主体为车辆，即此时车辆处于无人驾驶状态，则驾驶主体状态值drive-state为1；若车辆的驾驶主体为人，即此时车辆处于人工驾驶状态，则驾驶主体状态值drive-state为0。

目前一般是通过选择模式的方式，来令人驾驶车辆或者令车辆处于无人驾驶状态，故本实施例可以通过获取所选择的模式，来确定车辆的驾驶主体。

S2：对所述车辆的内部环境数据进行处理，得到车辆内部状态值；所述车辆内部状态值包括电池荷电状态和处理器平均负载；

本实施例中的车辆的内部环境数据是指安全攸关的属于车辆自身范畴的相关数据，如车辆的各个硬件组件的诊断状态值、车辆的高低压电池的荷电状态、处理器的工作参数等，这些数据反映了车辆本身是否安全和稳定，当车辆处于诊断异常、电量低下或是处理器负荷过高等状态时，应当给予安全相关的功能所对应的任务更多的计算资源预算，即最坏执行时间。本实施例通过处理车辆的内部环境数据，具体将所关注的车辆的内部环境数据进行获取或二次处理，得到安全相关的车辆内部状态值。

具体的，S2可以包括：获取车辆的内部环境数据，内部环境数据包括高压电池的荷电状态、低压电池的荷电状态和各个处理器的工作参数，工作参数包括忙碌时间、闲置时间、平均频率和最大主频。以高压电池的荷电状态和低压电池的荷电状态组成电池荷电状态。以各个处理器的工作参数作为输入，利用平均负载计算公式计算得到处理器平均负载，电池荷电状态和处理器平均负载组成车辆内部状态值。

平均负载计算公式为：

；

其中，

为处理器i在一个公式计算周期内的忙碌时间；

为处理器i在一个公式计算周期内的闲置时间；

为处理器i在该公式计算周期内的平均频率；

为处理器i的最大主频，m为处理器的总个数。

S3：对所述车辆的外部环境数据进行处理，得到车辆外部状态值；所述车辆外部状态值包括前后方车辆数目、前后方行人数目、道路类型和天气类别；

本实施例中的车辆的外部环境数据是指直接影响车辆安全的外部环境数据，即可能会导致车辆发生碰撞、侧翻等安全事故的数据，如前后方车辆数目、前后方行人数目、道路类型、天气类别等，这些数据反映了车辆外部环境是否“恶劣”，在多大程度上影响车辆发生安全事件的可能性。本实施例通过处理车辆的外部环境数据，具体将所关注的车辆的外部环境数据进行获取或二次处理，得到安全相关的车辆外部状态值。

具体的，S3可以包括：获取车辆的外部环境数据，外部环境数据包括安装于车辆上的激光雷达采集的激光雷达点云数据、安装于车辆上的摄像头采集的图像数据以及天气信息。根据激光雷达点云数据和图像数据进行车辆识别，得到前后方车辆数目，可通过双传感器特征级数据融合方法进行车辆识别。对图像数据进行行人识别，得到前后方行人数目，可基于深度学习的行人识别与定位方法进行行人识别。对图像数据进行道路识别，得到道路类型，可通过道路识别算法进行道路识别。根据天气信息确定天气类别。前后方车辆数目、前后方行人数目、道路类型和天气类别组成车辆外部状态值。

需要说明的是，本实施例所用的车辆识别、行人识别和道路识别的方法均可采用现有的任意一种方法，在此不再赘述。

S4：以所述驾驶主体状态值、所述车辆内部状态值和所述车辆外部状态值作为输入，利用强化学习模型确定待切换的目标系统关键级；

以S1、S2和S3所得到的三类状态值（三类状态值即强化学习模型中的状态）作为强化学习模型的输入，通过强化学习模型决定应当切换的目标系统关键级（系统关键级即强化学习模型中的动作），从而进行决策。具体而言，在确定了输入强化学习模型的状态后，根据Q表遍历动作，找到使得Q值最大的动作，将该动作作为决策得到应当切换的目标系统关键级。若系统关键级不变，则继续执行原系统关键级对应的功能集；若系统关键级提升，则仅保障提升后的系统关键级对应的功能集的服务质量；若系统关键级下降，则保障下降后的系统关键级对应的功能集的服务质量。

具体的，S4可以包括：以驾驶主体状态值、车辆内部状态值和车辆外部状态值作为输入，利用强化学习模型中的训练好的Q表确定每一系统关键级所对应的Q值，训练好的Q表包括在不同状态下选择每一系统关键级分别对应的Q值。选取Q值最大的系统关键级作为待切换的目标系统关键级。

本实施例的强化学习模型是车辆在前期研发过程中预先研制的完善成熟的强化学习模型，而非车辆投入使用后所形成的，训练好的Q表则通过预先研制的训练过程得到，具体的，如图3所示，在S4之前，对初始Q表进行迭代训练，得到训练好的Q表可以包括：

（1）定义强化学习模型中的智慧体、状态、动作、奖励值和Q表。

本实施例的智慧体（agent）为当前的系统调度器，即控制系统关键级切换的决策体，决定哪些功能可被保证服务质量。状态（state）和动作（action）的定义如下：t时刻的状态为驾驶主体状态值、安全相关的车辆内部状态值、安全相关的车辆外部状态值的集合，使用矢量s _t来表征这一集合，s _t=[drive-state，in-state ₁，in-state ₂，…，ex-state ₁，ex- state ₂，…]^T，in-state ₁为第一个车辆内部状态值，in-state ₂为第二个车辆内部状态值，ex-state ₁为第一个车辆外部状态值，ex-state ₂为第二个车辆外部状态值。t时刻的动作a _t代表切换关键级的行为，a _t

，当a _t

时，意味着决策将系统关键级切换至第k个系统关键级

。

定义在状态s _t下选择动作a _t的奖励值（reward）为R（s _t，a _t），动作引发系统关键级切换后，若没有功能错失其截止期限要求，则R（s _t，a _t）为正数，代表奖励；若有功能错失其截止期限要求，则R（s _t，a _t）为负数，代表惩罚。Q表为一张二维表，横坐标为状态，纵坐标为动作，Q表存储的内容是在状态s _t下选择动作a _t的Q值，即Q（s _t，a _t），运用Q学习训练时，最终目的就是要得到一张收敛的Q表（也即训练好的Q表），使智能体到达某个状态时，能根据训练好的Q表选择对自己最有利的动作。

Q表的更新公式如下：

其中，Q（s _t，a _t）表示t时刻在状态s _t下选择动作a _t的Q值；α是学习效率，其值位于0-1之间；γ是折扣因子，其值位于0-1之间，表示下一时刻最大Q值对当前时刻的影响，取值越高，说明未来时刻对当前时刻的影响越大；Q（s _t+1，a _t+1）表示t+1时刻在状态s _t+1下选择动作a _t+1的Q值；maxQ（s _t+1，a _t+1）表示t+1时刻智能体能取得的最大Q值。

（2）确定训练场景，并初始化Q表和状态。

训练场景可以为纯软件模拟仿真环境，也可以为基于样车实测的真实场景，在确定训练场景后，对Q表进行初始化操作，得到初始Q表，初始Q表内的初始值可取随机数，也可均置为0。状态的初值取决于训练环境，在训练环境和训练开始时间确定后，初始状态即确定下来。

（3）迭代训练，更新Q表。

从初始时间开始，系统调度器不断根据Q表做出动作。具体而言，在t时刻时，由于状态s _t可以得到，于是根据Q表，遍历动作，选择使得Q值最大的动作a _t，将其作为决策，即本轮决定切换的目标系统关键级，动作做出后，可根据反馈得到奖励值R（s _t，a _t）。t时刻的流程结束后，进行到t+1时刻，可得状态s _t+1，于是可根据Q表更新公式，得到

，此时完成Q表的第t次迭代。

更为具体的，一次迭代过程可以包括：获取样本状态，样本状态包括驾驶主体状态值样本、车辆内部状态值样本和车辆外部状态值样本，第一次迭代的样本状态为（2）中确定的初始状态，后续迭代的样本状态即为训练场景下所采集的车辆状态。以样本状态作为输入，利用初始Q表选择待切换的目标系统关键级样本，即选择Q值最大的系统关键级作为目标系统关键级样本。执行目标系统关键级样本对应的功能集样本，根据车辆反馈得到奖励值，若车辆反馈为功能集样本中的每一功能样本均未错失截止期限，则奖励值为第一预设值；若车辆反馈为功能集样本中的任一功能样本错失截止期限，则奖励值为第二预设值，第一预设值为正数，第二预设值为负数。根据奖励值对初始Q表进行更新，得到更新后Q表，即采用（1）中的Q表更新公式对Q表进行更新。

（4）Q表收敛，完成训练。

当Q表数据连续1000次的变化均小于可接受阈值，说明Q表已经收敛，停止训练。此时最优策略已经生成，车辆在每一个状态下，都可通过选择使Q值能取得最大值的动作来完成决策。

具体的，迭代过程可以包括：判断是否达到迭代停止条件，迭代停止条件包括：更新后Q表相对于初始Q表的变化连续N次小于预设阈值。若是，则以更新后Q表作为训练好的Q表；若否，则以更新后Q表作为下一迭代的初始Q表，返回“获取样本状态”的步骤。

S5：执行所述目标系统关键级对应的功能集，使所述车辆处于所述目标系统关键级。

在确定目标系统关键级后，本实施例会执行该目标系统关键级对应的功能集，并返回S1继续下一轮决策。本实施例会预先定义允许执行的功能集与系统关键级的映射关系，系统关键级发生改变后，仅保障切换后的系统关键级对应的功能集中的功能的服务质量，至此本轮决策结束，并开始下一轮决策。

本实施例预先定义允许执行的功能集与系统关键级的映射关系的步骤可以包括：

（1）自动驾驶车辆混合关键级系统中功能集和功能模型的建立；

本实施例的功能集包括多个功能，每一功能均对应一功能模型，功能模型包括功能的释放周期、功能的相对截止时间、功能在不同系统关键级下的执行时间预算和功能的功能关键级。

功能集可表示为：

；

其中，n表示车辆系统中功能的个数；F _i代表一项独立的功能。本实施例中的单个功能指的是车辆完成某一实际用途的任务。

每一功能对应一功能模型，对于单个的功能模型，使用一个元组（tuple）进行描述。功能模型可表示为：

；

其中，T _i代表功能F _i的释放周期，即从开始释放功能F _i后，每经过T _i进行下一次功能F _i的释放；D _i代表功能F _i的相对截止时间，假设功能F _i于时间t ₁释放，则功能F _i需要在时间[t ₁，t ₁+D _i]内完成执行；

为一个矢量，代表功能F _i在不同系统关键级下的执行时间预算；

代表功能F _i自身的功能关键级，功能关键级和其对安全的影响直接相关，越安全攸关的功能则其功能关键级越高，且

。

（2）定义允许执行的功能集与系统关键级的映射关系；

自动驾驶车辆混合关键级系统的系统关键级模型的表示如下：

；

其中，S代表当前系统的系统关键级（system criticality），系统关键级代表当前系统的操作模式，在低的系统关键级下，在功能的调度上倾向于保证所有功能的实现，以提供更好的车辆整体表现；在高的系统关键级下，在功能的调度上则倾向于保证高关键级功能（更加安全攸关的功能）的实现，以保证车辆的安全性。对于

，有

。

不同系统关键级的级别不同，系统关键级的级别越高，系统关键级所对应的功能集所包括的功能的个数越少。定义允许执行的功能集

与系统关键级

的映射关系，即当系统关键级为

时，车辆只保障其对应的功能集E_k中包含的功能的服务质量。

各个系统关键级对应的允许执行的功能集均包含有不同数量的功能，

，

。具体的在何种系统关键级下选取哪些功能可以根据实际需求而定。

本实施例预先定义了每个系统关键级所对应的允许执行的功能集，当决策动作产生后，会将系统关键级调整，这时仅保证调整后的系统关键级所对应的允许执行的功能集所包含的各个功能的服务质量。

本实施例针对现有混合关键级系统中系统提升和降落机制的不足，提供一种面向L4级别自动驾驶汽车的系统关键级切换方法，针对自动驾驶车辆的真实使用场合，结合车辆内部和外部的各种影响因素进行关键级切换的综合判断，通过强化学习的方法得到车辆系统关键级切换的最佳点，以提高车辆的整体安全性和计算资源的利用效率。本实施例的方法实质上是一种关键级提升/回落机制，在更高的系统关键级下保障和安全攸关的功能的服务质量，在较低的系统关键级下尽量保障所有功能的服务质量。

以下给出一具体示例来对本实施例的系统关键级切换方法进行进一步的介绍：

（1）自动驾驶车辆混合关键级系统中功能模型的建立；

（1.1）自动驾驶车辆混合关键级系统的功能集的建立：

；

该示例中，自动驾驶车辆混合关键级系统的功能集共包括9个功能，F代表所有功能的全集合，F _i（i=1，2，...，9）代表单个独立的功能，F ₁代表加速控制任务，F ₂代表制动控制任务，F ₃代表转向控制任务，F ₄代表激光雷达感知任务，F ₅代表毫米波雷达感知任务，F ₆代表摄像头感知任务，F ₇代表自动驾驶决策任务，F ₈代表V2X任务，F ₉代表车载娱乐任务。

（1.2）自动驾驶车辆混合关键级系统的功能模型的建立：

；

对于单个的功能模型F _i，使用一个元组（tuple）进行描述。该元组中，T _i代表功能F _i的释放周期，即从开始释放功能F _i后，每经过T _i进行下一次功能F _i的释放；D _i代表功能F _i的相对截止时间，假设功能F _i于时间t ₁释放，则在此释放的示例中，功能F _i需要在时间[t ₁，t ₁+D _i]内完成执行；

代表功能F _i自身的功能关键级，功能关键级和其对安全的影响直接相关，越安全攸关的功能则其功能的关键级越高，且

。

此处所定义的功能模型用于（2），在（2）中定义了各个系统关键级下对应的允许执行的功能集，每个功能集均包含有不同数量的功能，每一功能均对应一个功能模型。

（2）定义允许执行的功能集与系统关键级的映射关系；

（2.1）自动驾驶车辆混合关键级系统的系统关键级模型的建立：

；

S代表当前系统的系统关键级（system criticality），系统关键级代表当前系统的操作模式，在低的系统关键级下，在功能的调度上倾向于保证所有功能的实现，以提供更好的车辆整体表现；在高的系统关键级下，在功能的调度上则倾向于保证高关键级功能（更加安全攸关的功能）的实现。对于

，有

，即本示例中有三个系统关键级，

表示当前系统处于低关键级，

表示当前系统处于中关键级，

表示当前系统处于高关键级。

（2.2）定义允许执行的功能集与系统关键级的映射关系：

定义允许执行的功能集E₁，E₂，E₃与系统关键级

的映射关系，即当系统关键级为

时，车辆只保障该系统关键级对应的功能集E_k中包含的功能的服务质量。

，

。

作为具体实施方式，可设置各个功能集如下：

；

；

；

在此定义了每个系统关键级所对应的允许执行的功能集，当决策动作产生后，会将系统关键级调整，这时仅保证调整后的系统关键级所对应的允许执行的功能集所包含的各个功能的服务质量。如：若经过决策，系统关键级切换至

，则仅保障最高关键级的功能F ₁，F ₂，F ₃，F ₄，F ₅，F ₆，F ₇的服务质量。

（3）判断车辆的驾驶主体，得到驾驶主体状态值；

驾驶主体判断是进行系统关键级切换的首要依据，如自适应巡航、自动泊车等高级别自动驾驶功能应在无人驾驶状态下被赋予更高的执行保障。通过判断车辆的驾驶主体，得到驾驶主体状态值drive-state，当驾驶主体为车辆本身，即无人驾驶，则驾驶主体状态值drive-state为1；当驾驶主体为人，则驾驶主体状态值drive-state为0。

（4）处理车辆的内部环境数据，得到安全相关的车辆内部状态值；

车辆的内部环境数据指安全攸关的属于车辆自身范畴的相关数据，如车辆的各个硬件组件的诊断状态值、车辆的高低压电池的荷电状态、处理器的工作参数等，这些数据反映了车辆本身是否安全和稳定，当车辆处于诊断异常、电量低下或是处理器负荷过高等状态时，应当给予安全相关的功能的任务更多的计算资源预算，即最坏执行时间。该步骤的操作为，将所关注的车辆的内部环境数据进行获取或二次处理，得到安全相关的车辆内部状态值集in-state。在本示例中选取车辆低压电池的荷电状态和车内处理器的平均负载作为所关注的车辆内部状态值。

（4.1）获取车辆低压电池的荷电状态，得到内部状态值1：

从车辆低压电池的电池管理系统（Battery Management System）读取低压电池的荷电状态（State of Charge），将其作为内部状态值1。

；

（4.2）获取车内处理器的平均负载，得到内部状态值2：

设车内共有m个处理器，其集合可表达为

，车内处理器的平均负载

可表达为如下：

；

上式中，

为处理器i在一个公式计算周期内的忙碌时间，

为处理器i在一个公式计算周期内的闲置时间，

为处理器i在该公式计算周期内的平均频率，

为处理器i的最大主频。将计算得到的处理器的平均负载

作为内部状态值2。

。

（5）处理车辆的外部环境数据，得到安全相关的车辆外部状态值；

车辆的外部环境数据是指直接影响车辆安全的外部环境数据，即可能会导致车辆发生碰撞、侧翻等安全事故的数据，如前后方车辆数目、前后方行人数目、道路类型、天气类别等，这些数据反映了车辆外部环境是否“恶劣”，在多大程度上影响车辆发生安全事件的可能性。该步骤的操作为，将所关注的车辆外部环境数据进行获取或二次处理，得到安全相关的车辆外部状态值集ex-state。本示例选取前后方车辆数目、前后方行人数目、道路类型、天气类别作为所关注的外部状态值。

（5.1）获取车辆前后方车辆数目，得到外部状态值1：

收集激光雷达的激光雷达点云数据和摄像头获取的图像数据，通过双传感器特征级数据融合方法进行车辆识别，从而得到车辆数目，并将其作为外部状态值1。

。

（5.2）获取车辆潜在行驶轨迹内的行人数目，得到外部状态值2：

收集摄像头获取的图像数据，通过基于深度学习的行人识别与定位，得到潜在行驶轨迹内的行人数目，并将其作为外部状态值2。

。

（5.3）获取道路类型，得到外部状态值3：

收集摄像头获取的图像数据，通过道路识别算法，得到道路类型，并将其作为外部状态值3。

。

（5.4）获取天气类别，得到外部状态值4：

根据车辆收到的网络天气相关信息，得到此时车辆所在区域的天气类别，并将其作为外部状态值4。

。

（6）根据得到的三类状态值，通过预先研制的成熟的强化学习模型决定应当切换的系统关键级，从而进行决策；

（6.1）根据（3）、（4）和（5）得到的三类状态值，将其作为强化学习模型的输入，即强化学习模型中的状态，通过强化学习模型决定应当切换的系统关键级，即强化学习模型中的动作，从而进行决策。

具体而言，即在确定了输入强化学习模型的状态后，根据Q表（Q表通过预先研制的训练过程得到）遍历动作，找到使得Q值最大的动作，将该动作作为决策，该动作即为应当切换的系统关键级。若系统关键级不变，则维持原系统关键级中对应的功能集；若系统关键级提升，则仅保障提升后的系统关键级下的功能集的服务质量；若系统关键级下降，则保障下降后的系统关键级下的所有功能集的服务质量。

值得指出的是，该步骤所用到的强化学习模型应当是车辆在前期研发过程中预先研制完善成熟的，而非车辆投入使用后所形成的。

（6.2）定义强化学习模型中的智慧体、状态、动作、奖励值和Q表。

智慧体（agent）为当前的系统调度器，即系统关键级的切换的决策体，决定哪些功能可被保证服务质量。状态（state）和动作（action）的定义如下。t时刻时的状态为驾驶主体状态值、安全相关的车辆内部状态值、安全相关的车辆外部状态值的集合，使用矢量s _t来表征这一集合，s _t

，动作a _t代表切换关键级的行为，a _t

。如当a _t

时，意味着决策为切换系统关键级至

。

奖励值和Q表的定义如S4所述，在此不再赘述。

（6.3）确定训练场景，并初始化Q表和状态。

（6.4）迭代训练，更新Q表。

（6.5）Q表收敛，完成训练。

上述训练过程与S4指出的训练过程相同，在此不再赘述。

（7）执行该系统关键级对应的功能集，并转到（3）继续下一轮决策。

根据（6）得到的动作，决定系统应当切换至的系统关键级。（2）定义了允许执行的功能集与系统关键级的映射关系，系统关键级发生改变后，仅保障切换后的系统关键级对应的功能集中的功能的服务质量。至此本轮决策结束，并转至（3）开始下一轮决策。

实施例2：

本实施例用于提供一种车辆混合关键级系统的系统关键级切换系统，如图4所示，所述系统关键级切换系统包括：

状态确定模块M1，用于根据车辆的驾驶主体确定驾驶主体状态值；对所述车辆的内部环境数据进行处理，得到车辆内部状态值；所述车辆内部状态值包括电池荷电状态和处理器平均负载；对所述车辆的外部环境数据进行处理，得到车辆外部状态值；所述车辆外部状态值包括前后方车辆数目、前后方行人数目、道路类型和天气类别；

关键级确定模块M2，用于以所述驾驶主体状态值、所述车辆内部状态值和所述车辆外部状态值作为输入，利用强化学习模型确定待切换的目标系统关键级；

关键级切换模块M3，用于执行所述目标系统关键级对应的功能集，使所述车辆处于所述目标系统关键级。

本说明书中每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种车辆混合关键级系统的系统关键级切换方法，其特征在于，所述系统关键级切换方法包括：

根据车辆的驾驶主体确定驾驶主体状态值；

2.根据权利要求1所述的车辆混合关键级系统的系统关键级切换方法，其特征在于，所述根据车辆的驾驶主体确定驾驶主体状态值具体包括：

获取车辆的驾驶主体；

若所述车辆的驾驶主体为车辆，则驾驶主体状态值为1；

若所述车辆的驾驶主体为人，则所述驾驶主体状态值为0。

3.根据权利要求1所述的车辆混合关键级系统的系统关键级切换方法，其特征在于，所述对所述车辆的内部环境数据进行处理，得到车辆内部状态值具体包括：

获取所述车辆的内部环境数据；所述内部环境数据包括高压电池的荷电状态、低压电池的荷电状态和各个处理器的工作参数；所述工作参数包括忙碌时间、闲置时间、平均频率和最大主频；

以所述高压电池的荷电状态和所述低压电池的荷电状态组成电池荷电状态；

以所述各个处理器的工作参数作为输入，利用平均负载计算公式计算得到处理器平均负载；所述电池荷电状态和所述处理器平均负载组成车辆内部状态值。

4.根据权利要求1所述的车辆混合关键级系统的系统关键级切换方法，其特征在于，所述对所述车辆的外部环境数据进行处理，得到车辆外部状态值具体包括：

获取所述车辆的外部环境数据；所述外部环境数据包括安装于所述车辆上的激光雷达采集的激光雷达点云数据、安装于所述车辆上的摄像头采集的图像数据以及天气信息；

根据所述激光雷达点云数据和所述图像数据进行车辆识别，得到前后方车辆数目；

对所述图像数据进行行人识别，得到前后方行人数目；

对所述图像数据进行道路识别，得到道路类型；

根据所述天气信息确定天气类别；所述前后方车辆数目、所述前后方行人数目、所述道路类型和所述天气类别组成车辆外部状态值。

5.根据权利要求1所述的车辆混合关键级系统的系统关键级切换方法，其特征在于，所述以所述驾驶主体状态值、所述车辆内部状态值和所述车辆外部状态值作为输入，利用强化学习模型确定待切换的目标系统关键级具体包括：

以所述驾驶主体状态值、所述车辆内部状态值和所述车辆外部状态值作为输入，利用强化学习模型中的训练好的Q表确定每一系统关键级所对应的Q值；所述训练好的Q表包括在不同状态下选择每一系统关键级分别对应的Q值；

选取所述Q值最大的系统关键级作为待切换的目标系统关键级。

6.根据权利要求5所述的车辆混合关键级系统的系统关键级切换方法，其特征在于，在以所述驾驶主体状态值、所述车辆内部状态值和所述车辆外部状态值作为输入，利用强化学习模型确定待切换的目标系统关键级之前，所述系统关键级切换方法还包括：对初始Q表进行迭代训练，得到训练好的Q表；

对Q表进行初始化，得到初始Q表；

获取样本状态；所述样本状态包括驾驶主体状态值样本、车辆内部状态值样本和车辆外部状态值样本；

以所述样本状态作为输入，利用初始Q表选择待切换的目标系统关键级样本；

执行所述目标系统关键级样本对应的功能集样本，根据车辆反馈得到奖励值；若所述车辆反馈为所述功能集样本中的每一功能样本均未错失截止期限，则所述奖励值为第一预设值；若所述车辆反馈为所述功能集样本中的任一功能样本错失截止期限，则所述奖励值为第二预设值；所述第一预设值为正数；所述第二预设值为负数；

根据所述奖励值对所述初始Q表进行更新，得到更新后Q表；

判断是否达到迭代停止条件；

若是，则以所述更新后Q表作为训练好的Q表；

若否，则以所述更新后Q表作为下一迭代的初始Q表，返回“获取样本状态”的步骤。

7.根据权利要求6所述的车辆混合关键级系统的系统关键级切换方法，其特征在于，所述迭代停止条件包括：所述更新后Q表相对于所述初始Q表的变化连续N次小于预设阈值。

8.根据权利要求1所述的车辆混合关键级系统的系统关键级切换方法，其特征在于，所述功能集包括多个功能；每一所述功能均对应一功能模型；所述功能模型包括所述功能的释放周期、所述功能的相对截止时间、所述功能在不同系统关键级下的执行时间预算和所述功能的功能关键级。

9.根据权利要求1所述的车辆混合关键级系统的系统关键级切换方法，其特征在于，不同系统关键级的级别不同；所述系统关键级的级别越高，所述系统关键级所对应的功能集所包括的功能的个数越少。

10.一种车辆混合关键级系统的系统关键级切换系统，其特征在于，所述系统关键级切换系统包括：