CN116500896B

CN116500896B - 智能网联汽车域控制器多虚拟cpu任务智能实时调度模型和方法

Info

Publication number: CN116500896B
Application number: CN202310485375.0A
Authority: CN
Inventors: 杨波; 沈行; 王时龙; 刘宗成; 胡佳
Original assignee: Chongqing University; Seres Group Co Ltd; Chongqing Seres New Energy Automobile Design Institute Co Ltd
Current assignee: Chongqing University; Seres Group Co Ltd; Chongqing Seres New Energy Automobile Design Institute Co Ltd
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2024-03-15
Anticipated expiration: 2043-04-28
Also published as: CN116500896A

Abstract

本发明公开了一种智能网联汽车域控制器多虚拟CPU任务智能实时调度模型和方法，包括如下步骤：步骤一：构建智能网联汽车域控制器多虚拟CPU任务智能实时调度模型并将其部署到整车域控制器中；步骤二：域控制器多虚拟CPU任务智能实时调度，包括任务调度屏蔽优化、任务划分和预排序、输入状态信息至模型以输出调度动作信息和虚拟CPU根据调度动作信息选择任务执行，调度屏蔽优化使汽车在低耗能模式下避免处理行驶无关任务浪费电量和虚拟CPU占用、任务划分和预排序对独立任务不处理，对可分任务进行划分，对存在依赖关系任务重新赋予优先级值，从而实现细粒度更高的调度。

Description

智能网联汽车域控制器多虚拟CPU任务智能实时调度模型和方法

技术领域

本发明属于虚拟环境下计算机系统任务实时调度技术领域，尤其涉及一种智能网联汽车域控制器多虚拟CPU任务智能实时调度模型和方法。

背景技术

智能网联汽车为实现更强大的智能化水平和更高效的网联化目标，不得不提高硬件电子化程度、加大软件占有规模；而集中域控制器因其能够整合功能相似或位置相近的电控单元至性能较强的处理器硬件平台上，能够有效简化电子电气架构、提高整车运行稳定性和降低装配维护成本。因为不同功能所属操作系统之间存在异构性，域控制器需借助虚拟化技术构建不同操作系统同时良好运行的虚拟环境，将多个虚拟机挂载于同一域控制器平台上，由虚拟机管理层为各个虚拟机分配VCPU，从而执行上层任务。

智能网联汽车在运行过程中会产生大致独立型、可分型和依赖型三种任务。独立型任务不可分，在执行时不依赖其他任务的完成，也不支撑其他任务的启动。可分型任务因为可分成至少两个及以上子任务，这些子任务又可以划分至上述三种任务类型，也即子任务也可能还具备可分特性，子任务之间可能具备执行上的依赖关系。依赖型任务往往用有向无环图形象表示，需依赖另一任务的完成才能启动或支撑另一任务的执行，存在明显的先后、层级关系。

由于虚拟机上存在大量应用和任务程序进程在不断运转，首先现存域控制器虚拟化任务调度较为固定，整车设计完成后调度方案便永恒建立，并非动态任务调度方案，难以在现实环境中调整至与道路行驶环境、整车电量等实时变化状态相适应；其次，不灵活的任务调度规则导致虚拟机VCPU分配存在浪费，车载处理器核心未被有效利用，域控制器集成度难以提高，不利于智能网联汽车的研发制造和成本控制。再者，由于调度方案中并未考虑任务的可分性，无法对任务进行微细粒度的调度控制；未考虑任务依赖关系，则导致任务挂在后台消耗内存、增多切换上下文次数延长执行时间。

现有技术针对多虚拟CPU任务智能实时调度方法的研究主要针对大数据、云计算等集群资源服务管理系统，在设计调度方案时侧重于满足用户服务协议、提高负载均衡度、降低运营成本。而域控制器虚拟环境下任务调度设计中需要降低安全风险、提高实时性能、加长行驶里程，两者设计要求几乎不同，无法直接将前者的调度算法迁移到应用到车载虚拟化任务调度场景中来。

发明内容

有鉴于此，本发明的目的在于提供一种智能网联汽车域控制器多虚拟CPU任务智能实时调度模型和方法，能够有效降低安全风险、提高实时性能并加长行驶里程。

为达到上述目的，本发明提供如下技术方案：

本发明首先提出了一种智能网联汽车域控制器多虚拟CPU任务智能实时调度模型，其构建方法包括如下步骤：

11)将域控制器多虚拟CPU任务实时调度过程看做一个马尔科夫决策过程，构建得到马尔科夫决策模型(S，A，π，R，γ)，其中，S表示虚拟CPU和任务队列的状态空间；A表示在虚拟CPU和任务队列之间进行匹配调度的动作空间；π表示调度策略；R表示奖励函数；γ∈(0，1)表示奖励折扣率；

12)定义状态空间S、动作空间A、奖励函数R和调度策略π：

状态空间S定义为：

S＝{S_VCPU+S_TASK}

其中，S_VCPU表示虚拟CPU的状态矩阵，其参数包括由物理CPU映射出的虚拟CPU数量n，一个虚拟CPU在可以预见的l个调度周期内的m个运行状况；S_TASK表示任务队列的状态矩阵，其参数包括任务队列中最大缓存任务数目i，一个任务在可以预见的l个调度周期内的j个任务属性参数；

动作空间A定义为：

{Tid1，Tid2，Tid3，...，Tidn}

其中，Tidk(k＝1,2，...，n)表示第k个位置的虚拟机所分配任务标识号；

奖励函数R定义为：

R_t＝e^degrees×num

其中，num表示一个调度周期内完成实时任务数量；degrees表示任务重要程度级数；×表示乘积符号；t表示时间步；R_t表示第t时间步获得的奖励；

调度策略π定义为：在状态S_t下做出何种动作A_t以使累计奖励最大的策略；

优化调度策略π(A_k|S_k)用于使动作价值函数Q^π(S_t，A_t)最小，且动作价值函数Q^π(S_t，A_t)等于在状态S_t的情况下做出动作A_t的累计折扣奖励期望值，表示为：

Q^π(S_t，A_t)＝E_π{R_t+γQ^π(S_t+1，A_t+1)}

其中，E_π表示在调度策略π下得到的累计折扣奖励期望值；

13)训练深度Q网络拟合价值函数Q(S，A)。

进一步，所述步骤13)中，深度Q网络的训练步骤为：

131)随机初始化Q网络的权重参数，按照ε-贪婪策略选择调度动作与由任务队列和虚拟CPU队列组成的环境进行交互，并产生格式为(S_t，A_t，R_t，S_t+1)的数据，并将格式为(S_t，A_t，R_t，S_t+1)的数据输送至经验回溯单元；

132)判断经验回溯单元内收集的数据是否达到设定数量：若是，则执行步骤133)；若否，则执行步骤131)；

133)从经验回溯单元中随机Batch采样几组格式为(S_t，A_t，R_t，S_t+1)的数据至Q网络和目标网络；

134)Q网络利用状态-动作对数据(S_t，A_t)预判出对应的Q值；目标网络利用状态S_t+1数据计算各种动作中对应的最大Q值；

135)参数更新：

利用损失函数L反向计算出深度Q网络中各个参数θ的损失函数梯度，以更新Q网络各节点权重参数；

判断目标网络上一次参数更新后的随机Batch采样次数是否等于预设的次数H：若是，则更新目标网络的参数；若否，则不更新目标网络的参数；

136)判断迭代次数是否达到设定的最大迭代次数：若是，则深度Q网络训练完成；若否，则循环执行步骤133)。

进一步，所述步骤135中，以即时差分学习更新深度Q网络逼近器的参数，原理为：

其中，α表示学习率。

进一步，以Q(S，A，θ)表示深度神经网络拟合的动作价值函数，则损失函数L定义为：

其中，θ_i表示深度Q网络中的第i个参数；表示在状态S_t时做出动作A_t后从域控制器中提取到奖励R_t以及处于状态S_t+1时做出最高Q值动作时的累计折扣奖励期望值；y_i表示目标价值，且：

其中，表示从域控制器中提取到奖励R_t以及处于状态S_t+1时做出最高Q值动作时的累计折扣奖励期望值。

本发明还提出了一种智能网联汽车域控制器多虚拟CPU任务智能实时调度方法，包括如下步骤：

步骤一：将如上所述的智能网联汽车域控制器多虚拟CPU任务智能实时调度模型部署到整车域控制器中；

步骤二：域控制器多虚拟CPU任务智能实时调度

21)判断智能网联汽车的电量是否低于设定的警戒阈值：若是，则采用低耗能决策模式，执行步骤22)；若否，则执行步骤23)；

22)：任务调度屏蔽和优化

对于计算规模庞大、数据吞吐量占用高、无实时性要求且对安全驾驶无贡献的任务，采用屏蔽调度策略，将相应的任务信息从任务状态矩阵中删除，确保在调度时不会匹配至任何虚拟CPU；

23)：任务划分和预排序

利用指令静态分析和执行过程动态分析将任务分类为独立型、可分型和依赖型中的一种；对于独立任务，直接将任务属性信息原封不动地返回；对于可分任务，将其分成不可再分的子任务；对于存在依赖关系的任务之间，上层任务相比下层任务赋予更大的优先级值，同级并且为下层同一任务所依赖的任务赋予相同的任务优先级值。

24)将虚拟CPU和待调度任务的状态参数信息传入所述智能网联汽车域控制器多虚拟CPU任务智能实时调度模型；

25)虚拟CPU依据调度动作信息从任务队列中选择任务执行或运算；

26)循环执行步骤21)。

进一步，所述步骤23)中，将任务优先级值划分成两个范围，其中一个范围内的任务是实时任务，另一个范围内的任务是普通任务。

进一步，所述步骤24)中，将任务状态矩阵S_TASK和虚拟CPU状态矩阵S_VCPU输入深度Q网络，生成调度动作矢量{Tid1,Tid2,Tid3,...,Tidn}。

进一步，所述步骤25)中，虚拟CPU根据调度动作矢量从任务队列中选择任务执行或运算。

本发明的有益效果在于：

本发明的智能网联汽车域控制器多虚拟CPU任务智能实时调度方法，通过深度强化学习技术动态地根据虚拟CPU和任务队列状态灵活调整调度策略，降低了虚拟CPU在分配上的浪费；通过设置任务屏蔽和优化步骤来减少输入智能调度模型的状态矩阵信息，以及设置任务划分和预排序步骤来更细粒度地控制，从而进一步优化调度效果，提高域控制器多虚拟CPU任务调度实时性。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明智能网联汽车域控制器多虚拟CPU任务智能实时调度方法的流程图；

图2为状态空间S的结构转化示意图；

图3为深度Q网络的训练原理图；

图4为任务划分的原理图；

图5为任务排序的原理图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好的理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

如图1所示，本发明的智能网联汽车域控制器多虚拟CPU任务智能实时调度方法，包括如下步骤：

步骤一：将智能网联汽车域控制器多虚拟CPU任务智能实时调度模型部署到整车域控制器中。

具体的，本实施例的智能网联汽车域控制器多虚拟CPU任务智能实时调度模型，其构建方法包括如下步骤：

11)将域控制器多虚拟CPU任务实时调度过程看做一个马尔科夫决策过程，任务调度智能体在每一个周期t的起始阶段对任务、虚拟CPU的状态参数S_t进行分析和收集，接着根据学习到的调度策略π采取动作A_t，也即将队列中的任务一对一(串行任务)或一对多(并行任务)匹配至虚拟CPU。经过一段时间的执行，任务、虚拟CPU的状态参数更新为S_t+1，并向任务调度智能体返回奖励值R_t。如此，构建得到的域控制器多虚拟CPU任务实时调度的马尔科夫决策模型表示为(S,A,π,R,γ)，其中，S表示虚拟CPU的和任务队列状态空间；A表示在虚拟CPU和任务队列之间进行匹配调度的动作空间；π表示调度策略；R表示奖励函数；γ∈(0,1)表示奖励折扣率，反映任务调度智能体预见未来的能力，越大获得的长期奖励就越多。

12)定义状态空间S、动作空间A、奖励函数R和调度策略π。

(1)状态空间S包括两部分，由虚拟CPU和任务队列的状态组成。具体的，本实施例的状态空间S定义为：

S＝{S_VCPU+S_TASK}

其中，S_VCPU表示虚拟CPU的状态矩阵，其参数包括由物理CPU映射出的虚拟CPU数量n，一个虚拟CPU在可以预见的l个调度周期内的m个运行状况。具体的，如图2所示，虚拟CPU的状态矩阵S_VCPU是三维的，长度n表示域控制器中由物理CPU映射出的虚拟CPU数量，也即任务队列中实际能同时运行的任务数量；沿宽度方向遍历得到一面矩阵元素，表示一个虚拟CPU在可以预见的l个调度周期内的m个运行状况。所述m个运行状况包括但不限于上一个调度周期执行任务的标识号、对应任务实际占用的核心数量、虚拟CPU指令平均执行速度。如果上一个调度周期虚拟CPU未执行任何任务，任务标识号对应的矩阵元素赋值0。

S_TASK表示任务队列的状态矩阵，其参数包括任务队列中最大缓存任务数目i，一个任务在可以预见的l个调度周期内的j个任务属性参数。具体的，如图2所示，任务队列的状态矩阵S_TASK是三维的，长度i表示任务队列中最大缓存任务数目；沿宽度方向遍历得到一面矩阵元素，表示一个任务在可以预见的l个调度周期内的j个任务属性参数。所述j个任务属性参数包括但不限于任务标识号、上一周期任务优先级值、任务实时属性标识(实时任务标为1，普通任务标为0)、任务重要程度级数、任务执行指令总数量、任务待执行指令数量和任务请求占用核心数量。

(2)动作空间A为一个向量，相当于将任务队列中的x(x≤n)个任务调度给虚拟CPU。具体的，本实施例的动作空间A定义为：

{Tid1，Tid2，Tid3，...，Tidn}

其中，Tidk(k＝1,2，...，n)表示第k个位置的虚拟机所分配任务标识号。

(3)根据不同侧重点的调度策略，奖励函数可以有多种。由于本实施例应用于汽车行驶场景，对安全问题极其敏感，因此通常以调度周期内完成实时任务数量num和任务重要程度级数degrees乘积的自然指数函数值作为奖励核心指标。具体的，本实施例的奖励函数R定义为：

R_t＝e^degrees×num

其中，num表示一个调度周期内完成实时任务数量；degrees表示任务重要程度级数；×表示乘积符号；t表示时间步；R_t表示第t时间步获得的奖励。

(3)优化调度策略π(A_k|S_k)用于使动作价值函数Q^π(S_t，A_t)等于在状态S_t的情况下做出动作A_t的累计折扣奖励期望值，具体的，本实施例的调度策略π表示为：

Q^π(S_t，A_t)＝E_π{R_t+γQ^π(S_t+1，A_t+1)}

其中，E_π表示在调度策略π下得到的累计折扣奖励期望值；

仅预判l个周期的限定，又可以写成：

其中，γ^k-t是折扣因子的累乘，每多预判一步就需要多累乘一个折扣因子。本实施例的折扣因子设计为0.7-0.9，避免任务调度智能体的预期和环境实际相差太大造成调度失衡。

13)训练深度Q网络拟合价值函数Q(S，A)

因为域控制器多虚拟CPU任务智能实时调度模型的动作空间太大，假设有20个计算核心，任务队列有50个任务，可能性就有20⁵⁰种，无法用Q表格存储迭代过程中的价值变化。而由于任务状态中的任务指令数目是在一个大规模连续空间中的随机值，无法用Q-learning算法中的价值函数Q(S，A)拟合奖励效果。

为了进一步提高智能实时调度模型的高维度拟合性能，此处还需融入深度学习技术。具体而言，采用深度Q网络(Deep Q-Network，DQN)拟合价值函数Q(S，A)。由于本实施例涉及的域控制器多虚拟CPU任务智能实时调度场景，状态矩阵是三维的，因此在网络的开始需要用到卷积神经网络套件(卷积层、池化层、平铺层)。而状态矩阵有两个，则需要分两路进行卷积特征提取，随后再合并成一路交付给全连接层进行拟合处理，如图2所示。虚拟CPU的状态矩阵S_VCPU和任务队列的状态矩阵S_TASK经卷积层、池化层、平铺层转换为一维矩阵。

具体的，本实施例所涉及的DQN模型训练原理如图3所示，通过设置经验回溯机制和添加目标网络训练模块来确保深度神经网络训练高效和收敛稳定，利用ε-贪婪策略选择Q网络的动作以实现全局寻优搜索，利用随机Batch采样训练增强Q网络和目标网络训练的泛化性。经验回溯单元中包括有大量格式为(S_t，A_t，R_t，S_t+1)的数据样本，这些可从训练初始阶段过程Q网络和环境的交互过程中持续收集所得，也可以是历史模拟所存储的数据。

具体的，本实施例的深度Q网络的训练步骤为：

131)随机初始化Q网络的权重参数，按照ε-贪婪策略选择调度动作与由任务队列和虚拟CPU队列组成的环境进行交互，并产生格式为(S_t，A_t，R_t，S_t+1)的数据，并将格式为(S_t，A_t，R_t，S_t+1)的数据输送至经验回溯单元。

132)判断经验回溯单元内收集的数据是否达到设定数量：若是，则执行步骤133)；若否，则执行步骤131)。

133)从经验回溯单元中随机Batch采样几组格式为(S_t，A_t，R_t，S_t+1)的数据至Q网络和目标网络。

134)Q网络利用状态-动作对数据(S_t，A_t)预判出对应的Q值；目标网络利用状态S_t+1数据计算各种动作中对应的最大Q值。

135)参数更新：

利用损失函数L反向计算出深度Q网络中各个参数θ的损失函数梯度以更新Q网络各节点权重参数；判断目标网络上一次参数更新后的随机Batch采样次数是否等于预设的次数H：若是，则更新目标网络的参数；若否，则不更新目标网络的参数。

本实施例中，以即时差分学习更新深度Q网络逼近器的参数，原理为：

其中，α表示学习率，表示探索和利用之间的权衡系数，学习率越大学习就越不稳定(侧重于探索)，虽然收敛速度可能变快。

进一步，本实施例以Q(S，A，θ)表示深度神经网络拟合的动作价值函数，则损失函数L定义为：

在本实施例的优选实施方式中，智能调度模型训练过程由智能网联汽车厂家完成，通过人-车-路数字孪生模拟器完成训练。智能网联汽车在行驶过程中对实时运转数据进行记录，随后再传输至云端进行训练，以便于更新本实施例所述的智能网联汽车域控制器多虚拟CPU任务智能实时调度模型。

步骤二：域控制器多虚拟CPU任务智能实时调度。

21)判断智能网联汽车的电量是否低于设定的警戒阈值：若是，则采用低耗能决策模式，执行步骤22)；若否，则执行步骤23)。

22)任务调度屏蔽和优化

当若干任务进入待调度队列后，首先需要进行任务调度屏蔽优化。当智能网联汽车电量处于警戒阈值下时，便采用低耗能的决策模式。对于计算规模庞大、数据吞吐量占用高、无实时性要求且对安全驾驶无贡献的任务，采用屏蔽调度策略，将相应的任务信息从任务状态矩阵中删除，确保在调度时不会匹配至任何虚拟CPU；

23)任务划分和预排序

利用指令静态分析和执行过程动态分析将任务分类为独立型、可分型和依赖型中的一种，如图4所示。对于独立任务，直接将任务属性信息原封不动地返回；对于可分任务，将其分成不可再分的子任务；对于存在依赖关系的任务之间，上层任务相比下层任务赋予更大的优先级值，同级并且为下层同一任务所依赖的任务赋予相同的任务优先级值。如图5所示，任务B和任务D赋予同优先级值，任务划分后得到的子任务还需要继续判断任务类型，直到所有子任务都是不可分任务。具体的，在输入深度神经网络逼近器前，任务状态矩阵沿宽度方向进行排序，从左到右任务的优先级值越来越大，也即优先级从左到右逐次降低。因为优先级值相等或相近时往往代表任务性质相同，或者是需要并行处理的任务，所以将其输入卷积层中便于用二维或三维卷积方法发现任务之间的规律，从而实现精准调度。在本实施例的优选实施方式中，可以将任务优先级值划分成两个范围，其中一个范围(任务优先级值较低)内的任务是实时任务，另一个范围(任务优先级值较高)内的任务是普通任务。

24)将虚拟CPU和待调度任务的状态参数信息传入所述智能网联汽车域控制器多虚拟CPU任务智能实时调度模型；具体的，本实施例中，将任务状态矩阵S_TASK和虚拟CPU状态矩阵S_VCPU输入深度Q网络，生成调度动作矢量{Tid1,Tid2,Tid3,...,Tidn}。

25)虚拟CPU依据调度动作信息从任务队列中选择任务执行或运算；即虚拟CPU根据调度动作矢量从任务队列中选择任务执行或运算。

26)循环执行步骤21)，即在完成当前调度周期的任务执行或运算后，在下一个调度周期开始时再循环执行域控制器多虚拟CPU任务智能实时调度的各个步骤。

本实施例中，在智能网联汽车域控制器多虚拟CPU任务智能实时调度模型的训练过程中，应当加入将步骤22)的任务调度屏蔽和优化以及和步骤23)的任务划分和预排序，以保证训练和投入运行时的环境相同。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种智能网联汽车域控制器多虚拟CPU任务智能实时调度模型，其特征在于：其构建方法包括如下步骤：

12)定义状态空间S、动作空间A、奖励函数R和调度策略π：

状态空间S定义为：

S＝{S_VCPU+S_TASK}

动作空间A定义为：

{Tid1，Tid2，Tid3，...，Tidn}

其中，Tidk(k＝1，2，...，n)表示第k个位置的虚拟机所分配任务标识号；

奖励函数R定义为：

R_t＝e^degrees×num

Q^π(S_t，A_t)＝E_π{R_t+γQ^π(S_t+1，A_t+1)}

其中，E_π表示在调度策略π下得到的累计折扣奖励期望值；

13)训练深度Q网络拟合价值函数Q(S，A)。

2.根据权利要求1所述的智能网联汽车域控制器多虚拟CPU任务智能实时调度模型，其特征在于：所述步骤13)中，深度Q网络的训练步骤为：

135)参数更新：

利用损失函数L反向计算出深度Q网络中各个参数θ的损失函数梯度以更新Q网络各节点权重参数；

3.根据权利要求2所述的智能网联汽车域控制器多虚拟CPU任务智能实时调度模型，其特征在于：所述步骤135中，以即时差分学习更新深度Q网络逼近器的参数，原理为：

其中，α表示学习率。

4.根据权利要求2所述的智能网联汽车域控制器多虚拟CPU任务智能实时调度模型，其特征在于：以Q(S，A，θ)表示深度神经网络拟合的动作价值函数，则损失函数L定义为：

5.一种智能网联汽车域控制器多虚拟CPU任务智能实时调度方法，其特征在于：包括如下步骤：

步骤一：将如权利要求1-4任一项所述的智能网联汽车域控制器多虚拟CPU任务智能实时调度模型部署到整车域控制器中；

步骤二：域控制器多虚拟CPU任务智能实时调度

22)：任务调度屏蔽和优化

23)：任务划分和预排序

利用指令静态分析和执行过程动态分析将任务分类为独立型、可分型和依赖型中的一种；对于独立任务，直接将任务属性信息原封不动地返回；对于可分任务，将其分成不可再分的子任务；对于存在依赖关系的任务之间，上层任务相比下层任务赋予更大的优先级值，同级并且为下层同一任务所依赖的任务赋予相同的任务优先级值；

26)循环执行步骤21)。

6.根据权利要求5所述的智能网联汽车域控制器多虚拟CPU任务智能实时调度方法，其特征在于：所述步骤23)中，将任务优先级值划分成两个范围，其中一个范围内的任务是实时任务，另一个范围内的任务是普通任务。

7.根据权利要求5或6所述的智能网联汽车域控制器多虚拟CPU任务智能实时调度方法，其特征在于：所述步骤24)中，将任务状态矩阵S_TASK和虚拟CPU状态矩阵S_VCPU输入深度Q网络，生成调度动作矢量{Tid1,Tid2,Tid3,...,Tidn}。

8.根据权利要求7所述的智能网联汽车域控制器多虚拟CPU任务智能实时调度方法，其特征在于：所述步骤25)中，虚拟CPU根据调度动作矢量从任务队列中选择任务执行或运算。