CN110262879B

CN110262879B - 一种基于平衡探索与利用的蒙特卡洛树搜索方法

Info

Publication number: CN110262879B
Application number: CN201910414594.3A
Authority: CN
Inventors: 程雨夏; 吴志伟; 刘奎; 吴卿
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2021-08-20
Anticipated expiration: 2039-05-17
Also published as: CN110262879A

Abstract

本发明公开了一种基于平衡探索与利用的蒙特卡洛树搜索方法，包括：S01：选择阶段：从搜索树的根结点开始，根据节点的uct值向下寻找未扩展完全的节点；S02：扩展阶段：从就绪队列中随机选择一个任务，选择可以执行的处理器，以此作为扩展节点；S03：模拟阶段：从扩展节点开始，随机从就绪队列中选择任务，贪心地选择处理器，直到就绪队列中任务为空为止；S04：回传阶段：根据模拟阶段获得的makespan值，回传更新从根节点到新的扩展节点之间的所有节点；S05：重复上述步骤S01‑S04，直到满足迭代次数限制或时间限制，最终返回一个最小的makespan值。本发明实质性效果为：在实际的树搜索中加速寻找到较优的makespan值，使搜索树加速收敛，有效地降低了时间开销，提升了系统效率。

Description

一种基于平衡探索与利用的蒙特卡洛树搜索方法

技术领域

本发明属于任务调度系统技术领域，涉及一种基于平衡探索与利用的蒙特卡洛树搜索方法。

背景技术

在分布式异构计算系统中，各种计算资源与高速网络互连以支持计算密集型并行和分布式应用程序。高效的任务调度对于提高系统性能至关重要。如何将并行计算任务调度到异构计算系统中高效执行是系统研究领域的热点问题。面向大数据和人工智能等应用领域的并行计算任务通常以DAG(有向无环图)任务图模型表示任务间的数据依赖和并行关系。异构计算系统中的DAG任务调度是计算机体系结构研究的经典问题。DAG任务调度模型如下：

应用程序通常被描述为一个有向无环图(DAG)，G＝(V，E)。其中V＝{v₁,v₂,…,v_n}表示任务节点的集合，E＝{e₁,e₂,…,e_n}表示边的集合。每个节点v_i∈V表示一个具体的执行任务，每条边e_(i,j)∈E表示两个任务之间的通信开销。计算开销矩阵W＝V×P，其中V表示任务节点集合，P＝{p₁,p₂,…,p_q}表示处理器集合，w_i,j表示任务v_i调度到处理器p_j上的执行时间。c_i,j作为边e_(i,j)上的权值用来表示任务v_i和任务v_j之间的通信开销，当任务v_i和任务v_j分配在同一处理器上执行时，两者间通信开销为0。最早开始时间EST_i,j表示节点v_i在处理器p_j上可以开始执行的最早时间，最早完成时间EFT_i,j表示任务v_i在处理器p_j上的最早完成时间，EFT_i,j＝EST_i,j+W_i,j。调度长度(makespan)表示DAG中最后一个任务的完成时间。

异构计算系统下的DAG任务调度是一个NP完全问题，并且在实际调度系统中更加复杂。许多启发式算法已经被提出，例如列表调度算法，基于遗传和进化的随机搜索算法，基于任务复制的算法等等。这些方法大多是启发式的，在不同应用场景下缺乏通用性。随着软硬件环境的更新迭代，传统的依赖专家经验设计的启发式调度方法很难普遍适用于新型的应用场景，导致传统调度方法在新应用和新硬件系统中不能充分发挥系统效率。

授权公告号CN106169188B的发明提供了一种基于蒙特卡洛树搜索的对象跟踪方法，属于计算机视觉、图形图像技术领域。首先通过背景建模和前景提取方法，获取视频监控范围内各个车辆的图像区域，通过初始化蒙特卡洛树和预测轨迹的起始节点，并获取一段时间的视频图像，然后通过多次的节点选择、扩展、模拟和相似度计算来生成和评价预测轨迹，并据此更新树节点权重，然后将树中具有最大节点权重和的路径作为目标轨迹，完成对车辆的定位，进而实现车辆跟踪。

基于蒙特卡洛树搜索的DAG任务调度方法已经被提出，但是蒙特卡洛树搜索方法无法平衡探索与利用的关系，从而导致无法快速找到较优的makespan值，进而搜索时间花销增加。

发明内容

针对现有技术无法平衡探索与利用的关系，从而导致无法快速找到较优的makespan值，进而导致搜索时间花销增加的问题，本发明提供了一种基于平衡探索与利用的蒙特卡洛树搜索方法，有效的平衡了探索与利用的关系，从而加速寻找到较优的makespan值，使搜索树加速收敛，有效地降低了时间开销，提升了系统效率。

以下是本发明的技术方案。

一种基于平衡探索与利用的蒙特卡洛树搜索方法，包括以下步骤：S01：选择阶段：从搜索树的根结点开始，根据节点的uct值向下寻找未扩展完全的节点；S02：扩展阶段：从就绪队列中随机选择一个任务，选择可以执行的处理器，以此作为扩展节点；S03：模拟阶段：从扩展节点开始，随机从就绪队列中选择任务，贪心地选择处理器，直到就绪队列中任务为空为止；S04：回传阶段：根据模拟阶段获得的makespan值，回传更新从根节点到新的扩展节点之间的所有节点；S05：重复上述步骤S01-S04，直到满足迭代次数限制或时间限制，最终返回一个最小的makespan值。

作为优选，所述步骤S01还包括：若树节点已经扩展完全，则根据UCT公式计算出最大的UCT值作为搜索路径中新的节点。

作为优选，所述UCT值的计算按如下公式计算求出，

其中，c是一个常量参数，主要用于再平衡探索和利用间的权重；Q(v')表示当前任务节点的累积回报；N(v')表示当前任务节点的访问次数；N(v)表示当前任务节点的父亲节点的访问次数；V(s)表示当前节点在t次模拟时访问了s次的方差再加上

其中X_t表示t次模拟时的平均Q(v')值，

表示总的平均Q(v')值。

作为优选，所述步骤S02还包括：扩展节点时需对该节点进行初始化，设置Q(v')＝0，N(v')＝0。

作为优选，所述步骤S04包括：更新任务节点访问次数以及任务节点累计回报值。

作为优选，所述任务节点访问次数N(v')的更新方式为N(v')＝N(v')+1，任务节点累计回报Q(v')的更新方式为：Q(v')＝Q(v')+makespan。

本发明的实质性效果为：在实际的树搜索中加速寻找到较优的makespan值，使搜索树加速收敛，有效地降低了时间开销，提升了系统效率。

附图说明

图1为本发明实施例的流程图；

图中：1-选择阶段、2-扩展阶段、3-模拟阶段、4-回传阶段。

具体实施方式

以下结合说明书附图对本技术方案作进一步阐述。

实施例：

如图1所示的一种基于平衡探索与利用的蒙特卡洛树搜索的方法，包括如下步骤：

选择阶段1：从搜索树的根结点开始，根据节点的uct值向下寻找未扩展完全的节点。若树节点已经扩展完全，则根据UCT公式计算出最大的UCT值作为搜索路径中新的节点。UCT的计算按如下公式计算求出。

其中X_t表示t次模拟时的平均Q(v')值，

表示总的平均Q(v')值。

扩展阶段2：从就绪队列中随机选择一个任务，然后选择可以执行的处理器，以此作为扩展的新叶子节点。扩展到新的叶子节点时需对该节点进行初始化，设置Q(v')＝0，N(v')＝0。

模拟阶段3：从扩展节点开始，随机从就绪队列中选择任务，贪心地选择处理器，直到就绪队列中任务为空为止。

回传阶段4：根据模拟阶段获得的makespan值，回传更新从根节点到新的扩展节点之间的所有节点。任务节点访问次数的更新方式为N(v')＝N(v')+1，任务节点累计回报的更新方式为：Q(v')＝Q(v')+makespan。

最后重复执行步骤(1-4)直到满足迭代次数限制或时间限制。最终返回一个最小的makespan值。

应当说明的是，该具体实施例仅用于对技术方案的进一步阐述，不用于限定该技术方案的范围，任何基于此技术方案的修改、等同替换和改进等都应视为在本发明的保护范围内。