CN116983617B

CN116983617B - 跨集群资源调度方法、计算机装置及存储介质

Info

Publication number: CN116983617B
Application number: CN202311240067.8A
Authority: CN
Inventors: 许亦
Original assignee: Shenzhen Yuntian Changxiang Information Technology Co ltd
Current assignee: Shenzhen Yuntian Changxiang Information Technology Co ltd
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2024-01-05
Anticipated expiration: 2043-09-25
Also published as: CN116983617A

Abstract

本发明公开了跨集群资源调度方法、计算机装置及存储介质，包括：获取云游戏服务器端延迟时间，通过所述延迟时间依次将所述云游戏服务器端的系统负载进程表示为系统进程集合U；将所述系统进程集合U中的进程个数划分成多个不相交的进程组，对所述瞬时响应延迟时间进行排序，以瞬时响应延迟时间排序值动态划分进程组，获取多集群形式下的负载进程的最优分组，在所述瞬时响应延迟时间最小的前提下，动态分配负载进程以调度多集群资源。本发明采用聚类算法将系统负载进行分类，获得跨集群系统进程的最优分组，以瞬时响应延迟时间最小时，对负载进程进行动态资源分配，便于实现负载进程的动态资源分配，提升云游戏负载进程的计算处理效率。

Description

跨集群资源调度方法、计算机装置及存储介质

技术领域

本发明涉及云计算资源调度技术领域，具体涉及跨集群资源调度方法、计算机装置及存储介质。

背景技术

云游戏将整个运行的负载放到了云平台上，大大降低了高端游戏玩家对软件和硬件的需求，通过这种方法，云游戏可以在任何时间、任何地点、任何设备上为玩家提供高质量的游戏体验，但在云游戏中，服务器端响应延迟通常在交互延迟中起主导作用，这是因为云游戏服务器要处理大量的计算任务，包括游戏渲染、视频编码和传输，音频的编码和传输等，因此，降低起主导作用的响应延迟对优化云游戏交互延迟有重要的意义。

通过系统资源划分的方法，可以优化系统的性能，这对降低响应延迟有重要作用，而系统进程间不合理的系统资源划分，对系统整体性能影响很大，云游戏系统由许多进程组成，如果进程之间完全共享资源，这些进程会争抢系统资源，这会降低游戏渲染、视频编码或传输的速度，从而增加云游戏服务器端响应延迟，某些进程可能对资源有很高的需求，但是进程从资源中获得的在降低响应延迟方面可能与此需求没有直接的关系，例如，虽然用于视频流服务的进程可能会访问大量唯一缓存块，但许多缓存块不太可能再次被利用，这意味着可以将这些缓存分给其他进程来节省整体处理时间。

现有用于云游戏的跨集群资源调度方法存在以下问题：（1）对于硬件中的LLC缓存资源只能按照每个进程单独分配，导致系统资源无法实现最大限度的共享式资源划分，且游戏进程之间存在资源竞争，找到最优资源分配方法比较困难；（2）现有的资源调度预测模型相对复杂，因为系统资源划分多样化，导致无法在资源划分性能模型中给任意资源进行评估，而且现有的资源之间存在复杂的交互和竞争行为，导致资源调度模型构建具有挑战性；（3）游戏系统动态负载，导致不同的系统负载需要不同的资源分配方案来响应延迟时间最小，而且，云游戏中每个进程的复杂变化相对较快且无规律可寻，导致动态负载划分资源无法满足响应延迟最小的要求。

发明内容

本发明的目的在于提供跨集群资源调度方法、计算机装置及存储介质，以解决现有技术中对于系统资源无法实现最大限度的共享式资源划分，且现有的资源之间存在复杂的交互和竞争行为，导致资源调度模型构建具有挑战性，以及动态负载划分资源无法满足响应延迟最小的技术问题。

为解决上述技术问题，本发明具体提供下述技术方案：

本发明的第一个方面，提供了跨集群资源调度方法，包括以下步骤：

获取云计算中心在最后一级缓存LLC中的云游戏服务器端延迟时间，通过所述延迟时间依次将所述云游戏服务器端的系统负载进程表示为由每个进程组成的系统进程集合U，对所述延迟时间进行排序，通过排序后的所述延迟时间依次获取相对应的系统负载进程数据，将所述系统负载进程数据由所述负载类别组成系统进程集合U；

以多集群形式对负载聚类，将所述系统进程集合U中的进程个数划分成多个不相交的进程组，对所述不相交的进程组采用延迟时间预测模型动态获取云游戏服务器端在当下时刻的瞬时响应延迟时间，在进程运行模式下，测量一段时间内，每组进程在当前资源配置下的进程平均加权数，在所述进程平均加权数求和状态下预测进程负载值，将所述进程负载值作为当前系统进程下的瞬时负载；

对所述瞬时响应延迟时间进行排序，以瞬时响应延迟时间排序值动态划分进程组，获取跨集群的最优分组，对所述瞬时响应延迟时间排序后，采用个体优化算法在每个集群内动态划分进程组，获取每个集群内的最优分组，将所述每个集群内的最优分组通过跨集群形式采用大范围的交叉操作，从每个集群内随机选择优质分组，将所述优质分组作为所述跨集群的最优分组；

在云计算环境下计算跨集群负载进程在所述最优分组下的动态资源变化，在所述瞬时响应延迟时间最小的前提下，动态分配负载进程以调度跨集群资源。

作为本发明的一种优选方案，所述云游戏服务器端延迟时间采用Map/Reduce框架作为云计算任务分配框架，通过设置Map、Reduce函数对云计算任务进行动态调整，根据所述云计算任务中资源利用率对所述延迟时间进行排序；

通过排序后的所述延迟时间依次获取相对应的系统负载进程数据，将所述系统负载进程数据由所述负载类别组成系统进程集合U；

依据所述系统负载进程数据采用K-Means算法对数据集进行聚类，获取数据集，由所述数据集组成资源池中跨集群分类数据；

根据所述跨集群分类数据将所述系统进程集合U中的进程数规划成多个不相交的进程组。

作为本发明的一种优选方案，对所述不相交的进程组采用延迟时间预测模型动态获取云游戏服务器端在当下时刻的瞬时响应延迟时间，所述延迟时间预测模型包括：

采用随机函数对所述跨集群分类数据产生分组数，将分组数范围设定为，其中/>为所述系统进程集合U中的进程个数；为每组跨集群分类数据划分负载进程，并对每组负载进程随机生成进程数，配置资源，且设定所有分组的负载进程正好占用系统资源总量；

获取每组进程在当前资源配置下的进程平均加权数，在所述进程平均加权数求和状态下预测进程负载值，将所述进程负载值作为当前系统进程下的瞬时负载；

将所述瞬时负载与负载进程一一对应，获取当前运行状态下的瞬时响应延迟时间。

作为本发明的一种优选方案，在所述进程平均加权数求和状态下预测第个集群的进程负载值/>，包括：/>其中，/>表示跨集群数量，/>表示相对应集群的资源权重，/>表示第/>个集群中对应资源权重的数据值，/>表示每个进程中负载数据集的数据总量，/>表示第/>个集群中所有进程的平均加权数，/>表示每个集群中所有进程占进程总量的比例。

作为本发明的一种优选方案，对所述瞬时响应延迟时间排序后，采用个体优化算法在每个集群内动态划分进程组，获取每个集群内的最优分组，包括：

获取每个集群在云计算模式下需要调度的进程数，按照进程数获取需要调度的任务个数，以及在进程运行状态下占用的虚拟机资源个数，并对所述虚拟机资源个数进行编码；

利用随机函数对所述虚拟机资源个数随机生成多个可行解，采用GA-BAS算法在所述可行解周围生成多方向单位向量，建立多方向感知模型；

在多方向感知模型内根据每个集群占用资源总数的比例计算多方向单位向量在各方向上的适应度，获取每个集群内的最优分组。

作为本发明的一种优选方案，将所述每个集群内的最优分组通过跨集群形式采用大范围的交叉操作，从每个集群内随机选择优质分组，将所述优质分组作为所述跨集群的最优分组，所述优质分组选择方法包括：

将每个集群作为父代种群，在所述父代种群中寻找父代最优体，并从多集群中随机选择优质体，两者交换各自一半的优质信息形成子代最优体，将子代最优体组成的集合作为优质分组。

作为本发明的一种优选方案，将所述每个集群的最优分组通过寻优算法在负载进程中获取每个集群内的优质分组，包括：

将所述优质分组作为种群识别体，利用随机函数对所述优质分组中的进程数据进行初始化；

捕获所述优质分组中每个进程在任务实现过程中的占优资源，根据所述占优资源将其归类到相应集群中；

根据每个任务实现可以获得的最小任务数对跨集群中的任务进程进行分组。

作为本发明的一种优选方案，对所述优质分组内的进程采用MSFEAA曲线构建多任务份额，以所述瞬时响应延迟时间为横坐标轴，在所述瞬时响应延迟时间最小的前提下，以多任务的负载进程动态分配资源。

本发明的第二个方面，提供了一种计算机装置，

包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行。

本发明的第三个方面，提供了一种计算机可读存储介质，

所述计算机可读存储介质中存储有计算机执行指令，处理器执行所述计算机的执行指令。

本发明与现有技术相比较具有如下有益效果：

本发明通过在云游戏系统中的动态进程数来衡量系统负载变化，采用聚类算法将系统负载进行分类，获得跨集群的最优分组，在动态系统负载下，通过对系统进程的资源进行动态划分，降低云游戏服务器端响应延迟时间，以达到云游戏服务器端响应延迟最小的目的。

利用强化学习构建响应延迟预测模型学习各种系统资源划分操作对系统性能的影响，当系统负载动态变化时，采用MSFEAA曲线构建资源分配向量与资源需求向量之间的联系，以瞬时响应延迟时间最小时，对负载进程进行动态资源分配，能够实时体现不同进程的资源负载程度，便于实现负载进程的动态资源分配，提升云游戏负载进程的计算处理效率。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例提供的跨集群资源调度方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了跨集群资源调度方法，包括以下步骤：

本实施例中，采用部分共享LLC的方式将云游戏服务器端的资源进行共享，当检测到云游戏进程中不需要整块LLC时，将LLC与其他进程共享，以便有效利用LLC。

本实施例中，在对所述系统进程集合U中的进程进行划分时，将同一组中的进程共享分配给同组的资源，能够有效抵消硬件中限制LLC资源共享产生的资源浪费的情况，并且，在同一组之间划分资源大大简化了资源分配过程中产生的交互和竞争情况，使得在进行不同系统负载下的最优资源分组时，能最大化优化相关预测模型。

对所述瞬时响应延迟时间进行排序，以瞬时响应延迟时间排序值动态划分进程组，获取跨集的最优分组，对所述瞬时响应延迟时间排序后，采用个体优化算法在每个集群内动态划分进程组，获取每个集群内的最优分组，将所述每个集群内的最优分组通过跨集群形式采用大范围的交叉操作，从每个集群内随机选择优质分组，将所述优质分组作为所述跨集群的最优分组；

本实施例中，在云计算环境下采用启发式算法找到每一种群的最优分组，根据分组结果，结合系统负载，对在线游戏资源建立资源分配预测模型，并且，在建立资源分配预测模型之间，对离线系统负载数据进行离线训练，获得特定游戏离线运行时的负载进程，使得资源分配预测模型能够根据系统在线实时状态，自适应的对系统资源进行调度，反馈实时更新进度。

所述云游戏服务器端延迟时间采用Map/Reduce框架作为云计算任务分配框架，通过设置Map、Reduce函数对云计算任务进行动态调整，根据所述云计算任务中资源利用率对所述延迟时间进行排序；

本实施例中，采用简单的Map/Reduce框架构建所述Map、Reduce函数处理云计算任务，利用JobTracker模块对在线系统资源进行实时监测，当发现有计算资源或者任务状态出现异常时，将该任务分配至其他计算资源中执行，并持续监控计算资源的使用情况以及任务完成情况。

本实施例中，依据所述JobTracker模块监控的计算资源使用情况，通过slot将相应资源节点中的计算资源和内存资源进行等量划分，并获取计算资源完成任务所需要的时间以及资源利用率，根据时间及资源利用率对所述延迟时间进行排序。

本实施例中，所述系统负载进程数据以每段32M的任务长度进行等间隔划分，对应云计算节点上的虚拟机，通过虚拟机统计系统负载进程数据的负载类别，并将负载类别组成所述系统进程集合U，利用虚拟机对各节点上的资源数据进行并行计算，能够有效提升任务执行的效率。

本实施例中，采用K-Means算法对数据集进行聚类，通过聚类将系统负载进行分类，找到每一类中系统进程的分组方法，能够有效减少系统进程分组占用的时间，提升系统处理效率。

本实施例中，所述多个不相交的进程组主要为系统进行不在一个LLC中，不能互相占用资源。

对所述不相交的进程组采用延迟时间预测模型动态获取云游戏服务器端在当下时刻的瞬时响应延迟时间，所述延迟时间预测模型包括：

本实施例中，所述延迟时间预测模型主要用来描述云游戏运行过程中的响应延迟，本发明以某一时刻的瞬时响应延迟作为延迟时间的预测值。

本实施例中，在所述不相交的进程组之间构建所述延迟时间预测模型，能够大大降低人工测量延迟的成本，只需要测量系统各个进程的平均延迟加权即可近似计算出云游戏服务器端瞬时响应延迟，并且能够随时获取各个进程对响应延迟的影响。

在所述进程平均加权数求和状态下预测第个集群的进程负载值/>，包括：其中，/>表示跨集群数量，/>表示相对应集群的资源权重，/>表示第/>个集群中对应资源权重的数据值，/>表示每个进程中负载数据集的数据总量，/>表示第/>个集群中所有进程的平均加权数，/>表示每个集群中所有进程占进程总量的比例。本实施例中，根据同一分组内该种资源分配下各进程的平均加权数求和，能够测量出一段时间内游戏系统的平均负载，因为同一分组内各进程的负载动态变化不会太大，因此可以使用平均负载作为某一时刻的瞬时负载。

对所述瞬时响应延迟时间排序后，采用个体优化算法在每个集群内动态划分进程组，获取每个集群内的最优分组，包括：

本实施例中，在云计算模式下每个集群内的游戏场景保持不变，获取需要调度的进程数，能够有效降低动态资源变化对分组的影响。

将所述每个集群内的最优分组通过跨集群形式采用大范围的交叉操作，从每个集群内随机选择优质分组，将所述优质分组作为所述跨集群的最优分组，所述优质分组选择方法包括：

本实施例中，在进行优质分组过程中，采用优质片段交叉和点交叉相结合的方式，当处于迭代前期时，需要提升个体变化幅度，此时采用片段交叉策略，有利于算法快速收敛；当处于迭代后期时，个体解的优化结果改变较小或者优化结果不再改变，此时选用点交叉方式，小范围改变解的结构，有利于增强算法局部寻优能力，将最优体交叉结合在一起，能够提高算法收敛速度，并保证算法收敛精度。

将所述每个集群的最优分组通过寻优算法在负载进程中获取每个集群内的优质分组，包括：

本实施例中，在所述每个集群的优质分组中进行寻优，通过所述每个集群的优质分组在在任务实现过程中的占优资源进行归类，获取跨集群的最优分组。本实施例中，所述寻优算法采用基于IA-SA的资源分配算法，直接将适应度低的种群识别体淘汰，通过随机函数随机生成一定数量的个体，增加优质种群的多样性，并且可以提高算法的局部寻优能力，更好适应动态资源调度时对算法实时性寻优的要求。

对所述优质分组内的进程采用MSFEAA曲线构建多任务份额，以所述瞬时响应延迟时间为横坐标轴，在所述瞬时响应延迟时间最小的前提下，以多任务的负载进程动态分配资源。

本实施例中，采用多任务多资源联合算法量化每个任务特定的资源，将任务响应的过程作为资源调度的过程，对于用户的第/>个任务来说，记/>为资源分配向量，将资源分配向量与资源需求向量之间建立联系，获取资源分配向量/>在资源调度下所能调度的任务数。本实施例中，所述MSFEAA曲线在多任务多资源状态下，以瞬时响应延迟时间为横坐标轴，能够实时体现不同进程的资源负载程度，便于实现负载进程的动态资源分配。

第二实施例：一种计算机装置，

本实施例中，采用基于CloudSky成熟的云计算技术，提供专享高性能GPU硬件的云主机服务，大幅提升资源分配处理和高性能计算能力，有效提升云游戏负载进程的计算处理效率，降低成本投入。

第三实施例：一种计算机可读存储介质，

本实施例中，所述可读存储介质根据用户的访问数据的内容、频次等等特点，将数据在中心、边缘存储中高效调度，使数据离用户“最近”，降低数据访问延迟，提高用户访问速度。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.跨集群资源调度方法，其特征在于，包括以下步骤：

以多集群形式对负载聚类，将所述系统进程集合U中的进程个数划分成多个不相交的进程组，对所述不相交的进程组采用延迟时间预测模型动态获取云游戏服务器端在当下时刻的瞬时响应延迟时间，在进程运行模式下，测量一段时间内，每组进程在当前资源配置下的进程平均加权数，在所述进程平均加权数求和状态下预测进程负载值，将所述进程负载值作为当前系统进程下的瞬时负载，将所述瞬时负载与负载进程一一对应，获取当前运行状态下的瞬时响应延迟时间；

2.根据权利要求1所述的跨集群资源调度方法，其特征在于，

3.根据权利要求1所述的跨集群资源调度方法，其特征在于，

采用随机函数对所述跨集群分类数据产生分组数，将分组数范围设定为，其中为所述系统进程集合U中的进程个数；为每组跨集群分类数据划分负载进程，并对每组负载进程随机生成进程数，配置资源，且设定所有分组的负载进程正好占用系统资源总量；

4.根据权利要求3所述的跨集群资源调度方法，其特征在于,

在所述进程平均加权数求和状态下预测第个集群的进程负载值/>，包括：其中，/>表示跨集群数量，/>表示相对应集群的资源权重，/>表示第/>个集群中对应资源权重的数据值，/>表示每个进程中负载数据集的数据总量，/>表示第/>个集群中所有进程的平均加权数，/>表示每个集群中所有进程占进程总量的比例。

5.根据权利要求1所述的跨集群资源调度方法，其特征在于,

6.根据权利要求5所述的跨集群资源调度方法，其特征在于,

将所述每个集群内的最优分组通过跨集群形式采用大范围的交叉操作，从每个集群内随机选择优质分组，将所述优质分组组合成跨集群模式下的最优分组，所述优质分组选择方法包括：

7.根据权利要求6所述的跨集群资源调度方法，其特征在于,

将所述每个集群的优质分组通过寻优算法在多任务多资源的负载进程中获取跨集群的最优分组，包括：

8.根据权利要求7所述的跨集群资源调度方法，其特征在于,

9.一种计算机装置，其特征在于，

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述计算机装置执行权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，

所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-8任一项所述的方法。