CN111831454B - 云计算服务器集群资源调配控制系统及方法 - Google Patents

云计算服务器集群资源调配控制系统及方法 Download PDF

Info

Publication number
CN111831454B
CN111831454B CN202010980733.1A CN202010980733A CN111831454B CN 111831454 B CN111831454 B CN 111831454B CN 202010980733 A CN202010980733 A CN 202010980733A CN 111831454 B CN111831454 B CN 111831454B
Authority
CN
China
Prior art keywords
task
resource allocation
evaluation
score
subtasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010980733.1A
Other languages
English (en)
Other versions
CN111831454A (zh
Inventor
孟庆海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huizhi Hengan Technology Co ltd
Original Assignee
Beijing Huizhi Hengan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huizhi Hengan Technology Co ltd filed Critical Beijing Huizhi Hengan Technology Co ltd
Priority to CN202010980733.1A priority Critical patent/CN111831454B/zh
Publication of CN111831454A publication Critical patent/CN111831454A/zh
Application granted granted Critical
Publication of CN111831454B publication Critical patent/CN111831454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了云计算服务器集群资源调配控制系统及方法:初匹配优化模块分析分析运算任务的任务特征向量与资源调配模式的资源调配向量的匹配度,确定分析运算任务的资源调配模式;动态优化模块进行分析运算任务包括的子任务执行过程中的动态优化;任务场景判定模块判断出存在由于子任务执行本身或外部扰动带来的动态性导致初匹配优化模块的匹配优化失效后,进入再匹配优化模块,通过动态优化模块重启子任务的执行过程;再匹配优化模块分析分析运算任务的任务特征向量与资源调配模式的资源调配向量的匹配度,确定分析运算任务的资源调配模式,实现服务器集群资源调配的匹配优化。能够兼顾资源优化匹配、适应动态性,能够抑制资源调配太频繁的现象。

Description

云计算服务器集群资源调配控制系统及方法
技术领域
本发明涉及资源调配技术领域,特别涉及一种云计算服务器集群资源调配控制系统及方法。
背景技术
为了适应大数据、人工智能等方面分析运算的实际需求,云计算技术近年来得到迅速发展。云计算是利用位于云端的服务器集群作为分析运算的执行载体,服务器集群通过网络获得客户端提交的分析运算任务,并响应该分析运算任务的需求执行计算,向客户端反馈分析运算任务的计算执行结果。云计算利用了云端服务器集群的规模优势和集中管理优势,可以承担海量、高并发和资源消耗大的运算,并且降低了运算的总体成本,以及简化了客户端的配置和成本。
目前,现有技术中通过云端的服务器集群响应所述分析运算任务的需求执行计算,存在着缺乏能够兼顾资源优化匹配、适应动态性以及抑制资源调配过于频繁的解决方案。
因此,本发明提供了一种云计算服务器集群资源调配控制系统及方法,包含了能够兼顾资源优化匹配、适应动态性以及抑制资源调配过于频繁的解决方案。
发明内容
(一)发明目的
为克服上述现有技术存在的至少一种缺陷,本发明提供了一种云计算服务器集群资源调配控制系统及方法,能够兼顾资源优化匹配、适应动态性,能够抑制资源调配过于频繁的现象。
(二)技术方案
作为本发明的第一方面,本发明公开了一种云计算服务器集群资源调配控制系统,包括:
初匹配优化模块,用于获取分析运算任务,并分析所述分析运算任务的任务特征向量与资源调配模式的资源调配向量的匹配度,从而确定适用于所述分析运算任务的资源调配模式;
动态优化模块,用于执行所述分析运算任务,并进行所述分析运算任务包括的子任务执行过程中的动态优化;
任务场景判定模块,用于实时监控所述分析运算任务的任务执行状态和资源消耗状态,并按照事件机制和/或评价机制判断是否存在由于所述子任务执行本身或外部扰动所带来的动态性导致所述初匹配优化模块的匹配优化失效,若存在,则进入再匹配优化模块进行服务器集群资源调配的匹配优化,并通过所述动态优化模块重启所述子任务的执行过程;
再匹配优化模块,用于分析所述分析运算任务的任务特征向量与资源调配模式的资源调配向量的匹配度,从而确定适用于所述分析运算任务的资源调配模式,以此实现所述服务器集群资源调配的匹配优化。
一种可能的实施方式中,所述初匹配优化模块包括:若干种所述资源调配模式;所述服务器集群资源的类型包括:所述服务器的处理器计算能力、临时内存空间量、数据存储空间、硬件状况监控资源和硬件协调管理能力;每种所述服务器集群资源的调配量由该类型资源的调配量指标表示。
一种可能的实施方式中,所述分析运算任务的任务特征向量包括:所述分析运算任务的类型、预期数据量、子任务数量、子任务结构表征、子任务关联度和目标表示的所述任务特征向量;所述资源调配向量包括:根据所述资源调配模式的所述调配量指标形成的所述资源调配向量。
一种可能的实施方式中,所述事件机制包括:触发事件集合;所述任务场景判定模块用于在所述子任务执行过程中,所述任务执行状态、所述资源消耗状态和/或外部扰动状态触发所述触发事件集合包含的事件时,判定所述初匹配优化模块的匹配优化失效。
一种可能的实施方式中,所述评价机制包括:任务执行状态的分值评价标准、资源消耗状态的分值评价标准和外部扰动状态的分值评价标准;所述任务场景判定模块用于通过任务执行状态评价分值、资源消耗状态评价分值、外部扰动状态评价分值,以及各自对应的权重值,求取加权平均值获取任务场景评价分值,根据所述任务场景评价分值判断所述初匹配优化模块的匹配优化失效。
作为本发明的第二方面,本发明公开了一种云计算服务器集群资源调配控制方法,包括以下步骤:
初匹配优化步骤,获取分析运算任务,并分析所述分析运算任务的任务特征向量与资源调配模式的资源调配向量的匹配度,从而确定适用于所述分析运算任务的资源调配模式;
动态优化步骤,执行所述分析运算任务,并进行所述分析运算任务包括的子任务执行过程中的动态优化;
任务场景判定步骤,实时监控所述分析运算任务的任务执行状态和资源消耗状态,并按照事件机制和/或评价机制判断是否存在由于所述子任务执行本身或外部扰动所带来的动态性导致所述初匹配优化步骤的匹配优化失效,若存在,则进入再匹配优化步骤进行服务器集群资源调配的匹配优化,并通过所述动态优化步骤重启所述子任务的执行过程;
再匹配优化步骤,分析所述分析运算任务的任务特征向量与资源调配模式的资源调配向量的匹配度,从而确定适用于所述分析运算任务的资源调配模式,以此实现所述服务器集群资源调配的匹配优化。
一种可能的实施方式中,所述初匹配优化步骤包括:若干种所述资源调配模式;所述服务器集群资源的类型包括:所述服务器的处理器计算能力、临时内存空间量、数据存储空间、硬件状况监控资源和硬件协调管理能力;每种所述服务器集群资源的调配量由该类型资源的调配量指标表示。
一种可能的实施方式中,所述分析运算任务的任务特征向量包括:所述分析运算任务的类型、预期数据量、子任务数量、子任务结构表征、子任务关联度和目标表示的所述任务特征向量;所述资源调配向量包括:根据所述资源调配模式的所述调配量指标形成的所述资源调配向量。
一种可能的实施方式中,所述事件机制包括:触发事件集合;所述任务场景判定步骤在所述子任务执行过程中,所述任务执行状态、所述资源消耗状态和/或外部扰动状态触发所述触发事件集合包含的事件时,判定所述初匹配优化步骤的匹配优化失效。
一种可能的实施方式中,所述评价机制包括:任务执行状态的分值评价标准、资源消耗状态的分值评价标准和外部扰动状态的分值评价标准;所述任务场景判定步骤通过任务执行状态评价分值、资源消耗状态评价分值、外部扰动状态评价分值,以及各自对应的权重值,求取加权平均值获取任务场景评价分值,根据所述任务场景评价分值判断所述初匹配优化步骤的匹配优化失效。
(三)有益效果
本发明提供的一种云计算服务器集群资源调配控制系统及方法,通过初匹配优化模块分析分析运算任务的任务特征向量与资源调配模式的资源调配向量的匹配度,确定分析运算任务的资源调配模式,动态优化模块进行分析运算任务包括的子任务执行过程中的动态优化,在任务场景判定模块判断出存在由于子任务执行本身或外部扰动所带来的动态性导致初匹配优化模块的匹配优化失效后,进入再匹配优化模块,并通过动态优化模块重启子任务的执行过程,由再匹配优化模块分析分析运算任务的任务特征向量与资源调配模式的资源调配向量的匹配度,确定分析运算任务的资源调配模式来实现服务器集群资源调配的匹配优化。不仅能够兼顾资源优化匹配、适应动态性,而且能够抑制资源调配过于频繁的现象。
附图说明
以下参考附图描述的实施例是示例性的,旨在用于解释和说明本发明,而不能理解为对本发明的保护范围的限制。
图1是本发明提供的一种云计算服务器集群资源调配控制系统的结构示意图。
图2是本发明提供的一种云计算服务器集群资源调配控制方法的流程图。
具体实施方式
为使本发明实施的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行更加详细的描述。
需要说明的是:在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本发明一部分实施例,而不是全部的实施例,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,均仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制。
下面参考图1详细描述本发明提供的一种云计算服务器集群资源调配控制系统的第一实施例。如图1所示,本实施例提供的资源调配控制系统主要包括有:初匹配优化模块、动态优化模块、任务场景判定模块和再匹配优化模块。
初匹配优化模块,用于获取分析运算任务,并分析所述分析运算任务的任务特征向量与资源调配模式的资源调配向量的匹配度,从而确定适用于所述分析运算任务的资源调配模式;实现了服务器集群资源调配的匹配优化;通过初匹配优化模块保障了服务器集群资源调配与分析运算任务二者总体上的优化。
通过云端的服务器集群可以获得任何一个分析运算任务,并能够提取所述分析运算任务的任务特征向量。
动态优化模块,用于执行所述分析运算任务,并进行所述分析运算任务包括的子任务执行过程中的动态优化;通过初匹配优化模块中形成的资源调配模式所分配的资源,按照分析运算任务的若干个子任务以及这些子任务彼此串行或者并行关系,开始执行子任务;在子任务执行过程中,需要考虑并适应子任务执行的动态性,在动态变化的过程中尽可能维护资源与任务的匹配优化,一方面要适度抑制子任务执行过程中的动态不确定性,另一方面,要进行子任务总体的预测优化。
在动态优化模块的子任务执行过程中的动态优化,不仅要适度抑制子任务执行过程中的动态不确定性,而且要进行子任务总体的预测优化,能够尽量避免任务场景判定模块判定所述初匹配优化模块的匹配优化失效。
在初匹配优化模块完成服务器集群资源调配的匹配优化之后,可通过动态优化模块开始子任务的执行过程,并进行针对所述子任务的动态优化;与此同时,也可启动任务场景判定模块进行任务场景的判定。
任务场景判定模块,用于实时监控所述分析运算任务的任务执行状态和资源消耗状态,并按照事件机制和/或评价机制判断是否存在由于所述子任务执行本身或外部扰动所带来的动态性导致所述初匹配优化模块的匹配优化失效,若存在,则进入再匹配优化模块进行服务器集群资源调配的匹配优化,并通过所述动态优化模块重启所述子任务的执行过程;在任务场景判定模块的任务场景判定中,若判定出初匹配优化模块的匹配优化已经失效,则在当前已经启动执行的全部子任务执行完毕后或者中止全部当前子任务的执行之后,进入再匹配优化模块进行资源调配过程的再次匹配优化,而后回到动态优化模块重启子任务的执行。
再匹配优化模块,用于分析所述分析运算任务的任务特征向量与资源调配模式的资源调配向量的匹配度,从而确定适用于所述分析运算任务的资源调配模式,以此实现所述服务器集群资源调配的匹配优化。在所述再匹配优化模块中,所述服务器集群资源的类型包括:所述服务器的处理器计算能力、临时内存空间量、数据存储空间、硬件状况监控资源和硬件协调管理能力;每种所述服务器集群资源的调配量由该类型资源的调配量指标表示。所述分析运算任务的任务特征向量包括:所述分析运算任务的类型、预期数据量、子任务数量、子任务结构表征、子任务关联度和目标表示的所述任务特征向量;所述资源调配向量包括:根据所述资源调配模式的所述调配量指标形成的所述资源调配向量。
在所述再匹配优化模块中,根据预定义的若干种资源调配模式中的每一种资源调配模式下的调配量指标形成的资源调配向量来表示该资源调配模式。
在云计算中的服务器集群资源调配中,即要考虑与每个分析运算任务的类型、预期数据量、子任务数量、子任务结构表征、子任务关联度和目标等实时性要求的各项指标的匹配,又要充分适应分析运算任务执行过程中的动态性。特别是对于当分析运算任务执行过程的动态性,导致原来的匹配度已经降低或者失效,则需重新进行服务器集群资源调配的情况。
其中,所述初匹配优化模块包括:若干种所述资源调配模式;所述服务器集群资源的类型包括:所述服务器的处理器计算能力、临时内存空间量、数据存储空间、硬件状况监控资源和硬件协调管理能力;每种所述服务器集群资源的调配量由该类型资源的调配量指标表示。
其中,所述分析运算任务的任务特征向量包括:所述分析运算任务的类型、预期数据量、子任务数量、子任务结构表征、子任务关联度和目标表示的所述任务特征向量;所述资源调配向量包括:根据所述资源调配模式的所述调配量指标形成的所述资源调配向量。所述分析运算任务的任务特征向量可以为通过云端的服务器集群提取表示该分析运算任务的每个分析运算任务的类型、预期数据量、子任务数量、子任务结构表征、子任务关联度和目标等实时性要求的各项指标,并将这些指标来表示为任务特征向量;通过所述任务特征向量来表征该分析运算任务。子任务结构表征可以包括:串行子任务和并行子任务的比例等;子任务关联度可以表示为根据多个串行子任务,每多一个子任务则关联度加1。
初匹配优化模块通过预定义的若干种资源调配模式,并根据每一种资源调配模式下的调配量指标形成的资源调配向量来表示该资源调配模式。
云计算的服务器集群所获得的分析运算任务的数量往往是海量级别的,而服务器集群资源(包括服务器的处理器计算能力、数据存储空间和硬件协调管理能力等)是有限的,因此必然需要根据每个分析运算任务的类型、预期数据量和目标等指标而为该分析运算任务调配适当的服务器集群资源,使所调配的资源的数量和组配方式满足该分析运算任务的需求。
其中,所述事件机制包括:触发事件集合;所述任务场景判定模块用于在所述子任务执行过程中,所述任务执行状态、所述资源消耗状态和/或外部扰动状态触发所述触发事件集合包含的事件时,判定所述初匹配优化模块的匹配优化失效。所述事件机制可以为预先定义一个触发事件集合,该集合包含预先定义的一系列事件。所述任务执行状态可以为任何一个子任务的进度;所述资源消耗状态可以为任何一个子任务调取的数据量;所述外部扰动状态可以为服务器的可用处理器计算能力、临时内存空间量和数据存储空间等。
所述预先定义的一系列事件包括但不限于:任何一个子任务的进度延迟超过预设的延迟阈值;任何一个子任务调取或者产生的数据量超出数据量阈值;服务器的可用处理器计算能力、临时内存空间量、数据存储空间低于告警阈值;硬件状况监控显示硬件出现了预定类型的中断和死机等。
其中,所述评价机制包括:任务执行状态的分值评价标准、资源消耗状态的分值评价标准和外部扰动状态的分值评价标准;所述任务场景判定模块用于通过任务执行状态评价分值、资源消耗状态评价分值、外部扰动状态评价分值,以及各自对应的权重值,求取加权平均值获取任务场景评价分值,根据所述任务场景评价分值判断所述初匹配优化模块的匹配优化失效。所述评价机制可以为预先定义的与任务执行状态、资源消耗状态和外部扰动状态三方面因素相关的分值评价标准,称之为任务执行状态的分值评价标准、资源消耗状态的分值评价标准和外部扰动状态的分值评价标准。
在动态优化模块开始执行之后,任务场景判定模块可以按照一定的频率(例如每隔N秒一次)执行分值评价:
对于任务执行状态,可根据每个子任务在每个评价中的进度执行比例、触发新的子任务的数量、挂起其它子任务的数量和生成的数据量,对应任务执行状态的分值评价标准获得对应的分值;然后计算全部在执行的子任务的评价分值的平均值,作为任务执行状态评价分值;
对于资源消耗状态,可根据服务器的处理器计算能力、临时内存空间量和数据存储空间的总体占用情况,按照资源消耗状态的分值评价标准给出对应的评价分值,作为资源消耗状态评价分值;
对于外部扰动状态,可以记录从上一个评价到本次评价期间,出现硬件延迟、中止和过热等非理想状况的次数和类型,按照外部扰动状态的分值评价标准给出对应的评价分值,作为外部扰动状态评价分值;
而后,根据以上三个方面的评价分值以及对应每个方面的权重值,求加权平均值来作为任务场景评价分值。
任务场景判定模块可在所述任务场景评价分值达到一定区间时,判定初匹配优化模块的匹配优化失效。
本发明的初匹配优化模块、动态优化模块、任务场景判定模块和再匹配优化模块均可由云端的服务器实现。
本发明通过初匹配优化模块分析分析运算任务的任务特征向量与资源调配模式的资源调配向量的匹配度,确定分析运算任务的资源调配模式,动态优化模块进行分析运算任务包括的子任务执行过程中的动态优化,在任务场景判定模块判断出存在由于子任务执行本身或外部扰动所带来的动态性导致初匹配优化模块的匹配优化失效后,进入再匹配优化模块,并通过动态优化模块重启子任务的执行过程,由再匹配优化模块分析分析运算任务的任务特征向量与资源调配模式的资源调配向量的匹配度,确定分析运算任务的资源调配模式来实现服务器集群资源调配的匹配优化。本发明所述的一种云计算服务器集群资源调配控制系统,能够兼顾资源优化匹配、适应动态性,能够抑制资源调配过于频繁的现象。
下面参考图2详细描述本发明提供的一种云计算服务器集群资源调配控制方法的第一实施例。如图2所示,本实施例提供的资源调配控制方法主要包括有:初匹配优化步骤、动态优化步骤、任务场景判定步骤和再匹配优化步骤。
初匹配优化步骤,获取分析运算任务,并分析所述分析运算任务的任务特征向量与资源调配模式的资源调配向量的匹配度,从而确定适用于所述分析运算任务的资源调配模式;通过云端的服务器集群可以获得任何一个分析运算任务,并能够提取所述分析运算任务的任务特征向量。
动态优化步骤,执行所述分析运算任务,并进行所述分析运算任务包括的子任务执行过程中的动态优化;通过初匹配优化步骤中形成的资源调配模式所分配的资源,按照分析运算任务的若干个子任务以及这些子任务彼此串行或者并行关系,开始执行子任务;在子任务执行过程中,需要考虑并适应子任务执行的动态性,在动态变化的过程中尽可能维护资源与任务的匹配优化,一方面要适度抑制子任务执行过程中的动态不确定性,另一方面,要进行子任务总体的预测优化。
在动态优化步骤的子任务执行过程中的动态优化,不仅要适度抑制子任务执行过程中的动态不确定性,而且要进行子任务总体的预测优化,能够尽量避免任务场景判定步骤判定所述初匹配优化步骤中的匹配优化失效。
在初匹配优化步骤完成服务器集群资源调配的匹配优化之后,可通过动态优化步骤开始子任务的执行过程,并进行针对所述子任务的动态优化;与此同时,也可启动任务场景判定步骤进行任务场景的判定。
任务场景判定步骤,实时监控所述分析运算任务的任务执行状态和资源消耗状态,并按照事件机制和/或评价机制判断是否存在由于所述子任务执行本身或外部扰动所带来的动态性导致所述初匹配优化步骤的匹配优化失效,若存在,则进入再匹配优化步骤进行服务器集群资源调配的匹配优化,并通过所述动态优化步骤重启所述子任务的执行过程;在任务场景判定步骤的任务场景判定中,若判定出初匹配优化步骤中的匹配优化已经失效,则在当前已经启动执行的全部子任务执行完毕后或者中止全部当前子任务的执行之后,进入再匹配优化步骤进行资源调配过程的再次匹配优化,而后回到动态优化步骤重启子任务的执行。
再匹配优化步骤,分析所述分析运算任务的任务特征向量与资源调配模式的资源调配向量的匹配度,从而确定适用于所述分析运算任务的资源调配模式,以此实现所述服务器集群资源调配的匹配优化。在所述再匹配优化步骤中,所述服务器集群资源的类型包括:所述服务器的处理器计算能力、临时内存空间量、数据存储空间、硬件状况监控资源和硬件协调管理能力;每种所述服务器集群资源的调配量由该类型资源的调配量指标表示。所述分析运算任务的任务特征向量包括:所述分析运算任务的类型、预期数据量、子任务数量、子任务结构表征、子任务关联度和目标表示的所述任务特征向量。所述资源调配向量包括:根据所述资源调配模式的所述调配量指标形成的所述资源调配向量。
在所述再匹配优化步骤中,根据预定义的若干种资源调配模式中的每一种资源调配模式下的调配量指标形成的资源调配向量来表示该资源调配模式。
在云计算中的服务器集群资源调配中,即要考虑与每个分析运算任务的类型、预期数据量、子任务数量、子任务结构表征、子任务关联度和目标等实时性要求的各项指标的匹配,又要充分适应分析运算任务执行过程中的动态性。特别是对于当分析运算任务执行过程的动态性,导致原来的匹配度已经降低或者失效,则需重新进行服务器集群资源调配的情况。
其中,所述初匹配优化步骤包括:若干种所述资源调配模式;所述服务器集群资源的类型包括:所述服务器的处理器计算能力、临时内存空间量、数据存储空间、硬件状况监控资源和硬件协调管理能力;每种所述服务器集群资源的调配量由该类型资源的调配量指标表示。
其中,所述分析运算任务的任务特征向量包括:所述分析运算任务的类型、预期数据量、子任务数量、子任务结构表征、子任务关联度和目标表示的所述任务特征向量;所述资源调配向量包括:根据所述资源调配模式的所述调配量指标形成的所述资源调配向量。所述分析运算任务的任务特征向量可以为通过云端的服务器集群提取表示该分析运算任务的每个分析运算任务的类型、预期数据量、子任务数量、子任务结构表征、子任务关联度和目标等实时性要求的各项指标,并将这些指标来表示为任务特征向量;通过所述任务特征向量来表征该分析运算任务。子任务结构表征可以包括:串行子任务和并行子任务的比例等;子任务关联度可以表示为根据多个串行子任务,每多一个子任务则子任务关联度加1。
初匹配优化步骤通过预定义的若干种资源调配模式,并根据每一种资源调配模式下的调配量指标形成的资源调配向量来表示该资源调配模式。
云计算的服务器集群所获得的分析运算任务的数量往往是海量级别的,而服务器集群资源(包括服务器的处理器计算能力、数据存储空间和硬件协调管理能力等)是有限的,因此必然需要根据每个分析运算任务的类型、预期数据量和目标等指标而为该分析运算任务调配适当的服务器集群资源,使所调配的资源的数量和组配方式满足该分析运算任务的需求。
其中,所述事件机制包括:触发事件集合;所述任务场景判定步骤在所述子任务执行过程中,所述任务执行状态、所述资源消耗状态和/或外部扰动状态触发所述触发事件集合包含的事件时,判定所述初匹配优化步骤的匹配优化失效。所述事件机制可以为预先定义一个触发事件集合,该集合包含预先定义的一系列事件。所述任务执行状态可以为任何一个子任务的进度;所述资源消耗状态可以为任何一个子任务调取的数据量;所述外部扰动状态可以为服务器的可用处理器计算能力、临时内存空间量和数据存储空间等。
所述预先定义的一系列事件包括但不限于:任何一个子任务的进度延迟超过预设的延迟阈值;任何一个子任务调取或者产生的数据量超出数据量阈值;服务器的可用处理器计算能力、临时内存空间量、数据存储空间低于告警阈值;硬件状况监控显示硬件出现了预定类型的中断和死机等。
其中,所述评价机制包括:任务执行状态的分值评价标准、资源消耗状态的分值评价标准和外部扰动状态的分值评价标准;所述任务场景判定步骤通过任务执行状态评价分值、资源消耗状态评价分值、外部扰动状态评价分值,以及各自对应的权重值,求取加权平均值获取任务场景评价分值,根据所述任务场景评价分值判断所述初匹配优化步骤的匹配优化失效。所述评价机制可以为预先定义的与任务执行状态、资源消耗状态和外部扰动状态三方面因素相关的分值评价标准,称之为任务执行状态的分值评价标准、资源消耗状态的分值评价标准和外部扰动状态的分值评价标准。
在动态优化步骤开始执行之后,任务场景判定步骤可以按照一定的频率(例如每隔N秒一次)执行分值评价:
对于任务执行状态,可根据每个子任务在每个评价中的进度执行比例、触发新的子任务的数量、挂起其它子任务的数量和生成的数据量,对应任务执行状态的分值评价标准获得对应的分值;然后计算全部在执行的子任务的评价分值的平均值,作为任务执行状态评价分值;
对于资源消耗状态,可根据服务器的处理器计算能力、临时内存空间量和数据存储空间的总体占用情况,按照资源消耗状态的分值评价标准给出对应的评价分值,作为资源消耗状态评价分值;
对于外部扰动状态,可以记录从上一个评价到本次评价期间,出现硬件延迟、中止和过热等非理想状况的次数和类型,按照外部扰动状态的分值评价标准给出对应的评价分值,作为外部扰动状态评价分值;
而后,根据以上三个方面的评价分值以及对应每个方面的权重值,求加权平均值来作为任务场景评价分值。
任务场景判定步骤可在所述任务场景评价分值达到一定区间时,判定初匹配优化步骤的匹配优化失效。
本发明的初匹配优化步骤、动态优化步骤、任务场景判定步骤和再匹配优化步骤均可由云端的服务器执行。
本发明通过初匹配优化步骤分析分析运算任务的任务特征向量与资源调配模式的资源调配向量的匹配度,确定分析运算任务的资源调配模式,动态优化步骤进行分析运算任务包括的子任务执行过程中的动态优化,在任务场景判定步骤判断出存在由于子任务执行本身或外部扰动所带来的动态性导致初匹配优化步骤的匹配优化失效后,进入再匹配优化步骤,并通过动态优化步骤重启子任务的执行过程,由再匹配优化步骤分析分析运算任务的任务特征向量与资源调配模式的资源调配向量的匹配度,确定分析运算任务的资源调配模式来实现服务器集群资源调配的匹配优化。本发明所述的一种云计算服务器集群资源调配控制方法,能够兼顾资源优化匹配、适应动态性,能够抑制资源调配过于频繁的现象。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (2)

1.一种云计算服务器集群资源调配控制系统,其特征在于,包括:
初匹配优化模块,用于获取分析运算任务,并分析所述分析运算任务的任务特征向量与资源调配模式的资源调配向量的匹配度,从而确定适用于所述分析运算任务的资源调配模式;服务器集群资源的类型包括:所述服务器的处理器计算能力、临时内存空间量、数据存储空间、硬件状况监控资源和硬件协调管理能力;所述分析运算任务的任务特征向量包括:所述分析运算任务的类型、预期数据量、子任务数量、子任务结构表征、子任务关联度和目标表示的所述任务特征向量,其中子任务结构表征包括串行子任务和并行子任务的比例;子任务关联度表示为根据多个串行子任务,每多一个子任务则关联度加1;所述资源调配向量包括:根据所述资源调配模式的调配量指标形成的所述资源调配向量;初匹配优化模块根据每一种资源调配模式下的调配量指标形成的资源调配向量来表示该资源调配模式;
动态优化模块,用于执行所述分析运算任务,并进行所述分析运算任务包括的子任务执行过程中的动态优化;包括:按照分析运算任务的若干个子任务以及这些子任务彼此串行或者并行关系,开始执行子任务;在子任务执行过程中,抑制子任务执行过程中的动态不确定性并进行子任务总体的预测优化;
任务场景判定模块,用于实时监控所述分析运算任务的任务执行状态和资源消耗状态,并按照事件机制和/或评价机制判断是否存在由于所述子任务执行本身或外部扰动所带来的动态性导致所述初匹配优化模块的匹配优化失效,若存在,则进入再匹配优化模块进行服务器集群资源调配的匹配优化,并通过所述动态优化模块重启所述子任务的执行过程;在任务场景判定模块的任务场景判定中,若判定出初匹配优化模块的匹配优化已经失效,则在当前已经启动执行的全部子任务执行完毕后或者中止全部当前子任务的执行之后,进入再匹配优化模块进行资源调配过程的再次匹配优化,而后回到动态优化模块重启子任务的执行;
再匹配优化模块,用于分析所述分析运算任务的任务特征向量与资源调配模式的资源调配向量的匹配度,从而确定适用于所述分析运算任务的资源调配模式,以此实现所述服务器集群资源调配的匹配优化;在所述再匹配优化模块中,所述服务器集群资源的类型包括:所述服务器的处理器计算能力、临时内存空间量、数据存储空间、硬件状况监控资源和硬件协调管理能力;在所述再匹配优化模块中,根据每一种资源调配模式下的调配量指标形成的资源调配向量来表示该资源调配模式;
其中,所述事件机制包括:触发事件集合;所述任务场景判定模块用于在所述子任务执行过程中,所述任务执行状态、所述资源消耗状态和/或外部扰动状态触发所述触发事件集合包含的事件时,判定所述初匹配优化模块的匹配优化失效;所述事件机制为预先定义一个触发事件集合,该集合包含预先定义的一系列事件,所述预先定义的一系列事件包括:任何一个子任务的进度延迟超过预设的延迟阈值;任何一个子任务调取或者产生的数据量超出数据量阈值;服务器的可用处理器计算能力、临时内存空间量、数据存储空间低于告警阈值;硬件状况监控显示硬件出现了预定类型的中断和死机;所述任务执行状态为任何一个子任务的进度;所述资源消耗状态为任何一个子任务调取的数据量;所述外部扰动状态为服务器的可用处理器计算能力、临时内存空间量和数据存储空间;
所述评价机制包括:任务执行状态的分值评价标准、资源消耗状态的分值评价标准和外部扰动状态的分值评价标准;所述任务场景判定模块用于通过任务执行状态评价分值、资源消耗状态评价分值、外部扰动状态评价分值,以及各自对应的权重值,求取加权平均值获取任务场景评价分值,根据所述任务场景评价分值判断所述初匹配优化模块的匹配优化失效;在动态优化模块开始执行之后,任务场景判定模块按照一定的频率执行分值评价:对于任务执行状态,根据每个子任务在每个评价中的进度执行比例、触发新的子任务的数量、挂起其它子任务的数量和生成的数据量,对应任务执行状态的分值评价标准获得对应的分值,然后计算全部在执行的子任务的评价分值的平均值,作为任务执行状态评价分值;对于资源消耗状态,根据服务器的处理器计算能力、临时内存空间量和数据存储空间的总体占用情况,按照资源消耗状态的分值评价标准给出对应的评价分值,作为资源消耗状态评价分值;对于外部扰动状态,记录从上一个评价到本次评价期间,出现包括硬件延迟、中止和过热的非理想状况的次数和类型,按照外部扰动状态的分值评价标准给出对应的评价分值,作为外部扰动状态评价分值;而后,根据以上三个方面的评价分值以及对应每个方面的权重值,求加权平均值来作为任务场景评价分值;任务场景判定模块在所述任务场景评价分值达到失效区间时,判定初匹配优化模块的匹配优化失效。
2.一种云计算服务器集群资源调配控制方法,其特征在于,包括以下步骤:
初匹配优化步骤,获取分析运算任务,并分析所述分析运算任务的任务特征向量与资源调配模式的资源调配向量的匹配度,从而确定适用于所述分析运算任务的资源调配模式;服务器集群资源的类型包括:所述服务器的处理器计算能力、临时内存空间量、数据存储空间、硬件状况监控资源和硬件协调管理能力;所述分析运算任务的任务特征向量包括:所述分析运算任务的类型、预期数据量、子任务数量、子任务结构表征、子任务关联度和目标表示的所述任务特征向量;所述资源调配向量包括:根据所述资源调配模式的调配量指标形成的所述资源调配向量;子任务结构表征包括:串行子任务和并行子任务的比例;子任务关联度表示为根据多个串行子任务,每多一个子任务则关联度加1;初匹配优化步骤根据每一种资源调配模式下的调配量指标形成的资源调配向量来表示该资源调配模式;
动态优化步骤,进行所述分析运算任务包括的子任务执行过程中的动态优化;包括:按照分析运算任务的若干个子任务以及这些子任务彼此串行或者并行关系,开始执行子任务;在子任务执行过程中,抑制子任务执行过程中的动态不确定性并进行子任务总体的预测优化;
任务场景判定步骤,实时监控所述分析运算任务的任务执行状态和资源消耗状态,并按照事件机制和/或评价机制判断是否存在由于所述子任务执行本身或外部扰动所带来的动态性导致所述初匹配优化步骤的匹配优化失效,若存在,则进入再匹配优化步骤进行服务器集群资源调配的匹配优化,并通过所述动态优化步骤重启所述子任务的执行过程;在任务场景判定步骤的任务场景判定中,若判定出初匹配优化步骤的匹配优化已经失效,则在当前已经启动执行的全部子任务执行完毕后或者中止全部当前子任务的执行之后,进入再匹配优化步骤进行资源调配过程的再次匹配优化,而后回到动态优化步骤重启子任务的执行;
再匹配优化步骤,分析所述分析运算任务的任务特征向量与资源调配模式的资源调配向量的匹配度,从而确定适用于所述分析运算任务的资源调配模式,以此实现所述服务器集群资源调配的匹配优化;在所述再匹配优化步骤中,所述服务器集群资源的类型包括:所述服务器的处理器计算能力、临时内存空间量、数据存储空间、硬件状况监控资源和硬件协调管理能力;在所述再匹配优化步骤中,根据每一种资源调配模式下的调配量指标形成的资源调配向量来表示该资源调配模式;
其中,所述事件机制包括:触发事件集合;所述任务场景判定步骤在所述子任务执行过程中,所述任务执行状态、所述资源消耗状态和/或外部扰动状态触发所述触发事件集合包含的事件时,判定所述初匹配优化步骤的匹配优化失效;所述事件机制为预先定义一个触发事件集合,该集合包含预先定义的一系列事件,所述预先定义的一系列事件包括:任何一个子任务的进度延迟超过预设的延迟阈值;任何一个子任务调取或者产生的数据量超出数据量阈值;服务器的可用处理器计算能力、临时内存空间量、数据存储空间低于告警阈值;硬件状况监控显示硬件出现了预定类型的中断和死机;所述任务执行状态为任何一个子任务的进度;所述资源消耗状态为任何一个子任务调取的数据量;所述外部扰动状态为服务器的可用处理器计算能力、临时内存空间量和数据存储空间;
所述评价机制包括:任务执行状态的分值评价标准、资源消耗状态的分值评价标准和外部扰动状态的分值评价标准;所述任务场景判定步骤通过任务执行状态评价分值、资源消耗状态评价分值、外部扰动状态评价分值,以及各自对应的权重值,求取加权平均值获取任务场景评价分值,根据所述任务场景评价分值判断所述初匹配优化步骤的匹配优化失效;所述评价机制为预先定义的与任务执行状态、资源消耗状态和外部扰动状态三方面因素相关的分值评价标准,称之为任务执行状态的分值评价标准、资源消耗状态的分值评价标准和外部扰动状态的分值评价标准;在动态优化步骤开始执行之后,任务场景判定步骤按照一定的频率执行分值评价:对于任务执行状态,根据每个子任务在每个评价中的进度执行比例、触发新的子任务的数量、挂起其它子任务的数量和生成的数据量,对应任务执行状态的分值评价标准获得对应的分值,然后计算全部在执行的子任务的评价分值的平均值,作为任务执行状态评价分值;对于资源消耗状态,根据服务器的处理器计算能力、临时内存空间量和数据存储空间的总体占用情况,按照资源消耗状态的分值评价标准给出对应的评价分值,作为资源消耗状态评价分值;对于外部扰动状态,记录从上一个评价到本次评价期间,出现包括硬件延迟、中止和过热的非理想状况的次数和类型,按照外部扰动状态的分值评价标准给出对应的评价分值,作为外部扰动状态评价分值;而后,根据以上三个方面的评价分值以及对应每个方面的权重值,求加权平均值来作为任务场景评价分值;任务场景判定步骤在所述任务场景评价分值达到失效区间时,判定初匹配优化步骤的匹配优化失效。
CN202010980733.1A 2020-09-17 2020-09-17 云计算服务器集群资源调配控制系统及方法 Active CN111831454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010980733.1A CN111831454B (zh) 2020-09-17 2020-09-17 云计算服务器集群资源调配控制系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010980733.1A CN111831454B (zh) 2020-09-17 2020-09-17 云计算服务器集群资源调配控制系统及方法

Publications (2)

Publication Number Publication Date
CN111831454A CN111831454A (zh) 2020-10-27
CN111831454B true CN111831454B (zh) 2021-02-19

Family

ID=72918501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010980733.1A Active CN111831454B (zh) 2020-09-17 2020-09-17 云计算服务器集群资源调配控制系统及方法

Country Status (1)

Country Link
CN (1) CN111831454B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164283A (zh) * 2012-05-10 2013-06-19 上海兆民云计算科技有限公司 一种虚拟桌面系统中虚拟化资源动态调度管理方法及系统
CN103873587A (zh) * 2014-03-26 2014-06-18 中国联合网络通信集团有限公司 一种基于云平台实现调度的方法及装置
CN106446959A (zh) * 2016-10-10 2017-02-22 北京邮电大学 一种云计算资源动态匹配方法及装置
CN110677274A (zh) * 2019-08-26 2020-01-10 国信电子票据平台信息服务有限公司 一种基于事件的云网络服务调度方法及装置
CN110928648A (zh) * 2019-12-10 2020-03-27 浙江工商大学 融合启发式和智能计算的云工作流分段在线调度优化方法
CN111225050A (zh) * 2020-01-02 2020-06-02 中国神华能源股份有限公司神朔铁路分公司 云计算资源分配方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190295027A1 (en) * 2018-03-26 2019-09-26 International Business Machines Corporation Cognitive scheduling for cooperative tasks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164283A (zh) * 2012-05-10 2013-06-19 上海兆民云计算科技有限公司 一种虚拟桌面系统中虚拟化资源动态调度管理方法及系统
CN103873587A (zh) * 2014-03-26 2014-06-18 中国联合网络通信集团有限公司 一种基于云平台实现调度的方法及装置
CN106446959A (zh) * 2016-10-10 2017-02-22 北京邮电大学 一种云计算资源动态匹配方法及装置
CN110677274A (zh) * 2019-08-26 2020-01-10 国信电子票据平台信息服务有限公司 一种基于事件的云网络服务调度方法及装置
CN110928648A (zh) * 2019-12-10 2020-03-27 浙江工商大学 融合启发式和智能计算的云工作流分段在线调度优化方法
CN111225050A (zh) * 2020-01-02 2020-06-02 中国神华能源股份有限公司神朔铁路分公司 云计算资源分配方法及装置

Also Published As

Publication number Publication date
CN111831454A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
US11321141B2 (en) Resource management for software containers using container profiles
CN106933650B (zh) 云应用系统的负载管理方法及系统
US11188392B2 (en) Scheduling system for computational work on heterogeneous hardware
CN109783237B (zh) 一种资源配置方法及装置
EP3270287A1 (en) Scheduling method and system for video analysis tasks
EP2425349B1 (en) Application efficiency engine
US7685251B2 (en) Method and apparatus for management of virtualized process collections
CN109586952B (zh) 服务器扩容方法、装置
CN112000459A (zh) 一种用于服务的扩缩容的方法及相关设备
Rosa et al. Predicting and mitigating jobs failures in big data clusters
US20100131952A1 (en) Assistance In Performing Action Responsive To Detected Event
US8572621B2 (en) Selection of server for relocation of application program based on largest number of algorithms with identical output using selected server resource criteria
Novak et al. Cloud functions for fast and robust resource auto-scaling
KR20200078328A (ko) 소프트웨어 애플리케이션 프로세스를 모니터링하는 시스템 및 방법
CN112689007A (zh) 资源分配方法、装置、计算机设备和存储介质
CN111680085A (zh) 数据处理任务分析方法、装置、电子设备和可读存储介质
CN109783304B (zh) 一种数据中心的节能调度方法及对应装置
CN118012719B (zh) 容器运行状态监测方法、智能计算云操作系统及计算平台
Fourati et al. Epma: Elastic platform for microservices-based applications: Towards optimal resource elasticity
CN113158435B (zh) 基于集成学习的复杂系统仿真运行时间预测方法与设备
CN111831454B (zh) 云计算服务器集群资源调配控制系统及方法
CN110796591A (zh) 一种gpu卡的使用方法及相关设备
KR20160032881A (ko) 클라우드 기반의 지능형 전력제어 시스템
CN111475251A (zh) 一种集群容器调度方法、系统、终端及存储介质
Happe et al. A prediction model for software performance in symmetric multiprocessing environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant