CN113673822B

CN113673822B - 一种弹性调度方法及系统

Info

Publication number: CN113673822B
Application number: CN202110801011.XA
Authority: CN
Inventors: 刘燕和; 聂耀龙; 蒋生武
Original assignee: Weimeng Chuangke Network Technology China Co Ltd
Current assignee: Weimeng Chuangke Network Technology China Co Ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2023-08-11
Anticipated expiration: 2041-07-15
Also published as: CN113673822A

Abstract

本发明实施例提供一种弹性调度方法系统，包括：自服务器采集预设时间段内服务的关键特征的时序指标，所述关键特征的时序指标是指有时间索引的关键特征的指标数值序列；根据所采集的关键特征的时序指标分别计算各关键特征的权重、各关键特征的分位；针对服务的任一关键特征新产生的时序指标，采用该关键特征的分位、关键特征的权重对该关键特征新产生的时序指标进行判断，得到最终的调度行为决策，并根据最终的调度行为决策进行调度；所述调度行为决策包括如下决策之一：指标异常报警、自动扩缩容。通过历史数据中的关键特征的时序指标进行处理来判断是否调度，避免人工确定阈值的主观因素较强对是否调度判断的不准确性。

Description

一种弹性调度方法及系统

技术领域

本发明涉及智能运维领域，具体涉及一种弹性调度方法及系统。

背景技术

目前常规的弹性调度系统中，通常采用人工预估扩缩容的关键指标阈值点方式，这种策略方法的缺点为阈值准确度主要依赖人为经验判断，主观因素较强。

发明内容

本发明实施例提供一种弹性调度方法及系统，通过历史数据中的关键特征的时序指标进行处理来判断是否调度，避免人工确定阈值的主观因素较强对是否调度判断的不准确性。

为达上述目的，一方面，本发明实施例提供一种弹性调度方法，包括：

自服务器采集预设时间段内服务的关键特征的时序指标，所述关键特征的时序指标是指有时间索引的关键特征的指标数值序列；

根据所采集的关键特征的时序指标分别计算各关键特征的权重、各关键特征的分位；

针对服务的任一关键特征新产生的时序指标，采用该关键特征的分位、关键特征的权重对该关键特征新产生的时序指标进行判断，得到最终的调度行为决策，并根据最终的调度行为决策进行调度；所述调度行为决策包括如下决策之一：指标异常报警、自动扩缩容。

另一方面，本发明实施例提供一种弹性调度系统，包括：

指标采集单元，用于自服务器采集预设时间段内服务的关键特征的时序指标，所述关键特征的时序指标是指有时间索引的关键特征的指标数值序列；

特征提取单元，用于根据所采集的关键特征的时序指标分别计算各关键特征的权重、各关键特征的分位；

决策单元，用于针对服务的任一关键特征新产生的时序指标，采用该关键特征的分位、关键特征的权重对该关键特征新产生的时序指标进行判断，得到最终的调度行为决策，并根据最终的调度行为决策进行调度；所述调度行为决策包括如下决策之一：指标异常报警、自动扩缩容。

上述技术方案具有如下有益效果：通过历史数据中的关键特征的时序指标进行处理来判断是否调度，避免人工确定阈值的主观因素较强对是否调度判断的不准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种弹性调度方法的流程图；

图2是本发明实施例的一种弹性调度系统的结构图；

图3是本发明实施例的基于时序指标的弹性调度系统的结构图；

图4是本发明实施例的指标采集数据流图；

图5是本发明实施例的特征计算单元的数据流图；

图6是本发明实施例的某个指标的分位数据。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，结合本发明的实施例，提供一种弹性调度方法，包括：

S101：自服务器采集预设时间段内服务的关键特征的时序指标，所述关键特征的时序指标是指有时间索引的关键特征的指标数值序列；

S102：根据所采集的关键特征的时序指标分别计算各关键特征的权重、各关键特征的分位；

S103：针对服务的任一关键特征新产生的时序指标，采用该关键特征的分位、关键特征的权重对该关键特征新产生的时序指标进行判断，得到最终的调度行为决策，并根据最终的调度行为决策进行调度；所述调度行为决策包括如下决策之一：指标异常报警、自动扩缩容。

优选地，所述关键特征包括关键接口特征，各关键接口特征的权重表示同一服务所具有的不同类型接口各自对应的权重；

在步骤102中，包括S1021：：各关键接口特征的权重根据所采集的关键接口特征的时序指标计算，

步骤1021具体包括：采用流处理框架的单位时间窗口的窗口聚合功能对预设时间段内服务的关键接口特征的时序指标进行计算，计算各关键接口特征的时序指标在当前单位时间内的耗时，然后对所有关键接口特征的时序指标聚合得出各关键接口特征的归一化值，将各关键接口特征的归一化值作为各关键接口特征的权重，并形成各关键接口特征的权重计算结果，将各关键接口特征的权重计算结果存储于具备时序检索、时序处理和可视化能力的数据库；其中，该关键接口特征的时序指标在预设时间段内的单位时间的耗时占服务在预设时间段内的总耗时得到当前关键特征的归一化值；所述关键接口特征的权重计算结果包括：指标id、时序指标、关键接口特征的权重。

优选地，在步骤102中，所所述根据所采集的关键特征的时序指标计算各关键特征的分位，具体包括：

首先计算关键特征的历史分布特征，包括步骤S1022、S1023。

S1022：根据预设时间段内服务的关键特征的时序指标，采用流处理的时间聚合功能分别统计各关键特征的求和、平方求和、计数信息；

S1023：针对每个关键特征，根据该关键特征的求和、平方求和、计数信息进行计算，得出该关键特征在单位时间内的期望和标准差，将该关键特征在单位时间内的期望和标准差作为该关键特征的历史分布特征；

然后根据关键特征的历史分布特征计算该关键特征的分位，包括步骤S1024、S1025。

S1024：针对每一关键特征，基于该关键特征的预期取值范围对该关键特征的时序指标进行分桶，分别累计落入各个分桶内时序指标的数量；所述关键特征的预期取值范围为基于该关键特征在档位时间内的期望和标准差计算得到的各分桶的上下界；以及

S1025：采用向上取整的聚合算法对该关键特征的各个分桶进行合并，使得各分桶边界不重合且无重叠；统计合并后各个分桶内时序指标的数量；

S1026：基于各分桶内时序指标的数量计算得出该关键特征各个分桶边界的分位值；针对每个分桶，假设在该分桶内部概率密度相同，根据该分桶的边界分位值反推出该分桶内任一分位所对应的时序指标。

优选地，还包括：

S104：通过预设时间段内服务的关键特征的时序指标对不同类型的关键特征在时间序列内的变化进行分析学习，建立各关键特征间的关联关系；并通过各关键特征间的关联关系构建出服务池的各关键特征关系知识图谱；所述关键特征关系知识图谱用于服务发生异常时，基于本关键特征关联关系知识图谱初步判断出异常和异常发生的原因；通过初步判断出的异常和异常发生的原因辅助作出最终的调度行为决策，其中，服务池包括多个服务。

优选地，还包括：

S105：针对每个关键特征，根据所采集的预设时间段内服务的该关键特征的时序指标进行建模，得到该关键特征的历史时序模型，所述该关键特征的历史时序模型用来对未来预设时间段该关键特征的时序指标的变化进行预测，根据预测形成该关键特征的预测结果，所述该关键特征的预测结果用于辅助作出最终的调度行为决策。

优选地，步骤103具体包括：

S1031：针对除关键接口特征外的任一关键特征，将不同历史时间段内同一分位点所对应时序指标中较高的时序指标作为该关键特征的触发阈值；以及

S1032：当除关键接口特征外的任一关键特征新产生的时序指标达到其相应的触发阈值，则形成的初步调度行为决策，所述初步调度行为决策为激活行为决策但不发出调度指令；在该关键特征新产生的时序指标达到其相应的触发阈值后，且当该关键特征的权重达到其相应的预设权重阈值时，得到最终的调度行为决策；其中，除关键接口特征外的任一关键特征的权重为人为预设权重；

或者，

S1033：针对服务的任一关键接口特征新产生的时序指标，当该关键接口特征的权重达到第二预设权重阈值，直接得到最终的调度行为决策。

如图2所示，结合本发明的实施例，提供一种弹性调度系统，包括：

指标采集单元21，用于自服务器采集预设时间段内服务的关键特征的时序指标，所述关键特征的时序指标是指有时间索引的关键特征的指标数值序列；

特征提取单元22，用于根据所采集的关键特征的时序指标分别计算各关键特征的权重、各关键特征的分位；

决策单元23，用于针对服务的任一关键特征新产生的时序指标，采用该关键特征的分位、关键特征的权重对该关键特征新产生的时序指标进行判断，得到最终的调度行为决策，并根据最终的调度行为决策进行调度；所述调度行为决策包括如下决策之一：指标异常报警、自动扩缩容。

所述特征提取单元22包括：

关键接口特征权重提取模块221，采用流处理框架的单位时间窗口的窗口聚合功能对预设时间段内服务的关键接口特征的时序指标进行计算，计算各关键接口特征的时序指标在当前单位时间内的耗时，然后对所有关键接口特征的时序指标聚合得出各关键接口特征的归一化值，将各关键接口特征的归一化值作为各关键接口特征的权重，并形成各关键接口特征的权重计算结果，将各关键接口特征的权重计算结果存储于具备时序检索、时序处理和可视化能力的数据库；其中，该关键接口特征的时序指标在预设时间段内的单位时间的耗时占服务在预设时间段内的总耗时得到当前关键特征的归一化值；所述关键接口特征的权重计算结果包括：指标id、时序指标、关键接口特征的权重。

优选地，所述特征提取单元22包括：

历史分布特征提取模块222，用于根据预设时间段内服务的关键特征的时序指标，采用流处理的时间聚合功能分别统计各关键特征的求和、平方求和、计数信息；针对每个关键特征，根据该关键特征的求和、平方求和、计数信息进行计算，得出该关键特征在单位时间内的期望和标准差，将该关键特征在单位时间内的期望和标准差作为该关键特征的历史分布特征；

历史分位特征提取模块223，用于针对每一关键特征，基于该关键特征的预期取值范围对该关键特征的时序指标进行分桶，分别累计落入各个分桶内时序指标的数量；所述关键特征的预期取值范围为基于该关键特征在档位时间内的期望和标准差计算得到的各分桶的上下界；以及采用向上取整的聚合算法对该关键特征的各个分桶进行合并，使得各分桶边界不重合且无重叠；统计合并后各个分桶内时序指标的数量；基于各分桶内时序指标的数量计算得出该关键特征各个分桶边界的分位值；针对每个分桶，假设在该分桶内部概率密度相同，根据该分桶的边界分位值反推出该分桶内任一分位所对应的时序指标。

优选地，还包括：

根因分析单元24，用于通过预设时间段内服务的关键特征的时序指标对不同类型的关键特征在时间序列内的变化进行分析学习，建立各关键特征间的关联关系；并通过各关键特征间的关联关系构建出服务池的各关键特征关系知识图谱；所述关键特征关系知识图谱用于服务发生异常时，基于本关键特征关联关系知识图谱初步判断出异常和异常发生的原因；通过初步判断出的异常和异常发生的原因辅助作出最终的调度行为决策，其中，服务池包括多个服务。

优选地，还包括：

趋势预测单元25，用于针对每个关键特征，根据所采集的预设时间段内服务的该关键特征的时序指标进行建模，得到该关键特征的历史时序模型，所述该关键特征的历史时序模型用来对未来预设时间段该关键特征的时序指标的变化进行预测，根据预测形成该关键特征的预测结果，所述该关键特征的预测结果用于辅助作出最终的调度行为决策。

优选地，所述决策单元23包括：

阈值设置模块231，用于针对除关键接口特征外的任一关键特征，将不同历史时间段内同一分位点所对应时序指标中较高的时序指标作为该关键特征的触发阈值；

第一决策模块232，用于当除关键接口特征外的任一关键特征新产生的时序指标达到其相应的触发阈值，则形成的初步调度行为决策，所述初步调度行为决策为激活行为决策但不发出调度指令；在该关键特征新产生的时序指标达到其相应的触发阈值后，且当该关键特征的权重达到其相应的预设权重阈值时，得到最终的调度行为决策；其中，除关键接口特征外的任一关键特征的权重为人为预设权重；

第二决策模块233，用于针对服务的任一关键接口特征新产生的时序指标，当该关键接口特征的权重达到第二预设权重阈值，直接得到最终的调度行为决策。

下面结合具体的应用实例对本发明实施例上述技术方案进行详细说明，实施过程中没有介绍到的技术细节，可以参考前文的相关描述。

本发明涉及的缩略语和关键术语定义如下：

弹性调度：在服务流量上涨时，服务各种指标上涨，导致服务质量下降。弹性调度自动的并做出扩容请求。相反，在服务流量较低时，弹性调度能够自动缩容，让服务始终保持在一个健康且不浪费的容量状态。

特征工程：是对原始数据进行一系列工程处理，将其提炼为特征，作为输入供算法和模型使用。

本发明为一种基于时序指标的智能弹性调度解决方案，本发明所要解决的技术问题为：1、使用某类特征(如正态分布)描述指标行为时如何处理不规则形状的问题，需要使用一种普适性更强的特征描述手段。2、如何在提升指标准确性的同时保持自动化和自我学习的能力。

本发明基于时序特征指标的阈值计算方式，一方面改善了历史分布特征计算的计算方法，使计算具备灵活时间选择的能力，另一方面，创造性的提出了普适性更强的基于时间序列数据指标的分位特征的计算方法。具体技术方案如图3所示，本发明的技术方案包括5个流程模块：原始指标采集模块、特征提取模块、根因分析模块、趋势预测模块、行为决策模块。其中，关键部分特征提取模块(即特征提取模块)又细分为权重计算模块、历史分布特征计算模块、分位特征计算模块。

1、原始指标采集模块

如图4所示，原始指标采集模块的职责是从服务器收集服务的关键特征的时序指标(时序Time series)(关键特征的时序指标是指有时间索引的关键特征的指标数值序列)(关键特征是逻辑上的概念，指标是其对应的具体数据表达，比如服务请求量是关键特征，对应的指标是单机qps指标)：比如服务的接口单机每秒查询率qps数据、耗时数据(比如平均耗时、时间周期内的耗时分位数据)、机器基础指标(比如cpu使用率、内存使用率、每秒的读写次数IOPS、机器负载load等)。时序指标数据可通过在实例中部署的运维工具采集，通过拼接本机基础数据(比如所属服务、实例id、ip地址、时间戳等)后，通过消息队列组件(比如kafka)传输，并按照数据规模、数据量级等实际情况酌情指定数据收集方案，数据收集方案为根据采集的数据类型或服务类型划分消息topic(消息主题)。数据结构需要使用标准结构便于后续横向扩展。

2.特征提取模块

特征提取模块的职责是对指标采集模块收集的特征数据进行数据处理，整合成特定规格的特征数据。特征提取模块又细分为权重计算模块、历史分布特征计算模块、分位特征计算模块，如图5所示。

2.1权重计算模块

所述关键特征包括关键接口特征，各关键接口特征的权重表示同一服务所具有的不同类型接口各自对应的权重；各关键接口特征的权重根据所采集的关键接口特征的时序指标计算。权重计算模块(关键接口特征权重提取模块)的作用是对海量的关键接口特征指标计算权重，在行为决策模块做出决策时，对决策加权处理从而得出符合实际优先级的决策结论。权重计算模块的权重由当前特征在单位时间的耗时占服务在当前单位时间的总耗时决定，计算公式为：

权重计算模块的计算方法采用流处理框架计算得出(比如flink)，通过使用单位时间窗口的窗口聚合功能，计算当前单位时间内各特征的耗时，再做一次当前服务池(服务池内包含多个服务)所有特征的窗口聚合得出归一化的特征值(即：该关键接口特征的时序指标在预设时间段内的单位时间的耗时占服务在预设时间段内的总耗时得到当前关键特征的归一化值)，归一化值是该关键接口特征的权重。

权重计算模块的计算结果包含指标id、权重以及时序指标，计算结果建议存储于具备时序特征检索、时序特征处理和可视化能力的数据库中(比如elastic search)。需要查询数据时，可以通过指派目标时间范围，利用elastic search的聚合功能，计算目标时间范围内的权重结果的平均值。

2.2历史分布特征计算模块

历史分布特征计算模块的作用是对特征指标的历史分布特征进行提取工作。指标的历史分布特征的具体是指指标在单位时间内的期望和标准差，比如耗时期望、耗时标准差qps期望、qps标准差获取其他特征：负载，比如带宽，比如磁盘读写量之类。指标本身就是一组时序数据，历史分布特征可以近似用它们的期望和方差来表达。

历史分布特征的计算方法为，在流处理框架中利用时间窗口聚合功能，分别统计指标的求和、平方求和、计数信息，将指标的指标id、时间、针对qps，将单位时间的qps平方和、单位时间的qps和、单位时间的总请求量、平均每次请求耗时的平方和、总耗时信息存储在数据库elastic search。

获取历史分布特征结果则利用elastic search的聚合功能，对选定指标、选定时间范围的历史分布特征参数(指标)，采用该关键特征的求和、平方求和、计数信息分别进行求和处理，并对聚合结果按照如下公式计算得出期望和标准差：

其中，mean是期望，sum是黄色提到的求和，count是计数信息；std是标准差，square是平方求和；将该关键特征在单位时间内的期望和标准差作为该关键特征的历史分布特征。

另外，为了减少数据压力和减少不必要的IO请求，历史分布特征可以在后续的计算流程中(比如其他计算模块的flink算子)使用缓存。

2.3历史分位特征计算模块

数学上的分位点，是指用分割点将一个随机变量的概率分布范围分为几个具有相同概率的连续区间。本发明使用的的分位点往往是近似估计后的结果，将有限值集分为q个接近相同尺寸的子集，并可以查询任意分位对应的变量值，比如分位点p99代表百分位数中第99个分位的值。分位特征计算模块的职责是计算指标的历史特征的分位点数据。例如某接口过去7天的耗时p99、某资源最近30天晚高峰时段的qps的p90等。分位特征计算方法为基于历史分位特征计算模块的计算结果，将该指标的预期取值范围(预取值范围是基于前面的期望和标准差算出来的一个大致分桶的上下界)进行分桶，将落入分桶的收集指标的样本点次数(比如请求数量次数)累计，最终将单位时间内记录样本点的统计次数分布数据和分桶规则存入elastic search。

分桶规则视数据量级和存储资源压力决定，建议取值范围是期望-1标准差作为下限，期望+4标准差作为上限，划分48各分桶，结合左右两个开区间共组成50个分桶。

分桶宽度需要遵循2的整数幂的取值模式，从而为灵活选择时间范围进行数据聚合提供可能。计算分位特征的方法为：查询该指标的目标时间范围内的所有单位时间统计结果数据，采用向上取整的聚合算法对分桶进行合并。具体合并方法为：

1.如果某两个分桶上下界完全相同，则直接累加计数。

2.如果某分桶上下界和其他桶无交集，则保留该桶。

3.如果一个分桶是另一个分桶的子集，则合并到较大的分桶中。

在分桶宽度遵循2的整数幂的规则下，不会存在两个分桶存在部分交集的可能(即各分桶边界不重合且无重叠)。遵循此方法，可以计算某指标在任意时间范围的分桶统计数据。

基于分桶统计数据，可计算得出每个分桶边界的分位结果(上下边界)，在分桶内部概率密度相同的假设下，根据目标分位所在分桶的上线边界值反推出分位值，即目标分位的指标取值(对于边界开区间分桶，取分桶边界数据)，其中，目标是指某个特征指标；目标分位的指标取值是某个特征指标的数值。目标分位取值计算公式为：

分位特征计算需要拉取指标时间段内的所有分桶统计数据，需要单独通过定时任务的形式(比如额外的spring boot服务)进行计算；具体地，针对每个分桶，假设在该分桶内部概率密度相同，根据该分桶的边界分位值反推出该分桶内任一分位所对应的时序指标。

3.根因分析模块

根因分析模块的职责是通过对不同类型的指标(关键特征的时序指标)在时间序列内的特征变化数据进行分析，建立指标间的关联关系，尽可能完整的构建出整个系统的指标关系知识图谱，在异常发生时能够基于已学习到的关联关系知识判断出异常类型和异常发生的原因。通过初步判断出的异常关键特征和异常发生的原因辅助作出最终的调度行为决策，其中，服务池包括多个服务。

4.趋势预测模块

趋势预测模块的职责是通过对指标的历史时序数据进行建立预测模型，通过预测模型并对未来一段时间的指标进行预测。针对每个关键特征，根据所采集的预设时间段内服务的该关键特征的时序指标进行建模，得到该关键特征的历史时序模型，所述该关键特征的历史时序模型用来对未来预设时间段该关键特征的时序指标的变化进行预测，根据预测形成该关键特征的预测结果，所述该关键特征的预测结果用于辅助作出最终的调度行为决策。

5.行为决策模块

该模块是我们提出的智能弹性调度的控制“中枢”，由于有了底层多个实时数据特征模块的支持，行为决策模块能够实现更多智能化的调度策略，相比于传统基于历史经验值的调度方案，往往更自动，更准确。

当然，行为决策模块位于整个智能运维系统的最上层，职责是综合所有下层的指标特征数据(指标权重特征、指标分布特征、指标分位特征等)、指标关系知识图谱、指标预测结果等，得出行为决策。比如指标异常报警、服务池自动扩缩容等。其中，包括：针对服务的任一关键特征新产生的时序指标，采用该关键特征的分位、关键特征的权重对该关键特征新产生的时序指标进行判断，得到最终的调度行为决策，并根据最终的调度行为决策进行调度。

针对除关键接口特征外的任一关键特征，可根据服务的弹性调度敏感程度设置弹性调度阈值触发分位，将不同历史时间段内同一分位点所对应时序指标中较高的时序指标作为该关键特征的触发阈值，比如，将指标在历史7天范围内的耗时p99分位点和指标在历史30天内当前小时时段的耗时p99分位点中较高的值作为当前指标的弹性调度触发阈值。

其中，指标触发异常阈值后，结合指标权重数据，采用带权重的投票策略或者达到权重阈值的单票通过策略触发调度行为。其中，除关键接口特征外的任一关键特征的权重为人为预设权重；具体实时策略视业务敏感和复杂程度决定。

或者，针对服务的任一关键接口特征新产生的时序指标，当该关键接口特征的权重达到第二预设权重阈值，直接得到最终的调度行为决策。

5.1决策模块架构

和之前的特征提取或根因分析模块不同，决策模块一般内部自身采用多层结构，分低优先级独立模块和聚合模块，低优先级独立模块根据下层的某类数据特征直接给出扩缩容运维策略。一个系统中可以同时存在多个低优先级独立模块，比如有的模块主要考量接口耗时，有的模块侧重观察CPU利用率。聚合模块位于低优先级模块之上，综合全部下层策略，得到一个确定的动作，比如下层同时有模块给出不同的判断策略，有的模块建议缩容，有的建议扩容，聚合模块最终整合成一个唯一动作。

5.2策略设计

基于决策模块分层的设计，系统可能包含多个不同策略，比如CPU利用率，LOAD指标，但从我们的实践经验来看，其中最重要，也是最核心的往往是服务安全策略(重点关注服务的耗时情况是否处于安全的水位线内，尤其是目前主流的HTTP服务和RPC服务)。相比于其它简单的策略(CPU利用率，LOAD指标)，服务安全策略能更准确更直接的反馈当前服务的健康程度。

5.2.1策略的阈值选择

通过前面提到的特征提取模块，我们可以存储全部服务特征的历史分布情况，并依据服务的SLA标准，选择对应的分位值作为阈值，如图6就是计算的某个指标的分位数据，表中P999分位值为403，可以通过分位计算模块快速得到。在制定策略阈值时，一般将服务的弹性调度敏感程度设置弹性调度阈值触发分位，比如，将指标在历史7天范围内的耗时p999分位点和指标在历史30天内当前小时时段的耗时p999分位点中较高的值作为当前指标的弹性调度触发阈值。

5.2.2策略的触发

当某个指标触发异常阈值后，策略会处于激活状态，但并未正式发出调度指令，只有当指标权重达到了一定程度，才会触发调度行为。我们可以结合指标权重数据，判断指标对系统的重要程度，采用带权重的投票策略或者达到权重阈值的单票通过策略触发调度行为。具体实时策略视业务敏感和复杂程度决定。

本发明所取得的有益效果如下：

1.本技术方案结合了基于压测的阈值计算方案和基于单一特征的阈值计算方案的优点，从单一的正态分布特征扩展到基于历史分布、历史分位等多维特征，再结合根因分析和趋势预测技术，使该技术方案在具备自动化、高实效性的基础上，提升了弹性调度阈值计算的准确度。解决了现有技术中的基于正态分布特征的自动阈值计算方式的缺点：第一，特征过于单一，阈值计算结果准确性较差，导致误报过多或弹性调度不够敏感。第二，该方法无法准确识别一些不符合常规分布的特征指标状态，比如由于定时任务导致指标明显变化但实际无需扩容的情况。第三，历史分布特征计算结果不够灵活，当划定时间范围调整时，分布特征需要重新计算。

2.本技术方案几乎无需人工干预，自动化程度较高，具备自适应快速自我学习的能力。

3.本技术方案在计算历史时段的特征分布和特征分位时，具备灵活选择时间范围的能力，这是传统特征提取方法所不具备的。解决了现有技术中的基于压测的关键指标阈值点计算方式的缺点：第一，阈值点的更新速度依赖压测的频率，不能随业务变化动态调整。

第二，压测技术也存在关键指标选取不准确、压测手段模拟实际流量拟真度不足等问题。

第三，压测的人力成本较高。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

为使本领域内的任何技术人员能够实现或者使用本发明，上面对所公开实施例进行了描述。对于本领域技术人员来说；这些实施例的各种修改方式都是显而易见的，并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此，本公开并不限于本文给出的实施例，而是与本申请公开的原理和新颖性特征的最广范围相一致。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrative components)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块，或单元都可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种弹性调度方法，其特征在于，包括：

针对服务的任一关键特征新产生的时序指标，采用该关键特征的分位、关键特征的权重对该关键特征新产生的时序指标进行判断，得到最终的调度行为决策，并根据最终的调度行为决策进行调度；所述调度行为决策包括如下决策之一：指标异常报警、自动扩缩容；

所述关键特征包括关键接口特征，各关键接口特征的权重表示同一服务所具有的不同类型接口各自对应的权重；

各关键接口特征的权重根据所采集的关键接口特征的时序指标计算，具体包括：

采用流处理框架的单位时间窗口的窗口聚合功能对预设时间段内服务的关键接口特征的时序指标进行计算，计算各关键接口特征的时序指标在当前单位时间内的耗时，然后对所有关键接口特征的时序指标聚合得出各关键接口特征的归一化值，将各关键接口特征的归一化值作为各关键接口特征的权重，并形成各关键接口特征的权重计算结果，将各关键接口特征的权重计算结果存储于具备时序检索、时序处理和可视化能力的数据库；其中，该关键接口特征的时序指标在预设时间段内的单位时间的耗时占服务在预设时间段内的总耗时得到当前关键特征的归一化值；所述关键接口特征的权重计算结果包括：指标id、时序指标、关键接口特征的权重；

所述根据所采集的关键特征的时序指标计算各关键特征的分位，具体包括：

根据预设时间段内服务的关键特征的时序指标，采用流处理的时间聚合功能分别统计各关键特征的求和、平方求和、计数信息；

针对每个关键特征，根据该关键特征的求和、平方求和、计数信息进行计算，得出该关键特征在单位时间内的期望和标准差，将该关键特征在单位时间内的期望和标准差作为该关键特征的历史分布特征；

针对每一关键特征，基于该关键特征的预期取值范围对该关键特征的时序指标进行分桶，分别累计落入各个分桶内时序指标的数量；所述关键特征的预期取值范围为基于该关键特征在档位时间内的期望和标准差计算得到的各分桶的上下界；以及

采用向上取整的聚合算法对该关键特征的各个分桶进行合并，使得各分桶边界不重合且无重叠；统计合并后各个分桶内时序指标的数量；

基于各分桶内时序指标的数量计算得出该关键特征各个分桶边界的分位值；针对每个分桶，假设在该分桶内部概率密度相同，根据该分桶的边界分位值反推出该分桶内任一分位所对应的时序指标；

针对服务的任一关键特征新产生的时序指标，采用该关键特征的分位、关键特征的权重对该关键特征新产生的时序指标进行判断，得到最终的调度行为决策，具体包括：

针对除关键接口特征外的任一关键特征，将不同历史时间段内同一分位点所对应时序指标中较高的时序指标作为该关键特征的触发阈值；以及

当除关键接口特征外的任一关键特征新产生的时序指标达到其相应的触发阈值，则形成的初步调度行为决策，所述初步调度行为决策为激活行为决策但不发出调度指令；在该关键特征新产生的时序指标达到其相应的触发阈值后，且当该关键特征的权重达到其相应的预设权重阈值时，得到最终的调度行为决策；其中，除关键接口特征外的任一关键特征的权重为人为预设权重；

或者，

针对服务的任一关键接口特征新产生的时序指标，当该关键接口特征的权重达到第二预设权重阈值，直接得到最终的调度行为决策。

2.根据权利要求1所述的弹性调度方法，其特征在于，还包括：

通过预设时间段内服务的关键特征的时序指标对不同类型的关键特征在时间序列内的变化进行分析学习，建立各关键特征间的关联关系；并通过各关键特征间的关联关系构建出服务池的各关键特征关系知识图谱；所述关键特征关系知识图谱用于服务发生异常时，基于本关键特征关联关系知识图谱初步判断出异常和异常发生的原因；通过初步判断出的异常和异常发生的原因辅助作出最终的调度行为决策，其中，服务池包括多个服务。

3.根据权利要求1所述的弹性调度方法，其特征在于，还包括：

针对每个关键特征，根据所采集的预设时间段内服务的该关键特征的时序指标进行建模，得到该关键特征的历史时序模型，所述该关键特征的历史时序模型用来对未来预设时间段该关键特征的时序指标的变化进行预测，根据预测形成该关键特征的预测结果，所述该关键特征的预测结果用于辅助作出最终的调度行为决策。

4.一种弹性调度系统，其特征在于，包括：

决策单元，用于针对服务的任一关键特征新产生的时序指标，采用该关键特征的分位、关键特征的权重对该关键特征新产生的时序指标进行判断，得到最终的调度行为决策，并根据最终的调度行为决策进行调度；所述调度行为决策包括如下决策之一：指标异常报警、自动扩缩容；

所述特征提取单元包括关键接口特征权重提取模块、历史分布特征提取模块和历史分位特征提取模块，其中：

所述关键接口特征权重提取模块，采用流处理框架的单位时间窗口的窗口聚合功能对预设时间段内服务的关键接口特征的时序指标进行计算，计算各关键接口特征的时序指标在当前单位时间内的耗时，然后对所有关键接口特征的时序指标聚合得出各关键接口特征的归一化值，将各关键接口特征的归一化值作为各关键接口特征的权重，并形成各关键接口特征的权重计算结果，将各关键接口特征的权重计算结果存储于具备时序检索、时序处理和可视化能力的数据库；其中，该关键接口特征的时序指标在预设时间段内的单位时间的耗时占服务在预设时间段内的总耗时得到当前关键特征的归一化值；所述关键接口特征的权重计算结果包括：指标id、时序指标、关键接口特征的权重；

所述历史分布特征提取模块，用于根据预设时间段内服务的关键特征的时序指标，采用流处理的时间聚合功能分别统计各关键特征的求和、平方求和、计数信息；针对每个关键特征，根据该关键特征的求和、平方求和、计数信息进行计算，得出该关键特征在单位时间内的期望和标准差，将该关键特征在单位时间内的期望和标准差作为该关键特征的历史分布特征；

所述历史分位特征提取模块，用于针对每一关键特征，基于该关键特征的预期取值范围对该关键特征的时序指标进行分桶，分别累计落入各个分桶内时序指标的数量；所述关键特征的预期取值范围为基于该关键特征在档位时间内的期望和标准差计算得到的各分桶的上下界；以及采用向上取整的聚合算法对该关键特征的各个分桶进行合并，使得各分桶边界不重合且无重叠；统计合并后各个分桶内时序指标的数量；基于各分桶内时序指标的数量计算得出该关键特征各个分桶边界的分位值；针对每个分桶，假设在该分桶内部概率密度相同，根据该分桶的边界分位值反推出该分桶内任一分位所对应的时序指标；

所述决策单元包括阈值设置模块、第一决策模块和第二决策模块：

所述阈值设置模块，用于针对除关键接口特征外的任一关键特征，将不同历史时间段内同一分位点所对应时序指标中较高的时序指标作为该关键特征的触发阈值；

所述第一决策模块，用于当除关键接口特征外的任一关键特征新产生的时序指标达到其相应的触发阈值，则形成的初步调度行为决策，所述初步调度行为决策为激活行为决策但不发出调度指令；在该关键特征新产生的时序指标达到其相应的触发阈值后，且当该关键特征的权重达到其相应的预设权重阈值时，得到最终的调度行为决策；其中，除关键接口特征外的任一关键特征的权重为人为预设权重；

所述第二决策模块，用于针对服务的任一关键接口特征新产生的时序指标，当该关键接口特征的权重达到第二预设权重阈值，直接得到最终的调度行为决策。

5.根据权利要求4所述的弹性调度系统，其特征在于，还包括：

根因分析单元，用于通过预设时间段内服务的关键特征的时序指标对不同类型的关键特征在时间序列内的变化进行分析学习，建立各关键特征间的关联关系；并通过各关键特征间的关联关系构建出服务池的各关键特征关系知识图谱；所述关键特征关系知识图谱用于服务发生异常时，基于本关键特征关联关系知识图谱初步判断出异常和异常发生的原因；通过初步判断出的异常和异常发生的原因辅助作出最终的调度行为决策，其中，服务池包括多个服务。

6.根据权利要求4所述的弹性调度系统，其特征在于，还包括：

趋势预测单元，用于针对每个关键特征，根据所采集的预设时间段内服务的该关键特征的时序指标进行建模，得到该关键特征的历史时序模型，所述该关键特征的历史时序模型用来对未来预设时间段该关键特征的时序指标的变化进行预测，根据预测形成该关键特征的预测结果，所述该关键特征的预测结果用于辅助作出最终的调度行为决策。