CN105184403A - 基于机器学习和统计模型检验的工作流最优配置寻优方法 - Google Patents

基于机器学习和统计模型检验的工作流最优配置寻优方法 Download PDF

Info

Publication number
CN105184403A
CN105184403A CN201510551452.3A CN201510551452A CN105184403A CN 105184403 A CN105184403 A CN 105184403A CN 201510551452 A CN201510551452 A CN 201510551452A CN 105184403 A CN105184403 A CN 105184403A
Authority
CN
China
Prior art keywords
workflow
rai
statistical model
machine learning
forecast
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510551452.3A
Other languages
English (en)
Other versions
CN105184403B (zh
Inventor
陈铭松
顾璠
黄赛杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201510551452.3A priority Critical patent/CN105184403B/zh
Publication of CN105184403A publication Critical patent/CN105184403A/zh
Application granted granted Critical
Publication of CN105184403B publication Critical patent/CN105184403B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于机器学习和统计模型检验的工作流最优配置寻优方法,包括以下步骤:可行RAI生成,获取工作流配置的所有可能组合实例,并经用户需求筛选得到所有符合要求的解;可行RAI的特征化,提取资源分配实例的特征以获取特征向量,并使用统计模型检验工具获取执行成功率;RAI预测,使用机器学习方法对选定的测试集进行训练得到回归函数,对测试集中的数据进行预测并对预测结果排序;预测结果验证,将预测结果反馈至统计模型检验工具,获得成功率的实际仿真值,并最终得到近似最优解。本发明在较短的时间内获得成功率高度可靠的工作流资源分配实例,提高用户体验。

Description

基于机器学习和统计模型检验的工作流最优配置寻优方法
技术领域
本发明涉及一种工作流建模方法,尤其涉及一种基于机器学习和统计模型检验的工作流最优配置寻优方法,通过监督学习和统计模型检验的应用,预测工作流分配实例的实际执行成功率,并给出大于指定阈值的一组配置。
背景技术
工作流(Workflow)是指通过计算机,使业务流程整体或部分自动化。工作流管理联盟(WfMC)将工作流定义“商业流程的整体或部分自动化,期间文档、信息或任务将根据一系列程序化规则,在各个环节依次进行”。通过工作流,企业可更加高效地实现经营目的。
机器学习指通过经验数据重新组织自身知识结构,使自身性能得到改进。近年来,机器学习已被成功应用于多个领域,如数据挖掘、信息过滤以及预测建模等。由于机器学习方法的自我性能改进能力,及对未知解的预测能力,其已被逐渐应用到云计算资源分配和管理工作中。监督学习是从标记的训练数据推断功能的机器学习任务,它可以用来解决分类和回归问题,其通过对部分已标注样本进行训练和学习,来预测未标注样本的目标值。
模型检验(ModelChecking)是形式化领域中一种非常重要的方法,在计算机软硬件及控制系统的验证中得到了广泛的应用。基于仿真的统计模型检验(StatisticalModelChecking,SMC)更加节省资源和时间,可以被视作在测试和形式化验证间的一种权衡。利用统计模型检验方法对复杂的大型系统进行验证,能有效地避免状态空间爆炸等问题。UPPAAL-SMC在UPPAAL的基础上进行了随机性和统计模型检验方面的扩展,是一个基于统计模型检验的工具。
在资源偏差存在的情形下,传统的工作流寻优方法有以下的不足之处:为了在资源存在偏差的情况下获得近似最优的资源分配实例RAI(ResourceAllocationInstance),需要对大量的RAI进行比较,整个寻优过程会有较长的耗时,从而导致需求反馈周期较长、用户体验下降。因此,提出更为有效的寻优方法能更好地节约时间、提高用户体验。
发明内容
本发明的目的是提供一种基于机器学习和统计模型检验的工作流最优配置寻优方法,系统地对资源分配策略进行优化。该方法使用统计模型检验技术,通过对系统随机仿真过程进行监测,并通过统计方法得到系统运行的成功率。同时利用机器学习中的监督学习方法,仅需要对少量的实例进行评估,可极大地降低寻优过程的总耗时。
本发明的目的是这样实现的:
一种基于机器学习和统计模型检验的工作流最优配置寻优方法,包括以下步骤:
a)可行RAI生成
使用深度优先遍历算法获取工作流配置的所有可能组合实例,并经指定的用户需求筛选得到所有符合要求的解;
b)可行RAI的特征化
提取资源分配实例的特征,获取每一个资源分配实例对应的特征向量,并使用统计模型检验工具获取其对应的目标值,即执行成功率;
c)RAI预测
使用机器学习中主流的监督学习方法,对选定的测试集进行训练得到回归函数,对测试集中的数据进行预测,并对预测结果进行排序;
d)预测结果验证
将预测结果反馈至统计模型检验工具,获得成功率的实际仿真值,并最终返回仿真结果大于阈值的解即近似最优解;其中:
所述RAI是一个部署好具体配置的工作流任务,不同的RAI具有不同的执行时间、执行价格和执行误差。
所述资源分配实例的特征,是根据用户需求和工作流执行的关键性能指标,提取的可区分和唯一标识一个工作流资源分配实例的参数集合;具体选取的特征为实例中每个服务节点的单位价格cost、实例中每个服务节点的执行时间分布、不考虑偏差时实例的整体价格以及实例的总体期望执行时间。
所述成功率的实际仿真值,是通过统计模型检验工具对工作流实例进行建模,并将用户需求用时态逻辑表述,经仿真得到的值。
本发明的有益效果是,可以高效地获得工作流资源分配实例的最优解,通过机器学习方法的应用,对成功率未知的实例进行预测。此外在建模和实例特征化过程中考虑了误差因素,并在获得预测结果后再次验证,因此可确保验证结果的可靠性。
附图说明
图1为本发明的流程图;
图2为本发明具体实施方式流程图。
具体实施方式
下面结合附图及具体实施例,对本发明作进一步的详细说明。实施本发明的过程、条件、试验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
参阅图1,本发明包括:可行RAI生成、可行RAI的特征化、RAI预测及预测结果验证步骤。下面详述各个步骤。
如图2所示,所有生成的资源分配实例(RAI)将经过用户的需求筛选从而得到可行实例,用户需求即用户提出的整体价格和时间限制。每个工作流节点可能存在多个虚拟机供选择,单个工作流的资源分配实例数量为n1×n2×…×nk个。在计算出每个RAI的整体价格和时间后将其与用户提出的需求限制进行比较筛选,即可得到所有的可行RAI。
得到所有的可行RAI后,需要对这些RAI进行特征化处理,得到RAI的特征向量,用于进行机器学习。特征的合理提取是保证预测正确性的关键步骤之一。特征提取应当根据重要性、独立性和多样性的原则进行。具体的,对于一个对资源分配实例,本发明选取以下四种特征:
1.实例中每个服务节点的单位价格cost;
2.实例中每个服务节点的执行时间分布,即期望时间U(vi,RAI(vi))和平均差VAR(vi,RAI(vi));
3.不考虑偏差时,实例的整体价格;
4.实例的总体期望执行时间;
上述特征相互独立并且能唯一代表一个实例,同时这些特征的数值也决定了一个RAI的性能,提取出的特征向量是在不确定环境中验证工作的最关键因素。假设工作流中有k个服务,则其特征向量将有3×k+2个特征。
每个被实例化的虚拟机配置会被编码成一个特征向量。由于特征化后的特征向量的数量仍然十分庞大,直接使用统计模型检验的方法获取这些特征向量的成功率将消耗大量的计算资源与时间,效率过低。本发明采用机器学习的思想对特征向量进行处理,大大提高了工作流配置的寻优效率。
所有的特征向量将被分成两个集合:训练集和测试集。其中,训练集用于训练回归函数,而测试集则作为回归函数的输入,生成预测结果。本发明中采用监督学习方法执行基于预测的RAI寻优。训练集中的实例将采用统计模型检验(SMC)的方法,使用UPPAAL-SMC对系统进行大量的随机模拟运行,生成各个资源分配实例的成功率。训练集中的特征向量和对应的成功率将作为监督学习算法的输入,用于训练得到回归函数。训练获得的回归函数将作用于测试集,预测测试集中各个特征向量的成功率,这些成功率数据即为回归函数对于测试集的预测结果。
预测完成后根据测试集中预测得到的成功率进行排序,所有RAI按降序排列。在对按序排列的实例集进行筛选,去除掉成功率数值异常(如超过100%)的实例后,即得到了期望的有序实例集。
最后,本发明再次使用UPPAAL-SMC迭代地验证该降序序列。在迭代过程中,如果一个实例的成功率验证值(SR)大于T,则将该实例作为近似最优解给出。否则提示实例集中无实例可以满足给定的QoS(服务质量)阈值。同时对于训练集中的实例,同样将实例的成功率与T进行比较,若SR>T则作为近似最优解给出。至此,所有寻优步骤完成,所有的近似最优解被获取到。
本发明能够在较短的时间内获得成功率高度可靠的工作流资源分配实例,提高用户体验。

Claims (3)

1.基于机器学习和统计模型检验的工作流最优配置寻优方法,其特征在于,该方法包括以下步骤:
a)可行RAI生成
使用深度优先遍历算法获取工作流配置的所有可能组合实例,并经指定的用户需求筛选得到所有符合要求的解;
b)可行RAI的特征化
提取资源分配实例的特征,获取每一个资源分配实例对应的特征向量,并使用统计模型检验工具获取其对应的目标值,即执行成功率;
c)RAI预测
使用机器学习中主流的监督学习方法,对选定的测试集进行训练得到回归函数,对测试集中的数据进行预测,并对预测结果进行排序;
预测结果验证
将预测结果反馈至统计模型检验工具,获得成功率的实际仿真值,并最终返回仿真结果大于阈值的解即近似最优解;其中:
所述RAI是一个部署好具体配置的工作流任务,不同的RAI具有不同的执行时间、执行价格和执行误差。
2.根据权利要求1所述的方法,其特征在于,所述资源分配实例的特征,是根据用户需求和工作流执行的关键性能指标,提取的可区分和唯一标识一个工作流资源分配实例的参数集合;具体选取的特征为实例中每个服务节点的单位价格cost、实例中每个服务节点的执行时间分布、不考虑偏差时实例的整体价格以及实例的总体期望执行时间。
3.根据权利要求1所述的方法,其特征在于,所述成功率的实际仿真值,是通过统计模型检验工具对工作流实例进行建模,并将用户需求用时态逻辑表述,经仿真得到的值。
CN201510551452.3A 2015-09-01 2015-09-01 基于机器学习和统计模型检验的工作流最优配置寻优方法 Active CN105184403B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510551452.3A CN105184403B (zh) 2015-09-01 2015-09-01 基于机器学习和统计模型检验的工作流最优配置寻优方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510551452.3A CN105184403B (zh) 2015-09-01 2015-09-01 基于机器学习和统计模型检验的工作流最优配置寻优方法

Publications (2)

Publication Number Publication Date
CN105184403A true CN105184403A (zh) 2015-12-23
CN105184403B CN105184403B (zh) 2018-09-28

Family

ID=54906466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510551452.3A Active CN105184403B (zh) 2015-09-01 2015-09-01 基于机器学习和统计模型检验的工作流最优配置寻优方法

Country Status (1)

Country Link
CN (1) CN105184403B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119268A (zh) * 2019-05-21 2019-08-13 成都派沃特科技股份有限公司 基于人工智能的工作流优化方法
US10838412B2 (en) 2017-06-14 2020-11-17 Sabic Global Technologies B.V. Hybrid machine learning approach towards olefins plant optimization
US11295242B2 (en) 2019-11-13 2022-04-05 International Business Machines Corporation Automated data and label creation for supervised machine learning regression testing
US11409576B2 (en) * 2017-12-29 2022-08-09 Entefy Inc. Dynamic distribution of a workload processing pipeline on a computing infrastructure
CN117077867A (zh) * 2023-09-08 2023-11-17 广州市中大信息技术有限公司 基于神经网络实现的企业数据智能分析方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130129165A1 (en) * 2011-11-23 2013-05-23 Shai Dekel Smart pacs workflow systems and methods driven by explicit learning from users
CN103620581A (zh) * 2011-03-01 2014-03-05 赛门铁克公司 用于执行机器学习的用户界面和工作流
CN103986669A (zh) * 2014-05-07 2014-08-13 华东师范大学 一种云计算中资源分配策略的评估方法
CN104156269A (zh) * 2014-07-22 2014-11-19 华东师范大学 一种基于时间自动机的软硬件最优划分的可视化方法
US9015082B1 (en) * 2010-12-14 2015-04-21 Symantec Corporation Data quality assessment for vector machine learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9015082B1 (en) * 2010-12-14 2015-04-21 Symantec Corporation Data quality assessment for vector machine learning
CN103620581A (zh) * 2011-03-01 2014-03-05 赛门铁克公司 用于执行机器学习的用户界面和工作流
US20130129165A1 (en) * 2011-11-23 2013-05-23 Shai Dekel Smart pacs workflow systems and methods driven by explicit learning from users
CN103986669A (zh) * 2014-05-07 2014-08-13 华东师范大学 一种云计算中资源分配策略的评估方法
CN104156269A (zh) * 2014-07-22 2014-11-19 华东师范大学 一种基于时间自动机的软硬件最优划分的可视化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SAIJIE HUANG: "Variation-Aware Resource Allocation Evaluation for Cloud Workflows using Statistical Model Checking", 《IEEE》 *
TIE-NAN DENG: "MODEL AND INTELLIGENT ALGORITHM FOR WORKFLOW RESOURCE OPTIMIZATION TO MINIMIZE TOTAL FLOW TIME", 《IEEE》 *
孟祥山 等: ""机器学习"在工作流模型设定中的应用", 《计算机应用与软件》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10838412B2 (en) 2017-06-14 2020-11-17 Sabic Global Technologies B.V. Hybrid machine learning approach towards olefins plant optimization
US11409576B2 (en) * 2017-12-29 2022-08-09 Entefy Inc. Dynamic distribution of a workload processing pipeline on a computing infrastructure
US11645123B1 (en) 2017-12-29 2023-05-09 Entefy Inc. Dynamic distribution of a workload processing pipeline on a computing infrastructure
CN110119268A (zh) * 2019-05-21 2019-08-13 成都派沃特科技股份有限公司 基于人工智能的工作流优化方法
US11295242B2 (en) 2019-11-13 2022-04-05 International Business Machines Corporation Automated data and label creation for supervised machine learning regression testing
CN117077867A (zh) * 2023-09-08 2023-11-17 广州市中大信息技术有限公司 基于神经网络实现的企业数据智能分析方法及系统

Also Published As

Publication number Publication date
CN105184403B (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN104951425B (zh) 一种基于深度学习的云服务性能自适应动作类型选择方法
CN104798043B (zh) 一种数据处理方法和计算机系统
CN105184403A (zh) 基于机器学习和统计模型检验的工作流最优配置寻优方法
Miu et al. Predicting the execution time of workflow activities based on their input features
CN104572449A (zh) 一种基于用例库的自动化测试方法
CN113010393A (zh) 基于混沌工程的故障演练方法及装置
Fei et al. Elastic resource provisioning using data clustering in cloud service platform
Boulmier et al. An autonomic approach for the selection of robust dynamic loop scheduling techniques
Czarnul et al. Simulation of parallel similarity measure computations for large data sets
Srivastava et al. Predicting the flexibility of dynamic loop scheduling using an artificial neural network
CN109743200B (zh) 基于资源特征的云计算平台计算任务成本预测方法及系统
CN104794186B (zh) 数据库负载响应时间预测模型训练样本的采集方法
Li et al. The extreme counts: modeling the performance uncertainty of cloud resources with extreme value theory
Tiwari et al. Identification of critical parameters for MapReduce energy efficiency using statistical Design of Experiments
Islam et al. FaCS: Toward a fault-tolerant cloud scheduler leveraging long short-term memory network
Zhang et al. HPC usage behavior analysis and performance estimation with machine learning techniques
Liu et al. An optimized speculative execution strategy based on local data prediction in a heterogeneous hadoop environment
Bhattacharyya et al. Semantic-aware online workload characterization and consolidation
Rayan et al. Resource Prediction for Big Data Processing in a Cloud Data Center: A Machine Learning Approach: A Machine Learning Approach
Chang et al. Parameter optimization of Spark in heterogeneous environment based on hyperband
Guan et al. Constructing interdependent risks network of project portfolio based on bayesian network
Gan et al. Robust and flexible mapping for real-time distributed applications during the early design phases
Daud et al. Scalable link prediction in twitter using self-configured framework
US11644882B2 (en) System and method for predicting power usage of network components
Nasar et al. A differential evolution approach for software testing effort allocation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant