CN100412871C - 生成用于自动化系统管理的领域知识的系统和方法 - Google Patents

生成用于自动化系统管理的领域知识的系统和方法 Download PDF

Info

Publication number
CN100412871C
CN100412871C CNB2006101055967A CN200610105596A CN100412871C CN 100412871 C CN100412871 C CN 100412871C CN B2006101055967 A CNB2006101055967 A CN B2006101055967A CN 200610105596 A CN200610105596 A CN 200610105596A CN 100412871 C CN100412871 C CN 100412871C
Authority
CN
China
Prior art keywords
knowledge base
model
data
function
base model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2006101055967A
Other languages
English (en)
Other versions
CN1900932A (zh
Inventor
桑迪普·M.·尤塔姆查恩达尼
约翰·D.·帕尔默
阴晓昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1900932A publication Critical patent/CN1900932A/zh
Application granted granted Critical
Publication of CN100412871C publication Critical patent/CN100412871C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling

Abstract

一种用于创建自动化系统管理所需的领域知识库模型的系统和方法,其中,该方法包括定义包括输入/输出参数的数据存储系统设计者规范;分析数据存储系统的运行时系统性能日志;识别输入/输出参数的不同参数之间的关系函数;从设计者规范、运行时系统性能日志以及关系函数派生出知识库模型;在系统运行时使用新监视的系统性能日志,细化知识库模型;通过检测不完整的设计者规范来改善知识库模型的精度,其中,优选情况下,通过数据挖掘技术产生知识库模型。

Description

生成用于自动化系统管理的领域知识的系统和方法
技术领域
一般而言,本发明的实施例涉及存储系统,具体来说,用于创建实现运行时系统管理自动化的域知识库的系统.
背景技术
系统管理通常是由人类管理员驱动的,它们连续地对系统进行监视,分析其行为,采取校正操作,以确保它能够朝着所希望的性能、可用性、安全性等等阈值目标方向前进.随着系统管理的成本占总拥有成本(TOC)的比例越来越大,自我管理本质上已经变得越来越迫切.自我管理的思想在当前技术中是已知的.已经使用专家系统来自动化各种劳动密集型的过程,如疾病诊断、故障分析等等.通过部署专家系统所学到的重要教训由已知的知识原理作出了概述:“人工智能程序(即,专家系统)执行胜任高水平的任务的能力主要取决于程序对其任务领域的知识的了解,而不是取决于该程序的推理过程”.换句话说,自动化系统的有效性取决于在管理框架内编码的特定领域的知识.
现有的用于编码领域知识的技术一般陷于两个极端:(1)白箱方法,在这种方法中,系统设计者定义了详细的公式或规则来描述系统的特征.这些技术一般受到领域知识面对系统中正在发生的变化时过度的复杂性和脆弱性的限制.(2)黑箱方法,在这种方法中,系统通过监视系统行为并使用机器学习技术来获取特定领域知识.然而,此方法容易出错,一般需要的迭代次数太大,无法实现,很难接近于真实世界的多参数系统.
对特定领域知识的编码是专家系统内的研究比较活跃的领域.在系统管理中,用于创建领域知识的白箱方法被表示为事件-条件-操作(ECA)规则,该规则定义了不同系统状态下的系统行为.这些规则充当自动化管理的“罐装的配方”;即,在运行时,管理软件只需确定在当前状态下适用的规则,并调用它.类似地,黑箱方法主要表示为“基于情况的推理”(CBR),其中,管理软件通过扫描类似于当前状态的以前的系统状态的历史来确定要调用的操作.鉴于上述情况,需要有克服了复杂性、脆弱性和精度这些问题的新颖的领域知识编码技术.
发明内容
鉴于上述情况,本发明的实施例提供了一种用于创建自动化系统管理所需的领域知识库模型的系统,其中,系统包括数据存储系统设计者规范,其中,包括输入/输出参数;用于收集数据存储系统的运行时系统性能日志的第一处理器;用于使用所述设计者规范,分析所述系统性能日志,来识别输入/输出参数中的不同参数之间的关系函数的第二处理器;从设计者规范、运行时系统性能日志以及关系函数派生出知识库模型;以及第三处理器,用于在系统运行时使用新监视的系统性能日志来细化本知识库模型,并通过检测不完整的设计者规范来改善知识库模型的精度.优选情况下,通过数据挖掘技术产生知识库模型.
知识库模型可以包括数学函数,这些数学函数捕获决定系统运行时的校正操作所需的数据存储系统的细节,其中,知识库模型可以进一步包括针对数据存储系统的单个组件的响应时间的模型,作为组件中的传入的负载的函数,其中,响应时间取决于由数据存储系统的工作负荷流所产生的服务时间和等待时间.知识库模型可以进一步包括数据存储系统的系统工作负荷的调用路径中的单个组件上的负载的模型,作为每一个工作负荷注入到数据存储系统中的请求速率的函数,对每一个组件中的负载进行预测.另外,知识库模型还可以包括数据存储系统的操作调用的成本和效益的模型.优选情况下,数据存储系统设计者规范进一步包括操作模型子集,所述操作模型子集是调用参数、工作负荷特征以及设置参数的操作模型子集,所述调用参数、工作负荷特征以及设置参数在知识库模型中具有相关性;以及不同的知识库模型之间的相关性的性质,其中,相关性的性质包括线性函数、二次函数、多项式函数和指数函数中的任何一个.优选情况下,不完整的设计者规范包括缺少影响正在模型化的输出参数的所有相关输入参数的设计者指定的规范.
本发明的另一个实施例提供了一种用于创建自动化系统管理所需的领域知识库模型的方法,用于执行创建领域知识库模型的方法的程序存储设备,其中,该方法包括定义包括输入/输出参数的数据存储系统设计者规范;使用所述设计者规范,分析数据存储系统的运行时系统性能日志,来识别输入/输出参数中的不同参数之间的关系函数;从设计者规范、运行时系统性能日志以及关系函数派生出知识库模型;在系统运行时使用新监视的系统性能日志,细化知识库模型;通过检测不完整的设计者规范来改善知识库模型的精度,其中,优选情况下,通过数据挖掘技术产生知识库模型.
知识库模型可以包括数学函数,这些数学函数捕获决定系统运行时的校正操作所需的数据存储系统的细节.知识库模型可以进一步包括针对数据存储系统的单个组件的响应时间的模型,作为组件中的传入的负载的函数,其中,响应时间取决于由数据存储系统的工作负荷流所产生的服务时间和等待时间.知识库模型可以进一步包括数据存储系统的系统工作负荷的调用路径中的单个组件上的负载的模型,其中,作为每一个工作负荷注入到数据存储系统中的请求速率的函数,对每一个组件中的负载进行预测.知识库模型可以进一步包括数据存储系统的操作调用的成本和效益的模型.优选情况下,数据存储系统设计者规范进一步包括操作模型子集,所述操作模型子集是调用参数、工作负荷特征以及设置参数的操作模型子集,所述调用参数、工作负荷特征以及设置参数在知识库模型中具有相关性;以及不同的知识库模型之间的相关性的性质,其中,相关性的性质包括线性函数、二次函数、多项式函数和指数函数中的任何一个.优选情况下,不完整的设计者规范包括缺少影响正在模型化的输出参数的所有相关输入参数的设计者指定的规范.
通过阅读下面的说明并参考附图,本发明的实施例的这些方面和其他方面和目标将变得显而易见.然而,应该理解,下面的说明,尽管指出了本发明的优选实施例和许多具体细节,但是该说明只作为说明,而不作出限制.在不偏离本发明的精神的情况下,在本发明的实施例的范围内,可以作出许多更改和修改,本发明的实施例包括所有这样的修改.
附图说明
通过参考附图,从下面的详细说明中可以更好地理解本发明的实施例,其中:
图1显示了根据本发明的实施例的工作负荷的数据集与可用资源的映射;
图2显示了根据本发明的实施例的导出操作和组件函数的过程;
图3显示了根据本发明的实施例的迁移操作的规范;
图4显示了根据本发明的实施例的被监视的信息的数据库的架构;
图5显示了根据本发明的实施例的神经网络的自适应学习;
图6显示了根据本发明的实施例的不完整的组件规范;
图7显示了根据本发明的实施例的IOPS与num_thread关系的图形表示;
图8(a)和8(b)显示了根据本发明的实施例的通过修复诸如RW_ratio和SR_ratio之类的其他参数的值的IOPS vs.num_thread的图形表示;
图9显示了其中根据本发明的实施例指定了所有相关参数的组件规范;
图10(a)和10(b)显示了根据本发明的实施例的批学习和自适应学习的精度和运行时的图形表示;
图11显示了根据本发明的实施例的优选方法的流程图;
图12是根据本发明的实施例的计算机系统的示意图;以及
图13是根据本发明的实施例的系统的示意图.
具体实施方式
下面将参考非限制性的实施例(在附图和下面的描述中进行说明)比较全面地讲述本发明的实施例和其各种特征和优点.值得注意的是,附图中所说明的特点不一定是按比例绘制的.省略了对已知的组件和处理技术的描述,以便不至于会对本发明的实施例的理解造成模糊.这里所使用的示例只用于促进对实施本发明的实施例的方式的理解,并帮助那些本领域技术人员实施本发明的实施例.相应地,示例不应该被理解为限制本发明的实施例的范围.
如上文所提及的,需要有克服了复杂性、脆弱性和精度这些问题的新颖的领域知识编码技术.本发明的实施例是这样实现这一点的:提供叫做“MonitorMining”的灰箱领域知识编码技术,该技术使用简单系统设计者规范与使用机器学习所收集的信息的组合.现在请参看图形,特别是图1到13,在这些图形中,类似的参考字符一致地在全部图形中表示对应的特征,显示了本发明的优选实施例.
本发明的实施例提供了用于生成领域知识的技术.领域知识包括数学函数(简称为“模型”).对于这些模型中的每一个模型,设计者规范列出了领域特定的输入参数,而诸如神经网络、支持向量机等等之类的回归技术被用来推导将这些参数关联起来的精确数学函数.通过定期向新监视的数据施加回归,可以在系统运行时连续地细化这些函数.通过限制为回归考虑的参数的数量,本发明的实施例所提供的优点包括简化的设计者定义的规范,非脆弱性、推导的函数的更快的收敛性.本发明的实施例是这样实现这些优点的:为自动化的存储管理提供领域知识的基于模型的表示法;使用“灰箱”方法创建和发展领域知识的技术;迎合不完整的设计者规范的现成技术.
表1定义了根据本发明的实施例的管理术语.
表1:系统管理术语
  术语   描述
  服务级别目标(SLO)   为系统的性能、可靠性、安全性、可用性定义所希望的阈值.本发明的实施例支持性能SLO.性能SLO是如下形式:throughput-threshold@latency-threshold;即,低于吞吐量-阈值的请求速率应该具有低于延迟-阈值的平均响应-时间.
  工作负荷   在系统上运行了多个应用程序(如Web服务器、电子邮件);由每一个应用程序产生的输入/输出(I/O)请求被称为“工作负荷”.工作负荷特征是指I/O访问特征,请求速率、平均请求大小、读取/写入比、连续的/随机访问模式.由工作负荷访问的数据被称为“数据集”
  校正操作   改变系统的行为,以便它朝管理员定义的目标聚焦.操作可以分为:对系统进行调整,而没有数据的物理移动,并可以立即生效的短期操作;例如,数据预取、节流等等.长期操作一般涉及数据的物理移动,并具有不可以忽略的瞬时成本,例如,数据迁移、复制.
  调用路径   系统中的用于服务于工作负荷请求的一系列组件.
图1显示了具有多个使用存储器资源的应用程序(如电子邮件、数据库、Web-服务器)的生产存储系统.每一个应用程序都可以具有不同的访问特征、优先级,以及SLO.存储器虚拟化引擎(如SAN.FS和SAN卷控制器)的任务是将应用程序数据映射到可用的存储器资源.数据到资源的一次映射不是最优的,在大多数情况下并不可行,因为在运行时产生的访问特征、组件故障,以及负载陡增等初始信息不完整.如此,需要自动化系统管理,以连续地观察、分析,以及通过调用诸如节流、预先获取、数据复制等等之类的校正操作来进行操作.相应地,如下面所进一步描述的,本发明的实施例解决了这些需求.
在运行于系统中的工作负荷的SLO中,管理框架调用校正操作,以最小化诸如工作负荷变化、组件故障,以及负载陡增之类的系统事件的影响.生成操作选择函数不是简单的事情:因为它需要考虑到:(1)取决于系统状态和用于操作调用的参数值的操作的成本效益;(2)可能会使几个操作在给定状态下不可行的系统上的工作负荷趋势和负载曲线图;如此,没有用于调用操作的通用的“经验法则”;(3)有大量可能的系统状态(一般而言,无法编写用于在每一种可能的系统状态下选择操作的策略规则),并需要适应系统中的变化,如添加新的组件和新的应用程序工作负荷.
基于模型的用于自动化系统管理的方法,如本发明的实施例所提供的方法,使用对具有给定负载特征和配置参数的系统的行为的预测函数作出决策.此方法所存在的主要挑战是将领域特定的细节表示为预测函数或模型、创建这些模型,以及在运行时使用模型来决定校正操作.相应地,本发明的实施例为自我发展的模型的表示和创建的框架.
领域知识包括数学函数(即,模型),用于捕获决定运行时的校正操作所需的系统细节.在存储系统的情况下,领域知识包括下列模型:(1)组件的响应时间,作为组件中的传入的负载的函数(组件模型);(2)工作负荷的调用路径中的单个组件上的负载(工作负荷模型);以及(3)操作调用的成本和效益(操作模型).下面将进一步描述这些模型中的每一个模型.
组件模型预测组件的响应时间,作为组件中的传入的负载的函数.组件的响应时间取决于工作负荷流所产生的服务时间和等待时间.服务时间是工作负荷特征的函数,并是如下形式:
Stime W i = c ( req _ size , req _ rate , rw _ ratio , random / sequential , cache _ hit _ rate . . . )
等待时间表示由于与到达组件的其他工作负荷流交错而花费在队列中的时间.本发明的实施例通过根据多类排队模型而估计每一个单个流的等待时间来求出此非平凡的计算的近似值.所产生的响应时间近似为如下.组件的utilization U是:
Utilization ( U ) = Σ i = 1 n λ W i Stime W i
其中,
Figure C20061010559600122
是到达速率,
Figure C20061010559600123
是工作负荷流Wi的服务时间.工作负荷流Wi的组件的所产生的响应时间Rtime被表示为:
Rtime W i = Stime W i 1 - U
根据本发明的实施例,工作负荷模型预测每一个组件上的负载,作为每一个工作负荷注入到系统中的请求速率的函数.例如,要预测由工作负荷j所产生的组件中的请求的速率:
Component_loadi,j=wi,j(workload_request_ratej)
在现实世界的情况下,函数Wi,j随着工作负荷j变化或其他工作负荷改变它们的访问模式而连续地变化(例如,具有良好的时间局部性的工作负荷将其他工作负荷推离高速缓存).为解决这些影响,本发明的实施例将函数wi,j表示为移动平均数,该移动平均数通过每隔n个采样周期,获取重新计算。
操作模型捕获调用该操作的瞬时成本和预期的效益.这些效果是当前系统状态和调用参数的值.调用操作的效果被表示下列情况之一的变化:
(1)组件模型;例如,数据预取改善了连续的工作负荷的组件的响应时间,并被表示为组件模型中的变化.
(2)工作负荷模型;例如,数据的迁移减少了在数据移到新的组件时的工作负荷对当前组件的依赖;这被表示工作负荷模型中的变化.
(3)工作负荷访问特征;例如,节流操作被表示工作负荷请求速率中的变化.
在上文所描述的示例中,节流和数据预取一般具有可以忽略的瞬时成本.然而,诸如迁移之类的操作会产生从源读取数据并将它写入到目标中的瞬时成本.瞬时成本以及永久的效益函数以工作负荷模型来表示;瞬时成本被形式化为源和目标组件上的另外的工作负荷流.
组件、工作负荷,以及操作模型的函数可以潜在地包括大量的参数.例如,在迁移操作的情况下,监视基础架构将从调用路径中的单个组件收集详细的状态信息(约为数百个参数).纯粹的黑箱方法一般将试图试图涉及它们所有的函数,一般而言相当不准确.另一方面,一般而言,白箱方法将在相关的参数子集之间定义准确的函数,一般而言,定义起来比较复杂,对于系统变化是脆弱的.
相应地,本发明的实施例提供了混合方法,在该方法中,设计者定义了相关的参数的列表以及关系的性质的提示(如图2所示),而使用数据回归技术来推导函数.本发明的实施例所提供的技术的直觉是,相关的参数的列表取决于实际实现方式,并且相对于物理基础架构不脆弱,而参数函数的系数是脆弱的,并在运行时发展.
设计者规范枚举了操作、组件和工作负荷模型的相关的输入/输出参数的列表;例如“”参数X与目标参数Y相关.”另外,规范可以具有关系的类型的可选提示;例如,“在参数X和参数Y之间有二次关系.”图3给出了迁移操作的示例规范.
通过使用设计者规范,本发明的实施例分析了性能日志,以派生模型.图4显示了性能日志的架构.从性能日志提取设计者规范列出的参数,并馈送到回归算法.本发明的实施例实现了回归的两种方法:(1)相对来说比较容易实现的支持矢量回归(SVR),以及(2)具有反向传播的神经网络.
SVR的一个主要思想是在函数的培训误差和复杂性之间找到平衡点.换句话说,它避免了查找只在培训数据上具有低误差的但在现实世界数据中具有高误差的复杂函数.SVR能够识别线性函数、多项式函数,以及用户所指示的任意形状的函数.然而,对于大的数据集,此技术通常效率较低.神经网络可以通过用数据适应其网络结构来查找任意形状的函数.此技术一般效率较高,并可以执行加强学习,以适应变化着的环境.图5显示了本发明的实施例实现的神经网络的结构.神经网络一般包括输入层、一个或多个掩蔽层,以及输出层.
本发明的实施例使用蛮干法来确定函数(在设计者规范没有指定它们的情况下).此方法将不同的函数形式应用于数据,并选择具有“最佳匹配”的一个.所使用的候选函数的列表是:(1)线性(x);(2)二次(x2+ax);(3)幂(xa);(4)倒数(1/x);(5)对数(ln(x));(6)指数(ax);以及(7)这些函数中的两个函数的简单组合,如倒数线性(1/(x+a)).
一般而言,神经网络和支持向量机两者都可以识别任意形状的函数.然而,当数据可以很好地通过某些简单模型模型化时,它们通常具有比较好的性能.优选情况下,神经网络的时间复杂性应该与数据大小成线性关系(但通常它会迭代许多回合,以便于优化).优选情况下,支持向量机的时间复杂性相对于数据点的数量是二次的.
按如下方式生成操作、工作负荷,以及组件模型的初始基线值:
(1)组件模型:优选情况下,要么从组件的由供应商提供的性能规范,要么通过运行校准测试并针对工作负荷特征的不同的排列测量组件的行为.校准测试利用不同的排列<request size,read write size,random sequential ratio,num threads>生成I/O请求.对于每一个I/O排列,从组件收集iops、wait-time,以及service-time计数器.
(2)操作模型:操作的效果主要取决于操作的实现方式细节,而不是部署具体细节.如此,通过运行室内实验以针对不同的工作负荷特征和调用参数值而调用操作,可以预先封装操作模型的基准值.
(3)工作负荷模型:工作负荷模型的初始值基于诸如电子邮件、Web服务器、在线事务之类的不同应用程序的工作负荷特征的库.
这些模型是连续地更新的.这改善了回归函数的精度(增大过去已经看到的数据点的数量),也可以解决系统中的变化(特别是工作负荷模型).使用神经网络来发展模型是基于预测值和实际的监视值之间的差进行的.此差用于后向传播;即,改变不同层的各个单元之间的链路权重.本发明的实施例利用两种方法来发展模型:(1)从计算上来说比较有效率的方法是在从系统收集每m个另外的数据点之后调用回归.此方法用于组件和操作模型,因为与工作负荷模型相比,它们相对来说是静态的.(2)另一种方法是在每次预测之后更新模型.在此方法中,预测值和实际值之间的差被用作误差-反馈,以使用基于重新执行的神经网络,调整模型中的系数值.实验部分将比较这两种方法的结果.
在实践中,系统设计人员可以不一定提供完整的一套相关参数.遗漏参数会导致模型不准确,并反映出预测值和实际值之间的差更大.为此目的,可以使用诸如Iceberg CubingTM之类的数据挖掘方法.该方法可以在形式上按如下方式陈述:给出一组具有k个参数x1,...,xk和目标值y的记录,查找在至少K-
Figure C20061010559600151
参数(=1或2)上具有相同或类似的值的至少m个记录的所有组.如果v1-v2≤ε·range(xk),则说参数xk的两个值v1,v2彼此类似.根据本发明的实施例,m被设置为等于5.
为说明此,假设有如图6和9所示的设计者规范.在这些规范中,num_threads没有被指定为相关参数.本发明的实施例利用Bottom-Up Computation(BUC)(自底向上计算)作为Iceberg Cubing算法,下面将描述其内部工作原理.随机选择了100个记录,并在图7中绘出图形.当三个其他参数的效果都存在时,难以判断num_thread和IOPS(输出参数)是否相关.如此,为了识别num_thread和IOPS之间的关系,BUC查找具有某一RW(读取/写入)比率和SR(连续的/随机)(但不同的块大小)的所有记录,并将它们在图8(a)中绘出.从该图表中可以看出,num_thread和IOPS是相关的,但仍难以发现它们是如何相关的.在图8(b)中,BUC绘制了在除num_thread之外的所有参数上都具有相同值的记录,显而易见,IOPS是num_thread的子线性函数;对准确的函数,可以使用回归技术.
当前的实验集充当本发明的实施例所提供的技术的部分proof-of-concept.在这些实验中,使用本发明的实施例来为在IBMTMFAStT 900存储控制器上运行的30驱动器RAID 0逻辑卷创建组件模型.性能日志包括3168个数据点,其中每一个数据点都具有四个参数(线程数量、读取/写入比率、连续的/随机比率,以及块大小)和两个目标值(IOPS和延迟).在具有512MB主存储器,运行Microsoft Windows XP ProfessionalTM操作系统的P42.8GHz工作站上执行回归计算.本发明的实施例中所使用的回归算法是用于支持矢量回归的SVM-lightTM,以及由CMU实现的Neural Networks版本.在每一个实验中,数据点被分成五个部分;四个部分用于培训回归算法,一个部分用于测试函数的准确性.
在此实验中,给本发明的实施例所提供的技术提供了如图9所示的设计者规范.使用监视的数据点,本发明的实施例识别了单个参数之间的关系函数,以及将目标值与所有输入参数关联的合成函数.表2概述了结果.
表2:为完整的设计者规范预测组件模型
Figure C20061010559600161
Figure C20061010559600162
对于此实验,创建数据集,其中,使组件行为的某些方面随着时间而变化.根据连续的/随机比率,来划分当前数据点.如此,它们被分成六个部分,每一个部分都具有某一连续的/随机比率(0,0.2,...,1).然后,随机选择一个部分,从该部分抽取随机数(0到400,均匀分布)记录,并添加到新的数据集中.重复此操作,直到添加了所有记录.如果在某一部分没有足够的记录,则添加所有剩余的记录.然后,从新的数据集中删除连续的/随机比率的参数.一般而言,此数据集可以被视为包括不同工作负荷的记录,每一个工作负荷都具有不同的连续的/随机比率.良好的自适应学习方法应该能够根据组件行为的变化使其本身适应.
具有静态学习的平均误差和中间误差(即,在未细化的测试阶段创建的模型)分别被确定为0.203和0.174.在批模式学习中,在每K个记录之后重新生成模型,K=50,100,200,400,800400,800.类似地,在自适应学习模式下,神经网络使用后向传播连续地细化权重.图10(a)和10(b)显示了两个实验的精度和运行时间.从实验结果可以看出,自适应学习技术获得了最高的精度(高于批学习和静态学习).这是因为,当组件改变其行为时,它会一直使模型适应新的数据.当K≤200并且其精度对于较大的K值没有改善时,相当有效率.
本发明的实施例所提供的灰箱方法对于系统管理的领域是新的.本发明的实施例所提供的基于模型的系统管理是用于自动化系统管理的其中一个有前途的方法.在基于模型的方法中,在给出了负荷特性和配置参数的情况下,管理决策是基于对于系统的行为的预测作出的.在现实世界的情况下,应用基于模型的方法的某些特征有:(1)模型需要简单,并且对于决策从语义上来讲是丰富的;(2)模型应该容易维护,对于系统属性的变化,容易更新;(3)为模型处理自举的技术;当收集另外的监视信息时,在运行时发展模型;以及发现模型所依赖的丢失的系统参数.一般而言,常规的基于模型的框架的范围有限,没有全面地应用于运行时系统管理的领域.
相应地,本发明的实施例解决了与自动化系统管理的表示法、创建,以及模型的发展关联的问题,并作为用于创建模型的灰箱方法来实现,其中,它将设计者规范与使用机器学习技术产生的信息组合起来.
图11显示了一种用于创建自动化系统管理所需的领域知识库模型的方法,其中,该方法包括定义(101)包括输入/输出参数的数据存储系统设计者规范;分析(103)数据存储系统的运行时系统性能日志;识别(105)输入/输出参数的不同参数之间的关系函数;从设计者规范、运行时系统性能日志以及关系函数派生出(107)知识库模型;在系统运行时使用新监视的系统性能日志,细化(109)知识库模型;以及,通过检测不完整的设计者规范来改善(111)知识库模型的精度,其中,优选情况下,通过数据挖掘技术产生知识库模型.
知识库模型可以包括数学函数,这些数学函数捕获决定系统运行时的校正操作所需的数据存储系统的细节.知识库模型可以包括针对数据存储系统的单个组件的响应时间的模型,作为组件中的传入的负载的函数,其中,响应时间取决于由数据存储系统的工作负荷流所产生的服务时间和等待时间.知识库模型可以包括数据存储系统的系统工作负荷的调用路径中的单个组件上的负载,其中,作为每一个工作负荷注入到数据存储系统中的请求速率的函数,对每一个组件中的负载进行预测.知识库模型可以包括数据存储系统的操作调用的成本和效益.优选情况下,数据存储系统设计者规范包括在知识库模型中具有相关性的调用参数、工作负荷特征以及设置参数的操作模型子集;以及不同的知识库模型之间的相关性的性质,其中,相关性的性质包括线性函数、二次函数、多项式函数和指数函数中的任何一个.优选情况下,不完整的设计者规范包括缺少影响正在模型化的输出参数的所有相关输入参数的设计者指定的规范.
本发明的实施例可以呈现完全是硬件、完全是软件、或结合了软件和硬件元件的组合的形式.在优选实施例中,本发明可以以软件实现,包括,但不仅限于固件、常驻软件、微代码等等.
此外,本发明的实施例可以呈现可以从计算机可用的或计算机可读的介质访问的计算机程序产品的形式,提供供计算机或任何指令执行系统使用的或与它们一起使用的程序代码.对于此描述,计算机可用的或计算机可读取的介质可以是任何设备,可以包括、存储、通信、传播或输送供指令执行系统、设备使用的,或与它们一起使用的程序.
介质可以是电子、磁性、光学、电磁、红外线或半导体系统(或设备)或传播介质.计算机可读的介质的示例包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。光盘的当前示例包括光盘-只读存储器(CD-ROM)、光盘-读取/写入(CD-R/W)和DVD.
适用于存储和/或执行程序代码的数据处理系统将包括通过系统总线直接或间接地连接到存储器元件.存储器元件可以包括在程序代码的实际执行过程中使用的本地存储器、大容量存储器、高速缓存存储器,这种高速缓存存储器提供用于存储至少某些程序代码的临时存储器,以便减少在执行过程中必须从大容量存储器中检索代码的次数.
输入/输出(I/O)设备(包括但不仅限于:键盘、显示器、指示设备等等)可以直接或者通过干涉I/O控制器连接到系统.也可以将网络适配器连接到系统,以使数据处理系统通过干涉专用或公共网络连接到其他数据处理系统或远程打印机或存储设备.调制解调器、电缆调制解调器和以太网卡是现行的几种网络适配器.
图12中描述了用于实施本发明的实施例的典型的硬件环境.此示意图显示了根据本发明的实施例的信息处理/计算机系统的硬件配置.系统包括至少一个处理器或中央处理单元(CPU)10.CPU 10通过系统总线12互连到各种设备,如随机存取存储器(RAM)14、只读存储器(ROM)16,以及输入/输出(I/O)适配器18.I/O适配器18可以连接到外围设备,如磁盘单元11和磁带驱动器13,或可由系统读取的其他程序存储设备.系统可以读取程序存储设备上的本发明的指令,并按照这些指令执行本发明的实施例的方法.系统进一步包括用户界面适配器19,该适配器将键盘15、鼠标17、扬声器24、麦克风22,和/或其他用户界面设备,如触摸屏设备(未显示),连接到总线12,以收集用户输入.另外,通信适配器20将总线12连接到数据处理网络25,显示适配器21将总线12连接到显示装置23,该显示装置可以作为诸如监视器、打印机或传输器等输出设备来实现.
一般而言,如图13所显示的,本发明的实施例提供了一种用于创建自动化系统管理所需的领域知识库模型的系统200,其中,系统200包括数据存储系统设计者规范201,其中,包括输入/输出参数;用于收集数据存储系统203的运行时系统性能日志的第一处理器202;用于识别输入/输出参数的不同参数之间的关系函数的第二处理器204;从设计者规范、运行时系统性能日志以及关系函数派生出知识库模型205;以及第三处理器206,用于使用所述系统性能日志来在系统运行时细化本知识库模型,并通过检测不完整的设计者规范来改善知识库模型205的精度.
特定实施例的前面的描述完全揭示了本发明的一般本质,其他人可以在不偏离一般概念的情况下,通过应用当前知识,轻松地修改和/或针对各种应用改编这样的特定实施例,因此,这样的改编和修改应被理解为在所说明的实施例的等效内容的含义和范围内.应该理解,这里所使用的措辞或术语只是为了描述,而不作出限制.因此,尽管是以多个优选的实施例来对本发明的实施例进行描述的,但是,那些本领域技术人员可以认识到,在所附的权利要求的精神和范围内,可以对本发明的实施例进行修改.

Claims (16)

1. 一种用于创建自动化系统管理所需的领域知识库模型的系统,所述系统包括:
包括输入/输出参数的数据存储系统设计者规范;
用于收集数据存储系统的运行时系统性能日志的第一处理器;
用于使用所述设计者规范,分析所述系统性能日志,来识别所述输入/输出参数中的不同参数之间的关系函数的第二处理器;
从所述设计者规范、所述运行时系统性能日志以及所述关系函数派生出的知识库模型;以及
第三处理器,用于在系统运行时使用新监视的系统性能日志来细化所述知识库模型,并通过检测不完整的设计者规范来改善所述知识库模型的精度。
2. 根据权利要求1所述的系统,其中,所述知识库模型是通过数据挖掘技术生成的。
3. 根据权利要求1所述的系统,其中,所述知识库模型包括数学函数,这些数学函数捕获决定系统运行时的校正操作所需的所述数据存储系统的细节。
4. 根据权利要求3所述的系统,其中,所述知识库模型进一步包括针对所述数据存储系统的单个组件的响应时间的模型,作为所述组件中的传入的负载的函数,其中,所述响应时间取决于由所述数据存储系统的工作负荷流所产生的服务时间和等待时间。
5. 根据权利要求3所述的系统,其中,所述知识库模型进一步包括所述数据存储系统的系统工作负荷的调用路径中的单个组件上的负载的模型,作为每一个工作负荷注入到所述数据存储系统中的请求速率的函数,对每一个所述组件中的负载进行预测。
6. 根据权利要求3所述的系统,其中,所述知识库模型进一步包括所述数据存储系统的操作调用的成本和效益的模型。
7. 根据权利要求3所述的系统,其中,所述数据存储系统设计者规范进一步包括:
操作模型子集,所述操作模型子集是调用参数、工作负荷特征以及设置参数的操作模型子集,所述调用参数、工作负荷特征以及设置参数在所述知识库模型中具有相关性;以及
所述知识库模型中的不同的知识库模型之间的相关性的性质,其中,所述相关性的性质包括线性函数、二次函数、多项式函数和指数函数中的任何一个。
8. 根据权利要求1所述的系统,其中,所述不完整的设计者规范包括缺少影响正在模型化的输出参数的所有相关输入参数的设计者指定的规范。
9. 一种用于创建自动化系统管理所需的领域知识库模型的方法,所述方法包括:
定义包括输入/输出参数的数据存储系统设计者规范;
使用所述设计者规范,分析数据存储系统的运行时系统性能日志,来识别所述输入/输出参数中的不同参数之间的关系函数;
从所述设计者规范、所述运行时系统性能日志以及所述关系函数派生出知识库模型;
在系统运行时使用新监视的系统性能日志,细化所述知识库模型;以及
通过检测不完整的设计者规范来改善所述知识库模型的精度。
10. 根据权利要求9所述的方法,其中,所述知识库模型是通过数据挖掘技术生成的。
11. 根据权利要求9所述的方法,其中,所述知识库模型包括数学函数,这些数学函数捕获决定系统运行时的校正操作所需的所述数据存储系统的细节。
12. 根据权利要求11所述的方法,其中,所述知识库模型进一步包括针对所述数据存储系统的单个组件的响应时间的模型,作为所述组件中的传入的负载的函数,其中,所述响应时间取决于由所述数据存储系统的工作负荷流所产生的服务时间和等待时间。
13. 根据权利要求11所述的方法,其中,所述知识库模型进一步包括所述数据存储系统的系统工作负荷的调用路径中的单个组件上的负载的模型,作为每一个工作负荷注入到所述数据存储系统中的请求速率的函数,对每一个所述组件中的负载进行预测。
14. 根据权利要求11所述的方法,其中,所述知识库模型进一步包括所述数据存储系统的操作调用的成本和效益的模型。
15. 根据权利要求11所述的方法,其中,所述数据存储系统设计者规范进一步包括:
操作模型子集,所述操作模型子集是调用参数、工作负荷特征以及设置参数的操作模型子集,所述调用参数、工作负荷特征以及设置参数在所述知识库模型中具有相关性;以及
所述知识库模型中的不同的知识库模型之间的相关性的性质,其中,所述相关性的性质包括线性函数、二次函数、多项式函数和指数函数中的任何一个。
16. 根据权利要求9所述的方法,其中,所述不完整的设计者规范包括缺少影响正在模型化的输出参数的所有相关输入参数的设计者指定的规范。
CNB2006101055967A 2005-07-20 2006-07-19 生成用于自动化系统管理的领域知识的系统和方法 Expired - Fee Related CN100412871C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/185,645 US20070022142A1 (en) 2005-07-20 2005-07-20 System and method to generate domain knowledge for automated system management by combining designer specifications with data mining activity
US11/185,645 2005-07-20

Publications (2)

Publication Number Publication Date
CN1900932A CN1900932A (zh) 2007-01-24
CN100412871C true CN100412871C (zh) 2008-08-20

Family

ID=37656819

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006101055967A Expired - Fee Related CN100412871C (zh) 2005-07-20 2006-07-19 生成用于自动化系统管理的领域知识的系统和方法

Country Status (2)

Country Link
US (1) US20070022142A1 (zh)
CN (1) CN100412871C (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4949791B2 (ja) 2006-09-29 2012-06-13 株式会社日立製作所 ボリューム選択方法及び情報処理システム
WO2009086326A1 (en) * 2007-12-20 2009-07-09 Akorri Networks, Inc. Evaluating and predicting computer system performance using kneepoint analysis
US9977721B2 (en) 2007-12-20 2018-05-22 Netapp, Inc. Evaluating and predicting computer system performance using kneepoint analysis
US7979393B2 (en) * 2008-02-22 2011-07-12 Microsoft Corporation Multiphase topology-wide code modifications for peer-to-peer systems
US8332820B2 (en) * 2008-10-30 2012-12-11 Accenture Global Services Limited Automated load model
US8175843B2 (en) * 2008-11-14 2012-05-08 Boehringer Ingelheim Pharma Gmbh & Co. Kg Computer-implemented methods for evaluating, summarizing and presenting data on stability of drug substances and drug products and software-modified computers for such methods
FR2938676B1 (fr) * 2008-11-18 2011-01-21 Eads Europ Aeronautic Defence Procede de reconnaissance de motifs sequentiels pour procede de traitement des messages de pannes
US8448127B2 (en) * 2009-01-30 2013-05-21 Raytheon Company Software forecasting system
US8935500B1 (en) * 2009-09-24 2015-01-13 Vmware, Inc. Distributed storage resource scheduler and load balancer
CN102231130B (zh) * 2010-01-11 2015-06-17 国际商业机器公司 计算机系统性能分析方法和装置
US20110252382A1 (en) * 2010-04-07 2011-10-13 International Business Machines Corporation Process performance using a people cloud
US8849974B2 (en) 2010-04-14 2014-09-30 International Business Machines Corporation Social network based information discovery about network data processing systems
US9348852B2 (en) 2011-04-27 2016-05-24 Microsoft Technology Licensing, Llc Frequent pattern mining
US8578213B2 (en) 2011-04-27 2013-11-05 Microsoft Corporation Analyzing software performance issues
US9043255B2 (en) 2012-05-09 2015-05-26 International Business Machines Corporation Optimally configuring an information landscape
JP5949224B2 (ja) * 2012-06-29 2016-07-06 富士通株式会社 ストレージ制御装置、該プログラム及び該方法
US9495220B2 (en) * 2012-09-28 2016-11-15 Sap Se Self-management of request-centric systems
KR101473982B1 (ko) * 2012-10-15 2014-12-24 한국전자통신연구원 지식베이스 구축장치 및 이의 지식베이스 구축방법
CN103605695A (zh) * 2013-11-05 2014-02-26 佛山职业技术学院 一种基于因特网的人工智能知识逻辑系统及方法
US20150220308A1 (en) * 2014-01-31 2015-08-06 Dell Products L.P. Model-based development
CN104536415B (zh) * 2014-12-24 2018-02-06 吴瑞祥 一种公路隧道一体化联动节能技术控制方法
US9912751B2 (en) * 2015-01-22 2018-03-06 International Business Machines Corporation Requesting storage performance models for a configuration pattern of storage resources to deploy at a client computing environment
US9917897B2 (en) 2015-01-22 2018-03-13 International Business Machines Corporation Publishing configuration patterns for storage resources and storage performance models from client systems to share with client systems in a network computing environment
US10506041B2 (en) 2015-01-22 2019-12-10 International Business Machines Corporation Providing information on published configuration patterns of storage resources to client systems in a network computing environment
CN106708832B (zh) * 2015-08-06 2020-10-02 北京波尔通信技术股份有限公司 一种无线电领域知识库的构建方法及装置
CN105095502A (zh) * 2015-08-26 2015-11-25 浪潮电子信息产业股份有限公司 一种集群存储系统的日志收集方法
US10929057B2 (en) 2019-02-07 2021-02-23 International Business Machines Corporation Selecting a disconnect from different types of channel disconnects using a machine learning module
US11341407B2 (en) 2019-02-07 2022-05-24 International Business Machines Corporation Selecting a disconnect from different types of channel disconnects by training a machine learning module
US11093170B2 (en) * 2019-04-02 2021-08-17 EMC IP Holding Company LLC Dataset splitting based on workload footprint analysis
CN111262728A (zh) * 2020-01-08 2020-06-09 国网福建省电力有限公司 基于日志端口流量的流量负载监控系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6421719B1 (en) * 1995-05-25 2002-07-16 Aprisma Management Technologies, Inc. Method and apparatus for reactive and deliberative configuration management
US20040148138A1 (en) * 2002-03-09 2004-07-29 Katrina Garnett System, method and model for autonomic management of enterprise applications
US20040205038A1 (en) * 2003-04-09 2004-10-14 Lee Shih-Jong J. Intelligent spatial reasoning
CN1627292A (zh) * 2003-12-12 2005-06-15 叶飞跃 一种自适应快速关联规则挖掘算法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6826556B1 (en) * 1998-10-02 2004-11-30 Ncr Corporation Techniques for deploying analytic models in a parallel
JP4739472B2 (ja) * 1998-12-04 2011-08-03 新日鉄ソリューションズ株式会社 性能予測装置および方法、記録媒体
US6801909B2 (en) * 2000-07-21 2004-10-05 Triplehop Technologies, Inc. System and method for obtaining user preferences and providing user recommendations for unseen physical and information goods and services
US6876988B2 (en) * 2000-10-23 2005-04-05 Netuitive, Inc. Enhanced computer performance forecasting system
US8374974B2 (en) * 2003-01-06 2013-02-12 Halliburton Energy Services, Inc. Neural network training data selection using memory reduced cluster analysis for field model development
US20050137912A1 (en) * 2003-03-31 2005-06-23 Rao R. B. Systems and methods for automated classification of health insurance claims to predict claim outcome
US7480912B2 (en) * 2003-05-29 2009-01-20 International Business Machines Corporation Method for policy-based, autonomically allocated storage
US7228387B2 (en) * 2003-06-30 2007-06-05 Intel Corporation Apparatus and method for an adaptive multiple line prefetcher
US7216169B2 (en) * 2003-07-01 2007-05-08 Microsoft Corporation Method and system for administering personal computer health by registering multiple service providers and enforcing mutual exclusion rules
US7496907B2 (en) * 2003-08-06 2009-02-24 International Business Machines Corporation Method and system for profile normalization in an autonomic software system
US7082381B1 (en) * 2003-11-12 2006-07-25 Sprint Communications Company L.P. Method for performance monitoring and modeling
US20050209983A1 (en) * 2004-03-18 2005-09-22 Macpherson Deborah L Context driven topologies
US20060025981A1 (en) * 2004-08-02 2006-02-02 Microsoft Corporation Automatic configuration of transaction-based performance models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6421719B1 (en) * 1995-05-25 2002-07-16 Aprisma Management Technologies, Inc. Method and apparatus for reactive and deliberative configuration management
US20040148138A1 (en) * 2002-03-09 2004-07-29 Katrina Garnett System, method and model for autonomic management of enterprise applications
US20040205038A1 (en) * 2003-04-09 2004-10-14 Lee Shih-Jong J. Intelligent spatial reasoning
CN1627292A (zh) * 2003-12-12 2005-06-15 叶飞跃 一种自适应快速关联规则挖掘算法

Also Published As

Publication number Publication date
CN1900932A (zh) 2007-01-24
US20070022142A1 (en) 2007-01-25

Similar Documents

Publication Publication Date Title
CN100412871C (zh) 生成用于自动化系统管理的领域知识的系统和方法
Ma et al. Query-based workload forecasting for self-driving database management systems
US20220147405A1 (en) Automatically scalable system for serverless hyperparameter tuning
US11562304B2 (en) Preventative diagnosis prediction and solution determination of future event using internet of things and artificial intelligence
Kocaguneli et al. Exploiting the essential assumptions of analogy-based effort estimation
US20210097343A1 (en) Method and apparatus for managing artificial intelligence systems
CN110537175A (zh) 利用机器学习估计mppdb中的查询资源消耗
Jeyakumar et al. ExplainIt!--A declarative root-cause analysis engine for time series data
US11562252B2 (en) Systems and methods for expanding data classification using synthetic data generation in machine learning models
CN113010393A (zh) 基于混沌工程的故障演练方法及装置
CN113312447A (zh) 基于概率标签估计的半监督日志异常检测方法
Tran et al. An analysis of software bug reports using machine learning techniques
Wu et al. Invalid bug reports complicate the software aging situation
US9740986B2 (en) System and method for deducing user interaction patterns based on limited activities
Hewett et al. On modeling software defect repair time
CN115705501A (zh) 机器学习数据处理管道的超参数空间优化
Ilkhani et al. Extraction test cases by using data mining; reducing the cost of testing
Raza et al. Autonomic workload performance tuning in large-scale data repositories
CN116860311A (zh) 脚本分析方法、装置、计算机设备及存储介质
CN114201328A (zh) 基于人工智能的故障处理方法、装置、电子设备及介质
US10409871B2 (en) Apparatus and method for searching information
Xia et al. Deep&Cross Network for Software-Intensive System Fault Prediction
Li et al. Probabilistic simulation for probabilistic data-aware business processes
Remil How can subgroup discovery help AIOps?
Zheng Artificial intelligence for understanding large and complex datacenters

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080820

Termination date: 20150719

EXPY Termination of patent right or utility model