CN1864153A - 用于发现系统中演变的方法和装置 - Google Patents

用于发现系统中演变的方法和装置 Download PDF

Info

Publication number
CN1864153A
CN1864153A CNA028287746A CN02828774A CN1864153A CN 1864153 A CN1864153 A CN 1864153A CN A028287746 A CNA028287746 A CN A028287746A CN 02828774 A CN02828774 A CN 02828774A CN 1864153 A CN1864153 A CN 1864153A
Authority
CN
China
Prior art keywords
model
data
key character
input characteristics
superset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA028287746A
Other languages
English (en)
Inventor
戴维·E.·胡德勒斯通
鲍约翰
罗纳德·卡斯
杨谦
埃拉·波利亚克
彼得·克瑞伊尔
查尔斯·E.·加罗法洛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CA Inc
Original Assignee
Computer Associates Think Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Associates Think Inc filed Critical Computer Associates Think Inc
Publication of CN1864153A publication Critical patent/CN1864153A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

提供了一种自适应系统建模方法。通过使用与输入特性集合相对应的数据产生系统模型,该输入特性通过使用系统的基线重要特征来选出。此外还通过使用系统的基线重要特征选出输入特性和其他特性的超集。在线保持自系统所收集的与输入特性和其他特性的超集相对应的数据。通过使用在线超集数据执行鉴别分析以定期或断续地确定系统的新的重要特征,并使用它来检测系统中的演变。

Description

用于发现系统中演变的方法和装置
相关申请的交叉引用
本申请要求2002年4月19日递交的题为“METHOD ANDAPPARATUS FOR DISCOVERING EVOLUTIONARY CHANGESWITHIN A SYSTEM”的共同未决美国临时申请60/374,041号的权利。
技术领域
本申请涉及数字建模。具体而言,本申请涉及自适应系统建模和模型评估。
背景技术
数字建模通常涉及生成能够接近或模仿动态系统行为的计算机程序或软件模块。通过系统模型可将系统进行特征化,作为输入参数的组和输出值的相应组,通过施加输入参数,可预测输出值。系统模型的目标在于使得能够对基本动态系统进行预测或预报。
大多数数字(numerical)建模可归属于机器学习。机器学习涉及通常通过利用软件仿真对物理或程序系统的行为进行特征化。其目的在于能够对系统的行为进行预测或预报。例如,通过很好地预报股票价格可获利或避免损失。同样,对于其他系统,通过某些预知信息,可避免某些风险或使得获利。这并不是算命,而是基于系统的过去行为以及可能基于其过去对外部影响的反应进行预测。在这些预测中,不可避免地会存在某些错误,目标就是使这些错误最小化。
由于通常将系统精简为一组输入和输出,很少考虑或不考虑系统的内部工作,从而有时也将机器学习称为“黑箱建模”。
机器学习不同于其他类型的数字建模,如依赖于确定系统内部机制的第一主要建模(first principle modeling)。对于复杂和有意思(interesting)的系统,第一主要建模非常困难,代价可能较高,且可能不可实现。
在图4的示例性系统中,输出为将使股票关闭的预测价格。对系统的输入为市场因素(如其他股票的价格和活跃性)和影响市场的外部因素(如石油的价格及零售价)。即便在股市中没有什么经验,人们也可以容易地看出模型输入的可能数量非常巨大。除非将注意力放在股票价格最重要的指标上,否则,即便是超级计算机也不能完成为该系统建模的任务。
一种典型的数字建模处理包括选择作为模型输入的系统特性。除了最简单的系统以外,通常将可能输入特性的集合精简到易管理的输入集合。至少,特性精简尽量去除对系统输出有最小影响的特性以及去除呈静态的特性。由于模型的易管理性通常取决于分析和处理资源,为缩减对计算资源的需求,以及缩减处理时间,常试图选出对输出具有较小影响的特性。
数字建模处理通常包括(a)训练和学习阶段,其中通过从已知数据的体进行训练来生成模型,并为模型确认或检测阶段保持一定百分比的数据,(b)模型确认或检测阶段,其中检测训练的精确度。
系统输入和输出的配对通常称为“模式”。为构造模型,产生称为训练集合的一组模式。为产生有效的模型,训练集合应包含表示大多数(如果不是所有)系统行为方式的模式。当输入组应用于系统时,在特定模式中与输入参数的特定组相关联的输出组可为自系统所收集的实际输出。或者,当将输入组应用于系统时,在模式中的输出可为所需输出的组。
在学习阶段,同训练集合中的模式一起,应用通常体现以计算机程序或软件模块的学习方法,从而数字模型学习系统行为,然后将其作为模型参数进行存储。有多种传统学习方法。本发明的方法并不限于应用传统学习方法中任何特定的方法。
通常在测试阶段,针对模式的另一集合(称为“测试集合”)测试和确认训练系统。测试集合不应包含在训练集合中出现的模式。对于测试集合中的每个模式,测试阶段涉及将模型预测的系统输出与测试模式中所预期的输出进行比较。由模型预测与模型输出符合程度如何得好来测定模型的精确性和有效性。
如果认为训练模型有足够的精确性,则现场部署该模型,并用它来预测系统行为。部署该模型后,为检测该模型是否将丧失其有效性,可定期性地重新评估该模型的精确性。如果模型性能变差,可使用附加的数据重新训练该模型。然而,如果当模型处于操作时未能连续收集数据,为收集新数据或搜索现变得较重要的输入可能需要较大代价。此循环具有,可在循环后期发现模型退化至无效,且一旦发现必须重复分析和部署的额外缺点。
在某些情形中,当系统处于操作时可在线收集和积累与系统输入和输出相对应的新数据,并可将其有效用于重新训练模型。然而,如果重新训练不能使模型的精确性提高到可接受的级别,则必须重复在最初分析中所执行的特性选择,以确定系统是否演化成先前认为可丢弃的输入特性现已变得重要,以及是否还必须重复训练和部署的全部处理。
发明内容
本发明提出了一种自适应系统建模。根据一个实施例的方法包括,通过使用基线重要特征从系统的多个侯选特性中选出输入特性的集合以及输入特性和其他特性的超集,通过使用与所选输入特性集合相对应的数据产生系统模型,在线保持自系统所收集的与输入特性和其他特性的超集相对应的数据,通过使用在线超集数据执行对侯选特性的鉴别分析以确定系统的新的重要特征,以及通过将新的重要特征与基线重要特征进行比较来检测系统中的演变。
根据另一实施例的方法包括,通过执行鉴别分析来确定系统当前行为的基线重要特征,通过使用基线重要特征从多个侯选特性中选出输入特性的集合以及输入特性和其他特性的超集,通过使用与所选输入特性集合相对应的数据产生系统模型,以及在线保持自系统所收集的与输入特性和其他特性的超集相对应的数据。该方法还可包括,利用系统模型基于附加输入特性数据来评估预测的精确性,如果系统模型预测的精确性低于预定精确性级别,通过对侯选特性执行另一鉴别分析来确定系统的新的重要特征,以及通过使用新的重要特征选择新的输入特性。附加输入特性数据可从数据的在线收集来获得。
根据再一实施例,自适应系统建模方法包括,通过使用决策树方法执行鉴别分析来确定系统当前行为的基线重要特征,通过使用基线重要特征从多个侯选特性中选出输入特性的集合,以及通过使用与所选输入特性集合相对应的数据产生系统模型。
附图说明
由以下参照附图所给出的详细描述,将更易于理解本发明的应用特征,其中:
图1显示,根据本发明的一个实施例,可用于检测系统演变的自适应系统建模方法的流程图;
图2显示根据本发明另一实施例的自适应系统建模方法的流程图;
图3显示根据本发明再一实施例的自适应系统建模方法的流程图;
图4显示股票价格预测系统的示意图;
图5显示与图4所示股票价格预测系统相对应的黑箱模型示意图;
图6显示根据本发明又一实施例的自适应系统建模方法的流程图;
图7显示用于涂层制剂模型的示例性决策树的示意图;
图8显示,结合图7所示涂层制剂示例,用于报告使用所有可用特性训练模型的训练和确认结果的用户界面;
图9显示,结合图7和8所示涂层制剂示例,所选系统特性与熵度量之间关系的图表表示;
图10显示,结合图7和9所示涂层制剂示例,用于报告使用多数重要特性训练模型的训练和确认结果的用户界面;
图11显示,结合示例性酒品购买模型,用于报告使用所有可用特性训练模型的训练和确认结果的用户界面;
图12显示用于图11所示酒品购买示例的示例性决策树上级的示例图;
图13显示,结合图11和12所示酒品购买示例,相对重要的特性的图表表示;
图14显示用于为求助服务台系统建模的示例性决策树的顶级层的示意图;
图15显示,结合图7-10所示涂层制剂示例,对所选特性分箱的图表表示;
图16显示,结合图11-13所示酒品购买示例,对所选特性分箱的图表表示;
图17显示,结合图11-13所示酒品购买示例,购买趋势和所选特性的图表表示;
图18显示示例性求助服务台系统的示意图;
图19显示,结合图14所示的求助服务台示例,由特征分类的问题代码的列表表示。
图20-23显示用于配置图14和19的求助服务台模型的示例性用户界面;
图24显示结合图14和19的建模系统用于进入数据库连接信息的用户界面;
图25-29显示结合图14和19的建模系统显示报告的示例性用户界面;
图30显示求助服务台建模系统的高级别方块图;
图31显示图30所示求助服务台建模系统的安装向导流程图;
图32显示图30所示求助服务台建模系统的管理器服务流程图;
图33显示图30所示求助服务台建模系统的会诊(consult)模块流程图;
图34显示图30所示求助服务台建模系统的保存模式模块流程图;
图35显示图30所示求助服务台建模系统的评估模块流程图;
图36显示图30所示求助服务台建模系统的决策树模块流程图;
图37显示图30所示求助服务台建模系统的更改模型模块流程图;以及
图38显示图30所示求助服务台建模系统的数据流动图。
具体实施方式
本发明提供了用于自适应系统建模和模型评估的工具(采用方法和系统的形式)。例如,本发明的方法可包含在以软件实施的系统中以对动态系统建模。该方法可体现以,存储在常规程序存储装置或计算机可读介质上的,和/或通过计算机网络或其他传送介质传送的一个或多个计算机程序或软件模块。
当系统演变成所采用的模型达到其有用极限时,本发明的系统建模和模型评估方法减少或消除了再重新开始建模循环的必要。
根据如图1所示示例性实施例,可用来检测系统演变的自适应系统建模方法包括,通过使用基线重要特征(significance signature)从系统的多个侯选特性(feature)中选出输入特性的集合和输入特性以及其他特性的超集(步骤S11)。通过使用与所选输入特性集合相对应的数据产生系统模型(步骤S12)。在线保持自系统所收集的与输入特性和其他特性的超集(superset)相对应的数据(步骤S13)。通过使用在线超集数据执行对侯选特性的鉴别分析以确定系统的新的重要特征(步骤S14)。通过将新的重要特征与基线重要特征进行比较来检测系统中的演变(步骤S15)。可通过使用新的重要特征选择输入特性的新集合。
下面,参照图2描述根据另一示例性实施例的自适应系统建模方法。通过执行鉴别分析来确定系统当前行为的基线重要特征(步骤S21)。通过使用基线重要特征从系统的多个侯选特性中选出输入特性的集合以及输入特性和其他特性的超集(步骤S22)。通过使用与所选输入特性集合相对应的数据产生系统模型(步骤S23)。再现保持自系统所收集的与输入特性和其他特性的超集相对应的数据(步骤S24)。该方法还可可选性地包括,利用系统模型基于附加输入特性数据(这可通过在线收集数据来获得)来评估预测的精确性[步骤S25],如果系统模型预测的精确性低于预定精确性级别(步骤S26),通过对侯选特性执行另一鉴别分析来确定系统的新的重要特征(步骤S27),以及通过使用新的重要特征选择新的输入特性(步骤S28)。
根据再一实施例(图3),自适应系统建模方法包括,通过使用决策树方法执行鉴别分析来确定系统当前行为的基线重要特征(步骤S31),通过使用基线重要特征从系统的多个侯选特性中选出输入特性的集合(步骤S32),以及通过使用与所选输入特性集合相对应的数据产生系统模型(步骤S33)。
A.概述
存在有多种可用于特征化系统的数字建模技术。这些技术的范围从统计技术到诸如神经网络、模糊逻辑和决策树。本发明的方法可用于任何数字建模技术。只要将问题归结为从侯选特性集合中识别重要的系统输入,就可应用本发明的方法。
建模的系统可具有N个可用输入特性。通过标准特性精简技术以及或许通过第一原理(例如,用于所有或部分系统的因果原理),可选出M个特性的核心组,以包含模型输入。此外,其余N-M个特性中的某些特性仍可影响模型输出,且具有可提高模型精确性的P(>M)个输入特性。然而,对于P个输入特性的系统响应可随时间漂移或改变。
从侯选特性的集合中对所使用输入的选择,以及用于在使用建模技术之前对输入进行处理的方法,至少同选择建模技术同样重要(或许更重要)。
在缩减数据的第一剪切(cut)可包括找出静态的或与其他特性强相关的特性。这样的特性并不对建模工作有任何贡献,而且消耗资源。包括这些特性还可妨碍建模方法找到有用的数据模式。
在去除静态和相关的特性后,可选出对输出来说最重要的特性,同时考虑可用的计算资源。通常,人们不会为使输入集合缩减至适合的输入数量而丢弃相对来说非常重要的特性。相反,人们经常能够识别出至少在分析时可看起来不会对输出有重大影响的大量特性。可使用其余重要特性来产生可用的系统模型。例如,可将图4的系统减少到诸如图5所示的黑箱表示。
本发明的方法是用鉴别分析对用于建模的P个输入特性的相对重要性进行特征化。重要级别的特性称为“重要特征”。通过生成决策树的方法提供了一种鉴别分析。生成树的副作用是将树中的特性根据其对系统输出的重要性进行分类。
除通过当前包含在模型中的P个输入的相对重要性对模型特征化外,在线收集和保持对于N-M个特性的数据。以后将N-M个特性的组称之为在模型中激励的P个特性的超集。该策略可扩展到将M设置成零,并从N个可能的特性中选出P个特性。
可通过用不用于训练处理的数据进行鉴别来评估模型,该数据通常对预期模型如何得好提供客观的度量,从而预期未来数据。对于与图4相对应的示例,若未保留最近月份的数据,也可使用紧前一年的数据进行训练。模型一旦构建,可使用最近月份的数据对模型进行鉴别。
在快速演变的系统(如股市)中,可预料模型的性能会随着时间的推移而变差。当在变差时,可对模型定期或甚至连续不断地进行评估度量。
由于模型变差,至少可在最近的数据上将其重新训练。在某些情形,由于仅在输入之间的相互作用发生改变,无需改变输入特性集合。然而,在其他某些情形,用当前的输入集合不会获得足够精确的模型。例如,系统可被当前不在输入集合中所表示的特性而严重影响,或者在输入集合中的特性对输出的影响不再显著,因此可将其去除。在图4所示示例中,新的外界因素可影响市场,如扰动市场反应的国际冲突成为正常的市场力。
对模型定期(或断续)地重新评估其效果。除检查检测集合的最低精确性外,再次通过鉴别分析对N-M个侯选特性进行特征化,以确定当前最显著的特性。如果在可能的输入特性中重要性存在根本变化,则易于通过使用新的重要特征重新选出合适的特性,并对可用的在线数据对模型进行训练。正如在最初的分析中,为确认新模型保留一定百分数的数据。
在数据挖掘或机器学习应用中,经常从被建模的系统持续不断地收集数据。从而,鉴别模型可使用新数据以获得预测或预报。其次,可在线保持该数据,直至预测有效,以度量模型的性能。
为完全利用本发明的方法,收集当前所用输入特性的超集,可使用周期性的重要特征来确定其他特性对系统行为而言是否变得更重要。由于不同分类代码变得更重要,因此可重新布置派生特性。
如上所述,可对所有可能的输入在线收集数据,且可按需要执行特性的选取,范围覆盖所有可用特性。利用某些固定的输入核心组(尤其在第一主要原理有效用于所有或部分系统的情形),且在侯选特性的有限组内变化,可期望获得最好的结果。核心特性将是好模型的基础,可变的特性集合使得能够针对系统行为的演变或漂移对模型进行调整。
在图6中显示出根据本发明的一个实施例的方法。首先,系统进行选择的分析并确定对数据预处理的必要性。其次,对系统建模,并将其以在线设置。
不过,不同于传统机器学习或数据挖掘程序,而是在线保持当前用作为输入的特性超集。定期进行预测,并度量模型的精确性。如果精确性降低,可使用最近的数据重新训练模型。
保持基线重要特征,以对系统当前行为进行特征化。在线保持侯选输入特性的超集。对于超集,依据当前为用于建模的附加特性收集当前包含在模型中的特性。超集可扩展至用于模型的所有可能的输入特性。为获得特性超集的重要特征,定期或断续的执行鉴别分析,以能够发现有效特性的较大影响变化。如果检测在系统中存在显著演变,则选择新的重要特性作为模型输入。由于在线保持超集,数据即刻可用于对新模型的训练和改进。
即便经过对模型输入的重新选择后,模型也会较差执行,对于在当前未监视或收集的新特性变得重要的情形中,这或许期望如此。经常出现较差的性能可能表明,在最初分析阶段并未很好地理解系统。
某些传统建模方法包括定期地训练模型。尽管少数几个传统技术用于在重新训练之前动态调整建模参数,这样的传统调整通常不会涉及改变模型输入。模型输入的选择通常在部分分析阶段加以考虑,且通常不会在模型处在操作之后执行。
本发明的方法提供了基本优于用新数据简单地进行重新训练的优点。使用重要特征作为基线,且由于对系统漂移进行度量,使得前摄(proactively)地改变系统模型。为使模型适应系统漂移,可将通过鉴别分析所获得的重要特征用于确定对模型输入集合的调整。
B.鉴别分析
鉴别分析是用于识别对结果而言最重要的特性的方法。提供对各特性的重要性进行度量的重要特征由鉴别分析产生。该特征的改变,尤其是重要特性集合的改变,可表明系统的演变或漂移。
依据其相对重要性分级,可将多个已知鉴别分析技术中的任何技术用于在本发明的方法中,以确定系统的重要输入特性。根据一个实施例,可将统计相关用作简单化的鉴别分析技术。对于鉴别分析,还具有更为高级的统计方法。
1.鉴别分析和决策树
根据另一实施例的鉴别分析技术使用决策树来产生重要特征。决策树识别出用于在根据先前形成的数据分类对数据集合进行分裂中的最有效特性。当构建了树时,经常根据信息原理度量或统计特征检测,通过该方法选择最重要的特性(例如,按照重要性的降序)。
经常将决策树用作用于预测的专用建模工具。然而,在某些情形,决策树可能并不会对数据模式提供彻底的分类。在生成树不允许精确分类的情形中,还可执行概率分类。无论树是否允许精确分类,它对于确定系统的重要特性是有益的。
某些决策树方法允许将符号与数字数据简单集成。利用纯统计方法,进行组合有符号和数字特性的重要性检测可能更为困难。
鉴别分析可包括对已按某种方式分类的数据集合应用决策树。决策树方法将数据集合递归性分割,以获得根据其分类所分离的子组。在树的每个级别,使用对一个或多个特性的检测来分割数据。目的通常是为获得鉴别检测而执行最有效的检测。
决策树的首要用途可为对未知数据的分类。不过,作为额外的优点,可将导致对子树一致分割的检测序列表示为规则(例如,如果f1=0,f2=1,以及f3=2,则可能out1=x)。这样的规则可使得系统模型的审查员和使用者能够更好地理解对系统如何建模,和如何有效地建模。
图7显示出涂层制剂系统的示例性决策树。根据固化后对所敷涂层的厚度将数据分类。决策树显示出根据其重要性对涂层厚度的最显著影响。
图7所示示例性决策树由节点和分支组成。节点0为根节点,节点1-3为分支节点,节点4-12为叶节点。已经划分出进行分割的总体(population)。对于与图7相对应的数据集合,根据其厚度等级是否为“低”或“高”对每个模式进行分类。将特性(如粘性)划分成“低”,“中”,或“高”。与树上每个节点相关联有在该节点处分类子体(subpopulation)的计数。例如,在涂层数据树中的节点0包含具有高厚度值的25个模式,以及具有低厚度值的59个模式。目标是使叶节点同构型,从而彻底分割起初的总体。然而,叶节点通常仅有单个类的优势。有时,并非完全占多数情况,这是由于有意使树生长程序停止或对数据不存在检测以进一步分割节点。在图7所示示例中,仅概率分类或规则对树的该分支有效。在图7中的节点4,5,6,8,和12为异构叶节点的示例。由图7可得出以下规则:(a)表面张力(surftens)和粘性为最主要的特性;(b)具有低表面张力和中到高粘性的制剂通常形成较厚的涂层;(c)低表面张力和地粘性通常导致较薄涂层;和(d)中到高表面张力通常导致较薄涂层。
可针对领域专家关于这些制剂参数如何影响可能的涂覆厚度方面的的知识和直觉,来检查规则。这些规则中的某些规则可不为领域专家所知,或者可能产生问题。可对它们进行验证,若结果为真,则表示发现了关于系统的知识。
通过在适合于对数据集合进行分割的每个级别选择检测来生长数。通常轮流尝试每个可能的检测,并根据分集函数选出最好的一个。下面讨论各个分集函数。分集函数试图度量特性检测分裂数据集合的好坏程度。所述方法对所有级别选择相同的检测,在此情形,所选特性检测仅使用一次。对于应用在树中更下方的特性检测的评估可靠性较差,这是由于它们依赖于对整个总体表示逐渐变差的子体。
决策树方法可大致分为二进制和非二进制方法。二进制方法仅对每个节点允许有两个分支(例如,0或1,是或否等)。非二进制方法对每个节点允许由多个分支,并导致从生树(bushier tree)。非二进制方法或许更适于本来基本上并非为二进制的数据。然而,几乎任何数据均可被分装入两个箱中,或者装入使数据体现二进制的派生域中。由于非二进制数趋向于从生树,它们很快达到每个分裂同鉴别器相比可靠性更差的程度。此外,在非二进制数中有时会发现某些特性检测可将数据集合分成许多较小的、近乎同构型的节点的效果。一个示例可为对人名进行检测,可由人名对数据库中的每个人产生叶节点。这样的检测不同于产生有关于系统的有用规则。
方法(methodology)对于可能的特性值使用了有限数量的标签或范围。通过将值离散化或分箱,可针对连续数字数据使用此方法。作为第一近似,对每个数字特性选择任意数量的等间隔范围,以所落入的范围或箱来标记特性值。例如,可将总体观测的特征范围分为3个相等的区间,标记为低,中和高。一些研究者建议进一步优化分箱操作。一种方法是对值求线性聚类,并使数据选择最好的箱范围。或者,可将分箱操作组合以特性检测评估。
决策树方法还可利用称作剪枝(pruning)的处理,以减小树的复杂性。某些方法利用确认集合来度量剪枝的效果。某些方法仅使用训练数据来识别所要剪枝的分支。基本上没有必要保留来自训练集合的数据去确认剪枝。剪枝方法可如同指定最小节点计数一样简单。通过结合和/或不结合特性检测试图将树的分枝合并为单个分枝。一些研究者相信应对复杂树进行剪枝,直至使其简单并易于为人们所理解。其他研究者指出复杂的系统可导致看上去较复杂的决策树。
决策树方法是监督学习的示例。这些方法遭受同样的过度训练的危害,过度训练使其他监督学习方法受到干扰。过度训练相当于学习训练模式的特征,而不是学习训练模式之间的基本关系。训练过度的模型可预测用于在其训练集合中的模式的输出,但对于不在训练集合中的模式不会很好地进行泛化预测。为使过度训练的风险最小化,可使用训练数据集合生长树,并使用检测集合进行检测,或可将其剪枝以去除对训练数据而言具有特异性的分支。或者,可应用某些类型的停止条件。
2.决策树的示例性应用
为保持树和相关规则的相对简单性,仅将树限制在两个级别,得到如图7所示的树。然而,即便利用这样的约束,也有可能对两个最重要的特性进行相对强的声明。在于图7相对应的示例中包含有以下特性:粘性、表面张力、固化性(persolids)、缝间距(nipclear)、ra、rp、rl。这些特性是涂层制剂的化学性质,且用于预测涂层厚度。
Neugent技术提供了无监督和自治代理,它非常擅于建模和预测行为,以及预测从一个系统模式到另一个系统模式转变的可能性。Neugent能实现多数人所不能做到的系统行为模式检测。
可使用两种类型的Neugent,值预测(Value Prediction)和事件预测(Event Prediction)。
对于事件预测Neugent是通过系统行为的历史数据的聚类来训练。以找出根据在输入数据中值和逻辑条件所限定的具体类型事件。例如,根据输入数据,关于所要预测的事件名称以及事件的定义配置事件预测Neugent对象。然后,由历史数据训练Neugent。在模型构建中,当提供以新数据时,调用事件预测Neugent进行评估,输出或者为对数据中的定义事件的检测,异常情形的检测,事件的预测,事件出现在未来时期内的概率,或者警戒系统与对其进行训练的历史数据相对比表现得异乎寻常。
值预测Neugent为用于预测建模的神经网络工具。利用来自适当标准化的独立(independent)和从属(dependent)历史数据的已知输入输出对所获得的训练集合,来训练值预测Neugent对象。在模型构建中,当提供以独立特性值时,调用值预测Neugent。例如,使输入数据通过值预测Neugent神经网络模型,该模型对未知变量的值进行估计。值预测的一些示例包括预测存货级别(inventory level)以及预测客户是否想购买特定产品。
决策树建模可为Neugent值预测和事件预测模型的辅助方法。决策树可有助于Neugent技师在系统模型中发现并包括重要特性,并去除对所预测的输出影响很小或没有影响的特性,以构建有效而紧致的系统模型。
在涂层制剂模型中,在训练集合中有84个模式,在检测集合中有9个模式。图8显示出通过使用所有可用特性所获得的结果。
为选择特性集合而应用鉴别分析,能够减少为部署好模型的特性数量。按照重要性,所识别出的用于训练集合的重要特性为表面张力、粘性、固化性(persolids)、rl。图9显示出在对涂层厚度进行特征化中各特性的相对效果。通过在度量所谓的熵中的下降来度量相对效果。可使用仅四个最重要的特性来训练值预测Neugent,这达到了同使用可用特性完全集合同样好的结果。图10显示出对于精简特性集合所获得的R2值。在完全集合中的任何特性之间,不具有强统计相关。
在该示例中,可用特性的完全集合会产生稍好一些的R2值。然而,对于精简特性集合的R2值完全可以接受,且可预期使用精简特性集合的模型能够在尚未看到的模式上泛化更好。此外,使用鉴别分析可生成在某种意义上提供在Neugent黑箱模型内部的视图。此类对数据背后关系的洞察力有助于领域专家验证和接受Neugent模型。
第二示例性应用使用了显示出商店中购买模式的数据。数据的每个模式包含所选产品的购买量。目标是识别出产品购买的怎样组合可能表示酒品购买者。获得这样的知识后,酒品零售商可定位针对最可能购买更多酒品的客户的促销方式。显示出17种不同产品随具体品牌酒品购买变化的数据。图11显示出为预测酒品购买使用所有17种产品所获得的结果。图12显示出用于酒类数据的决策树的上级。图13显示出在酒类数据中的产品相对重要性。
由于输出为二进制(即,要么购买,要么不买),R2并不是该模型效果的最佳度量。相反,对浮动点输出应用阈值。高于阈值的输出值表示酒品购买。对该模型的输出应用0.6的阈值获得94.4%正确的训练精确性,和88.9%的检测精确性。在检测集合中的9个模式中,模型有1个错误预测。
仅使用四个最重要特性来训练另一Neugent模型。当对Neugent输出应用阈值时,获得93.3%的训练精确性和88.9%的检测精确性。使用特性完全集合的Neugent模型和仅使用上级层四个特性的模型各对同样检测模型产生错误结果。因此,从17减到四个特性基本获得同样的模型性能。这些特性的其中两个完全静态,且通过传统的预处理将他们消除。然而,在其余特性之间没有强相关。不易看出他们之中多个的相对重要性。
第三应用涉及使用鉴别分析帮助Neugent的特性选择,以对求助服务台系统的性能建摸。目标是预测能否根据服务等级协议(SLA)在规定的时间内解决求助服务台呼叫。
基于对数据固有特性的一般了解,将多个直接和派生特性编译成模式。使用完全特性集合生成相对较差的结果。应用鉴别分析,生成能产生可接受的预测的重要特性精简集合。由于模型的期望输出为二进制预测,对连续值的输出应用阈值使其限制为0或1(即SLA违例或不违例)。另外,R2值无益于对这种类型Neugent模型进行评估。当应用阈值后,模型对于检测集合的精确度在~90%正确的范围内。所识别出的第二最重要特性为客户代码,可期望它对于SLA违例率有重大影响。然而,关于最重要特性存在有感兴趣的特征(interesting aspect)。该特性为在一周中某一天可能违反常规。图14显示出求助服务台数据决策树的顶部级别。
对于具体呼叫求助服务台的性能显然依据做出呼叫在一周中的哪一天而异。综合违例率约为61.7%,但在一周中会有相当大的变化,如下:星期天-100%;星期一-70.2%;星期二-85%;星期三-49%;星期四-45%;星期五-41.5%;星期六-92.3%。它在一周的开始最高,趋向周末时有些高。可能的解释为,在周中时具有更多的可用时间和/或资源用于业务呼叫。
3.附加决策树方法
ID3(迭代二分检索器3,Iterative Dichotomiser 3)为对于分集函数使用信息增益的信息理论度量的非二进制方法。C4.5和C5.0为ID3的后继产品,它们使用熵度量,并提供用于剪枝树和限制树生长的附加策略。
在应用所选特性度量后的系统熵中,信息熵下降。熵作为对系统内无序或不一致性的度量。在树的所选级上的每个节点都具有特定的熵,将节点熵以加权组合而获得对树级别的系统熵。在每个级别,选择提供在系统熵中获信息增益中最大减少的检测作为在该级别最可能的检测。
C4.5和C5.0使用称为增益率的度量代替信息增益作为分集函数。增益率为源自于特性检测的信息增益,并由该检测所创建的子集数量而划分。该度量不利于上述检测类型,这破坏了数据集合(例如,人名)。如果有提供合理信息增益,且在分割中有更少子集的另一种检测,则会代之以选择其。
对于剪枝,ID3使用基于最少节点尺寸简单停止树生长,或指定停止检测可接受最小熵的bonsai类型剪枝技术。C4.5和C5.0提供基于伯努利二项式从树剪枝分支的策略。根据C4.5/C5.0剪枝策略,通过分派节点作为对于在该节点中占主导地位的类的叶节点,并确定误分类的项的数量,来确定错误率。然后利用二项式和所选自信度等级假定,所观测到的错误率过分乐观,并用它来取代更悲观的错误率。如果取代悲观错误率后分枝导致错误率上升,则将其剪枝。C4.5和C5.0如同训练一样对剪枝使用训练数据。利用训练数据实现剪枝可能会有效。作为可替换使用训练数据的可选方式,人们可考虑同二项式一道使用检测数据以实现剪枝。
C4.5和C5.0还可使用用于在每个级别对特性检测进行组合的分组函数。这可检测使同时应用两个检测比单个应用每个检测更加有效的协同效果。
C4.5和C5.0采用分立的模块从决策树产生规则。对于其他方法,这可为另一种剪枝予以考虑,从而可通过结合和拒绝特性值将多个分枝合并为单个分枝。
卡方自交互检验(CHAID)为以多种方式不同于ID3,C4.5和C5.0的方法。CHAID使用卡方函数作为不同的分集函数。当应用卡方分集函数时,在出现不适合之前CHAID停止树的生长。因此,没有必要在构建起树之后进行剪枝。此外,它严格处理分类变量。因此,在开始进行生成树程序之前将连续的变量分箱。ID3,C4.5和C5.0或许基于信息增益可使用连续值的动态分箱。如同ID3,C4.5和C5.0一样,CHAID为非二进制方法。
CHAID将每个可能的特性检测的相对效果进行比较。在CHAID方法中,按多种方式使用卡方检测,统计重要性检测。特性检测所允许的分枝数量受限于在统计上产生重要分裂的那些分支。此外,当将每个特性检测的结果进行比较时,在每个级别,根据卡方检测产生最重要结果的分裂更胜一筹。当更多特性检测停止产生统计上重要的结果时,使用卡方检测来停止树的生长。此最后的决定涉及重要性阈值的使用,这是CHAID方法可用的主要剪枝参数。
消耗型CHAID是CHAID的变型。当评估对于每个特性检测的可能分支因子时,它根据卡方检测,逐步将可能的分枝合并成最自相似(most self-similar)的两组。这基本上将树限制成为二进制。
分类和回归树(CART)为二进制树方法。同ID3/C4.5/C5.0家族一样,CART可使用不同的分集函数来度量各特性检测的效果。可使用以下分集函数:
(a)min(P(c1),P(c2)),其中,c1和c2为用于检测的两个可能的结果类,P(c1)和P(c2)为c1和c2的相对序列;
(b)2*P(c1)*P(c2);和
(c)[P(c1)*log(P(c1))]+[P(c2)*log(P(c2))],也称为熵或信息增益度量。
在各特性检测之前或之后对分集函数进行评估,并声明在分集中提供最大降低的其中一个胜出。该处理非常像其他方法,直至穷尽特性检测,或者直至到达任意停止点(例如,最小节点计数)。
CART使用修正的错误率函数[AE(t)=E(t)+a*LeafCount(t)]来生成侯选子树池。以下选出第一侯选子树。由于参数逐步增大,对包含根节点的可能子树计算修正错误率。当子树的修正错误率变得比对于根节点的错误率更大时,将子树剪枝。通过以第一侯选子树开始重复此处理,选出第二侯选子树。处理直至剩下根节点时才结束。使用数据确认集合(在训练数据中未使用)在剪枝的侯选子树中进行选择。声明在确认集合上具有最低综合错误率的子树胜出。有时,根据错误率应用代价函数(例如,以误分类的概率相乘的某些权重)。可使用排除训练和确认集合的第三检测数据集合来测量最后子树的预测或分类概率性能。
4.分箱考虑
除完全离散的数据外,分箱(binning)是可用于上述方法的预处理步骤。该技术采用在数据的观测范围上等间隔的n个箱。如上所述,还期望使箱的数量最小化,以避免快速将数据分片成许多不具代表性的子组。
对于与上述涂层示例相对应的如图15所示数据,该类型的线性分箱可能是适宜的。与酒品示例相对应的图16显示出表面上可能更指数化的特性数据。
对涂层和求助服务台应用使用线性箱限制。对于酒品示例,考虑大所数特性数据的指数特征,同时对超出一定值的购买量分箱。由于购买大量消费品很少见,该指数特征可作为购买数据的特征。
人们可预期会出现其他分布,特别是正态分布(即,钟形曲线)。图17显示出在酒品示例中货物品牌购买的分布。将该数据与由15次货物品牌购买的中值(mean)得出的正态曲线相比较,标准偏差为8。该特性可生成三个箱-bin1:购买量少于中值减1个标准偏差(即,7项或更少);bin2:购买量在中值+/-1个标准偏差(即,7至21项);bin3:购买量大于中值加1个标准偏差(即,7项或更少)。自动分箱工具可考虑在各个特性数据中的分布,并由此进行分箱。
若可能的话,还可使用元数据(meta-data)或先验(priori)知识。例如,如果已知某一特性作为数据,它可有益于将数据表示成一周中的日期,并由此进行分箱。
5.剪枝/停止条件
如上所述,树剪枝对于独立应用决策树至关重要。其中的某些原因是决策树对于分箱和剪枝考虑的依赖性,将它们考虑作为标准Neugent技术的辅助工具。甚至可将剪枝方法用作Neugent的附件。
在不选择对树分支而言非常有效(即,对于总体的某些子体)的特性检测作为对于整个树级别而言最有效的检测的树构建方法中,它经常出现。其结果是,局部有效的检测可比它们可能应该达到的程度相比更不明显。另外,还可导致使关于树的该分枝的任何规则模糊或不明显。这种效应可通过多种剪枝程序来缓解。另一可选剪枝是在树的各级别选择多个特性,以发现对于每个子体的最优特性检测。然而,这可能增大方法的计算复杂性。
最好还可使用其他类型的停止条件,如最大树级别,或对于ID3的最小熵或最小熵钻(minimum entropy drop)。对于其中时间非常重要的在线应用,可指定用于处理树级别或全部树的最大时间。
6.效率和大规模数据集合的考虑
为评估每个特性,每种方法都通过数据集合。由于二进制和非二进制方法具有不同的特性数量和类型,当将其应用于给定数据集合时,不能将它们进行直接比较。对于上述方法,任意分箱或自适应分箱与特性检测评估的效果是可比较的。
剪枝操作比较的更不直观。此处,完全避开剪枝的CHAID似乎更胜一筹。使用利用C4.5/C5.0的有限剪枝看上去比CART计算量更少。然而,如果使用C4.5/C5.0规则生成模块,则其总计剪枝负载将等量齐观。尽管C4.5/C5.0具有使用训练数据确认剪枝的好处,CART还是要读取检测集合并阻止训练数据。
如果假定,多个建模的系统包含有连续的特性变量,则将特性再构造成二进制格式强化(provide an edge to)了非二进制方法。
可能特性出现和同现的计数表提供了足够的统计数据。这使得在RAM中所保持的信息量最小化,同时递归性应用特性检测。该方法具有以下两方面效果。如果为生成箱计数,对于连续变量进行处理,或对于具有普通取值特性的二进制数的情形,则已经对箱的范围作出决定。放弃任何形式的动态分箱(例如,最大化信息增益)。此外,还丢失关于在数据集合中什么样的个别模式对所选树分支的信息有益的跟踪信息。一旦在所应用的方法中获得了自信,该知识仍可仅具有理论重要性.在该单遍通过(single-pass)方法中未考虑的另一因素为如何确定最终范围以及对特性值的可能定标。利用适当检索的数据库,可通过查询获得最小,最大以及可能的其他统计数据,且不花费总数据库搜索代价。对于其他数据集合,则是另一搜索,或在内存中保持数据。然而,如果可将定标和分箱独立于决策树方法设置,则对于大型数据集合将具有吸引力。
由于实际问题,为解决前述影响,可能会遇到数据库的有限通过数。在大多数应用中,可能两个通过已足够,且第一个用于收集箱统计数据。
7.决策树产品
有众多软件供货商或其他来源提供实现上述一种或多种决策树方法的软件。可在网上找到这些资源的列表。
后面将描述在选择决策树工具中的的某些因素。决策树工具用作辅助方法,并不作为用于系统建模的主要手段。然而,对于商业决策树应用,通常用作为系统建模的专门或主要手段。建模工具通常具有用于说明在其分箱操作中的多个属性的特性。
第二因素是,实际应用常常涉及连续值的数据。将问题重新构造成二进制值格式的尝试促进了采用一种非二进制数的方法。
由于实际数据挖掘应用可涉及大量的数据,建模工具理想是能够单遍通过数据库以收集足够统计数据的精简集合,如同以上所述。当以单遍通过的工具工作时,在搜索处理之前或早期,决定分箱参量。然而,建模工具可包括使用静态和动态分箱的选择。
C.示例性求助服务台应用
图18显示求助服务台系统。虚构的ACME公司将他们的计算机支持承包给外部服务。为确保有较高的服务质量,设置以SLA,对外部服务声明进行声明,以在24小时之内解决所报告的问题。
可使用本发明的方法,对求助服务台系统建模,以预测是否在SLA所需的24小时之内使呼叫得到服务。可提供高级求助服务台(AHD)软件工具帮助管理员和呼叫中心技术人员预测可对客户服务等级产生有害影响的问题。
通过AHD工具识别出对是否使呼叫得到及时服务产生影响的多个特性。特性的示例可包括,报告问题的客户组,问题的优先级等。一个可能较重要的一个特性为与呼叫相联系的问题代码。在问题跟踪系统中可定义数千个可能的代码,其中有数百个代码实际在数据中进行表示。在建模中试图包括所有可能或甚至大概的代码可能效率较低。此外,可预期,所混有的问题类型随着时间变化而发生演变。解决方法是,将在具体时刻对SLA违例而言最重要的代码进行建模。使用鉴别分析来选出顶部P个最重要的代码,并依据其他重要特性将它们包括在内。保持问题代码的基线重要特征。
如上所述,定期度量模型的精确性,若有必要,重新训练模型。接下来,生成重要特征,以及用于建模并按需要进行调整的代码。图19表示问题代码的混合如何随时间改变。在更高级别出现新代码表明将要报告给求助服务台的问题类型的变化以及相应的求助服务台可解决当前问题得好坏程度的变化。
在建模尝试中包括这些代码(而对于该系统来说一般并不是最重要的特征)使得系统模型达到所需的预测精确度。重要特征的利用使得能够快速检测系统演变以及模型改变和重新训练。这是使用重要特征调整系统一小部分而并非易变(volatile)的模型利用率的示例。此外,在这种情形,由于所涉及的输入特性由单个域得出,没有在线保持可能特性的超集。
下面,参照图20-38描述根据本发明实施例的方法的AHD工具。在图30中显示出AHD工具的方块图。
在AHD工具中包括有Neugent,以监视和预测呼叫等级,从而帮助管理员预测系统以及队列加载,天和周朝前资源计划和均衡资源。还可提供Neugent来监视各个开放呼叫,并基于历史行为模式,识别有SLA违例风险的呼叫并关于该呼叫向管理员和用户发出警告。各个Neugent适于评估系统行为的演变。多个行为模式对仅对人而言过于复杂以致于不能识别违例趋势。AHD工具还帮助管理员和用于重新指派呼叫或对呼叫重新分派优先级。
安装
可包括安装向导(图3)来执行多个设置操作,这些操作仅一次或几次执行。安装向导可安装允许用户选择问题模型的模板,利用该发行模型使Neugent起作用。用户可将问题仅映射成请求(例如,用户问题或在AHD系统中正追踪的问题),仅映射成变化次序(与相对应的请求相关),或映射成请求和变化次序的组合。使用安装的模板,用户能够定制Neugent以监视在AHD中的各队列和站点。
配置实用程序
可提供配置的实用程序,以便能够选择和/或管理多个系统的参数和定义。
配置实用程序可提供多种类型和Neugent配置实例。例如,基本类型的Neugent可包括呼叫级别Neugent(CallLevel Neugent)和SLA违例Neugent(SLAViolation Neugent)。通常,可能有呼叫级别的多个实例。也可存在有SLA违例的多个实例。例如,可提供向导来执行通用任务,如采用新的Neugent实例(例如,专用于特定队列的Neugent)。此外,可提供输出模式配置来定义新的风格和Neugent类型,或定制标准模板,如下:Neugent实例区间的选择等;包含在模式生成和建模中的特性集合和相关队列;AHD事件与Neugent实例的关联;训练窗口(例如,包含在新模式中的数据年龄);和数据老化(例如,清除数据的年龄)。在AHD的安装中可包含有标准化的特性集合和有关的存储队列。若需要的话,配置接口可提供队列和特性集合的高级定制。
当选择用于操作的Neugent实例后,可提供类似于在图20-23中所示的表风格接口,以允许输入和/或修改与Neugent实例相关联的聚集(collection)和特性。图24显示键入AHD数据库的数据库连接信息的样本接口。配置模块能够利用所存储的数据库程序,若合适的话,代替动态数据库(例如,SQL)查询。配置模块可通过工具菜单提供用于从/至脚本文件输入/输出所存储的查询。此外,可提供检测查询按钮用于观察和/或执行动态SQL查询。
管理器服务
为跟踪按照由对象定义的特征对在系统上定义的每个Neugent而确定的进度表对功能性进行跟踪,可提供管理器服务(图32)。如果管理器服务(Manager Service)未发现活动(active)Neugent实例的Neugent模型,则它会切换到历史模式,在该模式中,收集可用的历史数据,并训练和和部署临时模型。
一旦有活动的Neugent模型,管理器服务以指定区间(例如,夜间)。使用在管理对象库(Managed object store)中定义的规范,自在线数据创建会诊(consult)模式的聚集。为针对活动模型进行会诊,将聚集提供给Neugent提供者(Neugent Provider)。如果条件允许(例如,预测的SLA违例),则通过正常AHD通道提升在对象定义中指定的事件,并通过AHD编史者(AHD Historian)进行汇报。
会诊之后,进行用于创建和存储对已关闭项的模式的处理。在对象定义中指定用于项关闭的条件。
在指定的区间(例如,夜间),运行评估处理,以对自训练处理所保持的模式进行会诊。将有关结果的汇总统计进行保存,并通过AHD编史者使之有效用于查看。在评估处理期间,根据在对象定义中所定义的规范,运行决策树处理,这可识别是否因重要分类代码的混合发生改变而应使用不同代码作为输入对模型重新训练。如果评估处理确定现有模型不合适,这或是由于精确度不够或是由于如决策树分析所检测的系统发生演变,则管理器服务初始化Neugent模型的重新训练。
所提供的特性用于有效安排每个Neugent实例的采样(以及其他)阶段,以避免交叠多个Neugent实例的资源特别阶段(例如,训练)。在非高峰时间(例如,午饭时间,夜间)可运行大量积累(rollup)查询。
对于每个Neugent实例,管理员确定用于调用当前系统的适当方法。以下的每种方法映射成对于给定Neugent实例的相似方法。
当一Neugent示例变得活动时,为收集任何可用的历史数据,管理器服务切换至历史模式。历史模式使用在Neugent实例定义中指定的查询条件,以回看(back-looking)方式收集数据,收集历史数据之后,训练并部署Neugent模型,以便能够在历史数据可用时确保立即预测的能力。
会诊方法
当存在对于Neugent实例的活动模型时,在对于Neugent实例的指定样本区间的管理器服务,通过对该实例定义的特性集合规范构建对于Neugent的模式。会诊方法(图33)使用对于该Neugent实例的FeatureSpec(特性规范)定义产生一个或多个动态SQL查询。如果指定了SQL结果的预处理,则执行这样的预处理。对于会诊不执行仅产生对该模型的输出特性的查询和子查询。
作为使用动态SQL查询的替代方式,可使用所存储的查询程序。动态的部分查询是用于所存储程序的参数。
会诊模块对FeatureSpec和PreprocessingSpec令牌进行解释以执行某些任务,诸如激活AHD函数调用将SLA_expiration_time转换成预期失效日期,然后将该日期转换成expiration_day_of_week以及转换成expiration_time_of_week特性。在对于Neugent实例的对象定义中包含有预处理的规范。
针对对于Neugent实例的事件触发器对会诊结果进行比较。对于任何触发的事件,采取在事件定义中对于Neugent实例指定的适当行动。在多个实例中所采取的行动用于提升AHD事件,这通过正常AHD通道产生警告或通知。当条件允许时,Neugent调用RaiseEvent实用程序,且AHD确定何时以及如何向用户警告Neugent预测。
由于构建的动态SQL查询的固有特性,会诊模块具有例如由Windows注册表条目启动的调试或专家模式。此模式允许对某些或所有产生并提交给数据库服务器的查询进行日志记录。
保存模式方法
模式通过会诊方法(图34)在线进行保存,以避免不必要的高额代价或不可能离线进行重构造的处理。例如,如果有时当问题变为违例时与SLA违例密切相关的特性值发生改变,则在不遍历数据库事务日志的条件下难以恢复该值。此外,对于积累类型特性,它可能难以重新构造历史模式。
SavePattern模块执行类似于会诊行动的操作,但对Neugent实例的对象定义中的关闭条件进行评估以及收集输出特性除外。将最后结果进行组合,以形成在局部名称空间结构中进行存储的模式。这些模式以后会用于决策树分析和/或重新训练。模式或许为超级模式,在超级模式中,当前模式不会使用所有可用特性。在该情形中,如果想使用在模型中的不同特性集合,则将存储额外的特性。
为构建模式,在动态SQL查询(或存储的程序)中的可替换令牌包括对在局部数据存储中值的可能索引,这允许例如SLA违例类型Neugent使用有点像在最后小时中所打开调用的、对呼叫级别类型Neugent的每小时采样,作为其部分模式。没有必要像SLA违例Neugent样本那样频繁地重复代价较高的累积查询,而代之以可使用来自伴生Neugent的每小时平均。
该模块在局部名称空间结构中创建表(若它还未存在的话)。
对于模式构建模块的天函数(day function)的最后将清除超过系统配置中所指定老化极限的模式数据。在对于Neugent实例的对象定义中的天特性的时间允许与正常备份程序保持同步。
由于构建的动态SQL查询的固有特性,会诊模块具有例如由Windows注册表条目启动的调试或专家模式。此模式允许对某些或所有产生并提交给数据库服务器的查询进行日志记录。
评估方法
评估方法(图35)以在Neugent实例定义中所指定间隔(例如,每日)进行调用。如果模型对于Neugent实例活动且数据可用,对于该实例产生汇总性能数据并进行存储。该数据可为更改模型方法使用,或用于借助AHD Historian进行查看和报告。性能评估并不依赖R2值作为品质数。而代之以尝试对于Neugent的Event条件,即当Event被调用时是否提升Event。
决策树方法
决策树模块(图36)使用对于Neugent实例的决策树参数执行对可用数据的鉴别分析。在AHD特性中用于重新评估的主要侯选为AHD分类代码。然而,由于代码不具有自然数据顺序,在Neugent模型中作为二进制特性将它们包含。包含非重要特性会不利地影响Neugent模型性能。此外,还有过多得特性,以致不能在模型中包含所有这样特性。因此,可仅包含当前而言最重要的特性。
同过重要预处理提取出分类代码。在缺省情形,针对分类代码仅使辨别分析有效。然而,在Neugent对象定义结构中,存在在决策树分析中包括其他特性的特征。
更改模型方法
在对于更改模型实例所指定的条件(例如,一天的时间)下[图37],管理器服务检查用于决策树分析和/或Neugent训练的数据的可用性。如果未获得数据或数据不够充足,则模型不进行任何进一步操作。
如果由对象定义对Neugent实例进行调用,则对可用数据执行决策树鉴别分析。如果重要特性自当前特性集合发生改变,则备份当前Neugent实例对象定义。接下来,设置标记,以表明根据新的重要特性将被预处理的训练集合,并按以下所述启动重新训练。
如果在指定区间Neugent实例需要无条件重新训练,假设存在可用数据,方法以随机变化开始新模型的训练。
如果模型符合精确性的最小标准,管理器试图将其作为当前模型进行安装。如果没有用于实例的当前模型,管理器无条件安装此模型。如果存在现有模型,管理器将新模型的效果与当前活动模型的效果进行比较。如果新模型更有效,则将其标记为活动模型。否则,原模型仍为活动。
编史者模块
可提供用于用户报告(例如,呼叫等级预测Neugent的汇总报告)的编史者界面。编史者模块提供为用户查看或打印呼叫等级Neugent预测和/或预测效果报告的界面。例如,用户可从可用Neugent实例及类型中进行选择,然后查看用于所选类型的可用预测和性能报告。报告可以图表形式,有些则可以列表形式。用户可通过标准Windows风格打印对话框打印报告。
用户可查看Neugent的过去性能(例如,将实际与所预测的情形进行对比)。通过管理其服务的评估模块可存储统计汇总数据,因此,可不必要进行重新计算。用户还可打印报告。通过用户帐目系统安全级别的指派可提供对敏感信息的访问限制。
还可选择性地提供Web编史者服务,以用于通过网络浏览器(例如,因特网资源管理器)查看报告。
类似于配置实用程序,编史者可具有与其他AHD界面相同的外观。可通过管理器服务的评估模块存储统计汇总和预测数据,从而可没有必要进行重新计算。
编史者可显示和打印对于呼叫级别Neugent和SLA违例Neugent的不同报告。
对于SLA违例Neugent,可获得多个报告。示例性SLA违例报告如图25-27所示。例如,可提供对于打开问题(例如,呼叫,改变次序等)的预测条状图。可获得关于按照受让人(assignee)、队列、时间变化和SLA类型对问题分组的多种报告视图。在条状图上可提供热点区,当点击它时,产生出关于在预测条(prediction bar)内所包含的问题列表。点击在列表中的问题时,产生出在AHD中包含更详细的细节。对于装备AHD WebServer的AHD安装,点击在报告上的AHDView,产生在AHD Web应用内问题的全部细节。
对于SLA违例Neugent的另一报告可显示出对于Neugent实例的常规演变。通过在从训练所保持的封闭数据上检测活动Neugent模型来执行评估。
此外,对于SLA违例Neugent的另一报告可显示出,测量作为被预测的呼叫的过去预测的精确性随时间封闭(closed)。所测性能可包括事件平均(例如,由AHD正确识别的实际SLA违例的百分比),和过量平均(例如,AHD触发可能作为违例的非违例百分比)。
对于呼叫级别Neugent,还可获得多种报告。一些示例性呼叫级别报告如图28和29所示。例如,一个报告可显示出由呼叫级别Neugent进行的各个预测。除在一个图上可叠加有多个预测外,另一个报告可类似第一个。此外,另一个报告可显示出实际与预测情形相比,所呼叫的各个性能,对于各个预测的级别。另一个报告可显示出对于所选呼叫级别Neugent的所有过去预测的平均精确性。
附加的实用程序
下面的函数可用作为在一个或多个动态链接库(DLL)中的函数调用。GetSecurityLevel为获得登陆用户的AHD安全级别的实用程序,登陆用户可限制编史者和配置实用程序的使用。RaiseAHDEvent为,当条件允许时,如预测到SLA违例,将警告传递到常规AHD事件处理通道的实用程序。该函数可接受参数(若需要)来授权将事件提升。当Neugent确定已预测到SLA违例时提升事件。当启动Neugent时,以AHD初始化界面,从而允许消息流通。
无论Neugent何时预测到可能有SLA违例,都激发PredictSLA方法更改指定的请求或改变次序。PredictSLA采取多个行动,包括以下内容:(a)检查指定的请求或改变次序;(b)使请求中的predict_sla_violated值递增或改变次序记录;(c)以Neugent消息串的指定内容增加活动性日志。
并行/分布式处理
若有可能以及适当的时候,可使用多线程使得能够进行并行处理。此外,为提高性能或方便定标,AHD可将Neugent分布在多个控制台之间。例如,可将各个模块分布在两个或更多的处理器之间,以提高系统性能和可扩展性。例如,在24×7操作中,可能没有真正用于模型重新训练的的非尖峰时期。可保持服务器名和/或IP地址的列表,以便于处理之间的通信。
或者,AHD服务可完全运行在专用管理控制台上,以使其对在客户站点的其他子系统的影响最小化。
上述具体实施例是说明性的,在不偏离本发明精神和所附权利要求范围的条件下,可对这些实施例进行多种变化。在本公开内容和所附权利要求范围内,可以将不同实施例的元件和/或特征彼此组合和/或相互替代。
本领域普通技术人员通过阅读以下的美国临时申请,显然可以得出附加变型,这些申请在此引作参考:
(a)2002年4月19日递交的题为“PROCESSING MIXEDNUMERIC AND/OR NON-NUMERIC DATA”的序列号No.60/374,064;
(b)2002年4月19日递交的题为“AUTOMATIC NEURAL-NET MODEL GENERATION AND MAINTENANCE”的序列号No.60/374,020;
(c)2002年4月19日递交的题为“VIEWING MULTI-DIMENSIONAL DATA THROUGH HIERARCHICALVISUALIZATION”的系列号No.60/374,024;
(d)2002年4月19日递交的题为“METHOD AND APPARATUSFOR DISCOVERING EVOLUTIONARY CHANCES WITHIN ASYSTEM”的序列号No.60/374,041;
(e)2002年4月19日递交的题为“AUTOMATIC MODELMAINTENANCE THROUGH LOCAL NETS”的序列号No.60/373,977;以及
(f)2002年4月19日递交的题为“USING NEURALNETWORKS FOR DATA MINING”的序列号No.60/373,780。

Claims (15)

1.一种自适应系统建模方法,包括:
通过使用基线重要特征从系统的多个侯选特性中选出输入特性的集合以及输入特性和其他特性的超集;
通过使用与所选输入特性集合相对应的数据产生系统模型;
保持自系统所收集的与输入特性和其他特性的超集相对应的在线数据;
通过使用在线超集数据执行对侯选特性的鉴别分析以确定系统的新的重要特征;以及
通过将新的重要特征与基线重要特征进行比较来检测系统中的演变。
2.根据权利要求1的方法,还包括:
通过使用新的重要特征选出新的输入特性。
3.一种自适应系统建模方法,包括:
通过执行鉴别分析来确定系统当前行为的基线重要特征;
通过使用基线重要特征从多个侯选特性中选出输入特性的集合以及输入特性和其他特性的超集;
通过使用与所选输入特性集合相对应的数据产生系统模型;以及
保持自系统所收集的与输入特性和其他特性的超集相对应的在线数据。
4.根据权利要求3的方法,还包括:
利用系统模型基于附加输入特性数据来评估预测的精确性;
如果系统模型预测的精确性低于预定精确性级别,通过对侯选特性执行另一鉴别分析来确定系统的新的重要特征;以及
通过使用新的重要特征选择新的输入特性。
5.根据权利要求4的方法,其中,附加输入特性数据可从数据的在线收集来获得。
6.一种自适应系统建模方法,包括:
通过使用决策树方法执行鉴别分析来确定系统当前行为的基线重要特征;
通过使用基线重要特征从系统的多个侯选特性中选出输入特性的集合;以及
通过使用与所选输入特性集合相对应的数据产生系统模型。
7.一种机器可读的程序存储设备,实际包括机器可执行指令的程序,以执行权利要求1的自适应系统建模方法。
8.一种机器可读的程序存储设备,实际包括机器可执行指令的程序,以执行权利要求3的自适应系统建模方法。
9.一种机器可读的程序存储设备,实际包括机器可执行指令的程序,以执行权利要求6的自适应系统建模方法。
10.一种计算机系统,包括:
处理器;和
计算机系统可读的程序存储设备,实际包括处理器可执行指令的程序,以执行权利要求1的自适应系统建模方法。
11.一种计算机系统,包括:
处理器;和
计算机系统可读的程序存储设备,实际包括处理器可执行指令的程序,以执行权利要求3的自适应系统建模方法。
12.一种计算机系统,包括:
处理器;和
计算机系统可读的程序存储设备,实际包括处理器可执行指令的程序,以执行权利要求6的自适应系统建模方法。
13.一种包括在传送介质中的计算机数据信号,包括:
第一分段,包括模型生成代码,以通过使用基线重要特征从系统的多个侯选特性中选出输入特性的集合以及输入特性和其他特性的超集,通过使用与所选输入特性集合相对应的数据产生系统模型;
第二分段,包括数据收集代码,以保持自系统所收集的与输入特性和其他特性的超集相对应的在线数据;和
第三分段,包括模型评估代码,以通过使用在线超集数据执行对侯选特性的鉴别分析以确定系统的新的重要特征,以及通过将新的重要特征与基线重要特征进行比较来检测系统中的演变。
14.一种包括在传送介质中的计算机数据信号,包括:
第一分段,包括模型生成代码,以通过执行鉴别分析来确定系统当前行为的基线重要特征,通过使用基线重要特征从多个侯选特性中选出输入特性的集合以及输入特性和其他特性的超集,通过使用与所选输入特性集合相对应的数据产生系统模型;以及
第二分段,包括数据收集代码,以保持自系统所收集的与输入特性和其他特性的超集相对应的在线数据。
15.一种包括在传送介质中的计算机数据信号,包括:
第一分段,包括鉴别分析代码,以通过使用决策树方法执行鉴别分析来确定系统当前行为的基线重要特征;以及
第二分段,包括模型生成代码,以通过使用基线重要特征从系统的多个侯选特性中选出输入特性的集合,并通过使用与所选输入特性集合相对应的数据产生系统模型。
CNA028287746A 2002-04-19 2002-07-18 用于发现系统中演变的方法和装置 Pending CN1864153A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US37404102P 2002-04-19 2002-04-19
US60/374,041 2002-04-19

Publications (1)

Publication Number Publication Date
CN1864153A true CN1864153A (zh) 2006-11-15

Family

ID=29251126

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA028287746A Pending CN1864153A (zh) 2002-04-19 2002-07-18 用于发现系统中演变的方法和装置

Country Status (8)

Country Link
EP (1) EP1504365A2 (zh)
JP (1) JP2005523526A (zh)
KR (1) KR20040111517A (zh)
CN (1) CN1864153A (zh)
AU (1) AU2002367882A1 (zh)
CA (1) CA2481296A1 (zh)
IL (1) IL164616A0 (zh)
WO (1) WO2003090147A2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177294A (zh) * 2011-09-09 2013-06-26 索尼公司 信息处理设备、信息处理方法以及程序
CN107871166A (zh) * 2016-09-27 2018-04-03 第四范式(北京)技术有限公司 针对机器学习的特征处理方法及特征处理系统
WO2019015631A1 (zh) * 2017-07-20 2019-01-24 第四范式(北京)技术有限公司 生成机器学习样本的组合特征的方法及系统
CN111967778A (zh) * 2020-08-19 2020-11-20 杭州铂钰信息科技有限公司 一种基于安全基线模型的数据安全检测方法及系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5098821B2 (ja) * 2008-06-02 2012-12-12 富士通株式会社 監視対象システムの障害等の予兆を検出する監視装置及び監視方法
WO2011155308A1 (ja) * 2010-06-09 2011-12-15 日本電気株式会社 契約違反予測システム、契約違反予測方法および契約違反予測プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177294A (zh) * 2011-09-09 2013-06-26 索尼公司 信息处理设备、信息处理方法以及程序
CN107871166A (zh) * 2016-09-27 2018-04-03 第四范式(北京)技术有限公司 针对机器学习的特征处理方法及特征处理系统
WO2018059016A1 (zh) * 2016-09-27 2018-04-05 第四范式(北京)技术有限公司 针对机器学习的特征处理方法及特征处理系统
US11416768B2 (en) 2016-09-27 2022-08-16 The Fourth Paradigm (Beijing) Tech Co Ltd Feature processing method and feature processing system for machine learning
WO2019015631A1 (zh) * 2017-07-20 2019-01-24 第四范式(北京)技术有限公司 生成机器学习样本的组合特征的方法及系统
CN111967778A (zh) * 2020-08-19 2020-11-20 杭州铂钰信息科技有限公司 一种基于安全基线模型的数据安全检测方法及系统

Also Published As

Publication number Publication date
JP2005523526A (ja) 2005-08-04
EP1504365A2 (en) 2005-02-09
WO2003090147A8 (en) 2004-12-02
AU2002367882A1 (en) 2003-11-03
IL164616A0 (en) 2005-12-18
WO2003090147A2 (en) 2003-10-30
CA2481296A1 (en) 2003-10-30
KR20040111517A (ko) 2004-12-31

Similar Documents

Publication Publication Date Title
Abdul Hameed et al. Assessing the influence of environmental and CEO characteristics for adoption of information technology in organizations
Melitz et al. Dynamic Olley‐Pakes productivity decomposition with entry and exit
Tichý et al. Optimal transformation of species cover for vegetation classification
Ballin et al. Joint determination of optimal stratification and sample allocation using genetic algorithm
CA2519238A1 (en) Technique evaluating device, technique evaluating program, and technique evaluating method
CN113051291A (zh) 工单信息的处理方法、装置、设备及存储介质
Bucher et al. Process Orientation of Information Logistics An Empirical Analysis to Assess Benefits, Design Factors, and Realization Approaches
Jones et al. Capturing, coding, and cleaning survey data
CN116823496A (zh) 基于人工智能的智能保险风险评估和定价系统
Goby et al. Business intelligence for business processes: the case of IT incident management
US20210029129A1 (en) System and method for controlling security access
CN117453764A (zh) 一种数据挖掘分析方法
CN1864153A (zh) 用于发现系统中演变的方法和装置
US7970785B2 (en) Method and computer program product for using data mining tools to automatically compare an investigated unit and a benchmark unit
Hammad et al. Automatic clustering of bug reports
Rybakovas Country-specific competitive advantages of manufacturing sector firms in Eastern EU Member States
CN114971711A (zh) 业务数据处理方法、装置、设备及存储介质
Wielenga Identifying and overcoming common data mining mistakes
Scholta Semi-automatic inductive derivation of reference process models that represent best practices in public administrations
Micci-Barreca et al. Improving tax administration with data mining
Ganjali et al. Identify Valuable Customers of Taavon Insurance in Field of Life Insurance with Data Mining Approach
Alshehri Text mining for incoming tasks based on the urgency/importance factors and task classification using machine learning tools
Wang et al. Diminishing downsides of data mining
CN118396242B (zh) 一种中心化创业企业用综合管理方法及系统
US20240062101A1 (en) Feature contribution score classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication