CN107003928A - 性能异常诊断 - Google Patents

性能异常诊断 Download PDF

Info

Publication number
CN107003928A
CN107003928A CN201580063992.5A CN201580063992A CN107003928A CN 107003928 A CN107003928 A CN 107003928A CN 201580063992 A CN201580063992 A CN 201580063992A CN 107003928 A CN107003928 A CN 107003928A
Authority
CN
China
Prior art keywords
predicate
abnormal
scoring
attribute
exception
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580063992.5A
Other languages
English (en)
Other versions
CN107003928B (zh
Inventor
A·C·柯尼格
I·德沃尔金
M·库玛
S·罗伊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN107003928A publication Critical patent/CN107003928A/zh
Application granted granted Critical
Publication of CN107003928B publication Critical patent/CN107003928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/323Visualisation of programs or trace data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

所描述的实现涉及可调谓词发现。一个实现被显示为用于获得数据集合并且确定数据集合中感兴趣的属性的异常的异常评分的方法。该方法还可以基于异常评分来生成谓词的排序列表,并且使得排序列表的谓词中的至少一个被呈现。

Description

性能异常诊断
背景技术
复杂系统的性能可能难以管理、调查和/或细化。提供计算服务的云计算平台是复杂系统的一个示例。云计算平台的客户需要严格的性能和可用性要求。为了具有竞争力,云计算平台需要定期提高服务质量,以满足客户的需求。提高服务质量的一个方面是基于跟踪各种关键性能指标来量化性能和可用性。然而,在云计算平台的情况下,系统可以包括多个独立开发的部件,通常在不同的硬件配置和跨多个数据中心执行。这种异质性和系统复杂性可以使得在系统行为中跟踪异常的各种关键性能指标和异常的诊断两者困难且昂贵。对系统行为中异常的跟踪和诊断对于各种复杂系统和/或操作的管理可能是有益的。
发明内容
所描述的实现涉及可调谓词(predicate)发现。一个实现被显示为用于获得数据集合并且确定数据集合中感兴趣的属性的异常的异常评分的方法。该方法还可以基于异常评分来产生排序的谓词列表,并且使得排序列表的至少一个谓词被呈现。
本发明内容被提供以简化的形式介绍概念的选择,这些概念在下面的详细描述中进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。
附图说明
附图图示了本专利中传达的概念的实现。通过参考结合附图的以下描述,可以更容易地理解所示实现的特征。在可行的情况下,使用各种附图中的类似的附图标记来表示类似的元件。此外,每个附图标记的最左边的数字表示首先引入附图标记的附图和相关联的讨论。
图1和图2示出了其中可以根据一些实现使用本概念的示例性系统。
图3和图4示出了根据一些实现的示例谓词发现结果。
图5示出了根据一些实现的可以被配置为完成某些概念的示例计算机或计算设备。
图6和11-13是根据一些实现来完成某些概念的流程图。
图7-10示出了与根据一些实现来完成某些概念的算法有关的图。
具体实施方式
概述
本讨论涉及可调谓词发现。在所公开的实现中,可调谓词发现概念可被实现以发现标识数据的异常子集的谓词(例如,条件,约束)。例如,可调谓词发现概念可用于诊断复杂系统中的异常,诸如提供计算服务的云计算平台。此外,可以选择(例如,调整)异常的水平(例如大小)用于诊断。
一般来说,谓词是其中异常(例如相对于基线的行为变化)发生的条件和/或约束。在某些情况下,异常可能是微妙的和/或难以识别的(例如潜在的故障)。附加地或备选地,系统可能是非常复杂的和/或包含异构部件,潜在地使异常诊断变得非常困难。在所公开的实现中,可调谓词发现可以有效且快速地发现指示异常的谓词。在某些情况下,可调谓词发现也可能发现潜在的重要的但难以检测的异常,即使对于高度复杂的系统。例如,可调谓词发现可以回答诸如以下问题:服务在哪些条件下变得更慢,服务器更有可能失败,客户是否更有可能流失?谓词的发现可以允许更快速、更高效的异常的诊断。可调谓词发现可以为系统管理员提供一个易于可操作的结果。
在所公开的实现中,可调谓词发现可以应用于来自系统的数据集合。数据集合可以包括系统的属性和/或性能特征。例如,系统的属性可以包括系统中的部件的标识、位置和/或类型。在云服务系统的示例中,性能特征可能包括时间、延迟、可靠性、部件可用性、硬件故障、软件故障、返回码等。性能特征也可以被视为关键性能指标(KPI)。来自系统的数据集合还可能包括异常(例如,性能异常)。异常可能与系统的属性和/或性能特征中的一个或多个有关和/或在其中被证明。
在一些实现中,可调谓词发现可以被认为是用于挖掘服务日志(例如,云计算服务日志)以标识异常的自动化系统。可调谓词发现可以包括用于检测系统行为和/或性能中的潜在重大异常的相对有效的挖掘算法。可调谓词发现还可以为这些异常提供潜在的解释,诸如帮助制定关于所涉及的部件和根本原因的数据驱动假设。在所公开的实现中,可调谓词发现可能不依赖于用于谓词发现和/或异常检测的显式监督信号。例如,数据集合可能不必包括单独日志中的故障数据或异常实例集合。在所公开的实现中,可调谓词发现也可以对异常值是鲁棒的。
此外,在所公开的实现中,可调谓词发现可以提供技术来控制通常与鲁棒统计相关联的计算开销。例如,与可调谓词发现概念一致的算法可以解决由与潜在复杂系统及其对应的计算开销相关联的搜索空间的大小可能施加的挑战。
可调谓词发现案例研究
图1-4共同图示出可调谓词发现的示例。图1-2示出了与所公开的实现一致的示例性系统100。图3-4示出了通过将可调谓词发现概念应用于系统100可以获得的示例结果。
如图1所示,系统100可以是包括数据中心102(1)和数据中心102(2)的云服务系统。注意,不同的绘图元素的实例通过括号参考来区分,例如,102(1)是指与102(2)不同的数据中心。当共同参考多个绘图元素时,将不使用括号,例如,数据中心102可以指代数据中心102(1)或数据中心102(2)中的一者或两者。
系统100还可以包括连接多个实体的网络104,包括数据中心102、具有监视系统108的服务器操作中心106、具有可调谓词发现(TPD)部件112的诊断设备110和/或具有应用接口116的客户端设备114。
网络104可以包括各种有线和/或无线网络及其组合。例如,网络104可以包括公共因特网以及连接图1所示的任意设备/数据中心的各种专用网络或其部分。为了下面的讨论的目的,网络104在设备和/或共享信息的数据中心之间提供连接性通常是足够的。
在图1所示的示例中,客户端设备114可以通过经由网络104与数据中心102(1)或数据中心102(2)进行通信来与应用程序118进行交互。应用接口116可以包括用于与应用通信的逻辑,例如格式化功能、显示功能等。例如,客户端设备114可以由希望使用由应用可用的各种特征的最终用户采用。将相对于图2进一步讨论数据中心102的示例配置。
服务器操作中心106通常可以包括一个或多个服务器设备,其被配置为针对性能特征和/或网络问题监视各个数据中心102。监视系统108可以监视整个系统100和/或各个部件的可靠性。例如,监视系统可以在服务器设备(图2)上执行以监视数据中心102(1)和102(2)。监视系统还可以收集数据集合中的信息,诸如服务日志。
图2更详细地示出了系统100,具体示出了数据中心102(1)的示例性数据中心网络架构。在这种情况下,数据中心102(1)包括诸如入侵检测和预防系统(IDPS)200、核心路由器202、虚拟专用网(VPN)204、接入路由器206、防火墙208、负载均衡器210、聚合交换机212、机顶盒(ToR)交换机214和/或服务器218的机架216的设备或部件。系统100还可以包括各种其他部件,例如风扇220,其可以在机架216和/或服务器218中。请注意,机架216、服务器218和风扇220中的仅一个被指定和/或示出,以避免绘图页上的混乱。系统100的部件可以通过由图2中的连接线表示的网络连接。此外,在一些情况下,服务器218可以被认为是集群222(1)或集群222(2)的一部分。
一般来说,云服务提供商感兴趣的关键性能指标(KPI)的一个示例是延迟(例如延时)。例如,延迟可以指代部署虚拟机的请求延迟。为了本文档的目的,延迟可以表示为百分位数,这可能有助于避免从可能使用平均值发展的异常值偏离。请注意,KPI可能涉及引起系统100中性能异常的各种硬件和/或软件问题中的任意一个,诸如故障、错误配置、协议错误、环境问题或其他故障。
作为示例,为了说明的目的,假设监视系统108观察数据中心102(1)的集群222(1)中的延迟回归。在这个示例中,延迟回归对于云服务操作是重要的,其中在第70百分位数处的延迟从7分钟增加到34分钟。随后,在该示例中,监视系统在数据中心102(1)的集群222(2)中观察到类似的延迟回归。
在这种情况下,TPD部件112可以利用由监视系统108获得的信息来诊断系统100的性能问题。可以将来自系统的信息的调查视为数据挖掘。TPD部件可以标识来自系统的信息中的和性能异常发生的谓词中的性能异常。在这种情况下,输出可调谓词发现的示例结果,如图3和图4所示的图。
图3示出了来自TPD部件112(图2)的第一示例谓词发现输出结果300。图3示出了在302处指示的基线(例如,基线延迟)。图3还示出了在304处指示的异常,其在这种情况下是在基线延迟上方的异常延迟增加。图3提供了用于异常延迟增加的谓词306,被示为“服务器IP=A.X.Y.Z.”。在这种情况下,具有IP地址“A.X.Y.Z”的服务器218(图2)与相应的基线延迟上的异常延迟增加相关。换句话说,谓词306指定正在经历增加的延迟的集群222(1)(图2)内的单个服务器218(图2)。
类似地,图4图示了来自TPD部件112(图2)的第二谓词发现输出结果400。图4包括基线402(基线延迟)和在基线之上的异常404(异常延迟增加)。图4还包括具有值“2147023436”的返回码谓词406。谓词406与异常404相关,异常延迟在相应的基线延迟上方增加。在该示例中,返回代码值涉及由于在服务器218(图2)处的超时而导致的操作系统(未示出)预取失败。
在上面相对于图1-4介绍的示例中,首先在集群222(1)中和随后在集群222(2)中应用了BIOS更新。BIOS更新导致在某些情况下风扇220转速较低,导致冷却不足,最终导致高温。高温导致服务器218的CPU节制时钟速度以减少热量输出。因此,CPU利用率不能达到100%的目标,这导致了观察到的延迟。在这种情况下,性能异常(例如304、404)并不直接与代码签入相关联,所以性能异常仅出现在对特定数据中心102特有的风扇配置中,并且回归具有不寻常的原因。这些因素可能导致观察到的性能异常难以通过传统方法诊断。然而,TPD部件112可以诸如通过图3和图4所示的示例谓词发现结果300和400来提供高效的诊断。
此外,在一些实现中,可以使用来自用户的诊断级别选择来调整谓词发现。在某些情况下,调整可以用计算资源来交换所诊断的异常的质量。例如,用户可以选择将附加的计算资源分配给可调谓词发现以找到相对较小的性能异常。备选地,用户可以选择将更少的计算资源分配给可调谓词发现,以将诊断限制于更显着的性能异常。如图3的示例所示,具有IP地址“A.X.Y.Z”的服务器218(图2)在50%百分位数处显示出大约500秒的增加的延迟。在某些情况下,可以通过指定更大或更小的性能异常的诊断(例如1000秒、200秒等)来调整可调谓词发现。
注意,系统100中示出的各种设备关于可由系统100的操作中的设备执行的逻辑角色被图示在图1和图2中。然而,各种设备的地理位置不需要被系统100反映。例如,数据中心102(1)和/或102(2)可以与服务器操作中心106和/或诊断装置110组合。作为另一示例,TPD部件112和/或监视系统108可以在单独的数据中心内的一个或多个设备上(诸如在一个或多个机架(例如,机架216)上)实现。而且,集群222可以以各种方式布置。例如,服务器集群可能不包括机架216上的所有服务器。此外,集群可以包括来自多个机架的单个和/或多个服务器、数据中心等。另外,本文中关于特定设备或设备描述的功能可以分布在多个设备上或组合在单个设备上。
此外,请注意,图1将服务器操作中心106图示为多个服务器设备,而诊断设备110和客户端设备114被图示为单独的计算设备。这反映了一个特定实现,并且其他实现经由多个设备可以提供如本文所讨论的特征功能和/或客户端功能。同样地,本文所讨论的服务器操作中心和/或数据中心功能可以由各个设备执行。
另外请注意,实际上,可以存在本文提及的每个计算设备的附加的实例,例如附加的分析设备、服务器操作中心、客户端设备和数据中心。如下面更详细地讨论的,图1所示的每个计算设备可以包括执行存储在一个或多个计算机可读存储介质(诸如易失性存储器或非易失性存储器、光盘、硬盘、闪存等)上的指令的一个或多个处理设备,诸如计算机处理器。
虽然上述示例包括从云计算日志等获得的数据挖掘和处理数据,但是可调谓词发现概念可以应用于在其上期望一些分析处理的其他大型数据集合。如将理解的,该技术推广到可能需要鲁棒统计的其他领域中的分析任务。因此,本发明不限于本文所描述的任意特定实现、方面、概念、结构、功能和/或示例。相反,本文描述的实现、方面、概念、结构、功能和/或示例中的任意一个是非限制性的,并且本发明可以以在数据挖掘、分析、云计算数据中心、和/或通常的分布式计算系统中提供益处和优点的各种方式来使用。
特定TPD部件实现
图5示出了体现在诊断设备110上的TPD部件112。诊断设备是可被配置为完成某些概念的系统的一个示例,如下面更详细地讨论的。在这种情况下,诊断设备被图示为台式计算机。术语“计算机”或“计算设备”可互换使用,并且如本文所使用的可以意指具有一定量处理能力的任意类型的设备。虽然为了说明的目的图示出计算机的具体示例,但是这样的计算机的其他示例可以包括传统的计算设备,诸如个人计算机、相对于图1-2引入的任意设备的任意一个、蜂窝电话、智能电话、个人数字助理、或无数不断演进或尚未开发的设备类型中的任意一个。此外,系统可以表现在单个计算设备上或分布在多个计算设备上。
在这种情况下,诊断设备110可以包括应用层502、操作系统层504和硬件层506。除了其它配置之外,TPD部件112可以被表现为应用层502的程序或应用。在该示例中,TPD部件可以包括调整模块508、谓词列表模块510和输出模块512。TPD部件可以处理通过监视系统108在网络104上提供的数据,例如服务日志。备选地,监视系统108可以用数据填充数据库522,并且TPD部件可以处理数据库中的数据。
硬件层506可以包括处理器514、存储装置/存储器(例如,一个或多个计算机可读存储介质)516、显示设备518和/或各种其它元件。例如,其他元件可以包括输入/输出设备、光盘读取器、USB端口等。
处理器514可以执行计算机可读指令以提供诸如TPD部件功能的功能。数据和/或计算机可读指令可以存储在存储装置/存储器516上和/或从诸如光学存储设备520的其它源接收。存储装置/存储器516可以包括易失性存储设备或非易失性存储设备、硬盘驱动存储设备、闪存存储设备(例如,记忆棒或存储卡)和/或光学存储设备(例如,CD、DVD等)等。
作为诊断装置110的所图示的配置的备选方案,计算机可以采用芯片(SOC)型系统设计。在这种情况下,由计算机提供的功能可以集成在单个SOC或多个耦合的SOC上。例如,计算机可以包括共享资源和专用资源。接口可以促进共享资源和专用资源之间的通信。顾名思义,专用资源可以被认为包括专门用于实现特定功能的个体部分。共享资源可以是可以由多种功能使用的存储装置、处理单元等。
通常,本文所描述的任意功能可以使用软件、固件、硬件(例如,固定逻辑电路)或这些实现的组合来实现。本文使用的术语“引擎”、“工具”、“部件”或“模块”通常表示软件、固件、硬件,整个设备或网络、或其组合。例如,在软件实现的情况下,这些可以表示当在处理器(例如一个或多个CPU)上执行时执行指定任务的程序代码。程序代码可以存储在一个或多个计算机可读存储装置/存储器设备中,诸如计算机可读存储介质。部件的特征和技术是平台无关的,这意味着它们可以在具有各种处理配置的各种商业计算平台上实现。
如本文所使用的,术语“计算机可读介质”和“计算机可读媒介”可以包括信号和硬件。相比之下,术语“计算机可读存储介质”和“计算机可读存储媒介”不包括信号。计算机可读存储介质可以包括“计算机可读存储设备”。计算机可读存储设备的示例包括诸如RAM的易失性存储介质以及诸如硬盘驱动器、光盘和闪存等的非易失性存储介质。
在一些实现中,调整模块508可被配置为针对TPD部件112正在调查的数据集合执行与调整谓词发现相关的功能。例如,调整模块可以从调整谓词发现的用户接收输入。在某些情况下,用户输入可以被认为是诊断级别选择。以上关于图3讨论的与调整相关的用户输入的一些示例,包括一定量的计算资源和/或性能异常的大小。用户输入还可以包括用于测量异常的基线值。备选地,在一些情况下,调整模块可以将基线确定为跨数据集合的分布。在另一示例中,用户输入可以包括分配给谓词发现的时间量。
对调整模块508的用户输入的另一示例可以包括用户指定数据集合的多少属性,谓词发现过程应当对数据集合的多少属性进行反应。例如,用户可以要求TPD部件112对涉及数据集合的两个或多个属性(例如,数据表的两列或多列、数据表的两个以上行等)的异常进行反应。在另一实例中,用户可以指定TPD部件对影响系统比阈值时间量更长和/或多于阈值百分比时间的异常进行反应。
在一些实现中,调整模块508可以考虑资源的可用性来调整谓词发现。例如,调整模块可以获得与当前可用资源以及基于可用资源的自动调整谓词发现相关的输入。在另一示例中,调整模块可以基于资源可用性的时间差异来调整谓词发现过程的定时。例如,调整模块可以延迟谓词发现过程,以便在另一时间使用计算资源。
在一些实现中,谓词列表模块510可以被配置为执行与TPD部件112正在调查的数据集合的列表谓词相关的功能。列出谓词可以包括识别异常并发现与异常相关联的谓词。数据集合可以被认为是对谓词列表模块的输入的示例。对谓词列表模块的其他输入可以包括针对TPD部件的感兴趣属性(例如,关键性能指标)的用户选择以便以异常检测(例如延迟)为目标。在某些情况下,感兴趣的属性可以由数据表中的列表示。谓词列表模块可以使用可调谓词发现技术来调查感兴趣的属性如何随着时间和/或在哪个条件下改变。当谓词列表模块从基线发现感兴趣的属性的行为中的显着变化(换句话说是异常)时,谓词列表模块可以确定该异常的相关联的谓词(条件),其标识具有显著改变的异常子集。谓词可以在除表示感兴趣属性的列之外的数据表中的列中表明。请注意,数据表可以包含数值和/或非数值条目。例如,谓词可以包括数据中心的名称或缩写。
在一些情况下,谓词列表模块510可以从调整模块508接收信息,诸如要识别的异常的大小。谓词列表模块还可以被配置为执行与生成异常评分和/或使用异常评分来对异常进行排序相关的功能。谓词列表模块执行的功能将在下面关于图6-10进一步描述,其包括可用于谓词发现、评分等的特定技术和/或算法。
在一些实现中,输出模块512可被配置为执行与输入到调整模块508和/或谓词列表模块510和/或从调整模块508和/或谓词列表模块510输出有关的功能。例如,在一些情况下,输出模块可向用户呈现图形用户界面(GUI),用于显示与调整谓词发现和/或诊断级别选择有关的信息的目的。例如,信息可以包括用于识别的异常的大小的预设值和/或起始值。GUI可以用于从用户收集可以由调整模块使用的输入。例如,用户可以经由GUI输入与调整谓词发现有关的参数。输出模块还可以执行与输出谓词发现结果有关的功能,诸如异常和/或谓词的识别和/或列表、与谓词相关联的异常的大小的指示(例如,异常评分)、异常和相关谓词的排序列表、包括谓词的图形显示等。在一个示例中,输出可以类似于图3和图4中的结果300和400所示的图形和相关文本。在另一示例中,输出模块可以输出落入从用户接收的诊断等级选择内的异常和相关谓词的排序列表。在某些情况下,系统管理员或分析人员可以查看可调整谓词发现结果,以确定要跟进的哪些结果。
在图5的示例中,输出模块512可以根据从谓词列表模块510获得的结果来生成图形用户界面(GUI)524。GUI 524图示了基线526,在这种情况下基线部署时间,和异常528,在这种情况下增加的部署时间。GUI 524还示出与增加的部署时间相关联的两个谓词530,“OS版本=2.176”和“时间>10/11/13,13:11:45”。换句话说,在图5所示的示例中,TPD部件112已经确定在2013年10月11日13:11:45之后某个代码改变(例如,操作系统版本2.176)有助于增加的部署时间。在该示例中,TDP部件能够使用来自监视系统108的数据集合来发现虚拟机(VM)部署的持续时间内的显著增加所引起的谓词530(例如,代码改变、定时)。TDP部件不仅检测到异常528,而且还标识增加的部署时间对包括OS版本2.176在内的谓词最为明显,并在“10/11/13 13:11:45”之后开始。使用谓词,开发人员然后可以调查在指定的时间点附近与操作系统相关的代码更改。
总而言之,上面和下面描述了可以由TPD部件112提供的几个特征。这些特征可以包括调整谓词发现过程。另一特征可以包括标识数据异常子集的谓词的发现。下面更详细讨论的另一特征可以涉及对异常进行评分和排序。
示例可调整谓词发现技术
图6图示了示例可调整谓词发现方法600。可以关于提供鲁棒的诊断以检测例如在云服务中的性能异常来使用方法600。
在这种情况下,在框602,云服务可以输出可能被认为(或转换为)表的云数据,诸如日志等。在框604,数据可以经由数据挖掘引擎以各种算法的形式被挖掘。例如,数据挖掘可以例如在框606处提供数据集合表(例如,表、数据集合)。在框608,以各种其他算法的形式的分析处理可以将数据集合表处理成结果,在方框610处,其可用于检测异常。所检测的异常和/或相关联的谓词可以依次用于诊断问题并且确定关于异常的解决方案。
作为示例,考虑包括表示虚拟机部署数据的列的表,其包括集群名称(例如,部署位置)、时间、操作系统版本和延迟。对异常进行评估的兴趣的属性可以是延迟,因为虚拟机部署延迟问题可能是显著的。例如,在特定时间在特定地点特定操作系统关于部署延迟是有问题的发现提供有价值的信息。然而,请注意,所检测的异常可能是有益的。例如,在延迟持续时间中相对于给定基线的显著提高可以指示基线本身具有潜在的太高的延迟(并且因此例如某些变化可能已经修复了先前未被标识的错误)。备选地或附加地,包括在数据表中的元素和/或感兴趣的属性可以包括各种项目中的任意一个,诸如在群集中的事件失败的错误率、错误消息的分布、消耗多少能量等等。
一般而言,云服务可以使用一些形式的测量基础设施,其以适当的形式收集和编译遥测信息用于进一步的分析。为了简单起见,假设遥测信息可以维持在具有属性A1,...,Ak的单个关系R中。该关系中的每个元组可以对应于特定动作的单个测量。该属性集合可以被划分成两个不重叠的集合Ae和Am,使得Ae包含描述执行动作的系统环境的属性集合,并且Am包含各自对应于性能指标的属性集合。这种关系的示例如下表1所示:
表格1
该关系中的每个元组可以包含与产生新的虚拟机有关的信息。对于此关系,集合Ae包括属性时间戳(时间)、虚拟机类型(VM类型)和数据中心位置(数据中心),并且集合Am包含延迟属性(延迟)。
关于异常,∑(Ri,Ai)可以是在关系R中所有元组的属性值Ai上计算的一些统计特性(例如,中位数)。给定特定属性Ai∈Am上的这样的统计特性,异常可以是测量的子集使得∑(B,Ai)显著不同于由基线集合B上∑(S,Ai)由∑(B,Ai)定义的基线属性。在没有预先指定的集合B(例如企业认为正常的上个月基线)的情况下,则系统可以使用∑(Ri,Ai)作为基线测量。谓词(在本文中由θ表示)可以是形式Ae=v的形式的等式谓词或形式的范围谓词的连接,其中,vlow和vhigh是常量,定义了属性AeAe域的总顺序。这样的谓词可以有效地总结出异常发生的系统环境,并且从而表征与异常原因有关的条件。参与谓词的环境属性可以称为枢轴(pivot)属性。
关于鲁棒性,可以使用鲁棒聚合。例如,对于任意子集S=σθ(R),其中σ是关系选择运算符,S与R关于一个特定性能指标相差多少可以使用合适的聚合函数来定义。在某些情况下,在这种上下文中仅考虑对离群值(outlier)的影响是鲁棒的(表示为Σr)的函数,诸如中位数或其他百分位数。
关于“评分函数”,作为评分函数的一部分的鲁棒聚合可用于量化异常S关于下方基线分布的异常的影响。为了简单起见,R用作基线集合;然而,当基线被单独指定时(例如,作为上个月的测量),该方法可以完全相同地工作。影响可以根据针对给定的性能指标属性Am在S和R之间的分配中的变化来测量。
在一个实现中,评分函数可以将三个参数(R,S,Am)作为输入,并且可以输出用于对异常进行排序的个体数。每个评分函数可以量化影响的至少两个方面,包括(a)根据Am(的分布)的变化异常如何不同,以及(b)操作/对象的多少实例受到异常的影响。请注意,这两个因素可以相互折衷,因为如果异常中包含更多的点,则分布中的变化较小,反之亦然。覆盖R中所有点的异常将进而具有基线分布,因此根本不显示任意变化。
为了量化Am中的偏差,可以使用鲁棒聚合函数Σr来计算S中所有项目以及基线R中的所有项目上的属性的聚合Am。随后,异常程度可以被测量为这两个值之间的差值;该差异可以使用符号Σr(S,Am)~Σr(R,Am).来表示。注意,Σr的选择以及适当的差分运算符~取决于场景和感兴趣属性的类型。当A是数值类型时,Σr通常是百分位数,并且~是它们之间的绝对差。另一方面,对于非数值分类属性(例如错误代码或失败函数调用的名称),例如可以使用KL-发散(概率分布之间的距离的度量)。这里,可以在基线集合(R)和异常子集(S=σθ(R))中的Am的值的概率分布Am之间计算发散。注意,KL-发散是默认的鲁棒措施,因为每个单独的项目不能不成比例地改变总体概率分布。
为了量化多少个操作/对象的实例受异常影响,可以使用S的大小的S函数,其实际上这是自然对数|S|,给出以下评分函数:
f(R.S,Am):=(Σr(s,Am)~Σr(R,Am))×log|S|)
其中(Σr(s,Am)~Σr(R,Am))人基线偏离,并且log|S|因子受实例的数量的影响。请注意,S的大小(直接使用|S|相反)的对数使用有利于导致与基线较大偏差(但较少数量的实例)的异常。尽管如此,当在一些修改之后|S|的其他函数被用于量化实例的数量的影响时,本文描述的算法也是适用的。
另一种技术是多样性,其中为了避免为相同异常提供多个类似的解释或为相同的异常测量集合提供多种解释,可以将多样性的概念纳入到挖掘任务中。例如,两个谓词使得vlow≈v′low和vhigh≈v′high,虽然不同,但可以传达几乎完全相同的信息。向用户呈现这两个谓词不太可能传达任意附加的信息。为了结合这种多样性的概念,框架支持多样性函数fdiv12)→{true,false}的规范,如果由谓词θ1和θ2解释的异常是多样的,则返回true,否则返回false。本文描述的挖掘算法独立于任意特定的多样性函数。
虽然多样性可以是用户定义的,但是本文解释了简单和有意义的多样性函数。考虑在相同的环境属性Ae上定义的两个原子谓词θ1和θ2。如前所述,多样性的概念旨在捕捉两种谓词之间的重叠程度。虽然存在测量这种重叠的多个度量,诸如之间的Jaccard-距离,但是多样性的极端形式是不允许任意重叠的,即对于原子谓词,这可以被认为是多样性的默认概念。
相同的原理可以类推到由许多原子谓词的连接定义的异常。对于这种多谓词异常,仅谓词的一个子集也会引起相对较高的评分异常是可能的。考虑以下情况,使用示例“构建版本2.17”:如果使用版本2.17的所有部署具有异常高的延迟,则可能使用构建版本2.17并被部署在群集XY Z上的部署子集也将显示高延迟。因此,除了延迟尖峰对于集群XYZ是特定的,除了原始异常[构建=2:17]之外呈现异常[版本=2:17∧集群=XY Z]不传递附加信息并且可以避免以减少冗余处理。从以上概括来看,多原子谓词的多样性的默认概念可以定义如下。让作为定义θ的原子谓词的环境属性集合。如果且仅如果或者或者两个解释谓词θ1和θ2可以被认为是不同的。直观地,第一个条件可以要求解释的每个具有至少一个区分属性。第二个条件可以当第一个条件不是时应用,并且类似于原子谓词的情况,可能需要对不重叠的测量集合的解释。
示例可调谓词发现算法
在本节中,将描述可用于可调谓词发现概念的示例算法。具体地,示例算法可以用于上面介绍的多种异常挖掘任务。在一些实现中,算法可以提取标识测量日志R的最高k个最高评分的不同异常的谓词。用于标识异常的算法可以由Ae中的单个属性上的原子谓词来定义,被称为枢轴属性。还包括具有针对多个枢轴属性的异常的算法。
用于挖掘异常的特定算法可以取决于枢轴属性的类型(例如,感兴趣的属性)。具有超过值的固有顺序的枢轴属性(诸如数值和日期时间数据类型)可以称为有序枢轴。备选地,从某个域枚举值(诸如集群名称和操作系统版本)的属性可以称为分类枢轴。
对于有序的枢轴,可以提取形式的范围谓词。对于分类枢轴,可以提取Ae=v形式的等式谓词,其中Ae是枢轴属性。请注意,识别分类枢轴属性的异常可能是计算上简单的,因为可以减少问题,以通过枢轴属性执行“GROUP BY”操作,随后计算每个组的总分。因此,下面描述有序枢轴的示例算法。
在这种情况下,请注意,Am表示要检测到异常上的性能指标,Ae表示枢轴属性,并且θij表示针对范围谓词的记数速记(notational shorthand,其中vi和vj是以排序顺序的枢轴属性的第i个值和第j个值。Sθ被用作对σθ(R).的记数速记
单枢轴异常可以使用示例算法1:用于有序枢轴的详尽算法(例如,朴实的算法)(下面进一步描述)。然而,这种强力方案可能不能很好地缩放到非常大的数据集合。为了克服这一点,可以提供附加的算法。例如,算法2:网格优化可以比算法1快(例如,快100倍),并且可以提取谓词,使得异常评分可以(至少)在穷尽挖掘的那些的常数因子α内。示例算法3:还描述了种子扩展,其可以甚至更快(例如,比算法1快1000倍)。算法3基于数据集合的数据特性,并可以提供性能保证。多枢轴挖掘的示例算法被提供为算法4。
算法1.用于标识有序枢轴上的异常的穷举算法可以通过枢轴属性对项目进行排序,然后对每一对起点和终点内的项目子集进行评分。该算法的计算复杂度可以取决于计算评分函数的成本。对于基于中位数的评分函数,这个成本可以是O(|σθ(R)|),其中σ解释正在评分的异常。然而,确定给定针对θij的中位数的间隔θi(j+1)的中位数的成本可以通过保持包括最大堆和最小堆的两个堆的间隔的中位数逐渐增加而减少到这种方案也可以用于其他百分位数;更改只能包含每个堆中元组的部分。鉴于评分函数的这种增量实现,穷举算法的成本(对于N=|R|个项目)可以变成O(N2logN)。
算法2.网格细化可以表现为提供了一种有原理的方法为了效率来潜在地折中挖掘异常的“准确性”的算法。该算法不是返回潜在的最高评分异常,而是该算法可以返回其评分可能在最高评分异常的因子α(例如α=0.9)内的异常。作为回报放宽评分约束,该算法在实践中可以更快地执行幅度级。如果期望更好的评分,α可能会增加。该算法看到的加速是利用在云诊断环境中看到的数据分布中通常发现的属性的结果。这些属性包括“小”异常,其中对于大多数数据集合,异常被预期构成所有项目的相对较小的一部分。穷尽算法可以花费大量的计算时间来排除类似于基线的间隔,因此是非异常的。相比之下,网格细化算法可以通过界定搜索空间中异常的评分来快速排除搜索空间的大部分。
转向鲁棒统计的稳定性,针对通常在实践中看到的数据分布,鲁棒统计关于少量点的添加/移除相对稳定。图7图示了示例性延迟分布702和对应的中位数704的图表700。通常,该分布的中间部分706倾向于“平坦”,这意味着中位数响应于k个点的插入或删除不会显著变化(其最多可以沿着x轴将中位数移动k个点,对应于沿着y轴的小变化)。这种稳定性属性意味着异常的评分 被预期大致等于由定义的异常的评分,如果vlow≈v′low且Vhigh≈V′high。网格细化算法可以通过使用一个异常的评分来利用该属性以计算具有相似谓词的异常评分上的严格上限。
网格细化算法可以使用各级粗糙度的网格在包含高评分异常的数据中“放大”区域。首先,该算法可以以粗粒度分析数据,仅从沿着网格的点中选择vlow和vhigh的值,并计算出以更细粒度发现的异常可能评分的上限。只有对于这些上限足够高的子区域,可以考虑在更精细的网格分辨率下发现的异常,重复该过程,直到发现异常具有在所有未知异常的潜在最高评分的α的因子内的评分。用图8中的图表800图示出了网格细化处理的各个方面。
示例网格细化算法被显示为下面的α-近似网格细化算法(算法2A)。在这个示例中,α-近似网格细化算法保持由4元组(θij,s,u,g)表示的异常优先级队列,其中θij是间隔,s是当前间隔的评分,u是通过在间隔[vi;vj]的端点附近的网格的任意细化可达到的评分的上限,并且g是当前网格大小。
算法2A
示例网格细化算法按它们的评分的上限的顺序来从优先级队列对异常出队。如果当前评分在评分的边界的∝因子内,则在检查多样化约束之后将当前评分加到结果集合中。否则,使用下面算法2B中的示例细化过程中所示的“放大”过程来细化间隔:
算法2B
在间隔细化期间,对于在更精细的网格大小的每个可能的细化间隔,异常的评分以及可实现的可能细化的上限可以通过“细化”网格来计算,即,当使用(a)任意精细的网格和(b)端点vlow和vhigh在原始“粗糙”端点对的一个网格大小内时(参见图8中的“细化后的异常”)针对异常的可能的最大评分。一旦确定了最大-k个近似异常,算法就可以终止。
为了正确性,“BoundScore”功能可以在任意给定谓词的评分上提供显著上限,即,对于网格g的任意间隔θij,如果Qrefined是通过细化如在算法2B中所示的θij所获得的间隔集合,则 针对使用中位数作为选择的鲁棒统计的评分函数示出了一种估计上限的方法。使用类似的技术将其扩展到任意百分位数可能是微不足道的。
例如,让为网格大小为g的要估计上限的间隔。上述特定的细化过程可以将中位数的潜在最大偏差限制为2g个点,因为细化仅允许通过在间隔的任一端上将间隔扩展最大g个点来增加点。让vk作为中的点中属性Am的排序顺序的第k个值。因此,vN/2表示中位数值。由于任意细化的中位数最多可以偏离中位数2g个点,所以间隔任意细化的评分通过被限制。对于典型的分布,由于图7所示的中位数周围的稳定性,中位数值的变化以及因此间隔的上限和(可能最佳)实际评分之间的差距可以预期相对较小。
关于正确性,网格细化算法可以满足不变性,当且仅当异常的评分在最高评分异常的∝因子内时,异常被添加到最大k个异常集合中。让Sθ作为通过算法2A所示的算法包含在最大k个中的第一个异常。此外,让作为最高的评分异常,并且Sθ作为在g的网格分辨率下的异常。让Sβ作为包含并在具有分辨率g的网格处具有两个端点的异常。由于算法根据评分的上限使异常出队列,因此u(Sθ≥u(Sβ)是已知的。通过边界函数的健全性和细化过程,可以推断出所以,此外,由于算法选择异常,所以f(Sθ,R,Am)/u(Sθ)≥∝是已知的。因此,
算法3。现在将讨论示例种子扩展算法。网格细化算法可以依赖于中位数属性的稳定性(参见图7)。然而,围绕更高(或低得多)百分位数的分布通常较不稳定。进一步描述用于是旨在基于这些百分位数特别在评分函数时异常的更快检测或用于非常大的数据集合的快速分析算法,用于种子扩展。该算法提供了显著更低的渐近开销(O(N1.5))以及显著更快的挂钟运行时间。然而,与可以保证恒定近似比的网格细化算法相反,种子扩展算法挖掘的异常评分可以在最优异常的数据依赖因子内。
种子扩展算法背后的直觉基于通常包含针对性能指标的极端(即相对高或低)值的高/低百分位数的异常。为了简化陈述,可以假设寻找与大型性能指标值相对应的异常。种子扩展算法可以首先按照性能指标值的顺序来选择最大个数量的顶点;这些点被称为种子点。对于每个种子点,可以确定它是对应于孤立的瞬时异常(其可以被忽略)还是系统异常(其将被检测)的一部分。在前一种情况下,种子点可以被预期为由可以大致类似于基线分布的许多点围绕(沿枢转轴)的局部极值。在后一种情况下,在种子附近可以预期进一步的极端测量值。
为了避免选择潜在的所有种子点是瞬态异常的情况,可以在选择种子值之前应用初始平滑步骤。这里,性能指标的每个值vi可以被沿着大小为c的枢转轴和在vi处“居中”的间隔的所有值中的中位数值替换;那么可以在这些值中选择最大的值。这样,低价值区域内的单个列出点不被选为种子,消除考虑(单点)瞬态异常。
给定由索引s标识的具有枢轴值vs的任意种子点,算法可以用谓词来初始化单项异常,并且可以通过沿着枢轴在每个方向上添加点来尝试扩展此异常。如果种子点是系统性异常的一部分,则可以预期所得到的异常的评分将随着扩展而增加。另一方面,如果种子对应于瞬态异常,则可以预期该评分将减少(最终),因为添加了类似于背景分布的点。种子扩张通常在图9中图示。图9图出了包括种子点902的图900。如图9所示,种子点可以向左扩展(在904处指示),和/或向右扩展(在906处指示)。
扩展单个种子点的程序被示出在下面的算法3中:
算法3
扩展单个种子点的程序可以扩展种子直到扩展不会导致异常评分的改善。可以重复地为个种子点调用此扩展程序。已经包括在以前种子点之外形成的扩大异常中的种子点可以被排除在考虑作为种子之外。该算法可以在排序列表中保持所有扩展间隔,最高评分的k个多样性异常集合作为最终结果从排序列表中被返回。
通过种子扩展算法挖掘的异常的质量取决于如何容易地从背景分布区分异常。在一些实现中,可以使用数据集合的两个属性来量化(例如,评分)这种异常特征。第一属性可以是相对于枢轴属性的性能指标属性的最大梯度(即,maxi(vi+1-vi))maxi(vi+1-vi)),表示为δmax)。该测量可以在平滑之后计算,有效地使其在大小c的任意间隔上具有潜在最大梯度。对于第二个属性,让是中位数和最大值之间的平均梯度,此外,让可以看出,如果Sθ是由种子扩展算法挖掘的最佳异常,并且Sθopt是通过穷举算法挖掘的最高评分模式,则其中f是基于评分函数的中位数,并且在某些情况下,对于具有非常显著异常的分布,预期α的值将高,因为δmax预期为高。这反过来意味着近似因子评估最小值,因为α对分母的贡献占主导地位。因此,如预期的那样,如果分布中的异常更显著,则算法可以更精确地标识异常,给出以高度可扩展的方式标识潜在最普遍的异常的期望行为。
算法4。现在将讨论用于多枢轴挖掘的示例算法。异常可能由于系统条件而发生,该系统条件只能通过多个属性的谓词被可靠地捕获。例如,当机器上还有多个活动的线程时,操作的响应时间可以只在高内存争用下降低。用于标识这种多属性异常的强力方法将是检查所有环境属性子集的谓词的所有组合,这显然是计算上禁止的。这个计算硬度并不是问题唯一的,而是其他领域观察到的常见类别问题的实例,诸如最优决策树构造。因此,第一方法可以是贪心地构建多枢轴异常。以下所示是采用贪心挖掘过程GreedyMine(R,f,Am,k)进行多枢轴挖掘的基于采样和协同细化的方案,该方案返回由评分函数f排序的最大k个多枢轴异常。例如,θc可以用于表示采样数据上的谓词,并且θr可用于表示整个数据上的谓词。
算法4
在实践中,绝大多数的异常情况都可以用贪婪技术进行检测。然而,为了检测用贪婪技术不能很好地检测到的异常,提出了一种在不同属性上结合起来共同优化枢轴的算法。最后,该算法利用了通常在现实生活中的数据分布中看到的属性(即,当只有谓词的子集被考虑时,由l个谓词表征的最高评分异常的评分减少的程度的边界)以提供一种对所挖掘的异常的评分给出质量保证的易于处理的算法。
由于缺乏与其他枢轴联合的潜在细化的远见,用于挖掘异常的纯粹贪婪算法可能将单个异常分解为多个异常。为了处理这种困境情况,提出了一个示例协同优化策略:首先,贪婪挖掘算法可以用加权评分函数在数据的小随机样本上运行,其中每个数据点被反抽样比加权。这可以给出一个初始的“粗糙”的异常集合。那么这些异常可以如下使用完整数据集合被协同细化:可以采用与逐渐“放大”的网格细化算法类似的用于确定每个谓词的准确间隔边界的方法。然而,不是一个接一个地细化属性,对于每个异常,可以在钻取到下一个网格层级之前,以特定网格大小在所有构成枢轴属性上确定潜在的最佳间隔。
现在将描述α-近似多重枢轴细化。当计算对抗数据分布的最高评分异常可能在计算上是禁止的时,通常可以利用现实生活中的数据看到的属性来获得具有对异常评分有绝对保证的易于处理的算法。首先,为了阐述这些数据属性,考虑了一个示例异常,其最佳特征是沿着两个不同的枢轴属性的间隔。图10示出了关于针对这种异常的两个枢轴属性(枢轴1和枢轴2)的异常测量值的热图表示1002。图10还示出了当独立考虑时每个枢轴属性(的谓词)的两个百分位数分布1004和1006,以及当枢轴属性被一起考虑时的第三百分位数分布1008。显然,当两个属性被一起考虑时观察到的异常中位数和背景分布之间的偏差在仅考虑枢轴之一时向较高百分位数移动。这是由于向异常添加了非异常点。这些非异常点只能通过在辅属性上的枢轴旋转进行过滤。通过限制发生这种移动的程度,可以提供显著边界用于异常评分中的可能改善。
最大细化比:由于多重枢轴异常由在枢轴属性上的l个谓词限定,最大细化比是最大常数γ,使得存在谓词的排序
现在将描述限界多轴异常评分。可以假设对于给定的对数关系R和性能指标属性Am,最大细化比γ是已知的或保守的(γ=1是最保守的)估计的。在这个假设下,给定了l个枢轴异常Sθl,通过在附加的属性上枢轴旋转得到异常评分内的潜在细化的估计是可能的。让n=|Sθl|。如果任意异常中属性的最大数为m,对于任意l-属性异常,由扩展Sθl形成的m-谓词异常的最小大小具有至少为nmin=γm-ln.的大小nmin=γm-ln.。对于聚合函数为中位数的特定情况,通过扩展Sθl所获得最大评分然后可以由下式限界:
这是因为在最佳情况下,通过附加枢轴过滤的所有点都低于中位数值Sθl,并且因此导致中位数向右移动。随着关于枢轴的更多谓词被添加到异常中,这种估计变得更加严格。
如单枢轴网格细化算法的情况,通过以较少的枢轴保持异常的最佳可能的l-轴(未看到)细化的上界,可以设计近似多枢轴挖掘算法(除了细化过程和初始化步骤之外,类似于上述α-近似细化算法)。
在一些实现中,上述示例技术可以单独使用或组合使用以实现可调谓词发现概念。例如,TPD部件(例如,TPD部件112)可以根据从用户接收或者通过上文相对于图5所述的自调整的诊断级别选择来选择算法。在一些情况下,可以通过TPD部件使用上述示例算法的部件的混合。当然,这些示例并不意味着是穷尽的和/或限制的,并且考虑针对可调谓词发现的其他技术。
方法
图11图示了针以可调谓词发现的示例性技术或方法1100的第一流程图。在一些实现中,方法1100可以由TPD部件(诸如TPD部件112)执行(参见图1、2和5)。备选地,该方法可以由其他设备和/或系统执行。
在图11的框1102处,方法1100可以从用户,诸如通过GUI,接收诊断级别选择,如上文相关于图5所述。在框1104,该方法可以获得一个或多个数据中心的数据集合。在框1106,该方法可以标识在诊断级别选择中具有异常评分的数据集合中的性能异常。在一些实现中,诊断级别选择可以与性能异常的大小有关。在某些情况下,诊断级别选择可以关于分配给标识性能异常的计算资源调整性能异常的大小。
在框1108,方法1100可以确定性能异常的谓词。例如,该方法可以确定单个性能异常出现的条件。在框1110,该方法可以基于异常评分来生成排序的谓词列表。在某些情况下,排序列表可以包括异常评分的指示。在框1112,该方法可以使得排序列表的谓词中的至少一个被呈现。在一些实现中,使得谓词中的至少一个被呈现可以包括在图形用户界面上显示所述谓词的至少一个。
图12图示了用于可调谓词发现的示例技术或方法1200的第二流程图。
在框1202,方法1200可以接收数据集合。在某些情况下,可以从描述一个或多个数据中心的性能的服务日志导出数据集合。在框1204,该方法可以标识数据集合中的性能异常。在某些情况下,该方法可以自动调整用于标识性能异常的计算资源量。在某些情况下,该方法可以经由与性能异常的大小有关的用户输入以可选择的可调方式标识性能异常。在某些情况下,该方法可以基于感兴趣的属性值的分布中的改变来标识性能异常。感兴趣的属性可以通过用户输入来指定。备选地,感兴趣的属性可能不被用户指定。在其他情况下,该方法可以基于感兴趣的多个属性值的分布的变化来标识性能异常。
在框1206,方法1200可以生成用于性能异常的谓词的排序列表。例如,谓词可以包括性能异常出现的条件。在某些情况下,该方法可以确定性能异常的异常评分。该方法还可以使用异常评分来生成谓词的排序列表。例如,单个异常评分可以指示单个性能异常的大小。在某些情况下,生成排序的谓词列表可以包括生成显示谓词的排序列表的图形用户界面(GUI)。例如,该方法可以生成GUI,其显示相对于基线和至少一个关联谓词的单个性能异常的图形。
图13图示了可调谓词发现的示例性技术或方法1300的第三流程图。
在框1302,方法1300可以获得数据集合。在框1304,方法1300可以确定数据集合中感兴趣的属性的异常的异常评分。在某些情况下,用户可以选择感兴趣的属性。
在框1306,方法1300可以基于异常评分来生成谓词的排序列表。在某些情况下,在排序列表中包括单个谓词可能受到用户选择的异常评分的级别的影响。在框1308,该方法可以使得排序列表的至少一个谓词被呈现。
其他示例
上面描述了示例实现。附加的示例如下所述。一个示例可以从用户接收诊断级别选择。该示例可以获得一个或多个数据中心的数据集合。该示例可以标识在诊断级别选择中具有异常评分的数据集合中的性能异常。该示例可以确定性能异常的谓词。该示例可以基于异常评分来生成谓词的排序列表。该示例可以导致排序列表的至少一个谓词被呈现。
另一示例包括以上和/或以下示例中的任意一个,其中诊断级别选择与性能异常的大小有关。
另一示例包括以上和/或以下示例中的任意一个,其中诊断级别选择关于被分配给标识性能异常的计算资源调整性能异常的大小。
另一示例包括以上和/或以下示例中的任意一个,其中排序列表包括异常评分的指示。
另一示例包括以上和/或以下示例中的任意一个,其中使得包括在图形用户界面上显示谓词中的至少一个。
另一示例可以包括处理设备、存储设备和存储在存储设备上的可调谓词发现部件。处理设备可以被配置为执行可调谓词发现部件作为计算机可执行指令。该示例可以接收数据集合。该示例可以识别数据集合中的性能异常。该示例可以为性能异常生成谓词的排序列表。
另一示例包括以上和/或以下示例中的任意一个,其中指令还包括生成显示谓词的排序列表的图形用户界面(GUI)。
另一示例包括以上和/或以下示例中的任意一个,其中指令还包括自动调整被用于标识性能异常的计算资源的数量。
另一示例包括以上和/或以下示例中的任意一个,其中谓词包括性能异常发生的条件。
另一示例包括以上和/或以下示例中的任意一个,还包括确定性能异常的异常评分。
另一示例包括以上和/或以下示例中的任意一个,还包括使用异常评分来生成谓词的排序列表。
另一示例包括以上和/或以下示例中的任意一个,其中个体异常评分指示个体性能异常的大小。
另一示例包括以上和/或以下示例中的任意一个,其中指令还包括经由与性能异常的大小有关的用户输入来以可选择地可调整的方式来标识性能异常。
另一示例包括以上和/或以下示例中的任意一个,其中指令还包括基于感兴趣的属性的值的分布的变化来标识性能异常。
另一示例包括以上和/或以下示例中的任意一个,其中通过用户输入来指定感兴趣的属性。
另一示例包括以上和/或以下示例中的任意一个,还包括基于感兴趣的多个属性的值的分布的变化来标识性能异常。
另一示例包括以上和/或以下示例中的任意一个,还包括生成图形用户界面(GUI),图形用户界面(GUI)显示相对于基线和至少一个相关联谓词的个体性能异常的图形。
另一示例包括以上和/或以下示例中的任意一个,其中数据集合从描述一个或多个数据中心的性能的服务日志中被导出。
另一示例可以获得数据集合。该示例可以确定数据集合中感兴趣的属性的异常的异常评分。该示例可以基于异常评分来生成谓词的排序列表。该示例可以导致排序列表的谓词的至少一个被呈现。
另一示例包括以上和/或以下示例中的任意一个,其中感兴趣的属性由用户选择的。
另一示例包括以上和/或以下示例中的任意一个,其中排序列表中的各个谓词的包括受用户选择的异常评分的级别的影响。
结论
所公开的方法被描述的顺序不旨在被解释为限制,并且任意数量的所描述的块可以以任意顺序组合以实现该方法或备选方法。此外,方法可以以任意合适的硬件、软件、固件或其组合来实现,使得计算设备可以实现该方法。在一种情况下,方法作为指令集合被存储在一个或多个计算机可读存储介质上,使得计算设备的处理器的执行使计算设备执行该方法。
尽管涉及可调谓词发现的技术、方法、设备、系统等以特定于结构特征和/或方法动作的语言来描述,但是应当理解,所附权利要求中限定的主题不一定限于描述的具体特征或行为。相反,具体特征和动作被公开为实现所要求保护的方法、设备、系统等的示例性形式。

Claims (15)

1.一种系统,包括:
处理设备;
存储设备;以及
可调谓词发现部件,被存储在所述存储设备上,
其中所述处理设备被配置为执行所述可调谓词发现部件以作为计算机可执行指令,用于:
从用户接收诊断级别选择;
获取一个或多个数据中心的数据集合;
标识所述数据集合中在所述诊断级别选择内具有异常评分的性能异常;
确定针对所述性能异常的谓词;
基于所述异常评分来生成所述谓词的排序列表;以及
使得所述排序列表的所述谓词中的至少一个谓词被呈现。
2.根据权利要求1所述的系统,其中所述诊断级别选择与所述性能异常的大小有关。
3.根据权利要求2所述的系统,其中所述诊断级别选择关于被分配给标识所述性能异常的计算资源来调整所述性能异常的所述大小。
4.根据权利要求1所述的系统,其中所述排序列表包括所述异常评分的指示。
5.根据权利要求1所述的系统,其中所述使得包括在图形用户界面上显示所述谓词中的至少一个谓词。
6.一种由一个或多个处理设备实现的方法,所述方法包括:
获取数据集合;
确定针对所述数据集合中感兴趣的属性的异常的异常评分;
基于所述异常评分来生成谓词的排序列表;以及
使得所述排序列表的所述谓词中的至少一个谓词被呈现。
7.根据权利要求6所述的方法,其中所述方法还包括自动调整被用于标识所述异常的计算资源的数量。
8.根据权利要求6所述的方法,其中所述谓词包括所述异常发生的条件。
9.根据权利要求6所述的方法,其中所述感兴趣的属性由用户选择。
10.根据权利要求6所述的方法,其中个体异常评分指示个体异常的大小。
11.根据权利要求6所述的方法,其中所述方法还包括经由与所述异常的大小有关的用户输入来以可选择地可调整的方式标识所述异常。
12.根据权利要求6所述的方法,其中所述方法还包括基于所述感兴趣的属性的值的分布中的变化来标识所述异常。
13.根据权利要求6所述的方法,其中所述数据集合从描述一个或多个数据中心的性能的服务日志中被导出。
14.根据权利要求6所述的方法,其中所述方法还包括基于感兴趣的多个属性的值的分布中的变化来识别所述异常。
15.根据权利要求6所述的方法,其中所述方法还包括生成图形用户界面(GUI),所述图形用户界面(GUI)相对于基线和至少一个相关联的谓词来显示个体异常的图形。
CN201580063992.5A 2014-11-26 2015-11-23 性能异常诊断 Active CN107003928B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462085241P 2014-11-26 2014-11-26
US62/085,241 2014-11-26
US14/687,848 2015-04-15
US14/687,848 US9904584B2 (en) 2014-11-26 2015-04-15 Performance anomaly diagnosis
PCT/US2015/062048 WO2016085831A1 (en) 2014-11-26 2015-11-23 Performance anomaly diagnosis

Publications (2)

Publication Number Publication Date
CN107003928A true CN107003928A (zh) 2017-08-01
CN107003928B CN107003928B (zh) 2020-03-20

Family

ID=56010304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580063992.5A Active CN107003928B (zh) 2014-11-26 2015-11-23 性能异常诊断

Country Status (4)

Country Link
US (1) US9904584B2 (zh)
EP (1) EP3224725A1 (zh)
CN (1) CN107003928B (zh)
WO (1) WO2016085831A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458188A (zh) * 2019-06-27 2019-11-15 精锐视觉智能科技(深圳)有限公司 工业视觉检测数据处理方法、装置、存储介质及终端设备
CN112286774A (zh) * 2020-10-29 2021-01-29 平安普惠企业管理有限公司 运维监控数据展示方法、装置、存储介质及计算设备
CN115454781A (zh) * 2022-10-08 2022-12-09 杭银消费金融股份有限公司 基于企业架构系统的数据可视化展现方法及系统

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9286047B1 (en) 2013-02-13 2016-03-15 Cisco Technology, Inc. Deployment and upgrade of network devices in a network environment
US9626277B2 (en) * 2015-04-01 2017-04-18 Microsoft Technology Licensing, Llc Anomaly analysis for software distribution
US10374904B2 (en) 2015-05-15 2019-08-06 Cisco Technology, Inc. Diagnostic network visualization
US9800497B2 (en) 2015-05-27 2017-10-24 Cisco Technology, Inc. Operations, administration and management (OAM) in overlay data center environments
US10536357B2 (en) 2015-06-05 2020-01-14 Cisco Technology, Inc. Late data detection in data center
US9967158B2 (en) 2015-06-05 2018-05-08 Cisco Technology, Inc. Interactive hierarchical network chord diagram for application dependency mapping
US10142353B2 (en) 2015-06-05 2018-11-27 Cisco Technology, Inc. System for monitoring and managing datacenters
US10033766B2 (en) 2015-06-05 2018-07-24 Cisco Technology, Inc. Policy-driven compliance
US10089099B2 (en) 2015-06-05 2018-10-02 Cisco Technology, Inc. Automatic software upgrade
US10587487B2 (en) * 2015-09-23 2020-03-10 International Business Machines Corporation Selecting time-series data for information technology (IT) operations analytics anomaly detection
US10169731B2 (en) * 2015-11-02 2019-01-01 International Business Machines Corporation Selecting key performance indicators for anomaly detection analytics
US10152363B2 (en) * 2016-03-16 2018-12-11 Microsoft Technology Licensing, Llc Identifying potential computer system problems using machine learning techniques
US10516684B1 (en) * 2016-04-21 2019-12-24 Instart Logic, Inc. Recommending and prioritizing computer log anomalies
US10931629B2 (en) 2016-05-27 2021-02-23 Cisco Technology, Inc. Techniques for managing software defined networking controller in-band communications in a data center network
US10171357B2 (en) 2016-05-27 2019-01-01 Cisco Technology, Inc. Techniques for managing software defined networking controller in-band communications in a data center network
US10289438B2 (en) 2016-06-16 2019-05-14 Cisco Technology, Inc. Techniques for coordination of application components deployed on distributed virtual machines
US10223191B2 (en) * 2016-07-20 2019-03-05 International Business Machines Corporation Anomaly detection in performance management
US10708183B2 (en) 2016-07-21 2020-07-07 Cisco Technology, Inc. System and method of providing segment routing as a service
US10372524B2 (en) * 2016-07-28 2019-08-06 Western Digital Technologies, Inc. Storage anomaly detection
US10855706B2 (en) * 2016-10-11 2020-12-01 Battelle Memorial Institute System and methods for automated detection, reasoning and recommendations for resilient cyber systems
US10972388B2 (en) 2016-11-22 2021-04-06 Cisco Technology, Inc. Federated microburst detection
CN108173670B (zh) * 2016-12-07 2020-06-02 华为技术有限公司 检测网络的方法和装置
US11030258B1 (en) * 2017-01-18 2021-06-08 Microsoft Technology Licensing, Llc Ranking anomalies associated with populations of users based on relevance
US10708152B2 (en) 2017-03-23 2020-07-07 Cisco Technology, Inc. Predicting application and network performance
US10523512B2 (en) 2017-03-24 2019-12-31 Cisco Technology, Inc. Network agent for generating platform specific network policies
US10250446B2 (en) 2017-03-27 2019-04-02 Cisco Technology, Inc. Distributed policy store
US10764141B2 (en) 2017-03-27 2020-09-01 Cisco Technology, Inc. Network agent for reporting to a network policy system
US10594560B2 (en) 2017-03-27 2020-03-17 Cisco Technology, Inc. Intent driven network policy platform
US10873794B2 (en) 2017-03-28 2020-12-22 Cisco Technology, Inc. Flowlet resolution for application performance monitoring and management
US11055317B2 (en) * 2017-06-01 2021-07-06 Adobe Inc. Methods and systems for determining and outputting correlations between metrics in a web analytic dataset
US10680887B2 (en) 2017-07-21 2020-06-09 Cisco Technology, Inc. Remote device status audit and recovery
US10554501B2 (en) 2017-10-23 2020-02-04 Cisco Technology, Inc. Network migration assistant
US10523541B2 (en) 2017-10-25 2019-12-31 Cisco Technology, Inc. Federated network and application data analytics platform
US10594542B2 (en) 2017-10-27 2020-03-17 Cisco Technology, Inc. System and method for network root cause analysis
US11409591B2 (en) * 2017-12-05 2022-08-09 Nec Corporation Anomaly determination apparatus, anomaly determination method, and non-transitory computer readable medium storing program
US11233821B2 (en) 2018-01-04 2022-01-25 Cisco Technology, Inc. Network intrusion counter-intelligence
US11765046B1 (en) 2018-01-11 2023-09-19 Cisco Technology, Inc. Endpoint cluster assignment and query generation
US10873593B2 (en) 2018-01-25 2020-12-22 Cisco Technology, Inc. Mechanism for identifying differences between network snapshots
US10798015B2 (en) 2018-01-25 2020-10-06 Cisco Technology, Inc. Discovery of middleboxes using traffic flow stitching
US10917438B2 (en) 2018-01-25 2021-02-09 Cisco Technology, Inc. Secure publishing for policy updates
US10826803B2 (en) 2018-01-25 2020-11-03 Cisco Technology, Inc. Mechanism for facilitating efficient policy updates
US10999149B2 (en) 2018-01-25 2021-05-04 Cisco Technology, Inc. Automatic configuration discovery based on traffic flow data
US10574575B2 (en) 2018-01-25 2020-02-25 Cisco Technology, Inc. Network flow stitching using middle box flow stitching
US11128700B2 (en) 2018-01-26 2021-09-21 Cisco Technology, Inc. Load balancing configuration based on traffic flow telemetry
US20190334759A1 (en) * 2018-04-26 2019-10-31 Microsoft Technology Licensing, Llc Unsupervised anomaly detection for identifying anomalies in data
US10785090B2 (en) * 2018-05-18 2020-09-22 Cisco Technology, Inc. Using machine learning based on cross-signal correlation for root cause analysis in a network assurance service
CN108923952B (zh) * 2018-05-31 2021-11-30 北京百度网讯科技有限公司 基于服务监控指标的故障诊断方法、设备及存储介质
US10904113B2 (en) 2018-06-26 2021-01-26 Microsoft Technology Licensing, Llc Insight ranking based on detected time-series changes
US20200053108A1 (en) * 2018-08-07 2020-02-13 Apple Inc. Utilizing machine intelligence to identify anomalies
US11727020B2 (en) 2018-10-11 2023-08-15 International Business Machines Corporation Artificial intelligence based problem descriptions
US10977112B2 (en) 2019-01-22 2021-04-13 International Business Machines Corporation Performance anomaly detection
US11151015B2 (en) 2019-02-22 2021-10-19 Microsoft Technology Licensing, Llc Machine-based recognition and dynamic selection of subpopulations for improved telemetry
US20210365302A1 (en) * 2020-05-19 2021-11-25 Hewlett Packard Enterprise Development Lp Adaptive and distributed tuning system and method
US11150976B1 (en) 2020-07-24 2021-10-19 Micro Focus Llc Anomaly detection based on higher-order anomaly score
US11822452B2 (en) 2021-06-22 2023-11-21 Microsoft Technology Licensing, Llc Dynamic remote collection of supplemental diagnostic data and triggering of client actions for client software application
US20230032678A1 (en) * 2021-07-29 2023-02-02 Micro Focus Llc Abnormality detection in log entry collection

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6192319B1 (en) * 1998-04-24 2001-02-20 Cfi Group Statistical impact analysis computer system
CN1856781A (zh) * 2003-08-11 2006-11-01 合声系统公司 用于创建和使用自适应参考模型的系统及方法
US20070168696A1 (en) * 2005-11-15 2007-07-19 Aternity Information Systems, Ltd. System for inventing computer systems and alerting users of faults
US20100014432A1 (en) * 2008-07-21 2010-01-21 Palo Alto Research Center Incorporated Method for identifying undesirable features among computing nodes
US20140189086A1 (en) * 2013-01-03 2014-07-03 Microsoft Corporation Comparing node states to detect anomalies
CN104572474A (zh) * 2015-01-30 2015-04-29 南京邮电大学 一种基于动态切片的轻量级错误定位技术实现方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6842753B2 (en) 2001-01-12 2005-01-11 Microsoft Corporation Sampling for aggregation queries
US7593936B2 (en) 2003-08-11 2009-09-22 Triumfant, Inc. Systems and methods for automated computer support
US7788198B2 (en) 2006-12-14 2010-08-31 Microsoft Corporation Method for detecting anomalies in server behavior using operational performance and failure mode monitoring counters
US8938532B2 (en) 2009-04-08 2015-01-20 The University Of North Carolina At Chapel Hill Methods, systems, and computer program products for network server performance anomaly detection
US10031829B2 (en) 2009-09-30 2018-07-24 International Business Machines Corporation Method and system for it resources performance analysis
US20120137367A1 (en) 2009-11-06 2012-05-31 Cataphora, Inc. Continuous anomaly detection based on behavior modeling and heterogeneous information analysis
US8495429B2 (en) * 2010-05-25 2013-07-23 Microsoft Corporation Log message anomaly detection
US8935383B2 (en) 2010-12-31 2015-01-13 Verisign, Inc. Systems, apparatus, and methods for network data analysis
US20130030761A1 (en) * 2011-07-29 2013-01-31 Choudur Lakshminarayan Statistically-based anomaly detection in utility clouds
US8452871B2 (en) 2011-08-27 2013-05-28 At&T Intellectual Property I, L.P. Passive and comprehensive hierarchical anomaly detection system and method
US9477936B2 (en) 2012-02-09 2016-10-25 Rockwell Automation Technologies, Inc. Cloud-based operator interface for industrial automation
US8868474B2 (en) * 2012-08-01 2014-10-21 Empire Technology Development Llc Anomaly detection for cloud monitoring

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6192319B1 (en) * 1998-04-24 2001-02-20 Cfi Group Statistical impact analysis computer system
CN1856781A (zh) * 2003-08-11 2006-11-01 合声系统公司 用于创建和使用自适应参考模型的系统及方法
US20070168696A1 (en) * 2005-11-15 2007-07-19 Aternity Information Systems, Ltd. System for inventing computer systems and alerting users of faults
US20100014432A1 (en) * 2008-07-21 2010-01-21 Palo Alto Research Center Incorporated Method for identifying undesirable features among computing nodes
US20140189086A1 (en) * 2013-01-03 2014-07-03 Microsoft Corporation Comparing node states to detect anomalies
CN104572474A (zh) * 2015-01-30 2015-04-29 南京邮电大学 一种基于动态切片的轻量级错误定位技术实现方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458188A (zh) * 2019-06-27 2019-11-15 精锐视觉智能科技(深圳)有限公司 工业视觉检测数据处理方法、装置、存储介质及终端设备
CN112286774A (zh) * 2020-10-29 2021-01-29 平安普惠企业管理有限公司 运维监控数据展示方法、装置、存储介质及计算设备
CN115454781A (zh) * 2022-10-08 2022-12-09 杭银消费金融股份有限公司 基于企业架构系统的数据可视化展现方法及系统
CN115454781B (zh) * 2022-10-08 2023-05-16 杭银消费金融股份有限公司 基于企业架构系统的数据可视化展现方法及系统

Also Published As

Publication number Publication date
WO2016085831A1 (en) 2016-06-02
CN107003928B (zh) 2020-03-20
EP3224725A1 (en) 2017-10-04
US20160147585A1 (en) 2016-05-26
US9904584B2 (en) 2018-02-27

Similar Documents

Publication Publication Date Title
CN107003928A (zh) 性能异常诊断
US10719301B1 (en) Development environment for machine learning media models
US10423647B2 (en) Descriptive datacenter state comparison
JP6538980B2 (ja) 異種混成ログストリームにおける自動化された異常検出サービス
US10243818B2 (en) User interface that provides a proactive monitoring tree with state distribution ring
US20230195845A1 (en) Fast annotation of samples for machine learning model development
US10310708B2 (en) User interface that facilitates node pinning for a proactive monitoring tree
US9426045B2 (en) Proactive monitoring tree with severity state sorting
US20180096499A1 (en) Proactive monitoring tree providing pinned performance information associated with a selected node
US11537506B1 (en) System for visually diagnosing machine learning models
US20120124047A1 (en) Managing log entries
JP2017072882A (ja) アノマリ評価プログラム、アノマリ評価方法、および情報処理装置
US9613271B2 (en) Determining severity of a geomagnetic disturbance on a power grid using similarity measures
US10346450B2 (en) Automatic datacenter state summarization
US9276826B1 (en) Combining multiple signals to determine global system state
CN112433952B (zh) 深度神经网络模型公平性测试方法、系统、设备及介质
EP3671467A1 (en) Gui application testing using bots
US11797578B2 (en) Technologies for unsupervised data classification with topological methods
WO2024113128A1 (en) A code branch managing system for comparing and/or updating a master code branch with a new code branch
Graf et al. Frost: Benchmarking and exploring data matching results
Gupta Role of Big Data in Medical Imaging Modalities to Extract the Hidden Patterns Using HIPI in HDFS Environment
Khatuya et al. GBTM: Graph Based Troubleshooting Method for Handling Customer Cases Using Storage System Log
CN115629978A (zh) 埋点自动化测试方法、装置、电子设备及存储介质
Yakneen Modern Systems for Large-scale Genomics Data Analysis in the Cloud
Iakhnin Modern Systems for Large-scale Genomics Data Analysis in the Cloud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant