CN111367781A - 一种实例处理方法及其装置 - Google Patents

一种实例处理方法及其装置 Download PDF

Info

Publication number
CN111367781A
CN111367781A CN202010451946.5A CN202010451946A CN111367781A CN 111367781 A CN111367781 A CN 111367781A CN 202010451946 A CN202010451946 A CN 202010451946A CN 111367781 A CN111367781 A CN 111367781A
Authority
CN
China
Prior art keywords
diagnosis
instance
diagnostic
training
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010451946.5A
Other languages
English (en)
Other versions
CN111367781B (zh
Inventor
欧阳晨
王蕾
吕彪
康达祥
刘昊俣
程鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010451946.5A priority Critical patent/CN111367781B/zh
Publication of CN111367781A publication Critical patent/CN111367781A/zh
Application granted granted Critical
Publication of CN111367781B publication Critical patent/CN111367781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种实例处理方法及其装置,所述方法包括:获取实例的诊断数据,其中,所述诊断数据包括所述实例对应于诊断规则的多个诊断时间点上的诊断结果;将所述诊断数据输入到经过训练的实例异常检测组件,获取所述实例是否发生异常的诊断信息,其中,所述实例异常检测组件是利用时序信息建模处理的神经网络模型组件。采用本申请,可实现对实例的自动化诊断。

Description

一种实例处理方法及其装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种实例处理方法及其装置。
背景技术
如今,越来越多的企业和消费者利用公有云构建其业务。公有云已经开发了多种云网络产品来满足各种业务需求,例如云服务器,负载均衡器,云数据库等。这些云网络产品为租赁公有云产品的租户提供相应的网络服务。如图1所示,公有云网络系统100可为多个租户10至30提供服务,这些租户10至30各自独立地利用公有云网络系统100提供的云网络服务。
在实际使用中,公有云网络系统100将根据租户的配置生成一系列购买产品的产品实例,以提供云网络服务。当产品实例发生故障时,租户的业务也将直接受到影响。而且由于公有云的多租户共存的特性,实例级别的故障通常会同时影响其它租户的云网络服务。例如,当为租户10的服务器提供服务的某个云服务器遭受DDoS攻击时,该服务器所属的虚拟交换机的路由表上的会话链接数将会猛增甚至溢出。这样的异常会影响该虚拟交换机下的其他租户的云服务器的通讯能力。因此,快速准确地检测出异常实例对于为租户提供优质服务至关重要。
在相关技术中,技术人员通常会针对与产品实例相关的监视指标和监视事件预先设置多个诊断规则。当产品实例发生异常时,将产品实例与这些诊断规则分别匹配,并根据匹配情况生成诊断结果,诊断结果中包括该产品实例与每个诊断规则是否匹配的匹配信息,因此,该诊断结果可能包括数百个匹配信息。对于技术人员来说,需要通过逐个检查诊断结果中的匹配信息来定位异常的原因是一项耗时且费力的工作。因此,需要一种可自动化地对诊断结果进行检测和分析的实例处理方法。
发明内容
本申请实施例提供一种实例处理方法及其装置,用于至少解决以上提到的技术问题。
本申请实施例还提供一种实例处理方法,所述方法包括:获取实例的诊断数据,其中,所述诊断数据包括所述实例对应于诊断规则的多个诊断时间点上的诊断结果;将所述诊断数据输入到经过训练的实例异常检测组件,获取所述实例是否发生异常的诊断信息,其中,所述实例异常检测组件是利用时序信息建模处理的神经网络模型组件。
本申请实施例还提供一种实例处理装置,所述装置包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述方法。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
根据本申请的示例性实施例的异常实例处理方法可通过实例异常检测组件完成对实例的诊断单的自动化分析,取代了人工,不仅降低了企业成本而且提高了分析速率。更进一步地,所述异常实例处理方法可在分析所述诊断单时考虑到各种诊断规则的时序信息,从而提高诊断的准确度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是示出实施根据本申请的示例性实施例的异常实例处理方法的场景图。
图2是示出根据本申请的示例性实施例的异常实例处理方法的流程图。
图3是示出根据本申请的另一示例性实施例的异常实例处理方法的结构示图。
图4是示出根据本申请的示例性实施例的实例异常检测组件的示图。
图5是示出根据本申请的示例性实施例的实例异常分析组件的示图。
图6是示出根据本申请的示例性实施例的数据处理装置的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
在实施中,为了能够实时监控实例的运行情况,可预先设置大量的诊断规则,然后可通过查看实例与这些诊断规则的匹配情况确定该实例是否存在异常。这里提到的诊断规则是用于监控实例的运行状态的规则,并非仅用于判断实例的异常运行情况,也就是说,可能实例的运行数据与某些诊断规则匹配,但不能说明该实例异常运行。也就是说,仅通过单个诊断规则不能判断实例是否存在异常,可能存在实例匹配了单个甚至一些诊断规则但是该实例仍然正常运行的情况,例如,可预先设置CPU使用率的阈值为80%,如果超过该阈值,则说明存在异常情况,但是不能确定该实例是否出现异常,仍然存在虽然运行实例的计算机的CPU使用率超过了80%但是该实例仍然正常运行的可能性。
此外,还存在由于用户操作不当而导致实例运行失败,但这不表明该实例发生了异常,这种情况通过查看诊断规则的匹配情况来排除需要耗费大量的人工。
基于以上这些情况,可采用本申请的示例性实施例的异常实例处理方法利用诊断单中包括的诊断规则匹配信息的时序信息对诊断单进行处理,确定该实例是否存在异常。以下将参照图2进行详细描述。
图2示出了根据本申请的示例性实施例的异常实例处理方法的流程图。
在步骤S210,获取实例的诊断数据,其中,所述诊断数据包括所述实例对应于诊断规则的多个诊断时间点上的诊断结果。具体来说,可获取与所述实例对应的诊断单,其中,所述诊断单包括所述实例的标识信息、异常信息、诊断窗口时间以及诊断规则匹配信息。
所述诊断规则匹配信息包括诊断规则、诊断类型、诊断结果以及诊断匹配时间。在本申请的实施例中,将针对实例生成的诊断单中包括的诊断规则匹配信息,生成所述诊断规则匹配信息在等时间间隔上的各个时间点上的诊断结果构成的诊断数据。
在实施中,当实例正运行时,用户(例如,租户、技术人员)可根据指示提交针对该实例的诊断单(例如,工单),其中,诊断单可包括该实例的标识信息、异常信息、诊断窗口时间以及诊断规则匹配信息。
标识信息是指用于唯一标识实例的信息,便于存储和识别该实例。在实施例中,标识信息可以用字母、数字、符号等组合来表示。异常信息用于指示该实例是否发生异常的信息,在实施中,异常信息可由技术人员通过核查诊断单最终确定的信息,或者可由用户根据实例的运行情况而确定的信息,在这种情况下,所述异常信息可能是不准确的。
诊断窗口时间可包括诊断窗口开始时刻和诊断窗口结束时刻,在实施中,实例在持续运行过程中,是没有必要实时对其进行诊断,这不仅会影响实例运行的速度,而且会生成很多冗余数据。因此,当用户发现该实例无法正常运行时,为了对该实例进行诊断,可对该实例进行诊断。基于此,可设定诊断窗口,例如,可将该诊断窗口设置为1小时,收集该实例在这一小时内运行的运行数据,或者为了对该实例的运行情况进行监控,可设置诊断的周期性窗口,例如,每隔六个小时执行一次诊断,诊断窗口的时长为1小时。
在实施中,诊断规则匹配信息包括诊断规则、诊断结果以及诊断匹配时间。具体来说,由于技术人员会预先针对实例设置多个诊断规则,这些诊断规则的数量通常比较多,甚至高达上百个,可针对在诊断窗口内获取的运行数据分别与每个诊断规则进行匹配,生成针对每个诊断规则的诊断规则匹配信息,也就是说,诊断单中的诊断规则匹配信息的数量是与预定义的诊断规则的数量对应的。
基于此,诊断规则匹配信息中的诊断规则是指具体的每个诊断规则,在实施中,为了便于记忆,可利用每个诊断规则的标识信息来标识各自的诊断规则。诊断结果指示针对每个诊断规则确定的错误码,例如,针对具有两个阈值的某一指标类型的诊断规则, 1表示超过较低阈值,2表示在较低阈值与较高阈值之间,3表示超过较高阈值。诊断时间表示满足对应诊断规则的时间段,包括开始时刻和结束时刻。
此外,诊断规则匹配信息还可包括诊断类型。诊断类型可分为指标类型和事件类型,其中,指标类型是指诊断规则是通过检测数据后利用该数据与阈值进行比较确定的诊断结果,例如,诊断规则是CPU的使用率是否超过80%,因此需要监测该实例运行时的CPU使用率,这属于指标类型。事件类型是诊断规则是判断是否发生特定事件,在实例中,可从实例相关的事件日志或者配置信息中确定是否发生特定事件。
当诊断类型是指标类型时,诊断匹配时间是实例运行期间满足指标的时间间隔,当诊断类型为事件类型时,诊断匹配时间是特定事件发生的时刻,也就是说,诊断匹配开始时刻与诊断匹配结束时刻为同一时刻。在本申请中,为了能够考虑到事件类型对诊断信息的持续性影响,可将事件类型的结束时刻确定为诊断窗口结束时刻。
此外,存在实例在多个时间段上运行时可能都满足同一诊断规则的情况,也就是说,可能多组开始时刻和结束时刻,针对这种情况,可将开始时刻作为排序基准,以开始时刻与其对应的结束时刻作为一个单位,顺序地排列出多组开始时刻和结束时刻。
为了便于理解,以下将给出示例性的诊断规则匹配信息:D1{指标类型,1,09:05:46,09:23:46 },其中,D1表示诊断规则,指标类型表示诊断类型,1表示诊断结果,09:05:46满足该诊断规则的开始时刻,09:23:46表示满足该诊断规则的结束时刻。
作为示例,诊断单可将诊断规则匹配信息按照如上方式单独存储并按照以下格式将诊断单进行存储:{001,异常,09:05:46,10:05:46},其中,001表示实例的标识信息,异常表示该实例的异常信息,09:05:46表示诊断窗口的开始时刻,10:05:46表示诊断窗口的结束时刻。
作为示例,诊断单中可包括如下表1中示出的诊断规则匹配信息:
Figure 573614DEST_PATH_IMAGE001
表1
基于表1中的诊断规则匹配信息,按照如上所述的格式被转换为诊断规则D1{指标类型,1,09:05:46,09:23:46 }、D2{指标类型,2,09:38:46,09:41:46, 09:44:46, 09:56:46 }、D3{指标类型,2,09:38:46,09:41:46, 09:44:46, 09:46:46,09:50:46,09:51:46 }、D4{事件类型,1,09:33:46,09:33:46 }、D5{事件类型,3,09:05:46,09:05:46 }。
然后,将这些诊断规则匹配信息按照各自的诊断开始时刻进行排序,使得所述诊断规则匹配信息等时间间隔排列的诊断数据。如表1中的诊断规则匹配数据为例,可将D1到D5按照开始时刻进行排序,排序后为D1{指标类型,1,09:05:46,09:23:46 }、D5{事件类型,3,09:05:46,09:05:46 } 、D4{事件类型,1,09:33:46,09:33:46 }、D2{指标类型,2,09:38:46,09:41:46, 09:44:46, 09:56:46 }、D3{指标类型,2,09:38:46,09:41:46, 09:44:46,09:46:46,09:50:46,09:51:46 }。对于开始时刻相同的诊断规则匹配信息,可再按照例如诊断类型进行排列。
作为示例,时间间隔可以是分钟。假设某一分钟上不存在诊断规则匹配信息,可将该分钟上的诊断规则匹配信息确定为空。对于诊断类型为指标类型的诊断规则,在开始时刻的每个时间点输出一个错误码;对于诊断类型为事件类型的诊断规则,从开始时刻到窗口结束时刻,每个时间点输出一个错误码。
在实施中,可将每个诊断规则匹配信息转换为等时间间隔的时间点上的错误码构成的向量,如此,向量的数量与诊断规则的数量相同,诊断数据则是由这些向量构成的多维数据。
在步骤S220,将诊断数据输入到经过训练的实例异常检测组件,获取所述实例是否发生异常的诊断信息,其中,所述实例异常检测组件是利用时序信息建模处理的神经网络模型组件。为了更方便地解释实例异常检测组件,以下将结合图4进行详细描述。
图4示出了根据本申请的示例性实施例的实例异常检测组件的示图。
如图4所示,所述实例异常检测组件包括循环网络层、全连接层、逻辑层以及聚合层,其中,循环网络层包括与每个时间间隔上的时间点对应的门控循环单元(GRU)。作为示例,当诊断窗口为小时时,每个时间点对应于每分钟,则GRU的数量可以是60个。
GRU属于循环神经网络(Recurrent Neural Network, RNN),用于解决长期记忆和反向传播中的梯度等问题。GRU包括更新门和重置门,其中,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多,重置门控制前一状态有多少信息被写入到当前的候选集上,重置门越小,前一状态的信息被写入的越少。
在本申请中,可通过循环网络层提取出在对应时间点上的诊断规则匹配信息在时序信息的特征数据,随后,可将这些特征数据将通过全连接层进行全连接,也就是说,通过全连接层将这些特征数据的特征保留并映射出来,为了能够提取出更多的特征,全连接层通常会增加特征数据的维度。作为示例,全连接层可由数倍于GRU数量的线性神经元构成,其中,线性神经元的激活函数可以是Tanh(),也就是说,全连接层可以由数倍于GRU数量的以Tanh()为激活函数的线性神经元构成。
Tanh()属于双曲函数。在数学中,双曲正切是由基本双曲函数双曲正弦和双曲余弦推导而来。Tanh()可将循环网络层中产生的数据中表征的特征扩大并显示出来。
逻辑层是可将全连接层输出的数据转换为该实例在每个时间点上的异常概率值,作为示例,所述逻辑层可以是以Sigmoid()为激活函数的线性神经元构成,Sigmoid()是一种常见的S型函数,通常可用在输出层进行二分类。逻辑层的输出可输入到聚合层,聚合层可使用函数MAX()实现。也就是说,将逻辑层输出的每个时间点上的异常概率值pmax作为输入,利用MAX()进行处理,选择最大的异常概率值作为输出。作为示例,预先设置阈值,如果pmax大于该阈值,则确定该实例存在异常,若低于该阈值,则确定该实例是正常的。
以上已完成了构建实例异常检测组件,为了使用实例异常检测组件对实例进行判断,需要利用训练数据对实例异常检测组件进行训练,从而不断调整实例异常检测组件中的全网络参数。
具体来说,可获取训练实例集中的每个训练实例的训练诊断规则匹配信息以及每个训练实例集的诊断信息。也就是说,针对每个训练实例,可将其对应的训练诊断规则匹配信息按照如步骤S210的步骤进行处理,生成训练诊断数据,并且还可从每个训练实例的诊断单上获取该训练实例是否发生异常的诊断信息。应注意,为了保证训练的准确性,训练实例的诊断信息是由技术人员根据训练实例的训练诊断规则匹配信息做出的诊断。
然后将训练数据输入到实例异常检测组件,获取到预测诊断信息。基于预测诊断信息与训练诊断信息之间的差异对对实例异常检测组件进行训练,调整所述全网络参数,直到实例异常检测组件达到预设要求,其中,预设要求可以是技术人员根据实际需求设置的预定阈值。
返回至步骤S220,可将在步骤S210获取的诊断数据(即,排序后的诊断规则匹配信息)将输入到经过训练的实例异常检测组件,确定所述实例是否发生异常。
综上可述,根据本申请的示例性实施例的异常实例处理方法可通过实例异常检测组件完成对实例的诊断单的自动化分析,取代了人工,不仅降低了企业成本而且提高了分析速率。更进一步地,所述异常实例处理方法可在分析所述诊断单时考虑到各种诊断规则的时序信息,从而提高诊断的准确度。更进一步地,在诊断期间考虑到事件类型对诊断信息的持续性影响以及指标类型对诊断信息的瞬间影响,从而提高诊断的准确性。
在实施中,在确定该实例存在异常的情况下,可确定并输出与最大异常概率值pmax对应的时间点。随后,确定与该时间点匹配的诊断规则匹配信息作为发生异常的异常匹配信息,包括以该时间点作为开始时刻的诊断规则匹配信息,以及该时间点在开始时刻与结束时刻之间的诊断规则匹配信息。
随后,可将该异常匹配信息发送到如图5所示的实例异常分析组件。以下将参照图5更清楚地描述。
图5示出了根据本申请的示例性实施例的实例异常分析组件的示图。
作为示例,实例异常分析组件可以是多实例学习(Multiple Instance Learning)神经网络组件,该组件可在输入多个诊断规则匹配信息后,确定每个诊断规则在实例发生异常中的相关程度,相关程度越大,说明该诊断规则在发生异常中起到的作用越大。
在多实例学习神经网络中,训练集由一组具有分类标签的多实例包(bag)组成 ,每个包(bag)含有若干个没有分类标签的实例 (instance)。如果包至少含有一个正实例,则该包被标记为正包。如果多实例包的所有实例是负示例,则该包被标记为负包。多示例训练的目的是通过对具有分类标签的多实例包的学习建立多实例分类器,并将该分类器应用于未知多实例包的预测。
在本申请中,所述实例异常分析组件可包括全连接层、逻辑层以及聚合层,其中,全连接层由以Tanh()为激活函数的线性神经元构成。逻辑层由以Sigmoid()为激活函数的线性神经元构成,逻辑层输出每个诊断结果与异常的相关性分数si(i=1~n),其中,所述相关性分数是用于表征相关度的数值。
在实施中,聚合层由MAX()函数实现,输出所有相关性分数si的最大值smax。优选地,在实施中聚合层由SORT()函数实现,输出以si排序后所有诊断规则输出结果的排名Drank
为了利用该实例异常分析组件对某一时间点上的诊断规则进行分析,则需要利用训练数据集对该实例异常分析组件进行训练。
具体来说,针对训练实例集中的每个训练实例,可通过技术人员人工确定训练实例出现异常的时间点,并将该时间点出现异常时的异常匹配信息作为训练异常匹配信息,然后确定训练异常匹配信息中各个诊断规则所占的比重作为标注信息。
然后将训练异常匹配信息输入到实例异常分析组件,获取各个诊断规则所占的预测比重,基于预测比重与标注信息之间的差异对对实例异常分析组件进行训练,调整所述全网络参数,直到实例异常分析组件达到预设要求,所述预设要求可以是准确率达到预定阈值。
作为示例,在利用训练数据完成对实例异常分析组件的训练后,可将异常匹配信息输出到经过训练的实例异常分析组件,确定异常匹配信息中的各个诊断规则所占的比例,并将它们按照预设规则进行输出,例如,当聚合层包括函数MAX()时,输出比例最大的诊断规则。当聚合层包括SORT()时,输出按照比例大小排列的各个诊断规则。
综上可述,根据本申请的示例性实施例的实例处理方法可在利用实例异常检测组件检测出出现异常的时间点后,还可对该时间点匹配的各个诊断规则进行分析,确定各个诊断规则发生异常的概率,从而能够准确定位异常的根本原因,为下一步解决异常问题提供了帮助。
以下将结合图3描述根据本申请的示例性实施例的实例处理方法的框图。应注意,图3中的实例异常检测组件和实例异常分析组件均是经过训练的组件。
如图3所示,本实施例的输入数据是如表1中所示的诊断规则匹配信息构成的诊断单310,随后,可将这些诊断规则匹配信息进行预处理320,也就是说,利用这些诊断规则匹配信息中的诊断时间对这些诊断规则匹配信息进行排序,从而形成具有等时间间隔的诊断数据,作为示例,该时间间隔是分钟。
在实施中,如果诊断类型为事件类型(如表1中的D4,D5),那么将该诊断规则的错误码的开始时刻是事件发生的时刻,结束时刻为诊断窗口的结束时刻,用于体现事件对实例的持续性影响。
诊断数据可包括以每个诊断规则为维度的错误信息生成的向量,以表1为例,诊断数据可包括五维向量,每个维度的向量可包括针对该维度上的诊断规则的错误码生成的向量X1,X2,…,Xt,其中,t表示诊断窗口的最大时间点。
然后将这些诊断数据输入到实例异常检测组件330,通过分析其时序上的特性,输出每个时间点的异常概率分数pj,用于体现诊断时间窗口内每个时间点的异常概率。随后,将异常概率值的最大值pmax和其对应的时间点tmax作为输出结果进行输出,如表1中的数据为例,输出为pmax=0.98,tmax=t50
随后,将t50上的所有诊断规则Xtmax输入到实例异常分析组件340。如图3所示,我们选取异常分类器的输出时间tmax对应时间点的诊断结果Xtmax,并将Xtmax是每个维度对应一个诊断规则的五维向量,在本实施例中为Xtmax=(0,2,2,1,3)。将该诊断向量输入到实例异常分析组件中,由实例异常分析组件340输出每个诊断规则对应的诊断结果在此次故障分析过程中与故障的相关性分数si(i=1~n),本实施例中为si(i=1~5)(0,0.3056,0.0329,0.1037,0.0814)。由诊断规则排名350将该相关性分数进行排序,并利用排序的结果获得最终诊断结果相关度排名Drank,本实施例中的最终结果为(D2,D4,D5,D3,D1)。
图6示出本申请的示例性实施例的实例处理装置的框图。参考图6,在硬件层面,该装置包括处理器、内部总线和计算机可读存储介质,其中,所述计算机可读存储介质包括易失性存储器和非易失性存储器。处理器从非易失性存储器中读取对应的计算机程序然后运行。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
具体来说,所述处理器执行以下操作:获取实例的诊断数据,其中,所述诊断数据包括所述实例对应于诊断规则的多个诊断时间点上的诊断结果;将所述诊断数据输入到经过训练的实例异常检测组件,获取所述实例是否发生异常的诊断信息。
可选地,所述处理器还可执行以下操作:获取与所述实例对应的诊断单,其中,所述诊断单包括所述实例的标识信息、异常信息、诊断窗口时间以及诊断规则匹配信息,其中,所述诊断规则匹配信息包括诊断规则、诊断类型、诊断结果以及诊断匹配时间。
可选地,所述处理器还可执行以下操作:将所述诊断规则匹配信息按照诊断规则转换为在等时间间隔的各个诊断时间点上的诊断结果构成的所述诊断数据。
可选地,所述实例异常检测组件是利用时序信息建模处理的机器学习模型组件,所述实例异常检测组件包括循环网络层、全连接层、逻辑层以及聚合层,其中,循环网络层包括与每个时间间隔上的时间点对应的门控循环单元。
可选地,所述实例异常检测组件是按照方式进行训练:获取训练实例集中的每个训练实例的训练诊断规则匹配信息以及每个训练实例的训练诊断信息;构建所述实例异常检测组件,所述实例异常检测组件设置有全网络参数;利用每个训练实例的训练诊断规则匹配信息以及训练诊断信息之间的对应关系对所述实例异常检测组件进行训练,调整所述全网络参数,直到所述实例异常检测组件达到预设要求。
可选地,所述诊断类型包括指标类型和事件类型。
可选地,所述处理器在实现步骤将所述诊断规则匹配信息按照诊断规则转换为在等时间间隔的各个诊断时间点上的诊断结果构成的所述诊断数据包括:针对每个诊断规则匹配信息,确定在诊断窗口时间内等时间间隔内的时间点上诊断结果;利用各个诊断规则匹配信息对应的诊断结果生成的向量生成诊断数据。
可选地,所述处理器在实现步骤针对每个诊断规则匹配信息确定在诊断窗口时间内等时间间隔内的时间点上诊断结果:在诊断规则匹配信息的诊断类型为事件类型的情况下,将该诊断规则的诊断结果赋值给从诊断匹配时间的开始时刻至诊断窗口时间的结束时刻之间的各个时间点。
可选地,所述处理器还可实现步骤:根据所述诊断信息确定所述实例发生异常的情况下,所述实例异常检测组件输出发生异常的诊断时间点;将与所述诊断时间点匹配的诊断规则匹配信息确定为所述实例发生异常的异常匹配信息。
可选地,所述处理器还可实现步骤:将所述异常匹配信息输出到经过训练的实例异常分析组件,确定所述异常匹配信息所包括的各个匹配规则与所述实例发生异常的相关程度。
可选地,所述实例异常分析组件是具有全连接层、逻辑层以及聚合层的多实例学习神经网络组件。
可选地,所述实例异常分析组件是按照以下方式进行训练:获取训练实例集中的每个训练实例出现异常的时间点对应的训练异常匹配信息以及训练异常匹配信息中各个训练诊断规则的训练相关程度;构建所述实例异常分析组件,所述实例异常分析组件设置有全网络参数;利用每个训练实例的训练异常匹配信息以及训练相关程度之间的对应关系对所述实例异常分析组件进行训练,调整所述全网络参数,直到所述实例异常分析组件达到预设要求。
综上可述,根据本申请的示例性实施例的异常实例处理装置可通过实例异常检测组件完成对实例的诊断单的自动化分析,取代了人工,不仅降低了企业成本而且提高了分析速率。更进一步地,所述异常实例处理方法可在分析所述诊断单时考虑到各种诊断规则的时序信息,从而提高诊断的准确度。更进一步地,在诊断期间考虑到事件类型对诊断信息的持续性影响以及指标类型对诊断信息的瞬间影响,从而提高诊断的准确性。更进一步,可在利用实例异常检测组件检测出出现异常的时间点后,还可对该时间点匹配的各个诊断规则进行分析,确定各个诊断规则发生异常的概率,从而能够准确定位异常的根本原因,为下一步解决异常问题提供了帮助。
需要说明的是,实施例1所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤21和步骤22的执行主体可以为设备1,步骤23的执行主体可以为设备2;又比如,步骤21的执行主体可以为设备1,步骤22和步骤23的执行主体可以为设备2;等等。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (14)

1.一种实例处理方法,其特征在于,包括:
获取实例的诊断数据,其中,所述诊断数据包括所述实例对应于诊断规则的多个诊断时间点上的诊断结果;
将所述诊断数据输入到经过训练的实例异常检测组件,获取所述实例是否发生异常的诊断信息。
2.如权利要求1所述的方法,其特征在于,还包括:
获取与所述实例对应的诊断单,其中,所述诊断单包括所述实例的标识信息、异常信息、诊断窗口时间以及诊断规则匹配信息,其中,所述诊断规则匹配信息包括诊断规则、诊断类型、诊断结果以及诊断匹配时间。
3.如权利要求2所述的方法,其特征在于,还包括:
将所述诊断规则匹配信息按照诊断规则转换为在等时间间隔的各个诊断时间点上的诊断结果构成的所述诊断数据。
4.如权利要求1所述的方法,其特征在于,所述实例异常检测组件是利用时序信息建模处理的机器学习模型组件,包括循环网络层、全连接层、逻辑层以及聚合层,其中,循环网络层包括与每个时间间隔上的诊断时间点对应的门控循环单元。
5.如权利要求4所述的方法,其特征在于,所述实例异常检测组件是按照如下方式进行训练:
获取训练实例集中的每个训练实例的训练诊断规则匹配信息以及每个训练实例的训练诊断信息;
构建所述实例异常检测组件,所述实例异常检测组件设置有全网络参数;
利用每个训练实例的训练诊断规则匹配信息以及训练诊断信息之间的对应关系对所述实例异常检测组件进行训练,调整所述全网络参数,直到所述实例异常检测组件达到预设要求。
6.如权利要求3所述的方法,其特征在于,所述诊断类型包括指标类型和事件类型。
7.如权利要求6所述的方法,其特征在于,将所述诊断规则匹配信息按照诊断规则转换为在等时间间隔的各个诊断时间点上的诊断结果构成的所述诊断数据包括:
针对每个诊断规则匹配信息,确定在诊断窗口时间内等时间间隔的各个时间点上的诊断结果;
利用各个诊断规则匹配信息对应的诊断结果生成的向量生成所述诊断数据。
8.如权利要求6所述的方法,其特征在于,针对每个诊断规则匹配信息确定在诊断窗口时间内等时间间隔内的各个时间点上的诊断结果包括:
在诊断规则匹配信息的诊断类型为事件类型的情况下,将该诊断规则的诊断结果赋值给从诊断匹配时间的开始时刻至诊断窗口时间的结束时刻之间的各个时间点。
9.如权利要求2所述的方法,其特征在于,还包括:
根据所述诊断信息确定所述实例发生异常的情况下,所述实例异常检测组件输出发生异常的诊断时间点;
将与所述诊断时间点匹配的诊断规则匹配信息确定为所述实例发生异常的异常匹配信息。
10.如权利要求9所述的方法,其特征在于,还包括:
将所述异常匹配信息输出到经过训练的实例异常分析组件,确定所述异常匹配信息所包括的各个匹配规则与所述实例发生异常的相关程度。
11.如权利要求10所述的方法,其特征在于,所述实例异常分析组件是具有全连接层、逻辑层以及聚合层的多实例学习神经网络组件。
12.如权利要求11所述的方法,其特征在于,所述实例异常分析组件是按照以下方式进行训练:
获取训练实例集中的每个训练实例出现异常的时间点对应的训练异常匹配信息以及训练异常匹配信息中各个训练诊断规则的训练相关程度;
构建所述实例异常分析组件,所述实例异常分析组件设置有全网络参数;
利用每个训练实例的训练异常匹配信息以及训练相关程度之间的对应关系对所述实例异常分析组件进行训练,调整所述全网络参数,直到所述实例异常分析组件达到预设要求。
13.一种实例处理装置,其特征在于,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行权利要求1至12中的任一权利要求所述的方法。
14.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现权利要求1至12中的任一权利要求所述的方法。
CN202010451946.5A 2020-05-26 2020-05-26 一种实例处理方法及其装置 Active CN111367781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010451946.5A CN111367781B (zh) 2020-05-26 2020-05-26 一种实例处理方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010451946.5A CN111367781B (zh) 2020-05-26 2020-05-26 一种实例处理方法及其装置

Publications (2)

Publication Number Publication Date
CN111367781A true CN111367781A (zh) 2020-07-03
CN111367781B CN111367781B (zh) 2020-11-27

Family

ID=71209661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010451946.5A Active CN111367781B (zh) 2020-05-26 2020-05-26 一种实例处理方法及其装置

Country Status (1)

Country Link
CN (1) CN111367781B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880158A (zh) * 2022-07-11 2022-08-09 飞狐信息技术(天津)有限公司 一种Redis实例诊断方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106293798A (zh) * 2015-06-02 2017-01-04 纬创资通股份有限公司 电子装置的自我修复方法、系统及服务器
CN108833131A (zh) * 2018-04-25 2018-11-16 北京百度网讯科技有限公司 分布式数据库云服务的系统、方法、设备和计算机存储介质
CN110581834A (zh) * 2018-06-11 2019-12-17 中国移动通信集团浙江有限公司 一种通信能力开放异常检测方法和装置
CN110619386A (zh) * 2019-09-09 2019-12-27 国家电网有限公司 一种tmr运行监测及故障智能研判方法及系统
CN111091278A (zh) * 2019-12-04 2020-05-01 湃方科技(天津)有限责任公司 机械设备异常检测的边缘检测模型构建方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106293798A (zh) * 2015-06-02 2017-01-04 纬创资通股份有限公司 电子装置的自我修复方法、系统及服务器
CN108833131A (zh) * 2018-04-25 2018-11-16 北京百度网讯科技有限公司 分布式数据库云服务的系统、方法、设备和计算机存储介质
CN110581834A (zh) * 2018-06-11 2019-12-17 中国移动通信集团浙江有限公司 一种通信能力开放异常检测方法和装置
CN110619386A (zh) * 2019-09-09 2019-12-27 国家电网有限公司 一种tmr运行监测及故障智能研判方法及系统
CN111091278A (zh) * 2019-12-04 2020-05-01 湃方科技(天津)有限责任公司 机械设备异常检测的边缘检测模型构建方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880158A (zh) * 2022-07-11 2022-08-09 飞狐信息技术(天津)有限公司 一种Redis实例诊断方法及装置

Also Published As

Publication number Publication date
CN111367781B (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN108052528B (zh) 一种存储设备时序分类预警方法
Bodik et al. Fingerprinting the datacenter: automated classification of performance crises
US8453027B2 (en) Similarity detection for error reports
US20190228296A1 (en) Significant events identifier for outlier root cause investigation
TWI742040B (zh) 分布式環境下監督學習算法的基準測試方法和裝置
US11487996B2 (en) Real-time predictive maintenance of hardware components using a stacked deep learning architecture on time-variant parameters combined with a dense neural network supplied with exogeneous static outputs
AU2019275633B2 (en) System and method of automated fault correction in a network environment
KR20220114986A (ko) 가상 네트워크 관리를 위한 머신 러닝 기반 vnf 이상 탐지 시스템 및 방법
CN110164501B (zh) 一种硬盘检测方法、装置、存储介质及设备
CN113010389A (zh) 一种训练方法、故障预测方法、相关装置及设备
Lim et al. Identifying recurrent and unknown performance issues
CN111897705B (zh) 服务状态处理、模型训练方法、装置、设备和存储介质
CN112532455B (zh) 一种异常根因定位方法及装置
US9489379B1 (en) Predicting data unavailability and data loss events in large database systems
CN111984442A (zh) 计算机集群系统的异常检测方法及装置、存储介质
US20230267073A1 (en) Machine-learning based software testing technique
CN113515434A (zh) 异常分类方法、装置、异常分类设备及存储介质
CN110909826A (zh) 一种能源设备的诊断监测方法、装置及电子设备
US20230344857A1 (en) Multidimensional security situation real-time representation method and system and applicable to network security
CN111367781B (zh) 一种实例处理方法及其装置
CN115309575A (zh) 基于图卷积神经网络的微服务故障诊断方法、装置及设备
CN111124732A (zh) 一种磁盘故障的预测方法、系统、设备及存储介质
CN115658441B (zh) 一种基于日志的家政业务系统异常监控方法、设备及介质
CN109698026B (zh) 医学设备的故障处理时的组件识别
CN110968518A (zh) 自动化测试日志文件的分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant