CN117076239A - 一种运维数据异常检测方法、装置、电子设备及存储介质 - Google Patents

一种运维数据异常检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117076239A
CN117076239A CN202311035255.7A CN202311035255A CN117076239A CN 117076239 A CN117076239 A CN 117076239A CN 202311035255 A CN202311035255 A CN 202311035255A CN 117076239 A CN117076239 A CN 117076239A
Authority
CN
China
Prior art keywords
data
maintenance data
maintenance
standard
abnormality detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311035255.7A
Other languages
English (en)
Inventor
程捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bo Hongyuan Data Polytron Technologies Inc
Original Assignee
Beijing Bo Hongyuan Data Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bo Hongyuan Data Polytron Technologies Inc filed Critical Beijing Bo Hongyuan Data Polytron Technologies Inc
Priority to CN202311035255.7A priority Critical patent/CN117076239A/zh
Publication of CN117076239A publication Critical patent/CN117076239A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种运维数据异常检测方法、装置、电子设备及存储介质。通过实时获取待异常检测的运维数据,并对运维数据进行数据预处理,得到标准运维数据,并执行确定出运维数据分布类型的操作;如果成功确定出标准运维数据的分布类型,则获取目标异常检测模型,并将标准运维数据输入至目标异常检测模型中,得到运维数据异常检测结果;如果运维数据异常检测结果为正常或者设定异常类型,则将其进行反馈,以及将标准运维数据和运维数据异常检测结果联合存储于运维数据存储库中。解决了对于运维数据需要人工处理而造成的耗时长、人力成本较高以及准确率低的问题,实现了节约时间成本和人工成本,提高了运维数据自动处理的灵活性和准确率。

Description

一种运维数据异常检测方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种运维数据异常检测方法、装置、电子设备及存储介质。
背景技术
随着互联网的软硬件呈现爆发性的增长,新的架构层出不穷,运维人员需要做到全天职守来保证系统的可靠性和稳定性。
发明人在实现本发明的过程中,发现现有技术存在如下缺陷:在实际的运维场景中,可以凭借运维人员的经验提炼总结出很多规则,生成人工经验库。这种基于人为规则的运维方式,虽然可以一定程度缓解压力,但是要想真正得心应手的去解决爆炸式增长的运维问题,显得有些力不从心。
另外的,通过智能运维的方式来对运维数据进行处理,智能运维包括统计学算法、深度学习算法以及深度学习算法等等,但是存在普适性相对较差、处理速度太慢、以及人力物力成本较高等缺陷。
发明内容
本发明提供了一种运维数据异常检测方法、装置、电子设备及存储介质,以实现节约时间成本和人工成本,提高了运维数据自动处理的灵活性和准确率。
根据本发明的一方面,提供了一种运维数据异常检测方法,其中,包括:
实时获取待异常检测的运维数据,并对所述运维数据进行数据预处理,得到标准运维数据;
根据所述标准运维数据,执行确定出运维数据分布类型的操作;
如果成功确定出所述标准运维数据的分布类型,则获取与所述分布类型匹配的目标异常检测模型,并将所述标准运维数据输入至所述目标异常检测模型中,得到运维数据异常检测结果;
如果所述运维数据异常检测结果为正常或者设定异常类型,则将所述运维数据异常检测结果进行反馈,以及将所述标准运维数据和所述运维数据异常检测结果联合存储于运维数据存储库中。
根据本发明的另一方面,提供了一种运维数据异常检测装置,其中,包括:
标准运维数据确定模块,用于实时获取待异常检测的运维数据,并对所述运维数据进行数据预处理,得到标准运维数据;
运维数据分布类型确定模块,用于根据所述标准运维数据,执行确定出运维数据分布类型的操作;
运维数据异常检测结果确定模块,用于如果成功确定出所述标准运维数据的分布类型,则获取与所述分布类型匹配的目标异常检测模型,并将所述标准运维数据输入至所述目标异常检测模型中,得到运维数据异常检测结果;
运维数据异常检测结果反馈模块,用于如果所述运维数据异常检测结果为正常或者设定异常类型,则将所述运维数据异常检测结果进行反馈,以及将所述标准运维数据和所述运维数据异常检测结果联合存储于运维数据存储库中。
根据本发明的另一方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现本发明任一实施例所述的运维数据异常检测方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的运维数据异常检测方法。
本发明实施例的技术方案,通过实时获取待异常检测的运维数据,并对运维数据进行数据预处理,得到标准运维数据;根据标准运维数据,执行确定出运维数据分布类型的操作;如果成功确定出标准运维数据的分布类型,则获取与所述分布类型匹配的目标异常检测模型,并将标准运维数据输入至目标异常检测模型中,得到运维数据异常检测结果;如果运维数据异常检测结果为正常或者设定异常类型,则将运维数据异常检测结果进行反馈,以及将标准运维数据和运维数据异常检测结果联合存储于运维数据存储库中。解决了对于运维数据需要人工处理而造成的耗时长、人力成本较高以及准确率低的问题,实现了节约时间成本和人工成本,提高了运维数据自动处理的灵活性和准确率。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种运维数据异常检测方法的流程图;
图2是根据本发明实施例二提供的一种运维数据异常检测装置的结构示意图;
图3是根据本发明实施例三提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“目标”、“当前”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本发明实施例一提供了一种运维数据异常检测方法的流程图,本实施例可适用于对运维数据进行实时自动化检测的情况,该方法可以由运维数据异常检测装置来执行,该运维数据异常检测装置可以采用硬件和/或软件的形式实现。
相应的,如图1所示,该方法包括:
S110、实时获取待异常检测的运维数据,并对所述运维数据进行数据预处理,得到标准运维数据。
其中,待异常检测的运维数据可以是需要进行异常检测的运维数据。标准运维数据可以是对待异常检测的运维数据进行预处理之后得到的数据。
具体的,数据预处理可以包括数据去重、缺失值填充以及特征构造等方法,通过上述数据预处理方法,得到对应的标准运维数据。
在本实施例中,实时进行获取的待异常检测的运维数据包括时间序列指标数据、日志或者调用链数据等等,实现了对运维数据的自动化异常检测处理。
可选的,在实时获取待异常检测的运维数据,并对所述运维数据进行数据预处理,得到标准运维数据之前,还包括:实时获取待异常检测的运维数据流,并通过预先设置的Spark Streaming框架流式计算方法进行数据流的处理,得到各所述待异常检测的运维数据。
其中,Spark Streaming框架流式计算方法可以是对数据流按照一定的时间周期进行数据切分的计算方法。运维数据流可以是实时从日志或者调用链数据等渠道获取到的数据流,数据流可以是一组有序,有起点和终点的字节的数据序列。
在本实施例中,由于实时获取到的是待异常检测的运维数据流,因此需要通过预先设置的Spark Streaming框架流式计算方法进行数据的切分,得到至少一项待异常检测的运维数据。
S120、根据所述标准运维数据,执行确定出运维数据分布类型的操作。
其中,运维数据分布类型可以是标准运维数据满足的分布类型。
具体的,运维数据分布类型包括运维数据离散分布和运维数据正态分布。可以通过对标准运维数据分析来确定匹配的具体分布类型。
另外的,当对标准运维数据进行运维数据分布类型判断的操作时,可以成功确定出标准运维数据的分布类型,也可能存在标准运维数据的分布类型未确定的情况。
S130、如果成功确定出所述标准运维数据的分布类型,则获取与所述分布类型匹配的目标异常检测模型,并将所述标准运维数据输入至所述目标异常检测模型中,得到运维数据异常检测结果。
其中,目标异常检测模型可以是预先训练的能够对标准运维数据进行异常检测的模型。运维数据异常检测结果可以是确定出与标准运维数据对应的异常检测结果。
具体的,与运维数据离散分布对应的是离散分布异常检测模型,与运维数据正态分布对应的正态分布异常检测模型。
示例性的,假设当前标准运维数据确定为标准运维数据A。如果成功确定出标准运维数据A的分布类型为运维数据离散分布,则获取与运维数据离散分布匹配的离散分布异常检测模型,并将标准运维数据A输入至离散分布异常检测模型中,得到运维数据异常检测结果。
另外的,所述离散分布异常检测模型可以基于Isolation Forest算法进行模型训练得到的模型。正态分布异常检测模型可以是基于N-sigma算法进行模型训练得到的模型。这里均不作具体限定。
其中,所述将所述标准运维数据输入至所述目标异常检测模型中,得到运维数据异常检测结果,包括:将所述标准运维数据输入至所述目标异常检测模型中,得到运维数据异常概率值;将所述运维数据异常概率值与预设的目标可调异常概率值阈值范围进行比较,并且如果满足所述目标可调异常概率值阈值范围,则得到所述运维数据异常检测结果。
其中,运维数据异常概率值可以是通过目标异常检测模型来确定当前标准运维数据的异常情况的概率值的大小。目标可调异常概率值阈值范围可以是能够进行调整的异常概率值的阈值范围的大小情况。
续前例的,假设将标准运维数据A输入至离散分布异常检测模型中,得到运维数据异常概率值,假设运维数据异常概率值为88%。假设预先设置的目标可调异常概率值阈值范围为80%~95%,由于运维数据异常概率值位于目标可调异常概率值阈值范围之内,则可以得到运维数据异常检测结果。
其中,在所述根据所述标准运维数据,执行确定出运维数据分布类型的操作之后,还包括:如果未成功确定出所述标准运维数据的分布类型,则将所述标准运维数据确定为分布类型未明确标准运维数据;将所述分布类型未明确标准运维数据进行反馈于用户,以实现对所述分布类型未明确标准运维数据进行标注;获取分布类型未明确标准运维数据标准结果,并根据所述分布类型未明确标准运维数据和分布类型未明确标准运维数据标准结果来进行目标异常检测模型的再训练操作。
其中,分布类型未明确标准运维数据可以是标准运维数据的分布类型未确定的数据。分布类型未明确标准运维数据标准结果可以是通过将分布类型未明确标准运维数据反馈给用户,用户将其进行标注得到的标注结果。
具体的,对于分布类型未明确标准运维数据,由于该运维数据并不满足之前确定的分布类型,因此将分布类型未明确标准运维数据反馈给用户,用户通过对分布类型未明确标准运维数据进行人为标注,得到对应的分布类型未明确标准运维数据标准结果。
进一步的,将分布类型未明确标准运维数据标准结果和分布类型未明确标准运维数据来进行模型的在线训练,因此可以进一步地优化异常检测模型。在训练结束之后,可以将分布类型未明确标准运维数据和分布类型未明确标准运维数据标准结果联合存储于运维数据存储库中。
S140、如果所述运维数据异常检测结果为正常或者设定异常类型,则将所述运维数据异常检测结果进行反馈,以及将所述标准运维数据和所述运维数据异常检测结果联合存储于运维数据存储库中。
其中,运维数据存储库可以是能够进行运维数据存储的数据库。
在本实施例中,如果运维数据异常检测结果为正常,说明当前标准运维数据为正常数据。如果运维数据异常检测结果为设定异常类型,说明当前标准运维数据为异常数据。另外的,运维数据异常检测结果还存在失败检测的情况,也即通过目标异常检测模型进行数据的检测,得到失败检测的状况。
续前例的,假设运维数据异常概率值为88%。假设预先设置的目标可调异常概率值阈值范围为80%~95%,由于运维数据异常概率值位于目标可调异常概率值阈值范围之内,则确定运维数据异常检测结果为设定异常类型,也即标准运维数据A为设定异常类型。
另外的,假设运维数据异常概率值为78%,由于运维数据异常概率值不位于目标可调异常概率值阈值范围之内,则确定运维数据异常检测结果为正常,也即标准运维数据A为正常。
其中,在所述将所述标准运维数据输入至所述目标异常检测模型中,得到运维数据异常检测结果之后,还包括:如果所述运维数据异常检测结果为失败,则得到运维数据识别失败检测结果,并获取所述运维数据识别失败检测结果对应的所述识别失败标准运维数据;将所述识别失败标准运维数据进行反馈,并且当接收到识别失败标注标准运维数据对应的数据标注结果时,将所述识别失败标注标准运维数据和所述数据标注结果联合存储于运维数据存储库中,或者将所述识别失败标注标准运维数据和所述数据标注结果发送于目标异常检测模型中来进行模型的再训练。
其中,运维数据识别失败检测结果可以是对标准运维数据检测失败的结果。识别失败标准运维数据可以是检测失败的标准运维数据。数据标注结果可以是通过用户对识别失败标准运维数据进行标注的结果。
可选的,在所述实时获取待异常检测的运维数据,并对所述运维数据进行数据预处理,得到标准运维数据之前,还包括:在数据存储仓库中,获取各组历史关联运维数据;根据各组历史关联运维数据,分别确定出各运维数据分布类型;依次获取一组目标历史关联运维数据,并对初始异常检测模型进行训练,当异常检测结果准确率满足预设的准确率阈值时,则确定训练得到与目标历史关联运维数据对应的目标异常检测模型,并将目标运维数据分布类型和目标异常检测模型进行关联;返回执行依次获取一组目标历史关联运维数据的操作,直至遍历完成各组历史关联运维数据,确定训练完成异常检测模型。
其中,历史关联运维数据可以是进行关联的历史运维数据,比如说,获取到当前运维数据,需要从数据存储仓库中获取历史一段时间的运维数据,将当前运维数据和历史一段时间的运维数据进行关联得到的数据。
其中,初始异常检测模型可以是预先构建的初始异常训练的模型。不同分布对应不同类型的模型,比如说,初始离散分布异常检测模型可以基于Isolation Forest算法;初始正态分布异常检测模型可以是基于N-sigma算法;这里不做具体限定。
其中,异常检测结果准确率可以是通过异常检测得到的结果的准确率的大小。准确率阈值可以是预先设置的准确率的阈值的大小。
另外的,异常检测模型可以是统计学模型,也可以是机器学习模型。异常检测模型的类型可能是单模型、双模型、以及多模型等。
可选的,在所述在数据存储仓库中,获取各组历史关联运维数据之前,还包括:获取各当前历史初始运维数据,并分别获取与每个所述当前历史初始运维数据对应的预设时间段的前序历史初始运维数据;分别将各所述当前历史初始运维数据和前序历史初始运维数据进行数据预处理,得到各组历史关联运维数据;根据各组历史关联运维数据,构建得到所述数据存储仓库。
其中,当前历史初始运维数据可以是以该历史初始运维数据为起点的运维数据。前序历史初始运维数据可以是以当前历史初始运维数据为起点,向前进行拉取一段时间的运维数据。
在本实施例中,通过分别将各当前历史初始运维数据和前序历史初始运维数据进行数据预处理,得到各组历史关联运维数据。具体的,数据预处理包括但不限于去重、填充缺失值、筛除质量过低的数据等操作。进一步的,将经过数据预处理的历史关联运维数据添加至数据存储仓库中。
相应的,在数据存储仓库中,获取各组历史关联运维数据,可以对各组历史关联运维数据进行评估数据分布、分析数据周期性、季节性、平稳性、以及趋势等特征,以此为依据来进行模型选择。
另外的,在数据预处理部分的特征构造过程,针对不同的模型类型,会构建不同的特征。以离散分布异常检测模型举例,构造的特征包括但不限于固定时间窗口内:所有数据的均值、一阶差分、移除某一值后整个时间窗口内方差的变化值、以及一阶差分值的方差等特征。
进一步的,关键的模型参数放在了前端界面,可供用户配置。以离散分布异常检测模型为例,异常点占比参数可供用户配置。这样如果用户发现误报率有点高,就可以适当降低这个值,然后重启训练任务,就可以达到降低误报率的目的。
本发明实施例的技术方案,通过实时获取待异常检测的运维数据,并对运维数据进行数据预处理,得到标准运维数据;根据标准运维数据,执行确定出运维数据分布类型的操作;如果成功确定出标准运维数据的分布类型,则获取与所述分布类型匹配的目标异常检测模型,并将标准运维数据输入至目标异常检测模型中,得到运维数据异常检测结果;如果运维数据异常检测结果为正常或者设定异常类型,则将运维数据异常检测结果进行反馈,以及将标准运维数据和运维数据异常检测结果联合存储于运维数据存储库中。解决了对于运维数据需要人工处理而造成的耗时长、人力成本较高以及准确率低的问题,实现了节约时间成本和人工成本,提高了运维数据自动处理的灵活性和准确率。
实施例二
图2为本发明实施例二提供的一种运维数据异常检测装置的结构示意图。本实施例所提供的一种运维数据异常检测装置可以通过软件和/或硬件来实现,可配置于终端设备或者服务器中,来实现本发明实施例中的一种运维数据异常检测方法。如图2所示,该装置包括:标准运维数据确定模块210、运维数据分布类型确定模块220、运维数据异常检测结果确定模块230和运维数据异常检测结果反馈模块240。
其中,标准运维数据确定模块210,用于实时获取待异常检测的运维数据,并对所述运维数据进行数据预处理,得到标准运维数据;
运维数据分布类型确定模块220,用于根据所述标准运维数据,执行确定出运维数据分布类型的操作;
运维数据异常检测结果确定模块230,用于如果成功确定出所述标准运维数据的分布类型,则获取与所述分布类型匹配的目标异常检测模型,并将所述标准运维数据输入至所述目标异常检测模型中,得到运维数据异常检测结果;
运维数据异常检测结果反馈模块240,用于如果所述运维数据异常检测结果为正常或者设定异常类型,则将所述运维数据异常检测结果进行反馈,以及将所述标准运维数据和所述运维数据异常检测结果联合存储于运维数据存储库中。
本发明实施例的技术方案,通过实时获取待异常检测的运维数据,并对运维数据进行数据预处理,得到标准运维数据;根据标准运维数据,执行确定出运维数据分布类型的操作;如果成功确定出标准运维数据的分布类型,则获取与所述分布类型匹配的目标异常检测模型,并将标准运维数据输入至目标异常检测模型中,得到运维数据异常检测结果;如果运维数据异常检测结果为正常或者设定异常类型,则将运维数据异常检测结果进行反馈,以及将标准运维数据和运维数据异常检测结果联合存储于运维数据存储库中。解决了对于运维数据需要人工处理而造成的耗时长、人力成本较高以及准确率低的问题,实现了节约时间成本和人工成本,提高了运维数据自动处理的灵活性和准确率。
可选的,还包括,识别失败标准运维数据反馈模块,可以具体用于:在所述将所述标准运维数据输入至所述目标异常检测模型中,得到运维数据异常检测结果之后,如果所述运维数据异常检测结果为失败,则得到运维数据识别失败检测结果,并获取所述运维数据识别失败检测结果对应的所述识别失败标准运维数据;将所述识别失败标准运维数据进行反馈,并且当接收到识别失败标注标准运维数据对应的数据标注结果时,将所述识别失败标注标准运维数据和所述数据标注结果联合存储于运维数据存储库中,或者将所述识别失败标注标准运维数据和所述数据标注结果发送于目标异常检测模型中来进行模型的再训练。
可选的,还包括,运维数据流获取模块,可以具体用于:在实时获取待异常检测的运维数据,并对所述运维数据进行数据预处理,得到标准运维数据之前,实时获取待异常检测的运维数据流,并通过预先设置的Spark Streaming框架流式计算方法进行数据流的处理,得到各所述待异常检测的运维数据。
可选的,所述运维数据异常检测结果确定模块230,可以具体用于:将所述标准运维数据输入至所述目标异常检测模型中,得到运维数据异常概率值;将所述运维数据异常概率值与预设的目标可调异常概率值阈值范围进行比较,并且如果满足所述目标可调异常概率值阈值范围,则得到所述运维数据异常检测结果。
可选的,还包括,分布类型未明确标准运维数据确定模块,可以具体用于:在所述根据所述标准运维数据,执行确定出运维数据分布类型的操作之后,如果未成功确定出所述标准运维数据的分布类型,则将所述标准运维数据确定为分布类型未明确标准运维数据;将所述分布类型未明确标准运维数据进行反馈于用户,以实现对所述分布类型未明确标准运维数据进行标注;获取分布类型未明确标准运维数据标准结果,并根据所述分布类型未明确标准运维数据和分布类型未明确标准运维数据标准结果来进行目标异常检测模型的再训练操作。
可选的,还包括,异常检测模型训练模块,可以具体用于:在所述实时获取待异常检测的运维数据,并对所述运维数据进行数据预处理,得到标准运维数据之前,在数据存储仓库中,获取各组历史关联运维数据;根据各组历史关联运维数据,分别确定出各运维数据分布类型;依次获取一组目标历史关联运维数据,并对初始异常检测模型进行训练,当异常检测结果准确率满足预设的准确率阈值时,则确定训练得到与目标历史关联运维数据对应的目标异常检测模型,并将目标运维数据分布类型和目标异常检测模型进行关联;返回执行依次获取一组目标历史关联运维数据的操作,直至遍历完成各组历史关联运维数据,确定训练完成异常检测模型。
可选的,所述异常检测模型训练模块,还可以具体用于:在所述在数据存储仓库中,获取各组历史关联运维数据之前,获取各当前历史初始运维数据,并分别获取与每个所述当前历史初始运维数据对应的预设时间段的前序历史初始运维数据;分别将各所述当前历史初始运维数据和前序历史初始运维数据进行数据预处理,得到各组历史关联运维数据;根据各组历史关联运维数据,构建得到所述数据存储仓库。
本发明实施例所提供的运维数据异常检测装置可执行本发明任意实施例所提供的运维数据异常检测方法,具备执行方法相应的功能模块和有益效果。
实施例三
图3示出了可以用来实施本发明的实施例三的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图3所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如运维数据异常检测方法。
在一些实施例中,运维数据异常检测方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的运维数据异常检测方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行运维数据异常检测方法。
该方法包括:实时获取待异常检测的运维数据,并对所述运维数据进行数据预处理,得到标准运维数据;根据所述标准运维数据,执行确定出运维数据分布类型的操作;如果成功确定出所述标准运维数据的分布类型,则获取与所述分布类型匹配的目标异常检测模型,并将所述标准运维数据输入至所述目标异常检测模型中,得到运维数据异常检测结果;如果所述运维数据异常检测结果为正常或者设定异常类型,则将所述运维数据异常检测结果进行反馈,以及将所述标准运维数据和所述运维数据异常检测结果联合存储于运维数据存储库中。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
实施例四
本发明实施例四还提供一种包含计算机可读存储介质,所述计算机可读指令在由计算机处理器执行时用于执行一种运维数据异常检测方法,该方法包括:实时获取待异常检测的运维数据,并对所述运维数据进行数据预处理,得到标准运维数据;根据所述标准运维数据,执行确定出运维数据分布类型的操作;如果成功确定出所述标准运维数据的分布类型,则获取与所述分布类型匹配的目标异常检测模型,并将所述标准运维数据输入至所述目标异常检测模型中,得到运维数据异常检测结果;如果所述运维数据异常检测结果为正常或者设定异常类型,则将所述运维数据异常检测结果进行反馈,以及将所述标准运维数据和所述运维数据异常检测结果联合存储于运维数据存储库中。
当然,本发明实施例所提供的一种包含计算机可读存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的运维数据异常检测方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述运维数据异常检测装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种运维数据异常检测方法,其特征在于,包括:
实时获取待异常检测的运维数据,并对所述运维数据进行数据预处理,得到标准运维数据;
根据所述标准运维数据,执行确定出运维数据分布类型的操作;
如果成功确定出所述标准运维数据的分布类型,则获取与所述分布类型匹配的目标异常检测模型,并将所述标准运维数据输入至所述目标异常检测模型中,得到运维数据异常检测结果;
如果所述运维数据异常检测结果为正常或者设定异常类型,则将所述运维数据异常检测结果进行反馈,以及将所述标准运维数据和所述运维数据异常检测结果联合存储于运维数据存储库中。
2.根据权利要求1所述的方法,其特征在于,在所述将所述标准运维数据输入至所述目标异常检测模型中,得到运维数据异常检测结果之后,还包括:
如果所述运维数据异常检测结果为失败,则得到运维数据识别失败检测结果,并获取所述运维数据识别失败检测结果对应的所述识别失败标准运维数据;
将所述识别失败标准运维数据进行反馈,并且当接收到识别失败标注标准运维数据对应的数据标注结果时,将所述识别失败标注标准运维数据和所述数据标注结果联合存储于运维数据存储库中,或者将所述识别失败标注标准运维数据和所述数据标注结果发送于目标异常检测模型中来进行模型的再训练。
3.根据权利要求1所述的方法,其特征在于,在实时获取待异常检测的运维数据,并对所述运维数据进行数据预处理,得到标准运维数据之前,还包括:
实时获取待异常检测的运维数据流,并通过预先设置的Spark Streaming框架流式计算方法进行数据流的处理,得到各所述待异常检测的运维数据。
4.根据权利要求1所述的方法,其特征在于,所述将所述标准运维数据输入至所述目标异常检测模型中,得到运维数据异常检测结果,包括:
将所述标准运维数据输入至所述目标异常检测模型中,得到运维数据异常概率值;
将所述运维数据异常概率值与预设的目标可调异常概率值阈值范围进行比较,并且如果满足所述目标可调异常概率值阈值范围,则得到所述运维数据异常检测结果。
5.根据权利要求1所述的方法,其特征在于,在所述根据所述标准运维数据,执行确定出运维数据分布类型的操作之后,还包括:
如果未成功确定出所述标准运维数据的分布类型,则将所述标准运维数据确定为分布类型未明确标准运维数据;
将所述分布类型未明确标准运维数据进行反馈于用户,以实现对所述分布类型未明确标准运维数据进行标注;
获取分布类型未明确标准运维数据标准结果,并根据所述分布类型未明确标准运维数据和分布类型未明确标准运维数据标准结果来进行目标异常检测模型的再训练操作。
6.根据权利要求1所述的方法,其特征在于,在所述实时获取待异常检测的运维数据,并对所述运维数据进行数据预处理,得到标准运维数据之前,还包括:
在数据存储仓库中,获取各组历史关联运维数据;
根据各组历史关联运维数据,分别确定出各运维数据分布类型;
依次获取一组目标历史关联运维数据,并对初始异常检测模型进行训练,当异常检测结果准确率满足预设的准确率阈值时,则确定训练得到与目标历史关联运维数据对应的目标异常检测模型,并将目标运维数据分布类型和目标异常检测模型进行关联;
返回执行依次获取一组目标历史关联运维数据的操作,直至遍历完成各组历史关联运维数据,确定训练完成异常检测模型。
7.根据权利要求6所述的方法,其特征在于,在所述在数据存储仓库中,获取各组历史关联运维数据之前,还包括:
获取各当前历史初始运维数据,并分别获取与每个所述当前历史初始运维数据对应的预设时间段的前序历史初始运维数据;
分别将各所述当前历史初始运维数据和前序历史初始运维数据进行数据预处理,得到各组历史关联运维数据;
根据各组历史关联运维数据,构建得到所述数据存储仓库。
8.一种运维数据异常检测装置,其特征在于,包括:
标准运维数据确定模块,用于实时获取待异常检测的运维数据,并对所述运维数据进行数据预处理,得到标准运维数据;
运维数据分布类型确定模块,用于根据所述标准运维数据,执行确定出运维数据分布类型的操作;
运维数据异常检测结果确定模块,用于如果成功确定出所述标准运维数据的分布类型,则获取与所述分布类型匹配的目标异常检测模型,并将所述标准运维数据输入至所述目标异常检测模型中,得到运维数据异常检测结果;
运维数据异常检测结果反馈模块,用于如果所述运维数据异常检测结果为正常或者设定异常类型,则将所述运维数据异常检测结果进行反馈,以及将所述标准运维数据和所述运维数据异常检测结果联合存储于运维数据存储库中。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的运维数据异常检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现如权利要求1-7中任一项所述的运维数据异常检测方法。
CN202311035255.7A 2023-08-16 2023-08-16 一种运维数据异常检测方法、装置、电子设备及存储介质 Pending CN117076239A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311035255.7A CN117076239A (zh) 2023-08-16 2023-08-16 一种运维数据异常检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311035255.7A CN117076239A (zh) 2023-08-16 2023-08-16 一种运维数据异常检测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117076239A true CN117076239A (zh) 2023-11-17

Family

ID=88716540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311035255.7A Pending CN117076239A (zh) 2023-08-16 2023-08-16 一种运维数据异常检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117076239A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118331768A (zh) * 2024-02-01 2024-07-12 南方电网数字电网集团信息通信科技有限公司 一种基于AIOps的故障自动化恢复方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118331768A (zh) * 2024-02-01 2024-07-12 南方电网数字电网集团信息通信科技有限公司 一种基于AIOps的故障自动化恢复方法及系统

Similar Documents

Publication Publication Date Title
CN112148772A (zh) 告警根因识别方法、装置、设备和存储介质
CN117076239A (zh) 一种运维数据异常检测方法、装置、电子设备及存储介质
CN116010220A (zh) 一种告警诊断方法、装置、设备及存储介质
CN115033463B (zh) 一种系统异常类型确定方法、装置、设备和存储介质
CN116089231B (zh) 一种故障告警方法、装置、电子设备及存储介质
CN116167352B (zh) 数据处理方法、装置、电子设备及存储介质
CN115686910A (zh) 一种故障分析方法、装置、电子设备及介质
CN115794578A (zh) 一种电力系统的数据管理方法、装置、设备及介质
CN116245865A (zh) 一种图像质量的检测方法、装置、电子设备及存储介质
CN116309963B (zh) 一种图像的批量标注方法、装置、电子设备及存储介质
CN117271467A (zh) 一种日志的查询以及转发方法、装置、设备及存储介质
CN116755974A (zh) 云计算平台运维方法、装置、电子设备及存储介质
CN116668264A (zh) 一种告警聚类的根因分析方法、装置、设备及存储介质
CN115168154B (zh) 一种基于动态基线的异常日志检测方法、装置及设备
CN114973081A (zh) 一种高空抛物检测方法、装置、电子设备及存储介质
CN114881112A (zh) 一种系统异常检测方法、装置、设备及介质
CN113535458A (zh) 异常误报的处理方法及装置、存储介质、终端
CN113420713A (zh) 异常监控方法、装置、电子设备及计算机可读介质
CN116185765B (zh) 一种告警处理方法、装置、电子设备及存储介质
CN118350631A (zh) 一种设备风险识别方法、装置、电子设备及存储介质
CN116127394A (zh) 一种日志异常检测方法、装置、电子设备及存储介质
CN117668294A (zh) 人脸库创建、视频识别方法、装置及电子设备
CN118691896A (zh) 一种设备的状态监测方法、装置、电子设备及存储介质
CN116383498A (zh) 数据匹配方法、装置、电子设备及存储介质
CN116775437A (zh) 一种模型生成、磁盘故障预测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination