CN117478549A

CN117478549A - 面向程序分析云支撑平台的故障感知方法及装置

Info

Publication number: CN117478549A
Application number: CN202210864420.9A
Authority: CN
Inventors: 朴爱花; 郭海涛; 孙丹丹; 刘炳宏; 霍玮; 邹维
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2024-01-30

Abstract

本发明公开了一种面向程序分析云支撑平台的故障感知方法及装置。所述方法包括：收集监控数据；其中，所述监控数据包括：宿主机监控数据、云平台监控数据、虚拟机监控数据和程序分析应用监控数据；对所述监控数据进行特征工程处理；针对特征工程处理后的监控数据，分别抽取数据特征和数据间的时序特征；将所述数据特征和数据间的时序特征输入神经网络，得到故障感知结果。本发明在宿主机、云平台、虚拟机、程序分析应用4个层面定义故障种类与监控指标体系，针对目标程序分析应用模板利用深度学习网络模型构建故障分类感知模型，通过模型实时感知运行于云计算平台之上的软件程序分析实例应用层面的故障。

Description

面向程序分析云支撑平台的故障感知方法及装置

技术领域

本发明涉及云计算领域，尤其涉及一种面向程序分析云支撑平台的故障感知方法及装置。

背景技术

并行化程序分析已成为趋势，如并行模糊测试等，目前大多借助云计算平台实现。程序分析云支撑平台用于支持多样化的程序分析系统共享基础计算资源，进行资源的调度、分配、监控和管理。在计算资源总规模有限的条件下，及时感知程序分析实例的执行异常，发现运行故障，能够第一时间对故障进行响应和解决，从而提升平台的资源利用率与所执行实例的程序分析效率。

目前程序分析实例的运行故障大多通过业务应用层自行监控发现。以模糊测试为例，业务应用层通常包含模糊测试引擎实例与模糊测试执行实例，引擎实例负责构建并行化任务、调度测试资源、监控测试进程等框架管控功能，而模糊测试执行实例则在各个独立的虚拟机节点环境执行具体的模糊测试功能。大规模并行测试时，若模糊测试引擎不监控或不及时处理故障实例，或模糊测试引擎实例自身发生故障，则故障节点将持续占用云平台资源，造成资源浪费。

另一方面，云支撑平台的故障感知大多关注平台自身的异常问题，如IaaS云计算平台主要通过定制监控系统发现宿主机服务器及虚拟机实例在CPU、内存、网络等层面的故障问题，针对程序分析业务应用的故障没有直接的技术解决方案。在利用自建的私有云实现大规模软件程序并行分析场景下，平台难以实时感知和动态干预应用层故障，从而合理调配基础资源。

发明内容

本发明公开了一种面向程序分析云支撑平台的故障感知方法及装置，所述方法面向程序分析云支撑平台，在宿主机、云平台、虚拟机、程序分析应用4个层面定义故障种类与监控指标体系，针对目标程序分析应用模板利用深度学习网络模型构建故障分类感知模型，通过模型实时感知运行于云计算平台之上的软件程序分析实例应用层面的故障。

本发明的技术内容，包括：

一种面向程序分析云支撑平台的故障感知方法，所述方法包括：

收集监控数据；其中，所述监控数据包括：宿主机监控数据、云平台监控数据、虚拟机监控数据和程序分析应用监控数据；

对所述监控数据进行特征工程处理；

针对特征工程处理后的监控数据，分别抽取数据特征和数据间的时序特征；

将所述数据特征和数据间的时序特征输入神经网络，得到故障感知结果。

进一步地，所述宿主机监控数据包括：物理服务器的系统启动状态、CPU占用率、内存占用率、磁盘I/O、网络流量、磁盘可用容量、虚拟机实例数量和进程数量。

进一步地，所述云平台监控数据包括：计算服务组件进程状态、存储服务组件进程状态、网络服务组件进程状态、认证服务组件进程状态、网络连通状态、集群配置信息和主机配置信息。

进一步地，所述虚拟机监控数据包括：虚拟机实例的运行状态、网络连通状态、网络流量、CPU占用率、内存占用率、磁盘I/O、磁盘可用容量、进程数量、虚拟机进程创建频率，虚拟机进程销毁频率和虚拟机配置信息。

进一步地，所述程序分析应用监控数据包括：应用进程启动情况、应用进程执行状态、应用进程CPU占用率、应用进程内存占用率、应用进程磁盘I/O、应用进程网络流量和应用程序占用端口。

进一步地，所述程序分析应用监控数据还包括：模糊测试进程系统调用频率、模糊测试进程打开文件频率和模糊测试进程特定端口网络流量。

进一步地，所述对所述监控数据进行特征工程处理，包括：

对所述监控进行预处理；其中，所述预处理包括：对文字类信息进行数值化、对阈值类信息进行二值化和对连续数值类数据进行归一化；

基于重要性的定义，将预处理数据转换为高维数据；其中，通过以下步骤得到所述重要性的定义：

根据人工经验判断训练数据集中的每维数据与故障类别的相关性对训练数据集进行手动特征选择，并基于随机森林模型计算所有维度特征的重要性；

根据计算结果选择高重要性数据，得到所述重要性的定义。

对所述高维数据进行降维，得到特征工程处理后的监控数据。

进一步地，所述神经网络包括：基于CNN网络、双层LSTM网络与Seq2Seq注意力网络构建的神经网络、基于有监督集成学习算法XGboost网络构建的神经网络或基于包含注意力机制的Bert网络的神经网络。

进一步地，在所述神经网络为基于CNN网络、双层LSTM网络与Seq2Seq注意力网络构建的神经网络的情况下，将所述数据特征和数据间的时序特征输入神经网络，得到故障感知结果，包括：

使用CNN网络和双层LSTM对数据特征和数据间的时序特征进行特征抽取，得到特征表示；

基于注意力网络对不同时间步的特征表示进行不同的权重融合，并对融合结果进行分类，得到故障感知结果。

进一步地，所述方法，还包括：

基于故障感知结果中的故障类型，进行故障告警；其中，

所述故障类型包括：宿主机层面故障、云平台故障、虚拟机故障和程序分析应用故障；

所述宿主机层面故障包括：硬件损坏、系统宕机、网络故障、兼容或配合性故障、负载过高和磁盘空间不足；

所述云平台故障包括：服务组件的故障、系统接口故障和兼容配合性故障；

所述服务组件的故障包括：计算服务组件故障、存储服务组件故障、网络服务组件故障和认证服务组件故障；

所述系统接口故障包括：网口绑定故障，业务管理接口故障，存储接口故障，兼容配合性故障包括集群兼容故障和主机兼容故障；

所述兼容配合性故障包括：集群兼容故障和主机兼容故障；

所述虚拟机故障包括：虚拟机宕机、虚拟机网络故障、虚拟机负载过高、虚拟机磁盘空间不足、虚拟机无法远程连接、虚拟机进程异常、虚拟机配置异常和虚拟机兼容配合性故障；

所述程序分析应用故障包括：应用启动故障、执行异常中断、执行速度过缓、资源竞争、资源耗尽、模糊测试进程异常退出、模糊测试过缓和模糊测试进程阻塞。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一方法。

与现有技术相比，本发明提出的方法具有以下优点及效果：

1)面向程序分析云支撑平台，以特定程序分析应用所部署的虚拟机镜像为单元，在宿主机、云平台、虚拟机、程序分析应用4个层面定义故障种类与监控指标体系。

2)针对目标程序分析应用模板利用深度学习网络模型构建故障分类感知模型。

3)面向程序分析云支撑平台故障感知系统的构建方法和组成。

附图说明

图1为面向程序分析云支撑平台故障感知方法的流程图。

图2为面向程序分析云支撑平台故障感知系统的架构图。

具体实施方式

下面将结合附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明特定实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

本发明提出一种面向程序分析云支撑平台的故障感知方法与系统，通过构建针对特定程序分析应用模板的故障分类感知模型，实现对运行于云计算平台之上程序分析实例在应用层面的故障感知。

步骤1：针对待感知的目标程序分析应用系统，在云计算平台构建典型运行环境的虚拟机镜像，作为该目标系统的模板环境。针对特定模板环境，所执行程序分析应用的资源负载、磁盘I/O、特定端口网络流量等方面在实例运行生命周期内具有一定的执行规律。

步骤2：针对该目标系统明确故障种类，分为宿主机、云平台、虚拟机、程序分析应用4个层面。其中，宿主机层面故障对应物理服务器自身的故障，包括硬件损坏、系统宕机、网络故障、负载过高、磁盘空间不足、兼容或配合性故障等；云平台故障对应云计算平台自身服务组件的故障、系统接口故障和兼容配合性故障，其中服务组件故障包括计算服务组件故障、存储服务组件故障、网络服务组件故障、认证服务组件故障，系统接口故障包括网口绑定故障，业务管理接口故障，存储接口故障，兼容配合性故障包括集群兼容故障和主机兼容故障；虚拟机故障对应云内虚拟机实例的故障，包括虚拟机宕机、虚拟机网络故障、虚拟机负载过高、虚拟机磁盘空间不足、虚拟机无法远程连接、虚拟机进程异常、虚拟机配置异常、虚拟机兼容配合性故障；程序分析应用故障对应程序分析应用系统的故障及异常，包括应用启动故障、执行异常中断、执行速度过缓、资源竞争、资源耗尽等。其中，程序分析应用故障可针对特定模板环境定义具体的程序分析应用层面故障，如针对软件模糊测试模板，程序分析应用层面故障还可包括模糊测试进程异常退出、模糊测试过缓、模糊测试进程阻塞等。

步骤3：围绕已明确的故障种类，定义监控指标体系。与故障种类类似，指标体系也包括宿主机、云平台、虚拟机、程序分析应用4个层面。其中宿主机层面监控指标包含物理服务器的系统启动状态、CPU占用率、内存占用率、磁盘I/O、网络流量、磁盘可用容量、虚拟机实例数量、进程数量；云平台层面监控指标包含计算服务组件进程状态、存储服务组件进程状态、网络服务组件进程状态、认证服务组件进程状态、网络连通状态、集群配置信息、主机配置信息；虚拟机层面监控指标包括虚拟机实例的运行状态、网络连通状态、网络流量、CPU占用率、内存占用率、磁盘I/O、磁盘可用容量、进程数量、虚拟机进程创建频率，虚拟机进程销毁频率、虚拟机配置信息；程序分析应用层面监控指标包括应用进程启动情况、应用进程执行状态、应用进程CPU占用率、应用进程内存占用率、应用进程磁盘I/O、应用进程网络流量、应用程序占用端口等。其中，程序分析应用监控指标可针对特定模板环境定义具体的程序分析应用层面监控指标，如针对软件模糊测试模板，程序分析应用层面监控指标还可包括模糊测试进程系统调用频率、模糊测试进程打开文件频率、模糊测试进程特定端口网络流量等。

步骤4：围绕监控指标体系构建监控模块。根据云平台的开放程度，监控模块的信息采集可来自云计算平台API、第三方监控系统API、Libvirt虚拟化工具API、环境注入的监控脚本采集器等。采集结果写入数据库中。

步骤5：构建针对目标程序分析模板构建故障感知分类深度学习模型。该步骤分为四个部分，分别是监控数据收集，特征工程，故障感知模型搭建，故障感知模型训练、优化与测试。

监控数据收集：根据已定义的故障种类，分别构建故障注入模块，通过监控模块分别收集宿主机、云平台、虚拟机及程序分析应用的监控数据，构建标注测试集。基于监控结果构建时序数据集，运行应用程序后开始收集各监控项数据，频率为每60秒采集一次，每1000条数据存储为一个.csv文件，采集数据的70％用于构建训练数据集，30％用于构建测试数据集。监控数据维度包括步骤3中提及的各监控指标的具体监控项，因部分监控指标涉及监控项多于一项，故最终监控项共有50维数据。

特征工程：为了减少模型复杂性和过拟合，在训练故障感知网络前，首先进行特征工程，主要包括数据预处理、特征选择、和数据降维三个部分。

1.数据预处理：训练数据在进行数据清洗后，将文字类信息，如本地磁盘出现损坏告警，进行数值化；将阈值类信息，如内存使用率超过80％，进行二值化；将连续数值类数据，如网络流量，进行归一化。

2.特征选择：首先根据人工经验判断训练数据集中的每维数据与故障类别的相关性对训练数据集进行手动特征选择，同时基于随机森林模型计算所有维度特征的重要性，根据计算结果进一步选择高重要性数据，共保留30维数据。

3.数据降维：采用PCA算法将30维数据映射到12个维度。

故障感知模型搭建与训练：故障感知模型通过卷积神经网络与循环神经网络进行搭建。数据本身的特征、不同维度数据间的特征和数据在时间上的变化规律特征都可以被用来感知故障分类，所以本模型同时抽取数据特征和数据间的时序特征，使用CNN网络和双层LSTM网络先后进行进一步的特征抽取，得到更好的故障特征表示。随后使用Seq2Seq的注意力网络对不同时间步的故障特征进行不同的权重融合，最后经过全连接层映射到故障类别。另外，本模型也可以使用其他网络模型实现故障感知，比如：有监督集成学习算法XGboost网络与基于注意力机制的Bert网络。

故障感知模型训练、优化与测试：输入已收集的训练数据集对模型进行多轮训练和优化，直至达到所需精度。使用训练好的故障分类感知模型对已收集的测试数据集进行评估测试。测试中需要对测试数据集进行与训练数据集相同的特征工程，之后输入到训练好的模型中，输出故障类型。

步骤6：监控模块实时采集基于目标程序分析模板创建的所有虚拟机实例的动态运行数据，利用训练好的模型感知每个实例可能存在的故障，通过告警模块进行故障告警，告警类别为步骤2中定义的所有故障类型。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种面向程序分析云支撑平台的故障感知方法，所述方法包括：

对所述监控数据进行特征工程处理；

2.如权利要求1所述的方法，其特征在于，所述宿主机监控数据包括：物理服务器的系统启动状态、CPU占用率、内存占用率、磁盘I/O、网络流量、磁盘可用容量、虚拟机实例数量和进程数量。

3.如权利要求1所述的方法，其特征在于，所述云平台监控数据包括：计算服务组件进程状态、存储服务组件进程状态、网络服务组件进程状态、认证服务组件进程状态、网络连通状态、集群配置信息和主机配置信息。

4.如权利要求1所述的方法，其特征在于，所述虚拟机监控数据包括：虚拟机实例的运行状态、网络连通状态、网络流量、CPU占用率、内存占用率、磁盘I/O、磁盘可用容量、进程数量、虚拟机进程创建频率，虚拟机进程销毁频率和虚拟机配置信息。

5.如权利要求1所述的方法，其特征在于，所述程序分析应用监控数据包括：应用进程启动情况、应用进程执行状态、应用进程CPU占用率、应用进程内存占用率、应用进程磁盘I/O、应用进程网络流量和应用程序占用端口；所述程序分析应用监控数据还包括：糊测试进程系统调用频率、模糊测试进程打开文件频率和模糊测试进程特定端口网络流量。

6.如权利要求1所述的方法，其特征在于，所述对所述监控数据进行特征工程处理，包括：

根据计算结果选择高重要性数据，得到所述重要性的定义。

7.如权利要求1所述的方法，其特征在于，所述神经网络包括：基于CNN网络、双层LSTM网络与Seq2Seq注意力网络构建的神经网络、基于有监督集成学习算法XGboost网络构建的神经网络或基于包含注意力机制的Bert网络的神经网络。

8.如权利要求7所述的方法，其特征在于，在所述神经网络为基于CNN网络、双层LSTM网络与Seq2Seq注意力网络构建的神经网络的情况下，将所述数据特征和数据间的时序特征输入神经网络，得到故障感知结果，包括：

9.如权利要求1-8任一项所述的方法，其特征在于，所述方法，还包括：

基于故障感知结果中的故障类型，进行故障告警；其中，

所述兼容配合性故障包括：集群兼容故障和主机兼容故障；

10.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1-9中的任一方法。