CN116069540A - 一种系统软硬件部位运行状态的采集分析处理方法及装置 - Google Patents

一种系统软硬件部位运行状态的采集分析处理方法及装置 Download PDF

Info

Publication number
CN116069540A
CN116069540A CN202310163504.4A CN202310163504A CN116069540A CN 116069540 A CN116069540 A CN 116069540A CN 202310163504 A CN202310163504 A CN 202310163504A CN 116069540 A CN116069540 A CN 116069540A
Authority
CN
China
Prior art keywords
fault
processing
information
alarm
network device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310163504.4A
Other languages
English (en)
Inventor
张世通
赵亚舟
陈梦晖
闫卫杰
张西岭
冯智
郭鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Keyware Co ltd
Original Assignee
Beijing Keyware Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Keyware Co ltd filed Critical Beijing Keyware Co ltd
Priority to CN202310163504.4A priority Critical patent/CN116069540A/zh
Publication of CN116069540A publication Critical patent/CN116069540A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供了一种系统软硬件部位运行状态的采集分析处理方法及装置,该方法包括以下步骤:通过SNMP轮训方式对各网络设备的日志进行信息采集;对采集的各网络设备的日志进行数据规范化,得到计算机可识别的句向量;基于规范化日志的句向量所对应的告警信息和故障信息进行统计,得到告警量和故障量;根据告警量和故障量计算系统整体态势;统计故障的平均响应时长和平均恢复时长。从而基于超融合数据采集技术,将不同形式的日志信息进行统一采集处理,实现各类情况的整体受控掌握。同时能够分析系统运行状态趋势,给出故障和告警提示,辅助运维人员快速进行故障定位、故障恢复工作,从而实现信息化系统的智能化运维与管理。

Description

一种系统软硬件部位运行状态的采集分析处理方法及装置
技术领域
本申请涉及到信息处理的技术领域,尤其涉及到一种系统软硬件部位运行状态的采集分析处理方法及装置。
背景技术
信息系统主要由服务器、网络设备、数据库、系统应用组成,任何一个部分出现问题都会导致信息系统出现异常,如果是信息系统自身问题,我们可以通过系统日志进行修复,如果是服务器、网络设备、数据库、系统应用发生问题,导致信息系统不可用的话,我们则需要及时的了解到故障点位和故障原因以及修改方式,如何保障系统的正常运行、实现:预知故障,即在故障发生之前发现故障;实时告知,即在第一时间将故障情况通知相关的管理人员;进行有效处理,即在预定的时间内进行故障处理;以上问题简单来说,如何实现“第一时间发现问题”、“第一时间通知相关人员”,“第一时间处理问题”,成为智能运维管理系统主要关注的重点问题。
发明内容
本申请提供了一种系统软硬件部位运行状态的采集分析处理方法及装置,用以提高转子位置辨识精度。
第一方面,提供了一种系统软硬件部位运行状态的采集分析处理方法,该系统软硬件部位运行状态的采集分析处理方法包括以下步骤:
通过SNMP轮训方式对各网络设备的日志进行信息采集;
对采集的各网络设备的日志进行数据规范化,得到计算机可识别的句向量;
基于规范化日志的句向量所对应的告警信息和故障信息进行统计,得到告警量和故障量;
根据告警量和故障量计算系统整体态势;
遍历故障数据,统计故障的平均响应时长和平均恢复时长。
在上述技术方案中,基于超融合数据采集技术,将服务器、网络设备、数据库、系统应用等不同维度、不同属性、不同格式的日志信息进行统一采集处理,依靠对软硬件各部位运行状态的日志数据采集分析,实现资源运行态势、系统运行态势、物理环境状态等各类情况的整体受控掌握。同时本发明能够分析系统运行状态趋势,依托知识库,给出故障和告警提示,辅助运维人员快速进行故障定位、故障恢复工作,从而实现信息化系统的智能化运维与管理。
在一个具体的可实施方案中,所述通过SNMP轮训方式对各网络设备的日志进行信息采集,具体包括:
初始化SNMP,并开启监听;
根据SNMP版本创建目标对象;
创建报文并向各网络设备发送报文;
获取各网络设备的日志。
在一个具体的可实施方案中,所述对采集的各网络设备的日志进行数据规范化,具体包括:
采用文本向量化技术将各网络设备的日志转化为句向量;
经过分词,获得处理自然语言的最小单元。
在一个具体的可实施方案中,所述采用文本向量化技术将各网络设备的日志转化为句向量;具体为:
通过sentence2vec模型将各网络设备的日志转化为句向量;其中,
所述sentence2vec模型是将包含word2vec项的句子列表转换成一组句子向量的模型。
在一个具体的可实施方案中,所述通过sentence2vec模型将各网络设备的日志转化为数值向量,具体包括:
利用公式
Figure BDA0004095036450000021
对一个句子中出现的所有词的词向量进行加权平均;其中每个词向量的权重为
Figure BDA0004095036450000022
其中a为参数,p(ω)为词ω的频率,|s|为句长,vω为word2vec生成的词向量;
得到句子的初始向量后,再使用PCA对向量值进行修改,去除公共部分,具体为:每个成分在主成分上的投影uTVs乘上主成分u,得到的uuTVs为公共部分;
最终的句向量Vs=Vs-uuTVs,句向量作为异常日志的特征,实现不同维度、不同属性、不同格式的日志信息规范化处理。
在一个具体的可实施方案中,所述根据告警量和故障量计算系统整体态势采用的公式为:
Figure BDA0004095036450000031
其中na和ni分别表示告警量和故障量。
在一个具体的可实施方案中,所述统计故障的平均响应时长和平均恢复时长采用的公式为:
根据公式:
Figure BDA0004095036450000032
Figure BDA0004095036450000033
其中t0,t1,t2分别表示故障的发生时间、开始处理时间、结束时间。
第二方面,提供了一种系统软硬件部位运行状态的采集分析处理装置,该装置包括:
信息采集模块,通过SNMP轮训方式对各网络设备的日志进行信息采集;
数据处理模块,用于对采集的各网络设备的日志进行数据规范化,得到计算机可识别的句向量;
统计模块,用于基于规范化日志的句向量所对应的告警信息和故障信息进行统计,得到告警量和故障量;根据告警量和故障量计算系统整体态势;遍历故障数据,统计故障的平均响应时长和平均恢复时长。
第三方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现执行第一方面以及第一方面中任意一种可能的设计的方法。
第四方面,提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面以及第一方面中任意一种可能的设计的方法。
第五方面,还提供一种计算机程序产品,包括指令,当其在计算机上运行时,使得计算机执行本申请第一方面以及第一方面中任意一种可能的设计的方法。
另外,第三方面至第五方面中任一种可能设计方式所带来的技术效果可参见方法部分中不同设计方式带来的效果,在此不再赘述。
附图说明
图1为现有技术中的运维数据采集SDK技术路线图;
图2为传统运维系统技术路线图;
图3a和图3b为CBOW与Skip-gram的模型示意图;
图4为本发明系统软硬件部位运行状态的采集分析处理方法的流程图;
图5为数据库采集方式示意图。
图6为本发明实施例提供的电子设备的结构框图。
具体实施方式
下面通过附图和实施例对本申请进一步详细说明。通过这些说明,本申请的特点和优点将变得更为清楚明确。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
此外,下面所描述的本申请不同实施方式中涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
在信息系统运维中大多数只关注服务器和应用的在线状态、服务状态、内存使用情况、CPU利用情况、网络发送流程、网络接收流量等。其中“应用”是指信息系统在运行过程中所需占用的Web容器、数据库等服务器资源及其他所需要占用的应用服务资源。
通过设计对应的数据采集SDK,实现对上述运维数据的采集,在系统监控和流量等运维资源的监控方面得到了很好的应用。
如图1所示,xml资源配置文件包含了所需要采集的应用名称和采集周期。在该运维数据采集过程中,需要首先读取并解析该xml资源配置文件,然后根据pid实现对该应用(或服务器)运维数据的采集。之后将采集到的运维数据以及采集时间、应用id等信息封装成Json格式,通过Http实现对该数据的上报。完成每次数据的上报后根据xml资源配置文件中的数据采集周期进行下一周期数据的采集与上报。在数据的采集和上报过程中常用的通信方式有Http、TCP、UDP等,在不同类型的数据通信中都表现出了各自的优点,然后将采集到的运维数据封装成Json的形式,采用Http、TCP或UDP通信方式实现对运维数据的上报,然后运维系统在读取、解析xml文件,从展示服务器和应用的在线状态、服务状态、内存使用情况、CPU利用情况、网络发送流程、网络接收流量等,技术路线如图2所示。
图2所示的这种技术方式在传统信息系统运维中运用普遍,且效果很好。但是在大型信息系统中,运维不单单是监控,更不仅仅是对应用和服务器的监控。本方明一种基于超融合数据智能分析的信息系统运维与管理中增加了对网络设备、数据库,并支持异常的分析与处理,如故障信息分析、故障点位描述以及异常维修方式等,全方位保证系统运维人员能够在第一时间发现问题并解决问题,对于经验不足的运维人员,还可以根据知识库分析异常信息并给出的同类问题维修方式。
本方明的技术特点总体分为2个,一是针对于超融合数据的统一规范,把不同维度、不同属性、不同格式的数据进行规范化处理。二是基于规范化数据通过统计分析进行系统整体态势的展示并建立知识库用于异常处理的辅助决策。
1)数据规范化
为实现不同维度、不同属性、不同格式的日志信息规范化处理,采用文本向量化技术,文本向量化技术就是将计算机不能直接识别的非结构化文本转换为计算机可以识别的数值向量,借由数值向量表达语义。经过分词之后,计算机获得了处理自然语言的最小单元,但是还需经过一次转变才能将本文转换成机器能够理解的东西,由于计算机只能理解数值型数据,所以我们要将字符类型的文本转换成能表示语义的数值向量。本发明使用sentence2vec模型对告警文本进行向量化处理。
sentence2vec模型是将包含word2vec项的句子列表转换成一组句子向量的模型,即复用了word2vec的结果。word2vec模型是Mikolov等人在2013年提出的词向量映射模型,通过对One-Hot编码进行词嵌入操作,将高维词向量单射成低维向量,word2vec共有两种模型结构,分别是CBOW模型和Skip-gram模型,CBOW模型利用目标字词周围的单词推测目标字词,而Skip-gram模型与之相反,是由目标字词推测出目标字词的上下文单词,两个模型的模型示意图如图3a合图3b所示。
CBOW模型的输入为上下文单词向量,与输入权重矩阵相乘后累加求平均作为平均向量,接着用此平均向量与输出权重矩阵相乘,得到的向量经过激活函数后可表示每个单词的概率分布。而Skip-gram模型正好相反,输入为目标词向量,输出为上下文单词向量。
sentence2vec模型复用了word2vec模型生成的词向量,对一个句子中出现的所有词的词向量进行加权平均,计算公式如公式如下图所示,其中每个词向量的权重为
Figure BDA0004095036450000061
其中a为参数,p(ω)为词ω的频率,|s|为句长,vω为word2vec生成的词向量。
Figure BDA0004095036450000062
得到句子的初始向量后,再使用PCA对向量值进行修改,去除公共部分,即每个成分在主成分上的投影uTVs乘上主成分u,得到的uuTVs为公共部分。最终的句向量Vs=Vs-uuTVs,句向量作为异常日志的特征,以此实现不同维度、不同属性、不同格式的日志信息规范化处理。
2)系统态势展示
系统态势展示基于规划化的日志数据统计分析实现,统计分析模块作为本方明最下游模块,依赖告警信息采集到的告警事件信息和知识库的故障对象信息。该功能主要面向运维人员,围绕着告警数据和故障数据展开,运维人员在浏览告警和故障信息的同时,还期望浏览相关信息的统计分析结果,以便进一步洞察系统整体态势概况。本发明除了提供基本的告警事件的统计分析外,还系统性地根据当前实时的告警与故障发生情况提供了系统整体态势展示,丰富了本方明的实用性。
a)知识库
知识库是对系统内生成的故障进行维护的模块,负责对告警信息和故障解决方式进行管理。主要包含了对故障的持久化、查询与更新,还包含了与故障相关信息的查询,如故障解决流程、故障日志等。
b)统计分析
统计分析基于规范化日志的句向量所对应的告警信息和故障信息进行统计(当规范化日志的句向量所对应的告警信息和故障信息已存在于知识库中时,则不统计其数量),得到告警量和故障量两个指标,然后根据告警量和故障量计算系统整体态势,计算公式为
Figure BDA0004095036450000063
其中na和ni分别表示告警量和故障量。然后再遍历故障数据,统计故障的平均响应时长和平均恢复时长,计算公式分别为
Figure BDA0004095036450000064
Figure BDA0004095036450000065
其中t0,t1,t2分别表示故障的发生时间、开始处理时间、结束时间。最后模块根据上述计算得到的各项指标生成告警关键指标对象KPIResult,具体包括告警量、生成故障量、告警压缩率、故障平均响应时间和故障平均处理时间,用于前端展示。
参考图4,图4示例出了本申请提供的系统软硬件部位运行状态的采集分析处理方法的流程图。
1)数据采集
具体的,通过SNMP轮训方式对各网络设备的日志进行信息采集。其涉及的方面包括以下方面。
a)网络设备
本发明对网络设备的日志采集通过SNMP轮训方式实现,该监视需要被监测的网络设备开启SNMP服务,服务器通过发送Get请求并接受来自被监控的网络设备的响应,其主要步骤如下:
第一步:要初始snmp并开启监听。其中有点不同的是,为了支持snmpv3版本的处理需要增加用户并设置安全名称和加密算法。(关于那些静态变量的值,最好放到配置文件中显得灵活点)。
另外再说明下:snmp是基于udp协议发送报文的,且snmp端口默认为161。
第二步:根据snmp版本创建目标对象,其中针对snmpV3版本需要设置安全级别和安全名称,其中安全名称是创建snmp指定user设置的new OctetString("SNMPV3"),针对snmpv1和snmpv2c需要设置团体名。另外必须设置ipAddress,且对应的主机要配置snmp,否则获取不到值。
第三步:创建报文。其中要注意的是pdu可以设置类型,如果想要用snmpget方法,就设置PDU.GET。
最后一步发送报文也是最重要的一步,需要前面三步的支撑才能进行。首先初始化snmp,并开启监听,将创建目标对象和PDU报文,发送报文并获取返回结果,网络设备的数据采集完成,从而获取各网络设备的日志,并进入数据规范化阶段。
b)主机设备
本发明通过java代码获取服务器的CPU、内存、硬盘等使用情况,通过统计分析后,用于系统态势展示。
主机设备的CPU、内存、硬盘等使用情况通过java代码执行主机设备对应操作系统的资源使用情况查询命令行实现,首先通过配置主机设备的IP、用户名、密码使用SSH协议连接主机,然后通过java调用主机命令行执行类似free这种资源查看命令获取系统资源使用情况,获取到资源使用情况后,主机设备的数据采集完成,进入数据规范化阶段。
c)数据库
本发明通过JDBC数据库接口能够获取各种数据库的运行状态和性能数据,支持SQL Server、Oracle、Sybase、DB2、Mysql、MongoDB等主流数据库,数据采集方式如图5所示。
首先通过java代码使用JDBC连接方式与目标库建立连接,验证IP、数据库名、用户名、密码等信息后,通过JDBC发送采集情况,可获取数据库当前的库表数据、会话数量等信息,完成数据库的数据采集后,进入数据规范化阶段。
d)系统应用
系统应用日志通过HTTP应用监控、SMTP服务监测、POP3服务监测、FTP服务监测、DNS服务监测和TCP监测来获取。
HTTP应用监控:对HTTP的服务存活状况进行监控,对URL的返回值与错误码等进行实时监控,核心代码如下:
//创建连接
URLurl=new URL(httpUrl);
connection=(HttpURLConnection)url.openConnection();
//设置请求方式
connection.setRequestMethod("GET");
SMTP服务监测:监控邮件发送的状态码等指标,实现方式:
打开一个TCP套接字到邮件服务器的端口号25。
只要messageID不为空,则证明POP3服务正常,并记录日志。
FTP服务监测:监测FTP服务器的工作状态,首先通过Java代码创建FTPC客户端对象,配置连接的超时时间和默认超时时间以及数据超时时间,输入ftp所要连接的url建立实体连接,建立连接后无异常,证明FTP服务正常并记录日志,FTP状态数据进去数据规范阶段。
DNS服务监测:监测DNS服务的运行、DNS服务的延时及DNS服务的正确性,首先通过Java代码初始化InetAddress对象,InetAddress则为DNS服务,如果通过给InetAddress对象传输域名,可以解析到正常IP则证明DNS服务运行正常,获取IP的时间则为时延,或者IP和域名访问的网站一致,则证明DNS服务是正确的,核心代码如下:
String dottedQuadIpAddress=InetAddress.getByName("blog.arganzheng.me").getHostAddress();
dottedQuadIpAddress不为空则证明DNS服务正常运行,并记录日志,而后进入数据规范阶段。
TCP监测:能够通过以连接指定TCP端口的方式实现对某监听服务是否正常运行的监测。首先通过Java代码建立socket,绑定一个监听的端口号,并阻塞的等待客户端的连接请求,当连接请求到来时创建一个新的socket,与客户端绑定,从该socket接收数据,只要接收到的数据不为空则证明该TCP正常,记录日志并进入数据规范化阶段。
2)数据规范化
具体的,对采集的各网络设备的日志进行数据规范化,得到计算机可识别的句向量。
为实现不同维度、不同属性、不同格式的日志信息规范化处理,采用文本向量化技术,文本向量化技术就是将计算机不能直接识别的非结构化文本转换为计算机可以识别的数值向量,借由数值向量表达语义。在本申请中,采用文本向量化技术将各网络设备的日志转化为句向量;经过分词之后,计算机获得了处理自然语言的最小单元,但是还需经过一次转变才能将本文转换成机器能够理解的东西,由于计算机只能理解数值型数据,所以我们要将字符类型的文本转换成能表示语义的数值向量。本发明使用sentence2vec模型将各网络设备的日志转化为句向量。
sentence2vec模型是将包含word2vec项的句子列表转换成一组句子向量的模型,即复用了word2vec的结果。word2vec模型是Mikolov等人在2013年提出的词向量映射模型,通过对One-Hot编码进行词嵌入操作,将高维词向量单射成低维向量,word2vec共有两种模型结构,分别是CBOW模型和Skip-gram模型,CBOW模型利用目标字词周围的单词推测目标字词,而Skip-gram模型与之相反,是由目标字词推测出目标字词的上下文单词,两个模型的模型示意图如图3a和图3b所示。
CBOW模型的输入为上下文单词向量,与输入权重矩阵相乘后累加求平均作为平均向量,接着用此平均向量与输出权重矩阵相乘,得到的向量经过激活函数后可表示每个单词的概率分布。而Skip-gram模型正好相反,输入为目标词向量,输出为上下文单词向量。
sentence2vec模型复用了word2vec模型生成的词向量,对一个句子中出现的所有词的词向量进行加权平均,计算公式如公式如下图所示,其中每个词向量的权重为
Figure BDA0004095036450000091
其中a为参数,p(ω)为词ω的频率,|s|为句长,vω为word2vec生成的词向量。
Figure BDA0004095036450000101
得到句子的初始向量后,再使用PCA对向量值进行修改,去除公共部分,即每个成分在主成分上的投影uTVs乘上主成分u,得到的uuTVs为公共部分。最终的句向量Vs=Vs-uuTVs,句向量作为异常日志的特征,以此实现不同维度、不同属性、不同格式的日志信息规范化处理。
3)统计分析
统计分析基于规范化日志的句向量所对应的告警信息和故障信息进行统计(当规范化日志的句向量所对应的告警信息和故障信息已存在于知识库中时,则不统计其数量),得到告警量和故障量两个指标,然后根据告警量和故障量计算系统整体态势,计算公式为
Figure BDA0004095036450000102
其中na和ni分别表示告警量和故障量。然后再遍历故障数据,统计故障的平均响应时长和平均恢复时长,计算公式分别为
Figure BDA0004095036450000103
Figure BDA0004095036450000104
其中t0,t1,t2分别表示故障的发生时间、开始处理时间、结束时间。最后模块根据上述计算得到的各项指标生成告警关键指标对象KPIResult,具体包括告警量、生成故障量、告警压缩率、故障平均响应时间和故障平均处理时间,用于前端展示。
4)知识库
知识库是对系统内生成的故障进行维护的模块,负责对告警信息和故障解决方式进行管理。主要包含了对故障的持久化、查询与更新,还包含了与故障相关信息的查询,如故障解决流程、故障日志等。
通过上述描述可看出,本申请提供的方法基于超融合数据采集技术,将服务器、网络设备、数据库、系统应用等不同维度、不同属性、不同格式的日志信息进行统一采集处理,依靠对软硬件各部位运行状态的日志数据采集分析,实现资源运行态势、系统运行态势、物理环境状态等各类情况的整体受控掌握。同时本发明能够分析系统运行状态趋势,依托知识库,给出故障和告警提示,辅助运维人员快速进行故障定位、故障恢复工作,从而实现信息化系统的智能化运维与管理。
本方明设计了一种基于智能运维对系统各软硬件部位运行状态的采集分析处理方法,属于智能运维技术领域,该方法技术通过对软硬件一体化数据采集、数据规范化处理、统计分析和系统态势展示组成,避免传统运维管理的故障信息单一、故障判断时延、故障点位模糊、维修方式不明等问题。
本发明设计和实现的智能运维针对现有告警管理过程中存在的问题和难点,使用一种新的告警采集方式,有效缓解了海量告警下的告警采集压力,并利用基于知识库的故障定位方法降低运维人员根据告警定位故障的难度,最后通过系统态势展示系统整体状况,帮助运维人员更高效地进行大型软硬一体信息系统的维护。
本申请实施例还提供了一种系统软硬件部位运行状态的采集分析处理装置,该装置包括:信息采集模块、数据处理模块以及统计模块。其中,信息采集模块通过SNMP轮训方式对各网络设备的日志进行信息采集;数据处理模块用于对采集的各网络设备的日志进行数据规范化,得到计算机可识别的句向量;统计模块用于基于规范化日志的句向量所对应的告警信息和故障信息进行统计,得到告警量和故障量;根据告警量和故障量计算系统整体态势;遍历故障数据,统计故障的平均响应时长和平均恢复时长。具体的可参考上述方法中的相关描述,在此不再赘述。
本申请实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现执行第一方面以及第一方面中任意一种可能的设计的方法。
本申请实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面以及第一方面中任意一种可能的设计的方法。
本申请实施例还提供一种计算机程序产品,包括指令,当其在计算机上运行时,使得计算机执行本申请第一方面以及第一方面中任意一种可能的设计的方法。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(RandomAccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
在本申请的描述中,需要说明的是,术语“上”、“下”、“内”、“外”、“前”、“后”、“左”、“右”等指示的方位或位置关系为基于本申请工作状态下的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”“相连”“连接”应作广义理解。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
以上结合了优选的实施方式对本申请进行了说明,不过这些实施方式仅是范例性的,仅起到说明性的作用。在此基础上,可以对本申请进行多种替换和改进,这些均落入本申请的保护范围内。

Claims (10)

1.一种系统软硬件部位运行状态的采集分析处理方法,其特征在于,包括以下步骤:
通过SNMP轮训方式对各网络设备的日志进行信息采集;
对采集的各网络设备的日志进行数据规范化,得到计算机可识别的句向量;
基于规范化日志的句向量所对应的告警信息和故障信息进行统计,得到告警量和故障量;
根据告警量和故障量计算系统整体态势;
遍历故障数据,统计故障的平均响应时长和平均恢复时长。
2.根据权利要求1所述的系统软硬件部位运行状态的采集分析处理方法,其特征在于,所述通过SNMP轮训方式对各网络设备的日志进行信息采集,具体包括:
初始化SNMP,并开启监听;
根据SNMP版本创建目标对象;
创建报文并向各网络设备发送报文;
获取各网络设备的日志。
3.根据权利要求2所述的系统软硬件部位运行状态的采集分析处理方法,其特征在于,所述对采集的各网络设备的日志进行数据规范化,具体包括:
采用文本向量化技术将各网络设备的日志转化为句向量;
经过分词,获得处理自然语言的最小单元。
4.根据权利要求3所述的系统软硬件部位运行状态的采集分析处理方法,其特征在于,所述采用文本向量化技术将各网络设备的日志转化为句向量;具体为:
通过sentence2vec模型将各网络设备的日志转化为句向量;其中,
所述sentence2vec模型是将包含word2vec项的句子列表转换成一组句子向量的模型。
5.根据权利要求4所述的系统软硬件部位运行状态的采集分析处理方法,其特征在于,所述通过sentence2vec模型将各网络设备的日志转化为数值向量,具体包括:
利用公式
Figure FDA0004095036440000021
对一个句子中出现的所有词的词向量进行加权平均;其中每个词向量的权重为
Figure FDA0004095036440000022
其中a为参数,p(ω)为词ω的频率,|s|为句长,vω为word2vec生成的词向量;得到句子的初始向量后,再使用PCA对向量值进行修改,去除公共部分,具体为:每个成分在主成分上的投影uTVs乘上主成分u,得到的uuTVs为公共部分;
最终的句向量Vs=Vs-uuTVs,句向量作为异常日志的特征,实现不同维度、不同属性、不同格式的日志信息规范化处理。
6.根据权利要求1~5任一项所述的系统软硬件部位运行状态的采集分析处理方法,其特征在于,所述根据告警量和故障量计算系统整体态势采用的公式为:
Figure FDA0004095036440000023
其中na和ni分别表示告警量和故障量。
7.根据权利要求6所述的系统软硬件部位运行状态的采集分析处理方法,其特征在于,所述统计故障的平均响应时长和平均恢复时长采用的公式为:
根据公式:
Figure FDA0004095036440000024
Figure FDA0004095036440000025
其中t0,t1,t2分别表示故障的发生时间、开始处理时间、结束时间。
Figure FDA0004095036440000026
8.一种系统软硬件部位运行状态的采集分析处理装置,其特征在于,包括:
信息采集模块,通过SNMP轮训方式对各网络设备的日志进行信息采集;
数据处理模块,用于对采集的各网络设备的日志进行数据规范化,得到计算机可识别的句向量;
统计模块,用于基于规范化日志的句向量所对应的告警信息和故障信息进行统计,得到告警量和故障量;根据告警量和故障量计算系统整体态势;遍历故障数据,统计故障的平均响应时长和平均恢复时长。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7任意一项所述的系统软硬件部位运行状态的采集分析处理方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1~7任一所述的系统软硬件部位运行状态的采集分析处理方法。
CN202310163504.4A 2023-02-24 2023-02-24 一种系统软硬件部位运行状态的采集分析处理方法及装置 Pending CN116069540A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310163504.4A CN116069540A (zh) 2023-02-24 2023-02-24 一种系统软硬件部位运行状态的采集分析处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310163504.4A CN116069540A (zh) 2023-02-24 2023-02-24 一种系统软硬件部位运行状态的采集分析处理方法及装置

Publications (1)

Publication Number Publication Date
CN116069540A true CN116069540A (zh) 2023-05-05

Family

ID=86180127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310163504.4A Pending CN116069540A (zh) 2023-02-24 2023-02-24 一种系统软硬件部位运行状态的采集分析处理方法及装置

Country Status (1)

Country Link
CN (1) CN116069540A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117692937A (zh) * 2024-02-04 2024-03-12 江苏未来网络集团有限公司 一种5g全连接工厂设备网络拓扑结构及其构建、使用方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664374A (zh) * 2018-05-17 2018-10-16 腾讯科技(深圳)有限公司 故障告警模型创建方法、装置、故障告警方法及装置
CN111459964A (zh) * 2020-03-24 2020-07-28 长沙理工大学 一种面向模板基于Word2vec的日志异常检测方法及装置
CN111611218A (zh) * 2020-04-24 2020-09-01 武汉大学 一种基于深度学习的分布式异常日志自动识别方法
CN112468347A (zh) * 2020-12-14 2021-03-09 中国科学院信息工程研究所 一种云平台的安全管理方法、装置、电子设备及存储介质
US20210200955A1 (en) * 2019-12-31 2021-07-01 Paypal, Inc. Sentiment analysis for fraud detection
CN113553242A (zh) * 2021-08-16 2021-10-26 中煤科工集团重庆研究院有限公司 基于Zabbix的煤矿联网系统故障处置方法及系统
CN113961424A (zh) * 2021-10-28 2022-01-21 建信金融科技有限责任公司 分布式系统的故障预测方法以及故障预测装置
WO2022246793A1 (en) * 2021-05-28 2022-12-01 Telefonaktiebolaget Lm Ericsson (Publ) A classifier model for determining a network status of a communication network from log data

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664374A (zh) * 2018-05-17 2018-10-16 腾讯科技(深圳)有限公司 故障告警模型创建方法、装置、故障告警方法及装置
US20210200955A1 (en) * 2019-12-31 2021-07-01 Paypal, Inc. Sentiment analysis for fraud detection
CN111459964A (zh) * 2020-03-24 2020-07-28 长沙理工大学 一种面向模板基于Word2vec的日志异常检测方法及装置
CN111611218A (zh) * 2020-04-24 2020-09-01 武汉大学 一种基于深度学习的分布式异常日志自动识别方法
CN112468347A (zh) * 2020-12-14 2021-03-09 中国科学院信息工程研究所 一种云平台的安全管理方法、装置、电子设备及存储介质
WO2022246793A1 (en) * 2021-05-28 2022-12-01 Telefonaktiebolaget Lm Ericsson (Publ) A classifier model for determining a network status of a communication network from log data
CN113553242A (zh) * 2021-08-16 2021-10-26 中煤科工集团重庆研究院有限公司 基于Zabbix的煤矿联网系统故障处置方法及系统
CN113961424A (zh) * 2021-10-28 2022-01-21 建信金融科技有限责任公司 分布式系统的故障预测方法以及故障预测装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
刘继明;于敏敏;袁野;: "基于句向量的文本相似度计算方法", 科学技术与工程, no. 17, pages 6950 - 6955 *
张冬雯;杨鹏飞;许云峰;: "基于word2vec和SVMperf的中文评论情感分类研究", 计算机科学, no. 1, pages 429 - 432 *
张凯;王东;程轶红;程亚萍;: "信通机房设备的监控及日志分析系统的开发与应用", 电子世界, no. 01, pages 207 - 208 *
张春生;郭长杰;尹兆涛;: "基于大数据技术的IT基础设施日志分析系统设计与实现", 微型电脑应用, no. 06, pages 49 - 52 *
林建基;石玉坤;单菊梅;: "人工智能技术在114查号中的应用", 电信科学, no. 1, pages 249 - 256 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117692937A (zh) * 2024-02-04 2024-03-12 江苏未来网络集团有限公司 一种5g全连接工厂设备网络拓扑结构及其构建、使用方法
CN117692937B (zh) * 2024-02-04 2024-05-14 江苏未来网络集团有限公司 一种5g全连接工厂设备网络拓扑结构及其构建、使用方法

Similar Documents

Publication Publication Date Title
CN102395950B (zh) 与数据存储系统的通信
CN111290763B (zh) 事件流处理集群管理器
CN111447109A (zh) 监控管理设备及方法、计算机可读存储介质
US20040205689A1 (en) System and method for managing a component-based system
WO2023246347A1 (zh) 数字孪生处理方法及数字孪生系统
CN107704387B (zh) 用于系统预警的方法、装置、电子设备及计算机可读介质
CN112055062B (zh) 数据通信方法、装置、设备及可读存储介质
CN114244676A (zh) 一种智能it综合网关系统
US20190349267A1 (en) Intelligent information adapter generation for service management
US20130159504A1 (en) Systems and Methods of Automated Event Processing
CN116069540A (zh) 一种系统软硬件部位运行状态的采集分析处理方法及装置
CN114422555B (zh) 一种基于CIM平台可自定义配置IoT数据解析的方法
CN114553672B (zh) 一种应用系统性能瓶颈确定方法、装置、设备、介质
CN111064656A (zh) 数据管理方法、装置、系统、存储介质及电子设备
CN111817865A (zh) 一种监控网管设备的方法及监控系统
US20140222523A1 (en) Techniques for business process driven service oriented architecture (soa) governance
CN113656252A (zh) 故障定位方法、装置、电子设备以及存储介质
US20060200548A1 (en) Automation engine and method for providing an abstraction layer
CN111143310B (zh) 日志记录方法及装置、可读存储介质
KR20030056301A (ko) 시스템 장애 통합관리방법
US20180329792A1 (en) Network device monitoring
TWI617922B (zh) Digital service data exchange method
CN115086160A (zh) 一种基于SaaS平台的日志采集方法、终端代理、设备
WO2006044517A2 (en) Centralized management of software adapters
CN114422324B (zh) 一种告警信息的处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20230505