CN116302795A

CN116302795A - 一种基于人工智能的终端运维系统及方法

Info

Publication number: CN116302795A
Application number: CN202310112467.4A
Authority: CN
Inventors: 王鹏; 李楠
Original assignee: HUADI COMPUTER GROUP CO Ltd
Current assignee: HUADI COMPUTER GROUP CO Ltd
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-06-23

Abstract

本发明公开一种基于人工智能的终端运维系统及方法，该系统包括：信息管理单元，用于对智能终端设备的相关信息进行设置和管理；监控单元，用于采集和监控状态数据并将状态数据进行传输；检测单元，用于通过故障检测模型对接收的状态数据进行异常检测，并将检测结果进行传输；告警单元，用于基于预先设置阈值和接收的检测结果判断状态数据的变化是否异常，若异常则发出告警，并通过动态基线告警将告警信息进行传输；故障处理单元，用于将接收的告警信息以及监控结果导入知识库并生成故障处理策略和操作建议，根据故障处理策略进行自动处理或将操作建议发送至运维客户端处理。本发明实现多个系统多个监控功能点同时巡检，降低人工巡检的高成本。

Description

一种基于人工智能的终端运维系统及方法

技术领域

本发明属于计算机终端运维终端技术领域，更具体地，涉及一种基于人工智能的终端运维系统及方法。

背景技术

智能终端是一类嵌入式计算机系统设备，因此其体系结构框架与嵌入式系统体系结构是一致的；同时，智能终端作为嵌入式系统的一个应用方向，其应用场景设定较为明确，因此，其体系结构比普通嵌入式系统结构更加明确，粒度更细，且拥有一些自身的特点。

IT行业，一个系统的成功与否，上线后的运维非常重要，用户只有在持续认真使用系统的过程中才能发现系统真正存在的问题和不足，因此，如何系统的进行软件系统运维，从繁琐复杂的数据中整理出规范、规律，前期对运维的流程设计非常重要。

传统运维系统监控的对象是单个实体，如服务器、路由器、交换机等，其运行机制是收集、处理、检测和分析被监控对象的指标，如CPU利用率、内存使用量、磁盘IO和网卡流量等，并通过这些指标反映监控对象的运行状态，异常检测通过判断指标是否偏离设置的阈值来标识。当然，传统运维系统也会将监控对象扩展到一个虚拟的业务功能或业务模块，但此时的对象仍是单一的。如接口调用次数、http返回200次数、http返回500次数等。随着业务的扩展，业务模块之间的关系越来越复杂。单个对象指标所反映的状态已不能满足业务监控的需要。一个业务异常经常体现在多个对象的指标中，用户接到异常报警后，通常需要分析大量指标数据才能找到导致业务异常的原因。这种情况伴随着传统运维系统的痛点：系统变化感知滞后、未来故障不可预测、故障响应慢以及成本高。

虽然人工智能近几年在计算机视觉、自然语言、语音等领域发展迅速，但在智能化运维领域的学术研究并不多；而且目前已实际投入应用的算法主要集中在智能监测部分，对于智能化控制部分的算法和应用则需要运维人员自行选择基础算法，并从超参寻找、调优等探索起步，具有较大的应用困难性。

发明内容

有鉴于此，本公开实施例提供了一种基于人工智能的终端运维系统及方法，至少获取系统运行状态的客观数据,实现对软硬件运行状态无间断监控。

第一方面，本公开实施例提供了一种基于人工智能的终端运维系统，包括：信息管理单元、监控单元、故障检测单元、告警单元和故障处理单元；

所述信息管理单元用于对接入系统的智能终端设备的相关信息进行设置和管理；

所述监控单元用于基于人工智能自动采集和监控所述智能终端设备的状态数据，并将所述状态数据传输至所述故障检测单元；

所述故障检测单元用于通过故障检测模型对接收的所述状态数据进行异常检测，并将检测结果传输至所述告警单元；

所述告警单元用于基于预先设置阈值和接收的所述检测结果判断所述状态数据的变化是否异常，若异常则发出告警，并通过动态基线告警将告警信息传输至所述故障处理单元；

所述故障处理单元用于将接收的所述告警信息以及监控结果导入知识库并生成故障处理策略和操作建议，根据所述故障处理策略进行自动处理或将所述操作建议发送至运维客户端处理。

作为本公开实施例的一种具体实现方式，所述监控单元包括数据采集器、采集服务器、电源、监测系统、主机磁盘监控、数据库进程数监控、采集数据监控和网络子网监控子模块，所述数据采集器用于采集所述电源、所述监测系统、所述主机磁盘监控、所述数据库进程数监控、所述采集数据监控和所述网络子网监控子模块的数据信息，所述采集服务器将所述数据信息进行智能数据过滤、关键数据识别、采集密度、频率调整以及性能平衡的处理。

作为本公开实施例的一种具体实现方式，所述故障检测单元包括异常检测模块、故障关联分析模块、故障根源分析模块和异常预测模块，所述异常检测模块用于对接收的所述状态数据进行异常检测，实现异常数据的快速定位；所述故障关联分析模块和所述故障根源分析模块用于对定位的异常数据通过异常指标和指标贡献度的分析，并采用双坐标快速可调算法获取故障中的具体根源指标；所述异常预测模块用于对所述状态数据的非异常事件进行故障预测。

作为本公开实施例的一种具体实现方式，所述告警单元包括报警服务器和通信模块，所述报警服务器用于对接收的异常事件通过所述通信模块向客户端发送报警信号。

作为本公开实施例的一种具体实现方式，所述智能终端设备的相关信息包括基础信息管理、系统参数设置模块、用户管理模块、黑名单模块和白名单模块。

作为本公开实施例的一种具体实现方式，所述监控单元构建自动测试模块；所述自动测试模块包括依次连接的自动仿真测试程序、知识库和人工智能专家系统；通过所述自动仿真测试程序、所述知识库和所述人工智能专家系统实现对电脑软硬件运行状态无间断监控并同时存放常见故障的原因分析和解决方法以及研发智能运维功能。

作为本公开实施例的一种具体实现方式，所述故障检测模型为隐式马尔可模型。

第二方面，本公开实施例还提供了一种基于人工智能的终端运维方法，利用以上任一所述的基于人工智能的终端运维系统，所述方法包括：

所述信息管理单元对接入系统的智能终端设备的相关信息进行设置和管理；

所述监控单元基于人工智能自动采集和监控所述智能终端设备的状态数据，并将所述状态数据传输至故障检测单元；

所述故障检测单元通过故障检测模型对接收的所述状态数据进行异常检测，并将检测结果传输至告警单元；

所述告警单元基于预先设置阈值和接收的所述检测结果判断所述状态数据的变化是否异常，若异常则发出告警，并通过动态基线告警将告警信息传输至故障处理单元；

所述故障处理单元将接收的所述告警信息以及监控结果导入知识库并生成故障处理策略和操作建议，根据所述故障处理策略进行自动处理或将所述操作建议发送至运维客户端处理。

作为本公开实施例的一种具体实现方式，所述故障检测单元通过故障检测模型对接收的所述状态数据进行异常检测的具体方法包括：

将所述状态数据中属于同一类别的事件进行归类；

通过相关性分析判断该事件是否为异常事件；

若该事件是异常事件，通过异常指标和指标贡献度的分析，并采用双坐标快速可调算法获取故障中的具体根源指标；

若该事件非异常事件，将该事件通过指标预测进行检测，若检测的指标值距离预测值较远且满足设置条件，则判断为异常，通过异常指标和指标贡献度的分析，并采用双坐标快速可调算法获取故障中的具体根源指标。

作为本公开实施例的一种具体实现方式，通过机器学习的聚类算法将状态数据中属于同一类别的事件进行归类。

本发明的有益效果：

本发明通过对智能终端设备进行管理、监控、检测、告警以及进行运维，实现多个系统多个监控功能点同时巡检，降低人工巡检的高成本；通过该技术方案,可获取系统运行状态的客观数据,实现对电脑软硬件运行状态无间断监控。

进一步地，通过构建自动测试模块，消除人工巡检的弊端。

进一步地，利用知识库，能够存放常见故障的原因以及分析和解决方法等知识，还可以利用专家系统研发智能运维功能。

本发明的其它特征和优点将在随后具体实施方式部分予以详细说明。

附图说明

通过结合附图对本发明示例性实施方式进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显，其中，在本发明示例性实施方式中，相同的参考标号通常代表相同部件。

图1为本发明一种基于人工智能的终端运维系统的结构示意图；

图2为本发明一种基于人工智能的终端运维系统的管理系统单元的示意图；

图3为本发明一种基于人工智能的终端运维系统的自动测试模块示意图。

图4为本发明一种基于人工智能的终端运维方法的流程示意图。

附图标记：

1、信息管理单元；2、监控单元；3、故障检测单元；4、告警单元；5、故障处理单元。

具体实施方式

下面将更详细地描述本发明的优选实施方式。虽然以下描述了本发明的优选实施方式，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。

实施例一：

参见图1-图3，本公开实施例提供一种基于人工智能的终端运维系统，包括信息管理单元1、监控单元2、故障检测单元3、告警单元4和故障处理单元5；

信息管理单元1用于对接入系统的智能终端设备的相关信息进行设置和管理；

监控单元2用于基于人工智能自动采集和监控智能终端设备的状态数据，并将状态数据传输至故障检测单元3；

故障检测单元3用于通过故障检测模型对接收的状态数据进行异常检测，并将检测结果传输至告警单元4；

告警单元4用于基于预先设置阈值和接收的检测结果判断状态数据的变化是否异常，若异常则发出告警，并通过动态基线告警将告警信息传输至故障处理单元5；

故障处理单元5用于将接收的告警信息以及监控结果导入知识库并生成故障处理策略和操作建议，根据故障处理策略进行自动处理或将操作建议发送至运维客户端处理。

本实施例中，智能终端设备的相关信息主要包括基础信息管理、系统参数设置模块、用户管理模块、黑名单模块和白名单模块；基础信息管理主要包括区域信息管理，不同的区域的所有监控设备的登记信息的管理，同时还需要对这些信息进行维护；系统参数设置模块主要用于对系统参数的设置；用户管理模块主要用于设置与服务器设备相关的登陆权限、身份认证等操作；黑名单模块用于对输入的异常事件进行管理，等下次遇到同样的问题可直接发出报警信号；白名单模块用于对输入的非异常事件进行管理，等下次遇到同样的问题不发出报警信号。

本实施例中，监控单元2包括基于人工智能的数据采集器、采集服务器、电源、监测系统、主机磁盘监控、数据库进程数监控、采集数据监控、各网络子网监控子模块，数据采集器用于采集电源、监测系统、主机磁盘监控、数据库进程数监控、采集数据监控和网络子网监控子模块的数据信息，采用基于人工智能的数据采集器，实现采集服务器的智能数据过滤、关键数据识别、采集密度、频率调整以及性能平衡；同时构建自动测试模块，自动测试模块包括自动仿真测试程序，自动仿真测试程序连接知识库以及人工智能专家系统；通过自动仿真测试程序、知识库和人工智能专家系统实现对电脑软硬件运行状态无间断监控并同时存放常见故障的原因分析和解决方法以及研发智能运维功能。

优选地，本实施例采用基于485总线的Modbus协议来进行数据传输，将STC90LE58芯片与MAX485芯片进行硬件连接，组建成一路采集系统设备，然后将多个一路采集系统设备通过硬件连接到一块，通过分布式软件系统对每个硬件分配IP，来保证每个数据采集节点都能被系统找到，这样就搭建出一套分布式采集设备；系统只需通过Modbus协议设定来读取每个节点中不同寄存器的数值，达到数据上传的目的。Modbus-RTU协议应用于数据采集模块，是为了满足数据传输的快速、可靠等需求，在数据传输时通过在总线上发送设备地址来进行数据收发，保证了每个采集设备地址的唯一性，使数据收发更加安全。本实施例中，采用STC90LE58单片机芯片作为整个数据采集器的核心芯片；该芯片具有很强的抗干扰能力、低电压、低功耗和价格便宜等优势。

优选地，数据采集器用Go、Java/Scala、Python、Ruby、Bash、C++、CommonLisp、Erlang、Haskeel、Lua、Node.js、PHP、Rust编程语言创建，并涵盖计算机软硬件资源的基础设施、中间件以及网络状态的监控功能。

本实施例中，故障检测单元3包括异常检测模块、故障关联分析模块、故障根源分析模块和异常预测模块，异常检测模块用于对接收的状态数据进行异常检测，实现异常数据的快速定位；故障关联分析模块和故障根源分析模块用于对定位的异常数据通过异常指标和指标贡献度的分析，并采用双坐标快速可调算法获取故障中的具体根源指标；异常预测模块用于对状态数据的非异常事件进行故障预测；故障检测模型为隐式马尔可模型。故障检测单元3可找出不同因素之间的强相关性，并利用这些关系推断哪些因素可能是根本性因素，从而帮助用户快速诊断问题、提高故障定位速度和修复效率；故障检测单元3的处理方法为：首先进行智能异常检测，帮助操作人员快速定位故障；然后进行跟踪并分析故障原因，实现故障预测和预警。

本实施例中，告警单元4包括报警服务器和通信模块，报警服务器与通信模块电连接，报警服务器用于对接收的异常事件通过通信模块向客户端发送报警信号。

优选地，本实施例采取动态基线告警智能分析监控指标的动态极限，弥补了以往手动设置固定阈值的不足之处；即便在新的环境中也可智能地分析监控指标的发展趋势和监控指标的动态极限，从而做出智能判断，并且可通过相似度、相关性等判断条件对这些冗余告警进行合并，提供有效的告警信息。

本实施例中，故障处理单元5将监控的实时监测结果或预测结果导入运维知识库，智能生成操作建议和处理策略，根据故障处理策略进行自动处理或将操作建议发送至运维客户端处理，有效地缩短了故障排除的时间，大大提高了问题解决的效率，提高了企业运维标准化程度。

本发明通过对智能终端设备的状态数据进行管理、监控、检测、告警以及进行运维，实现多个系统多个监控功能点同时巡检，降低人工巡检的高成本；通过该技术方案,可获取系统运行状态的客观数据,实现对电脑软硬件运行状态无间断监控。

进一步地，通过构建自动测试框架，消除人工巡检的弊端。

实施例二：

参见图4，本公开实施例提供一种基于人工智能的终端运维方法，利用实施例一所述的基于人工智能的终端运维系统，包括以下步骤：

S1：所述信息管理单元对接入系统的智能终端设备的相关信息进行设置和管理；

S2：所述监控单元基于人工智能自动采集和监控智能终端设备的状态数据，并将状态数据传输至故障检测单元；

S3：故障检测单元通过故障检测模型对接收的状态数据进行异常检测，并将检测结果传输至告警单元；

S4：告警单元基于预先设置阈值和接收的检测结果判断状态数据的变化是否异常，若异常则发出告警，并通过动态基线告警将告警信息传输至故障处理单元；

S5：故障处理单元将接收的告警信息以及监控结果导入知识库并生成故障处理策略和操作建议，根据故障处理策略进行自动处理或将操作建议发送至运维客户端处理。

本实施例中，故障检测单元通过故障检测模型对接收的状态数据进行异常检测的具体步骤包括：

S31：将状态数据中属于同一类别的事件进行归类；

S32：通过相关性分析判断该事件是否为异常事件；

S33：若该事件是异常事件，通过异常指标和指标贡献度的分析，并采用双坐标快速可调算法获取故障中的具体根源指标；

S34：若该事件非异常事件，将该事件通过指标预测进行检测，若检测的指标值距离预测值较远且满足设置条件，则判断为异常，通过异常指标和指标贡献度的分析，并采用双坐标快速可调算法获取故障中的具体根源指标。

本实施例中，步骤S31中，通过机器学习的聚类算法将状态数据中属于同一类别的事件进行归类；本实施例中，异常事件检测采用隐式马尔可模型；步骤S33中，故障诊断采用双坐标快速可调算法，该算法通过建立双坐标射线带来快速“铺路”，以时间轴和数据映射值为第一坐标，以基点和基点后一点建立第二坐标系，统计第二坐标系中Y轴正负半轴数据分布概率，从而动态调整第一、二坐标夹角，使射线带范围内尽可能多的“碾压”数据，以增加数据压缩比。这种双坐标射带快速可调压缩算法，不但可以提高压缩比，而且可以减小内存消耗和数据冗余。通过动态修正射带角度以增加压缩比和减小失真度，达到快速高效的压缩效果。

本实施例中，步骤S32中，通过相关性分析判断该事件是否为异常事件的具体方法包括：

步骤1，在开始数据压缩前，先对相应参数初始化，为后续的压缩做好准备。

步骤2，当前数据为基准点数据时，则获取下一点数据，建立第二坐标系并通过坐标转换找到A1、A2点在第一坐标系中的坐标；获取第一坐标系中的坐标方法如下：

now＝(now_date-date)/(x-t)

式中，now为第二坐标系在第一坐标中的斜率，now_date为当前B点纵坐标，x为当前B点横坐标，date为A点纵坐标，t为A点横坐标。

通过坐标转换得A1、A2点坐标为(t-G，date-H)、(t+G，date+H),H的表达式为：

G的表达式为：

G＝ΔE*sin(|arctan(now)|)

ΔE代表数据压缩时的最大偏差，这样通过坐标转换得到A1、A2点。

步骤3，判断是否为基准点，如果是基准点，则跳转到步骤2，如果不是基准点，则获取数据，判断该点是否在射带的范围内，如果在范围内则重新运行步骤3，如果不在范围内进行步骤4；论文通过数据点与A1、A2点的斜率来判断该点是否在射带范围内，方程分别为：

A1＝(now_date-(date-H))/(x+(t+G))

A2＝(now_date+(date+H))/(x-(t-G))

如果A1大于now且A2小于now，则表示该点数据在射带范围内，否则不在范围内。

步骤4，当获取的数据不在射带覆盖的范围内时，通过M、k1、k2这三个参数来对第二坐标系旋转，不仅保证旋转后以前舍去的点也在射带覆盖范围，同时会降低后期数据解压的失真度。

实施例三：

本公开实施例还提供一种电子设备，该电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有能被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行实施例二中的基于人工智能的终端运维方法。

根据本公开实施例的电子设备包括存储器和处理器，该存储器用于存储非暂时性计算机可读指令。具体地，存储器可以包括一个或多个计算机程序产品，该计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。该易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。该非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

该处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制电子设备中的其它组件以执行期望的功能。在本公开的一个实施例中，该处理器用于运行该存储器中存储的该计算机可读指令。

本领域技术人员应能理解，为了解决如何获得良好用户体验效果的技术问题，本实施例中也可以包括诸如通信总线、接口等公知的结构，这些公知的结构也应包含在本公开的保护范围之内。

有关本实施例的详细说明可以参考前述各实施例中的相应说明，在此不再赘述。

实施例四：

本公开实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行实施例二中的基于人工智能的终端运维方法。

根据本公开实施例的计算机可读存储介质，其上存储有非暂时性计算机可读指令。当该非暂时性计算机可读指令由处理器运行时，执行前述的本公开各实施例方法的全部或部分步骤。

上述计算机可读存储介质包括但不限于：光存储介质(例如：CD－ROM和DVD)、磁光存储介质(例如：MO)、磁存储介质(例如：磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如：存储卡)和具有内置ROM的媒体(例如：ROM盒)。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。

Claims

1.一种基于人工智能的终端运维系统，其特征在于，包括：信息管理单元、监控单元、故障检测单元、告警单元和故障处理单元；

2.根据权利要求1所述的终端运维系统，其特征在于，所述监控单元包括数据采集器、采集服务器、电源、监测系统、主机磁盘监控、数据库进程数监控、采集数据监控和网络子网监控子模块，所述数据采集器用于采集所述电源、所述监测系统、所述主机磁盘监控、所述数据库进程数监控、所述采集数据监控和所述网络子网监控子模块的数据信息，所述采集服务器将所述数据信息进行智能数据过滤、关键数据识别、采集密度、频率调整以及性能平衡的处理。

3.根据权利要求1所述的终端运维系统，其特征在于，所述故障检测单元包括异常检测模块、故障关联分析模块、故障根源分析模块和异常预测模块，所述异常检测模块用于对接收的所述状态数据进行异常检测，实现异常数据的快速定位；所述故障关联分析模块和所述故障根源分析模块用于对定位的异常数据通过异常指标和指标贡献度的分析，并采用双坐标快速可调算法获取故障中的具体根源指标；所述异常预测模块用于对所述状态数据的非异常事件进行故障预测。

4.根据权利要求1所述的终端运维系统，其特征在于，所述告警单元包括报警服务器和通信模块，所述报警服务器用于对接收的异常事件通过所述通信模块向客户端发送报警信号。

5.根据权利要求1所述的终端运维系统，其特征在于，所述智能终端设备的相关信息包括基础信息管理、系统参数设置模块、用户管理模块、黑名单模块和白名单模块。

6.根据权利要求1所述的终端运维系统，其特征在于，所述监控单元构建自动测试模块；所述自动测试模块包括依次连接的自动仿真测试程序、知识库和人工智能专家系统；通过所述自动仿真测试程序、所述知识库和所述人工智能专家系统实现对电脑软硬件运行状态无间断监控并同时存放常见故障的原因分析和解决方法以及研发智能运维功能。

7.根据权利要求1所述的终端运维系统，其特征在于，所述故障检测模型为隐式马尔可模型。

8.一种基于人工智能的终端运维方法，利用权利要求1-7任一所述的基于人工智能的终端运维系统，其特征在于，所述方法包括：

9.根据权利要求8所述的方法，其特征在于，所述故障检测单元通过故障检测模型对接收的所述状态数据进行异常检测的具体方法包括：

将所述状态数据中属于同一类别的事件进行归类；

通过相关性分析判断该事件是否为异常事件；

10.根据权利要求9所述的方法，其特征在于，通过机器学习的聚类算法将状态数据中属于同一类别的事件进行归类。