CN114880151A - 人工智能运维方法 - Google Patents

人工智能运维方法 Download PDF

Info

Publication number
CN114880151A
CN114880151A CN202210441100.2A CN202210441100A CN114880151A CN 114880151 A CN114880151 A CN 114880151A CN 202210441100 A CN202210441100 A CN 202210441100A CN 114880151 A CN114880151 A CN 114880151A
Authority
CN
China
Prior art keywords
solution
repair
model
exception
artificial intelligence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210441100.2A
Other languages
English (en)
Other versions
CN114880151B (zh
Inventor
谭竞成
于洋
高经郡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kejie Technology Co ltd
Original Assignee
Beijing Kejie Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kejie Technology Co ltd filed Critical Beijing Kejie Technology Co ltd
Priority to CN202210441100.2A priority Critical patent/CN114880151B/zh
Publication of CN114880151A publication Critical patent/CN114880151A/zh
Application granted granted Critical
Publication of CN114880151B publication Critical patent/CN114880151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Abstract

本发明涉及人工智能领域,具体涉及一种人工智能运维方法,旨在解决运维成本高、效率低的问题。本发明的人工智能运维方法包括:根据应用系统的运行日志,捕获当前异常;根据当前异常,基于方案推荐模型对应用系统进行修复;其中,方案推荐模型为根据历史异常以及对应的有效解决方案训练得到的模型。在修复失败的情况下,可以发出告警通知,并对人工修复方案进行案例收集,并根据修复结果选择是否对模型进行迭代。本发明有效地利用了历史修复案例,弥补了运维人员经验的不足,降低了运维成本,提高了运维效率。

Description

人工智能运维方法
技术领域
本发明涉及人工智能领域,具体涉及一种人工智能运维方法。
背景技术
计算机应用系统包括:信息系统、工厂自动化、办公室自动化、家庭自动化、专家系统、模式识别、机器翻译和数据中台等。
因为计算机应用系统越来越多,系统维护的工作也越来越繁重,需要大量的工作人员随时查看系统运行状态,并在出现异常的时候及时进行修复。
针对上述中的相关技术,发明人认为,因为受限于工作人员的经验,对于一些频繁发生的故障,其相关的历史处理情况不能被有效地利用起来。所以,人工运维不但耗费大量的人力,在修复时也需要更多的时间去分析和定位故障。
发明内容
为了解决现有技术中的上述问题,本发明提出了一种人工智能运维方法,不但提高了运维效率,而且降低了运维成本。
本发明提出一种人工智能运维方法,所述方法包括:
根据应用系统的运行日志,捕获当前异常;
根据所述当前异常,基于方案推荐模型对所述应用系统进行修复;
其中,所述方案推荐模型为根据历史异常以及对应的有效解决方案训练得到的模型。
优选地,所述方案推荐模型为线性模型和嵌入模型的混合模型;
“根据所述当前异常,基于方案推荐模型对所述应用系统进行修复”的步骤包括:
根据所述当前异常,基于所述线性模型生成第一解决方案集合;
根据所述第一解决方案集合中每个方案对应的能够修复所述当前异常的概率,对方案进行排序;
按照所述概率从大到小的顺序,依次选择一个方案对所述应用系统进行修复。
优选地,“根据所述当前异常,基于方案推荐模型对所述应用系统进行修复”的步骤还包括:
若所述第一解决方案集合为空或修复不成功,则根据所述当前异常,基于所述嵌入模型生成第二解决方案集合;
对所述第二解决方案集合进行评估;
根据评估结果,判断是否有解;
若有解,则根据所述第二解决方案集合对应用系统进行修复。
优选地,所述嵌入模型生成第二解决方案集合的方法包括:
参照历史迭代出来的第一异常词树,对所述当前异常进行切分,得到一个或多个小异常;
根据每个所述小异常在所述第一异常词树中的位置和层级,获取每个所述小异常对应节点的解决方案以及与该小异常位于同一层级的兄弟节点的解决方案,进而得到第一解决方案子集;
参照用户自定义的第二异常词树,对所述当前异常进行切分,得到多个小异常;
根据每个小异常在所述第二异常词树中的位置和层级,获取每个小异常对应节点的解决方案以及与该小异常位于同一层级的兄弟节点的解决方案,进而得到第二解决方案子集;
根据所述第一解决方案子集和所述第二解决方案子集,组成所述第二解决方案集合。
优选地,所述方法还包括:
若修复成功,则对修复时采用的解决方案进行评估,并根据评估结果选择性地对所述方案推荐模型进行迭代。
优选地,所述方法还包括:
若无解或修复失败,则根据所述当前异常的紧急性分级采用相应的手段发送告警通知;
对人工修复方案进行案例收集;
对所述人工修复方案进行评估,并根据评估结果选择性地对所述方案推荐模型进行迭代。
优选地,“对所述第二解决方案集合进行评估”的步骤包括:
分别计算所述第二解决方案集合中每个方案对应的历史异常与所述当前异常之间的相似度;
“根据评估结果,判断是否有解”的步骤包括:
若至少有一个方案对应的相似度大于阈值,则认为有解。
优选地,“若有解,则根据所述第二解决方案集合对应用系统进行修复”的步骤包括:
若有解,则根据所述相似度的高低对所述相似度大于所述阈值的方案进行排序,按所述相似度从高到低的顺序依次选择解决方案对所述应用系统进行修复;或者,根据每个解决方案对应的能够修复所述当前异常的概率对所述相似度大于所述阈值的方案进行排序,按照所述概率从大到小的顺序依次选择解决方案对所述应用系统进行修复。
优选地,所述方案推荐模型为线性模型和嵌入模型的混合模型;
所述方案推荐模型的训练方法包括:
根据历史案例样本及其对应的异常特征,基于线性模型对one-hot稀疏表示特征进行训练;
基于嵌入模型,通过学习低纬度稠密向量实现模型的泛化能力。
优选地,所述方法还包括:
若修复成功,则记录修复日志并发送修复成功的通知。
本发明具有如下有益效果:
本发明提出的人工智能运维方法,首先根据应用系统的运行日志,捕获当前异常;然后,基于方案推荐模型获得推荐的解决方案集合;最后,基于所述解决方案集合,对应用系统进行修复。因为方案推荐模型为根据历史异常以及对应的有效解决方案训练得到的模型,所以本发明有效地利用了历史修复案例,弥补了运维人员经验的不足。
本发明根据历史案例样本及其对应的异常特征,基于线性模型对one-hot稀疏表示特征进行训练;通过进行特征交叉,从而高效地实现记忆能力,找到最优的解决方法。基于嵌入模型,通过学习低纬度稠密向量实现模型的泛化能力,可以实现对未遇到过的异常类进行泛化解决方案推荐。
本发明还对人工修复的方案进行案例收集,并对修复结果进行评估,如果发现解决方案较优的话,利用该案例对方案推荐模型进行迭代,这样对于不同的应用系统可以逐步迭代出更能适应本应用系统的模型。
本发明对应用系统,如数据中台系统的运维中,通过AI机器学习来实现数据中台的系统日常、工作流程、任务流程等自动维护以及异常修复功能。改善了中小企业的运维压力,从而节约了企业大量的人力物力的投入。
附图说明
图1是本发明的人工智能运维方法实施例一的主要步骤示意图;
图2是本发明的人工智能运维方法实施例二的主要步骤示意图;
图3是本发明实施例中一个异常词树的示意图;
图4是本发明的人工智能运维方法实施例三的主要步骤示意图;
图5是本发明的人工智能运维方法实施例四的主要步骤示意图
图6是本发明的人工智能运维方法实施例五的主要步骤示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本申请的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明的描述中,术语“第一”、“第二”仅仅是为了便于描述,而不是指示或暗示所述装置、元件或参数的相对重要性,因此不能理解为对本发明的限制。另外,本发明中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
图1是本发明的人工智能运维方法实施例一的主要步骤示意图。如图1所示,本实施例的人工智能运维方法包括步骤A10-A20:
步骤A10,根据应用系统的运行日志,捕获当前异常。
步骤A20,根据当前异常,基于方案推荐模型对应用系统进行修复。其中,方案推荐模型为根据历史异常以及对应的有效解决方案训练得到的模型。
优选地,方案推荐模型为线性模型和嵌入模型的混合模型。
在该步骤中,可以具体包括步骤A21-A23:
步骤A21,根据当前异常,基于线性模型生成第一解决方案集合。
具体地,线性模型根据当前异常,查找是否有相同的历史异常记录;若有,则根据历史异常记录获取对应的解决方案,并组成第一解决方案集合。
例如,当前异常为“请求超时异常”,经过查找发现具有相同的历史异常记录。在历史异常记录中,相应的解决方案及其能够修复当前异常的概率包括如下几种:
解决方案(1):向目标地址发送ping命令(是常用的网络命令,主要通过ICMP协议进行网络探测,测试网络是否断开或延时),据此判断是否网络断开,若是则找到无法访问的层,启用备用设备,或重启设备;对应概率为10%。
解决方案(2):判断网络占用率是否大于预设的阈值(如90%),若是则将非核心作业推迟访问;对应概率为12%。
解决方案(3):向目标端口发送telnet命令(可用于检测IP/域名的端口是否开放),若无响应则启动端口监控服务;对应概率为30%。
解决方案(4):判断目标端口是否被未备案的任务占用,若是则用kill命令(用来删除执行中的程序或工作)杀掉该任务,然后重启端口监控服务,同时通知未备案任务负责人;对应概率为40%。
于是,生成的第一解决方案集合中就包含上述解决方案(1)-(4)。
步骤A22,根据第一解决方案集合中每个方案对应的能够修复当前异常的概率,对方案进行排序。
步骤A23,按照概率从大到小的顺序,依次选择一个方案对所述应用系统进行修复。
对于上面的“请求超时异常”来说,依次选择解决方案(4)、(3)、(2)、(1)尝试修复,如果排在前面的方案已经能够修复异常,就不需要再去尝试后面的方案。
图2是本发明的人工智能运维方法实施例二的主要步骤示意图。如图2所示,本实施例的人工智能运维方法包括步骤B10-B60:
步骤B10,根据应用系统的运行日志,捕获当前异常。
在下面步骤B20-B60中,根据当前异常,基于方案推荐模型对应用系统进行修复。其中,方案推荐模型为根据历史异常以及对应的有效解决方案训练得到的模型。方案推荐模型为线性模型和嵌入模型的混合模型。
步骤B20,根据当前异常,基于线性模型生成第一解决方案集合。
具体地,线性模型根据当前异常,查找是否有相同的历史异常记录;若有,则根据历史异常记录获取对应的解决方案,并组成第一解决方案集合。
步骤B30,根据第一解决方案集合中每个方案对应的能够修复当前异常的概率,对方案进行排序。
步骤B40,按照概率从大到小的顺序,依次选择一个方案对应用系统进行修复。
步骤B50,判断是否第一解决方案集合为空或修复不成功。
步骤B60,若第一解决方案集合为空或修复不成功,则根据当前异常,基于嵌入模型生成第二解决方案集合。该步骤具体包括步骤B61-B65:
步骤B61,嵌入模型参照历史迭代出来的第一异常词树,对当前异常进行切分,得到一个或多个小异常。
图3是本发明实施例中一个异常词树的示意图。如图3所示,异常树可能包括“错误”和“异常”两个主要分支,其中,“错误”可能包括组件出错、输入输出错误、依赖错误和虚拟机错误等;“异常”可能包括:输入输出异常、运行期异常和反射操作异常等,这每种异常还可以进一步细分。
步骤B62,根据每个小异常在第一异常词树中的位置和层级,获取每个小异常对应节点的解决方案以及与该小异常位于同一层级的兄弟节点的解决方案,进而得到第一解决方案子集。
以图3为例,假设一个小异常为“空指针异常”,与它位于同一层级的兄弟节点还包括:索引越界异常、算术条件异常、数组存储异常、违背安全原则异常、非法参数异常和类型强制转换异常等。需要把“空指针异常”及其兄弟节点对应的解决方案全部找出来,一起组成第一解决方案子集。
步骤B63,参照用户自定义的第二异常词树,对当前异常进行切分,得到多个小异常。
步骤B64,根据每个小异常在第二异常词树中的位置和层级,获取每个小异常对应节点的解决方案以及与该小异常位于同一层级的兄弟节点的解决方案,进而得到第二解决方案子集。
步骤B65,根据第一解决方案子集和第二解决方案子集,组成第二解决方案集合。
步骤B70,对第二解决方案集合进行评估。
若第二解决方案集合中包含的方案个数大于0,可以分别计算每个方案对应的历史异常与当前异常之间的相似度。相似度越高,说明推荐的解决方案对于修复当前异常越有效。
步骤B80,根据评估结果,判断是否有解。
如果至少有一个方案对应的相似度大于阈值(本实施中为0.6),则认为有解。
步骤B90,若有解,则根据第二解决方案集合对应用系统进行修复。
进一步地,步骤B90可以包括:
(1)若有解,则根据相似度的高低对相似度大于阈值的方案进行排序。
(2)按相似度从高到低的顺序依次选择方案对应用系统进行修复。
或者,步骤B90可以包括:
(1)若有解,则根据每个解决方案对应的能够修复当前异常的概率对相似度大于所述阈值的方案进行排序。
(2)按照概率从大到小的顺序依次选择解决方案对应用系统进行修复。
如果排在前面的方案已经能把故障修复,就不需要再去尝试后面的方案。
图4是本发明的人工智能运维方法实施例三的主要步骤示意图。如图4所示,本实施例的人工智能运维方法包括步骤C10-C110:
步骤C10-C90,与上述实施例二中的步骤B10-B90对应相同,此处不再赘述。
步骤C100,判断修复是否成功。
步骤C110,若修复成功,则对修复时采用的解决方案进行评估,并根据评估结果选择性地对方案推荐模型进行迭代。
可以通过计算精确度和召回率等进行评估。
图5是本发明的人工智能运维方法实施例四的主要步骤示意图。如图5所示,本实施例的人工智能运维方法包括步骤D10-D140:
步骤D10-D110,与上述实施例三中的步骤C10-C110对应相同,此处不再赘述。
步骤D120,若无解或修复失败,则根据当前异常的紧急性分级采用相应的手段发送告警通知。
本实施例中,将异常分为四个等级:
一级:最高级别的异常,如HDFS(是Hadoop Distribute File System的简称,即Hadoop的一个分布式文件系统)上大量文件在未授权的情况下被删除。应用系统必须立即进入安全模式,挂载的各节点磁盘切换为只读模式。冻结往HDFS上的写任务流程,并AI语音电话通知集群负责人。
二级:会影响集群可靠性的异常。
三级:如工作流、任务流程非正常终止等。
四级:如任务流程字符转换异常、系统日常日志文件中小文件过多等。
对于三级以上异常,通过AI语音电话进行语音提示;对于四级异常,发出平台异常提示。
运维人员可以根据语音提示,选择如呼叫转移、启动备用方案、冻结异常告警等待处理,或直接手动修复。
步骤D130,对人工修复方案进行案例收集。
如启动备用方案或运维人员手动修复,人工智能运维系统会采用决策程序进行案例收集,首次初始化一个决策采集,记录异常特征,开辟解决方法空间。启动方案创建采集任务,运维人员关闭异常。
步骤D140,对人工修复方案进行评估,并根据评估结果选择性地对方案推荐模型进行迭代。
如果修复成功,可以记录修复日志,并发送修复成功的通知;若失败,可以转至步骤D120。
本实施例中,方案推荐模型为线性模型和嵌入模型的混合模型。方案推荐模型的训练方法主要包括:
(1)根据历史案例样本及其对应的异常特征,基于线性模型如LR(逻辑回归),对one-hot稀疏表示特征进行训练。
(2)基于嵌入模型(Embedding),通过学习低纬度稠密向量实现模型的泛化能力。
图6是本发明的人工智能运维方法实施例五的主要步骤示意图。如图6所示,本实施例的人工智能运维方法包括步骤E10-E150:
步骤E10-E140,与实施例四中的步骤D10-D140对应相同,此处不再赘述。
步骤E150,若修复成功,则记录修复日志并发送修复成功的通知。
日志源头(各组件和各业务)把日志信息发送到kafka(是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据)集群。日志分析系统从kafka消费日志信息,把解析后的日志信息写入ES(全称为ElasticSearch,是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据)中。如果输出到ES出错,把这些错误日志信息重新发送到kafka中,进行再次消费,日志信息通过ES可进行检索或模糊搜索。
上述几个实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案。但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种人工智能运维方法,其特征在于,所述方法包括:
根据应用系统的运行日志,捕获当前异常;
根据所述当前异常,基于方案推荐模型对所述应用系统进行修复;
其中,所述方案推荐模型为根据历史异常以及对应的有效解决方案训练得到的模型。
2.根据权利要求1所述的人工智能运维方法,其特征在于,
所述方案推荐模型为线性模型和嵌入模型的混合模型;
“根据所述当前异常,基于方案推荐模型对所述应用系统进行修复”的步骤包括:
根据所述当前异常,基于所述线性模型生成第一解决方案集合;
根据所述第一解决方案集合中每个方案对应的能够修复所述当前异常的概率,对方案进行排序;
按照所述概率从大到小的顺序,依次选择一个方案对所述应用系统进行修复。
3.根据权利要求2所述的人工智能运维方法,其特征在于,“根据所述当前异常,基于方案推荐模型对所述应用系统进行修复”的步骤还包括:
若所述第一解决方案集合为空或修复不成功,则根据所述当前异常,基于所述嵌入模型生成第二解决方案集合;
对所述第二解决方案集合进行评估;
根据评估结果,判断是否有解;
若有解,则根据所述第二解决方案集合对应用系统进行修复。
4.根据权利要求3所述的人工智能运维方法,其特征在于,
“根据所述当前异常,基于所述线性模型生成第一解决方案集合”的步骤包括:
所述线性模型根据所述当前异常,查找是否有相同的历史异常记录;
若有,则根据所述历史异常记录获取对应的解决方案,并组成所述第一解决方案集合;
“根据所述当前异常,基于所述嵌入模型生成第二解决方案集合”的步骤包括:
所述嵌入模型参照历史迭代出来的第一异常词树,对所述当前异常进行切分,得到一个或多个小异常;
根据每个所述小异常在所述第一异常词树中的位置和层级,获取每个所述小异常对应节点的解决方案以及与该小异常位于同一层级的兄弟节点的解决方案,进而得到第一解决方案子集;
参照用户自定义的第二异常词树,对所述当前异常进行切分,得到多个小异常;
根据每个小异常在所述第二异常词树中的位置和层级,获取每个小异常对应节点的解决方案以及与该小异常位于同一层级的兄弟节点的解决方案,进而得到第二解决方案子集;
根据所述第一解决方案子集和所述第二解决方案子集,组成所述第二解决方案集合。
5.根据权利要求1所述的人工智能运维方法,其特征在于,所述方法还包括:
若修复成功,则对修复时采用的解决方案进行评估,并根据评估结果选择性地对所述方案推荐模型进行迭代。
6.根据权利要求3所述的人工智能运维方法,其特征在于,所述方法还包括:
若无解或修复失败,则根据所述当前异常的紧急性分级采用相应的手段发送告警通知;
对人工修复方案进行案例收集;
对所述人工修复方案进行评估,并根据评估结果选择性地对所述方案推荐模型进行迭代。
7.根据权利要求3所述的人工智能运维方法,其特征在于,
“对所述第二解决方案集合进行评估”的步骤包括:
分别计算所述第二解决方案集合中每个方案对应的历史异常与所述当前异常之间的相似度;
“根据评估结果,判断是否有解”的步骤包括:
若至少有一个方案对应的相似度大于阈值,则认为有解。
8.根据权利要求7所述的人工智能运维方法,其特征在于,
“若有解,则根据所述第二解决方案集合对应用系统进行修复”的步骤包括:
若有解,则根据所述相似度的高低对所述相似度大于所述阈值的方案进行排序,按所述相似度从高到低的顺序依次选择解决方案对所述应用系统进行修复;或者,根据每个解决方案对应的能够修复所述当前异常的概率对所述相似度大于所述阈值的方案进行排序,按照所述概率从大到小的顺序依次选择解决方案对所述应用系统进行修复。
9.根据权利要求1所述的人工智能运维方法,其特征在于,所述方案推荐模型为线性模型和嵌入模型的混合模型;
所述方案推荐模型的训练方法包括:
根据历史案例样本及其对应的异常特征,基于线性模型对one-hot稀疏表示特征进行训练;
基于嵌入模型,通过学习低纬度稠密向量实现模型的泛化能力。
10.根据权利要求1-8中任一项所述的人工智能运维方法,其特征在于,
所述方法还包括:
若修复成功,则记录修复日志并发送修复成功的通知。
CN202210441100.2A 2022-04-25 2022-04-25 人工智能运维方法 Active CN114880151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210441100.2A CN114880151B (zh) 2022-04-25 2022-04-25 人工智能运维方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210441100.2A CN114880151B (zh) 2022-04-25 2022-04-25 人工智能运维方法

Publications (2)

Publication Number Publication Date
CN114880151A true CN114880151A (zh) 2022-08-09
CN114880151B CN114880151B (zh) 2023-01-13

Family

ID=82671853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210441100.2A Active CN114880151B (zh) 2022-04-25 2022-04-25 人工智能运维方法

Country Status (1)

Country Link
CN (1) CN114880151B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020001642A1 (zh) * 2018-06-28 2020-01-02 中兴通讯股份有限公司 一种运维系统及方法
CN111209131A (zh) * 2019-12-30 2020-05-29 航天信息股份有限公司广州航天软件分公司 一种基于机器学习确定异构系统的故障的方法和系统
CN111506478A (zh) * 2020-04-17 2020-08-07 上海浩方信息技术有限公司 基于人工智能实现告警管理控制的方法
CN111860900A (zh) * 2020-08-14 2020-10-30 中国能源建设集团广东省电力设计研究院有限公司 基于bim的数字孪生智慧机房管理方法、装置、设备及介质
CN111913825A (zh) * 2020-07-31 2020-11-10 赵鑫飚 一种基于大数据的解决方案推荐系统及方法
CN113283620A (zh) * 2021-06-29 2021-08-20 中国平安人寿保险股份有限公司 基于人工智能的运维方法、装置、设备及存储介质
CN114021758A (zh) * 2022-01-04 2022-02-08 北京磁浮有限公司 一种基于梯度提升决策树与逻辑回归融合的运维人员智能推荐方法和装置
CN114358655A (zh) * 2022-02-18 2022-04-15 睿云奇智(重庆)科技有限公司 一种生成推荐方案的方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020001642A1 (zh) * 2018-06-28 2020-01-02 中兴通讯股份有限公司 一种运维系统及方法
CN111209131A (zh) * 2019-12-30 2020-05-29 航天信息股份有限公司广州航天软件分公司 一种基于机器学习确定异构系统的故障的方法和系统
CN111506478A (zh) * 2020-04-17 2020-08-07 上海浩方信息技术有限公司 基于人工智能实现告警管理控制的方法
CN111913825A (zh) * 2020-07-31 2020-11-10 赵鑫飚 一种基于大数据的解决方案推荐系统及方法
CN111860900A (zh) * 2020-08-14 2020-10-30 中国能源建设集团广东省电力设计研究院有限公司 基于bim的数字孪生智慧机房管理方法、装置、设备及介质
CN113283620A (zh) * 2021-06-29 2021-08-20 中国平安人寿保险股份有限公司 基于人工智能的运维方法、装置、设备及存储介质
CN114021758A (zh) * 2022-01-04 2022-02-08 北京磁浮有限公司 一种基于梯度提升决策树与逻辑回归融合的运维人员智能推荐方法和装置
CN114358655A (zh) * 2022-02-18 2022-04-15 睿云奇智(重庆)科技有限公司 一种生成推荐方案的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KHAIRY A H KOBBACY: "Application of Artificial Intelligence in Maintenance Modelling and Management", 《IFAC PROCEEDINGS VOLUMES》 *
石磊: "基于人工智能化IT运维服务解决方案", 《电子技术与软件工程》 *

Also Published As

Publication number Publication date
CN114880151B (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
CN110717665B (zh) 基于调度控制系统故障辨识及趋性分析系统和方法
KR102483025B1 (ko) 운영 유지 시스템 및 방법
Kliger et al. A coding approach to event correlation
CN105159964B (zh) 一种日志监控方法及系统
US6353902B1 (en) Network fault prediction and proactive maintenance system
CN113282461B (zh) 传输网的告警识别方法和装置
CN109840157A (zh) 故障诊断的方法、装置、电子设备和存储介质
CN105337765A (zh) 一种分布式hadoop集群故障自动诊断修复系统
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
CN113542039A (zh) 一种通过ai算法定位5g网络虚拟化跨层问题的方法
CN113360722B (zh) 一种基于多维数据图谱的故障根因定位方法及系统
CN115664939B (zh) 一种基于自动化技术的综合运维方法和存储介质
CN110311802A (zh) 网络运营方法、装置、电子设备及存储介质
CN113672427A (zh) 基于rpa及ai的异常处理方法、装置、设备及介质
CN115421950A (zh) 一种基于机器学习的自动化系统运维管理方法及系统
CN113965497B (zh) 服务器异常识别方法、装置、计算机设备及可读存储介质
CN114880151B (zh) 人工智能运维方法
CN112449362B (zh) 基于信物模型的智能传感器自适应配置方法、装置及系统
Xu et al. Comparisons of logistic regression and artificial neural network on power distribution systems fault cause identification
CN113395182A (zh) 具有故障预测的智能网络设备管理系统及方法
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN111708654A (zh) 一种虚拟机故障修复的方法和设备
US20220086034A1 (en) Over the top networking monitoring system
Afshinpour et al. Correlating test events with monitoring logs for test log reduction and anomaly prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Tan Jingcheng

Inventor after: Gao Hailing

Inventor after: Yu Yang

Inventor after: Gao Jingjun

Inventor before: Tan Jingcheng

Inventor before: Yu Yang

Inventor before: Gao Jingjun