CN111444156B - 一种基于云计算的故障诊断方法 - Google Patents

一种基于云计算的故障诊断方法 Download PDF

Info

Publication number
CN111444156B
CN111444156B CN202010312579.0A CN202010312579A CN111444156B CN 111444156 B CN111444156 B CN 111444156B CN 202010312579 A CN202010312579 A CN 202010312579A CN 111444156 B CN111444156 B CN 111444156B
Authority
CN
China
Prior art keywords
fault
log
cloud
log files
log file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010312579.0A
Other languages
English (en)
Other versions
CN111444156A (zh
Inventor
陈连山
吕天君
李伟巍
冯范
孙晓莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanyang Institute of Technology
Original Assignee
Nanyang Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanyang Institute of Technology filed Critical Nanyang Institute of Technology
Priority to CN202010312579.0A priority Critical patent/CN111444156B/zh
Publication of CN111444156A publication Critical patent/CN111444156A/zh
Application granted granted Critical
Publication of CN111444156B publication Critical patent/CN111444156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于云计算的故障诊断方法,涉及故障诊断技术领域,客户端设备保存日志文件并上传到私有云,私有云对日志文件初步处理,筛选出包含故障信息的日志文件,当发生网络故障时客户端设备获取故障关键词并上传至公有云,公有云根据故障关键词对私有云筛选的日志文件进行分析,得到故障诊断结果。本发明使用私有云对日志文件进行筛选,然后再由公有云对筛选后的日志文件进行分析,大大加快了故障诊断的速度。

Description

一种基于云计算的故障诊断方法
技术领域
本发明涉及故障诊断技术领域,特别是涉及基于云计算的计算机网络设备故障诊断方法。
背景技术
计算机网络是非常复杂的系统,其不仅包含大量的硬件设备,而且更为关键的是使用不同协议、标准等软件将硬件设备连接起来,因此对于计算机网络的管理是一项很艰巨的任务。
鉴于计算机网络的复杂性,其发生故障的概率也很高,实际发生的故障可能对用户几乎没有影响,而有些故障则严重影响了网络的正常运行,对社会和经济造成了严重影响。因此一旦计算机网络发生故障,需要快速准确的进行诊断。目前对于计算机网络故障的诊断方法中较为流行的方式通过对日志文件分析,得到诊断结果。
但是,日志文件包含了大量的信息,而且日志文件由不同软件生成,仅仅对日志文件的分析提取就会耗费大量的时间,如果在故障发生后再对所有的日志文件进行分析,则网络势必会中断很长时间,带来的经济损失不可估量。
发明内容
本发明实施例提供了一种基于云计算的故障诊断方法,可以解决现有技术中存在的问题。
本发明提供了一种基于云计算的故障诊断方法,包括以下步骤:
S100,客户端设备保存日志文件,将日志文件上传至私有云;
S200,私有云对日志文件进行初步分析,筛选出包含故障信息的日志文件;
S300,客户端设备获取故障关键词,发送至公有云;
S400,公有云获取私有云筛选的日志文件,对日志文件进行聚类,根据故障关键词确定所属的聚类,在所属聚类中对日志文件进行分析,得到故障诊断结果;
S500,公有云将故障诊断结果反馈给客户端设备。
本发明中的一种基于云计算的故障诊断方法,客户端设备保存日志文件并上传到私有云,私有云对日志文件初步处理,筛选出包含故障信息的日志文件,当发生网络故障时客户端设备获取故障关键词并上传至公有云,公有云根据故障关键词对私有云筛选的日志文件进行分析,得到故障诊断结果。本发明使用私有云对日志文件进行筛选,然后再由公有云对筛选后的日志文件进行分析,大大加快了故障诊断的速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于云计算的故障诊断方法中参与诊断的设备组成示意图;
图2为诊断方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1和2,本发明提供了一种基于云计算的故障诊断方法,该方法包括以下步骤:
S100,客户端设备在运行过程中记录并保存日志文件,将保存的日志文件上传至私有云。
S200,私有云将接收的文件保存在日志数据库中,并对每一次存入日志数据库的日志文件进行初步分析,筛选出包含故障信息的日志文件。
S300,客户端设备获取客户输入的故障关键词,将其发送至公有云。
S400,公有云获取私有云筛选的日志文件,对日志文件进行聚类,根据客户端设备上传的故障关键词确定所属的聚类,在所属聚类中对日志文件进行分析,确定故障原因和发生故障的设备。
S500,公有云将故障诊断结果反馈给客户端设备。
在步骤S100中,所述客户端设备在运行过程中实时记录并保存日志文件,当网络占用较低时所述客户端设备再将日志文件上传至私有云,避免日志上传操作占用带宽,影响用户的使用体验。所述客户端设备包含计算机网络中的所有设备,因此其包括一般用户使用的终端设备,例如PC、手机等,也包括为终端设备服务的服务器、网关、路由等设备。
由于日志文件包含了计算机网络中各个设备的所有事件,因此会涉及一些安全方面的问题,将这些日志文件上传到私有云保存可以在一定程度上保护用户的数据安全。
在步骤S200中,私有云采用正则表达的方式对每次存入日志数据库中的日志文件进行过滤,并按照是否包含故障信息将日志文件分为两个大类,分别为包含故障信息的日志文件和不包含故障信息的日志文件,筛选出包含故障信息的日志文件后,这些日志文件暂时保存在私有云中,不会立即传输至公有云。
虽然包含故障信息的日志文件只是所有日志文件的一部分,但是依然涉及用户数据安全的问题,因此在公有云主动要求获取这部分日志文件之前,日志文件都暂时保存在私有云,进一步提高用户数据安全。
而且,用户感知到故障并输入故障关键词次数比较少,至少相对于私有云对日志文件初步分析的次数少,因此不需要每次都将筛选出的日志文件上传到公有云,避免占用过多的公共资源。
在步骤S300中,所述客户端设备包括由终端用户或者网络管理员使用的设备,输入的故障关键词为对故障情况的简单描述,可以通过单词或者句子的形式展示。
在步骤S400中,公有云接收到故障关键词后,首先对故障关键词进行标准化处理,确定与故障关键词对应的故障形式,然后搜索确定与该故障形式对应的日志文件表达形式。由于日志文件由不同的软件产生,因此日志文件的格式以及表达形式也各不相同,故确定的故障形式在日志文件中的表达形式存在多种形式的结果,这些结果仅仅是表现形式不同,但都代表同一种故障形式。
所述确定的日志文件表达形式包含故障所属类别,以及故障的具体描述。
所述公有云包含主控服务器和多个分析服务器,公有云在此结构基础上进行故障诊断的方法为:
步骤S401,所述主控服务器从私有云中获取筛选后的日志文件,然后按照故障类别对这些日志文件进行聚类,得到多个类别的日志文件包。
步骤S402,所述主控服务器按照与故障关键词对应的故障类别对日志文件包进行筛选,得到与故障关键词所属故障类别对应的日志文件包。
步骤S403,所述主控服务器对筛选出的日志文件包中的日志文件再次聚类,按照日志文件的属性聚类得到多个日志文件子包。
步骤S404,所述主控服务器将多个日志文件子包分别传输至各个分析服务器,所述分析服务器结合所述日志文件表达形式中的故障具体描述进行故障分析,确定故障原因,以及发生故障的设备。
步骤S405,所述分析服务器将确定的故障诊断结果反馈给主控服务器。
上述实施例中,所述公有云采用MapReduce模型进行故障诊断,对大量的日志文件进行并行处理,大大加快了故障诊断的速度。
在步骤S500中,由所述主控服务器将故障诊断结果反馈给客户端设备。
下面通过一个实例对本发明的方法进行说明。
用户A在日常使用计算机的过程中,突然发现文件下载过程中速度非常慢,经过检查发现计算机的网卡、路由器的状态均正常,经过多次尝试后仍无法解决,此时可以在计算机上输入如“下载速度慢,计算机网卡和路由器正常”这样的故障关键词,计算机将故障关键词发送给公有云,公有云立即开始从私有云获取日志文件并进行故障诊断,最终得到的诊断结果是用户的计算机存在限速设置,用户得知故障原因后,对计算机进行相应设置,即可解决下载速度慢的问题。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.一种基于云计算的故障诊断方法,其特征在于,包括以下步骤:
S100,客户端设备保存日志文件,将日志文件上传至私有云;
S200,私有云对日志文件进行初步分析,筛选出包含故障信息的日志文件;
S300,客户端设备获取故障关键词,发送至公有云;
S400,公有云获取私有云筛选的日志文件,对日志文件进行聚类,根据故障关键词确定所属的聚类,在所属聚类中对日志文件进行分析,得到故障诊断结果;
S500,公有云将故障诊断结果反馈给客户端设备;
在S400中,所述公有云包含主控服务器和多个分析服务器,S400包括:
S401,从私有云中获取筛选后的日志文件,然后按照故障类别对日志文件进行聚类,得到多个类别的日志文件包;
S402,按照与故障关键词对应的故障类别对日志文件包进行筛选,得到与故障关键词所属故障类别对应的日志文件包;
S403,对筛选出的日志文件包中的日志文件再次聚类,按照日志文件的属性聚类得到多个日志文件子包;
S404,将多个日志文件子包分别传输至各个分析服务器,所述分析服务器结合故障具体描述进行故障分析,确定故障诊断结果;
S405,将确定的故障诊断结果反馈给主控服务器;
在S500中,所述主控服务器将故障诊断结果反馈给客户端设备。
2.如权利要求1所述的一种基于云计算的故障诊断方法,其特征在于,在S200中,所述私有云将日志文件保存在日志数据库中。
3.如权利要求2所述的一种基于云计算的故障诊断方法,其特征在于,在S200中,所述私有云采用正则表达的方式对存入日志数据库中的日志文件进行过滤,按照是否包含故障信息将日志文件分为两个大类,即包含故障信息的日志文件和不包含故障信息的日志文件。
4.如权利要求1所述的一种基于云计算的故障诊断方法,其特征在于,在S400中,所述公有云首先对故障关键词进行标准化处理,确定与故障关键词对应的故障形式,然后搜索确定与该故障形式对应的日志文件表达形式,所述日志文件表达形式包含故障所属类别,以及故障的具体描述。
5.如权利要求1所述的一种基于云计算的故障诊断方法,其特征在于,所述客户端设备在运行过程中保存日志文件,当网络占用低时所述客户端设备将日志文件上传至所述私有云。
CN202010312579.0A 2020-04-20 2020-04-20 一种基于云计算的故障诊断方法 Active CN111444156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010312579.0A CN111444156B (zh) 2020-04-20 2020-04-20 一种基于云计算的故障诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010312579.0A CN111444156B (zh) 2020-04-20 2020-04-20 一种基于云计算的故障诊断方法

Publications (2)

Publication Number Publication Date
CN111444156A CN111444156A (zh) 2020-07-24
CN111444156B true CN111444156B (zh) 2023-01-24

Family

ID=71654262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010312579.0A Active CN111444156B (zh) 2020-04-20 2020-04-20 一种基于云计算的故障诊断方法

Country Status (1)

Country Link
CN (1) CN111444156B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117615057A (zh) * 2023-11-22 2024-02-27 中电金信数字科技集团有限公司 故障检测方法、装置、系统、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机系统故障诊断方法及装置
CN106559270A (zh) * 2016-11-30 2017-04-05 交控科技股份有限公司 一种城轨信号设备的数据分析方法及装置
CN107018023A (zh) * 2017-04-17 2017-08-04 广东浪潮大数据研究有限公司 一种服务器诊断方法、装置及系统
CN108038049A (zh) * 2017-12-13 2018-05-15 西安电子科技大学 实时日志控制系统及控制方法、云计算系统及服务器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10795753B2 (en) * 2017-12-08 2020-10-06 Nec Corporation Log-based computer failure diagnosis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机系统故障诊断方法及装置
CN106559270A (zh) * 2016-11-30 2017-04-05 交控科技股份有限公司 一种城轨信号设备的数据分析方法及装置
CN107018023A (zh) * 2017-04-17 2017-08-04 广东浪潮大数据研究有限公司 一种服务器诊断方法、装置及系统
CN108038049A (zh) * 2017-12-13 2018-05-15 西安电子科技大学 实时日志控制系统及控制方法、云计算系统及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于聚类协同过滤的个性化推荐系统;程淑玉;《宜宾学院学报》;20130528(第06期);82-85页 *

Also Published As

Publication number Publication date
CN111444156A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
US10108411B2 (en) Systems and methods of constructing a network topology
US11803548B1 (en) Automated generation of metrics from log data
US20110029657A1 (en) Tracking high-level network transactions
US6704874B1 (en) Network-based alert management
US10268750B2 (en) Log event summarization for distributed server system
US10169434B1 (en) Tokenized HTTP event collector
US20110191394A1 (en) Method of processing log files in an information system, and log file processing system
US11829381B2 (en) Data source metric visualizations
US11144376B2 (en) Veto-based model for measuring product health
CN112350854B (zh) 一种流量故障定位方法、装置、设备及存储介质
CN114968754A (zh) 一种应用程序接口api测试方法以及装置
US20060036728A1 (en) Systems and methods for categorizing network traffic content
US10775751B2 (en) Automatic generation of regular expression based on log line data
CN111444156B (zh) 一种基于云计算的故障诊断方法
CN100433644C (zh) 用于通信网络中的利用自适应诊断模型的诊断设备
CN116186777A (zh) 一种mpp数据库的审计方法及装置
CN111368039B (zh) 一种数据管理系统
US10020990B2 (en) Network stability reconnaisance tool
KR20220093034A (ko) Dns 트래픽의 이상들을 검출하기 위한 방법 및 장치
CN112612679A (zh) 系统运行状态监控方法、装置、计算机设备和存储介质
CN112235367A (zh) 一种实体行为关系消息订阅方法、系统、终端及存储介质
US11693851B2 (en) Permutation-based clustering of computer-generated data entries
US20130205015A1 (en) Method and Device for Analyzing Data Intercepted on an IP Network in order to Monitor the Activity of Users on a Website
KR100621996B1 (ko) 인터넷 서비스 트래픽의 분석방법 및 시스템
CN115396319B (zh) 数据流分片方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant