CN106506243A - 一种基于日志数据的网管故障诊断方法 - Google Patents

一种基于日志数据的网管故障诊断方法 Download PDF

Info

Publication number
CN106506243A
CN106506243A CN201611178331.XA CN201611178331A CN106506243A CN 106506243 A CN106506243 A CN 106506243A CN 201611178331 A CN201611178331 A CN 201611178331A CN 106506243 A CN106506243 A CN 106506243A
Authority
CN
China
Prior art keywords
network element
data
frame
webmaster
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611178331.XA
Other languages
English (en)
Inventor
熊海潮
王立
胡涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Hongxin Telecommunication Technologies Co Ltd
Original Assignee
Wuhan Hongxin Telecommunication Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Hongxin Telecommunication Technologies Co Ltd filed Critical Wuhan Hongxin Telecommunication Technologies Co Ltd
Priority to CN201611178331.XA priority Critical patent/CN106506243A/zh
Publication of CN106506243A publication Critical patent/CN106506243A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于日志数据的网管故障诊断方法,现有的方法在工程维护中存在速度和效率方面的问题。本发明预先设计日志文件关键字格式,且后续结合关键字进行数据抽取,并结合不同的IP地址仿真不同网元链路数据发送,灵活控制发送间隔。如果发现异常,可锁定记录异常帧,用于问题解决之后的结果验证,通过数据帧仿真来减少人力和设备资源依赖,保证系统故障快速排查及故障是否排除的快速验证确认,从而提高工程维护效能和服务质量。

Description

一种基于日志数据的网管故障诊断方法
技术领域
本发明涉及通信领域中的网管监控技术,尤其涉及大量设备维护背景下OMC(Operation management center,操作维护中心)网管系统的故障排查解决办法。本发明能够在文件日志数据中抽取关键数据帧,仿真设备交互流程,从而对故障进行重现,快速定位解决存在的问题。
背景技术
目前网管系统中记录了所管理网元的数据交互日志,跟普通的日志效用类似,这些日志详细记录了处理流程出错原因。通过分析日志数据,能基本明确故障原因所在,原有的日志文件故障排查流程如下:
1.网管应用程序依据程序执行分支情况,及执行函数返回失败的错误码和错误描述信息,写入日志文件;
2.当故障出现时,调取运行输出的日志文件,人为查看日志文件;
3.结合日志文件的错误失败描述,明确造成故障的原因;
4.再根据故障原因描述搜索代码,确定错误位置
但是,随着长时间运行交互累积,日志文件信息量越来越大,这对人工查看分析带来了较大困难。另外,日志分析的最大目的还是要解决潜在的问题,但记录出错原因只能明确一个方向,并不能准确定位出程序异常位置,也不能明确问题修改是否真实解决,往往需同实际网元联测,浪费人力物力,缺乏便捷有效的验证方式。
发明内容
本发明的目的是为了克服上述存在的问题和不足,提供了一种基于日志数据的OMC故障诊断方法。本发明采用的技术方案如下:
一种基于日志数据的网管故障诊断方法,预先设置日志文件格式,通过文件导入操作,依据日志关键字收集抽取数据帧记录;
结合不同的网元编号、IP地址确定网元终端数,并对应归结网元终端数据集,形成发送数据帧列表;每产生一个新的编号、IP地址就创建一条新的socket链路,并控制网元终端的数据发送频度、逐条发送列表中的数据帧,直到抽取的日志记录数据帧全部回放完毕;
诊断发现问题后,通过锁定指定的异常数据帧构造故障场景,点击发送,快速验证故障是否重新出现,确认问题是否真实排除解决。
具体方法如下:
步骤S1.网管应用程序调整日志文件数据生成。
增加日志关键字:TCP-SEND、TCP-RECEIVE,记录同网元交互的发送帧和接收帧,并附加记录网元编号,IP地址等网元标识性属性信息,为后续网元数据分发归类打好基础。日志文件生成上结合文件大小和生成时间分文件,并把文件生成的日期时间写入文件名中,便于后期筛选具体故障时间段的文件。
步骤S2.结合现场故障场景,确定故障发生的时间,核查生成的日志文件目录,并结合日志文件名时间,挑选故障相关时间区间的日志文件数据。避免重现区间过大,可抽取故障前1小时左右的数据文件。
步骤S3.加载日志文件数据,结合步骤S1设定的关键字内容,逐行解析日志内容,抽取存在关键字的记录行,排除其它日志数据。即收集此段时间区间的各网元同网管进程交互的TCP净荷,结合不同网元编号和IP地址,并形成各自的TCP净荷数据帧列表。如图1步骤S3。
步骤S4.通过数据仿真的方式发送各网元数据,即各网元并不是实际存在,只是把网元编号和IP代表一个虚拟网元,因此它们只是一个索引代号,最终各网元是通过同一IP不同的端口来跟网管进程建立通信链路。结合不同的网元IP,统计确定网元数目,从而建立对等数目的TCP链路,并顺序对应链路同网元编号的对应关系,结合步骤S3生成的发送数据帧列表,逐个发送网元数据给网管进程。步骤S5.启动网管程序为调试运行,按照网元与网管的通信协议,逐个封包发送交互数据帧,便于程序单步跟踪,通过定时器控制TCP净荷发送速度,当网管程序出现异常时,结合调试工具,直接定位代码位置并明确异常的数据帧,解决存在的问题。
步骤S6.验证问题是否解决;
结合步骤S5确定的异常数据帧,通过指定输入方式,重新锁定发送该异常数据帧,验证问题是否正确解决。
与现有技术相比,本发明充分考虑日志文件过大带来的问题,避免繁琐的搜索查看过程。该方法把日志文件数据自动化抽取,不需要人为分析日志内容,充分构造故障复现的场景,并且重在故障的复现和问题解决上,为程序跟踪调试、结果验证提供环境支撑,节省人力物力,从而提升OMC网管监控系统故障诊断的效能。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图1进一步说明本发明。
如图1步骤S1:网管进程不只是记录操作流程的成功失败,另外也实时将OMC与网元终端之间的交互数据帧存储下来,并按照特殊的关键字来设定存储格式。通过TCP-SEND、TCP-RECEIVE表明TCP净荷数据发送的方向,用网元终端编号、IP地址来表征网元终端唯一标识,并按照数据采集的开始时间作为文件名,基于设定大小分文件存储。
经过这样的预设计,能够为文件过滤和数据内容过滤提供依据,可为后续数据抽取提供检索基础。一是结合故障日期确定只需从大量日志文件中选择相关日期时间范围文件,避免不相关数据干扰。二是结合关键字格式,只需日志文件内容中抽取网元实际发送的交互数据,从而过滤操作流程等错误描述等不相关日志数据。
如图1步骤S2:结合步骤S1的前期准备,一旦知晓网管进程异常退出的时间,便可以提取相关日期范围的日志文件进行故障重现。
如图1步骤S3:导入文件功能,逐行读取解析数据行,抽取OMC网管接收到的数据,作为数据发送目标集。每读入一行数据帧,均获取数据帧相关的网元编号和IP。读入下一行时首先判断是否是重复的网元编号及IP,如果是,则把该数据帧归集到同一个网元终端。如果不是则新建立一个网元终端,并统计网元终端数。如此循环读取,直到目标日志文件集数据初始化完毕。最终形成各自的TCP净荷数据帧列表。
如图1步骤S4:通过上面的日志文件初始化处理,就可明确网元终端数,以及每个网元终端具体需要发送的数据帧列表。按照终端数去创建匹配的数据链路数,并顺序对应链路同网元终端的关联,通过不同的链路发送各自网元的数据帧列表,达到仿真网元终端链路发送数据帧的目的。这样通过此过程,把交互数据帧日志进行回放,从而构造异常场景,为图1步骤S5提供调试环境支撑。
如图1步骤S5:当网管进程出现异常时,可就地调试查看代码异常点,确定异常原因,同时确定实际造成异常的数据帧。若问题得到解决之后,计划要测试验证,则并不需要重新再复现一遍。
如图1步骤S6:提供了指定发送数据帧的功能,只需锁定异常数据帧,重新发送给OMC网管系统,直接运行验证即可。
本发明通过上述处理可以大幅度提高OMC网管故障的排查效率。因为异常的原因有很多,不容易确定到底是哪一种,如果能把异常场景在调试环境中再现,对问题解决是非常有利的,问题排查的难点是确定问题在哪里,而OMC故障诊断方法则是要解决这样的一个问题。它通过再现异常数据场景,提供实时、直观具体的异常信息,为程序调试定位、故障诊断高效解决提供有力保障。

Claims (2)

1.一种基于日志数据的网管故障诊断方法,其特征在于:预先设置日志文件格式,通过文件导入操作,依据日志关键字收集抽取数据帧记录;
结合不同的网元编号、IP地址确定网元终端数,并对应归结网元终端数据集,形成发送数据帧列表;每产生一个新的编号、IP地址就创建一条新的socket链路,并控制网元终端的数据发送频度、逐条发送列表中的数据帧,直到抽取的日志记录数据帧全部回放完毕;
诊断发现问题后,通过锁定指定的异常数据帧构造故障场景,发送异常数据帧给网管系统,快速验证故障是否重新出现,确认问题是否真实排除解决。
2.根据权利要求1所述的一种基于日志数据的网管故障诊断方法,其特征在于;具体包括以下步骤:
步骤S1、网管应用程序调整日志文件数据生成;
增加日志关键字:TCP-SEND、TCP-RECEIVE,记录同网元交互的发送帧和接收帧,并附加记录网元编号,IP地址等网元标识性属性信息,为后续网元数据分发归类打好基础;日志文件生成上结合文件大小和生成时间分文件,并把文件生成的日期时间写入文件名中,便于后期筛选具体故障时间段的文件;
步骤S2、结合现场故障场景,确定故障发生的时间,核查生成的日志文件目录,并结合日志文件名时间,挑选故障相关时间区间的日志文件数据;
步骤S3、加载日志文件数据,结合步骤S1设定的关键字内容,逐行解析日志内容,抽取存在关键字的记录行,排除其它执行流程描述性日志;即收集此段时间区间的各网元同网管进程交互的TCP净荷,结合不同网元编号和IP地址,并形成各自的TCP净荷数据帧列表;
步骤S4、通过数据仿真的方式发送各网元数据;
结合不同的网元IP,统计确定网元数目,建立对等数目的TCP链路,并顺序对应链路同网元编号的对应关系,结合步骤S3生成的发送数据帧列表,逐个发送网元数据给网管进程;
步骤S5、启动网管程序为调试运行,按照网元与网管的通信协议,逐个封包发送交互数据帧,便于程序单步跟踪,通过定时器控制TCP净荷发送速度,当网管程序出现异常时,结合调试工具,直接定位代码位置并明确异常的数据帧,解决存在的问题;
步骤S6、验证问题是否解决;
结合步骤S5确定的异常数据帧,通过指定输入方式,重新锁定发送该异常数据帧,验证问题是否正确解决。
CN201611178331.XA 2016-12-19 2016-12-19 一种基于日志数据的网管故障诊断方法 Pending CN106506243A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611178331.XA CN106506243A (zh) 2016-12-19 2016-12-19 一种基于日志数据的网管故障诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611178331.XA CN106506243A (zh) 2016-12-19 2016-12-19 一种基于日志数据的网管故障诊断方法

Publications (1)

Publication Number Publication Date
CN106506243A true CN106506243A (zh) 2017-03-15

Family

ID=58334870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611178331.XA Pending CN106506243A (zh) 2016-12-19 2016-12-19 一种基于日志数据的网管故障诊断方法

Country Status (1)

Country Link
CN (1) CN106506243A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153603A (zh) * 2017-12-08 2018-06-12 上海陆家嘴国际金融资产交易市场股份有限公司 数据库服务器故障处理方法、装置和存储介质
CN109100116A (zh) * 2018-05-24 2018-12-28 烽火通信科技股份有限公司 一种光模块故障诊断系统及方法
CN109474492A (zh) * 2018-11-26 2019-03-15 许继集团有限公司 一种报文捕获及定位方法
CN110213074A (zh) * 2019-03-07 2019-09-06 腾讯科技(深圳)有限公司 分布式协议的异常构造方法、系统和装置
CN111694686A (zh) * 2020-06-03 2020-09-22 北京百度网讯科技有限公司 一种异常服务的处理方法、装置、电子设备及存储介质
CN112256581A (zh) * 2020-10-27 2021-01-22 华泰证券股份有限公司 高仿真证券业交易类系统的日志回放测试方法及装置
CN112291805A (zh) * 2020-10-29 2021-01-29 浪潮电子信息产业股份有限公司 一种omc系统监控方法、装置、设备及可读存储介质
CN112511213A (zh) * 2020-11-18 2021-03-16 四川安迪科技实业有限公司 基于日志分析的缺陷定位方法及系统
CN114598525A (zh) * 2022-03-09 2022-06-07 中国医学科学院阜外医院 一种针对网络攻击的ip自动封禁的方法和装置
CN114826884A (zh) * 2022-05-30 2022-07-29 苏州浪潮智能科技有限公司 跨设备协议通信故障定位的方法、装置、设备及可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101309178A (zh) * 2008-07-03 2008-11-19 中兴通讯股份有限公司 一种自动交换光网络系统日志信息的解析方法及装置
CN101477488A (zh) * 2009-01-16 2009-07-08 哈尔滨工程大学 一种面向关键服务系统的系统级悔改恢复方法及系统
CN103490915A (zh) * 2012-06-11 2014-01-01 中兴通讯股份有限公司 故障分析方法及装置
US20140005999A1 (en) * 2012-06-22 2014-01-02 Mentor Graphics Corporation Test bench transaction synchronization in a debugging environment
CN105718354A (zh) * 2016-01-20 2016-06-29 上海斐讯数据通信技术有限公司 一种故障信息的重现方法和重现装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101309178A (zh) * 2008-07-03 2008-11-19 中兴通讯股份有限公司 一种自动交换光网络系统日志信息的解析方法及装置
CN101477488A (zh) * 2009-01-16 2009-07-08 哈尔滨工程大学 一种面向关键服务系统的系统级悔改恢复方法及系统
CN103490915A (zh) * 2012-06-11 2014-01-01 中兴通讯股份有限公司 故障分析方法及装置
US20140005999A1 (en) * 2012-06-22 2014-01-02 Mentor Graphics Corporation Test bench transaction synchronization in a debugging environment
CN105718354A (zh) * 2016-01-20 2016-06-29 上海斐讯数据通信技术有限公司 一种故障信息的重现方法和重现装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153603B (zh) * 2017-12-08 2019-03-19 上海陆家嘴国际金融资产交易市场股份有限公司 数据库服务器故障处理方法、装置和存储介质
CN108153603A (zh) * 2017-12-08 2018-06-12 上海陆家嘴国际金融资产交易市场股份有限公司 数据库服务器故障处理方法、装置和存储介质
CN109100116A (zh) * 2018-05-24 2018-12-28 烽火通信科技股份有限公司 一种光模块故障诊断系统及方法
CN109474492B (zh) * 2018-11-26 2021-04-20 许继集团有限公司 一种报文捕获及定位方法
CN109474492A (zh) * 2018-11-26 2019-03-15 许继集团有限公司 一种报文捕获及定位方法
CN110213074A (zh) * 2019-03-07 2019-09-06 腾讯科技(深圳)有限公司 分布式协议的异常构造方法、系统和装置
CN110213074B (zh) * 2019-03-07 2022-03-11 腾讯科技(深圳)有限公司 分布式协议的异常构造方法、系统和装置
CN111694686A (zh) * 2020-06-03 2020-09-22 北京百度网讯科技有限公司 一种异常服务的处理方法、装置、电子设备及存储介质
CN111694686B (zh) * 2020-06-03 2023-08-04 北京百度网讯科技有限公司 一种异常服务的处理方法、装置、电子设备及存储介质
CN112256581A (zh) * 2020-10-27 2021-01-22 华泰证券股份有限公司 高仿真证券业交易类系统的日志回放测试方法及装置
CN112256581B (zh) * 2020-10-27 2024-01-23 华泰证券股份有限公司 高仿真证券业交易类系统的日志回放测试方法及装置
CN112291805A (zh) * 2020-10-29 2021-01-29 浪潮电子信息产业股份有限公司 一种omc系统监控方法、装置、设备及可读存储介质
CN112291805B (zh) * 2020-10-29 2023-11-07 浪潮电子信息产业股份有限公司 一种omc系统监控方法、装置、设备及可读存储介质
CN112511213A (zh) * 2020-11-18 2021-03-16 四川安迪科技实业有限公司 基于日志分析的缺陷定位方法及系统
CN112511213B (zh) * 2020-11-18 2022-07-22 四川安迪科技实业有限公司 基于日志分析的缺陷定位方法及系统
CN114598525A (zh) * 2022-03-09 2022-06-07 中国医学科学院阜外医院 一种针对网络攻击的ip自动封禁的方法和装置
CN114826884A (zh) * 2022-05-30 2022-07-29 苏州浪潮智能科技有限公司 跨设备协议通信故障定位的方法、装置、设备及可读介质
CN114826884B (zh) * 2022-05-30 2023-08-18 苏州浪潮智能科技有限公司 跨设备协议通信故障定位的方法、装置、设备及可读介质

Similar Documents

Publication Publication Date Title
CN106506243A (zh) 一种基于日志数据的网管故障诊断方法
US9672137B1 (en) Shadow test replay service
Cinque et al. Microservices monitoring with event logs and black box execution tracing
US9697104B2 (en) End-to end tracing and logging
CN107066370A (zh) 一种自动监控并收集故障硬盘日志的工具及方法
CN110750458A (zh) 大数据平台测试方法、装置、可读存储介质及电子设备
CN112241360A (zh) 一种测试用例生成方法、装置、设备及存储介质
CN117155832A (zh) 用于udp传输协议的多端无侵入录制回放测试方法及系统
CN116841865A (zh) 可视化测试方法、装置、电子设备及存储介质
CN108009086B (zh) 基于用例分解和功能学习的系统自动化测试方法
CN116881145B (zh) 基于流量回放的接口测试方法、装置、设备以及存储介质
JP2014035595A (ja) 通信システムの試験装置、通信システムの試験用プログラム及び通信システムの試験方法
CN114860619B (zh) 一种数据库审计程序回归测试方法和装置
CN105991322B (zh) 一种采集适配器管理系统的处理方法和装置
Li et al. Research on microservice application testing system
CN111694752B (zh) 应用测试方法、电子设备及存储介质
CN115114132A (zh) 一种审计程序的性能测试方法和系统
CN114138631A (zh) 一种测试方法和测试装置
CN111966589A (zh) 基于功能测试的bug处理方法、装置和设备
CN111813662A (zh) 用户行为驱动的可持续集成的测试方法、装置和设备
CN105701002A (zh) 一种基于测试的执行路径的记录方法和装置
WO2024098746A1 (zh) 测试方法、装置及相关设备
CN116401139A (zh) 一种软件测试方法及装置
CN118093382A (zh) 游戏测试方法、装置及电子设备
CN117951034A (zh) 一种针对大数据集群组件的全面测试方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170315

RJ01 Rejection of invention patent application after publication