CN113573352B - 基于sla实现5g设备cpe故障告警实时上报的方法 - Google Patents
基于sla实现5g设备cpe故障告警实时上报的方法 Download PDFInfo
- Publication number
- CN113573352B CN113573352B CN202110943949.5A CN202110943949A CN113573352B CN 113573352 B CN113573352 B CN 113573352B CN 202110943949 A CN202110943949 A CN 202110943949A CN 113573352 B CN113573352 B CN 113573352B
- Authority
- CN
- China
- Prior art keywords
- alarm
- cpe
- module
- data
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012544 monitoring process Methods 0.000 claims abstract description 101
- 238000005259 measurement Methods 0.000 claims abstract description 16
- 238000007405 data analysis Methods 0.000 claims abstract description 8
- 238000001514 detection method Methods 0.000 claims description 242
- 238000011084 recovery Methods 0.000 claims description 84
- 230000005856 abnormality Effects 0.000 claims description 71
- 238000012360 testing method Methods 0.000 claims description 38
- 230000002159 abnormal effect Effects 0.000 claims description 23
- 230000000737 periodic effect Effects 0.000 claims description 13
- 239000000523 sample Substances 0.000 claims description 8
- 238000012423 maintenance Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims 34
- 238000004364 calculation method Methods 0.000 claims 4
- 230000007547 defect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/08—Testing, supervising or monitoring using real traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/10—Scheduling measurement reports ; Arrangements for measurement reports
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及一种基于SLA实现5G设备CPE故障告警实时上报的方法。其特征在于包括SLA指标体系选择和告警实时上报监控过程,SLA指标体系包括:1)服务可用性,2)时延和丢包率,3)测速速率;告警实时上报监控过程包括:1)数据解析,2)告警上报,3)告警监控。本发明可以灵活设置针对不同业务目的方向IP的时延,丢包率指标阈值进行监控,通过端侧测速统计,获取真实的管道最大带宽速率,实现多设备多层次实时监控;其次通过串联衔接SEQ、DSI、LTM、CPE等服务模块实现SLA指标故障告警实时上报,配合使用故障树定界主动发现故障问题根因,从而提高故障定位的及时性、准确性和系统可靠性。
Description
技术领域
本发明涉及一种基于SLA实现5G设备CPE故障告警实时上报的方法。
背景技术
由于5G无线网络技术刚起步,运营商管理5G无线网络设备CPE时通常采用下列方式:1)依赖人工监控端到端5G无线网络设备:运营商可以看到CPE模式、AR模式设备网络状态以及设备参数,可直观进行基本的在线离线监控,但设备关键运行指标信息需依靠人工触发检测测试后获知;2)投诉处理中被动发现故障问题:对于5G无线网络设备而言,设备故障是客观存在,随机发生的,5G网络运维和投诉处理中,收到用户投诉工单后逐一对5G无线网络设备问题分析定位,传统的故障定位主要依赖于人工处理。
现有技术存在以下缺点:1)缺乏可衡量手段:当客户设备出现故障并出现争议的时候,需要有相对客观的衡量方法,同时能够让运营商自证清白。于是产生SLA指标衡量体系,SLA指标体系是一种合同契约的要求,SLA指标泛指(速率、时延、丢包、可用性等),对于接入的5G无线网络设备CPE目前没有通用手段可以实时监控周期行指标运行数据;2)缺乏实时上报故障告警功能,自动化程度低:当前5G无线网络终端通过人工触发检测测试获知每个无线网络设备的关键运行指标信息,人工对比指标参照值判断设备运行状态如何,当设备出现故障问题时,相关受影响的关键运行指标信息不能及时获知,导致维护时间长,效率低,客户满意度差。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种基于SLA实现5G设备CPE故障告警实时上报的方法的技术方案。
所述的基于SLA实现5G设备CPE故障告警实时上报的方法,其特征在于包括SLA指标体系选择和告警实时上报监控过程,
(1)SLA指标体系包括:
1)服务可用性
服务可用性指CPE无线网络设备在面对异常时能够提供正常网络服务的能力,即服务的效果、效能和效率,体系中故障告警标识为丢包率检测值大于服务可用性丢包率阈值即服务可用性中断告警,测量对象包括CPE模式和AR模式;
2)时延和丢包率
时延指CPE无线网络设备在访问网络另一端的IP地址得到响应的所需要的时间,体系中故障告警标识分为各个目的方向IP上的时延大于阈值告警即时延告警;丢包率指CPE无线网络设备在访问网络另一端的IP地址得到响应时,一个或多个数据包的数据无法透过网上到达目的地的占比,体系中故障告警标识为各个目的方向IP上的丢包率大于阈值告警即丢包率告警,测量对象包括CPE模式和AR模式;
3)测速速率
测速速率指CPE无线网络设备在收到测速指令进行上传和下载文件时技术上所能达到的最大理论速率值,速率越高,上传和下载的越快,体系中故障告警标识按闲忙时时间段分为上行速率小于阈值告警和下行速率小于阈值告警即上行速率告警、下行速率告警,测量对象不区分CPE模式和AR模式;
(2)告警实时上报监控过程包括:
1)数据解析,包括CPE模式数据解析和AR模式数据解析;
2)告警上报,包括CPE模式告警上报和AR模式告警上报;
3)告警监控,包括周期性指标监控和告警监控。
所述的基于SLA实现5G设备CPE故障告警实时上报的方法,其特征在于:
服务可用性中断告警上报监控过程如下:
步骤一:数据解析
CPE模式:
(1)CEP模块接收用户表中所有属于CPE模式的用户号码所对应的用户面XDR单据探针数据,获取时间、用户号码、上行流量、下行流量这些数据信息;
(2)CEP模块内保存每个用户号码对应提取的数据信息,若超过5分钟CEP模块再没收到这个用户的流量数据信息,此用户数据就会输出加载到PT数据库的疑似故障用户列表内;
(3)SEQ的WEB模块定时间隔5分钟会扫描疑似故障用户列表,获取到所有入表的用户号码多线程并行判断检测条件;
(4)对所有通过检测条件的用户号码去重后关联用户表获取对应的CPE设备号码、随机获取一个目的方向IP;
(5)用每个CPE设备号码和目的方向IP向DSI发送所属的IPPing检测指令请求;
(6)DSI接收到请求后立即转发请求到LTM;
(7)LTM识别请求的CPE设备号码,触发CPE设备提交IPPing检测测试;
(8)WEB模块30秒后会再次用CPE设备号码向DSI发送所属的IPPing Result检测指令请求,通过DSI转发到LTM,LTM触发CPE设备提交IPPing Result检测测试;
(9)CPE设备会将IPPing检测测试结果反馈给LTM;
(10)LTM再将反馈信息立即返回给DSI;
(11)DSI接收到完成检测状态的结果信息后解析为合规格式数据复制为三份,一份输出到SEQ的WEB模块,一份输出到CEP模块,一份输出到SPARK模块;
(12)WEB模块接收后会记录相关日志并更新此设备对应用户的疑似故障用户列表中的检测时间,CEP模块接收后进行告警上报步骤,SPARK模块接收后进行告警监控步骤;
AR模式:
(1)CEP模块接收用户表中所有属于AR模式的用户号码对应的7张用户面XDR单据探针数据,获取时间、用户号码、上行流量、下行流量这些数据信息;
(2)CEP模块内保存每个用户号码对应提取的数据信息,若超过5分钟CEP模块再没收到这个用户的流量数据信息,则进行AR模式下告警上报步骤;
步骤二:告警上报
CPE模式:
(1)CEP模块实时解析流入的合规格式数据,获取5G设备参数信息、主要包括企业名称、用户号码、CPE设备号码、丢包率检测值、服务可用性丢包率阈值、目的方向IP、服务小区电平值、服务小区质量值这些数据信息;
(2)用数据中的丢包率检测值与服务可用性丢包率阈值字段作对比,若存在同一用户号码的不同目的方向IP数据,则以30秒内所有目的方向IP数据中最小丢包率检测值为准;
(3)若丢包率检测值大于服务可用性丢包率阈值,则说明此CPE设备链路异常,同时记录链路异常起始时间点为Time1;
(4)CEP模块保存此设备链路异常信息,并同时向PT数据库加载一条告警标识信息供告警监控使用;
(5)CEP模块此后若再一次收到同一CPE设备号码的合规格式数据,并且丢包率检测值小于等于服务可用性丢包率阈值,则说明此CPE设备链路异常已经恢复;
(6)因为CEP模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为Time2并用用户号码关联为一条链路异常恢复信息;
(7)CEP模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向PT数据库加载一条告警恢复标识信息供告警监控使用;
(8)此CPE设备往复继续执行上述告警上报过程;
AR模式:
(1)CEP模块实时解析流入的用户流量数据信息,关联用户表获取5G设备参数信息、主要包括企业名称、用户号码、CPE设备号码这些数据信息;
(2)同时记录链路异常起始时间点为Time1;
(3)CEP模块保存此设备链路异常信息,并同时向PT数据库加载一条服务可用性中断告警标识信息供告警监控使用;
(4)CEP模块此后若再一次收到同一用户号码的流量数据信息,则说明此用户号码对应的CPE设备链路异常已经恢复;
(5)因为CEP模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为Time2并用用户号码关联为一条链路异常恢复信息;
(6)CEP模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向PT数据库加载一条服务可用性中断告警恢复标识信息供告警监控使用;
(7)由于流量数据信息不包含服务小区电平值、服务小区质量值,SEQ的WEB模块定时间隔3分钟扫描PT数据库中的属于服务可用性指标、AR模式的CPE设备告警信息,用这些告警信息所属的CPE设备号码请求无线数据接口获取服务小区电平值、服务小区质量值,用此更新CPE设备告警信息填入服务小区电平值、服务小区质量值;同时对有Time2告警恢复时间的告警恢复数据用对应告警数据信息的服务小区电平值、服务小区质量值反填更新到告警恢复数据中;
(8)此CPE设备往复继续执行上述告警上报过程;
步骤三:告警监控
周期性指标监控:
(1)SEQ的WEB模块定时间隔3分钟重新查询PT数据库获取此CPE设备服务可用性中断的时间总和;
(2)按照可选月粒度、年粒度计算出服务可用性中断占比;
(3)获取最新计算后的结果数据实现实时监控;
告警监控:
(1)SEQ的WEB模块定时间隔3分钟重新查询PT数据库最新服务可用性中断告警数据及服务可用性中断告警恢复数据;
(2)对查询到标识的服务可用性中断告警数据以红色高亮字体优先表格展示;
(3)对查询到标识的服务可用性中断告警恢复数据按历史告警存储;
(4)维护人员可以通过服务可用性中断告警信息或者服务可用性中断告警恢复信息的定界按钮进入到故障树系统查询具体故障根因。
所述的基于SLA实现5G设备CPE故障告警实时上报的方法,其特征在于所述检测条件如下:
A、先获取此用户在疑似故障用户列表中的检测时间,若检测时间为空就视为通过检测条件;若不为空继续B,其中新入表用户检测时间为空,之前检测过但非成功的用户检测时间不为空;
B、从用户工作时间表里获取此用户对应星期的当天工作时间分段,若用户工作时间段不为空,那么当前时间在工作时间分段范围内就视为通过检测条件;若不在工作时间分段范围内,用当前时间减去检测时间如果大于1小时就视为通过检测条件,否则就视为没有通过检测条件;若用户工作时间表里没有此用户或者此用户对应星期的当天工作时间段为空,则用当前时间减去检测时间如果大于1小时就视为通过检测条件,否则就视为没有通过检测条件。
所述的基于SLA实现5G设备CPE故障告警实时上报的方法,其特征在于:时延和丢包率故障告警上报监控过程如下:
步骤一:数据解析
CPE模式:
(1)SEQ的WEB模块定时间隔1小时获取用户表中所有属于CPE模式的CPE设备号码、目的方向IP;
(2)用每个CPE设备号码多线程并行向DSI发送每个CPE设备所属的IPPing检测指令请求,若一个CPE设备号码配置了多个目的方向IP,则多个目的方向IPPing检测指令请求依次同步执行;
(3)DSI接收到请求后立即转发请求到LTM;
(4)LTM识别请求的CPE设备号码,触发CPE设备提交IPPing检测测试;
(5)WEB模块30秒后会再次用CPE设备号码向DSI发送所属的IPPing Result检测指令请求,通过DSI转发到LTM,LTM触发CPE设备提交IPPing Result检测测试;
(6)CPE设备会将IPPing检测测试结果反馈给LTM;
(7)LTM将反馈信息立即返回给DSI;
(8)DSI接收到完成检测状态的结果信息后解析为合规格式数据复制为三份,一份输出到SEQ的WEB模块,一份输出到CEP模块,一份输出到SPARK模块;
(9)WEB模块接收后会记录相关日志,CEP模块接收后进行告警上报步骤,SPARK模块接收后进行告警监控步骤;
AR模式:
(1)利用AR的NQA特性定时间隔5分钟对用户表中所有属于AR模式的CPE设备号码触发IPPing检测测试;
(2)CPE设备完成IPPing检测测试后反馈给AR;
(3)AR将IPPing结果信息通过SFTP协议上传到DSI;
(4)DSI接收到结果信息后解析为合规格式数据复制为二份,一份输出到CEP模块,一份输出到SPARK模块;
(5)CEP模块接收后进行AR模式告警上报步骤,SPARK模块接收后进行告警监控步骤;
步骤二:告警上报
CPE模式:
(1)CEP模块实时解析流入的合规格式数据,获取5G设备参数信息、主要包括企业名称、用户号码、CPE设备号码、时延检测值、时延阈值、丢包率检测值、丢包率阈值、目的方向IP、服务小区电平值、服务小区质量值这些数据信息;
(2)用数据中的时延检测值、丢包率检测值与时延阈值、丢包率阈值字段作对比,若存在同一用户号码的不同目的方向IP数据,则以30秒内所有目的方向IP数据中最小时延检测值或最小丢包率检测值为准;
(3)若时延检测值大于时延阈值或者丢包率检测值大于丢包率阈值,则说明此CPE设备链路异常,同时记录链路异常起始时间点为Time1;
(4)CEP模块保存此设备链路异常信息,并同时向PT数据库加载一条时延或丢包率告警标识信息供告警监控使用;
(5)CEP模块此后若再一次收到同一用户号码的合规格式数据,并且时延检测值小于等于时延阈值或者丢包率检测值小于等于丢包率阈值,则说明此CPE设备链路异常已经恢复;
(6)因为CEP模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为Time2并用用户号码和目的方向IP关联为一条链路异常恢复信息,包含Time1告警时间,Time2告警恢复时间;
(7)CEP模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向PT数据库加载一条时延或丢包率告警恢复标识信息供告警监控使用;
(8)此CPE设备往复继续执行上述告警上报过程;
AR模式:
AR模式过程与CPE模式一致;
步骤三:告警监控
周期性指标监控:
(1)SPARK模块定时间隔1小时对流入的合规格式数据进行解析获取5G设备参数信息、主要包括企业名称、用户号码、CPE设备号码、时延检测值、时延阈值、丢包率检测值、丢包率阈值这些数据信息;
(2)将同一用户号码的时延检测值、丢包率检测值按平均数公式计算汇聚为时延平均值、丢包率平均值;
(3)将计算后的结果采集加载到IQ数据库;
(4)SEQ的WEB模块定时间隔3分钟重新读取IQ数据库最近1小时时延或丢包率数据实现实时监控;
告警监控:
(1)SEQ的WEB模块定时间隔3分钟重新查询PT数据库最新时延或丢包率告警数据及时延或丢包率告警恢复数据;
(2)对查询到标识的时延或丢包率告警数据以红色高亮字体表格展示;
(3)对查询到标识的时延或丢包率告警恢复数据按历史告警存储;
(4)维护人员可以通过时延或丢包率告警信息或者时延或丢包率告警恢复信息进入到故障树系统查询具体故障根因。
所述的基于SLA实现5G设备CPE故障告警实时上报的方法,其特征在于:速率上行和下行告警上报监控过程如下:
步骤一:数据解析
(1)SEQ的WEB模块定时间隔1小时按照用户工作时间表中闲时和忙时时间段获取用户表中所有待测速的CPE设备号码;
(2)用每个CPE设备号码多线程并行向DSI发送每个CPE所属的Upload上行速率检测指令和Download下行速率检测指令请求,一个CPE设备上行和下行速率检测指令请求依次同步执行;
(3)DSI接收到请求后立即转发请求到LTM;
(4)LTM识别请求的CPE设备,触发CPE提交速率检测测试;
(5)WEB模块30秒后会再次用CPE设备号码向DSI发送所属的Result检测指令请求,通过DSI转发到LTM,LTM触发CPE设备提交Result检测测试;
(6)CPE设备会将速率检测测试结果反馈给LTM;
(7)LTM将反馈信息立即返回给DSI;
(8)DSI接收到完成检测状态的结果信息后解析为合规格式数据复制为三份,一份输出到SEQ的WEB模块,一份输出到CEP模块,一份输出到SPARK模块;
(9)WEB模块接收后会记录相关日志,CEP模块接收后进行告警上报步骤,SPARK模块接收后进行告警监控步骤;
步骤二:告警上报
(1)CEP模块实时解析流入的合规格式数据,获取5G设备参数信息、主要包括企业名称、用户号码、设备号码、上行速率检测值、下行速率检测值、上行速率阈值、下行速率阈值、服务小区电平值、服务小区质量值这些数据信息;
(2)用数据中的上下行速率检测值与上下行速率阈值分别作对比;
(3)若上行速率检测值小于上行速率阈值,则说明此CPE设备链路上行速率异常,同时记录链路异常起始时间点为Time1;若下行速率检测值小于下行速率阈值,则说明此CPE设备链路下行速率异常,同时记录链路异常起始时间点为Time1;
(4)CEP模块保存此设备链路异常信息,并同时向PT数据库加载一条速率告警信息供告警监控使用;
(5)CEP模块此后若再一次收到同一CPE设备的合规格式数据,并且上行速率检测值大于等于上行速率阈值或者下行速率检测值大于等于下行速率阈值,则说明此CPE设备链路异常已经恢复;
(6)因为CEP模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为Time2并用用户号码和上下行关联为一条链路异常恢复信息,包含Time1告警时间,Time2告警恢复时间;
(7)CEP模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向PT数据库加载一条速率告警恢复标识信息供告警监控使用;
(8)此CPE设备往复继续执行上述告警上报过程;
步骤三:告警监控
周期性指标监控:
(1)SPARK模块定时间隔1小时对流入的合规格式数据进行解析获取5G设备参数信息、主要包括企业名称、用户号码、设备号码、上行速率检测值、下行速率检测值、上行速率阈值、下行速率阈值这些数据信息;
(2)将同一用户号码的上行速率检测值、下行速率检测值指标按平均数公式计算汇聚为上行速率检测平均值、下行速率检测平均值;
(3)将计算后的结果采集加载到IQ数据库;
(4)SEQ的WEB模块定时间隔3分钟重新读取IQ数据库最近1小时速率数据实现实时监控;
告警监控:
(1)SEQ的WEB模块定时间隔3分钟重新查询PT数据库最新速率告警数据及速率告警恢复数据;
(2)对查询到标识的速率告警数据以红色高亮字体表格展示;
(3)对查询到标识的速率告警恢复数据按历史告警存储;
(4)维护人员可以通过点击速率告警信息或者速率告警恢复信息进入到故障树系统查询具体故障根因。
本发明为客户提供了一个可衡量的SLA指标考核体系测量方法,SLA指标体系从端侧(CPE、AR)到业务侧(服务器),基本覆盖全业务路径,可以灵活设置针对不同业务目的方向IP(海湾国家,欧美,远东等)的时延,丢包率指标阈值进行监控,通过端侧测速统计,同时在忙时和闲时两个时段测量,获取真实的管道最大带宽速率,实现多设备多层次实时监控;其次通过串联衔接SEQ、DSI、LTM、CPE等服务模块实现SLA指标故障告警实时上报,配合使用故障树定界主动发现故障问题根因,从而提高故障定位的及时性、准确性和系统可靠性,提高产品竞争力,提升客户满意度。
具体实施方式
针对背景技术的现状,经过我司长期对一线的无线网络检测业务进行汇总分类研究,本发明为解决上述技术缺陷引起的问题,提出串联衔接服务模块,基于SLA指标体系实现5G无线网络设备CPE故障告警实时上报的方案。
本发明的基于SLA指标体系实现5G无线网络设备CPE故障告警实时上报的方法,包括SLA指标体系选择和告警实时上报监控过程。
本方案基于客户实际业务诉求,为此构建一套可供考核的SLA指标考核体系,该SLA指标体系包括三大指标类:
1.服务可用性:
这里服务可用性指CPE无线网络设备在面对异常时可以提供正常网络服务的能力,即服务的效果、效能和效率,本体系中故障告警标识为丢包率检测值大于服务可用性丢包率阈值即服务可用性中断告警;测量对象包括CPE模式和AR模式。
2.时延和丢包率(可配置多个目的方向IP):
这里时延指CPE无线网络设备在访问网络另一端的IP地址得到响应的所需要的时间,本体系中故障告警标识分为各个目的方向IP上的时延大于阈值告警即时延告警;这里丢包率特指CPE无线网络设备在访问网络另一端的IP地址得到响应时,一个或多个数据包的数据无法透过网上到达目的地的占比,本体系中故障告警标识为各个目的方向IP上的丢包率大于阈值告警即丢包率告警;测量对象包括CPE模式和AR模式。
3.测速速率(上行和下行):
这里测速速率指CPE无线网络设备在收到测速指令进行上传和下载文件时技术上所能达到的最大理论速率值,速率越高,上传和下载的越快,本体系中故障告警标识按闲忙时时间段分为上行速率小于阈值告警和下行速率小于阈值告警即上行速率告警、下行速率告警;测量对象不区分CPE模式和AR模式。
本发明定义一个CPE设备对应一个用户号码,通过串联衔接SEQ、DSI、LTM、CPE等服务模块实现SLA指标故障告警实时上报,其中告警上报监控过程主要分为三大步骤,每个步骤分为俩个小类,具体如下:
1.数据解析:CPE模式数据解析,AR模式数据解析
2.告警上报:CPE模式告警上报,AR模式告警上报
3.告警监控:周期性指标监控,告警监控
服务可用性中断告警上报监控过程如下:
步骤一:数据解析
CPE模式:
(1)CEP模块接收用户表中所有属于CPE模式的用户号码所对应的7张用户面XDR单据探针数据,获取时间、用户号码、上行流量、下行流量等数据信息,
7张用户面XDR单据探针数据包括:
DETAIL_UFDR_OTHER
DETAIL_UFDR_HTTP_BROWSING
DETAIL_UFDR_EMAIL
DETAIL_UFDR_MMS
DETAIL_UFDR_DNS
DETAIL_UFDR_FTP
DETAIL_UFDR_STREAMING
(2)CEP模块内保存每个用户号码对应提取的数据信息,若超过5分钟CEP模块再没收到这个用户的流量数据信息(上行流量+下行流量= 0),此用户数据就会输出加载到PT数据库的疑似故障用户列表内;
(3)SEQ的WEB模块定时间隔5分钟会扫描疑似故障用户列表,获取到所有入表的用户号码多线程并行判断检测条件;
检测条件为:A、先获取此用户在疑似故障用户列表中的检测时间,若检测时间为空就视为通过检测条件;若不为空进入步骤B,(新入表用户检测时间为空,之前检测过但非成功的用户检测时间不为空);
B、从用户工作时间表里获取此用户对应星期的当天工作时间分段(如9点-12点,14点-18点),若用户工作时间段不为空,那么当前时间在工作时间分段范围内就视为通过检测条件;若不在工作时间分段范围内,用当前时间减去检测时间如果大于1小时就视为通过检测条件,否则就视为没有通过检测条件;若用户工作时间表里没有此用户或者此用户对应星期的当天工作时间段为空,则用当前时间减去检测时间如果大于1小时就视为通过检测条件,否则就视为没有通过检测条件;
(4)对所有通过检测条件的用户号码去重后关联用户表获取对应的CPE设备号码、随机获取一个目的方向IP;
(5)用每个CPE设备号码和目的方向IP向DSI发送所属的IPPing检测指令请求;
(6)DSI接收到请求后立即转发请求到LTM;
(7)LTM识别请求的CPE设备号码,触发CPE设备提交IPPing检测测试;
(8)WEB模块30秒后会再次用CPE设备号码向DSI发送所属的IPPing Result检测指令请求,通过DSI转发到LTM,LTM触发CPE设备提交IPPing Result检测测试;
(9)CPE设备会将IPPing检测测试结果反馈给LTM;
(10)LTM再将反馈信息立即返回给DSI;
(11)DSI接收到完成检测状态的结果信息后解析为合规格式数据复制为三份,一份输出到SEQ的WEB模块,一份输出到CEP模块,一份输出到SPARK模块;
(12)WEB模块接收后会记录相关日志并更新此设备对应用户的疑似故障用户列表中的检测时间,CEP模块接收后进行告警上报步骤,SPARK模块接收后进行告警监控步骤;
备注:CPE设备的IPPing检测测试最长时间为2分钟,若(11)接收到非完成检测状态的结果信息,则WEB模块会定时间隔30秒重复上述(8)-(11)过程,直到接收到完成检测状态的结果信息后为止,完成检测状态的结果信息内容包括成功、失败、超时。
AR模式:
(1)CEP模块接收用户表中所有属于AR模式的用户号码对应的7张用户面XDR单据探针数据,获取时间、用户号码、上行流量、下行流量等数据信息;
7张用户面XDR单据探针数据包括:
DETAIL_UFDR_OTHER
DETAIL_UFDR_HTTP_BROWSING
DETAIL_UFDR_EMAIL
DETAIL_UFDR_MMS
DETAIL_UFDR_DNS
DETAIL_UFDR_FTP
DETAIL_UFDR_STREAMING
(2)CEP模块内保存每个用户号码对应提取的数据信息,若超过5分钟CEP模块再没收到这个用户的流量数据信息(上行流量+下行流量= 0),则进行AR模式下告警上报步骤。
步骤二:告警上报
CPE模式:
(1)CEP模块实时解析流入的合规格式数据,获取5G设备参数信息、主要包括企业名称、用户号码、CPE设备号码、丢包率检测值、服务可用性丢包率阈值、目的方向IP、服务小区电平值、服务小区质量值等数据信息;
(2)用数据中的丢包率检测值与服务可用性丢包率阈值字段作对比,若存在同一用户号码的不同目的方向IP数据,则以30秒内所有目的方向IP数据中最小丢包率检测值为准;
(3)若丢包率检测值大于服务可用性丢包率阈值,则说明此CPE设备链路异常,同时记录链路异常起始时间点为Time1;
(4)CEP模块保存此设备链路异常信息,并同时向PT数据库加载一条告警标识信息供告警监控使用;
(5)CEP模块此后若再一次收到同一CPE设备号码的合规格式数据,并且丢包率检测值小于等于服务可用性丢包率阈值,则说明此CPE设备链路异常已经恢复;
(6)因为CEP模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为Time2并用用户号码关联为一条链路异常恢复信息(包含Time1告警时间,Time2告警恢复时间);
(7)CEP模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向PT数据库加载一条告警恢复标识信息供告警监控使用;
(8)此CPE设备往复继续执行上述告警上报过程。
AR模式:
(1)CEP模块实时解析流入的用户流量数据信息,关联用户表获取5G设备参数信息、主要包括企业名称、用户号码、CPE设备号码等数据信息;
(2)同时记录链路异常起始时间点为Time1;
(3)CEP模块保存此设备链路异常信息,并同时向PT数据库加载一条服务可用性中断告警标识信息供告警监控使用;
(4)CEP模块此后若再一次收到同一用户号码的流量数据信息,则说明此用户号码对应的CPE设备链路异常已经恢复;
(5)因为CEP模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为Time2并用用户号码关联为一条链路异常恢复信息(包含Time1告警时间,Time2告警恢复时间);
(6)CEP模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向PT数据库加载一条服务可用性中断告警恢复标识信息供告警监控使用;
(7)由于流量数据信息(非合规格式数据)不包含服务小区电平值、服务小区质量值,SEQ的WEB模块定时间隔3分钟扫描PT数据库中的属于服务可用性指标、AR模式的CPE设备告警信息(Time1告警时间在当前时间15分钟内的),用这些告警信息所属的CPE设备号码请求无线数据接口获取服务小区电平值、服务小区质量值等,用此更新CPE设备告警信息填入服务小区电平值、服务小区质量值;同时对有Time2告警恢复时间的告警恢复数据用对应告警数据信息的服务小区电平值、服务小区质量值反填更新到告警恢复数据中;
(8)此CPE设备往复继续执行上述告警上报过程。
步骤三:告警监控
周期性指标监控:
(1)SEQ的WEB模块定时间隔3分钟重新查询PT数据库获取此CPE设备服务可用性中断的时间总和(包含处于告警未恢复到当前的时间);
(2)按照可选月粒度((全月总时长 - 当前服务可用性中断时间总和)/全月总时长),年粒度((全年总时长 - 当前服务可用性中断时间总和)/全年总时长)计算出服务可用性中断占比;
(3)获取最新计算后的结果数据实现实时监控;
告警监控:
(1)SEQ的WEB模块定时间隔3分钟重新查询PT数据库最新服务可用性中断告警数据及服务可用性中断告警恢复数据;
(2)对查询到标识的服务可用性中断告警数据以红色高亮字体优先表格展示;
(3)对查询到标识的服务可用性中断告警恢复数据按历史告警存储;
(4)维护人员可以通过服务可用性中断告警信息或者服务可用性中断告警恢复信息的定界按钮进入到故障树系统查询具体故障根因。
时延和丢包率故障告警上报监控过程如下:
步骤一:数据解析
CPE模式:
(1)SEQ的WEB模块定时间隔1小时获取用户表中所有属于CPE模式的CPE设备号码、目的方向IP;
(2)用每个CPE设备号码多线程并行向DSI发送每个CPE设备所属的IPPing检测指令请求(若一个CPE设备号码配置了多个目的方向IP,则多个目的方向IPPing检测指令请求依次同步执行);
(3)DSI接收到请求后立即转发请求到LTM;
(4)LTM识别请求的CPE设备号码,触发CPE设备提交IPPing检测测试;
(5)WEB模块30秒后会再次用CPE设备号码向DSI发送所属的IPPing Result检测指令请求,通过DSI转发到LTM,LTM触发CPE设备提交IPPing Result检测测试;
(6)CPE设备会将IPPing检测测试结果反馈给LTM;
(7)LTM将反馈信息立即返回给DSI;
(8)DSI接收到完成检测状态的结果信息后解析为合规格式数据复制为三份,一份输出到SEQ的WEB模块,一份输出到CEP模块,一份输出到SPARK模块;
(9)WEB模块接收后会记录相关日志,CEP模块接收后进行告警上报步骤,SPARK模块接收后进行告警监控步骤;
备注:CPE设备的IPPing检测测试最长时间为2分钟,若(8)接收到非完成检测状态的结果信息,则WEB模块会定时间隔30秒重复上述(5)-(8)过程,直到接收到完成检测状态的结果信息后为止,完成检测状态的结果信息内容包括成功、失败、超时。
AR模式:
(1)利用AR的NQA特性定时间隔5分钟对用户表中所有属于AR模式的CPE设备号码触发IPPing检测测试;
(2)CPE设备完成IPPing检测测试后反馈给AR;
(3)AR将IPPing结果信息通过SFTP协议上传到DSI;
(4)DSI接收到结果信息后解析为合规格式数据复制为二份,一份输出到CEP模块,一份输出到SPARK模块;
(5)CEP模块接收后进行AR模式告警上报步骤,SPARK模块接收后进行告警监控步骤。
步骤二:告警上报
CPE模式:
(1)CEP模块实时解析流入的合规格式数据,获取5G设备参数信息、主要包括企业名称、用户号码、CPE设备号码、时延检测值、时延阈值、丢包率检测值、丢包率阈值、目的方向IP、服务小区电平值、服务小区质量值等数据信息;
(2)用数据中的时延检测值、丢包率检测值与时延阈值、丢包率阈值字段作对比,若存在同一用户号码的不同目的方向IP数据,则以30秒内所有目的方向IP数据中最小时延检测值或最小丢包率检测值为准;
(3)若时延检测值大于时延阈值或者丢包率检测值大于丢包率阈值,则说明此CPE设备链路异常,同时记录链路异常起始时间点为Time1;
(4)CEP模块保存此设备链路异常信息,并同时向PT数据库加载一条时延或丢包率告警标识信息供告警监控使用;
(5)CEP模块此后若再一次收到同一用户号码的合规格式数据,并且时延检测值小于等于时延阈值或者丢包率检测值小于等于丢包率阈值,则说明此CPE设备链路异常已经恢复;
(6)因为CEP模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为Time2并用用户号码和目的方向IP关联为一条链路异常恢复信息(包含Time1告警时间,Time2告警恢复时间);
(7)CEP模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向PT数据库加载一条时延或丢包率告警恢复标识信息供告警监控使用;
(8)此CPE设备往复继续执行上述告警上报过程;
AR模式:
AR模式过程与CPE模式一致。
步骤三:告警监控
周期性指标监控:
(1)SPARK模块定时间隔1小时对流入的合规格式数据进行解析获取5G设备参数信息、主要包括企业名称、用户号码、CPE设备号码、时延检测值、时延阈值、丢包率检测值、丢包率阈值等数据信息;
(2)将同一用户号码的时延检测值、丢包率检测值按平均数公式计算汇聚为时延平均值、丢包率平均值;
(3)将计算后的结果采集加载到IQ数据库;
(4)SEQ的WEB模块定时间隔3分钟重新读取IQ数据库最近1小时时延或丢包率数据实现实时监控;
告警监控:
(1)SEQ的WEB模块定时间隔3分钟重新查询PT数据库最新时延或丢包率告警数据及时延或丢包率告警恢复数据;
(2)对查询到标识的时延或丢包率告警数据以红色高亮字体表格展示;
(3)对查询到标识的时延或丢包率告警恢复数据按历史告警存储;
(4)维护人员可以通过时延或丢包率告警信息或者时延或丢包率告警恢复信息进入到故障树系统查询具体故障根因。
速率上行和下行告警上报监控过程如下:
步骤一:数据解析
(1)SEQ的WEB模块定时间隔1小时按照用户工作时间表中闲时和忙时时间段(如9-12,14-18)获取用户表中所有待测速的CPE设备号码;
(2)用每个CPE设备号码多线程并行向DSI发送每个CPE所属的Upload上行速率检测指令和Download下行速率检测指令请求(一个CPE设备上行和下行速率检测指令请求依次同步执行);
(3)DSI接收到请求后立即转发请求到LTM;
(4)LTM识别请求的CPE设备,触发CPE提交速率检测测试;
(5)WEB模块30秒后会再次用CPE设备号码向DSI发送所属的Result检测指令请求,通过DSI转发到LTM,LTM触发CPE设备提交Result检测测试;
(6)CPE设备会将速率检测测试结果反馈给LTM;
(7)LTM将反馈信息立即返回给DSI;
(8)DSI接收到完成检测状态的结果信息后解析为合规格式数据复制为三份,一份输出到SEQ的WEB模块,一份输出到CEP模块,一份输出到SPARK模块;
(9)WEB模块接收后会记录相关日志,CEP模块接收后进行告警上报步骤,SPARK模块接收后进行告警监控步骤;
备注:CPE设备的速率检测测试最长时间上下行同为5分钟,若(8)接收到非完成检测状态的结果信息,则WEB模块会定时间隔30秒重复上述(5)-(8)过程,直到接收到完成检测状态的结果信息后为止。
步骤二:告警上报
(1)CEP模块实时解析流入的合规格式数据,获取5G设备参数信息、主要包括企业名称、用户号码、设备号码、上行速率检测值、下行速率检测值、上行速率阈值、下行速率阈值、服务小区电平值、服务小区质量值等数据信息;
(2)用数据中的上下行速率检测值与上下行速率阈值分别作对比;
(3)若上行速率检测值小于上行速率阈值,则说明此CPE设备链路上行速率异常,同时记录链路异常起始时间点为Time1。若下行速率检测值小于下行速率阈值,则说明此CPE设备链路下行速率异常,同时记录链路异常起始时间点为Time1;
(4)CEP模块保存此设备链路异常信息,并同时向PT数据库加载一条速率告警信息供告警监控使用;
(5)CEP模块此后若再一次收到同一CPE设备的合规格式数据,并且上行速率检测值大于等于上行速率阈值或者下行速率检测值大于等于下行速率阈值,则说明此CPE设备链路异常已经恢复;
(6)因为CEP模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为Time2并用用户号码和上下行关联为一条链路异常恢复信息(包含Time1告警时间,Time2告警恢复时间);
(7)CEP模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向PT数据库加载一条速率告警恢复标识信息供告警监控使用;
(8)此CPE设备往复继续执行上述告警上报过程。
步骤三:告警监控
周期性指标监控:
(1)SPARK模块定时间隔1小时对流入的合规格式数据进行解析获取5G设备参数信息、主要包括企业名称、用户号码、设备号码、上行速率检测值、下行速率检测值、上行速率阈值、下行速率阈值等数据信息;
(2)将同一用户号码的上行速率检测值、下行速率检测值指标按平均数公式计算汇聚为上行速率检测平均值、下行速率检测平均值;
(3)将计算后的结果采集加载到IQ数据库;
(4)SEQ的WEB模块定时间隔3分钟重新读取IQ数据库最近1小时速率数据实现实时监控;
告警监控:
(1)SEQ的WEB模块定时间隔3分钟重新查询PT数据库最新速率告警数据及速率告警恢复数据;
(2)对查询到标识的速率告警数据以红色高亮字体表格展示;
(3)对查询到标识的速率告警恢复数据按历史告警存储;
(4)维护人员可以通过点击速率告警信息或者速率告警恢复信息进入到故障树系统查询具体故障根因。
/>
Claims (4)
1.基于SLA实现5G设备CPE故障告警实时上报的方法,其特征在于包括SLA指标体系选择和告警实时上报监控过程,
(1)SLA指标体系包括:
1)服务可用性
服务可用性指CPE无线网络设备在面对异常时能够提供正常网络服务的能力,即服务的效果、效能和效率,体系中故障告警标识为丢包率检测值大于服务可用性丢包率阈值即服务可用性中断告警,测量对象包括CPE模式和AR模式;
2)时延和丢包率
时延指CPE无线网络设备在访问网络另一端的IP地址得到响应的所需要的时间,体系中故障告警标识分为各个目的方向IP上的时延大于阈值告警即时延告警;丢包率指CPE无线网络设备在访问网络另一端的IP地址得到响应时,一个或多个数据包的数据无法透过网上到达目的地的占比,体系中故障告警标识为各个目的方向IP上的丢包率大于阈值告警即丢包率告警,测量对象包括CPE模式和AR模式;
3)测速速率
测速速率指CPE无线网络设备在收到测速指令进行上传和下载文件时技术上所能达到的最大理论速率值,速率越高,上传和下载的越快,体系中故障告警标识按闲忙时时间段分为上行速率小于阈值告警和下行速率小于阈值告警即上行速率告警、下行速率告警,测量对象不区分CPE模式和AR模式;
(2)告警实时上报监控过程包括:
1)数据解析,包括CPE模式数据解析和AR模式数据解析;
2)告警上报,包括CPE模式告警上报和AR模式告警上报;
3)告警监控,包括周期性指标监控和告警监控;
速率上行和下行告警上报监控过程如下:
步骤一:数据解析
(1)多模块综合管理平台SEQ的WEB模块定时间隔1小时按照用户工作时间表中闲时和忙时时间段获取用户表中所有待测速的CPE设备号码;
(2)用每个CPE设备号码多线程并行向集成订阅管理模块DSI发送每个CPE所属的Upload上行速率检测指令和Download下行速率检测指令请求,一个CPE设备上行和下行速率检测指令请求依次同步执行;
(3)集成订阅管理模块DSI接收到请求后立即转发请求到管理CPE的平台LTM;
(4)管理CPE的平台LTM识别请求的CPE设备,触发CPE提交速率检测测试;
(5)WEB模块30秒后会再次用CPE设备号码向集成订阅管理模块DSI发送所属的Result检测指令请求,通过集成订阅管理模块DSI转发到管理CPE的平台LTM,管理CPE的平台LTM触发CPE设备提交Result检测测试;
(6)CPE设备会将速率检测测试结果反馈给管理CPE的平台LTM;
(7)管理CPE的平台LTM将反馈信息立即返回给集成订阅管理模块DSI;
(8)集成订阅管理模块DSI接收到完成检测状态的结果信息后解析为合规格式数据复制为三份,一份输出到多模块综合管理平台SEQ的WEB模块,一份输出到实时数据处理模块CEP模块,一份输出到大规模数据处理而设计的快速通用的计算引擎SPARK模块;
(9)WEB模块接收后会记录相关日志,实时数据处理模块CEP模块接收后进行告警上报步骤,大规模数据处理而设计的快速通用的计算引擎SPARK模块接收后进行告警监控步骤;
步骤二:告警上报
(1)实时数据处理模块CEP模块实时解析流入的合规格式数据,获取5G设备参数信息、主要包括企业名称、用户号码、设备号码、上行速率检测值、下行速率检测值、上行速率阈值、下行速率阈值、服务小区电平值、服务小区质量值这些数据信息;
(2)用数据中的上下行速率检测值与上下行速率阈值分别作对比;
(3)若上行速率检测值小于上行速率阈值,则说明此CPE设备链路上行速率异常,同时记录链路异常起始时间点为Time1;若下行速率检测值小于下行速率阈值,则说明此CPE设备链路下行速率异常,同时记录链路异常起始时间点为Time1;
(4)实时数据处理模块CEP模块保存此设备链路异常信息,并同时向全功能的自由软件数据库PT数据库加载一条速率告警信息供告警监控使用;
(5)实时数据处理模块CEP模块此后若再一次收到同一CPE设备的合规格式数据,并且上行速率检测值大于等于上行速率阈值或者下行速率检测值大于等于下行速率阈值,则说明此CPE设备链路异常已经恢复;
(6)因为实时数据处理模块CEP模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为Time2并用用户号码和上下行关联为一条链路异常恢复信息,包含Time1告警时间,Time2告警恢复时间;
(7)实时数据处理模块CEP模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向全功能的自由软件数据库PT数据库加载一条速率告警恢复标识信息供告警监控使用;
(8)此CPE设备往复继续执行上述告警上报过程;
步骤三:告警监控
周期性指标监控:
(1)大规模数据处理而设计的快速通用的计算引擎SPARK模块定时间隔1小时对流入的合规格式数据进行解析获取5G设备参数信息、主要包括企业名称、用户号码、设备号码、上行速率检测值、下行速率检测值、上行速率阈值、下行速率阈值这些数据信息;
(2)将同一用户号码的上行速率检测值、下行速率检测值指标按平均数公式计算汇聚为上行速率检测平均值、下行速率检测平均值;
(3)将计算后的结果采集加载到IQ数据库;
(4)多模块综合管理平台SEQ的WEB模块定时间隔3分钟重新读取IQ数据库最近1小时速率数据实现实时监控;
告警监控:
(1)多模块综合管理平台SEQ的WEB模块定时间隔3分钟重新查询全功能的自由软件数据库PT数据库最新速率告警数据及速率告警恢复数据;
(2)对查询到标识的速率告警数据以红色高亮字体表格展示;
(3)对查询到标识的速率告警恢复数据按历史告警存储;
(4)维护人员可以通过点击速率告警信息或者速率告警恢复信息进入到故障树系统查询具体故障根因。
2.根据权利要求1所述的基于SLA实现5G设备CPE故障告警实时上报的方法,其特征在于:
服务可用性中断告警上报监控过程如下:
步骤一:数据解析
CPE模式:
(1)实时数据处理模块CEP模块接收用户表中所有属于CPE模式的用户号码所对应的用户面XDR单据探针数据,获取时间、用户号码、上行流量、下行流量这些数据信息;
(2)实时数据处理模块CEP模块内保存每个用户号码对应提取的数据信息,若超过5分钟实时数据处理模块CEP模块再没收到这个用户的流量数据信息,此用户数据就会输出加载到全功能的自由软件数据库PT数据库的疑似故障用户列表内;
(3)多模块综合管理平台SEQ的WEB模块定时间隔5分钟会扫描疑似故障用户列表,获取到所有入表的用户号码多线程并行判断检测条件;
(4)对所有通过检测条件的用户号码去重后关联用户表获取对应的CPE设备号码、随机获取一个目的方向IP;
(5)用每个CPE设备号码和目的方向IP向集成订阅管理模块DSI发送所属的IPPing检测指令请求;
(6)集成订阅管理模块DSI接收到请求后立即转发请求到管理CPE的平台LTM;
(7)管理CPE的平台LTM识别请求的CPE设备号码,触发CPE设备提交IPPing检测测试;
(8)WEB模块30秒后会再次用CPE设备号码向集成订阅管理模块DSI发送所属的IPPingResult检测指令请求,通过集成订阅管理模块DSI转发到管理CPE的平台LTM,管理CPE的平台LTM触发CPE设备提交IPPing Result检测测试;
(9)CPE设备会将IPPing检测测试结果反馈给管理CPE的平台LTM;
(10)管理CPE的平台LTM再将反馈信息立即返回给集成订阅管理模块DSI;
(11)集成订阅管理模块DSI接收到完成检测状态的结果信息后解析为合规格式数据复制为三份,一份输出到多模块综合管理平台SEQ的WEB模块,一份输出到实时数据处理模块CEP模块,一份输出到大规模数据处理而设计的快速通用的计算引擎SPARK模块;
(12)WEB模块接收后会记录相关日志并更新此设备对应用户的疑似故障用户列表中的检测时间,实时数据处理模块CEP模块接收后进行告警上报步骤,大规模数据处理而设计的快速通用的计算引擎SPARK模块接收后进行告警监控步骤;
AR模式:
(1)实时数据处理模块CEP模块接收用户表中所有属于AR模式的用户号码对应的7张用户面XDR单据探针数据,获取时间、用户号码、上行流量、下行流量这些数据信息;
(2)实时数据处理模块CEP模块内保存每个用户号码对应提取的数据信息,若超过5分钟实时数据处理模块CEP模块再没收到这个用户的流量数据信息,则进行AR模式下告警上报步骤;
步骤二:告警上报
CPE模式:
(1)实时数据处理模块CEP模块实时解析流入的合规格式数据,获取5G设备参数信息、主要包括企业名称、用户号码、CPE设备号码、丢包率检测值、服务可用性丢包率阈值、目的方向IP、服务小区电平值、服务小区质量值这些数据信息;
(2)用数据中的丢包率检测值与服务可用性丢包率阈值字段作对比,若存在同一用户号码的不同目的方向IP数据,则以30秒内所有目的方向IP数据中最小丢包率检测值为准;
(3)若丢包率检测值大于服务可用性丢包率阈值,则说明此CPE设备链路异常,同时记录链路异常起始时间点为Time1;
(4)实时数据处理模块CEP模块保存此设备链路异常信息,并同时向全功能的自由软件数据库PT数据库加载一条告警标识信息供告警监控使用;
(5)实时数据处理模块CEP模块此后若再一次收到同一CPE设备号码的合规格式数据,并且丢包率检测值小于等于服务可用性丢包率阈值,则说明此CPE设备链路异常已经恢复;
(6)因为实时数据处理模块CEP模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为Time2并用用户号码关联为一条链路异常恢复信息;
(7)实时数据处理模块CEP模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向全功能的自由软件数据库PT数据库加载一条告警恢复标识信息供告警监控使用;
(8)此CPE设备往复继续执行上述告警上报过程;
AR模式:
(1)实时数据处理模块CEP模块实时解析流入的用户流量数据信息,关联用户表获取5G设备参数信息、主要包括企业名称、用户号码、CPE设备号码这些数据信息;
(2)同时记录链路异常起始时间点为Time1;
(3)实时数据处理模块CEP模块保存此设备链路异常信息,并同时向全功能的自由软件数据库PT数据库加载一条服务可用性中断告警标识信息供告警监控使用;
(4)实时数据处理模块CEP模块此后若再一次收到同一用户号码的流量数据信息,则说明此用户号码对应的CPE设备链路异常已经恢复;
(5)因为实时数据处理模块CEP模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为Time2并用用户号码关联为一条链路异常恢复信息;
(6)实时数据处理模块CEP模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向全功能的自由软件数据库PT数据库加载一条服务可用性中断告警恢复标识信息供告警监控使用;
(7)由于流量数据信息不包含服务小区电平值、服务小区质量值,多模块综合管理平台SEQ的WEB模块定时间隔3分钟扫描全功能的自由软件数据库PT数据库中的属于服务可用性指标、AR模式的CPE设备告警信息,用这些告警信息所属的CPE设备号码请求无线数据接口获取服务小区电平值、服务小区质量值,用此更新CPE设备告警信息填入服务小区电平值、服务小区质量值;同时对有Time2告警恢复时间的告警恢复数据用对应告警数据信息的服务小区电平值、服务小区质量值反填更新到告警恢复数据中;
(8)此CPE设备往复继续执行上述告警上报过程;
步骤三:告警监控
周期性指标监控:
(1)多模块综合管理平台SEQ的WEB模块定时间隔3分钟重新查询全功能的自由软件数据库PT数据库获取此CPE设备服务可用性中断的时间总和;
(2)按照可选月粒度、年粒度计算出服务可用性中断占比;
(3)获取最新计算后的结果数据实现实时监控;
告警监控:
(1)多模块综合管理平台SEQ的WEB模块定时间隔3分钟重新查询全功能的自由软件数据库PT数据库最新服务可用性中断告警数据及服务可用性中断告警恢复数据;
(2)对查询到标识的服务可用性中断告警数据以红色高亮字体优先表格展示;
(3)对查询到标识的服务可用性中断告警恢复数据按历史告警存储;
(4)维护人员可以通过服务可用性中断告警信息或者服务可用性中断告警恢复信息的定界按钮进入到故障树系统查询具体故障根因。
3.根据权利要求2所述的基于SLA实现5G设备CPE故障告警实时上报的方法,其特征在于所述检测条件如下:
A、先获取此用户在疑似故障用户列表中的检测时间,若检测时间为空就视为通过检测条件;若不为空继续B,其中新入表用户检测时间为空,之前检测过但非成功的用户检测时间不为空;
B、从用户工作时间表里获取此用户对应星期的当天工作时间分段,若用户工作时间段不为空,那么当前时间在工作时间分段范围内就视为通过检测条件;若不在工作时间分段范围内,用当前时间减去检测时间如果大于1小时就视为通过检测条件,否则就视为没有通过检测条件;若用户工作时间表里没有此用户或者此用户对应星期的当天工作时间段为空,则用当前时间减去检测时间如果大于1小时就视为通过检测条件,否则就视为没有通过检测条件。
4.根据权利要求1所述的基于SLA实现5G设备CPE故障告警实时上报的方法,其特征在于:时延和丢包率故障告警上报监控过程如下:
步骤一:数据解析
CPE模式:
(1)多模块综合管理平台SEQ的WEB模块定时间隔1小时获取用户表中所有属于CPE模式的CPE设备号码、目的方向IP;
(2)用每个CPE设备号码多线程并行向集成订阅管理模块DSI发送每个CPE设备所属的IPPing检测指令请求,若一个CPE设备号码配置了多个目的方向IP,则多个目的方向IPPing检测指令请求依次同步执行;
(3)集成订阅管理模块DSI接收到请求后立即转发请求到管理CPE的平台LTM;
(4)管理CPE的平台LTM识别请求的CPE设备号码,触发CPE设备提交IPPing检测测试;
(5)WEB模块30秒后会再次用CPE设备号码向集成订阅管理模块DSI发送所属的IPPingResult检测指令请求,通过集成订阅管理模块DSI转发到管理CPE的平台LTM,管理CPE的平台LTM触发CPE设备提交IPPing Result检测测试;
(6)CPE设备会将IPPing检测测试结果反馈给管理CPE的平台LTM;
(7)管理CPE的平台LTM将反馈信息立即返回给集成订阅管理模块DSI;
(8)集成订阅管理模块DSI接收到完成检测状态的结果信息后解析为合规格式数据复制为三份,一份输出到多模块综合管理平台SEQ的WEB模块,一份输出到实时数据处理模块CEP模块,一份输出到大规模数据处理而设计的快速通用的计算引擎SPARK模块;
(9)WEB模块接收后会记录相关日志,实时数据处理模块CEP模块接收后进行告警上报步骤,大规模数据处理而设计的快速通用的计算引擎SPARK模块接收后进行告警监控步骤;
AR模式:
(1)利用AR的NQA特性定时间隔5分钟对用户表中所有属于AR模式的CPE设备号码触发IPPing检测测试;
(2)CPE设备完成IPPing检测测试后反馈给AR;
(3)AR将IPPing结果信息通过SFTP协议上传到集成订阅管理模块DSI;
(4)集成订阅管理模块DSI接收到结果信息后解析为合规格式数据复制为二份,一份输出到实时数据处理模块CEP模块,一份输出到大规模数据处理而设计的快速通用的计算引擎SPARK模块;
(5)实时数据处理模块CEP模块接收后进行AR模式告警上报步骤,大规模数据处理而设计的快速通用的计算引擎SPARK模块接收后进行告警监控步骤;
步骤二:告警上报
CPE模式:
(1)实时数据处理模块CEP模块实时解析流入的合规格式数据,获取5G设备参数信息、主要包括企业名称、用户号码、CPE设备号码、时延检测值、时延阈值、丢包率检测值、丢包率阈值、目的方向IP、服务小区电平值、服务小区质量值这些数据信息;
(2)用数据中的时延检测值、丢包率检测值与时延阈值、丢包率阈值字段作对比,若存在同一用户号码的不同目的方向IP数据,则以30秒内所有目的方向IP数据中最小时延检测值或最小丢包率检测值为准;
(3)若时延检测值大于时延阈值或者丢包率检测值大于丢包率阈值,则说明此CPE设备链路异常,同时记录链路异常起始时间点为Time1;
(4)实时数据处理模块CEP模块保存此设备链路异常信息,并同时向全功能的自由软件数据库PT数据库加载一条时延或丢包率告警标识信息供告警监控使用;
(5)实时数据处理模块CEP模块此后若再一次收到同一用户号码的合规格式数据,并且时延检测值小于等于时延阈值或者丢包率检测值小于等于丢包率阈值,则说明此CPE设备链路异常已经恢复;
(6)因为实时数据处理模块CEP模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为Time2并用用户号码和目的方向IP关联为一条链路异常恢复信息,包含Time1告警时间,Time2告警恢复时间;
(7)实时数据处理模块CEP模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向全功能的自由软件数据库PT数据库加载一条时延或丢包率告警恢复标识信息供告警监控使用;
(8)此CPE设备往复继续执行上述告警上报过程;
AR模式:
AR模式过程与步骤二的告警上报中CPE模式一致;
步骤三:告警监控
周期性指标监控:
(1)大规模数据处理而设计的快速通用的计算引擎SPARK模块定时间隔1小时对流入的合规格式数据进行解析获取5G设备参数信息、主要包括企业名称、用户号码、CPE设备号码、时延检测值、时延阈值、丢包率检测值、丢包率阈值这些数据信息;
(2)将同一用户号码的时延检测值、丢包率检测值按平均数公式计算汇聚为时延平均值、丢包率平均值;
(3)将计算后的结果采集加载到IQ数据库;
(4)多模块综合管理平台SEQ的WEB模块定时间隔3分钟重新读取IQ数据库最近1小时时延或丢包率数据实现实时监控;
告警监控:
(1)多模块综合管理平台SEQ的WEB模块定时间隔3分钟重新查询全功能的自由软件数据库PT数据库最新时延或丢包率告警数据及时延或丢包率告警恢复数据;
(2)对查询到标识的时延或丢包率告警数据以红色高亮字体表格展示;
(3)对查询到标识的时延或丢包率告警恢复数据按历史告警存储;
(4)维护人员可以通过时延或丢包率告警信息或者时延或丢包率告警恢复信息进入到故障树系统查询具体故障根因。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110943949.5A CN113573352B (zh) | 2021-08-17 | 2021-08-17 | 基于sla实现5g设备cpe故障告警实时上报的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110943949.5A CN113573352B (zh) | 2021-08-17 | 2021-08-17 | 基于sla实现5g设备cpe故障告警实时上报的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113573352A CN113573352A (zh) | 2021-10-29 |
CN113573352B true CN113573352B (zh) | 2023-12-05 |
Family
ID=78171921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110943949.5A Active CN113573352B (zh) | 2021-08-17 | 2021-08-17 | 基于sla实现5g设备cpe故障告警实时上报的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113573352B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115277366A (zh) * | 2022-07-28 | 2022-11-01 | 上海镁信健康科技有限公司 | 一种基于接口的sla告警系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10153845A1 (de) * | 2001-10-24 | 2003-05-15 | Robert Scholderer | Verfahren und Anordnung zur Qualitätsüberwachung von IT-Dienstleistungen sowie ein entsprechendes Computerprogrammprodukt und ein entsprechendes Speichermedium |
KR20060062000A (ko) * | 2004-12-02 | 2006-06-09 | 한국전자통신연구원 | 통신 서비스 고장 품질 관리 장치 및 그 방법 |
CN1852158A (zh) * | 2005-11-29 | 2006-10-25 | 华为技术有限公司 | 一种电信网络告警的实现方法及其系统 |
US7688951B1 (en) * | 2005-12-22 | 2010-03-30 | At&T Intellectual Property Ii, L.P. | Automated rules based proactive alarm analysis and response |
US9001685B1 (en) * | 2013-03-14 | 2015-04-07 | Sprint Communications Company L.P. | Bi-directional real-time data connection troubleshooting |
CN112564976A (zh) * | 2020-12-11 | 2021-03-26 | 江苏亿通高科技股份有限公司 | 一种基于tr069协议的性能参数监控方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9887906B2 (en) * | 2014-09-15 | 2018-02-06 | Verizon Patent And Licensing Inc. | Network service restoration-on-demand |
-
2021
- 2021-08-17 CN CN202110943949.5A patent/CN113573352B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10153845A1 (de) * | 2001-10-24 | 2003-05-15 | Robert Scholderer | Verfahren und Anordnung zur Qualitätsüberwachung von IT-Dienstleistungen sowie ein entsprechendes Computerprogrammprodukt und ein entsprechendes Speichermedium |
KR20060062000A (ko) * | 2004-12-02 | 2006-06-09 | 한국전자통신연구원 | 통신 서비스 고장 품질 관리 장치 및 그 방법 |
CN1852158A (zh) * | 2005-11-29 | 2006-10-25 | 华为技术有限公司 | 一种电信网络告警的实现方法及其系统 |
US7688951B1 (en) * | 2005-12-22 | 2010-03-30 | At&T Intellectual Property Ii, L.P. | Automated rules based proactive alarm analysis and response |
US9001685B1 (en) * | 2013-03-14 | 2015-04-07 | Sprint Communications Company L.P. | Bi-directional real-time data connection troubleshooting |
CN112564976A (zh) * | 2020-12-11 | 2021-03-26 | 江苏亿通高科技股份有限公司 | 一种基于tr069协议的性能参数监控方法 |
Non-Patent Citations (2)
Title |
---|
"宽带IP网络SLA服务的实施建议";曹晓强;《广东通信技术》;第1-2节 * |
Bo Yuan ; Chun Zhao."Research on Transmission Delay of SD-WAN CPE".《2020 IEEE 20th International Conference on Communication Technology (ICCT) 》.2020,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113573352A (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9686166B2 (en) | Power fluctuation detection and analysis | |
US9491285B2 (en) | Technique for performance management in a mobile communications network | |
CN116880412B (zh) | 一种基于云的可视化生产管理平台 | |
CN112422344A (zh) | 日志异常的告警方法、装置、存储介质及电子装置 | |
CN110650052B (zh) | 一种基于智能算法的客户原因故障识别处理方法及系统 | |
CN105657413A (zh) | 视频质量智能监测平台 | |
EP3633925B1 (en) | Method and system for remote quality of experience diagnostics | |
CN113573352B (zh) | 基于sla实现5g设备cpe故障告警实时上报的方法 | |
US20150249585A1 (en) | Detection apparatus, detection method, and detection program | |
US8781463B2 (en) | Method of and an operating support system for providing performance management in a Mobile telecommunications system | |
US7617313B1 (en) | Metric transport and database load | |
CN109963292B (zh) | 投诉预测的方法、装置、电子设备和存储介质 | |
CN107888394B (zh) | 网络故障原因定位的方法及装置 | |
CN105703942B (zh) | 一种日志采集方法及装置 | |
CN109035746B (zh) | 一种集抄终端的机能判断方法和系统 | |
CN109510724B (zh) | 一种基于tas装置的数据采集及应用的方法 | |
CN112886683A (zh) | 蓄电池监控系统 | |
CN108055659B (zh) | 一种终端设备的数据处理方法及系统、设备 | |
CA3057536A1 (en) | Method and system for remote quality of experience diagnostics | |
KR100812946B1 (ko) | 이동 통신망에서의 서비스 품질 관리 시스템 및 방법 | |
Meilei et al. | Research on Key Technology and System Design of Network Performance Monitoring System | |
CN104639353A (zh) | 用于电信网管系统的性能数据采集方法及服务器 | |
US20230261954A1 (en) | Adaptive Event Processing for Cost-Efficient CEM | |
CN114513432A (zh) | 上网异常离线的检测方法、装置、介质及设备 | |
CN117834007A (zh) | 一种前传链路的故障根因定位方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |