CN111817909A - 一种基于行为集合模板监测的设备健康管理方法 - Google Patents

一种基于行为集合模板监测的设备健康管理方法 Download PDF

Info

Publication number
CN111817909A
CN111817909A CN202010533207.0A CN202010533207A CN111817909A CN 111817909 A CN111817909 A CN 111817909A CN 202010533207 A CN202010533207 A CN 202010533207A CN 111817909 A CN111817909 A CN 111817909A
Authority
CN
China
Prior art keywords
message
behavior
behavior set
equipment
sending
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010533207.0A
Other languages
English (en)
Other versions
CN111817909B (zh
Inventor
盛震宇
王向敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
724th Research Institute of CSIC
Original Assignee
724th Research Institute of CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 724th Research Institute of CSIC filed Critical 724th Research Institute of CSIC
Priority to CN202010533207.0A priority Critical patent/CN111817909B/zh
Publication of CN111817909A publication Critical patent/CN111817909A/zh
Application granted granted Critical
Publication of CN111817909B publication Critical patent/CN111817909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/067Generation of reports using time frame reporting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于行为集合模板监测的设备健康管理方法,其中包括:对时间进行多粒度层次划分,按粒度时间段对设备节点的报文集合、报文发送频率集合、报文发送平均流量集合等行为进行统计,形成设备节点行为集合;按照时间粒度层次划分出实时阶段与历史阶段,设备节点的历史阶段行为集合形成模板库;根据模板库分别计算设备节点采集周期的行为集合元素总数占比值及频率、平均流量的序列相似度,与设定阈值进行比较,监测系统运行状态是否正常,从而实现对设备的健康管理。

Description

一种基于行为集合模板监测的设备健康管理方法
技术领域
本发明属于设备状态监测技术领域,特别涉及根据设备节点的网络活动行为作为模板进行设备状态监测。
背景技术
设备健康管理通常采用心跳报文、状态反馈报文机制,根据心跳报文判断设备是否正在工作,通过状态反馈报文判断设备工作状态,从而实现系统各设备节点的健康管理。比如,专利CN201510439035.X公开的“基于模板的在线社交网络垃圾信息实时监测方法”,该方法采用建立垃圾信息模板库对各节点待检测信息进行字符串匹配,从而过滤出垃圾信息,判断网络节点是否异常;专利CN201610505519.4公开的“一种网络检测的方法及相关装置”,其通过在响应周期内检测设备间的响应报文,从而确认系统网络间的状态是否正常。
随着设备系统规模逐步扩大,在某些时候当设备工作环境异常,其收发数据量激增,超过了该设备的处理上限,导致该设备节点处于超负荷运行,使得系统卡顿,此时根据状态反馈报文无法反映这种异常工作状态;同时,某些设备节点出现了故障会向外发送大量垃圾报文,造成系统网络阻塞,导致其它设备节点的心跳报文或状态反馈报文无法及时收发,使得原有的设备健康管理机制失效;此外,当心跳报文或状态反馈报文通过一个线程进行收发,若此设备其它功能正常运行,但该线程发生死锁或崩溃,则无法通过原有健康管理机制进行设备状态监测。
报文是系统设备间传输的基本单元,其发送类型、频率及流量通常具有一定的规律性。当设备节点正常运行时,其发送报文的类型、频率及数据流量相对稳定,且存在一定的范围边界。
发明内容
本发明克服了心跳报文、状态反馈报文机制在某些情况下失效的问题,提高设备健康管理的准确性。
本发明提供一种基于模板监测的设备健康管理方法,包括以下步骤:
步骤1:对时间进行多粒度层次划分,确定历史阶段和采集周期;
步骤2:在采集周期统计设备节点的行为集合,采集周期结束后将此周期内统计的设备节点行为集合加入行为集合模板库;
步骤3:根据采集周期统计的收发报文集合与行为集合模板库中的收发报文集合做占比值计算,并将占比值与设定阈值做比对处理;
步骤4:对采集周期统计的行为集合根据行为集合模板库做序列相似性计算,进一步判断设备节点的健康状态。
进一步的,步骤1所述的对时间进行多粒度层次划分,是将时间分成粗细不同的粒度时间段,且粗粒度时间段包含细粒度时间段,当前最细粒度时间段定义为采集周期时间段;将当前采集周期时间段定义为实时阶段,之前的全部时间段定义为历史阶段。
更进一步的,步骤2所述的行为集合,是指一个粒度时间段的设备节点行为集合,该集合由该粒度时间段内的设备节点收发报文集合、设备节点报文收发频率集合和设备节点报文收发平均流量集合组成,且高时间粒度段的行为集合包含低粒度时间段的行为集合。
更进一步的,步骤2所述的行为集合模板库,指的是一个设备节点历史阶段中各粒度时间段的行为集合形成的历史模板库,且每个采集周期结束后将此周期内统计的设备节点行为集合加入行为集合模板库。
更进一步的,步骤3具体过程可包括:计算设备节点在采集周期的行为集合元素总数与行为集合模板库中该设备节点的行为集合元素总数的占比值,若占比值介于设定阈值上下限之间,则表示该设备节点报文收发种类正常,转入步骤4;若占比值高于上限阈值,需要对不在报文集合中的报文进行分析,判断其是否属于异常报文,若判断其不属于异常报文则反馈更新模板库上限阈值,否则提示用户设备节点存在收发异常报文;若占比值低于下限阈值,则表示该设备节点部分报文未进行正常收发,提示用户检查是不是部分线程出现了死锁或崩溃情况,若判断其状态正常,则反馈更新模板库下限阈值;
更进一步的,步骤4可包括以下步骤:
步骤4-1,在行为集合模板库中查找该设备节点采集周期行为集合的同级最相邻时间段行为集合;
步骤4-2,对采集周期统计的报文收发频率集合与步骤4-1查找的行为集合中的报文收发频率集合做序列相似性计算;若频率序列相似性计算值高于设定阈值,则表明该设备节点发送报文的规律发生较大变化,查找出收发频率变化较大的报文,并向用户进行提示该报文收发存在异常;
步骤4-3,对采集周期统计的报文收发流量集合与步骤4-1查找的行为集合中的报文收发流量集合做序列相似性计算;若流量序列相似性计算值高于设定阈值,则需判断该设备节点收发报文的流量变化,若该设备节点某种报文收发流量骤减,则提示用户检查设备节点的部分线程是否出现了死锁或崩溃情况,若该设备节点某种报文收发流量激增,则提示用户检查该设备节点是否出现循环发报文的情况。
本发明按时间段分析设备节点的网络活动行为,形成检测模板,通过与模板匹配的方法对系统各设备节点实时健康管理。本发明克服了心跳报文、状态反馈报文机制在某些情况下失效的问题,提高了设备健康管理的准确性。
附图说明
图1本发明实施例流程图。
具体实施方式
下面结合实施例和附图对本发明作进一步解释说明。本发明实施例流程如图1所示。
首先对时间进行多粒度层次划分,可以划分为Tm1、Tm2、...、Tm12等12个月粒度时间段,每个月粒度时间段可以划分为Td1、Td2、...、Td31等30或31个日粒度时间段(具体个数以当月天数确定),每个日粒度时间段可以划分为Ts1、Ts2、Tds3、Tds4四个采集期时间段(Ts1表示某日的0:00-5:59:59这个时间段,Ts2表示某日的6:00-11:59:59这个时间段,以此类推)。
选取系统中设备节点发送的报文类型、发送频率及数据流量作为网络行为的特征描述。定义设备节点i在粒度时间段t内的行为集合Vit=﹛CUijt,CPijt,CVijt﹜(k∈Z,j≥0,j≤k),i表示设备节点的编号,t表示粒度时间段,k表示在t这个粒度时间段内设备节点i收发过的报文种类数。CUijt=﹛CUi1t,CUi2t,...,CUikt﹜表示设备节点i在粒度时间段t内收发过的k种报文的集合,CPijt=﹛CPi1t,CPi2t,...,CPikt﹜表示设备节点i在粒度时间段t内收发过的k种报文的频率集合,且CPi1t+CPi2t+...+CPikt=1,CVijt=﹛CVi1t,CVi2t,...,CVikt﹜表示设备节点i在粒度时间段t内收发过的k种报文的平均流量集合。
除采集周期时间段外,设备节点i某个粒度时间段的行为集合是由其所包含的若干子粒度时间段的行为集合取并集形成,即
Figure BDA0002536159610000031
Figure BDA0002536159610000032
时间按粒度划分后,当前统计的采集周期为实时阶段,之前的全部时间段为历史阶段。历史阶段中设备节点各粒度时间段的行为集合形成历史模板库。
当一个采集周期结束后,统计出设备节点行为集合信息,与历史模板库做比对处理,先统计模板库中该设备节点在该采集周期下的行为集合元素总数sn,该设备节点i在采集周期粒度时间段的行为集合元素总数为N,然后计算占比值δs
Figure BDA0002536159610000033
得出的占比值δs与设定的模板上限阈δsmax值、下限阈值δsmin做比较,若占比值在上下限之间,则表示设备节点报文收发种类正常,需要进一步做频率和流量的序列相似性计算;若占比值高于上限阈值,需要对不在报文集合中的报文进行分析,判断其是否属于异常报文,若判断其不属于异常报文则反馈更新模板库上限阈值,否则提示用户设备节点存在收发异常报文;若占比值低于下限阈值,则表示该设备节点部分报文未进行正常收发,提示用户检查是不是部分线程出现了死锁或崩溃情况,若判断其状态正常,则反馈更新模板库下限阈值。对于更高粒度时间段的行为集合也按上述方式做处理。
第二步在历史模板库中查找该设备节点采集周期行为集合的同级最相邻时间段行为集合,并对这两个行为集合中的频率集合、平均流量集合做序列相似性计算。例如当前采集周期行为集合为
Figure BDA0002536159610000041
其同级最相邻时间段对应的行为集合为
Figure BDA0002536159610000042
分别计算频率集合序列相似度θp与平均流量集合序列相似度θv
Figure BDA0002536159610000043
Figure BDA0002536159610000044
然后将θp与设定阈值θ′p做比较,θv与设定阈值θ′v做比较。若θp高于设定阈值,则表明该设备节点发送报文的规律发生了较大变化,查找出收发频率变化较大的报文,并向用户进行提示该报文收发存在异常;若θv高于设定阈值,则需判断该设备节点收发报文的流量变化,若该设备节点某种报文收发流量骤减,则提示用户检查设备节点的部分线程是否出现了死锁或崩溃情况,若该设备节点某种报文收发流量激增,则提示用户检查该设备节点是否出现循环发报文的情况。

Claims (6)

1.一种基于行为集合模板监测的设备健康管理方法,其特征在于:
步骤1:对时间进行多粒度层次划分,确定历史阶段和采集周期;
步骤2:在采集周期统计设备节点的行为集合,采集周期结束后将此周期内统计的设备节点行为集合加入行为集合模板库;
步骤3:根据采集周期统计的收发报文集合与行为集合模板库中的收发报文集合做占比值计算,并将占比值与设定阈值做比对处理;
步骤4:对采集周期统计的行为集合根据行为集合模板库做序列相似性计算,进一步判断设备节点的健康状态。
2.根据权利要求1所述的基于行为集合模板监测的设备健康管理方法,其特征在于:所述步骤1中对时间进行多粒度层次划分,将时间分成了粗细不同的粒度时间段,且粗粒度时间段包含细粒度时间段,当前最细粒度时间段定义为采集周期时间段;将当前采集周期时间段定义为实时阶段,之前的全部时间段定义为历史阶段。
3.根据权利要求2所述的基于行为集合模板监测的设备健康管理方法,其特征在于:所述步骤2中一个粒度时间段的设备节点的行为集合由该粒度时间段内的设备节点收发报文集合、设备节点报文收发频率集合和设备节点报文收发平均流量集合组成,且高时间粒度段的行为集合包含低粒度时间段的行为集合。
4.根据权利要求3所述的基于行为集合模板监测的设备健康管理方法,其特征在于:所述步骤2中一个设备节点的历史阶段中各粒度时间段的行为集合形成历史模板库定义为行为集合模板库,每个采集周期结束后将此周期内统计的设备节点行为集合加入行为集合模板库。
5.根据权利要求4所述的基于行为集合模板监测的设备健康管理方法,其特征在于:所述步骤3中计算设备节点在采集周期的行为集合元素总数与行为集合模板库中该设备节点的行为集合元素总数的占比值,若占比值介于设定阈值上下限之间,则表示该设备节点报文收发种类正常,转入步骤4;若占比值高于上限阈值,需要对不在报文集合中的报文进行分析,判断其是否属于异常报文,若判断其不属于异常报文则反馈更新模板库上限阈值,否则提示用户设备节点存在收发异常报文;若占比值低于下限阈值,则表示该设备节点部分报文未进行正常收发,提示用户检查是不是部分线程出现了死锁或崩溃情况,若判断其状态正常,则反馈更新模板库下限阈值。
6.根据权利要求5所述的基于行为集合模板监测的设备健康管理方法,其特征在于:所述步骤4中行为集合序列相似性计算为:
步骤4-1:在行为集合模板库中查找该设备节点采集周期行为集合的同级最相邻时间段行为集合;
步骤4-2:对采集周期统计的报文收发频率集合与步骤4-1查找的行为集合中的报文收发频率集合做序列相似性计算;若频率序列相似性计算值高于设定阈值,则表明该设备节点发送报文的规律发生较大变化,查找出收发频率变化较大的报文,并向用户进行提示该报文收发存在异常;
步骤4-3:对采集周期统计的报文收发流量集合与步骤4-1查找的行为集合中的报文收发流量集合做序列相似性计算;若流量序列相似性计算值高于设定阈值,则需判断该设备节点收发报文的流量变化,若该设备节点某种报文收发流量骤减,则提示用户检查设备节点的部分线程是否出现了死锁或崩溃情况,若该设备节点某种报文收发流量激增,则提示用户检查该设备节点是否出现循环发报文的情况。
CN202010533207.0A 2020-06-12 2020-06-12 一种基于行为集合模板监测的设备健康管理方法 Active CN111817909B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010533207.0A CN111817909B (zh) 2020-06-12 2020-06-12 一种基于行为集合模板监测的设备健康管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010533207.0A CN111817909B (zh) 2020-06-12 2020-06-12 一种基于行为集合模板监测的设备健康管理方法

Publications (2)

Publication Number Publication Date
CN111817909A true CN111817909A (zh) 2020-10-23
CN111817909B CN111817909B (zh) 2022-01-21

Family

ID=72845996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010533207.0A Active CN111817909B (zh) 2020-06-12 2020-06-12 一种基于行为集合模板监测的设备健康管理方法

Country Status (1)

Country Link
CN (1) CN111817909B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112565183A (zh) * 2020-10-29 2021-03-26 中国船舶重工集团公司第七0九研究所 一种基于流式动态时间规整算法的网络流量异常检测方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103095728A (zh) * 2013-02-07 2013-05-08 重庆大学 一种基于行为数据融合的网络安全评分系统和方法
CN103532940A (zh) * 2013-09-30 2014-01-22 广东电网公司电力调度控制中心 网络安全检测方法及装置
US20140258296A1 (en) * 2013-03-11 2014-09-11 Dell Products L.P. System and method for management of network monitoring information
CN105049291A (zh) * 2015-08-20 2015-11-11 广东睿江科技有限公司 一种检测网络流量异常的方法
CN106209432A (zh) * 2016-06-30 2016-12-07 中国人民解放军国防科学技术大学 基于动态阈值的网络设备亚健康预警方法及装置
CN106936778A (zh) * 2015-12-29 2017-07-07 北京国双科技有限公司 网站流量异常的检测方法和装置
CN108718303A (zh) * 2018-05-09 2018-10-30 北京仁和诚信科技有限公司 安全运维管理方法及系统
US20190174449A1 (en) * 2018-02-09 2019-06-06 Intel Corporation Technologies to authorize user equipment use of local area data network features and control the size of local area data network information in access and mobility management function
CN110086649A (zh) * 2019-03-19 2019-08-02 深圳壹账通智能科技有限公司 异常流量的检测方法、装置、计算机设备及存储介质
CN110210508A (zh) * 2018-12-06 2019-09-06 北京奇艺世纪科技有限公司 模型生成方法、异常流量检测方法、装置、电子设备、计算机可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103095728A (zh) * 2013-02-07 2013-05-08 重庆大学 一种基于行为数据融合的网络安全评分系统和方法
US20140258296A1 (en) * 2013-03-11 2014-09-11 Dell Products L.P. System and method for management of network monitoring information
CN103532940A (zh) * 2013-09-30 2014-01-22 广东电网公司电力调度控制中心 网络安全检测方法及装置
CN105049291A (zh) * 2015-08-20 2015-11-11 广东睿江科技有限公司 一种检测网络流量异常的方法
CN106936778A (zh) * 2015-12-29 2017-07-07 北京国双科技有限公司 网站流量异常的检测方法和装置
CN106209432A (zh) * 2016-06-30 2016-12-07 中国人民解放军国防科学技术大学 基于动态阈值的网络设备亚健康预警方法及装置
US20190174449A1 (en) * 2018-02-09 2019-06-06 Intel Corporation Technologies to authorize user equipment use of local area data network features and control the size of local area data network information in access and mobility management function
CN108718303A (zh) * 2018-05-09 2018-10-30 北京仁和诚信科技有限公司 安全运维管理方法及系统
CN110210508A (zh) * 2018-12-06 2019-09-06 北京奇艺世纪科技有限公司 模型生成方法、异常流量检测方法、装置、电子设备、计算机可读存储介质
CN110086649A (zh) * 2019-03-19 2019-08-02 深圳壹账通智能科技有限公司 异常流量的检测方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112565183A (zh) * 2020-10-29 2021-03-26 中国船舶重工集团公司第七0九研究所 一种基于流式动态时间规整算法的网络流量异常检测方法及装置
CN112565183B (zh) * 2020-10-29 2022-12-09 中国船舶重工集团公司第七0九研究所 一种基于流式动态时间规整算法的网络流量异常检测方法及装置

Also Published As

Publication number Publication date
CN111817909B (zh) 2022-01-21

Similar Documents

Publication Publication Date Title
US6658367B2 (en) System for time-bucketing of baselined data collector data
Bifet et al. Learning from time-changing data with adaptive windowing
CN108270618A (zh) 告警判定的方法、装置及告警系统
CN113556258B (zh) 一种异常检测方法及装置
US20020170002A1 (en) Method and system for reducing false alarms in network fault management systems
CN111176953B (zh) 一种异常检测及其模型训练方法、计算机设备和存储介质
CN112073473B (zh) 一种物联网设备心跳包数据采集方法
US6633834B2 (en) Baselining of data collector data
US11706114B2 (en) Network flow measurement method, network measurement device, and control plane device
CN111817909B (zh) 一种基于行为集合模板监测的设备健康管理方法
CN115454778A (zh) 大规模云网络环境下的时序指标异常智能监控系统
CN108170702A (zh) 一种基于统计分析的电力通信告警关联模型
CN114666686A (zh) 基于动态赋值计算的光网络告警处理优先级自动判断方法
CN112073329B (zh) 分布式限流方法、装置、电子设备和存储介质
CN117149746A (zh) 基于云原生和存算分离的数据仓库管理系统
CN116545867A (zh) 一种监控通信网络网元性能指标异常的方法及装置
US10089149B2 (en) Method for scheduling multiple periodic requests and scheduling device
CN113079047B (zh) 一种告警处理方法及装置
CN113778781B (zh) 数据的监控的方法和装置
CN112131069B (zh) 基于聚类的设备运行监测方法及系统
CN111669294A (zh) 监控系统配置方法、装置、监控系统和存储介质
CN117376089A (zh) 一种基于智能云平台的多维监控方法
CN111400284B (zh) 一种基于性能数据建立动态异常探测模型的方法
CN118069437A (zh) 融合故障树分析和拥塞控制的主板功能测试方法
CN114764598A (zh) 一种事件聚类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant