CN112235151A - 一种基于时间序列预测的自适应心跳检测方法 - Google Patents

一种基于时间序列预测的自适应心跳检测方法 Download PDF

Info

Publication number
CN112235151A
CN112235151A CN202010878912.4A CN202010878912A CN112235151A CN 112235151 A CN112235151 A CN 112235151A CN 202010878912 A CN202010878912 A CN 202010878912A CN 112235151 A CN112235151 A CN 112235151A
Authority
CN
China
Prior art keywords
heartbeat
period
model
time
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010878912.4A
Other languages
English (en)
Other versions
CN112235151B (zh
Inventor
刘宗宝
张力
李之乾
张琨
李勇翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202010878912.4A priority Critical patent/CN112235151B/zh
Publication of CN112235151A publication Critical patent/CN112235151A/zh
Application granted granted Critical
Publication of CN112235151B publication Critical patent/CN112235151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)

Abstract

本发明涉及一种基于时间序列预测的自适应心跳检测方法,属于高可靠计算技术领域。本发明中,被监控节点和监控节点的心跳发送周期ΔSTi和心跳接收周期ΔHTi均为可变参数,随高可用集群内各节点的负载情况和节点之间的网络状况可自适应地进行调整,心跳周期更加准确;心跳检测采用推模型+拉模型相结合的方法,正常状态下被监控节点周期性地向监控节点发送心跳信息;当监控节点在规定的超时时间内未收到被监控节点的心跳信息时,主动发送询问信号,心跳接收超时时间也自适应地进行调整;对心跳发送周期和心跳接收周期进行了基于时间序列的ARMA建模,采用一步向前对心跳发送周期和心跳接收周期进行预测,相比于滑动平均方法,心跳周期预测值更加精确。

Description

一种基于时间序列预测的自适应心跳检测方法
技术领域
本发明属于高可靠计算技术领域,具体涉及一种基于时间序列预测的自适应心跳检测方法。
背景技术
心跳机制是高可用集群的基础,目前高可用集群中常用的心跳检测方法主要有推模型、拉模型、双模型、闲谈类型错误侦测、层次类型错误侦测等,但这些方法均采用固定的心跳周期。由于高可用集群系统中,各节点的负载以及节点之间的通信网络是动态变化的,传统方法无法适应其动态变化特性,容易出现心跳误判情况。吴书华等人提出了一种银河麒麟操作系统的高可靠心跳协议,通过对传统推模型的改进,采用可变的心跳时间间隔和怀疑节点失效时间,下一时刻的心跳时间间隔和失效时间采用滑动平均方法进行预测,以提高高可用集群系统的适应性。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何针对集群节点负载变化的时间序列特性,提出一种自适应心跳检测方法。
(二)技术方案
为了解决上述技术问题,本发明提供了一种基于时间序列预测的自适应心跳检测方法,包括以下步骤:
步骤1、采用心跳发送周期序列的前k个数据进行ARMA模型的模型定阶和在线模型参数辨识,得到心跳发送周期的ARMA模型的参数值;并采用心跳接收周期序列的前k个数据进行ARMA模型的模型定阶和在线模型参数辨识,得到心跳接收周期的ARMA模型的参数值;
步骤2、采用心跳发送周期的ARMA模型进行心跳发送周期的一步向前预测,由t时刻之前的实测值得到t时刻心跳发送周期的预测值;采用心跳接收周期的ARMA模型进行心跳接收周期的一步向前预测,由t时刻之前的实测值得到t时刻心跳接收周期的预测值;
步骤3、基于步骤2,执行基于时间序列预测的自适应心跳检测。
优选地,还包括:
步骤4、用测量到的t时刻的心跳发送周期实际值和心跳接收周期实际值分别代替t时刻的预测值;
步骤5、令t=t+1,返回步骤2循环执行预测和检测步骤,直至系统关机。
优选地,其中,心跳发送周期的ARMA模型和心跳接收周期的 ARMA模型分别为:
Figure RE-GDA0002832942960000021
Figure RE-GDA0002832942960000022
其中,
Figure RE-GDA0002832942960000023
Figure RE-GDA0002832942960000024
分别是心跳发送周期和心跳接收周期在t时刻的预测值,ΔSTt-i和ΔHTt-i分别是心跳发送周期和心跳接收周期在 t-i时刻的实际值,{εt}和{ηt}是白噪声序列,ps是心跳发送周期的 ARMA模型中AR部分的阶数,qs是心跳发送周期的ARMA模型中 MA部分的阶数;ph是心跳接收周期中AR部分的阶数,qh是心跳接收周期的ARMA模型中MA部分的阶数。
优选地,步骤3中基于时间序列预测的自适应心跳检测分为两个阶段:
阶段一:在正常状态,基于推模型进行心跳检测;
阶段二:在故障状态,基于拉模型进行心跳检测。
优选地,步骤3中阶段2具体执行流程为:
监控节点收到被监控节点的心跳信号STm-1后,在基于心跳接收周期的ARMA模型计算得到的原预测值,即超时时间
Figure RE-GDA0002832942960000031
内未收到被监控节点的下一个心跳信息STm;此时基于拉模型进行心跳检测,监控节点主动发送询问信号ASKi,若在规定的超时时间,即发生故障的m时刻心跳接收周期的新预测值
Figure RE-GDA0002832942960000032
内收到被监控节点的心跳信号nSTm,则表明被监控节点正常,此时m时刻心跳发送周期的新预测值为
Figure RE-GDA0002832942960000033
监控节点的心跳接收周期的时间序列变为
Figure RE-GDA0002832942960000034
被监控节点的心跳发送周期的时间序列变为
Figure RE-GDA0002832942960000035
否则,判定被监控节点失效,进行失效处理;
其中,
Figure RE-GDA0002832942960000036
Figure RE-GDA0002832942960000037
其中,
Figure RE-GDA0002832942960000038
是基于心跳发送周期的 ARMA模型计算得到的原预测值;nm是网络延迟,cm是被监控节点收到确认信号后的响应延迟。
优选地,
Figure RE-GDA0002832942960000039
中,2nm+cm
Figure RE-GDA00028329429600000310
代替。
优选地,
Figure RE-GDA00028329429600000311
中,2nm+cm
Figure RE-GDA00028329429600000312
代替。
优选地,系统开机时开始执行步骤1。
优选地,步骤5中,返回步骤2循环执行预测和检测步骤直至系统关机。
本发明还提供了一种所述的方法在高可靠计算技术领域中的应用。
(三)有益效果
本发明具有如下优点:
1、被监控节点和监控节点的心跳发送周期ΔSTi和心跳接收周期ΔHTi均为可变参数,随高可用集群内各节点的负载情况和节点之间的网络状况可自适应地进行调整,心跳周期更加准确;
2、心跳检测采用推模型+拉模型相结合的方法,正常状态下被监控节点周期性地向监控节点发送心跳信息;当监控节点在规定的超时时间(预测值)内未收到被监控节点的心跳信息时,主动发送询问信号,心跳接收超时时间也自适应地进行调整;
3、对心跳发送周期和心跳接收周期进行了基于时间序列的 ARMA建模,采用一步向前对心跳发送周期和心跳接收周期进行预测,相比于滑动平均方法,心跳周期预测值更加精确。
附图说明
图1为本发明中正常状态下的心跳协议(阶段一)原理图;
图2为本发明中故障状态下的心跳协议(阶段二)原理图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明针对集群节点负载变化的时间序列特性,提出了一种基于时间序列预测的自适应心跳检测方法。
如图1所示,{…、STi-2、STi-1、STi、STi+1、…}是被监控节点和监控节点之间的心跳信息,{…、ni-2、ni-1、ni、ni+1、…}是被监控节点和监控节点之间的网络延迟。
Dinda P.A.通过对服务器的长期跟踪观测,发现节点的负载变化是一种时间序列。被监控节点的心跳发送周期是被监控节点负载 (CPU、内存、硬盘等)的函数,因此被监控节点的心跳发送周期 {…、ΔSTi-1、ΔSTi、ΔSTi+1、…}为时间序列;监控节点的心跳接收周期(超时时间)是网络延迟和被监控节点心跳发送周期的函数,因此监控节点的心跳接收周期(超时时间){…、ΔHTi-1、ΔHTi、ΔHTi+1、…}也为时间序列。因此,可以用时间序列预测的方法进行心跳发送周期和心跳接收周期(超时时间)的预测。
基于以上原理,本发明提供的一种基于时间序列预测的自适应心跳检测方法的步骤为:
步骤1、采用心跳发送周期序列的前k个数据进行ARMA模型的模型定阶和在线模型参数辨识,得到心跳发送周期的ARMA模型的参数值c、ai和bj;并采用心跳接收周期序列的前k个数据进行 ARMA模型的模型定阶和在线模型参数辨识,得到心跳接收周期的 ARMA模型的参数值d、fi和gj
步骤2、采用心跳发送周期的ARMA模型进行心跳发送周期的一步向前预测,由t时刻之前的实测值得到t时刻心跳发送周期的预测值;采用心跳接收周期的ARMA模型进行心跳接收周期的一步向前预测,由t时刻之前的实测值得到t时刻心跳接收周期的预测值;
步骤3、基于步骤2,执行基于时间序列预测的自适应心跳检测。
步骤4、用测量到的t时刻的心跳发送周期实际值和心跳接收周期实际值分别代替t时刻的预测值;
步骤5、令t=t+1,返回步骤2循环执行预测和检测步骤,直至系统关机。
其中,心跳发送周期的ARMA模型和心跳接收周期的ARMA模型分别为:
Figure RE-GDA0002832942960000061
Figure RE-GDA0002832942960000062
其中,
Figure RE-GDA0002832942960000063
Figure RE-GDA0002832942960000064
分别是心跳发送周期和心跳接收周期在t时刻的预测值,ΔSTt-i和ΔHTt-i分别是心跳发送周期和心跳接收周期在t-i时刻的实际值,{εt}和{ηt}是白噪声序列,ps是心跳发送周期的ARMA模型中AR部分的阶数,qs是心跳发送周期的ARMA模型中MA部分的阶数;ph是心跳接收周期中AR部分的阶数,qh是心跳接收周期的ARMA模型中MA部分的阶数。
步骤3中基于时间序列预测的自适应心跳检测分为两个阶段:
阶段一:在正常状态,基于推模型进行心跳检测,如图1所示;
阶段二:在故障状态,基于拉模型进行心跳检测,如图2所示;监控节点b收到被监控节点a的心跳信号STm-1后,在基于心跳接收周期的ARMA模型计算得到的原预测值,即超时时间
Figure RE-GDA0002832942960000065
内未收到被监控节点a的下一个心跳信息STm;此时基于拉模型进行心跳检测,监控节点b主动发送询问信号ASKi,若在规定的超时时间,即发生故障的m时刻心跳接收周期的新预测值
Figure RE-GDA0002832942960000071
内收到被监控节点a的心跳信号nSTm,则表明被监控节点a正常,此时m时刻心跳发送周期的新预测值为
Figure RE-GDA0002832942960000072
监控节点b的心跳接收周期的时间序列变为
Figure RE-GDA0002832942960000073
被监控节点a的心跳发送周期的时间序列变为
Figure RE-GDA0002832942960000074
否则,判定被监控节点a失效,进行失效处理;
其中,
Figure RE-GDA0002832942960000075
2nm+cm可用
Figure RE-GDA0002832942960000076
代替,因此
Figure RE-GDA0002832942960000077
Figure RE-GDA0002832942960000078
2nm+cm可用
Figure RE-GDA0002832942960000079
代替,因此
Figure RE-GDA00028329429600000710
其中,
Figure RE-GDA00028329429600000711
是基于心跳发送周期的ARMA模型计算得到的原预测值;
图2中nm是网络延迟,cm是被监控节点a收到ASKi信号后的响应延迟。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于时间序列预测的自适应心跳检测方法,其特征在于,包括以下步骤:
步骤1、采用心跳发送周期序列的前k个数据进行ARMA模型的模型定阶和在线模型参数辨识,得到心跳发送周期的ARMA模型的参数值;并采用心跳接收周期序列的前k个数据进行ARMA模型的模型定阶和在线模型参数辨识,得到心跳接收周期的ARMA模型的参数值;
步骤2、采用心跳发送周期的ARMA模型进行心跳发送周期的一步向前预测,由t时刻之前的实测值得到t时刻心跳发送周期的预测值;采用心跳接收周期的ARMA模型进行心跳接收周期的一步向前预测,由t时刻之前的实测值得到t时刻心跳接收周期的预测值;
步骤3、基于步骤2,执行基于时间序列预测的自适应心跳检测。
2.如权利要求1所述的方法,其特征在于,还包括:
步骤4、用测量到的t时刻的心跳发送周期实际值和心跳接收周期实际值分别代替t时刻的预测值;
步骤5、令t=t+1,返回步骤2循环执行预测和检测步骤,直至系统关机。
3.如权利要求1所述的方法,其特征在于,其中,心跳发送周期的ARMA模型和心跳接收周期的ARMA模型分别为:
Figure FDA0002653502360000011
Figure FDA0002653502360000021
其中,
Figure FDA0002653502360000022
Figure FDA0002653502360000023
分别是心跳发送周期和心跳接收周期在t时刻的预测值,ΔSTt-i和ΔHTt-i分别是心跳发送周期和心跳接收周期在t-i时刻的实际值,{εt}和{ηt}是白噪声序列,ps是心跳发送周期的ARMA模型中AR部分的阶数,qs是心跳发送周期的ARMA模型中MA部分的阶数;ph是心跳接收周期中AR部分的阶数,qh是心跳接收周期的ARMA模型中MA部分的阶数。
4.如权利要求3所述的方法,其特征在于,步骤3中基于时间序列预测的自适应心跳检测分为两个阶段:
阶段一:在正常状态,基于推模型进行心跳检测;
阶段二:在故障状态,基于拉模型进行心跳检测。
5.如权利要求4所述的方法,其特征在于,步骤3中阶段2具体执行流程为:
监控节点收到被监控节点的心跳信号STm-1后,在基于心跳接收周期的ARMA模型计算得到的原预测值,即超时时间
Figure FDA0002653502360000024
内未收到被监控节点的下一个心跳信息STm;此时基于拉模型进行心跳检测,监控节点主动发送询问信号ASKi,若在规定的超时时间,即发生故障的m时刻心跳接收周期的新预测值
Figure FDA0002653502360000025
内收到被监控节点的心跳信号nSTm,则表明被监控节点正常,此时m时刻心跳发送周期的新预测值为
Figure FDA0002653502360000026
监控节点的心跳接收周期的时间序列变为
Figure FDA0002653502360000027
被监控节点的心跳发送周期的时间序列变为
Figure FDA0002653502360000031
否则,判定被监控节点失效,进行失效处理;
其中,
Figure FDA0002653502360000032
Figure FDA0002653502360000033
其中,
Figure FDA0002653502360000034
是基于心跳发送周期的ARMA模型计算得到的原预测值;nm是网络延迟,cm是被监控节点收到确认信号后的响应延迟。
6.如权利要求5所述的方法,其特征在于,
Figure FDA0002653502360000035
中,2nm+cm
Figure FDA0002653502360000036
代替。
7.如权利要求6所述的方法,其特征在于,
Figure FDA0002653502360000037
中,2nm+cm
Figure FDA0002653502360000038
代替。
8.如权利要求1所述的方法,其特征在于,系统开机时开始执行步骤1。
9.如权利要求2所述的方法,其特征在于,步骤5中,返回步骤2循环执行预测和检测步骤直至系统关机。
10.一种如权利要求1至9中任一项所述的方法在高可靠计算技术领域中的应用。
CN202010878912.4A 2020-08-27 2020-08-27 一种基于时间序列预测的自适应心跳检测方法 Active CN112235151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010878912.4A CN112235151B (zh) 2020-08-27 2020-08-27 一种基于时间序列预测的自适应心跳检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010878912.4A CN112235151B (zh) 2020-08-27 2020-08-27 一种基于时间序列预测的自适应心跳检测方法

Publications (2)

Publication Number Publication Date
CN112235151A true CN112235151A (zh) 2021-01-15
CN112235151B CN112235151B (zh) 2022-02-11

Family

ID=74115741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010878912.4A Active CN112235151B (zh) 2020-08-27 2020-08-27 一种基于时间序列预测的自适应心跳检测方法

Country Status (1)

Country Link
CN (1) CN112235151B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114448843A (zh) * 2021-12-23 2022-05-06 天翼云科技有限公司 一种自适应的心跳检测方法及装置、电子设备
WO2022105611A1 (zh) * 2021-06-29 2022-05-27 聚好看科技股份有限公司 一种心跳超时检测方法、服务器及电子设备
CN115333983A (zh) * 2022-08-16 2022-11-11 超聚变数字技术有限公司 心跳管理方法及节点

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5799114A (en) * 1993-05-05 1998-08-25 Liberty Technologies, Inc. System and method for stable analysis of sampled transients arbitrarily aligned with their sample points
CN1661968A (zh) * 2004-02-27 2005-08-31 联想(北京)有限公司 基于网络和主机负载的变速心跳机制的实现方法
CN104918267A (zh) * 2014-03-12 2015-09-16 国家电网公司 一种无线传感器网络的心跳检测方法和装置
CN104935473A (zh) * 2014-03-19 2015-09-23 国家电网公司 一种无线传感器网络的检测方法和装置
CN110535704A (zh) * 2019-08-30 2019-12-03 西安邮电大学 一种基于灰色马尔可夫算法的sdn多控制器故障检测算法
US10554738B1 (en) * 2018-03-02 2020-02-04 Syncsort Incorporated Methods and apparatus for load balance optimization based on machine learning

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5799114A (en) * 1993-05-05 1998-08-25 Liberty Technologies, Inc. System and method for stable analysis of sampled transients arbitrarily aligned with their sample points
CN1661968A (zh) * 2004-02-27 2005-08-31 联想(北京)有限公司 基于网络和主机负载的变速心跳机制的实现方法
CN104918267A (zh) * 2014-03-12 2015-09-16 国家电网公司 一种无线传感器网络的心跳检测方法和装置
CN104935473A (zh) * 2014-03-19 2015-09-23 国家电网公司 一种无线传感器网络的检测方法和装置
US10554738B1 (en) * 2018-03-02 2020-02-04 Syncsort Incorporated Methods and apparatus for load balance optimization based on machine learning
CN110535704A (zh) * 2019-08-30 2019-12-03 西安邮电大学 一种基于灰色马尔可夫算法的sdn多控制器故障检测算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHAOQUN XU等: "A Cluster Heartbeat Algorithm with ARMA-based", 《2013 3RD INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND NETWORK TECHNOLOGY》 *
徐超群: "高可用集群系统关键技术的研究与实现", 《中国优秀博硕士学位论文全文数据库(硕士)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022105611A1 (zh) * 2021-06-29 2022-05-27 聚好看科技股份有限公司 一种心跳超时检测方法、服务器及电子设备
CN114448843A (zh) * 2021-12-23 2022-05-06 天翼云科技有限公司 一种自适应的心跳检测方法及装置、电子设备
CN115333983A (zh) * 2022-08-16 2022-11-11 超聚变数字技术有限公司 心跳管理方法及节点
CN115333983B (zh) * 2022-08-16 2023-10-10 超聚变数字技术有限公司 心跳管理方法及节点

Also Published As

Publication number Publication date
CN112235151B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN112235151B (zh) 一种基于时间序列预测的自适应心跳检测方法
US7778715B2 (en) Methods and systems for a prediction model
US8005654B2 (en) Method, apparatus and computer program product for intelligent workload control of distributed storage
JP6273866B2 (ja) 制御プログラム、制御装置および制御方法
US20050015665A1 (en) Fault recovery system and method for adaptively updating order of command executions acoording to past results
CN114945004B (zh) 拥塞控制方法、装置、电子设备及存储介质
Mukhopadhyay et al. Model based error correction for wireless sensor networks
CN110083515A (zh) 分布式存储系统中慢盘的快速判断方法、装置及存储介质
CN115378948A (zh) 一种基于深度学习的服务器负载预测方法
CN108449147A (zh) 一种基于线性调频信号的水声通信唤醒方法
CN111506421A (zh) 一种实现Redis集群的可用性方法
CN109740025A (zh) 基于图数据模型的故障影响分析方法
CN111027591B (zh) 一种面向大规模集群系统的节点故障预测方法
CN112165368B (zh) 一种时间同步的实时自适应收敛估计系统
CN102006626A (zh) 基于哈夫曼编码和随机优化策略的传感网络数据压缩方法
CN107943558A (zh) 基于霍尔特指数平滑法的状态预测模型生成方法
CN110519788B (zh) 一种物理环境传感器辅助的无线通信链路质量估计方法
CN109120637B (zh) 一种网络安全监管平台及方法
Li Anomaly detection in wireless sensor networks based on time factor
CN105897503A (zh) 基于资源信息增益的Hadoop集群瓶颈检测算法
Jiang et al. LEAP: Localized Energy-Aware Prediction for data collection in wireless sensor networks
CN115580545B (zh) 一种提高数据传输效率的物联网通信方法
CN117828371B (zh) 一种综合运维平台的业务信息智能分析方法
CN117119022B (zh) 一种基于mqtt协议的能耗数据处理方法、系统、设备及介质
WO2016086345A1 (zh) 心跳包定时器的识别方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant