CN112235151B - 一种基于时间序列预测的自适应心跳检测方法 - Google Patents
一种基于时间序列预测的自适应心跳检测方法 Download PDFInfo
- Publication number
- CN112235151B CN112235151B CN202010878912.4A CN202010878912A CN112235151B CN 112235151 B CN112235151 B CN 112235151B CN 202010878912 A CN202010878912 A CN 202010878912A CN 112235151 B CN112235151 B CN 112235151B
- Authority
- CN
- China
- Prior art keywords
- heartbeat
- period
- model
- time
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000012544 monitoring process Methods 0.000 claims abstract description 19
- 230000005540 biological transmission Effects 0.000 claims description 23
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 241001123248 Arma Species 0.000 abstract 1
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Cardiology (AREA)
- General Health & Medical Sciences (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
Abstract
本发明涉及一种基于时间序列预测的自适应心跳检测方法,属于高可靠计算技术领域。本发明中,被监控节点和监控节点的心跳发送周期ΔSTi和心跳接收周期ΔHTi均为可变参数,随高可用集群内各节点的负载情况和节点之间的网络状况可自适应地进行调整,心跳周期更加准确;心跳检测采用推模型+拉模型相结合的方法,正常状态下被监控节点周期性地向监控节点发送心跳信息;当监控节点在规定的超时时间内未收到被监控节点的心跳信息时,主动发送询问信号,心跳接收超时时间也自适应地进行调整;对心跳发送周期和心跳接收周期进行了基于时间序列的ARMA建模,采用一步向前对心跳发送周期和心跳接收周期进行预测,相比于滑动平均方法,心跳周期预测值更加精确。
Description
技术领域
本发明属于高可靠计算技术领域,具体涉及一种基于时间序列预测的自适应心跳检测方法。
背景技术
心跳机制是高可用集群的基础,目前高可用集群中常用的心跳检测方法主要有推模型、拉模型、双模型、闲谈类型错误侦测、层次类型错误侦测等,但这些方法均采用固定的心跳周期。由于高可用集群系统中,各节点的负载以及节点之间的通信网络是动态变化的,传统方法无法适应其动态变化特性,容易出现心跳误判情况。吴书华等人提出了一种银河麒麟操作系统的高可靠心跳协议,通过对传统推模型的改进,采用可变的心跳时间间隔和怀疑节点失效时间,下一时刻的心跳时间间隔和失效时间采用滑动平均方法进行预测,以提高高可用集群系统的适应性。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何针对集群节点负载变化的时间序列特性,提出一种自适应心跳检测方法。
(二)技术方案
为了解决上述技术问题,本发明提供了一种基于时间序列预测的自适应心跳检测方法,包括以下步骤:
步骤1、采用心跳发送周期序列的前k个数据进行ARMA模型的模型定阶和在线模型参数辨识,得到心跳发送周期的ARMA模型的参数值;并采用心跳接收周期序列的前k个数据进行ARMA模型的模型定阶和在线模型参数辨识,得到心跳接收周期的ARMA模型的参数值;
步骤2、采用心跳发送周期的ARMA模型进行心跳发送周期的一步向前预测,由t时刻之前的实测值得到t时刻心跳发送周期的预测值;采用心跳接收周期的ARMA模型进行心跳接收周期的一步向前预测,由t时刻之前的实测值得到t时刻心跳接收周期的预测值;
步骤3、基于步骤2,执行基于时间序列预测的自适应心跳检测。
优选地,还包括:
步骤4、用测量到的t时刻的心跳发送周期实际值和心跳接收周期实际值分别代替t时刻的预测值;
步骤5、令t=t+1,返回步骤2循环执行预测和检测步骤,直至系统关机。
优选地,其中,心跳发送周期的ARMA模型和心跳接收周期的 ARMA模型分别为:
其中,和分别是心跳发送周期和心跳接收周期在t时刻的预测值,ΔSTt-i和ΔHTt-i分别是心跳发送周期和心跳接收周期在 t-i时刻的实际值,{εt}和{ηt}是白噪声序列,ps是心跳发送周期的 ARMA模型中AR部分的阶数,qs是心跳发送周期的ARMA模型中 MA部分的阶数;ph是心跳接收周期中AR部分的阶数,qh是心跳接收周期的ARMA模型中MA部分的阶数。
优选地,步骤3中基于时间序列预测的自适应心跳检测分为两个阶段:
阶段一:在正常状态,基于推模型进行心跳检测;
阶段二:在故障状态,基于拉模型进行心跳检测。
优选地,步骤3中阶段2具体执行流程为:
监控节点收到被监控节点的心跳信号STm-1后,在基于心跳接收周期的ARMA模型计算得到的原预测值,即超时时间内未收到被监控节点的下一个心跳信息STm;此时基于拉模型进行心跳检测,监控节点主动发送询问信号ASKi,若在规定的超时时间,即发生故障的m时刻心跳接收周期的新预测值内收到被监控节点的心跳信号nSTm,则表明被监控节点正常,此时m时刻心跳发送周期的新预测值为监控节点的心跳接收周期的时间序列变为被监控节点的心跳发送周期的时间序列变为否则,判定被监控节点失效,进行失效处理;
优选地,系统开机时开始执行步骤1。
优选地,步骤5中,返回步骤2循环执行预测和检测步骤直至系统关机。
本发明还提供了一种所述的方法在高可靠计算技术领域中的应用。
(三)有益效果
本发明具有如下优点:
1、被监控节点和监控节点的心跳发送周期ΔSTi和心跳接收周期ΔHTi均为可变参数,随高可用集群内各节点的负载情况和节点之间的网络状况可自适应地进行调整,心跳周期更加准确;
2、心跳检测采用推模型+拉模型相结合的方法,正常状态下被监控节点周期性地向监控节点发送心跳信息;当监控节点在规定的超时时间(预测值)内未收到被监控节点的心跳信息时,主动发送询问信号,心跳接收超时时间也自适应地进行调整;
3、对心跳发送周期和心跳接收周期进行了基于时间序列的 ARMA建模,采用一步向前对心跳发送周期和心跳接收周期进行预测,相比于滑动平均方法,心跳周期预测值更加精确。
附图说明
图1为本发明中正常状态下的心跳协议(阶段一)原理图;
图2为本发明中故障状态下的心跳协议(阶段二)原理图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明针对集群节点负载变化的时间序列特性,提出了一种基于时间序列预测的自适应心跳检测方法。
如图1所示,{…、STi-2、STi-1、STi、STi+1、…}是被监控节点和监控节点之间的心跳信息,{…、ni-2、ni-1、ni、ni+1、…}是被监控节点和监控节点之间的网络延迟。
Dinda P.A.通过对服务器的长期跟踪观测,发现节点的负载变化是一种时间序列。被监控节点的心跳发送周期是被监控节点负载 (CPU、内存、硬盘等)的函数,因此被监控节点的心跳发送周期 {…、ΔSTi-1、ΔSTi、ΔSTi+1、…}为时间序列;监控节点的心跳接收周期(超时时间)是网络延迟和被监控节点心跳发送周期的函数,因此监控节点的心跳接收周期(超时时间){…、ΔHTi-1、ΔHTi、ΔHTi+1、…}也为时间序列。因此,可以用时间序列预测的方法进行心跳发送周期和心跳接收周期(超时时间)的预测。
基于以上原理,本发明提供的一种基于时间序列预测的自适应心跳检测方法的步骤为:
步骤1、采用心跳发送周期序列的前k个数据进行ARMA模型的模型定阶和在线模型参数辨识,得到心跳发送周期的ARMA模型的参数值c、ai和bj;并采用心跳接收周期序列的前k个数据进行 ARMA模型的模型定阶和在线模型参数辨识,得到心跳接收周期的 ARMA模型的参数值d、fi和gj;
步骤2、采用心跳发送周期的ARMA模型进行心跳发送周期的一步向前预测,由t时刻之前的实测值得到t时刻心跳发送周期的预测值;采用心跳接收周期的ARMA模型进行心跳接收周期的一步向前预测,由t时刻之前的实测值得到t时刻心跳接收周期的预测值;
步骤3、基于步骤2,执行基于时间序列预测的自适应心跳检测。
步骤4、用测量到的t时刻的心跳发送周期实际值和心跳接收周期实际值分别代替t时刻的预测值;
步骤5、令t=t+1,返回步骤2循环执行预测和检测步骤,直至系统关机。
其中,心跳发送周期的ARMA模型和心跳接收周期的ARMA模型分别为:
其中,和分别是心跳发送周期和心跳接收周期在t时刻的预测值,ΔSTt-i和ΔHTt-i分别是心跳发送周期和心跳接收周期在t-i时刻的实际值,{εt}和{ηt}是白噪声序列,ps是心跳发送周期的ARMA模型中AR部分的阶数,qs是心跳发送周期的ARMA模型中MA部分的阶数;ph是心跳接收周期中AR部分的阶数,qh是心跳接收周期的ARMA模型中MA部分的阶数。
步骤3中基于时间序列预测的自适应心跳检测分为两个阶段:
阶段一:在正常状态,基于推模型进行心跳检测,如图1所示;
阶段二:在故障状态,基于拉模型进行心跳检测,如图2所示;监控节点b收到被监控节点a的心跳信号STm-1后,在基于心跳接收周期的ARMA模型计算得到的原预测值,即超时时间内未收到被监控节点a的下一个心跳信息STm;此时基于拉模型进行心跳检测,监控节点b主动发送询问信号ASKi,若在规定的超时时间,即发生故障的m时刻心跳接收周期的新预测值内收到被监控节点a的心跳信号nSTm,则表明被监控节点a正常,此时m时刻心跳发送周期的新预测值为监控节点b的心跳接收周期的时间序列变为被监控节点a的心跳发送周期的时间序列变为否则,判定被监控节点a失效,进行失效处理;
图2中nm是网络延迟,cm是被监控节点a收到ASKi信号后的响应延迟。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (9)
1.一种基于时间序列预测的自适应心跳检测方法,其特征在于,包括以下步骤:
步骤1、采用心跳发送周期序列的前k个数据进行ARMA模型的模型定阶和在线模型参数辨识,得到心跳发送周期的ARMA模型的参数值c、ai和bj;并采用心跳接收周期序列的前k个数据进行ARMA模型的模型定阶和在线模型参数辨识,得到心跳接收周期的ARMA模型的参数值d、fi和gj;
步骤2、采用心跳发送周期的ARMA模型进行心跳发送周期的一步向前预测,由t时刻之前的实测值得到t时刻心跳发送周期的预测值;采用心跳接收周期的ARMA模型进行心跳接收周期的一步向前预测,由t时刻之前的实测值得到t时刻心跳接收周期的预测值;
步骤3、基于步骤2,执行基于时间序列预测的自适应心跳检测。
2.如权利要求1所述的方法,其特征在于,还包括:
步骤4、用测量到的t时刻的心跳发送周期实际值和心跳接收周期实际值分别代替t时刻的预测值;
步骤5、令t=t+1,返回步骤2循环执行预测和检测步骤,直至系统关机。
4.如权利要求3所述的方法,其特征在于,步骤3中基于时间序列预测的自适应心跳检测分为两个阶段:
阶段一:在正常状态,基于推模型进行心跳检测;
阶段二:在故障状态,基于拉模型进行心跳检测。
5.如权利要求4所述的方法,其特征在于,步骤3中阶段2具体执行流程为:
监控节点收到被监控节点的心跳信号STm-1后,在基于心跳接收周期的ARMA模型计算得到的原预测值,即超时时间内未收到被监控节点的下一个心跳信息STm;此时基于拉模型进行心跳检测,监控节点主动发送询问信号ASKi,若在规定的超时时间,即发生故障的m时刻心跳接收周期的新预测值内收到被监控节点的心跳信号nSTm,则表明被监控节点正常,此时m时刻心跳发送周期的新预测值为监控节点的心跳接收周期的时间序列变为被监控节点的心跳发送周期的时间序列变为否则,判定被监控节点失效,进行失效处理;
8.如权利要求1所述的方法,其特征在于,系统开机时开始执行步骤1。
9.如权利要求2所述的方法,其特征在于,步骤5中,返回步骤2循环执行预测和检测步骤直至系统关机。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010878912.4A CN112235151B (zh) | 2020-08-27 | 2020-08-27 | 一种基于时间序列预测的自适应心跳检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010878912.4A CN112235151B (zh) | 2020-08-27 | 2020-08-27 | 一种基于时间序列预测的自适应心跳检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112235151A CN112235151A (zh) | 2021-01-15 |
CN112235151B true CN112235151B (zh) | 2022-02-11 |
Family
ID=74115741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010878912.4A Active CN112235151B (zh) | 2020-08-27 | 2020-08-27 | 一种基于时间序列预测的自适应心跳检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112235151B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113472606B (zh) * | 2021-06-29 | 2022-09-30 | 聚好看科技股份有限公司 | 一种心跳超时检测方法、服务器及电子设备 |
CN114448843A (zh) * | 2021-12-23 | 2022-05-06 | 天翼云科技有限公司 | 一种自适应的心跳检测方法及装置、电子设备 |
CN115333983B (zh) * | 2022-08-16 | 2023-10-10 | 超聚变数字技术有限公司 | 心跳管理方法及节点 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5799114A (en) * | 1993-05-05 | 1998-08-25 | Liberty Technologies, Inc. | System and method for stable analysis of sampled transients arbitrarily aligned with their sample points |
CN1661968A (zh) * | 2004-02-27 | 2005-08-31 | 联想(北京)有限公司 | 基于网络和主机负载的变速心跳机制的实现方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104918267B (zh) * | 2014-03-12 | 2018-07-20 | 国家电网公司 | 一种无线传感器网络的心跳检测方法和装置 |
CN104935473B (zh) * | 2014-03-19 | 2018-02-09 | 国家电网公司 | 一种无线传感器网络的检测方法和装置 |
US10554738B1 (en) * | 2018-03-02 | 2020-02-04 | Syncsort Incorporated | Methods and apparatus for load balance optimization based on machine learning |
CN110535704B (zh) * | 2019-08-30 | 2022-04-26 | 西安邮电大学 | 一种基于灰色马尔可夫算法的sdn多控制器故障检测算法 |
-
2020
- 2020-08-27 CN CN202010878912.4A patent/CN112235151B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5799114A (en) * | 1993-05-05 | 1998-08-25 | Liberty Technologies, Inc. | System and method for stable analysis of sampled transients arbitrarily aligned with their sample points |
CN1661968A (zh) * | 2004-02-27 | 2005-08-31 | 联想(北京)有限公司 | 基于网络和主机负载的变速心跳机制的实现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112235151A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112235151B (zh) | 一种基于时间序列预测的自适应心跳检测方法 | |
US10298768B2 (en) | Voice agent forwarding | |
US7778715B2 (en) | Methods and systems for a prediction model | |
CN104639626B (zh) | 一种多级负载预测与云资源弹性配置方法与监控配置系统 | |
JP6273866B2 (ja) | 制御プログラム、制御装置および制御方法 | |
US20050015665A1 (en) | Fault recovery system and method for adaptively updating order of command executions acoording to past results | |
US9059935B2 (en) | Dynamic adaptations for network delays during complex event processing | |
CN111522846B (zh) | 一种基于时序中间态数据结构的数据聚合方法 | |
CN114945004B (zh) | 拥塞控制方法、装置、电子设备及存储介质 | |
CN117131457B (zh) | 基于ai模型的电力大数据采集处理方法及系统 | |
CN102404164A (zh) | 一种基于arma模型和混沌时间序列模型的流量分析方法 | |
CN114500554A (zh) | 一种物联网系统管理方法 | |
CN111506421A (zh) | 一种实现Redis集群的可用性方法 | |
CN109740025A (zh) | 基于图数据模型的故障影响分析方法 | |
CN112364304A (zh) | 一种区块链的日蚀攻击检测方法及装置 | |
CN117828371A (zh) | 一种综合运维平台的业务信息智能分析方法 | |
CN102917068A (zh) | 一种自适应大规模集群通信系统及其通信方法 | |
CN114328078A (zh) | 一种阈值动态计算方法、装置及计算机可读存储介质 | |
CN112165368B (zh) | 一种时间同步的实时自适应收敛估计系统 | |
CN110888739B (zh) | 延迟任务的分布式处理方法与装置 | |
CN108282360A (zh) | 一种长短期预测融合的故障检测方法 | |
CN114884975B (zh) | 业务消息的处理方法和装置、存储介质及电子装置 | |
CN111935782A (zh) | 客户端重试机制的优化方法、存储介质 | |
CN114826982B (zh) | 一种微服务场景下的自适应心跳包调节方法 | |
CN110519788B (zh) | 一种物理环境传感器辅助的无线通信链路质量估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |