CN110192377A

CN110192377A - 在物联网网络环境中监控和分析看门狗消息

Info

Publication number: CN110192377A
Application number: CN201780073443.5A
Authority: CN
Inventors: N.M.史密斯; T.J.麦切拉; Z.张; T.M.科伦伯格; I.G.马蒂克
Original assignee: McAfee LLC
Current assignee: McAfee LLC
Priority date: 2016-09-28
Filing date: 2017-09-26
Publication date: 2019-08-30
Anticipated expiration: 2037-09-26
Also published as: EP3520327A1; US10191794B2; WO2018064007A1; EP3520327B1; US11385951B2; US20180089014A1; CN110192377B; US20190171510A1

Abstract

在实施例中提供技术来监控和分析网络。所述实施例可使设备过滤器的第一比特序列中的比特基于在报告时间间隔期间未从网络中的节点接收到消息来指示故障状态，并且在所述报告时间间隔期满时，将所述第一比特序列与影子过滤器的对应的比特序列组合。所述组合在所述影子过滤器中保存来自所述第一比特序列中的所述比特的所述故障状态的指示以及来自所述影子过滤器的所述对应的比特序列的比特的故障状态的任何其他指示。更具体实施例在所述报告间隔期满时，使所述设备过滤器的第二比特序列中的比特基于所述第一比特序列中的另一无故障状态的指示来指示无故障状态。

Description

在物联网网络环境中监控和分析看门狗消息

相关申请的交叉引用

本申请要求2016年9月28日提交的标题为“MONITORING AND ANALYZING WATCHDOGMESSAGES IN AN INTERNET OF THINGS NETWORK ENVIRONMENT”的美国非临时专利申请No.15/278,923的优先权的权益，其通过引用整体地并入在本文中。

技术领域

本公开一般而言涉及物联网(IoT)网络的领域，并且更具体地，涉及在物联网(IoT)网络环境中监控和分析看门狗消息。

背景技术

工业连接的嵌入式设备当前是现存的最复杂自动化系统中的一些。物联网(IoT)趋势可以通过将控制和自动化网络互连到因特网网关、分析和分布式总账系统来进一步加重此复杂性。工业自动化和自主系统常常执行安全关键功能，如果这些系统出故障，则所述安全关键功能可能对人类、生态或财产造成伤害。安全关键功能的示例可包括但不限于处理有毒化学品、产生核动力、自动驾驶车辆和使用医疗设备。通常，因特网和Web技术已经与支持浏览、搜索和社交媒体活动的网络相关联。因此，生存性尚不是关键问题。通过因特网和Web技术来为连接的设备提供生存性和复原能力仍然存在重大挑战。

附图说明

为了提供对本公开及其特征和优点的更完整理解，参考结合附图进行的以下描述，其中相似的附图标记表示相似的部分，在附图中：

图1是依照本公开的实施例的用于监控和分析网络的通信系统的简化框图；

图2是图示根据本公开的通信系统的至少一个实施例中使用的物联网(IoT)框架消息传送基础设施的简化框图；

图3是根据实施例的可以在通信系统中使用的示例设备和影子过滤器的简化框图；

图4是图示与用于监控和分析网络的通信系统的实施例相关联的潜在操作的简化流程图；

图5是图示与用于监控和分析网络的通信系统的实施例相关联的附加潜在操作的简化流程图；

图6是图示与用于监控和分析网络的通信系统的实施例相关联的附加潜在操作的简化流程图；

图7是图示与用于监控和分析网络的通信系统的实施例相关联的附加潜在操作的简化流程图；

图8是图示根据实施例的用于创建示例网络健康状况报告的过程的简化框图；

图9A和图9B是图示与用于监控和分析网络的通信系统的实施例相关联的附加潜在操作的简化流程图；

图10是示出根据本公开的用于监控和分析网络的通信系统的另一实施例的可能细节的简化框图；

图11是图示图10的通信系统的实施例的附加可能细节的简化框图；

图12是图示与用于监控和分析网络的通信系统的实施例相关联的潜在操作的简化流程图；

图13是图示与用于监控和分析网络的通信系统的实施例相关联的附加潜在操作的简化流程图；

图14是图示依照实施例的示例处理器核心的框图；

图15是图示依照实施例的按照点对点配置布置的示例计算系统的框图；以及

图16是与本公开的示例片上系统(SOC)相关联的简化框图。

具体实施方式

图1是用于在物联网(IoT)网络环境中监控和分析看门狗消息的示例通信系统100的简化框图。图1包括IoT网络的示例分层拓扑，所述IoT网络包括网络10及其包含IoT受监控设备的子网络(在本文中还称为“子网”) 20-1至20-N。可以在整个网络10(包括子网20-1至20-N)中提供受监控设备。作为示例，受监控设备30-1至30-M被示出为经由子网C 20-3接收网络连接。还可在整个网络10和子网20-1至20-N中提供网络设备。例如，在网络10中提供网络设备40，并且分别在子网20-1至20-N中提供网络设备40-1至40-N。网络设备40示出可以与其他类似的网络设备(例如，40-1至40-N)相关联的可能细节，所述其他类似的网络设备包括但不限于设备过滤器42、影子过滤器44、子网过滤器46、网络过滤器48、设备监控模块43、网络监控模块45、处理器47和存储器元件49。诸如网络设备40之类的网络设备还可以包括或者能够访问策略暂存器45。

通信系统100内的网络通信可包括被从受监控设备30-1至30-M发送到子网C 20-3中的网络设备40-3的看门狗消息35。附加地，可从子网的网络设备40-1至40-N向网络10的网络设备40发送子网健康状况报告25。还应该注意的是，尽管受监控设备30-1至30-M表示经由子网C 20-3连接到网络10的端点或其他对象，然而在整个通信系统100中提供的任何设备可被配置成产生看门狗消息并且将这些消息传送到适当的网络设备。例如，网络设备40和40-1至40-N还可以产生看门狗消息。

出于图示在IoT网络环境中监控和分析看门狗消息的某些示例技术的目的，重要的是理解可以遍历网络环境的通信。可以将以下基础信息视为根据其可以适当地说明本公开的基础。

一般地，物联网(IoT)是节点的全球网络。如本文中所使用的术语“节点”包括网络、物理和虚拟对象，所述网络、物理和虚拟对象被提供有用于因特网连接的网络地址(例如，网际协议(IP)地址)，以使得这些对象能够与彼此和其他支持因特网的设备和系统进行通信。IoT网络中的物理对象和虚拟对象可包括能够被识别、可被指派网络地址(例如，IP地址)并且可被提供有通过网络进行通信的能力的任何自然或人造对象。

IoT网络中的节点的示例包括例如医疗设备、汽车、运输基础设施、能源生产和递送基础设施、工厂、学校、家庭、农场、企业、政府实体等中的嵌入式设备和传感器。IoT网络中的其他节点可包括更传统的计算系统，诸如移动设备(例如，膝上型电脑、智能电话、平板电脑、游戏系统、汽车信息娱乐系统等)、计算设备(例如，台式机等)、网络元件(例如，路由器、网关、交换机、器具、服务器等)和更多的。在特定示例中，可以在控制和自动化网络中提供物理和虚拟对象。如果这些系统出故障，则此类系统可以执行能对人类、生态或财产产生伤害的安全关键功能。

在当前系统中，可扩展消息传送和存在协议(XMPP)(还称为“Jabber”)消息传送标准可用于在网络参与者的状态改变时发送通知。然而，这些消息传送标准被设计来监控用户活动。此外，他们期望底层系统软件继续运行。因此，其指示web存在的能力是有限的并且不可用于监控网络的健康状况。

基于Web技术的现有系统不具有设备或系统健康状况的隐式概念。替代地，使用暴露管理应用和服务的单一可管理性协议来实现系统或设备的健康状况。此外，这些可管理性系统通常在可管理性系统内实现安全性，从而产生配置和维护安全性所需的附加复杂性。需要健康状况监控数据结构，所述健康状况监控数据结构独立于可管理性协议，可通过任何IoT应用或框架来递送，并且不具有实现安全性的当前可管理性协议的复杂性。

用于检测系统故障的策略依靠始发节点发送周期性“看门狗存在消息”(在本文中还称为“看门狗消息”)以向其他节点通知始发节点存在于网络中。在至少一个示例中，看门狗消息可以是指示对象存在并在网络中起作用的二进制消息。未能接收到看门狗消息可以是故障状态(诸如节点故障或网络中断)的指示。然而，在物联网中，在网络或子网络能包含发送看门狗消息的数万个设备的情况下，这些看门狗消息能快速地淹没网络，特别是在消息之间的时间段短(例如，数秒等)的情况下。因此，需要高效且智能地处理看门狗业务以帮助使IoT系统成为弹性且可生存的。附加地，弹性系统能从冗余和可能问题的早期检测中受益。可生存的系统能从冗余以及动态地重新路由、重新分派任务和重新提供以使用剩余资源来恢复安全关键操作的能力中受益。

除了复原能力和生存性之外，至少一些IoT网络要求高可靠性和可用性。例如，任务关键IoT网络可包括执行安全关键功能的对象。任务关键网络的示例包括但不限于制造自动化机器人、自动驾驶车辆、医疗设备、公用设施、军事行动、能源生产和供应等的网络。这些IoT网络中的至少一些需要快速地且可靠地识别系统故障的能力。

本文中描述的实施例可解决与在IoT网络环境中监控和分析看门狗消息相关联的前述问题(及更多的问题)。在通信系统100中，因特网连接的节点(例如，受监控设备30-1至30-M、网络设备40和40-1至40-N)可报告在执行服务的节点存在和可用性方面测量的复原能力和生存性健康状况。节点生成看门狗存在消息。节点的存在是通过向被分派收集和处理健康状况报告任务的网络设备递送未经请求的看门狗消息来建立的。看门狗消息可由网络设备的网格高效地处理，所述网络设备本质上就通信系统100或其一部分(例如，一个或多个子网)的健康状况作报告。在至少一个实施例中，健康状况的高效收集和分析的方法可以使用布隆过滤器(例如，设备过滤器、影子过滤器、子网过滤器和网络过滤器)，所述布隆过滤器由网络设备容易地更新和维护，同时还方便设备未能报告健康状况状态的及时检测。在至少一个实施例中，可以将设备过滤器实现为稀疏阵列。还可以将其他过滤器实现为稀疏阵列。

在更特定实施例中，网络设备的监控器可从一个或多个节点接收看门狗消息。对于每个报告设备，监控器为每个时间间隔分配比特，在所述每个时间间隔内来自该报告设备的看门狗消息可以到达。总比特数可与时间间隔的采样速率匹配。当间隔期满时比特被重置。重置还可以使高阶时间间隔中的比特被记录，使得如果在低阶时间间隔中录入了至少一个比特，则它作为消息的接收被记录到高阶间隔。可以提供多个高阶间隔。影子过滤器可以用于捕获异常模式，诸如其中循环地遗漏比特位置的情况。影子过滤器记录会通过设备过滤器的过滤器重置以其他方式擦除的遗漏，当间隔基于间隔的翻转频率期满时通常发生所述遗漏。可用全一(‘1’)初始化影子过滤器，然后可在过滤器被重置之前对设备过滤器的低阶间隔的至少一比特序列和影子过滤器中的对应比特应用逻辑与操作。还可对设备过滤器的高阶间隔中的受低阶间隔的期满影响的任何比特和影子过滤器中的对应比特应用逻辑与操作。

可通过消耗本地看门狗业务的网络设备的监控器来跨越更大的网络高效地监控健康状况，同时使健康状况报告过滤器值变得更广泛地可用。可通过组合子网中的每个报告设备的影子过滤器结果来合并节点的子系统(例如，子网)的健康状况。在至少一个实施例中，可对每个子网过滤器和网络健康状况报告应用逻辑与操作。健康状况报告指示其中设备存在在网络健康状况报告时段期间已经不一致的情况。可以使用健康状况报告来创建热图以得到更好的可视化。附加地，可通过显示子网过滤器和设备影子过滤器的热图来实现挖掘。

实施例还可包括健康状况监控引擎(HME)，所述HME从IoT网络内的节点(例如，受监控设备30-1至30-M、网络设备40和40-1至40-N)接收心跳消息。心跳消息是包含附加信息的一种看门狗消息。例如，心跳消息可以包含设备识别符(“设备ID”)、本地时间戳、下一个心跳时间、节点健康状况和诊断信息，以及来自下级节点或节点的网络(例如，子网)的看门狗报告。HME可使用机器学习(ML)技术来通过在训练时段期间监控实际心跳消息并且通过使用数据模型被通知预期看门狗消息或看门狗消息的时间表来形成参考模板。然后可在正常操作期间使用参考模板，其中HME评估可以触发积极主动和规定响应以在节点或网络故障之前改进网络复原能力性质的变化和阈值。

若干优点是通过用于监控看门狗消息的通信系统100来提供的。本文中描述的实施例使得IoT网络环境的节点能够一起用于发现、诊断和响应可以是恶意的或偶然的系统故障，其中故障或无法正确地响应可以产生在生命损失、伤害、财产损失或对环境或生态系统的破坏方面测量的物理损害。通信系统100定义健康状况监控数据结构，所述健康状况监控数据结构独立于可管理性协议并且可通过任何IoT应用或框架来递送。此外，通信系统100通过使用高效看门狗消息处理来向因特网和Web网络提供复原能力和生存性。健康状况报告通过被配置为跟踪和保存看门狗故障以供后续观察和分析的实施例而变得更高效。本文中描述的实施例可产生弹性系统，其中健康状况报告可用于发现展示零星且不可靠报告的设备。因此，系统设计者可以增加冗余，改进设备硬化，并且改进网络带宽。还使用健康状况报告来促进生存性，所述健康状况报告识别已失败或者不可靠的节点和子网，使得可通过动态故障智能来通知生存性故障转移动作。

通信系统100的其他实施例还提供优点。例如，一般地，为了改进网络安全性或者对网络业务“流”进行分类以试图找到瓶颈，在网络中使用机器学习来检查入侵异常。然而，通信系统100的实施例使用机器学习来监控看门狗消息作为用于动态预测网络复原能力性质和积极主动响应的方法。在当前系统中，一般地预期看门狗消息以恒定间隔到达。如果来自设备的一个或多个连续看门狗消息遗漏了，则设备可以被标记为丢失或者为用于冗余部署的候选。然而，通信系统100的实施例可监控心跳消息的观察到的业务，访问规定预期行为的数据模型，并且对照实时模板值来对与预期和观察到的行为的变化进行加权。心跳消息是一种形式的看门狗消息，其包含与生成消息的节点有关的附加信息。最后，间歇节点(诸如例如可以不断地四处移动并且作为大多数时候呆在休眠模式下并且偶尔唤醒的休眠低功率传感器来操作的自动驾驶汽车)可影响看门狗消息。至少一个实施例可设想间歇节点对看门狗消息的影响并使用例如影子过滤器来校正它。

总体上，本文中描述的用于在IoT网络中进行健康状况报告和监控的实施例使得IoT网络能够适应其中复原能力和/或生存性重要的应用。本文中描述的实施例允许使用现有IoT框架基础设施和消息传送来实现健康状况监控。因此，健康状况报告可以是用于规则IoT工作负载的框架和基础设施的健康状况的真实反映。还实现看门狗报告的现有可管理性系统不会就生产系统的健康状况作报告。

转向图1，现在提供关于可以被包括在通信系统100中的可能的基础设施中的一些的简要讨论。一般地，可以在任何类型或拓扑的网络中实现通信系统100。网络10及其子网20-1至20-N表示用于接收和发送通过通信系统100来传播的信息的分组的互连通信路径的一系列点或节点。网络10和子网20-1至20-N提供节点(例如，受监控设备30-1至30-M、网络设备40和40-1至40-N等)之间的通信接口。网络及其子网可以包括任何类型或拓扑的一个或多个网络，诸如局域网(LAN)、无线局域网(WLAN)、城域网(MAN)、虚拟局域网(VLAN)、内联网、外联网，诸如因特网的广域网(WAN)、虚拟专用网(VPN)、任何其他适当的网络配置或系统，或促进网络环境中的通信的其任何适合的组合。例如，这些网络可以包括任何数量的有线和无线技术，包括卫星、蜂窝和其他无线电频率。

通信系统100中的通信在本文中还被称为“网络业务”或“业务”。在通信系统100中，可根据任何适合的通信消息传送协议来发送和接收包括分组、帧、信号、数据等的网络业务。适合的通信消息传送协议可包括多层方案，诸如开放系统互连(OSI)模型或其任何衍生物或变体(例如，传输控制协议/网际协议(TCP/IP)、用户数据报协议/IP (UDP/IP))。

分组是可在网络环境中的源节点和目的地节点之间路由的数据的单元。分组包括源网络地址和目的地网络地址，并且还可以包含数据。作为示例，这些网络地址可以是TCP/IP消息传送协议中的网际协议(IP)地址。如本文中所使用的术语“数据”指代任何类型的二进制、数值、语音、视频、文本或脚本数据，或任何类型的源代码或目标代码，或任何适当格式的可以被从计算系统和/或网络中的一个点传送到另一点的任何其他适合的信息。附加地，消息、请求、响应、报告和查询是网络业务的形式，并且因此，可以包括分组、帧、信号、数据等。

通信系统100中的受监控设备表示可向另一节点(诸如网络设备40或40-1至40-N)发送看门狗消息(例如，信标或通知)的节点。例如，受监控设备30-1至30-M通信地耦合到子网C 20-3并且可向子网C 20-3中的网络设备40-3周期性地发送看门狗消息35。看门狗消息可由每个受监控设备根据该设备的看门狗报告时间表来生成和发送。看门狗报告时间表的示例包括但不限于每秒、每分钟、每小时、每天、每周、每月、每年等报告。在至少一个实施例中，看门狗消息可以是设备存在于网络中并起作用的二进制指示。未能从节点接收到预期看门狗消息或看门狗消息的缺少可以是节点的故障状态的指示。故障状态可包括但不限于节点故障或网络中断。可通过网络设备20-3的监控器50-3来监控和分析看门狗消息以及预期从受监控设备30-1至30-M接收到的看门狗消息的缺少。应该注意的是，尽管可以在本文中仅参考看门狗消息来描述某些实施例，然而能实现这些实施例以代替看门狗消息(或者除了看门狗消息之外还)处理心跳消息以实现预定功能性。

网络设备40和40-1至40-N是包括用于监控和分析看门狗消息的相应的监控器50和50-1至50-N的网络元件。如本文中所使用的，术语“网络元件”意在包含路由器、交换机、网关、桥接器、负载均衡器、防火墙、内联服务节点、代理、服务器、处理器、模块或任何其他适合的设备、组件、元件、专有器具或可操作来在网络环境中交换信息的对象。此网络元件可以包括促进其操作的任何适合的硬件、软件、组件、模块、接口或对象。这可以包括允许数据或信息的有效交换实现的适当的算法和通信协议。

在一个实施方式中，网络设备40和40-1至40-N包括用于实现(或者促进)监控和分析功能的软件，如本文中所概述的。注意的是，在一个示例中，这些元件中的每一个均可具有内部结构(例如，处理器47、存储器元件49等)以促进本文中描述的操作中的一些。在其他实施例中，这些监控和分析功能可以在这些元件外部被执行，或者被包括在一些其他网络元件中以实现此预定功能性。可替代地，网络设备40和40-1至40-N可以包括可与其他网络元件协调以便实现操作的此软件(或往复式软件)，如本文中所概述的。在仍然其他的实施例中，一个或若干网络元件可以包括促进其操作的任何适合的算法、硬件、软件、固件、组件、模块、接口或对象。

在一些实施方式中，网络设备可以是定义节点(诸如受监控设备30-1至30-M)的子网络(在本文中还称为“子网”)的路由器。在至少一些实施方式中，可以在分层地形中提供子网。每个网络设备可产生表示子网的健康状况的本地健康状况报告。此外，至少一些网络设备可从其他子网接收健康状况状态报告。例如，网络设备40-3可以产生它自己的表示子网20-3的健康状况的本地健康状况状态报告，所述子网20-3包括受监控设备30-1至30-M。除了从子网20-1至20-3接收子网健康状况状态报告之外，网络设备40还可以产生它自己的表示一个或多个节点(未示出)的健康状况的本地健康状况状态报告。应当注意的是，图1仅仅是通信系统100的可能配置的示例，并且能在通信系统100的其他实施方式中提供任何数量的子网和分层子网级别。

在至少一些实施例中，可以以与由网络设备40的监控器50所图示的相同或类似的方式配置通信系统100中的网络设备40-1至40-N的监控器50-1至50-N。现在将参考在网络10中提供的网络设备40来描述监控器50的示例操作特征。然而，应该显而易见的是，这些操作可类似地适用于整个通信系统100中的网络设备中的其他监控器。

设备监控模块43可为连接到网络设备40并且被配置为产生看门狗消息的一个或多个节点(未示出)产生本地健康状况状态报告。如果本地健康状况状态报告(例如，子网过滤器46)被配置为产生看门狗消息，则它还可以包括来自网络设备40的故障信息。设备监控模块43可将设备过滤器42(例如，稀疏阵列)用于一个或多个节点，其中设备过滤器是根据一个或多个节点的预定监控报告时间表来组织的。设备监控模块43可被配置为当在一个或多个节点的报告时间间隔期间从一个或多个节点接收到看门狗消息或者未能从一个或多个节点接收到看门狗消息时适当地更新设备过滤器。在至少一些实施方式中，网络设备40可以包括多个设备过滤器。应该注意的是，子网的网络设备的监控器(诸如子网C 20-3的网络设备40-3的监控器50-3)可以与网络设备40的监控器50类似的方式起作用。例如。监控器50-3可为其子网中的节点(诸如受监控设备30-1至30-M)产生本地健康状况状态报告(例如，子网过滤器)。

设备监控模块43还可更新影子过滤器44，以在用于节点的报告时间间隔期满之后保存与节点相关联的故障信息。故障信息可包括故障状态(例如，节点故障、电力中断等)，并且可基于应该由节点在报告时间间隔期间发送但是尚未被网络设备接收的看门狗消息在与节点相关联的设备过滤器中进行指示。可基于在报告时间间隔期间节点期望并且由节点接收的看门狗消息在设备过滤器中指示无故障状态(例如，节点存在并且在网络中起作用)。一旦报告时间间隔期满，就可在影子过滤器中保存在报告时间间隔期间捕获的设备过滤器中的故障状态的指示。在至少一些实施例中，可以由网络设备产生多个影子过滤器。

可将由网络设备为子网创建的一个或多个影子过滤器组合成子网过滤器以为包括节点的子网创建健康状况报告。子网过滤器可以是布隆过滤器，所述布隆过滤器可以在至少一个实施例中作为稀疏阵列被实现，并且可以根据网络的拓扑被传播到另一网络设备。例如，在子网20-1至20-N中的任何一个中产生的子网过滤器能作为子网健康状况报告25被传播到网络10的网络设备40。然而，由网络设备40产生的子网过滤器能与由网络10从其他子网(例如，子网20-1至20-N)接收到的其他子网健康状况报告25组合成网络过滤器48以为网络10创建总体健康状况状态报告。此网络过滤器能包括来自在网络中包含报告节点的所有子网的健康状况信息。因此，网络过滤器能包括通信系统100中的所有报告节点的健康状况信息。

在本文中描述的实施例中，健康状况过滤器(例如，设备过滤器、影子过滤器、子网过滤器、网络过滤器等)可由可生成看门狗消息的系统的任何部分更新。在特定示例中，网络设备40-3(和其他网络设备)还可以被配置为生成看门狗消息。在此场景中，网络设备40-3能将它自己的看门狗消息发送到监控器50-3以连同来自受监控设备30-1至30-M的看门狗消息一起被监控和分析。可替代地，网络设备40-3能将其看门狗消息发送到不位于一处的监控器，诸如例如网络10中的网络设备40。

转向图2，图2是图示通信系统100的一些可能通信的简化框图，所述通信系统100可实现代表性状态转移(RESTful)协议。可基于看门狗消息生成健康状况报告，所述看门狗消息可使用RESTful交互来传送。可以使用用于递送正常IoT网络业务的现有IoT框架基础设施来实现健康状况报告。这可通过使用遵循因特网的RESTful协议语义的行业标准IoT资源来定义健康状况状态来实现。RESTful协议行为可通过对象模型来促进，所述对象模型允许健康状况报告由设备实体生成并且然后通过IoT框架的资源接口来发布。例如，开放连接论坛(OCF)定义这种框架对象模型。

在至少一个实施例中，可将布隆过滤器实现为稀疏阵列，所述稀疏阵列提供关于网络如何工作的信息。提供关于子网或包括子网的网络的健康状况信息的布隆过滤器在本文中还被称为“健康状况报告”。这些健康状况报告中的至少一些(例如，子网健康状况报告)可被传播到网络中的其他网络设备以被组合以得到网络或网络的一部分的更广泛图片。控制业务层可以在通信系统100中的看门狗消息和健康状况报告的内容递送之前。

图2的块210表示通信系统100的特定节点，设备A(例如，受监控设备30-1)。可在设备A的每个连续报告时间间隔期间从预期看门狗消息的接收或来自设备A的预期看门狗消息的缺少导出设备健康状况信息(例如，与设备相关联的故障状态和/或无故障状态的指示)。可在用于设备A的每个报告时间间隔的期满时创建和更新影子过滤器。影子过滤器表示设备A的健康状况报告。如果影子过滤器组合来自其他受监控设备的信息，则影子过滤器表示设备A和其他受监控设备的健康状况报告。

图2的块220表示通信系统100的子网C 20-3。可从子网中的节点(包括设备A)的健康状况报告导出子网健康状况信息(例如，与子网中的设备相关联的故障状态和/或无故障状态的指示)。可为子网中的所有节点收集影子过滤器。可基于节点(例如，受监控设备30-1至受监控设备30-M)的影子过滤器在报告时段的期满时创建和更新子网过滤器。子网过滤器表示子网C的健康状况报告。

图2的块230表示通信系统100的网络10。可从子网(包括子网C)的健康状况报告导出网络健康状况信息(例如，与子网相关联的故障状态和/或无故障状态的指示)。可为具有报告节点的所有子网收集子网过滤器。可基于子网(例如，子网A 20-1至子网n 20-N)的子网过滤器在报告时段的期满时创建和更新网络过滤器。网络过滤器表示网络10的健康状况报告，所述网络10包括具有报告节点的所有子网。

IoT框架参与者240表示用户或自动化系统可用来访问网络、子网和/或节点的健康状况报告的控制台。当设备出故障或者在通信系统100中发生网络中断时，可在网络健康状况报告中指示这些故障。IoT框架参与者240可观察这些指示并且执行查询以确定关于故障的定位和频率的更详细信息。因此，可探知网络健康状况报告中的故障指示的意义。

图3是图示可以由通信系统100的网络设备的监控器在示例场景中生成的示例设备过滤器300和影子过滤器350的框图。网络设备(诸如网络设备40和40-1至40-N)可使用根据用于节点的预定看门狗报告时间表而组织的设备过滤器来为一个或多个节点生成健康状况状态报告。例如，网络设备20-3可为受监控节点30-1至30-M以及可能网络设备20-3它本身产生健康状况状态报告。看门狗时间表为给定设备或设备类型建立预期布隆内容。示例设备过滤器300是针对监控来自一个或多个节点的看门狗消息(以及看门狗消息的缺少)的秒、分钟、小时、天和周的感兴趣时间表而图示的。对在过滤器中可以存在多少更高或更低阶的时间量化没有限制，但是它可能实际上受到可用资源和能力限制。另外，节点的不同的报告时间表可以要求不同的时间间隔。因此，可以在设备过滤器中提供更精细或更粗糙的时间粒度。

一个或多个节点可以具有看门狗报告时间表，所述看门狗报告时间表要求节点每秒生成看门狗消息，如图3中所图示的。然而，设备过滤器能适应具有不同的看门狗时间表的多个节点。例如，受监控设备30-1能每秒报告，受监控设备30-2能每小时报告，并且受监控设备30-3能每天报告。能在诸如设备过滤器300之类的单个设备过滤器中捕获指示对于所有三个受监控设备接收到或者未接收到看门狗消息的信息。然而，为了图示和描述的容易，将参考单个节点(受监控设备304)每秒报告描述图3，所述报告在设备过滤器300中被捕获。

在设备过滤器300中，根据受监控设备304的看门狗时间表来为被监控的每个时间间隔分配比特序列。设备过滤器300包括用于秒间隔302-1的六十个比特(比特0-59)的第一比特序列、用于分钟间隔302-2的六十个比特(比特60-119)的第二比特序列、用于小时间隔302-3的二十四个比特(比特120-143)的第三比特序列、用于天间隔302-4的七个比特(比特144-150)的第四比特序列以及用于周间隔302-5的五十二个比特(比特151-202)的第五比特序列。在此示例中，秒间隔302-1是在其期间看门狗消息预期每秒从受监控设备304到达的报告时间间隔。为报告时间间隔(例如，60秒)中的每个时间段(例如，一秒)分配比特。因此，报告时间间隔的比特序列中的总比特数可与报告时间间隔的采样速率(例如，60秒)匹配。与高阶时间间隔相对应的比特序列在本文中被称为“高阶比特序列”。高阶比特序列中的每一个均可以包括与其关联的高阶时间间隔的采样速率(例如，60分钟、24小时、7天、52周等)匹配的总比特数。设备过滤器300还可以包括休眠比特303(比特203)。

接收看门狗消息的网络设备的内部时钟确定要使用设备过滤器300中的哪一个(或哪些)比特位置。设备和网络等待时间可以使看门狗消息在不同的时间且以不同的顺序到达。这种行为在复原能力方面仍然有用。在一种可能的实施方式中，设备过滤器300被初始化为零。报告时间间隔的比特序列中的第一(开始)比特位置(例如，秒间隔302-1的比特0)被识别为比特序列的当前比特位置。类似地，高阶时间间隔的高阶比特序列中的第一比特位置(例如，分钟间隔302-2的比特60、小时间隔302-3的比特120、天间隔302-4的比特144、周间隔302-5的比特151)可被识别为那些高阶比特序列的当前比特位置。高阶比特序列的当前比特位置在本文中还被称为“翻转比特位置”。

在至少一个实施方式中，如果在比特位置改变之前或者在报告间隔(例如，在此场景中为60秒)期满之前接收到看门狗消息，则报告时间间隔比特序列中的当前比特位置中的比特被设置为真（TRUE）(即，1)。在此示例实施方式中，将比特设置为真指示在与当前比特相对应的时间段(例如，第一秒、第二秒等)内无故障状态。随着时钟继续，比特序列中的每个连续比特位置可以被识别为比特序列的当前比特位置。如果在当前比特位置改变之前或者在报告时间间隔期满之前接收到看门狗消息，则可以将每个当前比特位置中的比特设置为真。

在一些场景中，一个或多个看门狗消息可以在其中它们预期到达的一个秒时间段期满之后或之前到达。只要在报告时间间隔(例如，60秒)期满之前接收到比特位置的看门狗消息，就可通过允许将比特序列中的适当比特设置为真来适应这种潜在突发性行为。因此，在报告时间间隔(例如，60秒)期满之前接收的比特的突发可用于在设备过滤器的比特序列中将这些比特(例如，比特0-59)设置为真。

一旦报告时间间隔中的最后一秒过去，就可发生翻转事件。在翻转事件中，如果报告时间间隔比特序列中的任何比特被设置为真，则可将下一个高阶比特序列的当前比特位置中的比特设置为真以指示在与当前比特相对应的时间段(例如，60分钟间隔的第1分钟、第2分钟等)的无故障状态。如果在报告时间间隔期间未接收到看门狗消息并且在报告时间间隔比特序列中没有比特被设置为真，则下一个高阶比特序列的当前比特位置中的比特可保持假（FALSE）(即，0)以指示在与当前比特相对应的时间段的故障状态。在本示例中，在秒间隔的期满时，如果秒间隔的比特序列中的任何比特被设置为真，则可在分钟间隔比特序列中的当前比特位置中将比特设置为真。然而，如果秒间隔的比特序列中的每个比特被设置为假，则分钟间隔比特序列中的当前比特位置中的比特可保持被设置为假。可在每个高阶比特序列中发生翻转事件，在所述每个高阶比特序列中下一个低阶时间间隔期满并且在该低阶时间间隔的比特序列中设置至少一个比特。此逻辑可捕获中断或健康状况操作的更长时段。

在一些实例中，一个或多个其他受监控设备可根据其中发生翻滚事件的高阶时间间隔(例如，分钟)来报告看门狗消息。在此场景中，如果其他受监控设备中的任一个在通过当前比特位置指示的时间段(例如，与比特60相对应的第一分钟)期间接收到看门狗消息，或者如果比特在在先时间间隔的比特序列中被设置为真，则可将高阶比特序列的当前比特位置设置为真。否则，高阶比特序列的当前比特位置可以保持被设置为假。将比特设置为真指示与该当前比特位置相对应的时间段(例如，当前分钟间隔的第一分钟)内的无故障状态。如果比特为假，则这指示与该当前比特位置相对应的时间段内的故障状态。

重置速率340包括用于重置设备过滤器300中的比特序列的一组相应的速率。重置速率340对应于由设备过滤器300表示的相应的时间间隔的期满。具体地，用于特定时间间隔的比特序列的重置速率基于该特定时间间隔期满的频率。在至少一个实施例中，用于特定时间间隔的比特序列的重置速率指示该比特序列将被重置为全零(即，假)的速率。例如，用于秒间隔302-1的比特序列将被每分钟重置，用于分钟间隔302-2的比特序列将被每小时重置，用于小时间隔302-3的比特序列将被每天重置，用于天间隔302-4的比特序列将被每周重置，并且用于周间隔302-5的比特序列将被每年重置。

重置速率还可触发重置报告时间间隔的当前比特位置并且重置或者更新设备过滤器300中的一个或多个高阶比特序列的当前比特位置。报告时间间隔的重置速率(每分钟)指示报告时间间隔比特序列的当前比特位置何时将被重置为比特序列中的第一比特位置(比特0)。每一高阶比特序列的当前比特位置还基于它自己的重置速率被重置为该高阶比特序列的第一(开始)比特位置。当报告时间间隔期满时，在高阶比特序列中的一个或多个中发生翻转事件。当在高阶比特序列中发生翻转事件时，如果该比特序列的时间间隔尚未期满，则该高阶比特序列的当前比特位置被递增了一并且被识别为比特序列中的下一个比特位置。

现在提供示例来进一步图示这些构思。在此示例中，秒间隔302-1是设备过滤器300的报告时间间隔。当第一秒间隔期满时，一分钟已过去。用于秒间隔的重置速率是每分钟。因此，在分钟间隔302-2的比特序列的第一比特(比特60)中发生翻转事件，并且用于秒间隔302-1的比特序列的当前比特位置被重置为比特序列的第一比特位置(比特0)。当第六十个秒间隔期满时，一个小时已过去并且因此，分钟间隔302-2还期满。在用于小时间隔302-3的比特序列的第一比特(比特120)中且在用于分钟间隔302-2的比特序列的最后比特(比特119)中发生翻转事件。因为用于分钟间隔302-2的重置速率是每小时，所以用于分钟间隔302-2的比特序列的当前比特位置被重置为该比特序列的第一比特位置(比特60)。用于秒间隔302-1的比特序列的当前比特位置被重置为该比特序列的第一比特位置(比特0)。用于小时间隔302-3的比特序列的当前比特位置被递增了一以被识别为该比特序列中的下一个比特(比特121)。另外，用于秒间隔的比特序列中的比特和用于分钟间隔的比特序列中的比特被重置为全零或假。其他比特序列在其间隔时段期满之前未被重置为零。

影子过滤器350包含与设备过滤器300相关联的受监控设备的健康状况报告。例如，如本文中先前所提及的，在一些实施方式中，同一影子过滤器可包含多个节点的健康状况报告，其健康状况信息是在同一设备过滤器中捕获的。一般地，受监控设备304的健康状况报告通过保存来自设备过滤器的故障的指示来描述受监控设备的健康状况，其中设备过滤器根据受监控设备的看门狗时间表来基于是否从受监控设备定期地接收到看门狗消息来捕获此信息。可通过将影子过滤器300初始化为初始化值(例如，全一)来启动新的健康状况报告。如果在设备过滤器300中通过零(假)来指示故障状态，则可通过在设备过滤器中的比特与影子过滤器中的比特之间执行逻辑与操作来在影子过滤器350中保存故障状态的指示。

影子过滤器350可包括足够的比特来镜像设备过滤器300。在图3的示例中，影子过滤器350的比特序列镜像设备过滤器300的比特序列。影子过滤器350包括用于秒间隔352-1的六十个比特(比特0-59)的比特序列、用于分钟间隔352-2的六十个比特(比特60-119)的比特序列、用于小时间隔352-3的二十四个比特(比特120-143)的比特序列、用于天间隔352-4的七个比特(比特144-150)的比特序列以及用于周间隔352-5的五十二个比特(比特151-202)的比特序列。

每当报告时间间隔期满时，可在重置设备过滤器中的比特之前在影子过滤器350中保存设备过滤器300中指示的故障。在至少一个实施例中，可基于适当的重置速率340对设备过滤器300和影子过滤器350的对应的比特序列执行逻辑与操作。例如，可每分钟对影子过滤器350的秒间隔352-1的比特序列和设备过滤器300的秒间隔302-1的比特序列执行逻辑与操作。在至少一些实施例中，可基于其他对应的比特序列指定的重置速率对其他对应的比特序列执行逻辑与操作。特别地，可每小时对影子过滤器350的分钟间隔352-2的比特序列和设备过滤器300的分钟间隔302-2的比特序列执行逻辑与操作。可每天对影子过滤器350的小时间隔352-3的比特序列和设备过滤器300的小时间隔302-3的比特序列执行逻辑与操作。可每周对影子过滤器350的天间隔352-4的比特序列和设备过滤器300的天间隔302-4的比特序列执行逻辑与操作。可每年对影子过滤器350的周间隔352-5的比特序列和设备过滤器300的周间隔302-5的比特序列执行逻辑与操作。

在另一实施例中，对设备过滤器300中的较少比特和影子过滤器350中的对应比特执行逻辑与操作以保存故障。在设备过滤器中要在逻辑与操作中使用的比特可包括用于期满报告时间间隔的比特序列中的比特以及在高阶比特序列中基于报告时间间隔或高阶时间间隔中的一个的期满被设置为一(真)或留作为零(假)的每个当前比特。设备过滤器中的可以在逻辑与操作中使用的其他比特可包括在基于报告时间间隔或高阶时间间隔中的一个的期满被设置为一（真）或者留作为零(假)的最后当前比特之前的设备过滤器300中的任何比特。在此实施例中，在每个报告时间间隔的期满时保存在表示高阶时间间隔的比特序列中指示的故障，而不用等待直到高阶时间间隔期满为止。

本文中描述的实施例还可适应利用休眠模式的受监控设备，在所述休眠模式期间它们不递送看门狗消息。一些节点通常关闭以保存电力。健康状况过滤器可记录休眠事件，使得活动的缺少不会发信号通知误报响应。在至少一个实施例中，可以在设备过滤器300中使用休眠比特203来启用此特征。受监控设备可在进入休眠模式之前发送最后看门狗消息。此最后看门狗消息可包括被设置为真(即，1)的休眠比特。可在设备过滤器300中在休眠比特203中记录来自看门狗消息的休眠比特。将休眠比特203设置为真指示不期望看门狗消息。可针对受监控设备封锁对设备过滤器的更新，直到从清除休眠比特203的受监控设备接收到另一看门狗消息为止。在一些实施例中，通过暂停与监控来自受监控设备的看门狗消息有关的处理来封锁对设备过滤器的更新，直到休眠比特被清除为止。

图4是图示可以与本文中描述的至少一个实施例相关联的潜在操作的流程400的简化流程图。在至少一个实施例中，一组或多组操作对应于图4的活动。网络设备(例如，40或40-1至40-N)可以包括诸如一个或多个处理器(例如，处理器47)之类的装置，以用于执行操作。在一个示例中，流程图400中所示的至少一些操作可以由包括设备监控模块43的监控器(例如，50)执行，以监控一个或多个节点(例如，受监控设备30-1至30-M、网络设备40和40-1至40-N)并且基于根据节点的看门狗时间表是否接收到看门狗消息来捕获设备过滤器中的信息。

在402处，可将设备过滤器初始化为默认值。为了图示的容易，假定设备过滤器被以与图3的设备过滤器300相同的方式配置来描述图4的操作。然而，将显而易见的是，可以取决于用于填充设备过滤器的节点的相关看门狗报告时间表而以任何数量的不同方式实现设备过滤器。在一个可能的实施方式中，用于初始化设备过滤器的默认值是零。因此，在此示例中可将设备过滤器的每个比特序列中的每个比特初始化为零。在404处，设备过滤器的每个比特序列中的第一比特位置被设置为该比特序列的当前比特位置(例如，比特0、60、120、144、151)。

设备过滤器可具有分别表示多个时间间隔(例如，秒、分钟、小时、天、周)的多个比特序列。一个或多个节点可以根据其相应的看门狗时间表(例如，每秒、每分钟等)来生成看门狗消息。它们的看门狗时间表可以是相同的或不同的。例如，三个节点可以全部每分钟报告看门狗消息。在另一示例中，一个节点可以每秒报告看门狗消息，而两个节点可以每小时报告看门狗消息。

与针对特定设备过滤器的看门狗消息的最频繁报告相关联的时间间隔在本文中被称为用于该设备过滤器的报告时间间隔。例如，如果这些节点中的至少一个每秒报告而其他节点(若有的话)不太频繁地(例如，每小时、每天、每周等)报告，则秒间隔是用于该设备过滤器的报告时间间隔。在另一示例中，如果这些节点中的至少一个每天报告而其他节点(若有的话)不太频繁地(例如，每周)报告，则天间隔是用于该设备过滤器的报告时间间隔。可以基于网络设备中的时钟启动时间间隔。

可启动报告时间间隔并且在406处，系统可等待报告时间间隔(例如，秒间隔)的报告时间段(例如，一秒)过去。当一秒过去时，在408处，做出关于是否从基于报告时间间隔(例如，每秒)报告看门狗消息的至少一个节点接收到看门狗消息的确定。如果未接收到满足准则的看门狗消息，则在414处，监控器可使报告时间间隔的比特序列中的当前比特位置中的比特指示与预期在报告时间间隔期间报告的一个或多个节点相关联的故障状态。如果在408确定了从基于报告时间间隔报告看门狗消息的至少一个节点接收到看门狗消息，则在412处，监控器可使报告时间间隔的比特序列中的当前比特位置中的比特指示与预期在报告时间间隔期间报告的一个或多个节点相关联的无故障状态。

一旦当前位置中的比特为一个或多个节点提供适当的指示，在416处，就做出关于报告时间间隔是否已期满的确定。如果报告时间间隔尚未期满(例如，60秒尚未过去)，则在418处，报告时间间隔的比特序列中的下一个比特位置被设置为用于报告时间间隔的新的当前比特位置。流程然后转到406，其中监控器可等待报告时间间隔的下一个报告时间段(例如，1秒)过去并且流程可如先前所描述的那样继续。

如果报告时间间隔已期满，如在416处所确定的，则在420处，可在表示设备过滤器中的下一个高阶时间间隔(例如，分钟间隔)的比特序列中执行翻转事件。在422处，可基于在设备过滤器中表示期满时间间隔的比特序列来更新影子过滤器。将分别在图5和图6中更全面地描述执行翻转事件并且更新影子过滤器。

一旦已执行了翻转事件并且已更新了影子过滤器，则在424处，可重置期满时间间隔的比特序列中的比特。在至少一个示例中，重置设备过滤器的比特序列包括将所有比特设置为零。此外，还可将期满时间间隔的比特序列中的当前比特位置重置为比特序列的第一比特位置。例如，参考设备过滤器300，可将秒间隔的比特序列中的当前比特位置重置为比特0。当其他比特序列对应的时间间隔期满时，可重置其他比特序列中的当前比特位置。一旦在设备过滤器中重置了比特和当前比特位置，流程就可返回到406，其中监控器可等待报告时间间隔的报告时间段(例如，1秒)过去并且流程可像先前所描述的那样继续。

应该注意的是，流程图400的逻辑还能适应可以周期性地或定期地进入休眠模式的设备。可检查每个看门狗消息以确定它是否提供其节点正在切换到休眠模式的指示。例如，可通过看门狗消息中的休眠比特来提供指示。可将休眠比特设置为真以指示受监控设备正在切换到休眠模式。如果单个受监控设备正在针对设备过滤器进行报告，则可设置设备过滤器中的休眠比特(例如，休眠比特203)以指示无更多的看门狗消息期望来自该受监控设备。在至少一个实施例中，当受监控设备保持在休眠模式下时，节点可处理设备过滤器，好像正在根据报告时间表接收看门狗消息一样。处理实际的看门狗消息可在从受监控设备接收到看门狗消息时再次开始并且通过将它重置为假来清除休眠比特。

如果多个受监控设备正在针对单个设备过滤器进行报告，则可以不设置休眠比特直到所有受监控设备都已切换到休眠模式为止。在这种情况下，可在从休眠比特被设置为真的每个设备接收到看门狗消息之后设置设备过滤器中的休眠比特。在至少一个实施例中，当受监控设备保持在休眠模式下时，节点可处理设备过滤器，好像正在根据受监控设备的报告时间表接收看门狗消息一样。处理实际的看门狗消息可在从通过将休眠比特重置为假来清除它的设备接收到看门狗消息时再次开始。

图5是图示可以与本文中描述的至少一个实施例相关联的潜在操作的流程500的简化流程图。在至少一个实施例中，一组或多组操作对应于图5的活动。网络设备(例如，40或40-1至40-N)可以包括诸如一个或多个处理器(例如，处理器47)之类的装置，以用于执行操作。在一个示例中，流程图500中所示的至少一些操作可以由包括设备监控模块43的监控器(例如，50)执行，以在与设备过滤器相关联的一个或多个时间间隔期满时执行翻转事件。例如，流程图500中描绘的一个或多个操作可以发生以执行图4的420处指示的翻转事件。

在至少一个实施例中，流程图500的操作可以在在416处做出了报告时间间隔期满了的确定之后开始。在502处，可将与设备过滤器相关联的下一个高阶时间间隔识别为当前时间间隔。例如，如果已经做出报告时间间隔(例如，秒间隔)期满了的确定，则可将分钟间隔识别为下一个高阶时间间隔或当前时间间隔。在504处，可做出关于是否在已期满的下一个低阶时间间隔的比特序列中设置任何比特或者是否从基于当前时间间隔报告的至少一个节点接收到看门狗消息的确定。因此，如果没有基于当前时间间隔报告的节点，则确定简单地是是否在已期满的下一个低阶时间间隔的比特序列中设置任何比特。

如果在504处做出了下一个低阶时间间隔的比特序列中的至少一个比特指示无故障状态(例如，比特被设置为1)或者从基于当前时间间隔报告的至少一个节点接收到看门狗消息的确定，则在506处，监控器可使当前时间间隔的比特序列中的当前比特位置中的比特指示无故障状态与被假定为在当前时间间隔期间报告的节点和以低阶时间间隔报告的节点相关联。

如果在504处做出了下一个低阶时间间隔中的比特不指示无故障状态(即，所有比特指示故障状态)并且从基于当前时间间隔报告的至少一个节点未接收到看门狗消息的确定，则在508处，监控器可使当前时间间隔的比特序列中的当前比特位置中的比特指示与被假定为在当前时间间隔期间报告的节点和/或以低阶时间间隔报告的节点相关联的故障状态。特定位位置中的故障状态指示或无故障状态指示与对应于该特定位位置的时间段相关联。

一旦当前位置中的比特为节点提供适当的指示，在510处，就做出关于当前时间间隔是否已期满的确定。如果当前时间间隔已期满(例如，60分钟已过去)，则流程回转到502，其中下一个高阶时间间隔可被识别为新的当前时间间隔。流程可像先前所描述的那样继续。如果当前时间间隔尚未期满，如在510处所确定的，则在512处，可将当前时间间隔的比特序列的当前比特位置递增一以将下一个比特位置识别为当前时间间隔的新的当前比特位置。

图6是图示可以与本文中描述的至少一个实施例相关联的潜在操作的流程600的简化流程图。在至少一个实施例中，一组或多组操作对应于图6的活动。网络设备(例如，40或40-1至40-N)可以包括诸如一个或多个处理器(例如，处理器47)之类的装置，以用于执行操作。在一个示例中，流程图600中所示的至少一些操作可以由包括设备监控模块43的监控器(例如，50)执行，以在与设备过滤器相关联的一个或多个时间间隔期满时执行影子过滤器更新。例如，流程图600中描绘的一个或多个操作可以发生以像图4的422处所指示的那样更新影子过滤器。

在602处，通过将设备过滤器中的报告时间间隔的比特序列与影子过滤器中的对应时间间隔的比特序列组合来更新影子过滤器。例如，如果设备过滤器300的秒间隔302-1是报告时间间隔，则设备过滤器300的秒时间间隔302-1的比特序列能与影子过滤器350的秒间隔352-1组合。

在604处，识别设备过滤器中的下一个高阶时间间隔。在此场景中，下一个高阶时间间隔是设备过滤器300中的分钟间隔302-2。在606处，可基于所识别的高阶时间间隔的比特序列来更新影子过滤器。在至少一个实施方式中，在所识别的高阶时间间隔的比特序列中更新的最后比特以及该比特序列中的所有在先比特可与影子过滤器中的对应比特组合。在另一实施方式中，仅在所识别的高阶时间间隔的比特序列中更新的最后比特与影子过滤器中的对应比特组合。这可能是可能的，因为比特序列中的在先比特会在影子过滤器的先前更新期间已经与影子过滤器中的对应比特组合。在其中先前尚未更新所识别的高阶时间间隔的比特序列中的比特的实例中，则仅所识别的高阶时间间隔的比特序列中的第一比特将与设备过滤器中的对应比特组合。

在608处，做出关于设备过滤器中的所识别的高阶时间间隔是否期满的确定。如果所识别的高阶时间间隔的比特序列中的最后比特是在该比特序列中更新的最后比特，则所识别的高阶时间间隔期满了。如果它尚未期满，则对影子过滤器的更新完成。然而，如果所识别的高阶时间间隔已期满，则流程回转到604，其中设备过滤器中的下一个高阶时间间隔被识别并且处理像先前所描述的那样继续。

应该注意的是，能使用允许在影子过滤器中保存故障状态指示的任何类型的逻辑操作来实现用于在602和606处组合比特的操作。在一个示例中，影子过滤器被初始化为全1。如果设备过滤器中的比特被设置为0以指示故障状态并且被设置为1以指示无故障状态，则可对设备过滤器中的适当比特和影子过滤器中的对应比特应用逻辑与操作。影子过滤器中的结果得到的零可保存来自设备过滤器的故障状态指示。尽管这是一个可能的实施方式，然而其他类型的逻辑(包括但不限于逻辑或操作和逻辑XOR(异或)操作)可以与用于设备过滤器和影子过滤器的适当的默认值一起使用，以确保当设备过滤器中的比特与影子过滤器中的比特组合时通过设备过滤器中的比特所指示的故障状态被保存在影子过滤器中。

图7是图示可以与本文中描述的至少一个实施例相关联的潜在操作的流程700的简化流程图。在至少一个实施例中，一组或多组操作对应于图7的活动。网络设备(例如，40或40-1至40-N)可以包括诸如一个或多个处理器(例如，处理器47)之类的装置，以用于执行操作。在一个示例中，流程图700中所示的至少一些操作可以由包括设备监控模块43的监控器(例如，50)执行，以重置影子过滤器。例如，流程图700中描绘的一个或多个操作可以在如图4的422处所指示的对影子过滤器的更新期间发生，或者可以基于其他触发机制单独地发生。

在702处，做出关于策略是否要求重置影子过滤器的确定。在至少一个实施例中，影子过滤器重置策略可与指定消息被传播有多频繁的网络设备配置(例如，路由器配置)相关，其中消息指示子网的节点当前向上。因此，当传播此类消息时，策略可以要求重置影子过滤器或用于子网的过滤器。因此，如果策略要求重置影子过滤器，则在704处，可将影子过滤器重置为默认值。在一个示例中，影子过滤器中的每个比特被重置为一(1)或真。然而，应该显而易见的是，可以任何数量的方式设计用于在影子过滤器中保存故障的逻辑，并且影子过滤器的默认值可以取决于被实现的特定逻辑而不同。一旦在704处重置了影子过滤器，或者如果策略像在702处所确定的那样不要求重置，则流程可结束。

转向图8，图8是图示在网络中创建示例网络健康状况报告的简化过程的框图。在此示例中，网络10包括子网络A、B、C、D和E。健康状况报告820在本文中还被称为“网络过滤器”并且可以被配置为基本上描述网络10的健康状况的稀疏阵列。在此示例中，可基于子网A过滤器(F_A) 812-1、子网B过滤器(F_B) 812-2、子网C过滤器(F_C) 812-3、子网D过滤器(F_D)812-4和子网E过滤器(F_E) 812-5来生成健康状况报告820。

子网过滤器还可以被配置为基本上描述其相应的子网的健康状况的稀疏阵列。子网过滤器在本文中还被称为“子网健康状况报告”。可将用于子网中的节点的影子过滤器组合成用于子网的子网过滤器。因此，可从一个或多个影子过滤器生成每个子网过滤器。子网过滤器可以在关闭子网健康状况报告之前多次对影子过滤器进行采样。健康状况监控策略可以确定采样间隔。当子网健康状况报告被关闭时，可将子网健康状况报告提供给另一网络设备以被组合成诸如健康状况报告820之类的另一报告，并且可重置子网健康状况报告，使得新的报告可开始收集子网的健康状况信息。基于相应的设备过滤器(例如，设备过滤器300)生成并更新影子过滤器。从子网A至E的节点的看门狗消息生成和更新设备过滤器。

图8图示能如何生成子网C 20-3的子网C过滤器(F_C) 812-3的附加可能细节。例如，子网C过滤器812-3能通过与影子过滤器S1 802-1、影子过滤器S2 802-2、影子过滤器S3803-3、影子过滤器S4 802-4和影子过滤器S5 802-5组合来生成。在至少一个实施例中，由子网过滤器消耗的影子过滤器可具有相同的配置。出于图示目的，图8中的示例假定影子过滤器S1-S5被以与影子过滤器350相同的方式配置。因此，与影子过滤器S1-S5相对应的设备过滤器(在图8中未示出)可具有与设备过滤器300相同的配置。

在图8的示例中，每个影子过滤器S1-S5通过相应的设备过滤器来更新，所述相应的设备过滤器期望来自具有不同的报告时间段的节点的看门狗消息。例如，影子过滤器S1通过使受监控设备804-1每秒报告的设备过滤器来更新。所以当发生翻转事件时影子过滤器S1可将与受监控设备804-1相关联的信息包括在用于秒间隔和高阶时间间隔的比特序列中。影子过滤器S2通过使受监控设备804-2每分钟报告的设备过滤器来更新。所以当发生翻转事件时影子过滤器S2可将与受监控设备804-2相关联的信息包括在用于分钟间隔和高阶时间间隔的比特序列中。影子过滤器S3通过使受监控设备804-3每小时报告的设备过滤器来更新。所以当翻转事件发生时影子过滤器S3可将与受监控设备804-3相关联的信息包括在用于小时间隔和高阶时间间隔的比特序列中。影子过滤器S4通过使受监控设备804-4每天报告的设备过滤器来更新。所以当发生翻转事件时影子过滤器S4可将与受监控设备804-4相关联的信息包括在用于日间隔和高阶时间间隔的比特序列中。影子过滤器S5通过使受监控设备804-5每周报告的设备过滤器来更新。所以影子过滤器S5可将与受监控设备804-5相关联的信息包括在用于周间隔的比特序列中。在此示例中没有高阶时间间隔。如果影子过滤器中的任一个的低阶比特序列不包含来自任何报告节点的信息，则基于影子过滤器中的每一个均被初始化为一，那些低阶比特序列可包含1。

子网C过滤器812-3为每个子网节点维护比特位置。在一个实施例中，子网C过滤器812-3具有与影子过滤器相同的配置。在此实施例中，影子过滤器S1-S5的每个影子过滤器可通过执行将影子过滤器折叠到子网C过滤器中的操作来与子网C过滤器812-3组合。在至少一个实施例中，可使用每个影子过滤器和子网过滤器来执行逻辑与操作。这允许通过影子过滤器中的零所表示的故障信息被传播到子网过滤器(并且保留在子网过滤器中)。在一些实施方式中，可将多个影子过滤器折叠到单个影子过滤器中并且可将单个影子过滤器与子网C过滤器组合。

应该显而易见的是，在此实施方式中的一些情况下，可以通过在第二影子过滤器中指示故障的对应比特来覆写在第一影子过滤器中指示无故障的比特。如果第一影子过滤器中的一个比特与子网C过滤器中的对应比特组合，则子网过滤器中的对应比特将继续指示无故障(例如，设置为1)。然而，一旦第二影子过滤器中的比特与子网过滤器中的对应比特组合，子网过滤器中的对应比特就将指示故障(例如，设置为0)。然而，可容忍这个，因为即使在此实施方式中与错误相关联的特定设备的身份可能是未知的，结果得到的子网过滤器也提供在子网中发生了故障的信息。然而，子网中的错误的报告时间段被记录在子网中的子网过滤器(例如，一分钟的第三秒、一天中的第四小时等)中。

在另一实施方式中，子网过滤器可为每个影子过滤器维护单独的比特位置。例如，能将子网C过滤器812-3配置为大小是影子过滤器S1-S5中的一个的五倍的稀疏阵列。每个影子过滤器可与子网C过滤器的相应的部分组合。在一些实施方式中，可利用用于每个影子过滤器的单独的比特位置在单个影子过滤器中组合多个影子过滤器，并且可将单个影子过滤器与子网C过滤器组合。

某些技术可以用于提高效率和/或节省比特空间。例如，尽管子网过滤器为每个子网节点的看门狗报告维护比特位置，然而可以使用方法来压缩子网过滤器，在所述方法中可对相同值的四(4)个或更多个的运行进行计数并且计数值而不是比特值被存储。这种类型的压缩可降低网络上的健康状况报告负载。当使用压缩技术时，与逻辑的应用被应用于比特值而不是直接地应用于计数值。

用于生成网络健康状况报告的过程与生成子网健康状况报告的过程类似。生成网络健康状况报告可包括将子网健康状况报告合并到用于网络的网络过滤器中。在至少一个实施例中，网络过滤器可以是具有与子网过滤器812-1至812-5相同的配置的稀疏阵列。在此实施例中，子网过滤器812-1至812-5中的每个子网过滤器可通过执行将子网过滤器折叠到网络过滤器中的操作来与网络过滤器组合。在至少一个实施例中，可使用每个子网过滤器和网络过滤器来执行逻辑与操作。这允许通过子网过滤器中的零所表示的故障信息被传播到网络过滤器(并且保留在网络过滤器中)。在一些实施方式中，可将多个子网过滤器折叠到单个子网过滤器中并且可将单个子网过滤器与网络过滤器组合。

在另一实施方式中，网络过滤器可为每个子网过滤器维持单独的比特位置。例如，能将网络过滤器820配置为大小是子网过滤器812-1至812-5中的一个的五倍的稀疏阵列。每个子网过滤器可与网络过滤器的相应的部分组合。在一些实施方式中，可利用用于每个子网过滤器的单独的比特位置在单个子网过滤器中组合多个子网过滤器，并且可将单个子网过滤器与网络过滤器820组合。

在至少一个实施例中，通信系统100使用网络设备(诸如网络设备40和40-1至40-N)来建立用于如何频繁地监控和刷新影子过滤器、子网过滤器和网络过滤器的一个或多个策略。在至少一个实施方式中，网络设备可以是能够建立并维护健康状况监控策略的路由器。由网络设备更新的影子过滤器可在由网络设备定义的时间窗口期间保持故障的多个指示(例如，当未接收到看门狗消息时)。嵌入在网络设备结构内的网络健康状况监控策略可跟踪它服务的子网的故障并且可根据网络设备的用于报告网络故障的方法来将子网过滤器传播到其他网络设备(例如，下一个层次级别中的网络设备)。例如，支持路由信息协议(RIP)的网络设备可基于其子网过滤器中指示的故障状态的阈值来传播指示其关联的子网正出故障的消息。在另一示例中，支持边界网关协议(BGP)的网络设备可基于其子网过滤器中指示的无故障状态的阈值来传播指示其关联的子网正在适当地起作用的消息。影子过滤器重置策略可与网络设备的配置相关，所述网络设备的配置指定指示适当的起作用的这些BGP消息被传播有多频繁。

可在通信系统100中利用现有IoT框架安全性来保护看门狗消息。在至少一个实施例中，可以在网络设备(诸如网络设备40和40-1至40-N)中提供可信执行环境(TEE)以安全地存储和管理密钥，并且以使得能实现证实和密码操作。设备过滤器和影子过滤器可以使用一个或多个证实密钥来证实，所述一个或多个证实密钥响应于证实请求而签名于设备过滤器和/或在它被广播到监控实体之前签名于看门狗消息。看门狗消息生成逻辑可在可信执行环境中仍然受保护，这对受节点故障影响提供更大的保证和抵抗。

在其中节点故障是恶意的场景(例如，恶意软件、恶意电力中断等)中，故障事件不一定可与异常或意外行为区分开。因此，可信执行环境可改进节点的安全性。可以用于支持可信执行环境的示例技术包括但不限于英特尔公司的Intel^®软件保护扩展(SGX)。由可信执行环境提供的增强安全性可提高攻击者将无法阻止释放看门狗帮助消息(例如，SOS消息)的概率。它还可提高攻击者将无法掩盖可能已在安全性审计的正常过程中收集的证据的审计跟踪的概率。

图9A是图示可以与本文中描述的至少一个实施例相关联的潜在操作的流程900的简化流程图。在至少一个实施例中，一组或多组操作对应于图9A的活动。网络设备(例如，40或40-1至40-N)可以包括诸如一个或多个处理器(例如，处理器47)之类的装置，以用于执行操作。在一个示例中，流程900中所示的至少一些操作可以由包括网络监控模块43的监控器(例如，50)执行，以监控子网并基于包含来自子网中的节点的故障信息的影子过滤器来捕获子网过滤器中的信息。

在902处，可将子网过滤器初始化为默认值。在至少一个实施例中，子网过滤器被初始化为全一。在904处，流程900的处理能被配置为等待直到用于收集网络设备的影子过滤器的采样间隔过去为止。用于收集影子过滤器的采样间隔可基于用于子网的健康状况监控策略。该策略可以由网络设备建立，所述网络设备与网络中的其他网络设备配合生成子网过滤器。

在906处，可对用于与网络设备相关联的子网的一个或多个影子过滤器进行采样。例如，子网C的影子过滤器S1-S5能由网络设备40-3采样。在908处，可将每个采样的影子过滤器组合到子网过滤器中。在至少一个实施例中，可通过对每个影子过滤器和子网过滤器执行逻辑与操作来将影子过滤器与子网过滤器组合，直到所有影子过滤器由子网过滤器消耗为止。这些操作在子网过滤器中保存影子过滤器中指示的所有故障(例如，零)。

在910处，可将子网过滤器传播到网络中的网络设备的下一个级别。例如，网络设备40-3可将其子网过滤器(例如，812-3)传播到网络设备40。这是可以在本文中描述的实施例中使用的网络拓扑的一个可能的示例。然而，应该注意的是，可以在通信系统100中提供子网的任何数量的附加级别。此外，可以在至少一些实施例中甚至不使用层次布置。

在912处，可以评估健康状况监控策略以确定它是否要求重置子网的健康状况报告。如果策略确实要求重置子网过滤器，则流程可回转到902，其中子网过滤器被再次初始化例如为全一。如果策略不要求重置子网过滤器，则流程可以转到904，其中不重新初始化子网过滤器。替代地，子网过滤器继续对影子过滤器进行采样并且在其子网过滤器中添加到其子网健康状况报告。

图9B是图示可以与本文中描述的至少一个实施例相关联的潜在操作的流程950的简化流程图。在至少一个实施例中，一组或多组操作对应于图9B的活动。网络设备(例如，40或40-1至40-N)可以包括诸如一个或多个处理器(例如，处理器47)之类的装置，以用于执行操作。在一个示例中，流程950中所示的至少一些操作可以由包括网络监控模块43的监控器(例如，50)执行，以监控子网的网络并基于包含来自与子网相关联的影子过滤器的故障信息的子网过滤器来捕获网络过滤器中的信息。

在952处，可将网络过滤器初始化为默认值。在至少一个实施例中，网络过滤器被初始化为全一。在954处，流程950的处理能被配置为等待直到用于收集网络设备的子网过滤器的采样间隔过去为止。用于收集子网过滤器的采样间隔可基于用于网络的健康状况监控策略。该策略可以由网络设备建立，所述网络设备与网络中的其他网络设备配合生成网络过滤器。

在956处，可对用于与网络设备相关联的子网的一个或多个子网过滤器进行采样。例如，网络10的子网过滤器A-E能由网络设备40采样。在958处，可将每个采样的子网过滤器组合到网络过滤器中。在至少一个实施例中，可通过对每个子网过滤器和网络过滤器执行逻辑与操作来将子网过滤器与网络过滤器组合，直到所有子网过滤器由网络过滤器消耗为止。这些操作在网络过滤器中保存所有子网过滤器中指示的所有故障状态(例如，零)。在960处，网络过滤器可被传播到订户(例如，网络管理员等)或者变得对于授权用户和/或系统可用。

在962处，可评估健康状况监控策略以确定它是否要求重置网络过滤器的健康状况报告。如果策略确实要求重置网络过滤器，则流程可回转到952，其中网络过滤器被再次初始化例如为全一。如果策略不要求重置网络过滤器，则流程可以转到954，其中不重新初始化网络过滤器。替代地，网络过滤器继续对子网过滤器进行采样并且在其网络过滤器中添加网络健康状况报告。

图10是具有用于分析看门狗消息以使得能够检测物联网(IoT)网络环境中的间歇节点(例如，不良连接、硬件故障、软件故障等)的附加组件的通信系统100的另一简化框图。在图10中，子网20-1至20-N分别包括节点，诸如网络设备60-1到60-N。在至少一个实施例中，网络设备60-1至60-N可以与分别具有用于像在本文中先前所描述的那样监控子网20-1至20-N中的受监控设备的看门狗消息的监控器50-1至50-N的网络设备40-1至40-N相同。然而，在其他实施例中，网络设备60-1至60-N可以单独地和/或独立于网络设备40-1至40-N的监控器操作。在至少一个实施例中，可以将网络设备60-1至60-N配置为用于从子网中的节点接收并朝向通信系统100中的网关55(或其他适合的网络设备)转发心跳消息39的路由器。心跳消息37除了包括来自正在监控子网中的节点的网络设备60-1至60-N的心跳消息之外还可包括来自子网中的节点的心跳消息39。网关55可接收心跳消息37并且将这些消息提供给健康状况监控引擎85。可以在网络设备80中提供健康状况监控引擎85。在其他实施方式中，健康状况监控引擎85可以共同位于网关55上或者设置在通信系统100中的任何其他适合的网络设备中。

健康状况监控引擎收集由诸如受监控设备(例如，30-1至30-M)、路由器(例如，60-1至60-N)、集线器、集中器、网关(例如，55)以及可在IoT网络环境中产生看门狗消息的任何其他设备、元件或对象之类的节点产生的心跳消息39。可使用机器学习作为用于确定各个节点和子网何时正在接近可以损害节点和网络的复原能力的阈值的方法来评估网络的健康状况。

图11在至少一个实施例中提供健康状况监控引擎85的附加可能的细节。可以在网络设备80中提供健康状况监控引擎(HME) 85，所述网络设备80包括至少一个处理器87和至少一个存储器元件89。HME 85可包括参考模板81、机器学习(ML)分析引擎82、机器学习(ML)模板83和响应模块84。除了在训练期间监控实际观察到的看门狗行为92(即，心跳消息业务)之外，还可在训练时段期间使用看门狗消息业务系统的预期行为94的数据模型描述来构建参考模板81。可在正常操作期间使用参考模板81，在所述正常操作中HME 85评估可以触发积极主动响应和规定响应的变化和阈值以在节点或网络出故障之前改进网络复原能力性质。例如，ML分析引擎82可计算校正滞后的阈值匹配函数并且然后经由响应模块84派遣复原能力响应动作98。复原能力响应动作可以包括但不限于形式为冗余节点、路由器、路由和其他网络基础设施的网络冗余的通知、修复和部署。

观察到的看门狗行为96和在训练期间观察到的看门狗行为92可包括心跳消息37。心跳消息是识别与产生心跳消息的节点有关的附加信息的一种看门狗消息。在至少一个实施例中，心跳消息可包括以下各项中的一种或多种：设备识别符(ID)、本地时间戳、下一个心跳消息时间(例如，如果节点正进入休眠模式则为无限的)、节点健康状况和诊断信息(例如，温度、资源利用率、电力利用率/电池寿命/使用、闪存烧录率、总线争用、网络接口卡(NIC)利用率、缓冲器利用率、丢弃分组等)，以及来自下级(子网)节点或节点的网络的看门狗报告(例如，子网过滤器812-3、网络健康状况报告820等)。

根据本公开处理心跳消息37可涉及若干操作。在至少一个实施例中，HME 85可监控网络，同时ML分析引擎82基于每个节点被配置为报告的心跳消息收集参考模板81。参考模板81可学习用于报告心跳消息的节点的预期心跳模式。ML分析引擎82可测量来自节点的心跳消息的实际特性与在数据模型描述中提供的心跳消息的预期性质之间的差异。这些特性可包括但不限于心跳消息到达时间、由于工作模式而导致的等待时间和异常、一天中的时间、站点特定模式等。

HME 80可通过适当地组合HME 85的当前时钟时间、节点在发送心跳消息时的时钟和经计划/配置的心跳间隔来估计特定节点的下一个心跳消息。在至少一个实施例中，节点在发送心跳消息时的时钟和经计划/配置的心跳间隔都可被包括在心跳消息它本身中。心跳消息的预期接收和实际接收之间的差异也可作为参考模板构造的一部分被包括。

当参考模板81完成时HME 85可切换到操作模式。但是，可以预定间隔和/或按需重新生成或者更新参考模板。参考模板81可被用作用于在网络生存时检测异常的基线，因为它可指示应该被报告的心跳消息模式。当HME处于操作模式时，可将观察到的看门狗行为96(例如，接收到的心跳消息)馈送到ML模板83中，所述ML模板83作为实际看门狗行为的实况系统模板。ML分析引擎82可执行ML模板83与参考模板81之间的差异分析。差异分析可揭示看门狗行为(即，接收和/或遗漏的心跳消息)与节点或网络的正常操作不一致的统计概率。

HME 85可确定构成复原能力风险的遗漏心跳的阈值。可将统计概率与阈值相比较以确定在网络中是否存在复原能力风险。例如，在至少一个实施例中，阈值可能是50%复原能力风险。因此，如果达到或者超过阈值(例如，观察到的看门狗行为被确定为具有它与节点的正常操作不一致的60%统计概率)，则在至少一个实施例中，HME可以继续监控持续短时段以避免滞后。例如，这可能是几秒或几分钟的附加监控时段。如果后续心跳消息未在预期时间内到达(例如，根据参考模板81)，则可以对复原能力阈值起作用。

当对于特定节点做出在网络中存在复原能力风险的确定时，可以采取各种复原能力响应动作。一个动作涉及增加节点的采样率分辨率以得到更准确的读数。例如，假定特定设备在四个时间间隔的正常CPU负载读数是50%、75%、75%和50%。根据参考模板81，CPU负载的这种模式是设备所预期的。如果CPU负载在后续观察期间被观察到为50%、75%、无消息和50%，则存在25%异常概率，因为4个读数当中的3个与预期CPU负载读数匹配。可将设备重新配置为得到两倍多的报告，这可以提供对在第二读数与第四读数之间CPU负载发生情况的洞察。例如，如果CPU负载在另一时间段期间被观察到在50%、75%、95%、100%、100%、95%、75%、50%，则可从附加报告中收集CPU负载在第三读数与第四读数之间过高(100%)(这使心跳消息失败)的信息。如果用于正常地运行的设备的阈值正具有不超过75%的CPU负载，则可以响应于新信息而采取另一复原能力响应动作。

其他复原能力响应动作可以包括但不限于形式为例如冗余节点、路由器、路由和其他网络基础设施的网络冗余的通知、修复(例如，软件或固件补丁或更新)、部署、设备的物理替换(例如，派遣人、无人机或自动车辆来以物理方式替换设备)或设备重置。在一个示例中，通知包括生成命名展示异常看门狗行为的节点或子网的警报。另一类型的通知包括将诸如受监控设备或子网网络设备(例如，路由器)的节点标记为LOST。

在至少一些场景中，派遣冗余构造过程可以是在发生实际故障之前应用的预防性措施。冗余构造可以包括但不限于冗余节点的部署。例如，可以部署第二或第三定位信标设备以增强第一或第二定位信标设备。在另一示例中，可以部署第二路由器或其他网络基础设施组件，包括绕过网络拓扑中的单个故障点和阻塞点的附加网络路由的形成。

冗余的部署可以产生心跳消息的附加发生器。例如，被添加到网络的第二和第三定位信标设备可以导致三个心跳消息的产生，其中原先存在单个消息。这可以产生使HME的参考模板偏斜的心跳业务模式。由心跳消息处理器采用来避免此偏斜的技术可基于所有三个设备正在执行相同功能(即，指引相同定位)的理解来组合心跳消息。因此，如果接收到三个心跳消息中的任一个，则心跳计费逻辑可对于信标功能报告存在（PRESENT）。因此，心跳消息的接收相对于参考模板中的消息的预期接收可以变得更准确。在至少一个实施例中，可以在HME上实现此技术。在其他实施例中，可以在用于冗余设备子系统的专用HME中实现此技术。

图12是图示可以与本文中描述的至少一个实施例相关联的潜在操作的流程1200的简化流程图。在至少一个实施例中，一组或多组操作对应于图12的活动。网络设备(例如，80)可以包括诸如一个或多个处理器(例如，处理器87)之类的装置，以用于执行操作。在一个示例中，流程1200中所示的至少一些操作可以由健康状况监控引擎(例如，HME 85)执行，以通过使用看门狗消息业务系统的预期行为的数据模型描述并且通过监控实际心跳消息来构造参考模板(例如，参考模板81)。

在1202处，HME可在用于训练的时间段内监控网络是否有心跳消息。在1204处，被监控的每个节点的预期行为是根据数据模型描述来确定的。数据模型描述可包括例如预期的节点的特定特性。例如，与心跳消息预期到达的频率有关的信息可以被包括在数据模型描述中。其他特性可包括但不限于由于工作模式、一天中的时间、站点特定模式等而导致的等待时间和异常。包括在心跳消息本身中的信息可用于利用在正在创建参考模板的同时在训练时段期间接收的心跳消息的实际特性来评估数据模型描述中的预期特性。在1206处，基于在训练时段期间观察到的心跳消息和根据数据模型描述所确定的预期看门狗行为来创建参考模板。在1208处，在生成参考模板时，健康状况监控引擎可切换到操作模式，其中心跳消息被监控并与参考模板相比较以识别异常。

图13是图示可以与本文中描述的至少一个实施例相关联的潜在操作的流程1300的简化流程图。在至少一个实施例中，一组或多组操作对应于图13的活动。网络设备(例如，80)可以包括诸如一个或多个处理器(例如，处理器87)之类的装置，以用于执行操作。在一个示例中，流程1300中所示的至少一些操作可以由健康状况监控引擎(例如，HME 85)执行，以监控心跳消息，计算阈值匹配函数，并且酌情基于阈值匹配函数的结果派遣复原能力响应动作。

在1302处，在一定时间段或监控时段内监控网络是否有心跳消息。在1304处，确定从节点接收到的许多心跳消息是异常行为的结果的统计概率。可基于参考模板和包含来自所观察到的心跳消息的数据的机器学习模板的比较做出此确定。在一些实例中参考模板可仅指示对于特定节点应该接收的心跳消息的量和频率。在其他实例中，参考模板可指示与应该在心跳消息中报告的节点有关的某些信息(例如，温度、资源利用率、电力利用率/电池寿命/使用、闪存烧录率、总线争用、网络接口卡(NIC)利用率、缓冲器利用率、丢弃分组、健康状况报告等)。

在1306处，做出关于心跳消息是否指示复原能力风险的确定。在一个示例中，如果根据参考模板在预期时间未接收到心跳消息，则心跳消息被认为是故障或遗漏。在另一示例中，如果心跳消息确实包含与节点有关的预期信息(例如，CPU利用率等)，则心跳消息被认为是故障或遗漏。在监控时段期间接收到的许多心跳消息是否指示复原能力风险的确定可以至少部分地基于所确定的许多接收到的心跳消息是异常行为的结果的统计概率和构成复原能力风险的遗漏心跳消息的阈值。如果做出了心跳消息不指示风险的确定，则流程可返回到1302，其中HME可继续监控心跳消息。

如果做出了心跳消息指示风险的确定，则在1308处，HME可以继续在附加时间段内监控心跳消息以避免滞后。一旦附加监控时段已期满，就可评估新近接收到的心跳消息以确定它们是否指示复原能力风险。在1310处，做出关于新近观察到的心跳消息是否指示复原能力风险(例如，新近接收到的心跳消息是否根据参考模板确实未在预期时间内到达)的确定。如果做出了新的心跳消息不指示复原能力风险的确定，则流程可返回到1302，其中HME继续监控心跳消息。然而，如果做出了新的心跳消息确实指示复原能力风险的确定，则在1312处，可以至少部分地基于风险采取响应动作。在至少一些实施例中响应动作可以基于风险的级别和/或风险的类型。在一些场景中，可以采取动作来学习更多的信息(例如，增加采样率分辨率以得到更准确的读数)，以便选择要采取来解决所确定的风险的适当的规定动作。

应该注意的是，可针对由HME在网络中监控的每个节点执行参考图13所描述的操作。在一些实例中，可以合并复原能力响应动作以基于网络中的多个节点和/或子网来解决被确定为存在于网络中的多个复原能力风险。

变化和实施方式

图14是根据实施例的处理器的示例图示。处理器1400是可以在本文的实施例中使用的处理器(诸如处理器47和87)的一个示例实施例。处理器1400可以是任何类型的处理器，诸如微处理器、嵌入式处理器、数字信号处理器(DSP)、网络处理器、多核心处理器、单核心处理器，或用于执行代码的其他设备。尽管在图14中图示了仅一个处理器1400，然而处理元件可以替代地包括图14中所图示的处理器1400的多于一个。处理器1400可以是单线程核心，或者对于至少一个实施例，处理器1400可以是多线程的，因为它可以每核心包括多于一个硬件线程上下文(或“逻辑处理器”)。

图14还图示依照实施例的耦合到处理器1400的存储器1402。存储器1402是存储器元件49和89的一个示例。存储器1402可以是如本领域的技术人员已知或者另外可被本领域的技术人员利用的各式各样的存储器(包括存储器层次的各个层)中的任一个。此类存储器元件可包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、现场可编程门阵列(FPGA)的逻辑块、可擦除可编程只读存储器(EPROM)和电可擦除可编程ROM (EEPROM)。处理器1400可执行与本文中详述的监控和分析操作相关联的任何类型的指令。一般地，处理器1400可将元素或物品(例如，数据)从一个状态或事物变换为另一状态或事物。

代码1404可以被存储在存储器1402中，所述代码1404可以是要由处理器1400执行的一个或多个指令。代码1404可包括各种模块(例如，设备监控模块43、网络监控模块45、监控器50和60-1至60-N、健康状况监控引擎85、机器学习分析引擎82和响应模块84)的指令，所述各种模块可以被存储在软件、硬件、固件或其任何适合的组合中，或者在适当的情况下并基于特定需要存储在任何其他内部或外部组件、设备、元件或对象中。在一个示例中，处理器1400可遵循通过代码1404所指示的指令的程序序列。每个指令进入前端逻辑1406并且由一个或多个解码器1408处理。解码器可以生成微操作作为其输出，所述微操作诸如预定义格式的固定宽度微操作，或者可以生成反映原始代码指令的其他指令、微指令或控制信号。前端逻辑1406还包括寄存器重命名逻辑1410和调度逻辑1412，所述调度逻辑1412一般地分配资源并且对与用于执行的指令相对应的操作进行排队。

处理器1400还可包括具有一组执行单元1416₁至1416_X的执行逻辑1414。一些实施例可以包括专用于特定功能或功能集的许多执行单元。其他实施例可以包括仅一个执行单元或可执行特定功能的一个执行单元。执行逻辑1414执行通过代码指令所指定的操作。

在通过代码指令所指定的操作的执行完成之后，后端逻辑1418可收回代码1404的指令。在一个实施例中，处理器1400允许乱序执行但是要求指令的顺序收回。收回逻辑1420可以采取各种已知形式(例如，重排序缓冲器等)。以这种方式，处理器1400在代码1404的执行期间被变换，至少在由解码器生成的输出、由寄存器重命名逻辑1410利用的硬件寄存器和表以及由执行逻辑1414修改的任何寄存器(未示出)方面。

尽管在图14中未示出，然而处理元件可以包括具有处理器1400的芯片上的其他元件。例如，处理元件可以连同处理器1400一起包括存储器控制逻辑。处理元件可以包括I/O控制逻辑和/或可以包括与存储器控制逻辑集成的I/O控制逻辑。处理元件还可以包括一个或多个高速缓存。在一些实施例中，非易失性存储器(诸如闪速存储器或熔丝)还可以被包括在具有处理器1400的芯片上。

图15图示根据实施例的按照点对点(PtP)配置布置的计算系统1500。特别地，图15示出其中处理器、存储器和输入/输出设备通过许多点对点接口来互连的系统。一般地，可以以与计算系统1500相同或类似的方式配置通信系统100的计算系统(例如，网络设备、网关、受监控设备、网络元件等)中的一个或多个。例如，在至少一个实施例中，受监控设备30-1至30-M、网络设备40、40-1至40-N、60-1至60-N和网络设备80中的一个或多个可以具有与计算系统1500相同或类似的架构。

处理器1570和1580还可以各自包括集成存储器控制器逻辑(MC)1572和1582以分别与存储器元件1532和1534进行通信。在替代实施例中，存储器控制器逻辑1572和1582可以是与处理器1570和1580分开的离散逻辑。存储器元件1532和/或1534可以存储要由处理器1570和1580在像本文中所概述的那样实现与监控和分析看门狗消息相关联的操作时使用的各种数据。

处理器1570和1580可以是任何类型的处理器，诸如参考图14的处理器1400、图1的处理器47和图11的处理器87所讨论的那些。处理器1570和1580可以分别使用点对点接口电路1578和1588来经由点对点(PtP)接口1550交换数据。处理器1570和1580可以各自使用点对点接口电路1576、1586、1594和1598来经由单独的点对点接口1552和1554与控制逻辑1590交换数据。控制逻辑1590还可以使用接口电路1592来经由高性能图形接口1539与高性能图形电路1538交换数据，所述接口电路1592可以是PtP接口电路。在替代实施例中，能将图15中所图示的任何或所有PtP链路实现为多跳总线而不是PtP链路。控制逻辑1590还可以与显示器1533进行通信，以用于显示人类用户可查看的数据。

控制逻辑1590可以经由接口电路1596与总线1520进行通信。总线1520可以具有通过它通信的一个或多个设备，诸如总线桥接器1518和I/O设备1516。经由总线1510，总线桥接器1518可以与诸如以下各项之类的其他设备进行通信：键盘/鼠标1512(或诸如触摸屏、轨迹球，操纵杆等之类的其他输入设备)、通信设备1526(诸如调制解调器、网络接口卡(NIC)，或可以通过计算机网络1560来通信的其他类型的通信设备)、音频I/O设备1514和/或数据存储设备1528。数据存储设备1528可以存储代码1530，所述代码1530可以由处理器1570和/或1580执行。在替代实施例中，能用一个或多个PtP链路来实现总线架构的任何部分。

处理器1570和存储器元件1532、1534表示各式各样的处理器、存储器元件和其他存储器布置，包括具有各种执行速度和功耗的单核心或多核心处理器的布置，以及各种架构(例如，具有一个或多个级别的高速缓存)和各种类型(例如，动态随机存取、FLASH等)的存储器。

图15中描绘的计算机系统是可以被利用来实现本文中所讨论的各种实施例的计算系统的实施例的示意图示。应领会的是，根据本文中提供的各种实施例，可以在片上系统(SoC)架构中或者在能够实现分布式监控和分析看门狗消息的任何其他适合的配置中组合图15中描绘的系统的各种组件。附加地，可以与本文中所示或描述的不同地划分这些组件中的任一个以包括仍然能够实现根据本公开的监控和分析看门狗消息的更多或更少的集成电路。

转向图16，图16是与可以在本公开的实施例中使用的示例SOC 1600相关联的简化框图。本公开的至少一个示例实施方式可包括在本文中讨论的看门狗消息的监控和分析。在至少一些实施例中，一些看门狗消息可以由SOC 1600生成和/或一些监控和分析操作可以由SOC 1600执行。进一步地，架构可以是任何类型的平板电脑、智能电话(包括Android™电话、iPhones™)、iPad™、谷歌Nexus™、Microsoft Surface™、个人计算机、服务器、视频处理组件、膝上型计算机(包括任何类型的笔记本)、Ultrabook™系统、任何类型的支持触摸的输入设备等的一部分。

在图16的此示例中，SOC 1600可以包括多个核心1606-1607、L2高速缓存控制1608、总线接口单元1609、L2高速缓存1610、图形处理单元(GPU) 1615、互连1602、视频编解码器1620和液晶显示器(LCD) I/F 1625，所述LCD I/F 1625可以与耦合到LCD的移动工业处理器接口(MIPI)/高清晰度多媒体接口(HDMI)链路相关联。

SOC 1600还可以包括订户身份模块(SIM)I/F 1630、引导只读存储器(ROM) 1635、同步动态随机存取存储器(SDRAM)控制器1640、闪存控制器1645、串行外围接口(SPI)主控1650、适合电源控制1655、动态RAM (DRAM) 1660和闪存1665。此外，一个或多个示例实施例包括一个或多个通信能力、接口和特征，诸如Bluetooth™ 1670、3G/4G/nG调制解调器1675、全球定位系统(GPS) 1680和802.11 Wi-Fi 1685的实例。

在操作中，图16的示例可提供处理能力以及相对低的功耗以使得能实现各种类型的计算(例如，移动计算、高端数字家庭、服务器、无线基础设施等)。此外，这种架构可使得能实现任何数量的软件应用(例如，Android™、Adobe^® Flash^® Player、Java平台标准版(Java SE)、JavaFX、Linux、Microsoft Windows Embedded、Symbian和Ubuntu等)。在至少一个示例实施例中，核心处理器可以利用耦合低等待时间二级高速缓存来实现乱序超标量流水线。

关于与监控和分析看门狗消息相关联的内部结构，诸如网络设备和受监控设备之类的计算系统可包括用于存储数据和信息(包括要在本文中概述的操作中使用的指令和/或逻辑)的易失性和/或非易失性存储器元件(例如，存储器元件49、89)。这些元件中的每一个可以使数据和信息保存在任何适合的存储元件(例如，随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM (PROM)、可擦除PROM (EPROM)、电EPROM (EEPROM)、磁盘驱动器、软盘、紧致盘ROM (CD-ROM)、数字通用盘(DVD)、闪速存储器、磁光盘、专用集成电路(ASIC)，或能够存储数据和信息的其他类型的非易失性机器可读介质)、软件、硬件、固件中，或者在适当的情况下并基于特定需要保持在任何其他适合的组件、设备、元件或对象中。本文中讨论的存储器项目(例如，存储器元件49、89、1402、1532、1534)中的任一个应该被解释为被包含在广义术语“存储器元件”内。此外，能在任何储存库、数据库、寄存器、队列、表、高速缓存、控制列表或其他存储结构(其中的全部都可在任何适合的时间帧被引用)中提供正在通信系统100中使用、跟踪、发送或者接收的信息。任何此类存储选项(例如，设备过滤器42、300、影子过滤器44、350、802-1至802-5、策略暂存器45、子网过滤器46、812-1至812-5、网络过滤器48、820、参考模板81、机器学习模板83等)还可以被包括在如本文中所使用的广义术语“存储器元件”内。

在示例实施方式中，通信系统100的计算系统可以包括软件模块(例如，设备监控模块43、网络监控模块45、监控器50和50-1至50-N、健康状况监控引擎85、机器学习分析引擎82、响应模块84)以实现或者促进如本文中所概述的操作。可以以任何适当的方式适合地组合或者划分这些模块，所述任何适当的方式可以基于特定配置和/或提供需要。在一些实施例中，此类操作中的一个或多个可以通过在这些元件外部实现的硬件和/或固件来执行，或者包括在一些其他计算系统中以实现预定功能性。这些元件还可以包括可与其他计算设备协调以便实现如本文中所概述的操作的软件(或往复式软件)。

附加地，诸如通信系统100的网络设备和受监控设备之类的计算系统中的每一个均可以包括处理器(例如，处理器47、87、1400、1570、1580)，所述处理器可执行软件或算法以执行如本文中所讨论的活动。处理器可执行与数据相关联的任何类型的指令以实现本文中详述的操作。在一个示例中，处理器能将元素或物品(例如，数据)从一个状态或事物变换为另一状态或事物。在另一示例中，本文中概述的活动可以用固定逻辑或可编程逻辑(例如，由处理器执行的软件/计算机指令)来实现，并且本文中识别的元件可以是某种类型的可编程处理器、可编程数字逻辑(例如，现场可编程门阵列(FPGA)、EPROM、EEPROM)或包括数字逻辑、软件、代码、电子指令或其任何适合的组合的ASIC。本文中描述的潜在处理元件、模块和机器中的任一个应该被解释为被包含在广义术语“处理器”内。

注意的是，利用本文中提供的示例，可以在两个、三个或更多个元件(例如，网络设备、监控器、受监控设备、健康状况监控引擎等)方面描述交互。然而，已仅出于清楚和示例的目的完成这个。在某些情况下，通过仅引用有限数量的元件来描述一组给定流程的功能性中的一个或多个可能更容易。应该领会的是，通信系统100及其教导是容易地可伸缩的并且可适应大量组件以及更复杂/成熟的布置和配置。附加地，可以基于特定配置需要组合这些元件中的一个或多个(例如，在图1和10-11中)或者从架构中移除这些元件中的一个或多个。因此，所提供的示例不应该限制如潜在地应用于无数其他架构的通信系统100的范围或者抑制其的广义教导。

虽然图1和图10-11被描述为包含多个元件或者与多个元件相关联，但是并非可以在本公开的每个替代实施方式中利用图1的通信系统100内图示的所有元件。附加地，本文中描述的元件中的一个或多个可以相对于网络10或子网20-1至20-N位于在外部，然而在其他实例中，某些元件可以被包括在其他描述的元件以及在所图示的实施方式中未描述的其他元件中的一个或多个内，或者作为其他描述的元件以及在所图示的实施方式中未描述的其他元件中的一个或多个的一部分被包括。进一步地，图1和图10-11中所图示的某些元件可以与其他组件组合，以及被用于除了本文中描述的那些目的之外的替代或附加目的。

同样重要的是注意，前面的流程图和交互图(即，图4-7、图9A-9B和图12-13)中的操作仅图示可以由通信系统100执行或者在通信系统100内执行的可能的监控和分析活动中的一些。可以在适当的情况下删除或者移除这些操作中的一些，或者在不脱离本公开的范围的情况下，可以相当大地修改或者改变这些操作。此外，许多这些操作已被描述为被与一个或多个附加操作同时或并行执行。然而，可以相当大地更改这些操作的定时。已出于示例和讨论的目的提供了前面的操作流程。实质灵活性由通信系统100的实施例提供，因为在不脱离本公开的教导的情况下，可以提供任何适合的布置、年表、配置和定时机制。

如本文中所使用的，除非明确地相反陈述，否则短语“……中的至少一个”的使用指代所命名的元素、条件或活动的任何组合。例如，“X、Y和Z中的至少一个”旨在意指下列中的任一个：1) X，但不是Y且不是Z；2) Y，但不是X且不是Z；3) Z，但不是X且不是Y；4) X和Y，但不是Z；5) X和Z，但不是Y；6) Y和Z，但不是X；或者7)X、Y和Z。附加地，除非明确地相反陈述，否则术语“第一”、“第二”、“第三”等旨在区分它们修饰的特定名词(例如，元素、条件、模块、活动、操作、权利要求要素等)，但是不旨在指示所修饰的名词的任何类型的次序、排名、重要性、时间顺序或层次。例如，“第一X”和“第二X”旨在指定不一定受到两个元素的任何次序、排名、重要性、时间顺列或层次限制的两个单独的X元素。

尽管已经参考特定布置和配置详细地描述了本公开，然而在不脱离本公开的范围的情况下，可以显著地改变这些示例配置和布置。附加地，尽管已参考促进网络监控和分析活动的特定元件和操作图示了通信系统100，然而这些元件和操作可以用实现通信系统100的预定功能性的任何适合的架构、协议和/或过程替换。

其他注释和示例

注意的是，还可以相对于本文中描述的方法或过程来实现上面描述的装置和系统的所有可选特征，并且可以在一个或多个实施例中的任何地方使用示例中的详情。

以下示例涉及依照本说明书的实施例。示例M1提供一种装置、一种系统、一种或多种机器可读存储介质、一种方法和/或基于硬件、固件和/或软件的逻辑以用于监控网络中的节点以：使设备过滤器的第一比特序列中的比特基于在报告时间间隔期间未从所述网络中的节点接收到消息来指示故障状态，并且在所述报告时间间隔期满时，将所述第一比特序列与影子过滤器的对应的比特序列组合以在所述影子过滤器中保存基于所述第一比特序列中的所述比特的所述故障状态的指示以及来自所述影子过滤器的所述对应的比特序列的比特的故障状态的任何其他指示。

在示例M2中，根据示例M1所述的主题可可选地包括预期基于与所述节点相关联的报告时间表接收所述消息。

在示例M3中，根据示例M1至M2中的任何一个所述的主题可可选地包括在将所述第一比特序列与所述对应的比特序列组合之后将所述第一比特序列重置为默认值。

在示例M4中，根据示例M1至M3中的任何一个所述的主题可可选地包括使所述第一比特序列中的另一比特基于在所述报告时间间隔期间从所述节点接收到另一消息来指示无故障状态。

在示例M5中，根据示例M1至M4中的任何一个所述的主题可可选地包括将所述第一比特序列与所述影子过滤器中的所述对应的比特序列组合是为了至少：在所述设备过滤器的所述第一比特序列中的比特与所述影子过滤器的所述对应的比特序列中的所述比特之间执行逻辑操作。

在示例M6中，根据示例M1至M5中的任何一个所述的主题可可选地包括所述第一比特序列中的所述比特是为所述报告时间间隔中的多个时间段中的一个时间段而分配的。

在示例M7中，根据示例M1至M6中的任何一个所述的主题可可选地包括所述设备过滤器的第二比特序列是为比所述报告时间间隔更高阶的时间间隔而分配的。

在示例M8中，根据示例M7所述的主题可可选地包括，在所述报告时间间隔期满时，使所述设备过滤器的所述第二比特序列中的比特基于所述第一比特序列中的另一无故障状态的至少一个指示来指示无故障状态。

在示例M9中，根据示例M7所述的主题可可选地包括，在所述报告时间间隔期满时，使所述设备过滤器的所述第二比特序列中的比特基于所述第一比特序列中的每个比特指示相应的故障状态来指示故障状态。

在示例M10中，根据示例M7所述的主题可可选地包括所述第二比特序列中的比特基于在所述高阶时间间隔期间未从另一节点接收到消息来指示另一故障状态。

在示例M11中，根据示例M1至M10中的任何一个所述的主题可可选地包括使所述设备过滤器中的所述第一比特序列中的一个或多个比特基于在所述报告时间间隔期间未从另一节点接收到相应的消息来指示一个或多个相应的故障状态。

在示例M12中，根据示例M1至M11中的任何一个所述的主题可可选地包括基于从所述节点接收到的另一消息的内容确定所述节点处于休眠模式，并且基于确定所述节点处于所述休眠模式封锁对所述设备过滤器的更新。

在示例M13中，根据示例M12所述的主题可可选地包括基于从所述节点接收到后续消息允许对所述设备过滤器的更新。

在示例M14中，根据示例M1至M13中的任何一个所述的主题可可选地包括将所述影子过滤器与子网过滤器组合以在所述子网过滤器中保存通过所述影子过滤器中的一个或多个比特对一个或多个故障状态的指示，其中所述子网过滤器与子网络中的多个节点相关联，所述多个节点包括所述节点和一个或多个其他节点。

在示例M15中，根据示例M14所述的主题可可选地包括将第二影子过滤器与所述子网过滤器组合以在所述子网过滤器中保存通过所述第二影子过滤器中的一个或多个其他比特对一个或多个其他故障状态的指示，所述一个或多个其他故障状态与所述一个或多个其他节点中的至少一个相关联。

在示例M16中，根据示例M14至M15中的任何一个所述的主题可可选地包括将所述子网过滤器传播到网络设备以与网络过滤器组合以在所述网络过滤器中保存所述子网过滤器中保存的所述一个或多个故障状态的所述指示和所述网络过滤器中的任何其他故障状态的任何其他指示。

在示例M17中，根据示例M1至M10或M12至M16中的任何一个所述的主题可可选地包括使所述第一比特序列中的一个或多个比特基于是否在后续报告时间间隔期间从所述节点接收到一个或多个其他消息来指示与所述节点相关联的一个或多个故障状态，并且基于所述后续报告间隔期满将所述第一比特序列与所述影子过滤器中的所述对应的比特序列组合，以在所述影子过滤器中保存来自所述第一比特序列中的所述一个或多个比特的所述一个或多个故障状态的所述指示以及来自所述影子过滤器的所述对应的比特序列的所述比特的故障状态的所有指示。

在示例M18中，根据示例M1至M17中的任何一个所述的主题可可选地包括所述故障状态的所述指示是二进制数字0，并且无故障状态的指示是二进制数字1。

在示例M19中，根据示例M1至M18中的任何一个所述的主题可可选地包括所述设备过滤器是布隆过滤器。

以下示例涉及依照本说明书的实施例。示例A1提供一种装置、一种系统、一种或多种机器可读存储介质、一种方法和/或基于硬件、固件和/或软件的逻辑以用于分析来自网络中的节点的消息以：创建指示应该在监控时段期间从所述网络中的节点报告的消息模式的参考模板，至少部分地基于所述消息模式和在所述监控时段期间从所述节点接收到的许多消息来确定在所述网络中是否存在复原能力风险，并且至少部分地基于在所述网络中存在所述复原能力风险的确定来采取动作。

在示例A2中，根据示例A1所述的主题可可选地包括所述参考模板是基于所述节点的预期行为的数据模型描述和在训练时段期间从所述节点接收到的多个消息来创建的。

在示例A3中，根据示例A2所述的主题可可选地包括至少部分地基于测量所述多个消息的实际特性与所述多个消息的预期特性之间的差异来确定所述消息模式，所述预期特性是根据预期行为的数据模型描述来确定的。

在示例A4中，根据示例A1至A3中的任何一个所述的主题可可选地包括所述消息模式至少指示预期从所述节点接收一个或多个消息的频率。

在示例A5中，根据示例A1至A4中的任何一个所述的主题可可选地包括所述消息模式指示与所述节点有关的预期被包括在要从所述节点接收的一个或多个消息中的健康状况信息的至少一个项目。

在示例A6中，根据示例A1至A5中的任何一个所述的主题可可选地包括至少部分地基于在所述监控时段期间从所述节点接收到的所述许多消息来确定所述节点正在异常地表现的统计概率，其中存在所述复原能力风险的所述确定至少部分地基于所述统计概率和遗漏消息的阈值的比较。

在示例A7中，根据示例A1至A6中的任何一个所述的主题可可选地包括基于在所述网络中存在所述复原能力风险的所述确定，在附加监控时段期间监控所述网络是否有来自所述节点的一个或多个新消息。

在示例A8中，根据示例A7所述的主题可可选地包括部分地基于从所述节点接收到的许多新消息指示在所述网络中存在所述复原能力风险的确定来采取所述动作。

在示例A9中，根据示例A1至A8中的任何一个所述的主题可可选地包括所述许多消息各自包括设备识别符、本地时间戳、下一个消息时间以及节点健康状况和诊断信息中的一种或多种。

在示例A10中，根据示例A1至A9中的任何一个所述的主题可可选地包括所述许多消息中的至少一个包括用于包含所述节点的子网的子网过滤器，其中所述子网是在所述网络中监控节点的多个子网中的一个。

在示例A11中，根据示例A1至A10中的任何一个所述的主题可可选地包括所述动作包括发送通知、进行修复以及为所述节点部署网络冗余中的至少一个。

在示例A12中，根据示例A1至A11中的任何一个所述的主题可可选地包括，基于在所述网络中存在复原能力风险的所述确定，增加用于由所述节点生成消息的采样率分辨率，根据经增加的采样率分辨率在后续监控时段期间接收一个或多个附加消息，并且评估所述一个或多个附加消息以识别所述复原能力风险的原因。

在示例A13中，根据示例A1至A12中的任何一个所述的主题可可选地包括将来自一个或多个相应的节点的一个或多个消息与来自所述节点的另一消息组合，其中所述一个或多个相应的节点相对于所述节点在所述网络中是冗余的。

示例X1提供一种用于监控和/或分析网络中的节点的装置，其中所述装置包括用于执行根据前述示例中的任何一个所述的方法的装置。

在示例X2中，根据示例X1所述的主题可可选地包括用于执行所述方法的所述装置包括至少一个处理器和至少一个存储器元件。

在示例X3中，根据示例X2所述的主题可可选地包括所述至少一个存储器元件包括机器可读指令，所述机器可读指令当被执行时，使所述装置执行根据示例M1至M19或A1至A13中的任何一个所述的方法。

在示例X4中，根据示例X1至X3中的任何一个所述的主题可可选地包括所述装置是计算系统或片上系统中的一个。

示例Y1提供至少一种机器可读存储介质，其包括用于监控和/或分析网络中的节点的指令，其中所述指令当被执行时，如在前述示例中的任何一个中一样实现装置或者实现方法。

Claims

1.至少一种机器可读存储介质，其上存储有用于监控网络中的节点的指令，所述指令在由至少一个处理器执行时使所述至少一个处理器：

使设备过滤器的第一比特序列中的比特基于在报告时间间隔期间未从所述网络中的节点接收到消息来指示故障状态；并且

在所述报告时间间隔期满时，将所述第一比特序列与影子过滤器的对应的比特序列组合以在所述影子过滤器中保存基于所述第一比特序列中的所述比特的所述故障状态的指示以及来自所述影子过滤器的所述对应的比特序列的比特的故障状态的任何其他指示。

2.根据权利要求1所述的至少一种机器可读存储介质，其中预期基于与所述节点相关联的报告时间表接收所述消息。

3.根据权利要求1所述的至少一种机器可读存储介质，其中所述指令当由所述至少一个处理器执行时，使所述至少一个处理器：

在将所述第一比特序列与所述对应的比特序列组合之后将所述第一比特序列重置为默认值。

4.根据权利要求1所述的至少一种机器可读存储介质，其中所述指令当由所述至少一个处理器执行时，使所述至少一个处理器：

使所述第一比特序列中的另一比特基于在所述报告时间间隔期间从所述节点接收到另一消息来指示无故障状态。

5.根据权利要求1所述的至少一种机器可读存储介质，其中，将所述第一比特序列与所述影子过滤器中的所述对应的比特序列组合是为了至少：

在所述设备过滤器的所述第一比特序列中的比特与所述影子过滤器的所述对应的比特序列中的所述比特之间执行逻辑操作。

6.根据权利要求1所述的至少一种机器可读存储介质，其中所述第一比特序列中的所述比特是为所述报告时间间隔中的多个时间段中的一个时间段而分配的。

7.根据权利要求1所述的至少一种机器可读存储介质，其中所述设备过滤器的第二比特序列是为比所述报告时间间隔更高阶的时间间隔而分配的。

8.根据权利要求7所述的至少一种机器可读存储介质，其中所述指令当由所述至少一个处理器执行时，使所述至少一个处理器：

在所述报告时间间隔期满时，使所述设备过滤器的所述第二比特序列中的比特基于所述第一比特序列中的另一无故障状态的至少一个指示来指示无故障状态。

9.根据权利要求7所述的至少一种机器可读存储介质，其中所述指令当由所述至少一个处理器执行时，使所述至少一个处理器：

在所述报告时间间隔期满时，使所述设备过滤器的所述第二比特序列中的比特基于所述第一比特序列中的每个比特指示相应的故障状态来指示故障状态。

10.根据权利要求7所述的至少一种机器可读存储介质，其中所述第二比特序列中的比特基于在所述高阶时间间隔期间未从另一节点接收到消息来指示另一故障状态。

11.根据权利要求1至10中的任何一项所述的至少一种机器可读存储介质，其中所述指令当由所述至少一个处理器执行时，使所述至少一个处理器：

使所述设备过滤器中的所述第一比特序列中的一个或多个比特基于在所述报告时间间隔期间未从另一节点接收到相应的消息来指示一个或多个相应的故障状态。

12.根据权利要求1至10中的任何一项所述的至少一种机器可读存储介质，其中所述指令当由所述至少一个处理器执行时，使所述至少一个处理器：

基于从所述节点接收到的另一消息的内容确定所述节点处于休眠模式；并且

基于确定所述节点处于所述休眠模式封锁对所述设备过滤器的更新。

13.根据权利要求12所述的至少一种机器可读存储介质，其中所述指令当由所述至少一个处理器执行时，使所述至少一个处理器：

基于从所述节点接收到后续消息允许对所述设备过滤器的更新。

14.根据权利要求1至10中的任何一项所述的至少一种机器可读存储介质，其中所述指令当由所述至少一个处理器执行时，使所述至少一个处理器：

将所述影子过滤器与子网过滤器组合以在所述子网过滤器中保存通过所述影子过滤器中的一个或多个比特对一个或多个故障状态的指示，其中所述子网过滤器与子网络中的多个节点相关联，所述多个节点包括所述节点和一个或多个其他节点。

15.根据权利要求14所述的至少一种机器可读存储介质，其中所述指令当由所述至少一个处理器执行时，使所述至少一个处理器：

将第二影子过滤器与所述子网过滤器组合以在所述子网过滤器中保存通过所述第二影子过滤器中的一个或多个其他比特对一个或多个其他故障状态的指示，所述一个或多个其他故障状态与所述一个或多个其他节点中的至少一个相关联。

16.根据权利要求14所述的至少一种机器可读存储介质，其中所述指令当由所述至少一个处理器执行时，使所述至少一个处理器：

将所述子网过滤器传播到网络设备以与网络过滤器组合以在所述网络过滤器中保存所述子网过滤器中保存的所述一个或多个故障状态的所述指示和所述网络过滤器中的任何其他故障状态的任何其他指示。

17.根据权利要求1至10中的任何一项所述的至少一种机器可读存储介质，其中所述指令当由所述至少一个处理器执行时，使所述至少一个处理器：

使所述第一比特序列中的一个或多个比特基于是否在后续报告时间间隔期间从所述节点接收到一个或多个其他消息来指示与所述节点相关联的一个或多个故障状态；并且

基于所述后续报告间隔期满将所述第一比特序列与所述影子过滤器中的所述对应的比特序列组合，以在所述影子过滤器中保存来自所述第一比特序列中的所述一个或多个比特的所述一个或多个故障状态的所述指示以及来自所述影子过滤器的所述对应的比特序列的所述比特的故障状态的所有指示。

18.根据权利要求1至10中的任何一项所述的至少一种机器可读存储介质，其中所述故障状态和无故障状态通过相应的二进制数字来指示。

19.根据权利要求1至10中的任何一项所述的至少一种机器可读存储介质，其中所述设备过滤器是布隆过滤器。

20.一种用于监控网络中的节点的装置，所述装置包括：

至少一个处理器；以及

监控器，其包括被配置用于由所述至少一个处理器执行以进行如下操作的逻辑：

21.根据权利要求20所述的装置，其中所述装置是所述节点。

22.根据权利要求20至21中的任何一项所述的装置，其中所述设备过滤器的第二比特序列是为比所述报告时间间隔更高阶的时间间隔而分配的。

23.根据权利要求22所述的装置，其中所述逻辑被配置用于由所述至少一个处理器执行以：

24.一种用于监控网络中的节点的方法，所述方法包括：

25.根据权利要求24所述的方法，还包括：

26.至少一种机器可读存储介质，其上存储有用于分析网络中的节点的指令，所述指令当由至少一个处理器执行时使所述至少一个处理器：

创建参考模板，所述参考模板指示应该在监控时段期间从所述网络中的节点报告的消息模式；

至少部分地基于所述消息模式和在所述监控时段期间从所述节点接收到的许多消息来确定在所述网络中是否存在复原能力风险；并且

至少部分地基于在所述网络中存在所述复原能力风险的确定来采取动作。

27.根据权利要求26所述的至少一种机器可读存储介质，其中所述参考模板是基于所述节点的预期行为的数据模型描述和在训练时段期间从所述节点接收到的多个消息来创建的。

28.根据权利要求27所述的至少一种机器可读存储介质，其中所述消息模式是至少部分地基于测量所述多个消息的实际特性与所述多个消息的预期特性之间的差异来确定的，所述预期特性是根据预期行为的所述数据模型描述来确定的。

29.根据权利要求26所述的至少一种机器可读存储介质，其中所述消息模式至少指示预期从所述节点接收一个或多个消息的频率。

30.根据权利要求26所述的至少一种机器可读存储介质，其中所述消息模式指示与所述节点有关的预期被包括在要从所述节点接收的一个或多个消息中的健康状况信息的至少一个项目。

31.根据权利要求26所述的至少一种机器可读存储介质，其中所述指令当由所述至少一个处理器执行时，使所述至少一个处理器：

至少部分地基于在所述监控时段期间从所述节点接收到的所述许多消息来确定所述节点正在异常地表现的统计概率，其中存在所述复原能力风险的所述确定至少部分地基于所述统计概率和遗漏消息的阈值的比较。

32.根据权利要求26至31中的任何一项所述的至少一种机器可读存储介质，其中所述指令当由所述至少一个处理器执行时，使所述至少一个处理器：

基于在所述网络中存在所述复原能力风险的所述确定，在附加监控时段期间监控所述网络是否有来自所述节点的一个或多个新消息。

33.根据权利要求32所述的至少一种机器可读存储介质，其中部分地基于从所述节点接收到的许多新消息指示在所述网络中存在所述复原能力风险的确定来采取所述动作。

34.根据权利要求26至31中的任何一项所述的至少一种机器可读存储介质，其中所述许多消息各自包括设备识别符、本地时间戳、下一个消息时间以及节点健康状况和诊断信息中的一种或多种。

35.根据权利要求26至31中的任何一项所述的至少一种机器可读存储介质，其中所述多个消息中的至少一个包括用于包含所述节点的子网的子网过滤器，其中所述子网是在所述网络中监控节点的多个子网中的一个。

36.根据权利要求26至31中的任何一项所述的至少一种机器可读存储介质，其中所述动作包括发送通知、进行修复以及为所述节点部署网络冗余中的至少一个。

37.根据权利要求26至31中的任何一项所述的至少一种机器可读存储介质，其中所述指令当由所述至少一个处理器执行时，使所述至少一个处理器：

基于在所述网络中存在复原能力风险的所述确定，增加用于由所述节点生成消息的采样率分辨率；

根据经增加的采样率分辨率在后续监控时段期间接收一个或多个附加消息；并且

评估所述一个或多个附加消息以识别所述复原能力风险的原因。

38.根据权利要求26至31中的任何一项所述的至少一种机器可读存储介质，其中所述指令当由所述至少一个处理器执行时，使所述至少一个处理器：

将来自一个或多个相应的节点的一个或多个消息与来自所述节点的另一消息组合，其中所述一个或多个相应的节点相对于所述节点在所述网络中是冗余的。

39.一种用于分析网络中的节点的装置，所述装置包括：

至少一个处理器；以及

健康状况监控引擎，其包括被配置用于由所述至少一个处理器执行以进行如下操作的逻辑：

至少部分地基于所述消息模式和在所述监控时段期间从所述节点接收到的许多消息来确定在所述网络中是否存在复原能力风险；以及

40.根据权利要求39所述的装置，其中所述参考模板是基于所述节点的预期行为的数据模型描述和在训练时段期间从所述节点接收到的多个消息来创建的。

41.根据权利要求40所述的装置，其中所述消息模式是至少部分地基于测量所述多个消息的实际特性与所述多个消息的预期特性之间的差异来确定的，所述预期特性是根据预期行为的所述数据模型描述来确定的。

42.根据权利要求39所述的装置，其中所述消息模式至少指示预期从所述节点接收一个或多个消息的频率。

43.根据权利要求39至42中的任何一项所述的装置，其中所述消息模式指示与所述节点有关的预期被包括在要从所述节点接收的一个或多个消息中的健康状况信息的至少一个项目。

44.根据权利要求39至42中的任何一项所述的装置，其中所述逻辑被配置用于由所述至少一个处理器执行以：

45.根据权利要求39至42中的任何一项所述的装置，其中所述逻辑被配置用于由所述至少一个处理器执行以：

46.一种用于分析网络中的节点的方法，所述方法包括：

47.根据权利要求46所述的方法，还包括：

48.根据权利要求47所述的方法，其中部分地基于从所述节点接收到的许多新消息指示在所述网络中存在所述复原能力风险的确定来采取所述动作。

49.根据权利要求46至48中的任何一项所述的方法，其中，所述许多消息各自包括设备识别符、本地时间戳、下一个消息时间以及节点健康状况和诊断信息中的一种或多种。

50.根据权利要求46至48中的任何一项所述的方法，其中所述许多消息中的至少一个包括用于包含所述节点的子网的子网过滤器，其中所述子网是在所述网络中监控节点的多个子网中的一个。