CN111800311A

CN111800311A - 分散计算状态实时感知方法

Info

Publication number: CN111800311A
Application number: CN202010571053.4A
Authority: CN
Inventors: 刘斌; 李新明; 宋恒; 李子星
Original assignee: Edge Intelligence Of Cas Co ltd
Current assignee: Edge Intelligence Of Cas Co ltd
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2020-10-20
Anticipated expiration: 2040-06-22
Also published as: CN111800311B

Abstract

本发明涉及分散计算网络技术领域，具体公开了一种分散计算状态实时感知方法，通过配置分散计算节点发现协议，执行可编程实时计算和网络负荷感知，并采用面向数据流和任务感知的传输控制协议等步骤，实现了深入到网络设备硬件内部，网络实时的负载、时延和抖动感知。满足了分散计算网络对可编程感知和可编程调度的能力需求，形成了完整的可编程网络感知体系。相较于现有技术，本发明减少了网络感知过程中CPU的参与，保障了计算资源；具备快速响应能力，特别是分散计算节点离线探测和分散计算节点负载状态感知，压缩到毫秒级别。

Description

分散计算状态实时感知方法

技术领域

本发明涉及计算机网络技术领域，特别是涉及一种分散计算状态实时感知方法。

背景技术

网络感知技术在国外发展主要目标是解决网络的运维问题和安全性问题。在运维问题上，当前产业尚未充分成熟，思科掌握了部分领先的网络感知技术，网络芯片厂商比如博通、Barefoot，以及互联网用户包括亚马逊、微软和Facebook 在OCP(Open ComputePlatform)拟制定行业标准DPT(Data Plane Telemetry)，以提供网络负载、时延、抖动的数据转发层面信息，为智能化、自动化网络运维提供支撑。在安全性保障上，网络感知技术通过分析报文流量的长度分布状态，路由报文的IP Option状态，在网络设备中预先筛选出DDoS攻击流量，帮助防火墙设备共同防御大规模流量的网络攻击。网络感知技术在运维和安全领域的整体技术方案预计在2020年能够完成成熟收敛。

在分散计算网络中，网络感知能力为任务调度系统提供计算节点信息的收集，维护功能，是分散计算网络的关键环节。当前在国外，网络感知技术处于研究阶段，形成了一批关于在分散计算网络中网络状态感知的成果，同时搭建了测试平台，并且通过IPERF，PING，OWAMP进行理论性验证，分析网络在不同负载情况下的丢包，时延和抖动数据，国外在该领域的研究尚未进入产业化环节，技术可以部分复用在数据中心和信息网的感知技术，但是需要具备可编程能力以匹配分散计算的感知需求。

交换机和路由器等网络设备经过了多年的发展，具备了完善的技术体系。 2017年第一季度全球以太网交换机市场收入为56.6亿美元，同比增长3.3％。与此同时，全球整体路由器市场在该季度的收入为33.5亿美元，同比减少3.7％。交换机市场份额约为路由器的两倍，随着大数据和云计算的发展，交换机占据的市场份额将进一步提升。企业、分支机构的连接的各类设备繁杂，对路由器的设备类型和接口类型要求丰富，需要具备E1/STM的WAN接口，3G/4G，WIFI 模组，语音模组，IPSec模组等。

基于TCP/IP协议栈的交换机和路由器技术包袱重，在当前TCP/IP技术架构下叠加分散计算网络设计难度过高。美国的Barefoot公司推出了两颗可编程交换芯片和系列交换产品，具备支持可编程调度技术的部分基础，但是其交换带宽过大，分别是6.5Tbps和12.8Tbps，功耗无法满足部分边缘应用的需求。分散计算的网络设备依旧在理论阶段，协议标准和产业链均未成熟。

国内网络感知技术落后国外三到五年，当前主要采用镜像到服务器进行分析，以及通过Sflow技术对转发面进行端口收发报文个数的统计，采样流量进行简单的流分析。尚未能够深入到网络设备硬件内部，具备网络实时的负载、时延和抖动感知。技术上无法匹配分散计算节点众多，网络状态实时变化快，计算任务对网络负载量化分析等要求。

国内经过近几年技术的发展，已经具备了一批具备实力的网络的供应商和具备网络芯片能力的本土企业，但当前技术处于SDN的时代技术演进，尚未能满足分散计算网络对可编程感知和可编程调度的能力需求。

现有网络感知技术存在的主要问题：当前技术尚未能够深入到网络设备硬件内部，具备网络实时的负载、时延和抖动感知。技术上无法匹配分散计算节点众多，网络状态实时变化快，计算任务对网络负载量化分析等要求。且处于 SDN的时代技术演进，尚未能满足分散计算网络对可编程感知和可编程调度的能力需求。

发明内容

本发明的目的是克服现有技术的缺陷，提供一种分散计算网络的网络状态实时感知方法。

为了解决上述技术问题，本发明提供一种分散计算状态实时感知方法，包括以下步骤：

(1)配置分散计算节点发现协议，用于形成以下两类信息数据库：

(1a)用户守护进程的全局节点信息数据库，掌握全网的分散计算节点分布，以及各个节点的计算性能，用于集中式任务调度器的子任务调度；

(1b)分散节点信息数据库，掌握局部网络区域的节点分布，以及节点计算性能，用于分散计算任务调度器的子任务调度；

所述信息数据库的信息被提供给分散计算核心调度器使用；

(2)可编程实时计算和网络负荷感知，具体包括：

(2a)在交换芯片内部通过单节点负载和状态嗅探技术，实现对于本节点的计算和网络负载、以及状态的收集；通过重构的协议报文将信息同步至其他分散计算节点；

(2b)在交换芯片内部通过端到端负载和状态嗅探技术，实现网络流量传输过程中每一节点的负载和状态信息，堆栈式将信息携带在网络流量中，在末节点将路径信息进行归集；

(2c)通过计算和网络状态采集和阈值计算，设置流量采集点，实现对所监测网内的所有流量进行分析；

(3)配置面向数据流和任务感知的传输控制协议，通过采用对任务大小及流拖尾强度感知的TCP拥塞控制协议TLDCT，在任务内部，减少所有数据流中拖尾流的完成时间，加速任务的完成时间；在任务之间感知任务大小，使得小任务优先，减少平均任务完成时间。

相较于现有技术，本发明的有益效果在于：

减少了数据汇聚再分发的过程的开销，并减少了网络传递、分发的开销，具备低消耗的分散计算的网络感知能力。通过可编程的技术手段实时获取更深层的网络状态数据，包括转发时延、转发抖动、转发行为、出端口利用率、出队列拥塞率等信息。通过感知更深层次的网络负载和状态，满足分散计算调度器更精细的流量功能需求。

附图说明

图1为根据本发明的分散计算节点上线分散计算节点发现协议通知流程的示意图。

图2为根据本发明的分散计算节点发现协议的协议框架示意图。

图3为根据本发明的可编程实时计算和网络负载感知的流程示意图。

图4为根据本发明的节点计算和网络负载架构。

图5为根据本发明的采集器的工作流程示意图。

图6为根据本发明的芯片流量嗅探总体流程示意图。

图7为根据本发明的芯片流量嗅探使能示意图。

图8为根据本发明的端到端路径负载嗅探技术的技术框架示意图。

图9为根据本发明的网络路径嗅探拓扑示意图。

图10为根据本发明的网络路径嗅探芯片架构示意图。

图11为根据本发明的网络路径源节点实现架构示意图。

图12为根据本发明的汇聚采集器架构示意图。

图13为根据本发明的核心采集器架构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

根据本发明的一种分散计算状态实时感知方法，包括以下步骤：

(1)配置分散计算节点发现协议，用于形成以下两类信息数据库：(1a)用户守护进程的全局节点信息数据库，掌握全网的分散计算节点分布，以及各个节点的计算性能，用于集中式任务调度器的子任务调度；(1b)分散节点信息数据库，掌握局部网络区域的节点分布，以及节点计算性能，用于分散计算任务调度器的子任务调度；

以上两类信息数据库的信息被提供给分散计算核心调度器使用；

(2)执行可编程实时计算和网络负荷感知，具体包括：

以下将参照附图对本发明的每一步骤及其包含的技术进行详细阐述。

(一)分散计算节点发现协议

分散网络的设备种类繁多，配置和管理复杂，来自不同设备厂商、不同类型的网络设备功能具备差异性，导致一张分散网络中内具有多种不同特性的、不能能力的设备节点，为了对这样的网络进行统一管理，首先需要使不同厂商的设备能够在网络中相互发现并交互各自的系统及配置信息。

请参照图1和2，本发明拟基于分散节点发现协议进行节点的发现和计算能力上报。在链路层发现协议的协议报文中增加表示节点计算能力的相关字段。分散计算节点发现协议，是一个二层协议，它提供了一种重构的链路层发现方式。分散计算节点发现协议使得接入网络的一台设备可以将其主要的能力、管理地址、设备标识、接口标识和计算能力等信息发送给接入同一个局域网络的其它设备。当一个设备从网络中接收到其它设备的这些信息时，它就将这些信息以数据库的形式存储起来，传递到用户守护进程的集中式分散式调度器进行终结。

通过分散计算节点发现协议的信息同步，形成两类信息数据库：

(a)用户守护进程的全局节点信息数据库，掌握全网的分散计算节点分布，以及各个节点的计算性能，用于集中式任务调度器的子任务调度；

(b)分散节点信息数据库，掌握局部网络区域的节点分布，以及节点计算性能，用于分散计算任务调度器的子任务调度。

数据库信息可用于发现设备的物理拓扑结构以及管理配置信息。分散计算节点发现协议设计用于进行网络节点的在线状态、计算能力的信息通告，它被用于通告一个设备的信息并可以获得其它设备的信息，进而得到相关的数据库信息。它不是一个配置、控制协议，无法通过该协议对远端设备进行配置和调度，它只是提供了关于网络拓扑以及管理配置的信息，这些信息可以被用于管理、配置的目的，提供给分散计算的核心调度器使用。

(二)可编程实时计算和网络负荷感知

分散计算进行了子任务切片和实时调度。由于任务切割导致网络上的流量模型更为动态多变，需要突破可编程实时计算和网络符合感知技术，单台网络设备的影响速度达到毫级别，提高分散计算调度器的调度时间精度，以避免调度完成后，发现目的计算节点的计算空余资源不足。

本发明拟在分散计算节点突破交换芯片硬件负载和状态嗅探技术，在交换芯片内集成两种嗅探能力：

单节点负载和状态嗅探技术，实现对于本节点的计算和网络负载、以及状态的收集；通过可重构的协议报文将信息同步至其他分散计算节点。

端到端负载和状态嗅探技术，实现网络流量传输过程中每一跳节点的负载和状态信息，堆栈式将信息携带在网络流量中，在末节点将路径信息进行归集。

分散计算的网络中可以设置多个汇聚采集点，以降低网络感知流量对带宽的占用，先将信息同步至本地数据库，同时采用带内通道的方式通告用户守护进程的数据库，以避免CPU参与转发形成计算资源开销。为进一步降低采集和分析的计算CPU负载，本项目拟通过交换芯片对嗅探得到的信息进行初步阈值计算，并引入水线机制，形成主动上报机制，进一步降低采集点的计算负荷。

请参阅图3，分散计算节点三首先完成本地计算负载和状态嗅探，获取CPU 利用率、内存利用率、进程利用率、硬盘利用率、网络带宽利用率、网络路径时延和网络路径抖动等负载和状态信息。

节点三将本节点的负载和状态信息分发到本地分散计算节点信息动态表，同时并发的将信息发送至节点二和节点一以及其他节点。节点二和节点一收到负载和状态信息后，各自存至本地的分散计算节点信息动态表中。

通过负载和状态嗅探技术将信息保存在业务负载动态表和路径状态动态表，并将计算得到的计算负载、网络负载阈值状态信息存入事件记录动态表。

请参阅3-13，根据本发明的可编程实时计算和网络负载感知的流程，需要结合以下技术。

(1)硬件级网络状态嗅探技术

分散计算网络规模动态可伸缩，网络中承载的计算任务种类繁多。以军网为例，随着现代化作战的智能需求，各个军兵种的网络规模都在不断扩张，网络结构日渐复杂，网络业务日趋丰富，网络流量高速增长。军网需要通过可靠、有效的网络业务流量监测系统对其网络以及网络所承载的各类业务进行及时、准确的流量和流向分析，进而挖掘网络资源潜力，控制网络互联成本，并为网络规划、优化调整和业务发展提供基础依据。分散计算调度器需要及时的了解到网络中承载的业务，及时的掌握网络流量特征，以便使网络带宽配置最优化，及时解决网络性能问题。目前在管理网络当中普遍遭遇到了如下的问题：

(a)计算网络的可视性：网络利用率如何；什么样的程序在网络中运行；主要用户有哪些；网络中是否产生异常流量；有没有长期的趋势数据用作网络带宽规划。

(b)计算任务的可视性：当前网内有哪些应用；分别产生了多少流量。

网络中应用使用的模式是什么；关键指控重要应用执行状况如何。

(c)分散计算任务调度：哪些任务产生的流量最多；哪些服务器接收的流量最多；哪些会话产生了流量；分别使用了哪些应用。

从这些网络管理和调度中所经常遇到的问题来看，需要有一种解决方案能让分散计算调度器及时了解到详细的网络使用情形，使分散计算调度器员及时洞察网络运行状况、及时了解网内应用的执行情况。

军事网络通常具有规模相对较小、组网灵活、易受攻击等特点，因此分散计算网络更容易出现由组网或者攻击导致的流量业务异常。于是企业用户更需要一种以设备接口为基本采样单元的流量监控技术来实时监控流量状况，及时发现异常流量以及攻击流量的源头，从而保证企业网络的正常稳定运行。一个典型的硬件级网络嗅探技术系统提供了一组代理以及一个采集器，代理内嵌于网络设备，负责采集相关的流量统计信息；采集器的角色通常由专门的服务器充当，通过在服务器上运行硬件级网络嗅探技术趋势等专门的硬件级网络嗅探技术采集软件，收集代理发送过来的统计数据，以图形化的统计信息汇总或者以报表的形式输出。为企业用户特别是不设置专职网络管理员的企业用户的日常巡检维护提供了极大的方便。

根据本发明，被配置的网络嗅探技术系统包含一个嵌入在设备中的网络嗅探技术代理和远端的网络嗅探技术采集器。其中，网络嗅探技术代理用于获取接口的统计信息和数据信息，将信息封装成网络嗅探技术报文，当网络嗅探技术报文缓冲区满或是在网络嗅探技术报文老化时间超时后，网络嗅探技术代理会将网络嗅探技术报文发送到指定的网络嗅探技术采集器。网络嗅探技术采集器会对网络嗅探技术报文进行分析，并显示分析结果。网络嗅探技术包括以下两种采样机制：

(a)流采样：基于数据包的采样，用于获取数据内容的相关信息。

(b)统计采样：基于时间的接口统计信息采样，用于获取接口的统计信息。

作为一种网络流量监控技术，硬件级网络嗅探技术具有如下优点：

(a)支持在千兆或更高速的网络上精确地监控网络流量。

(b)一个硬件级网络嗅探技术采集器能够监控多个硬件级网络嗅探技术代理，具有良好的扩展性。

(c)硬件级网络嗅探技术代理可以内嵌在硬件设备中，不需要专门的硬件级网络嗅探技术代理设备，节省计算能力。

硬件级网络嗅探技术报文采用UDP封装。硬件级网络嗅探技术报文共有多种报文头格式，分别为流采样头、扩展的流采样头、统计采样头、扩展的统计采样头。本项目拟重构网络采样能力，增加对计算负载的能力的统计和采样。是流采样和统计采样的扩展。所有的扩展的采样内容必须使用扩展采样报文头封装。

硬件级网络嗅探技术代理提供了两种采样方式供用户从不同的角度分析网络流量状况，分别为流采样以及统计采样。

流采样是硬件级网络嗅探技术代理设备在指定接口上按照特定的采样方向和采样比对报文进行采样分析，用于获取报文数据内容的相关信息。该采样方式主要是关注流量的细节，这样就可以监控和分析网络上的流行为。Flow采样是针对接口上报文的采样方式，报文的采样主要由两种方式：固定采样方式和随机采样方式。

根据本发明的硬件级网络嗅探技术具有以下功能或优点：

(a)计算负载规划：硬件级网络嗅探技术为基于资源(如CPU、内存、硬盘等)占用情况的计费提供了精细的数据。分散式负载器可以利用这些信息来实行灵活的调度策略，如基于时间、带宽、应用、服务质量等。分散计算可以使用这些信息充分利用计算资源，以便有效利用资源。

(b)网络规划：硬件级网络嗅探技术可以为网络管理工具提供关键信息，以便优化网络设计和规划，实现以最小的网络运营成本达到最佳的网络性能和可靠性。

(c)网络监控：通过在业务环境中部署硬件级网络嗅探技术，对连接虚拟交换网络的虚拟机接口进行实时的流量监控，可以分析各种业务占用出口带宽的情况。网管人员可以根据这些信息判断网络的运行情况，尽早发现不合理的网络结构或是网络中的性能瓶颈，方便网管人员规划和分配网络资源。

(d)用户监控和分析：通过硬件级网络嗅探技术可以使网络管理者轻松获取用户使用虚拟网络和应用资源的详细情况，进而高效地规划以及分配网络资源，并保障网络的安全运行。

根据本发明，将硬件级网络嗅探技术原来用于数据交换加速的功能改由网络设备中的专用集成电路(ASIC)芯片实现，而在本发明中主要利用其用于对流经网络设备的分散计算任务流量进行测量和统计的功能。

为对分散计算的网络中不同类型的业务流进行准确的流量和流向分析与计量，首先需要对网络中传输的各种类型数据包进行区分。由于分散计算的网络基于主动网络的基础演进，非面向连接特性，网络中不同类型业务的通信可能是任意一台终端设备向另一台终端设备发送的一组任务数据包，这组数据包实际上就构成了分散计算的网络中某种业务的一个流量。如果管理系统能对全网传送的所有流量进行区分，准确记录传送时间、传送方向和流量的大小，就可以对运营商全网所有业务的流量和流向进行分析和统计。

通过分析分散计算的网络中不同流量之间的差别，可以发现判断任何两个 IP数据包是否属于同一个流量，实际上可以通过分析数据包的以下7个属性来实现：

(a)源IP地址；

(b)目标IP地址；

(c)源通信端口号；

(d)目标通信端口号；

(e)第三层协议类型；

(f)服务类型(TOS)字节；

(g)网络设备输入或输出的逻辑网络端口。

根据本发明的硬件级网络嗅探技术就是利用分析数据包的上述多个属性，快速区分网络中传送的各种不同类型业务的流量。对区分出的每个流量，硬件级网络嗅探技术可以进行单独跟踪和准确计量，记录其传送方向和目的地等流向特性，统计其起始和结束时间、服务类型、包含的数据包数量和字节数量等流量信息。

硬件级网络嗅探技术的数据输出要求先在路由器和交换机上定制硬件级网络嗅探技术流输出，并选择输出流的版本、个数、缓冲区的大小等，配置相应硬件级网络嗅探流量收集器的目的地址、端口等信息。此时路由器或交换机即可以用户数据报协议的方式向外发送流信息，然后在硬件级网络嗅探流量收集器端配置接收端口号，设置汇聚、过滤策略和流量文件存放目录、格式等。硬件级网络嗅探有非采样和采样两种使用模式。

硬件级网络嗅探流量收集器选用分散式数据库来收集数据，硬件级网络嗅探流量收集器收集的数据将存放在本地数据库中(路径由用户定义)。同时，它也可以通过网关以带内的方式发送信息到其他网管分析软件，或直接读取存放在硬件级网络嗅探流量收集器工作站中的数据文件，对其进行分析处理。

硬件级网络嗅探记录的流包含了丰富的信息，非常适合于网络性能分析。硬件级网络嗅探不需要其他计算资源的支持，开启和关闭都非常方便。

(2)单节点负载和状态嗅探技术

请参阅图6和7，本发明在交换芯片内部实现单节点负载和状态嗅探技术，并通过内存共享技术与计算节点的实时同步，以获取计算节点的CPU、内存、硬盘的利用率、任务完成率等信息。将计算和网络的负载和状态信息统一归集到交换芯片内部。

单节点嗅探技术通过可重构技术定义负载状态帧格式，将信息组成报文，使用带内转发至其他分散计算节点，以实现数据库同步。

单节点嗅探技术具备一定的路径优化和预防攻击能力。在芯片内使用电路级信号控制流量调度，实现对网络变化的敏捷响应。交换芯片内部转发状态的线速实时采集，网络设备提供对端口和全局的缓存和时延监控。时延的监控是指监控报文在芯片的驻留时间。根据时延和缓存提供的数据，收集和筛选有效数据，基于会话的粒度对报文转发行为状态进行监控，对流量进行总结归纳，交换芯片集成了模式识别能力，可以自主识别可能的DDoS流量攻击。

芯片接收到报文后，首先进行解析，通过报文解析处理将MAC、IP等信息解析出来，并用于后续SCL查找和ACL查找。

芯片支持通过下发ACL和SCL表项匹配数据流来完成数据流分类和使能网络流量嗅探功能。

根据本发明，对于使能单节点嗅探技术的报文，会执行网络流量嗅探数据流学习处理。该过程主要包含：网络流量嗅探数据流Key生成和表项查找，网络流量嗅探表项的添加或更新，以及网络流量嗅探表项的老化。

单节点嗅探的数据流Key的生成是由ACL查找结果包含的网络流量嗅探的 HashType类型和报文的类型共同决定。芯片根据生成的单节点负载嗅探数据流 Key执行查找，得到的查找结果用于判断对该网络报文执行数据流学习的操作是添加还是更新。

在完成单节点嗅探数据流学习后，会通过DMA上送网络流量嗅探信息记录，配合系统层面进行网络流量嗅探记录的信息的获取，并按照网络流量嗅探RFC 标准报文格式进行报文封装，最后将网络流量嗅探协议报文发送到收集设备和分析设备。

(3)端到端负载和状态嗅探技术

请参阅图8，其表示根据本发明的端到端路径负载嗅探技术的技术框架。端到端负载和状态感知技术将负载和状态插入报文中间，逐跳节点堆栈式叠加。将网络故障等同于软件的GDB定位，还原每个栈的现场信息。

端到端负载和状态嗅探技术将CPU利用率、内存利用率、设备标识、源目端口、时延等信息插入到报文中，随报文携带；并在网路路径中堆栈式的将每一跳的信息压入报文内。在最后一跳设备中，将路径上收集的所有的信息进行归集，处理流程如图8所示。分散计算任务报文源地址为节点一，目的地址为节点四。通过端到端路径负载嗅探技术，经过节点一后，在报文中插入节点一的计算和网络状态，如CPU利用率、内存利用率、转发状态、端口带宽利用率、转发时延、队列状态、时间戳等信息；经过节点二后，保持节点一的数据，同时堆叠节点二的状态；节点三的处理过程类似，报文到达节点四后，将收集的节点一、节点二和节点三的状态进行归集，送至本地信息动态表，然后将状态信息裁剪，恢复原始报文，送至目的低节点四。

整个过程中，计算负载信息，信息的采集，插入报文，裁剪均由交换芯片完成，一方面实现零CPU占用，另一方面可以收集到传统CPU无法感知的时延、抖动、转发现场状态等更丰富的信息。

请参阅图9，其表示根据本发明的网络路径嗅探拓扑示意图。网络路径状态感知通过数据报文在网络中传输过程中，实时收集和携带网络设备的状态信息，便于网络健康状态的监测和网络故障的诊断。基于网络路径状态感知实现运维可视化的具体流程为：

业务报文进入网络路径源节点，通过交换机上设置的采样方式采样并镜像出该业务流报文，网络路径源节点在报文中封装一个网络路径状态感知头部，并在网络路径头部后添加计算和网络路径状态信息，将需要收集的计算能力，包括CPU、内容和硬盘信息、交换机的源、目端口、转发时延、拥塞状态等信息和状态。

报文转发至下一台网络路径中间节点，网络路径中间节点根据上一台设备的计算和网络路径状态信息内容继续添加本机的计算和网络路径状态信息；

经过所有网络路径末节点，网络路径中间节点将网络路径状态感知头部拆除，并将其中的路径信息通过管理通道将报文发送给后端的监控服务器进行解析和呈现。

网络路径状态感知的整体芯片流程如图10所示：

在IPE入方向流水线，芯片接收到报文后，首先进行解析，通过报文解析处理将MAC、IP、L4 Port等信息解析出来，并用于后续ACL查找。通过匹配 ACL表项将数据流进行分类，并根据ACL查找结果来决定是否使能网络路径状态感知。如果查找结果是使能网络路径状态感知，就进行后续的网络路径状态感知处理流程。

在网络路径状态感知处理模块，会根据ACL的查找结果判断对应的网络路径状态感知不同节点，并根据不同节点对网络路径状态感知报文处理的不同分别进行预处理。

在EPE出方向流水线的网络路径状态感知信息插入和编辑，芯片会根据入方向网络路径状态感知预处理的结果来完成网络路径状态感知报文的编辑操作。

网络路径源节点芯片处理流程如图11所示。

(4)计算和网络状态采集和阈值计算

为了实现对所监测网内的所有流量进行分析，首先需要合理地设置流量采集点。采集点的设置非常关键，直接影响到系统能否准确地对流量进行全面分析。下面主要针对分散计算的网络优化应用提出采集点设置建议方案。

由于主要是实现对分散计算的网络的优化，所以不一定需要对网络中传送的所有流量数据进行100％的监测。为减少对网络设备的资源占用，降低对系统的容量要求，可以选用数据包抽样的网络状态嗅探数据采集方式，对网络中的所有流量进行统计。

通常情况下，分散计算的网络结构包括核心层和边缘层两个层次，网络流量通过边缘层的路由器汇接进入核心层，由核心层的路由器进行转接。而网络状态嗅探技术只能对端口的流入流量进行分析，因此，流量采集点的设置主要有两种方案可供选择：

方案一：采集点设置在网络的核心层，核心层路由器之间的互联端口不需要开启网络状态嗅探，核心节点路由器对外的互联端口开启网络状态嗅探流入流量采集。

该方案的优点是被采集的路由器数量少，因此管理比较简单，配置工作量比较小；缺点是采集端口集中在核心层路由器上，增加了核心层路由器的负担，对业务网络的影响较大。

方案二：采集点设置在网络的边缘层，边缘层路由器对外的互联端口开启网络状态嗅探流入流量采集，对从其他AS进入到网内的流量进行分析。

该方案的优点是采集端口分散在边缘层的多台路由器上，相应地减少了单台路由器上的采集数据量和因流量采集而增加的负担，降低了开启分散计算的网络对业务网络的影响；缺点是被采集的路由器数量较多，管理的复杂程度和配置工作量都相应加大，而且这种方案需要将采集的分散计算的网络数据从边缘层的路由器传送到集中设置的采集机，会在网内增加一定的流量而占用网络带宽。

流量分析系统由采集机和分析服务器组成。被采集的路由器将网络嗅探数据包发往网络嗅探流量采集机，采集机将采集到的网络嗅探数据送到分析服务器进行分析。被采集的路由器分布在全网各个节点，当系统规模较大时，需要配置多台采集机和分析服务器。采集机和分析服务器的部署有以下两种方案。

方案一：将采集机分别部署在各个核心节点，每个核心节点的采集机负责采集连接至该核心节点的路由器；分析服务器集中部署在网管中心。该方案采集机通过以太网接口接入核心路由器或与核心路由器连接的局域网交换机，实现与被采集路由器的互通。利用用户数据报协议从被采集路由器上的端口采集网络嗅探数据，再通过带内网络传送到分析服务器，由分析服务器进行数据汇总和分析处理，如图12所示。

该方案的优点是，在至分析服务器的网络连接出现突发故障时，可以充分利用采集机的存储能力，暂存网络嗅探数据，待网络连接恢复时，再向分析服务器传送；这种分布式的部署方案还可以避免单点出现故障时导致全网流量无法采集，而且采集机还可以进行一些预处理工作，减轻分析服务器的压力。缺点是每个核心节点都需要配备一套采集机，设备的综合利用率不够高，管理和维护不够集中。

方案二：采集机和分析服务器集中部署，由多台采集机共同负责采集全网内的路由器。该方案采集机通过以太网接口接入网管中心，实现与全网内被采集路由器的互通，采集机利用通过网络从各节点被采集路由器上的端口采集网络嗅探数据，再通过分散计算的网络传送到分析服务器，由分析服务器进行数据汇总和分析处理，如图13所示。

该方案的优点是，流量分析系统设备集中部署，便于统一管理和统一维护，也提高了设备的利用率，缺点是如果网络不稳定或发生故障时，路由器的网络嗅探数据将不能传送到网管中心，处理不当可能造成网络嗅探数据的丢失。随着流量监测技术的不断改进和完善，互联网业务流量监测系统必将为提高宽带互联网络业务的服务质量和管理。分散计算的网络感知采集点的设置需要具备动态性，根据网络健康状态在分布式采集器和集中式采集之间切换。

为进一步降低采集器的CPU负载。本发明突破了网络状态阈值计算技术，进一步对采集点的CPU利用率，通过在交换芯片硬件实现水线技术，当交换机端口利用率超过最高阈值后，主动上报告警；当端口利用降低至安全阈值后，上报撤销告警。当交换芯片路径时延超过最高阈值后，主动上报告警；当路径时延低于安全阈值后，上报撤销告警。

(三)面向数据流和任务感知的传输控制协议

本发明采用对任务大小及流拖尾强度感知的TCP拥塞控制协议TLDCT。在任务内部，减少所有数据流中拖尾流的完成时间，加速任务的完成时间。在任务之间感知任务大小，通过协议设计使得小任务优先，旨在减少平均任务完成时间。由传输控制因子、内部流传输控制因子和拥塞度共同控制的拥塞窗口模型，在没有发生拥塞时，拥塞窗口按照线性增加，当发生了拥塞时，则根据传输控制因子、内部传输控制因子和拥塞度的乘积，乘法减小。具体模型和计算式如下：

其中，控制传输因子β由任务流量确定，也是表明的任务大小因子，任务流量门限最小值由网络中传输的传输量最多的流量值确定，能够反映网络通信中最常见的流量值，最大值由全网流量85％的阈值确定，能够代表网络中大多数流量的范围。

任务内部流传输速率控制因子γ由该流已发送字节数和它所属任务的平均每0条流已发送字节数的差值除以该流已发送字节数决定，也是表明任务拖尾的因子，能够反映出某一数据流的大小与平均大小之间的关系，并在数值小于0 时归一到0值。

该式用来计算当前网络的拥塞程度。

发送方通过之前计算出来的更新当前发送窗口cwnd并通过控制TCP的发送窗口的方式，来控制网络中的数据流量。

综上，本发明所揭露的分散计算状态实时感知方法主要实现了：一是网络感知尽量减少CPU的参与，保障计算资源；二是具备快速响应能力，特别是分散计算节点离线探测和分散计算节点负载状态感知，压缩到毫秒级别，形成了完整的可编程网络感知体系。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种分散计算状态实时感知方法，其特征在于，包括以下步骤：

所述信息数据库的信息被提供给分散计算核心调度器使用；

(2)执行可编程实时计算和网络负荷感知，具体包括：

2.根据权利要求1所述的分散计算状态实时感知方法，其特征在于，步骤(1)中，所述分散计算节点发现协议被配置用于进行网络节点的在线状态、计算能力的信息通告，它被用于通告一个设备的信息并可以获得其它设备的信息，进而得到相关的数据库信息，所述数据库信息可用于发现设备的物理拓扑结构以及管理配置信息，从而被用于管理、配置的目的，提供给分散计算的调度器使用。

3.根据权利要求1所述的分散计算状态实时感知方法，其特征在于，步骤(2)中，采用硬件级网络嗅探系统，通过流采样和统计采样两种采样方式，计算负载规划，网络规划，网络监控，用户监控和分析。

4.根据权利要求3所述的分散计算状态实时感知方法，其特征在于，步骤(2a)中，通过内存共享技术与计算节点的实时同步，获取计算节点的CPU利用率、内存利用率、硬盘利用率、任务完成率信息，将计算和网络的负载和状态信息统一归集到交换芯片内部；

步骤(2b)中，在网络流量传输过程中的每一节点将计算和网络状态，包括CPU利用率、内存利用率、设备标识、源目端口、转发状态、端口带宽利用率、转发时延、队列状态、时间戳信息插入到报文中，随报文携带；并在网路路径中堆栈式地将每一节点的信息压入报文内；在最后一节点的设备中，将路径上收集的包括时延、抖动、转发现场状态的所有的信息归集。

5.根据权利要求3所述的分散计算状态实时感知方法，其特征在于，所述硬件级网络嗅探系统包括一个嵌入在网络设备中的网络嗅探技术代理和远端的网络嗅探技术采集器；所述网络嗅探技术代理用于获取接口的统计信息和数据信息，将信息封装成网络嗅探技术报文，当网络嗅探技术报文缓冲区满或是在网络嗅探技术报文老化时间超时后，网络嗅探技术代理会将网络嗅探技术报文发送到指定的网络嗅探技术采集器；所述网络嗅探技术采集器会对网络嗅探技术报文进行分析，并显示分析结果。

6.根据权利要求3或4或5所述的分散计算状态实时感知方法，其特征在于，硬件级网络嗅探系统被配置为非采样和采样两种使用模式。

7.根据权利要求1所述的分散计算状态实时感知方法，其特征在于，步骤(2c)中，流量采集点被设置在网络的核心层或者边缘层。

8.根据权利要求1所述的分散计算状态实时感知方法，其特征在于，步骤(2c)中，流量分析系统被配置为用于对所有流量进行分析，所述流量分析系统包括网络嗅探流量采集机和分析服务器，被采集的路由器将网络嗅探数据包发往采集机，采集机将采集到的网络嗅探数据送到分析服务器进行分析。

9.根据权利要求8所述的分散计算状态实时感知方法，其特征在于，配置多台采集机和分析服务器，采集机和分析服务器的部署采用以下两种方案的其中一种：方案一：将采集机分别部署在各个核心节点，每个核心节点的采集机负责采集连接至该核心节点的路由器，分析服务器集中部署在网管中心；方案二：采集机和分析服务器都集中部署，由多台采集机共同负责采集全网内的路由器。

10.根据权利要求1所述的分散计算状态实时感知方法，其特征在于，步骤(3)采用由传输控制因子、内部流传输控制因子和拥塞度共同控制的拥塞窗口模型，在没有发生拥塞时，拥塞窗口按照线性增加，当发生了拥塞时，则根据传输控制因子、内部传输控制因子和拥塞度的乘积，乘法减小；具体模型和计算式如下：

式(I)中，控制传输因子β由任务流量确定，也是表明任务大小的因子，任务流量门限最小值由网络中传输的传输量最多的流量值确定，能够反映网络通信中最常见的流量值，最大值由全网流量85％的阈值确定，能够代表网络中大多数流量的范围；

式(II)中，内部流传输控制因子γ由该流已发送字节数和它所属任务的平均每0条流已发送字节数的差值除以该流已发送字节数决定，也是表明任务拖尾的因子，能够反映出某一数据流的大小与平均大小之间的关系，并在数值小于0时归一到0值；

式(III)用来计算当前网络的拥塞度；

式(Ⅳ)中，cwnd为当前发送窗口，它通过之前式(I)、(II)、(III)计算出来的结果更新并通过控制TCP的发送窗口的方式，来控制网络中的数据流量。