CN116932332A - Dpu运行状态监控方法及装置 - Google Patents

Dpu运行状态监控方法及装置 Download PDF

Info

Publication number
CN116932332A
CN116932332A CN202310989086.4A CN202310989086A CN116932332A CN 116932332 A CN116932332 A CN 116932332A CN 202310989086 A CN202310989086 A CN 202310989086A CN 116932332 A CN116932332 A CN 116932332A
Authority
CN
China
Prior art keywords
dpu
index
container
service
statistical data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310989086.4A
Other languages
English (en)
Other versions
CN116932332B (zh
Inventor
郎爽
荆慧
黄明亮
鄢贵海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yusur Technology Co ltd
Original Assignee
Yusur Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yusur Technology Co ltd filed Critical Yusur Technology Co ltd
Priority to CN202310989086.4A priority Critical patent/CN116932332B/zh
Publication of CN116932332A publication Critical patent/CN116932332A/zh
Application granted granted Critical
Publication of CN116932332B publication Critical patent/CN116932332B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提供一种DPU运行状态监控方法及装置,所述方法包括:接收分别部署在容器集群中的各个容器节点上的DPU指标采集器采集各自所在的容器节点中包含的业务容器的网络资源统计数据;以及,接收各个容器节点各自对应的DPU的片上系统中用户态协议栈的网络接口统计数据,其中,各个网络接口统计数据分别由各个DPU指标采集器调用各自所在的容器节点唯一对应的DPU中的片上系统指标采集器来获取;将所述业务容器的网络资源统计数据和用户态协议栈的网络接口统计数据作为DPU指标对DPU的运行状态进行实时监控。本申请能够有效采集容器集群中的DPU指标,从而对DPU指标进行实时监控,进而提升DPU运行的稳定性。

Description

DPU运行状态监控方法及装置
技术领域
本申请涉及DPU资源监控领域,尤其涉及一种DPU运行状态监控方法及装置。
背景技术
在容器编排平台中,广泛使用监控平台收集集群及其应用程序的指标数据,包括性能、状态和行为,并提供有关应用程序运行状况的实时数据。监控平台可以从多种来源收集指标数据,包括应用程序内部指标、操作系统指标、服务指标等。并且监控平台对于集群内的服务可以通过动态服务发现自动,不需要手动配置静态的服务地址。对于引入DPU作为硬件卸载技术的容器集群,能够将数据处理任务从CPU转移到专门的DPU硬件加速器。从而将数据处理任务从CPU中解放出来,从而提高系统性能和效率。并且再DPU云原生解决方案中,引入了用户空间网络协议栈优化网络堆栈,提供更高效、可定制和可扩展的安全的网络通信解决方案。
现有的容器集群中的监控指标并不含有DPU的指标,并且传统的指标采集器只能采集内核协议栈的网络指标,不包括用户协议栈,因此会导致DPU运行不稳定的问题。
发明内容
鉴于此,本申请实施例提供了一种DPU运行状态监控方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷。
本申请的第一个方面提供了一种DPU运行状态监控方法,该方法包括:
接收分别部署在容器集群中的各个容器节点上的DPU指标采集器采集各自所在的所述容器节点中包含的业务容器的网络资源统计数据;
以及,接收各个所述容器节点各自对应的DPU的片上系统中用户态协议栈的网络接口统计数据,其中,各个所述网络接口统计数据分别由各个所述DPU指标采集器调用各自所在的所述容器节点唯一对应的DPU中的片上系统指标采集器来获取;
将所述业务容器的网络资源统计数据和所述用户态协议栈的网络接口统计数据作为DPU指标对所述DPU的运行状态进行实时监控。
在本申请的一些实施例中,各个所述网络资源统计数据分别由各个所述DPU指标采集器调用各自对应的调用容器运行时接口以得到各自对应的所述业务容器的控制组信息,并基于所述控制组信息获取得到。
在本申请的一些实施例中,所述网络接口统计数据由所述DPU指标采集器从容器管理平台获取该DPU指标采集器对应的所述业务容器的容器ID和DPU网口标识,基于所述容器ID调用对应的DPU中的片上系统指标采集器,以使该片上系统指标采集器基于所述DPU网口标识查询对应的所述用户态协议栈的网口标识并调用该用户态协议栈的接口,并基于该网口标识和接口获取得到。
在本申请的一些实施例中,还包括:
在所述业务容器上的各个DPU服务应用上添加服务发现标签,采用指标导出器基于所述服务发现标签采集预设指标;
接收所述指标导出器采集的所述预设指标。
在本申请的一些实施例中,还包括:
采用所述片上系统指标采集器采集所述片上系统中的各个DPU服务应用的网络指标,并将所述网络指标传输至该片上系统指标采集器对应的所述DPU指标采集器;
接收各个所述DPU指标采集器分别采集的所述网络指标。
在本申请的一些实施例中,还包括:
获取所述DPU指标的实时状态;其中,所述实时状态由所述DPU指标采集器基于所述DPU对应的配置面板的查询公式得到。
在本申请的一些实施例中,还包括:
基于所述实时状态及告警软件配置告警策略,和/或,基于所述实时状态构建数据监控仪表盘。
本申请的第二个方面提供了一种DPU运行状态监控装置,该装置包括:
指标采集模块,用于接收分别部署在容器集群中的各个容器节点上的DPU指标采集器采集各自所在的所述容器节点中包含的业务容器的网络资源统计数据;以及,接收各个所述容器节点各自对应的DPU的片上系统中用户态协议栈的网络接口统计数据,其中,各个所述网络接口统计数据分别由各个所述DPU指标采集器调用各自所在的所述容器节点唯一对应的DPU中的片上系统指标采集器来获取;
监控模块,用于将所述业务容器的网络资源统计数据和所述用户态协议栈的网络接口统计数据作为DPU指标对所述DPU的运行状态进行实时监控。
本申请的第三个方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述的第一方面所述的DPU运行状态监控方法。
本申请的第四个方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现前述的第一方面所述的DPU运行状态监控方法。
本申请提供一种DPU运行状态监控方法及装置,所述方法包括:接收分别部署在容器集群中的各个容器节点上的DPU指标采集器采集各自所在的容器节点中包含的业务容器的网络资源统计数据;以及,接收各个容器节点各自对应的DPU的片上系统中用户态协议栈的网络接口统计数据,其中,各个网络接口统计数据分别由各个DPU指标采集器调用各自所在的容器节点唯一对应的DPU中的片上系统指标采集器来获取;将所述业务容器的网络资源统计数据和用户态协议栈的网络接口统计数据作为DPU指标对DPU的运行状态进行实时监控。本申请能够有效采集容器集群中的DPU指标,从而对DPU指标进行实时监控,进而提升DPU运行的稳定性。
本申请的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本申请的实践而获知。本申请的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本申请实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本申请能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,并不构成对本申请的限定。附图中的部件不是成比例绘制的,而只是为了示出本申请的原理。为了便于示出和描述本申请的一些部分,附图中对应部分可能被放大,即,相对于依据本申请实际制造的示例性装置中的其它部件可能变得更大。在附图中:
图1为本申请一实施例中的DPU运行状态监控方法的流程示意图。
图2为本申请另一实施例中的DPU运行状态监控装置的结构示意图。
图3为本申请另一实施例中的DPU运行状态监控的整体架构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本申请做进一步详细说明。在此,本申请的示意性实施方式及其说明用于解释本申请,但并不作为对本申请的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本申请,在附图中仅仅示出了与根据本申请的方案密切相关的结构和/或处理步骤,而省略了与本申请关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
在下文中,将参考附图描述本申请的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
具体通过下述实施例进行详细说明。
本申请实施例提供一种可以由DPU运行状态监控装置或监控平台执行的DPU运行状态监控方法,参见图1,所述的DPU运行状态监控方法具体包含有如下内容:
步骤110:接收分别部署在容器集群中的各个容器节点上的DPU指标采集器采集各自所在的所述容器节点中包含的业务容器的网络资源统计数据;以及,接收各个所述容器节点各自对应的DPU的片上系统中用户态协议栈的网络接口统计数据,其中,各个所述网络接口统计数据分别由各个所述DPU指标采集器调用各自所在的所述容器节点唯一对应的DPU中的片上系统指标采集器来获取。
步骤120:将所述业务容器的网络资源统计数据和所述用户态协议栈的网络接口统计数据作为DPU指标对所述DPU的运行状态进行实时监控。
具体来说,参见图3,监控平台接收分别部署在容器集群中的各个容器节点上的DPU指标采集器(即图3中的目标1或目标2对应的host节点中的DPU指标收集器)采集各自所在的容器节点中包含的业务容器的网络资源统计数据;以及,接收各个容器节点各自对应的DPU的片上系统中用户态协议栈的网络接口统计数据。最后将所述业务容器的网络资源统计数据和所述用户态协议栈的网络接口统计数据作为DPU指标对DPU的运行状态进行实时监控,从而能够有效采集容器集群中的DPU指标,从而对DPU指标进行实时监控,进而提升DPU运行的稳定性。
其中,各个网络接口统计数据分别由各个DPU指标采集器调用各自所在的容器节点唯一对应的DPU中的片上系统指标采集器(即图3中的SOC指标收集器)来获取。网络资源统计数据和网络接口统计数据包括:CPU使用率、内存使用率、磁盘使用率、网络流量和网络接口等。
需要说明的是,监控平台对容器集群中的各个容器节点上的DPU指标采集器都配置相应的监控标签,因此监控平台可自动发现每一个DPU指标采集器实例endpoint。
另外,图3中的VF表示:virtual function,在网络适配器上的一种pcie虚拟功能;VFrepresentor表示:virtual function representor与VF成对的接口;NP表示:Nnetworkprocessor,DPU上的网络数据包处理模块;TOE表示:TCP offload engine,tcp/ip协议栈DPU硬件卸载的模块;DOE表示:database offload engine,用于数据库DPU硬件卸载的模块。
为了保证DPU指标采集的完整性,步骤110中各个所述网络资源统计数据分别由各个所述DPU指标采集器调用各自对应的调用容器运行时接口以得到各自对应的所述业务容器的控制组信息,并基于所述控制组信息获取得到。
具体来说,参见图3,监控平台发布DPU指标采集任务至DPU指标采集器,以使DPU指标采集器调用容器运行时接口(Container Runtime Interface)查询对应的业务容器的控制组信息(即图3中的监测容器查询Cgroup),然后基于控制组信息得到网络资源统计数据,从而能够有效保证DPU指标采集的完整性。
其中,控制组信息包括:systemd、memory、blkio、hugetlb、net_cls、net_prio、pids、cpu,cpuacct、devices、cpuset和perf_events等多个路径信息。
为了进一步保证DPU指标采集的完整性,步骤110中的所述网络接口统计数据由所述DPU指标采集器从容器管理平台获取该DPU指标采集器对应的所述业务容器的容器ID和DPU网口标识,基于所述容器ID调用对应的DPU中的片上系统指标采集器,以使该片上系统指标采集器基于所述DPU网口标识查询对应的所述用户态协议栈的网口标识并调用该用户态协议栈的接口,并基于该网口标识和接口获取得到。
具体来说,参见图3,监控平台发布DPU指标采集任务至DPU指标采集器,以使DPU指标采集器从容器管理平台获取该DPU指标采集器对应的业务容器的容器ID和DPU网口标识(即图3中的监测容器查询容器ID和接口名),并基于容器ID调用对应的DPU中的片上系统指标采集器,以使该片上系统指标采集器基于DPU网口标识查询对应的所述用户态协议栈的网口标识并调用该用户态协议栈的API接口,并基于该网口标识和接口得到网络接口统计数据,从而能够进一步保证DPU指标采集的完整性。
其中,DPU指标采集任务包括指标采集内容和采集频率等。
为了提升DPU指标监控的全面性,所述的DPU运行状态监控方法还包括:
在所述业务容器上的各个DPU服务应用上添加服务发现标签,采用指标导出器基于所述服务发现标签采集预设指标;
接收所述指标导出器采集的所述预设指标。
具体来说,监控平台首先在业务容器上的各个DPU服务应用(即图3中的DPU服务应用)上添加服务发现标签,然后采用指标导出器基于服务发现标签采集预设指标;最后接收指标导出器采集的所述预设指标,从而能够有效提升DPU指标监控的全面性。
其中,DPU指标采集任务包括指标采集内容和采集频率等;服务发现标签表示在DPU服务应用上添加监控平台的标签,从而实现对指标采集对象的自动发现;指标导出器是一个用于从一个系统或应用程序中收集度量指标数据,并将其导出到外部系统或工具进行监控和分析的组件或工具。DPU服务应用在容器节点上采用容器化的部署方式;DPU服务应用例如:CNI和DevicePlugin;预设指标包括:Counter(计数器):Counter是一个累加的指标,它表示一个递增的计数器。它可以递增,但不会减少或重置。常见的用例包括请求计数、错误计数等。Gauge(仪表盘):Gauge表示一个可以任意增减的测量值。它适用于表示可变的度量指标,如当前连接数、内存使用量等。Histogram(直方图):Histogram用于测量和统计观测值的分布情况。它将观测值划分为不同的桶(buckets),并计算在每个桶内的观测值数量。通常用于测量请求响应时间、请求大小等分布情况。Summary(摘要):Summary也用于测量和统计观测值的分布情况,类似于Histogram,但它通过保留样本的移动时间窗口来计算分位数。Summary适用于需要计算百分位数的指标,如请求延迟的P50、P90等。具体的指标内容可根据业务需求进行自定义。
为了进一步提升DPU指标监控的全面性,所述的DPU运行状态监控方法还包括:
采用所述片上系统指标采集器采集所述片上系统中的各个DPU服务应用的网络指标,并将所述网络指标传输至该片上系统指标采集器对应的所述DPU指标采集器;
接收各个所述DPU指标采集器分别采集的所述网络指标。
具体来说,监控平台首先采用片上系统指标采集器通过片上系统中的cgrouppath路径获得各个DPU服务应用的网络指标,并将网络指标传输至该片上系统指标采集器对应的DPU指标采集器;然后接收各个DPU指标采集器分别采集的网络指标,从而能够进一步提升DPU指标监控的全面性。
其中,网络指标包括:CPU使用率、内存使用率、磁盘使用率、网络流量和网络接口等。cgroup path路径包括:systemd、memory、blkio、hugetlb、net_cls、net_prio、pids、cpu,cpuacct、devices、cpuset和perf_events等。
为了获取DPU指标的实时状态,所述的DPU运行状态监控方法还包括:
获取所述DPU指标的实时状态;其中,所述实时状态由所述DPU指标采集器基于所述DPU对应的配置面板的查询公式得到。
具体来说,监控平台采用DPU指标采集器基于DPU对应的配置面板的查询公式得到DPU指标的实时状态,从而能够获取DPU指标的实时状态。
为了保证DPU运行的稳定性,所述的DPU运行状态监控方法还包括:
基于所述实时状态及告警软件配置告警策略,和/或,基于所述实时状态构建数据监控仪表盘。
具体来说,监控平台根据获取到的DPU指标的实时状态结合相应的告警软件以配置告警策略,并且同时可以根据实时状态构建相应的数据监控仪表盘,从而能够有效保证DPU运行的稳定性。
另外,参见图3,运维管理人员可通过仪表盘或告警平台对DPU指标进行查询。
从软件层面来说,本申请还提供一种用于执行所述的DPU运行状态监控方法中全部或部分内的DPU运行状态监控装置,参见图2,所述的DPU运行状态监控装置具体包含有如下内容:
指标采集模块10,用于接收分别部署在容器集群中的各个容器节点上的DPU指标采集器采集各自所在的所述容器节点中包含的业务容器的网络资源统计数据;以及,接收各个所述容器节点各自对应的DPU的片上系统中用户态协议栈的网络接口统计数据,其中,各个所述网络接口统计数据分别由各个所述DPU指标采集器调用各自所在的所述容器节点唯一对应的DPU中的片上系统指标采集器来获取。
监控模块20,用于将所述业务容器的网络资源统计数据和所述用户态协议栈的网络接口统计数据作为DPU指标对所述DPU的运行状态进行实时监控。
本申请提供的DPU运行状态监控装置的实施例具体可以用于执行上述实施例中的DPU运行状态监控方法的实施例的处理流程,其功能在此不再赘述,可以参照上述的DPU运行状态监控方法实施例的详细描述。
本申请提供一种DPU运行状态监控装置,该装置执行的方法包括:接收分别部署在容器集群中的各个容器节点上的DPU指标采集器采集各自所在的容器节点中包含的业务容器的网络资源统计数据;以及,接收各个容器节点各自对应的DPU的片上系统中用户态协议栈的网络接口统计数据,其中,各个网络接口统计数据分别由各个DPU指标采集器调用各自所在的容器节点唯一对应的DPU中的片上系统指标采集器来获取;将所述业务容器的网络资源统计数据和用户态协议栈的网络接口统计数据作为DPU指标对DPU的运行状态进行实时监控。本申请能够有效采集容器集群中的DPU指标,从而对DPU指标进行实时监控,进而提升DPU运行的稳定性。本申请实施例还提供了一种电子设备,例如中心服务器,该电子设备可以包括处理器、存储器、接收器及发送器,处理器用于执行上述实施例提及的DPU运行状态监控方法,其中处理器和存储器可以通过总线或者其他方式连接,以通过总线连接为例。该接收器可通过有线或无线方式与处理器、存储器连接。
处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的DPU运行状态监控方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的DPU运行状态监控方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器中,当被所述处理器执行时,执行实施例中的DPU运行状态监控方法。
在本申请的一些实施例中,用户设备可以包括处理器、存储器和收发单元,该收发单元可包括接收器和发送器,处理器、存储器、接收器和发送器可通过总线系统连接,存储器用于存储计算机指令,处理器用于执行存储器中存储的计算机指令,以控制收发单元收发信号。
作为一种实现方式,本申请中接收器和发送器的功能可以考虑通过收发电路或者收发的专用芯片来实现,处理器可以考虑通过专用处理芯片、处理电路或通用芯片实现。
作为另一种实现方式,可以考虑使用通用计算机的方式来实现本申请实施例提供的服务器。即将实现处理器,接收器和发送器功能的程序代码存储在存储器中,通用处理器通过执行存储器中的代码来实现处理器,接收器和发送器的功能。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述的DPU运行状态监控方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本申请中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请实施例可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种DPU运行状态监控方法,其特征在于,包括:
接收分别部署在容器集群中的各个容器节点上的DPU指标采集器采集各自所在的所述容器节点中包含的业务容器的网络资源统计数据;
以及,接收各个所述容器节点各自对应的DPU的片上系统中用户态协议栈的网络接口统计数据,其中,各个所述网络接口统计数据分别由各个所述DPU指标采集器调用各自所在的所述容器节点唯一对应的DPU中的片上系统指标采集器来获取;
将所述业务容器的网络资源统计数据和所述用户态协议栈的网络接口统计数据作为DPU指标对所述DPU的运行状态进行实时监控。
2.根据权利要求1所述的DPU运行状态监控方法,其特征在于,各个所述网络资源统计数据分别由各个所述DPU指标采集器调用各自对应的调用容器运行时接口以得到各自对应的所述业务容器的控制组信息,并基于所述控制组信息获取得到。
3.根据权利要求1所述的DPU运行状态监控方法,其特征在于,所述网络接口统计数据由所述DPU指标采集器从容器管理平台获取该DPU指标采集器对应的所述业务容器的容器ID和DPU网口标识,基于所述容器ID调用对应的DPU中的片上系统指标采集器,以使该片上系统指标采集器基于所述DPU网口标识查询对应的所述用户态协议栈的网口标识并调用该用户态协议栈的接口,并基于该网口标识和接口获取得到。
4.根据权利要求1所述的DPU运行状态监控方法,其特征在于,还包括:
在所述业务容器上的各个DPU服务应用上添加服务发现标签,采用指标导出器基于所述服务发现标签采集预设指标;
接收所述指标导出器采集的所述预设指标。
5.根据权利要求1所述的DPU运行状态监控方法,其特征在于,还包括:
采用所述片上系统指标采集器采集所述片上系统中的各个DPU服务应用的网络指标,并将所述网络指标传输至该片上系统指标采集器对应的所述DPU指标采集器;
接收各个所述DPU指标采集器分别采集的所述网络指标。
6.根据权利要求1所述的DPU运行状态监控方法,其特征在于,还包括:
获取所述DPU指标的实时状态;其中,所述实时状态由所述DPU指标采集器基于所述DPU对应的配置面板的查询公式得到。
7.根据权利要求6所述的DPU运行状态监控方法,其特征在于,还包括:
基于所述实时状态及告警软件配置告警策略,和/或,基于所述实时状态构建数据监控仪表盘。
8.一种DPU运行状态监控装置,其特征在于,包括:
指标采集模块,用于接收分别部署在容器集群中的各个容器节点上的DPU指标采集器采集各自所在的所述容器节点中包含的业务容器的网络资源统计数据;以及,接收各个所述容器节点各自对应的DPU的片上系统中用户态协议栈的网络接口统计数据,其中,各个所述网络接口统计数据分别由各个所述DPU指标采集器调用各自所在的所述容器节点唯一对应的DPU中的片上系统指标采集器来获取;
监控模块,用于将所述业务容器的网络资源统计数据和所述用户态协议栈的网络接口统计数据作为DPU指标对所述DPU的运行状态进行实时监控。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的DPU运行状态监控方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述的DPU运行状态监控方法。
CN202310989086.4A 2023-08-08 2023-08-08 Dpu运行状态监控方法及装置 Active CN116932332B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310989086.4A CN116932332B (zh) 2023-08-08 2023-08-08 Dpu运行状态监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310989086.4A CN116932332B (zh) 2023-08-08 2023-08-08 Dpu运行状态监控方法及装置

Publications (2)

Publication Number Publication Date
CN116932332A true CN116932332A (zh) 2023-10-24
CN116932332B CN116932332B (zh) 2024-04-19

Family

ID=88387857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310989086.4A Active CN116932332B (zh) 2023-08-08 2023-08-08 Dpu运行状态监控方法及装置

Country Status (1)

Country Link
CN (1) CN116932332B (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572401A (zh) * 2015-02-09 2015-04-29 浪潮软件股份有限公司 一种告警方法及告警系统
CN107566790A (zh) * 2017-08-24 2018-01-09 公安部第三研究所 结合射频识别技术和视频监控技术的实时监控装置及方法
US20190034281A1 (en) * 2017-07-27 2019-01-31 Western Digital Technologies, Inc. Methods, systems and devices for restarting data processing units
CN112437145A (zh) * 2020-11-18 2021-03-02 北京浪潮数据技术有限公司 一种服务器集群管理方法、装置及相关组件
CN112532480A (zh) * 2020-11-24 2021-03-19 华能山东发电有限公司八角发电厂 一种故障报警方法、装置及系统
CN112650590A (zh) * 2020-12-29 2021-04-13 北京奇艺世纪科技有限公司 任务的处理方法、装置及系统、分配方法和装置
US20220038554A1 (en) * 2020-08-21 2022-02-03 Arvind Merwaday Edge computing local breakout
CN114201317A (zh) * 2021-12-16 2022-03-18 北京有竹居网络技术有限公司 数据传输方法、装置、存储介质及电子设备
US20230028430A1 (en) * 2021-07-26 2023-01-26 Dell Products L.P. Systems and methods for operating data processing units
CN115767309A (zh) * 2022-09-21 2023-03-07 武汉船用机械有限责任公司 化学品船的智能管理系统、方法及设备
CN115955608A (zh) * 2022-10-31 2023-04-11 宁波峰梅视讯电子有限公司 一种电子外后视镜的系统、控制方法及升级方法
CN116049085A (zh) * 2022-09-30 2023-05-02 超聚变数字技术有限公司 一种数据处理系统及方法
CN116048538A (zh) * 2023-01-13 2023-05-02 中科驭数(北京)科技有限公司 用于dpu的服务网格部署方法及装置
CN116132287A (zh) * 2022-12-28 2023-05-16 上海交通大学 基于dpu的高性能网络加速方法及系统
CN116319303A (zh) * 2023-02-22 2023-06-23 中科驭数(北京)科技有限公司 基于dpu跨卡链路聚合的网卡虚拟化方法
CN116360865A (zh) * 2021-12-27 2023-06-30 华为技术有限公司 集群管理方法、设备及计算系统
US20230244591A1 (en) * 2022-02-01 2023-08-03 Vmware, Inc. Monitoring status of network management agents in container cluster

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572401A (zh) * 2015-02-09 2015-04-29 浪潮软件股份有限公司 一种告警方法及告警系统
US20190034281A1 (en) * 2017-07-27 2019-01-31 Western Digital Technologies, Inc. Methods, systems and devices for restarting data processing units
CN107566790A (zh) * 2017-08-24 2018-01-09 公安部第三研究所 结合射频识别技术和视频监控技术的实时监控装置及方法
US20220038554A1 (en) * 2020-08-21 2022-02-03 Arvind Merwaday Edge computing local breakout
CN112437145A (zh) * 2020-11-18 2021-03-02 北京浪潮数据技术有限公司 一种服务器集群管理方法、装置及相关组件
CN112532480A (zh) * 2020-11-24 2021-03-19 华能山东发电有限公司八角发电厂 一种故障报警方法、装置及系统
CN112650590A (zh) * 2020-12-29 2021-04-13 北京奇艺世纪科技有限公司 任务的处理方法、装置及系统、分配方法和装置
US20230028430A1 (en) * 2021-07-26 2023-01-26 Dell Products L.P. Systems and methods for operating data processing units
CN114201317A (zh) * 2021-12-16 2022-03-18 北京有竹居网络技术有限公司 数据传输方法、装置、存储介质及电子设备
CN116360865A (zh) * 2021-12-27 2023-06-30 华为技术有限公司 集群管理方法、设备及计算系统
US20230244591A1 (en) * 2022-02-01 2023-08-03 Vmware, Inc. Monitoring status of network management agents in container cluster
CN115767309A (zh) * 2022-09-21 2023-03-07 武汉船用机械有限责任公司 化学品船的智能管理系统、方法及设备
CN116049085A (zh) * 2022-09-30 2023-05-02 超聚变数字技术有限公司 一种数据处理系统及方法
CN115955608A (zh) * 2022-10-31 2023-04-11 宁波峰梅视讯电子有限公司 一种电子外后视镜的系统、控制方法及升级方法
CN116132287A (zh) * 2022-12-28 2023-05-16 上海交通大学 基于dpu的高性能网络加速方法及系统
CN116048538A (zh) * 2023-01-13 2023-05-02 中科驭数(北京)科技有限公司 用于dpu的服务网格部署方法及装置
CN116319303A (zh) * 2023-02-22 2023-06-23 中科驭数(北京)科技有限公司 基于dpu跨卡链路聚合的网卡虚拟化方法

Also Published As

Publication number Publication date
CN116932332B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
CN107800554B (zh) 数据采集方法、装置和系统
CN103220173B (zh) 一种报警监控方法及监控系统
CN107404417A (zh) 一种监控数据的处理方法、处理装置及处理系统
US20180074933A1 (en) Management of log data in electronic systems
CN111625419A (zh) 一种日志采集方法、系统、设备及计算机可读存储介质
CN114116172A (zh) 一种流量数据采集方法、装置、设备及存储介质
CN112152874A (zh) 分布式系统中应用监控数据的采集与分析系统及方法
CN111585815A (zh) 一种端口数据采集方法及装置
CN114710499A (zh) 基于算力路由的边缘计算网关负载均衡方法、装置及介质
CN116932332B (zh) Dpu运行状态监控方法及装置
CN117176802B (zh) 一种业务请求的全链路监控方法、装置、电子设备及介质
CN114070755B (zh) 虚拟机网络流量确定方法、装置、电子设备和存储介质
CN117370053A (zh) 一种面向信息系统业务运行全景监测方法及系统
CN116708217A (zh) 一种数据中心设备监控方法、系统、电子设备及存储介质
CN113238911B (zh) 告警处理方法及装置
CN114116128B (zh) 容器实例的故障诊断方法、装置、设备和存储介质
CN111162929B (zh) 一种分级管理方法和系统
CN113965512A (zh) 一种面向mpls vpn客户的网络质量测量方法及电子设备
CN111813621A (zh) 基于Flume数据中台的数据处理方法、装置、设备及介质
CN114697319B (zh) 一种公有云的租户业务管理方法及装置
CN112187543A (zh) 一种云平台事件监控系统、方法及电子设备
CN113630368A (zh) 自动云联仪表的通信方法、系统、终端以及介质
CN114398299B (zh) 一种四核协同测控处理器的数据处理方法及处理器
EP4336883A1 (en) Modeling method, network element data processing method and apparatus, electronic device, and medium
CN111522642B (zh) 风电机组状态监测数据的获取方法、查询方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant