CN115037651B - 一种rdma带宽传输测试方法、系统及存储介质 - Google Patents

一种rdma带宽传输测试方法、系统及存储介质 Download PDF

Info

Publication number
CN115037651B
CN115037651B CN202210731134.5A CN202210731134A CN115037651B CN 115037651 B CN115037651 B CN 115037651B CN 202210731134 A CN202210731134 A CN 202210731134A CN 115037651 B CN115037651 B CN 115037651B
Authority
CN
China
Prior art keywords
test
data
node
equipment
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210731134.5A
Other languages
English (en)
Other versions
CN115037651A (zh
Inventor
徐伟超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210731134.5A priority Critical patent/CN115037651B/zh
Publication of CN115037651A publication Critical patent/CN115037651A/zh
Application granted granted Critical
Publication of CN115037651B publication Critical patent/CN115037651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种RDMA带宽传输测试方法、系统及存储介质,涉及网络技术领域,包括:配置节点内的物理设备,识别节点内所述物理设备的硬件拓扑架构;根据所述硬件拓扑架构类别调用对应的测试规则进行RDMA传输测试,生成测试数据集;计算所述测试数据集中的数据与预设阈值数据的差值;判断所述测试数据集中的数据与预设阈值数据的差值是否超过预设范围,并生成测试结果。本申请通过对硬件拓扑进行相应的测试,从而判断出系统的拓扑结构的分布以及薄弱环节,同时对于多服务器搭建多节点的应用场景也能够进行测试,由此实现对服务器完整硬件拓扑链路的RDMA传输性能以及稳定性的评估。

Description

一种RDMA带宽传输测试方法、系统及存储介质
技术领域
本申请涉及网络技术领域,具体涉及一种RDMA带宽传输测试方法、系统及存储介质。
背景技术
RDMA技术,即Remote Direct MemoryAccess-技术全程直接数据存取,就就是为了解决网络传输中服务器端数据处理的延迟而产生的,RDMA通过网络把资料直接传入计算机的存储区,将数据从一个系统快速移动到远程系统存储器中,而不对操作系统造成任何影响,这样就不需要用到多少计算机的处理功能,从而消除了外部存储器复制和上下文切换的开销,因为能解放内存带宽和CPU周期用于改进应用系统性能。
目前,服务器多节点运算,单台服务器单台的数据在组网内传输对于服务器整机网卡的带宽流量的需求与日俱增,RDMA技术在实际应用中的越来越广泛,尤其是针对多任务并发和多后台同时访问时对整机服务器的网络带宽的稳定性要求较高,相比较传统的TCP、IP通信,RDMA通信提供了更高的带宽利用率,允许一个应用程序通过RDMA设备对远程的虚拟内存进行直接的读写。现有的技术方案中,服务器现有的PCIE(peripheralcomponent interconnect express)链路设计在CPU的PCIE链路数量限定的情况下想要支持更多的CPU设备以及PCIE设备的情况下需要在硬件上加入交换芯片以及相应的瑞泰姆芯片来扩展PCIE链路的数量和保证PCIE信号的稳定性,以上形成的硬件拓扑应用了目前集群应用中可以实现的InfiniBand天然地支持RDMA的互联网技术以及基于以太网的RDMA技术,相应的服务器硬件CPU、PCIE外插设备以及GPU设备在整个系统的通信过程中需要保证带宽性能和功能的稳定性,现有的对于带宽的测试方法以及测试系统通常是针对服务器单机、单个模块进行独立的RDMA传输的测试,无法覆盖单机多模块并发任务以及服务器集群应用情况。
发明内容
为了解决上述背景技术中提到的至少一个问题,本申请提供了一种RDMA带宽传输测试方法、系统及存储介质,通过对硬件拓扑进行相应的测试,从而判断出系统的拓扑结构的分布以及薄弱环节,同时对于多服务器搭建多节点的应用场景也能够进行测试,由此实现对服务器完整硬件拓扑链路的RDMA传输性能以及稳定性的评估。
本申请实施例提供的具体技术方案如下:
第一方面,提供一种RDMA带宽传输测试方法,所述方法包括:
识别节点内物理设备的硬件拓扑架构;
根据所述硬件拓扑架构类别调用对应的测试规则进行RDMA传输测试,生成测试数据集;
计算所述测试数据集中的数据与预设阈值数据的差值;
判断所述测试数据集中的数据与预设阈值数据的差值是否超过预设范围,并生成测试结果。
进一步的,在识别节点内物理设备的硬件拓扑架构,之前包括:
配置节点内的所述物理设备。
进一步的,所述配置节点内的物理设备,具体包括:
组建单节点集群网络,将PCIE外插网络设备进行点对点连接;
物理设备组建完成后,设置网络地址。
进一步的,所述识别节点内物理设备的硬件拓扑架构,具体包括:
获取节点内的所述物理设备的设备信息,得到树形结构;
将所述设备信息进行逻辑换算,形成设备单元清单;
结合所述树形结构和所述设备单元清单,生成所述硬件拓扑架构。
进一步的,获取节点内的所述物理设备的设备信息,得到树形结构,具体包括:
根据所述物理设备的设备信息,识别所述物理设备的标识符以及树结构信息;
识别完成后,结合所述标识符和所述树结构信息形成所述树形结构。
进一步的,识别节点内所述物理设备的硬件拓扑架构,之后包括:
判断所述硬件拓扑架的中间连接是否存在延时芯片,生成判断结果;
将所述判断结果添加到所述测试结果中。
进一步的,所述测试规则,至少包括:
单节点GPU与CPU传输采用无限带宽数据互连传输测试;
GPU与PCIE外插设备采用远端内存直接高速访问带宽数据互连传输测试;
集群多节点或多集群采用多节点聚合通信互连传输测试。
进一步的,判断所述测试数据集中的数据与预设阈值数据的差值是否超过预设范围,并生成测试结果,具体包括:
计算所述测试数据集中的数据与预设阈值数据的差值;
若所述测试数据集中的数据与预设阈值数据的差值超过预设范围,则生成测试结果为异常,并发出异常告警;
若所述测试数据集中的数据与预设阈值数据的差值未超过预设范围,则生成测试结果为正常。
进一步的,所述方法还包括:
通过终端显示单元显示所述测试数据集中硬件拓扑结构中每个子结构分别对应的数据。
第二方面,一种RDMA带宽传输测试系统,所述系统包括:
识别模块,所述识别模块用于识别节点内所述物理设备的硬件拓扑架构;
测试模块,所述测试模块用于根据所述硬件拓扑架构类别调用对应的测试规则进行RDMA传输测试,生成测试数据集;
计算模块,所述计算模块用于计算所述测试数据集中的数据与预设阈值数据的差值;
生成模块,所述生成模块用于判断所述测试数据集中的数据与预设阈值数据的差值是否超过预设范围,并生成测试结果。
第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
步骤A:识别节点内物理设备的硬件拓扑架构;
步骤B:根据所述硬件拓扑架构类别调用对应的测试规则进行RDMA传输测试,生成测试数据集;
步骤C:计算所述测试数据集中的数据与预设阈值数据的差值;
步骤D:判断所述测试数据集中的数据与预设阈值数据的差值是否超过预设范围,并生成测试结果。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
步骤A:识别节点内物理设备的硬件拓扑架构;
步骤B:根据所述硬件拓扑架构类别调用对应的测试规则进行RDMA传输测试,生成测试数据集;
步骤C:计算所述测试数据集中的数据与预设阈值数据的差值;
步骤D:判断所述测试数据集中的数据与预设阈值数据的差值是否超过预设范围,并生成测试结果。
本申请实施例具有如下有益效果:
1.本申请实施例通过配置节点内的物理设备,配置完成后,识别节点内物理设备的硬件拓扑架构,因为不同的硬件拓扑架构类型对应不同的测试规则,根据识别出来的硬件拓扑架构调用对应的测试规则进行RDMA传输测试,并生成传输数据的测试数据集,通过对数据集中的数据进行横向及纵向的对比分析,即计算测试数据中的数据与预设阈值数据的差值,然后判断二者的差值是否超出预设范围,从而查找出异常的点,并生成测试结果,通过对服务器PCIE链路点对点的连接方式,对服务器内部PCIE链路进行自动硬件拓扑架构识别,并对硬件拓扑架构进行对应的RDMA传输测试,通过测试结果呈现出系统的硬件拓扑架构的分布以及相对应的薄弱环节,从而判断出硬件设计的极限性能参数以及架构设计的缺陷位置;同时本申请的测试方法也适用于多节点以及多集群的应用场景,实现对服务器集群的业务承载能力的测试。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出根据本申请中的RDMA带宽传输测试方法的示意图;
图2示出根据本申请中的RDMA带宽传输测试系统的示意图;
图3示出根据本申请中的计算机设备的内部结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
Retimer设备:类似一个芯片,信号在经过retimer的时,通过内部的时钟重构信号,使其信号传输能量增加,然后再继续传输,即retimer是内部具有数据时钟恢复cdr(clock datarecovery)的芯片,实现数据的恢复之后再按照此串行通道把信号发送出去,retimer可以减轻信号的抖动。
Switch设备:交换机,前身是网桥,交换机是使用硬件来完成以网桥使用软件来完成过滤、学习和转发过程的任务,速度比HUB快,这是由于Switch中有一张转发表,如果知道目标地址在何处,就把数据发送到指定底线,如果它不知道就发送到所有的端口。
PCIE HCA设备:即主机通道适配器,主要是为了实现infiniband的高性能运算使用的,目的是提高集群中各计算节点之间的I/O带宽,该产品用于企业数据中心、高性能计算机和嵌入式环境等领域。
GPU设备:图形处理器,(graphics processing unit,GPU),又称为显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备上做图像和图形相关运算工作的微处理器。
实施例一
提供一种RDMA带宽传输测试方法,如图1所示,包括如下步骤:
步骤S1:配置节点内的物理设备。具体包括:组建单节点集群网络,将PCIE外插网络设备进行点对点连接;物理设备组建完成后,设置网络地址。
在一个具体的实施例中,配置节点内的物理设备包括配置单节点设备、配置集群多节点设备以及配置物理集群设备中的一种。具体的,配置整机服务器的PCIE链路,PCIE链路依据需求可搭配Retimer设备、Switch设备、GPU设备、PCIE网卡设备以及PCIE HCA设备。服务器通过交换机组建集群网络,将PCIE外插网络设备进行点对点连接,物理连接完成后对网络地址进行设置。
步骤S2:识别节点内物理设备的硬件拓扑架构。
物理环境搭建完成后,开始进行硬件拓扑架构的识别,得到硬件拓扑架构的类别。具体包括:获取节点内的所述物理设备的设备信息,得到树形结构;将所述设备信息进行逻辑换算,形成设备单元清单;结合所述树形结构和所述设备单元清单,生成所述硬件拓扑架构。其中,获取节点内的所述物理设备的设备信息,得到树形结构,具体包括:根据所述物理设备的设备信息,识别所述物理设备的标识符以及树结构信息;识别完成后,结合所述标识符和所述树结构信息形成所述树形结构。
首先通过PCIE设备信息采集单元进行信息采集,在单机操作系统下查看PCIE总线单元,依据整机上电枚举完成识别到的PCIE设备信息,识别系统下的PCIE设备bdf编号及pcie设备树结构信息,识别完成后依据终端设备及PCIE桥设备信息可以看到pci桥下的新开pci bus总线及下挂设备的树形结构,即获得物理设备的树形结构。然后通过PCIE设备信息计算单元依据信息采集单元收集到的pci bus总线信息进行逻辑换算关系集散数据解析并绘制总拓扑数图,形成pcie设备单元清单。最后,结合树形结构和设备单元清单,生成所述硬件拓扑架构。其中,单机系统下分别根据不同模块的设备类型及特性分别进行信息采集,具体的区分为计算模块、存储模块、图形处理模块、网络模块子系统,分别进行相对应子模块pcie设备子信息采集。
通过以上识别过程,能够识别出GPU、PCIE设备与CPU之间的连接拓扑关系,之后包括:根据硬件拓扑架构判断中间连接是否存在延时芯片,生成判断结果;将判断结果添加到所述测试结果中。具体的,判断设备的中间连接中是否存在retimer或者switch交换芯片,同时在识别完成后,通过VGA显示单元将硬件拓扑结构显示出来,对于工作人员来说形成一个较好的可视化效果,同时有利于后续进行RDMA带宽传输性能的测试。
在对硬件拓扑架构进行识别之后,即识别出GPU、PCIE外插设备与CPU之间的连接拓扑关系,同时判断中间连接是否存在retimer或者Switch交换芯片然后生成判断结果,因为交换芯片的存在会增加延时,影响网路带宽的响应速率,当测试结果出现异常时,工作人员可通过查询判断结果对影响带宽传输速率的因素进行判断。
步骤S3:根据所述硬件拓扑架构类别调用对应的测试规则进行RDMA传输测试,生成测试数据集。
根据硬件拓扑架构的类别,对应了不同的测试规则,具体的,单节点GPU与CPU传输采用infiniband bandwidth测试,GPU与PCIE外插设备进行GPU DIRECT RDMA传输测试、集群多节点之间进行nccl-test传输测试、多集群进行nccl-test传输测试。根据识别出来的硬件拓扑架构的类别,调用对应的测试规则进行硬件链路的传输速率的测试。其中,输出测试传输速率的测试结果的代码如下:
#export PATH=/usr/local/cuda-11.2/bin/:$PATH
#exportLD_LIBRARY_PATH=/usr/local/cuda-11.2/lib64:$LD_LIBRARY_PA TH
#export PATH=/home//ompi411/bin:$PATH
#export LD_LIBRARY_PATH=/home//ompi411/lib:$LD_LIBRARY_PATH
#export LD_LIBRARY_PATH=/home/
#/nccl_2.10.3-1+cuda11.2_x86_64/lib:$LD_LIBRARY_PATH
/ompi411/bin/mpirun--allow-run-as-root-bind-to none-np 2–H
test1:1,test2:1-x CUDA_VISIBLE_DEVICES=0,1-xLD_LIBRARY_PATH–x NCCL_IB_HCA=mlx5_0:1-x NCCL_DEBUG=INFO./build/all_reduce_perf-b 8-e128M-w 20-n1000-f2-g 2。
通过以上代码输出RDMA带宽传输的测试结果。
步骤S4:计算所述测试数据集中的数据与预设阈值数据的差值;
通过步骤S3输出测试数据集,此时通过终端的VGA单元显示出硬件拓扑架构中的每个拓扑子系统的数据传输情况以及对应的拓扑结构图,以使得工作人员能够更加清楚的查看物理设备的拓扑结构中的子系统的详细连接,同时有利于对数据集中的数据的分析。具体的,将测试数据集中的数据进行横向及纵向的对比分析,以此查询硬件拓扑架构中存在数据传输异常的点。具体包括:对识别出来的硬件拓扑架构进行实时监控,并实时获取测试数据集,通过云数据集自动进行数据传输结果的横向及纵向对比分析。数据库中存储有对应的硬件拓扑架构在状态较佳的时的数据传输结果,例如PCIE 3.0的原始数据传输贷款的速率为8.0GT/S,有效带宽为8Gbps,单个lane带宽为1GB/S,总带宽(X16)为32GB/S。将实时获取的测试数据集中的数据与PCIE传输的原始速率的类别以及不同类别的具体数据进行对比,例如测试数据集中的数据传输速率为4.0GT/S,有效带宽为4Gbps,单个lane带宽为0.5GB/S,总带宽(X16)为18GB/S,此时对应可视化的硬件拓扑架构,分析硬件拓扑架构中其他子系统的传输速率,具体可采用排除法,分别对比不同的子系统的传输速率,直到查询到传输速率较低的子系统,并将其异常结果显示出来。
步骤S5:判断所述测试数据集中的数据与预设阈值数据的差值是否超过预设范围,并生成测试结果。
具体包括:计算所述测试数据集中的数据与预设阈值数据的差值;若所述测试数据集中的数据与预设阈值数据的差值超过预设范围,则生成测试结果为异常,并发出异常告警;若所述测试数据集中的数据与预设阈值数据的差值未超过预设范围,则生成测试结果为正常。
获取数据库中的预设阈值数据,并通过步骤S3中的举例,例如PCIE 3.0的原始数据传输带宽的速率为8.0GT/S,有效带宽为8Gbps,单个lane带宽为1GB/S,总带宽(X16)为32GB/S;实时获得测试数据集中的数据为:数据传输速率为4.0GT/S,有效带宽为4Gbps,单个lane带宽为0.5GB/S,总带宽(X16)为18GB/S;计算二者的不同类别的差值,数据传输带宽的速率差值为“-4GT/S”;有效带宽差值为“-4Gbps”;单个lane带宽的差值为“-0.5GB/S”;总带宽(X16)的差值为“-14GB/S”。然后获取数据库中的对应的差值的预设范围,例如数据传输带宽的速率的预设差值范围为“±5”;有效带宽的预设差值范围为“±10”;单个lane带宽的预设差值范围为“±2”;总带宽(X16)的预设差值范围为“±10”。通过各项传输速率的对比结果可以发现,实际测试的总带宽的传输速率的范围超出了预设的总带宽的传输速率的数值,此时生成的测试结果为异常,并且发出异常告警,提醒工作人员进行排查维修。反之,若实时获得测试数据集中的数据为:数据传输速率为6.0GT/S,有效带宽为7Gbps,单个lane带宽为0.8GB/S,总带宽(X16)为30GB/S,此时实时获得测试数据的与预设的阈值之间的差值分别为,数据传输带宽的速率差值为“-2GT/S”;有效带宽差值为“-1Gbps”;单个lane带宽的差值为“-0.2GB/S”;总带宽(X16)的差值为“-2GB/S”,此时二者之间的差值落在预设的差值范围内,说明此时的网络传输是正常的,不发出告警信息,系统继续运行。
在一个具体的实施例中,当测试结果为异常时,此时工作人员对影响数据传输的因素进行排查,可再次查询硬件拓扑架构中的中间连接是否存在retimer或者Switch交换芯片因为交换芯片的存在会增加延时,影响网路带宽的响应速率,提高工作人员的排查效率。
实施例二
对应上述实施例,本申请提供了一种RDMA带宽传输测试系统,如图2所示,所述系统包括:
识别模块,识别模块用于识别节点内所述物理设备的硬件拓扑架构;
测试模块,测试模块用于根据所述硬件拓扑架构类别调用对应的测试规则进行RDMA传输测试,生成测试数据集;
计算模块,计算模块用于计算所述测试数据集中的数据与预设阈值数据的差值;
生成模块,生成模块用于判断所述测试数据集中的数据与预设阈值数据的差值是否超过预设范围,并生成测试结果。
在一个较佳的实施例中,所述系统还包括配置模块,配置模块用于配置节点内的所述物理设备,具体包括组建单节点集群网络,将PCIE外插网络设备进行点对点连接;物理设备组建完成后,设置网络地址。
在一个较佳的实施例中,识别模块还包括:获取节点内的所述物理设备的设备信息,得到树形结构;将所述设备信息进行逻辑换算,形成设备单元清单;结合所述树形结构和所述设备单元清单,生成所述硬件拓扑架构。
在一个较佳的实施例中,识别模块还具体包括根据所述物理设备的设备信息,识别所述物理设备的标识符以及树结构信息;识别完成后,结合所述标识符和所述树结构信息形成所述树形结构。
在一个较佳的实施例中,识别模块还包括根据所述硬件拓扑架构判断中间连接是否存在延时芯片,生成判断结果;将所述判断结果添加到所述测试结果中。
在一个较佳的实施例中,生成模块还包括计算所述测试数据集中的数据与预设阈值数据的差值;若所述测试数据集中的数据与预设阈值数据的差值超过预设范围,则生成测试结果为异常,并发出异常告警;若所述测试数据集中的数据与预设阈值数据的差值未超过预设范围,则生成测试结果为正常。
实施例三
提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
步骤101:识别节点内物理设备的硬件拓扑架构;
步骤102:根据所述硬件拓扑架构类别调用对应的测试规则进行RDMA传输测试,生成测试数据集;
步骤103:计算所述测试数据集中的数据与预设阈值数据的差值;
步骤104:判断所述测试数据集中的数据与预设阈值数据的差值是否超过预设范围,并生成测试结果;
步骤105:通过终端显示单元显示所述测试数据集中硬件拓扑结构中每个子结构分别对应的数据。
在一个较佳的实施例中,步骤101之前包括,配置节点内的所述物理设备,具体的,组建单节点集群网络,将PCIE外插网络设备进行点对点连接;物理设备组建完成后,设置网络地址。
在一个较佳的实施例中,步骤101具体包括:获取节点内的所述物理设备的设备信息,得到树形结构;将所述设备信息进行逻辑换算,形成设备单元清单;结合所述树形结构和所述设备单元清单,生成所述硬件拓扑架构;其中树形结构的获取还包括:根据所述物理设备的设备信息,识别所述物理设备的标识符以及树结构信息;识别完成后,结合所述标识符和所述树结构信息形成所述树形结构。
在一个较佳的实施例中,步骤101还包括根据所述硬件拓扑架构判断中间连接是否存在延时芯片,生成判断结果;将所述判断结果添加到所述测试结果中。
在一个较佳的实施例中,步骤104包括计算所述测试数据集中的数据与预设阈值数据的差值;若所述测试数据集中的数据与预设阈值数据的差值超过预设范围,则生成测试结果为异常,并发出异常告警;若所述测试数据集中的数据与预设阈值数据的差值未超过预设范围,则生成测试结果为正常。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设阈值数据以及预设范围数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种RDMA带宽传输测试方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
实施例四
在一个本实施例中,提供了一种种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
步骤201:配置节点内的物理设备;
步骤202:识别节点内所述物理设备的硬件拓扑架构;
步骤203:根据所述硬件拓扑架构类别调用对应的测试规则进行测试,生成测试数据集;
步骤204:计算所述测试数据集中的数据与预设阈值数据的差值;
步骤205:判断所述测试数据集中的数据与预设阈值数据的差值是否超过预设范围,并生成测试结果。
在一个较佳的实施例中,步骤201中的配置节点内的物理设备,具体包括:组建单节点集群网络,将PCIE外插网络设备进行点对点连接;物理设备组建完成后,设置网络地址。
在一个较佳的实施例中,步骤202包括获取节点内的所述物理设备的设备信息,得到树形结构;将所述设备信息进行逻辑换算,形成设备单元清单;结合所述树形结构和所述设备单元清单,生成所述硬件拓扑架构;
在一个较佳的实施例中,步骤202还包括根据所述硬件拓扑架构判断中间连接是否存在延时芯片,生成判断结果;将所述判断结果添加到所述测试结果中。
在一个较佳的实施例中,步骤205包括计算所述测试数据集中的数据与预设阈值数据的差值;若所述测试数据集中的数据与预设阈值数据的差值超过预设范围,则生成测试结果为异常,并发出异常告警;若所述测试数据集中的数据与预设阈值数据的差值未超过预设范围,则生成测试结果为正常。
在一个较佳的实施例中,计算机程序被处理器执行的步骤206:通过终端显示单元显示所述测试数据集中硬件拓扑结构中每个子结构分别对应的数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (6)

1.一种RDMA带宽传输测试方法,其特征在于,所述方法包括:
配置节点内的物理设备,并识别节点内物理设备的硬件拓扑架构;
其中,配置节点内的物理设备,具体包括:组建单节点集群网络,将PCIE外插设备进行点对点连接;物理设备组建完成后,设置网络地址;
其中,识别节点内物理设备的硬件拓扑架构,具体包括:获取节点内的物理设备的设备信息,得到树形结构;将所述设备信息进行逻辑换算,形成设备单元清单;结合所述树形结构和所述设备单元清单,生成所述硬件拓扑架构;
根据所述硬件拓扑架构类别调用对应的测试规则进行RDMA传输测试,生成测试数据集;
计算所述测试数据集中的数据与预设阈值数据的差值;
判断所述测试数据集中的数据与预设阈值数据的差值是否超过预设范围,并生成测试结果;
其中,所述测试规则至少包括:单节点GPU与CPU传输采用无限带宽数据互连传输测试;GPU与PCIE外插设备采用远端内存直接高速访问带宽数据互连传输测试;集群多节点或多集群采用多节点聚合通信互连传输测试。
2.根据权利要求1所述的RDMA带宽传输测试方法,其特征在于,获取节点内的所述物理设备的设备信息,得到树形结构,具体包括:
根据所述物理设备的设备信息,识别所述物理设备的标识符以及树结构信息;
识别完成后,结合所述标识符和所述树结构信息形成所述树形结构。
3.根据权利要求2所述的RDMA带宽传输测试方法,其特征在于,识别节点内物理设备的硬件拓扑架构,之后包括:
判断所述硬件拓扑架构的中间连接是否存在延时芯片,生成判断结果;
将所述判断结果添加到所述测试结果中。
4.根据权利要求3所述的RDMA带宽传输测试方法,其特征在于,判断所述测试数据集中的数据与预设阈值数据的差值是否超过预设范围,并生成测试结果,具体包括:
计算所述测试数据集中的数据与预设阈值数据的差值;
若所述测试数据集中的数据与预设阈值数据的差值超过预设范围,则生成测试结果为异常,并发出异常告警;
若所述测试数据集中的数据与预设阈值数据的差值未超过预设范围,则生成测试结果为正常。
5.一种RDMA带宽传输测试系统,其特征在于,所述系统包括:
识别模块,所述识别模块用于配置节点内的物理设备,并识别节点内物理设备的硬件拓扑架构;
还包括配置模块,所述配置模块用于配置节点内的所述物理设备,具体包括组建单节点集群网络,将PCIE外插网络设备进行点对点连接;物理设备组建完成后,设置网络地址;
具体的,识别模块用于获取节点内的物理设备的设备信息,得到树形结构;将所述设备信息进行逻辑换算,形成设备单元清单;结合所述树形结构和所述设备单元清单,生成所述硬件拓扑架构;
测试模块,所述测试模块用于根据所述硬件拓扑架构类别调用对应的测试规则进行RDMA传输测试,生成测试数据集;
具体的,测试规则至少包括单节点GPU与CPU传输采用无限带宽数据互连传输测试、GPU与PCIE外插设备采用远端内存直接高速访问带宽数据互连传输测试、集群多节点或多集群采用多节点聚合通信互连传输测试;
计算模块,所述计算模块用于计算所述测试数据集中的数据与预设阈值数据的差值;
生成模块,所述生成模块用于判断所述测试数据集中的数据与预设阈值数据的差值是否超过预设范围,并生成测试结果。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~4中任一项所述的方法的步骤。
CN202210731134.5A 2022-06-24 2022-06-24 一种rdma带宽传输测试方法、系统及存储介质 Active CN115037651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210731134.5A CN115037651B (zh) 2022-06-24 2022-06-24 一种rdma带宽传输测试方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210731134.5A CN115037651B (zh) 2022-06-24 2022-06-24 一种rdma带宽传输测试方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN115037651A CN115037651A (zh) 2022-09-09
CN115037651B true CN115037651B (zh) 2023-07-11

Family

ID=83126942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210731134.5A Active CN115037651B (zh) 2022-06-24 2022-06-24 一种rdma带宽传输测试方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN115037651B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115622929B (zh) * 2022-12-20 2023-03-07 珠海星云智联科技有限公司 远程直接数据存取rdma的测试方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110460491A (zh) * 2019-07-05 2019-11-15 锐捷网络股份有限公司 基于rdma的性能测试方法及装置
CN110891000A (zh) * 2019-11-07 2020-03-17 浪潮(北京)电子信息产业有限公司 一种gpu带宽性能的检测方法、系统及相关装置
CN111181801A (zh) * 2019-12-04 2020-05-19 腾讯云计算(北京)有限责任公司 节点集群测试方法、装置、电子设备及存储介质
CN112231157A (zh) * 2020-09-25 2021-01-15 苏州浪潮智能科技有限公司 一种基于硬件拓扑的ai服务器hca卡性能测试方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110460491A (zh) * 2019-07-05 2019-11-15 锐捷网络股份有限公司 基于rdma的性能测试方法及装置
CN110891000A (zh) * 2019-11-07 2020-03-17 浪潮(北京)电子信息产业有限公司 一种gpu带宽性能的检测方法、系统及相关装置
CN111181801A (zh) * 2019-12-04 2020-05-19 腾讯云计算(北京)有限责任公司 节点集群测试方法、装置、电子设备及存储介质
CN112231157A (zh) * 2020-09-25 2021-01-15 苏州浪潮智能科技有限公司 一种基于硬件拓扑的ai服务器hca卡性能测试方法及系统

Also Published As

Publication number Publication date
CN115037651A (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN106603265B (zh) 管理方法、网络装置以及非暂态计算机可读介质
DE102020132078A1 (de) Ressourcenzuteilung basierend auf anwendbarem service level agreement
CN111124277A (zh) 一种深度学习数据集缓存方法、系统、终端及存储介质
CN115037651B (zh) 一种rdma带宽传输测试方法、系统及存储介质
US20180052755A1 (en) System status visualization method and system status visualization device
US20210049042A1 (en) Electronic apparatus and method for controlling thereof
US9612934B2 (en) Network processor with distributed trace buffers
CN107070752B (zh) 一种长连接容量的测试方法及测试系统
CN105516292A (zh) 一种智能变电站云平台的热备方法
CN111181800B (zh) 测试数据处理方法、装置、电子设备及存储介质
CN111858284A (zh) 一种人工智能服务器的资源监控方法和装置
CN110401466B (zh) 一种基于高速信号切换芯片的数据传输方法、装置及介质
CN103713940A (zh) 一种基于rtx-hla-反射内存卡的可重构分布式实时仿真方法
DE112007003722B4 (de) Modifizieren von Systemroutinginformationen in linkbasierenden Systemen
US20220114132A1 (en) Data Switch Chip and Server
CN115550291A (zh) 交换机的复位系统及方法、存储介质、电子设备
CN107395456A (zh) 分布式文件系统流直存测试方法及平台
CN112306628B (zh) 一种基于多核服务器的虚拟网络功能资源管理系统
CN109067605A (zh) 一种存储子系统故障诊断方法、装置、终端及存储介质
CN109558369A (zh) 多cpu单串口的控制方法、装置、设备及系统
CN116306408B (zh) 片上系统soc的验证环境确定方法、装置、设备和存储介质
CN110191010B (zh) 服务器的压力测试方法
CN112866003A (zh) 一种区块链多链分层协同技术系统
CN107145414B (zh) 一种用于测试分布式对象存储的方法和系统
CN115168141A (zh) 光口管理系统、方法、装置、可编程逻辑器件及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant