CN108874726A - 一种gpu整机柜pcie链路互联系统及方法 - Google Patents

一种gpu整机柜pcie链路互联系统及方法 Download PDF

Info

Publication number
CN108874726A
CN108874726A CN201810516383.6A CN201810516383A CN108874726A CN 108874726 A CN108874726 A CN 108874726A CN 201810516383 A CN201810516383 A CN 201810516383A CN 108874726 A CN108874726 A CN 108874726A
Authority
CN
China
Prior art keywords
signal
gpu
board
signal adjustment
whole machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810516383.6A
Other languages
English (en)
Inventor
王玲燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810516383.6A priority Critical patent/CN108874726A/zh
Publication of CN108874726A publication Critical patent/CN108874726A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4004Coupling between buses
    • G06F13/4022Coupling between buses using switching circuits, e.g. switching matrix, connection or expansion network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2213/00Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F2213/0026PCI express

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Transfer Systems (AREA)

Abstract

本发明实施例公开了一种GPU整机柜PCIE链路互联系统及方法,互联系统包括计算节点、GPU集群节点和两者之间的PCIE连接总线,所述互联系统还包括信号调整板卡,所述信号调整板卡用于调整计算节点和GPU集群节点的互联信号质量。与现有技术相比,本发明将原有在GPU集群节点上的信号调整模块独立出来,设计独立的信号调整板卡,专门用于信号质量的调整,在更改计算节点时,不再对GPU集群节点进行调整。从而缩小影响面,方便产品调试,节省开发成本。

Description

一种GPU整机柜PCIE链路互联系统及方法
技术领域
本发明涉及GPU整机柜互联架构技术领域,具体地说是一种GPU整机柜PCIE链路互联系统及方法。
背景技术
目前AI(Artificial Insemination,人工智能)技术飞速发展,高运算性能的整机柜架构也出现了空前的研发高涨。而目前NVIDIA发布的高计算性能的GPU(GraphicProcessing Unit,图像处理器)卡,在计算性能上占据了领先的地位。将多个GPU卡进行并行连接组成一个GPU卡计算集群搭配计算服务器成了业界不断提高计算性能的计算系统。而整机柜以其高密度便捷性成为整个计算系统的部署方式。
GPU整机柜由计算节点和GPU集群节点共同组成,计算节点和GPU集群的连接总线是PCIE3.0(Peripheral Component Interconnect Express,一种高速串行总线标准)总线。GPU卡也同样采用PCIE3.0总线,因此这种直接的扩展连接成为部署GPU集群最有效的方式。
目前计算节点和GPU集群是两个独立的系统,其并不是板对板连接的,两个系统之间的交互是通过PCIE线缆来进行连接的,受开发设计限制,计算节点和GPU集群节点的组合是固定的,在更换计算节点时,GPU集群节点也要做相应的重新设计,需要重新开发调整驱动参数,板卡重新打板备货,不利于产品交付,产品设计开发不够灵活,浪费开发资源。
发明内容
本发明实施例中提供了一种GPU整机柜PCIE链路互联系统及方法,以解决现有技术中产品设计开发不够灵活,浪费开发资源的问题。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
本发明第一方面提供了一种GPU整机柜PCIE链路互联系统,包括计算节点、GPU集群节点和两者之间的PCIE连接总线,所述互联系统还包括信号调整板卡,所述信号调整板卡用于调整计算节点和GPU集群节点的互联信号质量。
结合第一方面,在第一方面第一种可能的实现方式中,所述计算节点和GPU集群节点均采用标准PCIEx16插槽进行互联信号的连接。
结合第一方面,在第一方面第二种可能的实现方式中,所述信号调整板卡包括连接计算节点的第一信号调整板卡和连接GPU集群节点的第二信号调整板卡,所述第一信号调整板卡和第二信号调整板卡通过PCIE总线连接。
结合第一方面,在第一方面第一或第二种可能的实现方式中,所述信号调整板卡包括驱动IC和高密口,通过调整驱动IC的参数,优化互联信号的传输质量,所述高密口用于第一信号调整板卡和第二信号调整板卡的连接。
结合第一方面,在第一方面或第二种可能的实现方式中,所述高密口包括4个连接器,每个连接器支持PCIEx4连接。
本发明第二方面提供了一种GPU整机柜PCIE链路互联方法,包括以下步骤:
在计算节点上和GPU集群节点上分别设置信号调整板卡;
两个信号调整板卡之间通过PCIE总线连接;
计算节点和GPU集群节点通过信号调整板卡和PCIE总线实现信号互联。
结合第二方面,在第二方面第一种可能的实现方式中,所述计算节点和GPU集群节点均采用标准PCIEx16插槽进行互联信号的连接。
结合第二方面,在第二方面第一种可能的实现方式中,所述信号调整板卡上设置高密口,两信号调整板卡通过所述高密口连接PCIE总线。
结合第二方面,在第二方面第一种可能的实现方式中,所述高密口包括4个连接器,每个连接器支持PCIEx4连接。
结合第二方面,在第二方面第二种可能的实现方式中,所述信号调整板卡包括驱动IC,通过调整驱动IC的参数,优化互联信号的传输质量。
本发明第一方面的所述互联系统能够实现第一方面及第一方面的各实现方式中的方法,并取得相同的效果。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
1、将原有在GPU集群节点上的信号调整模块独立出来,设计独立的信号调整板卡,专门用于信号质量的调整,从而将产品搭配影响的模块集中到一个小板卡上,在更改计算节点时,不再对GPU集群节点进行调整。从而缩小影响面,方便产品调试,节省开发成本。
2、将计算节点以及GPU集群节点的对外连接接口都设计为PCIEx16插槽的标准接口。这些标准接口可连接信号调整板卡,有利于模块统一化,增强产品的兼容性。
3、通过将计算节点和GPU集群节点的互联架构调整后,后续产品只需要设计相关功能,互联部分不需要单独设计,量产后可作为计算系统中的模块进行自由搭配,丰富了产品的形态。
4、信号调整板卡上设计高密口,通过高密口实现两信号调整板卡的互联,设计简单,使用方便,且有利于降低信号的传输损耗。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的系统结构示意图;
图2是本发明所述系统实施例的结构示意图;
图3是本发明所述高密口其一连接器的结构示意图;
图4是本发明互联方法的流程示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1所示,本发明的一种GPU整机柜PCIE链路互联系统,包括计算节点、GPU集群节点以及分别与两者连接的信号调整板卡,两信号调整板卡之间通过PCIE总线连接,信号调整板卡用于调整计算节点和GPU集群节点的互联信号质量。
如图2所示,计算节点以及GPU集群节点都采用标准PCIEx16插槽进行互联信号连接。信号调整板卡是一块PCIEx16标准接口的板卡,所有连接的PCIE3.0信号质量集中到这一款板卡上进行调试,不再对GPU集群节点进行重新调试开发,所有的设计变更只需要在这一个板卡上进行调试。在更改计算节点时,不再对GPU集群节点进行调整。从而缩小影响面,方便产品调试,节省开发成本。
信号调整板卡包括连接计算节点的第一信号调整板卡和连接GPU集群节点的第二信号调整板卡,第一信号调整板卡和第二信号调整板卡通过PCIE总线连接。
第一信号调整板卡和第二信号调整板卡之间的线缆为PCIEx16线缆,在信号调整板卡上设置高密口,采用高密口连接PCIEx16接口,实现信号调整板卡之间的互联。
高密口可使用FCI 10112628-101LF,包括4个连接器,每个连接器支持PCIEx4连接。如图3所示,1个连接器的接收端RX和发送端TX分别连接PCIEx16总线的其中4条lane,连接器的接地端(GND)均接地,其他三个连接器连接按照图3所示连接方式连接PCIEx16的其余12条lane。
信号调整板卡还包括驱动IC,驱动IC可采用TI的DS80PCI800SQE,8通道的PCIE3.0信号调整IC。信号调整小板卡尺寸为标准半高尺寸。
如图4所示,本发明的一种GPU整机柜PCIE链路互联方法,包括以下步骤:
S1,在计算节点上和GPU集群节点上分别设置信号调整板卡;
信号调整板卡为具有PCIEx16金手指接口的PCIE信号调整卡,采用TIDS80PCI800SQE作为驱动IC,对外连接口采用高密口连接,高密口可采用FCI10112628-101LF。
S2,两个信号调整板卡之间通过PCIE总线连接;
信号调整板卡通过其上的高密口实现PCIE连接,高密口包括4个连接器,每个连接器连接PCIEx16的4条lane。
S3,计算节点和GPU集群节点通过信号调整板卡和PCIE总线实现信号互联。
计算节点和GPU集群节点的PCIE互联信号同样接PCIEx16插槽,信号调整板卡对GPU集群节点的信号进行调整后输入到计算节点的CPU。
硬件互联后,调整信号调整板上驱动IC的参数,进行信号传输质量的优化,使整个计算系统稳定连接。
驱动IC的参数是一种信号补偿,分别对信号的幅值和振荡周期宽度进行调整,通过量测信号的眼图来找到最优参数,并进行设定。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视为本发明的保护范围。

Claims (10)

1.一种GPU整机柜PCIE链路互联系统,包括计算节点、GPU集群节点和两者之间的PCIE连接总线,其特征是:所述互联系统还包括信号调整板卡,所述信号调整板卡用于调整计算节点和GPU集群节点的互联信号质量。
2.根据权利要求1所述的一种GPU整机柜PCIE链路互联系统,其特征是:所述计算节点和GPU集群节点均采用标准PCIEx16插槽进行互联信号的连接。
3.根据权利要求1所述的一种GPU整机柜PCIE链路互联系统,其特征是:所述信号调整板卡包括连接计算节点的第一信号调整板卡和连接GPU集群节点的第二信号调整板卡,所述第一信号调整板卡和第二信号调整板卡通过PCIE总线连接。
4.根据权利要求1-3任一项所述的一种GPU整机柜PCIE链路互联系统,其特征是:所述信号调整板卡包括驱动IC和高密口,通过调整驱动IC的参数,优化互联信号的传输质量,所述高密口用于第一信号调整板卡和第二信号调整板卡的连接。
5.根据权利要求4所述的一种GPU整机柜PCIE链路互联系统,其特征是:所述高密口包括4个连接器,每个连接器支持PCIEx4连接。
6.一种GPU整机柜PCIE链路互联方法,其特征是:包括以下步骤:
在计算节点上和GPU集群节点上分别设置信号调整板卡;
两个信号调整板卡之间通过PCIE总线连接;
计算节点和GPU集群节点通过信号调整板卡和PCIE总线实现信号互联。
7.根据权利要求6所述的一种GPU整机柜PCIE链路互联方法,其特征是:所述计算节点和GPU集群节点均采用标准PCIEx16插槽进行互联信号的连接。
8.根据权利要求7所述的一种GPU整机柜PCIE链路互联方法,其特征是:所述信号调整板卡上设置高密口,两信号调整板卡通过所述高密口连接PCIE总线。
9.根据权利要求8所述的一种GPU整机柜PCIE链路互联方法,其特征是:所述高密口包括4个连接器,每个连接器支持PCIEx4连接。
10.根据权利要求6-9任一项所述的一种GPU整机柜PCIE链路互联方法,其特征是:所述信号调整板卡包括驱动IC,通过调整驱动IC的参数,优化互联信号的传输质量。
CN201810516383.6A 2018-05-25 2018-05-25 一种gpu整机柜pcie链路互联系统及方法 Pending CN108874726A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810516383.6A CN108874726A (zh) 2018-05-25 2018-05-25 一种gpu整机柜pcie链路互联系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810516383.6A CN108874726A (zh) 2018-05-25 2018-05-25 一种gpu整机柜pcie链路互联系统及方法

Publications (1)

Publication Number Publication Date
CN108874726A true CN108874726A (zh) 2018-11-23

Family

ID=64333714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810516383.6A Pending CN108874726A (zh) 2018-05-25 2018-05-25 一种gpu整机柜pcie链路互联系统及方法

Country Status (1)

Country Link
CN (1) CN108874726A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541804A (zh) * 2011-12-26 2012-07-04 中国人民解放军信息工程大学 一种异构系统中多gpu互连体系结构
US20140112131A1 (en) * 2011-06-17 2014-04-24 Hitachi, Ltd. Switch, computer system using same, and packet forwarding control method
US20140173303A1 (en) * 2012-12-19 2014-06-19 Huimin Chen Re-Driver Power Management
CN105808499A (zh) * 2016-04-01 2016-07-27 浪潮电子信息产业股份有限公司 一种cpu互联装置以及多路服务器cpu互联拓扑结构
US20170153998A1 (en) * 2015-11-27 2017-06-01 International Business Machines Corporation System, method, and recording medium for topology-aware parallel reduction in an accelerator
CN107102964A (zh) * 2017-05-19 2017-08-29 郑州云海信息技术有限公司 一种利用高速率连接器进行gpu集群拓展的方法
CN107239346A (zh) * 2017-06-09 2017-10-10 郑州云海信息技术有限公司 一种整机柜计算资源池节点及计算资源池化架构
CN107273602A (zh) * 2017-06-09 2017-10-20 郑州云海信息技术有限公司 一种提升pcie眼图裕量的仿真方法
CN107329774A (zh) * 2017-05-24 2017-11-07 华为技术有限公司 确定Redriver芯片参数的方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140112131A1 (en) * 2011-06-17 2014-04-24 Hitachi, Ltd. Switch, computer system using same, and packet forwarding control method
CN102541804A (zh) * 2011-12-26 2012-07-04 中国人民解放军信息工程大学 一种异构系统中多gpu互连体系结构
US20140173303A1 (en) * 2012-12-19 2014-06-19 Huimin Chen Re-Driver Power Management
US20170153998A1 (en) * 2015-11-27 2017-06-01 International Business Machines Corporation System, method, and recording medium for topology-aware parallel reduction in an accelerator
CN105808499A (zh) * 2016-04-01 2016-07-27 浪潮电子信息产业股份有限公司 一种cpu互联装置以及多路服务器cpu互联拓扑结构
CN107102964A (zh) * 2017-05-19 2017-08-29 郑州云海信息技术有限公司 一种利用高速率连接器进行gpu集群拓展的方法
CN107329774A (zh) * 2017-05-24 2017-11-07 华为技术有限公司 确定Redriver芯片参数的方法和装置
CN107239346A (zh) * 2017-06-09 2017-10-10 郑州云海信息技术有限公司 一种整机柜计算资源池节点及计算资源池化架构
CN107273602A (zh) * 2017-06-09 2017-10-20 郑州云海信息技术有限公司 一种提升pcie眼图裕量的仿真方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙友: "一种通用的信号调理板卡的设计", 《航天控制》 *

Similar Documents

Publication Publication Date Title
CN102931546A (zh) 连接器组合
US20130124772A1 (en) Graphics processing
TW202005485A (zh) 擴充快捷外設互聯標準兼容性的電路
CN112231161B (zh) 多芯片调试方法及多芯片调试装置
CN104539867A (zh) 基于spi及rs422总线的长距离图像信号传输系统
CN102929333A (zh) 连接器组合
CN110362058A (zh) 用于多个接口进行测试的系统
CN107480085A (zh) 多接口综合测试系统
CN108632577A (zh) 一种图像传输系统
CN205263801U (zh) 一种pcie信号的切换板卡
CN106776414A (zh) 数据传输装置及方法、喷墨打印系统
CN108874726A (zh) 一种gpu整机柜pcie链路互联系统及方法
DE102009047602A1 (de) Verfahren und Vorrichtung zum Bereitstellen eines Hochgeschwindigkeitskommunikationslinks zwischen einer tragbaren Vorrichtung und einer Dockingstation
CN207503207U (zh) 用于多接口的综合测试系统
CN209265436U (zh) 一种双gpu板卡
CN210572737U (zh) 一种二次雷达信号处理装置
CN110990326B (zh) 一种用于ATCA架构的高速PCI Express转接驱动单元
CN207884633U (zh) 用于航电采集测试的装置
CN114817111A (zh) 支持多卡并行的嵌入式智能计算装置
CN213342449U (zh) 一种兼容不同接口的输入输出板
TWI763542B (zh) 板對板橋接信號傳輸系統
CN206805410U (zh) 一种应用在服务器上的pcie扩展板卡
CN207491126U (zh) 一种可用于led显示屏的数据分配系统
CN216310774U (zh) 一种基于spi总线的多协议多通道可复用扩展装置
CN207037638U (zh) 一种多节点服务器扩展卡动态分配装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181123

RJ01 Rejection of invention patent application after publication