CN110377556A - 基于Retimer的通用计算模块与异构计算模块的适配装置及方法 - Google Patents

基于Retimer的通用计算模块与异构计算模块的适配装置及方法 Download PDF

Info

Publication number
CN110377556A
CN110377556A CN201910559807.1A CN201910559807A CN110377556A CN 110377556 A CN110377556 A CN 110377556A CN 201910559807 A CN201910559807 A CN 201910559807A CN 110377556 A CN110377556 A CN 110377556A
Authority
CN
China
Prior art keywords
heterogeneous computing
computing module
retimer
topology
isomery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910559807.1A
Other languages
English (en)
Inventor
戴金锐
孔祥涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Wave Intelligent Technology Co Ltd
Original Assignee
Suzhou Wave Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Wave Intelligent Technology Co Ltd filed Critical Suzhou Wave Intelligent Technology Co Ltd
Priority to CN201910559807.1A priority Critical patent/CN110377556A/zh
Publication of CN110377556A publication Critical patent/CN110377556A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/17Interprocessor communication using an input/output type connection, e.g. channel, I/O port
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/177Initialisation or configuration control

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了基于Retimer的通用计算模块与异构计算模块的适配装置及方法,包括互联的通用计算模块和异构计算模块,所述通用计算模块包括与通用计算节点连接的Retimer,所述Retimer通过选通单元连接若干配置文件存储单元,所述通用计算模块还包括第一控制单元,所述第一控制单元用于识别异构计算模块的异构拓扑,并根据所述异构拓扑控制所述选通单元选择与Retimer连接的配置文件存储单元。本发明为Retimer同时设置多个配置文件,通过第一控制单元识别当前异构计算模块的异构拓扑,选通与当前拓扑相适应的Retimer配置文件,在不需要拆卸机箱的情况下,实现通用计算模块与异构计算模块的快速适配。

Description

基于Retimer的通用计算模块与异构计算模块的适配装置及 方法
技术领域
本发明涉及异构计算技术领域,具体地说是基于Retimer的通用计算模块与异构计算模块的适配装置及方法。
背景技术
随着AI(Artificial Intelligence,人工智能)、HPC(High PerformanceComputing),高性能计算)、大数据等应用领域的飞速发展,对于计算性能的要求也越来越高,传统的CPU(Central Processing Unit,中央处理器)服务器难以满足新业务的性能需求,采用CPU、GPU(Graphics Processing Unit,图形处理器)、FPGA(Field-ProgrammableGate Array,即现场可编程门阵列)、ASIC(Application Specific Integrated Circuit,特殊应用集成电路)等处理器组合而成的异构计算模式来进行数据训练或推理,逐渐成为主流。
通用计算模块与异构计算模块采用PCIe总线互联,PCIe总线作为当今计算机体系结构的I/O局部总线标准,使用高速串行传送方式,能够支持更高传输速率和带宽要求的外部设备。随着信号传输速率的提高,由于PCB(Printed Circuit Board,印制电路板)、封装与介质损耗导致的信号衰减会对信号传输产生严重影响,而传输链路上的过孔、连接器、线缆与封装的不连续也会导致信号的衰减,而对于长距离走线,这种衰减会进一步恶化。Retimer(时间修正卡)把输入的模拟比特流转化为纯粹的数字信号存储在芯片内部,然后再重新发出信号,可以极大改善信号质量。在异构计算服务器架构中,Retimer作为通用计算模块与异构计算模块之间互联的桥梁,在PCIe信号的稳定传输中起着重要的作用。
在实际应用中,不同业务场景对于异构计算的拓扑要求也不一样,因此以CPU为核心的一种通用计算模块可能与以GPU为核心的多种异构计算模块形成组合。由于不同异构计算模块之间在元器件的布局、高速信号走线长度、PCB材料间存在差异,因此当带有Retimer的通用计算模块搭配不同异构计算模块时,Retimer的配置文件也不一样。
如图1所示,通用计算节点CPU与异构计算节点上的Device经过Retimer互联,Retimer通过I2C读取EEPROM(Electrically Erasable Programmable read only memory,带电可擦可编程只读存储器)中配置文件来对自身寄存器进行配置,从而使PCIe信号传输质量达到最优。当因业务需求改变需更换异构计算节点时,为了使PCIe信号传输质量达到最优,通常需要对EEPROM中Retimer配置文件重新烧录。烧录时需要打开机箱盖甚至拆解机器,导致终端用户费时费力。
发明内容
本发明实施例中提供了基于Retimer的通用计算模块与异构计算模块的适配装置及方法,以解决改变异构计算节点时,重新烧录Retimer配置文件费时费力的问题。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
本发明第一方面提供了一种基于Retimer的通用计算模块与异构计算模块的适配装置,包括互联的通用计算模块和异构计算模块,所述通用计算模块包括与通用计算节点连接的Retimer,所述Retimer通过选通单元连接若干配置文件存储单元,所述通用计算模块还包括第一控制单元,所述第一控制单元用于识别异构计算模块的异构拓扑,并根据所述异构拓扑控制所述选通单元选择与Retimer连接的配置文件存储单元。
进一步地,所述异构计算模块包括标识单元,所述标识单元用于标识当前异构计算模块的异构拓扑。
进一步地,所述标识单元包括若干接线端,每个接线端的连接方式为接地或悬空,所述第一控制单元包括CPLD,所述CPLD连接所述接线端。
进一步地,所述异构计算模块还包括第二控制单元,所述第二控制单元连接所述第一控制单元,用于为异构计算模块上电。
本发明第二方面提供了一种基于Retimer的通用计算模块与异构计算模块的适配方法,所述方法包括:
异构计算模块端配置与当前异构拓扑相适应的标识信号;
通用计算模块端获取所述标识信号,识别当前异构计算模块的异构拓扑;
第一控制单元控制选通单元选择与所述异构拓扑相适应的Retimer配置文件。
进一步地,在所述步骤之后还包括:
控制第二控制单元为异构计算模块上电。
进一步地,所述异构计算模块端配置与当前异构拓扑相适应的标识信号的具体过程为:
异构计算模块端设置若干接线端;
配置异构计算模块的异构拓扑;
根据所述异构拓扑,将每个接线端接地或悬空,接线端的连接方式形成标识信号,所述标识信号与异构拓扑构成对应关系。
本发明第三方面提供了一种异构计算模块,包括若干GPU形成的异构拓扑,所述异构计算模块还包括与所述异构拓扑相对应的识别单元,所述识别单元包括若干接线端,每个接线端的连接方式为接地或悬空,接线端的连接方式形成异构拓扑的标识信号。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
为Retimer同时设置多个配置文件,通过第一控制单元识别当前异构计算模块的异构拓扑,选通与当前拓扑相适应的Retimer配置文件,实现通用计算模块与异构计算模块的快速适配。在异构计算模块改变异构拓扑时,不需要拆卸机箱,对Retimer配置文件重新烧录,节约终端用户使用成本,避免重新烧录出现的错误。在异构计算模块端设置与当前拓扑相对应的识别信号,便于通用计算模块的快速识别适配。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有通用计算模块与异构计算模块的适配结构示意图;
图2是本发明所述适配装置的结构示意图;
图3是本发明异构计算拓扑实施例1的结构示意图;
图4是本发明异构计算拓扑实施例2的结构示意图;
图5是本发明异构计算拓扑实施例3的结构示意图;
图6是本发明所述适配装置实施例的结构示意图;
图7是图3所示拓扑对应的接线组合方式;
图8是图4所示拓扑对应的接线组合方式;
图9是图5所示拓扑对应的接线组合方式;
图10是本发明所述方法的流程示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图2所示,本发明基于Retimer的通用计算模块与异构计算模块的适配装置,包括互联的通用计算模块和异构计算模块,通用计算模块包括Retimer、第一控制单元、选通单元和与选通单元连接的配置存储文件,异构计算模块包括标识单元、第二控制单元和异构拓扑。Retimer通过选通单元连接配置文件存储单元,配置文件存储单元根据需求,可设置多个,每个配置文件存储单元内存储不同异构拓扑对应的Retimer配置文件。第一控制单元连接标识单元,用于识别异构计算模块的异构拓扑,并根据异构拓扑控制选通单元选择与Retimer连接的配置文件存储单元,实现通用计算模块与异构计算模块的快速适配。
本发明实施例以2路CPU通用计算模块,搭配三种针对不同业务场景的异构计算模块为例进行介绍。在根据业务需求更换异构计算模块时,无需对Retimer配置文件进行重新烧录,可以快速适配不同业务场景。
如图3-5所示,实施例1(拓扑1)为均衡性异构拓扑,CPU与GPU搭配比例为1:4,适用于中小规模深度学习训练、推理和HPC场景;实施例2(拓扑2)为级联型异构拓扑,CPU与GPU搭配比例为1:8,适用于较大规模深度学习训练场景;实施例3(拓扑3)为平衡高密度型异构拓扑,CPU与GPU搭配比例为1:8,适用于高性能推理场景。
如图6所示,以拓扑1异构计算组合为例。通用计算模块与异构计算模块通过PCIe高密连接器CONN连接。第一控制单元和第二控制单元均选用CPLD,选通单元为switch芯片,配置文件存储单元为EEPROM。异构计算模块的接线端为ID0和ID1。
在通用计算模块端,两个Retimer分别经过两个Switch芯片下接3个EEPROM,每个EEPROM在出货时已烧录好对应异构计算模块Retimer的配置文件,两个Switch芯片的I2C通道选择信号SEL连接到CPLD,ID0和ID1在异构计算模块端接地或者悬空,通用计算模块上的CPLD根据读取ID0,ID1两个信号的电平高低得知接入的是哪一种异构计算模块,从而控制SEL信号选择打开Switch芯片对应的I2C通道,使得Retimer进行正确配置。
如图7所示,拓扑1对应ID0接地,ID1悬空,此时通用计算模块上CPLD通过SEL信号控制Switch0和Switch1芯片的I2C通道1打开,Retimer0和Retimer1分别接入EEPROM0和EEPROM3,EEPROM0和EEPROM3已烧录好拓扑1对应的Retimer配置文件。同时通用计算模块上的CPL0D发出上电信号Power_en给异构计算模块上CPLD1,从而控制异构计算模块上电动作。上电完成后,异构计算模块上CPLD1发回Power_ok信号给通用计算模块上CPLD0。
如图8和图9所示,拓扑2对应ID1接地,ID0悬空;拓扑3对应ID0和ID1都悬空。其中电阻R0、R1为限流电阻。
如图10所示,本发明基于Retimer的通用计算模块与异构计算模块的适配方法,包括:
S1,异构计算模块端配置与当前异构拓扑相适应的标识信号;
S2,通用计算模块端获取标识信号,识别当前异构计算模块的异构拓扑;
S3,第一控制单元控制选通单元选择与异构拓扑相适应的Retimer配置文件。
步骤S1的具体实现过程为:异构计算模块端设置若干接线端;配置异构计算模块的异构拓扑;根据异构拓扑,将每个接线端接地或悬空,接线端的连接方式形成标识信号,标识信号与异构拓扑构成对应关系。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视为本发明的保护范围。

Claims (8)

1.一种基于Retimer的通用计算模块与异构计算模块的适配装置,包括互联的通用计算模块和异构计算模块,所述通用计算模块包括与通用计算节点连接的Retimer,其特征是,所述Retimer通过选通单元连接若干配置文件存储单元,所述通用计算模块还包括第一控制单元,所述第一控制单元用于识别异构计算模块的异构拓扑,并根据所述异构拓扑控制所述选通单元选择与Retimer连接的配置文件存储单元。
2.根据权利要求1所述的基于Retimer的通用计算模块与异构计算模块的适配装置,其特征是,所述异构计算模块包括标识单元,所述标识单元用于标识当前异构计算模块的异构拓扑。
3.根据权利要求2所述的基于Retimer的通用计算模块与异构计算模块的适配装置,其特征是,所述标识单元包括若干接线端,每个接线端的连接方式为接地或悬空,所述第一控制单元包括CPLD,所述CPLD连接所述接线端。
4.根据权利要求1所述的基于Retimer的通用计算模块与异构计算模块的适配装置,其特征是,所述异构计算模块还包括第二控制单元,所述第二控制单元连接所述第一控制单元,用于为异构计算模块上电。
5.一种基于Retimer的通用计算模块与异构计算模块的适配方法,根据权利要求1-4任一项所述的装置,其特征是,所述方法包括以下步骤:
异构计算模块端配置与当前异构拓扑相适应的标识信号;
通用计算模块端获取所述标识信号,识别当前异构计算模块的异构拓扑;
第一控制单元控制选通单元选择与所述异构拓扑相适应的Retimer配置文件。
6.根据权利要求5所述的基于Retimer的通用计算模块与异构计算模块的适配方法,其特征是,在所述步骤之后还包括:
控制第二控制单元为异构计算模块上电。
7.根据权利要求5所述的基于Retimer的通用计算模块与异构计算模块的适配方法,其特征是,所述异构计算模块端配置与当前异构拓扑相适应的标识信号的具体过程为:
异构计算模块端设置若干接线端;
配置异构计算模块的异构拓扑;
根据所述异构拓扑,将每个接线端接地或悬空,接线端的连接方式形成标识信号,所述标识信号与异构拓扑构成对应关系。
8.一种异构计算模块,包括若干GPU形成的异构拓扑,其特征是,所述异构计算模块还包括与所述异构拓扑相对应的识别单元,所述识别单元包括若干接线端,每个接线端的连接方式为接地或悬空,接线端的连接方式形成异构拓扑的标识信号。
CN201910559807.1A 2019-06-26 2019-06-26 基于Retimer的通用计算模块与异构计算模块的适配装置及方法 Pending CN110377556A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910559807.1A CN110377556A (zh) 2019-06-26 2019-06-26 基于Retimer的通用计算模块与异构计算模块的适配装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910559807.1A CN110377556A (zh) 2019-06-26 2019-06-26 基于Retimer的通用计算模块与异构计算模块的适配装置及方法

Publications (1)

Publication Number Publication Date
CN110377556A true CN110377556A (zh) 2019-10-25

Family

ID=68249509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910559807.1A Pending CN110377556A (zh) 2019-06-26 2019-06-26 基于Retimer的通用计算模块与异构计算模块的适配装置及方法

Country Status (1)

Country Link
CN (1) CN110377556A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159093A (zh) * 2019-11-25 2020-05-15 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 异构智能计算系统
CN111352787A (zh) * 2020-03-13 2020-06-30 浪潮商用机器有限公司 一种gpu拓扑连接检测方法、装置、设备及存储介质
CN111737181A (zh) * 2020-06-19 2020-10-02 苏州浪潮智能科技有限公司 异构处理设备、系统、端口配置方法、装置及存储介质
CN112073213A (zh) * 2020-07-30 2020-12-11 苏州浪潮智能科技有限公司 一种灵活安全配置PCIe交换机的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140372662A1 (en) * 2013-06-12 2014-12-18 Acano (Uk) Ltd Collaboration Server
CN106325919A (zh) * 2016-08-11 2017-01-11 浪潮(北京)电子信息产业有限公司 基于PCIE Redriver的配置系统及方法
CN108845970A (zh) * 2018-05-30 2018-11-20 郑州云海信息技术有限公司 一种自由切换gpu服务器拓扑的装置及方法
CN109002411A (zh) * 2018-07-24 2018-12-14 郑州云海信息技术有限公司 自动配置gpu扩展箱的方法、系统及可自动配置的gpu扩展箱
CN109918329A (zh) * 2019-02-28 2019-06-21 苏州浪潮智能科技有限公司 一种配置Retimer芯片的通信系统以及通信方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140372662A1 (en) * 2013-06-12 2014-12-18 Acano (Uk) Ltd Collaboration Server
CN106325919A (zh) * 2016-08-11 2017-01-11 浪潮(北京)电子信息产业有限公司 基于PCIE Redriver的配置系统及方法
CN108845970A (zh) * 2018-05-30 2018-11-20 郑州云海信息技术有限公司 一种自由切换gpu服务器拓扑的装置及方法
CN109002411A (zh) * 2018-07-24 2018-12-14 郑州云海信息技术有限公司 自动配置gpu扩展箱的方法、系统及可自动配置的gpu扩展箱
CN109918329A (zh) * 2019-02-28 2019-06-21 苏州浪潮智能科技有限公司 一种配置Retimer芯片的通信系统以及通信方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159093A (zh) * 2019-11-25 2020-05-15 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 异构智能计算系统
CN111159093B (zh) * 2019-11-25 2023-12-08 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 异构智能计算系统
CN111352787A (zh) * 2020-03-13 2020-06-30 浪潮商用机器有限公司 一种gpu拓扑连接检测方法、装置、设备及存储介质
CN111352787B (zh) * 2020-03-13 2023-08-18 浪潮商用机器有限公司 一种gpu拓扑连接检测方法、装置、设备及存储介质
CN111737181A (zh) * 2020-06-19 2020-10-02 苏州浪潮智能科技有限公司 异构处理设备、系统、端口配置方法、装置及存储介质
CN112073213A (zh) * 2020-07-30 2020-12-11 苏州浪潮智能科技有限公司 一种灵活安全配置PCIe交换机的方法
CN112073213B (zh) * 2020-07-30 2022-12-27 苏州浪潮智能科技有限公司 一种灵活安全配置PCIe交换机的方法

Similar Documents

Publication Publication Date Title
CN110377556A (zh) 基于Retimer的通用计算模块与异构计算模块的适配装置及方法
US10198396B2 (en) Master control board that switches transmission channel to local commissioning serial port of the master control board
DE112009000147T5 (de) Mobilgerät, das eine UART- und USB-Kommunikation unter Verwendung desselben Steckers gestattet, und Verfahren zum Betreiben desselben
CN108363581B (zh) 集成电路芯片的数据写入方法、系统、装置、设备及介质
CN108509361A (zh) 一种电子设备
CN208188815U (zh) Bmc模块化系统
CN106774758B (zh) 一种串联电路及计算设备
CN109359073A (zh) 一种基于spi总线的设备间通信方法及设备拓扑结构
CN106951383A (zh) 一种提高pcie数据通道使用率的主板及方法
CN117278890B (zh) 光模块访问方法、装置、系统、电子设备及可读存储介质
CN109407574A (zh) 一种多总线可选择输出控制装置及其方法
CN110362525A (zh) 一种基于cpld实现多串口切换的方法、系统和板卡
CN204009884U (zh) 一种多网卡ncsi管理系统
CN112069106B (zh) 一种基于fpga的多路服务器peci链路控制系统
CN104460857A (zh) 一种高速外设部件互连标准卡及其使用方法和装置
CN106502911A (zh) 多终端接入装置
CN109815175A (zh) 一种通用nvme硬盘点灯控制装置及方法
CN114116584A (zh) 接口板卡、用户设备及cpu的测试系统
CN108111380A (zh) 基于a5平台的n路can通信装置、实现方法及充电设备
CN207164746U (zh) 一种实现USB设备检测的USB Type‑C适配器
CN206805410U (zh) 一种应用在服务器上的pcie扩展板卡
CN205193696U (zh) 一种万兆网络板卡
CN215818179U (zh) 高性能高带宽服务器适配器
CN216310776U (zh) 接口板卡、用户设备及cpu的测试系统
CN104461995A (zh) 具有记忆功能的中频信号板

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191025

RJ01 Rejection of invention patent application after publication