CN117648282A

CN117648282A - 分布式运算系统以及运算卡

Info

Publication number: CN117648282A
Application number: CN202311686774.XA
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Shanghai Bi Ren Technology Co ltd
Current assignee: Shanghai Bi Ren Technology Co ltd
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-03-05

Abstract

本公开提供一种分布式运算系统以及运算卡。分布式运算系统包括第一运算卡组以及第二运算卡组。第一运算卡组包括多个第一运算卡。多个第一运算卡耦接至第一桥接器，并且通过第一桥接器形成直通互连。第二运算卡组包括多个第二运算卡。多个第二运算卡耦接至第二桥接器，并且通过第二桥接器形成直通互连。多个第一运算卡的至少一个包括第一外接互连端口，并且多个第二运算卡的至少一个包括第二外接互连端口。第一外接互连端口通过第一外接缆线耦接至第二外接互连端口，以使多个第一运算卡的至少一个与多个第二运算卡的至少一个通过第一外接线缆形成直通互连。本公开的分布式运算系统以及运算卡可实现高效的数据传输效果。

Description

分布式运算系统以及运算卡

技术领域

本公开涉及一种系统，尤其是一种分布式运算系统以及运算卡。

背景技术

传统的分布式运算系统的多机互连方式是透过网路介面卡来实现多个处理器之间的通信连接，并且不同运算节点之间也同样需通过不同处理器以及网路介面卡之间的通信连接通道来实现数据传输。对此，传统的分布式运算系统的多机互连架构中的不同运算节点之间通过处理器以及网路介面卡来传输数据的方式具有数据传输延迟较大以及通信效率低的问题。

发明内容

本公开是针对一种分布式运算系统以及运算卡，可实现高效的数据传输效果。

根据本公开的实施例，本公开的分布式运算系统包括第一运算卡组以及第二运算卡组。第一运算卡组包括多个第一运算卡。所述多个第一运算卡耦接至第一桥接器，并且通过所述第一桥接器形成直通互连。第二运算卡组包括多个第二运算卡。所述多个第二运算卡耦接至第二桥接器，并且通过所述第二桥接器形成直通互连。所述多个第一运算卡的至少一个包括第一外接互连端口，并且所述多个第二运算卡的至少一个包括第二外接互连端口。所述第一外接互连端口通过第一外接缆线耦接至所述第二外接互连端口，以使所述多个第一运算卡的所述至少一个与所述多个第二运算卡的所述至少一个通过第一外接线缆形成直通互连。

在本公开的分布式运算系统的实施例中，所述第一外接互连端口形成在所述多个第一运算卡的所述至少一个的输入输出支架上，并且所述第二外接互连端口形成在所述多个第二运算卡的所述至少一个的输入输出支架上。

在本公开的分布式运算系统的实施例中，所述分布式运算系统还包括第一主机板。第一主机板设置在第一主机机箱中。所述第一运算卡组以及所述第二运算卡组设置在所述第一主机板上。所述第一桥接器以及所述第二桥接器设置在所述第一主机机箱的内部。所述第一外接线缆设置在所述第一主机机箱的外部。

在本公开的分布式运算系统的实施例中，所述分布式运算系统还包括第一处理器以及第二处理器。第一处理器设置在所述第一主机板上，并且通过设置在所述第一主机板上的第一交互路由芯片(PCIe switch)耦接至所述第一运算卡组的所述多个第一运算卡。第二处理器设置在所述第一主机板上，并且通过设置在所述第一主机板上的第二交互路由芯片(PCIe switch)耦接至所述第二运算卡组的所述多个第二运算卡。

在本公开的分布式运算系统的实施例中，所述第一处理器以及所述第二处理器分别为中央处理器(Central Processing Unit，CPU)。

在本公开的分布式运算系统的实施例中，所述第一处理器通过快速通道互连介面耦接至所述第二处理器。

在本公开的分布式运算系统的实施例中，所述多个第一运算卡以及所述多个第二运算卡分别通过外设组件互连标准(Peripheral Component Interconnect Express，PCIe)端口耦接至所述第一交互路由芯片(PCIe switch)以及所述第二交互路由芯片(PCIeswitch)。

在本公开的分布式运算系统的实施例中，所述分布式运算系统还包括第三运算卡组以及第二主机板。第三运算卡组包括多个第三运算卡。所述多个第三运算卡耦接至第三桥接器，并且通过所述第三桥接器形成直通互连。第二主机板设置在第二主机机箱中，并且所述第三运算卡组设置在所述第二主机板上。所述多个第三运算卡的至少一个包括第三外接互连端口。所述多个第一运算卡的至少另一个包括另一第一外接互连端口。所述另一第一外接互连端口通过第二外接缆线耦接至所述第三外接互连端口，以使所述多个第一运算卡的所述至少另一个与所述多个第三运算卡的所述至少一个通过第二外接线缆形成直通互连。

在本公开的分布式运算系统的实施例中，所述分布式运算系统还包括第四运算卡组以及第三主机板。第四运算卡组包括多个第四运算卡。所述多个第四运算卡耦接至第四桥接器，并且通过所述第四桥接器形成直通互连。第三主机板设置在第三主机机箱中。所述第四运算卡组设置在所述第三主机板上。所述多个第四运算卡的至少一个包括第四外接互连端口。所述多个第二运算卡的至少另一个包括另一第二外接互连端口。所述另一第二外接互连端口通过第三外接缆线耦接至所述第四外接互连端口，以使所述多个第二运算卡的所述至少另一个与所述多个第四运算卡的所述至少一个通过第三外接线缆形成直通互连。

在本公开的分布式运算系统的实施例中，所述分布式运算系统还包括第五运算卡组以及第四主机板。第五运算卡组包括多个第五运算卡。所述多个第五运算卡耦接至第五桥接器，并且通过所述第五桥接器形成直通互连。第四主机板设置在第四主机机箱中。所述第五运算卡组设置在所述第四主机板上。所述多个第五运算卡的至少一个包括第五外接互连端口以及另一第五外接互连端口。多个第三运算卡的至少另一个包括另一第三外接互连端口。所述多个第四运算卡的至少另一个包括另一第四外接互连端口。所述另一第三外接互连端口通过第四外接缆线耦接至所述第五外接互连端口，以使所述多个第三运算卡的所述至少另一个与所述多个第五运算卡的所述至少一个通过第四外接线缆形成直通互连。所述另一第四外接互连端口通过第五外接缆线耦接至所述另一第五外接互连端口，以使所述多个第四运算卡的所述至少另一个与所述多个第五运算卡的所述至少另一个通过第五外接线缆形成直通互连。

在本公开的分布式运算系统的实施例中，所述分布式运算系统还包括第一处理器以及第二处理器。第一处理器设置在所述第一主机板上，并且耦接至所述第一运算卡组的所述多个第一运算卡。第二处理器设置在所述第一主机板上，并且耦接至所述第二运算卡组的所述多个第二运算卡。

在本公开的分布式运算系统的实施例中，所述多个第一运算卡的所述至少一个的外接互连端口数量为至少一个。所述多个第二运算卡的所述至少一个的外接互连端口数量为至少一个。

在本公开的分布式运算系统的实施例中，所述多个第一运算卡的数量为四个，并且所述多个第二运算卡的数量为四个。

在本公开的分布式运算系统的实施例中，所述多个第一运算卡的数量为两个，并且所述多个第二运算卡的数量为两个。

在本公开的分布式运算系统的实施例中，所述多个第一运算卡以及所述多个第二运算卡分别为人工智能机加速卡。

在本公开的分布式运算系统的实施例中，所述第一外接线缆为电缆。

在本公开的分布式运算系统的实施例中，所述第一外接线缆为光纤线缆。

根据本公开的实施例，本公开的运算卡包括运算芯片、多个互连端口以及外接互连端口。多个互连端口耦接至所述运算芯片。外接互连端口耦接至所述运算芯片。所述多个互连端口的至少一个通过桥接器耦接至另一运算卡的另一互连端口，以使所述运算卡以及所述另一运算卡通过所述桥接器形成直通互连。所述外接互连端口通过外接缆线耦接至又一运算卡的另一外接互连端口，以使所述运算卡以及所述又一运算卡通过所述外接缆线形成直通互连。

在本公开的运算卡的实施例中，所述运算卡还包括输入输出支架。所述外接互连端口形成在所述输入输出支架上。

在本公开的运算卡的实施例中，所述运算芯片为图形处理器(GraphicsProcessing Unit，GPU)、通用图形处理器(General-Purpose Graphics Processing Unit，GPGPU)、现场可编程逻辑门阵列(Field Programmable Gate Array，FPGA)、神经网路处理器(Neural Processing Unit，NPU)或专用集成电路(Application-Specific IntegratedCircuit，ASIC)芯片。

基于以上内容，本公开的分布式运算系统以及运算卡，可通过外接互连端口以及外接缆线来实现不同运算卡之间的直通互连，以实现高效的数据传输效果。

为使上述内容更易于理解，以下将详细阐述图式所随附的若干实施例。

附图说明

图1是本公开的实施例的分布式运算系统的电路示意图；

图2是本公开的另一实施例的分布式运算系统的电路示意图；

图3A是本公开的实施例的运算卡的示意图；

图3B是本公开的实施例的运算卡组的示意图；

图4是本公开的实施例的单机八卡的示意图；

图5是本公开的实施例的单机八卡的通信架构示意图；

图6是本公开的实施例的双机互连的通信架构示意图；

图7A以及图7B是本公开的实施例的四机互连的通信架构示意图；

图8是本公开的实施例的单机四卡的示意图；

图9是本公开的实施例的单机四卡的通信架构示意图；

图10是本公开的实施例的双机互连的通信架构示意图；

图11是本公开的实施例的四机互连的通信架构示意图。

附图标记说明

100、200、40、500、600、700、80、900、1000、1110：分布式运算系统；

101、201、401、801：主机板；

111、211、411、811：第一处理器；

112、212、412、812：第二处理器；

121、221：第一运算卡组；

121_1～121_M、221_1～221_M、421_1～421_4、821_1～821_2：第一运算卡；

122、222：第二运算卡组；

122_1～122_M、222_1～222_M、422_1～422_4、822_1～822_2：第二运算卡；

131、431：第一交互路由芯片；

132、432：第二交互路由芯片；

141、241、441、841：第一桥接器；

142、242、442、842：第二桥接器；

150、250、350、451～453、851～853、L1～L12：外接线缆；

3120、3120’：运算卡；

3211：印制电路板；

3212：运算芯片；

3213：外设组件互连标准端口；

3214、3215、3216：互连端口；

3217：外接互连端口；

3218：输入输出支架；

321、GS1～GS8：运算卡组；

321_1～321_4：运算卡；

341：桥接器；

322_1～322_4：输入输出支架；

400、400’、400”、510、610、620、710～740、800、800’、800”、910、1010、1020、1110～1140：运算主机；

C1～C8：处理器；

S1～S8：交互路由芯片；

G1～G32：运算卡；

D1、D2、D3：方向。

具体实施方式

在本公开的说明书及随附权利要求书通篇中，使用某些用语指代特定组件。所属领域中的技术人员应理解，电子装置制造商可通过不同的名称来指代相同的组件。本文并不旨在对功能相同但名称不同的那些组件进行区分。在以下说明及权利请求中，例如“包括(comprise)”及“包含(include)”等词语是开放式用语且应被阐释为“包括但并非仅限于…”。

在本申请的整个说明书(包括随附权利要求书)通篇中提到的用语“第一(first)”、“第二(second)”及类似用语仅用于对离散的元件进行命名或对不同的实施例或范围进行区分。因此，所述用语不应被视为限制元件数量的上限或下限且不应用于限制元件的排列顺序。另外，尽可能地使用在图式及实施例中使用相同参考编号的元件/组件/步骤表示相同或相似的部件。在不同的实施例中，可使用相同的参考编号或使用相同的用语相互指代元件/组件/步骤的相关说明。

图1是本公开的实施例的分布式运算系统的电路示意图。参考图1，分布式运算系统100可为一种整机设备，且具备多个运算节点。分布式运算系统100可包括多个运算主机。一个运算主机可包括主机板101、第一处理器111、第二处理器112、第一运算卡组121、第二运算卡组122、第一交互路由芯(PCIe switch)片131、第二交互路由芯片(PCIe switch)132、第一桥接器141、第二桥接器142以及外接线缆150。第一运算卡组121包括多个第一运算卡121_1～121_M，其中M为大于1的正整数。在一实施例中，M可例如为4。第二运算卡组122包括多个第二运算卡122_1～122_M。在本实施例中，第一处理器111、第二处理器112、第一运算卡组121、第二运算卡组122、第一交互路由芯片131、第二交互路由芯片132、第一桥接器141以及第二桥接器142设置在主机板101上。主机板101、第一处理器111、第二处理器112、第一运算卡组121、第二运算卡组122、第一交互路由芯片131、第二交互路由芯片132、第一桥接器141以及第二桥接器142设置在主机机箱中。外接线缆150设置在所述主机机箱的外部。在本实施例中，外接线缆150可为电缆或光纤缆线。在本实施例中，交互路由芯片131以及第二交互路由芯片132可分别包括外设组件互连标准(Peripheral ComponentInterconnect Express)连接介面或其他高速序列汇流排介面。

在本实施例中，第一处理器111与第二处理器112可分别为中央处理器(CentralProcessing Unit，CPU)，但本公开并不限于此。第一处理器111可通过快速通道互连介面耦接至第二处理器112。所述快速通道互连介面可例如是超路径互连(Ultra PathInterconnect)介面，但本公开并不限于此。

在本实施例中，第一处理器111耦接至第一交互路由芯片131。第一处理器111可通过设置在主机板101上的第一交互路由芯片131耦接至第一运算卡121_1～121_M。第二处理器121耦接至第二交互路由芯片132。第二处理器121可通过设置在主机板101上的第二交互路由芯片132耦接至第二运算卡122_1～122_M。第一运算卡121_1～121_M以及第二运算卡122_1～122_M分别通过外设组件互连标准端口耦接至第一交互路由芯片131以及第二交互路由芯片132。

在本实施例中，第一运算卡121_1～121_M以及第二运算卡122_1～122_M可分别为人工智能机加速卡，但本公开并不限于此。在本实施例中，第一运算卡121_1～121_M以及第二运算卡122_1～122_M可分别包括图形处理器(Graphics Processing Unit，GPU)、通用图形处理器(General-Purpose Graphics Processing Unit，GPGPU)、现场可编程逻辑门阵列(Field Programmable Gate Array，FPGA)、神经网路处理器(Neural Processing Unit，NPU)或专用集成电路(ASIC，Application-Specific Integrated Circuit)芯片等，但本公开并不限于此。

在本实施例中，第一运算卡121_1～121_M耦接至第一桥接器141，并且通过第一桥接器141形成直通互连。第二运算卡122_1～122_M耦接至第二桥接器142，并且通过第二桥接器142形成直通互连。值得注意的是，本公开所述的直通互连是指两个运算卡之间形成对等(peer-to-peer)直接连接(直接通信)，而无须通过第一处理器111以及第二处理器112来进行数据传输。

在本实施例中，第一运算卡121_1可包括外接互连端口，并且第二运算卡122_1可包括外接互连端口。在本实施例中，第一运算卡121_1的所述接互连端口通过外接缆线150耦接至第二运算卡122_1的所述外接互连端口，以使第一运算卡121_1与第二运算卡122_1可通过外接线缆150形成直通互连。换言之，第一运算卡121_1～121_M之间可通过第一桥接器141形成直通互连，第二运算卡122_1～122_M之间可通过第二桥接器142形成直通互连，并且第一运算卡组121与第二运算卡组122之间的数据传输亦可通过外接线缆150形成直通互连。如此一来，第一运算卡组121与第二运算卡组122的多个运算卡在运算过程中所需要传输及/或交换的数据可通过直通互连的通信方式来实现快速的数据传输效果。

然而，本公开不限于第一运算卡121_1以及第二运算卡122_1通过外接线缆150形成直通互连。在一实施例中，第一运算卡121_1～121_M的至少一个可具有外接互连端口，并且第二运算卡122_1～122_M的至少一个可具有外接互连端口，以使第一运算卡121_1～121_M的所述至少一个可通过至少一个外接线缆来耦接至第二运算卡122_1～122_M的所述至少一个。在另一实施例中，分布式运算系统100还可包括至少另一运算主机的至少另一主机机箱。第一运算卡121_1～121_M以及第二运算卡122_1～122_M的至少另一个也可具有外接互连端口，并且可通过另一外接线缆来耦接至设置在至少另一运算主机的至少另一主机机箱当中的另一主机板上的运算卡的外接互连端口，以使形成多机互连架构。

图2是本公开的另一实施例的分布式运算系统的电路示意图。参考图2，分布式运算系统200可包括多个运算主机。一个运算主机可包括主机板201、第一处理器211、第二处理器212、第一运算卡组221、第二运算卡组222、第一桥接器241、第二桥接器242以及外接线缆250。第一运算卡组221包括多个第一运算卡221_1～221_M，其中N为大于1的正整数。在一实施例中，M可例如为2。第二运算卡组222包括多个第二运算卡222_1～222_M。在本实施例中，第一处理器211、第二处理器212、第一运算卡组221、第二运算卡组222、第一交互路由芯片231、第二交互路由芯片232、第一桥接器241以及第二桥接器242设置在主机板201上。主机板201、第一处理器211、第二处理器212、第一运算卡组221、第二运算卡组222、第一桥接器241以及第二桥接器242设置在主机机箱中。外接线缆250设置在所述主机机箱的外部。

不同于图1的实施例，本实施例的第一处理器211直接耦接至第一运算卡221_1～221_M。本实施例的第二处理器221直接耦接至第二运算卡222_1～222_M。在本实施例中，第一运算卡221_1～221_M耦接至第一桥接器241，并且通过第一桥接器241形成直通互连。第二运算卡222_1～222_M耦接至第二桥接器242，并且通过第二桥接器242形成直通互连。

在本实施例中，第一运算卡221_1可包括外接互连端口，并且第二运算卡222_1可包括外接互连端口。在本实施例中，第一运算卡221_1的所述接互连端口通过外接缆线250耦接至第二运算卡222_1的所述外接互连端口，以使第一运算卡221_1与第二运算卡222_1可通过外接线缆250形成直通互连。换言之，第一运算卡221_1～221_M之间可通过第一桥接器241形成直通互连，第二运算卡222_1～222_M之间可通过第二桥接器242形成直通互连，并且第一运算卡组221与第二运算卡组222之间的数据传输亦可通过外接线缆250形成直通互连。如此一来，第一运算卡组221与第二运算卡组222的多个运算卡在运算过程中所需要传输及/或交换的数据可通过直通互连的通信方式来实现快速的数据传输效果。

关于本实施例的主机板201、第一处理器211、第二处理器212、第一运算卡组221、第二运算卡组222、第一桥接器241、第二桥接器242以及外接线缆250的其他技术特征可参考上述图1实施例的说明，而可获致足够的教示与建议，在此不多加赘述。

图3A是本公开的实施例的运算卡的示意图。本公开的各实施例所述的运算卡可具有如图3A所示的运算卡3210的架构。参考图3A，运算卡3210包括印制电路板(PrintedCircuit Board，PCB)3211、运算芯片3212、外设组件互连标准端口3213、多个互连端口3214～3216、外接互连端口3217以及输入输出支架3218。运算芯片3212、外设组件互连标准端口3213、互连端口3214～3216、外接互连端口3217以及输入输出支架3218设置在印制电路板3211上。运算芯片3212耦接外设组件互连标准端口3213、互连端口3214～3216、外接互连端口3217以及输入输出支架3218。

在本实施例中，印制电路板3211的基板平面沿着方向D1以及方向D2延伸。方向D1、方向D2以及方向D3相互垂直。外设组件互连标准端口3213可朝相反于方向D2的方向安装至主机板上的外设组件互连标准的交互路由芯片。互连端口3214～3216可朝方向D2安装至桥接器，以与同组的运算卡的互连端口形成直通互连。外接互连端口3217形成在运算卡3210的输入输出支架3218上。外接互连端口3217可经由输入输出支架3218与外接线缆350连接，并且通过外接线缆350与另一通讯卡3210’的外接互连端口连接，以形成直通互连。

值得注意的是，运算卡3210与另一通讯卡3210’可设置在同一个主机板上或不同主机板上，并且也可设置在相同运算主机的主机机箱或不同运算主机的主机机箱中。另外，运算卡3210的外接互连端口数量也不限于图3A所示。在一实施例中，运算卡3210的外接互连端口数量可为至少一个。

图3B是本公开的实施例的运算卡组的示意图。参考图3B，以一个运算卡组321包括4个运算卡321_1～321_4为例。在本实施例中，运算卡321_1～321_4可沿着方向D3排列，并且桥接器341可沿着相反于方向D2的方向来安装至运算卡321_1～321_4的一侧(即内部互连端口的位置，以使运算卡321_1～321_4可通过桥接器341形成直通互连。运算卡321_1～321_4的输入输出支架322_1～322_4的至少一个可具有外接互连端口，以使运算卡321_1～321_4的至少一个可通过外接线缆来连接至至少另一运算卡组中的至少一个运算卡的外接互连端口，以使与所述至少另一运算卡组中的所述至少一个运算卡形成直通互连。在一实施例中，一个运算卡组也可仅包括2个运算卡。

图4是本公开的实施例的单机八卡的示意图。参考图4，以单机八卡为例，分布式运算系统40包括多个运算主机400、400’、400”。在本实施例中，运算主机400可适用于图1实施例的具有交互路由芯片的架构，但本公开并不限于此。在一实施例中，运算主机400也可适用于图2实施例的未具有交互路由芯片的架构。在本实施例中，运算主机400’、400”的电路架构可与运算主机400相同，因此不多加赘述。在本实施例中，俯视运算主机400中的主机板401，主机板401上可设置有第一处理器411、第二处理器412、多个第一运算卡421_1～421_4、多个第二运算卡422_1～422_4、第一交互路由芯片431、第二交互路由芯片432、第一桥接器441以及第二桥接器442。

在本实施例中，第一处理器411可通过快速通道互连介面耦接至第二处理器412。第一处理器411耦接第一交互路由芯片431。第一交互路由芯片431耦接第一运算卡421_1～421_4。第一运算卡421_1～421_4耦接第一桥接器441。第二处理器412耦接第二交互路由芯片432。第二交互路由芯片432耦接第二运算卡422_1～422_4。第二运算卡422_1～422_4耦接第二桥接器442。第一运算卡421_1～421_4通过第一桥接器441实现直通互连。第二运算卡422_1～422_4通过第二桥接器442实现直通互连。

在本实施例中，第一运算卡421_1可具有外接互连端口，并且第二运算卡422_1可具有外接互连端口。第一运算卡421_1以及第二运算卡422_1可通过外接线缆451实现直通互连。在本实施例中，第一运算卡421_2可具有外接互连端口，并且第二运算卡422_4可具有外接互连端口。第一运算卡421_2可通过外接线缆452与设置在运算主机400’中的另一运算卡的外接互连端口连接，以形成直通互连。第二运算卡421_4可通过外接线缆453与设置在运算主机400”中的另一运算卡的外接互连端口连接，以形成直通互连。

如此一来，运算主机400中的第一运算卡421_1可与第二运算卡422_1实现高速的数据传输效果。运算主机400中的第一运算卡421_2可与运算主机400’中的另一运算卡实现高速的数据传输效果。运算主机400中的第二运算卡422_4可与运算主机400”中的另一运算卡实现高速的数据传输效果。分布式运算系统40的运算主机400、400’、400”中的任多个运算卡之间可以实现高速的数据传输效果。

然而，本公开的外接线缆的连接方式与连接对象并不限于图4所示，并且将由以下多个实施例作为范例说明。

图5是本公开的实施例的单机八卡的通信架构示意。参考图5，以图4的单机八卡架构为基础。在本实施例中，分布式运算系统500包括运算主机510。运算主机510的主机机箱内可包括运算卡组GS1以及运算卡组GS2。运算卡组GS1包括运算卡G1～G4，其中运算卡G1～G4之间可通过桥接器形成直通互连(如图中的运算卡G1～G4之间的多个虚线箭头)。运算卡G1～G4可耦接至交互路由芯片S1，并通过交互路由芯片S1耦接至处理器C1(如图中的运算卡G1～G4至交互路由芯片S1之间的多个虚线箭头以及交互路由芯片S1至处理器C1之间的虚线箭头)。在本实施例中，运算卡组GS2包括运算卡G5～G8，其中运算卡G5～G8之间可通过桥接器形成直通互连(如图中的运算卡G5～G8之间的多个虚线箭头)。运算卡G5～G8可耦接至交互路由芯片S2，并通过交互路由芯片S2耦接至处理器C2(如图中的运算卡G5～G8至交互路由芯片S2之间的多个虚线箭头以及交互路由芯片S2至处理器C2之间的虚线箭头)。

在本实施例中，运算卡G1～G8可分别具有外接互连端口。运算卡G1可通过外接线缆L1与运算卡G5实现直通互连。运算卡G2可通过外接线缆L2与运算卡G6实现直通互连。运算卡G3可通过外接线缆L3与运算卡G7实现直通互连。运算卡G4可通过外接线缆L4与运算卡G8实现直通互连。因此，运算主机500内的运算卡G1～G8之间可实现快速的数据传输效果。

值得注意的是，图5仅为范例实施例，本公开的外接线缆的连接方式不限于图5所示。在一实施例中，外接线缆L1～L4的至少一个也可用于外绕至至少一个另外的运算主机，以与至少另一运算主机中的运算卡的外接互连端口连接。

图6是本公开的实施例的双机互连的通信架构示意图。参考图6，以图4的单机八卡架构为基础。在本实施例中，分布式运算系统600包括运算主机610、620。运算主机610的主机机箱内可包括运算卡组GS1以及运算卡组GS2。运算卡组GS1包括运算卡G1～G4，其中运算卡G1～G4之间可通过桥接器形成直通互连(如图中的运算卡G1～G4之间的多个虚线箭头)。运算卡G1～G4可耦接至交互路由芯片S1，并通过交互路由芯片S1耦接至处理器C1(如图中的运算卡G1～G4至交互路由芯片S1之间的多个虚线箭头以及交互路由芯片S1至处理器C1之间的虚线箭头)。在本实施例中，运算卡组GS2包括运算卡G5～G8，其中运算卡G5～G8之间可通过桥接器形成直通互连(如图中的运算卡G5～G8之间的多个虚线箭头)。运算卡G5～G8可耦接至交互路由芯片S2，并通过交互路由芯片S2耦接至处理器C2(如图中的运算卡G5～G8至交互路由芯片S2之间的多个虚线箭头以及交互路由芯片S2至处理器C2之间的虚线箭头)。

在本实施例中，运算主机620的主机机箱内可包括运算卡组GS3以及运算卡组GS4。运算卡组GS3包括运算卡G9～G12，其中运算卡G9～G12之间可通过桥接器形成直通互连(如图中的运算卡G9～G12之间的多个虚线箭头)。运算卡G9～G12可耦接至交互路由芯片S3，并通过交互路由芯片S3耦接至处理器C3(如图中的运算卡G9～G12至交互路由芯片S3之间的多个虚线箭头以及交互路由芯片S3至处理器C3之间的虚线箭头)。在本实施例中，运算卡组GS4包括运算卡G13～G16，其中运算卡G13～G16之间可通过桥接器形成直通互连(如图中的运算卡G13～G16之间的多个虚线箭头)。运算卡G13～G16可耦接至交互路由芯片S4，并通过交互路由芯片耦接至处理器C4(如图中的运算卡G13～G16至交互路由芯片S4之间的多个虚线箭头以及交互路由芯片S4至处理器C4之间的虚线箭头)。

在本实施例中，运算卡G1～G16可分别具有外接互连端口。运算卡G2可通过外接线缆L1与运算卡G9实现直通互连。运算卡G4可通过外接线缆L2与运算卡G13实现直通互连。运算卡G6可通过外接线缆L3与运算卡G11实现直通互连。运算卡G8可通过外接线缆L4与运算卡G15实现直通互连。运算卡G1可通过外接线缆L5与运算卡G7实现直通互连。运算卡G10可通过外接线缆L6与运算卡G16实现直通互连。因此，运算主机610与运算主机620内的运算卡G1～G15之间可实现快速的数据传输效果。

值得注意的是，图6仅为范例实施例，本公开的外接线缆的连接方式不限于图6所示。在一实施例中，外接线缆L1～L6的至少一个也可用于外绕至至少一个另外的运算主机，以与至少一个另外的运算主机中的运算卡的外接互连端口连接。

图7A以及图7B是本公开的实施例的四机互连的通信架构示意图。参考图7A以及图7B，以图4的单机八卡架构为基础。在本实施例中，分布式运算系统700包括运算主机710～740。运算主机710的主机机箱内可包括运算卡组GS1以及运算卡组GS2。运算卡组GS1包括运算卡G1～G4，其中运算卡G1～G4之间可通过桥接器形成直通互连(如图中的运算卡G1～G4之间的多个虚线箭头)。运算卡G1～G4可耦接至交互路由芯片S1，并通过交互路由芯片S1耦接至处理器C1(如图中的运算卡G1～G4至交互路由芯片S1之间的多个虚线箭头以及交互路由芯片S1至处理器C1之间的虚线箭头)。在本实施例中，运算卡组GS2包括运算卡G5～G8，其中运算卡G5～G8之间可通过桥接器形成直通互连(如图中的运算卡G5～G8之间的多个虚线箭头)。运算卡G5～G8可耦接至交互路由芯片S2，并通过交互路由芯片S2耦接至处理器C2(如图中的运算卡G5～G8至交互路由芯片S2之间的多个虚线箭头以及交互路由芯片S2至处理器C2之间的虚线箭头)。

在本实施例中，运算主机720的主机机箱内可包括运算卡组GS3以及运算卡组GS4。运算卡组GS3包括运算卡G9～G12，其中运算卡G9～G12之间可通过桥接器形成直通互连(如图中的运算卡G9～G12之间的多个虚线箭头)。运算卡G9～G12可耦接至交互路由芯片S3，并通过交互路由芯片S3耦接至处理器C3(如图中的运算卡G9～G12至交互路由芯片S3之间的多个虚线箭头以及交互路由芯片S3至处理器C3之间的虚线箭头)。在本实施例中，运算卡组GS4包括运算卡G13～G16，其中运算卡G13～G16之间可通过桥接器形成直通互连(如图中的运算卡G13～G16之间的多个虚线箭头)。运算卡G13～G16可耦接至交互路由芯片S4，并通过交互路由芯片耦接至处理器C4(如图中的运算卡G13～G16至交互路由芯片S4之间的多个虚线箭头以及交互路由芯片S4至处理器C4之间的虚线箭头)。

在本实施例中，运算主机730的主机机箱内可包括运算卡组GS5以及运算卡组GS6。运算卡组GS5包括运算卡G17～G20，其中运算卡G17～G20之间可通过桥接器形成直通互连(如图中的运算卡G17～G20之间的多个虚线箭头)。运算卡G17～G20可耦接至交互路由芯片S5，并通过交互路由芯片S5耦接至处理器C5(如图中的运算卡G17～G20至交互路由芯片S5之间的多个虚线箭头以及交互路由芯片S5至处理器C5之间的虚线箭头)。在本实施例中，运算卡组GS6包括运算卡G21～G24，其中运算卡G21～G24之间可通过桥接器形成直通互连(如图中的运算卡G21～G24之间的多个虚线箭头)。运算卡G21～G24可耦接至交互路由芯片S6，并通过交互路由芯片S6耦接至处理器C6(如图中的运算卡G21～G24至交互路由芯片S5之间的多个虚线箭头以及交互路由芯片S5至处理器C5之间的虚线箭头)。

在本实施例中，运算主机740的主机机箱内可包括运算卡组GS7以及运算卡组GS8。运算卡组GS7包括运算卡G25～G28，其中运算卡G25～G28之间可通过桥接器形成直通互连(如图中的运算卡G25～G28之间的多个虚线箭头)。运算卡G25～G28可耦接至交互路由芯片S7，并通过交互路由芯片S7耦接至处理器C7(如图中的运算卡G25～G28至交互路由芯片S7之间的多个虚线箭头以及交互路由芯片S7至处理器C7之间的虚线箭头)。在本实施例中，运算卡组GS8包括运算卡G29～G32，其中运算卡G29～G32之间可通过桥接器形成直通互连(如图中的运算卡G29～G32之间的多个虚线箭头)。运算卡G29～G32可耦接至交互路由芯片S8，并通过交互路由芯片耦接至处理器C8(如图中的运算卡G29～G32至交互路由芯片S8之间的多个虚线箭头以及交互路由芯片S8至处理器C8之间的虚线箭头)。

在本实施例中，运算卡G1～G32可分别具有外接互连端口。运算卡G2可通过外接线缆L1与运算卡G9实现直通互连。运算卡G4可通过外接线缆L2与运算卡G13实现直通互连。运算卡G6可通过外接线缆L3与运算卡G11实现直通互连。运算卡G8可通过外接线缆L4与运算卡G15实现直通互连。

运算卡G2可通过外接线缆L1与运算卡G9实现直通互连。运算卡G4可通过外接线缆L2与运算卡G13实现直通互连。运算卡G6可通过外接线缆L3与运算卡G11实现直通互连。运算卡G8可通过外接线缆L4与运算卡G15实现直通互连。运算卡G26可通过外接线缆L5与运算卡G17实现直通互连。运算卡G28可通过外接线缆L6与运算卡G21实现直通互连。运算卡G30可通过外接线缆L7与运算卡G19实现直通互连。运算卡G32可通过外接线缆L8与运算卡G23实现直通互连。运算卡G1可通过外接线缆L9与运算卡G25实现直通互连。运算卡G10可通过外接线缆L10与运算卡G18实现直通互连。运算卡G7可通过外接线缆L11与运算卡G31实现直通互连。运算卡G16可通过外接线缆L12与运算卡G24实现直通互连。因此，运算主机710～740内的运算卡G1～G32之间可实现快速的数据传输效果。

值得注意的是，图7仅为范例实施例，本公开的外接线缆的连接方式不限于图7所示。在一实施例中，外接线缆L1～L12的至少一个也可用于外绕至至少一个另外的运算主机，以与至少一个另外的运算主机中的运算卡的外接互连端口连接。

以此类推，以图4的单机八卡架构为基础，本公开的分布式运算系统可延伸应用至多机直通互连的应用情境，以使分布式运算系统中的多个运算节点之间可实现高效的的数据传输效果，进而提升整体系统的运算效率。

图8是本公开的实施例的单机四卡的示意图。参考图8，以单机四卡为例，分布式运算系统80包括多个运算主机800、800’、800”。在本实施例中，运算主机800可适用于图2实施例的未具有交互路由芯片的架构，但本公开并不限于此。在一实施例中，运算主机800也可适用于图1实施例的具有交互路由芯片的架构。在本实施例中，运算主机800’、800”的电路架构可与运算主机800相同，因此不多加赘述。在本实施例中，俯视运算主机800中的主机板801，主机板801上可设置有第一处理器811、第二处理器812、第一运算卡821_1、821_2、第二运算卡822_1、822_2、第一桥接器841以及第二桥接器842。

在本实施例中，第一处理器811可通过快速通道互连介面耦接至第二处理器812。第一处理器811耦接第一运算卡821_1、821_2。第一运算卡821_1、821_2耦接第一桥接器841。第二处理器812耦接第二运算卡822_1、822_2。第二运算卡822_1、822_2耦接第二桥接器842。第一运算卡821_1、821_2通过第一桥接器841实现直通互连。第二运算卡822_1、822_2通过第二桥接器842实现直通互连。

在本实施例中，第一运算卡821_1可具有外接互连端口，并且第二运算卡822_1可具有外接互连端口。第一运算卡821_1以及第二运算卡822_1可通过外接线缆851实现直通互连。在本实施例中，第一运算卡821_2可具有外接互连端口，并且第二运算卡822_4可具有外接互连端口。第一运算卡821_2可通过外接线缆852与设置在运算主机800’中的另一运算卡的外接互连端口连接，以形成直通互连。第二运算卡821_2可通过外接线缆853与设置在运算主机800”中的另一运算卡的外接互连端口连接，以形成直通互连。

如此一来，运算主机800中的第一运算卡821_1可与第二运算卡822_1实现高速的数据传输效果。运算主机800中的第一运算卡821_2可与运算主机800’中的另一运算卡实现高速的数据传输效果。运算主机800中的第二运算卡822_2可与运算主机800”中的另一运算卡实现高速的数据传输效果。分布式运算系统80的运算主机800、800’、800”中的任多个运算卡之间可以实现高速的数据传输效果。

然而，本公开的外接线缆的连接方式与连接对象并不限于图8所示，并且将由以下多个实施例作为范例说明。

图9是本公开的实施例的单机四卡的通信架构示意图。参考图9，以图8的单机四卡架构为基础。在本实施例中，分布式运算系统900包括运算主机910。运算主机910的主机机箱内可包括运算卡组GS1以及运算卡组GS2。运算卡组GS1包括运算卡G1、G2，其中运算卡G1、G2之间可通过桥接器形成直通互连(如图中的运算卡G1、G2之间的虚线箭头)。运算卡G1、G2可耦接至处理器C1(如图中的运算卡G1、G2至处理器C1之间的多个虚线箭头)。在本实施例中，运算卡组GS2包括运算卡G3、G4，其中运算卡G3、G4之间可通过桥接器形成直通互连(如图中的运算卡G3、G4之间的虚线箭头)。运算卡G3、G4可耦接至处理器C2(如图中的运算卡G3、G4至处理器C2之间的多个虚线箭头)。

在本实施例中，运算卡G1～G4可分别具有外接互连端口。运算卡G1可通过外接线缆L1与运算卡G3实现直通互连。运算卡G2可通过外接线缆L2与运算卡G4实现直通互连。因此，运算主机900内的运算卡G1～G4之间可实现快速的数据传输效果。

值得注意的是，图9仅为范例实施例，本公开的外接线缆的连接方式不限于图9所示。在一实施例中，外接线缆L1、L2的至少一个也可用于外绕至至少一个另外的运算主机，以与至少另一运算主机中的运算卡的外接互连端口连接。

图10是本公开的实施例的双机互连的通信架构示意图。参考图10，以图8的单机四卡架构为基础。在本实施例中，分布式运算系统1000包括运算主机1010、1020。运算主机1010的主机机箱内可包括运算卡组GS1以及运算卡组GS2。运算卡组GS1包括运算卡G1、G2，其中运算卡G1、G2之间可通过桥接器形成直通互连(如图中的运算卡G1、G2之间的虚线箭头)。运算卡G1、G2可耦接至处理器C1(如图中的运算卡G1、G2至处理器C1之间的多个虚线箭头)。在本实施例中，运算卡组GS2包括运算卡G3、G4，其中运算卡G3、G4之间可通过桥接器形成直通互连(如图中的运算卡G3、G4之间的虚线箭头)。运算卡G3、G4可耦接至处理器C2(如图中的运算卡G3、G4至处理器C2之间的多个虚线箭头)。

在本实施例中，运算主机1020的主机机箱内可包括运算卡组GS3以及运算卡组GS4。运算卡组GS3包括运算卡G5、G6，其中运算卡G5、G6之间可通过桥接器形成直通互连(如图中的运算卡G5、G6之间的虚线箭头)。运算卡G5、G6可耦接至处理器C3(如图中的运算卡G5、G6至处理器C3之间的多个虚线箭头)。在本实施例中，运算卡组GS4包括运算卡G7、G8，其中运算卡G7、G8之间可通过桥接器形成直通互连(如图中的运算卡G7、G8之间的虚线箭头)。运算卡G7、G8可耦接至处理器C4(如图中的运算卡G7、G8至处理器C4之间的多个虚线箭头)。

在本实施例中，运算卡G1～G8可分别具有外接互连端口。运算卡G2可通过外接线缆L1与运算卡G7实现直通互连。运算卡G4可通过外接线缆L2与运算卡G5实现直通互连。运算卡G1可通过外接线缆L3与运算卡G3实现直通互连。运算卡G6可通过外接线缆L4与运算卡G9实现直通互连。因此，运算主机1010与运算主机1020内的运算卡G1～G8之间可实现快速的数据传输效果。

值得注意的是，图10仅为范例实施例，本公开的外接线缆的连接方式不限于图10所示。在一实施例中，外接线缆L1～L4的至少一个也可用于外绕至至少一个另外的运算主机，以与至少一个另外的运算主机中的运算卡的外接互连端口连接。

图11是本公开的实施例的四机互连的通信架构示意图。参考图11，以图8的单机四卡架构为基础。在本实施例中，分布式运算系统1100包括运算主机1110～1140。运算主机1110的主机机箱内可包括运算卡组GS1以及运算卡组GS2。运算卡组GS1包括运算卡G1、G2，其中运算卡G1、G2之间可通过桥接器形成直通互连(如图中的运算卡G1、G2之间的虚线箭头)。运算卡G1、G2可耦接至处理器C1(如图中的运算卡G1、G2至处理器C1之间的虚线箭头)。在本实施例中，运算卡组GS2包括运算卡G3、G4，其中运算卡G3、G4之间可通过桥接器形成直通互连(如图中的运算卡G3、G4之间的虚线箭头)。运算卡G3、G4可耦接至处理器C2(如图中的运算卡G3、G4至处理器C2之间的虚线箭头)。

在本实施例中，运算主机1120的主机机箱内可包括运算卡组GS3以及运算卡组GS4。运算卡组GS3包括运算卡G5、G6，其中运算卡G5、G6之间可通过桥接器形成直通互连(如图中的运算卡G5、G6之间的虚线箭头)。运算卡G5、G6可耦接至处理器C3(如图中的运算卡G5、G6至处理器C3之间的虚线箭头)。在本实施例中，运算卡组GS4包括运算卡G7、G8，其中运算卡G7、G8之间可通过桥接器形成直通互连(如图中的运算卡G7、G8之间的虚线箭头)。运算卡G7、G8可耦接至处理器C4(如图中的运算卡G7、G8至处理器C4之间的虚线箭头)。

在本实施例中，运算主机1130的主机机箱内可包括运算卡组GS5以及运算卡组GS6。运算卡组GS5包括运算卡G9、G10，其中运算卡G9、G10之间可通过桥接器形成直通互连(如图中的运算卡G9、G10之间的虚线箭头)。运算卡G9、G10可耦接至处理器C5(如图中的运算卡G9、G10至处理器C5之间的虚线箭头)。在本实施例中，运算卡组GS6包括运算卡G11、G12，其中运算卡G11、G12之间可通过桥接器形成直通互连(如图中的运算卡G11、G12之间的虚线箭头)。运算卡G11、G12可耦接至处理器C6(如图中的运算卡G11、G12至处理器C6之间的虚线箭头)。

在本实施例中，运算主机1140的主机机箱内可包括运算卡组GS7以及运算卡组GS8。运算卡组GS7包括运算卡G13、G14，其中运算卡G13、G14之间可通过桥接器形成直通互连(如图中的运算卡G13、G14之间的虚线箭头)。运算卡G13、G14可耦接至处理器C7(如图中的运算卡G13、G14至处理器C7之间的虚线箭头)。在本实施例中，运算卡组GS8包括运算卡G15、G16，其中运算卡G15、G16之间可通过桥接器形成直通互连(如图中的运算卡G15、G16之间的虚线箭头)。运算卡G15、G16可耦接至处理器C8(如图中的运算卡G15、G16至处理器C8之间的虚线箭头)。

在本实施例中，运算卡G1～G16可分别具有外接互连端口。运算卡G2可通过外接线缆L1与运算卡G7实现直通互连。运算卡G4可通过外接线缆L2与运算卡G5实现直通互连。运算卡G14可通过外接线缆L3与运算卡G11实现直通互连。运算卡G16可通过外接线缆L4与运算卡G9实现直通互连。运算卡G1可通过外接线缆L5与运算卡G13实现直通互连。运算卡G3可通过外接线缆L6与运算卡G15实现直通互连。运算卡G6可通过外接线缆L7与运算卡G10实现直通互连。运算卡G8可通过外接线缆L8与运算卡G12实现直通互连。因此，运算主机1110～1140内的运算卡G1～G16之间可实现快速的数据传输效果。

值得注意的是，图11仅为范例实施例，本公开的外接线缆的连接方式不限于图11所示。在一实施例中，外接线缆L1～L8的至少一个也可用于外绕至至少一个另外的运算主机，以与至少一个另外的运算主机中的运算卡的外接互连端口连接。

以此类推，以图8的单机四卡架构为基础，本公开的分布式运算系统可延伸应用至多机直通互连的应用情境，以使分布式运算系统中的多个运算节点之间可实现高效的的数据传输效果，进而提升整体系统的运算效率。

综上所述，本公开的分布式运算系统以及运算卡，可在运算卡设置外接互连端口，以通过外接线缆与其他运算卡进行直通互连。本公开的分布式运算系统以及运算卡可实现多机集群间的无限拓展直通互联，以有效提高数据传输速度，并且可进而提升分布式运算系统的数据运算速度。

最后应说明的是：以上各实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述各实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims

1.一种分布式运算系统，其特征在于，包括：

第一运算卡组，包括多个第一运算卡，其中所述多个第一运算卡耦接至第一桥接器，并且通过所述第一桥接器形成直通互连；以及

第二运算卡组，包括多个第二运算卡，其中所述多个第二运算卡耦接至第二桥接器，并且通过所述第二桥接器形成直通互连，

其中，所述多个第一运算卡的至少一个包括第一外接互连端口，并且所述多个第二运算卡的至少一个包括第二外接互连端口，

其中，所述第一外接互连端口通过第一外接缆线耦接至所述第二外接互连端口，以使所述多个第一运算卡的所述至少一个与所述多个第二运算卡的所述至少一个通过第一外接线缆形成直通互连。

2.根据权利要求1所述的分布式运算系统，其特征在于，所述第一外接互连端口形成在所述多个第一运算卡的所述至少一个的输入输出支架上，并且所述第二外接互连端口形成在所述多个第二运算卡的所述至少一个的输入输出支架上。

3.根据权利要求1所述的分布式运算系统，其特征在于，还包括：

第一主机板，设置在第一主机机箱中，并且所述第一运算卡组以及所述第二运算卡组设置在所述第一主机板上，

其中，所述第一桥接器以及所述第二桥接器设置在所述第一主机机箱的内部，并且所述第一外接线缆设置在所述第一主机机箱的外部。

4.根据权利要求3所述的分布式运算系统，其特征在于，还包括：

第一处理器，设置在所述第一主机板上，并且通过设置在所述第一主机板上的第一交互路由芯片耦接至所述第一运算卡组的所述多个第一运算卡；以及

第二处理器，设置在所述第一主机板上，并且通过设置在所述第一主机板上的第二交互路由芯片耦接至所述第二运算卡组的所述多个第二运算卡。

5.根据权利要求4所述的分布式运算系统，其特征在于，所述第一处理器以及所述第二处理器分别为中央处理器。

6.根据权利要求4所述的分布式运算系统，其特征在于，所述第一处理器通过快速通道互连介面耦接至所述第二处理器。

7.根据权利要求4所述的分布式运算系统，其特征在于，所述多个第一运算卡以及所述多个第二运算卡分别通过外设组件互连标准端口耦接至所述第一交互路由芯片以及所述第二交互路由芯片。

8.根据权利要求3所述的分布式运算系统，其特征在于，还包括：

第三运算卡组，包括多个第三运算卡，其中所述多个第三运算卡耦接至第三桥接器，并且通过所述第三桥接器形成直通互连；以及

第二主机板，设置在第二主机机箱中，并且所述第三运算卡组设置在所述第二主机板上，

其中，所述多个第三运算卡的至少一个包括第三外接互连端口，并且所述多个第一运算卡的至少另一个包括另一第一外接互连端口，

其中，所述另一第一外接互连端口通过第二外接缆线耦接至所述第三外接互连端口，以使所述多个第一运算卡的所述至少另一个与所述多个第三运算卡的所述至少一个通过第二外接线缆形成直通互连。

9.根据权利要求8所述的分布式运算系统，其特征在于，还包括：

第四运算卡组，包括多个第四运算卡，其中所述多个第四运算卡耦接至第四桥接器，并且通过所述第四桥接器形成直通互连；以及

第三主机板，设置在第三主机机箱中，并且所述第四运算卡组设置在所述第三主机板上，

其中，所述多个第四运算卡的至少一个包括第四外接互连端口，并且所述多个第二运算卡的至少另一个包括另一第二外接互连端口，

其中，所述另一第二外接互连端口通过第三外接缆线耦接至所述第四外接互连端口，以使所述多个第二运算卡的所述至少另一个与所述多个第四运算卡的所述至少一个通过第三外接线缆形成直通互连。

10.根据权利要求9所述的分布式运算系统，其特征在于，还包括：

第五运算卡组，包括多个第五运算卡，其中所述多个第五运算卡耦接至第五桥接器，并且通过所述第五桥接器形成直通互连；以及

第四主机板，设置在第四主机机箱中，并且所述第五运算卡组设置在所述第四主机板上，

其中，所述多个第五运算卡的至少一个包括第五外接互连端口以及另一第五外接互连端口，所述多个第三运算卡的至少另一个包括另一第三外接互连端口，并且所述多个第四运算卡的至少另一个包括另一第四外接互连端口，

其中，所述另一第三外接互连端口通过第四外接缆线耦接至所述第五外接互连端口，以使所述多个第三运算卡的所述至少另一个与所述多个第五运算卡的所述至少一个通过第四外接线缆形成直通互连，

其中，所述另一第四外接互连端口通过第五外接缆线耦接至所述另一第五外接互连端口，以使所述多个第四运算卡的所述至少另一个与所述多个第五运算卡的所述至少另一个通过第五外接线缆形成直通互连。

11.根据权利要求3所述的分布式运算系统，其特征在于，还包括：

第一处理器，设置在所述第一主机板上，并且耦接至所述第一运算卡组的所述多个第一运算卡；以及

第二处理器，设置在所述第一主机板上，并且耦接至所述第二运算卡组的所述多个第二运算卡。

12.根据权利要求1所述的分布式运算系统，其特征在于，所述多个第一运算卡的所述至少一个的外接互连端口数量为至少一个，并且所述多个第二运算卡的所述至少一个的外接互连端口数量为至少一个。

13.根据权利要求1所述的分布式运算系统，其特征在于，所述多个第一运算卡的数量为四个，并且所述多个第二运算卡的数量为四个。

14.根据权利要求1所述的分布式运算系统，其特征在于，所述多个第一运算卡的数量为两个，并且所述多个第二运算卡的数量为两个。

15.根据权利要求1所述的分布式运算系统，其特征在于，所述多个第一运算卡以及所述多个第二运算卡分别为人工智能机加速卡。

16.根据权利要求1所述的分布式运算系统，其特征在于，所述第一外接线缆为电缆。

17.根据权利要求1所述的分布式运算系统，其特征在于，所述第一外接线缆为光纤线缆。

18.一种运算卡，包括：

运算芯片；

多个互连端口，耦接至所述运算芯片；以及

外接互连端口，耦接至所述运算芯片，

其中，所述多个互连端口的至少一个通过桥接器耦接至另一运算卡的另一互连端口，以使所述运算卡以及所述另一运算卡通过所述桥接器形成直通互连，

其中，所述外接互连端口通过外接缆线耦接至又一运算卡的另一外接互连端口，以使所述运算卡以及所述又一运算卡通过所述外接缆线形成直通互连。

19.根据权利要求18所述的运算卡，其特征在于，还包括：

输入输出支架，其中，所述外接互连端口形成在所述输入输出支架上。

20.根据权利要求18所述的运算卡，其特征在于，所述运算芯片为图形处理器、通用图形处理器、现场可编程逻辑门阵列、神经网路处理器或专用集成电路芯片。