CN110597622A

CN110597622A - 多节点异质运算装置及多节点异质运算系统

Info

Publication number: CN110597622A
Application number: CN201910743889.5A
Authority: CN
Inventors: 吕鹏辉; 叶志宪; 黄宗华; 叶旻宪
Original assignee: ACROSSER TECHNOLOGY Co Ltd
Current assignee: ACROSSER TECHNOLOGY Co Ltd
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2019-12-20

Abstract

一种多节点异质运算装置包括：一基板；多个运算单元，设置于该基板上并通过线路互连，所述每一运算单元皆与另外N个运算单元相连接；所述多节点异质运算系统包括：多个运算装置，通过线路互连并建立一第一运算连结，所述每一运算装置与另外M个相邻的运算装置相互连结。当任一运算单元接收到一待运算资料后，会与其他相邻的运算单元建立运算连结，并界定一主要运算单元及多个次要运算单元，主要运算单元将待运算资料分成多个待运算区段且分派给运算连结内的每一个运算单元，这些次要运算单元完成待运算区段的处理后将结果回传给该主要运算单元。

Description

多节点异质运算装置及多节点异质运算系统

技术领域

本发明有关一种运算系统领域，特别是一种多节点异质运算装置及多节点异质运算系统。

背景技术

随着科技发展，通过机算机进行高复杂度的模拟运算十分普遍，例如气候模拟或行车模拟，为了要快速的运算出结果，通过多个运算单元将一个庞大的模拟进行平行运算或分工运算，再将各个运算单元处理完成的结果加以整合，更加快速的完成高复杂度的模拟运算。

为了要处理上述的平行运算，一个运算装置内会有相当大量的运算单元，而每一个运算单元会通过实体线路建立通信，在需要进行平行运算时，可以让主要的运算单元快速的呼叫其他尚有余裕的运算单元协助，达到分工运算的目的。

然而这样的作法，当运算单元的数量越多时，各个运算单元都会有多条线与其他的运算单元连接，因此线路规划及维护上的困难度十分的高。

另外，因为当前的线路连接方式过于复杂，在未来要增加更多的运算单元时，线路势必重新规划，在扩展上并不容易。

发明内容

为改善上述的问题，本发明提供一种将多个运算单元先行整合成一运算装置，通过运算装置之间连结以简化线路的多节点异质运算装置及多节点异质运算系统。

本发明的另一目的是提供一种便于扩展的多节点异质运算装置及多节点异质运算系统。

本发明的另一目的是提供一种呼叫阵列中相邻运算单元进行协助的多节点异质运算装置及多节点异质运算系统。

为达上述之目的，本发明提供一种多节点异质运算装置，其包括一基板；多个运算单元，设置于该基板上并通过线路互连，所述每一运算单元皆与另外N个运算单元相连接；所述其中任一运算单元接收到一待运算资料后与其他相邻的运算单元建立一运算连结，并界定一主要运算单元及多个次要运算单元，该主要运算单元将待运算资料分成(1+N)个待运算区段且分派给该运算连结内的每一个运算单元，这些次要运算单元完成待运算区段的处理后将结果回传给该主要运算单元。

本案另外提供一种多节点异质运算系统，其包括多个运算装置，通过线路互连并建立一第一运算连结，所述每一运算装置与另外M个相邻的运算装置相互连结，所述运算装置包括：一基板；多个运算单元，设置于该基板上并通过线路互连，所述每一运算单元皆与另外(N+M)个运算单元相及的连接；及所述其中任一运算单元接收到一待运算资料后与其他相邻的运算单元建立一第二运算连结，并界定一主要运算单元及多个次要运算单元，该主要运算单元将待运算资料分成(1+N+M)个待运算区段且分派给该第一、二运算连结内的每一个运算单元，这些次要运算单元完成待运算区段的处理后将结果回传给该主要运算单元。

通过上述的结构，当任一运算单元收到待运算资料后，将会与邻近的运算单元建立运算连结，将待运算资料分散给周围的运算单元进行运算协助，缩短运算的结果，且这样的结构在有助于简化线路复杂度，便于扩展及降低日后的维护困难度。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1A为本发明运算装置立体示意图；

图1B为本发明运算装置内部示意图；

图2为本发明运算单元结构方块示意图；

图3A为本发明第一实施例的示意图；

图3B为本发明第一实施例的分工运算连结示意图；

图4A为本发明第二实施例的示意图；

图4B为本发明第二实施例的分工运算连结示意图(一)；

图4C为本发明第二实施例的分工运算连结示意图(二)；

图5为本发明运算系统立体示意图；

图6A为本发明第三实施例的示意图；

图6B为本发明第三实施例的分工运算连结示意图；

图7A为本发明第四实施例的示意图；

图7B为本发明第四实施例的分工运算连结示意图(一)；

图7C为本发明第四实施例的分工运算连结示意图(二)；

图8A为本发明第五实施例的结构示意图(一)；

图8B为本发明第五实施例的结构示意图(二)；

图9为本发明第六实施例的结构示意图。

附图标记说明

运算系统1、1a、1a1、1a2、1a3、1b、1b1、1b2、1b3、1c、1c1、1c2、1c3、1d、1d1、1d2、1d3、1e、1e1、1e2、1e3、1f、1f1、1f2、1f3、1g、1g1、1g2、1g3、1h、1h1、1h2、1h3、1i、1i1、1i2、1i3

运算装置10

基板101

运算单元102

处理器1021

暂存记忆体1022

唯读记忆体1023

连接埠1024

沟通单元1025

第一传输埠103

第二传输埠104

阵列A01、A02、A03、A04

第一边S1

第二边S2

第三边S3

第四边S4

主要运算单元 F

次要运算单元 S。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明的上述目的及其结构与功能上的特性，将依据所附图式的较佳实施例予以说明。

请参阅图1A及图1B，为本发明运算装置立体示意图及内部示意图，本发明的运算装置10包括一基板101及多个运算单元102及多个第一传输埠103及多个第二传输埠104，这些运算单元102该基板101上并通过线路互连，所述每一运算单元102皆与另外N个运算单元102相连接，所述运算单元102例如但不限制为一单板电脑卡。

运算装置10具有一机壳，所述基板101及运算单元102设置于该机壳内，所述运算单元102通过线路(未图示)相互连接，这些第一传输埠103及这些第二传输埠104嵌设于机壳上，所述第一传输埠103与该运算单元111连接，所述第二传输埠104与该基板101连结。

请参阅图2，为运算单元结构方块示意图，所述运算单元102内包括：一处理器1021；至少一暂存记忆体1022，与该处理器连结1021；至少一唯读记忆体1023，与该处理器连结1021；至少一连接埠1024，与该处理器1021连结；及至少一沟通单元1025，与该处理器1021连结，所述处理器1021可为中央处理器(Central Processing Unit)、绘图处理器(graphics processing unit)、视觉处理器(Vision Processing Unit)、可程式化逻辑装置(Programmable Logic Device)、场式可程式闸阵列(Field Programmable Gate Array)或特殊应用积体电路(Application-specific integrated circuit)其中之一，暂存记忆体1022及唯读记忆体1023的效能可根据需求任意更换，连接埠1025可为通用序列汇流排(USB)或符合通用性输入输出标准(GPIO)或快捷外设互联标准(PCle)或其他规格，该沟通单元1025为基板管理控制器(Baseboard Management Controller)。

请参阅图3A及图3B，为本发明第一实施例的示意图及分工运算连结示意图，并辅以参考图1A、图1B及图2，本实施例为了便于表示，图示中的每一个圈都为一个运算单元102，在本实施例中每一运算单元102与另外两个运算单元102相连接(即N=2)，所述这些运算单元102以一个一维阵列方式排列，任一运算单元102接收到一待运算资料后与其他相邻的运算单元102建立一运算连结，并界定一主要运算单元F及多个个次要运算单元S，该主要运算单元F将待运算资料分成(1+N)个待运算区段且分派给该运算连结内的每一个运算单元102，这些次要运算单元S完成待运算区段的处理后将结果回传给该主要运算单元F，在此实施例变数N=2，也就是说每一个运算单元102会与另外两个相邻的运算单元102连结，主要运算单元F会将待运算资料分成三个待运算区段，所述这些待运算区段所需的处理工作量可为均等或非均等。

请再参阅图3B，该运算装置10正在处理两个待运算资料，其中一个待运算资料指派给第一个运算单元102，此时第一个运算单元102呼叫了相邻的两个运算单元102，与第二个运算单元102及最后一个运算单元102建立了运算连结，第一个运算单元102作为这个运算连结的主要运算单元F，而第二个及最后一个运算单元102作为这个运算连结的次要运算单元S，主要运算单元M将待运算资料分成了三个待运算区段，将其中任意两个待运算区段分给了及另外两个次要运算单元S，此时主要运算单元F及另外两个次要运算单元S将开始处理被分配到的待运算区段，次要运算单元S完成待运算区段的处理后将结果回传给主要运算单元F，由主要运算单元F将这些结果整合来完成这个待运算资料。

请参阅图4A、图4B及图4C，为本发明第二实施例的示意图及分工运算连结示意图(一)及(二)，并辅以参考图1A、图1B及图2，本实施例中每一运算单元102与另外四个运算单元102相连接(N=4)，所述这些运算单元102以一个两维阵列方式排列，在此实施例变数N=4，也就是说每一个运算单元102会与另外四个相邻的运算单元102连结，主要运算单元F会将待运算资料分成五个待运算区段，所述这些待运算区段所需的处理工作量可为均等或非均等。

进一步的，该两维阵列皆具有一第一边S1、一第二边S2、一第三边S3及一第四边S4，位于该第一边S1及该第三边S3的运算单元102相互连接，位于该第二边S2及该第四边S4的运算单元102相互连接，在本实施例中，运算装置10据内设有25个运算单元102，所以构成了一个行数及列数相同的两维阵列，但实际上不以此为限。

请先参阅图4B，该运算装置10正在处理两个待运算资料，分别派给行列位于[2、3]及[4、2]的运算单元102，位于行列位于[2、3]的运算单元102与行列位于[2、2]、[2、4]、[1、3]及[3、3]等四个运算单元102建立了运算连结，行列位于[2、3]的运算单元102作为主要运算单元F，而行列位于[2、2]、[2、4]、[1、3]及[3、3]等四个运算单元102作为这个运算连结的次要运算单元S，主要运算单元M将待运算资料分成了五个待运算区段，将其中任意四个待运算区段分给了及另外四个次要运算单元S，当次要运算单元S完成待运算区段的处理后将结果回传给主要运算单元F，由主要运算单元F将这些结果整合来完成这个待运算资料。

而行列位于[4、2]则的运算单元102与行列位于[4、1]、[4、3]、[3、2]及[5、2]等四个运算单元102建立了运算连结，其余部分则与上述相同，故不再赘述。

请再参阅图4C，该运算装置10同样正在处理两个待运算资料，分别派给行列位于[2、1]及[5、5]的运算单元102，位于行列位于[2、1]的运算单元102与行列位于[1、1]、[1、3]、[2、2]及[2、5]等四个运算单元102建立了运算连结，在此要特别注意的是，因为行列位于[2、1]的运算单元102在第一边S1上，而行列位于[2、5]的运算单元102在第三边S3，所以行列位于[2、1]及[2、5]的两个运算单元102视为相邻。

延续上述，位于行列位于[5、5]的运算单元102与行列位于[1、5]、[4、5]、[5、1]及[5、4]等四个运算单元102建立了运算连结，因为行列位于[5、5]的运算单元102同时在第二边S2及第三边S3上，行列位于[1、5]在第四边S4，而行列位于[5、1] 在第一边S4，所以行列位于[5、5]的运算单元102与行列位于[1、5]及[5、1]视为相邻。

也就是说，在任意位置的运算单元102皆相邻四个另外的运算单元102，通过边界互联的概念，确保每一个运算单元102进行运算的时候都有另外四个运算单元102进行运算协助。

另外，上述的解说中为了说明地更加清楚，将所有运算单元102内的处理器1021用中央处理器(Central Processing Unit)去说明，实际上可以根据使用需求将任意的运算单元102内的处理器1021去替换成绘图处理器(graphics processing unit)、视觉处理器(Vision Processing Unit)、可程式化逻辑装置(Programmable Logic Device)、场式可程式闸阵列(Field Programmable Gate Array)或特殊应用积体电路(Application-specific integrated circuit)，借此在进行上述的运算连结时，可以将不同类型的待运算资料(例如图像或影像资料等等)分散给其他更适合处理的运算单元102去处理，达到异质运算的目的。

另外，因每一个运算单元102内皆有一个沟通单元1025(基板管理控制器(Baseboard Management Controller. BMC))，可以有效的监控每一个运算连结中运算单元102的状况，也便于每一运算单元102之间建立运算连结、动态部属及负载管理。

请再参阅图5，本发明另外提供一种多节点异质运算系统，运算系统1包括多个运算装置10，这些运算装置10设置在机架上且依序层叠排列，并通过传输线将上下相邻的运算装置10连接，所述每一运算装置10与另外M个相邻的运算装置10相互连结，在图示中每一运算装置10是与另外两个相邻的运算装置10相互连结(即M=2)，但不以此为限。

请参阅图6A及图6B，为本发明第三实施例的示意图及分工运算连结示意图，并辅以参考图2、图3A、图3B及图5，本实施例为多个运算装置10构成的运算系统1，在本实施例中每一运算装置10与另外两个相邻的运算装置10连结并建立第一运算连线(即M=2)，每一运算单元102与另外两个运算单元102相连接第二运算连线(即N=2)，所述这些运算单元102以一个一维阵列方式排列。

请参阅图6B，该运算系统1正在处理两个待运算资料，分别派给第三阵列A03位置5的运算单元102及第四阵列A04位置1的运算单元102，第三阵列A03位置5的运算单元102与第三阵列A03位置4、位置6及第二阵列A02位置5及第四阵列A04位置5的运算单元102建立了运算连结，第三阵列A03位置5的运算单元102作为主要运算单元F，而第三阵列A03位置4、位置6及第二阵列A02位置5及第四阵列A04位置5的运算单元102作为这个运算连结的次要运算单元S。

另外，第四阵列A04位置1的运算单元102与第四阵列A04位置2、25的运算单元102、第一阵列A01位置1及第三阵列A03位置1的运算单元102建立了运算连结，第四阵列A04位置1作为主要运算单元F，而第四阵列A04位置2、25的运算单元102、第一阵列A01位置1及第三阵列A03位置1的运算单元102作为这个运算连结的次要运算单元S。

在本实施例中，当任一个运算单元102被分派处理待运算资料时，都会与相邻的另外四个运算单元102建立连结，分别为同一运算装置10相邻的两个运算单元102连结及相邻运算装置10相同阵列位置的运算单元102相连接。

请参阅图7A、图7B及图7C，为本发明第四实施例的示意图及分工运算连结示意图(一)及(二)，并辅以参考图2、图4A、图4B、图4C及图5，本实施例为多个运算装置10构成的运算系统1，在本实施例中每一运算装置10与另外两个相邻的运算装置10连结并建立第一运算连线(即M=2)，每一运算单元102与另外四个运算单元102相连接第二运算连线(即N=4)，所述这些运算单元102以一个两维阵列方式排列，也就是说每一个运算单元102会与另外六个相邻的运算单元102连结，主要运算单元F会将待运算资料分成七个待运算区段，所述这些待运算区段所需的处理工作量可为均等或非均等。

进一步的，这些两维阵列皆具有一第一边S1、一第二边S2、一第三边S3及一第四边S4，位于该第一边S1及该第三边S3的运算单元102相互连接，位于该第二边S2及该第四边S4的运算单元102相互连接。

请先参阅图7B，该运算装置10正在处理两个待运算资料，分别派给第二阵列A02行列位于[2、3]的运算单元102及第三阵列A03行列位于[5、3]的运算单元102，第二阵列A02行列位于[2、3]的运算单元102与第二阵列A02行列位于[2、2]、[2、4]、[1、3]、[3、3]的运算单元102及第一阵列A01行列位于[2、3]的运算单元102及第三阵列A03行列位于[2、3]的运算单元102建立了运算连结，第二阵列A02行列位于[2、3]的运算单元102作为主要运算单元F，而其余的作为次要运算单元S。

另外，第三阵列A03行列位于[5、3]的运算单元102与第三阵列A03行列位于[1、3]、[4、3]、[5、2]、[5、4]的运算单元102及第二阵列A02行列位于[5、3]的运算单元102及第四阵列A04行列位于[5、3]的运算单元102建立了运算连结，第三阵列A03行列位于[5、3]的运算单元102作为主要运算单元F，而其余的作为次要运算单元S。

在此要说明的是，当任一个运算单元102被分派处理待运算资料时，都会与相邻的另外六个运算单元102建立连结，分别为同一运算装置10相邻的四个运算单元102连结及相邻运算装置10相同阵列位置的运算单元102相连接。

请再参阅图7C，第三阵列A03行列位于[3、3]的运算单元102与第三阵列A03行列位于[2、3]、[4、3]、[3、2]、[3、4]的运算单元102及第二阵列A02行列位于[3、3]的运算单元102及第四阵列A04行列位于[3、3]的运算单元102建立了运算连结，但是第二阵列A02行列位于[3、3]的运算单元102处于无法支援的状态(例如正进行其他运算连结或损坏的状态)，此时第二阵列A02行列位于[3、3]的运算单元102将会再去寻求相邻的运算单元102来替补，从第二阵列A02行列位于[2、3]、[4、3]、[3、2]、[3、4]及第一阵列A01行列位于[3、3]的运算单元102这五个中选择一个来协助第三阵列A03行列位于[3、3]的运算单元102，让第三阵列A03行列位于[3、3]的运算单元102必定能找到六个另外的运算单元102建立连结。

上述的几个实施例虽仅提出了分别与另外4、6个运算单元102建立运算连接的实施例，但并不以此为限，另外本发明的运算装置支援热插拔的功能(即运算单元在通电状态下插入或拔出)，当一个或多个运算单元102需要更换时，不需要全部进行关机断电，仅需针对需要的部分进行替换即可。

请参考图8A及图8B，为本发明第五实施例的结构示意图(一)及(二)，在本实施例中，每一运算系统都与另外四个运算系统相连接，这些运算装置以二维阵列方式排列，在运算系统的连接上也有上述边界互联的概念，运算系统1a与运算系统1b、运算系统1d、运算系统1c及运算系统1g连结，运算系统1e与运算系统1b、运算系统1d、运算系统1f及运算系统1h连结，运算系统1i与运算系统1c、运算系统1f、运算系统1g及运算系统1h连结，上述仅以九个运算系统作为解说，实际上不以此为限，在图8B中，表现出运算系统1a~1i的其中一层运算装置，可以视为一个行及列都有15个运算单元的两维阵列。

请参考图9，为本发明第六实施例的结构示意图，请辅以参考图8A及图8B，本实施例与第五实施例大致相同，其差异处在于每一运算系统都与另外六个运算系统相连接，这些运算装置以三维阵列方式排列，在运算系统的连接上也有上述边界互联的概念，第一层由运算装置1a1、1b1、1c1、1d1、1e1、1f1、1g1、1h1、1i1所组成，第二层由运算装置1a2、1b2、1c2、1d2、1e2、1f2、1g2、1h2、1i2所组成，第三层由运算装置1a3、1b3、1c3、1d3、1e3、1f3、1g3、1h3、1i3所组成，而当中每一运算装置内的运算单元也同样与另外六个运算单元相连接(请辅以参考图8B及图7A~图7C)。

上述的几个实施例虽仅提出了分别每一层仅有9个运算装置，且每一运算装置与另外4个或6个运算装置建立运算连接的实施例，但并不以此为限，可以根据实际需求增减运算装置的数量，当一个或多个运算单元102需要更换时，不需要全部进行关机断电，仅需针对需要的部分进行替换即可。

另外，本发明将运算单元102在运算装置10内采用阵列的方式排列且先行与另外等量的运算单元102连接，运算装置10以层叠方式排列且各相邻运算装置10皆电性连结，当要进行增加运算装置10时，仅需将新增加的运算装置10与两相邻的运算装置10通过第二传输埠104连结后，再将对应的各第一传输埠103通过传输线连结即可，大幅度简化线路的复杂度，降低了日后维护的困难性及提升了扩充的简易性。

另外，上述的运算单元102所使用的实体连接线路可以选用网路线路、光纤、铜轴、USB或PCIE其中之一，可以根据实际使用时所需求的传输速度、稳定性或成本等等综合因素来选用适合的规格，或者未来其他更适合的规格来加以替换。

综上所述，本发明具有下述优点：

1、线路简化；

2、便于扩展；

3、维护容易。

以上已将本发明做一详细说明，但以上所述，仅为本发明一较佳实施例而已，当不能限定本发明的实施范围。即凡依本申请所作的均等变化与修饰等，皆应仍属本发明的专利涵盖范围。

Claims

1.一种多节点异质运算装置，其特征在于，包括：

一基板；

多个运算单元，设置于该基板上并通过线路互连，所述运算单元皆与另外N个运算单元相连接；及

所述运算单元接收到一待运算资料后与其他相邻的运算单元建立一运算连结，并界定一主要运算单元及多个次要运算单元，该主要运算单元将待运算资料分成(1+N)个待运算区段且分派给该运算连结内的每一个运算单元，这些次要运算单元完成待运算区段的处理后将结果回传给该主要运算单元。

2.如权利要求1所述的多节点异质运算装置，其特征在于，所述每一运算单元皆与另外两个运算单元相连接，所述运算单元以一一维阵列方式排列。

3.如权利要求1所述的多节点异质运算装置，其特征在于，所述每一运算单元皆与另外四个运算单元相连接，所述运算单元以一二维阵列方式排列，该二维阵列皆具有一第一边、一第二边、一第三边及一第四边，位于该第一边及该第三边的运算单元相互连接，位于该第二边及该第四边的运算单元相互连接，该二维阵列具有相同的行数及列数。

4.如权利要求1所述的多节点异质运算装置，其特征在于，该运算单元还包括：

至少一处理器，该处理器为中央处理器、绘图处理器、视觉处理器、可程式化逻辑装置、场式可程式闸阵列或特殊应用积体电路其中之一；

至少一暂存记忆体，与该处理器连结；

至少一唯读记忆体，与该处理器连结；

至少一连接埠，与该处理器连结；及

一沟通单元，与该处理器连结，该沟通单元为基板管理控制器。

5.一种多节点异质运算系统，其特征在于，包括：

多个运算装置，通过线路互连并建立一第一运算连结，所述运算装置与另外M个相邻的运算装置相互连结，所述运算装置包括：

一基板；

多个运算单元，设置于该基板上并通过线路互连，所述运算单元皆与另外(N+M)个运算单元相及的连接；及

所述运算单元接收到一待运算资料后与其他相邻的运算单元建立一第二运算连结，并界定一主要运算单元及多个次要运算单元，该主要运算单元将待运算资料分成(1+N+M)个待运算区段且分派给该第一运算连结、第二运算连结内的每一个运算单元，这些次要运算单元完成待运算区段的处理后将结果回传给该主要运算单元。

6.如权利要求5所述的多节点异质运算系统，其特征在于，所述每一运算单元皆与另外两个运算单元相连接，所述每一运算装置内的运算单元以一一维阵列方式排列。

7.如权利要求5所述的多节点异质运算系统，其特征在于，所述每一运算单元皆与另外四个运算单元相连接，所述每一运算装置内的运算单元以一二维阵列方式排列，该二维阵列皆具有一第一边、一第二边、一第三边及一第四边，位于该第一边及该第三边的运算单元相互电性连接，位于该第二边及该第四边的运算单元相互电性连接，该二维阵列具有相同的行数及列数。

8.如权利要求5所述的多节点异质运算系统，其特征在于，该运算单元还包括：

至少一处理器，该处理器为中央处理器、绘图处理器、视觉处理器、可程式化逻辑装置其中之一；

至少一暂存记忆体，与该处理器连结；

至少一唯读记忆体，与该处理器连结；

至少一连接埠，与该处理器连结；及

9.如权利要求5所述的多节点异质运算系统，其特征在于，所述每一运算装置皆与另外四个运算装置相连接，这些运算装置以二维阵列方式排列。

10.如权利要求5所述的多节点异质运算系统，其特征在于，所述每一运算装置皆与另外六个运算装置相连接，这些运算装置以三维阵列方式排列。