CN110413564A

CN110413564A - Ai训练推理服务器、系统和方法

Info

Publication number: CN110413564A
Application number: CN201910784753.9A
Authority: CN
Inventors: 陈敬毅; 严华
Original assignee: Shenzhen Chuangzhi Zhongke Intelligent Technology Co Ltd
Current assignee: Shenzhen Chuangzhi Zhongke Intelligent Technology Co Ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2019-11-05
Anticipated expiration: 2039-08-23
Also published as: CN110413564B

Abstract

本发明实施例涉及人工智能技术领域，公开了一种AI训练推理服务器、系统和方法，其中AI训练推理服务器包括：主板、背板和至少一块AI推理刀片，其中：主板主要由CPU组成，主板和背板连接，用于通过背板下发AI软件算法和数据；背板设置有插槽；AI推理刀片插接于插槽，AI推理刀片主要由至少一块第一可编程芯片组成，每一第一可编程芯片连接至少一块AI芯片；AI推理刀片用于接收AI软件算法和数据，并根据AI软件算法和数据得到计算结果，将计算结果通过背板发送给主板；主板还用于通过背板接收计算结果，并根据计算结果得到推理结果。通过上述方式，本发明实施例能够提高服务器的算力，并减少其功耗和成本。

Description

AI训练推理服务器、系统和方法

技术领域

本发明实施例涉及人工智能技术领域，具体涉及一种AI训练推理服务器、系统和方法。

背景技术

AI(Artificial Intelligence，人工智能)技术是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。通过AI算法可以智能的从视频或图片中识别人脸、声音和文字等信息。AI技术主要由推理、训练、控制和通信等服务器组合而成。

在实现本发明实施例的过程中，发明人发现：传统的AI算法一般是通过CPU(Central Processing Unit，中央处理器)和GPU(Graphics Processing Unit，视觉处理器)去计算。但传统CPU和GPU有很多无关的指令，并且没有AI算法专用指令，所以导致传统的AI技术方案的算力低、功耗高和成本高等。因此，目前大部分AI技术的都是通过将算法和数据上传到云端服务器，利用云服务器的超大算力和海量存储等技术，达到AI技术所要求的算力和响应时间。但这种方式存在功耗大、成本高和延迟大等缺点。

发明内容

鉴于上述问题，本发明实施例提供了一种AI训练推理服务器、系统和方法，克服了上述问题或者至少部分地解决了上述问题。

根据本发明实施例的一个方面，提供了一种AI训练推理服务器，所述服务器包括：主板、背板和至少一块AI推理刀片，其中：所述主板主要由CPU组成，所述主板和所述背板连接，用于通过所述背板下发AI软件算法和数据；所述背板设置有插槽；所述AI推理刀片插接于所述插槽，所述AI推理刀片主要由至少一块第一可编程芯片组成，每一所述第一可编程芯片连接至少一块AI芯片；所述AI推理刀片用于接收所述AI软件算法和数据，并根据所述AI软件算法和数据得到计算结果，将所述计算结果通过背板发送给所述主板；所述主板还用于通过所述背板接收所述计算结果，并根据所述计算结果得到推理结果。

在一种可选的方式中，所述背板为CPCI-Express背板，其具有热拔插功能；所述CPU用于将所述主板配置为主设备，所述第一可编程芯片用于将所述AI推理刀片配置为从设备，所述CPCI-Express背板用于使所述主设备和所述从设备互相通信。

在一种可选的方式中，所述服务器还包括：至少一块AI训练刀片，所述AI训练刀片插接于所述插槽，用于接收所述主板发送的所述AI软件算法和数据，根据所述AI软件算法和数据得到训练结果，并将所述训练结果通过所述背板传送给所述AI推理刀片。

在一种可选的方式中，所述AI训练刀片主要由至少一块第二可编程芯片组成，每一所述第二可编程芯片连接至少一块记忆存储芯片；所述第二可编程芯片用于在所述AI训练刀片得到所述训练结果时将所述AI训练刀片配置为主设备。

在一种可选的方式中，所述主板的数量为至少2个，各所述主板之间通过所述CPCI-Express背板传输数据。

在一种可选的方式中，所述服务器还包括电源刀片和冗余电源刀片，所述电源刀片和冗余电源刀片插接于所述插槽。

在一种可选的方式中，所述服务器还包括拓扑管理模块，所述拓扑管理模块插接于所述插槽，用于将所述主板、AI推理刀片和AI训练刀片配置为主设备或从设备，且用于配置所述主板、AI推理刀片和AI训练刀片之间的拓扑关系。

根据本发明实施例的另一方面，提供了一种AI训练推理服系统，包括：网络交换机、通用服务器和至少一个AI推理服务器；所述网络交换机分别与所述通用服务器和AI推理服务器互相通信连接，所述通用服务器用于通过所述网络交换机下发AI软件算法和数据给所述AI推理服务器，所述AI推理服务器用于通过所述AI软件算法和数据得到计算结果，并通过所述网络交换机将所述计算结果返回给所述通用服务器，所述通用服务器还用于根据所述计算结果得到推理结果。

在一种可选的方式中，所述系统还包括至少一个AI训练服务器，所述AI训练服务器与所述网络交换机通信连接，用于通过所述网络交换机接收所述通用服务器发送的所述AI软件算法和数据，根据所述AI软件算法和数据得到训练结果，并将所述训练结果通过所述网络交换机传送给所述AI推理服务器。

在一种可选的方式中，所述系统还包括超级计算机，所述超级计算机与所述网络交换机通信连接，用于通过所述网络交换机接收所述通用服务器发送的所述AI软件算法和数据，根据所述AI软件算法和数据得到训练结果，并将所述训练结果通过所述网络交换机传送给所述AI推理服务器。

根据本发明实施例的又一方面，提供了一种AI训练推理方法，应用于如上所述的AI训练推理服务器，其包括：主板通过背板下发AI软件算法和数据；AI推理刀片通过背板接收AI软件算法和数据，并根据所述AI软件算法和数据得到计算结果；主板通过背板接收所述计算结果，并根据所述计算结果得到推理结果。

本发明实施例的AI训练推理服务器包括主板、背板和至少一块AI推理刀片，其中，主板与背板连接，背板设置有插槽，AI推理刀片插接于插槽内，且AI推理刀片主要由至少一块第一可编程芯片组成，每一第一可编程芯片连接至少一块AI芯片。当主板中的AI软件运行时，主板会根据AI软件上执行的指令通过背板下发AI软件算法和数据给AI推理刀片，AI推理刀片中的各AI芯片根据AI软件算法和数据得到计算结果，之后AI推理刀片中的第一可编程芯片再将各AI芯片得到的计算结果汇总并通过背板返回给主板，主板最后根据各计算结果得到推理结果，即AI软件上执行的指令的运行结果。和直接通过CPU和GPU进行AI算法的计算相比，本发明实施例将算法和数据下发到AI芯片进行计算，AI芯片的具有AI算法专用指令，其算力更高、功耗和成本更低。此外，本发明实施例还可以根据AI软件中算法的计算量大小而增加或减少AI推理刀片中的AI芯片，或者增加或减少插入插槽的AI推理刀片的数量，其灵活度更高。而和利用云服务器进行AI算法计算相比，本发明实施例直接通过背板连接主板和AI推理刀片，其信息的传输速度更快，延迟更低，并且成本和功耗也更低。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种AI训练推理服务器的结构示意图；

图2示出了本发明实施例中AI推理刀片的示意图；

图3示出了本发明实施例中AI训练推理服务器的原理图；

图4示出了本发明实施例中AI训练刀片的示意图；

图5示出了本发明第二实施例中AI训练推理服务器的原理图；

图6示出了本发明第三实施例中AI训练推理服务器的原理图；

图7示出了本发明第四实施例中AI训练推理服务器的原理图；

图8示出了本发明第五实施例中AI训练推理服务器的原理图；

图9示出了本发明另一实施例提供的一种AI训练推理服务器的结构示意图；

图10示出了本发明实施例提供的一种AI训练推理服系统的示意图；

图11示出了本发明实施例提供的一种AI训练推理方法的流程图；

图12示出了本发明另一实施例提供的一种AI训练推理服方法的流程图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

AI技术主要应用于用于人脸、声音和文字识别等的AI软件中，其主要包括训练和推理等部分。其中，训练部分主要是指通过训练数据集对一个初始的模块进行训练，使其不断优化自身参数，从而得到优化的模型。例如，如果要训练一个能区分苹果还是橘子的模型，需要搜索一些苹果和橘子的图片作为训练数据集，训练数据集中的数据皆设置有标签，苹果图片的标签就是苹果，橘子的标签亦是橘子。初始的神经网络模型可能开始10张苹果的照片，只有5张被网络认为是苹果，另外5张认错了。但在不断地参数优化过程后，能让该神经网络模型将另外5张认错的图片认对，这整个过程即称为训练。而推理是通过将现场数据，例如现场直接拍摄的苹果照片，直接输入训练好的模型中，得到该照片所属的标签，这一过程即为推理。

请参阅图1，图1示出了本发明实施例提供的一种AI训练推理服务器的结构示意图。所述AI训练推理服务器100包括主板10、背板20和至少一块AI推理刀片30。其中，所述背板20设置有多个插槽21，其用于提供数据交换和传输的通道，即插接于各个插槽21的设备可以直接互相通信。所述主板10主要由CPU组成，其用于协调和控制终端(手机或电脑等)的操作系统，以及处理操作系统上AI软件的AI算法的编解码。同时，主板10还其上设有多个用于通信的网口，用于根据AI软件上执行的指令下发AI软件算法和数据。此外，主板10的结构可以设计成刀片的形式，插接于插槽21内。所述AI推理刀片30插接于插槽21内，用于通过背板20接收主板10下发的AI软件算法和数据。如图2所示，其示出了本发明实施例中AI推理刀片的示意图，AI推理刀片30主要由至少一块第一可编程芯片31组成，每一第一可编程芯片31连接至少一块AI芯片32。所述第一可编程芯片31可以是FPGA(Field－ProgrammableGate Array，现场可编程门阵列)或ASIC芯片(Application Specific IntegratedCircuit，一种为专门目的而设计的芯片)，其具有可编程的特性，即可以根据具体所需实现的功能将相应的代码烧进该芯片。而AI芯片32是专用于AI计算的芯片，其包含AI计算的专用指令，且对于专用指令的算力快，功耗低。在AI推理刀片30中，第一可编程芯片31主要用于接收主板10下发的AI软件算法和数据，并将其转发给AI芯片32，使AI芯片32根据该AI软件算法和数据得到计算结果，待各AI芯片32计算完成时，第一可编程芯片31还会将各AI芯片32的计算结果汇总，通过背板20返回给主板10。

如图3所示，其示出了本发明实施例中AI训练推理服务器的原理图，本发明实施例中的服务器仅用于做AI软件的AI推理，在进行AI推理的过程中主板10会先从训练服务器中获取训练结果，具体地，主板10可以通过WIFI、蓝牙或物联网等通信方式从训练服务器获取训练结果。其中，训练服务器是指用于进行AI训练过程的服务器，当其接收到主板10发送的AI软件算法和数据时，会生成相应的训练结果。之后主板10会将训练结果和AI软件算法一同通过背板20下发到各AI推理刀片30，由各AI推理刀片30分摊AI软件算法的计算量，并各自得到对应的计算结果，之后各AI推理刀片30再通过背板20将其计算结果返回给主板10。最后，主板10会根据这些计算结果得到AI软件的推理结果，完成AI推理过程。

可以理解的是：本发明实施例中服务器还可以同时进行多个AI软件的AI推理过程，即将不同的AI软件算法下发到不同的AI推理刀片30，由不同的AI推理刀片30得到对应不同AI软件算法的计算结果，并返回给主板10。例如，若本实施例中的服务器包括4个AI推理刀片30，其编号分别为a1、a2、a3和a4，主板10上运行了两个AI软件，分别为B和C。此时，主板10可以将AI软件B的算法下发到a1和a2，而将AI软件C的算法下发到a3和a4，从而可以同时进行两个AI软件的AI推理过程。当然，若AI推理刀片30的算力足够高，即其包含的AI芯片32足够多，一个AI推理刀片30也可以同时进行多个AI软件的AI推理的计算过程。例如，AI软件B和C的算法可以分别下发到同一AI推理刀片30上不同的第一可编程芯片31，由于与对应的第一可编程芯片31连接的AI芯片32进行计算得到计算结果。

本发明实施例通过将将算法和数据下发到AI芯片32进行计算，使算法的计算过程由多个AI芯片32完成，提高了算力。同时，在相同算力下，AI芯片32功耗和成本更低。此外，本发明实施例还可以根据AI软件中算法的计算量大小而增加或减少AI推理刀片30中的AI芯片32，或者增加或减少插入插槽21的AI推理刀片30的数量，其灵活度更高。

对于上述背板20，其可以是CPCI-Express(Compact peripheral componentinterconnect express，高速串行计算机扩展总线标准)背板20，CPCI-Express背板20主要由PCIe(peripheral component interconnect express，高速串行总线)交换芯片组成，而背板20上的插槽21是标准的PCIe槽。其中，PCIe槽属于高速串行点对点双通道高带宽传输，所连接的设备分配独享通道带宽，不共享总线带宽。因此，插接于背板20的插槽21的设备之间的传输快且延时低。此外，CPCI-Express背板20还具有热拔插功能。热拔插是指在不关闭系统电源的情况下，将模块、板卡插入或拔出系统而不影系统的正常工作，从而提高了系统的可靠性、快速维修性、冗余性和对灾难的及时恢复能力。具体地，当刀片(AI推理刀片30或AI训练刀片40)插入插槽21时，刀片上的引脚会传递信息给操作系统，使其加载对应刀片的驱动，使其能够使用该刀片。而当刀片从插槽21拔出时，操作系统也会接收到相应的信息，卸载对应的驱动。同时，若应用程序实时访问这张刀片时，突然把刀片把出，PCIe背板20芯片会默认返回一个0xff数据，以防OS因为刀片拔出无法访问而程序跑飞死机。

在主板10和AI推理刀片30通过CPCI-Express背板进行数据交换的过程中，主板10会通过其CPU配置为主设备，而AI推理刀片30则通过其第一可编程芯片31配置为从设备。之后，CPCI-Express背板中的交换芯片会识别主设备和从设备，使主设备和从设备互相通信，但从设备之间以及主设备之间不会互相通信。例如，各AI推理刀片30皆为从设备，因此它们之间不会通信。

可以理解的是：背板20的种类不仅限于上面的描述，其可以是其它具有使插接于各个插槽21的设备可以直接互相通信功能以及具有热拔插功能的背板20，例如，背板也可以是由网络交换芯片构成的背板，这种背板实现插接于各个插槽21的设备通信的方式则是为各设备配置不同IP地址，而不是设置主设备和从设备。

继续参阅图1，AI训练推理服务器100还包括至少一块AI训练刀片40，其也插接于插槽21，用于接收主板10发送的AI软件算法和数据，根据AI软件算法和数据得到训练结果，并将训练结果通过背板20传送给AI推理刀片30。具体地，如图4所示，其为本发明实施例中AI训练刀片的示意图，AI训练刀片40主要由至少一块第二可编程芯片41组成，每一所述第二可编程芯片41连接至少一块记忆存储芯片42。因为AI训练所需的数据量较大，所以AI训练刀片40需要多个记忆存储芯片42来存储这些数据。其中，第二可编程芯片41可以是FPGA或ASIC芯片，其具有可编程的功能，在AI训练刀片40中，第二可编程芯片41主要用于接收主板10下发的AI软件算法和数据，并将数据存储于记忆存储芯片42中，且根据AI软件算法调用记忆存储芯片42内的数据进行计算，得到训练结果并通过背板20返回给AI推理刀片30。

AI训练刀片40分别与主板10和AI推理刀片30通过CPCI-Express背板进行数据交换的过程中，AI训练刀片40先是通过其第二可编程芯片41配置为从设备，从而可以接收主板10的数据。之后，当AI训练刀片40得到训练结果时，其第二可编程芯片41会将AI训练刀片40配置为主设备，使其能发送训练结果给AI推理刀片30。

和上述实施例相比，本实施例中的AI训练推理服务器100增加AI训练刀片40，使AI训练推理服务器100能同时具有AI训练和AI推理的功能。此外，AI训练刀片40和AI推理刀片30可以通过PCIe交换芯片的点对点技术，直接进行数据通信。带宽非常高、延时少，而且不需要主板10参与。可以降低主板10性能要求，也可以减少数据传到主板10带来的高延时问题。

可以理解的是：在其它实施例中，AI训练推理服务器100也可以仅包括AI训练刀片40而不不包括AI推理刀片30，即AI训练推理服务器100可以仅进行AI训练过程，而通过其它服务器进行AI推理过程。此外，AI训练刀片40的结构不仅限于上面描述的结构，也可以为其它结构，此处不再赘述。

请参阅图5，其示出了本发明第二实施例中AI训练推理服务器的原理图，其中，AI训练推理服务器100包括一个AI训练刀片40和多个AI推理刀片30。在进行AI训练推理的过程中，主板10先将AI软件算法和数据通过背板20下发到AI训练刀片40，AI训练刀片40根据AI软件算法和数据得到训练结果并将训练结果拆分通过背板20分别发送给各AI推理刀片30，同时，主板10也会将AI软件算法和数据通过背板20发送给各AI推理刀片30。此时，各AI推理刀片30分别根据其接收到的训练结果以及AI软件算法和数据得到计算结果，并将计算结果通过背板20返回给主板10，由主板10得到最终的推理结果。

可以理解的是：若AI软件的训练量较大，本实施例也可以增加AI训练刀片40，由多个AI训练刀片40分摊同一AI软件的训练量。

请参阅图6，其示出了本发明第三实施例中AI训练推理服务器的原理图，在本实施例中，AI训练刀片40和AI推理刀片30的数量相同，且每一AI训练刀片40和AI推理刀片30形成一个训练推理组。在进行AI训练推理的过程中，主板10将AI软件算法和数据进行划分并分别发送每一个训练推理组，由训练推理组中的AI训练刀片40得到训练结果并通过背板20发送给训练推理组中的AI推理刀片30使AI推理刀片30得到计算结果，并通过背板20返回计算结果给主板10。主板10再根据各训练推理组的计算结果得到最终的推理结果。

可以理解的是：根据实际AI软件算法的计算复杂程度的不同和数据量的多少，一个训练推理组中AI训练刀片40和AI推理刀片30的数量也可以不同，即也可以多个AI训练刀片40和AI推理刀片30组成一个训练推理组。

在一些实施例中，主板10的数量为至少2个，且各所述主板10之间通过背板20传输数据。由于主板10也可以提供通用计算功能，所以多块主板10的计算能力更强。各主板10可以分别进行不同的计算，并将计算结果通过背板20互相传递。

请参阅图7，其示出了本发明第四实施例中AI训练推理服务器的原理图，其中，AI训练推理服务器100包括至少两个主板10、一个AI训练刀片40和多个AI推理刀片30，其各主板10上皆运行不同的AI软件。在进行AI训练推理的过程中，各主板10将其对应AI软件的算法和数据通过背板20发送给同一AI训练刀片40，由同一AI训练刀片40得到各AI软件对应的训练结果。在进行AI推理过程时，AI训练刀片40将这些训练结果分别通过背板20发送给不同的AI推理刀片30，同时各主板10也将其对应AI软件的算法和数据通过背板20发送AI推理刀片30，使AI推理刀片30得到各AI软件对应的计算结果，并通过背板20将计算结果返回给对应的主板10，各主板10分别根据其获取的计算结果得到对应的推理结果。

可以理解的是：各主板10也可以共同执行同一AI软件的训练推理操作，即运行AI软件的主板10通过背板20将AI软件算法的计算量分摊到其它主板10上，各主板10仅将其被分配到的AI软件算法和数据部分下发到AI训练刀片40和AI推理刀片30，并各自通过从不同的AI推理刀片30得到的计算结果得到一推理结果，这些推理最终会通过背板20汇总到运行AI软件的主板10上，形成最终的推理结果。

请参阅图8，其示出了本发明第五实施例中AI训练推理服务器的原理图，和图6中的AI训练推理服务器100相同，本实施例也将一AI训练刀片40和AI推理刀片30形成一个训练推理组。不同的是，本实施例中的AI训练推理服务器100包含至少两个主板10，各主板10可以共同执行一个AI软件的训练推理过程或者分别执行不同的AI软件的训练推理过程。在共同执行一个AI软件的训练推理过程时，各主板10共同将AI软件算法和数据进行划分并分别发送每一个训练推理组，由训练推理组中的AI训练刀片40得到训练结果并通过背板20发送给训练推理组中的AI推理刀片30使AI推理刀片30得到计算结果，并通过背板20返回计算结果给各主板10。各主板10再根据各自接收到的计算结果得到推理结果，并汇总到同一主板10上得到最终的推理结果。在分别执行不同的AI软件的训练推理过程中，各主板10分别将其对应的AI软件算法和数据通过背板20下发到不同的训练推理组，由各训练推理组返回相应的计算结果给各主板10，使各主板10分别得到其对应AI软件的推理结果。

继续参阅图1，AI训练推理服务器100还包括电源刀片50和冗余电源刀片60，电源刀片50和冗余电源刀片60也插接于所述插槽21。其中，电源刀片50用于直接给主板10、AI训练刀片40和AI推理刀片30供电。而冗余电源刀片60是在电源刀片50故障时作为备用电源。

可以理解的是：电源刀片50和冗余电源刀片60也可以省略，AI训练推理服务器100可以直接通过外接电源来供电。

继续参阅图1，AI训练推理服务器100还包括拓扑管理模块70，拓扑管理模块70也可以制作成刀片的形式插接于插槽21，用于配置主板10、AI推理刀片30和AI训练刀片40之间的拓扑关系。其中，拓扑关系是指主板10、AI推理刀片30和AI训练刀片40之间的连接关系，由于不同的AI软件的算法复杂程度和数据量不同，所以对于不同AI软件所需的AI推理刀片30和AI训练刀片40也会不同，因此当主板10上执行不同的AI软件时，拓扑管理模块70需要调整主板10、AI推理刀片30和AI训练刀片40之间的拓扑关系，以适应相应的AI软件。例如，若AI训练推理服务器100包括主板c1和c2、AI训练刀片a1和a2以及AI推理刀片b1、b2、b3和b4。当主板c1执行AI软件A1时，其通过背板20连接的AI训练刀片a1和AI推理刀片b1和b2，即AI软件A1的训练和推理过程由AI训练刀片a1和AI推理刀片b1和b2完成。当主板c1执行算法复杂程度更高的AI软件A2时，其需要更多的AI推理刀片30。因此，可以通过拓扑管理模块70使主板c1通过背板20连接的AI训练刀片a1和AI推理刀片b1、b2和b3。

此外，拓扑管理模块70还可以用于将主板10、AI推理刀片30和AI训练刀片40配置为主设备或从设备。例如在主板之间互相传递数据时，拓扑管理模块70可以将部分主板配置为从设备，而在主板下发AI软件算法和数据时，拓扑管理模块70又能够将这些主板重新配置为主设备。和直接通过各主板10的CPU来配置主设备和从设备相比，通过拓扑管理模块70来进行这些主板10在主设备和从设备之间互相切换更为简单方便。

请参阅图9，图9示出了本发明另一实施例提供的一种AI训练推理服务器的结构示意图。本实施例中的AI训练推理服务器100为机架式或塔式服务器整机，即类似台式电脑的主机。其中，AI训练推理服务器100内设置有由CPU和内存条构成的主机以及和CUP电连接的PCLe交换芯片，并且AI训练推理服务器100外设置有PCLe槽，其与PCLe交换芯片电连接。而AI推理刀片30和AI训练刀片40可以设计成PCIe卡的结构，插接于PCLe槽内，从而可以实现服务器的AI训练和推理过程。

本发明实施例的AI训练推理服务器100包括主板10、背板20和至少一块AI推理刀片30，其中，主板10与背板20连接，背板20设置有插槽21，AI推理刀片30插接于插槽21内，且AI推理刀片30主要由至少一块第一可编程芯片31组成，每一第一可编程芯片31连接至少一块AI芯片32。当主板10中的AI软件运行时，主板10会根据AI软件上执行的指令通过背板20下发AI软件算法和数据给AI推理刀片30，AI推理刀片30中的各AI芯片32根据AI软件算法和数据得到计算结果，之后AI推理刀片30中的第一可编程芯片31再将各AI芯片32得到的计算结果汇总并通过背板20返回给主板10，主板10最后根据各计算结果得到推理结果，即AI软件上执行的指令的运行结果。和直接通过CPU和GPU进行AI算法的计算相比，本发明实施例将算法和数据下发到AI芯片32进行计算，AI芯片32的具有AI算法专用指令，其算力更高、功耗和成本更低。此外，本发明实施例还可以根据AI软件中算法的计算量大小而增加或减少AI推理刀片30中的AI芯片32，或者增加或减少插入插槽21的AI推理刀片30的数量，其灵活度更高。而和利用云服务器进行AI算法计算相比，本发明实施例直接通过背板20连接主板10和AI推理刀片30，其信息的传输速度更快，延迟更低，并且成本和功耗也更低。

图10示出了本发明实施例提供的一种AI训练推理服系统的示意图。如

图10所示，AI训练推理服系统200包括网络交换机201、通用服务器202和至少一个AI推理服务器203。其中，网络交换机201分别与通用服务器202和AI推理服务器203互相通信连接。具体地，通信连接的方式可以采用蓝牙、WIFI或物联网等通信方式。通用服务器202用于通过网络交换机201下发AI软件算法和数据给AI推理服务器203，AI推理服务器203用于通过AI软件算法和数据得到计算结果，并通过网络交换机201将计算结果返回给通用服务器202，通用服务器202还用于根据计算结果得到推理结果。

继续参阅图10，AI训练推理服系统200还包括至少一个AI训练服务器204，AI训练服务器204与网络交换机201通信连接，用于通过网络交换机201接收通用服务器202发送的AI软件算法和数据，根据AI软件算法和数据得到训练结果，并将训练结果通过网络交换机201传送给AI推理服务器203。

在一些实施例中，AI训练推理服系统200中的AI训练服务器204还可以被替换为超级计算机，超级计算机与网络交换机201通信连接，用于通过网络交换机201接收通用服务器202发送的AI软件算法和数据，根据AI软件算法和数据得到训练结果，并将训练结果通过网络交换机201传送给AI推理服务器203。超级计算机的算力更大，通过超级计算机来得到训练结果更加快速。

继续参阅图10，AI训练推理服系统200还包括拓扑管理服务器205，其与网络交换机201通信连接，用于配置通用服务器202、AI推理服务器203和AI训练服务器204之间的拓扑关系。

本发明实施例的AI训练推理系统包括网络交换机201、通用服务器202和至少一个AI推理服务器203。其中，网络交换机201分别与通用服务器202和AI推理服务器203互相通信连接，通用服务器202可以通过网络交换机201将AI软件算法所需的计算量分别给多个AI推理服务器203，从而加快了AI软件算法的计算过程。此外，本发明实施例还可以根据AI软件中算法的计算量大小而增加或减少与交换机通信连接的AI推理服务器203的数量，其灵活度更高。同时利用网络交换机201传递信息，其传输速度更快，延迟更低，并且成本和功耗也更低。

图11示出了本发明实施例提供的一种AI训练推理方法的流程图。如图11所示，AI训练推理服方法包括：

步骤S110：主板通过背板下发AI软件算法和数据。

步骤S120：AI推理刀片通过背板接收AI软件算法和数据，并根据所述AI软件算法和数据得到计算结果。

步骤S130：主板通过背板接收所述计算结果，并根据所述计算结果得到推理结果。

图12示出了本发明另一实施例提供的一种AI训练推理服方法的流程图。如图12所示，在步骤S120之前，方法还包括：

步骤S210：AI训练刀片通过背板接收AI软件算法和数据，并根据所述AI软件算法和数据得到训练结果。

步骤S220：AI训练刀片通过背板将所述训练结果返回给AI推理刀片。

本发明实施例中主板通过将计算量分摊给多个AI推理刀片，使各AI推理刀片分别计算得到一个计算结果再返回给主板，使主板得到最终的推理结果，从而使主板中AI软件的运算更快，因为其运算过程同时由多个AI推理刀片执行。此外，背板可以使插接于其插槽的设备直接互相通信，从而使主板、AI推理刀片和AI训练刀片之间的通信更加快速，延迟更少。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种AI训练推理服务器，其特征在于，包括主板、背板和至少一块AI推理刀片，其中：

所述主板主要由CPU组成，所述主板和所述背板连接，用于通过所述背板下发AI软件算法和数据；

所述背板设置有插槽；

所述AI推理刀片插接于所述插槽，所述AI推理刀片主要由至少一块第一可编程芯片组成，每一所述第一可编程芯片连接至少一块AI芯片；所述AI推理刀片用于接收所述AI软件算法和数据，并根据所述AI软件算法和数据得到计算结果，将所述计算结果通过背板发送给所述主板；

所述主板还用于通过所述背板接收所述计算结果，并根据所述计算结果得到推理结果。

2.如权利要求1所述的服务器，其特征在于，所述方法还包括：所述背板为CPCI-Express背板，其具有热拔插功能；所述CPU用于将所述主板配置为主设备，所述第一可编程芯片用于将所述AI推理刀片配置为从设备，所述CPCI-Express背板用于使所述主设备和所述从设备互相通信。

3.如权利要求2所述的服务器，其特征在于，所述服务器还包括：至少一块AI训练刀片，所述AI训练刀片插接于所述插槽，用于接收所述主板发送的所述AI软件算法和数据，根据所述AI软件算法和数据得到训练结果，并将所述训练结果通过所述背板传送给所述AI推理刀片。

4.如权利要求3所述的服务器，所述AI训练刀片主要由至少一块第二可编程芯片组成，每一所述第二可编程芯片连接至少一块记忆存储芯片；所述第二可编程芯片用于在所述AI训练刀片得到所述训练结果时将所述AI训练刀片配置为主设备。

5.如权利要求4所述的服务器，其特征在于，所述主板的数量为至少2个，各所述主板之间通过所述CPCI-Express背板传输数据。

6.如权利要求1或2所述的服务器，其特征在于，所述服务器还包括电源刀片和冗余电源刀片，所述电源刀片和冗余电源刀片插接于所述插槽。

7.如权利要求5所述的服务器，其特征在于，所述服务器还包括拓扑管理模块，所述拓扑管理模块插接于所述插槽，用于将所述主板、AI推理刀片和AI训练刀片配置为主设备或从设备，且用于配置所述主板、AI推理刀片和AI训练刀片之间的拓扑关系。

8.一种AI训练推理服系统，其特征在于，包括：网络交换机、通用服务器和至少一个AI推理服务器；所述网络交换机分别与所述通用服务器和AI推理服务器互相通信连接，所述通用服务器用于通过所述网络交换机下发AI软件算法和数据给所述AI推理服务器，所述AI推理服务器用于通过所述AI软件算法和数据得到计算结果，并通过所述网络交换机将所述计算结果返回给所述通用服务器，所述通用服务器还用于根据所述计算结果得到推理结果。

9.如权利要求8所述的系统，其特征在于，所述系统还包括至少一个AI训练服务器，所述AI训练服务器与所述网络交换机通信连接，用于通过所述网络交换机接收所述通用服务器发送的所述AI软件算法和数据，根据所述AI软件算法和数据得到训练结果，并将所述训练结果通过所述网络交换机传送给所述AI推理服务器。

10.如权利要求8所述的系统，其特征在于，所述系统还包括超级计算机，所述超级计算机与所述网络交换机通信连接，用于通过所述网络交换机接收所述通用服务器发送的所述AI软件算法和数据，根据所述AI软件算法和数据得到训练结果，并将所述训练结果通过所述网络交换机传送给所述AI推理服务器。

11.一种AI训练推理方法，应用于如权利要求1-7任一项所述的AI训练推理服务器，其特征在于，所述方法包括：

主板通过背板下发AI软件算法和数据；

AI推理刀片通过背板接收AI软件算法和数据，并根据所述AI软件算法和数据得到计算结果；

主板通过背板接收所述计算结果，并根据所述计算结果得到推理结果。