CN111159093A

CN111159093A - 异构智能计算系统

Info

Publication number: CN111159093A
Application number: CN201911166508.8A
Authority: CN
Inventors: 尹家伟; 冒睿瑞; 张浩博; 高明柯; 王熠
Original assignee: CETC 32 Research Institute
Current assignee: CETC 32 Research Institute
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2020-05-15
Anticipated expiration: 2039-11-25
Also published as: CN111159093B

Abstract

本发明提供了一种异构智能计算系统，包括：计算模块：对待处理数据进行计算；IO模块：将各接口进行连线；风扇模块：控制转速；电源模块：提供能源并进行自检；管理模块：对机箱风扇模块和电源模块进行管理；监控模块：对所有模块进行监控和维护。本发明减少了数据交互次数，从而提高计算效率；对系统中各模块进行监控，便于运维人员及时、方便、快捷的完成对整个数据中心的运营与维护。

Description

异构智能计算系统

技术领域

本发明涉及通信技术领域，具体地，涉及一种异构智能计算系统。

背景技术

经过60多年的演进，特别是在移动互联网、大数据、超级计算、传感网、脑科学等新理论新技术以及经济社会发展强烈需求的共同驱动下，人工智能加速发展，呈现出深度学习、跨界融合、人机协同、群智开放、自主操控等新特征。大数据驱动知识学习、跨媒体协同处理、人机协同增强智能、群体集成智能、自主智能系统成为人工智能的发展重点，受脑科学研究成果启发的类脑智能蓄势待发，芯片化硬件化平台化趋势更加明显，人工智能发展进入新阶段。

近两年国内的人工智能处理器也如火如荼，如百度AI开发者大会正式发布Dueros语音系统，无人驾驶平台Apollo1.0自动驾驶平台；华为发布全球第一款AI 移动芯片麒麟970。

最为知名的寒武纪深度神经网络处理器架构采用硬件神经元和硬件突触作为运算器，并为神经网络的高速连接设计了存储结构，另外还专门设计了与通用处理器完全不同的指令集。最新推出的寒武纪-1A(Cambricon-1A)商用智能处理器IP产品，可集成至各类终端SoC芯片，每秒可处理160亿个虚拟神经元，每秒峰值运算能力达2万亿虚拟突触，性能比通用处理器高两个数量级，功耗降低了一个数量级。该处理器荣获第三届世界互联网大会“世界互联网领先科技成果”奖项。寒武纪还描述了其未来三年的发展路线图：力争在3年后占据中国高性能芯片30％的市场份额，并使得全世界10亿台以上的智能终端集成寒武纪处理器，打造中国主导的高性能芯片新生态。作为寒武纪的投资方，联想集团将与寒武纪共同开发人工智能服务器产品，共同推进智能互联网的发展。

继2015年推出“数据中国”战略之后，中科曙光在重大战略方面的新举措。中科曙光方面介绍称，目标是通过先进、高效的智能计算，让数据变成智慧知识和智能服务能力。具体行动方面，曙光试图打造完整的人工智能计算产品线，支持适用于不同应用场景的多种芯片，同时促进高性能计算、大数据、云计算和深度学习等多元计算模式的深入融合。一方面是产品，曙光正式推出“全浸没式液冷AI训练专用服务器”。这是针对AI服务器集群存在的高耗能、空间部署密度低、高噪音等痛点给出的产品方案。该服务器在效能上，可以实现相较节电40％的效果，同时可以消除对数据中心运维环境和科研办公室噪音污染等困扰。此外，曙光还联手中科院“兄弟公司”寒武纪，研发推出“全球首款基于寒武纪芯片的AI推理专用服务器” Phaneron。Phaneron在硬件神经元虚拟化、寒武纪深度学习指令集、Caffe、Mxnet、 TensorFlow等支持和应用方面，都会有不俗表现。

在提供AI计算硬件的基础上，曙光推出了人工智能管理平台—“SothisAI”。“SothisAI”主打异构融合、简单易用、弹性灵活、可快速部署等，希望协助用户快速释放AI所需的计算力。在AI应用层面，曙光推出了“超大规模公共安全视频内容分析系统”，该系统的核心特点是深度整合N+1层神经网络、万路大规模视频并发处理和10万亿数据秒级查询响应等。除了安防，曙光的AI相关产品还被部署在互联网、广媒娱乐、制造与自动化、金融、医疗、环境、物流交通、零食和新业应用等领域。

2017年7月12日，浪潮发布了新一代M5服务器家族，其中最引人瞩目的莫过于号称全球首款2U8 NVLink^TM GPU密度最高、性能最强的AI服务器NF5288M5。这款产品是浪潮与NVDIA联合研发的创新计算平台，能满足AI云、深度学习模型训练和线上推理等各类AI应用场景对计算架构性能、功耗的不同需求。该服务器在2U 的计算节点里边集成八颗NVLink的P100/V100 GPU，这是目前业界计算密度最高的一个平台了。

浪潮还设计了弹性扩展的GPU与计算节点分离的平台，可以面向不同的AI计算的应用类型，比如语音识别和图像识别，比如面向视频流的识别，面向文字的识别。它对通用处理器和加速器的配比会有不同的需求，对系统的带宽会有不同的需求，对存储会有不同的需求，对内存、缓存能力的需要也会有不同的需求。

在一些具体的运维环境里面，浪潮也做了一些新的创新，比如说和百度合作了可以插16个GPU卡的GPUBox，实际上这是可以解耦的一个平台，可以通过GPUBox 里边不同的分区，把16个GPU分散给不同的节点，来实现面向不同的应用的灵活性。

浪潮也对基于FPGA的一些AI算法应用进行了实践。AI有两大应用，一类是训练，一类是识别。对于训练，在一些数据中心服务应用里面，FPGA是一个非常好的实现。从定制化的角度来看，定制的ASIC可能是更好的办法，会有更高的性能功耗比，但是针对到某一个具体的应用上，面临着能不能达到做一个芯片的经济规模，或者说我们能不能在有限的时间内快速部署的问题。

嵌入式设备并不总是独立作战，一些计算复杂度较高的任务会采用“云+端”的处理架构，一个例子是锤子手机新品发布会上演示的科大讯飞输入法，通过语音输入转换为文字，准确率达97％，其背后是基于深度学习的语音识别系统，单纯依靠移动端是难以实现的，即使实现了也会有诸如手机发烫、电池不够用等问题，将任务合理分工，“云+端”协作完成复杂任务，可以大幅提升用户体验。

异构智能计算平台是人工智能时代占领战略制高点的核心技术，本研究内容面向新型数据中心基础设施对人工智能和大数据等新型应用需求，采用自主可控软硬件技术体制，运用先进的异构协同高效能体系结构，研究基于国产多核/众核处理器 +协处单元加速部件相融合的高效能异构并行智能处理架构，研制基于国产多核/众核CPU的高性能服务器硬件基础平台、高效能可重构的AI智能计算协处理加速单元 (Intelligence ProcessingUnit，IPU)、高效能AI软件运行和支撑框架等，并在上述成果基础上研制形成国产自主可控异构智能计算平台，并实现基于典型人工智能算法的应用验证。面向军事装备智能、新疆反恐等国家重大安全需求开展应用移植，适度定制自主可控异构智能计算平台解决方案。

自主可控异构智能计算平台是面向新一代人工智能的基础设施。它针对人工智能和大数据等新型应用需求，采用自主可控软硬件技术体制，运用先进的异构协同高效能体系结构，研制基于国产多核/众核处理器+协处单元加速部件相融合的高效能异构并行智能处理架构和高效能人工智能计算基础设施。

专利文献CN206489563U(申请号：201720117916.4)公开了一种异构计算系统，属于数据处理领域。该系统包括管理服务器、HUB、集中式运算集群和分布式运算集群；分布式运算集群包括n种计算卡，每个普通计算机至少包括一种计算卡；集中式运算集群中包括n种计算卡，每个服务器至少包括一种计算卡；管理服务器通过 HUB与各个普通计算机建立间歇性通信连接；管理服务器通过HUB与各个服务器建立持续性通信连接

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种异构智能计算系统。

根据本发明提供的异构智能计算系统，包括：

计算模块：对待处理数据进行计算；

IO模块：将各接口进行连线；

风扇模块：控制转速；

电源模块：提供能源并进行自检；

管理模块：对机箱风扇模块和电源模块进行管理；

监控模块：对所有模块进行监控和维护。

优选地，所述计算模块包括通用计算模块和异构计算模块；

所述通用计算模块、异构计算模块和IO模块，根据高速串行计算机扩展总线标准PCIe进行连接，形成统一的计算节点；

所述计算节点包括全宽节点和半宽节点；

所述计算节点包括通用计算节点和异构计算节点。

优选地，在计算节点上进行拓扑配置，得到全宽节点级联型拓扑，包括：CPU 和GPU的比例为1:8，支持GPUDirect RDMA和8个GPU之间P2P，包括：配置Tesla v100GPU，通过NVlink实现。

优选地，在计算节点上进行拓扑配置，得到全宽节点均衡型拓扑，包括：CPU 和GPU的比例或者CPU和IPU的比例为1:4，支持GPUDrect RDMA与4个GPU或者 IPU之间P2P，包括：配置Tesla v100GPU，通过NVlink实现；或者配置IPU通过 NoC实现。

优选地，在计算节点上进行拓扑配置，得到半宽节点级联型拓扑，包括：支持 16张半高半长的GPU或IPU卡，CPU与GPU的比例或者CPU与IPU的比例为1：8。

优选地，所述计算节点包括：两个CPU的PCIe x16端口通过Mezz扣卡与异构计算节点内的两个PCIe Switch连接；每个PCle Switch扩展4个x16的PCle半高半长单槽位卡和2个X4的PCIE IO卡槽位；

通用计算节点向前面板引出通用接口，包括：VGA、USB和管理网络接口；

所述单槽位卡和卡槽位连接预设接口，从后面板引出。

优选地，所述管理模块包括：根据隐马尔可夫模型HMM和基板管理控制器BMC 进行二级管理；

每个服务器节点BMC承担自身管理；

HMM对机箱进行管理，包括风扇管理、电源管理和机箱资产管理；

HMM和BMC接口通过机箱内置的交换机进行汇聚，并对外提供GE接口。

优选地，所述风扇管理包括：HMM通过I2C总线管理所有风扇模块的调速和警告，风扇模块接收HMM的管理命令，并输出PWM信号控制风扇，HMM依据各单板上温度敏感器件的温度和环境温度，确定合适的转速，然后将转速下发给风扇模块进行控制。

优选地，所述电源管理包括：HMM通过两条I2C总线管理电源模块，每条I2C 管理两个电源模块，HMM对电源模块输出功率进行查询，电源模块进行在位检测，将电源告警主动上报。

优选地，所述异构智能计算系统还包括：

数据存储模块：存储智能芯片加速器计算所需的大量数据，减少智能芯片加速器与主机端的数据的交互次数；

总线传输模块：在加速器板卡与主机端之间进行通信和控制，通过总线控制协议，主机端传输数据到板载存储器中，通过总线控制任务的启动与运行过程，接收最后的计算结果。

与现有技术相比，本发明具有如下的有益效果：

1、在现有的intel平台中集成国产的IPU单元，同时采用国产CPU进行异构智能计算平台设计，并搭配自主的深度学习软件和算法框架，形成自主可控的人工智能基础设施解决方案，具备向自主可控敏感的应用领域拓展的潜能；

2、减少加速器与主机端的数据交互次数，从而提高计算效率；

3、对系统中各模块进行监控，便于运维人员及时、方便、快捷的完成对整个数据中心的运营与维护

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为硬件架构框图；

图2为全宽节点级联型拓扑图；

图3为全宽节点均衡型拓扑图；

图4为半款宽节点级联型拓扑；

图5为intel计算节点设计图；

图6为飞腾计算节点设计图；

图7为兆芯计算节点设计图；

图8为管理系统图；

图9为智能板卡系统总结架构图；

图10为异构智能计算平台软件架构框图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

根据本发明提供的异构智能计算系统，包括：

系统架构设计：

智慧医疗，智慧社会，智慧城市，反恐智脑，智慧司法等是人工智能的主要应用领域，其中涉及医学图像处理、人脸识别、步态识别、语音识别、异常行为检测、目标检测和自然语言处理等技术。这些技术以图像、音频和视频数据为基础，在TensorFlow、 Caffe、Keras、Torch等深度学习框架下，采用CNN(卷积神经网络)、RNN(递归神经网络)、GAN(生成对抗网络)、LSTM(长短时期记忆)、DBN(深度信念网络)、AM(注意力模型)等深度学习算法进行训练和识别。深度学习算法具有海量数据并行运算的需求，在服务器市场中，通用的服务器通常包含CPU和GPU，GPU作为深度学习的加速器参与绝大部分的深度学习训练方面的并行计算；而机器学习推理以及特征识别方面GPU 优势不明显，因其功耗过高，能耗比较低，因此机器学习推理以及特征识别一般采用FPGA 和智能ASIC芯片。

为实现深度学习训练、机器学习推理以及特征识别算法的协同高效，本文设计的异构智能计算平台采用自主可控CPU和IPU(AI芯片)以及GPU和FPGA的异构架构，CPU 拥有专为顺序逻辑处理而优化的几个核心组成的串行架构，这决定了其更擅长逻辑控制、串行运算与通用类型数据运算；GPU拥有一个由数以千计的更小、更高效的核心组成的大规模并行计算架构，更擅长处理多重任务，尤其是深度学习训练类的重复性工作； FPGA可以通过硬件编程实现的硬件架构优化得很适合特定的机器学习应用，在图像、视频的预处理或特征识别等特定算法上FPGA的能效比较GPU有明显提升；IPU ASIC如寒武纪等，在机器学习推断任务上在能耗和成本方面较FPGA有更进一步的提高。在这之上构建具备柔性资源感知的核心调度框架，通过对业务结构模型和应用模型的分析，构建标准化的计算资源模型描述库，能够实时动态针对任务特点，进行最合理、高效的任务调度和资源处理。

本发明设计的异构智能计算平台与通用服务器相比具备强大的并行运算能力，与其他异构智能计算平台相比最大的优势在于基于国产处理器的异构架构设计和面向自主可控ai芯片的深度学习框架的优化，能够为图像识别，目标识别和行为识别等领域提供任务动态管理框架，结合异构架构和应用模型分析，确定任务分配的粒度，所需的资源类型和资源间交互方式，能够针对图像，目标和行为等不同识别业务，提供最优化的任务分配方案和资源处理与通信开销。通过异构架构的设计和对深度学习框架的优化，能够实现深度学习训练和识别的双向处理最大化。

异构智能计算平台硬件组成上分为通用计算模块、异构计算模块(GPU/FPGA/智能IPU)、IO模块、机箱管理模块、风扇模块和电源模块。

通用计算模块、异构计算模块和IO模块通过背板高速业务总线(PCIe)连接，逻辑上形成统一的计算节点，计算节点支持全宽和半宽两种物理形态。IO模块配置标准的 PCIe卡对外提供通用接口，计算节点可以通过管理模块对外提供管理结构。

所有模块通过背板管理总线连接，由管理模块统一管理，管理模块负责整个机箱的节点、风扇和电源管理。

AI的一体化系统架构我们依据“资源虚拟化、功能构建化和应用智能化”的原则设计，底层提供异构计算、存储和高速网络资源池，向上通过国产操作系统和资源虚拟化来支撑资源的动态调度。通过系统管理平台实现对各种深度学习框架的支撑和整合，以功能构建化来支撑各类人工智能技术，实现以智能化的应用服务于各典型的人工智能领域。

硬件设计：

如图1所示，为硬件架构框图，异构智能计算平台支持多种配置和逻辑拓扑。全宽节点支持级联型和均衡性两种拓扑，并可通过管理软件进拓扑配置，快速适配不同的AI 应用场景，获得最佳应用性能。半宽节点支持高密推理性拓扑。

全宽节点级联型拓扑如图3所示。CPU(该拓扑下采用带片间通信功能的处理器)和GPU的比例为1:8，支持GPUDirectRDMA和8个GPU之间P2P(配置Tesla v100GPU，通过NVlink实现)，适合于较大规模的深度学习训练场景。

全宽节点均衡型拓扑如图4所示。CPU和GPU(或IPU)的比例为1:4，支持GPUDrectRDMA和4个GPU(或IPU)之间P2P(配置Tesla v100GPU，通过NVlink实现；配置IPU通过NoC实现)，适合于中小规模的深度学习训练、推理。

半款宽节点级联型拓扑如图5所示。半宽最大支持16张半高半长的GPU或IPU卡，CPU和GPU(或IPU)的比例为1：8，适合于高性能推理场景。

全款或半款通用计算节点的两个CPU(包括intel X86、FT2000和兆芯KH20000)的PCIe x16端口通过Mezz扣卡与异构计算节点内的两个PCIe Switch连接。在异构计算节点内，每个PCle Switch扩展4个x16的PCle半高半长单槽位卡和2个X4的PCIE IO 卡槽位可支持高速网络接口或其他定制接口从后面板引出。通用计算节点可向前面板引出VGA、USB和管理网络等通用接口。

如图6所示，采用Intel处理器的计算节点；

如图7所示，采用飞腾2000处理器的逻辑结构；

如图8所示，采用兆芯处理器的逻辑结构；

管理节点设计：

异构智能计算平台采用HMM+BMC二级管理架构，每个服务器节点BMC承担自身管理(IPMI/KVM/虚拟光驱)。机箱管理有HMM实现，机箱管理包括风扇管理、电源管理和机箱资产管理。

HMM和BMC接口通过机箱管理模块内置的交换机进行汇聚，并对外提供GE接口，可通过外出GE接口访问HMM模块和iBMC模块，对机框和节点进行管理。

风扇的控制管理：HMM通过I2C总线几种管理所有风扇模块的调速和警告，风扇模块接收HMM的管理命令，并输出PWM信号控制风扇，HMM依据各单板上温度敏感器件的温度和环境温度，通过华为的调速算法确定合适的转速，然后将转速下发给风扇模块进行控制。

电源的监控管理：HMM通过两条I2C总线管理电源模块，每条I2C管理两个电源模块，同时HMM提供GPIO管脚检测电源模块的在位和PWROK。HMM支持电源模块输出功率查询，电源模块在位检测，电源告警主动上报。异构智能计算平台管理系统图如图9所示。

智能计算单元(IPU)设计：

智能计算单元主要围绕智能计算芯片开展设计，智能计算单元的总体架构，如图10 所示，主要功能部件可以分为数据存储子系统，总线传输子系统以及接口电路和智能芯片加速器这四部分。其中最主要的是数据存储子系统和总线传输子系统。

数据存储子系统，主要功能为存储智能芯片加速器计算所需的大量数据，作为外部存储，使得加速器能够进行大规模的计算任务，同时减少与主机端的数据交互次数，从而提高计算效率。

总线传输子系统，主要负责加速器板卡与主机端之间的通信和控制任务，通过总线控制协议，主机端能够传输数据到板载存储器中，同时通过总线控制任务的启动与运行过程，接收最后的计算结果。

软件架构设计

如图10所示，为自主可控异构智能计算平台软件架构图，硬件层通过国产操作系统形成各个计算资源、存储资源、网络资源和管理资源节点，并通过网络进行互联。分布式文件将存储资源池化，为应用提供文件存储服务、块存储服务和对象存储服务；系统监控管理对外提供硬件监控、网络拓扑监控、计算资源监控、存储资源监控、虚拟资源监控和应用资源监控，便于运维人员及时、方便、快捷的完成对整个数据中心的运营与维护。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种异构智能计算系统，其特征在于，包括：

计算模块：对待处理数据进行计算；

IO模块：将各接口进行连线；

风扇模块：控制转速；

电源模块：提供能源并进行自检；

管理模块：对机箱风扇模块和电源模块进行管理；

监控模块：对所有模块进行监控和维护。

2.根据权利要求1所述的异构智能计算系统，其特征在于，所述计算模块包括通用计算模块和异构计算模块；

所述计算节点包括全宽节点和半宽节点；

所述计算节点包括通用计算节点和异构计算节点。

3.根据权利要求2所述的异构智能计算系统，其特征在于，在计算节点上进行拓扑配置，得到全宽节点级联型拓扑，包括：CPU和GPU的比例为1:8，支持GPUDirect RDMA和8个GPU之间P2P，包括：配置Tesla v100GPU，通过NVlink实现。

4.根据权利要求2所述的异构智能计算系统，其特征在于，在计算节点上进行拓扑配置，得到全宽节点均衡型拓扑，包括：CPU和GPU的比例或者CPU和IPU的比例为1:4，支持GPUDrect RDMA与4个GPU或者IPU之间P2P，包括：配置Tesla v100GPU，通过NVlink实现；或者配置IPU通过NoC实现。

5.根据权利要求2所述的异构智能计算系统，其特征在于，在计算节点上进行拓扑配置，得到半宽节点级联型拓扑，包括：支持16张半高半长的GPU或IPU卡，CPU与GPU的比例或者CPU与IPU的比例为1：8。

6.根据权利要求2所述的异构智能计算系统，其特征在于，所述计算节点包括：两个CPU的PCIe x16端口通过Mezz扣卡与异构计算节点内的两个PCIe Switch连接；每个PCleSwitch扩展4个x16的PCle半高半长单槽位卡和2个X4的PCIE IO卡槽位；

所述单槽位卡和卡槽位连接预设接口，从后面板引出。

7.根据权利要求1所述的异构智能计算系统，其特征在于，所述管理模块包括：根据隐马尔可夫模型HMM和基板管理控制器BMC进行二级管理；

每个服务器节点BMC承担自身管理；

8.根据权利要求1所述的异构智能计算系统，其特征在于，所述风扇管理包括：HMM通过I2C总线管理所有风扇模块的调速和警告，风扇模块接收HMM的管理命令，并输出PWM信号控制风扇，HMM依据各单板上温度敏感器件的温度和环境温度，确定合适的转速，然后将转速下发给风扇模块进行控制。

9.根据权利要求1所述的异构智能计算系统，其特征在于，所述电源管理包括：HMM通过两条I2C总线管理电源模块，每条I2C管理两个电源模块，HMM对电源模块输出功率进行查询，电源模块进行在位检测，将电源告警主动上报。

10.根据权利要求1所述的异构智能计算系统，其特征在于，还包括：