CN109993303A

CN109993303A - 用于神经网络与深度学习的计算机加速装置

Info

Publication number: CN109993303A
Application number: CN201910247464.5A
Authority: CN
Inventors: 刘永明; 徐伟峰; 车县伟; 田秋燕
Original assignee: Henan Jiuqian Electronic Technology Co Ltd
Current assignee: Henan Jiuqian Electronic Technology Co Ltd
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-07-09
Anticipated expiration: 2039-03-29
Also published as: CN109993303B

Abstract

本发明提供了一种用于神经网络与深度学习的计算机加速装置，包括：系统主模块、配置模块、时钟模块、存储缓存模块、对外接口模块、感测模块、可控模块和二次电源模块；系统主模块包括FPGA；配置模块，通过将固化完成的可执行程序配置到系统主模块中；存储缓存模块，用于辅助系统主模块进行数据缓存和数据处理，以及进行关键数据的存储；对外接口模块，用于与系统外部对接，实现数据的输入和输出；感测模块，用于监测系统的温度及电源情况，并且向系统主模块反馈信息；可控模块，用于负责控制系统内风扇的运行，以及实现系统中按钮的控制功能与LED灯的显示功能；二次电源模块，用于将外部输入的电源转化为二次电源，为系统中各模块提供工作所需电压。

Description

用于神经网络与深度学习的计算机加速装置

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种用于神经网络与深度学习的计算机加速装置。

背景技术

神经网络是一种模仿生物神经网络（动物的中枢神经系统，特别是大脑）的结构和功能的计算模型，用于对函数进行估计或近似。深度学习是通过学习将世界使用嵌套的概念层次来表示并实现巨大的功能和灵活性，其中，每个概念都定义为与简单概念相关联，而更为抽象的表示则以较不抽象的方式来计算。神经网络与深度学习具有类似的分层结构而训练机制不同，但随着人工智能的飞速发展，得到了愈加广泛的重视，并在多种系统中得到应用。

然而，神经网络与深度学习的在线模型训练和推理中需要大量的计算存在数据计算量巨大、处理规则繁多、响应实时性要求高的问题，受限于其算法和计算本身的特性，现有的通用计算系统如CPU和GPU在处理这类计算模式时效率较低，而且随着神经网络与深度学习在线训练和推理数据的爆发式增长，传统计算芯片的算力更加无法满足计算需求，即使通过多核累加的方式提升了计算容量，但是处理延时大，且设备成本昂贵，运行功耗大，不适用于普遍用户。

发明内容

本发明正是基于上述技术问题至少之一，提出了一种新的用于神经网络与深度学习的计算机加速装置，整体结构设计合理，支持神经网络与深度学习中计算容量和实时性的需求，提高了计算速率和效率。

有鉴于此，本发明提出了一种新的用于神经网络与深度学习的计算机加速装置，包括：系统主模块、配置模块、时钟模块、存储缓存模块、对外接口模块、感测模块、可控模块和二次电源模块；其中，所述系统主模块包括FPGA，用于计算加速架构及算法的实现，同时通过数据交互，实现存储缓存模块、对外接口模块、感测模块以及可控模块的功能；所述配置模块，通过将固化完成的可执行程序配置到所述系统主模块中，以使系统主模块正确执行其功能；所述时钟模块，用于为所述系统主模块执行程序提供工作时钟，以及为所述对外接口模块数据传输提供参考时钟；所述存储缓存模块，用于辅助系统主模块进行数据缓存和数据处理，以及进行关键数据的存储；所述对外接口模块，用于与系统外部对接，实现数据的输入和输出；所述感测模块，用于监测系统的温度及电源情况，并且向所述系统主模块反馈信息；所述可控模块，用于负责控制系统内风扇的运行，以及实现系统中按钮的控制功能与LED灯的显示功能；所述二次电源模块，用于将外部输入的电源转化为二次电源，为系统中各模块提供工作所需电压。

在该技术方案中，系统主模块为FPGA，且围绕FPGA配置其他模块，整个装置基于FPGA实现了适用于神经网络与深度学习的专用计算架构，采用数据驱动并行计算的架构，以数据流为中心进行计算，同时兼顾了神经网络与深度学习中计算容量和实时性的需求，实现了计算速率和效率的多倍提升

在上述技术方案中，优选地，所述配置模块通过JTAG方式或者AS方式将固化完成的可执行程序配置到所述系统主模块中。其中，JTAG方式掉电不可复原需要重新配置，而AS方式掉电可以恢复配置。

在上述任一项技术方案中，优选地，所述配置模块包含USB Blaster接口和MAX II系列的CPLD。

在上述任一项技术方案中，优选地，所述时钟模块包含三片固定频率晶振输出单元和两片可编程晶振输出单元。

在上述任一项技术方案中，优选地，所述存储缓存模块包含两片闪存、两片规格为DDR4 SDRAM的存储器和四片规格为QDRII+ SRAM的存储器。

在上述任一项技术方案中，优选地，所述对外接口模块包含四片规格为QSFP+的光电接口、PCIe接口和SMA接口。

在该技术方案中，PCIe（Peripheral Component Interconnect express, 高速串行计算机扩展总线标准）适合于主流的神经网络与深度学习服务器或工作站，可以快速部署且具有可扩展性，同时PCIe接口具有超高速数据传输速率，可实现神经网络与深度学习计算中的高速数据交互。

在上述任一项技术方案中，优选地，所述感测模块包含温度感知单元和电源监测单元。

在上述任一项技术方案中，优选地，所述可控模块包含电扇控制以及LED和开关控制。

在上述任一项技术方案中，优选地，所述二次电源模块按照配电顺序将外接的12V直流电压转化为各模块所需的稳定低噪声的电压；所述配置模块将固化完成的可执行程序配置到所述系统主模块中；所述系统主模块根据所述时钟模块提供的工作时钟执行配置完成的程序，对所述时钟模块的可编程时钟进行程序控制，并设置对所述外接口模块数据传输的参考时钟频率；所述感测模块通过I2C协议接收所述系统主模块程序指令，监测装置运行的温度及电源情况，并且通过I2C协议向系统主模块反馈信息；所述系统主模块还通过I2C协议读取所述感测模块反馈信息，并且判断装置运行温度是否超过设定阈值，当确定装置运行温度高于设定阈值时，所述系统主模块通过I2C协议向所述可控模块传输指令，以启动风扇运转，当确定装置运行温度低于设定阈值时，所述系统主模块通过I2C协议向所述可控模块传输指令，以停止风扇运转；所述对外接口模块根据所述时钟模块提供的低抖动参考时钟，输入需要计算加速处理的数据，经由所述系统主模块到达所述存储缓存模块进行缓存；所述系统主模块调用所述存储缓存模块缓存的原始数据，利用预定核函数及并行处理算法对数据进行加速计算，并将计算结果输出到所述存储缓存模块缓存；所述存储缓存模块将计算结果经由所述系统主模块传输至所述对外接口模块，并由所述对外接口模块进行输出。

通过以上技术方案，整体结构设计合理，支持神经网络与深度学习中计算容量和实时性的需求，提高了计算速率和效率。

附图说明

图1示出了根据本发明的一个实施例的用于神经网络与深度学习的计算机加速装置的示意框图；

图2示出了根据本发明的另一个实施例的用于神经网络与深度学习的计算机加速装置的示意框图；

图3示出了图1或图2中计算机加速装置的数据处理流程。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

如图1所示，根据本发明的一个实施例的用于神经网络与深度学习的计算机加速装置100，包括：系统主模块101、配置模块102、时钟模块103、存储缓存模块104、对外接口模块105、感测模块106、可控模块107和二次电源模块108。

其中，系统主模块101包括FPGA，配置模块102包含USB Blaster接口和MAX II系列的CPLD，时钟模块103包含三片固定频率晶振输出单元和两片可编程晶振输出单元，存储缓存模块104包含两片闪存、两片规格为DDR4 SDRAM的存储器和四片规格为QDRII+ SRAM的存储器，对外接口模块105包含四片规格为QSFP+的光电接口、PCIe接口和SMA接口，感测模块106包含温度感知单元和电源监测单元，可控模块107包含电扇控制以及LED和开关控制。

装置工作过程中，各个模块的处理过程相互间的交互包括：

二次电源模块108按照配电顺序将外接的12V直流电压转化为各模块所需的稳定低噪声的电压，配置模块102通过JTAG方式或者AS方式将固化完成的可执行程序配置到系统主模块中；系统主模块101根据时钟模块103提供的工作时钟执行配置完成的程序，对时钟模块103的可编程时钟进行程序控制，并设置对外接口模块数据105传输的参考时钟频率；感测模块106通过I2C协议接收系统主模块101程序指令，监测装置运行的温度及电源情况，并且通过I2C协议向系统主模块101反馈信息；系统主模块101还通过I2C协议读取感测模块106反馈信息，并且判断装置运行温度是否超过设定阈值，当确定装置运行温度高于设定阈值时，系统主模块101通过I2C协议向可控模块107传输指令，以启动风扇运转，当确定装置运行温度低于设定阈值时，系统主模块101通过I2C协议向可控模块107传输指令，以停止风扇运转；对外接口模块105根据时钟模块103提供的低抖动参考时钟，输入需要计算加速处理的数据，经由系统主模块101到达存储缓存模块104进行缓存；系统主模块101调用存储缓存模块104缓存的原始数据，利用预定核函数及并行处理算法对数据进行加速计算，并将计算结果输出到存储缓存模块104缓存；存储缓存模块104将计算结果经由系统主模块101传输至对外接口模块105，并由对外接口模块105进行输出。

具体地，以采用Arria10型号的FPGA作为系统主模块为例，其具体结构如图2所示，对本发明的技术方案作进一步说明：

步骤1、外部12V直流电压通过PCIe接口接入装置，经过电源隔离后，二次电源模块按照上电配置顺序首先将12V电压转化产生5V和3.3V电压，其次将12V电压转化产生0.9V和1V电压，最后将12V电压转化产生1.8V电压，将3.3V电压转化为1.5V和1.2V电压，提供足够的电流输入到其他模块；

步骤2、配置模块通过JTAG方式或者AS方式将固化完成的可执行程序配置到系统主模块的FPGA中；其中，JTAG方式掉电不可复原需要重新配置，而AS方式掉电可以恢复配置；

步骤3、时钟模块的固定频率晶振输出单元输出2路频率为100MHz和1路频率为50MHz的时钟信号；其中，1路频率为50MHz的时钟信号经过时钟BUFFER的缓存，输出5路频率为50MHz的时钟信号，与2路直接输出的频率为100MHz的时钟信号均输入到系统主模块，作为FPGA工作时钟；

步骤4、系统主模块根据时钟模块提供的工作时钟执行步骤2中配置完成的程序，通过I2C协议向时钟模块的无源晶振与可编程时钟产生芯片，即可编程晶振时钟输出单元传输控制指令，使两个可编程晶振时钟输出单元输出对外接口模块数据传输所需频率的参考时钟；

步骤5、感测模块通过I2C协议接收系统主模块程序指令，监测装置运行的温度高低及电源情况，并且通过I2C协议向系统主模块反馈信息；

步骤6、系统主模块通过I2C协议读取感测模块反馈信息，并且判定装置运行温度是否超过设定阈值（如40℃）；当温度高于设定阈值时，系统主模块通过I2C协议向可控模块传输指令，启动风扇运转，而当温度低于设定阈值时，系统主模块通过I2C协议向可控模块传输指令，停止风扇运转；

其中，步骤4、5、6中I2C协议传输速率均为1Mbit/s；

步骤7、依照参考采样时钟，输入数据通过对外接口模块进入计算加速装置，经由FPGA的高速数据传输接口进入存储缓存模块的两片DDR4 SDRAM 进行乒乓输入缓存，缓存数据速率为1GHz，缓存数据量4GB；

其中，对外接口模块四片QSFP+光电接口采用的低抖动参考时钟频率为200MHz，每片传输带宽40Gbps，PCIe接口采用的低抖动参考时钟频率为100MHz，传输带宽单通道8Gbps，8个通道共64Gbps，其他接口采用的参考时钟低于50MHz；

步骤8、存储缓存模块DDR4 SDRAM缓存的原始数据输入到系统主模块，后者调用相应的核函数对原始数据进行预处理，利用并行计算算法对预处理数据并行计算进行加速，并行计算的计算结果经过同步处理输出时钟对齐的有效数据进入存储缓存模块的四片QDRII+SRAM进行乒乓的输出缓存，缓存数据速率为500MHz；

步骤9、系统主模块读取输出缓存的有效数据，将部分返回数据输入并行计算单元进行后续的并行计算，同时将可用的输出数据通过对外接口模块的PCIe传输至外部，将重要的结果存储至存储缓存模块的两片FLASH Memory中，存储数据量256MB，完成数据计算加速处理的工作全过程。

上述实施例中，对数据的具体处理过程如图3所示，包括：输入数据经输入缓存得到计算加速处理的原始数据，调用对应核函数对原始数据进行处理得到预处理数据，对预处理数据并行计算得到计算结果，对并行的计算结果进行同步处理，得到有效数据，有效数据经过输出缓存，部分返回数据继续进行并行计算，另外部分作为输出数据输出。

与现有技术相比，本申请具有如下有益效果：

1.利用FPGA实现了适用于神经网络与深度学习的专用计算架构，采用数据驱动并行计算的架构，以数据流为中心进行计算，同时兼顾了神经网络与深度学习中计算容量和实时性的需求，实现了计算速率和效率的多倍提升；

2.采用的FPGA可实现百万门级的硬件加速，同时集成低抖动、兼容性、平衡性的高速串行收发器，可实现最高12.5 Gbps的传输速度，装置配备大容量高速度内存和存储以及高速可插拔QSFP+ 连接器，适配低延时高强度的神经网络与深度学习的应用场景；

3.采用低抖动晶振和时钟发生器结合的高性能定时器件中高速I/O接口提供时钟参考，兼具低抖动参考定时、小尺寸和内置电源噪声抑制的特性，最大限度地降低了开关电源噪声对高速I/O性能的影响，从而降低了数据传输的误码率；

4.采用标准PCIe接口，适合于主流的神经网络与深度学习服务器或工作站，可以快速部署且具有可扩展性，同时PCIe接口具有超高速数据传输速率，可实现神经网络与深度学习计算中的高速数据交互；

5.装置搭载SDK开发环境和基于高度封装的API编译环境，配置不同的算法库使用权限，可以实现用户定制，可适用性广，且利于后续系统升级。

以上结合附图详细说明了本发明的技术方案，本发明的技术方案提出了一种新的用于神经网络与深度学习的计算机加速装置，整体结构设计合理，支持神经网络与深度学习中计算容量和实时性的需求，提高了计算速率和效率。

上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于神经网络与深度学习的计算机加速装置，其特征在于，包括：

系统主模块、配置模块、时钟模块、存储缓存模块、对外接口模块、感测模块、可控模块和二次电源模块；

其中，所述系统主模块包括FPGA，用于计算加速架构及算法的实现，同时通过数据交互，实现存储缓存模块、对外接口模块、感测模块以及可控模块的功能；

所述配置模块，通过将固化完成的可执行程序配置到所述系统主模块中，以使系统主模块正确执行其功能；

所述时钟模块，用于为所述系统主模块执行程序提供工作时钟，以及为所述对外接口模块数据传输提供参考时钟；

所述存储缓存模块，用于辅助系统主模块进行数据缓存和数据处理，以及进行关键数据的存储；

所述对外接口模块，用于与系统外部对接，实现数据的输入和输出；

所述感测模块，用于监测系统的温度及电源情况，并且向所述系统主模块反馈信息；

所述可控模块，用于负责控制系统内风扇的运行，以及实现系统中按钮的控制功能与LED灯的显示功能；

所述二次电源模块，用于将外部输入的电源转化为二次电源，为系统中各模块提供工作所需电压。

2.根据权利要求1所述的用于神经网络与深度学习的计算机加速装置，其特征在于，所述配置模块通过JTAG方式或者AS方式将固化完成的可执行程序配置到所述系统主模块中。

3.根据权利要求1所述的用于神经网络与深度学习的计算机加速装置，其特征在于，所述配置模块包含USB Blaster接口和MAX II 系列的CPLD。

4.根据权利要求1所述的用于神经网络与深度学习的计算机加速装置，其特征在于，所述时钟模块包含三片固定频率晶振输出单元和两片可编程晶振输出单元。

5.根据权利要求1所述的用于神经网络与深度学习的计算机加速装置，其特征在于，所述存储缓存模块包含两片闪存、两片规格为DDR4 SDRAM的存储器和四片规格为QDRII+SRAM的存储器。

6.根据权利要求1所述的用于神经网络与深度学习的计算机加速装置，其特征在于，所述对外接口模块包含四片规格为QSFP+的光电接口、PCIe接口和SMA接口。

7.根据权利要求1所述的用于神经网络与深度学习的计算机加速装置，其特征在于，所述感测模块包含温度感知单元和电源监测单元。

8.根据权利要求1所述的用于神经网络与深度学习的计算机加速装置，其特征在于，所述可控模块包含电扇控制以及LED和开关控制。

9.根据权利要求1至8中任一项所述的用于神经网络与深度学习的计算机加速装置，其特征在于，

所述二次电源模块按照配电顺序将外接的12V直流电压转化为各模块所需的稳定低噪声的电压；

所述配置模块将固化完成的可执行程序配置到所述系统主模块中；

所述系统主模块根据所述时钟模块提供的工作时钟执行配置完成的程序，对所述时钟模块的可编程时钟进行程序控制，并设置对所述外接口模块数据传输的参考时钟频率；

所述感测模块通过I2C协议接收所述系统主模块程序指令，监测装置运行的温度及电源情况，并且通过I2C协议向系统主模块反馈信息；

所述系统主模块还通过I2C协议读取所述感测模块反馈信息，并且判断装置运行温度是否超过设定阈值，当确定装置运行温度高于设定阈值时，所述系统主模块通过I2C协议向所述可控模块传输指令，以启动风扇运转，当确定装置运行温度低于设定阈值时，所述系统主模块通过I2C协议向所述可控模块传输指令，以停止风扇运转；

所述对外接口模块根据所述时钟模块提供的低抖动参考时钟，输入需要计算加速处理的数据，经由所述系统主模块到达所述存储缓存模块进行缓存；

所述系统主模块调用所述存储缓存模块缓存的原始数据，利用预定核函数及并行处理算法对数据进行加速计算，并将计算结果输出到所述存储缓存模块缓存；

所述存储缓存模块将计算结果经由所述系统主模块传输至所述对外接口模块，并由所述对外接口模块进行输出。