CN112631986B

CN112631986B - 大规模dsp并行计算装置

Info

Publication number: CN112631986B
Application number: CN202011580095.0A
Authority: CN
Inventors: 张昊; 潘灵; 贾明权; 刘红伟; 吴明钦; 郝黎宏
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2024-04-02
Anticipated expiration: 2040-12-28
Also published as: CN112631986A

Abstract

本发明公开的一种大规模DSP并行计算装置，旨在提供一种开发环境简单，可移植性好，安全可靠的DSP并行计算装置。本发明通过下述技术方案实现：背板单元利用高速印制板PCB布线技术引出安装槽位的RIO网络与网络交换单元进行连接，每个数字信号处理器DSP芯片子卡板载DDR3芯片与加载FLASH芯片和EEPROM芯片阵列协同实现并行计算单元，DSP芯片线阵排列对称分布连接在网络交换单元的两边；控制单元通过网线连接网络交换单元，完成网络路由，基于测点计算的子任务动态分发给各计算节点，自动分配计算资源给新建立的任务，通过接收用户下发的计算任务，自动分配DSP计算资源，采用不同进程或同一进程完成所有迭代计算。

Description

大规模DSP并行计算装置

技术领域

本发明涉及一种涉及并行处理系统的体系结构、数字信号处理芯片(DSP)在并行处理中的应用、信号处理并行算法，尤其是用于智能终端或边缘计算中心的大规模DSP并行计算装置。

背景技术

最近几年，随着人工智能、无人驾驶汽车、网络、工业自动化、机器学习、高性能数据分析和金融分析、云环境、阵列天线自适应干扰抑制设备、高可靠通信等计算密集型领域的兴起，终端智能和边缘计算中心的智能化程度和计算需求越来越高。随着智能终端或边缘计算中心的功能复杂度和多样性的提升，对这些应用场景中计算系统的高算力、低功耗、多应用功能部署和计算资源的灵活调度等要求也越来越高。

并行计算是一种用多台处理机联合求解问题的过程，其执行过程是将给定的问题首先分解成若干个尽量相互独立的子问题，然后使用多台计算机同时求解它，从而最终求得原问题的解。并行计算的提出是当今人们对快速处理大量复杂数据的迫切需求。首先，对于那些要求快速计算的应用问题，单处理机由于器件受物理速度的限制而无法满足要求。基于DSP的网络并行计算系统的设计与实现对于那些大型复杂的科学工程计算问题，为了提高计算精度，往往需要加密计算网格，而细网格的计算也意味着大计算量，它通常需要在并行机上实现；对于那些实时性要求很高的应用问题，传统的串行处理往往难以满足实时性的需要而必须在并行机上用并行算法求解。随着科学技术不断发展,在生物科学、信号处理、环境科学等领域出现的问题规模不断增大,CPU处理器的主频时钟速度也在狂飙猛进地提升,对计算能力的需求日益提高。但是，随着制造工艺技术的制约以及CPU架构本身设计目标的局限，这种时钟频率的提升很快就碰到了壁垒。传统基于X86架构的CPU(CentralProcessingUnit)并行计算的方式已经无法满足我们对计算能力的需求。目前，业界最受欢迎的异构计算平台“CPU+GPU(GraphicsProcessingUnit)”具有比传统CPU并行计算更高效率和低延迟的计算性能，能够很好的满足智能终端或边缘计算中心的算力需求。尽管传统意义上的通用用途的GPU(GPGPU)能够参与通用计算和处理，但使用GPU计算很麻烦，过去的GPU完全是为图形进行设计的，它是一个非常专用的处理器，要使用GPU来做计算的话，需要透过图形API进行，通过这种图形的API来访问GPU计算核心，则必须要把计算所需要的数据，通过API假设这种计算是3D的计算，然后要走过一遍图形处理过程，才能得到计算结果。第一，编程非常复杂，第二，效率也不会达到很高。因为中间必须要走过渲染的过程。但是对于真正需要并行计算的人，比如说科学家，不可能让他们再学习图形编程的技术，普通开发者大部分也没有图形编程的经验。在编辑的时候编译器会把CPU代码和GPU代码分开，GPU代码会被编译成成GPU的目标代码，CPU代码还是需要其他的C语言编译系统来编译。CPU的程序多线程的创建和注销有很多代码。基于VDK开发的程序中，这些控制码是由一个叫“内核”的程序管理的，内核常驻在DSP中。这个和CPU程序的线程不太一样。比如即使是四核CPU，如果跑非常多线程的话，线程的管理就会成为严重的负担。现在的CPU最重要的设计原则其实是要能更快的执行各种指令，现在很多程序的结构设计非常复杂，这些指令有非常复杂的逻辑，分支、条件的转移等很多，要非常高效的来执行，需要设立很大的缓存，还需要在指令执行上做很多的工作，比如说需要很大的指令缓冲池，对指令进行分析，需要乱序执行，把顺序打乱以后，没有数据或者存储相关的先执行，有相关的后执行等等，这就导致每个CPU的core很大，其中真正负责计算的占的面积是很小的，大部分晶体管消耗在指令执行环节，计算方面能力相对就弱些。要高效运行现有的很多程序，这样的设计也是必须的。而GPU的核心就是计算，运行计算，GPU有很多个核，128甚至240核，这么高的并行度就是要尽可能做到计算吞吐量足够得大，但是GPU的每个核不可能作得像CPU的核这么复杂。这两个设计理念就有很大的区别。我们不相信把这两个很快的统一。因为从架构设计的目标来看，就是有很大的矛盾。在现有的工艺条件下很难一个架构两边都做好。

目前计算机均采用多核设计，然而将一个计算任务在该计算机上执行时，任务并不会智能化地自动分解至每个CPU核；将一个应用部署至一个高性能计算机集群，需要相应的辅助工具将任务进行分解；使用GPU协助CPU完成一个密集型计算任务处理，也需要辅助工具使得编程人员对任务能够可控。基于此，若干并行辅助工具应运而生，典型的有MPI、OpenMP、CUDA与OpenCL。而设计并行程序需将计算任务进行分解后分配至不同的处理器进行处理，导致当前处理器在处理其子任务的过程中不可避免地需要与其它处理器的子任务进行数据交互，数据交互方法包括消息传递与共享存储。其中，MPI即属于一种基于消息传递的并行编程模型，而OpenMP、CUDA和OpenCL则采用基于共享存储的并行模式。XilinxFPGA和SoC具有与生俱来的高灵活性，是高性能或多通道数字信号处理(DSP)应用的理想选择，这些应用可充分利用硬件的并行性。由于需要处理的数据量非常大，并且一些高层次的图像分析系统常常包含有诸如分割、检测、标记和识别等比较复杂的算法和信号处理实时系统具有运算处理量大、数据吞吐量高、实时性强，精度高、动态范围大的特点，需要采用处理速度比较快的系统来满足要求。传统的方法，采用MCU处理器、微机处理、FPGA等来处理数据，但随着数据量的增大，这些处理器已不能满足系统处理的要求，而DSP处理器不仅具有很强的处理功能，且有大容量的片内RAM。进一步的大数据容量的应用，其对象本身的复杂度，以及采样速率和处理精度的不断提高，此时单片DSP很难满足实际应用的需求，一个直接的解决方法是利用所研究问题中的并行性，即利用多片DSP并行处理系统来提高系统的处理速度。另一方面，虽然一个高档处理器的速度是低档处理器的十倍，但其价格可能相当于后者的上百倍。于是人们自然地想到：如果利用多个低档处理器组成系统，即使付出较大的额外开销也能获得比高档单处理器系统更高的性能及更高的性价比。而多DSP并行处理系统可充分挖掘信号处理算法本身所固有的并行性与并发性，将一个任务分成若干子任务，分别由多片DSP并行处理，从而大幅提高了系统对数据的处理速度。随着需要处理的信息的海量增长，传统单服务器模式的数据处理方式在对系统的扩展集成以及升级维护方面均无法满足需求。另一方面，面对海量数据的处理，现有计算机在数据处理上亦出现速度瓶颈，迫切需要一个高速运算的平台。事实上，目前并行计算已经成为解决这些问题的唯一出路。虽然在硬件上集群等高性能计算机已经得到了极大的发展，但并行计算在软件上的实施难度也非常明显，同时并行计算算法本身存在的复杂性，使得并行计算应用还需要一个很漫长的过程。

发明内容

本发明的目的是针对智能终端或边缘计算中心的功能复杂度和多样性的提升，对这些应用场景中计算系统的高算力、低功耗、多应用功能部署和计算资源的灵活调度的要求，提供一种体积更小，更高的硬件加速性能，开发环境简单，可移植性好，安全可靠的大规模DSP并行计算装置。

本发明解决其技术问题所采用的技术是，一种大规模DSP并行计算装置，包括：集成在1U尺寸机箱内的背板单元、电源模块、控制单元、网络交换单元和大规模多核DSP计算单元节点的并行计算单元，其特征在于：背板单元采用紧凑布局为并行计算单元提供安装槽位，利用高速印制板PCB布线技术引出安装槽位的千兆以太网、万兆RIO网络与网络交换单元进行连接，每个数字信号处理器DSP芯片子卡板载DDR3芯片与加载FLASH芯片和EEPROM芯片阵列协同实现并行计算单元，并通过子卡插槽连接到背板单元上，DSP芯片线阵排列对称分布连接在网络交换单元的两边；固定在底板上并集成了ARM处理器和以太网对外接口的控制单元通过网线连接网络交换单元，完成千兆以太网和万兆RIO网络路由功能，通过并行计算单元上的代理单元加载新的应用算法，根据当前并行计算单元资源使用情况，基于测点计算的子任务动态分发给各计算节点，自动分配计算资源给新建立的任务，通过接收用户下发的计算任务，自动分配DSP计算资源，采用不同进程或同一进程完成所有迭代计算。

本发明相比于现有技术具有如下有益效果：

本发明针对智能终端或边缘计算中心的功能复杂度和多样性的提升，对这些应用场景中计算系统的高算力、低功耗、多应用功能部署和计算资源的灵活调度的要求，采用紧凑布局为并行计算单元提供安装槽位的背板单元，利用高速印制板PCB布线技术引出安装槽位的千兆以太网、万兆RIO网络与网络交换单元并行连接DSP芯片；在1U尺寸下，实现了一种大规模DSP并行计算装置。在1U的体积内可集成至少200颗DSP计算核心，取得了较好的并行效果。相同算力的情况下，采用集成在1U尺寸机箱内的背板单元、电源模块、控制单元、网络交换单元和大规模多核DSP计算单元节点的并行计算单元，体积更小，相较于摆放在机房内的X86大型服务器组，在提供强大算力的同时，更容易部署在设备边缘，以支持实时任务规划和执行。和“CPU+GPU”相比，这种大规模多核DSP在DSP任务池平台上的并行程序的优势，主要体现在它拥有更高的每瓦性能、非规整数据计算更高的性能、更高的硬件加速性能、更低的设备互联延迟。基于RIO网络的多DSP并行计算系统对大量实时性数据的运算速度有明显的提高，并且易于扩展。

本发明采用每个数字信号处理器DSP芯片子卡板载DDR3芯片与加载FLASH芯片和EEPROM芯片阵列协同实现并行计算单元，并通过子卡插槽连接到背板单元上，DSP芯片线阵排列对称分布连接在网络交换单元的两边，具有直观的并行性，可以增加处理规模，提高处理速度，解决海量数据利用的难点。这种通过网线连接到商用计算机上，通过WEB界面即可以进行功能算法的开发与调试，开发环境简单，不仅简单易行，而且可移植性好，安全可靠，非常适合于并行程序的开发和调试，也能用于一些大粒度的并行处理；同时支持多人远程在线调试，控制器单元会根据当前并行计算单元资源使用情况，自动分配计算资源给新建立的任务。使用单DSP芯片自发对RIO网络进行路由配置，在此基础之上采用RIO协议进行数据通信。通过实验测试表明，这样可以得到较高的实时数据处理能力。优点在于源码开放、结构紧凑，为日益增长的应用软件提供了坚实的基础。

本发明采用固定在底板上并集成了ARM处理器和以太网对外接口的控制单元通过网线连接网络交换单元，完成千兆以太网和万兆RIO网络路由功能，通过并行计算单元上的代理单元加载新的应用算法，根据当前并行计算单元资源使用情况，自动分配计算资源给新建立的任务，通过接收用户下发的计算任务，自动分配DSP计算资源。这种采用各测点的计算完全是独立进行的任务池技术，支持多种算法应用的在线部署，计算资源回收分发。在无需重新启动的情况下，控制单元基于测点计算的子任务动态分发给各计算节点，可通过并行计算单元上的代理单元加载新的应用算法，当算法应用完成后，控制单元可关闭并行算法单元回收计算资源重新部署新的算法应用，计算呈线性加速比，具有很好的均衡性。可以采用不同进程解决不同计算问题，同一进程完成所有迭代计算的方式，不仅使得编程简便，程序结构清晰，也避免了大量动态生成进程所导致的启动延迟。DSP并行处理可充分挖掘信号处理算法本身所固有的并行性与并发性，将一个任务分成若干子任务，分别由多片DSP并行处理，从而大幅提高了系统对数据的处理速度。实验表明,这种并行计算结构的构造简单,效率高,并且工作稳定可靠。

本发明在1U尺寸机箱内集成了树莓派处理器和大规模多核DSP计算单元节点，实现对智能终端或边缘计算中心的计算资源的灵活调度和多种算法模型的在线部署，实现业务数据的实时处理并输出结果，特别应用于对数据带宽高、业务数据并行实时处理时延小的应用场景中。

本发明可灵活部署于舰船、飞机、车辆等载体之上，提供接近大型超算中心大数据挖掘、大型方程组解算，智能计算能力的小型化集群计算系统。

附图说明

为了更清楚地理解本发明，参照本发明实施过程和附图，来描述本发明，其中：

图1是本发明大规模DSP并行计算装置的构造示意图。

图2是图1的电路原理示意图。

图3是图1的俯视图。

具体实施方式

参阅图1-图3。在以下描述的优选实施例中，一种大规模DSP并行计算装置，包括：集成在1U尺寸机箱内的背板单元、电源模块、控制单元、网络交换单元和大规模多核DSP计算单元节点的并行计算单元，其中：背板单元采用紧凑布局为并行计算单元提供安装槽位，利用高速印制板PCB布线技术引出安装槽位的千兆以太网、万兆RIO网络与网络交换单元进行连接，每个数字信号处理器DSP芯片子卡板载DDR3芯片与加载FLASH芯片和EEPROM芯片阵列协同实现并行计算单元，并通过子卡插槽连接到背板单元上，DSP芯片线阵排列对称分布连接在网络交换单元的两边；固定在底板上并集成了ARM处理器和以太网对外接口的控制单元通过网线连接网络交换单元，完成千兆以太网和万兆RIO网络路由功能，通过并行计算单元上的代理单元加载新的应用算法，根据当前并行计算单元资源使用情况，基于测点计算的子任务动态分发给各计算节点，自动分配计算资源给新建立的任务，通过接收用户下发的计算任务，自动分配DSP计算资源，采用不同进程或同一进程完成所有迭代计算。

背板单元、控制单元、电源模块均通过螺柱固定在装置底板上，背板单元实现控制单元、并行计算单元、网络交换单元、电源模块相互连接，并行计算单元则按照6排4列的方式均匀的安装在背板单元上。控制单元网口通过以太网双绞线与网络交换单元的网口相连，对外以太网通过背板单元的对外以太网口引出。并行计算单元则按照3排4列的方式均匀的安装在背板单元的上半部和下半部，通过高速子卡连接器安装在背板单元上，网络交换单元直接布置在背板单元PCB中部，通过直接布置在背板单元上，通过背板单元上的对外高速连接器引出SRIO对外接口。电源模块通过220V电源输入接口一端连接外部供电，另一端输出9V直流电源，并通过背板单元PCB走线到控制单元、并行计算单元和网络交换单元。

背板单元的后面板上布置有三个千兆以太网口、四个对外高速接口以及220V电源输入接口。前面板上布置有把手、电源开关和指示灯。DSP系统基本外设部分包括电源模块、复位、时钟及去耦电路，电源模块电路为系统提供满足不同性能要求的电源电压；复位电路为系统初始化一个确定的状态，包括手动复位和上电复位；时钟电路为系统提供运行的时钟或系统实时时钟；去耦电路主要减少耦合噪声，提高系统性能。DSP具有若干用于多处理器互连通信的专用通信口，可以比较方便的构成多处理机并行系统。

用户根据功能应用需求按照Map-Reduce编程模型构建计算图(用户可编写Map()和Reduce()函数或指定系统提供的Map()和Reduce()函数)，并编排计算图形成JSON文件，并存放在用户程序管理端。在任务需要运行时，通过用户界面(如浏览器网页)向系统控制单元提交任务请求。系统控制器接收到新任务请求，即创建一个任务驱动器进程，任务驱动器对任务的计算图进行分解(为执行器组)，并形成对计算和通信资源的需求，同时向系统控制器提起资源请求，系统控制器根据当前资源状况进行资源分配并返回分配到的资源ID给任务驱动器。任务驱动器获得资源ID后，即通知资源组所在的节点控制器(资源可能分配至多个节点，即对应多各节点控制器)，并发送资源部署信息和执行器(Worker)文件，节点控制器根据资源部署信息创建执行器组管理器，执行器组管理器对管辖的组内执行器(Worker)进行参数注入。上述工作完成以后，任务部署和资源调度已完成，等待任务启动。

以上所述为本发明较佳实施例，应该注意的是上述实施例对本发明进行说明，然而本发明并不局限于此，并且本领域技术人员在脱离所附权利要求的范围情况下可设计出替换实施例。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种大规模DSP并行计算装置，包括：集成在1U尺寸机箱内的背板单元、电源模块、控制单元、网络交换单元和大规模多核DSP计算单元节点的并行计算单元，其特征在于：背板单元采用紧凑布局为并行计算单元提供安装槽位，利用高速印制板PCB布线技术引出安装槽位的千兆以太网、万兆RIO网络与网络交换单元进行连接，每个数字信号处理器DSP芯片子卡板载DDR3芯片与加载FLASH芯片和EEPROM芯片阵列协同实现并行计算单元，并通过子卡插槽连接到背板单元上，DSP芯片线阵排列对称分布连接在网络交换单元的两边；固定在底板上并集成了ARM处理器和以太网对外接口的控制单元通过网线连接网络交换单元，完成千兆以太网和万兆RIO网络路由功能，通过并行计算单元上的代理单元加载新的应用算法，根据当前并行计算单元资源使用情况，基于测点计算的子任务动态分发给各计算节点，自动分配计算资源给新建立的任务，通过接收用户下发的计算任务，自动分配DSP计算资源，采用不同进程或同一进程完成所有迭代计算。

2.如权利要求1所述的大规模DSP并行计算装置，其特征在于：背板单元、控制单元、电源模块均通过螺柱固定在装置底板上，背板单元实现控制单元、并行计算单元、网络交换单元、电源模块相互连接，并行计算单元则按照6排4列的方式均匀的安装在背板单元上。

3.如权利要求1所述的大规模DSP并行计算装置，其特征在于：控制单元网口通过以太网双绞线与网络交换单元的网口相连，对外以太网通过背板单元的对外以太网口引出。

4.如权利要求1所述的大规模DSP并行计算装置，其特征在于：并行计算单元则按照3排4列的方式均匀的安装在背板单元的上半部和下半部，通过高速子卡连接器安装在背板单元上，网络交换单元直接布置在背板单元PCB中部，通过直接布置在背板单元上，通过背板单元上的对外高速连接器引出SRIO对外接口。

5.如权利要求1所述的大规模DSP并行计算装置，其特征在于：电源模块通过220V电源输入接口一端连接外部供电，另一端输出9V直流电源，并通过背板单元PCB走线到控制单元、并行计算单元和网络交换单元。

6.如权利要求1所述的大规模DSP并行计算装置，其特征在于：背板单元的后面板上布置有三个千兆以太网口、四个对外高速接口以及220V电源输入接口，前面板上布置有把手、电源开关和指示灯。

7.如权利要求1所述的大规模DSP并行计算装置，其特征在于：DSP系统外设部分包括电源模块、复位、时钟及去耦电路，电源模块电路为系统提供满足不同性能要求的电源电压；复位电路为系统初始化一个确定的状态，包括手动复位和上电复位；时钟电路为系统提供运行的时钟或系统实时时钟；去耦电路减少耦合噪声，提高系统性能。

8.如权利要求1所述的大规模DSP并行计算装置，其特征在于：用户按照Map-Reduce编程模型构建计算图，编写Map()和Reduce()函数或指定系统提供的Map()和Reduce()函数)，并编排计算图形成JSON文件，并存放在用户程序管理端。

9.如权利要求1所述的大规模DSP并行计算装置，其特征在于：在任务需要运行时，通过用户界面向系统控制单元提交任务请求，系统控制器接收到新任务请求，创建一个任务驱动器进程，任务驱动器对任务的计算图进行分解为执行器组，并形成对计算和通信资源的需求，同时向系统控制器提起资源请求，系统控制器根据当前资源状况进行资源分配并返回分配到的资源ID给任务驱动器。

10.如权利要求9所述的大规模DSP并行计算装置，其特征在于：任务驱动器获得资源ID后，通知资源组所在的节点控制器，将资源能分配至对应多各节点控制器，并发送资源部署信息和执行器Worker文件；节点控制器根据资源部署信息创建执行器组管理器，执行器组管理器对管辖的组内执行器Worker进行参数注入，上述工作完成以后，任务部署和资源调度已完成，等待任务启动。