CN110333946A

CN110333946A - 一种基于人工智能cpu数据处理系统及方法

Info

Publication number: CN110333946A
Application number: CN201910396289.6A
Authority: CN
Inventors: 王娅雯
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2019-10-15

Abstract

本发明提供一种基于人工智能CPU数据处理系统及方法，包括CPU模块、GPU模块、FPGA模块、高速串行总线，首先，将数据初始化任务交给主控节点的CPU模块使用OpenMP并行处理，生成多个子任务列表；然后将CPU模块计算的子任务留下处理，使用MPI将适合GPU模块计算的子任务分发给计算节点，通过调用OpenCLICDLoader来获取适合FPGA模块的子任务；计算结束后,将GPU模块与FPGA模块的执行结果通过高速串行总线传回CPU模块生成结果文件，通过CPU管理串行的任务，GPU就是处理并行运算的设计，提升数据计算速度和数据处理能力。

Description

一种基于人工智能CPU数据处理系统及方法

技术领域

本发明涉及计算机技术领域，具体为一种基于人工智能CPU数据处理系统及方法。

背景技术

中央处理器(CPU，Central Processing Unit)是一块超大规模的集成电路，是一台计算机的运算核心(Core)和控制核心(Control Unit)。它的功能主要是解释计算机指令以及处理计算机软件中的数据。中央处理器主要包括运算器(算术逻辑运算单元，ALU，Arithmetic Logic Unit)和高速缓冲存储器(Cache)及实现它们之间联系的数据(Data)、控制及状态的总线(Bus)。它与内部存储器(Memory)和输入/输出(I/O)设备合称为电子计算机三大核心部件。图形处理器(英语：Graphics Processing Unit，缩写：GPU)，又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上图像运算工作的微处理器。将计算机系统所需要的显示信息进行转换驱动，并向显示器提供行扫描信号，控制显示器的正确显示，是连接显示器和个人电脑主板的重要元件，也是“人机对话”的重要设备之一。

传统的CPU之所以不适合人工智能算法的执行，主要原因在于其计算指令遵循串行执行的方式，没能发挥出芯片的全部潜力。与之不同的是，GPU具有高并行结构，在处理图形数据和复杂算法方面拥有比CPU更高的效率。对比GPU和CPU在结构上的差异，CPU大部分面积为控制器和寄存器，而GPU拥有更多的ALU(ARITHMETIC LOGIC UNIT，逻辑运算单元)用于数据处理，这样的结构适合对密集型数据进行并行处理。

为解决上述问题，本申请中提出一种基于人工智能CPU数据处理系统及方法。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种基于人工智能CPU数据处理系统及方法，通过CPU模块管理任务的分配，并由GPU将分配的子任务进行并行运算，提升数据计算速度和数据处理能力。

(二)技术方案

为解决上述问题，本发明采用的技术方案为：

根据本发明，提供了一种基于人工智能CPU数据处理系统，包括CPU模块、GPU模块、FPGA模块、高速串行总线，CPU模块具有多个内核；GPU模块具有多个计算单元；所述计算单元包括矩阵相乘单元以及转积运算单元；所述FPGA模块对来自所述CPU模块的任务进行串行或并行处理；所述高速串行总线用于FPGA模块、GPU模块与CPU模块之间的通信连接。

优选的，所述CPU模块用于主控制节点的任务分配形成多个子任务，将子任务分配给所述GPU模块和FPGA模块。

优选的，所述GPU模块对来自所述CPU模块分配的任务进行并行处理。

根据本发明，提供了一种基于人工智能CPU数据处理方法，包括以下步骤：

S1:数据初始化任务交给主控节点的CPU模块使用OpenMP并行处理，生成

多个子任务列表；

S2:然后将CPU模块计算的子任务留下处理，使用MPI将适合GPU模块计算的子任务分发给计算节点，通过调用OpenCL ICD Loader来获取适合FPGA模块的子任务；

S3：由CPU模块将子任务程序和数据分别映射到GPU模块和FPGA模块进行计算；

S4：将步骤S3中映射到GPU模块的子任务程序和数据经过矩阵相乘单元以及转积运算单元的数据处理，映射到FPGA模块的子任务程序和数据进行串行或并行处理；

在步骤S4中，将映射到GPU的子任务程序和数据经过矩阵相乘单元进行矩阵分块计算，计算的唯一条件为前一个矩阵的列分割与后一个矩阵的行分割的分割方式一致，则若(m×k)维矩阵A与(k×n)维矩阵B相乘，矩阵分块步骤如下：

1.对A矩阵的列分割和B矩阵的行分割做出规定；

2.对A矩阵行和B矩阵列进行任意拆分，如以十维为一组进行分组，对分组后的子阵进行标号，添加子阵行标与列标，分组后的矩阵如下式所示；

3，对分组后的子阵做并行计算，对A列标与B行标相等的两子阵相乘，将计算结果累加到累加矩阵Cij中，在计算前需要对Cij清零；

4.将Cij矩阵保存在结果矩阵Cmn中，输出计算结果矩阵Cmn。

S5：计算结束后,将GPU模块与FPGA模块的执行结果通过高速串行总线传回主控节点,主控节点的CPU模块负责结果收集和生成结果文件。

本发明的上述技术方案具有如下有益的技术效果：

1、通过CPU模块管理任务分配，当处理的任务遇到大量的并行运算时，把任务分配给GPU模块，GPU模块就是处理并行运算的设计，这样大量的并行的数据就被处理掉，提升数据计算速度和数据处理能力；

2、通过调用OpenCL ICD Loader来获取适合FPGA模块的子任务，把一些子任务分配给FPGA模块进行并行计算或直接加入并行计算，当然最主要的是，CPU模块会通过比如神经网络和其他的深度学习的算法，让机器自己学习，产生新的算法，让这种算法对FPGA模块进行编程，使FPGA能解决特点问题的方法，这样就可以使设备不但具备自我学习，自我演化，自我更新，使设备变的越来越先进，越来越智能。

附图说明

图1为本发明提出的基于人工智能CPU数据处理系统框图。

图2为本发明提出的基于人工智能CPU数据处理方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本实施例的一种基于人工智能CPU数据处理系统，包括CPU模块、GPU模块、FPGA模块、高速串行总线，CPU模块具有多个内核，多个内核之间通过内存总线通信并进行串行计算、任务分配等处理；GPU模块具有多个计算单元；所述计算单元包括矩阵相乘单元以及转积运算单元；所述FPGA模块对来自所述CPU模块的任务进行串行或并行处理；所述高速串行总线用于FPGA模块、GPU模块与CPU模块之间的通信连接，高速串行总线具有使用方便、速度快、连接灵活和独立供电的优点。

更具体而言，所述CPU模块用于主控制节点的任务分配形成多个子任务，将子任务分配给所述GPU模块和FPGA模块。

更具体而言，所述GPU模块对来自所述CPU模块分配的任务进行并行处理。

如图2所示，本实施例的一种基于人工智能CPU数据处理方法，包括以下

步骤：

多个子任务列表；

1.对A矩阵的列分割和B矩阵的行分割做出规定；

4.将Cij矩阵保存在结果矩阵Cmn中，输出计算结果矩阵Cmn。

在本发明中，通过CPU模块管理任务分配，生成多个字任务列表，当处理的任务遇到大量的并行运算时，使用MPI将适合GPU模块计算的子任务分配给GPU模块的计算节点，GPU模块就是处理并行运算的设计，这样大量的并行的数据就被处理掉，提升数据计算速度和数据处理能力；通过调用OpenCL ICD Loader来获取适合FPGA模块的子任务，把一些子任务分配给FPGA模块进行并行计算或直接加入并行计算，当然最主要的是，CPU模块会通过比如神经网络和其他的深度学习的算法，让机器自己学习，产生新的算法，让这种算法可以对FPGA模块进行编程，使FPGA能解决特点问题的方法，这样就可以使设备不但具备自我学习，自我演化，自我更新，使设备变的越来越先进，越来越智能。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于人工智能CPU数据处理系统，其特征在于，包括：

CPU模块，其具有多个内核；

GPU模块，其具有多个计算单元；所述计算单元包括矩阵相乘单元以及转积运算单元；

FPGA模块，所述FPGA模块对来自所述CPU模块的任务进行串行或并行处理；

高速串行总线，所述高速串行总线用于FPGA模块、GPU模块与CPU模块之间的通信连接。

2.根据权利要求1所述的基于人工智能CPU数据处理系统，其特征在于，所述CPU模块用于主控制节点的任务分配形成多个子任务，将子任务分配给所述GPU模块和FPGA模块。

3.根据权利要求1所述的基于人工智能CPU数据处理系统，其特征在于，所述GPU模块对来自所述CPU模块分配的任务进行并行处理。

4.一种基于人工智能CPU数据处理方法，其特征在于，包括以下步骤：

S1:数据初始化任务交给主控节点的CPU模块使用OpenMP并行处理，生成多个子任务列表；