CN109416755B

CN109416755B - 人工智能并行处理方法、装置、可读存储介质、及终端

Info

Publication number: CN109416755B
Application number: CN201880002151.7A
Authority: CN
Inventors: 肖梦秋
Original assignee: Shenzhen Corerain Technologies Co Ltd
Current assignee: Shenzhen Corerain Technologies Co Ltd
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2021-11-23
Anticipated expiration: 2038-01-15
Also published as: WO2019136751A1; CN109416755A

Abstract

一种人工智能并行处理方法，应用于处理模块(54)，所述方法包括：令数据传输模块按照预设数据尺寸从外部存储模块中取出多个通道数据(S101)；令所述数据传输模块将取出的通道数据传输至卷积模块，供与多个卷积核矩阵进行并行卷积运算(S102)。上述方法无需等待一个卷积核矩阵的卷积运算结束之后再进行下一个卷积核矩阵的卷积运算，且通过卷积运算电路等硬件设备实现并行卷积运算，特别是面对大量的数据计算，相比于软件计算更是大幅度地提升了卷积运算效率。因此，通过人工智能并行处理的方法大幅提升处理并行度且提升计算效率。

Description

人工智能并行处理方法、装置、可读存储介质、及终端

技术领域

本发明涉及人工智能领域，特别是涉及人工智能并行处理方法、装置、可读存储介质、及终端。

背景技术

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

人工智能算法是模拟人脑的神经网络模型算法，其运算量非常巨大，同样采用了人工智能算法的AlphaGo，需要用到上千块传统处理器(CPU)和上百块图形处理器(GPU)；很显然，在人工智能迎来新一波复兴的今天，传统处理器正成为阻碍人工智能普及的瓶颈。

但是，目前人工智能算法处理的并行度不够，导致人工智能算法的效率低下。因此，如何实现高并行度的人工智能处理方式成为人工智能技术领域的关键技术。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供人工智能并行处理方法及人工智能处理装置，用于解决现有技术中人工智能算法处理的并行度不够等技术问题。

为实现上述目的及其他相关目的，本发明提供一种人工智能并行处理方法，应用于处理模块，所述方法包括：令数据传输模块按照预设数据尺寸从外部存储模块中取出多个通道数据；令所述数据传输模块将所述按照预设数据尺寸取出的通道数据传输至卷积运算模块；其中，所述卷积运算模块包括多个卷积核矩阵，用于与所述通道数据进行并行卷积运算。

于本发明的一实施例中，所述令数据传输模块按照预设数据尺寸从外部存储模块中取出多个通道数据，具体包括：将每个所述通道数据按照1*1数据尺寸从所述外部存储模块中取出至第一存储模块；将每个所述通道数据按照pv*1数据尺寸从所述第一存储模块中取出至第二存储模块；其中，pv为数据传输并行度，所述通道数据的列数为pv的整数倍；将每个所述通道数据按照pv*k数据尺寸从所述第二存储模块中取出至矩阵模块；其中，k为所述卷积核矩阵的尺寸；将每个所述通道数据按照pv*k*k数据尺寸从所述矩阵模块中取出，以与所述多个卷积核矩阵进行并行卷积运算。

于本发明的一实施例中，将每个所述通道数据按照pv*k数据尺寸从所述第二存储模块中取出至矩阵模块，具体包括：令所述通道数据以每k行为一组数据；通过数据传输模块依次对每一组数据进行如下操作：在每个时钟周期内，从该组数据中依次取出数据尺寸为pv*k的第一待处理数据，直至该组数据全部被取出。

于本发明的一实施例中，将每个所述通道数据按照pv*k*k数据尺寸从所述矩阵模块中取出，具体包括：针对所述每一组数据，从取出的第二个所述第一待处理数据开始，每个所述第一待处理数据均与前一个第一待处理数据的最后2列组合以形成(pv+2)*k数据尺寸的第二待处理数据；针对每个所述第二待处理数据，以步长为1进行矩阵提取，得到pv个k*k第三待处理数据；其中，各所述第三待处理数据用于与所述多个卷积核矩阵进行并行卷积运算。

于本发明的一实施例中，所述多个卷积核矩阵包括多个权重不同的权重矩阵，分别与所述第三待处理数据同时进行卷积运算。

为实现上述目的及其他相关目的，本发明提供一种人工智能并行处理装置，其包括：外部存储模块，存储有多个通道数据；处理模块，通信连接所述外部存储模块；数据传输模块，用于按照预设数据尺寸从外部存储模块中取出所述多个通道数据并传输；卷积运算模块，包括多个卷积核矩阵，用于与按照预设数据尺寸取出的所述通道数据进行并行卷积运算。

于本发明的一实施例中，所述人工智能并行处理装置包括第一存储模块，用于存储来自所述外部存储模块的所述通道数据。

于本发明的一实施例中，所述人工智能并行处理装置包括第二存储模块，用于存储来自所述第一存储模块的所述通道数据。

于本发明的一实施例中，所述人工智能并行处理装置包括矩阵模块，用于存储来自所述第二存储模块的所述通道数据。

为实现上述目的及其他相关目的，本发明提供一种计算机可读存储介质，其上存储有计算机程序该程序被处理器执行时实现所述人工智能并行处理方法。

为实现上述目的及其他相关目的，本发明提供一种人工智能处理终端，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行所述人工智能并行处理方法。

如上所述，本发明的人工智能并行处理方法、装置、可读存储介质、及终端，具有以下有益效果：本发明无需等待一个卷积核矩阵的卷积运算结束之后再进行下一个卷积核矩阵的卷积运算，且本发明通过卷积运算电路等硬件设备实现并行卷积运算，特别是面对大量的数据计算，相比于软件计算更是大幅度地提升了卷积运算效率。因此，本发明通过人工智能并行处理的方法大幅提升处理并行度且提升计算效率。

附图说明

图1显示为本发明一实施例中人工智能并行处理方法的流程图。

图2显示为本发明一实施例中待处理数据矩阵的示意图。

图3显示为本发明一实施例中数据传输模块取出待处理数据的示意图。

图4显示为本发明一实施例中数据传输模块取出待处理数据的示意图。

图5显示为本发明一实施例中人工智能并行处理装置的示意图。

元件标号说明

R1～R6 矩形虚线框

D1～D3 8*1数据

M1 8*3矩阵

M2 8*3矩阵

M3 8*3矩阵

M12 10*3矩阵

M23 10*3矩阵

L1 直线

L2 直线

T1 时钟周期

T2 时钟周期

T3 时钟周期

50 Programmable Logic端

51 第一存储模块

52 第二存储模块

53 数据传输模块

54 处理模块

55 矩阵模块

56 卷积运算模块

57 外部存储模块

S101～S102 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图1所示，展示本发明一实施例中的人工智能并行处理方法的流程图。所述人工智能并行处理方法应用于处理模块，所述处理模块例如可以是ARM模块、MCU模块、或者Soc模块等等。所述人工智能并行处理方法具体包括：

S101：令数据传输模块按照预设数据尺寸从外部存储模块中取出多个通道数据。

所述数据传输模块可通过DMA方式传输数据。所述DMA的全称为Direct MemoryAccess，也即直接内存存取，用于在外部存储器与Programmable Logic端之间进行数据传输。DMA传输是一种高速的数据传输操作，允许在外部设备和存储器之间直接进行读写操作，整个过程无需CPU干预。

所述外部存储模块例如可以是DDR存储器，设于所述Programmable Logic端之外，用于存储多个通道数据。所述通道数据为待处理数据，通常以数据矩阵的形式存储于存储器中。

S102：令所述数据传输模块将取出的所述通道数据传输至卷积运算模块，供与多个卷积核矩阵进行并行卷积运算。

所述卷积运算模块，是一种卷积运算电路，可以是由乘法器和加法器相连组成的电路。所述卷积运算模块包括多个卷积核矩阵，各所述卷积核矩阵的权重不同。举例来讲，图像有R、G、B三个通道数据，也即三个二维矩阵，每个二维矩阵长宽设为K*K，假设K是奇数3；此外，假设所述数据传输模块按照8*3*3矩阵的数据尺寸取出所述通道数据，也即所述数据传输模块每次取出8个3*3矩阵。

若所述R、G、B三个二维矩阵不进行并行卷积运算，则需经历连续3次的计算才能完成运算，其计算耗时长且计算效率低下。而在本发明中，优选的，所述R、G、B三个二维矩阵并行与所述8个3*3矩阵进行卷积运算以使每组8个3*3矩阵均得到8*3个卷积结果值。本发明无需等待一个卷积核矩阵的卷积运算结束之后再进行下一个卷积核矩阵的卷积运算，且本发明通过卷积运算电路等硬件设备实现并行卷积运算，特别是面对大量的数据计算，相比于软件计算更是大幅度地提升了卷积运算效率。因此，本发明通过人工智能并行处理的方法大幅提升处理并行度且提升计算效率。

下面以具体的实施例说明所述数据传输模块按照预设数据尺寸从外部存储模块中取出通道数据的原理。

所述数据传输模块按照1*1数据尺寸从所述外部存储模块中取出至第一存储模块。所述第一存储模块，可以是RAM或ROM存储器，例如三代、四代DDR SDRAM等等。

如图2所示，展示本发明一实施例中通道数据的示意图。所述数据传输模块按照pv*1数据尺寸从所述第一存储模块中取出至第二存储模块。其中，pv为数据传输并行度，用于表示所述数据传输模块每一次传输待处理数据的列数，其大小与人工智能并行处理方法的效率关联；所述通道数据的列数为pv的整数倍。于本实施例中，令所述数据传输并行度pv＝8，所述通道数据为34*40矩阵，故所述数据传输模块将所述34*40矩阵按照8*1数据尺寸从所述第一存储模块中取出至第二存储模块。下面结合具体图示说明所述传输模块按照8*1数据尺寸取出通道数据的示意图。

如图3所示，展示本发明一实施例中数据传输模块取出通道数据的示意图。所述数据传输模块从第一行待处理数据的最左侧开始，每次取出8*1个数据，直至第一行的待处理数据全部取出。基于同样的原理，所述数据传输模块继续取第二行，第三行…，直至整个34*40矩阵全部被取出为止。

具体的，以第一行为例，所述数据传输模块将第一个8*1矩阵D1取出后置入第二存储模块中地址Addr＝0的位置，将第二个8*1矩阵D2取出后置入地址Addr＝1的位置，将第三个8*1矩阵D3取出后置入地址Addr＝2的位置，以此类推将全部所述34*40矩阵全部从所述第一存储模块中取出并置入第二存储模块中。

所述数据传输模块将所述34*40矩阵存入所述第一存储模块中后，又按行且按照pv*k数据尺寸，k为卷积核矩阵的尺寸，所述卷积核矩阵是用于卷积运算的权重矩阵；所述卷积核矩阵可设为奇数阶矩阵，于本实施例中将所述卷积核矩阵设为3*3矩阵。也即，所述数据传输模块按照8*3矩阵，分批将所述34*40矩阵从所述第二存储模块中取出并置入矩阵模块中以进行数据组合。

如图2所示，所述数据传输模块在每个时钟周期内按照从左到右的顺序，依次从34*40矩阵的前三行中取出8*3矩阵。也即，前三行共可取出5个8*3矩阵。基于上述相同的原理，所述数据传输模块在取完前三行后继续取出后续行的待处理数据。为方便本领域技术人员理解，图2中用矩形虚线框R1～R5表示前3行共5个8*3矩阵。

如图4所示，展示本发明一实施例中数据传输模块取出通道数据的示意图。在第一个时钟周期T1内，所述数据传输模块从所述第二存储模块中取出的第一个8*3矩阵M1，通常为提升人工智能计算的流水度，因每行取出的第一个8*3矩阵通过卷积运算只能得到数量小于8的卷积结果值，故为提升人工智能处理的流水操作度将每行取出的第一个8*3矩阵设为无效数据，也即所述8*3矩阵M1的卷积结果为无效值。

在第二个时钟周期T2内，所述数据传输模块取出第二个8*3矩阵M2，所述8*3矩阵M2与所述8*3矩阵M1的最后两列组合成10*3矩阵M12，图中用直线L1代表相互组合的矩阵数据。所述数据矩阵M2通过与数据矩阵M1的最后两列相互组合，得到(pv+2)也即10列的数据矩阵M12。

所述10*3矩阵M12能够按照步长1进行矩阵提取，从而得到8个3*3矩阵。具体的，如图4中所示的矩形虚线框R6，以图4中覆盖的矩阵为起始位置，按照步长1逐列向右移动，每移动一列便得到一个尺寸为3*3的矩阵。由此可知，矩形虚线框R6可在所述所述10*3矩阵M12中总共移动7次，共计8个3*3矩阵，也即pv个k*k矩阵。所述8个3*3矩阵用于传输至卷积运算模块中，以分别与3个所述3*3卷积核矩阵进行并行卷积运算，从而得到3*8个计算结果值。

同理，在第三个时钟周期T3内，所述数据传输模块取出第三个8*3矩阵M3，所述8*3矩阵M3与所述8*3矩阵M2的最后两列组合成10*3矩阵M23，图中用直线L2代表相互组合的矩阵数据。所述数据矩阵M3通过与数据矩阵M2的最后两列相互组合，得到列数为10的数据矩阵M23。所述10*3矩阵M23能够按照步长1进行矩阵提取，从而得到8个3*3矩阵；所述8个3*3的第五待处理数据矩阵用于传输至卷积运算模块中，以与3个所述3*3卷积核矩阵进行卷积运算并得到3*8个计算结果值。以此类推，所述数据传输模块基于同样的原理，在经历多个时钟周期后可完成处理整个所述34*40矩阵的数据处理。

如图5所示，展示本发明一实施例中的人工智能并行处理装置，其包括：第一存储模块51、第二存储模块52、数据传输模块53、处理模块54、以及矩阵模块55。其中，所述第一存储模块51、第二存储模块52、数据传输模块53、矩阵模块55与卷积运算模块56共同设于FPGA的Programmable Logic端50，也即通常称为PL端。

所述数据传输模块具体用于将所述通道数据通过系统总线从外部存储模块57按照1*1数据尺寸传输至第一存储模块51，再从第一存储模块51中取出并按照pv*1数据尺寸传输至第二存储模块52，又从所述第二存储模块52取出并按照pv*k数据尺寸传输至矩阵模块中，后从所述矩阵模块中取出并以pv*k²数据尺寸传输至卷积运算模块56。

所述卷积运算模块56，设有多个卷积核矩阵，用于并行卷积运算。所述多个卷积核矩阵具体为：卷积核矩阵1，卷积核矩阵2，…，卷积核矩阵n。

所述第一存储模块51例如可以是BRAM存储器，也即Block RAM，是FPGA(Field－Programmable Gate Array)现场可编程门阵列的RAM存储资源。所述处理模块54例如可以是ARM模块、MCU模块、或者Soc模块等等。

所述人工智能处理装置的实施方式与所述人工智能并行处理方法的实施方式类似，故不再赘述，本领域技术人员应该能够在所述人工智能并行处理方法的基础上理解所述人工智能处理装置的原理及实施方式。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本发明还提供一种人工智能处理终端，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行所述人工智能并行处理方法。

上述存储器可能包含随机存取存储器(RandomAccessMemory，简称RAM)，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field－ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上所述，。本发明无需等待一个卷积核矩阵的卷积运算结束之后再进行下一个卷积核矩阵的卷积运算，且本发明通过卷积运算电路等硬件设备实现并行卷积运算，特别是面对大量的数据计算，相比于软件计算更是大幅度地提升了卷积运算效率。因此，本发明通过人工智能并行处理的方法大幅提升处理并行度且提升计算效率。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种人工智能并行处理方法，其特征在于，应用于处理模块，所述方法包括：

令数据传输模块按照预设数据尺寸从外部存储模块中取出多个通道数据；

令所述数据传输模块将取出的通道数据传输至卷积运算模块；

其中，所述卷积运算模块包括多个卷积核矩阵，用于与所述通道数据进行并行卷积运算；

其中，所述令数据传输模块按照预设数据尺寸从外部存储模块中取出多个通道数据，具体包括：

将每个所述通道数据按照1*1数据尺寸从所述外部存储模块中取出至第一存储模块；

将每个所述通道数据按照pv*1数据尺寸从所述第一存储模块中取出至第二存储模块；

其中，pv为数据传输并行度，所述通道数据的列数为pv的整数倍；

将每个所述通道数据按照pv*k数据尺寸从所述第二存储模块中取出至矩阵模块；其中，k为所述卷积核矩阵的尺寸；

将每个所述通道数据按照pv*k*k数据尺寸从所述矩阵模块中取出，以与所述多个卷积核矩阵进行并行卷积运算；

进一步地，

将每个所述通道数据按照pv*k数据尺寸从所述第二存储模块中取出至矩阵模块，具体包括：

令所述通道数据以每k行为一组数据；

通过数据传输模块依次对每一组数据进行如下操作：在每个时钟周期内，从该组数据中依次取出数据尺寸为pv*k的第一待处理数据，直至该组数据全部被取出；

将每个所述通道数据按照pv*k*k数据尺寸从所述矩阵模块中取出，具体包括：

针对所述每一组数据，从取出的第二个所述第一待处理数据开始，每个所述第一待处理数据均与前一个第一待处理数据的最后2列组合以形成(pv+2)*k数据尺寸的第二待处理数据；

针对每个所述第二待处理数据，以步长为1进行矩阵提取，得到pv个k*k第三待处理数据；其中，各所述第三待处理数据用于与所述多个卷积核矩阵进行并行卷积运算。

2.根据权利要求1所述的人工智能并行处理方法，其特征在于，所述多个卷积核矩阵包括多个权重不同的权重矩阵，分别与所述第三待处理数据同时进行卷积运算。

3.一种人工智能并行处理装置，其特征在于，包括：

外部存储模块，存储有多个通道数据；

处理模块，通信连接所述外部存储模块；

数据传输模块，用于按照预设数据尺寸从外部存储模块中取出所述多个通道数据并传输；

卷积运算模块，包括多个卷积核矩阵，用于与按照预设数据尺寸取出的所述通道数据进行并行卷积运算；

其中，所述数据传输模块按照预设数据尺寸从外部存储模块中取出多个通道数据，具体包括：

将每个所述通道数据按照pv*1数据尺寸从所述第一存储模块中取出至第二存储模块；其中，pv为数据传输并行度，所述通道数据的列数为pv的整数倍；

进一步地，

令所述通道数据以每k行为一组数据；

4.根据权利要求3所述的人工智能处理装置，其特征在于，包括：

第一存储模块，用于存储来自所述外部存储模块的所述通道数据。

5.根据权利要求4所述的人工智能处理装置，其特征在于，包括：

第二存储模块，用于存储来自所述第一存储模块的所述通道数据。

6.根据权利要求5所述的人工智能处理装置，其特征在于，包括：

矩阵模块，用于存储来自所述第二存储模块的所述通道数据。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1或2所述的人工智能并行处理方法。

8.一种人工智能处理终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行如权利要求1或2所述的人工智能并行处理方法。