CN110096308A

CN110096308A - 一种并行存储运算装置及其方法

Info

Publication number: CN110096308A
Application number: CN201910334560.3A
Authority: CN
Inventors: 鲁勇
Original assignee: Beijing Exploration Technology Co Ltd
Current assignee: Beijing Exploration Technology Co Ltd
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2019-08-06
Anticipated expiration: 2039-04-24
Also published as: CN110096308B

Abstract

本发明所涉及一种并行存储运算装置及其方法，所述装置包括多个存储单元、多个计算单元及控制模块；其中，所述控制模块用于建立所述多个存储单元间的一个或多个数据通路，其中所述数据通路实现从所述多个存储单元的至少一个第一存储单元至至少一个第二存储单元的连接，所述数据通路经过所述多个计算单元中至少一个第一计算单元；所述第一存储单元用于存储第一数据；所述第一计算单元用于对所述第一数据执行第一运算；所述第二存储单元用于接收并存储对所述第一数据执行所述第一运算后的结果数据。本发明具有分布式存储和计算，支持高并发的计算，解决了由高并发引起的带宽问题和同步问题。

Description

一种并行存储运算装置及其方法

技术领域

本发明涉及电子信息技术领域，更具体的说，涉及一种并行存储计算装置及其方法。

背景技术

目前，包括计算机视觉、语音识别和机器人在内的诸多人工智能应用已广泛使用了深度神经网络(deep neural networks，DNN)。DNN在很多人工智能任务之中表现出了当前最佳的准确度，但同时也存在着计算复杂度高的问题。因此，那些能帮助DNN高效处理并提升效率和吞吐量，同时又无损于表现准确度或不会增加硬件成本的技术是在人工智能系统之中广泛部署DNN的关键。

深度神经网络的运算具有高并发、高耦合的特点，不仅有大量的数据参与到整个算法运行的过程中，这些数据之间的耦合性也非常紧密，因此对存储带宽提出了非常高的要求。

类似传统CPU的处理器在处理深度学习算法时，提供算力相对简单易行，但当运算部件达到一定的能力，存储器无法跟上运算部件消耗的数据，再增加运算部件也无法进一步提高性能。虽然通过提升并行度进行庞大计算力的结构调整，但是对存储资源的使用和调度，依然依赖于编译器或传统的缓存管理算法，无法解决存储瓶颈问题。

在某些计算任务中，所执行的运算不依赖外部状态，也不修改外部状态，但是运算的输入与输出数据的传递和存储，具有不确定性，由此产生了对运算模块与存储模块的不同要求。运算模块要独立于数据，数据传递要灵活可配置，数据存储需要性能高效可共享。

发明内容

为了解决深度神经网络相关运算的带宽瓶颈、功耗瓶颈的问题，提出一种并行存储运算装置及其方法，本发明具有分布式存储和计算，总存储量可以达到较高的内部带宽，支持高并发的计算，解决了由高并发引起的带宽问题。本发明采用数据驱动的方式，支持可计算存储的使用，实现了极高的计算资源利用率、解决高耦合和时间域上的高差异性。

本发明所述的一种并行存储运算装置，所述装置包括多个存储单元、多个计算单元及控制模块；其中，所述控制模块用于建立所述多个存储单元间的一个或多个数据通路，其中所述数据通路实现从所述多个存储单元的至少一个第一存储单元至至少一个第二存储单元的连接，所述数据通路经过所述多个计算单元中至少一个第一计算单元；所述第一存储单元用于存储第一数据；所述第一计算单元用于对所述第一数据执行第一运算；所述第二存储单元用于接收并存储对所述第一数据执行所述第一运算后的结果数据。

优选的，其中数据通路至少为2个。

优选的，所述数据通路顺序经过所述多个计算单元中多个第一计算单元；所述多个第一计算单元用于对所述第一数据执行第一运算，其中，所述多个第一计算单元中前一个第一计算单元的输出作为其下一个计算单元的输入。

优选的，所述数据通路实现从所述多个存储单元的多个第一存储单元至至少一个第二存储单元的连接；所述第一计算单元用于对所述多个第一存储单元中存储的第一数据执行第一运算。

优选的，所述数据通路实现从所述多个存储单元的至少一个第一存储单元至多个第二存储单元的连接；所述多个第二存储单元中每个第二存储单元用于接收并存储对所述第一数据执行所述第一运算后的结果数据。

本发明所述的一种基于并行存储运算装置的计算方法，所述运算装置包括多个存储单元、多个计算单元及控制模块；所述计算方法包括下述步骤：根据待计算的计算任务，所述控制模块建立所述多个存储单元间的一个或多个数据通路，其中，每个数据通路经过所述多个计算单元中一个或多个计算单元，并连接所述多个存储单元间的两个存储单元；执行所述一个或多个数据通路，其中，每个数据通路对应的起点存储单元的数据在该数据通路所经过的计算单元被执行相应的运算，对应的运算结果被写入该数据通路对应的目的存储单元；将所述一个或多个数据通路的执行结果作为所述计算任务的计算结果。

优选的，所述存储单元本身可执行特定运算，运算发生在存储单元内部，进入存储单元的数据的内容，与存储单元读出数据的内容不相同。

优选的，所述数据通路顺序经过所述多个计算单元中多个第一计算单元；所述多个第一计算单元用于对第一数据执行第一运算，其中，所述多个第一计算单元中前一个第一计算单元的输出作为其下一个计算单元的输入。

优选的，所述数据通路实现从所述多个存储单元的多个第一存储单元至至少一个第二存储单元的连接；第一计算单元用于对所述多个第一存储单元中存储的第一数据执行第一运算。

优选的，所述数据通路实现从所述多个存储单元的至少一个第一存储单元至多个第二存储单元的连接；所述多个第二存储单元中每个第二存储单元用于接收并存储对第一数据执行第一运算后的结果数据。本发明以存储驱动计算，不同于常见的解决内存瓶颈的方法，数据在存储之间的搬移过程之中就完成了计算，计算对于数据来说只是一种演变。对于深度神经网络应用，通过设置对应的计算单元与数据航线，可以灵活适用于各种神经网络。本发明具有如下技术效果：1.运算单元的调用与组合不依赖于外部数据；2.数据与运算相互独立，可以在运算单元间自由流动；3.数据在传输流动过程中完成运算，实现了可运算的存储；计算过程等同于数据流动，计算单元之所以可以连接，是因为其不依赖外部状态和具体数据，也不修改外部状态。

附图说明

图1为本发明所述的并行存储运算装置的结构图。

图2为本发明所述的并行存储运算装置的可计算通路的结构示意图。

图3为本发明所述的并行存储运算方法的流程图。

图4为本发明所述的并行存储运算方法的流程拆解图1。

图5为本发明所述的并行存储运算方法的流程拆解图2。

图6为本发明所述的并行存储运算方法的流程拆解图3。

具体实施方式

以下将结合附图对本发明技术方案做进一步的阐述。

为了更加详细的阐述本发明为了完成预定的目的所采用的技术手段及其功能，以下结合附图说明及实例，对根据本发明提出的并行存储运算装置和方法的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1为为本发明所述的并行存储运算装置的结构图。本发明所述的并行存储运算装置，其架构由控制层、数据层和计算层构成，所述控制层通过微型通用控制器配置计算单元(EC)、可计算通路(CC)；所述数据层支持常规存储和可计算存储；所述计算层由可计算通路(CC)与计算单元(EC)构成；所述数据层与计算层之间以数据航线为连接，数据在传送过程中完成计算。

所述可计算通路(CC)是数据层的存储单元经数据航线连接的到数据层的存储单元之间的数据通路，所述计算单元(EC)就是逻辑和算术运算电路或程序。

所述可计算通路(CC)的规模和数量决定了所述装置本身的算力。

所述计算单元之间通过可配置的数据航线来连接，比如计算单元A可以连接计算单元B，或可以连接计算单元C或可以不连。即，计算单元之间由数据航线相连，可以串联计算单元。

所述计算层是虚线长方形，包括白色、灰色和黑色的圈(即不同计算单元)。

其中图1、2中的双向箭头表示的是数据航线和数据流动的方向。

可计算通路指的是数据层的第一存储单元(输入存储单元)沿着数据航线，经过计算层的计算单元计算，再到数据层的第二存储单元(输出存储单元)，这样算一个可计算通路。

如图2中加粗部分为一个可计算通路，即数据从数据层的第一存储单元经过第一计算单元A和第一计算单元B到数据层的第二数据单元。

为了实现并行存储计算，数据通路至少为2个，以实现计算层可以同时并行计算。

所述数据通路顺序经过所述多个计算单元中多个第一计算单元，如第一计算单元A和第一计算单元B，用于对所述第一数据执行第一运算，其中，所述第一计算单元A输出作为第一计算单元B的输入。

所述数据通路实现从所述多个存储单元的多个第一存储单元至至少一个第二存储单元的连接(即数据多对一)；所述第一计算单元用于对所述多个第一存储单元中存储的第一数据执行第一运算。

所述数据通路实现从所述多个存储单元的至少一个第一存储单元至多个第二存储单元的连接(即数据一对多)；所述多个第二存储单元中每个第二存储单元用于接收并存储对所述第一数据执行所述第一运算后的结果数据。

图3-6为一项计算任务图以及任务拆解流程图，以说明本发明所述的并行存储运算方法。

其中圆形代表数据，正方形和三角形代表不同的运算类型。1、2、3、4、7为输入数据，5、6、8、9为中间结果，10为输出数据。数据的内涵定义灵活可变，但可以任意对接运算单元进行运算。运算a-f实际上就是在数据传输过程中完成。

以上计算任务按计算顺序可以拆解为以下三步，图4-6为本发明所述的并行存储运算方法的拆解图1-3，表示了如何映射到整个计算框架内。

其中运算单元与数据可以自由组合，数据可以经过运算单元输出结果，也可以不保存结果而是直接接入下一级运算单元。不保存数据结果，可以节省存储空间，保存结果有利于后续步骤的数据调用。

本发明所述的一种基于运算装置的计算方法，所述运算装置包括多个存储单元、多个计算单元及控制模块；

所述计算方法包括下述步骤：

根据待计算的计算任务，所述控制模块建立所述多个存储单元间的一个或多个数据通路，其中，每个数据通路经过所述多个计算单元中一个计算单元，并连接所述多个存储单元间的两个存储单元；

执行所述一个或多个数据通路，其中，每个数据通路对应的起点存储单元的数据在该数据通路所经过的计算单元被执行相应的运算，对应的运算结果被写入该数据通路对应的目的存储单元；

将所述一个或多个数据通路的执行结果作为所述计算任务的计算结果。

参照图3，数据1、2、3、4、7为输入数据，需要经过运算a-f得到输出数据。

第一步，参照图4，数据1、2经运算a得到数据5，数据3经运算b得到数据6；

第二步，参照图5，数据4、5经运算c得到数据8，数据6、7经运算d得到数据9；

第三步，参照图6，数据8经过运算e再进入运算f，数据9进入运算f，最后得到数据10。

第一步到第三步只是示例性的较优运算过程，以上计算分解过程可以变换数据或运算顺序，自由组合。

也可以不并行，即由数据1、2经运算a得到数据5，再与数据4经运算c得到数据8，然后而数据3经运算b得到数据6，再与数据7经运算d得到数据9，数据8经过运算e再进入运算f，数据9进入运算f，最后得到数据10。并行运算速度快，如果并行不保存数据结果，也可以节省存储空间。本发明具有函数式编程的优点，即不依赖外部的状态也不修改外部的状态；具有良好的并行性，不会造成资源争用从而导致死锁；复用性好。将此理念引入到运算装置设计中。

本发明具有如下技术效果：

1.运算单元的调用与组合不依赖于外部数据；

2.数据与运算相互独立，可以在运算单元间自由流动；

3.数据在传输流动过程中完成运算，实现了可运算的存储；

计算过程等同于数据流动，计算单元之所以可以连接，是因为其不依赖外部状态和具体数据，也不修改外部状态。

本发明所述的并行存储运算可以用于一种全新的AI芯片架构——SFA(StorageFirst Architectur)。在执行AI运算的集成电路中，新架构可以使数据在搬移过程中就完成计算，即存储驱动计算。

本说明书中所提到的实施方式仅作为本发明技术方案的示例性说明，而不应解释为对本发明的限制，任何对本发明进行显而易见的局部更改、等同变化和修饰都应视为本发明的替代方案。这种替代方案包括改变高光谱成像光谱仪的型号、数据采集控制设备的类型以及他们之间的位置关系等，这些更改和变化不脱离本发明的实质范围。

Claims

1.一种并行存储运算装置，其特征在于，所述装置包括多个存储单元、多个计算单元及控制模块；其中，

所述控制模块用于建立所述多个存储单元间的一个或多个数据通路，其中所述数据通路实现从所述多个存储单元的至少一个第一存储单元至至少一个第二存储单元的连接，所述数据通路经过所述多个计算单元中至少一个第一计算单元；

所述第一存储单元用于存储第一数据；

所述第一计算单元用于对所述第一数据执行第一运算；

所述第二存储单元用于接收并存储对所述第一数据执行所述第一运算后的结果数据。

2.根据权利要求1所述的并行存储运算装置，其中数据通路至少为2个。

3.根据权利要求1或2所述的并行存储运算装置，其中，所述数据通路顺序经过所述多个计算单元中多个第一计算单元；

所述多个第一计算单元用于对所述第一数据执行第一运算，其中，所述多个第一计算单元中前一个第一计算单元的输出作为其下一个计算单元的输入。

4.根据权利要求1或2或所述的并行存储运算装置，其中，所述数据通路实现从所述多个存储单元的多个第一存储单元至至少一个第二存储单元的连接；

所述第一计算单元用于对所述多个第一存储单元中存储的第一数据执行第一运算。

5.根据权利要求1或2所述的并行存储运算装置，其中，所述数据通路实现从所述多个存储单元的至少一个第一存储单元至多个第二存储单元的连接；

所述多个第二存储单元中每个第二存储单元用于接收并存储对所述第一数据执行所述第一运算后的结果数据。

6.一种基于并行存储运算装置的计算方法，其特征在于，所述运算装置包括多个存储单元、多个计算单元及控制模块；

所述计算方法包括下述步骤：

根据待计算的计算任务，所述控制模块建立所述多个存储单元间的一个或多个数据通路，其中，每个数据通路经过所述多个计算单元中一个或多个计算单元，并连接所述多个存储单元间的两个存储单元；

7.根据权利要求6所述的一种基于并行存储运算装置的计算方法，所述存储单元本身可执行特定运算，运算发生在存储单元内部，进入存储单元的数据的内容，与存储单元读出数据的内容不相同。

8.根据权利要求6所述的一种基于运算装置的计算方法，其中，所述数据通路顺序经过所述多个计算单元中多个第一计算单元；

所述多个第一计算单元用于对第一数据执行第一运算，其中，所述多个第一计算单元中前一个第一计算单元的输出作为其下一个计算单元的输入。

9.根据权利要求6所述的一种基于并行存储运算装置的计算方法，其中，所述数据通路实现从所述多个存储单元的多个第一存储单元至至少一个第二存储单元的连接；

第一计算单元用于对所述多个第一存储单元中存储的第一数据执行第一运算。

10.根据权利要求6所述的一种基于并行存储运算装置的计算方法，其中，所述数据通路实现从所述多个存储单元的至少一个第一存储单元至多个第二存储单元的连接；

所述多个第二存储单元中每个第二存储单元用于接收并存储对第一数据执行第一运算后的结果数据。