CN112419142A

CN112419142A - 一种提升dcnn计算阵列效率的系统及方法

Info

Publication number: CN112419142A
Application number: CN202011339614.4A
Authority: CN
Inventors: 张华�; 刘欣
Original assignee: China Science Fusion Perception Intelligence Research Institute Suzhou Industrial Park Co ltd
Current assignee: China Science Fusion Perception Intelligence Research Institute Suzhou Industrial Park Co ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-02-26
Anticipated expiration: 2040-11-25
Also published as: CN112419142B

Abstract

本发明公开了一种提升DCNN计算阵列效率的系统及方法，包括全局缓冲区、本地缓冲区、数据分发控制器和计算阵列控制器；所述全局缓冲区存储DCNN计算的输入图像、网络参数以及计算过程中的临时数据，与本地缓冲区连接；所述本地缓冲区存储计算阵列控制器每次计算时的输入数据，与计算阵列控制器连接；所述数据分发控制器通过读全局缓冲区控制模块从全局缓冲区读出数据，通过写本地缓冲区控制模块写入本地缓冲区；所述计算阵列控制器通过读本地缓冲区控制模块读出待计算数据，计算完成后通过写全局缓冲区控制模块写回全局缓冲区；本发明在不增加成本的情况下，大幅提升DCNN的计算效率。

Description

一种提升DCNN计算阵列效率的系统及方法

技术领域

本发明涉及一种提升DCNN计算阵列效率的系统及方法，属于卷积神经网络技术领域。

背景技术

随着深度学习的发展，深度卷积神经网络DCNN成为应用最为广泛的网络结构，在图像、语音等领域应用广泛，深度卷积神经网络的核心算法是卷积计算，卷积计算在整个神经网络的计算中占据核心地位，如何提升DCNN计算效率是一个急需解决的问题。

现有技术中，采用乒乓SRAM的方法，来提升计算效率，这种方式把SRAM大小直接翻倍，面积也就直接翻倍，相应成本也翻倍了，同时也增加了系统功耗；而在ASIC中，SRAM的成本是昂贵的。

发明内容

针对上述存在的技术问题，本发明的目的是：提出了一种提升DCNN计算阵列效率的系统及方法，在不花费额外成本的条件下大幅提升计算阵列的计算效率。

本发明的技术解决方案是这样实现的：一种提升DCNN计算阵列效率的系统，包括全局缓冲区、本地缓冲区、数据分发控制器和计算阵列控制器；

所述全局缓冲区存储DCNN计算的输入图像、网络参数以及计算过程中的临时数据，与本地缓冲区连接；

所述本地缓冲区存储计算阵列控制器每次计算时的输入数据，与计算阵列控制器连接；

所述数据分发控制器通过读全局缓冲区控制模块从全局缓冲区读出数据，通过写本地缓冲区控制模块写入本地缓冲区；

所述计算阵列控制器通过读本地缓冲区控制模块读出待计算数据，计算完成后通过写全局缓冲区控制模块写回全局缓冲区。

优选的，所述本地缓冲区包括写端口单元、写缓冲寄存器、SRAM、读缓冲寄存器、读端口单元和读写缓冲控制单元；所述写端口单元接入写缓冲寄存器；所述读缓冲寄存器接入有读端口单元；所述写缓冲寄存器和读缓冲寄存器设置在SRAM两端，并通过读写缓冲控制单元控制写缓冲寄存器和读缓冲寄存器的单元逻辑。

优选的，所述写端口单元的位宽为8Bits x N；所述写缓冲寄存器的位宽为8Bitsx N；所述SRAM的深度为P，位宽为8Bits x N；所述读缓冲寄存器的位宽为8Bits x N；所述读端口单元的位宽为8Bits；其中N的数值为2的n次方，n≥1。

优选的，所述本地缓冲区包括多个本地缓冲阵列（X，Y，Z），其中X表示阵列的纵向方向，Y表示阵列的横向方向，Z表示每个缓冲的深度；每个（X，Y）坐标点表示缓冲阵列中在X行，Y列的位置存在一个物理缓存，缓存基于SRAM实现；每个（X，Y，Z）坐标点表示缓冲阵列中在X行，Y列的位置存在的一个物理缓存缓存基于SRAM实现，SRAM深度为Z。

一种提升DCNN计算阵列效率的方法，包括如下步骤， S100，设置DCNN计算内核所需的基本配置，将DCNN处理所需的所有输入参数录入全局缓冲区待用；

S200，设置卷积处理所需的配置，启动DCNN计算内核运行；

S300，从全局缓冲区读取卷积处理所需的参数，然后向本地缓冲区写入所需的参数，当参数全部写入本地缓冲区后，向计算阵列控制器发出计算开始信号：

S400，计算阵列控制器从本地缓冲区读取参数，进行卷积处理，处理完成后，向全局缓冲区写入计算输出结果；

S500，对卷积处理情况进行判断：若卷积处理未全部完成，则再次执行S200；若卷积处理全部完成，则进入下一步：

S600，DCNN处理完成。

优选的，记录每次读取卷积处理所需的参数至向本地缓冲区写入所需的参数的传输时间

以及对应的每次卷积处理时间

,求得每次可用传输计算比

,

；记录每次可用总处理时间

，

。

优选的，每次读取卷积处理所需的参数至向本地缓冲区写入所需的参数的传输时间与对应的每次卷积处理时间存在重叠，重叠时间记录为

。

由于上述技术方案的运用，本发明与现有技术相比具有下列优点：

本发明的一种提升DCNN计算阵列效率的系统及方法，通过保持本地缓冲阵列SRAM大小不变，且保持为单端口SRAM，在不增加成本的情况下，大幅提升DCNN的计算效率，大大的降低了企业的成本，满足企业发展的需求。

附图说明

下面结合附图对本发明技术方案作进一步说明：

附图1为本发明一种提升DCNN计算阵列效率的系统的功能框图；

附图2为本发明一种提升DCNN计算阵列效率的系统的本地缓冲区详细框图；

附图3为本发明一种提升DCNN计算阵列效率的系统的本地缓冲区阵列框图；

附图4为本发明的一种提升DCNN计算阵列效率的方法流程图；

附图5为本发明的流程处理时间优化前后对比图。

具体实施方式

下面结合附图来说明本发明。

实施例一

如附图1所示为本发明所述的一种提升DCNN计算阵列效率的系统，包括全局缓冲区、本地缓冲区、数据分发控制器和计算阵列控制器；所述全局缓冲区存储DCNN计算的输入图像、网络参数以及计算过程中的临时数据，与本地缓冲区连接；所述本地缓冲区存储计算阵列控制器每次计算时的输入数据，与计算阵列控制器连接；所述数据分发控制器通过读全局缓冲区控制模块从全局缓冲区读出数据，通过写本地缓冲区控制模块写入本地缓冲区；所述计算阵列控制器通过读本地缓冲区控制模块读出待计算数据，计算完成后通过写全局缓冲区控制模块写回全局缓冲区。

实施例二

如附图2为本发明的本地缓冲区详细框图，所述本地缓冲区包括写端口单元、写缓冲寄存器、SRAM、读缓冲寄存器、读端口单元和读写缓冲控制单元；所述写端口单元接入写缓冲寄存器；所述读缓冲寄存器接入有读端口单元；所述写缓冲寄存器和读缓冲寄存器设置在SRAM两端，并通过读写缓冲控制单元控制写缓冲寄存器和读缓冲寄存器的单元逻辑；所述写端口单元的位宽为8Bits x N；所述写缓冲寄存器的位宽为8Bits x N；所述SRAM的深度为P，位宽为8Bits x N；所述读缓冲寄存器的位宽为8Bits x N；所述读端口单元的位宽为8Bits；其中N的数值为2的n次方，n≥1，其中N=2、4、8等。

因为写数据宽度是读数据宽度的N倍，也就是写端口单元能提供的带宽是读端口单元带宽的N倍；鉴于此，可以使用位宽为单端口SRAM，数据宽度8Bits x N，模拟双端口SRAM，写端口数据宽度8Bits x N，读端口数据宽度8Bits，且可满足读/写带宽的需求。

读写缓冲控制单元用于控制读、写端口单元，具体方法如下：

读端口单元的地址位宽为

，写端口单元的地址位宽为

；比如N=4，P=64即写端口单元数据位宽32bits，读端口单元数据位宽8bits；写端口单元地址宽度6bits，读端口单元地址位宽8bits；需要注意是，虽然读端口单元上的位宽是8bits，但实际读SRAM端口的地址位宽是6bits，且从SRAM读出的数据位宽也为32bits；

读操作，首先会比对读端口单元的高位地址，读端口单元的

宽度地址截掉低

位，比较一致且读缓冲寄存器有效时，则直接从读缓冲寄存器读出数据；比较不一致时，则从SRAM读出8Bits x N宽度的数据，取出需要的8bits数据，同时把8Bitsx N数据存到读缓冲寄存器；

当对SRAM的读/写操作发生冲突即读/写信号同时有效时，则读操作优先；来自写端口单元的数据会暂存在写缓冲寄存器中，待SRAM的读端口单元无操作时，把写缓冲寄存器中数据写到SRAM；

因为宏观上写端口单元提供的带宽是读端口单元提供带宽的N倍，且根据数据分发控制器对本地缓冲区的写策略，读写（X，Y）坐标上SRAM是均匀轮训的，因此读写操作不会出现连续冲突的情况，读写缓冲控制逻辑实现可以很简单。

实施例三

如附图3为本发明的本地缓冲区阵列框图，所述本地缓冲区包括多个本地缓冲阵列（X，Y，Z），其中X表示阵列的纵向方向，Y表示阵列的横向方向，Z表示每个缓冲的深度；每个（X，Y）坐标点表示缓冲阵列中在X行，Y列的位置存在一个物理缓存，缓存基于SRAM实现；每个（X，Y，Z）坐标点表示缓冲阵列中在X行，Y列的位置存在的一个物理缓存缓存基于SRAM实现，SRAM深度为Z。

数据分发控制器对本地缓冲区的写策略采用X->Y->Z顺序;

具体从本地缓冲区的坐标顺序上看:

（1,1,1）->（2,1,1）-> … ->（M,1,1）->（1,2,1）->（2,2,1）->…->（M,2,1）->（1,N,1）->（2,N,1）->… ->（M,N,1）-> （1,1,2）->（2,1,2）-> … ->（M,1,2）->（1,2,2）->（2,2,2）->…->（M,2,2）->（1,N,2）->（2,N,2）->… ->（M,N,2）->

……

（1,1,P）->（2,1, P）-> … ->（M,1, P）->（1,2, P）->（2,2, P）->…->（M,2, P）->（1,N, P）->（2,N, P）->… ->（M,N, P）;

计算阵列控制器对本地缓冲区的读策略也采用X->Y->Z顺序;

具体从本地缓冲区的坐标顺序上看，跟写策略的顺序一样:

……

（1,1,P）->（2,1, P）-> … ->（M,1, P）->（1,2, P）->（2,2, P）->…->（M,2, P）->（1,N, P）->（2,N, P）->… ->（M,N, P）。

实施例四

基于本发明方法的2种处理流程：

流程1：

数据分发控制器按照对本地缓冲区的写策略，把参数按照X->Y->Z的顺序依次写入本地缓冲阵列；

对最后一组数据（M，N，P）的本地缓冲写完后；启动计算阵列控制器按照对本地缓冲区的读策略，从本地缓冲区按照X->Y->Z的顺序依次读出本地缓冲中的参数，进行计算；

选择合适的Z值，随后再次启动数据分发控制器对本地缓冲区的写策略，继续按照X->Y->Z的顺序依次更新下一次处理过程的输入参数；

只要Z值选择合适，一次处理过程中，计算阵列控制器一边读出数据进行计算，同时缓冲阵列也随后被下一次处理过程的数据更新，但又不会被下一次处理过程写入的数据覆盖当前处理过程的数据，从而实现数据计算和数据传输重叠，减少处理时间。

流程2：

选择合适的Z值，随后启动计算阵列控制器按照对本地缓冲区的读策略，从本地缓冲按照X->Y->Z的顺序依次读出本地缓冲中的参数，进行计算；

只要Z值选择合适，一次处理过程中，计算阵列读出的数据进行计算，但又不会超过本地缓冲区写数据的数据量；也就实现了边写边计算的功能，从而也可实现数据计算和数据传输重叠，减少处理时间。

实施例五

如附图4所示为本发明的一种提升DCNN计算阵列效率的方法，包括如下步骤， S100，设置DCNN计算内核所需的基本配置，将DCNN处理所需的所有输入参数录入全局缓冲区待用；

S200，设置卷积处理所需的配置，启动DCNN计算内核运行；

S600，DCNN处理完成。

如附图5所示，在本方法中，记录每次读取卷积处理所需的参数至向本地缓冲区写入所需的参数的传输时间

以及对应的每次卷积处理时间

是2个关键过程，直接影响计算时间和计算效率；通过每次处理过程中的参数传输时间

和每次处理过程中的卷积处理时间

，求得每次可用传输计算比

,

；

越小，计算效率越高；

越大，计算效率越低；每次可用总处理时间

，

，来表达一次处理过程的总时间，直接影响DCNN的处理耗时，

越小越好。

为此，为了提高DCNN计算阵列效率，需要减小

和

。

把卷积处理和参数传输进行流水线处理，这样

和

在时间上是重叠的，重叠时间记录为

，进而

虽然没有减少，但是总处理时间

会减小，

,即流水线处理比普通处理方式减少了

的处理时间。

本发明的一种提升DCNN计算阵列效率的系统及方法，通过保持本地缓冲阵列(SRAM)大小不变，且保持为单端口SRAM，在不增加成本的情况下，大幅提升DCNN的计算效率，大大的降低了企业的成本，满足企业发展的需求。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并加以实施，并不能以此限制本发明的保护范围，凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围内。

Claims

1.一种提升DCNN计算阵列效率的系统，其特征在于：包括全局缓冲区、本地缓冲区、数据分发控制器和计算阵列控制器；

2.如权利要求1所述的一种提升DCNN计算阵列效率的系统，其特征在于：所述本地缓冲区包括写端口单元、写缓冲寄存器、SRAM、读缓冲寄存器、读端口单元和读写缓冲控制单元；所述写端口单元接入写缓冲寄存器；所述读缓冲寄存器接入有读端口单元；所述写缓冲寄存器和读缓冲寄存器设置在SRAM两端，并通过读写缓冲控制单元控制写缓冲寄存器和读缓冲寄存器的单元逻辑。

3.如权利要求2所述的一种提升DCNN计算阵列效率的系统，其特征在于：所述写端口单元的位宽为8Bits x N；所述写缓冲寄存器的位宽为8Bits x N；所述SRAM的深度为P，位宽为8Bits x N；所述读缓冲寄存器的位宽为8Bits x N；所述读端口单元的位宽为8Bits；其中N的数值为2的n次方，n≥1。

4.如权利要求1-3中任一项所述的一种提升DCNN计算阵列效率的系统，其特征在于：所述本地缓冲区包括多个本地缓冲阵列（X，Y，Z），其中X表示阵列的纵向方向，Y表示阵列的横向方向，Z表示每个缓冲的深度；每个（X，Y）坐标点表示缓冲阵列中在X行，Y列的位置存在一个物理缓存，缓存基于SRAM实现；每个（X，Y，Z）坐标点表示缓冲阵列中在X行，Y列的位置存在的一个物理缓存缓存基于SRAM实现，SRAM深度为Z。

5.一种提升DCNN计算阵列效率的方法，其特征在于：包括如下步骤， S100，设置DCNN计算内核所需的基本配置，将DCNN处理所需的所有输入参数录入全局缓冲区待用；

S200，设置卷积处理所需的配置，启动DCNN计算内核运行；

S600，DCNN处理完成。

6.如权利要求5所述的一种提升DCNN计算阵列效率的方法，其特征在于：记录每次读取卷积处理所需的参数至向本地缓冲区写入所需的参数的传输时间