CN112598122B

CN112598122B - 一种基于可变电阻式随机存储器的卷积神经网络加速器

Info

Publication number: CN112598122B
Application number: CN202011539528.8A
Authority: CN
Inventors: 傅颖勋; 刘恂; 马礼
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2023-09-05
Anticipated expiration: 2040-12-23
Also published as: CN112598122A

Abstract

本发明提出一种基于可变电阻式随机存储器的卷积神经网络加速器，包括控制器，片内存储器，数字模拟信号转换器，模拟数字信号转换器以及基于电阻式存储器的核心计算单元。本发明在基于可变电阻式随机存储器的卷积神经网络加速器中引入基于电阻式存储器的核心计算单元，通过对核心计算单元进行重新配置，可执行连续多层的卷积计算，并降低数字模拟信号的互相转换操作和中间计算数据的反复存取，使得基于可变电阻式随机存储器的卷积神经网络加速器更为高效。

Description

一种基于可变电阻式随机存储器的卷积神经网络加速器

技术领域

本发明涉及卷积神经网络算法领域，属于一种基于可变电阻式随机存储器的卷积神经网络加速器。

背景技术

卷积神经网络是深度神经网络中发展应用最为成功的分支之一。随着卷积神经网络在图像视频识别等领域的广泛应用，海量的卷积神经网络计算任务需要得到高效的处理。然而，海量的计算任务会产生更多的计算数据传输量。在传统的处理器架构中，例如CPU和GPU，计算单元的处理速度比存储单元的访存速度快得多，大量的计算数据会加剧存储墙对处理器架构运算效率的负面影响。

为了提升处理神经网络计算任务的效率，许多研究工作围绕神经网络专用加速器设计来展开。尽管Dadiannao等相关工作提出了基于近存储计算的深度神经网络加速器设计，但在冯诺依曼架构下，加速器结构里的计算单元与存储单元仍是相互独立的。无法从本质上缓解存储墙对深度神经网络加速器性能的影响。因此，研究者们提出存内计算的设计思路来解决这个问题。存内计算的含义是在内存单元中完成计算操作。已有的内存介质无法实现计算操作，而新型的非易失性存储器，例如电阻式存储器和磁阻存储器等，能根据自身的物理特性同时具备存储能力与计算能力。其中，电阻式存储器通过电阻的形式存储计算数据，把电阻式存储器组织成阵列的形式后可根据欧姆定律和基尔霍夫定律在阵列内自然地完成矩阵乘法。矩阵乘法是卷积神经网络中最核心也是数量最多的计算操作。由于电阻式存储器在运算矩阵乘法时存在着天然的优势，近年来产生了许多基于电阻式存储器的深度神经网络加速器研究工作。

目前，已有的基于电阻式存储器的深度神经网络加速器研究工作大致可分为两类：一类是把电阻式存储器组织成若干个尺寸固定的阵列形式，再由若干个阵列组成计算单元。现在大多数研究工作提出的加速器架构都以此组织形式作为基础。这样设计的优势是在于可通过拆分矩阵的方式来适应输入输出大小不同的各类矩阵乘法。但是，由于阵列内以模拟信号的形式进行计算而模拟信号无法存储，故需要进行大量数字信号与模拟信号互相转换的操作，从而产生大量的时耗和能耗。另一类是把由电阻式存储器组成的阵列直连成简单的感知机形式。这样设计的优势是降低了阵列与阵列之间的信号转换操作，进一步提升了计算矩阵乘法的效率。但是这样的结构可扩展性较差，目前无法运行更深更复杂的卷积神经网络。

发明内容

本发明的目的在于针对已有工作的不足，提出一种基于可变电阻式随机存储器的卷积神经网络加速器，是一种低数模信号转换时耗与能耗的基于可变电阻式随机存储器的卷积神经网络加速器结构，以解决上述问题。

本发明提供了一种基于可变电阻式随机存储器的卷积神经网络加速器，包括控制器，多组片内存储器，数字模拟信号转换器，模拟数字信号转换器以及基于电阻式存储器的核心计算单元，所述控制器，用于控制程序进程和各个模块的工作状态；所述片内存储器，用于存储片上核心计算单元输出的中间计算数据和片外输入数据；所述数字模拟信号转换器，用于把片内存储器的输入数据转换成模拟信号传输给基于电阻式存储器的核心计算单元；所述模拟数字信号转换器，把基于电阻式存储器的核心计算单元的输出模拟信号转换成数字信号存储到片内存储器；所述基于电阻式存储器的核心计算单元，用于从数字模拟信号转换器获得输入模拟信号并直接使用模拟信号完成连续多层的卷积计算和最大池化操作。

根据本发明的低数模信号转换时耗与能耗的基于可变电阻式随机存储器的卷积神经网络加速器，所述基于电阻式存储器的核心计算单元由多个大小固定的交叉开关阵列，若干个开关矩阵，开关矩阵控制器和多个最大池化电路组成；

所述交叉开关阵列，用于存储卷积计算的权值，还能进行部分卷积计算，由可变电阻式随机存储器组成，可由开关矩阵进行连接；

所述开关矩阵，用于连接邻的交叉开关阵列组成新的计算单元，通过开关矩阵控制器来控制其开合状态；

所述开关矩阵控制器，用于控制开关矩阵的开合状态，接收来自控制器的指令；

所述最大池化电路，用于对开关矩阵输出的模拟信号进行最大池化操作，并将最大池化后的模拟信号传输到模拟数字信号转换器。

根据本发明的低数模信号转换时耗与能耗的基于可变电阻式随机存储器的卷积神经网络加速器，所述的控制器把具体的卷积神经网络结构划分为多个子网络；所述子网络为两层卷积和一层最大池化层，或者一层卷积和一层最大池化层。

根据本发明的低数模信号转换时耗与能耗的基于可变电阻式随机存储器的卷积神经网络加速器，所述的控制器根据每个子网络的结构分别计算出子网络的一个输出在每一层输入特征图中对应的感受野范围和卷积计算的数量；

根据本发明的低数模信号转换时耗与能耗的基于可变电阻式随机存储器的卷积神经网络加速器，所述的控制器根据卷积计算的数量和输入输出数据量向每个基于电阻式存储器的核心计算单元内的开关矩阵控制器发送指令，控制所有开关矩阵的开合状态；

根据本发明的低数模信号转换时耗与能耗的基于可变电阻式随机存储器的卷积神经网络加速器，所述的控制器根据子网络的一个输出在子网络输入特征图中对应的感受野范围为基于电阻式存储器的核心计算单元选择计算所需的输入数据。

根据本发明的低数模信号转换时耗与能耗的基于可变电阻式随机存储器的卷积神经网络加速器，所述的开关矩阵控制器通过开关矩阵的开合状态连接多个交叉开关矩阵组成若干个卷积计算单元，每个卷积计算单元可执行一个完整的卷积计算；

根据本发明的低数模信号转换时耗与能耗的基于可变电阻式随机存储器的卷积神经网络加速器，所述的开关矩阵控制器根据子网络的结构通过开关矩阵的开合状态连接所有的卷积计算单元，使相邻层卷积计算单元输入输出模拟信号可直接传输。

根据本发明的低数模信号转换时耗与能耗的基于可变电阻式随机存储器的卷积神经网络加速器，所述的片内存储器有增强动态随机存储器，寄存器和可变电阻式随机存储器。

本发明通过在基于可变电阻式随机存储器的卷积神经网络加速器中引入基于电阻式存储器的核心计算单元，控制所述的开关矩阵开合状态对所述的交叉开关矩阵进行连接，使连续多层卷积计算的输出模拟信号可直接传输并用作下一层卷积计算的输入模拟信号，从而降低数字模拟信号的互相转换操作和中间计算数据的反复存取，使得基于可变电阻式随机存储器的卷积神经网络加速器更为高效。

附图说明

图1是本发明一种基于可变电阻式随机存储器的卷积神经网络加速器结构框图；

图2是本发明一种基于电阻式存储器的核心计算单元结构框图；

图3是本发明一种实施例的基于电阻式存储器的核心计算单元配置流程图；

图4是本发明一种实施例的卷积神经网络子网络划分示意图；

图5是本发明一种实施例的控制器为基于电阻式存储器的核心计算单元选择输入数据的示意图；

图6是本发明一种实施例的基于电阻式存储器的核心计算单元结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明提供了一种基于可变电阻式随机存储器的卷积神经网络加速器101，包括控制器102，多组片内存储器103，数字模拟信号转换器104，模拟数字信号转换器105以及基于电阻式存储器的核心计算单元106。

控制器102，用于控制程序进程和各个模块的工作状态，并根据卷积神经网络的结构进行子网络划分，如图4所示，每个子网络的结构为两层卷积和一层最大池化层，或者一层卷积和一层最大池化层；若是连续多层的卷积层需要划分，则构造1×1的最大池化层。且在配置基于电阻式存储器的核心计算单元106前计算子网络输入特征图中对应的感受野范围和每层的卷积计算数量，为基于电阻式存储器的核心计算单元106选择计算所需的输入数据，如图5所示。

片内存储器103，用于存储片上核心计算单元输出的中间计算数据和片外输入数据，含有1个增强动态随机存储器，2个输入寄存器，2个数字模拟寄存器，1个模拟数字寄存器，1个输出寄存器。控制器102选择基于电阻式存储器的核心计算单元106所需的输入数据，并存入动态随机存储器中，然后经由输入寄存器和数字模拟寄存器，传输到数字模拟信号转换器104。

数字模拟信号转换器104，用于读入数字模拟寄存器内的输入数据，并转换成模拟信号传输给基于电阻式存储器的核心计算单元106，与基于电阻式存储器的核心计算单元106直接相连。

模拟数字信号转换器105，把基于电阻式存储器的核心计算单元的输出模拟信号转换成数字信号存储到片内存储器与基于电阻式存储器的核心计算单元106直接相连，转换后的结果经由模拟数字寄存器，存储到增强动态随机存储器中。

基于电阻式存储器的核心计算单元106，用于从数字模拟信号转换器104获得输入模拟信号并直接使用模拟信号完成连续多层的卷积计算和最大池化操作，输出的模拟信号传输到模拟数字信号转换器105。

如图2所示，基于电阻式存储器的核心计算单元106包括开关矩阵控制器201，开关矩阵202，大小固定的交叉开关阵列203和最大池化电路组成204。

开关矩阵控制器201，用于控制开关矩阵202的开合状态，接收来自控制器102的指令，接收到的指令内容包含基于电阻式存储器的核心计算单元106需要处理的子网络层数，每一层需要并行计算的卷积计算数量以及每层卷积计算输入输出数据量，开关矩阵控制器201根据以上信息对横向和纵向上开关矩阵202的开合状态。

开关矩阵202，用于连接邻的交叉开关阵列203组成卷积计算单元601，如图6所示，通过开关矩阵控制器来控制其开合状态。开关矩阵对独立的交叉开关阵列203进行横向与纵向上的连接，组成卷积计算单元601。

交叉开关阵列203，用于存储卷积计算的权值，还能进行部分卷积计算，由可变电阻式随机存储器组成，由开关矩阵202进行连接。当开关矩阵的开合状态稳定以后，在卷积计算单元601内存储卷积计算的权值。

最大池化电路204，用于对最后一层卷积计算单元601输出的模拟信号进行最大池化操作，并将最大池化后的模拟信号传输到模拟数字信号转换器。

图3是基于电阻式存储器的核心计算单元106配置流程图；该流程包括：

步骤301：控制器102根据具体的卷积神经网络结构将完整的网络划分为若干个子网络。每个子网络都有一组片内存储器103，数字模拟信号转换器104，模拟数字信号转换器105和基于电阻式存储器的核心计算单元106负责计算。若未完成子网络划分，则执行步骤301。

步骤302：控制器102计算子网络的一个输出在子网络输入特征图中对应的感受野范围和卷积计算数量，并将各个子网络的关键参数包括子网络深度和输入输出数据量，整合生成相应的配置指令。

步骤303：控制器102向各个负责子网络计算的基于电阻式存储器的核心计算单元106的开关矩阵控制器201发送配置指令，开关矩阵控制器201需要根据以上数据对横向和纵向上开关矩阵202的开合状态进行控制。

步骤304：控制器102确认是否所有负责子网络计算的基于电阻式存储器的核心计算单元106里的开关矩阵控制器201收到了配置指令，若没有收到则重复步骤303。

步骤305：开关矩阵控制器201接收到来自控制器102的配置指令后，根据指令内的关键数据控制基于电阻式存储器的核心计算单元106内开关矩阵的开合状态。卷积计算的输入数据量决定了纵向开关矩阵202的开合状态，输出数据量决定了横向开关矩阵202的开合状态，每层卷积计算的数量决定了每层卷积计算单元601的数量。

步骤306：确认所有负责子网络计算的基于电阻式存储器的核心计算单元106是否配置完毕。

综上所述，本发明基于电阻式存储器的核心计算单元，控制所述的开关矩阵开合状态对所述的交叉开关矩阵进行连接，使连续多层卷积计算的输出模拟信号可直接传输并用作下一层卷积计算的输入模拟信号，从而降低数字模拟信号的互相转换操作和中间计算数据的反复存取，使得基于可变电阻式随机存储器的卷积神经网络加速器更为高效。

Claims

1.一种基于可变电阻式随机存储器的卷积神经网络加速器，其特征在于，包括控制器，多组片内存储器，数字模拟信号转换器，模拟数字信号转换器以及基于电阻式存储器的核心计算单元，

所述控制器，用于控制程序进程和各个模块的工作状态，进一步地，所述的控制器把具体的卷积神经网络结构划分为多个子网络；

所述的控制器根据每个子网络的结构分别计算出子网络的一个输出在每一层输入特征图中对应的感受野范围和卷积计算的数量；

所述的控制器根据卷积计算的数量和输入输出数据量向每个基于电阻式存储器的核心计算单元内的开关矩阵控制器发送指令，控制所有开关矩阵的开合状态；

所述的控制器根据子网络的一个输出在子网络输入特征图中对应的感受野范围为基于电阻式存储器的核心计算单元选择计算所需的输入数据；

所述片内存储器，用于存储片上核心计算单元输出的中间计算数据和片外输入数据；

所述数字模拟信号转换器，用于把片内存储器的输入数据转换成模拟信号传输给基于电阻式存储器的核心计算单元；

所述模拟数字信号转换器，把基于电阻式存储器的核心计算单元的输出模拟信号转换成数字信号存储到片内存储器；

所述基于电阻式存储器的核心计算单元，用于从数字模拟信号转换器获得输入模拟信号并直接使用模拟信号完成连续多层的卷积计算和最大池化操作，由多个大小固定的交叉开关阵列，若干个开关矩阵，开关矩阵控制器和多个最大池化电路组成；

所述交叉开关阵列，由可变电阻式随机存储器组成，可由开关矩阵进行连接，用于存储卷积计算的权值矩阵，并进行部分卷积计算；

所述开关矩阵，通过开关矩阵控制器来控制其开合状态，用于连接邻的交叉开关阵列组成新的计算单元；

所述开关矩阵控制器，接收来自控制器的指令，用于控制开关矩阵的开合状态，进一步地，所述开关矩阵控制器通过开关矩阵的开合状态连接多个交叉开关矩阵组成若干个卷积计算单元，每个卷积计算单元可执行一个完整的卷积计算，所述开关矩阵控制器根据子网络的结构通过开关矩阵的开合状态连接所有的卷积计算单元，使相邻层卷积计算单元输入输出模拟信号可直接传输；

2.根据权利要求1所述的基于可变电阻式随机存储器的卷积神经网络加速器，其特征在于，所述的片内存储器有增强动态随机存储器，寄存器和可变电阻式随机存储器。

3.根据权利要求1所述的基于可变电阻式随机存储器的卷积神经网络加速器，其特征在于，子网络的结构为两层卷积和一层最大池化层，或者一层卷积和一层最大池化层。