CN110659733A

CN110659733A - 一种加速神经网络模型预测过程的处理器系统

Info

Publication number: CN110659733A
Application number: CN201910895107.XA
Authority: CN
Inventors: 景蔚亮; 陈邦明
Original assignee: Shanghai Xinchu Integrated Circuit Co Ltd
Current assignee: Shanghai Xinchu Integrated Circuit Co Ltd
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2020-01-07

Abstract

本发明提供一种加速神经网络模型预测过程的处理器系统，涉及神经网络算法领域和计算机硬件领域领域，所述神经网络模型预测过程包括卷积层、循环层和全连接层，所述处理器系统包括一第一处理单元和一三维非易失性存储器；所述三维非易失性存储器内部集成有一第二处理单元；所述第一处理单元用于处理保存在所述存储单元中的所述神经网络模型执行所述卷积层和所述循环层的命令时的相应数据；所述第二处理单元用于处理保存在所述三维非易失性存储器的存储阵列中的所述神经网络模型执行所述全连接层的命令时的相应数据。本发明有效提升神经网络模型预测过程的运行速度，充分利用了各处理器性能，避免系统资源浪费的同时降低能耗。

Description

一种加速神经网络模型预测过程的处理器系统

技术领域

本发明涉及神经网络算法领域和计算机硬件领域，尤其涉及一种加速神经网络模型预测过程的处理器系统。

背景技术

神经网络目前被广泛应用于视频处理、图像处理、语音识别和优化计算等领域，神经网络由于自身结构中的可并行性和良好的性能，受到了广泛的关注，也在潜移默化地影响着人们的生活。神经网络运算过程中需要大量的数据，数据的存储和传输已经成为神经网络运算过程的技术壁垒。如何使得神经网络在运算过程中，庞大的数据的传输和存储能够高效地运行，减小神经网络运算过程中的内存限制，成为目前所要解决的一项关键的问题。

深度神经网络的计算过程主要包括训练过程和预测过程两部分，但由于其具有计算密集性和数据密集性的特点，当面对大规模数据时，往往存在计算资源需求大、计算时间过长、功耗较大等微调。训练过程采用离线方式即可满足一般应用的需求，而预测过程需要在线进行，对实时性要求更高，因此加速其预测过程更具有实践意义和应用市场。并行化是加速神经网络的预测过程的主要技术手段，但如果数据访问能力不能进一步提高，就形成了瓶颈，导致片上并行部件利用率不高，造成了现有资源的浪费。

发明内容

针对现有技术中存在的问题，本发明提供一种加速神经网络模型预测过程的处理器系统，所述神经网络模型预测过程包括卷积层、循环层和全连接层，所述处理器系统包括一第一处理单元和一三维非易失性存储器；

所述三维非易失性存储器内部集成有一第二处理单元；

所述第一处理单元连接一存储单元，用于处理保存在所述存储单元中的所述神经网络模型执行所述卷积层和所述循环层的命令时的相应数据；

所述第二处理单元用于处理保存在所述三维非易失性存储器的存储阵列中的所述神经网络模型执行所述全连接层的命令时的相应数据。

优选的，所述第一处理单元具有直接访问所述存储单元的权限，以及

所述第二处理单元具有直接访问所述三维非易失性存储器的所述存储阵列的权限。

优选的，所述存储单元包括内存，和/或三维非易失性存储器。

优选的，所述第一处理单元包括中央处理单元，和/或图形处理单元，和/或张量处理单元，和/或现场可编辑逻辑门阵列，和/或专用集成电路芯片。

优选的，所述第二处理单元包括中央处理单元，和/或图形处理单元，和/或张量处理单元，和/或现场可编辑逻辑门阵列，和/或专用集成电路芯片。

优选的，所述第一处理单元的处理性能高于所述第二处理单元的处理性能。

优选的，所述第二处理单元形成于所述三维非易失性存储器的所述存储阵列的上方；或者

所述第二处理单元形成于所述三维非易失性存储器的所述存储阵列的下方。

优选的，所述三维非易失性存储器包括三维相变存储器，和/或三维NAND闪存，和/或三维磁性存储器，和/或阻变存储器。

上述技术方案具有如下优点或有益效果：根据神经网络模型卷积层、循环层和全连接层的数据运算特点，分别采用不同性能的处理器进行并行处理，且各处理器可以直接访问对应的存储单元和/或存储阵列，可以有效提升神经网络模型预测过程的运行速度，充分利用了各处理器性能，避免系统资源浪费的同时降低能耗。

附图说明

图1为本发明的较佳的实施例中，一种加速神经网络模型预测过程的处理器系统的结构示意图；

图2为本发明的较佳的实施例中，现有技术中的神经网络模型预测过程的处理器系统的结构示意图；

图3为本发明的较佳的实施例中，存储单元由三维非易失性存储器代替的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本发明并不限定于该实施方式，只要符合本发明的主旨，则其他实施方式也可以属于本发明的范畴。

本发明的较佳的实施例中，基于现有技术中存在的上述问题，现提供一种加速神经网络模型预测过程的处理器系统，神经网络模型预测过程包括卷积层、循环层和全连接层，如图1所示，处理器系统4包括一第一处理单元1和一三维非易失性存储器2；

三维非易失性存储器2内部集成有一第二处理单元21；

第一处理单元1连接一存储单元3，用于处理保存在存储单元3中的神经网络模型执行卷积层和循环层的命令时的相应数据；

第二处理单元21用于处理保存在三维非易失性存储器2的存储阵列22中的神经网络模型执行全连接层的命令时的相应数据。

具体地，本实施例中，上述神经网络模型预测过程包括卷积层、循环层和全连接层，其中，卷积层和循环层中的数据运算较为复杂，且数据运算执行过程中需要频繁访问上述存储单元3；全连接层的数据运算较为简单，且数据运算执行过程中需要频繁访问上述三维非易失性存储器2的存储阵列22。

现有技术中的神经网络模型预测过程的处理器系统4，如图2所示，采用第一处理单元1同时处理神经网络模型预测过程中的卷积层、循环层和全连接层的数据运算。由于全连接层的数据运算较为简单，使用高性能的第一处理单元进行处理，不仅占用卷积层和循环层数据处理资源，增加了神经网络模型预测过程的运行时间，且能耗较高，同时由于无法实现第一处理单元1的有效利用，造成现有资源的浪费。

因此，本发明的处理器系统4中，根据神经网络模型预测过程的不同阶段的数据运算的特点，将上述的第一处理单元1设置为主处理单元，且其性能较上述的第二处理单元21的性能更好。当神经网络模型预测过程执行至卷积层或循环层时，由性能更好的第一处理单元1直接访问上述存储单元3，并进行更为复杂的数据运算过程；当神经网络模型预测过程执行至全连接层时，由性能较差的第二处理单元21直接访问上述三维非易失性存储器2的存储阵列22，并进行较为简单的数据运算过程；有效利用了各处理单元的性能，避免资源浪费的同时降低功耗，且有效提升了数据访问速度，进而实现神经网络模型预测过程的加速。

本发明的较佳的实施例中，第一处理单元1具有直接访问存储单元3的权限，以及

第二处理单元21具有直接访问三维非易失性存储器2的存储阵列22的权限。

本发明的较佳的实施例中，存储单元3包括内存，和/或三维非易失性存储器。

具体地，本实施例中，上述的存储单元3包括内存，且该内存可以部分或全部由三维非易失性存储器代替；如图3所示，为内存全部由三维非易失性存储器2代替。

本发明的较佳的实施例中，第一处理单元1包括中央处理单元，和/或图形处理单元，和/或张量处理单元，和/或现场可编辑逻辑门阵列，和/或专用集成电路芯片。

本发明的较佳的实施例中，第二处理单元21包括中央处理单元，和/或图形处理单元，和/或张量处理单元，和/或现场可编辑逻辑门阵列，和/或专用集成电路芯片。

本发明的较佳的实施例中，第一处理单元1的处理性能高于第二处理单元21的处理性能。

本发明的较佳的实施例中，第二处理单元21形成于三维非易失性存储器2的存储阵列22的上方；或者

第二处理单元21形成于三维非易失性存储器2的存储阵列22的下方。

具体地，本实施例中，上述的第二处理单元21和三维非易失性存储器2的存储阵列22制作于同一芯片之中。

本发明的较佳的实施例中，三维非易失性存储器2包括三维相变存储器，和/或三维NAND闪存，和/或三维磁性存储器，和/或阻变存储器。

本发明的一个较佳的实施例中，可以使用本发明的处理器系统进行图像识别。

具体地，本实施例中，神经网络模型进行图像识别预测时，神经活络模型获取需要识别的图像数据，并对需要识别的图像数据进行计算。当神经网络模型预测过程执行至全连接层时，由第二处理单元对该图像数据进行处理；当经网络模型预测过程执行至卷积层和循环层时，此时需要较高性能的处理器进行复杂的计算，由第一处理单元进行处理，且第一处理单元和第二处理单元并行运行。

进一步地，当神经网络模型预测过程执行至全连接层时，需要频繁访问三维非易失性存储器的存储阵列；当神经网络模型预测过程执行至卷积层和循环层时，需要频繁访问存储单元；且第二处理单元访问三维非易失性存储器的存储阵列的频率高于第一处理单元访问存储单元的频率。因此，采用第一处理单元和第二处理单元分别直接访问存储单元和三维非易失性存储器的存储阵列的处理器系统，可以有效提升数据访问速度，进而有效提升神经网络模型预测过程的运行速度，且充分利用了各处理器性能，避免系统资源浪费的同时降低能耗。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种加速神经网络模型预测过程的处理器系统，所述神经网络模型预测过程包括卷积层、循环层和全连接层，其特征在于，所述处理器系统包括一第一处理单元和一三维非易失性存储器；

所述三维非易失性存储器内部集成有一第二处理单元；

2.根据权利要求1所述的处理器系统，其特征在于，所述第一处理单元具有直接访问所述存储单元的权限，以及

3.根据权利要求2所述的处理器系统，其特征在于，所述存储单元包括内存，和/或三维非易失性存储器。

4.根据权利要求2所述的处理器系统，其特征在于，所述第一处理单元包括中央处理单元，和/或图形处理单元，和/或张量处理单元，和/或现场可编辑逻辑门阵列，和/或专用集成电路芯片。

5.根据权利要求2所述的处理器系统，其特征在于，所述第二处理单元包括中央处理单元，和/或图形处理单元，和/或张量处理单元，和/或现场可编辑逻辑门阵列，和/或专用集成电路芯片。

6.根据权利要求1所述的处理器系统，其特征在于，所述第一处理单元的处理性能高于所述第二处理单元的处理性能。

7.根据权利要求2所述的处理器系统，其特征在于，所述第二处理单元形成于所述三维非易失性存储器的所述存储阵列的上方；或者

8.根据权利要求1所述的处理器系统，其特征在于，所述三维非易失性存储器包括三维相变存储器，和/或三维NAND闪存，和/或三维磁性存储器，和/或阻变存储器。