CN110659733A - 一种加速神经网络模型预测过程的处理器系统 - Google Patents
一种加速神经网络模型预测过程的处理器系统 Download PDFInfo
- Publication number
- CN110659733A CN110659733A CN201910895107.XA CN201910895107A CN110659733A CN 110659733 A CN110659733 A CN 110659733A CN 201910895107 A CN201910895107 A CN 201910895107A CN 110659733 A CN110659733 A CN 110659733A
- Authority
- CN
- China
- Prior art keywords
- processing unit
- neural network
- network model
- processor system
- nonvolatile memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000003062 neural network model Methods 0.000 title claims abstract description 36
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 abstract description 10
- 239000002699 waste material Substances 0.000 abstract description 6
- 238000005265 energy consumption Methods 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Neurology (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供一种加速神经网络模型预测过程的处理器系统,涉及神经网络算法领域和计算机硬件领域领域,所述神经网络模型预测过程包括卷积层、循环层和全连接层,所述处理器系统包括一第一处理单元和一三维非易失性存储器;所述三维非易失性存储器内部集成有一第二处理单元;所述第一处理单元用于处理保存在所述存储单元中的所述神经网络模型执行所述卷积层和所述循环层的命令时的相应数据;所述第二处理单元用于处理保存在所述三维非易失性存储器的存储阵列中的所述神经网络模型执行所述全连接层的命令时的相应数据。本发明有效提升神经网络模型预测过程的运行速度,充分利用了各处理器性能,避免系统资源浪费的同时降低能耗。
Description
技术领域
本发明涉及神经网络算法领域和计算机硬件领域,尤其涉及一种加速神经网络模型预测过程的处理器系统。
背景技术
神经网络目前被广泛应用于视频处理、图像处理、语音识别和优化计算等领域,神经网络由于自身结构中的可并行性和良好的性能,受到了广泛的关注,也在潜移默化地影响着人们的生活。神经网络运算过程中需要大量的数据,数据的存储和传输已经成为神经网络运算过程的技术壁垒。如何使得神经网络在运算过程中,庞大的数据的传输和存储能够高效地运行,减小神经网络运算过程中的内存限制,成为目前所要解决的一项关键的问题。
深度神经网络的计算过程主要包括训练过程和预测过程两部分,但由于其具有计算密集性和数据密集性的特点,当面对大规模数据时,往往存在计算资源需求大、计算时间过长、功耗较大等微调。训练过程采用离线方式即可满足一般应用的需求,而预测过程需要在线进行,对实时性要求更高,因此加速其预测过程更具有实践意义和应用市场。并行化是加速神经网络的预测过程的主要技术手段,但如果数据访问能力不能进一步提高,就形成了瓶颈,导致片上并行部件利用率不高,造成了现有资源的浪费。
发明内容
针对现有技术中存在的问题,本发明提供一种加速神经网络模型预测过程的处理器系统,所述神经网络模型预测过程包括卷积层、循环层和全连接层,所述处理器系统包括一第一处理单元和一三维非易失性存储器;
所述三维非易失性存储器内部集成有一第二处理单元;
所述第一处理单元连接一存储单元,用于处理保存在所述存储单元中的所述神经网络模型执行所述卷积层和所述循环层的命令时的相应数据;
所述第二处理单元用于处理保存在所述三维非易失性存储器的存储阵列中的所述神经网络模型执行所述全连接层的命令时的相应数据。
优选的,所述第一处理单元具有直接访问所述存储单元的权限,以及
所述第二处理单元具有直接访问所述三维非易失性存储器的所述存储阵列的权限。
优选的,所述存储单元包括内存,和/或三维非易失性存储器。
优选的,所述第一处理单元包括中央处理单元,和/或图形处理单元,和/或张量处理单元,和/或现场可编辑逻辑门阵列,和/或专用集成电路芯片。
优选的,所述第二处理单元包括中央处理单元,和/或图形处理单元,和/或张量处理单元,和/或现场可编辑逻辑门阵列,和/或专用集成电路芯片。
优选的,所述第一处理单元的处理性能高于所述第二处理单元的处理性能。
优选的,所述第二处理单元形成于所述三维非易失性存储器的所述存储阵列的上方;或者
所述第二处理单元形成于所述三维非易失性存储器的所述存储阵列的下方。
优选的,所述三维非易失性存储器包括三维相变存储器,和/或三维NAND闪存,和/或三维磁性存储器,和/或阻变存储器。
上述技术方案具有如下优点或有益效果:根据神经网络模型卷积层、循环层和全连接层的数据运算特点,分别采用不同性能的处理器进行并行处理,且各处理器可以直接访问对应的存储单元和/或存储阵列,可以有效提升神经网络模型预测过程的运行速度,充分利用了各处理器性能,避免系统资源浪费的同时降低能耗。
附图说明
图1为本发明的较佳的实施例中,一种加速神经网络模型预测过程的处理器系统的结构示意图;
图2为本发明的较佳的实施例中,现有技术中的神经网络模型预测过程的处理器系统的结构示意图;
图3为本发明的较佳的实施例中,存储单元由三维非易失性存储器代替的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本发明并不限定于该实施方式,只要符合本发明的主旨,则其他实施方式也可以属于本发明的范畴。
本发明的较佳的实施例中,基于现有技术中存在的上述问题,现提供一种加速神经网络模型预测过程的处理器系统,神经网络模型预测过程包括卷积层、循环层和全连接层,如图1所示,处理器系统4包括一第一处理单元1和一三维非易失性存储器2;
三维非易失性存储器2内部集成有一第二处理单元21;
第一处理单元1连接一存储单元3,用于处理保存在存储单元3中的神经网络模型执行卷积层和循环层的命令时的相应数据;
第二处理单元21用于处理保存在三维非易失性存储器2的存储阵列22中的神经网络模型执行全连接层的命令时的相应数据。
具体地,本实施例中,上述神经网络模型预测过程包括卷积层、循环层和全连接层,其中,卷积层和循环层中的数据运算较为复杂,且数据运算执行过程中需要频繁访问上述存储单元3;全连接层的数据运算较为简单,且数据运算执行过程中需要频繁访问上述三维非易失性存储器2的存储阵列22。
现有技术中的神经网络模型预测过程的处理器系统4,如图2所示,采用第一处理单元1同时处理神经网络模型预测过程中的卷积层、循环层和全连接层的数据运算。由于全连接层的数据运算较为简单,使用高性能的第一处理单元进行处理,不仅占用卷积层和循环层数据处理资源,增加了神经网络模型预测过程的运行时间,且能耗较高,同时由于无法实现第一处理单元1的有效利用,造成现有资源的浪费。
因此,本发明的处理器系统4中,根据神经网络模型预测过程的不同阶段的数据运算的特点,将上述的第一处理单元1设置为主处理单元,且其性能较上述的第二处理单元21的性能更好。当神经网络模型预测过程执行至卷积层或循环层时,由性能更好的第一处理单元1直接访问上述存储单元3,并进行更为复杂的数据运算过程;当神经网络模型预测过程执行至全连接层时,由性能较差的第二处理单元21直接访问上述三维非易失性存储器2的存储阵列22,并进行较为简单的数据运算过程;有效利用了各处理单元的性能,避免资源浪费的同时降低功耗,且有效提升了数据访问速度,进而实现神经网络模型预测过程的加速。
本发明的较佳的实施例中,第一处理单元1具有直接访问存储单元3的权限,以及
第二处理单元21具有直接访问三维非易失性存储器2的存储阵列22的权限。
本发明的较佳的实施例中,存储单元3包括内存,和/或三维非易失性存储器。
具体地,本实施例中,上述的存储单元3包括内存,且该内存可以部分或全部由三维非易失性存储器代替;如图3所示,为内存全部由三维非易失性存储器2代替。
本发明的较佳的实施例中,第一处理单元1包括中央处理单元,和/或图形处理单元,和/或张量处理单元,和/或现场可编辑逻辑门阵列,和/或专用集成电路芯片。
本发明的较佳的实施例中,第二处理单元21包括中央处理单元,和/或图形处理单元,和/或张量处理单元,和/或现场可编辑逻辑门阵列,和/或专用集成电路芯片。
本发明的较佳的实施例中,第一处理单元1的处理性能高于第二处理单元21的处理性能。
本发明的较佳的实施例中,第二处理单元21形成于三维非易失性存储器2的存储阵列22的上方;或者
第二处理单元21形成于三维非易失性存储器2的存储阵列22的下方。
具体地,本实施例中,上述的第二处理单元21和三维非易失性存储器2的存储阵列22制作于同一芯片之中。
本发明的较佳的实施例中,三维非易失性存储器2包括三维相变存储器,和/或三维NAND闪存,和/或三维磁性存储器,和/或阻变存储器。
本发明的一个较佳的实施例中,可以使用本发明的处理器系统进行图像识别。
具体地,本实施例中,神经网络模型进行图像识别预测时,神经活络模型获取需要识别的图像数据,并对需要识别的图像数据进行计算。当神经网络模型预测过程执行至全连接层时,由第二处理单元对该图像数据进行处理;当经网络模型预测过程执行至卷积层和循环层时,此时需要较高性能的处理器进行复杂的计算,由第一处理单元进行处理,且第一处理单元和第二处理单元并行运行。
进一步地,当神经网络模型预测过程执行至全连接层时,需要频繁访问三维非易失性存储器的存储阵列;当神经网络模型预测过程执行至卷积层和循环层时,需要频繁访问存储单元;且第二处理单元访问三维非易失性存储器的存储阵列的频率高于第一处理单元访问存储单元的频率。因此,采用第一处理单元和第二处理单元分别直接访问存储单元和三维非易失性存储器的存储阵列的处理器系统,可以有效提升数据访问速度,进而有效提升神经网络模型预测过程的运行速度,且充分利用了各处理器性能,避免系统资源浪费的同时降低能耗。
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
Claims (8)
1.一种加速神经网络模型预测过程的处理器系统,所述神经网络模型预测过程包括卷积层、循环层和全连接层,其特征在于,所述处理器系统包括一第一处理单元和一三维非易失性存储器;
所述三维非易失性存储器内部集成有一第二处理单元;
所述第一处理单元连接一存储单元,用于处理保存在所述存储单元中的所述神经网络模型执行所述卷积层和所述循环层的命令时的相应数据;
所述第二处理单元用于处理保存在所述三维非易失性存储器的存储阵列中的所述神经网络模型执行所述全连接层的命令时的相应数据。
2.根据权利要求1所述的处理器系统,其特征在于,所述第一处理单元具有直接访问所述存储单元的权限,以及
所述第二处理单元具有直接访问所述三维非易失性存储器的所述存储阵列的权限。
3.根据权利要求2所述的处理器系统,其特征在于,所述存储单元包括内存,和/或三维非易失性存储器。
4.根据权利要求2所述的处理器系统,其特征在于,所述第一处理单元包括中央处理单元,和/或图形处理单元,和/或张量处理单元,和/或现场可编辑逻辑门阵列,和/或专用集成电路芯片。
5.根据权利要求2所述的处理器系统,其特征在于,所述第二处理单元包括中央处理单元,和/或图形处理单元,和/或张量处理单元,和/或现场可编辑逻辑门阵列,和/或专用集成电路芯片。
6.根据权利要求1所述的处理器系统,其特征在于,所述第一处理单元的处理性能高于所述第二处理单元的处理性能。
7.根据权利要求2所述的处理器系统,其特征在于,所述第二处理单元形成于所述三维非易失性存储器的所述存储阵列的上方;或者
所述第二处理单元形成于所述三维非易失性存储器的所述存储阵列的下方。
8.根据权利要求1所述的处理器系统,其特征在于,所述三维非易失性存储器包括三维相变存储器,和/或三维NAND闪存,和/或三维磁性存储器,和/或阻变存储器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910895107.XA CN110659733A (zh) | 2019-09-20 | 2019-09-20 | 一种加速神经网络模型预测过程的处理器系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910895107.XA CN110659733A (zh) | 2019-09-20 | 2019-09-20 | 一种加速神经网络模型预测过程的处理器系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110659733A true CN110659733A (zh) | 2020-01-07 |
Family
ID=69037537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910895107.XA Pending CN110659733A (zh) | 2019-09-20 | 2019-09-20 | 一种加速神经网络模型预测过程的处理器系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110659733A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105487817A (zh) * | 2015-11-26 | 2016-04-13 | 上海新储集成电路有限公司 | 一种可定制的数据存储方法及系统 |
CN106569577A (zh) * | 2016-10-18 | 2017-04-19 | 上海新储集成电路有限公司 | 一种异构存储系统及数据存储中心 |
CN106775450A (zh) * | 2016-11-18 | 2017-05-31 | 华中科技大学 | 一种混合存储系统中的数据分布方法 |
CN109460817A (zh) * | 2018-09-11 | 2019-03-12 | 华中科技大学 | 一种基于非易失存储器的卷积神经网络片上学习系统 |
US20190171941A1 (en) * | 2017-12-01 | 2019-06-06 | Abee Technology Co., Ltd. | Electronic device, accelerator, and accelerating method applicable to convolutional neural network computation |
-
2019
- 2019-09-20 CN CN201910895107.XA patent/CN110659733A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105487817A (zh) * | 2015-11-26 | 2016-04-13 | 上海新储集成电路有限公司 | 一种可定制的数据存储方法及系统 |
CN106569577A (zh) * | 2016-10-18 | 2017-04-19 | 上海新储集成电路有限公司 | 一种异构存储系统及数据存储中心 |
CN106775450A (zh) * | 2016-11-18 | 2017-05-31 | 华中科技大学 | 一种混合存储系统中的数据分布方法 |
US20190171941A1 (en) * | 2017-12-01 | 2019-06-06 | Abee Technology Co., Ltd. | Electronic device, accelerator, and accelerating method applicable to convolutional neural network computation |
CN109460817A (zh) * | 2018-09-11 | 2019-03-12 | 华中科技大学 | 一种基于非易失存储器的卷积神经网络片上学习系统 |
Non-Patent Citations (2)
Title |
---|
李景军等: "面向训练阶段的神经网络性能分析", 《计算机科学与探索》, no. 10, 28 November 2017 (2017-11-28), pages 119 - 131 * |
松山贵之: "《一本书读懂人工智能》", 东方出版社, pages: 74 - 76 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102368970B1 (ko) | 지능형 고 대역폭 메모리 장치 | |
Ke et al. | Near-memory processing in action: Accelerating personalized recommendation with axdimm | |
US20210097221A1 (en) | Optimization method for graph processing based on heterogeneous fpga data streams | |
US10613957B2 (en) | Achieving balanced execution through runtime detection of performance variation | |
EP3361386B1 (en) | Intelligent far memory bandwidth scaling | |
US20150355700A1 (en) | Systems and methods of managing processor device power consumption | |
WO2022105440A1 (zh) | 一种量子与经典混合云平台以及任务执行方法 | |
US20090307691A1 (en) | Coordination among multiple memory controllers | |
US9389675B2 (en) | Power management for in-memory computer systems | |
Kal et al. | Space: locality-aware processing in heterogeneous memory for personalized recommendations | |
CN113590508B (zh) | 动态可重构的内存地址映射方法及装置 | |
US11635904B2 (en) | Matrix storage method, matrix access method, apparatus and electronic device | |
WO2022078400A1 (zh) | 一种对多维数据进行处理的设备、方法和计算机程序产品 | |
CN118035618B (zh) | 数据处理器、数据处理方法、电子设备、存储介质 | |
CN113065643A (zh) | 一种用于执行多任务卷积神经网络预测的装置和方法 | |
Kim et al. | Comprehensive techniques of multi-GPU memory optimization for deep learning acceleration | |
US20230306236A1 (en) | Device and method for executing lstm neural network operation | |
CN104156316B (zh) | 一种Hadoop集群批处理作业的方法及系统 | |
US11429299B2 (en) | System and method for managing conversion of low-locality data into high-locality data | |
CN110837419B (zh) | 基于弹性批处理的推理引擎系统、方法及电子设备 | |
Chen et al. | GCIM: Towards Efficient Processing of Graph Convolutional Networks in 3D-Stacked Memory | |
US10915470B2 (en) | Memory system | |
CN110659733A (zh) | 一种加速神经网络模型预测过程的处理器系统 | |
Oh et al. | Energy-efficient task partitioning for CNN-based object detection in heterogeneous computing environment | |
Li et al. | Dual buffer rotation four-stage pipeline for CPU–GPU cooperative computing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200107 |
|
RJ01 | Rejection of invention patent application after publication |