CN110516800A

CN110516800A - 深度学习网络应用分布自组装指令处理器核、处理器、电路和处理方法

Info

Publication number: CN110516800A
Application number: CN201910610700.5A
Authority: CN
Inventors: 孙建辉; 蔡阳健; 李登旺
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2019-11-29
Anticipated expiration: 2039-07-08
Also published as: CN110516800B

Abstract

本公开公开了一种深度学习网络应用分布自组装指令处理器核、处理器、电路和处理方法，所述处理器核包括：四个寄存器接口模块，两两所述寄存器接口模块之间依次设置准备模块、卷积运算模块和池化运算模块；所述处理器包括：所述指令统计分配模块，被配置为统计深度卷积网络指令，并进行指令流的分配；所述指令统计分配模块分别通过指令栈模块连接所述处理器核，所述指令栈模块，被配置为接收所述指令统计分配模块分配的指令流进行存储，并根据存储的指令流进行多指令流的加速运算，控制所述处理器核组成不同深度神经卷积网络架构，进行计算处理。

Description

深度学习网络应用分布自组装指令处理器核、处理器、电路和处理方法

技术领域

本公开属于硬件电路设计的技术领域，涉及一种深度学习网络应用分布自组装指令处理器核、处理器、电路和处理方法。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着人工智能神经卷积网络技术的发展,深度神经网络占据绝大部分运算量,其需要进行快速有效的运算,并且消耗较少的硬件电路资源。发明人发现，现有存在的深度神经网络处理系统都存在着一定的问题，主要体现在：电路资源开销很大，缺乏足够的灵活性，缺乏足够的系统自适应性。

专利申请号为“CN201610342944.6”，申请人为复旦大学的发明专利申请公开了“一种嵌入式深度学习处理器”，但它仍属于传统的CPU运算机制，缺少自适应特性。

专利申请号为“CN201810179977.2”，申请人为山东领能电子科技有限公司的发明专利申请公开了“一种基于数据并行的深度学习处理器架构及方法”，它可以实现数据的片上传输并最大程度地减小数据与片外的双向传输，减少了传统神经网络数据的片上与片外传输的能量消耗，但是其也无法实现架构自适应，缺乏足够的系统自适应性。

专利申请号为“CN201710906965.0”，申请人为北京市商汤科技开发有限公司的发明专利申请公开了“基于深度学习的运算实现方法、装置和电子设备”，该专利关注深度学习算法的实现，而非系统架构。

综上所述，发明人发现，现有技术中对于电路实现复杂，抗干扰性低，可复用性低，硬件成本高等问题，尤其是缺乏足够的灵活性，缺乏足够的系统自适应性的问题，尚缺乏有效的解决方案。

发明内容

针对现有技术中存在的不足，本公开的一个或多个实施例提供了一种深度学习网络应用分布自组装指令处理器核、处理器、电路和处理方法，其经过流水指令集中分配与指令流分布式重新组合，实现了具有面向不同深度神经卷积网络的自适应特性。

根据本公开的一个或多个实施例的一个方面，提供一种深度学习网络应用分布自组装指令处理器核。

一种深度学习网络应用分布自组装指令处理器核，所述处理器核包括：

四个寄存器接口模块，两两所述寄存器接口模块之间依次设置准备模块、卷积运算模块和池化运算模块；

所述寄存器接口模块，被配置为连接寄存器；

所述准备模块，被配置为准备数据窗口与其对应系数；

所述卷积运算模块，被配置为数据窗口与对应滤波核卷积运算，其卷积核参数可配；

所述池化模块，被配置为进行池化运算。

进一步地，所述寄存器接口模块包括第一寄存器接口模块、第二寄存器接口模块、第三寄存器接口模块和第四寄存器接口模块，所述第一寄存器接口模块和第二寄存器接口模块之间设置所述准备模块，所述第二寄存器接口模块和第三寄存器接口模块之间设置所述卷积运算模块，所述第三寄存器接口模块和第四寄存器接口模块之间设置所述池化模块。

进一步地，所述准备模块连接使能端。

进一步地，两两所述寄存器接口模块之间还通过开关直接连接。

根据本公开的一个或多个实施例的一个方面，提供一种深度学习网络应用分布自组装指令处理器。

一种深度学习网络应用分布自组装指令处理器，包括：若干所述的处理器核和指令统计分配模块；

所述指令统计分配模块，被配置为统计深度卷积网络指令，并进行指令流的分配；

所述指令统计分配模块分别通过指令栈模块连接所述处理器核，所述指令栈模块，被配置为接收所述指令统计分配模块分配的指令流进行存储，并根据存储的指令流进行多指令流的加速运算，控制所述处理器核组成不同深度神经卷积网络架构，进行计算处理。

进一步地，所述指令栈模块分别连接所述指令统计分配模块，以及通过多路选择器连接所述处理器核中的所述第一寄存器接口模块。

进一步地，所述处理器核成矩阵分布。

根据本公开的一个或多个实施例的一个方面，提供一种电路。

一种电路，包括所述处理器。

根据本公开的一个或多个实施例的一个方面，提供一种深度学习网络应用分布自组装指令处理方法。

一种深度学习网络应用分布自组装指令处理方法，该方法基于所述的一种深度学习网络应用分布自组装指令处理器，包括：

所述指令统计分配模块统计深度卷积网络指令，并进行指令流的分配，发送至相应的指令栈模块；

所述指令栈模块接收所述指令统计分配模块分配的指令流进行存储，并根据存储的指令流进行多指令流的加速运算，控制所述处理器核组成不同深度神经卷积网络架构，进行计算处理。

本公开的有益效果：

(1)本公开提供的一种深度学习网络应用分布自组装指令处理器核、处理器、电路和处理方法，通过卷积核参数可配的神经卷积阵列组成的处理器，过多路选择器在每个时钟都可以选择性对像素数据或者是卷积核的实时更新，实现了卷积核参数可配，利用滑动数据窗快速并行地执行神经网络卷积运算，减少了储存容量和逻辑资源的使用，提高了单位能量的运算次数。

(2)本公开提供的一种深度学习网络应用分布自组装指令处理器核、处理器、电路和处理方法，通过不同指令流控制所述处理器核组成不同深度神经卷积网络架构，有效实现了深度学习多种网络应用的架构自适应性，实现了深度学习网络应用的基于运算需求的指令统计后分配到具体指令栈，实现了深度学习网络应用的多指令重新组合加速流水处理，实现了软件驱动设计硬件架构的目标。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是根据一个或多个实施例的一种深度学习网络应用分布自组装指令处理器核结构示意图；

图2是根据一个或多个实施例的一种深度学习网络应用分布自组装指令处理器核矩阵结构示意图；

图3是根据一个或多个实施例的一种深度学习网络应用分布自组装指令处理器结构示意图；

图4是根据一个或多个实施例的一种深度学习网络应用分布自组装指令处理器执行一种指令流的结构示意图；

图5是根据一个或多个实施例的一种深度学习网络应用分布自组装指令处理器执行另一种指令流的结构示意图；

图6是根据一个或多个实施例的一种深度学习网络应用分布自组装指令处理器执行另一种指令流的结构示意图。

具体实施方式：

下面将结合本公开的一个或多个实施例中的附图，对本公开的一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开的一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本实施例使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合，下面结合附图与实施例对本公开作进一步说明。

实施例一

如图1所示，一种深度学习网络应用分布自组装指令处理器核，所述处理器核包括：

所述寄存器接口模块，被配置为连接寄存器；

所述准备模块，被配置为准备数据窗口与其对应系数；

所述池化模块，被配置为进行池化运算。

进一步地，所述准备模块连接使能端。

实施例二

如图2-3所示，一种深度学习网络应用分布自组装指令处理器，包括：若干所述的处理器核和指令统计分配模块；

进一步地，所述处理器核成矩阵分布，如图2所示。

实施例三

在实施例二公开的一种深度学习网络应用分布自组装指令处理器的基础上，执行“准备数据窗口与对应系数+单次卷积+池化”的指令流，如图4中所示，每个处理器核中的寄存器接口模块、准备模块、卷积运算模块和池化运算模块形成一个深度神经卷积网络架构，图4中灰色部分所示。

实施例四

在实施例二公开的一种深度学习网络应用分布自组装指令处理器的基础上，执行“准备数据窗口与对应系数+双次卷积+池化”的指令流，如图5所示，处理器核矩阵中同一行的两个处理器核组成双次卷积深度神经卷积网络架构，第一个处理器核的第一寄存器接口模块、准备模块、第二寄存器接口模块、卷积运算模块、第三寄存器接口模块和第二个处理器核的准备模块、第二寄存器接口模块、卷积运算模块、第三寄存器接口模块、池化运算模块第四寄存器接口模块形成一个深度神经卷积网络架构，图5中灰色部分所示。

实施例五

在实施例二公开的一种深度学习网络应用分布自组装指令处理器的基础上，执行“准备数据窗口与对应系数+池化”的指令流，如图6所示，每个处理器核中的第一寄存器接口模块、准备模块、第三寄存器接口模块、池化运算模块第四寄存器接口模块形成一个深度神经卷积网络架构，图6中灰色部分所示。

实施例六

一种电路，包括实施例二公开的一种深度学习网络应用分布自组装指令处理器。

实施例七

在本实施例中，基于多种深度学习网络架构，进行运算指令流情况的不同统计；算指令统计后进行指令流具体分配到具体指令存储栈；分配到指令存储栈的指令进行多指令流的加速运算；多指令流的加速运算，完成不同的流水情况重新组合。

本公开的有益效果：

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。因此，本公开将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种深度学习网络应用分布自组装指令处理器核，其特征在于，所述处理器核包括：

所述寄存器接口模块，被配置为连接寄存器；

所述准备模块，被配置为准备数据窗口与其对应系数；

所述池化模块，被配置为进行池化运算。

2.如权利要求1所述的一种深度学习网络应用分布自组装指令处理器核，其特征在于，所述寄存器接口模块包括第一寄存器接口模块、第二寄存器接口模块、第三寄存器接口模块和第四寄存器接口模块，所述第一寄存器接口模块和第二寄存器接口模块之间设置所述准备模块，所述第二寄存器接口模块和第三寄存器接口模块之间设置所述卷积运算模块，所述第三寄存器接口模块和第四寄存器接口模块之间设置所述池化模块。

3.如权利要求1所述的一种深度学习网络应用分布自组装指令处理器核，其特征在于，所述准备模块连接使能端。

4.如权利要求1所述的一种深度学习网络应用分布自组装指令处理器核，其特征在于，两两所述寄存器接口模块之间还通过开关直接连接。

5.一种深度学习网络应用分布自组装指令处理器，其特征在于，包括：若干如权利要求1-4任一项所述的处理器核和指令统计分配模块；

6.如权利要求5所述的一种深度学习网络应用分布自组装指令处理器，其特征在于，所述指令栈模块分别连接所述指令统计分配模块和所述处理器核中的所述第一寄存器接口模块。

7.如权利要求6所述的一种深度学习网络应用分布自组装指令处理器，其特征在于，所述指令栈模块通过多路选择器连接所述处理器核中的所述第一寄存器接口模块。

8.如权利要求5所述的一种深度学习网络应用分布自组装指令处理器，其特征在于，所述处理器核成矩阵分布。

9.一种电路，其特征在于，包括如权利要求5-8任一项所述的一种深度学习网络应用分布自组装指令处理器。

10.一种深度学习网络应用分布自组装指令处理方法，其特征在于，该方法基于如权利要求5-8任一项所述的一种深度学习网络应用分布自组装指令处理器，包括：