CN110059818B

CN110059818B - 卷积核参数可配的神经卷积阵列电路核、处理器及电路

Info

Publication number: CN110059818B
Application number: CN201910350154.6A
Authority: CN
Inventors: 孙建辉; 周莉; 吕海琦; 赵梦醒; 朱顺意
Original assignee: Shandong Lingneng Electronic Technology Co ltd; Shandong University; Shandong Normal University
Current assignee: Shandong Lingneng Electronic Technology Co ltd; Shandong University; Shandong Normal University
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2021-01-08
Anticipated expiration: 2039-04-28
Also published as: CN110059818A

Abstract

本公开提供了卷积核参数可配的神经卷积阵列电路核、处理器及电路。卷积核参数可配的神经卷积阵列电路核，包括数据滑动移入部分，被配置为将卷积阵列划分成多个并行数据窗口；多路选择器，被配置为：通过像素数据输入总线扫描右移输入像素数据，完成对卷积阵列的像素数据的右移滑动更新；通过卷积核系数输入总线串行扫描卷积核系数，完成对卷积阵列的卷积核的系数配置；通过选择端使能多路选择器的两个输入端口中的一个输入端选择性更新数据；点乘部分，被配置为：将每个并行数据窗口内的像素数据与相应卷积核对应各个点系数进行点乘并将点乘结果累加，得到每个并行数据窗口与其对应卷积核的一个卷积结果。

Description

卷积核参数可配的神经卷积阵列电路核、处理器及电路

技术领域

本公开属于电路设计领域，尤其涉及一种卷积核参数可配的神经卷积阵列电路核、处理器及电路。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着人工智能神经卷积网络技术的发展,神经卷积阵列运算占据绝大部分运算量,其需要进行快速有效的运算,并且消耗较少的硬件电路资源。发明人发现，现有存在的神经网络卷积电路都存在着一定的问题，主要体现在：电路可以实现单个数据窗口的运算,不能够实现多个窗口复用,速度较慢或者电路过于复杂,不能有效降低硬件资源的开销。

专利申请号为“CN200610105061.X”的中国航天时代电子公司第七七一研究所的发明专利申请“可缩放大规模二维卷积电路”，它把微处理器的灵活性与硬件电路的高速性有机的结合起来，发明人发现，该电路用的大量的串行移位寄存器大大地降低了运行速度，浪费了很多硬件资源。

专利申请号为“CN200510134735.4”的北京航空航天大学的发明专利申请“一种实时快速实现高斯模板卷积的装置”，它通过并行和流水方法的结合实现了实时的大模板高斯卷积；发明人发现，其没有解决体积、功耗过大的问题。

专利申请号为“CN201680010174.3”的HRL实验室有限责任公司的发明专利申请“尖峰域卷积电路”，电路中有多个输入振荡器，各自经配置可以接收多个模拟输入信号，通过所设计的电路再输出多个对应尖峰信号。发明人发现，该电路了大量的振荡器，并不能很好的保证电路卷积的准确性和稳定性。

综上所述，发明人发现，现有技术中对于电路实现复杂，抗干扰性低，可复用性低，硬件成本高等问题，尚缺乏有效的解决方案。

发明内容

为了解决上述问题，本公开的第一个方面提供一种卷积核参数可配的神经卷积阵列电路核，其经过多路选择器在每个时钟都可以选择性对像素数据或者是卷积核的实时更新，实现了卷积核参数可配，利用滑动数据窗快速并行地执行神经网络卷积运算，减少了储存容量和逻辑资源的使用，提高了单位能量的运算次数。

为了实现上述目的，本公开采用如下技术方案：

一种卷积核参数可配的神经卷积阵列电路核，包括：

数据滑动移入部分，其被配置为将卷积阵列划分成多个并行数据窗口；

多路选择器，其两个输入端口分别与像素数据输入总线和卷积核系数输入总线对应相连；所述多路选择器，被配置为：

通过像素数据输入总线扫描右移输入像素数据，完成对卷积阵列的像素数据的右移滑动更新，以更新需要进行卷积的多个并行数据窗口；

通过卷积核系数输入总线串行扫描卷积核系数，完成对卷积阵列的卷积核的系数配置，为多个并行数据窗口提供对应的同一个卷积核；

通过选择端使能多路选择器的两个输入端口中的一个输入端选择性更新数据；

点乘部分，其被配置为：将每个并行数据窗口内的像素数据与相应卷积核对应各个点系数进行点乘并将点乘结果累加，得到每个并行数据窗口与其对应卷积核的一个卷积结果。

为了解决上述问题，本公开的第二个方面提供一种处理器，其包括卷积核参数可配的神经卷积阵列电路核，经过多路选择器在每个时钟都可以选择性对像素数据或者是卷积核的实时更新，实现了卷积核参数可配，利用滑动数据窗快速并行地执行神经网络卷积运算，减少了储存容量和逻辑资源的使用，提高了单位能量的运算次数。

为了实现上述目的，本公开采用如下技术方案：

一种处理器，包括上述所述的卷积核参数可配的神经卷积阵列电路核。

为了解决上述问题，本公开的第三个方面提供一种电路，其包括处理器，该处理器包括卷积核参数可配的神经卷积阵列电路核，经过多路选择器在每个时钟都可以选择性对像素数据或者是卷积核的实时更新，实现了卷积核参数可配，利用滑动数据窗快速并行地执行神经网络卷积运算，减少了储存容量和逻辑资源的使用，提高了单位能量的运算次数。

为了实现上述目的，本公开采用如下技术方案：

一种电路，包括上述所述的处理器。

本公开的有益效果是：

(1)本公开经过多路选择器在每个时钟都可以选择性对像素数据或者是卷积核的实时更新，实现了卷积核参数可配，通过配置多路选择器，实现了像素数据和卷积核系数的选择性快速更新。

(2)本公开用滑动数据窗快速并行地执行神经网络卷积运算，通过卷积核的并行复用，减少了储存容量和逻辑资源的使用，降低了硬件资源的开销。

(3)本公开的神经卷积阵列电路核实现简单，具有同时多个滑动数据窗口并行计算,速度很快,硬件资源开销少的特点。

(4)本公开的神经卷积阵列电路核，可以通过卷积阵列外部的数据总线,进行数据的滑动输入,以及卷积核系数总线的预先装载配置与卷积核系数的多个数据窗口的复用。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开实施例提供的5*5输入像素数据与3*3卷积核进行卷积乘法运算的示意图。

图2是本公开实施例提供的一个5*5卷积阵列电路单元核对应的9个3*3数据窗口与共享的1个3*3卷及核的电路结构示意图。

图3是本公开实施例提供的一个卷积核的一个数据点与其对应的一个系数点地局部放大示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本实施例的一种卷积核参数可配的神经卷积阵列电路核，包括：

通过像素数据输入总线扫描右移输入像素数据，完成对卷积阵列的像素数据的右移滑动更新，以更新需要进行卷积的多个并行数据窗口；如图2所示，提供了一个25个像素数据和1个卷积核进行多个卷积核并行卷积，实时更新数据的电路原理；

通过卷积核系数输入总线串行扫描卷积核系数，完成对卷积阵列的卷积核的系数配置，为多个并行数据窗口提供对应的同一个卷积核；如图1所示，提供了共享一个卷积核系数的9个窗口卷积核系数点在每个数据点的分布情况。其中，a,b,...x,y是输入像素数据点，1，2...8,9是卷积核的系数点；

点乘部分，其被配置为：将每个并行数据窗口内的像素数据与相应卷积核对应各个点系数进行点乘并将点乘结果累加，得到每个并行数据窗口与其对应卷积核的一个卷积结果，如图3所示，提供了电路通过多路选择器选择性更新像素数据的结构原理,选择后的系数点与数据点进行点乘操作。

如图1和图2所示，假定设计的单元卷积阵列核可以同时处理5*5的输入像素数据(假如是25个像素点数据：a，b，c，d，......u，x，y)，共形成9个滑动窗口(9个数据窗口需要并行进行乘累加运算)，这9个窗口共享同一个卷积核系数(假如是9个数据点：1，2，3，4，5，6，7，8，9)。

每个窗口内的9个数据点对应的卷积核的系数是一样的，即多个窗口共享一个卷积核系数。同时，每个窗口内的每个数据点可能被K个数据窗口复用(K<＝9)，K个数据窗对应的系数分布k个情况。

作为一种实施方式，所述多路选择器，被配置为：

在每个时钟时刻，通过像素数据输入总线，向右扫描输入新的像素数据。

在每个时钟时刻，通过像素数据输入总线同时输入多路像素数据，以及时更新需要进行卷积的多个并行数据窗口。

通过配置多路选择器，通过输入卷积核系数总线，预先串行扫描移入卷积核系数，完成对卷积阵列的卷积核系数(9个数据点，位于卷积阵列的左上角位置)的配置。

通过配置多路选择器，可以每个时钟，从像素数据输入总线，扫描右移输入像素数据点，完成对卷积阵列的像素数据(25个数据点，9个数据窗口)的右移滑动更新，以更新需要进行卷积的多个数据窗口。

通过预先统计卷积核系数点被多少个数据窗口复用(假定M个)，可以将M(或M-1个)个卷积核系数点多路选择器置于数据窗口的后面，为点乘操作提供系数点。

具体地，通过像素数据输入总线扫描右移输入像素数据存储在像素数据寄存器中。

通过卷积核系数输入总线串行扫描卷积核系数存储在卷积核系数寄存器中。

作为一种实时方式，所述多路选择器，被配置为：

利用门控时钟CLOCK_GATE方法，通过选择端使能多路选择器的两个输入端口中的一个输入端选择性更新数据。

这样既可以达到基于共享局部总线完成对于数据像素寄存器文件或者系数寄存器文件的配置，又降低了不需要更新寄存器文件的动态能耗消耗。

如图3所示，当sel＝1时，像素数据点时钟端连接的与门(门控单元)使能；卷积核系数点时钟端连接的与门(门控单元)禁止；当sel＝0时，像素数据点时钟端连接的与门(门控单元)禁止；卷积核系数点时钟端连接的与门(门控单元)使能。

在另一实施例中，所述卷积核参数可配的神经卷积阵列电路核，还包括：

点乘结果输出缓存部分,其被配置为：输出并缓存每个并行数据窗口与其对应卷积核的一个卷积结果。

本实施例经过多路选择器在每个时钟都可以选择性对像素数据或者是卷积核的实时更新，实现了卷积核参数可配，通过配置多路选择器，实现了像素数据和卷积核系数的选择性快速更新。

本实施例用滑动数据窗快速并行地执行神经网络卷积运算，通过卷积核的并行复用，减少了储存容量和逻辑资源的使用，降低了硬件资源的开销。

本实施例的神经卷积阵列电路核实现简单，具有同时多个滑动数据窗口并行计算,速度很快,硬件资源开销少的特点。

本实施例的神经卷积阵列电路核，可以通过卷积阵列外部的数据总线,进行数据的滑动输入,以及卷积核系数总线的预先装载配置与卷积核系数的多个数据窗口的复用。

在另一实施例中，还提供了一种处理器，该处理器包括上述所述的卷积核参数可配的神经卷积阵列电路核。

在另一实施例中，还提供了一种电路，其包括上述所述的处理器。

该电路能够路快速有效的卷积运算,并且消耗较少的硬件电路资源。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种卷积核参数可配的神经卷积阵列电路核，其特征在于，包括：

2.如权利要求1所述的一种卷积核参数可配的神经卷积阵列电路核，其特征在于，所述卷积核参数可配的神经卷积阵列电路核，还包括：

3.如权利要求1所述的一种卷积核参数可配的神经卷积阵列电路核，其特征在于，所述多路选择器，被配置为：

4.如权利要求3所述的一种卷积核参数可配的神经卷积阵列电路核，其特征在于，所述多路选择器，被配置为：

5.如权利要求1所述的一种卷积核参数可配的神经卷积阵列电路核，其特征在于，所述多路选择器，被配置为：

6.如权利要求1所述的一种卷积核参数可配的神经卷积阵列电路核，其特征在于，通过像素数据输入总线扫描右移输入像素数据存储在像素数据寄存器中。

7.如权利要求1所述的一种卷积核参数可配的神经卷积阵列电路核，其特征在于，通过卷积核系数输入总线串行扫描卷积核系数存储在卷积核系数寄存器中。

8.一种处理器，其特征在于，包括如权利要求1-7中任一项所述的卷积核参数可配的神经卷积阵列电路核。

9.一种电路，其特征在于，包括如权利要求8所述的处理器。