CN111860780A

CN111860780A - 不规则卷积核卷积神经网络硬件加速系统及计算方法

Info

Publication number: CN111860780A
Application number: CN202010664423.9A
Authority: CN
Inventors: 田军胜
Original assignee: Fengyi Technology Shanghai Co ltd
Current assignee: Fengyi Technology Shanghai Co ltd
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-10-30

Abstract

本发明公开了一种不规则卷积核卷积神经网络硬件加速系统，涉及到网络硬件加速技术领域，包括主机和存储器，还包括与主机和存储器连接的硬件加速器，硬件加速器包括控制模块、补零模块、卷积核权重缓存模块、数据缓存模块、核心计算模块和中间结果缓存模块，控制模块与主机连接，补零模块、卷积核权重缓存模块、数据缓存模块、核心计算模块和中间结果缓存模块分别连接控制模块连接，补零模块与存储器连接，卷积核权重缓存模块分别连接控制模块和核心计算模块。其能够提高卷积核的利用效率，提高目标检查的准确率。

Description

不规则卷积核卷积神经网络硬件加速系统及计算方法

技术领域

本发明涉及到网络硬件加速技术领域，尤其涉及到一种不规则卷积核卷积神经网络硬件加速系统及计算方法。

背景技术

卷积神经网络(CNN)得到了极大的发展，特别在目标检查实施方面有了极大提高，目前已被应用到很多场合当中。

现有的卷积核的大小为m*n或n*n等，形状为正方形或长方形，但是现实中检测目标的形状千奇百怪，都是不规则的，从而导致目标的特征形状也是不规则的。卷积运算实质上是物体的特征量与卷积核的运算，这两个数据量按理想情况下，属性应该完全一样，只有这样才能获得更加准确的响应。卷积核的形状应该与目标物体的特征模式形状相近，这样才能更准确的识别出物体类别。为了实现卷积核与特征模式形状的匹配，我们对规则卷积核的数据重新组合从而达到不规则形状相类似的效果。如图1和图2所示，两个规则卷积核K1和K2都因为其特殊的分布，而拥有了建模不规则形状的能力。但这种方式消耗18个权重参数去建模9个像素的输入特征。而且需要注意的是，如果输入特征更加细长或离散、卷积核更加离散，这种低效的情况还会加剧。

发明内容

本发明的目的在于提供一种不规则卷积核卷积神经网络硬件加速系统，用于解决上述技术问题。

本发明采用的技术方案如下：

一种不规则卷积核卷积神经网络硬件加速系统，包括主机和存储器，还包括与所述主机和所述存储器连接的硬件加速器，所述硬件加速器包括控制模块、补零模块、卷积核权重缓存模块、数据缓存模块、核心计算模块和中间结果缓存模块，其中，所述控制模块与所述主机连接，所述补零模块、所述卷积核权重缓存模块、所述数据缓存模块、所述核心计算模块和所述中间结果缓存模块分别连接所述控制模块连接，补零模块与所述存储器连接，所述卷积核权重缓存模块分别连接所述控制模块和所述核心计算模块。

作为优选，还包括窗口组装模块，所述窗口组装模块与所述控制模块连接，且所述窗口组装模块连接所述数据缓存模块和所述核心计算模块。

作为优选，所述补零模块连接所述数据缓存模块，所述中间结果缓存模块连接所述核心计算模块。

作为进一步的优选，所述核心计算模块包括乘累加单元、激活函数单元和池化层单元，所述乘累加单元连接所述激活函数单元和所述窗口组装模块，所述池化层单元连接所述激活函数单元和所述中间结果缓存模块。

一种不规则卷积核卷积神经网络硬件加速系统的计算方法，所述计算方法包括：

S1、对N×M数据通过任意方式补零；

S2、组成数据窗口，提取不归则卷积核对应的有效的数据点，并将数据和对应的卷积核的值进行相乘，并实现累加。

作为进一步的优选，在S2中，根据不规则卷积核的形状提取出有效的所述数据，然后输入到乘累加单元与所述不规则卷积核中的权重相乘并累加。

上述技术方案具有如下优点或有益效果：

(1)本发明中，在卷积核中权重个数相同下，不规则卷积核减少了计算量，提高了卷积核的利用效率；

(2)本发明中，由于检查目标是不规则的，不规则的卷积核的更加适配目标的不规则特征模式，可以提高目标检查的准确率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明及其特征、外形和优点将会变得更加明显。在全部附图中相同的标记指示相同的部分。并未可以按照比例绘制附图，重点在于示出本发明的主旨。

图1是规则卷积示意图；

图2是不规则卷积示意图；

图3是本发明中不规则卷积核卷积神经网络硬件加速系统的结构示意图；

图4是本发明中补零处理示意图；

图5是本发明中输入数据组成窗口示意图；

图6是本发明中核心计算模块结构示意图；

图7是本发明中进行单次不规则卷积核的卷积计算示意图；

图8是本发明中权重与数据的乘累加块示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

图1是规则卷积示意图；图2是不规则卷积示意图；图3是本发明中不规则卷积核卷积神经网络硬件加速系统的结构示意图；图4是本发明中补零处理示意图；图5是本发明中输入数据组成窗口示意图；图6是本发明中核心计算模块结构示意图；图7是本发明中进行单次不规则卷积核的卷积计算示意图；图8是本发明中权重与数据的乘累加块示意图，请参见图1至图8所示，示出了一种较佳的实施例，示出的一种不规则卷积核卷积神经网络硬件加速系统，包括主机和存储器，还包括与主机和存储器连接的硬件加速器，硬件加速器包括：控制模块、补零模块、卷积核权重缓存模块、数据缓存模块、核心计算模块和中间结果缓存模块，其中，控制模块与主机连接，补零模块、卷积核权重缓存模块、数据缓存模块、核心计算模块和中间结果缓存模块分别连接控制模块连接，补零模块与存储器连接，卷积核权重缓存模块分别连接控制模块和核心计算模块。本实施例中，补零模块可以根据不规则卷积核的形状实现任意方式的补零；不规则卷积核重组是根据不规则卷积核的大小来组装数据；卷积核权重缓存模块用于存储零填充后的卷积核权重，数据缓存模块用于存储零填充后的卷积核图片的数据；核心计算模块用于计算数据；中间结果缓存模块用于存储中间计算结果。本发明能够提高卷积核的效率从而减少运算量，有效的缩减卷积的运算时间，从而适用于大型卷积计算。本实施例中，卷积核的形状与现有的卷积核的形状是不一样的，但卷积核内的个数相同，因此，本实施例中与现有的规则卷积核使用的资源是相同的。

进一步，作为一种较佳的实施方式，不规则卷积核卷积神经网络硬件加速系统还包括窗口组装模块，窗口组装模块与控制模块连接，且窗口组装模块连接数据缓存模块和核心计算模块。本实施例中，窗口组装模块中具有不规则卷积核重组，可根据不规则卷积核的大小来组装数据。窗口组装模块可根据不规则卷积核的大小进行截取窗口，便于提取不归则卷积核对应的有效的数据点。

进一步，作为一种较佳的实施方式，补零模块连接数据缓存模块，中间结果缓存模块连接核心计算模块。

进一步，作为一种较佳的实施方式，核心计算模块包括乘累加单元、激活函数单元和池化层单元，乘累加单元连接激活函数单元和窗口组装模块，池化层单元连接激活函数单元和中间结果缓存模块。如图7所示，乘累加单元：Y＝X1*W1+X2*W2+X3*W3+X4*W4+X5*W5+X6*W6+X7*W7+X8*W8+X9*W9,其中，Y为乘累加单元。

下面说明本发明的较佳的计算方法：

一种不规则卷积核卷积神经网络硬件加速系统的计算方法，计算方法包括：

S1、对N×M数据通过任意方式补零；

S2、组成数据窗口，提取不归则卷积核对应的有效的数据点，并将数据和对应的卷积核的值进行相乘，并实现累加。本实施例中，以图1为不规则卷积核的形状，图1中，不规则卷积核中有9个有效参数，需要的窗口大小为5×4，为了满足该窗口，补零模块设计成可以对行列进行任意的补零操作。N×M的数据块在第N行的上方或下方增加m行和第M列的左侧或右侧增加n列，从而扩展为(N+m)×(M+n)的数据块，且新增的n列和m行中的数据全部用“0”填充。其它不规则卷积核可以按照需要修改参数进行补零即可。如图4为补零操作示意图。如图2所示,不规则卷积核消耗18个权重参数去建模9个像素的输入特征，若输入特征更加细长或离散、卷积核更加离散(Dilated Convolution)，这种低效的情况还会加剧。因此，本发明中通过只提取有效的9个数据点的方式，来消除不规则卷积核带来的额外计算量。

进一步，作为一种较佳的实施方式，在S2中，根据不规则卷积核的形状提取出有效的数据，然后输入到乘累加单元与不规则卷积核中的权重相乘并累加。本实施例中，乘累加单元为核心计算。图7中，在卷积核中权重个数相同情况下，明显不规则卷积核的计算量和利用效率要远大于规则卷积核，减少了计算量。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

本领域技术人员应该理解，本领域技术人员在结合现有技术以及上述实施例可以实现所述变化例，在此不做赘述。这样的变化例并不影响本发明的实质内容，在此不予赘述。

以上对本发明的较佳实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施；任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案作出许多可能的变动和修饰，或修改为等同变化的等效实施例，这并不影响本发明的实质内容。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种不规则卷积核卷积神经网络硬件加速系统，包括主机和存储器，其特征在于，还包括与所述主机和所述存储器连接的硬件加速器，所述硬件加速器包括控制模块、补零模块、卷积核权重缓存模块、数据缓存模块、核心计算模块和中间结果缓存模块，其中，所述控制模块与所述主机连接，所述补零模块、所述卷积核权重缓存模块、所述数据缓存模块、所述核心计算模块和所述中间结果缓存模块分别连接所述控制模块连接，补零模块与所述存储器连接，所述卷积核权重缓存模块分别连接所述控制模块和所述核心计算模块。

2.如权利要求1所述的不规则卷积核卷积神经网络硬件加速系统，其特征在于，还包括窗口组装模块，所述窗口组装模块与所述控制模块连接，且所述窗口组装模块连接所述数据缓存模块和所述核心计算模块。

3.如权利要求1所述的不规则卷积核卷积神经网络硬件加速系统，其特征在于，所述补零模块连接所述数据缓存模块，所述中间结果缓存模块连接所述核心计算模块。

4.如权利要求2所述的不规则卷积核卷积神经网络硬件加速系统，其特征在于，所述核心计算模块包括乘累加单元、激活函数单元和池化层单元，所述乘累加单元连接所述激活函数单元和所述窗口组装模块，所述池化层单元连接所述激活函数单元和所述中间结果缓存模块。

5.一种不规则卷积核卷积神经网络硬件加速系统的计算方法，其特征在于，包括权利要求1-4任意一项所述的不规则卷积核卷积神经网络硬件加速系统，所述计算方法包括：

S1、对N×M数据通过任意方式补零；

6.如权利要求5所述的不规则卷积核卷积神经网络硬件加速系统的计算方法，其特征在于，在S2中，根据不规则卷积核的形状提取出有效的所述数据，然后输入到乘累加单元与所述不规则卷积核中的权重相乘并累加。