CN111931123A

CN111931123A - 边界卷积计算方法、装置、硬件加速器及计算机设备

Info

Publication number: CN111931123A
Application number: CN202011093166.4A
Authority: CN
Inventors: 陶为; 林军; 秦子迪; 周谦
Original assignee: Nanjing Fengxing Technology Co ltd
Current assignee: Nanjing Fengxing Technology Co ltd
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2020-11-13
Anticipated expiration: 2040-10-14
Also published as: CN111931123B

Abstract

本申请公开了边界卷积计算方法、装置、硬件加速器及计算机设备，该方法包括加载当前图像，若当前图像为整个图像的第一部分，则针对当前图像的第一边界元素执行第一局部卷积计算，并将结果存储至内部存储模块。若不是，则针对当前图像的第二边界元素执行第二局部卷积计算，从内部存储模块中取出目标邻近图像的第一局部卷积计算结果，将当前图像的第二局部卷积计算结果与目标邻近图像的第一局部卷积计算进行相加合并，获得当前图像与目标邻近图像之间边界元素的卷积计算结果。上述方法对每部分图像的边界元素进行局部卷积计算并暂存，针对当前图像卷积时，取出之前暂存的局部卷积结果进行相加合并，实现边界卷积，有效提高卷积计算效率。

Description

边界卷积计算方法、装置、硬件加速器及计算机设备

技术领域

本申请涉及卷积神经网络技术领域，尤其涉及一种边界卷积计算方法、装置、硬件加速器及计算机设备。

背景技术

对图像进行卷积运算时，通常会令卷积核矩阵在图像上滑动，同时求取卷积核矩阵与图像中对应元素的相乘累加结果。实际计算时，由于执行卷积计算的硬件加速器尺寸有限，无法一次性完成整个图像的计算，通常一次仅针对部分图像执行卷积计算，计算完毕后加载下一部分图像再执行卷积计算。

通常，位于图像边界处的元素并不能被卷积操作到，原因在于边界的元素没有完全跟卷积核重叠。参见图1，若卷积核的大小为3×3（图中灰色部分），硬件加速器一次能够针对8×8大小的图像执行卷积计算，首次计算时，硬件加速器会加载出第1-8行及第1-8列的图像，卷积核按照每次一步从左到右在图像中进行滑动，每次覆盖图像中3行3列的元素，当滑到第6、7、8列时，便不会继续向右滑动。针对下一部分图像（第9-16行及第9至16列）进行卷积计算时，卷积核一开始便覆盖图像中的第9、10、11列，这种情况下，图像第7、8、9列及图像第8、9、10列并未被执行卷积操作。

为了解决这一问题，通常会在执行第二次卷积计算时，加载图像中第7-14列的元素进行计算。这种边界卷积的方法采用了重复加载的方式，将导致原本应该加载的第15及16列被第7及8列占据，增加了执行卷积计算的总次数，极大的降低了计算效率。

发明内容

为了解决利用重复加载的方式进行边界卷积计算，将导致增加计算的总次数，降低计算效率的问题，本申请通过以下实施例公开了边界卷积计算方法、装置、硬件加速器及计算机设备。

本申请第一方面公开了一种边界卷积计算方法，包括：

加载当前图像；

判断所述当前图像是否为整个图像的第一部分图像；

若是，则执行以下操作：

针对所述当前图像的第一边界元素执行第一局部卷积计算，并将所述当前图像的第一局部卷积计算的结果存储至内部存储模块，所述第一边界元素为所述当前图像中倒数n-1行和/或倒数n-1列的元素，n为卷积核的大小；

若不是，则执行以下操作：

针对所述当前图像的第一边界元素执行第一局部卷积计算，并将所述第一局部卷积计算的结果存储至内部存储模块；

针对所述当前图像的第二边界元素执行第二局部卷积计算，所述第二边界元素为所述当前图像中正数n-1行和/或正数n-1列的元素；

从所述内部存储模块中取出目标邻近图像的第一局部卷积计算结果，其中，所述目标邻近图像为与所述当前图像相邻的图像，所述目标邻近图像与所述当前图像之间不存在重复的元素；

将所述当前图像的第二局部卷积计算结果与所述目标邻近图像的第一局部卷积计算进行相加合并，获得所述当前图像与所述目标邻近图像之间边界元素的卷积计算结果。

可选的，所述针对所述当前图像的第一边界元素执行第一局部卷积计算，包括：

若所述第一边界元素为所述当前图像中倒数n-1行的元素，则针对所述当前图像中倒数n-1行的元素与所述卷积核中正数n-1行的元素执行卷积操作；

或者，若所述第一边界元素为所述当前图像中倒数n-1列的元素，则针对所述当前图像中倒数n-1列的元素与所述卷积核中正数n-1列的元素执行卷积操作；

或者，若所述第一边界元素为所述当前图像中倒数n-1行及倒数n-1列的元素，则针对所述当前图像中倒数n-1行的元素与所述卷积核中正数n-1行的元素执行卷积操作，及针对所述当前图像中倒数n-1列的元素与所述卷积核中正数n-1列的元素执行卷积操作。

可选的，所述针对所述当前图像中倒数n-1行的元素与所述卷积核中正数n-1行的元素执行卷积操作，包括：

分别针对所述当前图像中倒数n-m行的元素与所述卷积核中正数n-m行的元素执行相乘累加操作，其中，m为小于n的正整数；

所述针对所述当前图像中倒数n-1列的元素与所述卷积核中正数n-1列的元素执行卷积操作，包括：

分别针对所述当前图像中倒数n-m列的元素与所述卷积核中正数n-m列的元素执行相乘累加操作。

可选的，所述针对所述当前图像的第二边界元素执行第二局部卷积计算，包括：

若所述第二边界元素为所述当前图像中正数n-1行的元素，则针对所述当前图像中正数n-1行的元素与所述卷积核中倒数n-1行的元素执行卷积操作；

或者，若所述第二边界元素为所述当前图像中正数n-1列的元素，则针对所述当前图像中正数n-1列的元素与所述卷积核中倒数n-1列的元素执行卷积操作；

或者，若所述第二边界元素为所述当前图像中正数n-1行及正数n-1列的元素，则针对所述当前图像中正数n-1行的元素与所述卷积核中倒数n-1行的元素执行卷积操作，及针对所述当前图像中正数n-1列的元素与所述卷积核中倒数n-1列的元素执行卷积操作。

可选的，所述针对所述当前图像中正数n-1行的元素与所述卷积核中倒数n-1行的元素执行卷积操作，包括：

分别针对所述当前图像中正数n-m行的元素与所述卷积核中倒数n-m行的元素执行相乘累加操作，其中，m为小于n的正整数；

所述针对所述当前图像中正数n-1列的元素与所述卷积核中倒数n-1列的元素执行卷积操作，包括：

分别针对所述当前图像中正数n-m列的元素与所述卷积核中倒数n-m列的元素执行相乘累加操作。

本申请第二方面公开了一种边界卷积计算装置，所述装置应用于本申请第一方面所述的边界卷积计算方法，所述边界卷积计算装置包括：

加载模块，用于加载当前图像；

判断模块，用于判断所述当前图像是否为整个图像的第一部分图像；

第一卷积计算模块，用于在所述当前图像是整个图像的第一部分图像时，执行以下操作：

第二卷积计算模块，用于在所述当前图像不是整个图像的第一部分图像时，执行以下操作：

本申请第三方面公开了一种硬件加速器，可选的，用于执行本申请第一方面所述的边界卷积计算方法，所述硬件加速器包括：

输入缓存模块，用于加载当前图像及卷积核；

卷积计算模块，用于针对所述当前图像的第一边界元素执行第一局部卷积计算，并将所述第一局部卷积计算结果输入至内部存储模块中，和/或，用于针对所述当前图像的第二边界元素执行第二局部卷积计算，并将所述第二局部卷积计算结果输入至结果合并模块中；

内部存储模块，用于存储各部分图像的第一局部卷积计算结果；

结果合并模块，用于将当前图像的第二局部卷积计算结果与目标邻近图像的第一局部卷积计算进行相加合并操作，获得所述当前图像与所述目标邻近图像之间边界元素的卷积计算结果。

可选的，所述卷积计算模块包括卷积计算单元、第一累加单元及第二累加单元；

所述卷积计算单元的输出端分别接至所述第一累加单元及所述第二累加单元；

所述第一累加单元的输出端接至所述内部存储模块，所述第二累加单元的输出端接至所述结果合并模块；

所述结果合并单元包括多个加法器。

本申请第四方面公开了一种计算机设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如本申请第一方面所述的边界卷积计算方法的步骤。

本申请第五方面公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理执行时实现如本申请第一方面所述的边界卷积计算方法的步骤。

本申请公开了边界卷积计算方法、装置、硬件加速器及计算机设备，该方法包括加载当前图像，若当前图像为整个图像的第一部分，则针对当前图像的第一边界元素执行第一局部卷积计算，并将结果存储至内部存储模块。若不是，则针对当前图像的第一边界元素执行第一局部卷积计算，并将结果存储至内部存储模块；针对当前图像的第二边界元素执行第二局部卷积计算，从内部存储模块中取出目标邻近图像的第一局部卷积计算结果，将当前图像的第二局部卷积计算结果与目标邻近图像的第一局部卷积计算进行相加合并，获得当前图像与目标邻近图像之间边界元素的卷积计算结果。上述方法对每部分图像的边界元素进行局部卷积计算，并将计算结果暂存，针对当前图像卷积时，取出之前暂存的目标邻近图像的局部卷积结果，使其与当前图像的局部卷积结果进行合并，实现边界卷积，无需针对之前已经加载过的边界元素进行重复加载，不会导致整个图像卷积计算总次数的增加，有效提高卷积计算效率。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有的边界卷积计算方法的过程示意图；

图2为本申请实施例公开的边界卷积计算方法的工作流程示意图；

图3为本申请实施例公开的边界卷积计算方法中，当前图像的第二局部卷积计算结果与目标邻近图像的第一局部卷积计算进行相加合并的一种示意图；

图4为本申请实施例公开的边界卷积计算方法中，当前图像的第二局部卷积计算结果与目标邻近图像的第一局部卷积计算进行相加合并的又一种示意图；

图5为本申请实施例公开的一种硬件加速器的结构示意图。

具体实施方式

本申请第一实施例公开了一种边界卷积计算方法，参见图2所述的工作流程示意图，所述边界卷积计算方法包括：

步骤S11，加载当前图像。

步骤S12，判断所述当前图像是否为整个图像的第一部分图像，若判断结果为是，则执行步骤S13，若判断结果为不是，则执行步骤S14-步骤S17。

通常在对整个图像进行卷积计算时，会逐行逐列的加载部分图像，第一部分图像为整个图像中第一行第一列的图像。

步骤S13，针对所述当前图像的第一边界元素执行第一局部卷积计算，并将所述当前图像的第一局部卷积计算的结果存储至内部存储模块，所述第一边界元素为所述当前图像中倒数n-1行和/或倒数n-1列的元素，n为卷积核的大小。

步骤S14，针对所述当前图像的第一边界元素执行第一局部卷积计算，并将所述第一局部卷积计算的结果存储至内部存储模块。

步骤S15，针对所述当前图像的第二边界元素执行第二局部卷积计算，所述第二边界元素为所述当前图像中正数n-1行和/或正数n-1列的元素。

步骤S16，从所述内部存储模块中取出目标邻近图像的第一局部卷积计算结果，其中，所述目标邻近图像为与所述当前图像相邻的图像，所述目标邻近图像与所述当前图像之间不存在重复的元素。

步骤S17，将所述当前图像的第二局部卷积计算结果与所述目标邻近图像的第一局部卷积计算进行相加合并，获得所述当前图像与所述目标邻近图像之间边界元素的卷积计算结果。

进一步的，所述针对所述当前图像的第一边界元素执行第一局部卷积计算，包括：

若所述第一边界元素为所述当前图像中倒数n-1行的元素，则针对所述当前图像中倒数n-1行的元素与所述卷积核中正数n-1行的元素执行卷积操作。

或者，若所述第一边界元素为所述当前图像中倒数n-1列的元素，则针对所述当前图像中倒数n-1列的元素与所述卷积核中正数n-1列的元素执行卷积操作。

以下例举出当前图像中存在第一边界元素、第二边界元素的情况：

1、若当前图像位于整个图像的第一行第一列，则其不存在第二边界元素，仅存在第一边界元素，且其第一边界元素为当前图像中倒数n-1行和倒数n-1列的元素；

2、若当前图像位于整个图像的第一行最后一列，则其存在第一边界元素和第二边界元素，且其第一边界元素为当前图像中倒数n-1行的元素，其第二边界元素为当前图像中正数n-1列的元素；

3、若当前图像位于整个图像的第一行（除了第一列及最后一列），则其存在第一边界元素和第二边界元素，且其第一边界元素为当前图像中倒数n-1行和倒数n-1列的元素，其第二边界元素为当前图像中正数n-1列的元素；

4、若当前图像位于整个图像的第一列（除了第一行及最后一行），则其存在第一边界元素和第二边界元素，且其第一边界元素为当前图像中倒数n-1行和倒数n-1列的元素，其第二边界元素为当前图像中正数n-1行的元素；

5、若当前图像位于整个图像的最后一列（除了第一行及最后一行），则其存在第一边界元素和第二边界元素，且其第一边界元素为当前图像中倒数n-1行的元素，其第二边界元素为当前图像中正数n-1行的元素和正数n-1列的元素；

6、若当前图像位于整个图像的最后一行第一列，则其存在第一边界元素和第二边界元素，且其第一边界元素为当前图像中倒数n-1列的元素，其第二边界元素为当前图像中正数n-1行的元素；

7、若当前图像位于整个图像的最后一行最后一列，则其不存在第一边界元素，存在第二边界元素，且其第二边界元素为当前图像中正数n-1行的元素和正数n-1列的元素；

8、若当前图像位于整个图像的最后一行（除了第一列及最后一列），则其存在第一边界元素和第二边界元素，且其第一边界元素为当前图像中倒数n-1列的元素，其第二边界元素为当前图像中正数n-1行的元素和正数n-1列的元素；

9、若当前图像位于整个图像的中位置不属于上述几种情况，则其存在第一边界元素和第二边界元素，且其第一边界元素为当前图像中倒数n-1行和倒数n-1列的元素，其第二边界元素为当前图像中正数n-1行的元素和正数n-1列的元素。

作为示例，假如卷积核尺寸为3×3，那么第一边界元素则为当前图像中的倒数两行和/或倒数两列的元素，第二边界元素则为当前图像的正数两行和/或正数两列的元素。

进一步的，所述针对所述当前图像中倒数n-1行的元素与所述卷积核中正数n-1行的元素执行卷积操作，包括：

分别针对所述当前图像中倒数n-m行的元素与所述卷积核中正数n-m行的元素执行相乘累加操作，其中，m为小于n的正整数。

进一步的，所述针对所述当前图像的第二边界元素执行第二局部卷积计算，包括：

若所述第二边界元素为所述当前图像中正数n-1行的元素，则针对所述当前图像中正数n-1行的元素与所述卷积核中倒数n-1行的元素执行卷积操作。

或者，若所述第二边界元素为所述当前图像中正数n-1列的元素，则针对所述当前图像中正数n-1列的元素与所述卷积核中倒数n-1列的元素执行卷积操作。

进一步的，所述针对所述当前图像中正数n-1行的元素与所述卷积核中倒数n-1行的元素执行卷积操作，包括：

分别针对所述当前图像中正数n-m行的元素与所述卷积核中倒数n-m行的元素执行相乘累加操作，其中，m为小于n的正整数。

作为示例，若卷积核尺寸为3×3，则将当前图像的第二局部卷积计算结果与目标邻近图像的第一局部卷积计算进行相加合并的过程可参见图3及图4所示。图中，PUSM1表示第一局部卷积计算结果，PUSM2表示第二局部卷积计算结果。

本申请公开了边界卷积计算方法，该方法包括加载当前图像，若当前图像为整个图像的第一部分，则针对当前图像的第一边界元素执行第一局部卷积计算，并将结果存储至内部存储模块。若不是，则针对当前图像的第一边界元素执行第一局部卷积计算，并将结果存储至内部存储模块；针对当前图像的第二边界元素执行第二局部卷积计算，从内部存储模块中取出目标邻近图像的第一局部卷积计算结果，将当前图像的第二局部卷积计算结果与目标邻近图像的第一局部卷积计算进行相加合并，获得当前图像与目标邻近图像之间边界元素的卷积计算结果。上述方法对每部分图像的边界元素进行局部卷积计算，并将计算结果暂存，针对当前图像卷积时，取出之前暂存的目标邻近图像的局部卷积结果，使其与当前图像的局部卷积结果进行合并，实现边界卷积，无需针对之前已经加载过的边界元素进行重复加载，不会导致整个图像卷积计算总次数的增加，有效提高卷积计算效率。

本申请第二实施例公开了一种边界卷积计算装置，所述装置应用于本申请第一实施例所述的边界卷积计算方法，所述边界卷积计算装置包括：

加载模块，用于加载当前图像。

判断模块，用于判断所述当前图像是否为整个图像的第一部分图像。

针对所述当前图像的第一边界元素执行第一局部卷积计算，并将所述当前图像的第一局部卷积计算的结果存储至内部存储模块，所述第一边界元素为所述当前图像中倒数n-1行和/或倒数n-1列的元素，n为卷积核的大小。

针对所述当前图像的第一边界元素执行第一局部卷积计算，并将所述第一局部卷积计算的结果存储至内部存储模块。

针对所述当前图像的第二边界元素执行第二局部卷积计算，所述第二边界元素为所述当前图像中正数n-1行和/或正数n-1列的元素。

从所述内部存储模块中取出目标邻近图像的第一局部卷积计算结果，其中，所述目标邻近图像为与所述当前图像相邻的图像，所述目标邻近图像与所述当前图像之间不存在重复的元素。

本申请第三实施例公开了一种硬件加速器，用于执行本申请第一实施例所述的边界卷积计算方法，参见图5所示的结构示意图，所述硬件加速器包括：

输入缓存模块，用于加载当前图像及卷积核。

卷积计算模块，用于针对所述当前图像的第一边界元素执行第一局部卷积计算，并将所述第一局部卷积计算结果输入至内部存储模块中，和/或，用于针对所述当前图像的第二边界元素执行第二局部卷积计算，并将所述第二局部卷积计算结果输入至结果合并模块中。

内部存储模块，用于存储各部分图像的第一局部卷积计算结果。

进一步的，所述卷积计算模块包括卷积计算单元、第一累加单元及第二累加单元。

所述卷积计算单元的输出端分别接至所述第一累加单元及所述第二累加单元。所述第一累加单元的输出端接至所述结果合并模块，所述第二累加单元的输出端接至所述内部存储模块。

所述卷积计算单元用于针对当前图像的第一边界元素执行第一局部卷积计算，并将所述第一局部卷积计算结果通过第二累加单元的累加之后输入至内部存储模块，所述卷积计算单元还用于针对当前图像的第二边界元素执行第二局部卷积计算，并将所述第二局部卷积计算结果通过第一累加单元的累加之后输入至结果合并模块。

所述结果合并单元包括多个加法器。

本申请第四实施例公开了一种计算机设备，包括：

存储器，用于存储计算机程序。

处理器，用于执行所述计算机程序时实现如本申请第一实施例所述的边界卷积计算方法的步骤。

本申请第五实施例公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理执行时实现如本申请第一实施例所述的边界卷积计算方法的步骤。

以上结合具体实施方式和范例性实例对本申请进行了详细说明，不过这些说明并不能理解为对本申请的限制。本领域技术人员理解，在不偏离本申请精神和范围的情况下，可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims

1.一种边界卷积计算方法，其特征在于，包括：

加载当前图像；

判断所述当前图像是否为整个图像的第一部分图像；

若是，则执行以下操作：

若不是，则执行以下操作：

2.根据权利要求1所述的边界卷积计算方法，其特征在于，所述针对所述当前图像的第一边界元素执行第一局部卷积计算，包括：

3.根据权利要求2所述的边界卷积计算方法，其特征在于，所述针对所述当前图像中倒数n-1行的元素与所述卷积核中正数n-1行的元素执行卷积操作，包括：

4.根据权利要求2所述的边界卷积计算方法，其特征在于，所述针对所述当前图像的第二边界元素执行第二局部卷积计算，包括：

5.根据权利要求4所述的边界卷积计算方法，其特征在于，所述针对所述当前图像中正数n-1行的元素与所述卷积核中倒数n-1行的元素执行卷积操作，包括：

6.一种边界卷积计算装置，其特征在于，所述装置应用于权利要求1-5任一项所述的边界卷积计算方法，所述边界卷积计算装置包括：

加载模块，用于加载当前图像；

7.一种硬件加速器，其特征在于，用于执行权利要求1-5任一项所述的边界卷积计算方法，所述硬件加速器包括：

输入缓存模块，用于加载当前图像及卷积核；

8.根据权利要求7所述的硬件加速器，其特征在于，所述卷积计算模块包括卷积计算单元、第一累加单元及第二累加单元；

所述结果合并单元包括多个加法器。

9.一种计算机设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1-5任一项所述的边界卷积计算方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理执行时实现如权利要求1-5任一项所述的边界卷积计算方法的步骤。