CN111986071A

CN111986071A - 一种图片数据处理方法、装置、设备及存储介质

Info

Publication number: CN111986071A
Application number: CN202010878445.5A
Authority: CN
Inventors: 蒋东东; 董刚; 赵雅倩; 李仁刚; 杨宏斌; 刘海威
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2020-11-24
Anticipated expiration: 2040-08-27
Also published as: CN111986071B

Abstract

本发明公开了一种图片数据处理方法、装置、设备及存储介质；在本方案中，对图像数据执行1*1卷积时，可以将填充参数设置为零后，直接利用3*3卷积模块提取初始特征数据，并对该初始特征数据进行处理后，可得到用于1*1卷积的目标特征数据，通过该方式，可以避免修改FPGA的卷积模块，减少卷积模块占用FPGA的资源。

Description

一种图片数据处理方法、装置、设备及存储介质

技术领域

本发明涉及深度学习技术领域，更具体地说，涉及一种图片数据处理方法、装置、设备及存储介质。

背景技术

目前，通过CNN(Convolutional Neural Networks)卷积神经网络对图像数据进行处理时，会通过1*1卷积核和3*3卷积核对图像数据进行处理。在现有的通过FPGA实现1*1和3*3卷积时，可以通过如下两种方式对图像进行处理，一种为将1*1卷积和3*3卷积设计成单独的卷积模块，在采用不同的工作模式对图像处理时，可以选用不同的卷积模块重新综合设计，此方法资源利用率低，但是设计灵活性差，每次对图像数据执行不同的卷积操作时，需要修改设计，FPGA(Field Programmable Gate Array，现场可编程逻辑门阵列)的修改时间成本非常高。另一种为在FPGA内部，同时设计出1*1和3*3卷积的独立模块，内部通过MUX(multiplexer，数据选择器)进行选择，此种方法，需要的FPGA资源较多，扇出较大，不利于FPGA进行高速的布局布线。

因此，如何通过卷积模块对图像数据进行处理，减少修改FPGA的时间，减少占用的FPGA资源，是本领域技术人员需要解决的问题。

发明内容

本发明的目的在于提供一种图片数据处理方法、装置、设备及存储介质，以通过对应的卷积模块对图像数据进行处理时，解决修改FPGA所占用的时间成本，减少卷积模块占用FPGA的资源。

为实现上述目的，本发明提供一种图片数据处理方法，包括：

接收图像数据处理指令；所述图像数据处理指令为对图像数据执行1*1卷积操作的指令；

将3*3卷积模块的填充参数设置为零；

利用所述3*3卷积模块及所述填充参数提取所述图像数据的初始特征数据，并将所述初始特征数据的首层数据作为目标特征数据；

将所述目标特征数据输入脉动计算阵列，并通过对应的过滤器执行卷积操作后，得到所述图像数据的处理结果。

其中，利用所述3*3卷积模块及所述填充参数提取所述图像数据的初始特征数据，包括：

利用所述3*3卷积模块及所述填充参数连续读取所有通道的图像数据中的9个3*11数据，并将所述9个3*11数据变形为9个9*9的矩阵数据，得到初始特征数据。

其中，所述9个3*11数据为所述图像数据的有效数据。

其中，将所述目标特征数据输入脉动计算阵列，并通过对应的过滤器执行卷积操作后，得到所述图像数据的处理结果，包括：

将所述目标特征数据输入DSP脉动计算阵列，通过对应的1*1过滤器执行卷积操作后，得到所述图像数据的处理结果；所述处理结果为所述图像数据的1*1卷积操作结果。

其中，所述将所述初始特征数据的首层数据作为目标特征数据，包括：

确定所述初始特征数据中的每个立方体数据，每个立方体数据包括9个9*9的矩阵数据；

提取每个立方体数据的首层9*9的矩阵数据，生成所述目标特征数据。

其中，所述提取每个立方体数据的首层9*9的矩阵数据，生成所述目标特征数据，包括：

提取每个立方体数据的每个9*9矩阵数据的首行1*9数据，生成所述目标特征数据。

其中，所述提取每个立方体数据的每个9*9矩阵数据的首行1*9数据，包括：

利用数据选择器MUX提取每个立方体数据的每个9*9矩阵数据的首行1*9数据。

为实现上述目的，本发明进一步提供一种图片数据处理装置，包括：

指令接收模块，用于接收图像数据处理指令；所述图像数据处理指令为对图像数据执行1*1卷积操作的指令；

参数设置模块，用于将3*3卷积模块的填充参数设置为零；

数据提取模块，用于利用所述3*3卷积模块及所述填充参数提取所述图像数据的初始特征数据；

目标特征数据确定模块，用于将所述初始特征数据的首层数据作为目标特征数据；

处理模块，用于将所述目标特征数据输入脉动计算阵列，并通过对应的过滤器执行卷积操作后，得到所述图像数据的处理结果。

为实现上述目的，本发明进一步提供一种电子设备，包括：

存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述的图片数据处理方法的步骤。

为实现上述目的，本发明进一步提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的图片数据处理方法的步骤。

通过以上方案可知，本发明实施例提供的一种图片数据处理方法，该方法包括：接收图像数据处理指令；所述图像数据处理指令为对图像数据执行1*1卷积操作的指令；将3*3卷积模块的填充参数设置为零；利用所述3*3卷积模块及所述填充参数提取所述图像数据的初始特征数据，并将所述初始特征数据的首层数据作为目标特征数据；将所述目标特征数据输入脉动计算阵列，并通过对应的过滤器执行卷积操作后，得到所述图像数据的处理结果。

可见，本申请在对图像数据执行1*1卷积时，可以直接将填充参数设置为零后，直接利用3*3卷积模块提取初始特征数据，并对该初始特征数据进行处理后，可得到用于1*1卷积的目标特征数据，通过该方式，可以避免修改FPGA的卷积模块，减少卷积模块占用FPGA的资源。本发明还公开了一种图片数据处理装置、设备及存储介质，同样能实现上述技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一卷积过程示意图；

图2为本发明实施例公开的另一卷积过程示意图；

图3为本发明实施例公开的一种图片数据处理方法流程示意图；

图4为本发明实施例公开的数据选取示意图；

图5为本发明实施例公开的数据变形示意图；

图6为本发明实施例公开的卷积计算示意图；

图7为本发明实施例公开的数据提取示意图；

图8a为本发明实施例公开的3*3卷积数据提取示意图；

图8b为本发明实施例公开的1*1卷积数据提取示意图；

图9为本发明实施例公开的数据对应关系示意图；

图10为本发明实施例公开的数据获取示意图；

图11为本发明实施例公开的另一卷积计算示意图；

图12为本发明实施例公开的一种图片数据处理装置结构示意图；

图13为本发明实施例公开的一种电子设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，CNN网络中所进行的三维卷积计算过程如下所述：假设一个彩色图像数据是6×6×3，其中，3表示三个颜色通道，则6×6×3可表示为3个6×6图像的堆叠。为了检测图像的边缘或者其他的特征，需要将该图像数据与一个三维的过滤器filter相卷积，它的维度是3×3×3，也即：该过滤器同样具有三层，对应红、绿、蓝三个通道。原图像的第一个6代表图像高度，第二个6代表宽度，这个3代表通道的数目，相对应的，过滤器也有高、宽和通道数，并且图像的通道数和过滤器的通道数必须相等，因此执行卷积操作后会得到一个4×4×1的图像，参见图1，为卷积过程示意图。进一步，为了提取多种特征，输出通道一般不止一个，如图2所示，将原图像和2个卷积核相卷后，可以得到2个输出通道的特征数据。

常用的卷积核为3*3大小的卷积核，原因是增加了网络层，增加了网络的非线性表达能力，同时极大的降低了参数数量，其他5*5和7*7等卷积都可以等价变形为3*3卷积来实现，部分深度学习模型，为了调整原始数据的通道数，也常常会在卷积层中增加一些1*1卷积层，在本方案中，主要涉及兼容1*1和3*3大小卷积核的应用场景。目前深度学习模型主要由GPU(Graphics Processing Unit，图形处理器)或FPGA来实现，相比于GPU，FPGA可以实现真正的实时处理，并且功耗低，在现有的FPGA方案中，执行1*1和3*3CNN卷积操作时，存在修改FPGA占用时间成本较高或者卷积模块占用FPGA资源较大的问题，因此本发明公开了一种图片数据处理方法、装置、设备及存储介质，以解决上述技术问题。

参见图3，本发明实施例提供的一种图片数据处理方法，包括：

S101、接收图像数据处理指令，该图像数据处理指令为对图像数据执行1*1卷积操作的指令；

目前，对于脉动阵列，为了更有效的利用DSP计算资源，FPGA设计的3*3CNN卷积首先需要连续读取所有feature通道数据中的9个3*11数据，如图4所示的数据选取示意图，在此仅取前三个作为示例进行描述。在图4中，填充参数为1，其中非0区域为feature的有效数据，四周为填充padding的0，第一个3*11的数据为图中左上的黑色框图中的数据，第二个3*11的数据为图中三行黑框图数据，第一和第二的3*11数据有2列重叠的数据，后续的3-9个3*11数据提取方式依次类推。将9个3*11卷积变形为9个3*3的9*9计算矩阵，以一个3*11为例，变形对应方式如下图5所示。

同步变形了9个3*11数据后，可以得到一个9*9*9的计算立方体，通过连续输入DSP的脉动计算阵列，并通过filter进行卷积，就可以得到3*3卷积的计算结果，计算结果如图6所示。图6中的feature数据缓冲表示：将待处理的图像数据进行缓冲，图6中的feature数据重排序表示：对缓冲的图像数据进行变形得到输入脉动计算阵列的目标特征数据，该变形具体为图4-图5所述的将缓冲的图像数据提取为3*11数据，然后将3*11数据转变成9*9*9的立方体数据的过程；图6中的数据缓冲表示：将目标特征数据输入DSP脉动计算阵列后，通过过滤器filter执行卷积运算的过程。

目前为止，所设计的3*3卷积所需的FPGA资源利用率约为9.7％，按照500MHz时钟计算，可以实现500MHz*9*9B＝40.5GB/s的实时处理速度。每次计算9*9*9的数据块，需要对每个3*3的9个点进行累加，DSP脉动阵列中有9个周期的乘加周期。若使用相同的DSP脉动阵列，计算1*1卷积，需要计算9*9B＝81B字节的点，并且也需要进行乘加，同样的9个周期，而对应的feature提取方式如图7所示。可以看出，在进行1*1卷积时，需要同时提取出9个1*9feature数据，并且feature不需要进行padding补零，如果单独设计，则控制逻辑、数据缓存控制大小以及读取控制方式，和3*3卷积完全不兼容，如图8a所示，为3*3卷积数据提取示意图，如图8b所示，为1*1卷积数据提取示意图。

可以看出，3*3卷积和1*1卷积都是读取出9个数据块，因为padding的影响，两种数据没有一一对应关系，但是将feature数据的padding设计为0后，3*3卷积和1*1卷积的数据可形成一一对应关系，如图9所示的，通过点点框起来的数据为1*1卷积所需要的数据，可见，当padding＝0时，3*3中每个3*11的feature数据的第一行的前9个数据，为1*1卷积所需要的9个数据，因为3*3卷积中，2个3*11的feature数据有2个数据的重叠，则9个3*11的前9个数据数据为1*1卷积所需要的卷积数据。因此，如果将填充参数padding修改为0，完全使用3*3卷积的9个3*11数据，则在数据变形为9*9数据后，第一行数据恰好为1*1所需要的计算数据，如图10所示。

因此，本申请在对图像数据进行处理时，首先需要下发图像数据处理指令，通过该指令对图像数据执行1*1卷积操作，并且，本申请对图像数据执行1*1卷积操作是，具体是通过3*3卷积模块来提取对应的特征数据。

S102、将3*3卷积模块的填充参数设置为零；

具体来说，由于将填充参数padding修改为0后，通过3*3卷积模块获取的9个3*11数据在变形为9*9矩阵数据后，第一行数据恰好为1*1卷积所需要的计算数据，因此本申请接收到图像数据处理指令后，需要将将3*3卷积模块的填充参数设置为0，然后再调用3*3卷积模块获得初始特征数据。

S103、利用该3*3卷积模块及该填充参数提取图像数据的初始特征数据，并将初始特征数据的首层数据作为目标特征数据；

需要说明的是，本申请在获取初始特征数据时，具体是利用3*3卷积模块及填充参数连续读取所有通道的图像数据中的9个3*11数据，并将9个3*11数据变形为9个9*9的矩阵数据，得到初始特征数据；需要说明的是，由于本申请中的填充参数padding为零，因此本申请利用3*3卷积模块及填充参数连续读取的9个3*11数据为图像数据的有效数据，而非是填充的无效数据0。并且，本申请将初始特征数据的首层数据作为目标特征数据时，首先需要确定初始特征数据中的每个立方体数据，该立方体数据包括9个9*9的矩阵数据，然后提取每个立方体数据的首层9*9的矩阵数据生成目标特征数据，该目标特征数据即为1*1卷积计算所需的特征数据。

S104、将目标特征数据输入脉动计算阵列，并通过对应的过滤器执行卷积操作后，得到图像数据的处理结果。

具体来说，本申请将3*3卷积模块得到的9个立方体后，可提取每个立方体数据的每个9*9矩阵数据的首行1*9数据，生成所述目标特征数据，也即：每个立方体数据的每个9*9矩阵数据的首行1*9数据组成该立方体数据的首层9*9的矩阵数据。并且，本申请具体可利用数据选择器MUX提取每个立方体的每个9*9矩阵数据的1*9首行数据，也即：通过MUX提取出立方体的最上一面9*9，将该数据作为1*1的目标特征数据输入DSP脉动计算阵列，通过对应的1*1过滤器执行卷积操作后，得到图像数据的处理结果，该处理结果即为图像数据的1*1卷积操作结果。可以看出，本申请所述的图像处理方式，可以满足1*1的卷积计算需求，使得3*3卷积可兼容1*1卷积的功能。通过该方式设计所需的FPGA资源利用率约为10％，资源变化率不超过0.3％，同时未影响设计的扇出和逻辑层，未影响整体功能时序。

参见图11，在执行1*1卷积所执行的操作与执行3*3卷积所执行的操作过程相同，即：图11中的feature数据缓冲表示：将待处理的图像数据进行缓冲，图11中的feature数据重排序表示：对缓冲的图像数据进行变形得到输入脉动计算阵列的目标特征数据，如：将缓冲的图像数据提取为3*11数据，然后将3*11数据转变成9*9*9的立方体数据的过程；图11中的数据缓冲表示：将目标特征数据输入DSP脉动计算阵列后，通过过滤器filter执行卷积运算的过程。不同的是，在执行1*1卷积时，需要将填充参数设置为零，因此通过3*3卷积模块对图像数据进行变形后，得到的9*9*9的立方体数据中的首层数据即为执行1*1卷积所需要的数据，如图11所示，在feature数据重排序时，仅将图中黑框部分作为1*1所需要的的数据层输入DSP脉动计算阵列，其他数据则不需要输入，以获得图像数据的1*1卷积结果。

综上可以看出，本发明针对脉动阵列CNN卷积，通过对3*3卷积做设计调整，极大的增加了3*3卷积和1*1卷积所需计算数据相似性，利用3*3卷积已有的硬件设计，提供一种可同时兼容1*1卷积的图像数据处理方法，该方法具体包括：将3*3卷积的padding设计为0，采用3*3卷积的feature提取方式，获得和1*1卷积feature数据相关的数据块，利用3*3卷积变形后数据，通过MUX提取9*9*9第一层数据块，获取到1*1卷积所需要的数据块，利用脉动矩阵在计算3*3卷积是需要的9个周期的乘加功能，可以在9个周期内完成对1*1卷积的计算，整个兼容性设计的修改占比不超过0.3％，硬件资源变化率不超过0.3％，使得本方案可在低资源利用率的条件下满足目前流行的CNN卷积模型要求，减少设计修改时间，加快人工智能产品的设计研发速度。

下面对本发明实施例提供的数据处理装置进行介绍，下文描述的数据处理装置与上文描述的数据处理方法可以相互参照。

参见图12，本发明实施例提供的一种图片数据处理装置，包括：

指令接收模块100，用于接收图像数据处理指令；所述图像数据处理指令为对图像数据执行1*1卷积操作的指令；

参数设置模块200，用于将3*3卷积模块的填充参数设置为零；

数据提取模块300，用于利用所述3*3卷积模块及所述填充参数提取所述图像数据的初始特征数据；

目标特征数据确定模块400，用于将所述初始特征数据的首层数据作为目标特征数据；

处理模块500，用于将所述目标特征数据输入脉动计算阵列，并通过对应的过滤器执行卷积操作后，得到所述图像数据的处理结果。

其中，所述数据提取模块具体用于：利用所述3*3卷积模块及所述填充参数连续读取所有通道的图像数据中的9个3*11数据，并将所述9个3*11数据变形为9个9*9的矩阵数据，得到初始特征数据。

其中，所述9个3*11数据为所述图像数据的有效数据。

其中，所述处理模块500具体用于：将所述目标特征数据输入DSP脉动计算阵列，通过对应的1*1过滤器执行卷积操作后，得到所述图像数据的处理结果；所述处理结果为所述图像数据的1*1卷积操作结果。

其中，所述目标特征数据确定模块400包括：

立方体数据确定单元，用于确定所述初始特征数据中的每个立方体数据，每个立方体数据包括9个9*9的矩阵数据；

数据提取单元，用于提取每个立方体数据的首层9*9的矩阵数据，生成所述目标特征数据。

其中，所述数据提取单元具体用于：提取每个立方体数据的每个9*9矩阵数据的首行1*9数据，生成所述目标特征数据。

其中，所述数据提取单元具体用于：利用数据选择器MUX提取每个立方体数据的每个9*9矩阵数据的首行1*9数据。

参见图13，本发明实施例还公开了一种电子设备，包括：

存储器11，用于存储计算机程序；

处理器12，用于执行所述计算机程序时实现上述方法实施例所述的图片数据处理方法的步骤。

在本实施例中，设备可以是PC(Personal Computer，个人电脑)，也可以是智能手机、平板电脑、掌上电脑、便携计算机等终端设备。

该设备可以包括存储器11、处理器12和总线13。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是设备的内部存储单元，例如该设备的硬盘。存储器11在另一些实施例中也可以是设备的外部存储设备，例如设备上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括设备的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于设备的应用软件及各类数据，例如执行图片数据处理方法的程序代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行图片数据处理方法的程序代码等。

该总线13可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图13中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

进一步地，设备还可以包括网络接口14，网络接口14可选的可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该设备与其他电子设备之间建立通信连接。

可选地，该设备还可以包括用户接口15，用户接口15可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口15还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在设备中处理的信息以及用于显示可视化的用户界面。

图13仅示出了具有组件11-15的设备，本领域技术人员可以理解的是，图13示出的结构并不构成对设备的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

本发明实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法实施例所述的图片数据处理方法的步骤。

其中，该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图片数据处理方法，其特征在于，包括：

将3*3卷积模块的填充参数设置为零；

2.根据权利要求1所述的图片数据处理方法，其特征在于，所述利用所述3*3卷积模块及所述填充参数提取所述图像数据的初始特征数据，包括：

3.根据权利要求2所述的图片数据处理方法，其特征在于，所述9个3*11数据为所述图像数据的有效数据。

4.根据权利要求3所述的图片数据处理方法，其特征在于，将所述目标特征数据输入脉动计算阵列，并通过对应的过滤器执行卷积操作后，得到所述图像数据的处理结果，包括：

5.根据权利要求1至4中任意一项所述的图片数据处理方法，其特征在于，所述将所述初始特征数据的首层数据作为目标特征数据，包括：

6.根据权利要求5所述的图片数据处理方法，其特征在于，所述提取每个立方体数据的首层9*9的矩阵数据，生成所述目标特征数据，包括：

7.根据权利要求6所述的图片数据处理方法，其特征在于，所述提取每个立方体数据的每个9*9矩阵数据的首行1*9数据，包括：

8.一种图片数据处理装置，其特征在于，包括：

参数设置模块，用于将3*3卷积模块的填充参数设置为零；

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的图片数据处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的图片数据处理方法的步骤。