CN110738317A

CN110738317A - 基于fpga的可变形卷积网络运算方法、装置和系统

Info

Publication number: CN110738317A
Application number: CN201910988793.5A
Authority: CN
Inventors: 井怡; 高鹏; 何峻
Original assignee: Shanghai Information Technology Research Center; Shanghai Advanced Research Institute of CAS
Current assignee: Shanghai Information Technology Research Center; Shanghai Advanced Research Institute of CAS
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-01-31

Abstract

本申请提供的一种基于FPGA的可变形卷积网络运算方法、装置和系统，通过获取图像输入数据，经缓存处理后得到串行数据；将所述串行数据根据卷积尺寸大小进行匹配分割以得到多个待卷积片段；依据预设的增加了偏移向量的可变形卷积核及对应各所述带卷积片段的权值，按顺序依次对各所述待卷积片段进行卷积运算，以得到卷积输出结果。本申请通过该可变形卷积算法，实现任意卷积模型的运算，可有效提高卷积模块的图像检测精度，同时借用FPGA平台得到更好的硬件加速效果。

Description

基于FPGA的可变形卷积网络运算方法、装置和系统

技术领域

本发明涉及卷积神经网络技术领域，特别是涉及一种基于FPGA的可变形卷积网络运算方法、装置和系统。

背景技术

图像分类一直是计算机视觉领域要解决的核心问题，卷积神经网络是一种多层感知器，具有强大的特征学习和抽象表达能力，多层的网络结构可直接将图像作为网络输入，通过训练获得图像特征，从而简化了特征提取过程。但是通常的卷积网络结构对文字及简单图形识别率高，但对大数据和复杂图片分类能力不足，过拟合也导致泛化能力较弱。

FPGA各个逻辑模块相互独立，并行处理计算能力强，广泛用于数字信号处理中，相比于当前广泛采用GPU来实现卷积神经网络的方式，基于FPGA来实现卷积神经网络的方式大大降低了设备成本，且因其具有良好的并行处理计算能力，其运算速度也并不逊色，基于FPGA来实现卷积网络也出现了越来越多的应用需求。

而现有一些基于FPGA实现卷积神经网络只能采用标准或传统的卷积核，还未能实现可变形卷积的运算，因此，现阶段有必要提出一种基于FPGA的可变形卷积网络运算方案。

发明内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供一种基于FPGA的可变形卷积网络运算方法、装置和系统，已解决上述至少一个问题。

为实现上述目的及其他相关目的，本申请提供一种基于FPGA的可变形卷积网络运算方法，所述方法包括：获取图像输入数据，经缓存处理后得到串行数据；将所述串行数据根据卷积尺寸大小进行匹配分割以得到多个待卷积片段；依据预设的增加了偏移向量的可变形卷积核及对应各所述带卷积片段的权值，按顺序依次对各所述待卷积片段进行卷积运算，以得到卷积输出结果。

于本申请的一实施例中，所述可变形卷积核通过对深度固定的原始卷积核增加偏移向量以实现卷积深度可变；所述原始卷积核为固定大小的规则网格。

于本申请的一实施例中，所述可变形卷积核与所述权值为已训练的。

于本申请的一实施例中，所述卷积输出结果可以表示为：

其中，y(a_n)为卷积输出结果；a_n为待卷积片段；w为权值，p_n为偏移向量。

为实现上述目的及其他相关目的，本申请提供一种实现可变形卷积网络的装置，所述装置包括：缓存数据，用于获取图像输入数据，经缓存处理后得到串行数据；可变形卷积模块，用于将所述串行数据根据卷积尺寸大小进行匹配分割以得到多个待卷积片段；依据预设的增加了偏移向量的可变形卷积核及对应各所述带卷积片段的权值，按顺序依次对各所述待卷积片段进行卷积运算，以得到卷积输出结果。

于本申请的一实施例中，所述可变形卷积模块还包括卷积核模块；所述卷积核模块包含多个可变形卷积核；所述可变形卷积核通过对深度固定的原始卷积核增加偏移向量以实现卷积深度可变；所述原始卷积核为固定大小的规则网格。

于本申请的一实施例中，所述可变形卷积模块还包括参数训练模块，用于训练所述可变形卷积核与所述权值，供所述可变形卷积模块依据需求调用。

于本申请的一实施例中，所述装置采用FPGA硬件架构，且卷积运算过程采用串行方式实现。

于本申请的一实施例中，所述FPGA硬件架构包括对所述串行缓存数据移位操作的位移寄存器，用于将所述串行数据根据卷积尺寸大小进行匹配分割以得到多个待卷积片段。

为实现上述目的及其他相关目的，本申请提供一种计算机系统，所述设备包括：存储器、及处理器；所述存储器用于存储计算机指令；所述处理器运行计算机指令实现如上所述的方法。

综上所述，本申请提供一种基于FPGA的可变形卷积网络运算方法、装置和系统，通过获取图像输入数据，经缓存处理后得到串行数据；将所述串行数据根据卷积尺寸大小进行匹配分割以得到多个待卷积片段；依据预设的增加了偏移向量的可变形卷积核及对应各所述带卷积片段的权值，按顺序依次对各所述待卷积片段进行卷积运算，以得到卷积输出结果。

具有以下有益效果：

通过该可变形卷积算法，实现任意卷积模型的运算，可有效提高卷积模块的图像检测精度，同时借用FPGA平台得到更好的硬件加速效果。

附图说明

图1显示为本申请于实施例中基于FPGA的可变形卷积网络运算方法的流程示意图。

图2显示为本申请于实施例中不同规则形状的卷积核的模型示意图。

图3显示为本申请于实施例中的可变形卷积网络的运算过程示意图。

图4显示为本申请于实施例中的实现可变形卷积网络的装置的模块示意图。

图5显示为本申请于实施例中的计算机系统的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

下面以附图为参考，针对本申请的实施例进行详细说明，以便本申请所属技术领域的技术人员能够容易地实施。本申请可以以多种不同形态体现，并不限定于此处说明的实施例。

为了明确说明本申请，省略与说明无关的部件，对于通篇说明书中相同或类似的构成要素，赋予了相同的参照符号。

在通篇说明书中，当说某部件与另一部件“连接”时，这不仅包括“直接连接”的情形，也包括在其中间把其它元件置于其间而“间接连接”的情形。另外，当说某种部件“包括”某种构成要素时，只要没有特别相反的记载，则并非将其它构成要素排除在外，而是意味着可以还包括其它构成要素。

当说某部件在另一部件“之上”时，这可以是直接在另一部件之上，但也可以在其之间伴随着其它部件。当对照地说某部件“直接”在另一部件“之上”时，其之间不伴随其它部件。

虽然在一些实例中术语第一、第二等在本文中用来描述各种元件，但是这些元件不应当被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如，第一接口及第二接口等描述。再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

此处使用的专业术语只用于言及特定实施例，并非意在限定本申请。此处使用的单数形态，只要语句未明确表示出与之相反的意义，那么还包括复数形态。在说明书中使用的“包括”的意义是把特定特性、区域、整数、步骤、作业、要素及/或成份具体化，并非排除其它特性、区域、整数、步骤、作业、要素及/或成份的存在或附加。

表示“下”、“上”等相对空间的术语可以为了更容易地说明在附图中图示的一部件相对于另一部件的关系而使用。这种术语是指，不仅是在附图中所指的意义，还包括使用中的装置的其它意义或作业。例如，如果翻转附图中的装置，曾说明为在其它部件“下”的某部件则说明为在其它部件“上”。因此，所谓“下”的示例性术语，全部包括上与下方。装置可以旋转90°或其它角度，代表相对空间的术语也据此来解释。

卷积神经网络(CNN)是近年发展起来，并引起广泛重视的一种高效识别方法。目前卷积神经网络已经成为众多科学领域的研究热点之一。它在图像识别和分类等领域已被证明非常有效。卷积神经网络除了为机器人和自动驾驶汽车的视觉助力之外，还可以成功识别人脸，物体和交通标志。

现有卷积神经网络多是借助GPU来实现，因卷积神经网络需要海量数量做训练，其对处理速度提高了极高要求，往往需要几十甚至上百台GPU处理器来进行处理，成本十分昂贵。而FPGA(即现场可编程门阵列)的各个逻辑模块相互独立，并行处理计算能力强，广泛用于数字信号处理中，相比于当前广泛采用GPU来实现卷积神经网络的方式，基于FPGA来实现卷积神经网络的方式大大降低了设备成本。

而现有一些基于FPGA实现卷积神经网络只能采用标准或传统的卷积核，还未能实现可变形卷积的运算，因此，本申请提出一种基于FPGA的可变形卷积网络运算方法、装置和系统，以解决上述问题。

如图1所示，展示为本申请实施例中的基于FPGA的可变形卷积网络运算方法的流程示意图。如图所示，所述方法包括：

步骤S101：获取图像输入数据，经缓存处理后得到串行数据。

一般来说，卷积神经网络(CNN)由输入层、卷积层、激活函数、池化层、全连接层组成，即INPUT(输入层)-CONV(卷积层)-RELU(激活函数)-POOL(池化层)-FC(全连接层)，而本申请主要在卷积层进行的。

于一些实施例中，所述图像输入数据可为图像传感器采集数据，或任意图像数据集合的待卷积数据。

于一些实施例中，所述经缓存处理后得到串行缓存数据主要指经缓存器进行的串行化处理，以提高效率。

举例来说，所述获取所述图像输入数据后，通常是将图像输入数据中如像素、明亮、大小等图像参数转换为向量集数据或矩阵数据，这类数据多为并行数据，经RAM缓存处理进行串行化以输出串行数据，相比于处理并行数据，处理串行数据的效率将大大提高。

步骤S102：将所述串行数据根据卷积尺寸大小进行匹配分割以得到多个待卷积片段。

于本实施例中，在得到所述串行数据后，便可进入卷积模块或进行卷积过程。在进行卷积操作前需根据预设的卷积尺寸大小进行分割。所述卷积尺寸大小可为常见尺寸，如3×3，5×5等常见固定大小的卷积尺寸。

FPGA器件属于专用集成电路中的一种半定制电路，是可编程的逻辑列阵，能够有效的解决原有的器件门电路数较少的问题。FPGA的基本结构包括可编程输入输出单元，可配置逻辑块，数字时钟管理模块，嵌入式块RAM，布线资源，内嵌专用硬核，底层内嵌功能单元。由于FPGA具有布线资源丰富，可重复编程和集成度高，投资较低的特点，在数字电路设计领域得到了广泛的应用。FPGA的设计流程包括算法设计、代码仿真以及设计、板机调试，设计者以及实际需求建立算法架构，利用EDA建立设计方案或HD编写设计代码，通过代码仿真保证设计方案符合实际要求，最后进行板级调试，利用配置电路将相关文件下载至FPGA芯片中，验证实际运行效果。

FPGA的各个逻辑模块相互独立，并行处理计算能力强。例如，通过给每个卷积采样点增加偏移量，借用寄存器对数据移位操作，以实现将所述串行数据根据卷积尺寸大小进行匹配分割以得到多个待卷积片段，或者实现其他任意卷积模型的运算处理，最终得到高质量的图像检测效果。以及采用移位寄存器实现原始图像输入数据与滤波器模板匹配与卷积操作，能进一步提高卷积模块的图像检测精度。

步骤S103：依据预设的增加了偏移量的可变形卷积核及对应各所述带卷积片段的权值，按顺序依次对各所述待卷积片段进行卷积运算，以得到卷积输出结果。

通常，可变形卷积网络认为规则形状的卷积核(比如一般用的正方形3*3卷积)可能会限制特征的提取，如果赋予卷积核形变的特性，让网络根据label反传下来的误差自动的调整卷积核的形状，适应网络重点关注的感兴趣的区域，就可以提取更好的特征。

如图2所示展示为本申请于实施例中不同规则形状的卷积核的模型示意图。图中(a)展示为正方形3*3一般规则网格的卷积核；在图中(a)所示的一般规则网格的卷积核基础增加便宜量，则可形成如(b)、(c)、(d)所示的非规则网格或其他规则网格的卷积核。如(b)展示为杂乱无章的无规则的卷积核；(c)展示为中心向外扩散规则的卷积核，在一些情况下其可以表示从不同尺度物体的识别；(d)展示为顺时针向外旋转规则的卷积核，在一些情况下其可以表示旋转物体的识别。

于本实施例中，所述可变形卷积核通过对深度固定的原始卷积核增加偏移向量以实现卷积深度可变；所述原始卷积核为固定大小的规则网格。

在上述实施例中，所述原始卷积核为固定大小的规则网格，例如，包括但不限于5×5，3×3等尺寸大小。

于本实施例中，所述卷积核与所述权值为已训练的。

于本实施例中，所述卷积输出结果可以表示为：

参见图3所示，展示为本申请于实施例中可变形卷积网络的运算过程示意图。卷积过程具体由以下算法循环实现(以3×3卷积为例)：

规则网格N＝{(-1，2)，(1，0)，…，(1，0)}，增加卷积偏移向量p_n后，卷积核深度发生变化，成为可变形卷积，对应位置a_n的卷积输出为：

其中，y(a_n)为卷积输出结果；w为待卷积片段采样点a_n对应的权值，p_n为偏移向量，只影响像素抽样。w和p_n均为训练所得参数，由外部输入参与卷积运算。

如图4所示，展示为本申请实施例中实现可变形卷积网络的装置的模块示意图。如图所示，所述装置400包括：

缓存数据410，用于获取图像输入数据，经缓存处理后得到串行数据；

可变形卷积模块420，用于将所述串行数据根据卷积尺寸大小进行匹配分割以得到多个待卷积片段；依据预设的增加了偏移向量的可变形卷积核及对应各所述带卷积片段的权值，按顺序依次对各所述待卷积片段进行卷积运算，以得到卷积输出结果。

需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与本申请所述方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述。

于本实施例中，所述可变形卷积模块420还包括卷积核模块421；所述卷积核模块421包含多个可变形卷积核；所述可变形卷积核通过对深度固定的原始卷积核增加偏移向量以实现卷积深度可变；所述原始卷积核为固定大小的规则网格。

于本实施例中，所述可变形卷积模块420还包括参数训练模块422，用于训练所述可变形卷积核与所述权值，供所述可变形卷积模块420依据需求调用。

举例来说，输入图像输入数据进入所述装置400，经过缓存模块410进行缓存处理，如RAM缓存处理后得到串行数据，进入可变形卷积模块420进行卷积运算，最终输出卷积结果。其中，可变形卷积模块420内的卷积核模块421中预设有原始卷积核，为固定深度固定大小的规则网格，该原始卷积核通过增加卷积偏移向量p_n的虚训练得到卷积深度可变的可变形卷积核，然后进行通常的卷积运算；参数训练模块422主要包含权值w，卷积偏移向量p_n等已训练好的参数，根据卷积模块需求供选择调用；所述图像输入数据可为图像传感器采集数据，或任意图像数据集合的待卷积数据。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital signal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。优选的，所述装置400采用FPGA硬件架构，且卷积运算过程采用串行方式实现。

于本实施例中，所述FPGA硬件架构包括对所述串行缓存数据移位操作的位移寄存器，用于将所述串行数据根据卷积尺寸大小进行匹配分割以得到多个待卷积片段。其中，在数字电路中，移位寄存器是一种在若干相同时间脉冲下工作的以触发器为基础的器件，数据以并行或串行的方式输入到该器件中，然后每个时间脉冲依次向左或右移动一个比特，在输出端进行输出。这种移位寄存器是一维的，事实上还有多维的移位寄存器，即输入、输出的数据本身就是一些列位。实现这种多维移位寄存器的方法可以是将几个具有相同位数的移位寄存器并联起来。

如图5所示，展示为本申请于实施例中的计算机系统的结构示意图。如图所示，所述计算机系统500包括：存储器501、及处理器502；所述存储器501用于存储计算机指令；所述处理器502运行计算机指令实现如图1所述的方法。

在一些实施例中，所述计算机系统500中的所述存储器501的数量均可以是一或多个，所述处理器502的数量均可以是一或多个，而图5中均以一个为例。

于本申请一实施例中，所述计算机系统500中的处理器502会按照如图1所述的步骤，将一个或多个以应用程序的进程对应的指令加载到存储器501中，并由处理器502来运行存储在存储器502中的应用程序，从而实现如图1所述的方法。

所述存储器501可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。所述存储器501存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

所述处理器502可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、分立门或者晶体管逻辑器件、分立硬件组件等。

优选的，所述处理器502为现场可编程门阵列(Field－Programmable GateArray，简称FPGA)或者其他可编程逻辑器件。

于上述实施例中，由FPGA控制实现数据缓存，参数调用，卷积运算，特征提取等所有数据处理过程。

在一些具体的应用中，所述计算机系统500的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清除说明起见，在图5中将各种总线都成为总线系统。

综上所述，本申请提供的一种基于FPGA的可变形卷积网络运算方法、装置和系统，通过该可变形卷积算法，实现任意卷积模型的运算，可有效提高卷积模块的图像检测精度，同时借用FPGA平台得到更好的硬件加速效果。

本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种基于FPGA的可变形卷积网络运算方法，其特征在于，所述方法包括：

获取图像输入数据，经缓存处理后得到串行数据；

将所述串行数据根据卷积尺寸大小进行匹配分割以得到多个待卷积片段；

依据预设的增加了偏移向量的可变形卷积核及对应各所述带卷积片段的权值，按顺序依次对各所述待卷积片段进行卷积运算，以得到卷积输出结果。

2.根据权利要求1所述的方法，其特征在于，所述可变形卷积核通过对深度固定的原始卷积核增加偏移向量以实现卷积深度可变；所述原始卷积核为固定大小的规则网格。

3.根据权利要求1所述的方法，其特征在于，所述可变形卷积核与所述权值为已训练的。

4.根据权利要求1所述的方法，其特征在于，所述卷积输出结果可以表示为：

5.一种实现可变形卷积网络的装置，其特征在于，所述装置包括：

缓存数据，用于获取图像输入数据，经缓存处理后得到串行数据；

可变形卷积模块，用于将所述串行数据根据卷积尺寸大小进行匹配分割以得到多个待卷积片段；依据预设的增加了偏移向量的可变形卷积核及对应各所述带卷积片段的权值，按顺序依次对各所述待卷积片段进行卷积运算，以得到卷积输出结果。

6.根据权利要求5所述的装置，其特征在于，所述可变形卷积模块还包括卷积核模块；所述卷积核模块包含多个可变形卷积核；

所述可变形卷积核通过对深度固定的原始卷积核增加偏移向量以实现卷积深度可变；所述原始卷积核为固定大小的规则网格。

7.根据权利要求5所述的装置，其特征在于，所述可变形卷积模块还包括参数训练模块，用于训练所述可变形卷积核与所述权值，供所述可变形卷积模块依据需求调用。

8.根据权利要求5所述的装置，其特征在于，所述装置采用FPGA硬件架构，且卷积运算过程采用串行方式实现。

9.根据权利要求5所述的装置，其特征在于，所述FPGA硬件架构包括对所述串行缓存数据移位操作的位移寄存器，用于将所述串行数据根据卷积尺寸大小进行匹配分割以得到多个待卷积片段。

10.一种计算机系统，其特征在于，所述设备包括：存储器、及处理器；所述存储器用于存储计算机指令；所述处理器运行计算机指令实现如权利要求1至4中任意一项所述的方法。