CN113806261A - 一种面向向量处理器的池化向量化实现方法 - Google Patents

一种面向向量处理器的池化向量化实现方法 Download PDF

Info

Publication number
CN113806261A
CN113806261A CN202111178180.9A CN202111178180A CN113806261A CN 113806261 A CN113806261 A CN 113806261A CN 202111178180 A CN202111178180 A CN 202111178180A CN 113806261 A CN113806261 A CN 113806261A
Authority
CN
China
Prior art keywords
pooling
feature map
block
vector
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111178180.9A
Other languages
English (en)
Other versions
CN113806261B (zh
Inventor
王庆林
梅松竹
苏华友
李东升
姜晶菲
许金伟
李荣春
乔鹏
刘杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111178180.9A priority Critical patent/CN113806261B/zh
Publication of CN113806261A publication Critical patent/CN113806261A/zh
Application granted granted Critical
Publication of CN113806261B publication Critical patent/CN113806261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/20Handling requests for interconnection or transfer for access to input/output bus
    • G06F13/28Handling requests for interconnection or transfer for access to input/output bus using burst mode transfer, e.g. direct memory access DMA, cycle steal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • G06F15/8053Vector processors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种面向向量处理器的池化向量化实现方法,包括如下步骤:根据AM空间参数、池化窗口预设参数,获取输入分块特征图每次传入AM空间的传输分块参数;基于DMA操作将分块特征图子块加载至所述AM空间;根据预设规则将单个所述分块特征图子块进行分区;根据预设顺序依次对分块特征图子块的每个区域进行池化处理;基于DMA操作将处理后获得的输出特征图子块从所述AM空间中导出至存储器中;重复上述步骤直至获取所有分块特征图子块的池化结果。该方法逻辑清晰,安全、有效、可靠且操作简便,既能支持非方形特征图、非方形移动步长、非方形池化窗口,又能支持特征图填充,无需对特征图重排,提高池化处理效率。

Description

一种面向向量处理器的池化向量化实现方法
技术领域
本发明涉及到深度学习、卷积神经网络领域技术领域,特别是涉及一种面向向量处理器的池化向量化实现方法。
背景技术
卷积神经网络是当前深度学习模型中应用最广泛的一种神经网络模型,其在如图像分类等领域中特定任务上的性能已经超越了人类。卷积神经网络模型一般由卷积层、激活层、池化层以及全连接层等构成。
池化层位于卷积层之后,用于对卷积层提取到的特征进行聚合统计。卷积神经网络中,利用卷积操作对输入图像进行特征提取之后,将会产生多个特征图,利用所有的特征则计算量将会过于巨大,并且还可能会产生过拟合的问题,对不同位置的局部特征进行聚合统计可以有效解决这个问题。通常有两种方法进行聚合,分别是对特征图上不同位置的局部特征取最大值或平均值,即最大池化(Max-pooling)或平均值池化(Average-pooling)。相比之前提取到的特征图,通过池化之后的数据不仅具有更低维度,而且计算量显著减少,同时还避免了一定程度的过拟合改善了分类效果。总的来说,池化层具有降信息冗余、减少计算量以及防止过拟合等作用,是卷积神经网络的重要组成。
向量处理器是一种新型的体系结构,如图4所示,包含进行标量运算的标量处理单元(SPU)和进行向量运算的向量处理单元(VPU),以及负责数据传输的直接存储器访问(Direct Memory Access,DMA)部件等。SPU由标量处理部件SPE和标量存储器SM构成。VPU由M个向量处理部件VPE和阵列存储器AM构成,M个向量处理部件VPE以单指令多数据(SIMD)的方式协作运行,支持指定VPE部件的关闭与开启,但不支持多个VPE之间的数据交互。DMA部件负责SM与DDR、AM与DDR之间的数据传输。
目前,专利《CN 108205703 A-多输入多输出矩阵平均值池化向量化实现方法》中提到的方法存在以下问题:(1)将输入特征图导入向量处理器核AM空间之前,会对输入特征图进行重排,见第2页S2-S3,极大地影响了处理效率;(2)如第二页第4、6、7页显示,分别要求特征图的高度和宽度相等,池化的水平移动步长和垂直移动步长相同、池化窗口高度和宽度相等,不支持不相等或者不相同的情况,即不支持非方阵的情况;(3)在卷积神经网络中,常通过对特征图进行填充(Padding)来保持特征图边界上的有效信息,目前该文献不支持填充(Padding)的情况。
因此,提供一种支持特征图填充、无需对特征图重排,可以支持非方形特征图、非方形移动步长、非方形池化窗口的面向向量处理器的池化向量化实现方法是本领域技术人员亟待解决的问题。
发明内容
本发明的目的在于提供一种面向向量处理器的池化向量化实现方法,该方法逻辑清晰,安全、有效、可靠且操作简便,既能支持非方形特征图、非方形移动步长、非方形池化窗口,又能支持特征图填充,无需对特征图重排,提高池化处理效率。
基于以上目的,本发明提供的技术方案如下:
一种面向向量处理器的池化向量化实现方法,包括如下步骤:
S1.根据AM空间参数、池化窗口预设参数,获取输入分块特征图每次传入AM空间的传输分块参数;
S2.基于DMA操作将分块特征图子块加载至所述AM空间;
S3.根据预设规则将单个所述分块特征图子块进行分区;
S4.根据预设顺序依次对分块特征图子块的每个区域进行池化处理;
S5.基于DMA操作将处理后获得的输出特征图子块从所述AM空间中到导出至存储器中;
S6.重复步骤S1-S5直至获取所有分块特征图子块的池化结果。
优选地,所述AM空间参数具体为AM空间大小;
所述池化窗口预设参数具体为池化窗口高度、宽度、水平移动步长和垂直移动步长;
所述输入分块特征图每次传入AM空间的传输分块参数具体为所述输入分块特征图传输子块的高度和宽度。
优选地,单个所述分块特征图子块具体为所述输入分块特征图传输子块的高度、所述输入分块特征图传输子块的宽度与向量处理器向量单元并行处理的数据宽度的乘积大小的输入特征图元素。
优选地,所述步骤S3具体为:
对单张所述分块特征图按照填充情况分为上、中、下、左、右共五个区;
步骤S4中预设顺序为上、下、左、右、中。
优选地,所述步骤S4具体包括:
A1.获取当前所在区的池化窗口非填充向量个数;
A2.初始化向量寄存器V0与i=0;
A3.从当前池化窗口中加载第i个L长的数据到向量寄存器V1中,其中L具体为向量处理器单元并行处理的数据宽度;
A4.根据池化模式选取预设计算规则,获取池化结果,并将池化结果存储在所述向量寄存器V0中;
A5.递增i,若i<非填充向量个数则返回步骤A3;
A6.根据所述池化模式处理所述向量寄存器V0中的每个元素,并将处理结果存储在所述向量寄存器V0中;
A7.存储所述向量寄存器V0至所述AM空间中。
优选地,所述步骤A1还包括:若所述当前所在区为上区或下区,则获取第一个池化窗口的非填充向量个数与最后一个池化窗口的非填充向量个数。
优选地,所述池化模式具体为:平均值池化与最大值池化;
所述步骤A4中根据池化模式选取预设计算规则,获取池化结果具体为:
若所述池化模式为平均值池化,则获取所述向量寄存器V0与所述向量寄存器V1之和;
若所述池化模式为最大值池化,则获取所述向量寄存器V0与所述向量寄存器V1中分别对应的元素最大值。
优选地,所述步骤A6中根据所述池化模式,处理所述向量寄存器V0中的每个元素具体为:若所述池化模式为平均值池化,则获取所述向量寄存器V0中的每个元素与所述池化窗口宽度、高度的乘积之间的商值;
若所述池化模式为最大值池化,则跳过处理步骤。
本发明所提供的面向向量处理器的池化向量化实现方法,是通过AM空间参数、池化窗口预设参数从而计算获取输入分块特征图每次传入AM空间的传输分块参数;根据分块参数对输出特征图进行分块,得到分块特征图子块;通过DMA操作将分块特征图子块加载至AM空间中;通过预设规则将单个分块特征图子块进行分区;分区后按照预设顺序对分块特征图子块的每个区域进行池化处理;池化处理后的分块特征图子块为输出特征图子块;通过DMA操作将输出特征图子块从AM空间中导出至存储器中;多次重复上述步骤,直至获取所有分块特征图子块的池化结果。
本技术方案用广泛使用的分块特征图作为池化的输入输出,不用再对特征图进行重排,极大地减少了数据预处理的时间,提升平均值池化的效率;而且本技术方案通过分区后,对分块特征图子块的每个区域进行池化处理,从而支撑非方形特征图、非方形移动步长、非方形池化窗口;同时,分区的预设规则是根据填充情况制定。因此,本技术方案既能支持非方形特征图、非方形移动步长、非方形池化窗口,又能支持特征图填充,无需对特征图重排,可以显著提高池化处理效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种面向向量处理器的池化向量化实现方法流程图;
图2为本发明实施例提供的一种面向向量处理器的池化向量化实现方法中池化分区的结构示意图;
图3为本发明实施例提供的一种面向向量处理器的池化向量化实现方法中步骤S4的流程图;
图4为本发明实施例提供的向量处理器的一般体系结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例采用递进的方式撰写。
本发明实施例提供了一种面向向量处理器的池化向量化实现方法。主要解决现有技术中,需要对特征图重排导致处理时间较长、对特征图参数有特定要求、不支持填充的技术问题。
请参照图1,一种面向向量处理器的池化向量化实现方法,包括如下步骤:
S1.根据AM空间参数、池化窗口预设参数,获取输入分块特征图每次传入AM空间的传输分块参数;
S2.基于DMA操作将分块特征图子块加载至AM空间;
S3.根据预设规则将单个分块特征图子块进行分区;
S4.根据预设顺序依次对分块特征图子块的每个区域进行池化处理;
S5.基于DMA操作将处理后获得的输出分块特征图子块从AM空间中到导出至存储器中;
S6.重复步骤S1-S5直至获取所有分块特征图子块的池化结果。
需要说明的是,AM(Array Memory),是指阵列存储器,属于向量处理器上的片上存储空间,可以支持M路VPEs的数据同时存取,速度较快。
DMA(Direct Memory Access)是指直接存储访问,由向量处理器上的标量处理单元SPU来进行初始化,负责标量存储器SM与片外DDR、阵列存储器AM与片外DDR之间的数据传输。
本技术方案用广泛使用的分块特征图作为池化的输入输出,不用再对特征图进行重排,极大地减少了数据预处理的时间,提升平均值池化的效率;而且本技术方案通过分区后,对分块特征图子块每个区域分别进行池化处理,从而支撑非方形特征图、非方形移动步长、非方形池化窗口;同时,分区的预设规则是根据填充情况制定的。因此,本技术方案既能支持非方形特征图、非方形移动步长、非方形池化窗口,又能支持特征图填充,无需对特征图重排,可以显著提高池化处理效率。
优选地,AM空间参数具体为AM空间大小;
池化窗口预设参数具体为池化窗口高度、宽度、水平移动步长和垂直移动步长;
输入分块特征图每次传入AM空间的传输分块参数具体为输入分块特征图传输子块的高度和宽度。
实际运用过程中,采用广泛使用的分块特征图作为池化的输入输出,输入数据布局为I[N][Cdl][Hi][Wi][L],池化输出结果也为[N][Cdl][Ho][Wo][L],其中N表示小批量大小,Hi和Wi表示池化输入分块特征图的高度和宽度,Ho和Wo表示池化输出分块特征图的高度和宽度,L表示向量处理器向量单元并行处理的数据宽度,Cdl表示特征图的通道数上的分块数,特征图的通道数为Cdl×L。
优选地,单个分块特征图子块具体为输入分块特征图传输子块的高度、输入分块特征图传输子块的宽度与向量处理器向量单元并行处理的数据宽度的乘积大小的输入特征图元素。
实际运用过程中,根据AM空间的大小、池化窗口高度HP和宽度WP、水平Sw和垂直Sh移动步长,计算输入分块特征图的高度和宽度上的传输分块参数Hib和Wib,基于DMA操作将分块特征图子块数据Hib×Wib×L,加载到AM空间。
优选地,步骤S3具体为:
对单张分块特征图按照填充情况分为上、中、下、左、右共五个区;
步骤S4中预设顺序为上、下、左、右、中。
请参照图2,实际运用过程中,对单张特征图按照填充(Padding)情况分为上(Top)、下(Bottom)、左(Left)、右(Right)以及中(Middle)等5个区,对已经导入到AM空间的分块特征图子块,按照其覆盖的区依次进行处理。按照上(Top)、下(Bottom)、左(Left)、右(Right)以及中(Middle)的顺序分别进行处理。上(Top)、下(Bottom)、左(Left)以及右(Right)的填充(Padding)大小分别为Ptop、Pbottom、Pleft以及Pright。图2中,黑色实线所围成的区域表示原始特征图,灰色虚线表示填充后的情况,灰色实线表示分区情况。
请参照图3,优选地,步骤S4具体包括:
A1.获取当前所在区的池化窗口非填充向量个数;
A2.初始化向量寄存器V0与i=0;
A3.从当前池化窗口中加载第i个L长的数据到向量寄存器V1中,其中L具体为向量处理器单元并行处理的数据宽度;
A4.根据池化模式选取预设计算规则,获取池化结果,并将池化结果存储在向量寄存器V0中;
A5.递增i,若i<非填充向量个数则返回步骤A3;
A6.根据池化模式处理向量寄存器V0中的每个元素,并将处理结果存储在向量寄存器V0中;
A7.存储向量寄存器V0至AM空间中。
优选地,步骤A1还包括:若当前所在区为上区或下区,则获取第一个池化窗口的非填充向量个数与最后一个池化窗口的非填充向量个数。
实际运用过程中,对于步骤A1获取当前所在区的池化窗口非填充向量个数具体的实施操作为:
上(Top)区处理
对于需要上部填充(Top padding)的池化窗口均划分为Top区;
先进行Top区第一个池化窗口的处理,其不仅需要Top padding,还需要左边填充(Left padding),采用向量加载第一个池化窗口中所有非填充的元素,并根据池化模式的不同选取不同的预设计算规则进行计算,共计计算(Hp-Ptop)×(Wp-Pleft)次,将该计算结果根据池化模式的不同选取不同的预设计算规则进行处理得到池化结果。
根据水平移动步长Sw,移动到下一个池化窗口位置;
采用向量加载当前池化窗口中所有非填充的元素,并根据池化模式的不同选取不同的预设计算规则进行计算,共计计算(Hp-Ptop)×Wp次,将该计算结果根据池化模式的不同选取不同的预设计算规则进行处理得到池化结果。
重复移动与计算步骤,直至完成只需Top padding的所有池化窗口的处理;
进行Top区最后一个池化窗口的处理,其不仅需要Top padding,还需要右边填充(Right padding),采用向量加载Top区最后一个池化窗口中所有非填充的元素,并根据池化模式的不同选取不同的预设计算规则进行计算,共计计算(HP-Ptop)×(WP-Pright)次,将该计算结果根据池化模式的不同选取不同的预设计算规则进行处理得到池化结果。
下(Bottom)区处理
对于需要下部填充(Bottom padding)的池化窗口均划分为Bottom区;
先进行Bottom区第一个池化窗口的处理,其不仅需要Bottom padding,还需要Left padding,采用向量加载第一个池化窗口中所有非填充的元素,并根据池化模式的不同选取不同的预设计算规则进行计算,共计计算(HP-Pbottom)×(WP-Pleft)次,将该计算结果根据池化模式的不同选取不同的预设计算规则进行处理得到池化结果。
根据水平移动步长Sw,移动到下一个池化窗口位置;
采用向量加载当前池化窗口中所有非填充的元素,并根据池化模式的不同选取不同的预设计算规则进行计算,共计计算(HP-Pbottom)×Wp次,将该计算数据根据池化模式的不同选取不同的预设计算规则进行处理得到池化结果。
重复移动与计算步骤,直至完成只需Bottom padding的所有池化窗口的处理;
进行Bottom区最后一个池化窗口的处理,其不仅需要Bottom padding,还需要Right padding,采用向量加载Bottom区最后一个池化窗口中所有非填充的元素,并根据池化模式的不同选取不同的预设计算规则进行计算,共计计算(HP-Pbottom)×(WP-Pright)次,将该计算结果根据池化模式的不同选取不同的预设计算规则进行处理得到池化结果。
左(Left)区处理
对于需要左部填充(Left padding)并且只需Left padding的池化窗口均划分为Left区;
采用向量加载当前池化窗口中所有非填充的元素,并根据池化模式的不同选取不同的预设计算规则进行计算,共计计算HP×(WP-Pleft)次,将该计算结果根据池化模式的不同选取不同的预设计算规则进行处理得到池化结果。
根据垂直移动步长Sh,移动到下一个池化窗口位置;
重复移动与计算步骤,直至完成只需Left padding的所有池化窗口的处理。
右(Right)区处理
对于需要右部填充(Right padding)并且只需Right padding的池化窗口均划分为Right区;
采用向量加载当前池化窗口中所有非填充的元素,并根据池化模式的不同选取不同的预设计算规则进行计算,共计计算HP×(WP-Pright)次,将该计算结果根据池化模式的不同选取不同的预设计算规则进行处理得到池化结果。
根据垂直移动步长Sh,移动到下一个池化窗口位置;
重复计算与移动步骤,直至完成只需Right padding的所有池化窗口的处理;
中(Middle)区处理
对于不需要任何填充(padding)的池化窗口均划分为Middle区;
采用向量加载当前池化窗口中所有的元素,并根据池化模式的不同选取不同的预设计算规则进行计算,共计计算HP×WP次,将该计算结果根据池化模式的不同选取不同的预设计算规则进行处理得到池化结果。
根据水平移动步长Sw,移动到下一个池化窗口位置;
重复计算与移动步骤,直至完成一行所有池化窗口的处理;
根据垂直移动步长Sh,移动到下一个池化窗口位置;
重复计算与移动步骤,直到完成Middle区所有行的所有池化窗口的处理。
优选地,池化模式具体为:平均值池化与最大值池化;
步骤A4中根据池化模式选取预设计算规则,获取池化结果具体为:
若池化模式为平均值池化,则获取向量寄存器V0与向量寄存器V1之和;
若池化模式为最大值池化,则获取向量寄存器V0与向量寄存器V1中分别对应的元素最大值。
实际运用过程中,在步骤A4中,根据池化模式的不同选取不同的预设计算规则,若是平均值池化,则求v0+v1;若是最大池化,则求v0和v1中对应元素的最大值max(v0,v1)。
优选地,步骤A6中根据池化模式,处理向量寄存器V0中的每个元素具体为:若池化模式为平均值池化,则获取向量寄存器V0中的每个元素与池化窗口宽度、高度的乘积之间的商值;
若池化模式为最大值池化,则跳过处理步骤。
实际运用过程中,在对当前所在区根据池化模式的不同选取不同的预设计算规则进行计算后,将该计算结果根据池化模式的不同选取不同的预设计算规则进行处理得到池化结果具体为:若池化模式为平均值池化,则将累加结果与1/(Hp×Wp)相乘,得到处理后的池化结果;若池化模式为最大值池化,则跳过处理向量寄存器V0中的每个元素的步骤。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令及相关的硬件来完成,前述的程序指令可以存储于计算机可读取存储介质中,该程序指令在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种面向向量处理器的池化向量化实现方法进行了详细介绍。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种面向向量处理器的池化向量化实现方法,其特征在于,包括如下步骤:
S1.根据AM空间参数、池化窗口预设参数,获取输入分块特征图每次传入AM空间的传输分块参数;
S2.基于DMA操作将分块特征图子块加载至所述AM空间;
S3.根据预设规则将单个所述分块特征图子块进行分区;
S4.根据预设顺序依次对分块特征图子块的每个区域进行池化处理;
S5.基于DMA操作将处理后获得的输出分块特征图子块从所述AM空间中导出至存储器中;
S6.重复步骤S1-S5直至获取所有分块特征图子块的池化结果。
2.如权利要求1所述的面向向量处理器的池化向量化实现方法,其特征在于,所述AM空间参数具体为AM空间大小;
所述池化窗口预设参数具体为池化窗口高度、宽度、水平移动步长和垂直移动步长;
所述输入分块特征图每次传入AM空间的传输分块参数具体为所述输入分块特征图传输子块的高度和宽度。
3.如权利要求2所述的面向向量处理器的池化向量化实现方法,其特征在于,单个所述分块特征图子块具体为所述输入分块特征图传输子块的高度、所述输入分块特征图传输子块的宽度与向量处理器向量单元并行处理的数据宽度的乘积大小的输入特征图元素。
4.如权利要求3所述的面向向量处理器的池化向量化实现方法,其特征在于,所述步骤S3具体为:
对单张所述分块特征图按照填充情况分为上、中、下、左、右共五个区;
步骤S4中预设顺序为上、下、左、右、中。
5.如权利要求4所述的面向向量处理器的池化向量化实现方法,其特征在于,所述步骤S4具体包括:
A1.获取当前所在区的池化窗口非填充向量个数;
A2.初始化向量寄存器V0与i=0;
A3.从当前池化窗口中加载第i个L长的数据到向量寄存器V1中,其中L具体为向量处理器单元并行处理的数据宽度;
A4.根据池化模式选取预设计算规则,获取池化结果,并将池化结果存储在所述向量寄存器V0中;
A5.递增i,若i<非填充向量个数则返回步骤A3;
A6.根据所述池化模式处理所述向量寄存器V0中的每个元素,并将处理结果存储在所述向量寄存器V0中;
A7.存储所述向量寄存器V0至所述AM空间中。
6.如权利要求5所述的面向向量处理器的池化向量化实现方法,其特征在于,所述步骤A1还包括:若所述当前所在区为上区或下区,则获取第一个池化窗口的非填充向量个数与最后一个池化窗口的非填充向量个数。
7.如权利要求6所述的面向向量处理器的池化向量化实现方法,其特征在于,所述池化模式具体为:平均值池化与最大值池化;
所述步骤A4中根据池化模式选取预设计算规则,获取池化结果具体为:
若所述池化模式为平均值池化,则获取所述向量寄存器V0与所述向量寄存器V1之和;
若所述池化模式为最大值池化,则获取所述向量寄存器V0与所述向量寄存器V1中分别对应的元素最大值。
8.如权利要求7所述的面向向量处理器的池化向量化实现方法,其特征在于,所述步骤A6中根据所述池化模式,处理所述向量寄存器V0中的每个元素具体为:若所述池化模式为平均值池化,则获取所述向量寄存器V0中的每个元素与所述池化窗口宽度、高度的乘积之间的商值;
若所述池化模式为最大值池化,则跳过处理步骤。
CN202111178180.9A 2021-10-09 2021-10-09 一种面向向量处理器的池化向量化实现方法 Active CN113806261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111178180.9A CN113806261B (zh) 2021-10-09 2021-10-09 一种面向向量处理器的池化向量化实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111178180.9A CN113806261B (zh) 2021-10-09 2021-10-09 一种面向向量处理器的池化向量化实现方法

Publications (2)

Publication Number Publication Date
CN113806261A true CN113806261A (zh) 2021-12-17
CN113806261B CN113806261B (zh) 2023-06-20

Family

ID=78897516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111178180.9A Active CN113806261B (zh) 2021-10-09 2021-10-09 一种面向向量处理器的池化向量化实现方法

Country Status (1)

Country Link
CN (1) CN113806261B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114265801A (zh) * 2021-12-21 2022-04-01 中国科学院深圳先进技术研究院 一种通用、可配置的高能效池化计算多行输出方法
CN115114575A (zh) * 2022-08-30 2022-09-27 中国人民解放军国防科技大学 面向向量处理器的图像到矩阵行转换方法、装置及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086244A (zh) * 2018-07-11 2018-12-25 中国人民解放军国防科技大学 一种基于向量处理器的矩阵卷积向量化实现方法
CN112149694A (zh) * 2020-08-28 2020-12-29 特斯联科技集团有限公司 一种基于卷积神经网络池化模块的图像处理方法、系统、存储介质及终端

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086244A (zh) * 2018-07-11 2018-12-25 中国人民解放军国防科技大学 一种基于向量处理器的矩阵卷积向量化实现方法
CN112149694A (zh) * 2020-08-28 2020-12-29 特斯联科技集团有限公司 一种基于卷积神经网络池化模块的图像处理方法、系统、存储介质及终端

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114265801A (zh) * 2021-12-21 2022-04-01 中国科学院深圳先进技术研究院 一种通用、可配置的高能效池化计算多行输出方法
CN114265801B (zh) * 2021-12-21 2023-07-25 中国科学院深圳先进技术研究院 一种通用、可配置的高能效池化计算多行输出方法
CN115114575A (zh) * 2022-08-30 2022-09-27 中国人民解放军国防科技大学 面向向量处理器的图像到矩阵行转换方法、装置及介质
CN115114575B (zh) * 2022-08-30 2023-01-31 中国人民解放军国防科技大学 面向向量处理器的图像到矩阵行转换方法、装置及介质

Also Published As

Publication number Publication date
CN113806261B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
US11580377B2 (en) Method and device for optimizing neural network
CN107844828B (zh) 神经网络中的卷积计算方法和电子设备
CN108108811B (zh) 神经网络中的卷积计算方法和电子设备
CN106875011B (zh) 二值权重卷积神经网络加速器的硬件架构及其计算流程
CN111242289B (zh) 一种规模可扩展的卷积神经网络加速系统与方法
CN113806261A (zh) 一种面向向量处理器的池化向量化实现方法
KR102523263B1 (ko) 하드웨어 기반 풀링을 위한 시스템 및 방법
KR101298393B1 (ko) 그래픽 처리 유닛 상에서 콘볼루션 신경망을 트레이닝하는방법
CN108765247A (zh) 图像处理方法、装置、存储介质及设备
CN109791628B (zh) 神经网络模型分块压缩方法、训练方法、计算装置及系统
CN107977704A (zh) 权重数据存储方法和基于该方法的神经网络处理器
CN108629406B (zh) 用于卷积神经网络的运算装置
CN107578095A (zh) 神经网络计算装置及包含该计算装置的处理器
CN109885407B (zh) 数据处理方法和装置、电子设备、存储介质
CN107944545A (zh) 应用于神经网络的计算方法及计算装置
CN111368988B (zh) 一种利用稀疏性的深度学习训练硬件加速器
CN103942253B (zh) 一种负载均衡的空间数据处理系统
CN112200300A (zh) 卷积神经网络运算方法及装置
Chen et al. Tight compression: Compressing CNN model tightly through unstructured pruning and simulated annealing based permutation
CN110399591A (zh) 基于卷积神经网络的数据处理方法和装置
CN112633470A (zh) 优化神经网络卷积残差结构的方法、系统、设备及介质
CN110009644B (zh) 一种特征图行像素分段的方法和装置
CN114898171A (zh) 一种适用于嵌入式平台的实时目标检测方法
CN115859011B (zh) 矩阵运算方法、装置及单元、电子设备
CN108415881A (zh) 卷积神经网络的运算装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant