CN109389215B - 一种深度学习网络的网络结构确定方法及装置 - Google Patents
一种深度学习网络的网络结构确定方法及装置 Download PDFInfo
- Publication number
- CN109389215B CN109389215B CN201710656729.8A CN201710656729A CN109389215B CN 109389215 B CN109389215 B CN 109389215B CN 201710656729 A CN201710656729 A CN 201710656729A CN 109389215 B CN109389215 B CN 109389215B
- Authority
- CN
- China
- Prior art keywords
- bit width
- network layer
- input
- register
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明实施例提供了一种深度学习网络的网络结构确定方法及装置,其中,该深度学习网络的网络结构确定方法包括:针对深度学习网络中的指定网络层,获取处理器中寄存器的寄存器位宽,以及输入量中元素的元素位宽;根据寄存器位宽、元素位宽,以及寄存器位宽、元素位宽与网络层的规格参数所满足的预设关系式,确定指定网络层的规格参数;根据指定网络层的规格参数,确定深度学习网络的网络结构。通过本方案可以提高部署后的深度学习网络的运行效率。
Description
技术领域
本发明涉及机器学习技术领域,特别是涉及一种深度学习网络的网络结构确定方法及装置。
背景技术
近年来,随着互联网与计算机技术的迅猛发展,深度学习作为机器学习研究中的一个新领域,其动机在于建立、模拟人脑进行分析学习的神经网络,通过模仿人脑的机制来解析数据,深度学习网络能够用更多的数据或是更好的算法来提高学习算法的结果准确度,在处理大数据集上具有较好的运算效果。因此,深度学习算法已经成为当前学术界和工业界的研究热点。但是,由于深度学习特别是卷积深度学习网络中网络训练和部署都需要巨大的计算量,使得网络训练和部署的过程复杂、耗时大。
针对上述问题,相关的深度学习网络中,提出了通过优化输入数据或优化训练流程来减少网络训练和部署的计算量,以提高网络训练和部署效率的方法,以及通过优化多个处理器上的任务分配来提高网络的训练和部署效率的方法。但是,每个网络层的规格参数,即每个网络层的滑窗尺寸、每个网络层的输入通道数都是根据技术人员的经验进行设计的,导致深度学习网络的网络结构适应性较差,从而使得部署后的深度学习网络的运行效率仍然较低。
发明内容
本发明实施例的目的在于提供一种深度学习网络的网络结构确定方法及装置,以提高部署后的深度学习网络的运行效率。具体技术方案如下:
第一方面,本发明实施例提供了一种深度学习网络的网络结构确定方法,所述方法包括:
针对深度学习网络中的指定网络层,获取处理器中寄存器的寄存器位宽,以及所述输入量中元素的元素位宽,其中,所述处理器用于运行深度学习网络,所述寄存器用于存储所述指定网络层待运算的输入量;
根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的规格参数,其中,所述预设关系式为寄存器位宽、元素位宽与网络层的规格参数所满足的关系式;
根据所述指定网络层的规格参数,确定所述深度学习网络的网络结构。
第二方面,本发明实施例提供了一种深度学习网络的网络结构确定装置,所述装置包括:
获取模块,用于针对深度学习网络中的指定网络层,获取处理器中寄存器的寄存器位宽,以及所述输入量中元素的元素位宽,其中,所述处理器用于运行深度学习网络,所述寄存器用于存储所述指定网络层待运算的输入量;
规格参数确定模块,用于根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的规格参数,其中,所述预设关系式为寄存器位宽、元素位宽与网络层的规格参数所满足的关系式;
网络结构确定模块,用于根据所述指定网络层的规格参数,确定所述深度学习网络的网络结构。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现第一方面所述的方法步骤,所述处理器中包括寄存器,其中,所述寄存器,用于存储待运算的输入量。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法步骤。
本发明实施例提供的一种深度学习网络的网络结构确定方法及装置,针对深度学习网络中的指定网络层,通过对用于存储该指定网络层的待运算的输入量的寄存器的寄存器位宽、输入量中元素的元素位宽的获取,根据寄存器位宽和元素位宽设计各网络层的规格参数,使得寄存器位宽、元素位宽及规格参数满足预设关系式,也就是说,深度学习网络中网络层的规格参数的设计,与存储该网络层的待运算的输入量的寄存器的寄存器位宽、输入量中元素的元素位宽相关,进而充分利用寄存器的存储空间,降低寄存器的浪费率,使得设计的深度学习网络的网络结构具有较高的适应性,从而使部署后的深度学习网络的运行效率得以提高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的深度学习网络的网络结构确定方法的一种流程示意图;
图2为本发明实施例的网络层的输入量的维度的示意图;
图3为本发明实施例的深度学习网络的网络结构确定方法的另一种流程示意图;
图4为本发明实施例的卷积过程示意图;
图5为本发明实施例的元素读取过程示意图;
图6为本发明实施例的深度学习网络的网络结构确定装置的一种结构示意图;
图7为本发明实施例的电子设备的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提高部署后的深度学习网络的运行效率,本发明实施例提供了一种深度学习网络的网络结构确定方法及装置。
下面首先对本发明实施例所提供的一种深度学习网络的网络结构确定方法进行介绍。
本发明实施例所提供的一种深度学习网络的网络结构确定方法的执行主体可以为一种计算机电子设备,该计算机电子设备用于实现图像处理、目标识别等功能,计算机电子设备中至少包括可以完成逻辑处理的芯片,例如DSP(Digital Signal Processor,数字信号处理器)、ARM(Advanced Reduced Instruction Set Computer Machines,精简指令集计算机微处理器)或者FPGA(Field-Programmable Gate Array,现场可编程门阵列)等。实现本发明实施例所提供的一种深度学习网络的网络结构确定方法的方式可以为设置于执行主体中的软件、硬件电路和逻辑电路中的至少一种。
如图1所示,本发明实施例所提供的一种深度学习网络的网络结构确定方法,可以包括如下步骤:
S101,针对深度学习网络中的指定网络层,获取处理器中寄存器的寄存器位宽,以及输入量中元素的元素位宽。
其中,处理器用于运行深度学习网络,寄存器用于存储指定网络层待运算的输入量,指定网络层为深度学习网络中需要确定规格参数的某一网络层。执行本方法实施例的计算机电子设备中的处理器内部,包括至少一个寄存器,在进行深度学习网络中各网络层的运算时需要将输入量中的元素从外部存储单元读取到寄存器中,用以对待运算的输入量进行存储,针对不同的网络层,可以选择同一个寄存器存储待运算的输入量,也可以选择不同的寄存器存储的待运算的输入量。寄存器位宽为寄存器的实际存储容量,常见的寄存器位宽有128比特、32比特等,当从外部存储单元读取元素时,最好一次读取和寄存器位宽相等的数据量,并且在有限的次数内读取完输入量中的所有元素,且为了减少寄存器的浪费、提高对寄存器的利用率,可以设定网络层的规格参数、输入量中元素的元素位宽和寄存器位宽之间满足一关系式,其中,网络层的规格参数可以为网络层的滑窗参数,也可以为网络层的输入通道数,还可以为网络层的输入量的个数。如果网络层为第一层,一般情况下,将第一层的输入通道数按照RGB三种颜色空间划分为3通道,因此针对第一层的规格参数,往往是指滑窗参数或者输入量的个数。当然,对于第一层的输入通道数可以不限于3通道,可以根据需求及预设规则划分。
网络层的输入量的个数及输入通道数是网络层的输入量的维度中的参数,网络层的输入量的维度如图2所示,包括输入量的个数N、输入量的特征向量的宽度W、输入量的特征向量的高度H,以及输入通道数C,其中,输入量可以为输入图像或者特征映射Featuremap,该Feature map为上一网络层的输出量。在深度学习网络的网络层中,网络层的操作属于滑窗操作,例如用于提取特征的3D卷积操作。滑窗参数就是参与滑窗操作的窗口的宽度大小、高度大小或者尺寸大小,例如3D卷积操作中卷积核的宽或高或宽高的乘积,再例如池化Pooling操作中卷积核的宽或高或宽高的乘积。滑窗参数与元素的存储顺序相关,如果存储顺序为先存储宽度方向,则得到的滑窗参数为窗口的宽度大小,高度大小不作限定;如果存储顺序为先存储高度方向,则得到的滑窗参数为窗口的高度大小,宽度大小不作限定。
S102,根据寄存器位宽、元素位宽,以及预设关系式,确定指定网络层的规格参数。
其中,预设关系式为寄存器位宽、元素位宽与网络层的规格参数所满足的关系式。当从外部存储单元读取元素时,希望能够一次读取和寄存器位宽相等的数据量,并且为了减少寄存器的浪费、提高对寄存器的利用率,可以预先设置寄存器位宽、元素位宽与网络层的规格参数之间满足一关系式,例如,为了达到上述目的,可以设置元素位宽与规格参数的乘积等于寄存器位宽,或者,还可以设置元素位宽与规格参数的乘积为寄存器位宽的正整数倍,等等。由于网络层的规格参数可以为网络层的滑窗参数,也可以为网络层的输入通道数,还可以为网络层的输入量的个数,因此,根据预设关系式,可以确定网络层的滑窗参数或者输入通道数或者输入量的个数。在获取到寄存器位宽、元素位宽后,将寄存器位宽的数值、元素位宽的数值带入到预设关系式中,即可得到指定网络层的规格参数。
S103,根据指定网络层的规格参数,确定深度学习网络的网络结构。
根据S101及S102的方法步骤,可以得到每个网络层的规格参数,并且由于网络层的输入通道数为上一网络层的输出通道数,在计算得到本网络层的输入通道数后,对应调整上一网络层的输出通道数,进而进一步对上一网络层的滑窗参数或者输入通道数或者输入量的个数进行调整,因此,通过不断的迭代运算,可以确定深度学习网络的网络结构。在确定深度学习网络的网络结构后,对具有该网络结构的深度学习网络进行训练,通过训练得到深度学习网络中满足目标识别、语音识别等要求的各网络层的具体参数,可以将训练后的深度学习网络部署到计算机电子设备上,以进行图像处理、目标识别、语音识别的操作,其中,可以采用前向传播方法、反向传播方法等任一种训练方法对深度学习网络进行训练,这里不再一一列举。
应用本实施例,针对深度学习网络中的指定网络层,通过对用于存储该指定网络层的待运算的输入量的寄存器的寄存器位宽、输入量中元素的元素位宽的获取,根据寄存器位宽和元素位宽设计各网络层的规格参数,使得寄存器位宽、元素位宽及规格参数满足预设关系式,也就是说,深度学习网络中网络层的规格参数的设计,与存储该网络层的待运算的输入量的寄存器的寄存器位宽、输入量中元素的元素位宽相关,进而充分利用寄存器的存储空间,降低寄存器的浪费率,使得设计的深度学习网络的网络结构具有较高的适应性,从而使部署后的深度学习网络的运行效率得以提高。
基于图1所示实施例,如图3所示,为本发明实施例所提供的另一种深度学习网络的网络结构确定方法,该方法可以包括如下步骤:
S301,针对深度学习网络中的指定网络层,获取处理器中寄存器的寄存器位宽、输入量中元素的元素位宽,以及寄存器存储输入量中各元素的存储顺序。
其中,存储顺序为:先存储一个输入量中一个输入通道的各元素的第一顺序,或者,先存储一个输入量中一个位置的各通道的元素的第二顺序,或者,先存储各输入量中相同输入通道相同位置的第三顺序。寄存器存储输入量中元素的存储顺序可以是先按照一个输入量中一个输入通道的各元素进行存储,即如果指定网络层的一个输入量为8×8×128的Featuremap,那么可以先按序存储一个输入量的第1个通道的64个元素、再按序存储第2个通道的64个元素,以此类推,直至按序存储该输入量的最后一个通道的64个元素,依次存储、运算完所有输入量。按照每个通道的元素的存储顺序的不同,还可以分为NCHW顺序和NCWH顺序,在存储每个通道的运算时,先存储宽度方向的元素的存储方式称为NCHW顺序,先存储高度方向的元素的存储方式称为NCWH顺序;寄存器存储输入量中元素的存储顺序还可以是先按照一个输入量中一个位置的各通道的元素进行存储,即如果指定网络层的输入量为8×8×128的Featuremap,那么可以先按序存储一个输入量的第1行第1列的128个通道的元素、再按序存储第1行第2列的128个通道的元素,以此类推,直至按序存储该输入量的最后一行最后一列的128个通道的元素,依次存储、运算完所有输入量。按照每个通道的元素的存储顺序的不同,还可以分为NHWC顺序和NWHC顺序,元素按宽度方向存储称为NHWC顺序,按高度方向存储称为NWHC顺序;寄存器存储输入量中元素的存储顺序还可以是先按照各输入量中相同输入通道相同位置的元素进行存储,即如果指定网络层的输入量的个数为5个,那么可以先按序存储第1个通道的第1行第1列的所有5个输入量的元素、再按序存储第1个通道的第1行第2列的所有5个输入量的元素,以此类推,直至按序存储最后一个通道的最后一行最后一列的5个输入量的元素,依次存储、运算完所有输入量。
S302,根据存储顺序,确定与存储顺序对应的指定网络层的规格参数为网络层的滑窗参数,或者网络层的输入通道数,或者网络层的输入量的个数。
寄存器存储输入量中元素的存储顺序的不同,决定了规格参数的不同,并且寄存器存储不同网络层的输入量中元素的存储顺序可以是相同的,也可以是不同的,例如,寄存器存储第一层输入量中元素的存储顺序可以是第一顺序,寄存器存储第二层输入量中元素的存储顺序可以是第二顺序,等等。也可以是,寄存器存储所有网络层输入量中元素的存储顺序均为第一顺序或者第二顺序或者第三顺序。指定网络层的规格参数可以为指定网络层的滑窗参数,也可以为指定网络层的输入通道数,还可以为指定网络层的输入量的个数。
具体的,在存储顺序为第一顺序时,确定指定网络层的滑窗参数;在存储顺序为第二顺序时,确定指定网络层的输入通道数;在存储顺序为第三顺序时,确定指定网络层的输入量的个数。
如果寄存器存储指定网络层输入量中元素的存储顺序为第一顺序,即先存储一个输入量中一个输入通道的各元素,对输入量进行运算就是在对局部元素进行加权求和得到深层次的特征,例如图4所示,如果输入量为5个5×5×128的Feature map,对每一个输入通道的5×5的元素做3×3的窗口的卷积运算过程,每个元素都要被3×3的窗口做乘累加操作,最终得到的卷积结果大小为3×3的特征映射。实际每次在从外部存储单元提取元素时,是按照滑窗参数进行提取的,例如滑窗尺寸为3×3时,期望一次提取的元素为3×3个,如果输入量中元素的元素位宽为16比特,那么,一次提取的数据量即为3×3×16比特。但是,寄存器位宽往往是固定的,例如寄存器位宽为32比特,而输入量中元素的元素位宽为16比特,如图5所示,先读取两个元素f0和f1,将f0和f1存入寄存器中,两个16比特的元素刚好填满了一个32比特的寄存器,在计算完f0、f1分别与窗口中元素的乘积运算后,需要读取元素f2和f3存储至寄存器中,而f2和f3在内存中并非连续的,则需要增加额外的判断逻辑,对f2和f3的元素关系进行判断,影响运算效率。因此,可以根据寄存器位宽及输入量中元素的元素位宽,通过对滑窗参数进行调整,其中,滑窗参数可以为窗口的宽度大小或者高度大小或者滑窗尺寸大小,使得每次提取的元素都是连续的,从而提高运算效率,例如针对上述实例,可以将滑窗尺寸调整为x×y,x为窗口的宽度,y为窗口的高度,具体的可以调整为a×y或者x×b,其中a、b均为2的倍数,x、y为任一正整数。从而确定,如果存储顺序为第一顺序,则网络层的规格参数为网络层的滑窗参数。
如果寄存器存储指定网络层输入量中元素的存储顺序为第二顺序,即先存储一个输入量中一个位置各通道的元素,如果输入量为5×5×125的Feature map,对每一个位置的125个输入通道的元素,与3×3的窗口中的元素做乘法运算,在一个输入通道的元素做完乘法运算后,再依次进行其他输入通道的元素的乘法运算,最后对得到的所有的乘法结果做累加的处理,得到该网络层的输出结果,即特征映射。实际每次在从外部存储单元提取元素时,是根据寄存器位宽提取对应数目的输入通道的元素。例如,寄存器位宽为32比特,而输入量中元素的元素位宽为16比特,则先读取两个输入通道的元素,将元素存入寄存器中,两个16比特的元素刚好填满了一个32比特的寄存器,在计算完该两个元素分别与窗口中元素的乘积运算后,再读取后两个输入通道的元素,由于输入通道数为125,则对于一个输入通道而言,必然会存在剩一个元素单独进行提取的现象,影响寄存器空间的利用率。期望在对一个输入通道的元素进行提取和存储时,可以完全利用寄存器的空间,因此,可以根据寄存器位宽及输入量中元素的元素位宽,通过对输入通道数进行调整,从而提高寄存器空间的利用率,例如针对上述实例,可以将输入通道数调整为126、128等2的偶数倍,当然如果指定网络层的输入通道数进行了调整,该指定网络层的上一层也需要对应的调整,因此,这是一个不断循环调整的过程。从而确定,如果存储顺序为第二顺序,则网络层的规格参数为网络层的输入通道数。
如果寄存器存储指定网络层输入量中元素的存储顺序为第三顺序,即先存储各输入量中相同通道相同位置的元素,每次在从外部存储单元提取元素时,是根据寄存器位宽提取对应数目的各输入量的元素。例如,寄存器位宽为32比特,而输入量中元素的元素位宽为16比特,则先读取两个输入量相同输入通道相同位置的元素,将元素存入寄存器中,两个16比特的元素刚好填满了一个32比特的寄存器,在计算完该两个元素分别与窗口中元素的乘积运算后,再读取后两个输入量中相同输入通道相同位置的元素,假设输入量的个数为5,则必然会存在剩一个输入量的元素单独进行提取的现象,影响寄存器空间的利用率。因此,可以根据寄存器位宽及输入量中元素的元素位宽,通过对输入量的个数进行调整,从而提高寄存器空间的利用率,例如针对上述实例,可以将输入量的个数调整为2、4、6等2的整数倍。从而确定,如果存储顺序为第三顺序,则网络层的规格参数为网络层的输入量的个数。
S303,根据寄存器位宽、元素位宽,以及预设关系式,确定指定网络层的滑窗参数或输入通道数或输入量的个数。
基于上述步骤的分析,如果寄存器存储指定网络层输入量中元素的存储顺序为第一顺序,可以根据寄存器位宽及输入量中元素的元素位宽,通过对滑窗参数进行调整,使得每次提取的元素都是连续的,从而提高运算效率;如果寄存器存储指定网络层输入量中元素的存储顺序为第二顺序,可以根据寄存器位宽及输入量中元素的元素位宽,通过对输入通道数进行调整,从而提高寄存器空间的利用率;如果寄存器存储指定网络层输入量中元素的存储顺序为第三顺序,可以根据寄存器位宽及输入量中元素的元素位宽,通过对输入量的个数进行调整,从而提高寄存器空间的利用率。具体的调整,可以依据元素位宽、滑窗参数/输入通道数/输入量的个数、寄存器位宽之间的预设关系。
可选的,在指定网络层的规格参数为网络层的滑窗参数时,预设关系式为:元素位宽与网络层的滑窗参数的乘积为寄存器位宽的正整数倍;
根据寄存器位宽、元素位宽,以及元素位宽与网络层的滑窗参数的乘积为寄存器位宽的正整数倍,计算得到指定网络层的滑窗参数。
可选的,在指定网络层的规格参数为网络层的输入通道数时,预设关系式为:元素位宽与网络层的输入通道数的乘积为寄存器位宽的正整数倍;
根据寄存器位宽、元素位宽,以及元素位宽与网络层的输入通道数的乘积为寄存器位宽的正整数倍,计算得到指定网络层的输入通道数。
可选的,在指定网络层的规格参数为网络层的输入量的个数时,预设关系式为:元素位宽与网络层的输入量的个数的乘积为寄存器位宽的正整数倍;
根据寄存器位宽、元素位宽,以及元素位宽与网络层的输入量的个数的乘积为寄存器位宽的正整数倍,计算得到指定网络层的输入量的个数。
调整的原则是充分利用寄存器的存储空间,因此基于寄存器位宽、元素位宽对规格参数中滑窗参数或者输入通道数或者输入量的个数进行调整,并且在元素位宽与规格参数中滑窗参数或者输入通道数或者输入量的个数之间的乘积达到寄存器位宽的正整数倍时,保证了每次提取的元素都能够填满寄存器,从而达到充分利用寄存器的存储空间的目的,从而提高寄存器的利用率,进一步提高深度学习网络结构确定的效率,并且确定的深度学习网络具有较高的适应性,使得部署后的深度学习网络的运行效率得到了提升。
S304,根据指定网络层的滑窗参数或输入通道数或输入量的个数,确定深度学习网络的网络结构。
应用本实施例,针对深度学习网络中的指定网络层,通过对用于存储该指定网络层的待运算的输入量的寄存器的寄存器位宽、输入量中元素的元素位宽、寄存器存储输入量中元素的存储顺序的获取,根据存储顺序确定指定网络层的规格参数的类别是为滑窗参数或是输入通道数亦或是输入量的个数,再根据寄存器位宽和元素位宽设计各网络层的规格参数,使得寄存器位宽、元素位宽及规格参数满足预设关系式,也就是说,深度学习网络中网络层的规格参数的设计,与存储该网络层的待运算的输入量的寄存器的寄存器位宽、输入量中元素的元素位宽相关,进而充分利用寄存器的存储空间,降低寄存器的浪费率,使得设计的深度学习网络的网络结构具有较高的适应性,从而使部署后的深度学习网络的运行效率得以提高。
基于上述方法实施例,如图6所示,本发明实施例还提供了一种深度学习网络的网络结构确定装置,该装置可以包括:
获取模块610,用于针对深度学习网络中的指定网络层,获取处理器中寄存器的寄存器位宽,以及所述输入量中元素的元素位宽,其中,所述处理器用于运行深度学习网络,所述寄存器用于存储所述指定网络层待运算的输入量;
规格参数确定模块620,用于根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的规格参数,其中,所述预设关系式为寄存器位宽、元素位宽与网络层的规格参数所满足的关系式;
网络结构确定模块630,用于根据所述指定网络层的规格参数,确定所述深度学习网络的网络结构。
应用本实施例,针对深度学习网络中的指定网络层,通过对用于存储该指定网络层的待运算的输入量的寄存器的寄存器位宽、输入量中元素的元素位宽的获取,根据寄存器位宽和元素位宽设计各网络层的规格参数,使得寄存器位宽、元素位宽及规格参数满足预设关系式,也就是说,深度学习网络中网络层的规格参数的设计,与存储该网络层的待运算的输入量的寄存器的寄存器位宽、输入量中元素的元素位宽相关,进而充分利用寄存器的存储空间,降低寄存器的浪费率,使得设计的深度学习网络的网络结构具有较高的适应性,从而使部署后的深度学习网络的运行效率得以提高。
可选的,所述获取模块610,具体还可以用于:
获取所述寄存器存储所述输入量中各元素的存储顺序;
所述规格参数确定模块620,具体可以用于:
根据所述存储顺序,确定与所述存储顺序对应的所述指定网络层的规格参数为网络层的滑窗参数,或者网络层的输入通道数,或者网络层的输入量的个数;
根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的滑窗参数或输入通道数或输入量的个数。
可选的,所述存储顺序为:先存储一个输入量中一个输入通道的各元素的第一顺序,或者,先存储一个输入量中一个位置的各通道的元素的第二顺序,或者,先存储各输入量中相同输入通道相同位置的元素的第三顺序;
所述规格参数确定模块620,具体还可以用于:
在所述存储顺序为第一顺序时,确定所述指定网络层的滑窗参数;
在所述存储顺序为第二顺序时,确定所述指定网络层的输入通道数;
在所述存储顺序为第三顺序时,确定所述指定网络层的输入量的个数。
可选的,在所述指定网络层的规格参数为网络层的滑窗参数时,所述预设关系式为:元素位宽与网络层的滑窗参数的乘积为寄存器位宽的正整数倍;
所述规格参数确定模块620,具体还可以用于:
根据所述寄存器位宽、所述元素位宽,以及元素位宽与网络层的滑窗参数的乘积为寄存器位宽的正整数倍,计算得到所述指定网络层的滑窗参数。
可选的,在所述指定网络层的规格参数为网络层的输入通道数时,所述预设关系式为:元素位宽与网络层的输入通道数的乘积为寄存器位宽的正整数倍;
所述规格参数确定模块620,具体还可以用于:
根据所述寄存器位宽、所述元素位宽,以及元素位宽与网络层的输入通道数的乘积为寄存器位宽的正整数倍,计算得到所述指定网络层的输入通道数。
可选的,在所述指定网络层的规格参数为网络层的输入量的个数时,所述预设关系式为:元素位宽与网络层的输入量的个数的乘积为寄存器位宽的正整数倍;
所述规格参数确定模块620,具体还可以用于:
根据所述寄存器位宽、所述元素位宽,以及元素位宽与网络层的输入量的个数的乘积为寄存器位宽的正整数倍,计算得到所述指定网络层的输入量的个数。
需要说明的是,本发明实施例的深度学习网络的网络结构确定装置为应用上述深度学习网络的网络结构确定方法的装置,则上述深度学习网络的网络结构确定方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
本发明实施例还提供了一种电子设备,如图7所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,所述处理器701,所述通信接口702,所述存储器703通过所述通信总线704完成相互间的通信,
所述存储器703,用于存放计算机程序;
所述处理器701,用于执行所述存储器703上所存放的程序时,实现如下步骤:
针对深度学习网络中的指定网络层,获取处理器中寄存器的寄存器位宽,以及所述输入量中元素的元素位宽,其中,所述处理器用于运行深度学习网络,所述寄存器用于存储所述指定网络层待运算的输入量;
根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的规格参数,其中,所述预设关系式为寄存器位宽、元素位宽与网络层的规格参数所满足的关系式;
根据所述指定网络层的规格参数,确定所述深度学习网络的网络结构。
可选的,所述处理器701在实现确定所述指定网络层的规格参数的步骤之前,还可以实现如下步骤:
获取所述寄存器存储所述输入量中各元素的存储顺序;
根据所述存储顺序,确定与所述存储顺序对应的所述指定网络层的规格参数为网络层的滑窗参数,或者网络层的输入通道数,或者网络层的输入量的个数。
可选的,所述处理器701在实现根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的规格参数的步骤时,具体可以实现:
根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的滑窗参数或输入通道数或输入量的个数。
可选的,所述存储顺序为:先存储一个输入量中一个输入通道的各元素的第一顺序,或者,先存储一个输入量中一个位置的各通道的元素的第二顺序,或者,先存储各输入量中相同输入通道相同位置的元素的第三顺序;
所述处理器701在实现确定所述指定网络层的滑窗参数或输入通道数或输入量的个数的步骤时,具体可以实现:
在所述存储顺序为第一顺序时,确定所述指定网络层的滑窗参数;
在所述存储顺序为第二顺序时,确定所述指定网络层的输入通道数;
在所述存储顺序为第三顺序时,确定所述指定网络层的输入量的个数。
可选的,在所述指定网络层的规格参数为网络层的滑窗参数时,所述预设关系式为:元素位宽与网络层的滑窗参数的乘积为寄存器位宽的正整数倍;
所述处理器701在实现根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的滑窗参数的步骤时,具体可以实现:
根据所述寄存器位宽、所述元素位宽,以及元素位宽与网络层的滑窗参数的乘积为寄存器位宽的正整数倍,计算得到所述指定网络层的滑窗参数。
可选的,在所述指定网络层的规格参数为网络层的输入通道数时,所述预设关系式为:元素位宽与网络层的输入通道数的乘积为寄存器位宽的正整数倍;
所述处理器701在实现根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的输入通道数的步骤时,具体还可以实现:
根据所述寄存器位宽、所述元素位宽,以及元素位宽与网络层的输入通道数的乘积为寄存器位宽的正整数倍,计算得到所述指定网络层的输入通道数。
可选的,在所述指定网络层的规格参数为网络层的输入量的个数时,所述预设关系式为:元素位宽与网络层的输入量的个数的乘积为寄存器位宽的正整数倍;
所述处理器701在实现根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的输入量的个数的步骤时,具体还可以实现:
根据所述寄存器位宽、所述元素位宽,以及元素位宽与网络层的输入量的个数的乘积为寄存器位宽的正整数倍,计算得到所述指定网络层的输入量的个数。
上述电子设备提到的通信总线可以是PCI(Peripheral PomponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM(Random Access Memory,随机存取存储器),也可以包括NVM(Non-volatile Memory,非易失性存储器),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processor,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本实施例中,该电子设备的处理器通过读取存储器中存储的计算机程序,并通过运行该计算机程序,能够实现:针对深度学习网络中的指定网络层,通过对用于存储该指定网络层的待运算的输入量的寄存器的寄存器位宽、输入量中元素的元素位宽的获取,根据寄存器位宽和元素位宽设计各网络层的规格参数,使得寄存器位宽、元素位宽及规格参数满足预设关系式,也就是说,深度学习网络中网络层的规格参数的设计,与存储该网络层的待运算的输入量的寄存器的寄存器位宽、输入量中元素的元素位宽相关,进而充分利用寄存器的存储空间,降低寄存器的浪费率,使得设计的深度学习网络的网络结构具有较高的适应性,从而使部署后的深度学习网络的运行效率得以提高。
另外,相应于上述实施例所提供的深度学习网络的网络结构确定方法,本发明实施例提供了一种计算机可读存储介质,用于存储计算机程序,所述计算机程序被处理器执行时,实现如下步骤:
针对深度学习网络中的指定网络层,获取处理器中寄存器的寄存器位宽,以及所述输入量中元素的元素位宽,其中,所述处理器用于运行深度学习网络,所述寄存器用于存储所述指定网络层待运算的输入量;
根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的规格参数,其中,所述预设关系式为寄存器位宽、元素位宽与网络层的规格参数所满足的关系式;
根据所述指定网络层的规格参数,确定所述深度学习网络的网络结构。
可选的,所述处理器在实现确定所述指定网络层的规格参数之前,还可以实现:
获取所述寄存器存储所述输入量中各元素的存储顺序;
根据所述存储顺序,确定与所述存储顺序对应的所述指定网络层的规格参数为网络层的滑窗参数,或者网络层的输入通道数,或者网络层的输入量的个数;
所述处理器在实现根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的规格参数的步骤时,具体可以实现:
根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的滑窗参数或输入通道数或输入量的个数。
可选的,所述存储顺序为:先存储一个输入量中一个输入通道的各元素的第一顺序,或者,先存储一个输入量中一个位置的各通道的元素的第二顺序,或者,先存储各输入量中相同输入通道相同位置的元素的第三顺序;
所述处理器在实现确定所述指定网络层的滑窗参数或输入通道数或输入量的个数的步骤时,具体可以实现:
在所述存储顺序为第一顺序时,确定所述指定网络层的滑窗参数;
在所述存储顺序为第二顺序时,确定所述指定网络层的输入通道数;
在所述存储顺序为第三顺序时,确定所述指定网络层的输入量的个数。
可选的,在所述指定网络层的规格参数为网络层的滑窗参数时,所述预设关系式为:元素位宽与网络层的滑窗参数的乘积为寄存器位宽的正整数倍;
所述处理器在实现根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的滑窗参数的步骤时,具体可以实现:
根据所述寄存器位宽、所述元素位宽,以及元素位宽与网络层的滑窗参数的乘积为寄存器位宽的正整数倍,计算得到所述指定网络层的滑窗参数。
可选的,在所述指定网络层的规格参数为网络层的输入通道数时,所述预设关系式为:元素位宽与网络层的输入通道数的乘积为寄存器位宽的正整数倍;
所述处理器在实现根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的输入通道数的步骤时,具体还可以实现:
根据所述寄存器位宽、所述元素位宽,以及元素位宽与网络层的输入通道数的乘积为寄存器位宽的正整数倍,计算得到所述指定网络层的输入通道数。
可选的,在所述指定网络层的规格参数为网络层的输入量的个数时,所述预设关系式为:元素位宽与网络层的输入量的个数的乘积为寄存器位宽的正整数倍;
所述处理器在实现根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的输入量的个数的步骤时,具体还可以实现:
根据所述寄存器位宽、所述元素位宽,以及元素位宽与网络层的输入量的个数的乘积为寄存器位宽的正整数倍,计算得到所述指定网络层的输入量的个数。
本实施例中,计算机可读存储介质存储有在运行时执行本申请实施例所提供的深度学习网络的网络结构确定方法的应用程序,因此能够实现:针对深度学习网络中的指定网络层,通过对用于存储该指定网络层的待运算的输入量的寄存器的寄存器位宽、输入量中元素的元素位宽的获取,根据寄存器位宽和元素位宽设计各网络层的规格参数,使得寄存器位宽、元素位宽及规格参数满足预设关系式,也就是说,深度学习网络中网络层的规格参数的设计,与存储该网络层的待运算的输入量的寄存器的寄存器位宽、输入量中元素的元素位宽相关,进而充分利用寄存器的存储空间,降低寄存器的浪费率,使得设计的深度学习网络的网络结构具有较高的适应性,从而使部署后的深度学习网络的运行效率得以提高。
对于电子设备以及计算机可读存储介质实施例而言,由于其所涉及的方法内容基本相似于前述的方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (14)
1.一种深度学习网络的网络结构确定方法,其特征在于,所述方法包括:
针对深度学习网络中的指定网络层,获取处理器中寄存器的寄存器位宽,以及输入量中元素的元素位宽,其中,所述处理器用于运行深度学习网络,所述寄存器用于存储所述指定网络层待运算的输入量;
根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的规格参数,其中,所述预设关系式为寄存器位宽、元素位宽与网络层的规格参数所满足的关系式,所述规格参数为滑窗参数或者输入通道数或者输入量的个数;在所述规格参数为滑窗参数时,所述预设关系式为:元素位宽与滑窗参数的乘积为寄存器位宽的正整数倍;在所述规格参数为输入通道数时,所述预设关系式为:元素位宽与输入通道数的乘积为寄存器位宽的正整数倍;在所述规格参数为输入量的个数时,所述预设关系式为:元素位宽与输入量的个数的乘积为寄存器位宽的正整数倍;
根据所述指定网络层的规格参数,确定所述深度学习网络的网络结构。
2.根据权利要求1所述的方法,其特征在于,在所述确定所述指定网络层的规格参数的步骤之前,所述方法还包括:
获取所述寄存器存储所述输入量中各元素的存储顺序;
根据所述存储顺序,确定与所述存储顺序对应的所述指定网络层的规格参数为网络层的滑窗参数,或者网络层的输入通道数,或者网络层的输入量的个数;
所述根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的规格参数的步骤,包括:
根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的滑窗参数或输入通道数或输入量的个数。
3.根据权利要求2所述的方法,其特征在于,所述存储顺序为:先存储一个输入量中一个输入通道的各元素的第一顺序,或者,先存储一个输入量中一个位置的各通道的元素的第二顺序,或者,先存储各输入量中相同输入通道相同位置的元素的第三顺序;
所述确定所述指定网络层的滑窗参数或输入通道数或输入量的个数的步骤,包括:
在所述存储顺序为第一顺序时,确定所述指定网络层的滑窗参数;
在所述存储顺序为第二顺序时,确定所述指定网络层的输入通道数;
在所述存储顺序为第三顺序时,确定所述指定网络层的输入量的个数。
4.根据权利要求2或3所述的方法,其特征在于,在所述指定网络层的规格参数为网络层的滑窗参数时,所述预设关系式为:元素位宽与网络层的滑窗参数的乘积为寄存器位宽的正整数倍;
所述根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的滑窗参数的步骤,包括:
根据所述寄存器位宽、所述元素位宽,以及元素位宽与网络层的滑窗参数的乘积为寄存器位宽的正整数倍,计算得到所述指定网络层的滑窗参数。
5.根据权利要求2或3所述的方法,其特征在于,在所述指定网络层的规格参数为网络层的输入通道数时,所述预设关系式为:元素位宽与网络层的输入通道数的乘积为寄存器位宽的正整数倍;
所述根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的输入通道数的步骤,包括:
根据所述寄存器位宽、所述元素位宽,以及元素位宽与网络层的输入通道数的乘积为寄存器位宽的正整数倍,计算得到所述指定网络层的输入通道数。
6.根据权利要求2或3所述的方法,其特征在于,在所述指定网络层的规格参数为网络层的输入量的个数时,所述预设关系式为:元素位宽与网络层的输入量的个数的乘积为寄存器位宽的正整数倍;
所述根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的输入量的个数的步骤,包括:
根据所述寄存器位宽、所述元素位宽,以及元素位宽与网络层的输入量的个数的乘积为寄存器位宽的正整数倍,计算得到所述指定网络层的输入量的个数。
7.一种深度学习网络的网络结构确定装置,其特征在于,所述装置包括:
获取模块,用于针对深度学习网络中的指定网络层,获取处理器中寄存器的寄存器位宽,以及输入量中元素的元素位宽,其中,所述处理器用于运行深度学习网络,所述寄存器用于存储所述指定网络层待运算的输入量;
规格参数确定模块,用于根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的规格参数,其中,所述预设关系式为寄存器位宽、元素位宽与网络层的规格参数所满足的关系式,所述规格参数为滑窗参数或者输入通道数或者输入量的个数;在所述规格参数为滑窗参数时,所述预设关系式为:元素位宽与滑窗参数的乘积为寄存器位宽的正整数倍;在所述规格参数为输入通道数时,所述预设关系式为:元素位宽与输入通道数的乘积为寄存器位宽的正整数倍;在所述规格参数为输入量的个数时,所述预设关系式为:元素位宽与输入量的个数的乘积为寄存器位宽的正整数倍;
网络结构确定模块,用于根据所述指定网络层的规格参数,确定所述深度学习网络的网络结构。
8.根据权利要求7所述的装置,其特征在于,所述获取模块,具体还用于:
获取所述寄存器存储所述输入量中各元素的存储顺序;
所述规格参数确定模块,具体用于:
根据所述存储顺序,确定与所述存储顺序对应的所述指定网络层的规格参数为网络层的滑窗参数,或者网络层的输入通道数,或者网络层的输入量的个数;
根据所述寄存器位宽、所述元素位宽,以及预设关系式,确定所述指定网络层的滑窗参数或输入通道数或输入量的个数。
9.根据权利要求8所述的装置,其特征在于,所述存储顺序为:先存储一个输入量中一个输入通道的各元素的第一顺序,或者,先存储一个输入量中一个位置的各通道的元素的第二顺序,或者,先存储各输入量中相同输入通道相同位置的元素的第三顺序;
所述规格参数确定模块,具体还用于:
在所述存储顺序为第一顺序时,确定所述指定网络层的滑窗参数;
在所述存储顺序为第二顺序时,确定所述指定网络层的输入通道数;
在所述存储顺序为第三顺序时,确定所述指定网络层的输入量的个数。
10.根据权利要求8或9所述的装置,其特征在于,在所述指定网络层的规格参数为网络层的滑窗参数时,所述预设关系式为:元素位宽与网络层的滑窗参数的乘积为寄存器位宽的正整数倍;
所述规格参数确定模块,具体还用于:
根据所述寄存器位宽、所述元素位宽,以及元素位宽与网络层的滑窗参数的乘积为寄存器位宽的正整数倍,计算得到所述指定网络层的滑窗参数。
11.根据权利要求8或9所述的装置,其特征在于,在所述指定网络层的规格参数为网络层的输入通道数时,所述预设关系式为:元素位宽与网络层的输入通道数的乘积为寄存器位宽的正整数倍;
所述规格参数确定模块,具体还用于:
根据所述寄存器位宽、所述元素位宽,以及元素位宽与网络层的输入通道数的乘积为寄存器位宽的正整数倍,计算得到所述指定网络层的输入通道数。
12.根据权利要求8或9所述的装置,其特征在于,在所述指定网络层的规格参数为网络层的输入量的个数时,所述预设关系式为:元素位宽与网络层的输入量的个数的乘积为寄存器位宽的正整数倍;
所述规格参数确定模块,具体还用于:
根据所述寄存器位宽、所述元素位宽,以及元素位宽与网络层的输入量的个数的乘积为寄存器位宽的正整数倍,计算得到所述指定网络层的输入量的个数。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤,所述处理器中包括寄存器,其中,所述寄存器,用于存储待运算的输入量。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710656729.8A CN109389215B (zh) | 2017-08-03 | 2017-08-03 | 一种深度学习网络的网络结构确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710656729.8A CN109389215B (zh) | 2017-08-03 | 2017-08-03 | 一种深度学习网络的网络结构确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109389215A CN109389215A (zh) | 2019-02-26 |
CN109389215B true CN109389215B (zh) | 2020-07-31 |
Family
ID=65412958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710656729.8A Active CN109389215B (zh) | 2017-08-03 | 2017-08-03 | 一种深度学习网络的网络结构确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109389215B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858388B (zh) * | 2019-04-24 | 2024-06-18 | 北京京东尚科信息技术有限公司 | 数据存储、内存访问控制的方法、系统、设备和存储介质 |
CN110232665B (zh) * | 2019-06-13 | 2021-08-20 | Oppo广东移动通信有限公司 | 最大池化方法、装置、计算机设备及存储介质 |
CN110516793B (zh) * | 2019-08-27 | 2022-06-17 | Oppo广东移动通信有限公司 | 一种池化处理方法及装置、存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015053889A3 (en) * | 2013-10-11 | 2015-06-11 | Qualcomm Incorporated | Shared memory architecture for a neural simulator |
CN106650922A (zh) * | 2016-09-29 | 2017-05-10 | 清华大学 | 硬件神经网络转换方法、计算装置、编译方法和神经网络软硬件协作系统 |
CN106779060A (zh) * | 2017-02-09 | 2017-05-31 | 武汉魅瞳科技有限公司 | 一种适于硬件设计实现的深度卷积神经网络的计算方法 |
CN106951395A (zh) * | 2017-02-13 | 2017-07-14 | 上海客鹭信息技术有限公司 | 面向压缩卷积神经网络的并行卷积运算方法及装置 |
-
2017
- 2017-08-03 CN CN201710656729.8A patent/CN109389215B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015053889A3 (en) * | 2013-10-11 | 2015-06-11 | Qualcomm Incorporated | Shared memory architecture for a neural simulator |
CN106650922A (zh) * | 2016-09-29 | 2017-05-10 | 清华大学 | 硬件神经网络转换方法、计算装置、编译方法和神经网络软硬件协作系统 |
CN106779060A (zh) * | 2017-02-09 | 2017-05-31 | 武汉魅瞳科技有限公司 | 一种适于硬件设计实现的深度卷积神经网络的计算方法 |
CN106951395A (zh) * | 2017-02-13 | 2017-07-14 | 上海客鹭信息技术有限公司 | 面向压缩卷积神经网络的并行卷积运算方法及装置 |
Non-Patent Citations (4)
Title |
---|
A Modularization Hardware Implementation Approach for Artificial Neural Network;Tong WANG等;《2nd International Conference on Electrical, Computer Engineering and Electronics》;20151231;第670-675页 * |
A Rotation-based Data Buffering Architecture for Convolution Filtering in a Field Programmable Gate Array;Zhijian Lu;《JOURNAL OF COMPUTERS》;20130630;第1411-1416页 * |
基于FPGA的Hopfield神经网络可配置硬件实现方法研究;王彤;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170415;I140-25 * |
基于FPGA的卷积神经网络并行结构研究;陆志坚;《中国博士学位论文全文数据库 信息科技辑》;20140415;I140-12 * |
Also Published As
Publication number | Publication date |
---|---|
CN109389215A (zh) | 2019-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111401516B (zh) | 一种神经网络通道参数的搜索方法及相关设备 | |
CN111860398B (zh) | 遥感图像目标检测方法、系统及终端设备 | |
JP6991983B2 (ja) | 機械学習システムをトレーニングする方法及びシステム | |
CN107730514B (zh) | 场景分割网络训练方法、装置、计算设备及存储介质 | |
CN109389215B (zh) | 一种深度学习网络的网络结构确定方法及装置 | |
CN112085056B (zh) | 目标检测模型生成方法、装置、设备及存储介质 | |
CN113038302B (zh) | 流量预测方法及装置、计算机可存储介质 | |
CN109829371B (zh) | 一种人脸检测方法及装置 | |
CN106855952A (zh) | 基于神经网络的计算方法及装置 | |
CN109543139A (zh) | 卷积运算方法、装置、计算机设备及计算机可读存储介质 | |
CN107909141A (zh) | 一种基于灰狼优化算法的数据分析方法及装置 | |
CN111914908A (zh) | 一种图像识别模型训练方法、图像识别方法及相关设备 | |
CN111079507A (zh) | 一种行为识别方法及装置、计算机装置及可读存储介质 | |
CN111160394A (zh) | 分类网络的训练方法、装置、计算机设备和存储介质 | |
CN112906554B (zh) | 基于视觉图像的模型训练优化方法、装置及相关设备 | |
CN111027670B (zh) | 特征图处理方法、装置、电子设备及存储介质 | |
CN113256622A (zh) | 基于三维图像的目标检测方法、装置及电子设备 | |
EP4357924A1 (en) | Application performance testing method, method and apparatus for establishing performance testing model | |
CN108388886A (zh) | 图像场景识别的方法、装置、终端和计算机可读存储介质 | |
CN113642667A (zh) | 一种增强策略确定方法、装置、电子设备及存储介质 | |
CN114882247A (zh) | 图像的处理方法、装置和电子设备 | |
CN111091602B (zh) | Slam后端优化方法、优化装置和电子设备 | |
CN112053393B (zh) | 一种图像深度估计方法及装置 | |
CN115562969B (zh) | 神经网络处理器仿真评估方法、系统、电子设备及介质 | |
CN110008100A (zh) | 用于网页访问量异常检测的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |