CN108416427A - 卷积核堆积数据流、压缩编码以及深度学习算法 - Google Patents
卷积核堆积数据流、压缩编码以及深度学习算法 Download PDFInfo
- Publication number
- CN108416427A CN108416427A CN201810153442.8A CN201810153442A CN108416427A CN 108416427 A CN108416427 A CN 108416427A CN 201810153442 A CN201810153442 A CN 201810153442A CN 108416427 A CN108416427 A CN 108416427A
- Authority
- CN
- China
- Prior art keywords
- nuclear matrix
- convolution
- convolution nuclear
- array
- weight array
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/40—Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
Abstract
本发明提供卷积核堆积数据流、压缩编码以及深度学习算法,从参数模型中逐层读取卷积层和全连接层的卷积核矩阵,将卷积核矩阵进行重组变换;一个通道输入的特征数据与来自同一通道的重组后的卷积核矩阵的多个卷积核权重数组进行卷积计算。本发明解决稀疏数据内存不规则导致在使用时需要复杂的处理电路的缺点,以及提高计算阵列利用率的问题。
Description
技术领域
本发明涉及神经网络技术领域,特别涉及卷积核堆积数据流、压缩编码以及深度学习算法。
背景技术
近年来深度神经网络获得突破性进展,在大量领域取得突破性的性能优势,并且性能逐年提升;在图像分类识别,运动检测,物体检测,图像语义理解,翻译,自然语言处理等领域具有广阔的应用前景;但同时具有网络参数存储占用大量内存,计算量巨大,计算过程中需要大量的内存数据交互,内存能耗带宽成为瓶颈;目前设计普遍处理速度相对较慢,不适合高速应用等缺点;目前基于GPU的加速设计功耗大体积大,不适用于小型移动设备。移动嵌入式设备由于内存计算资源有限,限制了深度神经网络的广泛应用。
当前优化加速深度学习神经网络的研究方向主要可以分为四类:1)降低精度:降低网络参数的精度,由浮点数转为定点数,降低比特数,由高比特32bit降低为16bit,8bit,4bit,甚至1比特等;2)简化计算:将卷积层和全连接层中乘法运算转为移位和加法运算;3)优化流程:通过优化运算流程和数据流程降低移动数据所需的次数和功耗;4)深度压缩:通过深度数据压缩来降低参数所需存储空间和运算次数,尽可能的将所有数据都缓存到片上,降低内存存取次数。
斯坦福大学的深度压缩,通过剪枝,量化,共享权重,huffman编码等手段可以将Alexnet压缩35×,VGGNET压缩49×,但是他们的硬件实现中只针对全连接层进行了优化。麻省理工大学的Eyeriss的流程优化没有充分考虑稀疏数据的特点等,目前的实现往往只针对某一个方面,适应性不强,对于压缩的稀疏数据,由于稀疏数据内存不规则的特点,普遍存在数据处理电路复杂,计算阵列利用率低的问题。
因此,为了解决上述问题,需要提高计算阵列利用率的卷积核堆积数据流、压缩编码以及深度学习算法。
发明内容
本发明的目的在于提供一种深度学习算法以解决现有技术中稀疏数据内存不规则导致在使用时需要复杂的处理电路的缺点,以及提高计算阵列利用率的问题。
本发明的一个方面在于提供一种用于深度学习网络的卷积核堆积数据流的方法,所述方法包括如下步骤:
从参数模型中逐层读取卷积层和全连接层的卷积核矩阵,将卷积核矩阵进行重组;
一个通道输入的特征数据与来自同一通道的重组后的卷积核矩阵的多个权重数组进行卷积计算。
优选地,所述卷积核矩阵重组通过如下步骤实现:
将卷积核矩阵分为M’组,每一组具有m个卷积核矩阵,并且将卷积层的卷积核矩阵的权重数组由四维数组转变为五维数组,将全连接层的卷积核矩阵的权重数组由两维数组转变为三维数组。
本发明的另一个方面在于提供一种相对索引稀疏卷积核压缩的编码方法,所述编码方法包括:
将按卷积核通道顺序存放的权重数组展开,
按列将m个filter同一通道相同位置的m个卷积核矩阵的权重数组顺序存放。
优选地,所述编码方法还包括:如果第一行中某一个权重数组的值为0,则删除该列;
并且,将下一列中第二行的相对索引值加一,第三行的相对列指针减一。
本发明的再一个方面在于提供一种寻找最优存储索引的比特数的方法,所述方法通过如下公式计算:
其中,Nz_num为非0卷积核矩阵的权重数组的个数;wbit为存储卷积核矩阵的权重数组所需的bit数;bit为存储相对索引所需的bit数;zero_stat为卷积核矩阵的权重数组连续0个数的统计分布。
本发明的又一个方面在于提供一种深度学习算法,所述算法包括如下步骤:
a)从参数模型中逐层读取卷积层和全连接层的卷积核矩阵,将卷积核矩阵进行重组;
b)统计重组后卷积核矩阵在内层存储时权重数组连续为0的个数分布,以及权重数组非0值的个数;
c)通过如下方法寻找最优存储索引的比特数:
其中,Nz_num为非0卷积核矩阵的权重数组的个数;wbit为存储卷积核矩阵的权重数组所需的bit数;bit为存储相对索引所需的bit数;zero_stat为卷积核矩阵的权重数组连续0个数的统计分布。
d)一个通道输入的特征数据与来自同一通道的重组后的卷积核矩阵的多个权重数组进行卷积计算,将卷积计算的结果重新连接为输出矩阵。
优选地,所述步骤c)得到最优存储索引的比特数后,重新统计重组后卷积核矩阵在内层存储时权重数组连续为0的个数分布,以及权重数组非0值的个数;
当权重数组连续为0的个数≥2bit时插入一个0,并将权重数组非0值与插入的0值记录到稀疏矩阵数据流和索引流中。
本发明用于深度学习网络的卷积核堆积数据流的方法(SFS)以及相对索引稀疏卷积核压缩(CSF)的编码方法,同时应用于卷积层以及全连接层等,具有实用性强,编码后的数据可以直接在计算中使用,避免了稀疏数据内存不规则导致在使用时需要复杂的处理电路的缺点。同时编码方法得到编码格式中将大部分0数据压缩为索引,在计算可以直接跳过,省却了大量的旁路0所需的时钟,同时因为在编码时已经将大部分0压缩,计算阵列利用率大大提升。
本发明提出的数据流以及编码方法使得数据的分布改变,0数据分布更趋于1方向集中,同样总得非零数据个数的分布也更趋于1方向集中,这个分布使得执行计算时的负载更加均衡,保存索引所需要的bit数以及补0的数量进一步降低。
应当理解,前述大体的描述和后续详尽的描述均为示例性说明和解释,并不应当用作对本发明所要求保护内容的限制。
附图说明
参考随附的附图,本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明,其中:
图1示意性示出了现有技术中m个卷积核矩阵的权重数组的存储方式;
图2示出了本发明m个卷积核矩阵的权重数组的存储方式;
图3示出了本发明与ALEXNET相比不同层中连续0的个数的分布示意图。
具体实施方式
通过参考示范性实施例,本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而,本发明并不受限于以下所公开的示范性实施例;可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。
在下文中,将参考附图描述本发明的实施例,相关技术术语应当是本领域技术人员所熟知的。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤,除非另有说明。下面通过具体的实施例对本发明的内容进行说明,本发明提供了深度学习算法,用于深度学习网络的卷积核堆积数据流的方法(SFS)和相应的相对索引稀疏卷积核压缩(CSF)编码方法同时应用于卷积层(CONV)和全连接层(FC)。根据本发明的实施例,首先将卷积层和全连接层的计算统一,即:
其中,0≤cho<M,0≤chi<C,0≤r<K,0≤c<K,
0≤x<W’,0≤y<H’,W'=(W-K)/S+1,H'=(H-K)/S+1。
式中,Vo为输出特征,Vi为输入特征,Wf为卷积核矩阵,S为步长,C为通道数,K为卷积核内核尺寸,M为卷积核数量,W,H为输入特征的每个通道的尺寸维度,W’H’为输出特征的每个通道的尺寸维度。
本实施例中,以深度压缩后的Alexnet为例(忽略其他层),Alexnet共有5层卷积层,3层全连接层。
本发明将一个已经训练好的稀疏网络卷积核矩阵的权重数组重组,将权重数组按本发明提供的编码方法得到编码格式进行存放(编码方法将在下文中说明)。实施例中,训练好的caffemodel模型里面包含了每一层(包括卷积层和全连接层)的信息以及权重数组。
卷积核堆积数据流
从参数模型(训练好的caffemodel模型)中逐层读取卷积层和全连接层的卷积核矩阵,将卷积核矩阵进行重组。卷积核矩阵重组通过如下步骤实现:
卷积层和全连接层的计算统一后,将卷积核矩阵分为M’组,每一组具有m个卷积核矩阵,并且将卷积层的卷积核矩阵的权重数组由四维数组转变为五维数组,将全连接层的卷积核矩阵的权重数组由两维数组转变为三维数组。
根据本发明的实施例,卷积核矩阵的权重数组在维数转变之前卷积核矩阵表示为:维数转变之后卷积核矩阵表示为:
实施例中,通过如下公式进行卷积核矩阵的权重数组的维数转变:
卷积层:Wf'[n][chi][r][c][j]=Wf[n×m+j][chi][r][c],
全连接层:Wf'[n][chi][j]=Wf[n×m+j][chi],
其中,0≤chi<C,0≤r<K,0≤c<K,0≤j<m,0≤n<M',M'=M/m。
每组卷积核矩阵的大小m可以取4,8,16等值,实施例中为了简便起见,取卷积核数量为每组大小m=M。
经过上述维数转变,卷积层的卷积核矩阵的权重数组由四维数组转变为五维数组;全连接层的卷积核矩阵的权重数组由两维数组转变为三维数组。
例如第一个卷积层conv1,卷积核矩阵为四维矩阵Wf[96][3][11][11],取m=M=96,变换后新的卷积核矩阵为五维矩阵Wf'[1][3][11][11][96]。
一个通道输入的特征数据与来自同一通道的重组后的卷积核矩阵的多个权重数组进行卷积计算,实施例中计算过程通过下式计算:
其中,0≤chi<C,0≤r<K,0≤c<K,0≤j<m,
0≤x<W’,0≤y<H’,W'=(W-K)/S+1,H'=(H-K)/S+1。
式中,Vo为输出特征,Vi为输入特征,Wf为卷积核矩阵,S为步长,C为通道数,K为卷积核内核尺寸,W,H为输入特征的每个通道的尺寸维度,W’H’为输出特征的每个通道的尺寸维度。
相对索引稀疏卷积核压缩的编码
目前已有的稀疏数据编码格式有CSC,CSR以及CISR等。但是这些编码格式在应用于深度学习时由于内存不规则的特点会使得执行时计算复杂化,这会导致并行处理效率低下,以及增大芯片面积。本发明提出相对索引稀疏卷积核压缩(CSF)编码格式来解决这一问题。
如图1所示现有技术中m个卷积核矩阵的权重数组的存储方式,卷积核的权重数组顺序按列存储。
根据本发明的实施例,进一步改变卷积核矩阵的权重数组,m个卷积核矩阵的权重数组按列存放。具体为,将按卷积核通道顺序存放的权重数组展开,然后按列将m个filter同一通道相同位置的m个卷积核矩阵的权重数组顺序存放,当任一元素与来自同一列的m个卷积核矩阵的权重数组相乘时,卷积核矩阵的权重数组被顺序从内存读取。如图2所示本发明m个卷积核矩阵的权重数组的存储方式。
如果第一行中某一个权重数组的值为0,则删除该列;
并且,将下一列中第二行的相对索引值加一和第三行的相对列指针减一。
当相对列指针的值为0时表示前一列的所有值都为0,此时存储在文件时不需要存储第三行的相对列指针。
将改变后存储方式的权重数组的数据以CSF格式编码。
如图3所示本发明与ALEXNET对比不同层中连续0的个数的分布示意图,,其中(a)、(b)、(c)为卷积层连续0的个数分布,(d)为全连接层连续0的个数分布。实施例中对比了ALEXNET不同层中连续0的个数的分布后发现,使用本发明提供的编码方法,分布向比较小的数字方向集中,连续非0数据的个数的统计分布也是如此,这会使得存储索引所需bit数降低,插入补足0的个数减少,在运行中计算负载更加均衡。
寻找最优存储索引的比特数
根据本发明的实施例,寻找最优存储索引的比特数的方法通过如下公式计算:
其中,Nz_num为非0卷积核矩阵的权重数组的个数;wbit为存储卷积核矩阵的权重数组所需的bit数;bit为存储相对索引所需的bit数;zero_stat为卷积核矩阵的权重数组连续0个数的统计分布。
深度学习算法
根据本发明的实施例一种深度学习算法包括如下步骤:
步骤S101,堆积卷积核数据流
从参数模型中逐层读取卷积层和全连接层的卷积核矩阵,将卷积核矩阵进行重组。卷积核矩阵重组通过如下步骤实现:
卷积层和全连接层的计算统一后,将卷积核矩阵分为M’组,每一组具有m个卷积核矩阵,并且将卷积层的卷积核矩阵的权重数组由四维数组转变为五维数组,将全连接层的卷积核矩阵的权重数组由两维数组转变为三维数组。
根据本发明的实施例,卷积核矩阵的权重数组在维数转变之前卷积核矩阵表示为:维数转变之后卷积核矩阵表示为:
实施例中,通过如下公式进行卷积核矩阵的权重数组的维数转变:
卷积层:Wf'[n][chi][r][c][j]=Wf[n×m+j][chi][r][c],
全连接层:Wf'[n][chi][j]=Wf[n×m+j][chi],
其中,0≤chi<C,0≤r<K,0≤c<K,0≤j<m,0≤n<M',M'=M/m。
每组卷积核矩阵的大小m可以取4,8,16等值,实施例中为了简便起见,取卷积核数量为每组大小m=M。
经过上述维数转变,卷积层的卷积核矩阵的权重数组由四维数组转变为五维数组;全连接层的卷积核矩阵的权重数组由两维数组转变为三维数组。
例如第一个卷积层conv1,卷积核矩阵为四维矩阵Wf[96][3][11][11],取m=M=96,变换后新的卷积核矩阵为五维矩阵Wf'[1][3][11][11][96]。
步骤S102,统计重组后卷积核矩阵在内层存储时权重数组连续为0的个数分布,以及权重数组非0值的个数。
根据本发明的实施例,例如第一个卷积层conv1中非0值的个数为29386,连续0的个数的统计分为:
0 | 3578 | 634 | 139 | 34 | 11 | 0 | 0 | 1 | 0 | 0 |
步骤S103,寻找最优存储索引的比特数
根据本发明的实施例,通过如下方法寻找最优存储索引的比特数:
其中,Nz_num为非0卷积核矩阵的权重数组的个数;wbit为存储卷积核矩阵的权重数组所需的bit数;bit为存储相对索引所需的bit数;zero_stat为卷积核矩阵的权重数组连续0个数的统计分布。例如第一个卷积层conv1中当用1bit存储相对索引(index)数据时额外的存储空间共需要37189bits,2比特存储时需59242bits,3比特存储时需要88169bits,等等,故最优比特数为1比特。
得到最优存储索引的比特数后,重新统计重组后卷积核矩阵在内层存储时权重数组连续为0的个数分布,以及权重数组非0值的个数。
当权重数组连续为0的个数≥2bit时插入一个0,并将权重数组非0值与插入的0值记录到稀疏矩阵数据流和索引流中(稀疏矩阵数据流和索引流为一维byte数组)。例如第一个卷积层conv1中当用1bit存储index数据时每连续2个0时在数据流插入一个0,这样数据流共有30253个数据(非0值数据为29386),每个数据对应一个index这样额外的比特数为(30253-29386)×8+30253=37189比特。
将稀疏矩阵数据流和索引流按二进制写入参数文件,每层数据在文件内的格式如下表:
表一,稀疏矩阵数据流和索引流的写入参数
格式 | 数量 | |
偏置 | float32 | 偏置长度 |
非零值字典 | float32 | 2的非零值存储bit次幂 |
非零值数量 | uint32 | 1 |
索引bit数 | uint32 | 1 |
稀疏矩阵数据流长度 | uint32 | 1 |
索引流长度 | uint32 | 1 |
稀疏矩阵数据流 | uint8 | 稀疏矩阵数据流长度 |
索引流 | uint8 | 索引流长度 |
例如一个卷积层conv1中当用1bit存储index数据时,稀疏矩阵数据流长度30253,索引流长度为(30253+7)/8=3782。
步骤S104,一个通道输入的特征数据与来自同一通道的重组后的卷积核矩阵的多个权重数组进行卷积计算,将卷积计算的结果重新连接为输出矩阵。
本实施例中,按照表一的格式从文件读入稀疏矩阵数据流和索引流,通过如下公式进行卷积计算:
全部计算完成以后按如公式拼接为最终的输出:
例如新输入一副尺寸为227x227的彩色图片输入矩阵Vi[3][227][227],在卷积层conv1与卷积核矩阵Wf'[1][3][11][11][96]卷积时,先读取第一个通道数据Vi[0][0][0]到Vi[0][226][226]数据与同一通道的96个卷积核进行卷积。计算过程中,Vi中的单一数据将与Wf'中96个数据分别相乘,例如Vi[0][0][0]与Wf'[0][0][0][0][0]到Wf'[0][0][0][0][95]共96个数据分别相乘得到Vo[0][0][0]到Vo[95][0][0]的部分和。
本发明用于深度学习网络的卷积核堆积数据流的方法(SFS)以及相对索引稀疏卷积核压缩(CSF)的编码方法,同时应用于卷积层以及全连接层等,具有实用性强,编码后的数据可以直接在计算中使用,避免了稀疏数据内存不规则导致在使用时需要复杂的处理电路的缺点。同时编码方法得到编码格式中将大部分0数据压缩为索引,在计算可以直接跳过,省却了大量的旁路0所需的时钟,同时因为在编码时已经将大部分0压缩,计算阵列利用率大大提升。
本发明提出的数据流以及编码方法使得数据的分布改变,0数据分布更趋于1方向集中,同样总得非零数据个数的分布也更趋于1方向集中,这个分布使得执行计算时的负载更加均衡,保存索引所需要的bit数以及补0的数量进一步降低。
结合这里披露的本发明的说明和实践,本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的,本发明的真正范围和主旨均由权利要求所限定。
Claims (7)
1.一种用于深度学习网络的卷积核堆积数据流的方法,其特征在于,所述方法包括如下步骤:
从参数模型中逐层读取卷积层和全连接层的卷积核矩阵,将卷积核矩阵进行重组;
一个通道输入的特征数据与来自同一通道的重组后的多个卷积核权重数组进行卷积计算。
2.根据权利要求1所述的方法,其特征在于,所述卷积核矩阵重组通过如下步骤实现:
将卷积核矩阵分为M’组,每一组具有m个卷积核矩阵,并且将卷积层的卷积核矩阵的权重数组由四维数组转变为五维数组,将全连接层的卷积核矩阵的权重数组由两维数组转变为三维数组。
3.一种相对索引稀疏卷积核压缩的编码方法,其特征在于,所述编码方法包括:
将按卷积核通道顺序存放的权重数组展开,
按列将m个filter同一通道相同位置的m个卷积核矩阵的权重数组顺序存放。
4.根据权利要求3所述的编码方法,其特征在于,所述编码方法还包括:如果第一行中某一个权重数组的值为0,则删除该列;
并且,将下一列中第二行的相对索引值加一,第三行的相对列指针减一。
5.一种寻找最优存储索引的比特数的方法,其特征在于,所述方法通过如下公式计算:
其中,Nz_num为非0卷积核矩阵的权重数组的个数;wbit为存储卷积核矩阵的权重数组所需的bit数;bit为存储相对索引所需的bit数;zero_stat为卷积核矩阵的权重数组连续0个数的统计分布。
6.一种深度学习算法,其特征在于,所述算法包括如下步骤:
a)从参数模型中逐层读取卷积层和全连接层的卷积核矩阵,将卷积核矩阵进行重组;
b)统计重组后卷积核矩阵在内层存储时权重数组连续为0的个数分布,以及权重数组非0值的个数;
c)通过如下方法寻找最优存储索引的比特数:
其中,Nz_num为非0卷积核矩阵的权重数组的个数;wbit为存储卷积核矩阵的权重数组所需的bit数;bit为存储相对索引所需的bit数;zero_stat为卷积核矩阵的权重数组连续0个数的统计分布。
d)一个通道输入的特征数据与来自同一通道的重组后的卷积核矩阵的多个权重数组进行卷积计算,将卷积计算的结果重新连接为输出矩阵。
7.根据权利要求6所述算法,其特征在于,所述步骤c)得到最优存储索引的比特数后,重新统计重组后卷积核矩阵在内层存储时权重数组连续为0的个数分布,以及权重数组非0值的个数;
当权重数组连续为0的个数≥2bit时插入一个0,并将权重数组非0值与插入的0值记录到稀疏矩阵数据流和索引流中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810153442.8A CN108416427A (zh) | 2018-02-22 | 2018-02-22 | 卷积核堆积数据流、压缩编码以及深度学习算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810153442.8A CN108416427A (zh) | 2018-02-22 | 2018-02-22 | 卷积核堆积数据流、压缩编码以及深度学习算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108416427A true CN108416427A (zh) | 2018-08-17 |
Family
ID=63128906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810153442.8A Pending CN108416427A (zh) | 2018-02-22 | 2018-02-22 | 卷积核堆积数据流、压缩编码以及深度学习算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108416427A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740734A (zh) * | 2018-12-29 | 2019-05-10 | 北京工业大学 | 一种优化卷积神经网络中神经元空间排布的方法 |
CN109978137A (zh) * | 2019-03-20 | 2019-07-05 | 厦门美图之家科技有限公司 | 一种卷积神经网络的处理方法 |
CN110119745A (zh) * | 2019-04-03 | 2019-08-13 | 平安科技(深圳)有限公司 | 深度学习模型的压缩方法、装置、计算机设备及存储介质 |
CN110188865A (zh) * | 2019-05-21 | 2019-08-30 | 深圳市商汤科技有限公司 | 信息处理方法及装置、电子设备和存储介质 |
CN111291871A (zh) * | 2018-12-10 | 2020-06-16 | 中科寒武纪科技股份有限公司 | 一种计算装置及相关产品 |
CN111294058A (zh) * | 2020-02-20 | 2020-06-16 | 湖南遥昇通信技术有限公司 | 一种信道编码和纠错译码方法、设备以及存储介质 |
CN111582432A (zh) * | 2019-02-19 | 2020-08-25 | 北京嘉楠捷思信息技术有限公司 | 一种网络参数处理方法及装置 |
CN111860780A (zh) * | 2020-07-10 | 2020-10-30 | 逢亿科技(上海)有限公司 | 不规则卷积核卷积神经网络硬件加速系统及计算方法 |
CN112016522A (zh) * | 2020-09-25 | 2020-12-01 | 苏州浪潮智能科技有限公司 | 一种视频数据处理方法、系统及相关组件 |
WO2021093794A1 (en) * | 2019-11-13 | 2021-05-20 | Huawei Technologies Co., Ltd. | Methods and systems for training convolutional neural network using built-in attention |
CN113761983A (zh) * | 2020-06-05 | 2021-12-07 | 杭州海康威视数字技术股份有限公司 | 更新人脸活体检测模型的方法、装置及图像采集设备 |
CN116088810A (zh) * | 2021-11-05 | 2023-05-09 | 滕斯托伦特股份有限公司 | 多核处理器的稀疏均匀性实施 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145939A (zh) * | 2017-06-21 | 2017-09-08 | 北京图森未来科技有限公司 | 一种神经网络优化方法及装置 |
-
2018
- 2018-02-22 CN CN201810153442.8A patent/CN108416427A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145939A (zh) * | 2017-06-21 | 2017-09-08 | 北京图森未来科技有限公司 | 一种神经网络优化方法及装置 |
Non-Patent Citations (1)
Title |
---|
YUECHAO GAO等: ""STACKED FILTERS STATIONARY FLOW FOR HARDWARE-ORIENTED ACCELERATION OF DEEP CONVOLUTIONAL NEURAL NETWORKS"", 《ARXIV:1801.07459》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291871A (zh) * | 2018-12-10 | 2020-06-16 | 中科寒武纪科技股份有限公司 | 一种计算装置及相关产品 |
CN109740734A (zh) * | 2018-12-29 | 2019-05-10 | 北京工业大学 | 一种优化卷积神经网络中神经元空间排布的方法 |
CN109740734B (zh) * | 2018-12-29 | 2020-12-04 | 北京工业大学 | 一种利用优化神经元空间排布的卷积神经网络的图像分类方法 |
CN111582432A (zh) * | 2019-02-19 | 2020-08-25 | 北京嘉楠捷思信息技术有限公司 | 一种网络参数处理方法及装置 |
CN111582432B (zh) * | 2019-02-19 | 2023-09-12 | 嘉楠明芯(北京)科技有限公司 | 一种网络参数处理方法及装置 |
CN109978137B (zh) * | 2019-03-20 | 2021-03-16 | 厦门美图之家科技有限公司 | 一种卷积神经网络的处理方法 |
CN109978137A (zh) * | 2019-03-20 | 2019-07-05 | 厦门美图之家科技有限公司 | 一种卷积神经网络的处理方法 |
CN110119745A (zh) * | 2019-04-03 | 2019-08-13 | 平安科技(深圳)有限公司 | 深度学习模型的压缩方法、装置、计算机设备及存储介质 |
CN110188865A (zh) * | 2019-05-21 | 2019-08-30 | 深圳市商汤科技有限公司 | 信息处理方法及装置、电子设备和存储介质 |
CN110188865B (zh) * | 2019-05-21 | 2022-04-26 | 深圳市商汤科技有限公司 | 信息处理方法及装置、电子设备和存储介质 |
US11403486B2 (en) | 2019-11-13 | 2022-08-02 | Huawei Technologies Co., Ltd. | Methods and systems for training convolutional neural network using built-in attention |
WO2021093794A1 (en) * | 2019-11-13 | 2021-05-20 | Huawei Technologies Co., Ltd. | Methods and systems for training convolutional neural network using built-in attention |
CN111294058A (zh) * | 2020-02-20 | 2020-06-16 | 湖南遥昇通信技术有限公司 | 一种信道编码和纠错译码方法、设备以及存储介质 |
CN113761983A (zh) * | 2020-06-05 | 2021-12-07 | 杭州海康威视数字技术股份有限公司 | 更新人脸活体检测模型的方法、装置及图像采集设备 |
CN113761983B (zh) * | 2020-06-05 | 2023-08-22 | 杭州海康威视数字技术股份有限公司 | 更新人脸活体检测模型的方法、装置及图像采集设备 |
CN111860780A (zh) * | 2020-07-10 | 2020-10-30 | 逢亿科技(上海)有限公司 | 不规则卷积核卷积神经网络硬件加速系统及计算方法 |
CN112016522B (zh) * | 2020-09-25 | 2022-06-07 | 苏州浪潮智能科技有限公司 | 一种视频数据处理方法、系统及相关组件 |
CN112016522A (zh) * | 2020-09-25 | 2020-12-01 | 苏州浪潮智能科技有限公司 | 一种视频数据处理方法、系统及相关组件 |
CN116088810A (zh) * | 2021-11-05 | 2023-05-09 | 滕斯托伦特股份有限公司 | 多核处理器的稀疏均匀性实施 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416427A (zh) | 卷积核堆积数据流、压缩编码以及深度学习算法 | |
CN109635944A (zh) | 一种稀疏卷积神经网络加速器及实现方法 | |
CN102122960B (zh) | 一种针对二进制数据的多字符组合无损数据压缩方法 | |
EP2895968B1 (en) | Optimal data representation and auxiliary structures for in-memory database query processing | |
WO2021164737A1 (zh) | 神经网络压缩的方法、数据处理的方法及相关装置 | |
CN107590533A (zh) | 一种用于深度神经网络的压缩装置 | |
CN109871860A (zh) | 一种基于核主成分分析的日负荷曲线降维聚类方法 | |
CN109948774A (zh) | 基于网络层捆绑运算的神经网络加速器及其实现方法 | |
CN109859281A (zh) | 一种稀疏神经网络的压缩编码方法 | |
CN103427844A (zh) | 一种基于gpu和cpu混合平台的高速无损数据压缩方法 | |
CN116016606B (zh) | 一种基于智慧云的污水处理运维数据高效管理系统 | |
CN113610227B (zh) | 一种用于图像分类的深度卷积神经网络剪枝方法 | |
CN108764458B (zh) | 一种减少移动设备存储空间消耗以及计算量的方法及系统 | |
CN113741858A (zh) | 存内乘加计算方法、装置、芯片和计算设备 | |
KR20110033175A (ko) | 디지털 데이터 처리 방법 | |
US20210125063A1 (en) | Apparatus and method for generating binary neural network | |
WO2020114283A1 (zh) | 数据处理方法及装置 | |
CN116743182A (zh) | 一种数据无损压缩方法 | |
CN111479286A (zh) | 一种边缘计算系统减少通信流量的数据处理方法 | |
CN113743593B (zh) | 神经网络量化方法、系统、存储介质及终端 | |
CN115811317A (zh) | 一种基于自适应不解压直接计算的流处理方法和系统 | |
CN111107377A (zh) | 深度图像压缩方法及其装置、设备和存储介质 | |
CN115688892A (zh) | 一种稀疏权重Fused-Layer卷积加速器结构的FPGA实现方法 | |
CN103152567A (zh) | 一种任意阶数指数哥伦布编码器及其方法 | |
CN108259515A (zh) | 一种适用于带宽受限下传输链路的无损信源压缩方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210723 Address after: 100000 room 617a, floor 6, No. 23, Zhichun Road, Haidian District, Beijing Applicant after: Beijing sifengke Technology Co.,Ltd. Address before: 400039 Chongqing Jiulongpo District Kecheng Road 60 Kangtan West Jinyi 2 Building 4 Floors Applicant before: CHONGQING XINLUOWEI TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180817 |
|
RJ01 | Rejection of invention patent application after publication |