CN111160534A - 一种适用于移动终端的二值神经网络前向传播框架 - Google Patents

一种适用于移动终端的二值神经网络前向传播框架 Download PDF

Info

Publication number
CN111160534A
CN111160534A CN201911410119.5A CN201911410119A CN111160534A CN 111160534 A CN111160534 A CN 111160534A CN 201911410119 A CN201911410119 A CN 201911410119A CN 111160534 A CN111160534 A CN 111160534A
Authority
CN
China
Prior art keywords
data
neural network
forward propagation
layer
binary neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911410119.5A
Other languages
English (en)
Inventor
陈刚
何晟宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201911410119.5A priority Critical patent/CN111160534A/zh
Publication of CN111160534A publication Critical patent/CN111160534A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种适用于移动终端的二值神经网络前向传播框架,包括模型转换模块和前向传播模块;前向传播模型包括数据储存单元、运算单元和优化单元;数据储存单元使用个数、高、宽、通道数的数据布局方式存储数据并对数据进行压缩;运算单元为GPU的计算单元,将二值化神经网络的操作层进行合并;优化单元在运算单元中平衡线程读写数据量与计算量。相比于传统的神经网络框架,提供了在手机上进行前向传播的方案,减少了存储占用,提高了运算速度,利用GPU提高了二值神经网络在手机上运行的能耗比,可以在移动终端上高效运行二值神经网络。

Description

一种适用于移动终端的二值神经网络前向传播框架
技术领域
本发明涉及神经网络框架领域,更具体地,涉及一种适用于移动终端的二值神经网络前向传播框架。
背景技术
人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
在应用一个人工神经网络时,一般来说都分为4个步骤:1.根据需求训练相应神经网络;2.对训练好的神经网络进行调整和优化,得到合适部署的模型;3.在目标设备上加载模型进行前向传播,得到神经网络的计算结果;4.神经网络计算结果结合部分算法,得到整体最终结果。在传统人工神经网络中,通常使用全精度(32bit)的浮点数保存权重和进行计算,虽然可以保证较高精度,但是在手机等性能和功率有限的移动设备上。
现有的人工神经网络前向传播框架有TensorFlow、Caffe和MXNet。但是这些框架不支持在移动终端使用GPU进行人工神经网络的前向推理,只支持传统的电脑和服务器通过GPU进行人工网络的前向推理,而在移动终端上使用CPU进行传统的浮点人工神经网络前向传播的计算效率低、能耗大、速度慢。
发明内容
本发明为克服上述现有技术中移动终端只使用CPU进行人工神经网络前向推理导致计算效率低、能耗大和速度慢的问题,提供一种适用于移动终端的二值神经网络前向传播框架,该框架在移动终端的GPU中运行并通过计算优化,提高计算效率、降低能耗和增加速度。
为解决上述技术问题,本发明采用的技术方案是:一种适用于移动终端的二值神经网络前向传播框架,包括模型转换模块和前向传播模块;所述模型转换模块用于将训练好的二值神经网络转换为本框架专用的模型,在转化过程中进行数据的处理和预计算;所述前向传播用于对转换后的二值神经网络模型进行前向传播计算;
所述前向传播模型包括数据储存单元、运算单元和优化单元;
所述数据储存单元使用个数、高、宽、通道数的数据布局方式存储数据并对数据进行压缩;节约大量的存储空间。
所述运算单元为GPU的计算单元,将二值化神经网络的操作层进行合并;节省数据I/O时间;
所述优化单元在运算单元中平衡线程读写数据量与计算量。
优选的,转换后的二值神经网络模型按照由粗到细的粒度表示成:网络,层,张量;在框架中,网络被分为一个一个的层结构,每一个层中拥有相应的参数,框架中的数据都被存储在张量中。网络框架使用自己的GPU内存管理与回收系统,在第一次前向传播时分配每一步所需要的内存资源,并在层的层面使用指针进行管理和分配,在第二次及以后的前向传播过程中重复使用无需分配。
由于本框架使用NHWC(个数、高、宽、通道数)的数据布局方式存储数据,用
Figure BDA0002349751640000021
表示一个张量,其中H,W,C分别表示张量的高,宽,通道,并且有h,w,c使得h∈[0,H),w∈[0,W),c∈[0,C)。张量的数据块被存储在受框架管理的块内存中,并且按照行优先进行数据存储,也就是说,访问th,w,c可以使用公式(h×W+w)×C+c进行寻址访问。
优选的,对数据进行通道打包,通道数少于16,用0补全数据到16,
Figure BDA0002349751640000022
通道数少于32,用0补全数据到32,
Figure BDA0002349751640000023
不能被64整除的情况,将数据补齐到64的倍数的,
Figure BDA0002349751640000024
将通道维度作为最后一个维度,为了在通道压缩之后,相邻像素的访问依然保持着连续,在进行卷积操作以及后续算法处理时,都不需要额外的数据存储布局的变换。
同时,由于使用的通道压缩的技术,image-to-column操作(即将卷积区域展开成为矩阵中一行的操作)内存访问字节数仅仅是压缩之前的字节访问数的16/32/64分之一。在运算单元进行运算的过程中,将原本的32-bit单精度浮点乘法运算替换成为1-bit逻辑计算,尽管使用了大量比特运算的乘法函数内核,但仍然具有4~20倍的性能提升。
优选的,所述运算单元在二值神经网络模型的运算中,将权值与数据都量化为{+1,-1},设向量
Figure BDA0002349751640000031
向量
Figure BDA0002349751640000032
Figure BDA0002349751640000033
为B二值数据映射到硬件编码的表示
Figure BDA0002349751640000034
二值神经网络模型的第一层运算公式如下:
Figure BDA0002349751640000035
Figure BDA0002349751640000036
二值神经网络模型的非第一层运算公式如下:
A·B=-(2×popcnt(A^B)–vec_len)
其中,popcnt操作为数出结果中的二进制位1的个数,vec_len为原始通道数量。
本发明在通道压缩过程中总是将通道数压缩为16/32/64的整数倍,所以不足16/32/64的整数倍的通道部分将会使用0进行补齐,这也带来了补齐的0会额外带来-1的效果,因此需要对神经网络的第一层进行特殊计算。经过上述公式,传统的乘法计算被逻辑计算代替,能够显著提高了运算速度。
优选的,所述运算单元对卷积层与批标准化Batch Normalization(BatchNormalization,BN)层进行整合,整合为卷积-BN层,整合公式如下:
x2=x1+b
Figure BDA0002349751640000037
Figure BDA0002349751640000038
Figure BDA0002349751640000039
而二值化操作是根据符号将原始数据转变为0或者1,公式如下:
Figure BDA00023497516400000310
其中,x4是结果,因此,得到初步整合公式如下:
Figure BDA0002349751640000041
式中,γ,μ,σ,β为BN层的参数;b为卷积层中的偏置参数;x1为卷积计算结果;x2为卷积计算结果加上偏置b;x3为BN层输出结果;x4为层整合结果。
通过层整合公式计算,可将BN层各项参数与卷积层偏置参数进行预计算,减少运行时的计算量和方便运行时符号判断进行二值化。同时,卷积层和BN层的整合,减少了中间数据的在读写入内存时的时间损耗,获得了速度提升。
优选的,进一步推导整合公式,得到:
x4=(A xor B)or C
式中,x4为层整合结果;A为x1<的真值;B为γ≥0的真值;C为x1=ξ的真值;xx为卷积计算结果。
对初步整合公式进行进一步的推导,更符合GPU中向量方式的逻辑计算,实现高效的符号判断。
优选的,所述运算单元卷积-BN层和二值化层进行整合,整合为卷积-BN-二值化层。进一步节省层之间的中间数据在读写入内存时的时间损耗,获得大幅度速度提升。
优选的,在所述优化单元中,令运算单元计算时,使用向量化方式读写、计算数据,一次读取和计算多个数据,大幅提升了访存和计算性能;以及相邻线程计算相邻内存数据,合并了整个工作组的访存,减少了访存次数;内核函数交替读写内存和计算语句,避免不同线程在运行时出现访存或计算的冲突,合理分配和充分利用了GPU的计算单元,尽可能使性能最大化。
与现有技术相比,本发明的有益效果是:相比于传统的神经网络框架,提供了在手机上进行前向传播的方案,减少了存储占用,提高了运算速度,利用GPU提高了二值神经网络在手机上运行的能耗比,可以在移动终端上高效运行二值神经网络。
附图说明
图1是本发明的一种适用于移动终端的二值神经网络前向传播框架的执行流程图;
图2是本发明的一种适用于移动终端的二值神经网络前向传播框架的卷积-BN-二值化三层整合的示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体描述:
实施例1
如图1-2所示为一种适用于移动终端的二值神经网络前向传播框架的实施例,包括模型转换模块和前向传播模块;模型转换模块用于将训练好的二值神经网络转换为本框架专用的模型,在转化过程中进行数据的处理和预计算;前向传播用于对转换后的二值神经网络模型进行前向传播计算;
其中,转换后的二值神经网络模型按照由粗到细的粒度表示成:网络,层,张量;在框架中,网络被分为一个一个的层结构,每一个层中拥有相应的参数,框架中的数据都被存储在张量中。网络框架使用自己的GPU内存管理与回收系统,在第一次前向传播时分配每一步所需要的内存资源,并在层的层面使用指针进行管理和分配,在第二次及以后的前向传播过程中重复使用无需分配。
前向传播模型包括数据储存单元、运算单元和优化单元;
数据储存单元使用个数、高、宽、通道数的数据布局方式存储数据并对数据进行压缩;对数据进行通道打包,通道数少于16,用0补全数据到16,
Figure BDA0002349751640000052
通道数少于32,用0补全数据到32,
Figure BDA0002349751640000051
不能被64整除的情况,将数据补齐到64的倍数的,
Figure BDA0002349751640000053
将通道维度作为最后一个维度,为了在通道压缩之后,相邻像素的访问依然保持着连续,在进行卷积操作以及后续算法处理时,都不需要额外的数据存储布局的变换。
运算单元采用OpenCL计算内核函数(即由硬件指令集原生提供支持的高效计算函数),将二值化神经网络的操作层进行合并,节省数据I/O时间;进行操作层合并的过程如下:
运算单元对卷积层与Batch Normalization(BN)层进行整合,整合为卷积-BN层,整合公式如下:
x2=x1+b
Figure BDA0002349751640000061
Figure BDA0002349751640000062
Figure BDA0002349751640000063
而二值化操作是根据符号将原始数据转变为0或者1,公式如下:
Figure BDA0002349751640000064
其中,x4是结果,因此,得到初步整合公式如下:
Figure BDA0002349751640000065
式中,γ,μ,σ,β为BN层的参数;b为卷积层中的偏置参数;x1为卷积计算结果;x2为卷积计算结果加上偏置b;x3为BN层输出结果;x4为层整合结果。
通过层整合公式计算,可将BN层各项参数与卷积层偏置参数进行预计算,减少运行时的计算量和方便运行时符号判断进行二值化。同时,卷积层和BN层的整合,减少了中间数据的在读写入内存时的时间损耗,获得了速度提升。
为了使得初步整合公式更符合GPU中向量方式的逻辑计算,实现高效的符号判断,进一步推导整合公式,得到:
x4=(A xor B)or C
式中,x4为层整合结果;A为x1<的真值;B为γ≥0的真值;C为x1=ξ的真值;x1为卷积计算结果。
运算单元将一个线程一次计算8个卷积核,得到8个计算结果,并打包到一个字节(现代计算机和手机中最小存储单位)中,从而将二值化层进一步整合,将卷积-BN层和二值化层整合为卷积-BN-二值化层。进一步节省层之间的中间数据在读写入内存时的时间损耗,获得大幅度速度提升。
另外的,运算单元在二值神经网络模型的运算中,将权值与数据都量化为{+1,-1},设向量
Figure BDA0002349751640000071
向量
Figure BDA0002349751640000072
Figure BDA0002349751640000073
为B二值数据映射到硬件编码的表示
Figure BDA0002349751640000074
二值神经网络模型的第一层运算公式如下:
Figure BDA0002349751640000075
Figure BDA0002349751640000076
二值神经网络模型的非第一层运算公式如下:
A·B=-(2×popcnt(A^B)–vec_len)。
本发明在通道压缩过程中总是将通道数压缩为16/32/64的整数倍,所以不足16/32/64的整数倍的通道部分将会使用0进行补齐,这也带来了补齐的0会额外带来-1的效果,因此需要对神经网络的第一层进行特殊计算。经过上述公式,传统的乘法计算被逻辑计算代替,能够显著提高了运算速度。
同时,由于使用的通道压缩的技术,image-to-column操作内存访问字节数仅仅是压缩之前的字节访问数的16/32/64分之一。在运算单元进行运算的过程中,将原本的32-bit单精度浮点乘法运算替换成为1-bit逻辑计算,尽管使用了大量比特运算的乘法函数内核,但仍然具有4~20倍的性能提升。
优化单元在运算单元中平衡线程读写数据量与计算量。优化单元中,令运算单元计算时,使用向量化方式读写、计算数据,一次读取和计算多个数据,大幅提升了访存和计算性能;以及相邻线程计算相邻内存数据,合并了整个工作组的访存,减少了访存次数;内核函数交替读写内存和计算语句,避免不同线程在运行时出现访存或计算的冲突,合理分配和充分利用了GPU的计算单元,尽可能使性能最大化。
本实施例的有益效果:先通过深度学习框架学习所需模型,再利用这些学习到的模型来做规划,采用无监督学习方式,高效学习数据总的规律,能够解决现实问题中复杂问题进行建模困难,难以进行动作规划的问题。
使用OpenCL编程,调用移动终端中并行计算能力更强的GPU设备,应用了多种OpenCL编程技巧与共享数据结构设计,优化数据存储结构,提升了二值神经网络前向传播部分的计算速度,相比于目前常见框架在手机上采用的CPU+浮点神经网络的前向传播方案上百毫秒级别甚至秒级别的运算时间,本框架仅仅花费原本数分之一甚至数十分之一时间就可以完成前向传播计算。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (8)

1.一种适用于移动终端的二值神经网络前向传播框架,包括模型转换模块和前向传播模块;其特征在于,所述模型转换模块用于将训练好的二值神经网络转换为本框架专用的模型,在转化过程中进行数据的处理和预计算;所述前向传播用于对转换后的二值神经网络模型进行前向传播计算;
所述前向传播模型包括数据储存单元、运算单元和优化单元;所述数据储存单元使用个数、高、宽、通道数的数据布局方式存储数据并对数据进行压缩;所述运算单元为GPU的计算单元,将二值化神经网络的操作层进行合并;所述优化单元在运算单元中平衡线程读写数据量与计算量。
2.根据权利要求1所述的一种适用于移动终端的二值神经网络前向传播框架,其特征在于,转换后的二值神经网络模型按照由粗到细的粒度表示成网络、层、张量;所述数据储存单元的数据储存于张量中。
3.根据权利要求2所述的一种适用于移动终端的二值神经网络前向传播框架,其特征在于,对数据进行通道打包,通道数少于16,用0补全数据到16,
Figure FDA0002349751630000017
通道数少于32,用0补全数据到32,
Figure FDA0002349751630000019
不能被64整除的情况,将数据补齐到64的倍数的,
Figure FDA0002349751630000018
4.根据权利要求1所述的一种适用于移动终端的二值神经网络前向传播框架,其特征在于,所述运算单元在二值神经网络模型的运算中,将权值与数据都量化为{+1,-1},设向量
Figure FDA0002349751630000011
向量
Figure FDA0002349751630000012
Figure FDA0002349751630000013
为B二值数据映射到硬件编码的表示
Figure FDA0002349751630000014
二值神经网络模型的第一层运算公式如下:
Figure FDA0002349751630000015
Figure FDA0002349751630000016
二值神经网络模型的非第一层运算公式如下:
A·B=-(2×popcnt(A^B)–vec_len)
其中,popcnt操作为数出结果中的二进制位1的个数,vec_len为原始通道数量。
5.根据权利要求1所述的一种适用于移动终端的二值神经网络前向传播框架,其特征在于,所述运算单元对卷积层与批标准化层进行整合,整合为卷积-批标准化层,整合公式如下:
x2=x1+b
Figure FDA0002349751630000021
Figure FDA0002349751630000022
Figure FDA0002349751630000023
而二值化操作是根据符号将原始数据转变为0或者1,公式如下:
Figure FDA0002349751630000024
得到初步整合公式如下:
Figure FDA0002349751630000025
式中,γ,μ,σ,β为批标准化层的参数;b为卷积层中的偏置参数;x1为卷积计算结果;x2为卷积计算结果加上偏置b;x3为批标准化层输出结果;x4为层整合结果。
6.根据权利要求5所述的一种适用于移动终端的二值神经网络前向传播框架,其特征在于,进一步推导整合公式,得到:
x4=(A xor B)or C
式中,x4为层整合结果;A为x1<ξ的真值;B为γ≥0的真值;C为x1=ξ的真值;x1为卷积计算结果。
7.根据权利要求5所述的一种适用于移动终端的二值神经网络前向传播框架,其特征在于,所述运算单元将卷积-批标准化层和二值化层整合为卷积-批标准化-二值化层。
8.根据权利要求1所述的一种适用于移动终端的二值神经网络前向传播框架,其特征在于,在所述优化单元中,令运算单元计算时,使用向量化方式读写、计算数据,一次读取和计算多个数据;以及相邻线程计算相邻内存数据。
CN201911410119.5A 2019-12-31 2019-12-31 一种适用于移动终端的二值神经网络前向传播框架 Pending CN111160534A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911410119.5A CN111160534A (zh) 2019-12-31 2019-12-31 一种适用于移动终端的二值神经网络前向传播框架

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911410119.5A CN111160534A (zh) 2019-12-31 2019-12-31 一种适用于移动终端的二值神经网络前向传播框架

Publications (1)

Publication Number Publication Date
CN111160534A true CN111160534A (zh) 2020-05-15

Family

ID=70559875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911410119.5A Pending CN111160534A (zh) 2019-12-31 2019-12-31 一种适用于移动终端的二值神经网络前向传播框架

Country Status (1)

Country Link
CN (1) CN111160534A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797985A (zh) * 2020-07-22 2020-10-20 哈尔滨工业大学 一种基于gpu的卷积运算内存访问优化方法
CN112257467A (zh) * 2020-11-03 2021-01-22 沈阳雅译网络技术有限公司 一种面向gpu设备的神经机器翻译系统解码加速方法
CN113808613A (zh) * 2021-08-02 2021-12-17 中山大学 一种轻量化的语音去噪方法、系统、设备及存储介质
WO2022114913A1 (ko) * 2020-11-30 2022-06-02 경희대학교 산학협력단 인공지능 기술을 이용한 적층형 저항 변화 메모리 소자의 계층 최적화 시스템 및 그 방법
CN115619740A (zh) * 2022-10-19 2023-01-17 广西交科集团有限公司 一种高精度视频测速方法、系统、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106401A (zh) * 2013-02-06 2013-05-15 北京中科虹霸科技有限公司 具有人机交互机制的移动终端虹膜识别装置和方法
CN103488998A (zh) * 2013-09-11 2014-01-01 东华大学 一种基于神经网络和图像处理技术的身份证识别方法
CN106816147A (zh) * 2017-01-25 2017-06-09 上海交通大学 基于二值神经网络声学模型的语音识别系统
CN110458279A (zh) * 2019-07-15 2019-11-15 武汉魅瞳科技有限公司 一种基于fpga的二值神经网络加速方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106401A (zh) * 2013-02-06 2013-05-15 北京中科虹霸科技有限公司 具有人机交互机制的移动终端虹膜识别装置和方法
CN103488998A (zh) * 2013-09-11 2014-01-01 东华大学 一种基于神经网络和图像处理技术的身份证识别方法
CN106816147A (zh) * 2017-01-25 2017-06-09 上海交通大学 基于二值神经网络声学模型的语音识别系统
CN110458279A (zh) * 2019-07-15 2019-11-15 武汉魅瞳科技有限公司 一种基于fpga的二值神经网络加速方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GANG CHEN ET AL.: "PhoneBit: Efficient GPU-Accelerated Binary Neural Network Inference Engine for Mobile Phones" *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797985A (zh) * 2020-07-22 2020-10-20 哈尔滨工业大学 一种基于gpu的卷积运算内存访问优化方法
CN111797985B (zh) * 2020-07-22 2022-11-22 哈尔滨工业大学 一种基于gpu的卷积运算内存访问优化方法
CN112257467A (zh) * 2020-11-03 2021-01-22 沈阳雅译网络技术有限公司 一种面向gpu设备的神经机器翻译系统解码加速方法
CN112257467B (zh) * 2020-11-03 2023-06-30 沈阳雅译网络技术有限公司 一种面向gpu设备的神经机器翻译系统解码加速方法
WO2022114913A1 (ko) * 2020-11-30 2022-06-02 경희대학교 산학협력단 인공지능 기술을 이용한 적층형 저항 변화 메모리 소자의 계층 최적화 시스템 및 그 방법
KR20220075521A (ko) * 2020-11-30 2022-06-08 경희대학교 산학협력단 인공지능 기술을 이용한 적층형 저항 변화 메모리 소자의 계층 최적화 시스템 및 그 방법
KR102539876B1 (ko) * 2020-11-30 2023-06-02 경희대학교 산학협력단 인공지능 기술을 이용한 적층형 저항 변화 메모리 소자의 계층 최적화 시스템 및 그 방법
CN113808613A (zh) * 2021-08-02 2021-12-17 中山大学 一种轻量化的语音去噪方法、系统、设备及存储介质
CN113808613B (zh) * 2021-08-02 2023-12-12 中山大学 一种轻量化的语音去噪方法、系统、设备及存储介质
CN115619740A (zh) * 2022-10-19 2023-01-17 广西交科集团有限公司 一种高精度视频测速方法、系统、电子设备及存储介质
CN115619740B (zh) * 2022-10-19 2023-08-08 广西交科集团有限公司 一种高精度视频测速方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111160534A (zh) 一种适用于移动终端的二值神经网络前向传播框架
CN107844828B (zh) 神经网络中的卷积计算方法和电子设备
CN210006057U (zh) 用于深度学习引擎的设备和系统
CN111459877B (zh) 基于FPGA加速的Winograd YOLOv2目标检测模型方法
CN108108811B (zh) 神经网络中的卷积计算方法和电子设备
US20210224125A1 (en) Operation Accelerator, Processing Method, and Related Device
CN107169563B (zh) 应用于二值权重卷积网络的处理系统及方法
US11462003B2 (en) Flexible accelerator for sparse tensors in convolutional neural networks
US11816574B2 (en) Structured pruning for machine learning model
JP6823495B2 (ja) 情報処理装置および画像認識装置
CN107256424B (zh) 三值权重卷积网络处理系统及方法
CN106570559A (zh) 一种基于神经网络的数据处理方法和装置
US11797830B2 (en) Flexible accelerator for sparse tensors in convolutional neural networks
Shahshahani et al. Memory optimization techniques for fpga based cnn implementations
CN113792621A (zh) 一种基于fpga的目标检测加速器设计方法
CN113570033A (zh) 神经网络处理单元、神经网络的处理方法及其装置
CN110490308B (zh) 加速库的设计方法、终端设备及存储介质
CN114626516A (zh) 一种基于对数块浮点量化的神经网络加速系统
Yan et al. FPGAN: an FPGA accelerator for graph attention networks with software and hardware co-optimization
CN116720549A (zh) 一种基于cnn输入全缓存的fpga多核二维卷积加速优化方法
CN111860773A (zh) 处理装置和用于信息处理的方法
Qi et al. Learning low resource consumption cnn through pruning and quantization
Liu et al. High-performance tensor learning primitives using GPU tensor cores
CN109978143B (zh) 一种基于simd架构的堆栈式自编码器及编码方法
CN112561049A (zh) 一种基于忆阻器的dnn加速器的资源分配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200515

RJ01 Rejection of invention patent application after publication