CN110889259B - 针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元 - Google Patents

针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元 Download PDF

Info

Publication number
CN110889259B
CN110889259B CN201911076764.8A CN201911076764A CN110889259B CN 110889259 B CN110889259 B CN 110889259B CN 201911076764 A CN201911076764 A CN 201911076764A CN 110889259 B CN110889259 B CN 110889259B
Authority
CN
China
Prior art keywords
output
sparse
selector
accumulator
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911076764.8A
Other languages
English (en)
Other versions
CN110889259A (zh
Inventor
郑勇
陈柱佳
舒毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yida Ind Co.,Ltd. Yangzhou
Original Assignee
Beijing Zhongke Shengxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Shengxin Technology Co ltd filed Critical Beijing Zhongke Shengxin Technology Co ltd
Priority to CN201911076764.8A priority Critical patent/CN110889259B/zh
Publication of CN110889259A publication Critical patent/CN110889259A/zh
Application granted granted Critical
Publication of CN110889259B publication Critical patent/CN110889259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及一种针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元,包括:若干处理单元和累加器;所述处理单元的输出连接所述累加器。本发明提供的针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元,充分利用了剪枝后权重矩阵的稀疏特性,避免了零值权重与对应的输入激励元素之间的乘法操作。能够结合输入激励的稀疏性动态地使能跳零操作。充分利用了权重与对应的输入激励相乘得到的中间乘积的稀疏性,避免了零值乘积与对应乘积之间的累加操作。设计的指针生成器消除了记录非零值位置信息的指针的存储开销。

Description

针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元
技术领域
本发明涉及一种针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元,属于集成电路设计技术领域。
背景技术
近年来,深度学习算法凭借其优异的性能开始替代传统的算法成为多个领域的主流算法。但当前主流的处理器(CPU、GPU、DSP等)还无法较好地适配其数据密集型的计算特点,因此学界以及工业界掀起了一波深度学习处理器的研究热潮。
全连接操作是神经网络算法中非常重要的一类操作,同时也是计算量非常大的一类操作。因此,高效地执行该类操作成为提升深度学习处理器的性能的关键。
全连接操作的计算量巨大是因为其连接参数众多。而研究发现,并不是所有连接都是必须的,全连接中存在大量冗余,而合理地删除这些冗余连接使之成为部分连接几乎不会影响网络性能。
删除冗余连接的方法称为剪枝。研究人员提出一种使用排列的块对角掩膜矩阵进行剪枝的方法,排列的块对角掩膜矩阵定义如下:将一个
Figure DEST_PATH_IMAGE002
的矩阵划分为
Figure DEST_PATH_IMAGE004
个子矩阵,每个子矩阵的元素
Figure DEST_PATH_IMAGE006
由以下公式定义:
Figure DEST_PATH_IMAGE008
其中偏置信号
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE012
Figure 964962DEST_PATH_IMAGE004
个子矩阵即构成了排列的块对角掩膜矩阵。将排列的块对角掩膜矩阵与原始的权重矩阵对应元素相乘即可完成对原始权重矩阵的剪枝。该剪枝方法完全克服了现有剪枝方法所存在的剪枝后的结构不规则以及巨大的指针开销问题且剪枝后网络性能良好,因此十分有利于硬件实现。
该剪枝方法的作者也提供了一个针对该稀疏结构的矩阵向量乘法计算单元,但该计算单元存在三个弊端:(1)该计算单元只减少了对零值权重的存储开销,未消除对零值权重的计算开销。(2)该计算单元只支持静态利用输入激励的稀疏性,实际上输入激励的稀疏性在很多场景下非常小,增加跳零操作不会带来功耗的节省。相反,因为增加了额外的比较操作,还会带来整个系统的功耗增加。(3)该计算单元未考虑中间乘积的稀疏性,因为零值权重或者零值激励所产生的乘积也是零,因此中间乘积具备和权重矩阵相同或更大的稀疏性。充分利用中间乘积的稀疏性能大幅减少加法的操作,进一步提高整个系统的能效。
发明内容
本发明要解决技术问题是:克服上述技术的缺点,提供一种能够充分利用权重矩阵的稀疏性、中间乘积的稀疏性和动态利用输入激励的稀疏性的针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元。
为了解决上述技术问题,本发明提出的技术方案是:一种针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元,包括:若干处理单元和累加器;所述处理单元的输出连接所述累加器,所述累加器用于累加所有处理单元的输出;
若输入激励向量的长度为m,则所述处理单元的数量为
Figure DEST_PATH_IMAGE014
个;每个所述处理单元用于计算
Figure DEST_PATH_IMAGE016
个输入激励向量中的元素
Figure DEST_PATH_IMAGE018
与其对应列权重之间的乘法;
所述处理单元包括用于存储权重数据的存储器、乘法器阵列、指针生成器、稀疏累加器阵列、第一二选一选择器和第二二选一选择器;所述存储器和指针生成器的输入端连接地址信号,所述存储器的输出连接乘法器阵列,
Figure 445884DEST_PATH_IMAGE016
个输入激励向量中的元素
Figure 225622DEST_PATH_IMAGE018
输入至所述乘法器阵列;所述乘法器阵列的输出连接第一二选一选择器的第一输入端和第二二选一选择器的第一输入端;所述第一二选一选择器的第二输入端输入0;所述第二选择器的第二输入端连接所述第一二选一选择器的输出端;所述第二选择器的输出连接所述稀疏累加器阵列的输入;所述指针生成器的输出连接所述稀疏累加器阵列;所述稀疏累加器阵列输出即为所述处理单元的输出;所述指针生成器还输入有偏置信号;所述第一二选一选择器的选择信号为
Figure 807781DEST_PATH_IMAGE016
个输入激励向量中的元素
Figure 622154DEST_PATH_IMAGE018
是否为0,如果
Figure 382299DEST_PATH_IMAGE018
=0,则输出0,如果不为0则输出所述乘法器阵列的输出;所述第二二选一选择器的选择信号位配置信号;当所述配置信号为0,则输出所述乘法器阵列的输出;如果所述配置信号为1,则输出所述第一二选一选择器的输出;当所述输入激励的稀疏性较大时,所述配置信号为1,当所述输入激励的稀疏性较小时,所述配置信号为0。
上述方案进一步的改进在于:当所述输入激励的稀疏性大于50%时,所述配置信号为1,当所述输入激励的稀疏性小于50%时,所述配置信号为0。
上述方案进一步的改进在于:所述稀疏累加器阵列由若干稀疏累加器并行构成,所述稀疏累加器包括译码器、累加单元、位拼接单元、D触发器和第三二选一选择器;所述译码器的输入连接所述指针生成器的输出和所述第二二选一选择器的输出;所述译码器的输出连接所述第三二选一选择器的第一输入端,所述第三二选一选择器的输出即为所述稀疏累加器,所述第三二选一选择器的输出还连接所述D触发器的D端,所述D触发器的Q端连接所述累加单元和所述未拼接单元,所述累加单元的输入还连接所述所述第二二选一选择器的输出。
上述方案进一步的改进在于:所述处理单元处于第一级,所述累加器处于第二级至第N级,两个所述处理单元的输出连接一个处于所述第二级的累加器,两个处于第n+1级的累加器的输出连接一个处于所述第n+2级的累加器,其中n∈(1,N-2),第N级含有1个累加器。
本发明提供的针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元,充分利用了剪枝后权重矩阵的稀疏特性,避免了零值权重与对应的输入激励元素之间的乘法操作。能够结合输入激励的稀疏性动态地使能跳零操作。充分利用了权重与对应的输入激励相乘得到的中间乘积的稀疏性,避免了零值乘积与对应乘积之间的累加操作。设计的指针生成器消除了记录非零值位置信息的指针的存储开销。
附图说明
下面结合附图对本发明作进一步说明。
图1是本发明一个优选的实施例结构示意图。
图2是图1中处理单元结构 示意图。
图3是图2中稀疏累加器结构示意图。
图4是权重存储器中数据访存方式示意图。
图5是稀疏累加器中译码器数据译码示意图。
具体实施方式
实施例
本实施例的针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元,如图1,包括:若干处理单元和累加器;处理单元的输出连接累加器,累加器用于累加所有处理单元的输出;为了降低消耗,处理单元处于第一级,累加器处于第二级至第N级,两个处理单元的输出连接一个处于第二级的累加器,两个处于第n+1级的累加器的输出连接一个处于第n+2级的累加器,其中n∈(1,N-2),第N级含有1个累加器。如果处理单元或某一级中的累加器为单数, 则单独与下一级的累加器连接即可,相当于补一个0位。
假设输入激励向量的长度为m,则处理单元的数量为
Figure 649333DEST_PATH_IMAGE014
个;每个处理单元用于计算
Figure 533719DEST_PATH_IMAGE016
个输入激励向量中的元素
Figure 202597DEST_PATH_IMAGE018
与其对应列权重之间的乘法。
如图2,处理单元包括用于存储权重数据的存储器、乘法器阵列、指针生成器、稀疏累加器阵列、第一二选一选择器和第二二选一选择器;存储器和指针生成器的输入端连接地址信号,存储器的输出连接乘法器阵列,
Figure 133644DEST_PATH_IMAGE016
个输入激励向量中的元素
Figure 887974DEST_PATH_IMAGE018
输入至乘法器阵列;乘法器阵列的输出连接第一二选一选择器的第一输入端和第二二选一选择器的第一输入端;第一二选一选择器的第二输入端输入0;第二选择器的第二输入端连接第一二选一选择器的输出端;第二选择器的输出连接稀疏累加器阵列的输入;指针生成器的输出连接稀疏累加器阵列;稀疏累加器阵列输出即为处理单元的输出;指针生成器还输入有偏置信号;第一二选一选择器的选择信号为
Figure 811936DEST_PATH_IMAGE016
个输入激励向量中的元素
Figure 335321DEST_PATH_IMAGE018
是否为0,如果
Figure 702849DEST_PATH_IMAGE018
=0,则输出0,如果不为0则输出乘法器阵列的输出;第二二选一选择器的选择信号位配置信号;当配置信号为0,则输出乘法器阵列的输出;如果配置信号为1,则输出第一二选一选择器的输出;当输入激励的稀疏性较大时,配置信号为1,当输入激励的稀疏性较小时,配置信号为0。
具体的,当输入激励的稀疏性大于50%时,配置信号为1,当输入激励的稀疏性小于50%时,配置信号为0。
稀疏累加器阵列由若干稀疏累加器并行构成,如图3,稀疏累加器包括译码器、累加单元、位拼接单元、D触发器和第三二选一选择器;译码器的输入连接指针生成器的输出和第二二选一选择器的输出;译码器的输出连接第三二选一选择器的第一输入端,第三二选一选择器的输出即为稀疏累加器,第三二选一选择器的输出还连接D触发器的D端,D触发器的Q端连接累加单元和未拼接单元,累加单元的输入还连接第二二选一选择器的输出。
处理单元内部的存储器用于存储权重。为了充分利用权重的稀疏性,减少存储资源占用以及乘法操作。本实施例采用图4所示的访存方式,将权重矩阵中同一列的非零权重存储在存储器的同一行,然后在计算的时候一块读出。乘法器阵列用于并行计算权重矩阵中的一列非零权重与一个输入数据
Figure DEST_PATH_IMAGE020
之间的乘法操作。
右边相邻的两个二选一选择器用于实现动态利用输入激励的稀疏性。判别式
Figure DEST_PATH_IMAGE022
的结果作为第一二选一选择器的选择信号,当判别式的结果为1时,即
Figure 570573DEST_PATH_IMAGE020
的值为0,则直接输出结果0,不需要进行乘法操作。反之则输出乘法器阵列的输出结果。配置信号
Figure DEST_PATH_IMAGE024
作为第二个二选一选择器的选择信号。当输入激励的稀疏性比较大时,跳零操作能够大幅减少系统功耗,则将信号
Figure 32647DEST_PATH_IMAGE024
配置为1,输出第一二选一选择器的结果。当输入激励的稀疏性较低时,跳零操作不会带来太大的功耗收益,则将信号
Figure 676118DEST_PATH_IMAGE024
配置为0,将第一二选一选择器旁路掉,直接输出乘法器阵列的结果。
如前面所分析的,乘积具备与权重相同或更大的稀疏性。因此,我们同样可利用其稀疏性,只对非零乘积进行累加。稀疏累加器阵列用于计算两列稀疏乘积的累加和。为实现只对非零乘积进行累加,需要知道非零乘积的位置。可通过权重矩阵中非零权重的位置来指示非零乘积的位置。根据排列的块对角矩阵的结构特点,非零权重在权重矩阵中的行与列满足如下关系式:
Figure DEST_PATH_IMAGE026
该公式即为指针生成器的实现原理,
Figure DEST_PATH_IMAGE028
为权重在各子矩阵中的行地址。由前面定义的存储器访存方式可知,
Figure DEST_PATH_IMAGE030
就是存储器的地址
Figure DEST_PATH_IMAGE032
。当块对角矩阵的秩
Figure DEST_PATH_IMAGE034
为2的n次方的时候,硬件实现取模运算就变得非常简单,直接取输入信号的低n位值就能得到取模结果。而块对角矩阵的秩p可以灵活的设置,在训练网络的时候我们可以强制将它限定为2的n次方。此外,通过分析排列的块对角权重矩阵的结构特点可知,每一列的非零权重在各个子矩阵中的行数都相同,因此整个稀疏累加器阵列共用一个行地址指针
Figure DEST_PATH_IMAGE036
如图3,稀疏累加器的结构所示,当累加控制信号
Figure DEST_PATH_IMAGE038
为0时,即不进行累加。该非零乘积
Figure DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE042
表示矩阵中某一列的第
Figure DEST_PATH_IMAGE044
个非零元素)只进行译码操作,即将其周围的零值乘积恢复出来。译码过程如图5所示,当
Figure 391045DEST_PATH_IMAGE038
不为0时,该非零乘积
Figure 57650DEST_PATH_IMAGE040
就和累加结果中行数相同的元素
Figure DEST_PATH_IMAGE046
进行相加,相加完成之后与其他行的结果
Figure DEST_PATH_IMAGE048
拼接到一起得到新的
Figure DEST_PATH_IMAGE050
本发明不局限于上述实施例。凡采用等同替换形成的技术方案,均落在本发明要求的保护范围。

Claims (4)

1.一种针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元,其特征在于,包括:若干处理单元和累加器;所述处理单元的输出连接所述累加器,所述累加器用于累加所有处理单元的输出;
若输入激励向量的长度为m,则所述处理单元的数量为
Figure 74673DEST_PATH_IMAGE001
个;每个所述处理单元用于计算N 1 个输入激励向量中的元素χi与其对应列权重之间的乘法;
所述处理单元包括用于存储权重数据的存储器、乘法器阵列、指针生成器、稀疏累加器阵列、第一二选一选择器和第二二选一选择器;所述存储器和指针生成器的输入端连接地址信号,所述存储器的输出连接乘法器阵列,N 1 个输入激励向量中的元素χi输入至所述乘法器阵列;所述乘法器阵列的输出连接第一二选一选择器的第一输入端和第二二选一选择器的第一输入端;所述第一二选一选择器的第二输入端输入0;第二二选一选择器的第二输入端连接所述第一二选一选择器的输出端;所述第二二选一选择器的输出连接所述稀疏累加器阵列的输入;所述指针生成器的输出连接所述稀疏累加器阵列;所述稀疏累加器阵列输出即为所述处理单元的输出;所述指针生成器还输入有偏置信号;所述第一二选一选择器的选择信号为N 1 个输入激励向量中的元素χi是否为0,如果χi=0,则输出0,如果不为0则输出所述乘法器阵列的输出;所述第二二选一选择器的选择信号位连接配置信号;当所述配置信号为0,则输出所述乘法器阵列的输出;如果所述配置信号为1,则输出所述第一二选一选择器的输出;当所述输入激励的稀疏性较大时,所述配置信号为1,当所述输入激励的稀疏性较小时,所述配置信号为0。
2.根据权利要求1所述的针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元,其特征在于:当所述输入激励的稀疏性大于50%时,所述配置信号为1,当所述输入激励的稀疏性小于50%时,所述配置信号为0。
3.根据权利要求1所述的针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元,其特征在于:所述稀疏累加器阵列由若干稀疏累加器并行构成,所述稀疏累加器包括译码器、累加单元、位拼接单元、D触发器和第三二选一选择器;所述译码器的输入连接所述指针生成器的输出和所述第二二选一选择器的输出;所述译码器的输出连接所述第三二选一选择器的第一输入端,所述第三二选一选择器的输出即为所述稀疏累加器,所述第三二选一选择器的输出还连接所述D触发器的D端,所述D触发器的Q端连接所述累加单元和所述位拼接单元,所述累加单元的输入还连接所述所述第二二选一选择器的输出。
4.根据权利要求1所述的针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元,其特征在于:所述处理单元处于第一级,所述累加器处于第二级至第N级,两个所述处理单元的输出连接一个处于所述第二级的累加器,两个处于第n+1级的累加器的输出连接一个处于所述第n+2级的累加器,其中n∈(1,N-2),第N级含有1个累加器。
CN201911076764.8A 2019-11-06 2019-11-06 针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元 Active CN110889259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911076764.8A CN110889259B (zh) 2019-11-06 2019-11-06 针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911076764.8A CN110889259B (zh) 2019-11-06 2019-11-06 针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元

Publications (2)

Publication Number Publication Date
CN110889259A CN110889259A (zh) 2020-03-17
CN110889259B true CN110889259B (zh) 2021-07-09

Family

ID=69746970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911076764.8A Active CN110889259B (zh) 2019-11-06 2019-11-06 针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元

Country Status (1)

Country Link
CN (1) CN110889259B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378115B (zh) * 2021-06-22 2024-04-09 东南大学 一种基于磁性随机存储器的近存稀疏向量乘法器

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6983012B1 (en) * 2000-08-03 2006-01-03 Golden Bridge Technology Incorporated Implementation of digital filter with reduced hardware
CN105790769A (zh) * 2016-02-19 2016-07-20 哈尔滨工业大学 基于离散椭球序列的随机解调方法
CN106909970A (zh) * 2017-01-12 2017-06-30 南京大学 一种基于近似计算的二值权重卷积神经网络硬件加速器计算模块
CN107229967A (zh) * 2016-08-22 2017-10-03 北京深鉴智能科技有限公司 一种基于fpga实现稀疏化gru神经网络的硬件加速器及方法
CN107341544A (zh) * 2017-06-30 2017-11-10 清华大学 一种基于可分割阵列的可重构加速器及其实现方法
CN107590533A (zh) * 2017-08-29 2018-01-16 中国科学院计算技术研究所 一种用于深度神经网络的压缩装置
CN109144469A (zh) * 2018-07-23 2019-01-04 上海亮牛半导体科技有限公司 流水线结构神经网络矩阵运算架构及方法
CN109472350A (zh) * 2018-10-30 2019-03-15 南京大学 一种基于块循环稀疏矩阵的神经网络加速系统
CN110197270A (zh) * 2018-02-27 2019-09-03 上海寒武纪信息科技有限公司 集成电路芯片装置及相关产品
CN110321525A (zh) * 2018-03-28 2019-10-11 英特尔公司 用于稀疏-密集矩阵乘法的加速器

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102057648B1 (ko) * 2013-01-04 2019-12-20 삼성전자주식회사 중복 형태 리코딩을 이용한 곱셈 방법 및 모듈러 곱셈기
CN108932548A (zh) * 2018-05-22 2018-12-04 中国科学技术大学苏州研究院 一种基于fpga的稀疏度神经网络加速系统
CN110110851B (zh) * 2019-04-30 2023-03-24 南京大学 一种lstm神经网络的fpga加速器及其加速方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6983012B1 (en) * 2000-08-03 2006-01-03 Golden Bridge Technology Incorporated Implementation of digital filter with reduced hardware
CN105790769A (zh) * 2016-02-19 2016-07-20 哈尔滨工业大学 基于离散椭球序列的随机解调方法
CN107229967A (zh) * 2016-08-22 2017-10-03 北京深鉴智能科技有限公司 一种基于fpga实现稀疏化gru神经网络的硬件加速器及方法
CN106909970A (zh) * 2017-01-12 2017-06-30 南京大学 一种基于近似计算的二值权重卷积神经网络硬件加速器计算模块
CN107341544A (zh) * 2017-06-30 2017-11-10 清华大学 一种基于可分割阵列的可重构加速器及其实现方法
CN107590533A (zh) * 2017-08-29 2018-01-16 中国科学院计算技术研究所 一种用于深度神经网络的压缩装置
CN110197270A (zh) * 2018-02-27 2019-09-03 上海寒武纪信息科技有限公司 集成电路芯片装置及相关产品
CN110321525A (zh) * 2018-03-28 2019-10-11 英特尔公司 用于稀疏-密集矩阵乘法的加速器
CN109144469A (zh) * 2018-07-23 2019-01-04 上海亮牛半导体科技有限公司 流水线结构神经网络矩阵运算架构及方法
CN109472350A (zh) * 2018-10-30 2019-03-15 南京大学 一种基于块循环稀疏矩阵的神经网络加速系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"PERMDNN: Efficient Compressed DNN Architecture with Permuted Diagonal Matrices";Chunhua Deng.etc;《2018 51st Annual IEEE/ACM International Symposium on Microarchitecture》;20181213;全文 *
"神经网络压缩模型的解压算法设计及其硬件实现";彭瑾等;《第二十二届计算机工程与工艺年会暨第八届微处理器技术论坛》;20180816;全文 *

Also Published As

Publication number Publication date
CN110889259A (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
CN108805266B (zh) 一种可重构cnn高并发卷积加速器
TWI680409B (zh) 適用於人工神經網路之矩陣及向量相乘的方法
JP5408913B2 (ja) 高速かつ効率的な行列乗算ハードウェアモジュール
CN107229967A (zh) 一种基于fpga实现稀疏化gru神经网络的硬件加速器及方法
WO2019213745A1 (en) Neural network processing element
CN107590106B (zh) 一种应用于对称矩阵与向量乘法的计算方法
CN107633298B (zh) 一种基于模型压缩的递归神经网络加速器的硬件架构
CN106502964B (zh) 一种基于Spark的极限学习机并行化计算方法
CN104636273A (zh) 一种带多级Cache的SIMD众核处理器上的稀疏矩阵存储方法
Li et al. VBSF: a new storage format for SIMD sparse matrix–vector multiplication on modern processors
US20080126467A1 (en) Technique for transposing nonsymmetric sparse matrices
CN102356554B (zh) Turbo码数据交织处理方法和用于交织Turbo码数据的交织器
CN110889259B (zh) 针对排列的块对角权重矩阵的稀疏矩阵向量乘法计算单元
JPH06502265A (ja) 信号処理におけるマトリクス演算の計算回路装置
WO2021168644A1 (zh) 数据处理装置、电子设备和数据处理方法
US20230253032A1 (en) In-memory computation device and in-memory computation method to perform multiplication operation in memory cell array according to bit orders
CN115885249A (zh) 用于加速深度学习网络的训练的系统和方法
JP2022181161A (ja) ハードウェアにおけるスパース行列乗算
CN112632464B (zh) 用于处理数据的处理装置
Karunakaran et al. Exploration on Power Delay Product of various VLSI Multiplier Architectures
CN115033843B (zh) 基于三角脉动阵列的协方差矩阵计算的电路实现方法
Cui Bus Admittance Matrix Revisited: Is It Outdated on Modern Computers?
US11113623B2 (en) Multi-sample system for emulating a quantum computer and methods for use therewith
WO2021212972A1 (zh) 运算方法、处理器以及相关产品
CN114239818B (zh) 基于tcam和lut的存内计算架构神经网络加速器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 100044 1-609, floor 6, building 1, courtyard 42, Xiejie street, gaoliangqiao, Haidian District, Beijing

Patentee after: Beijing Zhongke Shengxin Technology Co.,Ltd.

Address before: Room 403-14, 4th floor, building 6, yard 54, Shijingshan Road, Shijingshan District, Beijing 100043

Patentee before: Beijing Zhongke Shengxin Technology Co.,Ltd.

CP02 Change in the address of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20220322

Address after: 225200 No. 58, Sanyuan South Road, Xiannv Town, Jiangdu District, Yangzhou City, Jiangsu Province

Patentee after: Yida Ind Co.,Ltd. Yangzhou

Address before: 100044 1-609, floor 6, building 1, courtyard 42, Xiejie street, gaoliangqiao, Haidian District, Beijing

Patentee before: Beijing Zhongke Shengxin Technology Co.,Ltd.

TR01 Transfer of patent right