CN113094020A - 一种快速查找数据集最大或最小n个值的硬件装置及方法 - Google Patents

一种快速查找数据集最大或最小n个值的硬件装置及方法 Download PDF

Info

Publication number
CN113094020A
CN113094020A CN202110278224.9A CN202110278224A CN113094020A CN 113094020 A CN113094020 A CN 113094020A CN 202110278224 A CN202110278224 A CN 202110278224A CN 113094020 A CN113094020 A CN 113094020A
Authority
CN
China
Prior art keywords
maximum
minimum
values
data
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110278224.9A
Other languages
English (en)
Other versions
CN113094020B (zh
Inventor
程军
张向楠
梅魁志
赵英海
李昕
钟佳宏
高凡
黄瀚庭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202110278224.9A priority Critical patent/CN113094020B/zh
Publication of CN113094020A publication Critical patent/CN113094020A/zh
Application granted granted Critical
Publication of CN113094020B publication Critical patent/CN113094020B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/02Comparing digital values
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种快速查找数据集最大或最小N个值的硬件装置及方法,包括所述存储器单元,用于分组存储参与向量最大值或最小值运算的数据;所述寄存器单元,用于存储最大或最小N个值的中间结果和最终结果;所述比较器单元,用于比较当前最大值或最小值寄存器中所存储的值和当前每组对应的输入数据的大小关系;根据比较器的结果选择是否更新最大值或最小值寄存器中所存储的值。本发明通过使用两级多分组流水线设计,在不增加额外存储资源的情况下大大减少了求取最大或最小N个值的周期数,减少了计算所需的时间。

Description

一种快速查找数据集最大或最小N个值的硬件装置及方法
技术领域
本发明属于集成电路芯片设计技术领域,涉及数据最大值运算装置及方法,特别涉及一种快速查找数据集最大或最小N个值的硬件装置及方法。
背景技术
在信息技术迅速发展的社会背景下,每天产生的数据量是超出我们想象的,直接对这些数据进行后续计算处理是非常耗时且浪费资源的。如何快速在这些数据中筛选出有用数据以送给后续装置进一步处理成为减少信息处理量的关键。在实际应用中,人们常常利用CPU(central processing unit)或者将数据排序后再截取前面的数据给后续步骤进行处理,相较于FPGA(Field Programmable Gate Array)和ASIC(Application SpecificIntegrated Circuit),CPU更偏向于通用且耗时长、能耗高,而先排序意味着多消耗一倍的存储资源。
发明内容
本发明的目的在于提供一种快速查找数据集最大或最小N个值的硬件装置及方法,以克服现有技术存在的缺陷,本发明在不消耗额外存储资源的情况下,大幅减少了计算数据集中最大或最小N个值所需的周期数,实现快速返回最大或最小的N个值或其索引。
为达到上述目的,本发明采用如下技术方案:
一种快速查找数据集最大或最小N个值的硬件装置,包括存储器单元、寄存器单元和比较器单元;
所述存储器单元,用于分组存储参与向量最大值或最小值运算的数据;
所述寄存器单元,用于存储最大或最小N个值的中间结果和最终结果;所述中间结果是指数据分组后每组产生的最大或最小N个值;所述最终结果是指对每组得到的中间结果比较后得出的最终N个值,即所有参与最大值或最小值计算的数据参与比较得出的最终的N个最大值或N个最小值;
所述比较器单元,用于比较当前最大值或最小值寄存器中所存储的值和当前每组对应的输入数据的大小关系;根据比较器的结果选择是否更新最大值或最小值寄存器中所存储的值。
进一步地,所述寄存器单元分为三类,第一类用于临时寄存从存储器单元中读取的用于比较的临时数据;第二类用于寄存分组后每组最大或最小的N个值的中间结果;第三类寄存器用来寄存将每组的中间结果进行相互比较得到的最终结果。
进一步地,所述存储器单元包括若干存储器,所述存储器数量等于分组数量。
进一步地,所述比较器单元包括若干比较器,且每个存储器对应N个比较器。
进一步地,所述寄存器单元包括若干寄存器,且寄存器数量等于N。
一种快速查找数据集最大或最小N个值的方法,包括以下步骤:
步骤S1:将参与向量最大值或最小值运算的数据分组存储;
步骤S2:分别比较出每组中最大或最小的N个值;
步骤S3:比较各组最大或最小的N个值,从而得出整个数据集的最大或最小的N个值。
进一步地,步骤S1中分组数量确定方法如下:
在不考虑存储资源的消耗,则最优的分组数由针对不同分组数得到最终结果所需的时钟周期数确定;所需时钟周期数最少的分组数为最优的分组数。
进一步地,从数据集M中寻找其最大或最小的N个值,则其最优分组数kop满足kop*kop=M/N,解上述方程四舍五入取整后即为最优分组数kop的最终结果。
进一步地,最优分组数kop对应的完成查找最大或最小N个值所需的时钟周期数为
Figure BDA0002976725460000031
进一步地,当在FPGA上实施时,综合考虑FPGA器件片上可用存储资源的数量和最优分组数,取其小者为最终分组结果。
与现有技术相比,本发明具有以下有益的技术效果:
本发明所述硬件电路采用了分组比较加两级流水线的设计思想,相比于软件实现该过程和普通硬件加速过程,分组比较保证了比较模块具有较高的并行度,可以同时实现多组数据同时比较,同时流水线的结构提供了较高的数据吞吐量。通过本发明实施的硬件电路,在不消耗额外存储资源的情况下,大幅减少了计算数据集中最大或最小N个值所需的周期数,实现快速返回最大或最小的N个值或其索引。在实际应用中,针对一特定数据集特定任务,我们在ARM(Advanced RISC Machine)处理器上运行的时间为350ms,而采用本发明所述硬件电路仅需300多us,提升效率达数百甚至一千倍。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍:
图1是本发明以分组为15寻找最大5个值为例时第一级分组电路的整体结构图;
图2是本发明以分组为15寻找最大5个值为例时第二级分组电路的整体结构图;
图3是针对图1和图2中MAX模块的内部结构的细节展开图;
图4是本发明所述电路结构的状态转移图。
具体实施方式
下面对本发明作进一步详细描述:
一种快速查找数据集最大或最小N个值的方法,设计采用流水线架构,具体技术方案如下:
第一方面,本发明提供了一种处理装置,该处理装置用于快速求取数据集中最大或最小N个值,该处理装置包括:存储器单元、比较器单元和寄存器单元;
所述存储器单元,用于分组存储参与向量最大值或最小值运算的数据;
所述寄存器单元,用于存储最大或最小N个值的中间结果和最终结果;所述中间结果是指数据分组后每组产生的最大或最小N个值;所述最终结果是指每组得到的中间结果比较后得出的最终N个值,即所有参与最大值或最小值计算的数据参与比较得出的最终的N个最大值或N个最小值;
所述比较器单元,用于比较当前最大值或最小值寄存器中所存储的值和当前每组对应的输入数据的大小关系;根据比较器的结果选择是否更新最大值或最小值寄存器中所存储的值。
第二方面,针对所述处理装置,本发明还提供了一种快速确定最优分组数的方法,并以此计算出整个电路完成比较所需要的时钟周期数,主要包括两种情况:
第一种情况,如不需考虑存储资源的消耗,则最优的分组数由针对不同分组数得到最终结果所需的时钟周期数确定;所需时钟周期数最少的分组数为最优的分组数。真对特定问题,如从M个数据中找出其最大或最小的N个值,则其最优分组数k应该满足k*k=M/N,解上述方程并取整即为最优分组数k的最终结果;此最优分组数对应的电路完成查找最大或最小N个值所需的时钟周期数约为
Figure BDA0002976725460000041
第二种情况,在FPGA上实施本电路设计时,需要综合考虑FPGA器件片上可用存储资源的多少和最优分组数,取其小者为最终分组结果。
可以看出,通过本发明实施的硬件电路,在不消耗额外存储资源的情况下,大幅减少了计算数据集中最大或最小N个值所需的周期数,实现快速返回最大或最小的N个值或其索引。
下面结合附图和实施例对本发明作进一步详细描述:
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一、用于快速求取数据集中最大或最小N个值的硬件电路
本发明提供了一种快速查找数据集中最大或最小N个值的硬件电路实现,包括存储器单元、寄存器单元和比较器单元。存储器单元中存储需要处理的数据集,寄存器单元分为三类,第一类用于临时寄存从存储器中读取的用于比较的临时数据;第二类用于寄存分组后每组最大或最小的N个值的临时结果;第三类寄存器用来寄存将每组的临时结果进行相互比较得到的临时结果。当所有数据遍历后,该寄存器中寄存的值即为所求数据集中最大或最小的N个值的最终结果。本发明将参与比较的数据集暂存在高速暂存存储器上,使得向量最大值最小值运算过程中可以更加灵活有效地支持不同位宽的数据。
本发明采用两级多分组比较的设计思想,首先将需要比较的数据集分为k组,第一级为从分组后的每组数据中找出各组数据最大或最小的N个值,图1是本发明以分组为15寻找最大5个值为例时第一级电路的整体结构图;第二级为从第一级各寄存器中寄存的各组数据中最大或最小的N个值(即共N*k个数据)中找出整体最终最大或最小的N个值,图2是本发明以分组为15寻找最大5个值为例时第第二级电路的整体结构图。
图1和图2中的MAX模块的内部结构如图3所示,可以看出每个MAX模块由两个寄存器、一个比较器和一个MUX(二选一多路选择器)电路组成。
在该实施例中,寄存器REG_MAX0初始化为零,之后每次输入数据的值IN和上个周期保存的值比较,保存结果中较大的值;寄存器REG_out初始化为零,之后存储每次输入值和当前值比较结果中较小的值输入下一级MAX单元;比较器的两个输入分别是每次输入的数据和REG_MAX中存储的值,比较的结果同时连接MUX电路的选择端口和REG_MAX0的使能端,控制寄存器REG_MAX0中的值是否变化以及多路选择器的输出;多路选择器电路的输入为输入数据和RE_MAX0中寄存的值,其输出的值将寄存在REG_out中。
结合图1和图2即为以分组为15寻找最大5个值的实施例的整体结构图,该实施例为我们在硬件上实现卷积神经网络目标检测算法FASTERR-CNN时遇到的实际问题,主要用于加速算法中RPN(RegionProposal Network,区域建议网络)中NMS(Non-MaximumSuppression,非极大值抑制)模块,在该模块中,我们针对软硬件实施的不同对软件算法进行了改进以最大限度地提升算法的速度,具体地该实施例用于快速查找15360个数据中最大的5个值,具体包括如下步骤:
步骤S1:数据分组存储。
将数据集分为15份,每个RAM单元中存储1024个数据,数据位宽根据实际数据位宽确定即可。
步骤S2:分别比较出每组中最大的5个值。
完成初始化后同时依次读取每个RAM中的数据至各组MAX0模块的输入端,经过比较后将较大者存入MAX0模块中,同时将较小者输出至MAX1模块,同理,模块MAX1、MAX2、MAX3和MAX4与模块MAX0功能相同。在每组RAM中的数据遍历一遍后即可得出各组各自的最大的5个值,分别存储在各MAX模块的REG_MAX寄存器中。
步骤S3:比较各组最大的5个值得出整个数据集的最大5个值。
将步骤S2得到的15*5个值依次输入图2中的寄存器REG,经过MAX0——MAX4模块后即可得到整个数据集的最大5个值,并将他们并行输出如图2所示。
二、一种针对快速求取最大或最小N个值电路快速确定最优分组数的方法
从数据集M(表示含有M个数据)中寻找其最大或最小的N个值,假设分为k组,则:
第一级所需时钟数为:
Figure BDA0002976725460000071
第二级所需时钟数为:T2=1+(k-1)*N+N=kN+1;
因此,总需时钟数为:
Figure BDA0002976725460000072
上式TS中,前两项的积为定值M*N,后两项N+1在N给定时为常数;
根据均值不等式,两数积为定值时,两数之和在两者相等时取最小,因此,最优分组数kop应满足式
Figure BDA0002976725460000073
解得
Figure BDA0002976725460000074
此时,总的时钟数的最小值为
Figure BDA0002976725460000075
在不考虑资源消耗等其他问题的前提下,实现快速查找电路中N个极值的分组数应该尽可能向上述kop靠近,可以最大化减少整个电路完成工作所需的时钟周期数。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种快速查找数据集最大或最小N个值的硬件装置,其特征在于,包括存储器单元、寄存器单元和比较器单元;
所述存储器单元,用于分组存储参与向量最大值或最小值运算的数据;
所述寄存器单元,用于存储最大或最小N个值的中间结果和最终结果;所述中间结果是指数据分组后每组产生的最大或最小N个值;所述最终结果是指对每组得到的中间结果比较后得出的最终N个值,即所有参与最大值或最小值计算的数据参与比较得出的最终的N个最大值或N个最小值;
所述比较器单元,用于比较当前最大值或最小值寄存器中所存储的值和当前每组对应的输入数据的大小关系;根据比较器的结果选择是否更新最大值或最小值寄存器中所存储的值。
2.根据权利要求1所述的一种快速查找数据集最大或最小N个值的硬件装置,其特征在于,所述寄存器单元分为三类,第一类用于临时寄存从存储器单元中读取的用于比较的临时数据;第二类用于寄存分组后每组最大或最小的N个值的中间结果;第三类寄存器用来寄存将每组的中间结果进行相互比较得到的最终结果。
3.根据权利要求1所述的一种快速查找数据集最大或最小N个值的硬件装置,其特征在于,所述存储器单元包括若干存储器,所述存储器数量等于分组数量。
4.根据权利要求2所述的一种快速查找数据集最大或最小N个值的硬件装置,其特征在于,所述比较器单元包括若干比较器,且每个存储器对应N个比较器。
5.根据权利要求2所述的一种快速查找数据集最大或最小N个值的硬件装置,其特征在于,所述寄存器单元包括若干寄存器,且寄存器数量等于N。
6.一种快速查找数据集最大或最小N个值的方法,采用权利要求1所述的一种快速查找数据集最大或最小N个值的硬件装置,其特征在于,包括以下步骤:
步骤S1:将参与向量最大值或最小值运算的数据分组存储;
步骤S2:分别比较出每组中最大或最小的N个值;
步骤S3:比较各组最大或最小的N个值,从而得出整个数据集的最大或最小的N个值。
7.根据权利要求6所述的一种快速查找数据集最大或最小N个值的方法,其特征在于,步骤S1中分组数量确定方法如下:
在不考虑存储资源的消耗,则最优的分组数由针对不同分组数得到最终结果所需的时钟周期数确定;所需时钟周期数最少的分组数为最优的分组数。
8.根据权利要求7所述的一种快速查找数据集最大或最小N个值的方法,其特征在于,从数据集M中寻找其最大或最小的N个值,则其最优分组数kop满足kop*kop=M/N,解上述方程四舍五入取整后即为最优分组数kop的最终结果。
9.根据权利要求8所述的一种快速查找数据集最大或最小N个值的方法,其特征在于,最优分组数kop对应的完成查找最大或最小N个值所需的时钟周期数为
Figure FDA0002976725450000021
10.根据权利要求8所述的一种快速查找数据集最大或最小N个值的方法,其特征在于,当在FPGA上实施时,综合考虑FPGA器件片上可用存储资源的数量和最优分组数,取其小者为最终分组结果。
CN202110278224.9A 2021-03-15 2021-03-15 一种快速查找数据集最大或最小n个值的硬件装置及方法 Active CN113094020B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110278224.9A CN113094020B (zh) 2021-03-15 2021-03-15 一种快速查找数据集最大或最小n个值的硬件装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110278224.9A CN113094020B (zh) 2021-03-15 2021-03-15 一种快速查找数据集最大或最小n个值的硬件装置及方法

Publications (2)

Publication Number Publication Date
CN113094020A true CN113094020A (zh) 2021-07-09
CN113094020B CN113094020B (zh) 2023-03-28

Family

ID=76667427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110278224.9A Active CN113094020B (zh) 2021-03-15 2021-03-15 一种快速查找数据集最大或最小n个值的硬件装置及方法

Country Status (1)

Country Link
CN (1) CN113094020B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0228828A (ja) * 1988-07-19 1990-01-30 Fujitsu Ltd 最大値最小値検出回路
US5261111A (en) * 1988-10-18 1993-11-09 Japan Atomic Energy Research Institute Pipelined processor for vector data classification according to vector attributes using coupled comparator chain and logic gate to respective bin chain
US5640554A (en) * 1993-10-12 1997-06-17 Fujitsu Limited Parallel merge and sort process method and system thereof
JPH10143354A (ja) * 1996-11-08 1998-05-29 Japan Radio Co Ltd Dsp及びこれに適する最大値最小値検出器
US5907842A (en) * 1995-12-20 1999-05-25 Intel Corporation Method of sorting numbers to obtain maxima/minima values with ordering
US5991785A (en) * 1997-11-13 1999-11-23 Lucent Technologies Inc. Determining an extremum value and its index in an array using a dual-accumulation processor
US20040085963A1 (en) * 2002-05-24 2004-05-06 Zarlink Semiconductor Limited Method of organizing data packets
CN1987771A (zh) * 2005-12-23 2007-06-27 中兴通讯股份有限公司 一种实现数据排序的硬件电路及方法
CN101261576A (zh) * 2008-04-03 2008-09-10 启攀微电子(上海)有限公司 实现并行数据排序的硬件电路及方法
CN102520903A (zh) * 2011-12-13 2012-06-27 中国科学院自动化研究所 支持定浮点可重构的长度可配置的向量最大/最小值网络
US20150236684A1 (en) * 2014-02-18 2015-08-20 Fujitsu Limited Multiplexer circuit, computer-readable recording medium having stored therein program for designing multiplexer circuit, and apparatus for designing multiplexer circuit
CN107315567A (zh) * 2016-04-26 2017-11-03 北京中科寒武纪科技有限公司 一种用于执行向量最大值最小值运算的装置和方法
US20180181394A1 (en) * 2016-12-22 2018-06-28 Vinodh Gopal Processor instructions for determining two minimum and two maximum values
CN111813370A (zh) * 2020-07-08 2020-10-23 上海雪湖科技有限公司 基于fpga的多路并行归并排序系统

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0228828A (ja) * 1988-07-19 1990-01-30 Fujitsu Ltd 最大値最小値検出回路
US5261111A (en) * 1988-10-18 1993-11-09 Japan Atomic Energy Research Institute Pipelined processor for vector data classification according to vector attributes using coupled comparator chain and logic gate to respective bin chain
US5640554A (en) * 1993-10-12 1997-06-17 Fujitsu Limited Parallel merge and sort process method and system thereof
US5907842A (en) * 1995-12-20 1999-05-25 Intel Corporation Method of sorting numbers to obtain maxima/minima values with ordering
JPH10143354A (ja) * 1996-11-08 1998-05-29 Japan Radio Co Ltd Dsp及びこれに適する最大値最小値検出器
US5991785A (en) * 1997-11-13 1999-11-23 Lucent Technologies Inc. Determining an extremum value and its index in an array using a dual-accumulation processor
US20040085963A1 (en) * 2002-05-24 2004-05-06 Zarlink Semiconductor Limited Method of organizing data packets
CN1987771A (zh) * 2005-12-23 2007-06-27 中兴通讯股份有限公司 一种实现数据排序的硬件电路及方法
CN101261576A (zh) * 2008-04-03 2008-09-10 启攀微电子(上海)有限公司 实现并行数据排序的硬件电路及方法
CN102520903A (zh) * 2011-12-13 2012-06-27 中国科学院自动化研究所 支持定浮点可重构的长度可配置的向量最大/最小值网络
US20150236684A1 (en) * 2014-02-18 2015-08-20 Fujitsu Limited Multiplexer circuit, computer-readable recording medium having stored therein program for designing multiplexer circuit, and apparatus for designing multiplexer circuit
CN107315567A (zh) * 2016-04-26 2017-11-03 北京中科寒武纪科技有限公司 一种用于执行向量最大值最小值运算的装置和方法
CN111651204A (zh) * 2016-04-26 2020-09-11 中科寒武纪科技股份有限公司 一种用于执行向量最大值最小值运算的装置和方法
US20180181394A1 (en) * 2016-12-22 2018-06-28 Vinodh Gopal Processor instructions for determining two minimum and two maximum values
CN108228238A (zh) * 2016-12-22 2018-06-29 英特尔公司 用于确定两个最小值和两个最大值的处理器指令
CN111813370A (zh) * 2020-07-08 2020-10-23 上海雪湖科技有限公司 基于fpga的多路并行归并排序系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AMIN NOROLLAH 等: "RTHS: A Low-Cost High-Performance Real-Time Hardware Sorter, Using a Multidimensional Sorting Algorithm", 《 IEEE TRANSACTIONS ON VERY LARGE SCALE INTEGRATION (VLSI) SYSTEMS》 *
冯著明等: "多点并行查找和排序算法及实现", 《计算机研究与发展》 *

Also Published As

Publication number Publication date
CN113094020B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
US10607668B2 (en) Data processing method and apparatus
CN110688088B (zh) 一种面向神经网络的通用非线性激活函数计算装置和方法
US20210256357A1 (en) Embedded stochastic-computing accelerator architecture and method for convolutional neural networks
WO2022188575A1 (zh) 一种超参数调优方法、装置及存储介质
CN103412858A (zh) 用于文本或网络内容分析的大规模特征匹配的方法
Kulkarni et al. Hyperloglog sketch acceleration on fpga
Li et al. BLASTP-ACC: Parallel architecture and hardware accelerator design for BLAST-based protein sequence alignment
Zhang et al. Efficient hardware post processing of anchor-based object detection on FPGA
Papaphilippou et al. An adaptable high-throughput FPGA merge sorter for accelerating database analytics
CN111008691B (zh) 一种权值和激活值都二值化的卷积神经网络加速器架构
CN105573843A (zh) 一种数据处理方法和系统
Sun et al. Accelerating frequent item counting with FPGA
CN113094020B (zh) 一种快速查找数据集最大或最小n个值的硬件装置及方法
Liu et al. ReGNN: a ReRAM-based heterogeneous architecture for general graph neural networks
Chrysos et al. Data stream statistics over sliding windows: How to summarize 150 million updates per second on a single node
US10101965B1 (en) Method and apparatus for high speed streaming sorter
Hsiao et al. Efficient computation of depthwise separable convolution in MoblieNet deep neural network models
JP2017157215A (ja) ニューラル・ネットワーク解析
CN110505322B (zh) 一种ip地址段查找方法及装置
CN109491602A (zh) 一种用于Key-Value数据存储的Hash计算方法及系统
CN116227599A (zh) 一种推理模型的优化方法、装置、电子设备及存储介质
CN105337759B (zh) 一种基于社区结构的内外比度量方法及社区发现方法
Nguyen et al. Highly parallel bitmap-based regular expression matching for text analytics
Hayashi et al. An FPGA-based In-NIC cache approach for lazy learning outlier filtering
CN110059814A (zh) 一种基于fpga的查找表式卷积运算硬件结构

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant