CN113094020A

CN113094020A - 一种快速查找数据集最大或最小n个值的硬件装置及方法

Info

Publication number: CN113094020A
Application number: CN202110278224.9A
Authority: CN
Inventors: 程军; 张向楠; 梅魁志; 赵英海; 李昕; 钟佳宏; 高凡; 黄瀚庭
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-07-09
Anticipated expiration: 2041-03-15
Also published as: CN113094020B

Abstract

本发明公开了一种快速查找数据集最大或最小N个值的硬件装置及方法，包括所述存储器单元，用于分组存储参与向量最大值或最小值运算的数据；所述寄存器单元，用于存储最大或最小N个值的中间结果和最终结果；所述比较器单元，用于比较当前最大值或最小值寄存器中所存储的值和当前每组对应的输入数据的大小关系；根据比较器的结果选择是否更新最大值或最小值寄存器中所存储的值。本发明通过使用两级多分组流水线设计，在不增加额外存储资源的情况下大大减少了求取最大或最小N个值的周期数，减少了计算所需的时间。

Description

一种快速查找数据集最大或最小N个值的硬件装置及方法

技术领域

本发明属于集成电路芯片设计技术领域，涉及数据最大值运算装置及方法，特别涉及一种快速查找数据集最大或最小N个值的硬件装置及方法。

背景技术

在信息技术迅速发展的社会背景下，每天产生的数据量是超出我们想象的，直接对这些数据进行后续计算处理是非常耗时且浪费资源的。如何快速在这些数据中筛选出有用数据以送给后续装置进一步处理成为减少信息处理量的关键。在实际应用中，人们常常利用CPU(central processing unit)或者将数据排序后再截取前面的数据给后续步骤进行处理，相较于FPGA(Field Programmable Gate Array)和ASIC(Application SpecificIntegrated Circuit)，CPU更偏向于通用且耗时长、能耗高，而先排序意味着多消耗一倍的存储资源。

发明内容

本发明的目的在于提供一种快速查找数据集最大或最小N个值的硬件装置及方法，以克服现有技术存在的缺陷，本发明在不消耗额外存储资源的情况下，大幅减少了计算数据集中最大或最小N个值所需的周期数，实现快速返回最大或最小的N个值或其索引。

为达到上述目的，本发明采用如下技术方案：

一种快速查找数据集最大或最小N个值的硬件装置，包括存储器单元、寄存器单元和比较器单元；

所述存储器单元，用于分组存储参与向量最大值或最小值运算的数据；

所述寄存器单元，用于存储最大或最小N个值的中间结果和最终结果；所述中间结果是指数据分组后每组产生的最大或最小N个值；所述最终结果是指对每组得到的中间结果比较后得出的最终N个值，即所有参与最大值或最小值计算的数据参与比较得出的最终的N个最大值或N个最小值；

所述比较器单元，用于比较当前最大值或最小值寄存器中所存储的值和当前每组对应的输入数据的大小关系；根据比较器的结果选择是否更新最大值或最小值寄存器中所存储的值。

进一步地，所述寄存器单元分为三类，第一类用于临时寄存从存储器单元中读取的用于比较的临时数据；第二类用于寄存分组后每组最大或最小的N个值的中间结果；第三类寄存器用来寄存将每组的中间结果进行相互比较得到的最终结果。

进一步地，所述存储器单元包括若干存储器，所述存储器数量等于分组数量。

进一步地，所述比较器单元包括若干比较器，且每个存储器对应N个比较器。

进一步地，所述寄存器单元包括若干寄存器，且寄存器数量等于N。

一种快速查找数据集最大或最小N个值的方法，包括以下步骤：

步骤S1：将参与向量最大值或最小值运算的数据分组存储；

步骤S2：分别比较出每组中最大或最小的N个值；

步骤S3：比较各组最大或最小的N个值，从而得出整个数据集的最大或最小的N个值。

进一步地，步骤S1中分组数量确定方法如下：

在不考虑存储资源的消耗，则最优的分组数由针对不同分组数得到最终结果所需的时钟周期数确定；所需时钟周期数最少的分组数为最优的分组数。

进一步地，从数据集M中寻找其最大或最小的N个值，则其最优分组数k_op满足k_op*k_op＝M/N，解上述方程四舍五入取整后即为最优分组数k_op的最终结果。

进一步地，最优分组数k_op对应的完成查找最大或最小N个值所需的时钟周期数为

进一步地，当在FPGA上实施时，综合考虑FPGA器件片上可用存储资源的数量和最优分组数，取其小者为最终分组结果。

与现有技术相比，本发明具有以下有益的技术效果：

本发明所述硬件电路采用了分组比较加两级流水线的设计思想，相比于软件实现该过程和普通硬件加速过程，分组比较保证了比较模块具有较高的并行度，可以同时实现多组数据同时比较，同时流水线的结构提供了较高的数据吞吐量。通过本发明实施的硬件电路，在不消耗额外存储资源的情况下，大幅减少了计算数据集中最大或最小N个值所需的周期数，实现快速返回最大或最小的N个值或其索引。在实际应用中，针对一特定数据集特定任务，我们在ARM(Advanced RISC Machine)处理器上运行的时间为350ms，而采用本发明所述硬件电路仅需300多us，提升效率达数百甚至一千倍。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍：

图1是本发明以分组为15寻找最大5个值为例时第一级分组电路的整体结构图；

图2是本发明以分组为15寻找最大5个值为例时第二级分组电路的整体结构图；

图3是针对图1和图2中MAX模块的内部结构的细节展开图；

图4是本发明所述电路结构的状态转移图。

具体实施方式

下面对本发明作进一步详细描述：

一种快速查找数据集最大或最小N个值的方法，设计采用流水线架构，具体技术方案如下：

第一方面，本发明提供了一种处理装置，该处理装置用于快速求取数据集中最大或最小N个值，该处理装置包括：存储器单元、比较器单元和寄存器单元；

所述寄存器单元，用于存储最大或最小N个值的中间结果和最终结果；所述中间结果是指数据分组后每组产生的最大或最小N个值；所述最终结果是指每组得到的中间结果比较后得出的最终N个值，即所有参与最大值或最小值计算的数据参与比较得出的最终的N个最大值或N个最小值；

第二方面，针对所述处理装置，本发明还提供了一种快速确定最优分组数的方法，并以此计算出整个电路完成比较所需要的时钟周期数，主要包括两种情况：

第一种情况，如不需考虑存储资源的消耗，则最优的分组数由针对不同分组数得到最终结果所需的时钟周期数确定；所需时钟周期数最少的分组数为最优的分组数。真对特定问题，如从M个数据中找出其最大或最小的N个值，则其最优分组数k应该满足k*k＝M/N，解上述方程并取整即为最优分组数k的最终结果；此最优分组数对应的电路完成查找最大或最小N个值所需的时钟周期数约为

第二种情况，在FPGA上实施本电路设计时，需要综合考虑FPGA器件片上可用存储资源的多少和最优分组数，取其小者为最终分组结果。

可以看出，通过本发明实施的硬件电路，在不消耗额外存储资源的情况下，大幅减少了计算数据集中最大或最小N个值所需的周期数，实现快速返回最大或最小的N个值或其索引。

下面结合附图和实施例对本发明作进一步详细描述：

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一、用于快速求取数据集中最大或最小N个值的硬件电路

本发明提供了一种快速查找数据集中最大或最小N个值的硬件电路实现，包括存储器单元、寄存器单元和比较器单元。存储器单元中存储需要处理的数据集，寄存器单元分为三类，第一类用于临时寄存从存储器中读取的用于比较的临时数据；第二类用于寄存分组后每组最大或最小的N个值的临时结果；第三类寄存器用来寄存将每组的临时结果进行相互比较得到的临时结果。当所有数据遍历后，该寄存器中寄存的值即为所求数据集中最大或最小的N个值的最终结果。本发明将参与比较的数据集暂存在高速暂存存储器上，使得向量最大值最小值运算过程中可以更加灵活有效地支持不同位宽的数据。

本发明采用两级多分组比较的设计思想，首先将需要比较的数据集分为k组，第一级为从分组后的每组数据中找出各组数据最大或最小的N个值，图1是本发明以分组为15寻找最大5个值为例时第一级电路的整体结构图；第二级为从第一级各寄存器中寄存的各组数据中最大或最小的N个值(即共N*k个数据)中找出整体最终最大或最小的N个值，图2是本发明以分组为15寻找最大5个值为例时第第二级电路的整体结构图。

图1和图2中的MAX模块的内部结构如图3所示，可以看出每个MAX模块由两个寄存器、一个比较器和一个MUX(二选一多路选择器)电路组成。

在该实施例中，寄存器REG_MAX0初始化为零，之后每次输入数据的值IN和上个周期保存的值比较，保存结果中较大的值；寄存器REG_out初始化为零，之后存储每次输入值和当前值比较结果中较小的值输入下一级MAX单元；比较器的两个输入分别是每次输入的数据和REG_MAX中存储的值，比较的结果同时连接MUX电路的选择端口和REG_MAX0的使能端，控制寄存器REG_MAX0中的值是否变化以及多路选择器的输出；多路选择器电路的输入为输入数据和RE_MAX0中寄存的值，其输出的值将寄存在REG_out中。

结合图1和图2即为以分组为15寻找最大5个值的实施例的整体结构图，该实施例为我们在硬件上实现卷积神经网络目标检测算法FASTERR-CNN时遇到的实际问题，主要用于加速算法中RPN(RegionProposal Network，区域建议网络)中NMS(Non-MaximumSuppression，非极大值抑制)模块，在该模块中，我们针对软硬件实施的不同对软件算法进行了改进以最大限度地提升算法的速度，具体地该实施例用于快速查找15360个数据中最大的5个值，具体包括如下步骤：

步骤S1：数据分组存储。

将数据集分为15份，每个RAM单元中存储1024个数据，数据位宽根据实际数据位宽确定即可。

步骤S2：分别比较出每组中最大的5个值。

完成初始化后同时依次读取每个RAM中的数据至各组MAX0模块的输入端，经过比较后将较大者存入MAX0模块中，同时将较小者输出至MAX1模块，同理，模块MAX1、MAX2、MAX3和MAX4与模块MAX0功能相同。在每组RAM中的数据遍历一遍后即可得出各组各自的最大的5个值，分别存储在各MAX模块的REG_MAX寄存器中。

步骤S3：比较各组最大的5个值得出整个数据集的最大5个值。

将步骤S2得到的15*5个值依次输入图2中的寄存器REG，经过MAX0——MAX4模块后即可得到整个数据集的最大5个值，并将他们并行输出如图2所示。

二、一种针对快速求取最大或最小N个值电路快速确定最优分组数的方法

从数据集M(表示含有M个数据)中寻找其最大或最小的N个值，假设分为k组，则：

第一级所需时钟数为：

第二级所需时钟数为：T₂＝1+(k-1)*N+N＝kN+1；

因此，总需时钟数为：

上式T_S中，前两项的积为定值M*N，后两项N+1在N给定时为常数；

根据均值不等式，两数积为定值时，两数之和在两者相等时取最小，因此，最优分组数k_op应满足式

解得

此时，总的时钟数的最小值为

在不考虑资源消耗等其他问题的前提下，实现快速查找电路中N个极值的分组数应该尽可能向上述k_op靠近，可以最大化减少整个电路完成工作所需的时钟周期数。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种快速查找数据集最大或最小N个值的硬件装置，其特征在于，包括存储器单元、寄存器单元和比较器单元；

2.根据权利要求1所述的一种快速查找数据集最大或最小N个值的硬件装置，其特征在于，所述寄存器单元分为三类，第一类用于临时寄存从存储器单元中读取的用于比较的临时数据；第二类用于寄存分组后每组最大或最小的N个值的中间结果；第三类寄存器用来寄存将每组的中间结果进行相互比较得到的最终结果。

3.根据权利要求1所述的一种快速查找数据集最大或最小N个值的硬件装置，其特征在于，所述存储器单元包括若干存储器，所述存储器数量等于分组数量。

4.根据权利要求2所述的一种快速查找数据集最大或最小N个值的硬件装置，其特征在于，所述比较器单元包括若干比较器，且每个存储器对应N个比较器。

5.根据权利要求2所述的一种快速查找数据集最大或最小N个值的硬件装置，其特征在于，所述寄存器单元包括若干寄存器，且寄存器数量等于N。

6.一种快速查找数据集最大或最小N个值的方法，采用权利要求1所述的一种快速查找数据集最大或最小N个值的硬件装置，其特征在于，包括以下步骤：

步骤S1：将参与向量最大值或最小值运算的数据分组存储；

步骤S2：分别比较出每组中最大或最小的N个值；

7.根据权利要求6所述的一种快速查找数据集最大或最小N个值的方法，其特征在于，步骤S1中分组数量确定方法如下：

8.根据权利要求7所述的一种快速查找数据集最大或最小N个值的方法，其特征在于，从数据集M中寻找其最大或最小的N个值，则其最优分组数k_op满足k_op*k_op＝M/N，解上述方程四舍五入取整后即为最优分组数k_op的最终结果。

9.根据权利要求8所述的一种快速查找数据集最大或最小N个值的方法，其特征在于，最优分组数k_op对应的完成查找最大或最小N个值所需的时钟周期数为

10.根据权利要求8所述的一种快速查找数据集最大或最小N个值的方法，其特征在于，当在FPGA上实施时，综合考虑FPGA器件片上可用存储资源的数量和最优分组数，取其小者为最终分组结果。