CN111813370A

CN111813370A - 基于fpga的多路并行归并排序系统

Info

Publication number: CN111813370A
Application number: CN202010653781.XA
Authority: CN
Inventors: 江承谦
Original assignee: Shanghai Xuehu Technology Co ltd
Current assignee: Shanghai Xuehu Technology Co ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-10-23
Anticipated expiration: 2040-07-08
Also published as: CN111813370B

Abstract

本发明涉及到计算机运算排序技术领域，尤其涉及到一种基于FPGA的多路并行归并排序系统，包括有数据分发模块、迭代控制器、主缓存、读地址产生器和比较仲裁器；本发明可以在FPGA上实现通用化的高速排序，实现用FPGA加速大数据量排序大大加快处理速度，同时支持纯FPGA运行的运算。

Description

基于FPGA的多路并行归并排序系统

技术领域

本发明涉及到计算机运算排序技术领域，尤其涉及到一种基于FPGA的多路并行归并排序系统。

背景技术

无论是前后端应用、人工智能、大数据，还是科学运算，排序在计算机所有领域都有至关重要的作用。目前排序的实现主要是CPU与RAM来回交互，对数据两个两个比较进行的。此方法是用CPU指令一步一步完成，在边缘计算平台上，耗能较高；由于同时只能对两个数进行排序，在数据量达到几千几万时，处理速度极其依赖平台运算性能，对于某些低功耗低延迟要求的应用很不友好。

FPGA(现场可编程逻辑门阵列)是一种半定制电路，它可用电路完成软件所需的运算及处理。相比于CPU具有运算速度快、可并行、功耗低等优点，相比于ASIC具有开发时间短、电路可调等优点，因此FPGA是适合于多个应用场景的高速运算芯片，利用FPGA的特性，可以开发一种高效的排序模块，大大提升数据排序的速度。

发明内容

鉴于上述技术问题，本发明提供了一种基于FPGA的多路并行归并排序系统，此发明是为了在人工智能等大部分领域，设计一个可以在FPGA上实现通用化的高速排序的方法，实现用FPGA加速大数据量排序大大加快处理速度。

一种基于FPGA的多路并行归并排序系统，其中，所述系统包括有：

数据分发模块、迭代控制器、主缓存、读地址产生器和比较仲裁器；

数据分发模块，将未排序的初始数据均匀分布在各个子序列中；

迭代控制器，与所述读地址产生器连接，所述迭代控制器会控制读地址产生器，以将对所有的数据进行一次遍历，完成一次遍历称作一次迭代，每次迭代会对多组子序列比较并产生新序列，并将新序列中的数据存储至预设地址中；

主缓存，分别与所述数据分发模块、所述读地址产生器、所述比较仲裁器连接，用于接收所述读地址产生器的产生的旧序列的数据地址，输出旧序列的内容至所述比较仲裁器参加排序，并接收所述比较仲裁器产生的新序列；

若干读地址产生器，与所述迭代控制器、所述主缓存连接，所述读地址产生器会基于所述比较仲裁器的反馈信号产生旧序列的数据的地址给所述主缓存，再由主缓存将数据输出给所述比较仲裁器；

比较仲裁器，与所述主缓存连接，所述比较仲裁器接收主缓存中的旧序列，进行旧序列比较，并选出最大或者最小值填入大的另一新序列，存回所述主缓存中，最后一次迭代输出完成归并排序。

上述的基于FPGA的多路并行归并排序系统，其中，每次迭代会对多组子序列比较并产生新序列，一组子序列是相邻的多个子序列，它们会一起进行比较，当一组子序列比较完成，会开始下一组子序列的比较，当所有子序列参加完比较后，一次迭代完成，迭代控制器需要记住当前的迭代的状态，控制子序列的大小和地址。

上述的基于FPGA的多路并行归并排序系统，其中，该系统能展开多个核心，同时对多组子序列并行进行排序。

上述的基于FPGA的多路并行归并排序系统，其中，多个读地址产生器可以共用同一个缓存模块的读数据端口。

上述技术方案具有如下优点或有益效果：

本发明提供了一种基于FPGA的多路并行归并排序系统，可以在FPGA上实现通用化的高速排序，实现用FPGA加速大数据量排序大大加快处理速度，同时支持纯FPGA运行的运算，使排序相关算法可以脱离CPU端在FPGA上实现，有效提升FPGA的运行效率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明及其特征、外形和优点将会变得更加明显。在全部附图中相同的标记指示相同的部分。并未可以按照比例绘制附图，重点在于示出本发明的主旨。

图1是本发明基于FPGA的多路并行归并排序系统的整体架构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施技术方案的方法基础原理是归并排序，结合FPGA并行运算的特点，大大加快处理速度，设计运行频率是200MHz到350MHz，这是当前业内FPGA高速逻辑的主要频率。归并排序的原理是将两个有序序列的最大(最小)值比较，选出这两个数的最大(最小)值放入一个新的序列，再把两个序列剩下的数的最大(最小)值比较并放入新序列，不断重复此过程，直到读取的两个有序序列的数全部进入新的序列。新的序列再和另一个新序列用同样的方式排序，直到没有第二个新序列产生。

在FPGA中，由于并行运算的特性，可以将多个有序子序列同时比较，从而减少数据遍历的次数，此为多路排序。各个子序列除了最后一次迭代，都是相互独立的，FPGA可以创建多个核心，同时对多组子序列进行排序，减少一次数据遍历排序时间，此为并行排序。在实际项目中，可根据实际情况配置这两个优化方案。

由此，如图1所示，本发明提供了一种基于FPGA的多路并行归并排序系统，系统主要构架包括有：数据分发模块、迭代控制器、主缓存、读地址产生器和比较仲裁器。

迭代控制器，与读地址产生器连接，迭代控制器会控制读地址产生器，以将对所有的数据进行一次遍历，完成一次遍历称作一次迭代，每次迭代会对多组子序列比较并产生新序列，并将新序列中的数据存储至预设地址中；

主缓存，分别与数据分发模块、读地址产生器、比较仲裁器连接，用于接收读地址产生器的产生的旧序列的数据地址，输出旧序列的内容至比较仲裁器参加排序，并接收比较仲裁器产生的新序列；

若干读地址产生器，与迭代控制器、主缓存连接，读地址产生器会基于比较仲裁器的反馈信号产生旧序列的数据的地址给主缓存，再由主缓存将数据输出给比较仲裁器；

比较仲裁器，与主缓存连接，比较仲裁器接收主缓存中的旧序列，进行旧序列比较，并选出最大或者最小值填入大的另一新序列，存回所述主缓存中，最后一次迭代输出完成归并排序。

在本发明技术方案中，每次迭代会对多组子序列比较并产生新序列，一组子序列是相邻的多个子序列，它们会一起进行比较，当一组子序列比较完成，会开始下一组子序列的比较，当所有子序列参加完比较后，一次迭代完成，迭代控制器需要记住当前的迭代的状态，控制子序列的大小和地址。

优选的，多个读地址产生器可以共用同一个缓存模块的读数据端口。

图1为系统整体架构的4核心4路归并的示例，主要包括有：

数据分发模块，该模块是为了让数据均匀分布在各个核心、各个子序列，以减少其它子序列等待较大子序列的时间，总体上加快排序速度。

迭代控制器，在此排序模块中，对所有数据完成一次遍历称作一次迭代，每次迭代会对多组子序列比较并产生新序列。一组子序列是相邻的多个子序列，它们会一起进行比较，当一组子序列比较完成，会开始下一组子序列的比较。当所有子序列参加完比较后，一次迭代完成。迭代控制器需要记住当前的迭代的状态，控制子序列的大小和地址。

FPGA是以数字电路运行的程序，因此，各个序列对齐到2^n是最适合的方式，因此，每个子序列的大小都是2^n。通常情况下，排序模块得到的输入数据量往往不是2^n个，因此每一轮迭代的最后一个子序列长度通常不是2^n。对于这个特殊情况的处理，需要迭代控制器产生信号，告知地址产生器最后一个序列的大小，其中包括“这个地址区间没有数据，不参与排序”的信号。此模块还需协调好多个核心的进度，使所有核心的迭代状态保持一致。

主缓存，此归并排序所需的空间复杂度为2n，即需要两倍数据量的缓存来完成排序。该方法在排序时，需要把几个子序列的数据进行比较，写入相当于这几个子序列总和的新序列，这个过程是从缓存A写入缓存B的过程。A缓存写入B缓存是一个方向，每一次迭代的写入方向一致，一次迭代完成后，通过选通逻辑，交换AB缓存的方向，以此进行连续的排序。

读地址产生器，FPGA的多路归并是让多个新序列同时互相比较，选出最大(最小)值填入更大的另一新序列，每个读地址产生器都会产生一路排序数据的地址，对应一个子序列，此方法则会用多个读地址产生器，产生相邻的多个子序列的地址，读出来的数据就是多个子序列参与多路归并。

归并排序一次只能比较出一个最大或最小值，因此，多个读地址产生器可以共用同一个缓存模块的读数据端口。为了能够端口复用，在缓存模块的数据出口，每一路子序列都需要使用一个较小的FIFO来缓存数据。排序模块会循环遍历，使能各个读地址产生器，每周期的使能能读取一个数据。通过循环遍历，使每个子序列的FIFO数据量均匀分布。

当子序列内的数据大小分布不均匀，例如大部分数据都接近最大或最小值时，有可能会导致FIFO溢出或被读空。为了解决这个问题，需要对各个子序列读数据的优先级进行调整，每路FIFO需要产生两个信号，一个是FIFO即将被填满的“将满”(ProgrammableFull)信号，一个是FIFO即将被读空的“将空”(ProgrammableEmpty)信号。将满信号产生时，该路的数据读取会被暂停，直到信号消失。将空信号产生时，该路的数据读取会被优先进行，直到该信号消失，才会去遍历其它的子序列。如果有多路将空信号产生，这些路将被提高优先级循环遍历，直到这些信号消失。通过循环遍历，再结合排序结果调整各个排序区间读数据的优先级，这样即使各个排序区间的数据极不均匀，也能使读数据量的均匀分布。

比较仲裁器，该模块是将多个数同时比较，选出最大或最小值的模块。比较的原理是让所有子序列两两比较，必定会有一个子序列产生“大于所有子序列”的结果，该路的数据将作为最大(最小)写入新序列，并且FIFO读下一个数据。如果同时有两个最大(最小)值一起出信号，即两个数值一样的最大(最小)值，该模块将从中随机选择一个作为输出。如果发生FIFO被读空，比较将暂停，直到所有FIFO都有数据。

本领域技术人员应该理解，本领域技术人员在结合现有技术以及上述实施例可以实现所述变化例，在此不做赘述。这样的变化例并不影响本发明的实质内容，在此不予赘述。

以上对本发明的较佳实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施；任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案作出许多可能的变动和修饰，或修改为等同变化的等效实施例，这并不影响本发明的实质内容。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种基于FPGA的多路并行归并排序系统，其特征在于，所述系统包括有：

2.根据权利要求1所述的基于FPGA的多路并行归并排序系统，其特征在于，每次迭代会对多组子序列比较并产生新序列，一组子序列是相邻的多个子序列，它们会一起进行比较，当一组子序列比较完成，会开始下一组子序列的比较，当所有子序列参加完比较后，一次迭代完成，迭代控制器需要记住当前的迭代的状态，控制子序列的大小和地址。

3.根据权利要求1所述的基于FPGA的多路并行归并排序系统，其特征在于，该系统能展开多个核心，同时对多组子序列并行进行排序。

4.根据权利要求1所述的基于FPGA的多路并行归并排序系统，其特征在于，多个读地址产生器可以共用同一个缓存模块的读数据端口。