CN107124286A

CN107124286A - 一种海量数据高速处理、交互的系统及方法

Info

Publication number: CN107124286A
Application number: CN201610100626.9A
Authority: CN
Inventors: 尹博; 尹立东; 秦明; 李静
Original assignee: Shenzhen Know Dome Technology Co Ltd
Current assignee: Shenzhen Know Dome Technology Co Ltd
Priority date: 2016-02-24
Filing date: 2016-02-24
Publication date: 2017-09-01
Anticipated expiration: 2036-02-24
Also published as: CN107124286B

Abstract

本发明公开了一种海量数据高速处理、交互的系统及方法，其中系统包括数据收发模块、中央处理模块和数据处理模块。数据收发模块用于收发数据，中央处理模块根据GPU的数量n，开辟n块环形缓冲区，缓冲接收的数据，在积攒了一定的数据量后或一定时间内将数据拷贝至系统内存，并事先将系统内存直接映射到各GPU，待GPU处理完毕后将处理后的结果通过数据收发模块发出；数据处理模块通过DMA映射获取内存中对应的数据，控制对应的GPU进行多线程高并发处理，并将处理后的结果返回给中央处理模块。本发明实现了NIC与GPU之间的海量数据高速交互，即提高了系统的海量网络数据处理能力及交互能力，为网络实时分析提供了更可靠的技术支持。

Description

一种海量数据高速处理、交互的系统及方法

技术领域

本发明涉及海量数据的处理及交互技术，尤其涉及海量数据高速处理及交互的系统及方法。

背景技术

目前网卡的数据包处理采用多核多队列架构，线程与核绑定，每个线程处理一个队列中的数据包。内核中先分配一个大的环形缓冲区，该缓冲区切割成若干个内存节点。网卡接收数据包时，从环形缓冲区中获取内存节点，并将数据DMA到内存节点上。并维护一个接收队列环，该环中保存数据包的内存节点地址。当应用程序打开一个接收队列捕包，这个接收队列环和内核先分配好的大的环形缓冲区会映射到应用的进程空间，应用层只需要根据接收队列环就可以获取数据包的内存。这种方式简称零拷贝，能够较大的提高网络数据的捕获性能，数据包的捕获后的处理都是在CPU上，但在高性能的网络中（>40GE），实时网络的分析面临极大的挑战，即使利用多CPU多线程，基于硬件的限制，CPU的核也无法达到足够多来实现高并发，容易出现丢包。

名词解释：

网卡，也叫“网络适配器”，英文全称为“Network Interface Card”，简称NIC。

图形处理器，又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上图像运算工作的微处理器，英文全称“Graphics Processing Unit”，简称GPU。

存储器直接访问，是指一种高速的数据传输操作，允许在外部设备和存储器之间直接读写数据，既不通过CPU，也不需要CPU干预，英文全称“Direct Memory Access”，简称DMA。

发明内容

本发明为了解决上述现有技术的问题，提出一种海量数据高速处理、交互的系统，包括：数据收发模块，用于与网络连接接收或发送数据；中央处理模块，根据数据处理模块中GPU的数量n，开辟n块环形缓冲区，缓冲数据收发模块接收的数据，在积攒了一定的数据量后或一定时间内将数据拷贝至系统内存，并事先将系统内存直接映射到各GPU，待GPU处理完毕后将处理后的结果通过数据收发模块发出；数据处理模块，包含至少一个GPU，所述数据处理模块通过DMA映射获取内存中对应的数据，控制对应的GPU进行多线程高并发处理，并将处理后的结果返回给中央处理模块。

同时，本发明还提出了一种海量数据高速处理、交互的方法，包括如下步骤：

步骤1：中央处理模块根据GPU的数量n，开辟n块的环形缓冲区，将每块环形缓冲区分割成若干节点，并将环形缓冲区映射到系统的应用层；

步骤2：中央处理模块将内存映射到GPU；

步骤3：数据到达数据收发模块后，通过分流的机制选择对应的环形缓冲区，通过DMA映射到对应的环形缓冲区的节点中；

步骤4：中央处理模块判断每个环形缓冲区中的数据包是否已经到达了对应的GPU批量处理的数量，若已到达，则执行下一步骤，若未到达，则等待固定的时间后再执行下一步骤；

步骤5：中央处理模块将环形缓冲区内的数据包进行整理，拷贝到事先映射到GPU的系统内存中；

步骤6：GPU开启多线程高并发处理数据包，并将处理后的数据包返回给中央处理模块；

步骤7：中央处理模块根据处理结果指导数据收发模块转发处理后的数据包。

本发明利用了GPU的多线程高并发处理能力，提高了数据包的处理速度，数据包从网卡直接DMA到内存，并且将内存映射到GPU，省去了CPU和GPU的频繁PCI通信内存拷贝，极大的节省了数据包的传输时间，实现了NIC与GPU之间的海量数据高速交互，同时也使得系统极大地提高了网络数据包的处理吞吐量，可以满足高性能的实时网络分析。

附图说明

图1是系统原理图；

图2是本发明的流程图。

具体实施方式

以下结合附图和实施例，详细说明本发明的结构及原理。

图1是本发明一实施例提供的系统原理图。该系统包括数据收发模块、中央处理模块及数据处理模块。通过这三个模块可以实现系统各模块之间以及系统之间的海量数据的处理及交互，本发明所指的海量数据的数量级为大于40GE的数据流量。

数据收发模块所采用的硬件就是网卡，用于与网络连接接收或发送数据。

中央处理模块所涉及到的硬件为CPU，中央处理模块根据数据处理模块中GPU的数量n，开辟n块环形缓冲区，每一块环形缓冲区用来缓冲网卡接收到的至少一个数据流的数据包，中央处理模块等待环形缓冲区内积攒到一定的数据量或者等待一定的时间后，将缓冲的数据包拷贝至系统内存，并事先将系统内存直接映射到各GPU，GPU便获得了数据包，这样省去了CPU频繁的向GPU PCI通信拷贝数据。待GPU处理完毕后将处理后的结果通过数据收发模块发出。

中央处理模块根据GPU的个数n，还会分配n个环形队列，每一个环形队列对应一个环形缓冲区，并且将环形队列映射到用户层，每个环形队列用来保存对应的环形缓冲区中数据包的接收数量情况，以及数据包的内存地址偏移量。数据包到达网卡，通过分流的机制，选择环形缓冲区，通过DMA映射到对应的环形缓冲区的节点中。该分流机制由中央处理模块设置一个哈希表来实现，通过该哈希表将同一个数据流的数据包放到对应的环形缓冲区内。

中央处理模块在缓冲过程中会实时监控缓冲完毕的数据量，当达到批量处理的数据包数量，则中央处理模块将积攒的数据包传输到数据处理模块，如果还是没有积攒到批量处理的数据包数量，在一定时间内有多少数据包就让GPU处理多少。

数据处理模块，包含至少一个GPU，数据处理模块通过DMA映射获取系统内存中对应的数据，控制对应的GPU进行多线程高并发处理，并将处理后的结果返回给中央处理模块。GPU进行多线程高并发处理的过程是基于Aho-Corasick算法加以实现的，即将批量处理的数据包存放于共享内存空间实现所有流处理器对其的并行化处理。在GPU 上实现Aho-Corasick算法时，有限状态机（Deter-ministic Finite Automaton ，DFA）被保存为一个二维数组，数组的大小为状态数和字母集的乘积。每个单元有四个字节，头两个字节表示转移的下一状态，后两个字节用来表示该状态是否是最终状态。

GPU对数据包的处理包含了一个GPU加速库，包括多个CUDA核函数，这些函数以不同的方式结合实现特定的检测和分析任务，主要包括数据包过滤核函数、获取IP地址核函数、利用hash算法构建ip_table核函数、每个IP节点和每种协议流量统计核函数、流量汇聚核函数、tcp吞吐量计算核函数、数据包分类成流核函数、tcp协议分析核函数。

如图2所示，本发明实现海量数据高速处理、交互的方法主要包括以下步骤：

步骤2：中央处理模块将内存映射到GPU；

步骤4：中央处理模块判断每个环形换冲区中的数据包是否已经达到了对应的GPU批量处理的数量，若已到达，则执行下一步骤，若未到达，则等待固定的时间后再执行下一步骤；本发明所指的GPU一次处理的数据包达到了批量处理的数量，是指这个数量值至少是满足：GPU并行处理该数量数据包的速度是高于CPU串行处理该数量数据包的速度的；

步骤6：GPU开启多线程高并发处理数据包，并将处理后的数据包返回给中央处理模块；在这个步骤中，GPU处理的数据包通过DMA映射获取。

本发明将系统内存直接映射到GPU，这样省去了CPU和GPU之间PCI通讯拷贝，并且在GPU上实现Aho-Corasick算法，实现多个CUDA核函数，充分利用GPU高并发对数据包处理，实现NIC与多GPU之间海量数据高速交互。

应当理解的是，上述针对具体实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本发明的专利保护范围应以所附权利要求为准。

Claims

1.一种海量数据高速处理、交互的方法，其特征在于，包括如下步骤：

步骤2：中央处理模块将内存映射到GPU；

步骤4：中央处理模块判断环形换冲区中的数据包是否已经到达了对应的GPU批量处理的数量，若已到达，则执行下一步骤，若未到达，则等待固定的时间后再执行下一步骤；

2.如权利要求1所述的方法，其特征在于，所述分流机制通过中央处理模块设置一个哈希表来实现，通过所述哈希表将同一个数据流的数据包放到对应的环形缓冲区内。

3.如权利要求1所述的方法，其特征在于，所述步骤4中，一个GPU一次处理的数据包的数量是否达到GPU批量处理的数量，其判定条件为该数量值至少满足GPU并行处理该数量值的数据包的速度高于CPU串行处理的速度。

4.如权利要求1所述的方法，其特征在于，所述步骤6中，GPU处理的数据包是通过DMA映射获取的。

5.一种海量数据高速处理、交互的系统，其特征在于，包括：

数据收发模块，用于与网络连接接收或发送数据；

中央处理模块，根据数据处理模块中GPU的数量n，开辟n块环形缓冲区，缓冲数据收发模块接收的数据，在积攒了一定的数据量后或一定时间内将数据拷贝至系统内存，并事先将系统内存直接映射到各GPU，待GPU处理完毕后将处理后的结果通过数据收发模块发出；

数据处理模块，包含至少一个GPU，所述数据处理模块通过DMA映射获取内存中对应的数据，控制对应的GPU进行多线程高并发处理，并将处理后的结果返回给中央处理模块。

6.如权利要求5所述的系统，其特征在于，所述中央处理模块通过一个环形队列对一个环形缓冲区进行管理，每个环形队列用来保存数据包的接收数量情况，以及数据包的内存地址偏移量。

7.如权利要求5所述的系统，其特征在于，所述中央处理模块根据环形队列中是否积攒了满足GPU高并发处理的数据包的数量值来判断是否缓冲完毕。

8.如权利要求5所述的系统，其特征在于，所述数据处理模块基于Aho-Corasick算法对数据实现高并发处理，将一个环形缓冲区中待处理的批量数据包存放在对应的一个GPU的共享内存空间中，使一个GPU的所有流处理器对待处理的批量数据包利用Aho-Corasick算法进行并行化处理。

9.如权利要求8所述的系统，其特征在于，所述数据处理模块在GPU 上实现Aho-Corasick算法时，将有限状态机保存为一个二维数组，所述二维数组的大小为状态数和字母集的乘积，所述二维数据的每个单元有四个字节，头两个字节表示转移的下一状态，后两个字节用来表示该状态是否是最终状态。

10.如权利要求5所述的系统，其特征在于，所述数量的数量级为40GE。