CN108900327B

CN108900327B - 一种基于dpdk的天文数据采集和实时处理方法

Info

Publication number: CN108900327B
Application number: CN201810632883.6A
Authority: CN
Inventors: 戴伟; 朱彦飞; 王�锋; 张晓丽; 罗静
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2021-06-18
Anticipated expiration: 2038-06-20
Also published as: CN108900327A

Abstract

本发明涉及一种基于DPDK的天文数据采集和实时处理方法，属于网络数据包处理领域。本发明包括的简要步骤是：构建DPDK运行环境；创建内存池；从环形缓冲中读取数据帧，并对帧头部解析及构造响应报文；UDP数据包进行合法校验，提取报文中数据部分；将提取的数据放在第二个环形缓冲区；CUDA程序从环形缓冲区读取数据并实时处理。本发明充分利用DPDK在处理高速IO情况下相较传统的基于内核TCP/IP协议栈的性能优势，通过无锁环形缓冲队列，在用户态下对TCP/IP协议栈做了部分实现，实现了在万兆网络环境下的数据包无丢失接收，相比基于传统协议栈的数据包接收有极大的性能提升。

Description

一种基于DPDK的天文数据采集和实时处理方法

技术领域

本发明涉及一种基于DPDK的天文数据采集与实时处理方法，属于网络数据包处理技术领域。

背景技术

对射电脉冲星的研究是现代天文学的重要内容及热点领域。以射电脉冲星作为工具，可开展高精度计时和守时、天体动力学和天体测量、强场下的引力物理、太阳系外行星、星系和星际介质、超致密物质以及极端环境下的等离子物理等方面的研究。随着近年来利用毫秒脉冲星进行引力波探测研究、脉冲星导航等课题的兴起，对脉冲星观测设备提出了更高的观测带宽的需求，从而对由此而产生的高速的数据流的采集、处理和传输提出了更高的性能指标要求。

由于宽带脉冲星的观测需求要求更高的观测带宽和采样精度，导致数字基带转换器产生的观测数据激增。为了提高数据传输速率，新的数据传输系统的底层硬件已经采用10Gb、40Gb甚至100Gb的以太网技术。针对高速以太网下的数据采集和实时处理，不仅仅是宽带脉冲星观测面对的问题，也是众多射电观测装置所面临的一个关键共性问题。传统的socket技术结合对操作系统进行参数调优，采用更大的MTU值，网卡中断coalescing，线程绑定，只能有限的提高网络吞吐率。近年来，基于用户态网络IO成为在网络嗅探、入侵检测以及云计算领域的研究热点，如netmap、PF_RING、DPDK等技术，这些技术在国外的射电观测数据的处理上，已经开始有相关的研究。

2010年前后，Intel公司通过从自身处理器结构和经济性考虑，前瞻性地对多核调度和轮询处理技术进行了大量研究，DPDK应运而生，并且日益发展壮大。与netmap等其他近似的开源技术相比，DPDK不仅有着更为完善的产业生态环境，而且有着Intel等大厂的支持，因此，DPDK已经成为大量互联网公司和NFV开发商在x86架构下进行网络加速的首选技术。DPDK运行环境建立在Linux上，通过EAL(环境抽象层)的运行初始化，包括巨页分配、内存/缓冲区/队列分配与无锁操作、CPU亲和性绑定等；其次，EAL实现了对操作系统内核与底层网卡IO操作的屏蔽(IO旁路了内核及其协议栈)，为DPDK应用程序提供了一组调用接口，通过UIO或VFIO技术将PCI设备地址映射到用户空间，方便了应用程序的调用，避免了网络协议栈和内核切换造成的处理时延。另外，核心部件还包括创建适合报文处理的内存池、缓冲区分配管理、内存复制、定时器、环形缓冲区管理等等。DPDK有着完善的性能加速整体架构，并提供了丰富的用户态API可以供构建高速转发类应用的访问，相关开源生态也不断壮大。

但目前还没有行之有效的方法可以有效解决万兆网络环境下天文数据采集和实时处理的问题。

发明内容

本发明要解决的技术问题是提供一种基于Intel DPDK的天文数据采集和实时处理方法，能有效解决万兆网络环境下天文数据采集和实时处理的问题。

本发明采用的技术方案是：

Step1、构建DPDK运行环境及第一环形缓冲队列，用于接收工作在DPDK模式下的网卡数据；

Step2、持续从第一环形缓冲队列中读取数据帧，并对帧头部进行解析，针对解析出不同的报文类型构造相应报文，操纵DPDK发送应答包，同时针对发送给本机的UDP数据进行合法性校验，将UDP报文中数据部分提取；

Step3、构造第二环形缓冲队列，将Step2中提取到的数据放入第二环形缓冲队列，CUDA程序从第二环形缓冲队列中读取数据，进行实时处理，处理完成的数据从第二环形缓冲队列中出队。

所述Step1中构建运行环境及第一环形缓冲队列的具体步骤如下：

Step1.1、启动配置，包括设置Linux内核参数、设置hugepage内存，加载用户态IO模块，使得当前物理端口脱离Linux内核协议栈的管理，改由Intel DPDK的用户态IO驱动进行管理；

Step1.2、构建第一环形缓冲队列，采用轮询模式从网卡获取数据包；

其中第一环形缓冲队列采用无锁结构设计，第一环形缓冲队列中数据包所存储的地址信息采用实地址映射的方式；

Step1.3、对指定端口进行设置，包括指定端口的队列，在收发两个方向上基于端口和队列进行配置，指定端口接收发送方向的队列，对第一环形缓冲队列进行关联设置；

Step1.4、网卡初始化配置结束后启动端口，读取MAC地址打开网卡的混杂模式，允许所有报文进入。

所述步骤Step2中内核协议栈报文的解析的具体步骤如下：

Step2.1、首先对接收到第一环形缓冲队列的数据帧按照以太网帧格式，分别解析出以太网帧中所包含的源目的地址、类型字段，将IP报文交由IP报文处理函数处理，ARP报文交由ARP报文处理函数处理；

Step2.2、ARP报文处理函数对送达的报文进行解析，分别解析出ARP协议中的各个字段，对协议长度或者硬件地址不合法的报文予以丢弃，之后校验其合法性，对非以太网ARP请求或者非IPv4协议的ARP请求予以丢弃，对合法的报文构造其响应报文，放入发送队列等待发送；

Step2.3、IP报文处理函数对于送达的报文进行解析，匹配其对应的协议字段。之后对IP包头做合法性校验，对于不合法报文直接丢弃，之后将ICMP报文及UDP报文交给相应的报文处理函数处理；

Step2.4、ICMP处理函数对送达的报文首先进行合法性校验，不合法报文直接丢弃，对于合法ICMP报文则构造响应报文，并回送源主机；

Step2.5、UDP处理函数将送达的报文解析，检查其目的端口号是否与预先设定好的端口号一致，如果不一致则直接丢弃，如果一致则说明是新到达的有效数据，剥离其UDP头部，取出其数据部分，构造并放入第二环形缓冲队列中待后续CUDA处理。

所述步骤Step3中CUDA程序从第二环形缓冲队列中读取数据具体步骤如下：

Step3.1、构造一个无锁且先进先出式的队列，维持生产者头部,生产者尾部,消费者头部和消费者尾部四个内存中对象的指针；

Step3.2、一个DPDK进程作为生产者在给定时间内将接收到的数据由尾部指针持续写入第二环形缓冲队列中；

Step3.3、多个CUDA进程作为消费者从第二环形缓冲队列头部读走数据进行处理，在处理完成后将已经处理完成的数据从缓冲区删除。

所述步骤Step3.2中DPDK进程将数据放入第二环形缓冲队列中具体步骤如下：

Step 3.2.1、ring->prod_head和ring->cons_tail被复制到局部变量中。Prod_next局部变量指向表的下一个元素，或者在批量排队之后的几个元素，如果环中没有足够的空间，它将返回一个错误；

Step3.2.2、修改ring结构中的ring->prod_head以指向与prod_next相同的位置，指向添加对象的指针被复制到环中；

Step3.2.3、一旦对象添加到环中，环结构中的ring->prod_tail将被修改为指向与ring->prod_head相同的位置，入队操作完成。

所述步骤Step3.3中CUDA进程对数据处理的具体步骤如下：

Step3.3.1、将原始的二进制数据转换成浮点型数据，以便后边消色散进行傅立叶变换使用；

Step3.3.2、对解码过后的数据作傅立叶变换，变换结果乘星际介质chirp函数，再反傅立叶变换回到时域得到消色散的时域信号；

Step3.3.3、对消色散的数据按照周期进行折叠处理以提高信噪比,将数据依次取为许多小段，每段数据时间长度为一个脉冲周期，然后将这些小段依次点对点相加，再除以折叠次数，得到的一个周期内的数据；

Step3.3.4、对处理完成的数据按脉冲星数据存储中常用的psrfits格式进行输出。

本发明的有益效果是：

基于操作系统的TCP/IP协议栈的数据接收在应对高IO情况的天文观测数据接收时显得相对冗余和低效，在应对高速数据包的处理上没有性能优势。而用户态网络IO技术相对基于操作系统的TCP/IP协议栈在数据接收性能上有着极大的性能优势，利用用户态网络IO技术可以实现对高IO环境下天文观测数据的高可靠性采集。基于目前脉冲星观测的数据以UDP封装高速发送的实际情况，在多核系统中实现基于TCP/IP的高速精简协议栈，并在协议层面使用更少的指令周期完成对天文观测数据的网络包的解码等预处理工作，针对天文观测数据包的常用传输技术的特点，实现高速采集技术下必须的协议栈子集，构建了一个通用的天文数据高速采集框架，方便用户调用。

GPU在并行及浮点运算等方面相比CPU有着数倍甚至数十倍的处理能力，在面对海量天文数据时，将CPU和GPU协同运用，将接收到的观测数据进行实时处理，极大的加速了天文观测数据各个关键环节的处理速度，在保证对观测数据实时接收的前提下实现了观测数据的实时处理。

附图说明

图1是本发明的总体步骤结构图；

图2是本发明的总体数据流程图；

图3是本发明的总体框架模型；

图4是环形缓冲数据入队过程的示例；

图5是端口及报文收发控制流程。

具体实施方式

下面结合附图和具体实施示例，详细说明本发明的具体实施方式。

实施例1：如图1-5所示，一种基于Intel DPDK的天文数据采集和实时处理方法，具体步骤如下：

进一步的，Step1中构建运行环境及缓冲队列的具体步骤如下：

程序开始时，首先会调用rte_eal_init()函数，查找系统中存在的网卡设备，之后初始化全局链表pci_device_list,将网卡设备挂载。之后调用rte_eal_dev_init()函数，执行网卡驱动对应回调函数，将网卡注册到PCI总线，rte_eal_init()读取入口参数，解析并保存作为DPDK运行的系统信息，依赖这些信息进行一系列初始化，构建一个针对包处理设计的运行环境，主要动作如图4所示。

接下来，程序会调用lcore_main()进行主处理流程。首先使用port_init()对指定端口设置队列，由于实际接收环境，只指定单核单队列。在收发两个方向上，基于端口和队列进行设置，缓冲区进行关联设置；使用rte_eth_dev_configure()对指定端口设置接收、发送方向的队列数目，依据配置信息来指定端口功能；使用rte_eth_rx_queue_setup()和rte_eth_tx_queue_setup()对指定端口的单个队列，指定内存、描述符数量、报文缓冲区，并对队列进行配置,使用rte_eth_dev_start()启动端口。

Step1.2、构建第一个环形缓冲队列，采用轮询模式从网卡获取数据包；

其中第一个环形缓冲队列采用无锁结构设计，环形缓冲中数据包所存储的地址信息采用实地址映射的方式；

Step1.3、对指定端口进行设置，包括指定端口的队列，在收发两个方向上基于端口和队列进行配置，指定端口接收发送方向的队列，对第一个环形缓冲队列进行关联设置；

Step1.4、网卡初始化配置结束后启动端口，读取MAC地址打开网卡的混杂模式，允许所有报文进入；

所述步骤Step2中内核协议栈报文的解析的具体步骤如下：

Step2.1、首先对接收到第一个环形缓冲队列的数据帧按照以太网帧格式，分别解析出以太网帧中所包含的源目的地址、类型字段。将IP报文交由IP报文处理函数处理，ARP报文交由ARP报文处理函数处理；

Step2.2、ARP报文处理函数对送达的报文进行解析，分别解析出ARP协议中的各个字段，对协议长度或者硬件地址不合法的报文予以丢弃，之后校验其合法性，对非以太网ARP请求或者非IPv4协议的ARP请求予以丢弃。对合法的报文构造其响应报文，放入发送队列等待发送；

Step2.3、IP报文处理函数对于送达的报文进行解析，匹配其对应的协议字段。之后对IP包头做合法性校验，对于不合法报文直接丢弃。之后将ICMP报文及UDP报文交给相应的报文处理函数处理；

Step2.4、ICMP处理函数对送达的报文首先进行合法性校验，不合法报文直接丢弃。对于合法ICMP报文则构造响应报文，并回送源主机；

所述step2.1-2.5具体案例实施内容如下：

在网卡初始化完成并后，程序开始进行报文收发控制。首先读取网卡的MAC地址，获取网卡的mtu值，如果不是9000则设置到9000，同时关闭网卡的混杂模式，避免接收所有报文。

对设备进行配置，申请一个接收队列RX，RX_RING的大小为512，使用rte_eth_tx_queue_setup()为以太网设备分配和设置传输队列,启用端口。

使用rte_eth_rx_burst()函数队列接收数据包并解析出以太网头部，ip头部，icmp头部,包头校验和，arp头部，udp头部，根据不同的协议分别使用对应的处理函数解析对应字段内容，分别送对应处理函数进行处理。每处里完一个包就使用rte_pktmbuf_free()释放掉继续循环，每循环一次就检查发送队列是否已满，如果是则调用rte_eth_tx_burst()将数据包全部发送出去，释放所占用的内存。如果超时也同样将缓存数据包全部发送并释放内存。

数据包到来时，一般采用在内存中开辟一个buffer的方式来存储数据，DPDK使用mbuf(内存缓冲区)来实现buffer的分配和释放。该缓冲区存储在Mempool(内存池)中，使用Mempool库进行管理。

Mbuf使用Mempool库来分配缓冲区，在网络三层处理中可以确保数据分组头以最佳的方式排列。一个mbuf包含一个域表示其原始内存池的位置，但内存释放时，可以返回到原始内存池中。相关操作如下：

1)获取数据长度：rte_pktmbuf_data_len(m)

2)获取数据其实地址指针：rte_ctrlmbuf_data(m)

3)在数据前新增数据：rte_pktmbuf_prepend(struct rte_mbuf*m,uint16_tlen)

4)在数据后添加数据：rte_pktmbuf_append(struct rte_mbuf*m,uint16_t len)

5)在缓冲区其实位置移除数据：rte_pktmbuf_adj(struct rte_mbuf*m,uint16_tlen)

6)在缓冲区尾部位置移除数据：rte_pktmbuf_trim(struct rte_mbuf*m,uint16_t len)

Step 3.2.1、ring->prod_head和ring->cons_tail被复制到局部变量中。Prod_next局部变量指向表的下一个元素，或者在批量排队之后的几个元素。如果环中没有足够的空间，它将返回一个错误；

所述步骤Step3.3中CUDA进程对数据处理的具体步骤如下：

所述step3.2结合具体案例实施内容如下：

在生产者将数据放入第二环形缓冲区的同时消费者开始处理数据。生产者是唯一的，即由基于DPDK的天文数据采集框架采集的天文数据--而消费者是可以有多个的，即基于CUDA的数据处理线程，它们分别在每一个显卡设备上运行着，每有一个CUDA设备即多一个消费者，同时从第二环形缓冲区读取DPDK采集到的数据进行处理，确保数据处理的实时性。

在这种情况下，单靠无锁队列并不能保证数据的无冲突访问。消费者线程之间访问出队列元素时需要做到互斥访问，因此，需要借助锁机制实现，获得锁的消费者线程才可以执行，没有获得锁的线程只能暂时阻塞，在这里锁机制采用PV信号量实现。生产者操作接收数据包，然后尝试获取锁，如果获取成功则尝试入队操作，将数据包写入环形缓冲中，释放锁。消费者检索CUDA设备，根据传入的参数不同启用不同数目的CUDA设备，每个CUDA设备是一个消费者线程；线程尝试获得锁，如果获得成功则读取数据进行处理，如果不成功则等待。处理完的数据从第二环形缓冲队列中出队。

本发明充分利用DPDK在处理高速IO情况下相较传统的基于内核TCP/IP协议栈的性能优势，通过无锁环形缓冲队列，在用户态下对TCP/IP协议栈做了部分实现，实现了在万兆网络环境下的数据包无丢失接收，相比基于传统协议栈的数据包接收有极大的性能提升。本发明可作为高速IO环境下天文观测数据包可靠接收和实时处理的底层方法。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于DPDK的天文数据采集和实时处理方法，其特征在于：包括以下步骤：

Step3、构造第二环形缓冲队列，将Step2中提取到的数据放入第二环形缓冲队列，CUDA程序从第二环形缓冲队列中读取数据，进行实时处理，处理完成的数据从第二环形缓冲队列中出队；

所述Step3中CUDA程序从第二环形缓冲队列中读取数据具体步骤如下：

Step3.1、构造一个无锁且先进先出式的队列，维持生产者头部、生产者尾部、消费者头部和消费者尾部四个内存中对象的指针；

Step3.3、多个CUDA进程作为消费者从第二环形缓冲队列头部读走数据进行处理，在处理完成后将已经处理完成的数据从缓冲区删除；

所述Step3.3中CUDA进程对数据处理的具体步骤如下：

2.根据权利要求1所述的基于DPDK的天文数据采集和实时处理方法，其特征在于：所述的Step1中构建运行环境及第一环形缓冲队列的具体步骤如下：

3.根据权利要求1所述的基于DPDK的天文数据采集和实时处理方法，其特征在于：所述Step2中对帧头部进行解析的具体步骤如下：

Step2.3、IP报文处理函数对于送达的报文进行解析，匹配其对应的协议字段，之后对IP包头做合法性校验，对于不合法报文直接丢弃，之后将ICMP报文及UDP报文交给相应的报文处理函数处理；

4.根据权利要求1所述的基于DPDK的天文数据采集和实时处理方法，其特征在于：所述Step3.2中DPDK进程将数据放入第二环形缓冲队列中具体步骤如下：

Step 3.2.1、ring->prod_head和ring->cons_tail被复制到局部变量中，p rod_next局部变量指向表的下一个元素，或者在批量排队之后的几个元素，如果环中没有足够的空间，它将返回一个错误；