CN111984415A

CN111984415A - 一种基于流水线转发模型的负载均衡方法及装置

Info

Publication number: CN111984415A
Application number: CN202010853485.4A
Authority: CN
Inventors: 林飞; 晏义威; 易永波; 毛华阳; 刘俊; 古元
Original assignee: Beijing Act Technology Development Co ltd
Current assignee: Beijing Act Technology Development Co ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2020-11-24

Abstract

一种基于流水线转发模型的负载均衡方法及装置涉及信息技术领域，本发明由I/O收包逻辑引擎、对称哈希计算器、环形区缓存队列、第一个业务逻辑引擎至第N‑1个业务逻辑引擎组成；本发明的I/O收包逻辑引擎和业务逻辑引擎分别独自占用不同的CPU核，通过环形区缓存队列衔接收包和业务处理的数据，这样收包和业务处理各自独立而相互不影响。不需要分流设备就可以做到同源同宿，同时业务处理不影响原有数据包的接收或是转发。解决了在不同流量模型下，流量分发到各个CPU核上不是很均匀，影响整体服务器的处理性能的问题。

Description

一种基于流水线转发模型的负载均衡方法及装置

技术领域

本发明涉及信息技术领域，特别计算机计算核心在多核状态下的负载均衡技术领域。

背景技术

在过去10年里，以太网接口技术经历了飞速发展，Intel和Mellanox等公司还推出了40Gbit/s、100Gbit/s、200Gbit/s的超高速网络接口技术。而CPU的运行频率基本停留在10年前的水平，严重阻碍了速度的提升，为了迎接超高速网络技术的挑战，以软件优化为主的数据面技术DPDK应时而生，它为高性能数据包处理提供了一个绝佳的平台。DPDK是Intel提供的数据平面开发工具集，主要应用x86通用平台，为用户空间高效的数据包处理提供库函数和驱动的支持。它不同于Linux系统以通用性设计为目的，而是专注于网络应用中数据包的高性能处理。DPDK基于现有Linux网络模型所存在的问题进行了如下方面的改进：数据层全部由应用程序来处理，减少系统调度，减少了系统调用，减少了系统中断和上下文切换；摒弃Linux内核协议栈，将数据包传输到用户空间定制协议栈；使用多核编程技术替代多线程，将OS绑在指定核上运行；针对SMP对称多处理系统，使CPU尽量使用所在NUMA非统一内存访问系统节点的内存，减少内存刷写；使用大页面，减少访问；采用无锁技术解决多核或多线程的竟争问题。

由于原有数据链路的负载均衡和路由不对称等原因，同一个会话的多个报文，可能被负载均衡到多条链路上。所谓负载均衡就是将负载分摊到多个执行单元上进行执行。对应网络流量而言，就是将数据包处理分发到多条链路或是多个CPU核上。这样同一个会话的报文就会分发到不同的端口，服务器从不同网卡端口收到同一个会话的报文，这样不同CPU之间就存在报文的交互，这必须会影响性能。业界通常采用分流设备，可通过针对所有链路的会话交换汇聚完美地解决这个问题。这就是所谓的同源同宿，就是把属于同一个会话的所有报文，都汇聚到同一个端口，以便完成数据处理。简单来说，同源同宿即保障不同输入线路上，相同会话的流量，能够在同一接口输出。

流水线模型借鉴于工业上的流水线模型，将一个功能分解成多个独立的阶段，不同阶段间通过队列传递产品。这样，对于一些CPU密集与I/O密集的应用，通过流水线模型，可以把CPU密集的任务放在一个CPU核上执行，将I/O密集的任务放在另外一个CPU核上执行。通过绑定不同的CPU核可以为不同的任务分配不同的线程，连接两者的队列匹配两者的处理速度，从而达到最好的并发性能。

现有技术中DPDK开启RSS功能，虽说同一个会话的报文会分发到同一个CPU，但是同一个会话的双向报文会被分发到两个不同的CPU，因为DPDK 自带的RSS key不是对称的，这样两个CPU就存在这个会话信息的交互，必然会影响性能。需要把同一个会话的双向报文都分发到同一个CPU上。

本发明提出了一种基于流水线转发模型的负载均衡方法及装置，利用简易信息聚合RSS技术分发到一些CPU核上，专门做数据包的接收；再通过二次哈希分发到另外一些CPU核上专门做业务处理。利用流水线模型，解决了不需要分流设备就可以做到同源同宿，同时业务处理不影响数据包的接收。充分利用CPU多核，提高服务器整体性能。

现有技术说明

RSS是一种能够在多处理器系统下使接收报文在多个CPU之间高效分发的网卡驱动技术。RSS就是首先网卡对接收到的报文进行解析，获取IP地址、协议和端口五元组信息。接着根据关键字和hash key通过哈希函数计算出哈希值，再由哈希值得到RETA，即Redirectiontable的索引，最后根据RETA中存储的值分发到对应的网卡队列。网卡会根据不同的数据包类型选取出不同的关键字类型。例如IPV4 TCP包的关键字就是由四元组组成，包括：源IP地址S-IP、目的IP地址D-IP、源端口号S-Port、目的端口号D-Port。可以通过RETA的修改来实现动态的负载均衡。

在网络应用中，如果同一个连接的双向报文在开启RSS之后被分发到同一个CPU上处理，这种RSS就称为对称RSS。对于需要为连接保存一些信息的网络应用来说，对称RSS对性能提升有很大帮助。如果同一个连接的双向报文被分发到不同的CPU，那么两个CPU之间共享这个连接的信息就会涉及到锁，而锁显然是会影响性能的。

RSS一般使用托普利茨Toeplitz哈希算法，该算法有两个输入：一个默认的hashkey和从报文中提取的关键字。 DPDK使用的默认hash key是微软推荐的，同一个连接的不同方向使用这个默认的hash key计算出来的hash值是不一样的。举例来说，五元组信息为src: 168.21.32.1, dst: 212.12.24.8, srcport: 45235, dstport: 80和五元组信息为src: 212.12.24.8, dst: 168.21.32.1, srcport: 80, dstport: 45235 计算出来的hash值是不一样的，hash值不一样就会导致两个方向的报文被分发到不同的接收队列，由不同的CPU进行处理。

要生成对称的RSS，就需要对默认的hash key进行一定的修改。RSS hash key的长度为40字节（320位），记作RSK[40]。如果要求生成对称的RSS，只要RSS hash key为32位循环的方式，那么对于同一个连接的双向报文，无论是上行报文还是下行报文，最终计算出来的哈希值hash value都是相同的。

发明内容

鉴于现有技术的不足，本发明提供的一种基于流水线转发模型的负载均衡方法及装置由I/O收包逻辑引擎、对称哈希计算器、环形区缓存队列、第一个业务逻辑引擎至第N-1个业务逻辑引擎组成；环形区缓存队列由与CPU内核数量相同的先进先出的无锁队列组成；

I/O收包逻辑引擎由第一个CPU内核提供算力，使用对称RSS技术取第一网卡到第N网卡各个队列里的数据包，并对数据包进行解码，提取二元组信息，二元组信息包括：源IP地址、目的IP地址；

对称哈希计算器由第一个CPU内核提供算力，使用对称哈希算法对I/O收包逻辑引擎收取的数据包的二元组信息进行二次哈希计算，根据二次哈希计算的结果将与二次哈希计算的结果对应的数据包分配并存储于环形区缓存队列模块中的先进先出的无锁队列中；二次哈希计算的结果相同的数据包将分配到同一个先进先出的无锁队列中，二次哈希计算的结果不同的数据包将均匀分配给不同的先进先出的无锁队列存储；

二次哈希计算采用对称哈希算法，同时支持IPV4和IPV6双栈流量，该算法的伪代码如下所示：

function second_hash(ethe_type, data, hash_seed)

if ether_type == ETHER_TYPE_IPv4 then

struct ipv4_hdr *k data

sip_hash_value jhash_1word(k->src_addr, hash_seed)

dip_hash_value jhash_1word(k->dst_addr, hash_seed)

return sip_hash_value + dip_hash_value

else if ether_type == ETHER_TYPE_IPv6 then

struct ipv6_hdr *k data

sip_hash_value jhash(k->src_addr, IPV6_ADDR_LEN, hash_seed)

dip_hash_value jhash(k->dst_addr, IPV6_ADDR_LEN, hash_seed)

return sip_hash_value + dip_hash_value

end if

end function；

环形区缓存队列是由第一个CPU内核根据计算机全部CPU内核数量生成的与CPU内核数量相同的先进先出的无锁队列组成的存储空间；

第一个业务逻辑引擎由第二个CPU内核提供算力，第一个业务逻辑引擎所需执行的业务逻辑所涉及的数据包中的二元组信息进行二次哈希计算，可以用来定位第一个业务逻辑引擎所需数据包存储的先进先出的无锁队列，第一个业务逻辑引擎从其所需数据包所存储的先进先出的无锁队列中读取二次哈希计算值一致的数据；

第N-1个业务逻辑引擎由第N个CPU内核提供算力，第N-1个业务逻辑引擎所需执行的业务逻辑所涉及的数据包中的二元组信息进行二次哈希计算，可以用来定位第N-1个业务逻辑引擎所需数据包存储的先进先出的无锁队列，第N-1个业务逻辑引擎从其所需数据包所存储的先进先出的无锁队列中读取二次哈希计算值一致的数据。

有益效果

本发明的I/O收包逻辑引擎和业务逻辑引擎分别独自占用不同的CPU核，通过环形区缓存队列衔接收包和业务处理的数据，这样收包和业务处理各自独立而相互不影响。不需要分流设备就可以做到同源同宿，同时业务处理不影响原有数据包的接收或是转发。解决了在不同流量模型下，流量分发到各个CPU核上不是很均匀，影响整体服务器的处理性能的问题。

附图说明

图1是本发明的系统结构图。

具体实施方式

参看图1，实现本发明的一种基于流水线转发模型的负载均衡方法及装置由I/O收包逻辑引擎10、对称哈希计算器11、环形区缓存队列2、第一个业务逻辑引擎30至第N-1个业务逻辑引擎30组成；环形区缓存队列2由与CPU内核数量相同的先进先出的无锁队列组成；

I/O收包逻辑引擎10由第一个CPU内核1提供算力，使用对称RSS技术取第一网卡A到第N网卡A各个队列里的数据包，并对数据包进行解码，提取二元组信息，二元组信息包括：源IP地址、目的IP地址；

对称哈希计算器11由第一个CPU内核1提供算力，使用对称哈希算法对I/O收包逻辑引擎10收取的数据包的二元组信息进行二次哈希计算，根据二次哈希计算的结果将与二次哈希计算的结果对应的数据包分配并存储于环形区缓存队列2模块中的先进先出的无锁队列中；二次哈希计算的结果相同的数据包将分配到同一个先进先出的无锁队列中，二次哈希计算的结果不同的数据包将均匀分配给不同的先进先出的无锁队列存储；

function second_hash(ethe_type, data, hash_seed)

if ether_type == ETHER_TYPE_IPv4 then

struct ipv4_hdr *k data

sip_hash_value jhash_1word(k->src_addr, hash_seed)

dip_hash_value jhash_1word(k->dst_addr, hash_seed)

return sip_hash_value + dip_hash_value

else if ether_type == ETHER_TYPE_IPv6 then

struct ipv6_hdr *k data

sip_hash_value jhash(k->src_addr, IPV6_ADDR_LEN, hash_seed)

dip_hash_value jhash(k->dst_addr, IPV6_ADDR_LEN, hash_seed)

return sip_hash_value + dip_hash_value

end if

end function；

环形区缓存队列2是由第一个CPU内核1根据计算机全部CPU内核数量生成的与CPU内核数量相同的先进先出的无锁队列组成的存储空间；

第一个业务逻辑引擎30由第二个CPU内核3提供算力，第一个业务逻辑引擎30所需执行的业务逻辑所涉及的数据包中的二元组信息进行二次哈希计算，可以用来定位第一个业务逻辑引擎所需数据包存储的先进先出的无锁队列，第一个业务逻辑引擎30从其所需数据包所存储的先进先出的无锁队列中读取二次哈希计算值一致的数据；

第N-1个业务逻辑引擎30由第N个CPU内核3提供算力，第N-1个业务逻辑引擎30所需执行的业务逻辑所涉及的数据包中的二元组信息进行二次哈希计算，可以用来定位第N-1个业务逻辑引擎所需数据包存储的先进先出的无锁队列，第N-1个业务逻辑引擎30从其所需数据包所存储的先进先出的无锁队列中读取二次哈希计算值一致的数据。

Claims

1.一种基于流水线转发模型的负载均衡装置，其特征在于由I/O收包逻辑引擎、对称哈希计算器、环形区缓存队列、第一个业务逻辑引擎至第N-1个业务逻辑引擎组成；环形区缓存队列由与CPU内核数量相同的先进先出的无锁队列组成；

function second_hash(ethe_type, data, hash_seed)

if ether_type == ETHER_TYPE_IPv4 then

struct ipv4_hdr *k data

sip_hash_value jhash_1word(k->src_addr, hash_seed)

dip_hash_value jhash_1word(k->dst_addr, hash_seed)

return sip_hash_value + dip_hash_value

else if ether_type == ETHER_TYPE_IPv6 then

struct ipv6_hdr *k data

sip_hash_value jhash(k->src_addr, IPV6_ADDR_LEN, hash_seed)

dip_hash_value jhash(k->dst_addr, IPV6_ADDR_LEN, hash_seed)

return sip_hash_value + dip_hash_value

end if

end function；