CN112769905A

CN112769905A - 一种基于numa架构的飞腾平台下高性能网卡性能优化方法

Info

Publication number: CN112769905A
Application number: CN202011562031.8A
Authority: CN
Inventors: 肖林奎; 刘正元; 胡海; 危荣广; 陆云; 刘云; 孙立明; 张铎; 李唯实
Original assignee: Kirin Software Co Ltd
Current assignee: Kirin Software Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-05-07
Anticipated expiration: 2040-12-25
Also published as: CN112769905B

Abstract

一种基于NUMA架构的飞腾平台下高性能网卡性能优化方法，所述方法包括步骤：处理网络中断的内存结点申请；扩充所述网络中断的数据收发队列；消除所述网络中断反转。本发明的一种基于NUMA架构的飞腾平台下高性能网卡性能优化方法在已通过numa架构下的网卡中断亲和性来提升高性能网卡性能的同时，进一步更有针对性地对基于NUMA架构的飞腾平台下的高性能网卡的性能进行了优化，通过对飞腾平台的numa架构特点的分析，从而更有针对性地提升了基于numa架构的飞腾平台下的高性能网卡的性能；突破了网卡驱动在数据收发队列数和中断数的限制，避免了在多路超64核cpu的处理器平台上可能出现的额外路由消耗和中断反转问题，提升了网络I/O性能。

Description

一种基于NUMA架构的飞腾平台下高性能网卡性能优化方法

技术领域

本发明属于飞腾平台技术领域，具体涉及一种基于NUMA架构的飞腾平台下高性能网卡性能优化方法。

背景技术

随着网络技术的进一步飞速发展，为满足应用的需求，25G、40G、100G等更高带宽的高性能网卡已经出现，并得到越来越多的使用。随着网络带宽提升，高性能网卡对CPU的压榨也越来越强烈，而Linux系统原有的调度方式和单核CPU处理网卡中断的方式已无法满足需求。为此，NUMA架构和多队列网卡技术被广泛应用于高性能网卡的I/O请求中，这类技术利用NUMA架构的特点，采用多队列、多CPU参与的方式来处理高性能网卡的I/O请求，使得高性能网卡的性能得到充分发挥。

国产飞腾系列处理器基于ARM64体系结构，其下的FT2000PLUS、FT2500处理器平台同样采用numa架构和多队列网卡技术来满足高性能网卡的需求。然而，由于飞腾平台自身架构和驱动的问题，导致基于numa架构的飞腾平台下的高性能网卡可能存在一定的性能问题，这主要体现在以下三点：

1)NUMA架构的飞腾平台主要是FT2000PLUS平台和FT2500平台。FT2000PLUS平台共有8个numa结点，其中只有numa node 0和numa node 6有pcie控制器，且numa node 6上pcie控制器下接的网卡中断需要路由到numa node 0上来处理；FT2500平台上共16个numa结点，且分为主从两路CPU，其中只有numa node 0和numa node 8下有pcie控制器，且numanode 8也就相当于从路cpu的numa node 0。因此，在FT2000PLUS平台和FT2500平台上，只有将网卡插在numa node 0(FT2500平台还包括从路的numa node 8，即从路的numa node 0)的插槽上才能最大可能地发挥性能。而无论是将网卡插在其他numa结点，或在远numa node0的结点处理网络I/O请求，都将产生中断路由开销，影响高性能网卡性能的发挥；

2)在拥有主从路两路共计128个cpu core的FT2500处理器平台上，部分高性能网卡驱动原本逻辑的问题可能导致高性能网卡的性能发挥不佳：兼容某些只能申请64个中断的网卡，部分高性能网卡驱动注册的数据收发队列总数不超过60个，这使得FT2500处理器平台从路上的后64核CPU无法获取数据收发队列，导致即便从路上(numa node 8)接入了网卡，从路网卡的I/O请求也只能经过路由到主路cpu处理，而不是直接交由从路cpu处理，导致额外的路由消耗；

3)因为部分高性能网卡驱动申请的msix中断总数不能超过64(为兼容某些只能申请64个中断的网卡)、且网卡驱动是通过从中断信息中提取的cpu id来选择cpu进行中断处理的缘故，导致当FT2500平台的主从路均接入网卡时，会出现主从路中断反转的现象：当从路上出现网卡中断时，通过64个中断获得的cpu id只能是主路上的前64个CPU，又因为主路和从路中断类型是一致的，这样会使得从路的中断抢占了主路cpu(编号cpu0～cpu63)，而主路网卡的中断被迫反转到从路cpu(编号cpu64～cpu127)来处理。中断反转导致中断处理的路由开销增加和收发通道中断干扰，影响了FT2500平台上高性能网卡的性能。

基于以上三点，亟需一种新的高性能网卡性能优化方法，来针对性地解决基于NUMA架构的飞腾平台下的高性能网卡的性能问题。

目前，现有的提升Linux系统的高性能网卡性能的技术中，并没有一种是专门针对国产飞腾处理器平台对于高性能网卡的性能优化。

中国发明专利“一种Linux下通过改善网卡亲和性提升性能的方法及系统”(专利号CN108762922A)。该专利提出了一种在Linux系统下通过改善网卡亲和性提升性能的方法。包括步骤：1)准备阶段：在BIOS中开启NUMA，安装Linux系统和网卡驱动；2)在Linux系统下关闭自动调节功能；3)根据高带宽网卡的应用需求变更网卡队列数；4)确认网卡连接的CPU及网卡使用的中断号；5)将网卡亲和到相应的CPU和中断号上。

中国发明专利“一种负载均衡方法及装置”(专利号CN104901898B)。该专利提供了一种针对高端网络通信的负载均衡方法和装置。包括步骤：1)根据上一时间周期内第一CPU核接收和/或发送的数据包的数量和/或数据流量确定所述第一CPU核的负载处理压力；2)判断所述负载处理压力是否高于或等于预设的最高处理能力；3)如果是，则将当前时间周期内接收到的数据包发送至其他CPU核进行处理。

中国发明专利“一种基于中断绑定的多队列网卡性能调优方法”(专利号CN106101019A)。该专利提出了一种基于中断绑定的多队列网卡性能调优方法。包括步骤：1)首先通过脚本命令查看网卡是否支持多队列；2)打开网卡多队列；3)通过脚本命令查看是否已成功打开网卡多队列，每个网卡队列对应不同中断；4)进行中断亲和纠正，将同一个队列中的tx与rx中断绑定到一个核上。

美国发明专利“NUMA aware network interface”(专利号US9047417)。该专利提出了一种采用结点感知网络接口的方法，装置以及计算机平台和体系结构。包括步骤：1)将处理器与本结点的内存、NUMA感知的网络接口控制器(NIC)进行耦合；2)在第一结点的第一NIC处从网络接收分组；2)确定该分组的分组数据将被转发到包括第二NIC的第二结点；3)将数据包数据通过NIC到NIC互连链路从第一NIC转发到第二NIC；4)在第二个NIC接收到数据包后，就对数据包(数据)进行处理，就好像该数据包是从第二个NIC从网络上接收到的一样，由此实现对网络分组的多网卡高速处理。

美国发明专利“NUMA-aware scaling for network devices”(专利号US9069722)。该专利提出了一种用于非均匀存储器访问架构系统中的网络流量处理的方法和装置。包括：1)为结点分配Tx/Rx队列对；2)在该结点的本地内存中分配Tx/Rx队列对；3)将网络业务路由到所分配的Tx/Rx队列对；4)在结点中指定用于网络业务处理的内核。

发明内容

为解决上述问题，本发明提供了一种基于NUMA架构的飞腾平台下高性能网卡性能优化方法，所述方法包括步骤：

处理网络中断的内存结点申请；

扩充所述网络中断的数据收发队列；

消除所述网络中断反转。

优选地，所述处理网络中断的内存结点申请包括步骤：

获取网卡设备所在的numa结点的结点编号；

判断当前处理器平台是否为飞腾平台；

若是，对所述结点编号执行加1操作后，返回所述结点编号；

若否，直接返回所述结点编号；

根据所述结点编号向对应的所述numa结点申请内存。

优选地，所述扩充所述网络中断的数据收发队列包括步骤：

判断当前处理器平台是否为FT2500；

若是，继续执行后续步骤；

若否，跳过数据收发队列扩充操作；

获取得到设定的数据收发队列数量；

执行数据收发队列扩充操作。

优选地，所述消除所述网络中断反转包括步骤：

判断当前处理器平台是否为FT2500；

若是，继续执行后续步骤；

若否，直接从中断信息中获取CPU编号；

获取当前进行数据处理的numa结点编号；

将所述结点编号执行减1操作后，返回所述结点编号；

根据返回的所述结点编号计算得到相应的处理网卡中断的CPU。

优选地，在所述处理网络中断的内存结点申请之前还包括步骤：

在BIOS中判断NUMA功能是否已设置为enable开启状态；

若是，继续执行后续步骤；

若否，返回所述在BIOS中判断NUMA功能是否已设置为enable开启状态步骤。

本发明的一种基于NUMA架构的飞腾平台下高性能网卡性能优化方法在已通过numa架构下的网卡中断亲和性来提升高性能网卡性能的同时，进一步更有针对性地对基于NUMA架构的飞腾平台下的高性能网卡的性能进行了优化，通过对飞腾平台的numa架构特点的分析，从而更有针对性地提升了基于numa架构的飞腾平台下的高性能网卡的性能；突破了网卡驱动在数据收发队列数和中断数的限制，避免了在多路超64核cpu的处理器平台上可能出现的额外路由消耗和中断反转问题，提升了网络I/O性能。

和现有技术相比，本发明的优势在于：

(1)自主可控性，由于优化算法的设计和实现都是自主设计研发，具有完全的知识产权。

(2)实现方式的独创性，本发明的基于NUMA架构的飞腾平台下高性能网卡性能优化方法在以通过numa架构下的网卡中断亲和性来提升高性能网卡性能的同时，进一步更有针对性地对基于NUMA架构的飞腾平台下的高性能网卡的性能进行了优化，更具有针对性。

(3)实现效果明显，通过对飞腾平台的numa架构特点的分析，从而更有针对性地提升了基于numa架构的飞腾平台下的高性能网卡的性能；突破了网卡驱动在数据收发队列数和中断数的限制，避免了在多路超64核cpu的处理器平台上可能出现的额外路由消耗和中断反转问题，提升了高性能网卡的网络I/O性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于NUMA架构的飞腾平台下高性能网卡性能优化方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

BIOS：Basic Input Output System。即基本输入输出系统。

NUMA架构：NUMA即非一致存储访问，NUMA架构专注于解决服务器扩展能力的限制，其基本特征在于一个服务器具有多个CPU模块(也称为NUMA结点)，而每个结点则由多个CPU组成，并且NUMA结点具有独立的本地内存、I/O等资源，结点之间通过互联模块进行信息交互。每个CPU可以快速访问其所属NUMA结点的内存等资源(本地访问)，并通过互联模块访问其他结点的内存等资源(远地访问)，显然，本地内存的访问速度将远高于远地内存的访问速度。正因为这个原因，在开发中，为更好地发挥系统性能，需要尽可能减少不同NUMA结点之间的信息交互。

网卡中断：在Linux系统中，对于网卡的I/O请求是通过中断系统来实现的。当有网络I/O请求时，由网卡向CPU发送中断信号，CPU接收到中断后，会马上向操作系统反映此信号的到来，然后由操作系统执行中断相应程序来处理网卡的网络I/O请求。

多队列网卡：多队列网卡技术最初是用于解决网络I/O服务质量问题的。但随着网络带宽的不断提升和网卡性能的不断提高，单核CPU已经不能完全满足网卡的需求。而通过多队列网卡驱动的支持，可以将网卡I/O划分为多个队列，并将各个队列通过中断绑定到不同的CPU核上，以此满足网卡的需求。

如图1，在本申请实施例中，本发明提供了一种基于NUMA架构的飞腾平台下高性能网卡性能优化方法，所述方法包括步骤：

S1：处理网络中断的内存结点申请；

S2：扩充所述网络中断的数据收发队列；

S3：消除所述网络中断反转。

在本申请实施例中，本发明提供的一种基于NUMA架构的飞腾平台下高性能网卡性能优化方法，所述方法需要限制只在基于NUMA架构的飞腾平台(FT2000PLUS、FT2500)下的numa node 0(FT2500也可以包括从路CPU的numa node 8)结点接入网卡，并在网络中断都集中在numa node 0(FT2500也可以包括从路CPU的numa node 8)上的同时，使得数据处理则集中在近端的numa结点numa node 1(FT2500也可以包括从路CPU的numa node 9)上，即兼顾了降低中断路由开销的考量，又可以将数据处理和中断处理错开，一定程度上实现负载均衡思想，有利于降低numa node 0的负载。

进一步，为解决在FT2500处理器平台上从路cpu无法获得数据收发队列的问题，当判断到当前处理器为FT2500等多路cpu处理器时，对部分高性能网卡驱动原本注册的不超过60路数据收发队列进行成倍扩充，确保从路cpu也能获取数据收发队列。

更进一步，为避免在FT2500处理器平台上的主从路中断反转问题，所述方法修改了驱动中获取处理网卡中断的cpu的方式：不再从中断信息中得到cpu信息，而是改由根据numa结点来动态判断适合的cpu，使得从路的中断可以直接交由从路上的cpu进行处理，避免了主从路的中断反转所导致的中断路由开销和收发通道的中断干扰。

在步骤S1、S2和S3中，均需要确定只在基于NUMA架构的飞腾平台(FT2000PLUS、FT2500)下的numa node 0(FT2500也可以包括从路CPU的numa node 8)结点接入网卡。

步骤S1中，之所以执行结点加1操作，是因为当网卡插在主路的numa node 0或从路的numa node 8时，需要把网络中断处理时的内核层内存申请尽量落在主路的numa node1或从路的numa node 9结点上，如此，使得网络中断都集中在numa node 0和numa node 8上，而数据处理则集中在近端的numa结点numa node 1和numa node 9上，即兼顾了降低路由开销的考量，又可以将数据处理和中断处理错开，一定程度上实现负载均衡思想，有利于降低主从路的numa node 0和numa node 8的负载。

步骤S2的队列扩充暂时只针对FT2500操作，因为只有FT2500拥有超过64的120个cpu内核数量；又因为部分高性能网卡原始定义的收发队列数量为60，所以此时进行队列数*2操作，将数据收发队列扩充到120个队列。

步骤S3中，当发现当前处理器为FT2500时，将不再从中断信息中获取cpu id，而改由根据numa结点来计算得到cpu id。因为此时得到是当前进行数据处理的numa结点，所以此时numa结点id为node 1或node 9，而计算cpu id需要的是中断对应的numa结点，所以需要执行结点node id-1操作。

在本申请实施例中，步骤S1中的处理网络中断的内存结点申请包括步骤：

获取网卡设备所在的numa结点的结点编号；

判断当前处理器平台是否为飞腾平台；

若是，对所述结点编号执行加1操作后返回所述结点编号；

若否，返回所述结点编号；

根据所述结点编号向对应的所述numa结点申请内存。

在本申请实施例中，步骤S2中的扩充所述网络中断的数据收发队列包括步骤：

判断当前处理器平台是否为FT2500；

若是，继续执行后续步骤；

若否，跳过数据收发队列扩充操作；

获取得到设定的数据收发队列数量；

执行数据收发队列扩充操作。

在本申请实施例中，步骤S3中的消除所述网络中断反转包括步骤：

判断当前处理器平台是否为FT2500；

若是，继续执行后续步骤；

若否，直接从中断信息中获取CPU编号；

获取当前进行数据处理的numa结点编号；

将所述结点编号执行减1操作后，返回所述结点编号；

在本申请实施例中，在步骤S1中的处理网络中断的内存结点申请之前还包括步骤：

在BIOS中判断NUMA功能是否已设置为enable开启状态；

若是，继续执行后续步骤；

下面以具体实施例对本申请进行描述。

本发明的基于NUMA架构的飞腾平台下高性能网卡性能优化方法需要在NUMA架构下的飞腾平台上进行，并开启BIOS中的NUMA功能，确保在numa node 0(FT2500也可以包括从路CPU的numa node 8)结点接入网卡。

S1：处理网络中断的内存结点申请：

调用函数pci_irq_get_node来获取网卡设备所在的numa结点的编号，并将numa结点编号保存在变量numa_node上；

判断当前处理器平台是否为飞腾平台(FT2000PLUS、FT2500)；

若是，对所述结点编号执行加1操作后，返回所述结点编号；

若否，直接返回所述结点编号；

把numa_node作为申请内存函数kvzalloc_node的最后一个参数，即可实现在飞腾平台时的内存申请落在numa node 1(或numa node 9)的目的。

S2：扩充所述网络中断的数据收发队列：

判断当前处理器平台是否为FT2500；

若是，继续执行后续步骤；

若否，跳过数据收发队列扩充操作；

通过priv->channels.num可以得到设定的数据收发队列数量，并将其保存到变量num_rxqs中；

将num_rxqs的值扩大为原值的两倍，并通过函数netif_set_real_num_rx_queues(netdev,num_rxqs)可以实现对数据收发队列的扩充。

S3：消除所述网络中断反转：

判断当前处理器平台是否为FT2500；

若是，继续执行后续步骤；

若否，直接从中断信息中获取CPU编号；

通过调用函数pci_irq_get_node函数来获取中断对应的numa node id；

因为pci_irq_get_node函数获取的是node 1或者node 9，所以需先执行numanode id减1操作后，再返回numa node id；

根据返回的numa node id，计算得到适合处理网卡中断的cpu。

本申请提供的一种基于NUMA架构的飞腾平台下高性能网卡性能优化装置可以执行本申请提供的一种基于NUMA架构的飞腾平台下高性能网卡性能优化方法。

和现有技术相比，本发明的优势在于：

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于NUMA架构的飞腾平台下高性能网卡性能优化方法，其特征在于，所述方法包括步骤：

处理网络中断的内存结点申请；

扩充所述网络中断的数据收发队列；

消除所述网络中断反转。

2.根据权利要求1所述的基于NUMA架构的飞腾平台下高性能网卡性能优化方法，其特征在于，所述处理网络中断的内存结点申请包括步骤：

获取网卡设备所在的numa结点的结点编号；

判断当前处理器平台是否为飞腾平台；

若是，对所述结点编号执行加1操作后，返回所述结点编号；

若否，直接返回所述结点编号；

根据所述结点编号向对应的所述numa结点申请内存。

3.根据权利要求1所述的基于NUMA架构的飞腾平台下高性能网卡性能优化方法，其特征在于，所述扩充所述网络中断的数据收发队列包括步骤：

判断当前处理器平台是否为FT2500；

若是，继续执行后续步骤；

若否，跳过数据收发队列扩充操作；

获取得到设定的数据收发队列数量；

执行数据收发队列扩充操作。

4.根据权利要求1所述的基于NUMA架构的飞腾平台下高性能网卡性能优化方法，其特征在于，所述消除所述网络中断反转包括步骤：

判断当前处理器平台是否为FT2500；

若是，继续执行后续步骤；

若否，直接从中断信息中获取CPU编号；

获取当前进行数据处理的numa结点编号；

将所述结点编号执行减1操作后，返回所述结点编号；

5.根据权利要求1所述的基于NUMA架构的飞腾平台下高性能网卡性能优化方法，其特征在于，在所述处理网络中断的内存结点申请之前还包括步骤：

在BIOS中判断NUMA功能是否已设置为enable开启状态；

若是，继续执行后续步骤；