CN112306554A

CN112306554A - 高性能要求软件从Grantley平台过渡到Purley平台的优化方法及装置

Info

Publication number: CN112306554A
Application number: CN202011296562.7A
Authority: CN
Inventors: 林飞; 晏义威; 刘俊; 易永波; 古元
Original assignee: Beijing Act Technology Development Co ltd
Current assignee: Beijing Act Technology Development Co ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-02-02
Anticipated expiration: 2040-11-19
Also published as: CN112306554B

Abstract

高性能要求软件从Grantley平台过渡到Purley平台的优化方法及装置涉及信息技术领域。本发明实现的组成模块包括CPU绑核控制器、线程绑核控制器、多线程变量缓存行填充器、网络数据包预取执行器、TCMalloc内存分配器和内存池；实现本发明解决了高性能软件对Purley平台的适配，但又不需要全新重构，只需较小的改动及调整，较快地达到预期的性能，同时又保证了整体成本性价比最高，让产品在市场上有竞争力。

Description

高性能要求软件从Grantley平台过渡到Purley平台的优化方法及装置

技术领域

本发明涉及信息技术领域。

背景技术

基于 Grantley 平台的前代英特尔至强处理器家族的处理器，其处理器内核、处理器最后一级高速缓存即三级缓存、处理器内存控制器、处理器IO 控制器和处理器插槽间英特尔快速通道互联技术端口通过环形架构连接在一起，近几代英特尔多核 CPU 均采用了这种架构。随着 CPU 内核数量的增多，访问延迟变长，每个内核的可用带宽减少。通过将芯片一分为二，采用另一个环来缩短距离、提高带宽，有效缓解了这一状况。但是始终存在环所带来的瓶颈，对片上互联的额外需求将限制环形架构的性能。为了解决这个问题，英特尔推出了Purley平台。

英特尔Purley平台提供了更多的每处理器内核数量和更高的内存和 IO 带宽，英特尔Purley平台推出了网格架构，以消除前代环形架构日益严重的延迟和带宽限制。英特尔Purley平台还以模块化、分布式的方式将缓存代理、归属地代理和 IO 子系统模块集成至网格互联，以消除访问这些功能时遇到的瓶颈。每个核和三级缓存片具有整合的缓存和归属地代理 CHA，为整个网格的资源提供出色的可扩展性，实现了英特尔超级通道互联高速缓存一致性功能，无需任何热点。英特尔Purley平台网格架构包含一系列垂直和水平通信路径，以最短的路径实现内核间的遍历，在垂直路径上纠正行，在水平路径上纠正列。每个三级缓存片上的 CHA 将获取的地址映射至特定的三级缓存存储区、内存控制器或 IO子系统，并借助网格互联提供到达目的地所需的路由信息。

全球信息化速度不断加快，互联网已经渗透到国民生活的各个领域，对政治、经济、社会、文化的影响越来越深刻。目前，在因特网数据中心IDC业务和因特网接入服务ISP业务中，广泛存在着安全意识淡薄、管理基础薄弱、查处手段缺失、违法信息发现及处置难、日志留存落实不到位等问题，相应的信息安全问题也越来越严峻。为了满足 IDC和ISP 业务经营者和电信管理部门的信息安全管理需求，具备基础数据、信息安全、内容日志、行为日志、黑白名单、接入资源、统计分析及系统管理等功能的信息安全管理系统就应运而生了，简称为审计系统。

随着Grantley 平台的处理器停产，审计系统适配英特尔Purley平台就迫在眉睫。由于Purley平台架构从之前Grantley 平台的环形架构调整到网格结构，再有CPU二级缓存增大、三级缓存减少的高速缓存结构的调整，还有内存结构的变化，虽说对绝大部分应用是无感知的，但对高实时性、高性能的、高消耗的的审计系统对这种调整就很敏感，在Purley平台测试中，审计系统的性能只有原来Grantley平台同等配置的一半。以往新的平台有较大的变动，一般都是全新重构审计系统及装置，然后逐步调优迭代，花费大量的时间和人力资源成本，得不偿失。有的甚至用较高的配置来弥补性能的下降，但是成本太高，在市场上毫无竞争力。有的逐步适配，用旧的平台慢慢过渡，一点点熟悉新的平台架构和特性，再针对性做优化，这样适配周期过长，库存过多资金周转困难。

本专利提出了高性能要求软件从Grantley 平台过渡到Purley平台的优化方法及装置，根据Purley平台架构的调整，针对CPU高速缓存结构有的放矢，利用绑核技巧充分发挥二级缓存增大的优势、降低三级缓存减少的影响，从而达到优化CPU的性能的目的。同时通过缓存行填充和软件预取指令技术，较快就使性能有显著性地提高。采用六道通的内存配置，再使用内存池技术和tcmalloc内存分配器替换原来系统的内存分配器，从而以较高的性价比达到原来Grantley平台同等配置的性能。本发明的实现可以使高实时性、高性能、高CPU消耗的软件平台顺利的过渡到Purley平台的硬件架构，成本低见效快。

现有技术说明

前代处理器的二级缓存为每内核 256 KB，三级缓存为每内核 2.5 MB 共享包含式高速缓存。英特尔Purley平台对高速缓存结构进行了调整，提供更大的每内核1MB二级缓存和更小的每内核 1.375 MB 共享非包含三级缓存。各代处理器的高速缓存对比，二级缓存越大，命中率越高，可降低有效内存延迟以及对网格互联与三级缓存的要求。相比包含式高速缓存，非包含三级缓存提高了片上高速缓存的总体有效利用率。鉴于三级缓存的非包含属性，三级缓存中高速缓存行的缺失并不代表它不存在于某个内核的专有高速缓存内。因此，当高速缓存行未被分配至三级缓存时，借助探听过滤器在内核的一级缓存或二级缓存中进行追踪。而在前代 CPU 中，此任务由共享三级缓存处理。

尽管英特尔Purley平台对高速缓存结构进行了调整，但每个内核有效高速缓存和前代产品大致相同，对于绝大部分应用是无感知的。但是对于审计系统来说，需要实时采集网卡上的海量网络数据，还要对网络数据报文进行深度分析，并把相关的流信息提取出来写入日志。整个过程涉及到建流、协议识别、协议还原、IP报文分片重组、TCP流重组、匹配引擎等各种复杂耗时耗内存的操作，这类应用就要利用Purley平台的现有高速缓存结构调整代码，优化应用。

非一致性内存架构NUMA同的节点，每个节点都有自己的集成内存控制器。处于该节点中的内存被称为本地内存，处于其他节点中的内存被称为远程内存。访问本地内存的开销时间比远程内存要短。为了避免跨NUMA节点访问远程内存，网卡需要均匀地插在多个NUMA节点上。

tcmalloc是谷歌开发的一个内存分配器，管理堆内存，用于降低频繁分配、释放内存造成的性能损耗，并且有效地控制内存碎片。glibc中的内存分配器是ptmalloc2，而glibc使用的ptmalloc2在性能上远远弱后于谷歌的tcmalloc。同时tcmalloc也优化了小对象的存储，需要更少的空间。tcmalloc特别对多线程做了优化，对于小对象的分配基本上是不存在锁竞争，而大对象使用了细粒度、高效的自旋锁。分配给线程的本地缓存，在长时间空闲的情况下会被回收，供其他线程使用，这样提高了在多线程情况下的内存利用率，不会浪费内存，而这一点ptmalloc2也是做不到的。

缓存行是CPU缓存中可分配操作的最小存储单元,一般是64字节，跟CPU架构有关。当多线程修改互相独立的变量时，如果这些变量共享同一个缓存行，就会无意中影响彼此的性能，这就是伪共享。有人将伪共享描述成无声的性能杀手，因为从代码中很难看清楚是否会出现伪共享。

软件预取指令即将用到的数据从内存中加载到缓存，这样当前数据处理完毕后，即将用到的数据已经在缓存中，极大减小了从内存直接读取的开销，也减少了处理器等待的时间，从而提高了性能。增加预取指令并不需要时时考虑到缓存的存在，重点是在某些热点区域或者性能相关区域能够通过显式地加载数据到缓存，提高程序执行的效率。滥用软件预取指令反而还会造成程序性能下降。

发明内容

鉴于现有技术的不足，本发明提供的高性能要求软件从Grantley 平台过渡到Purley平台的优化方法及装置，完成该方法必要的组成模块包括CPU绑核控制器、线程绑核控制器、多线程变量缓存行填充器、网络数据包预取执行器、TCMalloc内存分配器和内存池；

实现本发明的步骤包括：

1）由CPU绑核控制器将属于同一个物理核的两个逻辑核按照顺序绑定在一起；由于两个逻辑核是同一个物理核虚拟出来的，每个物理核独有一级缓存和二级缓存，可以充分发挥Purley平台二级缓存增大的优势；

由CPU绑核控制器将属于同一个socket的物理核依次按序绑定在一起；所有物理核共享三级缓存，这样，尽可能降低Purley平台三级缓存减少的影响，同时避免远程访问另一个socket上的三级缓存，降低了访问延迟，socket是一个物理上的概念，指的是主板上的CPU插槽；

2）由线程绑核控制器将收包业务的线程单独绑核，其他业务线程都绑定到未单独绑核的CPU核；收包业务线程单独绑核，避免缓存抖动，间歇性丢包；而其他业务线程都绑定到未单独绑核的CPU核上，既可以充分利用CPU资源，同时不影响原有业务的性能；

3）由多线程变量缓存行填充器修改涉及多线程的变量，通过往对象中填充无意义的变量，来保证整个对象独占缓存行，由多线程变量缓存行填充器修改的涉及多线程的变量包括操作网络数据包的变量、操作流信息的变量、操作日志的变量；

4）由网络数据包预取执行器用软件预取指令来获取网络数据包；

5）使用内存池代替系统内存管理，内存池是在真正使用内存之前，先申请分配一定数量的、大小相等的内存块留作备用；当有新的内存需求时，就从内存池中分出一部分内存块，若内存块不够再继续申请新的内存；

6）由TCMalloc内存分配器将tcmalloc库链接到程序中，完成针对内存对象不是固定的大小，无法使用内存池的变量的内存分配。

有益效果

实现本发明解决了高性能软件对Purley平台的适配，但又不需要全新重构，只需较小的改动及调整，较快地达到预期的性能，同时又保证了整体成本性价比最高，让产品在市场上有竞争力。

附图说明

图1是本发明的系统结构图。

具体实施方式

参看图1实现本发明提供的高性能要求软件从Grantley 平台过渡到Purley平台的优化方法及装置，完成该方法必要的组成模块包括CPU绑核控制器1、线程绑核控制器2、多线程变量缓存行填充器3、网络数据包预取执行器4、TCMalloc内存分配器5和内存池6；

实现本发明的步骤包括：

1）由CPU绑核控制器1将属于同一个物理核的两个逻辑核按照顺序绑定在一起；由于两个逻辑核是同一个物理核虚拟出来的，每个物理核独有一级缓存和二级缓存，可以充分发挥Purley平台二级缓存增大的优势；

由CPU绑核控制器1将属于同一个socket的物理核依次按序绑定在一起；所有物理核共享三级缓存，这样，尽可能降低Purley平台三级缓存减少的影响，同时避免远程访问另一个socket上的三级缓存，降低了访问延迟，socket是一个物理上的概念，指的是主板上的CPU插槽；

2）由线程绑核控制器2将收包业务的线程单独绑核，其他业务线程都绑定到未单独绑核的CPU核；收包业务线程单独绑核，避免缓存抖动，间歇性丢包；而其他业务线程都绑定到未单独绑核的CPU核上，既可以充分利用CPU资源，同时不影响原有业务的性能；

3）由多线程变量缓存行填充器3修改涉及多线程的变量，通过往对象中填充无意义的变量，来保证整个对象独占缓存行，由多线程变量缓存行填充器3修改的涉及多线程的变量包括操作网络数据包的变量、操作流信息的变量、操作日志的变量；

4）由网络数据包预取执行器4用软件预取指令来获取网络数据包；

5）使用内存池6代替系统内存管理，内存池6是在真正使用内存之前，先申请分配一定数量的、大小相等的内存块留作备用；当有新的内存需求时，就从内存池6中分出一部分内存块，若内存块不够再继续申请新的内存；

与系统内存管理相比，内存池6的操作非常迅速，它在性能优化方面的优点主要如下：

针对特殊情况，例如需要频繁分配释放固定大小的内存对象时，不需要复杂的分配算法和多线程保护；也不需要维护内存空闲表的额外开销，从而获得较高的性能；由于开辟一定数量的连续内存空间作为内存池块，因而提高了程序局部性，提升了程序性能；容易控制页边界对齐和内存字节对齐，没有内存碎片的问题；

6）由TCMalloc内存分配器5将tcmalloc库链接到程序中，完成针对内存对象不是固定的大小，无法使用内存池的变量的内存分配。

Claims

1.高性能要求软件从Grantley 平台过渡到Purley平台的优化方法，其特征在于完成该方法必要的组成模块包括CPU绑核控制器、线程绑核控制器、多线程变量缓存行填充器、网络数据包预取执行器、TCMalloc内存分配器和内存池；

实现本发明的步骤包括：