CN112860530B - 一种利用非统一存储器访问架构特点提升并行化NumPy计算性能的方法 - Google Patents

一种利用非统一存储器访问架构特点提升并行化NumPy计算性能的方法 Download PDF

Info

Publication number
CN112860530B
CN112860530B CN202110122117.7A CN202110122117A CN112860530B CN 112860530 B CN112860530 B CN 112860530B CN 202110122117 A CN202110122117 A CN 202110122117A CN 112860530 B CN112860530 B CN 112860530B
Authority
CN
China
Prior art keywords
cpu
cores
numpy
numa
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110122117.7A
Other languages
English (en)
Other versions
CN112860530A (zh
Inventor
梁嘉迪
杜云飞
卢宇彤
肖侬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110122117.7A priority Critical patent/CN112860530B/zh
Publication of CN112860530A publication Critical patent/CN112860530A/zh
Application granted granted Critical
Publication of CN112860530B publication Critical patent/CN112860530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files
    • G06F9/4451User profiles; Roaming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Multi Processors (AREA)

Abstract

本发明公开了一种利用非统一内存访问架构特点提升并行化NumPy计算性能的方法,所述方法包括针对NUMA架构及NumPy并行计算的特点分析;针对NumPy并行计算及NUMA架构优化的CPU分配程序与基于CPU分配程序及进程绑定的优化版NumPy并行计算系统。本发明的有益效果在于,可以由CPU分配器根据NUMA架构计算机以及NumPy并行计算的特点,生成一个CPU配置文件,利用进程绑定,把进程绑定到适合的CPU核心上运行。这样可以更有效地利用计算机的硬件资源的同时,减少进程迁移带来的性能问题,提升并行计算的性能。

Description

一种利用非统一存储器访问架构特点提升并行化NumPy计算 性能的方法
技术领域
本发明属于计算机算法性能提升的研究技术领域,特别涉及一种利用非统一存储器访问架构特点提升并行化NumPy计算性能的方法。
背景技术
NumPy是Python语言的一个矩阵及多维数组计算库。它使用C实现各算法中的核心计算部分,使得它的运行效率可以达到编译语言的水平。它还可以通过连接BLAS与LAPACK以进一步提升线性代数运算的性能。NumPy的常用领域包括科学计算、机器学习、数据分析、数据可视化等,而这些领域对性能的需求日渐提高,NumPy是一个串行计算的计算库,并行计算是提升NumPy性能的一种有效思路。
现代计算机应用对处理器的性能需求日渐提升,为了给这些应用提高更多处理器核心,出现了更多非统一存储器访问(NUMA)架构的计算机处理器。与传统的统一存储器访问架构不同,在非统一存储器访问架构的处理器中,存储器的访问时间取决于存储器相对于处理器的位置。虽然两者同样由计算机中的所有物理存储器组成全局的地址空间,但在NUMA架构中存储器在物理上是分布式的。处理器访问它的本地存储器时速度比非本地存储器更快。
因为处理器在访问本地存储器时速度更快,所以一般操作系统在处理多线程任务时,会更倾向于把同一个进程的线程分配到同一个NUMA节点当中,以此提升线程间数据交换的效率。然而这种方式并不是对所有应用场景都是最好的。
如图1所示,描述了一台典型的NUMA架构计算机的架构图。当中包含存储器、CPU插槽、NUMA节点、CPU核心等。其他典型的计算机部件例如硬盘及网络等被省略。
图1中的计算机有两个CPU插槽,分别为Socket0和Socket1,它们各自对应一个相同的CPU。
每个CPU当中包含8个核心,并且被分为两个NUMA节点,其中Socket0中的CPU被分为NUMA0及NUMA1;Socket1中的CPUl被分为NUMA2及NUMA3。其中每个NUMA节点当中皆有4个核心。
与NUMA节点对应地,存储器也被分为了对于每个NUMA节点的本地存储器,它们分别是RAM0、RAM1、RAM2及RAM3。
以NUMA0当中的核心为例,其访问RAM0中的数据时具有相对更小的延迟。而访问RAM1中的数据时因为需要经过NUMA1,延迟会变得较大。访问RAM2或RAM3中的数据因为要进行跨插槽的数据交换,这个时候访问延迟会再进一步提升。
为了确保应用的性能,在一般的操作系统中,会把并行计算应用中的线程尽量分配到相同的NUMA节点的核心当中。同样地,在并行编程模型例如MPI当中,默认也是尽量较少的NUMA节点数量,并尽量使用当中的全部核心。
这样的方式减少了程序中在核心间进行数据交换的延迟,某上程度上可以提升应用的性能。然而,这样的方式可能减少了存储器及存储器带宽的利用率,这个问题将在后续部分进行详细说明。
NumPy并行计算版本主要服务的目标是科学计算、机器学习、数据分析、数据可视化等。这些领域一般都有计算量大、可接受的计算延迟较大等特点。
由于NumPy中相当多的计算操作都是对矩阵中每一个元素进行相同的操作,这些操作显然是易于并行的,而且并行的时候也基本不需要进行进程间的数据交换。这样使得即是进程在不同的NUMA节点上,也不会为计算带来巨大的延迟。
因为应用场景一般是数据密集的。所以NumPy计算时CPU需要访问记忆体中大量的数据,这使得存储器带宽是影响计算性能的一个重要因素。
同时,NumPy的数据是密集地存储在内存空间中的,这样使得Cache的容量提升对于程序的性能提升有很大的作用。
如图2为并行计算在NUMA架构上传统的CPU分配方式示意图,图中深色部分为此分配方式所选择的核心,其选择了在NUMA0中的四个CPU核心用作计算。
这种分配方式为一般操作系统及并行编程模型中选择的分配方式,尽量使用相同NUMA节点中的核心用作计算。
在这种分配方式中,所有核心都尽量使用RAM0作为存储器。虽然这种分配方式使得CPU核心之间的数据交换可以达到最小的延迟,但显然地RAM1、RAM2及RAM3以及它们的带宽都被浪费了。
发明内容
鉴于现有技术的缺陷,本发明旨在于提供一种利用非统一存储器访问架构特点提升并行化NumPy计算性能的方法,本发明一种利用NUMA架构特点提升NumPy并行计算性能的方式及使用之实现的NumPy并行计算系统,通过分析NUMA架构及NumPy并行计算的特点,以更高效的CPU分配作切入,进程绑定为手段,以达到提升计算性能及硬件利用效率的目的。
为了实现上述目的,本发明采用的技术方案如下:
一种利用非统一存储器访问架构特点提升并行化NumPy计算性能的方法,所述方法包括针对NUMA架构及NumPy并行计算的特点分析;针对NumPy并行计算及NUMA架构优化的CPU分配程序与基于CPU分配程序及进程绑定的优化版NumPy并行计算系统。
需要说明的是,所述方法包括:
S1 NumPy并行计算系统接收计算任务;
S2从用户输入中确定需要使用的CPU核心数量;
S3调用CPU分配程序以生成针对NUMA架构及NumPy并行计算优化过的CPU分配文件;
S4结果为分配给不同的NUMA中各两个核心;
S5建立与步骤S2需要使用的CPU核心数量相同的进程,并按照CPU分配文件对它们进行与CPU核心的绑定;
S6矩阵计算任务被分到各个进程中进行;
S7计算完成。
需要进一步说明的是,所述步骤S3包括:
S3.1从环境变量或输入获取需要的核心数量;
S3.2使用lscpu获取系统的CPU信息并截取有用部分;
S3.3从CPU信息中截取有用信息;
S3.4以需要的核心数量除以NUMA节点数量以求出平均每个NUMA节点需要分配多少个核心;
S3.5从第一个NUMA节点开始进行核心的分配;
S3.6若剩余需要分配的核心数可被剩下的NUMA节点数整除,从剩余的NUMA节点中平均地分配需要的核心即可完成分配;
S3.7若剩余需要分配的核心数为0也即完成分配;
S3.8否则为在当前NUMA节点分配核心并跳到下一个NUMA节点,转到第6步继续;
S3.9完成分配后,根据CPU信息及各NUMA节点上分配的核心数量生成CPU核心分配文件。
优选的,所述有用信息可以是CPU插槽数量、NUMA节点数量及CPU核心数量。
优选的,所述步骤S3.4中,对于非整数情况,使用round,即求与该小数最接近的整数。
本发明的有益效果在于,可以由CPU分配器根据NUMA架构计算机以及NumPy并行计算的特点,生成一个CPU配置档,利用进程绑定,把进程绑定到适合的CPU核心上运行。这样可以更有效地利用电脑的硬件资源的同时,减少进程迁移带来的性能问题,提升并行计算的性能。
附图说明
图1为现有技术中一般NUMA计算机架构示意图;
图2为并行计算在NUMA架构中传统的CPU分配方式示意图;
图3为本发明基于CPU分配程序及进程绑定的优化版NumPy并行计算系统的运行流程示意图;
图4为本发明中CPU核心分配文件生成流程示意图;
图5为本发明针对NumPy并行计算优化的CPU分配方式示意图;
图6为本发明其中一个核心分配文件示例示意图。
具体实施例
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
本发明为一种利用非统一存储器访问架构特点提升并行化NumPy计算性能的方法,所述方法包括针对NUMA架构及NumPy并行计算的特点分析;针对NumPy并行计算及NUMA架构优化的CPU分配程序与基于CPU分配程序及进程绑定的优化版NumPy并行计算系统。
如图3所示,本发明的所述方法包括:
S1 NumPy并行计算系统接收计算任务;
S2从用户输入中确定需要使用的CPU核心数量;
S3调用CPU分配程序以生成针对NUMA架构及NumPy并行计算优化过的CPU分配文件;
S4结果为分配给不同的NUMA中各两个核心;
S5建立与步骤S2需要使用的CPU核心数量相同的进程,并按照CPU分配文件对它们进行与CPU核心的绑定;
S6矩阵计算任务被分到各个进程中进行;
S7计算完成。
如图4所示,本发明的步骤S3包括:
S3.1从环境变量或输入获取需要的核心数量;
S3.2使用lscpu获取系统的CPU信息并截取有用部分;
S3.3从CPU信息中截取有用信息;
S3.4以需要的核心数量除以NUMA节点数量以求出平均每个NUMA节点需要分配多少个核心;
S3.5从第一个NUMA节点开始进行核心的分配;
S3.6若剩余需要分配的核心数可被剩下的NUMA节点数整除,从剩余的NUMA节点中平均地分配需要的核心即可完成分配;
S3.7若剩余需要分配的核心数为0也即完成分配;
S3.8否则为在当前NUMA节点分配核心并跳到下一个NUMA节点,转到第6步继续;
S3.9完成分配后,根据CPU信息及各NUMA节点上分配的核心数量生成CPU核心分配文件。
优选的,所述有用信息可以是CPU插槽数量、NUMA节点数量及CPU核心数量。
优选的,所述步骤S3.4中,对于非整数情况,使用round,即求与该小数最接近的整数。
实施例
图5为针对NumPy并行计算优化的CPU分配方式示意图,图中深色部分为此分配方式所选择的核心,其选择了分布在NUMA0、NUMA1、NUMA2及NUMA3上的四个核心。
这种分配方式使用根据的原则是尽可能使用更多的NUMA节点。这样相对于传统的CPU分配方式,存储器带宽达到了四倍。与此同时,因为使用了两个插槽中的CPU,L3 Cache也变为了传统CPU分配方式的两倍。
这种分配方式虽然提升了核心间数据交换的开销,却可以充分利用计算机的存储器和存储器带宽。并且应用的性能也能因L3 Cache容量的提升而得益,这对于程序局部性较好的程序提升是巨大的。
传统的CPU分配方式在程序中可以使进程间数据交换延迟更低,这对于很多应用程序来说是关键的。然而,NumPy并行计算主要服务于科学计算及机器学习等计算量巨大但对于计算延迟相对不敏感的应用。同时它的计算中相对于进程间的数据交换,更多的是数据在内存和CPU间的交换。针对于NumPy并行计算的CPU分配方式可以充分地利用系统中的存储器带宽以及L3 Cache,这对于NumPy并行计算系统的性能提升是巨大的。
为了进一步描述本发明,如图6所示,为一个核心分配文件示例,它描述了一个需要8核心的计算任务在图1架构的计算机中,CPU分配程序所生成的CPU分配文件。
档当中每行皆描述了一个进程相关的绑定信息,信息皆可以以rank[rank]=[hostname]slot=[slot]:[core]的形式表示。
其中rank为程序中的进程号,档中8行信息分别代表着进程0到进程7共8个进程的绑定信息。
hostname为处理器所在机器的机器名称或ip地址,在本例中使用单台机器完成计算,所以8个进程所在的机器皆为localhost。
slot为核心所在的插槽号,本例中前4个进程与0号插槽中的CPU核心进行绑定,后4个进程与1号插槽中的CPU核心进行绑定。
core为插槽内的核心号。从图1,每个插槽中第一个NUMA节点中的核心的核心号为0-3,第二个NUMA节点中的核心的核心号为4-7。所以核心分配程序按照使用尽量多的NUMA节点并平均分配的原则,使用了每个插槽的0,1,4,5号核心。
NumPy并行计算系统根据此档可以把8个进程绑定到对应的核心,达到比传统分配方式更好的性能。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变,而所有的这些改变,都应该包括在本发明权利要求的保护范围之内。

Claims (3)

1.一种利用非统一内存访问架构特点提升并行化NumPy计算性能的方法,其特征在于,所述方法包括:
S1 NumPy并行计算系统接收计算任务;
S2从用户输入中确定需要使用的CPU核心数量;
S3调用CPU分配程序以生成针对NUMA架构及NumPy并行计算优化过的CPU分配文件;
S4结果为分配给不同的NUMA中各两个核心;
S5建立与步骤S2需要使用的CPU核心数量相同的进程,并按照CPU分配文件对它们进行与CPU核心的绑定;
S6矩阵计算任务被分到各个进程中进行;
S7计算完成;
其中,所述S3包括:
S3.1从环境变量或输入获取需要的核心数量;
S3.2使用lscpu获取系统的CPU信息并截取有用部分;
S3.3从CPU信息中截取有用信息;
S3.4以需要的核心数量除以NUMA节点数量以求出平均每个NUMA节点需要分配多少个核心;
S3.5从第一个NUMA节点开始进行核心的分配;
S3.6若剩余需要分配的核心数可被剩下的NUMA节点数整除,从剩余的NUMA节点中平均地分配需要的核心即可完成分配;
S3.7若剩余需要分配的核心数为0也即完成分配;
S3.8否则为在当前NUMA节点分配核心并跳到下一个NUMA节点,转到S3.6继续;
S3.9完成分配后,根据CPU信息及各NUMA节点上分配的核心数量生成CPU核心分配文件。
2.根据权利要求1所述的利用非统一内存访问架构特点提升并行化NumPy计算性能的方法,其特征在于,所述有用信息是CPU插槽数量、NUMA节点数量及CPU核心数量。
3.根据权利要求1所述的利用非统一内存访问架构特点提升并行化NumPy计算性能的方法,其特征在于,所述S3.4中,对于非整数情况,使用round,即求与该非整数最接近的整数。
CN202110122117.7A 2021-01-27 2021-01-27 一种利用非统一存储器访问架构特点提升并行化NumPy计算性能的方法 Active CN112860530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110122117.7A CN112860530B (zh) 2021-01-27 2021-01-27 一种利用非统一存储器访问架构特点提升并行化NumPy计算性能的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110122117.7A CN112860530B (zh) 2021-01-27 2021-01-27 一种利用非统一存储器访问架构特点提升并行化NumPy计算性能的方法

Publications (2)

Publication Number Publication Date
CN112860530A CN112860530A (zh) 2021-05-28
CN112860530B true CN112860530B (zh) 2022-09-27

Family

ID=75987866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110122117.7A Active CN112860530B (zh) 2021-01-27 2021-01-27 一种利用非统一存储器访问架构特点提升并行化NumPy计算性能的方法

Country Status (1)

Country Link
CN (1) CN112860530B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834505A (zh) * 2015-05-13 2015-08-12 华中科技大学 一种多核多线程环境下numa感知的同步方法
CN107346267A (zh) * 2017-07-13 2017-11-14 郑州云海信息技术有限公司 一种基于numa架构的cpu性能优化方法和装置
CN107748706A (zh) * 2017-10-27 2018-03-02 郑州云海信息技术有限公司 一种绑定方法及装置
CN111262753A (zh) * 2020-01-13 2020-06-09 苏州浪潮智能科技有限公司 一种numa节点个数自动配置方法方法、系统、终端及存储介质
CN112231102A (zh) * 2020-10-16 2021-01-15 苏州浪潮智能科技有限公司 一种提升存储系统性能的方法、装置、设备、产品

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6629152B2 (en) * 1998-06-29 2003-09-30 International Business Machines Corporation Message passing using shared memory of a computer
US8700838B2 (en) * 2012-06-19 2014-04-15 Concurix Corporation Allocating heaps in NUMA systems
CN104050091B (zh) * 2012-12-28 2017-06-20 华耀(中国)科技有限公司 基于非一致性内存访问系统的网络设备及其设置方法
CN109388490B (zh) * 2017-08-07 2020-11-17 华为技术有限公司 一种内存分配方法和服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834505A (zh) * 2015-05-13 2015-08-12 华中科技大学 一种多核多线程环境下numa感知的同步方法
CN107346267A (zh) * 2017-07-13 2017-11-14 郑州云海信息技术有限公司 一种基于numa架构的cpu性能优化方法和装置
CN107748706A (zh) * 2017-10-27 2018-03-02 郑州云海信息技术有限公司 一种绑定方法及装置
CN111262753A (zh) * 2020-01-13 2020-06-09 苏州浪潮智能科技有限公司 一种numa节点个数自动配置方法方法、系统、终端及存储介质
CN112231102A (zh) * 2020-10-16 2021-01-15 苏州浪潮智能科技有限公司 一种提升存储系统性能的方法、装置、设备、产品

Also Published As

Publication number Publication date
CN112860530A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
JPH1040223A (ja) 分散並列システムにおける集合通信認識の最適化方法
Hashmi et al. Designing efficient shared address space reduction collectives for multi-/many-cores
US6324629B1 (en) Method for determining an optimized data organization
US6907509B2 (en) Automatic program restructuring to reduce average cache miss penalty
Kaufmann et al. Parallel Array-Based Single-and Multi-Source Breadth First Searches on Large Dense Graphs.
CN112860530B (zh) 一种利用非统一存储器访问架构特点提升并行化NumPy计算性能的方法
Niethammer et al. An MPI interface for application and hardware aware Cartesian topology optimization
US20080005726A1 (en) Methods and systems for modifying software applications to implement memory allocation
Pellegrini et al. On the effects of cpu caches on mpi point-to-point communications
Cremonesi et al. Performance evaluation of parallel systems
Rolinger et al. Optimizing data layouts for irregular applications on a migratory thread architecture
Pan et al. CongraPlus: towards efficient processing of concurrent graph queries on NUMA machines
Li et al. Dual buffer rotation four-stage pipeline for CPU–GPU cooperative computing
Bordawekar et al. Communication strategies for out-of-core programs on distributed memory machines
Kim et al. FusionFlow: Accelerating Data Preprocessing for Machine Learning with CPU-GPU Cooperation
Chen et al. Improving performance of genomic aligners on intel xeon phi-based architectures
Pimple et al. Architecture aware programming on multi-core systems
Rolinger et al. Optimizing memory-compute colocation for irregular applications on a migratory thread architecture
Brecht Multiprogrammed parallel application scheduling in NUMA multiprocessors.
Liu et al. Topology aware algorithm for two-phase I/O in clusters with tapered hierarchical networks
Abdelrahman et al. Compiler support for array distribution on NUMA shared memory multiprocessors
Idrees et al. Effective use of the PGAS paradigm: Driving transformations and self-adaptive behavior in dash-applications
Harzallah et al. Hot spot analysis in large scale shared memory multiprocessors
Nguyen et al. Efficient use of dynamically tagged directories through compiler analysis
US20200409746A1 (en) Information processing apparatus and recording medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant