CN116610372A

CN116610372A - 一种中央处理器配置方法、装置及相关产品

Info

Publication number: CN116610372A
Application number: CN202310866697.XA
Authority: CN
Inventors: 查冲
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2023-08-18
Anticipated expiration: 2043-07-14
Also published as: CN116610372B

Abstract

本申请公开一种中央处理器配置方法、装置及相关产品。本申请涉及到云技术领域的数据计算和数据传输。方法中中央处理器被配置不同数量的NUMA时，以评估指标分别评估中央处理器和图形处理器协同执行目标任务的协同性能，得到不同数量的NUMA分别对应的性能评估结果；根据评估指标的类型以及不同性能评估结果的数值大小，从不同数量中确定目标配置数量；若中央处理器已配置NUMA的数量与目标配置数量不同，则为中央处理器配置目标配置数量的NUMA，以在配置完成后再一次协同执行目标任务。本申请能够确定出提高中央处理器和图形处理器的协同性能的目标配置数量的NUMA，从而提升目标任务的执行速度。

Description

一种中央处理器配置方法、装置及相关产品

技术领域

本申请涉及计算机技术领域，尤其涉及一种中央处理器配置方法、装置及相关产品。

背景技术

中央处理器是计算机的核心部件，其作为计算机系统的运算和控制核心，是信息处理、程序运行的最终执行单元。但仅用中央处理器单独执行任务，容易造成任务执行效率低下。图形处理器可以减少任务对中央处理器的依赖，并进行部分原本中央处理器的工作。图形处理器又称视觉处理器，是一种在电脑和手机等终端设备，或者在服务器上做图像和图形相关运算工作的微处理器。因此，中央处理器和图形处理器协同执行任务，已成为常见的任务处理方式。

然而，随着任务需求的复杂化，任务的规模也在逐渐提升。例如在中央处理器和图 形处理器协同执行训练人工智能预训练大模型等任务时，可能会遇到任务自身的参数量大，且执行任务的过程中需要交换的数据规模量也非常大的情况，容易降低中央处理器和图形处理器协同执行任务的协同性能，导致任务的执行速度减慢，影响任务的落地时间。

因此，如何提高中央处理器和图形处理器协同执行任务的协同性能，加快任务的执行速度，已成为目前亟待解决的问题。

发明内容

本申请实施例提供了一种中央处理器配置方法、装置及相关产品，旨在提高中央处理器和图形处理器协同执行训练人工智能预训练大模型等任务时的协同性能，实现中央处理器和图形处理器的高效协同，进而提升任务的执行速度。

本申请第一方面提供了一种中央处理器配置方法，所述方法包括：

中央处理器被配置不同数量的NUMA时，以评估指标分别评估所述中央处理器和图形处理器协同执行目标任务的协同性能，得到不同数量的NUMA分别对应的性能评估结果；

根据所述评估指标的类型以及不同性能评估结果的数值大小，从所述不同数量中确定目标配置数量；

若所述中央处理器已配置NUMA的数量与所述目标配置数量不同，则为所述中央处理器配置所述目标配置数量的NUMA，以在配置完成后由所述中央处理器以所述目标配置数量的NUMA和所述图形处理器再一次协同执行所述目标任务。

本申请第二方面提供了一种中央处理器配置装置，所述装置包括：

协同性能评估模块，用于中央处理器被配置不同数量的NUMA时，以评估指标分别评估所述中央处理器和图形处理器协同执行目标任务的协同性能，得到不同数量的NUMA分别对应的性能评估结果；

配置数量确定模块，用于根据所述评估指标的类型以及不同性能评估结果的数值大小，从所述不同数量中确定目标配置数量；

NUMA配置模块，用于若所述中央处理器已配置NUMA的数量与所述目标配置数量不同，则为所述中央处理器配置所述目标配置数量的NUMA，以在配置完成后由所述中央处理器以所述目标配置数量的NUMA和所述图形处理器再一次协同执行所述目标任务。

本申请第三方面提供了一种中央处理器配置设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序，并将所述计算机程序传输给所述处理器；

所述处理器用于根据所述计算机程序中的指令执行第一方面提供的中央处理器配置方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被中央处理器配置设备执行时实现第一方面提供的中央处理器配置方法的步骤。

本申请第五方面提供了一种计算机程序产品，包括计算机程序，该计算机程序被中央处理器配置设备执行时实现第一方面提供的中央处理器配置方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请技术方案中预先设置评估指标，根据评估指标来评估中央处理器被配置不同数量的NUMA时，中央处理器和图形处理器协同执行目标任务的协同性能，得到与不同数量的NUMA分别对应的性能评估结果。再根据预先设置的评估指标的指标类型，以及得到的不同性能评估结果的数值大小，从中央处理器被配置NUMA的不同数量中确定目标配置数量。随后，若中央处理器已配置NUMA的数量与目标配置数量不同，则需为中央处理器配置目标配置数量的NUMA，以在配置完成后由中央处理器以目标配置数量的NUMA和图形处理器再一次协同执行目标任务。由于得到的不同性能评估结果表征了在中央处理器被配置的NUMA数量变化的情况下，中央处理器和图形处理器协同执行目标任务的协同性能的优劣变化。因此基于评估指标的类型和不同性能评估结果的大小，能够从不同数量中确定出提高中央处理器和图形处理器的协同性能的目标配置数量。使得中央处理器被配置的NUMA数量为目标配置数量时，能够提高中央处理器和图形处理器协同执行训练人工智能预训练大模型等目标任务时的协同性能，实现中央处理器和图形处理器的高效协同，从而提升目标任务的执行速度。

附图说明

图1为本申请实施例提供的一种中央处理器配置方法的场景架构图；

图2为本申请实施例提供的一种中央处理器配置方法的流程图；

图3为本申请实施例提供的一种性能评估结果的构成示意图；

图4为本申请实施例提供的一种不同性能评估结果对应的结果量化图；

图5为本申请实施例提供的一种将不同数量的NUMA分别对应的任务耗时，处理器传输数据总量和任务传送数据总量存入数据库的示意图；

图6为本申请实施例提供的一种具体的中央处理器配置方法的流程图；

图7a为本申请实施例提供的一种任务耗时对应的第一子结果量化图；

图7b为本申请实施例提供的一种处理器传输数据总量对应的第二子结果量化图；

图7c为本申请实施例提供的一种任务传送数据总量对应的第三子结果量化图；

图8为本申请实施例提供的一种中央处理器配置装置的结构示意图；

图9为本申请实施例中服务器的一个结构示意图；

图10为本申请实施例中终端设备的一个结构示意图。

具体实施方式

为了提高中央处理器访问内存的速度，通常会为中央处理器配置非一致性内存访问（Non-Uniform Memory Access，NUMA），NUMA是一种针对中央处理器的内存组织方式。而相关技术中，通常是保留中央处理器的出厂设置，不会再更改中央处理器被配置的NUMA数量，因此也无法提高中央处理器和图形处理器协同执行任务的协同性能。在中央处理器和图形处理器协同执行训练人工智能预训练大模型等任务时，可能会遇到任务自身的参数量大，且执行任务的过程中需要交换的数据规模量也非常大的情况，此时图形处理器的算力规模量需达到万卡以上，才能与中央处理器协同执行任务。以训练人工智能预训练大模型为例，在这么大算力规模的图形处理器执行训练任务时，中央处理器和图形处理器之间需频繁交换数据，尤其是在训练任务的收尾阶段时，容易被中央处理器和图形处理器之间通信的最后一公里制约图形处理器的计算功能，影响中央处理器和图形处理器的协同性能，导致训练任务的执行速度减慢，影响人工智能预训练大模型的落地时间。

鉴于以上问题，在本申请中提供了一种中央处理器配置方法、装置及相关产品，目的是提供能够提高中央处理器和图形处理器协同执行任务的协同性能的中央处理器配置方案，实现中央处理器和图形处理器的高效协同，提升任务的执行速度。在本申请提供的技术方案中，中央处理器被配置不同数量的NUMA时，以评估指标分别评估中央处理器和图形处理器协同执行目标任务的协同性能，得到不同数量的NUMA分别对应的性能评估结果；根据评估指标的类型以及不同性能评估结果的数值大小，从不同数量中确定目标配置数量；若中央处理器已配置NUMA的数量与目标配置数量不同，则为中央处理器配置目标配置数量的NUMA，以在配置完成后由中央处理器以目标配置数量的NUMA和图形处理器再一次协同执行目标任务。由此可见，本申请基于评估指标的类型和不同性能评估结果的大小，能够确定出提高中央处理器和图形处理器的协同性能的目标配置数量。使得中央处理器被配置的NUMA数量为目标配置数量时，能够提高中央处理器和图形处理器协同执行训练人工智能预训练大模型等任务时的协同性能，实现中央处理器和图形处理器的高效协同，从而提升任务的执行速度。

本申请实施例提供的中央处理器配置方法的执行主体可以为终端设备。例如在终端设备上执行目标任务，在中央处理器被配置不同数量的NUMA时，终端设备以评估指标分别评估中央处理器和图形处理器协同执行目标任务的协同性能，得到不同数量的NUMA分别对应的性能评估结果。作为示例，终端设备具体可以包括但不限于手机、台式电脑、平板电脑、笔记本电能、掌上电脑、智能语音交互设备、智能家电、车载终端、飞行器等。本申请实施例提供的中央处理器配置方法的执行主体也可以是服务器，即可以在服务器上执行目标任务，中央处理器被配置不同数量的NUMA时，服务器以评估指标分别评估中央处理器和图形处理器协同执行目标任务的协同性能，得到不同数量的NUMA分别对应的性能评估结果。此外，本申请实施例提供的中央处理器配置方法也可以由终端设备和服务器协同执行。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。故本申请实施例中对于执行本申请技术方案的实现主体不做限定。

图1示例性地展示了一种中央处理器配置方法的场景架构图。图中包括服务器以及多种形式的终端设备。图1所示的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统。另外，服务器还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

参见图2，该图为本申请实施例提供的一种中央处理器配置方法的流程图。如图2所示的中央处理器配置方法中，包括以下步骤：

S201：中央处理器被配置不同数量的NUMA时，以评估指标分别评估中央处理器和图形处理器协同执行目标任务的协同性能，得到不同数量的NUMA分别对应的性能评估结果。

在本申请实施例中，目标任务是指需中央处理器和图形处理器协同执行的任务。目标任务可以是训练人工智能预训练大模型的任务，本申请对此不做限定。评估指标是指用来评估中央处理器和图形处理器协同执行目标任务的协同性能的指标。举例而言，评估指标可以包括目标任务的消耗时间，也可以是中央处理器和图形处理器协同执行目标任务时传输的数据总量，本申请对此不做限定。此外，需要说明的是，对于评估指标的数量以及中央处理器被配置的NUMA数量，本申请也不做限定。

实际应用中，为了实现中央处理器的核数均分，通常会将中央处理器被配置的NUMA数量设定为2的幂数。因此，在本申请一种可能的实施方式中，S201具体可以包括：以评估指标评估中央处理器被配置2ⁿ的NUMA时，中央处理器和图形处理器协同执行目标任务的协同性能，得到2ⁿ的NUMA分别对应的性能评估结果。其中，n可以为任一整数。可见，将中央处理器被配置的NUMA数量设定为2的幂数，即最终确定的目标配置数量也为2的幂数，在中央处理器和图形处理器协同执行目标任务时，可以实现中央处理器的核数均分，维持执行目标任务的稳定性。

作为一种示例，可以分别为中央处理器配置2个NUMA、4个NUMA、8个NUMA以及16个NUMA。在中央处理器被配置2个NUMA时，利用评估指标来评估中央处理器和图形处理器协同执行目标任务的协同性能，可以得到中央处理器被配置2个NUMA时，中央处理器和图形处理器的协同性能的性能评估结果。同样的，可以得到中央处理器被配置4个NUMA、8个NUMA以及16个NUMA时，分别对应的中央处理器和图形处理器的协同性能的性能评估结果。即，在评估过程中，改变中央处理器被配置的NUMA数量。

在本申请一种可能的实施方式中，评估指标可以包括第一评估指标、第二评估指标和第三评估指标。第一评估指标可以为执行目标任务消耗的时间；第二评估指标可以为执行目标任务时，中央处理器和图形处理器在第一预设时间内传输的数据总量；第三评估指标可以为执行目标任务时，目标任务在第二预设时间内传送的数据总量。其中，第一预设时间和第二预设时间可以为一分钟，本申请对此不做限定。需要说明的是，第一预设时间和第二预设时间可以相同，也可以不同，本申请对此不做限制。

其中，第一评估指标是执行目标任务所消耗的时间，本申请实施例则是通过提高中央处理器和图形处理器协同执行目标任务的协同性能，来加快目标任务的执行速度，因此第一评估指标可以作为衡量中央处理器和图形处理器的协同性能的直接衡量效果。第二评估指标也可称为中央处理器和图形处理器的带宽性能，带宽性能是指中央处理器和图形处理器之间的数据传输率，可以通过第一预设时间内传输的数据总量来体现。第三评估指标也可称为目标任务的吞吐性能，是指目标任务对网络、设备、端口、虚电路或其他设施，在单位时间内成功地传送数据的总量。

基于上述第一评估指标、第二评估指标和第三评估指标的示例，S201具体可以包括步骤1-步骤3：

步骤1：以第一评估指标、第二评估指标和第三评估指标分别评估中央处理器被配置不同数量的NUMA时，中央处理器和图形处理器协同执行目标任务的协同性能，得到不同数量的NUMA分别对应的任务耗时，处理器传输数据总量和任务传送数据总量。

具体来说，以第一评估指标评估中央处理器被配置不同数量的NUMA时，中央处理器和图形处理器协同执行目标任务的协同性能，得到不同数量的NUMA分别对应的任务耗时；以第二评估指标评估中央处理器被配置不同数量的NUMA时，中央处理器和图形处理器协同执行目标任务的协同性能，得到不同数量的NUMA分别对应的处理器传输数据总量；以第三评估指标评估中央处理器被配置不同数量的NUMA时，中央处理器和图形处理器协同执行目标任务的协同性能，得到不同数量的NUMA分别对应的任务传送数据总量。

需要说明的是，本申请对于以第一评估指标、第二评估指标以及第三评估指标分别评估中央处理器和图形处理器协同执行目标任务的协同性能的顺序不做限定。

作为一种示例，第一评估指标为执行目标任务消耗的时间，则以第一评估指标评估中央处理器和图形处理器协同执行目标任务的协同性能时，可以预先设置在任务执行前先执行开始计时time.begin的操作，得到任务开始时间；在任务结束后可以执行结束计时time.end的操作，得到任务结束时间；再利用任务结束时间减去任务开始时间，即可得到任务耗时。具体来说，以目标任务为训练人工智能预训练大模型为例，训练模型通常需要利用同一个数据集对模型进行多次训练，因此可以仅获取利用数据集训练一次人工智能预训练大模型的耗时，即，得到该训练任务的单步耗时。

第二评估指标为执行目标任务时，中央处理器和图形处理器在第一预设时间内传输的数据总量，则以第二评估指标评估中央处理器和图形处理器协同执行目标任务的协同性能时，可以通过如下公式得到处理器传输数据总量：

（公式1）

如公式1所示，W表示处理器传输数据总量，i表示秒数，t表示预先设定的时间，S_i表示中央处理器和图形处理器第i秒传输的数据量。举例来说，t可以为60，可以得到中央处理器和图形处理器在1min之内传输的数据总量，t也可以为其它值，本申请对此不做限定。

第三评估指标为执行目标任务时，目标任务在第二预设时间内传送的数据总量。以目标任务为训练人工智能预训练大模型为例，以第三评估指标评估中央处理器和图形处理器协同执行该训练任务的协同性能时，可以获取传输控制协议（Transmission ControlProtocol，TCP）和远程直接数据存取（Remote Direct Memory Access，RDMA）的网络通信过程中所传输的数据总量。其中，TCP的网络通信过程通常用于该训练任务的训练数据的获取操作，RDMA的网络通信过程通常用于训练人工智能预训练大模型时的参数交换操作。

步骤2：对于相同数量的NUMA对应的任务耗时，处理器传输数据总量和任务传送数据总量，将任务耗时与第一评估系数相乘得到第一乘积结果，将处理器传输数据总量与第二评估系数相乘得到第二乘积结果，将任务传送数据总量与第三评估系数相乘得到第三乘积结果。

其中，第一评估系数为第一评估指标的评估系数，第二评估系数为第二评估指标的评估系数，第三评估系数为第三评估指标的评估系数。第一评估系数、第二评估系数和第三评估系数均可以是技术人员根据经验预先设定的，本申请对此不做限定。作为一种示例，第一评估系数可以为0.5，第二评估系数可以为0.3，第三评估系数可以为0.2。

作为一种示例，参见图3，该图为本申请实施例提供的一种性能评估结果的构成示意图。如图3所示，第一评估指标对应的第一评估系数为0.5，第二评估指标对应的第二评估系数为0.3，第三评估指标对应的第三评估系数为0.2。则第一评估指标对应的任务耗时在性能评估结果中占比50%，第二评估指标对应的处理器传输数据总量在性能评估结果中占比30%，第三评估指标对应的任务传送数据总量在性能评估结果中占比20%。

另外，针对训练人工智能预训练大模型的任务来说，一些训练场景的网络通信瓶颈是TCP通道的训练数据加载操作，大部分训练场景的通信瓶颈是RDMA通道的参数交换操作。因此，第三评估指标为与人工智能预训练大模型的训练场景相关的指标，可以依据具体场景来调整第三评估指标对应的第三评估系数。

步骤3：将第一乘积结果、第二乘积结果和第三乘积结果相加，得到性能评估结果。

作为一种示例，性能评估结果的计算过程可以如下公式所示：

（公式2）

如公式2所示，W_总表示性能评估结果，m表示评估指标的个数，R_k表示第k评估系数，W_k表示第k评估指标。在本申请实施例中，评估指标的个数m即为3。当然，评估指标的个数m也可以为其他值，本申请对此不做限定。

可见，通过三种不同的评估指标来评估中央处理器和图形处理器协同执行目标任务的协同性能，不同评估指标可以相互验证，避免了单一指标出现评估错误干扰性能评估结果的情况出现，有利于确定出使中央处理器和图形处理器的协同性能更优的目标配置数量的NUMA。

S202：根据评估指标的类型以及不同性能评估结果的数值大小，从不同数量中确定目标配置数量。

在本申请实施例中，评估指标的类型可以指示评估指标对应的数值大小与性能评估指标结果所表征的协同性能之间的关系。则可以由此从不同数量中确定出使得中央处理器和图形处理器协同执行目标任务的协同性能为最优时，中央处理器被配置的NUMA数量作为目标配置数量。

在本申请一种可能的实施方式中，第一评估指标为执行目标任务消耗的时间；第二评估指标为执行目标任务时，中央处理器和图形处理器在第一预设时间内传输的数据总量；第三评估指标为执行目标任务时，目标任务在第二预设时间内传送的数据总量。其中，目标任务所消耗的时间越少表示中央处理器和图形处理器协同执行目标任务的协同性能越好，则第一评估指标的类型指示任务耗时的数值越小表征性能评估结果越好。中央处理器和图形处理器在第一预设时间内传输的数据总量越多，表示中央处理器和图形处理器协同执行目标任务的协同性能越好，则第二评估指标的类型指示处理器传输数据总量的数值越大表征性能评估结果越好。目标任务在第二预设时间内传送的数据总量越多，表示中央处理器和图形处理器协同执行目标任务的协同性能越好，则第三评估指标的类型指示任务传送数据总量的数值越大表征性能评估结果越好。

其中，第一评估指标为对应的数值越小表征性能评估结果越好，第二评估指标和第三评估指标均为对应的数值越大表征性能评估结果越好。而在本申请实施例中，第一评估指标对应的数值与第二评估指标对应的数值呈负相关，第一评估指标对应的数值与第三评估指标对应的数值也呈负相关。也就是说，中央处理器和图形处理器在第一预设时间内传输的数据总量越多，执行目标任务消耗的时间越少；目标任务在第二预设时间内传送的数据总量越多，执行目标任务消耗的时间也越少。则由此可以确定性能评估结果的数值越大表征中央处理器和图形处理器协同执行目标任务的协同性能越好。

因此，S202具体可以包括：根据第一评估指标的类型、第二评估指标的类型、第三评估指标的类型以及不同性能评估结果的数值大小，确定出使性能评估结果达到最大数值时，中央处理器被配置的NUMA的数量作为目标配置数量。即，不同数量的NUMA分别对应的性能评估结果中，最大值的性能评估结果对应的NUMA的数量为目标配置数量，为中央处理器配置该目标配置数量的NUMA可以使央处理器和图形处理器协同执行目标任务的协同性能大大提高。

此外，为了增强不同数量的NUMA分别对应的性能评估结果的可观性，可以绘制不同性能评估结果对应的结果量化图。即，在该结果量化图中显示出不同数量的NUMA分别对应的性能评估结果。例如结果量化图中可以包括不同性能评估结果分别对应的结果柱状图。作为一种示例，参见图4，该图为本申请实施例提供的一种不同性能评估结果对应的结果量化图。结合图4所示，可以是数量为2的NUMA、数量为4的NUMA、数量为8的NUMA以及数量为16的NUMA分别对应的性能评估结果的结果柱状图。由此能够从结果量化中直观的看到不同性能评估结果的分别对应的数值，以便开发人员可以随时进行查看。

则相应地，S202具体可以包括：根据评估指标的类型，以及结果量化图中不同结果柱状图分别对应的性能评估结果的数值大小，从不同数量中确定目标配置数量。以上述示例中提及的从不同数量中确定出使性能评估结果达到最大数值时，中央处理器被配置的NUMA的数量作为目标配置数量，从图4中可以明显看出数量为8的NUMA对应的性能评估结果的数值最大，因此8即为确定的目标配置数量。

此外，考虑到在实际应用中数据的易失性，可以将得到的不同数量的NUMA分别对应的任务耗时，处理器传输数据总量和任务传送数据总量存入数据库中。为了方便后续计算得到不同数量的NUMA对应的性能评估结果，则可以将任务耗时，处理器传输数据总量和任务传送数据总量对应的NUMA数量作为标识，以便计算时获取相同数量的NUMA对应的任务耗时，处理器传输数据总量和任务传送数据总量。因此，在本申请一种可能的实施方式中，可以以不同数量作为标识，分别将对应的任务耗时，处理器传输数据总量和任务传送数据总量存入数据库中。相应地，可以根据数据库中的不同NUMA标识，获取同一标识对应的任务耗时，处理器传输数据总量和任务传送数据总量，将任务耗时与第一评估系数相乘得到第一乘积结果，将处理器传输数据总量与第二评估系数相乘得到第二乘积结果，将任务传送数据总量与第三评估系数相乘得到第三乘积结果。可见，以不同数量作为标识，将不同数量的NUMA分别对应的任务耗时，处理器传输数据总量和任务传送数据总量存入数据库，既能够避免数据丢失，又能够通过标识快速查找到所需数据，提高了计算性能评估结果的便利性。

作为一种示例，参见图5，该图为本申请实施例提供的一种将不同数量的NUMA分别对应的任务耗时，处理器传输数据总量和任务传送数据总量存入数据库的示意图。结合图5所示，以第一评估指标、第二评估指标和第三评估指标评估当中央处理器被配置2个NUMA、4个NUMA、8个NUMA或者16个NUMA时，中央处理器和图形处理器协同执行目标任务的协同性能，得到不同数量的NUMA分别对应的任务耗时，处理器传输数据总量和任务传送数据总量。接着以不同数量作为标识，将不同数量的NUMA分别对应的任务耗时，处理器传输数据总量、任务传送数据总量存入数据库。以便后续计算不同数量的NUMA分别对应的性能评估结果时，可以从数据库中查找标识来获取相同数量的NUMA对应的任务耗时，处理器传输数据总量、任务传送数据总量。

作为一种示例，表1示例性地展示了一种数据库表。基于上文示例，以目标任务为训练人工智能预训练大模型为例。结合表1所示，数据库表中包括执行该训练任务的中央处理器和图形处理器的IP地址192.168.0.1，NUMA标识2，NUMA数量为2时对应的任务耗时W₁、处理器传输数据总量W₂、任务传送数据总量W₃。其中，任务传送数据总量W₃可以包括TCP的网络通信过程中所传输的数据总量W₃₁和RDMA的网络通信过程中所传输的数据总量W₃₂。

S203：若中央处理器已配置NUMA的数量与目标配置数量不同，则为中央处理器配置目标配置数量的NUMA，以在配置完成后由中央处理器以目标配置数量的NUMA和图形处理器再一次协同执行目标任务。

若中央处理器已配置NUMA的数量与目标配置数量不同，则为中央处理器配置目标配置数量的NUMA，以便由中央处理器和图形处理器再一次协同执行目标任务。

此外，当确定好目标配置数量后，也可能出现中央处理器当前已配置的NUMA数量与目标配置数量相同的情况，表明此时中央处理器和图形处理器协同执行目标任务的协同性能良好，可以直接协同执行目标任务。因此，在本申请一种可能的实施方式中，若中央处理器已配置NUMA的数量与目标配置数量相同，则可以直接由中央处理器以目标配置数量的NUMA和图形处理器再一次协同执行目标任务。

此外，当服务器重新启动后，服务器的中央处理器被配置的NUMA数量可能会出现还原为出厂设置时的UMA数量的情况。因此，在本申请一种可能的实施方式中，可以将目标配置数量固化到中央处理器的基本输入输出系统的NUMA配置数量项中。由此当服务器重新启动后，中央处理器已配置的NUMA数量依然为目标配置数量，不会影响中央处理器和图形处理器协同执行目标任务的协同性能。保障了NUMA的配置统一性，能够消除NUMA配置不统一下潜在的干扰风险，从而提升对中央处理器运维服务的质量。

实际应用中，中央处理器和图形处理器协同执行目标任务的协同性能还与网络配置相关。优化网络配置可以提高中央处理器和图形处理器的带宽性能，也可以提高目标任务的吞吐性能。则可以通过比较不同性能评估结果对应的处理器传输数据总量，以及比较不同性能评估结果对应的任务传送数据总量，来判断是否需要优化网络配置。

因此，在本申请一种可能的实施方式中，若不同性能评估结果中存在第一性能评估结果，则优化为中央处理器配置目标配置数量的NUMA时的网络配置；其中，第一性能评估结果对应的处理器传输数据总量大于目标性能评估结果对应的处理器传输数据总量，和/或，第一性能评估结果对应的任务传送数据总量大于目标性能评估结果对应的任务传送数据总量；目标性能评估结果为与目标配置数量对应的性能评估结果。

具体来说，中央处理器被配置目标配置数量的NUMA时，以评估指标评估中央处理器和图形处理器协同执行目标任务的协同性能，可以得到目标配置数量的NUMA对应的目标性能评估结果。而不同性能评估结果分别具有对应的处理器传输数据总量和任务传送数据总量，与目标性能评估结果对应的处理器传输数据总量可以称之为目标处理器传输数据总量，与目标性能评估结果对应的任务传送数据总量可以称之为目标任务传送数据总量。若不同的处理器传输数据总量中存在大于目标处理器传输数据总量的处理器传输数据总量，和/或，不同的任务传送数据总量中存在大于目标任务传送数据总量的任务传送数据总量，表明中央处理器被配置NUMA数量时的网络配置还可以进一步提高，则可以优化为中央处理器配置目标配置数量的NUMA时的网络配置。

相应地，在本申请一种可能的实施方式中，若不同性能评估结果中存在第二性能评估结果，则优化为中央处理器配置第二性能评估结果对应数量的NUMA时的网络配置；其中，第二性能评估结果对应的处理器传输数据总量小于目标性能评估结果对应的处理器传输数据总量，且第二性能评估结果对应的任务传送数据总量小于目标性能评估结果对应的任务传送数据总量，目标性能评估结果为与目标配置数量对应的性能评估结果。接着，重新执行中央处理器配置方法，以重新由中央处理器以目标配置数量的NUMA和图形处理器再一次协同执行目标任务。

具体来说，若不同性能评估结果中存在处理器传输数据总量小于目标处理器传输数据总量，同时任务传送数据总量中也小于目标任务传送数据总量的第二性能评估结果。此时，可能出现中央处理器被配置第二性能评估结果对应数量的NUMA时的网络配置，与中央处理器被配置目标配置数量的NUMA时的网络配置没有配置对齐的情况，则可以优化为中央处理器配置第二性能评估结果对应数量的NUMA时的网络配置。在完成不同数量的NUMA对应的网络配置的矫正对齐后，再执行一次中央处理器配置方法，以重新确定目标配置数量，由中央处理器以目标配置数量的NUMA和图形处理器再一次协同执行目标任务。

由此可见，在确定目标配置数量后，进一步执行网络配置优化的调优操作。分析不同数量的NUMA下的总线带宽和吞吐性能，判断目标配置数量的NUMA所对应的总线带宽和吞吐性能是否为最优，根据判断结果来对应优化网络配置。能够进一步优化中央处理器和图形处理器协同执行目标任务的协同性能，从而实现中央处理器被配置目标配置数量的NUMA时的整体最优性能。

作为一种示例，参见图6，该图为本申请实施例提供的一种具体的中央处理器配置方法的流程图。以目标任务为训练人工智能预训练大模型为例，为中央处理器配置数量为N的NUMA，其中，N可以为任意整数；执行该训练人工智能预训练大模型的任务；以第一评估指标、第二评估指标和第三评估指标评估中央处理器和图形处理器协同执行该训练人工智能预训练大模型的协同性能，得到数量为N的NUMA对应的任务耗时、处理器传输数据总量和任务传送数据总量，即，三元数组；以数量N作为标识，将对应的三元数组存入数据库。从数据库中获取标识N对应的三元数组，并通过上文示例中的公式2来计算得到数量为N的NUMA对应的性能评估结果；从不同数量中确定出使性能评估结果达到最大数值的目标配置数量；为中央处理器配置目标配置数量的NUMA；判断目标性能评估结果对应的处理器传输数据总量，以及目标性能评估结果对应的任务传送数据总量是否同时为最优；若目标性能评估结果对应的处理器传输数据总量，以及目标性能评估结果对应的任务传送数据总量同时为最优（即不同性能评估结果中存在第二性能评估结果），则优化为中央处理器配置第二性能评估结果对应数量的NUMA时的网络配置；并重新执行中央处理器配置方法，重新确定目标配置数量，以重新由中央处理器以目标配置数量的NUMA和图形处理器再一次协同执行目标任务；若目标性能评估结果对应的处理器传输数据总量，以及目标性能评估结果对应的任务传送数据总量并不同时为最优（即不同性能评估结果中存在第一性能评估结果），则优化为中央处理器配置目标配置数量的NUMA时的网络配置。

为了直观比较不同性能评估结果对应的处理器传输数据总量，以及比较不同性能评估结果任务传送数据总量，以优化网络配置。可以针对不同评估指标分别绘制对应的子结果量化图。因此，在本申请一种可能的实施方式中，上文提及的网络配置的优化可以依据绘制的子结果量化图进行的。其中，子结果量化图包括任务耗时对应的第一子结果量化图、处理器传输数据总量对应的第二子结果量化图以及任务传送数据总量对应的第三子结果量化图。

作为一种示例，图7a示例性地展示了一种任务耗时对应的第一子结果量化图。图7b示例性地展示了一种处理器传输数据总量对应的第二子结果量化图。图7c示例性地展示了一种任务传送数据总量对应的第三子结果量化图。结合图7a、图7b以及图7c所示，以第一评估指标、第二评估指标和第三评估指标分别评估中央处理器被配置2个NUMA、4个NUMA、8个NUMA或16个NUMA时，中央处理器和图形处理器协同执行目标任务的协同性能，得到2个NUMA、4个NUMA、8个NUMA或16个NUMA分别对应的任务耗时，处理器传输数据总量和任务传送数据总量。若目标配置数量已确定为8，则可以结合图7b，比较不同的处理器传输数据总量，8个NUMA对应的处理器传输数据总量最高；结合图7c，比较不同的任务传送数据总量，4个NUMA对应的任务传送数据总量以及16个NUMA对应的任务传送数据总量均比8个NUMA对应的任务传送数据总量高，则此时可以确定不同性能评估结果中存在第一性能评估结果，需要优化为中央处理器配置8个NUMA时的网络配置，以进一步提高中央处理器和图形处理器协同执行目标任务的协同性能。

基于前文实施例提供的中央处理器配置方法，本申请中还相应提供了一种中央处理器配置装置。下面对本申请实施例提供的中央处理器配置装置进行具体介绍。

参见图8，该图为本申请实施例提供的一种中央处理器配置装置的结构示意图。如图8所示，该中央处理器配置装置800，具体可以包括：

协同性能评估模块810，用于中央处理器被配置不同数量的NUMA时，以评估指标分别评估中央处理器和图形处理器协同执行目标任务的协同性能，得到不同数量的NUMA分别对应的性能评估结果；

配置数量确定模块820，用于根据评估指标的类型以及不同性能评估结果的数值大小，从不同数量中确定目标配置数量；

NUMA配置模块830，用于若中央处理器已配置NUMA的数量与目标配置数量不同，则为中央处理器配置目标配置数量的NUMA，以在配置完成后由中央处理器以目标配置数量的NUMA和图形处理器再一次协同执行目标任务。

作为一种实施方式，评估指标包括第一评估指标、第二评估指标和第三评估指标；

其中，第一评估指标为执行目标任务消耗的时间；

第二评估指标为执行目标任务时，中央处理器和图形处理器在第一预设时间内传输的数据总量；

第三评估指标为执行目标任务时，目标任务在第二预设时间内传送的数据总量；

协同性能评估模块，具体可以包括：

协同性能评估单元，用于以第一评估指标、第二评估指标和第三评估指标分别评估中央处理器被配置不同数量的NUMA时，中央处理器和图形处理器协同执行目标任务的协同性能，得到不同数量的NUMA分别对应的任务耗时，处理器传输数据总量和任务传送数据总量；

乘积结果获取单元，用于对于相同数量的NUMA对应的任务耗时，处理器传输数据总量和任务传送数据总量，将任务耗时与第一评估系数相乘得到第一乘积结果，将处理器传输数据总量与第二评估系数相乘得到第二乘积结果，将任务传送数据总量与第三评估系数相乘得到第三乘积结果；

性能评估结果获取单元，用于将第一乘积结果、第二乘积结果和第三乘积结果相加，得到性能评估结果。

作为一种实施方式，第一评估指标的类型指示任务耗时的数值越小表征性能评估结果越好；第二评估指标的类型指示处理器传输数据总量的数值越大表征性能评估结果越好；第三评估指标的类型指示任务传送数据总量的数值越大表征性能评估结果越好；配置数量确定模块，具体可以用于：

根据第一评估指标的类型、第二评估指标的类型、第三评估指标的类型以及不同性能评估结果的数值大小，确定出使性能评估结果达到最大数值时中央处理器被配置的NUMA的数量作为目标配置数量。

作为一种实施方式，该中央处理器配置装置800，还可以包括：

第一网络配置优化模块，用于若不同性能评估结果中存在第一性能评估结果，则优化为中央处理器配置目标配置数量的NUMA时的网络配置；第一性能评估结果对应的处理器传输数据总量大于目标性能评估结果对应的处理器传输数据总量，和/或，第一性能评估结果对应的任务传送数据总量大于目标性能评估结果对应的任务传送数据总量；目标性能评估结果为与目标配置数量对应的性能评估结果。

第二网络配置优化模块，用于若不同性能评估结果中存在第二性能评估结果，则优化为中央处理器配置第二性能评估结果对应数量的NUMA时的网络配置；第二性能评估结果对应的处理器传输数据总量小于目标性能评估结果对应的处理器传输数据总量，且第二性能评估结果对应的任务传送数据总量小于目标性能评估结果对应的任务传送数据总量；目标性能评估结果为与目标配置数量对应的性能评估结果；

配置方法执行模块，用于重新执行中央处理器配置方法，以重新由中央处理器以目标配置数量的NUMA和图形处理器再一次协同执行目标任务。

存入模块，用于以不同数量作为标识，分别将对应的任务耗时，处理器传输数据总量和任务传送数据总量存入数据库；

相应地，乘积结果获取单元，具体可以用于：

根据数据库中同一标识对应的任务耗时，处理器传输数据总量和任务传送数据总量，将任务耗时与第一评估系数相乘得到第一乘积结果，将处理器传输数据总量与第二评估系数相乘得到第二乘积结果，将任务传送数据总量与第三评估系数相乘得到第三乘积结果。

结果量化图绘制模块，用于绘制不同性能评估结果对应的结果量化图；结果量化图中包括不同性能评估结果分别对应的结果柱状图；

相应地，配置数量确定模块，具体可以用于：

根据评估指标的类型，以及结果量化图中不同结果柱状图分别对应的性能评估结果的数值大小，从不同数量中确定目标配置数量。

作为一种实施方式，第一网络配置优化模块和第二网络配置优化模块中的网络配置的优化为依据绘制的子结果量化图进行的；子结果量化图包括任务耗时对应的第一子结果量化图、处理器传输数据总量对应的第二子结果量化图以及任务传送数据总量对应的第三子结果量化图。

作为一种实施方式，协同性能评估模块，具体可以用于：

以评估指标评估中央处理器被配置2ⁿ的NUMA时，中央处理器和图形处理器协同执行目标任务的协同性能，得到2ⁿ的NUMA分别对应的性能评估结果；n为任一整数。

配置数量项固化模块，用于将目标配置数量固化到中央处理器的基本输入输出系统的NUMA配置数量项中。

任务执行模块，用于若中央处理器已配置NUMA的数量与目标配置数量相同，则由中央处理器以目标配置数量的NUMA和图形处理器再一次协同执行目标任务。

本申请实施例提供了一种中央处理器配置设备，该中央处理器配置设备可以为服务器。图9是本申请实施例提供的一种服务器结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（central processingunits，中央处理器）922（例如，一个或一个以上处理器）和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930（例如一个或一个以上海量存储设备）。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器922可以设置为与存储介质930通信，在服务器900上执行存储介质930中的一系列指令操作。

服务器900还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，和/或，一个或一个以上操作系统941，例如Windows Server^TM，Mac OS X^TM，Unix^TM，Linux^TM，FreeBSD^TM等等。

其中，中央处理器922用于执行如下步骤：

中央处理器被配置不同数量的NUMA时，以评估指标分别评估中央处理器和图形处理器协同执行目标任务的协同性能，得到不同数量的NUMA分别对应的性能评估结果；

根据评估指标的类型以及不同性能评估结果的数值大小，从不同数量中确定目标配置数量；

若中央处理器已配置NUMA的数量与目标配置数量不同，则为中央处理器配置目标配置数量的NUMA，以在配置完成后由中央处理器以目标配置数量的NUMA和图形处理器再一次协同执行目标任务。

本申请实施例还提供了另一种中央处理器配置设备，该设备可以为终端设备。如图10所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。以该终端设备为手机为例：

图10示出的是与本申请实施例提供的手机的部分结构的框图。参考图10，手机包括：射频（英文全称：Radio Frequency，英文缩写：RF）电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真（英文全称：wirelessfidelity，英文缩写：WiFi）模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图10中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图10对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（英文全称：LowNoise Amplifier，英文缩写：LNA）、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统（英文全称：Global System of Mobile communication，英文缩写：GSM）、通用分组无线服务（英文全称：General Packet Radio Service，GPRS）、码分多址（英文全称：CodeDivision Multiple Access，英文缩写：CDMA）、宽带码分多址（英文全称：Wideband CodeDivision Multiple Access，英文缩写：WCDMA）、长期演进（英文全称：Long TermEvolution，英文缩写：LTE）、电子邮件、短消息服务（英文全称：Short Messaging Service，SMS）等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器（英文全称：Liquid Crystal Display，英文缩写：LCD）、有机发光二极管（英文全称：Organic Light-Emitting Diode，英文缩写：OLED）等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图10中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体数据及信息收集。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090（比如电池），优选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该手机所包括的处理器1080还具有以下功能：

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序在中央处理器配置设备上运行时，使得该中央处理器配置设备执行前述各个实施例所述的一种中央处理器配置方法中的任意一种实施方式。

本申请实施例还提供一种包括计算机程序的计算机程序产品，当其在中央处理器配置设备上运行时，使得中央处理器配置设备执行前述各个实施例所述的一种中央处理器配置方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述系统的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个系统可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的系统可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（英文全称：Read-OnlyMemory，英文缩写：ROM）、随机存取存储器（英文全称：Random Access Memory，英文缩写：RAM）、磁碟或者光盘等各种可以存储计算机程序的介质。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种中央处理器配置方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述评估指标包括第一评估指标、第二评估指标和第三评估指标；

其中，所述第一评估指标为执行所述目标任务消耗的时间；

所述第二评估指标为执行所述目标任务时，所述中央处理器和所述图形处理器在第一预设时间内传输的数据总量；

所述第三评估指标为执行所述目标任务时，所述目标任务在第二预设时间内传送的数据总量；

所述中央处理器被配置不同数量的NUMA时，以评估指标分别评估所述中央处理器和图形处理器协同执行目标任务的协同性能，得到不同数量的NUMA分别对应的性能评估结果，具体包括：

以所述第一评估指标、所述第二评估指标和所述第三评估指标分别评估所述中央处理器被配置不同数量的NUMA时，所述中央处理器和所述图形处理器协同执行所述目标任务的协同性能，得到不同数量的NUMA分别对应的任务耗时，处理器传输数据总量和任务传送数据总量；

对于相同数量的NUMA对应的任务耗时，处理器传输数据总量和任务传送数据总量，将所述任务耗时与第一评估系数相乘得到第一乘积结果，将所述处理器传输数据总量与第二评估系数相乘得到第二乘积结果，将所述任务传送数据总量与第三评估系数相乘得到第三乘积结果；

将所述第一乘积结果、所述第二乘积结果和所述第三乘积结果相加，得到所述性能评估结果。

3.根据权利要求2所述的方法，其特征在于，所述第一评估指标的类型指示所述任务耗时的数值越小表征所述性能评估结果越好；所述第二评估指标的类型指示所述处理器传输数据总量的数值越大表征所述性能评估结果越好；所述第三评估指标的类型指示所述任务传送数据总量的数值越大表征所述性能评估结果越好；所述根据所述评估指标的类型以及不同性能评估结果的数值大小，从所述不同数量中确定目标配置数量，具体包括：

根据所述第一评估指标的类型、所述第二评估指标的类型、所述第三评估指标的类型以及所述不同性能评估结果的数值大小，确定出使所述性能评估结果达到最大数值时所述中央处理器被配置的NUMA的数量作为所述目标配置数量。

4.根据权利要求2所示的方法，其特征在于，所述方法还包括：

若所述不同性能评估结果中存在第一性能评估结果，则优化为所述中央处理器配置所述目标配置数量的NUMA时的网络配置；所述第一性能评估结果对应的处理器传输数据总量大于目标性能评估结果对应的处理器传输数据总量，和/或，所述第一性能评估结果对应的任务传送数据总量大于所述目标性能评估结果对应的任务传送数据总量；所述目标性能评估结果为与所述目标配置数量对应的性能评估结果。

5.根据权利要求2所示的方法，其特征在于，所述方法还包括：

若所述不同性能评估结果中存在第二性能评估结果，则优化为所述中央处理器配置所述第二性能评估结果对应数量的NUMA时的网络配置；所述第二性能评估结果对应的处理器传输数据总量小于目标性能评估结果对应的处理器传输数据总量，且所述第二性能评估结果对应的任务传送数据总量小于所述目标性能评估结果对应的任务传送数据总量；所述目标性能评估结果为与所述目标配置数量对应的性能评估结果；

重新执行所述中央处理器配置方法，以重新由所述中央处理器以目标配置数量的NUMA和所述图形处理器再一次协同执行所述目标任务。

6.根据权利要求2所述的方法，其特征在于，所述方法还包括：

以所述不同数量作为标识，分别将对应的任务耗时，处理器传输数据总量和任务传送数据总量存入数据库；

所述对于相同数量的NUMA对应的任务耗时，处理器传输数据总量和任务传送数据总量，将所述任务耗时与第一评估系数相乘得到第一乘积结果，将所述处理器传输数据总量与第二评估系数相乘得到第二乘积结果，将所述任务传送数据总量与第三评估系数相乘得到第三乘积结果，具体包括：

根据所述数据库中同一标识对应的任务耗时，处理器传输数据总量和任务传送数据总量，将所述任务耗时与第一评估系数相乘得到第一乘积结果，将所述处理器传输数据总量与第二评估系数相乘得到第二乘积结果，将所述任务传送数据总量与第三评估系数相乘得到第三乘积结果。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

绘制所述不同性能评估结果对应的结果量化图；所述结果量化图中包括所述不同性能评估结果分别对应的结果柱状图；

所述根据所述评估指标的类型以及不同性能评估结果的数值大小，从所述不同数量中确定目标配置数量，具体包括：

根据所述评估指标的类型，以及所述结果量化图中不同结果柱状图分别对应的性能评估结果的数值大小，从所述不同数量中确定目标配置数量。

8.根据权利要求4或5所述的方法，其特征在于，所述网络配置的优化为依据绘制的子结果量化图进行的；所述子结果量化图包括所述任务耗时对应的第一子结果量化图、所述处理器传输数据总量对应的第二子结果量化图以及所述任务传送数据总量对应的第三子结果量化图。

9.根据权利要求1-7任一项所述的方法，其特征在于，所述中央处理器被配置不同数量的NUMA时，以评估指标分别评估所述中央处理器和图形处理器协同执行目标任务的协同性能，得到不同数量的NUMA分别对应的性能评估结果，具体包括：

以评估指标评估所述中央处理器被配置2ⁿ的NUMA时，所述中央处理器和所述图形处理器协同执行所述目标任务的协同性能，得到2ⁿ的NUMA分别对应的性能评估结果；所述n为任一整数。

10.根据权利要求1-7任一项所述的方法，其特征在于，所述方法还包括：

将所述目标配置数量固化到所述中央处理器的基本输入输出系统的NUMA配置数量项中。

11.根据权利要求1-7任一项所述的方法，其特征在于，所述方法还包括：

若所述中央处理器已配置NUMA的数量与所述目标配置数量相同，则由所述中央处理器以所述目标配置数量的NUMA和所述图形处理器再一次协同执行所述目标任务。

12.一种中央处理器配置装置，其特征在于，所述装置包括：

13.一种中央处理器配置设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述计算机程序中的指令执行权利要求1至11中任一项所述的中央处理器配置方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被中央处理器配置设备执行时实现权利要求1至11任一项所述的中央处理器配置方法的步骤。

15.一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被中央处理器配置设备执行时实现权利要求1至11任一项所述的中央处理器配置方法的步骤。