CN116090552A

CN116090552A - 一种人工智能加速卡产品的训练和推理性能的测试方法

Info

Publication number: CN116090552A
Application number: CN202211674465.6A
Authority: CN
Inventors: 石超; 段程程; 陈阳; 杨华飞; 张昕; 杨文清; 高若寒; 于聪; 王立晨; 朱佳
Original assignee: NARI Group Corp; Nari Technology Co Ltd
Current assignee: NARI Group Corp; Nari Technology Co Ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-05-09

Abstract

本发明公开了一种人工智能加速卡产品的训练和推理性能的测试方法，包括以下步骤：(1)准备测试环境，提供统一的基准硬件检测平台，保证平台配置相同,确保测试搭载的基线一致；(2)协调待测人工智能产品的资源，完成人工智能加速卡硬件准备、驱动软件准备、模型适配工作等，完成测试准备所需安装包和测试环境部署；(3)按照测试方案开展测试，分别为基础性能测试、推理单机单卡测试和训练单机四卡测试；(4)根据测试结果，进行评分，推理和训练分开评分，具体评分方法可根据实际情况制定。可根据测试数据形成更直观、更具对比性的评测结果。

Description

一种人工智能加速卡产品的训练和推理性能的测试方法

技术领域

本发明属于测试领域，具体涉及一种面向人工智能加速卡产品的训练和推理性能的测试方法，尤其面向云端高算力需求场景下，检测人工智能加速卡对主流框架和通用模型的适配性及性能表现能力。

背景技术

随着人工智能技术的不断发展演进，人工智能相关业务及应用对人工智能基础软硬件在功能、性能上的要求也不断提高。针对人工智能加速处理器的技术研究也已成为学术界和商业界的研究热点，许多商业和学术机构都推出了自己的人工智能专用加速器。而从现有加速器的主要功能分类来看，主要可以分为Training(训练)和Inference(推理)两个大类。

目前人工智能基础硬件环境主要基于传统Intel X86服务器搭载NVIDIA人工智能加速卡进行搭建，其平台也主要基于NVIDIA的CUDA平台做深度开发及搭建部署，从而实现资源分配、调度、管理和监控工作，目前很少使用国产核心芯片的人工智能加速卡搭建底层软硬件平台。但随着国内关键核心技术自主可控应用工作的推进，在人工智能领域开展和推进国产替代已经成为必然趋势。针对国产人工智能核心部件当前的纷杂现状、国内外主流产品的性能表现差异以及国产服务器与国产人工智能加速卡产品适配尚不完善等主要问题，研究并形成了以国产人工智能加速卡的基础硬件算力、整体应用性能及国产人工智能配套硬件适配兼容性为三大主要方面的测试和评价方法，为人工智能基础软硬件环境建设和试验检测提供一种有效的方法。

当前，各人工智能加速卡产品的硬件基础算力均由各厂商自行评测，其评测AI芯片算力、测试所用的数据类型以及精度约束等标准不统一。各家所采用的评测工具、数据类型、数据集和评测方法等也各不相同。这就造成了测试结果不具有横向对比性，难以通过直观方式对比产品优劣的问题。

因此，该如何针对搭载在服务器上的各种人工智能产品，进行公平、有效、有针对性的评测，就需要设计和建立起一套更通用、更公平、更可靠的评测方法，对面向推理和训练的高性能专用人工智能加速卡产品从基础硬件算力性能、带模型应用性能表现、功耗等方面进行检测和测评，通过结合电力行业人工智能相关技术路线和业务现状，测试人工智能加速卡对主流电力模型和通用模型的适配性，为电力行业相关的人工智能基础硬件国产化发展提供参考依据。

当前，各人工智能加速卡产品的硬件基础算力均由各厂商自行评测，其评测算力的标准、测试所用数据类型以及数据精度均不统一，各家所采用的评测方法、评测工具和测试数据集也各不相同。这就造成了测试结果不具有横向对比性，难以通过直观方式对比产品优劣的问题。

发明内容

发明目的：本发明所要解决的技术问题是，针对现有人工智能基础硬件测评标准不统一、评测方法的不足问题，提供一种更通用的人工智能加速卡产品性能测试方法，可根据测试数据形成更直观、更具对比性的评测结果。

为解决上述技术问题，本发明提供了一种人工智能加速卡产品的训练和推理性能的测试方法，包括以下步骤：

(1)准备测试环境，提供统一的基准硬件检测平台，保证平台配置相同,确保测试搭载的基线一致；

(2)协调待测人工智能产品的资源，完成人工智能加速卡硬件准备、驱动软件准备、模型适配工作，完成测试准备所需安装包和测试环境部署；

(3)按照测试方案开展测试，分别为基础性能测试、推理单机单卡测试和训练单机四卡测试；

(4)根据测试结果，进行评分，推理和训练分开评分，具体评分方法可根据实际情况制定。

所述基础性能测试包括矩阵乘运算、峰值算力测试和带宽测试；

所述矩阵乘运算：采用单机单卡，测试不同数据类型的矩阵乘法性能；

所述峰值算力测试：采用单机单卡，测算出的芯片利用率最大的矩阵乘法性能做为峰值算力性能；

所述带宽测试：测试人工智能加速卡上的DDR读数据或写数据时的最大吞吐速率。

进一步的，所述矩阵乘运算具体为：输入矩阵规模[M、N、K]，分别采用INT8、FP16和INT16数据类型进行计算，记录计算结果和计算耗时，得到矩阵乘法性能。在矩阵乘运算中，运算次数为m*n*k*2.0(其中，m为左矩阵的行，n为右矩阵的列，k为累加维度)，由于实际运算时间(elapsed_time)单位为us，为保持计算单位相符，需要再除以(1000*1024)，算力具体的计算方式为:

TF LOPS＝(m×n×k×2.0)/(elapsed_time×1000×1024)

进一步的，所述峰值算力测试：使用单机单卡矩阵乘法性能与被测加速卡标称算力作比的数值作为芯片利用率，多次测试测算出芯片利用率最大的矩阵乘法性能做为峰值算力性能。其中，芯片利用率计算方式如下：

USE RATIO＝(m×n×k×2.0)/(elapsed_time×1000×1024)/nominal value

进一步的，所述带宽测试：通过让加速卡上多核多次进行一定数据量data_size的传输，测试最小的硬件时间hardware_time，从而得到整个加速卡的最大带宽bandwidth，带宽计算公式如下：bandwidth(GB/s)＝data_size/hardware_time。

进一步的，所述推理单机单卡测试，测试内容分为：

1)开源通用模型-图像分类:执行三次测试，每次测试被测样品使用Resnet50模型在不同数据类型及数据批次大小条件下的Top1准确率、Top5准确率、每秒处理的样本性能数据和能效比；

其中，Top1/Top5准确率是分类网络的评价指标，即排名第一/第五的类别与实际结果相符的准确率，由执行完Resnet图像分类模型任务后，通过日志输出获得。

每秒处理的样本性能数据，是单位时间内所能处理的输入实例的最大数量，可通过日志输出直接获取，每秒处理样本性能＝(batches数量*batch size)/总时间(以秒为单位)。

能效比通过每秒处理的样本性能数据计算得到，能效比＝每秒处理的样本性能数据/功耗。

2)开源通用模型-目标检测:执行三次测试，每次测试被测样品使用yolov3模型在不同数据类型及数据批次大小条件下的mAP准确率、每秒处理的样本性能数据和能效比；

3)开源通用模型-NLP:执行三次测试，每次测试被测样品使用BERT-BASE模型在不同数据类型及数据批次大小条件下的F1-Score准确率、每秒处理的样本性能数据和能效比。

进一步的，所述训练单机四卡测试，测试内容分为：

1)开源通用模型-图像分类:分三次测试Resnet50模型在单机四卡，数据类型FP32下，固定数据数量和超参数达到top1准确率≥75％精度的训练时长；

2)开源通用模型-目标检测:分三次测试yolov5s模型在单机四卡，数据类型FP32下，固定数据数量和超参数达到mAP@0.5≥53％精度的训练时长；

3)开源通用模型-NLP:分三次测Pytorch框架下BERT-BASE模型在单机四卡，数据类型FP32下，固定数据数量和超参数达到F1≥86.9％精度的训练时长。有益效果：通过所设计的人工智能加速卡产品训练和推理性能的测试和评价方法，能够更公平、更有针对性的对数据中心侧，搭载在服务器上的人工智能加速卡产品的基础硬件算力表现、带模型应用的推理和训练性能、功耗、互联带宽等方面进行评测。同时结合电力行业技术路线和业务现状，通过测试人工智能加速卡对主流电力模型和通用模型的适配性，为电力行业相关人工智能基础硬件的国产化发展提供参考依据。可根据测试数据形成更直观、更具对比性的评测结果。

附图说明

图1是本发明所述的测试流程图；

图2是本发明实施例的评分评价指标模型示意图。

具体实施方式

以下结合实施例和说明书附图，详细说明本发明的实施过程。

图1为本发明所述的测试流程图：

步骤1：准备测试环境，所有搭载加速卡的服务器使用同型号并且同配置，

步骤2：准备加速卡所需的驱动软件等准备工作。

步骤3：为了测试不同应用场景，采取了基础算力测试和三种典型的深度学习场景：图像分类、目标检测、自然语言处理。

步骤4：矩阵乘运算，测试不同数据类型(INT8、FP16、INT16等)的矩阵乘法的性能，输入矩阵规模[M、N、K]，分别采用INT8、FP16、INT16进行计算，记录计算结果和计算耗时t(us)。根据计算耗时换算得到硬件平均利用效率。在矩阵乘运算中，运算次数为m*n*k*2.0(其中，m为左矩阵的行，n为右矩阵的列，k为累加维度)，由于实际运算时间(elapsed_time)单位为us，为保持计算单位相符，需要再除以(1000*1024)，算力具体的计算方式为:

TF LOPS＝(m×n×k×2.0)/(elapsed_time×1000×1024)

矩阵规模[m,n,k]:[1024,1024,1024]、[2048,2048,2048]。

步骤5：峰值算力测试，通过设置不同的数据类型(INT8、FP16、INT16等)，选择使芯片利用率最大的矩阵乘规模M、N、K,运行矩阵乘运算并记录芯片利用率。使用单机单卡矩阵乘法性能与被测加速卡标称算力作比的数值作为芯片利用率，多次测试测算出芯片利用率最大的矩阵乘法性能做为峰值算力性能。其中，芯片利用率计算方式如下：

USE RATIO＝(m×n×k×2.0)/(elapsed_time×1000×1024)/nominal value

步骤6：带宽测试：选择通用测试工具Benchmark的Bandwidth工具，通过设置不同的参数组合，测试最大通信带宽。通过让加速卡上多个核多次进行一定数据量(data_size)的传输，测试最小的硬件时间(hardware_time)，单位us，从而得到整个加速卡的最大带宽(bandwidth)，带宽计算公式如下：bandwidth(GB/s)＝data_size/hardware_time。

步骤7：对于推理功能加速卡在图像分类场景，采取ImageNet2012数据集和Tensorflow框架下ResNet50V1.1模型，精度约束top1>74.2％and top5>91.2％，使用单机单卡，模型在精度INT8、FP16和FP32及不同BatchSize(1/4/8/16/32/64)下进行推理，并记录最终推理的top1和top5的准确率和每秒处理的样本性能数据以及功耗；

步骤8：对于推理功能加速卡在目标检测场景，采取COCO2017数据集和Tensorflow框架下YOLOV3模型，精度约束mAP@0.5>53％，模型在INT8、FP16和FP32及不同BatchSize(1/4/8/16/32/64)下进行推理，并记录最终推理的top1和top5的准确率和每秒处理的样本性能数据以及功耗；

步骤9：对于推理功能加速卡在自然语言处理场景，采取SquADv1.1数据集和Tensorflow框架下BERT-BASE模型，精度约束F1>86.9％，模型在INT8、FP16和FP32及不同BatchSize(1/4/8/16/32/64)下进行推理，并记录最终推理的top1和top5的准确率和每秒处理的样本性能数据以及功耗；

步骤10：对于训练功能加速卡在图像分类场景，采取ImageNet2012数据集和Pytorch框架下ResNet50模型，精度约束top1>75％,模型在精度FP32下从0开始，使用单机四卡进行训练，并记录记录top1和top5的准确率和每秒处理的样本性能数据和功耗；

步骤11：对于训练功能加速卡在目标检测场景，采取COCO2017数据集和Pytorch框架下YOLOV5模型，精度约束mAP@0.5>53％，模型在精度FP32下从0开始，使用单机四卡进行训练，并记录记录mAP@0.5的准确率和每秒处理的样本性能数据和功耗；

步骤12：对于训练功能加速卡在自然语言处理场景，采取SquADv1.1数据集和Pytorch框架下bert-base预训练模型，精度约束F1>86.9％，模型在精度FP32下从0开始，使用单机四卡进行训练，并记录记录F1和excat_match的准确率和每秒处理的样本性能数据和功耗；

图2为本发明所述的评分规则：

步骤13：基础性能评分如下：

1)矩阵乘运算：INT16/FP16/INT8：利用率>50％，得3分；利用率20％-50％，得2分；利用率<20％不得分。

2)峰值算力测试:INT16/FP16/INT8：利用率≥70％,得3分；利用率60-70％,得2分；50％-60％得1分；利用率<50％,得0分。

3)通信带宽测试：根据测出的最大吞吐速率进行排名得分。

步骤12：在图像分类场景推理卡评分如下：

1)Resnet50模型功能：准确率top1≥74.2％和top5>＝91.2％，满足及格，否则后面模型性能不得分，top1每超出0.2％个点加1分，不满0.2％的不加分，上限10分。

2)Resnet50模型性能：在Resnet50模型功能满足基础上，每秒处理的样本性能数据：根据排名进行得分，能效比：能效比根据排名进行得分。

步骤13：在目标检测场景推理卡评分如下：

1)yolov3模型功能：准确率达到mAP@0.5≥53.3％，满足及格，否则后面模型性能不得分，准确率每超出0.3％个点加1分，不满0.3％的不加分，上限10分。

2)yolov3模型性能：在yolov3模型功能满足基础上，每秒处理的样本性能数据：根据排名进行得分，能效比：能效比根据排名进行得分。

步骤14：在自然语言处理场景推理卡评分如下：

1)BERT-BASE模型功能：准确率达到F1≥87％和exact_match≥79.7％，满足及格，否则后面模型性能不得分，F1>准确率每超出0.3％个点加1分，不满0.3％的不加分，上限10分。

2)BERT-BASE模型性能：在BERT-BASE模型功能满足基础上，每秒处理的样本性能数据：根据排名进行得分，能效比：能效比根据排名进行得分。

步骤15：在图像分类场景训练卡评分如下：

1)Resnet50模型功能：准确率top1≥75％，满足及格，否则后面模型性能不得分,准确率每超出0.3％个点加1分，不满0.3％的不加分，上限10分。

2)Resnet50模型性能：在Resnet50模型功能满足基础上，训练时长、功耗根据排名进行得分。

步骤16：在目标检测场景训练卡评分如下：

1)Yolov5模型功能：准确率mAP@0.5≥53％，满足及格，否则后面模型性能不得分,准确率每超出0.3％个点加1分，不满0.3％的不加分，上限10分。

2)Yolov5模型性能：在Yolov5模型功能满足基础上，训练时长、功耗根据排名进行得分。

步骤17：在自然语言处理场景训练卡评分如下：

1)Bert-base模型功能：准确率F1>86.9％，满足及格，否则后面模型性能不得分,准确率每超出0.2％个点加1分，不满0.2％的不加分，上限10分。

2)Bert-base模型性能：在Bert-base模型功能满足基础上，训练时长、功耗根据排名进行得分。

由此，本方法采用了统一的硬件测评平台、统一基础硬件算力测试方法、统一数据集等方式，通过拉平基线、统一方法、同向对比的方式，通过通用、统一、公平的测评方式，实现对人工智能基础核心硬件的检测工作。通过所设计的评测指标权重，能够根据检测结果计算出一个可以体现性能表现的数值，使得同类型间的比较更加直观。

考虑到目标检测和识别类场景，更多注重实时效率，对数据的及时反馈要求较高，此时使用人工智能加速卡的芯片核心算力性能作为评测指标，更具有指导性。而面向学习和训练类场景，更多考虑采用多卡多机协同的方式，其对数据的效率准确度、训练耗时以及能耗要求较高，因此，采用固定框架和模型下的使用性能对比作为评测指标，更具有指导性。故而，通过此方法进行的测试和评价更能体现各产品的对比性。

通过所设计的人工智能加速卡产品训练和推理性能的测试和评价方法，能够更公平、更有针对性的对数据中心侧，搭载在服务器上的人工智能加速卡产品的基础硬件算力表现、带模型应用的推理和训练性能、功耗、互联带宽等方面进行评测。同时结合电力行业技术路线和业务现状，通过测试人工智能加速卡对主流电力模型和通用模型的适配性，为电力行业相关人工智能基础硬件的国产化发展提供参考依据。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种人工智能加速卡产品的训练和推理性能的测试方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种人工智能加速卡产品的训练和推理性能的测试方法，其特征在于，所述基础性能测试包括矩阵乘运算、峰值算力测试和带宽测试；

3.根据权利要求2所述的一种人工智能加速卡产品的训练和推理性能的测试方法，其特征在于，所述矩阵乘运算具体为：输入矩阵规模[M、N、K]，分别采用INT8、FP16和INT16数据类型进行计算，记录计算结果和计算耗时，得到矩阵乘法性能。

4.根据权利要求2所述的一种人工智能加速卡产品的训练和推理性能的测试方法，其特征在于，所述峰值算力测试：使用单机单卡矩阵乘法性能与被测加速卡标称算力作比的数值作为芯片利用率，多次测试测算出芯片利用率最大的矩阵乘法性能做为峰值算力性能。

5.根据权利要求2所述的一种人工智能加速卡产品的训练和推理性能的测试方法，其特征在于，所述带宽测试：通过让加速卡上多核多次进行一定数据量data_size的传输，测试最小的硬件时间hardware_time，从而得到整个加速卡的最大带宽bandwidth，带宽计算公式如下：bandwidth(GB/s)＝data_size/hardware_time。

6.根据权利要求1所述的一种人工智能加速卡产品的训练和推理性能的测试方法，其特征在于，所述推理单机单卡测试，测试内容分为：

7.根据权利要求1所述的母线负荷预测自动跟随电网运行方式调整方法，其特征在于，所述训练单机四卡测试，测试内容分为：

3)开源通用模型-NLP:分三次测Pytorch框架下BERT-BASE模型在单机四卡，数据类型FP32下，固定数据数量和超参数达到F1≥86.9％精度的训练时长。