CN116090552A - 一种人工智能加速卡产品的训练和推理性能的测试方法 - Google Patents

一种人工智能加速卡产品的训练和推理性能的测试方法 Download PDF

Info

Publication number
CN116090552A
CN116090552A CN202211674465.6A CN202211674465A CN116090552A CN 116090552 A CN116090552 A CN 116090552A CN 202211674465 A CN202211674465 A CN 202211674465A CN 116090552 A CN116090552 A CN 116090552A
Authority
CN
China
Prior art keywords
test
performance
training
card
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211674465.6A
Other languages
English (en)
Inventor
石超
段程程
陈阳
杨华飞
张昕
杨文清
高若寒
于聪
王立晨
朱佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NARI Group Corp
Nari Technology Co Ltd
Original Assignee
NARI Group Corp
Nari Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NARI Group Corp, Nari Technology Co Ltd filed Critical NARI Group Corp
Priority to CN202211674465.6A priority Critical patent/CN116090552A/zh
Publication of CN116090552A publication Critical patent/CN116090552A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Neurology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种人工智能加速卡产品的训练和推理性能的测试方法,包括以下步骤:(1)准备测试环境,提供统一的基准硬件检测平台,保证平台配置相同,确保测试搭载的基线一致;(2)协调待测人工智能产品的资源,完成人工智能加速卡硬件准备、驱动软件准备、模型适配工作等,完成测试准备所需安装包和测试环境部署;(3)按照测试方案开展测试,分别为基础性能测试、推理单机单卡测试和训练单机四卡测试;(4)根据测试结果,进行评分,推理和训练分开评分,具体评分方法可根据实际情况制定。可根据测试数据形成更直观、更具对比性的评测结果。

Description

一种人工智能加速卡产品的训练和推理性能的测试方法
技术领域
本发明属于测试领域,具体涉及一种面向人工智能加速卡产品的训练和推理性能的测试方法,尤其面向云端高算力需求场景下,检测人工智能加速卡对主流框架和通用模型的适配性及性能表现能力。
背景技术
随着人工智能技术的不断发展演进,人工智能相关业务及应用对人工智能基础软硬件在功能、性能上的要求也不断提高。针对人工智能加速处理器的技术研究也已成为学术界和商业界的研究热点,许多商业和学术机构都推出了自己的人工智能专用加速器。而从现有加速器的主要功能分类来看,主要可以分为Training(训练)和Inference(推理)两个大类。
目前人工智能基础硬件环境主要基于传统Intel X86服务器搭载NVIDIA人工智能加速卡进行搭建,其平台也主要基于NVIDIA的CUDA平台做深度开发及搭建部署,从而实现资源分配、调度、管理和监控工作,目前很少使用国产核心芯片的人工智能加速卡搭建底层软硬件平台。但随着国内关键核心技术自主可控应用工作的推进,在人工智能领域开展和推进国产替代已经成为必然趋势。针对国产人工智能核心部件当前的纷杂现状、国内外主流产品的性能表现差异以及国产服务器与国产人工智能加速卡产品适配尚不完善等主要问题,研究并形成了以国产人工智能加速卡的基础硬件算力、整体应用性能及国产人工智能配套硬件适配兼容性为三大主要方面的测试和评价方法,为人工智能基础软硬件环境建设和试验检测提供一种有效的方法。
当前,各人工智能加速卡产品的硬件基础算力均由各厂商自行评测,其评测AI芯片算力、测试所用的数据类型以及精度约束等标准不统一。各家所采用的评测工具、数据类型、数据集和评测方法等也各不相同。这就造成了测试结果不具有横向对比性,难以通过直观方式对比产品优劣的问题。
因此,该如何针对搭载在服务器上的各种人工智能产品,进行公平、有效、有针对性的评测,就需要设计和建立起一套更通用、更公平、更可靠的评测方法,对面向推理和训练的高性能专用人工智能加速卡产品从基础硬件算力性能、带模型应用性能表现、功耗等方面进行检测和测评,通过结合电力行业人工智能相关技术路线和业务现状,测试人工智能加速卡对主流电力模型和通用模型的适配性,为电力行业相关的人工智能基础硬件国产化发展提供参考依据。
当前,各人工智能加速卡产品的硬件基础算力均由各厂商自行评测,其评测算力的标准、测试所用数据类型以及数据精度均不统一,各家所采用的评测方法、评测工具和测试数据集也各不相同。这就造成了测试结果不具有横向对比性,难以通过直观方式对比产品优劣的问题。
发明内容
发明目的:本发明所要解决的技术问题是,针对现有人工智能基础硬件测评标准不统一、评测方法的不足问题,提供一种更通用的人工智能加速卡产品性能测试方法,可根据测试数据形成更直观、更具对比性的评测结果。
为解决上述技术问题,本发明提供了一种人工智能加速卡产品的训练和推理性能的测试方法,包括以下步骤:
(1)准备测试环境,提供统一的基准硬件检测平台,保证平台配置相同,确保测试搭载的基线一致;
(2)协调待测人工智能产品的资源,完成人工智能加速卡硬件准备、驱动软件准备、模型适配工作,完成测试准备所需安装包和测试环境部署;
(3)按照测试方案开展测试,分别为基础性能测试、推理单机单卡测试和训练单机四卡测试;
(4)根据测试结果,进行评分,推理和训练分开评分,具体评分方法可根据实际情况制定。
所述基础性能测试包括矩阵乘运算、峰值算力测试和带宽测试;
所述矩阵乘运算:采用单机单卡,测试不同数据类型的矩阵乘法性能;
所述峰值算力测试:采用单机单卡,测算出的芯片利用率最大的矩阵乘法性能做为峰值算力性能;
所述带宽测试:测试人工智能加速卡上的DDR读数据或写数据时的最大吞吐速率。
进一步的,所述矩阵乘运算具体为:输入矩阵规模[M、N、K],分别采用INT8、FP16和INT16数据类型进行计算,记录计算结果和计算耗时,得到矩阵乘法性能。在矩阵乘运算中,运算次数为m*n*k*2.0(其中,m为左矩阵的行,n为右矩阵的列,k为累加维度),由于实际运算时间(elapsed_time)单位为us,为保持计算单位相符,需要再除以(1000*1024),算力具体的计算方式为:
TF LOPS=(m×n×k×2.0)/(elapsed_time×1000×1024)
进一步的,所述峰值算力测试:使用单机单卡矩阵乘法性能与被测加速卡标称算力作比的数值作为芯片利用率,多次测试测算出芯片利用率最大的矩阵乘法性能做为峰值算力性能。其中,芯片利用率计算方式如下:
USE RATIO=(m×n×k×2.0)/(elapsed_time×1000×1024)/nominal value
进一步的,所述带宽测试:通过让加速卡上多核多次进行一定数据量data_size的传输,测试最小的硬件时间hardware_time,从而得到整个加速卡的最大带宽bandwidth,带宽计算公式如下:bandwidth(GB/s)=data_size/hardware_time。
进一步的,所述推理单机单卡测试,测试内容分为:
1)开源通用模型-图像分类:执行三次测试,每次测试被测样品使用Resnet50模型在不同数据类型及数据批次大小条件下的Top1准确率、Top5准确率、每秒处理的样本性能数据和能效比;
其中,Top1/Top5准确率是分类网络的评价指标,即排名第一/第五的类别与实际结果相符的准确率,由执行完Resnet图像分类模型任务后,通过日志输出获得。
每秒处理的样本性能数据,是单位时间内所能处理的输入实例的最大数量,可通过日志输出直接获取,每秒处理样本性能=(batches数量*batch size)/总时间(以秒为单位)。
能效比通过每秒处理的样本性能数据计算得到,能效比=每秒处理的样本性能数据/功耗。
2)开源通用模型-目标检测:执行三次测试,每次测试被测样品使用yolov3模型在不同数据类型及数据批次大小条件下的mAP准确率、每秒处理的样本性能数据和能效比;
3)开源通用模型-NLP:执行三次测试,每次测试被测样品使用BERT-BASE模型在不同数据类型及数据批次大小条件下的F1-Score准确率、每秒处理的样本性能数据和能效比。
进一步的,所述训练单机四卡测试,测试内容分为:
1)开源通用模型-图像分类:分三次测试Resnet50模型在单机四卡,数据类型FP32下,固定数据数量和超参数达到top1准确率≥75%精度的训练时长;
2)开源通用模型-目标检测:分三次测试yolov5s模型在单机四卡,数据类型FP32下,固定数据数量和超参数达到mAP@0.5≥53%精度的训练时长;
3)开源通用模型-NLP:分三次测Pytorch框架下BERT-BASE模型在单机四卡,数据类型FP32下,固定数据数量和超参数达到F1≥86.9%精度的训练时长。有益效果:通过所设计的人工智能加速卡产品训练和推理性能的测试和评价方法,能够更公平、更有针对性的对数据中心侧,搭载在服务器上的人工智能加速卡产品的基础硬件算力表现、带模型应用的推理和训练性能、功耗、互联带宽等方面进行评测。同时结合电力行业技术路线和业务现状,通过测试人工智能加速卡对主流电力模型和通用模型的适配性,为电力行业相关人工智能基础硬件的国产化发展提供参考依据。可根据测试数据形成更直观、更具对比性的评测结果。
附图说明
图1是本发明所述的测试流程图;
图2是本发明实施例的评分评价指标模型示意图。
具体实施方式
以下结合实施例和说明书附图,详细说明本发明的实施过程。
图1为本发明所述的测试流程图:
步骤1:准备测试环境,所有搭载加速卡的服务器使用同型号并且同配置,
步骤2:准备加速卡所需的驱动软件等准备工作。
步骤3:为了测试不同应用场景,采取了基础算力测试和三种典型的深度学习场景:图像分类、目标检测、自然语言处理。
步骤4:矩阵乘运算,测试不同数据类型(INT8、FP16、INT16等)的矩阵乘法的性能,输入矩阵规模[M、N、K],分别采用INT8、FP16、INT16进行计算,记录计算结果和计算耗时t(us)。根据计算耗时换算得到硬件平均利用效率。在矩阵乘运算中,运算次数为m*n*k*2.0(其中,m为左矩阵的行,n为右矩阵的列,k为累加维度),由于实际运算时间(elapsed_time)单位为us,为保持计算单位相符,需要再除以(1000*1024),算力具体的计算方式为:
TF LOPS=(m×n×k×2.0)/(elapsed_time×1000×1024)
矩阵规模[m,n,k]:[1024,1024,1024]、[2048,2048,2048]。
步骤5:峰值算力测试,通过设置不同的数据类型(INT8、FP16、INT16等),选择使芯片利用率最大的矩阵乘规模M、N、K,运行矩阵乘运算并记录芯片利用率。使用单机单卡矩阵乘法性能与被测加速卡标称算力作比的数值作为芯片利用率,多次测试测算出芯片利用率最大的矩阵乘法性能做为峰值算力性能。其中,芯片利用率计算方式如下:
USE RATIO=(m×n×k×2.0)/(elapsed_time×1000×1024)/nominal value
步骤6:带宽测试:选择通用测试工具Benchmark的Bandwidth工具,通过设置不同的参数组合,测试最大通信带宽。通过让加速卡上多个核多次进行一定数据量(data_size)的传输,测试最小的硬件时间(hardware_time),单位us,从而得到整个加速卡的最大带宽(bandwidth),带宽计算公式如下:bandwidth(GB/s)=data_size/hardware_time。
步骤7:对于推理功能加速卡在图像分类场景,采取ImageNet2012数据集和Tensorflow框架下ResNet50V1.1模型,精度约束top1>74.2%and top5>91.2%,使用单机单卡,模型在精度INT8、FP16和FP32及不同BatchSize(1/4/8/16/32/64)下进行推理,并记录最终推理的top1和top5的准确率和每秒处理的样本性能数据以及功耗;
步骤8:对于推理功能加速卡在目标检测场景,采取COCO2017数据集和Tensorflow框架下YOLOV3模型,精度约束mAP@0.5>53%,模型在INT8、FP16和FP32及不同BatchSize(1/4/8/16/32/64)下进行推理,并记录最终推理的top1和top5的准确率和每秒处理的样本性能数据以及功耗;
步骤9:对于推理功能加速卡在自然语言处理场景,采取SquADv1.1数据集和Tensorflow框架下BERT-BASE模型,精度约束F1>86.9%,模型在INT8、FP16和FP32及不同BatchSize(1/4/8/16/32/64)下进行推理,并记录最终推理的top1和top5的准确率和每秒处理的样本性能数据以及功耗;
步骤10:对于训练功能加速卡在图像分类场景,采取ImageNet2012数据集和Pytorch框架下ResNet50模型,精度约束top1>75%,模型在精度FP32下从0开始,使用单机四卡进行训练,并记录记录top1和top5的准确率和每秒处理的样本性能数据和功耗;
步骤11:对于训练功能加速卡在目标检测场景,采取COCO2017数据集和Pytorch框架下YOLOV5模型,精度约束mAP@0.5>53%,模型在精度FP32下从0开始,使用单机四卡进行训练,并记录记录mAP@0.5的准确率和每秒处理的样本性能数据和功耗;
步骤12:对于训练功能加速卡在自然语言处理场景,采取SquADv1.1数据集和Pytorch框架下bert-base预训练模型,精度约束F1>86.9%,模型在精度FP32下从0开始,使用单机四卡进行训练,并记录记录F1和excat_match的准确率和每秒处理的样本性能数据和功耗;
图2为本发明所述的评分规则:
步骤13:基础性能评分如下:
1)矩阵乘运算:INT16/FP16/INT8:利用率>50%,得3分;利用率20%-50%,得2分;利用率<20%不得分。
2)峰值算力测试:INT16/FP16/INT8:利用率≥70%,得3分;利用率60-70%,得2分;50%-60%得1分;利用率<50%,得0分。
3)通信带宽测试:根据测出的最大吞吐速率进行排名得分。
步骤12:在图像分类场景推理卡评分如下:
1)Resnet50模型功能:准确率top1≥74.2%和top5>=91.2%,满足及格,否则后面模型性能不得分,top1每超出0.2%个点加1分,不满0.2%的不加分,上限10分。
2)Resnet50模型性能:在Resnet50模型功能满足基础上,每秒处理的样本性能数据:根据排名进行得分,能效比:能效比根据排名进行得分。
步骤13:在目标检测场景推理卡评分如下:
1)yolov3模型功能:准确率达到mAP@0.5≥53.3%,满足及格,否则后面模型性能不得分,准确率每超出0.3%个点加1分,不满0.3%的不加分,上限10分。
2)yolov3模型性能:在yolov3模型功能满足基础上,每秒处理的样本性能数据:根据排名进行得分,能效比:能效比根据排名进行得分。
步骤14:在自然语言处理场景推理卡评分如下:
1)BERT-BASE模型功能:准确率达到F1≥87%和exact_match≥79.7%,满足及格,否则后面模型性能不得分,F1>准确率每超出0.3%个点加1分,不满0.3%的不加分,上限10分。
2)BERT-BASE模型性能:在BERT-BASE模型功能满足基础上,每秒处理的样本性能数据:根据排名进行得分,能效比:能效比根据排名进行得分。
步骤15:在图像分类场景训练卡评分如下:
1)Resnet50模型功能:准确率top1≥75%,满足及格,否则后面模型性能不得分,准确率每超出0.3%个点加1分,不满0.3%的不加分,上限10分。
2)Resnet50模型性能:在Resnet50模型功能满足基础上,训练时长、功耗根据排名进行得分。
步骤16:在目标检测场景训练卡评分如下:
1)Yolov5模型功能:准确率mAP@0.5≥53%,满足及格,否则后面模型性能不得分,准确率每超出0.3%个点加1分,不满0.3%的不加分,上限10分。
2)Yolov5模型性能:在Yolov5模型功能满足基础上,训练时长、功耗根据排名进行得分。
步骤17:在自然语言处理场景训练卡评分如下:
1)Bert-base模型功能:准确率F1>86.9%,满足及格,否则后面模型性能不得分,准确率每超出0.2%个点加1分,不满0.2%的不加分,上限10分。
2)Bert-base模型性能:在Bert-base模型功能满足基础上,训练时长、功耗根据排名进行得分。
当前,各人工智能加速卡产品的硬件基础算力均由各厂商自行评测,其评测算力的标准、测试所用数据类型以及数据精度均不统一,各家所采用的评测方法、评测工具和测试数据集也各不相同。这就造成了测试结果不具有横向对比性,难以通过直观方式对比产品优劣的问题。
由此,本方法采用了统一的硬件测评平台、统一基础硬件算力测试方法、统一数据集等方式,通过拉平基线、统一方法、同向对比的方式,通过通用、统一、公平的测评方式,实现对人工智能基础核心硬件的检测工作。通过所设计的评测指标权重,能够根据检测结果计算出一个可以体现性能表现的数值,使得同类型间的比较更加直观。
考虑到目标检测和识别类场景,更多注重实时效率,对数据的及时反馈要求较高,此时使用人工智能加速卡的芯片核心算力性能作为评测指标,更具有指导性。而面向学习和训练类场景,更多考虑采用多卡多机协同的方式,其对数据的效率准确度、训练耗时以及能耗要求较高,因此,采用固定框架和模型下的使用性能对比作为评测指标,更具有指导性。故而,通过此方法进行的测试和评价更能体现各产品的对比性。
通过所设计的人工智能加速卡产品训练和推理性能的测试和评价方法,能够更公平、更有针对性的对数据中心侧,搭载在服务器上的人工智能加速卡产品的基础硬件算力表现、带模型应用的推理和训练性能、功耗、互联带宽等方面进行评测。同时结合电力行业技术路线和业务现状,通过测试人工智能加速卡对主流电力模型和通用模型的适配性,为电力行业相关人工智能基础硬件的国产化发展提供参考依据。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种人工智能加速卡产品的训练和推理性能的测试方法,其特征在于,包括以下步骤:
(1)准备测试环境,提供统一的基准硬件检测平台,保证平台配置相同,确保测试搭载的基线一致;
(2)协调待测人工智能产品的资源,完成人工智能加速卡硬件准备、驱动软件准备、模型适配工作,完成测试准备所需安装包和测试环境部署;
(3)按照测试方案开展测试,分别为基础性能测试、推理单机单卡测试和训练单机四卡测试;
(4)根据测试结果,进行评分,推理和训练分开评分,具体评分方法可根据实际情况制定。
2.根据权利要求1所述的一种人工智能加速卡产品的训练和推理性能的测试方法,其特征在于,所述基础性能测试包括矩阵乘运算、峰值算力测试和带宽测试;
所述矩阵乘运算:采用单机单卡,测试不同数据类型的矩阵乘法性能;
所述峰值算力测试:采用单机单卡,测算出的芯片利用率最大的矩阵乘法性能做为峰值算力性能;
所述带宽测试:测试人工智能加速卡上的DDR读数据或写数据时的最大吞吐速率。
3.根据权利要求2所述的一种人工智能加速卡产品的训练和推理性能的测试方法,其特征在于,所述矩阵乘运算具体为:输入矩阵规模[M、N、K],分别采用INT8、FP16和INT16数据类型进行计算,记录计算结果和计算耗时,得到矩阵乘法性能。
4.根据权利要求2所述的一种人工智能加速卡产品的训练和推理性能的测试方法,其特征在于,所述峰值算力测试:使用单机单卡矩阵乘法性能与被测加速卡标称算力作比的数值作为芯片利用率,多次测试测算出芯片利用率最大的矩阵乘法性能做为峰值算力性能。
5.根据权利要求2所述的一种人工智能加速卡产品的训练和推理性能的测试方法,其特征在于,所述带宽测试:通过让加速卡上多核多次进行一定数据量data_size的传输,测试最小的硬件时间hardware_time,从而得到整个加速卡的最大带宽bandwidth,带宽计算公式如下:bandwidth(GB/s)=data_size/hardware_time。
6.根据权利要求1所述的一种人工智能加速卡产品的训练和推理性能的测试方法,其特征在于,所述推理单机单卡测试,测试内容分为:
1)开源通用模型-图像分类:执行三次测试,每次测试被测样品使用Resnet50模型在不同数据类型及数据批次大小条件下的Top1准确率、Top5准确率、每秒处理的样本性能数据和能效比;
2)开源通用模型-目标检测:执行三次测试,每次测试被测样品使用yolov3模型在不同数据类型及数据批次大小条件下的mAP准确率、每秒处理的样本性能数据和能效比;
3)开源通用模型-NLP:执行三次测试,每次测试被测样品使用BERT-BASE模型在不同数据类型及数据批次大小条件下的F1-Score准确率、每秒处理的样本性能数据和能效比。
7.根据权利要求1所述的母线负荷预测自动跟随电网运行方式调整方法,其特征在于,所述训练单机四卡测试,测试内容分为:
1)开源通用模型-图像分类:分三次测试Resnet50模型在单机四卡,数据类型FP32下,固定数据数量和超参数达到top1准确率≥75%精度的训练时长;
2)开源通用模型-目标检测:分三次测试yolov5s模型在单机四卡,数据类型FP32下,固定数据数量和超参数达到mAP@0.5≥53%精度的训练时长;
3)开源通用模型-NLP:分三次测Pytorch框架下BERT-BASE模型在单机四卡,数据类型FP32下,固定数据数量和超参数达到F1≥86.9%精度的训练时长。
CN202211674465.6A 2022-12-26 2022-12-26 一种人工智能加速卡产品的训练和推理性能的测试方法 Pending CN116090552A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211674465.6A CN116090552A (zh) 2022-12-26 2022-12-26 一种人工智能加速卡产品的训练和推理性能的测试方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211674465.6A CN116090552A (zh) 2022-12-26 2022-12-26 一种人工智能加速卡产品的训练和推理性能的测试方法

Publications (1)

Publication Number Publication Date
CN116090552A true CN116090552A (zh) 2023-05-09

Family

ID=86207462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211674465.6A Pending CN116090552A (zh) 2022-12-26 2022-12-26 一种人工智能加速卡产品的训练和推理性能的测试方法

Country Status (1)

Country Link
CN (1) CN116090552A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401113A (zh) * 2023-06-09 2023-07-07 太初(无锡)电子科技有限公司 一种异构众核架构加速卡的环境验证方法、装置及介质
CN117407179A (zh) * 2023-12-15 2024-01-16 成都凯迪飞研科技有限责任公司 一种基于协同处理的加速子卡处理方法及系统
CN118393329A (zh) * 2024-06-27 2024-07-26 中国信息通信研究院 一种用于测试ai芯片在模型训练和推理表现的系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401113A (zh) * 2023-06-09 2023-07-07 太初(无锡)电子科技有限公司 一种异构众核架构加速卡的环境验证方法、装置及介质
CN116401113B (zh) * 2023-06-09 2023-08-18 太初(无锡)电子科技有限公司 一种异构众核架构加速卡的环境验证方法、装置及介质
CN117407179A (zh) * 2023-12-15 2024-01-16 成都凯迪飞研科技有限责任公司 一种基于协同处理的加速子卡处理方法及系统
CN117407179B (zh) * 2023-12-15 2024-04-02 成都凯迪飞研科技有限责任公司 一种基于协同处理的加速子卡处理方法及系统
CN118393329A (zh) * 2024-06-27 2024-07-26 中国信息通信研究院 一种用于测试ai芯片在模型训练和推理表现的系统
CN118393329B (zh) * 2024-06-27 2024-08-20 中国信息通信研究院 一种用于测试ai芯片在模型训练和推理表现的系统

Similar Documents

Publication Publication Date Title
CN116090552A (zh) 一种人工智能加速卡产品的训练和推理性能的测试方法
CN114666224B (zh) 业务资源容量动态分配方法、装置、设备及存储介质
CN107942873B (zh) 一种家具制造生产线的运营成本智能化核算及监控方法
CN104808587A (zh) 一种基于机加工设备运行状态的稼动率统计方法
CN116244159B (zh) 一种训练时长预测方法、装置、多元异构计算设备及介质
CN114707776B (zh) 一种基于碳排放双控的低碳用能优化系统及方法
CN110210980A (zh) 一种驾驶行为评估方法、装置和存储介质
CN117608809A (zh) 基于梯度提升决策树的多任务计划进度预测系统
CN103207804A (zh) 基于集群作业日志的MapReduce负载模拟方法
CN112965810B (zh) 一种基于共享网络通道的多内核浏览器数据整合方法
CN116415385A (zh) 风机联调仿真方法、装置、服务器及计算机存储介质
CN109155014A (zh) 实时风力市场预报分析的数据驱动调用
CN111158974A (zh) 一种面向云服务器的硬件感知cpu能耗测算方法
CN112835772A (zh) 一种异构硬件环境下的粗粒度计算加速比评估方法与系统
CN114924941B (zh) 一种基于管线模型的流式计算场景解决方案性能评估系统及方法
CN111127657A (zh) 基于Unreal Engine引擎的虚拟制造方法及系统
CN117171551B (zh) 大规模工业设备数据分析与智能管理方法
CN117494952B (zh) 一种面向电力系统的机组低碳运行调度方法
CN115114983B (zh) 基于大数据设备电量数据采集分析方法、计算机系统
CN117474613B (zh) 基于人工智能的变电站工作票智能开票数据交互管理系统
CN118445927B (zh) 一种船舶建造管理中设计物量生成方法
CN118244706B (zh) 一种钢结构产品智能生产管理系统
CN114866565B (zh) 一种基于pass平台软件资源用分配系统
CN105512401A (zh) 一种基于订单生产的人员排班仿真的方法
CN118394502A (zh) 一种面向云渲染的高效算力调度方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination