CN114741269B - 一种推理系统业务性能评估的方法 - Google Patents

一种推理系统业务性能评估的方法 Download PDF

Info

Publication number
CN114741269B
CN114741269B CN202210389201.XA CN202210389201A CN114741269B CN 114741269 B CN114741269 B CN 114741269B CN 202210389201 A CN202210389201 A CN 202210389201A CN 114741269 B CN114741269 B CN 114741269B
Authority
CN
China
Prior art keywords
reasoning
inference
data
pressure
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210389201.XA
Other languages
English (en)
Other versions
CN114741269A (zh
Inventor
王欢
曾波
张立雄
黎致斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nets Technology Group Co.,Ltd.
Original Assignee
Networks Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Networks Technology Co ltd filed Critical Networks Technology Co ltd
Priority to CN202210389201.XA priority Critical patent/CN114741269B/zh
Publication of CN114741269A publication Critical patent/CN114741269A/zh
Application granted granted Critical
Publication of CN114741269B publication Critical patent/CN114741269B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/865Monitoring of software

Abstract

本发明公开了一种推理系统业务性能评估的方法,涉及推理系统业务性能评估技术领域,属于人工智能领域,解决了人工智能推理能力在特定部署环境下的业务性能评估;与其它推理系统性能评估方法相比,本发明针对系统级别的推理性能分析,覆盖了从单一系统到集群系统架构下的推理系统整体性能评估;从推理结果准确性、输出延迟、并发性三个维度评估被测系统是否符合特定业务场景下的要求,在推理合格的前提下才可以进行性能评估,保证推理质量的同时确保性能评估的正常进行;通过对比同一推理数据样本在不同负载压力下的结果,得到接近真实业务部署环境下的推理准确性评估;将推理系统的运行整体合格性分析以及运行效率分析。

Description

一种推理系统业务性能评估的方法
技术领域
本发明涉及推理系统业务性能评估技术领域,属于人工智能领域,具体为一种推理系统业务性能评估的方法。
背景技术
随着深度学习技术在不同业务场景的持续应用,定制化的推理模型、多样的运行环境无法使用只针对硬件,比如推理加速卡,的性能测试数据准确地评估业务性能。从业务部署角度,软硬件运行环境、算法框架和模型作为一个整体决定了业务推理的性能。性能数据,比如:推理系统能够持续稳定地处理多少并发请求以及不同运行环境下推理结果准确度偏差,更加契合真实的部署场景。突出硬件部件的规格性能和超额配置资源的粗放部署导致业务系统规划的困难。合理的业务系统部署需要达到满足当前业务需求和平滑调整系统性能的目标。因此,一个以业务处理性能为指标的推理系统评估方法必不可少。
但是在现有技术中,推理系统在进行预测评估时,不能够保证本身运行的合格性,同时无法对推理性能和业务性能进行分步测试,无法保证系统本身运行稳定性且降低了推理系统性能评估的可信度;此外,在进行性能评估时不能够分步进行整体合格性检测以及具体运行效率检测;
针对上述的技术缺陷,现提出一种解决方案。
发明内容
本发明的目的就在于为了解决上述提出的问题,而提出一种推理系统业务性能评估的方法,对当前推理系统的推理性能进行分析,确保推理系统本身推理过程是合格的,在推理合格的前提下才可以进行性能评估,保证推理质量的同时确保性能评估的正常进行,从而能够提高评估的工作效率;控制预构建测试数据集对应数量,也可以防止预设人工判定结果与对应预构建数据集的推理结果差距过大,导致业务性能测试准确性降低;此外,进行业务性能测试主要为在同一业务压力下进行业务性能测试,进行针对的对象为业务性能,故预构建测试数据集不必要设定太多,导致业务性能测试的工作量增加了,降低了系统的运行效率。
本发明的目的可以通过以下技术方案实现:
一种推理系统业务性能评估的方法,具体推理系统业务性能评估方法步骤如下:
步骤一、推理压力判定,通过历史推理压力与当前推理压力进行比对,判定当前推理压力的类型;
步骤二、实时推理稳定控制,在确定推理压力类型后,将当前需进行推理的数据构建推理数据集,并将实时构建的推理数据集设定循环发送推理请求序列;
步骤三、推理性能测试,在完成循环发送推理请求序列设定,对推理系统内推理性能进行分析,在推理系统持续性运行的前提下,以相同推理压力以及不同业务压力场景为控制条件,根据当前测试数据集的实时推理结果与理想推理数据结果进行比对,根据比对判定当前推理系统的推理性能状态;
步骤四、业务性能测试,在推理系统持续性运行的前提下,以指定推理压力以及相同业务压力场景为控制条件,根据预构建测试数据集的实时推理结果与预设人工判定结果进行比对,通过比对判定当前业务性能的状态;
步骤五、整体性能评估,根据步骤三和步骤四的性能测试,对当前推理系统的整体性能进行总结判定,在完成整体性能判定后对当前推理系统的业务性能进行评估。
作为本发明的一种优选实施方式,步骤一中推理压力判定的过程具体如下:
设定压力分析时间阈值,采集到推理系统在压力分析时间阈值下历史推理的数据量以及推理次数,并将推理系统在压力分析时间阈值下历史推理的数据量以及推理次数分别标记为历史推理量以及历史推理次数,将历史推理量和历史推理次数统一标记为历史推理压力数据;采集到当前压力分析时间阈值内待推理的数据量以及预计推理次数,并将当前压力分析时间阈值内待推理的数据量以及预计推理次数分别标记为实时推理量以及实时推理次数;将实时推理量以及实时推理次数统一标记为实时推理压力数据;
将历史推理压力数据与实时推理压力数据进行比较:若历史推理压力数据对应参数均超过实时推理压力数据对应参数,则将推理系统的实时推理压力标记为减压推理压力;若历史推理压力数据对应参数未均超过实时推理压力数据对应参数,则将推理系统的实时推理压力标记为增压推理压力。
作为本发明的一种优选实施方式,步骤二中实时推理稳定控制具体过程如下:
通过步骤一确定实时推理压力类型,将当前待推理的数据进行采集并根据待推理数据构建推理数据集,同时对推理数据集设定循环发送推理请求序列,将循环发送推理请求序列数据划分为60分钟和24小时两种类型;
根据推理数据集的数据量以及在当前业务压力场景下预计需要进行推理的频率判定循环发送推理请求序列数据类型,将推理数据集的数据量以及在当前业务压力场景下预计需要进行推理的频率分别与数据量阈值和推理频率阈值进行比较:
若推理数据集的数据量超过数据量阈值,且在当前业务压力场景下预计需要进行推理的频率未超过推理频率阈值,则判定当前推理运行为多量少次运行,将对应推理数据集设定24小时的循环发送推理请求序列;
若推理数据集的数据量超过数据量阈值,且在当前业务压力场景下预计需要进行推理的频率超过推理频率阈值,则判定当前推理运行为多量多次运行,将对应推理数据集设定60分钟的循环发送推理请求序列;
若推理数据集的数据量未超过数据量阈值,则将对应推理数据集设定为60分钟的循环发送推理请求序列。
作为本发明的一种优选实施方式,步骤三中推理性能测试具体过程如下:
在完成循环发送推理请求序列设定后,推理系统对推理数据集进行数据推理,在推理系统持续性运行的前提下,对推理系统的推理性能进行测试,将推理系统的推理过程设定同一推理压力,并且设定不同业务压力场景;
在对应推理压力以及业务压力场景下,将推理系统对推理数据集的推理结果数据进行获取,并将获取的推理结果数据标记为实时推理完结数据;在对应推理压力以及业务压力场景下,将推理系统对应推理数据集的理想化推理结果数据进行获取,并将获取的推理结果数据标记为理想化推理完结数据;将实时推理完结数据与理想化推理完结数据进行比较:
若实时推理完结数据与理想化推理完结数据比较未一致的数据种类数量未超过种类数量阈值,且不同业务压力场景下数据推理反馈时长未超过反馈时长阈值,则判定当前推理系统的推理性能测试合格;
若实时推理完结数据与理想化推理完结数据比较未一致的数据种类数量超过种类数量阈值,或者不同业务压力场景下数据推理反馈时长超过反馈时长阈值,则判定当前推理系统的推理性能测试不合格。
作为本发明的一种优选实施方式,步骤四中业务性能测试具体过程如下:
在推理性能测试合格后,对当前推理系统的业务性能进行测试;在推理系统持续性运行的前提下,以指定推理压力以及相同业务压力场景为控制条件进行业务性能测试,同时预设测试数据集,且预设测试数据集对应数据量少于推理数据集的数据量;根据当前推理系统设定的推理条件,将预设测试数据集进行预设人工判定,并将其预设人工判定结果标记为预设人工结果数据;将预设测试数据集通过推理系统进行预设测试数据结果采集,并将获取的预设测试数据结果对应数据与预设人工结果数据进行比较:
若预设测试数据结果对应数据与预设人工结果数据比较相同数据数量超过对应数据数量阈值,则判定当前推理系统的业务性能测试合格;若预设测试数据结果对应数据与预设人工结果数据比较相同数据数量未超过对应数据数量阈值,则判定当前推理系统的业务性能测试不合格,将当前推理系统的业务压力场景进行限定。
作为本发明的一种优选实施方式,步骤五中整体性能评估具体过程如下:
在推理系统完成推理性能测试和业务性能测试后,将当前推理系统对推理数据集的推理进行分析,获取到推理数据集在推理系统内被测音频时长与推理时长的比值以及被测视频的每秒推理帧数,并将推理数据集在推理系统内被测音频时长与推理时长的比值以及被测视频的每秒推理帧数分别与时长比值阈值和推理帧数阈值进行比较:
若推理数据集在推理系统内被测音频时长与推理时长的比值超过时长比值阈值,且被测视频的每秒推理帧数超过推理帧数阈值,则判定推理系统整体性能合格;若推理数据集在推理系统内被测音频时长与推理时长的比值未超过时长比值阈值,或者被测视频的每秒推理帧数未超过推理帧数阈值,则判定推理系统整体性能不合格;
采集到在推理过程中单个循环发送推理请求序列完成后实时推理请求传输的延迟时长以及实时推理请求出现延迟后推理成功率的浮动值,并将在推理过程中单个循环发送推理请求序列完成后实时推理请求传输的延迟时长以及实时推理请求出现延迟后推理成功率的浮动值分别与延迟时长阈值和成功率浮动值阈值进行比较:
若在推理过程中单个循环发送推理请求序列完成后实时推理请求传输的延迟时长未超过延迟时长阈值,且实时推理请求出现延迟后推理成功率的浮动值未超过成功率浮动值阈值,则判定推理系统为高效推理性能;
若在推理过程中单个循环发送推理请求序列完成后实时推理请求传输的延迟时长超过延迟时长阈值,或者实时推理请求出现延迟后推理成功率的浮动值超过成功率浮动值阈值,则判定推理系统为低效推理性能;
若推理系统整体性能合格时,且推理系统为高效推理性能时,则当前推理系统评估结果为高效合格运行;
若推理系统整体性能合格时,且推理系统为低效推理性能时,则当前推理系统评估结果为低效合格运行;
若推理系统整体性能不合格时,则当前推理系统评估结果为异常运行。
与现有技术相比,本发明的有益效果是:
1、本发明中,将推理压力进行分析,判定当前推理系统的运行强度,从而对当前推理系统进行运行分析,提高了推理系统预测的准确性,根据实时推理过程设定合适的循环发送推理请求序列,匹配合适的循环发送推理请求序列有利于推理系统进行实时数据推理的稳定性;确保推理系统在进行性能评估时能够正常合格运行,防止性能评估无法进行,同时对应推理系统的工作效率也无法保证;
2、本发明中,对当前推理系统的推理性能进行分析,确保推理系统本身推理过程是合格的,在推理合格的前提下才可以进行性能评估,保证推理质量的同时确保性能评估的正常进行,从而能够提高评估的工作效率;控制预构建测试数据集对应数量,也可以防止预设人工判定结果与对应预构建数据集的推理结果差距过大,导致业务性能测试准确性降低;此外,进行业务性能测试主要为在同一业务压力下进行业务性能测试,进行针对的对象为业务性能,故预构建测试数据集不必要设定太多,导致业务性能测试的工作量增加了,降低了系统的运行效率;
3、本发明中,通过各个性能测试,将推理系统的运行整体合格性分析以及运行效率分析,并根据分析结果进行预测评估,提高了推理系统预测评估的可信度,从而增强了预测评估的运行效率。
附图说明
为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明。
图1为本发明的原理框图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,一种推理系统业务性能评估的方法,具体推理系统业务性能评估方法步骤如下:
步骤一、推理压力判定,通过历史推理压力与当前推理压力进行比对,判定当前推理压力的类型;其中,推理压力表示为推理系统在推理过程中需要分析的数据量以及推理次数,且需要分析的数据包括图片、视频以及语音;推理压力分为增压推理压力和减压推理压力;
步骤二、实时推理稳定控制,在确定推理压力类型后,将当前需进行推理的数据构建推理数据集,并将实时构建的推理数据集设定循环发送推理请求序列;匹配合适的循环发送推理请求序列有利于推理系统进行实时数据推理的稳定性;
步骤三、推理性能测试,在完成循环发送推理请求序列设定,对推理系统内推理性能进行分析,在推理系统持续性运行的前提下,以相同推理压力以及不同业务压力场景为控制条件,根据当前测试数据集的实时推理结果与理想推理数据结果进行比对,根据比对判定当前推理系统的推理性能状态;其中,当前测试数据集表示为实时构建的推理数据集,理想推理数据结果表示为测试数据集通过当前推动系统的理想化推理后产生的数据结果;
可以理解的是,步骤三内将实时构建的数据集以相同推理压力且不同业务压力场景为前提条件进行推理性能判定,将实时构建的数据集对应推理结果与当前业务压力场景下的理想推理数据结果进行比对;业务压力场景表示为不同的业务压力场景,例如实时构建的数据集对应数据量增加频率以及业务需要完成推理的时间等对应数据不同的场景;
步骤四、业务性能测试,在推理系统持续性运行的前提下,以指定推理压力以及相同业务压力场景为控制条件,根据预构建测试数据集的实时推理结果与预设人工判定结果进行比对,通过比对判定当前业务性能的状态;可以理解的是,本步骤中预构建测试数据集与上述步骤中测试数据集不同,在当前推理系统根据实时推理数据集对当前系统的推理性能进行测试,故本步骤构建全新的数据集,且本步骤预构建测试数据集的具体数据量可以进行控制,如将预构建测试数据集设置为100张图片或者30秒视频或者音频;同时控制预构建测试数据集对应数量,也可以防止预设人工判定结果与对应预构建数据集的推理结果差距过大,导致业务性能测试准确性降低;此外,进行业务性能测试主要为在同一业务压力下进行业务性能测试,进行针对的对象为业务性能,故预构建测试数据集不必要设定太多,导致业务性能测试的工作量增加了,降低了系统的运行效率;
进一步地,本申请中推理性能与业务性能的区别在于,推理性能表示为在相同推理压力和不同业务压力场景下,推理系统进行数据推理与理想化推理数据的结果进行比对,判定当前推理系统推理准确性,而业务性能表示为在指定推理压力和同一业务压力场景下,预构建数据集并将预构建数据集的推理结果与预设人工判定的结果进行比对,判定不同数据集在同一业务压力场景的推理结果差别,将该推理系统内业务性能进行判定;
步骤五、整体性能评估,根据步骤三和步骤四的性能测试,对当前推理系统的整体性能进行总结判定,在完成整体性能判定后对当前推理系统的业务性能进行评估;
现有技术中,推理系统表示为根据现有数据进行推算的系统,在深度学习领域,已训练的模型被部署于特定的运行环境从而实现对业务系统的持续推理结果输出。在工程部署中,如何准确评估特定推理系统的性能是运营人员遇到的挑战;虽然国际上有MLPerfTraining性能测试指标(https://mlcommons.org/)和清华大学、鹏城实验室、中科院计算所联合推出的AIPerf性能测试指标,这些指标是在公开的推理模型和数据集下得到的结果。因此,这些数据无法直观地指导具体业务部署AI能力的性能规划。同时,硬件厂商提供的AI能力参数往往以单纯的GFlops或者Tflops为单位,无法直接对应业务的性能。
步骤一中推理压力判定的过程具体如下:
设定压力分析时间阈值,采集到推理系统在压力分析时间阈值下历史推理的数据量以及推理次数,并将推理系统在压力分析时间阈值下历史推理的数据量以及推理次数分别标记为历史推理量以及历史推理次数,将历史推理量和历史推理次数统一标记为历史推理压力数据;采集到当前压力分析时间阈值内待推理的数据量以及预计推理次数,并将当前压力分析时间阈值内待推理的数据量以及预计推理次数分别标记为实时推理量以及实时推理次数;将实时推理量以及实时推理次数统一标记为实时推理压力数据;
将历史推理压力数据与实时推理压力数据进行比较:若历史推理压力数据对应参数均超过实时推理压力数据对应参数,则将推理系统的实时推理压力标记为减压推理压力;若历史推理压力数据对应参数未均超过实时推理压力数据对应参数,则将推理系统的实时推理压力标记为增压推理压力;
步骤二中实时推理稳定控制具体过程如下:
通过步骤一确定实时推理压力类型,将当前待推理的数据进行采集并根据待推理数据构建推理数据集,同时对推理数据集设定循环发送推理请求序列,将循环发送推理请求序列数据划分为60分钟和24小时两种类型;根据推理数据集的数据量以及在当前业务压力场景下预计需要进行推理的频率判定循环发送推理请求序列数据类型,将推理数据集的数据量以及在当前业务压力场景下预计需要进行推理的频率分别与数据量阈值和推理频率阈值进行比较:
若推理数据集的数据量超过数据量阈值,且在当前业务压力场景下预计需要进行推理的频率未超过推理频率阈值,则判定当前推理运行为多量少次运行,将对应推理数据集设定24小时的循环发送推理请求序列;若推理数据集的数据量超过数据量阈值,且在当前业务压力场景下预计需要进行推理的频率超过推理频率阈值,则判定当前推理运行为多量多次运行,将对应推理数据集设定60分钟的循环发送推理请求序列;若推理数据集的数据量未超过数据量阈值,则将对应推理数据集设定为60分钟的循环发送推理请求序列;本申请中循环发送推理请求序列表示为推理系统针对当前推理数据集设定的单次推理周期,在推理数据集未超过对应阈值应设定60分钟的循环发送推理请求序列,提高了推理的工作效率,在推理数据超过对应阈值时,根据预计推理频率,若推理频率少则数据推理过程强度大,为提高了推理效率设定24小时的循环发送推理请求序列,反之若推理频率多,则判定数据推理过程强度小,但推理频率大则为保证推理效率不出错则设定60分钟的循环发送推理请求序列;
步骤三中推理性能测试具体过程如下:
在完成循环发送推理请求序列设定后,推理系统对推理数据集进行数据推理,在推理系统持续性运行的前提下,对推理系统的推理性能进行测试,将推理系统的推理过程设定同一推理压力,并且设定不同业务压力场景,不同业务压力场景的设定可以将业务压力场景内任一对应数据进行变动,即可改变对应业务压力场景;
在对应推理压力以及业务压力场景下,将推理系统对推理数据集的推理结果数据进行获取,并将获取的推理结果数据标记为实时推理完结数据;本申请中推理结果数据表示为推理数据集通过推理产生的数据,如:若推理数据集为10分钟的音频,推理系统当前设定的推理条件为推理人声音频,则推理结果数据即为原十分钟的音频内存在人生的音频,对应数据则包括时长以及分贝等相关参数;在对应推理压力以及业务压力场景下,将推理系统对应推理数据集的理想化推理结果数据进行获取,并将获取的推理结果数据标记为理想化推理完结数据;理想化推理表示为推理系统无其他推理任务或者推理系统不受任何外界环境影响的运行状态,如现有技术中物理计算过程内理想状态;
将实时推理完结数据与理想化推理完结数据进行比较:若实时推理完结数据与理想化推理完结数据比较未一致的数据种类数量未超过种类数量阈值,且不同业务压力场景下数据推理反馈时长未超过反馈时长阈值,则判定当前推理系统的推理性能测试合格;若实时推理完结数据与理想化推理完结数据比较未一致的数据种类数量超过种类数量阈值,或者不同业务压力场景下数据推理反馈时长超过反馈时长阈值,则判定当前推理系统的推理性能测试不合格,当推理系统的推理性能测试未合格时,将对应业务压力场景进行控制,控制业务压力场景对应数据,降低了推理系统进行数据推理的工作强度;
步骤四中业务性能测试具体过程如下:
在推理性能测试合格后,对当前推理系统的业务性能进行测试;在推理系统持续性运行的前提下,以指定推理压力以及相同业务压力场景为控制条件进行业务性能测试,同时预设测试数据集,且预设测试数据集对应数据量少于推理数据集的数据量;根据当前推理系统设定的推理条件,将预设测试数据集进行预设人工判定,并将其预设人工判定结果标记为预设人工结果数据,本申请中将预设测试数据集进行数量控制,故在人工判定过程中,对应推理结果数据差值影响较小;指定推理压力表示为在历史使用过的推理压力中任选一种;
将预设测试数据集通过推理系统进行预设测试数据结果采集,并将获取的预设测试数据结果对应数据与预设人工结果数据进行比较:
若预设测试数据结果对应数据与预设人工结果数据比较相同数据数量超过对应数据数量阈值,则判定当前推理系统的业务性能测试合格;若预设测试数据结果对应数据与预设人工结果数据比较相同数据数量未超过对应数据数量阈值,则判定当前推理系统的业务性能测试不合格,将当前推理系统的业务压力场景进行限定;
步骤五中整体性能评估具体过程如下:
在推理系统完成推理性能测试和业务性能测试后,将当前推理系统对推理数据集的推理进行分析,获取到推理数据集在推理系统内被测音频时长与推理时长的比值以及被测视频的每秒推理帧数,并将推理数据集在推理系统内被测音频时长与推理时长的比值以及被测视频的每秒推理帧数分别与时长比值阈值和推理帧数阈值进行比较:
若推理数据集在推理系统内被测音频时长与推理时长的比值超过时长比值阈值,且被测视频的每秒推理帧数超过推理帧数阈值,则判定推理系统整体性能合格;若推理数据集在推理系统内被测音频时长与推理时长的比值未超过时长比值阈值,或者被测视频的每秒推理帧数未超过推理帧数阈值,则判定推理系统整体性能不合格;本申请中推理数据以音频和视频为例,推理数据集内数据也可以是图片等参数,图片对应数据则为图片每秒推理的张数;
采集到在推理过程中单个循环发送推理请求序列完成后实时推理请求传输的延迟时长以及实时推理请求出现延迟后推理成功率的浮动值,并将在推理过程中单个循环发送推理请求序列完成后实时推理请求传输的延迟时长以及实时推理请求出现延迟后推理成功率的浮动值分别与延迟时长阈值和成功率浮动值阈值进行比较:
若在推理过程中单个循环发送推理请求序列完成后实时推理请求传输的延迟时长未超过延迟时长阈值,且实时推理请求出现延迟后推理成功率的浮动值未超过成功率浮动值阈值,则判定推理系统为高效推理性能;若在推理过程中单个循环发送推理请求序列完成后实时推理请求传输的延迟时长超过延迟时长阈值,或者实时推理请求出现延迟后推理成功率的浮动值超过成功率浮动值阈值,则判定推理系统为低效推理性能;
若推理系统整体性能合格时,且推理系统为高效推理性能时,则当前推理系统评估结果为高效合格运行;若推理系统整体性能合格时,且推理系统为低效推理性能时,则当前推理系统评估结果为低效合格运行;若推理系统整体性能不合格时,则当前推理系统评估结果为异常运行。
本发明在使用时,推理压力判定,通过历史推理压力与当前推理压力进行比对,判定当前推理压力的类型;实时推理稳定控制,在确定推理压力类型后,将当前需进行推理的数据构建推理数据集,并将实时构建的推理数据集设定循环发送推理请求序列;推理性能测试,在完成循环发送推理请求序列设定,对推理系统内推理性能进行分析,在推理系统持续性运行的前提下,以相同推理压力以及不同业务压力场景为控制条件,根据当前测试数据集的实时推理结果与理想推理数据结果进行比对,根据比对判定当前推理系统的推理性能状态;业务性能测试,在推理系统持续性运行的前提下,以指定推理压力以及相同业务压力场景为控制条件,根据预构建测试数据集的实时推理结果与预设人工判定结果进行比对,通过比对判定当前业务性能的状态;整体性能评估,根据步骤三和步骤四的性能测试,对当前推理系统的整体性能进行总结判定,在完成整体性能判定后对当前推理系统的业务性能进行评估。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (6)

1.一种推理系统业务性能评估的方法,其特征在于,具体推理系统业务性能评估方法步骤如下:
步骤一、推理压力判定,通过历史推理压力与当前推理压力进行比对,判定当前推理压力的类型;
步骤二、实时推理稳定控制,在确定推理压力类型后,将当前需进行推理的数据构建推理数据集,并将实时构建的推理数据集设定循环发送推理请求序列;
步骤三、推理性能测试,在完成循环发送推理请求序列设定,对推理系统内推理性能进行分析,在推理系统持续性运行的前提下,以相同推理压力以及不同业务压力场景为控制条件,根据当前测试数据集的实时推理结果与理想推理数据结果进行比对,根据比对判定当前推理系统的推理性能状态;
步骤四、业务性能测试,在推理系统持续性运行的前提下,以指定推理压力以及相同业务压力场景为控制条件,根据预构建测试数据集的实时推理结果与预设人工判定结果进行比对,通过比对判定当前业务性能的状态;
步骤五、整体性能评估,根据步骤三和步骤四的性能测试,对当前推理系统的整体性能进行总结判定,在完成整体性能判定后对当前推理系统的业务性能进行评估。
2.根据权利要求1所述的一种推理系统业务性能评估的方法,其特征在于,步骤一中推理压力判定的过程具体如下:
设定压力分析时间阈值,采集到推理系统在压力分析时间阈值下历史推理的数据量以及推理次数,并将推理系统在压力分析时间阈值下历史推理的数据量以及推理次数分别标记为历史推理量以及历史推理次数,将历史推理量和历史推理次数统一标记为历史推理压力数据;采集到当前压力分析时间阈值内待推理的数据量以及预计推理次数,并将当前压力分析时间阈值内待推理的数据量以及预计推理次数分别标记为实时推理量以及实时推理次数;将实时推理量以及实时推理次数统一标记为实时推理压力数据;
将历史推理压力数据与实时推理压力数据进行比较:若历史推理压力数据对应参数均超过实时推理压力数据对应参数,则将推理系统的实时推理压力标记为减压推理压力;若历史推理压力数据对应参数未均超过实时推理压力数据对应参数,则将推理系统的实时推理压力标记为增压推理压力。
3.根据权利要求1所述的一种推理系统业务性能评估的方法,其特征在于,步骤二中实时推理稳定控制具体过程如下:
通过步骤一确定实时推理压力类型,将当前待推理的数据进行采集并根据待推理数据构建推理数据集,同时对推理数据集设定循环发送推理请求序列,将循环发送推理请求序列数据划分为60分钟和24小时两种类型;
根据推理数据集的数据量以及在当前业务压力场景下预计需要进行推理的频率判定循环发送推理请求序列数据类型,将推理数据集的数据量以及在当前业务压力场景下预计需要进行推理的频率分别与数据量阈值和推理频率阈值进行比较:
若推理数据集的数据量超过数据量阈值,且在当前业务压力场景下预计需要进行推理的频率未超过推理频率阈值,则判定当前推理运行为多量少次运行,将对应推理数据集设定24小时的循环发送推理请求序列;
若推理数据集的数据量超过数据量阈值,且在当前业务压力场景下预计需要进行推理的频率超过推理频率阈值,则判定当前推理运行为多量多次运行,将对应推理数据集设定60分钟的循环发送推理请求序列;
若推理数据集的数据量未超过数据量阈值,则将对应推理数据集设定为60分钟的循环发送推理请求序列。
4.根据权利要求1所述的一种推理系统业务性能评估的方法,其特征在于,步骤三中推理性能测试具体过程如下:
在完成循环发送推理请求序列设定后,推理系统对推理数据集进行数据推理,在推理系统持续性运行的前提下,对推理系统的推理性能进行测试,将推理系统的推理过程设定同一推理压力,并且设定不同业务压力场景;
在对应推理压力以及业务压力场景下,将推理系统对推理数据集的推理结果数据进行获取,并将获取的推理结果数据标记为实时推理完结数据;在对应推理压力以及业务压力场景下,将推理系统对应推理数据集的理想化推理结果数据进行获取,并将获取的推理结果数据标记为理想化推理完结数据;将实时推理完结数据与理想化推理完结数据进行比较:
若实时推理完结数据与理想化推理完结数据比较未一致的数据种类数量未超过种类数量阈值,且不同业务压力场景下数据推理反馈时长未超过反馈时长阈值,则判定当前推理系统的推理性能测试合格;
若实时推理完结数据与理想化推理完结数据比较未一致的数据种类数量超过种类数量阈值,或者不同业务压力场景下数据推理反馈时长超过反馈时长阈值,则判定当前推理系统的推理性能测试不合格。
5.根据权利要求1所述的一种推理系统业务性能评估的方法,其特征在于,步骤四中业务性能测试具体过程如下:
在推理性能测试合格后,对当前推理系统的业务性能进行测试;在推理系统持续性运行的前提下,以指定推理压力以及相同业务压力场景为控制条件进行业务性能测试,同时预设测试数据集,且预设测试数据集对应数据量少于推理数据集的数据量;根据当前推理系统设定的推理条件,将预设测试数据集进行预设人工判定,并将其预设人工判定结果标记为预设人工结果数据;将预设测试数据集通过推理系统进行预设测试数据结果采集,并将获取的预设测试数据结果对应数据与预设人工结果数据进行比较:
若预设测试数据结果对应数据与预设人工结果数据比较相同数据数量超过对应数据数量阈值,则判定当前推理系统的业务性能测试合格;若预设测试数据结果对应数据与预设人工结果数据比较相同数据数量未超过对应数据数量阈值,则判定当前推理系统的业务性能测试不合格,将当前推理系统的业务压力场景进行限定。
6.根据权利要求1所述的一种推理系统业务性能评估的方法,其特征在于,步骤五中整体性能评估具体过程如下:
在推理系统完成推理性能测试和业务性能测试后,将当前推理系统对推理数据集的推理进行分析,获取到推理数据集在推理系统内被测音频时长与推理时长的比值以及被测视频的每秒推理帧数,并将推理数据集在推理系统内被测音频时长与推理时长的比值以及被测视频的每秒推理帧数分别与时长比值阈值和推理帧数阈值进行比较:
若推理数据集在推理系统内被测音频时长与推理时长的比值超过时长比值阈值,且被测视频的每秒推理帧数超过推理帧数阈值,则判定推理系统整体性能合格;若推理数据集在推理系统内被测音频时长与推理时长的比值未超过时长比值阈值,或者被测视频的每秒推理帧数未超过推理帧数阈值,则判定推理系统整体性能不合格;
采集到在推理过程中单个循环发送推理请求序列完成后实时推理请求传输的延迟时长以及实时推理请求出现延迟后推理成功率的浮动值,并将在推理过程中单个循环发送推理请求序列完成后实时推理请求传输的延迟时长以及实时推理请求出现延迟后推理成功率的浮动值分别与延迟时长阈值和成功率浮动值阈值进行比较:
若在推理过程中单个循环发送推理请求序列完成后实时推理请求传输的延迟时长未超过延迟时长阈值,且实时推理请求出现延迟后推理成功率的浮动值未超过成功率浮动值阈值,则判定推理系统为高效推理性能;
若在推理过程中单个循环发送推理请求序列完成后实时推理请求传输的延迟时长超过延迟时长阈值,或者实时推理请求出现延迟后推理成功率的浮动值超过成功率浮动值阈值,则判定推理系统为低效推理性能;
若推理系统整体性能合格时,且推理系统为高效推理性能时,则当前推理系统评估结果为高效合格运行;
若推理系统整体性能合格时,且推理系统为低效推理性能时,则当前推理系统评估结果为低效合格运行;
若推理系统整体性能不合格时,则当前推理系统评估结果为异常运行。
CN202210389201.XA 2022-04-14 2022-04-14 一种推理系统业务性能评估的方法 Active CN114741269B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210389201.XA CN114741269B (zh) 2022-04-14 2022-04-14 一种推理系统业务性能评估的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210389201.XA CN114741269B (zh) 2022-04-14 2022-04-14 一种推理系统业务性能评估的方法

Publications (2)

Publication Number Publication Date
CN114741269A CN114741269A (zh) 2022-07-12
CN114741269B true CN114741269B (zh) 2022-09-23

Family

ID=82281619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210389201.XA Active CN114741269B (zh) 2022-04-14 2022-04-14 一种推理系统业务性能评估的方法

Country Status (1)

Country Link
CN (1) CN114741269B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110471857A (zh) * 2019-08-22 2019-11-19 中国工商银行股份有限公司 人工智能模型性能容量的自动测试方法及装置
CN110502213A (zh) * 2019-05-24 2019-11-26 网思科技股份有限公司 一种人工智能能力开发平台
CN110826908A (zh) * 2019-11-05 2020-02-21 北京推想科技有限公司 人工智能预测的评估方法、装置、存储介质及电子设备
CN112215357A (zh) * 2020-09-29 2021-01-12 三一专用汽车有限责任公司 模型优化方法、装置、设备和计算机可读存储介质
CN112508044A (zh) * 2019-09-16 2021-03-16 华为技术有限公司 人工智能ai模型的评估方法、系统及设备
CN113128686A (zh) * 2020-01-16 2021-07-16 华为技术有限公司 模型训练方法及装置
CN113222149A (zh) * 2021-05-31 2021-08-06 联仁健康医疗大数据科技股份有限公司 模型训练方法、装置、设备和存储介质
WO2021179281A1 (en) * 2020-03-13 2021-09-16 Intel Corporation Optimizing low precision inference models for deployment of deep neural networks
CN113597618A (zh) * 2019-12-20 2021-11-02 京东方科技集团股份有限公司 推理计算装置、模型训练装置、推理计算系统
CN113986561A (zh) * 2021-12-28 2022-01-28 苏州浪潮智能科技有限公司 人工智能任务处理方法、装置、电子设备及可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11030086B2 (en) * 2019-02-15 2021-06-08 Tencent America LLC Machine learning model full life cycle management framework
KR102531645B1 (ko) * 2020-02-24 2023-05-11 주식회사 마키나락스 모델의 성능 테스트를 위한 컴퓨터 프로그램
CN113037594B (zh) * 2021-03-24 2022-09-16 北京百度网讯科技有限公司 基于云服务的压力测试方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502213A (zh) * 2019-05-24 2019-11-26 网思科技股份有限公司 一种人工智能能力开发平台
CN110471857A (zh) * 2019-08-22 2019-11-19 中国工商银行股份有限公司 人工智能模型性能容量的自动测试方法及装置
CN112508044A (zh) * 2019-09-16 2021-03-16 华为技术有限公司 人工智能ai模型的评估方法、系统及设备
CN110826908A (zh) * 2019-11-05 2020-02-21 北京推想科技有限公司 人工智能预测的评估方法、装置、存储介质及电子设备
CN113597618A (zh) * 2019-12-20 2021-11-02 京东方科技集团股份有限公司 推理计算装置、模型训练装置、推理计算系统
CN113128686A (zh) * 2020-01-16 2021-07-16 华为技术有限公司 模型训练方法及装置
WO2021179281A1 (en) * 2020-03-13 2021-09-16 Intel Corporation Optimizing low precision inference models for deployment of deep neural networks
CN112215357A (zh) * 2020-09-29 2021-01-12 三一专用汽车有限责任公司 模型优化方法、装置、设备和计算机可读存储介质
CN113222149A (zh) * 2021-05-31 2021-08-06 联仁健康医疗大数据科技股份有限公司 模型训练方法、装置、设备和存储介质
CN113986561A (zh) * 2021-12-28 2022-01-28 苏州浪潮智能科技有限公司 人工智能任务处理方法、装置、电子设备及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《基于图神经网络的网络性能智能预测》;李奕江;《电信科学》;20220331;全文 *
Prediction Model of Shield Performance During Tunneling via Incorporating Improved Particle Swarm Optimization Into ANFIS;Khalid Elbaz;《IEEE Access》;20200214;全文 *

Also Published As

Publication number Publication date
CN114741269A (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN111913803B (zh) 一种基于akx混合模型的服务负载细粒度预测方法
CN113496089B (zh) 基于人工智能的物联网设备异常状态在线监测方法及系统
CN114039870B (zh) 基于深度学习的蜂窝网络中视频流应用实时带宽预测方法
CN109815855B (zh) 一种基于机器学习的电子设备自动测试方法及系统
CN109960881B (zh) 基于格兰杰因果性的过程变量评估方法
CN114741269B (zh) 一种推理系统业务性能评估的方法
US10628541B2 (en) Method and apparatus for selecting integrated circuit device neural network modeling sample
CN112906883A (zh) 用于深度神经网络的混合精度量化策略确定方法和系统
CN108537322A (zh) 神经网络层间激活值量化方法及装置
CN111090585B (zh) 一种基于众测过程的众测任务关闭时间自动预测方法
CN116450671B (zh) 智能交互会话大数据分析方法及大数据服务器
CN112529107A (zh) 基于可见光图像识别的等离子体温度瞬态诊断方法和系统
CN115865617B (zh) 一种vpn远程诊断及维护系统
CN115952098A (zh) 一种性能测试调优方案推荐方法及系统
CN115983458A (zh) 基于灰色bp神经网络的电力碳排放峰值预测方法及系统
CN110989040B (zh) 一种基于切片处理的人工智能雷电临近预警方法及系统
CN111589284A (zh) 一种针对喷氨控制系统的逐步回归数据处理方法
CN113420165A (zh) 二分类模型的训练、多媒体数据的分类方法及装置
CN111190045A (zh) 电压异常预测方法及装置、电子设备
CN111786824A (zh) 数据中心能效比优化方法、系统、设备及可读存储介质
CN111291020A (zh) 基于局部加权线性动态系统的动态过程软测量建模方法
CN117116280B (zh) 一种基于人工智能的语音数据智能管理系统及方法
CN117575916B (zh) 基于深度学习的图像质量优化方法、系统、设备及介质
US20220381832A1 (en) Production of a Quality Test System
KR102074972B1 (ko) 모터 제어기의 성능 시험 시뮬레이션 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221031

Address after: Room 800, Room 406, No. 1 Yichuang Street, Huangpu District, Guangzhou City, Guangdong Province (Sino-Singapore Guangzhou Knowledge City) 510000

Patentee after: Nets Technology Group Co.,Ltd.

Address before: 510000 rooms 701 and 702, No. 1, Linjiang Avenue, Tianhe District, Guangzhou, Guangdong

Patentee before: Networks Technology Co.,Ltd.